Направо към съдържанието

Лингвистични свързани отворени данни

от Уикипедия, свободната енциклопедия

Лингвистичните свързани отворени данни (ЛСОД) в обработката на естествения език, езикознанието и съседни области представляват, от една страна, метод за описание на езикови ресурси, и от друга страна, интердисциплинарната общност от специалисти, които се занимават със създаването, споделянето и използването на езикови ресурси според принципите за свързаните данни. Облакът на лингвистичните свързани отворени данни е създаден и поддържан от работна група за отворена лингвистика на фондацията „Отворено знание“, но оттогава е в центъра на дейността на няколко W3C групи, изследователски проекти и инфраструктурни усилия.

Лингвистични свързани отворени данни[редактиране | редактиране на кода]

ЛСОД облак

Лингвистичните свързани отворени данни публикуват данни, необходими за езикознанието и обработката на естествения език, като следват следните принципи:[1]

  • Данните трябва да бъдат лицензирани като свободни данни и за целта да се ползват лицензи като Криейтив Комънс.
  • Елементите в един набор от данни трябва да се определят по уникален начин чрез URI.
  • Всеки URI в ЛСОД трябва да води до действителна уебстраница и да позволява на потребителите достъп до повече информация чрез уеббраузъри.
  • Действителните уебстраници на даден ресурс от ЛСОД трябва да предостави резултати чрез използването на уебстандарти като Resource Description Framework (RDF).
  • Всеки езиков ресурс в ЛСОД трябва да включва хипервръзки, които да помогнат на потребителите да откриват нови ресурси и да им предоставят необходимата семантика.

Основните ползи от лингвистичните свързани отворени данни (ЛСОД) са:[2]

  • Представяне: свързаните графи са по-гъвкав начин на представяне на езиковите данни.
  • Оперативна съвместимост: общоприетите RDF модели могат лесно да се интегрират.
  • Комбиниране: данните от различни източници могат да се комбинират лесно.
  • Екосистема: инструментите за RDF и свързаните данни са широко достъпни чрез лицензи за отворен код.
  • Експресивност: съществуващите формални речници (онтологии) подпомагат представянето на лингвистични ресурси.
  • Семантика: взаимовръзките (чрез общи хипервръзки) дефинират какво се има предвид.
  • Динамичност: уебданните подлежат на непрекъснато подобряване.

Облачната диаграма на ЛСОД се намира на следния линк: linguistic-lod.org [3]

Приложения на лингвистичните свързани отворени данни (ЛСОД)[редактиране | редактиране на кода]

Лингвистичните свързани отворени данни са прилагани успешно към голям брой научни изследователски задачи:

  • Анотацията на езикови данни и съответният механизъм за езиково маркиране представляват основни елементи на анализ във всички области на емпиричното езикознание, компютърната филология и обработката на естествения език. Напредъкът в тази област обаче е възпрепятстван от предизвикателствата на оперативната съвместимост. Най-значителни сред проблемите са разликите във формалните речници (онтологии) и схемите за анотиране, които се използват за описание на различни ресурси и се поддържат от различни инструменти, подпомагащи работата с тези анотации. Използването на свързани данни за съотнасянето между езикови ресурси и онтологични/терминологични хранилища улеснява по-нататъшното използване на споделени речници и тълкуването им на базата на общи принципи.
  • В корпусната лингвистика и компютърната филология припокриващите се анотации представляват добре познат проблем на обичайните XML формати. За справянето с този проблем различни модели над данни, основани на графи, се предлагат от края на 90-те години на двадесети век[4]. Обикновено те са представени чрез множество от взаимосвързани XML файлове (т.нар. standoff XML[5], съществуващи самостоятелно XML елементи или документи), които са трудни за поддържане от стандартната XML технология[6]. Моделирането на такива сложни анотации чрез технологии като свързаните данни представя формализъм, който е семантично еквивалентен на standoff XML[7], но елиминира нуждата от специализирана технология. Вместо това се разчита на съществуващата вече RDF екосистема.
  • При моделирането на многоезикови ресурси, включително и свързването на лексикални ресурси като WordNet с помощта на междуезиковия индекс на Глобалната асоциация на WordNet. Тук се включва и свързването на лексикални ресурси като WordNet и Wikipedia, както е направено например в BabelNet.
  • Предоставя дискусионни форуми за стандартизация на информацията в езиковите ресурси.

Лингвистичните свързани отворени данни влияят върху развитието на:

  • Най-добрите практики за свързване на лексикални данни в интернет (за данни, които са публикувани според изискванията на OntoLex)
  • Най-добрите практики за анотации в интернет (например използването на стандарта Web Annotation)
  • Най-добрите практики за моделиране и споделяне на текстови ресурси с припокриващи се анотации

Избрани източници за лингвистични свързани отворени данни (ЛСОД)[редактиране | редактиране на кода]

Според данни от октомври 2018 г. десетте най-често свързвани ресурси в диаграмата на ЛСОД (според броя на свързаните множества от данни) са:

  • Онтологията за лингвистична анотация (The Ontologies of Linguistic Annotation – OLiA – свързана със 74 множества от данни) предоставя референтна терминология за лингвистични анотации и граматически метаданни;
  • WordNet (свързан с 51 множества от данни) – лексикална база данни за английския език и опора в разработването на подобни бази данни за други езици с няколко издания (принстънското издание е с 36 множества от данни; изданието на W3С е с 8 множества от данни; изданието на VU е със 7 множества от данни);
  • DBpedia (свързана с 50 множества от данни) – многоезична база от знания, основана на Уикипедия;
  • lexinfo.net (свързан с 36 множества от данни) предоставя референтна терминология за лексикални ресурси;
  • BabelNet (свързан с 33 множества от данни) – многоезична лексикализирана семантична мрежа, която интегрира различни други ресурси, най-вече WordNet и Уикипедия;
  • lexvo.org (свързан с 26 множества от данни) предоставя езикови идентификатори и друга информация, свързана с езика. Най-важното за lexvo е, че предоставя RDF представяне на трибуквени кодове от стандарта ISO 639 – 3 за езикови идентификатори и информация за езика;
  • Регистърът на категория данни ISO 12620 (ISOcat; RDF издание; свързан с 10 множества от данни) предоставя полуструктурирано хранилище за езиковата терминологията. ISOcat се съхранява в Езиковия архив и по-точно – от проекта DOBES към Института за психолингвистика „Макс Планк“. Обаче преминава към CLARIN;
  • UBY (RDF издание lemon-Uby; свързан с 9 множества от данни) – лексикална мрежа за английския език, интегрирала в себе си множество други лексикални ресурси;
  • Glottolog (свързан със 7 множества от данни) предоставя добре подбрани езикови идентификатори за езици с малко на брой ресурси, и по-точно такива, които не са обхванати от lexvo.org;
  • Уикиречник-DBpedia (wiktionary.dbpedia.org; свързано със 7 множества от данни) – това са лексикализациите на Уикиречник за понятията на DBpedia.

Развитие на ЛСОД облака и дейности на общността[редактиране | редактиране на кода]

Облачната диаграма на ЛСОД се поддържа от Работната група за отворена лингвистика към фондацията „Отворено знание“ (от 2014 г. става отворено знание). Тя е отворена за експерти по езикови ресурси и е интердисциплинарна.

Работнатата група за отворена лингвистика организира мероприятия и координира развитието на ЛСОД, а също така улеснява интердисциплинарната комуникация между участниците и потребителите на ЛСОД.

Няколко бизнес и научни W3C групи се фокусират върху специализираните страни на ЛСОД:

  • W3C Ontology-Lexica Community Group (OntoLex) – развива и поддържа спецификации за машинно четими речници в облака на ЛСОД.
  • W3C Best Practices for Multilingual Linked Open Data Community Group – събира информация относно най-добрите практики за създаване на междуезикови свързани отворени данни.[8]
  • W3C Linked Data for Language Technology Community Group – събират сценарии за използване от потребители, както и изисквания за приложенията с езикови технологии, които ползват свързани данни.[9]

ЛСОД се развива и документира в поредица от международни семинари, практически състезания (datathons) и публикации. Сред тях се открояват следните:

· Свързани данни в лингвистиката (Linked Data in Linguistics, LDL) – ежегоден научен семинар, започнал през 2012 г.;

· Междуезикови свързани отворени данни за предприятия (Multilingual Linked Open Data for Enterprises, MLODE) – заседание на общността два пъти годишно (2012 г. и 2014 г.);

· Лятно състезание за лингвистични свързани отворени данни (Summer Datathon on Linguistic Linked Open Data, SD-LLOD) – провежда се два пъти годишно от 2015 г. насам.

Използването и развитието на ЛСОД е предмет на няколко големи изследователски проекта, сред които:

  • LOD2. Creating Knowledge out of Interlinked Data (11 държави от ЕС и Корея, 2010 – 2014)[10]
  • MONNET. Multilingual Ontologies for Networked Knowledge (5 държави от ЕС, 2010 – 2013)[11]
  • LIDER. Linked Data as an enabler of cross-media and multilingual content analytics for enterprises across Europe (5 държави от ЕС, 2013 – 2015)[12]
  • QTLeap. Quality Translation by Deep Language Engineering Approaches (6 държави от ЕС, 2013 – 2016)[13]
  • LiODi. Linked Open Dictionaries (BMBF група от млади е-хуманитаристи, университетът „Гьоте“, Франкфурт, Германия, 2015 – 2020)[14]
  • FREME. Open Framework of E-Services for Multilingual and Semantic Enrichment of Digital Content (6 държави от ЕС, 2015 – 2017)[15]
  • POSTDATA. Poetry Standardization and Linked Open Data (Starting Grant към Европейския съвет за научни изследвания, Националният университет за дистанционно образование, Испания, 2016 – 2021)[16]
  • Linking Latin (Consolidator Grant към Европейския съвет за научни изследвания, Католическият университет на свещеното сърце, Италия, 2018 – 2023)[17]
  • Pret-a-LLOD (5 държави от ЕС, 2019 – 2021)[18]
  • NexusLinguarum. European network for Web-centred linguistic data science (COST Action, 35 членуващи в COST държави, 2 съседни държави, една държава – интернационален партньор, 2019 – 2023).[19]

Източници[редактиране | редактиране на кода]

  1. Linguistic Linked Open Data
  2. Chiarcos, Christian; McCrae, John; Cimiano, Philipp; Fellbaum, Christiane. Towards open data for linguistics: Lexical Linked Data // Alessandro Oltramari, Piek Vossen, Lu Qin, and Eduard Hovy (eds.), New Trends of Research in Ontologies and Lexical Resources.. 2013.
  3. Linguistic Linked Open Data
  4. Bird, Steven; Liberman, Mark. Towards a formal framework for linguistic annotations // Proceedings of the International Conference on Spoken Language Processing. 1998.
  5. Language resource management – Linguistic annotation framework (LAF) // 2012.
  6. Eckart, Richard. Choosing an XML database for linguistically annotated corpora // SDV. Sprache und Datenverarbeitung 32.1/2008: International Journal for Language Data Processing, Workshop Datenbanktechnologien für hypermediale linguistische Anwendungen (KONVENS 2008), Universitätsverlag Rhein-Ruhr. 2008.
  7. Chiarcos, Chiarcos, Christian. Interoperability of Corpora and Annotations (draft version) // Christian Chiarcos, Sebastian Nordhoff, and Sebastian Hellmann (eds.) Linked Data in Linguistics. Representing and Connecting Language Data and Language Metadata. 2012.
  8. Best Practices for Multilingual Linked Open Data Community Group
  9. Linked Data for Language Technology Community Group
  10. lod2.okfn.org // Архивиран от оригинала на 2014-03-07.
  11. Multilingual Ontologies for Networked Knowledge (Monnet)
  12. LIDER: Linked Data as an enabler of cross-media and multilingual content analytics for enterprises across Europe
  13. Quality Translation by Deep Language Engineering Approaches
  14. "Linked Open Dictionaries (LiODi) // Архивиран от оригинала на 2020-01-17.
  15. Open Framework of E-Services for Multilingual and Semantic Enrichment of Digital Content
  16. POSTDATA – Poetry Standardization and Linked Open Data
  17. Linking Latin. Building a Knowledge Base of Linguistic Resources for Latin
  18. Pret-a-LLOD project home page
  19. CA18209 – European network for Web-centred linguistic data science