BulNet

от Уикипедия, свободната енциклопедия

Българският WordNet (BulNet) представлява богата лексикално-семантична база данни.

Изработва се в Секцията по компютърна лингвистика в Института за български език на Българска академия на науките.[1][2][3][4]

Обща информация[редактиране | редактиране на кода]

BulNet е създаден в рамките на европейския проект БалкаНет – многоезична семантична мрежа на балканските езици, който е насочен към изграждането на синхронизирани семантични бази от данни за следните балкански езици – български, гръцки, румънски, сръбски, турски, и разширяване на чешката лексикално-семантична мрежа. След приключването на проекта БалкаНет, изграждането на българския WordNet продължава в рамките на национално финансираните проекти „BulNet – лексикално-семантична мрежа на българския език“ (2005 – 2010) и „Електронни езикови ресурси и програми за тяхната обработка“ (2011 – 2013), вторият от които е съфинансиран по проекта „ЦЕЗАР – Централно- и южноевропейски езикови ресурси“ по програма ICT PSP: CIP-ICT-PSP-2010.6.1.[5]

Съдържание на BulNet[редактиране | редактиране на кода]

Категории думи[редактиране | редактиране на кода]

Към момента българският WordNet съдържа повече от 80 000 синонимни множества (към 15 април 2015 г.), разпределени в девет части на речта – съществителни, глаголи, прилагателни, наречия, местоимения, предлози, съюзи, частици и междуметия. Думите, които са включени в българския WordNet, са избирани по различни критерии, като доминиращи са били честотният анализ на срещанията на думите в големи корпуси от текстове (при това не на словоформи, което би довело до грешка в анализа, а на основни форми), както и включването на тези синонимни множества, които вече фигурират в базите данни на другите езици, и синонимни множества, съответстващи на значения, които се срещат с голяма честота в паралелни корпуси.

Синонимни множества[редактиране | редактиране на кода]

Всяко синонимно множество – SYNSET, кодира релация на еквивалентност между няколко единици – LITERALS (поне един трябва да присъства експлицитно в множеството), които имат уникално лексемно значение (специфицирано чрез стойността на SENSE), принадлежат към една и съща част на речта (специфицирана чрез стойността на POS), и изразяват еднакво значение (което се специфицира чрез стойността на DEF). Всяко синонимно множество се свързва с кореспондиращото синонимно множество в PWN3.0 чрез идентификационен номер – ID. Общите синонимни множества в балканските езици са маркирани като подмножества на общи концепти – BCS. Трябва да има поне една вътрешно езикова релация (може да има повече) между две синонимни множества в едноезичната база данни. Може да има също така незадължителна информация, която кодира употребата, някои стилистични, морфологични или синтактични признаци, маркираща автора, както и последната промяна.

Семантични релации[редактиране | редактиране на кода]

Големият брой релации, включени в Българския wordnet, отлично илюстрира езиковото богатство на семантично и словообразувателно равнище – от това произтичат и възможностите за многобройни практически приложения на многоезичната база от данни. Българската електронна семантична база от данни предлага решения на семантично равнище – възможност за избор на синоними, възможност за справка за семантичните отношения на дадена дума по отношение на системата от останали думи в езика (антоними, отношения род-вид, част-цяло и др.), възможност за справка с тълковното значение на думата и паралелни предложения.[6][7][8]

Hydra[редактиране | редактиране на кода]

Hydra е платформено независима програма за създаване и валидиране на лексикално-семантични мрежи. Програмата дава възможност на потребителите да редактират или търсят в произволен брой уърднети едновременно. Отделните уърднети могат да се синхронизират, което позволява едновременното визуализиране на еквивалентните синонимни множества в различните езици.[9]

Източници[редактиране | редактиране на кода]

  1. Koeva, S., G. Totkov and A. Genov. Towards Bulgarian WordNet. Romanian Journal of Information Science and Technology, Vol. 7, No. 1 – 2, 45 – 61, 2004. ISSN1453-8245.
  2. Koeva, S. Bulgarian WordNet – development and perspectives. In International Conference Cognitive Modeling in Linguistics, Varna, 2005, 270 – 271.
  3. Коева, Св. БулНет (лексикално-семантична мрежа на българския език) – част от световната лексикално-семантична мрежа. Български език, 2007, 1, 34 – 50. ISSN 0005 – 4283. ERIH
  4. Koeva, S. Bulgarian Wordnet – current state, applications and prospects. In Bulgarian-American Dialogues, Prof. M. Drinov Academic Publishing House, Sofia, 2010, 120 – 132. ISBN 978-954-322-383-1.
  5. Коева, Св. Славянските езици в BalkaNet – методология за проверка на непротиворечивостта на данните. В: Славистика и общество, съст. М. Младенова и И. Монова, „Херон прес“, София, 2006, 120 – 125. ISBN 954-580-189-1.
  6. Коева, Св. Релациите в Wordnet. В: Лексикологията и лексикографията в съвременния свят, „Знак’94“, Велико Търново, 2007, 287 – 297.
  7. Koeva, S. Derivational and morphosemantic relations in Bulgarian Wordnet Архив на оригинала от 2011-07-08 в Wayback Machine.. In Intelligent Information Systems, XVI, Warsaw, Academic Publishing House, 2008, 359 – 389.
  8. Tsvetana Dimitrova, Ekaterina Tarpomanova and Borislav Rizov. Coping with Derivation in the Bulgarian Wordnet. В: Heili Orav, Christiane Fellbaum and Piek Vossen (Eds.) Proceedings of the Seventh Global Wordnet Conference, Tartu, Estonia, 2014, pp. 109 – 117.
  9. Borislav Rizov. Hydra: A Software System for Wordnet. В: Heili Orav, Christiane Fellbaum and Piek Vossen (Eds.) Proceedings of the Seventh Global Wordnet Conference, Tartu, Estonia, 2014, pp. 142 – 147.

Външни препратки[редактиране | редактиране на кода]