WordNet

от Уикипедия, свободната енциклопедия
Направо към навигацията Направо към търсенето

WordNet е лексикална база данни за английски език.[1] Думите са групирани в синонимни редове, наречени синсети (synsets), които са снабдени с кратки дефиниции и примери за употреба. Системата използва и множество от релации между синонимните редове или отделни техни членове. По тази причина WordNet може да се разглежда като комбинация от различни видове речници — тълковен речник, синонимен речник и други. WordNet може да се ползва от различни потребители (обикновено посредством уеб браузър), но и намира широко приложение в областта на автоматичната обработка на естествените езици и изкуствения интелект.

Базата данни и софтуерът на WordNet се разпространяват безплатно с . Лексикографските данни (lexicographer files) и компилаторът (grind) също са свободни за ползване.

Кратка история[редактиране | редактиране на кода]

WordNet оригинално е разработен от Лаборатарията за когнитивни науки към под ръководството на професора по психология George Armitage Miller. Проектът започва през 1985, а в последните години се ръководи от Christiane Fellbaum.

Съдържание на базата от данни[редактиране | редактиране на кода]

Пример: записът за думата „Hamburger“ в WordNet

Към ноември 2012 година, последната версия на WordNet е 3.1.[2]

Базата от данни съдържа 155 287 думи, организирани в 117 659 синонимни множества (синсети), формиращи 206 941 двойки дума-значение; в компресирана форма представлява файл с размер 12 MB.[3]

Като лексикални категории WordNet включва съществителни имена, глаголи, прилагателни имена и наречия, но не и предлози, (не)определителни членове и други служебни думи.

Синсетите включват думи, които могат да бъдат определени като синоними. Това може да бъдат прости думи, както и съставни думи и колокации (свободни съчетания, описващи дадено понятие), например eat out ‘храня се извън къщи’ или car pool ‘автомобили за споделено използване’. Дадена многозначна дума може да участва с различните си значения в различни синсети.

Всеки синсет съдържа кратка дефиниция и един или повече илюстративни примери. Например:

good, right, ripe – (most suitable or right for a particular purpose; "a good time to plant tomatoes"; "the right time to act"; "the time is ripe for great sociological changes")

Синсетите се свързват с други синсети посредством множество от семантични релации. Някои от релациите са ограничени само до специфичен клас думи. В Принстънския WordNet присъстват следните релации:

  • Релации между съществителни имена
    • хиперними: Y е хиперним на X, ако всяко X е (вид) Y (canine ‘животно от семейството Canidae’ е хиперним на dog ‘куче’)
    • хипоними: Y е хипоним на X, ако всяко Y е (вид) X (dog е хипоним на canine)
    • съподчинени понятия: Y е съподчинено на X, ако X и Y споделят хиперним (wolf ‘вълк’ е съподчинено понятие на dog и обратно)
    • мероним: Y е мероним на X, ако Y е част от X (window ‘прозорец’ е мероним на building ‘сграда’)
    • холоним: Y е холоним на X, ако X е част от Y (building е холоним на window)
  • Релации между глаголи
    • хиперним: глаголът Y е хиперним на глагола X, ако действието X е (вид) Y (to perceive ‘възприемам’ е хиперним на to listen ‘чувам’)
    • тропоним: глаголът Y е тропоним на глагола X, ако действието Y представлява извършване на X по определен начин (to lisp ‘фъфля’ е тропоним на to talk ‘говоря’)
    • импликация: глаголът Y се имплицира от X, ако извършването на X означава, че непременно се извършва и Y (to sleep ‘спя’ е имплицирано от to snore ‘хъркам’)
    • съподчинени понятия: глаголи, които споделят общ хиперним (to lisp и to yell ‘викам’)

Тези семантични релации свързват целите синсети. Съществуват и релации между отделни членове на синсетите (отделни думи). Например, съществителното director се свързва с глагола direct чрез морфосемантична релация.

Структура[редактиране | редактиране на кода]

Съществителните имена и глаголите са организирани в йерархии, дефинирани чрез релациите hypernym или IS A. Например, думата dog се среща в следната хиперонимна йерархия (думи на едно ниво са от същия синсет; всеки синсет има уникален идентификатор):

dog, domestic dog, Canis familiaris
    => canine, canid
       => carnivore
         => placental, placental mammal, eutherian, eutherian mammal
           => mammal
             => vertebrate, craniate
               => chordate
                 => animal, animate being, beast, brute, creature, fauna
                   => ...

На върха тези йерархии са организирани в 25 начални "дървета" при съществителните и 15 при глаголите (описани в lexicographic files). Прилагателните имена не са организирани в йерархични дървовидни структури, а са свързани с релации за антонимия и подобие.

Ограничения[редактиране | редактиране на кода]

WordNet не включва информация за етимологията на думите или произношението им, а относно употребата информацията е силно ограничена. Също така WordNet се стреми да включва ежедневна лексика и затова покритието на специализирана терминология не е добро.

Приложения[редактиране | редактиране на кода]

WordNet се използва в приложения и системи за отстраняване на лексикално-семантична многозначност и за други цели[4][5][6][7]

Системи за откриване на подобие на текстове, основани на WordNet:

implementation

  • Свързване на речници [10]

Global WordNet Association (GWA)[редактиране | редактиране на кода]

Global WordNet Association (GWA)[11] осигурява платформа за обсъждане, споделяне и свързване на уърднетите за различни езици. Също така Асоциацията промотира въвеждането на стандарти за уърднетите, за да се осигури тяхната съвместимост и да се улесни използването им за многоезични проекти и системи. GWA поддържа списък на уърднетите по света.[12]

WordNet за други езици[редактиране | редактиране на кода]

В последните години бяха създадени уърднети за различни езици. През 2012 беше изготвен лист на уърднетите и лицензите, които ползват[13]

The Open Multilingual WordNet[14] осигурява достъп до свободно разпространявани уърднети, включително Princeton Wordnet of English (PWN).

Близки системи[редактиране | редактиране на кода]

Свързани проекти[редактиране | редактиране на кода]

Дистрибуции[редактиране | редактиране на кода]

WordNet се разпространява за следните приложения:

Вижте също[редактиране | редактиране на кода]

Литература[редактиране | редактиране на кода]

  1. G. A. Miller, R. Beckwith, C. D. Fellbaum, D. Gross, K. Miller. 1990. WordNet: An online lexical database. Int. J. Lexicograph. 3, 4, pp. 235–244.
  2. Current WordNet version. // Wordnet.princeton.edu, 9 ноември 2012. Посетен на 11 март 2014.
  3. WordNet Statistics. // Wordnet.princeton.edu. Посетен на 11 март 2014.
  4. R. Navigli. Word Sense Disambiguation: A Survey, ACM Computing Surveys, 41(2), 2009, pp. 1–69
  5. E. Agirre, O. Lopez. 2003. Clustering WordNet Word Senses. In Proc. of the Conference on Recent Advances on Natural Language (RANLP’03), Borovetz, Bulgaria, pp. 121–130.
  6. R. Navigli. Meaningful Clustering of Senses Helps Boost Word Sense Disambiguation Performance, In Proc. of the 44th Annual Meeting of the Association for Computational Linguistics joint with the 21st International Conference on Computational Linguistics (COLING-ACL 2006), Sydney, Australia, July 17-21st, 2006, pp. 105–112.
  7. R. Snow, S. Prakash, D. Jurafsky, A. Y. Ng. 2007. Learning to Merge Word Senses, In Proc. of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), Prague, Czech Republic, pp. 1005–1014.
  8. Ted Pedersen – WordNet::Similarity. // D.umn.edu, 16 юни 2008. Посетен на 11 март 2014.
  9. M. T. Pilehvar, D. Jurgens and R. Navigli. Align, Disambiguate and Walk: A Unified Approach for Measuring Semantic Similarity.. Proc. of the 51st Annual Meeting of the Association for Computational Linguistics (ACL 2013), Sofia, Bulgaria, August 4–9, 2013, pp. 1341-1351.
  10. Ballatore A. et al.. Linking geographic vocabularies through WordNet. // Annals of GIS 20 (2). 2014.
  11. The Global WordNet Association. globalwordnet.org. // globalwordnet.org, 4 февруари 2010. Посетен на 11 март 2014.
  12. Wordnets in the World. // Архив на оригинала от 21 октомври 2011.
  13. Francis Bond and Kyonghee Paik 2012a. A survey of wordnets and their licenses. In Proceedings of the 6th Global WordNet Conference (GWC 2012). Matsue. 64–71
  14. compling.hss.ntu.edu.sg
  15. Chinese Wordnet (中文詞彙網路) official page at National Taiwan University
  16. S. Benoît, F. Darja. 2008. Building a free French wordnet from multilingual resources. In Proc. of Ontolex 2008, Marrakech, Maroc.
  17. C. Mouton, G. de Chalendar. 2010.JAWS: Just Another WordNet Subset. In Proc. of TALN 2010.
  18. Pushpak Bhattacharyya, IndoWordNet, Lexical Resources Engineering Conference 2010 (LREC 2010), Malta, май 2010.
  19. E. Pianta, L. Bentivogli, C. Girardi. 2002. MultiWordNet: Developing an aligned multilingual database. In Proc. of the 1st International Conference on Global WordNet, Mysore, India, pp. 21–25.
  20. P. Vossen, Ed. 1998. EuroWordNet: A Multilingual Database with Lexical Semantic Networks. Kluwer, Dordrecht, The Netherlands.
  21. The Global WordNet Association. // Globalwordnet.org, 4 февруари 2010. Посетен на 5 януари 2014.
  22. D. Tufis, D. Cristea, S. Stamou. 2004. Balkanet: Aims, methods, results and perspectives. A general overview. Romanian J. Sci. Tech. Inform. (Special Issue on Balkanet), 7(1-2), pp. 9–43.
  23. Русский WordNet. // Pgups.ru. Посетен на 5 януари 2014.
  24. RussNet: Главна страница. // Project.phil.spbu.ru. Посетен на 11 март 2014.
  25. FinnWordNet – The Finnish WordNet – Department of General Linguistics. // Ling.helsinki.fi. Посетен на 5 януари 2014.
  26. GermaNet. // Sfs.uni-tuebingen.de. Посетен на 11 март 2014.
  27. arademaker/openWordnet-PT ¡ GitHub. // Github.com. Посетен на 5 януари 2014.
  28. official webpage plwordnet.pwr.wroc.pl
  29. official webpage www.ltc.amu.edu.pl
  30. R. Navigli, S. P. Ponzetto. BabelNet: Building a Very Large Multilingual Semantic Network. Proc. of the 48th Annual Meeting of the Association for Computational Linguistics (ACL 2010), Uppsala, Sweden, July 11–16, 2010, pp. 216–225.
  31. A. Pease, I. Niles, J. Li. 2002. The suggested upper merged ontology: A large ontology for the Semantic Web and its applications. In Proc. of the AAAI-2002 Workshop on Ontologies and the Semantic Web, Edmonton, Canada.
  32. S. Reed and D. Lenat. 2002. Mapping Ontologies into Cyc. In Proc. of AAAI 2002 Conference Workshop on Ontologies For The Semantic Web, Edmonton, Canada, 2002.
  33. Masolo, C., Borgo, S., Gangemi, A., Guarino, N., Oltramari, A., Schneider, L.S. 2002. WonderWeb Deliverable D17. The WonderWeb Library of Foundational Ontologies and the DOLCE ontology. Report (ver. 2.0, 15-08-2002)
  34. Gangemi, A., Guarino, N., Masolo, C., Oltramari, A. 2003 Sweetening WordNet with DOLCE.
  35. C. Bizer, J. Lehmann, G. Kobilarov, S. Auer, C. Becker, R. Cyganiak, S. Hellmann, DBpedia – A crystallization point for the Web of Data. Web Semantics, 7(3), 2009, pp. 154–165.
  36. S. M. Harabagiu, G. A. Miller, D. I. Moldovan. 1999. WordNet 2 – A Morphologically and Semantically Enhanced Resource. In Proc. of the ACL SIGLEX Workshop: Standardizing Lexical Resources, pp. 1–8.
  37. J. Deng, W. Dong, R. Socher, L. Li, K. Li, L. Fei-Fei. ImageNet: A Large-Scale Hierarchical Image Database. In Proc. of 2009 IEEE Conference on Computer Vision and Pattern Recognition
  38. M. Poprat, E. Beisswanger, U. Hahn. 2008. Building a BIOWORDNET by Using WORDNET’s Data Formats and WORDNET’s Software Infrastructure – A Failure Story. In Proc. of the Software Engineering, Testing, and Quality Assurance for Natural Language Processing Workshop, pp. 31–39.
  39. S. Ponzetto, R. Navigli. Large-Scale Taxonomy Mapping for Restructuring and Integrating Wikipedia, In Proc. of the 21st International Joint Conference on Artificial Intelligence (IJCAI 2009), Pasadena, California, July 14-17th, 2009, pp. 2083–2088.
  40. S. P. Ponzetto, R. Navigli. Knowledge-rich Word Sense Disambiguation rivaling supervised systems. In Proc. of the 48th Annual Meeting of the Association for Computational Linguistics (ACL), 2010, pp. 1522–1531.
  41. S. Baccianella, A. Esuli and F. Sebastiani. SentiWordNet 3.0: An Enhanced Lexical Resource for Sentiment Analysis and Opinion Mining. In Proceedings of the 7th Conference on Language Resources and Evaluation (LREC'10), Valletta, MT, 2010, pp. 2200–2204.
  42. Piek Vossen, Claudia Soria, Monica Monachini: Wordnet-LMF: a standard representation for multilingual wordnets, in LMF Lexical Markup Framework, edited by Gil Francopoulo ISTE / Wiley 2013 (ISBN 978-1-84821-430-9)
  43. Babylon WordNet. // Babylon.com. Посетен на 11 март 2014.
  44. GoldenDict – Browse /dictionaries at Sourceforge.net. // Sourceforge.net, 1 декември 2010. Посетен на 5 януари 2014.
  45. Lingoes WordNet. // Lingoes.net, 16 ноември 2007. Посетен на 11 март 2014.

Външни препратки[редактиране | редактиране на кода]

Допълнителни източници[редактиране | редактиране на кода]

Криейтив Комънс - Признание - Споделяне на споделеното Лиценз за свободна документация на ГНУ Тази страница частично или изцяло представлява превод на страницата „WordNet“ в Уикипедия на английски. Оригиналният текст, както и този превод, са защитени от Лиценза „Криейтив Комънс - Признание - Споделяне на споделеното“, а за съдържание, създадено преди юни 2009 година — от Лиценза за свободна документация на ГНУ. Прегледайте историята на редакциите на оригиналната страница, както и на преводната страница. Вижте източниците на оригиналната статия, състоянието ѝ при превода, и списъка на съавторите.