БулПосКор

от Уикипедия, свободната енциклопедия

Българският POS анотиран корпус (БулПосКор) е морфологично анотиран, общ едноезиков корпус от писмена реч за български, създаден от Секцията по компютърна лингвистика в Института за български език на БАН с големина 174 697 лексикални единици.

Морфологично анотираните корпуси са резултат от морфологично анализиране на всяка дума от даден текст. Към думите се прикрепват тагове (етикети, анотация), съдържащи информация за граматичния клас на дадена лексикална единица и за характеризиращите я стойности на граматичните категории.

Анотирането на БулПосКор се състои от първичен етап на автоматично приписване на тагове от тагсета на Българския граматичен речник (Коева 1998) и последващ етап на ръчно разрешаване на случаите на многозначност. Граматичният речник на българския език включва около 85 хиляди леми и над 1 милион словоформи, описани с граматичните им характеристики. Автоматичното анотиране е свързано с класифициране на токъните в БулПосКор по типове в зависимост от това дали са съставени от главни букви, малки букви, цифри, специални символи и т.н. Чрез правила за токънизация се разпознават и различават графични думи; съкращения; думи, съставени от комбинация от цифра, пунктуационен знак и букви (например 1-ви); правила за разпознаване на дати; на математически изрази; адреси на сайтове и електронни пощи и т.н. Изградена е система от възможните граматични значения за всеки пунктуационен знак. Експертната проверка на граматичната анотация и разрешаването на лексикално-раматичната многозначност, както и описателните множества, конструирани според принципите за деление на категории, типове и подтипове (Коева 1998), превръщат корпуса в ценен лингвистичен ресурс. Подробната морфосинтактична информация, въведена в тагсета, позволява лесното му адаптиране за тренирането и тестването на нови тагери независимо от подхода, използван за тяхното създаване.

Текстовото съдържание на корпуса е съставено според международните стандарти за езикова представителност. Българският POS анотиран корпус е представителна част от Българския Браун корпус (ББК) и е с големина 174 697 лексикални единици. От всеки файл на ББК е направена извадка от минимум 300 думи, като извадките са разширени докрай на изречение. По този начин структурата на Браун корпуса е запазена – текстовете са разделени в 15 категории от 2 типа – художествени и информативни. Думите в БулПосКор заедно с лексикално-граматичните им описания са достъпни за търсене онлайн.

Качеството на морфологично анотираните ресурси е определящо при създаването на компютърни програми за обработка на естествения език, като автоматично синтактично анотиране, автоматично резюмиране на текстове, автоматичен превод и т.н. Едни от най-важните и широко използвани приложения на морфологичното анотиране са програмите за проверка на правописа и автоматичното отделяне на срички.

Библиография[редактиране | редактиране на кода]

  • Коева, Св. Граматичен речник на българския език. Описание на концепцията за организацията на лингвистичните данни, в: Български език, 6, 1998, с. 49-58.
  • Koeva, Sv., Sv. Leseva, I. Stoyanova, E. Tarpomanova, M. Todorova. Bulgarian Tagged Corpora, Proceedings of the Fifth International Conference Formal Approaches to South Slavic and Balkan Languages, 18-20 октомври 2006, Sofia, Bulgaria, pp. 78-86.
  • Тодорова, Мария, Росица Декова. Български POS анотиран корпус – особености на граматичната анотация. в: Езикови ресурси и технологии за български език. Състав. и научн. ред. Св. Коева, Д. Благоева, Т. Тинчев. София: Академично издателство „Марин Дринов“, 2014.

Външни препратки[редактиране | редактиране на кода]

Вижте също[редактиране | редактиране на кода]