Корпус (лингвистика)

от Уикипедия, свободната енциклопедия
Направо към: навигация, търсене

Корпусът е основен обект на изследване и езиков ресурс в корпусната и компютърната лингвистика.[1]

Същност[редактиране | редактиране на кода]

Корпусът представлява множество от текстове или фрагменти с езиков материал в писмен или речев формат, главно в електронна форма, организирани по систематичен и структуриран начин, така че да могат да бъдат използвани за изследването на различни езикови употреби.[2]

Като основни критерии, за да бъде определен даден набор от текстове като корпус, обикновено се посочват компютърно достъпната, електронна форма, подчинена на даден формат (напр. txt, SGML, XML); целенасочената и добре документирана структурна организация; представителността за езиковата вариативност и/или за предварително определени, конкретни езикови явления; балансирността при разпределението на текстовете в общата структура спрямо употребата в изследваната езикова общност.

Текстовите корпуси обикновено се използват за статистически анализ, за проверка на честотата на определени употреби или лингвистични правила, специфични за дадена езикова или литературна сфера, използва се и за изучаване на исторически документи, антични ръкописи и др.


Корпусите са основните бази от данни в корпусната лингвистика. Анализът и обработката на различните типове корпуси са обект на компютърната обработка на естествения език, преобразуването на текст в реч и машинния превод.

Видове[редактиране | редактиране на кода]

Корпусът може да съдържа текстове на един език (едноезиков корпус) или езикови данни на много езици (многоезиков корпус). Многоезиковите корпуси, които имат специално форматиране за целите на паралелното сравнение на преводни текстове на два или повече езика се наричат паралелни корпуси.

Лингвистична анотация[редактиране | редактиране на кода]

За да са полезни в лингвистичните изследвания, някои корпуси са предмет на допълнителна обработка, наречена анотация. Лингвистичната анотация представлява въвеждане на лингвистична интерпретация към единиците в корпуса (Лийч 2005). С. Коева (2014 г.) определя три типа лингвистична анотация при създването на корпуси с езикови данни — делимитационна (при която текстовете се разделят на съставящите единици), класификационна (към езиковите единици се приписват различни лингвистични категории) и релационна (при която се съотнасят езикови единици от различни равнища между два езика). Ключово значение за качеството на анотирания корпус има унифицираната анотационна схема, която позволява групирането и изследването на големи количества езикови данни, обединени от общ принцип.

Единиците в анотираните корпуси могат да бъдат различни — думи, словосъчетания, прости изречения в състава на сложното, изречения, параграфи и др. Съответно корпусите могат да бъдат анотирани (тагирани) с различни видове лингвистична информация — фонетична, морфологична, синтактича, семантична и парадигматична. Това определя делението на анотираните корпуси спаред вида на информацията, с която са анотирани, съдържащите ги единици. Такива са корпусите, анотирани с фонетична информация; корпусите, анотирани за части на речта или POS — корпуси, в които на всяка дума е приписана информация за нейната основна форма (лема) и за принадлежност към част на речта (съществително, прилагателно, глагол, местоимение и т. н.) под формата на тагове; семантично анотираните корпуси и др.

Вижте също[редактиране | редактиране на кода]

Външни препратки[редактиране | редактиране на кода]

  • Св. Коева. Българският национален корпус в контекста на световната теория и практика. – В: Езикови ресурси и технологии за български език. Състав. и научн. ред. Св. Коева, Д.Благоева, Т. Тинчев. София: Академично издателство „Марин Дринов“, 2014, с. 29-49.
  • Koeva, Svetla, Ivelina Stoyanova, Svetlozara Leseva, Tsvetana Dimitrova, Rositsa Dekova, and Ekaterina Tarpomanova (2012) “The Bulgarian National Corpus: Theory and Practice in Corpus Design” – Journal of Language Modelling, 2012, Vol. 0, No. 1, pp. 65-110. ISSN: 2299-8470.[1]