Корпус (лингвистика)

от Уикипедия, свободната енциклопедия
Направо към: навигация, търсене

Корпусът е основен обект на изследване и езиков ресурс в корпусната и компютърната лингвистика.

Корпусът представлява множество от текстове или фрагменти с езиков материал в писмен или речев формат, главно в електронна форма, организирани по систематичен и структуриран начин, така че да могат да бъдат използвани за изследването на различни езикови употреби. Като основни критерии, за да бъде определен даден набор от текстове като корпус, обикновено се посочват компютърно достъпната, електронна форма, подчинена на даден формат (напр. txt, SGML, XML); целенасочената и добре документирана структурна организация; представителността за езиковата вариативност и/или за предварително определени, конкретни езикови явления; балансирността при разпределението на текстовете в общата структура спрямо употребата в изследваната езикова общност. Текстовите корпуси обикновено се използват за статистически анализ, за проверка на честотата на определени употреби или лингвистични правила, специфични за дадена езикова или литературна сфера, използва се и за изучаване на исторически документи, антични ръкописи и др.


Вижте също[редактиране | edit source]