Извличане на знания от текст

от Уикипедия, свободната енциклопедия

Извличане на знания от текст (на английски: text mining, text data mining) или текстова аналитика (text analytics) е процес на откриване на висококачествена информация от входен текст чрез откриване на повтарящи се закономерности и тенденции със средствата на статистическото обучение с шаблони. Това обичайно включва структуриране на входния текст (парсиране, както и добавяне и премахване на определени лингвистични особености, както и въвеждане в база данни), оценяване и интерпретиране на изхода. Високото качество в този контекст обичайно се отнася до комбинация от релевантност, оригиналност и потенциален интерес за потребителя. Типични задачи в извличането на знания от текст включват категоризация, клъстеризация на текста, извличане на понятия, генериране на таксономии, анализ на тоналността на текста, резюмиране на съдържанието, моделиране на взаимовръзките между понятията.

Анализът на текста включва извличане на информация, лексикален анализ за изследване на честотните разпределения на отделните думи, разпознаване на закономерности, техники от извличането на знания от данни включително анализ на асоциациите, визуализация, предсказващ анализ. Основната цел е текстът да се превърне в данни, годни за анализ чрез приложението на аналитични методи и методи от обработката на естествен език. Типично приложение на извличането на знания от текст е сканирането на множество документи, написани на естествен език и моделирането на това множество с цел предсказваща класификация или с цел запълването на база данни или индекс за търсене с извлечената в процеса информация.

Вижте също[редактиране | редактиране на кода]

  Тази страница частично или изцяло представлява превод на страницата Text mining в Уикипедия на английски. Оригиналният текст, както и този превод, са защитени от Лиценза „Криейтив Комънс – Признание – Споделяне на споделеното“, а за съдържание, създадено преди юни 2009 година – от Лиценза за свободна документация на ГНУ. Прегледайте историята на редакциите на оригиналната страница, както и на преводната страница, за да видите списъка на съавторите. ​

ВАЖНО: Този шаблон се отнася единствено до авторските права върху съдържанието на статията. Добавянето му не отменя изискването да се посочват конкретни източници на твърденията, които да бъдат благонадеждни.​