Извличане на знания от текст

от Уикипедия, свободната енциклопедия
Направо към навигацията Направо към търсенето

Извличане на знания от текст (на английски: text mining, text data mining) или текстова аналитика (text analytics) е процес на откриване на висококачествена информация от входен текст чрез откриване на повтарящи се закономерности и тенденции със средствата на статистическото обучение с шаблони. Това обичайно включва структуриране на входния текст (парсиране, както и добавяне и премахване на определени лингвистични особености, както и въвеждане в база данни), оценяване и интерпретиране на изхода. Високото качество в този контекст обичайно се отнася до комбинация от релевантност, оригиналност и потенциален интерес за потребителя. Типични задачи в извличането на знания от текст включват категоризация, клъстеризация на текста, извличане на понятия, генериране на таксономии, анализ на тоналността на текста, резюмиране на съдържанието, моделиране на взаимовръзките между понятията.

Анализът на текста включва извличане на информация, лексикален анализ за изследване на честотните разпределения на отделните думи, разпознаване на закономерности, техники от извличането на знания от данни включително анализ на асоциациите, визуализация, предсказващ анализ. Основната цел е текстът да се превърне в данни, годни за анализ чрез приложението на аналитични методи и методи от обработката на естествен език. Типично приложение на извличането на знания от текст е сканирането на множество документи, написани на естествен език и моделирането на това множество с цел предсказваща класификация или с цел запълването на база данни или индекс за търсене с извлечената в процеса информация.

Вижте също[редактиране | редактиране на кода]

Криейтив Комънс - Признание - Споделяне на споделеното Лиценз за свободна документация на ГНУ Тази страница частично или изцяло представлява превод на страницата „Text mining“ в Уикипедия на английски. Оригиналният текст, както и този превод, са защитени от Лиценза „Криейтив Комънс - Признание - Споделяне на споделеното“, а за съдържание, създадено преди юни 2009 година — от Лиценза за свободна документация на ГНУ. Прегледайте историята на редакциите на оригиналната страница, както и на преводната страница. Вижте източниците на оригиналната статия, състоянието ѝ при превода, и списъка на съавторите.