Извличане на информация

от Уикипедия, свободната енциклопедия
Направо към: навигация, търсене

Извличане на информация (на английски: Information retrieval) е област от информатиката и компютърната лингвистика, чийто предмет е извличането на документи, на информация от документи и на метаданни за документите, чрез търсене в релационни бази данни и Интернет. Областта е интердисциплинарна, на границата между информатиката, математиката, библиотечното дело, когнитивната психология, лингвистиката, статистиката и физиката.

Съществува известно припокриване между понятията извличане на информация, извличане на данни, извличане на текст, извличане на знания от данни (сондиране на данни, data mining), но за всяко от тях може да се посочи самостоятелен корпус от научна литература, теоретико-приложни резултати и технологии.

Автоматизираните системи за извличане на информация се използват, за да се намалят ефектите от феномена „информационно пренасищане“. Най-популярните приложения за извличане на информация са уеб-базираните търсачки. Много университети и публични библиотеки използват такива системи, за да осигурят достъп до книги, списания и други документи.

Обща постановка[редактиране | edit source]

Процесът на извличане на информация започва с въвеждането от потребителя на заявка към системата. Заявките са формални описания на информационната потребност, например низ въведен в полето на търсачката. При извличането на информация с една заявка не се идентифицира по уникален начин един-единствен обект от съвкупността. Напротив, обикновено на заявката отговарят повече от един обекта, вероятно с различни степени на релевантност. Под „обект“ се разбира запис, който съхранява определен обем от информация в базата данни, като в зависимост от приложението, обектът може да е текстов, графичен, аудио- или видео-документ.

Повечето системи за извличане на информация изчисляват числов коефициент на релевантност на всеки от документите в базата по отношение на изпратената от потребителя заявка, и ранжират (подреждат в намаляващ ред) така оценените документи според техния коефициент. Най-високо ранжираните обекти са тези, които се връщат като резултат на потребителя. Процесът може да претърпи и повече от една итерация, ако потребителят не е удовлетворен от резултата и желае да прецизира заявката си.

Оценки на резултата[редактиране | edit source]

Съществуват различни техники за измерване и оценка на резултата от работата на системите за извличане на информация. Всяка от тях изисква съвкупност от документи и потребителска заявка.

Важни показатели за оценка и управление на качеството са:

  • Наличност / Достъпност на данните (Availability)
  • Пълнота на данните (Completeness) — параметър, измерващ съществуването или отсъствието на данни.
  • Съгласуваност на данни (Consistency) — Съгласувани данни са тези, при които при възможно наличие на дублиране на данни, те са с еднакво и налично съдържание.
  • Релевантност / Съответност на данни (Relevance) — Този показател изисква стойностите на данни те да попадат в приемлив обсег или да са от определена типизирана съвкупност.
  • Навременност / Свежест на данни (Timeliness/Freshness) — Този параметър използва времето за записване на данните и времето, когато данните се смятат актуални. Разликата между тези времена би показала дали данните са свежи, или са стари.

Точност на оценяване[редактиране | edit source]

Точност на оценяване (Precision) е отношението на броя извлечени документи, които са релевантни на информационната потребност на потребителя, към общия брой извлечени документи, т.е.

Точност на оценяване  =     \textstyle{|\{} релевантни документи \textstyle{\} \cap \{} извлечени документи \textstyle{\}|}  
\textstyle{|\{} извлечени документи \textstyle{\}|}

Точността на оценяване взема предвид всички върнати документи, но може да се постави и ограничение по ранг, като се пресмята на база най-високо ранжираните n резултати.

Точност на връщане[редактиране | edit source]

Точност на връщане (Recall) е отношението на броя документи, релевантни на заявка, които успешно са извлечени от системата, т.е.

Точност на връщане  =     \textstyle{|\{} релевантни документи \textstyle{\} \cap \{} извлечени документи \textstyle{\}|}  
\textstyle{|\{} релевантни документи \textstyle{\}|}

При бинарна класификация, recall отговаря на чувствителността. Може да се разглежда като вероятността един релевантен документ да бъде извлечен при заявката.

Тривиално е тази оценка да се доведе до 100%, като в отговор на заявка се върнат всички документи от съвкупността. Следователно, този показател сам по себе си е недостатъчен, а трябва да се определи и броят нерелевантни документи, например като се изчисли показателят точност на оценяване.

Брак[редактиране | edit source]

Брак (Fall-out) е съотношението на нерелевантните извлечени документи към всички налични нерелевантни документи, т.е.

Брак  =     \textstyle{|\{} нерелевантни документи \textstyle{\} \cap \{} извлечени документи \textstyle{\}|}  
\textstyle{|\{} нерелевантни документи \textstyle{\}|}

При бинарна класификация, бракът е тясно свързан със специфичността, като я допълва до 1. Може да се разглежда като вероятността заявката да върне нерелевантен документ.

Тривиално е да се доведе този показател до 0%, като на отправената заявка в резултат не се върне нито един документ.

F-мярка[редактиране | edit source]

Претеглената средна хармонична на точността на оценяване и точността на връщане, наречена F-мярка или още

F  =      2 \textstyle{\cdot} точност на оценяване \textstyle{\cdot} точност на връщане   
точност на оценяване + точност на връщане
Криейтив Комънс - Признание - Споделяне на споделеното Лиценз за свободна документация на ГНУ Тази страница частично или изцяло представлява превод на страницата „Information retrieval“ в Уикипедия на английски. Оригиналният текст, както и този превод, са защитени от Лиценза „Криейтив Комънс - Признание - Споделяне на споделеното“, а за съдържание, създадено преди юни 2009 година — от Лиценза за свободна документация на ГНУ. Прегледайте историята на редакциите на оригиналната страница, както и на преводната страница, за да видите списъка на съавторите.