Обработка на естествен език

от Уикипедия, свободната енциклопедия
Направо към навигацията Направо към търсенето

Обработката на естествения език (ОЕЕ) или компютърната обработка на естествен (човешки) език (на английски: natural language processing, NLP) е подобласт на науката за изкуствения интелект и компютърната лингвистика. Тя се занимава с автоматичното генериране и разпознаване на естествените човешки езици.[1] Системите за езиково генериране преобразуват информация от компютърни бази от данни в човешки език, а системите за автоматично разбиране на даден естествен език преобразуват езикови записи във формално представяне, достъпно за обработка от компютърни програми.

Целта е компютърът да може да „разбира“ съдържанието на документите, включително нюансите от контекста. След това технологията може да извлича информация и идеи от документите, както и да категоризира и организира самите документи.

Предизвикателствата при обработката на естествен език често включват разпознаване на реч и генериране на естествен език.

История[редактиране | редактиране на кода]

Обработката на естествен език започва през 1950-е. В статията си „Изчислителна техника и интелигентност“ от 1950 г. Алън Тюринг предлага критерий за интелигентност (днес се нарича тест на Тюринг): задача, която включва автоматизирана интерпретация и генериране на естествен език.[2]

ОЕЕ базирана на символи (1950-те – началото на 1990-те)[редактиране | редактиране на кода]

Идеята за символната ОЕЕ е заложена в мисловния експеримент „китайска стая“ на Джон Сърл: дадени са някакви правила (напр. китайски разговорник с въпроси и техните отговори), компютърът прилага тези правила върху данните, с които се сблъсква, като така емулира разбирането на естествения език.

Статистическа ОЕЕ (1990-те до 2010-те)[редактиране | редактиране на кода]

До 1980-те повечето системи за обработка на естествен език се основават на сложни списъци от ръчно зададени правила. Но въвеждането на алгоритми за машинно обучение от края на 1980-те водят революция в ОЕЕ. Това се дължи както на постоянното нарастване на изчислителната мощност, така и на постепенното намаляване на влиянието на теориите на Чомски в лингвистиката, теоретични основи, които обезкуражават новидете видове корпусна лингвистика.[3]

Невронна ОЕЕ (настоящо)[редактиране | редактиране на кода]

През 2010-те, представителното обучене и дълбоките невронни мрежи водят до широко разпространение на ново поколение от методи. Важна причина за тези промени са рекордните резултати от новите техники[4][5], например в езиковото моделиране,[6] синтактичния анализ[7][8] и много други. Подобни резултати са все по-важни в медицината и здравеопазването, където ОЕЕ помага в анализа на лекарски бележки и електронни здравни картони, правейки ги недостъпни за изучаване и подобряване на здравните грижи.[9] Тези методи излизат и отвъд човешките езици, например в интерпретацията на ДНК.

Източници[редактиране | редактиране на кода]

  1. НЛП срещу НЛУ: от разбиране на език до обработката му. // Посетен на 01.03.2022.
  2. Компютър мина теста на Тюринг – излъга, че е човек. // Вести.бг. 2014-06-09. Посетен на 2021-12-24.
  3. Chomskyan linguistics encourages the investigation of "corner cases" that stress the limits of its theoretical models (comparable to pathological phenomena in mathematics), typically created using thought experiments, rather than the systematic investigation of typical phenomena that occur in real-world data, as is the case in corpus linguistics. The creation and use of such corpora of real-world data is a fundamental part of machine-learning algorithms for natural language processing. In addition, theoretical underpinnings of Chomskyan linguistics such as the so-called poverty of the stimulus argument entail that general learning algorithms, as are typically used in machine learning, cannot be successful in language processing. As a result, the Chomskyan paradigm discouraged the application of such models to language processing.
  4. Goldberg, Yoav. A Primer on Neural Network Models for Natural Language Processing. // Journal of Artificial Intelligence Research 57. 2016. DOI:10.1613/jair.4992. с. 345–420.
  5. Goodfellow, Ian, Bengio, Yoshua, Courville, Aaron. Deep Learning. MIT Press, 2016.
  6. Jozefowicz, Rafal, Vinyals, Oriol, Schuster, Mike. Exploring the Limits of Language Modeling. 2016.
  7. Choe, Do Kook и др. Parsing as Language Modeling. // Emnlp 2016.
  8. Vinyals, Oriol и др. Grammar as a Foreign Language. // Nips2015. 2014.
  9. Turchin, Alexander и др. Using Natural Language Processing to Measure and Improve Quality of Diabetes Care: A Systematic Review. // Journal of Diabetes Science and Technology 15 (3). 2021-03-19. DOI:10.1177/19322968211000831. с. 553–560.