Машинен превод

от Уикипедия, свободната енциклопедия
Направо към: навигация, търсене

Машинен превод е дисциплина от компютърната лингвистика, която се занимава със задачата за автоматично превеждане на писмен текст или реч от един естествен език на друг чрез компютърен софтуер. В най-простия си вариант МП представлява обикновено заместване на думи от един език с думи от друг. Използването на текстови корпуси дава възможност за по-сложни методи за превод, включващи отразяване на типологичните разлики между езиците, разпознаване на фрази, превеждане на идиоми и изолиране на аномалии.

Съвременният софтуер за машинен превод често позволява избор на предметна област (например право или метеорология). Целта е да се подобри качеството на резултата чрез ограничаване на допустимите значения на думите. Тази техника е особено ефективна в области, в които се ползват стандартизирани, шаблонни езикови средства. Затова машинният превод на правителствени или правни документи често е по-сполучлив от превода на свободен разговор или друг слабо стандартизиран текст.

Качеството на резултата може да се подобри и чрез човешка намеса. Например, някои системи са в състояние да превеждат по-точно, ако потребителят е определил еднозначно кои думи в текста представляват имена. С помощта на подобни техники машинният превод се оказва полезно помощно средство за хората – преводачи и в някои случаи дори може да даде резултат, използваем без допълнително редактиране. Съвременните системи обаче не са в състояние да конкурират хората – преводачи по качество на превода, особено при текстове в художествен или разговорен стил.

Машинният превод не трябва да се бърка с подпомагания от компютър превод. При последния водещата роля в превода се изпълнява от човек – преводач, а софтуерът само улеснява някои аспекти от работата му.

Увод[редактиране | edit source]

Процесът на превеждане може да бъде описан като съвкупност от

  1. декодиране значението на изходния текст и
  2. кодирането на откритото значение със средствата на целевия език.

Зад тази проста процедура се крие сложен познавателен процес. За да декодира цялостно значението на изходния текст, преводачът трябва да изтълкува и анализира всички негови особености, което изисква задълбочени познания за граматиката, семантиката, синтаксиса, идиомите и други свойства на изходния език, както и за културата на хората, които го ползват. За втората част от процеса същите познания се изискват и за целевия език.

Предизвикателството пред машинния превод е следното: как да се програмира компютърът, така че да „разбира“ текста подобно на човек и да създава на друг език нов текст със същия смисъл, който да изглежда като написан от човек?

Към решаването на тази задача може да се подходи по различни начини.

Видове машинен превод[редактиране | edit source]

Машинен превод, базиран на речник[редактиране | edit source]

Най-простият вид машинен превод замества думи от единия език със съответните им думи от другия, без да коригира словореда или да се съобразява с различните значения, които придобиват думите в различни съчетания помежду си. Този вид „превод“ е със силно ограничено приложение.

Машинен превод, базиран на правила[редактиране | edit source]

При базирания на правила машинен превод базата от данни включва граматични правила за анализ и синтез на изречения и словосъчетания. Често се приема, че за да се реши задачата за машинния превод, първо трябва да се реши задачата за разбиране на естествен език. При този вид превод програмата анализира оригиналния текст и го преобразува до специално вътрешно представяне, от което след това се синтезира преведеният текст. За това са нужни обширни речници и набори от правила, включващи подробна морфологична, синтактична и семантична информация за разглежданите езици. Тези ресурси се обикновено се изготвят ръчно от квалифицирани езиковеди и изработването им е сложна и трудоемка задача.

Статистически машинен превод[редактиране | edit source]

При статистическия машинен превод данните за съответствието между думите и поредиците от думи в двата езика се събират автоматично от така наречените двуезични корпуси. Двуезичните корпуси представляват обемисти набори от съответстващи си текстове на два езика, например протоколите от заседанията на канадския парламент, които се водят едновременно на английски и френски, протоколите на Европейския парламент или новините на агенция „Синхуа“ [[1]], които са успоредно на английски и китайски. Засега обаче подобни корпуси, използваеми за целите на машинния превод, съществуват за много малко езици. След като програмата бъде „обучена“, събраната статистика се използва за избиране на думи и фрази по време на превеждане.

Машинен превод, базиран на примери[редактиране | edit source]

При базирания на примери машинен превод двуезичният корпус се използва по време на самото превеждане и непознатите изречения се превеждат по аналогия с най-близкия известен на програмата пример. Този подход е много близък с машинното самообучение.

Машинен превод с помощта на междинен език[редактиране | edit source]

Машинният превод чрез междинен език е частен случай на превода, базиран на правила. При този подход изходният текст се трансформира във вид, независим от изходния и целевия език – интерлингва. След това от въпросното представяне се генерира текст на целевия език.

Основни проблеми[редактиране | edit source]

Многозначност[редактиране | edit source]

Думите с повече от едно значение са трудни за автоматично превеждане. Днес съществуват различни подходи за преодоляване на този проблем, които могат да бъдат групирани в две категории: „плитки“ и „дълбоки“.

При „плитките“ подходи, които засега са по-сполучиливи в практиката, не се изисква разбиране на текста – вместо това се използват статистически методи, за да анализира контекстът на нееднозначната дума. При „дълбоките“ подходи се предполага, че системата притежава подробни знания за думите.

Имена[редактиране | edit source]

В много ситуации за системата за машинен превод е трудно или невъзможно да различи кои думи са имена или съкращения, които трябва да бъдат транслитерирани, транскрибирани или прехвърлени без промяна, вместо да се превеждат.

Неграматичен изходен текст[редактиране | edit source]

Несъвършенствата на изходния текст, например правописни или правоговорни грешки, лоша пунктуация или недовършени изречения, могат да затруднят сериозно автоматичния превод.

В някои ситуации за да се подобри работата на системата за машинен превод оригиналният текст се подготвя ръчно, като например се маркират думите, които не трябва да се превеждат (имена и съкращения), отстранява се многозначността и т.н.

История[редактиране | edit source]

Същинската история на машинния превод започва през 50-те години на 20-ти век след Втората световна война. Проведеният през 1954 г. експеримент „Джорджтаун – Ай Би Ем“ с участието на университета „Джорджтаун“ и фирмата „Ай Би Ем“ представлява демонстрация, включваща превеждането на няколко десетки изречения от руски на английски. Експериментът има успех и поставя началото на период на сериозно финансиране за изследвания в областта на машинния превод. Авторите му заявяват, че в срок от три до пет години задачата за машинния превод ще бъде решена.

Действителният напредък обаче се оказва много по-бавен. През 1966 г. създаденият две години по-рано Специален комитет по приложна лингвистика (ALPAC) към Националната академия на науките на САЩ издава доклад, станал известен като „Черната книга на машинния превод“. Докладът съдържа много скептична оценка за изследванията в областта на машинния превод и възможността за постигане на сериозен напредък в близко бъдеще. След излизането му финансирането на изследванията в тази област в САЩ (и донякъде в СССР и Великобритания) намалява драстично. В Канада, Франция и Германия обаче разработките продължават.

През 1970 г. ВВС на САЩ внедряват системата Systran, последвани през 1976 г. от Европейската комисия. През 1977 г. в Канада се внедрява системата METEO, разработена от университета в Монреал, която превежда климатични прогнози от английски на френски и работи и до днес, превеждайки по около 80 000 думи на ден или 30 милиона думи на година. В Европа от 1970 до 1994 г. се работи по основания и финансиран от Европейската комисия проект Eurotra за превод между езиците на Европейската общност. Проектът не успява да достигне до практически използваем продукт, но работата по него повлиява положително на изследванията и разработките в областта на МП в отделните страни – участнички.

В края на 80-те години увеличаването на изчислителната мощност и поевтиняването на компютрите предизвиква интерес към статистическите модели за машинен превод и превода чрез примери. След средата на 90-те години вследствие поевтиняването и усъвършенстването на компютрите се наблюдава бурно развитие и поява на множество висококачествени комерсиални продукти в областта на машинния превод. С напредъка на технологиите за разпознаване и синтез на говор започват изследвания за превод на реч в реално време. В Интернет се появяват сайтове за автоматичен превод, например услугите Google Преводач (Translate) на Google и Babelfish на AltaVista, които ползват Systran.

Сред българските програми за машинен превод са Translat (за превод от английски и немски на български и обратно), Bultra (за превод от английски на български) и WebTrance (за превод между английски, френски, испански и български).

Качество на машинния превод[редактиране | edit source]

Разработени са различни методики за оценяване работата на системите за машинен превод. Най-старият подход включва хора – преводачи, които определят качеството на превода. Сред по-новите методи, вече автоматизирани, са BLEU, NIST и METEOR.

Съвременните системи за машинен превод не са в състояние да конкурират хората – преводачи по качество на превода, особено при текстове в художествен или разговорен стил. В повечето случаи преведените от тях текстове могат да се използват само за бегло запознаване с темата на текста, но не и за пълно разбиране на смисъла.

При някои специализирани приложения обаче машинният превод вече е в състояние да замени човешкия до голяма степен (например при превода на климатични прогнози или технически упътвания, където използваният набор от думи и изразни средства е силно ограничен).

Вижте също[редактиране | edit source]

Външни препратки[редактиране | edit source]