Машинен превод

Машинен превод е дисциплина от компютърната лингвистика, която се занимава със задачата за автоматично превеждане на писмен текст или реч от един естествен език на друг чрез компютърен софтуер. В най-простия си вариант МП представлява обикновено заместване на думи от един език с думи от друг. Използването на текстови корпуси дава възможност за по-сложни методи за превод, включващи отразяване на типологичните разлики между езиците, разпознаване на фрази, превеждане на идиоми и изолиране на аномалии.

Съвременният софтуер за машинен превод често позволява избор на предметна област (например право или метеорология). Целта е да се подобри качеството на резултата чрез ограничаване на допустимите значения на думите. Тази техника е особено ефективна в области, в които се ползват стандартизирани, шаблонни езикови средства. Затова машинният превод на правителствени или правни документи често е по-сполучлив от превода на свободен разговор или друг слабо стандартизиран текст.

Качеството на резултата може да се подобри и чрез човешка намеса. Например, някои системи са в състояние да превеждат по-точно, ако потребителят е определил еднозначно кои думи в текста представляват имена. С помощта на подобни техники машинният превод се оказва полезно помощно средство за преводачите и в някои случаи дори може да даде резултат, който не се нуждае от допълнително редактиране. Съвременните системи обаче не са в състояние да конкурират хората по качество на превода, особено при текстове в художествен или разговорен стил^[1].

Машинният превод не трябва да се бърка с подпомагания от компютър превод. При последния водещата роля в превода се изпълнява от човек – преводач, а софтуерът само улеснява някои аспекти от работата му.

Процедура[редактиране | редактиране на кода]

Процесът на превеждане може да бъде описан като съвкупност от

декодиране значението на изходния текст и
кодирането на откритото значение със средствата на целевия език.

Зад тази проста процедура се крие сложен познавателен процес. За да декодира цялостно значението на изходния текст, преводачът трябва да изтълкува и анализира всички негови особености, което изисква задълбочени познания за граматиката, семантиката, синтаксиса, идиомите и други свойства на изходния език, както и за културата на хората, които го ползват. За втората част от процеса същите познания се изискват и за целевия език.

Предизвикателството пред машинния превод е следното: как да се програмира компютърът, така че да „разбира“ текста подобно на човек и да създава на друг език нов текст със същия смисъл, който да изглежда като написан от човек?

Към решаването на тази задача може да се подходи по различни начини.

Видове[редактиране | редактиране на кода]

Машинен превод, базиран на речник[редактиране | редактиране на кода]

Най-простият вид машинен превод замества думи от единия език със съответните им думи от другия, без да коригира словореда или да се съобразява с различните значения, които придобиват думите в различни съчетания помежду си. Този вид „превод“ е със силно ограничено приложение.

Машинен превод, базиран на правила[редактиране | редактиране на кода]

При базирания на правила машинен превод базата от данни включва граматични правила за анализ и синтез на изречения и словосъчетания. Често се приема, че за да се реши задачата за машинния превод, първо трябва да се реши задачата за разбиране на естествен език. При този вид превод програмата анализира оригиналния текст и го преобразува до специално вътрешно представяне, от което след това се синтезира преведеният текст. За това са нужни обширни речници и набори от правила, включващи подробна морфологична, синтактична и семантична информация за разглежданите езици. Тези ресурси обикновено се изготвят ръчно от квалифицирани езиковеди и изработването им е сложна и трудоемка задача.

Статистически машинен превод[редактиране | редактиране на кода]

При статистическия машинен превод данните за съответствието между думите и поредиците от думи в двата езика се събират автоматично от така наречените двуезични корпуси. Двуезичните корпуси представляват обемисти набори от съответстващи си текстове на два езика, например протоколите от заседанията на канадския парламент, които се водят едновременно на английски и френски, протоколите на Европейския парламент или новините на агенция „Синхуа“ [1], които са успоредно на английски и китайски. Подобни корпуси, използваеми за целите на машинния превод, съществуват за много малко езици. След като програмата бъде „обучена“, събраната статистика се използва за избиране на думи и фрази по време на превеждане.

Машинен превод, базиран на примери[редактиране | редактиране на кода]

При базирания на примери машинен превод двуезичният корпус се използва по време на самото превеждане и непознатите изречения се превеждат по аналогия с най-близкия известен на програмата пример. Този подход е много близък с машинното самообучение.

Машинен превод с помощта на междинен език[редактиране | редактиране на кода]

Машинният превод чрез междинен език е частен случай на превода, базиран на правила. При този подход изходният текст се трансформира във вид, независим от изходния и целевия език – интерлингва. След това от въпросното представяне се генерира текст на целевия език.

Основни проблеми[редактиране | редактиране на кода]

Многозначност[редактиране | редактиране на кода]

Думите с повече от едно значение са трудни за автоматично превеждане. Днес съществуват различни подходи за преодоляване на този проблем, които могат да бъдат групирани в две категории: „плитки“ и „дълбоки“.

При „плитките“ подходи, които са по-сполучливи в практиката, не се изисква разбиране на текста – вместо това се използват статистически методи, за да анализира контекстът на нееднозначната дума. При „дълбоките“ подходи се предполага, че системата притежава подробни знания за думите.

Имена[редактиране | редактиране на кода]

В много ситуации за системата за машинен превод е трудно или невъзможно да различи кои думи са имена или съкращения, които трябва да бъдат транслитерирани, транскрибирани или прехвърлени без промяна, вместо да се превеждат.

Неграматичен изходен текст[редактиране | редактиране на кода]

Несъвършенствата на изходния текст, например правописни или правоговорни грешки, лоша пунктуация или недовършени изречения, могат да затруднят сериозно автоматичния превод.

В някои ситуации за да се подобри работата на системата за машинен превод оригиналният текст се подготвя ръчно, като например се маркират думите, които не трябва да се превеждат (имена и съкращения), отстранява се многозначността и т.н.

История[редактиране | редактиране на кода]

Същинската история на машинния превод започва през 50-те години на 20 век след Втората световна война. Проведеният през 1954 г. експеримент с участието на университета „Джорджтаун“ и фирмата „Ай Би Ем“ представлява демонстрация, включваща превеждането на няколко десетки изречения от руски на английски. Експериментът има успех и поставя началото на период на сериозно финансиране за изследвания в областта на машинния превод. Авторите му заявяват, че в срок от три до пет години задачата за машинния превод ще бъде решена.

Действителният напредък обаче се оказва много по-бавен. През 1966 г. създаденият две години по-рано Специален комитет по приложна лингвистика (ALPAC) към Националната академия на науките на САЩ издава доклад, станал известен като „Черната книга на машинния превод“. Докладът съдържа много скептична оценка за изследванията в областта на машинния превод и възможността за постигане на сериозен напредък в близко бъдеще. След излизането му финансирането на изследванията в тази област в САЩ (и донякъде в СССР и Великобритания) намалява драстично. В Канада, Франция и Германия обаче разработките продължават.

През 1970 г. ВВС на САЩ внедряват системата Systran, последвани през 1976 г. от Европейската комисия. През 1977 г. в Канада се внедрява системата METEO, разработена от университета в Монреал, която превежда климатични прогнози от английски на френски и работи и до днес, превеждайки по около 80 000 думи на ден или 30 милиона думи на година. В Европа от 1970 до 1994 г. се работи по основания и финансиран от Европейската комисия проект Eurotra за превод между езиците на Европейската общност. Проектът не успява да достигне до практически използваем продукт, но работата по него повлиява положително на изследванията и разработките в отделните страни – участнички.

В края на 80-те години увеличаването на изчислителната мощност и поевтиняването на компютрите предизвиква интерес към статистическите модели за машинен превод и превода чрез примери. След средата на 90-те години вследствие на поевтиняването и усъвършенстването на компютрите се наблюдава бурно развитие и поява на множество комерсиални софтуернипродукти в областта на машинния превод. С напредъка на технологиите за разпознаване и синтез на говор започват изследвания за превод на реч в реално време. В Интернет се появяват сайтове за автоматичен превод, например услугите Google Преводач (Translate) на Google и Babelfish на AltaVista, които ползват Systran. Развитието на технологията позволява преводът на текст да се извършва чрез от телефона чрез заснемане на текст от различни източници, като например книги, табели, реклами и др.

Сред българските програми за машинен превод са Translat (за превод от английски и немски на български и обратно), Bultra (за превод от английски на български) и WebTrance (за превод между английски, френски, испански и български).

Качество на машинния превод[редактиране | редактиране на кода]

Разработени са различни методики за оценяване работата на системите за машинен превод. Най-старият подход включва хора – преводачи, които определят качеството на превода. Сред по-новите автоматизирани методи са BLEU, NIST и METEOR.

Съвременните системи за машинен превод не са в състояние да конкурират хората по качество на превода, особено при текстове в художествен или разговорен стил^[1]. В повечето случаи преведените от тях текстове могат да се използват само за бегло запознаване с темата на текста, но не и за пълно разбиране на смисъла.

При някои специализирани приложения обаче машинният превод вече е в състояние да замени човешкия до голяма степен (например при превода на климатични прогнози или технически упътвания, където използваният набор от думи и изразни средства е силно ограничен).