Речеви синтез

от Уикипедия, свободната енциклопедия
Направо към навигацията Направо към търсенето

Речевият синтез или още синтезът на естествена човешка реч e изкуственото производство на човешка реч. Компютърна система, използвана за тази цел, се нарича синтезатор на реч или речеви синтезатор и може да бъде изпълнена в софтуерни или хардуерни продукти. Система „текст-към-реч“ („ТКР“, на английски „text-to-speech (TTS)“) преобразува нормален текст на даден език в реч; други системи предават символични лингвистични репрезентации като фонетични транскрипции към реч.

Синтезираната реч може да бъде създадена като се слепят парчета от записана реч, които се съхраняват в база от данни. Различните системи варират в размера на съхранените речеви единици; система, която съхранява фони или дифони предлага най-голям обхват на изходната реч, но може да няма достатъчна яснота. За специфични сфери на употреба съхранението на цели думи или изречения позволява висококачествена изходна реч. Алтернатива на това е синтезаторът да включва модел на вокалния тракт или на други характеристики на човешкия глас, за да създаде напълно „синтетичен“ изходен глас.

Качеството на речевите синтезатори се оценява според неговата прилика с човешкия глас и способността на синтезираната реч да бъде разбрана ясно от човек. Една разбираема програма за текст-към-реч позволява на хора със зрителни увреждания или недъзи при четене да слушат писмени произведения на домашен компютър. Много операционни системи включват речеви синтезатори от началото на 1990-те години, като тези програми обикновено се наричат „екранни четци“ или „четци на екран“ (на английски: screen readers).

Някои от най-популярните съвременни програми за синтезиране на реч са NVDA, JAWS, GeSpeaker, Festival TTS и други. Съществуват и по-малко известни проекти за речеви синтезатори като SpeechLab[1] на Българската асоциация за компютърна лингвистика, Balabolka[2], „Тошко 2“[3] и др.

Източници[редактиране | редактиране на кода]

Криейтив Комънс - Признание - Споделяне на споделеното Лиценз за свободна документация на ГНУ Тази страница частично или изцяло представлява превод на страницата „Speech_synthesis“ в Уикипедия на английски. Оригиналният текст, както и този превод, са защитени от Лиценза „Криейтив Комънс - Признание - Споделяне на споделеното“, а за съдържание, създадено преди юни 2009 година — от Лиценза за свободна документация на ГНУ. Прегледайте историята на редакциите на оригиналната страница, както и на преводната страница. Вижте източниците на оригиналната статия, състоянието ѝ при превода, и списъка на съавторите.