Фонетика, синтез речи

elena144

Подозреваю, что я не самый умный и идея моя кому-нибудь в голову уже приходила, но я сегодня послушал лекцию по фонетике, попырился на картинку с устройством речевого аппарата и задаюсь вопросом.
Сейчас, насколько я знаю, все системы синтеза речи как правило основаны на записях разных звуков языка, к которым для синтеза слова применяются различные сочетания и преобразования, которые и выдают на выходе некий «голос». Есть какие-то правила применения этих преобразований для языка (как его читать есть словари, но всё сводится всё равно к звуковым файликам с записями.
Приходила ли кому-нибудь из исследователей или богатых фирм в голову идея создать некую программную модель — речевой аппарат от лёгких до губ — для которой можно было бы просто записать инструкции, как произносить каждый известный звук — куда движется язык, губы, как раскрывается рот? Ведь тогда в синтезе речи учитывались бы все особенности каждого звука, что гласные могут просто перетекать один в другой, а некоторые согласные наоборот трудно сочетать и между ними образуется заминка, ну и т.д. Речь была бы более естественной и похожей на речь живого человека.
Если такое уже где-то делалось, может быть можно где-то почитать исследования на эту тему?

antcatt77

речевой аппарат от лёгких до губ — для которой можно было бы просто записать инструкции, как произносить каждый известный звук — куда движется язык, губы, как раскрывается рот?
Если делать в лоб, то придется честно обсчитывать "физику" (движение воздуха и звуковых волн в сложной конфигурации) с высокой дискретизацией. И, афаик, под это дело нет хорошего и дешевого - ни ПО, ни железа.
Если же делать упрощенную модель (типа открывание рта на 1градус меняет громкость выходного звука на 0.1дБ то это человеко-годы и человеко-годы исследований, чтобы такая упрощенная модель была близка к реальности.

elena144

афаик, под это дело нет хорошего и дешевого - ни ПО, ни железа.
Собственно, мой вопрос и подразумевал, что возможно кто-нибудь пробовал уже написать под эту задачу ПО и оценить трудоёмкость расчёта :) Упрощённая модель, на мой взгляд, как раз вообще не имеет смысла.

antcatt77

Упрощённая модель, на мой взгляд, как раз вообще не имеет смысла.
Если она правильно упрощенная, то она имеет смысл, потому что тогда можно будет получить живой голос на любой железке (хоть на телефоне)
ps
это можно сравнить с расчетом освещенности:
можно, конечно, заморочиться и посчитать каждый луч - будет чуток реалистичнее, но ресурсов отожрет до фига,
а можно посчитать через приближенные схемы - реалистичности чуть меньше, но и ресурсов многократно меньше требуется

stm7535571

Полно такого, один из синтезаторов
gnuspeech
http://www.gnu.org/software/gnuspeech/trm-write-up.pdf
В нем реализована Tube Resonance Model
Есть и более сложные вроде, в Википедии подробно описано:
http://en.wikipedia.org/wiki/Articulatory_synthesis
Например такой:
http://www.magic.ubc.ca/artisynth/pmwiki.php
Из русского можно найти книжку по речеобразованию Сорокина и перевод Флангана.
Оставить комментарий
Имя или ник:
Комментарий: