Словари для IVONA TTS 1.6.75. Обсуждение, предложения
Добавлено: 28 июн 2018 11:00
В этой теме обсуждаем всё связанное со словарями.
good_cat писал(а): Nov 26 2017
Расстановка ударений в текстах для этих голосов одинаковое - прописной (заглавной) гласной буквой.skreb писал(а):Выложенные Вами Словари *.rex, *.dic для программ "Balabolka" и ''Demagog" подходят для только голоса Алёна или для голосов Максим и Татьяна тоже?
Поэтому можно использовать без сомнений.
Файлы Hmg - это файлы со списком омографов и правилами расстановки ударений.skreb писал(а):Существует ряд словарей Dic, Rex, Pls, Hmg. Для полноты понимания, объясните, пожалуйста, просто (как для чайника), их назначение, применение, все ли они нужны для озвучки, допустим, Максимом в «Балаболке».
Пример фрагмента словаря
По этим словарям обрабатываются омографы в тексте, в частности, программой "Homograph". Они могут быть разные по наполняемости.Код: Выделить всё
спешил=спЕшил,спешИл спешила=спЕшила,спешИла спешили=спЕшили,спешИли спешило=спЕшило,спешИло спешим=спЕшим,спешИм спешит=спЕшит,спешИт спешите=спЕшите,спешИте спешить=спЕшить,спешИть спешишь=спЕшишь,спешИшь спешу=спЕшу,спешУ
Файлы Pls - это словари для синтезатора речи IVONA TTS. В них содержатся правила озвучивания записанных в них слов. С помощью этих словарей корректируется произношение слов.
О словарях Dic, Rex почитайте в теме диалоги с автором программы "Demagog", я лучше не смогу обьяснить. В этой же теме есть ссылка на ответ автора программы "Balabolka".
flegont писал(а):Для начала, попробуйте просто послушать, как читает Максим вообще без словарей. Вполне вразумительно.skreb писал(а):Для полноты понимания, объясните...
У меня, к примеру, Максим версии 74 и (до последнего времени) ни одного подключенного словаря. Ни пресловутых PLS, ни rex, ни dic. Да, Максим иногда делает ошибки в ударениях и, изредка, читает в слове букву "е" там, где подразумевается "ё". Где-то так 3-4 ошибочки на страницу.
Через некоторое время, когда красота голоса (а он, довольно качественный, смею заметить) уже не будет так изумлять и восхищать, некоторые постоянные ошибки уже начнут слегка раздражать. Или даже не слегка... Вот тогда и наступит время подумать о подключении словарей.
Тут главное - без фанатизма!
"Исправлять надо лишь то, что раздражает" (с) В. Шойтов-Харитановский - автор программы MP3book2005
Лично я, кроме словаря-ёфикатора, расставляющего букву "ё" вместо "е" везде, где она точно должна быть, пользуюсь еще словарем омографов, чтобы вручную разобраться с омографом "все/всё". Он - самый нервирующий, на мой взгляд. И - самый частый, около 50% случаев.
Итак:
1) словарь-ёфикатор
2) словарь омографов для ручной правки вот этой бандитской десятки Ё-омографов: все перед всем слезы села небо чем-то жены сестры берег
Осталось рассказать, как я борюсь с ошибками ударения Максима. Тут я - кустарь-одиночка. Никого, конечно, не призываю следовать своему примеру.
Есть у меня маленький словарик Maxim-ipa.dic, который постепенно пополняется. Для предъявления на всеобщее обозрение он пока не готов.
Но принцип его - тот же, что описан good_cat в руководстве по созданию аудиокниг: вставка управляющего тега прямо в текст. Например, Максим упорно читает: в своей дУше вместо в своей душЕ Исправляется это добавлением в мой словарик вот такого правила:
*ей душе=ей <phoneme alphabet="ipa" ph="dʊʂˈe"/>
И т.д. и т.п.
В общем, повторю еще раз: не надо торопиться сразу подключать любой словарь, подвернувшийся под руку.
"Лучше ничего не делать, чем сделать что-нибудь не так" (с) Лайф-хак от легионеров Римской империи.
tonio_k писал(а):Хочу поделиться такой своей находкой
в файле 2_corector_ivona_ru.rex - из mytts_dic_rex.zip
п. 12.4. "Коррекция букв в словах кроме аббревиатур". Оно делает все слова в книге с маленькой буквы.
Если это правило сработает в самом начале обработки текста, то все правила типа: $И все?=И всЁ? не будут работать так как они привязаны к регистру. Если его запустить в самом конце, то правила типа вдоль облака=вдоль Облака потеряют смысл, так как всё опять заменится на облака.
Выход из ситуации я для себя нашел такой:
Сначала содержимое п. 12.4. в файле 2_corector_ivona_ru.rex надо заремарить или удалить ( только правила с буквами русского алфавита) иначе дальнейшее не имеет смысла.
Теперь создадим 3 файла
1) Постобработка резервируем омографы с ударением на 1 букву.DIC
одна из строк файла:
$Облака=zfkrfdgkzl1138
где каждому омографу я присваиваю уникальный код.
В файле собраны ВСЕ Омографы, у которых ударение падает на первую букву.
я их вытащил из файла all_omographs.hmg - тот что идет с программой Homograph.
2) Постобработка смена регистра.REX
это скопированный п. 12.4.
одна из строк файла:
@\b[О]([^А-ЯЁ\d]+)=о$1
меняем на нижний регистр все первые буквы слов в тексте
3) Постобработка восстановление омографы с ударением на 1 букву.DIC
тут делаем обратную операцию к п. 1
одна из строк файла:
zfkrfdgkzl1138=Облако
Теперь запускаем их строго друг за другом по порядку в самом конце обработки книги.
т.е. не кидаем скопом в папку со словарями, а именно сначала получаем текст по первому правилу, и полученный текст обрабатываем следующим правилом. Так как 2 по порядку это REX словарь.
Альтернатива - тогда можно будет, действительно, кинуть все в одну папку со словарями и поставить галочку напротив. Тогда балаболка / демагог сделает разом, это если второй файл будет .DIC а правила в нем будут типа $О*=о, но тогда у вас могут абривиатуры поплыть типа сССР или бАМ
Вот и всё. Все слова будут в маленькой буквы, а нужные нам омографы, с ударением на первую букву, - останутся без изменений.
у кого возникает проблема с "быстрым проговариванием без паузы на одном дыхании" оглавление текста в начале книги типа:
Роман Злотников
ШАГ К ЗВЕЗДАМ
Пролог
Блаблабла....конец книги.
в 2_corector_ivona_ru.rex нужно добавить строчку
([A-Za-zА-яЁё]|\,)(\r)(\n)=$1<silence msec="500"/>