Yandex TTS
- tonio_k
- V.I.P.
Yandex TTS
► Показать
а это уже не в настройках Демагога, отдельно написанный скрипт: Пример применения:
► Показать
После прослушивания новых слов, список вставляем в окно 7 "прослушанные_слова ПОПОЛНЕНИЕ" и сохраняем. При этом, можно смело копировать строки из окна 8 и 9 - вся лишняя информация будет удалена при повторном запуске скрипта
Найти "имена" или найти "новые слова" - это практически одно и то же. Только в первом случае ищутся новые слова среди имен и аббревиатур. Можно сначала искать имена а затем новые слова - так списки будут меньше - удобнее?
По умолчанию, в результаты выводятся все найденные новые слова и имена. Если нужно выводить только те, которые в книге встречаются часто, то одиночные слова можно удалить из выводимого списка. Для этого:
Код: Выделить всё
-- удалить строки со словами встречающиеся в тексте только (1|2|3|4) -- перечислить
r0=[[
#^.*‹(1|2|3|4)›.*$=
]]
Код: Выделить всё
^.*‹(1)›.*$=
- Piligrim
- Обыватель
Yandex TTS
Ув. tonio_k Благодарю Вас за скрипт, за пояснения и видео. Всё понятно. Скачал, уставновил. Теперь буду экпериментировать.tonio_k писал(а): ↑02 ноя 2020 15:07Пример как применить словарь к тексту...
...отдельно написанный скрипт:
Demagog.zip
Пример применения...
По умолчанию, в результаты выводятся все найденные новые слова и имена. Если нужно выводить только те, которые в книге встречаются часто, то одиночные слова можно удалить из выводимого списка. Для этого:
КОД: ВЫДЕЛИТЬ ВСЁ
-- удалить строки со словами встречающиеся в тексте только (1|2|3|4) -- перечислить
r0=[[
#^.*‹(1|2|3|4)›.*$=
]]
удаляем символ решетки и перечисляем какие результаты не выводить. Например:
КОД: ВЫДЕЛИТЬ ВСЁ
^.*‹(1)›.*$=
- tonio_k
- V.I.P.
Yandex TTS
2 ошибки исправил в скрипте:
2) при чистке словаря ПОПОЛНЕНИЕ удалялась латинская d вместо удаления чисел
+Добавил вывод окна-напоминание о необходимости провести первичную обработку.
1) вместо удаления лишних предложений в выводимом списке удалялись только знаки конца предложения. 2) при чистке словаря ПОПОЛНЕНИЕ удалялась латинская d вместо удаления чисел
+Добавил вывод окна-напоминание о необходимости провести первичную обработку.
- Piligrim
- Обыватель
Yandex TTS
Благодарю Вас, tonio_k. Я перезаписал скрипт, но пока не дошёл до его освоения.
Используя словарь на 3 миллиона слов, столкнулся с тем, что Филипп и Алёна приобрели уральский окающий акцент. Все эти короткие частички и слова (типа "т+о", "+от", "п+о") режут слух, хоть и правильно произносятся, но с паузами. Эти появившиеся лишние плюсики мешают голосовому движку правильно произносить предложения там, где они появились...
Попытался на слух определить излишние плюсы в словах, сравнивая с тем, что произносит синтезатор и проплюсованные ударения... Думаю, что у меня не хватит терпения на этот "мартышкин труд"...
Используя словарь на 3 миллиона слов, столкнулся с тем, что Филипп и Алёна приобрели уральский окающий акцент. Все эти короткие частички и слова (типа "т+о", "+от", "п+о") режут слух, хоть и правильно произносятся, но с паузами. Эти появившиеся лишние плюсики мешают голосовому движку правильно произносить предложения там, где они появились...
Попытался на слух определить излишние плюсы в словах, сравнивая с тем, что произносит синтезатор и проплюсованные ударения... Думаю, что у меня не хватит терпения на этот "мартышкин труд"...
- wasyaka
- V.I.P.
Yandex TTS
Имеется в виду орфоэпический словарь русского языка
Небольшой эксперимент (все что больше одного раз встречается, я прослушиваю, но не вначале,как предлогает tonio_k, а после обработки словарями...Совпавшие со словарём :
Код: Выделить всё
банковым=б+анковым
братов=бр+атов
бутончиков=бут+ончиков
выемках=в+ыемках
высокопреподобие=высокопрепод+обие
генштабисты=генштаб+исты
дедукцией=дед+уктсыей
ельцовым=+ельтсовым
ермиловой=+ермиловой
забайкальцами=забайк+альтсами
забайкальцев=забайк+альтсэв
забайкальцы=забайк+альтсы
ионг=+ионг
капор=к+апор
картавостью=карт+авостью
лагунов=лагун+ов
личниками=л+ичниками
личником=л+ичником
марксистскую=маркс+истскую
мызы=м+ызы
обмишулится=обмиш+улится
околоточных=окол+оточных
политэмигрант=политэмигр+ант
полонэза=полон+эза
приглашено=приглашен+о
пуржило=пурж+ило
справках=спр+авках
сумском=сумск+ом
террористке=террор+истке
топографического=топограф+ического
уссурийцев=уссур+ийтсэв
уссурийцы=уссур+ийтсы
хабаровским=хаб+аровским
черевину=чер+евину
эстре=+эстре
ясумаса=+ясумаса
айгуне=+айгуне
айгунь=+айгунь
айгуня=+айгуня
альберс=+альберс
анисимовым=+анисимовым
астрахановки=+астрахановки
биваке=бив+аке
босоногими=босон+огими
бронепоездах=бронепоезд+ах
бунтарка=бунт+арка
гиляка=гиляк+а
гиляке=гиляк+е
гонконгского=гонк+онгского
девиза=дев+иза
екатерино=+екатерино
ериловым=+ериловым
женьшеню=женьш+еню
забайкальца=забайк+альтса
зарезанными=зар+езанными
илинский=+илинский
илинским=+илинским
ихэтуани=+ихэтуани
ихэтуань=+ихэтуань
крупозного=круп+озного
кульбита=кульб+ита
надульник=над+ульник
пенициллину=пенитсылл+ину
погодков=пог+одков
подхорунжим=подхор+унжим
поручикам=пор+учикам
привилегиях=привил+егиях
противодифтерийной=противодифтер+ийной
сэпсисом=с+эпсисом
сэттльментах=с+эттльментах
сэттльменты=с+эттльменты
цзяо=тсз+яо
цинское=тс+ынское
эндимион=+эндимион
юнгуань=+юнгуань
юнгуаню=+юнгуаню
янчис=+янчис
янчиса=+янчиса
янчису=+янчису
ярон=+ярон
ярона=+ярона
абрикосовый=абрик+осовый
андалусского=андал+усского
безземельного=беззем+ельного
ботфорта=ботф+орта
ботфортов=ботф+ортов
бубенчиков=буб+енчиков
венецианское=венетсы+анское
владетельница=влад+етельнитса
выкупленные=в+ыкупленные
высокоуглеродистую=высокоуглер+одистую
гиды=г+иды
гребешками=гребешк+ами
дончаками=дончак+ами
дончаки=дончак+и
дончаков=дончак+ов
доплатами=допл+атами
закладного=закладн+ого
залоговые=зал+оговые
запорожцами=запор+ожтсами
индигената=индиген+ата
исповеднику=испов+еднику
канарском=кан+арском
каронад=карон+ад
каронады=карон+ады
кастратами=кастр+атами
каширские=каш+ирские
каширских=каш+ирских
каширскому=каш+ирскому
каширскую=каш+ирскую
кэч=к+эч
кинематические=кинемат+ические
конопатенькая=коноп+атенькая
коронных=кор+онных
крестимся=кр+естимся
кси=кс+и
кумовья=кумовь+я
ливнестока=ливнест+ока
ливнестоке=ливнест+оке
любке=л+юбке
малага=мал+ага
малаге=мал+аге
малагу=мал+агу
металлорежущего=металлор+ежущего
наливную=наливн+ую
обороноспособностью=обороноспос+обностью
окладами=окл+адами
оправке=опр+авке
пахолки=п+ахолки
пахолков=п+ахолков
переносчиками=перен+осчиками
пиастр=пи+астр
пиастра=пи+астра
пиастру=пи+астру
повеселевшие=повесел+евшие
повета=пов+ета
подорожные=подор+ожные
послаблении=послабл+ении
посполитых=посполит+ых
пустотелые=пустот+елые
равелины=равел+ины
резьбовое=резьбов+ое
сабелька=с+абелька
сарабанду=сараб+анду
сечевом=сечев+ом
собакевичем=собак+евичем
собакевичу=собак+евичу
соколец=сокол+етс
студиозы=студи+озы
талера=т+алера
тэнэриф=тэнэр+иф
тронному=тр+онному
феода=фе+ода
феодом=фе+одом
фехтовальщиком=фехтов+альщиком
химкомбинате=химкомбин+ате
хлопами=хл+опами
цехинами=тсэх+инами
ятагану=ятаг+ану
агрономической=агроном+ической
андалусского=андал+усского
арапки=ар+апки
арапы=ар+апы
астурийской=астур+ийской
баркентину=баркент+ину
баулу=ба+улу
безводная=безв+одная
бессарабских=бессар+абских
благоприятны=благопри+ятны
бульбой=б+ульбой
бушменов=бушм+енов
венчаний=венч+аний
внебрачные=внебр+ачные
галерники=гал+ерники
гафель=г+афель
гафельный=г+афельный
глупей=глуп+ей
годичного=год+ичного
готтентотов=готтент+отов
готтентоты=готтент+оты
гуртильное=гурт+ильное
десятине=десят+ине
договаривающаяся=догов+аривающаяся
долевое=долев+ое
заслужат=засл+ужат
зулусской=зул+усской
индигената=индиген+ата
калана=кал+ана
камнереза=камнер+еза
капральство=капр+альство
каронад=карон+ад
каронады=карон+ады
каширских=каш+ирских
коваля=ковал+я
корабелом=кораб+елом
краснодеревщики=краснодер+евщики
круглогодичных=круглогод+ичных
кругосветки=кругосв+етки
лозняка=лозняк+а
любке=л+юбке
малаге=мал+аге
малагу=мал+агу
маловатая=малов+атая
маловатых=малов+атых
монетные=мон+етные
нгони=нгон+и
объединилось=объедин+илось
полостную=полостн+ую
полугодичное=полугод+ичное
портиков=п+ортиков
принайтованного=принайт+ованного
равелинов=равел+инов
равелины=равел+ины
рангоутное=ранг+оутное
розарию=роз+арию
розария=роз+ария
селене=сел+ене
селеной=сел+еной
селену=сел+ену
слоновых=слон+овых
стакселей=ст+акселей
стаксели=ст+аксели
стакселях=ст+акселях
талера=т+алера
тэнэриф=тэнэр+иф
ткачихами=ткач+ихами
феода=фе+ода
феоде=фе+оде
феодом=фе+одом
флейтов=фл+ейтов
фомке=ф+омке
хромистый=хр+омистый
чеканочной=чек+аночной
шатунную=шат+унную
шебеках=шеб+еках
шеренговый=шер+енговый
шкиперские=шк+иперские
штэмпели=шт+эмпели
Код: Выделить всё
картавостью=карт+авостью
уссурийцев=уссур+ийтсэв
эстре=+эстре
ясумаса=+ясумаса
айгуне=+айгуне
айгунь=+айгунь
айгуня=+айгуня
астрахановки=+астрахановки
екатерино=+екатерино
ериловым=+ериловым
сэттльментах=с+эттльментах
янчиса=+янчиса
янчису=+янчису
малага=мал+ага
пахолков=п+ахолков
баркентину=баркент+ину
баулу=ба+улу
нгони=нгон+и
флейтов=фл+ейтов
штэмпели=шт+эмпели
И как им распоряжатся ...?
Каждый выбирает сам...
ПыСы
Ц заранее меняется на тс
це на тсэ
ци на тсы
- tonio_k
- V.I.P.
Yandex TTS
согласен, что так правильно (в результате список новых слов получается в разы меньше по размеру), но я обошёл эту необходимость так (для голоса Максим):
из всех словарей *ФОНЕМЫ* вытащил все слова к которым есть замены (левую часть правил) и добавил их списком в файл "прослушенные слова" т.е. продублировал в этом словаре.
В результате, эти слова в список новых слов (после срабатывания скрипта) уже не попадают. Т.о. можно получить список новых слов не прогоняя всю книгу всеми словарями, а только словарями предварительной обработки.
Сделав один раз такую "синхронизацию" словарей замен со словарем "прослушенные слова", больше к этой процедуре возвращаться не надо, при условии постоянного/регулярного использования скрипта "новые слова" т.к. новые слова заносятся в прослушенные одновременно с новыми правилами.
Ещё раз повторюсь, словарь Орфоэпический надо использовать с осторожностью! Особенно с Яндексом т.к. он по умолчанию лучше ставит ударения чем тот же Максим.
Скрипт, который я выложил, отличается от того, который я лично использую для Максима. Скрипт для Максима делает ещё несколько операций и заполняет ещё пару дополнительных окон с промежуточными результатами. Всё это делается потому, что фонетические транскрипции (для Максима) к словам в Демагоге можно генерировать пакетно к списку слов и в 90% случаев, благодаря Орфоэпическому словарю, произношение в конкретном слове либо не меняется, либо становится лучше (что ещё раз говорит о том, что Максим ударения ставит хуже чем Яндекс). А получить автоматически ударения к 80% новых слов (из которых всего 3-5 произносятся не верно) это большое подспорье и автоматизация рутины вставки ударений в новые слова перед подготовкой книги к озвучке.
- wasyaka
- V.I.P.
- wasyaka
- V.I.P.
Yandex TTS
И как он должен выглядеть? ( это касаемо премиум голосов)
Вычитка - слово лыцарь и в склонении - Ермил пробурчал чтото не понятное -ну и спорт интерес - а как у випов?
Филип - как и написано...
Задело..
А как омографы?
Несколько фраз с одним омографом но в разном ударении - + фразы с все-всё и всё - ОК правильно - и зачем словари? в смысле как понять с чем "боротся"?
Поспешил и у випов не всё гаразд(ОК)
Код: Выделить всё
алкогольные пары=алкогольные парЫ
пары йода=парЫ йода
- chibis
- Обыватель
Yandex TTS
Списки выбора скорости и интонации добавил, словарь тоже увеличил почти в три раза, собрав по форуму записей из разных сборок. Плюс еще записи со звездочками, одна такая запись покрывает сразу несколько возможных сочетаний. Пробовал добавить еще несколько десятков тысяч записей с "е" и "ё", но потом убрал, потому что количество срабатываний от этих ё практически не увеличивается. Проверил сборку на нескольких книгах- ловит в среднем в два с половиной раза больше замен чем предыдущая. Если добавить однословные раньше проблемные записи, то можно поймать значительно больше, но по-моему премиум голосам однословные однозначные записи не нужны. Словари для удобства разделил по разным назначениям.
32 бита выложу попозже, на новом ноуте пока нет инструмента для сборки 32 бит.
Я тоже заметил, что филипп со временем начинает произносить правильно те словосочетания, которые раньше произносил неправильно. Может скоро яндекс сам порешает все эти проблемы с ударениями, лишь бы не прикрыл аттракцион неслыханной щедрости после этого.
- Haarhuss
- Прохожий
- Piligrim
- Обыватель
Yandex TTS
Скачал, опробовал, в полном восторге!!! Благодарю, chibis. Особенно понравились словари, которые можно пополнять (используя скрипт от tonio_k в Демагоге).
- olelog
- Обыватель
Yandex TTS
Попробовал в "yndx_tts64.zip" проверить словарь DicOMG на ошибки через демагог и вот что вышло, ошибок очень много, со словарем надо поработать.
- Вложения
-
- Проверка на ошибки.txt
- (106.06 КБ) 98 скачиваний
- chibis
- Обыватель
Yandex TTS
Дубликаты должны автоматически удаляться в процессе сортировки, но это если записи полностью одинаковые. А у этих пар разные правые части поэтому они не удалились сами. В любом случае применится только одна запись, вторая с такой же левой частью естественно уже не применится. Я согласен, из двух записей пары, нужно выбрать какую-то одну, ту у которой более удачная правая часть. Насколько заметил бегло просмотрев отчет - записи отличаются в основном тем что в одной проставлены ударения в двух словах сочетания, а в другой только в одном. Поэтому я думаю можно просто при сортировке из двух таких записей, автоматом оставлять ту у которой плюсиков в правой части больше. Ударения проставлены человеком, значит адекватны и вреда от ударения не будет. Тем более, что яндекс постоянно учится, боюсь что уже сейчас б+ольшая часть ударений которые мы отсылаем, на самом деле ему не нужна.
- Piligrim
- Обыватель
Yandex TTS
В словаре dicOMGaster в словопарах с крайней звёздочкой справа (например - *ение места преступлен*=ение м+еста преступлен*) в текст попадает ненужная звёздочка: ение м+еста преступлен* Я у себя их поудалал. Новая сборка работает великолепно! Благодарю Вас, chibis.
- olelog
- Обыватель
Yandex TTS
Сборка работает хорошо, слов нет, однако заметил, что ввиду большой "замусоренности" словарей сильно снижена скорость обработки, да и траффика жрет в три раза больше чем к примеру с версией Play5_fillip, со старым словарем в 750кб Если сидишь на мобильном интернете, то это существенно. Кстати иногда случаеются накладки, если использовать свой доп. словарь. Исправленные слова работают неправильно. Буду пробовать их слить в один без дубликатов. Ну а исправлять такое огромное количество ошибок после проверки демагогом вручную это безумие.
- Haarhuss
- Прохожий
Yandex TTS
Заметил, что "м-да" читается как "н девяносто один н девяносто один" .
В словаре dicOMG такие строчки "м-да=н%91н%91, да" и "м-да=н`н`-да" .
В словаре dicOMG такие строчки "м-да=н%91н%91, да" и "м-да=н`н`-да" .
- olelog
- Обыватель
- chibis
- Обыватель
Yandex TTS
Это значит я пропустил, хотя смотрел дважды, и при импорте и уже в готовом словаре. Звездочек(если конечно они сами по себе не являются частью текста), с права от знака равно быть не должно.
Эта запись и еще оп-па с символами процентов тоже попала в словарь по моему недосмотру - она была с словаре от последней версии Play_5, когда на демостранице еще использовалось url-кодирование, поэтому выглядит так странно. Я сейчас прогоню словари нотепадом, на поиск ненужных звезд, процентов и одинаковых левых частей. Просто пока ошибку кто-нибудь не обнаружит, непонятно какого-рода косяки в записях отлавливать.
Трафик зависит только от звуковых файлов, вклад именно текста принебрежительно мал и словарь на трафик вообще никак повлиять не может. Я сначала подумал, может чем медленнее скорость озвучки, тем больше размер файлов, но нет. Длительность аудио естественно больше, но размер практически такой же, в районе 3.5 мегабайт на 5000-символьный текст. Чтобы трафика было в три раза больше, размер одного звукового файла должен быть больше десяти Мб. Посмотрите в папке Audio, какой размер у .ogg файлов до того как они склеятся.
- chibis
- Обыватель
Yandex TTS
Вот, зачистил словари от указанных косяков, пока руками при помощи нотепада, но потом хочу сделать так чтоб в процессе сортировки само проверялось на корректность.
Оба надо положить в папку Sys.
Оба надо положить в папку Sys.
- Вложения
-
- dicOMGaster.txt
- (43.67 КБ) 110 скачиваний
-
- dicOMG.txt
- (1.86 МБ) 111 скачиваний
- olelog
- Обыватель
Yandex TTS
Огромное спасибо chibis за работу ! Я в свою очередь объединил еще свой словарь с последним от chibis отсортировал без дубликатов и по убыванию, однако возникли некоторые ошибки про проверке. В архиве все показал. Если доработать будет вообще отлично !
- Вложения
-
- Объединениесловарей.rar
- (689.35 КБ) 106 скачиваний
- flegont
- V.I.P.
Yandex TTS
Допустим, книга не нуждается в исправлении произношения, потому что уже обработана словарями с помощью сторонних программ. Как в сборке отключить словари dicOMG.txt и dicOMGaster.txt?
- Piligrim
- Обыватель
Yandex TTS
Я поступил так - распаковал программу в папку №2 и обнулил в ней содержимое всех словарей.
- chibis
- Обыватель
Yandex TTS
Здесь тоже одинаковые левые части, которые получаются при объединении словарей. Я прогнал словарь notepadом++ через вот такую регулярку "^(.*)=(.*)\r\n\1=.*", она ищет левые дубликаты. Если в поле для замены написать "$1=$2", то в зависимости от расстановки скобок можно выбрать правую часть либо от первой записи либо от второй. В случае когда записей относительно немного, можно даже использовать ручной выбор назначив горячие клавиши на первый или второй вариант. Результат отправлю в личку, но после этой операции и сортировки количество записей объединения возросло только на чуть больше тысячи. Остальные отсеялись либо, как полные дубликаты, либо как дубликаты по левым частям.
Словари не отключаются, но можно сделать так как написал Piligrim.
- npupoct
- Прохожий
Yandex TTS
Больше спасибо chibis за отличный софт.
Посмотрите, пожалуйста, в последних версиях выходит ошибка:
{"error_code":"BAD_REQUEST","error_message":"Error while parsing and validating request: Requested text length exceed limitation(5000): 5046"}
В версии yndx_tts все работает хорошо.
Посмотрите, пожалуйста, в последних версиях выходит ошибка:
{"error_code":"BAD_REQUEST","error_message":"Error while parsing and validating request: Requested text length exceed limitation(5000): 5046"}
В версии yndx_tts все работает хорошо.
- olelog
- Обыватель
Yandex TTS
Еще раз спасибо chibis за отличный софт. Как будет происходить сортировка списка словаря при добавлении новых слов, будут ли удаляться одновременно дубликаты ?
- chibis
- Обыватель
Yandex TTS
Быстрое решение - это открыть в текстовом редакторе файл "Play_5.hta", найти два вхождения числа "4950" и переправить его на "4750". Первое вхождение находится в строке 640, а второе в строке 656.
Сортируется по убыванию длин левых частей записей. При сортировке удаляются только полные дубликаты, то есть если и левая и правая часть у записей одинаковые. Если у записей левые части одинаковые, а правые разные, то такие дубликаты не удаляются. В следующий раз я добавлю обработку после сортировки регуляркой которую приводил выше. Сейчас если нужно, ее можно применить из текстового редактора поддерживающего регулярки.
И лучше сначала свои записи добавлять в локальный словарь из папки "Lexicon". Там они не сортируются, и будут находиться на тех местах куда их записали. А по мере накопления, те записи, которые решите оставить уже переносить в основные словари.
- olelog
- Обыватель
Yandex TTS
Еще заметил, что при слиянии словарей все слова с заглавных букв переписались на малый регистр, и при чтении делают ошибки. Приходится добавлять по новой.
Али-Баба=Али-Баб+а
Жигана=Жиг+ана
Али-Баба=Али-Баб+а
Жигана=Жиг+ана
- chibis
- Обыватель
Yandex TTS
Это я в текстовом редакторе преобразовал все буквы в строчные, потому что было много записей где ударения были проставлены не в виде плюсика, а в виде больших гласных букв. Яндекс одинаково произносит большие и маленькие буквы, поэтому алибабу и другие имена не надо писать с большой буквы. Добавляйте просто али-баба=али-баб+а
- olelog
- Обыватель
Yandex TTS
К сожалению это не так, не всегда малый и большой регистр читает одинаково, в данных примерах с большой буквы читает неправильно. Лично исправлял. Может со временем яндекс научится это делать.
Заметил еще, что для разных голосов например Алиса и Филлип по разному идет расстановка ударений. например "моего слОва" Филлип читает правильно а Алиса нет. Таких примеров море, Филлип читает гораздо "грамотнее". Правда зачастую на странице сервиса Yandex SpeechKit API многое из того что произносится правильно, при записи книги записывается неправильно.
Заметил еще, что для разных голосов например Алиса и Филлип по разному идет расстановка ударений. например "моего слОва" Филлип читает правильно а Алиса нет. Таких примеров море, Филлип читает гораздо "грамотнее". Правда зачастую на странице сервиса Yandex SpeechKit API многое из того что произносится правильно, при записи книги записывается неправильно.
- Piligrim
- Обыватель
Yandex TTS
Проверил https://cloud.yandex.ru/services/speechkit
"моего слова" и Алёна и Филипп читает правильно, не нужно обозначать "моего сл+ова",
"моего слОва" Филипп читает с паузой перед О "моего эсэл Ова", а Алёна - почти правильно: "моего сл Ова". Движок Элис (Алиса?) - вчерашний день.
- wasyaka
- V.I.P.
Yandex TTS
Диалог между ними:
Филлип- А моего слОва вам достаточно?
Алиса: А у моего словА расходятся с делом...
Где-то так...
- olelog
- Обыватель
Yandex TTS
Постоянно сталкиваюсь с подобным "феноменом", книгу записал с ошибками голос "Fillip"
Катящиеся волнЫ
должно полУчиться
положение телА
слОва и призывы
Проверяю в сервисе SpeechKit через тот же голос - читает все правильно ! ??? Как быть, может стоит несмотря на "правильность чтения" в сервисе все же включать себе в словарь с "плюсами-ударениями" ?
Проверил все снова, включил данные словосочетания в текст, в словарь не включал, так и есть записало опять все неправильно за исключением "слова и призывы". Думал, что Филлип уже научился, однако нет ! И только включив данные словосочетания к себе в словарик получил "правильный текст". Делаю вывод, нельзя доверять полностью сервису при проверке слов. То ли запись книг идет с другого источника, то ли еще что... Если записало "неправильно", есть смысл включать себе в словарь во избежание повторения ошибок. Прикладываю маленький фрагмент для пробы.
Катящиеся волнЫ
должно полУчиться
положение телА
слОва и призывы
Проверяю в сервисе SpeechKit через тот же голос - читает все правильно ! ??? Как быть, может стоит несмотря на "правильность чтения" в сервисе все же включать себе в словарь с "плюсами-ударениями" ?
Проверил все снова, включил данные словосочетания в текст, в словарь не включал, так и есть записало опять все неправильно за исключением "слова и призывы". Думал, что Филлип уже научился, однако нет ! И только включив данные словосочетания к себе в словарик получил "правильный текст". Делаю вывод, нельзя доверять полностью сервису при проверке слов. То ли запись книг идет с другого источника, то ли еще что... Если записало "неправильно", есть смысл включать себе в словарь во избежание повторения ошибок. Прикладываю маленький фрагмент для пробы.
- Вложения
-
- Зверев - Стальные стрелы.txt
- (706 байт) 67 скачиваний
- chibis
- Обыватель
Yandex TTS
Нет, вывод из этих примеров как противоположный - сервису можно доверять больше. Филипп с этим словосочетаниями прекрасно разобрался сам, а ошибки произношения это результат "коррекции" словарями. Потому-то текст посланный через демо-страницу произносится правильно - он не обрабатывается. В словарях есть записи "*иеся волны=иеся волн+ы" "*ние тела=ние тел+а" "получиться=пол+учиться". За "слОва и призывы" тоже очевидно ответственна какая-то запись, но связанная думаю со словом предшествущим сочетанию. Чтобы точно узнать виноват ли в ошибке непосредственно сам голос, или его вынуждает ошибаться неправильно проставленное ударение, проверяйте файл "replacingLog.txt". В него записывается текст, в том виде в каком его получает яндекс, т.е. уже с плюсиками. Я думаю подобные ошибки более логично исправлять, не добавлением в словарь новых записей, а удалением имеющихся если они не универсальны/не подходят филиппу/просто ошибочны/и.т.д.
-
- Обыватель
Yandex TTS
Вы меняете все ЦЕ/ЦИ на ТСЭ/ТСЫ? Это слишком радикальное решение, там очень много слов, которые произносятся корректно, станут произноситься хуже, и в добавок некоторые другие правила могут перестать работать (в виду замен исходных слов).
Лично я сделал так с ЦИ/ЦЕ (актуально для старого движка). Собрал наиболее популярные слова с ЦИ/ЦЕ, прослушал их, там где были косяки - сделал правила + размножил на другие словоформы (ЦИИ, ЦИОННЫЙ и тд). Большую часть наиболее употребительных слов данный способ охватывает, но далеко не все, например многие составные слова в пролете. Приходится выбирать из 2х зол.
-
- Обыватель
Yandex TTS
А вот тут нужно аккуратней! )
Несколько месяцев назад я решил объединить 2 сборки (словари): от tonio_k и wasyaka, и это было...... не могу подобрать аккуратного слова.
В целом, за несколько недель или месяцев, я более-менее привел полученную сборку к рабочему виду, но до сих пор в ней не уверен. Кстати, я тут обещал выложить её некоторое время назад - постараюсь на этой неделе (пришлось уехать по делам, только вернулся). Также постараюсь дать комменты, что делал и для чего, а также краткие справки по словарям, думаю кому-то пригодится.
Такой момент, может вы, chibis, подумаете. Было бы здорово периодически объединять словари разных пользователей, но тут нужна единая система, и наверное модератор, чтобы не плодились пользовательские словари + объединенные разными людьми. Как бы организовать такую систему? И, вообще, насколько актуальны словари под Филиппа? Еще не довелось протестировать его, но судя по постам выше, сколько-то нужны.
-
- Обыватель
Yandex TTS
Вы отказались от этой системы? Иногда нужно подсунуть Яндексу ударение именно через большую букву, есть также правила в словарях, где учитываются заглавные буквы: "Валя" - имя, "валя" - топая куда-нибудь, ударения будут разные.
- olelog
- Обыватель
Yandex TTS
Со словарями нужна какая то система, например для голоса Филлип. Словарь в yndx_tts64 огромный и раздутый, я понимаю, что наполовину он мешает правильному произношению Филлипа. Кто то хорошо разбирающийся должен навести порядок в словарях. Если это сделать не руками а как то программно, скриптами было бы здорово.
- chibis
- Обыватель
Yandex TTS
Это да, с объединениями все не так просто. Обидно еще и то, что после приведения записей в готовом словаре к одному формату, получаются одинаковые записи. То есть в словарях из разных сборок по сути одни и те же записи, только в разных форматах и с небольшими вариациями. После хотя бы синтаксической зачистки остается сумма намного меньше чем слагаемые вместе.
После прочтения вот этого сообщения tonio_k, даже не знаю насколько это перспективно: http://i91650e3.beget.tech/viewtopic.php?f=55&t=434#p2432
Я полтора месяца назад когда узнал про Филиппа, пробовал озвучивать без словаря непосредственно через демо страницу - выходило в среднем 3 - 5 ошибок на 5000 тысячный кусок текста. Это вообщем очень даже неплохо, но в готовую первую сборку решил добавить обработку средствами Play_5, чтобы была возможность быстрого исправления специфических слов часто, встречающихся в конкретной статье или книге. После НГ снова хочу попробовать без словаря, с учетом прогресса Филиппа, и того что яндексоиды могут как и с прошлой демкой пригрозить отключить демку в НГ.
Яндекс (по крайней мере Филипп)большую гласную в качестве ударения не воспринимает, только плюсик перед гласной. Про имена, спасибо за подсказку, я это учту.
-
- Обыватель
Yandex TTS
А вы попробуйте прослушать этот кусочек текста:
► Показать
- chibis
- Обыватель
Yandex TTS
И правда, меняется. Я так понял что яндекс большие буквы в середине слова, как гласные, так и согласные считает началом следующего слова, как будто перед большой буквой есть пробел. Получается Месим тестО, звучит как Месим тест О. Интересно если ради прикола заменить начальные буквы всех слов в книге на большие и удалить пробелы, как отреагирует на такую оптимизацию? Вот такую классику правильно читает: 'СъешьЕщёЭтихМягкихФранцузскихБулок,ДаВыпейЧаю' )
-
- Обыватель
Yandex TTS
Занятный пример, действительно как-будто пробелы.chibis писал(а): ↑18 ноя 2020 21:40Я так понял что яндекс большие буквы в середине слова, как гласные, так и согласные считает началом следующего слова, как будто перед большой буквой есть пробел. Получается Месим тестО, звучит как Месим тест О. Интересно если ради прикола заменить начальные буквы всех слов в книге на большие и удалить пробелы, как отреагирует на такую оптимизацию? Вот такую классику правильно читает: 'СъешьЕщёЭтихМягкихФранцузскихБулок,ДаВыпейЧаю' )
Но на старых голосах это можно было использовать как альтернативу ударениям. Не найду сейчас пример, но некоторые слова я разударял именно через регистр вместо плюса, т.к. с последним ударение не нравилось, а через регистр звучало хорошо.
Насчет Филиппа пока сложно сказать точно, но на первый взгляд он по другому произносит такие слова, вероятно проставить ударения таким образом с ним не получится, но можно поэкспериментировать (если нужно вообще).
- wasyaka
- V.I.P.
Yandex TTS
Мой Пример применения:
#ПРЕДЛОЖЕНИЯ
► Показать
При прослушке где надо ставится +
► Показать
► Показать
- tonio_k
- V.I.P.
Yandex TTS
что бы не ручками не удалять всё не нужное:
Код: Выделить всё
s=WText(0) -- окно 0
s=RexRepl(s,{[[\|\|.+$=]]})
s = string.split(s,'\r')
for i=1,#s do
if LuaMatch(s[i],'^[^=]+')==LuaMatch(s[i],'[^=]+$') then s[i]='' end
end
s = table.concat(s,'\r')
s = GoodText(s)
print(s)
- wasyaka
- V.I.P.
- tonio_k
- V.I.P.
Yandex TTS
Хм, не приходил в голову такой простой вариант...
Попробуй вот такой вариант: - чуть короче и без перечисления "всех вероятных вариантов" справа от ||
Попробуй вот такой вариант:
Код: Выделить всё
^(\w+=[\w+]+).+$::$1
^\w+=\w+$::
[\r\n]+::\r
- andko
- Обыватель
Yandex TTS
Подскажите, пожалуйста, возникла такая проблема. Филипп не понимает некоторые добавления в словари, в основном, имена собственные. Я добавляю во все словари (и в UserLocal, и в dicOMG и dicOMGaster), например:chibis писал(а): ↑08 ноя 2020 18:43Списки выбора скорости и интонации добавил, словарь тоже увеличил почти в три раза, собрав по форуму записей из разных сборок. Плюс еще записи со звездочками, одна такая запись покрывает сразу несколько возможных сочетаний. Пробовал добавить еще несколько десятков тысяч записей с "е" и "ё", но потом убрал, потому что количество срабатываний от этих ё практически не увеличивается. Проверил сборку на нескольких книгах- ловит в среднем в два с половиной раза больше замен чем предыдущая. Если добавить однословные раньше проблемные записи, то можно поймать значительно больше, но по-моему премиум голосам однословные однозначные записи не нужны. Словари для удобства разделил по разным назначениям.
yndx_tts64.zip
Озма=+Озма
Озме=+Озме
Озму=+Озму
Озмы=+Озмы
Биллина=Билл+ина
Биллине=Билл+ине
Биллину=Билл+ину
Биллины=Билл+ины
но он все равно произносит по-своему, с ударением на другой слог. Как это исправить?
- tonio_k
- V.I.P.
- andko
- Обыватель
Yandex TTS
Да, получилось, поставил оба слова маленькой буквы, благодарю.
Если можно, подскажите еще кое-что.
1) Как делать пауза побольше, после автора-названия книги, между главами и т. п.? Троеточие не распознается программой, как было год назад.
2) Иногда некорректно работает знак * отвечающий за разные падежи и окончания слов. Вроде бы, ставлю так же, как и в словарях dicOMG. Как нужно их расставлять правильно?
3) Во время воспроизведения полученного аудио ogg периодически слышны щелчки, как будто при скачках напряжения. Можно ли их убрать или минимизировать, сразу или при последующей конвертации в mp3?
- GIS88
- Обыватель
Yandex TTS
andko,
1) Знак «-» добавляет паузу, но программа его коверкает и он не работает. Например - Я Yandex .«-».«-».«-».«-». SpeechKit.
1) Знак «-» добавляет паузу, но программа его коверкает и он не работает. Например - Я Yandex .«-».«-».«-».«-». SpeechKit.
- Lecron
- Специалист
Yandex TTS
Как на Яндекс ТТС прослушивать новые имена, на правильность их произношения? Балаболка не умеет или я не нашел. А другие?