Yandex TTS

tonio_k · #901

avgaz писал(а): ↑
03 июн 2021 11:03
начинает ругаться на файл Demagog.exe что там вирус IDP Generic ну и удаляет его, поясните плиз это.

попробуйте повторно скачать архив со сборкой и сразу сделать проверку её содержимого. Пробуйте отправить зараженный файл на проверку в https://www.virustotal.com не исключаю ложное срабатывание. Попробуйте скачать последнюю версию Демагога с официального сайта и записать поверх сборки, но тут есть 10% вероятность, что какой то скрипт насчёт выдавать ошибку из за несовместимости версий Демагога.
Странно что "вирус" появляется не сразу, а только после:

avgaz писал(а): ↑
03 июн 2021 11:03
но озвучиваю пару раз

вероятно, у вас вирус уже сидит в ПК и заражает втихоря запускаемые приложения.

wasyaka · #902

avgaz писал(а): ↑
03 июн 2021 11:03
антивирус avast начинает ругаться на файл Demagog.exe

Пропиши в исключения, а лучше снеси антивирусник - аваст фрее - это для самоуспокоения...

Droid · #903

Столкнулся с тем, что в последнее время (с конца мая 2021) стали появляться пропуски в озвучке Филиппом, пропадают целые абзацы, до этого в Балаболке такого не наблюдалось.

С одного TXT сгенерировал 4 файла и все получились разного размера (и разной длины, соответственно). 1 час 14 минут и 1 час 59 минут, получается, в первом файле 45 минут не сгенерировано. Ошибки не выдает, что самое интересное, завершает и сохраняет как и должно.

Как от этого если не избавиться, то хотя бы отследить, что всё чётко склеилось?
И что порекомендуете для Яндекс-Филиппа? (пользовался только Балаболкой, хватало сполна, Демагог не пробовал).

avgaz · #904

tonio_k писал(а): ↑
03 июн 2021 12:20
попробуйте повторно скачать архив со сборкой и сразу сделать проверку её содержимого. Пробуйте отправить зараженный файл на проверку в https://www.virustotal.com не исключаю ложное срабатывание.

пробовал весь архив проверить выдает вот что

: 1121.jpg (90.85 КБ) 1191 просмотр

А просто файл на который аваст ругается то вот что

: 11211.jpg (90.48 КБ) 1191 просмотр

Может кто поделится ссылкой на демогог с филипом последней сборки

balabolka · #905

Droid писал(а): ↑
03 июн 2021 21:22
Столкнулся с тем, что в последнее время (с конца мая 2021) стали появляться пропуски в озвучке Филиппом, пропадают целые абзацы, до этого в Балаболке такого не наблюдалось.

Вы используете ключ для премиум-голосов или нет? Если нет, то разница в длительности звучания может объясняться фразами типа "Озвучено 'Яндекс Speechkit'", которые демо-сервис вставляет в текст случайным образом. Фразы разные, их количество всегда разное, поэтому продолжительность аудиофайлов может быть разной.

Вам удалось "отловить" какой-либо конкретный абзац, который был пропущен? Пришлите мне текст этого абзаца, пожалуйста.

tonio_k · #906

Прямо сейчас ради эксперимента с официального сайта Демагога скачал архив и проверил в вирустотал:

► Показать

какой-то ноунейм антивирус (скорее всего бесплатный) всё равно что-то нашёл. А вот профессиональные антивирусы ничего не нашли. Кому деньги платим?

Если уж скаченный Демагог с официального сайта подозревается в вирусе, то даже не знаю что сказать... Почитайте в интернете на тему "антивирусы и ложные срабатывания" может это вас немного успокоит? Попробуйте отправить в антивирусные компании образец файла что бы они проверили на предмет ложного срабатывания. С Авастом или Комодо (точно не помню) я так делал. Через пару-тройку дней приходило оповещение что файл безвреден и файл из карантина восстанавливался.

UPD скачал портабельную Балаболку - ей тоже от какого-то левого антивируса досталось:

► Показать

Droid · #907

balabolka писал(а): ↑
04 июн 2021 00:34
Вы используете ключ для премиум-голосов или нет? Если нет, то разница в длительности звучания может объясняться фразами типа "Озвучено 'Яндекс Speechkit'", которые демо-сервис вставляет в текст случайным образом. Фразы разные, их количество всегда разное, поэтому продолжительность аудиофайлов может быть разной.

Премиум-ключа нет, с вотермарками я конечно сталкивался, но с ними разница в пару минут может быть. А у меня десятки минут. Выпадают именно целые куски текста ни с того, ни с сего.

Конкретный пример в аудио пришлю позже, если проблема повторится. Может, это был глюк сервиса, кто знает, прямо сейчас всё работает нормально.

Вот пример аудиофайлов, которые я получал с одного и того же текста.
Последние 3-4, вроде бы тождественные, и, наверно, без пропусков. Это сегодняшние.
В первых трёх пропущены куски текста 100%, а вот в одном или разных местах, надо послушать (скорее всего, в разных).

Пользуясь случаем, хочу выразить огромную благодарность за Балаболку. Помимо премиум Яндекс озвучки пользуюсь еще делением fb2 на txt по оглавлению — очень круто!

balabolka · #908

Droid
Спасибо за информацию; буду признателен, если пришлете примеры пропущенных текстов.

Исправить тут что-либо сложно: если запрос к серверу не вернул сообщение об ошибке, значит, программа продолжит запись звукового файла. Процесс прерывается только в двух случаях:

сервер выдал сообщение об ошибке;
сервер не прислал аудиоданные.

В Вашем случае этого не происходило.

olelog · #909

Перестала работать программа "yndx_tts64", выдает ошибку. Пробовал разные голоса, переустанавливал программу, отключал антивирус, делал перезагрузку ПК - ничего. Ошибка при записи "ого-го файла"

flegont · #910

Там написано:
"Ошибка в Part001.ogg Попробуйте открыть этот файл, как текстовый для получения дополнительной информации"

В Part001.ogg в этом случае содержится подробное объяснение ошибки, на английском.

GIS88 · #911

У меня в файле Part0001.ogg написано -
{"error":"Api TTS error: Error: Message is longer then 500 symbols"}
Похоже надо уменьшить h= до 400-500 в Play_5.hta. На 490 вроде работает.

balabolka · #912

Да, в тексте веб-страницы на сайте "Яндекса" появился новый параметр:

Код: Выделить всё

{"ttsMessageLimit":500}

Четыре дня назад его не было.

olelog · #913

Где чего изменить, подскажите для чайников, нашел только h=4950

GIS88 · #914

olelog, Нужно заменить - h=4950 на h=490 и h = 4950 на h = 490 (Правда вотермарки слишком много раз произносится). Количество потоков можно поставить на 12 и склеивание по 15 файлов(длительность файлов выйдет 8-8.3 минут).

olelog · #915

Ничего не дает. Похоже бобик сдох )))

GIS88 · #916

olelog, а если 400 ?

olelog · #917

на 400 заработало, но при склейке по 15 файлов (макс. значение) файлы получаются по 30 сек это вооще жесть ! книга будет из 5000 кусков
если записать книгу, то наверное будет сплошное "яндексы спыч кыт, да яндыкс клауд" Похоже яндексоиды обрезали все хвосты.

Droid · #918

Я правильно понимаю, что Яндекс ограничил размер бесплатного куска с 5000 символов до 500?

Да, это не к добру, но всё равно прогресс идёт, чего-нибудь придумаем.

UPD: Появилась новая ошибка: 405 — Not Allowed.
После получаса генерирования в Балаболке не даёт сделать больше.

tonio_k · #919

Droid писал(а): ↑
10 июн 2021 12:16
чего-нибудь придумаем

боюсь, что-то придумать выйдет дороже (или трудозатранее), чем "отстегнуть Яндексу и не заморачиваться". Рандомную вставку текста "так просто" не отловить. Тут либо платить, либо терпеть, либо переходить на другие голоса.

Droid · #920

tonio_k писал(а): ↑
10 июн 2021 12:49
ранее), чем "отстегнуть Яндексу и не заморачиваться". Рандомную вставку текста "так просто"

Да это я о картине в общем, может, появятся другие сервисы скоро, технологии TTS развиваются, то, что Филлипок почти достиг уровня человека — это уже очень круто.

Вставки текста — не проблема (были, по крайней мере).
Проблема, что после генерации 30 минут больше не даёт с этого IP.

Включил белорусский VPN и сгенерировал еще 15-20 минут (чрезвычайно долго, кстати), отключил VPN и со своего айпишника получил ту же ошибку NOT ALLOWED.

Насчёт денег Яндексу — это да, надо хотя бы изучить цены. Технология-то крутая.

UPD: Проверил с украинским IP-шником, сгенерировало 31 минуту, потом та же ошибка 405 NOT ALLOWED.

Lecron · #921

tonio_k писал(а): ↑
10 июн 2021 12:49
Рандомную вставку текста "так просто" не отловить.

Почему? Для WAV/PCM это должна быть неизменяемая последовательность байт. В лосси конечно сложнее, нужны алгоритмы свертки как в сервисах для распознавания музыкальных треков. Но в целом тоже не рокет-сайнс.

tonio_k писал(а): ↑
10 июн 2021 12:49
отстегнуть Яндексу и не заморачиваться

Ой ли? Средняя книга 250-350 страниц или 512-717к байт/символов или 600-850 рублей.
Плюс большая проблема, что далеко не каждая книга дочитывается до конца, а значит придется возится с "тестовыми" фрагментами. Был бы аналог стриминга — кидаешь целую книгу, а озвучка прозрачно происходит порциями, — да ценник в пару-тройку раз гуманнее, может и не надо было заморачиваться.

По прежнему сожалею что нет мобильного приложения для прослушивания TTS книг. Т.е. чтобы выглядела как существующие для аудио-книг, а под капотом вместо декодера мр3-файлов, набор провайдеров для доступа к локальным TTS движкам, удаленным SAPI5 движкам (собственный "сервер") или удаленным REST/gRPC движкам сервисов.

avgaz · #922

tonio_k писал(а): ↑
10 июн 2021 12:49
боюсь, что-то придумать выйдет дороже (или трудозатранее), чем "отстегнуть Яндексу и не заморачиваться". Рандомную вставку текста "так просто" не отловить. Тут либо платить, либо терпеть, либо переходить на другие голоса.

Через какую программу можно "отстегнуть яндексу" что бы не заморачиватся? имею ввиду в какой ключ ввести можно, что бы ограничение снять?

balabolka · #923

avgaz писал(а): ↑
10 июн 2021 23:44
Через какую программу можно "отстегнуть яндексу" что бы не заморачиватся? имею ввиду в какой ключ ввести можно, что бы ограничение снять?

"Балаболка" позволяет указать сервисный API-ключ (ключ доступа) для использования Yandex SpeechKit.

Чтобы получить ключ (то есть, чтобы начать платное использование сервиса), необходимо зарегистрироваться в "Яндекс.Облаке": нажать кнопку "Подключиться" на странице сервиса. Затем нужно создать сервисный аккаунт (здесь описано, как это сделать) и создать API-ключ (зайти в сервисный аккаунт и нажать кнопку "Создать новый ключ").

Когда ключ будет создан, его необходимо скопировать и сохранить в надежном месте. В "Облаке" API-ключ не хранится: если забыли его, надо будет удалить ключ и создать заново.

Тарифы на синтез речи указаны в документации. Lecron прав: синтез речи обойдется слишком дорого, особенно для премиум-голосов. "Яндексу" плевать на слабовидящих людей в нашей стране: менеджеры не хотят создать дешевый речевой движок для SAPI 5, а предпочитают заставить людей платить каждый месяц, за озвучку каждого отдельного слова.

olelog · #924

Жаль наработанного словаря под Филлипа, но пока еще работают старые голоса. Crow, ACrow будет очень даже в теме !

andko · #925

olelog писал(а): ↑
11 июн 2021 10:56
Жаль наработанного словаря под Филлипа, но пока еще работают старые голоса

Только Филипп накрылся? какие старые мужские голоса сейчас работают?

olelog · #926

Старые вроде работают все.

Lecron · #927

balabolka писал(а): ↑
11 июн 2021 04:13
менеджеры не хотят создать дешевый речевой движок для SAPI 5

Побуду немного адвокатом дьявола и выступлю в защиту менеджеров.
• Движки находятся в стадии активной разработки. Вдобавок содержат большие объемы данных, которые не так просто дистрибьютить.
• Не знаю внутренних механизмов SAPI, но нужно либо эти объемы (модели) постоянно держать в памяти, либо загружать на каждый чих. И то, и другое, накладно.
• Используется развесистый стек технологий и библиотек. Наверняка Питон и интерфейс к одному из универсальных сетевых движков. Все это крайне платформозависимо — CPU и разные производители GPU, — и затруднительно для системной дистрибуции. Совсем не то что скомпилированная библиотека "старых" движков.
• И всё это крайне медленно и ресурсозатратно. i5-4440 реалтайм вытягивает, но запас не очень большой.

Боюсь время SAPI для нейросетевых движков еще не пришло и придет не скоро. По достаточно объективным причинам.

balabolka · #928

Lecron писал(а): ↑
13 июн 2021 17:29
Боюсь время SAPI для нейросетевых движков еще не пришло и придет не скоро.

Согласен с Вашими доводами. Да, нейронные сети не удастся использовать локально в речевых движках для SAPI 5. Я лишь имел ввиду то, что "Яндекс", с его прибылью в 24 млрд рублей в год и налоговыми льготами от государства, так и не предложил российским слабовидящим пользователем никакого доступного синтеза речи (т.е. бесплатного или по минимальной цене). Всё, что у нас есть, - это какой-то старый полуподпольный демо-сервис, все ссылки на который "Яндекс" убрал из открытого доступа. То ли можно им пользоваться, то ли нет.

У их разработчиков есть словари, базы фрагментов человеческих голосов, алгоритмы и т.д. Например, недавно общался с одним слепым программистом из Индии: они командой из трех человек создали речевые движки для основных индийских языков. Это бесплатное работающее решение, которое они портировали, в том числе, и под SAPI 5. Почему бы "Яндексу" не взять с них пример.

Так колбасит от этого всего, потому что как автору "Балаболки", именно мне приходится отвечать на вопросы российских слабовидящих пользователей. И всё, что могу посоветовать: используйте русские голоса из Windows 10, поставьте RHVoice, скачайте древнего "Николая", найдите на торрентах американскую "Алёну" или польскую "Татьяну". Как будто нет в нашей стране ни Центра речевых технологий, ни "Яндекса". Пользователям нужны работающие решения здесь и сейчас, их мало волнуют перспективы развития нейронных сетей (а главное - они не готовы платить большие деньги за синтез речи).

Кстати, и ведь речь мы все ведем лишь о русском языке, в этом наша смиренная просьба. Вчера отмечали День России, в нашей стране десятки языков. Никто даже не заикается о том, что неплохо было бы иметь синтез речи для татарского, башкирского, кавказских языков, для различных диалектов. Насколько помню, фирма CereProc создала голоса для шести диалектов одного лишь английского языка. Но никакая иностранная фирма не будет заниматься языками российских малых народов.

Droid · #929

Из всего многообразия того, что у нас осталось, посоветуйте что-нибудь для аудиокниг после Филиппа, чтобы скорбь не очень сильна была, а то Филипп мне как брат!

GIS88 · #930

Droid, В eReader Prestigio (Android) есть подписка за 500 рублей в месяц на хорошие WaveNet движки от Google. С качеством похуже, можно бесплатно слушать версии network синтезатора google в @Voice Aloud Reader (Android), но они иногда меняют качество озвучки. В обоих программах есть поддержка словарей.

dimslav · #931

Где чего изменить, подскажите для чайников, в каком файле искать это h=4950
ВЛОЖЕНИЯ

dimslav · #932

Как использовать Филиппа в Demagog-Yandex_Filipp_2020.12.07?
как его подключить

Lecron · #933

balabolka писал(а): ↑
14 июн 2021 00:26
Насколько помню, фирма CereProc создала голоса для шести диалектов одного лишь английского языка.

Есть подозрение, что у каждого из этих диалектов количество носителей больше, чем у всего русского языка. Так что с малыми народами вопрос дискуссионый. Тем более, что создание диалекта куда проще, чем преобразование текста в фонетическую запись, со всеми ударениями и прочим блекджеком. Которая пусть под капотом, но делается каждым движком.

С остальным согласен. Пусть старые наработки, из которых все материальное уже выжали, вполне можно отечественным фирмам оформить и выложить в открытый доступ. Возможно даже дадут материал к развитию того же RHVoice.

dimslav · #934

подскажите а в каком файле надо поменять с h=4999 на =450?
А то в Демагоге опция ччтения последовательных блоков по 450 символов не работает

Primkray · #935

Droid писал(а): ↑
14 июн 2021 01:27
Непрочитанное сообщение 14 июн 2021 08:27
Из всего многообразия того, что у нас осталось, посоветуйте что-нибудь для аудиокниг после Филиппа

Движек от Google уже очень неплохо подтянул качество синтеза речи, по мне не хуже Филипа

Lecron · #936

Движек от Google уже очень неплохо подтянул качество синтеза речи, по мне не хуже Филипа

Подтверждаю. WaveNet-D даже чем-то на него похож. Но мне больше нравится женский WaveNet-A. Эх, если бы это локально запустить :(

Страница с демо находится даже проще чем у Яндекса :))

andko · #937

Lecron писал(а): ↑
14 июн 2021 16:27
Подтверждаю. WaveNet-D даже чем-то на него похож

Есть с ним сборки?

Droid · #938

Всем спасибо, я так понял, что Google Cloud WaveNet без долларов много не поюзаешь (ну мегабайт в месяц), или есть обходные пути?

Кстати, что с этим ResponsiveVoice TTS, который использует гугловские WaveNet голоса, а то тема мертвая уже год.
http://i91650e3.beget.tech/viewtopic.php?t=535

speeck · #939

balabolka писал(а): ↑
14 июн 2021 00:26
Я лишь имел ввиду то, что "Яндекс", с его прибылью в 24 млрд рублей в год и налоговыми льготами от государства, так и не предложил российским слабовидящим пользователем никакого доступного синтеза речи (т.е. бесплатного или по минимальной цене)

Ну как не предложил, в Яндекс Браузере статьи бесплатно читает Алена. Потом, Яндекс это компания, которая ориентирована на зарабатывание денег, а не на благотворительность, и это нормально. Нужно развиваться, нужно платить специалистам зарплаты и тд.
Конечно же хотелось бы иметь бесплатный синтез уровня Яндекса, и наверняка скоро он будет, и не один. Но Яндекс никому ничего не должен бесплатно. Впрочем, надо признать, у Яндекса много бесплатных или условно бесплатных сервисов.

Lecron · #940

speeck, Ключевое в процитированном "налоговыми льготами от государства". Которые обязывают заботится не только о зарабатывании денег, но и социальной составляющей. В каком объеме, вопрос из-за нехватки данных остается открытым. Но сам факт...

speeck · #941

Lecron писал(а): ↑
16 июн 2021 14:27
В каком объеме, вопрос из-за нехватки данных остается открытым

На данном этапе нейро-синтез уровня живого человека это пока еще ноу-хау, и это нормально, что на этом хотят заработать. Но, очевидно, скоро это перестанет быть сложной задачей, и мы будем иметь массу вариаций в свободном доступе.
Просто действительно не понятна критика в сторону Яндекса. Одна из немногих российских компаний, которой можно гордиться. Вопрос льгот от государства, ну мы же все понимаем, что там делает государство, чего оно хочет от Яндекса, и что он не может в текущей ситуации отказать ему? Но это уже совсем другая история ;)

olelog · #942

dimslav писал(а): ↑
14 июн 2021 12:28
подскажите а в каком файле надо поменять с h=4999 на =450?
А то в Демагоге опция ччтения последовательных блоков по 450 символов не работает

Через notepad++ открываете файл "Play_5", забиваете в поиск "h=", или ищете прокруткой вручную и меняете значение 4900 на другое, как на скрине. Кстати достойной альтернативой Филиппу можно использовать голос Вольц в программе Crow и ACrow. Работает отлично, без всяких "спыч КЫд" )))

Droid · #943

olelog писал(а): ↑
18 июн 2021 08:20
Кстати достойной альтернативой Филиппу можно использовать голос Вольц в программе Crow и ACrow

А можно ли этого Вольца на ПК запустить?
Не хотелось бы возиться с эмулятором, балаболка для онлайн-Филиппа меня совсем устраивала.

Кстати, я нашел, ну не альтернативу Филиппу, но тоже неплохие НЕпремиумные Яндекс-голоса, которые пока работают — Ермил и Самохвалов. Пока, наверно, буду тестить их.

Регистрация через социальные сети