Уже по разному экспериментирую с Филлипом, ставлю 1 поток и склеивать по 2 файла, много книжек уже прослушал так, все обрезаются постоянно, абзацы просто теряются, повторная озвучка ничего не меняет. Я так понял это у всех?
Да, подтверждаю, у меня такая же проблема, если стоит 5 потоков. Если 1 поток то не теряется (пока)
Да, подтверждаю, у меня такая же проблема, если стоит 5 потоков. Если 1 поток то не теряется (пока)
Прискорбно, у меня и на 1 потоке абзацы теряются. Пробовал Балаболку с Максимом, там без пропусков, но даже со словарями Максим после Филиппа совсем не то. Как после амброзии тухлую воду пить.
Максим после Филиппа совсем не то. Как после амброзии тухлую воду пить.
"подсесть" - оно такое
еще немного и клиент будет готов "платить за качество".
Вот поэтому (в том числе) я предпочитаю оставаться на локальных голосах, которые обеспечивают техническую стабильность результата и независимость от изменчивого маркетинга "на облаках". Тем не менее кроме Филиппа у Яндекса еще есть старые голоса на старом сервере (доступ к ним осуществляется через другие сборки) - пока на их стабильность никто не жаловался.
Пробовал Балаболку с Максимом, там без пропусков, но даже со словарями Максим после Филиппа совсем не то. Как после амброзии тухлую воду пить.
Без труда не вытянешь рыбку из пруда...(Русская народная мудрость)
Актуальна во все времена...
Трудозатраты (усреднённо) - выхлоп - 2 минуты на час озвучки(ручками после машины) - и получим 2-3 ошибки на этот час при прослушке...
Не премиум (Андрей Круз, мария Круз
ВОЗЛЕ ТЬМЫ
Чужой)
Прискорбно, у меня и на 1 потоке абзацы теряются. Пробовал Балаболку с Максимом, там без пропусков, но даже со словарями Максим после Филиппа совсем не то. Как после амброзии тухлую воду пить.
Если уж совсем Филипп плохо работает,(при условии если вы поменяли экзэшник "yndxfilipp" в программе) попробуйте ACrow(sz)v5.3 отличная прога для андроид, очень даже неплохой голос Вольц, ничуть не хуже Филиппа, записывает в mp3 файл, даже могу предложить свой словарь, которым в свое время занимался вплотную.
Вот поэтому (в том числе) я предпочитаю оставаться на локальных голосах
Несколько времени назад тов. Эхо писал про синтез уровня голосов Яндекса локально. Я тогда отнесся скептически, но поизучав немного тему, оказалось, что это вполне себе реально реализовать (наверное, еще не проверял). Речь, конечно же, про нейронки, и различные модели.
Более того, вполне возможно реализовать свой синтез на своих/любых голосах, при условии наличия нормального и достаточного датасета. В сети есть кое-какие датасеты, правда в основном на английском, но при желании можно создать свой собственный дата-сет, или даже скопировать любой голос Яндекса, что еще проще в теории.
Прошу прощения за сумбур, просто решил ответить насчет "локального синтеза".
Есть есть любопытство в этом вопросе, можно погуглить "tacotron", "tacotron2", "flowtron" etc. На гитхабе полно этого.
Сам планирую заняться этим делом в недалеком будущем (надеюсь дойдут руки в этом году).
Если у кого-то есть интерес - пишите, могу поделиться кое-какими ссылками, да и вообще, можно совместно изучать тему, и даже что-то пробовать.
Сам планирую заняться этим делом в недалеком будущем (надеюсь дойдут руки в этом году).
Если у кого-то есть интерес - пишите, могу поделиться кое-какими ссылками, да и вообще, можно совместно изучать тему, и даже что-то пробовать.
Информации про свой синтез на своих/любых голосах ("tacotron", "tacotron2", "flowtron") в сети много, но есть ли реальная реализация такого на SAPI5 или пока это только теория?
Сам планирую заняться этим делом в недалеком будущем (надеюсь дойдут руки в этом году).
Я уже пытался(на винде), но у меня нет карты нвидия. + Там все заточено именно под гпу(Это те что мульти язычные версии)
Пробовал анлг версию(цпу) реально копирует, но так как исходный дата сет не блестал качеством - результат соответсвующий. Да и сам не силен в питоне они все почти на питоне
Думаю копипрнуть голос Филипа будет не трудно, да и с дата сетом не будет сильных проблем
Если все же решишь напиши мне в вк vk/pin240
Информации про свой синтез на своих/любых голосах ("tacotron", "tacotron2", "flowtron") в сети много, но есть ли реальная реализация такого на SAPI5 или пока это только теория?
SAPI5 то на кой вам сдался? Реализация да, есть. Голосовой помощник Олег от Тинькова, Маруся от Мейла, синтез Гугла, синтез Яндекса, синтез Амазона, синтез Azure от Мелкософт, синтез ЦРТ, синтез моего утюга (на подходе)......
Если уж совсем Филипп плохо работает,(при условии если вы поменяли экзэшник "yndxfilipp" в программе) попробуйте ACrow(sz)v5.3 отличная прога для андроид, очень даже неплохой голос Вольц, ничуть не хуже Филиппа, записывает в mp3 файл, даже могу предложить свой словарь, которым в свое время занимался вплотную.
Спасибо, экзешник Филиппа не трогал, я так понимаю косяк с пропажей абзацев в самом сервисе яндекса. ACrow(sz)v5.3 после установки не запускается, телефон Xiaomi Redmi 8 PRO. На всякий попробовал предыдущую сборку ACrow(sz)v5.2а, тоже не запускается (длинный лог с ошибкой из java кода). Поищу другие сборки Play_5, остается надежда, что косяк в сборке.
при установке ACrow(sz)v5.3 у меня не просит никаких разрешений. Поэтому и вылетает. Вот что надо сделать:
Надо сразу после установки ACrow(sz)v5.3 зайти в настройки самого смартфона, найти в них пункт "Приложения"(или управление приложениями у кого-то как) найти в списке приложений ваш ACrow(sz)v5.3, зайти в него и вручную в пункте разрешения или доступы активировать вручную галочку - дать разрешение к памяти телефона. И только после этого пробуем запустить ACrow(sz)v5.3
Дополнительно для стабильной работы не забудьте с умного режима экономии батареек перейти на постоянную работу. Что бы ACrow(sz)v5.3 работал в фоне без сбоев
Yandex TTS
Добавлено: 28 фев 2021 12:14
olelog
Яндекс стал просто перестал работать. Даже на одном потоке через двадцать -тридцать частей просто тупо останавливается и все. Похоже надо переходить на что ли бо другое. Записать небольшую книжку уходит под пару часов. Можно ли что либо поделать с этим "yndx_tts64 " или финал ?
Yandex TTS
Добавлено: 28 фев 2021 16:40
GIS88
olelog, у меня все в порядке на 4 потоках 0% ошибок, стоит размер фрагмента h=3500 вместо h=4950 в Play_5.hta. У вас установлен фикс - viewtopic.php?f=55&t=59&sid=a5a2fae5e28 ... =700#p5228 ? Попробуйте уменьшить параметр h=.
Если бы ошибка было в этом, то фрагмент не записался бы никогда. А у olelog он рано или поздно таки озвучивается.
Если яндекс ограничивает количество запросов на единицу времени, многое может зависеть от скорости канала. Если синтезированное аудио забирать "медленно", то 4 потока могут дать меньшую нагрузку, чем при одном быстром потоке. Или на этом "сером" IP оказался еще один любитель яндекс-книжек. Долго можно гадать, почему результат непредсказуем.
Друзья, чудом наткнулся на ваш ресурс. помогите. я в отчаянии. с ребёнком десятиклассником делаем проект на тему синтеза речи. думал что смогу справиться с яндексом и интегрировать всё на наш проектный сайт. Идея сайта проста: озвучка любимых книг. Зарегились в Яндексе, получили системный аккаунт, постоянный ключ, но дальше не врубаемся что делать то. Может есть у кого код какой простой который я могу на сайт воткнуть. нам пока не надо ни каких заморочек со словарём и голосами. хоть бы окошечко для ввода текста замострячить и кнопочкой плей и ссылочкой для скачивания файла. Готов отблагодарить за помощь. Спасите. Защита на носу (
olelog, у меня все в порядке на 4 потоках 0% ошибок, стоит размер фрагмента h=3500 вместо h=4950 в Play_5.hta. У вас установлен фикс - viewtopic.php?f=55&t=59&sid=a5a2fae5e28 ... =700#p5228 ? Попробуйте уменьшить параметр h=.
у меня все фрагменты по 3500 в среднем по 5 минут записи. И раньше все работало как часы даже на 5 потоках. В настоящий момент идут постоянно пропуски, а на одном потоке просто зависает и все.Это глючный сервис яндекса
Может есть у кого код какой простой который я могу на сайт воткнуть. нам пока не надо ни каких заморочек со словарём и голосами. хоть бы окошечко для ввода текста замострячить и кнопочкой плей и ссылочкой для скачивания файла
вот с навыками программирования как раз туго (. Я поэтому и спросил может есть у кого завалялся кусочек кода для вставки на веб страницу с формой для ввода текста и всеми вытекающими...
может есть у кого завалялся кусочек кода для вставки на веб страницу с формой для ввода текста
Примерно такой код для вставки на страницу.
Чтобы начать пользоваться API Яндекса надо еще получить IAM-токен и идентификатора каталога и эти данные вставить в скрипт. Причем время жизни IAM-токена — не больше 12 часов
Данные в получаемом аудиофайле кодируются с помощью аудиокодека OPUS и упаковываются в контейнер OGG (OggOpus). Для перекодирования его в wav или mp3 на сервере нужны дополнительные установки на сервере.
Естественно Ваш хостинг на сервере должен поддерживать curl и php
Yandex TTS
Добавлено: 04 мар 2021 01:40
kosygin
Спасибо огромное!!! Попробуем разобраться.
Yandex TTS
Добавлено: 05 мар 2021 12:31
olelog
Вопрос к "разработчику" )) "yndx_tts64", возможно что либо еще сделать в программе, что бы как то более тщательно "перематывала" находила и дописывала пропущенные части Ogg файлов ? На одном потоке не пропускает, однако зависает после 20-30 записей, на 4-5 потоках обязательно один- два потеряет особенно вначале и уже не ищет.
Yandex TTS
Добавлено: 10 мар 2021 14:44
balabolka
Халява кончилась.
Теперь при использовании демо сервис иногда вставляет фразы "Генерация голоса выполнена с помощью Яндекс.Speechkit" или "Озвучено Яндекс.Speechkit" (до или после текста).
Теперь при использовании демо сервис иногда вставляет фразы "Генерация голоса выполнена с помощью Яндекс.Speechkit" или "Озвучено Яндекс.Speechkit" (до или после текста).
это еще ладно, этот шлак еще можно как то выдержать, а вот начались постоянные ошибки при записи, пропуски фрагментов, книгу невозможно записать за один раз. В среднем на одном потоке приходится лепить папки из 35 фрагментов по 5 мин. Кстати эти "вставки" только на голосе "филип" или наблюдается на других голосах ?
Кстати эти "вставки" только на голосе "филип" или наблюдается на других голосах ?
В демо на сайте эти "вставки" у всех голосов. Разные фразы, то в начале, то в конце текста.
Yandex TTS
Добавлено: 11 мар 2021 00:24
mikeinside
Извиняюсь , что не в том разделе пишу , но на сайте ЦРТ если зарегистрироватся дают бесплатно тариф на 4000 рублей , но по умолчанию в их программе можно озвучить только 10000 слов , но даются ссылки на инструменты чтобы сконструировать программу , например из python , если кто соображает может запилите программу ? чтоб можно было выбирать голоса и особенно скорость голоса , по типу яндекса
если кто соображает может запилите программу ? чтоб можно было выбирать голоса и особенно скорость голоса , по типу яндекса
Присоединяюсь к предложению, было бы неплохо, если была бы такая возможность.
Yandex TTS
Добавлено: 11 мар 2021 22:29
Droid
Всем привет, обнаружил для себя TTS Yandex Speechkit (Филипп) в начале этого года и нагенерировал-наслушал много всего интересного, и вдруг, сегодня обнаружил вставки "Создано с помощью Яндекс Спычкыт" чуть ли не после каждого предложения (всё генерировал Балаболкой).
Мои опасения подтвердились, когда я прочитал последние пару сообщений в этой теме.
Как будем бороться с этими "водяными знаками"?
Моя первая мысль, это выделить этот кусок и удалить подобные (мне кажется, у Adobe Audition может быть похожий функционал, надо погуглить). Там несколько вариантов, но они все похожие, надо их выловить.
Когда-то давно mp3book2005 был платным и практиковал вставлять подобный водяной текст в начале каждого аудиофайла. Тогда я Нашёл в интернете консольную утилиту, которая в wav файлах отрезала начало файла по таймингу (именно тогда я впервые узнал что такое bat-ники ). Но сейчас, как я понял, проблема водяных знаков в том, что они "плавающие". Нет четкой закономерности в водяных вставках, что бы запрограммировать вырезку отрезков "неглядя" и применить пакетно к списку аудио файлов. Возникает необходимость выслушать каждый файл, найти участок, вырезать через стороннюю программу и перейти к следующему. Затраты физические и по времени ради одной книги слишком высоки (если нужно озвучивать ролик в 5-10 минут, то можно и заморочиться).
Вот она вся прелесть облачных сервисов: Ни скачать, ни взломать. А к хорошему привыкаешь быстро: http://i91650e3.beget.tech/viewtopic.php?f=55&t=59&p=6021#p5734
Вся надежда на гениев-энтузиастов http://i91650e3.beget.tech/viewtopic.php?f=52&t=137 только когда это будет?
Yandex TTS
Добавлено: 12 мар 2021 00:12
Droid
Да, всё верно, "водяные знаки" плавающие, я не просто так вспомнил про Audition.
Я помню там была функция избавления от шума: выделяешь фрагмент чистого шума и потом он ищет похожее на этот шум во ВСЁМ файле и чистит.
Поэтому у меня возникла аналогия выделить этот кусок (одно предложение) и чтобы программа автоматически удалила их во всём файле. Пока на уровне идеи, не знаю, умеет ли Audition такое.
Прослушивать и чистить, конечно не вариант.
Кстати, как вариант, убрать переносы строки и превратить всё в одно огромное предложение.
Надо потестить как много рекламных вставок там будет.
Update: Похоже, нашёл, что искал, сейчас попробуем.
Данные в получаемом аудиофайле кодируются с помощью аудиокодека OPUS и упаковываются в контейнер OGG (OggOpus). Для перекодирования его в wav или mp3 на сервере нужны дополнительные установки на сервере.
Печаль(( дальше совсем непонятно что делать с файлом получившимся. он ничем не открывается. А как перекодировать raw в wav не понятно совсем( Вот что получается: http://textsynth.ru/
Печаль(( дальше совсем непонятно что делать с файлом получившимся. он ничем не открывается. А как перекодировать raw в wav не понятно совсем( Вот что получается: http://textsynth.ru/
Обратись в поддержку облака, тебе должны там подсказать.
Вы получаете данные в аудиоформате lpcm (как описано в документации). Надо вставить заголовок RIFF в начало этих данных, и получится файл формата WAV. На странице документации указаны параметры аудиоданных:
Дискретизация — 48 кГц
Количество каналов - 1 (моно)
Порядок байтов — обратный (little-endian)
Зная эти значения, можно вставить заголовок вручную, заполнив все поля. Или можно найти утилиту, которая умеет это делать; например, FFmpeg:
Рекомендую получать данные в аудиоформате oggopus и работать с ними: размер файлов, скачиваемых с сервера "Яндекса", будет меньше, поэтому процесс займет меньше времени. Формат lpcm без заголовка используется, например, для трансляций на YouTube или Twich в режиме реального времени: в этих случаях аудиопоток уже существует, и аудиоданные напрямую копируются в этот поток, без каких-либо перекодировок.
Yandex TTS
Добавлено: 25 мар 2021 14:05
Nixaristix
Использую в последнее время сборку Play_5 2018 года, проблемы описанной выше о постоянном повторении "Озвучено Яндекс.Speechkit" не выявлено. Данная фраза говорится лишь в начале аудиокниги. Сегодня записал новую книжку, все четко, как и раньше.
Существуют два разных демо для речевого синтеза "Яндекса":
старое демо, где нет премиум-голосов;
новое демо, с премиум голосами "Алёна" и "Филипп".
Play_5 использует старое демо; там всё работает нормально, без добавления рекламных фраз.
В новом демо периодически добавляются фразы вроде "Запись сгенерирована в Yandex Cloud" (для всех голосов, не только для премиум).
Yandex TTS
Добавлено: 30 мар 2021 02:04
kosygin
Всё ещё бьёмся с сайтом проектной работы https://textsynth.ru :(( Подскажите, пожалуйста, что делаем не так? Вводим в форму текст, отправляем форму, а синтезированный текст можно услышать только если после синтеза зайти в режим инкогнито например хрома. а в обычном режиме в плеере слышим прошлое сообщение и то не всегда. Вот код страницы:
P.S. То есть, у Вас на сайте будет халявный доступ к платному Yandex Speechkit? Тогда ставьте ограничение, например, на максимальное количество запросов к серверу (limit_req или что-то подобное), иначе разоритесь. Мой Вам совет.
синтезированный текст можно услышать только если после синтеза зайти в режим инкогнито например хрома. а в обычном режиме в плеере слышим прошлое сообщение и то не всегда.
Если у вас каждый раз аудиофайл сохраняется на сервере под одним и тем же именем, то для браузера это один и тот же урл, и если явно не рулить кэшированием то ему, проще взять файл из кэша, чем каждый раз заново перекачивать. Так что надо либо запрещать кэширование тем или иным способом, или прилеплять к имени файла случайный элемент, типа "speech493532.ogg", чтоб имя было каждый раз разным. Тем более для публичного сервиса, где может быть одновременно несколько запросов, файл озвученный одним пользователем, может быть тут же переписан другим, до того как первый успеет его прослушать, потому что имя файла во всех запросах одинаковое. Только в этом случае надо на первых порах, хотя бы вручную раз в несколько дней удалять с сервера сохраненные аудиофайлы, чтобы не превысить лимит по занятому месту. Если сервис будет пользоваться популярностью, то удалять автоматом допустим раз в сутки по расписанию.
Yandex TTS
Добавлено: 13 апр 2021 03:51
dlr5668
Запись сгенерирована в Yandex Cloud ломает сборку. Нужно открыть `Demagog-Yandex_Filipp\_Tests_\YandexTTS\PlayYandex.lua` и заменить `f = Fragments(s,4500)`
Запись сгенерирована в Yandex Cloud ломает сборку.
У меня сборка Демагога с голосом Филиппа не ломается, нормально работает. Только появляется дополнительная фраза о том, что сгенерировано в Яндексе.
Еще Вы пишите
Crow (sz) 5.0 (Windows)
Чтение книг вслух голосами Яндекса
Большое спасибо за приложение. Установил. Озвучил книгу. Качество отличное! По времени озвучивает несколько быстрее, чем Демагог.
На Андроиде также пользуюсь Вашей разработкой.
Yandex TTS
Добавлено: 18 май 2021 09:09
SZ-Vtk
Crow (sz) 5.1 (Windows)
Чтение книг голосами Яндекса
исправления:
ошибка в словаре в сокращениях
изменение чтения сразу после изменения параметров голоса
улучшения:
обложка книги
Crow (sz) 5.1 (Windows)
Чтение книг голосами Яндекса
огромное спасибо за приложение, оно шикарно!!!
Прошу, кто знает как вносить исправления в словарь (какой символ, что означает), помогите разобраться, пожалуйста. При работе со словорем через приложение выбрасывает ошибку при попытке сохранения.
Добрый день, подскажите следующий момент скачал Demagog-Yandex_Filipp_2020.12.07 так как нужен именно Филип, запустил все вроде работает, но озвучиваю пару раз и антивирус avast начинает ругаться на файл Demagog.exe что там вирус IDP Generic ну и удаляет его, поясните плиз это.
Следующий вопрос, на странице примеров у яндекса https://cloud.yandex.ru/services/speech ... -solutions совершенно другие голоса роботов которых нет в списке демо, как их получить? они есть в платной версии?