Yandex TTS
- speech
- Обыватель
Yandex TTS
Меняются сами голоса с переключением эмоции, просто вы не замечаете, видимо. Происходит подстановка другим голосом, близким по тембру, только и всего, причем с теми же голосовыми "припадками" в предложениях.
- Sylvia
- Постоялец
Yandex TTS
Да уж, эта смена интонации (точнее перескок на другие голоса) порядком напрягает. Пока что нашла для себя только 2 голоса, которые не меняют пол и тембр - Самохвалов и Вальц. Точнее, подсказали добрые люди. Еще, кажется, Ермил и Захар более-менее постоянны, но они мне не нравятся своим тембром.
-
- Обыватель
-
- Обыватель
Yandex TTS
Могу добавить еще Оксану, почти идеально, и слушать приятно.
Чередую её с Самохваловым, он действительно почти стабилен. Правда на последней книге, которая ничем особо не выделяется, Самохвалов часто трансформировался. Но это скорее исключение.
- Эхо
- Постоялец
Yandex TTS
Онлайн и офлайн синтез Алёной
https://drive.google.com/file/d/1qdmknA ... sp=sharing
https://drive.google.com/file/d/10mjm91 ... sp=sharing
Надеюсь Яндекс перестанет муйнеё маяться с попыткой монетизации синтеза речи, и хотя бы в свой браузер вставит бесплатный набор своих голосов.
https://drive.google.com/file/d/1qdmknA ... sp=sharing
https://drive.google.com/file/d/10mjm91 ... sp=sharing
Надеюсь Яндекс перестанет муйнеё маяться с попыткой монетизации синтеза речи, и хотя бы в свой браузер вставит бесплатный набор своих голосов.
- tonio_k
- V.I.P.
- Эхо
- Постоялец
Yandex TTS
Да, именно так. Технология превращения премиум голосов в офлайн синтез ничем не отличается от описанной ранее в этой ветке. В парадигме глубокого обучения нейросетей, ключевым залогом успеха является датасет. Яндекс его не может не дать собрать, поэтому попытки заработать на "неспешном" нейросинтезе бесперспективны. Ниша остается только для решений заточенных под колцентры, где из железок выжимают всё, что можно и нельзя.
В начале 90-ых от вычислительной бедности был придуман синтез речи на микроволнах, который умещался в 64кб памяти и работал в реалтайме на процессоре интел 8086 с частотой около 1 мегагерца. Он был чуть хуже, чем известная многим "говорящая мышь" и последовавший за ней голосовой движок DIGALO, т.к. был прородителем их. Сейчас тенденция развития TTS идет в том же направлении, когда синтез речи уровня премиум голосов пытаются получить на вычислительных мощностях уровня микроконтроллеров (или SoC) и заработать на этом т.к. зарабатывать на пользователях, которым в 99% случаев нужен однопоточный "неспешный" синтез, и у них есть видеокарта, бесперспективно.
-
- Обыватель
-
- Обыватель
Yandex TTS
Без обид пожалуйста, но не нужно писать сказки.Эхо писал(а): ↑08 июл 2020 19:38Да, именно так. Технология превращения премиум голосов в офлайн синтез ничем не отличается от описанной ранее в этой ветке. В парадигме глубокого обучения нейросетей, ключевым залогом успеха является датасет. Яндекс его не может не дать собрать, поэтому попытки заработать на "неспешном" нейросинтезе бесперспективны.
1. У вас есть алгоритм синтеза от Яндекса? Конкретный код, модель?
2. Как вы планируете собрать дата-сеты? Они что, лежат в открытом доступе?
Если вы имеете в виду синтезировать все леммы, и собрать на них дата-сеты, во-первых, вы уверены, что из этого получится рабочий голос? Во-вторых, вы уверены, что вообще сможете собрать все леммы? На это понадобятся не малые средства, в первую очередь временные, это нельзя назвать бесплатным занятием.
И тд тд.
Вы не первый раз пишете какие-то теоретические абстракции, но дайте же наконец осязаемое подтверждение оным? Покажите рабочий оффлайн синтез уровня любого голоса Яндекса, а?
- speech
- Обыватель
Yandex TTS
так или иначе, в большинстве своём по объёму написанного текста люди пишут абстракции и фантазии, как я, например, или Вы...speeck писал(а): ↑09 июл 2020 10:41Без обид пожалуйста, но не нужно писать сказки.
1. У вас есть алгоритм синтеза от Яндекса? Конкретный код, модель?
2. Как вы планируете собрать дата-сеты? Они что, лежат в открытом доступе?
Если вы имеете в виду синтезировать все леммы, и собрать на них дата-сеты, во-первых, вы уверены, что из этого получится рабочий голос? Во-вторых, вы уверены, что вообще сможете собрать все леммы? На это понадобятся не малые средства, в первую очередь временные, это нельзя назвать бесплатным занятием.
здесь где-то был небольшой отчет по результатом тестирования датасета в домашних условиях, так что не торопитесь с выводами
-
- Обыватель
Yandex TTS
Одна коротусенькая фраза? Ну-ну....
Давайте таки дождемся ответа Эхо, если он действительно располагает чем-то осязаемым и бесплатным, и покажет это, с превеликим удовольствием признаю, что поторопился с выводами, был не прав, и отправлю даже пару бакшиша на вкусное пиво
- Эхо
- Постоялец
Yandex TTS
Онлайн и офлайн синтез Алёной :)
Сейчас тренирую Филиппа, потом примусь за голоса ЦРТ. Офлайн синтез сделан на реализации Кубоянга (корейца), которую он разместил на гитхабе, повторив в коде мат. модель описанную в одной японской статье. Такого добра на Гитхабе полно с разными подходами к синтезу, одна из реализаций от Мозилы - бери и делай офлайн синтез - не хочу.
это офлайн синтез на нейросетях:
Филипп
человек
Алена
- Sylvia
- Постоялец
Yandex TTS
Эхо, А можно каким-то образом с помощью Филиппа записать в мр3 книгу? Через Балаболку или Демагог, или через другую программу?
- Эхо
- Постоялец
Yandex TTS
уже слушаю, но как тестирование.
Синтез идет на коде, который требует установки моря зависимостей
видел на гитхабе код, студента из Белоруссии, он уже сделал синтез в виде бэк-энда для сервера Джанго
в сети видел укроязычный отчет о такой-же работе, но без кода на гитхабе
и такой же отчет из Чечни, там реализовали синтез на их языке
-
- Обыватель
-
- Обыватель
-
- Обыватель
Yandex TTS
Между Аленой и Филиппом есть разница произношения в ваших примерах, вы вручную подгоняете произношение под каждого?
Да, и как вы собрали дата сеты? Не обязательно раскрывать детали, достаточно в общих чертах.
- Эхо
- Постоялец
Yandex TTS
нет, там у японцев спец. отдельная свёрточная нейронка, которая разряженный мел спектр превращает в амплитудный, а дальше однопоточный гриф-лим
суть их работы была избавиться от lstm
- Эхо
- Постоялец
Yandex TTS
да, на хабре была статья сотрудника црт, как он это сделал. Кореец выложил примеры, из которых следовало, что даже Такатрон 2 дает меньшую мос оценку, чем dctts, поэтому в црт решили на тот момент ковырять dctts. Сейчас у них уже другая архитектура в фаворе (есть видос на ютюбе о ней)
- Эхо
- Постоялец
Yandex TTS
всё по шагам из статьи на хабре https://habr.com/ru/company/speechpro/blog/358816/ и рекомендаций корейца на гитхабе + установка драйверов к видяхе с кудойднн
- Эхо
- Постоялец
Yandex TTS
Пока Филипп лучше Алены, но из-за того, что у Филиппа был больший датасет
эта реализация нейросинтеза не предполагает что им можно управлять кроме нормализации текста, поэтому в ней невозможно указать где ставить ударение и какие фонемы использовать
это энд_Ту_энд решение, где нейросеть учится буквам ставить в соответствие сразу волну (аудиосигнал) У Яндекса сначала идет преобразование букв в фонемы с расстановкой ударений и на этой смеси они учат нейросеть (если их синтез сделан как нейросинтез, а не смесь юнитселекшена с нейросетями)
датасеты собираются скриптами на питоне, как закончу сбор могу отдать в общее пользование. Ими действительно можно синтезировать речь премиум голосами прямо с сайтов. Но боюсь лавочку быстро прикроют, если возрастет нагрузка, так например у ЦРТ демо синтез и без того сам часто падает.
- tonio_k
- V.I.P.
Yandex TTS
означает ли это, что пользовательские словари тут не будут работать?
Имеется в виду, как сейчас в Яндексе реализовано: можно принудительно в самом тексте, (который затем передаётся голосовому движку) указать ударение в слове за счёт вставки знака "+" перед буквой, на которое должно быть ударение.
- GIS88
- Обыватель
Yandex TTS
Эхо, а какая у вас скорость синтеза речи, реалтайм или можно её делать с ускорением? Какую видеокарту вы используете? Нужна именно от Nvidia с поддержкой CUDA или можно как-нибудь это сделать на Radeon?
-
- Обыватель
Yandex TTS
Скажите, как сейчас работает ваша система на больших текстах? Насколько я понимаю, там много косяков произношения, которые сразу не исправить, и вы их подпиливаете вручную?
Можете озвучить пример большего текста? Например этот рассказ: http://lib.ru/ILFPETROV/ilf_pohod.txt.
- Nxtpr
- Постоялец
Yandex TTS
Когда что-нибудь делают взамен покупного, есть большая вероятность что "все посчитали до вас" и никакого выйгрыша не получится. Стоимость аудиокнижки, даже только по электроэнергии и вероятности компа сдохнуть при загрузке сутками на 100%, может оказаться дороже премиум-тарифов Яндекса.
-
- Обыватель
Yandex TTS
Но все же бесплатная реализация от тов. Эхо это круче пока-бесплатного сервиса от Яндекса, это надо признать. Вопрос к качеству.GwentDaily писал(а): ↑30 июл 2020 00:26Пока бесплатные голоса не прикрыли можно не париться. anton_samokhvalov лучше озвучивает чем реализация от эхо. И занимает это 5-10 минут
Еще особо интересно то, что модель синтеза которую использует Эхо, от некоторого корейца, можно связать с любым независимо собранным дата-сетом, и писать книги практически любым голосом, если я правильно понял. Это очень круто, но вопрос к качеству не закрыт
- konsys
- Наблюдатель
Yandex TTS
Если есть у кого готовый для сборки конструктор для Deep Voice
скиньте плиз (желательно с инструкцией по установке)
скиньте плиз (желательно с инструкцией по установке)
- Эхо
- Постоялец
Yandex TTS
Для меня пока принципиально важно не то, правильно ли прочитан текст, а то насколько естественен синтезируемый голос. Таня и другие движки на юнитселекшен практически не делали ошибок, их речь была разборчива, но звучали не естественно.
Если у вас получается естественным синтезируемый голос всё остальное добавить становится задачей на порядок более легкой (но это моя личная оценка)
- Эхо
- Постоялец
Yandex TTS
Код корейца реалтайма не дает, он исследовательский. Например, там 90% времени занимает однопоточный гриф-лим, хотя быстрых реализаций его уже есть несколько вариантов.
У меня nVidia GeForce 2060 SUPER, но это не принципиально, я учил сетки и на Google-Colab, пока датасеты были маленькие
Пока вроде как Radeon для обучения сетей не подходит, т.к. не имеет поддержки от создателей фреймверков для машинного обучения. Во всех рейтингах полезности видеокарт для машинного обучения только продукты nVidia Вот переводная статья (урезанная), в первоисточнике уже рассмотрен 2019г https://neurohive.io/ru/osnovy-data-sci ... processor/
Свою карту выбирал исходя из этого графика первоисточника
https://i1.wp.com/timdettmers.com/wp-co ... ar_RTX.png
- Эхо
- Постоялец
Yandex TTS
Размер текста не играет большого значения, т.к. более важна представительность текста. Т.е. в тексте должны присутствовать все (или почти все) "языковые явления". Лингвисты, которые делали русские TTS ("испокон веков") используют 2-3 подобных текста для быстрой оценки качества получившейся TTS. Их же используют и для обучения нейросетей, но тогда для тестирования используют те тексты, на которых не учили.
Вот офлайн синтез, созданный на основе датасета "Филипп". В датасете нет этого текста, и нейросеть его видит впервые. Это очень важно, чтобы оценить реальные результаты, а не "подкрученные"
ФОНЕТИЧЕСКИ ПРЕДСТАВИТЕЛЬНЫЙ ТЕКСТ ДЛЯ ФУНДАМЕНТАЛЬНЫХ И ПРИКЛАДНЫХ ИССЛЕДОВАНИЙ РУССКОЙ РЕЧИ
https://drive.google.com/file/d/1XS6mBQ ... 8DkaY/view
взят отсюда https://pribor.ifmo.ru/file/article/6134.pdf
в ручную ничего не подпиливается, т.к. это подход эндТОенд т.е на входе нейросети текст, на выходе звуковая волна. Можно заранее подготовить датасет, чтобы ввести слой предварительной обработки неизвестно текста в процессе синтеза, и тогда появится возможность влиять на синтез уже после обучения. Грубо говоря в обучающем датасете звуковой волне ставить в соответствие не текст, а текст преобразованный в фонемы с расставленными ударениями. Обученная на потоке фонем с ударениями, а не букв, нейросеть уже станет управляемой по фонемному составу, и по расстановке ударений.
Тоже самое и с интонацией чтения. Если в датасете интонация как-то закодирована, то при синтезе ей можно управлять.
О http://lib.ru/ILFPETROV/ilf_pohod.txt
Если вам интересно, что сегодня может нейросетевой подход https://veravoice.ai/ у них есть даже приложения для смартфонов. Инвестор проекта Бекмамбетов второе видео тоже впечатляет
► Показать
- Эхо
- Постоялец
Yandex TTS
Офлайн синтез решает вопрос демонополиизации, чтобы нейросинтез для частного лица вообще ничего не стоит у Яндекса, Гугла, ЦРТ и прочих. Пока оф. они хотят денежку, а в конкуренции с офлайнсинтезом уже будут искать баланс.
на 4-ех минутный текст уходит примерно 10-12 минут работы кода кубоянга "A TensorFlow Implementation of DC-TTS"
- Эхо
- Постоялец
Yandex TTS
В идеале, да. Другое дело, что обучение нейросетей это по сути программирование путем создания датасета. И это может быть на порядок(и) сложнее, чем написание кода, который реализует нейросеть в обучении и синтезе.
В США созданием датасетов для синтеза и распознавания речи "испокон веков" занималось "Управление перспективных исследовательских проектов Министерства обороны США" - DARPA. Это сильно ускоряло прогресс еще до второй волны нейросетей. Даже сегодня этими датасетами пользуются в обучающих целях, например: TIMIT. На ютюбе есть 2+2 лекции+семинары (этого и того года) от Deep Learning School это ФПМИ МФТИ. Тем, кому интересно советую посмотреть, а кто хоть немного в теме, может даже попрактиковаться в синтезе, распознавании и обработке речи прямо из браузера, загрузив их бокноты с кодом на колабе. Лекции читают те, кто сегодня ВКонтаке пилят распознавание и синтез речи (с их слов)
► Показать
- Роман
- Прохожий
Yandex TTS
А кто такой этот anton_samokhvalov, и как к нему обратить?
Я правильно понимаю что он через яндекс спичкит делает книги на заказ?
- tonio_k
- V.I.P.
- lister22
- Интересующийся
-
- Обыватель
- tonio_k
- V.I.P.
Yandex TTS
эксперементировал с частями текста. Обратил внимание, что 5000 символов хоть в описании и допускает к озвучке, но вот скачивает аудио только если текст в два раза меньше по длине символов. Я разбивал текст в Демагоге на сериал в пределах 2450 - файлы с сайта скачивались
- GIS88
- Обыватель
Yandex TTS
С помощью клинкера можно озвучить книги Филлипом используя демо страницу Яндекса. Выкладываю доработанный мной скрипт от Evgen2194 для кликера Clickermann. Пожалуйста, если у вас есть мысли, как можно его улучшить и доработь сборку Demagog-Yandex для Филиппа (многие правила словарей избыточны или вредны), пожалуйста напишите в эту тему.
Инструкция:
В настройках скрипта нужно задать координаты куда кликать (LCLICK(X,Y)) и местоположения целевого пикселя (IF_PIXEL_IN(X,Y, X,Y, Цвет)). Цвет можно узнать наведя курсор (он отобраться в окошке) или нажав alt+q.
1) Нужно запустить Chrome браузер (я использую Opera portable + VPN), на странице яндекса удаляем все лишние элементы дополнением Ublock origin и включаем в настройках браузера сохранение файлов в ручную.
2) Нужно открыть подготовленный txt файл книги программой Word.
3) Включаем скрипт alt+a.
Дальше как работает скрипт видно на видео.
Ссылка на видео и скрипт - http://www.mediafire.com/file/b8s6e3bin ... n.rar/file
Инструкция:
В настройках скрипта нужно задать координаты куда кликать (LCLICK(X,Y)) и местоположения целевого пикселя (IF_PIXEL_IN(X,Y, X,Y, Цвет)). Цвет можно узнать наведя курсор (он отобраться в окошке) или нажав alt+q.
1) Нужно запустить Chrome браузер (я использую Opera portable + VPN), на странице яндекса удаляем все лишние элементы дополнением Ublock origin и включаем в настройках браузера сохранение файлов в ручную.
2) Нужно открыть подготовленный txt файл книги программой Word.
3) Включаем скрипт alt+a.
Дальше как работает скрипт видно на видео.
Ссылка на видео и скрипт - http://www.mediafire.com/file/b8s6e3bin ... n.rar/file
- tonio_k
- V.I.P.
Yandex TTS
Максимально упростил скрипт для Clickermann - оставил привязку только ко времени ожидания.
Сделал видео-инструкцию как настраивать и применять скрипт для Clickermann в том числе батники и скрипт для демагога.
► Показать
В архиве Батники надо поместить в папку - куда будут скачиваться файлы с Яндекса. Для склеивания ogg файлов необходима программа ffmpeg.exe - можно взять из сборок.
Скрипт ОКНО - БЛОКИ В БУФЕР ОБМЕНА.lua нужно поместить в папку c остальными скриптами Демагога.
Далее все по видео-инструкции.
UPD если у вас слабый интернет, то возможно придётся увеличить запас времени ожидания.
-
- Обыватель
Yandex TTS
Неужели Яндекс не рубит капчей частые обращения к демо-сайту? Другие его сервисы, например Вордстат, просто душат капчей, приходится искать обходные пути.
- lister22
- Интересующийся
Yandex TTS
Пока нет. Также можно озвучивать и на ЦРТ, но там гораздо дольше.
На Яндексе нужно делать перезагрузку страницы время от времени, допустим после каждых 50 кусков, потому что браузер закрывает сайт и пишет про "нехватку памяти или другую ошибку". Хотя, это может у меня так.
Текст нужно разбивать не просто по символам, а искать конец предложения, иначе при склейке будут интонационные нестыковки.
На Яндексе нужно делать перезагрузку страницы время от времени, допустим после каждых 50 кусков, потому что браузер закрывает сайт и пишет про "нехватку памяти или другую ошибку". Хотя, это может у меня так.
Текст нужно разбивать не просто по символам, а искать конец предложения, иначе при склейке будут интонационные нестыковки.
- GIS88
- Обыватель
Yandex TTS
Поэтому у меня при начале скрипта применяется F5, еще клик для сохранения файла можно заменить на Enter.
- tonio_k
- V.I.P.
Yandex TTS
скрипт в демагоге именно это и делает разбивает текст так, что бы сумма абзацев не превышала указанное количество символов. Если"вдруг" абзац очень большой (в скрипте лимит 2000), то скрипт такие абзацы разбивает пополам по знакам конца предложения (!?.). Если такого нет, то по запятыми и прочим знаками. Если таких нет, то делит такой огромный абзац пополам по пробелу. Т.о. Конец отрезка текста - это всегда законченный абзац.
- lister22
- Интересующийся
Yandex TTS
Отлично тогда. Вот еще что сделано в моей программе (может что возьмете на вооружение). Текст разбивается не на лету, а сохраняется в отдельные файлы перед озвучкой. Это дает много преимуществ: позволяет начинать озвучку не с начала, а, например с середины; легко можно отловить конец книги, переозвучить отдельный кусок уже после всей работы.
Перед разбитием на куски создается оглавление и файлы после загрузки переименовываются типа "Глава 3-001". Во-первых, так проще объединять их по главам, а во-вторых можно легко организовать вставку музыкальных отбивок простым копированием их в папку с именем "Глава 3-000", например. У меня отбивки можно вставлять в начале главы, в конце главы, в конце книги и даже после названия главы. Причем с помощью супер-проги ffmpeg можно накладывать музыку на слова и делать видео версию книги для ютуб.
Перед разбитием на куски создается оглавление и файлы после загрузки переименовываются типа "Глава 3-001". Во-первых, так проще объединять их по главам, а во-вторых можно легко организовать вставку музыкальных отбивок простым копированием их в папку с именем "Глава 3-000", например. У меня отбивки можно вставлять в начале главы, в конце главы, в конце книги и даже после названия главы. Причем с помощью супер-проги ffmpeg можно накладывать музыку на слова и делать видео версию книги для ютуб.
► Показать
- tonio_k
- V.I.P.
Yandex TTS
а о какой программе идёт речь?
в Демагоге это называется разбить на сериалы. В сборке для Яндекса такой скрипт есть. Вообще, - всё что можно сделать с текстом можно сделать через скрипты lua для Демагога. Можно и названия к имени файлов добавить. Можно и по главам разбить. Все это так или иначе включено в сборки для бесплатных демо голосов Яндекса. А что касается ютуба - так далеко не заходил - мне бы книжки озвучить больше и не надо
- tonio_k
- V.I.P.
Yandex TTS
тут viewtopic.php?t=122&start=150#p1130 даже готовые решения были под ffmpeg для Демагога когда на голос накладывалась рандомная по списку музыка из папки
- lister22
- Интересующийся
Yandex TTS
Моя программа "Словоукладчик", в свободном доступе ее нет.
Музыка под всю книгу - на любителя, а вот отбивки между главами самое то.
-
- Обыватель
Yandex TTS
Как находите главы, через секции в fb2?
Для разбивки по главам, когда нужно, лично использую чудо-утилитку blb2txt, здесь на форуме есть. Она вообще очень удобно конвертит fb2/epub в текст в разном виде, рекомендую.
А для разбивки на отрезки хорошо справляется связка Демагог+скрипты от balamster, как уже отметил tonio_k. Плюс там же обработка текста словарями, многие из которых специально под Яндекс сделаны.
Вы обрабатываете книги словарями?