Yandex TTS

Ответить
Аватара пользователя
speech
Обыватель

Yandex TTS

#401

Сообщение speech »

speeck писал(а):
02 июл 2020 11:53
Честно, не знал, притом, что на всех обычных голосах интонация таки меняется, не только для jane или omazh.
Меняются сами голоса с переключением эмоции, просто вы не замечаете, видимо. Происходит подстановка другим голосом, близким по тембру, только и всего, причем с теми же голосовыми "припадками" в предложениях.

Аватара пользователя
Sylvia
Постоялец

Yandex TTS

#402

Сообщение Sylvia »

Да уж, эта смена интонации (точнее перескок на другие голоса) порядком напрягает. Пока что нашла для себя только 2 голоса, которые не меняют пол и тембр - Самохвалов и Вальц. Точнее, подсказали добрые люди. Еще, кажется, Ермил и Захар более-менее постоянны, но они мне не нравятся своим тембром.

speeck
Обыватель

Yandex TTS

#403

Сообщение speeck »

speech писал(а):
02 июл 2020 19:02
Меняются сами голоса с переключением эмоции, просто вы не замечаете, видимо
Ну лично я всегда пишу книги на нейтральной интонации.

speeck
Обыватель

Yandex TTS

#404

Сообщение speeck »

Sylvia писал(а):
02 июл 2020 19:52
Пока что нашла для себя только 2 голоса, которые не меняют пол и тембр - Самохвалов и Вальц
Могу добавить еще Оксану, почти идеально, и слушать приятно.
Чередую её с Самохваловым, он действительно почти стабилен. Правда на последней книге, которая ничем особо не выделяется, Самохвалов часто трансформировался. Но это скорее исключение.

Аватара пользователя
Эхо
Постоялец

Yandex TTS

#405

Сообщение Эхо »

Онлайн и офлайн синтез Алёной

https://drive.google.com/file/d/1qdmknA ... sp=sharing
https://drive.google.com/file/d/10mjm91 ... sp=sharing

Надеюсь Яндекс перестанет муйнеё маяться с попыткой монетизации синтеза речи, и хотя бы в свой браузер вставит бесплатный набор своих голосов.

Аватара пользователя
tonio_k
V.I.P.

Yandex TTS

#406

Сообщение tonio_k »

Эхо писал(а):
07 июл 2020 14:04
офлайн синтез Алёной
в смысле озвучивание вообще без интернета? Голосовой движок Алены локальный?

Аватара пользователя
Эхо
Постоялец

Yandex TTS

#407

Сообщение Эхо »

tonio_k писал(а):
07 июл 2020 15:26
Голосовой движок Алены локальный?
Да, именно так. Технология превращения премиум голосов в офлайн синтез ничем не отличается от описанной ранее в этой ветке. В парадигме глубокого обучения нейросетей, ключевым залогом успеха является датасет. Яндекс его не может не дать собрать, поэтому попытки заработать на "неспешном" нейросинтезе бесперспективны. Ниша остается только для решений заточенных под колцентры, где из железок выжимают всё, что можно и нельзя.

В начале 90-ых от вычислительной бедности был придуман синтез речи на микроволнах, который умещался в 64кб памяти и работал в реалтайме на процессоре интел 8086 с частотой около 1 мегагерца. Он был чуть хуже, чем известная многим "говорящая мышь" и последовавший за ней голосовой движок DIGALO, т.к. был прородителем их. Сейчас тенденция развития TTS идет в том же направлении, когда синтез речи уровня премиум голосов пытаются получить на вычислительных мощностях уровня микроконтроллеров (или SoC) и заработать на этом т.к. зарабатывать на пользователях, которым в 99% случаев нужен однопоточный "неспешный" синтез, и у них есть видеокарта, бесперспективно.

Аватара пользователя
tonio_k
V.I.P.

Yandex TTS

#408

Сообщение tonio_k »

И где можно прощупать офлайн версию Алёны?

speeck
Обыватель

Yandex TTS

#409

Сообщение speeck »

tonio_k писал(а):
08 июл 2020 19:51
И где можно прощупать офлайн версию Алёны?
Нигде нельзя, товарищ Эхо фантазирует.

speeck
Обыватель

Yandex TTS

#410

Сообщение speeck »

Эхо писал(а):
08 июл 2020 19:38
Да, именно так. Технология превращения премиум голосов в офлайн синтез ничем не отличается от описанной ранее в этой ветке. В парадигме глубокого обучения нейросетей, ключевым залогом успеха является датасет. Яндекс его не может не дать собрать, поэтому попытки заработать на "неспешном" нейросинтезе бесперспективны.
Без обид пожалуйста, но не нужно писать сказки.
1. У вас есть алгоритм синтеза от Яндекса? Конкретный код, модель?
2. Как вы планируете собрать дата-сеты? Они что, лежат в открытом доступе?
Если вы имеете в виду синтезировать все леммы, и собрать на них дата-сеты, во-первых, вы уверены, что из этого получится рабочий голос? Во-вторых, вы уверены, что вообще сможете собрать все леммы? На это понадобятся не малые средства, в первую очередь временные, это нельзя назвать бесплатным занятием.
И тд тд.
Вы не первый раз пишете какие-то теоретические абстракции, но дайте же наконец осязаемое подтверждение оным? Покажите рабочий оффлайн синтез уровня любого голоса Яндекса, а?

Аватара пользователя
speech
Обыватель

Yandex TTS

#411

Сообщение speech »

speeck писал(а):
09 июл 2020 10:41
Без обид пожалуйста, но не нужно писать сказки.
1. У вас есть алгоритм синтеза от Яндекса? Конкретный код, модель?
2. Как вы планируете собрать дата-сеты? Они что, лежат в открытом доступе?
Если вы имеете в виду синтезировать все леммы, и собрать на них дата-сеты, во-первых, вы уверены, что из этого получится рабочий голос? Во-вторых, вы уверены, что вообще сможете собрать все леммы? На это понадобятся не малые средства, в первую очередь временные, это нельзя назвать бесплатным занятием.
так или иначе, в большинстве своём по объёму написанного текста люди пишут абстракции и фантазии, как я, например, или Вы...
здесь где-то был небольшой отчет по результатом тестирования датасета в домашних условиях, так что не торопитесь с выводами

speeck
Обыватель

Yandex TTS

#412

Сообщение speeck »

speech писал(а):
14 июл 2020 12:57
здесь где-то был небольшой отчет по результатом тестирования датасета в домашних условиях
Одна коротусенькая фраза? Ну-ну....
Давайте таки дождемся ответа Эхо, если он действительно располагает чем-то осязаемым и бесплатным, и покажет это, с превеликим удовольствием признаю, что поторопился с выводами, был не прав, и отправлю даже пару бакшиша на вкусное пиво :drinking:

Аватара пользователя
Эхо
Постоялец

Yandex TTS

#413

Сообщение Эхо »

speeck писал(а):
14 июл 2020 13:22
если он действительно располагает чем-то осязаемым и бесплатным,
Онлайн и офлайн синтез Алёной :)

Сейчас тренирую Филиппа, потом примусь за голоса ЦРТ. Офлайн синтез сделан на реализации Кубоянга (корейца), которую он разместил на гитхабе, повторив в коде мат. модель описанную в одной японской статье. Такого добра на Гитхабе полно с разными подходами к синтезу, одна из реализаций от Мозилы - бери и делай офлайн синтез - не хочу.

это офлайн синтез на нейросетях:

Филипп

человек

Алена

Аватара пользователя
Sylvia
Постоялец

Yandex TTS

#414

Сообщение Sylvia »

Эхо, А можно каким-то образом с помощью Филиппа записать в мр3 книгу? Через Балаболку или Демагог, или через другую программу?

Аватара пользователя
Эхо
Постоялец

Yandex TTS

#415

Сообщение Эхо »

Sylvia писал(а):
18 июл 2020 08:34
А можно каким-то образом с помощью Филиппа записать в мр3 книгу?
уже слушаю, но как тестирование.
Синтез идет на коде, который требует установки моря зависимостей

видел на гитхабе код, студента из Белоруссии, он уже сделал синтез в виде бэк-энда для сервера Джанго

в сети видел укроязычный отчет о такой-же работе, но без кода на гитхабе
и такой же отчет из Чечни, там реализовали синтез на их языке

speeck
Обыватель

Yandex TTS

#416

Сообщение speeck »

Эхо писал(а):
18 июл 2020 08:20
Онлайн и офлайн синтез Алёной :)

Сейчас тренирую Филиппа, потом примусь за голоса ЦРТ
То есть, вы взяли движок корейца, и на дата сетах Алены/Филиппа делаете синтез?

speeck
Обыватель

Yandex TTS

#417

Сообщение speeck »

Эхо писал(а):
18 июл 2020 08:49
Синтез идет на коде, который требует установки моря зависимостей
Интересно узнать немного деталей, поделитесь?

speeck
Обыватель

Yandex TTS

#418

Сообщение speeck »

Эхо писал(а):
18 июл 2020 08:20
Сейчас тренирую Филиппа
Между Аленой и Филиппом есть разница произношения в ваших примерах, вы вручную подгоняете произношение под каждого?
Да, и как вы собрали дата сеты? Не обязательно раскрывать детали, достаточно в общих чертах.

Аватара пользователя
Эхо
Постоялец

Yandex TTS

#419

Сообщение Эхо »

GwentDaily писал(а):
21 июл 2020 16:47
Какой вокодер используете ? WaveRNN ?
нет, там у японцев спец. отдельная свёрточная нейронка, которая разряженный мел спектр превращает в амплитудный, а дальше однопоточный гриф-лим

суть их работы была избавиться от lstm

Аватара пользователя
Эхо
Постоялец

Yandex TTS

#420

Сообщение Эхо »

speeck писал(а):
22 июл 2020 13:26
То есть, вы взяли движок корейца, и на дата сетах Алены/Филиппа делаете синтез?
да, на хабре была статья сотрудника црт, как он это сделал. Кореец выложил примеры, из которых следовало, что даже Такатрон 2 дает меньшую мос оценку, чем dctts, поэтому в црт решили на тот момент ковырять dctts. Сейчас у них уже другая архитектура в фаворе (есть видос на ютюбе о ней)

Аватара пользователя
Эхо
Постоялец

Yandex TTS

#421

Сообщение Эхо »

speeck писал(а):
22 июл 2020 13:26
Интересно узнать немного деталей, поделитесь?
всё по шагам из статьи на хабре https://habr.com/ru/company/speechpro/blog/358816/ и рекомендаций корейца на гитхабе + установка драйверов к видяхе с кудойднн

Аватара пользователя
Эхо
Постоялец

Yandex TTS

#422

Сообщение Эхо »

speeck писал(а):
22 июл 2020 13:28
Между Аленой и Филиппом есть разница произношения в ваших примерах, вы вручную подгоняете произношение под каждого?
Да, и как вы собрали дата сеты? Не обязательно раскрывать детали, достаточно в общих чертах.
Пока Филипп лучше Алены, но из-за того, что у Филиппа был больший датасет

эта реализация нейросинтеза не предполагает что им можно управлять кроме нормализации текста, поэтому в ней невозможно указать где ставить ударение и какие фонемы использовать

это энд_Ту_энд решение, где нейросеть учится буквам ставить в соответствие сразу волну (аудиосигнал) У Яндекса сначала идет преобразование букв в фонемы с расстановкой ударений и на этой смеси они учат нейросеть (если их синтез сделан как нейросинтез, а не смесь юнитселекшена с нейросетями)

датасеты собираются скриптами на питоне, как закончу сбор могу отдать в общее пользование. Ими действительно можно синтезировать речь премиум голосами прямо с сайтов. Но боюсь лавочку быстро прикроют, если возрастет нагрузка, так например у ЦРТ демо синтез и без того сам часто падает.

Аватара пользователя
tonio_k
V.I.P.

Yandex TTS

#423

Сообщение tonio_k »

Эхо писал(а):
24 июл 2020 09:52
поэтому в ней невозможно указать где ставить ударение и какие фонемы использовать
означает ли это, что пользовательские словари тут не будут работать?
Имеется в виду, как сейчас в Яндексе реализовано: можно принудительно в самом тексте, (который затем передаётся голосовому движку) указать ударение в слове за счёт вставки знака "+" перед буквой, на которое должно быть ударение.

Аватара пользователя
GIS88
Обыватель

Yandex TTS

#424

Сообщение GIS88 »

Эхо, а какая у вас скорость синтеза речи, реалтайм или можно её делать с ускорением? Какую видеокарту вы используете? Нужна именно от Nvidia с поддержкой CUDA или можно как-нибудь это сделать на Radeon?

speeck
Обыватель

Yandex TTS

#425

Сообщение speeck »

Эхо писал(а):
24 июл 2020 09:52
Пока Филипп лучше Алены, но из-за того, что у Филиппа был больший датасет

эта реализация нейросинтеза не предполагает что им можно управлять кроме нормализации текста, поэтому в ней невозмож
Эхо писал(а):
24 июл 2020 09:52
Пока Филипп лучше Алены, но из-за того, что у Филиппа был больший датасет
Скажите, как сейчас работает ваша система на больших текстах? Насколько я понимаю, там много косяков произношения, которые сразу не исправить, и вы их подпиливаете вручную?
Можете озвучить пример большего текста? Например этот рассказ: http://lib.ru/ILFPETROV/ilf_pohod.txt.

Аватара пользователя
Nxtpr
Постоялец

Yandex TTS

#426

Сообщение Nxtpr »

Когда что-нибудь делают взамен покупного, есть большая вероятность что "все посчитали до вас" и никакого выйгрыша не получится. Стоимость аудиокнижки, даже только по электроэнергии и вероятности компа сдохнуть при загрузке сутками на 100%, может оказаться дороже премиум-тарифов Яндекса.

speeck
Обыватель

Yandex TTS

#427

Сообщение speeck »

GwentDaily писал(а):
30 июл 2020 00:26
Пока бесплатные голоса не прикрыли можно не париться. anton_samokhvalov лучше озвучивает чем реализация от эхо. И занимает это 5-10 минут
Но все же бесплатная реализация от тов. Эхо это круче пока-бесплатного сервиса от Яндекса, это надо признать. Вопрос к качеству.
Еще особо интересно то, что модель синтеза которую использует Эхо, от некоторого корейца, можно связать с любым независимо собранным дата-сетом, и писать книги практически любым голосом, если я правильно понял. Это очень круто, но вопрос к качеству не закрыт :dont_know:

Аватара пользователя
konsys
Наблюдатель

Yandex TTS

#428

Сообщение konsys »

Если есть у кого готовый для сборки конструктор для Deep Voice
скиньте плиз (желательно с инструкцией по установке)

Аватара пользователя
Эхо
Постоялец

Yandex TTS

#429

Сообщение Эхо »

tonio_k писал(а):
24 июл 2020 13:08
означает ли это, что пользовательские словари тут не будут работать?
Для меня пока принципиально важно не то, правильно ли прочитан текст, а то насколько естественен синтезируемый голос. Таня и другие движки на юнитселекшен практически не делали ошибок, их речь была разборчива, но звучали не естественно.

Если у вас получается естественным синтезируемый голос всё остальное добавить становится задачей на порядок более легкой (но это моя личная оценка)

Аватара пользователя
Эхо
Постоялец

Yandex TTS

#430

Сообщение Эхо »

GIS88 писал(а):
24 июл 2020 13:34
какая у вас скорость синтеза речи, реалтайм или можно её делать с ускорением? Какую видеокарту вы используете? Нужна именно от Nvidia с поддержкой CUDA или можно как-нибудь это сделать на Radeon?
Код корейца реалтайма не дает, он исследовательский. Например, там 90% времени занимает однопоточный гриф-лим, хотя быстрых реализаций его уже есть несколько вариантов.

У меня nVidia GeForce 2060 SUPER, но это не принципиально, я учил сетки и на Google-Colab, пока датасеты были маленькие

Пока вроде как Radeon для обучения сетей не подходит, т.к. не имеет поддержки от создателей фреймверков для машинного обучения. Во всех рейтингах полезности видеокарт для машинного обучения только продукты nVidia Вот переводная статья (урезанная), в первоисточнике уже рассмотрен 2019г https://neurohive.io/ru/osnovy-data-sci ... processor/

Свою карту выбирал исходя из этого графика первоисточника

https://i1.wp.com/timdettmers.com/wp-co ... ar_RTX.png

Аватара пользователя
Эхо
Постоялец

Yandex TTS

#431

Сообщение Эхо »

speeck писал(а):
29 июл 2020 10:07
Скажите, как сейчас работает ваша система на больших текстах? Насколько я понимаю, там много косяков произношения, которые сразу не исправить, и вы их подпиливаете вручную?
Можете озвучить пример большего текста? Например этот рассказ:
Размер текста не играет большого значения, т.к. более важна представительность текста. Т.е. в тексте должны присутствовать все (или почти все) "языковые явления". Лингвисты, которые делали русские TTS ("испокон веков") используют 2-3 подобных текста для быстрой оценки качества получившейся TTS. Их же используют и для обучения нейросетей, но тогда для тестирования используют те тексты, на которых не учили.

Вот офлайн синтез, созданный на основе датасета "Филипп". В датасете нет этого текста, и нейросеть его видит впервые. Это очень важно, чтобы оценить реальные результаты, а не "подкрученные"
ФОНЕТИЧЕСКИ ПРЕДСТАВИТЕЛЬНЫЙ ТЕКСТ ДЛЯ ФУНДАМЕНТАЛЬНЫХ И ПРИКЛАДНЫХ ИССЛЕДОВАНИЙ РУССКОЙ РЕЧИ
https://drive.google.com/file/d/1XS6mBQ ... 8DkaY/view

взят отсюда https://pribor.ifmo.ru/file/article/6134.pdf

в ручную ничего не подпиливается, т.к. это подход эндТОенд т.е на входе нейросети текст, на выходе звуковая волна. Можно заранее подготовить датасет, чтобы ввести слой предварительной обработки неизвестно текста в процессе синтеза, и тогда появится возможность влиять на синтез уже после обучения. Грубо говоря в обучающем датасете звуковой волне ставить в соответствие не текст, а текст преобразованный в фонемы с расставленными ударениями. Обученная на потоке фонем с ударениями, а не букв, нейросеть уже станет управляемой по фонемному составу, и по расстановке ударений.

Тоже самое и с интонацией чтения. Если в датасете интонация как-то закодирована, то при синтезе ей можно управлять.

О http://lib.ru/ILFPETROV/ilf_pohod.txt

Если вам интересно, что сегодня может нейросетевой подход https://veravoice.ai/ у них есть даже приложения для смартфонов. Инвестор проекта Бекмамбетов второе видео тоже впечатляет
► Показать
То, что сделано на коленке одним человеком пока не может сравниться с тем, что делают за деньги коллективы компаний, но приблизиться к ним, нам никто не мешает.

Аватара пользователя
Эхо
Постоялец

Yandex TTS

#432

Сообщение Эхо »

Nxtpr писал(а):
29 июл 2020 23:37
Стоимость аудиокнижки, даже только по электроэнергии и вероятности компа сдохнуть при загрузке сутками на 100%, может оказаться дороже премиум-тарифов Яндекса.
Офлайн синтез решает вопрос демонополиизации, чтобы нейросинтез для частного лица вообще ничего не стоит у Яндекса, Гугла, ЦРТ и прочих. Пока оф. они хотят денежку, а в конкуренции с офлайнсинтезом уже будут искать баланс.

на 4-ех минутный текст уходит примерно 10-12 минут работы кода кубоянга "A TensorFlow Implementation of DC-TTS"

Аватара пользователя
Эхо
Постоялец

Yandex TTS

#433

Сообщение Эхо »

speeck писал(а):
30 июл 2020 22:50
модель синтеза которую использует Эхо, от некоторого корейца, можно связать с любым независимо собранным дата-сетом, и писать книги практически любым голосом, если я правильно понял.
В идеале, да. Другое дело, что обучение нейросетей это по сути программирование путем создания датасета. И это может быть на порядок(и) сложнее, чем написание кода, который реализует нейросеть в обучении и синтезе.

В США созданием датасетов для синтеза и распознавания речи "испокон веков" занималось "Управление перспективных исследовательских проектов Министерства обороны США" - DARPA. Это сильно ускоряло прогресс еще до второй волны нейросетей. Даже сегодня этими датасетами пользуются в обучающих целях, например: TIMIT. На ютюбе есть 2+2 лекции+семинары (этого и того года) от Deep Learning School это ФПМИ МФТИ. Тем, кому интересно советую посмотреть, а кто хоть немного в теме, может даже попрактиковаться в синтезе, распознавании и обработке речи прямо из браузера, загрузив их бокноты с кодом на колабе. Лекции читают те, кто сегодня ВКонтаке пилят распознавание и синтез речи (с их слов)
► Показать
Если есть большие датасеты по структуре как TIMIT, то можно обучить сеть не только распознавать пол, но и возраст, место, где вы жили, когда овладевали навыками речи. Справедливо и то, что можно делать "трансфер", т.е. обучить нейросеть передавать эти особенности речи любым синтезированным/живым_человеческим голосам.

Аватара пользователя
Роман
Прохожий

Yandex TTS

#434

Сообщение Роман »

speeck писал(а):
30 июл 2020 22:50
Пока бесплатные голоса не прикрыли можно не париться. anton_samokhvalov лучше озвучивает чем реализация от эхо. И занимает это 5-10 минут
А кто такой этот anton_samokhvalov, и как к нему обратить?
Я правильно понимаю что он через яндекс спичкит делает книги на заказ?

Аватара пользователя
tonio_k
V.I.P.

Yandex TTS

#435

Сообщение tonio_k »

Роман писал(а):
13 сен 2020 17:44
Я правильно понимаю что он через яндекс спичкит делает книги на заказ?
нет. Это название одного из голосов яндекс спичкит.

Аватара пользователя
lister22
Интересующийся

Yandex TTS

#436

Сообщение lister22 »

Роман писал(а):
13 сен 2020 17:44
делает книги на заказ
Я могу сделать на заказ голосом Филиппа, без денег

speeck
Обыватель

Yandex TTS

#437

Сообщение speeck »

lister22 писал(а):
15 сен 2020 07:42
Я могу сделать на заказ голосом Филиппа, без денег
Лучше скажите, как делаете? )

Аватара пользователя
lister22
Интересующийся

Yandex TTS

#438

Сообщение lister22 »

Озвучиваю частями через их сайт.

Аватара пользователя
tonio_k
V.I.P.

Yandex TTS

#439

Сообщение tonio_k »

lister22 писал(а):
16 сен 2020 10:12
Озвучиваю частями через их сайт.
эксперементировал с частями текста. Обратил внимание, что 5000 символов хоть в описании и допускает к озвучке, но вот скачивает аудио только если текст в два раза меньше по длине символов. Я разбивал текст в Демагоге на сериал в пределах 2450 - файлы с сайта скачивались

Аватара пользователя
GIS88
Обыватель

Yandex TTS

#440

Сообщение GIS88 »

С помощью клинкера можно озвучить книги Филлипом используя демо страницу Яндекса. Выкладываю доработанный мной скрипт от Evgen2194 для кликера Clickermann. Пожалуйста, если у вас есть мысли, как можно его улучшить и доработь сборку Demagog-Yandex для Филиппа (многие правила словарей избыточны или вредны), пожалуйста напишите в эту тему.

Инструкция:

В настройках скрипта нужно задать координаты куда кликать (LCLICK(X,Y)) и местоположения целевого пикселя (IF_PIXEL_IN(X,Y, X,Y, Цвет)). Цвет можно узнать наведя курсор (он отобраться в окошке) или нажав alt+q.

1) Нужно запустить Chrome браузер (я использую Opera portable + VPN), на странице яндекса удаляем все лишние элементы дополнением Ublock origin и включаем в настройках браузера сохранение файлов в ручную.
2) Нужно открыть подготовленный txt файл книги программой Word.
3) Включаем скрипт alt+a.

Дальше как работает скрипт видно на видео.

Ссылка на видео и скрипт - http://www.mediafire.com/file/b8s6e3bin ... n.rar/file

Аватара пользователя
tonio_k
V.I.P.

Yandex TTS

#441

Сообщение tonio_k »

GIS88 писал(а):
16 сен 2020 12:15
С помощью клинкера можно озвучить книги Филлипом используя демо страницу Яндекса
Максимально упростил скрипт для Clickermann - оставил привязку только ко времени ожидания.
Сделал видео-инструкцию как настраивать и применять скрипт для Clickermann в том числе батники и скрипт для демагога.
► Показать

В архиве
скрипты.zip
(11.01 КБ) 113 скачиваний
Батники надо поместить в папку - куда будут скачиваться файлы с Яндекса. Для склеивания ogg файлов необходима программа ffmpeg.exe - можно взять из сборок.

Скрипт ОКНО - БЛОКИ В БУФЕР ОБМЕНА.lua нужно поместить в папку c остальными скриптами Демагога.

Далее все по видео-инструкции.

UPD если у вас слабый интернет, то возможно придётся увеличить запас времени ожидания.

speeck
Обыватель

Yandex TTS

#442

Сообщение speeck »

Неужели Яндекс не рубит капчей частые обращения к демо-сайту? Другие его сервисы, например Вордстат, просто душат капчей, приходится искать обходные пути.

Аватара пользователя
lister22
Интересующийся

Yandex TTS

#443

Сообщение lister22 »

Пока нет. Также можно озвучивать и на ЦРТ, но там гораздо дольше.
На Яндексе нужно делать перезагрузку страницы время от времени, допустим после каждых 50 кусков, потому что браузер закрывает сайт и пишет про "нехватку памяти или другую ошибку". Хотя, это может у меня так.
Текст нужно разбивать не просто по символам, а искать конец предложения, иначе при склейке будут интонационные нестыковки.

Аватара пользователя
GIS88
Обыватель

Yandex TTS

#444

Сообщение GIS88 »

Поэтому у меня при начале скрипта применяется F5, еще клик для сохранения файла можно заменить на Enter.

Аватара пользователя
tonio_k
V.I.P.

Yandex TTS

#445

Сообщение tonio_k »

lister22 писал(а):
16 сен 2020 19:56
Текст нужно разбивать не просто по символам, а искать конец предложения, иначе при склейке будут интонационные нестыковки.
скрипт в демагоге именно это и делает разбивает текст так, что бы сумма абзацев не превышала указанное количество символов. Если"вдруг" абзац очень большой (в скрипте лимит 2000), то скрипт такие абзацы разбивает пополам по знакам конца предложения (!?.). Если такого нет, то по запятыми и прочим знаками. Если таких нет, то делит такой огромный абзац пополам по пробелу. Т.о. Конец отрезка текста - это всегда законченный абзац.

Аватара пользователя
lister22
Интересующийся

Yandex TTS

#446

Сообщение lister22 »

Отлично тогда. Вот еще что сделано в моей программе (может что возьмете на вооружение). Текст разбивается не на лету, а сохраняется в отдельные файлы перед озвучкой. Это дает много преимуществ: позволяет начинать озвучку не с начала, а, например с середины; легко можно отловить конец книги, переозвучить отдельный кусок уже после всей работы.
Перед разбитием на куски создается оглавление и файлы после загрузки переименовываются типа "Глава 3-001". Во-первых, так проще объединять их по главам, а во-вторых можно легко организовать вставку музыкальных отбивок простым копированием их в папку с именем "Глава 3-000", например. У меня отбивки можно вставлять в начале главы, в конце главы, в конце книги и даже после названия главы. Причем с помощью супер-проги ffmpeg можно накладывать музыку на слова и делать видео версию книги для ютуб.
► Показать

Аватара пользователя
tonio_k
V.I.P.

Yandex TTS

#447

Сообщение tonio_k »

lister22 писал(а):
16 сен 2020 21:33
Вот еще что сделано в моей программе (может что возьмете на вооружение).
а о какой программе идёт речь?
lister22 писал(а):
16 сен 2020 21:33
Текст разбивается не на лету, а сохраняется в отдельные файлы перед озвучкой.
в Демагоге это называется разбить на сериалы. В сборке для Яндекса такой скрипт есть. Вообще, - всё что можно сделать с текстом можно сделать через скрипты lua для Демагога. Можно и названия к имени файлов добавить. Можно и по главам разбить. Все это так или иначе включено в сборки для бесплатных демо голосов Яндекса. А что касается ютуба - так далеко не заходил - мне бы книжки озвучить больше и не надо

Аватара пользователя
tonio_k
V.I.P.

Yandex TTS

#448

Сообщение tonio_k »

lister22 писал(а):
16 сен 2020 21:33
супер-проги ffmpeg можно накладывать музыку на слова и делать видео версию книги для ютуб.
тут viewtopic.php?t=122&start=150#p1130 даже готовые решения были под ffmpeg для Демагога когда на голос накладывалась рандомная по списку музыка из папки

Аватара пользователя
lister22
Интересующийся

Yandex TTS

#449

Сообщение lister22 »

tonio_k писал(а):
16 сен 2020 21:51
а о какой программе идёт речь
Моя программа "Словоукладчик", в свободном доступе ее нет.
Музыка под всю книгу - на любителя, а вот отбивки между главами самое то.

speeck
Обыватель

Yandex TTS

#450

Сообщение speeck »

lister22 писал(а):
16 сен 2020 21:33
Перед разбитием на куски создается оглавление и файлы после загрузки переименовываются типа "Глава 3-001"
Как находите главы, через секции в fb2?
Для разбивки по главам, когда нужно, лично использую чудо-утилитку blb2txt, здесь на форуме есть. Она вообще очень удобно конвертит fb2/epub в текст в разном виде, рекомендую.
А для разбивки на отрезки хорошо справляется связка Демагог+скрипты от balamster, как уже отметил tonio_k. Плюс там же обработка текста словарями, многие из которых специально под Яндекс сделаны.
Вы обрабатываете книги словарями?

Ответить

Вернуться в «Онлайн-сервисы для синтеза речи»