MyTTS

speeck писал(а): ↑
02 июл 2020 11:53
Честно, не знал, притом, что на всех обычных голосах интонация таки меняется, не только для jane или omazh.

Меняются сами голоса с переключением эмоции, просто вы не замечаете, видимо. Происходит подстановка другим голосом, близким по тембру, только и всего, причем с теми же голосовыми "припадками" в предложениях.

Да уж, эта смена интонации (точнее перескок на другие голоса) порядком напрягает. Пока что нашла для себя только 2 голоса, которые не меняют пол и тембр - Самохвалов и Вальц. Точнее, подсказали добрые люди. Еще, кажется, Ермил и Захар более-менее постоянны, но они мне не нравятся своим тембром.

speech писал(а): ↑
02 июл 2020 19:02
Меняются сами голоса с переключением эмоции, просто вы не замечаете, видимо

Ну лично я всегда пишу книги на нейтральной интонации.

Sylvia писал(а): ↑
02 июл 2020 19:52
Пока что нашла для себя только 2 голоса, которые не меняют пол и тембр - Самохвалов и Вальц

Могу добавить еще Оксану, почти идеально, и слушать приятно.
Чередую её с Самохваловым, он действительно почти стабилен. Правда на последней книге, которая ничем особо не выделяется, Самохвалов часто трансформировался. Но это скорее исключение.

Онлайн и офлайн синтез Алёной

https://drive.google.com/file/d/1qdmknA ... sp=sharing
https://drive.google.com/file/d/10mjm91 ... sp=sharing

Надеюсь Яндекс перестанет муйнеё маяться с попыткой монетизации синтеза речи, и хотя бы в свой браузер вставит бесплатный набор своих голосов.

Эхо писал(а): ↑
07 июл 2020 14:04
офлайн синтез Алёной

в смысле озвучивание вообще без интернета? Голосовой движок Алены локальный?

tonio_k писал(а): ↑
07 июл 2020 15:26
Голосовой движок Алены локальный?

Да, именно так. Технология превращения премиум голосов в офлайн синтез ничем не отличается от описанной ранее в этой ветке. В парадигме глубокого обучения нейросетей, ключевым залогом успеха является датасет. Яндекс его не может не дать собрать, поэтому попытки заработать на "неспешном" нейросинтезе бесперспективны. Ниша остается только для решений заточенных под колцентры, где из железок выжимают всё, что можно и нельзя.

В начале 90-ых от вычислительной бедности был придуман синтез речи на микроволнах, который умещался в 64кб памяти и работал в реалтайме на процессоре интел 8086 с частотой около 1 мегагерца. Он был чуть хуже, чем известная многим "говорящая мышь" и последовавший за ней голосовой движок DIGALO, т.к. был прородителем их. Сейчас тенденция развития TTS идет в том же направлении, когда синтез речи уровня премиум голосов пытаются получить на вычислительных мощностях уровня микроконтроллеров (или SoC) и заработать на этом т.к. зарабатывать на пользователях, которым в 99% случаев нужен однопоточный "неспешный" синтез, и у них есть видеокарта, бесперспективно.

И где можно прощупать офлайн версию Алёны?

tonio_k писал(а): ↑
08 июл 2020 19:51
И где можно прощупать офлайн версию Алёны?

Нигде нельзя, товарищ Эхо фантазирует.

Эхо писал(а): ↑
08 июл 2020 19:38
Да, именно так. Технология превращения премиум голосов в офлайн синтез ничем не отличается от описанной ранее в этой ветке. В парадигме глубокого обучения нейросетей, ключевым залогом успеха является датасет. Яндекс его не может не дать собрать, поэтому попытки заработать на "неспешном" нейросинтезе бесперспективны.

Без обид пожалуйста, но не нужно писать сказки.
1. У вас есть алгоритм синтеза от Яндекса? Конкретный код, модель?
2. Как вы планируете собрать дата-сеты? Они что, лежат в открытом доступе?
Если вы имеете в виду синтезировать все леммы, и собрать на них дата-сеты, во-первых, вы уверены, что из этого получится рабочий голос? Во-вторых, вы уверены, что вообще сможете собрать все леммы? На это понадобятся не малые средства, в первую очередь временные, это нельзя назвать бесплатным занятием.
И тд тд.
Вы не первый раз пишете какие-то теоретические абстракции, но дайте же наконец осязаемое подтверждение оным? Покажите рабочий оффлайн синтез уровня любого голоса Яндекса, а?

speeck писал(а): ↑
09 июл 2020 10:41
Без обид пожалуйста, но не нужно писать сказки.
1. У вас есть алгоритм синтеза от Яндекса? Конкретный код, модель?
2. Как вы планируете собрать дата-сеты? Они что, лежат в открытом доступе?
Если вы имеете в виду синтезировать все леммы, и собрать на них дата-сеты, во-первых, вы уверены, что из этого получится рабочий голос? Во-вторых, вы уверены, что вообще сможете собрать все леммы? На это понадобятся не малые средства, в первую очередь временные, это нельзя назвать бесплатным занятием.

так или иначе, в большинстве своём по объёму написанного текста люди пишут абстракции и фантазии, как я, например, или Вы...
здесь где-то был небольшой отчет по результатом тестирования датасета в домашних условиях, так что не торопитесь с выводами

speech писал(а): ↑
14 июл 2020 12:57
здесь где-то был небольшой отчет по результатом тестирования датасета в домашних условиях

Одна коротусенькая фраза? Ну-ну....
Давайте таки дождемся ответа Эхо, если он действительно располагает чем-то осязаемым и бесплатным, и покажет это, с превеликим удовольствием признаю, что поторопился с выводами, был не прав, и отправлю даже пару бакшиша на вкусное пиво

speeck писал(а): ↑
14 июл 2020 13:22
если он действительно располагает чем-то осязаемым и бесплатным,

Онлайн и офлайн синтез Алёной :)

Сейчас тренирую Филиппа, потом примусь за голоса ЦРТ. Офлайн синтез сделан на реализации Кубоянга (корейца), которую он разместил на гитхабе, повторив в коде мат. модель описанную в одной японской статье. Такого добра на Гитхабе полно с разными подходами к синтезу, одна из реализаций от Мозилы - бери и делай офлайн синтез - не хочу.

это офлайн синтез на нейросетях:

Филипп

человек

Алена

Эхо, А можно каким-то образом с помощью Филиппа записать в мр3 книгу? Через Балаболку или Демагог, или через другую программу?

Sylvia писал(а): ↑
18 июл 2020 08:34
А можно каким-то образом с помощью Филиппа записать в мр3 книгу?

уже слушаю, но как тестирование.
Синтез идет на коде, который требует установки моря зависимостей

видел на гитхабе код, студента из Белоруссии, он уже сделал синтез в виде бэк-энда для сервера Джанго

в сети видел укроязычный отчет о такой-же работе, но без кода на гитхабе
и такой же отчет из Чечни, там реализовали синтез на их языке

Эхо писал(а): ↑
18 июл 2020 08:20
Онлайн и офлайн синтез Алёной :)

Сейчас тренирую Филиппа, потом примусь за голоса ЦРТ

То есть, вы взяли движок корейца, и на дата сетах Алены/Филиппа делаете синтез?

Эхо писал(а): ↑
18 июл 2020 08:49
Синтез идет на коде, который требует установки моря зависимостей

Интересно узнать немного деталей, поделитесь?

Эхо писал(а): ↑
18 июл 2020 08:20
Сейчас тренирую Филиппа

Между Аленой и Филиппом есть разница произношения в ваших примерах, вы вручную подгоняете произношение под каждого?
Да, и как вы собрали дата сеты? Не обязательно раскрывать детали, достаточно в общих чертах.

GwentDaily писал(а): ↑
21 июл 2020 16:47
Какой вокодер используете ? WaveRNN ?

нет, там у японцев спец. отдельная свёрточная нейронка, которая разряженный мел спектр превращает в амплитудный, а дальше однопоточный гриф-лим

суть их работы была избавиться от lstm

speeck писал(а): ↑
22 июл 2020 13:26
То есть, вы взяли движок корейца, и на дата сетах Алены/Филиппа делаете синтез?

да, на хабре была статья сотрудника црт, как он это сделал. Кореец выложил примеры, из которых следовало, что даже Такатрон 2 дает меньшую мос оценку, чем dctts, поэтому в црт решили на тот момент ковырять dctts. Сейчас у них уже другая архитектура в фаворе (есть видос на ютюбе о ней)

speeck писал(а): ↑
22 июл 2020 13:26
Интересно узнать немного деталей, поделитесь?

всё по шагам из статьи на хабре https://habr.com/ru/company/speechpro/blog/358816/ и рекомендаций корейца на гитхабе + установка драйверов к видяхе с кудойднн

speeck писал(а): ↑
22 июл 2020 13:28
Между Аленой и Филиппом есть разница произношения в ваших примерах, вы вручную подгоняете произношение под каждого?
Да, и как вы собрали дата сеты? Не обязательно раскрывать детали, достаточно в общих чертах.

Пока Филипп лучше Алены, но из-за того, что у Филиппа был больший датасет

эта реализация нейросинтеза не предполагает что им можно управлять кроме нормализации текста, поэтому в ней невозможно указать где ставить ударение и какие фонемы использовать

это энд_Ту_энд решение, где нейросеть учится буквам ставить в соответствие сразу волну (аудиосигнал) У Яндекса сначала идет преобразование букв в фонемы с расстановкой ударений и на этой смеси они учат нейросеть (если их синтез сделан как нейросинтез, а не смесь юнитселекшена с нейросетями)

датасеты собираются скриптами на питоне, как закончу сбор могу отдать в общее пользование. Ими действительно можно синтезировать речь премиум голосами прямо с сайтов. Но боюсь лавочку быстро прикроют, если возрастет нагрузка, так например у ЦРТ демо синтез и без того сам часто падает.

Эхо писал(а): ↑
24 июл 2020 09:52
поэтому в ней невозможно указать где ставить ударение и какие фонемы использовать

означает ли это, что пользовательские словари тут не будут работать?
Имеется в виду, как сейчас в Яндексе реализовано: можно принудительно в самом тексте, (который затем передаётся голосовому движку) указать ударение в слове за счёт вставки знака "+" перед буквой, на которое должно быть ударение.

Эхо, а какая у вас скорость синтеза речи, реалтайм или можно её делать с ускорением? Какую видеокарту вы используете? Нужна именно от Nvidia с поддержкой CUDA или можно как-нибудь это сделать на Radeon?

Эхо писал(а): ↑
24 июл 2020 09:52
Пока Филипп лучше Алены, но из-за того, что у Филиппа был больший датасет

эта реализация нейросинтеза не предполагает что им можно управлять кроме нормализации текста, поэтому в ней невозмож

Эхо писал(а): ↑
24 июл 2020 09:52
Пока Филипп лучше Алены, но из-за того, что у Филиппа был больший датасет

Скажите, как сейчас работает ваша система на больших текстах? Насколько я понимаю, там много косяков произношения, которые сразу не исправить, и вы их подпиливаете вручную?
Можете озвучить пример большего текста? Например этот рассказ: http://lib.ru/ILFPETROV/ilf_pohod.txt.

Когда что-нибудь делают взамен покупного, есть большая вероятность что "все посчитали до вас" и никакого выйгрыша не получится. Стоимость аудиокнижки, даже только по электроэнергии и вероятности компа сдохнуть при загрузке сутками на 100%, может оказаться дороже премиум-тарифов Яндекса.

GwentDaily писал(а): ↑
30 июл 2020 00:26
Пока бесплатные голоса не прикрыли можно не париться. anton_samokhvalov лучше озвучивает чем реализация от эхо. И занимает это 5-10 минут

Но все же бесплатная реализация от тов. Эхо это круче пока-бесплатного сервиса от Яндекса, это надо признать. Вопрос к качеству.
Еще особо интересно то, что модель синтеза которую использует Эхо, от некоторого корейца, можно связать с любым независимо собранным дата-сетом, и писать книги практически любым голосом, если я правильно понял. Это очень круто, но вопрос к качеству не закрыт

Если есть у кого готовый для сборки конструктор для Deep Voice
скиньте плиз (желательно с инструкцией по установке)

tonio_k писал(а): ↑
24 июл 2020 13:08
означает ли это, что пользовательские словари тут не будут работать?

Для меня пока принципиально важно не то, правильно ли прочитан текст, а то насколько естественен синтезируемый голос. Таня и другие движки на юнитселекшен практически не делали ошибок, их речь была разборчива, но звучали не естественно.

Если у вас получается естественным синтезируемый голос всё остальное добавить становится задачей на порядок более легкой (но это моя личная оценка)

GIS88 писал(а): ↑
24 июл 2020 13:34
какая у вас скорость синтеза речи, реалтайм или можно её делать с ускорением? Какую видеокарту вы используете? Нужна именно от Nvidia с поддержкой CUDA или можно как-нибудь это сделать на Radeon?

Код корейца реалтайма не дает, он исследовательский. Например, там 90% времени занимает однопоточный гриф-лим, хотя быстрых реализаций его уже есть несколько вариантов.

У меня nVidia GeForce 2060 SUPER, но это не принципиально, я учил сетки и на Google-Colab, пока датасеты были маленькие

Пока вроде как Radeon для обучения сетей не подходит, т.к. не имеет поддержки от создателей фреймверков для машинного обучения. Во всех рейтингах полезности видеокарт для машинного обучения только продукты nVidia Вот переводная статья (урезанная), в первоисточнике уже рассмотрен 2019г https://neurohive.io/ru/osnovy-data-sci ... processor/

Свою карту выбирал исходя из этого графика первоисточника

https://i1.wp.com/timdettmers.com/wp-co ... ar_RTX.png

speeck писал(а): ↑
29 июл 2020 10:07
Скажите, как сейчас работает ваша система на больших текстах? Насколько я понимаю, там много косяков произношения, которые сразу не исправить, и вы их подпиливаете вручную?
Можете озвучить пример большего текста? Например этот рассказ:

Размер текста не играет большого значения, т.к. более важна представительность текста. Т.е. в тексте должны присутствовать все (или почти все) "языковые явления". Лингвисты, которые делали русские TTS ("испокон веков") используют 2-3 подобных текста для быстрой оценки качества получившейся TTS. Их же используют и для обучения нейросетей, но тогда для тестирования используют те тексты, на которых не учили.

Вот офлайн синтез, созданный на основе датасета "Филипп". В датасете нет этого текста, и нейросеть его видит впервые. Это очень важно, чтобы оценить реальные результаты, а не "подкрученные"
ФОНЕТИЧЕСКИ ПРЕДСТАВИТЕЛЬНЫЙ ТЕКСТ ДЛЯ ФУНДАМЕНТАЛЬНЫХ И ПРИКЛАДНЫХ ИССЛЕДОВАНИЙ РУССКОЙ РЕЧИ
https://drive.google.com/file/d/1XS6mBQ ... 8DkaY/view

взят отсюда https://pribor.ifmo.ru/file/article/6134.pdf

в ручную ничего не подпиливается, т.к. это подход эндТОенд т.е на входе нейросети текст, на выходе звуковая волна. Можно заранее подготовить датасет, чтобы ввести слой предварительной обработки неизвестно текста в процессе синтеза, и тогда появится возможность влиять на синтез уже после обучения. Грубо говоря в обучающем датасете звуковой волне ставить в соответствие не текст, а текст преобразованный в фонемы с расставленными ударениями. Обученная на потоке фонем с ударениями, а не букв, нейросеть уже станет управляемой по фонемному составу, и по расстановке ударений.

Тоже самое и с интонацией чтения. Если в датасете интонация как-то закодирована, то при синтезе ей можно управлять.

О http://lib.ru/ILFPETROV/ilf_pohod.txt

Если вам интересно, что сегодня может нейросетевой подход https://veravoice.ai/ у них есть даже приложения для смартфонов. Инвестор проекта Бекмамбетов второе видео тоже впечатляет

► Показать

То, что сделано на коленке одним человеком пока не может сравниться с тем, что делают за деньги коллективы компаний, но приблизиться к ним, нам никто не мешает.

Nxtpr писал(а): ↑
29 июл 2020 23:37
Стоимость аудиокнижки, даже только по электроэнергии и вероятности компа сдохнуть при загрузке сутками на 100%, может оказаться дороже премиум-тарифов Яндекса.

Офлайн синтез решает вопрос демонополиизации, чтобы нейросинтез для частного лица вообще ничего не стоит у Яндекса, Гугла, ЦРТ и прочих. Пока оф. они хотят денежку, а в конкуренции с офлайнсинтезом уже будут искать баланс.

на 4-ех минутный текст уходит примерно 10-12 минут работы кода кубоянга "A TensorFlow Implementation of DC-TTS"

speeck писал(а): ↑
30 июл 2020 22:50
модель синтеза которую использует Эхо, от некоторого корейца, можно связать с любым независимо собранным дата-сетом, и писать книги практически любым голосом, если я правильно понял.

В идеале, да. Другое дело, что обучение нейросетей это по сути программирование путем создания датасета. И это может быть на порядок(и) сложнее, чем написание кода, который реализует нейросеть в обучении и синтезе.

В США созданием датасетов для синтеза и распознавания речи "испокон веков" занималось "Управление перспективных исследовательских проектов Министерства обороны США" - DARPA. Это сильно ускоряло прогресс еще до второй волны нейросетей. Даже сегодня этими датасетами пользуются в обучающих целях, например: TIMIT. На ютюбе есть 2+2 лекции+семинары (этого и того года) от Deep Learning School это ФПМИ МФТИ. Тем, кому интересно советую посмотреть, а кто хоть немного в теме, может даже попрактиковаться в синтезе, распознавании и обработке речи прямо из браузера, загрузив их бокноты с кодом на колабе. Лекции читают те, кто сегодня ВКонтаке пилят распознавание и синтез речи (с их слов)

► Показать

Если есть большие датасеты по структуре как TIMIT, то можно обучить сеть не только распознавать пол, но и возраст, место, где вы жили, когда овладевали навыками речи. Справедливо и то, что можно делать "трансфер", т.е. обучить нейросеть передавать эти особенности речи любым синтезированным/живым_человеческим голосам.

speeck писал(а): ↑
30 июл 2020 22:50
Пока бесплатные голоса не прикрыли можно не париться. anton_samokhvalov лучше озвучивает чем реализация от эхо. И занимает это 5-10 минут

А кто такой этот anton_samokhvalov, и как к нему обратить?
Я правильно понимаю что он через яндекс спичкит делает книги на заказ?

Роман писал(а): ↑
13 сен 2020 17:44
Я правильно понимаю что он через яндекс спичкит делает книги на заказ?

нет. Это название одного из голосов яндекс спичкит.

Роман писал(а): ↑
13 сен 2020 17:44
делает книги на заказ

Я могу сделать на заказ голосом Филиппа, без денег

lister22 писал(а): ↑
15 сен 2020 07:42
Я могу сделать на заказ голосом Филиппа, без денег

Лучше скажите, как делаете? )

Озвучиваю частями через их сайт.

lister22 писал(а): ↑
16 сен 2020 10:12
Озвучиваю частями через их сайт.

эксперементировал с частями текста. Обратил внимание, что 5000 символов хоть в описании и допускает к озвучке, но вот скачивает аудио только если текст в два раза меньше по длине символов. Я разбивал текст в Демагоге на сериал в пределах 2450 - файлы с сайта скачивались

С помощью клинкера можно озвучить книги Филлипом используя демо страницу Яндекса. Выкладываю доработанный мной скрипт от Evgen2194 для кликера Clickermann. Пожалуйста, если у вас есть мысли, как можно его улучшить и доработь сборку Demagog-Yandex для Филиппа (многие правила словарей избыточны или вредны), пожалуйста напишите в эту тему.

Инструкция:

В настройках скрипта нужно задать координаты куда кликать (LCLICK(X,Y)) и местоположения целевого пикселя (IF_PIXEL_IN(X,Y, X,Y, Цвет)). Цвет можно узнать наведя курсор (он отобраться в окошке) или нажав alt+q.

1) Нужно запустить Chrome браузер (я использую Opera portable + VPN), на странице яндекса удаляем все лишние элементы дополнением Ublock origin и включаем в настройках браузера сохранение файлов в ручную.
2) Нужно открыть подготовленный txt файл книги программой Word.
3) Включаем скрипт alt+a.

Дальше как работает скрипт видно на видео.

Ссылка на видео и скрипт - http://www.mediafire.com/file/b8s6e3bin ... n.rar/file

GIS88 писал(а): ↑
16 сен 2020 12:15
С помощью клинкера можно озвучить книги Филлипом используя демо страницу Яндекса

Максимально упростил скрипт для Clickermann - оставил привязку только ко времени ожидания.
Сделал видео-инструкцию как настраивать и применять скрипт для Clickermann в том числе батники и скрипт для демагога.

► Показать

В архиве

скрипты.zip: (11.01 КБ) 113 скачиваний

Батники надо поместить в папку - куда будут скачиваться файлы с Яндекса. Для склеивания ogg файлов необходима программа ffmpeg.exe - можно взять из сборок.

Скрипт ОКНО - БЛОКИ В БУФЕР ОБМЕНА.lua нужно поместить в папку c остальными скриптами Демагога.

Далее все по видео-инструкции.

UPD если у вас слабый интернет, то возможно придётся увеличить запас времени ожидания.

Неужели Яндекс не рубит капчей частые обращения к демо-сайту? Другие его сервисы, например Вордстат, просто душат капчей, приходится искать обходные пути.

Пока нет. Также можно озвучивать и на ЦРТ, но там гораздо дольше.
На Яндексе нужно делать перезагрузку страницы время от времени, допустим после каждых 50 кусков, потому что браузер закрывает сайт и пишет про "нехватку памяти или другую ошибку". Хотя, это может у меня так.
Текст нужно разбивать не просто по символам, а искать конец предложения, иначе при склейке будут интонационные нестыковки.

Поэтому у меня при начале скрипта применяется F5, еще клик для сохранения файла можно заменить на Enter.

lister22 писал(а): ↑
16 сен 2020 19:56
Текст нужно разбивать не просто по символам, а искать конец предложения, иначе при склейке будут интонационные нестыковки.

скрипт в демагоге именно это и делает разбивает текст так, что бы сумма абзацев не превышала указанное количество символов. Если"вдруг" абзац очень большой (в скрипте лимит 2000), то скрипт такие абзацы разбивает пополам по знакам конца предложения (!?.). Если такого нет, то по запятыми и прочим знаками. Если таких нет, то делит такой огромный абзац пополам по пробелу. Т.о. Конец отрезка текста - это всегда законченный абзац.

Отлично тогда. Вот еще что сделано в моей программе (может что возьмете на вооружение). Текст разбивается не на лету, а сохраняется в отдельные файлы перед озвучкой. Это дает много преимуществ: позволяет начинать озвучку не с начала, а, например с середины; легко можно отловить конец книги, переозвучить отдельный кусок уже после всей работы.
Перед разбитием на куски создается оглавление и файлы после загрузки переименовываются типа "Глава 3-001". Во-первых, так проще объединять их по главам, а во-вторых можно легко организовать вставку музыкальных отбивок простым копированием их в папку с именем "Глава 3-000", например. У меня отбивки можно вставлять в начале главы, в конце главы, в конце книги и даже после названия главы. Причем с помощью супер-проги ffmpeg можно накладывать музыку на слова и делать видео версию книги для ютуб.

► Показать

lister22 писал(а): ↑
16 сен 2020 21:33
Вот еще что сделано в моей программе (может что возьмете на вооружение).

а о какой программе идёт речь?

lister22 писал(а): ↑
16 сен 2020 21:33
Текст разбивается не на лету, а сохраняется в отдельные файлы перед озвучкой.

в Демагоге это называется разбить на сериалы. В сборке для Яндекса такой скрипт есть. Вообще, - всё что можно сделать с текстом можно сделать через скрипты lua для Демагога. Можно и названия к имени файлов добавить. Можно и по главам разбить. Все это так или иначе включено в сборки для бесплатных демо голосов Яндекса. А что касается ютуба - так далеко не заходил - мне бы книжки озвучить больше и не надо

lister22 писал(а): ↑
16 сен 2020 21:33
супер-проги ffmpeg можно накладывать музыку на слова и делать видео версию книги для ютуб.

тут viewtopic.php?t=122&start=150#p1130 даже готовые решения были под ffmpeg для Демагога когда на голос накладывалась рандомная по списку музыка из папки

tonio_k писал(а): ↑
16 сен 2020 21:51
а о какой программе идёт речь

Моя программа "Словоукладчик", в свободном доступе ее нет.
Музыка под всю книгу - на любителя, а вот отбивки между главами самое то.

lister22 писал(а): ↑
16 сен 2020 21:33
Перед разбитием на куски создается оглавление и файлы после загрузки переименовываются типа "Глава 3-001"

Как находите главы, через секции в fb2?
Для разбивки по главам, когда нужно, лично использую чудо-утилитку blb2txt, здесь на форуме есть. Она вообще очень удобно конвертит fb2/epub в текст в разном виде, рекомендую.
А для разбивки на отрезки хорошо справляется связка Демагог+скрипты от balamster, как уже отметил tonio_k. Плюс там же обработка текста словарями, многие из которых специально под Яндекс сделаны.
Вы обраб�

MyTTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS

Yandex TTS