ACrow (sz) v.5.2 - чтение книг голосами Яндекса (Андроид)
- упрощение команд словаря (нововведения не оправдались)
- значительное увеличение скорости генерации при больших словарях
- небольшие исправления и улучшения
- возможность работы в Windows под эмулятором YouWave (быстрый, нетребовательный, бесплатный) с сохранением состояния книг между сессиями.
ошибка при добавлении в словарь zam строки игорич=+игорич
► Показать
9.png (154.91 КБ) 18123 просмотра
строка удалена - добавлено новых - ошибка...
► Показать
10.png (126.33 КБ) 18123 просмотра
одни ошибочные строки - всё ОК.
Может кто подскажет, что это за "зверь" - неизвестный числовой показатель
И как с ним боротся...
Я понимаю, что словарь zam работает по принципу меняем пока меняется - соответственно на выходе веороятно и неизвестный числовой показатель - побороть можно или это тупик и "идти другим путём"?
PS изменён только словарь zam
Yandex TTS
Добавлено: 19 мар 2020 23:30
S-a-b
wasyaka,
Приветствую.
Словарь свой в личку скиньте посмотреть
Yandex TTS
Добавлено: 21 мар 2020 18:59
SZ-Vtk
ACrow (sz) v.5.2a -чтение книг голосами Яндекса
Исправление ошибки
Программа CrowPack (Windows) предназначена для группового сжатия MP3-аудиокниг. Для файлов "от Яндекса" сжатие от 2 до 12 раз. Изменяется битрейт всех MP3-файлов, находящихся в директории и поддиректориях программы
Лучше бы сделали кодирование сразу в vorbis или avc в малый битрейт 48 или 64
Ужимать мп3 такое себе занятие...
Yandex TTS
Добавлено: 23 мар 2020 18:32
SZ-Vtk
1) vorbis при равном битрейте на четверть или даже треть короче MP3, но его нет на старых смартфонах, а работать всё должно везде
2) MP3 с битрейтом 32 прекрасно звучит, и короче исходного файла от Яндекса в три раза
Помощи ждать некуда; сами компании могут лишь прикрыть лавочку, а не помочь пользователям.
Не всё так однозначно. Функционал браузера Яндекс Бета уже сейчас эквивалентен халяве с известным ключом разработчика Яндекса, видимо по этому и не прикрывают лавочку т.к. это стимулирует заинтересованных хакнуть Яндекс Бета, сделав из него бэк-енд TTS.
Я недавно заглянул на Гит хаб, там полно опен-сорсных реализаций нейросинтеза от Такатрона до ВайвНет, а на хабре ещё в прошлом году появились статьи, как ребята из разных более мелких контор типа ЦРТ опробовали эти опен-сорсные реализации нейросинтеза.
Вершина конечно Vera Voice Бекмамбетова с их голосом Высоцкого, но там и инвестиции миллионные в $. Если попроще, то это голос Олег от Тинькоффа, но главное другое, у монстров типа Гугла или Яндекса уже нет монополии на отличный и хороший синтез речи.
Я тоже провел кое какие эксперименты с нейросинтезом, результат:
а) синтетические голоса Яндекса типа Захара или Джейн воспроизводятся для офф-лайна на 4+ (и это без всяких усилий, т.е. опен-сорсными инструментами с Гит хаба)
б) с живыми человеческими голосами пока не всё хорошо, но тут я один в поле не воин.
Добавили бы образец и время его синтеза, было б интересней.
Yandex TTS
Добавлено: 11 апр 2020 13:32
Sylvia
Подскажите, пожалуйста, какой из Яндекс-голосов (кроме Захара и Ермила) не меняет тон? Нравятся Костя, Женя, но они периодически меняют пол и проявляют эмоции, хотя в настройках стоит "эмоции-нейтральные". Особенно Костя непостоянен
Подскажите, пожалуйста, какой из Яндекс-голосов (кроме Захара и Ермила) не меняет тон?
После того, как обнаружил "непостоянство" голоса у Кости, выбрал голос Самохвалов. Он не меняется на протяжении всей книги. Сразу, он мне показался как то не очень, но потом понравился
Это всё случилось ~ года 2 назад, когда https://github.com/Kyubyong выложил опен-сорсные решения, воспроизводящие по статьям лидеров. Но там нюансы, это не промышленные решения TTS т.к. они слишком ресурсоёмки.
tonio_k писал(а): ↑11 апр 2020 12:02
получения аудио без интернета?
Да.
Вы хотите сказать, можно писать книги на синтезе от Яндекса без подключения к интернету?
Покажите решение пожалуйста. По той ссылке, что вы дали профиль какого-то корейского студента-лингвиста.
Подскажите, пожалуйста, какой из Яндекс-голосов (кроме Захара и Ермила) не меняет тон? Нравятся Костя, Женя, но они периодически меняют пол и проявляют эмоции, хотя в настройках стоит "эмоции-нейтральные". Особенно Костя непостоянен
Год назад тестировал все голоса, остановился на Самохвалове и Оксане. Книги с ними пишутся в основном без перепадов эго, и немаловажно - звучат хорошо.
Но недавно заметил, что на статьях, в первую очередь технического уклада, Самохвалов может превращаться в Чувака, Левитана и тд.
Еще прослушал пару книг на Erkanyavas, тоже понравился голос, но затем другую книгу он озвучил крайне плохо, почему-то читал в тандеме с Чуваком.
Это всё случилось ~ года 2 назад, когда https://github.com/Kyubyong выложил опен-сорсные решения, воспроизводящие по статьям лидеров. Но там нюансы, это не промышленные решения TTS т.к. они слишком ресурсоёмки.
Можете тыкнуть пальцем в решение? И чем промышленные решения отличаются от не промышленных? Если мы говорим о Яндексе. Кроме учета высокой нагрузки серверов сам синтез не может отличаться, язык ведь общий, модель обучения одна. Или про что вы вообще говорите? Уточните плз, а то пока один сумбур.
тут дан:
а) код
б) датасет
в) натренированные модели, в том числе и для русского языка
г) примеры с результатами
всё, что вам нужно для оф-лайн синтеза это скачать код, создать свой датасет (или использовать существующий, если он вас устраивает), натренировать (до натренировать) модель и всё.
И чем промышленные решения отличаются от не промышленных?
Скоростью и качеством синтеза. Это очевидно. Остальное знание стоит больших финансовых инвестиций, и я о них могу только догадываться.
Если вы просто юзер, не переживайте, "домашний" (медленный с небольшим понижением качества) TTS уровня Яндекса или Гугла стал не монополией этих компаний.
на статьях, в первую очередь технического уклада, Самохвалов может превращаться в Чувака, Левитана и тд.
Вот пример синтеза голосом alyss с тональностью neutral: "Ячейки соседних рядов по диагонали соединены между собою каналами, сквозь которые опять таки протянута тонкая витая серебряная проволока."
Начинает говорить женщина, а заканчивает мужчина. Эффект не повторяется, если взять тональность "good".
На ютюбе есть лекция одного из бывших сотрудников Яндекса для школьников, там ещё до презентации "Алисы" он мог делиться некоторыми подробностями, из которых следует, что есть "базовые" голоса, а есть промежуточные, полученные на смеси "базовых". Видимо "би-эффект" возникает из-за ошибочного "размешивания", когда в дадасет промежуточного голоса попадают не обработанные "базовые" голоса. Но это не точно :)
всё, что вам нужно для оф-лайн синтеза это скачать код, создать свой датасет (или использовать существующий, если он вас устраивает), натренировать (до натренировать) модель и всё.
Спасибо, но интересно было бы узнать подробности. Вы тренировали модели на своих датасетах? Выше был пример:
Если вы просто юзер, не переживайте, "домашний" (медленный с небольшим понижением качества) TTS уровня Яндекса или Гугла стал не монополией этих компаний.
Вы ставили себе полноценно рабочий синтез уровня Яндекса? Если да, прошу, подробности в студию!
На ютюбе есть лекция одного из бывших сотрудников Яндекса для школьников, там ещё до презентации "Алисы" он мог делиться некоторыми подробностями, из которых следует, что есть "базовые" голоса, а есть промежуточные, полученные на смеси "базовых". Видимо "би-эффект" возникает из-за ошибочного "размешивания", когда в дадасет промежуточного голоса попадают не обработанные "базовые" голоса. Но это не точно :)
Я детально протестировал все голоса, и ошибочное звучание было на большинстве из них, в том числе на "базовых". Разве только Ермил не косячил, но звучит он уж больно как граф Дракула после 200 пачек беломора.
Тот же Самохвалов, которого сейчас даже нет в списке голосов на оф. сайте, звучит обычно ровно, за исключением разве что иногда в статьях, вероятно там слишком разные паттерны текстов в разных статьях etc, впрочем это просто мое дилетантское предположение.
TTS уровня Яндекса или Гугла стал не монополией этих компаний
Это да, свой синтез уже почти у каждого утюга есть. Самсунг, Мелкософт, Амазон и тд. Но имхо с русским языком пока Яндекс впереди. Прослушал несколько книг и много других текстов. В сравнении, например, с Гуглом почти отлично.
Вот пример синтеза голосом alyss с тональностью neutral:
"Ячейки соседних рядов по диагонали соединены между собою каналами, сквозь которые опять таки протянута тонкая витая серебряная проволока."
Начинает говорить женщина, а заканчивает мужчина
Если заменить в тексте запятую на " -" или " /", то прочитает нормально.
Yandex TTS
Добавлено: 29 апр 2020 12:26
speeck
А если сделать так:
"Ячейки соседних рядов по диагонали соединены между собою каналами, сквозь которые, опять таки, протянута тонкая витая серебряная проволока."
То голос начинает меняться после "сквозь которые".
Кажется еще чуть-чуть, и мы разгадаем эти "особенности" нейросинтеза Яндекса
Yandex TTS
Добавлено: 29 апр 2020 13:01
speeck
Коллеги, если есть спецы по нейронкам, и отдельно по нейросинтезу, такие вот наблюдения "на подумать".
Голос Элис (alyss), Нейтральный. Для быстрой корректировки текста и прослушки: https://cloud.yandex.ru/services/speechkit.
Эталонная фраза:
Ячейки соседних рядов по диагонали соединены между собою каналами, сквозь которые опять таки протянута тонкая витая серебряная проволока.
Здесь только первое слово произносит Элис, затем её сразу перебивает мужчина.
Если в фразе изменить только первое слово, то Элис вовсе пропадает:
Кластеры соседних рядов по диагонали соединены между собою каналами, сквозь которые опять таки протянута тонкая витая серебряная проволока.
Если разбить фразу на 2 предложения, то все ок:
Ячейки соседних рядов по диагонали соединены между собою каналами. Сквозь которые опять таки протянута тонкая витая серебряная проволока.
Если чуть укоротить фразу, то ок:
Ячейки соседних рядов по диагонали соединены между собою каналами, сквозь которые есть серебряная проволока.
Если полностью изменить вторую часть предложения, то такая же ошибка, но мужчина появляется только во втором акте:
Ячейки соседних рядов по диагонали соединены между собою каналами, шла Саша по шоссе и сосала сушку.
или более длинный вариант:
Ячейки соседних рядов по диагонали соединены между собою каналами, шла Саша по шоссе и сосала сушку которую украла в магазине напротив дома своей любимой бабушки.
Но если тут еще более удлинить фразу, добавив имя бабушки, это все ок:
Ячейки соседних рядов по диагонали соединены между собою каналами, шла Саша по шоссе и сосала сушку которую украла в магазине напротив дома своей любимой бабушки Веры.
Можно продолжить эксперименты, и возможно это даст некоторое понимание.
Yandex TTS
Добавлено: 29 апр 2020 13:16
speeck
Потом, если заменить запятую на "/" (в сборке от tonio_k все запятые меняются на "/"), то 2 ошибочных варианта становятся нормально-звучащими:
Ячейки соседних рядов по диагонали соединены между собою каналами / сквозь которые опять таки протянута тонкая витая серебряная проволока.
Ячейки соседних рядов по диагонали соединены между собою каналами / шла Саша по шоссе и сосала сушку.
Но, вариант где первое слово заменено на "Кластеры", Элис также отсутствует, за неё говорит мужчина:
Кластеры соседних рядов по диагонали соединены между собою каналами / сквозь которые опять таки протянута тонкая витая серебряная проволока.
попробуйте поэкспериментировать в сторону замены всех знаков припенания на "/" кроме знака вопроса. Может полностью сломав признаки предложения будет использоваться только один голос по умолчанию?
попробуйте поэкспериментировать в сторону замены всех знаков припенания на "/" кроме знака вопроса. Может полностью сломав признаки предложения будет использоваться только один голос по умолчанию?
Не во всех случаях срабатывает. Здесь вместо Элис мужской голос:
Кластеры соседних рядов по диагонали соединены между собою каналами / сквозь которые опять таки протянута тонкая витая серебряная проволока.
Yandex TTS
Добавлено: 29 апр 2020 17:11
S-a-b
Попробуйте озвучить неитральной Алисой:
Кластеры соседних рядов по диагонали соединены между собою каналами.
- Кластеры соседних рядов по диагонали соединены между собою каналами.
- - Кластеры соседних рядов по диагонали соединены между собою каналами.
- - - Кластеры соседних рядов по диагонали соединены между собою каналами.
Попробуйте озвучить неитральной Алисой:
Кластеры соседних рядов по диагонали соединены между собою каналами.
- Кластеры соседних рядов по диагонали соединены между собою каналами.
- - Кластеры соседних рядов по диагонали соединены между собою каналами.
- - - Кластеры соседних рядов по диагонали соединены между собою каналами.
Если тире заменить на слеши (любые) будет также.
Более того, если поставить любой читаемый единичный символ вначале, то произносит Элис. Например @, #, $ и тп. Кстати, знак + также, только он еще меняет ударение в первом слове.
Интересно, в Яндексе знают такие "особенности"? Вполне вероятно их модель оценки качества в основном автоматическая, то есть нейросеть сама оценивает качество своей работы (после первичных человеческих оценок), и такие "артефакты" ей не очевидны.
В целом очень занятное наблюдение, пригодится для последующего синтеза и корректировки словарей.
Могу ошибаться, но Элис и Алиса это разные голоса.
Детально тестировал Элис, и это вообще один из самых "ошибковатых" голосов, постоянная смена на Чувака и других.
Насчет Алисы не вспомню, но сейчас её нет в списке официальных языков тут: https://cloud.yandex.ru/services/speechkit, протестировать не получится. Хотя можно попробовать подобрать (прописать) вручную
Yandex TTS
Добавлено: 30 апр 2020 20:13
Nxtpr
Конечно Элис, а не Алиса. А на счет качества... и знает ли Яндекс... Должны же премиум голоса чем-то отличаться от обычных, а тем более бесплатных.
Иначе кто ж платить будет?
Должны же премиум голоса чем-то отличаться от обычных, а тем более бесплатных.
Ну зачем вы пишете о том, чего не знаете? Вы тестировали премиум и не премиум? Сравнивали их?
В премиум ровно те же самые косяки.
Со временем возможно они их дообучат особо. А возможно и вовсе сделают бесплатными, ибо платный синтез ради синтеза это уже почти зашквар, другое дело когда синтез используется в купе с чем-то, в данном случае это облачная инфраструктура Яндекса.
Личное мнение.
Бесплатный Яндекс просто так не доступен, в объёме книги и более - только через ключ (мне известно 2 рабочих - достаточно).
За счёт активных пользователей (конфетка в виде дармовых ключей изначально + см. выше)...
>>
Я прослушиваю предварительно до 1 встречаемого слова - закидываю на сервис с проставленным ударением+ те что добавились в процессе прослушки...
выбрать это, проанализировать и в платный сервис..
Просто не представляю другой вариант для правильного произношения всех граней Великого и Могучего...
ПЫ Сы
И как только новые поступления (слова с не правильным произношением) перестанут поступать конфетка закончится... ещё раз напомню ИМХО
Не правда, бесплатный синтез Яндекса доступен как минимум в их браузере. Слушай любые статьи сколько угодно раз, да хоть книги, сделав тупо надстройку над браузером (пусть плагин), либо даже залив части книг на сайт-буфер и отдав браузеру как обычную статью. Прошу прощения за неаккуратное деление на "статья/книга", это условно, т.к. все это является информацией, и часто статья может не уступать по размером небольшой книжке.
Яндекс это инфраструктура, вполне вероятно, что они сделают свой синтез бесплатным, по меньшей мере базовые голоса, при условии, что ты будешь пользоваться в целом их продуктами. Как тот же Яндекс браузер.
Пользователь Эхо выше писал про другие разработки синтезов, полностью согласен. Сам по себе более-менее качественный синтез даже уже сейчас не является чем-то уникальным и мега сложным (дорогим), а лет через 5-10 скорее всего вовсе станет мейнстримом, своего рода базовой вещью, как окна в Виндовс, просто один из компонентов системы.
Где-то здесь на форуме, кажется, встречалась ссылка, там нейросеть обучили читать тексты голосами Обамы, Цукерберга и других известных людей. Качество уже на том этапе было очень достойное, а ведь модель можно дообучать бесконечно.
Уверен, через некоторое время мы будем синтезировать тексты плюс-минус любыми голосами (при наличии базы для обучения), где, например, книги Акунина будет читать "сам" Акунин-Чхартишвиили, а Полное собрание Ленина сам Ильич (его голосовых семплов не много, но возможно их достаточно, ведь Яндекс как-то смог воссоздать Левитана). Мы же, простые юзеры, будем платить за удобство получения такой информации, но не за сам синтез, как один из механизмов её укомплектации.
П.С. возможно немного замечтался, прошу прощения на всякий случай
Yandex TTS
Добавлено: 13 май 2020 07:54
mars308
Киньте для скачивания голос диктора valtz плиииз
У кого есть?
Yandex TTS
Добавлено: 01 июн 2020 09:24
S-a-b
Пример замены всех знаков препинания и переноса строк в тексте на паузы (на разное кол-во слэшей)
текст:
Пример замены всех знаков препинания и переноса строк в тексте на паузы (на разное кол-во слэшей)
текст
Интересный эксперимент, метаморфоз меньше, но слушается хуже.
Попробуйте Оксану, она стабильнее. Если выбирать женский голос.
Сейчас прослушал на Оксане - без метаморфоз. Правда сам текст какой-то сумасброд. Что это, правда писатель писал? Какой-то набор малосвязных событий.
Yandex TTS
Добавлено: 01 июн 2020 14:16
S-a-b
speeck,
Это начало книги и цикла. Рекомендю. Есть в исполнении Коршунова. Мне очень нравится.
Это начало книги и цикла. Рекомендю. Есть в исполнении Коршунова. Мне очень нравится.
Понятно. Имхо для экспериментов с озвучкой не самый лучший отрывок, т.к. текст относительно сумасбродный, что усложняет оценку качества произношения.
Мне даже пользовательское соглашение от Мелкософт показалось лучше написанным
Хотя там писари те еще, похоже там им платят за кол-во буков.
Yandex TTS
Добавлено: 18 июн 2020 01:04
ExpertLove
Доброго времени суток!
Мне понадобилось недавно озвучить около 70 млн. знаков текста.
Естественно хотелось это сделать на Plya_5 и бесплатно.
Естественно ключ разработчиков достать оказалось не так просто.
Уже хотел отдать денежку платному сервису Яндекса, и тут вспомнил про сайты, которые бесплатно озвучивают на основе yandex tts.
Оказываются они с удовольствием пользуются ключами разработчиков, так что страждущие как я могут в будущем легко найти ключ в коде страниц этих сайтов (как и я).
Всем добра!
У них эта подсказка давно описана в рекомендациях по использованию голосов.
Там ниже я указал еще более длинный пример, без точки:
Но если тут еще более удлинить фразу, добавив имя бабушки, то все ок:
"Ячейки соседних рядов по диагонали соединены между собою каналами, шла Саша по шоссе и сосала сушку которую украла в магазине напротив дома своей любимой бабушки Веры".
В таком случае произношение не меняется, читает один голос.
Кстати сказать, мое сообщение здесь же, возможно я был не прав, насчет одинаковых косяков в обычных и премиум голосах.
Послушал чтение в Яндекс браузере, там диктор читает совсем иначе, чем обычные голоса.
Сам Яндекс пишет, что Премиум используют "новую технологию для синтеза речи.... речь, синтезированная по новой технологии звучит естественнее".
Еще такой момент, согласно справке Яндекса:
► Показать
Эмоциональная окраска — поддерживается только при выборе русского языка (ru-RU) и голосов jane или omazh. Не используйте этот параметр с другими голосами и языками, так как при синтезе отдельных фраз голос может отличаться от ожидаемого.
Для этих голосов нейронная сеть обучалась на трех разных датасетах с репликами диктора, в которых фразы произносились с разной интонацией: радостной, раздраженной, нейтральной. Развивать поддержку эмоций для других голосов сейчас не планируется, а в премиум-голосах выбор подходящей интонации осуществляется автоматически
Честно, не знал, притом, что на всех обычных голосах интонация таки меняется, не только для jane или omazh.
Но, нужно заметить, смена голоса может происходить вообще на всех голосах (не считая премиум), не зависимо от выбора интонации.