Yandex TTS
- SZ-Vtk
- Обыватель
Yandex TTS
ACrow (sz) v.5.2 - чтение книг голосами Яндекса (Андроид)
- упрощение команд словаря (нововведения не оправдались)
- значительное увеличение скорости генерации при больших словарях
- небольшие исправления и улучшения
- возможность работы в Windows под эмулятором YouWave (быстрый, нетребовательный, бесплатный) с сохранением состояния книг между сессиями.
- упрощение команд словаря (нововведения не оправдались)
- значительное увеличение скорости генерации при больших словарях
- небольшие исправления и улучшения
- возможность работы в Windows под эмулятором YouWave (быстрый, нетребовательный, бесплатный) с сохранением состояния книг между сессиями.
- wasyaka
- V.I.P.
Yandex TTS
Жаль, попал в тупик
► Показать
► Показать
игорич=+игорич
► Показать
► Показать
Может кто подскажет, что это за "зверь" - неизвестный числовой показатель
И как с ним боротся...
Я понимаю, что словарь zam работает по принципу меняем пока меняется - соответственно на выходе веороятно и неизвестный числовой показатель - побороть можно или это тупик и "идти другим путём"?
PS изменён только словарь zam
- S-a-b
- Обыватель
- SZ-Vtk
- Обыватель
- SZ-Vtk
- Обыватель
Yandex TTS
CROWPACK (sz) v.1.0
Программа CrowPack (Windows) предназначена для группового сжатия MP3-аудиокниг. Для файлов "от Яндекса" сжатие от 2 до 12 раз. Изменяется битрейт всех MP3-файлов, находящихся в директории и поддиректориях программы
Программа CrowPack (Windows) предназначена для группового сжатия MP3-аудиокниг. Для файлов "от Яндекса" сжатие от 2 до 12 раз. Изменяется битрейт всех MP3-файлов, находящихся в директории и поддиректориях программы
- ПетрФомин
- Интересующийся
Yandex TTS
Лучше бы сделали кодирование сразу в vorbis или avc в малый битрейт 48 или 64
Ужимать мп3 такое себе занятие...
Ужимать мп3 такое себе занятие...
- SZ-Vtk
- Обыватель
Yandex TTS
1) vorbis при равном битрейте на четверть или даже треть короче MP3, но его нет на старых смартфонах, а работать всё должно везде
2) MP3 с битрейтом 32 прекрасно звучит, и короче исходного файла от Яндекса в три раза
2) MP3 с битрейтом 32 прекрасно звучит, и короче исходного файла от Яндекса в три раза
- Vadim
- Наблюдатель
- SZ-Vtk
- Обыватель
- Эхо
- Постоялец
Yandex TTS
Не всё так однозначно. Функционал браузера Яндекс Бета уже сейчас эквивалентен халяве с известным ключом разработчика Яндекса, видимо по этому и не прикрывают лавочку т.к. это стимулирует заинтересованных хакнуть Яндекс Бета, сделав из него бэк-енд TTS.
Я недавно заглянул на Гит хаб, там полно опен-сорсных реализаций нейросинтеза от Такатрона до ВайвНет, а на хабре ещё в прошлом году появились статьи, как ребята из разных более мелких контор типа ЦРТ опробовали эти опен-сорсные реализации нейросинтеза.
Вершина конечно Vera Voice Бекмамбетова с их голосом Высоцкого, но там и инвестиции миллионные в $. Если попроще, то это голос Олег от Тинькоффа, но главное другое, у монстров типа Гугла или Яндекса уже нет монополии на отличный и хороший синтез речи.
Я тоже провел кое какие эксперименты с нейросинтезом, результат:
а) синтетические голоса Яндекса типа Захара или Джейн воспроизводятся для офф-лайна на 4+ (и это без всяких усилий, т.е. опен-сорсными инструментами с Гит хаба)
б) с живыми человеческими голосами пока не всё хорошо, но тут я один в поле не воин.
- tonio_k
- V.I.P.
- Nxtpr
- Постоялец
- Sylvia
- Постоялец
Yandex TTS
Подскажите, пожалуйста, какой из Яндекс-голосов (кроме Захара и Ермила) не меняет тон? Нравятся Костя, Женя, но они периодически меняют пол и проявляют эмоции, хотя в настройках стоит "эмоции-нейтральные". Особенно Костя непостоянен
- skreb
- Интересующийся
Yandex TTS
После того, как обнаружил "непостоянство" голоса у Кости, выбрал голос Самохвалов. Он не меняется на протяжении всей книги. Сразу, он мне показался как то не очень, но потом понравился
- Эхо
- Постоялец
Yandex TTS
Да.
Это всё случилось ~ года 2 назад, когда https://github.com/Kyubyong выложил опен-сорсные решения, воспроизводящие по статьям лидеров. Но там нюансы, это не промышленные решения TTS т.к. они слишком ресурсоёмки.
- Эхо
- Постоялец
Yandex TTS
Как-то так: https://drive.google.com/open?id=1Cwmo0 ... qRSQobIQIL но тренировал сеть без фанатизма :)
Примерные возможности открытых решений можно оценить тут: https://github.com/Kyubyong/css10
-
- Обыватель
Yandex TTS
Вы хотите сказать, можно писать книги на синтезе от Яндекса без подключения к интернету?
Покажите решение пожалуйста. По той ссылке, что вы дали профиль какого-то корейского студента-лингвиста.
-
- Обыватель
Yandex TTS
Год назад тестировал все голоса, остановился на Самохвалове и Оксане. Книги с ними пишутся в основном без перепадов эго, и немаловажно - звучат хорошо.
Но недавно заметил, что на статьях, в первую очередь технического уклада, Самохвалов может превращаться в Чувака, Левитана и тд.
Еще прослушал пару книг на Erkanyavas, тоже понравился голос, но затем другую книгу он озвучил крайне плохо, почему-то читал в тандеме с Чуваком.
-
- Обыватель
Yandex TTS
Можете тыкнуть пальцем в решение? И чем промышленные решения отличаются от не промышленных? Если мы говорим о Яндексе. Кроме учета высокой нагрузки серверов сам синтез не может отличаться, язык ведь общий, модель обучения одна. Или про что вы вообще говорите? Уточните плз, а то пока один сумбур.Эхо писал(а): ↑12 апр 2020 16:42Это всё случилось ~ года 2 назад, когда https://github.com/Kyubyong выложил опен-сорсные решения, воспроизводящие по статьям лидеров. Но там нюансы, это не промышленные решения TTS т.к. они слишком ресурсоёмки.
- Эхо
- Постоялец
Yandex TTS
ничего страшного, просто вы пока юзер, если приложите чуть больше усилий, то став продвинутым юзером, поймете написанное выше
на пальцах: https://github.com/Kyubyong/css10
тут дан:
а) код
б) датасет
в) натренированные модели, в том числе и для русского языка
г) примеры с результатами
всё, что вам нужно для оф-лайн синтеза это скачать код, создать свой датасет (или использовать существующий, если он вас устраивает), натренировать (до натренировать) модель и всё.
Скоростью и качеством синтеза. Это очевидно. Остальное знание стоит больших финансовых инвестиций, и я о них могу только догадываться.
Если вы просто юзер, не переживайте, "домашний" (медленный с небольшим понижением качества) TTS уровня Яндекса или Гугла стал не монополией этих компаний.
- Эхо
- Постоялец
Yandex TTS
Вот пример синтеза голосом alyss с тональностью neutral:
"Ячейки соседних рядов по диагонали соединены между собою каналами, сквозь которые опять таки протянута тонкая витая серебряная проволока."
Начинает говорить женщина, а заканчивает мужчина. Эффект не повторяется, если взять тональность "good".
"би-эффект" для alyss повторяется и на https://tts.voicetech.yandex.net, и на https://cloud.yandex.ru/services/speechkit#demo
На ютюбе есть лекция одного из бывших сотрудников Яндекса для школьников, там ещё до презентации "Алисы" он мог делиться некоторыми подробностями, из которых следует, что есть "базовые" голоса, а есть промежуточные, полученные на смеси "базовых". Видимо "би-эффект" возникает из-за ошибочного "размешивания", когда в дадасет промежуточного голоса попадают не обработанные "базовые" голоса. Но это не точно :)
-
- Обыватель
Yandex TTS
Спасибо, но интересно было бы узнать подробности. Вы тренировали модели на своих датасетах? Выше был пример:
звучание там так себе, явно сырой синтез.
Вы ставили себе полноценно рабочий синтез уровня Яндекса? Если да, прошу, подробности в студию!
-
- Обыватель
Yandex TTS
Я детально протестировал все голоса, и ошибочное звучание было на большинстве из них, в том числе на "базовых". Разве только Ермил не косячил, но звучит он уж больно как граф Дракула после 200 пачек беломора.Эхо писал(а): ↑14 апр 2020 17:22На ютюбе есть лекция одного из бывших сотрудников Яндекса для школьников, там ещё до презентации "Алисы" он мог делиться некоторыми подробностями, из которых следует, что есть "базовые" голоса, а есть промежуточные, полученные на смеси "базовых". Видимо "би-эффект" возникает из-за ошибочного "размешивания", когда в дадасет промежуточного голоса попадают не обработанные "базовые" голоса. Но это не точно :)
Тот же Самохвалов, которого сейчас даже нет в списке голосов на оф. сайте, звучит обычно ровно, за исключением разве что иногда в статьях, вероятно там слишком разные паттерны текстов в разных статьях etc, впрочем это просто мое дилетантское предположение.
-
- Обыватель
Yandex TTS
Это да, свой синтез уже почти у каждого утюга есть. Самсунг, Мелкософт, Амазон и тд. Но имхо с русским языком пока Яндекс впереди. Прослушал несколько книг и много других текстов. В сравнении, например, с Гуглом почти отлично.
- S-a-b
- Обыватель
Yandex TTS
Если заменить в тексте запятую на " -" или " /", то прочитает нормально.
- Вложения
-
- Yandex_tmp.wav
- (926.76 КБ) 165 скачиваний
-
- Обыватель
Yandex TTS
А если сделать так:
Кажется еще чуть-чуть, и мы разгадаем эти "особенности" нейросинтеза Яндекса
То голос начинает меняться после "сквозь которые"."Ячейки соседних рядов по диагонали соединены между собою каналами, сквозь которые, опять таки, протянута тонкая витая серебряная проволока."
Кажется еще чуть-чуть, и мы разгадаем эти "особенности" нейросинтеза Яндекса
-
- Обыватель
Yandex TTS
Коллеги, если есть спецы по нейронкам, и отдельно по нейросинтезу, такие вот наблюдения "на подумать".
Голос Элис (alyss), Нейтральный. Для быстрой корректировки текста и прослушки:
https://cloud.yandex.ru/services/speechkit.
Эталонная фраза:
Если в фразе изменить только первое слово, то Элис вовсе пропадает:
Голос Элис (alyss), Нейтральный. Для быстрой корректировки текста и прослушки:
https://cloud.yandex.ru/services/speechkit.
Эталонная фраза:
Здесь только первое слово произносит Элис, затем её сразу перебивает мужчина.Ячейки соседних рядов по диагонали соединены между собою каналами, сквозь которые опять таки протянута тонкая витая серебряная проволока.
Если в фразе изменить только первое слово, то Элис вовсе пропадает:
Если разбить фразу на 2 предложения, то все ок:Кластеры соседних рядов по диагонали соединены между собою каналами, сквозь которые опять таки протянута тонкая витая серебряная проволока.
Если чуть укоротить фразу, то ок:Ячейки соседних рядов по диагонали соединены между собою каналами. Сквозь которые опять таки протянута тонкая витая серебряная проволока.
Если полностью изменить вторую часть предложения, то такая же ошибка, но мужчина появляется только во втором акте:Ячейки соседних рядов по диагонали соединены между собою каналами, сквозь которые есть серебряная проволока.
или более длинный вариант:Ячейки соседних рядов по диагонали соединены между собою каналами, шла Саша по шоссе и сосала сушку.
Но если тут еще более удлинить фразу, добавив имя бабушки, это все ок:Ячейки соседних рядов по диагонали соединены между собою каналами, шла Саша по шоссе и сосала сушку которую украла в магазине напротив дома своей любимой бабушки.
Можно продолжить эксперименты, и возможно это даст некоторое понимание.Ячейки соседних рядов по диагонали соединены между собою каналами, шла Саша по шоссе и сосала сушку которую украла в магазине напротив дома своей любимой бабушки Веры.
-
- Обыватель
Yandex TTS
Потом, если заменить запятую на "/" (в сборке от tonio_k все запятые меняются на "/"), то 2 ошибочных варианта становятся нормально-звучащими:
Ячейки соседних рядов по диагонали соединены между собою каналами / сквозь которые опять таки протянута тонкая витая серебряная проволока.
Но, вариант где первое слово заменено на "Кластеры", Элис также отсутствует, за неё говорит мужчина:Ячейки соседних рядов по диагонали соединены между собою каналами / шла Саша по шоссе и сосала сушку.
Кластеры соседних рядов по диагонали соединены между собою каналами / сквозь которые опять таки протянута тонкая витая серебряная проволока.
- tonio_k
- V.I.P.
Yandex TTS
попробуйте поэкспериментировать в сторону замены всех знаков припенания на "/" кроме знака вопроса. Может полностью сломав признаки предложения будет использоваться только один голос по умолчанию?
-
- Обыватель
Yandex TTS
Не во всех случаях срабатывает. Здесь вместо Элис мужской голос:
Кластеры соседних рядов по диагонали соединены между собою каналами / сквозь которые опять таки протянута тонкая витая серебряная проволока.
- S-a-b
- Обыватель
Yandex TTS
Попробуйте озвучить неитральной Алисой:
Кластеры соседних рядов по диагонали соединены между собою каналами.
- Кластеры соседних рядов по диагонали соединены между собою каналами.
- - Кластеры соседних рядов по диагонали соединены между собою каналами.
- - - Кластеры соседних рядов по диагонали соединены между собою каналами.
Кластеры соседних рядов по диагонали соединены между собою каналами.
- Кластеры соседних рядов по диагонали соединены между собою каналами.
- - Кластеры соседних рядов по диагонали соединены между собою каналами.
- - - Кластеры соседних рядов по диагонали соединены между собою каналами.
-
- Обыватель
Yandex TTS
Если тире заменить на слеши (любые) будет также.S-a-b писал(а): ↑29 апр 2020 17:11Попробуйте озвучить неитральной Алисой:
Кластеры соседних рядов по диагонали соединены между собою каналами.
- Кластеры соседних рядов по диагонали соединены между собою каналами.
- - Кластеры соседних рядов по диагонали соединены между собою каналами.
- - - Кластеры соседних рядов по диагонали соединены между собою каналами.
Более того, если поставить любой читаемый единичный символ вначале, то произносит Элис. Например @, #, $ и тп. Кстати, знак + также, только он еще меняет ударение в первом слове.
Интересно, в Яндексе знают такие "особенности"? Вполне вероятно их модель оценки качества в основном автоматическая, то есть нейросеть сама оценивает качество своей работы (после первичных человеческих оценок), и такие "артефакты" ей не очевидны.
В целом очень занятное наблюдение, пригодится для последующего синтеза и корректировки словарей.
-
- Обыватель
Yandex TTS
Могу ошибаться, но Элис и Алиса это разные голоса.
Детально тестировал Элис, и это вообще один из самых "ошибковатых" голосов, постоянная смена на Чувака и других.
Насчет Алисы не вспомню, но сейчас её нет в списке официальных языков тут:
https://cloud.yandex.ru/services/speechkit, протестировать не получится. Хотя можно попробовать подобрать (прописать) вручную
- Nxtpr
- Постоялец
Yandex TTS
Конечно Элис, а не Алиса. А на счет качества... и знает ли Яндекс... Должны же премиум голоса чем-то отличаться от обычных, а тем более бесплатных.
Иначе кто ж платить будет?
Иначе кто ж платить будет?
-
- Обыватель
Yandex TTS
Ну зачем вы пишете о том, чего не знаете? Вы тестировали премиум и не премиум? Сравнивали их?
В премиум ровно те же самые косяки.
Со временем возможно они их дообучат особо. А возможно и вовсе сделают бесплатными, ибо платный синтез ради синтеза это уже почти зашквар, другое дело когда синтез используется в купе с чем-то, в данном случае это облачная инфраструктура Яндекса.
- wasyaka
- V.I.P.
Yandex TTS
Личное мнение.
Бесплатный Яндекс просто так не доступен, в объёме книги и более - только через ключ (мне известно 2 рабочих - достаточно).
За счёт активных пользователей (конфетка в виде дармовых ключей изначально + см. выше)...
>>
Я прослушиваю предварительно до 1 встречаемого слова - закидываю на сервис с проставленным ударением + те что добавились в процессе прослушки...
выбрать это, проанализировать и в платный сервис..
Просто не представляю другой вариант для правильного произношения всех граней Великого и Могучего...
ПЫ Сы
И как только новые поступления (слова с не правильным произношением) перестанут поступать конфетка закончится... ещё раз напомню ИМХО
-
- Обыватель
Yandex TTS
Не правда, бесплатный синтез Яндекса доступен как минимум в их браузере. Слушай любые статьи сколько угодно раз, да хоть книги, сделав тупо надстройку над браузером (пусть плагин), либо даже залив части книг на сайт-буфер и отдав браузеру как обычную статью. Прошу прощения за неаккуратное деление на "статья/книга", это условно, т.к. все это является информацией, и часто статья может не уступать по размером небольшой книжке.
Яндекс это инфраструктура, вполне вероятно, что они сделают свой синтез бесплатным, по меньшей мере базовые голоса, при условии, что ты будешь пользоваться в целом их продуктами. Как тот же Яндекс браузер.
Пользователь Эхо выше писал про другие разработки синтезов, полностью согласен. Сам по себе более-менее качественный синтез даже уже сейчас не является чем-то уникальным и мега сложным (дорогим), а лет через 5-10 скорее всего вовсе станет мейнстримом, своего рода базовой вещью, как окна в Виндовс, просто один из компонентов системы.
Где-то здесь на форуме, кажется, встречалась ссылка, там нейросеть обучили читать тексты голосами Обамы, Цукерберга и других известных людей. Качество уже на том этапе было очень достойное, а ведь модель можно дообучать бесконечно.
Уверен, через некоторое время мы будем синтезировать тексты плюс-минус любыми голосами (при наличии базы для обучения), где, например, книги Акунина будет читать "сам" Акунин-Чхартишвиили, а Полное собрание Ленина сам Ильич (его голосовых семплов не много, но возможно их достаточно, ведь Яндекс как-то смог воссоздать Левитана). Мы же, простые юзеры, будем платить за удобство получения такой информации, но не за сам синтез, как один из механизмов её укомплектации.
П.С. возможно немного замечтался, прошу прощения на всякий случай
- mars308
- Прохожий
- S-a-b
- Обыватель
Yandex TTS
Пример замены всех знаков препинания и переноса строк в тексте на паузы (на разное кол-во слэшей)
текст: до замены: после замены:
текст: до замены: после замены:
-
- Обыватель
Yandex TTS
Интересный эксперимент, метаморфоз меньше, но слушается хуже.
Попробуйте Оксану, она стабильнее. Если выбирать женский голос.
Сейчас прослушал на Оксане - без метаморфоз. Правда сам текст какой-то сумасброд. Что это, правда писатель писал? Какой-то набор малосвязных событий.
- S-a-b
- Обыватель
Yandex TTS
speeck,
Это начало книги и цикла. Рекомендю. Есть в исполнении Коршунова. Мне очень нравится.
Это начало книги и цикла. Рекомендю. Есть в исполнении Коршунова. Мне очень нравится.
-
- Обыватель
Yandex TTS
Понятно. Имхо для экспериментов с озвучкой не самый лучший отрывок, т.к. текст относительно сумасбродный, что усложняет оценку качества произношения.
Мне даже пользовательское соглашение от Мелкософт показалось лучше написанным
Хотя там писари те еще, похоже там им платят за кол-во буков.
- ExpertLove
- Прохожий
Yandex TTS
Доброго времени суток!
Мне понадобилось недавно озвучить около 70 млн. знаков текста.
Естественно хотелось это сделать на Plya_5 и бесплатно.
Естественно ключ разработчиков достать оказалось не так просто.
Уже хотел отдать денежку платному сервису Яндекса, и тут вспомнил про сайты, которые бесплатно озвучивают на основе yandex tts.
Оказываются они с удовольствием пользуются ключами разработчиков, так что страждущие как я могут в будущем легко найти ключ в коде страниц этих сайтов (как и я).
Всем добра!
Мне понадобилось недавно озвучить около 70 млн. знаков текста.
Естественно хотелось это сделать на Plya_5 и бесплатно.
Естественно ключ разработчиков достать оказалось не так просто.
Уже хотел отдать денежку платному сервису Яндекса, и тут вспомнил про сайты, которые бесплатно озвучивают на основе yandex tts.
Оказываются они с удовольствием пользуются ключами разработчиков, так что страждущие как я могут в будущем легко найти ключ в коде страниц этих сайтов (как и я).
Всем добра!
- tonio_k
- V.I.P.
Yandex TTS
Всего одну страницу назад тут же было.ExpertLove писал(а): ↑18 июн 2020 01:04так что страждущие как я могут в будущем легко найти ключ в коде страниц этих сайтов (как и я).
альтернативный способ со словарямиЕстественно хотелось это сделать на Plya_5 и бесплатно.
- speech
- Обыватель
- speech
- Обыватель
- speech
- Обыватель
-
- Обыватель
- speech
- Обыватель
Yandex TTS
В самом, в каком же еще. )
У них эта подсказка давно описана в рекомендациях по использованию голосов.
-
- Обыватель
Yandex TTS
Там ниже я указал еще более длинный пример, без точки:
В таком случае произношение не меняется, читает один голос.Но если тут еще более удлинить фразу, добавив имя бабушки, то все ок:
"Ячейки соседних рядов по диагонали соединены между собою каналами, шла Саша по шоссе и сосала сушку которую украла в магазине напротив дома своей любимой бабушки Веры".
Кстати сказать, мое сообщение здесь же, возможно я был не прав, насчет одинаковых косяков в обычных и премиум голосах.
Послушал чтение в Яндекс браузере, там диктор читает совсем иначе, чем обычные голоса.
Сам Яндекс пишет, что Премиум используют "новую технологию для синтеза речи.... речь, синтезированная по новой технологии звучит естественнее".
Еще такой момент, согласно справке Яндекса:
► Показать
Но, нужно заметить, смена голоса может происходить вообще на всех голосах (не считая премиум), не зависимо от выбора интонации.