MyTTS

В рамках проекта Common Voice Mozilla выпустила открытый датасет из записей человеческой речи на 18 языках, в том числе на немецком, французском, китайском и испанском. Общая длительность записей превышает 1300 часов. Компания планирует использовать набор данных в своих движках и предоставляет его всем желающим.

https://voice.mozilla.org/en/datasets

Что восхитило, так это при выборе языка нет русского, зато есть чувашский!

► Показать

Вот даже не знаю что это значит и какова история такого решения

Русский язык тоже планируется... позже.

► Показать

Интересно, когда программа сама сможет готовить себе датасет? Указываем папку аудиокниги, указываем ее текстовый файл, жмем кнопку "Создать голос", а программа сама, по анализу пауз и темпа навязываемого знаками препинания, привязывает одно к другому и формирует датасет. И вот мы, промозглым весенним вечером, сидя у камина с бокалом пунша в руке, слушаем книгу, озвученную голосом известного исторического персонажа или любимого артиста.
Да, я знаю, что новость про наборы для тренировки распознавания, но мечтать-то не вредно.

Отправлено спустя 16 часов 40 минут 13 секунд:
Понравились комменты на opennet.
Что не так с речью в Мозилле

► Показать

Common Voice:

1) собираются голоса молодых людей мужского пола 20-30 лет, нет женских, детских, нет голосов старшего возраста.
2) тексты для записи ограничены тысячей предложений, нет вариативности словаря, в дальнейшем будут трудности со словами.
3) записи распространяются в mp3, что вносит искажения в голосовой сигнал. Оригиналы не дают, видимо, не хотят конкуренции.
4) традиционно вместо того, чтобы развивать существующий проект (voxforge) запилили свой.
5) проверка записей делается вручную, хотя может делаться автоматическими средствами.
6) сейчас таких данных можно просто накачать с youtube за пару часов в 10 раз больше, чем они собрали за год для всех языков.

DeepSpeech

1) взяли чужую технологию от Baidu
2) за пару лет ничего не сделали, даже не добились нормальной точности, точность гораздо хуже передовых результатов.
3) зато кричат о себе на всех углах, получили европейский грант
4) когда стало поджимать, скопировали втихушку чужую библиотеку libctcdecode, не упомянув автора, выкинув весь свой предыдущий код
5) декодер всё ещё требует 4гб памяти, работает очень медленно
7) в коммитах бесконечно переделывают справку и конфигурационные файлы, ни одного реального улучшения. ну ещё обертки для языков пишут
8) модели не может натренировать простой любитель, нужен суперкомпьютер с 8 GPU

В итоге этот проект недалеко ушёл от предыдущего (мобильной ОС)

Ну и по синтезу (mozilla/TTS)

► Показать

Развитие TTS технологий вне проприетарных сервисов, таки продолжается.
Open Source синтез речи SOVA / Хабр.
В комментариях утверждается, что качество даже получше Google TTS. Шанс на появление современных десктопных движков еще немного вырос.

MyTTS

Новости

Новости

Новости

Новости

Новости

Новости