Страница 1 из 1

Новости

Добавлено: 01 мар 2019 11:04
good_cat
В рамках проекта Common Voice Mozilla выпустила открытый датасет из записей человеческой речи на 18 языках, в том числе на немецком, французском, китайском и испанском. Общая длительность записей превышает 1300 часов. Компания планирует использовать набор данных в своих движках и предоставляет его всем желающим.

https://voice.mozilla.org/en/datasets

Новости

Добавлено: 01 мар 2019 11:27
tonio_k
Что восхитило, так это при выборе языка нет русского, зато есть чувашский! :hi:
► Показать
Вот даже не знаю что это значит и какова история такого решения :suspect:

Новости

Добавлено: 01 мар 2019 13:14
good_cat
Русский язык тоже планируется... позже.
► Показать

Новости

Добавлено: 01 мар 2019 17:04
Lecron
Интересно, когда программа сама сможет готовить себе датасет? Указываем папку аудиокниги, указываем ее текстовый файл, жмем кнопку "Создать голос", а программа сама, по анализу пауз и темпа навязываемого знаками препинания, привязывает одно к другому и формирует датасет. И вот мы, промозглым весенним вечером, сидя у камина с бокалом пунша в руке, слушаем книгу, озвученную голосом известного исторического персонажа или любимого артиста.
Да, я знаю, что новость про наборы для тренировки распознавания, но мечтать-то не вредно.


Отправлено спустя 16 часов 40 минут 13 секунд:
Понравились комменты на opennet.
Что не так с речью в Мозилле
► Показать
Ну и по синтезу (mozilla/TTS)
► Показать

Новости

Добавлено: 02 дек 2020 11:13
Lecron
Развитие TTS технологий вне проприетарных сервисов, таки продолжается.
Open Source синтез речи SOVA / Хабр.
В комментариях утверждается, что качество даже получше Google TTS. Шанс на появление современных десктопных движков еще немного вырос.