Женский голосовой движок, который получил название Алёна разработанный компанией Acapela. Работает на SAPI5SAPI4 с частотой 22 КГц, по качеству синтезируемой речи Алёна опережает аналогичные русские голоса, имея намного приятнее тембр голоса и интонацию.
Голос имеет поддержку SAPI4 и SAPI5 стандартные программные интерфейсы, и совместим со множеством речевых приложений для чтения с экрана и т.п. В наличии имеется полный набор инструментов для контроля параметров голоса таких как: скорость чтения, громкость, высота, паузы, настройки эквалайзера и режима чтения (чтение фразы, чтение отдельных слов и посимвольное чтение).
Вместе с движком поставляются:
Voice Manager - редактор голоса с помощью которого легко создавать пользовательские голоса с любимыми настройками;
Lexicon Manager - редактор словарей, который позволяет изменять произношение слов как буквенно, так и фонетически;
KeySpeaker - приложение для чтения набираемого текста или текста из буфера обмена в реальном масштабе времени;
SpeechPad - приложение для чтения текстовых файлов, поддерживающий SAPI4 теги.
Технические требования:
OS: Windows XP, Windows Vista и Windows 7, 8, 10
Оборудование: Pentium II 350 MHz, 128 MB RAM, от 100MB до 300MB места на жестком диске.
Для работы на Windows 8 и выше, скопируйте с заменой файл acattssapi5.dll в папку C:\Program Files\Acapela Group\Infovox Desktop 2.2.
Установка:
InfovoxDesktop2.220Engine
Russian_ID2220.exe - голос Алёны
IDSP_203 - патч голосового движка
с помощью генератора лицензий создайте лицензию, при этом появится лицензионный файл Infovox.lic
запустите License Manager:
C:\Program Files\Acapela Group\Infovox Desktop 2.2 файл BabLicMan.exe
или
Пуск\все программы\Acapela Group файл License Manager
нажмите "импортировать лицензию" и укажите файл Infovox.lic.
Ошибка установки: Error Number: 0x80040702
Description: Failed to Load DLL: Aca Tts Sapi4.
Setup will now terminate. (Номер ошибки: 0x80040702
Описание: Не удалось загрузить библиотеку DLL: Aca TTS SAPI4.
Установка будет завершена.)
и Ошибка синтезирования речи: OLE error 80045001
Ошибки связаны с неполным удалением записей из реестра при деинсталлировании предыдущих версий голосового движка. Для устранения ошибок удалите все записи с Infovox и Acapela из реестра и затем повторите установку снова.
Для автоматической очистки реестра от данных записей можете запустить батник delete.bat или импортировать файл реестра speech.reg
Инструкции в архиве. Пароль на архив: mytts
Помните, что файлы создавались в 08-10гг. для ХР\Висты - на новых ОС не проверялись!
Ошибка импорта лицензии: The file cannot be added to the License Manager. (-32)
The file cannot be added to the Licence Manager. (-44)
После запуска License Manager перед тем как выполнить <Import License File> установите курсор на Alyona22K, т.к. по умолчанию он находится в корне дерева.
Возникает из-за ошибки в реестре вызванной, возможно, неправильной установкой\удалением предыдущих версий, сбоями в работе компьютера при установке, блокировке доступа к реестру антивирусными программами и т.п.
Также можно воспользоваться спецфайлом для импорта ветки реестра. Пароль на архив: mytts
Справка по работе с лексиконами для голоса Alyona:
Документ описывает некоторые важные аспекты лингвистической обработки русской тексто-речевой системы. Описываются различные типы символов и форматов, допустимых в тексте. Описание основано на символах со стандартным кодом ANSI 1251 для алфавитов кириллицы.
Фонетические транскрипции могут также вводиться непосредственно в тексте, с использованием PRN-пометки (смотри User's Guide).
Acapela TTS for Windows, Mac and Linux User's Guide
Re: Alyona TTS
Добавлено: 30 июн 2018 00:34
evmir_troll-hunter
abaddon_2008 писал(а): Jan 24 2018
evmir_troll-hunter писал(а):... а расскажите-ка свою историю. Когда "познакомились" с Алёной?
Неожиданный вопрос, заставил задуматься что написать... Думал долго, поэтому прошу прошенья за многословность.
Вопрос «когда познакомился», наверное, требует отступления чуть назад, чтобы понять причину и следствие, так сказать «потребности заставляют искать возможности».
Я очень люблю читать, но проживаю в сельской местности, поэтому запас интересующих меня книг в местной библиотеке и даже в районной был довольно таки ограничен. Интернет у нас тоже развивался довольно таки плохо и боле или менее в общих масштабах, а не у нескольких человек, появился только ближе к 2010 году. Обрадовавшись такой возможности, я стал запоем скачивать и читать электронные книги, поскольку они мало весили. О каких-то больших объемах тогда и речи не было и сильно каралось рублем.
Только ближе к 2013 проводной интернет стал «безлимитным» а мобильные операторы установили приемлемые цены, настало время торрентов, и я сразу же подумал об аудиокнигах. Со временем книга стали заканчиваться (на то время их было тоже не так много) и я стал замечать, что в описание некоторых указана «компьютерная начитка» и я подумал, что почему бы мне тогда самому это не попробовать сделать. Тогда балом конечно рулила Алёна mytts/wink . Но по незнанию вопроса я установил голый движок и начал «озвучивать». Результат меня не впечатлил, и я отказался от этой идеи, благо что активизировались чтецы «любители» и книг стало больше.
Тут стоит, наверное, приостановиться и ответить на ваш вопрос о моих предпочтениях. Читаю разные, но по большей части обобщу это как романы-фэнтези, притом предпочтительно серии книг, поскольку одну, если не сдержусь могу, прочитать и за день, а серии хоть подольше хватает. Для примера указать: Роберт Сальваторе – Сага о Темном эльфе, Урсула Ле Гуин – Средеземье, Роберт Джоран – Колесо Времени Терри Гудкайнд – Правило Волшебника и многие другие подобного жанра. Из современных это Брендон Сандерсон, Патрик Ротфусс, Джордж Мартин.
Итак, по тихоньку-помаленьку наступил 2016 год. И вот когда я приступил к очередной серии книг за авторством Робин Хобб – Сага о Видящих, оказалось, что озвучена только первая книга. Но поскольку книга мне понравилась, я решил вернуться к вопросу голосовых движков, полагая, что за столько времени должны же были разработчики что-то улучшить. Методом поиска попал на ваш форум, сначала стал пробовать сам, благо как я уже сказал инструкции довольно таки подробные и понятные, потом стал задавать вопросы (ник на прошлом форуме Andrei1389).
[...]
Как вы выразились "аудиохарактеристики" Алёны мне как раз и больше нравятся, у Татьяны действительно есть "акцент" который поначалу смушал, но когда послушаешь подольше, то привыкаешь и уже не замечаешь. Татьяна читает более "плавно" что ли и правильно, хотя как я понял Максим читает ещё "правильнее" если можно так выразиться, но мужской голос мне не привычен. К Алёне я конечно за несколько лет привык и поэтому если у вас есть советы по её улучшению, то буду вам благодарен за ваш опыт.
"Плавность" чрезвычайно субъективная вещь!.. я уже писал, где правильная пунктуация (у классиков), там Алёна прям журчит.
А вот у современных писателей со знаками препинания беда.
Кому как конечно, но для меня запятые служат как бы указующими знаками, эмоционально выделяющими части предложения.
Когда читаю глазами, внимания на пунктуацию не обращаю, а в школе ненавидел все эти правила препинания - ещё ж надо было для 2 языков учить, украинского и русского!
Жаль, что нет Retigor'а; он когда-то анализировал АЧХ движков.
Возможно у Вас сбились настройки паузирования в Voice Manager. Попробуйте сделать паузы длиннее после точек и короче - после запятых. Или наоборот...
Ускорьте темп, вкл. зквалайзер (правда он слабый). Всё это позволит подобрать что-то приемлимое.
[...]
Громкость также настраивается в Voice Manager, но по-моему она всегда должна там быть на 100%.
А так можно всё регулировать в системном Микшере громкости. У меня напр. сисзвуки = 10%, Алёна = 6%, а звук прибоя (мне его нравится слушать во время прослушивания книги) - равен 15%.
Я подготовил семпл, но это абсолютно субъективно:
{Acapela Алёна} Р. Хобб - Судьба Убийцы (proper v.)
20_my_alyona.mp3
(1.13 МБ) 1206 скачиваний
Характеристики: Темп - 104
Громкость - 100%
Пауза посл точки - medium
Все пр. паузы - very short
Фрагмент текста обработан корректором, несколько омографов изменены вручную, для чёткости добавлены пару-тройку запятых.
Программа Демагог, mp3, битрейт - 40000.
Diablerro писал(а): Mar 14 2018
Установил Алену от Акапеллы, лексиконы к ней, установил Демагог и множество словарей из рекомендованых на форуме.
Однако есть вопросы по подготовке текста к озвучке.
Как я понял, текст книги можно и нужно править перед озвучкой в самом tts редакторе.
Убирать ненужные объекты, менять озвучиваемый текст в расчете на аудио, а не на визуальное восприятие и т.п.
Но как быть с самой озвучкой, допустимо ли решать проблемы звучания правкой самого текста или все нужно стараться решить через словари?
Например, нужно ли в тексте вручную расставлять окончания числительных в тексте - "Глава 3-я", "в 1917-ом году"?
Или это стоит решать через словарь регекспов?
Как решать озвучку инициалов в тексте?
Например при чтении "А. С. Пушкин" я получаю две длинные паузы конца предложения.
Надо удалять точки в тексте или правильнее опять же создать регесп например?
Где можно посмотреть мануалы по словарям в формате dic, а то меня смущают строчки начинающиеся со знака #, они случайно не закоментарены?
При озвучке всей книги можно ли tts редактору указать разбить выходные файлы именно по главам а не по объему текста?
В каких случаях нужно стараться править словари tts редактора, а в каких нужно лезть в лексикон самого голоса?
И пара конкретных вопросов для примера.
При озвучке перечислении глав у меня на фразе "Глава 3-я" глотается окончание "я", получается - "глава треть".
Мне не нравится, как движок озвучивает слово "Россия", глотается удвоение "с".
Подскажите пару примеров, как этого избечь через словари?
flegont писал(а):
Как быть с самой озвучкой, допустимо ли решать проблемы звучания правкой самого текста или все нужно стараться решить через словари?
Через словари - предпочтительней. Чтобы не мучится с ручной правкой каждого текста
Как решать озвучку инициалов в тексте?
Надо удалять точки в тексте или правильнее опять же создать регесп например? Да, правильнее - создать регулярное выражение
Где можно посмотреть мануалы по словарям в формате dic, а то меня смущают строчки начинающиеся со знака #, они случайно не закоментарены?
Например, в Демагоге "Помощь - Вызов справки F1" Глава 5. Словари произношения. Формат DIC.
Вы правы в своей догадке: знак # в начале строки - это знак комментария. Из этого правила есть исключения - см. там же
При озвучке всей книги можно ли tts редактору указать разбить выходные файлы именно по главам а не по объему текста?
В Демагоге выходные файлы бьются на части только по объему текста. В Балаболке (если правильно помню) можно бить текст и на главы, но "тонкую настройку" этого режима выполняет сам пользователь
В каких случаях нужно стараться править словари tts редактора, а в каких нужно лезть в лексикон самого голоса?
Кому как удобнее :)
При озвучке перечислении глав у меня на фразе "Глава 3-я" глотается окончание "я", получается - "глава треть".
В словаре формата DIC это выглядит так:
$Глава 3-я=глава третья
Мне не нравится, как движок озвучивает слово "Россия", глотается удвоение "с".
Слово "Россия" в русском языке произносится именно через одну "с". Вот запись в МФА: rɐsʲˈijə
Mar 16 2018
Diablerro писал(а):1) К Алене идет два больших лексикона с буквой Ё
При подключении данных лексиконов необходимости в прочих Ё-файлах нет
Diablerro писал(а):2) Словарь chisla.rex
Этот словарь создавался весьма долго и трудно!.. если в Ваших силах исправить и дополнить его (шаблоны показаны), то мы будем благодарны и опубликуем под Вашим авторством
Diablerro писал(а):3) Словари hmg и orfo нужны только для ручной работы с текстом?
Да, для ручной
Diablerro писал(а):4) Есть ли какие либо эмпирические правила
Главное принимать Алёну какой она есть... снисходительно и по-дружески, не стремиться к недостижимому.
Пр. правила:
правильно подключить лексы
правильно подключить словари к Демагогу, Балаболке... (как описано в соот. темах)
настроить голос по своим предпочтениям (не ждите многого!)
обязательно создать свой лекс и свой словарь замен (форумские материалы будут обновляться, и при замене файлов Вы можете потерять свои правки)
перед применением Литературного текста выделите всё и сдвиньте текст вправо - Ctrl+Alt+ъ
мне не нравится применение словарей "на лету" во время чтения... предпочитаю обрабатывать книгу предварительно. Для пакетной, поочерёдной замены воспользуйтесь скриптом Pronunciation adjustment.lua
в настройках Демагога (вкладка Чтение) опция читать текст последовательными блоками с кол.
символов - поставьте 5700 ~ 6 мин.
такое же значение пропишите во вкладке Сериалы. Там же отметьте опцию добавлять в начале и в конце название файла и номер части. При копировании на карты памяти файлы часто перемешиваются, а на плеерах не всегда есть дисплей. Название можно сократить
Алёна весьма капризна в разных TTS-программах некоторые слова, фразы она читает по-разному.
В одном-двух случаях это можно подправить, но в третьем контексте снова будет не так. Мало того, есть свидетельства о влиянии на звучание конфигурации аудиокарты!.. и чисто субъективно наличие в системе др. голосов.
Повторюсь; не гонитесь за совершенством... у голоса множество минусов, но есть и немало плюсов. Вы же спрашивали про мудрости выработанные годами упорных медитаций. У меня это 9 лет уже. За это время Алёна сберегла моё зрение, и прочла полные собрания сочинений Кафки, Коэльо, Мураками, Льосы, Памука, Горького + отдельные книги других не менее именитых писателей.
Подключите всё правильно, подготовьте текст предварительно... вкл. Читать и - абстрагируйтесь. Окунитесь в мир сюжета, на мелкие неувязки не обращайте внимания, к крупным отнеситесь как к насекомому - прожужжит и нет его.
Тренируйтесь, через три-четыре месяца восприятие будет лучше... Желаю Вам отличных впечатлений от книг в исполнении Alyona Acapela!.. берегите глаза.
Алёной не получится серьёзно озвучить терминологическую, экономическую и т. д. литературу (ещё одно эмпирическое правило).
Все синт. голоса годны лишь для худ. литературы - любовь моя к Алёне велика, но Платона слушаю в исполнении И. Прудовского.
Fabe писал(а): Apr 12 2018
а что программа не обновляет'ся больше с 2006 года?
В сети много сборок давней в. Алёны. А так:
"В 2013 разработана программа синтеза речи Infovox4 с аппаратным USB ключом активации.
Infovox4 является инновационным программным обеспечением, позволяющим слабовидящим пользователям прослушивать текстовую информацию используя высококачественный синтезатор речи.
Программное обеспечение Infovox4 представляет собой USB накопитель, позволяя пользователю подключиться к любому компьютеру без предварительной установки. Кроме того, infovox4 может быть предустановлен на 3-х ПК.
Предустановленные версии программы будут работать независимо от наличия флеш-накопителя. ПО infovox4 включает в себя программы чтения с экрана, программу создания голосовых MP3-файлов, а также широкий диапазон выбора языков и голоса.
[...]
в infovox 4 рекламируются голоса Colibri - как я понял, повышение темпа речи + улучшенная чёткость.
[...]
01.07.13 Ajaja пишет:
For some of the voices there are 2 versions available.
• High Quality (HQ), with a larger download file and providing a more natural voice and pleasant reading
• Colibri (CO), with a smaller download file, a slightly more robotic sound, but more flexible and higher intelligibility at faster reading speed.
Алена версии Colibri проигрывает HQ по всем статьям, включая разборчивость на больших скоростях. Кажется, ее прикручивали к Colibri одной левой. Там даже бегунок Pitch не работает (хотя, я не понял, чем эта нстройка вообще от Shaping/VocalTract должна была отличаться).
Что касается HQ голоса, то небольшие отличия есть. И в произношении, и в интонациях. Но в целом голос звучит малоотличимо от версии в Infovox3. И старые глюки остались. Например, "когда мы имеем" все так же говорит как "когда же мы имеем" или "думает на протяжении" как "думает что на протяжении". Кстати, в Colibri этих глюков нет.
balabolka писал(а): Apr 13 2018
Fabe
Версия Infovox4 была выпущена в 2013 году. После этого выходили обновления; например, в 2013 году интерфейс всех утилит в составе Infovox4 перевели на русский язык; в том же году добавили 2 английских голоса, испанский и польский голоса (причем, английский и испанский голоса озвучивал один и тот же человек).
В 2015 году добавили 12 детских голосов (русского нет), добавили поддержку Windows 10.
В 2016 году улучшили ударение в словах, а также научили голоса читать специальные символы (например, греческие буквы в математических формулах).
В основном, выходят мелкие обновления Infovox4, касающиеся поддержки NVDA.
Программный продукт стоит 400 евро. Лицензия позволяет скачивать и устанавливать любые голоса (для этого в составе Infovox4 есть загрузчик Download Manager). Правда, шведские и норвежские голоса продаются отдельно, в скандинавской версии Infovox4, которая стоит 900 евро.
Сохранились файлы-образцы, демонстрирующие звучание Alyona infovox4, предоставленные P@S@f для анализа и оценки - вирусов не обнаружено (проверялось ESET Smart Security Premium, в. 11.1.42.0).
Не знаю как другие движки, но при программном ускорении, Алёна намного хуже читает - "проглатывает" фонемы. Поэтому уже 2 месяца экспериментирую, наращиваю потихоньку темп в Sound Forge.
Тогдашний эксперимент был недолог... разочаровался - ноут слабый, пакетная обработка сотен файлов длительная, и аудиоредактор часто зависал.
Да и звук стал какой-то не такой...
Недавно нашёл интересный плагин для foobar2000 - DSP Tempo Shift:
foobar8.jpg (226.38 КБ) 50795 просмотров
Для меня это идеальный вариант... не нужно конвертировать (греть ноут как чайник). Просто записал, вставил в плеер, отметил галочкой.
Захотел послушать с нормальным темпом, галку снял.
+ возможность пакетной конвертации с настройками данного DSP! Это если на пикник или в дальний путь...
Так же можно слушать и "живых" дикторов, для тренировки восприятия это полезно.
Подчеркну; повышать темп нужно постепенно!
Мне помог ускоренный просмотр сериалов.
Познавательно; формат MP3 сжатия аудио с потерями данных. Качество звука улучшается с увеличением битрейта:
32 кбит/с — как правило, приемлемо только для речи
96 кбит/с — как правило, используется для передачи речи или потокового звука низкого качества
128 или 160 кбит/с — начальный уровень кодирования музыки
192 кбит/с — приемлемое качество кодирования музыки
256 кбит/с — высокое качество кодирования музыки
320 кбит/с — наивысшее качество кодирования, поддерживаемое стандартом MP3
Как подключить к балаболке Alyona22k
Добавлено: 04 окт 2018 22:37
maxim588
Такая проблема. В Балаболке Алена читает несколько слов в тексте неправильно. Я это слово добавил в Lexicon Manager в библиотеку и в менеджере читает слово как нужно, но в Балаболке всё равно читает по-старому - неправильно.
Может их нужно как-то синхронизировать? или как-то эту библиотеку по-особому включать?
Как подключить к балаболке Alyona22k
Добавлено: 05 окт 2018 18:23
balabolka
maxim588
Никаких дополнительных операций не требуется, все изменения в лексиконе сразу вступят в действие. Если программа "Балаболка" в этот момент запущена, надо реинициализировать голос: на панели настроек голоса нажать маленькую кнопку справа от списка голосов (или, например, можно выбрать другой голос в программе, а затем вернуться к "Алене").
Попробуйте перезагрузить компьютер: это определенно заставит голос загрузить лексикон заново.
Рекомендую заглянуть в эту тему форума: Acapela-Group Alyona/Лексиконы. Если следовать изложенным там инструкциям, всё должно нормально работать.
Были 2 подтверждения, что правки в лексиконах не срабатывают из-за длинного пути к их системной папке.
Скопируйте папку UserLexicons на диск D.
для Windows XP (C:/Documents and Settings/%username%/Application Data/Acapela GroupHW2L/UserLexicons)
для Windows Vista/Seven (C:/Users/%username%/AppData/Roaming/Acapela GroupHW2L/UserLexicons)
Alyona TTS
Добавлено: 13 янв 2019 18:07
brodyaga2012
Привет. Такой вопрос. Не работает регулировка Тембр у Алёны в программе Балаболка. Есть ли возможность активировать?
В голосах Acapela Group не реализована поддержка изменения тембра (по крайней мере, в старых версиях голосов; как обстоит дело в современной версии, не знаю).
В голосах Acapela Group не реализована поддержка изменения тембра (по крайней мере, в старых версиях голосов; как обстоит дело в современной версии, не знаю).
balabolka, её нет ни в старых, ни в новых, ни вообще ни в каких tts. Т.к. "изменение тембра" эквивалентно изменению самого голоса.
Вы как разработчик Балаболки лучше поправьте подпись этого ползунка.
"Pitch" - в английском означает именно "тон голоса" - высоту тона "+-".
Alyona TTS
Добавлено: 21 янв 2019 13:54
balabolka
speech
Хорошо, поменяю надпись в следующей версии ("Высота звука" или "Высота тона"?). Спасибо за замечание.