Страница 1 из 1

Лексиконы

Добавлено: 22 июн 2018 00:09
evmir_troll-hunter
Лексиконы (подключаются к движку непосредственно):
  1. Лексикон омографов. Обсуждение и описание лексикона тут.
  2. Частотный лексикон. Обсуждение и описание лексикона тут.
  3. Лексикон трудночитаемых слов. Обсуждение и описание словаря тут.
  4. "Ё"-лексикон.. Обсуждение и описание лексикона тут.
  5. Лексикон географических названий. Обсуждение и описание лексикона тут.
  6. Лексикон имён и фамилий. Обсуждение и описание словаря тут.
  7. Лексикон запрета чтения разделительных знаков..

С учетом концептуальных обновлений лексиконов правильный порядок подключения (рекомендуемый) сейчас такой:
  1. Лексикон омографов (omograph_lex.dic)
  2. Частотный лексикон (omograph_auto.dic)
  3. Лексикон труднопроизносимых слов (Alyona22k.dic)
  4. "Ё-лексикон (1_YO_lex.dic и 2_YO_lex.dic)
  5. Лексикон географических названий (Geografic.dic)
  6. Лексикон имён и фамилий (propernoun.dic)
  7. Лексикон запрета чтения разделительных знаков (_punctuation.dic)
LexiconMgr.jpg
LexiconMgr.jpg (72.36 КБ) 17438 просмотров

Основные словари замен (подключаются к TTS-программам):
  1. Словарь замены ударений (рекомендуется использовать совместно с лексиконом омографов и словарем коррекции текста).
  2. Словарь склонения числительных. Обсуждение и описание словаря тут.
  3. Словарь коррекции текста (дополнительный словарь к основному словарю замен, корректирующий текст для лучшей расстановки ударений). Обсуждение и описание словаря тут.

Дополнительные словари замен:
  1. Словарь замен для разрешения ё-омографов все/всё - словарь только для программы Demagog версии 241 и выше.
  2. Словарь замен для разрешения ё-омографов все/всё - альтернативная версия словаря для программ без поддержки расширенного формата *.dic словарей но поддерживающих словари построенные на регулярных выражениях. Обсуждение и описание словарей тут.

  1. Большой словарь замен. Обсуждение и описание словаря тут.
  2. Словарь для "ручного" поиска омографов (скопировать в папку словарей TTS-программ).
  3. Словарь сокращений. Обсуждение и описание словаря тут.
  4. Словарь замен для клитик (determiners). Обсуждение и описание словаря тут.
  5. Словарь замены для Ё-фикации текста. Обсуждение и описание словаря тут.

Лексиконы и большинство словарей замен имеют одинаковое расширение *.dic.
Будьте внимательны!
Лексиконы подключаются и редактируются только спецутилитой - LexiconMgr.exe (C:\Program Files\Acapela Group\Infovox Desktop 2.2).
Словари же простые текстовые файлы - открыть их можно в любом редакторе.


Перед установкой словарей:
Все вышеприведенные словари проверены и могут быть использованы в программах "Балаболка" и "Демагог". Поддержка словарей другими программами не проверялась, но скорее всего, возможна.

Словари - файлы со списками замен, каждая строка которых содержит шаблон и текст, которым будет заменен данный шаблон в тексте; между ними стоит знак равенства (=). Левая часть - искомый фрагмент текста, правая часть - замена. В первую очередь рассматриваются шаблоны с максимальным количеством букв, т.е. чем длиннее у правила левая часть тем раньше оно сработает в тексте. По умолчанию программа не учитывает различий между прописными и строчными буквами при рассмотрении шаблонов. Если регистр букв имеет значение, в правило добавляется символ "$" в начало строки. Например:
$МАГ=Международная ассоциация геодезии
По умолчанию шаблон представляет из себя отдельное слово (или несколько слов), ограниченное пробелами или знаками препинания. Если шаблон является частью слова, то для обозначения того, что перед текстом или после него могут быть любые символы, используется символ "*" (звездочка). Например:
авто*=авта
Данное правило будет применено к словам "автомобиль", "автокатастрофа" и т. д. Чтобы использовать в тексте специальные символы ("#", "*", "$", "="), их записывают дважды в соответствующем месте, например:
**=звёздочка
В этом случае отдельный символ "*" в тексте будет читаться как "звёздочка".

Словари dic, rex самые распространенные среди различных программ для синтеза речи. Если программа поддерживает пользовательские словари то в первую очередь имеется в виду эти форматы словарей.

Следует заметить что в последнее время, в связи с появлением других алгоритмов словарных замен форматы написания правил в словаре замен могут отличаться друг от друга.


Что такое hmg-словарь и несколько слов про омографы
Омографы - слова, одинаковые по написанию, но различающиеся произношением. Иногда их также называют графическими омонимами. Одной из основных причин возникновения омографов в русском языке является различное ударение: зАмок – замОк. Омографы также возникают за счет того, что в текстах обычно не проставляют точки над ё, например: небо (небо и нёбо), берет (берет и берёт).

hmg-словари - файлы со списками замен, каждая строка которых содержит перечень словоформ искомого омографа и его искомую форму в тексте; между ними стоит знак равенства (=). Левая часть - искомый фрагмент текста, правая часть - варианты его замены, перечисленные через запятую.
Например:
замок=зАмок,замОк
По умолчанию различие между прописными и строчными буквами при рассмотрении шаблонов не делается. Если регистр букв имеет значение, добавляют символ "$" в начало строки также как и в словарях .dic
$Толстой=тОлстой,толстОй
Данный формат словарей поддерживается программами "балаболка", "demagog" и "homograph".

В отличии от прочих словарей, hmg-словари используются только для ручной разметки текста. И хотя это очень долго и у многих не хватает терпения возиться со всем этим, особенно если текст весьма объемный, использование данного способа разметки позволяет практически полностью снять омонимию в тексте выставив нужную форму с проставленным ударением.


Словари с расширением *.rex используют шаблоны на основе регулярных выражений.

Установка и подключение лексиконов:
После загрузки и деархивации необходимых лексиконов нужно их скопировать в системную папку:
для Windows XP (C:/Documents and Settings/%username%/Application Data/Acapela GroupHW2L/UserLexicons)
для Windows Vista/Seven (C:/Users/%username%/AppData/Roaming/Acapela GroupHW2L/UserLexicons)

и подключить (не импортировать) к спецутилите Lexicon Manager
C:\Program Files\Acapela Group\Infovox Desktop 2.2 файл - LexiconMgr.exe
Меню Пуск\Acapela Group\Infovox Desktop 2.2 файл - Lexicon Manager


Примечание:
Многолетняя практика показала, что системную папку с лексиконами лучше перенести на диск D во избежание ошибок движка.



Установка и подключение словарей для программы "Балаболка":
  1. Инсталлировать программу Балаболка, загрузить, деархивировать необходимые словари замен и скопировать их в папку "мои документы/balabolka".
  2. Запустить программу, открыть панель словарей и отметить нужные. Программа готова к чтению.
  3. Для предварительной обработки текста словарём предусмотрена опция "Показать измененный текст" - копируем, вставляем и читаем(записываем).
Важно: для лучшей расстановки замен rex-словарями в программе Балаболка в настройках нужно выбрать опцию "Применять правила к большим по размеру частям текста"



Установка и подключение словарей для программы "Демагог":
  1. Деархивировать программу; она портативная, не требующая установки.
  2. Загрузить, деархивировать необходимые словари замен и скопировать их в подпапку dic, которая находится в папке с программой.
  3. Запустить программу, открыть панель словарей и отметить нужные. Программа готова к чтению.
  4. Для предварительной обработки текста словарём предусмотрена опция Сервис → Статистика → Измененный текст. Все результаты будут отображаться в последней вкладке 0-Статистика, причем каждый последующий результат удалит предыдущий.


Читать замененный словарями текст можно в любой TTS-программе.
Настоятельно рекомендуется использовать функцию "форматировать текст" перед и после применения словарей замен для записи в аудио, или перед чтением со словарями замен "на лету", это также частично улучшит расстановку ударений словарями замен.

Для редактирования лексикона необходимо запустить программу-редактор лексикона. По умолчанию она находится тут "C:/Program Files/Acapela Group/Infovox Desktop 2.2/LexiconMgr.exe"


Как подключить новый лексикон не импортируя его в общий?
Откройте лексикон-менеджер и нажмите Ctrl+t затем нажмите добавить лексикон (Add lexicon) - выберите нужный лексикон.


Как добавить слово вручную если оно произносится неправильно?
Для этого необходимо открыть лексикон и ввести слово в окне «Word» ниже появится его фонетическая транскрипция которую можно править. Нажимаем «Copy to pronunciation» и в окне «pronunciation» правим. Для того чтобы посмотреть какие звуки какой вид в транскрипции имеют есть подсказка «Show phonetic table». Ударение в слове можно отобразить цифрами 1 и 2 причем ударение с 1 читается более длиннее а с 2 более отрывистее например:

Код: Выделить всё

за́мок: # z A1 m @ k
за́мок: # z A2 m @ k
замо́к: # z @ m o1 k
замо́к: # z V m o2 k
Затем жмем «Add word to lexicon» и «Save lexicon» Ctrl+S.


Как построить фонетическую транскрипцию для слов (любых)
Для быстрого создания фонетической транскрипции слова с учетом ударения в нужном месте существует транскриптор - программа, объединяющая в себе все функции вышеперечисленных программ. Программой поддерживается классический формат ударения для Алены - заглавная буква. Также можно использовать пользовательские словари для создания собственных фонетический правил и\или коррекции уже готовых транскрипций.

Следует обратить внимание что программа работает с голосовым профилем установленным по умолчанию (Alyona22k). Если используется другой голосовой профиль необходимо изменить название профиля в настройках программы на нужный.


Как мне сказать где за́мок а где замо́к?
Существует большое количество способов разметки текста и снятие омонимии. Остановимся на трех самых доступных для применения. Какой из них лучше и каким пользоваться решайте сами.

Ручной - с помощью словаря омографов в тех же балаболке, демагоге или спецпрограмме homograph.
Плюсы: максимальное к-во распознанных омографов в тексте.
Минусы: очень долго.

Автоматический - с помощью словаря замены в котором часть часто употребляемых омографов уже прописана.
Плюсы: довольно просто и быстро.
Минусы: не все омографы находятся.


С помощью Voice Manager в программе предусмотрена возможность как настраивать параметры голоса (скорость, громкость, паузы между знаками препинания) так и создавать различные "голосовые профили" основанные на одном конкретном голосе. Как правило такие профили нужны для быстрого переключения между различными настройками одного голоса, например быстрого чтения простого и понятного текста не несущего большой смысловой нагрузки и медленного чтения более информативно насыщенного текста.

Нужно обратить внимание, что для каждого голосового профиля программа создает свой отдельный лексикон. В случае использования одного универсального лексикона необходимо повторить процедуру подключения его (лексикона) в редакторе лексиконов (лексикон менеджере) "C:/Program Files/Acapela Group/Infovox Desktop 2.2/LexiconMgr.exe" предварительно выбрав необходимый голосовой профиль Voice - Select new voice (Ctrl+Shift+V).


Справка по работе с лексиконами для голоса Alyona:
Документ описывает некоторые важные аспекты лингвистической обработки русской тексто-речевой системы. Описываются различные типы символов и форматов, допустимых в тексте. Описание основано на символах со стандартным кодом ANSI 1251 для алфавитов кириллицы.
:pdf icon: Русский
:pdf icon: Английский