Словари
Добавлено: 07 авг 2018 23:39
- Словари-фильтры необходимые для использования программных словарей Николая формата .dic Ольгой
- Словарь коррекции текста (дополнительный словарь для основного словаря замен корректирующий текст для лучшей расстановки ударений). Обсуждение и описание словаря тут.
- Словарь преобразования ударений Алены для Ольги
- Словарь транскрипций (sampa)
- Словарь склонения числительных. Обсуждение и описание словаря тут.
- Словарь для "ручного" поиска омографов
- Словарь замены для Ё-фикации текста. Обсуждение и описание словаря тут.
- Словарь замены текста написанного транслитом
- Словарь замен преобразующий текст написанный кириллицей в "транслит" (текст написанный латиницей) и наоборот.
- Словарь замен преобразующий текст написанный в виде "12.30" к виду "12:30".
Все вышеприведенные словари проверены и могут быть использованы в программах "Балаболка" и "Демагог". Поддержка словарей другими программами не проверялась, но скорее всего, возможна.
словари .dic - файлы со списками замен, каждая строка которых содержит шаблон и текст, которым будет заменен данный шаблон в тексте; между ними стоит знак равенства (=). Левая часть - искомый фрагмент текста, правая часть - замена. В первую очередь рассматриваются шаблоны с максимальным количеством букв, т.е. чем длиннее у правила левая часть тем раньше оно сработает в тексте. По умолчанию программа не учитывает различий между прописными и строчными буквами при рассмотрении шаблонов. Если регистр букв имеет значение, в правило добавляется символ "$" в начало строки. Например:
Цитата:
По умолчанию шаблон представляет из себя отдельное слово (или несколько слов), ограниченное пробелами или знаками препинания. Если шаблон является частью слова, то для обозначения того, что перед текстом или после него могут быть любые символы, используется символ "*" (звездочка). Например:$МАГ=Международная ассоциация геодезии
Цитата :
Данное правило будет применено к словам "автомобиль", "автокатастрофа" и т. д. Чтобы использовать в тексте специальные символы ("#", "*", "$", "="), их записывают дважды в соответствующем месте, например:авто*=авта
Цитата :
В этом случае отдельный символ "*" в тексте будет читаться как "звёздочка".**=звёздочка
Словари dic, rex самые распространенные среди различных программ для синтеза речи. Если программа поддерживает пользовательские словари то в первую очередь имеется в виду эти форматы словарей.
Следует заметить что в последнее время, в связи с появлением других алгоритмов словарных замен форматы написания правил в словаре замен могут отличаться друг от друга.
Что такое hmg-словарь и несколько слов про омографы
Омографы - слова, одинаковые по написанию, но различающиеся произношением. Иногда их также называют графическими омонимами. Одной из основных причин возникновения омографов в русском языке является различное ударение: зАмок – замОк. Омографы также возникают за счет того, что в текстах обычно не проставляют точки над ё, например: небо (небо и нёбо), берет (берет и берёт).
hmg-словари - файлы со списками замен, каждая строка которых содержит перечень словоформ искомого омографа и его искомую форму в тексте; между ними стоит знак равенства (=). Левая часть - искомый фрагмент текста, правая часть - варианты его замены, перечисленные через запятую.
Например:
По умолчанию различие между прописными и строчными буквами при рассмотрении шаблонов не делается. Если регистр букв имеет значение, добавляют символ "$" в начало строки также как и в словарях .dicзамок=зАмок,замОк
Данный формат словарей поддерживается программами "балаболка", "demagog" и "homograph". Для каждого омографа программа позволяет добавлять список фраз, замена которых будет осуществляться автоматически (закладка "Фразы с омографом" в редакторе омографов). Например:$Толстой=тОлстой,толстОй
В отличии от прочих словарей, hmg-словари используются только для ручной разметки текста. И хотя это очень долго и у многих не хватает терпения возиться со всем этим, особенно если текст весьма объемный, использование данного способа разметки позволяет практически полностью снять омонимию в тексте выставив нужную форму с проставленным ударением.замок=замОк
взломали замок=взломали замОк
hmg2dic - Утилита для выделения правил из словарей добавленных при ручном поиске омографов в формате для словаря замен.
Тxt2hmg - Утилита для преобразования списка омографов в список правил для "ручной" замены в тексте.
Для открытия файла(ов) нужен пароль
► Показать
Установка и подключение словаря транскрипций:
Словарь транскрипций (sampa) - example.lex должен находиться в C:/Program Files/Loquendo/LTTS7/bin/example.lex. Для нормальной работы словарю необходима запись в реестре
Код: Выделить всё
[HKEY_LOCAL_MACHINE\\SOFTWARE\\Loquendo\\LTTS7\\default.session]
"SpellingLevel"="pronounse"
[HKEY_LOCAL_MACHINE\\SOFTWARE\\Loquendo\\LTTS7\\LoqSAPI5]
"Lex.1049"="C:\\Program Files\\Loquendo\\LTTS7\\bin\\example.lex"
Дополнительные настройки:
Файл настроек находится по адресу C:/Program Files/Loquendo/LTTS7/data/voices/Olga/Olga.vde
Код: Выделить всё
; LTTSComponentVersion=7.3.0
; Voice descriptor file for Loquendo TTS
"BaseDescription" = "Russian female voice"
"Library" = "LTTS7Olga, Olga"
"BaseSpeed" = "100"
"BasePitch" = "95"
"Gender" = "Female"
"Age" = "35"
"ProsodicPauses" = "punctuation"
"ShortPauseLenght" = "90"
"GildedTTS" = "yes"
"gdeInclude" = "OlgaGilded.gde"
"MotherTongue" = "Russian"
"MotherTongueAliases" = "Russian,ru-RU,ru"
"DemoSentence" = "Меня зовут Ольга, я – женский голос компании Локуэндо, мой родной язык – русский."
Установка для использования словарей от голосового движка "Николай":
В качестве словарей можно использовать словари от голосового движка "Николай" предварительно установив словари-фильтры, убирающие лишние знаки которые не поддерживаются в SAPI5.
Запускаем файл "Loquendo_speller_fixer.reg", соглашаемся с изменениями.
Подключаем два словаря с расширением "яя_0_Olga_basic_stresser.dic" и "яя_1_Olga_basic_remover.dic" к программе-читалке. Эти словари должны быть последними по списку.
Установка для использования словарей от голосового движка "Алена":
В качестве словарей можно использовать словари от голосового движка "Алена" предварительно установив словари-фильтры корректирующие ударения.
Подключать нужно два словаря (основной словарь замен Алены и словарь коррекции текста) плюс дополнительный словарь преобразования ударений Алены для Ольги. Работает пока только для стандартного метода замен.
Альтернативный редактор лексикона Loquendo Olga
Альтернативный редактор с возможностью конвертирования словарей движка Николая формата *.txt
LoqLexer v.1.1.2
Для открытия файла(ов) нужен пароль
► Показать
Скопировать файл в папку исполняемых файлов движка "Loquendo Olga" (по умолчанию: "C:/Program Files/Loquendo/LTTS7/bin"), также см. readme.txt в архиве.
Описание редактора тут.