<?xml version="1.0" encoding="UTF-8"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ru">
	<link rel="self" type="application/atom+xml" href="https://mytts.info/app.php/feed/topic/79" />

	<title>MyTTS</title>
	<subtitle>Форум о преобразовании текста в речь</subtitle>
	<link href="https://mytts.info/index.php" />
	<updated>2018-06-22T00:09:59+03:00</updated>

	<author><name><![CDATA[MyTTS]]></name></author>
	<id>https://mytts.info/app.php/feed/topic/79</id>

		<entry>
		<author><name><![CDATA[evmir_troll-hunter]]></name></author>
		<updated>2018-06-22T00:09:59+03:00</updated>

		<published>2018-06-22T00:09:59+03:00</published>
		<id>https://mytts.info/viewtopic.php?t=79&amp;p=85#p85</id>
		<link href="https://mytts.info/viewtopic.php?t=79&amp;p=85#p85"/>
		<title type="html"><![CDATA[Лексиконы]]></title>

		
		<content type="html" xml:base="https://mytts.info/viewtopic.php?t=79&amp;p=85#p85"><![CDATA[
<strong class="text-strong">Лексиконы (подключаются к движку непосредственно):</strong><ol style="list-style-type:lower-alpha"><li><a href="https://mytts.info/files/alyona/Lexes/omograph_lex.7z" class="postlink" target="_blank" rel="noopener noreferrer">Лексикон омографов</a>. Обсуждение и описание лексикона <a href="https://mytts.info/viewtopic.php?f=4&amp;t=66" class="postlink" target="_blank" rel="noopener noreferrer">тут</a>.</li><li><a href="https://mytts.info/files/alyona/Lexes/omograph_auto.7z" class="postlink" target="_blank" rel="noopener noreferrer">Частотный лексикон</a>. Обсуждение и описание лексикона <a href="https://mytts.info/viewtopic.php?f=4&amp;t=67" class="postlink" target="_blank" rel="noopener noreferrer">тут</a>.</li><li><a href="https://mytts.info/files/alyona/Lexes/Alyona22k.7z" class="postlink" target="_blank" rel="noopener noreferrer">Лексикон трудночитаемых слов</a>. Обсуждение и описание словаря <a href="https://mytts.info/viewtopic.php?f=4&amp;t=70" class="postlink" target="_blank" rel="noopener noreferrer">тут</a>.</li><li><a href="https://mytts.info/files/alyona/Lexes/YO_lex.7z" class="postlink" target="_blank" rel="noopener noreferrer">"Ё"-лексикон.</a>. Обсуждение и описание лексикона <a href="https://mytts.info/viewtopic.php?f=4&amp;t=71" class="postlink" target="_blank" rel="noopener noreferrer">тут</a>.</li><li><a href="https://mytts.info/files/alyona/Lexes/Geografic.7z" class="postlink" target="_blank" rel="noopener noreferrer">Лексикон географических названий</a>. Обсуждение и описание лексикона <a href="https://mytts.info/viewtopic.php?f=4&amp;t=69" class="postlink" target="_blank" rel="noopener noreferrer">тут</a>.</li><li><a href="https://mytts.info/files/alyona/Lexes/propernoun.7z" class="postlink" target="_blank" rel="noopener noreferrer"> Лексикон имён и фамилий</a>. Обсуждение и описание словаря <a href="https://mytts.info/viewtopic.php?f=4&amp;t=72" class="postlink" target="_blank" rel="noopener noreferrer">тут</a>.</li><li><a href="https://mytts.info/files/alyona/Lexes/_punctuation.7z" class="postlink" target="_blank" rel="noopener noreferrer">Лексикон запрета чтения разделительных знаков.</a>.</li></ol><hr>С учетом концептуальных обновлений лексиконов правильный порядок подключения (рекомендуемый) сейчас такой:<ol style="list-style-type:decimal"><li>Лексикон омографов (<strong class="text-strong">omograph_lex.dic</strong>)</li><li>Частотный лексикон (<strong class="text-strong">omograph_auto.dic</strong>)</li><li>Лексикон труднопроизносимых слов (<strong class="text-strong">Alyona22k.dic</strong>)</li><li>"Ё-лексикон (<strong class="text-strong">1_YO_lex.dic</strong> и <strong class="text-strong">2_YO_lex.dic</strong>)</li><li>Лексикон географических названий (<strong class="text-strong">Geografic.dic</strong>)</li><li>Лексикон имён и фамилий (<strong class="text-strong">propernoun.dic</strong>)</li><li>Лексикон запрета чтения разделительных знаков (<strong class="text-strong">_punctuation.dic</strong>)</li></ol><div class="inline-attachment"><dl class="file"><dt class="attach-image"><img src="https://mytts.info/download/file.php?id=222" class="postimage" alt="LexiconMgr.jpg" onclick="viewableArea(this);" /></dt></dl></div><hr><strong class="text-strong">Основные словари замен (подключаются к TTS-программам):</strong> <ol style="list-style-type:lower-alpha"><li><a href="https://mytts.info/files/alyona/Dics/omograph_rules.7z" class="postlink" target="_blank" rel="noopener noreferrer">Словарь замены ударений</a> (рекомендуется использовать совместно с лексиконом омографов и словарем коррекции текста).</li><li><a href="https://mytts.info/files/docs/dics/chisla.7z" class="postlink" target="_blank" rel="noopener noreferrer">Словарь склонения числительных</a>. Обсуждение и описание словаря <a href="https://mytts.info/viewtopic.php?f=40&amp;t=43" class="postlink" target="_blank" rel="noopener noreferrer">тут</a>.</li><li><a href="https://mytts.info/files/alyona/Dics/corector_alyona.7z" class="postlink" target="_blank" rel="noopener noreferrer">Словарь коррекции текста</a> (<em class="text-italics">дополнительный словарь к основному словарю замен, корректирующий текст для лучшей расстановки ударений</em>). Обсуждение и описание словаря <a href="https://mytts.info/viewtopic.php?f=4&amp;t=65" class="postlink" target="_blank" rel="noopener noreferrer">тут</a>.</li></ol><hr><strong class="text-strong">Дополнительные словари замен:</strong><ol style="list-style-type:lower-alpha"><li><a href="http://aloys.narod.ru/sof/1/YOhmg.zip" class="postlink" target="_blank" rel="noopener noreferrer"> Словарь замен для разрешения ё-омографов все/всё</a> - словарь <span style="text-decoration:underline">только для программы Demagog версии 241 и выше</span>.</li><li><a href="https://mytts.info/files/docs/dics/vse_vsyo.7z" class="postlink" target="_blank" rel="noopener noreferrer"> Словарь замен для разрешения ё-омографов все/всё</a> - альтернативная версия словаря для программ без поддержки расширенного формата *.dic словарей<span style="text-decoration:underline"> но поддерживающих словари построенные на регулярных выражениях</span>. Обсуждение и описание словарей <a href="https://mytts.info/viewtopic.php?f=40&amp;t=44" class="postlink" target="_blank" rel="noopener noreferrer">тут</a>.</li></ol><hr><ol style="list-style-type:upper-roman"><li><a href="https://mytts.info/files/alyona/Dics/R_E_OMOGRAPF_alyona.7z" class="postlink" target="_blank" rel="noopener noreferrer">Большой словарь замен</a>. Обсуждение и описание словаря <a href="https://mytts.info/viewtopic.php?f=4&amp;t=73" class="postlink" target="_blank" rel="noopener noreferrer">тут</a>.</li><li><a href="https://mytts.info/files/docs/dics/omoforms/total_omoforms.7z" class="postlink" target="_blank" rel="noopener noreferrer">Словарь для "<em class="text-italics">ручного</em>" поиска омографов</a> (скопировать в папку словарей TTS-программ).</li><li><a href="https://mytts.info/files/alyona/Dics/contraction.7z" class="postlink" target="_blank" rel="noopener noreferrer">Словарь сокращений</a>. Обсуждение и описание словаря <a href="https://mytts.info/viewtopic.php?f=4&amp;t=74" class="postlink" target="_blank" rel="noopener noreferrer">тут</a>.</li><li><a href="https://mytts.info/files/alyona/Dics/determiner.7z" class="postlink" target="_blank" rel="noopener noreferrer">Словарь замен для клитик (determiners)</a>. Обсуждение и описание словаря <a href="https://mytts.info/viewtopic.php?f=4&amp;t=76" class="postlink" target="_blank" rel="noopener noreferrer">тут</a>.</li><li><a href="https://mytts.info/files/docs/dics/yo_main.7z" class="postlink" target="_blank" rel="noopener noreferrer">Словарь замены для Ё-фикации текста</a>. Обсуждение и описание словаря <a href="https://mytts.info/viewtopic.php?f=40&amp;t=45" class="postlink" target="_blank" rel="noopener noreferrer">тут</a>.</li></ol><hr>Лексиконы и большинство словарей замен имеют одинаковое расширение *.dic.<br><strong class="text-strong">Будьте внимательны!</strong><br>Лексиконы подключаются и редактируются <span style="text-decoration:underline">только</span> спецутилитой - <strong class="text-strong">LexiconMgr.exe</strong> (C:\Program Files\Acapela Group\Infovox Desktop 2.2).<br>Словари же простые текстовые файлы - открыть их можно в любом редакторе.<br><br><hr><strong class="text-strong">Перед установкой словарей:</strong><br>Все вышеприведенные словари проверены и могут быть использованы в программах "Балаболка" и "Демагог". Поддержка словарей другими программами не проверялась, но скорее всего, возможна.<br><br>Словари - файлы со списками замен, каждая строка которых содержит шаблон и текст, которым будет заменен данный шаблон в тексте; между ними стоит знак равенства (=). Левая часть - искомый фрагмент текста, правая часть - замена. В первую очередь рассматриваются шаблоны с максимальным количеством букв, т.е. чем длиннее у правила левая часть тем раньше оно сработает в тексте. По умолчанию программа не учитывает различий между прописными и строчными буквами при рассмотрении шаблонов. Если регистр букв имеет значение, в правило добавляется символ "$" в начало строки. Например:<blockquote class="uncited"><div>$МАГ=Международная ассоциация геодезии</div></blockquote>По умолчанию шаблон представляет из себя отдельное слово (или несколько слов), ограниченное пробелами или знаками препинания. Если шаблон является частью слова, то для обозначения того, что перед текстом или после него могут быть любые символы, используется символ "*" (звездочка). Например:<blockquote class="uncited"><div>авто*=авта </div></blockquote>Данное правило будет применено к словам "автомобиль", "автокатастрофа" и т. д. Чтобы использовать в тексте специальные символы ("#", "*", "$", "="), их записывают дважды в соответствующем месте, например:<blockquote class="uncited"><div>**=звёздочка</div></blockquote>В этом случае отдельный символ "*" в тексте будет читаться как "звёздочка".<br><br>Словари dic, rex самые распространенные среди различных программ для синтеза речи. Если программа поддерживает пользовательские словари то в первую очередь имеется в виду эти форматы словарей. <br><br>Следует заметить что в последнее время, в связи с появлением других алгоритмов словарных замен форматы написания правил в словаре замен могут отличаться друг от друга.<br><br><hr><strong class="text-strong">Что такое hmg-словарь и несколько слов про омографы</strong><br>Омографы - слова, одинаковые по написанию, но различающиеся произношением. Иногда их также называют графическими омонимами. Одной из основных причин возникновения омографов в русском языке является различное ударение: зАмок – замОк. Омографы также возникают за счет того, что в текстах обычно не проставляют точки над ё, например: небо (небо и нёбо), берет (берет и берёт).<br><br>hmg-словари - файлы со списками замен, каждая строка которых содержит перечень словоформ искомого омографа и его искомую форму в тексте; между ними стоит знак равенства (=). Левая часть - искомый фрагмент текста, правая часть - варианты его замены, перечисленные через запятую. <br>Например:<blockquote class="uncited"><div>замок=зАмок,замОк</div></blockquote>По умолчанию различие между прописными и строчными буквами при рассмотрении шаблонов не делается. Если регистр букв имеет значение, добавляют символ "$" в начало строки также как и в словарях .dic <blockquote class="uncited"><div>$Толстой=тОлстой,толстОй</div></blockquote>Данный формат словарей поддерживается программами  "балаболка", "demagog" и "homograph".<br><br>В отличии от прочих словарей, hmg-словари используются только для ручной разметки текста. И хотя это очень долго и у многих не хватает терпения возиться со всем этим, особенно если текст весьма объемный, использование данного способа разметки позволяет практически полностью снять омонимию в тексте выставив нужную форму с проставленным ударением.<br><br><hr>Словари с расширением *.rex используют шаблоны на основе регулярных выражений.<br><hr><strong class="text-strong">Установка и подключение лексиконов:</strong><br>После загрузки и деархивации необходимых лексиконов нужно их скопировать в системную папку: <br>для <strong class="text-strong">Windows XP</strong> (<em class="text-italics">C:/Documents and Settings/<strong class="text-strong">%username%</strong>/Application Data/Acapela GroupHW2L/UserLexicons</em>) <br>для <strong class="text-strong">Windows Vista/Seven</strong> (<span style="text-decoration:underline">C:/Users/<strong class="text-strong">%username%</strong>/AppData/Roaming/Acapela GroupHW2L/UserLexicons</span>)<br><br>и подключить (не импортировать) к спецутилите <strong class="text-strong">Lexicon Manager</strong><br><em class="text-italics">C:\Program Files\Acapela Group\Infovox Desktop 2.2 файл - LexiconMgr.exe<br>Меню Пуск\Acapela Group\Infovox Desktop 2.2 файл - Lexicon Manager</em><br><br><em class="text-italics">Примечание</em>:<br>Многолетняя практика показала, что системную папку с лексиконами лучше перенести на диск D во избежание ошибок движка.<br><br><br><hr><strong class="text-strong">Установка и подключение словарей для программы "Балаболка":</strong><ol style="list-style-type:decimal"><li>Инсталлировать программу Балаболка, загрузить, деархивировать необходимые словари замен и скопировать их в папку "мои документы/balabolka".</li><li>Запустить программу, открыть панель словарей и отметить нужные. Программа готова к чтению.</li><li>Для предварительной обработки текста словарём предусмотрена опция "<em class="text-italics">Показать измененный текст</em>" - копируем, вставляем и читаем(записываем).</li></ol><strong class="text-strong">Важно:</strong> для лучшей расстановки замен rex-словарями в программе Балаболка в настройках нужно выбрать опцию "<em class="text-italics">Применять правила к большим по размеру частям текста</em>"<br><br><br><hr><strong class="text-strong">Установка и подключение словарей для программы "Демагог":</strong><ol style="list-style-type:decimal"><li>Деархивировать программу; она портативная, не требующая установки.</li><li>Загрузить, деархивировать необходимые словари замен и скопировать их в подпапку <strong class="text-strong">dic</strong>, которая находится в папке с программой.</li><li>Запустить программу, открыть панель словарей и отметить нужные. Программа готова к чтению.</li><li>Для предварительной обработки текста словарём предусмотрена опция <strong class="text-strong">Сервис → Статистика → Измененный текст</strong>. Все результаты будут отображаться в последней вкладке <strong class="text-strong">0-Статистика</strong>, причем каждый последующий результат удалит предыдущий.</li></ol><br><hr>Читать замененный словарями текст можно в любой TTS-программе. <br>Настоятельно рекомендуется использовать функцию "<em class="text-italics">форматировать текст</em>" перед и после применения словарей замен для записи в аудио, или перед чтением со словарями замен "<em class="text-italics">на лету</em>", это также частично улучшит расстановку ударений словарями замен.<br><hr>Для редактирования лексикона необходимо запустить программу-редактор лексикона. По умолчанию она находится тут "C:/Program Files/Acapela Group/Infovox Desktop 2.2/LexiconMgr.exe"<br><br><hr><strong class="text-strong">Как подключить новый лексикон не импортируя его в общий?</strong><br>Откройте лексикон-менеджер и нажмите Ctrl+t затем нажмите <em class="text-italics">добавить лексикон</em> (Add lexicon) - выберите нужный лексикон.<br><br><hr><strong class="text-strong">Как добавить слово вручную если оно произносится неправильно?</strong><br>Для этого необходимо открыть лексикон и ввести слово в окне «Word» ниже появится его фонетическая транскрипция которую можно править. Нажимаем «Copy to pronunciation» и в окне «pronunciation» правим. Для того чтобы посмотреть какие звуки какой вид в транскрипции имеют есть подсказка «Show phonetic table». Ударение в слове можно отобразить цифрами 1 и 2 причем ударение с 1 читается более длиннее а с 2 более отрывистее например:<br><div class="codebox"><p>CODE: </p><pre><code>за́мок: # z A1 m @ kза́мок: # z A2 m @ kзамо́к: # z @ m o1 kзамо́к: # z V m o2 k</code></pre></div>Затем жмем «Add word to lexicon» и «Save lexicon» Ctrl+S.<br><br><hr><strong class="text-strong">Как построить фонетическую транскрипцию для слов (любых)</strong><br>Для быстрого создания фонетической транскрипции слова с учетом ударения в нужном месте существует <a href="https://mytts.info/viewtopic.php?f=4&amp;t=78" class="postlink" target="_blank" rel="noopener noreferrer">транскриптор</a> - программа, объединяющая в себе все функции вышеперечисленных программ. Программой поддерживается классический формат ударения для Алены - заглавная буква. Также можно использовать пользовательские словари для создания собственных фонетический правил и\или коррекции уже готовых транскрипций. <br><br>Следует обратить внимание что программа работает с голосовым профилем установленным по умолчанию (Alyona22k). Если используется другой голосовой профиль необходимо изменить название профиля в настройках программы на нужный.<br><br><hr><strong class="text-strong">Как мне сказать где за́мок а где замо́к?</strong><br>Существует большое количество способов разметки текста и снятие омонимии. Остановимся на трех самых доступных для применения. Какой из них лучше и каким пользоваться решайте сами.<br><br>Ручной - с помощью словаря омографов в тех же <a href="https://mytts.info/viewtopic.php?f=28&amp;t=80" class="postlink" target="_blank" rel="noopener noreferrer">балаболке</a>, <a href="https://mytts.info/viewtopic.php?f=20&amp;t=16" class="postlink" target="_blank" rel="noopener noreferrer">демагоге</a> или спецпрограмме <a href="https://mytts.info/viewtopic.php?f=41&amp;t=47" class="postlink" target="_blank" rel="noopener noreferrer">homograph</a>.<br>Плюсы: максимальное к-во распознанных омографов в тексте.<br>Минусы: очень долго.<br><br>Автоматический - с помощью словаря замены в котором часть часто употребляемых омографов уже прописана.<br>Плюсы: довольно просто и быстро.<br>Минусы: не все омографы находятся.<br><br><hr>С помощью <em class="text-italics">Voice Manager</em> в программе предусмотрена возможность как настраивать параметры голоса (скорость, громкость, паузы между знаками препинания) так и создавать различные "голосовые профили" основанные на одном конкретном голосе. Как правило такие профили нужны для быстрого переключения между различными настройками одного голоса, например быстрого чтения простого и понятного текста не несущего большой смысловой нагрузки и медленного чтения более информативно насыщенного текста.<br><br>Нужно обратить внимание, что для каждого голосового профиля программа создает свой отдельный лексикон. В случае использования одного универсального лексикона необходимо повторить процедуру подключения его (лексикона) в редакторе лексиконов (лексикон менеджере) "C:/Program Files/Acapela Group/Infovox Desktop 2.2/LexiconMgr.exe" предварительно выбрав необходимый голосовой профиль Voice - Select new voice (Ctrl+Shift+V).<br><br><hr><strong class="text-strong">Справка по работе с лексиконами для голоса Alyona:</strong><br>Документ описывает некоторые важные аспекты лингвистической обработки русской тексто-речевой системы. Описываются различные типы символов и форматов, допустимых в тексте. Описание основано на символах со стандартным кодом ANSI 1251 для алфавитов кириллицы.<br> <img class="smilies" src="./images/smilies/adobe.png" width="32" height="32" alt=":pdf icon:" title="эмоция"> <a href="https://mytts.info/files/docs/russian_alyona_rus.pdf" class="postlink" target="_blank" rel="noopener noreferrer">Русский</a>    <br> <img class="smilies" src="./images/smilies/adobe.png" width="32" height="32" alt=":pdf icon:" title="эмоция"> <a href="https://mytts.info/files/docs/russian_alyona.pdf" class="postlink" target="_blank" rel="noopener noreferrer">Английский</a><p>Статистика: Добавлено  <a href="https://mytts.info/memberlist.php?mode=viewprofile&amp;u=48">evmir_troll-hunter</a> — 22 июн 2018 00:09</p><hr />
]]></content>
	</entry>
	</feed>
