MyTTS

: omograph_auto.jpg (131.52 КБ) 10727 просмотров

mia, evilone, E. Miroshnychenko

Частотный лексикон (для словаря замен) для автоматической разметки омографов в тексте с учетом их частоты встречаемости, составленный на основе Корпуса русского литературного языка объемом 1 млн словоупотреблений. Данный лексикон адаптирован к голосовому движку Acapela-Group Alyona (Алёна), и хотя его применение для других движков возможно, однако оно будет неполным.

Лексикон можно использовать совместно со всеми остальными словарями замен и лексиконами для Аленки. Он не мешает основной разметке текста и служит лишь для автоматической расстановки "пропущенных" при разметке омографов.

Установка:
подключить в Lexicon Manager'у после обычного лексикона омографов (для словаря замен) (ниже).
Если в других лексиконах есть явно предопределенные омографы тогда самым последним (нижним) по списку.

Примечание 27.01.14.

Есть уверенность, что довольно много омографов в своём изначальном, текстовом варианте (без капслоков) могут произноситься неправильно. Напр. "души", или "стою" (звучит "стая"), а перед запятой становятся проблемными слова "цели" (звучит целя), "стороны" (ударение на "ро"),
Нужно просто выбрать более частый вариант и всё нормализуется.

Как бы не редактировались/разделялись/пополнялись правила в словаре(рях) замен, никогда НЕ удастся охватить даже несколько процентов всех возможных словосочетаний! И в огромном количестве предложений будут присутствовать неизменённые омографы с непредсказуемым звучанием в зависимости от контекста, знака пунктуации или ещё чего.
Поэтому рекомендуется подключить данный лексикон - он исправлен и основательно дополнен.

Спасибо retigor'у за идею более активного использования лексикона.

Автор MP3Book2005 В. Шойтов-Харитановский составил когда-то список из наиболее часто встречающихся в тексте омографов.
Позже был произведён подсчёт частоты омоформ по Корпусу русского языка.

Список

MyTTS

Частотный лексикон (для словаря замен)

Частотный лексикон (для словаря замен)