Частотный лексикон (для словаря замен)
Добавлено: 21 июн 2018 22:39
Частотный лексикон
mia, evilone, E. Miroshnychenko
Частотный лексикон (для словаря замен) для автоматической разметки омографов в тексте с учетом их частоты встречаемости, составленный на основе Корпуса русского литературного языка объемом 1 млн словоупотреблений. Данный лексикон адаптирован к голосовому движку Acapela-Group Alyona (Алёна), и хотя его применение для других движков возможно, однако оно будет неполным.
Лексикон можно использовать совместно со всеми остальными словарями замен и лексиконами для Аленки. Он не мешает основной разметке текста и служит лишь для автоматической расстановки "пропущенных" при разметке омографов.
Установка:
подключить в Lexicon Manager'у после обычного лексикона омографов (для словаря замен) (ниже).
Если в других лексиконах есть явно предопределенные омографы тогда самым последним (нижним) по списку.
Примечание 27.01.14.
Есть уверенность, что довольно много омографов в своём изначальном, текстовом варианте (без капслоков) могут произноситься неправильно. Напр. "души", или "стою" (звучит "стая"), а перед запятой становятся проблемными слова "цели" (звучит целя), "стороны" (ударение на "ро"),
Нужно просто выбрать более частый вариант и всё нормализуется.
Как бы не редактировались/разделялись/пополнялись правила в словаре(рях) замен, никогда НЕ удастся охватить даже несколько процентов всех возможных словосочетаний! И в огромном количестве предложений будут присутствовать неизменённые омографы с непредсказуемым звучанием в зависимости от контекста, знака пунктуации или ещё чего.
Поэтому рекомендуется подключить данный лексикон - он исправлен и основательно дополнен.
Спасибо retigor'у за идею более активного использования лексикона.
Автор MP3Book2005 В. Шойтов-Харитановский составил когда-то список из наиболее часто встречающихся в тексте омографов.
Позже был произведён подсчёт частоты омоформ по Корпусу русского языка.
Список