Частотный лексикон (для словаря замен)

Популярный голосовой модуль, работает на SAPI-5\SAPI-4 с частотой 22 КГц , имеет хорошее качество синтезируемой речи, тембр голоса и выразительную интонацию.
Ответить
Аватара пользователя
evmir_troll-hunter
Администратор

Частотный лексикон (для словаря замен)

#1

Сообщение evmir_troll-hunter »

omograph_auto.jpg
omograph_auto.jpg (131.52 КБ) 10725 просмотров

:download: Частотный лексикон

:gcopyr: mia, evilone, E. Miroshnychenko


Частотный лексикон (для словаря замен) для автоматической разметки омографов в тексте с учетом их частоты встречаемости, составленный на основе Корпуса русского литературного языка объемом 1 млн словоупотреблений. Данный лексикон адаптирован к голосовому движку Acapela-Group Alyona (Алёна), и хотя его применение для других движков возможно, однако оно будет неполным.

Лексикон можно использовать совместно со всеми остальными словарями замен и лексиконами для Аленки. Он не мешает основной разметке текста и служит лишь для автоматической расстановки "пропущенных" при разметке омографов.

Установка:
подключить в Lexicon Manager'у после обычного лексикона омографов (для словаря замен) (ниже).
Если в других лексиконах есть явно предопределенные омографы тогда самым последним (нижним) по списку.


Примечание 27.01.14.

Есть уверенность, что довольно много омографов в своём изначальном, текстовом варианте (без капслоков) могут произноситься неправильно. Напр. "души", или "стою" (звучит "стая"), а перед запятой становятся проблемными слова "цели" (звучит целя), "стороны" (ударение на "ро"),
Нужно просто выбрать более частый вариант и всё нормализуется.

Как бы не редактировались/разделялись/пополнялись правила в словаре(рях) замен, никогда НЕ удастся охватить даже несколько процентов всех возможных словосочетаний! И в огромном количестве предложений будут присутствовать неизменённые омографы с непредсказуемым звучанием в зависимости от контекста, знака пунктуации или ещё чего.
Поэтому рекомендуется подключить данный лексикон - он исправлен и основательно дополнен.

Спасибо retigor'у за идею более активного использования лексикона.



Автор MP3Book2005 В. Шойтов-Харитановский составил когда-то список из наиболее часто встречающихся в тексте омографов.
Позже был произведён подсчёт частоты омоформ по Корпусу русского языка.

:download: Список

Ответить

Вернуться в «Acapela-Group Alyona»