Лексикон омографов
- evmir_troll-hunter
- Администратор
Лексикон омографов
Лексикон омографов
Редакция: evilone, E. Miroshnychenko
Завершена работа по исправлению и дополнению лексикона омографов. Спасибо evilone за помощь, и И. Морозову за создание Txt2hmg - утилиты, преобразующей список омографов в список правил total_omoforms.hmg для "ручного" поиска омографов в тексте.
Что сделано:
- Определены грамматические атрибуты
- Исправлена орфография
- Удалены НЕ омографы
- Добавлены омографы + падежные формы к уже существующим
- Добавлены клитики - ударные словосочетания:
зАруку
нАногу
пОполу
и т.д. (граммат. атрибут для таких слов – DETERMINER) - Прослушано в Балаболке, Демагоге, Mp3book2005 и TextAloud, исправлены транскрипции.
- Рекомендуется подключать 1-м по приоритету
Список транскрипций импортирован в новый лекс, который был затем подключён единственным к новообразованному голосу на основе Alyona Acapela.
Список омографов вставлен в TTS программу для вычитывания.
После каждого слова в списке проставлена точка с запятой ;
Анализ:
Вычитывание омографов показала основной недостаток правки слов лишь в Lexicon Manager; в Manager’е словоформа может звучать абсолютно правильно, а в TTS программах нет. Таких форм ок. 3 тысяч. Если добавить 3000 удалённых форм, то понятно, что десятая часть лексикона не работала(!)
Прослушивать нужно в контексте. Если в TTS программу вставить список, и после каждого слова проставить точку с запятой (для необходимой паузы), то возникает эффект "почти" контекста.
Вывод:
Важен контекст.
Вычитывание только в обычных TTS-п. (они для этого и предназначены).
Разница в звучании на разных программах ничтожна - достаточно немного подправить транскрипцию для одной, чтоб слово произносилось верно в других.
Есть уверенность, что довольно много омо в своём изначальном, текстовом варианте (без капслоков) могут произноситься неправильно. Напр. "души", "стою" (звучит "стая"), а перед запятой становятся проблемными слова: "цели" (звучит целя), "стороны" (ударение на "ро"),
Нужно просто выбрать более частый вариант и всё нормализуется.
Как бы не редактировались/разделялись/пополнялись правила в словаре(рях) замен, никогда НЕ удастся охватить даже несколько процентов всех возможных словосочетаний! И в огромном количестве предложений будут присутствовать неизменённые омографы с непредсказуемым звучанием в зависимости от контекста, знака пунктуации или ещё чего.
Поэтому рекомендуется использовать Частотный лексикон - он основательно дополнен. Подключается 2-м по приоритету.
Я завершил редактирование омо-лекса в конце 12г. но омоформы всё лезут и лезут. Это будет бесконечно...
Есть и эдакое:
о=о,О
во=во,вО
до=до,дО
ко=ко,кО
по=по,пО
под=под,пОд
Есть разница в звучании\восприятии фраз:
о чём? во дворе. до вас. ко мне. по плечу. под столом.
и:
О, боже! вО вО. нота дО. курочка кО-кО-кО. река пО. печной пОд или пОд печи.
В первом случае выраженная фонема "а", во втором - чёткая "о".
Интересно ваше мнение... считаются ли такие слова омографами, и стоит ли их прописывать в словарях\лексиконах?