Страница 1 из 1

Лексикон омографов

Добавлено: 21 июн 2018 22:28
evmir_troll-hunter
omograph_lex.jpg
omograph_lex.jpg (114.48 КБ) 10987 просмотров

:download: Лексикон омографов

Редакция: evilone, E. Miroshnychenko

Завершена работа по исправлению и дополнению лексикона омографов. Спасибо evilone за помощь, и И. Морозову за создание Txt2hmg - утилиты, преобразующей список омографов в список правил total_omoforms.hmg для "ручного" поиска омографов в тексте.

Что сделано:
  1. Определены грамматические атрибуты
  2. Исправлена орфография
  3. Удалены НЕ омографы
  4. Добавлены омографы + падежные формы к уже существующим
  5. Добавлены клитики - ударные словосочетания:
    зАруку
    нАногу
    пОполу

    и т.д. (граммат. атрибут для таких слов – DETERMINER)
  6. Прослушано в Балаболке, Демагоге, Mp3book2005 и TextAloud, исправлены транскрипции.
  7. Рекомендуется подключать 1-м по приоритету
Методика:
Список транскрипций импортирован в новый лекс, который был затем подключён единственным к новообразованному голосу на основе Alyona Acapela.
Список омографов вставлен в TTS программу для вычитывания.
После каждого слова в списке проставлена точка с запятой ;

Анализ:
Вычитывание омографов показала основной недостаток правки слов лишь в Lexicon Manager; в Manager’е словоформа может звучать абсолютно правильно, а в TTS программах нет. Таких форм ок. 3 тысяч. Если добавить 3000 удалённых форм, то понятно, что десятая часть лексикона не работала(!)

Прослушивать нужно в контексте. Если в TTS программу вставить список, и после каждого слова проставить точку с запятой (для необходимой паузы), то возникает эффект "почти" контекста.

Вывод:
Важен контекст.
Вычитывание только в обычных TTS-п. (они для этого и предназначены). :wink:
Разница в звучании на разных программах ничтожна - достаточно немного подправить транскрипцию для одной, чтоб слово произносилось верно в других.


Есть уверенность, что довольно много омо в своём изначальном, текстовом варианте (без капслоков) могут произноситься неправильно. Напр. "души", "стою" (звучит "стая"), а перед запятой становятся проблемными слова: "цели" (звучит целя), "стороны" (ударение на "ро"),
Нужно просто выбрать более частый вариант и всё нормализуется.

Как бы не редактировались/разделялись/пополнялись правила в словаре(рях) замен, никогда НЕ удастся охватить даже несколько процентов всех возможных словосочетаний! И в огромном количестве предложений будут присутствовать неизменённые омографы с непредсказуемым звучанием в зависимости от контекста, знака пунктуации или ещё чего.
Поэтому рекомендуется использовать Частотный лексикон - он основательно дополнен. Подключается 2-м по приоритету.



Я завершил редактирование омо-лекса в конце 12г. но омоформы всё лезут и лезут. :zombie: Это будет бесконечно...
Есть и эдакое:
о=о,О
во=во,вО
до=до,дО
ко=ко,кО
по=по,пО
под=под,пОд


Есть разница в звучании\восприятии фраз:
о чём? во дворе. до вас. ко мне. по плечу. под столом.

и:
О, боже! вО вО. нота дО. курочка кО-кО-кО. река пО. печной пОд или пОд печи.

В первом случае выраженная фонема "а", во втором - чёткая "о".
Интересно ваше мнение... считаются ли такие слова омографами, и стоит ли их прописывать в словарях\лексиконах?