TTS книги  Проверялка  ФорумФорум  RSS  ПоискПоиск  ПользователиПользователи  ГруппыГруппы   Статистика  Список рапортов  ПрофильПрофиль  Сообщения ЛССообщения ЛС  Выход [ evmir_troll-hunter ]Выход [ evmir_troll-hunter ]  



Начать новую темуОтветить на тему

Проблема разрешения «Ё»-омографов при синтезе речи по тексту

Предыдущая тема Следующая тема Перейти вниз
АвторСообщениеПроблема разрешения «Ё»-омографов при синтезе речи по тексту
mia
V.I.P.
avatar


Сообщений : 184
Репутация : 7

 mia :: 25.04.10 19:08
25.04.10 19:08
Выбрать/отменить одновременное цитирование Ответить с цитатой Редактировать сообщение Удалить сообщение Послать сигнальный рапорт на это сообщение администратору или модератору Закрыть рапорты на это сообщение

Спасибо/Thanks
Проблема разрешения «Ё»-омографов при синтезе речи по тексту
Лобанов Б. М.
Объединенный институт проблем информатики НАН Беларуси
Минск, Беларусь

В статье рассматривается проблема адекватного разрешения неопределенностей в системах синтеза речи по тексту, связанных с частным случаем омонимии — графической «Ё»-омонимией. Рассмотрены статистические характеристики омографических пар, в том числе «Ё»-омографов. Исследованы статистические характеристики распределений внутри наиболее часто встречающихся пар «Ё»-омографов. Обсуждаются пути разрешения наиболее частотной омографической пары «ВСЁ» и «ВСЕ».

Введение
Проблема адекватного разрешения неопределенностей, связанных с омонимией, играет суще-ственную роль в решении задач распознавания и синтеза речи. Наиболее важное значение эта проблема приобретает при решении задач преобразования «речь — текст» (распознавание речи), когда существенным является разрешение почти всех видов омонимии: синтаксической, грамматической, лексической, словообразовательной и фонетической (см. словарь лигвистических терминов [1]). Только один вид омонимии — графическая омонимия, не играет роли в решении задач распознавания речи. Зато этот единственный вид омонимов, называемых омографами, играет весьма существенную роль в задачах преобразования «текст — речь» (синтез речи). Игнорирование существования омографов нарушает смысловое восприятие синтезированной речи и дополнительно ухудшает её естественность. Нам не известно ни одной работы, направленной на анализ и решение проблемы адекватного разрешения неопределенностей при синтезе русской речи по тексту, связанных с существованием омографов. В данной работе мы попытаемся в какой-то степени заполнить этот пробел, опираясь на фактический материал, представленный в словаре омографов русского языка [2].

В русском языке существуют два источника графической омонимии: вариативность словесного ударения, местоположение которого в письменной речи не указывается (СУ-омографы), и письменная традиция не обязательного проставления необходимых точек на букве «Ё» («Ё»-омографы). Литера «Ё» была предложена княгиней Екатериной Дашковой в 1783 году, а в печати употреблена в 1795 году. Отдельной буквой она долгое время не считалась и в азбуку официально не входила. В русском языке буква «Ё» используется, чаще всего в тех позициях, где произношение [(j)o] образовалось из [(j)e], чем и объясняется производная от «Е» форма буквы, хотя с точки зрения фонетики логичней было бы поставить точки не над «Е», а над «О». Букве «Ё» — 225 лет. Хотя она родилась в Санкт Петербурге, однако 20 октября 2001 года в Ульяновске открылся единственный в мире памятник букве «Ё». Существует много различных мнений, как в пользу, так и против непременного использования буквы «Ё» в печатном тексте (см. http://www.yomaker.ru/). С нашей позиции — позиции разработчиков систем синтеза речи по тексту — отсутствие в тексте «Ё» влечёт за собой дополнительные трудности, которые должны быть разрешены в той или иной степени. Простейшее решение — игнорирование проблемы — влечёт за собой дополнительные трудности в восприятии синтезированной речи и к раздражающему слух Е-канию. Данная работа посвящена исследованию статистических закономерностей проявления «Ё»-омонимии в различных текстах, а также обсуждению вопросов разрешения связанных с ней неопределённостей.

Статистические характеристики омографических пар
Статистические исследования проводились с использованием специально разработанной программы «HOMOGRAPH STATISTICS» и электронного словаря омографов, созданного на основе книжного словаря [2].

Целью исследования являлось определение статистической значимости «Ё»-омографов в общем списке «СУ»- и «Ё»-омографов [2], а также выявление особенностей статистических распределений только внутри подкласса «Ё»-омографов. Общее количество омографов, в соответствии с приведенными в [2] данными, составляет 3894 пар, из них «Ё»-омографов — только 232 пары.
Cтатистические характеристики определялись в отдельности для достаточно представительных и различных типов текстов:

•А. С. Пушкин — стихотворные произведения,
•Л. Н. Толстой — роман «Анна Каренина,
•Б. Акунин, Д. Рубина, Л. Петрушевская — современная проза,
•Труды конференции «ДИАЛОГ-2006» — научная проза.

В таблице 1 приведены интегральные статистические характеристики этих текстов по всей совокупности омографов, содержащихся в словаре [2]. Как видно из таблицы 1, выбранные тексты различных жанров имеют примерно одинаковый объём, в среднем — около 300 тыс. слов. Средний процент вхождения омографов составил 3,15%. Если считать, что среднее число слов на странице равно 650, то около 20-ти слов могут оказаться омографами. В случае их неадекватного раскрытия, как показывает опыт, это приводит к весьма негативному впечатлению при прослушивании синтезированной речи. Из таблицы видно также, что наибольшее количество омографов встречается в современной прозе, а наименьшее — в научном тексте.
Очень интересный факт вытекает при рассмотрении 4-го столбца таблицы: всего только порядка 20% от общего многообразия всех омографических пар встречается в проанализированных текстах! Это указывает на первостепенную важность этого подмножества в решении задач разрешения омографии.
В таблице 2 приведены статистические характеристики 4-х классов текстов по совокупности пар «Ё»-омографов, содержащихся в словаре [2]. В сравнении с данными таблицы 1, средний процент вхождения «Ё»-омографов значительно ниже и составил 0,59%, что соответствует их общему количеству. Однако, если сравнить отношение количества всех пар омографов к количеству «Ё»-омографов: 3894/232=16,8 и соответствующее отношение процентов их вхождения в тексты: 3,15/0,59=5,3, то можно отметить более чем 5-ти кратную частотность «Ё»-омографов, а, следовательно, существенную важность разрешения этого вида омографии при синтезе речи.
Как и в случае таблицы 1, только порядка 30% от общего многообразия всех «Ё»-омографических пар встречается в проанализированных текстах.
В таблице 3 приведены дифференциальные характеристики статистического анализа текстов по всей совокупности омографов (первые 15 наиболее частотных пар омографов), содержащихся в словаре [2]. Как видно из таблицы, во всех художественных текстах пара «Ё»-омографов слова «все» выдвинулась на 1-е место. В специфическом научном тексте «Диалог-06» омограф «все» уступил 1-е место, к нашему удовольствию, омографу «слова». Из таблицы видно также, что и некоторые другие «Ё»-омографы вошли в число наиболее частотных: «перед, всем».
На рисунке 1 графически представлены распределения количества встречаемости в различных текстах 10-ти наиболее частотных пар омографов. Из рис. 1 видно, что пары омографов наиболее равномерно распределены (а, следовательно, наиболее информативны!) в стихотворных произведениях А.С. Пушкина и в научных трудах участников «ДИАЛОГа».
В таблице 4 приведены дифференциальные статистические характеристики текстов — первые 15 наиболее частотных пар «Ё»-омографов, содержащихся в словаре [2]. Как и ожидалось 1-е места во всех текстах заняла пара омографов «все».
Соответствующие таблице графические распределения представлены на рис. 2.2. распределений внутри пар «Ё»-омографов. Для определения статистических характеристик распределений внутри пар «Ё»-омографов использовались результаты описанного выше статистического анализа дифференциальных характеристик пар «Ё»-омографов и данные Интернет ресурса [3] «Поиск по акцентуированному корпусу».
Вначале из таблицы 4 были отобраны 10 наиболее частотных пар «Ё»-омографов по всем рассмотренным выше 4-м текстам (помечены жирным шрифтом в табл. 4) и подсчитаны суммарные количества их встречаемости (см. столбец 2 таблицы 5 и рис.3). Затем для этих слов с помощью Интернет ресурса [3] в Корпусе текстов по драматургии, беллетристике, публицистике и научно-популярной литературе определены суммарные количества их встречаемости (см. столбец 3 таблицы 5 и рис. 3). В столбцах 4, 5 приведены результаты встречаемости в Корпусе [3] «Ё» и «Е» слов (см. также рис. 4), в столбцах 6, 7 — соотношение количества слов с «Ё» и «Е» в процентах внутри пар «Ё»-омографов (см. также рис. 5).



Некоторые правила разрешения «Ё»-омографической неопределённости
Анализируя результаты, приведенные в таблице 5 и на рис. 3 — 4, можно сделать следующие выводы. Как видно из табл. 5 (столбцы 2 и 3) использованная для статистического анализа выборка Текстов (А.С. Пушкин — стихотворные произведения, Л.Н. Толстой — роман «Анна Каренина, Борис Акунин, Дина Рубина, Людмила Петрушевская — современная проза, Труды конференции «ДИАЛОГ-2006» — научная проза) является достаточно представительной и сравнимой по объёму с Корпусом текстов по драматургии, беллетристике, публицистике и научно-популярной литературе, представленном в [3].Полученные распределения встречаемости 10-ти наиболее частотных пар «Ё»-омографов в изученных Текстах и в Корпусе в высокой степени подобны (см. рис. 3), что говорит о достаточной степени достоверности полученных данных. Из рис. 3 и 4 следует, что подавляющее количество «Ё»-омографов как в Текстах, так и в Корпусе приходится на пару омографов «ВСЕ», что подчёркивает исключительную важность нахождения правил их разрешения при синтезе речи. Из табл. 5 (столбцы 6, 7), а также из рис. 5 видно, что в 5-ти из 10-ти наиболее частотных пар «Ё»-омографов появление той или иной реализации омографа в паре более или менее равновероятно ( пары: ВСЁ_ВСЕ, ВСЁМ_ВСЕМ, ЧЁМ-ТО_ЧЕМ-ТО, ЖЁНЫ_ЖЕНЫ, СЁСТРЫ_СЕСТРЫ). В оставшихся 5-ти парах с высокой степенью достоверностью можно выбирать варианты: ПЕРЕД, СЛЁЗЫ, СЕЛА, НЕБО, БЕРЕГ. Для пар омографов: ВСЁМ_ВСЕМ, ЧЁМ-ТО_ЧЕМ-ТО, слова с «Ё» с высокой степенью достоверностью могут быть определены по наличию перед ними предлогов «о», «об» или «обо». Для пар омографов: ЖЁНЫ_ЖЕНЫ, СЁСТРЫ_СЕСТРЫ, слова с «Ё» могут быть определены по их принадлежности к существительным множественного числа. Наибольшую трудность представляет разрешение омографической неопределённости для слов ВСЁ_ВСЕ.

«ВСЁ» или «ВСЕ»?
Для разрешения омографической неопределённости пары ВСЁ_ВСЕ можно использовать некоторые эмпирически найденные контекстуальные правила, работающие с достаточно высокой степенью достоверностью. Для этой цели был проведен выборочный анализ встречаемости слов ВСЁ и ВСЕ в сочетании с другими словами в романе Б. Акунина «Азазель», содержащего 55 тыс. слов. Было подсчитаны количество сочетаний слова ВСЁ с различными словами или знаками препинания при условии, что слово ВСЕ ни разу не встретилось в тех же сочетаниях. Получены следующие наиболее частотные сочетания этого вида:

•ВСЁ+Любой Знак Препинания — 24 раза
•ВСЁ+РАВНО — 21раз
•ВСЁ+ ЭТО — 11 раз
•ВСЁ+ТАК(ТОТ, ТЕМ) ЖЕ — 9 раз
•ВСЁ ВРЕМЯ — 5 раз
•ВСЁ ЕЩЁ — 4 раза
•ВСЁ БЫЛО — 3 раза
•ВСЁ МОЖЕТ — 3 раза.

Определено также около 30 других сочетаний такого рода, встретившихся от 1-го до 2-х раз в проанализированном тексте. Для более глубокого анализа возможностей разрешения омографической неопределённости пары ВСЁ_ВСЕ на том же тексте были проведены эксперименты с использованием синтаксического разбора предложений с использованием разработанной в Институте проблем передачи информации РАН системы ЭТАП-3, которая для каждого предложения строит синтаксическую структуру в виде дерева зависимостей [4].


На рис. 6 — 8 приведены примеры правильного синтаксического разбора предложения со словом ВСЁ. При правильном разборе омограф ВСЁ маркируется либо как местоимение-существительное (S) единственного числа среднего рода (рис.6), либо как местоимение-прилагательное (А) единственного числа среднего рода (рис. 7), либо как частица (PART), играющая роль ограничителя ( рис. 8 ).

На рис. 9–10 приведены примеры правильного синтаксического разбора предложения со словом ВСЕ. При правильном разборе омограф ВСЕ маркируется всегда как местоимение-существительное множественного числа.

На рис. 11 и 12 приведены примеры неправильного синтаксического разбора предложения со словом ВСЁ. В этих примерах слово ВСЁ ошибочно распознано как ВСЕ , т.е. как местоимение-прилагательное (рис.11), либо как местоимение-существительное (рис.12) множественного числа.
В заключение заметим, что при использовании системы ЭТАП-3 на всём протестированном тексте (роман Б. Акунина «Азазель»), в котором присутствовало 123 вхождения омографа ВСЕ, обнаружено лишь 5 ошибочных отнесений слова ВСЁ к слову ВСЕ, т.е. только 4% ошибочного распознавания!

Заключение
Однозначного ответа на вопрос, поставленный в качестве эпиграфа к этой статье, пока не существует. Однако, с уверенностью можно сказать, что полное алгоритмическое решение задачи расстановки недостающих точек над «Ё» наступит не ранее, чем в полной мере будут решены проблемы морфологического, синтаксического, семантического и прагматического анализа текстов.

Литература
  1. Д. Э. Розенталь, М. А. Теленкова. Словарь-справочник лингвистических терминов // Изд. «Просвещение», М. 1976, 543 с.
  2. А. В. Венцов и др. Словарь омографов русского языка // Изд. СПбГУ, Санкт-Петербург, 2004, 160 с.
  3. Национальный корпус русского языка “Поиск по акцентуированному корпусу” // Интернет ресурс: http://www.narusco.ru
  4. И. М. Богуславский, Л. Л. Иомдин, Д. Р. Валеев, В. Г. Сизов. Синтаксический анализатор системы ЭТАП и его оценка с помощью глубоко размеченного корпуса русских текстов // Труды Международной конференции <Корпусная лингвистика — 2008>. СПб.: Санкт-Петербургский государственный университет, 2008. С. 56–74.


Вернуться к началу Перейти вниз
Посмотреть профильОтправить личное сообщение
flint2
Посетитель


Сообщений : 43
Репутация : 11

 flint2 :: 10.05.10 16:18
10.05.10 16:18
Выбрать/отменить одновременное цитирование Ответить с цитатой Редактировать сообщение Удалить сообщение Послать сигнальный рапорт на это сообщение администратору или модератору Закрыть рапорты на это сообщение

Спасибо/Thanks
Мадам, вы достойны уважения!
И я тебя уважаю!
(Это не из серии - "Видишь пьяный - отойди!")
Это честно!

Вернуться к началу Перейти вниз
Посмотреть профильОтправить личное сообщение
muk79
Участник «online словари»


Сообщений : 103
Репутация : 29

 muk79 :: 10.05.10 22:17
10.05.10 22:17
Выбрать/отменить одновременное цитирование Ответить с цитатой Редактировать сообщение Удалить сообщение Послать сигнальный рапорт на это сообщение администратору или модератору Закрыть рапорты на это сообщение

Спасибо/Thanks
mia пишет:
Однозначного ответа на вопрос, поставленный в качестве эпиграфа к этой статье, пока не существует.
Это когда написано? Какой год?

Вернуться к началу Перейти вниз
Посмотреть профильОтправить личное сообщение
mia
V.I.P.
avatar


Сообщений : 184
Репутация : 7

 mia :: 12.05.10 14:03
12.05.10 14:03
Выбрать/отменить одновременное цитирование Ответить с цитатой Редактировать сообщение Удалить сообщение Послать сигнальный рапорт на это сообщение администратору или модератору Закрыть рапорты на это сообщение

Спасибо/Thanks
muk79 пишет:
Это когда написано? Какой год?
Это Диалог-2009 Rolling Eyes

Вернуться к началу Перейти вниз
Посмотреть профильОтправить личное сообщение
evmir_troll-hunter
Admin
avatar


Сообщений : 628
Репутация : 208

 evmir_troll-hunter :: 12.05.10 14:33
12.05.10 14:33
Выбрать/отменить одновременное цитирование Ответить с цитатой Редактировать сообщение Удалить сообщение Послать сигнальный рапорт на это сообщение администратору или модератору Закрыть рапорты на это сообщение

Уважаемая mia, где Вы тексты берете, дайте пожалуйста ссылку. Хотелось бы вникнуть в суть, и почитать первоисточник. Smile

Вернуться к началу Перейти вниз
Посмотреть профильОтправить личное сообщение
flegont
V.I.P.
avatar


Сообщений : 355
Репутация : 475

 flegont :: 29.05.10 14:30
29.05.10 14:30
Выбрать/отменить одновременное цитирование Ответить с цитатой Редактировать сообщение Удалить сообщение Послать сигнальный рапорт на это сообщение администратору или модератору Закрыть рапорты на это сообщение

Спасибо, оч. интересная статья, специально нашел первоисточник
http://www.dialog-21.ru/dialog2009/materials/html/45.htm

Правда, заключение в оригинале выглядит чуть драматичнее:

"Однозначного ответа на вопрос, поставленный в качестве эпиграфа к этой статье, пока не существует. Однако, с уверенностью можно сказать, что полное алгоритмическое решение задачи расстановки недостающих точек над «Ё» наступит не ранее, чем в полной мере будут решены проблемы морфологического, синтаксического, семантического и прагматического анализа текстов. Например, как понять: ВСЁ ДЕРЬМО, или ВСЕ ДЕРЬМО? Система «ЭТАП» говорит, что ВСЁ..."

Smile

Вернуться к началу Перейти вниз
Посмотреть профильОтправить личное сообщение
evmir_troll-hunter
Admin
avatar


Сообщений : 628
Репутация : 208

 evmir_troll-hunter :: 29.05.10 15:00
29.05.10 15:00
Выбрать/отменить одновременное цитирование Ответить с цитатой Редактировать сообщение Удалить сообщение Послать сигнальный рапорт на это сообщение администратору или модератору Закрыть рапорты на это сообщение

flegont пишет:
Спасибо, оч. интересная статья, специально нашел первоисточник
http://www.dialog-21.ru/dialog2009/materials/html/45.htm
Благодарен за ссылку!
Надеюсь, все мы вместе добъёмся, чтобы букву "ё" всё-таки печатали в текстах.Wink

Вернуться к началу Перейти вниз
Посмотреть профильОтправить личное сообщение
flegont
V.I.P.
avatar


Сообщений : 355
Репутация : 475

 flegont :: 05.06.10 21:38
05.06.10 21:38
Выбрать/отменить одновременное цитирование Ответить с цитатой Редактировать сообщение Удалить сообщение Послать сигнальный рапорт на это сообщение администратору или модератору Закрыть рапорты на это сообщение

Кхммм... итак: текст из 2427647 слов (это чуть больше 15 МБ)
Вхождений упомянутых в статье 10-ти Ё-омографов: 15372 = 0.633%
Довольно много, это на каждые где-то 170 слов один "Ё-мое" в среднем попадется.

Распределение (всего и в %):

все 10917 71.02
перед 1944 12.64
всем 1188 7.73
небо 335 2.18
слезы 248 1.61
чем-то 212 1.38
берег 180 1.17
жены 157 1.02
села 113 0.74
сестры 78 0.51

Омографы перед и небо ни разу не встретились в варианте с ё.

Правило ВСЕ+любой знак препинания = ВСЁ - не выполняется, вообще-то говоря...

В общем, с парой ВСЕ / ВСЁ дела обстоят даже сложнее, чем рассказано в статье.
Есть об чём призадуматться... wall

Вернуться к началу Перейти вниз
Посмотреть профильОтправить личное сообщение
flint2
Посетитель


Сообщений : 43
Репутация : 11

 flint2 :: 06.06.10 18:15
06.06.10 18:15
Выбрать/отменить одновременное цитирование Ответить с цитатой Редактировать сообщение Удалить сообщение Послать сигнальный рапорт на это сообщение администратору или модератору Закрыть рапорты на это сообщение

Спасибо/Thanks
Комментариев думаю не надо.

"Глокая куздра бодланула бокра."
Спойлер:
 

Расшифровка тут http://cs.isa.ru:10000/dwarf

А анимационные смайлики делу не помогут, хотя смотрятся прикольно)).

Вернуться к началу Перейти вниз
Посмотреть профильОтправить личное сообщение
flegont
V.I.P.
avatar


Сообщений : 355
Репутация : 475

 flegont :: 07.06.10 13:42
07.06.10 13:42
Выбрать/отменить одновременное цитирование Ответить с цитатой Редактировать сообщение Удалить сообщение Послать сигнальный рапорт на это сообщение администратору или модератору Закрыть рапорты на это сообщение

Dwarf выдает инфу в неудобоваримом виде No

Вернуться к началу Перейти вниз
Посмотреть профильОтправить личное сообщение

Проблема разрешения «Ё»-омографов при синтезе речи по тексту

Предыдущая тема Следующая тема Вернуться к началу
Проблема разрешения «Ё»-омографов при синтезе речи по тексту
Страница 1 из 1Страница 1 из 1
  Следить за ответами в теме    Форма быстрого ответа    Следить за ответами в теме    Форма быстрого ответа  
Начать новую темуОтветить на темуПерейти:

Удалить тему Отправить в корзину  Перенести тему  Закрыть тему  Разделить тему Объединить темы 
Инструменты для модерации
Этот сайт не предоставляет электронные версии программного обеспечения и полнотекстовых электронных изданий, а занимается лишь
подборкой и каталогизацией ссылок, присылаемых и публикуемых на форуме нашими читателями.

Создать форум | ©phpBB | Бесплатный форум поддержки | Сообщить о нарушении