Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

Ответить
Аватара пользователя
tonio_k
V.I.P.

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

#1

Сообщение tonio_k »

Создан на основе словаря:
Полная парадигма. Морфология. Частотный словарь. Совмещенный словарь. Автор М. Хаген.

Взят с сайта:
http://www.speakrus.ru/dict/
(здесь много других словарей, в т.ч. специализированных)

Словарь получился Орфоэпический т.е. заменяет в тексте слова на их произношение и ставит ударение. Это означает, что в словаре могут встретиться подобные замены:

конечно=конЕшно
а что=а штО
парашют=прашУт


Из словаря удалены правила для слов-омографов по списку взятого из словаря all_omographs.hmg (от good_cat). А так же правила, которые Демагог выводит как ошибочные.

Судя по всему, основной словарь на сайте иногда обновляется. Так что обновления возможны.

Словарь не проверялся на правильность замен ударения и произношения - выкладывается "как есть".
Орфоэпия.zip
(27.18 МБ) 155 скачиваний
В архиве присутствуют два варианта словаря:
NEW_Орфоэпия.dic - ударение ставится путем замены ударной гласной на заглАвную букву
NEW_Орфоэпия+.dic - ударение ставится путем добавления "+" перед ударной гласной

Аватара пользователя
Piligrim
Обыватель

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

#2

Сообщение Piligrim »

tonio_k писал(а):
31 окт 2020 01:09
В архиве присутствуют два варианта словаря:
NEW_Орфоэпия.dic - ударение ставится путем замены ударной гласной на заглАвную букву
NEW_Орфоэпия+.dic - ударение ставится путем добавления "+" перед ударной гласной
Огромнейшее спасибо!!!
Я использую NEW_Орфоэпия+.dic таким образом:
Озвучиваю текст, затем прослушиваю аудио и читаю оригинал. Там, где ошибка произношения, выделяю слово красным цветом. После прочитки выбираю выделенные слова и ищу пару в Вашем словаре, копирую и вставляю в рабочий словарь, таким образом пополняя его. Яндекс очень редко ставит неправильные ударения, но благодаря рабочему словарю, все огрехи постепенно будут удалены.
К сожалению Алёна быстро читает и нет возможности уменьшить скорость. Приходится использовать сторонние программы уже после озвучки текста.

Аватара пользователя
tonio_k
V.I.P.

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

#3

Сообщение tonio_k »

Надо попробовать (эксперимента ради) сделать Орфоэпический словарь замены слова на его фонетическую транскрипцию ipa и посмотреть, может с таким словарем Максим станет ударения ставить в словах по умолчанию правильно? А где ошибается вносить в поправки в словарь? Но боюсь, что тогда Максим будет звучать как Яндекс после прогона всего текста этим словарём. Т.е. исправим в одном месте, сломаем в другом.
К стати, эти транскрипции понимает голос Владмир от ЦРТ...

Аватара пользователя
good_cat
Администратор

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

#4

Сообщение good_cat »

tonio_k писал(а):
04 ноя 2020 01:17
Но боюсь, что тогда Максим будет звучать как Яндекс после прогона всего текста этим словарём. Т.е. исправим в одном месте, сломаем в другом.
Именно так и будет. Править словарями надо только то, что необходимо.

Аватара пользователя
tonio_k
V.I.P.

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

#5

Сообщение tonio_k »

tonio_k писал(а):
31 окт 2020 01:09
Словарь получился Орфоэпический т.е. заменяет в тексте слова на их произношение и ставит ударение. Это означает, что в словаре могут встретиться подобные замены:

конечно=конЕшно
а что=а штО
парашют=прашУт
Выкладываю немного доработанный словарь. Все имеющиеся Орфоэпические замены программно исправил на замены с ударениями. Теперь получился "чистый" словарь расстановки ударений.
Ударения.zip
(27.25 МБ) 120 скачиваний
К стати, при подготовке словаря наткнулся на интересное слово: супермикроэвм при написании этого слова ну никак нельзя поставить ударение :wall: :smile3:

Аватара пользователя
flegont
V.I.P.

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

#6

Сообщение flegont »

На самом деле это - три слова, причем третье - аббревиатура, требующая раскрытия произношения:
сУпер-мИкро-эвэЭм :big_smile:

Аватара пользователя
wasyaka
V.I.P.

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

#7

Сообщение wasyaka »

tonio_k писал(а):
25 ноя 2020 16:02
Выкладываю немного доработанный словарь.
Словарик хороший, но без ложки "мёда" никак нельзя...
► Показать

Аватара пользователя
tonio_k
V.I.P.

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

#8

Сообщение tonio_k »

Смотрим на цитату :wink:
tonio_k писал(а):
31 окт 2020 01:09
Словарь не проверялся на правильность замен ударения и произношения - выкладывается "как есть".
Тем не менее, автору словаря о таких находках обязательно сообщаю. И сейчас сообщу. Но ответ иногда получаю неожиданный:
Из переписки
► Показать
Ответ:
► Показать
Посмотрел, действительно в старых словарях указывают ударение нИтяных. Даже на сайте http://morpher.ru/accentizer/ тоже ударение нИтяных . Хотя на некоторых сайтах встречал с оговоркой: правильно нИтяных, хотя сейчас чаще встречается нитянЫх.

Тем не менее, напишу автору словаря. Иногда он соглашается с выявленной ошибкой и обещает словарь поправить в следующем обновлении

Аватара пользователя
tonio_k
V.I.P.

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

#9

Сообщение tonio_k »

wasyaka писал(а):
02 фев 2021 12:00
но без ложки "мёда" никак нельзя...
На счёт вахтовика и стендовика автор словаря оперативно ответил:
► Показать

Аватара пользователя
wasyaka
V.I.P.

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

#10

Сообщение wasyaka »

ромка=ромкА
ромке=ромкЕ
ромки=ромкИ
ромку=ромкУ

Это для "ромалов",
а для "пацанов" - регистр надо (яндекс про "ромалов" не в курсе...) :tongue2:

Аватара пользователя
tonio_k
V.I.P.

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

#11

Сообщение tonio_k »

wasyaka писал(а):
06 фев 2021 10:53
ромка=ромкА
ответ автора словаря:
► Показать
Видать это слово (его разговорный вариант) не рассматривается словарями.

Аватара пользователя
wasyaka
V.I.P.

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

#12

Сообщение wasyaka »

tonio_k писал(а):
10 фев 2021 08:27
Видать это слово (его разговорный вариант) не рассматривается словарями.
А города?
чернобыле=чернобЫле
чернобыль=чернобЫль
чернобылю=чернобЫлю
чернобыля=чернобЫля

Аватара пользователя
wasyaka
V.I.P.

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

#13

Сообщение wasyaka »

Почистил словарь от дубликатов типа
абзетцер=Абзетцер
абзетцер=АбзЕтцер
В указанном выше слове ударение следует ставить на слог с первой буквой Е — абзЕтцер.
Все с двойным ударением в конце файла отделенные знаком
\\\\\\\\\\\\\\
NEW_Орфоэпия без дбк.txt
(72.6 МБ) 91 скачивание

Аватара пользователя
tonio_k
V.I.P.

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

#14

Сообщение tonio_k »

wasyaka писал(а):
10 фев 2021 10:26
А города?
чернобыле=чернобЫле
чернобыль=чернобЫль
чернобылю=чернобЫлю
чернобыля=чернобЫля
походу не города...
чернобыл — полынь обыкновенная, чернобыльник, чернобыль Словарь русских синонимов. чернобыл сущ., кол во синонимов: 5 • полынь обыкновенная https://dic.academic.ru/dic.nsf/ogegova/265954

Аватара пользователя
wasyaka
V.I.P.

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

#15

Сообщение wasyaka »

засветим=засветИм
В указанном выше слове ударение ставят на слог с буквой Е — засвЕтим.
Сеня=сенЯ???

Аватара пользователя
Lecron
Специалист

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

#16

Сообщение Lecron »

wasyaka писал(а):
18 фев 2021 14:51
засвЕтим
Формально, это омограф. Будущее время — засвЕтим, повелительное наклонение — засветИм.
Реально — засвЕтим действительно применяется на порядок чаще.

Аватара пользователя
wasyaka
V.I.P.

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

#17

Сообщение wasyaka »

Lecron писал(а):
18 фев 2021 18:31
Формально, это омограф
Филолог из меня никакой, поэтому пользуюсь:
► Показать

Аватара пользователя
Lecron
Специалист

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

#18

Сообщение Lecron »

wasyaka писал(а):
18 фев 2021 20:21
Филолог из меня никакой, поэтому пользуюсь:
Не поверите, из меня тоже.
Снимок.PNG
Снимок.PNG (51.19 КБ) 2115 просмотров
Непосредственных ударений нет, но есть все формы, ударение для которых несложно поставить в голове. ЗасветИ мне в глаз. ЗасветИм им в глаз. ЗасветИте им в глаз.

Аватара пользователя
wasyaka
V.I.P.

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

#19

Сообщение wasyaka »

► Показать
► Показать

Аватара пользователя
wasyaka
V.I.P.

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

#20

Сообщение wasyaka »

распродадут=распродАдут
► Показать
???
садко=сАдко
Википедия:
► Показать
сайт «Где-ударение.рф»
► Показать
https://udarenieru.ru/
► Показать
:tongue2:

Аватара пользователя
Lecron
Специалист

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

#21

Сообщение Lecron »

Возясь с новым движком озвучки, где для каждого слова надо ставить ударение, вспомнил про недавнюю идею разбить слова на слоги и найти закономерности ударений.
Для слога "бай" получилась такая схема:
► Показать
Полный список, с правилами которые шаблоны "зацепили":
text.txt
(25.37 КБ) 25 скачиваний
Позволит сократить словарь на 583-48=535 правил, только для одного слога. Не самого редкого, но и не самого популярного. Пока учитывал только шаблоны, которые "цепляют" более 2 правил. Если добавить двух-правиловые, эффект может еще возрасти.

Ошибок нет. Если есть хоть одно слово противоречащее шаблону, шаблон не формируется. Пока не дорабатывал расположение звездочек. Некоторые правила могут быть "стебай*.

Есть ли интерес сообщества к такому шаблонизированному орфоэпику? Если есть, какое количество шаблонизируемых правил стоит принять за норму — больше 1, больше 2 или еще более грубый фильтр?

Аватара пользователя
tonio_k
V.I.P.

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

#22

Сообщение tonio_k »

Идея интересная для меня хотя бы для предварительной расстановки ударений в словах, которые из-за "извращений" в стиле: "нашего любимого краснобАйчика обгибАйковича". Ведь такие извращения ни в каком словаре не предусмотреть/не прописать.
В моем случае ваш словарь со * будет применён первым для предварительной расстановки ударений затем уже обычный словарь для корректировки вероятных ложных срабатываний.
Lecron писал(а):
04 апр 2021 13:59
какое количество шаблонизируемых правил стоит принять за норму — больше 1, больше 2 или еще более грубый фильтр?
это на ваше усмотрение. Только опытным путём можно оценить достаточность шаблона. А если после вашего словаря ещё будет применён основной словарь то оценку ещё труднее будет дать. Только если применять словари отдельно к корпусу, выявлять разницу и оценивать расходения

Аватара пользователя
Lecron
Специалист

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

#23

Сообщение Lecron »

tonio_k писал(а):
04 апр 2021 14:42
это на ваше усмотрение. Только опытным путём можно оценить достаточность шаблона.
Вы кажется не поняли. Ищутся ВСЕ непротиворечивые шаблоны. Даже если такому шаблону соответствует всего одно правило. Остальное просто фильтр по результату. Но заменять "бвгаде=бвгАде" -> "бвга*=бвгА" просто нелепо. Экономии нет. Есть ли смысл заменять 2 точных правила на 1 шаблон (экономия 1 строки в словаре)?

Аватара пользователя
tonio_k
V.I.P.

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

#24

Сообщение tonio_k »

Lecron писал(а):
04 апр 2021 15:42
Есть ли смысл заменять 2 точных правила на 1 шаблон (экономия 1 строки в словаре)?
если только ради уменьшения размера словаря, то смысла особого нет

Аватара пользователя
Lecron
Специалист

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

#25

Сообщение Lecron »

Столкнулся с проблемами обработки буквы ё в алгоритме шаблонизации.
Заодно нашел ошибки в словаре
боченочник=бочЁночник
боченочника=бочёнОчника
боченочникам=бочёнОчникам
боченочниками=бочёнОчниками
боченочниках=бочёнОчниках
боченочнике=бочёнОчнике
боченочники=бочёнОчники
боченочников=бочёнОчников
боченочником=бочёнОчником
боченочнику=бочёнОчнику
"вертолетостроителе" со словоформами — ад и израиль.
вспоешь=вспОёшь
выбьетесь=вЫбьётесь
выбьется=вЫбьётся
выбьешься=вЫбьёшься
Дальше не стал искать. Кому интересно, поиск по букве "ё" с учетом регистра.

Аватара пользователя
Lecron
Специалист

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

#26

Сообщение Lecron »

Исходник орфоэпика из этого сообщения.

Из обработки исключены правила из нескольких слов, содержащие дефис, несколько ударений и где левая часть не равна правой (без учета ё). К сожалению в "остатке", файле словаря содержащим необрабатываемые правила и правила для которых не найдены обобщающие закономерности, нарушена сортировка.

Всего обработано 16341 разных ударных слогов. Создано 140500 шаблонных правил, которые заменили 2221000 константных (1:16). Как оказалось, компьютеру было где поработать. Потрачено 23 минуты одного ядра i5-4440. Людям такая работа точно не подвластна. Это кстати отсылка, к работе того же самого алгоритма для поиска закономерностей омографов.

В архиве файлы с "остатком", шаблонами и лог замен.
orfoepic_wildcard.zip
(18.45 МБ) 37 скачиваний

Аватара пользователя
flegont
V.I.P.

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

#27

Сообщение flegont »

Lecron писал(а):
07 апр 2021 19:14
К сожалению в "остатке" ... нарушена сортировка.
Открываем orfoepic_wildcardю.txt в Демагоге. Потом:
"Правка - Текст - Сортировка строк - Обычная"

Аватара пользователя
Lecron
Специалист

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

#28

Сообщение Lecron »

flegont писал(а):
07 апр 2021 19:42
Открываем orfoepic_wildcardю.txt в Демагоге. Потом:
"Правка - Текст - Сортировка строк - Обычная"
Только наверное orfoepic_rest.txt.
wildcard сортировать наверное не стоит. Правила расположены по порядку популярности. Чем выше, тем больше слов оно охватывает.

Аватара пользователя
flegont
V.I.P.

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

#29

Сообщение flegont »

да, точно, orfoepic_rest.txt

Аватара пользователя
Lecron
Специалист

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

#30

Сообщение Lecron »

Нашел системную ошибку в шаблонизации. Не в алгоритме, а на уровне постановки задачи.
Допустим найден шаблон рАж-ни, но соседнее слово может оказаться враж-нИ (условно). Слог рАж/враж различается, отчего алгоритм не может увидеть и учесть такого соседа.

Переделал для работы непосредственно с буквами. Пришлось повозится. Например буква "а" встречается в обрабатываемых правилах почти 3 млн раз и для каждого вхождения нужно создать объект контекста, содержащий все возможные комбинации окружающих гласную буквосочетаний, а потом найти непротиворичевые обобщения. Память — в облака, производительность — в ноль.

Дополнительно к списку необрабатываемых правил добавлены содержащие более одного изменения. Т.е. единственным отличием правой части от левой допускается ударная гласная.
Всего обрабатывается 2889910 правил из 2918551 или ~99%. Теоретически это может повлиять на результат, практически — маловероятно. В основном исключены сложносоставные слова и многословные правила, каждое слово из которых, встречается в словаре и по отдельности.

Группировку провел с окном:
2 символа кр(акОзя)бра, найдено шаблонов: 20639, остаток константных правил: 1879595, эффективность 1:50
k2.zip
(12.02 МБ) 34 скачивания
3 символа к(ракОзяб)ра, найдено шаблонов: 50655, остаток константных правил: 924770, эффективность 1:39
k3.zip
(12.55 МБ) 31 скачивание
4 символа (кракОзябр)а, найдено шаблонов: 70436, остаток константных правил: 489273, эффективность 1:34
k4.zip
(12.78 МБ) 32 скачивания
На больший размер окна не хватило оперативки. Уже к4 подсвопливался. Эффективность в целом, в 2-3 раза лучше, чем у ошибочного метода по слогам.

Есть ощущение, что стоит проверить на совпадения с шаблонами большие общераспространеные словари. Если их почистить от "дубликатов", не останется почти ничего.

Аватара пользователя
Lecron
Специалист

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

#31

Сообщение Lecron »

wasyaka, Вижу, вы чаще всего радеете за корректность словаря. Остаток от моей шаблонизации для этого хорошо подходит. Буквально за минуту просмотра в других целях, наткнулся на как минимум спорные правила:
язь=Язь
язю=язЮ
язя=язЯ
Что интересно, интернет-ресурсы для язЯ не видят проблем, хотя показывают, что это склонение имени. Ухо режет. Пошел к Язю. Спросил у Язя. И даже если язь это рыба, отношения не меняет — в кишках у Язя.
яицкая=ЯИцкая
яицкие=ЯИцкие
яицкий=ЯИцкий
яицким=ЯИцким
ягодиц=ЯгодИц
ягодица=ЯгодИца
Ощущение, что словарь разрешающий проблемы, превратили в словарь омографов, создающий проблемы.
юстировал=юстировАл
юстируй=юстирУй
со всеми словоформами
И опатьже, сервисы ударений проблем не видят. А вот склоняющие ресурсы, например wiktionary показывают правильную, не режущую ухо картину.

ЗЫ. Очередной раз убеждаюсь, что человек не должен заниматься тем, что может машина. Искать закономерности и прочее. А вот своим делом, разметкой исходных данных, тем что машина не может, должен заниматься внимательно. И тогда машина покажет своё.

Аватара пользователя
wasyaka
V.I.P.

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

#32

Сообщение wasyaka »

Lecron писал(а):
11 апр 2021 13:04
wasyaka, Вижу, вы чаще всего радеете за корректность словаря. Остаток от моей шаблонизации для этого хорошо подходит. Буквально за минуту просмотра в других целях, наткнулся на как минимум спорные правила:
Только не пойму зачем шаблонизация - всё устраивает и в существующем формате...
А ошибки - куда ж без них - были есть и будут...
Но уменьшить их кол-во пытаюсь...

Аватара пользователя
Lecron
Специалист

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

#33

Сообщение Lecron »

wasyaka писал(а):
14 апр 2021 20:45
Только не пойму зачем шаблонизация - всё устраивает и в существующем формате...
Мне понадобилось ставить ударение в каждом слове. Словообразование у современных авторов безгранично, а словарь не настолько полон как вам кажется. Если без шаблонизации ударение ставилось на моем тестовом отрывке в 94% слов, после нее, почти в 99%. И как ни странно, ставилось правильно :)
Зачем мне 795 правил, которые можно заменить одним *айск*=Айск? Причем шаблон покрывает также все словоформы Бискайский (залив), который в основном словаре отсутствует. А еще есть город Зарайск и наверняка много другого.
Плюс мой алгоритм почти не теряет скорость от использования шаблонов. Это куда эффективнее, чем загружать 3 млн готовых словоформ.

Кстати, по поводу существующего формата. А вы уверены, что это действительно лучший, а не вариант от безысходности? Который просто не попадал в руки способному применить к нему числовые алгоритмы, а "причесывать" вручную, такое просто невозможно. Что и подтверждается множеством косяков.

Ответить

Вернуться в «Тематические словари»