Страница 1 из 1

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

Добавлено: 31 окт 2020 01:09
tonio_k
Создан на основе словаря:
Полная парадигма. Морфология. Частотный словарь. Совмещенный словарь. Автор М. Хаген.

Взят с сайта:
http://www.speakrus.ru/dict/
(здесь много других словарей, в т.ч. специализированных)

Словарь получился Орфоэпический т.е. заменяет в тексте слова на их произношение и ставит ударение. Это означает, что в словаре могут встретиться подобные замены:

конечно=конЕшно
а что=а штО
парашют=прашУт


Из словаря удалены правила для слов-омографов по списку взятого из словаря all_omographs.hmg (от good_cat). А так же правила, которые Демагог выводит как ошибочные.

Судя по всему, основной словарь на сайте иногда обновляется. Так что обновления возможны.

Словарь не проверялся на правильность замен ударения и произношения - выкладывается "как есть".
Орфоэпия.zip
(27.18 МБ) 155 скачиваний
В архиве присутствуют два варианта словаря:
NEW_Орфоэпия.dic - ударение ставится путем замены ударной гласной на заглАвную букву
NEW_Орфоэпия+.dic - ударение ставится путем добавления "+" перед ударной гласной

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

Добавлено: 31 окт 2020 12:50
Piligrim
tonio_k писал(а):
31 окт 2020 01:09
В архиве присутствуют два варианта словаря:
NEW_Орфоэпия.dic - ударение ставится путем замены ударной гласной на заглАвную букву
NEW_Орфоэпия+.dic - ударение ставится путем добавления "+" перед ударной гласной
Огромнейшее спасибо!!!
Я использую NEW_Орфоэпия+.dic таким образом:
Озвучиваю текст, затем прослушиваю аудио и читаю оригинал. Там, где ошибка произношения, выделяю слово красным цветом. После прочитки выбираю выделенные слова и ищу пару в Вашем словаре, копирую и вставляю в рабочий словарь, таким образом пополняя его. Яндекс очень редко ставит неправильные ударения, но благодаря рабочему словарю, все огрехи постепенно будут удалены.
К сожалению Алёна быстро читает и нет возможности уменьшить скорость. Приходится использовать сторонние программы уже после озвучки текста.

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

Добавлено: 04 ноя 2020 01:17
tonio_k
Надо попробовать (эксперимента ради) сделать Орфоэпический словарь замены слова на его фонетическую транскрипцию ipa и посмотреть, может с таким словарем Максим станет ударения ставить в словах по умолчанию правильно? А где ошибается вносить в поправки в словарь? Но боюсь, что тогда Максим будет звучать как Яндекс после прогона всего текста этим словарём. Т.е. исправим в одном месте, сломаем в другом.
К стати, эти транскрипции понимает голос Владмир от ЦРТ...

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

Добавлено: 04 ноя 2020 10:47
good_cat
tonio_k писал(а):
04 ноя 2020 01:17
Но боюсь, что тогда Максим будет звучать как Яндекс после прогона всего текста этим словарём. Т.е. исправим в одном месте, сломаем в другом.
Именно так и будет. Править словарями надо только то, что необходимо.

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

Добавлено: 25 ноя 2020 16:02
tonio_k
tonio_k писал(а):
31 окт 2020 01:09
Словарь получился Орфоэпический т.е. заменяет в тексте слова на их произношение и ставит ударение. Это означает, что в словаре могут встретиться подобные замены:

конечно=конЕшно
а что=а штО
парашют=прашУт
Выкладываю немного доработанный словарь. Все имеющиеся Орфоэпические замены программно исправил на замены с ударениями. Теперь получился "чистый" словарь расстановки ударений.
Ударения.zip
(27.25 МБ) 120 скачиваний
К стати, при подготовке словаря наткнулся на интересное слово: супермикроэвм при написании этого слова ну никак нельзя поставить ударение :wall: :smile3:

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

Добавлено: 25 ноя 2020 16:54
flegont
На самом деле это - три слова, причем третье - аббревиатура, требующая раскрытия произношения:
сУпер-мИкро-эвэЭм :big_smile:

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

Добавлено: 02 фев 2021 12:00
wasyaka
tonio_k писал(а):
25 ноя 2020 16:02
Выкладываю немного доработанный словарь.
Словарик хороший, но без ложки "мёда" никак нельзя...
► Показать

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

Добавлено: 02 фев 2021 12:31
tonio_k
Смотрим на цитату :wink:
tonio_k писал(а):
31 окт 2020 01:09
Словарь не проверялся на правильность замен ударения и произношения - выкладывается "как есть".
Тем не менее, автору словаря о таких находках обязательно сообщаю. И сейчас сообщу. Но ответ иногда получаю неожиданный:
Из переписки
► Показать
Ответ:
► Показать
Посмотрел, действительно в старых словарях указывают ударение нИтяных. Даже на сайте http://morpher.ru/accentizer/ тоже ударение нИтяных . Хотя на некоторых сайтах встречал с оговоркой: правильно нИтяных, хотя сейчас чаще встречается нитянЫх.

Тем не менее, напишу автору словаря. Иногда он соглашается с выявленной ошибкой и обещает словарь поправить в следующем обновлении

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

Добавлено: 02 фев 2021 13:04
tonio_k
wasyaka писал(а):
02 фев 2021 12:00
но без ложки "мёда" никак нельзя...
На счёт вахтовика и стендовика автор словаря оперативно ответил:
► Показать

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

Добавлено: 06 фев 2021 10:53
wasyaka
ромка=ромкА
ромке=ромкЕ
ромки=ромкИ
ромку=ромкУ

Это для "ромалов",
а для "пацанов" - регистр надо (яндекс про "ромалов" не в курсе...) :tongue2:

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

Добавлено: 10 фев 2021 08:27
tonio_k
wasyaka писал(а):
06 фев 2021 10:53
ромка=ромкА
ответ автора словаря:
► Показать
Видать это слово (его разговорный вариант) не рассматривается словарями.

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

Добавлено: 10 фев 2021 10:26
wasyaka
tonio_k писал(а):
10 фев 2021 08:27
Видать это слово (его разговорный вариант) не рассматривается словарями.
А города?
чернобыле=чернобЫле
чернобыль=чернобЫль
чернобылю=чернобЫлю
чернобыля=чернобЫля

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

Добавлено: 15 фев 2021 17:34
wasyaka
Почистил словарь от дубликатов типа
абзетцер=Абзетцер
абзетцер=АбзЕтцер
В указанном выше слове ударение следует ставить на слог с первой буквой Е — абзЕтцер.
Все с двойным ударением в конце файла отделенные знаком
\\\\\\\\\\\\\\
NEW_Орфоэпия без дбк.txt
(72.6 МБ) 91 скачивание

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

Добавлено: 16 фев 2021 10:36
tonio_k
wasyaka писал(а):
10 фев 2021 10:26
А города?
чернобыле=чернобЫле
чернобыль=чернобЫль
чернобылю=чернобЫлю
чернобыля=чернобЫля
походу не города...
чернобыл — полынь обыкновенная, чернобыльник, чернобыль Словарь русских синонимов. чернобыл сущ., кол во синонимов: 5 • полынь обыкновенная https://dic.academic.ru/dic.nsf/ogegova/265954

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

Добавлено: 18 фев 2021 14:51
wasyaka
засветим=засветИм
В указанном выше слове ударение ставят на слог с буквой Е — засвЕтим.
Сеня=сенЯ???

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

Добавлено: 18 фев 2021 18:31
Lecron
wasyaka писал(а):
18 фев 2021 14:51
засвЕтим
Формально, это омограф. Будущее время — засвЕтим, повелительное наклонение — засветИм.
Реально — засвЕтим действительно применяется на порядок чаще.

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

Добавлено: 18 фев 2021 20:21
wasyaka
Lecron писал(а):
18 фев 2021 18:31
Формально, это омограф
Филолог из меня никакой, поэтому пользуюсь:
► Показать

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

Добавлено: 19 фев 2021 09:13
Lecron
wasyaka писал(а):
18 фев 2021 20:21
Филолог из меня никакой, поэтому пользуюсь:
Не поверите, из меня тоже.
Снимок.PNG
Снимок.PNG (51.19 КБ) 2116 просмотров
Непосредственных ударений нет, но есть все формы, ударение для которых несложно поставить в голове. ЗасветИ мне в глаз. ЗасветИм им в глаз. ЗасветИте им в глаз.

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

Добавлено: 27 фев 2021 22:47
wasyaka
► Показать
► Показать

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

Добавлено: 15 мар 2021 11:27
wasyaka
распродадут=распродАдут
► Показать
???
садко=сАдко
Википедия:
► Показать
сайт «Где-ударение.рф»
► Показать
https://udarenieru.ru/
► Показать
:tongue2:

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

Добавлено: 04 апр 2021 13:59
Lecron
Возясь с новым движком озвучки, где для каждого слова надо ставить ударение, вспомнил про недавнюю идею разбить слова на слоги и найти закономерности ударений.
Для слога "бай" получилась такая схема:
► Показать
Полный список, с правилами которые шаблоны "зацепили":
text.txt
(25.37 КБ) 25 скачиваний
Позволит сократить словарь на 583-48=535 правил, только для одного слога. Не самого редкого, но и не самого популярного. Пока учитывал только шаблоны, которые "цепляют" более 2 правил. Если добавить двух-правиловые, эффект может еще возрасти.

Ошибок нет. Если есть хоть одно слово противоречащее шаблону, шаблон не формируется. Пока не дорабатывал расположение звездочек. Некоторые правила могут быть "стебай*.

Есть ли интерес сообщества к такому шаблонизированному орфоэпику? Если есть, какое количество шаблонизируемых правил стоит принять за норму — больше 1, больше 2 или еще более грубый фильтр?

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

Добавлено: 04 апр 2021 14:42
tonio_k
Идея интересная для меня хотя бы для предварительной расстановки ударений в словах, которые из-за "извращений" в стиле: "нашего любимого краснобАйчика обгибАйковича". Ведь такие извращения ни в каком словаре не предусмотреть/не прописать.
В моем случае ваш словарь со * будет применён первым для предварительной расстановки ударений затем уже обычный словарь для корректировки вероятных ложных срабатываний.
Lecron писал(а):
04 апр 2021 13:59
какое количество шаблонизируемых правил стоит принять за норму — больше 1, больше 2 или еще более грубый фильтр?
это на ваше усмотрение. Только опытным путём можно оценить достаточность шаблона. А если после вашего словаря ещё будет применён основной словарь то оценку ещё труднее будет дать. Только если применять словари отдельно к корпусу, выявлять разницу и оценивать расходения

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

Добавлено: 04 апр 2021 15:42
Lecron
tonio_k писал(а):
04 апр 2021 14:42
это на ваше усмотрение. Только опытным путём можно оценить достаточность шаблона.
Вы кажется не поняли. Ищутся ВСЕ непротиворечивые шаблоны. Даже если такому шаблону соответствует всего одно правило. Остальное просто фильтр по результату. Но заменять "бвгаде=бвгАде" -> "бвга*=бвгА" просто нелепо. Экономии нет. Есть ли смысл заменять 2 точных правила на 1 шаблон (экономия 1 строки в словаре)?

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

Добавлено: 04 апр 2021 16:52
tonio_k
Lecron писал(а):
04 апр 2021 15:42
Есть ли смысл заменять 2 точных правила на 1 шаблон (экономия 1 строки в словаре)?
если только ради уменьшения размера словаря, то смысла особого нет

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

Добавлено: 06 апр 2021 14:24
Lecron
Столкнулся с проблемами обработки буквы ё в алгоритме шаблонизации.
Заодно нашел ошибки в словаре
боченочник=бочЁночник
боченочника=бочёнОчника
боченочникам=бочёнОчникам
боченочниками=бочёнОчниками
боченочниках=бочёнОчниках
боченочнике=бочёнОчнике
боченочники=бочёнОчники
боченочников=бочёнОчников
боченочником=бочёнОчником
боченочнику=бочёнОчнику
"вертолетостроителе" со словоформами — ад и израиль.
вспоешь=вспОёшь
выбьетесь=вЫбьётесь
выбьется=вЫбьётся
выбьешься=вЫбьёшься
Дальше не стал искать. Кому интересно, поиск по букве "ё" с учетом регистра.

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

Добавлено: 07 апр 2021 19:14
Lecron
Исходник орфоэпика из этого сообщения.

Из обработки исключены правила из нескольких слов, содержащие дефис, несколько ударений и где левая часть не равна правой (без учета ё). К сожалению в "остатке", файле словаря содержащим необрабатываемые правила и правила для которых не найдены обобщающие закономерности, нарушена сортировка.

Всего обработано 16341 разных ударных слогов. Создано 140500 шаблонных правил, которые заменили 2221000 константных (1:16). Как оказалось, компьютеру было где поработать. Потрачено 23 минуты одного ядра i5-4440. Людям такая работа точно не подвластна. Это кстати отсылка, к работе того же самого алгоритма для поиска закономерностей омографов.

В архиве файлы с "остатком", шаблонами и лог замен.
orfoepic_wildcard.zip
(18.45 МБ) 37 скачиваний

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

Добавлено: 07 апр 2021 19:42
flegont
Lecron писал(а):
07 апр 2021 19:14
К сожалению в "остатке" ... нарушена сортировка.
Открываем orfoepic_wildcardю.txt в Демагоге. Потом:
"Правка - Текст - Сортировка строк - Обычная"

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

Добавлено: 08 апр 2021 09:58
Lecron
flegont писал(а):
07 апр 2021 19:42
Открываем orfoepic_wildcardю.txt в Демагоге. Потом:
"Правка - Текст - Сортировка строк - Обычная"
Только наверное orfoepic_rest.txt.
wildcard сортировать наверное не стоит. Правила расположены по порядку популярности. Чем выше, тем больше слов оно охватывает.

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

Добавлено: 08 апр 2021 11:32
flegont
да, точно, orfoepic_rest.txt

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

Добавлено: 10 апр 2021 17:45
Lecron
Нашел системную ошибку в шаблонизации. Не в алгоритме, а на уровне постановки задачи.
Допустим найден шаблон рАж-ни, но соседнее слово может оказаться враж-нИ (условно). Слог рАж/враж различается, отчего алгоритм не может увидеть и учесть такого соседа.

Переделал для работы непосредственно с буквами. Пришлось повозится. Например буква "а" встречается в обрабатываемых правилах почти 3 млн раз и для каждого вхождения нужно создать объект контекста, содержащий все возможные комбинации окружающих гласную буквосочетаний, а потом найти непротиворичевые обобщения. Память — в облака, производительность — в ноль.

Дополнительно к списку необрабатываемых правил добавлены содержащие более одного изменения. Т.е. единственным отличием правой части от левой допускается ударная гласная.
Всего обрабатывается 2889910 правил из 2918551 или ~99%. Теоретически это может повлиять на результат, практически — маловероятно. В основном исключены сложносоставные слова и многословные правила, каждое слово из которых, встречается в словаре и по отдельности.

Группировку провел с окном:
2 символа кр(акОзя)бра, найдено шаблонов: 20639, остаток константных правил: 1879595, эффективность 1:50
k2.zip
(12.02 МБ) 34 скачивания
3 символа к(ракОзяб)ра, найдено шаблонов: 50655, остаток константных правил: 924770, эффективность 1:39
k3.zip
(12.55 МБ) 31 скачивание
4 символа (кракОзябр)а, найдено шаблонов: 70436, остаток константных правил: 489273, эффективность 1:34
k4.zip
(12.78 МБ) 32 скачивания
На больший размер окна не хватило оперативки. Уже к4 подсвопливался. Эффективность в целом, в 2-3 раза лучше, чем у ошибочного метода по слогам.

Есть ощущение, что стоит проверить на совпадения с шаблонами большие общераспространеные словари. Если их почистить от "дубликатов", не останется почти ничего.

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

Добавлено: 11 апр 2021 13:04
Lecron
wasyaka, Вижу, вы чаще всего радеете за корректность словаря. Остаток от моей шаблонизации для этого хорошо подходит. Буквально за минуту просмотра в других целях, наткнулся на как минимум спорные правила:
язь=Язь
язю=язЮ
язя=язЯ
Что интересно, интернет-ресурсы для язЯ не видят проблем, хотя показывают, что это склонение имени. Ухо режет. Пошел к Язю. Спросил у Язя. И даже если язь это рыба, отношения не меняет — в кишках у Язя.
яицкая=ЯИцкая
яицкие=ЯИцкие
яицкий=ЯИцкий
яицким=ЯИцким
ягодиц=ЯгодИц
ягодица=ЯгодИца
Ощущение, что словарь разрешающий проблемы, превратили в словарь омографов, создающий проблемы.
юстировал=юстировАл
юстируй=юстирУй
со всеми словоформами
И опатьже, сервисы ударений проблем не видят. А вот склоняющие ресурсы, например wiktionary показывают правильную, не режущую ухо картину.

ЗЫ. Очередной раз убеждаюсь, что человек не должен заниматься тем, что может машина. Искать закономерности и прочее. А вот своим делом, разметкой исходных данных, тем что машина не может, должен заниматься внимательно. И тогда машина покажет своё.

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

Добавлено: 14 апр 2021 20:45
wasyaka
Lecron писал(а):
11 апр 2021 13:04
wasyaka, Вижу, вы чаще всего радеете за корректность словаря. Остаток от моей шаблонизации для этого хорошо подходит. Буквально за минуту просмотра в других целях, наткнулся на как минимум спорные правила:
Только не пойму зачем шаблонизация - всё устраивает и в существующем формате...
А ошибки - куда ж без них - были есть и будут...
Но уменьшить их кол-во пытаюсь...

Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)

Добавлено: 15 апр 2021 09:13
Lecron
wasyaka писал(а):
14 апр 2021 20:45
Только не пойму зачем шаблонизация - всё устраивает и в существующем формате...
Мне понадобилось ставить ударение в каждом слове. Словообразование у современных авторов безгранично, а словарь не настолько полон как вам кажется. Если без шаблонизации ударение ставилось на моем тестовом отрывке в 94% слов, после нее, почти в 99%. И как ни странно, ставилось правильно :)
Зачем мне 795 правил, которые можно заменить одним *айск*=Айск? Причем шаблон покрывает также все словоформы Бискайский (залив), который в основном словаре отсутствует. А еще есть город Зарайск и наверняка много другого.
Плюс мой алгоритм почти не теряет скорость от использования шаблонов. Это куда эффективнее, чем загружать 3 млн готовых словоформ.

Кстати, по поводу существующего формата. А вы уверены, что это действительно лучший, а не вариант от безысходности? Который просто не попадал в руки способному применить к нему числовые алгоритмы, а "причесывать" вручную, такое просто невозможно. Что и подтверждается множеством косяков.