Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
- tonio_k
- V.I.P.
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Создан на основе словаря:
Полная парадигма. Морфология. Частотный словарь. Совмещенный словарь. Автор М. Хаген.
Взят с сайта:
http://www.speakrus.ru/dict/
(здесь много других словарей, в т.ч. специализированных)
Словарь получился Орфоэпический т.е. заменяет в тексте слова на их произношение и ставит ударение. Это означает, что в словаре могут встретиться подобные замены:
конечно=конЕшно
а что=а штО
парашют=прашУт
Из словаря удалены правила для слов-омографов по списку взятого из словаря all_omographs.hmg (от good_cat). А так же правила, которые Демагог выводит как ошибочные.
Судя по всему, основной словарь на сайте иногда обновляется. Так что обновления возможны.
Словарь не проверялся на правильность замен ударения и произношения - выкладывается "как есть". В архиве присутствуют два варианта словаря:
NEW_Орфоэпия.dic - ударение ставится путем замены ударной гласной на заглАвную букву
NEW_Орфоэпия+.dic - ударение ставится путем добавления "+" перед ударной гласной
Полная парадигма. Морфология. Частотный словарь. Совмещенный словарь. Автор М. Хаген.
Взят с сайта:
http://www.speakrus.ru/dict/
(здесь много других словарей, в т.ч. специализированных)
Словарь получился Орфоэпический т.е. заменяет в тексте слова на их произношение и ставит ударение. Это означает, что в словаре могут встретиться подобные замены:
конечно=конЕшно
а что=а штО
парашют=прашУт
Из словаря удалены правила для слов-омографов по списку взятого из словаря all_omographs.hmg (от good_cat). А так же правила, которые Демагог выводит как ошибочные.
Судя по всему, основной словарь на сайте иногда обновляется. Так что обновления возможны.
Словарь не проверялся на правильность замен ударения и произношения - выкладывается "как есть". В архиве присутствуют два варианта словаря:
NEW_Орфоэпия.dic - ударение ставится путем замены ударной гласной на заглАвную букву
NEW_Орфоэпия+.dic - ударение ставится путем добавления "+" перед ударной гласной
- Piligrim
- Обыватель
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Огромнейшее спасибо!!!
Я использую NEW_Орфоэпия+.dic таким образом:
Озвучиваю текст, затем прослушиваю аудио и читаю оригинал. Там, где ошибка произношения, выделяю слово красным цветом. После прочитки выбираю выделенные слова и ищу пару в Вашем словаре, копирую и вставляю в рабочий словарь, таким образом пополняя его. Яндекс очень редко ставит неправильные ударения, но благодаря рабочему словарю, все огрехи постепенно будут удалены.
К сожалению Алёна быстро читает и нет возможности уменьшить скорость. Приходится использовать сторонние программы уже после озвучки текста.
- tonio_k
- V.I.P.
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Надо попробовать (эксперимента ради) сделать Орфоэпический словарь замены слова на его фонетическую транскрипцию ipa и посмотреть, может с таким словарем Максим станет ударения ставить в словах по умолчанию правильно? А где ошибается вносить в поправки в словарь? Но боюсь, что тогда Максим будет звучать как Яндекс после прогона всего текста этим словарём. Т.е. исправим в одном месте, сломаем в другом.
К стати, эти транскрипции понимает голос Владмир от ЦРТ...
К стати, эти транскрипции понимает голос Владмир от ЦРТ...
- good_cat
- Администратор
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Именно так и будет. Править словарями надо только то, что необходимо.
- tonio_k
- V.I.P.
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Выкладываю немного доработанный словарь. Все имеющиеся Орфоэпические замены программно исправил на замены с ударениями. Теперь получился "чистый" словарь расстановки ударений. К стати, при подготовке словаря наткнулся на интересное слово: супермикроэвм при написании этого слова ну никак нельзя поставить ударение
- flegont
- V.I.P.
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
На самом деле это - три слова, причем третье - аббревиатура, требующая раскрытия произношения:
сУпер-мИкро-эвэЭм
сУпер-мИкро-эвэЭм
- wasyaka
- V.I.P.
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Словарик хороший, но без ложки "мёда" никак нельзя...
► Показать
- tonio_k
- V.I.P.
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Смотрим на цитату
Из переписки
Ответ:
Посмотрел, действительно в старых словарях указывают ударение нИтяных. Даже на сайте http://morpher.ru/accentizer/ тоже ударение нИтяных . Хотя на некоторых сайтах встречал с оговоркой: правильно нИтяных, хотя сейчас чаще встречается нитянЫх.
Тем не менее, напишу автору словаря. Иногда он соглашается с выявленной ошибкой и обещает словарь поправить в следующем обновлении
Тем не менее, автору словаря о таких находках обязательно сообщаю. И сейчас сообщу. Но ответ иногда получаю неожиданный:
Из переписки
► Показать
► Показать
Тем не менее, напишу автору словаря. Иногда он соглашается с выявленной ошибкой и обещает словарь поправить в следующем обновлении
- tonio_k
- V.I.P.
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
На счёт вахтовика и стендовика автор словаря оперативно ответил:
► Показать
- wasyaka
- V.I.P.
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
ромка=ромкА
ромке=ромкЕ
ромки=ромкИ
ромку=ромкУ
Это для "ромалов",
а для "пацанов" - регистр надо (яндекс про "ромалов" не в курсе...)
ромке=ромкЕ
ромки=ромкИ
ромку=ромкУ
Это для "ромалов",
а для "пацанов" - регистр надо (яндекс про "ромалов" не в курсе...)
- tonio_k
- V.I.P.
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
ответ автора словаря:
► Показать
- wasyaka
- V.I.P.
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
А города?
чернобыле=чернобЫле
чернобыль=чернобЫль
чернобылю=чернобЫлю
чернобыля=чернобЫля
- wasyaka
- V.I.P.
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Почистил словарь от дубликатов типа
абзетцер=Абзетцер
абзетцер=АбзЕтцер
В указанном выше слове ударение следует ставить на слог с первой буквой Е — абзЕтцер.
Все с двойным ударением в конце файла отделенные знаком
\\\\\\\\\\\\\\
абзетцер=Абзетцер
абзетцер=АбзЕтцер
В указанном выше слове ударение следует ставить на слог с первой буквой Е — абзЕтцер.
Все с двойным ударением в конце файла отделенные знаком
\\\\\\\\\\\\\\
- tonio_k
- V.I.P.
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
походу не города...
чернобыл — полынь обыкновенная, чернобыльник, чернобыль Словарь русских синонимов. чернобыл сущ., кол во синонимов: 5 • полынь обыкновенная https://dic.academic.ru/dic.nsf/ogegova/265954
- wasyaka
- V.I.P.
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
засветим=засветИм
В указанном выше слове ударение ставят на слог с буквой Е — засвЕтим.
Сеня=сенЯ???
В указанном выше слове ударение ставят на слог с буквой Е — засвЕтим.
Сеня=сенЯ???
- Lecron
- Специалист
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Формально, это омограф. Будущее время — засвЕтим, повелительное наклонение — засветИм.
Реально — засвЕтим действительно применяется на порядок чаще.
- wasyaka
- V.I.P.
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Филолог из меня никакой, поэтому пользуюсь:
► Показать
- Lecron
- Специалист
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Не поверите, из меня тоже. Непосредственных ударений нет, но есть все формы, ударение для которых несложно поставить в голове. ЗасветИ мне в глаз. ЗасветИм им в глаз. ЗасветИте им в глаз.
- wasyaka
- V.I.P.
- wasyaka
- V.I.P.
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
распродадут=распродАдут
???
садко=сАдко
Википедия:
сайт «Где-ударение.рф»
https://udarenieru.ru/
► Показать
садко=сАдко
Википедия:
► Показать
► Показать
► Показать
- Lecron
- Специалист
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Возясь с новым движком озвучки, где для каждого слова надо ставить ударение, вспомнил про недавнюю идею разбить слова на слоги и найти закономерности ударений.
Для слога "бай" получилась такая схема:
Полный список, с правилами которые шаблоны "зацепили":
Позволит сократить словарь на 583-48=535 правил, только для одного слога. Не самого редкого, но и не самого популярного. Пока учитывал только шаблоны, которые "цепляют" более 2 правил. Если добавить двух-правиловые, эффект может еще возрасти.
Ошибок нет. Если есть хоть одно слово противоречащее шаблону, шаблон не формируется. Пока не дорабатывал расположение звездочек. Некоторые правила могут быть "стебай*.
Есть ли интерес сообщества к такому шаблонизированному орфоэпику? Если есть, какое количество шаблонизируемых правил стоит принять за норму — больше 1, больше 2 или еще более грубый фильтр?
Для слога "бай" получилась такая схема:
► Показать
Ошибок нет. Если есть хоть одно слово противоречащее шаблону, шаблон не формируется. Пока не дорабатывал расположение звездочек. Некоторые правила могут быть "стебай*.
Есть ли интерес сообщества к такому шаблонизированному орфоэпику? Если есть, какое количество шаблонизируемых правил стоит принять за норму — больше 1, больше 2 или еще более грубый фильтр?
- tonio_k
- V.I.P.
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Идея интересная для меня хотя бы для предварительной расстановки ударений в словах, которые из-за "извращений" в стиле: "нашего любимого краснобАйчика обгибАйковича". Ведь такие извращения ни в каком словаре не предусмотреть/не прописать.
В моем случае ваш словарь со * будет применён первым для предварительной расстановки ударений затем уже обычный словарь для корректировки вероятных ложных срабатываний.
В моем случае ваш словарь со * будет применён первым для предварительной расстановки ударений затем уже обычный словарь для корректировки вероятных ложных срабатываний.
это на ваше усмотрение. Только опытным путём можно оценить достаточность шаблона. А если после вашего словаря ещё будет применён основной словарь то оценку ещё труднее будет дать. Только если применять словари отдельно к корпусу, выявлять разницу и оценивать расходения
- Lecron
- Специалист
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Вы кажется не поняли. Ищутся ВСЕ непротиворечивые шаблоны. Даже если такому шаблону соответствует всего одно правило. Остальное просто фильтр по результату. Но заменять "бвгаде=бвгАде" -> "бвга*=бвгА" просто нелепо. Экономии нет. Есть ли смысл заменять 2 точных правила на 1 шаблон (экономия 1 строки в словаре)?
- tonio_k
- V.I.P.
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
если только ради уменьшения размера словаря, то смысла особого нет
- Lecron
- Специалист
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Столкнулся с проблемами обработки буквы ё в алгоритме шаблонизации.
Заодно нашел ошибки в словаре
Заодно нашел ошибки в словаре
"вертолетостроителе" со словоформами — ад и израиль.боченочник=бочЁночник
боченочника=бочёнОчника
боченочникам=бочёнОчникам
боченочниками=бочёнОчниками
боченочниках=бочёнОчниках
боченочнике=бочёнОчнике
боченочники=бочёнОчники
боченочников=бочёнОчников
боченочником=бочёнОчником
боченочнику=бочёнОчнику
вспоешь=вспОёшь
Дальше не стал искать. Кому интересно, поиск по букве "ё" с учетом регистра.выбьетесь=вЫбьётесь
выбьется=вЫбьётся
выбьешься=вЫбьёшься
- Lecron
- Специалист
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Исходник орфоэпика из этого сообщения.
Из обработки исключены правила из нескольких слов, содержащие дефис, несколько ударений и где левая часть не равна правой (без учета ё). К сожалению в "остатке", файле словаря содержащим необрабатываемые правила и правила для которых не найдены обобщающие закономерности, нарушена сортировка.
Всего обработано 16341 разных ударных слогов. Создано 140500 шаблонных правил, которые заменили 2221000 константных (1:16). Как оказалось, компьютеру было где поработать. Потрачено 23 минуты одного ядра i5-4440. Людям такая работа точно не подвластна. Это кстати отсылка, к работе того же самого алгоритма для поиска закономерностей омографов.
В архиве файлы с "остатком", шаблонами и лог замен.
Из обработки исключены правила из нескольких слов, содержащие дефис, несколько ударений и где левая часть не равна правой (без учета ё). К сожалению в "остатке", файле словаря содержащим необрабатываемые правила и правила для которых не найдены обобщающие закономерности, нарушена сортировка.
Всего обработано 16341 разных ударных слогов. Создано 140500 шаблонных правил, которые заменили 2221000 константных (1:16). Как оказалось, компьютеру было где поработать. Потрачено 23 минуты одного ядра i5-4440. Людям такая работа точно не подвластна. Это кстати отсылка, к работе того же самого алгоритма для поиска закономерностей омографов.
В архиве файлы с "остатком", шаблонами и лог замен.
- flegont
- V.I.P.
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Открываем orfoepic_wildcardю.txt в Демагоге. Потом:
"Правка - Текст - Сортировка строк - Обычная"
- Lecron
- Специалист
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Только наверное orfoepic_rest.txt.
wildcard сортировать наверное не стоит. Правила расположены по порядку популярности. Чем выше, тем больше слов оно охватывает.
- flegont
- V.I.P.
- Lecron
- Специалист
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Нашел системную ошибку в шаблонизации. Не в алгоритме, а на уровне постановки задачи.
Допустим найден шаблон рАж-ни, но соседнее слово может оказаться враж-нИ (условно). Слог рАж/враж различается, отчего алгоритм не может увидеть и учесть такого соседа.
Переделал для работы непосредственно с буквами. Пришлось повозится. Например буква "а" встречается в обрабатываемых правилах почти 3 млн раз и для каждого вхождения нужно создать объект контекста, содержащий все возможные комбинации окружающих гласную буквосочетаний, а потом найти непротиворичевые обобщения. Память — в облака, производительность — в ноль.
Дополнительно к списку необрабатываемых правил добавлены содержащие более одного изменения. Т.е. единственным отличием правой части от левой допускается ударная гласная.
Всего обрабатывается 2889910 правил из 2918551 или ~99%. Теоретически это может повлиять на результат, практически — маловероятно. В основном исключены сложносоставные слова и многословные правила, каждое слово из которых, встречается в словаре и по отдельности.
Группировку провел с окном:
2 символа кр(акОзя)бра, найдено шаблонов: 20639, остаток константных правил: 1879595, эффективность 1:50 3 символа к(ракОзяб)ра, найдено шаблонов: 50655, остаток константных правил: 924770, эффективность 1:39 4 символа (кракОзябр)а, найдено шаблонов: 70436, остаток константных правил: 489273, эффективность 1:34 На больший размер окна не хватило оперативки. Уже к4 подсвопливался. Эффективность в целом, в 2-3 раза лучше, чем у ошибочного метода по слогам.
Есть ощущение, что стоит проверить на совпадения с шаблонами большие общераспространеные словари. Если их почистить от "дубликатов", не останется почти ничего.
Допустим найден шаблон рАж-ни, но соседнее слово может оказаться враж-нИ (условно). Слог рАж/враж различается, отчего алгоритм не может увидеть и учесть такого соседа.
Переделал для работы непосредственно с буквами. Пришлось повозится. Например буква "а" встречается в обрабатываемых правилах почти 3 млн раз и для каждого вхождения нужно создать объект контекста, содержащий все возможные комбинации окружающих гласную буквосочетаний, а потом найти непротиворичевые обобщения. Память — в облака, производительность — в ноль.
Дополнительно к списку необрабатываемых правил добавлены содержащие более одного изменения. Т.е. единственным отличием правой части от левой допускается ударная гласная.
Всего обрабатывается 2889910 правил из 2918551 или ~99%. Теоретически это может повлиять на результат, практически — маловероятно. В основном исключены сложносоставные слова и многословные правила, каждое слово из которых, встречается в словаре и по отдельности.
Группировку провел с окном:
2 символа кр(акОзя)бра, найдено шаблонов: 20639, остаток константных правил: 1879595, эффективность 1:50 3 символа к(ракОзяб)ра, найдено шаблонов: 50655, остаток константных правил: 924770, эффективность 1:39 4 символа (кракОзябр)а, найдено шаблонов: 70436, остаток константных правил: 489273, эффективность 1:34 На больший размер окна не хватило оперативки. Уже к4 подсвопливался. Эффективность в целом, в 2-3 раза лучше, чем у ошибочного метода по слогам.
Есть ощущение, что стоит проверить на совпадения с шаблонами большие общераспространеные словари. Если их почистить от "дубликатов", не останется почти ничего.
- Lecron
- Специалист
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
wasyaka, Вижу, вы чаще всего радеете за корректность словаря. Остаток от моей шаблонизации для этого хорошо подходит. Буквально за минуту просмотра в других целях, наткнулся на как минимум спорные правила:
ЗЫ. Очередной раз убеждаюсь, что человек не должен заниматься тем, что может машина. Искать закономерности и прочее. А вот своим делом, разметкой исходных данных, тем что машина не может, должен заниматься внимательно. И тогда машина покажет своё.
Что интересно, интернет-ресурсы для язЯ не видят проблем, хотя показывают, что это склонение имени. Ухо режет. Пошел к Язю. Спросил у Язя. И даже если язь это рыба, отношения не меняет — в кишках у Язя.язь=Язь
язю=язЮ
язя=язЯ
яицкая=ЯИцкая
яицкие=ЯИцкие
яицкий=ЯИцкий
яицким=ЯИцким
Ощущение, что словарь разрешающий проблемы, превратили в словарь омографов, создающий проблемы.ягодиц=ЯгодИц
ягодица=ЯгодИца
И опатьже, сервисы ударений проблем не видят. А вот склоняющие ресурсы, например wiktionary показывают правильную, не режущую ухо картину.юстировал=юстировАл
юстируй=юстирУй
со всеми словоформами
ЗЫ. Очередной раз убеждаюсь, что человек не должен заниматься тем, что может машина. Искать закономерности и прочее. А вот своим делом, разметкой исходных данных, тем что машина не может, должен заниматься внимательно. И тогда машина покажет своё.
- wasyaka
- V.I.P.
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Только не пойму зачем шаблонизация - всё устраивает и в существующем формате...
А ошибки - куда ж без них - были есть и будут...
Но уменьшить их кол-во пытаюсь...
- Lecron
- Специалист
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Мне понадобилось ставить ударение в каждом слове. Словообразование у современных авторов безгранично, а словарь не настолько полон как вам кажется. Если без шаблонизации ударение ставилось на моем тестовом отрывке в 94% слов, после нее, почти в 99%. И как ни странно, ставилось правильно :)
Зачем мне 795 правил, которые можно заменить одним *айск*=Айск? Причем шаблон покрывает также все словоформы Бискайский (залив), который в основном словаре отсутствует. А еще есть город Зарайск и наверняка много другого.
Плюс мой алгоритм почти не теряет скорость от использования шаблонов. Это куда эффективнее, чем загружать 3 млн готовых словоформ.
Кстати, по поводу существующего формата. А вы уверены, что это действительно лучший, а не вариант от безысходности? Который просто не попадал в руки способному применить к нему числовые алгоритмы, а "причесывать" вручную, такое просто невозможно. Что и подтверждается множеством косяков.