Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
- tonio_k
- V.I.P.
-
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Создан на основе словаря:
Полная парадигма. Морфология. Частотный словарь. Совмещенный словарь. Автор М. Хаген.
Взят с сайта:
http://www.speakrus.ru/dict/
(здесь много других словарей, в т.ч. специализированных)
Словарь получился Орфоэпический т.е. заменяет в тексте слова на их произношение и ставит ударение. Это означает, что в словаре могут встретиться подобные замены:
конечно=конЕшно
а что=а штО
парашют=прашУт
Из словаря удалены правила для слов-омографов по списку взятого из словаря all_omographs.hmg (от good_cat). А так же правила, которые Демагог выводит как ошибочные.
Судя по всему, основной словарь на сайте иногда обновляется. Так что обновления возможны.
Словарь не проверялся на правильность замен ударения и произношения - выкладывается "как есть".
В архиве присутствуют два варианта словаря:
NEW_Орфоэпия.dic - ударение ставится путем замены ударной гласной на заглАвную букву
NEW_Орфоэпия+.dic - ударение ставится путем добавления "+" перед ударной гласной
Полная парадигма. Морфология. Частотный словарь. Совмещенный словарь. Автор М. Хаген.
Взят с сайта:
http://www.speakrus.ru/dict/
(здесь много других словарей, в т.ч. специализированных)
Словарь получился Орфоэпический т.е. заменяет в тексте слова на их произношение и ставит ударение. Это означает, что в словаре могут встретиться подобные замены:
конечно=конЕшно
а что=а штО
парашют=прашУт
Из словаря удалены правила для слов-омографов по списку взятого из словаря all_omographs.hmg (от good_cat). А так же правила, которые Демагог выводит как ошибочные.
Судя по всему, основной словарь на сайте иногда обновляется. Так что обновления возможны.
Словарь не проверялся на правильность замен ударения и произношения - выкладывается "как есть".
Орфоэпия.zip
- (27.18 МБ) 155 скачиваний
NEW_Орфоэпия.dic - ударение ставится путем замены ударной гласной на заглАвную букву
NEW_Орфоэпия+.dic - ударение ставится путем добавления "+" перед ударной гласной
tonio_k
- Piligrim
- Обыватель
-
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Огромнейшее спасибо!!!
Я использую NEW_Орфоэпия+.dic таким образом:
Озвучиваю текст, затем прослушиваю аудио и читаю оригинал. Там, где ошибка произношения, выделяю слово красным цветом. После прочитки выбираю выделенные слова и ищу пару в Вашем словаре, копирую и вставляю в рабочий словарь, таким образом пополняя его. Яндекс очень редко ставит неправильные ударения, но благодаря рабочему словарю, все огрехи постепенно будут удалены.
К сожалению Алёна быстро читает и нет возможности уменьшить скорость. Приходится использовать сторонние программы уже после озвучки текста.
Piligrim
- tonio_k
- V.I.P.
-
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Надо попробовать (эксперимента ради) сделать Орфоэпический словарь замены слова на его фонетическую транскрипцию ipa и посмотреть, может с таким словарем Максим станет ударения ставить в словах по умолчанию правильно? А где ошибается вносить в поправки в словарь? Но боюсь, что тогда Максим будет звучать как Яндекс после прогона всего текста этим словарём. Т.е. исправим в одном месте, сломаем в другом.
К стати, эти транскрипции понимает голос Владмир от ЦРТ...
К стати, эти транскрипции понимает голос Владмир от ЦРТ...
tonio_k
- good_cat
- Администратор
-
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Именно так и будет. Править словарями надо только то, что необходимо.
good_cat
- tonio_k
- V.I.P.
-
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Выкладываю немного доработанный словарь. Все имеющиеся Орфоэпические замены программно исправил на замены с ударениями. Теперь получился "чистый" словарь расстановки ударений.
Ударения.zip
- (27.25 МБ) 120 скачиваний


tonio_k
- wasyaka
- V.I.P.
-
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Словарик хороший, но без ложки "мёда" никак нельзя...
► Показать
Код: Выделить всё
вахтовика=вахтовИка
вахтовикам=вахтовИкам
вахтовиками=вахтовИками
вахтовиках=вахтовИках
вахтовике=вахтовИке
вахтовики=вахтовИки
вахтовиков=вахтовИков
вахтовиком=вахтовИком
вахтовику=вахтовИку
стендовика=стендовИка
стендовикам=стендовИкам
стендовиками=стендовИками
стендовиках=стендовИках
стендовике=стендовИке
стендовики=стендовИки
стендовиков=стендовИков
стендовиком=стендовИком
стендовику=стендовИку
wasyaka
- tonio_k
- V.I.P.
-
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Смотрим на цитату
Из переписки
Ответ:
Посмотрел, действительно в старых словарях указывают ударение нИтяных. Даже на сайте http://morpher.ru/accentizer/ тоже ударение нИтяных . Хотя на некоторых сайтах встречал с оговоркой: правильно нИтяных, хотя сейчас чаще встречается нитянЫх.
Тем не менее, напишу автору словаря. Иногда он соглашается с выявленной ошибкой и обещает словарь поправить в следующем обновлении

Тем не менее, автору словаря о таких находках обязательно сообщаю. И сейчас сообщу. Но ответ иногда получаю неожиданный:
Из переписки
► Показать
> сомнительное ударения: Если это слово "нить" (нитка) то ударение вроде должно быть на последний слог
>
> нитяный | прл ед муж им | ни'тяный | 0.8 | | | 110956
> нитяного | прл ед муж род | ни'тяного | 519396
> нитяному | прл ед муж дат | ни'тяному | 519397
> нитяного | прл ед муж вин одуш | ни'тяного | 519401
> нитяный | прл ед муж вин неод | ни'тяный | 519398
> нитяным | прл ед муж тв | ни'тяным | 519399
> нитяном | прл ед муж пр | ни'тяном | 519400
> нитяная | прл ед жен им | ни'тяная | 713666
> нитяной | прл ед жен род | ни'тяной | 713667
> нитяной | прл ед жен дат | ни'тяной | 713668
> нитяную | прл ед жен вин | ни'тяную | 713669
> нитяною | прл ед жен тв | ни'тяною | 713672
> нитяной | прл ед жен тв | ни'тяной | 713670
> нитяной | прл ед жен пр | ни'тяной | 713671
> нитяное | прл ед ср им | ни'тяное | 887056
> нитяного | прл ед ср род | ни'тяного | 887057
> нитяному | прл ед ср дат | ни'тяному | 887058
> нитяное | прл ед ср вин | ни'тяное | 887059
> нитяным | прл ед ср тв | ни'тяным | 887060
> нитяном | прл ед ср пр | ни'тяном | 887061
> нитяные | прл мн им | ни'тяные | 1107578
> нитяных | прл мн род | ни'тяных | 1107579
> нитяным | прл мн дат | ни'тяным | 1107580
> нитяные | прл мн вин неод | ни'тяные | 1107581
> нитяных | прл мн вин одуш | ни'тяных | 1107584
> нитяными | прл мн тв | ни'тяными | 1107582
> нитяных | прл мн пр | ни'тяных | 1107583
>
> нитяный | прл ед муж им | ни'тяный | 0.8 | | | 110956
> нитяного | прл ед муж род | ни'тяного | 519396
> нитяному | прл ед муж дат | ни'тяному | 519397
> нитяного | прл ед муж вин одуш | ни'тяного | 519401
> нитяный | прл ед муж вин неод | ни'тяный | 519398
> нитяным | прл ед муж тв | ни'тяным | 519399
> нитяном | прл ед муж пр | ни'тяном | 519400
> нитяная | прл ед жен им | ни'тяная | 713666
> нитяной | прл ед жен род | ни'тяной | 713667
> нитяной | прл ед жен дат | ни'тяной | 713668
> нитяную | прл ед жен вин | ни'тяную | 713669
> нитяною | прл ед жен тв | ни'тяною | 713672
> нитяной | прл ед жен тв | ни'тяной | 713670
> нитяной | прл ед жен пр | ни'тяной | 713671
> нитяное | прл ед ср им | ни'тяное | 887056
> нитяного | прл ед ср род | ни'тяного | 887057
> нитяному | прл ед ср дат | ни'тяному | 887058
> нитяное | прл ед ср вин | ни'тяное | 887059
> нитяным | прл ед ср тв | ни'тяным | 887060
> нитяном | прл ед ср пр | ни'тяном | 887061
> нитяные | прл мн им | ни'тяные | 1107578
> нитяных | прл мн род | ни'тяных | 1107579
> нитяным | прл мн дат | ни'тяным | 1107580
> нитяные | прл мн вин неод | ни'тяные | 1107581
> нитяных | прл мн вин одуш | ни'тяных | 1107584
> нитяными | прл мн тв | ни'тяными | 1107582
> нитяных | прл мн пр | ни'тяных | 1107583
► Показать
Здравствуйте! Данные взяты с https://yandex.kz/search/?text=%D0%BD%D ... 01&win=218 ; 2, 3 и 4 ссылки.
С уважением, М. Хаген
С уважением, М. Хаген
Тем не менее, напишу автору словаря. Иногда он соглашается с выявленной ошибкой и обещает словарь поправить в следующем обновлении
tonio_k
- tonio_k
- V.I.P.
-
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
На счёт вахтовика и стендовика автор словаря оперативно ответил:
► Показать
Здравствуйте! Спасибо, ошибки исправлены; в следующем выпуске будет видно.
С уважением, М. Хаген
С уважением, М. Хаген
tonio_k
- tonio_k
- V.I.P.
-
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
ответ автора словаря:
► Показать
Здравствуйте! Ударение по источнику https://ru.wiktionary.org/wiki/%D1%80%D ... 0%BE%D0%BA
М. Хаген
М. Хаген
tonio_k
- wasyaka
- V.I.P.
-
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
А города?
чернобыле=чернобЫле
чернобыль=чернобЫль
чернобылю=чернобЫлю
чернобыля=чернобЫля
wasyaka
- wasyaka
- V.I.P.
-
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Почистил словарь от дубликатов типа
абзетцер=Абзетцер
абзетцер=АбзЕтцер
В указанном выше слове ударение следует ставить на слог с первой буквой Е — абзЕтцер.
Все с двойным ударением в конце файла отделенные знаком
\\\\\\\\\\\\\\
абзетцер=Абзетцер
абзетцер=АбзЕтцер
В указанном выше слове ударение следует ставить на слог с первой буквой Е — абзЕтцер.
Все с двойным ударением в конце файла отделенные знаком
\\\\\\\\\\\\\\
NEW_Орфоэпия без дбк.txt
- (72.6 МБ) 91 скачивание
wasyaka
- tonio_k
- V.I.P.
-
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
походу не города...
чернобыл — полынь обыкновенная, чернобыльник, чернобыль Словарь русских синонимов. чернобыл сущ., кол во синонимов: 5 • полынь обыкновенная https://dic.academic.ru/dic.nsf/ogegova/265954
tonio_k
- Lecron
- Специалист
-
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Не поверите, из меня тоже.
- Снимок.PNG (51.19 КБ) 2115 просмотров
Lecron
- wasyaka
- V.I.P.
-
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
► Показать
йогурт=йОгУрт
йогурта=йОгУрта
йогуртам=йОгУртам
йогуртами=йОгУртами
йогуртах=йОгУртах
йогурте=йОгУрте
йогуртниц=йогУртниц
йогуртница=йогУртница
йогуртницам=йогУртницам
йогуртницами=йогУртницами
йогуртницах=йогУртницах
йогуртнице=йогУртнице
йогуртницей=йогУртницей
йогуртницею=йогУртницею
йогуртницу=йогУртницу
йогуртницы=йогУртницы
йогуртов=йОгУртов
йогуртовая=йогУртовая
йогуртового=йогУртового
йогуртовое=йогУртовое
йогуртовой=йогУртовой
йогуртовом=йогУртовом
йогуртовому=йогУртовому
йогуртовою=йогУртовою
йогуртовую=йогУртовую
йогуртовые=йогУртовые
йогуртовый=йогУртовый
йогуртовым=йогУртовым
йогуртовыми=йогУртовыми
йогуртовых=йогУртовых
йогуртом=йОгУртом
йогурту=йОгУрту
йогурты=йОгУрты
йогурта=йОгУрта
йогуртам=йОгУртам
йогуртами=йОгУртами
йогуртах=йОгУртах
йогурте=йОгУрте
йогуртниц=йогУртниц
йогуртница=йогУртница
йогуртницам=йогУртницам
йогуртницами=йогУртницами
йогуртницах=йогУртницах
йогуртнице=йогУртнице
йогуртницей=йогУртницей
йогуртницею=йогУртницею
йогуртницу=йогУртницу
йогуртницы=йогУртницы
йогуртов=йОгУртов
йогуртовая=йогУртовая
йогуртового=йогУртового
йогуртовое=йогУртовое
йогуртовой=йогУртовой
йогуртовом=йогУртовом
йогуртовому=йогУртовому
йогуртовою=йогУртовою
йогуртовую=йогУртовую
йогуртовые=йогУртовые
йогуртовый=йогУртовый
йогуртовым=йогУртовым
йогуртовыми=йогУртовыми
йогуртовых=йогУртовых
йогуртом=йОгУртом
йогурту=йОгУрту
йогурты=йОгУрты
► Показать
- 2021-02-27_224121.png (61.75 КБ) 1910 просмотров
wasyaka
- wasyaka
- V.I.P.
-
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
распродадут=распродАдут
???
садко=сАдко
Википедия:
сайт «Где-ударение.рф»
https://udarenieru.ru/

► Показать
В упомянутом выше слове ударение следует ставить на слог с буквой У — распродадУт.
садко=сАдко
Википедия:
► Показать
В оригинальных текстах имя Садко склоняется по парадигме, свойственной в северорусском наречии всем словам с суффиксом -ко:
Им. падеж — Садко́
Род. падеж — Садка́
Дат. падеж — Садку́
Вин. падеж — Садка́
Твор. падеж — Садко́м
Предл. падеж — о Садке́
Им. падеж — Садко́
Род. падеж — Садка́
Дат. падеж — Садку́
Вин. падеж — Садка́
Твор. падеж — Садко́м
Предл. падеж — о Садке́
► Показать
В данном слове ударение падает на слог с буквой А — сАдко.
Маленький Са́дко был страшно взволнован тем, что видит Са́дко настоящего.
Маленький Са́дко был страшно взволнован тем, что видит Са́дко настоящего.
► Показать
Склонение и ударение в слове «Садко»
Садко́: мо 0, § 21
Значение и толкование слова «садко»
!Ефремова Т.Ф.
са́дко нареч. разг.
1. Соотносится по знач. с прил.: садкий (5,6).
Новый словарь русского языка. Толково-словообразовательный. Ефремова Т.Ф. — М.: Рус. яз., 2000.
Садко́: мо 0, § 21
Значение и толкование слова «садко»
!Ефремова Т.Ф.
са́дко нареч. разг.
1. Соотносится по знач. с прил.: садкий (5,6).
Новый словарь русского языка. Толково-словообразовательный. Ефремова Т.Ф. — М.: Рус. яз., 2000.

wasyaka
- Lecron
- Специалист
-
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Возясь с новым движком озвучки, где для каждого слова надо ставить ударение, вспомнил про недавнюю идею разбить слова на слоги и найти закономерности ударений.
Для слога "бай" получилась такая схема:
Полный список, с правилами которые шаблоны "зацепили":
Позволит сократить словарь на 583-48=535 правил, только для одного слога. Не самого редкого, но и не самого популярного. Пока учитывал только шаблоны, которые "цепляют" более 2 правил. Если добавить двух-правиловые, эффект может еще возрасти.
Ошибок нет. Если есть хоть одно слово противоречащее шаблону, шаблон не формируется. Пока не дорабатывал расположение звездочек. Некоторые правила могут быть "стебай*.
Есть ли интерес сообщества к такому шаблонизированному орфоэпику? Если есть, какое количество шаблонизируемых правил стоит принять за норму — больше 1, больше 2 или еще более грубый фильтр?
Для слога "бай" получилась такая схема:
► Показать
*абАй*
*бАйеро*
*бАйкер*
*бАйке*
*бАйково*
*бАйроно*
*бАйско*
*бАйто*
*бАйхо*
*вгибАй*
*врубАй*
*габАй*
*гибАй*
*гребАй*
*дгибАй*
*дохлебАй*
*друбАй*
*згибАй*
*зрубАй*
*зябАй*
*кебАй*
*килобАй*
*краснобАй*
*лебАй*
*обгибАй*
*обрубАй*
*обшибАй*
*отгибАй*
*отгребАй*
*отрубАй*
*отскребАй*
*отшибАй*
*подгребАй*
*подскребАй*
*подшибАй*
*разгребАй*
*рубАй*
*сгибАй*
*сгребАй*
*скребАй*
*срубАй*
*стебАй*
*схлебАй*
*сшибАй*
*улыбАй*
*шибАй*
*шкандыбАй*
*бАйеро*
*бАйкер*
*бАйке*
*бАйково*
*бАйроно*
*бАйско*
*бАйто*
*бАйхо*
*вгибАй*
*врубАй*
*габАй*
*гибАй*
*гребАй*
*дгибАй*
*дохлебАй*
*друбАй*
*згибАй*
*зрубАй*
*зябАй*
*кебАй*
*килобАй*
*краснобАй*
*лебАй*
*обгибАй*
*обрубАй*
*обшибАй*
*отгибАй*
*отгребАй*
*отрубАй*
*отскребАй*
*отшибАй*
*подгребАй*
*подскребАй*
*подшибАй*
*разгребАй*
*рубАй*
*сгибАй*
*сгребАй*
*скребАй*
*срубАй*
*стебАй*
*схлебАй*
*сшибАй*
*улыбАй*
*шибАй*
*шкандыбАй*
text.txt
- (25.37 КБ) 25 скачиваний
Ошибок нет. Если есть хоть одно слово противоречащее шаблону, шаблон не формируется. Пока не дорабатывал расположение звездочек. Некоторые правила могут быть "стебай*.
Есть ли интерес сообщества к такому шаблонизированному орфоэпику? Если есть, какое количество шаблонизируемых правил стоит принять за норму — больше 1, больше 2 или еще более грубый фильтр?
Lecron
- tonio_k
- V.I.P.
-
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Идея интересная для меня хотя бы для предварительной расстановки ударений в словах, которые из-за "извращений" в стиле: "нашего любимого краснобАйчика обгибАйковича". Ведь такие извращения ни в каком словаре не предусмотреть/не прописать.
В моем случае ваш словарь со * будет применён первым для предварительной расстановки ударений затем уже обычный словарь для корректировки вероятных ложных срабатываний.
В моем случае ваш словарь со * будет применён первым для предварительной расстановки ударений затем уже обычный словарь для корректировки вероятных ложных срабатываний.
это на ваше усмотрение. Только опытным путём можно оценить достаточность шаблона. А если после вашего словаря ещё будет применён основной словарь то оценку ещё труднее будет дать. Только если применять словари отдельно к корпусу, выявлять разницу и оценивать расходения
tonio_k
- Lecron
- Специалист
-
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Вы кажется не поняли. Ищутся ВСЕ непротиворечивые шаблоны. Даже если такому шаблону соответствует всего одно правило. Остальное просто фильтр по результату. Но заменять "бвгаде=бвгАде" -> "бвга*=бвгА" просто нелепо. Экономии нет. Есть ли смысл заменять 2 точных правила на 1 шаблон (экономия 1 строки в словаре)?
Lecron
- Lecron
- Специалист
-
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Столкнулся с проблемами обработки буквы ё в алгоритме шаблонизации.
Заодно нашел ошибки в словаре
Заодно нашел ошибки в словаре
"вертолетостроителе" со словоформами — ад и израиль.боченочник=бочЁночник
боченочника=бочёнОчника
боченочникам=бочёнОчникам
боченочниками=бочёнОчниками
боченочниках=бочёнОчниках
боченочнике=бочёнОчнике
боченочники=бочёнОчники
боченочников=бочёнОчников
боченочником=бочёнОчником
боченочнику=бочёнОчнику
вспоешь=вспОёшь
Дальше не стал искать. Кому интересно, поиск по букве "ё" с учетом регистра.выбьетесь=вЫбьётесь
выбьется=вЫбьётся
выбьешься=вЫбьёшься
Lecron
- Lecron
- Специалист
-
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Исходник орфоэпика из этого сообщения.
Из обработки исключены правила из нескольких слов, содержащие дефис, несколько ударений и где левая часть не равна правой (без учета ё). К сожалению в "остатке", файле словаря содержащим необрабатываемые правила и правила для которых не найдены обобщающие закономерности, нарушена сортировка.
Всего обработано 16341 разных ударных слогов. Создано 140500 шаблонных правил, которые заменили 2221000 константных (1:16). Как оказалось, компьютеру было где поработать. Потрачено 23 минуты одного ядра i5-4440. Людям такая работа точно не подвластна. Это кстати отсылка, к работе того же самого алгоритма для поиска закономерностей омографов.
В архиве файлы с "остатком", шаблонами и лог замен.
Из обработки исключены правила из нескольких слов, содержащие дефис, несколько ударений и где левая часть не равна правой (без учета ё). К сожалению в "остатке", файле словаря содержащим необрабатываемые правила и правила для которых не найдены обобщающие закономерности, нарушена сортировка.
Всего обработано 16341 разных ударных слогов. Создано 140500 шаблонных правил, которые заменили 2221000 константных (1:16). Как оказалось, компьютеру было где поработать. Потрачено 23 минуты одного ядра i5-4440. Людям такая работа точно не подвластна. Это кстати отсылка, к работе того же самого алгоритма для поиска закономерностей омографов.
В архиве файлы с "остатком", шаблонами и лог замен.
orfoepic_wildcard.zip
- (18.45 МБ) 37 скачиваний
Lecron
- Lecron
- Специалист
-
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Только наверное orfoepic_rest.txt.
wildcard сортировать наверное не стоит. Правила расположены по порядку популярности. Чем выше, тем больше слов оно охватывает.
Lecron
- Lecron
- Специалист
-
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Нашел системную ошибку в шаблонизации. Не в алгоритме, а на уровне постановки задачи.
Допустим найден шаблон рАж-ни, но соседнее слово может оказаться враж-нИ (условно). Слог рАж/враж различается, отчего алгоритм не может увидеть и учесть такого соседа.
Переделал для работы непосредственно с буквами. Пришлось повозится. Например буква "а" встречается в обрабатываемых правилах почти 3 млн раз и для каждого вхождения нужно создать объект контекста, содержащий все возможные комбинации окружающих гласную буквосочетаний, а потом найти непротиворичевые обобщения. Память — в облака, производительность — в ноль.
Дополнительно к списку необрабатываемых правил добавлены содержащие более одного изменения. Т.е. единственным отличием правой части от левой допускается ударная гласная.
Всего обрабатывается 2889910 правил из 2918551 или ~99%. Теоретически это может повлиять на результат, практически — маловероятно. В основном исключены сложносоставные слова и многословные правила, каждое слово из которых, встречается в словаре и по отдельности.
Группировку провел с окном:
2 символа кр(акОзя)бра, найдено шаблонов: 20639, остаток константных правил: 1879595, эффективность 1:50
3 символа к(ракОзяб)ра, найдено шаблонов: 50655, остаток константных правил: 924770, эффективность 1:39
4 символа (кракОзябр)а, найдено шаблонов: 70436, остаток константных правил: 489273, эффективность 1:34
На больший размер окна не хватило оперативки. Уже к4 подсвопливался. Эффективность в целом, в 2-3 раза лучше, чем у ошибочного метода по слогам.
Есть ощущение, что стоит проверить на совпадения с шаблонами большие общераспространеные словари. Если их почистить от "дубликатов", не останется почти ничего.
Допустим найден шаблон рАж-ни, но соседнее слово может оказаться враж-нИ (условно). Слог рАж/враж различается, отчего алгоритм не может увидеть и учесть такого соседа.
Переделал для работы непосредственно с буквами. Пришлось повозится. Например буква "а" встречается в обрабатываемых правилах почти 3 млн раз и для каждого вхождения нужно создать объект контекста, содержащий все возможные комбинации окружающих гласную буквосочетаний, а потом найти непротиворичевые обобщения. Память — в облака, производительность — в ноль.
Дополнительно к списку необрабатываемых правил добавлены содержащие более одного изменения. Т.е. единственным отличием правой части от левой допускается ударная гласная.
Всего обрабатывается 2889910 правил из 2918551 или ~99%. Теоретически это может повлиять на результат, практически — маловероятно. В основном исключены сложносоставные слова и многословные правила, каждое слово из которых, встречается в словаре и по отдельности.
Группировку провел с окном:
2 символа кр(акОзя)бра, найдено шаблонов: 20639, остаток константных правил: 1879595, эффективность 1:50
k2.zip
- (12.02 МБ) 34 скачивания
k3.zip
- (12.55 МБ) 31 скачивание
k4.zip
- (12.78 МБ) 32 скачивания
Есть ощущение, что стоит проверить на совпадения с шаблонами большие общераспространеные словари. Если их почистить от "дубликатов", не останется почти ничего.
Lecron
- Lecron
- Специалист
-
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
wasyaka, Вижу, вы чаще всего радеете за корректность словаря. Остаток от моей шаблонизации для этого хорошо подходит. Буквально за минуту просмотра в других целях, наткнулся на как минимум спорные правила:
ЗЫ. Очередной раз убеждаюсь, что человек не должен заниматься тем, что может машина. Искать закономерности и прочее. А вот своим делом, разметкой исходных данных, тем что машина не может, должен заниматься внимательно. И тогда машина покажет своё.
Что интересно, интернет-ресурсы для язЯ не видят проблем, хотя показывают, что это склонение имени. Ухо режет. Пошел к Язю. Спросил у Язя. И даже если язь это рыба, отношения не меняет — в кишках у Язя.язь=Язь
язю=язЮ
язя=язЯ
яицкая=ЯИцкая
яицкие=ЯИцкие
яицкий=ЯИцкий
яицким=ЯИцким
Ощущение, что словарь разрешающий проблемы, превратили в словарь омографов, создающий проблемы.ягодиц=ЯгодИц
ягодица=ЯгодИца
И опатьже, сервисы ударений проблем не видят. А вот склоняющие ресурсы, например wiktionary показывают правильную, не режущую ухо картину.юстировал=юстировАл
юстируй=юстирУй
со всеми словоформами
ЗЫ. Очередной раз убеждаюсь, что человек не должен заниматься тем, что может машина. Искать закономерности и прочее. А вот своим делом, разметкой исходных данных, тем что машина не может, должен заниматься внимательно. И тогда машина покажет своё.
Lecron
- wasyaka
- V.I.P.
-
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Только не пойму зачем шаблонизация - всё устраивает и в существующем формате...
А ошибки - куда ж без них - были есть и будут...
Но уменьшить их кол-во пытаюсь...
wasyaka
- Lecron
- Специалист
-
Словарь Орфоэпический в формате замен dic (для Балаболки и Демагога)
Мне понадобилось ставить ударение в каждом слове. Словообразование у современных авторов безгранично, а словарь не настолько полон как вам кажется. Если без шаблонизации ударение ставилось на моем тестовом отрывке в 94% слов, после нее, почти в 99%. И как ни странно, ставилось правильно :)
Зачем мне 795 правил, которые можно заменить одним *айск*=Айск? Причем шаблон покрывает также все словоформы Бискайский (залив), который в основном словаре отсутствует. А еще есть город Зарайск и наверняка много другого.
Плюс мой алгоритм почти не теряет скорость от использования шаблонов. Это куда эффективнее, чем загружать 3 млн готовых словоформ.
Кстати, по поводу существующего формата. А вы уверены, что это действительно лучший, а не вариант от безысходности? Который просто не попадал в руки способному применить к нему числовые алгоритмы, а "причесывать" вручную, такое просто невозможно. Что и подтверждается множеством косяков.
Lecron
Вернуться в «Тематические словари»
Перейти
- Общая информация
- ↳ Сведения, обсуждения
- ↳ Отзывы
- Примеры звучания речевых синтезаторов
- ↳ Примеры звучания голосов на Windows
- Online TTS
- ↳ Онлайн-сервисы для синтеза речи
- Программы, использующие синтез речи в Windows
- ↳ Bazikalo
- ↳ BookMania
- ↳ Bormotuha TTS Tool
- ↳ Demagog
- ↳ DSpeech
- ↳ Homograph
- ↳ KooBAudio
- ↳ MP3Book2005
- ↳ Rozmovlyalka
- ↳ TextAloud
- ↳ Балаболка
- Русские голосовые движки для Windows
- ↳ Acapela-Group Alyona
- ↳ Ivona Татьяна и Максим
- ↳ Loquendo Ольга и Дмитрий
- ↳ Nuance Милена, Юрий и Катя
- ↳ Nuance Катерина
- ↳ RHVoice
- ↳ Sakrament TTS
- ↳ Speech Cube Elan Николай
- ↳ Vikno tts Олег
- ↳ Речевой синтезатор Иван
- ↳ Синтезатор речи - Голос
- Украинские голосовые движки для Windows
- ↳ UkrVox Игорь
- Иностранные голоса
- ↳ английские
- ↳ румынские
- Лингвистика
- ↳ Омонимия
- ↳ Обработка текста
- ↳ Тематические словари
- ↳ Программы для обработки текста
- ↳ TTS-Builds
- ↳ Обработка звука
- ↳ Разное
- Полезные материалы
- ↳ Книги, статьи
- ↳ Аудио
- Художественная литература
- ↳ Библиотека
- Творчество
- ↳ Песни речевых синтезаторов
- ↳ Аудиоспектакли с применением синтеза речи
- Модерирование
- ↳ Кабинет модераторов
- ↳ Корзина