Словарь коррекции текста
Добавлено: 21 июн 2018 21:08
Дополнительный словарь к основному словарю замен, корректирующий текст для лучшей расстановки ударений.
Словарь коррекции текста
evilone
Словарь содержит правила на основе регулярных выражений, и предназначен для работы в TTS-программах при чтении и записи в аудиофайл текстовых файлов с использованием пакетов речевых функций SAPI4\SAPI5.
В зависимости от нужных функций в словаре предусмотрен расширенный выбор правил. Для исключения нужного правила используйте символ #(решетка) в начале нужной строки.
Для лучшей расстановки замен в программе Балаболка в настройках нужно выбрать опцию "Применять правила к большим по размеру частям текста"
Особенности словаря:
- Ошибки распознавания текста. Используется для текста содержащего латинские буквы одинаковые по начертанию с кириллицей. Данное правило существенного замедляет работу для большого по объему текста.
- Замена звездочек паузой.
- Удаление лишних звездочек в тексте. Все разделители в тексте, как правило, три звездочки можно заменить паузой, все остальные удаляется правилом.
- Удаление ссылок и html-мусора в тексте.
- Замена тире и дефиса.
- Дубликаты символов. Данное правило удаляет более одного идущего подряд символа для любителей злоупотреблять в тексте конструкциями вида: «---------------------», «===========», «!!!???» и т.п.
- Удаление букв через дефис в словах, напр. Ура-а-а-а! А-а-а-а! и т.п.
- Разрыв строки внутри абзаца. Удаляет переносы строк внутри абзаца. Актуально для текста обработанного программой Книгодел. Аналогична функциям форматирования текста в программах Балаболка и Демагог.
- Замена нескольких пустых строк одной. Удаляет лишние пустые строки в тексте.
- Удаление текста в скобках {}[]<>. Для использования в тексте SAPI4\SAPI5 тегов данное правило необходимо закомментировать.
- Удаление более одного пробела. Удаляет в тексте лишние пробелы.
- Пробел между буквой и цифрой. Корректирует правильную расстановку пробелов между буквой и цифрой согласно правилам набора текста.
- Пробел между буквой и знаком препинания. Корректирует правильную расстановку пробелов возле знаков препинания согласно правилам набора текста.
- Коррекция ошибок произношения. Правила для исправления ошибок произношения.
- Коррекция произношения слов с частицей "-то" образующей особые формы слов.
- Коррекция ошибок произношения при произношении сложносоставных слов с числительными вида 123слово.
Исправления
По определённой причине словарь обновляться не будет.
Из моего давнего письма к evilone_:
поэтому позже в корректоре появились правила "убивающие" прописные литеры.Проблема; некоторые омографы с 1-й прописной буквой не ассоциируются с омо-лексом! Это касается не только фамилий – "ТолстОй" и "ДалИ", но и других словоформ напр. "ЧумА/ЧУма".
Почему-то для Алёны "чумА", "чУма", "ЧумА", "ЧУма" совершенно разные слова.
Дублирование таких форм в лексикон омографов считаю неправильным – вместо 2 вариантов слова будет 4,. Лекс превратится в долгооткрывающийся фолиант!
► Показать