Словарь коррекции текста

Популярный голосовой модуль, работает на SAPI-5\SAPI-4 с частотой 22 КГц , имеет хорошее качество синтезируемой речи, тембр голоса и выразительную интонацию.
Ответить
Аватара пользователя
evmir_troll-hunter
Администратор

Словарь коррекции текста

#1

Сообщение evmir_troll-hunter »

corr1.jpg
corr1.jpg (45.59 КБ) 11147 просмотров

Дополнительный словарь к основному словарю замен, корректирующий текст для лучшей расстановки ударений.

:download: Словарь коррекции текста

:gcopyr: evilone

Словарь содержит правила на основе регулярных выражений, и предназначен для работы в TTS-программах при чтении и записи в аудиофайл текстовых файлов с использованием пакетов речевых функций SAPI4\SAPI5.

В зависимости от нужных функций в словаре предусмотрен расширенный выбор правил. Для исключения нужного правила используйте символ #(решетка) в начале нужной строки.
Для лучшей расстановки замен в программе Балаболка в настройках нужно выбрать опцию "Применять правила к большим по размеру частям текста"


Особенности словаря:
  1. Ошибки распознавания текста. Используется для текста содержащего латинские буквы одинаковые по начертанию с кириллицей. Данное правило существенного замедляет работу для большого по объему текста.
  2. Замена звездочек паузой.
  3. Удаление лишних звездочек в тексте. Все разделители в тексте, как правило, три звездочки можно заменить паузой, все остальные удаляется правилом.
  4. Удаление ссылок и html-мусора в тексте.
  5. Замена тире и дефиса.
  6. Дубликаты символов. Данное правило удаляет более одного идущего подряд символа для любителей злоупотреблять в тексте конструкциями вида: «---------------------», «===========», «!!!???» и т.п.
  7. Удаление букв через дефис в словах, напр. Ура-а-а-а! А-а-а-а! и т.п.
  8. Разрыв строки внутри абзаца. Удаляет переносы строк внутри абзаца. Актуально для текста обработанного программой Книгодел. Аналогична функциям форматирования текста в программах Балаболка и Демагог.
  9. Замена нескольких пустых строк одной. Удаляет лишние пустые строки в тексте.
  10. Удаление текста в скобках {}[]<>. Для использования в тексте SAPI4\SAPI5 тегов данное правило необходимо закомментировать.
  11. Удаление более одного пробела. Удаляет в тексте лишние пробелы.
  12. Пробел между буквой и цифрой. Корректирует правильную расстановку пробелов между буквой и цифрой согласно правилам набора текста.
  13. Пробел между буквой и знаком препинания. Корректирует правильную расстановку пробелов возле знаков препинания согласно правилам набора текста.
  14. Коррекция ошибок произношения. Правила для исправления ошибок произношения.
  15. Коррекция произношения слов с частицей "-то" образующей особые формы слов.
  16. Коррекция ошибок произношения при произношении сложносоставных слов с числительными вида 123слово.
Несколько важных (системных) правок на примерах:
:pdf icon: Исправления


По определённой причине словарь обновляться не будет.



Из моего давнего письма к evilone_:
Проблема; некоторые омографы с 1-й прописной буквой не ассоциируются с омо-лексом! Это касается не только фамилий – "ТолстОй" и "ДалИ", но и других словоформ напр. "ЧумА/ЧУма".
Почему-то для Алёны "чумА", "чУма", "ЧумА", "ЧУма" совершенно разные слова.

Дублирование таких форм в лексикон омографов считаю неправильным – вместо 2 вариантов слова будет 4,. Лекс превратится в долгооткрывающийся фолиант!
поэтому позже в корректоре появились правила "убивающие" прописные литеры. :gun:
► Показать

Ответить

Вернуться в «Acapela-Group Alyona»