Словарь коррекции текста
Добавлено: 08 авг 2018 18:28
Словарь коррекции текста (дополнительный словарь для основного словаря замен корректирующий текст для лучшей расстановки ударений).
Словарь коррекции текста
Особенности словаря:
Словарь коррекции текста
Особенности словаря:
- Ошибки распознавания текста. Используется для текста содержащего латинские буквы одинаковые по начертанию с кириллицей содержащиеся в русских словах. Данное правило существенного замедляет работу для большого по объему текста.
- Замена звездочек паузой. Данное правило актуально только для голоса Acapela-Group Alyona (Алёна) с подключенным лексиконом для запрета чтения разделительных знаков. Для остальных голосов предусмотрено использовать аналогичную замену через SAPI4\SAPI5 теги, предварительно закомментировав правило №8.
- Удаление лишних звездочек в тексте. Все разделители в тексте, как правило, три звездочки можно заменить паузой, все остальные удаляет данное правило.
- Удаление ссылок и html-мусора в тексте.
- Дубликаты символов. Данное правило удаляет более одного идущего подряд символа для любителей злоупотреблять в тексте конструкциями вида: «---------------------», «===========», «!!!???» и т.п.
- Удаление букв через дефис в словах, напр. Ура-а-а-а! А-а-а-а! и т.п.
Разрыв строки внутри абзаца. Удаляет переносы строк внутри абзаца. Аналогична функциям форматирования текста в программах «Балаболка» и «Демагог». - Замена нескольких пустых строк одной. Удаляет лишние пустые строки в тексте.
- Удаление текста в скобках {}[]<>. Для использования в тексте SAPI4\SAPI5 тегов данное правило необходимо закомментировать.
- Удаление более одного пробела. Удаляет в тексте лишние пробелы.
- Пробел между буквой и цифрой. Корректирует правильную расстановку пробелов между буквой и цифрой согласно правилам набора текста.
- Пробел между буквой и знаком препинания. Корректирует правильную расстановку пробелов возле знаков препинания согласно правилам набора текста.
Коррекция ошибок произношения (только для голоса Acapela-Group Alyona (Алёна)). Правила для исправления ошибок произношения. - Замена ударных гласных. Нужно только для использования со словарями от голосового движка «Алена» для других голосов. Замена производится в два этапа: на первом этапе необходимо подключить словари corector-olga.rex и omograph_rules.dic (словарь замен Алены), на втором словарь-фильтр alenka-to-olga.dic для Ольги. В самом тексте, сначала производится замена всех ударных гласных на строчные, затем производится поиск и расстановка ударений для омографов, и на последнем этапе, замена ударных гласных формата Алены к формату Ольги.