Страница 1 из 1

Большой словарь замен

Добавлено: 21 июн 2018 23:21
evmir_troll-hunter
r_e_omograpf.jpg
r_e_omograpf.jpg (63.14 КБ) 10696 просмотров

:download: Большой словарь замен

:gcopyr: retigor, E. Miroshnychenko

Словарь замен для подготовки текста к чтению и записи в TTS-программах. Состоит из нескольких частей по 50000 правил в каждой.
Правила формировались по принципу шаблонных фраз. Точность фраз от 70 до 90%.
Принцип построения правил подразумевает активное использование Частотного лексикона; в Словарь внесены только редкие варианты омографов.

Пример:
Анализ показал, что слово зАмок встречается 411 раз, а замОк - 189; значит в Частотный лекс добавим транскрипцию замок #z A1 m @ k NOUN, а в Словарь пишем правила лишь с "замОк" + падежи и т.д.

Спецсортировка для удобства редактирования - она не влияет на быстродействие, точность и пр. В каждой TTS-программе реализован свой алгоритм замен.
Это тестовые файлы. В дальнейшем Словарь будет состоять из 30-50 (может больше) блоков наиболее популярных омографов по 5-10 тысяч правил\блок, 10 блоков\часть.


Отредактировано 05.03.14-22:03 - 1-я часть в архиве дополнена 10-ю тыс. правил с около 400 разными омографами.