Большой словарь замен
Добавлено: 21 июн 2018 23:21
Большой словарь замен
retigor, E. Miroshnychenko
Словарь замен для подготовки текста к чтению и записи в TTS-программах. Состоит из нескольких частей по 50000 правил в каждой.
Правила формировались по принципу шаблонных фраз. Точность фраз от 70 до 90%.
Принцип построения правил подразумевает активное использование Частотного лексикона; в Словарь внесены только редкие варианты омографов.
Пример:
Анализ показал, что слово зАмок встречается 411 раз, а замОк - 189; значит в Частотный лекс добавим транскрипцию замок #z A1 m @ k NOUN, а в Словарь пишем правила лишь с "замОк" + падежи и т.д.
Спецсортировка для удобства редактирования - она не влияет на быстродействие, точность и пр. В каждой TTS-программе реализован свой алгоритм замен.
Это тестовые файлы. В дальнейшем Словарь будет состоять из 30-50 (может больше) блоков наиболее популярных омографов по 5-10 тысяч правил\блок, 10 блоков\часть.
Отредактировано 05.03.14-22:03 - 1-я часть в архиве дополнена 10-ю тыс. правил с около 400 разными омографами.