Балаболка TTS

Программа "Балаболка" предназначена для воспроизведения звуков человеческого голоса с использованием любого речевого синтезатора, установленного на компьютере.

Модератор: balabolka

Ответить
Аватара пользователя
tonio_k
V.I.P.

Балаболка TTS

#101

Сообщение tonio_k »

balabolka писал(а):
13 окт 2018 00:36
У меня давно была мысль в окне "Статистика замен" показывать еще и время, потраченное на применение правила.
очень интересно! Если бы вы могли придумать алгоритм для аудита словарей rex на предмет их "тяжеловесности". Знать бы чего стоит избегать при составлении правил. Может разбить одно правило на 10 простых строк в итоге даст прирост скорости в те же 10 раз в рамках одного правила?
Вообще, тяжесть правила можно понять только экспериментальным путем? Или есть какие то рекомендации каких шаблонов при составлении правил стоит избегать?

Аватара пользователя
balabolka
V.I.P.

Балаболка TTS

#102

Сообщение balabolka »

Можно посоветовать сайт regex101.com: там можно проверить регулярное выражение, узнать количество шагов (операций) для его выполнения, а также время выполнения. Полезный инструмент для изучения работы регулярных выражений.

Аватара пользователя
Lecron
Специалист

Балаболка TTS

#103

Сообщение Lecron »

balabolka писал(а):
13 окт 2018 07:22
Можно посоветовать сайт regex101.com: там можно проверить регулярное выражение, узнать количество шагов (операций) для его выполнения, а также время выполнения.
Так можно проверить единичные правила, если подозрение уже возникло. И вряд ли сервис позволит тестировать на больших фрагментах, сопоставимых с размером книги. А анализ шагов, еще нужно уметь интерпретировать.
balabolka писал(а): "Балаболка" брала кусок текста (около 16 килобайт), применяла к этому куску все правила из выбранных словарей, затем брала следующий кусок и т.д. Но существовала одна проблема: на "стыке" двух кусков текста правила не срабатывали.
Поэтому все-таки стоит обсудить алгоритм, с позиции наименьшего зла. А зло, это лишь размер куска. В данном случае, зло абсолютное)) равное размеру всего текста.
Существуют ли межабзацные правила и насколько они распространены? Если не сильно, достаточно сдвинуть границу на конец абзаца, что при современном форматировании, в 99% совпадает с концом строки. Итого, количество гипотетических ошибок применения правил сокращено на порядки, при полном сохранении скорости обработки.
Если же распространены, можно подумать о других вариантах.

Аватара пользователя
balabolka
V.I.P.

Балаболка TTS

#104

Сообщение balabolka »

В следующей версии "Балаболки" в окно "Статистика замен" добавлю столбец "Время", а также опцию "Показать все правила". Можно будет посмотреть время выполнения каждого правила для текущего текста.
tonio_k писал(а):
13 окт 2018 02:23
Знать бы чего стоит избегать при составлении правил.
Главное, что надо помнить: если можно НЕ использовать регулярное выражение для реализации какой-либо замены, его нужно не использовать. Регулярные выражения выполняются намного медленнее, чем замены из словарей DIC, поэтому применять регулярные выражения надо очень осторожно.

К примеру, обрабатываем текст размером один мегабайт, и есть пара правил в словаре DIC:

Код: Выделить всё

$*»*= 
$*«*= 
Правила будут применены 3000 раз каждое, и на это понадобится меньше 1 миллисекунды.

А в словаре REX есть такое правило:

Код: Выделить всё

из воды=из воды<
Оно сработает 1 раз, и на это понадобится 80 миллисекунд. Такое правило надо обязательно перенести из словаря REX в словарь DIC.
tonio_k писал(а):
13 окт 2018 02:23
Вообще, тяжесть правила можно понять только экспериментальным путем?
Да, получается так. Lecron прав, что и значение количества "шагов" (которое показывает сервис regex101.com) не даст ответ на вопрос, эффективным ли образом составлено регулярное выражение, и как быстро оно будет выполняться. Надо всё проверять на реальных текстах.

Аватара пользователя
fich
Обыватель

Балаболка TTS

#105

Сообщение fich »

Lecron писал(а):
06 окт 2018 17:44
Удачи вам дальше заблуждаться в отсталости и ненужности обработок, и продолжайте тыкать мышкой, если вам удобно именно это.
Я пользую "горячие сочетания клав" по возмоге и "печатать прищуриваясь .. " мне реально - "не реально". И кстати, я веду разговор о Движке "НИКОЛАЙ".
- напишите обобщённый bat-файл. Я не очень вкуриваю, староват видите-ли.
- bat-файл на тему. Пример - Я открываю(в Балаболке) - "цикл","роман","меж-авторский опус" из энного количества книг (штук 3-5-8) сразу. Начинаю исправлять в ПЕРВОЙ №1(оригинальные имена, названия планет,зверей)естессно встречающихся во всех остальных 2,3,4,..7..книгах нажимаю -"Заменить всё" и исправление идёт На ВСЕ остальные открытые в "Балаболке" Книги 2,3,4,5,6,7... (прошерстив книгу №1 я уверен что во всех остальных книгах УДАРЕНИЯ "<" стоят и имя "Таллалойата" или планета"илликолила" не будет мне терзать слух в остальных 8 книгах)

----- Кстати, тому, кто, пользует движок "Николай" - и Балаболку версии 2.14.0.669 - озвучте у себя вот это -" все двигалось "

Аватара пользователя
tonio_k
V.I.P.

Балаболка TTS

#106

Сообщение tonio_k »

fich писал(а):
13 окт 2018 20:27
Начинаю исправлять в ПЕРВОЙ №1(оригинальные имена, названия планет,зверей)естессно встречающихся во всех остальных 2,3,4,..7..книгах нажимаю -"Заменить всё"
А может, как вариант, объединить все книги в один файл и работать уже в нём?

Аватара пользователя
wasyaka
V.I.P.

Балаболка TTS

#107

Сообщение wasyaka »

balabolka писал(а):
13 окт 2018 16:27
из воды=из воды<
Оно сработает 1 раз, и на это понадобится 80 миллисекунд. Такое правило надо обязательно перенести из словаря REX в словарь DIC.
из * воды= из (грязной,чистой солёной и т д) водЫ
из * воды=из воды(dxd, dic)- и как это правило реализовать, если реакция только на края?

Аватара пользователя
tonio_k
V.I.P.

Балаболка TTS

#108

Сообщение tonio_k »

из * воды=из водЫ
Это только в Демагоге работает.
В балаболке только через регулярные выражения REX:
\bиз (\w+) воды=из $1 водЫ


Отправлено спустя 10 минут 14 секунд:
Есть и недостаток в этом правиле:
из * воды=из водЫ
Оно сработает так же и на :
Никак не могли достать из воды. Воды здесь были мутные.
Хотя это и маловероятная комбинация, стоит учитывать, что звёздочка это любое слово и абсолютно любой знак препинания, в т.ч. и точка. Исключение - после точки идет абзац.

В этом плане регулярные выражение REX получается более конкретным
\bиз (\w+) воды=из $1 водЫ
(\w+) - это любое слово без знака препинания на конце

Аватара пользователя
Arex
Интересующийся

Балаболка TTS

#109

Сообщение Arex »

balabolka писал(а):
30 авг 2018 14:53
Arex писал(а): ↑30 авг 2018 17:58
И ещё пожелание, нельзя ли сноски переносить в конец предложения или абзаца?
Обещаю подумать над этим, спасибо за идею.
Мне показалось, или они всё-таки были добавлены в версию v2.14.0.668, а потом бесследно исчезли? :scratch:

Там что-то не получилось, или у меня действительно был глюк?

Аватара пользователя
balabolka
V.I.P.

Балаболка TTS

#110

Сообщение balabolka »

Arex
Пункт главного меню "Настройки|Импорт текста", вкладка "Настройки", пункт "Добавить сноски и примечания внутрь текста":
  • Сохранить текущие позиции сносок и примечаний в тексте
  • Переместить сноски и примечания в конец предложений
  • Переместить сноски и примечания в конец абзацев

Аватара пользователя
Arex
Интересующийся

Балаболка TTS

#111

Сообщение Arex »

balabolka писал(а):
14 окт 2018 14:45
Пункт главного меню "Настройки|Импорт текста", вкладка "Настройки", пункт "Добавить сноски и примечания внутрь текста":
Спасибо! Оказывается, я не там искал.

Кстати, я тут словил такую ошибку:
Ошибка синтезирования речи:
Ошибка в элементе верхнего уровня документа.
Дело в том, что я решил проверить, как работают теги SAPI 5. Для этого я загнал в словарь следующую замену:

Код: Выделить всё

все=<pron sym="f sʲ ɪ "/>
(есть у Юрия такая проблема, часто читает "все" как "всё")

Соответственно, после коррекции изменённый текст выглядит примерно так:
... они почитают этого слегка сумасшедшего бога. <pron sym="f sʲ ɪ "/> его слова, <pron sym="f sʲ ɪ "/> нравоучения ...
В чём тут может быть проблема? Что я делаю не так?

Аватара пользователя
wasyaka
V.I.P.

Балаболка TTS

#112

Сообщение wasyaka »

balabolka писал(а):
13 окт 2018 00:36
Рекомендую проверить регулярные выражения в словарях.
Проверил все словари, точнее ещё тестирую (674), но:
Файл тхт в анси 507кб
Тюрин. Чужой среди своих.txt
(507.5 КБ) 999 скачиваний
Словарь Ё фиксации BXD
Словарь Ё bxd.rar
(8.04 МБ) 771 скачивание
- 27мин 38сек :suspect: + часто
2018-10-14_095633.jpg
2018-10-14_095633.jpg (55.29 КБ) 65816 просмотров
Словарь Ё фиксации тоже но в DIC
Словарь Ё dic.rar
(1.18 МБ) 720 скачиваний
-3 мин 15 сек
На протестированном файле 10кб словарь омо в ргв bxd
RGV bxd.rar
(527.97 КБ) 742 скачивания
тоже но в rex
RGV rex.rar
(307.33 КБ) 764 скачивания
(заодно проверил 670-ю и на Демагоге) - время примерно одинаковое +/- 1с.
Все остальные( RGV-ещё трудится) заняли около 10мин - само больше chisla(bxd) - 6мин 43 сек но он у меня двойной - вторая чась преобразует цифры в именительном падеже в единственном числе - 40 преобразует в сорок,101 в сто один и т.д. Личная прихоть (цифр недолжно быть в тексте).

Аватара пользователя
balabolka
V.I.P.

Балаболка TTS

#113

Сообщение balabolka »

Arex
Вы использовали фонемы алфавита IPA, он не поддерживается в SAPI 5. Для русского языка необходимо использовать фонетический алфавит UPS (Universal Phone Set). Однако, не уверен, что старый голос "Николай" знает об этом алфавите. Фонемы UPS будут нормально читаться только современными голосами ("Юрий" и "Милена", например).

Ваш пример будет выглядеть примерно так:

Код: Выделить всё

... они почитают этого слегка сумасшедшего бога. <pron sym="F S pal IH"/> его слова, <pron sym="V S E"/> нравоучения ...
Подробнее про фонетические алфавиты можно прочесть в файле справки "Балаболки". Про UPS можно поискать информацию в интернете.

Аватара пользователя
balabolka
V.I.P.

Балаболка TTS

#114

Сообщение balabolka »

wasyaka писал(а):
14 окт 2018 20:06
+ часто
Спасибо за сообщение, постараюсь устранить проблему в следующей версии программы.

Аватара пользователя
wasyaka
V.I.P.

Балаболка TTS

#115

Сообщение wasyaka »

wasyaka писал(а):
14 окт 2018 20:06
RGV-ещё трудится
н-да "отпахал" 150мин, это но поделеное по 10кб (ивлеч текст ..) со всеми словарями(bxd) 145 мин ...
вывод? Это только инфо - каждый вибирает для себя - за новый индикатор прогресса можно пожертвовать ...хотя бы временем :thank: ...

Аватара пользователя
balabolka
V.I.P.

Балаболка TTS

#116

Сообщение balabolka »

wasyaka писал(а):
14 окт 2018 22:05
RGV-ещё трудится
Посмотрел словарь RGV.bxd: попробуйте поделить пополам сверхдлинные правила (те, где "$1 глазА", "$1 словА"). Два новых правила вместе будут выполняться быстрее процентов на десять, чем одно старое правило. Можно поэкспериментировать с такими правилами, где тот предел длины регулярного выражения, когда начинается существенное падение скорости выполнения.
Проверил на небольшом тексте (килобайт десять), как быстро применяются правила из словаря RGV.bxd: в старых версиях программы 58 секунд, в новой 18 секунд. Это ничего не доказывает, но меня такой результат радует.

Еще раз сообщу, что в следующей версии "Балаболки" пункт меню "Статистика замен" будет показывать время применения правил (отдельным столбцом, в миллисекундах). Надеюсь, это поможет составителям словарей.

Аватара пользователя
AndOSjZ
Постоялец

Балаболка TTS

#117

Сообщение AndOSjZ »

balabolka писал(а):
14 окт 2018 20:21
Вы использовали фонемы алфавита IPA, он не поддерживается в SAPI 5. Для русского языка необходимо использовать фонетический алфавит UPS
как то попадался словарь на 4pda.com для милены в формате dic. ,но именно в IPA

Аватара пользователя
balabolka
V.I.P.

Балаболка TTS

#118

Сообщение balabolka »

AndOSjZ
У меня сейчас установлена последняя версия "Милены", и она понимает только фонемы UPS.

Насколько я помню, Nuance Vocalizer содержал редактор словаря. Это был внутренний словарь для голосов Nuance, он использовал транскрипции, состоящие из фонем CPA (Computer Phonetic Alphabet). Фонетический алфавит CPA был придуман для того, чтобы записывать символы алфавита IPA с помощью стандартной клавиатуры (то есть клавиатуры с латинскими буквами).
Словарь с фонемами CPA выглядел примерно так:

Код: Выделить всё

able e b * l
adam a ! * m
agent e dZ * n t
alive * l aj v
aphid e f * d
apple a p * l
asked a s k t
ball b O l
bird b *r d
Но в голосах "Юрий" и "Милена" нет ни редактора словаря, ни самого словаря. И через SAPI 5 транскрипции CPA работать не будут.

Аватара пользователя
Lecron
Специалист

Балаболка TTS

#119

Сообщение Lecron »

balabolka писал(а):
14 окт 2018 23:51
Еще раз сообщу, что в следующей версии "Балаболки" пункт меню "Статистика замен" будет показывать время применения правил (отдельным столбцом, в миллисекундах). Надеюсь, это поможет составителям словарей.
А еще, авторам поможет показ количества срабатываний. Ибо одно дело, подождать сколько-то там минут ради десятков, сотен, а может и тысяч срабатываний на книгу, и совсем другое, ради одного срабатываания на десяток книг.
Если появится сбор статистики, пополняемый с каждой новой книгой/проверкой, будет совсем класс.

Аватара пользователя
tonio_k
V.I.P.

Балаболка TTS

#120

Сообщение tonio_k »

Lecron писал(а):
16 окт 2018 16:09
А еще, авторам поможет показ количества срабатываний.
Настройка - Коррекция приношений - Статистика замен
-не то?

Аватара пользователя
Lecron
Специалист

Балаболка TTS

#121

Сообщение Lecron »

tonio_k писал(а):
16 окт 2018 16:17
-не то?
То. Прошу прощения, за невнятное изложение мысли.
Время и статистика, должны показываться сразу. Рядом. Чтобы их оценивать в паре.
А долговременный сбор статистики, позволит оценить необходимость в правилах, которые срабатывают периодически. Сейчас, оценить эффективность многих правил, просто невозможно. Мозг человека не может запомнить и сличить результаты даже для двух книг.

Аватара пользователя
Manariel 64
Постоялец

Балаболка TTS

#122

Сообщение Manariel 64 »

balabolka,
Уважаемый, опять не обновляется. Как и прошлый раз.

Аватара пользователя
wasyaka
V.I.P.

Балаболка TTS

#123

Сообщение wasyaka »

Manariel 64 писал(а):
16 окт 2018 18:12
Уважаемый, опять не обновляется. Как и прошлый раз.
В инсталяторе почемуто 0.674 на сайте "Балаболка" тоже,
2018-10-16_184719.jpg
2018-10-16_184719.jpg (30.73 КБ) 65679 просмотров
2018-10-16_184741.jpg
2018-10-16_184741.jpg (34.24 КБ) 65679 просмотров
Интересно - создан 16.10 а изменён 13.10 - Машину времени задействовали? :big_smile:
(портабл 0.675)
2018-10-16_185238.jpg
2018-10-16_185238.jpg (31.82 КБ) 65679 просмотров



Отправлено спустя 31 минуту 54 секунды:
Lecron писал(а):
16 окт 2018 16:31
Время и статистика, должны показываться сразу.
2018-10-16_191741.jpg
2018-10-16_191741.jpg (142.56 КБ) 65674 просмотра
Ещё б добавить еденицу времени - секунда? и сразу видно где... непахоное поле :howdoyoudo:

Аватара пользователя
balabolka
V.I.P.

Балаболка TTS

#124

Сообщение balabolka »

Заново загрузил дистрибутивы на сервер. Спасибо за сообщение о проблеме.

Аватара пользователя
fich
Обыватель

Балаболка TTS

#125

Сообщение fich »

fich писал(а):
13 окт 2018 20:27
----- Кстати, тому, кто, пользует движок "Николай" - и Балаболку версии 2.14.0.669 - озвучте у себя вот это -" все двигалось "
Ни у кого "Николая" нет? озвучте у себя -" все двигалось " :thank:

Аватара пользователя
Manariel 64
Постоялец

Балаболка TTS

#126

Сообщение Manariel 64 »

fich писал(а):
17 окт 2018 12:10
Ни у кого "Николая" нет? озвучте у себя -" все двигалось "
Озвучил, и чего? Балаболка последняя.

Аватара пользователя
balaamster
Обыватель

Балаболка TTS

#127

Сообщение balaamster »

fich писал(а):
17 окт 2018 12:10
озвучте у себя -" все двигалось "
Проверил у себя, так и читает " все двигалось ". Кроме отсутствия "ё", других проблем нет.

Аватара пользователя
fich
Обыватель

Балаболка TTS

#128

Сообщение fich »

Николаем ... Балаболку версии 2.14.0.669 - озвучте у себя вот это -" все двигалось "
Спасибо, парни. Блин, а у меня версия 2.14.0.669(и 2.11.0.599), Коля говорит "всё номер номер двигалось" . .. первый раз такое, чушь какая-то. (свои словари отключал, мож глюк мп3буковского, системного, словаря)

- Автор, понимаю мелочь, но
- кнопа "Вставить быструю закладку" - плохо анимирована (не продавливается при клаце)
- после побудки, (после "таймер" - "сон") на 3-..5.. раз перестаёт читать, перезапуск Балаболки всё налаживает
- Если запустить балаболку и в процессе загрузки окна - свернуть, то вылетает
БАЛАБОЛКА_ошибка при сворачивании во время загрузки.jpg
БАЛАБОЛКА_ошибка при сворачивании во время загрузки.jpg (76.92 КБ) 65261 просмотр
и зависает, много раз клацаешь по сообщению, потом перезапускаешь.
- вот на таком перечне - зависает "калий-42, магний-28, кальций-45, стронций-85 и -89, цинк-65, кадмий-109, ртуть-203, алюминий-26, скандий-46, углерод-14, олово-113 и -121, свинец-212, гафний-175 и -181, фосфор-32, сурьма-125, висмут-206, -207, -210 и -213,ванадий-48 и -49, ниобий-95, тантал-182, теллур-122 и -129, хлор-36, бром-80m и -82, рений-183 и -186, рутений-97, -103 и -106, осмий-191 и -193, палладий-103, иридий-190, -192 и -194, платина-197." Но если разделить на 3 абзатца, то может и разговориться.
- Корёжит вот это- " ВИКТОР! ВИКТОР! "
(юзаю - ХР, Николай, SAPI4)

Аватара пользователя
balaamster
Обыватель

Балаболка TTS

#129

Сообщение balaamster »

fich писал(а):
23 окт 2018 22:43
Коля говорит "всё номер номер двигалось"
Ошибка в словаре "exc_rus.txt", в папке с движком

Код: Выделить всё

все двигалось :	<всё####двигалось> /i
все двигалось :	<всё##двигалось> /i
fich писал(а):
23 окт 2018 22:43
- Корёжит вот это- " ВИКТОР! ВИКТОР! "
Тут встроенный словарь не помогает. Остаётся только через словарь в Балаболке делать замену ВИКТОР=Виктор.

Аватара пользователя
fich
Обыватель

Балаболка TTS

#130

Сообщение fich »

balaamster писал(а):
24 окт 2018 20:51
все двигалось : <всё####двигалось> /i
все двигалось : <всё##двигалось> /i
Спасибо! и что с этой ошибкой делать? :scratch:
- Есть такие строки в словарое "exc_rus.txt"
все двигалось : <всё####двигалось> /i
все двигалось : <всё##двигалось> /i

Аватара пользователя
balaamster
Обыватель

Балаболка TTS

#131

Сообщение balaamster »

fich писал(а):
29 окт 2018 11:59
и что с этой ошибкой делать?
В словаре "exc_rus.txt" удалить ошибочную запись - все двигалось : <всё####двигалось> /i
Для разделения слов используется одна пара "##", вторая тут лишняя.
fich писал(а):
23 окт 2018 22:43
вот на таком перечне - зависает "калий-42, магний-28, кальций-45...
Это у себя тоже проверил. Проблема не в Балаболке, проблема в движке.
Не справляется он с такой строкой. В других программах у меня такой же сбой - не читает.

Аватара пользователя
fich
Обыватель

Балаболка TTS

#132

Сообщение fich »

balaamster, Спасибо :thank:

- Ув. балаболка, когда Балаболку сворачиваешь, то её не видит "Alt + Tab" (мож у меня только? на ХР) приходится нырять в трей и метко попадать по менюшке.
Отправлено спустя 54 минуты 34 секунды:
Решил праблу с "Alt + Tab". Убрал галочку "при сворачивании - убирать в трей"
- Хотя если-бы из трея "Alt + Tab"-ом можно было доставать, Балаболку, было-бы вкуснее.

Аватара пользователя
tonio_k
V.I.P.

Балаболка TTS

#133

Сообщение tonio_k »

Правила в файле rex:

Код: Выделить всё

@[^\r\n]*\=пОла [^\r\n]*=
@[^\r\n]* пОла\b[^\r\n]*=
Удаляют строки:
► Показать
А при попытке ввести эти правила в BXD правила не срабатывают:
► Показать



Отправлено спустя 6 минут 57 секунд:
Все, разобрался. Надо так:
1) убрать знак @
2) Поставить галочку Учитывать регистр букв

Аватара пользователя
wasyaka
V.I.P.

Балаболка TTS

#134

Сообщение wasyaka »

tonio_k писал(а):
02 ноя 2018 00:33
КОД: ВЫДЕЛИТЬ ВСЁ
(\b(бетон|вибрацией|глиняного|деревянного|доска|досок|достиг|дощатого|дюралюминий|женского|каменного|камень|камни|касалась|касаясь|квадрат|кладка|коснул(ась|ись|ся)|коснуться|кружок|кусок|мозаика|мужского|настил|недостойное|неровного|обломки|обоего|относительно|плит|площад|поверхност|подошвам|покачивание|покрыти|половин|прекрасного|прогиб|противоположного|пыльного|разваливающегося|разного|роль|секци|сотрясение|сторон|стык|точкой|уровн|участ|фрагмент|часть)(\w+)?(\s(\w+)?){1,})(\bпола\b)=$1 пОла
(\b(было|до|из|какого|от|с)\b\s?(\w+)?)\s{1,4}(\bпола\b)=$1 пОла
(\b(стен)\b\s?(\w+)?)\s{1,4}\b(и|или|с)\b\s{1,4}(\bпола\b)=$1 $4 пОла
(\bпола\b)((\s(\w+)?){1,}(боевого|в подвале|небыло|отделения|прихожей)(\w+)?)=пОла $2
Омографная пара $пола=пОла,полА, без проставленного ударения, Максим читает (или его приходится заставить :big_smile:), как пОла (чаще встречаемое) - и ВСЕ правила с омографом пОла для тех, кто доводит необработанные омографы вручную, а так как ты (как и я с недавних пор) после обработки сразу на запись-прослушку, то смысл в этих и ещё в нескольких ТЫСЯЧАХ рег выражений? - только увеличением времени обработки... :scratch:
Попробуй этот (часть отключил, часть подрихтовал.... )
1.5 RGV.rar
(530.12 КБ) 713 скачиваний
... и сравни...
Удачи :drunkpals:

Аватара пользователя
tonio_k
V.I.P.

Балаболка TTS

#135

Сообщение tonio_k »

Может кому пригодиться:
Инструкция по экспорту из BXD в REX
1) Открываем в Балаболке словарь BXD .
=>Галочка - Показать фильтр.
=> Параметры фильтра: Состояние "Активно", Тип выражения: Регулярное выражение.
=> Применить фильтр.
2)Правка - Выделить все
3)Файл - Сохранить все выделенные...
4)Переименовываем полученный файл в txt
5) Открываем этот файл в Балаболке
6) Делаем активным ТОЛЬКО словарь BXD to REX.rex
BXD to REX.zip
(212 байт) 724 скачивания
7) Настройки => Коррекция произношения => Показать измененный текст

Аналогично экспортируем DIC. Разница только в пункте 1. Тип выражения: Обычный текст

Аватара пользователя
Sarter
Прохожий

Балаболка TTS

#136

Сообщение Sarter »

здравствуйте.
балаболка портабл.
голос phvoice
как увеличить паузу между предложениями и абзацами?
имеющиеся настройки в программе эффекта не приносят...

Аватара пользователя
fich
Обыватель

Балаболка TTS

#137

Сообщение fich »

Извините, за ниже следующий ворч.
- Вот считайте меня замшелым консерватором - но лет15 назад высказался и до сих пор затвердеваю на высказанном что- AVI(divX), mpg, TXT,doc, MP3,wav, JPG, tiff - всегда, и позовчера и послезавтра - будут проигрываться любой таратайкой, даже калькулятором, а новые фыбы,дежаву,ебупы, мпг,вебп и т.д. от лукавого, сырое запудривание мо<згу.
- Вот откройте в Балаболке - это (ниже выложенный) бред какой-то, какие-то скобки, ковычки, порванные слова на переносах и меж ними "номера сраниц" ... (тот-же текст есть в пдф и те-же коряки) . .. Мож это такая защита? В произведениях одна убогая картинка, а сколько пафосу! Я КРУТОЙ!и Выкладываю в djvu
- конвертация в ТХТ из "STDUViev 1.6" - даёт те-же результаты.
- Ну и как слушать этот бред??? Вот почему я боролся за правильное исполнение функции "Заменить всё". вот сижу правлю, а то слушать невозможно . ..
Вложения
Бушков А. - Самый далекий берег (Специальный русский проект) - 2003.rar
(7.87 МБ) 670 скачиваний
Михайлов В. - Ночь чёрного хрусталя (Звёздный лабиринт. Коллекция) - 2005.rar
(11.89 МБ) 689 скачиваний

Аватара пользователя
tonio_k
V.I.P.

Балаболка TTS

#138

Сообщение tonio_k »

fich, djvu это на сколько мне известно, формат записи "картинки" со сканера. Используют для иллюстрации и передачи изображения - т.е. там обычно нет текста, а грубо говоря это фотография. Весь текст, который из djvu получаем, это то что смогли "распознать" спец. программы. До электронных книг, под которые Балаболка заточена этот отсканированный текст ещё очень далек. Его надо превращать в тхт, читать, исправлять ошибки распознования. Зачем так сложно? Есть ведь эти же книги уже в нормальном текстовом варианте.

Аватара пользователя
fich
Обыватель

Балаболка TTS

#139

Сообщение fich »

Весь текст, который из djvu получаем, это то что смогли "распознать" спец. программы.
И что? Ничего подозрительного в ДЖВУ не наблюдается, что 5 лет в зад, что сейчас(если их открыть) . .. Ещё позавчера - распознавалось, а сегодня деградация. Почему СЕЙЧАС?! (эт уже четвертый за последний месяц, а раньше гуд именно "джв" да и "пдф" скоро заглючат доки,ртф,доксы,ебупы . .. ручёнки у поколения "п" корявые)
Зачем так сложно? Есть ведь эти же книги уже в нормальном текстовом варианте.
У меня нет. Качаю с "шарамана" и слушаю.
► Показать

Аватара пользователя
tonio_k
V.I.P.

Балаболка TTS

#140

Сообщение tonio_k »

fich писал(а):
08 ноя 2018 15:59
У меня нет. Качаю с "шарамана" и слушаю.
см в ЛС
А для djvu лучше всего распознавать в ABBY Fine Reader

Аватара пользователя
balaamster
Обыватель

Балаболка TTS

#141

Сообщение balaamster »

fich писал(а):
07 ноя 2018 20:23
В произведениях одна убогая картинка, а сколько пафосу! Я КРУТОЙ!и Выкладываю в djvu
fich писал(а):
08 ноя 2018 15:59
Ещё позавчера - распознавалось, а сегодня деградация.
fich писал(а):
08 ноя 2018 15:59
ручёнки у поколения "п" корявые
Вот тут и лежит ответ на Ваше негодование.
Проблема не в формате, проблема в человеке, создавшем документ
Формат это лишь ёмкость, которую нужно нормально наполнить.

Можно взять старый деревянный инструментальный ящик и аккуратно разложить в нём инструменты, всё будет удобно, доступно и легко находится
А можно взять новейший пластиковый инструментальный органайзер и просто накидать в него инструменты. А потом долго и упорно искать пассатижи или "ключик на 12"

Текстовый документ тоже легко создать с кучей дефектов после распознавания, ошибок и прочего. Разница лишь в том, что в TXT эти дефекты быстрее обнаруживаются визуально.

А ещё можно использовать формат не по прямому назначению и иметь/создавать кучу проблем.
Вкладывать несколько скриншотов в DOC файл вместо zip/rar-архива.
Вести базу данных с миллионом записией в xls-файле (Excel).
Забивать гвозди пассатижами, при наличии молотка.
Топором нарезать хлеб.
Текст, который необходим именно как текст, а не его визуальное оформление, помещать в DJVU или PDF

В теории, если приложение извлекает текст из предыдущих документов правильно а из нового неправильно, то тут два варианта - либо "криво" создан документ ("кривой" автор или "кривое" приложение, не соблюдающее стандарты формата, в котором создан документ), либо стандарт для формата обновился и текущая версия приложения ещё не способна обработать эти изменения.

Аватара пользователя
tonio_k
V.I.P.

Балаболка TTS

#142

Сообщение tonio_k »

Неожиданная статистика времени обработки с использованием в качестве квантификатора - звездочки в правилах регулярных выражениях:

Код: Выделить всё

@(\w+)([\s\,\:\-]*)Дана=$1$2 дАна
Время обработки: 810мс

Код: Выделить всё

@(\w+)([\s\,\:\-]{1,5})Дана=$1$2 дАна
Время обработки: 2053мс
Получается при наличии возможности применить "*", если это возможно, дает экономию в скорости почти в 2 раза.
► Показать

Аватара пользователя
fich
Обыватель

Балаболка TTS

#143

Сообщение fich »

balaamster писал(а):
08 ноя 2018 17:52
проблема в человеке, создавшем документ
balaamster , Вы просто раскрыли то что я написал выше. Грустно. И что, теперь будет всегда ТАК? -мЧудаки будут корявить в джв,пдф и "звук.движек" будет нести пургу? И это, с сегодняшнего дня, теперь навсегда?
- Всегда знал, "ЧЕМ ПРОЩЕ, ТЕМ НАДЁЖНЕЙ" _"-Лучше велосипед, чем "Феррари" без бензина"(fich)
► Показать

Аватара пользователя
tonio_k
V.I.P.

Балаболка TTS

#144

Сообщение tonio_k »

fich, я вам в личку написал - посмотрите


Отправлено спустя 1 день 45 минут 45 секунд:
balabolka писал(а):
13 окт 2018 16:27
В следующей версии "Балаболки" в окно "Статистика замен" добавлю столбец "Время", а также опцию "Показать все правила". Можно будет посмотреть время выполнения каждого правила для текущего текста.
Провел такой эксперимент:
► Показать
Таким образом хочу показать, что разбиение одного сложного правила на несколько простых в словаре REX при обработке большого размера текста дают ощутимую задержку в обработке. Так сказать работа в холостую - тоже затратная по времени работа. И выигрывая в скорости срабатывания мы можем проиграть в ОБЩЕЙ скорости обработки текста. В связи с этим, рассмотрите пожалуйста еще один таймер - Общее время работы процедуры "Статистика замен".

*Время обработки засекалось в программе Демагог. Возможно в Балаболке все будет по другому

Аватара пользователя
balabolka
V.I.P.

Балаболка TTS

#145

Сообщение balabolka »

tonio_k писал(а):
11 ноя 2018 00:43
В связи с этим, рассмотрите пожалуйста еще один таймер - Общее время работы процедуры "Статистика замен".
Общее время отображается в окне "Измененный текст" (пункт главного меню "Настройки|Коррекция произношения|Показать измененный текст").

Хорошо, можно показывать это значение и в окне "Статистика замен" тоже.
tonio_k писал(а):
11 ноя 2018 00:43
разбиение одного сложного правила на несколько простых
В данном случае можно говорить о замене одного простого правила на четыре простых. Выигрыша по времени, действительно, не будет.

Аватара пользователя
fich
Обыватель

Балаболка TTS

#146

Сообщение fich »

Исходя из того что часто стали появляться скан-книги и последующая их конвертация в ТХТ-"буквы" вываливат такие праблы как "перенос" (разрыв слов), "номера страниц" (бывает прям в слове)
- Может быть вы, уважамые, придумаете правила (гекс-регекс-рекс) чтоб Одним нажатием (как в "Заменить всё")
- Удалить из текста одним нажатием цифры от 1 ...... до 500 -с пробелом перед
- Удалить из текста одним нажатием цифры от 1 ...... до 500 -с пробелом после
- Удалить из текста одним нажатием цифры от 1 ...... до 500 -без пробелов
- Понимаю, что это чревато и можно удалить "20 мм орудие смотрело мне в ..", Но! может какой анализатор в Балаболку вмонтировать - чтоб он видел - ЯВНУЮ последовательность цифр встретившуюся в данном тексте после его проверки на "цифры"

Аватара пользователя
balaamster
Обыватель

Балаболка TTS

#147

Сообщение balaamster »

fich писал(а):
12 ноя 2018 15:20
чтоб он видел - ЯВНУЮ последовательность цифр встретившуюся в данном тексте после его проверки на "цифры"
Чтобы найти просто все цифры (1 до 999) в тексте в окне поиска: %rex%\d{1,3}
fich писал(а):
12 ноя 2018 15:20
Одним нажатием (как в "Заменить всё")
Одним нажатием "Заменить всё" - маловероятно.
Под это дело лучше завести словарь в bxd-формате:
fich писал(а):
12 ноя 2018 15:20
Удалить из текста одним нажатием цифры от 1 ...... до 500 -с пробелом перед
Выражение: "\s\d{1,3}([А-Яа-яЁё]+)" текст: " $1"
fich писал(а):
12 ноя 2018 15:20
Удалить из текста одним нажатием цифры от 1 ...... до 500 -с пробелом после
Выражение: "([А-Яа-яЁё]+)\d{1,3}\s" текст: "$1 "
fich писал(а):
12 ноя 2018 15:20
Удалить из текста одним нажатием цифры от 1 ...... до 500 -без пробелов
Выражение: "([А-Яа-яЁё]+)\d{1,3}([А-Яа-яЁё]+)" текст: "$1$2"

Отмечаем только этот словарь галочкой, нажимаем ctrl+t и вот такой текст:
► Показать
В новом окне, откуда его можно скопировать, превратится в:
► Показать

Аватара пользователя
tonio_k
V.I.P.

Балаболка TTS

#148

Сообщение tonio_k »

Посмотрите пожалуйста, что за несрабатывание правил?
► Показать
При тесте правила в Редакторе правил замена срабатывает.
А в самом окне с текстом - Показать измененный текст - изменений нет.
Соответственно не показывает и статистику замен.
dictionaries.zip
(628 байт) 722 скачивания

Аватара пользователя
balabolka
V.I.P.

Балаболка TTS

#149

Сообщение balabolka »

tonio_k
В словаре правило не активно: в списке правил в столбце Активно написано "нет". Это означает, что правило хранится в словаре, но не применяется.

Чтобы правило применялось, сделайте его активным: выделите правило и нажмите кнопку "Активно". Также, сработает прием для работы с "галочками": нажатие клавиши "пробел" меняет состояние правила.

Аватара пользователя
tonio_k
V.I.P.

Балаболка TTS

#150

Сообщение tonio_k »

А, понял. :thank: Активно / не активно - все так сливается. Не мудрено глаза замылить и прворонить очевидное.

Ответить

Вернуться в «Балаболка»