Страница 3 из 10

Балаболка TTS

Добавлено: 13 окт 2018 02:23
tonio_k
balabolka писал(а):
13 окт 2018 00:36
У меня давно была мысль в окне "Статистика замен" показывать еще и время, потраченное на применение правила.
очень интересно! Если бы вы могли придумать алгоритм для аудита словарей rex на предмет их "тяжеловесности". Знать бы чего стоит избегать при составлении правил. Может разбить одно правило на 10 простых строк в итоге даст прирост скорости в те же 10 раз в рамках одного правила?
Вообще, тяжесть правила можно понять только экспериментальным путем? Или есть какие то рекомендации каких шаблонов при составлении правил стоит избегать?

Балаболка TTS

Добавлено: 13 окт 2018 07:22
balabolka
Можно посоветовать сайт regex101.com: там можно проверить регулярное выражение, узнать количество шагов (операций) для его выполнения, а также время выполнения. Полезный инструмент для изучения работы регулярных выражений.

Балаболка TTS

Добавлено: 13 окт 2018 12:18
Lecron
balabolka писал(а):
13 окт 2018 07:22
Можно посоветовать сайт regex101.com: там можно проверить регулярное выражение, узнать количество шагов (операций) для его выполнения, а также время выполнения.
Так можно проверить единичные правила, если подозрение уже возникло. И вряд ли сервис позволит тестировать на больших фрагментах, сопоставимых с размером книги. А анализ шагов, еще нужно уметь интерпретировать.
balabolka писал(а): "Балаболка" брала кусок текста (около 16 килобайт), применяла к этому куску все правила из выбранных словарей, затем брала следующий кусок и т.д. Но существовала одна проблема: на "стыке" двух кусков текста правила не срабатывали.
Поэтому все-таки стоит обсудить алгоритм, с позиции наименьшего зла. А зло, это лишь размер куска. В данном случае, зло абсолютное)) равное размеру всего текста.
Существуют ли межабзацные правила и насколько они распространены? Если не сильно, достаточно сдвинуть границу на конец абзаца, что при современном форматировании, в 99% совпадает с концом строки. Итого, количество гипотетических ошибок применения правил сокращено на порядки, при полном сохранении скорости обработки.
Если же распространены, можно подумать о других вариантах.

Балаболка TTS

Добавлено: 13 окт 2018 16:27
balabolka
В следующей версии "Балаболки" в окно "Статистика замен" добавлю столбец "Время", а также опцию "Показать все правила". Можно будет посмотреть время выполнения каждого правила для текущего текста.
tonio_k писал(а):
13 окт 2018 02:23
Знать бы чего стоит избегать при составлении правил.
Главное, что надо помнить: если можно НЕ использовать регулярное выражение для реализации какой-либо замены, его нужно не использовать. Регулярные выражения выполняются намного медленнее, чем замены из словарей DIC, поэтому применять регулярные выражения надо очень осторожно.

К примеру, обрабатываем текст размером один мегабайт, и есть пара правил в словаре DIC:

Код: Выделить всё

$*»*= 
$*«*= 
Правила будут применены 3000 раз каждое, и на это понадобится меньше 1 миллисекунды.

А в словаре REX есть такое правило:

Код: Выделить всё

из воды=из воды<
Оно сработает 1 раз, и на это понадобится 80 миллисекунд. Такое правило надо обязательно перенести из словаря REX в словарь DIC.
tonio_k писал(а):
13 окт 2018 02:23
Вообще, тяжесть правила можно понять только экспериментальным путем?
Да, получается так. Lecron прав, что и значение количества "шагов" (которое показывает сервис regex101.com) не даст ответ на вопрос, эффективным ли образом составлено регулярное выражение, и как быстро оно будет выполняться. Надо всё проверять на реальных текстах.

Балаболка TTS

Добавлено: 13 окт 2018 19:52
fich
Lecron писал(а):
06 окт 2018 17:44
Удачи вам дальше заблуждаться в отсталости и ненужности обработок, и продолжайте тыкать мышкой, если вам удобно именно это.
Я пользую "горячие сочетания клав" по возмоге и "печатать прищуриваясь .. " мне реально - "не реально". И кстати, я веду разговор о Движке "НИКОЛАЙ".
- напишите обобщённый bat-файл. Я не очень вкуриваю, староват видите-ли.
- bat-файл на тему. Пример - Я открываю(в Балаболке) - "цикл","роман","меж-авторский опус" из энного количества книг (штук 3-5-8) сразу. Начинаю исправлять в ПЕРВОЙ №1(оригинальные имена, названия планет,зверей)естессно встречающихся во всех остальных 2,3,4,..7..книгах нажимаю -"Заменить всё" и исправление идёт На ВСЕ остальные открытые в "Балаболке" Книги 2,3,4,5,6,7... (прошерстив книгу №1 я уверен что во всех остальных книгах УДАРЕНИЯ "<" стоят и имя "Таллалойата" или планета"илликолила" не будет мне терзать слух в остальных 8 книгах)

----- Кстати, тому, кто, пользует движок "Николай" - и Балаболку версии 2.14.0.669 - озвучте у себя вот это -" все двигалось "

Балаболка TTS

Добавлено: 13 окт 2018 21:11
tonio_k
fich писал(а):
13 окт 2018 20:27
Начинаю исправлять в ПЕРВОЙ №1(оригинальные имена, названия планет,зверей)естессно встречающихся во всех остальных 2,3,4,..7..книгах нажимаю -"Заменить всё"
А может, как вариант, объединить все книги в один файл и работать уже в нём?

Балаболка TTS

Добавлено: 13 окт 2018 22:27
wasyaka
balabolka писал(а):
13 окт 2018 16:27
из воды=из воды<
Оно сработает 1 раз, и на это понадобится 80 миллисекунд. Такое правило надо обязательно перенести из словаря REX в словарь DIC.
из * воды= из (грязной,чистой солёной и т д) водЫ
из * воды=из воды(dxd, dic)- и как это правило реализовать, если реакция только на края?

Балаболка TTS

Добавлено: 13 окт 2018 23:16
tonio_k
из * воды=из водЫ
Это только в Демагоге работает.
В балаболке только через регулярные выражения REX:
\bиз (\w+) воды=из $1 водЫ


Отправлено спустя 10 минут 14 секунд:
Есть и недостаток в этом правиле:
из * воды=из водЫ
Оно сработает так же и на :
Никак не могли достать из воды. Воды здесь были мутные.
Хотя это и маловероятная комбинация, стоит учитывать, что звёздочка это любое слово и абсолютно любой знак препинания, в т.ч. и точка. Исключение - после точки идет абзац.

В этом плане регулярные выражение REX получается более конкретным
\bиз (\w+) воды=из $1 водЫ
(\w+) - это любое слово без знака препинания на конце

Балаболка TTS

Добавлено: 14 окт 2018 11:13
Arex
balabolka писал(а):
30 авг 2018 14:53
Arex писал(а): ↑30 авг 2018 17:58
И ещё пожелание, нельзя ли сноски переносить в конец предложения или абзаца?
Обещаю подумать над этим, спасибо за идею.
Мне показалось, или они всё-таки были добавлены в версию v2.14.0.668, а потом бесследно исчезли? :scratch:

Там что-то не получилось, или у меня действительно был глюк?

Балаболка TTS

Добавлено: 14 окт 2018 14:45
balabolka
Arex
Пункт главного меню "Настройки|Импорт текста", вкладка "Настройки", пункт "Добавить сноски и примечания внутрь текста":
  • Сохранить текущие позиции сносок и примечаний в тексте
  • Переместить сноски и примечания в конец предложений
  • Переместить сноски и примечания в конец абзацев

Балаболка TTS

Добавлено: 14 окт 2018 18:37
Arex
balabolka писал(а):
14 окт 2018 14:45
Пункт главного меню "Настройки|Импорт текста", вкладка "Настройки", пункт "Добавить сноски и примечания внутрь текста":
Спасибо! Оказывается, я не там искал.

Кстати, я тут словил такую ошибку:
Ошибка синтезирования речи:
Ошибка в элементе верхнего уровня документа.
Дело в том, что я решил проверить, как работают теги SAPI 5. Для этого я загнал в словарь следующую замену:

Код: Выделить всё

все=<pron sym="f sʲ ɪ "/>
(есть у Юрия такая проблема, часто читает "все" как "всё")

Соответственно, после коррекции изменённый текст выглядит примерно так:
... они почитают этого слегка сумасшедшего бога. <pron sym="f sʲ ɪ "/> его слова, <pron sym="f sʲ ɪ "/> нравоучения ...
В чём тут может быть проблема? Что я делаю не так?

Балаболка TTS

Добавлено: 14 окт 2018 20:06
wasyaka
balabolka писал(а):
13 окт 2018 00:36
Рекомендую проверить регулярные выражения в словарях.
Проверил все словари, точнее ещё тестирую (674), но:
Файл тхт в анси 507кб
Тюрин. Чужой среди своих.txt
(507.5 КБ) 999 скачиваний
Словарь Ё фиксации BXD
Словарь Ё bxd.rar
(8.04 МБ) 771 скачивание
- 27мин 38сек :suspect: + часто
2018-10-14_095633.jpg
2018-10-14_095633.jpg (55.29 КБ) 65817 просмотров
Словарь Ё фиксации тоже но в DIC
Словарь Ё dic.rar
(1.18 МБ) 720 скачиваний
-3 мин 15 сек
На протестированном файле 10кб словарь омо в ргв bxd
RGV bxd.rar
(527.97 КБ) 742 скачивания
тоже но в rex
RGV rex.rar
(307.33 КБ) 764 скачивания
(заодно проверил 670-ю и на Демагоге) - время примерно одинаковое +/- 1с.
Все остальные( RGV-ещё трудится) заняли около 10мин - само больше chisla(bxd) - 6мин 43 сек но он у меня двойной - вторая чась преобразует цифры в именительном падеже в единственном числе - 40 преобразует в сорок,101 в сто один и т.д. Личная прихоть (цифр недолжно быть в тексте).

Балаболка TTS

Добавлено: 14 окт 2018 20:21
balabolka
Arex
Вы использовали фонемы алфавита IPA, он не поддерживается в SAPI 5. Для русского языка необходимо использовать фонетический алфавит UPS (Universal Phone Set). Однако, не уверен, что старый голос "Николай" знает об этом алфавите. Фонемы UPS будут нормально читаться только современными голосами ("Юрий" и "Милена", например).

Ваш пример будет выглядеть примерно так:

Код: Выделить всё

... они почитают этого слегка сумасшедшего бога. <pron sym="F S pal IH"/> его слова, <pron sym="V S E"/> нравоучения ...
Подробнее про фонетические алфавиты можно прочесть в файле справки "Балаболки". Про UPS можно поискать информацию в интернете.

Балаболка TTS

Добавлено: 14 окт 2018 21:15
balabolka
wasyaka писал(а):
14 окт 2018 20:06
+ часто
Спасибо за сообщение, постараюсь устранить проблему в следующей версии программы.

Балаболка TTS

Добавлено: 14 окт 2018 22:05
wasyaka
wasyaka писал(а):
14 окт 2018 20:06
RGV-ещё трудится
н-да "отпахал" 150мин, это но поделеное по 10кб (ивлеч текст ..) со всеми словарями(bxd) 145 мин ...
вывод? Это только инфо - каждый вибирает для себя - за новый индикатор прогресса можно пожертвовать ...хотя бы временем :thank: ...

Балаболка TTS

Добавлено: 14 окт 2018 23:51
balabolka
wasyaka писал(а):
14 окт 2018 22:05
RGV-ещё трудится
Посмотрел словарь RGV.bxd: попробуйте поделить пополам сверхдлинные правила (те, где "$1 глазА", "$1 словА"). Два новых правила вместе будут выполняться быстрее процентов на десять, чем одно старое правило. Можно поэкспериментировать с такими правилами, где тот предел длины регулярного выражения, когда начинается существенное падение скорости выполнения.
Проверил на небольшом тексте (килобайт десять), как быстро применяются правила из словаря RGV.bxd: в старых версиях программы 58 секунд, в новой 18 секунд. Это ничего не доказывает, но меня такой результат радует.

Еще раз сообщу, что в следующей версии "Балаболки" пункт меню "Статистика замен" будет показывать время применения правил (отдельным столбцом, в миллисекундах). Надеюсь, это поможет составителям словарей.

Балаболка TTS

Добавлено: 15 окт 2018 21:16
AndOSjZ
balabolka писал(а):
14 окт 2018 20:21
Вы использовали фонемы алфавита IPA, он не поддерживается в SAPI 5. Для русского языка необходимо использовать фонетический алфавит UPS
как то попадался словарь на 4pda.com для милены в формате dic. ,но именно в IPA

Балаболка TTS

Добавлено: 16 окт 2018 03:28
balabolka
AndOSjZ
У меня сейчас установлена последняя версия "Милены", и она понимает только фонемы UPS.

Насколько я помню, Nuance Vocalizer содержал редактор словаря. Это был внутренний словарь для голосов Nuance, он использовал транскрипции, состоящие из фонем CPA (Computer Phonetic Alphabet). Фонетический алфавит CPA был придуман для того, чтобы записывать символы алфавита IPA с помощью стандартной клавиатуры (то есть клавиатуры с латинскими буквами).
Словарь с фонемами CPA выглядел примерно так:

Код: Выделить всё

able e b * l
adam a ! * m
agent e dZ * n t
alive * l aj v
aphid e f * d
apple a p * l
asked a s k t
ball b O l
bird b *r d
Но в голосах "Юрий" и "Милена" нет ни редактора словаря, ни самого словаря. И через SAPI 5 транскрипции CPA работать не будут.

Балаболка TTS

Добавлено: 16 окт 2018 16:09
Lecron
balabolka писал(а):
14 окт 2018 23:51
Еще раз сообщу, что в следующей версии "Балаболки" пункт меню "Статистика замен" будет показывать время применения правил (отдельным столбцом, в миллисекундах). Надеюсь, это поможет составителям словарей.
А еще, авторам поможет показ количества срабатываний. Ибо одно дело, подождать сколько-то там минут ради десятков, сотен, а может и тысяч срабатываний на книгу, и совсем другое, ради одного срабатываания на десяток книг.
Если появится сбор статистики, пополняемый с каждой новой книгой/проверкой, будет совсем класс.

Балаболка TTS

Добавлено: 16 окт 2018 16:17
tonio_k
Lecron писал(а):
16 окт 2018 16:09
А еще, авторам поможет показ количества срабатываний.
Настройка - Коррекция приношений - Статистика замен
-не то?

Балаболка TTS

Добавлено: 16 окт 2018 16:31
Lecron
tonio_k писал(а):
16 окт 2018 16:17
-не то?
То. Прошу прощения, за невнятное изложение мысли.
Время и статистика, должны показываться сразу. Рядом. Чтобы их оценивать в паре.
А долговременный сбор статистики, позволит оценить необходимость в правилах, которые срабатывают периодически. Сейчас, оценить эффективность многих правил, просто невозможно. Мозг человека не может запомнить и сличить результаты даже для двух книг.

Балаболка TTS

Добавлено: 16 окт 2018 18:12
Manariel 64
balabolka,
Уважаемый, опять не обновляется. Как и прошлый раз.

Балаболка TTS

Добавлено: 16 окт 2018 18:54
wasyaka
Manariel 64 писал(а):
16 окт 2018 18:12
Уважаемый, опять не обновляется. Как и прошлый раз.
В инсталяторе почемуто 0.674 на сайте "Балаболка" тоже,
2018-10-16_184719.jpg
2018-10-16_184719.jpg (30.73 КБ) 65680 просмотров
2018-10-16_184741.jpg
2018-10-16_184741.jpg (34.24 КБ) 65680 просмотров
Интересно - создан 16.10 а изменён 13.10 - Машину времени задействовали? :big_smile:
(портабл 0.675)
2018-10-16_185238.jpg
2018-10-16_185238.jpg (31.82 КБ) 65680 просмотров



Отправлено спустя 31 минуту 54 секунды:
Lecron писал(а):
16 окт 2018 16:31
Время и статистика, должны показываться сразу.
2018-10-16_191741.jpg
2018-10-16_191741.jpg (142.56 КБ) 65675 просмотров
Ещё б добавить еденицу времени - секунда? и сразу видно где... непахоное поле :howdoyoudo:

Балаболка TTS

Добавлено: 16 окт 2018 23:44
balabolka
Заново загрузил дистрибутивы на сервер. Спасибо за сообщение о проблеме.

Балаболка TTS

Добавлено: 17 окт 2018 12:10
fich
fich писал(а):
13 окт 2018 20:27
----- Кстати, тому, кто, пользует движок "Николай" - и Балаболку версии 2.14.0.669 - озвучте у себя вот это -" все двигалось "
Ни у кого "Николая" нет? озвучте у себя -" все двигалось " :thank:

Балаболка TTS

Добавлено: 17 окт 2018 15:39
Manariel 64
fich писал(а):
17 окт 2018 12:10
Ни у кого "Николая" нет? озвучте у себя -" все двигалось "
Озвучил, и чего? Балаболка последняя.

Балаболка TTS

Добавлено: 17 окт 2018 20:05
balaamster
fich писал(а):
17 окт 2018 12:10
озвучте у себя -" все двигалось "
Проверил у себя, так и читает " все двигалось ". Кроме отсутствия "ё", других проблем нет.

Балаболка TTS

Добавлено: 23 окт 2018 22:43
fich
Николаем ... Балаболку версии 2.14.0.669 - озвучте у себя вот это -" все двигалось "
Спасибо, парни. Блин, а у меня версия 2.14.0.669(и 2.11.0.599), Коля говорит "всё номер номер двигалось" . .. первый раз такое, чушь какая-то. (свои словари отключал, мож глюк мп3буковского, системного, словаря)

- Автор, понимаю мелочь, но
- кнопа "Вставить быструю закладку" - плохо анимирована (не продавливается при клаце)
- после побудки, (после "таймер" - "сон") на 3-..5.. раз перестаёт читать, перезапуск Балаболки всё налаживает
- Если запустить балаболку и в процессе загрузки окна - свернуть, то вылетает
БАЛАБОЛКА_ошибка при сворачивании во время загрузки.jpg
БАЛАБОЛКА_ошибка при сворачивании во время загрузки.jpg (76.92 КБ) 65262 просмотра
и зависает, много раз клацаешь по сообщению, потом перезапускаешь.
- вот на таком перечне - зависает "калий-42, магний-28, кальций-45, стронций-85 и -89, цинк-65, кадмий-109, ртуть-203, алюминий-26, скандий-46, углерод-14, олово-113 и -121, свинец-212, гафний-175 и -181, фосфор-32, сурьма-125, висмут-206, -207, -210 и -213,ванадий-48 и -49, ниобий-95, тантал-182, теллур-122 и -129, хлор-36, бром-80m и -82, рений-183 и -186, рутений-97, -103 и -106, осмий-191 и -193, палладий-103, иридий-190, -192 и -194, платина-197." Но если разделить на 3 абзатца, то может и разговориться.
- Корёжит вот это- " ВИКТОР! ВИКТОР! "
(юзаю - ХР, Николай, SAPI4)

Балаболка TTS

Добавлено: 24 окт 2018 20:51
balaamster
fich писал(а):
23 окт 2018 22:43
Коля говорит "всё номер номер двигалось"
Ошибка в словаре "exc_rus.txt", в папке с движком

Код: Выделить всё

все двигалось :	<всё####двигалось> /i
все двигалось :	<всё##двигалось> /i
fich писал(а):
23 окт 2018 22:43
- Корёжит вот это- " ВИКТОР! ВИКТОР! "
Тут встроенный словарь не помогает. Остаётся только через словарь в Балаболке делать замену ВИКТОР=Виктор.

Балаболка TTS

Добавлено: 29 окт 2018 11:59
fich
balaamster писал(а):
24 окт 2018 20:51
все двигалось : <всё####двигалось> /i
все двигалось : <всё##двигалось> /i
Спасибо! и что с этой ошибкой делать? :scratch:
- Есть такие строки в словарое "exc_rus.txt"
все двигалось : <всё####двигалось> /i
все двигалось : <всё##двигалось> /i

Балаболка TTS

Добавлено: 29 окт 2018 12:22
balaamster
fich писал(а):
29 окт 2018 11:59
и что с этой ошибкой делать?
В словаре "exc_rus.txt" удалить ошибочную запись - все двигалось : <всё####двигалось> /i
Для разделения слов используется одна пара "##", вторая тут лишняя.
fich писал(а):
23 окт 2018 22:43
вот на таком перечне - зависает "калий-42, магний-28, кальций-45...
Это у себя тоже проверил. Проблема не в Балаболке, проблема в движке.
Не справляется он с такой строкой. В других программах у меня такой же сбой - не читает.

Балаболка TTS

Добавлено: 29 окт 2018 14:18
fich
balaamster, Спасибо :thank:

- Ув. балаболка, когда Балаболку сворачиваешь, то её не видит "Alt + Tab" (мож у меня только? на ХР) приходится нырять в трей и метко попадать по менюшке.
Отправлено спустя 54 минуты 34 секунды:
Решил праблу с "Alt + Tab". Убрал галочку "при сворачивании - убирать в трей"
- Хотя если-бы из трея "Alt + Tab"-ом можно было доставать, Балаболку, было-бы вкуснее.

Балаболка TTS

Добавлено: 02 ноя 2018 00:26
tonio_k
Правила в файле rex:

Код: Выделить всё

@[^\r\n]*\=пОла [^\r\n]*=
@[^\r\n]* пОла\b[^\r\n]*=
Удаляют строки:
► Показать
А при попытке ввести эти правила в BXD правила не срабатывают:
► Показать



Отправлено спустя 6 минут 57 секунд:
Все, разобрался. Надо так:
1) убрать знак @
2) Поставить галочку Учитывать регистр букв

Балаболка TTS

Добавлено: 02 ноя 2018 08:19
wasyaka
tonio_k писал(а):
02 ноя 2018 00:33
КОД: ВЫДЕЛИТЬ ВСЁ
(\b(бетон|вибрацией|глиняного|деревянного|доска|досок|достиг|дощатого|дюралюминий|женского|каменного|камень|камни|касалась|касаясь|квадрат|кладка|коснул(ась|ись|ся)|коснуться|кружок|кусок|мозаика|мужского|настил|недостойное|неровного|обломки|обоего|относительно|плит|площад|поверхност|подошвам|покачивание|покрыти|половин|прекрасного|прогиб|противоположного|пыльного|разваливающегося|разного|роль|секци|сотрясение|сторон|стык|точкой|уровн|участ|фрагмент|часть)(\w+)?(\s(\w+)?){1,})(\bпола\b)=$1 пОла
(\b(было|до|из|какого|от|с)\b\s?(\w+)?)\s{1,4}(\bпола\b)=$1 пОла
(\b(стен)\b\s?(\w+)?)\s{1,4}\b(и|или|с)\b\s{1,4}(\bпола\b)=$1 $4 пОла
(\bпола\b)((\s(\w+)?){1,}(боевого|в подвале|небыло|отделения|прихожей)(\w+)?)=пОла $2
Омографная пара $пола=пОла,полА, без проставленного ударения, Максим читает (или его приходится заставить :big_smile:), как пОла (чаще встречаемое) - и ВСЕ правила с омографом пОла для тех, кто доводит необработанные омографы вручную, а так как ты (как и я с недавних пор) после обработки сразу на запись-прослушку, то смысл в этих и ещё в нескольких ТЫСЯЧАХ рег выражений? - только увеличением времени обработки... :scratch:
Попробуй этот (часть отключил, часть подрихтовал.... )
1.5 RGV.rar
(530.12 КБ) 713 скачиваний
... и сравни...
Удачи :drunkpals:

Балаболка TTS

Добавлено: 07 ноя 2018 02:58
tonio_k
Может кому пригодиться:
Инструкция по экспорту из BXD в REX
1) Открываем в Балаболке словарь BXD .
=>Галочка - Показать фильтр.
=> Параметры фильтра: Состояние "Активно", Тип выражения: Регулярное выражение.
=> Применить фильтр.
2)Правка - Выделить все
3)Файл - Сохранить все выделенные...
4)Переименовываем полученный файл в txt
5) Открываем этот файл в Балаболке
6) Делаем активным ТОЛЬКО словарь BXD to REX.rex
BXD to REX.zip
(212 байт) 724 скачивания
7) Настройки => Коррекция произношения => Показать измененный текст

Аналогично экспортируем DIC. Разница только в пункте 1. Тип выражения: Обычный текст

Балаболка TTS

Добавлено: 07 ноя 2018 17:53
Sarter
здравствуйте.
балаболка портабл.
голос phvoice
как увеличить паузу между предложениями и абзацами?
имеющиеся настройки в программе эффекта не приносят...

Балаболка TTS

Добавлено: 07 ноя 2018 20:23
fich
Извините, за ниже следующий ворч.
- Вот считайте меня замшелым консерватором - но лет15 назад высказался и до сих пор затвердеваю на высказанном что- AVI(divX), mpg, TXT,doc, MP3,wav, JPG, tiff - всегда, и позовчера и послезавтра - будут проигрываться любой таратайкой, даже калькулятором, а новые фыбы,дежаву,ебупы, мпг,вебп и т.д. от лукавого, сырое запудривание мо<згу.
- Вот откройте в Балаболке - это (ниже выложенный) бред какой-то, какие-то скобки, ковычки, порванные слова на переносах и меж ними "номера сраниц" ... (тот-же текст есть в пдф и те-же коряки) . .. Мож это такая защита? В произведениях одна убогая картинка, а сколько пафосу! Я КРУТОЙ!и Выкладываю в djvu
- конвертация в ТХТ из "STDUViev 1.6" - даёт те-же результаты.
- Ну и как слушать этот бред??? Вот почему я боролся за правильное исполнение функции "Заменить всё". вот сижу правлю, а то слушать невозможно . ..

Балаболка TTS

Добавлено: 08 ноя 2018 02:10
tonio_k
fich, djvu это на сколько мне известно, формат записи "картинки" со сканера. Используют для иллюстрации и передачи изображения - т.е. там обычно нет текста, а грубо говоря это фотография. Весь текст, который из djvu получаем, это то что смогли "распознать" спец. программы. До электронных книг, под которые Балаболка заточена этот отсканированный текст ещё очень далек. Его надо превращать в тхт, читать, исправлять ошибки распознования. Зачем так сложно? Есть ведь эти же книги уже в нормальном текстовом варианте.

Балаболка TTS

Добавлено: 08 ноя 2018 15:59
fich
Весь текст, который из djvu получаем, это то что смогли "распознать" спец. программы.
И что? Ничего подозрительного в ДЖВУ не наблюдается, что 5 лет в зад, что сейчас(если их открыть) . .. Ещё позавчера - распознавалось, а сегодня деградация. Почему СЕЙЧАС?! (эт уже четвертый за последний месяц, а раньше гуд именно "джв" да и "пдф" скоро заглючат доки,ртф,доксы,ебупы . .. ручёнки у поколения "п" корявые)
Зачем так сложно? Есть ведь эти же книги уже в нормальном текстовом варианте.
У меня нет. Качаю с "шарамана" и слушаю.
► Показать

Балаболка TTS

Добавлено: 08 ноя 2018 16:07
tonio_k
fich писал(а):
08 ноя 2018 15:59
У меня нет. Качаю с "шарамана" и слушаю.
см в ЛС
А для djvu лучше всего распознавать в ABBY Fine Reader

Балаболка TTS

Добавлено: 08 ноя 2018 17:52
balaamster
fich писал(а):
07 ноя 2018 20:23
В произведениях одна убогая картинка, а сколько пафосу! Я КРУТОЙ!и Выкладываю в djvu
fich писал(а):
08 ноя 2018 15:59
Ещё позавчера - распознавалось, а сегодня деградация.
fich писал(а):
08 ноя 2018 15:59
ручёнки у поколения "п" корявые
Вот тут и лежит ответ на Ваше негодование.
Проблема не в формате, проблема в человеке, создавшем документ
Формат это лишь ёмкость, которую нужно нормально наполнить.

Можно взять старый деревянный инструментальный ящик и аккуратно разложить в нём инструменты, всё будет удобно, доступно и легко находится
А можно взять новейший пластиковый инструментальный органайзер и просто накидать в него инструменты. А потом долго и упорно искать пассатижи или "ключик на 12"

Текстовый документ тоже легко создать с кучей дефектов после распознавания, ошибок и прочего. Разница лишь в том, что в TXT эти дефекты быстрее обнаруживаются визуально.

А ещё можно использовать формат не по прямому назначению и иметь/создавать кучу проблем.
Вкладывать несколько скриншотов в DOC файл вместо zip/rar-архива.
Вести базу данных с миллионом записией в xls-файле (Excel).
Забивать гвозди пассатижами, при наличии молотка.
Топором нарезать хлеб.
Текст, который необходим именно как текст, а не его визуальное оформление, помещать в DJVU или PDF

В теории, если приложение извлекает текст из предыдущих документов правильно а из нового неправильно, то тут два варианта - либо "криво" создан документ ("кривой" автор или "кривое" приложение, не соблюдающее стандарты формата, в котором создан документ), либо стандарт для формата обновился и текущая версия приложения ещё не способна обработать эти изменения.

Балаболка TTS

Добавлено: 08 ноя 2018 19:11
tonio_k
Неожиданная статистика времени обработки с использованием в качестве квантификатора - звездочки в правилах регулярных выражениях:

Код: Выделить всё

@(\w+)([\s\,\:\-]*)Дана=$1$2 дАна
Время обработки: 810мс

Код: Выделить всё

@(\w+)([\s\,\:\-]{1,5})Дана=$1$2 дАна
Время обработки: 2053мс
Получается при наличии возможности применить "*", если это возможно, дает экономию в скорости почти в 2 раза.
► Показать

Балаболка TTS

Добавлено: 09 ноя 2018 23:25
fich
balaamster писал(а):
08 ноя 2018 17:52
проблема в человеке, создавшем документ
balaamster , Вы просто раскрыли то что я написал выше. Грустно. И что, теперь будет всегда ТАК? -мЧудаки будут корявить в джв,пдф и "звук.движек" будет нести пургу? И это, с сегодняшнего дня, теперь навсегда?
- Всегда знал, "ЧЕМ ПРОЩЕ, ТЕМ НАДЁЖНЕЙ" _"-Лучше велосипед, чем "Феррари" без бензина"(fich)
► Показать

Балаболка TTS

Добавлено: 09 ноя 2018 23:57
tonio_k
fich, я вам в личку написал - посмотрите


Отправлено спустя 1 день 45 минут 45 секунд:
balabolka писал(а):
13 окт 2018 16:27
В следующей версии "Балаболки" в окно "Статистика замен" добавлю столбец "Время", а также опцию "Показать все правила". Можно будет посмотреть время выполнения каждого правила для текущего текста.
Провел такой эксперимент:
► Показать
Таким образом хочу показать, что разбиение одного сложного правила на несколько простых в словаре REX при обработке большого размера текста дают ощутимую задержку в обработке. Так сказать работа в холостую - тоже затратная по времени работа. И выигрывая в скорости срабатывания мы можем проиграть в ОБЩЕЙ скорости обработки текста. В связи с этим, рассмотрите пожалуйста еще один таймер - Общее время работы процедуры "Статистика замен".

*Время обработки засекалось в программе Демагог. Возможно в Балаболке все будет по другому

Балаболка TTS

Добавлено: 11 ноя 2018 03:50
balabolka
tonio_k писал(а):
11 ноя 2018 00:43
В связи с этим, рассмотрите пожалуйста еще один таймер - Общее время работы процедуры "Статистика замен".
Общее время отображается в окне "Измененный текст" (пункт главного меню "Настройки|Коррекция произношения|Показать измененный текст").

Хорошо, можно показывать это значение и в окне "Статистика замен" тоже.
tonio_k писал(а):
11 ноя 2018 00:43
разбиение одного сложного правила на несколько простых
В данном случае можно говорить о замене одного простого правила на четыре простых. Выигрыша по времени, действительно, не будет.

Балаболка TTS

Добавлено: 12 ноя 2018 15:20
fich
Исходя из того что часто стали появляться скан-книги и последующая их конвертация в ТХТ-"буквы" вываливат такие праблы как "перенос" (разрыв слов), "номера страниц" (бывает прям в слове)
- Может быть вы, уважамые, придумаете правила (гекс-регекс-рекс) чтоб Одним нажатием (как в "Заменить всё")
- Удалить из текста одним нажатием цифры от 1 ...... до 500 -с пробелом перед
- Удалить из текста одним нажатием цифры от 1 ...... до 500 -с пробелом после
- Удалить из текста одним нажатием цифры от 1 ...... до 500 -без пробелов
- Понимаю, что это чревато и можно удалить "20 мм орудие смотрело мне в ..", Но! может какой анализатор в Балаболку вмонтировать - чтоб он видел - ЯВНУЮ последовательность цифр встретившуюся в данном тексте после его проверки на "цифры"

Балаболка TTS

Добавлено: 12 ноя 2018 16:35
balaamster
fich писал(а):
12 ноя 2018 15:20
чтоб он видел - ЯВНУЮ последовательность цифр встретившуюся в данном тексте после его проверки на "цифры"
Чтобы найти просто все цифры (1 до 999) в тексте в окне поиска: %rex%\d{1,3}
fich писал(а):
12 ноя 2018 15:20
Одним нажатием (как в "Заменить всё")
Одним нажатием "Заменить всё" - маловероятно.
Под это дело лучше завести словарь в bxd-формате:
fich писал(а):
12 ноя 2018 15:20
Удалить из текста одним нажатием цифры от 1 ...... до 500 -с пробелом перед
Выражение: "\s\d{1,3}([А-Яа-яЁё]+)" текст: " $1"
fich писал(а):
12 ноя 2018 15:20
Удалить из текста одним нажатием цифры от 1 ...... до 500 -с пробелом после
Выражение: "([А-Яа-яЁё]+)\d{1,3}\s" текст: "$1 "
fich писал(а):
12 ноя 2018 15:20
Удалить из текста одним нажатием цифры от 1 ...... до 500 -без пробелов
Выражение: "([А-Яа-яЁё]+)\d{1,3}([А-Яа-яЁё]+)" текст: "$1$2"

Отмечаем только этот словарь галочкой, нажимаем ctrl+t и вот такой текст:
► Показать
В новом окне, откуда его можно скопировать, превратится в:
► Показать

Балаболка TTS

Добавлено: 14 ноя 2018 13:16
tonio_k
Посмотрите пожалуйста, что за несрабатывание правил?
► Показать
При тесте правила в Редакторе правил замена срабатывает.
А в самом окне с текстом - Показать измененный текст - изменений нет.
Соответственно не показывает и статистику замен.
dictionaries.zip
(628 байт) 722 скачивания

Балаболка TTS

Добавлено: 14 ноя 2018 13:55
balabolka
tonio_k
В словаре правило не активно: в списке правил в столбце Активно написано "нет". Это означает, что правило хранится в словаре, но не применяется.

Чтобы правило применялось, сделайте его активным: выделите правило и нажмите кнопку "Активно". Также, сработает прием для работы с "галочками": нажатие клавиши "пробел" меняет состояние правила.

Балаболка TTS

Добавлено: 14 ноя 2018 14:01
tonio_k
А, понял. :thank: Активно / не активно - все так сливается. Не мудрено глаза замылить и прворонить очевидное.