TTS книги  Проверялка  ФорумФорум  RSS  ПоискПоиск  ПользователиПользователи  ГруппыГруппы   Статистика  Список рапортов  ПрофильПрофиль  Сообщения ЛССообщения ЛС  Выход [ evmir_troll-hunter ]Выход [ evmir_troll-hunter ]  



Начать новую темуОтветить на тему

Demagog (Демагог)

Предыдущая тема Следующая тема Перейти вниз
На страницу : Предыдущий  1, 2, 3, 4, 5
АвторСообщениеDemagog (Демагог)
apokrif
V.I.P.


Сообщений : 331

 apokrif :: 09.09.15 17:32
09.09.15 17:32
Выбрать/отменить одновременное цитирование Ответить с цитатой Послать сигнальный рапорт на это сообщение администратору или модератору Закрыть рапорты на это сообщение

Спасибо/Thanks
flegont пишет:
Демагог не поддерживает epub. По сравнению с fb2 он малораспространен и я пока не решил, нужна ли его поддержка в Демагоге.
Да они вроде не сильно отличаются?

flegont пишет:
А чем не устраивает Балаболка? Она поддерживает epub и имеется консольная ее версия - работающая из командной строки. Вот Вам и готовый конвертер. Или я чего-то не понимаю?
Скорее я (не понимаю). Т.е. консольная Балаболка сделает из исходного epub-а epub с ударениями, а не wav или еще что-то?

Вернуться к началу Перейти вниз
Посмотреть профильОтправить личное сообщение
flegont
V.I.P.
avatar


Сообщений : 355
Репутация : 475

 flegont :: 09.09.15 19:54
09.09.15 19:54
Выбрать/отменить одновременное цитирование Ответить с цитатой Послать сигнальный рапорт на это сообщение администратору или модератору Закрыть рапорты на это сообщение

Цитата :
Да они вроде не сильно отличаются?
Отличие большое. fb2 - это просто текст с разметкой, аналогичной html
А epub - это zip-архив, внутри которого множество папок с разным содержимым: картинки там, оглавление здесь, шрифты еще где-то, а собственно текст книги - это xml-файлы, причем может быть один большой или куча мелких - по главам - в общем, морока еще та.

Цитата :
Скорее я (не понимаю). Т.е. консольная Балаболка сделает из исходного epub-а epub с ударениями, а не wav или еще что-то?
Обе программы: Демагог и Балаболка, кроме аудио-файлов, могут делать т.н. "измененный текст" - содержащий все словарные замены. Если применялся только словарь ударений - то будет текст с ударениями. НО... это будет обычный текст! Не epub, не fb2, не doc или rtf, а простой txt.
Пригодный опять-таки для чтения вслух или записи аудио. Но уже со словарными поправками. Воссоздать текст в том же формате, который был изначально, ни Демагог, ни Балаболка не смогут. То есть, на выходе будет обычный банальный текст с ударениями, и всё.
И опять-таки, если нужно таким способом обрабатывать именно формат epub, да еще из командной строки - то попробуйте Балаболку. В документации описана работа с ее консольной версией.



Вернуться к началу Перейти вниз
Посмотреть профильОтправить личное сообщение
apokrif
V.I.P.


Сообщений : 331
Репутация : 85

 apokrif :: 10.09.15 1:36
10.09.15 1:36
Выбрать/отменить одновременное цитирование Ответить с цитатой Послать сигнальный рапорт на это сообщение администратору или модератору Закрыть рапорты на это сообщение

Спасибо/Thanks
flegont пишет:
НО... это будет обычный текст! Не epub, не fb2, не doc или rtf, а простой txt.
Понятно. Вопросов нет. Я понимаю, что задача не простая...
Похоже проще написать TTS proxy, кот. ест простой текст, применяет словарь ударений и отдаёт настоящему TTS.
Понятно, что TTS и сам словари применять может, засада только с Ё и омографами.
Собственно вопрос: могут Демагог и Балаболка проводить анализ текста, и распознавать Ё/омографы, чтобы TTS-у осталось только применить словарь?

Вернуться к началу Перейти вниз
Посмотреть профильОтправить личное сообщение
flegont
V.I.P.
avatar


Сообщений : 355
Репутация : 475

 flegont :: 10.09.15 9:23
10.09.15 9:23
Выбрать/отменить одновременное цитирование Ответить с цитатой Послать сигнальный рапорт на это сообщение администратору или модератору Закрыть рапорты на это сообщение

Цитата :
могут Демагог и Балаболка проводить анализ текста, и распознавать Ё/омографы
На Форуме в разделе "Тематические словари" есть Словарь замен для разрешения ё-омографов все/всё
Он - эмпирический, составлен на основе некоторых обнаруженных закономерностей в русских текстах, и его эффективность ~ 50%. В среднем, половину омографов "все/всё" в любом тексте этот словарь найдет.

Этот словарь в 2-х вариантах: DIC - только для Демагога и альтернативный типа REX, для Демагога и Балаболки.

Для остальных Ё-омографов словарей нет, увы Sad (Т.к. алгоритм полного разрешения Ё-омографов в русском языке до сих пор лингвистами не найден).

Вернуться к началу Перейти вниз
Посмотреть профильОтправить личное сообщение
apokrif
V.I.P.


Сообщений : 331
Репутация : 85

 apokrif :: 10.09.15 17:40
10.09.15 17:40
Выбрать/отменить одновременное цитирование Ответить с цитатой Послать сигнальный рапорт на это сообщение администратору или модератору Закрыть рапорты на это сообщение

Спасибо/Thanks
flegont пишет:
На Форуме в разделе "Тематические словари" есть Словарь замен для разрешения ё-омографов все/всё
И как же его прикрутить например к Андроиду?

Вернуться к началу Перейти вниз
Посмотреть профильОтправить личное сообщение
apokrif
V.I.P.


Сообщений : 331
Репутация : 85

 apokrif :: 10.09.15 19:02
10.09.15 19:02
Выбрать/отменить одновременное цитирование Ответить с цитатой Послать сигнальный рапорт на это сообщение администратору или модератору Закрыть рапорты на это сообщение

Спасибо/Thanks
flegont пишет:
Он - эмпирический, составлен на основе некоторых обнаруженных закономерностей в русских текстах, и его эффективность ~ 50%. В среднем, половину омографов "все/всё" в любом тексте этот словарь найдет.
А алгоритм большой/сложный?
Где-то можно его посмотреть?
Есть его реализация на плюсах, чтобы TTS proxy написать?

Вернуться к началу Перейти вниз
Посмотреть профильОтправить личное сообщение
flegont
V.I.P.
avatar


Сообщений : 355
Репутация : 475

 flegont :: 10.09.15 21:13
10.09.15 21:13
Выбрать/отменить одновременное цитирование Ответить с цитатой Послать сигнальный рапорт на это сообщение администратору или модератору Закрыть рапорты на это сообщение

Цитата :
А алгоритм большой/сложный?
Где-то можно его посмотреть?
Сложный и запутанный. Составлял его я... и сам уже с трудом в нем разбираюсь drinking
Это просто набор правил, не имеющих под собой никакого теоретического обоснования.
И оформленный сразу в виде словаря YOhmg.dic
Например:
$*... И все,=... И всё,
Если некоторое предложение заканчивается многоточием, за которым идет словосочетание "И все" с запятой на конце, то слово "все" заменяется на "всё"
все словно воды=2ъ
2ъ=все словно воды

Если встретится словосочетание "все словно воды", то заменить его временно на "2ъ", чтобы оно не попало под ошибочную замену "все -> всё", а в конце вернуть обратно
И так далее и тому подобное. Составлялось по принципу "лесом еду, лес пою" Wink

Потом evilon_ и evmir_troll-hunter переписали этот словарь регулярными выражениями, чтобы он работал не только в Демагоге, но и в Балаболке. От этого он стал выглядеть еще страшнее Sad
Называется vse_vsyo.rex

При написании некоего автомата для разрешения омографа "все-всё" рекомендую использовать именно словарь vse_vsyo.rex. Потому что: 1) он уже проверен на практике; 2) готовые компоненты обработки регулярных выражений имеются и для C++ и для Delphi; 3) алгоритм работы словарей DIC в Демагоге отличается от классического, и сложен в реализации.

Вернуться к началу Перейти вниз
Посмотреть профильОтправить личное сообщение
evmir_troll-hunter
Admin
avatar


Сообщений : 628
Репутация : 208

 evmir_troll-hunter :: 10.09.15 21:59
10.09.15 21:59
Выбрать/отменить одновременное цитирование Ответить с цитатой Послать сигнальный рапорт на это сообщение администратору или модератору Закрыть рапорты на это сообщение

Вопрос ещё больше запутаю; evilon_ модифицировал YOhmg.dic и предложил мне проверить.
Я сформировал несколько крупных сборников, и составил список из 5тыс. фраз с неправильной заменой все\всё.

После исправлений, ошибочных фраз стало 200(!) Результат меня и evilon_ удовлетворил... НО... я заметил, что без corector_alyona.rex словарь vse_vsyo.rex использовать бессмысленно - много ошибок.
Т.е. очевидно для точности замен все\всё в корректор Алёны было добавлено какое-то правило(а).

Я спрашивал evilon_ об этом, но ответа нет и его самого очень долго нет.
Т.о. я и не знаю нужен ли корректор, что там за правило и есть ли оно ещё...
По .epub; данный формат очень красив в визуальном представлении книги. Как по мне, наилучше отображается в Firefox...

Вернуться к началу Перейти вниз
Посмотреть профильОтправить личное сообщение
flegont
V.I.P.
avatar


Сообщений : 355
Репутация : 475

 flegont :: 10.09.15 22:51
10.09.15 22:51
Выбрать/отменить одновременное цитирование Ответить с цитатой Послать сигнальный рапорт на это сообщение администратору или модератору Закрыть рапорты на это сообщение

Я пробовал поискать в Инете: не достигнуто ли какого прогресса в вопросе разрешения Ё-омографов? Увы, пока ничего нового.

А формат ePub постепенно распространяется... становится популярным. В следующей версии Демагога будет добавлено распознавание формата ePub.

Вернуться к началу Перейти вниз
Посмотреть профильОтправить личное сообщение
apokrif
V.I.P.


Сообщений : 331
Репутация : 85

 apokrif :: 11.09.15 0:25
11.09.15 0:25
Выбрать/отменить одновременное цитирование Ответить с цитатой Послать сигнальный рапорт на это сообщение администратору или модератору Закрыть рапорты на это сообщение

evmir_troll-hunter пишет:
что без corector_alyona.rex словарь vse_vsyo.rex использовать бессмысленно - много ошибок.
Да засада...
Прогонять вагон регексов для каждого предложения на мобиле - это просто высаживать батарею...
Получается, более правильно сам epub обрабатывать, что тоже совсем не просто.
Предлагаю закрыть вопрос до лучших времен...

Вернуться к началу Перейти вниз
Посмотреть профильОтправить личное сообщение
evilone_
Участник «online словари»
avatar


Сообщений : 860
Репутация : 317

 evilone_ :: 19.09.15 10:53
19.09.15 10:53
Выбрать/отменить одновременное цитирование Ответить с цитатой Послать сигнальный рапорт на это сообщение администратору или модератору Закрыть рапорты на это сообщение

да вроде бы там ничего особенного, corector_alyona.rex форматирует текст до замены и его наличие для работы vse_vsyo.rex необязательное Suspect
на счет ошибок можете сравнить ваш текст с ним и без него, думаю отличие будет видно сразу

apokrif, неужели на смартфоне так удобно возиться со всеми этими словарями и заменами? не проще ли все сделать на компьютере и потом перекинуть готовое?

Вернуться к началу Перейти вниз
Посмотреть профильОтправить личное сообщение
apokrif
V.I.P.


Сообщений : 331
Репутация : 85

 apokrif :: 19.09.15 18:41
19.09.15 18:41
Выбрать/отменить одновременное цитирование Ответить с цитатой Послать сигнальный рапорт на это сообщение администратору или модератору Закрыть рапорты на это сообщение

Спасибо/Thanks
evilone_ пишет:
неужели на смартфоне так удобно возиться со всеми этими словарями и заменами? не проще ли все сделать на компьютере и потом перекинуть готовое?
Чтобы не потерять разметку (например fb2) - похоже что не проще...

Вернуться к началу Перейти вниз
Посмотреть профильОтправить личное сообщение
evmir_troll-hunter
Admin
avatar


Сообщений : 628
Репутация : 208

 evmir_troll-hunter :: 27.10.16 19:13
27.10.16 19:13
Выбрать/отменить одновременное цитирование Ответить с цитатой Послать сигнальный рапорт на это сообщение администратору или модератору Закрыть рапорты на это сообщение

Формат *.dxt удобный и практичный:
a. все закладки, картинки\таблицы, выделение шрифтом и цветом сохраняются.
Можно подготовить список слов\фраз, выделить проблемные моменты, проиллюстрировать скринами, и переслать другу.

b. уменьшение размера больших сборников в 1.5-3 раза.

Вернуться к началу Перейти вниз
Посмотреть профильОтправить личное сообщение
flegont
V.I.P.
avatar


Сообщений : 355
Репутация : 475

 flegont :: 27.10.16 21:55
27.10.16 21:55
Выбрать/отменить одновременное цитирование Ответить с цитатой Послать сигнальный рапорт на это сообщение администратору или модератору Закрыть рапорты на это сообщение

СтОит упомянуть, что именно evmir_troll-hunter более года назад (или даже раньше) предложил мне подумать над собственным форматом Демагога и назвать его DXT - Demagog teXT. Пусть бы в нем вместе с текстом хранились и закладки. Потому что банальное хранение их в настроечном файле - это не самый лучший метод.
Я далеко не сразу воспринял эту мысль. "Всё и так нормально, всё и так сойдет..."

А когда, случайно удалив файл настроек Демагога, потерял тем самым все закладки в важных для меня текстах, то задумался... Пришло в голову, что и импортированные картинки лучше не сваливать в многочисленных автоматически создаваемых папках, а хранить т.с. "поближе к телу", в том же dxt-файле...
Впоследствии evmir_troll-hunter серьезно помог с тестированием нового формата, за что ему спасибо.

Вернуться к началу Перейти вниз
Посмотреть профильОтправить личное сообщение

Demagog (Демагог)

Предыдущая тема Следующая тема Вернуться к началу
Demagog (Демагог)
Страница 5 из 5Страница 5 из 5На страницу : Предыдущий  1, 2, 3, 4, 5
  Перестать следить за ответами    Форма быстрого ответа    Перестать следить за ответами    Форма быстрого ответа  
Начать новую темуОтветить на тему
Этот сайт не предоставляет электронные версии программного обеспечения и полнотекстовых электронных изданий, а занимается лишь
подборкой и каталогизацией ссылок, присылаемых и публикуемых на форуме нашими читателями.

Создать форум | ©phpBB | Бесплатный форум поддержки | Сообщить о нарушении