|
|
Автор | Сообщение | Demagog (Демагог) |
---|
apokrif V.I.P.
Сообщений : 331
 | 09.09.15 17:32 |  |
| - flegont пишет:
- Демагог не поддерживает epub. По сравнению с fb2 он малораспространен и я пока не решил, нужна ли его поддержка в Демагоге.
Да они вроде не сильно отличаются?
- flegont пишет:
- А чем не устраивает Балаболка? Она поддерживает epub и имеется консольная ее версия - работающая из командной строки. Вот Вам и готовый конвертер. Или я чего-то не понимаю?
Скорее я (не понимаю). Т.е. консольная Балаболка сделает из исходного epub-а epub с ударениями, а не wav или еще что-то?
|
|
|
 | |
flegont V.I.P.
Сообщений : 355
Репутация : 475
 | 09.09.15 19:54 |  |
| - Цитата :
- Да они вроде не сильно отличаются?
Отличие большое. fb2 - это просто текст с разметкой, аналогичной html А epub - это zip-архив, внутри которого множество папок с разным содержимым: картинки там, оглавление здесь, шрифты еще где-то, а собственно текст книги - это xml-файлы, причем может быть один большой или куча мелких - по главам - в общем, морока еще та.
- Цитата :
- Скорее я (не понимаю). Т.е. консольная Балаболка сделает из исходного epub-а epub с ударениями, а не wav или еще что-то?
Обе программы: Демагог и Балаболка, кроме аудио-файлов, могут делать т.н. "измененный текст" - содержащий все словарные замены. Если применялся только словарь ударений - то будет текст с ударениями. НО... это будет обычный текст! Не epub, не fb2, не doc или rtf, а простой txt. Пригодный опять-таки для чтения вслух или записи аудио. Но уже со словарными поправками. Воссоздать текст в том же формате, который был изначально, ни Демагог, ни Балаболка не смогут. То есть, на выходе будет обычный банальный текст с ударениями, и всё. И опять-таки, если нужно таким способом обрабатывать именно формат epub, да еще из командной строки - то попробуйте Балаболку. В документации описана работа с ее консольной версией.
|
|
|
 | |
apokrif V.I.P.
Сообщений : 331
Репутация : 85
 | 10.09.15 1:36 |  |
| - flegont пишет:
- НО... это будет обычный текст! Не epub, не fb2, не doc или rtf, а простой txt.
Понятно. Вопросов нет. Я понимаю, что задача не простая... Похоже проще написать TTS proxy, кот. ест простой текст, применяет словарь ударений и отдаёт настоящему TTS. Понятно, что TTS и сам словари применять может, засада только с Ё и омографами. Собственно вопрос: могут Демагог и Балаболка проводить анализ текста, и распознавать Ё/омографы, чтобы TTS-у осталось только применить словарь?
|
|
|
 | |
flegont V.I.P.
Сообщений : 355
Репутация : 475
 | |
 | |
apokrif V.I.P.
Сообщений : 331
Репутация : 85
 | 10.09.15 17:40 |  |
| - flegont пишет:
- На Форуме в разделе "Тематические словари" есть Словарь замен для разрешения ё-омографов все/всё
И как же его прикрутить например к Андроиду? |
|
|
 | |
apokrif V.I.P.
Сообщений : 331
Репутация : 85
 | 10.09.15 19:02 |  |
| - flegont пишет:
- Он - эмпирический, составлен на основе некоторых обнаруженных закономерностей в русских текстах, и его эффективность ~ 50%. В среднем, половину омографов "все/всё" в любом тексте этот словарь найдет.
А алгоритм большой/сложный? Где-то можно его посмотреть? Есть его реализация на плюсах, чтобы TTS proxy написать?
|
|
|
 | |
flegont V.I.P.
Сообщений : 355
Репутация : 475
 | 10.09.15 21:13 |  |
| - Цитата :
- А алгоритм большой/сложный?
Где-то можно его посмотреть? Сложный и запутанный. Составлял его я... и сам уже с трудом в нем разбираюсь  Это просто набор правил, не имеющих под собой никакого теоретического обоснования. И оформленный сразу в виде словаря YOhmg.dic Например: $*... И все,=... И всё, Если некоторое предложение заканчивается многоточием, за которым идет словосочетание "И все" с запятой на конце, то слово "все" заменяется на "всё" все словно воды=2ъ 2ъ=все словно воды Если встретится словосочетание "все словно воды", то заменить его временно на "2ъ", чтобы оно не попало под ошибочную замену "все -> всё", а в конце вернуть обратно И так далее и тому подобное. Составлялось по принципу "лесом еду, лес пою" 
Потом evilon_ и evmir_troll-hunter переписали этот словарь регулярными выражениями, чтобы он работал не только в Демагоге, но и в Балаболке. От этого он стал выглядеть еще страшнее Называется vse_vsyo.rex
При написании некоего автомата для разрешения омографа "все-всё" рекомендую использовать именно словарь vse_vsyo.rex. Потому что: 1) он уже проверен на практике; 2) готовые компоненты обработки регулярных выражений имеются и для C++ и для Delphi; 3) алгоритм работы словарей DIC в Демагоге отличается от классического, и сложен в реализации. |
|
|
 | |
evmir_troll-hunter Admin
Сообщений : 628
Репутация : 208
 | |
 | |
flegont V.I.P.
Сообщений : 355
Репутация : 475
 | |
 | |
apokrif V.I.P.
Сообщений : 331
Репутация : 85
 | |
 | |
evilone_ Участник «online словари»
Сообщений : 860
Репутация : 317
 | |
 | |
apokrif V.I.P.
Сообщений : 331
Репутация : 85
 | 19.09.15 18:41 |  |
| - evilone_ пишет:
- неужели на смартфоне так удобно возиться со всеми этими словарями и заменами? не проще ли все сделать на компьютере и потом перекинуть готовое?
Чтобы не потерять разметку (например fb2) - похоже что не проще... |
|
|
 | |
evmir_troll-hunter Admin
Сообщений : 628
Репутация : 208
 | |
 | |
flegont V.I.P.
Сообщений : 355
Репутация : 475
 | |
 | |
|
Demagog (Демагог) |
---|