Страница 1 из 3
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 26 июн 2018 14:50
balabolka
Утилита
BLB2TXT позволяет извлекать текст из файлов различных форматов. Извлеченный текст может быть объединен в один файл и/или разбит на несколько файлов. К тексту могут быть применены правила из словарей коррекции произношения программы "Балаболка".
Поддерживаются
форматы файлов: AZW, AZW3, CHM, DjVu, DOC, DOCX, EML, EPUB, FB2, FB3, HTML, LIT, MD, MHT, MOBI, ODP, ODS, ODT, PDB, PDF, PPT, PPTX, PRC, RTF, TCR, TXT, WPD, WRI, XLS, XLSX. Интерфейс IFilter будет использован для неизвестных программе форматов файлов. Утилита позволяет извлечь из книг иллюстрации и обложку как графические файлы и сохранить в отдельной папке.
Утилита не имеет графического интерфейса и выполняется в текстовом режиме. Режим работы программы может быть задан при помощи параметров командной строки или файла конфигурации.
Скачать утилиту для извлечения текста (v1.101)
Функции программы
Программа выполняет операции в следующем порядке:
- Извлечь текст из файла или нескольких файлов.
- Форматировать текст: удалить лишние пробелы, разрывы строк и т.д. (если заданы соответствующие параметры).
- Объединить текст в один файл (если задан соответствующий параметр).
- Разбить текст на части (если заданы соответствующие параметры).
- Применить правила коррекции произношения (если заданы соответствующие параметры).
- Сохранить файл или файлы на диске.
Утилита для извлечения текста из файлов
Добавлено: 26 июн 2018 17:38
balabolka
Версия 1.58
- Улучшено распознавание кодировки для обычных текстовых файлов.
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 30 июл 2018 16:14
balabolka
Версия 1.59
- Параметры для разбиения текста по оглавлению были разделены: если задан параметр -c, программа извлечет оглавление из электронного документа; если задан параметр -toc, программа создаст оглавление при помощи найденных в тексте ключевых слов ("глава", "том").
- Параметры -c и -toc могут использоваться вместе. В этом случае программа сначала извлечет оглавление из файла; если оглавление отсутствует, программа создаст новое оглавление.
- Исправлено извлечение текста из файлов формата PDF.
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 21 авг 2018 21:16
balabolka
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 03 сен 2018 00:59
balabolka
Версия 1.61
- Обновлено извлечение текста из файлов форматов DOCX, FB2 и ODT.
- Добавлен параметр --include-notes <число> для добавления сносок и примечаний внутрь текста. Возможные значения для числового параметра:
- 0 - удалить ссылки на примечания из текста
- 1 - сохранить текущие позиции сносок и примечаний в тексте (значение используется по умолчанию)
- 2 - переместить сноски и примечания в конец предложений
- 3 - переместить сноски и примечания в конец абзацев
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 07 сен 2018 12:39
balabolka
Версия 1.62
- Обновлен метод деления текста на части.
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 22 сен 2018 01:35
balabolka
Версия 1.63
- Обновлены сообщения об ошибках.
- Исправлено извлечение текста из файлов формата DjVu.
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 06 окт 2018 20:48
balabolka
Версия 1.64
- Обновлено применение правил для коррекции произношения.
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 09 окт 2018 02:48
balabolka
Версия 1.65
- Обновлено применение правил для коррекции произношения.
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 13 окт 2018 01:14
balabolka
Версия 1.66
- Добавлены параметры для извлечения содержимого полей заголовка из файлов формата EML, а также параметр для извлечения всех файлов, прикрепленных к сообщению, в заданную папку.
- Добавлен параметр -out <имя_файла> для полного имени файла с извлеченным текстом. Параметр может быть полезен в тех случаях, когда утилита используется в составе другого программного продукта. (Если утилита применяется как внешняя программа для извлечения текста, команда запуска утилиты будет содержать имя входного файла и имя файла с извлеченным текстом.)
- Исправлено извлечение текста из файлов формата EML.
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 15 окт 2018 23:12
balabolka
Версия 1.67
- Исправлено применение правил для коррекции произношения.
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 16 окт 2018 19:56
wasyaka
Словари используются впорядке написания?
Код: Выделить всё
e:\blb2txt\blb2txt -f "E:\blb2txt\пред\*.*" -v "b:\Homograph\Первичка\" -rs -rh -rl -rp -ocr -ls -sfs -in 2 -d "b:\Balabolka\dictionaries\1.0 corector.BXD" -d "b:\Balabolka\dictionaries\1.1 corector омо.BXD" -d "b:\Balabolka\dictionaries\1.2 Словарь Ё..DIC" -d "b:\Balabolka\dictionaries\1.3 chisla.BXD" -d "b:\Balabolka\dictionaries\1.4 vse-vsyo.BXD" -d "b:\Balabolka\dictionaries\1.5 RGV.BXD" -d "b:\Balabolka\dictionaries\sample.BXD" -d "b:\Balabolka\dictionaries\YandexTTS.DIC" -rs
Вставил в командную строку - энтэр и всё ОК
Файл конфигурации
Код: Выделить всё
-f "E:\blb2txt\пред\*.*"
-v "b:\Homograph\Первичка\"
-rs
-rh
-rl
-rp
-ocr
-ls
-sfs
-in 2
-d "b:\Balabolka\dictionaries\1.0 corector.BXD" -d "b:\Balabolka\dictionaries\1.1 corector омо.BXD" -d "b:\Balabolka\dictionaries\1.2 Словарь Ё.BXD" -d "b:\Balabolka\dictionaries\1.3 chisla.BXD" -d "b:\Balabolka\dictionaries\1.4 vse-vsyo.BXD" -d "b:\Balabolka\dictionaries\1.5 RGV.BXD" -d "b:\Balabolka\dictionaries\sample.BXD" -d "b:\Balabolka\dictionaries\YandexTTS.DIC"
-rs
Запустил утилиту и она подхватила? (если б подхватила не писал
бы..
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 16 окт 2018 21:11
balaamster
balabolka,
Возможно ли в утилите сделать замену unicode-символов, отсутствующих в ansi, на какой нибудь другой, вместо знака вопроса?
Например, мне попадались книги, где в начале строки идёт "– " (\u2013\u2002). В тексте получаем "–?"
Символ ударения \u0301 тоже превращает слово в "бо?льшая".
В качестве варианта, для привередливых, как я, можно словарь/таблицу замен применять.
Например, несколько раз в книгах попадались α, β, γ. По таблице можно заменять на alpha, beta, gamma.
Если реализация такой замены сильно трудоёмкая, то, наверное, не стоит её внедрять. Можно и в unicode отдельные тексты извлекать.
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 16 окт 2018 23:32
balabolka
balaamster
Сейчас в стандарте Юникод более 136 тысяч символов. Не думаю, что можно добавить названия даже для малой части этого диапазона.
Можно сохранить текст в кодировке Юникод и использовать собственный список замен в виде словаря DIC (только для греческих букв, например):
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 16 окт 2018 23:40
balabolka
wasyaka писал(а): ↑16 окт 2018 19:56
Словари используются впорядке написания?
Да, решил сделать так. Правила загружаются из словарей в том порядке, в котором имена файлов перечислены в командной строке.
Два важных замечания:
- Общий список правил из словарей DIC сортируется так же, как в "Балаболке".
- Сначала применяются правила из словарей BXD, затем правила из словарей REX, затем DIC.
И еще: сначала загружаются параметры из файла конфигурации, затем из командной строки. Поэтому значение параметра из командной строки может "переписать" значение этого параметра из файла конфигурации.
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 17 окт 2018 14:37
balabolka
wasyaka
В файле конфигурации каждый словарь надо указывать в отдельной строке.
Код: Выделить всё
-d b:\Balabolka\dictionaries\1.0 corector.BXD
-d b:\Balabolka\dictionaries\1.1 corector омо.BXD
-d b:\Balabolka\dictionaries\1.2 Словарь Ё.BXD
-d b:\Balabolka\dictionaries\1.3 chisla.BXD
-d b:\Balabolka\dictionaries\1.4 vse-vsyo.BXD
-d b:\Balabolka\dictionaries\1.5 RGV.BXD
-d b:\Balabolka\dictionaries\sample.BXD
-d b:\Balabolka\dictionaries\YandexTTS.DIC
Идея была такая: "одна строка - один параметр". И, соответственно, нет необходимости указывать имя файла в кавычках (в строке всё, что располагается после параметра, будет трактоваться как имя файла).
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 20 окт 2018 19:55
wasyaka
balabolka писал(а): ↑17 окт 2018 14:37
Идея была такая: "одна строка - один параметр"
Так и не понял, как запустить файл конфигурации - мне проще скопировал - вставил, тем более обработка пакетом.
Команду \*.* дополнить во вложенных папках - возможно?
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 20 окт 2018 21:07
balabolka
wasyaka писал(а): ↑20 окт 2018 19:55
Так и не понял, как запустить файл конфигурации
?! Не надо ничего "запускать". Надо создать текстовый файл с именем
blb2txt.cfg в той же папке, что и утилита, открыть файл в "Блокноте" и указать по одному параметру (и, если нужно, значению параметра) на каждой строке. Сохраните текстовый файл, и после этого можно запускать утилиту двойным щелчком мыши на имени файла
blb2txt.exe. При запуске программа сама ищет файл конфигурации и считывает из него данные.
wasyaka писал(а): ↑20 окт 2018 19:55
Команду \*.* дополнить во вложенных папках - возможно?
Вряд ли реализую такую возможность. Сразу возникают неясности: файлы с извлеченным текстом "складывать" также в подкаталоги? если надо объединить текст в один файл, в каком порядке осуществлять "склеивание" текста? и т.д.
То, что Вам нужно, можно реализовать с помощью файла *.BAT. Создайте текстовый файл
subfolder.bat примерно с таким содержанием:
Код: Выделить всё
for /d /r "e:\books" %%i in (*) do blb2txt -f "%%i\*.epub" -v "e:\text"
Командный скрипт найдет все подкаталоги для папки E:\BOOKS и для каждого из них запустит утилиту с именем подкаталога в качестве параметра командной строки. Все файлы с извлеченным текстом окажутся в папке. E:\TEXT. Если нужно найти электронные книги в самой папке E:\BOOKS, надо добавить еще один вызов утилиты с параметром
-f e:\books\*.epub (наверное, можно всё реализовать и одной командой в файле BAT, но я уже подзабыл синтаксис команд; надо читать документацию).
Команда FOR в BAT файле (описание и примеры использования)
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 21 окт 2018 19:41
balabolka
Версия 1.68
- Добавлен параметр -g <имя_папки> для извлечения графических файлов из документов.
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 22 окт 2018 11:00
Lecron
balabolka писал(а): ↑21 окт 2018 19:41
Добавлен параметр -g <имя_папки> для извлечения графических файлов из документов.
Начало положено. Спасибо.
Можно ли сделать так, чтобы программа только извлекала графику, но не преобразовывала текст? Это все-таки разные задачи и далеко не всегда нужны в паре.
Что можно сделать с именованием? Даже если в книге только одна картинка, обложка, ее название может быть любым. Есть бестпрактик, но её придерживаются не все создатели книг. И чтобы была возможность что-то дальше делать с картинкой, в скрипте, командном файле или через конвейер, нужно получить его/их название/я. Желательно в stdout.
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 22 окт 2018 13:06
balabolka
Lecron
Утилита blb2txt предназначена для извлечения текста, это останется ее основной функцией. У меня нет пока планов оформлять извлечение картинок как отдельную утилиту, а именно это надо сделать для реализации большей части тех функций, что Вы описали. Буду думать на эту тему.
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 22 окт 2018 15:08
Lecron
balabolka, Думайте. Будем ждать. Единственное, предложу отталкиваться от задачи.
Как понимаю, этот режим сделан в первую очередь для красоты прослушивания озвученных книг, в специализированных программах. Т.е. не для извлечения всей графики из файла, а для получения обложек. Которые нужно положить в папку с озвученными файлами.
Многие из этих программ не настраиваются и принимают в роли обложки, очень ограниченный набор имен файлов. Кстати, даже foobar2000, который когда-то настраивал на максимальную всеядность обложек, подхватить "[bookname] cover.jpg" не смог.
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 22 окт 2018 16:49
balabolka
Lecron писал(а): ↑22 окт 2018 15:08
Как понимаю, этот режим сделан в первую очередь для красоты прослушивания озвученных книг
Нет, эта функция была добавлена для извлечения всех иллюстраций из книги; последующее использование картинок не обязательно должно быть связано с созданием звуковых файлов. Если среди графических файлов есть обложка - хорошо, но специально программа ее не ищет.
Насколько я помню, информация о файле-обложке хранится в метаданных только для форматов EPUB и FB2 (причем, EPUB 2.0 и 3.0 хранят ее по-разному). Можно искать эту информацию в файлах и извлекать только обложку. Пока не уверен, необходима такая функция в моей программе или нет: графический файл обложки часто нуждается в дополнительной обработке (изменение размеров, изменение формата); проще извлечь все картинки и дать пользователю возможность самому выбрать нужную для последующего использования. (Есть электронные книги, где картинка-обложка внутри файла есть, а в метаданных она не указана - из-за забывчивости создателя книги или по незнанию; бывает и такое.)
Не готов сейчас серьезно заниматься графическими файлами, но спасибо Вам за интересные идеи и замечания.
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 24 окт 2018 02:33
balabolka
Насчет того, что "обложки" есть только в файлах EPUB и FB2, я ошибся; засомневался в этом сразу же, как написал. Информация об обложке есть еще в метаданных форматов AZW, AZW3, LIT, MOBI и PRC.
Также, можно еще первую страницу файла формата PDF считать своего рода "обложкой": страницу целиком можно сохранить как графический файл. (Хотя, встречал файлы PDF, в которых фото обложки бумажной книги было графическим объектом на первой странице электронной книги; бывает и такое.)
Попробую в следующей версии утилиты добавить новый параметр для извлечения файла-обложки из документов. Имя файла будет всегда одно и то же (cover.jpg, cover.png, например); расширения имени файла могут быть разными.
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 31 окт 2018 14:24
wasyaka
balabolka писал(а): ↑17 окт 2018 14:36
Два важных замечания:
Общий список правил из словарей DIC сортируется так же, как в "Балаболке".
Сначала применяются правила из словарей BXD, затем правила из словарей REX, затем DIC.
Код: Выделить всё
-f B:\blb2txt\Обработка\Серия - СМЕРШ - спецназ Сталина\*.*
-v b:\blb2txt\пром 1\
-rs
-rp
-ocr
-ls
-sfs
-in 2
-sn
-d b:\Balabolka\dictionaries\1.0 corector.BXD
-d b:\Balabolka\dictionaries\1.1 corector омо.BXD
-d b:\Balabolka\dictionaries\1.2 Словарь Ё.DIC
-f b:\blb2txt\пром 1\*.*
-v b:\blb2txt\пром 2\
-d b:\Balabolka\dictionaries\1.3 chisla.BXD
-d b:\Balabolka\dictionaries\1.4 vse-vsyo.BXD
-d b:\Balabolka\dictionaries\1.5 RGV.BXD
-d b:\Balabolka\dictionaries\1.6 sample.BXD
-d b:\Balabolka\dictionaries\1.7 YandexTTS.DIC
-f b:\blb2txt\пром 2\*.*
-v B:\blb2txt\Готовые\Серия - СМЕРШ - спецназ Сталина\
-d b:\Balabolka\dictionaries\1.8 Yandex ОМО авто.BXD
-d b:\Balabolka\dictionaries\1.9 Yandex абривиатура.DIC
-d b:\Balabolka\dictionaries\2.0 Yandex слова.DIC
-rs
При таком раскладе с промежуточными папками (в них ничего не отображается) можно сделать любую последовательность словарей...
Возникли вопросы:
1.по какому принципу последовательность обработки файлов в папке?
- 2018-10-31_022342.jpg (35.08 КБ) 74306 просмотров
Спасибо за рекомендации и индикатор времени в BXD. Время обработки наглядно на картинке
2.В процессе обработки - изменения содержания словарей, для ещё не обработаных файлов - сработает?
3.И есть ли возможность добавить команду выключить комп по окончанию обработок?
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 31 окт 2018 15:35
balabolka
wasyaka писал(а): ↑31 окт 2018 14:24
1.по какому принципу последовательность обработки файлов в папке?
Простой вопрос, казалось бы: я был уверен, что программа находит файлы в папке всегда в алфавитном порядке. Оказалось, что нет, и теперь самому странно, откуда взялась моя уверенность.
На сайте Microsoft в описании функций FindFirstFile/FindNextFile сказано:
"The order in which the search returns the files, such as alphabetical order, is not guaranteed, and is dependent on the file system."
Если файловая система NTFS, файлы будут найдены в папке в алфавитном порядке. В FAT32 ситуация другая: файлы на диске размещаются по порядку, как они были созданы, но если какой-либо файл удалить, появится "дырка" в таблице размещения файлов, и новый файл будет записан вместо удаленного. Порядок следования файлов в FAT32 станет произвольным.
Попробую в следующей версии сортировать имена файлов, найденных в папке. Спасибо за сообщение.
wasyaka писал(а):
2.В процессе обработки - изменения содержания словарей, для ещё не обработаных файлов - сработает?
Нет, словари загружаются один раз при запуске программы.
wasyaka писал(а):
3.И есть ли возможность добавить команду выключить комп по окончанию обработок?
Создайте файл с расширением *.BAT. Первая строка файла - вызов утилиты blb2txt.exe, вторая строка будет выглядеть так:
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 31 окт 2018 18:17
Lecron
balabolka писал(а): ↑31 окт 2018 15:35
Создайте файл с расширением *.BAT. Первая строка файла - вызов утилиты blb2txt.exe, вторая строка будет выглядеть так:
shutdown /s
Можно и без bat/cmd файлов. В командной строке можно объединять команды символом "&"
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 02 ноя 2018 21:09
balabolka
Версия 1.69
- Добавлено извлечение текста из файлов формата FB3.
- Добавлен параметр -cvr <имя_папки> для извлечения обложки книги.
- Обновлено извлечение текста из файлов формата FB2.
- Параметр --skip-fb2-summary (-sfs) переименован в --skip-summary (-ss).
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 10 ноя 2018 20:13
balabolka
Версия 1.70
- Страницы извлекаются из документа формата DjVu как графические файлы формата TIFF.
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 12 ноя 2018 10:07
Lecron
balabolka писал(а): ↑10 ноя 2018 20:13
как графические файлы формата TIFF.
Может лучше PNG? Он тоже без потерь. Для текста, пусть даже с иллюстрациями, тифф избыточен.
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 12 ноя 2018 13:51
balabolka
Lecron
Да, сложно было выбрать. Сравнивал извлеченные изображения в форматах TIFF и PNG, цветные иллюстрации в TIFF выглядят чуть лучше (на мой взгляд). Решил пренебречь разницей в размерах получающихся файлов в пользу качества. Но Вы правы, выбор формата неоднозначный.
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 12 ноя 2018 18:31
Lecron
balabolka, Не понял. Оба формата сжимают без потерь. Что означает алгоритмически равное качество.
Сохраните в bat-ник, измените путь к файл ffmpeg, запустите с любой картинкой в качестве параметра.
Код: Выделить всё
set ffmpeg=D:\Program\_Media\_Codecs\ffmpeg_x64\bin\ffmpeg.exe
%ffmpeg% -i %1 %1.bmp
%ffmpeg% -i %1.bmp %1.tiff
%ffmpeg% -i %1.bmp %1.png
%ffmpeg% -i %1.tiff %1.tiff.bmp
%ffmpeg% -i %1.png %1.png.bmp
fc /b %1.bmp %1.png.bmp
fc /b %1.tiff.bmp %1.png.bmp
D:\Var\Temp\test>fc /b 0156.jpg.bmp 0156.jpg.png.bmp
Сравнение файлов 0156.jpg.bmp и 0156.JPG.PNG.BMP
FC: различия не найдены
D:\Var\Temp\test>fc /b 0156.jpg.tiff.bmp 0156.jpg.png.bmp
Сравнение файлов 0156.jpg.tiff.bmp и 0156.JPG.PNG.BMP
FC: различия не найдены
3 файла – оригинал и два результирующих побитово одинаковы.
Отправлено спустя 20 минут 10 секунд:
Проверил также размеры
полноцветное фото 1440/1080, выгода 10% (4600к TIFF/4139к PNG), что впрочем тоже немало
скриншот экрана FullHD, выгода 93% !!! (7028к TIFF/506к PNG).
Так что смысл есть.
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 12 ноя 2018 20:15
balabolka
Lecron
Хорошо, можно использовать формат PNG.
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 15 ноя 2018 10:45
wasyaka
Код: Выделить всё
-f b:\blb2txt\первичка 1\Сборник\*.*
-v b:\blb2txt\пром 1\
-rs
-rp
-ocr
-ls
-sfs
-sn
-in 2
-d b:\Balabolka\dictionaries\1.0 corector.bxd
-d b:\Balabolka\dictionaries\1.1 corector омо.bxd
-d b:\Balabolka\dictionaries\1.1.1 corector омо.dic
-d b:\Balabolka\dictionaries\1.2 Словарь Ё.dic
-rs
После
► Показать
Морена…
Александр Афанасьев…
Морена - таково было имя древнеславянской богини смерти, безжалостной и бескомпромиссной, не порождающей никаких иллюзий и не оставляющей надежд… Что же должны были сотворить люди с той, которая избрала себе это имя, как благую участь? В этом романе перед вами раскроются тайны спецслужб, в которые поступили служить отставные белогвардейские офицеры, и в которых ныне служат их потомки, и судьбы их детей и любимых… Судьбы изгнанников России в новом остросюжетном романе боевике Александра Афанасьева.
Александр Афанасьев…
Морена…
Ты живёшь в своих поступках, а не в теле…
Ты - это твои действия и нет другого тебя…
Антуан де Сент Экзюпери Маленький принц…
Тоже, но в Balabolka порт.:
► Показать
Александр Афанасьев…
морена…
Ты живёшь в своих поступках, а не в теле…
Ты - это твои действия и нет другого тебя…
Антуан де Сент Экзюпери Маленький принц
не удаляет антонацию,
не..на одну пустую строку,
не срабатывает словарь 1.1.1 corector омо.dic (замена Заглавной в омографах на прописную )
1.0 corector.bxd; 1.1 corector омо.bxd (Был цельный... срабатывала только верхняя часть в рэгах - В Balabolka срабатывает цельный)
1.2 Словарь Ё.dic срабатывают...
Что у меня не так?
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 15 ноя 2018 14:58
balaamster
wasyaka писал(а): ↑15 ноя 2018 10:45
не удаляет антонацию,
В версии 1.70 -sfs заменён на -ss
wasyaka писал(а): ↑15 ноя 2018 10:45
не срабатывает словарь 1.1.1 corector омо.dic (замена Заглавной в омографах на прописную )
Проверил у себя - аналогично, в Балаболке срабатывают, в blb2txt нет.
wasyaka, тоже на ram-диске программу держите? (b:\blb2txt\)
Мне конфиг почти не пришлось править для тестов :)
Отправлено спустя 17 минут 56 секунд:
upd.
Понял причину "несрабатывания" - происходит сохранение первой заглавной буквы в применённом правиле. Как в Балаболке, при включённой опции "Общие настройки - Правила - Сохранять заглавную букву при использовании правил"
Для теста добавил в словарь:
$Раздались=раздались__
Получил:
Раздались__ отдельные смешки,
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 15 ноя 2018 17:00
wasyaka
balaamster писал(а): ↑15 ноя 2018 15:16
тоже на ram-диске программу держите?
Спс. Да, из за того что через день доступен комп
Отправлено спустя 13 часов 48 минут 4 секунды:
Сталкивался с подобным в Play_5. там в словаре ZAM - регистрозависимых срабатывало около 1500 штук. далее ни-ни.
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 17 ноя 2018 20:35
balabolka
Версия 1.71
- Добавлен параметр -rpn для удаления номеров страниц.
- Страницы извлекаются из документа формата DjVu как графические файлы формата PNG.
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 08 дек 2018 23:46
balabolka
Версия 1.72
- Добавлен параметр --remove-comments (-rc) для удаления комментариев (однострочных и многострочных).
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 22 дек 2018 00:20
balabolka
Версия 1.73
- Добавлен параметр --remove-round-brackets (-rrb) для удаления текста внутри круглых скобок.
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 26 дек 2018 23:34
balabolka
Версия 1.74
- Добавлен параметр -hh текст для вставки текста перед заголовками (например: ## Глава 1).
- Исправлены мелкие ошибки.
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 02 фев 2019 22:11
balabolka
Версия 1.75
- Добавлено извлечение текста из файлов формата PPTX.
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 09 фев 2019 23:09
balabolka
Версия 1.76
- Добавлено извлечение текста из файлов форматов ODP и PPT.
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 14 фев 2019 19:45
wasyaka
Команды входящие в группу форматирования имеют приоритет ?
А в очередь поставить?
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 14 фев 2019 21:45
balabolka
wasyaka писал(а): ↑14 фев 2019 19:45
Команды входящие в группу форматирования имеют приоритет ?
А в очередь поставить?
Порядок выполнения операций неизменен:
- --remove-page-numbers
- --fix-letter-spacing
- --remove-square-brackets
- --remove-curly-brackets
- --remove-angle-brackets
- --remove-round-brackets
- --remove-comments
- --remove-spaces
- --remove-hyphens
- --remove-linebreaks
- --remove-empty-lines
- --replace-empty-lines
- --fix-ocr-errors
Насчет того, чтобы использовать произвольный порядок, не думал. А что, в этом есть необходимость? (Как мне кажется, разница в конечном тексте будет минимальной: идеального варианта для порядка выполнения операций всё равно нет.)
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 14 фев 2019 22:52
wasyaka
balabolka писал(а): ↑14 фев 2019 21:45
А что, в этом есть необходимость?
Пример
Фраза
в самом начале
После словаря в регаг
в сАмом начале(два пробела)
соответственно следующий имеющий строку
в самом начале=в сАмом начАле
не сработает...
лечил
(\w+)\s{1,4}(\w+)=$1 $2
(\n\n)(\n+)=$1
И после, если файл добивать в Homograph, отпала необходимость опции
отделить абзац пустой строкой
После словаря
chisla изредка остаются следы в виде
восемнадцать<tg1>
Вылечил
(\w+)\<(\w+)\>=$1
Но ... не факт что такое лечение где то не навредит...
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 15 фев 2019 13:25
balabolka
Не совсем понял, о чем именно идет речь.
Сложные преобразования текста лучше осуществлять при помощи регулярных выражений. В утилите словари применяются в том порядке, в котором они перечислены в командной строке. Сначала применяются заданные опции для форматирования текста, затем - правила из словарей.
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 23 фев 2019 21:59
balabolka
Версия 1.77
- Добавлена настройка --add-period (-ap): добавить точку, если вслед за последним словом абзаца нет знака препинания.
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 10 мар 2019 23:28
balabolka
Версия 1.78
- При разбиении текста заданное число обозначает не количество килобайтов, а количество символов (включая пробелы, знаки препинания, символы перевода строки и возврата каретки).
- Добавлен параметр для минимального размера части текста при разбиении.
- Параметр -m переименован в -j.
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 22 мар 2019 22:29
balabolka
Версия 1.79
- Обновлено извлечение текста из файлов форматов DOCX, CHM, EPUB, HTML, ODP, ODT и PPTX.
- Исправлено извлечение текста из файлов формата CHM.
Утилита для извлечения текста из файлов (blb2txt.exe)
Добавлено: 20 июл 2019 23:23
balabolka