Утилита для извлечения текста из файлов (blb2txt.exe)
Модератор: balabolka
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Утилита BLB2TXT позволяет извлекать текст из файлов различных форматов. Извлеченный текст может быть объединен в один файл и/или разбит на несколько файлов. К тексту могут быть применены правила из словарей коррекции произношения программы "Балаболка".
Поддерживаются форматы файлов: AZW, AZW3, CHM, DjVu, DOC, DOCX, EML, EPUB, FB2, FB3, HTML, LIT, MD, MHT, MOBI, ODP, ODS, ODT, PDB, PDF, PPT, PPTX, PRC, RTF, TCR, TXT, WPD, WRI, XLS, XLSX. Интерфейс IFilter будет использован для неизвестных программе форматов файлов. Утилита позволяет извлечь из книг иллюстрации и обложку как графические файлы и сохранить в отдельной папке.
Утилита не имеет графического интерфейса и выполняется в текстовом режиме. Режим работы программы может быть задан при помощи параметров командной строки или файла конфигурации.
Скачать утилиту для извлечения текста (v1.101)
Функции программы
Программа выполняет операции в следующем порядке:
Поддерживаются форматы файлов: AZW, AZW3, CHM, DjVu, DOC, DOCX, EML, EPUB, FB2, FB3, HTML, LIT, MD, MHT, MOBI, ODP, ODS, ODT, PDB, PDF, PPT, PPTX, PRC, RTF, TCR, TXT, WPD, WRI, XLS, XLSX. Интерфейс IFilter будет использован для неизвестных программе форматов файлов. Утилита позволяет извлечь из книг иллюстрации и обложку как графические файлы и сохранить в отдельной папке.
Утилита не имеет графического интерфейса и выполняется в текстовом режиме. Режим работы программы может быть задан при помощи параметров командной строки или файла конфигурации.
Скачать утилиту для извлечения текста (v1.101)
Функции программы
Программа выполняет операции в следующем порядке:
- Извлечь текст из файла или нескольких файлов.
- Форматировать текст: удалить лишние пробелы, разрывы строк и т.д. (если заданы соответствующие параметры).
- Объединить текст в один файл (если задан соответствующий параметр).
- Разбить текст на части (если заданы соответствующие параметры).
- Применить правила коррекции произношения (если заданы соответствующие параметры).
- Сохранить файл или файлы на диске.
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов
Версия 1.58
- Улучшено распознавание кодировки для обычных текстовых файлов.
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Версия 1.59
- Параметры для разбиения текста по оглавлению были разделены: если задан параметр -c, программа извлечет оглавление из электронного документа; если задан параметр -toc, программа создаст оглавление при помощи найденных в тексте ключевых слов ("глава", "том").
- Параметры -c и -toc могут использоваться вместе. В этом случае программа сначала извлечет оглавление из файла; если оглавление отсутствует, программа создаст новое оглавление.
- Исправлено извлечение текста из файлов формата PDF.
- balabolka
- V.I.P.
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Версия 1.61
- Обновлено извлечение текста из файлов форматов DOCX, FB2 и ODT.
- Добавлен параметр --include-notes <число> для добавления сносок и примечаний внутрь текста. Возможные значения для числового параметра:
- 0 - удалить ссылки на примечания из текста
- 1 - сохранить текущие позиции сносок и примечаний в тексте (значение используется по умолчанию)
- 2 - переместить сноски и примечания в конец предложений
- 3 - переместить сноски и примечания в конец абзацев
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Версия 1.62
- Обновлен метод деления текста на части.
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Версия 1.63
- Обновлены сообщения об ошибках.
- Исправлено извлечение текста из файлов формата DjVu.
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Версия 1.64
- Обновлено применение правил для коррекции произношения.
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Версия 1.65
- Обновлено применение правил для коррекции произношения.
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Версия 1.66
- Добавлены параметры для извлечения содержимого полей заголовка из файлов формата EML, а также параметр для извлечения всех файлов, прикрепленных к сообщению, в заданную папку.
- Добавлен параметр -out <имя_файла> для полного имени файла с извлеченным текстом. Параметр может быть полезен в тех случаях, когда утилита используется в составе другого программного продукта. (Если утилита применяется как внешняя программа для извлечения текста, команда запуска утилиты будет содержать имя входного файла и имя файла с извлеченным текстом.)
- Исправлено извлечение текста из файлов формата EML.
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Версия 1.67
- Исправлено применение правил для коррекции произношения.
- wasyaka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Словари используются впорядке написания?
Вставил в командную строку - энтэр и всё ОК
Файл конфигурации
Запустил утилиту и она подхватила? (если б подхватила не писал бы..
Код: Выделить всё
e:\blb2txt\blb2txt -f "E:\blb2txt\пред\*.*" -v "b:\Homograph\Первичка\" -rs -rh -rl -rp -ocr -ls -sfs -in 2 -d "b:\Balabolka\dictionaries\1.0 corector.BXD" -d "b:\Balabolka\dictionaries\1.1 corector омо.BXD" -d "b:\Balabolka\dictionaries\1.2 Словарь Ё..DIC" -d "b:\Balabolka\dictionaries\1.3 chisla.BXD" -d "b:\Balabolka\dictionaries\1.4 vse-vsyo.BXD" -d "b:\Balabolka\dictionaries\1.5 RGV.BXD" -d "b:\Balabolka\dictionaries\sample.BXD" -d "b:\Balabolka\dictionaries\YandexTTS.DIC" -rs
Файл конфигурации
Код: Выделить всё
-f "E:\blb2txt\пред\*.*"
-v "b:\Homograph\Первичка\"
-rs
-rh
-rl
-rp
-ocr
-ls
-sfs
-in 2
-d "b:\Balabolka\dictionaries\1.0 corector.BXD" -d "b:\Balabolka\dictionaries\1.1 corector омо.BXD" -d "b:\Balabolka\dictionaries\1.2 Словарь Ё.BXD" -d "b:\Balabolka\dictionaries\1.3 chisla.BXD" -d "b:\Balabolka\dictionaries\1.4 vse-vsyo.BXD" -d "b:\Balabolka\dictionaries\1.5 RGV.BXD" -d "b:\Balabolka\dictionaries\sample.BXD" -d "b:\Balabolka\dictionaries\YandexTTS.DIC"
-rs
- balaamster
- Обыватель
Утилита для извлечения текста из файлов (blb2txt.exe)
balabolka,
Возможно ли в утилите сделать замену unicode-символов, отсутствующих в ansi, на какой нибудь другой, вместо знака вопроса?
Например, мне попадались книги, где в начале строки идёт "– " (\u2013\u2002). В тексте получаем "–?"
Символ ударения \u0301 тоже превращает слово в "бо?льшая".
В качестве варианта, для привередливых, как я, можно словарь/таблицу замен применять.
Например, несколько раз в книгах попадались α, β, γ. По таблице можно заменять на alpha, beta, gamma.
Если реализация такой замены сильно трудоёмкая, то, наверное, не стоит её внедрять. Можно и в unicode отдельные тексты извлекать.
Возможно ли в утилите сделать замену unicode-символов, отсутствующих в ansi, на какой нибудь другой, вместо знака вопроса?
Например, мне попадались книги, где в начале строки идёт "– " (\u2013\u2002). В тексте получаем "–?"
Символ ударения \u0301 тоже превращает слово в "бо?льшая".
В качестве варианта, для привередливых, как я, можно словарь/таблицу замен применять.
Например, несколько раз в книгах попадались α, β, γ. По таблице можно заменять на alpha, beta, gamma.
Если реализация такой замены сильно трудоёмкая, то, наверное, не стоит её внедрять. Можно и в unicode отдельные тексты извлекать.
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
balaamster
Сейчас в стандарте Юникод более 136 тысяч символов. Не думаю, что можно добавить названия даже для малой части этого диапазона.
Можно сохранить текст в кодировке Юникод и использовать собственный список замен в виде словаря DIC (только для греческих букв, например):
Сейчас в стандарте Юникод более 136 тысяч символов. Не думаю, что можно добавить названия даже для малой части этого диапазона.
Можно сохранить текст в кодировке Юникод и использовать собственный список замен в виде словаря DIC (только для греческих букв, например):
Код: Выделить всё
*α*= альфа
*β*= бета
*γ*= гамма
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Да, решил сделать так. Правила загружаются из словарей в том порядке, в котором имена файлов перечислены в командной строке.
Два важных замечания:
- Общий список правил из словарей DIC сортируется так же, как в "Балаболке".
- Сначала применяются правила из словарей BXD, затем правила из словарей REX, затем DIC.
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
wasyaka
В файле конфигурации каждый словарь надо указывать в отдельной строке.
Идея была такая: "одна строка - один параметр". И, соответственно, нет необходимости указывать имя файла в кавычках (в строке всё, что располагается после параметра, будет трактоваться как имя файла).
В файле конфигурации каждый словарь надо указывать в отдельной строке.
Код: Выделить всё
-d b:\Balabolka\dictionaries\1.0 corector.BXD
-d b:\Balabolka\dictionaries\1.1 corector омо.BXD
-d b:\Balabolka\dictionaries\1.2 Словарь Ё.BXD
-d b:\Balabolka\dictionaries\1.3 chisla.BXD
-d b:\Balabolka\dictionaries\1.4 vse-vsyo.BXD
-d b:\Balabolka\dictionaries\1.5 RGV.BXD
-d b:\Balabolka\dictionaries\sample.BXD
-d b:\Balabolka\dictionaries\YandexTTS.DIC
- wasyaka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Так и не понял, как запустить файл конфигурации - мне проще скопировал - вставил, тем более обработка пакетом.
Команду \*.* дополнить во вложенных папках - возможно?
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
?! Не надо ничего "запускать". Надо создать текстовый файл с именем blb2txt.cfg в той же папке, что и утилита, открыть файл в "Блокноте" и указать по одному параметру (и, если нужно, значению параметра) на каждой строке. Сохраните текстовый файл, и после этого можно запускать утилиту двойным щелчком мыши на имени файла blb2txt.exe. При запуске программа сама ищет файл конфигурации и считывает из него данные.
Вряд ли реализую такую возможность. Сразу возникают неясности: файлы с извлеченным текстом "складывать" также в подкаталоги? если надо объединить текст в один файл, в каком порядке осуществлять "склеивание" текста? и т.д.
То, что Вам нужно, можно реализовать с помощью файла *.BAT. Создайте текстовый файл subfolder.bat примерно с таким содержанием:
Код: Выделить всё
for /d /r "e:\books" %%i in (*) do blb2txt -f "%%i\*.epub" -v "e:\text"
Команда FOR в BAT файле (описание и примеры использования)
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Версия 1.68
- Добавлен параметр -g <имя_папки> для извлечения графических файлов из документов.
- Lecron
- Специалист
Утилита для извлечения текста из файлов (blb2txt.exe)
Начало положено. Спасибо.
Можно ли сделать так, чтобы программа только извлекала графику, но не преобразовывала текст? Это все-таки разные задачи и далеко не всегда нужны в паре.
Что можно сделать с именованием? Даже если в книге только одна картинка, обложка, ее название может быть любым. Есть бестпрактик, но её придерживаются не все создатели книг. И чтобы была возможность что-то дальше делать с картинкой, в скрипте, командном файле или через конвейер, нужно получить его/их название/я. Желательно в stdout.
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Lecron
Утилита blb2txt предназначена для извлечения текста, это останется ее основной функцией. У меня нет пока планов оформлять извлечение картинок как отдельную утилиту, а именно это надо сделать для реализации большей части тех функций, что Вы описали. Буду думать на эту тему.
Утилита blb2txt предназначена для извлечения текста, это останется ее основной функцией. У меня нет пока планов оформлять извлечение картинок как отдельную утилиту, а именно это надо сделать для реализации большей части тех функций, что Вы описали. Буду думать на эту тему.
- Lecron
- Специалист
Утилита для извлечения текста из файлов (blb2txt.exe)
balabolka, Думайте. Будем ждать. Единственное, предложу отталкиваться от задачи.
Как понимаю, этот режим сделан в первую очередь для красоты прослушивания озвученных книг, в специализированных программах. Т.е. не для извлечения всей графики из файла, а для получения обложек. Которые нужно положить в папку с озвученными файлами.
Многие из этих программ не настраиваются и принимают в роли обложки, очень ограниченный набор имен файлов. Кстати, даже foobar2000, который когда-то настраивал на максимальную всеядность обложек, подхватить "[bookname] cover.jpg" не смог.
Как понимаю, этот режим сделан в первую очередь для красоты прослушивания озвученных книг, в специализированных программах. Т.е. не для извлечения всей графики из файла, а для получения обложек. Которые нужно положить в папку с озвученными файлами.
Многие из этих программ не настраиваются и принимают в роли обложки, очень ограниченный набор имен файлов. Кстати, даже foobar2000, который когда-то настраивал на максимальную всеядность обложек, подхватить "[bookname] cover.jpg" не смог.
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Нет, эта функция была добавлена для извлечения всех иллюстраций из книги; последующее использование картинок не обязательно должно быть связано с созданием звуковых файлов. Если среди графических файлов есть обложка - хорошо, но специально программа ее не ищет.
Насколько я помню, информация о файле-обложке хранится в метаданных только для форматов EPUB и FB2 (причем, EPUB 2.0 и 3.0 хранят ее по-разному). Можно искать эту информацию в файлах и извлекать только обложку. Пока не уверен, необходима такая функция в моей программе или нет: графический файл обложки часто нуждается в дополнительной обработке (изменение размеров, изменение формата); проще извлечь все картинки и дать пользователю возможность самому выбрать нужную для последующего использования. (Есть электронные книги, где картинка-обложка внутри файла есть, а в метаданных она не указана - из-за забывчивости создателя книги или по незнанию; бывает и такое.)
Не готов сейчас серьезно заниматься графическими файлами, но спасибо Вам за интересные идеи и замечания.
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Насчет того, что "обложки" есть только в файлах EPUB и FB2, я ошибся; засомневался в этом сразу же, как написал. Информация об обложке есть еще в метаданных форматов AZW, AZW3, LIT, MOBI и PRC.
Также, можно еще первую страницу файла формата PDF считать своего рода "обложкой": страницу целиком можно сохранить как графический файл. (Хотя, встречал файлы PDF, в которых фото обложки бумажной книги было графическим объектом на первой странице электронной книги; бывает и такое.)
Попробую в следующей версии утилиты добавить новый параметр для извлечения файла-обложки из документов. Имя файла будет всегда одно и то же (cover.jpg, cover.png, например); расширения имени файла могут быть разными.
Также, можно еще первую страницу файла формата PDF считать своего рода "обложкой": страницу целиком можно сохранить как графический файл. (Хотя, встречал файлы PDF, в которых фото обложки бумажной книги было графическим объектом на первой странице электронной книги; бывает и такое.)
Попробую в следующей версии утилиты добавить новый параметр для извлечения файла-обложки из документов. Имя файла будет всегда одно и то же (cover.jpg, cover.png, например); расширения имени файла могут быть разными.
- wasyaka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Код: Выделить всё
-f B:\blb2txt\Обработка\Серия - СМЕРШ - спецназ Сталина\*.*
-v b:\blb2txt\пром 1\
-rs
-rp
-ocr
-ls
-sfs
-in 2
-sn
-d b:\Balabolka\dictionaries\1.0 corector.BXD
-d b:\Balabolka\dictionaries\1.1 corector омо.BXD
-d b:\Balabolka\dictionaries\1.2 Словарь Ё.DIC
-f b:\blb2txt\пром 1\*.*
-v b:\blb2txt\пром 2\
-d b:\Balabolka\dictionaries\1.3 chisla.BXD
-d b:\Balabolka\dictionaries\1.4 vse-vsyo.BXD
-d b:\Balabolka\dictionaries\1.5 RGV.BXD
-d b:\Balabolka\dictionaries\1.6 sample.BXD
-d b:\Balabolka\dictionaries\1.7 YandexTTS.DIC
-f b:\blb2txt\пром 2\*.*
-v B:\blb2txt\Готовые\Серия - СМЕРШ - спецназ Сталина\
-d b:\Balabolka\dictionaries\1.8 Yandex ОМО авто.BXD
-d b:\Balabolka\dictionaries\1.9 Yandex абривиатура.DIC
-d b:\Balabolka\dictionaries\2.0 Yandex слова.DIC
-rs
Возникли вопросы:
1.по какому принципу последовательность обработки файлов в папке? Спасибо за рекомендации и индикатор времени в BXD. Время обработки наглядно на картинке
2.В процессе обработки - изменения содержания словарей, для ещё не обработаных файлов - сработает?
3.И есть ли возможность добавить команду выключить комп по окончанию обработок?
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Простой вопрос, казалось бы: я был уверен, что программа находит файлы в папке всегда в алфавитном порядке. Оказалось, что нет, и теперь самому странно, откуда взялась моя уверенность.
На сайте Microsoft в описании функций FindFirstFile/FindNextFile сказано: "The order in which the search returns the files, such as alphabetical order, is not guaranteed, and is dependent on the file system."
Если файловая система NTFS, файлы будут найдены в папке в алфавитном порядке. В FAT32 ситуация другая: файлы на диске размещаются по порядку, как они были созданы, но если какой-либо файл удалить, появится "дырка" в таблице размещения файлов, и новый файл будет записан вместо удаленного. Порядок следования файлов в FAT32 станет произвольным.
Попробую в следующей версии сортировать имена файлов, найденных в папке. Спасибо за сообщение.
Нет, словари загружаются один раз при запуске программы.wasyaka писал(а): 2.В процессе обработки - изменения содержания словарей, для ещё не обработаных файлов - сработает?
Создайте файл с расширением *.BAT. Первая строка файла - вызов утилиты blb2txt.exe, вторая строка будет выглядеть так:wasyaka писал(а): 3.И есть ли возможность добавить команду выключить комп по окончанию обработок?
Код: Выделить всё
shutdown /s
- Lecron
- Специалист
Утилита для извлечения текста из файлов (blb2txt.exe)
Можно и без bat/cmd файлов. В командной строке можно объединять команды символом "&"
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Версия 1.69
- Добавлено извлечение текста из файлов формата FB3.
- Добавлен параметр -cvr <имя_папки> для извлечения обложки книги.
- Обновлено извлечение текста из файлов формата FB2.
- Параметр --skip-fb2-summary (-sfs) переименован в --skip-summary (-ss).
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Версия 1.70
- Страницы извлекаются из документа формата DjVu как графические файлы формата TIFF.
- Lecron
- Специалист
Утилита для извлечения текста из файлов (blb2txt.exe)
Может лучше PNG? Он тоже без потерь. Для текста, пусть даже с иллюстрациями, тифф избыточен.
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Lecron
Да, сложно было выбрать. Сравнивал извлеченные изображения в форматах TIFF и PNG, цветные иллюстрации в TIFF выглядят чуть лучше (на мой взгляд). Решил пренебречь разницей в размерах получающихся файлов в пользу качества. Но Вы правы, выбор формата неоднозначный.
Да, сложно было выбрать. Сравнивал извлеченные изображения в форматах TIFF и PNG, цветные иллюстрации в TIFF выглядят чуть лучше (на мой взгляд). Решил пренебречь разницей в размерах получающихся файлов в пользу качества. Но Вы правы, выбор формата неоднозначный.
- Lecron
- Специалист
Утилита для извлечения текста из файлов (blb2txt.exe)
balabolka, Не понял. Оба формата сжимают без потерь. Что означает алгоритмически равное качество.
Сохраните в bat-ник, измените путь к файл ffmpeg, запустите с любой картинкой в качестве параметра.
Отправлено спустя 20 минут 10 секунд:
Проверил также размеры
полноцветное фото 1440/1080, выгода 10% (4600к TIFF/4139к PNG), что впрочем тоже немало
скриншот экрана FullHD, выгода 93% !!! (7028к TIFF/506к PNG).
Так что смысл есть.
Сохраните в bat-ник, измените путь к файл ffmpeg, запустите с любой картинкой в качестве параметра.
Код: Выделить всё
set ffmpeg=D:\Program\_Media\_Codecs\ffmpeg_x64\bin\ffmpeg.exe
%ffmpeg% -i %1 %1.bmp
%ffmpeg% -i %1.bmp %1.tiff
%ffmpeg% -i %1.bmp %1.png
%ffmpeg% -i %1.tiff %1.tiff.bmp
%ffmpeg% -i %1.png %1.png.bmp
fc /b %1.bmp %1.png.bmp
fc /b %1.tiff.bmp %1.png.bmp
3 файла – оригинал и два результирующих побитово одинаковы.D:\Var\Temp\test>fc /b 0156.jpg.bmp 0156.jpg.png.bmp
Сравнение файлов 0156.jpg.bmp и 0156.JPG.PNG.BMP
FC: различия не найдены
D:\Var\Temp\test>fc /b 0156.jpg.tiff.bmp 0156.jpg.png.bmp
Сравнение файлов 0156.jpg.tiff.bmp и 0156.JPG.PNG.BMP
FC: различия не найдены
Отправлено спустя 20 минут 10 секунд:
Проверил также размеры
полноцветное фото 1440/1080, выгода 10% (4600к TIFF/4139к PNG), что впрочем тоже немало
скриншот экрана FullHD, выгода 93% !!! (7028к TIFF/506к PNG).
Так что смысл есть.
- balabolka
- V.I.P.
- wasyaka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Код: Выделить всё
-f b:\blb2txt\первичка 1\Сборник\*.*
-v b:\blb2txt\пром 1\
-rs
-rp
-ocr
-ls
-sfs
-sn
-in 2
-d b:\Balabolka\dictionaries\1.0 corector.bxd
-d b:\Balabolka\dictionaries\1.1 corector омо.bxd
-d b:\Balabolka\dictionaries\1.1.1 corector омо.dic
-d b:\Balabolka\dictionaries\1.2 Словарь Ё.dic
-rs
► Показать
► Показать
не..на одну пустую строку,
не срабатывает словарь 1.1.1 corector омо.dic (замена Заглавной в омографах на прописную )
1.0 corector.bxd; 1.1 corector омо.bxd (Был цельный... срабатывала только верхняя часть в рэгах - В Balabolka срабатывает цельный)
1.2 Словарь Ё.dic срабатывают... Что у меня не так?
- balaamster
- Обыватель
Утилита для извлечения текста из файлов (blb2txt.exe)
В версии 1.70 -sfs заменён на -ss
Проверил у себя - аналогично, в Балаболке срабатывают, в blb2txt нет.
wasyaka, тоже на ram-диске программу держите? (b:\blb2txt\)
Мне конфиг почти не пришлось править для тестов :)
Отправлено спустя 17 минут 56 секунд:
upd.
Понял причину "несрабатывания" - происходит сохранение первой заглавной буквы в применённом правиле. Как в Балаболке, при включённой опции "Общие настройки - Правила - Сохранять заглавную букву при использовании правил"
Для теста добавил в словарь:
$Раздались=раздались__
Получил:
Раздались__ отдельные смешки,
- wasyaka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Спс. Да, из за того что через день доступен комп
Отправлено спустя 13 часов 48 минут 4 секунды:
Сталкивался с подобным в Play_5. там в словаре ZAM - регистрозависимых срабатывало около 1500 штук. далее ни-ни.
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Версия 1.71
- Добавлен параметр -rpn для удаления номеров страниц.
- Страницы извлекаются из документа формата DjVu как графические файлы формата PNG.
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Версия 1.72
- Добавлен параметр --remove-comments (-rc) для удаления комментариев (однострочных и многострочных).
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Версия 1.73
- Добавлен параметр --remove-round-brackets (-rrb) для удаления текста внутри круглых скобок.
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Версия 1.74
- Добавлен параметр -hh текст для вставки текста перед заголовками (например: ## Глава 1).
- Исправлены мелкие ошибки.
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Версия 1.75
- Добавлено извлечение текста из файлов формата PPTX.
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Версия 1.76
- Добавлено извлечение текста из файлов форматов ODP и PPT.
- wasyaka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Команды входящие в группу форматирования имеют приоритет ?
А в очередь поставить?
А в очередь поставить?
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Порядок выполнения операций неизменен:
- --remove-page-numbers
- --fix-letter-spacing
- --remove-square-brackets
- --remove-curly-brackets
- --remove-angle-brackets
- --remove-round-brackets
- --remove-comments
- --remove-spaces
- --remove-hyphens
- --remove-linebreaks
- --remove-empty-lines
- --replace-empty-lines
- --fix-ocr-errors
- wasyaka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Пример
Фраза в самом начале
После словаря в регаг в сАмом начале(два пробела)
соответственно следующий имеющий строку
в самом начале=в сАмом начАле
не сработает...
лечил
(\w+)\s{1,4}(\w+)=$1 $2
(\n\n)(\n+)=$1
И после, если файл добивать в Homograph, отпала необходимость опции отделить абзац пустой строкой
После словаря chisla изредка остаются следы в виде
восемнадцать<tg1>
Вылечил
(\w+)\<(\w+)\>=$1
Но ... не факт что такое лечение где то не навредит...
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Не совсем понял, о чем именно идет речь.
Сложные преобразования текста лучше осуществлять при помощи регулярных выражений. В утилите словари применяются в том порядке, в котором они перечислены в командной строке. Сначала применяются заданные опции для форматирования текста, затем - правила из словарей.
Сложные преобразования текста лучше осуществлять при помощи регулярных выражений. В утилите словари применяются в том порядке, в котором они перечислены в командной строке. Сначала применяются заданные опции для форматирования текста, затем - правила из словарей.
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Версия 1.77
- Добавлена настройка --add-period (-ap): добавить точку, если вслед за последним словом абзаца нет знака препинания.
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Версия 1.78
- При разбиении текста заданное число обозначает не количество килобайтов, а количество символов (включая пробелы, знаки препинания, символы перевода строки и возврата каретки).
- Добавлен параметр для минимального размера части текста при разбиении.
- Параметр -m переименован в -j.
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Версия 1.79
- Обновлено извлечение текста из файлов форматов DOCX, CHM, EPUB, HTML, ODP, ODT и PPTX.
- Исправлено извлечение текста из файлов формата CHM.
- balabolka
- V.I.P.