Утилита для извлечения текста из файлов (blb2txt.exe)
Модератор: balabolka
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Dimsok
Если нужно только объединить тексты, то скрипт можно упростить:
Параметры будут выглядеть так:
Папка для временных файлов не требуется.
Если нужно только объединить тексты, то скрипт можно упростить:
Код: Выделить всё
@echo off
set OUTPUTFILENAME=%~1
set INPUTFILES=
shift
:loop1
if "%~1"=="" goto after_loop
set INPUTFILES=%INPUTFILES% -f "%~1"
shift
goto loop1
:after_loop
"D:\utils\blb2txt.exe" -u -out "%OUTPUTFILENAME%"%INPUTFILES%
Код: Выделить всё
"%Tmerged.txt" %P%S
- Lecron
- Специалист
Утилита для извлечения текста из файлов (blb2txt.exe)
В таких случаях часто передают имя файла, содержащего имена помеченных/обрабатываемых файлов. В FAR метасимвол !@! в пользовательском меню и ассоциированных командах.
У архиваторов реализовано например
Код: Выделить всё
-ai[r[-|0]]{@listfile|!wildcard} : Include archives
Конвертер умеет выводить результат в stdout. Можно вообще в один проход.
Код: Выделить всё
blb2txt.exe -f "%~1" -o >> union.txt
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Да, это и надо использовать. В Total Commander есть аналогичный параметр %L. Файл со списком выбранных файлов хранится во временной папке и удаляется сразу после выполнения команды.
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Версия 1.99
- Добавлен параметр для выбора имени файла со списком имен текстовых файлов.
- Dimsok
- Постоялец
Утилита для извлечения текста из файлов (blb2txt.exe)
Имелись в виду файлы, на которые разбивается текст при нахождении ключевого слова. Речь о том, чтобы можно было менять расширение txt таких файлов. Ещё было бы полезно разбиение при нахождении одной пустой строки (аналогично -w для двух), и возможность в разбитых файлах удалять эти пустые строки (как при параметр -r).
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Это можно сделать при помощи словаря коррекции произношения. Насколько я помню, сначала текст разбивается на части, затем применяются правила из словарей.
Правило для REX-словаря может выглядеть, например, так:
Код: Выделить всё
(\r\n){2,}=$1
Насчет остальных Ваших предложений обещаю подумать.
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Версия 1.100
- Добавлен параметр для указания расширения файла с извлеченным текстом.
- Добавлен параметр для извлечения таблиц из файлов форматов DOCX/FB2/FB3/ODT.
- Обновлено извлечение текста из файлов форматов DOCX/FB2/FB3/HTML/ODT.
- balabolka
- V.I.P.
Утилита для извлечения текста из файлов (blb2txt.exe)
Версия 1.101
- Добавлена поддержка переменной %Title% в шаблон для имен файлов с извлеченным текстом. Переменная позволяет вставить заголовок HTML-документа (при извлечении текста из файлов формата HTML).