<?xml version="1.0" encoding="UTF-8"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ru">
	<link rel="self" type="application/atom+xml" href="https://mytts.info/app.php/feed/topic/125" />

	<title>MyTTS</title>
	<subtitle>Форум о преобразовании текста в речь</subtitle>
	<link href="https://mytts.info/index.php" />
	<updated>2018-11-10T15:45:06+03:00</updated>

	<author><name><![CDATA[MyTTS]]></name></author>
	<id>https://mytts.info/app.php/feed/topic/125</id>

		<entry>
		<author><name><![CDATA[balabolka]]></name></author>
		<updated>2018-11-10T15:45:06+03:00</updated>

		<published>2018-11-10T15:45:06+03:00</published>
		<id>https://mytts.info/viewtopic.php?t=125&amp;p=935#p935</id>
		<link href="https://mytts.info/viewtopic.php?t=125&amp;p=935#p935"/>
		<title type="html"><![CDATA[[FAQ] Почему плохо извлекается текст из файлов PDF и DJVU?]]></title>

		
		<content type="html" xml:base="https://mytts.info/viewtopic.php?t=125&amp;p=935#p935"><![CDATA[
<strong class="text-strong">Текст из файлов форматов PDF и DjVu извлекается иногда хорошо, иногда плохо. Из разных файлов по-разному. Иногда появляются разрывы строк в абзацах, иногда извлекаются "кракозябры" вместо букв, иногда это "мусор" вместо текста. Почему так происходит?</strong><br><br><br>Потому что форматы PDF и DjVu в первую очередь предназначены для представления<br>полиграфической продукции в электронном виде. Документы в этих форматах используются для <strong class="text-strong">просмотра</strong> информации, а не для хранения или редактирования. Важен "внешний вид" документа, а не организация хранения информации внутри файла, с возможностью ее извлечения.<br><br>Отсюда проистекают проблемы с извлечением текста. В файле формата <strong class="text-strong">PDF</strong> хранится не текст - там хранятся <em class="text-italics">объекты</em> различных типов. Повезёт, если объект - это абзац текста; но это может быть только одна строка текста или даже одна буква (например, первая буква текста главы книги, <em class="text-italics">буквица</em> - большая буква, написанная другим шрифтом, с орнаментом или виньеткой, как в старинных рукописях). У меня был случай: "Балаболка" извлекала из документа сначала текст абзаца без знаков препинания, а затем сами знаки препинания, один за другим. Оказалось, что каждый знак препинания был отдельным объектом, расположенным поверх большого объекта с текстом абзаца (буквы были написаны одним шрифтом, знаки препинания - другим). Пришлось повозиться, прежде чем удалось вернуть запятые и точки на их законные места внутри абзаца.<br><br>Еще одна сложность с форматом PDF - это использование <em class="text-italics">подмножеств встраиваемых шрифтов</em>. Иногда в документ внедряют не весь шрифт целиком (файл шрифта бывает слишком большим), а только его часть. Подмножество шрифта содержит только те символы, которые используются в документе. И если таблица кодировки подмножества шрифта не использует стандартные коды символов, то "Балаболка" вместо текста извлечет совершенно другие символы. Эту проблему исправить невозможно, надо создавать файл PDF заново, без подмножества шрифта.<br><br>Формат <strong class="text-strong">DjVu</strong> служит для хранения изображений (например, сканированных книг и журналов). Если в файле и хранится текст, то только как дополнительный <em class="text-italics">текстовый слой</em>. Этот текст не предназначен для просмотра: он позволяет осуществлять полнотекстовый поиск по файлу. Самый распространенный метод создания текстового слоя - выполнение оптического распознавания книги. Успешность распознавания текста зависит от многих факторов, и результат может быть не всегда удачным.<br><br><strong class="text-strong">Вывод</strong>. Программа "Балаболка" извлекает те текстовые данные, которые содержатся в файлах форматов PDF и DjVu, но это не всегда будет форматированный текст без ошибок. Даже если при просмотре документа мы видим текст на экране монитора, это не означает, что внутри файла действительно хранится текст в правильной кодировке.<p>Статистика: Добавлено  <a href="https://mytts.info/memberlist.php?mode=viewprofile&amp;u=52">balabolka</a> — 10 ноя 2018 15:45</p><hr />
]]></content>
	</entry>
	</feed>
