<?xml version="1.0" encoding="UTF-8"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ru">
	<link rel="self" type="application/atom+xml" href="https://mytts.info/app.php/feed/topic/100" />

	<title>MyTTS</title>
	<subtitle>Форум о преобразовании текста в речь</subtitle>
	<link href="https://mytts.info/index.php" />
	<updated>2018-07-19T21:42:13+03:00</updated>

	<author><name><![CDATA[MyTTS]]></name></author>
	<id>https://mytts.info/app.php/feed/topic/100</id>

		<entry>
		<author><name><![CDATA[wasyaka]]></name></author>
		<updated>2018-07-19T21:42:13+03:00</updated>

		<published>2018-07-19T21:42:13+03:00</published>
		<id>https://mytts.info/viewtopic.php?t=100&amp;p=332#p332</id>
		<link href="https://mytts.info/viewtopic.php?t=100&amp;p=332#p332"/>
		<title type="html"><![CDATA[Правила применяются в порядке убывания длин их левых частей]]></title>

		
		<content type="html" xml:base="https://mytts.info/viewtopic.php?t=100&amp;p=332#p332"><![CDATA[
<blockquote class="uncited"><div>Или как то по проще?</div></blockquote>Вначале обработал словарём <strong class="text-strong">omograph.hmg</strong> - Выстроил по алфавиту, удалил $, ([а-я]+)\s\|\s заменил на пустую, всавил в начало необработанного словаря -удалил дубликаты (EmEditor) добавились в конец те которых нет в словаре <strong class="text-strong">omograph.hmg</strong><br>сохранил в rex. переименовал в балаболке в BXD, затем в блокноте заменил 10100(рег выражение) на 10000(обычный текст)<br>BXD в REX <div class="spoilwrapper" style="margin:1em 0;font-weight:normal;padding:4px 10px;background-color:#fff;border:1px solid #dbdbdb;border-radius:4px;color:#333"><div class="spoiltitle" style="margin:0;padding:0;width:100%"><span class="spoilbtn" style="margin:2px 5px;text-transform:uppercase;font-family:'Helvetica Neue',Helvetica,Arial,sans-serif;font-size:11px;font-weight:bold;display:block;cursor:pointer;color:#333" data-show="► Показать" data-hide="▼ Скрыть">► Показать</span></div><div class="spoilcontent" style="color:#333;display:none;padding:5px;border-top:1px solid #ccc">1. вставить в конец выделенных строк ЪЪЪ (AkelPad) и в (EmEditor, notepad++)<br>2. включить: <br>учитывать регистр<br>регулярные выражения<br>Заменить  (&gt;&gt; - на)<br>\([а-я]+)ЪЪЪ &gt;&gt; ЪЪЪ<br>\ЪЪЪ &gt;&gt; <br>11100  &gt;&gt; @<br>10100  &gt;&gt; <br>([A-Z0-9]){1,}\  &gt;&gt; <br>\  &gt;&gt; =<br>коды (<strong class="text-strong">(\w+)</strong> обычный тект)<br>10100 &gt;&gt; РГВ<br>11100 &gt;&gt; @РГВ<br>11000 &gt;&gt; $(\w+)<br>10000 &gt;&gt; (\w+)<br>10020 &gt;&gt; *(\w+)<br>11020 &gt;&gt; $*(\w+)<br>10010 &gt;&gt; (\w+)*<br>11010 &gt;&gt; $(\w+)*<br>10030 &gt;&gt; *(\w+)*<br>11030 &gt;&gt; $*(\w+)*</div></div>Не все знаки отображаются<div class="spoilwrapper" style="margin:1em 0;font-weight:normal;padding:4px 10px;background-color:#fff;border:1px solid #dbdbdb;border-radius:4px;color:#333"><div class="spoiltitle" style="margin:0;padding:0;width:100%"><span class="spoilbtn" style="margin:2px 5px;text-transform:uppercase;font-family:'Helvetica Neue',Helvetica,Arial,sans-serif;font-size:11px;font-weight:bold;display:block;cursor:pointer;color:#333" data-show="► Показать" data-hide="▼ Скрыть">► Показать</span></div><div class="spoilcontent" style="color:#333;display:none;padding:5px;border-top:1px solid #ccc"><div class="inline-attachment"><dl class="file"><dt class="attach-image"><img src="https://mytts.info/download/file.php?id=323" class="postimage" alt="2018-07-19_213526.jpg" onclick="viewableArea(this);" /></dt></dl></div></div></div><p>Статистика: Добавлено  <a href="https://mytts.info/memberlist.php?mode=viewprofile&amp;u=71">wasyaka</a> — 19 июл 2018 21:42</p><hr />
]]></content>
	</entry>
		<entry>
		<author><name><![CDATA[tonio_k]]></name></author>
		<updated>2018-07-19T18:41:19+03:00</updated>

		<published>2018-07-19T18:41:19+03:00</published>
		<id>https://mytts.info/viewtopic.php?t=100&amp;p=325#p325</id>
		<link href="https://mytts.info/viewtopic.php?t=100&amp;p=325#p325"/>
		<title type="html"><![CDATA[Правила применяются в порядке убывания длин их левых частей]]></title>

		
		<content type="html" xml:base="https://mytts.info/viewtopic.php?t=100&amp;p=325#p325"><![CDATA[
<em class="text-italics">"А смысл перебирать весь список? Всё равно остановка на последнем?"</em><br>Такой пример: <strong class="text-strong">Вы понимаете? в другом округе.</strong><br>в правилах:<br><strong class="text-strong">*гом округе=гом Округе<br>в другом=в другОм</strong><br>В зависимости на каком правиле остановится обработка, на выходе будем иметь либо:<br>Вы понимаете? <strong class="text-strong">в другОм</strong> округе.<br>Вы понимаете? в дру<strong class="text-strong">гом Округе</strong>.<br>А хотелось бы получить: Вы понимаете? в друг<strong class="text-strong">О</strong>м <strong class="text-strong">О</strong>круге.<br><blockquote class="uncited"><div>В balabolka сумел обмануть прогу и выстроить как мне удобно:</div></blockquote> создали словарь DIC, отсортировали как надо, переименовали в REX, импортировали в балаболку, а затем в самом файле BXD поменяли значение rex на dic? Или как то по проще?<p>Статистика: Добавлено  <a href="https://mytts.info/memberlist.php?mode=viewprofile&amp;u=51">tonio_k</a> — 19 июл 2018 18:41</p><hr />
]]></content>
	</entry>
		<entry>
		<author><name><![CDATA[wasyaka]]></name></author>
		<updated>2018-07-19T18:27:45+03:00</updated>

		<published>2018-07-19T18:27:45+03:00</published>
		<id>https://mytts.info/viewtopic.php?t=100&amp;p=323#p323</id>
		<link href="https://mytts.info/viewtopic.php?t=100&amp;p=323#p323"/>
		<title type="html"><![CDATA[Правила применяются в порядке убывания длин их левых частей]]></title>

		
		<content type="html" xml:base="https://mytts.info/viewtopic.php?t=100&amp;p=323#p323"><![CDATA[
<blockquote class="uncited"><div>что при первом совпадении первого правила (самого длинного)</div></blockquote>А смысл перебирать весь список? Всё равно остановка на последнем? То же что и сразу обрабатывать с конца и на первом совпадении остановиться. <img class="smilies" src="./images/smilies/smile3.gif" width="40" height="25" alt=":smile3:" title="эмоция"> <br>Тогда я смогу выстроить список по омографам в алфавитном порядке а уже внутри списка с конкретным омо выстроить как удобно. И добавлять - редактировать и т.д намного удобней.<hr><br><br><span style="font-size:85%;line-height:116%"><span style="color:green">Отправлено спустя     49 минут 34 секунды:</span></span><br>В balabolka сумел обмануть прогу и выстроить как мне удобно:<div class="spoilwrapper" style="margin:1em 0;font-weight:normal;padding:4px 10px;background-color:#fff;border:1px solid #dbdbdb;border-radius:4px;color:#333"><div class="spoiltitle" style="margin:0;padding:0;width:100%"><span class="spoilbtn" style="margin:2px 5px;text-transform:uppercase;font-family:'Helvetica Neue',Helvetica,Arial,sans-serif;font-size:11px;font-weight:bold;display:block;cursor:pointer;color:#333" data-show="► Показать" data-hide="▼ Скрыть">► Показать</span></div><div class="spoilcontent" style="color:#333;display:none;padding:5px;border-top:1px solid #ccc"><div class="inline-attachment"><dl class="file"><dt class="attach-image"><img src="https://mytts.info/download/file.php?id=322" class="postimage" alt="2018-07-19_182341.jpg" onclick="viewableArea(this);" /></dt></dl></div></div></div><p>Статистика: Добавлено  <a href="https://mytts.info/memberlist.php?mode=viewprofile&amp;u=71">wasyaka</a> — 19 июл 2018 18:27</p><hr />
]]></content>
	</entry>
		<entry>
		<author><name><![CDATA[tonio_k]]></name></author>
		<updated>2018-07-19T16:25:58+03:00</updated>

		<published>2018-07-19T16:25:58+03:00</published>
		<id>https://mytts.info/viewtopic.php?t=100&amp;p=321#p321</id>
		<link href="https://mytts.info/viewtopic.php?t=100&amp;p=321#p321"/>
		<title type="html"><![CDATA[Правила применяются в порядке убывания длин их левых частей]]></title>

		
		<content type="html" xml:base="https://mytts.info/viewtopic.php?t=100&amp;p=321#p321"><![CDATA[
<blockquote class="uncited"><div>А не проще сделать сработку на первом совпадении?</div></blockquote> Вы имеете в виду, что при первом совпадении первого правила (самого длинного) из словаря для данного отрезка текста,  дальнейший поиск для замен по словарю прекращается и переходим к следующему отрезку текста?<p>Статистика: Добавлено  <a href="https://mytts.info/memberlist.php?mode=viewprofile&amp;u=51">tonio_k</a> — 19 июл 2018 16:25</p><hr />
]]></content>
	</entry>
		<entry>
		<author><name><![CDATA[wasyaka]]></name></author>
		<updated>2018-07-19T12:54:51+03:00</updated>

		<published>2018-07-19T12:54:51+03:00</published>
		<id>https://mytts.info/viewtopic.php?t=100&amp;p=317#p317</id>
		<link href="https://mytts.info/viewtopic.php?t=100&amp;p=317#p317"/>
		<title type="html"><![CDATA[Правила применяются в порядке убывания длин их левых частей]]></title>

		
		<content type="html" xml:base="https://mytts.info/viewtopic.php?t=100&amp;p=317#p317"><![CDATA[
<blockquote class="uncited"><div>P.S. перечисленных словарей вполне достаточно про подготовке сборников любого размера (без лишней траты времени) для прослушивания Alyona Acapela.</div></blockquote>Это только время обработки...<br>Для меня нет главного - эффективность обработки - т.е сколько (примерно) будет произнесено ошибочных (необработанных) омографов без все- всё. К примеру у меня долгая обработка примерно - 60 мин. на 10 час прослушки (пользуюсь обработкой по главам или по размеру около часа (балаболка) - от 2-х до 5-и минут) и где-то  (в среднем) 6 неправильных(необработанных) омографов, 2 - ошибки словаря.<blockquote class="uncited"><div><br>Достоинства: Обеспечивается наиболее полное использование словаря и быстрый процесс словарных замен.<br>Недостатки: Порядок применения правил не зависит от желания пользователя. Например, пользователь хотел бы применить сперва короткие правила для очистки текста от "мусора".</div></blockquote>А не проще сделать сработку на первом совпадении?<p>Статистика: Добавлено  <a href="https://mytts.info/memberlist.php?mode=viewprofile&amp;u=71">wasyaka</a> — 19 июл 2018 12:54</p><hr />
]]></content>
	</entry>
		<entry>
		<author><name><![CDATA[flegont]]></name></author>
		<updated>2018-07-18T10:41:13+03:00</updated>

		<published>2018-07-18T10:41:13+03:00</published>
		<id>https://mytts.info/viewtopic.php?t=100&amp;p=312#p312</id>
		<link href="https://mytts.info/viewtopic.php?t=100&amp;p=312#p312"/>
		<title type="html"><![CDATA[Правила применяются в порядке убывания длин их левых частей]]></title>

		
		<content type="html" xml:base="https://mytts.info/viewtopic.php?t=100&amp;p=312#p312"><![CDATA[
Спасибо за тестирование! Очень показательные результаты.<br><blockquote class="uncited"><div>В Демагоге для словарей .dic по умолчанию применяется т.н. <strong class="text-strong">быстрый алгоритм</strong> замен:<br>- для обеспечения мгновенного поиска словарь преобразуется в специальную "хеш-таблицу";<br>- текст просматривается слово за словом;<br>- для каждого слова определяются потенциально подходящие к нему правила в хеш-таблице;<br>- подходящие правила сортируются в порядке убывания длин их левых частей и в таком порядке производится проверка: подходит или нет;<br>- если подходит, то после замены слова (словосочетания) вновь повторяется поиск в хеш-таблице подходящих правил для этого (уже измененного!) слова, до тех пор, пока возможно. <br><br>Достоинства: Обеспечивается наиболее полное использование словаря и быстрый процесс словарных замен.<br>Недостатки: Порядок применения правил не зависит от желания пользователя. Например, пользователь хотел бы применить <em class="text-italics">сперва короткие правила</em> для очистки текста от "мусора".<br><br>Поэтому доступен альтернативный алгоритм, в котором правила применяются к тексту последовательно, в том порядке, в котором расположены в словаре. Условное название метода: <strong class="text-strong">прямой перебор.</strong></div></blockquote>Возьмем итоги  Вашего теста (красным цветом) для самого большого документа  all_Щедрин.txt<br>И возьмем итоги моего теста (синие) для bigtext.txt (20Мб), компьютер Intel Core i7 3.9GHz ОЗУ 16 Gb, Windows 10 64x<br><br>Словарь:  z_yoyo_ex.dic  (~ 200 правил)<br>Прямой перебор:  <span style="color:#FF0000">0:00:12</span>  <span style="color:#0000FF">(0:00:04)</span><br>Быстрый алгоритм:  <span style="color:#FF0000">0:00:29</span>  <span style="color:#0000FF">(0:00:08)</span><br>Победа <em class="text-italics">прямого перебора</em> за явным преимуществом.<br><br>Словарь: R_E_1_OMOGRAPF_alyona.dic  (~ 60000 правил)<br>Прямой перебор: <span style="color:#FF0000">0:43:09</span>  <span style="color:#0000FF">(0:14:59)</span> <br>Быстрый алгоритм: <span style="color:#FF0000">0:08:40</span>  <span style="color:#0000FF">(0:02:29)</span> <br>Победа <em class="text-italics">быстрого алгоритма</em> за явным преимуществом.<br><br>Таким образом, <em class="text-italics">для одного и того же текста, решающим является размер dic-словаря.</em> На коротких словарях (несколько сот правил) прямой перебор выигрывает по скорости практически в 2 раза. (Поскольку нет затрат времени на предварительное преобразование словаря). А на больших словарях, в десятки тысяч правил, наоборот, быстрый алгоритм оказывается в разы шустрее , чем и оправдывает свое название.<br><br>В то же время, даже для больших словарей, прямой перебор отрабатывает за приемлемое время. Т.о. задача применения правил в dic-словаре в том порядке, в каком желает пользователь - вполне удовлетворительно решена.<br><br>Трудоемкость быстрого алгоритма пропорциональна размеру текста. <br>Трудоемкость прямого перебора пропорциональна произведению размера текста на размер словаря. <br>Поэтому, как бы прямой перебор ни выигрывал на малых словарях, на достаточно больших - он всегда проиграет быстрому алгоритму.<p>Статистика: Добавлено  <a href="https://mytts.info/memberlist.php?mode=viewprofile&amp;u=53">flegont</a> — 18 июл 2018 10:41</p><hr />
]]></content>
	</entry>
		<entry>
		<author><name><![CDATA[evmir_troll-hunter]]></name></author>
		<updated>2018-07-18T09:30:12+03:00</updated>

		<published>2018-07-18T09:30:12+03:00</published>
		<id>https://mytts.info/viewtopic.php?t=100&amp;p=311#p311</id>
		<link href="https://mytts.info/viewtopic.php?t=100&amp;p=311#p311"/>
		<title type="html"><![CDATA[Правила применяются в порядке убывания длин их левых частей]]></title>

		
		<content type="html" xml:base="https://mytts.info/viewtopic.php?t=100&amp;p=311#p311"><![CDATA[
<blockquote class="uncited"><div><span style="color:#FF0000">7.29.344</span>:<br>[+] Поправки в алгоритме словарных замен "прямым перебором" по dic-словарю, в части применения правил со звездочками внутри.</div></blockquote> Подготовил вторую  <img class="smilies" src="./images/smilies/adobe.png" width="32" height="32" alt=":pdf icon:" title="эмоция"> <a href="https://drive.google.com/open?id=1rXDeehbXagBXqqpzEZGIVsVuInY4DDob" class="postlink" target="_blank" rel="noopener noreferrer"><span style="color:#FF0000">сравнительную характеристику</span></a><br><br>Мне удобнее <strong class="text-strong">Быстрым алгоритмом</strong> из сценария.<br><br><hr><strong class="text-strong">P.S.</strong> перечисленных словарей вполне достаточно про подготовке сборников любого размера (без лишней траты времени) для прослушивания <strong class="text-strong">Alyona Acapela</strong>.<p>Статистика: Добавлено  <a href="https://mytts.info/memberlist.php?mode=viewprofile&amp;u=48">evmir_troll-hunter</a> — 18 июл 2018 09:30</p><hr />
]]></content>
	</entry>
		<entry>
		<author><name><![CDATA[Fenix]]></name></author>
		<updated>2018-06-28T16:48:33+03:00</updated>

		<published>2018-06-28T16:48:33+03:00</published>
		<id>https://mytts.info/viewtopic.php?t=100&amp;p=134#p134</id>
		<link href="https://mytts.info/viewtopic.php?t=100&amp;p=134#p134"/>
		<title type="html"><![CDATA[Re: Правила применяются в порядке убывания длин их левых частей]]></title>

		
		<content type="html" xml:base="https://mytts.info/viewtopic.php?t=100&amp;p=134#p134"><![CDATA[
<blockquote class="uncited"><div><strong class="text-strong">дома=дОма</strong> такого правила у меня и нет в словарях. я его привел только в качестве примера, чтобы показать пирамиду происходящих замен от одного слова к множественному словосочетанию и наоборот.<br><br>"Все меняется." Я, конечно, осознаю, что в этом деле - новичок (всего пару месяцев на этом форуме) Все мои стучания в дверь разработчикам дайте то, дайте это. Мне же очевидно! Ну чего вы за старое цепляетесь!- Прошу прощение за такое поведение.<br><br>Все мои предложения и пожелания идут на основе "чужих многомесячных наработок" которая мною воспринята как данность. И изучая структуру "данных свыше" словарей натыкался именно на несрабатывание хорошо продуманных правил по причине, что они попадали под сортировку, которая не давала им развернуться.<br><br>Правила REX гибкие удобные, но работают заметно медленнее если этих правил (строчно) много. Зато DIC пасует при обработке правил с короткими по длине поисковых форм.<br>"Играя" приемуществами и недостатками REX и DIC можно добиваться того же результата с оптимальной скоростью.<br>В балаболке сейчас существует только одна сортировка - в том порядке, как указал пользователь. Это здорово. Однако пользователь лишен возможности "пакетно" отсортировать существующие правила. Вручную несколько тысяч по одному - даже связываться не охота, а подготовить словарь DIC с нужной тебе сортировкой и импортировать нет возможности - Балаболка всё равно отсортирует по принципу перевернутой пирамиды. <br><br>В будущей версии Демагога, после отключения сортировки в правилах DIC, - всё равно останется невозможность смешивать по порядку между собой словари rex и dic. Что немного сковывает.<br><br>Однако оставить за пользователем возможность сортировать - это на 90% меняет ситуацию (лично для меня) и сводит подготовку текста к максимум 1-2 минуте. (Пока я прогоню через скрипт небольшой подготовительный пакет из словарей rex и dic в нужной мне последовательности). После чего я уже могу смело запускать чтение вслух или запись в аудио (при уже выделенных остальных словарях участвующих в дальнейшей обработке) Что плавно приводит к мечте обычного пользователя - открыл книгу и слушаю...</div></blockquote><blockquote class="uncited"><div>Оптимального решения для словарей dic нет и не будет.<br><br>Я просто навсегда закрываю этот спор - позволяя снятием одной лишь галочки отменить сортировку правил в порядке убывания длины левой части. Хочет пользователь иметь полный (как ему представляется) контроль над dic-словарем - пожалуйста. <br>Для маленьких словарей, предназначенных для чистки текста от всяких там глюков и лишних символов - это возможно, будет полезным. <br><br>Но, предполагаю, для словаря, размером более 1000 строк, визуальный контроль за "<em class="text-italics">правильным расположением правил</em>" - будет уже весьма затруднительным.<br><br>С этой точки зрения, стандарт dic-словарей, разработанный автором "<strong class="text-strong">Говорилки</strong>" А.Рязановым, давно ставший привычным и проверенный на практике - представляется наилучшим. В Демагоге он всегда будет применяться по умолчанию.</div></blockquote><p>Статистика: Добавлено  <a href="https://mytts.info/memberlist.php?mode=viewprofile&amp;u=2">Fenix</a> — 28 июн 2018 16:48</p><hr />
]]></content>
	</entry>
		<entry>
		<author><name><![CDATA[evmir_troll-hunter]]></name></author>
		<updated>2018-06-28T16:39:54+03:00</updated>

		<published>2018-06-28T16:39:54+03:00</published>
		<id>https://mytts.info/viewtopic.php?t=100&amp;p=133#p133</id>
		<link href="https://mytts.info/viewtopic.php?t=100&amp;p=133#p133"/>
		<title type="html"><![CDATA[Re: Правила применяются в порядке убывания длин их левых частей]]></title>

		
		<content type="html" xml:base="https://mytts.info/viewtopic.php?t=100&amp;p=133#p133"><![CDATA[
Никто <strong class="text-strong"><em class="text-italics">дома=дОма</em></strong> в словаре замен прописывать не будет!.. там именно контекст. <img class="smilies" src="./images/smilies/wink.gif" width="18" height="18" alt=":wink:" title="эмоция"> <br>И вообще тема сортировки\применения правил давно обсуждалась на старом форуме. Из-за принципиальных расхождений пользователь <strong class="text-strong">lev55</strong> даже покинул форум, удалив почти все свои сооб.<br><br>Поэтому нельзя понять детали тогдашнего спора к сожалению... <strong class="text-strong"><span style="text-decoration:underline"><span style="color:#FF0000">потому тут и запрещено удалять сообщения (даже модераторам)</span></span></strong> - слишком важная и ценная информация может пропасть!<br><br>Приведу лишь несколько цитат из др. веток:<blockquote class="uncited"><div><strong class="text-strong">Demagog<br>V.I.P</strong>. 12.05.10:<br>Алгоритм быстрых словарных замен большинством понят правильно: как попытка обеспечить максимально возможное сходство результатов замен с классическим методом прямого перебора (а-ля Говорилка).</div></blockquote> <img class="smilies" src="./images/smilies/adobe.png" width="32" height="32" alt=":pdf icon:" title="эмоция"> <a href="https://drive.google.com/open?id=1UWsMXe7s31PsANG-JovZcYFoxuZaBSE9" class="postlink" target="_blank" rel="noopener noreferrer">очередность применения правил</a><br><blockquote class="uncited"><div><strong class="text-strong">apokrif<br>V.I.P.</strong> 22.09.15:<br>TTS умеет подгонять слова в предложении, хорошего примера нет, а есть такой:<br>"1 мая" произносится "первое мая", а не "один мая"<br>Если применить словарь 1 = один, то получится последний вариант.</div></blockquote> <blockquote class="uncited"><div><strong class="text-strong">flegont<br>V.I.P.</strong> 22.09.15:<br>Но "1 рубль" звучит, как "один рубль"<br>Обычно вариант произношения зависит от контекста, в чем и состоит главная засада для простых правил вида слово=замена</div></blockquote>С тех пор много чего изменилось, <img class="smilies" src="./images/smilies/oldtimer.gif" width="31" height="27" alt=":oldtimer:" title="эмоция"> но оптимального решения нет...<br>Также зимой 18-го г. был выложен архив стр. старого форума. Даже с рекомендациями, каким темам уделить особое внимание.<br><br>При вдумчивом изучении полагаю, через полтора-два часа новичок сможет разбираться в вопросе TTS.<br>На многое там даны ответы + интересные обсуждения, раскрывающие суть проблемы(м).<br>Надеюсь внимательный анализ старых материалов поможет в более точном формулировании новых вопросов и рациональных идей.<p>Статистика: Добавлено  <a href="https://mytts.info/memberlist.php?mode=viewprofile&amp;u=48">evmir_troll-hunter</a> — 28 июн 2018 16:39</p><hr />
]]></content>
	</entry>
		<entry>
		<author><name><![CDATA[Fenix]]></name></author>
		<updated>2018-06-28T16:16:45+03:00</updated>

		<published>2018-06-28T16:16:45+03:00</published>
		<id>https://mytts.info/viewtopic.php?t=100&amp;p=132#p132</id>
		<link href="https://mytts.info/viewtopic.php?t=100&amp;p=132#p132"/>
		<title type="html"><![CDATA[Правила применяются в порядке убывания длин их левых частей]]></title>

		
		<content type="html" xml:base="https://mytts.info/viewtopic.php?t=100&amp;p=132#p132"><![CDATA[
<blockquote class="uncited"><div> <span style="color:#00BF80">May 17 2018</span><br><br>На сайте <a href="http://aloys.narod.ru/sof/1/demagog.htm#3" class="postlink" target="_blank" rel="noopener noreferrer">Демагог</a> написано:<blockquote class="uncited"><div> "Каждое правило из словаря применяется ко всему тексту. Правила применяются в порядке убывания длин их левых частей. Т.е. первым будет проверяться правило с самой длинной левой частью. Это логично: сперва в тексте должны заменены самые большие фрагменты. "</div></blockquote> Такой же метод применяется и в Балаболке. (в части импорта правил из словаря dic в словарь bxd или отсутствие возможности отсортировать тем, кто уже перевел свои словари в bxd)<br><br>Возможно, такой метод и <span style="text-decoration:underline">логичен</span>, но только с точки зрения технического подхода. На практике же, по мере роста словаря, по смыслу всё меняется с точностью до наоборот!<br>И вот я решил оспорить данный подход.<br><br>Смысл вот в чем. Как сейчас происходит:<br>допустим правило: <br><span style="text-decoration:underline">дома=д<strong class="text-strong">О</strong>ма</span>. Как часто это правило сработает? - Всегда!<br><br>теперь такое правило: <br><span style="text-decoration:underline">их дома=их дом<strong class="text-strong">А</strong></span>, т.е. мы как бы делаем уточнение. Оно попадается реже и мы как бы уточняем, что при такой более сложной комбинации надо слово озвучивать уже по-другому <br><span style="text-decoration:underline">их д<strong class="text-strong">о</strong>ма=их дом<strong class="text-strong">А</strong></span>.<br><br>теперь такое правило:<br><span style="text-decoration:underline"> я решил их оставить д<strong class="text-strong">о</strong>ма одних=я решил их оставить д<strong class="text-strong">О</strong>ма одних</span>. Это правило как бы уточняет предыдущее, что с такой более сложной комбинацией нужно исправить <span style="text-decoration:underline">их дом<strong class="text-strong">А</strong> на их д<strong class="text-strong">О</strong>ма</span><br><br>То есть получается, что чем длинее левая часть правила - тем более "исключительным" это правило становится, по отношению к более короткому <span style="text-decoration:underline">дома=дОма</span><br>А на практике же получается, что все "особые случаи словосочетаний со словом <strong class="text-strong">дома</strong> сводятся на нет более коротким и статистически более ошибочным правилом <span style="text-decoration:underline">дома=дОма</span>.<br><br>Но если изменить подход и применять правила от короткого к более длинной левых частей, то сработают сначала короткие сочетания, как "общие" - более часто встречающиеся. Затем более длинные словосочетания, как "исключения" - которые будут корректировать короткие (общие) правила.<br><br>Прошу высказать свое мнение по этому поводу, как формучан, так и разработчиков. Может я слишком линейно смотрю на проблему, и что то не учел в своей категоричности?</div></blockquote><blockquote class="uncited"><div>В следующей версии Демагога будет добавлена опция:<br><strong class="text-strong">"Сервис - Общие настройки... - Чтение - Правила из dic-словарей применяются в порядке убывания длины". </strong><br>По умолчанию:<em class="text-italics"> <strong class="text-strong">включено</strong></em>. <br>Это - тот самый алгоритм, который применяется сейчас.<br>А если галку убрать, то будет в порядке следования правил в словаре.<br>И там уже - ответственность пользователя. Как он правила расположит, такой результат и получит. (В rex-словарях, кстати - именно так - порядок правил определяет пользователь).</div></blockquote><p>Статистика: Добавлено  <a href="https://mytts.info/memberlist.php?mode=viewprofile&amp;u=2">Fenix</a> — 28 июн 2018 16:16</p><hr />
]]></content>
	</entry>
	</feed>
