<?xml version="1.0" encoding="UTF-8"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ru">
	<link rel="self" type="application/atom+xml" href="https://mytts.info/app.php/feed/forum/56" />

	<title>MyTTS</title>
	<subtitle>Форум о преобразовании текста в речь</subtitle>
	<link href="https://mytts.info/index.php" />
	<updated>2021-03-30T19:12:08+03:00</updated>

	<author><name><![CDATA[MyTTS]]></name></author>
	<id>https://mytts.info/app.php/feed/forum/56</id>

		<entry>
		<author><name><![CDATA[wasyaka]]></name></author>
		<updated>2021-03-30T19:12:08+03:00</updated>

		<published>2021-03-30T19:12:08+03:00</published>
		<id>https://mytts.info/viewtopic.php?t=114&amp;p=6140#p6140</id>
		<link href="https://mytts.info/viewtopic.php?t=114&amp;p=6140#p6140"/>
		<title type="html"><![CDATA[Омонимия • Омографы]]></title>

					<category term="Омонимия" scheme="https://mytts.info/viewforum.php?f=56" label="Омонимия"/>
		
		<content type="html" xml:base="https://mytts.info/viewtopic.php?t=114&amp;p=6140#p6140"><![CDATA[
<blockquote class="uncited"><div>Ужос! Не зря я кажется написал: в словари, наверное бояться лезть даже их составители, настолько там невообразимая и неконтролируемая сложность.</div></blockquote>НЕ так и страшно..<br>Выбрано из 9000 книг (всё что было на винте).<br> Использованы и уже имеющие правила...<div class="inline-attachment"><dl class="file"><dt><img src="./images/upload_icons/zip.gif" alt="" /> <a class="postlink" href="https://mytts.info/download/file.php?id=1893">бЕрег-берёг.rar</a></dt></dl></div>Если разделить на 100 пользователей -делов на пару недель не напрягаясь -  <img class="smilies" src="./images/smilies/writer.gif" width="36" height="26" alt=":writer:" title="эмоция">  <img class="smilies" src="./images/smilies/drunkpals.gif" width="51" height="28" alt=":drunkpals:" title="эмоция"> <br>В одиночку - пару лет... <img class="smilies" src="./images/smilies/wall.gif" width="51" height="26" alt=":wall:" title="эмоция">  <img class="smilies" src="./images/smilies/wall.gif" width="51" height="26" alt=":wall:" title="эмоция">  <img class="smilies" src="./images/smilies/wall.gif" width="51" height="26" alt=":wall:" title="эмоция">  <img class="smilies" src="./images/smilies/drinking.gif" width="42" height="36" alt=":drinking:" title="эмоция"> <br>Остатком не попавшем в список можно пренебречь...<br>И в процессе использования найдутся и ошибки...<p>Статистика: Добавлено  <a href="https://mytts.info/memberlist.php?mode=viewprofile&amp;u=71">wasyaka</a> — 30 мар 2021 19:12</p><hr />
]]></content>
	</entry>
		<entry>
		<author><name><![CDATA[Lecron]]></name></author>
		<updated>2021-03-22T20:54:00+03:00</updated>

		<published>2021-03-22T20:54:00+03:00</published>
		<id>https://mytts.info/viewtopic.php?t=114&amp;p=6106#p6106</id>
		<link href="https://mytts.info/viewtopic.php?t=114&amp;p=6106#p6106"/>
		<title type="html"><![CDATA[Омонимия • Омографы]]></title>

					<category term="Омонимия" scheme="https://mytts.info/viewforum.php?f=56" label="Омонимия"/>
		
		<content type="html" xml:base="https://mytts.info/viewtopic.php?t=114&amp;p=6106#p6106"><![CDATA[
<blockquote class="uncited"><div>40 тысяч слов уже в какой-то мере заложены в словарях в связке с омографом, а остальные более пяти лимонов</div></blockquote>Ужос! Не зря я кажется написал: <em class="text-italics">в словари, наверное бояться лезть даже их составители, настолько там невообразимая и неконтролируемая сложность</em>.<p>Статистика: Добавлено  <a href="https://mytts.info/memberlist.php?mode=viewprofile&amp;u=57">Lecron</a> — 22 мар 2021 20:54</p><hr />
]]></content>
	</entry>
		<entry>
		<author><name><![CDATA[wasyaka]]></name></author>
		<updated>2021-03-22T19:21:48+03:00</updated>

		<published>2021-03-22T19:21:48+03:00</published>
		<id>https://mytts.info/viewtopic.php?t=114&amp;p=6105#p6105</id>
		<link href="https://mytts.info/viewtopic.php?t=114&amp;p=6105#p6105"/>
		<title type="html"><![CDATA[Омонимия • Омографы]]></title>

					<category term="Омонимия" scheme="https://mytts.info/viewforum.php?f=56" label="Омонимия"/>
		
		<content type="html" xml:base="https://mytts.info/viewtopic.php?t=114&amp;p=6105#p6105"><![CDATA[
<blockquote class="uncited"><div>Предыдущий ваш текст, не понял от слова совсем.</div></blockquote>По простому: наиболее употребительные около 40 тысяч слов уже в какой-то мере заложены в словарях в связке с омографом, а остальные более пяти лимонов - это редкие, вплоть до разового употребления.<p>Статистика: Добавлено  <a href="https://mytts.info/memberlist.php?mode=viewprofile&amp;u=71">wasyaka</a> — 22 мар 2021 19:21</p><hr />
]]></content>
	</entry>
		<entry>
		<author><name><![CDATA[Lecron]]></name></author>
		<updated>2021-03-22T17:02:48+03:00</updated>

		<published>2021-03-22T17:02:48+03:00</published>
		<id>https://mytts.info/viewtopic.php?t=114&amp;p=6104#p6104</id>
		<link href="https://mytts.info/viewtopic.php?t=114&amp;p=6104#p6104"/>
		<title type="html"><![CDATA[Омонимия • Омографы]]></title>

					<category term="Омонимия" scheme="https://mytts.info/viewforum.php?f=56" label="Омонимия"/>
		
		<content type="html" xml:base="https://mytts.info/viewtopic.php?t=114&amp;p=6104#p6104"><![CDATA[
<span style="font-weight: bold;">tonio_k</span>, <span style="font-weight: bold;">wasyaka</span>, Еще несколько замечаний по теме в общем.<br>Каков бы ни бы алгоритм...<br>а) ...ВСЕ алгоритмы будут не похожи на словари. Поэтому придется осваивать и пилить разработчиков, что бы их удобно встроили в программу, а не прилепили сбоку как что-то вторичное. Без этого не взлетит ни один. Вопрос только, насколько трудоемок метод для пользователя.<br>б) ...ВСЕ алгоритмы не будут точными, то есть будут ошибаться. Вопрос только насколько.<br>в) ...из словарей уже выжали все возможное, а ВСЕ алгоритмы освоены на уровне пощупать энтузиастами. Проявите фантазию и представьте, что для них уже тоже накоплена база.<br><br>Возьмем Яровского и "замок". 30% омографов будет разрешено с точностью 97.6%, с возможностью повысить до 99.2%. А остальные, просто скажет "не знаю". Все что для алгоритма надо, в форме отметить галочкой предложения со словом "зАмок"<div class="codebox"><p>CODE: </p><pre><code>[ ] автоматический замок[ ] аккуратно вырезал замок[ ] амбарный замок[x] архитектурными вывертами древний замок[x] атаковать ваш замок[x] без каких-либо препятствий вошли в замок</code></pre></div>Просто? Элементарно. Однако что делать с остальными? Вопрос на 100000000. Предположу, кто-то скажет "а зачем вообще?", все это решается словарями. Но Яровски как раз и формирует <span style="text-decoration:underline">тривиальные</span> правила, из которых состоят эти словари. А то с чем не справился он, скорее всего не справятся и словари. При этом в словари, наверное бояться лезть даже их составители, настолько там невообразимая и неконтролируемая сложность.<br><br>Кстати, решил заодно вытянуть все правила. В порядке убывания веса/значимости. 0/1 — метка зАмок/замОк<div class="inline-attachment"><dl class="file"><dt><img src="./images/upload_icons/zip.gif" alt="" /> <a class="postlink" href="https://mytts.info/download/file.php?id=1889">rules.txt.zip</a></dt></dl></div>Есть ли в словарях что-то, что Яровски не увидел? И насколько оно значимо? В моем предыдущем архиве корпус из 2000+ упоминаний омографа.<p>Статистика: Добавлено  <a href="https://mytts.info/memberlist.php?mode=viewprofile&amp;u=57">Lecron</a> — 22 мар 2021 17:02</p><hr />
]]></content>
	</entry>
		<entry>
		<author><name><![CDATA[Lecron]]></name></author>
		<updated>2021-03-22T11:43:22+03:00</updated>

		<published>2021-03-22T11:43:22+03:00</published>
		<id>https://mytts.info/viewtopic.php?t=114&amp;p=6102#p6102</id>
		<link href="https://mytts.info/viewtopic.php?t=114&amp;p=6102#p6102"/>
		<title type="html"><![CDATA[Омонимия • Омографы]]></title>

					<category term="Омонимия" scheme="https://mytts.info/viewforum.php?f=56" label="Омонимия"/>
		
		<content type="html" xml:base="https://mytts.info/viewtopic.php?t=114&amp;p=6102#p6102"><![CDATA[
<blockquote class="uncited"><div>А когда старый ржавый замок?</div></blockquote>Предыдущий ваш текст, не понял от слова совсем. А со старым ржавым все просто. Порядок применения правил. Для сочетания будет создано два правила left:ржавый и k_nearest: старый, где left правила имеют больший вес. Дальше зависит от статистики. Если старый * зАмок будет встречаться гораздо чаще, чем ржавый замОк, может и перевесит.<br>Плюс я не утверждаю, что правила Яровски со 100% вероятность транслируются в классические правила. Просто очень похоже что это так. Достаточно посмотреть на файл log_auto.txt из архива. Там сортировка по правилам и сгрупированы фразы которое оно "зацепило".<blockquote class="uncited"><div>по мне, так лучше пачку книг разных жанров накидать в папку и найти по ним корпуса слов разом до их прослушки, чем копить корпус слов по мере подготовки книги к прослушке.</div></blockquote>Вначале, для запуска работы алгоритма, так действительно лучше. Но как писал, его качество зависит от размера корпуса. То есть нужно его непрерывно пополнять. И это должно быть прозрачно. Как сбор данных, так и их использование. <span style="text-decoration:underline">Настолько же прозрачно, как работа с классическими словарями.</span> <br><br>Отметил галочкой словарь, внес в него запись в некотором формате "замок=з^амок,зам^ок" (записей будет десятки или даже сотни) и забыл. Через некоторое время, после достижения определенного размера корпуса для какого-то правила, программа предложила разметить некоторое количество фраз. Сделал и опять забыл. Корпус сам пополняется, алгоритм Яровски сам дообучается, правила сами перестраиваются и применяются к тексту.<br>Только в таком виде оно даст выхлоп.<br>  <hr>  <br>Может сложится впечатление, что я кого-то уговариваю. Оно ошибочно. Просто делюсь впечатлениями от алгоритма который мне понравился. Представляю его лицом. Примете его на вооружение, уговорив разработчиков сделать удобно, или продолжите сожалеть что в теме неоднозначностей ничего не происходит, продолжив опираться только на классические словари, выбор ваш.<p>Статистика: Добавлено  <a href="https://mytts.info/memberlist.php?mode=viewprofile&amp;u=57">Lecron</a> — 22 мар 2021 11:43</p><hr />
]]></content>
	</entry>
		<entry>
		<author><name><![CDATA[wasyaka]]></name></author>
		<updated>2021-03-22T09:38:15+03:00</updated>

		<published>2021-03-22T09:38:15+03:00</published>
		<id>https://mytts.info/viewtopic.php?t=114&amp;p=6100#p6100</id>
		<link href="https://mytts.info/viewtopic.php?t=114&amp;p=6100#p6100"/>
		<title type="html"><![CDATA[Омонимия • Омографы]]></title>

					<category term="Омонимия" scheme="https://mytts.info/viewforum.php?f=56" label="Омонимия"/>
		
		<content type="html" xml:base="https://mytts.info/viewtopic.php?t=114&amp;p=6100#p6100"><![CDATA[
<blockquote class="uncited"><div>В файле сохраняются найденные предложения с искомым словом.</div></blockquote>А дополнить регистрозависимость?<br>Чтоб обработанные фразы c омографом не "мешались"?<p>Статистика: Добавлено  <a href="https://mytts.info/memberlist.php?mode=viewprofile&amp;u=71">wasyaka</a> — 22 мар 2021 09:38</p><hr />
]]></content>
	</entry>
		<entry>
		<author><name><![CDATA[tonio_k]]></name></author>
		<updated>2021-03-21T23:40:39+03:00</updated>

		<published>2021-03-21T23:40:39+03:00</published>
		<id>https://mytts.info/viewtopic.php?t=114&amp;p=6097#p6097</id>
		<link href="https://mytts.info/viewtopic.php?t=114&amp;p=6097#p6097"/>
		<title type="html"><![CDATA[Омонимия • Омографы]]></title>

					<category term="Омонимия" scheme="https://mytts.info/viewforum.php?f=56" label="Омонимия"/>
		
		<content type="html" xml:base="https://mytts.info/viewtopic.php?t=114&amp;p=6097#p6097"><![CDATA[
<blockquote class="uncited"><div>Программа, прозрачно для пользователя, при любой озвучке/обработке текста, должна находить вхождения в него всех указанных в словаре омографов и распихивать их по корпусам.</div></blockquote> месяц назад ещё сделал такой скрипт<div class="inline-attachment"><dl class="file"><dt><img src="./images/upload_icons/zip.gif" alt="" /> <a class="postlink" href="https://mytts.info/download/file.php?id=1888">4) СБОР КОРПУСОВ СЛОВ ПО СПИСКУ.lua.zip</a></dt></dl></div>В окне Демагога вставляем список слов (омографов) каждое слово с новой строки и запускаем скрипт. Указываем папку с книгами и папку куда сохранить найденные корпуса слов. Корпуса слов создаются в виде тестового файла (имя файла - искомое слово омограф. В файле сохраняются найденные предложения с искомым словом. "Вытащить" только фразы с искомым словом без знаков препинания можно одним регулярным выражением. Либо дописать или сделать отдельный скрипт, который будет это делать автоматически. Получение и хранение корпуса в виде предложениий удобно для понимания смысла контекста фраз без знаков препинания.<br>Предложенный скрипт можно адаптировать по своему вкусу так, что бы корпуса "дописывались" к ранее созданным файлам с корпусами, а внутри удалялись дубликаты. Можно этот скрипт вставить и в скрипт, который обрабатывает книги словарями что бы "в фоне" дописывал в файлы с корпусами слов, но по мне, так лучше пачку книг разных жанров накидать в папку и найти по ним корпуса слов разом до их прослушки, чем копить корпус слов по мере подготовки книги к прослушке.<p>Статистика: Добавлено  <a href="https://mytts.info/memberlist.php?mode=viewprofile&amp;u=51">tonio_k</a> — 21 мар 2021 23:40</p><hr />
]]></content>
	</entry>
		<entry>
		<author><name><![CDATA[wasyaka]]></name></author>
		<updated>2021-03-21T22:51:17+03:00</updated>

		<published>2021-03-21T22:51:17+03:00</published>
		<id>https://mytts.info/viewtopic.php?t=114&amp;p=6096#p6096</id>
		<link href="https://mytts.info/viewtopic.php?t=114&amp;p=6096#p6096"/>
		<title type="html"><![CDATA[Омонимия • Омографы]]></title>

					<category term="Омонимия" scheme="https://mytts.info/viewforum.php?f=56" label="Омонимия"/>
		
		<content type="html" xml:base="https://mytts.info/viewtopic.php?t=114&amp;p=6096#p6096"><![CDATA[
<blockquote class="uncited"><div>Не то. Нужна простота! Поэтому упомянул hmg словарь.</div></blockquote>Из около 200 книг выбрал, по ходу, все омо подлежащие замене (зАмок -по умолчанию,  выбирались соответственно где замОк) и т.д.<br>Всё в формат dic(ключ-Слово + омограф или наоборот)...<br>Сравнил - словарь до (начальный) и словарь с дополнением из 200 книг...<br>Кол-во необракботанных омографов одинаково...<br>При добавление этих ключевых слов в рэкс  - с  разбежкой в два - три слова (от омографа, буквально после одной книги 4 сработки... <blockquote class="uncited"><div>для за`мок свойственно слово старый где-то спереди, а для замо`к слово щелкнул с любой стороны.</div></blockquote>А когда <strong class="text-strong">старый ржавый</strong> замок?<br>Вывод - или смирится или 10-15 минут врукопашную (доточка рэкс - слишком трудо-время ёмкое занятие с  минимальным выхлопом на выходе).<br>Все всё равно не победим...<p>Статистика: Добавлено  <a href="https://mytts.info/memberlist.php?mode=viewprofile&amp;u=71">wasyaka</a> — 21 мар 2021 22:51</p><hr />
]]></content>
	</entry>
		<entry>
		<author><name><![CDATA[Lecron]]></name></author>
		<updated>2021-03-21T22:17:04+03:00</updated>

		<published>2021-03-21T22:17:04+03:00</published>
		<id>https://mytts.info/viewtopic.php?t=114&amp;p=6095#p6095</id>
		<link href="https://mytts.info/viewtopic.php?t=114&amp;p=6095#p6095"/>
		<title type="html"><![CDATA[Омонимия • Омографы]]></title>

					<category term="Омонимия" scheme="https://mytts.info/viewforum.php?f=56" label="Омонимия"/>
		
		<content type="html" xml:base="https://mytts.info/viewtopic.php?t=114&amp;p=6095#p6095"><![CDATA[
<blockquote class="uncited"><div>WSD-проблема относится к числу еще не решенных.</div></blockquote>Никто не утверждает о ее решенности. Специально указал процент типовых фраз, т.е. фраз попадающих под алгоритм, и количество ошибок. Речь скорее о существенном сдвиге, а не окончательном решении. Плюс очень невысокой цене этого сдвига. Как для программиста, так и для пользователя.<br>Можно долго ждать пока нам сделают голос, меньше нуждающийся в затыкивании словарями и тем более словарями содержащими банальные правила, а можно минимальными усилиями попробовать сделать хорошо самим. <blockquote class="uncited"><div>Второй скрипт, привязанный к горячей клавише - просто бы читал выделенное слово в тексте, и если это омограф, то добавлял бы фразу с этим словом в корпус.</div></blockquote>Не то. Нужна простота! Поэтому упомянул hmg словарь. <br>Программа, прозрачно для пользователя, при любой озвучке/обработке текста, должна находить вхождения в него всех указанных в словаре омографов и распихивать их по корпусам. Точнее по wal-файлам (write-ahead log). А по горячей клавише или еще какому событию, для всех корпусов сразу, проводить дедупликацию и сливать с основным корпусом. Тогда и вести лог, из какой это книги, не будет надобности.<br><br>ЗЫ. Пока писал ответ, пришла еще одна мысль. <div class="spoilwrapper" style="margin:1em 0;font-weight:normal;padding:4px 10px;background-color:#fff;border:1px solid #dbdbdb;border-radius:4px;color:#333"><div class="spoiltitle" style="margin:0;padding:0;width:100%"><span class="spoilbtn" style="margin:2px 5px;text-transform:uppercase;font-family:'Helvetica Neue',Helvetica,Arial,sans-serif;font-size:11px;font-weight:bold;display:block;cursor:pointer;color:#333" data-show="► Показать" data-hide="▼ Скрыть">► Показать</span></div><div class="spoilcontent" style="color:#333;display:none;padding:5px;border-top:1px solid #ccc">Яровски — алгоритм нацеленный на выявление дискретных закономерностей. Если найти алгоритм разбиения слов на слоги и в качестве "меток" подсовывать Яровски слог в ударном и безударном варианте, то имея уже размеченные корпуса (dic словари) из сотен тысяч слов, можно получить удивительный результат, заменив большинство из них правилами со *</div></div><p>Статистика: Добавлено  <a href="https://mytts.info/memberlist.php?mode=viewprofile&amp;u=57">Lecron</a> — 21 мар 2021 22:17</p><hr />
]]></content>
	</entry>
		<entry>
		<author><name><![CDATA[flegont]]></name></author>
		<updated>2021-03-21T18:54:49+03:00</updated>

		<published>2021-03-21T18:54:49+03:00</published>
		<id>https://mytts.info/viewtopic.php?t=114&amp;p=6094#p6094</id>
		<link href="https://mytts.info/viewtopic.php?t=114&amp;p=6094#p6094"/>
		<title type="html"><![CDATA[Омонимия • Омографы]]></title>

					<category term="Омонимия" scheme="https://mytts.info/viewforum.php?f=56" label="Омонимия"/>
		
		<content type="html" xml:base="https://mytts.info/viewtopic.php?t=114&amp;p=6094#p6094"><![CDATA[
<blockquote class="uncited"><div>скрипты Демагога</div></blockquote>Составление корпуса фраз с омографами - да, скриптами это решается.<br>К примеру, один скрипт может перелопатить указанные файлы книг, и сверяясь с заданным списком омографов, собрать до кучи все фразы, содержащие эти омографы. Попутно записывая в лог: какие книги уже обработаны. Чтобы можно было продолжать работу, с того места, где она была прервана пользователем.<br>Второй скрипт, привязанный к горячей клавише - просто бы читал выделенное слово в тексте, и если это омограф, то добавлял бы фразу с этим словом в корпус. Предварительно проверяя, что ее там еще нет.<br><br>Насчет самого алгоритма WSD (хоть Яровского, хоть еще какого) - тут я не владею вопросом в должной степени, знаю лишь, что WSD-проблема относится к числу еще не решенных. Хотя полвека назад был большой энтузиазм и надежды на скорое алгоритмически полноценное решение.<p>Статистика: Добавлено  <a href="https://mytts.info/memberlist.php?mode=viewprofile&amp;u=53">flegont</a> — 21 мар 2021 18:54</p><hr />
]]></content>
	</entry>
		<entry>
		<author><name><![CDATA[Lecron]]></name></author>
		<updated>2021-03-21T14:09:11+03:00</updated>

		<published>2021-03-21T14:09:11+03:00</published>
		<id>https://mytts.info/viewtopic.php?t=114&amp;p=6092#p6092</id>
		<link href="https://mytts.info/viewtopic.php?t=114&amp;p=6092#p6092"/>
		<title type="html"><![CDATA[Омонимия • Омографы]]></title>

					<category term="Омонимия" scheme="https://mytts.info/viewforum.php?f=56" label="Омонимия"/>
		
		<content type="html" xml:base="https://mytts.info/viewtopic.php?t=114&amp;p=6092#p6092"><![CDATA[
Продолжаю делиться впечатлениями по алгоритму Яровского. <br>tl;dr Отличный инструмент для снятия омонимии. Только его надо правильно приготовить.<br><br>Код, на примере которого знакомился с алгоритмом, при близком рассмотрении больше похож на лабораторную работу. Неэффективен ни по архитектуре, ни по оптимизации. После причесывания, понять алгоритм оказалось еще проще.<br><br><strong class="text-strong">Назначение алгоритма:</strong><br>Вначале я ошибся, посчитав его полноценным классификатором, способным классифицировать 100% фраз. На самом деле, алгоритм классифицирует 30-40% фраз, но с количеством ошибок стремящихся к 0. Для чего надо вручную разметить <span style="text-decoration:underline">очень небольшое</span> количество образцов. <br><br><strong class="text-strong">Исследование алгоритма:</strong><br>Провел 3 пробы. В каждой из которых, последовательно размечал по 10 случайно выбранных из корпуса фраз, после чего проводил обучение и смотрел, сколько фраз доразметилось автоматически.<div class="codebox"><p>CODE: </p><pre><code>[631, 0, 0, 15, 0, 0, 8, 6, 0, 1, 1, 0, 38, 6, 5] Всего: 711[0, 0, 0, 0, 642, 1, 19, 9, 1, 44, 11, 6, 1, 7, 12] Всего: 753[0, 711, 4, 0, 8, 0, 3, 2, 21, 5, 0, 4, 3, 0, 6] Всего: 767</code></pre></div>Основной выхлоп дала разметка соответственно 10, 50, 20 фраз. Что дает результативность от 1:13 до 1:63 (количество автоматических на 1 ручную). Если же во главу угла ставить не минимизацию ручного труда, а качество классификации в целом, оптимально размечать 10-20% от размера корпуса. Который в моем случае составлял чуть больше 2000 записей.<br><br><em class="text-italics">Примечание:</em> Насколько понял работу алгоритма, его эффективность зависит не столько от количества размеченных, сколько от размера самого корпуса, количества фраз доступных алгоритму для оценки.<br><br><em class="text-italics">Оценка ошибок:</em> Проверив вручную результат работы первой пробы, нашел 17 ошибок классификации или 2.4% (помечены -1 в файле log_auto.txt). Отмечу, что многие из них, следствие работы стемминга (удаления окончаний и суффиксов). Заменив стемминг на нормализацию (заперта, запер, заперев -&gt; запереть) из pymorphy, количество ошибок сократилось до 5 (0.8%) без существенного влияния на количество размеченных. Но так как это внешняя зависимость затрудняющая исследование алгоритма, за основу взят именно стемминг.<br><br><strong class="text-strong">Применение алгоритма:</strong><br>Тут скорее мои фантазии и наброски идей. В общем же, это совсем иной, не словарный способ предобработки текста, который в идеале требует отдельного встраивания в процесс и интерфейса работы со "словарем" (где "словарем" выступает корпус фраз). Тема требующая отдельного обсуждения и выходящая за рамки данной заметки. На мой взгляд, это должно быть расширением обработки словарем формата hmg. <br><br>Но какое бы ни было применение, для работы нужен корпус фраз. Он может быть сформирован пользователем самостоятельно, на основе свой библиотеки. Но оптимально, чтобы его формировала сама программа. Встретился омограф, извлекли фразу с ним и сохранили в соответствующий файл. Думаю скрипты Демагога от ув. <span style="font-weight: bold;">flegont</span> с этим справятся легко. <span style="text-decoration:underline">В идеале</span>, это совместно формируемый корпус, куда сливаются результаты работы программы у всех пользователей. В отличии от уникальных и личных словарей, здесь никакой уникальности нет, главное размер. (см. примечание из "Исследование алгоритма")<br><br>а) Формирование правил для словарей. Трудность представляет правило k_nearest анализирующее слова на отдалении от омографа и предварительное удаление стоп-слов. Если это не получится автоматически напрямую, составителям словарей такая подсказка общих признаков, окажет существенное подспорье.<br><br>б) проверка правил в словарях. Многие правила уже добавлены в них, но также представляю какой в них бардак. Так как точность алгоритма высока, есть резон классифицировать фразу с омографом алгоритмом и сравнивать с результатом его обработки словарями, в случае расхождения уведомлять пользователя.<br><br>в) непосредственная классификация. Перед применением классических словарей.<div class="inline-attachment"><dl class="file"><dt><img src="./images/upload_icons/zip.gif" alt="" /> <a class="postlink" href="https://mytts.info/download/file.php?id=1887">yarowsky_wsd.zip</a></dt></dl></div>Код стеммера и классификатора, исходный корпус, результат 3 проб.<p>Статистика: Добавлено  <a href="https://mytts.info/memberlist.php?mode=viewprofile&amp;u=57">Lecron</a> — 21 мар 2021 14:09</p><hr />
]]></content>
	</entry>
		<entry>
		<author><name><![CDATA[Lecron]]></name></author>
		<updated>2021-03-15T18:33:37+03:00</updated>

		<published>2021-03-15T18:33:37+03:00</published>
		<id>https://mytts.info/viewtopic.php?t=114&amp;p=6055#p6055</id>
		<link href="https://mytts.info/viewtopic.php?t=114&amp;p=6055#p6055"/>
		<title type="html"><![CDATA[Омонимия • Омографы]]></title>

					<category term="Омонимия" scheme="https://mytts.info/viewforum.php?f=56" label="Омонимия"/>
		
		<content type="html" xml:base="https://mytts.info/viewtopic.php?t=114&amp;p=6055#p6055"><![CDATA[
В очередной раз убеждаюсь, что чтобы задать правильный вопрос, нужно знать половину ответа.<br><br>Ища инфу про омографы находил довольно мало. Но как столкнулся с темой <a href="https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D0%B7%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B5_%D0%BB%D0%B5%D0%BA%D1%81%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B9_%D0%BC%D0%BD%D0%BE%D0%B3%D0%BE%D0%B7%D0%BD%D0%B0%D1%87%D0%BD%D0%BE%D1%81%D1%82%D0%B8" class="postlink" target="_blank" rel="noopener noreferrer">Разрешение лексической многозначности</a>, к каковой принадлежат омографы, оказалось работы вовсю идут и есть любопытные результаты. Например алгоритм Яровского. <blockquote class="uncited"><div>использует в качестве базового классификатора правила принятия решений и на каждом шаге выполняет следующие действия:<br>1.составление правил принятия решений на основе небольшого обучающего множества;<br>2.классификация остальных документов в корпусе;<br>3.построение нового обучающего множества, определяя экземпляры, размеченные свероятностью, большей определенного порога;<br>4.обучение классификатора на новом обучающем множестве.<br>5. повторить с пункта 3</div></blockquote>Если по-русски, никаких нейросетей. Алгоритм абсолютно предсказуем. На основе списка фраз с омографом и небольшой подсказки что есть что, сам определяет какие слова окружающие омограф и в каком виде (правила принятия решений) могут характеризовать то или иное применение. <span style="text-decoration:underline">Если разобраться, эти правила даже можно конвертировать в dic формат.</span> Причем при определении правил, смотрит не только на размеченные подсказки, но и "умнеет" с каждым шагом.<br>Например он узнал, что для <em class="text-italics">за`мок</em> свойственно слово <em class="text-italics">старый</em> где-то спереди, а для <em class="text-italics">замо`к</em> слово <em class="text-italics">щелкнул</em> с любой стороны. Найдя похожие случаи, он увидит слово <em class="text-italics">электронный</em> и заметит его использование только для замо`к — вуяля, создано новое правило. Ищем следующие... И следующие... <br><br>В моем лабораторном примере, на корпусе из 2000 фраз, я ему "подсказал" 150, в которых алгоритм нашел 280 правил, которые самостоятельно расширил до 980, корректно распознав еще 550 ударений, всего с 2 ошибками.<br><br>Алгоритм достаточно прост, не требует библиотек и может быть реализован почти любым программистом. Сейчас ковыряю <a href="https://github.com/juhokallio/YarowskyWSD" class="postlink" target="_blank" rel="noopener noreferrer">GitHub - juhokallio/YarowskyWSD: Word-sense disambiguation project for natural language processing course.</a> Как рабочая программа не годится, но для понимания работы алгоритма и отсутствия необходимости изобретать велосипед — самое то. Всего 400 строк кода.<p>Статистика: Добавлено  <a href="https://mytts.info/memberlist.php?mode=viewprofile&amp;u=57">Lecron</a> — 15 мар 2021 18:33</p><hr />
]]></content>
	</entry>
		<entry>
		<author><name><![CDATA[Lecron]]></name></author>
		<updated>2020-11-06T22:52:36+03:00</updated>

		<published>2020-11-06T22:52:36+03:00</published>
		<id>https://mytts.info/viewtopic.php?t=114&amp;p=4872#p4872</id>
		<link href="https://mytts.info/viewtopic.php?t=114&amp;p=4872#p4872"/>
		<title type="html"><![CDATA[Омонимия • Омографы]]></title>

					<category term="Омонимия" scheme="https://mytts.info/viewforum.php?f=56" label="Омонимия"/>
		
		<content type="html" xml:base="https://mytts.info/viewtopic.php?t=114&amp;p=4872#p4872"><![CDATA[
<blockquote class="uncited"><div>UPD и вообще, если результат работы нейросети предпологает последующее прослушивание и корректировку, то чем она координально отличается от составления словарей по старинке?</div></blockquote>Хороший вопрос. Для ответа на него собрал полный датасет по омографам, которые считаю важными.<br>Обработано книг: 923 штук / 359 Мб<br>Омографов: 943<br>Вхождений: 1723179<div class="inline-attachment"><dl class="file"><dt><img src="./images/upload_icons/txt.gif" alt="" /> <a class="postlink" href="https://mytts.info/download/file.php?id=1540">stat.csv</a></dt></dl></div>Грамматически неразрешимые омографы (109 штук) дают 142151 или 8%<br>10 самых распространенных омографов дают 725122 вхождения или 42%. <br>18 распространненных — 50%. <br>Из них, 14 грамматически разрешимые, которые дают 792965 или 46%<br><br>Вначале взял для каждого из них 0.063% записей, чтобы в сумме получить 500 и проверил их на правильность расстановки ударений, исходя из их грамматических признаков. Ударения то правильные и правило когда надо сработает правильно, но вероятность для у`же, по`том, гла`за, о`дин, нача`л, то`му, мало`, ноги` очень мала, а на статистику влияет.<div class="inline-attachment"><dl class="file"><dt><img src="./images/upload_icons/zip.gif" alt="" /> <a class="postlink" href="https://mytts.info/download/file.php?id=1541">check.zip</a></dt></dl></div>Если учесть только "все", "чем", "руки", "стороны", "слова", "дома", получаем 263 теста, из которых 7 ошибочных или всего 2.7%. По полной выборке — 1.8% (они дали еще 2 ошибки). Но реальная точность еще лучше. Грамматика анализируется по всему предложению, со знаками препинания, а у нас выдернутые куски, иногда очень короткие для точного анализа. <br><br>Достаточно для того, чтобы исключить "последующее прослушивание и корректировку"?<blockquote class="uncited"><div>лично очень сомневаюсь (что проблема обографов решена). С трудом верится в безграничность возможностей нейросетей vs могучего русского языка</div></blockquote>И это только грамматика. Если к ним добавить 85% точность для входящих в первую 20-ку четырех неразрешимых омографов (8%) — минут, самом, стоит, самого, — головная боль снята.<p>Статистика: Добавлено  <a href="https://mytts.info/memberlist.php?mode=viewprofile&amp;u=57">Lecron</a> — 06 ноя 2020 22:52</p><hr />
]]></content>
	</entry>
		<entry>
		<author><name><![CDATA[Lecron]]></name></author>
		<updated>2020-11-06T18:40:08+03:00</updated>

		<published>2020-11-06T18:40:08+03:00</published>
		<id>https://mytts.info/viewtopic.php?t=114&amp;p=4870#p4870</id>
		<link href="https://mytts.info/viewtopic.php?t=114&amp;p=4870#p4870"/>
		<title type="html"><![CDATA[Омонимия • Омографы]]></title>

					<category term="Омонимия" scheme="https://mytts.info/viewforum.php?f=56" label="Омонимия"/>
		
		<content type="html" xml:base="https://mytts.info/viewtopic.php?t=114&amp;p=4870#p4870"><![CDATA[
<blockquote class="uncited"><div>вот именно! Если этим вопросом не займётся какой нибудь институт или объединение программистов, то задача для одного не подёмная.</div></blockquote>Ничуть. Достаточно среднеразвитого сообщества.<br>Из всего многообразия типовых словарей омографов, наибольшее распространение имеют всего 1000 слов. Ну и еще несколько сотен, когда омографом является имя собственное — То`лсто`го, О`ди`н. Из этой тысячи, 900 разрешаются по грамматическим признакам (ре`ки|сущ мн| : реки`|гл|сущ ед|), которые современные нейросети определяют с 95+ успехом уже сейчас. Осталось разметить только 100 слов, для успешной обработки которых хватит корпуса на 1000-2000 фраз на омограф. И даже 200-300 уже дадут неплохой результат.<br>Почему так уверенно говорю. Я собрал датасет для этой сотни из 374Мб txt-файлов. Получил вырезку на 9Мб. Из которых 50% вхождений приходится всего на 4 слова — минут, самом, самого, стоит. А 50% слов занимают всего 250Кб. Вот такое оно веселое распределение.<blockquote class="uncited"><div>а проводилась ли сравнительная статистика применения словарей? Что бы сравнить её с результатами работы нейросети.</div></blockquote>Самому интересно. Но я в ассортименте словарей не силен. Попробуйте проверить сами.<br>Корпус для теста я предоставил. Удаляете символ ударения, применяете словари и сравниваете построчно с оригиналом (скриптом). Если строка совпала — правильно, нет — неверно.<br>Предположу убедительную победу сетей.<blockquote class="uncited"><div>В этом замке проживал граф Толстой. <br>Толстой граф проживал в замке этом.</div></blockquote>Как раз это для сетей не проблема. Они оперируют не порядком слов, а окружением и дистанцией. Причем даже не по словам, а по n-граммам. Грубо: проживал — прож, рожи, оживал, живал. Ей все равно: проживал граф этом замке, проживал граф замке, проживал этом граф замке, проживал этом замке, проживал замке.<br>В всех случая результат правильный — за`мок<p>Статистика: Добавлено  <a href="https://mytts.info/memberlist.php?mode=viewprofile&amp;u=57">Lecron</a> — 06 ноя 2020 18:40</p><hr />
]]></content>
	</entry>
		<entry>
		<author><name><![CDATA[tonio_k]]></name></author>
		<updated>2020-11-06T17:52:21+03:00</updated>

		<published>2020-11-06T17:52:21+03:00</published>
		<id>https://mytts.info/viewtopic.php?t=114&amp;p=4869#p4869</id>
		<link href="https://mytts.info/viewtopic.php?t=114&amp;p=4869#p4869"/>
		<title type="html"><![CDATA[Омонимия • Омографы]]></title>

					<category term="Омонимия" scheme="https://mytts.info/viewforum.php?f=56" label="Омонимия"/>
		
		<content type="html" xml:base="https://mytts.info/viewtopic.php?t=114&amp;p=4869#p4869"><![CDATA[
<blockquote class="uncited"><div>Проблема омографов вполне решаема</div></blockquote> лично очень сомневаюсь. С трудом верится в безграничность возможностей нейросетей vs могучего русского языка. <blockquote class="uncited"><div>Но это большая муторная работа.</div></blockquote> вот именно! Если этим вопросом не займётся какой нибудь институт или объединение программистов, то задача для одного не подёмная.<blockquote class="uncited"><div>А когда посмотрел на почти 3000 фраз, во-первых стало страшно, а во-вторых, подумал почему бы вместо захардкоженного словаря, не использовать нейросети.</div></blockquote> а проводилась ли сравнительная статистика применения словарей? Что бы сравнить её с результатами работы нейросети.<br> Вот ваша фраза: "Из 552 замо`к и 326 за`мок, угадала 85%", мне интересно, а каким результатом "угадывания" обладают словари имеющиеся в сборках на форуме? Небольшой офтоп под спойлером:<div class="spoilwrapper" style="margin:1em 0;font-weight:normal;padding:4px 10px;background-color:#fff;border:1px solid #dbdbdb;border-radius:4px;color:#333"><div class="spoiltitle" style="margin:0;padding:0;width:100%"><span class="spoilbtn" style="margin:2px 5px;text-transform:uppercase;font-family:'Helvetica Neue',Helvetica,Arial,sans-serif;font-size:11px;font-weight:bold;display:block;cursor:pointer;color:#333" data-show="► Показать" data-hide="▼ Скрыть">► Показать</span></div><div class="spoilcontent" style="color:#333;display:none;padding:5px;border-top:1px solid #ccc">Древние люди в с реднем жили до 30 лет. Однако до 80 лет прекрасно доживали. Так откуда взялись 30 лет? А это из за высокой детской смертности. Если из 6 детей до 80 доживает один а остальные только до 5-14, то в среднем их продолжительность жизни 30 лет.</div></div> это я к тому, что высокий процент угадывания для нейросети надо правильно сравнивать с результатами работы словарей с правилами, и только тут понятно будет на сколько нейросеть , при всех связанных с ней трудозатратах и скорости работы, будет лучше, чем  создания правил для словарей?<br> причём высокий процент угадывания может быть из-за "по русски" составленного предложения. Например:<br><span style="color:#0000FF">В этом замке проживал граф Толстой.</span> А как словари или нейросети будут срабатывать в тексте написанном в стиле магистра Йода:<br><span style="color:#0000FF">Толстой граф проживал в замке этом.</span><br><br><strong class="text-strong">UPD</strong> и вообще, если результат работы нейросети предпологает последующее прослушивание и корректировку, то чем она координально отличается от составления словарей по старинке?<p>Статистика: Добавлено  <a href="https://mytts.info/memberlist.php?mode=viewprofile&amp;u=51">tonio_k</a> — 06 ноя 2020 17:52</p><hr />
]]></content>
	</entry>
	</feed>
