Несколько замечаний по поводу ударений в программе "Книгодел" и "ударятель". 1. Ударения раставляемые этой прогаммой для движка "Ольга", на первый взгляд вроде бы правильны. Т.е. в одном случае " ^ ", а в другом" ` " но читаются, вряде случаев, движком не правильно. пример совсе`м, прибе`гнуть . . . и т.д. На мой взгляд более правильно пользоваться одним знаком ударения " ' " для всех движков, а для каждого движка иметь словарь подстановки. (Я пользуюсь "Балаболкой"). Для Алёны
С этими словарями ударений все слова совсе'м, прибе'гнуть . . . и т.д. будут звучать правильно.
2. Принципиально не верно ограничиваться простраением словоформ по словарю (наверное Зализняка)! Пример, что получается: с^олнечная буря`, незад^олго д^о начал^а. . . вобщем ошибок больше, чем движок Алёны или Ольги делает без расстановки ударений. Чтобы избежать таких ошибок нужен синтаксический разбор. Я делаю следующим образом - На сайте АОТ есть програмка www.aot.ru\download\shortrml.zip в которой находится файл " RML\Bin\VisualSynan.exe который делает разбор предложения и если навести курсор мышки на слово высвечиваются все атрибуты слова ( род, число, падеж, склонение и многое другое). Так вот, я написал некий парсер, который выделяет из текста предложение и передаёт его этой программе. В некой области памяти я получаю слова этого предложения со всеми атрибутами по которым ставится ударение (ищется слово в словаре Зализняка). Программа платная, и имеет ограниченное время пользования. Поэтому я не буду описывать хакерские приёмы для её использования. Приведу статистику - На восемь книг - 3 ошибки (несловарные слова я не учитывал). Порекомендую посмотреть бесплатный грамматический движок с сайта www.solarix.ru . Там описывается некий поисковик, используюший грамматический движок http://files.solarix.ru/for_developers/download/win/sdk-setup.exe и словари к нему http://files.solarix.ru/for_developers/download/win/dictionary-pack-premium.ru-en.exe только словари надо перкомпилировать с ударениями (компилятор тоже есть). Правда синаксис выдаётся в неочень удобной форме и чтобы связать это с морфологией надо приложить усилия. Зато омонимия снимается "на раз". Там есть пример " Пила лежала на полу " и " Кошка пила молоко ", так где глагол, а где сушествительное определяется чётко. Перевод чисел в числительные с нужным падежом там тоже есть и морфология есть. Я не програмист, поэтому может быть свою программу написать легче, чем использовать ихний Solarix_Grammar_Engine.dll, но описание функций библиотеки там исчерпывающее.
P.S. В "Книгоделе" не все тексты обрабатываются. То ли из-за длинны, то - ли из-за знаков каких либо непотребных, пока не понял, на выходе *_pre.txt пустой фацл. Функции Синтез(F3) и В файл(F4), тоже не работают ни для lame-3.92, ни для wav.
На мой взгляд более правильно пользоваться одним знаком ударения " ' " для всех движков, а для каждого движка иметь словарь подстановки
Спасибо, об этой особенности Ольги знал (то, что не всегда правильно ставятся ударения), но как обойти был не в курсе. Думаю, что в ближайшей версии это будет сделано.
Цитата :
2. Принципиально не верно ограничиваться простраением словоформ по словарю (наверное Зализняка)! Пример, что получается: с^олнечная буря`, незад^олго д^о начал^а. . . вобщем ошибок больше, чем движок Алёны или Ольги делает без расстановки ударений.
У меня и так делается разбор (то есть падеж, число и часть речи учитывается), возможно, не везде правильно (некоторые слова-исключения прерывают правильный разбор и т.д.). Насколько я знаю, большая часть омонимов определяется корректно. С указанными Вами фрагментами поэкспериментирую.
Цитата :
P.S. В "Книгоделе" не все тексты обрабатываются. То ли из-за длинны, то - ли из-за знаков каких либо непотребных, пока не понял, на выходе *_pre.txt пустой фацл.
Попробовал указанные вами замены. Не работает. Особенно отвратно звучит на концах слов - Ольга в этом случае произносит название этой буквы (тэ вместо т), а в случае если остается что-то вроде "ть", произносит как (тэ мягкий знак). Можно, конечно, добавить проверку на то, конец это слова или нет, но все равно тогда останется проблема со словами с ударением на последнем слоге...
но как обойти был не в курсе. Думаю, что в ближайшей версии это будет сделано.
Обходит ничего не надо. Появятся новые движки с какой нибудь буквой "зю" в виде ударения и опять придётся переделывать программу. Легче написать словарь замены ударений, опять же один и тот-же текст можно читать разными голосами без "перекомпиляции" под определённый вид ударений. В конце концов обмениваться текстами. Стандартизация-унификация, предполагают дальнейший путь развития, а обратное - тупиковая ветвь - это закон природы. " ' " - Это классика жанра, локанично и красиво.
Цитата :
(некоторые слова-исключения прерывают правильный разбор и т.д.).
Для этого и нужен синтаксический анализ. В Solarix_Grammar_Engine.dll это выглядит так: Исходное предложение -
Связанные слова нажодятся на одном и томже уровне "вложенности", подчинённые на уровень ниже. Таким образом можно избавиться от "шума". Движок имеет встроенный Prolog, поэтому можно задавать свои правила обработки. Эту "фичу" можно вывести и для конечного пользователя. Вот что обязательно надо сделать - 1. пересечение множеств, т.е. при расстановки ударений учитывать лексикон голосового движка и не ставить ударения в этих словах. Это не значит, что надо делать экспорт из того, или иного словаря, а просто сравнивать с неким txt файлом известных слов. Пользователь сам наполнит его по своему усмотрению (ваариантов и методик по его наполнению множество). 2. (добавит, исправить) интерактивный вариант обработки омогафов, т.е. не автоматически обрабатовать амографы, а предоставлять выбор из вариантов - правилно нажимаем кнопочку "дальше", нет - ставится альтернатива. Я раньше так и делал в "ударятеле", сначала ставил все удаарения в тексте, потом вариант с омографами, затем в текстовом редакторе искал двойное ударение "<<" и проверял правильно ли? На эти "<" ударения сделал такие же словари замен для Ольги и Алёны, как писал раньше.
Так синтаксический анализ сейчас в программе есть (хотя и не в таком виде, как у приведённой Вами программы). Слова-исключения - это, грубо говоря, слова, отсутствующие в стандартном словаре программы (только в пользовательском или отсутствует и там и там). Если слово отсутствует в словаре, то и синтаксический анализ сделать сложно (догадывание по внешнему виду слова о его части речи пока в программе отсутствует, возможно, в следующих версиях эта возможность появится, но не факт). Просто на данный момент проблемы с простановкой ударений в имеющихся программах все-равно не дают программе развернуться...
Цитата :
Обходит ничего не надо. Появятся новые движки с какой нибудь буквой "зю" в виде ударения и опять придётся переделывать программу
Под новый движок все равно надо будет, скорее всего, переделывать, например, для Катерины нужно разбивать на слоги и заменять на большие букы - если делать это словарём замен, то нужен словарь из, как минимум, 33 в квадрате строк, то есть примерно 1000 строк. Проще в программе изменить... Да и для Ольги слишком много строк нужно... На данный момент, если очень нужно использовать программу для неизвестного ей движка, можно вывести в формат Николая, а потом с помощью простого макроса в Word'e сделать нужные замены...
С диалоговой обработкой омонимов, в принципе, вещь интересная, но в ближайшее время я её делать вряд ли буду (нет времени и, на мой взгляд смысла в этом немного - омонимов достаточно много, а подавляющее большинство угадывается правильно - тысячи раз подтверждать решение программы - замучаешься), вот сделать вывод только омонимов - это более вероятно...
Цитата :
Примерчик
"Соблазнить и вперёд", например. Оба слова читаются как соблазни тэ мягкий знак и вперё дэ.
"Соблазнить и вперёд", например. Оба слова читаются как соблазни тэ мягкий знак и вперё дэ.
У меня всё работает, как часы. Попробую снести движок и почистить регистры, а потом установить заново Надо определить чего не хватает.
Цитата :
(догадывание по внешнему виду слова о его части речи пока в программе отсутствует
Могу выложить таблицы окончаний, суффиксов и предлогов. По этим таблицам можно работать с такими предложениям - "Глокая куздра бодланула бокра." без словаря.
Могу выложить таблицы окончаний, суффиксов и предлогов. По этим таблицам можно работать с такими предложениям - "Глокая куздра бодланула бокра." без словаря.
В принципе, конечно, неплохо если выложите. Но быстро добавить все это в программу не обещаю...
Спасибо, помогло, нужно будет рекомендацию отключить эту опцию, в комплекте с программой поставлять, а, возможно, и reg-файл. Правда, ошибочки чтения еще есть (например, ла^пы читает как лапЫ и вроде другие мелочи присутствуют), но уже гораздо лучше. Правда, я еще сделал прочтение по-старому, если ударная гласная находится в конце слова - иначе с последующей точкой получается какой-то бред (лишние звуки).
(например, ла^пы читает как лапЫ и вроде другие мелочи присутствуют)
без ударения читается также. Это нельзя исправить даже редактором транскрипций, как например и слово кучу иногда приходится добавлять "ь", или лишнюю букву постепь^еннно Делали-то движок иностранцы, от этого и все беды. Интонация в предложениях, ошибки произношения в сочитаниях слов и совместно со знаками припенания, нет и некоторых фонем, присущих русскому языку.
2. Никак понять не могу, как у Вас будет определяться омограф в таком предложении? Сосны, XXX XXXXX XXXX, освещались XXXX. Мастерские, на улице XXXX, работали без XXXX. или В душе Ивана Иваановича не работает кран.
1. Я чего то не понял почему не подходят словари перевода ударений Николай - Ольга? Здесь http://mytts.forum2x2.ru/forum-f12/tema-t165.htm Там не усеченные под Николая(в смысле его знака ударения "<" ">") заточенно.
Используются словари со знаком + для ударения (файл easy.dic и он же в окне), кроме того не подходят словари со звездочками и сочетаниями слов... Скорее всего, в ближайшее время сделаю и стандартный словарь замены...
Цитата :
Никак понять не могу, как у Вас будет определяться омограф в таком предложении? Сосны, XXX XXXXX XXXX, освещались XXXX. Мастерские, на улице XXXX, работали без XXXX. В душе Ивана Иваановича не работает кран.
Тут все определяется корректно. И, по идее, в первых двух вариантах все однозначно. Но с душем/душой в некоторых контекстах проблемы могут быть проблемы - на данный момент те слова, которые анализируются по смысловому значению, могут не всегда корректно определяться.
rquester ой что-то в 1_30b так много ударений понаставляла ...
Цитата :
Об истОрии создАния фИльма ничевО принципиАльно нОвово нЕ скажУ. кАк извЕсно, в тЫсяча девятьсОт девянОсто девЯтом годУ. телеканал эй-би-си заказАл пилОт сериАла МД, нО когдА <отвЕтственые лИца> посмотрЕли отснЯтый Линчем материАл, проЭкт зарубИли. пилОт лЁг нА полкУ И пролежАл тАм двА гОда. в двЕ тЫсячи пЕрвом годУ. европЕйские продЮсеры предложИли Линчу сдЕлать киноверсию МД. Линч доснял нЕсколько сцЕн, перемонтИровал пилОт, И получИлось тО, штО получИлось. вАжно здЕсь тО, кАк удалОсь Этими дополнИтельными сцЕнами объяснИть всЁ происходЯщее в пилОте, кАк удалОсь органИчно закОнчить тОлько начинАвшуюся истОрию. говорЮ срАзу - Я нЕ отклонЮсь Ат наибОлее распространЁново в линч-сообществе объяснЕния, штО бОльшая чАсть фИльма - сОн Дайаны Сэлвин. мОй Опус И Есть подтверждЕние Этой вЕрсии.
это с настройками (Алена со словарями омонимов) много много лишних ударений (читает и так нормально аленка) штО тО тАм двА - это ж не омографы зачем оно нужно?
можно ли как-то оставить только поиск омографов, замену Е=Ё и замену Е=Э там где пишется "е" а читается либо "ё" либо "э" без простановки ударений в тексте обычным словам?
и еще - как править или проставлять ударения для новых слов те которые выписываются в главное окно после поиска? прямо в окне ставить + и слово сохраниться в словарь и при следующем поиске будет ставить правильное ударение и не выскакивать при очередном поиске новых слов? или не так?
На данный момент проставляются все ударения (так как программа писалась, в первую очередь для своего голосового движка). В одной из следующих версий, возможно, будет сделано.
Цитата :
Цитата: можно ли как-то оставить только поиск омографов, замену Е=Ё и замену Е=Э там где пишется "е" а читается либо "ё" либо "э" без простановки ударений в тексте обычным словам?
В принципе, можно, но не в текущей версии.
это было бы очень здорово, и актуально особенно для Алёны
Цитата :
Да либо в формате Петю+нечка либо Петюнечка=Петю+нечка
т.е. можно прямо в этом окне редактировать и слово сохраниться в словарь и при следующем поиске будет ставить правильное ударение и не выскакивать при очередном поиске новых слов? если например есть слово Петюнечка=Петю+нечка то при следующем поиске в другом тексте мне Петюнечка снова не выскочит в этот список, т.е. он как бы один для всех или каждому свой?
rquester Уже гараздей! Замечания: 1. Не ставить двойные ударения для ольги.
Цитата :
зе' ^мли` с ме`ст^а п^ушк^у
У Ольги по определению не может быть два открытых звука! В словарьях это сплошь и рядом, но здесь не проходит. 2. Нельзя ли всётаки сделать " ' " такое ударение?! Это ведь не трудно. Попробовал со своей таблицей ударений для " ' " звучит гораздо лучьше. Пока не понял вчём дело - разбираусь. 3. Надо отфильтровывать "<<" и ">>", иначе в обработанном тексте остаётся < XXX >, воспринимается как тэг. 4. В описании не нашоел, что такое Olga Loguendo и Olga (с заменами). Никаких замен я не делал, но ошибок во втором случае меньше. 5. А Крафаген должен быть созжон!
Цитата :
^а тре' ^тий п^олет преврати' ^лся
Слово с двух сторон окруженно конкретизирующими совами, однако . . .
т.е. можно прямо в этом окне редактировать и слово сохраниться в словарь и при следующем поиске будет ставить правильное ударение и не выскакивать при очередном поиске новых слов?
Да, по крайней мере должно. Если не будет работать - пишите, буду разбираться.
Цитата :
программе Говорящяя Мышь (ссылку я давал) тоже пишут, что применяют несколько сотен правил для разрешения омонимии, а рзультат один к однома как у Вас. Это говорит о том, что подход не верный!
Я несколько книг озвучивал с помощью моего алгоритма - число ошибок распознавания омонимов минимально (одна-две на весь файл, размером около 600К). Причем большинство ошибок - напрямую после глагола, над этим работаю... Остальные ошибки, в основном, это реальная неоднозначность, то есть проблема уже на смысловом уровне.
Вроде не должны ставиться, это, скорее всего, ошибка при конвертировании в формат Ольги, посмотрю.
Цитата :
Нельзя ли всётаки сделать " ' " такое ударение?! Это ведь не трудно.
В программе конкретный символ много где используется, переделывать все сложно, а толку мало. Кстати ' используется в текстах достаточно часто - в именах типа О'Браен и иногда вместо обычных кавычек (особенно когда, скажем, название используется в прямой речи).
Цитата :
Надо отфильтровывать "<<" и ">>", иначе в обработанном тексте остаётся < XXX >, воспринимается как тэг
Посмотрю что можно сделать.
Цитата :
В описании не нашоел, что такое Olga Loguendo и Olga (с заменами). Никаких замен я не делал, но ошибок во втором случае меньше.
Первый вариант - это тот, что был у меня раньше, а Olga (с заменами) - это тот алгоритм, который Вы приводили (который требует измененного реестра).
Цитата :
^а тре' ^тий п^олет преврати' ^лся Слово с двух сторон окруженно конкретизирующими совами, однако .
Роуз, порой вы разговариваете, как мой водопроводчик. «Вам крышка» – это неверно сказано. Очень важно верно подбирать слов^а. Это не мо^я проблема, а наша. Так что крышка всем нам. Бад Тук, глядевший на Шиобэн с другого софт-скрина, негромко рассмеялся.
И нужна такая функция, сверьяться с неким txt файлом, где описаны слова в которых не надо ставить ударьения, т.е. те слове которые описанны sampo -й в системных словарьях.
P.S. С двойным ударением тема снята, сам дурак, прошу прощения! А скобочки стрелочки присутствуют.
другом тексте мне Петюнечка снова не выскочит в этот список, т.е. он как бы один для всех или каждому свой?
Так точно сударыня, для всьех-с, и даже для всех голосов. Всё пишется в easy.dic. rquester Пожелания, замечания:
Цитата :
по которым = p@#kVt"or1m# па которым = p"a#kVt"or1m#
Такие подстановки под разговорную речь не допустимы!!! Движок сам корректно делает такую замену, а поэтому крайне необходим файл содержащий слова в которых не надо ставить ударения. Не только слова, но ирегулярные выражения, типа - *го (регулярного=регулярнова) Вот ещё примеры
Цитата :
защитного поля - защи' ^тнаво паля`
В последнем примере сразу две ошибки, но об этом потом.
После тега пропадает весь абзац! Коль ударения для Алёны и Ольги ставятся по < и > корректней делать подстановку как сделанно у Stroodderhttp://mytts.forum2x2.ru/forum-f12/tema-t165.htm Я уже писал об этом. Там есть такие сочитания: их<*=^их и их>^их, а у меня таких сочитаний нет, потому что они не нужны для " ' "! И вообще они отличаются.
Цитата :
не подходят словари со звездочками и сочетаниями слов
(Причём здесь звёздочки и сочитания,звёздочки убрать, а слов там вообще нет. Надо сначала разобраться а потом писать!) От этого и наблюдаемые фифекты речи. Я не просто ведь ратую за " ' ", дело в том что существует некая специфика движков, проявляется она в том, что слово отредактированное в редакторе, допустим Балаболки, и звучащие там правильно, зачастую не правильно звучит в предложении и наоборот. А за счёт словарей замены ударений в подовляющем большинстве достигается положительный эффект, особенно с " ' " (полученно опытным путём). Тем более, что бинарник наверное имеет вид
Кстати ' используется в текстах достаточно часто - в именах типа О'Браен и иногда вместо обычных кавычек (особенно когда, скажем, название используется в прямой речи).
не состаятельны, ведь уши нам даны для слуха, а не для зрения, и какая стоит разметка ' XXXX ' или " XXXX ", по барабану, весь мусор длжен фильтровться на входе. В случае
Цитата :
О'Браен
скорее ударение чем разделитель и нет механизмов озвучивания таких тяжолых случаев.
Теперь о синтаксическом анализе:
Цитата :
родной звезды - радн^ой звё' ^зды ^ другой звезды - друг^ой звё' ^зды
такие ошибки имеют регулярный характер, на странице 23 штуки, а не
Цитата :
(одна-две на весь файл, размером около 600К)
В Балаболке это решается так *ой звезды=ой звезд^ы Не понятно, какие вообще правила работают у вас, их нет!!! (Начинаем всьё сначала) Поэтому такое предложение, вынести отдельным модулем грамматику и лучше сделать это на Прологе. Этот язык, как нельзя лучше подходит для этих целий, не даром подавляющее большинство грам. движков сделанно именно на нём. Дать открытый код или возможность внесения правил для заинтересованных людей. Не надо иметь семь пядей во лбу, чтобы написать правило на прологе! Что касается тезаоруса (понятно для чего), то создание его измеряется в человеко/часах, как ребята словари для Алёнки делают. Оформить это можно dll-кой. Если интересно то есть наработки, могу всё расписать и грам. движок тоже.
Движок сам корректно делает такую замену, а поэтому крайне необходим файл содержащий слова в которых не надо ставить ударения
Уже сделал (правда, пока не выложил), правда без регулярных выражений. Будет неплохо, если Вы выложите реальный файл словаря (пробовал на маленьком файле - все работает, а на большом пока нет, а желательно)).
Цитата :
Я не просто ведь ратую за " ' ", дело в том что существует некая специфика движков, проявляется она в том, что слово отредактированное в редакторе, допустим Балаболки, и звучащие там правильно, зачастую не правильно звучит в предложении и наоборот
Программа предназначена для универсальной работы с любыми программами синтеза, вся движкозависимая логика - только на самом последнем этапе, это основной принцип. Соответственно и символ должен быть один для всех движков.
Это просто ошибка то ли в программе, то ли в словаре. Буду искать. С заменами это вообще никак не коррелирует.
Цитата :
Тем более, что бинарник наверное имеет вид Цитата: водка#во'дка,во'дки,во'дки,во'док,во'дке,во'дкам,во'дку,во'дки,во'дкой,во'дкою,во'дками,во'дке,во'дках
Нет, он имеет вид ближе к следующему: во+дка <тип склонения> <тип ударения> То есть слово во всех словоформах не хранится.
Цитата :
скорее ударение чем разделитель и нет механизмов озвучивания таких тяжолых случаев.
Это не тяжелый случай, а стандартный для ирландских фамилий.
Цитата :
такие ошибки имеют регулярный характер, на странице 23 штуки
Если вы специально искали ошибки в определении омонимии, и сделали файл только из сложных случаев - возможно. Но на обычных текстах ошибки именно единичные. По крайней мере, на тех, которые я пробовал.
Цитата :
Не понятно, какие вообще правила работают у вас, их нет
Правила работают многие, но иногда возникает внутренний конфликт правил...
Цитата :
Поэтому такое предложение, вынести отдельным модулем грамматику и лучше сделать это на Прологе.
Пролог - вообще мертвый язык, и делать что-то на нём - это выкидывать время в мусорную корзину.
Цитата :
Дать открытый код или возможность внесения правил для заинтересованных людей.
А то, что я потратил кучу времени для его создания? Хотя если Вы готовы оплатить выкладывания свободного кода - я "за". Для оценки примерной суммы - прикиньте зарплату за год-два работы программиста высокого уровня...
Цитата :
Что касается тезаоруса (понятно для чего), то создание его измеряется в человеко/часах, как ребята словари для Алёнки делают.
Так тезаурусы вроде есть, причем можно найти даже бесплатные... Или речь о каких-то специфических словарях?
Это просто ошибка то ли в программе, то ли в словаре. Буду искать. С заменами это вообще никак не коррелирует.
Вы не поняли, в моей таблице замен нет могих сочитаний и программа не найдя сочитания ставит <. Искат ничего не надо, надо скачать отсюда http://mytts.forum2x2.ru/forum-f12/tema-t165.htm Я сотый раз пишу, а вы даже посмотреть не хотите!
Цитата :
Программа предназначена для универсальной работы с любыми программами синтеза, вся движкозависимая логика - только на самом последнем этапе, это основной принцип. Соответственно и символ должен быть один для всех движков.
Зкамена ударений должна происходить не в вашей программе а допустим в Балаболке или ещё где, это принципиально!!! Иначе эффекта не будет, и от кортавости не избавиться.
Цитата :
Это не тяжелый случай, а стандартный для ирландских фамилий.
Да хоть для африканской, как это со звуком связанно?
Цитата :
Если вы специально искали ошибки в определении омонимии,
Обычный расказ Кларка "Солнечная буря".
Цитата :
Хотя если Вы готовы оплатить выкладывания свободного кода
На этом форуме, уже надо платить? Одно из двух, или Вы издиваетесь, или кто-то здесь ненормальный, чувствую, что не я!
Ошибка у меня, не у Вас, я попробовал у себя этот текст, и у "них" тоже ударение не правильное. Буду исправлять. Словари замен смотрел...
Цитата :
Зкамена ударений должна происходить не в вашей программе а допустим в Балаболке или ещё где, это принципиально!!! Иначе эффекта не будет, и от кортавости не избавиться.
В каком смысле не будет? Сейчас конвертируешь текст в формате Николая - и Николай хорошо читает все. Для остальных движков, конечно, хуже, но это уже проблема движков... А если через неделю выйдет еще движок, то все словари переделывать? Если у движка проблема с какими-то определёнными словами - вариант со словарями "не простановки", конечно, возможен, но это - скорее исключения, чем правила. Иначе и поиск неизвестных слов работает не совсем правильно (по словарю программы+пользовательскому словарю), а не по словарю движка и т.д.
Посмотрю. На тех текстах, на которых я тестировал ошибок было очень мало
Цитата :
Цитата: На этом форуме, уже надо платить?
За посещения форума вроде нет . А вот еслии хотите получить исходные тексты Книгодела - надо. Если они Вам действительно нужны. Так же если Вы активно будете пользоваться программой, желательно поддержать разработчика, чтобы у него был стимул ее дорабатывать (номера кошельков есть на сайте)... А интерфейсом все равно на всех не угодишь... Один любит скины, другой не любит, один любит пиктограммы - другой нет, один любит когда окошко кривое и розовое, другой терпеть не может... Поэтому если что-то конкретное требуется от интерфейса я и предложил доработать под условия заказчика на платной основе...
Рассказа "Солнечная буря" у Кларка не нашел, нашел роман. Посмотрел 1% текста (около двух страниц с одинарным интервалом и 12 пунктовым шрифтом). Ошибки: 1.пу<стынной - подправлю приоритет, а так практичски никакой разбор не даст правильного различия пу<стынный (от пустынь) и пусты<нный (от пустыня) 2.кулаком гла<за - этот вариант так же требует смыслового разбора - компьютер естественно не знает, что в состав глаза не входит кулак (у инопланетян, кстати, может входить). Если использовать так же глагол протёр, то, если бы была информации о то, какими падежами он управляет, то это можно было бы использовать, но это информации, по крайней мере, у меня нет. 3.на пару< размеров - вот это устойчивое сочетание, его можно исправить 4.что-то надорвалось в гру<ди у Бисезы - пожалуй, ошибка разбора 5.пропитанного пото<м песка - песок можно пото<м пропитать, без разбора смысла вряд ли что-то изменится 6.была вода с лу<ны - тут алгоритм дает сбой, признаю ошибку 7.на южном полюсе лу<ны - разобрать не учитывая контекст и смысл так же невозможно, если, конечно, не использовать то, что Луна написана с большой буквы (но это уже частное решение, которое, конечно, могу добавить) 8.через несколько ми<нут - ошибка, буду думать как исправить Итого на две страницы: 8 ошибок, из которых реально проблема разбора - 3. Конечно, это не три ошибки на весь текст (хотя на тех текстах, что я пробовал - примерно такое количество ошибок), но и не 23, которые вы указали (если укажете в каком именно месте такое количество ошибок, это поможет их исправить).
Еще можно посчитать ошибкой "жизнеобеспе<чение", но в словаре слово так и записано. Если нравится жизнеобеспече<ние, то можно просто добавить его в пользовательский словарь.
Из приведенного вами списка слова допела, пела, ноздрей, переть, потереть, похлеще, припереть, прочесть, утереть читаются совершенно нормально (только что попробовал). Слова мел/мёл, мер/мёр, смел/смёл и шлем/шлём действительно проблемные (хотя вроде занеся в easy.dic можно заставить читать как хочется). Слова обрётшие, привёдшая, провёдшего действительно читаются с ё, но во-первых, не факт что этот вариант неправильный (вроде в словарях я именно такой вариант встречал), а во-вторых, вроде в программе эти слова как омонимы не обозначаются (в режиме только омонимов они не выводятся) - т.е. решить проблему можно с помощью easy.dic, занеся правильный (на ваш вкус) вариант туда. И, соответственно, это будет работать для всех движков... По поводу не и как-то, когда-то... - проблем не замечал, нормально все синтезируется (может, конечно, разные версии движка). Если что - можно использовать словарь исключений (вроде появился в версии 1.31, по крайней мере, на сайте сказано что появился), куда занести специально распознаваемые движком слова...
Некоторые ошибки. хотели хотэ<ли хоте<ли хотелось хотэ<лось хоте<лось много мно<во мно<го плавно плавно< пла<вно вилку вилку< ви<лку было бы лучше разъяснил разъя<снил разъясни<л еды е<ды еды<
Некоторые пожелания. а<т винта атвинта< или отвинта< а<т сочу<ствия а<т сча<стья а<т все<х а<т батаре<й а<т лю<ка а<т бе<рега ... и другие подобные сочетания с частитецей "от" если невозможно сделать 2-й(атвинта<) или 3-й(отвинта<) вариант лучше оставить "от" Тоже самое и с частицей "по" па< восто<чному павоcто<чному или повосто<чному если не возможно, то лучше оставить "по" **************************** кого-то кого<то или ково<то ...и все слова с "-то" **************************** и на закуску
Спойлер:
без всяких=безъвся<ких без всякого=безъвся<кого без всякой=безъвся<кой без злости=безъзло<сти без камней=безъкамне<й без меня=безъменя< без надобности=безъна<добности без него=безънево< без разбора=безъразбо<ра без слов=безъсло<в без сожаления=безъсожале<ния без сознания=безъсозна<ния без тебя=безътебя< без того=безътово< без труда=безътруда< без этого=безъэ<того вот что=вотшто всё равно=всеравно< не вело=невело< не видно=неви<дно не вовремя=нево<время не выдержал=невы<держал не высохнут=невы<сохнут не должен=недо<лжен не здоровается=нездоро<вается не казнили=неказни<ли не меньше=неме<ньше не мог=немо<г не может=немо<жет не надо=нена<до не обратит=необрати<т не пользуются=непо<льзуются не помогло=непомогло< не понадобятся=непона<добятся не понял=непо<нял не почувствовал=непочу<вствовал не превышала=непревыша<ла не привык=непривы<к не пригодится=непригоди<тся не придумаешь=неприду<маешь не придумал=неприду<мал не пруд=непру<д не расшибить=нерасшиби<ть не смеются=несмею<тся не смог=несмо<г не собирался=несобира<лся не совсем=несовсе<м не станет=неста<нет не сумеет=несуме<ет не так=нета<к не таким=нетаки<м не хотели=нехоте<ли не хотелось=нехоте<лось общем–то=о<бщемто он–то=о<нта что ли=что<ли не покажет=непока<жет не знаю=незна<ю не могу=немогу< не оставил=неоста<вил не стал=неста<л ...и другие подобные
Некоторые непонятки. Да и еще непонятно зачем проставляется ударения в: а<, за<, и<, не<, мы< и т.д., т.е. в простых односложных словах и частицах. Просто некоторые. Если вы готовы продолжать работать в этом направлении и дальше,то буду и дальще предлагать корректировки произношения и искать ошибки. Например много слов,где хотелось бы,чтобы "е" произносилось как "э",или слова с двойными согласными(например: автокоррекция,коррозионный),где для уха полезнне одна "р" Всё вышесказанное конечно же относиться к подготовке текста для Николая(mme или telecom). А вот rep.dic пока работает криво.Вы сами пробовали его в деле,хотя-бы с включёнными вами правилами?
Так подход вроде тот же остался. Или Вы о диалоге настроек?
За найденные ошибки - спасибо, постараюсь исправить. С предлогами по и от (а так же не и же) - у меня даже сделан блок для этого, но он находится в блоке синтеза (если синтезировать своим движком это работает), но постараюсь перенести.
Цитата :
а<, за<, и<, не<, мы< и т.д., т.е. в простых односложных словах и частицах.
Заодно... Кроме того, это полезно для встроенного синтезатора книгодела (некоторые алгоритмы проверки на это завязаны, не надо искать первый ударный слог...)
Цитата :
Если вы готовы продолжать работать в этом направлении и дальше,то буду и дальще предлагать корректировки произношения и искать ошибки.
Да, это будет полезно.
Цитата :
А вот rep.dic пока работает криво.Вы сами пробовали его в деле,хотя-бы с включёнными вами правилами?
Эти правила включены как пример. С конкретно этим вариантом не пробовал, но с другими правилами текстировал. А что не так? И учли что правила применяются на последнем этапе (перед преобразованием в формат движка), то есть должны задаваться с ударениями (+)?
...чтобы помочь Николаю воспроизводить текст хоть немного приблеженным к нормальной человеческой речи при чтении вслух.
Мне импонирует,что вы в новой версии сделали шаг в эту сторону, кстати в этом и состоял мой воспрос -"будете ли вы дальше это развивать?" На мой взгляд это будет хорошей отличительной особенностью вашей программы.
Цитата :
Цитата :
Цитата: а<, за<, и<, не<, мы< и т.д., т.е. в простых односложных словах и частицах.
Заодно... Кроме того, это полезно для встроенного синтезатора книгодела (некоторые алгоритмы проверки на это завязаны, не надо искать первый ударный слог...)
Про встроенный синтезатор ничего пока не скажу, однако Николай, и так не отличается плавностью речи, а эти ударения ёще больше делают её отрывистой. Можно для примера прослушать:
но< я< не< могла< предста<вить. но я немогла< предста<вить.
Но пока такие изменения нам недоступны в вашей программе, поэтому, можно предложить, после обработки текста, прогонять его ещё раз в Балаболке по CTRL+T со словарем .dic примерно следующего содердания:
Код:
* а< *= а * во< *= во * всё< *= всё * её< *= её * за< *= за * и< *= и * ли< *= ли< * на< *= на * не< *= не * но< *= но * ра<з *= раз * та<к *= так * я< *= я * мне< *= мне и т.д.
Пробелы обязательны после звёздочки,перед следующей звёздочкой,и в заменах до и после слова.(Это прокатит если вы избавились от кавычек,скобок многоточий в тексте, и т.п., а если нет то надо создавать соответствующие правила замены).
Мне импонирует,что вы в новой версии сделали шаг в эту сторону, кстати в этом и состоял мой воспрос -"будете ли вы дальше это развивать?"
В принцип, это было и в предыдущих версиях (кое-что с недавних пор, а кое-что и давно), просто, так получилось, что для Николая этот режим не работал (так как он большинство слов сам корректно смягчает), в этой версии появилась опция, поэтому сделано чтобы меняло везде.
Цитата :
На мой взгляд это будет хорошей отличительной особенностью вашей программы.
Так вроде и вообще толковой расстановки ударений с большим процентов различием омонимов нет... Если бы была - добавить все эти мелочи не очень трудно...
Цитата :
Но пока такие изменения нам недоступны в вашей программе, поэтому, можно предложить, после обработки текста, прогонять его ещё раз в Балаболке по CTRL+T со словарем .dic примерно следующего содердания:
Насколько я знаю, если написать в словаре rep.dic а+=а во+=во ... то всё будет корректно работать (если целиком слово - звёздочек не надо, в программе проверяется на слово целиком если звёздочки нет с одной из сторон). Если не работает - напишите, я постараюсь исправить... То есть: приве+т=прю+вет Заменит все соответствующие целые слова *приве+т*=прю+вет все слова содержащие привет (выражение указывать тоже можно) приве+т*=прю+вет все слова начинащиеся с привет *приве+т=прю+вет все слова заканчивающиеся на это P.S.: правда, в текущей версии будет проблема если перед/после слова идёт нестандартный символ вроде двоеточия или скобки,в следующей версии планирую это исправить. P.P.S.: Также можно воспользоваться файлом noakc.dic, в котором перечислены те слова, которы нужно оставить без ударения. В этом файле слова должны быть отсортированы (стандартная сортировка строк, включая ударения, отсортировать можно досовской (есть и в Windows) sort с ключом /L "C"). То есть туда нужно занести: а+ во+ ...
Кстати, если написать rep.dic: по+ *=по не+ *=не без+ *=безъ *-то=то * же+=же ... то программа как раз сделает то, что Вы предложили... У меня, по крайней мере, работает...
P.S.: До выхода новой версии там же можно исправить "столиком", "тощая"...
В рассказе "Хоккей" остались только из замеченных мной с глазу< на глаз (но это можно исправить Балаболкой и) бо<льшая табличка (и не было обещано исправить)
Правда появилось новое:
Так вот, сейчас только-только закончился "Бильярд со звездами", поэтому зритель приме<т любую бильярдную передачу на ура.
Кроме того, не пойму почему стали заменяться такие слова как именно на и<мено общее на о<пщее без отметки "записывать слова как читаются".
Если можно, в режиме "Только омонимы [export]" желательно было бы убрать ударения в цифрах.
Напоследок несколько новый предложений:
Спойлер:
Гулиа предсказывает маховикам то буд<ущее, которое стало реальностью совсем недавно. (для Алёны это слово изменяется на буДущее)
как бы<ло назва<но это новшество
Гулиа опубликовал сотни научно-популярных ста<тей практически во всех издаваемых в СССР, а пото<м в России массовых научно-популярных журналах.
По правде говоря, профессора< Гулиа я знал еще с детства, моего, разумеется.
С начала< семидеся<тых годов прошлого ве<ка (звучитто как - "прошлого ве<ка", как будто - "до на<шей эры"!) была чрезвычайно популярной научно-познавательная телепередача "Это вы можете!".
Вот таким я и запомнил профессора< Гулиа с экрана телевизора, и надо сказать, таким же он оказался и в жизни.
ptoton Спасибо за найденные ошибки. Постараюсь поправить. Но ошибки с общее, будущее и именно у меня не проявляются. Возможно, они в каком-то из Ваших словарей (rep.dic, fon.dic, easy.dic, словарях для читалки)? Если не найдёте в своих данных ошибки, укажите, точно при каких опциях выдаёт ошибочные данные и, если нетрудно, выложите ошибочный файл... P.S.: При включённой фонетике общее и именно действительно меняются, но вот при выключенной.... Со словом общее, в принципе, была ошибка, но не такая, как Вы описываете. Ту ошибку о которой я говорю (в некоторых случаях ставилось двойное ударение) я уже поправил, в новой версии должно быть нормально.
Распаковывал новую версию поверх старой. Сейчас удалил все файлы и распаковал на чистое место. Действительно "именно" и "общее" теперь не изменяются. Буду осторожнее.
Но "буд<ущее" получилось опять. Даю ссылку на файл.
Посмотрите, пожалуйста, отмеченные мной предложения в повести Вернора Винджа "Куки-монстр". Он был обработан Книгоделом 1.33b с опцией "только омонимы" (омографы). Потом в файле было отмечено, все что хотелось бы поправить.
Сразу оговорюсь, что все спорные по Вашему мнению случаи оставляю на Ваше усмотрение. Что-то наверное пропущено, что-то отмечено зря. Надеюсь, что это поможет в разаработке алгоритма и совершенствовании программы "Книгодел". Vindzh_Kuki-monstr.txt - исходный файл. Vindzh_Kuki-monstr_pre.doc - файл с отмеченными предложениями или словами.
ptoton Предыдущие ошибки уже исправил (кроме одной с профессором, она в ближайших версиях вряд ли будет исправлена - и неизвестное слово мешает алгоритму работать и расположение перед глаголом). Ударение на числах сделал отдельной опцией. Новые файлы посмотрю.
muk79
Цитата :
Может стоит разделить тему на bugreport и wishlist а то уже такая каша в топике что разобрать может только тот кто читает с самого начала.
А как их разделить-то? По сути, кроме информации об ошибке с длинными файлами всё что здесь указано - это именно wishlist, так как алгоритм различия омонимов в принципе не может давать 100% результат (даже люди иногда не способны выбрать правильный вариант, скажем во фразе "Продаётся замок. Дёшево."). Но, в какой-то мере, он и bugreport, конечно
Спасибо за новую версию. Посмотрите, подалуйста еще порцию предложений обработанных Книгоделом 1.34b (омонимы).
Спойлер:
стены Там, где сходились стены<, была клумба гравия два на два метра. За картинами стены< были выложены слюдой, кварцем и волокном. все стены< были усеяны липучкой, которые наездники используют для колесной езды при нулевой гравитации.
полы Равна воспринимала сте<ны и по<лы как сло<женные из грубо тесанных тяжелых бревен.
брони Он не проплавил бы даже сталь бро<ни фрегата. При широком рассеянии луч был бессилен против бро<ни.
жила Ведь жи<ла же сила когда-то, а пото<м была приведена в ничто.
места Были ме<ста, куда мог добраться только Джефри. Панели выглядели как ме<ста отдыха для команды. ча<сти тела< занимали свои ме<ста. теперь можно было распознать ме<ста, которые они хотели видеть снова. здесь есть бесчисленные иные пути и ме<ста, куда никогда не попасть методом слепого поиска.
запахам Джоанна улыбнулась в ответ, почти загоревшись его энтузиазмом, вопреки старой рухляди, которая заменяла им оборудование, вопреки запа<хам двадцатидневного заключения в тесноте корабля.
леса травы Арне Олсндот сможет посадить ракету, никого не напугав и не повредив ничего, кроме ле<са и тра<вы. За северной стеной расстилались ле<са и долины, ведущие к Ледяным Клыкам. А этому Тиратекту, который теперь был тише воды<, ниже тра<вы, Джефри вообще никогда не доверял.
теней на одном острове стоял неправильный многоугольник стен и те<ней.
парили Теперь они па<рили почти неподвижно примерно в тысяче метров от вершины холма. Они па<рили в воздухе, иногда налетая на сте<ны, на сброшенную одежду, вплывая в капли слёз. Они несколько мину<т па<рили в молчании. Сейчас они па<рили на антиграве точно над Холмом Звездолета.
земли Были на све<те земли<, где никто не говорил ни на одном знакомом ему языке.
пятна снега волос Сейчас же от льда и снега< остались только неясные ду<ги на восточном горизонте и рассеянные по холмам пятна<. На плечах и на голове были заметны лишенные во<лос пятна< с черной кожей.
веками Он отвернулся от света, но тот все еще болезненно горел под закрытыми века<ми.
ярок луны краю свет был слишком яро<к. свет стал так яро<к, что одежда более не защищала. Этот водоворот в сумерках был не очень яро<к и вряд ли станет ярче этой ночью - низко на западном небе группа заводов сияла ярче любо<й лу<ны. он был не особенно яро<к, но зато казался краеугольным камнем всей тройки. Надо было сообразить сразу - лучшую лодку ставят в носовой ряд с краю<.
метров Мальчик прошел вдоль всей стены< - метро<в десять. - Это пятьсот двадцать три целых пятьсот девяносто восемь тысячных кубических сантиметро<в. Экспедиционный корпус Резчицы был не слишком велик, а леса< и долины тянулись на сотню с лишним километро<в до того ме<ста, где Ледяные Клыки загибались к мо<рю.
начало По Описателю расползалась глупая улыбка - до него нача<ло доходить, что и в са<мом деле может выйти. но до него нача<ло доходить, что было неверно.
бега Еще полмили бега<.
парами Не раз Вик видел и<здали, как он работал пара<ми с помощью каких-то странных инструментов. Некоторые, влетевшие в виде троек, отпо<лзали пара<ми или синглетами. Она выглядела точно как раньше, но Амди царапал ее пятью< пара<ми лап.
пары - Он присел, так что тем, кто внизу, были теперь видны< только две пары< глаз.
щели Странник зарылся поглубже в щели< и ды<ры, покрытые вереском.
шипы На лапах сверкали металлические ши<пы. Значит, шипастые - так назвала Джоанна их за ши<пы на когтях передних лап, ши<пы не давали кораблю подойти ближе чем на сто метров. Автоматика корабля следила за восстановлением, но точно можно будет узнать, только включив эти ши<пы в по<лете.
когти Клыки и когти<, ножи и рев. Чаще всего Стальные когти< казались ей чуждыми варварами, нечеловеческими по духу не менее, чем по форме.
лады Странник и Описатель обсуждали это на все ла<ды.
стороны луга Только если сильно сосредоточиться, мог он вспомнить, кто он такой и что он должен добраться до той стороны< луга<, не привлекая внимания.
нападавшего Странник бросился на напа<давшего. У напа<давшего были шипы< на лапах.
самого Викрэкшрам не знал его имени, но са<мого его помнил. Но Свежеватель запланировал такую тактику с са<мого нача<ла, предвидя сборку са<мого себя в более чем тысяче миль от Длинных Озер.
слуги Шрам выбросил два элемента слуги< за край тропы<.
стоят Но бывают призы, которые стоя<т такого риска. Те, что могут работать в Среднем Крае, не стоя<т хлопот. но результаты того стоя<т.
дорога Теперь дорога< была шире и кое-как вымощена. дорога< была и раньше, но узкая, и боковых подъездов было втрое меньше. Если судить по часам, обратная дорога< заняла у наездников полчаса. Но старая дорога< оказалась хуже, чем мне помнилось.
удалось Но лишь Республиканская Политическая Полиция сообщила, что уда<лось идентифицировать все тела< Свежевателя.
руки Эти действия были на удивление координированы, будто за его рубашку схватились две ру<ки человека.
души В худшем случае стая впадает в извращение, может стать лишенной ду<ши. Для создаваемой ду<ши процесс казался ментальным хаосом. Отличное было бы дело для последних лет моей ду<ши.
вести Я-то думала, мы обсуждаем хорошие вести<.
споров Из-за этих споро<в они и разошлись на несколько лет.
пикников Под ногами у себя она могла рассмотреть огни пи<кников и поля< для игр.
красив Организация Вриними немного времени проводила на планете, но мир этот был кра<сив. Склон Холма Звездолета был как никогда кра<сив.
ушла В ироническом жесте покаяния она развела руками и у<шла с доро<ги игрока.
примете Откровенно говоря, я не рассчитывал, что вы приме<те предложение.
корпуса Крупный план показал мелкую изрытость корпуса< - результат тысячелетней релятивистской эрозии. Он был вряд ли ярче, чем сияние, которое иногда видно вокруг корпуса< корабля на низких планетных орбитах.
надели На фигуру надели< меч и пулевой пистолет.
сбоя Иногда это случалось без предупреждения, иногда была видимость сбоя< компьютеров или грубой ошибки. - Тележка никогда не допустит такого сбоя<, уж по крайней мере не в разгар серьезной торговли. Глимфрель перехватил взгляд Свенсндота и показал на сигнал сбоя< на панели связи.
грани - Наверное, мы были точно на грани<, шатаясь где-то в районе коэффициента интеллекта 60. - И некоторые из них были на грани< или за гранью человеческой сложности. Жужжание на грани< восприятия человека охватило корпус.
живо Дело идет очень живо<.
горячей Равна ощутила прилив горяче<й ностальгии - как бывает, когда встретишь одноклассника в далеком городе.
органов В поведении некоторых официальных лиц Шифровальных орга<нов я сразу после победы Страума заметил реальную перемену.
петли В них есть капканы и петли<. ду<ги и петли< Контрмеры стали хрупкими и рассыпчатыми.
крови Воспоминания его, перепутанные и непонятные, о крови< и битве, о военной муштре до того.
почему-то в 37й при Алена (со словарями омонимов)(с заменами) +омонимы экспорт ставит ударения <
Была ошибка, исправил, в новой версии должно быть все нормально, скорее всего уже с заменами. Ошибку с после тоже исправил. С кавычками еще не смотрел, но вроде такого быть не должно, должно заменяться на обычные кавычки " текст ". Может это редактор так их показывает?
ptoton Ошибку с сажей исправил, в новой версии будет. А с остальными фразами - в принципе, могу искусственно исправить, заставив всегда вместо чайкИ писать чАйки.... Но тогда неправильно будет произноситься фраза "надоели все эти чайкИ!"