|
|
Автор | Сообщение | Обсуждение словарей |
---|
koshi Новичок
Сообщений : 13
Репутация : 0
 | 16.11.08 22:58 |  |
| Есть некоторые вопросы по этим словарям. Насколько я понял "Лексикон трудночитаемых слов" - это 3 текстовых файла в папке def_dic (rur_1.txt rur_2.txt rur_3.txt) должен импортироватся по ctrl+I. У меня этот процесс идёт уже около часа, с загрузкой одного ядра CPU (2.8 Ггц) на 100%. Что то не так? или время импорта действительно столь велико? Второй вопрос. В этих файлах есть слова типа yuschenko, zapasnyj, zumpano, zulfikar, trombino и т.п. Это зачем? Туда понамешали русский транслит, английский и ещё не знаю какой языки. Может оформить эти раритеты в отдельный файл? (если уж кому такое надо). Понятия не имею где мне может встретится zulfikar, zsazsa, zwetchkenbaum и т.п. На транслите тоже не читаю, так зачем засорять словарь? Или туда стягивается весь мусор рунета (судя по zwetchkenbaum - не только ру ) для постановки рекорда по количеству слов? |
|
|
 | |
bot Гость
Сообщений : 317
Репутация : 12
 | bot | :: 16.11.08 23:58 |
16.11.08 23:58 |  |
| koshi внимательно читай что за словарь ты скачиваешь  добавление в лексикон довольно долгая процедура если сильно много слов в словаре лучше ставить с расчетом на 5-6 часов а то и больше. |
|
|
 | |
koshi Новичок
Сообщений : 13
Репутация : 0
 | 17.11.08 0:40 |  |
| Да, немного запутался. def_dic - это "Системные лексиконы движка". И о них ничего не сказано. Зато сказано - "Качаем лексикон трудночитаемых слов и импортируем его в свой лексикон." Лексикон трудночитаемых слов - это Alyona22k.dic (в архиве dictonary.7z). Но импортировать его нельзя, так как это действо совершается только над текстовыми файлами. В описании действий небольшая неточность, которая может ввести в заблуждение. Alyona22k.dic надо не импортировать, а открывать (ctrl+O). |
|
|
 | |
evilone_ Участник «online словари»
Сообщений : 860
Репутация : 317
 | |
 | |
koshi Новичок
Сообщений : 13
Репутация : 0
 | 17.11.08 1:18 |  |
| Да, я уже дошёл до этого, но исправить сообщение не успел. Но всё же ещё о def_dic (Системные лексиконы движка). Их таки надо импортировать? И что это за лексиконы? Просто бэкап того словаря что уже есть при установке али как? |
|
|
 | |
evilone_ Участник «online словари»
Сообщений : 860
Репутация : 317
 | |
 | |
Maximvolk2007 Интересующийся
Сообщений : 6
Репутация : 0
 | 21.11.08 15:43 |  |
| Кто-нить знает как научить Алёну вот этим: приходиться, приоткрылся отсек, пригибать головы, позднее утро. |
|
|
 | |
evilone_ Участник «online словари»
Сообщений : 860
Репутация : 317
 | 21.11.08 17:01 |  |
| - Maximvolk2007 пишет:
- Кто-нить знает как научить Алёну вот этим: приходиться, приоткрылся отсек, пригибать головы, позднее утро.
словарь замен+лексикон для словаря замен |
|
|
 | |
Sofos Новичок
Сообщений : 11
Репутация : 0
 | 22.11.08 13:02 |  |
| Что есть "друдночитаемые" слова, зачем их отлавливать?
Как поставить зависимость ударения от предыдущего слова (или его окончания)?
Например она читает "верхней гУбы", а надо "верхней губЫ". |
|
|
 | |
Sofos Новичок
Сообщений : 11
Репутация : 0
 | 22.11.08 13:25 |  |
| Еще по поводу чтения цифр. 1984-2001 читает как "один девятьсот восемдесят четыре два ноль ноль один", а надо, что бы читал года. |
|
|
 | |
muk79 Участник «online словари»
Сообщений : 103
Репутация : 29
 | |
 | |
Sofos Новичок
Сообщений : 11
Репутация : 0
 | 22.11.08 16:50 |  |
| С этим разобрался.
Активно занялся составление словаря. Вот такая проблема возникла: В книге читает "внутрирасовЫе величины", отдельно слово читает правильно, т. е. "внутрирАсовые". Добавляю в Балаболке в словарь "*расов*=рАсов", или даже полностью эту фразу с исправлением ударения - бесполезно. Что делать? |
|
|
 | |
muk79 Участник «online словари»
Сообщений : 103
Репутация : 29
 | 22.11.08 16:59 |  |
| - Цитата :
- Добавляю в Балаболке в словарь "*расов*=рАсов", или даже полностью эту фразу с исправлением ударения - бесполезно. Что делать?
Не заменят текст или читает не правильно? Если второе то есть подозрение что ты неправильно транскрипцию в словарь забил.
- Цитата :
- Активно занялся составление словаря
Катай к нам вместе веселее напиши ПМ evilone_ пусть добавит в группу. |
|
|
 | |
Sofos Новичок
Сообщений : 11
Репутация : 0
 | 22.11.08 17:08 |  |
| Я забил "*рАсов*" в словарь, только эффекта от этого нет. Вот транскрипция, которую он выдает "# v n U t r' i1 r @ s @ v I $". Перемещение единички по гласным не дает эффекта, только когда она стоит на "i" - акцент падает на эту букву. Не могу разобраться. |
|
|
 | |
mia V.I.P.
Сообщений : 184
Репутация : 7
 | mia | :: 22.11.08 18:04 |
22.11.08 18:04 |  |
| У Вас неправильная транскрипция:
внутрирасовые # v n U t r' i1 r @ s @ v I $ внутрирасовые #v n u t r' $ r A1 s ss @ v I $
|
|
|
 | |
Sofos Новичок
Сообщений : 11
Репутация : 0
 | 22.11.08 18:23 |  |
| - mia пишет:
- У Вас неправильная транскрипция:
В вашей транскрипции ставится акцент на буву "с", чего быть не должно. "Расовые" пишется с одной "с". |
|
|
 | |
Sofos Новичок
Сообщений : 11
Репутация : 0
 | 22.11.08 18:35 |  |
| Создаю транскрипцию слова "орбИт" "#A r b' i1 t" ("глаза из орбит"), а он упорно произносит "Орбит", которая тоже существует. Не пойму в чем дело.  |
|
|
 | |
Sofos Новичок
Сообщений : 11
Репутация : 0
 | 22.11.08 18:47 |  |
| Такая же история с "чёрт" и "черт". Создал транскрипцию для "черт", а читает все равно "чёрт".  |
|
|
 | |
Sofos Новичок
Сообщений : 11
Репутация : 0
 | 23.11.08 11:22 |  |
| Люди, есть вопросы. Есть тут разобравшиеся с составлением словаря и транскрипций? |
|
|
 | |
evilone_ Участник «online словари»
Сообщений : 860
Репутация : 317
 | 23.11.08 14:22 |  |
| - Sofos пишет:
- Люди, есть вопросы. Есть тут разобравшиеся с составлением словаря и транскрипций?
есть, но... если такие как выше то на них уже ответили, неправильная транскрипция в 100% всему причина, неужели на слух трудно определить? |
|
|
 | |
Sofos Новичок
Сообщений : 11
Репутация : 0
 | 23.11.08 17:02 |  |
| Вот этот вопрос меня до сих пор интересует: "Что есть "друдночитаемые" слова, зачем их отлавливать?". А вообще есть слова, которые просто не возможно изменить. В Lexicom Manager вроде читается правильно, а в книге ну никак не заставить произносится верно.  |
|
|
 | |
Sylvia Участник «online словари»
Сообщений : 72
Репутация : 83
 | |
 | |
Maximvolk2007 Интересующийся
Сообщений : 6
Репутация : 0
 | 26.11.08 11:31 |  |
| Привет всем, я тоже занялся созданием словаря. И вот что думаю: прога "отлов трудных слов" работает только на 30%. Заканчиваю вторую книгу, а слов нашёл очень-очень много, которые произносит не правильно. Может кто-нить доработает программу, хотя бы чтобы отлавливала на 80%? |
|
|
 | |
Sofos Новичок
Сообщений : 11
Репутация : 0
 | 26.11.08 12:41 |  |
| - Maximvolk2007 пишет:
- прога "отлов трудных слов" работает только на 30%.
Повезло. У меня она работает процентов на 0,01, если и на то работает.  |
|
|
 | |
Maximvolk2007 Интересующийся
Сообщений : 6
Репутация : 0
 | 26.11.08 18:15 |  |
| У нас на форуме есть умельцы, кто-бы занялся этой прогой? |
|
|
 | |
Stroodder V.I.P.
Сообщений : 98
Репутация : 7
 | 26.11.08 19:35 |  |
| Sofos Вы иероглифы перегоняли? М/б лучше озвучивать конструктивные замечания и связаться с Ajaja ? Человек на это время потратил все-таки и предложил автоматизированный подход к решению проблемы... |
|
|
 | |
Sofos Новичок
Сообщений : 11
Репутация : 0
 | 27.11.08 9:37 |  |
| - Stroodder пишет:
- Sofos
Вы иероглифы перегоняли?
Нет, книги на русском языке. На полутора-мегабайтную книгу по антропологии в *.txt формате находит 12 слов, 8 из которых уже есть в лексиконе.
- Цитата :
- лучше озвучивать конструктивные замечания и связаться с Ajaja
Да какие тут замечания могут быть, она просто не работает. Если бы она работала и были недочеты - тогда могли бы иметь место "конструктивные замечания", а 4 трудно-читаемых слова на 1,5 метровую книгу напичканную терминологией...
- Цитата :
- Человек на это время потратил все-таки и предложил автоматизированный подход к решению проблемы...
Молодец, идея хорошая. Только, опять же, не работает. |
|
|
 | |
Maximvolk2007 Интересующийся
Сообщений : 6
Репутация : 0
 | 27.11.08 19:16 |  |
| Я так думаю: один черт прога не будет работать (по отлову слов), т.к. просто слава звучат правильно, а в предложении - нет (букву съедает или не правильно произносит). |
|
|
 | |
cnv1981 Интересующийся
Сообщений : 6
Репутация : 0
 | 28.11.08 15:22 |  |
| Думаю надо добавлять слова в словарь , которые чаще всего встречаются в тексте, который вы планируете прочитать. Например: собрались слушать книжку про Шерлока Холмса, наверняка многие имена и улицы часто будут встречаться в этой книжке и скорее всего Алена прочитает их с ошибкой. Я например, люблю читать новости, там тоже много слов которые часто повторяются: НАТО, ПРО, Польша, Чехия, Россия, Путин, Медведев и тд. ) Еще программа должна сверятся со списком слов, которые я уже обработал, что бы вывести минимальный список, например: НАТО - 300 раз встречается ПРО - 200 раз встречается Польша - 100 раз встречается Чехия - 50 раз встречается
А слова, Россия, Путин, Медведев не появятся в этом списке, т.к. в прошлый раз я два слова уже добавил в словарь Алены, а одно слово Алена итак читает правильно. Поэтому этот список не всегда равняется словарю Алены. Этот список обработанных слов тоже нужно выкладывать в инет, что бы людям не обрабатывать одно слово по два раза.
Зачем учить всем словам, лучше выловить частовстречающиеся и научить этим словам Алену. Так я учил движок Николая и очень доволен своим словарем.
Давным давно мне написал такую программу мой знакомый. Потом похожая программа с усовершенствованным функционалом появилась в программе с сайта mp3book2005.narod.ru. Потом нашел бесплатную тут http://www.koobaudio.narod.ru/ Если нужно, могу и свою выложить.
В таком направлении я бы тоже мог вносить свой посильный вклад в развитие словаря.
Подытожу: 1. Нужна программа для вывода частовсречающихся слов, на подобии koobaudio. Что бы через эту прогу можно было удобно работать с Lexicon Manager. 2. Выкладывать в инете два словаря: словарь Алены и список обработанных слов. 3. Надо подумать как будет обрабатываться этот поток информации. Например Гугл составляя орфографический словарь, подходят к этой задачи математически: если большинство в инете напишут слово одинаково - значит это правильный вариант написания. Конечно бывают исключения. но в большинстве случаев работает и исключает человеческий труд.
Но если все будут работать с одним списком обработанных слов, то уже другой не добавит это слово в словарь, т.к. программа его пропустит... в общем есть над чем покумекать. Думаю надо начать а в процессе разберемся. Т.к. я не программист могу вложиться материально в разработку проги. Может программа, которая будет объединять поток этой информации, будет работать в инете, на хостинге... Жду откликов. |
|
|
 | |
Sylvia Участник «online словари»
Сообщений : 72
Репутация : 83
 | |
 | |
evilone_ Участник «online словари»
Сообщений : 860
Репутация : 317
 | 28.11.08 16:19 |  |
| непонятно с - Цитата :
- словарь Алены и список обработанных слов.
словарь наверно имеется в виду лексикон? так он уже и так есть в доступе а что за список-то такой и какой от него толк? аленка это не николай и кубаудио и мп3букой дела никогда не имели, но они могут только найти слова но транскрипцию этих слов все равно придется забивать ручками и проверять на слух а для поиска в тексте слов по частоте есть полно программ различного калибра, уже готовых и не всегда платных, нужно только поискать хорошо. |
|
|
 | |
cnv1981 Интересующийся
Сообщений : 6
Репутация : 0
 | 28.11.08 16:47 |  |
| evilone_, попробуйте KoobAudio.
Sylvia, да, KoobAudio пока лучший. А для Алены просто каждое слово из этого списка вносить в Lexicon Manager. Просто нужна наверно прога, которая будет работать напрямую со словарем Алены, как KoobAudio работает со словарем Николая.
Интересно, словарь Lexicon Manager можно открыть в ворде или в чем то другом, что бы получить обычный текстовый формат?
Остается подумать как объединять автоматически. Я программистам задачу поставлю. |
|
|
 | |
muk79 Участник «online словари»
Сообщений : 103
Репутация : 29
 | |
 | |
cnv1981 Интересующийся
Сообщений : 6
Репутация : 0
 | 28.11.08 18:14 |  |
| muk79, Lexicon Manager не строит список слов, которые чаще всего встречаются в книжке которую я планирую слушать. Кроме того в КубАудио есть еще несколько фишек для фильтрации этого списка. В общем проще один раз увидеть чем сто раз услышать ) |
|
|
 | |
muk79 Участник «online словари»
Сообщений : 103
Репутация : 29
 | 28.11.08 21:56 |  |
| - Цитата :
- В общем проще один раз увидеть чем сто раз услышать
Да видели, ничего интересного, не умеет эта программа работать с фонетическими транскрипциями голоса "Аленка" а если имелось в виду словарь замен (елка=ёлка) то это намного удобнее делать в той же балаболке имхо. Лично мне не нравиться какая-нибудь привязка голоса к словарям кроме родных лексиконов и тем более привязка к какой-то конкретной программе чтения. Читать должно одинаково хорошо из любой программы. |
|
|
 | |
Stroodder V.I.P.
Сообщений : 98
Репутация : 7
 | 29.11.08 10:17 |  |
| cnv1981 "Хочу..., надо..., поставлю задачу..." Вы б конкретизировали. Тогда бы, возможно, прояснилось, что требуется. Большинство приемов "исправления" Алены - это в некоторой мере "извращение", о котором и не подозревают разработчики TTS, подобно тому как это было с Катей.
ALL Получилось, что все кинулись сломя голову составлять многотысячные словари, уперлись в то, во что должны были в конце концов упереться и теперь пишут на форумах "прога не работает"  |
|
|
 | |
muk79 Участник «online словари»
Сообщений : 103
Репутация : 29
 | 29.11.08 10:32 |  |
| - Цитата :
- Получилось, что все кинулись сломя голову составлять многотысячные словари, уперлись в то, во что должны были в конце концов упереться и теперь пишут на форумах "прога не работает"
А кому сейчас легко?  |
|
|
 | |
Stroodder V.I.P.
Сообщений : 98
Репутация : 7
 | 29.11.08 13:13 |  |
| - muk79 пишет:
А кому сейчас легко? 
Элвису наверное Алгоритм подстановки фонет. знаков есть в исходниках утилиты Ajaja, секрета он из этого не делает. |
|
|
 | |
cnv1981 Интересующийся
Сообщений : 6
Репутация : 0
 | 29.11.08 16:03 |  |
| Stroodder, Я же конкретизировал (читайте внимательнее прежде чем оскорблять), вот основная задача: 3. Надо подумать как будет обрабатываться этот поток информации. Например Гугл составляя орфографический словарь, подходят к этой задачи математически: если большинство в инете напишут слово одинаково - значит это правильный вариант написания. Конечно бывают исключения. но в большинстве случаев работает и исключает человеческий труд.
muk79, вы меня не поняли, но пополнять словарь можете как вам удобнеео. мне удобнее перед прочтением текста найти частовстречающиеся слова и проверить их на корректность произношения. а потом читать книжку. |
|
|
 | |
Stroodder V.I.P.
Сообщений : 98
Репутация : 7
 | 29.11.08 16:39 |  |
| - Цитата :
- Я же конкретизировал (читайте внимательнее прежде чем оскорблять)
Да Бог с Вами, какие оскорбления... см. здесь: http://abook-club.ru/forum/index.php?showtopic=2865&st=1120& Конкретизируйте все же. Или реализуйте то, что Вы хотели бы видеть, на любом удобном Вам уровне, чтобы можно было понять идею без искажений и домыслов. Единственное с чем бы я поспорил: Гугл, как и творения Лебедева - небесплатные структуры, со всеми вытекающими. |
|
|
 | |
evilone_ Участник «online словари»
Сообщений : 860
Репутация : 317
 | 29.11.08 18:59 |  |
| cnv1981 простой список слов тут малополезен будет все равно нужны фонетические транскрипции. Для задания можно использовать справку по транскрипции аленки она если не меняли пути лежит тут C:\Program Files\Acapela Group\Infovox Desktop 2.2\Engine\Russian\Russian.pdf
наработки уже есть в утилитке от Ajaja где-то были ее исходники на http://abook-club.ru/forum/index.php?showtopic=2865&st=1120& ближе к началу темы или на руборде. |
|
|
 | |
cnv1981 Интересующийся
Сообщений : 6
Репутация : 0
 | |
 | |
mia V.I.P.
Сообщений : 184
Репутация : 7
 | mia | :: 30.11.08 0:48 |
30.11.08 0:48 |  |
| cnv1981 Мне интересно как Вы себе представляете если, скажем, будут упорно вносить в словарь "сЕла" я скачаю такой словарь а у меня в тексте будет фраза "Они остановились на краю села"? Тогда такой словарь мне и даром не нужен будет. Он абсолютно не учитывает омографы в моем предложении и понятное дело толку от такого словаря будет не много. Только зря потратите время. Лучше доработать ATTS с учетом нюансов транскрипции самого движка. Сейчас нами уже найдено довольно много тонкостей построения транскрипции с помощью которых можно значительно улучшить замену и произношение. |
|
|
 | |
cnv1981 Интересующийся
Сообщений : 6
Репутация : 0
 | 30.11.08 1:27 |  |
| mia, ну если вам даром ничего не нужно, то делайте все вручную - это очень приятное и интересное занятие... я же предлагаю автоматизировать на основании мнения большинства...
Тем более, как я видел у вас сейчас есть словарь словосочетаний для балаболки, туда добавите "на краю села"
Что значит "доработать ATTS" ? может раскроете тайну... а то у вас на сайте нет про это ничего... я привык работать только со словарем ударений для николая, а судя по вашему сайту у алены тоже для доработки только и есть что словарь, правда усовершенствованный.
в общем... надоели со своей критикой... если чужие мнения не интересны, сидите и варитесь сами в себе... |
|
|
 | |
muk79 Участник «online словари»
Сообщений : 103
Репутация : 29
 | 30.11.08 1:53 |  |
| - cnv1981 пишет:
- я привык работать только со словарем ударений для николая
Так может лучше для него и делай? Понятия "словарь" у аленки как такового отсутствует - есть лексикон (по сути тот же словарь но с фонетической транскрипцией) и тупо от фонаря его не составишь даже "большинством". Лучше наверно сначала разобраться как работать с лексиконом а потом думать про методы от "гугла" и писать ТЗ. Уже писал да наверно напишу еще раз - нужен не столько словарь ударений сколько программа строящая вменяемые фонетические транскрипции для любого слова. |
|
|
 | |
MP3book2005 V.I.P.
Сообщений : 2
Репутация : 0
 | 30.11.08 19:48 |  |
| - Sylvia пишет:
- cnv1981
В mp3book2005 список выводится не по частоте, а по алфавиту В ранних версиях MP3book2005 была сортировка именно как Вам хочется. И если бы это удобней для составления словарей, то мне бы не пришлось эту функцию переделывать. То, что вы предлагаете, удобней для исправления конкретного текста.
Многие меня упрекают, в том, что в MP3book2005 есть возможность работы только со словарем для Николая. Для поклонников Алёны в 366-й версии будет следующее: После поиска новых слов (желательно при этом будет отключить анализ слов, имеющихся в в словаре Николая), каждое прослушиваемое слово будет копироваться в буфер обмена Windows. Если его звучание потребует коррекции, то это слово можно будет легко вставить в "родной" редактор Алёны и уже там его откорректировать. |
|
|
 | |
Sylvia Участник «online словари»
Сообщений : 72
Репутация : 83
 | |
 | |
king Новичок
Сообщений : 24
Репутация : 0
 | |
 | |
evilone_ Участник «online словари»
Сообщений : 860
Репутация : 317
 | 06.12.08 0:43 |  |
| - Цитата :
- Щёлкаем батфайл. и в 2.txt имеем
это интересно как?  |
|
|
 | |
king Новичок
Сообщений : 24
Репутация : 0
 | king | :: 06.12.08 7:51 |
06.12.08 7:51 |  |
| - evilone_ пишет:
- Цитата :
- Щёлкаем батфайл. и в 2.txt имеем
это интересно как?  Это два раза щёлкаем мышкой по файлу, имеещему расширение .bat. Батник могу попробовать написать я. Возникают следующие вопросы: не удастся определить часть речи и везде будет писаться unknown; надо определить все правила произношения для всех букв, пока только определил правила смягчения согласных перед смягчающими гласными и перед мягким знаком, если есть хорошие ссылки или есть готовые правила произношения-в студию; скорость обработки будет невелика, 5-10 слов в секунду. |
|
|
 | |
|
Обсуждение словарей |
---|