Эмоции в голосах tts
- Primkray
- Обыватель
Эмоции в голосах tts
Подскажите, может есть идеи или решения как добавить эмоций голосу tts?
Вот к примеру текст
"- А ну, вперед, обезьяны! Или вечной жизни захотелось?!
Неизвестный взводный, 1918 год"
Озвучка - Звучит конечно не плохо, но как же не хватает эмоций!
Вот к примеру текст
"- А ну, вперед, обезьяны! Или вечной жизни захотелось?!
Неизвестный взводный, 1918 год"
Озвучка - Звучит конечно не плохо, но как же не хватает эмоций!
- balabolka
- V.I.P.
Эмоции в голосах tts
Текущие версии сервисов не позволяют это настраивать. Премиум-голоса "Яндекса" сами подбирают нужные интонации, без вмешательства пользователя.
Нейронные сети всё совершеннее день ото дня:
Нейросеть Tacotron 2 говорит с человеческими интонациями (примеры для английской речи).
Tacotron 2 для русской речи (примеры)
- Primkray
- Обыватель
Эмоции в голосах tts
Да, жаль, что Яндекс практически убрал эту возможность для своих голосов... У других голосов я такого не встречал.
Нейросети это хорошо, но предугадывать эмоции в тексте, мне кажется это фантастика...
Нейросети это хорошо, но предугадывать эмоции в тексте, мне кажется это фантастика...
- regacaty
- Постоялец
Эмоции в голосах tts
Зачем вообще движку эмоции? Это ж не театральная постановка, это просто текст.
Меня наоборот раздражают все попытки имитации, зачем? Машина все-равно не поймет никогда, где и какие эмоции к месту, так как не может понять контекста написанного :) Ну разве, что общую тематику определит...
По этому и пользуюсь для озвучки текстов древним Николаем, так как он самый монотонный :) и самый обученный, что позволяет записывать 25-30 книг каждый месяц без особого напряга.
Еще плюс - когда слушаешь монотонный быстрый текст, твой мозг сам транслирует эмоции и акценты. Зачем мне эмоции чтеца, какая разница каким он видит главного героя? Мне свои надо :)
Меня наоборот раздражают все попытки имитации, зачем? Машина все-равно не поймет никогда, где и какие эмоции к месту, так как не может понять контекста написанного :) Ну разве, что общую тематику определит...
По этому и пользуюсь для озвучки текстов древним Николаем, так как он самый монотонный :) и самый обученный, что позволяет записывать 25-30 книг каждый месяц без особого напряга.
Еще плюс - когда слушаешь монотонный быстрый текст, твой мозг сам транслирует эмоции и акценты. Зачем мне эмоции чтеца, какая разница каким он видит главного героя? Мне свои надо :)
- Primkray
- Обыватель
Эмоции в голосах tts
Вот как раз для театральной постановки. Слушать тот же Звездный десант Хайнлайна монотонным Николаем - это такое г... Это было актуально 10 лет назад. Технологии не стоят на месте. Сейчас нейроголоса и эмоции голосов позволяют озвучивать книги в новом качестве, именно как радио спектакли.
- tonio_k
- V.I.P.
Эмоции в голосах tts
на другом форуме я как-то высказался на подобную тему. Повторюсь здесь:
► Показать
- Lecron
- Специалист
Эмоции в голосах tts
Primkray, Для этого надо не столько эмоции, сколько.. Жду когда появятся сети, способные разделить текст для начала на мысли героя и авторский текст, дальше разделять героев по полам, еще дальше по самим героям и в конце концов, определять их возраст и характер (брюзга, нейтральный, воодушелвенный, истеричный и т.д.).
Когда появятся уверенные методы клонирования голосов, отчего резко вырастет их количество, можно будет каждый протегировать... и заживем.
Также стоит различать эмоции авторского текста или мыслей героев и эмоции диалогов. В первом случае действительно малозначимы, а вот второй...
Когда появятся уверенные методы клонирования голосов, отчего резко вырастет их количество, можно будет каждый протегировать... и заживем.
Не сразу это заметил для себя. Но когда заметил, стал предпочитать голос с меньшим количеством интонационных оплошностей и пофиг на артикуляционные (произношение звуков).
Противоречите сами себе. "Погружение" конечно выручает, но эмоции позволят быстрее погрузится или реже всплывать. Не раз замечал, что более хорошая книга с плохим чтецом, может оказаться хуже плохой с хорошим. Синтетика это просто бубнящий диктор, который может напрочь убить впечатления.tonio_k писал(а): ↑25 фев 2021 08:33её может читать другой диктор, который, на фоне впечатления от первого диктора может напрочь убить впечатления от продолжения книги.
...
Читатель полностью погружается в чтиво/прослушку и дикторы ему кажутся медленными и только отвлекающими/мешающими растворится в сюже повествования.
Также стоит различать эмоции авторского текста или мыслей героев и эмоции диалогов. В первом случае действительно малозначимы, а вот второй...
- flegont
- V.I.P.
Эмоции в голосах tts
Хм... вообще-то дело обстоит сложнее.
Лексика любого языка делится на 3 категории: нейтральная, положительная и отрицательная.
Поэтому, текст вполне может содержать эмоциональную окраску. А может и не содержать.
Сравните:
залить содержимое кипятком и подождать 5 минут
товарищи велика россия а отступать некуда позади москва
Человек прочтет эти две фразы совершенно по разному, несмотря на отсутствие в них какой-либо разметки. Даже если он будет читать не вслух, а мысленно, то в первом случае не испытает особых эмоций, а во втором вполне даже.
А вот синтетический голос не сделает разницы между обороной москвы и приготовлением доширака
И, самое сложное, даже если все слова в тексте имеют нейтральную окраску, их расположение, определяющее смысл текста, эту окраску сможет добавить.
Например, синтетический голос монотонно прбубнит фразу. А человек, скорее всего, сделает паузу (или невольно запнется) перед двумя заключительными словами:
объявление продаются детские ботиночки не ношеные
Поэтому даже очень совершенное синтетическое чтение (взять хотя бы Yandex Filipp) всё равно для человеческого уха зачастую звучит неестественно. Если, конечно, речь не идет о рецептах блюд быстрого приготовления
- Lecron
- Специалист
Эмоции в голосах tts
Слишком искусственные примеры. Знаки препинания решают.
Товарищи! Велика Россия, а отступать некуда — позади Москва!
объявление: продаются детские ботиночки, не ношеные.
- tonio_k
- V.I.P.
Эмоции в голосах tts
не согласен. Текст он и есть текст. Он голый и без эмоций. Эмоции в текст могут добавить разве что смайлики или картинки с изображением описываемой в тексте образом. Смысл и правильное произношение мозг читателя подстраивает сам т.к. читатель "понимает". Если доверить синтезатору озвучить данный текст, то синтезатор озвучит текст "как есть", а наш мозг сделает то же самое как и при прочтении того же текста - доведет его до мозга. Мозг поймет о чем речь и создаст эмоциональную реакцию. Я имею в виду, что озвученная книга синтезатором=чтение книги глазами. Благодаря синтезатору мы только меняем "канал" по которому поступает информация в мозг (глаза меняем на уши). Дикторы - это озвучка с вкладыванием смысла от самого диктора как он понял (отсюда и отсебятина и навязывание "своего видения" ). Синтезатор лишь переводит текстовую информацию в слуховую "как она есть в тексте". Никакой эмоциональной составляющей тут нет и не должно быть. Все эмоции сам мозг слушателя генерирует.
Вот ваши примеры "как есть" озвученные Максимом:
Сработавшие правила:
Код: Выделить всё
$а=<phoneme ph="ˈa"/>
$велика=<phoneme ph="vʲɪlʲɪkˈa"/>
не ношеные=неношеные
А когда мы поднимаем вопрос о том, что хотелось бы добавить эмоций, приблизить к дикторскому повествованию, то надо понимать, что дикторы это упрощенная часть высокого искусства театра и кино. Кино и пьесы транслируются на основании тех же книг, но пОнятые человеком и как человеком пОняты - так (с отсебятиной) и транслируется нам. Дай синтезатору самому вставлять эмоции и мы получим не чтение книги, а ее "интерпретацию".
короче, синтезатор ничего не должен понимать - это не его задача, а задача слушателя.
офтоп: А вот когда ИИ научат "понимать" что он читает, с этого момента ИИ начнет ДИКТОВАТЬ нам то, что и как мы должны понимать (апокалипсис). А кто диктует для ИИ - тот будет править миром
- Primkray
- Обыватель
Эмоции в голосах tts
Если так рассуждать, то смысла в цветном кино тоже нет, смотрим ч/б фильм, а мозг сам все раскрасит...
По мне аудиоспектакль воспринимается на порядок лучше, чем однотонная и безэмоциональная речь синтезатора.
По мне аудиоспектакль воспринимается на порядок лучше, чем однотонная и безэмоциональная речь синтезатора.
- flegont
- V.I.P.
Эмоции в голосах tts
Когда-то в детстве я хорошо знал азбуку Морзе
И передавать мог достаточно быстро, и чужую передачу свободно на слух воспринимал (и куда всё это подевалось?)
Так вот. Когда приобретаешь достаточный опыт, то чужая передача воспринимается не как пи-пиии-пи... а как человеческий голос! Мозг автоматически переводит пиканье в устную речь С эмоциями, кстати (которые зависят от настроения принимающего ).
Но это же не значит, что и книги надо писать, используя всего •−− ••• • −−• −−− −•• •−− •− ••• •• −− •−− −−− •−•• •− •−•−•− − −−− −−−• −•− ••− •• − •• •−• • •−•−•− −• •− −•• • •−•− ••• −••− •−•−•− −−−• − −−− −− −−− −−•• −−• −−−• •• − •− − • •−•• •−•− •−−• •−• −−− −•• • •−•• •− • − ••• •− −− всю остальную работу.
Поэтому хочется и от синтезатора бОльшей эмоциональности речи, чтобы не загружать свои мозги дополнительной работой
И передавать мог достаточно быстро, и чужую передачу свободно на слух воспринимал (и куда всё это подевалось?)
Так вот. Когда приобретаешь достаточный опыт, то чужая передача воспринимается не как пи-пиии-пи... а как человеческий голос! Мозг автоматически переводит пиканье в устную речь С эмоциями, кстати (которые зависят от настроения принимающего ).
Но это же не значит, что и книги надо писать, используя всего •−− ••• • −−• −−− −•• •−− •− ••• •• −− •−− −−− •−•• •− •−•−•− − −−− −−−• −•− ••− •• − •• •−• • •−•−•− −• •− −•• • •−•− ••• −••− •−•−•− −−−• − −−− −− −−− −−•• −−• −−−• •• − •− − • •−•• •−•− •−−• •−• −−− −•• • •−•• •− • − ••• •− −− всю остальную работу.
Поэтому хочется и от синтезатора бОльшей эмоциональности речи, чтобы не загружать свои мозги дополнительной работой
- Lecron
- Специалист
Эмоции в голосах tts
Все верно. В этом контексте придраться нечему. Но чтобы понять, что объективной, единой для всех оценки "что лучше?" в принципе не существует, надо продолжить дальше:
чтение книги ?= прослушивание аудиокниги
озвученная книга "эмоциональным" синтезатором=прослушивание аудиокниги с чтецом.
озвученная синтезатором ?= озвученная "эмоциональным" синтезатором
Где все упирается в первый пункт. Насколько слушать нравится больше чем читать? Ровно настолько же эмоциональный синтез лучше равномерного. Кому-то все равно, кому-то больше, а кто-то на слух вообще не воспринимает. Это не лучше и не хуже. Это разное. На каждый плюс найдется минус и наоборот.
Лично для меня, зависит от качества имитации эмоций и количества ошибок. На определенной границе, перейду обязательно. А пока даже Филипп не интересен, Ольги хватает.
- Lecron
- Специалист
Эмоции в голосах tts
Ваши слова, в том числе предыдущие примеры, натолкнули кмк на интресную формулировку.
Эмоциональный синтез настолько же лучше равномерного, насколько размеченный знаками препинания текст лучше простой последовательности слов.
Мозг-то их все равно проставит, но зачем его так глупо нагружать?
Только этот спор все равно не имеет смысла. Настолько далеко мы от этого счастливого момента находимся. Пусть хотя бы научаться ударения ставить и числа склонять, что бы мы забыли словари как страшный сон. Это куда проще эмоций, но пока прогресс заметен слабо.
- flegont
- V.I.P.
- tonio_k
- V.I.P.
Эмоции в голосах tts
на форуме пробегала программа play5 в ней можно использовать 5 голосов Яндекса. Есть активные пользователи фанаты именно этой программы т.к. она автоматически меняет голоса в зависимости от контекста. Можно в ней поковыряться и может алгоритм за основу взять и дальше развивать? Как минимум диалоги озвучить одной интонацией, а авторский текст другой. Или мужской на женский чередовать. Но если применять такие алгоритмы, то результат можно выводить только в аудиофайлы. Чтение "на лету" разными локальными голосовыми голосами вряд ли можно реализовать без ощутимых пауз при смене голоса.Lecron писал(а): ↑25 фев 2021 09:47Жду когда появятся сети, способные разделить текст для начала на мысли героя и авторский текст, дальше разделять героев по полам, еще дальше по самим героям и в конце концов, определять их возраст и характер (брюзга, нейтральный, воодушелвенный, истеричный и т.д.).
- wasyaka
- V.I.P.
- Lecron
- Специалист
Эмоции в голосах tts
wasyaka, Звучит красиво, но не показательно. При стольких участниках, сам начинаешь путаться. И слишком короткий фрагмент.
Хотелось бы знать:
* как будет распознана беседа троих людей? Желательно однополых. Длительная беседа. Из 2-3 десятков фраз. Не равномерно, а случайно чередующаяся, например 1-2-1-2-3-2-3-1
* как распознано, когда в нее встрянет ненадолго 4-ый или наоборот, навсегда исчезнет один из тройки? Например после первого примера -2-3-2-3-2-3.
* насколько каждый голос окажется привязан к персонажу на протяжении всей книги? Вдруг в следующем диалоге, голоса поменяются?
Своим мозгом, и то не всегда могу опознать без отдаленного контекста, который программа точно не учитывает.
- <male?>Ты что не спишь?</male> - <?>стоило мне вновь встать и двинуться на поиски туалета, как меня окликнул кто-то из спутников</?>.
- <fem>Дайте мне шанс,</fem> - <male>выкрикнул знакомый женский голос, и, обернувшись, я увидел вчерашнюю девушку</male>
Кстати, образец диалога 1-2-3-2-1. Пол персонажа "1" понятен только через 3 фразы на 4-ю.
- Держи. Владей и пользуйся.
- Но это же рабство!
- О боги... тебе что, плохо от этого? Разве не о том все мечтают?
- Нет. Только раб мечтает о собственных рабах. Нормальный человек мечтает о том, чтобы его любимое дело приносило достаточный доход, чтобы ни о чем не заботиться.
- Они элементали! - словно дебилу, сказала фея. - Либлины!
Сможете описать алгоритм на словах, попробую реализовать в коде. Теоретически все инструменты для этого есть. Нет логики процесса.
Хотелось бы знать:
* как будет распознана беседа троих людей? Желательно однополых. Длительная беседа. Из 2-3 десятков фраз. Не равномерно, а случайно чередующаяся, например 1-2-1-2-3-2-3-1
* как распознано, когда в нее встрянет ненадолго 4-ый или наоборот, навсегда исчезнет один из тройки? Например после первого примера -2-3-2-3-2-3.
* насколько каждый голос окажется привязан к персонажу на протяжении всей книги? Вдруг в следующем диалоге, голоса поменяются?
Своим мозгом, и то не всегда могу опознать без отдаленного контекста, который программа точно не учитывает.
- <male?>Ты что не спишь?</male> - <?>стоило мне вновь встать и двинуться на поиски туалета, как меня окликнул кто-то из спутников</?>.
- <fem>Дайте мне шанс,</fem> - <male>выкрикнул знакомый женский голос, и, обернувшись, я увидел вчерашнюю девушку</male>
Кстати, образец диалога 1-2-3-2-1. Пол персонажа "1" понятен только через 3 фразы на 4-ю.
- Держи. Владей и пользуйся.
- Но это же рабство!
- О боги... тебе что, плохо от этого? Разве не о том все мечтают?
- Нет. Только раб мечтает о собственных рабах. Нормальный человек мечтает о том, чтобы его любимое дело приносило достаточный доход, чтобы ни о чем не заботиться.
- Они элементали! - словно дебилу, сказала фея. - Либлины!
Сможете описать алгоритм на словах, попробую реализовать в коде. Теоретически все инструменты для этого есть. Нет логики процесса.
Не проблема. Кэширование. Реализуется самой простой очередью. Балаболка вроде даже уже умеет.
- tonio_k
- V.I.P.
Эмоции в голосах tts
wasyaka только пользователь сможет рассказать лишь об опыте использования программы Play_5 это программа по сути скрипт так что код читаемый. Я пытался разобраться в нём но немного с другой целью. Это было давно а сейчас не интересно. Скиньте в личку wasyakа текст, он запишет, вы послушаете. Ссылку на программу скинул. Тестировать лучше сейчас вдруг завтра Яндекс не будет работать и экспериментировать будет некому)))
- Lecron
- Специалист
Эмоции в голосах tts
Прошу прощения если цель моего комментария была неверно понята.
Демонстрация красивая, не спорю. Но все что я хотел сказать, что невозможно устойчиво корректно разметить текст. Тем более таким наивным способом, как в Плей5. Поэтому и тестировать смысла нет.
Даже не надо опускаться на гендерный уровень, достаточно понять, что просто на персоны невозможно.
- <Person1>Дайте мне шанс, - <Person2>выкрикнул знакомый женский голос, и, обернувшись, я увидел вчерашнюю девушку.
- <Person1>Отстаньте от меня! - сказал я и пошел досыпать.
- <Person1>Что за жажда такая к математике? - фыркнула Веста, но затем на секунду задумалась
- <Person1>Они элементали! - словно дебилу, сказала фея. - Либлины!
- <Person1>О боги, дашь ты мне уже поспать? - <Person2>взмолилась фея, когда я позвал ее несколько раз. - <Person1>Что тебе опять?
Визуально разбил на группы, по похожести форматирования текста. В одном случае это две персоны, в другом одна. И таких примеров немеряно. Достаточно открыть первую попавшуюся книгу в случайном месте.
И напоследок вообще шедевр. Как бы сложен он не был, ошибка разбиения существенно ухудшит восприятие.
- <Person1>Что. <Person2>Новый хозяин. <Person3>Надо? - <Person4>спросили все трое, рассматривая меня с таким же интересом, как и я их.
- Primkray
- Обыватель
Эмоции в голосах tts
Да, озвучить книгу по голосам, предварительно обработав текст, уже можно и это супер! Правда время на это уходит много, но несравнимо меньше чем озвучивать целой командой в студии и цена вопроса несравнимо меньше.
Но вот с эмоциями пока беда..
Но вот с эмоциями пока беда..
Пока ни один голос tts не может эмоционально озвучить подобный текст... И здесь дело не в громкости голоса, а именно в эмоциональной составляющей.Подойдя к стоящему напротив меня Дженкинсу, он протянул руку к его поясу и нажал кнопку индикатора физсостояния.
– Выйти из строя!
– Сержант, всего-то навсего насморк! Фельдшер говорил…
– «Говорил»… Фельдшеру в десант не идти! И тебе с твоими 37,5° – тоже. Нашел время болтать. ВЫЙТИ ИЗ СТРОЯ!
- wasyaka
- V.I.P.
Эмоции в голосах tts
272 ГБ устроит?
Play_5А. AudioBook
Ошибок распознавания - куча, но править вручную...
и три мужика разговаривают двумя голосами, бывает кто-то и женским... и наоборот...
Для меня всё равно - это, лучше одноголосого...
- tonio_k
- V.I.P.
Эмоции в голосах tts
на сколько я понял, это косяки не самой Play5A, а самих голосов Яндекса которые самопроизвольно меняют пол в процессе синтеза?
- wasyaka
- V.I.P.
Эмоции в голосах tts
Нет это именно в Play5A -
- Держи. Владей и пользуйся.
- Но это же рабство!
- О боги... тебе что, плохо от этого? Разве не о том все мечтают?
- Нет. Только раб мечтает о собственных рабах. Нормальный человек мечтает о том, чтобы его любимое дело приносило достаточный доход, чтобы ни о чем не заботиться.
Такие диалоги надо расставлять вручную - возможность предусмотрена - но очень неудобная...