Подскажите, может есть идеи или решения как добавить эмоций голосу tts?
Вот к примеру текст
"- А ну, вперед, обезьяны! Или вечной жизни захотелось?!
Неизвестный взводный, 1918 год"
Озвучка -
Да, жаль, что Яндекс практически убрал эту возможность для своих голосов... У других голосов я такого не встречал.
Нейросети это хорошо, но предугадывать эмоции в тексте, мне кажется это фантастика...
Эмоции в голосах tts
Добавлено: 24 фев 2021 12:58
regacaty
Зачем вообще движку эмоции? Это ж не театральная постановка, это просто текст.
Меня наоборот раздражают все попытки имитации, зачем? Машина все-равно не поймет никогда, где и какие эмоции к месту, так как не может понять контекста написанного :) Ну разве, что общую тематику определит...
По этому и пользуюсь для озвучки текстов древним Николаем, так как он самый монотонный :) и самый обученный, что позволяет записывать 25-30 книг каждый месяц без особого напряга.
Еще плюс - когда слушаешь монотонный быстрый текст, твой мозг сам транслирует эмоции и акценты. Зачем мне эмоции чтеца, какая разница каким он видит главного героя? Мне свои надо :)
Зачем вообще движку эмоции? Это ж не театральная постановка, это просто текст.
Вот как раз для театральной постановки. Слушать тот же Звездный десант Хайнлайна монотонным Николаем - это такое г... Это было актуально 10 лет назад. Технологии не стоят на месте. Сейчас нейроголоса и эмоции голосов позволяют озвучивать книги в новом качестве, именно как радио спектакли.
на другом форуме я как-то высказался на подобную тему. Повторюсь здесь:
► Показать
Позвольте и мне попробовать добавить свое понимание и отношение к теме синтез vs диктор. (Извините за много букв)
Вот что главное: Текст книги не имеет эмоций. Вот вообще не имеет. Это только буквы через пробелы. Когда вы лично читаете текст, вы сами генерируете свои эмоции. Синтетический голос только читает текст и только! Никаких эмоций. Когда вы слушаете читающего диктора, ваш мозг только подстраивается под манеру чтения конкретного диктора и только! Если диктор начнет задорно описывать похороны, вас же начнёт каробить? Получается, эмоции вы испытываете все же от текста, а не от диктора. Эмоции, которые передаёт диктор это второстепенное. Главное это передача текста к вам в мозг через уши, а вам - понять его смысл, эмоцию, идею, суть. А вот невыносимым/режет слух, это будут неверные интонации в предложениях и неправильно произнесенные слова, ведь вам приятнее будет слушать синтезированный голос, чем живой дикторский эмоциональной голос, но с сильным американским акцентом.
Ещё один плюс синтетических голосов, о котором не стоит забывать, это привычка. Прослушав одну книгу, мозг подстраивается воспринимать этот конкретный голос (синтетический ли дикторский). Смена диктора приводит к неприятным ощущениям в начале новой книги (если именно для вас разнообразие и предпочтительно, то вам повезло) и лишь прослушав пол часа-час начинаем привыкать. И тут возникает другая проблема, наличие книги не означает ее аудиовоплощение. А если она и есть, то её может читать другой диктор, который, на фоне впечатления от первого диктора может напрочь убить впечатления от продолжения книги. Если вы привыкли к хорошему, то трудно слушать плохое/непривычное. Так и с дикторами. Синтетический голос против диктора это как цветной телевизор vs черно/белый. Как распечатка из текстового блокнота см текстом без отступов одним шрифтом vs печатная книга с цветными картинками. Но одно дело смотреть на цветном телевизоре в высоком разрешением фильм, а другое крутить чёрно-белые военные хроники. Текст книги это и есть чёрно-белая хроника. И когда вы хотите что бы диктор где то шептал, где то кричал, где то закадровый смех вставлял, то вам не книги, а комиксы нужны! Так же и с диктором. Если диктор "за вас" вставляет эмоции, "за вас" понимает когда надо вставить паузу и другие хитрости и вы на это подсели, то у вас своя история формирования мнения. Если кто то подсел на книги, читает их запоем за одну ночь - то, скорее всего, он предпочтет синтетический голос, потому что его можно ускорить, в нём нет отвлекающего смеха за кадром, вставки музыкальных пауз. Читатель полностью погружается в чтиво/прослушку и дикторы ему кажутся медленными и только отвлекающими/мешающими растворится в сюже повествования. Вот ещё одно сравнение: Школьный букварь. Там и ударения вставлены и по слогам через тире слова разбиты. Всё для человека сделано! А попробуйте в таком стиле текста прочитать целую книгу - тяжело.
Эмоции в голосах tts
Добавлено: 25 фев 2021 09:47
Lecron
Primkray, Для этого надо не столько эмоции, сколько.. Жду когда появятся сети, способные разделить текст для начала на мысли героя и авторский текст, дальше разделять героев по полам, еще дальше по самим героям и в конце концов, определять их возраст и характер (брюзга, нейтральный, воодушелвенный, истеричный и т.д.).
Когда появятся уверенные методы клонирования голосов, отчего резко вырастет их количество, можно будет каждый протегировать... и заживем.
Ещё один плюс синтетических голосов, о котором не стоит забывать, это привычка. Прослушав одну книгу, мозг подстраивается воспринимать этот конкретный голос (синтетический ли дикторский).
Не сразу это заметил для себя. Но когда заметил, стал предпочитать голос с меньшим количеством интонационных оплошностей и пофиг на артикуляционные (произношение звуков).
её может читать другой диктор, который, на фоне впечатления от первого диктора может напрочь убить впечатления от продолжения книги.
...
Читатель полностью погружается в чтиво/прослушку и дикторы ему кажутся медленными и только отвлекающими/мешающими растворится в сюже повествования.
Противоречите сами себе. "Погружение" конечно выручает, но эмоции позволят быстрее погрузится или реже всплывать. Не раз замечал, что более хорошая книга с плохим чтецом, может оказаться хуже плохой с хорошим. Синтетика это просто бубнящий диктор, который может напрочь убить впечатления.
Также стоит различать эмоции авторского текста или мыслей героев и эмоции диалогов. В первом случае действительно малозначимы, а вот второй...
Хм... вообще-то дело обстоит сложнее.
Лексика любого языка делится на 3 категории: нейтральная, положительная и отрицательная.
Поэтому, текст вполне может содержать эмоциональную окраску. А может и не содержать.
Сравните:
залить содержимое кипятком и подождать 5 минут
товарищи велика россия а отступать некуда позади москва
Человек прочтет эти две фразы совершенно по разному, несмотря на отсутствие в них какой-либо разметки. Даже если он будет читать не вслух, а мысленно, то в первом случае не испытает особых эмоций, а во втором вполне даже.
А вот синтетический голос не сделает разницы между обороной москвы и приготовлением доширака
И, самое сложное, даже если все слова в тексте имеют нейтральную окраску, их расположение, определяющее смысл текста, эту окраску сможет добавить.
Например, синтетический голос монотонно прбубнит фразу. А человек, скорее всего, сделает паузу (или невольно запнется) перед двумя заключительными словами:
объявление продаются детские ботиночки не ношеные
Поэтому даже очень совершенное синтетическое чтение (взять хотя бы Yandex Filipp) всё равно для человеческого уха зачастую звучит неестественно. Если, конечно, речь не идет о рецептах блюд быстрого приготовления
Слишком искусственные примеры. Знаки препинания решают.
Товарищи! Велика Россия, а отступать некуда — позади Москва!
объявление: продаются детские ботиночки, не ношеные.
залить содержимое кипятком и подождать 5 минут
товарищи велика россия а отступать некуда позади москва
объявление продаются детские ботиночки не ношеные
не согласен. Текст он и есть текст. Он голый и без эмоций. Эмоции в текст могут добавить разве что смайлики или картинки с изображением описываемой в тексте образом. Смысл и правильное произношение мозг читателя подстраивает сам т.к. читатель "понимает". Если доверить синтезатору озвучить данный текст, то синтезатор озвучит текст "как есть", а наш мозг сделает то же самое как и при прочтении того же текста - доведет его до мозга. Мозг поймет о чем речь и создаст эмоциональную реакцию. Я имею в виду, что озвученная книга синтезатором=чтение книги глазами. Благодаря синтезатору мы только меняем "канал" по которому поступает информация в мозг (глаза меняем на уши). Дикторы - это озвучка с вкладыванием смысла от самого диктора как он понял (отсюда и отсебятина и навязывание "своего видения" ). Синтезатор лишь переводит текстовую информацию в слуховую "как она есть в тексте". Никакой эмоциональной составляющей тут нет и не должно быть. Все эмоции сам мозг слушателя генерирует.
Вот ваши примеры "как есть" озвученные Максимом:
Сработавшие правила:
залить содержимое кипятком и подождать 5 минут.mp3
(25.76 КБ) 40 скачиваний
Максим читает текст без пауз между словами, а мозгу кажется, что нужные паузы или оттенки интонации он все же "как-то" "чуть чуть", да подставляет. Хотя на самом деле это наш мозг сам понимает что тут что то не так (не хватает знака) и начинает нам "подкидывать" ощущение, что какие то особые интонации, достаточные что бы понять как правильно должно звучать предложение, всё же присутствуют. Или это Максим лучше меня понимает как без запятых правильно должно звучать? или это совпадение? или я настолько привык к Максиму, что мой мозг сам дорисовывает то, чего на самом деле нет? Что еще раз говорит в пользу того, что как и при чтении, так и при прослушке - работает мозг.
А когда мы поднимаем вопрос о том, что хотелось бы добавить эмоций, приблизить к дикторскому повествованию, то надо понимать, что дикторы это упрощенная часть высокого искусства театра и кино. Кино и пьесы транслируются на основании тех же книг, но пОнятые человеком и как человеком пОняты - так (с отсебятиной) и транслируется нам. Дай синтезатору самому вставлять эмоции и мы получим не чтение книги, а ее "интерпретацию".
А вот синтетический голос не сделает разницы между обороной москвы и приготовлением доширака
И, самое сложное, даже если все слова в тексте имеют нейтральную окраску, их расположение, определяющее смысл текста, эту окраску сможет добавить.
короче, синтезатор ничего не должен понимать - это не его задача, а задача слушателя.
офтоп: А вот когда ИИ научат "понимать" что он читает, с этого момента ИИ начнет ДИКТОВАТЬ нам то, что и как мы должны понимать (апокалипсис). А кто диктует для ИИ - тот будет править миром
Эмоции в голосах tts
Добавлено: 25 фев 2021 14:00
Primkray
Если так рассуждать, то смысла в цветном кино тоже нет, смотрим ч/б фильм, а мозг сам все раскрасит...
По мне аудиоспектакль воспринимается на порядок лучше, чем однотонная и безэмоциональная речь синтезатора.
Эмоции в голосах tts
Добавлено: 25 фев 2021 14:23
flegont
Когда-то в детстве я хорошо знал азбуку Морзе
И передавать мог достаточно быстро, и чужую передачу свободно на слух воспринимал (и куда всё это подевалось?)
Так вот. Когда приобретаешь достаточный опыт, то чужая передача воспринимается не как пи-пиии-пи... а как человеческий голос! Мозг автоматически переводит пиканье в устную речь С эмоциями, кстати (которые зависят от настроения принимающего ).
Но это же не значит, что и книги надо писать, используя всего •−− ••• • −−• −−− −•• •−− •− ••• •• −− •−− −−− •−•• •− •−•−•− − −−− −−−• −•− ••− •• − •• •−• • •−•−•− −• •− −•• • •−•− ••• −••− •−•−•− −−−• − −−− −− −−− −−•• −−• −−−• •• − •− − • •−•• •−•− •−−• •−• −−− −•• • •−•• •− • − ••• •− −− всю остальную работу.
Поэтому хочется и от синтезатора бОльшей эмоциональности речи, чтобы не загружать свои мозги дополнительной работой
озвученная книга синтезатором=чтение книги глазами
Все верно. В этом контексте придраться нечему. Но чтобы понять, что объективной, единой для всех оценки "что лучше?" в принципе не существует, надо продолжить дальше: чтение книги ?= прослушивание аудиокниги
озвученная книга "эмоциональным" синтезатором=прослушивание аудиокниги с чтецом.
озвученная синтезатором ?= озвученная "эмоциональным" синтезатором Где все упирается в первый пункт. Насколько слушать нравится больше чем читать? Ровно настолько же эмоциональный синтез лучше равномерного. Кому-то все равно, кому-то больше, а кто-то на слух вообще не воспринимает. Это не лучше и не хуже. Это разное. На каждый плюс найдется минус и наоборот.
Лично для меня, зависит от качества имитации эмоций и количества ошибок. На определенной границе, перейду обязательно. А пока даже Филипп не интересен, Ольги хватает.
Поэтому хочется и от синтезатора бОльшей эмоциональности речи, чтобы не загружать свои мозги дополнительной работой
Ваши слова, в том числе предыдущие примеры, натолкнули кмк на интресную формулировку.
Эмоциональный синтез настолько же лучше равномерного, насколько размеченный знаками препинания текст лучше простой последовательности слов.
Мозг-то их все равно проставит, но зачем его так глупо нагружать?
Только этот спор все равно не имеет смысла. Настолько далеко мы от этого счастливого момента находимся. Пусть хотя бы научаться ударения ставить и числа склонять, что бы мы забыли словари как страшный сон. Это куда проще эмоций, но пока прогресс заметен слабо.
Жду когда появятся сети, способные разделить текст для начала на мысли героя и авторский текст, дальше разделять героев по полам, еще дальше по самим героям и в конце концов, определять их возраст и характер (брюзга, нейтральный, воодушелвенный, истеричный и т.д.).
на форуме пробегала программа play5 в ней можно использовать 5 голосов Яндекса. Есть активные пользователи фанаты именно этой программы т.к. она автоматически меняет голоса в зависимости от контекста. Можно в ней поковыряться и может алгоритм за основу взять и дальше развивать? Как минимум диалоги озвучить одной интонацией, а авторский текст другой. Или мужской на женский чередовать. Но если применять такие алгоритмы, то результат можно выводить только в аудиофайлы. Чтение "на лету" разными локальными голосовыми голосами вряд ли можно реализовать без ощутимых пауз при смене голоса.
на форуме пробегала программа play5 в ней можно использовать 5 голосов Яндекса.
01.mp3
(1.42 МБ) 31 скачивание
Кирилл Шарапов.
Мёртвый мир.
Поселенец.
Эмоции в голосах tts
Добавлено: 26 фев 2021 20:58
Lecron
wasyaka, Звучит красиво, но не показательно. При стольких участниках, сам начинаешь путаться. И слишком короткий фрагмент.
Хотелось бы знать:
* как будет распознана беседа троих людей? Желательно однополых. Длительная беседа. Из 2-3 десятков фраз. Не равномерно, а случайно чередующаяся, например 1-2-1-2-3-2-3-1
* как распознано, когда в нее встрянет ненадолго 4-ый или наоборот, навсегда исчезнет один из тройки? Например после первого примера -2-3-2-3-2-3.
* насколько каждый голос окажется привязан к персонажу на протяжении всей книги? Вдруг в следующем диалоге, голоса поменяются?
Своим мозгом, и то не всегда могу опознать без отдаленного контекста, который программа точно не учитывает. - <male?>Ты что не спишь?</male> - <?>стоило мне вновь встать и двинуться на поиски туалета, как меня окликнул кто-то из спутников</?>.
- <fem>Дайте мне шанс,</fem> - <male>выкрикнул знакомый женский голос, и, обернувшись, я увидел вчерашнюю девушку</male>
Кстати, образец диалога 1-2-3-2-1. Пол персонажа "1" понятен только через 3 фразы на 4-ю. - Держи. Владей и пользуйся.
- Но это же рабство!
- О боги... тебе что, плохо от этого? Разве не о том все мечтают?
- Нет. Только раб мечтает о собственных рабах. Нормальный человек мечтает о том, чтобы его любимое дело приносило достаточный доход, чтобы ни о чем не заботиться.
- Они элементали! - словно дебилу, сказала фея. - Либлины!
Сможете описать алгоритм на словах, попробую реализовать в коде. Теоретически все инструменты для этого есть. Нет логики процесса.
Сможете описать алгоритм на словах, попробую реализовать в коде. Теоретически все инструменты для этого есть. Нет логики процесса.
wasyaka только пользователь сможет рассказать лишь об опыте использования программы Play_5 это программа по сути скрипт так что код читаемый. Я пытался разобраться в нём но немного с другой целью. Это было давно а сейчас не интересно. Скиньте в личку wasyakа текст, он запишет, вы послушаете. Ссылку на программу скинул. Тестировать лучше сейчас вдруг завтра Яндекс не будет работать и экспериментировать будет некому)))
Скиньте в личку wasyakа текст, он запишет, вы послушаете. Ссылку на программу скинул. Тестировать лучше сейчас вдруг завтра Яндекс не будет работать и экспериментировать будет некому
Прошу прощения если цель моего комментария была неверно понята.
Демонстрация красивая, не спорю. Но все что я хотел сказать, что невозможно устойчиво корректно разметить текст. Тем более таким наивным способом, как в Плей5. Поэтому и тестировать смысла нет.
Даже не надо опускаться на гендерный уровень, достаточно понять, что просто на персоны невозможно.
- <Person1>Дайте мне шанс, - <Person2>выкрикнул знакомый женский голос, и, обернувшись, я увидел вчерашнюю девушку.
- <Person1>Отстаньте от меня! - сказал я и пошел досыпать.
- <Person1>Что за жажда такая к математике? - фыркнула Веста, но затем на секунду задумалась
- <Person1>Они элементали! - словно дебилу, сказала фея. - Либлины!
- <Person1>О боги, дашь ты мне уже поспать? - <Person2>взмолилась фея, когда я позвал ее несколько раз. - <Person1>Что тебе опять?
Визуально разбил на группы, по похожести форматирования текста. В одном случае это две персоны, в другом одна. И таких примеров немеряно. Достаточно открыть первую попавшуюся книгу в случайном месте.
И напоследок вообще шедевр. Как бы сложен он не был, ошибка разбиения существенно ухудшит восприятие.
- <Person1>Что. <Person2>Новый хозяин. <Person3>Надо? - <Person4>спросили все трое, рассматривая меня с таким же интересом, как и я их.
Эмоции в голосах tts
Добавлено: 27 фев 2021 02:38
Primkray
Да, озвучить книгу по голосам, предварительно обработав текст, уже можно и это супер! Правда время на это уходит много, но несравнимо меньше чем озвучивать целой командой в студии и цена вопроса несравнимо меньше.
Но вот с эмоциями пока беда..
Подойдя к стоящему напротив меня Дженкинсу, он протянул руку к его поясу и нажал кнопку индикатора физсостояния.
– Выйти из строя!
– Сержант, всего-то навсего насморк! Фельдшер говорил…
– «Говорил»… Фельдшеру в десант не идти! И тебе с твоими 37,5° – тоже. Нашел время болтать. ВЫЙТИ ИЗ СТРОЯ!
Пока ни один голос tts не может эмоционально озвучить подобный текст... И здесь дело не в громкости голоса, а именно в эмоциональной составляющей.
При стольких участниках, сам начинаешь путаться.И слишком короткий фрагмент.
272 ГБ устроит? Play_5А. AudioBook
Ошибок распознавания - куча, но править вручную...
и три мужика разговаривают двумя голосами, бывает кто-то и женским... и наоборот...
Для меня всё равно - это, лучше одноголосого...
на сколько я понял, это косяки не самой Play5A, а самих голосов Яндекса которые самопроизвольно меняют пол в процессе синтеза?
Нет это именно в Play5A - - Держи. Владей и пользуйся.
- Но это же рабство!
- О боги... тебе что, плохо от этого? Разве не о том все мечтают?
- Нет. Только раб мечтает о собственных рабах. Нормальный человек мечтает о том, чтобы его любимое дело приносило достаточный доход, чтобы ни о чем не заботиться.
Такие диалоги надо расставлять вручную - возможность предусмотрена - но очень неудобная...