ElevenLabs как раз выпустили v3 модель для генерации эмоционального голоса, чтобы эмоции работали нужно вручную добавлять тэги типа [смех], [беспокойство], [прочистил горло]. Также, они зашэрили промпт для того, чтобы вы смогли органично добавлять эти тэги в любой текст с помощью LLM.
Какой алгоритм: 0. Получить API ключи для ElevenLabs и OpenAI
- Собрать голосовые сообщения человека где хорошо слышен его голос
- Зайти в ElevenLabs и выбрать Voice Cloning, загрузить туда эти голосовые, получите Voice ID
- Попросить CLAUDE написать aiogram бота который будет по команде /fm читать сообщение, добавлять эмоциональные тэги и генерировать аудишку с выбранным Voice ID
- Deployнуть всё это дело на сервер
Весь процесс занял 1.5-2 часа, тюнинг клонированного голоса самая времязатратная вещь, вккпе с v3 он работал не очень похоже на целевого человечка.
Если кому-то интересно посмотреть на код/промпт или запустить такого бота для своего чатика — дайте FIRE 🔥 и поделюсь репой после соточки я уже поделился кодом в комментах к этому посту.