Генеративный AI

Music и Audio Generation

Декабрь 2023, Suno AI запускает Bark - и Twitter взрывается клипами, где Snoop Dogg читает Шекспира, а Стивен Хокинг поёт колыбельную. 30 секунд аудио из текстового промпта, никакого MIDI, никакой ручной правки. В сентябре 2024 OpenAI добавляет Voice Mode в ChatGPT - модель не просто читает текст, а слышит интонацию голоса пользователя и отвечает с эмоцией. ElevenLabs привлекает $80M на оценке $1.1B в 2024, став 'OpenAI для голоса'. Под капотом всех этих сервисов - один и тот же стек: нейроcодек сжимает звук в дискретные токены, и языковая модель над этими токенами генерирует аудио так же, как GPT генерирует текст. Эта революция произошла за 18 месяцев - от первых демо EnCodec в октябре 2022 до коммерческого Voice Mode в сентябре 2024.

**Suno AI** (2023+) - $125M раунд при оценке $500M в 2024, ~10M пользователей; генерирует трек с вокалом и текстом по одному промпту, под капотом - вариант MusicGen плюс neural vocoder.
**ElevenLabs** - voice cloning из 1-минутного образца; используется в дублировании фильмов на Netflix (озвучка на 30+ языков голосом оригинального актёра), audiobooks Spotify, news-podcasts Reuters.
**OpenAI Voice Mode / Realtime API** - GPT-4o слушает аудио и отвечает аудио в потоке за <800 мс end-to-end; ключевое отличие от Siri/Alexa: модель сама генерирует речь, не вызывая отдельный TTS.

От Jukebox до Suno

В 2020 году OpenAI выпустила Jukebox - модель, генерирующую музыку с вокалом прямо в виде сырого звука через иерархию VQ-VAE и трансформеров; результат впечатлял, но синтез был очень медленным. В 2022 году Google представила AudioLM, показав, что языковое моделирование над дискретными аудиотокенами даёт связный и естественный звук. В 2023 году появилась MusicLM от Google, генерирующая музыку по текстовому описанию. В том же 2023 году и в 2024-м стартапы Suno и Udio сделали генерацию полноценных песен с вокалом и текстом массовым продуктом, доступным любому пользователю по короткому промпту.

Предварительные знания

Трансформеры и токенизация последовательностей
Латентная диффузия как метод генерации
VAE и дискретные латенты (VQ-VAE)

MusicGen: трансформер над дискретными аудиотокенами

Июнь 2023, Meta AI выпускает MusicGen - модель, генерирующую 30 секунд осмысленной музыки по текстовому промпту. Архитектура повторяет идею GPT, но вместо текстовых токенов работает с аудиотокенами из EnCodec - нейроcодека, сжимающего звук с 32 кГц до примерно 50 токенов/сек на 4 параллельных квантовых уровня. Получается ~6000 токенов на 30-секундный трек - такая же длина последовательности, как у параграфа текста. Трансформер декодирует токены авторегрессионно, обусловливаясь текстовым эмбеддингом из T5. EnCodec затем восстанавливает waveform из токенов. Главное отличие от MIDI-генераторов прошлого: модель видит и генерирует реальные аудиосэмплы, а не ноты - значит, тембр, реверберация, вокал и текстура работают наравне с гармонией.

Delay pattern: 4 параллельных кодбука EnCodec нельзя предсказывать одновременно (модель схитрит и проигнорирует условие). MusicGen применяет 'delay interleaving' - каждый кодбук сдвинут на свой шаг, и трансформер видит k-й кодбук после k-1-го. Это критическая инженерная деталь, без которой качество резко падает.

Почему MusicGen не предсказывает все 4 кодбука EnCodec одновременно?

AudioLDM: латентная диффузия для звука

MusicGen генерирует токены авторегрессионно - один за другим, что медленно для длинных треков. AudioLDM (Liu et al., 2023) идёт другим путём: применяет Latent Diffusion (как Stable Diffusion в картинках), но в латентном пространстве мел-спектрограмм. Сначала VAE сжимает мел-спектрограмму в латент 8x8x16; затем диффузионный U-Net обучается убирать шум с этого латента, обусловливаясь текстовым эмбеддингом из CLAP (Contrastive Language-Audio Pretraining). После денойзинга VAE-декодер восстанавливает мел-спектрограмму, и вокодер HiFi-GAN превращает её в waveform. Преимущество: 10 секунд звука генерируются за 20 шагов диффузии вместо тысяч токенов - в 5-10 раз быстрее MusicGen на той же длине, при сравнимом качестве для не-музыкальных звуков (шум дождя, лай собаки, симфонический оркестр).

CLAP-conditioning: вместо предсказания аудио по тексту напрямую, AudioLDM обучает модель в общем пространстве CLAP (text-audio выровненные эмбеддинги). На инференсе подаётся текстовый CLAP-эмбеддинг, и модель генерирует латент звука, который CLAP считает 'похожим на этот текст'. Это аналог использования CLIP в Stable Diffusion.

В чём ключевое преимущество AudioLDM (диффузия в латенте) над MusicGen (авторегрессия по токенам)?

Neural TTS: от Tacotron к VALL-E

История нейросетевого синтеза речи проходит три эпохи. Tacotron (2017): seq2seq с вниманием, текст -> мел-спектрограмма, затем вокодер. Артефакты: пропущенные слова, монотонная интонация. FastSpeech 2 (2020): non-autoregressive, явная просодика (длительность, высота тона), синтез в 270 раз быстрее реального времени. VALL-E (Microsoft, 2023): zero-shot voice cloning - подайте 3 секунды голоса диктора, и модель синтезирует любой текст этим голосом. VALL-E работает как языковая модель над дискретными аудиотокенами EnCodec - тот же приём, что в MusicGen, но обучен на 60 000 часах LibriLight. ElevenLabs, Suno, Microsoft Copilot Voice - всё построено на этой идее: TTS - это языковая модель над звуком, не отдельный класс архитектур.

Prosody control: для эмоциональной речи современные TTS поддерживают reference audio плюс SSML-разметку. Модель копирует ритм и интонацию reference, накладывая текстовое содержание. Это решает классическую проблему 'правильно произнесёт слова, но скучно'.

Почему VALL-E делит генерацию на AR (первый кодбук) и NAR (остальные)?

Нейроcодеки: EnCodec, SoundStream

Все три модели - MusicGen, AudioLDM, VALL-E - стоят на одном фундаменте: нейроcодеке, который сжимает waveform в компактную последовательность дискретных токенов. EnCodec (Meta, 2022) и SoundStream (Google, 2021) - VQ-VAE-подобные архитектуры, где encoder сжимает звук в латент, residual vector quantization округляет до K кодбуков по 1024 кодовых вектора, а decoder восстанавливает waveform. На 6 kbps EnCodec даёт качество, сопоставимое с MP3 на 64 kbps - в 10 раз лучше по битрейту. Эта компактность критична: без неё языковые модели над аудио невозможны (последовательность из 1.5М сэмплов на 30 секунд при 48 kHz слишком длинна). Trade-off: residual quantization вносит небольшие артефакты, заметные только аудиофилам и не критичные для генеративных задач.

Tokenizer для аудио - аналог BPE для текста. Так же как BPE определяет, что увидит языковая модель, EnCodec определяет, что увидит MusicGen. Меньше кодбуков -> короче последовательность, но больше потери качества. Больше кодбуков -> длиннее последовательность, но точнее реконструкция. MusicGen использует 4 кодбука, VALL-E - 8.

Генерация аудио принципиально отличается от текста и требует совершенно других архитектур

Современная генерация аудио строится из тех же блоков, что и тексто-генерация: токенизация плюс языковая модель или диффузия в латенте плюс декодер

Ключевой прорыв 2020-2023 - перевод звука в дискретные токены через нейроcодек. После этого MusicGen, VALL-E и AudioLM - буквально GPT над аудиотокенами. Архитектурный мост между модальностями сделан: текст, изображение, звук - всё унифицируется на уровне токенов.

Зачем EnCodec и SoundStream используют residual vector quantization вместо одного большого кодбука?

Ключевые идеи

**Нейроcодек** (EnCodec, SoundStream) - токенизатор для звука; сжимает waveform в последовательность дискретных кодов через residual vector quantization.
**MusicGen** - авторегрессионный трансформер над аудиотокенами; обусловлен текстом из T5; качественен для музыки.
**AudioLDM** - латентная диффузия по мел-спектрограммам; conditioning через CLAP; быстрее MusicGen на длинном аудио.
**VALL-E** - языковая модель над EnCodec-токенами с разделением AR/NAR; zero-shot voice cloning из 3 секунд reference audio.

Связанные темы

Audio generation объединяет идеи из нескольких разделов современной генеративки:

Diffusion Models — AudioLDM - прямой аналог Stable Diffusion в латентном пространстве мел-спектрограмм; те же DDIM-планировщики и U-Net архитектура
Multimodal Models — Voice Mode и GPT-4o - примеры моделей, которые работают с аудио как с ещё одной модальностью; токены звука встают в один ряд с токенами текста и изображения

Вопросы для размышления

MusicGen и VALL-E работают по одной схеме (трансформер над EnCodec). Почему MusicGen генерирует музыку, а VALL-E - речь? Где в архитектуре спрятано различие?
Возврат к мотивации: ElevenLabs клонирует голос из 1 минуты записи. Какие этические и юридические рамки нужны, чтобы технология не стала инструментом мошенничества?
Какое узкое место не позволяет сегодня генерировать целые альбомы (40-60 минут связной музыки) одной моделью, а ограничивает MusicGen 30 секундами?

Связанные уроки

gai-09 — MusicGen строится на диффузионных моделях
gai-12 — TTS - подтема аудио-генерации
gai-14 — Audio generation входит в multimodal video pipeline
gai-05 — Pre-training на аудио-корпусах аналогичен LLM pre-training
it-01 — Энтропия Шеннона лежит в основе аудио-кодеков
nlp-10 — Sequence-to-sequence attention - core механизм музыкальных моделей
dl-01