14.09.2023 в 17:35 Evernews

Заработала Stable Audio — генерация музыки по описанию от авторов Stable Diffusion

Желающих попробовать оказалось немало: сервис работает нестабильно.

Стартап Stability AI, развивающий семейство нейросетей-генераторов Stable Diffusion, запустил сервис Stable Audio. Это Stable Diffusion для музыки: сервис умеет генерировать музыку по текстовому описанию.

На сайте Stable Audio есть несколько примеров: музыка сгенерирована по запросам вроде «Warm soft hug, comfort, low synths, twinkle, wind and leaves, ambient, peace, relaxed, water». Простые запросы типа «Drum solo» нейросеть тоже понимает.

Во всех демо-треках сгенерирована только музыка, слова в композициях не звучат. По словам разработчиков, нейросеть обучалась на более чем 800 тысячах отрывков лицензированной музыки из библиотеки AudioSparks.

Как объясняет один из создателей Stable Audio Зак Эванс, с технической точки зрения технология напоминает Stable Diffusion. Но есть важное отличие: Stable Diffusion можно попросить работать в стиле конкретного художника, а Stable Audio не сумеет сыграть в стиле The Beatles.

В нынешней версии Stable Audio около 1.2 миллиарда параметров, примерно столько же было в первой версии Stable Diffusion. Бесплатно разрешается сгенерировать не больше 20 треков в месяц (каждый по 20 секунд), платно — до 500 треков в месяц (по 90 секунд).

Опробовать Stable Audio можно здесь, сейчас сервис работает нестабильно — много желающих.