27.04.2024 в 16:03 Evernews

Китайские ученые создали генератор роликов, близкий к SORA от OpenAI

Пока этой нейросети тоже нет в открытом доступе.

Китайские исследователи из университета Цинхуа и компании Shengshu Technology продемонстрировали нейросеть Vidu, предназначенную для генерации видеороликов. По качеству Vidu близка к SORA от OpenAI.

Vidu может генерировать видеоролики в разрешении 1080p и продолжительностью до 16 секунд. Как и SORA, модель работает на основе текстового описания и генерирует ролики, консистентность которых не страдает при смене кадров.

Судя по демонстрационному ролику, модель может правдоподобно имитировать реальный мир — с физической точки зрения машина, едущая по дороге, выглядит довольно правдоподобно. В то же время Vidu способна, например, нарисовать антропоморфного кота или медведя.

В основе Vidu лежит архитектура U-ViT, напоминающая архитектуру Diffusion Transformer, реализованную инженерами OpenAI. Как и SORA, китайская модель не интерполирует кадры, а индивидуально генерирует каждый из них.

Пока Vidu выпущена только в закрытом доступе. Разработчики не сообщили, планируется ли выложить модель в открытый доступ.