Китайские ученые создали генератор роликов, близкий к SORA от OpenAI
Пока этой нейросети тоже нет в открытом доступе.
Кстати, на сайте читать удобнее
Китайские исследователи из университета Цинхуа и компании Shengshu Technology продемонстрировали нейросеть Vidu, предназначенную для генерации видеороликов. По качеству Vidu близка к SORA от OpenAI.
Vidu может генерировать видеоролики в разрешении 1080p и продолжительностью до 16 секунд. Как и SORA, модель работает на основе текстового описания и генерирует ролики, консистентность которых не страдает при смене кадров.
Судя по демонстрационному ролику, модель может правдоподобно имитировать реальный мир — с физической точки зрения машина, едущая по дороге, выглядит довольно правдоподобно. В то же время Vidu способна, например, нарисовать антропоморфного кота или медведя.
В основе Vidu лежит архитектура U-ViT, напоминающая архитектуру Diffusion Transformer, реализованную инженерами OpenAI. Как и SORA, китайская модель не интерполирует кадры, а индивидуально генерирует каждый из них.
Пока Vidu выпущена только в закрытом доступе. Разработчики не сообщили, планируется ли выложить модель в открытый доступ.