15.02.2024 в 21:39 Evernews

OpenAI показала Sora — генератор видео по описанию, работающий очень хорошо

У нее хорошо получаются и мамонты, и человеческие глаза.

Стартап OpenAI объявил о создании модели Sora, специализирующейся на генерации видеороликов по текстовому описанию. Нынешняя версия Sora умеет генерировать ролики длительностью до одной минуты.

В отличие от аналогичных нейросетей конкурентов, Sora выдает ролики очень высокого качества. Инженеры OpenAI добились, чтобы каждый кадр выглядел более-менее естественно, а сами кадры хорошо сочетались друг с другом.

Как объясняют в OpenAI, модель понимает не только то, как выглядят объекты, но и то, как они взаимодействуют друг с другом в реальном мире. Sora способна генерировать ролики с несколькими персонажами, точно следуя инструкциям пользователя.

Судя по демонстрационным роликам, нейросеть хорошо справляется с анимациями и сложными материалами вроде меха или снега. Существа, генерируемые Sora, тоже выглядят естественно — даже если они не особо реалистичны сами по себе.

В то же время у Sora есть недостатки: нейросеть испытывает трудности с моделированием сцен со сложной физикой и не всегда разбирается в причинно-следственной связи. К примеру, нейросеть может нарисовать ролик, где на печенье не останется след от укуса.

На нынешнем этапе доступ к Sora будет у команд, оценивающих продукт на потенциальные риски. Кроме того, доступ к нейросети получат дизайнеры, художники и режиссеры: они предоставят OpenAI обратную связь.

В OpenAI пока не могут сказать, когда Sora будет доступна всем пользователям сервисов компании.