Nvidia показала неплохую генерацию видео по текстовому описанию
Кажется, по сравнению с конкурентами глюков стало меньше.
Кстати, на сайте читать удобнее
Исследователи из Nvidia Toronto AI Lab рассказали о технологии VideoLDM, позволяющей генерировать видеоролики по текстовому описанию. В основе VideoLDM лежит нейросеть, использующая принцип латентной диффузии.
Ролики, показанные Nvidia, длятся около 3 секунд и сгенерированы в разрешении 2048x1280 при 24 кадрах в секунду. Видео генерировались нейросетью с 2.7 миллиарда параметров.
Как объясняют в компании, это очень скромный показатель: нейросети-конкуренты гораздо массивнее. В то же время VideoLDM генерирует ролики, по качеству сопоставимые или превосходящие работы конкурирующих технологий.
Сотрудники Nvidia Toronto AI Lab опубликовали научную работу, описывающую принципы работы VideoLDM, но не стали выкладывать исходники технологии в открытый доступ.
- Теперь Nvidia в 3 раза дороже Intel и AMD, вместе взятых
- Nvidia упростит создание ограничений для нейросетей
- «Мясное» обновление для Dying Light 2: трейлер
- Патч для The Sims 4 сломал лица и зубы персонажей
- Плеер VLC получил поддержку Nvidia RTX Video Super Resolution
- Nvidia показала заполнение локации с помощью GPT-4