OpenAI выпустила нейросеть, генерирующую и редактирующую реалистичные изображения по описанию
Экспериментировать с моделями лучше на видеокарте.
Кстати, на сайте читать удобнее
Исследователи из OpenAI опубликовали научную работу, в которой описана нейросеть GLIDE. Ее задача: генерировать фотореалистичные изображения по текстовому описанию и редактировать их — тоже по описанию.
Нейросеть может распознавать более-менее естественный язык. В качестве примера исследователи приводят следующую последовательность команд: «уютная гостинная», «портрет корги на стене над диваном», «круглый кофейный столик перед диваном».
Первая команда генерирует изображение, последующие отвечают за ее редактирование. На изображении действительно появляются портрет и стол; правда, затем нейросеть без команды решает поменять расположение окон.
С реальными изображениями нейросеть тоже справляется. В показанных ниже примерах ИИ получает фотографию, а затем редактирует ее, руководствуясь простыми текстовыми указаниями на естественном языке.
GLIDE — не первая нейронная сеть, способная генерировать изображения по описанию, но в OpenAI уверены, что их разработка справляется с этой задачей лучше, чем конкурирующие ИИ. Вот сравнение двух версий GLIDE с DALL-E, XMC-GAN и реальными фотографиями.
Впрочем, нейросеть не всегда может выполнить поставленную задачу. С необычными запросами GLIDE справляется плохо: видимо, потому что на изображениях, по которым обучалась модель, не так уж много машин с треугольными колесами или мышей, охотящихся на львов.
Поэкспериментировать с нейросетью могут все желающие. Исследователи выложили в открытый доступ исходники и модель с 300 миллионами параметров. Все изображения в этом тексте сгенерировала модель с 3.5 миллиарда параметров.
Правда, эксперименты стоит проводить на видеокарте. Генерирование изображение на CPU, подсчитали энтузиасты, может заниматься порядка 20 минут, а видеокарта справляется примерно за минуту.
- Page Boy: как 20 лет назад Nintendo почти превратила Game Boy в смартфон
- В Китае создан ИИ-прокурор, умеющий распознавать преступления и выдвигать обвинения против людей
- Фанаты «Ведьмака» составили перечень отличий сериала от «Крови эльфов». Список получился длинный
- В Сиэтле закрылся прототип зала игровых автоматов из The Last of Us 2
- NASA запустило в космос телескоп «Джеймс Уэбб», преемник «Хаббла»
- СМИ: у AMD на подходе первый 6-нм GPU — для Radeon RX 6500 XT