Лучшее  🚀
25.12.2021 в 21:35 Evernews

OpenAI выпустила нейросеть, генерирующую и редактирующую реалистичные изображения по описанию

Экспериментировать с моделями лучше на видеокарте.

Кстати, на сайте читать удобнее

Исследователи из OpenAI опубликовали научную работу, в которой описана нейросеть GLIDE. Ее задача: генерировать фотореалистичные изображения по текстовому описанию и редактировать их — тоже по описанию.

Нейросеть может распознавать более-менее естественный язык. В качестве примера исследователи приводят следующую последовательность команд: «уютная гостинная», «портрет корги на стене над диваном», «круглый кофейный столик перед диваном».

Первая команда генерирует изображение, последующие отвечают за ее редактирование. На изображении действительно появляются портрет и стол; правда, затем нейросеть без команды решает поменять расположение окон.

С реальными изображениями нейросеть тоже справляется. В показанных ниже примерах ИИ получает фотографию, а затем редактирует ее, руководствуясь простыми текстовыми указаниями на естественном языке.

GLIDE — не первая нейронная сеть, способная генерировать изображения по описанию, но в OpenAI уверены, что их разработка справляется с этой задачей лучше, чем конкурирующие ИИ. Вот сравнение двух версий GLIDE с DALL-E, XMC-GAN и реальными фотографиями.

Впрочем, нейросеть не всегда может выполнить поставленную задачу. С необычными запросами GLIDE справляется плохо: видимо, потому что на изображениях, по которым обучалась модель, не так уж много машин с треугольными колесами или мышей, охотящихся на львов.

Поэкспериментировать с нейросетью могут все желающие. Исследователи выложили в открытый доступ исходники и модель с 300 миллионами параметров. Все изображения в этом тексте сгенерировала модель с 3.5 миллиарда параметров.

Правда, эксперименты стоит проводить на видеокарте. Генерирование изображение на CPU, подсчитали энтузиасты, может заниматься порядка 20 минут, а видеокарта справляется примерно за минуту.

Читать далее