Лучшее  🚀
04.02.2023 в 18:00 Evernews

Почему нейросети плохо рисуют руки: объясняют создатели Stable Diffusion

На фото в датасетах руки встречаются не так уж часто.

Кстати, на сайте читать удобнее

Нейросети-генераторы неплохо научились рисовать лица, одежду, тела и пейзажи, но если в кадр попадает рука, то работу ИИ почти наверняка удастся отличить от работы художника — руки у нейросетей получаются очень плохо. В BuzzFeed попытались выяснить, в чем тут дело.

Найдена еще одна слабость ИИ: футболисты

Разработчики Midjourney и DALL-E 2 не стали общаться с журналистами, зато поговорить о руках согласились в компании Stability AI, занимающейся разработкой нейросети Stable Diffusion. Оказалось, дело в том, что нейросеть просто не очень хорошо знакома с руками.

Для обучения ИИ используются огромные датасеты, состоящие из десятков миллионов изображений. Чем больше в этих датасетах четко показанных частей человеческого тела, тем лучше ИИ будет рисовать эти части. Проблема в том, что руки не очень-то часто появляются на фотографиях или рисуются художниками.

Принято считать, что в датасетах, на которых обучают ИИ, человеческие лица более заметны, чем руки. Кроме того, руки довольно редко показывают крупным планом, так что на исходных изображениях они обычно занимают мало места.

Stability AI

Похожее объяснение дает Амелия Вингер-Берскин, ассоциированный профессор Университета Флориды, занимающаяся искусственным интеллектом и искусством. По словам Вингер-Берскин, ИИ не особо представляет, что такое рука.

[ИИ] ориентируется на то, как руки выглядят [на изображениях из датасета], но там есть множество нюансов. Обычно руки что-нибудь держат, иногда — держатся за кого-нибудь.

На изображениях руки редко бывают такими [профессор показывает растопыренную пятерню — прим. ред.]. Если бы они были такими на всех изображениях, то ИИ идеально бы их воспроизводил.

Амелия Вингер-Берскин

Сгенерированные изображения рук могут выглядеть странно еще и потому, что на изображениях из датасетов может быть видно только кусочек кисти или пальца. Если таких изображений много, то ИИ начинает думать, что именно так и должны выглядеть руки.

ИИ, полагает Вингер-Берскин, надо каким-то образом дополнительно дообучить так, чтобы нейросеть понимала не только то, как выглядят руки, но и то, как они работают, какие ограничения есть у человеческих конечностей.

Кстати, с ногами у нейросетей тоже не все гладко.