ИИ для распознавания изображений удалось обмануть с помощью бумажки с надписью

Если на кирпиче написано «яблоко» — то это, вероятно, оно и есть.

В начале января компания OpenAI рассказала о нейронной сети CLIP, созданной для распознавания изображений. У CLIP есть интересная особенность: она может распознавать объекты вне зависимости от их представления, например, по наброску или текстовому описанию.

Изучая CLIP, исследователи обнаружили в нейросети мультимодальные нейроны, присутствующие и в человеческом мозге. Особенность этих нейронов в том, что они реагируют на один и тот же объект вне зависимости от его представления.

К примеру, в человеческом мозге существует нейрон «Холли Берри»: он активируется, когда человек видит фотографии актрисы Холли Берри, рисунки с ней или просто надпись «Холли Берри» (кстати, сейчас у вас активировался этот нейрон). На все остальные объекты нейрон не реагирует.

У CLIP удалось найти нейрон «Человек-паук». Как следует из названия, он активируется на изображениях, связанных с Человеком-пауком.

С одной стороны, это мультимодальные нейроны это полезно: к примеру, CLIP может распознать кошку на грубом рисунке почти так же хорошо, как на реальной фотографии животного. Однако, как недавно выяснили исследователи, есть нюанс: нейросеть может слишком доверять текстовым описаниям.

Это происходит из-за того, что мультимодальные нейроны работают на слишком высоком уровне абстракции. По сути, для них нет разницы между изображением объекта и названием этого объекта в текстовом виде. Это позволяет провести атаку на классификатор, которую исследователи назвали typographic attack.

Суть атаки проста. Возьмем яблоко: если скормить его изображение нейросети, то CLIP определит, что перед ней яблоко. Но если наклеить на яблоко бумажку с надписью iPod, то нейросеть будет на 99.7% уверена — перед ней плеер.

Сама надпись особой роли не играет. Например, если вместо iPod написать library, «библиотека», то «уверенность» нейросети в правильности распознавания изображения снизится только до 90.5%.

Такие атаки, уверены ученые, могут стать серьезной проблемой. В примерах исследователей из OpenAI они очевидны, но аналогичные атаки можно проводить и куда более изощренно — и одновременно менее заметно.

О том, как планируется бороться с typographic attack, исследователи пока ничего не рассказали.

Теги: Технологии

Evernews

8066 подписчиков

Подписаться на автора

Это интересно

Подписывайтесь на WTFTime в Google.Новости