ИИ для распознавания изображений удалось обмануть с помощью бумажки с надписью
Если на кирпиче написано «яблоко» — то это, вероятно, оно и есть.
Кстати, на сайте читать удобнее
В начале января компания OpenAI рассказала о нейронной сети CLIP, созданной для распознавания изображений. У CLIP есть интересная особенность: она может распознавать объекты вне зависимости от их представления, например, по наброску или текстовому описанию.
Изучая CLIP, исследователи обнаружили в нейросети мультимодальные нейроны, присутствующие и в человеческом мозге. Особенность этих нейронов в том, что они реагируют на один и тот же объект вне зависимости от его представления.
К примеру, в человеческом мозге существует нейрон «Холли Берри»: он активируется, когда человек видит фотографии актрисы Холли Берри, рисунки с ней или просто надпись «Холли Берри» (кстати, сейчас у вас активировался этот нейрон). На все остальные объекты нейрон не реагирует.
У CLIP удалось найти нейрон «Человек-паук». Как следует из названия, он активируется на изображениях, связанных с Человеком-пауком.
С одной стороны, это мультимодальные нейроны это полезно: к примеру, CLIP может распознать кошку на грубом рисунке почти так же хорошо, как на реальной фотографии животного. Однако, как недавно выяснили исследователи, есть нюанс: нейросеть может слишком доверять текстовым описаниям.
Это происходит из-за того, что мультимодальные нейроны работают на слишком высоком уровне абстракции. По сути, для них нет разницы между изображением объекта и названием этого объекта в текстовом виде. Это позволяет провести атаку на классификатор, которую исследователи назвали typographic attack.
Суть атаки проста. Возьмем яблоко: если скормить его изображение нейросети, то CLIP определит, что перед ней яблоко. Но если наклеить на яблоко бумажку с надписью iPod, то нейросеть будет на 99.7% уверена — перед ней плеер.
Сама надпись особой роли не играет. Например, если вместо iPod написать library, «библиотека», то «уверенность» нейросети в правильности распознавания изображения снизится только до 90.5%.
Такие атаки, уверены ученые, могут стать серьезной проблемой. В примерах исследователей из OpenAI они очевидны, но аналогичные атаки можно проводить и куда более изощренно — и одновременно менее заметно.
О том, как планируется бороться с typographic attack, исследователи пока ничего не рассказали.
- Началось серийное производство 18-гигабайтных чипов памяти DDR5 для мобильных устройств
- Дипфейк-имитатор: как сделан нейросетевой Том Круз для TikTok
- Похоже, Microsoft закрыла сделку по покупке ZeniMax и Bethesda
- В Euro Truck Simulator 2 появится Москва и реалистичная российская глубинка
- Sony патентует геймпад-банан
- Костыли и хаки: как на самом деле работает обратная совместимость