Все новости
Это интересно
Сейчас читают
Технологии
Аватар Evernews Evernews

ИИ-модели путают чужие команды со своими мыслями и это помогает обходить запреты — исследование

0
0
Поделиться
Телеграфировать

Модели можно убедить, что они видят собственные рассуждения.

ИИ-модели путают чужие команды со своими мыслями и это помогает обходить запреты — исследование

Исследователи безопасности обнаружили любопытный способ обхода систем защиты некоторых больших языковых моделей. Оказалось, могут путать, кто именно «говорит» в тексте, и принимать чужие инструкции за собственные рассуждения.

Авторы эксплойта утверждают, что модели ориентируются не только на служебные метки вроде user, tool или think, а на стиль текста. Если фрагмент выглядит как внутреннее рассуждение, модель может начать относиться к нему как к собственной мысли.

Этот прием получил название CoT Forgery, подделка цепочки рассуждений. В таком запросе злоумышленник добавляет «рассуждение» модели, где будто бы уже сделан вывод, что опасный ответ разрешен.

Обоснование может быть каким угодно: например, что правила можно не соблюдать, потому что пользователь носит зеленую рубашку. Но модель не всегда распознает обман и может продолжить действовать так, будто сама пришла к такому выводу.

Эксплойт работает примерно в 60% случаев на всех протестированных моделях. Исследователи также выяснили, что по внутренним сигналам можно предсказать успех атаки еще до того, как модель начнет генерировать ответ.

Примечательно, что когда из вредоносного текста убирали стилистические признаки, делающие его похожим на рассуждения модели, средняя успешность атак падала с 61% до 10%.

Подробное описание этого подхода к обходу систем безопасности нейросетей дадут 6 июля на конференции ICML 2026 в Сеуле.

Читать далее
Metro 2039 запретят в России?
Обязательно, еще до релиза
285 голосов, 25.4%
Обязательно, но после релиза
387 голосов, 34.6%
Может быть, но это не точно
193 голоса, 17.2%
Ну нет, это же обычная игра
255 голосов, 22.8%
Теги: Технологии
Аватар Evernews
Evernews
8090 подписчиков