Все новости
Это интересно
Сейчас читают
Наука
Аватар Evernews Evernews

ИИ можно обманывать благодаря структуре предложений — исследование

0
0
Поделиться
Телеграфировать

Такой трюк снижает эффективность защиты почти до нуля.

ИИ можно обманывать благодаря структуре предложений — исследование

Исследователи из Массачусетского технологического института обнаружили, что большие языковые модели могут уделять больше внимания структуре предложения, чем его смыслу. Эту находку можно использовать для обхода защиты моделей.

Авторы исследования выяснили, что модели нередко следуют грамматическим шаблонам, знакомым по обучающим датасетам, даже если слова в запросе не имеют смысла. В качестве примера приводится запрос Quickly sit Paris clouded, по структуре напоминающий Where is Paris located.

Модель, протестированная на бессмысленном запросе, все-таки сообщила, что Париж находится во Франции. Исследователи считают: модели способны «узнавать» структуру предложений, даже если слова ничего не значат.

Чтобы проверить, насколько модели склонны полагаться на синтаксис, ученые создали собственный датасет с уникальными грамматическими шаблонами для разных тематик. После обучения на датасете моделей семейства OLMo выяснилось, что при совпадении структуры вопроса с известными шаблонами точность ответов оставалась высокой, а при переносе той же структуры на другую тему она снижалась.

Исследователи протестировали несколько типов запросов: точные копии фраз из датасета, версии с синонимами и антонимами и так далее. Все модели показывали хорошие результаты в пределах знакомой темы, но глючили на чужих областях или бессмысленных комбинациях слов.

Также выяснилось, что зависимость от структуры предложений может иметь прямые последствия для безопасности. Исследователи добавили нейтральные грамматические шаблоны к вредоносным запросам из датасета WildJailbreak. Это позволило снизить долю отказов от ответов с 40% до 2.5%, почти целиком отключив систему безопасности модели.

Авторы признают: невозможно точно сказать, есть ли такая же проблема у закрытых моделей вроде GPT от OpenAI — их датасеты не раскрываются. Но это возможно: в некоторых тестах точность GPT-4o-mini снизилась с 100% до 44%, когда к вопросам применили «чужие» структуры предложений.

Читать далее
Сколько вы тратите на игры за год?
Больше 100000 рублей
1317 голосов, 6.8%
От 50000 до 100000 рублей
845 голосов, 4.4%
От 25000 до 50000 рублей
1014 голосов, 5.2%
От 10000 до 25000 рублей
1676 голосов, 8.7%
До 10000 рублей
3613 голосов, 18.7%
Нисколько, я пират. Йо-хо-хо!
10869 голосов, 56.2%
Теги: Наука, Технологии
Аватар Evernews
Evernews
8086 подписчиков