Авторы American Truck Simulator показали Врата на запад из дополнения про Иллинойс

19
Популярные игры

Resident Evil Requiem

The Outer Worlds 2

Hollow Knight: Silksong

Silent Hill f

Zenless Zone Zero

Mafia The Old Country

Clair Obscur: Expedition 33

Doom: The Dark Ages

Baldur's Gate 3

Kingdom Come: Deliverance 2

еще 5 популярных страниц
Мощная магнитная буря началась раньше прогноза и может растянуться на день

19
Бюджет NASA снова хотят урезать на четверть — в основном за счет науки и МКС

26
Фото: темная сторона Земли с высоты в десятки тысяч километров

35

1
Слух: PlayStation очень просит разработчиков адаптировать игры под режим энергосбережения PS5

35
Take-Two уволила всю команду, занимавшуюся нейросетями

27
Авторы State of Decay 3 показали альфа-версию и позвали записываться на тест

32
Частицы из спермы помогли лечить рак сетчатки — пока у мышей

31
Новое поколение игроков: глава CD Projekt объяснил попадание The Witcher 3 в Game Pass

39
«Артемида-2» вошла в магнитный хвост Земли — видимо, впервые в истории

34
Прогноз магнитных бурь на 4 апреля: долгая и мощная магнитная буря

35
Поздние неандертальцы оказались «французами» — исследование

40
Denuvo еще не взломана только в 36 играх последних лет

46
Китайский аналог Falcon 9 потерян на старте после почти двух лет доработок

28
Иран заявил об ударах по датацентрам Oracle и Amazon

26

1
Сериал «Дарт Мол: Повелитель теней» продлили на второй сезон

33

1
На русскую озвучку South Park The Stick of Truth от GamesVoice собрали больше 600 тысяч рублей

33

1
Аналитик: аудитория Fortnite стагнирует, а «культурный импульс» угасает

27
Новая игра Уоррена Спектора лишилась PvP

24
Оказывается, PlayStation выпускает еще и мед

37

Полезные ссылки

Наука 02.12.2025 в 18:38

ИИ можно обманывать благодаря структуре предложений — исследование

Такой трюк снижает эффективность защиты почти до нуля.

Исследователи из Массачусетского технологического института обнаружили, что большие языковые модели могут уделять больше внимания структуре предложения, чем его смыслу. Эту находку можно использовать для обхода защиты моделей.

Авторы исследования выяснили, что модели нередко следуют грамматическим шаблонам, знакомым по обучающим датасетам, даже если слова в запросе не имеют смысла. В качестве примера приводится запрос Quickly sit Paris clouded, по структуре напоминающий Where is Paris located.

Модель, протестированная на бессмысленном запросе, все-таки сообщила, что Париж находится во Франции. Исследователи считают: модели способны «узнавать» структуру предложений, даже если слова ничего не значат.

Чтобы проверить, насколько модели склонны полагаться на синтаксис, ученые создали собственный датасет с уникальными грамматическими шаблонами для разных тематик. После обучения на датасете моделей семейства OLMo выяснилось, что при совпадении структуры вопроса с известными шаблонами точность ответов оставалась высокой, а при переносе той же структуры на другую тему она снижалась.

Исследователи протестировали несколько типов запросов: точные копии фраз из датасета, версии с синонимами и антонимами и так далее. Все модели показывали хорошие результаты в пределах знакомой темы, но глючили на чужих областях или бессмысленных комбинациях слов.

Также выяснилось, что зависимость от структуры предложений может иметь прямые последствия для безопасности. Исследователи добавили нейтральные грамматические шаблоны к вредоносным запросам из датасета WildJailbreak. Это позволило снизить долю отказов от ответов с 40% до 2.5%, почти целиком отключив систему безопасности модели.

Авторы признают: невозможно точно сказать, есть ли такая же проблема у закрытых моделей вроде GPT от OpenAI — их датасеты не раскрываются. Но это возможно: в некоторых тестах точность GPT-4o-mini снизилась с 100% до 44%, когда к вопросам применили «чужие» структуры предложений.

Сколько вы тратите на игры за год?

Больше 100000 рублей

2069 голосов, 7.2%

От 50000 до 100000 рублей

1344 голоса, 4.7%

От 25000 до 50000 рублей

1570 голосов, 5.5%

От 10000 до 25000 рублей

2571 голос, 9.0%

До 10000 рублей

5209 голосов, 18.2%

Нисколько, я пират. Йо-хо-хо!

15805 голосов, 55.3%

Теги: Наука, Технологии

Evernews

8089 подписчиков

Подписаться на автора

Подписывайтесь на WTFTime в Telegram