Новую God of War покажут до конца апреля — инсайд

12
Популярные игры

Resident Evil Requiem

The Outer Worlds 2

Hollow Knight: Silksong

Silent Hill f

Zenless Zone Zero

Mafia The Old Country

Clair Obscur: Expedition 33

Doom: The Dark Ages

Baldur's Gate 3

Kingdom Come: Deliverance 2

еще 5 популярных страниц
Стрелец, гороскоп на завтра: 14 апреля надо не спешить

15
Телец, гороскоп на завтра: 14 апреля надо поберечься

13
Crimson Desert получила редактор персонажей — можно сделать огра и гоблина

46

3
Как Хоумлендер полюбил молоко: вспоминает Энтони Старр

28
9 лучших трейлеров недели: свингеры, наркоторговцы и Джейсон Стейтем

30
Инсайд: Fable может выйти в декабре 2026 года или переехать на 2027 год

32
Оказывается, в Kingdom Come Deliverance 2 можно исследовать место, запрещенное для посещения в реальности

31
Утек анимационный фильм «Легенда об Аанге: Последний маг воздуха»

25

1
Исходники программы, сажавшей людей на Луну, выложены в открытый доступ

32
DLSS Enabler научился имитировать новую генерацию кадров из DLSS 4.5 на любых современных картах

37
Магнитная буря сегодня: прогноз на 13 апреля дает отдохнуть метеозависимым

35
Школы появятся в inZOI в мае

29
Древнейший известный осьминог оказался вообще не осьминогом

33

1
Starfield получила уникальные баги на PlayStation 5 — на ПК и Xbox игра так не вылетает

35
В World of Warcraft построили кусочек карты Dust 2 из Counter-Strike

30

1
Геймплей отмененной Metro 4 — с туннелями, Черным и вылазкой на поверхность

35

1
Crimson Desert получила патч 1.03.01: «Завеса ветра» — снова работает нормально

29
Полный автопилот Tesla впервые одобрили в Европе

21
В Mount & Blade 2 Bannerlord добавили морские патрули и новую логику войн — пока в бете

43

Полезные ссылки

Технологии 10.10.2025 в 12:44

Среднюю нейросеть можно «отравить» парой сотен документов — исследование

Осталось придумать, как убирать такие документы из датасетов.

Предполагалось, что чем больше ИИ-модель и объем ее датасета, тем сложнее «отравить» нейросеть, встроив в нее уязвимости с помощью специально сформированных документов из датасета. Новое исследование это опровергает.

Ученые из Anthropic и Института Алана Тьюринга выяснили: даже небольшое количество вредоносных данных способно внедрить скрытые ошибки в крупные языковые модели. В ходе эксперимента для «отравления» моделей хватило 250 документов.

Исследователи тестировали документы на моделях разного размера: от 600 миллионов до 13 миллиардов параметров. Все они оказались уязвимыми, причем примерно одинаковое количество «плохих» примеров вызывало одинаковый эффект.

Вредоносные документы содержали обычный текст, а затем специальный триггер, после которого следовали случайные символы. После обучения на таком материале модель начинала выдавать бессмысленные ответы, если встречала этот триггер, хотя в остальных случаях выдача оставалась корректной.

Выяснилось, что число документов, необходимых для атаки, остается почти постоянным, независимо от размера модели. Например, в случае с моделью на 13 миллиардов параметров «отравленные» документы составляли всего 0.00016% датасета.

Ученые также проверили, можно ли устранить уязвимость дополнительным обучением на чистых данных. Оказалось, что если после заражения добавить 50-100 «правильных» примеров, то эффект снижается, а 2000 корректных образцов почти целиком устраняют проблему.

Авторы подчеркивают: их выводы касаются только простейших типов атак и моделей среднего размера. Неизвестно, сохраняется ли этот эффект в моделях с сотнями миллиардов параметров.

Crimson Desert - будущая игра года?

Да, великая игра

301 голос, 45.7%

Неплохая, но не игра года

215 голосов, 32.7%

Ужасная игра, ей никогда не победить

142 голоса, 21.6%

Теги: Технологии

Evernews

8089 подписчиков

Подписаться на автора

Подписывайтесь на WTFTime в Google.Новости