Все новости
Это интересно
Сейчас читают
Технологии
Аватар Evernews Evernews

Среднюю нейросеть можно «отравить» парой сотен документов — исследование

0
0
Поделиться
Телеграфировать

Осталось придумать, как убирать такие документы из датасетов.

Среднюю нейросеть можно «отравить» парой сотен документов — исследование

Предполагалось, что чем больше ИИ-модель и объем ее датасета, тем сложнее «отравить» нейросеть, встроив в нее уязвимости с помощью специально сформированных документов из датасета. Новое исследование это опровергает.

Ученые из Anthropic и Института Алана Тьюринга выяснили: даже небольшое количество вредоносных данных способно внедрить скрытые ошибки в крупные языковые модели. В ходе эксперимента для «отравления» моделей хватило 250 документов.

Исследователи тестировали документы на моделях разного размера: от 600 миллионов до 13 миллиардов параметров. Все они оказались уязвимыми, причем примерно одинаковое количество «плохих» примеров вызывало одинаковый эффект.

Вредоносные документы содержали обычный текст, а затем специальный триггер, после которого следовали случайные символы. После обучения на таком материале модель начинала выдавать бессмысленные ответы, если встречала этот триггер, хотя в остальных случаях выдача оставалась корректной.

Выяснилось, что число документов, необходимых для атаки, остается почти постоянным, независимо от размера модели. Например, в случае с моделью на 13 миллиардов параметров «отравленные» документы составляли всего 0.00016% датасета.

Ученые также проверили, можно ли устранить уязвимость дополнительным обучением на чистых данных. Оказалось, что если после заражения добавить 50-100 «правильных» примеров, то эффект снижается, а 2000 корректных образцов почти целиком устраняют проблему.

Авторы подчеркивают: их выводы касаются только простейших типов атак и моделей среднего размера. Неизвестно, сохраняется ли этот эффект в моделях с сотнями миллиардов параметров.

Читать далее
Как вам S.T.A.L.K.E.R. 2?
Отличная игра
8687 голосов, 30.1%
Хорошо, но могло быть лучше
3583 голоса, 12.4%
Самая обычная игра
1908 голосов, 6.6%
Ужасно, пожалел о покупке/скачивании
2541 голос, 8.8%
Не играл и не собираюсь
12094 голоса, 42.0%
Теги: Технологии
Аватар Evernews
Evernews
8086 подписчиков