Все новости
Это интересно
Сейчас читают
Технологии
Аватар Evernews Evernews

Среднюю нейросеть можно «отравить» парой сотен документов — исследование

0
0
Поделиться
Телеграфировать

Осталось придумать, как убирать такие документы из датасетов.

Среднюю нейросеть можно «отравить» парой сотен документов — исследование

Предполагалось, что чем больше ИИ-модель и объем ее датасета, тем сложнее «отравить» нейросеть, встроив в нее уязвимости с помощью специально сформированных документов из датасета. Новое исследование это опровергает.

Ученые из Anthropic и Института Алана Тьюринга выяснили: даже небольшое количество вредоносных данных способно внедрить скрытые ошибки в крупные языковые модели. В ходе эксперимента для «отравления» моделей хватило 250 документов.

Исследователи тестировали документы на моделях разного размера: от 600 миллионов до 13 миллиардов параметров. Все они оказались уязвимыми, причем примерно одинаковое количество «плохих» примеров вызывало одинаковый эффект.

Вредоносные документы содержали обычный текст, а затем специальный триггер, после которого следовали случайные символы. После обучения на таком материале модель начинала выдавать бессмысленные ответы, если встречала этот триггер, хотя в остальных случаях выдача оставалась корректной.

Выяснилось, что число документов, необходимых для атаки, остается почти постоянным, независимо от размера модели. Например, в случае с моделью на 13 миллиардов параметров «отравленные» документы составляли всего 0.00016% датасета.

Ученые также проверили, можно ли устранить уязвимость дополнительным обучением на чистых данных. Оказалось, что если после заражения добавить 50-100 «правильных» примеров, то эффект снижается, а 2000 корректных образцов почти целиком устраняют проблему.

Авторы подчеркивают: их выводы касаются только простейших типов атак и моделей среднего размера. Неизвестно, сохраняется ли этот эффект в моделях с сотнями миллиардов параметров.

Читать далее
Сколько вы тратите на игры за год?
Больше 100000 рублей
992 голоса, 6.4%
От 50000 до 100000 рублей
668 голосов, 4.3%
От 25000 до 50000 рублей
782 голоса, 5.0%
От 10000 до 25000 рублей
1336 голосов, 8.6%
До 10000 рублей
2975 голосов, 19.1%
Нисколько, я пират. Йо-хо-хо!
8802 голоса, 56.6%
Теги: Технологии
Аватар Evernews
Evernews
8080 подписчиков