Все новости
Это интересно
Сейчас читают
Технологии
Аватар Evernews Evernews

Среднюю нейросеть можно «отравить» парой сотен документов — исследование

0
0
Поделиться
Телеграфировать

Осталось придумать, как убирать такие документы из датасетов.

Среднюю нейросеть можно «отравить» парой сотен документов — исследование

Предполагалось, что чем больше ИИ-модель и объем ее датасета, тем сложнее «отравить» нейросеть, встроив в нее уязвимости с помощью специально сформированных документов из датасета. Новое исследование это опровергает.

Ученые из Anthropic и Института Алана Тьюринга выяснили: даже небольшое количество вредоносных данных способно внедрить скрытые ошибки в крупные языковые модели. В ходе эксперимента для «отравления» моделей хватило 250 документов.

Исследователи тестировали документы на моделях разного размера: от 600 миллионов до 13 миллиардов параметров. Все они оказались уязвимыми, причем примерно одинаковое количество «плохих» примеров вызывало одинаковый эффект.

Вредоносные документы содержали обычный текст, а затем специальный триггер, после которого следовали случайные символы. После обучения на таком материале модель начинала выдавать бессмысленные ответы, если встречала этот триггер, хотя в остальных случаях выдача оставалась корректной.

Выяснилось, что число документов, необходимых для атаки, остается почти постоянным, независимо от размера модели. Например, в случае с моделью на 13 миллиардов параметров «отравленные» документы составляли всего 0.00016% датасета.

Ученые также проверили, можно ли устранить уязвимость дополнительным обучением на чистых данных. Оказалось, что если после заражения добавить 50-100 «правильных» примеров, то эффект снижается, а 2000 корректных образцов почти целиком устраняют проблему.

Авторы подчеркивают: их выводы касаются только простейших типов атак и моделей среднего размера. Неизвестно, сохраняется ли этот эффект в моделях с сотнями миллиардов параметров.

Читать далее
Как вам Clair Obscur: Expedition 33?
Кандидат на «Игру года»
2183 голоса, 39.0%
Хорошо, но могло быть лучше
575 голосов, 10.3%
Самая обычная игра
397 голосов, 7.1%
Ужасно, пожалел о покупке/скачивании
417 голосов, 7.5%
Не играл и не собираюсь
2025 голосов, 36.2%
Теги: Технологии
Аватар Evernews
Evernews
8078 подписчиков