Все новости
Это интересно
Сейчас читают
Технологии
Аватар Evernews Evernews

Среднюю нейросеть можно «отравить» парой сотен документов — исследование

0
0
Поделиться
Телеграфировать

Осталось придумать, как убирать такие документы из датасетов.

Среднюю нейросеть можно «отравить» парой сотен документов — исследование

Предполагалось, что чем больше ИИ-модель и объем ее датасета, тем сложнее «отравить» нейросеть, встроив в нее уязвимости с помощью специально сформированных документов из датасета. Новое исследование это опровергает.

Ученые из Anthropic и Института Алана Тьюринга выяснили: даже небольшое количество вредоносных данных способно внедрить скрытые ошибки в крупные языковые модели. В ходе эксперимента для «отравления» моделей хватило 250 документов.

Исследователи тестировали документы на моделях разного размера: от 600 миллионов до 13 миллиардов параметров. Все они оказались уязвимыми, причем примерно одинаковое количество «плохих» примеров вызывало одинаковый эффект.

Вредоносные документы содержали обычный текст, а затем специальный триггер, после которого следовали случайные символы. После обучения на таком материале модель начинала выдавать бессмысленные ответы, если встречала этот триггер, хотя в остальных случаях выдача оставалась корректной.

Выяснилось, что число документов, необходимых для атаки, остается почти постоянным, независимо от размера модели. Например, в случае с моделью на 13 миллиардов параметров «отравленные» документы составляли всего 0.00016% датасета.

Ученые также проверили, можно ли устранить уязвимость дополнительным обучением на чистых данных. Оказалось, что если после заражения добавить 50-100 «правильных» примеров, то эффект снижается, а 2000 корректных образцов почти целиком устраняют проблему.

Авторы подчеркивают: их выводы касаются только простейших типов атак и моделей среднего размера. Неизвестно, сохраняется ли этот эффект в моделях с сотнями миллиардов параметров.

Читать далее
Ну на этот-то раз GTA VI выйдет вовремя?
Выйдет без переносов
1784 голоса, 18.4%
Нет, снова перенесут, но не дальше 2026 года
5297 голосов, 54.7%
Нет, перенесут на 2027 год или дальше
2597 голосов, 26.8%
Теги: Технологии
Аватар Evernews
Evernews
8088 подписчиков