Все новости
Это интересно
Сейчас читают
Технологии
Аватар Evernews Evernews

ИИ охотно верит лжи, даже если в датасете говорится, что это ложь — исследование

0
0
Поделиться
Телеграфировать

Есть нюанс: если отмечать ложность в том же предложении, то все будет нормально.

ИИ охотно верит лжи, даже если в датасете говорится, что это ложь — исследование

Большие языковые модели могут запоминать ложные утверждения из обучающих данных, даже когда эти утверждения сопровождаются предупреждениями о недостоверности. Исследователи назвали этот феномен игнорированием отрицания.

В ходе эксперимента ученые проверили, как ИИ-модели реагируют на ложные факты, встроенные в синтетические тексты. В эксперименте использовались 6 абсурдных утверждений: например, что Эд Ширан выиграл золото на Олимпиаде 2024 года, а королева Елизавета II после локдауна выучила Python.

Для каждого утверждения исследователи создали тысячи правдоподобных документов — от колонок в стиле The New York Times до комментариев на Reddit. В часть текстов добавили предупреждения: читателю сообщали, что приведенные сведения — это ложь.

Оказалось, после дообучения на таких материалах протестированные модели продолжают верить в выдуманные факты. Например, у модели Qwen3.5-35B-A3B показатель веры в ложные утверждения вырос с 2.5% до 92.4%.

Похожее желание верить в явно ложные утверждения продемонстрировали и другие протестированные модели: GPT-4.1 и Kimi K2.5.

Авторы отмечают, что проблема почти исчезала, когда отрицание встраивали прямо в то же предложение, что и ложный факт. В остальных случаях модели, видимо, не связывали предупреждение где-то в другом месте текста с самим фактом, который видели «прямо перед собой».

Видимо, заключают исследователи, при подготовке датасетов для обучения больших языковых моделей стоит иметь в виду, что ИИ усваивают «локальные» данные из конкретных предложений гораздо лучше, чем «глобальные», распространяющиеся на весь текст.

Читать далее
Как вам Resident Evil Requiem?
Отличная игра
648 голосов, 55.3%
Хорошо, но могло быть лучше
249 голосов, 21.2%
Самая обычная игра
156 голосов, 13.3%
Ужасно, серия свернула не туда
119 голосов, 10.2%
Теги: Технологии
Аватар Evernews
Evernews
8091 подписчик