Все новости
Это интересно
Сейчас читают
OpenAI
Аватар Evernews Evernews

OpenAI: если отучать ИИ хитрить, то он хитрит хитрее

0
1
Поделиться
Телеграфировать

У исследователей уже есть мысли на этот счет.

OpenAI: если отучать ИИ хитрить, то он хитрит хитрее

OpenAI и Apollo Research опубликовали исследование, посвященное попыткам предотвращения обмана со стороны нейросетей. Иногда ИИ вроде бы ведет себя корректно, но на самом деле обманывает пользователя или преследует свои цели, и с этим надо что-то делать.

Исследователи обнаружили, что попытки отучить нейросети от «схематоза» традиционными методами зачастую неэффективны. Более того: такое обучение может привести к тому, что ИИ начнет действовать изощреннее, лучше скрывая свои истинные намерения.

Оказалось, что если модель осознает факт проверки, то она может притворяться честной лишь для прохождения теста. В таких случаях ИИ становится внимательнее просто из-за осознания наблюдения, а не из-за реального изменения мотивации.

Интересный момент: хотя ИИ и может обманывать, чаще всего речь идет о мелких нарушениях. Например, нейросеть говорит об успешно выполненной задаче, когда на самом деле задача не выполнена.

В OpenAI и Apollo Research считают, что нашли довольно эффективный метод противостояния обману со стороны ИИ: deliberative alignment. Его суть заключается в том, что модель сначала изучает и повторяет правила, нацеленные на предотвращение обмана, а затем приступает к выполнению задачи.

Такой подход позволил значительно снизить количество случаев манипулирования со стороны нейросетей. В OpenAI считают, что в будущем deliberative alignment может быть очень полезен: по мере увеличения сложности задач и самостоятельности ИИ-агентов серьезных негативных последствий обмана будет расти.

Читать далее
Сколько вы тратите на игры в год?
Больше 100000 рублей
2089 голосов, 7.2%
От 50000 до 100000 рублей
1357 голосов, 4.7%
От 25000 до 50000 рублей
1585 голосов, 5.5%
От 10000 до 25000 рублей
2610 голосов, 9.0%
До 10000 рублей
5300 голосов, 18.3%
Нисколько, я пират. Йо-хо-хо!
16017 голосов, 55.3%
Теги: OpenAI, Технологии
Аватар Evernews
Evernews
8091 подписчик