Все новости
Это интересно
Сейчас читают
Технологии
Аватар Evernews Evernews

ИИ далеко не всегда отвечает лучше, когда представляет себя экспертом — исследование

0
0
Поделиться
Телеграфировать

В некоторых случаях качество таких ответов снижается.

ИИ далеко не всегда отвечает лучше, когда представляет себя экспертом — исследование

Исследователи из Университета Южной Калифорнии поставили под сомнение один из самых популярных приемов общения с генеративным ИИ: просьбу к модели «представить себя экспертом». Предполагалось, что это повышает качество ответов ИИ, но оказалось, что это не совсем так.

Новые данные показывают, что этот прием далеко не универсален. Исследователи пришли к выводу, что роль «эксперта» полезна прежде всего в задачах, где важно следование инструкциям, соблюдение структуры и соответствие ожиданиям пользователя.

В то же время в задачах, завязанных на точности и извлечении фактов из уже усвоенных моделью знаний — например, в математике и программировании — подобные подсказки, наоборот, могут ухудшать качество ответов.

Для проверки гипотезы ученые использовали бенчмарк MMLU. Тестирование показало, что при ответах на вопросы с несколькими вариантами ответов модель с «экспертной» ролью стабильно уступала базовой версии по всем четырем предметным категориям.

Общая точность составила 68% против 71.6% у модели без «экспертности». Исследователи предполагают, что такие промпты активируют у системы режим усиленного следования инструкции, из-за чего ей сложнее опираться на факты, усвоенные на этапе обучения.

При этом в задачах, связанных с безопасностью, эффект оказался обратным. Например, в тесте JailbreakBench частота корректных отказов «экспертной» модели выросла на 17.7 процентного пункта: с 53.2% до 70.9%.

Исследователи полагают, что полезнее задавать конкретные требования: в случае с программированием это могут быть предпочтения по интерфейсу, архитектуре проекта, используемым инструментам. Обобщенная роль, считают ученые, работает слабее, чем детально сформулированный запрос.

Читать далее
Уже пробовали взлом Denuvo через гипервизор?
Да, работает
195 голосов, 32.2%
Да, не заработало
57 голосов, 9.4%
Нет, страшновато
200 голосов, 33.1%
Лучше купить аккаунт
99 голосов, 16.4%
Только лицензии, только хардкор
54 голоса, 8.9%
Теги: Технологии
Аватар Evernews
Evernews
8089 подписчиков