ИИ далеко не всегда отвечает лучше, когда представляет себя экспертом — исследование
В некоторых случаях качество таких ответов снижается.
Исследователи из Университета Южной Калифорнии поставили под сомнение один из самых популярных приемов общения с генеративным ИИ: просьбу к модели «представить себя экспертом». Предполагалось, что это повышает качество ответов ИИ, но оказалось, что это не совсем так.
Новые данные показывают, что этот прием далеко не универсален. Исследователи пришли к выводу, что роль «эксперта» полезна прежде всего в задачах, где важно следование инструкциям, соблюдение структуры и соответствие ожиданиям пользователя.
В то же время в задачах, завязанных на точности и извлечении фактов из уже усвоенных моделью знаний — например, в математике и программировании — подобные подсказки, наоборот, могут ухудшать качество ответов.
Для проверки гипотезы ученые использовали бенчмарк MMLU. Тестирование показало, что при ответах на вопросы с несколькими вариантами ответов модель с «экспертной» ролью стабильно уступала базовой версии по всем четырем предметным категориям.
Общая точность составила 68% против 71.6% у модели без «экспертности». Исследователи предполагают, что такие промпты активируют у системы режим усиленного следования инструкции, из-за чего ей сложнее опираться на факты, усвоенные на этапе обучения.
При этом в задачах, связанных с безопасностью, эффект оказался обратным. Например, в тесте JailbreakBench частота корректных отказов «экспертной» модели выросла на 17.7 процентного пункта: с 53.2% до 70.9%.
Исследователи полагают, что полезнее задавать конкретные требования: в случае с программированием это могут быть предпочтения по интерфейсу, архитектуре проекта, используемым инструментам. Обобщенная роль, считают ученые, работает слабее, чем детально сформулированный запрос.
- Первый космический корабль с ядерным двигателем полетит к Марсу до конца 2028 года
- NASA строит лунную базу: агентство скорректировало программу освоения спутника
- Рейтинг «Супер Марио: Галактическое кино» мог подтвердить очень старую фанатскую теорию
- Гороскоп на 25 марта: самый лучший день Тельца
- На Polymarket вернулся аккаунт, заработавший на войне в Иране — теперь он верит в мир
- Запущены первые спутники российского аналога Starlink

