Все новости
Это интересно
Сейчас читают
Технологии
Аватар Evernews Evernews

Популярные ИИ оказалось легко сбить с толку календарями и часами

0
0
Поделиться
Телеграфировать

Некоторые модели лучше справляются с часами, другие — с календарями.

Популярные ИИ оказалось легко сбить с толку календарями и часами

Топовые современные большие языковые модели — мультимодальные, то есть они могут работать с текстом, изображениями и контентом в других форматах. Возможность работать с чем-то кроме текста не означает, что модели делают это хорошо.

Исследователи обнаружили, что популярные нейросети легко сбить с толку с помощью аналоговых часов или обычных календарей. Чтобы иметь с ними дело, модели должны очень хорошо распознавать изображения; оказалось, с этим есть проблемы.

Команда ученых из Эдинбургского университета скормила изображения часов и календарей Gemini 2.0, o1, GPT-4o, Claude 3.5 Sonnet, Llama 3.2 и некоторым другим моделям. Затем нейросетям задавали вопросы, связанные с этими изображениями.

Например, модели просили ответить, каким по счету будет 153 день года, на какой день недели приходится Новый год или который час показывают часы на изображении. В среднем нейросети дали правильные ответы только в 25% случаев.

Некоторые модели лучше справлялись с календарями: например, o1 от OpenAI правильно ответила на 80% вопросов про календари, но в задаче с часами дала лишь 4.84% правильных ответов.

В то же время Gemini 2.0 лучше всего отвечала на вопросы, связанные с часами (22% правильных ответов), а в задачах с календарями дала лишь 31% правильных ответов.

Даже топовые нейросети, резюмируют исследователи, могут пасовать в задачах, которые посчитают тривиальными большинство людей. Можно предположить, что проблему удастся решить за счет дообучения на множестве специфических примеров — на первый взгляд задача не кажется особенно сложной.

Читать далее
Как думаете, GTA VI выйдет в 2025 году?
Выйдет без переносов
577 голосов, 19.0%
Выйдет, но после переноса
260 голосов, 8.5%
Нет, перенесут на 2026 год
1545 голосов, 50.8%
Нет, перенесут на 2026 год — а потом на 2027 год
661 голос, 21.7%
Теги: Технологии
Аватар Evernews
Evernews
8069 подписчиков