Все новости
Это интересно
Сейчас читают
Технологии
Аватар Evernews Evernews

Популярные ИИ оказалось легко сбить с толку календарями и часами

0
0
Поделиться
Телеграфировать

Некоторые модели лучше справляются с часами, другие — с календарями.

Популярные ИИ оказалось легко сбить с толку календарями и часами

Топовые современные большие языковые модели — мультимодальные, то есть они могут работать с текстом, изображениями и контентом в других форматах. Возможность работать с чем-то кроме текста не означает, что модели делают это хорошо.

Исследователи обнаружили, что популярные нейросети легко сбить с толку с помощью аналоговых часов или обычных календарей. Чтобы иметь с ними дело, модели должны очень хорошо распознавать изображения; оказалось, с этим есть проблемы.

Команда ученых из Эдинбургского университета скормила изображения часов и календарей Gemini 2.0, o1, GPT-4o, Claude 3.5 Sonnet, Llama 3.2 и некоторым другим моделям. Затем нейросетям задавали вопросы, связанные с этими изображениями.

Например, модели просили ответить, каким по счету будет 153 день года, на какой день недели приходится Новый год или который час показывают часы на изображении. В среднем нейросети дали правильные ответы только в 25% случаев.

Некоторые модели лучше справлялись с календарями: например, o1 от OpenAI правильно ответила на 80% вопросов про календари, но в задаче с часами дала лишь 4.84% правильных ответов.

В то же время Gemini 2.0 лучше всего отвечала на вопросы, связанные с часами (22% правильных ответов), а в задачах с календарями дала лишь 31% правильных ответов.

Даже топовые нейросети, резюмируют исследователи, могут пасовать в задачах, которые посчитают тривиальными большинство людей. Можно предположить, что проблему удастся решить за счет дообучения на множестве специфических примеров — на первый взгляд задача не кажется особенно сложной.

Читать далее
Как вам Kingdom Come Deliverance 2?
Кандидат на «Игру года»
3475 голосов, 60.5%
Хорошо, но могло быть лучше
381 голос, 6.6%
Самая обычная игра
250 голосов, 4.4%
Ужасно, пожалел о покупке/скачивании
263 голоса, 4.6%
Не играл и не собираюсь
1378 голосов, 24.0%
Теги: Технологии
Аватар Evernews
Evernews
8072 подписчика