Все новости
Это интересно
Сейчас читают
Технологии
Аватар Evernews Evernews

Популярные ИИ оказалось легко сбить с толку календарями и часами

0
0
Поделиться
Телеграфировать

Некоторые модели лучше справляются с часами, другие — с календарями.

Популярные ИИ оказалось легко сбить с толку календарями и часами

Топовые современные большие языковые модели — мультимодальные, то есть они могут работать с текстом, изображениями и контентом в других форматах. Возможность работать с чем-то кроме текста не означает, что модели делают это хорошо.

Исследователи обнаружили, что популярные нейросети легко сбить с толку с помощью аналоговых часов или обычных календарей. Чтобы иметь с ними дело, модели должны очень хорошо распознавать изображения; оказалось, с этим есть проблемы.

Команда ученых из Эдинбургского университета скормила изображения часов и календарей Gemini 2.0, o1, GPT-4o, Claude 3.5 Sonnet, Llama 3.2 и некоторым другим моделям. Затем нейросетям задавали вопросы, связанные с этими изображениями.

Например, модели просили ответить, каким по счету будет 153 день года, на какой день недели приходится Новый год или который час показывают часы на изображении. В среднем нейросети дали правильные ответы только в 25% случаев.

Некоторые модели лучше справлялись с календарями: например, o1 от OpenAI правильно ответила на 80% вопросов про календари, но в задаче с часами дала лишь 4.84% правильных ответов.

В то же время Gemini 2.0 лучше всего отвечала на вопросы, связанные с часами (22% правильных ответов), а в задачах с календарями дала лишь 31% правильных ответов.

Даже топовые нейросети, резюмируют исследователи, могут пасовать в задачах, которые посчитают тривиальными большинство людей. Можно предположить, что проблему удастся решить за счет дообучения на множестве специфических примеров — на первый взгляд задача не кажется особенно сложной.

Читать далее
Как вам S.T.A.L.K.E.R. 2?
Отличная игра
3139 голосов, 33.7%
Хорошо, но могло быть лучше
1343 голоса, 14.4%
Самая обычная игра
590 голосов, 6.3%
Ужасно, пожалел о покупке/скачивании
883 голоса, 9.5%
Не играл и не собираюсь
3369 голосов, 36.1%
Теги: Технологии
Аватар Evernews
Evernews
8069 подписчиков