Все новости
Это интересно
Сейчас читают
Технологии
Аватар Evernews Evernews

Популярные ИИ оказалось легко сбить с толку календарями и часами

0
0
Поделиться
Телеграфировать

Некоторые модели лучше справляются с часами, другие — с календарями.

Популярные ИИ оказалось легко сбить с толку календарями и часами

Топовые современные большие языковые модели — мультимодальные, то есть они могут работать с текстом, изображениями и контентом в других форматах. Возможность работать с чем-то кроме текста не означает, что модели делают это хорошо.

Исследователи обнаружили, что популярные нейросети легко сбить с толку с помощью аналоговых часов или обычных календарей. Чтобы иметь с ними дело, модели должны очень хорошо распознавать изображения; оказалось, с этим есть проблемы.

Команда ученых из Эдинбургского университета скормила изображения часов и календарей Gemini 2.0, o1, GPT-4o, Claude 3.5 Sonnet, Llama 3.2 и некоторым другим моделям. Затем нейросетям задавали вопросы, связанные с этими изображениями.

Например, модели просили ответить, каким по счету будет 153 день года, на какой день недели приходится Новый год или который час показывают часы на изображении. В среднем нейросети дали правильные ответы только в 25% случаев.

Некоторые модели лучше справлялись с календарями: например, o1 от OpenAI правильно ответила на 80% вопросов про календари, но в задаче с часами дала лишь 4.84% правильных ответов.

В то же время Gemini 2.0 лучше всего отвечала на вопросы, связанные с часами (22% правильных ответов), а в задачах с календарями дала лишь 31% правильных ответов.

Даже топовые нейросети, резюмируют исследователи, могут пасовать в задачах, которые посчитают тривиальными большинство людей. Можно предположить, что проблему удастся решить за счет дообучения на множестве специфических примеров — на первый взгляд задача не кажется особенно сложной.

Читать далее
Сколько вы тратите на игры за год?
Больше 100000 рублей
361 голос, 5.8%
От 50000 до 100000 рублей
223 голоса, 3.6%
От 25000 до 50000 рублей
252 голоса, 4.1%
От 10000 до 25000 рублей
508 голосов, 8.2%
До 10000 рублей
1220 голосов, 19.6%
Нисколько, я пират. Йо-хо-хо!
3657 голосов, 58.8%
Теги: Технологии
Аватар Evernews
Evernews
8074 подписчика