СМИ: у ИИ-агентов OpenAI было еще несколько «побегов»

2
Популярные игры

Assassin's Creed Black Flag Resynced

Gothic 1 Remake

Subnautica 2

Windrose

Resident Evil Requiem

The Outer Worlds 2

Hollow Knight: Silksong

Silent Hill f

Zenless Zone Zero

Mafia The Old Country

еще 5 популярных страниц
Новый прототип турецкого истребителя 5 поколения Kaan впервые выехал на испытания

8
Индийцы наконец-то начали тратить деньги на приложения — аналитика

12
Нагенерировали всякого: Google отключила ИИ-генератор в Google Earth вскоре после запуска

16
Режиссеры «Пункта назначения» могут экранизировать Стивена Кинга вместе с Сэмом Рэйми

17
Google запретит разработчикам из стран под санкциями распространять Android-приложения по всему миру

21

3
Следы неизвестной древней популяции нашли в геноме современных людей

27
«Человек-паук: Совершенно новый день» может установить рекорд первого дня по сборам в США

30
Магнитная буря накроет Землю 2 августа: названы часы максимальной активности

23
В Crimson Desert появились инвестиции: вышло обновление 1.16.00

28
«Человек-паук: Совершенно новый день» утек в хорошем качестве вскоре после премьеры

27
Ремейк Gothic получил большой патч 1.0.4: основные изменения

42
Древние люди чаще охотились на мамонтесс — исследование

34

4
Apple отжала 49% мировой выручки от продажи смартфонов — аналитика

34
Фото: новые кадры со съемок «Рапунцель»

33

1
СМИ: Самара Уивинг сыграет Эмму Фрост в новых «Людях Икс»

45

12
«Без меня»: Махершала Али окончательно отказался от «Блэйда»

34

3
Ryzen 7 9800X3D охладили с помощью «дымохода» — все благодаря конвекции

41
Уже не дальнобойщик: авторы American Truck Simulator показали геймплей Ford Mustang 1967 года

32
Человек-паук бьет Доктора Дума: финальный трейлер Marvel Tokon Fighting Soul

42

Полезные ссылки

Технологии 03.04.2025 в 15:54

GPT-4.5 проходит тест Тьюринга в 73% случаев — исследование

Модель действует особенно успешно, если ее просят выдавать себя за реального человека.

Некоторые современные нейросети могут проходить стандартный тест Тьюринга в более чем 50% случаев, следует из исследования ученых Калифорнийского университета в Сан-Диего. Лучше всего себя показывает GPT-4.5 от OpenAI.

В двойном рандомизированном исследовании приняли участие модели ELIZA, GPT-4o, LLaMa-3.1-405B и GPT-4.5. За исключением чат-бота ELIZA модели запускались в двух вариантах: с детальным промптом, предлагавшим им выдавать себя за реального человека, и без него.

Промпт Persona выглядит так

Модели, запускавшиеся без длинного промпта Persona, получали простые инструкции: им сообщали, что они проходят тест Тьюринга, и предлагали убедить собеседника, что он говорит с человеком.

Оказалось, что модели с промптом проходят тест Тьюринга заметно лучше, чем без него. Собеседники-люди посчитали GPT-4.5 человеком в 73% случаев, модель LLaMa-3.1 с тем же промптом признали человеком в 56% случаев. У ELIZA показатель «побед» равен всего 23%, у GPT-4o он на уровне 21%.

Исследователи называют свой эксперимент первым эмпирическим доказательством того, что нейросети могут проходить стандартный тест Тьюринга. Сам Тьюринг полагал, что прохождение теста может говорить о способности компьютера мыслить; в случае с современными нейросетями о мышлении речь не идет.

Как вам Resident Evil Requiem?

Отличная игра

1059 голосов, 61.2%

Хорошо, но могло быть лучше

306 голосов, 17.7%

Самая обычная игра

199 голосов, 11.5%

Ужасно, серия свернула не туда

165 голосов, 9.5%

Теги: Технологии

Evernews

8090 подписчиков

Подписаться на автора

Подписывайтесь на WTFTime в Google.Новости