Все новости
Это интересно
Сейчас читают
Технологии
Аватар Evernews Evernews

Исследование: сайты из датасетов для обучения ИИ активно блокируют доступ для роботов

0
0
Поделиться
Телеграфировать

В одном из датасетов потеряна примерно половина контента.

Исследование: сайты из датасетов для обучения ИИ активно блокируют доступ для роботов

Для обучений больших языковых моделей используются датасеты, часть которых собирается с общедоступных интернет-ресурсов — например, прямо с этого сайта. В последнее время, заметили исследователи, владельцы сайтов стараются закрыть роботам доступ к своему контенту.

Команда Data Provenance Initiative изучила три популярных датасета для обучения ИИ: C4, RefinedWeb и Dolma. Оказалось, что сайты, на которых содержится 5% всех данных датасетов и 25% наиболее качественных данных уже закрыли доступ для специализированных индексаторов.

Доступность источников данных сильно варьируется от датасета к датасету. Например, сайты из датасета C4 уже заблокировали доступ примерно к 45% данным, попавшим в датасет.

Для закрытия доступа обычно используется специальная директива в файле robots.txt. Для пользователей при этом ничего не меняется, но робот-краулер, собирающий данные для обучения ИИ, в теории должен отреагировать на директиву и не брать данные с сайта.

Кроме того, доступ может блокироваться с помощью пейволла — требования оплатить подписку. Робот может проигнорировать директиву из robots.txt, но обойти пейволл сложнее.

Скорее всего, именно поэтому компании вроде OpenAI заключают соглашения с крупными изданиями или холдингами, получая доступ к их материалам взамен на выплаты или разрешение использовать свои технологии.

Читать далее
Сколько вы тратите на игры за год?
Больше 100000 рублей
1223 голоса, 6.7%
От 50000 до 100000 рублей
792 голоса, 4.3%
От 25000 до 50000 рублей
946 голосов, 5.1%
От 10000 до 25000 рублей
1569 голосов, 8.5%
До 10000 рублей
3464 голоса, 18.8%
Нисколько, я пират. Йо-хо-хо!
10389 голосов, 56.5%
Теги: Технологии
Аватар Evernews
Evernews
8084 подписчика