Все новости
Это интересно
Сейчас читают
Технологии
Аватар Evernews Evernews

Исследование: сайты из датасетов для обучения ИИ активно блокируют доступ для роботов

0
0
Поделиться
Телеграфировать

В одном из датасетов потеряна примерно половина контента.

Исследование: сайты из датасетов для обучения ИИ активно блокируют доступ для роботов

Для обучений больших языковых моделей используются датасеты, часть которых собирается с общедоступных интернет-ресурсов — например, прямо с этого сайта. В последнее время, заметили исследователи, владельцы сайтов стараются закрыть роботам доступ к своему контенту.

Команда Data Provenance Initiative изучила три популярных датасета для обучения ИИ: C4, RefinedWeb и Dolma. Оказалось, что сайты, на которых содержится 5% всех данных датасетов и 25% наиболее качественных данных уже закрыли доступ для специализированных индексаторов.

Доступность источников данных сильно варьируется от датасета к датасету. Например, сайты из датасета C4 уже заблокировали доступ примерно к 45% данным, попавшим в датасет.

Для закрытия доступа обычно используется специальная директива в файле robots.txt. Для пользователей при этом ничего не меняется, но робот-краулер, собирающий данные для обучения ИИ, в теории должен отреагировать на директиву и не брать данные с сайта.

Кроме того, доступ может блокироваться с помощью пейволла — требования оплатить подписку. Робот может проигнорировать директиву из robots.txt, но обойти пейволл сложнее.

Скорее всего, именно поэтому компании вроде OpenAI заключают соглашения с крупными изданиями или холдингами, получая доступ к их материалам взамен на выплаты или разрешение использовать свои технологии.

Читать далее
За сколько вы готовы купить GTA VI?
До 8000 рублей
2072 голоса, 7.2%
До 7000 рублей
790 голосов, 2.8%
До 6000 рублей
949 голосов, 3.3%
До 5000 рублей
2534 голоса, 8.9%
До 4000 рублей
1011 голосов, 3.5%
До 3000 рублей
1355 голосов, 4.7%
До 2000 рублей
3219 голосов, 11.2%
За любые деньги
1596 голосов, 5.6%
Ни за сколько, я пират
15095 голосов, 52.7%
Теги: Технологии
Аватар Evernews
Evernews
8089 подписчиков