21.07.2024 в 21:39 Evernews

Исследование: сайты из датасетов для обучения ИИ активно блокируют доступ для роботов

В одном из датасетов потеряна примерно половина контента.

Для обучений больших языковых моделей используются датасеты, часть которых собирается с общедоступных интернет-ресурсов — например, прямо с этого сайта. В последнее время, заметили исследователи, владельцы сайтов стараются закрыть роботам доступ к своему контенту.

Команда Data Provenance Initiative изучила три популярных датасета для обучения ИИ: C4, RefinedWeb и Dolma. Оказалось, что сайты, на которых содержится 5% всех данных датасетов и 25% наиболее качественных данных уже закрыли доступ для специализированных индексаторов.

Доступность источников данных сильно варьируется от датасета к датасету. Например, сайты из датасета C4 уже заблокировали доступ примерно к 45% данным, попавшим в датасет.

Для закрытия доступа обычно используется специальная директива в файле robots.txt. Для пользователей при этом ничего не меняется, но робот-краулер, собирающий данные для обучения ИИ, в теории должен отреагировать на директиву и не брать данные с сайта.

Кроме того, доступ может блокироваться с помощью пейволла — требования оплатить подписку. Робот может проигнорировать директиву из robots.txt, но обойти пейволл сложнее.

Скорее всего, именно поэтому компании вроде OpenAI заключают соглашения с крупными изданиями или холдингами, получая доступ к их материалам взамен на выплаты или разрешение использовать свои технологии.