Исследование: сайты из датасетов для обучения ИИ активно блокируют доступ для роботов
В одном из датасетов потеряна примерно половина контента.
Кстати, на сайте читать удобнее
Для обучений больших языковых моделей используются датасеты, часть которых собирается с общедоступных интернет-ресурсов — например, прямо с этого сайта. В последнее время, заметили исследователи, владельцы сайтов стараются закрыть роботам доступ к своему контенту.
Команда Data Provenance Initiative изучила три популярных датасета для обучения ИИ: C4, RefinedWeb и Dolma. Оказалось, что сайты, на которых содержится 5% всех данных датасетов и 25% наиболее качественных данных уже закрыли доступ для специализированных индексаторов.
Доступность источников данных сильно варьируется от датасета к датасету. Например, сайты из датасета C4 уже заблокировали доступ примерно к 45% данным, попавшим в датасет.
Для закрытия доступа обычно используется специальная директива в файле robots.txt. Для пользователей при этом ничего не меняется, но робот-краулер, собирающий данные для обучения ИИ, в теории должен отреагировать на директиву и не брать данные с сайта.
Кроме того, доступ может блокироваться с помощью пейволла — требования оплатить подписку. Робот может проигнорировать директиву из robots.txt, но обойти пейволл сложнее.
Скорее всего, именно поэтому компании вроде OpenAI заключают соглашения с крупными изданиями или холдингами, получая доступ к их материалам взамен на выплаты или разрешение использовать свои технологии.
- СМИ: OpenAI работает в минус и может потерять до $5 миллиардов за год
- Intel выяснила, почему глючат топовые процессоры — понадобится обновление микрокода
- Тысячи умрут: тизер 7 эпизода 2 сезона «Дома дракона»
- Аналитика: Nvidia потеряет до $12 миллиардов из-за санкций против Китая
- Windows 3.1 помогла четвертой авиакомпании США не пострадать от сбоя CrowdStrike
- Сбой систем на Windows затронул 8.5 миллиона устройств — пострадали и PC с запрещенными обновлениями