- Промокоды
- Тир-лист персонажей
- Баннеры 1.2
- Тир-лист банбу
- Инспектор Мяучело
- Памятные монеты АИК
- Пропавшие мини-грузовики
- Все скрытые квесты
- Все достижения
- Все арты c6 персонажей
- Как повысить уровень доверия агентов?
- Клякса: как приручить?
- Видеопрокат и все видеокассеты
- Отдыхающая домохозяйка: фильм
- Ностальгирующая девушка: фильм
- Влюбленная девушка: фильм
- Квест Клуб загадочников 1 и 2
- Квест Отмотай назад, детектив
- Квест Заметание секретов
- Квест Пропавшая картина
- Квест Бескрайняя бездна
- Квест Пророчество
- Квест Лимб банбу
- Все гайды
- Испытания Мерлина
- Хранилища сокровищ
- Луны мистера Муна
- Хитроумные ключи
- Головоломки Иродианы
- Квест «Призрак нашей любви»
- Квест «Колодец, колодец»
- Квест «Сокровища из проклятой гробницы»
- Квест «Гиппогриф вам укажет путь»
- Квест «Словно по звонку»
- Непростительные заклинания
- Все легендарные сундуки
- Все животные и твари
- Все метлы
- Все концовки
- Все гайды
- Башня Рамазита и колдовской погреб
- Вызов Шар — все испытания и Копье Ночи
- Логово Ансура — все чертоги и дракон
- Литейная стальной стражи — как спасти гондийцев
- Обыскать подвал — как открыть Некромантию Тхая
- Разрушенная башня — как запустить лифт
- Адамантиновая кузня — все формы и мифриловая руда
- Завершить оружейный шедевр — кора суссура
- Тетушка Этель — как спасти Майрину
- Яйцо гитьянки — как украсть и можно ли вырастить
- Мистический Падальщик — где найти слугу
- Найти клоуна Каплю — все части тела
- Как победить Геррингот Торм?
- Где найти Кровь Латандера?
- Где найти Песню Ночи?
- Все гайды
- Промокоды Honkai Star Rail
- Все сундуки Золотого мига в Honkai Star Rail
- Похвала высокой морали в Honkai Star Rail
- Все сундуки в Лофу Сяньчжоу из Honkai Star Rail
- Первооткрыватель в Honkai Star Rail
- Все сундуки Сада безмятежности в Honkai Star Rail
- Беглецы в Доме кандалов
- Заказ прокси
- Дом кандалов: сундуки и робоптахи
- Гексанексус: Remake в ХСР
Исследование: сайты из датасетов для обучения ИИ активно блокируют доступ для роботов
В одном из датасетов потеряна примерно половина контента.
Для обучений больших языковых моделей используются датасеты, часть которых собирается с общедоступных интернет-ресурсов — например, прямо с этого сайта. В последнее время, заметили исследователи, владельцы сайтов стараются закрыть роботам доступ к своему контенту.
Команда Data Provenance Initiative изучила три популярных датасета для обучения ИИ: C4, RefinedWeb и Dolma. Оказалось, что сайты, на которых содержится 5% всех данных датасетов и 25% наиболее качественных данных уже закрыли доступ для специализированных индексаторов.
Доступность источников данных сильно варьируется от датасета к датасету. Например, сайты из датасета C4 уже заблокировали доступ примерно к 45% данным, попавшим в датасет.
Для закрытия доступа обычно используется специальная директива в файле robots.txt. Для пользователей при этом ничего не меняется, но робот-краулер, собирающий данные для обучения ИИ, в теории должен отреагировать на директиву и не брать данные с сайта.
Кроме того, доступ может блокироваться с помощью пейволла — требования оплатить подписку. Робот может проигнорировать директиву из robots.txt, но обойти пейволл сложнее.
Скорее всего, именно поэтому компании вроде OpenAI заключают соглашения с крупными изданиями или холдингами, получая доступ к их материалам взамен на выплаты или разрешение использовать свои технологии.
- СМИ: OpenAI работает в минус и может потерять до $5 миллиардов за год
- Intel выяснила, почему глючат топовые процессоры — понадобится обновление микрокода
- Тысячи умрут: тизер 7 эпизода 2 сезона «Дома дракона»
- Аналитика: Nvidia потеряет до $12 миллиардов из-за санкций против Китая
- Windows 3.1 помогла четвертой авиакомпании США не пострадать от сбоя CrowdStrike
- Сбой систем на Windows затронул 8.5 миллиона устройств — пострадали и PC с запрещенными обновлениями