СМИ: GPT-4 обучали на множестве расшифрованных роликов с YouTube
OpenAI якобы пошла на такой шаг из-за недостатка данных.
Кстати, на сайте читать удобнее
Компания OpenAI использовала для обучения модели GPT-4 расшифрованные видеоролики с YouTube, утверждает The New York Times. Так в OpenAI якобы боролись с недостатком данных для обучения ИИ.
По словам источников издания, к 2021 году у OpenAI закончились наборы данных, которые можно было использовать для обучения новой модели. Компания рассматривала несколько дополнительных источников, включая расшифрованные ролики, подкасты и аудиокниги.
Чтобы собрать данные для обучения GPT-4, в OpenAI создали еще одну модель, Whisper. Ее задача — транслировать речь в текст; обработав с помощью Whisper более миллиона часов роликов, OpenAI использовала эти данные для обучения новой большой языковой модели.
Похожим образом, утверждают источники, поступала и Google, владеющая YouTube. Компания использовала расшифровки роликов с видеосервиса для обучения своих моделей — это в разговоре с The New York Times подтвердил представитель Google Мэтт Брайант.
Как отмечает Брайант, пользовательское соглашение YouTube запрещает несанкционированное сканирование или скачивание видеороликов. По словам источников The New York Times, в OpenAI считали, что ничего не нарушают при использовании данных с YouTube для обучения ИИ.
Представители самой OpenAI не подтвердили, но и не опровергли использование YouTube для пополнения датасета GPT-4.
- OpenAI будет обучать нейросети на основе статей Financial Times
- Китайские ученые создали генератор роликов, близкий к SORA от OpenAI
- СМИ: новая Xbox будет «крупным скачком» с улучшенной обратной совместимостью
- Лара Крофт, Стив, Шэдоухарт: самые знаковые герои игр по версии опроса BAFTA
- СМИ: новая языковая модель OpenAI выйдет в начале 2025 года
- СМИ: Microsoft и OpenAI хотят создать ИИ-суперкомпьютер за $100 миллиардов