СМИ: GPT-4 обучали на множестве расшифрованных роликов с YouTube
OpenAI якобы пошла на такой шаг из-за недостатка данных.
Кстати, на сайте читать удобнее
Компания OpenAI использовала для обучения модели GPT-4 расшифрованные видеоролики с YouTube, утверждает The New York Times. Так в OpenAI якобы боролись с недостатком данных для обучения ИИ.
По словам источников издания, к 2021 году у OpenAI закончились наборы данных, которые можно было использовать для обучения новой модели. Компания рассматривала несколько дополнительных источников, включая расшифрованные ролики, подкасты и аудиокниги.
Чтобы собрать данные для обучения GPT-4, в OpenAI создали еще одну модель, Whisper. Ее задача — транслировать речь в текст; обработав с помощью Whisper более миллиона часов роликов, OpenAI использовала эти данные для обучения новой большой языковой модели.
Похожим образом, утверждают источники, поступала и Google, владеющая YouTube. Компания использовала расшифровки роликов с видеосервиса для обучения своих моделей — это в разговоре с The New York Times подтвердил представитель Google Мэтт Брайант.
Как отмечает Брайант, пользовательское соглашение YouTube запрещает несанкционированное сканирование или скачивание видеороликов. По словам источников The New York Times, в OpenAI считали, что ничего не нарушают при использовании данных с YouTube для обучения ИИ.
Представители самой OpenAI не подтвердили, но и не опровергли использование YouTube для пополнения датасета GPT-4.