07.04.2024 в 11:50 Evernews

СМИ: GPT-4 обучали на множестве расшифрованных роликов с YouTube

OpenAI якобы пошла на такой шаг из-за недостатка данных.

Компания OpenAI использовала для обучения модели GPT-4 расшифрованные видеоролики с YouTube, утверждает The New York Times. Так в OpenAI якобы боролись с недостатком данных для обучения ИИ.

По словам источников издания, к 2021 году у OpenAI закончились наборы данных, которые можно было использовать для обучения новой модели. Компания рассматривала несколько дополнительных источников, включая расшифрованные ролики, подкасты и аудиокниги.

Чтобы собрать данные для обучения GPT-4, в OpenAI создали еще одну модель, Whisper. Ее задача — транслировать речь в текст; обработав с помощью Whisper более миллиона часов роликов, OpenAI использовала эти данные для обучения новой большой языковой модели.

Похожим образом, утверждают источники, поступала и Google, владеющая YouTube. Компания использовала расшифровки роликов с видеосервиса для обучения своих моделей — это в разговоре с The New York Times подтвердил представитель Google Мэтт Брайант.

Как отмечает Брайант, пользовательское соглашение YouTube запрещает несанкционированное сканирование или скачивание видеороликов. По словам источников The New York Times, в OpenAI считали, что ничего не нарушают при использовании данных с YouTube для обучения ИИ.

Представители самой OpenAI не подтвердили, но и не опровергли использование YouTube для пополнения датасета GPT-4.