OpenAIは、100万時間のYouTubeデータで最高のAIモデルをトレーニングしたと伝えられている

それはただの 数日前 YouTube の CEO は、OpenAI に対して、ビデオ プラットフォームから取得したデータを使用することは利用規約に違反することになると警告を発しました。

ギャラリーを開く 2

ギャラリーを見る – 2 枚の画像

Advertisement

現在、ニューヨーク・タイムズ紙から、音声とビデオのトランスクリプトを伝えた関係者によると、OpenAIが100万時間以上のYouTubeビデオを書き起こして、その最先端のAIモデルであるGPT-4をトレーニングしたという報道が浮上している。同社の最新の AI モデルにフィードされました。 さらに、これらの情報筋は、YouTube の所有者である Google も AI モデルをトレーニングするために音声とビデオのトランスクリプトを使用しているとも述べており、どちらも YouTube の利用規約に明らかに違反しています。

Googleの広報担当者マット・ブライアント氏はNYTに対し、「YouTube コンテンツの不正なスクレイピングまたはダウンロードなお、NYTはOpenAIとMicrosoftが新聞の内容を無断で使用したとして、著作権侵害で訴訟を起こしている。

OpenAIは、印象的なAIモデルをトレーニングするためにデータをどこで取得したかを一般に知らせることに対して奇妙なことに抑制されてきたため、この問題の核心は多面的である。 もう 1 つの問題は、米国法のグレーゾーンとして知られるフェアユースが適用される際の合法性、つまり著作権侵害の欠如です。

1つ確かなことは、AIモデルがどのようにトレーニングされているかに関する情報が漏洩した場合、AI企業はさらに多くの著作権訴訟に直面するだけだということだ。なぜなら、これらの優れたモデルをトレーニングするために使用される大量のデータは100%ライセンスを取得することはできないからだ。

Advertisement

Advertisement