ソフトウェア

100万時間以上のYouTube動画をOpenAIがAIモデルのトレーニングに利用していたことが判明


OpenAIが、AIモデルのトレーニングに用いるために100万時間を超える分量のYouTube動画をダウンロードして利用していたことがThe NewYork Timesの指摘でわかりました。なお、YouTubeと同じ親会社AlphabetのもとにいるGoogleは、OpenAIの行為に気付いていましたが、自分たちも独自のAIモデルのトレーニングにYouTubeの動画を活用していたため、行動を起こさなかったとのことです。

How Tech Giants Cut Corners to Harvest Data for A.I. - The New York Times
https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html


Google reportedly let OpenAI transcribe a million hours of YouTube videos to train GPT-4 - Neowin
https://www.neowin.net/news/google-reportedly-let-openai-transcribe-a-million-hours-of-youtube-videos-to-train-gpt-4/

OpenAI transcribed over a million hours of YouTube videos to train GPT-4 - The Verge
https://www.theverge.com/2024/4/6/24122915/openai-youtube-transcripts-gpt-4-training-data-google

OpenAI and Google reportedly used transcriptions of YouTube videos to train their AI models
https://www.engadget.com/openai-and-google-reportedly-used-transcriptions-of-youtube-videos-to-train-their-ai-models-163531073.html

The NewYork Timesの指摘によると、OpenAIは2021年時点でネット上にある「信頼できる英文テキスト」を使い果たし、次のAI開発にあたって新たなテキストが必要になったとのこと。


そのため、高精度な文字起こしを実現する「Whisper」を開発。

OpenAIが高性能文字起こしAI「Whisper」を発表、日本語にも対応し早口言葉や歌詞も高精度に文字起こし可能 - GIGAZINE


そして、Whisperを用いてYouTubeにある動画の文字起こしを行い、AI用のトレーニング素材を入手したそうです。

YouTubeの動画を用いることについて、OpenAIでも議論はあったものの、グレッグ・ブロックマン社長も個人的にデータ収集に協力し、結果として生まれたのがGPT-4だとのこと。

「GPT-4」発表、司法試験上位10%&日本語でもめちゃくちゃ高性能&画像処理もプログラミングも可能で「初代iPhoneと同等の衝撃」とも評される - GIGAZINE


なお、報告によればGoogleの中にはOpenAIの行いに気付いていた人もいるようですが、トレーニング素材を必要としていたGoogleも同じくYouTubeの動画を素材として独自にAIモデルのトレーニングを行っていたため、何も行動を起こさなかったと指摘されています。

Googleは2023年7月、GoogleドキュメントやGoogleスプレッドシートなどのコンテンツもすべてトレーニングに利用できるようにするため、プライバシーポリシーを変更しています。

「オンラインで公開されたものすべてをAIのためにスクレイピングする」とGoogleが発表 - GIGAZINE


研究者からは、2026年までにトレーニングに使うデータが枯渇するとの指摘がありますが、実際には、すでに相当無理なことをしている状態にあるようです。

2026年までにAIのトレーニングに使うデータが枯渇する「データ不足問題」とは? - GIGAZINE


なお、The Vergeのメールインタビューに対して、OpenAI広報のリンゼイ・ヘルド氏は、グローバルな研究競争力のためにOpenAIがユニークなデータセットをキュレーションしていること、およびソースとして公開データおよびパートナーシップを結んだ非公開データを含む多数のものを使用していて、独自の合成データの生成も検討していることに言及したそうです。

一方、Google広報のマット・ブライアント氏は「robots.txtおよび利用規約で、YouTubeのコンテンツの無断スクレイピングやダウンロードは禁止しています」と述べました。

YouTubeのニール・モハンCEOも、YouTubeのデータをAIのトレーニングに用いるのはルール違反であることを明言しています。

YouTubeのCEOが「AIのトレーニングへの利用はルール違反」「大事なのはクリエイターがYouTubeで成功すること」と語る - GIGAZINE

この記事のタイトルとURLをコピーする

・関連記事
OpenAIがAIのトレーニングにコンテンツを利用したメディアにライセンス料として年間100万ドルから500万ドルを支払いか - GIGAZINE

Googleがメディアの記事をAI「Gemini」のトレーニングに使用した件で約410億円もの罰金を競争当局から科される - GIGAZINE

Appleがニュース記事で生成AIをトレーニングするためさまざまなメディアと5000万ドル以上の複数年契約について話し合ったことが発覚 - GIGAZINE

TumblrやWordPressがユーザーデータをAIトレーニングに提供する契約を結ぼうとしていたことが判明 - GIGAZINE

RedditがAIモデルのトレーニングに自社コンテンツの利用を許可するライセンス契約を締結か - GIGAZINE

OpenAIがAPIのアップデートを発表、GPT-4のタスク完遂率向上&新モデルの追加&使用状況をAPIキーごとに追跡できる機能など盛りだくさん - GIGAZINE

in ソフトウェア,   ネットサービス, Posted by logc_nt

You can read the machine translated English article here.