ソフトウェア

AI対戦アリーナで無双していた謎の覆面チャットボット「gpt2-chatbot」がOpenAIの新モデルだった可能性が急浮上


チャットボットの能力をバトル形式で比較評価する「Chatbot Arena」というサイトに登場するやいなや、GPT-4などの強豪モデルを次々と打ち負かして話題となっていたAIの正体が、OpenAIの新モデルである可能性が高いことが判明しました。

gpt2-chatbot confirmed as OpenAI
https://simonwillison.net/2024/May/8/gpt2-chatbot-confirmed-as-openai/

Mystery chatbot is likely a new OpenAI product
https://www.axios.com/2024/05/02/mystery-chatbot-openai-gpt2

Is this mystery chatbot really GPT-4.5 in disguise? Here's how to see for yourself | ZDNET
https://www.zdnet.com/article/is-this-mystery-chatbot-really-gpt-4-5-in-disguise-heres-how-to-see-for-yourself/

Chatbot Arenaは、ユーザーが複数の大規模言語モデル(LLM)を使用してどちらが優れているかを投票することでチャットボットの格付けを行う、対戦型AIプラットフォームです。


2024年4月、このChatbot Arenaに突然追加された「gpt2-chatbot」というモデルが、GeminiやClaude、GPT-4など主流のLLMを次々と倒してリーダーボードにランクインしたことが話題となりました。このモデルには詳細情報がなく出どころが不明でしたが、プロンプトに対する挙動がOpenAIのものと似ていたため、GPT-4.5かGPT-5のテストが秘密裏に行われているのではないかとのうわさが流れていました。

謎の高性能AIモデル「gpt2-chatbot」がChatbot Arenaに登場、GPT-4.5かGPT-5なのではないかと話題に - GIGAZINE


AIユーザーの話題をさらった直後、gpt2-chatbotはChatbot Arenaから姿を消しましたが、約1週間後の2024年5月6日に派生版とおぼしき「im-a-good-gpt2-chatbot」と「im-also-a-good-gpt2-chatbot」の2つのモデルがChatbot Arenaに登録されました。

再び注目の的となったgpt2-chatbotシリーズですが、エラーメッセージによりOpenAIのAPIに関連していることが発覚したことから、GPTモデルとの予測が確実視されるようになりました。


また、モデルが登録される直前にOpenAIのサム・アルトマンCEOが「im-a-good-gpt2-chatbot」とX(旧Twitter)に投稿していたことも、このLLMの出自を裏付けていると考えられています。


Chatbot Arenaのモデルの多くはプルダウンメニューから選択して使える一方、gpt2-chatbotの後継モデルはランダム対戦で偶然出会わないと会話できませんが、運よく会話できたユーザーからは称賛の声が上がっています。

例えば、あるXユーザーは「im-also-a-good-gpt2-chatbotが一発でFlappy Birdのクローンゲームを作成しました。しかも簡単なプロンプトで」と投稿しています。


「1トンの羽毛と1トンの鉛のどちらが重い?」という基本的な物理学の質問をしてみたところ、Claude 3の3つのモデルの1つである「Haiku」は1トンの鉛の方が重いと主張してしまったのに対し、im-a-good-gpt2-chatbotは「1トンの羽毛も1トンの鉛も同じ重さ、つまり1トンです」と答えたと報告した人もいます。


また別のXユーザーは「im-a-good-gpt2-chatbotはとても優秀で、私のためにClaudeのOpusを使用するコードインタプリタを作ってくれたので、存在論的ショックで失神してしまいましたよ」と冗談を飛ばしています。


一方、「間違いなくオープンソースのモデルよりも高性能で、場合によってはGPT4-turboよりも優れています」としつつも、Claude 3 Opusより優れているわけではないことや、特定のプロンプトを使うとフリーズしてしまうことを指摘するユーザーもいました。


ニュースサイト・Axiosによると、2024年5月1日にハーバード大学で講演したアルトマンCEOは、gpt2-chatbotに言及して「GPT-4.5ではありません」と語ったとのこと。また、海外メディアのThe Informationは、OpenAIが2024年5月9日に新製品の社内デモを企画していたものの、延期になったと報じました。なお、このイベントで何が発表される予定だったのかは不明です。

Axiosは「もしgpt2-chatbotがOpenAI製だったとすると、同社は興奮をあおるためか、もしくはこのチャットボットが実地でどのように動作するのかを確認するためにステルスモードで展開したのでしょう。テストであれいたずらであれ、詳細はすぐにわかるはずです」と述べました。

なお、実際に遭遇したim-a-good-gpt2-chatbotに日本語で質問するとこんな感じ。非常に自然な受け答えが可能なことがわかります。


そんなim-a-good-gpt2-chatbotに前述の物理学の質問に似た質問をぶつけてみたところ、以下のように回答しました。


・つづき
「im-also-a-good-gpt2-chatbot」の正体が「GPT-4o」であることがOpenAIの研究員によって明かされました。


GPT-4oの詳細は以下の記事で確認できます。

OpenAIが「GPT-4o」を発表、人間と同等の速さでテキスト・音声・カメラ入力を処理可能で「周囲を見渡して状況判断」「数学の解き方を教える」「AI同士で会話して作曲」など多様な操作を実行可能 - GIGAZINE

この記事のタイトルとURLをコピーする

・関連記事
OpenAIの次世代大規模言語モデル「GPT-5」が2024年夏に公開されるとの報道 - GIGAZINE

OpenAIが「GPT-5」の商標登録を出願していたと判明 - GIGAZINE

OpenAIがChatGPTのモデル仕様を公開、「性的な話題はNGだが科学的な文脈ならOK」「犯罪の助長はNGだが犯罪防止のための情報提供はOK」などChatGPTの応答ルールが盛りだくさん - GIGAZINE

in ソフトウェア, Posted by log1l_ks

You can read the machine translated English article here.