Googleは12月6日、新たなAIモデル「Gemini」を発表しました。
» Introducing Gemini: our largest and most capable AI model
Googleは「Gemini」がマルチモーダルであることを強くアピールしましたが、その一環として公開されたデモ動画が「捏造なのではないか」と批判する報道が登場しています。
*Category:テクノロジー Technology
「Gemini」のデモ動画、実際には「静止画」を使っていた
Googleによれば、「Gemini」はテキスト、画像、音声などを同時に認識・理解するように訓練されており、「マルチモーダル推論機能」に優れているとのこと。
それを示すデモ動画として公開されたのがこちら。タイトルは「Hands-on with Gemini: Interacting with multimodal AI(Geminiのハンズオン:マルチモーダルAIとの対話)」となっています。
動画は、男性が絵を書いたり、ジェスチャーをしながら質問をし、「Gemini」がそれを見て回答するという内容です。「Gemini」は男性の質問にリアルタイムに答えており、かなりスムーズにコミュニケーションが取れているようにみえます。
この動画はGoogleのサンダー・ピチャイCEOもXに投稿し、大きな話題を呼びました。「Gemini」の発表を受け、Googleの株価も5%上昇したと報じられています。
» Google shares pop 5% after company announces Gemini AI model
一方、米テックメディア「TechCrunch」は12月8日、このGoogleのデモ動画について「Google’s best Gemini demo was faked(Google最高のGemini・デモは捏造だった)」と報じました。
» Google’s best Gemini demo was faked
同メディアはまず、Googleの広報担当者が、実際には「映像の静止画フレーム」を使い、テキストでプロンプトを提示していたことを指摘しています。この点はコラムニストのパーミー・オルセン氏が最初に指摘したものとのこと。
“We created the demo by capturing footage in order to test Gemini’s capabilities on a wide range of challenges. Then we prompted Gemini using still image frames from the footage, and prompting via text.”
訳:私たちは、Geminiの能力をさまざまな課題でテストするために、映像をキャプチャしてデモを作成しました。そして、その映像の静止画フレームを使ってGeminiにプロンプトを出し、テキストでプロンプトを出したのです。
例えばデモ動画の2分45秒では、無言で一連のジェスチャーをする手が映し出され、それに対して「Gemini」がすぐに「あなたが何をやっているかわかった、ジャンケンをしているんでしょ!」と答えるシーンがあります。
しかしGoogleが同時に公開したブログ記事、「How it’s Made: Interacting with Gemini through multimodal prompting(作り方:マルチモーダルなプロンプトによるGeminiとの対話)」では、「3つのジェスチャー」を一度にみせ、プロンプトとしては「私が何をしていると思う?ヒント:ゲームです。」と入力していることが説明されています。
» How it’s Made: Interacting with Gemini through multimodal prompting
デモ動画の4分28秒では、太陽、土星、地球の落書きがされた3枚の付箋が置かれ、ユーザーが「この順番でいいですか?」と問うと、「Gemini」は「いいえ、太陽、地球、土星です」とすぐに答えます。
一方ブログ記事によれば、実際に使用されたプロンプトは「この順番は正しいですか?太陽からの距離を考慮し、その理由を説明しなさい」というものです。
「TechCrunch」はこれらの内容から、「Gemini」のマルチモーダルAIとしての能力を評価した上で、このデモ動画は「フェイク」であると指摘しています。
But the video is called “Hands-on with Gemini” and when they say it shows “our favorite interactions,” it is implicit that the interactions we see are those interactions. They were not. Sometimes they were more involved; sometimes they were totally different; sometimes they don’t really appear to have happened at all. We’re not even told what model it is — the Gemini Pro one people can use now, or (more likely) the Ultra version slated for release next year?
訳:Googleがこのような説明をしたとき、私たちは味付けのビデオを見せただけだと考えるべきだったのだろうか?そうであれば、GoogleのAIのデモに登場するすべての能力は、効果的に誇張されていると考えるべきなのかもしれない。私は見出しで、このビデオは「フェイク」だと書いた。最初は、この厳しい表現が正当化されるのかどうかわからなかった(確かにGoogleはそう思っていない。)しかし、実際の部分も含まれているにもかかわらず、このビデオは現実を反映していない。フェイクだ。
これに対し、Google DeepMindの研究担当副社長オリオール・ヴィンヤルス氏はXへの投稿で、「Geminiがどのようにビデオの作成に使われたか」をより詳しく説明しています。
同氏によれば、プロンプトと出力は「本物」であり、「簡潔にするために短縮されている」とのこと。動画については「開発者にインスピレーションを与えるために作った」と説明しています。
同時に投稿された動画では、惑星の並んだ画像を見せて「これは正しい?」という質問で、「Gemini」が「いいえ、太陽、地球、土星です」という回答をしている、動画の通りの様子が表示されています。ただし、「あなたは科学、空気力学、惑星の専門家です。」という前提のプロンプト付きです。
Really happy to see the interest around our “Hands-on with Gemini” video. In our developer blog yesterday, we broke down how Gemini was used to create it. https://t.co/50gjMkaVc0
We gave Gemini sequences of different modalities — image and text in this case — and had it respond… pic.twitter.com/Beba5M5dHP
— Oriol Vinyals (@OriolVinyalsML) December 7, 2023
ヴィンヤンス氏はまた、このデモは「Gemini Pro」で行われたもので、12月13日にアクセスが開始されれば、開発者は同様のことを試すことができると主張しています。
オリジナルサイトで読む : AppBank
Google新AI「Gemini」の公式デモ動画は〝フェイク〟との指摘。これが現実です