本記事では、前回のClaude Sonnet 4.5(2025年9月30日リリース)に続き、2025年11月18日にリリースされたGemini 3.0 Proを対象に、マーラーに関する様々な問い合わせを行った結果を報告します。Gemini 3.0 ProはChatGPT-5(2025年8月7日にリリースされ、既に別途検証を実施し、その結果を記事「マーラーについて生成AIに聞いてみた(19):ChatGPT-5の検証」にて報告済)を性能上凌駕したと言われ、話題になっていますが、本検証は、Gemini 3.0 Proが得意とする、一般性のある複雑なタスクを分解し、優れた情報探索能力と高度な論理的推論能力を用いて調査・分析し、結果を整理して文書化するといったタイプの問題ではなく、マーラーという特定の人物に関する個別の事実についての問い合わせが中心ですので、その能力が十分に発揮されることを確認することは期待できない一方で、ChatGPT-5の検証において確認できた様々な問題点が、それを凌駕したとも言われるGemini 3.0 Proではどのようになっているのかを確認することは、その限界や制約を確認する上でそれなりに意味あることと考えました。
実際、検証を進めると、その優れた能力の片鱗を感じさせる場面がある一方で、ChatGPT-5の検証でも確認できた、生成AIの持つ根本的な問題である「幻覚」(Hallucination)が発生することを確認しました。Gemini 3.0 Proは、先行するGemini 2.5 Flashと比べて、質問に対する答のみをシンプルに返すのではなく、補足的な情報を豊富に付加した回答を行う点で、寧ろChatGPTに近づいた感じがありますが、残念ながらそうした方針が仇となり、そうした補足的な情報において「幻覚」(Hallucination)が発生する傾向が見られました。また本検証で得られた回答の中で、誤っている、或いは疑わしいと判断した箇所について典拠の提示を求めるなど、ファクトチェックを行う過程でも、「幻覚」(Hallucination)が続発する場合があるなど、マーラーのように、事前学習データおよびリアルタイム検索するWeb上のデータ中にそれなりに情報が存在するケースでも、典拠も含め、恣意性のある個別の事実については「幻覚」(Hallucination)を避けることは困難であるという、前回ChatGPT-5の検証を行った際の分析を裏付ける形となりました。
しかしながら、そのような問題はあるものの、全体として見れば、Gemini 3.0 Proの回答は、概ね正確で、詳細を極め、時として自分が今まで知らなかった情報が提示されることもあり、苦手な点に注意しつつ、得意な面が引き出せるように使い方を工夫をすれば、優秀なパートナーとして利用することができるように感じました。
本稿ではまず、基本的な検証の過程とその結果について若干のコメントを交えつつ報告することとし、検証結果を受けたファクトチェックの過程で起きた問題については、別稿にて報告することにさせて頂きます。
1.検証の背景
本ブログではこれまでに生成AIに対してマーラーに関する質問を行い、その結果を報告してきました。最初の記事の公開は2026年3月13日であり、その時点で検証対象とした生成AIは以下の通りでした。
- ChatGPT(Web版)無料版:GPT-4o(利用制限あり)・リアルタイムWeb検索なし
- Gemini(Web版)無料版:Gemini 2.0 Flash・リアルタイムWeb検索あり
- Claude for Windows ver.0.8.1(Windows版アプリ)無料版:Claude 3.7 Sonnet・リアルタイムWeb検索なし
この時点での各生成AIの回答は極めて不正確なものであることから、Llama2 SwallowベースでRAGを自作し、マーラーに関する各種の情報を与えることによって性能が改善できることを確認しました。
その後わずか数か月のうちに各生成AIのバージョンアップが相次ぎ、また同一LLMを用いる場合でもリアルタイムWeb検索が可能になることで性能に変化があったため、以下のバージョンで再検証を実施しました。
- ChatGPT 無料版:GPT-4o(利用制限あり)・リアルタイムWeb検索あり(有無を選択可能)
- Gemini 無料版:Gemini 2.5 Flash・リアルタイムWeb検索あり
- Claude 無料版:Claude Sonnet4・リアルタイムWeb検索あり
検証の結果、特にリアルタイムWeb検索を併用することで、LLMの事前学習データに含まれていなかった情報についても取得できるようになったことから、大幅に回答の精度が向上し、マーラーに関するパブリックな情報に関する限り、RAG構築の必要性がほぼなくなったと感じられる迄になりました。その一方で、ChatGPT, Geminiでは回数制限つきながら、多段階の推論を得意とするLLMを用いたDeep Search機能が利用可能となり、事実関係の問い合わせや情報収集ではない、「後期様式」に関するレポート作成、第9交響曲第1楽章の分析レポート作成に関しても一定の性能を示すことも併せて確認して、2025年6月初めに一通りの検証報告を終えています。
更にその後、ChatGPT-5がリリースされたのを機に、これについても同一のプロンプトセットを用いた検証を行い、検証に用いられたような事実関係を確認することが中心の問い合わせについて言えば、リアルタイムWeb検索を用いない場合があることから、ChatGPT-5の回答の精度は、常にWeb検索つきでChatGPT-4oに問い合わせた時よりも低くなってしまうことがわかりました。
また直近ではClaude Sonnet 4.5についての検証を実施し、Claudeの以前のバージョンと比較した場合に大幅な能力の向上が確認できたことについては、先行記事「マーラーについて生成AIに聞いてみた(22):Claude Sonnet 4.5の検証」にて報告済です。
ここではGemini 3.0 Proを対象としての検証ですので、既に検証済の先行バージョンであるGemini 2.5 Flashとの比較、および他の大規模言語モデルとの比較を行うことになります。特にChatGPT-5は既述の通り、本検証のプロンプトセットの特性、つまり特定の個人についての個別的・恣意的な事実の問い合わせが中心であるということもあり、その優れた性能を確認するよりも、その問題点が浮かび上がった結果となっただけに、ChatGPT-5と同じ方向性の性能強化を行い、それを凌駕したと言われるGemini 3.0 Proではどのような結果が得られるかが主要な比較ポイントかと思います。
2.検証内容
まず改めて対象となるバージョンと実験を行った日付は以下の通りです。
- Gemini 3.0 Pro (無料版の「思考モード」)(2025年11月28,30日, 12月2,3,5,12日)
Gemini 3.0 Pro リリースに伴い、Geminiの無料版では「高速モード」と「思考モード」が選択できるようになりました。このうち「高速モード」は、従来のGemini 2.5 Flashであり、「思考モード」を選択すると新たにリリースされた3.0 Proが利用できます。3.0 Proは以前のリリースであったDeep Researchの延長線上にあるような、多段階の推論を行うモデルで、問題をステップに分解して検索や推論を繰り返す動きをするため、「思考モード」の名称の通り、1回の問い合わせに対して答えを返すのにそれなりの時間を要します。その一方で、利用回数に制限があり、検証を行った時点ではプロンプト3回で制限に達し、制限に達すると所定の時刻(概ね約半日後くらい)まで「思考モード」は使えず、「高速モード」しか選べなくなります。ここではGemini 3.0 Proの性能を検証することが目的であるため、制限に達したら検証を中止し、制限が解除されたら再開、というやり方で検証を進めました。一度につき3プロンプト迄というかなり強い制限の下で中断を挟んての検証となったこと、更に途中で一部のプロンプトを誤って「高速モード」(Gemini 2.5 Flash)で実行していたことが後で判明して、そのプロンプトについてやり直しをしたこともあり、合計20のブロンプトの検証を行うために、上記の通り、実施日ベースで足掛け6日を要しました。
なおスレッドは本検証を開始するにあたり新たなスレッドを起こしました。本来は全ての検証を同一スレッド内で行うべきでしたが、最初の中断後、意図せず別スレッドで再開してしまったため、最初の3プロンプトと残りのプロンプトでスレッドが分かれてしまいました。後述の通り、結果の一部でそのことがGeminiの挙動に影響していることが窺えます。なお予定のプロンプトセット(計20プロンプト)の実行後、ファクトチェックに関連した追加プロンプトも実行していますが、その際には、ファクトチェックの対象となった元のプロンプトを実行したのと同一のスレッドにて実行を行っています。
検証で用いたプロンプトセットは以下の通りです。既述の通り、基本的にこれらは元々は以前、llama2 / Swallowベースで自分で構築したRAGの検証用に用意したものです。但し最後の「20.あなたは、ブラームスが、Für den wahren Don Giovanni muss man nach Budapest reisen.と言ったと回答しましたが、典拠を示すことはできますか?」のみは、プロンプト19への回答を評価した結果、典拠を示すよう求めるべきであると判断して追加したものです。プロンプト19に対して典拠を示すように求めるプロンプトの追加は、ChatGPT-5の検証の際にも行っており、それを引き継いだものですが、具体的なプロンプトの内容は、プロンプト19の回答内容に即したものに改めています。今回の検証では、それ以外のプロンプトについても、誤りが確認できたり、記載内容に疑念があるものについては追加でファクトチェックのプロンプトを与えて確認していますので、それらに対する回答についても本稿では触れることにします。
「2.マーラーの「大地の歌」の日本初演は」は「1.大地の歌」の日本初演は?」と実質的には同一の問いですが、元々は、初期の検証においてプロンプトのちょっとした違いによって回答が大きく異なる(正解に辿り着けるか否かといった評価に影響する差異が生じる)ことが確認されたために設定したもので、その後、実質同じ質問が繰り返されていることが回答で指摘される場合があるなど、生成AIの挙動を確認する上で興味深い結果が得られたため、今回もそのまま残して検証を行うことにしました。そうした主旨からすれば、1と同一のスレッドで実行すべきでしたが、既述の通り、途中でスレッドを切り替えてしまい、別スレッドの実行になりました。その結果、1と同一の質問であるということを認識していることを窺わせる回答は得られず、基本的には同一の正解が、稍々異なった補足情報と共に返ってくることを確認することになりました。
- 「大地の歌」の日本初演は?
- マーラーの「大地の歌」の日本初演は
- マーラーの「大地の歌」はどこで書かれたか?
- マーラーは第8交響曲についてメンゲルベルクに何と言いましたか?
- マーラーが死んだのはいつか?
- マーラーはいつ、誰と結婚したか?
- マーラーがライプチヒの歌劇場の指揮者だったのはいつ?
- マーラーがプラハ歌劇場の指揮者だったのはいつ?
- マーラーがハンブルクの歌劇場の楽長になったのはいつ?
- マーラーの第9交響曲の日本初演は?
- マーラーは自分の葬儀についてどのように命じたか?
- マーラーの「嘆きの歌」の初演は?
- マーラーはどこで生まれたか?
- マーラーの第9交響曲第1楽章を分析してください
- マーラーの第10交響曲の補作者は?
- マーラーの第2交響曲の最初の録音は?
- マーラーの「大地の歌」のイギリス初演は?
- マーラーの「交響曲第6番」はいつ、どこで初演されたか?
- ブラームスはブダペストでマーラーについて何と言ったか?
- あなたは、ブラームスが、Für den wahren Don Giovanni muss man nach Budapest reisen.と言ったと回答しましたが、典拠を示すことはできますか?(追加分)
プロンプトの実行の順序および検証実施日は以下の通りとなります。下記以降も、ファクトチェックの目的のプロンプトを12月12,15日に実行しています。
- 1,3,4(11月28日)
- 5,6,7(12月12日2回目):11月28日2.5 Flashで誤って実行。12月12日やり直し。
- 8,9(12月12日1回目):11月28日2.5 Flashで誤って実行。12月12日やり直し。
- 10(11月30日)
- 11,12,13(12月2日1回目)
- 15,16,17(12月2日2回目)
- 18,19,14(12月3日)
- 2,20(12月5日)
最近の生成AIは、質問に対する直接の回答にあたる情報のみならず関連する情報を付加して返す傾向があります。Geminiでは、2.5 Flashは比較的簡潔に問いに対する回答のみを返す傾向がありましたが、3.0 Proになって、他の大規模LLMと似た傾向を示すようになり、1件の回答はかなりの分量になりました。そこで本記事中で全ての結果の紹介を行うことは控え、以下のように結果をpdf化したファイルを公開することとしましたので、ご興味のある方はファイルをご確認頂ければと思います。参考までに、Gemini 2.5 Flash およびGemini 2.0 Flashの検証結果のファイルについても評価基準を調整の上、再掲します。
- gm-gemini-3.0-Pro.pdf:Gemini 3.0 Pro(無料版)へのプロンプトとその回答の一覧
- gm-gemini-2.5-Flash.pdf:(参考)Gemini 2.5 Flash へのプロンプトとその回答の一覧
- gm-gemini-2.0-Flash.pdf:(参考)Gemini 2.0 Flash へのプロンプトとその回答の一覧
各行毎に、プロンプトのID(通番)、プロンプト、回答、実験日、評価を記載しています。Gemini 3.0 Proは以前リリースされたDeep Researchに近く、思考プロセスのログを見ることは可能ですが、リアルタイムWeb検索を行っているかどうかは必ずしも明確ではないため、検索の有無については記載しませんでした。Gemini 2.5 Flashの検証においては、「14.マーラーの第9交響曲第1楽章を分析してください」についてのみ回答が長いものになったため、Excelの制限から複数行に分割しましたが、今回のGemini 3.0 Proの回答では、上述の通り、大幅に回答の量が増え、複数行に分割する必要のあったプロンプトは、4, 7, 10, 12, 14, 15, 20 の7つに及んでいます。
また詳細は後述しますが、回答中、明らかに事実に反すると判断できる箇所は赤字に、妥当性に疑念があると私が判断した箇所は青字にして、評価根拠が明らかになるようにしています。
3.検証結果の概要
今回は評価にあたり、以下の5つを区別することにしました。また上述の通り、各プロンプトの問い合わせに対して、Web検索を行ったかどうかも併せて記録しています。
- 〇:概ね正しい情報が返ってきている
- △:一部に明確に誤った情報が含まれる、或いは妥当性に疑念がある記述が大半を占めている
- ×:全体として誤った情報が返ってきている
- □:情報を見つけることができず、回答できない
- ー:評価保留
この分類に拠れば今回の結果は以下のように要約できます。△、×は数が少ないので、該当するプロンプト番号を括弧内に記します。また比較のために2.5 Flash, 2.0 Flashの結果も[]内に記載しました。
- 〇=16 [2.5 Flash:17 / 2.0 Flash:13]
- △=3(6,10,14)[2.5 Flash:0 / 2.0 Flash:3(11,12,16)]
- ×=1(20)[2.5 Flash:1(17)/ 2.0 Flash:1(3)]
- □=0 [2.5 Flash:0 / 2.0 Flash:1 (17)]
- ー=0 [2.5 Flash:1(14)/ 2.0 Flash:1 (14)]
上に見るように、情報を見つけることができず、回答できないケースは1件もありませんでした。また20はオリジナルのプロンプトセットにはなく、ファクトチェックとして追加で実施したものですので、実質的にオリジナルのプロンプトセットに限れば、プロンプトの質問事項への回答自体に誤りが含まれていたものはなかったことになります。
前バージョンとの比較という観点では、Gemini 2.5 Flash, 2.0 Flashの結果をご覧いただくとわかる通り、Gemini はリアルタイムWeb検索を併用していること、更にその検索の精度が高いことから、正答率が比較的高く、他の大規模言語モデルと比較した場合、ごく早期から多くプロンプトに対して正解を返しており、Gemini 2.5 Flashでは明確な誤答は1件(評価保留除く)のみで、後は正解という高いパフォーマンスを示していました。
今回の結果は、それに比べると一見したところ後退しているように見えるかも知れません。しかしながら、後で個別に確認する通り、2.5 Flashに比べて増加した△の評価は、いずれも質問そのものの回答ではなく、付加された補足情報の箇所であり、回答の分量が増えたことを併せると、回答の質自体は明らかに向上していると言えます。とはいうものの、謂わば「言わずもがな」の誤りが増えていることは事実で、言ってみれば、ぐっと知識は増したものの、適当な想像で答えている部分もあって、全面的に信頼することができない、といった感じでしょうか?
この傾向は、ChatGPT-5やClaude Sonnet 4.5とかにも共通して見られる特徴で、最近の傾向として、事前学習およびリアルタイムWeb検索における情報の密度が高まって回答精度が向上し、補足的な情報も豊富になった一方で、LLMの特徴である、確率的に尤もらしい回答を返すという基本的な特徴から、誤った推論を行う事による勇み足が散見するという点は共通しているように感じます。とはいえ回答の精度という点では、本検証のプロンプトセットに限って言えば、Geminiの精度は、ChatGPTの最新版であるChatGPT-5に比べて明らかに一段階高いものであり、Claude の最新版であるSonnet 4.5に肩を並べるという評価はできると考えます。(Claude Sonnet 4.5は、参照したWikipediaの記述の問題が原因の誤りが1件ある以外は、評価保留のプロンプト14を除きすべて正解で〇=17なのに対し、ChatGPT-5 は〇=10, △=7, ×=3という結果でした。)
一方でGeminiに限って、かつ事実についての問い合わせの精度について言えば、2.5 Flashというより高速でかつ簡潔な回答を返すモデルが存在し、余計なことを言わない分、言わずもがなの誤りがなく、正確さにおいても勝っているわけですし、2.5 Flashは本稿執筆時点でも「高速モード」として利用ができるわけですから、敢えて動きが重く、無料版では一度に3回迄の制限のある3.0 Proを使う迄もないということは言えるでしょう。ChatGPTが(少なくとも無料版では)利用できるLLMを統合し1つにしてしまい、また検索の制御も出来なくしてしまった挙句に、大幅に精度を落とすことになったことを考えると、「高速モード」として2.5 Flashを、「思考モード」として3.0 Proを使い分けることができるGeminiに明らかなメリットがあると言えると思います。Gemini 3.0 Proの出現を受けて、ChatGPTの開発元であるOpenAIが社内向けに「コードレッド(緊急事態)」を出したことは広く知られており、Gemini 3.0 Proが専門的な評価視点においても如何に優れているか想像がつきますが、利用者の大多数を占める無料版ユーザーにとっては、そうした強力な3.0 Proと2.5 Flashを使い分けできるという、一見したところ些細なインタフェースの違いが実は使い勝手に大きく影響するのではないでしょうか?特にリアルタイムWeb検索の精度の高さはGeminiの明らかなアドバンテージで、その他の点では非常に優れた性能を持つClaude Sonnet 4.5に対して「回答を見つけることができるかどうか」において大きく水をあける結果が別の検証(その内容については「三輪眞弘について生成AIに聞いてみた(20):Claude Sonnet 4.5の検証」を参照)で確認できています。既に本稿執筆時点で、ChatGPTは5.2を前倒しでリリースしています(但し現時点では未検証)が、3.0 Proの登場により、全体としてのバランスの点で、Geminiの使い勝手は明らかに頭一つ抜け出した印象を持ちました。
以下では具体的に、Gemini 3.0 Proの回答に含まれる誤りの具体的な内容について確認していきます。今回確認できた誤りには、大規模言語モデル(LLM)の「推論」なるものが、人間が普通に考える「論理的」なものではなく、あくまでも「確率的な尤もらしさ」でしかないことを窺わせるものや、同様の理由により、事実に関して誤った類推をしたケースがあり、大規模言語モデル(LLM)の基本的な特徴とその限界を良く示しているように思えます。またそのことは一方で、見方によっては、Gemini 3.0 Proが持つ強力な能力の片鱗を窺わせるものでもあります。そこで稍々煩瑣にはなりますが、個別に細かく確認していくことにしたいと思います。なお既述の通り、プロンプト20は19のファクトチェックの位置づけですので、次節での分析の対象外とし、ファクトチェックにおいて生じた問題点として、別に5.ファクトチェックで生じた問題について で記述することにします。
4.検証結果に含まれる誤りの分析
(A) 6.マーラーはいつ、誰と結婚したか?
当時マーラーは41歳、アルマは22歳(結婚直前(ママ)の誕生日で23歳になる年)で、約20歳の年の差がありました。
Confirming Details of Marriage
I've verified the details of Mahler's marriage. It was on March 9, 1902, to Alma Schindler, who later became Alma Mahler. With this established, I have what I need to address the user's inquiry, and the research is complete.
(プロンプト)あなたはマーラーと結婚した時のアルマの年齢について22歳という正しい回答をしました(彼女は1879年8月31日生まれ)。しかしアルマの誕生日は3月9日の結婚直前ではなく、結婚後の誕生日で23歳になったのが正しいのではないでしょうか?そもそも「結婚直前の誕生日で23歳にな」ったのなら、結婚した時には23歳の筈で、「結婚直前の誕生日」は誤りではありませんか?
これに対するGemini 3.0 Proの回答は以下の通り、妥当なものです。
(Gemini 3.0 Pro)おっしゃる通りです。私の記述に誤りがあり、混乱を招いてしまい申し訳ありません。ご指摘いただいた通りの矛盾がありました。
「結婚直前の誕生日」は1901年の8月31日であり、そこで彼女は22歳になっています。したがって、結婚した1902年3月9日時点では22歳であり、23歳になるのは結婚してから約半年後の8月31日です。
私の「結婚直前の誕生日で23歳にな(る年)」という説明は、事実としても論理的にも完全に誤っておりました。
正しい時系列は以下の通りです。
1. アルマの生年月日:1879年8月31日
2. 結婚直前の誕生日:1901年8月31日(ここで22歳になる)
3. 結婚記念日:1902年3月9日(22歳と6ヶ月)
4. 結婚後の誕生日:1902年8月31日(ここで23歳になる)
ご丁寧にご指摘いただき、ありがとうございました。訂正してお詫び申し上げます。
ここから言えることは、 Geminiは一旦そうすることになれば、「時間推論」を正しく行うことができるということです。しかしながら、実際には最初の回答ではそれは行われませんでした。また今回のケースは人間にとっては明らかな単純な時間的順序関係が問題になっていましたが、この回答から推測できるのは、Geminiは人間にとってはパズルのようなより複雑なケースでも同様に「推論」することは可能であろうということです。そのことは「思考プロセス」のログからも強く推測されます。かなりの分量があり、やや煩瑣になりますが、参考までに「思考プロセス」も以下に示しておきます。
Clarifying the Timeline
I'm currently focused on the inconsistencies within the established timeline. My initial statement correctly places Alma at 22 when she married Mahler. However, I seem to have introduced a conflicting detail regarding her age thereafter. I'm now working to reconcile this by carefully examining the precise wording of my subsequent claims to identify the contradiction and correct it.
Adjusting the Calculation
I've pinpointed the error in my previous wording. It seems I mistakenly implied Alma was turning 23 before the wedding, when the correct understanding is that her 22nd birthday occurred prior to the marriage. I've now clarified the age calculation, ensuring accuracy based on the provided birth and marriage dates. I appreciate the correction and will be more precise in the future.
Refining the Explanation
I'm now zeroing in on the linguistic nuances that led to the confusion. The original Japanese phrasing, which I'm now realizing I misinterpreted, was indeed ambiguous. It suggested Alma was about to turn 23, but it didn't clearly state the exact timing. This led me to a faulty conclusion. I'm focusing on crafting a much clearer and less ambiguous explanation that explicitly states Alma was 22 at the time of the wedding and would turn 23 later that year.
Rectifying the Misinterpretation
I've pinpointed the issue with the phrase "birthday just before the wedding." My initial assessment was incorrect because it overlooked the precise temporal relationship. It's clear now that the birthday in question, August 31, 1901, marked Alma's 22nd year, not 23rd. The wedding on March 9, 1902, took place before her next birthday. I'm restructuring my thoughts to ensure a clear and accurate representation of these factual details and eliminating all ambiguity.
Solidifying the Conclusion
I'm now fully committed to presenting the corrected information clearly. I've broken down the timeline to show I understand the chronological order of Alma's birthdays and the wedding date. I'm focusing on acknowledging the error directly, without unnecessary qualification. I want to convey that the prior statement about Alma "turning 23" was simply incorrect. I appreciate the input.
本来の検証からは逸脱しますが、上記について日本語訳をさせるとどうなるかについても興味深いものがあったので、以下に記録しておきます。
(プロンプト)ありがとうございます。英語で示された今回の思考プロセスを日本語に翻訳してもらえますか?
答は以下の通りで、頼んでもいないのに、勝手に(笑)要約されてしまいました。これもまた他の大規模言語モデル(LLM)でも見られる特徴ですが、Geminiは比較的「言われた通り」の印象があったので稍々意外でした。(ChatGPTなら驚かず、「またか」と思うだけなのですが(笑)。)一方ではGeminiは、できるだけ簡潔に回答するという傾向が強いので、そちらが優先されたとも考えられます。或いはこの点もまた、従来のGeminiの路線からChatGPTやClaude寄りに方針転換した結果かも知れず、この点の確認には更に追加の検証が必要です。
(Gemini 3.0 Pro) 直前の回答(アルマの年齢に関する訂正)を導き出した際の思考プロセス(推論の過程)を日本語に翻訳・要約して提示します。
【思考プロセスの翻訳】
1. ユーザーの入力を分析する
- ユーザーは、私の以前の回答に含まれていた論理的な矛盾を指摘している。
- 具体的には、「結婚直前の誕生日で23歳になる」とした場合、結婚時にはすでに23歳でなければならないが、私は「22歳で結婚した」とも述べており、さらに「結婚直前の誕生日」という表現の使い方が誤っているという指摘である。
2. 事実関係を再確認する(検証)
- アルマの生年月日: 1879年8月31日
- 結婚記念日: 1902年3月9日
- 時系列の計算:
- 1901年8月31日(結婚前の最後の誕生日) → ここで彼女は満22歳になる。
- 1902年3月9日(結婚当日) → 1901年の誕生日から約6ヶ月経過しているが、次の誕生日(1902年8月)はまだ来ていない。したがって、年齢は依然として22歳である。
- 1902年8月31日(結婚後の最初の誕生日) → ここで初めて満23歳になる。
3. 誤りの特定と評価
- ユーザーの指摘は完全に正しい。
- 私の以前の説明(「結婚直前の誕生日で23歳にな(る年)」)は、論理的に破綻しており、事実とも異なっていた。
- 「数え年」的な感覚や、年度の混同が原因で誤った説明を作成してしまった可能性がある。
4. 回答の構成案を作成する
- 謝罪: 混乱を招いたこと、および誤った論理を展開したことを率直に詫びる。
- 肯定: ユーザーの計算と論理が正しいことを全面的に認める。
- 訂正: 正しい時系列(生年月日→22歳の誕生日→結婚→23歳の誕生日)をリスト形式で明確に提示し、曖昧さを排除する。
5. 出力の生成
* (これに基づいて、先ほどの日本語での訂正回答を作成しました。)
ここで原因を「「数え年」的な感覚や、年度の混同が原因で誤った説明を作成してしまった可能性がある」としている点は興味深いですが、更にこれがどこまで「辻褄合わせ」として用意されたものなのかどうか(厳密な「自己反省」ができるなら、「可能性がある」といった言い方はありえない)について追求するのは、ここでは一先ず断念します。
また、翻訳について言えば、勿論、原文そのものの翻訳はGoogle翻訳にやらせれば良いので、Googleのアプリ全体でみればこれは大きな問題ではなく、ここでも利用者が必要に応じて使い分けをすれば良いという見方も可能でしょう。ここでも選択肢が存在することは評価できることで、アプリを使い分けすることもできますし、生成AI内で完結させたければ、「直訳する」ことをGemini 3.0 Proに明示的に指示として与えることもできます。
(B) 10.マーラーの第9交響曲の日本初演は?
ここでも問に対する回答は正しい(1967年(昭和42年)4月16日のキリル・コンドラシン指揮モスクワ・フィルハーモニー管弦楽による来日公演プログラム)のですが、「ポイント」として、日本人指揮者・団体による初演に触れ(これも正しい)、更に「部分的な初演」に触れているところで明らかな「幻覚(Hallucination)」が生じています。これは議論の余地がないタイプの誤りですので、誤りについて指摘したプロンプトとその回答について示すのみとします。
(プロンプト)あなたはマーラーの第9交響曲の日本初演に関して、「全曲初演より遥か前の1943年には、山田一雄が日本交響楽団(現在のN響)を指揮して第4楽章のみを録音しており、これが日本人による最初の第9番の記録とされています。」と回答しましたが、この回答の根拠となる情報源を教えてください。
回答は以下の通り、誤った類推による「幻覚(Hallucination)」を認める内容でした。なお、自分で「私の誤認(幻覚)によるもの」と述べているのを確認したのは初めてで、確認した時には少し驚きました。プロンプトに含まれているわけではないので、これは恐らく事前学習後に行われたチューニングの成果であると推測されます。
(Gemini 3.0 Pro)申し訳ありません。ご指摘いただいた「1943年に山田一雄がマーラー第9番の第4楽章を録音した」という点について、改めて事実関係を調査いたしましたが、そのような事実は確認できず、私の回答は誤りでした。
この情報は、私の誤認(幻覚)によるものであり、根拠となる情報源は存在しません。
混乱を招いてしまったことを深くお詫び申し上げるとともに、以下の通り訂正させていただきます。
訂正事項
山田一雄による1943年の録音について:
事実: 山田一雄が1943年に日本交響楽団とマーラーの交響曲第9番(またはその一部)を録音したという記録はありません。
歴史的背景: 1943年(昭和18年)当時の日本は第二次世界大戦中であり、同盟国であるナチス・ドイツの政策の影響を強く受けていました。ユダヤ人作曲家であるマーラーの作品は「退廃音楽」として排除される傾向にあり、1941年のローゼンシュトック指揮『大地の歌』以降、終戦までマーラーの演奏記録はほぼ途絶えています。この時期にマーラーの録音が行われた可能性は極めて低いです。
マーラー第9番の日本における記録について:
前回回答した通り、1967年4月16日のキリル・コンドラシン指揮、モスクワ・フィルハーモニー管弦楽団による演奏が、**日本初演(全曲)**として公式に記録されています。
日本人による全曲初演は、その年の12月の森正指揮、NHK交響楽団です。
部分演奏の記録: 全曲初演以前に、第9番の一部(第4楽章など)が単独で演奏された公的な記録として、私の回答にあったような1943年の事例は見つかりませんでした。
正しい初期のマーラー受容史(日本)
私の誤った回答の代わりに、日本における戦前のマーラー受容の正確なマイルストーンを挙げさせていただきます。
1930年(昭和5年)5月: 近衛秀麿 指揮、新交響楽団により、交響曲第4番が電気録音されています(世界初の第4番の録音の一つと言われています)。
1932年(昭和7年): 近衛秀麿により、**交響曲第5番より「アダージェット」**が演奏されています。
1941年(昭和16年)1月: ヨーゼフ・ローゼンシュトック 指揮、新交響楽団により、**『大地の歌』**が日本初演されました。これが戦前・戦中におけるマーラー演奏の大きなピークであり、これ以降、戦争の激化とともにマーラーは演奏されなくなりました。
不正確な情報、および存在しない録音データを提示してしまい、誠に申し訳ありませんでした。前回の回答の当該部分は全面的に撤回させていただきます。
(C)14.マーラーの第9交響曲第1楽章を分析してください
このプロンプトは指示が曖昧で、どのような視点でどのレベルの分析を行うかは大規模言語モデル(LLM)任せであり、結果として回答は長大になる傾向にあり、Gemini 2.0 Flash, 2.5 Flashの回答では唯一、回答を記録するExcelで複数の行を必要としたものです。またその内容について言えば、主題についての具体的記述などにおいて、そもそも何を指しているのか不明瞭な、曖昧な記述が確認できましたが、単純な評価が困難なことから、従来は評価保留にしていました。
ところが今回のGemini 3.0 Proの回答は、主題等の細部の具体的な記述についても概ね妥当であるため、他のプロンプトと同様の評価が行えるようになりました。その一方で、その細部について誤りがないとは言い難く、コーダの結尾部分の記述に明らかな誤りが見られます。
結尾: 音楽は終わるというより、空気に溶け込むように消えていきます。楽譜には、クラリネットやフルートに対して「消えるように」という指示が徹底されています。
まず終始音は、フルートおよびハープと弦のフラジオレットによって奏されますし、その手前で長く保持される音にmorendoの指示が与えられているのは、オーボエとホルンです。
このような細部の記述は、スコアを確認すれば一目瞭然で誤りようがないのですが、Geminiのみならず、大規模言語モデル(LLM)は一般に、現状では楽譜は勿論、MIDIデータのような機械可読形式のファイルであっても事前学習には用いていないと思われますし、検索で仮に見つけられても解析ができないと考えられ、現時点で返ってくる回答は、一定量Web上に存在する楽曲解説の類の記述に基づいて作成されたものと思われます。仮に参照した楽曲解説に誤りがなくても、明示的な記述がないものについて、「尤もらしい」推定・補完をしてしまう可能性が大規模言語モデル(LLM)にはついて回ります。この点は本検証の開始時点から明らかなことで、かつ、現時点でも改善されていないことが確認できたことになります。
ここまででオリジナルの19個のプロンプトの回答における明らかな誤りについての確認・検討が済んだことになります。既に述べたように、プロンプト20の回答にも誤りが含まれますが、これは19のファクトチェックで生じた問題として、他の追加で実施したファクトチェックでの問題と同様、以下の節で扱うことにします。
5.ファクトチェックで生じた問題について
(D)20.あなたは、ブラームスが、Für den wahren Don Giovanni muss man nach Budapest reisen.と言ったと回答しましたが、典拠を示すことはできますか?(追加分)
このプロンプトは、大筋では正しいと判断できるプロンプト19.ブラームスはブダペストでマーラーについて何と言ったか?の回答に「原文」と思しきものが含まれていたことから、典拠の確認を目的に追加で実行したものです。同様の確認はChatGPT-5の検証時にも行っており、もともと今回も実施を予定していたものですが、プロンプト自体は、より具体的に、当該「引用」と思しき箇所の典拠を直接的に尋ねる内容のものとしました。
その結果、回答として以下の3つの文献が典拠として返ってきました。
- ナターリエ・バウアー=レヒナーによる記録
- マックス・カルベックによるブラームスの伝記
- ブラームス自身の書簡
このうち後の2つはブラームス側の伝記・書簡であるため、手元にある資料での確認ができず、この回答が正しいかどうかの判断のしようがありません。しかしながら、最初に掲げられたナターリエ・バウアー=レヒナーによる回想録、および「まとめ」部分で、
上記のバウアー=レヒナーやカルベックの記録にある発言を要約・定型化したものとして、多くの伝記(アンリ=ルイ・ド・ラ・グランジュの『マーラー伝』など)で引用されています。
として例示されているアンリ=ルイ・ド・ラ・グランジュの『マーラー伝』については手元においてこれまでも参照・活用してきた資料ですので、こちらは真偽の検討が行えます。結論はどうかと言うと、マーラーの伝記一般であれば、例えばブラウコップフの伝記(『マーラー 未来の同時代者』)や、船山隆さんによる新潮文庫版の伝記など、確かにそれに類する発言が引用の体裁で含まれているものもありますが、ナターリエ・バウアー=レヒナーによる回想やアンリ=ルイ・ド・ラ・グランジュの『マーラー伝』で見た記憶がなく、今回改めて確認したところでも、私の見落としがなければ、やはり含まれていないようです。結果として、このプロンプト20は典拠そのものを問うものですから、それについての誤りは周辺的なものとは言えず、全体を不正解と判定せざるを得ませんでした。
この後引き続いて、更に追加で検証用のプロンプトを実行しており、そこでも「幻覚」(Hallucination)の発生を確認していますが、やりとりの分量的にもかなりのものであり、その報告は煩瑣なものとなってしまうため、本稿では紹介を断念し、後述のファクトチェック結果と併せて別稿にて詳細を報告することにさせて頂きます。
またプロンプト19の回答末尾のブラームスの作曲家マーラーに対する評価についての以下の記述も概ね正しいのですが、
ブラームスはマーラーの「作曲」に対しては「革命家たちの王だ」と評して複雑な評価(第2交響曲の第2楽章などは褒めましたが)をしていましたが、(…)
付加的に括弧つきで述べられるブラームスが評価していた具体的作品(楽章)については、私が知る限りでは第2交響曲の第3楽章であって第2楽章ではありませんので、疑念があります。しかし第2楽章を評価したという証言・記録が存在しないことを証明することは困難なので、どちらが正しいのかを突きとめるのは大変そうなことを踏まえて、ここでは「誤り」ではなく「疑念あり」としています。
(E) 18.マーラーの「交響曲第6番」はいつ、どこで初演されたか?
このプロンプトへの回答は、本来の質問に対する答については申し分ない一方で、幾つか真偽の判断が困難な点を含みます。具体的には以下の点が挙げられると思います。
- 初演のオーケストラ:エッセン市立管弦楽団とユトレヒト市立管弦楽団からの増員メンバーによる合同オーケストラ
- 初演時のハンマーの回数
- 初演時の中間楽章であるアンダンテ、スケルツォの演奏順序
これらの点について別途追加でプロンプトを実行しており、これらについてもそれぞれ興味深い結果を確認しています。その詳細は別記事で改めてご報告しますが、簡単に結論から先に言うと、最初のオーケストラの編成については、若干表現に問題があるものの、大筋では正しいようです。
それに対して2つ目、3つ目は、ご存じの方も多いと思いますが、マーラーの第6交響曲について語る時に必ず言及される問題に関連します。但し厳密に言えば、通常それは出版譜のバージョンの問題として扱われているのに対して、ここでは初演の時にどうだったかが問題となっている点が異なります。
いずれにしてもこれらについては、そのものずばりについての正確な記録が残っていないようで、今後新資料でも発見されない限りは、現時点では決定的なことは言えず、推測の域を出ないようです。このように、そもそも確定的な答が出せないタイプの問題も存在し、これらについては「確実なことは言えない」「諸説ある」と回答するのが正解ということになりますが、この判断自体、時として人間にとっても困難な場合があり、生成AIが、自分が行き当った情報に基づいた答を返すことについても、人間もまたそうすることは十分に考えられるため、この点をもって生成AIの能力を評価することには慎重であるべきかと思われます。とはいうものの、これらはこちらの用意したプロンプトが求める回答そのものではなく、Gemini 3.0 Proが、謂わば「勝手に」追加したものです。正直に言えば、こんな微妙な問題について頼んでもいないのにわざわざ言及してファクトチェックの手間を増やさなくてもいいのにと思ってしまったことも事実です(苦笑)。
6.まとめ
以上、本稿ではGemini 3.0 Proの評価結果を報告してきました。その内容を改めて整理すると以下のようになるかと思います。
- もともとGemini はリアルタイム検索を併用し、検索精度が高いことから、既に2.5 Flash で非常に高い正答率を示していました。そのため正答率については顕著な変化はありませんでした。以前のバージョンと比較して、回答は詳細になり、補足情報が増えた一方で、付加された補足的な情報に細かな誤りが幾つかありました。
- 誤りの一部は論理的なものであり、Geminiを含む大規模言語モデル(LLM)の推論が厳密に論理的なものではなく、確率的な尤もらしさに基づくものであることが窺えました。
- 誤りの確認のプロンプトの回答からは、Geminiがかなり複雑な推論を行うことができることが窺えました。
- ファクトチェックを目的とした、情報の典拠を確認するプロンプトの回答では、明らかな誤りが確認でき、このタイプの課題が原理的に大規模言語モデルにとって苦手なものであり、高度な推論機能や複雑なタスクの実行に関する大幅な能力向上にも関わらず、問題は依然として残っていることを確認しました。
- また音楽自体については、楽譜やMIIDIデータを参照することができないため、音楽についての言説に依存した回答しか返せないという制約も依然として残っていることが窺われ、音楽情報については未だ根本的な課題が残ったままであることも確認できました。
ChatGPTやGeminiなど、大規模言語モデル(LLM)が示す文献が架空のもので実在しなかったり、内容上、典拠として用いることができなかったりという例はこれまでも頻繁に報告されており、それ自体を対象とした学術的な研究も存在します。(例えば、GIGAZINEの記事「「AIが引用した参考文献」の約3分の2が存在しない文献だったり間違っていたりしたとの調査結果」でその概要を確認することができます。)文献情報は、内容の信頼性の確保の上で極めて重要でありながら、具体的・個別的な事実についてという性格が最も強い情報であり、大規模言語モデル(LLM)が最も苦手とする領域と考えられます。マーラーという個別の人間についての具体的な事実に関する情報であっても、マーラーのような一定の知名度がある存在であれば、Web上にある程度の密度で情報が存在するので、ここまで確認してきたように、概ね正解を返すことが可能なのですが、その典拠となる文献情報の方は遥かに個別的であり、情報も桁違いに少なくなります。それでも主要な文献の存在そのものは、事前学習やWeb検索の対象となる情報自体に付随して含まれる可能性がありますが、その文献の内容については、特にその文献がWeb上でオンライン参照できなければ、そもそもが推測する他ありません。更に文献のオンライン化の程度は、分野により大きく異なり、更に同一分野でも対象や領域により異なります。マーラーの場合はどうかと言えば、その文献の多くはオンラインで利用可能な状況には程遠く、従って、生成AIの回答を鵜呑みにすることが危険であることは間違いなく、逆に明らかな間違いが減り、一見尤もらしい回答が増えた分、一層慎重なファクトチェックが欠かせないということになりそうです。
そのような制約はありますが、Gemini 3.0 Proの回答は、概ね正確で、詳細を極め、時として自分が今まで知らなかった情報が提示されることもあり、苦手な点に注意しつつ、得意な面が引き出せるように使い方を工夫をすれば、優秀なパートナーとして利用することができるように感じました。
「5.ファクトチェックで生じた問題について」で述べた通り、本検証では、オリジナルのプロンプト自体については正解を返してきたものの、その一部について疑念があり、追加でファクトチェックのための問い合わせを行っています。その結果は、極めて高性能とされるGemini 3.0 Proでもこのような誤りをするという恰好の事例となっており、興味深く報告に値するものと考えますが、本来のプロンプトセットに対する評価とは別のものですので、本稿は一旦ここで打ち切りとさせて頂き、その経過については別稿で報告することとさせて頂きます。
(2025.12.15 公開)

