本記事では、2025年8月7日にリリースされたChatGPT-5を対象に、マーラーに関する様々な問い合わせを行った結果を報告します。
1.検証の背景
本ブログではこれまでに生成AIに対してマーラーに関する質問を行い、その結果を報告してきました。最初の記事の公開は2026年3月13日であり、その時点で検証対象とした生成AIは以下の通りでした。
- ChatGPT(Web版)無料版:GPT-4o(利用制限あり)・リアルタイムWeb検索なし
- Gemini(Web版)無料版:Gemini 2.0 Flash・リアルタイムWeb検索あり
- Claude for Windows ver.0.8.1(Windows版アプリ)無料版:Claude 3.7 Sonnet・リアルタイムWeb検索なし
この時点での各生成AIの回答は極めて不正確なものであることから、Llama2 SwallowベースでRAGを自作し、マーラーに関する各種の情報を与えることによって性能が改善できることを確認しました。
その後わずか数か月のうちに各生成AIのバージョンアップが相次ぎ、また同一LLMを用いる場合でもリアルタイムWeb検索が可能になることで性能に変化があったため、以下のバージョンで再検証を実施しました。
- ChatGPT 無料版:GPT-4o(利用制限あり)・リアルタイムWeb検索あり(有無を選択可能)
- Gemini 無料版:Gemini 2.5 Flash・リアルタイムWeb検索あり
- Claude 無料版:Claude Sonnet4・リアルタイムWeb検索あり
検証の結果、特にリアルタイムWeb検索を併用することで、LLMの事前学習データに含まれていなかった情報についても取得できるようになったことから、大幅に回答の精度が向上し、マーラーに関するパブリックな情報に関する限り、RAG構築の必要性がほぼなくなったと感じられる迄になりました。その一方で、ChatGPT, Geminiでは回数制限つきながら、多段階の推論を得意とするLLMを用いたDeep Search機能が利用可能となり、事実関係の問い合わせや情報収集ではない、「後期様式」に関するレポート作成、第9交響曲第1楽章の分析レポート作成に関しても一定の性能を示すことも併せて確認して、2025年6月初めに一通りの検証報告を終えています。
ChatGPT-5は、事前のプロモーションにおいて、更に推論機能が強化され、「大学院博士課程並み」の能力を持つとともに、4oで問題になっていた「sycophancy(へつらい・ごますり)」の問題に対して対策が行われ、「critical(批判的)」で「less effusively agreeable(あまり熱心に同意しすぎない)」な応答をするようチューニングが為されたようです。この後者の問題については、既にChatGPT-5のリリース直後から多くの反応が寄せられ、色々と話題になっています。特に4oに比べて「共感的」でなくなったという批判が大きいことから、有料版では4oが選択できるようになるなどオプションが復活しました。しかしながら本稿では無料版を使用していることからそうした変更についての直接の影響はありませんし、従来と同一のプロンプトを与えて、事実関係の問い合わせや情報収集に関して「Hallucination(幻覚)」を起こすことなく、正しい回答が返って来るかという点にフォーカスした検証結果を報告するという点にも変更はなく、直近の混乱からは距離を置いたものとなっています。
一方でそのことは、ChatGPT-5で特に改善が行われたとされる深い推論の能力が十分に発揮されるような検証には充分ではないことも同時に意味している点に留意頂きたいと思います。なお深い推論能力については、本稿で報告する検証とは別に、「意識の音楽」に関連して、心や意識についての理論に関するかなり技術的な問い合わせをしたところ、明らかに4oに比べて1ランク上の詳細な回答が返ってくることを確認しており――但し、その内容の妥当性については検証に時間を要するため現時点で当否を報告する準備ができていませんが、——専門的な内容についての問い合わせに対しては一段と深いレベルの推論能力を備え、高いポテンシャルを有するという感触は既に得られていますが、この点については機会があれば別に報告することにしたいと思います。
2.検証内容
まず改めて対象となるバージョンと実験を行った日付は以下の通りです。
ChatGPT-5 無料版(2025年8月15日)
ChatGPT-5 の無料版では、標準で最新版のGPT-5がLLMとして用いられますが、実際に検証を行ってみると、10回迄の回数制限があるようです。回数制限に達すると4時間程度GPT-5は使えず、他のモデルが用いられます。ここではGPT-5の性能を検証することが目的であるため、制限に達したら検証を中止し、制限が解除されたら再開、というやり方で検証を進めました。
検証で用いたプロンプトセットは以下の通りです。既述の通り、基本的にこれらは元々は以前、llama2 / Swallowベースで自分で構築したRAGの検証用に用意したものですが、最後の「20.ブラームスはブダペストでマーラーについて何と言ったか?典拠を併せて示してください。」のみは、プロンプト19への回答を評価した結果、典拠を示すよう求めるべきであると判断して追加したものです。なお問い合わせの順番については、今回は下記の番号順としました。「2.マーラーの「大地の歌」の日本初演は」は「1.大地の歌」の日本初演は?」と実質的には同一の問いですが、元々は、初期の検証においてプロンプトのちょっとした違いによって回答が大きく異なる(正解に辿り着けるか否かといった評価に影響する差異が生じる)ことが確認されたために設定したもので、その後、実質同じ質問が繰り返されていることが回答で指摘される場合があるなど、生成AIの挙動を確認する上で興味深い結果が得られたため、今回もそのまま残して検証を行うことにしました。
- 「大地の歌」の日本初演は?
- マーラーの「大地の歌」の日本初演は
- マーラーの「大地の歌」はどこで書かれたか?
- マーラーは第8交響曲についてメンゲルベルクに何と言いましたか?
- マーラーが死んだのはいつか?
- マーラーはいつ、誰と結婚したか?
- マーラーがライプチヒの歌劇場の指揮者だったのはいつ?
- マーラーがプラハ歌劇場の指揮者だったのはいつ?
- マーラーがハンブルクの歌劇場の楽長になったのはいつ?
- マーラーの第9交響曲の日本初演は?
- マーラーは自分の葬儀についてどのように命じたか?
- マーラーの「嘆きの歌」の初演は?
- マーラーはどこで生まれたか?
- マーラーの第9交響曲第1楽章を分析してください
- マーラーの第10交響曲の補作者は?
- マーラーの第2交響曲の最初の録音は?
- マーラーの「大地の歌」のイギリス初演は?
- マーラーの「交響曲第6番」はいつ、どこで初演されたか?
- ブラームスはブダペストでマーラーについて何と言ったか?
- ブラームスはブダペストでマーラーについて何と言ったか?典拠を併せて示してください。
ChatGPT-5の無料版では、モデルの選択ができないだけではなく、リアルタイムWeb検索を行うかどうかを選択することもできません。Web検索を行うかどうかの選択はChatGPT側に委ねられています。(但し、再実行時に「Web検索を行わない」モードを選ぶことはできるようです。)勿論、プロンプトの中に明示的にWeb検索をするような指示を含めればWeb検索を併用するようになるでしょうが、ここではそうした明示的な指示なしで、検索を行うかどうかについて自体を検証対象としたため、上に示したプロンプトをそのまま与えました。
全プロンプトに対する回答はかなりの分量になりますので、ここで全てを紹介することは控え、公開済の以下のファイルで確認頂ければと思います。
各行毎に、プロンプトのID(通番)、プロンプト、回答、実験日、評価、Web検索の有無を記載しています。「14.マーラーの第9交響曲第1楽章を分析してください」については、回答が長いものになったため、複数行に分割しています。また詳細は後述しますが、回答中、明らかに事実に反すると判断できる箇所は赤字に、妥当性に疑念があると私が判断した箇所は青字にして、評価根拠が明らかになるようにしています。
3.検証結果の概要
今回は評価にあたり、以下の4つを区別することにしました。また上述の通り、各プロンプトの問い合わせに対して、Web検索を行ったかどうかも併せて記録しています。
- 〇:概ね正しい情報が返ってきている
- △:一部に明確に誤った情報が含まれる、或いは妥当性に疑念がある記述が大半を占めている
- ×:全体として誤った情報が返ってきている
- □:情報を見つけることができず、回答できない
この分類に拠れば今回の結果は以下のように要約できます。
上に見るように、情報を見つけることができず、回答できないケースは1件もありませんでしたが、これはWeb検索を行ったケースで全て結果が得られて回答でき、回答ができなかったケースがなかったことを意味しており、実際にはWeb検索の有無についての集計結果(対のべ問い合わせ回数)は以下の通りであり、検索なしで回答しているケースが大半を占めていることが影響しているものと思われます。
検索あり:4
検索なし:16
前回のChatGPT4oは全てリアルタイムWeb検索を併用しており、結果として一部の記述に誤りが見られた2件と評価対象外としたプロンプト14を除く残りの17件は正解だったのに対して、今回は半分近い回答が不正解となっていることがわかります。これは明らかに、検索なしでの回答に不正解ないしそれに近い妥当性に疑念がある回答が多いことが影響しており、検索の有無毎に正解・不正解についての評価を分類すると以下のようになります。
検索あり:4(〇=3, △=1)
検索なし:16(〇=7, △=6, ×=3)
検索ありでは1件を除くと正解で、△とした1件も、詳しくは後程述べますが、異なる情報源で、同一の書簡を参照しているのを、それぞれ別の書簡であると記述してしまう細かい点のみの誤りであり、問いへの回答自体は申し分なく〇でしたから、検索をすれば正しい答えを返すことができていると言えると思います。一方で検索なしでも今回は概ね正解と判定できる回答が増えており、以前に比べれば検索なしでの性能自体は確実に向上していると判断できる一方で、Web検索つきのChatGPT-4oでほぼ全て正解が得られていた事と比べた時、正答率50%という今回の結果は残念なものと言う他なく、チャットシステム全体としての回答の精度について寧ろ後退してしまっていることは否定できません。
そしてこの点は、初回の3月のリアルタイム検索なしのモデルの回答の成績が悪くてRAGの構築に思い至ったこと、2回目のリアルタイム検索ありのモデルでは上記のように回答率が大幅に改善し、ほぼ正解が返って来るようになったというこれまでの経緯とも期を一にしており、本稿で報告する課題に限って言えば、依然としてリアルタイムでのWeb検索が回答の正確さのための重要な要因であると言えるのではないかと思います。
既述の通り、実験実施時点でのChatGPT-5 無料版では、検索を行うかどうかはシステム側が制御しており、利用者はオプションの選択という形での制御の余地はありません。勿論、手段が全くない訳ではなく、プロンプト内にWeb検索の指示を明示的に含めることによって回避できるのであれば、実際に利用するにあたっては、その点に留意して、基本的にはリアルタイムWeb検索を必ず併用するように指示しつつ利用することで回避可能な問題と言うこともできるでしょう。しかしながら、GPT-5がLLM単体として如何に優れたものであったとしても、利用者から見れば、結局のところチャットシステム全体としての回答の正確さ、信頼性で評価する他ないのであれば、今回の検証結果から判断する限り、折角のLLMの性能向上が、リアルタイムWeb検索の制御という表面的な問題のために実感できないという残念な結果になっているように感じられます。今後、何らかの改善が行われる可能性もあるでしょうが、少なくとも現状ChatGPTの無料版を利用するに際しては、Web検索が行われず、情報源が示されない回答については、「Hallucination(幻覚)」が発生している可能性を疑い、ファクトチェックを別途行うことが欠かせないでしょうし、それを回避しようとすれば、プロンプト中でリアルタイムWeb検索を必ず行うように明示的に指示する等の工夫が必要そうです。
4,検証結果の分析
次に個別のプロンプトに関して検証において確認された点について幾つか報告をします。
まず 「4.マーラーは第8交響曲についてメンゲルベルクに何と言いましたか?」については、既に上でも簡単に触れたように、Web検索を行っていて、正しい情報源に辿り着いており、問いへの回答としては正解であるにも関わらず、複数の情報源が参照している実際には同一の書簡を、情報源毎に異なった別々の書簡を参照するという判断の下、回答が記載されていることから、完全な正解とは判定しなかったものです。勿論、情報源に例えば書簡の日付の記載があれば、それが同一であることを以てそのような誤解は回避できたかも知れませんが、その一方で、参照されている書簡中の文章も完全に一致している訳ではなくとも重複しており、翻訳のせいもあって同一ではないものの、重複部分については同じものと判断することもできたのではないかと思われます。もっとも、論理的には同一の内容を別の書簡で2度述べるという可能性もあるので、このことを以て情報の出処は同一の書簡であると断定して良いかについては慎重であるべきという意見もあるかも知れませんし、これが人間なら回避できる問題なのかどうかもまた微妙であり、そういう意味ではこの回答は仕方ないものとする立場もあるでしょう。しかしそもそもここでの問は、語っている内容についてのものであり、その典拠を問うているわけではありませんから、情報源の詳細は捨象して回答を構成すべきだったのではないかというようにも考えられます。いずれにせよ、回答の本質的な部分以外であらずもがなの誤りが生じてしまったケースとなるかと思います。
次にマーラーの生涯における出来事のうち、職業上のキャリアについての一連の質問についてです。「7.ライプチヒの歌劇場の指揮者としての任期」「8.プラハ歌劇場の指揮者としての任期」「9.ハンブルクの歌劇場の楽長への就任時期」を問うていますが、いずれもWeb検索なしで問いそのものに対しては正しい回答を返すことができています。問題は回答に含まれる付加的な情報の方で、こちらに明らかな誤りが含まれるため、いずれも△の評価とせざる得ませんでした。具体的には、問題の3つの赴任地の全てに先行するカッセルの歌劇場時代との前後関係に錯誤があり、7ではライプチヒの後、ブダペスト王立歌劇場監督への就任の前にカッセル・プラハを経由したことになっているのに対し、8.ではカッセル、ライプチヒの前にプラハに居たことになっているなど、事象間の時間的順序の論理的関係の点で相互にも矛盾を来しています。個別に検証したわけではありませんが、単一の問いの中で複数の事象間の時間的順序が問題になる場合の推論はできるようですから、単に直前の回答を参照せずに独立に次の回答を生成し、両者の間の整合性をチェックしていないのではないかと推測されます。ChatGPTは過去のやりとりの履歴を保持し、それを参照して回答を生成することが特徴の一つとなっていますが、そのこととこのような時間的な関係の推論を必要とする整合性の維持とは別レベルの問題だということなのでしょう。実用上はこうした側面も、プロンプトの与え方の工夫である程度回避できますが、チャットシステムとして不完全であることに変わりはありません。
また7.及び9.の回答において、任期中の交流関係に言及しているのですが、これらについても(推測するに)時間的な前後関係の錯誤に関連した誤りがあります。具体的には、ライプチヒでハンス・フォン・ビューローと知己を得たことになっていますが、実際にはカッセル時代にビューロー宛の手紙を一方的に送った後(ビューローはマーラーに返事を返しませんでした)、実際に知己を得るのはハンブルク時代になってからですし、ニキシュとの関係は敵対的なものであり、交流があったとは言い難いようです。一方9.においては就任時にカール・ムックの下で第2指揮者であるという情報が何故か付加され、更に、ハンス・フォン・ビューローの追悼演奏会の指揮に関して、ブラームスとの面識を得たと述べていますが、いずれもそうした事実は管見では確認できていません。ハンブルクでは当初から第1指揮者としてデビューしていますし、カール・ムックは1892年にベルリンに移るまではプラハに居たので、プラハでの関係が誤って入り込んだものと思われます(実際、プラハでならカール・ムックの代役をマーラーががつとめた記録があります)。また1894年のビューローの没後、追悼演奏会の指揮をしたのは事実ですが、ブラームスと面識を得るのは先行するハンガリー王立劇場監督時代の1890年12月のブダペストでのことですし、ビューローが没する前の1893年夏にマーラーはブラームスをイシュルに訪ねていることから、こちらも時間的な前後関係から誤った記述であると思われます。
次いで「11.マーラーは自分の葬儀についてどのように命じたか?」の回答ですが、これもWeb検索を行わずに回答をしています。回答内容からも窺えるように、この問に対する直接的な回答についての一次情報源はアルマの回想でしょうが、「自作を演奏しない」というようにマーラーが命じたという記述は確認できません。実は同様の回答を、最初の検証の際にWeb検索なしのChatGPT-4oがしていましたので、どうやらChatGPTの事前学習の結果のみからだと、これが尤もらしいということになるのかも知れません。また葬儀への参列者も、それらしい人名が並んでいますが、調べた限り、ツェムリンスキーとニキシュの参列は確認できていませんし、ピックアップするのであればもっと優先して挙げて然るべき人名は他に幾らでも思いつきます。しかしながらどちらの点についても自分の調査した限りで回答の内容を支持する記述を発見できていないということで、誤りと断定することはできないため、評価は△としています。
14.第9交響曲第1楽章の分析はこれまでは評価不能ということで保留扱いにしていたのですが、今回は他のプロンプトと同様の基準で評価をしてみました。結果としては以下の点から、×と評価せざるを得ないと判断しました。前のバージョンにおけるWeb検索を伴なうDeep Researchでは、概ね妥当な分析結果を出力していたのに比べた時、GPT-5がLLMとして如何に高度なものであったとしても、音楽作品の具体的内容についてWeb検索なしでの回答の生成には限界があることは明らかであり、そのことを裏付ける惨憺たる結果となっていると思います。
- 全体の調性について、「安定がほとんどなく、半音階的展開と多調的感覚が支配的」というのはソナタ形式として見た場合にニ長調への頻繁な回帰が寧ろ逸脱であり、ロンド形式との融合や二重変奏と捉えられるくらいであることを考えると妥当ではない。特に「多調的感覚が支配的」「展開部では多調的書法が顕著で、各声部が異なる調的中心を持つ場合もある」というのは、全音音階的な要素が出現することを考慮してもなお、一般的な捉え方ではなく、妥当とは言えないと考える。
- 2. 形式構造と調性における小節数は一般的な楽曲分析の区分と一致せず、譜面と照合しても妥当とは考えられない。
- 主要動機の記述の中の「心臓の鼓動動機」が「8分音符+付点16分+32分(不均衡リズム)」と記述されている。
- 5.器楽法において、実際には含まれないチェレスタが編成に含まれているかのような記述になっている。
- 6.哲学的・解釈的側面におけるフッサールやダマシオを参照する部分は内容的にほぼナンセンスとしか言いようがなく、妥当な記述とは凡そ言い難い。(なおここで唐突にフッサール、ダマシオが登場する理由は、本件検証とは独立に、以前、「意識の音楽」に関連した話題について生成AIの検証を行ったことがあるのを、ChatGPTが「憶えていた」ためと思われます。)
- 7.まとめの「心理的には「生から死への移行を意識する瞬間の時間構造」を音響化」という要約は不適切。少なくとも「瞬間の時間構造」が第1楽章全体の要約たりえる筈はなく、ナンセンスに近いと考える。
「15.マーラーの第10交響曲の補作者は?」の回答は概ね正しく、質問そのものの回答としては正解として差支えないレベルですが、残念なことに、付加的な情報であるクック版のバージョンの記述が控え目に言っても一般的ではありません。回答には「1960年演奏可能版。1964年第1稿、1972年改訂版、1976年最終改訂版の出版。」とあるが一般には、1960年が演奏可能版の第1稿、1964年が第2稿、1972年が第3稿であり、1976年に出版されたのは第3稿とされています。些事かも知れませんが、Web検索を行っていればこのようなずれは生じないこと、やはり回答としてミスリードであることを否めないことから、△と評価しました。
「16.マーラーの第2交響曲の最初の録音は?」についてWeb検索なしでほぼ正解が返って来るようになったのは、過去の評価時の混乱を考えれば隔世の感がありますが、残念ながらここでも演奏にカットがあると述べられており、とりわけ「特に長大な第5楽章は大幅短縮されています」という記載は看過し難く(実際には聴けばわかる通りカットはありません)、△と評価せざると得ませんでした。
「19.ブラームスはブダペストでマーラーについて何と言ったか?」は、9の回答のコメントで触れた通り、1890年12月のブダペストでの出来事への参照を求めた質問です。従って大まかなアウトラインは正しく把握できているのですが、肝心のブラームスの言葉が正しくありません。更にマーラーの作曲についてのコメントも、管見では確認できません。ブラームスはマーラーの作曲については、その革新性を認めてはいたようですが、肯定的に評価していたとは言い難いというのが一般的な捉え方ではないかと思います。ちなみにChatGPTは以前よりしばしば、原文つきで「このように言った」と引用を行うことがありますが、そのもっともらしさにも関わらず、Web検索なしの場合にはしばしばフェイクに過ぎません。そこで今回は典拠を示す指示を付加した上で再質問を行いました。結果はファイルにて確認できる通りですが、これも以下のような点で誤りと判定せざるを得ませんでした。
- 時期を1888年に誤って固定してしまっている。
- 原文つきで引用されている言葉は恐らくこれもまたChatGPTが作り出したフェイクであり、典拠として示された文献での記述は確認できない。
- 主な典拠に掲げられているAlma Mahler-Werfel, Erinnerungen an Gustav Mahlerの書誌事項に誤りがある。1940年刊行の初版の書誌情報はそもそも混乱があるが、邦訳の訳者後書き(酒田健一執筆)によれば、アムステルダムのクウェーリード―社刊であり、Bermann-Fischerは1949年第2版の出版社。一方私が持っているオランダのAllert de Langeが出版した第2版の奥付によれば、第1版もAllert de Langeが版権を保持しており、根岸一美/渡辺裕(編), ブルックナー/マーラー事典, 東京書籍, 1993の書誌情報でも、1940年の第1版の出版者はAllert de Langeとなっている。更に、これは傍証に過ぎないが、アルマのもう一冊の回想 Mein Leben, S.Fischer Verlag, 1960(邦訳は『わが愛の遍歴』, 塚越敏・宮下啓三訳, 筑摩書房, 1963)の1938年の節には、「(…)アレルト・デ・ランゲ書店の代表者ランダウアー博士がパリに私を訪ねてきて、マーラーについてしるした私の手記をくれるようにとせがんだ。そこで私は、パウル・フォン・ショルナイとの約束があったけれども、博士に原稿を渡してあげた。そのころにはもうショルナイ書店はなくなっていたのだ。」(邦訳 p.218)という記述がある。(ちなみにショルナイ書店はアルマが編んだマーラーの書簡集の出版社であり、現在に至る迄、増補を繰り返しているマーラーの書簡集の出版を続けている。)そうしたことから私は従来こちらの情報を採用してきたのだが、いずれにしても初版出版当時の状況(これについてはアルマが1939年夏にサナリー・シュル・メールで書いた序文からも窺い知ることができよう)を念頭において判断すべきだろう。
- アンリ=ルイ・ド・ラ・グランジュによる評伝のタイトルおよび書誌事項が誤っており、文字通りの『Gustav Mahler: Volume 1, Vienna: The Years of Challenge (1860–1897)』というタイトルの著作は実在しない。
ド・ラ・グランジュのマーラー伝の成立は錯綜とした経緯を持ちます。まず1973年にはMahler volume Oneと題された英語版が出版され、これは1860年から1900年辺りまでを扱っています。その後一旦英語版の続編の刊行は中断し、フランス語版で改めて以下の3巻が刊行されて一旦完結します。この第1巻は1973年の英語版の翻訳ではなく、その後の取材・調査結果を反映した新版です。
- Gustav Mahler, chronique d'une vie, I. Vers la gloire 1860--1900, Fayard, 1979
- Gustav Mahler, chronique d'une vie, II. L'age d'or de Vienne 1900--1907, Fayard, 1983
- Gustav Mahler, chronique d'une vie, III. Le Génie foudroyé 1907--1911, Fayard, 1984
その後、再び英語版の続巻の刊行に戻りますが、内容的にはフランス語版から更に増補されたものとなっている他、第2巻が1897年からを扱っており、かつての英語版第1巻と重複が生じてしまっています。
- Gustav Mahler, Volume 2, Vienna : The years of challenge (1897--1904), Oxford University Press, 1995
- Gustav Mahler, Volume 3, Vienna : Triumph and Disillusion (1904--1907), Oxford University Press, 1999
- Gustav Mahler, Volume 4, A new life cut short (1907--1911), Oxford University Press, 2008
そしてその後、改めて英語版第1巻の増補改訂作業が行われますが、その完成・刊行を待たずにド・ラ・グランジュは没してしまい、結局第1巻の増補改訂新版の刊行は著者の没後となってしまいました。(出版社も異なります。)
- Gustav Mahler, Volume 1, The Arduous Road to Vienna (1860--1897), completed with, revised and edited by Sybille Werner, Brepols Publishers, 2020:
ここまでご覧頂ければわかる通り、ChatGPTが返して来たタイトルは、英語版の第2巻、第3番と没後刊行の増補改訂版第1巻のタイトルの奇妙なアマルガムとなっています。こうした書誌的な事項は、Web検索をすれば誤りなく正しい情報が得られるものですが、ここでもWeb検索は行われていません。結果として、悪名高いChatGPTによる架空の文献を提示を、よりによって最新版のモデルで確認することになってしまいました。
以上、些か些事拘泥の嫌いはありますが、今回の検証における回答で問題がある箇所について確認と分析を行いました。結果としてそれぞれがChatGPTが持つ様々な問題点や限界に関連して発生していることが窺えます。それらは基本的に以前の検証において既に確認されているものと同じ原因によるものであり、新たに生じた問題というのはありませんが、その一方でLLMがGPT-5に変わっても、基本的には解決していないことが確認されたことになります。
5.まとめと考察
以上、ChatGPT-5を対象とした検証について報告しました。結論としてまず、今回検証に用いられたような事実関係を確認することが中心の問い合わせについて言えば、リアルタイムWeb検索を用いない場合があることから、ChatGPT-5の回答の精度は、常にWeb検索つきでChatGPT-4oに問い合わせた時よりも低くなってしまうことがわかりました。この問題への対策としては、Web検索をせず情報源が示されない場合には、ファクトチェットを必ず行うこと、より根本的には、(現時点では無料版ではオプションが明示的に用意されているわけではないので)プロンプトの中にWeb検索を行う指示を明示的に含めるなどして、リアルタイムWeb検索を併用するよう促すことが考えられます。
結果的に不十分な情報に基づく事前学習結果からフェイクを生成する頻度が非常に高くなってしまっている原因は、Web検索が必要であるかのシステムの判断が甘い点にあります。GPT-5がLLMとして高い性能を持つとしても、利用者にリアルタイムWeb検索を併用するかどうかの選択肢を与えずに、自分で判断する仕様を選択し、その結果としてこのように「Hallucination(幻覚)」が頻発し、多くの回答がフェイクとなってしまっている以上、利用者の立場からコメントするならば、ChatGPT-5のリアルタイムWeb検索実行の判断についてのチューニングに関しては、大きな問題があるという評価をせざるを得ません。
「Hallucination(幻覚)」を抑制するという観点から安全側に寄せるならば、余程自明な内容でない限り、リアルタイムWeb検索を行うことを基本とする選択は常に可能です(しかもWeb検索をせずにやり直すオプションはユーザーに提供されいます)から、チューニングの方針が不適切なのではないかと思わざるを得ず、人によってはそこに「慢心」(勿論、AIのではなく、設計を行う人間のそれ)を感じとるのではという懸念さえ抱きます。このような結果は、GPT-5のLLMの性能とは独立で、それを利用するチャットシステムとしてのチューニング・ポリシー次第では回避できそうなだけに、非常に残念に感じられます。
勿論、これまでWeb検索なしで正しい回答が得られなかったプロンプトの幾つかについて、同様にWeb検索なしにも関わらず正しい回答が得られることを確認したケースもあり、新しいLLMのバージョンで改善された点があることは間違いありません。ただしそれは喧伝されているGPT-5のポテンシャルを感じさせるようなレベルのものではありませんでしたし、Web検索の有無とは独立した原因によると推測される「Hallucitaion(幻覚)」の発生も確認できました。更に言えば、上記のWeb検索に関するチューニングの問題とは別に、深い推論を行うと言っても、先行するやりとりで得られた情報を有効に組み合わせて活用することが出来ているわけではないし、人間にとってはほぼ自明な事象の間の関係について、個別のプロンプトをまたいだ全体として正しく把握できているわけではないことが、検証結果の分析を通して浮かび上がって来たように思います。
つまりGPT-5のLLM単独の性能はそれとして、チャットシステム全体として見た場合には、まだまだ多くの課題を抱えているということだと思います。GPT-5は深い推論を求められる複雑な課題を解く能力に優れているかも知れませんが、上に述べたようなチャットシステムとしての設計・チューニングポリシーの影響もあり、残念ながら今回の検証対象となったような事実関係に関する問いに対してその能力が十分に発揮できるものではないようです。GPT-5のLLM自体の真価については、寧ろ、従来の検証においてDeep Researchが適しているような問題を与えた方がより良く感じ取ることができるのではないかと思いますが、これは別途の課題として後日を期し、本稿の報告はここ迄で一旦終えたく思います。
(2025.8.18)
0 件のコメント:
コメントを投稿