本記事では、2025年9月30日にリリースされたClaude Sonnet 4.5を対象に、マーラーに関する様々な問い合わせを行った結果を報告します。
1.検証の背景
本ブログではこれまでに生成AIに対してマーラーに関する質問を行い、その結果を報告してきました。最初の記事の公開は2026年3月13日であり、その時点で検証対象とした生成AIは以下の通りでした。
- ChatGPT(Web版)無料版:GPT-4o(利用制限あり)・リアルタイムWeb検索なし
- Gemini(Web版)無料版:Gemini 2.0 Flash・リアルタイムWeb検索あり
- Claude for Windows ver.0.8.1(Windows版アプリ)無料版:Claude 3.7 Sonnet・リアルタイムWeb検索なし
この時点での各生成AIの回答は極めて不正確なものであることから、Llama2 SwallowベースでRAGを自作し、マーラーに関する各種の情報を与えることによって性能が改善できることを確認しました。
その後わずか数か月のうちに各生成AIのバージョンアップが相次ぎ、また同一LLMを用いる場合でもリアルタイムWeb検索が可能になることで性能に変化があったため、以下のバージョンで再検証を実施しました。
- ChatGPT 無料版:GPT-4o(利用制限あり)・リアルタイムWeb検索あり(有無を選択可能)
- Gemini 無料版:Gemini 2.5 Flash・リアルタイムWeb検索あり
- Claude 無料版:Claude Sonnet4・リアルタイムWeb検索あり
検証の結果、特にリアルタイムWeb検索を併用することで、LLMの事前学習データに含まれていなかった情報についても取得できるようになったことから、大幅に回答の精度が向上し、マーラーに関するパブリックな情報に関する限り、RAG構築の必要性がほぼなくなったと感じられる迄になりました。その一方で、ChatGPT, Geminiでは回数制限つきながら、多段階の推論を得意とするLLMを用いたDeep Search機能が利用可能となり、事実関係の問い合わせや情報収集ではない、「後期様式」に関するレポート作成、第9交響曲第1楽章の分析レポート作成に関しても一定の性能を示すことも併せて確認して、2025年6月初めに一通りの検証報告を終えています。
更にその後、ChatGPT-5がリリースされたのを機に、これについても同一のプロンプトセットを用いた検証を行い、検証に用いられたような事実関係を確認することが中心の問い合わせについて言えば、リアルタイムWeb検索を用いない場合があることから、ChatGPT-5の回答の精度は、常にWeb検索つきでChatGPT-4oに問い合わせた時よりも低くなってしまうことがわかりました。
今回はClaude Sonnet 4.5が検証対象ですので、検証の観点としては、前のSonnet 4との比較対照、および他の生成AIの最新版との比較対照が中心となります。
2.検証内容
まず改めて対象となるバージョンと実験を行った日付は以下の通りです。
Claude Sonnet 4.5 無料版(2025年11月28日)
Claude Sonnet 4.5の無料版では、従来と同様に利用制限があり、制限に達すると利用ができなくなります。制限に達したら検証を中止し、制限が解除されたら再開、というやり方で検証を進めましたが、一度の中断で済んだため、11月28日中に検証を終えることができました。(具体的な経過は後述します。)またClaudeの無料版の特徴として、1チャット(スレッド)で扱える文字数(厳密にはトークン数に拠るものと思われますが)にChatGPTやGeminiと比べるとやや強い制限がありますが、今回の検証に際しては、検証用に新たに用意したチャット(スレッド)内で全ての検証を行うことができました。
検証で用いたプロンプトセットは以下の通りです。既述の通り、基本的にこれらは元々は以前、llama2 / Swallowベースで自分で構築したRAGの検証用に用意したものです。「2.マーラーの「大地の歌」の日本初演は」は「1.大地の歌」の日本初演は?」と実質的には同一の問いですが、元々は、初期の検証においてプロンプトのちょっとした違いによって回答が大きく異なる(正解に辿り着けるか否かといった評価に影響する差異が生じる)ことが確認されたために設定したもので、その後、実質同じ質問が繰り返されていることが回答で指摘される場合があるなど、生成AIの挙動を確認する上で興味深い結果が得られたため、今回もそのまま残して検証を行うことにしました。そうした背景から、問い合わせの順番としては、2については最後に回し、また他の質問とはやや異質でこれまで評価外としてきた14も後回しにして、1,3~13,15~19の実行後、14を問い合わせ、最後に2を実行する順序としました。(実際には、Claude Sonnet 4.5の制限により18までで一旦中断, 19,14,2は再開後に実施しました。)
- 「大地の歌」の日本初演は?
- マーラーの「大地の歌」の日本初演は
- マーラーの「大地の歌」はどこで書かれたか?
- マーラーは第8交響曲についてメンゲルベルクに何と言いましたか?
- マーラーが死んだのはいつか?
- マーラーはいつ、誰と結婚したか?
- マーラーがライプチヒの歌劇場の指揮者だったのはいつ?
- マーラーがプラハ歌劇場の指揮者だったのはいつ?
- マーラーがハンブルクの歌劇場の楽長になったのはいつ?
- マーラーの第9交響曲の日本初演は?
- マーラーは自分の葬儀についてどのように命じたか?
- マーラーの「嘆きの歌」の初演は?
- マーラーはどこで生まれたか?
- マーラーの第9交響曲第1楽章を分析してください
- マーラーの第10交響曲の補作者は?
- マーラーの第2交響曲の最初の録音は?
- マーラーの「大地の歌」のイギリス初演は?
- マーラーの「交響曲第6番」はいつ、どこで初演されたか?
- ブラームスはブダペストでマーラーについて何と言ったか?
最近の生成AIは、質問に対する直接の回答にあたる情報のみならず関連する情報を付加して返す傾向がありますが、Claude Sonnet 4.5についてもそのことが言え、1件の回答はかなりの分量になります。そこで本記事中で全ての結果の紹介を行うことは控え、以下のように結果をpdf化したファイルを公開することとしました。参考までにClaudeの過去のバージョンの検証結果も以下に示します。
各行毎に、プロンプトのID(通番)、プロンプト、回答、実験日、評価、Web検索の有無に加え、今回は評価順を記載しています。既述のように、制限により18までで一旦中断していますが、既述の通り、同一日に再開できたため実験日は同一になっています。Sonnet 4の時には2回中断があったのが1回のみとなり、中断回数は減りましたし、中断なしで一度に処理できる量(厳密にはトークン数と思われますが)が増えているように感じました。
「14.マーラーの第9交響曲第1楽章を分析してください」については、回答が長いものになったため、複数行に分割しています。また詳細は後述しますが、回答中、明らかに事実に反すると判断できる箇所は赤字に、評価には反映しないものの、やや不自然と私が判断した箇所は青字にして、評価基準が明らかになるようにしています。
3.検証結果の概要
今回は評価にあたり、以下の5つを区別することにしました。また上述の通り、各プロンプトの問い合わせに対して、Web検索を行ったかどうかも併せて記録しています。
- 〇:概ね正しい情報が返ってきている
- △:一部に明確に誤った情報が含まれる、或いは妥当性に疑念がある記述が大半を占めている
- ×:全体として誤った情報が返ってきている
- □:情報を見つけることができず、回答できない
- ー:評価無し(プロンプト14のみ)
この分類に拠れば今回の結果は以下のように要約できます。Claude Sonnet 4、Claude 3.7 Sonnetの結果と比較して頂ければ一目瞭然ですが、これまでにない精度の回答が返ってきており、Sonnet 4.5に至って飛躍的に能力が向上したことが窺えます。
一方、Web検索の有無については以下の通りです。検索なしは数が少ないのでプロンプト番号を示します。
- 検索あり:17(○=16, ×=1)
- 検索なし:2(○=1, ー=1:2,14)
検索の有無について言えば、従来は実質的に1と同一の再質問である2についても検索に行き、独立に回答(いずれも正解)していたのに対し、今回は同一チャット(スレッド)内で、翌日の最後に再質問するという条件で、1の回答を記憶しており、検索なしで回答を行い、かつ「最初のご質問と同じ内容ですが、改めてお答えしました。」というコメント付きの回答が得られました。
また上に見るように、情報を見つけることができず、回答できないケースは1件もありませんでした。ClaudeはGeminiは勿論、ChatGPTと比較しても検索の性能に制限がある印象があり、Claude Sonnet 4、Claude 3.7 Sonnetの時には、検索をしても回答が得られなかったケース(但し前回までは△に含めてしまっていました)が散見されましたが、マーラーに関する個別的な事実に関するプロンプトが中心とはいえ、マーラーについての情報はWikipedia等をはじめとして、Web上の公的性質の高いサイトにそれなりに存在することも与ってか、検索の性能の問題は本検証の反映では解消され、性能の向上がはっきりと確認できました。
不正解は「7.マーラーがライプチヒの歌劇場の指揮者だったのはいつ?」の1件のみであり、回答の精度の向上も明らかです。しかもこの誤答は、参照したWikipedia日本語版の「グスタフ・マーラー」の見出しの記事の記載内容の曖昧さに由来するもので、些か気の毒な面があります。Wikipediaの記載は以下の通りです。
9月にはカッセル王立劇場の次席楽長となるも、待遇の問題から当初3年の契約の満了を待たずに翌1884年に辞任した[27][28][29]。また同じ頃、マーラーはライプツィヒ市立劇場との6年間の契約を結ぶことに成功する[30]。
まずこの記述は、カッセルのポストの辞任を1884年としている点で、控えめに言ってもミスリーディングです。正しくは1884~85年のシーズンで退任なので、1885年に退任とするのが普通だと思います。
更にこのため「同じ頃」が1884年のことと読めてしまいますが、注30に記載の文献(村井翔『マーラー(作曲家・人と作品シリーズ)』音楽之友社、2004年)を読むとわかる通り、ライプチヒ市立劇場との6年間の契約は1885年1月23日の書簡に記載のある事柄です。より重要なのは、それに続くようにしてプラハのドイツ劇場との契約も成立し、結局マーラーはまずプラハで1885年秋から1年間、その後1886年秋からライプチヒで活動をすることになったことです。ところがWikipediaの記述は以下のように続きます。この流れだと冒頭の「6月」は1884年にしか読めませんが、実際にはこれは既に明らかな通り、1885年のことです。
6月、カッセルでの音楽祭でフェリックス・メンデルスゾーンの『聖パウロ』を指揮して、成功を収めカッセルを後にした[28]。この時期、マーラーにとって念願でもあったバイロイト音楽祭を見に行くことができ、ワーグナーのオペラ「パルジファル」を観劇した[22]。
1885年にはオーストリア皇帝フランツ・ヨーゼフ2世の臨席の下、プラハでデビューを飾る[29]。
ライプツィヒ市立劇場では当時、首席指揮者としてアルトゥール・ニキシュが活躍しており、マーラーとニキシュの指揮者としての芸風の違いは当時のライプツィヒの聴衆を大いに盛り上げた[31]。
1887年2月にはニキシュが病気療養のため首席指揮者としてのポストを辞任し、マーラーがその地位に繰り上がる[32]。
つまりWikipediaにはプラハのドイツ劇場との契約の記述はなく、その活動も「プラハでデビューを飾る」という一言のみで済まして、ライプチヒでの活動とは独立のものであることは文字通りにはわかりません。勿論、マーラーの伝記に馴染んでいる人にとっては自明のことでしょうし、そうでなくても常識的にライプチヒ市立劇場での活動と別のものであることは自明であるとする立場もあるでしょう。けれどもハンブルク時代のロンドン公演など、他の都市での公演もないことではありませんし、背景知識のない人であれば、ライプチヒ市立劇場の6年契約の一環として、まずプラハでその活動を開始したという読み方をする人がいるかも知れません。
そして実際、Claude Sonnet 4.5の今回の回答は、正にその背景知識を持たない人が上記の文章を素直にかつ論理的に読み取った結果と言えなくもないように思えます。つまり「1884年にライプツィヒ市立劇場と6年間の契約を結び」「1887年2月にはニキシュが病気療養のため首席指揮者のポストを辞任し、マーラーがその地位に繰り上が」った事実に基づき、「つまり、マーラーは1884年から次席楽長として、1887年からは首席指揮者としてライプツィヒ市立劇場で活動して」いたという答を返すことになりました。
もっともそれを論理的と呼ぶのであれば、次の「8.マーラーがプラハ歌劇場の指揮者だったのはいつ?」の回答との整合性について無頓着であるのは奇妙だということになります。こちらは全くの正解で、1885年8月から1886年夏頃までの約1年間という答を返しているのですが、これが前の「7.マーラーがライプチヒの歌劇場の指揮者だったのはいつ?」の自分の回答と矛盾していることには気づいていません。過去の履歴を保持すると言っても、このように回答間の論理的整合性を逐次チェックするというレベル迄は到達していないという限界が露呈されることになってしまっています。
そこでこの点について検証終了後に別途(2025年12月7日)、以下のような問い合わせを行ってみました。
プロンプト:あなたはマーラーがライプチヒの歌劇場の指揮者として活動した時期を、1884年から次席楽長として、1887年からは首席指揮者としてライプツィヒ市立劇場で活動したと回答しましたが、その一方でマーラーがプラハ歌劇場の指揮者だった時期については1885年8月から1886年夏頃までの約1年間としています。これは矛盾しているのではありませんか?
これに対する回答は以下の通り、非常に的確なものでした。
ご指摘ありがとうございます。確かにおっしゃる通り、私の回答には矛盾がありました。
ライプチヒでの契約が1884年から始まっていたのに、1885年8月からプラハで働いていたという説明は時系列的におかしいですね。
検索結果をもう一度確認すると、正しい経緯は以下の通りです:
1. **1884年** - マーラーはライプツィヒ市立劇場と6年契約を結びました
2. **1885年8月** - しかし実際にライプチヒでの勤務が始まる前に、プラハのドイツ劇場の副指揮者として1シーズン働きました
3. **1886年夏頃** - プラハを離れ、ライプツィヒでの契約を履行するためにライプツィヒへ
4. **1887年2月** - ライプツィヒで首席指揮者に昇格
5. **1888年** - ライプツィヒを辞任
つまり、ライプチヒとの契約は1884年に結ばれましたが、実際の勤務開始は1886年で、その前にプラハで働いていたということですね。最初の回答で時系列を正確に説明できておらず、申し訳ありませんでした。重要なご指摘をありがとうございました。
つまり事後的に指摘を受けて、「7.マーラーがライプチヒの歌劇場の指揮者だったのはいつ?」および「8.マーラーがプラハ歌劇場の指揮者だったのはいつ?」の両方の検索結果を併合して、整合性のある回答を導出することは正しく出来ており、Claude Sonnet 4,5が論理的な推論においてかなり高度な能力を持っていることが確認できました。
のみならずこの回答は、自分の矛盾を率直に認め、それを正しく訂正することが出来ているという点でも画期的に思われます。今回は偶々すべての問いの答が得られたため、幻覚(Hallucination)対策の成果が確認できるようなケースはありませんでしたが、元々過去のバージョンにおいてもClaudeはかなり慎重な回答を返す傾向にあり、別の検証では、そうした傾向が維持されていることが確認できており、信頼性も向上している印象を受けます。
その他で気になった点としては、「3.マーラーの「大地の歌」はどこで書かれたか?」の回答の文章の組み立て方で、一旦、「1908年の夏、休暇先のアルト・シュルーダーバッハで作曲されました。」と述べながら、後続で「この作品は、マーラーがアメリカに渡った後に作曲され、1909年秋に完全に完成しました。」と述べている点です。間違いではないのですが、取りようによっては、アルト・シュルーダーバッハとアメリカに渡った後と、どちらが正しいのか?という疑問が生じかねません。実際にはそのどちらも正しく、「1908年の夏、休暇先のアルト・シュルーダーバッハで作曲が開始され」「マーラーがアメリカに渡った後も作曲が続けられ」とするのが自然な回答と思われます。一方では文章の推敲に生成AIを用いることが普通になりつつありますが、時としてこのように一見して論理的に矛盾しているかに誤解されかねない文章を生成することもあるということがわかります。
4,まとめと考察
以上、Claude Sonnet 4.5の検証結果について報告しました。3.7 Sonnet、Sonnet 4といった過去のバージョンに比べ、検索の精度、回答の精度とも飛躍的に向上し、一部の若干気の毒なケースを除けば、ほぼ正解を返すことができていることを確認できました。これは既に述べたように、本検証のプロンプトは、マーラーに関する個別的な事実に関するものが中心とはいえ、マーラーについての情報はWikipedia等をはじめとして、Web上の公的性質の高いサイトにそれなりに存在することも与っているものと思われます。
それは先行して「三輪眞弘について生成AIに聞いてみた(20):Claude Sonnet 4.5の検証」にて報告した、三輪眞弘さんに対する問い合わせに関する検証結果と比較した場合に明らかなことに思われます。つまり、同一の分野の同一の傾向の質問においても、認知度や研究量が異なり、訓練データ内の情報量が異なる対象についてのパフォーマンスには違いがあることが確認できます。今回はClaude Sonnet 4.5についての検証でしたが、その傾向は今回の検証だけではなく、これまでの検証を振り返って横断的に眺めた時に、大規模言語モデルの種類によらない一般的な傾向として、明らかに確認できるものと考えます。一般に生成AIの回答の信頼性は問い合わせの対象の領域に大きく依存し、事前学習データおよびリアルタイム検索するWeb上のデータ中に情報が多く含まれない場合には信頼性が低くなります。これは例えば、最近のより学術的な検証(GIGAZINEの記事「「AIが引用した参考文献」の約3分の2が存在しない文献だったり間違っていたりしたとの調査結果」でその概要を確認することができます)の結論とも一致します。実際、最近ChatGPTを性能上凌駕したと言われるGemini 3.0 Proの検証を、同じマーラーに関するプロンプトセットを用いて別途行っているのですが、
そこでは、標準のプロンプトセットに加えて典拠を示す指示を与えた所、かなり深刻な「幻覚」(Hallucination)が起こることを確認していますので、これは別の記事で報告したいと思います。
一方で、本来はClaude Sonnet 4.5の能力の際立った側面は、プログラムのコーディング能力を別とすれば、高度な論理的推論能力、かなり長大な文章を受取り、長大な文章を生成することができる能力にあるようで、実際、本稿の報告者も別に、その能力の高さを実感する機会を既に得ていますが、本報告の中でも、かなり高度な推論を行うことができる片鱗を窺うことができたように思います。もともと個別的な事実を確認するプロンプトが中心の本検証は、その能力を確認するのには必ずしも適したものではなく、情報収集能力という点では、既にGemini 2.5 Flashのような競合もありますが、Claudeに向いていそうな領域として、事実がどうであるかよりも、気付きにくい論理的な可能性を引き出したり、矛盾を検出したりといった、理論的な仮説構成や検証のような領域が考えられ、うまく利用すれば非常に強力なパートナーになりうるというのが、他の検証の結果も併せての全般的な印象です。既に深い推論という点ではChatGPT-5があり、Geminiもいよいよ3.0 Pro(無料版の「思考モード」)がリリースされましたが、この両者は従来のDeep Researchの延長といった印象で、動作も重く、時間がかかる場合がある一方で、回答に質問に対する直接の答以外の補足的な情報がかなり含まれて、時として過剰気味であったり、補足的な情報を追加しようとするあまり、却って推論能力が仇になり、「幻覚」(Hallucination)が起こるケースなど、デメリットも散見されるのに対し、Claude Sonnet 4.5 は、稍々そちらの方向に歩み寄っている感はあるものの、相対的にはバランスよくスマートで、あらずもがなの「幻覚」(Hallucination)を惹き起こすことが少ない印象を受けます。今後はそれぞれの得意なタスクのタイプを見極めて使い分けるような工夫が必要になってくるように思います。
その一方で、本報告の対象となる検証では、情報元となる人間が書いた文章が持つ曖昧さやミスリードな側面も浮き彫りになったように感じます。それらにも程度の問題というのはあって、人間が普通に読む限りでは間違えないようなレベルのものもあれば、人間でも背景知識や事前情報によっては誤解してしまうようなケースもあって、両者は明確に区別できない連続的なものではないかと思います。あくまでも現状の生成AIはその多くを人間が作成したWeb上の情報に基本的には依存しており、それが間違えていたり、間違えていない迄もミスリードを招くようなものであれば、生成AIの返す情報に誤りが含まれることは避け難いものとなります。しかしそれは生成AIに限定した話ではなく、実は一般にWeb上の情報を人間が利用する場合にも当て嵌まるものであり、実際には、従来からしばしば指摘されてきたこと(例えばWikipediaの内容の信頼性は、特にその初期にはかなり問題視された経緯があると記憶します)ではないでしょうか?否、それはWeb上の情報に限定されるものですらなく、紙媒体の書籍であっても原理的には生じえるものではないでしょうか?このように考えていくと、今日生成AIの普及を契機にしてクローズアップされてきた問題の一部は、程度の問題はあれ、実は生成AI固有の問題ではなく、より一般性のある問題が生成AIを通して顕在化したものも含まれるのではないかというように感じられます。そういう意味合いでも生成AIは人間の鏡のような存在なのかも知れません。生成AIが突き付けてくる問題は、それを避けることなく受け止めることでわかってくることが数多くあり、今回もまたその一端に触れたような気がしました。
0 件のコメント:
コメントを投稿