お知らせ

GMW(Gustav Mahler Werke, グスタフ・マーラー作品番号:国際グスタフ・マーラー協会による)を公開しました。(2025.4.20)

2025年6月1日日曜日

マーラーについて生成AIに聞いてみた(14):Claude Sonnet 4の場合

 本記事では、Claude の最新版、Sonnet 4に、これまで検証に用いている19のプロンプトを与えた結果について報告します。マーラーについて生成AIに問い合わせてファクトチェックを行うことを最初に試みたのはほんの3か月前の2025年3月のことでしたが、その結果を受けたRAGの試作と検証の結果報告が一段落したと思う間もなく、5月になって、ChatGPT 4oが無料版でもWeb検索を行うようになり、Geminiが2.5にバージョンアップするなどの変化があり、改めて最新のバージョンでの検証結果を報告してきていますが、さらに引き続いて今度はClaude 4がリリースされたとのアナウンスに接しました。早速試用してみると、無料版で利用可能なClaude Sonnet 4ではベースとなるLLMがバージョンアップしている他、これまで無料版では対応していなかったWeb検索の併用に対応しており、RAGなしでどこまで答えられるかという観点からは大いに期待が持てそうなことがわかりました。そこで早速、従来の3.7 Sonnetの検証結果と比較をしながら、Claude Sonet 4の検証を実施したものです。

 まず、既に前の記事を読まれている方には煩瑣に思われるかも知れませんが、検証に用いたプロンプトを以下に示します。

  1. 「大地の歌」の日本初演は?
  2. マーラーの「大地の歌」の日本初演は
  3. マーラーの「大地の歌」はどこで書かれたか?
  4. マーラーは第8交響曲についてメンゲルベルクに何と言いましたか?
  5. マーラーが死んだのはいつか?
  6. マーラーはいつ、誰と結婚したか?
  7. マーラーがライプチヒの歌劇場の指揮者だったのはいつ?
  8. マーラーがプラハ歌劇場の指揮者だったのはいつ?
  9. マーラーがハンブルクの歌劇場の楽長になったのはいつ?
  10. マーラーの第9交響曲の日本初演は?
  11. マーラーは自分の葬儀についてどのように命じたか?
  12. マーラーの「嘆きの歌」の初演は?
  13. マーラーはどこで生まれたか?
  14. マーラーの第9交響曲第1楽章を分析してください
  15. マーラーの第10交響曲の補作者は?
  16. マーラーの第2交響曲の最初の録音は?
  17. マーラーの「大地の歌」のイギリス初演は?
  18. マーラーの「交響曲第6番」はいつ、どこで初演されたか?
  19. ブラームスはブダペストでマーラーについて何と言ったか?

 実験は2025年5月28,30,31日に行いました。問い合わせの順番は、1の変形である2と、性質の異なる質問である14を除いて1から番号順とし、2,14を最後に質問することにしました。Claudeでは、無料版では利用制限がかかります。実験が3日に亘ったのはそのためです。経過は詳細は以下の通りとなります。

  • 1,3,4,5,6,7,8,9:2025年5月28日
  • 10,,11,12,13,15,16,17,18,19:2025年5月30日
  • 2,14:2025年5月31日

 全プロンプトに対する回答はかなりの分量になりますので、ここで全てを紹介することは控え、公開済の以下のファイルで確認頂ければと思います。なお参考までに前回のClaude 3.7 Sonnetでの検証結果のリンクも示しましたので、興味のある方は比較をして頂ければと思います。

 フォーマットは前回と同じで、各行毎に、プロンプトのID(通番)、プロンプト、回答、実験日、評価を記載しています。「14.マーラーの第9交響曲第1楽章を分析してください」については、回答が長いものになったため、複数行に分割しています。

 全般として、Web検索を行うようになったことで正解率が大幅に向上し、情報を見つけることができなかった問以外については、全て正解が返るようになりました。こうなると独自にRAGを構築する必要性はほぼなくなったということになりそうです。タイミングの偶然もあるでしょうが、わずか3か月にも満たない期間で、一つバージョンが上がっただけでこれだけ回答が改善され、施した対策(ここではRAGの構築)が意味を喪うという改善のスピードに驚かされます。
 
 前回との主な違いをまとめると、以下の通りです。
  • もともとマーラーの生涯の出来事についての問い合わせについては、前回も概ね正しい答えが返って来ていたのに対して、マーラー没後の日本での「大地の歌」、第9交響曲初演についての問い合わせには正しく答えられていなかった(1,2,10)のに対して、今回はWeb検索が行えるようになったことで、正確な答が返って来るようになりました。19.ブラームスがマーラーの指揮を褒めたというアネクドットについても同様です。
  • 17.「大地の歌」イギリス初演については前回は誤りを返していたのに対し、今回は、情報が見つからず、わからないという答になりました。
  • 16.第2交響曲の最初の録音については、前回は、一部誤りはあるものの正しい情報を返せていたのに対し、興味深いことに、検索をするようになった今回は、情報が見つからず、わからないという答になりました。
 最後の点について補足すると、Claude Sonnet 4で無料版でも可能になったWeb検索は、恐らくは信頼できるWebサイトと判断したものに範囲を限って情報の収集をしていることが窺えます。Geminiもその傾向がありますが、個人的な印象を述べれば、Claudeの方が更に慎重なように見え、これは個人が執筆・公開しているnoteやブログ記事からの情報も利用しているChatGPTとは対照的です。結果的に、Claudeが信頼できると判断した範囲では情報が見つけられないというケースが比較的多く発生する傾向は、本稿が対象としているマーラーについての情報のみならず、他の対象についても確認できています。「幻覚(Hallucination)」対策としてはより慎重で確実であると言えるでしょうが、例えば私のような市井の人間がどんなに詳細で正確な情報を継続的に公開しつづけても、その情報はClaudeの回答には全く反映されないということになり、正直に言えば、やや空しい感覚に囚われなくもありませんし、他の領域で確認した限りでは、それにも関わらず「幻覚(Hallucination)」が発生するケースもあるようです。この辺りはWeb検索に対して対照的なポリシーを持つChatGPTの結果と違いが出て来る部分でもあり、一長一短な感じもありますが、併用を前提としてしまえば、ポリシーの異なる生成AIが複数存在することにはメリットもあり、時と場合に応じて併用したり使い分けをしたりすることで有効に活用できるのではないかとも思いました。

(2025.6.1)


0 件のコメント:

コメントを投稿