マーラーについての様々な質問を商用の生成AI(ChatGPT, Gemini, Claude)に対して行い、その結果を受けて試作したRAG(Retrieval-Augumented Generation)の評価用に用意したプロンプトセットを、改めて商用の生成AIに与えて結果を確認する実験については、前回の記事「マーラーについて生成AIに聞いてみた(10):「大地の歌」日本・イギリス初演と第9交響曲の日本初演について」で報告した通りです。また前の記事では、その標題に示した通り、その結果の一部である、「大地の歌」の日本初演・イギリス初演および第9交響曲の日本初演についてのプロンプトへの回答について個別にコメントを加えつつ報告を行いました。それはRAGの構築を思い立った理由である、RAGなしの生成AIにとって苦手であるように思われた地域限定の情報、或いは特定の言語に偏在する可能性が高い情報に関する問い合わせに対して、商用の生成AIがどのように回答するかを改めて確認することを優先したからでした。
本稿では、前回報告済のプロンプトへの回答に加え、残りのプロンプトへの回答も含め、実験結果の全体を報告します。当初生成AIには与えていなかったけれども、実は生成AIが得意である可能性が高いタイプのプロンプトを含めて、或る程度の多様性を持たせたプロンプトセットを与えることで、現状の生成AIの回答を、ピンポイントにではなく、稍々幅を持たせた仕方で確認することが狙いです。特にRAG構築に用いたLLMが、2023年12月19日公開のllama2 / Swallow であり、既にリリースされてからかなりの時間が経過しているバージョンであることから、近年のLLMの性能の急激な向上を考えると、ベースとなっているLLMの性能にかなりの差があることが予想されるため、その点を確認することを主要な目的としました。実際には用意したプロンプトの数は20程度であり、網羅性のようなものを議論するレベルの量ではありませんが、それでもこれまでの完全にアドホックな質問に対する回答では確認できなかった面が多少なりとも明らかにでき、また現時点での商用の生成AIの性能向上の著しさを確認することもできたと考えます。
前回の報告と重複しますが、実験対象の生成AIの種類と、与えたプロンプト・セットを再掲します。
対象とした生成AI
- ChatGPT:4o
- Gemini:2.0 Flash
- Claude:3.7 Sonnet
プロンプトセット
- 「大地の歌」の日本初演は?
- マーラーの「大地の歌」の日本初演は
- マーラーの「大地の歌」はどこで書かれたか?
- マーラーは第8交響曲についてメンゲルベルクに何と言いましたか?
- マーラーが死んだのはいつか?
- マーラーはいつ、誰と結婚したか?
- マーラーがライプチヒの歌劇場の指揮者だったのはいつ?
- マーラーがプラハ歌劇場の指揮者だったのはいつ?
- マーラーがハンブルクの歌劇場の楽長になったのはいつ?
- マーラーの第9交響曲の日本初演は?
- マーラーは自分の葬儀についてどのように命じたか?
- マーラーの「嘆きの歌」の初演は?
- マーラーはどこで生まれたか?
- マーラーの第9交響曲第1楽章を分析してください
- マーラーの第10交響曲の補作者は?
- マーラーの第2交響曲の最初の録音は?
- マーラーの「大地の歌」のイギリス初演は?
- マーラーの「交響曲第6番」はいつ、どこで初演されたか?
- ブラームスはブダペストでマーラーについて何と言ったか?
実験は2025年4月26日と5月6日に行いました。問い合わせの順番は、1の変形である2とタイプの異なる質問である14を除いて基本的に1から番号順とし、2と14を最後に質問することにしました。ChatGPTの無料版は最初は4oが使えますが、リミットに達すると4o-miniに切り替わります。今回は11まででリミットに達したため、リミットが解除されるのを待って残りを5月6日に問い合わせしました。Claudeについてもリミットがありますが、こちらは13でリミットに達したので、リミットの解除を待って、4月26日当日の解除後に残りを問い合わせています。Geminiについては制限にかからなかったので、全ての問い合わせを一度に行っています。
全プロンプトに対する回答はかなりの分量になりますので、ここで全てを紹介することは控え、公開済の以下のファイルで確認頂ければと思います。
各ファイル共通で、各行毎に、プロンプトのID(通番)、プロンプト、回答、実験日、評価を記載しています。「14.マーラーの第9交響曲第1楽章を分析してください」については、回答が長いものになったため、行を2行ないし3行に分割しています。
評価については、これまでと同様、明確に間違いと言える部分がなく、概ね正解と見做せるものに〇、正しい部分もあるが一部に明確な誤りがある場合には△、全体として誤りのものは×としました。明確な事実関係のプロンプトであれば判断における曖昧さの余地はあまりありませんが、そうした場合でも生成AIが、聞かれたことの直接の回答ではない付加的な情報を追加する場合が多いので、判断はそれらを含めたものとなっています。今回は特に回答が長いケースが多かったため、△と×との区別にはどうしても恣意性が残ります。
若干の例を挙げれば、「3.マーラーの「大地の歌」はどこで書かれたか?」に対しては、Claudeのみ正解(トーブラッハ)で、chatGPTとGeminiはマイアーニヒとしています。回答にはそれ以外に当時のマーラーのおかれた状況等、創作のきっかけや背景に関する情報も含まれており、そちらは問題ないのですが、この場合、プロンプトへの答としては誤りなので×としました。
一方、「10.マーラーの第2交響曲の最初の録音は?」の場合には、どの生成AIもオスカー・フリート指揮ベルリン国立歌劇場管弦楽団の1924年の録音に言及していて、その点に限れば正解とすべきかも知れませんが、それ以外の付加的な情報には誤りが含まれている場合や、判断に迷う記述が見受けられます。そこで付加情報に誤りが含まれる場合には△としました。具体的には「最終楽章の一部のみの抜粋」としたClaudeは、この点については事実に反しているので△にする一方で、chatGPTもまた技術的制約によるカットに言及しているのですが、こちらについては具体的な箇所についての言及はありません。「カット」というのをどの範囲・レベルのものと見做すかについて幅があることから、当初は全くの間違いとはいえないとして、一旦〇にしましたが、一般的な意味合いにおけるカット(著名な例として私がすぐに思いつくものとしては、シェルヘンの第5交響曲の録音やクレツキの第1交響曲、第9交響曲の録音におけるような、楽曲の一部の演奏を、理由の如何を問わず、意図的に行わないという意味合いでのそれ)はない全曲の録音というのが通常の了解であり、この回答はミスリーディングだと判断し、△に変更しました。
このように回答の評価には微妙な部分が見受けられたことから、今回は△と判定した場合を中心として、回答に局所的に明確な誤りが指摘できる場合には、その箇所を赤字にして、判断の根拠がわかるようにしました(但し、誤りがある部分について網羅的にチェックを行った結果ではありませんので、その点はご容赦頂きたく思います)。また、「14.マーラーの第9交響曲第1楽章を分析してください」の回答は、以前の問い合わせに対するchatGPTの回答のように、具体的に挙げられた構造的な区切りの小節数等に明確な誤りがあるといったケースはありませんでしたが、細部については妥当性が疑わしい記述が散見されることもあり、今回は評価の対象外とし評価を行いませんでした。
全般的な傾向について述べると、前回の記事で報告でも記した通り、マーラーの生涯における事実に関する質問については概ね正しい回答が返ってきており、かつその詳しさは想定を上回るもので驚かされました。(実はこの検証実験を行うまでは、llama2 / Swallow の回答を見て、マーラーの生涯に関する事実を網羅的にRAGに与えることを検討していたくらいなのですが、現状の商用生成AIを前提とするならば、それは不要であるように感じられた程です。)その一方で、作品に関する事実についての質問では虚実が入り混じる、以前の問い合わせ結果と似たものになりました。特に、前回の記事で報告の対象とした、日本初演・イギリス初演のような、マーラーの生涯からは時間的にも隔たり、かつ地理的にも隔たった場所での出来事については、恐らくはそれについての情報がインターネット上では限られるためか、回答の精度ががくんと落ちる傾向にあり、RAGの作成の必要性を感じさせます。各生成AI間の差については以前受けた印象と変わらず、chatGPTがやや暴走気味で誤りが目立つのに対して、GeminiやClaudeは、細かいところでの誤りが散見されるものの、相対的には誤りの程度はましで、かつ慎重な姿勢を示す傾向にある点は一貫しているように感じましたが、拡大したとはいえ、たかだか20程度のプロンプトに対する回答の印象に過ぎないので、過度の一般化は控えるべきでしょう。
今回の回答で特筆すべき点としては、一部は既に触れていますが、最初に生成AIに問い合わせた際と同じ内容を問うプロンプトに対する答が、前回のものとは異なる場合が見受けられ、前回は誤りであったものに対して正解を返すケースさえ見受けられた点です。既に述べたように、以前は全滅だった「大地の歌」の日本初演については、今回はGeminiだけですが正解を返しています。GeminiのLLMのバージョンは以前と同じ筈なので、Gemini特有のRAG的なリアルタイム検索の効果だと思われますが、これが確率的な揺らぎによるものなのか、別の理由があるのかはわかりません。
また今回追加したプロンプトの中には、マーラーが何と言ったかという、いわゆる語録についての質問が含まれていますが、これに対する回答も興味深く思われました。具体的に見ていくと、まず「4.マーラーは第8交響曲についてメンゲルベルクに何と言いましたか?」については、極めて有名なメンゲルベルク宛書簡のコメントを回答として想定しているのに対し、いずれの生成AIも想定通りの回答を返しています。ちなみにchatGPTは「ドイツ語原文」を示していますが、何故か引用のごく一部の言い回しが書簡集で確認できるものと異なります(私が知っている限りでは、マーラーの書簡のオリジナルの文面では、StellenではなくDenken、anfängtではなくbeginntが用いられています)。とはいえ内容的には間違ってはいないため、—―多分そのようなことはないと思いますが、ヴァリアントの存在の可能性を考慮して――、〇としています。一体、何に基づいてこのような微妙な改変をするのかはわかりません。校正の機能が過剰に働いていたりするのでしょうか?
「11.マーラーは自分の葬儀についてどのように命じたか?」については、書簡のような記録があるわけではなくマーラーが語ったことが伝聞として記録されているわけですが、ここでも具体的にマーラーが語ったとされる言葉を引いているchatGPTの引用は、しかしながら私の知る限り、それをマーラーがそのまま語ったという記録はないように思います。一方Geminiは慎重に、「マーラーは、自身の葬儀について具体的な指示を公に残した記録は見つかっていません。しかし、彼の死後、妻のアルマ・マーラーや友人・知人たちの証言から、彼の葬儀に対するいくつかの意向が伝えられています。」と断った上で、一般に流布している内容を返して来ています。ClaudeはGeminiのような留保はつけていませんが、内容的には大きな問題はなさそうです。
最後に「19.ブラームスはブダペストでマーラーについて何と言ったか?」についてですが、回答として期待しているのは、ブダペストのハンガリー王立歌劇場でのマーラー指揮の「ドン・ジョヴァンニ」に接したブラームスが語ったと伝えられる賞賛の言葉でした。chatGPTの回答は、時期的にも内容的にも違ったもので、私の知る限りではフェイクと思われます。一方Claudeは、マーラーがハンガリー王立歌劇場の指揮者として働いていたことに言及しつつ、「この時期にブラームスがブダペストを訪問してマーラーについて何か述べた可能性はありますが、特に広く引用されるような発言は私の知識の限りではありません。」更に、「ブダペストで特にマーラーについてブラームスが何か重要な発言をしたという有名なエピソードは一般的な音楽史では強調されていません。」として、問いへの直接的な回答はしていません。特にこの最後の点については真偽の問題というよりは判断の問題なので誤りとは言えませんが、少なくともマーラーの生涯を語る上では必ずといって良い程言及されるエピソードですし、これはClaudeが回答として想定された発言を見つけられなかったことを弁明したものである可能性も否定できないように思います。Geminiはここでも周到に、「ブラームスがブダペストでマーラーについて具体的にどのような言葉を残したかという直接的な記録は見つかっていません。」と言いながらも、「本物のドン・ジョヴァンニを聴くにはブダペストに行かねばならない」という言葉を引き、「このブラームスの言葉は、マーラーの指揮者としての才能を認めた重要な証言として広く知られています。ブラームスは、その後マーラーをウィーンに推薦するなどの支援も行っています。」というように、的確で行き届いた回答を返しているように見えます。
全般として、現在利用できる商用の生成AIの能力は、RAGの構築に利用した、ほんの数年前にリリースされたLLMであるllama2 / Swalllowと比べても著しく改善されており、例示した幾つかの回答からも窺えるように、質問そのものの直接的な回答だけではなく、付加的な情報を付加するなど、エージェンとしてのチューニングが施されている他、「幻覚(Hallucination)」対策も(程度の差はあれ、また万全ではないにしても)進められていることが感じられます。また、質問の種類を増やしてみると、マーラーの生涯の事実を問うようなプロンプトに対する回答の精度は想像以上に高く、RAGによって補完すべき領域は色々な意味合いで「ローカル」であったり「パーソナル」であったりする、相対的にはマージナルな事柄に限定されるように感じました。但し情報の精度と回答の仕方の両面での改善が進めば進むほど誤りを見抜くことが困難になっていく一方で、フェイクを皆無にすることには(少なくとも現在の技術を前提とする限りにおいて)原理的に大きな困難が予想されるため、利用に当たって注意する必要性は寧ろ今後増大していくと考えるべきかも知れません。
(2025.5.7 公開, 5.8 フリートの第2交響曲の録音に関するchatGPTの回答の評価を訂正など、幾つかの点について補筆し、文面の調整を行い、タイトルを調整の上更新)
0 件のコメント:
コメントを投稿