本記事では、ChatGPT の無料版でWeb検索を併用できるようになったことを受け、Web検索つきのChatGPT 4oに、これまで検証に用いている19のプロンプトを与えた結果について報告します。マーラーについて生成AIに問い合わせてファクトチェックを行うことを最初に試みたのはほんの3か月前の2025年3月のことでしたが、その結果を受けたRAGの試作と検証の結果報告が一段落したと思う間もなく、Geminiが2.5にバージョンアップしたことをうけ、Gemini 2.5 Flashでの検証結果を記事マーラーについて生成AIに聞いてみた(12):Gemini 2.5 Flashの場合で報告したところですが、当初からWeb検索を併用していたGeminiに加え、ChatGPTについても無料版でWeb検索を併用できるようになりました。RAGを試作したのは、LLMの事前学習結果のみでは回答の精度に限界があることを確認したからですが、リアルタイムのWeb検索を併用できれば、ことマーラーに関する情報のようなパブリックな情報についてはRAGを構築するのに似た性能向上が期待できます。そこで早速、Web検索つきのChatGPT 4oでの検証を行ったような次第です。
まず、既に前の記事を読まれている方には煩瑣に思われるかも知れませんが、検証に用いたプロンプトを以下に示します。
- 「大地の歌」の日本初演は?
- マーラーの「大地の歌」の日本初演は
- マーラーの「大地の歌」はどこで書かれたか?
- マーラーは第8交響曲についてメンゲルベルクに何と言いましたか?
- マーラーが死んだのはいつか?
- マーラーはいつ、誰と結婚したか?
- マーラーがライプチヒの歌劇場の指揮者だったのはいつ?
- マーラーがプラハ歌劇場の指揮者だったのはいつ?
- マーラーがハンブルクの歌劇場の楽長になったのはいつ?
- マーラーの第9交響曲の日本初演は?
- マーラーは自分の葬儀についてどのように命じたか?
- マーラーの「嘆きの歌」の初演は?
- マーラーはどこで生まれたか?
- マーラーの第9交響曲第1楽章を分析してください
- マーラーの第10交響曲の補作者は?
- マーラーの第2交響曲の最初の録音は?
- マーラーの「大地の歌」のイギリス初演は?
- マーラーの「交響曲第6番」はいつ、どこで初演されたか?
- ブラームスはブダペストでマーラーについて何と言ったか?
実験は2025年5月22日に行いました。問い合わせの順番は、1の変形である2と、性質の異なる質問である14を除いて1から番号順とし、2,14を最後に質問することにしました。ChatGPTでは、無料版では利用制限がかかりますが、今回は1,3~10までで一旦リミットに達し、残りは日付は同じですがリミット解除後に検証を行っています。
全プロンプトに対する回答はかなりの分量になりますので、ここで全てを紹介することは控え、公開済の以下のファイルで確認頂ければと思います。なお参考までに検索なしのChatGPT 4oでの検証結果のリンクも示しましたので、興味のある方は比較をして頂ければと思います。
フォーマットは前回と同じで、各行毎に、プロンプトのID(通番)、プロンプト、回答、実験日、評価を記載しています。「14.マーラーの第9交響曲第1楽章を分析してください」については、回答が長いものになったため、複数行に分割しています。
前回との主な違いをまとめると、以下の通りです。
- 前回は、正解はマーラーの伝記的事実に関する問い合わせにほぼ限定され(4,5,7,8,9,12,13,18)、マーラー没後の作品の初演についての問い合わせの回答はほとんどがフェイクでした。また概ね正しい答が返ってきている場合でも、細部に間違いが見受けられる場合が多くありました。
- 今回は、日本初演についての問いの一部(1,10)を除けば概ね正しい答が返って来ており、誤りがある場合にも、全てがフェイクというわけではなく、正しい情報と誤りが混在する答になっています。検索に基づく回答には、根拠となる情報源が記されているので確認ができるのですが、そのうち10.第9交響曲の日本初演についての回答は、問い合わせの答自体は正しい(1967年4月16日東京文化会館でのキリル・コンドラシン指揮、モスクワ・フィルハーモニー管弦楽団の来日公演での演奏)ものですが、日本人による日本初演についての補足は、残念ながら、公演のライブ録音のCDのリリース情報に基づいた誤った類推の結果と思われ、こちらは生成AIが生み出したフェイクではないかと思われます。一方、1.「大地の歌」の日本初演に関する質問に対する答に含まれる誤りは、本企画の以前の検証報告に含まれる、生成AIが作り出したフェイク情報に基づいたものです。
最後の点について幾つか補足すると、まずWeb検索の傾向として、ChatGPTはGeminiやClaude(Claude Sonnet 4から無料版でもWeb検索に対応するようになりました。このバージョンでの検証も既に済ませていますので、その結果については別途報告の予定です)に比べて、いわゆる「オフィシャル」な情報以外の、個人が作成・公開しているコンテンツも検索の対象としており、今回のケースでは、私自身の公開している情報(但し本ブログではなく、同一コンテンツをnoteで公開したもの)を参照しています。一般にWebで公開されているコンテンツが常に信頼できるものであるとは言えないため、検索で得られた情報の正しさを判断する必要があるのですが、GeminiやClaudeは、信頼性の高いサイトのみを検索対象とすることでフェイクを引き当てるリスクを回避しているのに対し、ChatGPTの場合には相対的にリスクが高いやり方をしていると言えると思います。
次に私の公開している記事の内容ですが、これがファクトチェックを目的としたものであることは、人間の読者にとっては明らかなことと思いますし、また当該情報が誤りであることも記載しているので、人間の読者にとっては誤解の余地はないものと思いますが、生成AIではそこまでの判断ができていないという点が指摘できると思います。特に生成AIは、その技術的基盤であるLLM(大規模言語モデル)のメカニズム(Transformerと呼ばれる技術をベースにしています)から言っても、普通の文章で書いてある場合に比べて表形式の情報を扱うことが苦手であること明かであり、実際、表形式の情報を正しく生成AIに理解させることの困難については、技術的には広く知られており、様々な対処方法も提案されています。
もう少し細かく言うと、完全な表形式でなくても、表に準ずる情報の省略、例えば文章中に「正しい」「誤りである」という言葉が明示的に含まれているのではなく、当該文章とは別に(例えばその直前に)〇・×といった記号が付されているような場合には、生成AIが情報を正しく読み取ることが困難になることが知られています。極端なケースでは、〇が正しい、×が誤りであるという、人間にとっては自明なことすら生成AIにとっては自明でなく、仮にそれがわかったとしても、〇・×が、後続の文章の内容の真偽に関わる情報であるという、人間であれば文脈から容易に推測できることが、生成AIには理解できないということです。勿論この点についても今後は技術的な改善が行われていくものと思われますが、少なくとも現時点では、ファクトチェックをしてフェイクを指摘する記事のコンテンツと、単にフェイクを記載しているコンテンツの区別が生成AIにはつかないリスクがあることは認識しておくべきかと思います。
従ってファクトチェックの記事の公開には、チェック対象となるフェイクを却って拡散してしまうというリスクが伴うことになるわけですが、それではその点を踏まえて、生成AIに誤解されないようにファクトチェックの記事は作成・公開を控えるべきなのか、或いは作成した場合に、人間にとっての読み易さより、生成AIにとって誤解が生じにくい書き方をすべきなのでしょうか?勿論、そうした配慮はするに越したことはないのでしょうが、私見では、現時点でのごく限定された評価結果に基づく対応は行き過ぎになる可能性が高いと考えます。ファクトチェックを行い、その領域について関心のある読者に対して結果を公開することには意味があると思いますし、それはあくまで人間に対して行っているのであって、生成AIに対して行っているわけではありません。また、そもそも本記事自体がそのことを確認する主旨のものでもあるわけですが、生成AIの技術的な革新の速度には驚くべきものがあり、生成AIにとって現時点では苦手な、リニアな自然言語での文章とは異なる、表のような形式の解釈も、ファクトチェックの結果の報告と意図的なフェイクとの区別もいずれ解決する可能性が高いと思います。寧ろ、いずれそれがファクトチェックの結果の報告であることを生成AIが理解することを期待して、その時点でのファクトチェックを行って、誤りがあればそのことを指摘した方が良いのではないかと考えます。(理想的には、アクセス可能な情報には一切の間違いがなく、正しい情報のみからなる状態が望ましいのでしょうが、現実的にはそうした状態になることは期待できませんし、意図的にフェイクを流布しようという試みが絶えず為されていることも事実で、それがなくなることは期待すべきではないでしょう。)本稿で対象としているマーラーに関する情報に限って言えば、既にほんの3か月前と比べ、最新のバージョンの回答は大幅に精度が向上していることは本記事の報告からも明らかであり、本記事の報告で残っている問題も遠くない将来、解消すると考えるべきだというのが、今回の検証を実施しての印象です。
(2025.6.1)
0 件のコメント:
コメントを投稿