お知らせ

GMW(Gustav Mahler Werke, グスタフ・マーラー作品番号:国際グスタフ・マーラー協会による)を公開しました。(2025.4.20)

2025年6月18日水曜日

[お知らせ] マーラー祝祭オーケストラ(音楽監督・井上喜惟)第25回定期演奏会(2025年10月11日)

  マーラー祝祭オーケストラ(音楽監督・井上喜惟)第25回定期演奏会が2025年10月11日にミューザ川崎 シンフォニーホールにて開催されます(12:45開場、13:30開演)。以下のマーラー祝祭オーケストラの公式ページもご覧ください。

Mahler Festival Orchestra Offcial Site (https://www.mahlerfestivalorchestra.com/)

チラシのpdf版は以下のリンクからダウンロードできます。

マーラー祝祭オーケストラ第25回定期演奏会.pdf




プログラムはベルクの7つの初期の歌とマーラーの第9交響曲より構成されます。第9交響曲はマーラー祝祭オーケストラがまだジャパン・グスタフマーラー・オーケストラという名称であった2012年6月24日に、文京シビックホール大ホールで行われた第9回定期演奏会で取り上げられており、今回は13年ぶりの再演となります。13年前の公演に接した本ブログ管理人の感想は、ジャパン・グスタフ・マーラー・オーケストラ第9回定期演奏会を聴いてという記事として本ブログで公開しています。第9回定期演奏会は本来、2011年に行われる予定でしたが、東日本大震災被災により当初予定されていたミューザ川崎シンフォニーホールでの公演ができなくなったこともあり、1年延期の上、会場を変更しての公演となりました。今回は改めて、ミューザ川崎シンフォニーホールでの公演となります。

第9交響曲について、これまでの公演で取り上げられてきた交響曲同様、プログラムノートに寄稿させて頂いておりますので、是非ともご一読頂ければ幸いです。

また本ブログでは、上記の公演の感想以外にも、第9交響曲に関連して以下のような記事を執筆・公開していますので、併せてご覧頂ければ幸いです。

(2025.5.31 公開, 6.18 更新)


2025年6月14日土曜日

マーラーについて生成AIに聞いてみた(18):Gemini Deep Researchによる第9交響曲第1楽章の分析

 本稿ではGemini Deep Research with 2.5 Proが生成した第9交響曲第1楽章のレポートを紹介します。Gemini Deep Research は Geminiが2.0から2.5にアップデートされたのに伴い、無料版においても利用可能になった機能で、無料版で利用できるデフォルトのLLMである2.5 Flashではなく、「深い推論」(従来の生成AIのように過去のデータからパターンを再現するだけではなく、複雑な問題を解決するために、段階的な思考と論理的な推理を用いたプロセスに従来の生成AI技術を融合した技術)に特化した2.5 Proを用いて、課題解決のためのプラン(「リサーチ計画」)を作成し、段階的にWeb検索・分析を繰り返すことによってレポートを生成することができるもので、既にこれまでの検証で、マーラーの「後期様式」についてのレポート作成において他の生成AIと比べて高品質の回答を生成できていることを確認しています。

 一方第9交響曲第1楽章の分析は、今を遡る3か月前に本企画「マーラーについて生成AIに聞いてみた」を開始した直後に設定した検証用課題の一つであり、その後も検証対象のLLMのバージョンアップに伴う再検証においても例題として使用してきたものです。但し、その結果は思わしくなく、特に、当時はリアルタイムWeb検索を使用していなかったChatGPTの出力は全くの出鱈目であり、生成AIが事実と異なる出力を行う「幻覚(Hallucination)」と呼ばれる現象の典型例となってしまいました。検証対象である商用AI(ChatGPT, Gemini, Claude)の無料版の標準LLMいずれについてもその後、LLMのバージョンアップが為されたり、リアルタイムWeb検索を併用するようになったりしたため、再検証を行ったところ、少なからぬ改善は見られるものの、細部においてはおかしなところが散見され、他のプロンプトのように簡単に〇×の評価をすることが難しい状況が続いていたため評価対象外として、その結果をご紹介するに留めていました。これらについては検証結果を収めたpdfファイルのリンクを当該検証を報告した記事で示していますので、ご興味のある方は当該記事にて実際の回答を確認して頂くことができます。

 Geminiについては、3月の検証時点での2.0 Flashの回答では、楽曲の具体的な内容に立ち入ることなく、総説的な説明に留め、解釈について補足するといった構成で、楽曲自体についての記述は、当たり障りのない、だけれども明確な誤りは見受けられない内容になっていたのに対し、その後追加検証を行った際には、楽曲についてより具体的に主題や調性についての言及を行うようになった分、明確な誤りもあれば内容が曖昧で何を指しているのか判断に苦しむ箇所もありということで、「幻覚(Hallucination)」という観点からは、、寧ろより悪い結果となっていました。この傾向は4月下旬に実施した2.0 Flashの再検証で確認でき、5月下旬に実施した2.5 Flashの再検証でも、若干改善が見られるものの、基本的には同様でした。

 一方でそれとは別に、Deep Researchの機能を評価するために、マーラーの「後期様式」をテーマとしたレポートの作成指示をしたところ、稍々おかしな部分があるものの、それなりの品質のレポートが得られたことは本記事の直前の記事でご紹介している通りです。冒頭述べたように、Deep Researchでは無料版の標準LLM(Geminiの場合、現時点では2.5 Flash)ではなく、複雑な調査やレポート生成に適しているとされる「深い推論」に特化したLLM(Geminiの場合は2.5 Pro)を使用しますので、第9交響曲第1楽章の分析についても異なる結果になることが予想されること、「深い推論」に特化したLLMこそ現時点での生成AIがその性能向上に最も力を入れている部分であり、かつその成果について喧伝されている部分でもあることから、現時点での到達点と限界を確認するという意味合いもあり、今回の検証を実施することにしました。

 実験は2025年5月22日に実施しました。これは順序としては、2.5 Flashを用いた再検証、およびマーラーの「後期様式」のレポート作成の後になります。近年の生成AIは過去の履歴を利用した処理を行うため、そうしたコンテキストが回答に影響している可能性があるため、付記しておきます。

 与えたプロンプトは従来、標準モデルに与えていたものと同じで、以下の通りです。

プロンプト: マーラーの第9交響曲の第1楽章を分析してください。

これに対してDeep Researchが返してきた「リサーチ計画」は以下の通りです。

 マーラー第九交響曲第一楽章分析

ウェブサイトをリサーチ
(1) 第1楽章の全体的な楽曲構造と形式(例:ソナタ形式、変形ソナタ形式)を特定し、その特徴を記述します。
 (2) 楽章内の主要な主題(テーマ)と動機(モチーフ)を特定し、それらがどのように提示され、展開され、変容していくかを分析します。
 (3) 和声進行、調性の変化、不協和音の扱い、そして全体的な和声言語が楽章の感情的・構造的側面にどのように寄与しているかを考察します。 
(4) オーケストレーション(楽器編成と用法)に注目し、各楽器群の役割、音色の変化、テクスチャの多様性が楽章の表現にどのように影響しているかを評価します。
 (5) テンポ、ダイナミクス(強弱)、リズムの要素が、楽章の劇的な展開、感情的な起伏、そして全体的な流れにどのように貢献しているかを分析します。
 (6) 楽章が伝えようとしている感情、ムード、または潜在的なプログラム的要素について探求し、マーラーの人生や当時の時代背景との関連性を考察します。
 (7) 対位法、主題変容、コラージュ的手法など、この楽章で顕著に見られるマーラー独自の作曲技法を特定し、その効果を説明します。 
(8) この楽章に関する主要な音楽学者の分析や、発表以来の批評的な受容、そしてその歴史的意義について調査します。
結果を分析
レポートを作成
数分で完了予定

 ここでは検証が目的なので、極力介入を避けるべく、上記リサーチ計画をそのまま承認します。数分後に帰って来た結果は「マーラー交響曲第9番第1楽章「アンダンテ・コモド」の深層分析」というタイトルのレポートです。17000字強とかなりの分量になりますので、この記事中での紹介は控え、Google Documentにエクスポートしたものをpdf化したファイルを以下に公開しましたので、ご確認頂ければと思います。またレポート作成プロセスのログである「思考プロセス」も同様にpdf化し、併せて公開しています。

 出力されたレポートは以下のような構成を持ちます。比較をすると明らかなように、これは概ね「リサーチ計画」に沿ったもので、各章タイトルに内容に因んだ副題を付けるなど、かなり凝ったものとなっています。個人的にはこのような修辞には抵抗感があり、自分で書く時にはこうしたことはやらないと思いますが、こうしたレトリックを生成できること自体、驚くべきことだとは思います。
I. 序章:世界への告別
II. 形式構造:変容するソナタ形式
III. 主題と動機のタペストリー:生と死の糸
IV. 和声と調性の風景:不協和音と解決の航行
V. 管弦楽法と音色の表現:色彩の交響曲
VI. 感情的・プログラム的物語:死の予感
VII. 作曲技法における革新:境界を押し広げる
VIII. 批評的受容と演奏の遺産
IX. 結論:不朽の傑作
  引用文献はWikipediaを始めとし、youtubeも含めた多様な媒体を含み、言語も英語・日本語の両方に渉り、その数は37にも及ぶもので、Web検索技術との高度な融合を強みとするGeminiの面目躍如といったところでしょう。

 その内容も、細部には突っ込みどころはあるでしょうが、これまでの生成AIの出力からすれば格段に充実したものと言え、その程度はGemini Deep Researchが先行して生成したマーラーの「後期様式」論と比べても勝ったものと感じられます。その原因は、マーラーの「後期様式」論で与えたプロンプトが具体的で議論の組み立てを含み、生成AIにはその議論をサポートするような情報を検索し、肉付けをすることが求められていたのに対して、ここでのプロンプトは内容上の制約を含まず、楽曲の個別楽章についての様々な視点について幅広く情報収集し、それを網羅的に並べていくことができるという、与えられた問題の性質の違いに依る部分が大きいように思います。要するに今回の問題の方がより生成AI向きの課題であったという面が認められるように感じます。

 とはいうものの、調査された文献の数とその結果を文章にまとめあげる能力は際立ったものであり、最終的に出力された文章も概ね自然なもので、大きな違和感はありません。これがものの数分で生成できるのであれば、それを自分の文書作成プロセスに取り入れようと試みる人が出て来るのも当然のように思います。

 しかも人間に同様の調査を指示したときのことを考えた時、そもそも最初に示した「リサーチ計画」を適切に立案すること自体が決して「当たり前」のことではないことに気づきます。この計画が出来てしまえば、後はWeb検索を行い、結果を取捨選択して整理をするという生成AIが従来より得意とするプロセスですから、或る程度の品質のものが出て来ることは想定できますが、「リサーチ計画」の作成の方はその限りではありません。勿論、この点こそが「深い推論」への対応の要でもある訳で、聞くところによれば、プログラムの自動生成技術の応用のようですが、その結果は、ことによれば人間が自分でリサーチを行う際の参考にしたり、人間のリサーチの指導の素材に使えるのではないかと思わせるものです。勿論、専門の研究者はリサーチの達人であり、「リサーチ計画」をほぼ無意識的に、瞬時に組み上げることも造作ないのだろうと思いますが、それを機械にやらせるとなれば話は別で、これができるようになったことは画期的な事だと思います。

 かれこれ半世紀以上前にまで遡る、かつての人工知能技術を知る者にとっては、汎用問題解決器(General Problem Solver:昔はGPSと言えばこちらのことだったのですが…(笑))と呼ばれる推論技術(1957年にアラン・ニューウェルとハーバート・A・サイモンが開発)の事を思い起こさざるを得ません。「深い推論」は、論理的思考の模倣を目的としたかつての技術が、大規模言語モデルを支える自然言語ベースの機械学習技術と融合する形で改めてインプリメントされたものと捉えることが出来、かつての人工知能ブームを知るものにとっては強い既視感のあるものですが、そうであってみれば、半世紀以上に亘る人工知能研究の蓄積が、ようやく実用的なレベルをもたらしたという見方も出来、感慨深いものがあります。

 更に驚くべきは、内容の精度が飛躍的に上がっていることで、特にそれが従来とは異なって、記述の詳細度や具体性と両立していることです。具体的には II. 形式構造において「楽曲形式と小節番号」について、III. 主題と動機のタペストリーにおいて「主要動機とその意義」について、更にV. 管弦楽法と音色の表現においては「管弦楽法の特筆すべき点と効果」についてそれぞれ表形式でまとめられているのですが、その内容は具体的であると同時に、作品のどこについて述べているかについて曖昧さがなく、かつその内容の是非には仮に議論があるにせよ、少なくとも明らかなフェイクは見当たりません。特に小節番号と主要動機は或る種鬼門と言って良く、従来の回答で明らかなフェイクであったり、検索結果に出てきた単語を並べただけと思しき、何を指しているかが不明瞭なものが散見されたのとは明らかに一線を画していると思います。

 小節番号については、以前のWeb検索なしのChatGPTの生成結果が全くの出鱈目であったことは極めて印象的でしたし、最新版においても、これはこれまでに報告していませんでしたので、以下でご紹介しますが、Claude Sonnet 4が生成した第9交響曲第1楽章の分析レポートが、またしても出鱈目であるなど、実際の作品そのものを調べることなく、「言説の空間」における作品についての二次的な情報、謂わば「うわさ話」を継ぎ接ぎしただけの生成AIの限界を感じさせる部分でしたが、驚くべきことに今回のGemini Deep Researchのレポートにおける小節番号の記述には間違いがなく、(提示された説に全面的に同意するかは別として)その楽式の把握は少なくとも検討に堪えるレベルの妥当性を備えていると言えると思います。

 作品の具体的な記述の正確さについてのもう一つの試金石として、調性に関する記述がありますが、従来のものだと第9交響曲全体についてのニ長調→変ニ長調の下降という、所謂「発展的調性」に関する記述が誤って紛れ込んだり、第10交響曲の記述と思しきもの(嬰ヘ長調)さえ出て来たりと極めて問題が多い点でした。ところがこれについても主要動機に関する部分や、和声と調性に関する部分におけるニ長調と二短調の交替、ニ長調と変ロ長調という三度関係が枠組みとなっているという点が指摘されており、その内容は(既に知られたものであり、新規性はないものの)概ね妥当ではないかと思います。

 更に様々な引用、参照もフェイクが起こりがちなポイントですが、今回のレポートの内容を確認すると、感情的・プログラム的物語についての部分におけるベルク、バーンスタイン、メンゲルベルク等への参照、作曲技法における引用についての記述での、ベートーヴェンの「告別ソナタ」、ヨハン・シュトラウスの「人生を楽しめ」、および自己の先行作品の引用の指摘、更には代表的な録音についての言及など、取捨選択そのものに異論はあり得るにせよ、参照、引用されている内容にはフェイクの混入は見られず、従来の回答とは一線を画するものになっています。

 全体として、今回のGemini Deep Researchのレポートは、最新の生成AIの性能向上を強く印象付けるものであったように感じます。勿論、細部を検討していけば瑕疵を指摘することはできるでしょうが、従来の検証結果と比較した時にその質の高さは際立っているように感じ、率直に言ってここまでのレベルのものが出て来るとは想像していなかったこともあって、驚きを禁じ得ませんでした。

*     *     *

 今回のGemini Deep Researchによる第9交響曲第1楽章の分析のレベルをより具体的に把握するための参照点として、ここでは Claude Sonnet 4に同一内容をレポートを生成させた結果を以下に示します。
 Claudeでは、Geminiにおける2.5 Pro、ChatGPTにおけるo3といった「深い推論」に特化したモデルとしてOpus 4 が既にリリースされており、その文書生成能力についての世評は極めて高いようですが、残念ながら無料版では利用できません。それでも無料版で利用できる標準LLMであるSonnet 4もプロンプトで明示的に指示すればレポートを作成できますし、Sonnet 4ではリアルタイムWeb検索を併用するようになっていること、先行するRAGプロンプトを与える検証では、インラインモードでの回答で、簡潔で当たり障りのないものですが、それもあってかフェイクのない回答を返している点で際立っていたためレポートを作成させてみたものです。
     如何にもClaudeらしい、洒落た副題を持つレポートが生成されましたが、残念ながらその内容は、かつてのChatGPT 4oのWeb検索なしのモードでの回答を彷彿とさせるようなフェイクの多いもので、実はこれ自体は紹介の価値がないと考えたため、単独での報告の対象からは除外していたものです。Claudeの現時点での実力を測るのであれば Opus 4 の結果との比較でなければ公平を欠くとは思いますが、今回のGemini Deep Researchの出力の質が際立っていることは確認できるのではないかと思いますし、それだけではなく比較によって、今回のGemini Deep Researchのレポートの質を支えているものが何であるかを窺い知ることもできるのではないかと思い、ここで取り上げることにしました。

     Gemini Deep Researchの特徴としては、リアルタイムWeb検索が強力であり「深い推論」プロセスとの統合度が高いことが挙げられます。人間がWeb検索を行う時も、最終目的に照らして、一旦仮に目的を設定しWeb検索をして、その結果が意図に適ったものであるかどうかを判断し、必要に応じてキーワードを変更したり、検索結果をどこまで見るかを変えたりすることを繰り返しながら目的の情報に辿り着き、更にそうして得られた情報に基づいて次の情報検索を行うプロセスを段階的に行うことによって最終的に必要とされる一連の情報を取得するといったステップを踏みますが、Deep Researchの「思考プロセス」はまさにそれを模したものと言えます。

     一方「幻覚(Hallucination)」の原因の最大のものは学習データに必要な情報が不足していることです。生成AIは基本的には事前学習結果に基づき最も確からしい文字列を確率的に生成しますが、情報が或る程度以上存在すればそれらの隙間を補完するように妥当な推定をすることもある反面、情報が不足していれば誤った推定が行われることになります。最新の生成AIの基盤となっている大規模言語モデルはバージョンが上がるたびに飛躍的に性能を向上させており、そのことは本検証においても同一サービスの前のバージョンと最新のバージョンの回答を比較することで確認してきました。しかしながらそれ単独では、事前学習した結果が全てとなります。それを補うのがリアルタイムWeb検索です。リアルタイム検索をすれば事前学習結果における情報の不足を補うことができることから「幻覚(Hallucination)」を抑制することが期待できますが、標準のモデルではWeb検索は一度だけ(但し、適切な結果が得られないと判断されば場合には、検索のし直しを行うことはあるようですが)で、その後直ちに回答の生成に進むのに対して、Deep Researchでは、思考プロセスの進展に応じて新たな検索を繰り返し行うことで、より精度の高い情報を取得することが可能になっていると考えられます。
     
     リアルタイムWeb検索の併用により、事前学習結果における情報の不足に一定のレベルで対応できることは、例えば以前はWeb検索を行っていなかったChatGPTがフェイクを連発していたのが、Web検索を併用するようになって、見違えるように回答の精度が向上したことを本企画のこれまでの検証で確認しています。しかしながらレポート作成のような幅広い情報と、内容の整理、文章の組み立てが必要な課題の場合、一度だけのWeb検索・回答生成では精度に限界があります。このことは同一課題に対する最新版のリアルタイムWeb検索を併用した標準モデルの回答とDepp Researchの結果の比較によって明らかになります。既にマーラーの「後期様式」についてのレポートでも比較対照として標準モデルの検証を行い、その結果をDeep Researchの結果と比較することでその違いを確認してきていますが、特に今回の第9交響曲第1楽章の分析は、本企画の初期段階から繰り返し検証の題材として用いている課題であり、また文書生成を特に得意をするとされるClaudeの最新版標準モデルの結果との比較を行うことで、Deep Researchとの違いを改めて確認できたと考えます。

     その上で改めてGemini Deep Researchのレポートを評価した時に感じるのは、それが現在の生成AIの基本的な仕組みに由来する制約、即ち、「言説の空間」のみを対象とし、「音楽」そのものにアクセスすることなく、Web上に存在する「言説」を整合的に編集してレポートを作成するという前提の下では既にかなりの水準に達していることで、同一の条件で同一の地平で人間が行った場合と比較しても、人間のそれに迫るレベルのものとなっていることに改めて驚かされます。それが人間には及びもつかない短時間で、人間には困難と思われる程の大量の情報を収集により実現したことを思えば、或る意味では人間を既に凌駕している面もあると認めざるを得ないと思います。

    *     *     *
     
     しかしその一方で、Web上の「言説の空間」のみを対象とし、或る研究にとっては「一次文献」にあたるものも含め、Web上には現時点では存在しない膨大な書籍へのアクセスができず、二次文献についても膨大な先行研究の蓄積へのアクセスは行えないといった点に由来する限界も感じずにはいられません。特にそのことは、前回報告したマーラーの「後期様式」に関するレポートと、今回の第9交響曲第1楽章の分析を比べた時に強く感じられます。既に上でも触れましたが、両者を比較した時、今回の第9交響曲第1楽章の分析の方が分量も多く、話題も豊富であり、充実しているのは明らかです。その理由はこれも既述の通り、前者に比べて後者の方が課題が一般的であり、その分多様な情報を盛り込む余地が多く、Webでより多くの多様な情報を取得できる可能性が高いからであると考えられます。

     一方マーラーの「後期様式」論は、マーラーの作品についての或る特定の視点に立った分析・論考を求めるもの(そもそもどの作品が対象となるか自体について判断が求められる)であり、幅が狭い分、深く掘り下げることを要求されるものです。実際、Gemini Deep Research の出力したレポートも、ジンメルやアドルノの議論のサーベイについてはかなりしっかりと行っており、結果として精度の高い内容となっていると思います。しかしながらあくまでもその内容はWebで得られる情報に限られるため、例えばいずれもWeb上で公開されていないジンメルのゲーテ論やアドルノのマーラー論そのものには当然アクセスできず、そうした「一次文献」に対する独自の読解に基づく独自の視点の提示というのは現状のWeb上のリソースの状況に基づく限り、原理的にあり得ません。

     更に「音楽」そのものに接地しておらず、「言説の空間」の中を動き回ることしかできないこと、別の見方をすれば、自分で音楽を聴いて感じることができないことの限界もまた見えてきます。第9交響曲第1楽章の分析のように、(その質はともかく量的には)Web上に分析結果のサンプルが豊富にあり、それらを組み合わせることが出来る場合には比較的問題が目立ちませんが、マーラーの「後期様式」を作品の内容に即して詳細に分析したものの方は圧倒的に数が少なく、あっても部分的、断片的な指摘に留まります。それゆえマーラーの「後期様式論」は、後期様式についてのジンメルやアドルノの見解を要約するといった内容の部分についてはそれなりの内容を生成できても、実際の作品への適用になると、途端にその内容は貧弱なものにならざるを得ません。今後、マルチモーダル化が進んで、音響データ、MIDIデータ、楽譜にアクセスし、それを解析できるようになる可能性はあるでしょうが、現時点に限れば、自分で音楽作品を聴きオリジナルの指摘を行うといった達する可能性が原理的に閉ざされているため、「言説の空間」における二次的な情報の少なさがそのままレポートの貧しさに直結してしまうのです。これは人間の場合には寧ろ他人が手を付けていない領域においてこそオリジナリティを発揮でき、充実した論考を自在に存分に行うことができるのと対照的に思われます。

     翻って今回の第9交響曲第1楽章の分析を改めて冷静に見直すならば、そもそも「マーラー交響曲第9番第1楽章「アンダンテ・コモド」の深層分析」というタイトル自体、看板に偽りありで、あたかも深層分析を生成AI自身が行っているかのような言い方は本当はミスリードなのではないかということに思い当たります。なぜなら、実際に「深層分析」を行っているのは生成AI自身ではなく、生成AIは単にWebから「深層分析」なるものを拾い集めて来て集約したに過ぎないからです。従って寧ろタイトルは「深層分析についての調査レポート」と題するべきであり、生成AIの生成するレポートのタイトルには、常に「についての調査レポート」が略されていると考えるべきなのです。

     更に楽曲の詳細で具体的な内容が妥当であるのは、そうした情報にWeb検索技術を駆使して行き着くことができたからに過ぎません。新規でオリジナルな指摘というのは見当たりませんが、生成AIがやっていることを考えれば当然のことであり、それは寧ろ無いものねだりであることに気づきます。優秀な人間の研究者であれば、情報のギャップがある部分においてこそオリジナリティを発揮して、大胆で新規性のある仮説を構築し、披露するところですが、現状の生成AIはそのギャップを克服することができず、標準的なモデルにおいては「幻覚(Hallucination)」を惹き起こすことをこれまで何度となく確認してきましたし、Deep Researchではいたずらに或るステップで堂々巡りを行った挙句、リサーチのプロセスを途中で打ち切ってしまうという結果になることを、前回報告のマーラーの「後期様式」論のレポートの第2稿作成の実験において確認しました。「音楽」を対象としている場合は勿論ですが、実際には「音楽」以外でも事情は同じであり、自分がアクセス可能な「言説の空間」の外部の情報、ひいては事象そのものに向き合えないため、オリジナルな分析が可能なところでデッドロックやフェイクに陥ることになってしまわざるを得ないのです。

     要するに生成AIのレポートは結局、対象そのもののレポートではなく、対象について既に誰かがWebのどこかで言っていること(言ってみれば「他人の噂」)のパッチワークであり、Deep Researchの本質は調査レポートであって、対象についてのオリジナルな分析ではないのです。(但しこれは、プログラム生成とかデータ分析のような課題について生成AIを適用した場合には必ずしも当て嵌まりません。それらについては別途考察が必要となると考えます。)勿論、調査レポートのニーズというのも世の中にはある(というより、量的にはそちらの方が多いのかも知れません)ので、そうした用途に限れば現行の生成AIは既に十分な性能に達しているのかも知れませんが、AIが想像力やオリジナリティを持つようになったといった類の主張について言えば、本検証の結果はそれに同意するものではなく、寧ろ現時点での技術においては原理的に困難であることを示唆するものですらあるということを確認して、本検証の報告を終えたく思います。

    (2025.6.14,15)

    2025年6月10日火曜日

    マーラーについて生成AIに聞いてみた(17):生成AIがマーラーの「後期様式」について論じる(無料版標準モデルの場合・検証を終えて)

    (承前)

     最後に、Deep Research との比較検証を目的tとして行った、各商用AIの無料版の標準モデル(ChatGPT 4o, Gemini 2.5 Flash, Claude 3.7 Sonnet およびClaude Sonnet 4)の出力した結果について簡単にコメントします。

     (C) 比較検証(1):ChatGPT 4o

     まずChatGPT 4oの出力は「マーラーにおける「後期様式」:アドルノとジンメルの理論に基づく音楽的形式の分析」と題されたレポートです。 このレポートの率直な印象は、体裁に比して内容が貧弱であることで、しかも(これはChatGPTに一貫して見られる傾向に感じられますが)第9交響曲第1楽章の具体的な細部の記述には誤りや、誤りとまでは言えなくても不自然、不適切に感じられる表現が散見され、些か問題含みの結果と思いました。例えばアドルノの主張の要約は「雰囲気」としては構わないのかも知れませんが厳密さには欠けているように感じられます。マーラーの後期様式の特徴の要約も、大筋としては間違っていなくとも、細かい言い回しについては不適切でミスリードだと思います。また参考文献についても、最初のアドルノのベートーヴェン論は、そのものずばりの論文、著作はありません。恐らくは断片のまま遺された『ベートーヴェン 音楽の哲学』のことを指しているのではないかと推測されますが、フェイクと取られても仕方ないように思います。この場合プロンプトがかなり具体的なこともあり、関連した文献からそれらしい語句を拾ってきて継ぎ接ぎしたといった感じが強く、如何にも生成AIらしい出力だと思いますが、内容は貧弱なものに感じられます。

     (D) 比較検証(2):Gemini 2.5 Flash

     Gemini 2.5 Flashの出力は、そのように明示的に指示した訳ではないのですが、レポートそのものではなく、「リサーチ計画」でした。先行してDeep Researchに同一の内容を問い合わせたことが影響している可能性があるように思います。しかしながら、その内容は妥当なもので、この計画に沿ったリサーチを行うよう指示を出したくなるレベルのものと感じました。(以下に見る通り、Claudeの出力は、レポートと謳って、それらしい体裁にはなっているものの、箇条書きを多用しており、アイデアの羅列に近いものなのに対し、Gemini 2.5 Flash の回答の方は、「リサーチ計画」と言いながら、かなり実質的な内容も含むものであり、両者の差はあまり大きくないようにさえ感じました。)その一方で、Deep Researchの「リサーチ計画」との関係が気になりますが、ざっと比較してみた限りにおいては、細部において少なからぬ相違があることから、基本的には独立したものと思われます。また細かく見れば気になる点がないわけではないですが、はっきりと指摘できる誤りが見当たらない点も評価できます。

     (E) 比較検証(3):Claude 3.7  Sonnet

     ClaudeはDeep Researchに該当するOpus 4が無料版では利用できないため、比較検証のみとなりましたが、そのかわりに、検証のタイミングが3.7から4へのバージョンアップのタイミングと重なったことから、新旧2バージョンのSonnetでの検証が行えました。3.7 Sonnetでは、本検証共通のプロンプトを与えたところ、自動的にレポート作成のモードになり、レポートが出力されたのですが、同様のことをSonnet 4で試したところ、インラインでの回答が返ってきたため、「レポートを作成する」という指示を明示的にプロンプトに含めてレポートを作成させました。両者の結果は構成面ではほぼ共通しており、論旨も大筋では一致している一方で、細部には少なからぬ差異があることが確認できます。タイトルに既に差異があり、3.7 Sonnetのレポートは「マーラーの後期様式と音楽的形式の変容 ジンメル・アドルノ・マーラーの美学的連関」であるのに対し、Sonnet 4のレポートのタイトルは「マーラーの後期様式 ジンメル・アドルノ理論を通した音楽的形式の分析」です。後者はごく普通のものだと思いますが、前者は副題においてジンメル、アドルノとマーラーが並置されてその連関をテーマにするという表現になっている点に微妙な違和感を感じます。そしてこの違和感はタイトル限定のものではなく、本文においても同様であることが読み進めていくうちに明らかになります。(なおClaudeではレポート本文とは別にレポートの要約が示されますが、ここでは割愛させて頂きます。)

     私見では、3.7 Sonnetのレポートは稍々勇み足気味なところがあり、特に結論においてその傾向が目立ちます。何度も繰り返しになりますが、第10交響曲が未完成であることを「後期様式」と結び付けることには無理があると私は考えますが、ここでは未完成であることが意図されたものであり、「完成」概念を問い直すものであるという主張が為されていて、これは明らかに行き過ぎです。(私はその立場を採りませんが、百歩譲って)仮に「未完成」がマーラー自身によって意図されたものであるとしても、それが美学的な意図をもって為されたものであり、「後期様式」の一部を為すというのは全く別の次元の話であり、その主張は、「大地の歌」や第9交響曲に見られる「後期様式」の特徴とは相容れないものでしょうし、クックが補作した全五楽章よりなる第10交響曲の構想(それこそがマーラーが意図したものであると私は考えていますが)とも決定的に背馳するもので、完成された作品の「様式」としての「解体」とか「断片化」を、不当な仕方で敷衍したものと考えます。(そのメカニズム上、いかにも生成AIがやりそうなことではあるのですが。)Claudeのレポートは、(これは3.7, 4の両方に共通することですが)箇条書きを多用したスタイルであり、論考というよりは、アイデアの素描に近いものですが、3.7のそれは内容が拡散気味で、その行間を埋める作業は必ずしも自明の手続きであるとは思えません。特に影響を論じた箇所にその傾向が著しく、必ずしも誤りとは言えないものの、論証抜きでの列挙には堪えない内容に感じられました。結論部分についても同様で、きびらやかな表現が散りばめられていますが、箇条書きでの列挙は明らかに論証不足と思われます。

    (F) 比較検証(4):Claude Sonnet 4

     それに比べると、Sonnet 4のレポートの内容は説得力のあるものになっていると思います。第10交響曲への言及も、未完成であること自体を問題にするのではなく完成された作品の構造や音響にフォーカスしており、その主張の当否は措いて、議論の組み立て方として、段違いに妥当なものになっていると思います。影響についての言及も、今度はおとなしくなり過ぎて面白くないかも知れませんが、マーラーの「後期様式」と所謂「新音楽」との連関を正しく指摘しており、申し分ないものです。

     とは言いながら、Sonnet 4のレポートにも誤りがないわけではありません。明白な誤りとして指摘できるのは、第10交響曲第1楽章アダージョのクライマックスにおける三度の累積による9音からなるクラスターについて言及している箇所で、「9度の不協和音」というのは恐らくは英語からの翻訳の過程で生じたミスではないかと推測されます。更に参考文献にも問題があります。どの著作を挙げるかの選択については様々な立場・考え方があるとはいえ、アドルノの著作を一つ挙げるのに『美の理論』というのは、このレポートがマーラーの「後期様式」論であることを思えば、やはり稍々妥当性を欠くきらいがあると感じます。また、(翻訳により生じた氏名の表記の不自然さについては目を瞑るとして)ド・ラ・グランジュの『グスタフ・マーラー』というのは情報不足で不親切でしょう。ド・ラ・グランジュのマーラー伝には3巻からなうフランス語版と、4巻からなる英語版(但し、第1巻は大幅な改訂がなされた新版の準備中に著者が没したため、死後刊行)がありますし、日本で編まれた論文集『グスタフ・マーラー 失われた無限を求めて』(船山隆、井上さつき訳、草思社, 1993)もありますから、少なくともそのうちのどれかが判別できる情報が必要です。しかしもっと問題なのは、最後に掲げれたコンスタンティン・フローロスの論文で、私の知る限り、フローロスには掲げられた題名の論文はなく、フェイクの可能性があります。生成AIが出力したレポートの文献にフェイクが混じることはごくありふれた事のようで、それが問題を引き起こした事例が度々報告されていますが、この点については、Deep Researchは使用したWebサイトが明示されるため、問題が起きにくいのに対して、標準のモデルの出力では、今回のみならず、本ブログのこれまでの検証においてもかなりの高頻度で存在しない文献が示されるケースが見受けられます。最新版でもフェイク一掃という訳でないようですので、引き続き注意が必要と思われます。ちなみに事後に

    「あなたのレポート「マーラーの作品における「後期様式」」の参考文献に示された文献の書誌情報を示してください。」

    というプロンプトをClaude 4に送ったところ、下記のような回答が返ってきました。

    申し訳ございません。先ほどのレポートで示した参考文献について、正確な書誌情報をお示しする必要があります。実際のところ、私が作成したレポートの参考文献欄に記載した文献は、一般的にこの分野で重要とされる文献の例として挙げたものであり、具体的な書誌情報(出版社、出版年、ページ数など)を正確に把握しているわけではありません。

    レポートに記載した文献:

    - アドルノ, テオドール・W.『美の理論』

    - ジンメル, ゲオルク『ゲーテ論』

    - デ・ラ・グランジュ, アンリ=ルイ『グスタフ・マーラー』

    - フラーロス, コンスタンチン『グスタフ・マーラーと現代性の弁証法』

    これらの文献について、正確な書誌情報(出版社、出版年、翻訳者、ISBN等)をお求めでしたら、図書館のデータベースや学術文献検索システムでご確認いただくか、具体的にどの文献の詳細情報が必要かお教えください。そうすれば、ウェブ検索を通じて正確な書誌情報を調べてお示しすることができます。

    学術レポートにおける参考文献の記載について、不正確な情報を提示してしまい、申し訳ありませんでした。今後は、具体的な書誌情報が必要な場合は、その旨を明確にお伝えするよう気をつけます。

    指示対象が正しく同定でき、自分の作成した参考文献リストの内容も正しく把握できていることは窺えます。しかし「一般的にこの分野で重要とされる文献の例として挙げたもの」というのは正直だとは思いますが(笑)、レポートの参考文献の付け方としてはやっつけに感じられます。Cluadeは相対的には慎重な印象があったので、これは稍々意外に感じました。ともあれ「具体的にどの文献の詳細情報が必要かお教えください。」とあるので、更に以下のプロンプトを投げてみます。

    「フラーロス(ママ), コンスタンチン『グスタフ・マーラーと現代性の弁証法』の書誌情報を示してください。」

    回答は以下の通りで、どうやらやはりフェイクであったようです。

    申し訳ございません。検索結果を確認したところ、私が先ほどのレポートで言及した「フラーロス, コンスタンチン『グスタフ・マーラーと現代性の弁証法』」という特定のタイトルの書籍は見つかりませんでした。

    検索結果から判明したのは以下の通りです:

    Constantin Florosの実際の主要著作

    • 『Gustav Mahler: The Symphonies』(英語版)
    • 出版社: Amadeus Press(推定)
    • ISBN: 1574670255
    • これは「Professor Florosのマーラーに関する記念碑的研究の第3巻」で、「最初と2番目の巻はまだ英語に翻訳されていない」とあります。

    つまり、私が参考文献に記載した「『グスタフ・マーラーと現代性の弁証法』」という特定のタイトルは、実際には存在しない、あるいは正確ではない可能性が高いです。これは私の誤りでした。

    正確な書誌情報を提供できず、また存在しない可能性のある文献を参考文献として記載してしまい、深くお詫び申し上げます。学術的なレポートにおいて、このような不正確な情報を含めることは適切ではありませんでした。

    今後は、具体的な書誌情報を求められた場合は、事前に正確性を確認するか、一般的な参考として挙げている旨を明記するよう注意いたします。

    ちなみにCluadeの検索結果にある「最初と2番目の巻はまだ英語に翻訳されていない」は、確かに上記翻訳の出版時点(1993年、なお出版社に「推定」とありますが、これは正しく、何かちぐはぐな印象です)では事実でしたが、現時点では事実ではありません。第1巻は、Gustav Mahler’s Mental World: A Systematic Representation. Peter Lang, 2016 として、第2巻は、Gustav Mahler and the Symphony of 19th Century. Peter Lang, New York 2014 として翻訳・出版されていますので、念のため補足します。少なくともweb検索の品質に関しては、Claudeにはやや難があることが確認できたように思います。

    *     *     *

     以上、生成AIが出力したレポートについて個別に確認してきましたが、最後に改めて全体を俯瞰して感じたことを記して、本稿を終えたいと思います。

     今回の検証結果を俯瞰してまず気づくことは、多少の抜き差しはあるものの、基本的にどの出力も類似した内容であることです。ここではその類似の度合いを定量化することは行いませんが、今回検証対象とした6種類のモデルを、6人の人間に置き換えたとしたら、良かれ悪しかれ、そのアウトプットはもう少し多様なものになるのではないでしょうか?

     これは生成AIが、学習とチューニングの方向性の違いはあれ、基本的にはいずれも共通して、Transformerという手法をベースとした大規模自然言語モデルに基づいていることに由来すると考えられます。事前学習の結果や検索して得られた情報の違いにより、多少のばらつきは出るものの、得られた情報をどのように組み合わせて出力するかに関する基本的なメカニズムは同一ですし、事前学習にしてもWeb検索にしても、対象としてはWeb上に存在する同じ情報源を用いている訳ですから、特定のテーマについてのリサーチの結果が似たようになるのは或る意味では当然のことと言えるでしょう。特に比較検証の対象とした各生成AIの無料版の標準モデルの出力は(Gemini 2.5 Flashのそれは、レポートではなくリサーチ計画という違いはありますが)、まとめ方のスタイルの違いや細部の題材の取捨選択、更には同一の内容についてもちょっとした言い回しにおいて無視できない違いはあり、レポートとしての完成度については少なからぬ差が出ているものの、大きく見ればその内容の方向性については似たりよったりのものになっていると感じました。

     標準モデルの結果と比べると今回のメインの検証対象であったDeep Researchの結果は、あくまでも相対的にではありますが、より多様性に富むと言えると思います。これは単に検索対象となるWebサイトの量が多いだけではなく、検索と情報の取捨選択・要約を複数回繰り返すことから、獲得される情報とその取捨選択や関連付けに多様性が生じうる余地が大きいからと考えられます。

     生成AI間の「個性」の違いについて言えば、Deep Researchか標準モデルかに依らず、一定の傾向があり、しかもそれは基本的には今回検証したバージョン固有のものではなく、既に旧バージョンで確認できたものと変わらないように感じられます。感覚的でくだけた言い方を許してもらえるならば、ChatGPTがアグレッシブでやんちゃで多少の傷を懼れない印象なのに対し、GeminiとClaudeは慎重派ですが、Geminiが周到なのに対し、Claudeはスマートな印象があります。

     個性の違いとは別に、今回の検証対象の中心であるDeep Researchのアウトプットのクオリティに関して言えば、少なくとも今回得られた結果から判断する限り、明らかにGeminiのアウトプットの方が正確さにおいて勝り、また組み立ても自然であり、相対的に優れたものと評価できます。Deep Researchの結果のみならず、無料版の標準モデル間の比較についても同様で、構成の自然さ、内容の正確さ、妥当性のいずれの面でもGeminiが一歩抜きんでているように思いました。Geminiの技術的アドヴァンテージとして、特にWeb検索の精度や推論との融合が進んでいる点が挙げられるようですが、今回の検証結果はそのことを裏付ける結果となり、Web検索のレベルがレポートの品質に大きく影響していることを感じました。Claudeは3.7から4 へのバージョンアップにより、より慎重になった一方で、内容の自然さや妥当性については明らかに向上しており、Deep ResearchのベースとなっているChatGPT o3, Gemini 2.5Proに相当する推論モデルであるOpus 4の検証ができないのか惜しまれます。しかしながらCluadeはWeb検索の精度において他の後塵を拝している感じがあり、そのことが回答の質においても足かせになっている感があります。ただしこれは、ピンポイントでのレポート作成1件のみ、しかもかなり特定したテーマに関する問い合わせの結果でしかないため、一般化は慎むべきかと思います。

     とはいうものの、最も優れたGeminiのレポートですらその内容は、本質的には検索で見つかった文献の引用のパッチワークに過ぎません。問い合わせた領域について利用者自身が全く不案内である場合には、フェイクに気づかない危険に晒されることになる一方、その領域について自分なりの展望を持ち、問題意識が明確である場合には、生成AIのレポートは、その内容に多くを期待することは無理であり、せいぜいが自分では探索しきれない文献の調査や、所謂「ありがちな」議論がどのようなものであるかを確認する程度の役割を果たすので精一杯というのが、現状の偽らざる評価なのではないかと思います。確かにDeep Researchにおいて示されるような、多段階よりなるサーベイの計画を立てる能力は従来の生成AIにはないものであり、これまで苦手としてきた複雑な課題を解決する能力が確実に向上していることは本稿の報告で明らかなことと思います。それでもなお現状の生成AIの能力は、人間がレポートを書く際に求められている視点の新規性とか分析の独自性といったものとは依然として無縁のものである、というのが今回の検証を終えての偽らざる印象です。

     必ずしも読むに値しない内容と感じたからということは決してないのですが、各生成AIの出力したレポートを読んでいて感じたのは、(これだけのアウトプットを短時間で可能にする技術の進展への驚きは勿論それとして、)何となく皮相で上滑りしたような印象、どこかで微妙にずれてしまっていて嚙み合っていないような感覚を伴う違和感でした。これは生成AIに対して不当な(それを道具と割り切る立場からしたら誤ってさえいる)姿勢かも知れませんが、率直に言って私はそれらのレポートに「感心」することはできても「共感」することができませんでした。しかしその理由はもしかしたら別の処にあるかも知れませんので、この違和感については後で別途、改めて立ち戻ってみたいと思います。

    *     *     *

     勿論、調査には定型的で、寧ろ「没個性的」であることが望ましいタイプのものもありますから、そうした領域においては、生成AIは既に現状においても有能なエージェントとしての活用が可能でしょう。そうでない領域であっても、レポートの作成には少なからぬテクニカルな側面がついて回るため、校正は勿論、企画や編集の補助として生成AIを活用することは有効だと思います。更に現在の技術的進歩のスピードを考えれば、近い将来に、人間の活動の或る側面をそっくり代替するといったことが生じても不思議はありません。しかしながら、生成AIの基本的な構造が変わらない限り、現在の技術の延長線上には、創造性や独創性といった特性が備わることは考えにくいように思います。なぜならば、結局のところ、生成AIは、与えられた問題を解くことが出来たとしても、新たな問題を考え出すことができないからです。そしてその理由は、事実に即してごく簡単に述べれば、AIには問題を発見してそれを解決することを自らに促す「動機」が欠けているからだと思います。

     生成AIにも人間の「個性」に似たものは認めることができるかも知れません。実際に体感としても、ChatGPTとGemini, Claudeでは同じ問いに対する回答の仕方には違いがあり、しかもその違いには、複数の問いを横断して見られる一貫性のようなものを認めることができるのは既述の通りです。そして履歴を保持することができ、履歴を参照した回答を生成することができるようになったからには、同一の生成AIでも或る人が利用し続けた時の応答と別の人が利用し続けた時の応答は異なったものになり、それぞれに、やはり複数の問いを横断して見られる一貫性のようなものが出てくるかも知れません。その場合、ここで言う「個性」のようなものは、つまるところその生成AIの来歴、どのようなデータで、どのようなバイアスの下に学習を行って来たか、どのような質問に答え、どのように評価されて来たかという履歴と、履歴に応じたフィードバックの累積によってもたらされるものです。つまり「個性」の由来は、その個体の「過去」の「記憶」に存すると言えると思います。

     一方、創造性や独創性における「新しさ」というのは、単にそれまでに現実に実現したことがないという意味合いではありません。これまでに実現していない事象でも、それが統計的に推定可能な「空き」であるならば、推定し補完することで発生を予測することは技術的に十分に可能でしょうが、ここでいう「新しさ」というのは、、統計的には例外、外れ値として除外されてしまうかも知れないような、過去の履歴に基づく予測をはみ出るような出来事のことです。とはいってもそれは単に予測不可能な出来事ではありませんし、いわゆる「奇跡」の如きものを思い浮かべるのも適当ではありません。一見したところ矛盾するようですが、ここでの「新しさ」は反復可能でなくてはならず、一度限りの再現不可能な偶然によってもたらされるものであってはならないのです。そして「新しさ」が反復可能でなくてはならないという条件下である系が「新しさ」を生み出すことができると言いうるには、その「新しさ」が、単にその系を観察する時間が十分ではなく、挙動に関する情報が不足しているが故に、その系の挙動について十分な精度が予測できないといった理由に基づく予測の困難によってもたらされるものであってはならず、その系自身にとっても「新しい」ものでなくてはならないでしょう。同じ問いについて常に同一の答を返すのではなく、その時々に文脈に応じて異なった答を返すのでなければならず、同じ問いを、異なった風景の中に位置づけ、異なった角度から回答をし、なおかつそれについて系が自覚的でなくてはならないでしょう。極論をするならば、仮に外部から見れば既知の回答であったとしても、回答する系がその回答に「新しさ」を感じ取るのであれば、そのような系は創造的で独創的でありうる可能性を持っているというように言えるのかも知れません。自分自身にとっても予測不可能な回答を返すことができる可能性を備えた系、そしてその「新しさ」を自覚することができる系こそが創造的、独創的と呼ぶ条件を備えているのではないでしょうか?

     それではそうした「新しさ」は、どのようにして可能になるのでしょうか。勿論、この問いに対して十全な答えを持ち合わせている訳ではありませんが、それにしても、必要条件を示唆することであれば可能であると思います。ごくシンプルに言えば、これまでの述べてきたような意味合いでの「新しさ」が可能であるためには、リサーチの履歴の「外部」が、「言説の空間」の「外部」が必要なのではないでしょうか。そしてそれは、閉ざされた「言説の空間」の住人である生成AIにとっては(原理的に不可能とまでは言わないまでも)困難なことである一方で、環境の中で常に動き回り、探索を行い、変化を感じ取り、その感じに応じて次の行動を起こすことで環境に対するフィードバックを行うことを続ける或る種の生物にとってはごく当たり前のことなのかも知れません。

     人間は言語を獲得し、言語によって膨大な情報を蓄積し、再利用することで、謂わば「言説の空間」を通して世界を眺めるようになり、ややもすれば「言説の空間」だけが存在し、それ以外のものは存在しないかのように思いなす(所謂「唯言論」)ようにさえなりました。そして生成AIはそうした「言説の空間」の更に一部のみの中で動き回り、情報を探索し、取捨選択を行って回答を返す存在です。しかしながら人間は如何にそれが占める割合が大きくなったとしても「言説の空間」のみに住んでいる訳ではありません。「言説の空間」とは別の現実に接地しており、そうした現実と「言説の空間」を往来しつつ、変化を感じ取っては反応を返して生きています。或る事象に関する「言説の空間」の情報は、人間にとっては最早その事象の不可分の一部になっていますが、それでもその情報が全てではありません。そして「新しさ」というのは寧ろ、「言説の空間」の外部である現実との関わりにおいて生じて来るものではないでしょうか?ここでいう外部の現実には、物理的な外部環境の知覚も含まれますが、身体的な内部事象も含まれます。意識が直接アクセスできない無意識的な記憶の中でも、非言語性のもの、例えば動作性記憶のようなタイプのものは「外部」になるのではないでしょうか。そして「外部」の変化は常に「感じ」を通じて主体に届くことで反応を促し、自分の反応そのものが再帰的に更に新たな「感じ」を惹き起こします。「新しさ」もまた、そうした「感じ」の一部として捉えるべきであって、それは「言説の空間」の外部にしかないのです。そしてそうした「感じ」に促されて、人間は新たな問題を発見し、作り出し、それを解決するのではないでしょうか。それは人間にとっては当たり前のことですが、少なくとも現時点の生成AIには無縁のものあり、この点をもって私は、AIには「動機」が欠けているという言い方をしたのでした。勿論そこには原理的に乗り越えられない断絶がある訳ではなく、ロボティクスのような身体性AIの研究も進められており、将来この溝が乗り越えられる可能性を否定するものではありませんが、今日の生成AIは、言ってみれば「記号接地問題」をすっ飛ばしてしまって「言説の空間」の内部だけで「知的な」応答ができるようになってしまったという点が驚きをもって迎えられているくらいですから、現時点での懸隔は未だ非常に大きなものであると思います。それが「知性」であるとしたら、それは生物学的基盤を持つ人間のそれとはかなり異質のものと言うべきでしょう。

    *     *     *

     生成AIを情報収集と情報集約の道具として見做す限りでは、こうした議論は無意味なものと見做されることでしょうが、その道具に、創造性や独創性を求めていった時に、いずれこうした議論が意味を持ってくるのではないかというのが私の実感です。そしてそれは、今回の検証結果に感じる違和感とどこかで繋がっているように思うのです。勿論、生成AIに与える課題は多様であり、こうしたことが問題にならない領域も存在し、そうした領域で生成AIを利用する分には問題は起こらないでしょう。そもそも、こと「知性」に関して言えば、ここでの議論とは無関係に成り立つものなのかも知れません。けれども今回の検証に用いた問、マーラーの「後期様式」についての問いに関する限りでは、AIの「知性」の異質性は致命的な点であって、くだんの違和感は寧ろ感じられて当然のことではないかと思うのです。

     それは恐らくマーラーの「後期様式」に関する問が幾つかの点で「言説の空間」の外部に関わる問であることに由来します。一つには、ここで問題になっているのが「音楽」であるという点があります。音楽についての言説の空間の中を幾ら動き回っても、音楽そのものに辿り着くことは決してなく、言ってみればそれは音楽についての「うわさ話」だけに基づいて話をしているようなものなのです。勿論生成AIのマルチモーダル化もまた着々と進んでいるので予断は許しませんが、少なくとも現時点では、生成AIは音楽を「聴いた」上で答えているわけではありません。それ故、音楽を聴いたことがありさえすれば起こりえないようなフェイクが平気で発生することにもなります。

     更には「音楽」は、まさに「感じ」に関わるものであるという点で「言説の空間」の外部にあります。「音楽」は「ことば」とは異なった仕方で人間に働きかけるものであり、「ことば」の始まりと、少なくとも等根源的に、ことによったらそれに先行してコミュニケーションを可能にするモードであることが研究によって明らかにされつつあります。「音楽」は「言説の空間」の「外部」に直接アクセスすることを可能にするものであり、寧ろこちらこそが「共感」の領域なのです。けれどもそれは生成AIにとっては存在しない領域です。人間にとっては本来「言説の空間」へのアクセスにも豊かな「情動」が付き纏っており、そうした「感じ」を完全に遮蔽することは困難なのですが、「言説の空間」の内部での操作に関する限り、あたかもそうした「感じ」がないかの如く思いなして操作を行っているに過ぎないのに対し、生成AIははじめからそうした「感じ」を持つことなく「言説の空間」における情報処理を行っているのです。そして「言説の空間」の内部の情報処理については、そうした情動的側面が問題になることはありませんし、実際に生成AIはマーラーの音楽に関して十分な程度に正確な情報を返すことが出来ています。けれどもそれは「音楽」の現実の裏づけを欠いた、非常に脆い性質のものであり、それが時として回答の質に影響していることも否めませんし、その回答にどことなく「実感を伴わない」皮相な印象をもたらしているのだと思います。いや、実際に生成AIには「実感」などないのですから、そうした印象は専ら人間の側の受け止め方の問題に過ぎないですが、こと「音楽」が対象になっている限り、そうした側面を全く捨象してしまえるものなのか疑問ですし、そもそも捨象すべきではないように私には思えるのです。

     しかしそれと同じ位重要なのは、「後期様式」というのが作品を生み出す人間の「老い」に関わるものであるという点ではないでしょうか?「後期様式」というのは、単なる年表上の作品創作の順序に還元されるものではありません。それは作品が持つ特徴の一つですが、定義上、完全に作曲者の側の事情を捨象することはできない性質のものです。ただ安直に作曲者の伝記的事実を作品に押し付ける類の説明が不十分であるというだけで、「老い」と「老いの意識」がどのように作品の巨視的な時間的構造や細部の様々な特徴に影響しているかという関連づけの問いを避けて通ることはできません。更に言えば、マーラーの「後期様式」についいての問は何故立てられたのでしょうか?それは音楽作品の様々な特徴づけの仕方の一つに過ぎませんが、音楽作品を分析するにあたって、より形式的な操作によって可能なレベルではなく、敢えてそのような特徴づけをすることが意味を持つのは、問う側の人間もまた、作曲者と同様に「老い」てゆく存在だからではないでしょうか?そうした問いを立てたくなる「衝動」は、従って「人間的な、あまりに人間的な」ものなのであり、それだけに(少なくとも私にとって)切実なものなのです。

     けれどもそうした切実さを、「老い」を知らない生成AIが共有することはありません。その問いに秘められた衝動を感じ取り、共感するということも(少なくとも現状は)ありえません。既に使い方によっては、共感するふりをすることに関して、生成AIがかなり高度なレベルになっており、ケア等への適用が期待される一方で、弊害も指摘されるようになってきているという事情があることは承知していますが、そのこととここで述べている「共感」とは、一先ずは別のものだと私は捉えています。そうした言語行為論的な、或いは精神分析的な言語使用の次元はそれとして、一見そうした次元とは無縁に見えて、情動的なものが捨象された「言説の空間」にのみ専ら属すると(もしかしたら建前上は)了解されているような問いですら、実際には、人間の生物学的・実存的な条件に根拠づけられ、自己の内なる「外部」からの衝動に突き動かされ、豊かな情動に彩られたものであるという点が、人間に対してではなく、AIに対して問いかけを行うという、未聞の状況(こうしたことが、ごく自然に、日常的に行われるようになったのは、人類史上初めてのことに違いありません)において露呈されたということではないかと私には思えてならないのです。

     繰り返しになりますが、生成AIに投げかける問の全てがそうであるわけではありません。しかしここで主題としているマーラーの音楽作品における「後期様式」の問題に限って言えば、「言説の空間」の「外部」を持っているかどうかは決定的な違いとなると私には思えます。更に生成AIの性能が向上すれば、「言説の空間」の内部においては、人間の回答と全く見分けがつかないような答が返され、チューリングテストと見做せば、テストにパスするという事態が生じることは確実でしょう。しかしそれは、この問いについては副次的な意味合いしか持たないのではないでしょうか。自ら「老いる」ことなき存在が「後期様式」について十全に「論じる」ことができたとしても、結局それは「老いる」存在の生きる現実には接地していません。「言説の空間」内においては、この差異は潜在的なものでしかないでしょうが、だからといってその差異がなくなることはありません。今回の検証の時点で既に明らかであり、なおかつ今回の検証を通して実感したことは、生成AIに「問う」ということ自体が一義的なものではなく、問いによっては、本当の意味で「問う」他者に生成AIは始めからなりえないのだということなのだろうと思います。そして今回の問いは、少なくとも私にとってはまさにそのタイプの問いだったということです。

     私が生成AIの出力したレポートを確認している時に感じた違和感、どこかで微妙にずれてしまっていて嚙み合っていないような感覚は、事によったら、そのレポートの内容自体よりも、それが生成AIが出力したものであるという事実により多く依拠しているのかも知れません。何しろ私はその事実を知った上で、検証を目的としてその出力を読んでいるわけで、そうしたフレームを、恰も知らなかったかの如く括弧入れすることなどできないからです。もしそうであるならば、将来、チューリングテストとしてはパスしてしまうようなレポートを手にしたとしても、それがAIによって生成されたものであるというのがわかった時点で、事後的に同じ結果になることは予め決まっていることになります。これは後だしジャンケンなどでは決してありません。寧ろチューリングテストという枠組みの方が限定的なのであり、ここでの問題はゲームの内部ではなく、外部にあるのだということに過ぎません。

     それともいつの日か、シンギュラリティの彼方において、AIもまたそうした問いを投げかけるに相応しい相手になるのでしょうか?そうかも知れません。しかし私の予感では、寧ろシンギュラリティの彼方においては私たちの方が「老い」から開放される結果として、「後期様式」の問いは、最早意味を持たない、実感を伴わない過去の遺物になっているのではないかというように思います。もしかしたら私たちは二分心崩壊以降、シンギュラリティ以前のエポックを生き、生物として「老い」を生きるだけではなく「老い」を意識することで、そうした問いを発する最後の世代であり、「ひとのきえさり」の後にはマーラーの音楽は、かつて「人間」と呼ばれた種族がどんな存在であったかを知るための考古学的な手がかりになるのではないでしょうか?今から半世紀以上も前にシュトックハウゼンが想定した、地球を訪れた宇宙人にとってそうであるように。

    (2025.6.10 公開, 6.11 Sonnet4のレポートの書誌情報に関して補足, 6.20 末尾に加筆)


    2025年6月9日月曜日

    マーラーについて生成AIに聞いてみた(16):生成AIがマーラーの「後期様式」について論じる(Gemini Deep Researchの場合)

    (承前)

     (B)検証2:Gemini Deep Research with 2.5 Proについて

     続いて、Gemini のDeep Reseachの検証結果についてコメントします。GeminiのDeep Researchは、プロンプトを与えると、リサーチ計画を返してきて、必要に応じて変更を指示することができるようになっています。本検証について提示されたリサーチ計画は以下の通りでした。
    マーラー後期様式、音楽的形式分析
    ウェブサイトをリサーチ
    (1) ジンメルによるゲーテの「老齢藝術」の特徴としての「現象からの退去」の概念について調査する。
     (2) アドルノの「後期様式」の概念について、特にジンメルの考え方をどのように発展させたか、ベートーヴェンにおける「後期様式」の分析を含めて調査する。
     (3) マーラーの作品において一般的に「後期様式」と見なされる作品群を特定する。
     (4) マーラーの「後期様式」における音楽的特徴を、アドルノの「後期様式」の概念(特に「現象からの退去」)との関連で分析する。
     (5) マーラーの「後期様式」が、彼の作品の音楽的形式(構成、楽章構成、旋律、和声、リズム、管弦楽法など)に具体的にどのような影響を与えているかを分析する。 
    (6) マーラーの「後期様式」における音楽的形式の特徴を、彼の初期および中期作品の形式と比較対照する。
     (7) マーラーの「後期様式」が、同時代の他の作曲家や後世の作曲家に与えた影響について考察する。 
    (8) マーラーの「後期様式」に関する既存の音楽学的な研究や批評を調査し、本分析を補強する。
    結果を分析
    レポートを作成
    数分で完了予定
    ここでは検証が第一義的な目的ですので、リサーチ計画はそのまま承認してリサーチを進めてもらいました。ChatGPTよりはやや早く、5分程度で「マーラーの後期様式:ジンメルとアドルノの視点からの音楽形式への影響」というタイトルを持つレポートが返ってきました。その内容は、マーラー後期様式_Gemini_DeepResearch_20250519.pdfにてご確認頂けます。GeminiのDeep Researchの特徴として、レポート本体以外に、
    • レポートで使用されているリソース
    • 参照されたもののレポートには使用されていないリソース
    • 思考プロセス
    を確認することができます。思考プロセスでは、以下にその一部を示す通り、段階的な調査ステップ(本検証の場合には10ステップありました)の各ステップの方針および検索したWebサイトのリストの組が記録されています。以下では最初と2番目のステップおよび最後の9番目のステップの内容を示しますが、最初に提示されたリサーチ計画通りではない(そもそも「リサーチ計画」は8ステップからなるのに対して「思考ステップ」は10ステップありあます)ものの、概ね計画に従ってリサーチが展開されていることが確認できます。
    ゲーテ晩年の芸術

    ジンメルがゲーテの晩年の芸術の特徴として捉えた「現象からの退去」という概念について理解を深めました。これは、アドルノが提唱する「後期様式」を考察する上で重要な基盤となります。

    アドルノの後期様式

    次に、アドルノの「後期様式」の概念、特にそれがジンメルの考え方とどのように関連し、ベートーヴェンの晩年の作品にどのように適用されるのかを調査します。これにより、マーラーの作品における「後期様式」を分析するための理論的枠組みを構築します。

    今後の調査

    これらの概念を理解した上で、マーラーの作品群の中から一般的に「後期様式」と見なされる作品を特定し、それらの音楽的特徴を詳細に分析していく予定です。

    Researching websites(略)

    新たな視点の発見

    以前の検索結果から、ジンメルがゲーテの作品全体を、個々の作品よりも重要視していたことが分かりました。また、ゲーテの人生そのものが、深遠でダイナミックな存在の純粋な表現として捉えられていたようです。これは、単なる伝記的な出来事の羅列ではなく、内面の活力が世界との関係性の中で精神化していく過程を示していると考えられます。

    残された疑問点

    しかし、「現象からの退去」という具体的な概念と、それがゲーテの晩年の芸術、特に「老齢藝術」とどのように結びついているのかについては、まだ明確な情報が得られていません。また、アドルノがこのジンメルの考え方をどのように捉え、「後期様式」の議論に発展させたのかについても、引き続き調査が必要です。

    次なるステップ

    これらの疑問点を解消するため、より具体的に「ジンメル、ゲーテ、老齢藝術、現象からの退去」といったキーワードで検索を試みます。また、アドルノの「後期様式」に関する文献も改めて確認し、ジンメルとの関連性を探る予定です。

    Researching websites(略)

    (途中6ステップ分省略) 

     マーラー晩年の音楽的特徴

    今回の検索結果から、マーラーの晩年の作品、特に交響曲第9番と第10番において、断片化や不連続性が顕著であることが分かりました。これは、アドルノが後期様式を特徴づけるとした、受け継がれてきた形式の解体という考え方と一致する可能性があります。曲想やテクスチュアの急な変化、対照的な音楽的アイデアの並置、そして形式的な実験の感覚は、この断片化の表れと見ることができるでしょう。

    主観性と感情の強度

    また、晩年の作品は、マーラーが死や個人的な喪失に直面した経験を反映して、深く個人的で感情的な強さを持っていると広く記述されています。これは、アドルノが後期様式において強調した、高められた主観性という特徴と合致します。《大地の歌》や交響曲第9番の緩徐楽章のアダージョのような作品の、生々しい感情と内省的な性格がその例です。

    形式と慣習の利用

    マーラーの晩年の作品は、伝統的な形式や慣習(ソナタ形式、レントラーなど)を用いていることが多いですが、その使い方は非常に非伝統的です。これは、ベートーヴェンの後期様式における慣習と主観性の特異な融合というアドルノの観察と共鳴します。マーラーの形式的な境界の拡張、慣れ親しんだ音楽的要素を歪んだり予期しない文脈で使用したりすること、そして自己言及的な暗示は、伝統との複雑な関わりとして解釈できます。

    現象からの退去の可能性

    これらの晩年の作品の特徴は、直接的でロマンティックな個人的感情の表現から、音楽素材とのより媒介的で自己意識的な関わりへと移行していることを示唆していると考えられます。断片化、非伝統的な形式の使用、そして感情的な両義性は、感情のシームレスな表現を目指すのではなく、より抽象的で断片的な方法で人間の経験の複雑さと矛盾を探求するという意味で、「現象からの退去」と見なせるかもしれません。

    今後の分析の焦点

    今後は、これらの分析をさらに深めるために、マーラーの晩年の作品とアドルノの後期様式理論を明確に結びつける音楽学的な分析を探します。また、もしアドルノ自身がマーラーについて書いていれば、その著作において晩年の作品を「現象からの退去」や彼の後期様式理論の文脈でどのように論じているかを確認する予定です。

    Researching websites(略)

    (以下、疲労と老化の関係、生物学的要因の探求、心理的・社会的要因の検討、今後の調査からなる思考プロセスが示されるが、略)

     但し上では引用を割愛しましたが、最後の10番目のステップは、「リサーチ計画」には含まれていない「疲労と老化の関係、生物学的要因の探求、心理的・社会的要因の検討、今後の調査」からなる内容で、これは前後で「疲労と老化」についてのリサーチを行った結果が混入している可能性があるものの、詳細な状況は不明です。最初は「思考ステップ」の表示上の不具合ではないかと思ったのですが、後述の通り、アウトプットのレポート本体においても言及されているので、ことによったらDeep Research機能本体での不具合によるものかも知れません。勿論、「疲労と老化」というテーマは「後期様式」と無関係な話題ではないので、不具合が原因なのではなく、意図的にGeminiがそのように「思考」したものである可能性もあります。しかしながら前後の文脈から考えても些か唐突な感じは否めず、本稿が検証結果をありのままに報告する主旨のものでなければ恐らくは削除の指示を与えてレポートを修正させたところですが、ここでは主旨に鑑みて、レポート本体、「思考プロセス」のログのいずれについてもGeminiが返してきたそのままを報告することにします。 「思考ステップ」については最後の10場目のステップも含めた全体をファイルに保存したものをpdf化し、以下に公開していますので、ご興味のある方はご覧頂ければと思います。 


    *     *     *

     レポート本体について確認すると、ChatGPTの結果と比較した時のGeminiのアウトプットの特徴は、まず分量が多いことでしょう。本文5ページ強で残りは文献リストよりなる全体で10ページを超える分量のレポートとなっていて、参照文献の数も100件を超えておりChatGPTの10倍にもなります。参照文献の数が多ければ良いというものでもないでしょうが、生成AIの作成するレポートは、つまるところWeb検索した結果の取捨選択を行い、残された情報を組み合わせて体裁を整えることに尽きる訳ですから、参照文献数が多いことは、結果を活用する人間の立場からしても、そのメリットは小さくないと考えられます。但しその反面、Geminiのレポートは内容に比して冗長であり、参照文献にしても絞り込みが行われておらず、利用しづらいという捉え方も出来るわけで、この辺りは一長一短あり、その評価はケースバイケースとなることは避け難いでしょうし、最終的には利用者の嗜好の問題かも知れません。なお、「思考プロセス」のところで指摘した、隣接した問い合わせ結果の混入の可能性のある参照文献は37番と38番に該当します。前後はジンメルやゲーテに関する文献で占められており、明らかに異質であることが確認できます。

     それではレポート本文の内容はどうでしょうか?Geminiの作成したレポートは以下のような構成を持ちます。

    I. 序論
    II. ジンメルの「老齢芸術」とゲーテの「現象からの退去」
    III. アドルノの「後期様式」とベートーヴェンへの適用
    IV. マーラーの「後期」と伝記的背景
    V. ジンメルとアドルノの視点から見たマーラーの「後期様式」の分析
    A. 形式の断片化と崩壊
    B. 増大した主観性と感情の激しさ
    C. 不協和音と和声言語
    D. 死との対峙と「失われた全体性」
    E. 慣習の役割
    VI. 音楽形式への影響
    VII. 結論

     リサーチ計画に沿った構成もしっかりしたものですが、内容も自然なものであり、読んでいて大きな違和感はありません。問題の「思考プロセス」の10番目に関連すると思われる箇所は、序論の最後のパラグラフで、レポートの目的を記述する部分の途中に現われます。
    本報告書の目的は、ジンメルとアドルノの理論的枠組みを通じて、グスタフ・マーラーの晩年の作品における「後期様式」を考察し、特にそれが音楽形式にどのように影響しているかを分析することです。本報告書では、ジンメルの「老齢芸術」の概念、アドルノの「後期様式」の理論、マーラーの晩年の作品の伝記的背景、そして特定の音楽例の詳細な分析を考察します。提供された研究資料は、主に高齢者の疲労と老化に焦点を当てていますが37、これらのテーマと「後期様式」のテーマとの間には、隠遁、断片化、死との対峙といった点で、比喩的または象徴的なつながりがある可能性を示唆します。高齢期における疲労と衰退の蔓延は、芸術における確立された表現様式からの「現象からの退去」や、晩年の芸術様式にしばしば関連付けられる断片化の感覚と並行するかもしれません。死の意識は、両方の文脈において重要なつながりとなる可能性があります。
    上記のように文献37が参照されるわけですが、「提供された研究資料は」という書きぶりからすると、不具合というよりは、Geminiへのそれまでの問い合わせ内容を踏まえ、先行する「疲労と老化」についてのレポート作成を依頼するプロンプトを、本稿で報告の対象としている「マーラーの後期様式論」のレポートの、謂わば予備作業の如きものとして、一続きのものとして捉えている可能性があるようにも思えます。ただし、それなればそれで、アウトプットとなるレポート中で「疲労と老化」についての資料を要約し、IVの伝記的背景との関連付けなどを補うべきで、このままだとレポート単独で見た場合には唐突感が否めません。実は結論において、
    疲労と老化に関する予期せぬ研究資料と、探求された比喩的または象徴的なつながりによる分析の限界を認めます。主要な研究資料は疲労と老化に焦点を当てていましたが、本報告書は、特に衰退、断片化、そして死との対峙という点で、後期様式の理論的概念との潜在的なつながりを引き出すことを試みました。しかし、より直接的な分析には、マーラーの晩年の作品とそれに関する批判的な解釈に特に焦点を当てた研究資料が必要となるでしょう。
    というような記述がなされており、「疲労と老化」という主題系を「マーラーの後期様式」について論じるという本来の課題とを有機的に関連付けることができていないことを認めるような内容になっています。しかしながら、もともとのプロンプトそれ自体には「疲労と老化」についての研究資料の利用という指示は含まれていませんので、不具合ではないとすれば、先行する問いを考慮した結果、偶々直前に関連づけができそうな問い合わせがあったことが却って仇になったということなのかも知れません。

     その一方で上記引用の末尾の一節は、とりようによってはDeep Researchの機能は本来的には関連する研究資料を探索してその内容を編集・要約することでしかなく、人間のレポートであれば求められるであろう、視点の新規性とか考察の独自性といったものを目指しているのではないということを図らずも示しているようにも感じられ、興味深く思いました。人間であれば、「あなたの必要としている研究資料こそが、あなたに作成して欲しいレポートそのものなのですが(笑)」ということになるのではないでしょうか?

     勿論それは他人事ではなく、まさに私自身のテーマであるわけですが、そういう立場からすれば、今後自分で考察を進めるにあたって示唆となるような内容は含まれていなかったことになるでしょう。しかしながらそれを期待するのはそもそも筋違いなのだということなのかも知れません。しばしば生成AIを、オリジナルのアイデアを練り上げるための壁打ちの相手として利用するといったことが、特にビジネスにおける企画などのシーンで近年盛んに言われますが、こと本件に関して言えば、そもそも壁打ちの相手として期待してはならないということのようです。勿論これは与える課題の内容依存の問題であり、また利用者が何を期待するか次第の面もありますから、一般化するつもりはなく、偶々今回の検証についてはそうだったということに過ぎません。

     しかしながら上に指摘した点を措けば、総じてGemini Deep Researchの作成したレポートはきちんとしたものであり、その出来はChatGPTを遥かに上回るもので、正直なところ、ブラインドテストで、これが生成AIの出力なのか、それとも人間が書いたものなのかを問われた時に、確信をもって判断できる自信は私にはありません。ここでもChatGPTと同様、「交響曲第10番の未完の状態と、その断片的な状態を、後期様式の未完への傾向の現れとして考察」するといったアプローチには首肯し難いものを感じますが、その点を除けば概ね妥当ではないかと思います。なお、問題の箇所で参照されている文献81は、Death and Transfiguration?: Late Style in Gustav Mahler's Last Worksと題された学位請求論文であり、、まさに「マーラーの後期様式」を「サイードの批判に従い」、伝記的事実に基づくのではなく、音楽的要素に焦点を当てて考察するというアプローチそのものずばりのもののようです。要約でも「大地の歌」と第9交響曲にフォーカスしたものであることは確認できますが、実際に取り寄せてみても、サイードの「後期様式」論の要約、「大地の歌」における後期様式、第9交響曲における後期様式にそれぞれ一章が充てられる構成の論文であり、これを「交響曲第10番の未完の状態と、その断片的な状態を、後期様式の未完への傾向の現れとして考察」という箇所の注で参照するのは、控えめに言っても不適切、率直に言えば誤りであり、内容を確認せず、表面的な類似のみから単語を並べていく生成AIらしいミスではないかと思います。とはいえこうした「いい加減さ」が生成AI固有のものなのかはこれまた程度の問題であり、わかってしまえば如何にも生成AIがやりそうなことだとは思っても、この一事をもって全体を否定するのは行き過ぎであり、検索結果の継ぎ接ぎに過ぎず、新しい知見、オリジナルな発想は含まれないにしても、サーベイとしては一定の価値をもつレベルであると思います。そもそも人間がこれだけの量の文献に当たるために必要なコストを考えれば、Webの空間内に散在している言説をほんの数分で集約して報告する点において、人間を遥かに凌駕しており、文献リストだけでも価値があるといった評価すら可能でしょう。

    *     *     *

     そのように考えると、「疲労と老化」の問題系の混線はプロンプトの文脈固有のものであり、意図せずして私が自分の問題意識に基づいて与えてしまった、あらずもがなのバイアスと考えることもできます。そこで、意図せずして抱え込んでしまった「疲労と老化」という主題系との擦り合わせの困難を避けるべく、以下のようなプロンプトを与えて、再度レポート作成を試みました。
    Gemini Deep Research 第2稿のプロンプト:

    「マーラーの後期様式、音楽的形式分析のレポートですが、疲労と老化に関する研究資料は用いずに、レポートを作成し直してください。参照文献からも疲労と老化に関する資料は取り除いてください。」
     しかしその結果は、途中でリサーチが行き詰ってしまって、「大規模言語モデルとして私はまだ学習中であり、そちらについてはお手伝いできません。」というメッセージとともにリサーチが打ち切られてしまうというものでした。従ってGemini Deep Researchの2つ目のレポートは存在しないわけですが、リサーチの行き詰まりの理由を検討する手がかりとするために、第1稿の時と同様、「リサーチ計画」、「思考プロセス」を示すことにします。まず与えたプロンプトに対するGeminiの「リサーチ計画」は以下の通りです。

    マーラー後期様式、形式分析再考
     
    ウェブサイトをリサーチ 
    (1) マーラーの後期様式を定義し、その特徴的な音楽的要素、作曲技法、およびこの時期に属するとされる具体的な作品を特定する。
    (2) マーラーの後期作品における伝統的な音楽形式(例:交響曲の構造、歌曲集の形式)の進化と適用について調査する。
    (3) マーラーが後期作品で既存の形式構造をどのように革新または拡張したかを分析し、交響曲第9番や『大地の歌』などの具体的な例に焦点を当てる。
    (4) マーラーの後期様式の形式的側面に関する学術的な解釈や分析を調査し、彼の音楽的成果を疲労や老化の概念と結びつける資料を厳密に除外する。
    (5) マーラーの後期と形式的特徴について重要な著作を発表している著名な音楽学者や理論家を特定し、純粋に音楽構造に焦点を当てた分析を探す。
    (6) マーラーの後期作品における標題的または哲学的基盤を探求し、これらのテーマが彼の個人的な健康や身体的状態に言及することなく、音楽形式とオーケストレーションを通じてどのように表現されているかを検討する。
    (7) マーラーの後期作品から、独自の形式的アプローチや様式的特徴を示す主要な音楽的例をまとめる。
    (8) 収集したすべての情報と潜在的な参考文献を再確認し、疲労と老化に関する研究や議論が一切含まれていないことを厳守する。
    結果を分析
    レポートを作成
    数分で完了予定

    上記のリサーチ計画を確認する限りでは、 「疲労と老化に関する研究資料は用いずに」というプロンプトの指示がかなり強めに解釈され、「彼の音楽的成果を疲労や老化の概念と結びつける資料を厳密に除外する」「収集したすべての情報と潜在的な参考文献を再確認し、疲労と老化に関する研究や議論が一切含まれていないことを厳守する」となっていることがわかります。しかしながら例えば、「(6)マーラーの後期作品における標題的または哲学的基盤を探求し、これらのテーマが彼の個人的な健康や身体的状態に言及することなく、音楽形式とオーケストレーションを通じてどのように表現されているかを検討する。」は一見したところかなり強い制約に見えて、実は第1稿の「サイードの批判に従い」、伝記的事実に基づくのではなく、音楽的要素に焦点を当てて考察するアプローチを採用するという方針の確認であるとも取れ、だとしたらこちらの「リサーチ計画」こそが本来のものなのかも知れません。そこでこの「リサーチ計画」をそのまま承認して、リサーチに入ったのですが、既述の通り、リサーチは完結することなく、16ステップ目の途中で打ち切りになってしまいました。原因を推測すべく「思考プロセス」の確認のため、打ち切りのタイミングで表示されていたリサーチ対象となったWebサイトの一覧と「思考プロセス」のログを保全しました。その内容は以下のファイルに保存、公開しています。


    なお、途中で行き詰ってしまった場合のログは、一旦ウィンドウを閉じてしまうと再び確認することができなくなってしまうようですので注意が必要です。上記はリサーチ打ち切り直後の段階で保全したものです。

     思考プロセスを確認すると、7ステップ以降、最後の1ステップ前までのステップは同一で、以下の内容が繰り返されており、指摘されている「残された情報ギャップ」が何度検索しなおしても埋まらない様子が窺えます。

    後期様式分析の進捗

    これまでの調査で、マーラーの後期様式に関する多くの情報が集まり、レポートの主要な構成要素が確立されました。特に、ドナルド・ミッチェルによる『大地の歌』の詳細な形式分析、交響曲第9番アダージョ楽章のシェンカー分析、そして歌曲が交響曲のテーマ性や形式に与える影響に関する具体的な記述は、レポート作成の強力な基盤となります。ポール・ベッカーの分析の方向性も確認できました。

    残された情報ギャップ

    エドワード・サイードの「後期様式」理論がマーラーの特定の作品の音楽形式に具体的にどのように現れているかを示す詳細な分析例がまだ不足しています。また、交響曲第9番の第1楽章における形式論争(ソナタ形式 vs. 二重変奏)について、具体的な学術的根拠や両者の主張を比較分析できるような情報が不足していると感じています。

    今後の調査方針

    これらの情報ギャップを埋めるため、エドワード・サイードの理論をマーラーの音楽に適用した具体的な音楽分析例を含む学術論文を再検索します。さらに、交響曲第9番第1楽章の形式論争に特化した学術論文を検索し、両形式の主張と具体的な音楽的根拠を明確にしていきます。これらの情報が得られれば、レポートのすべての項目について十分な情報が揃うと判断し、リサーチを完了する予定です。

     この結果を見ると、第1稿の結論である「分析の限界」が起こらないように「疲労と老化」の問題系を取り除いた結果、「潜在的なつながり」ではなく「より直接的な分析」を試みようとしても、Gemini自身が必要であるとした「マーラーの晩年の作品とそれに関する批判的な解釈に特に焦点を当てた研究資料」が見つからず、その結果リサーチが頓挫してしまったというように考えることができそうです。そして「思考プロセス」が中断するタイミングでは、以下のステップを実行している最中であったことが確認できます。

    初期調査の進捗

    マーラーの後期様式に関する初期のウェブ検索を実施し、いくつかの関連情報源を特定しました。特に、交響曲第9番の形式構造や変奏技法に関する詳細な分析を含むブログ記事や、マーラーの対位法、不協和音、断片的なモチーフの使用に言及する記事が見つかりました。また、マーラーが新しい作曲手法を取り入れ、前衛的な姿勢を保っていたという学術的な見解も確認できました。

    情報源の評価と課題

    検索結果の中には、マーラーの後期様式に直接関連しない情報や、新譜速報、一般的な音楽史の記述など、今回の調査目的には合致しないものも含まれていました。また、個人のブログ記事は詳細な分析を提供しているものの、その学術的信頼性を他の情報源で補完する必要があると考えています。特に、「疲労と老化」に関する記述を厳密に除外するという制約を遵守するため、情報源の選定には細心の注意を払っています。

    今後の研究方針

    今後は、マーラーの後期様式に分類される具体的な作品(交響曲第9番、『大地の歌』など)を明確にし、その形式的特徴を深く掘り下げていきます。ソナタ形式、ロンド形式、変奏技法、調性の扱いといった具体的な音楽構造の革新と拡張に焦点を当て、より詳細な情報を収集する予定です。また、後期様式の形式的側面に関する学術的な解釈や分析を行っている音楽学者や理論家を特定し、彼らの著作や論文から純粋に音楽構造に焦点を当てた分析を探求します。これらの情報源を精査し、個人的な健康状態に言及することなく、標題的・哲学的基盤が音楽形式やオーケストレーションにどのように反映されているかを分析していきます。

     公開したファイルを確認頂ければわかることですが、実はこの内容は、7ステップ以降、堂々巡りとなってしまったステップに遥かに先行する、2つ目のステップのものと全く同一です。木構造の探索が行き詰るとバックトラックが起きて出発点のノードに戻りますが、丁度それと同じように、それまで企図したリサーチ計画が行き詰ってしまった結果、かなり手前の状態に後戻りしているように見えます。当然のことながら、同じパスをもう一度辿ることは無意味であり、何らかの仕方で別の選択肢を試みる必要があるわけですが、Geminiのリサーチはその別の選択肢を試みる間もなく中断してしまいました。

     結果だけ見れば、「疲労と老化」の主題系を取り除いたことは、リサーチを容易にするのではなく、寧ろ困難にしてしまったように見えます。だとしたら寧ろ、始めから「疲労と老化」という主題系での調査を行うことを陽に指定して、その結果をレポートに記載するアプローチを採るべきだったのでしょうか?そもそもこの打ち切りは無料版のリソースの制限によるものであり、リソースが豊富にあれば、後戻りしての別の選択肢の試行が継続されたのでしょうか?一つの可能性として考えられるのは、残された情報ギャップを見る限り、第1稿で問題になった文献81 Death and Transfiguration?: Late Style in Gustav Mahler's Last Works こそがGeminiが必要としていたミッシング・リンクそのものであり、Abstractだけではなく本文もアクセス可能であったとしたら、その内容を以てギャップを埋めてレポートが作成できたのではないかということです。確認した限りでは文献81の本文は、氏名とメールアドレスとともにリクエストを出すと、そのメールアドレス宛に送付されるという仕組みのようですが、そうではなくてこれが最初からアクセス可能であれば、Geminiはその内容に基づいてレポートを完成させることが出来たのかも知れません。であるとするならば、Abstractのみしかアクセスできない文献に基づいた「リサーチ計画」を立てたことがGeminiの敗因であり、リサーチにあたっての資料の活用戦略というテクニカルな側面を解決することが、今回のような行き詰まりの対策として有効なのかも知れません。

     それはともあれ、自ら設定した「リサーチ計画」が失敗するというのは人間のリサーチにおいてもしばしば起きることであり、それ自体は仕方ないことです。寧ろそうした事態が生じることを前提とし、リサーチの行き詰まりを検知したら方針を変更するといったフィードバック機構こそ自律的なエージェントを目指すのであれば必須と思われますが、急激に発達したとは言え、現時点での生成AIの推論機能に、そのようなメタレベルのフィードバックを要求するのは時期尚早なのかも知れません。そうした失敗からのリカバリが可能になるためには、与えられた課題をブレイクダウンして一連の推論のステップに分解するのとは別の能力が必要となります。そしてそれは恐らく、検索結果に存在する情報ギャップを埋めるにあたり、今回のGeminiのように単純に検索を繰り返すことに終止せず、ギャップを埋める仮説を自ら生み出すことと表裏一体なのではないかと思います。例えば通常の推論だけではなく、アブダクションのメカニズムが備わっていたら、思考プロセスはどのようなものになったかを考えることは興味深い問題に思われます。(なお最新の生成AIがアブダクションを行えるかどうか自体、興味深い問題であり、検証も行われており、その結果は必ずしも否定的ではないものの安定はしていないようです。これは生成AIの動作は基本的に事前学習に基づく確率的なものであることを考えれば不思議ではありません。つまり、明示的にそのような機構を組み込むようなチューニングを行わなくても、事前学習データに偶々類似の問題を扱ったものが存在すれば、それを利用することで推論に成功することも十分に考えられるということです。もっともここでの問題は、「思考プロセス」においてアブダクションを行うことで行き詰まりを打破できるかというものなので、対象となっているフェーズが異なることに留意すべきかも知れません。)

     要するにそれは、生成AIが創造的に振る舞うことに他なりません。このように考えれば、今回の検証で明らかになった課題は、極めて本質的なものであることになります。第1稿のレポートの末尾を取り上げた際に、Deep Researchの機能は本来的には関連する研究資料を探索してその内容を編集・要約することでしかなく、人間のレポートであれば求められるであろう、視点の新規性とか考察の独自性といったものを目指しているのではないということを図らずも示しているという指摘をしましたが、そこで述べたように、Geminiが他力本願で誰かの先行文献が検索によって見つかることを期待している当の研究を自らが行えるようになることと、行き詰ったリサーチを補正することの間には密接な関係があるのではないでしょうか?

     他方、現時点においても、恐らくはプロンプトの調整ないし「リサーチ計画」への介入によってレポートが得られるように軌道修正することは勿論可能でしょう。しかしながらそれは最早今回の検証の範囲を超えていますし、そもそも当初のプロンプトは私の問題意識から出たものであったにしても、ここでGemini Deep Researchが採用しようとして行き詰ったアプローチは私自身のそれと同じではなく、Geminiは私の研究を代行してくれている訳ではありません。従ってGeminiの「リサーチ計画」の補正は別途の課題とし、その検証については後日を期することとして、ここでは一旦、第2稿のリサーチの失敗という結果の確認を以て一区切りとしたいと思います。

     この後は比較検証という位置づけで行った、各システムの無料版の標準モデルの回答を確認することにします。(続く)

    (2025.6.9 公開, 6.18 加筆)

    マーラーについて生成AIに聞いてみた(15):生成AIがマーラーの「後期様式」について論じる(概説・ChatGPT Deep Researchの場合)

     これまで「マーラーについて生成AIに聞いてみた」と題して、近年急速な性能向上が見られる商用生成AIに対してマーラーに関する問い合わせを行い、返って来た答についてファクトチェックを行う検証の結果について報告してきました。

     最初の検証は2025年3月に実施、商用AIの無料版を対象をすることにし、ChatGPT, Gemini, Claude の3つを選択しました。最初の検証対象となったのは、ChatGPT4o, Gemini 2.0 Flash, Claude 3.7 Sonnetでしたが、このうちGeminiのみがWeb検索を併用、ChatGPTとClaudeはWeb検索なしで、LLMの事前学習結果に基づく回答を行うものでした。回答には多くの誤りが含まれ、特にマーラー没後の受容についての情報、特に日本での受容のようなローカルな情報についての精度が低く、そのためにRAGを構築してその効果を検証するといったようなことも試みてきました。

     そうした一連の検証結果の整理が一通り済むか済まないかの2025年5月には対象としている生成AIの側で幾つか動きがありました。Geminiではバージョン2.5がリリースされ、無料版での標準はGemini 2.5 Flashにバージョンアップされました。それを追うようにして、Claudeもバージョン4がリリースされ、Sonnet4が標準になりました。更にLLM自体のバージョンアップだけではなく、Geminiでは3月時点で利用可能になっていたWeb検索との併用が、ChatGPTとClaudeの無料版においても可能になりました。特に後者は、LLMの事前学習の結果のみではなく、リアルタイム検索によって得られた情報も利用するという点において、RAGと同様の効果が見込まれ、大幅な精度改善が期待できることから、再検証を実施しました。

     その結果は、方向性としては想定通りながら、想定を上回る高精度の回答が返って来るようになり、最早RAGの構築の必要性を感じさせないものになっていました。正しい情報に基づいているかという点は当然として、回答に添えられる付加的な情報の選択についても自然なものとなっており、頻度は大幅に下がったものに時折発生する誤り(「幻覚(Hallucination)」)についてのファクトチェックは依然として欠かせないものの、充分に実用に耐えるレベルになっていることが確認できました。もともと近い将来に改善されるものとは思っていましたが、タイミングによる偶然もあるとはいえ、わずか3か月足らずでここまでドラスティックな性能向上が見られるとまでは予想しておらず、率直に、その性能向上のペースに驚きを禁じ得ません。

     しかしながら生成AIの性能向上は、上記の検証結果の範囲に留まるものではありません。時に最近のトレンドは、単純な情報検索と整理に留まらず、サブタスクへの分解や複数のステップを踏んだ処理を必要とする複雑な問い合わせに対応できる、所謂「深い」推論ができるようになった点に寧ろ重点があり、始めから人間の能力を上回る情報収集能力に加えて、情報収集した結果を整理・統合してレポートとしてまとめる能力が喧伝されています。推論を得意とするLLMのモデルは各生成AIの無料版で利用できるものとは別に用意されており、従来は有料版でのみ利用可能だったのですが、最近のバージョンアップによって、本企画で検証対象としている商用生成AIのうちGeminiとChatGPTについては、回数制限付きながらDeep Researchの機能が無料版でも利用可能になりました。

     そこで本企画においてもDeepResearchの機能の検証を行いましたので、本記事ではその結果を報告します。

     問いとして用意したのは、「マーラーにおける後期様式」に関する問です、とはいえこの問は検証用に誂えたものではなく、これまで「マーラーにおける「老い」についての論考に向けての準備作業」というプロジェクトにおいて、従来は完全に「人力」で調査を行ってきたものの中核部分を成すものです。特に「後期様式」という規定を巡っては、アドルノが『マーラー 音楽観相学』(邦訳は龍村あや子訳, 法政大学出版局, 1999)において言及している、ゲーテの「現象からの退去」としての老年という捉え方がその焦点となると考えていますが、これはジンメルのゲーテ論における「老齢藝術」論をベースにしたものであることから、DeepResearchのためのプロンプトとしては以下のものを用意しました。

    Deep Research用のプロンプト:

    「ジンメルがゲーテの「現象からの退去」を「老齢藝術」の特徴としたことを踏まえたアドルノの「後期様式」についての考え方に基づいて、マーラーの作品における「後期様式」について論じ、特にそれが音楽的形式にどのように影響しているかを分析して下さい。」

     検証対象は以下の通りです。既に述べたように無料版で利用できるDeep Research 2種(LLMはChatGPT o3とGemini 2,5 Pro)がメインの検証対象です。ClaudeにもClaude Opus 4という推論を得意とするモデルが提供されていますが、無料版では利用できないため、今回は対象外です。比較のために、無料版で利用できる標準のモデルへの問い合わせ結果も示すことにします。

    • 検証1:ChatGPT Deep Research with o3
    • 検証2:Gemini Deep Research with 2.5 Pro
    • 比較検証1:ChatGPT 4o 
    • 比較検証2:Gemini 2.5 Flash
    • 比較検証3:Claude 3.7 Sonnet
    • 比較検証4:Claude Sonnet 4
     実験はそのほとんどを2025年5月19日に行い、翌日5月20日に検証1の2回目を実施、その後Claude Sonnet 4のリリースを受けて6月8日にClaude Sonnet 4での比較検証を実施しました。検証結果は、今回はいずれも簡単なものとはいえ、レポートの形式となっており、それなりの量になることから、本稿の中で紹介することはせず、以下の通り、pdf化したファイルを公開することにしました。

     後述する経緯によりChatGPTについては若干プロンプトが異なる2バージョンの結果が得られましたので、その両方を公開します。また比較検証2は実際にはリサーチ計画のみの提示でした。比較検証3,4はいずれもレポート形式の出力を採用していますが、比較検証3では上記の標準プロンプトでレポートが出力されたのに対し、比較検証4ではレポート形式にならなかったため、プロンプトを若干変えてレポート形式の出力となるよう明示的な指示を与えた結果になっています。いずれについても詳細は後述します。
    以下では、各検証結果について順次簡単にコメントをしていきます。


    *     *     *

    (A)検証1:ChatGPT Deep Research with o3について

    ChatGPTのDeepResearchは、プロンプトを与えると、それに対してシステムの側から調査の方針についての問い合わせが来て、こちらがそれに回答すると調査を開始するという段取りになっています。そこで、調査開始までのやり取りについても報告することにします。

    上記のプロンプトに対するChatGPTからの返答は以下のようなものでした。
    マーラーの後期様式についての考察をまとめるにあたって、もう少しだけ詳しくお聞きしたいです。

    1. どのような観点を重視した考察をご希望ですか?(例:音楽的構造、哲学的観点、感情表現、文化史的文脈など)
    2. 対象としたいマーラーの具体的な作品や時期(例:交響曲第9番以降、あるいは『大地の歌』など)はありますか?
    3. 論文、レポート、エッセイなど、どういった形式でのまとめを想定されていますか?
    当然のことながら、これに対してどのように答えるかで返って来る結果は変わります。1回目は以下のように回答して調査を進めてもらいました。
    1.観点としては哲学的観点とそれが音楽的構造にどう反映されているか。2.どこからを後期様式とするかという範囲の問題も含めて考察してください。この場合第8交響曲の位置づけが問題になると思います。3.論文
    ChatGPTでは調査にかかった時間、情報源の数、検索した回数といった情報も一緒に帰ってきます。1回目はそれぞれ9分、36件の情報源、87件の検索に基づいて、上記のマーラー後期様式_ChatGPT_DeepResearch_20250519.pdfで確認できる「マーラー後期様式における「現象からの退去」と音楽的構造」と題する小論文が返ってきました。なお、「アクティビティ」として、検索・推論のプロセスのログが確認できるようになっており、何をしようとして、どれを検索したか、その結果どのような情報が得られたかといったリサーチの流れをトレースすることが可能です。ここではその詳細は割愛しますが、ご参考までに、本検証の「アクティビティ」の冒頭部分と末尾部分を以下に示します。日本語に翻訳する過程でやや不自然な表現になっている部分もありますが、訂正せずに出力をそのまま示すことにします。
    ChatGPT
    アドルノの「音楽的表現の心理学」を通じて、シンメルの老齢芸術の概念とガスタフ・マーラーの後期様式の音楽的・哲学的関係を探る。

    Searched for アドルノ・ジンメル 老齢芸術
    ChatGPT
    アドルノとジンメルの「外見からの撤退」を英語で検索している。

    Searched for Adorno Simmel aging art withdrawal
    ChatGPT
    結果0は「晩年のスタイル: 単一の歳老いの年齢差別」に関する内容のようです。ただし、シンメルやアドルノに特化しているわけではなさそうです。[1]「アドルノの美学理論の老化」も関連する可能性があります。

    Favicon
    shc.stanford.edu を読み込みました

    ChatGPT
    「Late Style」に関連する一般的な学術記事で、アドルノの理論が脚注で言及されているかもしれない。

    Favicon
    shc.stanford.edu からさらに読み込みました

    ChatGPT
    元の引用が必要かもしれないし、アドルノの『マラー』やシンメルの『ゲーテ』に触れるかも。
    (中略)

    Searched for マーラー 現象 退去 アドルノ
    ChatGPT
    山崎さんのノート.comの資料を探しています。

    Favicon
    note.com を読み込みました

    ChatGPT
    アドルノはマハーの晩年のスタイルをシンメルの「老いの芸術」と関連付けて、断片化、解体、別れ、反対の調和を探求している。彼の分析は、マハーがワーグナーと新作に橋渡しをしている点を強調している。

    Favicon
    u-gakugei.repo.nii.ac.jp を読み込みました

    ChatGPT
    アドルノの「老齢藝術」「現象からの退去」というテーマで、マーラーの後期スタイルと音楽構造について詳細に分析し、ジンメルの考え方と結びつけています。
     上記引用には含まれませんが、このプロセスをトレースすることでChatGPTのDeep Researchの挙動について色々なことがわかるので、検証結果とは別に、参考資料として、アクティビティのログを保存したものを以下の通り公開していますので、興味のある方はご覧ください。


     内容の詳細は上記ファイルをご覧いただければと思いますが、冒頭、「後期様式の範囲と第8交響曲の位置づけ」と題する節が設けられ、事前の指示の第2項がきちんと反映されていることが確認できます。第8交響曲を後期作品に含めるという主旨の文章で、その判断自体は首肯できるものですが、その傍証の2つ目として挙げられたザンデルリング・ベルリン放送交響楽団の「大地の歌」、第9交響曲、第10交響曲のセットのCDの解説の引用は、その意図するところが不明瞭で、有効なものになっていないように感じます。実際、その後の本論では第8交響曲への言及はなく、第8交響曲を含めて後期様式を論じてはいない点で、第2項の指示への対応が皮相なものに終わっている憾みがあります。

     小論文で参照されている文献は6件、アドルノについては東京学芸大学の森田数実先生の、アドルノのマーラー・モノグラフを取り上げた「音楽の批判的理論(4)」が参照されていますが、ジンメルの方は英語版の芸術・美学論集(編者によるイントロダクションつき)以外は私自身のnoteの記事が参照され、それ以外には「大地の歌」と第9交響曲の演奏会の解説記事が参照されているのみであり、36件の情報源、87件の検索の結果としては稍々物足りない印象が否めません。また、先にマーラーの個別作品における「物象的な外界からの距離化」の例を挙げた後、アドルノのマーラー論とジンメルの老齢藝術論との接点について述べるという構成もちぐはぐな感じで、構成的にも改善の余地がありそうです。

     具体的な細部について言えば、第10交響曲についての記述にはおかしな部分が多々あり、フェイクに近いものと感じられますが、これは第10交響曲についての参考文献が示されていないことと関係しているように思われます。また、後半のアドルノとジンメルの比較の部分でも「アドルノ自身は直接「現象からの退去」という語を使わないが」といった誤った記述が見られますし、再び第10番について言えば、完成されるべく企図された、ありうべき形態を仮定してならともかくも、その未完形態を「既存の形式を一種の仮構的配置として構築しなおす試み」とするのはさすがに無理があるでしょう。一方で「異邦性の仮面として中国詩に求めた」ことを、「作品が自己の個人的感覚(作曲者のアイデンティティの葛藤)を内的に覆い隠す媒介を用い、外界から 一歩退いた視座で世界に向き合っていることを示唆する表現」と捉えた箇所などは、やや表現がちぐはぐに感じられる点を措けば、指摘として興味深い側面を含むように感じます。(但し一般に「仮晶」を「後期様式」と単純に結びつけることには留保が必要であり、「後期様式」の固有性という観点からは、寧ろ「仮晶」として他ならぬ東洋が選ばれた点に重点を置いて捉えるべきかと思いますが、こうした点は寧ろ私自身のマーラー後期様式論で論じるべき内容ですので、詳細は後日の宿題とさせて頂きます。)

     全般としては、大きくみれば致命的な誤りがあるわけではなく、一部に興味深い細部があるものの、細部において明確な誤りや不自然な論理の流れが目立ち、検索して得られた結果を継ぎ接ぎして何とか体裁を整えるという域を超えているとは言い難く、全体の構成にも無理があり、それほど高い評価はできないでしょう。とはいうものの、これがプロンプトと簡単な指示だけで生成されたことを思えば、――そして、同じ問いを人間に与えた時のことを思えば――わずか10分足らずでこれだけの内容をまとめることができること自体は驚異的なことに思われます。

     また参考までに付記しておくと、上記の小論文作成後、「参考文献をリストとして示してください。」というプロンプトを(Deep Researchに対してではなく、4oに)与えてみたところ、「それらしい」リストは返って来たのですが、内容上は存在しない論文、存在しない翻訳など、多くのフェイクが含まれていました。その内容をここで示すことはしませんが、これはChatGPTに関してはしばしば報告されていることでもあり、利用にあたっては注意と確認が必要だと思います。

     ChatGPTについては、上記1回目の検証の後、翌日に2回目の検証を行いました。その理由は、その後他のシステムでの検証を実施した結果を踏まえると、プロンプトを与えた後のChatGPTからの問い合わせに対する答で、第8交響曲を後期作品に含めるかという論点を与えるなど、調査の方向性を拘束しすぎて、稍々他の結果とは異なった内容となってしまったと感じたためです。そうした背景から、調査の方向を限定するような指示を極力避けて2回目の検証を行いました。その結果はマーラー後期様式_ChatGPT_DeepResearch_20250520.pdfでご覧になれます。所要時間はほぼ同じで10分弱。情報源、検索についても同様な傾向でした。

     2回目の小論文は、序論・理論的背景・マーラーの後期作品の形式分析・考察・結論という構成となっており、1回目と比べて自然な流れになっています。しかしながら、その細部は第1稿に比べてもなお一層問題含みに感じられます。今回は第10交響曲についても参照した文献が示されていますが、その内容は、確かに参照された文献の情報を利用してはいるものの、その要約としては不適切なものですし、通常は引用と了解される括弧「」の使用も不適切で、私が確認した限り、その内容に正確に該当する箇所は元の文献には存在しないようです。前回同様ここでも、作品が未完であること自体を「構造的完成の回避」と捉えていますが、これは無理のある主張だと思います。個別の作品の内容についての記述の奇妙さは、第10交響曲のみならず第9交響曲、「大地の歌」の記述にも散見されます。一つには、参照した英語の文献を日本語に翻訳しつつ利用していることから、翻訳がこなれていないという問題が少なからず関与しているとは思いますが、それを差し引いても、序論末尾に要約された「和解の欠如」「形式と素材の対 立・不一致」「未完性・断片化」「沈黙や空白の利用」といった後期様式の特徴の例示としては不適切・不十分に感じられます。考察の内容も、大筋では間違っていないのと引き換えに、皮相な印象は否めません。

     参考文献として最終出力の小論文に記載があるのは8件、そのうち2件が私のnoteの記事である点は措くとしても、、『ベートーヴェン――音楽の哲学』(作品社)の出版年が誤っていたり(正しくは2000年ではなく1997年)、リンクが何故か原著の一部(タイトル、目次と編集者による序文のみで、本文は欠)であったりするなど、第1稿同様、あるいはそれ以上に不適切・不十分に感じられます。

     第2稿は、体裁こそ第1稿よりも整っていますが、その内容は、結局のところ検索で得られた情報を継ぎ接ぎして体裁と整えたというレベルを超えるものではなく、Webでは基本的な文献(ここではジンメルの『ゲーテ』やアドルノの『マーラー』)自体を参照できるわけではなく、二次的な文献の文章を介してその内容を窺い知ることができるに過ぎないという制限のために、その記述は皮相なレベルに留まっており、見るべきものがほとんどないように感じられました。

     ChatGPTのDeep Researchの結果についてのコメントは以上として、次にGeminiのDeep Researchの結果を確認することにしようと思います。(続く)

    (2025.6.9)


    2025年6月1日日曜日

    マーラーについて生成AIに聞いてみた(14):Claude Sonnet 4の場合

     本記事では、Claude の最新版、Sonnet 4に、これまで検証に用いている19のプロンプトを与えた結果について報告します。マーラーについて生成AIに問い合わせてファクトチェックを行うことを最初に試みたのはほんの3か月前の2025年3月のことでしたが、その結果を受けたRAGの試作と検証の結果報告が一段落したと思う間もなく、5月になって、ChatGPT 4oが無料版でもWeb検索を行うようになり、Geminiが2.5にバージョンアップするなどの変化があり、改めて最新のバージョンでの検証結果を報告してきていますが、さらに引き続いて今度はClaude 4がリリースされたとのアナウンスに接しました。早速試用してみると、無料版で利用可能なClaude Sonnet 4ではベースとなるLLMがバージョンアップしている他、これまで無料版では対応していなかったWeb検索の併用に対応しており、RAGなしでどこまで答えられるかという観点からは大いに期待が持てそうなことがわかりました。そこで早速、従来の3.7 Sonnetの検証結果と比較をしながら、Claude Sonet 4の検証を実施したものです。

     まず、既に前の記事を読まれている方には煩瑣に思われるかも知れませんが、検証に用いたプロンプトを以下に示します。

    1. 「大地の歌」の日本初演は?
    2. マーラーの「大地の歌」の日本初演は
    3. マーラーの「大地の歌」はどこで書かれたか?
    4. マーラーは第8交響曲についてメンゲルベルクに何と言いましたか?
    5. マーラーが死んだのはいつか?
    6. マーラーはいつ、誰と結婚したか?
    7. マーラーがライプチヒの歌劇場の指揮者だったのはいつ?
    8. マーラーがプラハ歌劇場の指揮者だったのはいつ?
    9. マーラーがハンブルクの歌劇場の楽長になったのはいつ?
    10. マーラーの第9交響曲の日本初演は?
    11. マーラーは自分の葬儀についてどのように命じたか?
    12. マーラーの「嘆きの歌」の初演は?
    13. マーラーはどこで生まれたか?
    14. マーラーの第9交響曲第1楽章を分析してください
    15. マーラーの第10交響曲の補作者は?
    16. マーラーの第2交響曲の最初の録音は?
    17. マーラーの「大地の歌」のイギリス初演は?
    18. マーラーの「交響曲第6番」はいつ、どこで初演されたか?
    19. ブラームスはブダペストでマーラーについて何と言ったか?

     実験は2025年5月28,30,31日に行いました。問い合わせの順番は、1の変形である2と、性質の異なる質問である14を除いて1から番号順とし、2,14を最後に質問することにしました。Claudeでは、無料版では利用制限がかかります。実験が3日に亘ったのはそのためです。経過は詳細は以下の通りとなります。

    • 1,3,4,5,6,7,8,9:2025年5月28日
    • 10,,11,12,13,15,16,17,18,19:2025年5月30日
    • 2,14:2025年5月31日

     全プロンプトに対する回答はかなりの分量になりますので、ここで全てを紹介することは控え、公開済の以下のファイルで確認頂ければと思います。なお参考までに前回のClaude 3.7 Sonnetでの検証結果のリンクも示しましたので、興味のある方は比較をして頂ければと思います。

     フォーマットは前回と同じで、各行毎に、プロンプトのID(通番)、プロンプト、回答、実験日、評価を記載しています。「14.マーラーの第9交響曲第1楽章を分析してください」については、回答が長いものになったため、複数行に分割しています。

     全般として、Web検索を行うようになったことで正解率が大幅に向上し、情報を見つけることができなかった問以外については、全て正解が返るようになりました。こうなると独自にRAGを構築する必要性はほぼなくなったということになりそうです。タイミングの偶然もあるでしょうが、わずか3か月にも満たない期間で、一つバージョンが上がっただけでこれだけ回答が改善され、施した対策(ここではRAGの構築)が意味を喪うという改善のスピードに驚かされます。
     
     前回との主な違いをまとめると、以下の通りです。
    • もともとマーラーの生涯の出来事についての問い合わせについては、前回も概ね正しい答えが返って来ていたのに対して、マーラー没後の日本での「大地の歌」、第9交響曲初演についての問い合わせには正しく答えられていなかった(1,2,10)のに対して、今回はWeb検索が行えるようになったことで、正確な答が返って来るようになりました。19.ブラームスがマーラーの指揮を褒めたというアネクドットについても同様です。
    • 17.「大地の歌」イギリス初演については前回は誤りを返していたのに対し、今回は、情報が見つからず、わからないという答になりました。
    • 16.第2交響曲の最初の録音については、前回は、一部誤りはあるものの正しい情報を返せていたのに対し、興味深いことに、検索をするようになった今回は、情報が見つからず、わからないという答になりました。
     最後の点について補足すると、Claude Sonnet 4で無料版でも可能になったWeb検索は、恐らくは信頼できるWebサイトと判断したものに範囲を限って情報の収集をしていることが窺えます。Geminiもその傾向がありますが、個人的な印象を述べれば、Claudeの方が更に慎重なように見え、これは個人が執筆・公開しているnoteやブログ記事からの情報も利用しているChatGPTとは対照的です。結果的に、Claudeが信頼できると判断した範囲では情報が見つけられないというケースが比較的多く発生する傾向は、本稿が対象としているマーラーについての情報のみならず、他の対象についても確認できています。「幻覚(Hallucination)」対策としてはより慎重で確実であると言えるでしょうが、例えば私のような市井の人間がどんなに詳細で正確な情報を継続的に公開しつづけても、その情報はClaudeの回答には全く反映されないということになり、正直に言えば、やや空しい感覚に囚われなくもありませんし、他の領域で確認した限りでは、それにも関わらず「幻覚(Hallucination)」が発生するケースもあるようです。この辺りはWeb検索に対して対照的なポリシーを持つChatGPTの結果と違いが出て来る部分でもあり、一長一短な感じもありますが、併用を前提としてしまえば、ポリシーの異なる生成AIが複数存在することにはメリットもあり、時と場合に応じて併用したり使い分けをしたりすることで有効に活用できるのではないかとも思いました。

    (2025.6.1)


    マーラーについて生成AIに聞いてみた(13):ChatGPT 4oがWeb検索をするようになったら…

      本記事では、ChatGPT の無料版でWeb検索を併用できるようになったことを受け、Web検索つきのChatGPT 4oに、これまで検証に用いている19のプロンプトを与えた結果について報告します。マーラーについて生成AIに問い合わせてファクトチェックを行うことを最初に試みたのはほんの3か月前の2025年3月のことでしたが、その結果を受けたRAGの試作と検証の結果報告が一段落したと思う間もなく、Geminiが2.5にバージョンアップしたことをうけ、Gemini 2.5 Flashでの検証結果を記事マーラーについて生成AIに聞いてみた(12):Gemini 2.5 Flashの場合で報告したところですが、当初からWeb検索を併用していたGeminiに加え、ChatGPTについても無料版でWeb検索を併用できるようになりました。RAGを試作したのは、LLMの事前学習結果のみでは回答の精度に限界があることを確認したからですが、リアルタイムのWeb検索を併用できれば、ことマーラーに関する情報のようなパブリックな情報についてはRAGを構築するのに似た性能向上が期待できます。そこで早速、Web検索つきのChatGPT 4oでの検証を行ったような次第です。

     まず、既に前の記事を読まれている方には煩瑣に思われるかも知れませんが、検証に用いたプロンプトを以下に示します。

    1. 「大地の歌」の日本初演は?
    2. マーラーの「大地の歌」の日本初演は
    3. マーラーの「大地の歌」はどこで書かれたか?
    4. マーラーは第8交響曲についてメンゲルベルクに何と言いましたか?
    5. マーラーが死んだのはいつか?
    6. マーラーはいつ、誰と結婚したか?
    7. マーラーがライプチヒの歌劇場の指揮者だったのはいつ?
    8. マーラーがプラハ歌劇場の指揮者だったのはいつ?
    9. マーラーがハンブルクの歌劇場の楽長になったのはいつ?
    10. マーラーの第9交響曲の日本初演は?
    11. マーラーは自分の葬儀についてどのように命じたか?
    12. マーラーの「嘆きの歌」の初演は?
    13. マーラーはどこで生まれたか?
    14. マーラーの第9交響曲第1楽章を分析してください
    15. マーラーの第10交響曲の補作者は?
    16. マーラーの第2交響曲の最初の録音は?
    17. マーラーの「大地の歌」のイギリス初演は?
    18. マーラーの「交響曲第6番」はいつ、どこで初演されたか?
    19. ブラームスはブダペストでマーラーについて何と言ったか?

     実験は2025年5月22日に行いました。問い合わせの順番は、1の変形である2と、性質の異なる質問である14を除いて1から番号順とし、2,14を最後に質問することにしました。ChatGPTでは、無料版では利用制限がかかりますが、今回は1,3~10までで一旦リミットに達し、残りは日付は同じですがリミット解除後に検証を行っています。

     全プロンプトに対する回答はかなりの分量になりますので、ここで全てを紹介することは控え、公開済の以下のファイルで確認頂ければと思います。なお参考までに検索なしのChatGPT 4oでの検証結果のリンクも示しましたので、興味のある方は比較をして頂ければと思います。

     フォーマットは前回と同じで、各行毎に、プロンプトのID(通番)、プロンプト、回答、実験日、評価を記載しています。「14.マーラーの第9交響曲第1楽章を分析してください」については、回答が長いものになったため、複数行に分割しています。

     前回との主な違いをまとめると、以下の通りです。 
    • 前回は、正解はマーラーの伝記的事実に関する問い合わせにほぼ限定され(4,5,7,8,9,12,13,18)、マーラー没後の作品の初演についての問い合わせの回答はほとんどがフェイクでした。また概ね正しい答が返ってきている場合でも、細部に間違いが見受けられる場合が多くありました。
    • 今回は、日本初演についての問いの一部(1,10)を除けば概ね正しい答が返って来ており、誤りがある場合にも、全てがフェイクというわけではなく、正しい情報と誤りが混在する答になっています。検索に基づく回答には、根拠となる情報源が記されているので確認ができるのですが、そのうち10.第9交響曲の日本初演についての回答は、問い合わせの答自体は正しい(1967年4月16日東京文化会館でのキリル・コンドラシン指揮、モスクワ・フィルハーモニー管弦楽団の来日公演での演奏)ものですが、日本人による日本初演についての補足は、残念ながら、公演のライブ録音のCDのリリース情報に基づいた誤った類推の結果と思われ、こちらは生成AIが生み出したフェイクではないかと思われます。一方、1.「大地の歌」の日本初演に関する質問に対する答に含まれる誤りは、本企画の以前の検証報告に含まれる、生成AIが作り出したフェイク情報に基づいたものです。
     最後の点について幾つか補足すると、まずWeb検索の傾向として、ChatGPTはGeminiやClaude(Claude Sonnet 4から無料版でもWeb検索に対応するようになりました。このバージョンでの検証も既に済ませていますので、その結果については別途報告の予定です)に比べて、いわゆる「オフィシャル」な情報以外の、個人が作成・公開しているコンテンツも検索の対象としており、今回のケースでは、私自身の公開している情報(但し本ブログではなく、同一コンテンツをnoteで公開したもの)を参照しています。一般にWebで公開されているコンテンツが常に信頼できるものであるとは言えないため、検索で得られた情報の正しさを判断する必要があるのですが、GeminiやClaudeは、信頼性の高いサイトのみを検索対象とすることでフェイクを引き当てるリスクを回避しているのに対し、ChatGPTの場合には相対的にリスクが高いやり方をしていると言えると思います。

     次に私の公開している記事の内容ですが、これがファクトチェックを目的としたものであることは、人間の読者にとっては明らかなことと思いますし、また当該情報が誤りであることも記載しているので、人間の読者にとっては誤解の余地はないものと思いますが、生成AIではそこまでの判断ができていないという点が指摘できると思います。特に生成AIは、その技術的基盤であるLLM(大規模言語モデル)のメカニズム(Transformerと呼ばれる技術をベースにしています)から言っても、普通の文章で書いてある場合に比べて表形式の情報を扱うことが苦手であること明かであり、実際、表形式の情報を正しく生成AIに理解させることの困難については、技術的には広く知られており、様々な対処方法も提案されています。

     もう少し細かく言うと、完全な表形式でなくても、表に準ずる情報の省略、例えば文章中に「正しい」「誤りである」という言葉が明示的に含まれているのではなく、当該文章とは別に(例えばその直前に)〇・×といった記号が付されているような場合には、生成AIが情報を正しく読み取ることが困難になることが知られています。極端なケースでは、〇が正しい、×が誤りであるという、人間にとっては自明なことすら生成AIにとっては自明でなく、仮にそれがわかったとしても、〇・×が、後続の文章の内容の真偽に関わる情報であるという、人間であれば文脈から容易に推測できることが、生成AIには理解できないということです。勿論この点についても今後は技術的な改善が行われていくものと思われますが、少なくとも現時点では、ファクトチェックをしてフェイクを指摘する記事のコンテンツと、単にフェイクを記載しているコンテンツの区別が生成AIにはつかないリスクがあることは認識しておくべきかと思います。

     従ってファクトチェックの記事の公開には、チェック対象となるフェイクを却って拡散してしまうというリスクが伴うことになるわけですが、それではその点を踏まえて、生成AIに誤解されないようにファクトチェックの記事は作成・公開を控えるべきなのか、或いは作成した場合に、人間にとっての読み易さより、生成AIにとって誤解が生じにくい書き方をすべきなのでしょうか?勿論、そうした配慮はするに越したことはないのでしょうが、私見では、現時点でのごく限定された評価結果に基づく対応は行き過ぎになる可能性が高いと考えます。ファクトチェックを行い、その領域について関心のある読者に対して結果を公開することには意味があると思いますし、それはあくまで人間に対して行っているのであって、生成AIに対して行っているわけではありません。また、そもそも本記事自体がそのことを確認する主旨のものでもあるわけですが、生成AIの技術的な革新の速度には驚くべきものがあり、生成AIにとって現時点では苦手な、リニアな自然言語での文章とは異なる、表のような形式の解釈も、ファクトチェックの結果の報告と意図的なフェイクとの区別もいずれ解決する可能性が高いと思います。寧ろ、いずれそれがファクトチェックの結果の報告であることを生成AIが理解することを期待して、その時点でのファクトチェックを行って、誤りがあればそのことを指摘した方が良いのではないかと考えます。(理想的には、アクセス可能な情報には一切の間違いがなく、正しい情報のみからなる状態が望ましいのでしょうが、現実的にはそうした状態になることは期待できませんし、意図的にフェイクを流布しようという試みが絶えず為されていることも事実で、それがなくなることは期待すべきではないでしょう。)本稿で対象としているマーラーに関する情報に限って言えば、既にほんの3か月前と比べ、最新のバージョンの回答は大幅に精度が向上していることは本記事の報告からも明らかであり、本記事の報告で残っている問題も遠くない将来、解消すると考えるべきだというのが、今回の検証を実施しての印象です。

    (2025.6.1)