本稿ではGemini Deep Research with 2.5 Proが生成した第9交響曲第1楽章のレポートを紹介します。Gemini Deep Research は Geminiが2.0から2.5にアップデートされたのに伴い、無料版においても利用可能になった機能で、無料版で利用できるデフォルトのLLMである2.5 Flashではなく、「深い推論」(従来の生成AIのように過去のデータからパターンを再現するだけではなく、複雑な問題を解決するために、段階的な思考と論理的な推理を用いたプロセスに従来の生成AI技術を融合した技術)に特化した2.5 Proを用いて、課題解決のためのプラン(「リサーチ計画」)を作成し、段階的にWeb検索・分析を繰り返すことによってレポートを生成することができるもので、既にこれまでの検証で、マーラーの「後期様式」についてのレポート作成において他の生成AIと比べて高品質の回答を生成できていることを確認しています。
一方第9交響曲第1楽章の分析は、今を遡る3か月前に本企画「マーラーについて生成AIに聞いてみた」を開始した直後に設定した検証用課題の一つであり、その後も検証対象のLLMのバージョンアップに伴う再検証においても例題として使用してきたものです。但し、その結果は思わしくなく、特に、当時はリアルタイムWeb検索を使用していなかったChatGPTの出力は全くの出鱈目であり、生成AIが事実と異なる出力を行う「幻覚(Hallucination)」と呼ばれる現象の典型例となってしまいました。検証対象である商用AI(ChatGPT, Gemini, Claude)の無料版の標準LLMいずれについてもその後、LLMのバージョンアップが為されたり、リアルタイムWeb検索を併用するようになったりしたため、再検証を行ったところ、少なからぬ改善は見られるものの、細部においてはおかしなところが散見され、他のプロンプトのように簡単に〇×の評価をすることが難しい状況が続いていたため評価対象外として、その結果をご紹介するに留めていました。これらについては検証結果を収めたpdfファイルのリンクを当該検証を報告した記事で示していますので、ご興味のある方は当該記事にて実際の回答を確認して頂くことができます。
Geminiについては、3月の検証時点での2.0 Flashの回答では、楽曲の具体的な内容に立ち入ることなく、総説的な説明に留め、解釈について補足するといった構成で、楽曲自体についての記述は、当たり障りのない、だけれども明確な誤りは見受けられない内容になっていたのに対し、その後追加検証を行った際には、楽曲についてより具体的に主題や調性についての言及を行うようになった分、明確な誤りもあれば内容が曖昧で何を指しているのか判断に苦しむ箇所もありということで、「幻覚(Hallucination)」という観点からは、、寧ろより悪い結果となっていました。この傾向は4月下旬に実施した2.0 Flashの再検証で確認でき、5月下旬に実施した2.5 Flashの再検証でも、若干改善が見られるものの、基本的には同様でした。
一方でそれとは別に、Deep Researchの機能を評価するために、マーラーの「後期様式」をテーマとしたレポートの作成指示をしたところ、稍々おかしな部分があるものの、それなりの品質のレポートが得られたことは本記事の直前の記事でご紹介している通りです。冒頭述べたように、Deep Researchでは無料版の標準LLM(Geminiの場合、現時点では2.5 Flash)ではなく、複雑な調査やレポート生成に適しているとされる「深い推論」に特化したLLM(Geminiの場合は2.5 Pro)を使用しますので、第9交響曲第1楽章の分析についても異なる結果になることが予想されること、「深い推論」に特化したLLMこそ現時点での生成AIがその性能向上に最も力を入れている部分であり、かつその成果について喧伝されている部分でもあることから、現時点での到達点と限界を確認するという意味合いもあり、今回の検証を実施することにしました。
実験は2025年5月22日に実施しました。これは順序としては、2.5 Flashを用いた再検証、およびマーラーの「後期様式」のレポート作成の後になります。近年の生成AIは過去の履歴を利用した処理を行うため、そうしたコンテキストが回答に影響している可能性があるため、付記しておきます。
与えたプロンプトは従来、標準モデルに与えていたものと同じで、以下の通りです。
プロンプト: マーラーの第9交響曲の第1楽章を分析してください。
これに対してDeep Researchが返してきた「リサーチ計画」は以下の通りです。
マーラー第九交響曲第一楽章分析
(1) 第1楽章の全体的な楽曲構造と形式(例:ソナタ形式、変形ソナタ形式)を特定し、その特徴を記述します。
(2) 楽章内の主要な主題(テーマ)と動機(モチーフ)を特定し、それらがどのように提示され、展開され、変容していくかを分析します。
(3) 和声進行、調性の変化、不協和音の扱い、そして全体的な和声言語が楽章の感情的・構造的側面にどのように寄与しているかを考察します。
(4) オーケストレーション(楽器編成と用法)に注目し、各楽器群の役割、音色の変化、テクスチャの多様性が楽章の表現にどのように影響しているかを評価します。
(5) テンポ、ダイナミクス(強弱)、リズムの要素が、楽章の劇的な展開、感情的な起伏、そして全体的な流れにどのように貢献しているかを分析します。
(6) 楽章が伝えようとしている感情、ムード、または潜在的なプログラム的要素について探求し、マーラーの人生や当時の時代背景との関連性を考察します。
(7) 対位法、主題変容、コラージュ的手法など、この楽章で顕著に見られるマーラー独自の作曲技法を特定し、その効果を説明します。
(8) この楽章に関する主要な音楽学者の分析や、発表以来の批評的な受容、そしてその歴史的意義について調査します。
ここでは検証が目的なので、極力介入を避けるべく、上記リサーチ計画をそのまま承認します。数分後に帰って来た結果は「マーラー交響曲第9番第1楽章「アンダンテ・コモド」の深層分析」というタイトルのレポートです。17000字強とかなりの分量になりますので、この記事中での紹介は控え、Google Documentにエクスポートしたものをpdf化したファイルを以下に公開しましたので、ご確認頂ければと思います。またレポート作成プロセスのログである「思考プロセス」も同様にpdf化し、併せて公開しています。
出力されたレポートは以下のような構成を持ちます。比較をすると明らかなように、これは概ね「リサーチ計画」に沿ったもので、各章タイトルに内容に因んだ副題を付けるなど、かなり凝ったものとなっています。個人的にはこのような修辞には抵抗感があり、自分で書く時にはこうしたことはやらないと思いますが、こうしたレトリックを生成できること自体、驚くべきことだとは思います。
I. 序章:世界への告別
II. 形式構造:変容するソナタ形式
III. 主題と動機のタペストリー:生と死の糸
IV. 和声と調性の風景:不協和音と解決の航行
V. 管弦楽法と音色の表現:色彩の交響曲
VI. 感情的・プログラム的物語:死の予感
VII. 作曲技法における革新:境界を押し広げる
VIII. 批評的受容と演奏の遺産
IX. 結論:不朽の傑作
引用文献はWikipediaを始めとし、youtubeも含めた多様な媒体を含み、言語も英語・日本語の両方に渉り、その数は37にも及ぶもので、Web検索技術との高度な融合を強みとするGeminiの面目躍如といったところでしょう。
その内容も、細部には突っ込みどころはあるでしょうが、これまでの生成AIの出力からすれば格段に充実したものと言え、その程度はGemini Deep Researchが先行して生成したマーラーの「後期様式」論と比べても勝ったものと感じられます。その原因は、マーラーの「後期様式」論で与えたプロンプトが具体的で議論の組み立てを含み、生成AIにはその議論をサポートするような情報を検索し、肉付けをすることが求められていたのに対して、ここでのプロンプトは内容上の制約を含まず、楽曲の個別楽章についての様々な視点について幅広く情報収集し、それを網羅的に並べていくことができるという、与えられた問題の性質の違いに依る部分が大きいように思います。要するに今回の問題の方がより生成AI向きの課題であったという面が認められるように感じます。
とはいうものの、調査された文献の数とその結果を文章にまとめあげる能力は際立ったものであり、最終的に出力された文章も概ね自然なもので、大きな違和感はありません。これがものの数分で生成できるのであれば、それを自分の文書作成プロセスに取り入れようと試みる人が出て来るのも当然のように思います。
しかも人間に同様の調査を指示したときのことを考えた時、そもそも最初に示した「リサーチ計画」を適切に立案すること自体が決して「当たり前」のことではないことに気づきます。この計画が出来てしまえば、後はWeb検索を行い、結果を取捨選択して整理をするという生成AIが従来より得意とするプロセスですから、或る程度の品質のものが出て来ることは想定できますが、「リサーチ計画」の作成の方はその限りではありません。勿論、この点こそが「深い推論」への対応の要でもある訳で、聞くところによれば、プログラムの自動生成技術の応用のようですが、その結果は、ことによれば人間が自分でリサーチを行う際の参考にしたり、人間のリサーチの指導の素材に使えるのではないかと思わせるものです。勿論、専門の研究者はリサーチの達人であり、「リサーチ計画」をほぼ無意識的に、瞬時に組み上げることも造作ないのだろうと思いますが、それを機械にやらせるなれば話は別で、これができるようになったことは画期的な事だと思います。
かれこれ半世紀以上前にまで遡る、かつての人工知能技術を知る者にとっては、汎用問題解決器(General Problem Solver:昔はGPSと言えばこちらのことだったのですが…(笑))と呼ばれる推論技術(1957年にアラン・ニューウェルとハーバート・A・サイモンが開発)の事を思い起こさざるを得ません。「深い推論」は、論理的思考の模倣を目的としたかつての技術が、大規模言語モデルを支える自然言語ベースの機械学習技術と融合する形で改めてインプリメントされたものと捉えることが出来、かつての人工知能ブームを知るものにとっては強い既視感のあるものですが、そうであってみれば、半世紀以上に亘る人工知能研究の蓄積が、ようやく実用的なレベルをもたらしたという見方も出来、感慨深いものがあります。
更に驚くべきは、内容の精度が飛躍的に上がっていることで、特にそれが従来とは異なって、記述の詳細度や具体性と両立していることです。具体的には II. 形式構造において「楽曲形式と小節番号」について、III. 主題と動機のタペストリーにおいて「主要動機とその意義」について、更にV. 管弦楽法と音色の表現においては「管弦楽法の特筆すべき点と効果」についてそれぞれ表形式でまとめられているのですが、その内容は具体的であると同時に、作品のどこについて述べているかについて曖昧さがなく、かつその内容の是非には仮に議論があるにせよ、少なくとも明らかなフェイクは見当たりません。特に小節番号と主要動機は或る種鬼門と言って良く、従来の回答で明らかなフェイクであったり、検索結果に出てきた単語を並べただけと思しき、何を指しているかが不明瞭なものが散見されたのとは明らかに一線を画していると思います。
小節番号については、以前のWeb検索なしのChatGPTの生成結果が全くの出鱈目であったことは極めて印象的でしたし、最新版においても、これはこれまでに報告していませんでしたので、以下でご紹介しますが、Claude Sonnet 4が生成した第9交響曲第1楽章の分析レポートが、またしても出鱈目であるなど、実際の作品そのものを調べることなく、「言説の空間」における作品についての二次的な情報、謂わば「うわさ話」を継ぎ接ぎしただけの生成AIの限界を感じさせる部分でしたが、驚くべきことに今回のGemini Deep Researchのレポートにおける小節番号の記述には間違いがなく、(提示された説に全面的に同意するかは別として)その楽式の把握は少なくとも検討に堪えるレベルの妥当性を備えていると言えると思います。
作品の具体的な記述の正確さについてのもう一つの試金石として、調性に関する記述がありますが、従来のものだと第9交響曲全体についてのニ長調→変ニ長調の下降という、所謂「発展的調性」に関する記述が誤って紛れ込んだり、第10交響曲の記述と思しきもの(嬰ヘ長調)さえ出て来たりと極めて問題が多い点でした。ところがこれについても主要動機に関する部分や、和声と調性に関する部分におけるニ長調と二短調の交替、ニ長調と変ロ長調という三度関係が枠組みとなっているという点が指摘されており、その内容は(既に知られたものであり、新規性はないものの)概ね妥当ではないかと思います。
更に様々な引用、参照もフェイクが起こりがちなポイントですが、今回のレポートの内容を確認すると、感情的・プログラム的物語についての部分におけるベルク、バーンスタイン、メンゲルベルク等への参照、作曲技法における引用についての記述での、ベートーヴェンの「告別ソナタ」、ヨハン・シュトラウスの「人生を楽しめ」、および自己の先行作品の引用の指摘、更には代表的な録音についての言及など、取捨選択そのものに異論はあり得るにせよ、参照、引用されている内容にはフェイクの混入は見られず、従来の回答とは一線を画するものになっています。
全体として、今回のGemini Deep Researchのレポートは、最新の生成AIの性能向上を強く印象付けるものであったように感じます。勿論、細部を検討していけば瑕疵を指摘することはできるでしょうが、従来の検証結果と比較した時にその質の高さは際立っているように感じ、率直に言ってここまでのレベルのものが出て来るとは想像していなかったこともあって、驚きを禁じ得ませんでした。
* * *
今回のGemini Deep Researchによる第9交響曲第1楽章の分析のレベルをより具体的に把握するための参照点として、ここでは Claude Sonnet 4に同一内容をレポートを生成させた結果を以下に示します。
Claudeでは、Geminiにおける2.5 Pro、ChatGPTにおけるo3といった「深い推論」に特化したモデルとしてOpus 4 が既にリリースされており、その文書生成能力についての世評は極めて高いようですが、残念ながら無料版では利用できません。それでも無料版で利用できる標準LLMであるSonnet 4もプロンプトで明示的に指示すればレポートを作成できますし、Sonnet 4ではリアルタイムWeb検索を併用するようになっていることや。先行するRAGプロンプトを与える検証では、インラインモードでの回答で、簡潔で当たり障りのないものですが、それもあってかフェイクのない回答を返している点で際立っていたためレポートを作成させてみたものです。
如何にもClaudeらしい、洒落た副題を持つレポートが生成されましたが、残念ながらその内容は、かつてのChatGPT 4oのWeb検索なしのモードでの回答を彷彿とさせるようなフェイクの多いもので、実はこれ自体は紹介の価値がないと考えたため、単独での報告の対象からは除外していたものです。Claudeの現時点での実力を測るのであれば Opus 4 の結果との比較でなければ公平を欠くとは思いますが、今回のGemini Deep Researchの出力の質が際立っていることは確認できるのではないかと思いますし、それだけではなく比較によって、今回のGemini Deep Researchのレポートの質を支えているものが何であるかを窺い知ることもできるのではないかと思い、ここで取り上げることにしました。
Gemini Deep Researchの特徴としては、リアルタイムWeb検索が強力であり「深い推論」プロセスとの統合度が高いことが挙げられます。人間がWeb検索を行う時も、最終目的に照らして、一旦仮に目的を設定しWeb検索をして、その結果が意図に適ったものであるかどうかを判断し、必要に応じてキーワードを変更したり、検索結果をどこまで見るかを変えたりすることを繰り返しながら目的の情報に辿り着き、更にそうして得られた情報に基づいて次の情報検索を行うプロセスを段階的に行うことによって最終的に必要とされる一連の情報を取得するといったステップを踏みますが、Deep Researchの「思考プロセス」はまさにそれを模したものと言えます。
一方「幻覚(Hallucination)」の原因の最大のものは学習データに必要な情報が不足していることです。生成AIは基本的には事前学習結果に基づき最も確からしい文字列を確率的に生成しますが、情報が或る程度以上存在すればそれらの隙間を補完するように妥当な推定をすることもある反面、情報が不足していれば誤った推定が行われることになります。最新の生成AIの基盤となっている大規模言語モデルはバージョンが上がるたびに飛躍的に性能を向上させており、そのことは本検証においても同一サービスの前のバージョンと最新のバージョンの回答を比較することで確認してきました。しかしながらそれ単独では、事前学習した結果が全てとなります。それを補うのがリアルタイムWeb検索です。リアルタイム検索をすれば事前学習結果における情報の不足を補うことができることから「幻覚(Hallucination)」を抑制することが期待できますが、標準のモデルではWeb検索は一度だけ(但し、適切な結果が得られないと判断されば場合には、検索のし直しを行うことはあるようですが)で、その後直ちに回答の生成に進むのに対して、Deep Researchでは、思考プロセスの進展に応じて新たな検索を繰り返し行うことで、より精度の高い情報を取得することが可能になっていると考えられます。
リアルタイムWeb検索の併用により、事前学習結果における情報の不足に一定のレベルで対応できることは、例えば以前はWeb検索を行っていなかったChatGPTがフェイクを連発していたのが、Web検索を併用するようになって、見違えるように回答の精度が向上したことを本企画のこれまでの検証で確認しています。しかしながらレポート作成のような幅広い情報と、内容の整理、文章の組み立てが必要な課題の場合、一度だけのWeb検索・回答生成では精度に限界があります。このことは同一課題に対する最新版のリアルタイムWeb検索を併用した標準モデルの回答とDepp Researchの結果の比較によって明らかになります。既にマーラーの「後期様式」についてのレポートでも比較対照として標準モデルの検証を行い、その結果をDeep Researchの結果と比較することでその違いを確認してきていますが、特に今回の第9交響曲第1楽章の分析は、本企画の初期段階から繰り返し検証の題材として用いている課題であり、また文書生成を特に得意をするとされるClaudeの最新版標準モデルの結果との比較を行うことで、Deep Researchとの違いを改めて確認できたと考えます。
その上で改めてGemini Deep Researchのレポートを評価した時に感じるのは、それが現在の生成AIの基本的な仕組みに由来する制約、即ち、「言説の空間」のみを対象とし、「音楽」そのものにアクセスすることなく、Web上に存在する「言説」を整合的に編集してレポートを作成するという前提の下では既にかなりの水準に達していることで、同一の条件で同一の地平で人間が行った場合と比較しても、人間のそれに迫るレベルのものとなっていることに改めて驚かされます。それが人間には及びもつかない短時間で、人間には困難と思われる程の大量の情報を収集により実現したことを思えば、或る意味では人間を既に凌駕している面もあると認めざるを得ないと思います。
* * *
しかしその一方で、Web上の「言説の空間」のみを対象とし、或る研究にとっては「一次文献」にあたるものも含め、Web上には現時点では存在しない膨大な書籍へのアクセスができず、二次文献についても膨大な先行研究の蓄積へのアクセスは行えないといった点に由来する限界も感じずにはいられません。特にそのことは、前回報告したマーラーの「後期様式」に関するレポートと、今回の第9交響曲第1楽章の分析を比べた時に強く感じられます。既に上でも触れましたが、両者を比較した時、今回の第9交響曲第1楽章の分析の方が分量も多く、話題も豊富であり、充実しているのは明らかです。その理由はこれも既述の通り、前者に比べて後者の方が課題が一般的であり、その分多様な情報を盛り込む余地が多く、Webでより多くの多様な情報を取得できる可能性が高いからであると考えられます。
一方マーラーの「後期様式」論は、マーラーの作品についての或る特定の視点に立った分析・論考を求めるもの(そもそもどの作品が対象となるか自体について判断が求められる)であり、幅が狭い分、深く掘り下げることを要求されるものです。実際、Gemini Deep Research の出力したレポートも、ジンメルやアドルノの議論のサーベイについてはかなりしっかりと行っており、結果として精度の高い内容となっていると思います。しかしながらあくまでもその内容はWebで得られる情報に限られるため、例えばいずれもWeb上で公開されていないジンメルのゲーテ論やアドルノのマーラー論そのものには当然アクセスできず、そうした「一次文献」に対する独自の読解に基づく独自の視点の提示というのは現状のWeb上のリソースの状況に基づく限り、原理的にあり得ません。
更に「音楽」そのものに接地しておらず、「言説の空間」の中を動き回ることしかできないこと、別の見方をすれば、自分で音楽を聴いて感じることができないことの限界もまた見えてきます。第9交響曲第1楽章の分析のように、(その質はともかく量的には)Web上に分析結果のサンプルが豊富にあり、それらを組み合わせることが出来る場合には比較的問題が目立ちませんが、マーラーの「後期様式」を作品の内容に即して詳細に分析したものの方は圧倒的に数が少なく、あっても部分的、断片的な指摘に留まります。それゆえマーラーの「後期様式論」は、後期様式についてのジンメルやアドルノの見解を要約するといった内容の部分についてはそれなりの内容を生成できても、実際の作品への適用になると、途端にその内容は貧弱なものにならざるを得ません。今後、マルチモーダル化が進んで、音響データ、MIDIデータ、楽譜にアクセスし、それを解析できるようになる可能性はあるでしょうが、現時点に限れば、自分で音楽作品を聴きオリジナルの指摘を行うといった達する可能性が原理的に閉ざされているため、「言説の空間」における二次的な情報の少なさがそのままレポートの貧しさに直結してしまうのです。これは人間の場合には寧ろ他人が手を付けていない領域においてこそオリジナリティを発揮でき、充実した論考を自在に存分に行うことができるのと対照的に思われます。
翻って今回の第9交響曲第1楽章の分析を改めて冷静に見直すならば、そもそも「マーラー交響曲第9番第1楽章「アンダンテ・コモド」の深層分析」というタイトル自体、看板に偽りありで、あたかも深層分析を生成AI自身が行っているかのような言い方は本当はミスリードなのではないかということに思い当たります。なぜなら、実際に「深層分析」を行っているのは生成AI自身ではなく、生成AIは単にWebから「深層分析」なるものを拾い集めて来て集約したに過ぎないからです。従って寧ろタイトルは「深層分析についての調査レポート」と題するべきであり、生成AIの生成するレポートのタイトルには、常に「についての調査レポート」が略されていると考えるべきなのです。
更に楽曲の詳細で具体的な内容が妥当であるのは、そうした情報にWeb検索技術を駆使して行き着くことができたからに過ぎません。新規でオリジナルな指摘というのは見当たりませんが、生成AIがやっていることを考えれば当然のことであり、それは寧ろ無いものねだりであることに気づきます。優秀な人間の研究者であれば、情報のギャップがある部分においてこそオリジナリティを発揮して、大胆で新規性のある仮説を構築し、披露するところですが、現状の生成AIはそのギャップを克服することができず、標準的なモデルにおいては「幻覚(Hallucination)」を惹き起こすことをこれまで何度となく確認してきましたし、Deep Researchではいたずらに或るステップで堂々巡りを行った挙句、リサーチのプロセスを途中で打ち切ってしまうという結果になることを、前回報告のマーラーの「後期様式」論のレポートの第2稿作成の実験において確認しました。「音楽」を対象としている場合は勿論ですが、実際には「音楽」以外でも事情は同じであり、自分がアクセス可能な「言説の空間」の外部の情報、ひいては事象そのものに向き合えないため、オリジナルな分析が可能なところでデッドロックやフェイクに陥ることになってしまわざるを得ないのです。
要するに生成AIのレポートは結局、対象そのもののレポートではなく、対象について既に誰かがWebのどこかで言っていること(言ってみれば「他人の噂」)のパッチワークであり、Deep Researchの本質は調査レポートであって、対象についてのオリジナルな分析ではないのです。(但しこれは、プログラム生成とかデータ分析のような課題について生成AIを適用した場合には必ずしも当て嵌まりません。それらについては別途考察が必要となると考えます。)勿論、調査レポートのニーズというのも世の中にはある(というより、量的にはそちらの方が多いのかも知れません)ので、そうした用途に限れば現行の生成AIは既に十分な性能に達しているのかも知れませんが、AIが想像力やオリジナリティを持つようになったといった類の主張について言えば、本検証の結果はそれに同意するものではなく、寧ろ現時点での技術においては原理的に困難であることを示唆するものですらあるということを確認して、本検証の報告を終えたく思います。
(2025.6.14,15)
0 件のコメント:
コメントを投稿