お知らせ

「アマチュアオーケストラ演奏頻度」ページに2024年分を追加し、更新・公開しました。(2024.12.30)

2025年3月13日木曜日

マーラーについて生成AIに聞いてみた(0):はじめに(連載開始にあたって)(2025.3.21更新)

 近年の人工知能(AI)技術の進展・システムの性能向上は著しく、特にOpenAIが2023年に提供を開始した大規模言語モデル(LLM)GPT-4およびそれに基づく対話形式のアプリChatGPTのアップデート以来、特にデコーダ形式のTransformerを基盤とした大規模言語モデルを用いて、テキストを「プロンプト」として入力すると後続するテキストを推論・生成するシステム(所謂「生成AI」)をアシスタント・エージェントとして活用する可能性が現実のものとして取り沙汰されるようになってきました。大規模言語モデルの規模と性能の向上の関係については、スケーリング則が成り立つことがこれまでにも言われてきましたが、それだけではなく或る種の創発による相転移的な性能向上も近年確認されているようです。本稿執筆時点では、規模の拡大に対して性能向上が頭打ちになる傾向が現れてきており、スケーリング則が成り立たなくなってきているのではないか、その原因として基盤となっているTransformerのモデルの限界に到達したためではないかとか、インターネット上で利用可能なリソースをほぼ使いきってしまったことが原因ではといったことも言われていますが、既に現時点までで、従来の人工知能研究の常識を上回る結果が出ていることは確かだと思われます。

 思い起こせば「深層学習」と呼ばれるニューラルネットワークを用いた機械学習手法が最初は特に画像処理の分野で画期的なブレイクスルーをもたらして、にわかに人工知能技術が再び脚光を浴びるようになったのはもう10年以上前のことでした。特に印象的だったのは、まだ人間に勝てるプログラムができるのは10年先だと言われていた囲碁において、AlphaGOが人間の名人を完全に凌駕するという結果を出したことで、それは丁度10年前の2015年のことでしたが、その時に受けた衝撃の強さは未だに昨日の出来事のように思い出されます。それでも自然言語処理や時系列のデータの扱いのレベル向上は従来のリカレントネットワークベースのモデル上では難しいだろうと言われていたのですが、これも2017年に発表されたTransformerベースの大規模言語モデルの登場により状況が様変わりしてしまいます。それまでは実用にならないレベルであった機械翻訳の性能が飛躍的に向上し、更には2022年に登場したChatGPTをはじめとする生成AIベースのチャットボットは大きな社会的反響をもたらしました。それでも3年前の登場直後は、回答の精度の問題などもあって懐疑的な意見もあったのですが(実は私もどちらかというと懐疑的な立場でしたので、例えば2019年執筆の記事「第10交響曲への言及1件(アルフ・ガブリエルソン「強烈な音楽経験による情動」)」において第10交響曲のAIによる補筆完成について述べた懐疑的な見解を、2022年の記事「デイヴィッド・コープのEMI(Experiments in Musical Intelligence)によるマーラー作品の模倣についての覚え書」においても再確認したような経緯があるのですが)、2024年にGPT4が登場にするに至って、従来は困難だと思われてきた段階的な推論が必要とされる問題についても人間以上のパフォーマンスを圧倒的な速度で解いてしまい、自然言語での指示により、文章の生成・編集のみならずプログラムのコード作成や検証まで行える能力が獲得されたことが広く認識されるようになりました。今や、古典的AIが目標としてきた高度な推論のような領域が、少し前までは最も技術的進歩が遅いと考えられていた自然言語処理の枠組みの中で解決できてしまいつつあるのは思えば皮肉なことです。その一方で、これも古典的なAIやロボティクスの問題であった現実世界(リアル・ワールド)への記号接地(シンボル・グラウンディング)の問題を恰もすっ飛ばしてしまい、記号の世界のネットワーク上で全てが完結してしまうかに見える状況は、ソシュール的な記号論の妥当性が示されたかのようでもあり、哲学的にも興味深い問題を提起しているように思われます。記号の(人間的な意味合いでの)「意味」をわかっているとは到底思えないにも関わらず、いわゆる「分布仮設(distribution hypothesis)」ベースの素朴で単純な意味理解に基づくモデル(その替わりに規模は極めて大きいのですが)上で、高精度な正解が得られてしまうのは如何にしてなのか、あるいはまた、単に単純に規模を大きくしただけでは起こらない相転移現象が、モデルのパラメータの値がどのように変化した結果として生じるのかのメカニズムについては未解明で、まだこれから説明されるのを待っている状況であり、今後の分析・研究が俟たれます。

 そしてそのような理論的な問題は措くとしても、その結果として、これまでは理論的な極限の如きものとして想定されるだけで、どちらかといえばSFの世界の中での話に過ぎなかった汎用人工知能が俄かに現実的なものになってきたことは否定できません。勿論、かつての深層学習技術が直ちに汎用人工知能に繋がるものではないのと同様、現在の生成AIを支えているTransformerベースの大規模言語モデルの規模を単に拡大し続けることによってシンギュラリティが実現するわけではない(本稿冒頭でスケーリング則について触れたところで述べた通り、既にその兆候が現れているようですし)と考えますが、数年前の予測を良い意味で裏切る大幅な性能向上が既に現実に達成されている以上、シンギュラリティを空想として否定することは最早できなくなったと認識すべきタイミングが来たように思います。より現実的な領域では、これまで複雑で機械化・省力化が困難であるとされてきた様々なタスクが、AIによって支援され、代行されるようになるのは間違いありません。生成AIが芸術や美学にもたらす影響は一先ず措いても、そうしたことを議論する地平の方がこれまでになくドラスティックに変貌してしまう、しかもごく短期間でそうなってしまう可能性に目を瞑ることはできなさそうです。

 かつては主として楽譜や書籍、雑誌、公演プログラム、LP・CD・DVDといった録音媒体に添付されたリーフレットに拠る他なかったマーラーについての情報は、インターネット環境の発達とともにWeb上に蓄積されるようになり、いつでも誰でも容易に取得できるようになってきて、私のような市井の愛好家が受けた恩恵は莫大なものがありますが、今後は従来の検索に替わって、生成AIに質問・指示をすることで情報の収集を行うようになるでしょう。のみならず収集した情報の整理や分析、調査や分析結果のまとめに至るまで、そのために必要となる場合には、データ分析やプログラムの作成も含めて、AIエージェントの支援によって行うことになっていくものと思われます。

 それとともに「生成AI」が返す回答が正しく適切であるかどうかが大きな問題としてクローズアップされ、「アラインメント」と呼ばれる調整を如何に行うかが技術的課題となっています。特に「幻覚・ハルシネーション(Hallucination)」と呼ばれる、AIが誤った情報や架空の内容を生成する現象は、モデルの大規模化によって初期に比べれば改善傾向にあるとは言いながら、まだまだ頻発するため、特に大きな問題となっています。

 それは例えばマーラーについての情報収集に生成AIを活用することを考えた途端に、現実の問題として降りかかってくることになります。そこで「マーラーについて生成AIに聞いてみた」と題して、思いつくままに生成AIに対してマーラーについての質問をした結果を報告していきたいと思います。

 とはいえ、ドメインを限定した場合の生成AIの回答精度をシステマティックに調査し、分析・評価することを目的としているわけではありません。大規模言語モデルの開発は活発に行われており、次々と新しいモデルが登場し、性能の向上は(少なくともここしばらくは)日進月歩と言って良いと思います。例えば、今日試したらだめでも、半年後にバージョンアップされた後に同じ質問をしたら正しい答えが返ってくるということは普通に考えられます。ある時点のある商用サービスに限定しても、多くの場合にはサービスには費用に応じた幾つかのグレードが用意されており、グレードに応じて利用できるモデルが異なったり、選択の幅が変わるので、それに応じて回答も当然変わってきます。また生成AIから適切な回答を得るためには、質問の仕方(「プロンプト」の与え方)に工夫が必要で、その巧拙によって回答は変わりますので、調査・研究ならばそうした側面についての考慮・準備も必要でしょう。

 上記のような点を踏まえた上で、ここではあくまでも「ある時点で、一般的に利用可能なある生成AIに、マーラーに関するこのような質問をしたら、こんな答えが返ってきて、こんなやりとりになった」という事例を報告することに留めたいと思います。一方で、回答の真偽については、調査可能な範囲でのファクトチェックを行ってコメントしようと思います。最先端では既にインターネット上の利用できる情報はあらかた学習してしまったのではないかというようなことがまことしやかに囁かれる程、大規模言語モデルの規模は巨大化していますが、それでもなお、人類が言語情報としてこれまで蓄積してきた情報のごく一部に過ぎないのは明らかでしょうし、利用できる情報が誤っていたり、相互に矛盾する複数の情報があったり、不十分なために正しい答が生成できない場合も多々あるでしょう。生成AIの仕組み上、ある一定の確からしさを持つと判断すれば(「彼」にとっては正解である)それを返してくるため、回答の利用にあたってはファクトチェックが欠かせないのが現実です。マーラーは半世紀前に比べれば、「メジャーな」作曲家になり、情報も飛躍的に増大しましたが、Web上の情報について言えば、まだまだほんの上澄みに過ぎないという言い方さえできるのではないかと思います。幸いマーラーについては、例えば他の作曲家と比べれば多くの知識の蓄積もあり、また手元にあって利用可能な情報もそれなりにあるので、何とか一定程度のファクトチェックなら行えそうですし、情報提供・共有することに(間違いについては注意喚起の意味合いも含めて)一定の意義も認められるのではないかと考えます。

 対象とする生成AIは以下の通りです。

  • ChatGPT(Web版):GPT-4ominiが標準(利用制限があるがGPT-4oを利用制限内で利用)
  • Gemini(Web版):Gemini 2.0 Flash
  • Claude for Windows ver.0.8.1(Windows版アプリ):Claude 3.7 Sonnet

いずれもPCで無料で利用できるバージョンを用います。利用できるモデルはデフォルトのものとし、個人向けカスタマイズのコンフィギュレーションやアプリケーション連携はせずに利用します。報告にあたっては問い合わせをいつ行ったかを記載することとし、必要に応じて使用されたモデルも記載します。現時点ではチャットの記録は保存することとし、フィードバックのオプトアウトはしていませんが、これは現時点での履歴のバックアップが済んでいないことが主たる理由であるため、履歴の保全が完了した後はオプトアウトする可能性もあります。もっともここで行う質問に個人情報や機密情報が含まれる可能性は極めて低いことから、フィードバックを優先するかも知れません。なお生成AIは記録の保存の有無によらず、一定の期間、一連のチャットを記憶しており、それらも文脈情報として利用して以降の回答を生成しますので、文脈が異なれば違った回答が返ってくる可能性もあります。

 ここでは手始めに、上記生成AIに対して最初にした質問とその回答を例示することにします。いずれの生成AIも正しい答えを返していると言っていいと思います。Geminiのみ、初演日付を1910年9月12,13日としていますが、実際、初演の12日の翌日13日の再演が公演当時のプログラムで確認できるので、この情報は間違いではなく、同一プログラムを複数日にわたって公演する場合の扱い方の違いに過ぎません。一方で、博覧会のイベントの一つとして企画されたというのも正しいですが、それを「音楽祭」と呼ぶかどうかについては議論があるかも知れません。しかし実際には、この博覧会において、マーラーの新作のみならず、ベートーヴェンの「ミサ・ソレムニス」を始めとして、合唱と管弦楽による大作も演奏されたようであり、「音楽祭」という性格も兼ね備えていたと言って良いようなので、少なくとも誤りとは言えないだろうと思います。ということで、今回取り上げた最初の質問については、いずれも合格点だったわけですが、既に本稿執筆時点で、他の幾つかの質問に対しては正しく答えられないことも確認できていますので、順次紹介していきたいと思います。

(2025.3.13 公開, 3.20更新)

*     *     *

プロンプト

マーラーの第8交響曲はいつ、どこで初演されましたか?

ChatGPT(2025.3.9)

マーラーの交響曲第8番は、1910年9月12日ミュンヘンで初演されました。この公演は非常に大規模な編成で行われ、「千人の交響曲」とも呼ばれるようになりました。

Gemini(2025.3.8)

マーラーの交響曲第8番は、1910年9月12日と13日にドイツのミュンヘンで初演されました。

  • 場所: ミュンヘン
  • 時期: 1910年9月12日、13日
  • 指揮者: グスタフ・マーラー自身

この初演は、「ミュンヘン博覧会1910」という音楽祭の一環として行われました。演奏には1000人を超える演奏家が参加し、「千人の交響曲」という愛称で知られています。

Claude(2025.3.10)

マーラーの第8交響曲(「千人の交響曲」とも呼ばれる)は、1910年9月12日にドイツのミュンヘンで初演されました。この初演はミュンヘンの展示会場で行われ、マーラー自身が指揮を担当しました。

この交響曲は非常に大規模な編成を必要とし、初演では約1,000人の演奏者(オーケストラ、合唱団、ソリスト)が参加したことから「千人の交響曲」というニックネームが付けられました。初演は大成功を収め、マーラーの生涯における最大の音楽的勝利の一つと言われています。


0 件のコメント:

コメントを投稿