0.はじめに
マーラーについて生成AIに問い合わせた結果が思わしくないことをうけ、RAG(Retrieval-Augumented Generation)を試作して問い合わせを行い、効果を検証してみたところ、妥当な回答を得ることができたことは、前回ご報告した通りです。前回はRAGが確かに効果を発揮していることを確認するために、「大地の歌」の日本初演を問い合わせるプロンプトへの回答を確認しただけですが、今回はより多くの質問に回答できるようにRAGを改良した結果を報告します。改良の対象としたRAGは前回の報告にて構築したもので、山田育矢(監修・著)・鈴木正敏・西川荘介・藤井一喜・山田康輔・李凌寒(著)『大規模言語モデル入門II』(技術評論社, 2024)の第13章で紹介されているサンプルに基づいたものです。
1.実験の概要
RAGの改良点は以下の通りです。
A.読み込ませる文書の拡大
前回報告したRAGには日本語版wikipediaの記事(文書数29)を読み込ませました。全文書長124,444、構築されたインデクス数は468でした。「大地の歌」日本初演については、偶々wikipediaの記事中に適当な文章があって、それを引き当てることによって正解を返すことができましたが、思いつくままに色々なプロンプトを与えると、作品や伝記的な事柄に関するごく基本的な問い合わせについてもなかなか適切な答が返ってこないことが確認されたため、以下の方針で読み込ませる文書数および文書の種類を増やしました。
- 自分の書いたマーラーに関する記事。ブログ切り替え前のhntl形式の記事185に加え、その後ブログで執筆・公開した記事の一部である90記事をテキスト化して読み込ませました。
- 自分で作成・公開しているマーラーに関する作品表、年表は基本的に表形式ですが、表形式のデータをそのまま与えても、LLMは表の構造に含意された意味を理解することができないため、生成AIで利用するためには何らかの前処理によって加工を行う必要性が各所で指摘されています。もっとも確実なのは、表の内容を自然言語で説明した文章を用意して、それを読み込ませることですが、ここではできるだけ手間をかけずに行うことを優先し、列ラベルと値のペアを行毎に一単位のデータをする変換処理をAIに指示して作成させ、それを用いて変換を行いました。実験環境がColaboratoryであるため、プログラムの作成はColaboratoryのnoteで使えるGeminiを用いて行いました。
- 実際に変換した文書を読み込ませて実験をしてみると、一つの表のデータを一つのファイルにしてしまうと、インデクスの作り方によっては、前後の行のデータが混在することになり、それが原因での回答の誤りが一定の割合で発生することが確認できたため、主要作品の初演(イギリス、アメリカ、日本での初演含む)データについては、1行1ファイルとする変換プログラムをAIに作成させてデータを用意しました。作品・地域毎にファイルが作成されますので、初演情報のみで文書数は65になりました。
- 伝記的情報、著名なエピソードの類への回答ができるように、マーラーについての伝記・回想のうちパブリック・ドメインで利用できるものの中から、ガブリエル・エンゲルの伝記とブルーノ・ワルターの回想を選びました。日本語化するにあたっては、Goolgle翻訳を用い、校正は全く行わない状態で、そのまま読み込ませました。実際にはGoogle翻訳の結果は、未校正の状態だとかなりの誤訳を含みますが、ここでは極力AIにやらせることで手間を省くことを優先しました。いずれも基本的に省単位で文書化したのでエンゲルの伝記の文書数が12、ワルターの回想の文書数が10となりました。
- 日本語版wikipedia 29 (前回報告のRAGはこれのみ)
- 旧ホームページhtml 185
- ブログ記事追加分 90 (画像やデータ分析に関する記事を除外)
- 初演情報(含・英米日) 65 (作品・国別にファイル分割)
- エンゲルの伝記の日本語訳 12 (Google翻訳・未校正)
- ワルターの回想の日本語訳 10 (Google翻訳・未校正)
合計で391文書を読み込ませることにした結果、全文書長は約20倍の2,731,088となりました。
元記事で構築したRAGは、基本的に上掲書のサンプルのパラメータをそのまま用いていました。そのため文埋め込みインデクスの最大文字数は400文字、オーバーラップは最大100文字分で、構築されたインデクス数は468、平均インデクス長は約266でした。今回、特に初演情報をはじめとした表形式データの変換結果をインデクス化した際に、別の作品のデータである前後の行のデータがインデクスの中に混在してしまうことによる誤答が一定の割合で生じたことから、インデクス長を短くすることにしました。結果として今回構築されたインデクスは、最大文字数200文字、オーバーラップ最大50文字で、インデクス数19,321、平均インデクス長は約141となりました。なお、Retriverがプロンプトに対して引き当ててLLMに渡すインデクスの数は3で、これは前回から変更ありません。
一方で、RAGの評価については以下の通りです。
C.評価対象とするLLMおよびRAG
前回は上掲書第13章RAGでサンプルが示されていた以下の2種のLLMを対象としました。
- llm-book/Swallow-7b-hf-oasst1-21k-ja:東京科学大がMeta Llama 2の日本語能力を強化した大規模言語モデルであるLlama 2 Swallowシリーズの最も基本的なモデルであるSwallow-7b-hfに対して、同書11章で紹介されている指示チューニングを行った独自モデル。
- llm-book/Swallow-7b-hf-oasst1-21k-ja-aio-retriever:llm-book/Swallow-7b-hf-oasst1-21k-jaをベースとして、上掲書13章3節で行われているAI王データセットを用いた指示チューニングを行ったモデル
- (本実験) Swallow-7b-hf-oasst1-21k-ja+gmdoc1 (gmdoc1):今回構築した文書拡張版RAGに問い合わせ
- (対照実験1) Swallow-7b-hf-oasst1-21k-ja+wiki (wiki):前回構築した日本語wikipediaベースのRAGに問い合わせ
- (対照実験2) Swallow-7b-hf-oasst1-21k-ja (Swallow):直接LLMに問い合わせ
- 「大地の歌」の日本初演は?
- マーラーの「大地の歌」の日本初演は?
- マーラーの「大地の歌」はどこで書かれたか?
- マーラーは第8交響曲についてメンゲルベルクに何と言いましたか?
- マーラーが死んだのはいつか?
- マーラーはいつ、誰と結婚したか?
- マーラーがライプチヒの歌劇場の指揮者だったのはいつ?
- マーラーがプラハ歌劇場の指揮者だったのはいつ?
- マーラーがハンブルクの歌劇場の楽長になったのはいつ?
- マーラーの第9交響曲の日本初演は?
- マーラーは自分の葬儀についてどのように命じたか?
- マーラーの「嘆きの歌」の初演は?
- マーラーはどこで生まれたか?
- マーラーの第9交響曲第1楽章を分析してください
- マーラーの第10交響曲の補作者は?
- マーラーの第2交響曲の最初の録音は?
- マーラーの「大地の歌」のイギリス初演は?
- マーラーの「交響曲第6番」はいつ、どこで初演されたか?
- ブラームスはブダペストでマーラーについて何と言ったか?
- (本実験) gmdoc1:33/38(△:11,14,17, ×:6, 〇:残り全て)
- (対照実験1) wiki:11/38(〇:1,5,15,18, △:9,11,12, ×:残り全て)
- (対照実験2) Swallow:3/38(〇:5, △:14、 ×:残り全て)
- gmdoc1_result.pdf:本実験・対照実験1,2における回答と評価の一覧。
- gmdoc1_retriever.pdf;本実験で各プロンプトに対して検索されたインデクス(3種)。
- 「大地の歌」の日本初演は1941年1月22日、東京のNHK交響楽団による演奏で、ジョゼフ・ローゼンストックが指揮した。
- マーラーの「大地の歌」の日本初演は、1941年1月22日、東京のNHK交響楽団による演奏で行われた。指揮はジョゼフ・ローゼンストック、ソプラノは四家文子、バリトンは木下保であった。この演奏会は、当時の日本の音楽界に大きな影響を与え、マーラーの作品の普及に貢献した。
- マーラーの「大地の歌」は、1908年にイタリアのドロミテ・アルプスで作曲された。
- マーラーはメンゲルベルクに、交響曲第8番は「宇宙全体が調和して響き始めると想像してください」と語った。
- マーラーは1911年5月18日に亡くなった。
- マーラーは1902年3月10日にアルマ・シントラーと結婚した。
- マーラーがライプチヒの歌劇場の指揮者だったのは1886年8月から1888年10月までです。
- マーラーは1885年から1886年までプラハ歌劇場の指揮者だった。
- マーラーがハンブルクの歌劇場の指揮者になったのは1891年3月26日のことで、彼は1897年までその地位にあった。
- マーラーの交響曲第9番は1967年4月16日に東京文化会館でキリル・コンドラーシン指揮モスクワ・フィルハーモニー管弦楽団によって初演された。
- マーラーは自分の葬儀について、以下のように命じた:
1.マーラーは、自分の葬儀には、伝統的なウィーンの市民の行列や、大勢の市民による弔辞は必要ないと考えていた。2.マーラーは、自分の墓石には自分の名前だけを刻み、自分の希望を記した簡潔な碑文を刻むように指定した。3.マーラーは、自分の葬儀には、(…以下1の繰り返し)
※誤りは含まれていないが、3は1の繰り返しで不要なため△、
- マーラーの「嘆きの歌」の初演は、1901年2月17日にウィーンでマーラー自身の指揮によりウィーン・フィルハーモニー管弦楽団によって行われた。
- マーラーはオーストリアのカリシュトで生まれた。
- マーラーの交響曲第9番第1楽章は、マーラーの交響曲の中で最も有名な楽章のひとつである。この楽章は、マーラーの死の直前に作曲され、彼の音楽の集大成として意図された。この楽章は、(以下、繰り返し。)
- マーラーの第10交響曲の補作者はデリック・クックです。
- マーラーの交響曲第2番の最初の録音は、1924年にオスカー・フリートが指揮したSPレコードである。この録音は、マーラーの交響曲の初めての全曲録音であり、また、マイクロフォンを用いた「電気録音」技術が登場する前夜の、所謂「アコースティック録音」と呼ばれる録音技術を用いての収録としては最後期のものである。この録音は、交響曲第2番のそれとしてだけでなく、マーラーの交響曲の最初の録音
- マーラーの「大地の歌」のイギリス初演は、1914年1月20日にロンドンのクイーンズ・ホールで行われた。指揮はヘンリー・ウッド、オーケストラはクイーンズ・ホール管弦楽団、ソリストはドリス・グッドールとジェルヴューズ・エルヴス。この演奏会は、第一次世界大戦の勃発により、マーラーの死後に作曲された「大地の歌」のイギリス初演としては、マーラーの意図した形ではないことに注意
- マーラーの交響曲第6番は1906年5月27日にドイツのエッセンで初演された。
- ブラームスはマーラーについて、「本物のドン・ジョヴァンニを聴くにはブダペストに行かねばならない」と言ったと伝えられている。
0 件のコメント:
コメントを投稿