お詫びとお断り

2020年春以降、新型コロナウィルス感染症等の各種感染症の流行下での遠隔介護のため、公演への訪問を控えさせて頂いています。長期間に亘りご迷惑をおかけしていることにお詫びするとともに、何卒ご了承の程、宜しくお願い申し上げます。

2019年12月22日日曜日

マーラー作品のありうべきデータ分析について:調性推定を巡る対話

 以下の文章は、以前に書いた記事「MIDIファイルを入力とした分析の準備」https://gustav-mahler-yojibee.blogspot.com/2019/12/midi.html に対してお寄せ頂いた分析手法に関する疑念に対する私の「応答」です。疑念は、いわゆる音楽学の立場からの極めて正当なものであり、多くの方が多少なりとも同じような疑問を抱かれていると想像されること、そして個人的には頂いた質問に対する答えを記す過程で、クラムハンスルの手法の適用のどこに私がひっかかっていたかが明確になったことから、その内容を、私なりに整理・編集した上で以下に公開します。問い・応答のいずれも元のままではなく、いわば仮想的に再構性された「対話」であることにご留意頂けますようお願いします。

*   *   *
1.調性音楽は文化的な構築物であり、かつ言語のように階層的な構造を持つ。喩えてみれば、語以上のカテゴリの問題を、音素レベルで分析するようなもので、要素に還元していく自然科学的なアプローチには限界があるのではないか。
まず、誤解はないと思いますが、私もさすがに区間内の音の頻度の分布で調性が完全に説明できると考えてこの分析をやっているわけではありませんし、それはクラムハンスル自身も同じだと思います。ご指摘の点は、事実としてまさにその通りであると私も考えています。また、音楽情報処理の分野でも、自然言語のアナロジーで音楽を分析するアプローチも行われています。調性の推定に関連したところでは、例えば Fred Lerdahl の Tonal Pitch Space, Oxford University Press, 2001 では、著者が言語学者の Jackendoff と構築したGTTM(Generative Theory of Tonal Music 生成音楽理論)に基づく分析アプローチが提案されています。

 ただし、自然言語に比べると音楽の統語論に相当するものは、遥かに自由度が大きいこと、その一方で、自然言語ではいわゆる「文」のレベルがあり、その上に「テキスト」の階層があってその区別が明確なのに対して、音楽の場合にはその区別が必ずしも明瞭ではなく、いわゆる楽式に相当するレベルについて、自然言語の単純なアナロジーが通用しなさそうな点など、類似している点がある一方で、相違点もまた大きいようです。私見ですが、言語の場合には、書き言葉と話し言葉の区別がありますが、音楽は、情報処理上の観点からすると後者に近く、更に文字言語と音声言語の区別についても後者に近いではないかと思います。

 そして実を言えば、私のように旧世代のAI研究を齧ったことがある人間が、今日の統計処理ベースのAIに対して抱くのは、まさにご指摘のような点なのです。(ちなみに付言すれば、近年のAIの得意・不得意ということがだんだんと整理されてきていて、どうやらやっぱり「言語処理は不得意」という、至極まっとうな結論が共通認識になりつつあるようで、ある意味ほっとしています。そしてその理由を突き詰めれば、ご指摘のような性質が、現在注目を浴びている手法に適していないということに繋がります。)

 ですから、これでマーラーの作品が分析できた、とは全く思っていません。対象を調性の推定に限定しても、ここでやっている処理は、人間のやっていることのほんの一部だけを取り出していることは明らかですし、得られた成果はと言えば、分析のための素材が一つ手に入ったくらいにしか考えていません。あくまでも分析の準備であって、分析そのものはこの先にあるものと思っています。
 
 あえてオリジナルな改良とかをせずにクラムハンスルのアルゴリズムをそのまま用いたのは、それなりに知られたもののようなので、それをマーラーの楽曲に適用したことが(他に既に行われていれば全く価値がなくなりますが)、一般的な資料としての価値を持つのでは、というような発想によります。もう一つ言えば、この手法は非常にシンプルですから、或る要素だけでどこまで行けるかということを、これまたマーラーのケースについて確認することに意味があるのではなかろうかと考えた次第です。


2.調性音楽の階層的な構造やその構造に基づく規則は、聴き手にも共有されており、それを前提にしてはじめて暗示とアイロニーのようなものが成立する。そうした前提なしに、音楽が多義的であったり曖昧であったりといった側面を捉えることはできないのではないか?
こちらもご指摘の通りだと思います。但し、ルールの共有の程度は様々だと考えます。作曲者や優れた音楽学者と経験のない子供では差があって、私のような、マーラーを聴いた回数だけは多くても、きちんとした楽理の教育・訓練を受けていない聴き手は、更にまたちょっと違うかも知れません。そして私は、どちらかといえば、子供の立場で眺めたいと思っていることは、既に別に記載した通りです。無意識にルールを学習可能、ないし、或る程度学習しているけど、ルールを「理解」できているわけではない聴き手にとってどう聴こえるのか、自分がマーラーの作品の調的過程をどう感じ取っているのかの近似値のようなものを取り出せないか、と思っています。上掲の Lerdahl の分析とかもそうですが、多くの分析は、楽典の知識を前提とし、例えばある区間の調的文脈が別途分析によってわかっているものとして(つまり推定の入力として)いる場合が多いように思います。しかし或る意味では楽典の知識を駆使した分析は、ここで想定している現象学的な問題設定に対しては、先回りしていることになるように私には思われます。またこのことは、創作の水準での分析か、聴取の水準での分析か、ということにも関わると思います。例えば、Timoczkoは、自分の理論が創作の側の理論であることを明確に述べています。しかしここでの関心は、聴取の水準なのです。従って、理論はできるだけ前提としないで、聴こえる音のみから分析するというのが(現実には完全にそうであることは不可能にしても)、理念的な原則となります。

(もっとも、実際問題としては、楽典の知識を全体とした分析をやろうとしたら、私の能力では、余りに手間のかかる作業となって、ちっとも結果が出ないことになりそうですし、マーラーという特殊な事例研究でなければ、実はAIの分野では、既に半世紀前に、非常に有名なウィノグラードの研究があって、楽典の知識を総動員したらどこまでやれるかについては、既に、最初の段階で天才がやりつくしてしまっているというのもありますが。)

 上記を踏まえた上で、マーラーに関して、クラムハンスルの調的階層を用いて調性推定をやることの意味に戻りますと、以下のようになると考えます。

 まず、クラムハンスルの調的階層というのは、ある意味ではどっちつかずのものだと考えます。つまり、ある意味では、還元・再合成という操作でありながら、それをやる際に
認知心理学的な実験の結果に依拠するので、ある文化的な構築物のルールをある程度共有している平均的な「聴き手」を想定していることになります。これは科学的アプローチを文化という名の「予見」を排したアプローチと捉え、人文系的な文化的な構築物についての知識(=解釈学的には「前了解」とされるもの)を前提としたアプローチとの対立を厳密なものと捉える観点からは、科学的アプローチの中に人文学的アプローチを(統計情報という形でですが)いわば「密輸」しているとも言えるかと思います。

 科学的アプローチで行くなら、そうした「密輸」はやらないで、とことん予見を排したアプローチをすべきであり、調性の推定を、例えば音響に関する法則のような、文化非依存のものだけに依拠してやればいいのですが、私はそもそも音楽というのは物理法則のようなものではなく、文化的な構築物だと思っているので、それには原理的な限界があると思っています。(何しろ、意識のような一般的にはそうでないと思われているものについても、ある程度は文化的・社会的な構築物であると思っているくらいですので…)従って、科学的な還元主義的な発想からは循環に見えても、それは事柄の性質上、寧ろ当然だと考えています。(これも「補遺への追記」に記載した通りです。)まさに解釈学的な事柄に付きまとう循環だと思います。

 「マーラー作品のありうべきデータ分析について:補遺への追記」(https://gustav-mahler-yojibee.blogspot.com/2019/12/blog-post_12.html)の中で検討したのもまさに上記の点で、実はその点が明確になっていないと感じて、公開後に追記を行っていますが、それよりも、替りにその末尾を以下に自己引用することで、私の立場の再確認をしたく思います。

「データに基づく分析をやろうとすると、優れた音楽家や音楽学者でない、平均的な聴き手が無意識に行っている情報処理ですら、その複雑さに圧倒されてしまいます。更に言えば、(それ自体が優れた研究者が苦心の上に編み出したものであって、そこでの捨象の操作の背後にある情報量の大きさに留意するのは勿論ではありますが、その一方で)認知心理学実験で用いられるような単純化されたものではないマーラーの作品のようなものを「聴く」時に背後で起きている情報処理のプロセスの複雑さは、途方もないものだし、そのプロセスを支えているシステムの複雑さ、生物としての、社会的存在としての、美的主体としてといった階層の深さには目眩さえ感じます。ましてや優れた音楽家や音楽学者が直観的に掴み取る、ある作品の特徴を機械に取りださせるというのは途方もない企てに感られます。(そういうことからも、AIと音楽との関係におけるチューリングテストは、人間が聴いてそれっぽい音響を自動生成することがでるかどうかといったレベルにはなく、音楽を聴いて、それに感動したり共感したりすること、その感動や共感について分析できることのレベルにあるのではと思えてならないのです。)その全てを踏破することなど思いも及ばぬことですが、それでもなお、そうした企てへの第一歩と呼べるようなものでなくても、そうした歩みへのせめて呼び水となることを願って、今後も少しずつ手を動かして、その結果を公開していきたいと考えているような次第です。」

 更に言えば、データに基づく分析というのは、あくまでも「ここでの」立場に過ぎず、それが私の通常の聴取の態度というわけではありません。実のところ、私は常にはもっと「情緒的」に、或いは「生理的」に、精神的なバランスをとるための或る種の「治癒」として音楽に接しているような気がします。何しろ私の場合には、色が見えたり、風景が見えたり、臭いや湿度を感じたりといった「クオリア」の印象が圧倒的です。この点では、残念ながら、アドルノの『音楽社会学』における聴取の類型論上、あまり褒められた類型には属さない、結局のところ創作者や知識ある分析者の立場では聴いていない自分の聴き方を確認したいということなのかも知れません。

 ただ、マーラーに関して言えば、伝統的な図式では説明できない側面があり、アドルノがDurchbruch / Suspension / Erfuellung といった類概念を持ち出し、自ら「小説」に類比した独自の時間的構造にアプローチしようとしているという消息もあり、伝統的な楽曲分析とは違った分析のツールが必要ではないかと感じていることは、これまで繰り返し記述している通りです。まだまだ先は長いとはいえ、そうしたアプローチの一つとして、データに基づく分析というのを位置付けているという点も付言したく思います。つまり、調性音楽の理論があまりに高度に完成され、合理的にできているが故に、その末期に出現した(かつては病的と言われることもあった)マーラーのような事例に接するためには、一旦遠回りをしなくては見えて来ないものがあるのではないか?というように思うのです。

 最後に、音楽理論にしても伝統的な調性音楽の聴き手の統計的平均像にしても、それ自体抽象物には違いありません。しかも科学的に要素から組み上げられたものではありません。寧ろ、ブリコラージュの過程で少しずつ理論化されたものと考えた方がいいように思います。そして別の文化的社会的文脈では、別の音楽があり、やはり理論があって聴き手がいます。ガムランは、倍音列について「合理的」なアプローチをしない、結果として完全五度音程を基礎としない稀なシステムを持っているようですが、それさえも、異なる伝統に属する人間にとって(誤解はあるかも知れませんが、ある程度は)、理解不能ではなく、「音楽」として「了解可能」です。そういった点を踏まえ、自分がそもそも100年後の地球の反対側、「仮象」たる「中国」の更に向こう側に棲んでいる子供としてマーラーに出遭い、(実はこちらの方が時間的には後なのですが)能楽のようなものにも継続的に接し、更には「トータルセリー以後の音楽」に接しつつも、今なおマーラーを聴いていることを思えば、完全には無理でも、せめて異文化接触という現実の状況に即して、できるだけ調性音楽固有の文脈や内部の論理に依存しない形でマーラーの作品を眺めてみたいというのもあります。近年しばしば「ビッグデータ」の時代ということが言われますが、或る意味では「ビッグデータ」に蚕食された世界に生きる者ならではの発想で、(何なら、その「症例」の一つとして、)こういう分析が、それとは最も隔たっていると通常は考えられているマーラーの音楽のような対象に対して行われる、ということでもいいように感じています。

要約すると、ご指摘の点について異論がないにも関わらず、なぜあえてデータ分析のようなことをやるのかと言えば、
  • 理論の知識なしで何が聴こえるのかをシミュレートしたい
  • 規範的な理論からは逸脱と見做される現象の背後にある論理を捉えたい
  • 文化的文脈の外部を意識して、文脈依存性の少ない見方をしたい
ということになるでしょう。そして得られたものは分析そのものではなく、あくまでも分析のための素材である。ということになるでしょうか?


3.調性音楽の意味は時間の中で開示されていくものであり、ここで実施されたような計量的な分析は、多かれ少なかれ時間プロセスを捨象したものではないか。
このご指摘は非常に重要な点かと思います。何しろもともと、これら一連の検討・分析は、その出発点を記した記事、「MIDIファイルを入力としたマーラー作品の五度圏上での重心遷移計算について」(https://gustav-mahler-yojibee.blogspot.com/2019/09/midi.html)でその目論見を記載した通り、時間性の分析をするのが最終目的ですので。実際の分析が懸念に十分にお応えできているかは議論の余地があるかと思いますが、この点は今回の分析では、それなりには配慮したつもりです。

 今回の分析では、拍内で鳴る音については鳴る順序はつぶれてしまい、持続(音価)のみを扱い、或る拍が「何調」に聞こえる、というのを平均的な聴き手の判定の情報を基にして計算します。従って、この点ではご懸念の通りではあります。一方で、次の拍では、一つ前の拍と現在の拍の2区間の情報で計算をします。そしてこうした時間の推移による情報の累積を1小節の区切り迄やります。次の小節に入ると、前の小節の情報は忘れて、同じことを、曲の終わりまで繰り返します。結果的に、小節単位にその小節は「何調」に聞こえるか、というのを順番に求めていることになります。小節内でも前の拍で鳴った音も含めての分析となっていますし、クラムハンスル自身の実験とは異なって、小節毎の推定を、一貫した調性に基づいた作品の冒頭についてのみ行ってその曲の調性を推定する目的で行うのではなく、発展的調性を持つ、曲頭と曲尾が必ずしも同じ調性でない作品の全体に対して行うことで、調的な中心の軌道や、その安定性の変化をトレースしてみようという目的で行っています。推定に用いる情報をローカル(ここでは小節単位)なものに限定しているのは、調性音楽の中でも古典的な作品を範例とした分析ではしばしば前提とされる大域的な調性の枠組みの前提を、ここでは一旦外したかったというのもあります。

 勿論、より多くの情報を見るように、或いは区間内でどういう順番で音が鳴っているのかも見るように、など、色々と改善の方向は考えられますし、区間についても機械的に1小節で区切るのではなく、もっと意味のある単位で、或る時には1拍が単位になり、或る時には数小節が単位になるように区間を適切に変えてやるべきなのでしょうが、これはまた別の問題を解くことになります。即ち、それを機械にやらせるときに、外から「区切りはここ」というのを別途教えるのではなく、入力として受け取った音の情報だけから、自動的に区切りを見つけて、その区間で調性を判定させるようにするにはどうしたら良いか、という問題を解かなくてはなりません。

 というわけで前途遼遠、課題は山積ですが、とにかく最初は機械的にやってみたらこうなりました、というのを公開したということになります。

 なお、この「外から教えない」で「データに基づいて判定させる」という点が一つポイントと考えています。とはいえ、小節の区切りは偶々MIDIデータに含まれていることになっていて使っていいことにしていますが、音響データならそんなものはありません。MIDIの情報というのは12音平均律前提でキーナンバーが振られていることから始まって、ある程度の「フレーム」の下で出来ているわけで、厳密に言えば、「密輸」も程度問題ということになります。例えば調号だってMIDIデータに含めることが出来ます、入っていれば使っても言い訳ですが、こちらは逆に使っていません。調号通りに調が変わるわけではないから、というのもありますが、実際にはほとんどのMIDIデータで調号の情報はまともに入っていない、という現実がある、というのも大きいです。ともかく、でもできるだけMIDIノートの音高と持続の情報だけでやる。小節の区切りは、必ずしも意味の区切りではないので、最後は使わずに済ませたいですが、機械的に簡単に実験するために、手始めとして利用しているとお考えいただければと思います。)


4.例えば、中心音ということでも、単一の音、2つの音が鳴った時点ではそれは明確ではなかったのが、時間的経過の中で新たに出現する音により、徐々に明確化されるということが起きたり、中心音が常に鳴っている、実際に鳴る音はその周囲を旋回するだけ、といった事態はごく普通に起きるが、実際に鳴っている音のデータに基づく分析で、こうした事態を扱えるのか。

 この点も前の点と並んで個人的に重視したい点です。これは特に「マーラー作品のありうべきデータ分析についての予想:発展的調性を力学系として扱うことに向けて」( https://gustav-mahler-yojibee.blogspot.com/2019/11/blog-post_10.html )の後半に書いたことですが、まさに調性が曖昧になったり、潜在的に複数の選択肢があったり、という状況をデータ処理で浮かび上がらせられるような枠組みを探索しています。

 今回のやり方では、(一応、一番相関が高い調性に色をつけてみましたが)、区間ごとに、各調性との相関の推定値を求めています。あるところでは、相関の最大が0.5くらいで、しかも2つの調で同じくらいだとしたら、或る種の宙づりがそこで起きている可能性がある、という具合で、一応、数字によって曖昧さや多義性を扱おうとしています。

 繰り返しになりますが、調的推定は極めて複雑な過程なので、このデータ処理だけで十分ということはなく、例えば別途、和音(和声ではなく音の部分集合、ピッチセットですが、転回形の情報も付けることができます)を取り出すプログラムも作ったので、それと今回のデータを組み合わせれば、上に例示頂いたようなことがデータで語れないか、というように考えています。(2019.12.22公開)

0 件のコメント:

コメントを投稿