グスタフ・マーラー: 12月 2019

2019年12月22日日曜日

マーラー作品のありうべきデータ分析について：調性推定を巡る対話

　以下の文章は、以前に書いた記事「MIDIファイルを入力とした分析の準備」https://gustav-mahler-yojibee.blogspot.com/2019/12/midi.html に対してお寄せ頂いた分析手法に関する疑念に対する私の「応答」です。疑念は、いわゆる音楽学の立場からの極めて正当なものであり、多くの方が多少なりとも同じような疑問を抱かれていると想像されること、そして個人的には頂いた質問に対する答えを記す過程で、クラムハンスルの手法の適用のどこに私がひっかかっていたかが明確になったことから、その内容を、私なりに整理・編集した上で以下に公開します。問い・応答のいずれも元のままではなく、いわば仮想的に再構性された「対話」であることにご留意頂けますようお願いします。

* * *

1.調性音楽は文化的な構築物であり、かつ言語のように階層的な構造を持つ。喩えてみれば、語以上のカテゴリの問題を、音素レベルで分析するようなもので、要素に還元していく自然科学的なアプローチには限界があるのではないか。

まず、誤解はないと思いますが、私もさすがに区間内の音の頻度の分布で調性が完全に説明できると考えてこの分析をやっているわけではありませんし、それはクラムハンスル自身も同じだと思います。ご指摘の点は、事実としてまさにその通りであると私も考えています。また、音楽情報処理の分野でも、自然言語のアナロジーで音楽を分析するアプローチも行われています。調性の推定に関連したところでは、例えば　Fred Lerdahl の Tonal Pitch Space, Oxford University Press, 2001　では、著者が言語学者の Jackendoff と構築したGTTM（Generative Theory of Tonal Music 生成音楽理論）に基づく分析アプローチが提案されています。

　ただし、自然言語に比べると音楽の統語論に相当するものは、遥かに自由度が大きいこと、その一方で、自然言語ではいわゆる「文」のレベルがあり、その上に「テキスト」の階層があってその区別が明確なのに対して、音楽の場合にはその区別が必ずしも明瞭ではなく、いわゆる楽式に相当するレベルについて、自然言語の単純なアナロジーが通用しなさそうな点など、類似している点がある一方で、相違点もまた大きいようです。私見ですが、言語の場合には、書き言葉と話し言葉の区別がありますが、音楽は、情報処理上の観点からすると後者に近く、更に文字言語と音声言語の区別についても後者に近いではないかと思います。

　そして実を言えば、私のように旧世代のAI研究を齧ったことがある人間が、今日の統計処理ベースのAIに対して抱くのは、まさにご指摘のような点なのです。（ちなみに付言すれば、近年のAIの得意・不得意ということがだんだんと整理されてきていて、どうやらやっぱり「言語処理は不得意」という、至極まっとうな結論が共通認識になりつつあるようで、ある意味ほっとしています。そしてその理由を突き詰めれば、ご指摘のような性質が、現在注目を浴びている手法に適していないということに繋がります。）

　ですから、これでマーラーの作品が分析できた、とは全く思っていません。対象を調性の推定に限定しても、ここでやっている処理は、人間のやっていることのほんの一部だけを取り出していることは明らかですし、得られた成果はと言えば、分析のための素材が一つ手に入ったくらいにしか考えていません。あくまでも分析の準備であって、分析そのものはこの先にあるものと思っています。
　
　あえてオリジナルな改良とかをせずにクラムハンスルのアルゴリズムをそのまま用いたのは、それなりに知られたもののようなので、それをマーラーの楽曲に適用したことが（他に既に行われていれば全く価値がなくなりますが）、一般的な資料としての価値を持つのでは、というような発想によります。もう一つ言えば、この手法は非常にシンプルですから、或る要素だけでどこまで行けるかということを、これまたマーラーのケースについて確認することに意味があるのではなかろうかと考えた次第です。

2.調性音楽の階層的な構造やその構造に基づく規則は、聴き手にも共有されており、それを前提にしてはじめて暗示とアイロニーのようなものが成立する。そうした前提なしに、音楽が多義的であったり曖昧であったりといった側面を捉えることはできないのではないか？

こちらもご指摘の通りだと思います。但し、ルールの共有の程度は様々だと考えます。作曲者や優れた音楽学者と経験のない子供では差があって、私のような、マーラーを聴いた回数だけは多くても、きちんとした楽理の教育・訓練を受けていない聴き手は、更にまたちょっと違うかも知れません。そして私は、どちらかといえば、子供の立場で眺めたいと思っていることは、既に別に記載した通りです。無意識にルールを学習可能、ないし、或る程度学習しているけど、ルールを「理解」できているわけではない聴き手にとってどう聴こえるのか、自分がマーラーの作品の調的過程をどう感じ取っているのかの近似値のようなものを取り出せないか、と思っています。上掲の Lerdahl の分析とかもそうですが、多くの分析は、楽典の知識を前提とし、例えばある区間の調的文脈が別途分析によってわかっているものとして（つまり推定の入力として）いる場合が多いように思います。しかし或る意味では楽典の知識を駆使した分析は、ここで想定している現象学的な問題設定に対しては、先回りしていることになるように私には思われます。またこのことは、創作の水準での分析か、聴取の水準での分析か、ということにも関わると思います。例えば、Timoczkoは、自分の理論が創作の側の理論であることを明確に述べています。しかしここでの関心は、聴取の水準なのです。従って、理論はできるだけ前提としないで、聴こえる音のみから分析するというのが（現実には完全にそうであることは不可能にしても）、理念的な原則となります。

（もっとも、実際問題としては、楽典の知識を全体とした分析をやろうとしたら、私の能力では、余りに手間のかかる作業となって、ちっとも結果が出ないことになりそうですし、マーラーという特殊な事例研究でなければ、実はＡＩの分野では、既に半世紀前に、非常に有名なウィノグラードの研究があって、楽典の知識を総動員したらどこまでやれるかについては、既に、最初の段階で天才がやりつくしてしまっているというのもありますが。）

　上記を踏まえた上で、マーラーに関して、クラムハンスルの調的階層を用いて調性推定をやることの意味に戻りますと、以下のようになると考えます。

　まず、クラムハンスルの調的階層というのは、ある意味ではどっちつかずのものだと考えます。つまり、ある意味では、還元・再合成という操作でありながら、それをやる際に
認知心理学的な実験の結果に依拠するので、ある文化的な構築物のルールをある程度共有している平均的な「聴き手」を想定していることになります。これは科学的アプローチを文化という名の「予見」を排したアプローチと捉え、人文系的な文化的な構築物についての知識（＝解釈学的には「前了解」とされるもの）を前提としたアプローチとの対立を厳密なものと捉える観点からは、科学的アプローチの中に人文学的アプローチを（統計情報という形でですが）いわば「密輸」しているとも言えるかと思います。

　科学的アプローチで行くなら、そうした「密輸」はやらないで、とことん予見を排したアプローチをすべきであり、調性の推定を、例えば音響に関する法則のような、文化非依存のものだけに依拠してやればいいのですが、私はそもそも音楽というのは物理法則のようなものではなく、文化的な構築物だと思っているので、それには原理的な限界があると思っています。（何しろ、意識のような一般的にはそうでないと思われているものについても、ある程度は文化的・社会的な構築物であると思っているくらいですので…）従って、科学的な還元主義的な発想からは循環に見えても、それは事柄の性質上、寧ろ当然だと考えています。（これも「補遺への追記」に記載した通りです。）まさに解釈学的な事柄に付きまとう循環だと思います。

　「マーラー作品のありうべきデータ分析について：補遺への追記」（https://gustav-mahler-yojibee.blogspot.com/2019/12/blog-post_12.html）の中で検討したのもまさに上記の点で、実はその点が明確になっていないと感じて、公開後に追記を行っていますが、それよりも、替りにその末尾を以下に自己引用することで、私の立場の再確認をしたく思います。

「データに基づく分析をやろうとすると、優れた音楽家や音楽学者でない、平均的な聴き手が無意識に行っている情報処理ですら、その複雑さに圧倒されてしまいます。更に言えば、（それ自体が優れた研究者が苦心の上に編み出したものであって、そこでの捨象の操作の背後にある情報量の大きさに留意するのは勿論ではありますが、その一方で）認知心理学実験で用いられるような単純化されたものではないマーラーの作品のようなものを「聴く」時に背後で起きている情報処理のプロセスの複雑さは、途方もないものだし、そのプロセスを支えているシステムの複雑さ、生物としての、社会的存在としての、美的主体としてといった階層の深さには目眩さえ感じます。ましてや優れた音楽家や音楽学者が直観的に掴み取る、ある作品の特徴を機械に取りださせるというのは途方もない企てに感られます。（そういうことからも、AIと音楽との関係におけるチューリングテストは、人間が聴いてそれっぽい音響を自動生成することがでるかどうかといったレベルにはなく、音楽を聴いて、それに感動したり共感したりすること、その感動や共感について分析できることのレベルにあるのではと思えてならないのです。）その全てを踏破することなど思いも及ばぬことですが、それでもなお、そうした企てへの第一歩と呼べるようなものでなくても、そうした歩みへのせめて呼び水となることを願って、今後も少しずつ手を動かして、その結果を公開していきたいと考えているような次第です。」

　更に言えば、データに基づく分析というのは、あくまでも「ここでの」立場に過ぎず、それが私の通常の聴取の態度というわけではありません。実のところ、私は常にはもっと「情緒的」に、或いは「生理的」に、精神的なバランスをとるための或る種の「治癒」として音楽に接しているような気がします。何しろ私の場合には、色が見えたり、風景が見えたり、臭いや湿度を感じたりといった「クオリア」の印象が圧倒的です。この点では、残念ながら、アドルノの『音楽社会学』における聴取の類型論上、あまり褒められた類型には属さない、結局のところ創作者や知識ある分析者の立場では聴いていない自分の聴き方を確認したいということなのかも知れません。

　ただ、マーラーに関して言えば、伝統的な図式では説明できない側面があり、アドルノがDurchbruch / Suspension / Erfuellung といった類概念を持ち出し、自ら「小説」に類比した独自の時間的構造にアプローチしようとしているという消息もあり、伝統的な楽曲分析とは違った分析のツールが必要ではないかと感じていることは、これまで繰り返し記述している通りです。まだまだ先は長いとはいえ、そうしたアプローチの一つとして、データに基づく分析というのを位置付けているという点も付言したく思います。つまり、調性音楽の理論があまりに高度に完成され、合理的にできているが故に、その末期に出現した（かつては病的と言われることもあった）マーラーのような事例に接するためには、一旦遠回りをしなくては見えて来ないものがあるのではないか？というように思うのです。

　最後に、音楽理論にしても伝統的な調性音楽の聴き手の統計的平均像にしても、それ自体抽象物には違いありません。しかも科学的に要素から組み上げられたものではありません。寧ろ、ブリコラージュの過程で少しずつ理論化されたものと考えた方がいいように思います。そして別の文化的社会的文脈では、別の音楽があり、やはり理論があって聴き手がいます。ガムランは、倍音列について「合理的」なアプローチをしない、結果として完全五度音程を基礎としない稀なシステムを持っているようですが、それさえも、異なる伝統に属する人間にとって（誤解はあるかも知れませんが、ある程度は）、理解不能ではなく、「音楽」として「了解可能」です。そういった点を踏まえ、自分がそもそも100年後の地球の反対側、「仮象」たる「中国」の更に向こう側に棲んでいる子供としてマーラーに出遭い、（実はこちらの方が時間的には後なのですが）能楽のようなものにも継続的に接し、更には「トータルセリー以後の音楽」に接しつつも、今なおマーラーを聴いていることを思えば、完全には無理でも、せめて異文化接触という現実の状況に即して、できるだけ調性音楽固有の文脈や内部の論理に依存しない形でマーラーの作品を眺めてみたいというのもあります。近年しばしば「ビッグデータ」の時代ということが言われますが、或る意味では「ビッグデータ」に蚕食された世界に生きる者ならではの発想で、（何なら、その「症例」の一つとして、）こういう分析が、それとは最も隔たっていると通常は考えられているマーラーの音楽のような対象に対して行われる、ということでもいいように感じています。

要約すると、ご指摘の点について異論がないにも関わらず、なぜあえてデータ分析のようなことをやるのかと言えば、

理論の知識なしで何が聴こえるのかをシミュレートしたい
規範的な理論からは逸脱と見做される現象の背後にある論理を捉えたい
文化的文脈の外部を意識して、文脈依存性の少ない見方をしたい

ということになるでしょう。そして得られたものは分析そのものではなく、あくまでも分析のための素材である。ということになるでしょうか？

3.調性音楽の意味は時間の中で開示されていくものであり、ここで実施されたような計量的な分析は、多かれ少なかれ時間プロセスを捨象したものではないか。

このご指摘は非常に重要な点かと思います。何しろもともと、これら一連の検討・分析は、その出発点を記した記事、「MIDIファイルを入力としたマーラー作品の五度圏上での重心遷移計算について」（https://gustav-mahler-yojibee.blogspot.com/2019/09/midi.html）でその目論見を記載した通り、時間性の分析をするのが最終目的ですので。実際の分析が懸念に十分にお応えできているかは議論の余地があるかと思いますが、この点は今回の分析では、それなりには配慮したつもりです。

　今回の分析では、拍内で鳴る音については鳴る順序はつぶれてしまい、持続（音価）のみを扱い、或る拍が「何調」に聞こえる、というのを平均的な聴き手の判定の情報を基にして計算します。従って、この点ではご懸念の通りではあります。一方で、次の拍では、一つ前の拍と現在の拍の2区間の情報で計算をします。そしてこうした時間の推移による情報の累積を1小節の区切り迄やります。次の小節に入ると、前の小節の情報は忘れて、同じことを、曲の終わりまで繰り返します。結果的に、小節単位にその小節は「何調」に聞こえるか、というのを順番に求めていることになります。小節内でも前の拍で鳴った音も含めての分析となっていますし、クラムハンスル自身の実験とは異なって、小節毎の推定を、一貫した調性に基づいた作品の冒頭についてのみ行ってその曲の調性を推定する目的で行うのではなく、発展的調性を持つ、曲頭と曲尾が必ずしも同じ調性でない作品の全体に対して行うことで、調的な中心の軌道や、その安定性の変化をトレースしてみようという目的で行っています。推定に用いる情報をローカル（ここでは小節単位）なものに限定しているのは、調性音楽の中でも古典的な作品を範例とした分析ではしばしば前提とされる大域的な調性の枠組みの前提を、ここでは一旦外したかったというのもあります。

　勿論、より多くの情報を見るように、或いは区間内でどういう順番で音が鳴っているのかも見るように、など、色々と改善の方向は考えられますし、区間についても機械的に1小節で区切るのではなく、もっと意味のある単位で、或る時には1拍が単位になり、或る時には数小節が単位になるように区間を適切に変えてやるべきなのでしょうが、これはまた別の問題を解くことになります。即ち、それを機械にやらせるときに、外から「区切りはここ」というのを別途教えるのではなく、入力として受け取った音の情報だけから、自動的に区切りを見つけて、その区間で調性を判定させるようにするにはどうしたら良いか、という問題を解かなくてはなりません。

　というわけで前途遼遠、課題は山積ですが、とにかく最初は機械的にやってみたらこうなりました、というのを公開したということになります。

　なお、この「外から教えない」で「データに基づいて判定させる」という点が一つポイントと考えています。とはいえ、小節の区切りは偶々MIDIデータに含まれていることになっていて使っていいことにしていますが、音響データならそんなものはありません。MIDIの情報というのは12音平均律前提でキーナンバーが振られていることから始まって、ある程度の「フレーム」の下で出来ているわけで、厳密に言えば、「密輸」も程度問題ということになります。例えば調号だってMIDIデータに含めることが出来ます、入っていれば使っても言い訳ですが、こちらは逆に使っていません。調号通りに調が変わるわけではないから、というのもありますが、実際にはほとんどのMIDIデータで調号の情報はまともに入っていない、という現実がある、というのも大きいです。ともかく、でもできるだけMIDIノートの音高と持続の情報だけでやる。小節の区切りは、必ずしも意味の区切りではないので、最後は使わずに済ませたいですが、機械的に簡単に実験するために、手始めとして利用しているとお考えいただければと思います。）

4.例えば、中心音ということでも、単一の音、2つの音が鳴った時点ではそれは明確ではなかったのが、時間的経過の中で新たに出現する音により、徐々に明確化されるということが起きたり、中心音が常に鳴っている、実際に鳴る音はその周囲を旋回するだけ、といった事態はごく普通に起きるが、実際に鳴っている音のデータに基づく分析で、こうした事態を扱えるのか。

　この点も前の点と並んで個人的に重視したい点です。これは特に「マーラー作品のありうべきデータ分析についての予想：発展的調性を力学系として扱うことに向けて」( https://gustav-mahler-yojibee.blogspot.com/2019/11/blog-post_10.html )の後半に書いたことですが、まさに調性が曖昧になったり、潜在的に複数の選択肢があったり、という状況をデータ処理で浮かび上がらせられるような枠組みを探索しています。

　今回のやり方では、（一応、一番相関が高い調性に色をつけてみましたが）、区間ごとに、各調性との相関の推定値を求めています。あるところでは、相関の最大が0.5くらいで、しかも2つの調で同じくらいだとしたら、或る種の宙づりがそこで起きている可能性がある、という具合で、一応、数字によって曖昧さや多義性を扱おうとしています。

　繰り返しになりますが、調的推定は極めて複雑な過程なので、このデータ処理だけで十分ということはなく、例えば別途、和音（和声ではなく音の部分集合、ピッチセットですが、転回形の情報も付けることができます）を取り出すプログラムも作ったので、それと今回のデータを組み合わせれば、上に例示頂いたようなことがデータで語れないか、というように考えています。(2019.12.22公開)

2019年12月12日木曜日

マーラー作品のありうべきデータ分析について：補遺への追記

以下は、記事「マーラー作品のありうべきデータ分析について：補遺」の更に補足となります。背景については元記事（https://gustav-mahler-yojibee.blogspot.com/2019/12/blog-post.html）をご覧ください。

(1)まずは気になっていたティモチコの『音楽の幾何学』。これはかなり手強い内容なので、きちんと読むには時間がかかりそうですが、基本的な前提のところで、今考えている方向とはずれがあるようです。例えば中心音と音階は独立だとする。これは原則としては勿論正しいのですが、結果的に個別の（例えば機能和声の、条件つきの、経験的なものでしかない）合理性の在り処を説明する方向には向かわなさそうです。寧ろ、抽象化をしていった上で、その過程で削り落とした要素をそれぞれパラメトリックに独立に扱えるように幾何学化するとどうなるか、という探求のようです。勿論、そうした抽象化の進んだ次元で見えてくる法則性のようなものはあるでしょうし、機能和声や伝統的な対位法では禁則であっても実は合理性があるのだ、というような説明が可能になることもあるでしょう。更に言えば、音楽を抽象化して行って出来るだけ一般的に秩序だてようとする点で、寧ろ三輪眞弘さんの「逆シミュレーション音楽」をはじめとする「ありえたかも知れない音楽」の仮構のような方向性と親和性が高いように思います。

(2)次にクラムハンスルの『音楽的音程の認知的基礎』および（こちらは邦訳のある）アイエロの『音楽の認知心理学』所収のバトラー、ブラウンの「音楽における調性の心的表現」について。これらは認知心理学の実験結果なので、基本的には理由づけを分析することは一先ず措いて、ある文化的・社会的文脈での習慣づけ＝学習の結果を帰納的に（平均化して）求めて行く。結果として得られるものは発見的（ヒューリスティック）な規則になります。だから母集団を変えたら結果が変わるかも知れない一方で、母集団を変えても、「ヒト」であれば基本的には安定した規則性というのが見つけられる可能性はあり、帰納的な極限として（西洋的な）「人間」のみならず、「ヒト」普遍の法則を見出すことはある程度可能でしょうし、実験結果はそれの一定の誤差つきの近似と捉えればいいように思います。

　但しこの規則を正しいとして中心音決定することの意味は確認が必要と感じます。これ自体が目的なら問題ないですが、これを更に和声の機能を調べるために使うとすると、論理的に循環が生じうる、つまり中心音の発見的規則の中に和声の機能に由来するファクターが含まれている可能性が高く、もしそうなら、形式的には「中心音で機能が決まる。機能に基いて中心音が決まる。」という循環があるように見えるからです。

　もっともこの循環は、まずはそれぞれの「機能」という語で指示されている対象が同じでないかも知れませんし、その点を考慮してなお循環があるとしても、排除されるべきものではなく、対象の性質からいって、物理的法則のようなものを想定するのは妥当ではなく、寧ろ生物のような複雑系に近いと考えれば、ブートストラップ、自己組織化のようなものにつきものの再帰性の現われとして正当化されるものではないかと思います。

　ただし、これは対象が平均律と機能和声の枠組みに基本的に依拠しているマーラーの音楽だからであることには留意しておきたいと思います。仮に今、分析しようとしている作品が、12音平均律には基づいていても、機能和声に支えられた12音各音を主音とする長調・短調の調的システムには基づいていないとします。その時、クラムハンスルのアルゴリズムでの推定が意味がないことは明らかです（そもそも、適用しようとは思わないでしょう）。敢えてそれを行ったとしてわかることは、別の調的システムで作られた音楽を、西洋の伝統的な音楽を聴いてきた人間が聞いた時、敢えてそれを西洋の伝統的な音楽におけるシステムの内部で捉えようとしたら、どのように捉えられるか、ということになるでしょう。この場合には、最初に述べた循環が表面に出て、致命的なものとなってしまいます。

(3)ただ、ここで差し当たってやろうとしているのは、中心音の推定なのか、それとも調性の推定なのか、マーラーを対象とする限り、その両者は理論的に関連しているものの、厳密には一般には両者は独立ですから、その2つを区別する／しないについての確認を念のためにしておくことにします。

　クラムハンスルの調性推定のアルゴリズム（およびその変形）を用いて何ができるかと言えば、厳密に言えば、それはあくまで特定の時間枠の中で鳴っている音の集合からどの調性との相関が最も大きいかを推定することであって「中心音」そのものの推定ではありません。平均的にどの調性だと判断されるかの確からしさが求まるだけです。そしてその上で、調性が推定されたとして、調性の定義に従属するものとして中心音が定義されるならば、調性の推定結果（24の長調・短調の各調性との相関を表すベクトルの系列）に対してある変換を施せば中心音の軌道に変換できるということになります。変換に当っては、例えば、長調と短調における中心音の安定性の違いを加味したりすることになるでしょう。

　更に中心音の定義を重心の如きものとしようとすると、今度は重心を計算する空間の定義が必要となります。避けようと思えば12のピッチそれぞれの確からしさの分布そのものが中心音であるとしてしまえば余計な問題は回避できるわけですが、既にマーラーの作品のMIDIデータを入力として五度圏上の重心計算をやっているわけですから、改めて重心計算について考えてみます。
　
　結局、中心音の重心計算がそこで為される空間自体が、（経験的な）調的相関で定義されるものであるなら、筋道としては「調性の推定（クラムハンスルのアルゴリズム、音の出現分布の相関度に基づく）⇒調的相関（これ自体、各調性における音の出現分布同士の距離として計算された結果）の空間における重心としての中心音の計算」となって、これはこれで矛盾はなさそうです（勿論それは、西洋近代の調的システムという「閉域」にいるから矛盾が起きないということに過ぎないのですが）。わざわざ中心音の空間を定義する意味があるか（「閉域」の中にいる限りにおいては、結局分布のある幾何学的表現に過ぎない）を気にしなければ、これはこれでいいように思えます。

　一方、重心計算ではなく、マーラーの作品のMIDIデータを入力とした調性推定結果自体において、例えば調性の曖昧さの度合いやコントラストなどについて様々な特徴が検出できたとすれば（この特徴も、何らかの平均なり特定の別の対象との比較として取り出せるものでしかないですが）、それはマーラー固有のものとして構わないように思いますし、発展的調性を力学系的に捉えるという観点からは、寧ろ適当なような気もします。

　こうして考えると、マーラーの作品の分析なら、差し当たり出発点としてクラムハンスルの調的階層が前提とする調的システムに基づいて中心音を定義することが大きな問題になることはない、従って結局、まずはつべこべ言わずにクラムハンスルのアルゴリズムなり、その変形を使った分析をやればいいし、それをやる意味はありそうだ、というのが結論のようです。

(4)上記の点に関連して、私の前の記事での議論は、一見するとそれ自体、自己矛盾に陥っているように見えると思います。つまり一方で、倍音のような物理的法則に従うレベルの事実は、一定以上の根拠にはなりえないということで、文化的・社会的な多様性が生じる余地を要求しながら、クラムハンスルの実験結果のように帰納的に求められた規則に対し、それが文化的・社会的な条件に制約された一定の集団の平均値に過ぎないという点において留保をするというのは、無い物ねだりなのではないか、では一体何に根拠をおこうというのか、という問いが成り立つと思います。

　それに対しては、（まさにそのような書き方をしたと思いますが）クラムハンスルの実験結果のようなものを全面的に拒絶するつもりはなく、それを分析の手段として（消極的・暫定に）利用することは否定しません。（というか他に手段がない。）それは飽くまでも（機能和声の「規範」とか、「音階」「旋法」のような理論的概念を援用して分析することも同じだと思いますが）問題にアプローチをするための一手段に過ぎません。

　例えばクラムハンスルに対して、バトラー、ブラウンはより文脈依存性にフォーカスした実験を行っているわけですが、いずれの実験結果についても物理法則レベルの根拠はなくても、生理的・知覚的水準での準・法則的なものを想定するならば、それが一定のレベルで反映されたものであると考えることは可能だろうと思いますし、それを用いることに問題があると考えているわけではありません。

　問題が起きるのは、例えばそうした実験的・経験的な事実が、価値判断の尺度になる時です。平均値に近ければ近いほど「優れている」わけではないし、逆に遠ければ遠いほど「優れている」わけでもない。遠い方について言えば、遠ければ「オリジナル」とは限らないし、「オリジナル」であることと「興味深い」ことはまた別です。（この辺りの事情は、各学問領域における研究の価値とパラレルな側面があるような気がします。）物理的に「協和的」であることと、感覚的に「協和的」であることは既に一致せず、後者は文化依存であるとされています。一方で、いずれの尺度においても「協和的」であること（あるいはその逆）が、そのまま作品の価値を決める尺度となるわけではありません。

　同様に、例えばクラムハンスルは、実験で求めた調毎のピッチの出現頻度の分布に基づき、調性間の距離を計算してマップを作成していますが、このマップはあくまでも或る時代の文化的・社会的な平均的プロトタイプに過ぎません。それは規範のレベルでの機能和声理論に対応する、経験的・帰納的レベルでの等価物であると考えることができるでしょう。勿論これを基準とした個別の作曲家の作品の特徴づけを行うことは可能だし、問題はないですが、規範としての機能和声への忠実度が作品の「興味深さ」を直接決定する尺度にはならないように、それもまた、作品の「興味深さ」を直接決定する尺度にはならないと考えているということです。「興味深さ」を探るとなれば、そこを出発点としながらも、更にそこから離れて、アドルノ風の「ミクロロギー」に拠らなくてはならないのではないか、「唯名論的」にその作品固有の論理を明らかにすることによってしかできないのではないかと思うのです。そして繰り返し述べるように、そうした分析を行う際には（そうした分析だからこそ）、データに基づく裏付けが必要なのではないかと思う一方で、データ分析によって出て来るのは（少なくともここで論じているレベルのものは）あくまでも「素材」に相当するものに過ぎす、それ自体がそのまま「答え」になることはないように思います。

　もともとが、非西洋人である「私」がマーラーを聴くとき一体何を聴き取っているのか、というのが問の発端でしたが、その「私」とてマーラーを含めた西洋音楽を聴くことで脳内にマップを形成しているわけですし、結局のところ目的は「私が受け止めたもの」そのものではなく（それは私がトリヴィアルな存在であるのに応じて矮小化されたものになっていて、そんなものに価値はないので）、それを可能にしたマーラーの作品の背後にある論理を分析することにあるのですから、「私」とクラムハンスルの調的階層の背後に存在する平均的な聴き手との偏差に拘っても仕方ありません。

　その一方で、クラムハンスルの調的推定の結果はそのまま用いるべきではなく、中心音のような、より一般的な理論的概念を措く操作は必要なのではないかと思います。マーラーの音楽は、そもそも私が済む極東とは異なる文化的に属している筈ですし、それは既に1世紀も前のものなのです。一方では固有の伝統に属する能楽に接し、他方では、マーラー以降の西洋の音楽の更にその先にあって、まさに同時代の音楽である三輪眞弘さんのように、倍音列において最も基本的な完全五度に基かないガムランに基づく作品もあれば、はそもそも音律すら前提としない作品もあり、かと思えば、12音平均律に基づきつつも伝統的な機能和声に基づく調性音楽とは異なる調性へのアプローチを試みた作品もあるような「音楽」にも接している現実の状況を踏まえて、特定の文化的な文脈に依存しない、より一般的な仕方で、経験に即した「自然」でかつ「興味深い」中心音の定義をマーラーの作品に即して考えることが、マーラーの作品の背後にある論理を探る際のきっかけになるように思えるからです。そしてその出発点として用いるのであれば、クラムハンスルの調的推定は妥当であるといって良いように思われます。

(5)ここで元々の問題を改めて取り上げて確認してみます。元の問題はI⇒V,VI⇒Iはどう違うか、IとVはパターンとしては同じなのに機能が違うのはなぜ、という問いでした。これはマーラーの個別の作品の特徴がどうの、というのとは一先ず別の次元の問題です。

　答えは「あるパターンが別の機能を持つのは、そのパターンが出現する文脈による」というものでした。文脈を中心音が定義づける、中心音は調性推定の確からしさと等価であるならば、そのパターンの出現する調性が異なる＝中心音が異なるからで構わない。では調性はどのようにして決まるのでしょうか？それは多分そのパターン自体を含めた、でもそのパターンだけではない、水平方向、垂直方向の両方向での周辺の音の分布で求まるということになるでしょう。

　ここで音の分布⇒調性の推定の手段は　統計的に求められた相関に基づくとします。それは経験的に学習されたものですが、何かそこには物理的ではなくても知覚的な法則性のようなものは認められるかも知れません。それが仮に経験的に求められたものに基づくものであったとしても、「中心音は、天下りに与えられてはならない」という要請に対しては、中心音を、或る区間で鳴っている音の集合（つまり入力データに含まれている情報）から求めているということで充足しているので、この方法で構わないことになります。

　鳴っている音の分布⇒調性⇒中心音、という論理が辿る筋道がクラムハンスル的な経験的な根拠によってしか可能でないとしたら、その経験を形成するのが分析対象となる作品を含めた聴取の経験による、という点に循環がみられるでしょうが、この点については(2)で検討した通りで、循環は問題にならず、寧ろ対象の性質上、必然的なものと考えます。調性音楽を支える論理というのは、倍音列のような物理法則の水準にあるものではなく、文化的な構築物であって、寧ろ「解釈学」の対象と考えるべきで、循環は元々備えている性質であると考えるべきです。

　では、この問いはトリヴィアルだったのだろうかと考えると、上記のような答えが直ちに思い浮かぶのであれば（ご覧の通り、残念ながら私にとっては自明には程遠かったわけですが、わかっている人にとっては）確かにトリヴィアルなのかも知れないと思いつつも、少なくとも以下のようなことを確認できたとすれば、それは無駄ではないのでは、とも思うのです。

　それは、抽象化されたピッチの集合だけを見ていたのでは、なぜそのように聴こえるのか？という問いへの答は見つからないということです。その観点から言えば、元の問題は厳密には2つのことを告げているように思えます。IとVがパターンとして同じなのに機能が違う、というのは、単独の和音だけではわからないということを告げているのに対し、I⇒V,IV⇒Iは2つの和音の系列のみを見ていたらわからない。IとVのどちらなのか、I⇒V,IV⇒Iのどちらのカデンツなのかというのは、ピッチセットとして抽象化してしまえば区別がつかなくなるのは当然で、抽象化のプロセスで捨ててしまった情報、即ちそれ以外の水平、垂直の両方の次元での周辺の音やピッチセットの構成要素が、音高方向にどういう順序で並んでいるか（つまりどれがバスで、どれがソプラノか）を見なければわからないのだ、ということです。通常の楽曲分析での説明は、そうした背後にあるプロセスを全て端折って、結論の部分だけで議論をしているということだと思います。それは結果としてこうだ、という説明ではあっても、ではなぜそうなのかについては語らない。目的が違うのだから、それは別に構わないのですが、ここでの分析のような目的にその知見を利用しようとする場合には注意が必要だということのように思います。

　それでは一体、どの範囲を見ればいいのでしょうか？どのような切り口で見ればいいのでしょうか？データに基づく分析をやろうとすると、優れた音楽家や音楽学者でない、平均的な聴き手が無意識に行っている情報処理ですら、その複雑さに圧倒されてしまいます。更に言えば、（それ自体が優れた研究者が苦心の上に編み出したものであって、そこでの捨象の操作の背後にある情報量の大きさに留意するのは勿論ではありますが、その一方で）認知心理学実験で用いられるような単純化されたものではないマーラーの作品のようなものを「聴く」時に背後で起きている情報処理のプロセスの複雑さは、途方もないものだし、そのプロセスを支えているシステムの複雑さ、生物としての、社会的存在としての、美的主体としてといった階層の深さには目眩さえ感じます。ましてや優れた音楽家や音楽学者が直観的に掴み取る、ある作品の特徴を機械に取りださせるというのは途方もない企てに感られます。（そういうことからも、AIと音楽との関係におけるチューリングテストは、人間が聴いてそれっぽい音響を自動生成することがでるかどうかといったレベルにはなく、音楽を聴いて、それに感動したり共感したりすること、その感動や共感について分析できることのレベルにあるのではと思えてならないのです。）その全てを踏破することなど思いも及ばぬことですが、それでもなお、そうした企てへの第一歩と呼べるようなものでなくても、そうした歩みへのせめて呼び水となることを願って、今後も少しずつ手を動かして、その結果を公開していきたいと考えているような次第です。(2019.12.12初稿、12.16,17加筆)　

　

2019年12月7日土曜日

マーラー作品のありうべきデータ分析について：補遺

　以下は、既に公開済の文章「マーラー作品のありうべきデータ分析について：発展的調性を力学系として扱うことに向けて」（https://gustav-mahler-yojibee.blogspot.com/2019/11/blog-post_10.html　）の中で「素朴な疑問」として提示した問いを出発点に、若干の補足を行ったものです。なお、以下の「疑問」に対する指摘は私が創作した架空のものではなく、実際にある専門家から頂いた指摘です。ご指摘に感謝するとともに、その事実を付記させて頂くことにします。

　まず、そこで掲げた問いを再掲します。

　シェンカーのI→V→Iという原則は、上記の文章で提示した五度圏でのピッチの並びに基いた和音のビット列での表現およびその上での力学系においても確かにコスト的に小さく、経済的であるように見えます。
　ただ素朴な疑問として、以下の疑問がすぐに浮かびます。

(1)V→IというのはVが不安定でIが安定だという前提をおけば自然だが、ではVが不安定なのは何によるのか？ビット列としては同じバターンで右に1ビットシフトするのだが、そのことがアトラクタとなるのはなぜか？
(2)左1ビットシフトIV→Iもアトラクタの資格を持っているが、これはI→Vとビット操作上は区別がつかない。何が区別を可能にしているのか？
(3)V→Iが何かの理由でアトラクタであることを認めたとする。このときI→Vがそもそもなぜ起こるのか？これは、音楽は何故始まるのか？なぜ音楽があるのか？という問題に
帰着するようにも思えます。

上記の問に対しては、以下のような指摘が考えられるでしょう。まず(1)(2)について。

A1.(1)(2)とも、やはり中心音、つまり起点とそこからの距離、方向を捨象しているために生じる問いであり、中心音を導入すれば、そもそも問題にならないのではないか？
A2.そのためには、調性の情報を与えればいいのではないか？そもそもがここで対象となっている音楽は、調性システム（のあるバージョン）を前提として組み立てられているのは事実であるから、分析上もその前提に立つべきではないか？
A3.五度圏の隣り合う７つの音の重心の中心からの方向（θ）を中心音と定義すれば、それはドリア旋法ということになる。ところで、旋法のシステムにおいて長調・短調に相当するのはイオニア旋法、エオリア旋法であるが、これは教会旋法のシステムには存在せず、歴史的には新しいものである。この点をどう考えるか？なぜそうなったのか、どのような力が働いたのかを考えるべきではないか？

この指摘について考えたことを以下に記します。

A1.まず中心音についてですが、中心音を否定したいわけではないのです。それはきっとあります。あるから、かほど壮大な楽理の体系が出来て、何百年も続いて、異文化の極東の島国でも教えられているのだと思います。でも鳴っている音を聴いたとき、事前に教えてもらうわけでもなく、中心音に印がついているわけではありません。それは聴くと「自然とわかる」ものなのではないしょうか？そしてここでは、聴く立場に立って考えたいのです。できたら中心音を外から持ち込むのではなく、鳴っている音の構造から自ずと決まってくるものとしたいのです。そうじゃないと、聴経験と一致しません。

　だから、鳴っている音から中心音がこのようにして決まってくるというルールをデータから取り出したい。その時に、ピッチクラス＝ビットの並びだけに限定し、バスの音が何であるか、転回を無視して音名の集まりだけにしてしまうのは抽象のし過ぎかも知れないということは既に述べた通りで、ピッチクラス＝音名の組み合わせパターン＋最低音を
ひろって、きっと長三和音・短三和音の基本形はアトラクタなんだろうということで、まず、アトラクタがどこに現われるかを抽出することが考えられると思い、データ抽出を試みています。（「MIDIファイルを入力とした分析の準備作業：和音の分類とパターンの可視化」 https://gustav-mahler-yojibee.blogspot.com/2019/11/midi.html 参照。）

　中心音については、アトラクタとなる長三和音・短三和音の基本形のベースの音名がそれである、という定義は考えられます。ただ、その後ビット列が変化して、色々な和音が出て来るとき、中心音がどう変わるかも、データの側から取り出したいと思います。これも結果として転調の移行、確定のパターンが所謂「カデンツ」として取り出せるということで構いません。でも向きはこの向きでないとならない。そうしないと、規則で書かれた時にどうなるかは説明できても、規則通りにならない時に、系の状態がどうなっているのかが説明できなくなってしまうし、中心音の候補が2つあって、どっちつかずの状態みたいなことも言えなくなるのではないでしょうか？

　そもそも中心音というのは、具体的にはどのように計算されるものでしょうか？それは、ビット列で表現される同時に鳴っている音名の集合（ピッチクラス）の「重心」（まさにこれまでやってきた重心計算の結果）ではない筈です。もしそうなら、ビット列とは別に中心音が必要になることはないのではないでしょうか？いや、これはおかしいかも知れません。別に五度圏上の重心であっても良くて、重要なのは、何らかの定義に基づき計算された中心音が、「次への遷移の演算」の入力となるという点であるとしても構わないかも知れません。実際に、アルゴリズミック・コンポジションにおいて、そのような力学系が用いられており（ただし正確には、重心は「次への遷移の計算」そのものには持ちられておらず、もっと大域的な軌道の制禦にのみ用いられています。また、それは和音の遷移ではなく、ある区間の単旋律に出現する音の集合を対象としています。そして単旋律か、和声を備えているかという差が中心音という概念にどう影響するかについては、過去の西洋の音楽における歴史的な背景なども併せて理論的な意味合いを正確に突きとめる必要があるでしょうが）、もともとそれをマーラーの作品の分析に謂わば「逆輸入」するというのがきっかけでこの検討が始まったのでした。ただ、西洋近代音楽に限って言えば、中心音は五度圏上の重心ではない。正確を期するなら「最早～ではない」と言うべきなのかも知れません。ここで「西洋近代音楽」と言って西洋音楽としないのはそれ以前の長い歴史においては別のシステムが用いられていたからで、重心計算というのは、その別のシステムにおいては適切であっても、所謂「機能和声」に適用するのは不適切なところを、私が無思慮に適用してしまった結果、「捩じれ」のようなものに悩まされているということは多いにあり得ることだと思います。更に言えば、機能和声に先行する時代の長さに比べれば機能和声の時代など、ごく最近のことなのかも知れませんし、「ありえたかも知れない音楽」の枠組みとして五度圏上の重心を中心音とするシステムを「仮構する」というのは、そうしたことを考えれば深い合理性を持っているようにも感じます。（因みにこうした歴史的なパースベクティブの感覚は、「ヒトが意識を持つようになったのは…」というのと何となくスケールの感覚が似ている気もします。音楽の背後にあるシステムが意識の構造と対応している、というのはあまりに突飛な仮説かも知れませんが…）

‪　いずれにせよ、西洋近代音楽も後期ロマン派のような「小説」がモデルとなるような作品を事例にとった時に、そこでの中心音の定義は、明らかとは言い難いのではないか？充分にありえることとして、西洋音楽の中でも、中心音の決め方自体変遷があり、かつまた作曲者の個人的な嗜好もあるというのは成り立つでしょうが、個別の作曲家に限っても
それは明らかになっているとは思えません。結局何を目的として分析するかが最後には問題になり、結局私がしようとしているのが、ある特定の音楽についての中心音の決まり方を探ることだとしたら、それこそ、それはデータからボトムアップに推定すべきなのではないでしょうか？

　とはいえ、それを最終的に機械に処理させるにしても、どのようなデータを与え、どのようなモデル上でやるかについて設計するために、或る程度の見当をつけるべく考えてみるならば、ビット列で表現される同時に鳴っている（音名ではなく、音高を捨象しない）音の集合を入力に計算されるものである筈です。但しある時点のビット列だけに入力を限定する必要はなく、一つ以上の複数の前の時点のビット列の状態の記憶の系列が入力となるのは自然な仮定だと思います。また、その計算規則は、物理法則のような普遍的妥当性を持つ必要はなく、物理法則に逆らわないある程度自然なものであり、尚且つそれを事前に知らなくても自然に習得可能なものと考えるべきと思えます。それは文化的によって異なりうる幅があって良く、かつまた「嗜好」を受け入れる幅を備え、加えてその嗜好の中で多様な作品を可能にするようなものの筈です。更には中心音は常に一意に決定されるものではなく、決まらないことがあってもいい。中心音についての空間における重心のようなものが、幾つかの候補からの距離によって決められるといったあり方で良いと思います。完全に等距離ならその時には中心音が存在しないとも言えますが、通常は距離で順序づけられた後補が複数あるが、場合によっては2つの候補がほぼ同じ確からしさを持っている場合も生じ得る、というのが自然な仮定のように思います。そうであることによって、発展的調性のような逸脱が可能になる。しかも発展的調性と呼ばれているものの内実は、必ずしも単一のプロセスであるとは思えません。私見では、それは様々なタイプの逸脱に仮にラベルづけをした便宜的なものに過ぎず、その内実は個々に異なる、それこそ「唯名論的」に異なるのではないかと思います。

　というわけで、入力として私が差し当たり採用したのは、ビット列で表現される同時に鳴っている音名の集合＋どの音名が最も低い音かについての情報です。ただし遷移規則の方はまだわかりません。データ分析とＡＩが流行りの今時なら、つべこべ言わずに中心音の「正解」を与えることができれば、それを正解データとして機械学習によって中心音の定義を機能的に推定するのが普通かも知れませんが、今、私にとっては、中心音の定義（計算方法）自体が未知なので、この方法は取れない。まあ、色々な分析の共通見解とか自分の聴経験から正解を作ることも可能なのでしょうが、これはなかなか手間がかかります。とはいえ他に方法もないし、機械学習を適用しないまでも、データを眺めてそれらしい仮説を自分で作るのであれば、それを自分でやるか機械にやらせるかの違いしかなく、いずれ準備が出来れば機械学習を適用する可能性もあると思いますが…

A2.については、中心音に関する上記の議論に基本的には準じるのですが、それは措いても、ビット列の状態の系列からその系列の「調性」を判定する方法を考えられないかというのは、音楽情報処理的な問いとしてあるのだろうと思います。例えば、ある調の構成音の集合（7音）に基いて「調性」を推定するといったやり方が考えられるでしょう。楽理上の説明として一般に言われていることとして、転調が起きたことの確認は、その7ビットの外の音を使った時ということになっていることなどを判定の規則として用いるわけです。

　他方で、調性を前提としてしまえば、以下のような考え方もあるかと思います。ある時点で3つの音が鳴ったとします。その3つの音が含まれうる調性の候補の集合を持つ。ビット列が遷移するにつれて、その候補の集合も変わっていきます。そのうちに中心音が浮かび上がってくるのでは、という発想です。ただ候補の集合の要素はあまり絞り込めないことがすぐにわかる。五度圏だと両隣は常に候補に含まれます。逆に不協和であっても調性決定上は強い制限のある音程もあります。いずれにせよ、一つ前、二つ前、と記憶をたどって、最も確からしさの大きい調性を求めるというやり方が思いつきますが、これはうまくいくものでしょうか？

　一つ興味深く思われるのは、もしビット列の遷移上でそれが可能であれば、それはピッチクラスから更に対称性を除いたコードのパターンのレベルで解ける問題だということで、上で入力として別に求めたどれがバスかという情報は不要ということになる点です。まあつべこべ言っていないで、試してみるべきかも知れませんが。もう一つ言えば、このやり方は措定される調性の候補の集合というのを持たないとならない。長調・短調の2種類は仕方ないとして、教会旋法など、他のシステムが用いられている可能性はないのかとか考え出すと、やはり問題の立て方が逆立ちしているように感じられてしまいます。仮に作る側からすれば特定の調性システムありきであっても、聴く側にとっては、それは分析の最後に得られるものであって、調的には曖昧であっても中心音はこの辺にあるとか、この音とこの音が拮抗しているということが言えないものだろうかというように思ってしまいます。さしあたってマーラーを分析するのであれば、24の長調・短調の調性のそれぞれの間に距離が定義された空間を想定して、その空間の中で軌道を描くイメージでも構わないのかも知れませんが…

　なおもともとの(2)の疑問、IV→IとI→Vの違いそのものについて言えば、結果的には指摘の通り、その文脈での中心音の違いによる、というので全く構いませんが、上述の通り、こちらも同様に中心音を天下りに与えたくなく、和音の系列自体によって浮かび上がってくるものとしたいというのがここでの立場となります。その時に直ちに考えられるのは、過去の系列についての記憶を入力とすることですが、それだけではなく、五度圏上、ないしビット列上での操作としては軸対称となっている左シフトと右シフトが抽象する前の対象では異なっていること、それは結局のところ、どちらのピッチが相手に対して低い／高いという音高を捨象していることに由来するわけで、最低限バスがどのピッチかという情報を補うことによって過度の抽象による対称化を補正することが必要なのだろうと思います。そしてそのことは、振動比に基づくポテンシャルの大きさの系列を保存することにもつながります。
　
　一方で、音高ということで行けば、隣接音とか導音といった相対的な音高（＝振動数の差）に依拠したメタファーに基づく水平方向の概念が楽理にはありますが、それらをどう考えるかというのが別の問題としてあるかと思います。シェンカーのウアザッツにおいても、上声の動きはウアリーニエとして重視され、それは第5音ないし第3音から主音に下降する図式が典型とされているわけですが、それと振動数の比に依拠した和声的な（つまり五度圏上でのピッチクラス間の）距離の概念とが、いわば共存しているように思われるのです。突飛な喩えになりますが、数論における加法と乗法の微妙な関係は様々な未解決問題、予想を産み出す源泉となっているようですが、ここでの振動数の差と振動数の比という2つの概念は、加法と乗法の関係のように強固なものではなく、寧ろ水と油のように異質に感じられつつも、機能和声においては緊密に結びついたものとして立ち現れます。また、一方は上昇／落下、他方は緊張／弛緩というようにいずれも物理的なポテンシャルに結び付いていることについては、別に考えてみる必要を感じます。

　最後に、この辺りの議論については、クラムハンスルによる和声認識についての認知心理学的な研究を思い浮かべる向きがあるかも知れません。しかしここでの立場から眺めると、それは西洋の伝統的な音楽を学習用データとして学習したネットワークに対して任意の和声を与えて、学習済みデータによって形成された重みに基づいて協和度を計算させているように見えます。クラムハンスルがプローブ音法によって求めた和音の「親近度」に基づく距離をベースにすることは、結局のところある文化的伝統に属する音楽の統計的な平均に対して、マーラーの作品の和声進行の持つ「逸脱」がどのように関わるのか、それで逸脱の度合いを測ることができるのか、或いは、どのように適用するかにも拠りますが、逆に逸脱の度合いを測ることにしかならず、固有の力学を取り出すことはできないのでは、といった点が気になります。もう一つには、それが必ずしも物理的な協和度の高さと一致しているわけではない点が挙げられるでしょう。つまりそれはある文化の「閉域」の内部でのみ有効であって、その外部に対しては有効でないとしたら、マーラーの音楽の周縁性というものがそれで捉えられるものなのかという疑念が湧いて来ます。
　
　物理的な協和度と聴感の乖離は、和声のみならず、音程の協和についても指摘されており（ヘルムホルツが倍音構成に基づき演繹した不協和度に対して、プロンプ、レヴェルトが実験結果に基づいて帰納した不協和度を比較検討したものが知られています）、これをどう考えるかはここでは扱いきれない問題ですが、上記の通り、それは音楽が単なる物理現象ではなく、社会的・文化的な構築物であるということを示しているとともに、音楽が何の為に存在するのかという点にも関わるように思えます。実際のところ、音楽が物理的な協和度に従うものであるならば、音楽は文化的・社会的な差異を持たない均質なものである筈ですが、現実には極めて多様なシステムに基づく音楽があるというだけはなく、その多様性は物理的な協和度という基準では到底測れないい複雑さを備えていることは明らかなことに思われます。

　他方で、ピッチクラスに相当するビット列上のパターンから更にシフト対称性（五度圏の回転対称性に相当）を取り除いていくという抽象化の方向については、ドミトリ・ティモチコの『音楽の幾何学』におけるオービフォルドを用いたマップ構成の試み、或いは「一般化された調性ネットワーク」の提唱について調べてみる必要があると考えています。その理論は極めて一般性の高いもののようですし、説明能力の高いもののようですから、既にそこで答えが示されている問題もあるのではないかという期待もあります。他方ではそれが抽象化への方向を持つ限りにおいて、理論的な知識のない聴き手にとってどう聴こえるかをシミュレートするというここでの目的とは相反する方向を持つようにも思います。

A3.について：これは西洋音楽の理論的な捉え直しのようなものですから、私のような音楽理論を専門に勉強したこともない人間の手には余る問題です。確かにダマスコの聖イオアンにアトリビュートされるビザンツのオクトエコスにはA,H,Cを終始音とする旋法はなかったようです。実作でどうだったかはともかく、イオニア旋法、エオリア旋法は一体どこから来たのか、それが後年機能和声の枠組みで特権的な旋法として選ばれ、発達したのはどういう理由なのかというのは興味深いテーマでしょうが、このことについての説明というのも寡聞にして知りません。どなたかご存知の方はいらっしゃれば、是非、教えて頂き炊く思います。

　一方で、dur-mollのビット列の並びや五度圏上での重心を確認した限りにおいて言えるのは、それが実は（マーラーもその中に含まれる伝統の中で産みだされた膨大な作品に基づく学習により形成された感覚とはずれていますが）それが相対的には不安定なものであり、緊張を孕んだものであるということでしょうか？いわばそれはポテンシャルの空間の中での最低点ではなく、相対的には安定しているものの、寧ろその周辺の地形が多様性に富んでいて複雑なシステムを構築することが可能になるような場所なのではないかと思えるのです。繰り返しになりますが、ドリアンモードなら安定しているわけで、これが教会旋法では第1旋法であったのは故なきことではないのでは、と思います。そのことと裏腹の関係だと思うのですが、その替わりそれは静的で、変化の可能性が限られた閉じたシステムとならざるを得ないのではないでしょうか？（勿論、形式的には旋法を定義し、旋法上に和声とカデンツを定義し、旋法間の変換（転調に相当）を定義し、というシステムの構築は幾らでもできますが、振動比のような物理的な基盤の側から見たときにコストが小さく「自然な」ものという観点からすると、安定したシステムは変化の余地が乏しいというようなことは言えるのではないかと思います。この点については(3)の問いと関わりが深いと思われるので、そちらで改めて論じることにします。

　いずれにしても、ここで問題にしたいのは、イオニア旋法、エオリア旋法が長調・短調として選ばれ、それを元に和音に機能を持たせて、というように展開していく中で、選ばれた旋法の中心音が重心からずれていることがどのようにシステムに影響しているのか、ということです。繰り返しになりますが、単音、二音、三和音で重心がずれていく、しかも長調と短調でずれ方が異なり、対称的でないことは、機能和声の三和音のシステムの力学は五度圏上の重心だけでは説明できないということなのだろうと思います。発想としては、主三和音の重心に「何かの変換」を施すと中心音が出てくる。しかもそれが長調と短調の両方を含む（但し完全に長調と短調が対称である必要はない。歴史的にもピカルディの三度のような偏りがあるし、ソナタ形式における第2主題も、長調ならＶだけれど、短調なら並行調のIIIというように非対称になっていて、それらは構造的に関連している筈だと思います）ということになるのでしょうか？長調も短調も、本来の中心音からズレたり、対称性が崩れてたりしていることが、逆にシステムの複雑さを可能にしているようなことが起きていると考えることはできないでしょうか？（ここでの説明は、「中心音」を機能和声に支えられた長調・短調の2つの調性によるシステムにおける「主音」と同一視する前提に立てば、ナンセンスに思われるかも知れません。けれども理論が全くの数学的な構築物ではなく、実際の聴こえ方に根拠を持つものだとしたら、果たして理論で定義された「主音」と「中心音」が常に一致することは自明とは言えないのではないか、短調の主音と長調の主音は機能的にも異なるのはないか、ということが言いたいのです。）

　ちょっと飛躍しますが、こういうイメージが浮かびます。ウルフラムの一次元のセル・オートマトンの有名な実験があります。初期値を変えるとその後の振る舞いが変わるけど、おおまかに4つのクラスに分かれるというあれです。ここではビット列の初期配列を変えるのではなく、「中心音」の計算の「何かの変換」にあたるものを変えていく、するとある場合には複雑な挙動が起きる余地ができ、ある場合には美しくシンプルな挙動しか
起きない、といった感じです。勿論、あれかこれかの二択ではなく、程度問題ですが、機能和声はあえて前者をとったのではないかと思うのです。その時ポイントは第3音（しかも短三度・長三度の二種類があること）にあるように思います。オクターブ・四度・五度のような単純な振動比を持たない要素を入れ込んで中心音の定義を書き換えることで、音楽に動性を持たせることができるようになった。最初はそれでもオクターブ・四度・五度のドミナントのシステムにいわばはめ込んで使っていたのが、次第に一人歩きを始める。更に長調・短調間の変換が定義されると三度関係を軸とした変換の可能性が開拓され、そのうちに出発点に戻る力学的な理由が希薄になっていき、その果てに発展的調性のようなものが出てくる…あまりにラフなイメージですが上記のようなイメージが浮かびます。

ついで(3)について

B.(3)については、そもそもが些か禅問答的になりますが（もっともこの問いは、ギリシア以来の存在論的な疑問、しばしばライプニッツに帰せられる「なぜ何もないのではなく、何かがあるのか」をも連想させますが）、人間（生物）は常に変化を知覚するから、つまり、自分が定常的な状態でも、外部が変わればそれに適応して反応する必要があるから、外部からのきっかけで安定状態が崩れることで音楽は始まる

といった答えが考えられると思います。

　音楽においてもLeonard Meyerの緊張→弛緩という図式は良く言われますが、これは物理系だと振り子のような系、不安定な状態に（外的な要因で）なった系がだんだんと定常状態になる過程の説明でおしまいになってしまうように思います。一方、ここで問うているのは、いわば逆向きの動きで、最初に主和音から始まり中心音が定まっているのに、そこから不安定な状態になる、というのは、止まっている振り子が動き出すようなものです。

　なお、シェンカー理論のウアリーニエ、即ち上声部は典型的には第3音乃至第5音から下降して主音に帰結するという図式は、物理的な落下の法則に一致しているように見えます。けれどもそれはウアザッツの一部であって、和声的には、まさに問題にしたI-V-Iの図式がそれを支えているわけです。そしてここで問題にしているのはまさに後者です。、ソナタ形式を例にとれば、ソナタ原理のテンプレートでは、上声において、例えば第3音から第2音への下降が提示部の第2主題部で起きて、和声はVとなる。上声部の下降はそこで中断され、和声的にはVが延長されたまま展開部に入り、再現部の第2主題になって上声は主音、和声的にはIに帰着するというのが一つの典型とされるようですが、色々な出来事が起きて緊張が高い状態となるのは一般には展開部であって、冒頭に最も高かった緊張が単調に弛緩するというのは多くの場合当て嵌まらないし、仮にそれを認めたところで、マーラーのソナタ楽章のような長大な楽曲を支えているのは、寧ろその緊張を継続し、解決を延期するメカニズムにこそあるのではないかとも思えます。しかも発展的調性をとるマーラーの作品の場合、楽章単独にしても、全曲を通しても、冒頭主音と思われたものが実はそうではない、ということが起きている筈です。どうしてそのようなことが可能になるのか？マーラーのソナタではしばしば第2主題は長調の場合でも属調をとらず、短調の場合も並行調を取りませんが、そのことは図式をどう変えてしまうのか？長大な、しかもしばしば回帰さえする序奏がこうした脈絡において果たす役割は何か、必ずしもシェンカー図式を典型とし、それからの逸脱と捉えるのではなく、等しく存在する可能性の1つという資格で、その力学を考えてみたらいいのではないかというように思う訳です。

　言い替えると、緊張→弛緩は、音の構造に内在的に説明できるけど、逆は、外からエネルギーを加えてやらないと起きないことになる。音楽は、複雑系（生物もその一種）であって、外からエネルギーが加わって動きだし、エネルギーが供給されることで運動を続けるシステムとして捉えるのが自然なように思えます。つまり音響態の外部が音楽には必要で、それを辿っていくと、例えば由来に行きついたりしないだろうか、と思ったりもします。外部で何かが起きたことへの反応として、歌う衝動が湧いて、歌が始まる。歌のはじまりのきっかけは外からやってくるというように言える道筋が浮かんで来はしまいか、というように思っています。勿論一足とびにそこには行けないでしょうが、それでも三輪眞弘さんの「逆シミュレーション音楽」の定義は、中心音を定義してから始めることもそうだし、音響態の外部の「由来」を「音楽」の構成要件として必須のものとすることによって、今ここで現象論的にアプローチしているものを、まさに逆側から仮構し、シミュレートするものであると言えるように思うのです。

　そもそもの発端は、音楽的時間を考えるときに、小説や叙事詩に喩えられるような、人間的なドラマの時間が一方であり、他方では、自然法則に近いような時間の展開があって、コンピュータにとっては後者は扱いやすいが、前者は親和性が低いというような話があって、じゃあ、音楽を物理システムみたいに眺めたらどうだろう、というあたりが出発点でした。

　一方で、マーラーに関するモノグラフがあり、邦訳された文献としては『ベートーヴェンの美学』があるDavid B. GreeneがNelson Goodmanのメタファー的例示（examplify）を援用しつつ、西洋音楽の時代様式をモデルとなる時間性と対応付ける際の具体的な時間表象の不適切さのことも思い浮かびます。そこではバロックの音楽の時間性をニュートン的な時間、ないし時計をモデルとする機械的な時間と対比させているわけですが、勿論、メタファーといってしまえば何でもありとは言いながら、音楽を振り子や時計との類比することは、そもそも不適切なのではないかという気がしてならないのです。（もっともGreeneのメタファー的例示についての疑問は、バロック時代＝ニュートン的時間に留まらず、その他の時代の音楽にも、マーラーについての分析にも当て嵌まります。個別の楽曲分析そのものは示唆に富んでいるにも関わらず、肝心の時間論的分析は惨憺たる有様といって良いと思いますが、前に別のところに備忘を記したことがあるので、ここでは繰り返しません。）力学系といっても、外部からのエネルギーの供給がない振り子の振動のような閉鎖系だと単純すぎて、放っておいても起こる緊張→弛緩の過程の説明にしかならず、これは音楽において起きていることの半分の説明にしかなっていないように思うのです。緊張と弛緩を繰り返すようなものは、最低でも散逸過程じゃないといけない。にも関わらず、普通される音楽の構造の説明って、その後半の部分の話が多い、というかそっちばかりな感じがします。もっとも、どのようにして音楽を前に進めるかは、それこそ規則で決まるようなものじゃないのでしょうが…

　一般に複雑系というのは散逸系で動的不均衡で準安定なわけですが、そもそも音楽は（比喩じゃなく、上記のビット列の力学系の挙動として）まさに複雑系的な挙動をするような系であるというように言えるのではないかと思うのです。外部からエネルギーを与えるというのを、いきなり音楽外の要因が音楽の局所的な振舞に影響を及ぼす、と考える必要なない。勿論、そういう場合があってもいいでしょうが、そうではなく、エネルギーの流入で系の変化に自由度が増した結果、局所的にゆらぎが起きたときに、系がどちらの方向に発展するかについて、必ずしも決定的ではなく、カオス力学系とかで観測される分岐のような現象が起きているようなケースもあるのではないか？

　発展的調性というのは、どこに辿り着くかが事前に決まっているのではなく、複数の調的な極の間で競合があって、そのどちらかが選ばれるような系が条件となります。言い換えれば、発展的だが決定的というのはなくて、寧ろ、不決定性があるから、ある時には
開始の調性に回帰し、ある時には関係調に、ある時には遠隔調に辿り着くということが起きると考えるべきなのではないだろうか、というようなことを思っています。準備なしに遠隔調に転調するのはコストからすれば大きいわけですが、それもあるベイスンから脱出して尾根を超えて隣のベイスンに移るには、尾根を越えるためのエネルギーが必要だというように記述できます。すると遠隔調に転調するような複雑な音楽の場合には、きっと常にコスト最小の原理で遷移プロセスが定まっているわけではないのだと思います。

　一方で上述の通り、セルオートマトンのような単純な力学系でも、規則の与え方によっては複雑なプロセスが起きたりもします。（こちらの場合は当然、計算して内部状態を書き換えて、系が動くには外部からのエネルギーの供給が前提です。）だとしたら、前半部分の緊張を起こす方の側だって、衝動とか霊感でおしまいというのは性急で、もう少し音楽が勝手に進んで、時として緊張が高まっていく論理というのがあるんじゃないか、というようにも思えます。勿論の西欧の音楽は、セルオートマトンとは異なって、決定的な書換え規則に従って動いているわけではありません。でも、全く出鱈目というわけでもなく、何かそこに傾向のようなものがあって、それをデータから抽出してみたい。それはどのような音楽でもある程度普遍的に通用する緊張→弛緩の過程の一般的な説明（これが楽理なのでしょう）とは別に、緊張がどのように作られていくか、その結果として解決が遅れたり、宙ぶらりんになったり、etc.ということが起きることを可能にするような、何らかの条件であるはずで、それをできたらデータから導きたい、というように考えているのです。

　またこのことは、だからこそ音楽は「時間の感受のシミュレータ」たりうるのではないかという点にも関係すると思います。それは具体的に何が起きたかについての「記号」にはなりませんが、（それを記号と見做してプログラム＝標題を外から与えるのはまた別の問題です。）どのようなことが外部から到来したか（、そして、或る種の音楽はそれよりも一層どのような反応が起きたか）について、「時間の流れ方」という形で証言することはできるのではないでしょうか？それは或る種の抽象には違いないですが、通常の抽象とは逆に「記号」とか「意味」とかの認識の内容的な面を捨象して、感受の様態であったり、それに伴う情動とか身体的な反応といった側面のみを抽出し、他者にそれを（共感という形で）伝達するものなのではないでしょうか？
(2019.12.7公開、12.8, 12.17, 28加筆)

お知らせ