グスタフ・マーラー: MIDIファイルの分析：基本データに基づくクラスタリング結果(2020.1.29更新)

ここでは、MIDIファイルを入力とした重心計算の際に取得した基本データ16種に基づくクラスタリング結果を示します。

・マーラーの全交響曲+歌曲の一部(2020.1.29更新)
https://drive.google.com/file/d/1_tLLByp01tCFma64gph7xjJ3kzGDYtut/view?usp=sharing

クラスタリングの入力となった基本データについては、

https://gustav-mahler-yojibee.blogspot.com/p/midi_7.html

をご覧ください。
また、対象MIDIファイルについては、

https://gustav-mahler-yojibee.blogspot.com/p/midi.html

をご覧ください。

解凍すると、対象となったMIDIデータ・作品の対照表のpdfファイル（experimental_MidiFileName.pdf）と以下の16種類のpdfファイルが出てきます。

frqA・frqB：和音の出現頻度（規格化済：転回は区別しません。）
dfrqA・dfrqB：和音変化の出現頻度（規格化済：転回は区別しません。）
nfrqA・nfrqB：12音の各音の出現頻度（規格化済：音高は区別しません。）
pitchA・pitchB：各音（MIDIコード番号）の出現頻度（規格化済：
音高を区別します。）
cdnzA・cdnzB：和音の遷移パターン（転回は区別しません。）
dcdnzA・dcdnzB：和音変化の遷移パターン（転回は区別しません。）
dseqA・dseqB：和音変化の系列（転回は区別しません。）
seqA・seqB：和音の系列（転回は区別しません。）

クラスタリングには、R言語(ver.3.5.0)を用いました。頻度系のfrq, nfrq, dfrq, pitchについては標準のdist()関数の結果をhclust()関数に与えた結果をplotしたもの。時系列系のseq, dseq, cdnz, dcdnzについては、TSclustライブラリを用いてDTW 距離を用いて距離計算をした結果をhclust()に与えた結果です。

ただし時系列系のクラスタリングでは、DTW距離は、サンプルの長さの違いの影響を受けない手法とされているにも関わらず、結果を見る限りでは楽曲の長さの違いの影響が出てしまっているように見えます。長さを何等かのやり方で規格化してみることも考えられますが、まだ試していません。通常時系列解析で入力として想定されるデータは、明確な周期性や単調な増減などの幾つかの要素に分解できるようなものであるのに対し、楽曲の時系列プロセスはかなり性質を異にするデータである点も留意する必要があるように思えます。

いずれにしても、興味深い結果が得られたからではなく、あくまでも試にやってみた結果を公開するものであることを予めお断りしておきます。強いて言うならば、このようなごく基本的なデータでの初歩的な分析において、どのような前処理が必要かといった点の確認や、それをクリアできたとして、分析可能なもので、分析するに値する興味深いものがそもそもあるのかを探索してみた結果と捉えて頂ければと思います。

ご利用にあたっての注意：公開するデータは自由に利用頂いて構いません。あくまでも実験的な試みを公開するものであり、作成者は結果の正しさは保証しません。このデータを用いることによって発生する如何なるトラブルに対しても、作成者は責任を負いません。入力として利用させて頂いたMIDIファイルに起因する間違い、分析プログラムの不具合に起因する間違いなど、各種の間違いが含まれる可能性があることをご了承の上、ご利用ください。(2019.9.7)
改訂版公開(2020.1.29)

グスタフ・マーラー

お知らせ

MIDIファイルの分析：基本データに基づくクラスタリング結果(2020.1.29更新)

0 件のコメント:

コメントを投稿