認識・生成過程の統合に基づく視聴覚音楽理解
【研究キーワード】
音楽情報処理 / 深層学習 / ベイズ学習 / 信号処理 / 記号処理 / 音響信号処理 / 音声処理 / 画像処理
【研究成果の概要】
2021年度は、音楽認識に関して、これまで培った各種技術の統合と高度化に取り組むとともに、音楽生成に関して、自動編曲技術の開発にも着手した。まず、相互依存関係を持つコードとキーの同時推定に関して、コード推論モデルとクロマベクトル生成モデルの同時学習を行うための変分自己符号化器 (VAE) を拡張し、キー系列・コード系列・クロマベクトル系列の三階層からなる階層VAEを定式化することで、キー推論モデルとコード生成モデルの同時学習を実現した。また、拍節構造推定に関して、各フレームにおけるビート・ダウンビートの存在確率 (0から1) を予測する代わりに、位相 (0から2pi) を予測することで、拍節構造の周期性を効果的に学習する手法を考案した。さらに、ドラム採譜に関して、大域的な周期構造を捉えるため、周期関数に基づく位置エンコーディングと自己注意機構に加えて、ドラム言語モデルに基づく正則化を用いる手法を考案した。ピアノ採譜に関しては、採譜誤りは挿入・削除・置換からなる確率的な編集操作であるという立場から、誤りを含む採譜結果の生成過程を階層隠れマルコフモデル (HHMM) を用いて定式化し、誤りを含む採譜結果から真の楽譜を解析的に推定する手法を考案した。また、ピアノ採譜における音価・声部推定部において、従来のHMMの代わりに、深層学習を用いて一挙に推論を行う手法を考案した。一方で、自動編曲に関して、ポピュラー音楽のバンド譜からピアノ譜への深層変換モデルを学習する際に、本来一意に定めることができない正解楽譜と音符レベルで表層的に一致させるだけではなく、音符全体から計算される統計量(同時発音数・音高幅・音符密度)を、所望の難易度の統計量に近づくような正則化を行う手法を考案した。視覚情報の取り扱いに関して、VAEに基づく画像データに対する姿勢推定技術の高精度化も実現した。
【研究代表者】
【研究分担者】 |
河原 達也 | 京都大学 | 情報学研究科 | 教授 | (Kakenデータベース) |
森島 繁生 | 早稲田大学 | 理工学術院 | 教授 | (Kakenデータベース) |
|
【研究種目】基盤研究(B)
【研究期間】2019-04-01 - 2023-03-31
【配分額】17,160千円 (直接経費: 13,200千円、間接経費: 3,960千円)