スモールデータ機械学習理論に基づく音響拡張現実感及び音コミュニケーション能力拡張
【研究キーワード】
音源分離 / 信号処理 / スモールデータ / 機械学習 / 音響拡張現実感
【研究成果の概要】
(1)センシング・解析レイヤー:ILRMAを時変複素一般化ガウス分布へ拡張し、その有効性を定量化した。特に劣ガウス分布への拡張を提案し、その音楽信号分離への効果を様々な実験によって検証した。またIDLMAに関しては、時変複素スチューデントt分布・一般化ガウス分布音源生成確率モデルを基礎とする新しいIDLMAを導出し、それらを定量的に評価した。
(2)時空間情報再構成レイヤー:従来の両耳再現の問題として、頭部形状の個人性の問題がある。昨年度に引き続き、これを両耳統計モデルとしてモデル化し、その汎用性に関して検討を行った。また、前レイヤーのブラインド/半教師有り信号分解は基本的にランク1空間モデルと呼ばれるものであり、後段レイヤーへの応用を考えると無数の拡散性音源・雑音が存在する場合を考慮する必要がある(これはフルランク空間モデル推定問題と呼ばれる)。これを高精度かつ高速に実装するため、ILRMAで求められた雑音ランク1空間モデルをMajorization-Minimizationアルゴリズムによる尤度最大化によってフルランクへ拡張する理論を提案し、実環境データで評価を行った。その結果、従来のフルランク音源分離法よりも高速かつ高精度な分離を実現できた。
(3)ユーザインターフェイスレイヤー:直感的な声質・イントネーション制御機能を備えたDNN音声変換技術を構築するため、従来のDNNが要求するような教師有り学習用ビッグデータをどこまでスモールなものに出来るかを検証した。特に、音響尤度に基づくサブワード分割法を用いた教師無し音声合成やスペクトルのGMM近似に基づく音声合成の導入を行い、それらの有効性を定量化できた。
【研究代表者】