混合音に対する複数同時発話認識のための統一的ベイズアプローチ
【研究分野】知覚情報処理
【研究キーワード】
音源分離 / 音声認識 / 確率モデル / ベイズモデル / MCMC
【研究成果の概要】
本研究では、音源分離を確率的に統合した同時発話音声認識を行う手法を提案した。音源分離により復元される音声信号には不確実性が存在するため、音声信号の事後分布を考慮することで音声認識との統合を行う。これにより、復元すべき音声を一意に定めることなく混合音から直接認識結果を得ることが可能となった。また、音の重畳過程と音源モデルを内包する統合モデルにより、高精度な音源分離を行う手法を考案した。具体的には、重畳過程・音源モデルに対して、混合モデル (LDA) および因子モデル (NMF) のそれぞれのモデル化を行うことで、各モデルの音源分離性能を比較評価した。
【研究代表者】
【研究分担者】 |
糸山 克寿 | 京都大学 | 情報学研究科 | 助教 | (Kakenデータベース) |
|
【研究連携者】 |
河原 達也 | 京都大学 | 大学院情報学研究科 | 教授 | (Kakenデータベース) |
持橋 大地 | 統計数理研究所 | モデリング研究系 | 准教授 | (Kakenデータベース) |
|
【研究種目】挑戦的萌芽研究
【研究期間】2015-04-01 - 2017-03-31
【配分額】3,640千円 (直接経費: 2,800千円、間接経費: 840千円)