Discovery Sagaサイレントキーワード俯瞰

本研究では、時系列パターン認識に必要となる確率モデルとして通常用いられている隠れマルコフモデル(HMM)に代わる、表現能力の高い確率モデルを提案した。さらにこれらを用いて高精度な連続音声認識システム、ジェスチャ認識システムを実現することを試みた。具体的な研究成果は以下の通りである。
(1)部分隠れマルコフモデル(PHMM)の導入
複雑な特徴量の時間変化を確率モデル内部で扱うことを目指して、部分隠れマルコフモデル(PHMM)を提案した。PHMMはHMMに比べて過渡部の表現能力に優れており、出力確率のみならず、状態遷移確率も過去の出力に依存して決まる点が他の先行研究と異なる。シミュレーション実験から、PHMMは過渡部の表現能力、および正解カテゴリに対する尤度の安定性という点で、HMMよりも良好な性能を与えることが確認できた。また、ジェスチャ認識、孤立単語認識において、PHMMは条件によらずHMMを上回る性能を示した。しかし、連続音声認識において差分あり特徴を用いた場合は、HMMの性能を下回ることがわかった。
(2)PHMMにおける状態・出力相互依存関係の拡張
従来、出力確率と状態遷移確率を決定するにあたり共通のものを用いていた隠れ状態と観測可能な状態の組を、隠れ状態に関しては共通のものを用い、観測可能な状態に関しては、出力を決定するものと状態遷移を決定するものとで異なるものを用いるように、PHMMおける状態と出力の依存関係の拡張を行った。これにより、PHMMは従来の枠組みよりも離れたフレーム間における出力の依存関係を扱うことが可能となる。連続音声認識実験により性能を評価したところ、従来のPHMMおよびHMMの性能を大幅に改善するとともに、従来のPHMMで差分あり特徴を用いた場合に見られた、HMMの性能を下回るという問題を解決している。
(3)PHMMにおける確率の平滑化
PHMMに基づく新たな確率モデルの枠組みとして、平滑化部分隠れマルコフモデル(SPHMM)を提案した。SPHMMは、PHMMにおける高次の確率をHMMで用いられる低次の確率で補間・平滑化するという枠組みであり、PHMMのもつ精密性とHMMの持つ信頼性を兼ね備えることを目指したものである。また、PHMMとHMMがともに高いスコアを与える単語仮説のみを正解とする枠組みであるので、誤認識を減少させるために有効であると考えられる。連続音声認識実験の結果、SPHMMは平滑化の重みを適切に設定したとき、HMM, PHMMよりも高い性能を与え、その有効性が確認された。PHMMの高次の確率をHMMの低次の確率で平滑化するというSPHMMの構造上、特に高次の特徴量を用いた場合に有効であることがわかった。