ヒューマンコミュニケーション検索・要約のためのマルチモーダル認識の研究
【研究分野】知覚情報処理・知能ロボティクス
【研究キーワード】
音声認識 / 動画像認識 / マルチモーダル認識 / ヒューマンコミュニケーション理解 / 情報検索 / ヒューマンコミュニケーション / 対話マイニング
【研究成果の概要】
ヒューマンコミュニケーション理解のために、音声・動画から構成されるマルチメディアデータに対するマルチモーダルパターン認識技術を開発した。まず映像におけるイベントの抽出では混合ガウス分布とサポートベクターマシンを用いた統計的手法を提案し、世界40機関が参加して開催されたTRECVID2010ワークショップで世界4位(日本からの参加者中では1位)の成果を得た。また、音声モデルの能動学習・能動適応、耐雑音音声認識、ミーティング音声認識のための信号処理、マルチモーダル認識アルゴリズム、話者認識・ジェスチャー認識、発話スタイル解析、映像要約の手法をそれぞれ開発した。
【研究代表者】
【研究分担者】 |
古井 貞熙 (古井 貞煕) | 東京工業大学 | 大学院・情報理工学研究科 | 教授 | (Kakenデータベース) |
|
【研究種目】基盤研究(B)
【研究期間】2008 - 2010
【配分額】17,940千円 (直接経費: 13,800千円、間接経費: 4,140千円)