深層学習による無音声発話インタラクションの研究
【研究キーワード】
サイレントスピーチ / 人間拡張 / 人工知能 / 音声処理 / 深層学習 / ヒューマンコンピュータインタラクション / ウィスパースピーチ / Human-AI-Integration / スピーチインタラクション / マルチモーダルインタラクション / サイレントボイス / ヒューマンAIインテグレーション / スピーチインタフェース
【研究成果の概要】
音声インタフェースは急速に普及してきているが、公共環境や騒音環境で利用できないなどの制限があった。本課題では、深層学習による無音声発話認識の研究を行った。顎の下側に取り付けられた超音波イメージングプローブによって観察される口腔内映像から発声内容を認識する深層学習器、皮膚運動を顎や喉に添付した加速度センサーから発話を推定する機構、マスクに添付した加速度センサーにより発話を認識する機構を構築し、スマートスピーカーなど音声対話システムを駆動できることを確認した。さらに、視線情報と口唇映像からのコマンド認識を組み合わせるマルチモーダルインタフェースの構築に成功した。
【研究の社会的意義】
本研究成果により、音声インタラクションが公共環境や騒音環境で利用できないなどの従来の制限を超えて利用できる可能性が出てきた。音声インタラクションは他の入力手段と比較しても高速で、手指を拘束しないなどの特徴を持つ。未来のモバイルインタフェースやウェアラブルインタフェースの手段としてサイレントスピーチが広範に利用される可能性がある。さらに、咽頭障害、声帯機能障害、高齢による発声困難者に対して、声によるコミュニケーションを取り戻すための支援技術としての利用意義がある。
【研究代表者】
【研究種目】基盤研究(B)
【研究期間】2019-04-01 - 2022-03-31
【配分額】17,420千円 (直接経費: 13,400千円、間接経費: 4,020千円)