言語理解における人間の振舞いの分析と言語処理の高精度化への応用
【研究分野】知能情報学
【研究キーワード】
自然言語処理 / コーパス / アノテーション / 視線情報 / 振舞い情報 / 機械学習 / 行動履歴 / 視線計測 / コーパスアノテーション
【研究成果の概要】
自然言語処理の分野では,単語の品詞など,解析結果として得たい正解を解析対象のテキストに人手で付与(アノテーション)した「コーパス」を構築し,それを機械学習の訓練データとして用いることによって問題を解く手法が主流である.自然言語処理の広範な課題を網羅するために,自然言語処理の課題をセグメント課題,リンク課題,変換課題に分類し,各タイプの課題においてアノテーション作業者の視線,キー入力,マウス操作などの振舞いを記録し,アノテーション結果に加えてこれらの振舞いの情報も機械学習の入力とすることを提案し,実験を通してその有効性を検証した.
【研究の社会的意義】
文章読解や問題解決における視線情報などの振舞いを分析する研究はおこなわれているが,アノテーション中の振舞いを記録し,さらにそれを言語処理に活用する研究は類を見ない.本研究課題の成果であるアノテーション過程の作業者の振舞いから言語処理に有用な情報を抽出する手法は,十分な解析性能が得られていなかった言語処理の分野においても解析性能を向上させることができ,その学術的貢献は大きい.自然言語処理技術は実社会ですでに利用され始めている.今後,意味や文脈に踏み込んだ研究が発展することにより,既存の実用システムがさらに高度化され,使い易くなることが期待できる.
【研究代表者】
【研究分担者】 |
西川 仁 | 東京工業大学 | 情報理工学院 | 助教 | (Kakenデータベース) |
相澤 彰子 | 国立情報学研究所 | コンテンツ科学研究系 | 教授 | (Kakenデータベース) |
|
【研究種目】基盤研究(B)
【研究期間】2016-04-01 - 2019-03-31
【配分額】13,260千円 (直接経費: 10,200千円、間接経費: 3,060千円)