あらゆる句の正規化:事実の抽出と発見のための大規模テキスト解析
【研究分野】知能情報学
【研究キーワード】
自然言語処理 / 機械学習 / ニューラルネットワーク / 深層学習 / 句の表現 / ジョイントモデリング / 意味解析 / 構文解析 / ベクトル空間モデル
【研究成果の概要】
本研究プロジェクトの目的はあらゆる句を正規化であるが、それを行うためには、様々な言語表現によって記述される名詞句や動詞句間の類似性を数値的に表現できる必要がある。
近年、そのような手法として、word2vecをはじめとする単語の分散表現の自動学習手法が注目を集めているが、我々はそれをさらに発展させ、「形容詞+名詞句」や「主語+動詞+目的語」といった句の分散表現を、構文解析済みの大量のテキストから自動学習する手法を開発した。具体的には、述語・項構造と呼ばれる、「深い」構文構造上にニューラルネットワーク言語モデルを構成し、述語・項構造中の単語予測の精度を最大化することによって、単語や句のベクトル表現を学習した。この種のベクトル表現の評価には、人間があらかじめ句の類似性を数値的にアノテートしたデータセットがしばしば用いられる。すなわち、得られたベクトル表現から計算される句同士の類似度が、人間の判断する類似度と高いほど高精度ということになるが、我々の手法によって得られたベクトル表現は、「形容詞+名詞」や「名詞+名詞」などにおいては、従来の世界最高レベルと同程度、「主語+動詞+目的語」のようなさらに複雑な構造をもつ句に対しては、従来の世界最高精度を上回る精度を達成した。このことは、我々の手法によって得られた句の分散表現が、従来手法よりも句の意味的な類似度をより正確にとらえていることを示している。
【研究代表者】
【研究種目】特別研究員奨励費
【研究期間】2013-04-01 - 2016-03-31
【配分額】2,300千円 (直接経費: 2,300千円)