Discovery Sagaサイレントキーワード俯瞰

本年度は、NTCIR1のTMRECタスクで配布された用語抽出テストコレクションを利用して専門分野コーパスからの専門用語抽出の研究に取り組んだ。過去に行われた用語抽出方法は、多くの場合、用語のテキスト集合での出現頻度を利用するものであった。この研究では、むしろ今まで注意が払われてこなかった語彙空間における用語の性質を考慮する方法を検討した。提案した用語抽出方法は、専門用語の85%を占める複合語と、その構成要素である単名詞の関係を統計的に処理するものである。例えば、「人間情報システム」「社会情報システム」など「情報」という単名詞の左右に多様な名詞が付着して複合語である専門用語が構成されるとき、「情報」という単名詞の専門用語としての重要性は、その左方、および右方に付着する名詞の種類数によって定義した。さらにこうして得た個々の単名詞の重要度を幾何平均することによって、複合名詞の重要度を定義した。具体的な用語抽出システムとしては、(1)日本語コーパスを形態素解析、(2)複合語すなわち名詞連続を用語候補として抽出、(3)上記の重要度を各候補に対して計算、(4)TRMRCテストコレクションによる精度の評価、を行った。この結果、提案した用語抽出システムは、NTCIR1の参加チームに比べて上位の精度を出すことが確認された。また、この用語抽出方法を利用した日英対訳表現の抽出へむけて、用語抽出システムの英語適応化も行い、その動作を確認した。

【研究分担者】
田中久美子 (石井久美子	田中久美子(石井久美子))	東京大学	大学院・情報学環	講師	(Kakenデータベース)