コーパスからの専門用語の自動抽出と知識獲得のための統合的なツールシステムの開発
【研究分野】知能情報学
【研究キーワード】
知識獲得 / 意味クラス / データベース / 専門用語抽出 / 専門用語 / オントロジー / 係り受け解析 / 分布モデル / コーパス / 自動抽出 / 記号処理プログラム / 言語の統計的処理 / タ-ミノロジー / 知識表現 / 情報検索
【研究成果の概要】
本プロジェクトでは、テキストからの知識獲得を人間援助の形式で行うためのシステムを構築した。より具体的には、次の3つのシステムである。
1.中央データベース系の設計とその開発:東京大学・辻井研究室で開発中の記号処理用プログラム言語LiLFeSと日本電子化辞書(EDR)で開発されてきたコーパス・データベース、及び、概念辞書データベースとのインターフェースを設計・開発し、獲得された知識とそのもととなったテキストどもどもの管理が行え雨量にした。
2.専門用語の自動認識プログラムの開発・学術情報センターにおいては、専門用語製を判定するための基本となる専門用語の統計的な性質を研究し、専門用語製判定のためのプログラム群を作成した。また、東京大学・辻井研究室ではn-gramの連結性を判定する速度を導入し、これがゲノム・サイエンス関連の文献から、その分野での専門用語を抽出するのに有効であることを確認した。これらのプログラム群は、中央データベースとそのインターフェース条件を満足するパッケージとして整理され、一つのシステムとして統合されている。
3.意味クラス同定のためのプログラム群の開発:東京大学・辻井研では、2で抽出された専門用語を、その周囲の環境に関する情報にしたがって意味的に分類する手法を開発した。これらは、ゲノム分野、株式分野、工業製品ニュースなどに適用され良好な結果を得ている。
【研究代表者】