Discovery Sagaサイレントキーワード俯瞰

本プロジェクトでは、テキストからの知識獲得を人間援助の形式で行うためのシステムを構築した。より具体的には、次の3つのシステムである。
1.中央データベース系の設計とその開発:東京大学・辻井研究室で開発中の記号処理用プログラム言語LiLFeSと日本電子化辞書(EDR)で開発されてきたコーパス・データベース、及び、概念辞書データベースとのインターフェースを設計・開発し、獲得された知識とそのもととなったテキストどもどもの管理が行え雨量にした。
2.専門用語の自動認識プログラムの開発・学術情報センターにおいては、専門用語製を判定するための基本となる専門用語の統計的な性質を研究し、専門用語製判定のためのプログラム群を作成した。また、東京大学・辻井研究室ではn-gramの連結性を判定する速度を導入し、これがゲノム・サイエンス関連の文献から、その分野での専門用語を抽出するのに有効であることを確認した。これらのプログラム群は、中央データベースとそのインターフェース条件を満足するパッケージとして整理され、一つのシステムとして統合されている。
3.意味クラス同定のためのプログラム群の開発:東京大学・辻井研では、2で抽出された専門用語を、その周囲の環境に関する情報にしたがって意味的に分類する手法を開発した。これらは、ゲノム分野、株式分野、工業製品ニュースなどに適用され良好な結果を得ている。

【研究分担者】
池原悟	鳥取大学	工学部	教授	(Kakenデータベース)
影浦峡	学術情報センター	助教授	(Kakenデータベース)
小山照夫	学術情報センター	教授	(Kakenデータベース)
清野正樹	松下電器	東京研究所	研究員