Webテキストからの知識抽出支援システムに関する研究
【研究分野】知能情報学
【研究キーワード】
WWW / 知識 / テキスト / マイニング / 用例検索 / 名寄せ / 用語抽出 / 機械学習 / 検索 / テキストマイニング / 半構造テキスト / ブログ / Trie / n-gram / 情報検索 / インデキシング / 自然言語処理 / 用例
【研究成果の概要】
本研究においては、膨大な量のWebページから、利用者が興味を持つ分野の知識を記述するテキストを抽出し表示するシステムを開発した。具体的には、以下のようなシステムを提案しプロトタイプおよび実用的なシステムを開発した。(1)利用者の検索エンジンなどで検索し指定したWebページから、既開発の用語抽出システム「言選Wbb」を用いて、そのページを特徴つける重要語を抽出するシステム。(2)こうして抽出した重要語集合の中から、その定義、あるいは複数の重要語の間の関係を知ることを目的とし、Webからの用例検索システムKiwiを利用して、それらの重要語を含む用例文を多数抽出するシステム。(3)ただし、(2)においてWebを直接に検索する従来の用例検索システムを、高速化するために、既存クローラで収集したWebページを対象にする新たな用例検索システムを開発し、UT-Kiwiとして公開した。(4)上記の用例検索の精度の向上を目的とし、同一名が異なる実体を参照する場合、別名が同一実体を参照する場合を解消するWeb名寄せのメカニズムを提案し、試作システムNayoseを構築した。(5)Webテキスト情報からの知識抽出の基礎となる機械学習アルゴリズムを開発した。(6)Webテキストの活用の狙って、Web上の英文テキストから穴埋め4択問題を自動生成するシステムSakumonを開発した。
【研究代表者】