ウェブ上の文書から学術論文を自動判定し,検索するシステムの設計開発
【研究分野】図書館情報学・人文社会情報学
【研究キーワード】
学術論文 / 検索エンジン / ウェブ構造 / 情報検索 / 自動分類 / 機械学習 / 学術情報 / サーチエンジン / ウェブ
【研究成果の概要】
研究の目的は,分野を限定せず,日本語及び英語の学術論文への直接的なアクセスを保証し,公開された検索アルゴリズムを用いた学術論文に特化した検索エンジンの構築と評価である。ウェブクローリングを行うために機関リポジトリ収載ファイルを調査し,深層ウェブの存在などウェブ構造を明らかにした。また,日本語および英語で書かれた全分野の学術論文の構成要素と構成を調査し,その結果に基づいて,学術論文の自動判定を行うための判定ルールを構築した。次いでウェブから約300万件の日本語PDFファイルを収集し, Solrによる検索エンジンの構築を行った。既存の検索エンジンと比較評価を行った結果,構築した検索エンジン「アレセイア」は,論文へのアクセスの点で優れており,高い確率で学術論文を自動判定できることが明らかになった。
【研究代表者】