情報検索のためのコンパクトなデータ構造とその動的更新に関する研究
【研究分野】情報学基礎
【研究キーワード】
接尾辞配列 / 圧縮接尾辞配列 / 文字列検索 / 文字列圧縮 / 省スペース / 文書データベース / データ圧縮 / 情報検索 / アルゴリズム
【研究成果の概要】
大量データ処理のための領域効率のよいアルゴリズムとデータ構造の開発を行った.まず,文字列の高速検索を行うデータ構造として,すでに圧縮接尾辞配列が提案されているが,それを構築する省メモリなアルゴリズムを開発した.このアルゴリズムは定数サイズアルファベット上の文字列に関しては時間・領域ともに最適であり,定数サイズではない場合にも従来手法より高速である.具体的には,アルファベットサイズをΣ,文字列長をnとしたとき,O(n log Σ)領域,O(n log n)時間である.また,このアルゴリズムよりも時間はかかるが,圧縮率の高い文字列についてはさらに省スペースなアルゴリズムも考案した.計算量は,O(n log n)時間である(HOは文字列の次数0のエントロピー).
次に,複数の文字列の検索が可能なデータ構造を提案した.これは文字列の挿入・削除を高速に実行でき,検索も高速である.また,文字列だけでなく,一般の数列を表現するデータ構造についても考察した.このデータ構造は,数字の更新(増加),数列の和,検索を効率よく行え,必要な領域はほぼ最適である.
さらに,圧縮接尾辞配列のデータ構造として二次記憶での実装や分散環境に適したものを提案した.これにより,より大量のデータに対する検索を高速に行えるようになった.
【研究代表者】
【研究種目】若手研究(B)
【研究期間】2003 - 2004
【配分額】2,000千円 (直接経費: 2,000千円)