古今東西の全言語を対象にしたテキストマイニングに関する研究
【研究分野】知能情報学
【研究キーワード】
多言語処理 / 機械学習 / モデル化 / 文書自動分類 / N-gram / テキストマイニング
【研究成果の概要】
文字N-グラムに基づく言語独立なテキスト分類手法である蓄積手法を提案した。蓄積手法は、索引語を形成する際に文字N-グラムを使用するので、言語固有の文法構造に依存しない。テキスト文書がUnicodeで表現されてさえいれば、蓄積手法は異なる言語に対しても同一のプログラムを用いて文書を分類することができる。そこで、この蓄積手法を用いて英語と日本語と韓国語と中国語のテキスト文書の分類実験をした。その結果、英語のReuters-21578は94.5%、日本語の毎日新聞の実験データは88.5%、韓国語のハンギョレー新聞の実験データは90.2%、中国語の人民日報の実験データに対しても92.6%の精度で分類することができた。このように、蓄積手法が様々な言語で比較的高い精度で分類できることを確認した。さらに、蓄積手法の数理モデルを構築し、その数理的な意味を解明することができた。
【研究代表者】
【研究連携者】 |
大須賀 昭彦 | 電気通信大学 | 大学院・情報システム学研究科 | 教授 | (Kakenデータベース) |
後藤 正幸 | 早稲田大学 | 創造理工学部・経営システム工学科 | 教授 | (Kakenデータベース) |
須子 統太 | 早稲田大学 | メディアネットワークセンター | 助教 | (Kakenデータベース) |
|
【研究種目】基盤研究(C)
【研究期間】2010 - 2012
【配分額】4,160千円 (直接経費: 3,200千円、間接経費: 960千円)