文書の自動難易度判定に関する研究
【研究分野】知能情報学
【研究キーワード】
自然言語処理 / 語学学習 / 情報分類 / 機械学習 / 情報抽出 / 語学教育
【研究成果の概要】
本研究では、機械学習に基づく文書難易度判定の新しい手法を提案し、ある文書をユーザが与えると、その文書と難易度的に類似する文書を主要新聞記事サイトから獲得し、ユーザに提示するweb上のシステムを作ることを目的とした。既存研究としては、分類、あるいは回帰によるモデル化が行われてきたが、これでは、学習に必要な正解データを多言語で十分に確保することは難しい。本研究では、文書集合が与えられたときに、その集合に順序構造を導入することで難易度判定を行うことを提案した。
検証は英日両方で行い、実際のシステムは英語、日本語で稼働させ、さらに中国語やスペイン語での構築を試みた。アイデアの根本部分については、有効性が十分検証され、言語処理分野の世界的な最高峰の英文論文誌Computational Linguisticsの論文として、採録となり、分野においてこれ以上の学術的な成果はないと考える。
最終年度は、アイデアに関わる付随問題の検討に費やされた。まず、提案手法をより広い視野としての機械学習手法、語学学習の中で位置付け、この点を上記論文に加筆し、論文は6月に出版された。また、素性に相対頻度以外の統計量を追加し、アイデアの検証を行った。その背景には、本研究のための基礎研究があり、それらはいずれも雑誌論文として最終年度に出版するに至ったものである。第一は、莫大量のデータで計測された単語頻度が単語の難易度とどの程度相関するかを検証した。第二に、文書の複雑さを表す指標について研究を行った。これら二種類の指標と、文法的特性に関する指標などを追加して根幹アイデアを再検証し、実際に精度が向上することが示された。
プロトタイプシステムは、実用に向けての再実装を行ったが、公開するには至っていない。というのも、検索対象として想定していたのは新聞で日々クロールされ集められるが、その難易度は均質にすぎ、検索対象としてのデータとして十分に難易度が異なるものではなかったのである。つまり、検索の対象とするデータが十分に得られないという予想外の問題が起きたため、システムは公開には至らなかった。この点は、たとえばユーザが文書を提供し合うなどソーシャルな枠組みなどを新たに考案する必要があるであろう。
本研究は最初の2年間で最も重要な研究部分を終え、三年目は実用化のための機器類以外にはさほど費用を必要としなかった。このため、最終年度は残余分を返却するが、研究成果としては十二分に挙がったと自負している。
最後に、3年間ご支援いただいた、本科研に関わる審査員や事務の皆様に、心より感謝申し上げます。
【研究代表者】
【研究種目】挑戦的萌芽研究
【研究期間】2008 - 2010
【配分額】3,300千円 (直接経費: 3,300千円)