新聞6億字の言語調査と日本語学習者へのWeb出版によるデータ提供
【研究分野】教育工学
【研究キーワード】
日本語教育教材 / 漢字学習 / ニーズ分析 / 書誌情報データベース / 日本語環境整備 / インターネット / 日本書籍出版協会 / 国際交流基金 / 文字・単語頻度表 / 新聞記事データーベース / Web出版 / WWWブラウザ / 大規模文字データベース / 文字配信システム
【研究成果の概要】
1.研究の目的
海外の日本語学習者において常に強いニーズがある漢字学習の問題に中心を置き,教材開発の基盤をなす言語資源の作成と,それをWebで海外にも広く流通させる手段の開発を行った。日本語教育の現場では,日本の新聞を教材として活用することが珍しくない。このような状況を鑑み,本研究は,新聞記事の全文データベース(朝日新聞・毎日新聞・日本経済新聞:電子化テキストは購入済み,著作権使用許諾についても新聞社各社と契約済み)を分析の対象とした。これらは,1年あたりで約10万件にものぼる膨大な記事をCD-ROM化した電子メディアであり,言語分析の資料としての価値は高い。
2.研究の方法・結果
まず,新聞6億字の資料を対象に文字・単語の頻度調査を実施し,日本語学習に有用な言語資源を作成した。次に,文字・単語調査で得られた頻度表を,海外の日本語教育機関に提供し,世界のインターネットに流通させるためのシステムを開発した。本研究は,文字・単語頻度表のHTMLあるいはXMLファイルのなかに,インターネット上で公開されている世界最大の「文字GIFデータベース」へのリンク情報を書き込むという方法によって,9万字以上の漢字画像ファイル(文字グリフ)を高速配信できる環境を整備した。
3.波及効果
本研究が開発に寄与した大規模文字グリフ群の高速検索・配信システムは,経済産業省を中心とする「汎用電子情報交換環境整備プログラム」の競争的公募における審査で実績が評価され,その基本技術の一端が経済産業省・総務省・法務省など5省庁連合による電子政府文字情報データベースに採用された。このように,本研究の成果の一部は,我が国の文化情報政策・経済産業政策・行政情報処理を基底から支える知的財産として広く認知されつつあると言えよう。
【研究代表者】