電子政府6万字種データベースに準拠した海外日本語研究者向けWeb漢字辞書の作成
【研究分野】日本語学
【研究キーワード】
日本語研究資源 / 漢字辞書 / 選好 / 親近度 / ロジスティック回帰分析 / 一般対応法則 / インターネット / 異体字 / 単純接触効果 / 電子政府 / 経済産業省 / 日本語環境整備 / 日本規格協会 / 情報処理学会
【研究成果の概要】
1.研究の目的
日本語環境を持たない海外のインターネット閲覧ソフトウェア(ブラウザ)でも,現地の日本語研究者が,高品質な漢字データベースを確実に閲覧できるようにするための情報基盤の検討を行った。具体的には,電子政府の行政情報化で利用が予定されている6万字種漢字データベース(以下,「電子政府6万字種漢字データベース」という)を参考にしながら,Webで異体字を正確に表示するための基礎研究を進めた。
2.研究の方法と結果
電子政府6万字種漢字データベースは,文字コードの相違によらず,海外でも確実に当該の字体が表示できるよう工夫されている。その長所を十分に活かして,本研究では日本規格協会と国立国語研究所が連携して開発した6万字に達する「文字グリフ」(フォントの字母のようなもの)の利用法を吟味した。
文字グリフの最大の特長は文字化けを防ぐことにある。ここでの文字グリフとは,字体の骨組みを示す文字図形デジタルデータ(つまり画像ファイル)であり,1文字を1ファイルの形式でブラウザ等に配信することになる。これは画像なので,文字コードの相違によって引き起こされる文字化けの問題は解消される。この文字グリフに対する選好(好み)や親近度(なじみ)について,実証的なデータを収集し,ロジスティック回帰分析などの多変量解析を用いて分析を行った。
その結果,字体に対する選好判断は,コーパスに出現する頻度でかなり精度よく予測できることが明らかになった。予測式は一般対応法則で記述できることも分かった。
【研究代表者】
【研究分担者】 |
柳澤 好昭 (柳沢 好昭) | 独立行政法人国立国語研究所 | 日本語教育情報基盤センター | センター長 | (Kakenデータベース) |
米田 純子 | 独立行政法人国立国語研究所 | 研究開発部門 | 研究員 | (Kakenデータベース) |
笹原 宏之 | 国立国語研究所 | 研究開発部門 | 主任研究員 | (Kakenデータベース) |
|
【研究種目】基盤研究(C)
【研究期間】2004 - 2006
【配分額】3,700千円 (直接経費: 3,700千円)