日本中世古文書フルテキストデータベースの構築方法に関する研究
【研究分野】情報システム学(含情報図書館学)
【研究キーワード】
ア-カイヴス / KWIC検索 / 歴史語彙コーパス / 平安時代フルテキストデータベース / 平安遺文 / 電算写植 / 歴史的漢字表 / データベース構築の公開原則 / 歴史語彙ユ-パス / 古文書 / 古記録 / フルテキスト / ハイパーテキスト / 史料 / 史料集 / 歴史語集 / 日本史データベース / 古文書フルテキストデータベース / 歴史語彙情報 / 日本史史料処理漢字リスト / 古記録フルテキストデータベース / 日本中世史研究 / 活字本電算化前処理 / コンコーダンス表示
【研究成果の概要】
本研究の目的は、第一に歴史文字資料の全文をコンピュータに入力する際の前処理の方法、第二に管理情報の付与の形態、第三に文字・キーワード・検索方式の研究の三点にあった。1については、HTML形式で入力して前処理を基本的に省略する仕様を確定し、学界・社会からの要請のスピードにあわせて、フルテキストを形成し、同時に、将来、電算印刷情報をデータベース化する際の受け皿の基本的考え方につなげることができた。2の管理情報付与の形式については、刊本資料集にはかならず存在する「目次」を利用するという単純な結論となった。これは、近年のア-カイヴスの動向の中で大きな問題となっているが、大量に存在している目次を史料構成要素の最基礎段階(ITEM段階)を機械的に総覧する道具として使用することが実際的なことを確定できた。3については、中世史料処理のための必須漢字表を集成したこと(これは今後のコンピュータの文字文化の議論の有力な手段となる)、歴史語彙としては最高数(約8万件)のキーワード辞書を形成したこと(これは歴史語彙コーパス形成のための今後の語彙学との学際的議論の前提となる)、KWIC検索方式(コンコーダンス方式)を確定したことなど、多様な成果があった。
さらに、データ形成と公開については、本研究によって、『平安遺文』と『大日本古記録』(平安時代分)を中軸とすると「平安時代史料フルテキストデータベース」を構築し、史料編纂所ホームページから公開したこと、本件級の中心をなした『平安遺文』(竹内理三編纂)については、CD-ROMの発行を実現したこと(1998年4月予定)、本研究の発展として『大日本古文書』のフルテキストデータベース構築(1997年度より研究成果公開促進費、データベース)が開始されたことをあげておきたい。以上、コンピュータデータベース構築における公開原則の先進例を提供することができたと考えている。
【研究代表者】