Discovery Sagaサイレントキーワード俯瞰

本研究では、データ処理だけではなく、ユーザがデータ構造を認識し、処理目標を決定するデータ解析も前処理の支援範囲とする。データ解析ではデータの視認性が大切であり、そのためにデータの階層関係を木構造で可視化するインタフェースを開発した。
さらに、前処理のプロセスを「基本的な前処理」と「特別な前処理」の二つに分けた。前者はデータの初期設定とデータクリーニングであり、マイニング結果に依存しにくいプロセスである。後者はマイニング結果に応じてフィードバックのかかる処理である。GIANTには評価結果をフィードバックさせることにより、ルールの重み(=ネットワークのリンクの重み)を調整する機能がある。これを用いて特別な前処理のプロセスを制御する試みを行った。データマイニングの要素モジュールもかなりの計算資源を消費するが、GIANTではそれを要素とするデータマイニングの過程自体を学習するような一種のメタ学習を行う。これにより、データマイニングの処理手順自体を学習により獲得するための目処を得ることができた。
最後に、前処理支援システムを実際のデータでテストし、問題点を徹底的に洗い出した。また、実際に医療データを用いて、ユーザにシステムを試用してもらい、前処理過程の抽出を行った。処理ステップ数を典型的なデータベースソフトであるAccessと比較し、本システムを用いることにより、処理ステップ数が少なくなっていることを確認した。

【研究分担者】
NATTEE Cholwich	大阪大学	産業科学研究所	助手	(Kakenデータベース)
佐藤泰介	東京工業大学	大学院・情報理工学研究科	教授	(Kakenデータベース)