S上のデータ解析環境の高度化
【研究分野】統計科学
【研究キーワード】
データ解析 / 計算機環境 / S / マーケティング / 地震 / 金利 / 薬学 / S言語 / ウェーブレット / モデル選択
【研究成果の概要】
本研究は,米国ベル研究所を中心に本代表者も参加して10年以上の歳月をかけて開発されたデータ解析用の計算言語1環境Sの更なる高度化をめざした研究である.Sはオブジェクト指向型の関数型言語を基本とした対話型の解析環境であり,きわめて先進的であるが,その前段階であるデータの収集,組織化,加工,モデルの探索に関してはまだ未成熟な段階にとどまっている.そこで,本研究では本代表者らが開発したデータ記述とデータの一体化のための準言語であるD&D(Data and Description)をS上に導入して,そこで現実のデータにもとづくモデル化の実験を行うことにより,その有効性を検証し問題点を明らかにすることを第1の目的とした.
1992年の9月から1986年12月までの7種類の円金利データを用いた実験では,これまでのような特定の経済モデルを前提とした解析ではなく,データからモデルを探索するアプローチをとった.結果として14,469件のデータと格闘することになったが,で-た形式や欠損値の処理など,さまざまな問題に対してS上のD&D環境がいかに強であるかを実証するとともに,必要な改良を施すことができた.
1992年後半の全国大小のスーパーマーケット139店での保存食品9品目の売上高と売上量13週分のデータを用いた実験では,16,250件というデータの量だけでなく,多種多様な証明享量が存在するため,さまざまな試行錯誤が必要であった.ここでも我々の環境の強力さは検証でき,夏から冬にかけての時間効果をとり出すことができた.
この他にも,研究途上で必要となったブートストラップ法によるモデル選択,ウェーブレットによる時系列解析,縮小推定量の改良,薬学データの扱いなどに関しても,代表者,分担社がそれぞれ独自に研究を進めた
【研究代表者】