探索的分析によるデータ駆動型仮説の信頼性評価法の確立と生命科学分野における実証
【研究キーワード】
機械学習 / 教師なし学習 / 統計的推測 / 選択的推論 / 医療情報学 / 統計科学 / 人工知能 / 生命科学
【研究成果の概要】
機械学習などのデータ分析技術を利用する科学研究のアプローチはデータ駆動型科学と呼ばれさまざまな分野で有望視されている.データ駆動型科学では研究対象に関するデータを分析することによって科学的仮説を生成するため,従来のアプローチでは思いつかないような仮説を生み出せる可能性がある. 一方,複雑なデータを複雑なアルゴリズムで分析して得られた仮説の信頼性を評価するのは難しい.特に,教師なし学習と呼ばれる探索的なデータ分析によって仮説が生成される場合,信頼性を保証する方法は確立されていない.特に,生命医療分野など,誤った判断のもたらすリスクが大きい状況ではデータ駆動型仮説の信頼性を確保することが不可欠である.本研究では,探索的データ分析によって得られたデータ駆動型仮説の信頼性を定量化する数理・情報基盤を構築し,その有用性を生命医療分野において実証する.教師なし学習アルゴリズムが強力であればあるほど(データへの適合力が大きければ大きいほど),有望な仮説が生成できる可能性が高まる一方,仮説選択バイアスも大きくなってしまう.データ駆動型仮説の信頼性保証は,仮説選択バイアスを正しく定量化し,その補正を行うことによって実現できる.本研究では仮説選択バイアスを適切に補正し,アルゴリズムが仮説を生成したという条件のもとで統計的推論(仮説検定の枠組による偽陽性率(p値)や信頼区間の計算)を行う方法を確立する.2021年度は,特定の深層学習の選択的推論法を確立した。特に、深層学習の構造を変えるたびに選択イベントの同定が必要とならないようなメタアルゴリズムの構築することができた。
【研究代表者】