Discovery Sagaサイレントキーワード俯瞰

重点サンプリングの考え方をベースに、進化計算と強化学習の高速化を図るとともに、両者の相補性に着目し、両者を適切に融合する手法を構築することを目的に研究を行い、以下の成果を得た。
(1)重点サンプリングを用いたGAによる強化学習
強化学習において過去の経験を有効に利用するために重点サンプリングと呼ばれる統計的手法に着目し、大域的最適政策を効率良く求める手法を提案した。重点サンプリングを用いてGAの親集団の経験を再利用することにより、子個体の政策評価を推定する方法を提案し、環境とのインタラクションを削減できることを示した。さらに、子個体の生成に交叉と政策勾配を用いた局所探索を併用することで、多峰性への対応が可能になり、かつ学習が高速化されることを確認した。
(2)ハイブリッドGAによるインスタンスベース政策学習
インスタンスの集合で強化学習の政策を表現し、GAによって最適化する直接探索法を提案した。インスタンスは連続状態・連続行動の対で表される。インスタンスベース政策の最適化には組み合わせ最適化と関数最適化の側面があることに着目し、インスタンス集合を最適化するための2項分布交叉BDX、インスタンスのパラメータを最適化するための突然変異交叉INDX、およびこれらを統合したハイブリッドGAを提案し、並列二重倒立振子振り上げ安定化問題などで妥当性と有効性を確認した。
(3)多目的関数最適化のためのパレート降下法とその応用
多目的関数最適化問題の解概念であるパレート解は一般に集合をなす。集団で解を探索するGAはパレート解集合の近似解集合を一度の探索で求める点で効率的であるが、探索終盤に進化的停滞が生じ、精度において問題がある。本研究では、多目的GAが探索終盤で進化的停滞を生じる原因を解明し、高精度の解を得るためには局所探索の導入が必要不可欠であることを指摘し、高性能な局所探索法としてパレート降下法を提案した。さらに、多目的GAによる探索の後でパレート降下法を適用するGA then LSの枠組みが推奨されることを性能比較実験により示した。

【研究分担者】
佐久間淳	東京工業大学	大学院総合理工学研究科	助手	(Kakenデータベース)
木村元	九州大学	大学院・工学系研究科	助教授	(Kakenデータベース)