Discovery Sagaサイレントキーワード俯瞰

部分観測環境における深層強化学習における報酬設計の問題に対処するため、部分観測環境における教師なし強化学習のアルゴリズムの開発を行った。具体的には、部分観測性に対処するための記憶機構、および相互情報量に基づいた内発的報酬を設計した。本内発的報酬は、観測情報が限られている状態空間を優先的に探索し、有効な記憶を学習することを可能にする。実験では、外部報酬を使用せずに、部分観測環境において有益な方策を学習することに成功した。
強化学習の問題点の一つとして、学習時に見たことがない未知の環境においてエージェントの性能が大きく低下することが知られている。その問題に対処するため、行動類似性に基づく潜在状態表現を利用することで、モデルベース強化学習の汎化性能を向上させる手法の開発を行った。提案手法を背景画像が変化する環境における連続行動空間の制御タスクに適用し、汎化性能の検証を行なったところ、一部のタスクにおいて汎化性能の向上が見られた。
深層強化学習における報酬設計の問題に対処するため、これまでに様々な内発的報酬の仕組みが提案されている。本研究では、状態遷移の予測不可能性と、状態の新規性をベースにした内発的報酬を組み合わせることで、noisy-TV problem と呼ばれる、ランダムな状態遷移が継続して起きる状況にエージェントがトラップされる問題の解消を試みた。実験の結果、探索が難しいとされるベンチマークでの性能向上を確認し、新規性ベースの内発的報酬と組み合わせることで noisy-TV problem を緩和できることを確認した。