Discovery Sagaサイレントキーワード俯瞰

マルチエージェントシステム / マルチエージェント強化学習 / 強化学習 / 機械学習 / 進化計算 / ニューラルネットワーク / 実数値GA / 最適化 / 共進化 / 世代交代モデル / 自律エージェント / 進化的計算 / ニューラルネット / 人工知能 / 分散人工知能 / 実数値遺伝的アルゴリズム

近年,強化学習手法を応用して,マルチエージェント環境におかれたエージェント群そのものに,試行錯誤な相互作用を行わせ,それらが採用すべき協調行動をボトムアップ的に組織化させ,それによってマルチエージェントシステムの設計者を支援しようとする試み("マルチエージェント強化学習"と呼ぶ)が数多くなされている.しかし,マルチエージェント環境におかれたエージェント群に,従来の強化学習を適用して適切な協調行動を獲得させようとすると,各エージェントの状態空間は組合せ的に爆発してしまう.
本研究の代表者らは,適度に圧縮表現された状態空間上で各エージェントが学習可能なマルチエージェント強化学習手法を提案し,それにより上記の状態空間の爆発が回避し得ることを実験的に示してきた.平成12年度は,この手法と進化計算を併用することによって,エージェント群に,状態空間の爆発を回避するための適切な状態空間表現を自動的に獲得させながら,それらが採用すべき協調行動を効果的に組織化させるための手法を提案した.提案手法は,マルチエージェントシステムを構成するエージェントの状態表現およびその行動政策を人手に頼ることなく自動的に設計するための要素技術を提供する.
平成13年度は,状態空間の爆発を回避可能な新しいマルチエージェント強化学習手法として,エージェントの行動政策を予め構造が決定されたニューラルネットにより表現すると共に,その重みベクトルを実数値GAにより最適化することに基礎をおく"進化型ニューラルネット手法"に基づく手法を提案した.提案手法は,連続値/離散値が混在する入出力への対応,連続/離散時間による意思決定への対応,大規模な問題への対応,大域的に良好な行動政策の獲得への対応など,従来手法にはない優れた特色を有しており,マルチエージェントシステムの自動設計のための汎用的な要素技術を提供する.

マルチエージェントシステム / 強化学習 / 進化的計算 / マルチエージェント強化学習 / 人工知能 / 協調行動 / エージェント / マルチエージェン強化学習 / 分散人工知能 / 創発

近年,強化学習手法を応用して,マルチエージェント環境におかれた自律エージェント群そのものに,試行錯誤な相互作用を行わせ,それらが採用すべき協調行動をボトムアップ的に組織化させ,それによってマルチエージェントシステムの設計者を支援しようとする試み("マルチエージェント強化学習"と呼ぶ)が数多くなされている.しかし,マルチエージェント環境におかれた自律エージェント群に,従来の強化学習を適用して適切な協調行動を獲得させようとすると,各エージェントの状態空間は組合せ的に爆発してしまう.
本研究の代表者らは,各エージェントを適度に圧縮表現された状態空間上で強化学習させることによって,この問題点を回避し得ることを実験的に示してきた.この成果は強化学習に基づく現実的なマルチエージェントシステムの設計支援の可能性を示したという意味では重要であるが,これをさらに現実的なマルチエージェント強化学習手法として発展させるためには,状態空間の適切な圧縮表現を自動的に設計するための手法を確立する必要があった.
本研究では,代表者らが提案してきた上記のマルチエージェント強化学習手法と進化的計算を併用することによって,エージェント群に,適切な状態空間表現を自動的に獲得させながら,それらが採用すべき協調行動を効果的に組織化させるための手法を提案した.提案手法は,(i)状態空間の適切な圧縮表現の自動獲得を目指して提案されている従来手法よりも優れた圧縮表現を安定的に獲得可能であること,(ii)人手によって試行錯誤的に設計された圧縮表現よりも優れた圧縮表現を獲得可能であることが実験的に確認されており,マルチエージェントシステムを構成する自律エージェントの状態表現およぴその行動政策を人手に頼ることなく自動的に設計するための強力な要素技術を提供する.

【研究分担者】
伊藤拓也	徳島大学	工学部	助手	(Kakenデータベース)
小野功	徳島大学	工学部	助教授	(Kakenデータベース)

【研究分担者】
伊藤拓也	徳島大学	工学部	助手	(Kakenデータベース)
小野功	徳島大学	工学部	講師	(Kakenデータベース)