機械学習を用いた自律型スマートHPCデータセンター
【研究キーワード】
データセンター / 運用 / 人工知能 / スケジューラ / ログ収集 / 強化学習 / ジョブスケジューリング / 最適化 / オーバーコミット / システムモデル / スーパーコンピュータ / 深層学習 / AI / 計算機運用 / 機械学習 / センサーデータ / スケジューリング / サイバーフィジカルシステム
【研究成果の概要】
データセンターの運用の自動化のため、データセンターからのデータを取得して仮想空間上に再現する方法と、その仮想空間上で運用ポリシーを最適化する方法を研究した。
前者のデータ取得については、機器によるデータフォーマットの違いやデータの用途に依存することなく、様々な運用に役立つ汎用的なデータを多くのデータセンターから収集できる一般的なデータフォーマットと保存形式を定義することに成功した。後者の運用最適化については、制御方法を自動的に学習する強化学習を用いてジョブスケジューリングを最適化することに成功すると共に、その学習の場としてスケジューリングや冷却設備のシミュレータを実装した。
【研究の社会的意義】
データセンターの運用はより少ない資源で多くの計算需要を満たすための高度な技術であり、スケジューリングポリシーの設定、計算機のメンテナンス、さらには電力空調設備の運用やメンテナンスを含む専門的に高度な業務である。近年の労働人口減少に伴い、このような運用業務に携わる人材の確保は容易でなく、今後、益々増大する計算需要を安定的に満たすためには運用の省力化、少人化は必須の課題である。本研究の成果はこの要請に応じるものであり、設備運用やジョブスケジューリングをシミュレーションで再現する方法、さらにそれを用いて人工知能に最適な運用を試行錯誤させる方法を開発したものである。
【研究代表者】