異種アーキテクチャ並列環境におけるスケーラブルな機械学習基盤ソフトウェア技術
【研究キーワード】
並列処理 / 機械学習 / 異種アーキテクチャ / メモリ階層 / プログラミング / 並列計算 / 深層学習 / GPU / マルチコア / 局所性
【研究成果の概要】
以下の研究項目について研究を推進した。
(a) 演算カーネルレベルのマルチコア/SIMD並列性の活用:本項目ではまず、ドメイン特化型言語(DSL)Halideにより、反復をまたぐブロッキング技術を含めたステンシルカーネルを対象とし、開発コストの低減とCPU/GPU上の高性能の両立が可能であることを示した。そしてハンドコーディングしたカーネルとの性能比較を行った。その中途成果について情報処理学会SWoPPで発表した。並行して、映像検出タスクの一種であるSingle Shot Detector (SSD)を対象とし、必要なカーネルを洗い出し、cuDNNなどの既存ライブラリのみでは不足であると判断した。そのため、SSDに必要なカーネルをCUDAで実装(現在はハンドコーディング)し、先行研究による実装よりも高速な実装を実現した。この内容について国際会議に投稿した。
(b) 水平・垂直方向の演算・データスケジューリング:マルチGPU環境において、モデル並列とデータ並列を併用するハイブリッド並列を行うフレームワークのプロトタイプを完成させた。負荷バランスとAll-reduce対象プロセス数の低減が見込める一方、プロセス間の通信パターンが複雑になるために通信処理の順序やスレッド数が性能に大きく影響することを示した。それらの課題の改良を行い、情報処理学会SWoPPで発表した。引き続き、ニューラルネットワーク構造およびハードウェア構造を考慮したマッピングの改良の研究を進めている。並行して、音声認識手法であるAugment Adversarial Training (AAT)を主対象として、マルチGPUにおけるハイブリッド並列アルゴリズムを検討し、プロトタイプ実装を行った。
以上の一部の研究は産総研・東工大 実社会ビッグデータ活用 オープンイノベーションラボラトリとの協働で行った。
【研究代表者】
【研究種目】基盤研究(B)
【研究期間】2020-04-01 - 2023-03-31
【配分額】17,550千円 (直接経費: 13,500千円、間接経費: 4,050千円)