Discovery Sagaサイレントキーワード俯瞰

本研究では、画像・動画像等のマルチメディアに言語概念をグラウンディング（記号接地）させ、時空間的な共起関係を手掛かりにさまざまな概念間の関連性を推定し、グラフ構造を有するデータベース（知識グラフ）として獲得する新しいアプローチを提案する。本年度は、大きく分けて以下に示す三つの成果を得た。

１．BERTにより辞書データ(Wiktionary)から特徴抽出を行った単語概念と画像領域特徴をアラインメントし、共通の埋め込み空間を学習する手法を提案した。これにより、事前学習済み言語モデルの表現能力を活用しながら、画像概念と言語概念のグラウンディングを行ったマルチモーダル埋め込み空間を得ることができる。この空間では、Transformerの注意機構により、画像領域の視覚的特徴のみならず複数領域の共起関係や位置情報なども考慮された埋め込みが行われていることが重要であり、この空間上での距離を基準として概念が為すグラフを構築することができる。その具体的な応用として、画像中の未知物体に対しグラフ上の最近傍の単語を検索することで、ゼロショットの画像キャプショニングを高い精度で実現できることを示した。本研究はコンピュータビジョンの最難関国際会議であるCVPRへ採択された。
２．自然言語処理におけるストーリー生成タスクを題材とし、概念グラフ上の探索を通じて論理性を保ちながら多様性のあるテキスト生成を行う手法を開発した。ここで提案したグラフ探索法は汎用性の高いものであり、ストーリー生成に限らずさまざまなダウンストリームタスクで、知識グラフを活用するための重要な基礎技術となる。
３．グラウンディング自体の性能向上を行うため、基礎的な画像認識の手法開発にも引き続き取り組み、訓練時に想定しない入力ノイズに対して認識の頑健性を高める手法を複数開発した。