Webのハイパーリンク構造のモデル化に関する研究
【研究分野】知能情報学
【研究キーワード】
Webマイニング / ハイパーリンク / 視聴行動ローデータ / PageRank / 視覚化 / インターネット高度化 / 人工知能 / 機械学習 / Webコミュニティ / ディレクトリ・情報検索 / Web構造マイニング
【研究成果の概要】
本研究代表者はハイパーリンク等のグラフ構造に基づいてWebページ等の対象間の関連性を見出すWebマイニングの研究を進めてきている。Webページの多くは、関連するページへのハイパーリンクを有しており、Webコミュニティと呼ばれるグラフ構造を構成している。このような密な部分構造についての知見を得ることは、Webから効率的な情報収集をする上で重要である。
本年度においては、ユーザの振る舞いをログデータから理解するための試みとして、ログデータから得られるグラフ構造をもとに、関心サイト集合を抽出し視覚化する手法を考案し実験を行なった。対象とするログデータとして、クライアント側から得られるインターネット視聴行動のローデータを用いた。このデータには、ユーザが訪問したサイトおよび検索で入力したキーワードが含まれている。特定のユーザのローデータから、サイトやキーワードを頂点とし、時間的な前後関係を辺としたグラフ(サイト・キーワードグラフ)を生成した。このサイト・キーワードグラフから中心的な部分グラフを抽出することで、対象ユーザの関心を見出すことができる。2004年12月の1ヶ月間における8,000人以上のユーザについてローデータを用いて実験を行ったところ、もとのサイト・キーワードグラフの30パーセント程度の中心的な部分グラフを抽出した。それをGraphvizによって視覚化することで、抽出された部分グラフの分析も行った。ハイパーリンクによって結合したWebページのグラフ構造に対して適用するランキングやコミュニティ発見の手法は、主としてWeb構造マイニングの手法であるが、ログデータの分析に対してもそのような手法が有効であることを示すことができた。
【研究代表者】
【研究種目】若手研究(A)
【研究期間】2004 - 2006
【配分額】20,410千円 (直接経費: 15,700千円、間接経費: 4,710千円)