構造抽出による自然言語ビッグデータへの高次高精度なデータマイニング技術の開発
【研究キーワード】
ソーシャルメディア分析 / クラスタリング / 多様性 / アルゴリズム / 形質 / SNS / トピック / データ解析
【研究成果の概要】
多様性の解析に対しては、クラスタのモデル化を必要としない、単語の多様性を元にトピックの多様性を測る手法を開発中である。テキスト情報のクラスタリングは、書き手の書きぶりに左右されるため、導出した多様性尺度が意味的な多様性との乖離する可能性がある。この点を埋めるべくモデル化を検討した。ただし、単語を用いた場合に、他の、時刻やユーザIDなどのデータには利用できなくなるため、この点について今後とも検討していく。
クラスタとトピック数から算出した多様性の時間推移を見ることで、トピックの多様性がどのように推移していくか、どこで大きな転換点が出ているかを解析する方法を開発した。SNSを対象とはしているが、一般のデータでも適用可能である。ただし、現在の仕様では、大きな反響がある話題と小さな反響がある話題の多様性を標準的に扱うことはできておらず、2次元上にプロットし、動画化することで、時間推移の様子を可視化している。ここに関しては今後開発を進めていく予定である。
また、言語データの形質となり得るグラフ構造を、データから抽出するアルゴリズムについて研究を行い、いくつかの高速アルゴリズムを構成することに成功した。同時に、データの特徴量を抽出するアルゴリズムについても開発を行い、より、精度高く、多様な特徴量が抽出できるよう開発を行った。離散構造を取り扱うアルゴリズム自体も開発を行い、開発したモデルやアルゴリズムなどにおいて、高速化を行う手法を開発した。
【研究代表者】