-
オンライン手書きデータからの論理的思考力の見える化代表研究者
【研究種目】基盤研究(B)
【研究領域課題番号】20H04292
【審査区分】小区分62020:ウェブ情報学およびサービス情報学関連
【研究期間】2020-04-01〜2024-03-31
【研究キーワード】オンライン手書き / 論理的思考力 / データマイニング / ビッグデータ解析 / ペンベーズドコンピューティング / オンライン手書きデータ / 幾何学問題 / ヒント参照 / 部分点 / 難易度
【配分額】17,550千円 (直接経費: 13,500千円、間接経費: 4,050千円)
研究実績の概要
オンライン学習では、学習者個人個人の理解度に合わせた適切なフィードバッ クを自動生成することが求められる。そこで本研究課題では、最終目標としてオンライン手書きデータを用いた論理的思考力の推定を目指している。論理的思考力を明かにするためには思考過程の見える化が求められる。そこで初年度は、数学幾何学問題を対象として、(1)各種判定に必要となる有効な特徴量の選定、(2)部分点を付与可能かどうかの検証の2点を進めた。
まず、特徴量の選定は、「幾何学問題解答時のヒント参照有無の判定」を題材として進めた。具体的には、解答者が「ヒントを参照したか否か」に有効な特徴量を Recursive Feature Elimination(RFE)により判定した。本学36名の学生に対し、幾何学5種類の単元(並行と合同、図形の性質、円、相似な図形、三平方の定理)から各4 問の合計20題を解答してもらい、問題難易度毎に調査した。結果、難易度によらずヒント参照前後での特徴量に差が出るものは「筆記速度平均」であり、難易度が高い問題に対してのみ特徴量に差がでるものは「ストロークの時間間隔平均、標準偏差」「ストローク間移動距離平均、最大値」であった。以上から、幾何学問題解答時の挙動解析では問題難易度を考慮する必要があることがわかった。
次に、論理的思考力判定にあたり、「考え方は正解であるがケアレアスミス等で最後の解答を間違った」ような場合の判定が可能かについて検証を行った。大学生20名から5題の幾何学証明問題解答時のストロークデータを収集し解析した。結果、ケアレスミスをした解答を「本来であれば完答することのできた解答である」と仮定した場合、「完答できた解答」か「部分点を付与すべき解答」かの分類において、0.833の正解率を得ることができることを確認できた。
-
100億Webページ収集に基づくWebコンテンツの信頼性解析代表研究者
【研究種目】基盤研究(B)
【研究領域課題番号】17KT0085
【研究分野】情報社会におけるトラスト
【研究期間】2017-07-18〜2022-03-31
【研究キーワード】Webコンテンツ / 信憑性 / 信頼性 / フィッシング / Webクローラ / 検索エンジン / ビッグデータ
【配分額】18,590千円 (直接経費: 14,300千円、間接経費: 4,290千円)
研究実績の概要
本研究は、Webコンテンツの信頼性を数値化することで、安心してWebを利用できる環境を提供することを目指している。本年度は、昨年度に引き続き、(1)URLの特徴を用いた信頼度判定手法、(2)人間の第一印象によるWebページ信頼性判定手法、及び、(3)著者人数推定に基づく信頼度判定に取り組んだ。
URLの特徴を用いた信頼度判定では、URLのホスト部とパス部に対して異なる判定手法を適用し精度向上を行った。具体的には、ホスト部ではURLを単語分割した上でLSTMを適用し、パス部については昨年度と同様、文字単位での特徴量を用いた。DMOZ及びPhishTankのデータセットを用いた評価では、96.81%のAUCを達成し、同手法の有効性を確認した。
Webページの第一印象に基づく信頼性判定では、Google Lighthouseが出力する特徴量を用い判定を実現した。Fake News Datasetによる評価では、従来手法を上回る正解率90%を達成した。本研究において収集したWebページを対象として、人による「第一印象」と「熟考した場合」での信頼性判定の差異についても調査を行い、80%のWebページは第一印象による判定により信頼性判定が可能であることを示した。
著者人数推定に基づく信頼度判定では、「コンテンツが複数人の著者により記述されることにより信頼度が向上する」という点に着目し、文章の執筆者数を信頼性の測定指標とすることを目標として研究を推進した。手法改善に取り組み、2人によって記述された文章に対する執筆者数の正解率81.8%、3人の場合74.8%、4人の場合65%を達成した。提案手法では、著者変更点を文章の最初からスライドさせ、当該変更推定点からの距離によって特徴量の重みを指数関数的に変化させ、精度向上を行った。これにより、信頼性判定の一つの指標としての利用可能性を示すことができた。
-
オンライン手書きデータからの学習つまずき発見代表研究者
【研究種目】挑戦的萌芽研究
【研究領域課題番号】26540046
【研究分野】マルチメディア・データベース
【研究期間】2014-04-01〜2016-03-31
【研究キーワード】オンライン手書きデータ / 電子ペン / 学習つまずき / データマイニング / ビッグデータ / 記憶度推定 / 数学解法分類 / 教育支援 / ユーザインタフェース / つまずき解析 / ビッグデータ分析
【配分額】3,640千円 (直接経費: 2,800千円、間接経費: 840千円)
研究成果の概要
本研究は、教育での電子化が推進される中、学習つまずきを時系列で得られる手書きデータから自動発見する手法を研究し、以って近い将来実現するであろう効果的な個別学習の実現に供することを目指した。
具体的には、学習つまずきを1)記憶に依存するつまずきと2)解答過程におけるつまずきに分類し自動抽出を試みた。記憶に依存するつまずきでは、暗記学習における記憶定着をモデル化し、漢字書き取りを題材に、未記憶、主観定着、主観未定着に分類し、主観定着の中で未記憶状態にあるものを自動抽出し、F値で0.69を達成した。解答過程におけるつまずきでは、数学を題材に解法を戦略別に自動分類し、F値0.5~0.7を達成した。
-
Web情報を対象とした数十万人規模での著者推定代表研究者
【研究種目】基盤研究(B)
【研究領域課題番号】25280113
【研究分野】ウェブ情報学・サービス情報学
【研究期間】2013-04-01〜2017-03-31
【研究キーワード】著者推定 / インターネットの安全性 / SNS / tweet / 専門性推定 / 信憑性 / 専門用語 / Tweet
【配分額】13,520千円 (直接経費: 10,400千円、間接経費: 3,120千円)
研究成果の概要
インターネット上には様々な情報が氾濫し、その信憑性が社会問題化してきている。本研究では、信憑性を判断するための方法の一つとして著者推定技術をSNS等の短い文書に適用し10万人の候補者の中から、著者を発見する研究に取り組んだ。つまり、事前に著者の書いた何らかの文書があれば、発信者を推定することが可能となる。結果、10万人のSNSユーザの中から特定のユーザを発見するために、30発言あれば60%の精度で発見できる仕組みを構築した。また、上位10位までに抽出できる確率は74%を達成した。これは、世界の他の研究が10万人を対象として精度20%程度に留まっているのに対し大きな貢献である。
-
Web情報構造と利用者行動の統合分析とその情報アクセス高度化への応用
【研究種目】基盤研究(A)
【研究領域課題番号】22240007
【研究分野】メディア情報学・データベース
【研究期間】2010-04-01〜2013-03-31
【研究キーワード】Web情報構造 / データ統合 / 情報アクセス / Web利用者行動 / Web閲覧履歴 / マクロブログデータ / Twitterデータ / アンケート調査 / Webデータ統合 / マイクロブログデータ / Web情報構造 / Webデータ統合 / Web利用者行動 / Web閲覧履歴 / ネット視聴データ / 投票行動
【配分額】39,520千円 (直接経費: 30,400千円、間接経費: 9,120千円)
研究概要
Webの構造や利用者の情報検索・閲覧行動を総合的に理解し,応用として展開するため,Web閲覧ログデータやマイクロブログデータ等,Web情報構造とWeb利用者行動に関連する様々なデータを収集・導入し,アンケート調査とも連動させることにより,これらを統合・分析した。
その結果,知りたい情報と知らせたい情報との間の乖離や,Webポータルサイトを利用することにより意図しない情報接触行動が生ずることなど,Web利用者に関する様々な知見が実証的に得られた。また,統合・分析により得られた情報に基づいて,情報推薦や情報検索等の情報アクセスを高度化するための様々な手法を研究・提案した。
-
検索エンジンの信頼性解析代表研究者
【研究種目】基盤研究(B)
【研究領域課題番号】21300038
【研究分野】メディア情報学・データベース
【研究期間】2009〜2011
【研究キーワード】検索エンジン / 信頼性 / 情報検索 / ヒット数 / 信憑性 / ランキング / 検索結果数 / データマイニング
【配分額】17,940千円 (直接経費: 13,800千円、間接経費: 4,140千円)
研究概要
検索エンジンは日常生活においても必要不可欠な存在となっているにも関わらず,その信頼性は不透明である.特に,検索結果として表示されるヒット数は,同じ検索語でも100倍, 1000倍と大きく変動する.本研究では,様々な指標として用いられているヒット数に着目し,ヒット数の変動傾向を15ヶ月に渡る調査から明かにした.さらに,信頼性の高いヒット数を得るための仕組みを考案し99.5%の精度でヒット数の大小判定ができる仕組みを確立した.
-
メニーコアCPUにおける冬眠コアのゼロ化代表研究者
【研究種目】挑戦的萌芽研究
【研究領域課題番号】21650010
【研究分野】計算機システム・ネットワーク
【研究期間】2009〜2010
【研究キーワード】分散システム / 並列計算機 / Webクローラ / ストリームコンピューティング / アルゴリズム / オペレーティングシステム / ネットコンピューティング
【配分額】3,300千円 (直接経費: 3,300千円)
研究概要
2010年度は、2009年度に開発したシステム自動最適化アルゴリズムの実機評価を目指した。本アルゴリズムはProducer-Consumer型のモジュール群で構築されたアプリケーションにおいて、メニーコアCPUを最大限に利用できるよう各モジュールに割り当てる計算機やスレッド数を自動で決定し、アプリケーションの性能を最適化することが目標である。研究には我々が開発している分散処理フレームワークであるQueueLinkerを用いた。
2010年度は、まず、自動最適化アルゴリズムの評価用アプリケーションとしてWebクローラを開発し、QueueLinkerのプロトタイプにより動作を確認した。本クローラを構成するモジュールは全てProducer-Consumer型であり、QueueLinkerにより分散実行できる。実験に先立ち、本クローラがWebサーバにかける負荷を軽減するために、同一Webサーバに対するアクセス時間間隔の最小値を厳密に保証するクローリングスケジューラを開発した。本スケジューラは、時間計算量が0(1)であり、空間計算量の上限がクローリング対象のURL数に依存しない。本アルゴリズムはDEIM 2011において発表した。
そして、開発したWebクローラをアプリケーションに用い、QueueLinkerの自動プロファイリング機能を開発した。本プロファイリング機能は、モジュールが使用するCPU時間や、ネットワーク通信量をプロファイリングできる。その後、昨年度開発したシステム自動最適化アルゴリズムを実際のプロファイリングデータを利用して動作するよう設計を修正した。本アルゴリズムは、各モジュールが使用するリソース量に基づいて、アプリケーションの性能が最大になるように、モジュールに割り当てる計算機やスレッド数を自動で決定するものである。
-
情報爆発に対応する高度にスケーラブルなモニタリングアーキテクチャ
【研究種目】特定領域研究
【研究領域課題番号】18049068
【審査区分】理工系
【研究期間】2006〜2010
【研究キーワード】モニタリング / 性能解析 / 実世界センシング / 分散システム / 安全性・信頼性 / センサー / 情報管理
【配分額】64,300千円 (直接経費: 64,300千円)
研究概要
本研究において目的とするモニタリングアーキテクチャは,情報基盤,社会基盤,人々の日常生活を守るためのソフトウエアの一群である.通常は独立に研究されていた研究分野を統合することにより,従来解決が困難であった問題を解決していくことを可能とする.本研究では,計算機システム,ネットワークシステム,実世界に関する統合的なスケーラブルモニタリングに関するシステム構築をおこなうことで将来の計算機システムのあるべき姿を検討した.
-
情報爆発に対応する新IT基盤研究支援プラットホームの構築
【研究種目】特定領域研究
【研究領域課題番号】18049073
【審査区分】理工系
【研究期間】2006〜2010
【研究キーワード】スケーラブル計算基盤 / 情報リンケージ / 大規模コーパス / 実世界インタラクション / センサールーム / センサー / クラウド / ソフトウェアライブラリ / 自然言語処理 / 生体計測 / センサーネットワーク / 生態計測
【配分額】644,600千円 (直接経費: 644,600千円)
研究概要
本特定領域に参加する計画・公募研究班で共用するための研究基盤を構築し、研究活動の支援を行った。これにより、限られた経費の中で研究資源の共用を図り研究連携を深める効果を発揮した。具体的には開放型検索エンジンTSUBAKIによる大規模コーパスの提供、広域分散コンピューティングテストベッドInTrigger、実世界インタラクション計測分析環境IMADE、そしてセンサーネットワーク予防医療の実験環境を構築した。
-
記号とパターンの統合によるin silicoバイオインフォマティックス
【研究種目】基盤研究(A)
【研究領域課題番号】17200016
【研究分野】感性情報学・ソフトコンピューティング
【研究期間】2005〜2007
【研究キーワード】バイオインフォマティックス / ソフトコンピューティング / DNA配列解析 / プロモーター / 転写部位予測 / タンパク質機能解析 / 三次構造予測 / プロテオーム情報処理 / バイオインフォマティクス / ゲノム情報処理
【配分額】45,630千円 (直接経費: 35,100千円、間接経費: 10,530千円)
研究概要
この研究は,計算知能理論に基づいて,DNA配列やアミノ酸配列が作りだすソフトなパターンを発見するための汎用アルゴリズムを開発し,生命情報配列中の特定機能部位をin silicoで予測することを目的とした.このとき,設定問題が単に計算機科学的な仮想問題に留まらないように,ウェットバイオロジーの研究者を構成員として加えた.生命情報をin silicoで扱うITおよび情報科学者と,それを試験管内で扱う生命科学者の融合にはまだ時間を要するが,下記のような成果を得てこの方向を推進することができた.
(1)ヒトやE.coliのDNA配列を対象とし,遺伝子の直前にある転写開始点の位置を推定する方式を確立した.特にヒトに対しては,スペクトラムカーネルとよばれる転写開始点付近の特徴抽出法と隠れマルコフモデルによるプロモータモデルに加えて,高速フーリエ変換に基づいたノンプロモータモデルを導入し,最後にサポートベクトルマシンで判定結果を出すということを行ない,トップクラスの予測性能を示すROC曲線を得ることができた.
(2)アミノ酸配列の多重アラインメントに対して新たなアルゴリズムを得た.この方法はアラインメントを施す時に複数の配列間で生じるギャップの重なりを少なく押さえ,かつギャップ延長を区分線形にしたものとして,ClustalWやT-Coffeeよりも実データに近い結果を与えるものとなっている.
(3)ウェットバイオロジーの部分においては,Rad51という二本鎖切断を修復する遺伝子の結合部位が乳ガン患者において改変されていることを発見した.
以上のように,この研究においては,ポストゲノムとしての主要テーマの一つであるプロモーターや転写開始点の予測,配列比較の中心課題である多重アラインメント,そして生命そのものに関連するRad51という分野において先端的な成果を得ることができた.
-
ヘルパースレッドを用いたマルチスレッディングプロセッサのための高速化技術研究代表研究者
【研究種目】基盤研究(B)
【研究領域課題番号】17300023
【研究分野】計算機システム・ネットワーク
【研究期間】2005〜2006
【研究キーワード】マルチスレッド / マルチコア / 並列処理 / ヘルパースレッド / シェルスクリプト / ディスクキャッシュ / キャッシュメモリ / 計算機システム / キャッシュ最適化 / 高速化技術 / オンチップマルチプロセッサ / 情報検索処理の高速化
【配分額】14,800千円 (直接経費: 14,800千円)
研究概要
近年、マルチコアCPUが相次いで登場している。本研究では、こうしたマルチコアCPU上でのマルチスレッディングを用いた高速化技術について研究を行った。
2005年度は、本分野でのサーベイ、アルゴリズム検討、アプリケーション側からの検討を行った。アルゴリズム検討では、分岐予測の面からパイプライン中の空きスロシトを削減する方法を検討した。さらに、近年のオンチップマルチプロセッサでは、L2を共有するものが増加しており、L2の効率的な制御方法についても検討を行った。具体的には、L2内のどこに必要となるデータを配置するかというデータ配置最適化技術を提案し、SPECint95、SPECint2000で平均17%のIPC向上を確認した。アプリケーションレベルからの検討では、今後その高速化が重要となってくると考えられる検索アプリケーションの動作特徴等を調査した。
2006年度は、前年度の検討に基づき、ターゲットをディスクアクセスの最適化に特化し、オンチップマルチプロセッサ上でのキャッシュ最適化について研究を進めた。まず、DISKの先読みにヘルパースレッドを用いる例では、先読みスレッドで事前にデータの読み込み込む手法を提案し、gzipが最大で39.2%性能向上することを確認した。次に、DISKキャッシュ自体をネットワーク接続された他のPC上に置き、ヘルパースレッドによりディスクキャッシュを制御する高速化手法を提案した。DBT-3ベンチマークテストによる評価では、最大3。08倍の性能向上を確認した。さらに、実アプリケーションとして、シェルスクリプト実行の高速化を実現した。特に、シェルスクリプトの自動並列化プログラムを提案することにより、シェルスクリプト実行を1.4〜1.8倍高速化することができた。本研究成果は、USP研究所において製品化を目指している。
-
広域分散型情報収集・検索システムにおける負荷分散方式の研究代表研究者
【研究種目】若手研究(B)
【研究領域課題番号】13780255
【研究分野】計算機科学
【研究期間】2001〜2002
【研究キーワード】負荷分散 / ネットワークの経路選択 / 広域分散 / 検索システム / 情報検索 / サーチエンジン / 広域分散処理 / WWWロボット / PROXY / Webページ / 更新頻度
【配分額】2,500千円 (直接経費: 2,500千円)
研究概要
平成14年度の研究においては、平成13年度の成果を踏まえた上で、ネットワークの混雑状況を考慮した分散収集の仕組みを提案するため、当該WWWサーバに至る経路が複数ある場合の経路の選択手法について研究を実施した。
具体的には、パケットのトランスポート層の各種情報を分析する事で、複数のネットワーク経路が存在する場合に最適な経路を発見することが可能かどうかを検証した。まず、パケット内のトランスポート層の情報であるTCPヘッダの内容を分析し、複数のネットワークの中から、どのネットワークを使えば効率的にデータ転送を行う事ができるのか示すことができるパラメータを発見することを目指した。
最初に、転送率とTCPの様々なパラメータ(平均ウィンドウサイズ、最大ウィンドウサイズ、RTT)の関連性について解析した。解析の結果、1KB以上の転送量を持つコネクションよりは1KB未満の転送量を持つコネクションのほうが、ウィンドウサイズと転送率の関係を得やすいということがわかった。さらに、長い転送時間のコネクション(実験では1秒以上)よりは短い転送時間(同1秒未満)のコネクションからの方が、ウィンドウサイズと転送率の関係を得やすいことがわかった。
これらの結果は、小さい転送量、もしくは短い転送時間のコネクションでは、安定してパケットの送信が行われているためだと考えられる。大きい転送量、もしくは長い転送時間のコネクションは、送信の途中で何らかの問題点を持っている可能性があるため、最適経路を選択する上でのパラメータとしては用いない方がよいことが分かった。
以上の結果を踏まえ、Webページ収集時に当該WWWサーバまで複数の経路が存在する場合に、経路を選択するための一手法を提案した。
さらに、昨年度からの継続として、Webページの更新間隔をWebページを収集することなく発見するためのアルゴリズム開発を行った。