消費者生産型レシピコンテンツの手順・記述から見た多様性の解析手法の提案
【研究分野】マルチメディア・データベース
【研究キーワード】
メディア情報処理 / 情報検索 / 自然言語処理 / グラフ理論 / 食メディア / レシピ / メディア情報より
【研究成果の概要】
本研究の目的は、Webにある膨大な数のレシピの集合が本質的にどの程度の多様性を持っているのかを明らかにすることである.そこで本研究では,自然言語処理技術によりレシピ記述から手順構造を抽出し、レシピ集合が持つ本質的な多様性を解析する手法の開発を行った。和文レシピ、英文レシピ各400件に対しアノテーションを行い、日英レシピコーパスを構築。レシピ用語の認識精度は和文F値92.6%、英文F値87.2%に到達した。またレシピ用語間の依存関係の推定精度は和文F値79.7%、英文F値76.2%を達成した。これらのツールはオンライン上で公開し、多くの研究機関にご利用いただいている。
【研究の社会的意義】
料理は「ものづくり」であり、レシピは料理を作る「手順書」である。本課題で解析した手法が適応できる範囲は料理レシピに限らず、裁縫やDIY、マニュアルなどあらゆる「手順書」へと拡張できるという点で学術的な意義がある。また、本課題を遂行する中で構築したレシピ言語処理ツールは、国内外でレシピを研究対象とする多くの研究グループに利用されているという点で、社会的意義は大きい。NIIクックパッドデータセットに含まれる和文レシピ172万件に対し、レシピ用語認識及びフローグラフ化の作業を完了した。和文レシピの解析データは、NIIクックパッドデータセットのサードパーティーとしての提供を目指し、協議を進めている。
【研究代表者】
【研究分担者】 |
今堀 慎治 | 中央大学 | 理工学部 | 教授 | (Kakenデータベース) |
森 信介 | 京都大学 | 学術情報メディアセンター | 教授 | (Kakenデータベース) |
|
【研究協力者】 |
Carroll John | |
|
【研究種目】基盤研究(B)
【研究期間】2014-04-01 - 2019-03-31
【配分額】17,160千円 (直接経費: 13,200千円、間接経費: 3,960千円)