研究概要

本プロジェクトでは、膨大な画像、映像、音声、加速度などのマルチメディアデータを統合的に理解・要約し、その内容を人間が瞬時に把握可能な基盤技術を構築します。インターネット上の膨大なマルチメディアデータの人手での内容理解・記述には限界があります。このようなデータのコンテンツを機械的に要約できれば、全てのデータを精査せずとも人が瞬時に把握可能となるだけでなく、既存のテキストによる検索基盤と容易に統合でき、非言語データの自然言語による検索システムが構築可能です。

 

プロジェクト「ビッグデータ統合利活用のための次世代基盤技術の創出・体系化」
科学技術振興機構 (JST) 戦略的創造研究推進事業 (CREST) 研究領域
「膨大なマルチメディアデータの理解・要約・検索基盤の構築」平成26年度採択研究課題

  • 研究代表者
    • 原田 達也 (東京大学 大学院情報理工学系研究科 教授)
  • 研究分担者
    • 杉山 将(東京大学 新領域創成科学研究科 教授)
    • 大野 和則(東北大学 未来科学技術共同研究センター 准教授)
    • 塚田 浩二(公立はこだて未来大学 情報アーキテクチャ学科 准教授)
    • 下坂 正倫(東京大学 大学院情報理工学系研究科 講師)

 

CREST-harada_concept

 
膨大なマルチメディアデータを要約する基盤技術構築には、(1)データのコンテンツ認識アルゴリズム、(2)認識を支えるための知識獲得(3)理解・要 約・検索技術の有益さの検証、の3つの要素が必要不可欠です。(1)のコンテンツ認識アルゴリズムでは、長大なデータにおいて全てが重要箇所であることはまれであり、重要箇所は局在化していることがしばしば起きます。そのため、認識の第一歩として(1a)重要部分の切り出しを実施します。その後に(1b) 切り出したデータにおける要素理解、さらに(1c)要素間の関係性の記述によって、理解と要約を実施します。(2)の認識を支えるための知識獲得は、偏在化した知識群を使える知識としてまとめるための(2a)複数の異なる分野の知識を統合した新しい知識の構築、がまず重要です。しかし、不足する知識は人に聞かざるを得ないため、(2b)人を活用した知識の能動的獲得、によって知識補完を実施します。(3)の要約技術の有益さの検証では、(3a)動画像や ウェアラブルデータ行動データ、(3b)パーソナルファブリケーションデータ、(3c)ロボット等の自律能動型機械から獲得されるデータ、への適応を通じて行います。