特許第6366626号(P6366626)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤフー株式会社の特許一覧

特許6366626生成装置、生成方法、及び生成プログラム
<>
  • 特許6366626-生成装置、生成方法、及び生成プログラム 図000002
  • 特許6366626-生成装置、生成方法、及び生成プログラム 図000003
  • 特許6366626-生成装置、生成方法、及び生成プログラム 図000004
  • 特許6366626-生成装置、生成方法、及び生成プログラム 図000005
  • 特許6366626-生成装置、生成方法、及び生成プログラム 図000006
  • 特許6366626-生成装置、生成方法、及び生成プログラム 図000007
  • 特許6366626-生成装置、生成方法、及び生成プログラム 図000008
  • 特許6366626-生成装置、生成方法、及び生成プログラム 図000009
  • 特許6366626-生成装置、生成方法、及び生成プログラム 図000010
  • 特許6366626-生成装置、生成方法、及び生成プログラム 図000011
  • 特許6366626-生成装置、生成方法、及び生成プログラム 図000012
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6366626
(24)【登録日】2018年7月13日
(45)【発行日】2018年8月1日
(54)【発明の名称】生成装置、生成方法、及び生成プログラム
(51)【国際特許分類】
   H04N 21/8549 20110101AFI20180723BHJP
   G06T 7/00 20170101ALI20180723BHJP
   H04N 21/234 20110101ALI20180723BHJP
【FI】
   H04N21/8549
   G06T7/00 P
   H04N21/234
【請求項の数】23
【全頁数】33
(21)【出願番号】特願2016-54435(P2016-54435)
(22)【出願日】2016年3月17日
(65)【公開番号】特開2017-169140(P2017-169140A)
(43)【公開日】2017年9月21日
【審査請求日】2016年11月17日
(73)【特許権者】
【識別番号】500257300
【氏名又は名称】ヤフー株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】特許業務法人酒井国際特許事務所
(72)【発明者】
【氏名】小林 隼人
(72)【発明者】
【氏名】田頭 幸浩
(72)【発明者】
【氏名】野口 正樹
【審査官】 冨田 高史
(56)【参考文献】
【文献】 特開2004−172671(JP,A)
【文献】 特開2006−99058(JP,A)
【文献】 特開2008−244922(JP,A)
【文献】 特開2006−313511(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 7/10
H04N 7/14 − 7/173
H04N 7/20 − 7/56
H04N 21/00 − 21/858
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
コンテンツに含まれる画像に関する情報から抽出される対象物の領域に関する情報である特徴領域情報を取得する取得部と、
前記取得部により取得された前記特徴領域情報に基づいて前記コンテンツから複数の加工画像を生成する第1生成部と、
前記コンテンツに含まれる文章に関する情報に基づく順位であって、前記複数の加工画像に付された順位に基づく順序で、前記複数の加工画像が表示される動画情報を生成する第2生成部と、
を備えることを特徴とする生成装置。
【請求項2】
コンテンツに含まれる画像に関する情報から抽出される対象物の領域に関する情報である特徴領域情報を取得する取得部と、
前記取得部により取得された前記特徴領域情報に基づいて前記コンテンツから複数の加工画像を生成する第1生成部と、
前記コンテンツに含まれる各オブジェクトについて、所定のデータベースに記憶された情報に基づいて決定された表示順に応じて、前記複数の加工画像に付された順位に基づく順序で、前記複数の加工画像が表示される動画情報を生成する第2生成部と、
を備えることを特徴とする生成装置。
【請求項3】
コンテンツに含まれる画像に関する情報から抽出される対象物の領域に関する情報である特徴領域情報を取得する取得部と、
前記取得部により取得された前記特徴領域情報に基づいて前記コンテンツから複数の加工画像を生成する第1生成部と、
前記コンテンツに含まれる各オブジェクトについて、所定の動画群に基づいて学習された表示順に応じて、前記複数の加工画像に付された順位に基づく順序で、前記複数の加工画像が表示される動画情報を生成する第2生成部と、
を備えることを特徴とする生成装置。
【請求項4】
コンテンツに含まれる画像に関する情報から抽出される対象物の領域に関する情報である特徴領域情報を取得する取得部と、
前記取得部により取得された前記特徴領域情報に基づいて前記コンテンツから複数の加工画像を生成する第1生成部と、
前記コンテンツに含まれる各オブジェクトについて、ネットワーク上から収集した情報に基づいて決定された表示順に応じて、前記複数の加工画像に付された順位に基づく順序で、前記複数の加工画像が表示される動画情報を生成する第2生成部と、
を備えることを特徴とする生成装置。
【請求項5】
コンテンツに含まれる画像に関する情報から抽出される対象物の領域に関する情報である特徴領域情報を取得する取得部と、
前記取得部により取得された前記特徴領域情報に基づいて前記コンテンツから複数の加工画像を生成する第1生成部と、
前記コンテンツに含まれる各オブジェクトが生物である場合、当該各オブジェクトについて、顔認識結果の尤度等の情報に基づいて決定された表示順に応じて、前記複数の加工画像に付された順位に基づく順序で、前記複数の加工画像が表示される動画情報を生成する第2生成部と、
を備えることを特徴とする生成装置。
【請求項6】
前記取得部は、
前記画像に関する情報として前記コンテンツに含まれる複数の画像情報から抽出される前記特徴領域情報を取得し、
前記第1生成部は、
前記複数の画像情報から前記複数の加工画像を生成する
ことを特徴とする請求項1〜5のいずれか1項に記載の生成装置。
【請求項7】
前記第1生成部は、
前記複数の画像情報のうち、所定の画像情報に含まれる対象物に関する領域をクロッピングすることにより生成される加工画像を含む、前記複数の加工画像を生成する
ことを特徴とする請求項に記載の生成装置。
【請求項8】
前記取得部は、
前記画像に関する情報として前記コンテンツに含まれる動画情報から抽出される前記特徴領域情報を取得し、
前記第1生成部は、
前記動画情報から前記複数の加工画像を生成する
ことを特徴とする請求項1〜5のいずれか1項に記載の生成装置。
【請求項9】
前記第1生成部は、
前記動画情報から抽出される画像情報に含まれる対象物に関する領域をクロッピングすることにより生成される加工画像を含む、前記複数の加工画像を生成する
ことを特徴とする請求項に記載の生成装置。
【請求項10】
前記取得部は、
前記コンテンツに関連する文字情報に基づいて抽出される前記特徴領域情報を取得し、
前記第1生成部は、
前記文字情報に基づいて前記複数の加工画像を生成し、
前記第2生成部は、
前記文字情報に基づいて前記複数の加工画像に付された順位に応じた順序で、前記複数の加工画像が表示される動画情報を生成する
ことを特徴とする請求項1〜のいずれか1項に記載の生成装置。
【請求項11】
前記取得部は、
前記コンテンツに関連する音声情報に基づいて抽出される前記特徴領域情報を取得し、
前記第1生成部は、
前記音声情報に基づいて前記複数の加工画像を生成し、
前記第2生成部は、
前記音声情報に基づいて前記複数の加工画像に付された順位に応じた順序で、前記複数の加工画像が表示される動画情報を生成する
ことを特徴とする請求項1〜10のいずれか1項に記載の生成装置。
【請求項12】
前記第2生成部は、
前記複数の加工画像のうち、所定の表示順が付された第1の対象物が含まれる加工画像の後に、前記第1の対象物に付された表示順よりも下位の表示順が付された第2の対象物が含まれる加工画像が表示される動画情報を生成する
ことを特徴とする請求項1〜11のいずれか1項に記載の生成装置。
【請求項13】
前記第2生成部は、
前記複数の加工画像のうち、所定の対象物の一部であって、所定の表示順が付された第1の部分が含まれる加工画像の後に、前記所定の対象物の一部であって、前記第1の部分に付された表示順よりも下位の表示順が付された第2の部分が含まれる加工画像が表示される動画情報を生成する
ことを特徴とする請求項1〜12のいずれか1項に記載の生成装置。
【請求項14】
コンピュータが実行する生成方法であって、
コンテンツに含まれる画像に関する情報から抽出される対象物の領域に関する情報である特徴領域情報を取得する取得工程と、
前記取得工程により取得された前記特徴領域情報に基づいて前記コンテンツから複数の加工画像を生成する第1生成工程と、
前記コンテンツに含まれる文章に関する情報に基づく順位であって、前記複数の加工画像に付された順位に基づく順序で、前記複数の加工画像が表示される動画情報を生成する第2生成工程と、
を含むことを特徴とする生成方法。
【請求項15】
コンピュータが実行する生成方法であって、
コンテンツに含まれる画像に関する情報から抽出される対象物の領域に関する情報である特徴領域情報を取得する取得工程と、
前記取得工程により取得された前記特徴領域情報に基づいて前記コンテンツから複数の加工画像を生成する第1生成工程と、
前記コンテンツに含まれる各オブジェクトについて、所定のデータベースに記憶された情報に基づいて決定された表示順に応じて、前記複数の加工画像に付された順位に基づく順序で、前記複数の加工画像が表示される動画情報を生成する第2生成工程と、
を含むことを特徴とする生成方法。
【請求項16】
コンピュータが実行する生成方法であって、
コンテンツに含まれる画像に関する情報から抽出される対象物の領域に関する情報である特徴領域情報を取得する取得工程と、
前記取得工程により取得された前記特徴領域情報に基づいて前記コンテンツから複数の加工画像を生成する第1生成工程と、
前記コンテンツに含まれる各オブジェクトについて、所定の動画群に基づいて学習された表示順に応じて、前記複数の加工画像に付された順位に基づく順序で、前記複数の加工画像が表示される動画情報を生成する第2生成工程と、
を含むことを特徴とする生成方法。
【請求項17】
コンピュータが実行する生成方法であって、
コンテンツに含まれる画像に関する情報から抽出される対象物の領域に関する情報である特徴領域情報を取得する取得工程と、
前記取得工程により取得された前記特徴領域情報に基づいて前記コンテンツから複数の加工画像を生成する第1生成工程と、
前記コンテンツに含まれる各オブジェクトについて、ネットワーク上から収集した情報に基づいて決定された表示順に応じて、前記複数の加工画像に付された順位に基づく順序で、前記複数の加工画像が表示される動画情報を生成する第2生成工程と、
を含むことを特徴とする生成方法。
【請求項18】
コンピュータが実行する生成方法であって、
コンテンツに含まれる画像に関する情報から抽出される対象物の領域に関する情報である特徴領域情報を取得する取得工程と、
前記取得工程により取得された前記特徴領域情報に基づいて前記コンテンツから複数の加工画像を生成する第1生成工程と、
前記コンテンツに含まれる各オブジェクトが生物である場合、当該各オブジェクトについて、顔認識結果の尤度等の情報に基づいて決定された表示順に応じて、前記複数の加工画像に付された順位に基づく順序で、前記複数の加工画像が表示される動画情報を生成する第2生成工程と、
を含むことを特徴とする生成方法。
【請求項19】
コンテンツに含まれる画像に関する情報から抽出される対象物の領域に関する情報である特徴領域情報を取得する取得手順と、
前記取得手順により取得された前記特徴領域情報に基づいて前記コンテンツから複数の加工画像を生成する第1生成手順と、
前記コンテンツに含まれる文章に関する情報に基づく順位であって、前記複数の加工画像に付された順位に基づく順序で、前記複数の加工画像が表示される動画情報を生成する第2生成手順と、
をコンピュータに実行させることを特徴とする生成プログラム。
【請求項20】
コンテンツに含まれる画像に関する情報から抽出される対象物の領域に関する情報である特徴領域情報を取得する取得手順と、
前記取得手順により取得された前記特徴領域情報に基づいて前記コンテンツから複数の加工画像を生成する第1生成手順と、
前記コンテンツに含まれる各オブジェクトについて、所定のデータベースに記憶された情報に基づいて決定された表示順に応じて、前記複数の加工画像に付された順位に基づく順序で、前記複数の加工画像が表示される動画情報を生成する第2生成手順と、
をコンピュータに実行させることを特徴とする生成プログラム。
【請求項21】
コンテンツに含まれる画像に関する情報から抽出される対象物の領域に関する情報である特徴領域情報を取得する取得手順と、
前記取得手順により取得された前記特徴領域情報に基づいて前記コンテンツから複数の加工画像を生成する第1生成手順と、
前記コンテンツに含まれる各オブジェクトについて、所定の動画群に基づいて学習された表示順に応じて、前記複数の加工画像に付された順位に基づく順序で、前記複数の加工画像が表示される動画情報を生成する第2生成手順と、
をコンピュータに実行させることを特徴とする生成プログラム。
【請求項22】
コンテンツに含まれる画像に関する情報から抽出される対象物の領域に関する情報である特徴領域情報を取得する取得手順と、
前記取得手順により取得された前記特徴領域情報に基づいて前記コンテンツから複数の加工画像を生成する第1生成手順と、
前記コンテンツに含まれる各オブジェクトについて、ネットワーク上から収集した情報に基づいて決定された表示順に応じて、前記複数の加工画像に付された順位に基づく順序で、前記複数の加工画像が表示される動画情報を生成する第2生成手順と、
をコンピュータに実行させることを特徴とする生成プログラム。
【請求項23】
コンテンツに含まれる画像に関する情報から抽出される対象物の領域に関する情報である特徴領域情報を取得する取得手順と、
前記取得手順により取得された前記特徴領域情報に基づいて前記コンテンツから複数の加工画像を生成する第1生成手順と、
前記コンテンツに含まれる各オブジェクトが生物である場合、当該各オブジェクトについて、顔認識結果の尤度等の情報に基づいて決定された表示順に応じて、前記複数の加工画像に付された順位に基づく順序で、前記複数の加工画像が表示される動画情報を生成する第2生成手順と、
をコンピュータに実行させることを特徴とする生成プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、生成装置、生成方法、及び生成プログラムに関する。
【背景技術】
【0002】
従来、ニュース記事等のコンテンツに含まれる画像を加工する技術が提供されている。例えば、人の顔が含まれる画像における両目間の距離に基づいて画像を加工する技術が提供されている。また、このような画像を加工する技術を用いて、コンテンツを要約する動画情報(以下、単に「動画」ともいう)を生成する場合がある。例えば、コンテンツに含まれる画像や動画等の画像に関する情報を用いてコンテンツを要約する動画を生成する場合がある。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2005−108207号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記の従来技術ではコンテンツの内容を含む動画が適切に生成されるとは限らない。例えば、コンテンツに含まれる画像内の領域をクロッピングした加工画像から動画を生成する場合、コンテンツの内容を含む動画が適切に生成されるとは限らない。
【0005】
本願は、上記に鑑みてなされたものであって、コンテンツの内容を含む動画を適切に生成する生成装置、生成方法、及び生成プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本願に係る生成装置は、コンテンツに含まれる画像に関する情報から抽出される対象物の領域に関する情報である特徴領域情報を取得する取得部と、前記取得部により取得された前記特徴領域情報に基づいて前記コンテンツから複数の加工画像を生成する第1生成部と、前記複数の加工画像に付された順位に基づく順序で、前記複数の加工画像が表示される動画情報を生成する第2生成部と、を備えたことを特徴とする。
【発明の効果】
【0007】
実施形態の一態様によれば、コンテンツの内容を含む動画を適切に生成することができるという効果を奏する。
【図面の簡単な説明】
【0008】
図1図1は、実施形態に係る生成処理の一例を示す図である。
図2図2は、実施形態に係る配信システムの構成例を示す図である。
図3図3は、実施形態に係る生成装置の構成例を示す図である。
図4図4は、実施形態に係るコンテンツ情報記憶部の一例を示す図である。
図5図5は、実施形態に係る端末装置の構成例を示す図である。
図6図6は、実施形態に係る端末装置における表示の一例を示す図である。
図7図7は、実施形態に係る生成処理の一例を示すフローチャートである。
図8図8は、実施形態に係る動画を用いた生成処理の一例を示す図である。
図9図9は、実施形態に係る動画を用いた生成処理の一例を示す図である。
図10図10は、実施形態に係る動画のキーフレームに基づく生成処理の一例を示す図である。
図11図11は、生成装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
【発明を実施するための形態】
【0009】
以下に、本願に係る生成装置、生成方法、及び生成プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る生成装置、生成方法、及び生成プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
【0010】
(実施形態)
〔1.生成処理〕
まず、図1を用いて、実施形態に係る生成処理の一例として、記事コンテンツ(以下、単に「コンテンツ」ともいう)に含まれる画像情報(以下、単に「画像」ともいう)を用いた生成処理の一例を示す。図1は、実施形態に係る生成処理の一例を示す図である。具体的には、図1は、コンテンツAT11(図4参照)に含まれる画像IM11を用いて動画MV11を生成する生成処理を一例として示す。以下では、生成処理により生成される動画を要約動画と記載する場合がある。例えば、生成処理により生成される動画MV11は、要約動画MV11と記載する場合がある。図1に示す生成処理は、生成装置100(図3参照)により実行される。図1では、生成装置100は、画像IM11から抽出される対象物(以下、「オブジェクト」ともいう)の領域に関する情報である特徴領域情報に基づいてコンテンツAT11から複数の加工画像IP111〜IP141等を生成する。そして、生成装置100は、加工画像IP111〜IP141等から要約動画MV11を生成する。
【0011】
図1では、コンテンツAT11に含まれる画像IM11と文字情報IC11とに基づいて特徴領域情報が抽出される例を示す。図1に示す例において、複数の加工画像IP111〜IP141等は、画像IM11の所定の範囲をクロッピングすることにより生成される。例えば、加工画像IP11は、画像IM11中の特徴的な部分を含む範囲をクロッピングすることにより生成される。なお、ここでいうクロッピングとは画像から所定の領域を切り取る処理をいう。
【0012】
図1中の画像IM11は、野球の試合における1シーンを示す画像である。具体的には、図1中の画像IM11は、あるチーム(チームAA)の選手であるキャッチャーPに向けて、チームAAの選手であるピッチャーNが投球し、打席に立った相手チーム(チームBB)の選手であるバッターOが打つシーンを示す画像である。また、図1中の画像IM11には、審判Qや、ピッチャーNが投球したボール等が含まれる。
【0013】
また、図1中の文字情報IC11は、画像IM11に関する文章を含む。具体的には、文字情報IC11には、X月Y日に行われた決勝戦におけるチームAA対チームBBの試合に関する内容が含まれる。また、文字情報IC11には、チームAAのピッチャーNが投げたボールをチームBBのバッターOが打ち返したことに関する内容が含まれる。
【0014】
まず、生成装置100は、画像IM11における特徴量に関する特徴領域情報FR11を抽出する(ステップS11)。具体的には、生成装置100は、画像IM11に基づいて画像IM11における特徴量に関する特徴領域情報FR11を抽出する。なお、ここでいう、特徴領域情報とは、対象物の領域に関する情報であり、画像IM11中のどこに対象物が含まれるかを示す情報である。例えば、生成装置100は、サリエンシーディテクション(Saliency Detection)等の画像処理における種々の従来手法を適宜用いて、画像IM11における特徴領域情報FR11を抽出する。例えば、生成装置100は、R−CNN(Regions with Convolutional Neural Network)等の画像認識技術を用いた画像処理を適宜用いてもよい。また、生成装置100は、画像処理の種々の従来手法等を適宜用いて、画像におけるオブジェクト(物体)の認識による情報の抽出を行ってもよい。
【0015】
例えば、生成装置100は、文字情報IC11からトピックを抽出する。なお、生成装置100は、トピック分析(解析)等の種々の従来手法を適宜用いて、文字情報IC11からトピックを抽出してもよい。例えば、生成装置100は、文字情報IC11を形態素解析等の自然言語処理技術を適宜用いて解析することにより、文字情報IC11から重要なキーワードをトピックとして抽出してもよい。図1の例では、生成装置100は、文字情報IC11から、「ピッチャーN」や「バッターO」や「直球(ボール)」等のトピックを抽出する。
【0016】
そして、生成装置100は、文字情報IC11から抽出したトピックに基づいて、画像IM11から特徴領域情報FR11を抽出する。例えば、生成装置100は、上述した画像処理等の種々の従来手法を適宜用いて、画像IM11における特徴領域情報FR11を抽出する。例えば、生成装置100は、画像IM11において文字情報IC11から抽出したトピックに関する物体を含む領域の特徴量が大きくなるように特徴領域情報FR11を抽出する。
【0017】
図1では、生成装置100は、特徴領域情報FR11に示すように、画像IM11に基づいて、画像IM11における特徴領域を抽出する。例えば、特徴領域情報FR11は、画像IM11における各画素の特徴量を示す。なお、ここでいう特徴量は、例えば、特徴量を示す数値である。具体的には、特徴領域情報FR11を構成する各点(画素)の位置は、画像IM11に重畳させた場合に画像IM11において重なる位置に対応し、特徴領域情報FR11は、画像IM11において対応する画素の特徴量を示す。なお、図1中の特徴領域情報FR11では、特徴を示す領域を色が濃い態様で示す。すなわち、特徴領域情報FR11では、特徴量が大きいほど色が濃い態様で表示される。具体的には、図1中の特徴領域情報FR11では、画像IM11において人の頭部(顔)やボールが位置する領域が色の濃い態様で示される。すなわち、図1では、生成装置100は、バッターOの顔やオブジェクトOB15が位置する領域が色の濃い態様で示される。
【0018】
次に、生成装置100は、画像IM11に含まれるオブジェクトを抽出し、抽出したオブジェクトの表示順を決定する(ステップS12)。例えば、生成装置100は、特徴領域情報FR11や文字情報IC11等の種々の情報に基づいて、オブジェクト一覧OL11に示すように、画像IM11に含まれるオブジェクトOB11〜OB15等を抽出する。図1の例では、生成装置100は、画像IM11に含まれるキャッチャーPをオブジェクトOB11として抽出する。また、生成装置100は、画像IM11に含まれるピッチャーNをオブジェクトOB12として抽出する。また、生成装置100は、画像IM11に含まれるバッターOをオブジェクトOB13として抽出する。また、生成装置100は、画像IM11に含まれる審判QをオブジェクトOB14として抽出する。また、生成装置100は、画像IM11に含まれるボールをオブジェクトOB15として抽出する。
【0019】
なお、生成装置100は、種々の従来技術を適宜用いて、文字情報IC11に含まれるピッチャーN(オブジェクトOB12)が位置する領域やバッターO(オブジェクトOB13)が位置する領域やボール(オブジェクトOB15)が位置する領域を推定してもよい。例えば、生成装置100は、特徴量が大きい領域の形状や位置関係等に応じて、ピッチャーN(オブジェクトOB12)が位置する領域やバッターO(オブジェクトOB13)が位置する領域やボール(オブジェクトOB15)が位置する領域を推定してもよい。また、生成装置100は、種々の情報を適宜用いて、ピッチャーN(オブジェクトOB12)が位置する領域やバッターO(オブジェクトOB13)が位置する領域やボール(オブジェクトOB15)が位置する領域を推定してもよい。
【0020】
例えば、生成装置100は、種々のオブジェクトを学習した学習情報に基づいて、オブジェクトOB11〜OB15を抽出してもよい。例えば、生成装置100は、ピッチャーNのユニフォームや背番号等を学習した学習情報に基づいて、画像IM11からオブジェクトOB12を抽出してもよい。また、例えば、生成装置100は、バッターOの顔等を学習した学習情報に基づいて、画像IM11からオブジェクトOB13を抽出してもよい。また、例えば、生成装置100は、野球のボールを学習した学習情報に基づいて、画像IM11からオブジェクトOB15を抽出してもよい。例えば、生成装置100は、事前に学習したボール内の色の分布情報等に基づいて、画像IM11からオブジェクトOB15を抽出してもよい。なお、生成装置100は、特徴領域情報FR11等により画像IM11からオブジェクトOB11〜OB15等が抽出可能であれば、どのような技術によりステップS12のオブジェクト抽出を行ってもよい。
【0021】
また、生成装置100は、抽出したオブジェクトOB11〜OB15等の表示順を決定する。例えば、生成装置100は、文字情報IC11から抽出したトピックや文字情報IC11の構文や時系列に関する情報に基づいて、オブジェクトOB11〜OB15等の表示順を決定する。
【0022】
図1の例では、文字情報IC11には、「ピッチャーNがボールを投げる」、「ボールをバッターOが打つ」という内容が含まれる。そのため、生成装置100は、種々の従来技術を適宜用いて、文字情報IC11の内容に基づいて、ピッチャーNの表示順よりもバッターOの表示順が後であると決定する。例えば、生成装置100は、形態素解析や構文解析等の種々ン従来技術を適宜用いて、文字情報IC11の内容を解析することにより、表示順を決定する。例えば、生成装置100は、テキストデータである文字情報IC11を自然言語処理により解析する。また、生成装置100は、ボールがピッチャーNとバッターOとをつなぐ関係にあるため、ボールの表示順をピッチャーNとバッターOとの間の表示順であると決定する。これにより、生成装置100は、ピッチャーN、ボール、バッターOの時系列における順序を抽出する。すなわち、生成装置100は、オブジェクトOB12の表示順を1位、オブジェクトOB13の表示順を3位、オブジェクトOB15の表示順を2位に決定する。また、生成装置100は、画像IM11に含まれる他のオブジェクトOB11やOB14等はコンテンツAT11において重要度が低いオブジェクトとして、表示順を設定しない。すなわち、生成装置100は、画像IM11に含まれるキャッチャーPや審判QをコンテンツAT11の内容において重要ではないとして、表示順を「−(無)」と決定する。
【0023】
そして、生成装置100は、コンテンツAT11から複数の加工画像IP111〜IP141等を生成し、生成した複数の加工画像IP111〜IP141が表示される要約動画MV11を生成する(ステップS13)。例えば、生成装置100は、特徴領域情報FR11やオブジェクト一覧OL11に基づいて、画像IM11をクロッピングすることにより、複数の加工画像IP111〜IP141等を生成する。なお、図1の例では、説明を簡単にするために、複数の加工画像IP111〜IP141等を生成する際に、画像IM11をクロッピングする領域AR11〜AR14のアスペクト比(縦横比)を1:1とする。なお、クロッピングする領域のアスペクト比や形状は、各加工画像の生成で異なってもよい。例えば、ある加工画像の生成におけるクロッピングする領域のアスペクト比は、1:2や3:4であってもよい。また、例えば、ある加工画像の生成におけるクロッピングする領域の形状は、円形状や四角以外の多角形状等、種々の形状であってもよい。また、クロッピングする領域をどのような大きさにするかは、適宜の基準に基づいて決定されてもよい。例えば、生成装置100は、領域に含まれる各画素の特徴量の値に基づいて、クロッピングする領域の大きさを決定してもよい。例えば、生成装置100は、領域に含まれる各画素の特徴量の平均値に基づいて、クロッピングする領域の大きさを決定してもよい。例えば、生成装置100は、領域に所望のオブジェクトに部位が含まれ、領域中の各画素の特徴量の平均値が大きくなるように、クロッピングする領域の大きさを決定してもよい。例えば、生成装置100は、領域にバッターOの顔が含まれ、領域中の各画素の特徴量の平均値が大きくなるように、バッターO(オブジェクトOB13)をクロッピングする領域の大きさを決定してもよい。
【0024】
図1の例では、生成装置100は、ピッチャーNの略全身が含まれる加工画像IP111やピッチャーNの背番号部分が含まれる加工画像IP121やボールが含まれる加工画像IP131やバッターOが含まれる加工画像IP141等を生成する。例えば、生成装置100は、画像IM11の領域AR11をクロッピングすることにより、加工画像IP111を生成する。また、例えば、生成装置100は、画像IM11の領域AR12をクロッピングすることにより、加工画像IP121を生成する。また、例えば、生成装置100は、画像IM11の領域AR13をクロッピングすることにより、加工画像IP131を生成する。また、例えば、生成装置100は、画像IM11の領域AR14をクロッピングすることにより、加工画像IP141を生成する。なお、図1では説明を簡単にするために、加工画像IP111〜IP141のみを図示するが、生成装置100は、画像IM11から多数の加工画像を生成してもよい。
【0025】
そして、生成装置100は、複数の加工画像IP111〜IP141等の順位を決定する。なお、図1の例では、複数の加工画像IP111〜IP141等の順位は、複数の加工画像IP111〜IP141等を表示する順番に対応する。すなわち、生成した要約動画MV11においては順位が高い加工画像から順に表示される。例えば、生成装置100は、複数の加工画像IP111〜IP141等のうち、表示順が1位のオブジェクトであるピッチャーNを含む加工画像IP111、IP121等に高い順位を付す。具体的には、生成装置100は、ピッチャーNの略全身が含まれる加工画像IP111に順位Aを付し、ピッチャーNの背番号部分が含まれる加工画像IP121に順位B(A+α)を付す。なお、順位Aは順位1(位)であってもよい。
【0026】
また、生成装置100が各加工画像の順位に基づいて、複数の加工画像IP111〜IP141間をつなぐフレーム補間等の補間処理を行うことにより、要約動画MV11を生成する場合、加工画像IP121に付される順位B(A+α)の「α」は「1」であってもよい。なお、ここでいう補間処理には、線形補間やスプライン補間等の種々の従来技術が適宜用いられてもよい。例えば、補間処理により、加工画像IP111、IP121をフレームとして、加工画像IP111と加工画像IP121との間を滑らかにつなぐフレーム補間が行われてもよい。例えば、生成装置100は、補間処理により、各オブジェクト間の直線的に移動するように表示される要約動画を生成してもよい。また、生成装置100が複数の加工画像IP111〜IP141等を順位に基づいて連続して表示する要約動画MV11を生成する場合、加工画像IP121に付される順位B(A+α)の「α」は、「加工画像IP111と加工画像IP121との間に表示される加工画像の枚数+1」であってもよい。
【0027】
また、例えば、生成装置100は、複数の加工画像IP111〜IP141等のうち、表示順が2位のオブジェクトであるボールを含む加工画像IP131等にピッチャーNが含まれる加工画像の順位より低い順位を付す。具体的には、生成装置100は、ボール(オブジェクトOB15)が含まれる加工画像IP131に順位C(B+β)を付す。
【0028】
また、生成装置100が各加工画像の順位に基づいて、複数の加工画像IP111〜IP141間をつなぐフレーム補間等の補間処理を行うことにより、要約動画MV11を生成する場合、加工画像IP131に付される順位C(B+β)の「β」は「1」であってもよい。また、生成装置100が複数の加工画像IP111〜IP141等を順位に基づいて連続して表示する要約動画MV11を生成する場合、加工画像IP131に付される順位C(B+β)の「β」は、「加工画像IP121と加工画像IP131との間に表示される加工画像の枚数+1」であってもよい。
【0029】
また、例えば、生成装置100は、複数の加工画像IP111〜IP141等のうち、表示順が3位のオブジェクトであるバッターOを含む加工画像IP141等にボール(オブジェクトOB15)が含まれる加工画像の順位より低い順位を付す。具体的には、生成装置100は、バッターOが含まれる加工画像IP141に順位D(C+γ)を付す。
【0030】
また、生成装置100が各加工画像の順位に基づいて、複数の加工画像IP111〜IP141間をつなぐフレーム補間等の補間処理を行うことにより、要約動画MV11を生成する場合、加工画像IP141に付される順位D(C+γ)の「γ」は「1」であってもよい。また、生成装置100が複数の加工画像IP111〜IP141等を順位に基づいて連続して表示する要約動画MV11を生成する場合、加工画像IP141に付される順位D(C+γ)の「γ」は、「加工画像IP131と加工画像IP141との間に表示される加工画像の枚数+1」であってもよい。
【0031】
そして、生成装置100は、複数の加工画像IP111〜IP141等に付された順位に基づく順序で、複数の加工画像IP111〜IP141等が表示される要約動画MV11を生成する。例えば、生成装置100は、上述したフレーム補間等の処理により、複数の加工画像IP111〜IP141間をつなぐ補間を行うことにより、要約動画MV11を生成してもよい。例えば、生成装置100は、生成した加工画像に加工画像IP111〜IP141以外にも多数の加工画像が含まれる場合、複数の加工画像に付された順位に基づく順序で、複数の加工画像が表示される要約動画MV11を生成してもよい。
【0032】
上述したように、生成装置100は、特徴領域情報FR11やオブジェクト一覧OL11に基づいて、画像IM11をクロッピングすることにより、加工画像IP111〜IP141等を生成する。また、生成装置100は、加工画像IP111〜IP141等に付された順位に基づく順序で、加工画像IP111〜IP141等が表示される要約動画MV11を生成することにより、生成装置100は、コンテンツAT11の内容を含む動画を適切に生成することができる。
【0033】
なお、生成装置100は、上述した例に限らず、種々の情報に基づいて、要約動画を生成してもよい。例えば、生成装置100は、各オブジェクトの重要度に応じて、各オブジェクトが要約動画に含まれる割合を決定してもよい。例えば、生成装置100は、画像内に占める各オブジェクトの割合や文字情報における各オブジェクトの出現順序や出現頻度に基づいて、各オブジェクトが要約動画に含まれる割合を決定してもよい。なお、ここでいう要約動画に含まれる割合とは、要約動画の再生時間における割合であってもよい。例えば、生成装置100は、画像IM11や文字情報IC11において、ピッチャーNやバッターOの重要度が高いと推定し、ピッチャーNが4割、バッターOが5割、ボールが1割含まれる要約動画を生成してもよい。
【0034】
また、上述した例においては、生成装置100が文字情報IC11を用いて要約動画MV11を生成する場合を示したが、生成装置100は、画像のみから要約動画を生成してもよい。また、コンテンツAT11に含まれる文字情報IC11を用いる場合を示したが、文字情報はコンテンツと関連すればどのような情報であってもよい。また、生成装置100は、所定の記憶手段に記憶された各オブジェクト間やオブジェクトの部分ごとの表示順に関する情報に基づいて、要約動画を生成してもよい。なお、上述した例においては、ピッチャーNの後にバッターOが表示される要約動画MV11が生成される場合を示したが、生成装置100は、異なる順番で表示される要約動画を生成してもよい。例えば、生成装置100は、コンテンツに含まれる画像がピッチャー返しの画像である場合や、コンテンツに含まれる文字情報が「バッターが打った球がピッチャーを直撃…」等である場合、ボールを打ったバッターを表示した後に、ピッチャーを表示してもよい。このように、生成装置100は、画像の内容や文字情報の意味等に基づいて、各オブジェクトの表示順を決定してもよい。
【0035】
また、例えば、生成装置100は、人間の常識に関する情報に基づいて、各オブジェクト間やオブジェクトの部分ごとの表示順を決定してもよい。例えば、生成装置100は、いわゆる知識ベース等のデータベースに記憶された情報に基づいて、各オブジェクト間やオブジェクトの部分ごとの表示順を決定し、要約動画を生成してもよい。この場合、生成装置100は、配信システム1(図2参照)の管理者等が入力した各オブジェクト間やオブジェクトの部分ごとの表示順に関する情報に基づいて、要約動画を生成してもよい。例えば、生成装置100は、ニュース動画等の種々の既存の動画から学習した表示順を用いて、要約動画を生成してもよい。例えば、既存のニュース動画等における野球の動画では、ピッチャーからバッターといった表示順序で頻繁に表示される場合が多いとする。この場合、生成装置100は、野球の動画では、ピッチャーの次にバッターという表示順を学習し、学習した表示順を用いて、ピッチャーの次にバッターが表示される要約動画を生成してもよい。また、例えば、生成装置100は、ネットワーク上から収集した種々の情報に基づいて、表示順を決定しても良い。例えば、生成装置100は、収集したWebページ等に基づいて算出した各頻度に関する情報を利用して表示順を決定しても良い。例えば、生成装置100は、収集したWebページ等におけるに表示に基づいて算出した各オブジェクトの表示順の頻度に関する情報を利用して表示順を決定しても良い。また、例えば、複数人が含まれるグループ(例えばアイドルグループ等)において各オブジェクト(人間)に人気順等の順位付けがされているものとする。この場合、生成装置100は、複数人が含まれるグループのうち、所定の閾値(例えば5位等)以上の(人気)順位が付されたオブジェクト(人間)が含まれるように、要約動画を生成してもよい。例えば、生成装置100は、複数人が含まれるグループのうち、上位人気の5人が必ず含まれるように、要約動画を生成してもよい。なお、このようなグループ内の人気に関する情報は、上述した知識ベースから取得してもよいし、配信システム1(図2参照)の管理者等が入力してもよい。また、生成装置100は、オブジェクトが動物(人間)で含まれる場合、顔認識結果の尤度等の情報を用いて表示順を決定しても良い。例えば、生成装置100は、イベントや祭り等のなど多くの人が集まるシーンにおいて、群衆の中の人の顔にフォーカスする場合に、良く撮れている、すなわちピントが合っている人の顔にフォーカスするように、要約動画を生成してもよい。
【0036】
例えば、配信システム1の管理者等は、画像や動画にピッチャーやバッターが含まれる場合、人間が通常はピッチャーを見てからバッターを見ることを示す情報を入力する。例えば、配信システム1の管理者等は、ファッションショー等においてモデルを撮影する際には、脚部から頭部へ、すなわち下から上へ表示範囲を移動させることを示す情報を入力する。例えば、配信システム1の管理者等は、商品広告等の場合、商品を持つ人間全体を含む表示範囲から、商品をアップで含む表示範囲へ変更、すなわち商品へズームすることを示す情報を入力する。例えば、生成装置100は、入力した各オブジェクト間やオブジェクトの部分ごとの表示順に関する情報を記憶部120(図3参照)に記憶し、要約動画を生成する際に、記憶部120から対応する表示順に関する情報を読み出して用いてもよい。また、例えば、生成装置100は、要約動画(アニメーション)生成の際にオブジェクトのNGリストを利用してもよい。例えば、NGリストに広告や一般人等が含まれてもよい。この場合、例えば、図1に示す画像IM11中に観衆(一般人)の顔等が含まれる場合、生成装置100は、一般人の顔が含まれないように要約動画を生成してもよい。また、例えば、図1に示す画像IM11中に広告等が含まれる場合、生成装置100は、広告が含まれないように要約動画を生成してもよい。例えば、生成装置100は、図1に示す画像IM11中に含まれるキャッチャーPが所定の事象(例えば逮捕等)によりNGリストに含まれる場合、生成装置100は、キャッチャーPが含まれないように要約動画を生成してもよい。例えば、生成装置100は、NGリストに含まれるオブジェクト(以下、「NGオブジェクト」とする)が要約動画に含まれることを回避する場合、種々の編集に関する手法を用いてもよい。例えば、生成装置100は、所定の編集点(カット)を入れた要約動画を生成してもよい。例えば、生成装置100は、要約動画に含めるオブジェクト間を連続的に繋がずに、一部に適当な編集効果を入れて分割してNGオブジェクトを避けてもよい。例えば、生成装置100は、要約情報に含めるオブジェクトAとオブジェクトBとの間に、NGオブジェクトCが位置する場合、オブジェクトAとオブジェクトBとの間を連続的につながずに、一部に任意の編集効果を入れて分割してオブジェクトCが含まれることを回避した要約動画を生成してもよい。例えば、生成装置100は、所定の画像を追加したり、インサート編集等の種々の編集処理を行ったりしてもよい。また、生成装置100は、複数の要約動画(アニメーション)のパス候補がある場合にはNGオブジェクトを含まない方を選択してもよい。例えば、生成装置100は、オブジェクトAとオブジェクトBとの間をつなぐ要約動画を生成する場合に、オブジェクトAとオブジェクトBとの間をつなぐパスにNGオブジェクトCが位置するパスとNGオブジェクトCが位置しないパスとが含まれる場合、NGオブジェクトCが位置しないパスに基づいて、要約動画を生成してもよい。
【0037】
また、生成装置100が生成する要約動画は、所定の圧縮形式により圧縮された動画であってもよい。また、生成装置100は、要約動画における重要なシーンの前で所定の時間静止する要約動画を生成してもよい。例えば、生成装置100は、重要なシーンの前で所定の時間静止し、テロップ等の文字情報を差し込み表示し、その後続きを表示する要約動画を生成してもよい。例えば、生成装置100は、アクションシーンの要約動画において、殴るシーンの直前で一時停止し、テロップ等の文字情報を差し込み表示し、その後続きを表示する要約動画を生成してもよい。生成装置100は、音声情報から取得した文字情報に基づいて、上記の処理を行ってもよい。また、生成装置100は、所定のコンテンツの遷移先のコンテンツの要約動画を生成し、所定のコンテンツに表示してもよい。例えば、生成装置100は、所定のウェブページの遷移先ページの要約動画を生成して、ディスプレイ広告として所定のウェブページに表示してもよい。例えば、生成装置100は、所定のウェブページの遷移先ページのキャプチャ画像に基づいて要約動画を生成して、ディスプレイ広告として所定のウェブページに表示してもよい。
【0038】
〔2.配信システムの構成〕
図2に示すように、配信システム1は、端末装置10と、提供元端末50と、生成装置100とが含まれる。端末装置10と、提供元端末50と、生成装置100とは所定のネットワークNを介して、有線または無線により通信可能に接続される。図2は、実施形態に係る配信システムの構成例を示す図である。なお、図2に示した配信システム1には、複数台の端末装置10や、複数台の提供元端末50や、複数台の生成装置100が含まれてもよい。
【0039】
端末装置10は、ユーザによって利用される情報処理装置である。端末装置10は、ユーザによる種々の操作を受け付ける。なお、以下では、端末装置10をユーザと表記する場合がある。すなわち、以下では、ユーザを端末装置10と読み替えることもできる。なお、上述した端末装置10は、例えば、スマートフォンや、タブレット型端末や、ノート型PC(Personal Computer)や、デスクトップPCや、携帯電話機や、PDA(Personal Digital Assistant)等により実現される。
【0040】
提供元端末50は、文字情報や画像等のコンテンツの提供元によって利用される情報処理装置である。例えば、文字情報や画像等のコンテンツの提供元は、提供元端末50により、図4に示すような文字情報や画像を生成装置100へ提供する。
【0041】
生成装置100は、複数の特徴領域情報に基づいて、画像を加工することにより、画像から加工画像を生成する情報処理装置である。また、本実施形態において生成装置100は、生成した組合せコンテンツを端末装置10へ配信するコンテンツ配信サービスを提供する。
【0042】
〔3.生成装置の構成〕
次に、図3を用いて、実施形態に係る生成装置100の構成について説明する。図3は、実施形態に係る生成装置100の構成例を示す図である。図3に示すように、生成装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、生成装置100は、生成装置100の管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
【0043】
(通信部110)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部110は、ネットワークNと有線または無線で接続され、端末装置10との間で情報の送受信を行う。
【0044】
(記憶部120)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態に係る記憶部120は、図3に示すように、コンテンツ情報記憶部121を有する。
【0045】
(コンテンツ情報記憶部121)
実施形態に係るコンテンツ情報記憶部121は、コンテンツに関する各種情報を記憶する。図4に、実施形態に係るコンテンツ情報記憶部121の一例を示す。図4に示すコンテンツ情報記憶部121は、「コンテンツID」、「文字情報」、「画像情報」、「画像ID」、「提供元ID」といった項目を有する。
【0046】
「コンテンツID」は、コンテンツを識別するための識別情報を示す。「文字情報」は、対応するコンテンツに含まれる文字情報を示す。また、「画像情報」は、対応するコンテンツに含まれる画像を示す。図4では、説明のため画像IDにより識別される画像を図示するが、「画像情報」としては、画像の格納場所を示すファイルパス名などが格納されてもよい。「画像ID」は、画像を識別するための識別情報を示す。例えば、画像ID「IM11」により識別される画像は、図1の例に示した画像IM11に対応する。また、「提供元ID」は、コンテンツの提供元を識別するための識別情報を示す。
【0047】
例えば、図4に示す例において、コンテンツID「AT11」により識別されるコンテンツAT11は、文字情報「X月Y日に行われた決勝戦で、チームAAのピッチャーNが…」と画像ID「IM11」により識別される画像IM11を含むコンテンツAT11であることを示す。また、コンテンツID「AT11」により識別されるコンテンツAT11は、提供元ID「CP11」により識別される提供元から取得したコンテンツAT11であることを示す。
【0048】
また、例えば、図4に示す例において、コンテンツID「AT12」により識別されるコンテンツAT12は、文字情報「Z月A日に行われたリーグの第Z節、…」と画像ID「IM12」により識別される画像IM12を含むコンテンツAT12であることを示す。また、コンテンツID「AT12」により識別されるコンテンツAT12は、提供元ID「CP12」により識別される提供元から取得したコンテンツAT12であることを示す。
【0049】
なお、コンテンツ情報記憶部121は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、コンテンツ情報記憶部121は、コンテンツに動画が含まれる場合、動画を記憶してもよい。例えば、コンテンツ情報記憶部121は、コンテンツに複数の画像が含まれる場合、複数の画像を記憶してもよい。例えば、コンテンツ情報記憶部121は、コンテンツのカテゴリに関する情報を記憶してもよい。また、例えば、コンテンツ情報記憶部121は、コンテンツを取得した日時やコンテンツが作成された日時に関する情報を記憶してもよい。また、例えば、コンテンツ情報記憶部121は、コンテンツから抽出されたトピックに関する情報を記憶してもよい。また、例えば、コンテンツ情報記憶部121は、コンテンツの文字情報における重要語に関する情報を記憶してもよい。また、コンテンツ情報記憶部121中の画像は、画像の提供元や画像に関する権利(著作権等)を有する第三者から、画像への加工、すなわち二次加工に関する許諾が得られていることが判断(確認)され、管理(記憶)されているものとする。
【0050】
(制御部130)
図3の説明に戻って、制御部130は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、生成装置100内部の記憶装置に記憶されている各種プログラム(生成プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部130は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
【0051】
図3に示すように、制御部130は、取得部131と、抽出部132と、第1生成部133と、第2生成部134と、配信部135とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図3に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部130が有する各処理部の接続関係は、図3に示した接続関係に限られず、他の接続関係であってもよい。
【0052】
(取得部131)
取得部131は、各種情報を取得する。例えば、取得部131は、外部装置や記憶部120から各種情報を取得する。例えば、取得部131は、外部装置やコンテンツ情報記憶部121からコンテンツに関する各種情報を取得する。例えば、取得部131は、コンテンツ情報記憶部121からコンテンツAT11に関する各種情報を取得する。
【0053】
また、取得部131は、コンテンツに含まれる画像に関する情報から抽出される対象物の領域に関する情報である特徴領域情報を取得する。例えば、取得部131は、特徴領域情報FR11を取得する。図1では、取得部131は、画像に関する情報としてコンテンツAT11に含まれる画像IM11から抽出される特徴領域情報FR11を取得する。例えば、取得部131は、コンテンツに含まれる画像に関する情報から抽出された特徴領域情報を外部装置から取得してもよい。また、例えば、取得部131は、コンテンツに含まれる画像に関する情報から抽出された特徴領域情報を抽出部132や記憶部120から取得してもよい。
【0054】
例えば、取得部131は、画像に関する情報としてコンテンツに含まれる複数の画像情報から抽出される特徴領域情報を取得する。また、例えば、取得部131は、画像に関する情報としてコンテンツに含まれる動画情報から抽出される特徴領域情報を取得する。また、例えば、取得部131は、コンテンツに関連する文字情報に基づいて抽出される特徴領域情報を取得する。図1では、取得部131は、コンテンツAT11に含まれる文字情報IC11に基づいて抽出される特徴領域情報FR11を取得する。また、例えば、取得部131は、コンテンツに関連する音声情報に基づいて抽出される特徴領域情報を取得する。
【0055】
また、取得部131は、端末装置10からコンテンツの配信要求を取得する。また、取得部131は、外部の情報処理装置からコンテンツ情報記憶部121に記憶されるコンテンツを取得する。この場合、例えば、取得部131は、提供元端末50からコンテンツを取得する。また、取得部131は、コンテンツにおけるトピックに関する情報を取得してもよい。例えば、取得部131は、コンテンツにおけるトピックに関する指定をコンテンツの提供元から取得してもよい。この場合、例えば、取得部131は、提供元端末50からコンテンツにおけるトピックに関する指定を取得する。
【0056】
(抽出部132)
また、抽出部132は、コンテンツに含まれる画像から特徴量に関する特徴領域情報を抽出する。例えば、抽出部132は、各種情報に基づいて、画像から特徴量に関する特徴領域情報を抽出する。例えば、抽出部132は、コンテンツに含まれる画像に基づいて画像から特徴領域情報を抽出してもよい。図1では、抽出部132は、コンテンツAT11に含まれる画像IM11に基づいて画像IM11から特徴領域情報FR11を抽出する。例えば、抽出部132は、サリエンシーディテクション等の画像処理における種々の従来手法を適宜用いて、画像IM11における特徴領域情報FR11を抽出する。例えば、抽出部132は、R−CNN等の画像認識技術を用いた画像処理を適宜用いてもよい。また、抽出部132は、画像処理の種々の従来手法等を適宜用いて、画像におけるオブジェクト(物体)の認識による情報の抽出を行ってもよい。
【0057】
また、抽出部132は、文字情報に基づいて画像から特徴領域情報を抽出する。例えば、抽出部132は、コンテンツに関連する文字情報に基づいて画像から特徴領域情報を抽出する。図1では、抽出部132は、コンテンツAT11に含まれる文字情報IC11に基づいて画像IM11から特徴領域情報FR11を抽出する。例えば、抽出部132は、文字情報IC11から抽出したトピックに基づいて、画像IM11から特徴領域情報FR11を抽出する。例えば、抽出部132は、画像処理等の種々の従来手法を適宜用いて、画像IM11における特徴領域情報FR11を抽出する。例えば、抽出部132は、画像IM11において文字情報IC11から抽出したトピックに関する物体を含む領域の特徴量が大きくなるように特徴領域情報FR11を抽出する。
【0058】
また、例えば、抽出部132は、画像から文字情報を生成する技術を応用して特徴領域情報を抽出してもよい。例えば、画像のキャプション生成のためのAttention機構付きNN(Neural Network)を応用して特徴領域情報を取得してもよい。例えば、抽出部132は、入力画像の局所領域の畳み込みとプーリングとを繰り返す、いわゆる畳み込みニューラルネットワーク(CNN)やリカレントニューラルネットワーク(RNN)の技術を適宜用いて、特徴領域情報を抽出してもよい。例えば、抽出部132は、RNNとして、LSTM(Long Short-Term Memory)の技術を用いてもよい。例えば、抽出部132は、画像のみから、画像に含まれる特徴(対象)であって、文字情報(キャプション)を生成する際に文字情報に含まれる特徴(対象)を示す特徴領域情報を抽出する。例えば、抽出部132は、文字情報(キャプション)を生成する際に文字情報に含まれる特徴(対象)を含む領域の特徴量が大きい特徴領域情報を抽出する。なお、抽出部132は、コンテンツに関連する音声情報に基づいて上述した抽出処理を行ってもよい。
【0059】
図1では、抽出部132は、画像IM11に含まれるオブジェクトを抽出し、抽出したオブジェクトの表示順を決定する。例えば、抽出部132は、特徴領域情報FR11や文字情報IC11等の種々の情報に基づいて、オブジェクト一覧OL11に示すように、オブジェクトOB11〜OB15等を抽出する。例えば、抽出部132は、画像IM11に含まれるキャッチャーPをオブジェクトOB11として抽出する。また、抽出部132は、画像IM11に含まれるピッチャーNをオブジェクトOB12として抽出する。また、抽出部132は、画像IM11に含まれるバッターOをオブジェクトOB13として抽出する。また、抽出部132は、画像IM11に含まれる審判QをオブジェクトOB14として抽出する。また、抽出部132は、画像IM11に含まれるボールをオブジェクトOB15として抽出する。
【0060】
なお、抽出部132は、種々の従来技術を適宜用いて、文字情報IC11に含まれるピッチャーN(オブジェクトOB12)が位置する領域やバッターO(オブジェクトOB13)が位置する領域やボール(オブジェクトOB15)が位置する領域を推定してもよい。例えば、抽出部132は、特徴量が大きい領域の形状や位置関係等に応じて、ピッチャーN(オブジェクトOB12)が位置する領域やバッターO(オブジェクトOB13)が位置する領域やボール(オブジェクトOB15)が位置する領域を推定してもよい。また、抽出部132は、種々の情報を適宜用いて、ピッチャーN(オブジェクトOB12)が位置する領域やバッターO(オブジェクトOB13)が位置する領域やボール(オブジェクトOB15)が位置する領域を推定してもよい。
【0061】
例えば、抽出部132は、種々のオブジェクトを学習した学習情報に基づいて、オブジェクトOB11〜OB15を抽出してもよい。例えば、抽出部132は、ピッチャーNのユニフォームや背番号等を学習した学習情報に基づいて、画像IM11からオブジェクトOB12を抽出してもよい。また、例えば、抽出部132は、バッターOの顔等を学習した学習情報に基づいて、画像IM11からオブジェクトOB13を抽出してもよい。また、例えば、抽出部132は、野球のボールを学習した学習情報に基づいて、画像IM11からオブジェクトOB15を抽出してもよい。なお、抽出部132は、特徴領域情報FR11等により画像IM11からオブジェクトOB11〜OB15等が抽出可能であれば、どのような技術によりオブジェクト抽出を行ってもよい。
【0062】
また、抽出部132は、抽出したオブジェクトOB11〜OB15等の表示順を決定する。例えば、抽出部132は、文字情報IC11から抽出したトピックや文字情報IC11の構文や時系列に関する情報に基づいて、オブジェクトOB11〜OB15等の表示順を決定する。
【0063】
また、抽出部132は、種々の従来技術を適宜用いて、文字情報IC11には、ピッチャーNの表示順よりもバッターOの表示順が後であると決定する。また、抽出部132は、ボールがピッチャーNとバッターOとをつなぐ関係にあるため、ボールの表示順をピッチャーNとバッターOと間の表示順であると決定する。これにより、抽出部132は、ピッチャーN、ボール、バッターOの時系列における順序を抽出する。すなわち、抽出部132は、オブジェクトOB12の表示順を1位、オブジェクトOB13の表示順を3位、オブジェクトOB15の表示順を2位に決定する。また、抽出部132は、画像IM11に含まれる他のオブジェクトOB11やOB14等はコンテンツAT11において重要度が低いオブジェクトとして、表示順を設定しない。すなわち、抽出部132は、画像IM11に含まれるキャッチャーPや審判QをコンテンツAT11の内容において重要ではないとして、表示順を「−(無)」と決定する。
【0064】
また、抽出部132は、コンテンツからトピックを抽出してもよい。例えば、抽出部132は、コンテンツAT11からトピックを抽出する。また、抽出部132は、文字情報に基づいてトピックを抽出してもよい。例えば、抽出部132は、文字情報IC11に基づいてトピックを抽出する。なお、抽出部132は、トピック分析(解析)等の種々の従来手法を適宜用いて、コンテンツAT11からトピックを抽出してもよい。例えば、抽出部132は、文字情報IC11を形態素解析等の自然言語処理技術を適宜用いて解析することにより、文字情報IC11から重要なキーワードをトピックとして抽出してもよい。また、抽出部132は、抽出した特徴領域情報等の各種情報を記憶部120に記憶してもよい。
【0065】
(第1生成部133)
第1生成部133は、複数の加工画像を生成する。例えば、第1生成部133は、取得部131により取得された特徴領域情報に基づいてコンテンツから複数の加工画像を生成する。図1では、第1生成部133は、コンテンツAT11から複数の加工画像IP111〜IP141等を生成する。例えば、第1生成部133は、特徴領域情報FR11やオブジェクト一覧OL11に基づいて、画像IM11をクロッピングすることにより、複数の加工画像IP111〜IP141等を生成する。また、例えば、第1生成部133は、画像IM11に含まれる対象物(オブジェクトOB12、OB13、OB15)に関する領域をクロッピングすることにより生成される加工画像IP111〜IP141を含む、複数の加工画像を生成する。
【0066】
図1の例では、第1生成部133は、ピッチャーNの略全身が含まれる加工画像IP111やピッチャーNの背番号部分が含まれる加工画像IP121やボールが含まれる加工画像IP131やバッターOが含まれる加工画像IP141等を生成する。例えば、第1生成部133は、画像IM11の領域AR11をクロッピングすることにより、加工画像IP111を生成する。また、例えば、第1生成部133は、画像IM11の領域AR12をクロッピングすることにより、加工画像IP121を生成する。また、例えば、第1生成部133は、画像IM11の領域AR13をクロッピングすることにより、加工画像IP131を生成する。また、例えば、第1生成部133は、画像IM11の領域AR14をクロッピングすることにより、加工画像IP141を生成する。
【0067】
また、第1生成部133は、複数の加工画像IP111〜IP141等の順位を決定する。例えば、第1生成部133は、複数の加工画像IP111〜IP141等のうち、表示順が1位のオブジェクトであるピッチャーNを含む加工画像IP111、IP121等に高い順位を付す。具体的には、第1生成部133は、ピッチャーNの略全身が含まれる加工画像IP111に順位Aを付し、ピッチャーNの背番号部分が含まれる加工画像IP121に順位B(A+α)を付す。
【0068】
また、例えば、第1生成部133は、複数の加工画像IP111〜IP141等のうち、表示順が2位のオブジェクトであるボールを含む加工画像IP131等にピッチャーNが含まれる加工画像の順位より低い順位を付す。具体的には、第1生成部133は、ボール(オブジェクトOB15)が含まれる加工画像IP121に順位C(B+β)を付す。
【0069】
また、例えば、第1生成部133は、複数の加工画像IP111〜IP141等のうち、表示順が3位のオブジェクトであるバッターOを含む加工画像IP141等にボール(オブジェクトOB15)が含まれる加工画像の順位より低い順位を付す。具体的には、第1生成部133は、バッターOが含まれる加工画像IP141に順位D(C+γ)を付す。
【0070】
例えば、第1生成部133は、複数の画像情報から複数の加工画像を生成する。また、例えば、第1生成部133は、複数の画像情報のうち、所定の画像情報に含まれる対象物に関する領域をクロッピングすることにより生成される加工画像を含む、複数の加工画像を生成する。例えば、第1生成部133は、動画情報から複数の加工画像を生成する。また、例えば、第1生成部133は、動画情報から抽出される画像情報に含まれる対象物に関する領域をクロッピングすることにより生成される加工画像を含む、複数の加工画像を生成する。なお、これらの点についての詳細は後述する。
【0071】
また、第1生成部133は、文字情報に基づいて複数の加工画像を生成してもよい。図1の例では、第1生成部133は、文字情報IC11に基づいて抽出された特徴領域情報FR11やオブジェクト一覧OL11に基づいて、画像IM11をクロッピングすることにより、複数の加工画像IP111〜IP141等を生成する。また、第1生成部133は、音声情報に基づいて複数の加工画像を生成してもよい。なお、第1生成部133は、生成した加工画像を記憶部120に記憶してもよい。
【0072】
(第2生成部134)
第2生成部134は、複数の加工画像に付された順位に基づく順序で、複数の加工画像が表示される動画情報を生成する。なお、第2生成部134は、生成した動画情報(要約動画)を記憶部120に記憶してもよい。例えば、第2生成部134は、文字情報に基づいて複数の加工画像に付された順位に応じた順序で、複数の加工画像が表示される動画情報を生成する。第2生成部134は、音声情報に基づいて複数の加工画像に付された順位に応じた順序で、複数の加工画像が表示される動画情報を生成してもよい。例えば、第2生成部134は、音声情報に基づく音声を含む動画情報を生成してもよい。
【0073】
図1では、第2生成部134は、複数の加工画像IP111〜IP141等に付された順位に基づく順序で、複数の加工画像IP111〜IP141等が表示される要約動画MV11を生成する。例えば、第2生成部134は、上述したフレーム補間等の処理により、複数の加工画像IP111〜IP141間をつなぐ補間を行うことにより、要約動画MV11を生成してもよい。例えば、第2生成部134は、生成した加工画像に加工画像IP111〜IP141以外にも多数の加工画像が含まれる場合、複数の加工画像に付された順位に基づく順序で、複数の加工画像が表示される要約動画MV11を生成してもよい。
【0074】
また、第2生成部134は、複数の加工画像のうち、所定の表示順が付された第1の対象物が含まれる加工画像の後に、第1の対象物に付された表示順よりも下位の表示順が付された第2の対象物が含まれる加工画像が表示される動画情報を生成する。図1では、第2生成部134は、加工画像IP111〜IP141のうち、表示順「1」位が付されたピッチャーNが含まれる加工画像IP121の後に、表示順「2」位が付されたボールが含まれる加工画像IP131が表示される要約動画MV11を生成する。また、第2生成部134は、加工画像IP111〜IP141のうち、表示順「2」位が付されたボールが含まれる加工画像IP131の後に、表示順「3」位が付されたバッターOが含まれる加工画像IP141が表示される要約動画MV11を生成する。
【0075】
例えば、第2生成部134は、複数の加工画像のうち、所定の対象物の一部であって、所定の表示順が付された第1の部分が含まれる加工画像の後に、所定の対象物の一部であって、第1の部分に付された表示順よりも下位の表示順が付された第2の部分が含まれる加工画像が表示される動画情報を生成する。オブジェクトとしてファッションショー等におけるモデルが含まれる画像を用いた場合を例に説明する。この場合、オブジェクトであるモデル(人間)について、上下方向に3分割、例えば、下から脚部、胴体部、頭部に3分割されるものとする。また、オブジェクトであるモデル(人間)が含まれる動画情報等に基づく学習により、オブジェクトがモデル(人間)である場合、下から上へ脚部、胴体部、頭部の順で表示されることが多いことを示す情報が取得されているものとする。そのため、例えば、オブジェクトであるモデル(人間)について、脚部に表示順「1」位が付され、胴体部に表示順「2」位が付され、頭部に表示順「3」位が付されるものとする。また、オブジェクトとしてモデル(人間)が含まれる動画や画像から第1生成部133により生成される各加工画像には、上述した表示順に基づいた順位が付されるものとする。
【0076】
上述した例においては、第2生成部134は、オブジェクトであるモデル(人間)において、表示順「1」位が付された脚部が含まれる加工画像の後に、表示順「2」位が付された胴体部が含まれる加工画像が表示される要約動画を生成する。また、第2生成部134は、オブジェクトであるモデル(人間)において、表示順「2」位が付された胴体部が含まれる加工画像の後に、表示順「3」位が付された頭部が含まれる加工画像が表示される要約動画を生成する。これにより、第2生成部134は、コンテンツに含まれる画像や動画にオブジェクトとしてモデル(人間)が含まれる場合において、下から上へ脚部、胴体部、頭部の順で表示される要約動画を生成することができる。なお、第2生成部134は、オブジェクトに応じて、オブジェクトの各部分が種々の順序で表示される要約動画を生成してもよい。例えば、第2生成部134は、オブジェクトに応じて、オブジェクトの左、中央、右の順序で表示される要約動画を生成してもよい。また、例えば、第2生成部134は、オブジェクトに応じて、オブジェクトの時計回りや反時計回りの順序で表示される要約動画を生成してもよい。また、例えば、第2生成部134は、動画や画像に会議のシーンで円卓等に複数人が並ぶ場合、時計回りの順序で円卓に座る人が表示される要約動画を生成してもよい。
【0077】
(配信部135)
配信部135は、コンテンツを端末装置10へ配信する。例えば、配信部135は、第2生成部134により生成された要約動画を含むコンテンツを端末装置10へ配信する。例えば、配信部135は、要約動画MV11と文字情報IC11とを端末装置10へ配信する。また、配信部135は、コンテンツ情報記憶部121に記憶されたコンテンツを端末装置10へ配信してもよい。
【0078】
〔4.端末装置の構成〕
次に、図5を用いて、実施形態に係る端末装置10の構成について説明する。図5は、実施形態に係る端末装置10の構成例を示す図である。図5に示すように、端末装置10は、通信部11と、記憶部12と、入力部13と、出力部14と、制御部15とを有する。
【0079】
(通信部11)
通信部11は、例えば、通信回路等によって実現される。そして、通信部11は、図示しない所定の通信網と有線または無線で接続され、生成装置100との間で情報の送受信を行う。
【0080】
(記憶部12)
記憶部12は、例えば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部12は、例えば、端末装置10にインストールされているアプリケーションに関する情報、例えばプログラム等を記憶する。
【0081】
(入力部13)
入力部13は、ユーザからの各種操作を受け付ける。例えば、入力部13は、タッチパネル機能により表示面(例えば表示部153)を介してユーザからの各種操作を受け付けてもよい。また、入力部13は、端末装置10に設けられたボタンや、端末装置10に接続されたキーボードやマウスからの各種操作を受け付けてもよい。
【0082】
(出力部14)
出力部14は、例えば液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイ等によって実現されるタブレット端末等の表示画面であり、各種情報を表示するための表示装置である。
【0083】
(制御部15)
制御部15は、例えば、CPUやMPU等によって、端末装置10内部の記憶部12などの記憶装置に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。例えば、この各種プログラムは、インストールされているアプリケーションのプログラムが含まれる。また、制御部15は、例えば、ASICやFPGA等の集積回路により実現される。
【0084】
図5に示すように、制御部15は、送信部151と、受信部152と、表示部153とを有し、以下に説明する生成処理の機能や作用を実現または実行する。なお、制御部15の内部構成は、図5に示した構成に限られず、後述する生成処理を行う構成であれば他の構成であってもよい。また、制御部15が有する各処理部の接続関係は、図5に示した接続関係に限られず、他の接続関係であってもよい。
【0085】
送信部151は、各種情報を外部の情報処理装置へ送信する。送信部151は、入力部13により受け付けたユーザ操作に従って、生成装置100へコンテンツの配信要求を送信する。例えば、送信部151は、アプリからの配信要求を生成装置100へ送信する。
【0086】
受信部152は、各種情報を外部の情報処理装置から受信する。受信部152は、生成装置100から配信されたコンテンツを受信する。例えば、受信部152は、コンテンツから生成された要約動画を受信する。例えば、受信部152は、要約動画MV11や文字情報IC11(図6参照)を受信する。
【0087】
表示部153は、受信部152により受信されたコンテンツを表示する。例えば、表示部153は、受信部152により受信された要約動画MV11や文字情報IC11を含むウェブページW10(図6参照)を表示する。
【0088】
なお、上述した制御部15による表示処理等の処理は、例えば、JavaScript(登録商標)などにより実現されてもよい。また、上述した表示処理が所定のアプリケーションにより行われる場合や表示処理が専用アプリにより行われる場合、制御部15は、例えば、所定のアプリや専用アプリを制御するアプリ制御部を有してもよい。
【0089】
〔5.加工画像を含むコンテンツの表示例〕
次に、図6を用いて、実施形態に係る端末装置10における要約動画を含むコンテンツの表示について説明する。図6は、実施形態に係る端末装置における表示の一例を示す図である。図6では、端末装置10が生成装置100から要約動画MV11や文字情報IC11等を受信した場合を例に説明する。
【0090】
図6に示す例において、端末装置10には、要約動画MV11や文字情報IC11を含むウェブページW10が表示される。例えば、文字情報IC11の下部には、図示しない他の要約動画や文字情報が並べて配置されており、ユーザがスクロール操作等を行うことにより、表示する要約動画や文字情報を変更することができる。
【0091】
例えば、端末装置10に表示された要約動画MV11がユーザにより選択された場合、端末装置10は、要約動画MV11を再生してもよい。また、例えば、端末装置10において要約動画MV11が表示された領域をユーザがタッチした場合、端末装置10は、要約動画MV11を再生してもよい。また、例えば、端末装置10がユーザの視線を検知する機能を有する場合、端末装置10において要約動画MV11が表示された領域へのユーザの視線を検知した場合、端末装置10は、要約動画MV11を再生してもよい。なお、端末装置10は、要約動画に音声情報が含まれる場合、要約動画の再生に応じて音声情報をスピーカ等により出力してもよい。また、端末装置10は、ユーザがスクロール操作に応じて、要約動画MV11を再生してもよい。例えば、端末装置10は、要約動画MV11を画面の下側へ移動させるスクロール操作を行った場合、その移動量に応じて要約動画MV11の表示を進めてもよい。例えば、図6に示す状態において、要約動画MV11を画面の下側へ移動させるスクロール操作を行った場合、各加工画像に付された順序に従って、加工画像IP111から加工画像IP121、IP131、IP141等に要約動画MV11の表示を順番に変更してもよい。すなわち、端末装置10は、要約動画MV11を画面の下側へ移動させるスクロール操作に応じて要約動画MV11を再生してもよい。
【0092】
また、例えば、端末装置10は、要約動画MV11を画面の上側へ移動させるスクロール操作を行った場合、その移動量に応じて要約動画MV11の表示を戻してもよい。例えば、端末装置10における要約動画MV11の表示が加工画像IP141である場合、要約動画MV11を画面の上側へ移動させるスクロール操作を行った場合、各加工画像に付された順序に従って、加工画像IP141から加工画像IP131、IP121、IP111等に要約動画MV11の表示を順番に変更してもよい。すなわち、端末装置10は、要約動画MV11を画面の上側へ移動させるスクロール操作に応じて要約動画MV11を逆再生してもよい。
【0093】
また、端末装置10は、要約動画MV11の表示に応じて、文字情報IC11の表示を変更してもよい。例えば、端末装置10は、文字情報IC11のうち、要約動画MV11の表示に対応する文章を表示してもよい。例えば、図6に示す状態において、端末装置10は、文字情報IC11のうち、要約動画MV11の表示に対応する文章「チームAAのピッチャーNが投げた…」を表示してもよい。また、例えば、要約動画MV11の表示が加工画像IP141である状態において、端末装置10は、文字情報IC11のうち、要約動画MV11の表示に対応する文章「チームBBのバッターOが打ち返し…」を表示してもよい。
【0094】
なお、図6に示すウェブページW10の表示は一例であり、端末装置10には、どのような対応において要約動画MV11や文字情報IC11が表示されてもよい。例えば、端末装置10には、要約動画MV11と文字情報IC11とは横方向に並べて表示されてもよい。
【0095】
〔6.生成処理フロー〕
次に、図7を用いて、実施形態に係る配信システム1におけるコンテンツの生成処理について説明する。図7は、実施形態に係る生成処理の一例を示すフローチャートである。
【0096】
まず、図7に示す例において、生成装置100は、画像及び文字情報を含むコンテンツを取得する(ステップS101)。例えば、生成装置100は、画像及び文字情報を含むコンテンツをコンテンツ情報記憶部121から取得する。
【0097】
そして、生成装置100は、画像及び文字情報に基づいて、画像から特徴領域情報を抽出する(ステップS102)。図1では、生成装置100は、画像IM11と文字情報IC11とに基づいて画像IM11から特徴領域情報FR11を抽出する。
【0098】
また、生成装置100は、画像に含まれるオブジェクトの表示順を決定する(ステップS103)。図1では、生成装置100は、オブジェクトOB12の表示順を1位、オブジェクトOB13の表示順を3位、オブジェクトOB15の表示順を2位に決定する。
【0099】
その後、生成装置100は、特徴領域情報に基づいてコンテンツから複数の加工画像を生成する(ステップS104)。図1では、生成装置100は、コンテンツAT11から複数の加工画像IP111〜IP141等を生成する。
【0100】
その後、生成装置100は、オブジェクトの表示順に基づく順序で、加工画像が表示される動画を生成する(ステップS105)。図1では、生成装置100は、複数の加工画像IP111〜IP141等に付された順位に基づく順序で、複数の加工画像IP111〜IP141等が表示される要約動画MV11を生成する。
【0101】
〔7.動画を用いた生成処理〕
次に、図8及び図9を用いて、実施形態に係る動画を用いた生成処理について説明する。図8及び図9は、実施形態に係る動画を用いた生成処理の一例を示す図である。
【0102】
なお、図8図9の説明においては、特徴領域情報の抽出等の説明は省略するが、各フレームFM211〜FM261を画像IM11と同様の情報として、図1と同様の処理を行うことにより、特徴領域情報を抽出してもよい。例えば、生成装置100は、フレームFM211〜FM261ごとに特徴領域情報の抽出の処理を行ってもよい。また、オブジェクトの追跡等の種々の従来技術を用いて、各フレームFM211〜FM261に含まれるオブジェクトの位置等を特定してもよい。例えば、生成装置100は、所定間隔で抽出したフレーム(例えばフレームFM211等)に対して特徴領域情報の抽出の処理を行い、フレームFM211から抽出されたオブジェクトを追跡することにより、各フレームFM211〜FM261から特徴領域情報の抽出の処理を行ってもよい。なお、上記は一例であり、生成装置100は、フレームから特徴領域情報を抽出し、オブジェクトが特定可能であれば、どのような処理により、特徴領域情報の抽出を行ってもよい。まず、図8における動画MC21を用いた生成処理について説明する。
【0103】
図8の例においては、生成装置100は、上述した処理により動画MC21に含まれるオブジェクトを抽出し、抽出したオブジェクトの表示順を決定する。例えば、生成装置100は、オブジェクト一覧OL21に示すように、動画MC21に含まれるオブジェクトOB21〜OB23等を抽出する。図8の例では、生成装置100は、動画MC21に含まれる犬AをオブジェクトOB21として抽出する。また、生成装置100は、動画MC21に含まれる犬BをオブジェクトOB22として抽出する。また、生成装置100は、動画MC21に含まれるボールをオブジェクトOB23として抽出する。
【0104】
また、生成装置100は、抽出したオブジェクトOB21〜OB23等の表示順を決定する。例えば、生成装置100は、各フレームFM211〜FM261等における撮影範囲の変化や、動画MC21におけるオブジェクトOB21〜OB23等の位置の変化に基づいて、オブジェクトOB21〜OB23等の表示順を決定する。なお、図8の例では、説明を簡単にするために、例えば定点カメラのように、撮影範囲は固定されているものとする。そのため、生成装置100は、オブジェクトOB21〜OB23等の位置の変化に基づいて、オブジェクトOB21〜OB23等の表示順を決定する。図8の例では、ボールが犬Aの前を通過し左側から右側へ移動し、右側において犬Bがボールと重なる。そのため、生成装置100は、種々の従来技術を適宜用いて、犬Aの表示順よりも犬Bの表示順が後であると決定する。また、生成装置100は、ボールが犬Aと犬Bとをつなぐ関係にあるため、ボールの表示順を犬Aと犬Bとの間の表示順であると決定する。これにより、生成装置100は、左側に位置する犬AであるオブジェクトOB21の表示順を1位、ボールであるオブジェクトOB23の表示順を2位、右側に位置する犬BであるオブジェクトOB22の表示順を3位に決定する。
【0105】
そして、生成装置100は、フレームFM211〜FM261等を含む動画MC21から複数の加工画像IP211〜IP261等を生成し、生成した複数の加工画像IP211〜IP261が表示される要約動画MV21を生成する(ステップS21)。例えば、生成装置100は、各フレームの特徴領域情報やオブジェクト一覧OL21に基づいて、対応するフレーム(画像)をクロッピングすることにより、複数の加工画像IP211〜IP261等を生成する。
【0106】
図8の例では、生成装置100は、犬Aの全体が含まれる加工画像IP211、IP221、IP231やボールが含まれる加工画像IP241やボール及び犬Bが含まれる加工画像IP251、IP261等を生成する。例えば、生成装置100は、フレームFM211の領域AR21をクロッピングすることにより、加工画像IP211を生成する。また、例えば、生成装置100は、フレームFM221の領域AR22をクロッピングすることにより、加工画像IP221を生成する。また、例えば、生成装置100は、フレームFM231の領域AR23をクロッピングすることにより、加工画像IP231を生成する。また、例えば、生成装置100は、フレームFM241の領域AR24をクロッピングすることにより、加工画像IP241を生成する。また、例えば、生成装置100は、フレームFM251の領域AR25をクロッピングすることにより、加工画像IP251を生成する。また、例えば、生成装置100は、フレームFM261の領域AR26をクロッピングすることにより、加工画像IP261を生成する。なお、図8では説明を簡単にするために、加工画像IP211〜IP261のみを図示するが、生成装置100は、他のフレーム(画像)から多数の加工画像を生成してもよい。また、生成装置100は、1つのフレームから複数の加工画像を生成してもよい。
【0107】
そして、生成装置100は、複数の加工画像IP211〜IP261等の順位を決定する。なお、図8の例では、各加工画像IP211〜IP261等の順位は、抽出元となるフレームFM211〜FM261の時系列順に対応する。例えば、生成装置100は、複数の加工画像IP211〜IP261等のうち、加工画像IP211を最も表示順を高くし、その次に加工画像IP221の順位を高くする。また、生成装置100は、複数の加工画像IP211〜IP261等のうち、加工画像IP231の順位を加工画像IP221の次に高くし、加工画像IP241、IP251、IP261の順位は、加工画像IP231よりも低く、加工画像IP241、IP251、IP261の順に低くなる順位とする。図8の例では、生成装置100は、加工画像IP211の順位を順位A、加工画像IP221の順位を順位B、加工画像IP231の順位を順位C、加工画像IP241の順位を順位D、加工画像IP251の順位を順位E、加工画像IP261の順位を順位Fに決定する(A<B<C<D<E<F)。
【0108】
そして、生成装置100は、複数の加工画像IP211〜IP261等に付された順位に基づく順序で、複数の加工画像IP211〜IP261等が表示される要約動画MV21を生成する。例えば、生成装置100は、上述したフレーム補間等の処理により、複数の加工画像IP211〜IP261間をつなぐ補間を行うことにより、要約動画MV21を生成してもよい。例えば、生成装置100は、生成した加工画像に加工画像IP211〜IP261以外にも多数の加工画像が含まれる場合、複数の加工画像に付された順位に基づく順序で、複数の加工画像が表示される要約動画MV21を生成してもよい。このように、生成装置100は、動画から要約動画を生成することができる。なお、上述のように、複数のフレームから要約動画を生成する処理は、複数の画像から要約動画を生成する処理に対応する。
【0109】
次に、図9における動画MC21を用いた生成処理について説明する。図9の例においては、生成装置100は、上述した処理により動画MC21に含まれるオブジェクトを抽出し、抽出したオブジェクトの表示順を決定する。例えば、生成装置100は、オブジェクト一覧OL21に示すように、動画MC21に含まれるオブジェクトOB21〜OB23等を抽出する。図9の例では、生成装置100は、動画MC21に含まれる犬AをオブジェクトOB21として抽出する。また、生成装置100は、動画MC21に含まれる犬BをオブジェクトOB22として抽出する。また、生成装置100は、動画MC21に含まれるボールをオブジェクトOB23として抽出する。
【0110】
また、生成装置100は、抽出したオブジェクトOB21〜OB23等の表示順を決定する。例えば、生成装置100は、各フレームFM211〜FM261等における撮影範囲の変化や、動画MC21におけるオブジェクトOB21〜OB23等の位置の変化に基づいて、オブジェクトOB21〜OB23等の表示順を決定する。なお、図9の例では、説明を簡単にするために、例えば定点カメラのように、撮影範囲は固定されているものとする。そのため、生成装置100は、オブジェクトOB21〜OB23等の位置の変化に基づいて、オブジェクトOB21〜OB23等の表示順を決定する。図9の例では、ボールが犬Aの前を通過し左側から右側へ移動し、右側において犬Bがボールと重なる。そのため、生成装置100は、種々の従来技術を適宜用いて、犬Aの表示順よりも犬Bの表示順が後であると決定する。また、生成装置100は、ボールが犬Aと犬Bとをつなぐ関係にあるため、ボールの表示順を犬Aと犬Bとの間の表示順であると決定する。これにより、生成装置100は、左側に位置する犬AであるオブジェクトOB21の表示順を1位、ボールであるオブジェクトOB23の表示順を2位、右側に位置する犬BであるオブジェクトOB22の表示順を3位に決定する。
【0111】
そして、生成装置100は、フレームFM211〜FM261等を含む動画MC21から複数の加工画像IP311〜IP361等を生成し、生成した複数の加工画像IP311〜IP361が表示される要約動画MV22を生成する(ステップS22)。例えば、生成装置100は、各フレームの特徴領域情報やオブジェクト一覧OL21に基づいて、対応するフレーム(画像)をクロッピングすることにより、複数の加工画像IP311〜IP361等を生成する。
【0112】
図9の例では、生成装置100は、犬Aの全体が含まれる加工画像IP311、IP321、IP331やボールが含まれる加工画像IP341やボール及び犬Bが含まれる加工画像IP351、IP361等を生成する。例えば、生成装置100は、フレームFM211の領域AR31をクロッピングすることにより、加工画像IP311を生成する。また、例えば、生成装置100は、フレームFM221の領域AR32をクロッピングすることにより、加工画像IP321を生成する。また、例えば、生成装置100は、フレームFM231の領域AR33をクロッピングすることにより、加工画像IP331を生成する。また、例えば、生成装置100は、フレームFM241の領域AR34をクロッピングすることにより、加工画像IP341を生成する。加工画像IP341は、動画MC21に含まれ、表示順が付されたオブジェクトOB21〜OB23の全てを含む。このように、図9の例では、生成装置100は、全体を俯瞰するような加工画像IP341を生成することにより、図8に示す場合と比較して、より動画MC21全体の内容を含む要約動画MV22を生成することができる。
【0113】
また、例えば、生成装置100は、フレームFM251の領域AR35をクロッピングすることにより、加工画像IP351を生成する。また、例えば、生成装置100は、フレームFM261の領域AR36をクロッピングすることにより、加工画像IP361を生成する。なお、図9では説明を簡単にするために、加工画像IP311〜IP361のみを図示するが、生成装置100は、他のフレーム(画像)から多数の加工画像を生成してもよい。また、生成装置100は、1つのフレームから複数の加工画像を生成してもよい。
【0114】
そして、生成装置100は、複数の加工画像IP311〜IP361等の順位を決定する。なお、図9の例では、各加工画像IP311〜IP361等の順位は、抽出元となるフレームFM211〜FM261の時系列順に対応する。例えば、生成装置100は、複数の加工画像IP311〜IP361等のうち、加工画像IP311を最も表示順を高くし、その次に加工画像IP321の順位を高くする。また、生成装置100は、複数の加工画像IP311〜IP361等のうち、加工画像IP331の順位を加工画像IP321の次に高くし、加工画像IP341、IP351、IP361の順位は、加工画像IP331よりも低く、加工画像IP341、IP351、IP361の順に低くなる順位とする。図9の例では、生成装置100は、加工画像IP311の順位を順位A、加工画像IP321の順位を順位B、加工画像IP331の順位を順位C、加工画像IP341の順位を順位D、加工画像IP351の順位を順位E、加工画像IP361の順位を順位Fに決定する(A<B<C<D<E<F)。
【0115】
そして、生成装置100は、複数の加工画像IP311〜IP361等に付された順位に基づく順序で、複数の加工画像IP311〜IP361等が表示される要約動画MV22を生成する。例えば、生成装置100は、上述したフレーム補間等の処理により、複数の加工画像IP311〜IP361間をつなぐ補間を行うことにより、要約動画MV22を生成してもよい。例えば、生成装置100は、生成した加工画像に加工画像IP311〜IP361以外にも多数の加工画像が含まれる場合、複数の加工画像に付された順位に基づく順序で、複数の加工画像が表示される要約動画MV22を生成してもよい。このように、生成装置100は、動画から要約動画を生成することができる。なお、上述のように、複数のフレームから要約動画を生成する処理は、複数の画像から要約動画を生成する処理に対応する。なお、生成装置100は、図8に示す要約動画MV21と図9に示す要約動画MV22とのいずれを生成するかを、要約動画の生成に用いるコンテンツに含まれる動画MC21の内容等に基づいて決定してもよい。また、生成装置100は、図8に示す要約動画MV21と図9に示す要約動画MV22とのいずれを生成するかを、配信システム1の管理者等の指定に応じて決定してもよい。
【0116】
〔8.動画のキーフレームに基づく生成処理〕
例えば、生成装置100は、複数のキーフレームを抽出して処理を行ってもよい。この点について図10を用いて説明する。図10は、実施形態に係る動画のキーフレームに基づく生成処理の一例を示す図である。例えば、生成装置100は、種々の従来技術を適宜用いて複数のキーフレームを抽出してもよい。例えば、生成装置100は、エッジ検出や肌色検出や音量検出やカメラワーク検出等、種々の技術を用いてキーフレームを抽出してもよい。例えば、生成装置100は、各画素の変化に基づいて推定されるシーンの転換点をキーフレームとして抽出してもよい。また、生成装置100は、配信システム1の管理者等によるキーフレームの指定を受け付けてもよい。
【0117】
図10に示す例において、動画MC31には、フレームFM311〜FM334等が含まれるものとする。例えば、生成装置100は、所定の処理により動画MC31のキーフレームがフレームFM312、FM319、FM327の3つのフレームであると特定する。なお、以下では、フレームFM312をキーフレームKF31とし、フレームFM319をキーフレームKF32とし、フレームFM327をキーフレームKF33とする場合がある。
【0118】
また、生成装置100は、各キーフレームKF31〜KF33から後の数フレームを対象に動画生成を行う。例えば、生成装置100は、キーフレームKF31から後の数フレームFM313〜FM315である関連フレームCF31−1〜CF31−3を対象に複数の加工画像を生成し、複数の加工画像に基づいて動画を生成する(ステップS31)。これにより、生成装置100は、キーフレームKF31及び関連フレームCF31−1〜CF31−3から動画情報Aである動画MV311を生成する。
【0119】
また、例えば、生成装置100は、キーフレームKF32から後の数フレームFM320〜FM321である関連フレームCF32−1、CF32−2を対象に複数の加工画像を生成し、複数の加工画像に基づいて動画を生成する(ステップS32)。これにより、生成装置100は、キーフレームKF32及び関連フレームCF32−1、CF32−2から動画情報Bである動画MV312を生成する。
【0120】
また、例えば、生成装置100は、キーフレームKF33から後の数フレームFM328〜FM331である関連フレームCF33−1〜CF33−4を対象に複数の加工画像を生成し、複数の加工画像に基づいて動画を生成する(ステップS33)。これにより、生成装置100は、キーフレームKF33及び関連フレームCF33−1〜CF33−4から動画情報Cである動画MV313を生成する。
【0121】
そして、生成装置100は、動画情報A〜Cから要約動画MV31を生成する(ステップS34)。例えば、生成装置100は、動画MV311、MV312、MV313の順で表示される要約動画MV31を生成する。このように、生成装置100は、複数のキーフレームから各々生成される動画をつなげた要約動画を生成する。このように、生成装置100は、複数のキーフレームが含まれる場合であっても、各キーフレームに対応する動画をつなげることにより、要約動画を生成することができる。
【0122】
〔9.効果〕
上述してきたように、実施形態に係る生成装置100は、取得部131と、第1生成部133と、第2生成部134とを有する。取得部131は、コンテンツに含まれる画像に関する情報から抽出される対象物の領域に関する情報である特徴領域情報を取得する。第1生成部133と、取得部131により取得された特徴領域情報に基づいてコンテンツから複数の加工画像を生成する。第2生成部134は、複数の加工画像に付された順位に基づく順序で、複数の加工画像が表示される動画情報を生成する。
【0123】
これにより、実施形態に係る生成装置100は、対象物の領域に関する情報である特徴領域情報に基づいて複数の加工画像を生成することにより、コンテンツの内容を含む動画(実施形態においては「要約動画」。以下同じ)を適切に生成することができる。
【0124】
また、実施形態に係る生成装置100において、取得部131は、画像に関する情報としてコンテンツに含まれる複数の画像情報から抽出される特徴領域情報を取得する。第1生成部133は、複数の画像情報から複数の加工画像を生成する。
【0125】
これにより、実施形態に係る生成装置100は、コンテンツに含まれる複数の画像情報に特徴領域情報に基づいて複数の加工画像を生成することにより、コンテンツの内容を含む動画を適切に生成することができる。
【0126】
また、実施形態に係る生成装置100において、第1生成部133は、複数の画像情報のうち、所定の画像情報に含まれる対象物に関する領域をクロッピングすることにより生成される加工画像を含む、複数の加工画像を生成する。
【0127】
これにより、実施形態に係る生成装置100は、コンテンツに含まれる複数の画像情報中の対象物に関する領域をクロッピングすることにより、コンテンツの内容を含む動画を適切に生成することができる。
【0128】
また、実施形態に係る生成装置100において、取得部131は、画像に関する情報としてコンテンツに含まれる動画情報から抽出される特徴領域情報を取得する。第1生成部133は、動画情報から複数の加工画像を生成する。
【0129】
これにより、実施形態に係る生成装置100は、コンテンツに含まれる動画情報に特徴領域情報に基づいて複数の加工画像を生成することにより、コンテンツの内容を含む動画を適切に生成することができる。
【0130】
また、実施形態に係る生成装置100において、第1生成部133は、動画情報から抽出される画像情報に含まれる対象物に関する領域をクロッピングすることにより生成される加工画像を含む、複数の加工画像を生成する。
【0131】
これにより、実施形態に係る生成装置100は、コンテンツに含まれる動画情報中の対象物に関する領域をクロッピングすることにより、コンテンツの内容を含む動画を適切に生成することができる。
【0132】
また、実施形態に係る生成装置100において、取得部131は、コンテンツに関連する文字情報に基づいて抽出される特徴領域情報を取得する。第1生成部133は、文字情報に基づいて複数の加工画像を生成する。第2生成部134は、文字情報に基づいて複数の加工画像に付された順位に応じた順序で、複数の加工画像が表示される動画情報を生成する。
【0133】
これにより、実施形態に係る生成装置100は、コンテンツに関連する文字情報に基づいて抽出された特徴領域情報を用いて複数の加工画像を生成することにより、コンテンツの内容を含む動画を適切に生成することができる。
【0134】
また、実施形態に係る生成装置100において、取得部131は、コンテンツに関連する音声情報に基づいて抽出される特徴領域情報を取得する。第1生成部133は、音声情報に基づいて複数の加工画像を生成する。第2生成部134は、音声情報に基づいて複数の加工画像に付された順位に応じた順序で、複数の加工画像が表示される動画情報を生成する。
【0135】
これにより、実施形態に係る生成装置100は、コンテンツに関連する音声情報に基づいて抽出された特徴領域情報を用いて複数の加工画像を生成することにより、コンテンツの内容を含む動画を適切に生成することができる。
【0136】
また、実施形態に係る生成装置100において、第2生成部134は、複数の加工画像のうち、所定の表示順が付された第1の対象物が含まれる加工画像の後に、第1の対象物に付された表示順よりも下位の表示順が付された第2の対象物が含まれる加工画像が表示される動画情報を生成する。
【0137】
これにより、実施形態に係る生成装置100は、対象物に付された表示順に基づく順序で対象物が表示されるように動画を生成することにより、コンテンツに含まれる動画情報からコンテンツの内容を含む動画を適切に生成することができる。
【0138】
また、実施形態に係る生成装置100において、第2生成部134は、複数の加工画像のうち、所定の対象物の一部であって、所定の表示順が付された第1の部分が含まれる加工画像の後に、所定の対象物の一部であって、第1の部分に付された表示順よりも下位の表示順が付された第2の部分が含まれる加工画像が表示される動画情報を生成する。
【0139】
これにより、実施形態に係る生成装置100は、対象物の各部位に付された表示順に基づく順序で対象物の各部位が表示されるように動画を生成することにより、コンテンツに含まれる動画情報からコンテンツの内容を含む動画を適切に生成することができる。
【0140】
〔10.ハードウェア構成〕
上述してきた実施形態に係る生成装置100は、例えば図11に示すような構成のコンピュータ1000によって実現される。図11は、生成装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
【0141】
CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
【0142】
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、ネットワークNを介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータをネットワークNを介して他の機器へ送信する。
【0143】
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを入出力インターフェイス1600を介して出力装置へ出力する。
【0144】
メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
【0145】
例えば、コンピュータ1000が実施形態に係る生成装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部130の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置からネットワークNを介してこれらのプログラムを取得してもよい。
【0146】
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の行に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
【0147】
〔11.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
【0148】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【0149】
また、上述してきた実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【0150】
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。
【符号の説明】
【0151】
1 配信システム
100 生成装置
121 コンテンツ情報記憶部
130 制御部
131 取得部
132 抽出部
133 第1生成部
134 第2生成部
135 配信部
10 端末装置
151 送信部
152 受信部
153 表示部
N ネットワーク
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11