特開2018-206292(P2018-206292A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

<>
  • 特開2018206292-要約映像生成装置及びプログラム 図000010
  • 特開2018206292-要約映像生成装置及びプログラム 図000011
  • 特開2018206292-要約映像生成装置及びプログラム 図000012
  • 特開2018206292-要約映像生成装置及びプログラム 図000013
  • 特開2018206292-要約映像生成装置及びプログラム 図000014
  • 特開2018206292-要約映像生成装置及びプログラム 図000015
  • 特開2018206292-要約映像生成装置及びプログラム 図000016
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2018-206292(P2018-206292A)
(43)【公開日】2018年12月27日
(54)【発明の名称】要約映像生成装置及びプログラム
(51)【国際特許分類】
   G06F 17/30 20060101AFI20181130BHJP
   H04N 21/8549 20110101ALI20181130BHJP
   H04N 5/91 20060101ALI20181130BHJP
【FI】
   G06F17/30 220A
   G06F17/30 170D
   G06F17/30 340A
   H04N21/8549
   H04N5/91
【審査請求】未請求
【請求項の数】6
【出願形態】OL
【全頁数】21
(21)【出願番号】特願2017-114206(P2017-114206)
(22)【出願日】2017年6月9日
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100121119
【弁理士】
【氏名又は名称】花村 泰伸
(72)【発明者】
【氏名】望月 貴裕
(72)【発明者】
【氏名】松井 淳
(72)【発明者】
【氏名】河合 吉彦
(72)【発明者】
【氏名】遠藤 伶
【テーマコード(参考)】
5C053
5C164
【Fターム(参考)】
5C053FA14
5C164FA29
5C164MC03P
5C164SB01S
(57)【要約】
【課題】映像に現れる演出を考慮することで、重要な区間の映像のみで構成される要約映像を生成する。
【解決手段】要約映像生成装置1のカット分割部10は、番組映像をカット映像VC[i]に分割し、シーン生成部11は、同じ場面のカット映像VC[i]を統合してシーン映像VS[j]を生成する。要素スコア算出部12は、「テロップ」等の演出毎に、各カット映像VC[i]について、要素スコアS1[i]〜S4[i]を算出する。総合スコア算出部13は、要素スコアS1[i]〜S4[i]及び重み係数W1〜W4に基づいて、カット映像VC[i]の総合スコアS[i]を算出する。要約映像生成部14は、総合スコアS[i]及びシーン映像VS[j]を参照し、要約映像全体の長さが所定値を超えるまでカット映像VC[i]を選択し、選択したカット映像VC[i]を時系列にソートして連結することで要約映像を生成する。これにより、「テロップ」等の演出が考慮された要約映像が生成される。
【選択図】図1
【特許請求の範囲】
【請求項1】
映像から要約映像を生成する要約映像生成装置において、
前記映像をカット単位の複数のカット映像に分割するカット分割部と、
前記カット分割部により分割された前記複数のカット映像のそれぞれについて、所定数の異なる演出毎に、当該演出の重要度を表すスコアを算出するスコア算出部と、
前記カット分割部により分割された前記複数のカット映像のそれぞれについて、前記スコア算出部により算出された前記演出毎のスコアに基づいて、総合スコアを算出する総合スコア算出部と、
前記総合スコア算出部により算出された前記総合スコアに基づいて、前記複数のカット映像から、前記要約映像を構成するカット映像を選択し、前記要約映像を生成する要約映像生成部と、
を備えたことを特徴とする要約映像生成装置。
【請求項2】
請求項1に記載の要約映像生成装置において、
前記総合スコア算出部は、
前記複数のカット映像のそれぞれについて、前記スコア算出部により算出された前記演出毎のスコア、及び予め設定された演出毎の重み係数に基づいて、前記総合スコアを算出する、ことを特徴とする要約映像生成装置。
【請求項3】
請求項1または2に記載の要約映像生成装置において、
さらに、前記カット分割部により分割された前記複数のカット映像から、同じ場面のカット映像をシーン映像として生成するシーン生成部を備え、
前記要約映像生成部は、
前記シーン生成部により生成された前記シーン映像の中から選択する前記カット映像の数が所定値を超えないように、前記要約映像を構成するカット映像を選択する、ことを特徴とする要約映像生成装置。
【請求項4】
請求項1から3までのいずれか一項に記載の要約映像生成装置において、
前記スコア算出部は、
前記演出に関連する対象が前記映像内に現れる面積、前記演出に関連する対象の動きの量、または前記演出に関連する対象が現れる確率に基づいて、前記スコアを算出する、ことを特徴とする要約映像生成装置。
【請求項5】
請求項3に記載の要約映像生成装置において、
前記要約映像生成部は、
前記カット分割部により分割された前記複数のカット映像から、前記総合スコア算出部により算出された前記総合スコアに従って前記演出の重要度の高い順番に、前記シーン生成部により生成された前記シーン映像の中から選択する前記カット映像の数が所定値を超えないように、前記要約映像の全体の長さが所定値を超えるまで、前記要約映像を構成するカット映像を選択する要約映像選択部と、
前記要約映像選択部により選択された前記カット映像を時系列に連結し、前記要約映像を生成する要約映像出力部と、
を備えたことを特徴とする要約映像生成装置。
【請求項6】
コンピュータを、請求項1から5までのいずれか一項に記載の要約映像生成装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータ及びハードディスクを用いた映像処理分野において、要約映像を生成する装置及びプログラムに関する。
【背景技術】
【0002】
従来、放送局では、視聴者の番組への関心を高める媒体として、番組HP等の「ネット用コンテンツ」の必要性が高まっている。ネット用コンテンツにおいては、番組映像中の重要な映像区間のみで構成されたダイジェスト映像(要約映像)を配信することが望ましい。
【0003】
しかしながら、要約映像を人手により制作することは、労力及び費用の両面でコストが非常に高くなってしまう。このため、要約映像を自動的に生成する技術が望まれている。要約映像を自動的に生成する技術として、例えば特許文献1〜5の手法が提案されている。
【0004】
特許文献1の手法は、映像のモーダル毎に映像を複数の映像区間に分割し、2つの映像区間の類似度を求め、類似度に基づいて映像区間をクラスタリングする。そして、複数のクラスタのそれぞれから代表的な映像区間を抽出し、代表的な映像区間を結合することで要約映像を生成する。
【0005】
特許文献2の手法は、映像毎の類似度に基づいて映像間で対応区間を生成し、対応区間から共通映像区間及び個別映像区間を抽出し、共通映像区間から共通要約区間を選択すると共に、個別映像区間から個別要約区間を選択する。そして、共通要約区間及び個別要約区間を統合して要約映像を生成する。
【0006】
特許文献3の手法は、メタデータ及び特徴量に基づいて、複数の映像区間から1つ以上の映像区間を選択し、所定の評価関数の評価値を最大とする映像区間の集合を求め、映像区間の集合を結合して要約映像を生成する。
【0007】
特許文献4の手法は、映像に対して画像特徴量及び音声特徴量を求め、画像特徴量及び音声特徴量に基づいて、映像の処理単位の重要度を算出し、重要度に基づいて要約映像を生成する。
【0008】
特許文献5の手法は、元映像から時間の短い分割映像を生成し、分割映像毎に、ブロック領域を視覚単語とみなし、視覚単語の特徴量に基づいてスコアを算出し、スコアの高い順に分割映像を選択して要約映像を生成する。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特開2014−179906号公報
【特許文献2】特開2013−126233号公報
【特許文献3】特開2012−19305号公報
【特許文献4】特開2014−33417号公報
【特許文献5】特開2012−10265号公報
【発明の概要】
【発明が解決しようとする課題】
【0010】
前述の特許文献1,2の手法は、映像区間同士の類似度または共通区間の有無に基づいて、要約映像を生成するものである。しかし、これらの手法は、類似した映像区間が繰り返し出現することを前提とするものであるため、類似した映像区間が繰り返し出現するとは限らない一般の放送番組映像へ適用することは難しい。
【0011】
また、前述の特許文献3の手法は、基本的な画像の特徴量、音声の特徴量及び付与されたメタデータに基づいて、要約映像を生成するものである。しかし、映像に対して詳細なメタデータを予め付与しておく必要があり、処理負荷が高い。
【0012】
また、前述の特許文献4,5の手法は、メタデータを利用することなく、基本的な画像の特徴量及び音声の特徴量に基づいて、要約映像を生成するものである。これらの手法は、メタデータを利用しないから、特許文献3の手法に比べて処理負荷が低い。
【0013】
これらの特許文献1〜5の手法は、いずれも要約映像を生成するものであるが、映像に現れる演出を考慮していない。このため、要約映像には、演出の観点からみた重要な場面が含まれない場合がある。ここで、演出とは、脚本等に基づいて、所定の意図を達成するように表現し、効果的に見せることをいう。例えば放送番組映像の演出としては、テロップ表示、メインの出演者またはゲストの登場、カメラのズームインまたはパンニング、説明用のCG映像等の要素がある。これらの要素は、映像の中で重要な場面に使用される傾向が高い。
【0014】
一般に、要約映像は、重要な区間の映像のみで構成されることが望ましい。このため、映像に対して演出による効果の程度を求め、効果の高い区間を重要な区間として特定し、重要な区間の映像を結合して要約映像を生成することが所望されていた。
【0015】
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、映像に現れる演出を考慮することで、重要な区間の映像のみで構成される要約映像を生成可能な要約映像生成装置及びプログラムを提供することにある。
【課題を解決するための手段】
【0016】
前記課題を解決するために、請求項1の要約映像生成装置は、映像から要約映像を生成する要約映像生成装置において、前記映像をカット単位の複数のカット映像に分割するカット分割部と、前記カット分割部により分割された前記複数のカット映像のそれぞれについて、所定数の異なる演出毎に、当該演出の重要度を表すスコアを算出するスコア算出部と、前記カット分割部により分割された前記複数のカット映像のそれぞれについて、前記スコア算出部により算出された前記演出毎のスコアに基づいて、総合スコアを算出する総合スコア算出部と、前記総合スコア算出部により算出された前記総合スコアに基づいて、前記複数のカット映像から、前記要約映像を構成するカット映像を選択し、前記要約映像を生成する要約映像生成部と、を備えたことを特徴とする。
【0017】
また、請求項2の要約映像生成装置は、請求項1に記載の要約映像生成装置において、前記総合スコア算出部が、前記複数のカット映像のそれぞれについて、前記スコア算出部により算出された前記演出毎のスコア、及び予め設定された演出毎の重み係数に基づいて、前記総合スコアを算出する、ことを特徴とする。
【0018】
また、請求項3の要約映像生成装置は、請求項1または2に記載の要約映像生成装置において、さらに、前記カット分割部により分割された前記複数のカット映像から、同じ場面のカット映像をシーン映像として生成するシーン生成部を備え、前記要約映像生成部が、前記シーン生成部により生成された前記シーン映像の中から選択する前記カット映像の数が所定値を超えないように、前記要約映像を構成するカット映像を選択する、ことを特徴とする。
【0019】
また、請求項4の要約映像生成装置は、請求項1から3までのいずれか一項に記載の要約映像生成装置において、前記スコア算出部が、前記演出に関連する対象が前記映像内に現れる面積、前記演出に関連する対象の動きの量、または前記演出に関連する対象が現れる確率に基づいて、前記スコアを算出する、ことを特徴とする。
【0020】
また、請求項5の要約映像生成装置は、請求項3に記載の要約映像生成装置において、前記要約映像生成部が、前記カット分割部により分割された前記複数のカット映像から、前記総合スコア算出部により算出された前記総合スコアに従って前記演出の重要度の高い順番に、前記シーン生成部により生成された前記シーン映像の中から選択する前記カット映像の数が所定値を超えないように、前記要約映像の全体の長さが所定値を超えるまで、前記要約映像を構成するカット映像を選択する要約映像選択部と、前記要約映像選択部により選択された前記カット映像を時系列に連結し、前記要約映像を生成する要約映像出力部と、を備えたことを特徴とする。
【0021】
さらに、請求項6のプログラムは、コンピュータを、請求項1から5までのいずれか一項に記載の要約映像生成装置として機能させることを特徴とする。
【発明の効果】
【0022】
以上のように、本発明によれば、映像に現れる演出を考慮することで、重要な区間の映像のみで構成される要約映像を生成することが可能となる。
【図面の簡単な説明】
【0023】
図1】本発明の実施形態による要約映像生成装置の構成例を示すブロック図である。
図2】カット系列VC[1],...,VC[NC]及びシーン系列VS[1],...,VS[NS]を説明する図である。
図3】要素スコア算出部の構成例及び入出力データ例を示すブロック図である。
図4】総合スコア算出部の構成例及び入出力データ例を示すブロック図である。
図5】要約映像生成部の構成例及び入出力データ例を示すブロック図である。
図6】要約映像生成部の処理例を示すフローチャートである。
図7図6のフローチャートを説明する図である。
【発明を実施するための形態】
【0024】
以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明は、映像に現れる演出(例えばテロップ、出演者、カメラワークの動き量、説明用のCG映像等)による効果の程度を重要度として求め、効果の高い区間を重要な区間として特定し、重要な区間の映像を結合して要約映像を生成することを特徴とする。これにより、重要な区間の映像のみで構成される要約映像が生成される。
【0025】
〔全体構成〕
まず、本発明の実施形態による要約映像生成装置の全体構成について説明する。図1は、本発明の実施形態による要約映像生成装置の構成例を示すブロック図である。この要約映像生成装置1は、カット分割部10、シーン生成部11、要素スコア算出部12、総合スコア算出部13及び要約映像生成部14を備えている。
【0026】
カット分割部10は、番組映像を入力し、番組映像をカット単位のカット映像VC[i](i=1,...,NC)に分割する「カット映像分割処理」を行い、カット映像VC[i]からなるカット系列VC[1],...,VC[NC]を生成する。そして、カット分割部10は、カット映像VC[i]からなるカット系列VC[1],...,VC[NC]をシーン分割部11及び要素スコア算出部12に出力する。
【0027】
パラメータi=1,...,NCは、カット映像VC[i]の番号(カット番号)を示し、NCは、カット映像VC[i]の数を示す。カット映像VC[i]は、カメラが切り替るまでの間に、切れ目なく連続して撮影された映像である。
【0028】
尚、「カット映像分割処理」は既知であり、詳細については、例えば特開2008−33749号公報を参照されたい。
【0029】
シーン生成部11は、カット分割部10から、カット映像VC[i]からなるカット系列VC[1],...,VC[NC]を入力する。そして、シーン生成部11は、同じ場面のカット映像VC[i]を統合してシーン境界を検出し、シーン単位のシーン映像VS[j](j=1,...,NS)を生成する「シーン映像生成処理」を行い、シーン映像VS[j]からなるシーン系列VS[1],...,VS[NS]を生成する。シーン生成部11は、シーン映像VS[j]からなるシーン系列VS[1],...,VS[NS]を要約映像生成部14に出力する。
【0030】
パラメータj=1,...,NSは、シーン映像VS[j]の番号(シーン番号)を示し、NSは、シーン映像VS[j]の数を示す。シーン映像VS[j]は、ある場面における一連のカット映像VC[i]を複数まとめた映像である。
【0031】
尚、「シーン映像生成処理」は既知であり、詳細については、例えば特開2014−225118号公報、特開2014−33355号公報を参照されたい。
【0032】
図2は、カット系列VC[1],...,VC[NC]及びシーン系列VS[1],...,VS[NS]を説明する図である。カット系列VC[1],...,VC[NC]は、番組映像をカット単位に分割することにより生成され、シーン系列VS[1],...,VS[NS]は、カット系列VC[1],...,VC[NC]を同じ場面毎に統合することで生成される。
【0033】
図2の例では、シーン映像VS[1]は、カット映像VC[1],VC[2],VC[3]を統合した映像であり、シーン映像VS[2]は、カット映像VC[4],VC[5]を統合した映像である。また、シーン映像VS[NS]は、カット映像VC[NC-1],VC[NC]を統合した映像である。このように、カット映像VC[i]は、シーン映像VS[j]のいずれかに属することとなる。
【0034】
図1に戻って、要素スコア算出部12は、カット分割部10から、カット映像VC[i]からなるカット系列VC[1],...,VC[NC]を入力する。そして、要素スコア算出部12は、「テロップ」「顔認識」「カメラワーク」及び「CG映像らしさ」からなる4つの要素の演出毎に、各カット映像VC[i]について、当該カット映像VC[i]に基づいて重要度を表す要素スコアS1[i]〜S4[i]を算出する。
【0035】
重要度を表す要素スコアには、カット映像VC[i]に現れる演出による効果の程度が反映される。カット映像VC[i]についての「テロップ」「顔認識」「カメラワーク」及び「CG映像らしさ」の要素スコアをそれぞれ、テロップスコアS1[i]、顔認識スコアS2[i]、カメラワークスコアS3[i]及びCG映像らしさスコアS4[i]とする。
【0036】
要素スコア算出部12は、要素スコアS1[i]〜S4[i](テロップスコアS1[i]、顔認識スコアS2[i]、カメラワークスコアS3[i]及びCG映像らしさスコアS4[i])からなる要素スコア系列S1[1],...,S1[NC],S2[1],...,S2[NC],S3[1],...,S3[NC],S4[1],...,S4[NC]を生成する。
【0037】
要素スコア算出部12は、カット映像VC[i]からなるカット系列VC[1],...,VC[NC]、及び要素スコアS1[i]〜S4[i](テロップスコアS1[i]、顔認識スコアS2[i]、カメラワークスコアS3[i]及びCG映像らしさスコアS4[i])からなる要素スコア系列S1[1],...,S1[NC],S2[1],...,S2[NC],S3[1],...,S3[NC],S4[1],...,S4[NC]を、総合スコア算出部13に出力する。要素スコア算出部12の詳細については後述する。
【0038】
総合スコア算出部13は、要素スコア算出部12から、カット映像VC[i]からなるカット系列VC[1],...,VC[NC]、及び要素スコアS1[i]〜S4[i]からなる要素スコア系列S1[1],...,S1[NC],S2[1],...,S2[NC],S3[1],...,S3[NC],S4[1],...,S4[NC]を入力する。
【0039】
総合スコア算出部13は、各カット映像VC[i]について、予め設定された重み係数W1〜W4を用いて要素スコアS1[i]〜S4[i]を統合し、総合スコアS[i]を算出し、総合スコアS[i]からなる総合スコア系列S[1],...,S[NC]を生成する。そして、総合スコア算出部13は、カット映像VC[i]からなるカット系列VC[1],...,VC[NC]、及び総合スコアS[i]からなる総合スコア系列S[1],...,S[NC]を要約映像生成部14に出力する。総合スコア算出部13の詳細については後述する。
【0040】
要約映像生成部14は、総合スコア算出部13から、カット映像VC[i]からなるカット系列VC[1],...,VC[NC]、及び総合スコアS[i]からなる総合スコア系列S[1],...,S[NC]を入力する。また、要約映像生成部14は、シーン生成部11から、シーン映像VS[j]からなるシーン系列VS[1],...,VS[NS]を入力する。
【0041】
要約映像生成部14は、総合スコアS[i]及びシーン映像VS[j]を参照し、要約映像全体の長さが所定値を超えるまで、要約映像を構成するカット映像VC[i]を選択する。そして、要約映像生成部14は、選択したカット映像VC[i]を時系列に(フレーム番号の早い順に)ソートして連結することで要約映像を生成し、要約映像を出力する。要約映像生成部14の詳細については後述する。
【0042】
〔要素スコア算出部12〕
次に、図1に示した要素スコア算出部12について詳細に説明する。前述のとおり、要素スコア算出部12は、「テロップ」「顔認識」「カメラワーク」及び「CG映像らしさ」からなる4つの要素の演出毎に、各カット映像VC[i]について、当該カット映像VC[i]に基づいてテロップスコアS1[i]、顔認識スコアS2[i]、カメラワークスコアS3[i]及びCG映像らしさスコアS4[i]を算出する。
【0043】
図3は、要素スコア算出部12の構成例及び入出力データ例を示すブロック図である。この要素スコア算出部12は、テロップ領域検出部20、顔認識処理部21、カメラワーク算出部22、CG映像らしさ算出部23、テロップスコア算出部24、顔認識スコア算出部25、カメラワークスコア算出部26及びCG映像らしさスコア算出部27を備えている。
【0044】
要素スコア算出部12は、カット分割部10から、カット映像VC[i]からなるカット系列VC[1],...,VC[NC]を入力し、これを総合スコア算出部13に出力する。
【0045】
テロップ領域検出部20は、カット分割部10から、カット映像VC[i]からなるカット系列VC[1],...,VC[NC]を入力し、カット映像VC[i]からTフレーム毎にフレーム画像P[i,n]をサンプリングし、フレーム画像P[i,n]からなる画像系列P[i,1],...,P[i,NP]を生成する。そして、テロップ領域検出部20は、フレーム画像P[i,n]からなる画像系列P[i,1],...,P[i,NP]を顔認識処理部21及びCG映像らしさ算出部23に出力する。
【0046】
パラメータn=1,...,NPは、フレーム画像P[i,n]の番号を示し、NPは、サンプリングされたフレーム画像P[i,n]の数を示す。
【0047】
テロップ領域検出部20は、各フレーム画像P[i,n]について、テロップが表示されている領域を検出する「テロップ領域検出処理」を行い、テロップ領域の面積を算出し、当該フレーム画像P[i,n]に対するテロップ領域の面積比率rTL[i,n]を算出する。そして、テロップ領域検出部20は、フレーム画像P[i,n]に対するテロップ領域の面積比率rTL[i,n]からなる面積比率系列rTL[i,1],...,rTL[i,NP]を生成し、これをテロップスコア算出部24に出力する。このテロップ領域の面積は、当該演出に関連する対象である「テロップ」が映像内に現れる面積である。
【0048】
尚、「テロップ領域検出処理」は既知であり、詳細については、例えば特開2013−30963号公報を参照されたい。
【0049】
テロップスコア算出部24は、テロップ領域検出部20から、フレーム画像P[i,n]に対するテロップ領域の面積比率rTL[i,n]からなる面積比率系列rTL[i,1],...,rTL[i,NP]を入力する。そして、テロップスコア算出部24は、以下の式により、各カット映像VC[i]について、面積比率rTL[i,n]に基づいて、当該カット映像VC[i]のテロップスコアS1[i]を算出する。
【数1】
CTLは正規化定数であり、予め設定される。
【0050】
テロップスコアS1[i]の範囲は、0≦S1[i]≦1である。テロップスコアS1[i]は、フレーム画像P[i,n]内でテロップ領域の面積が広いほど、大きい値となり、面積が狭いほど、小さい値となる。つまり、テロップスコアS1[i]は、カット映像VC[i]において、テロップが表示される領域が広いフレーム画像P[i,n]が出現するほど、大きい値となる。テロップスコアS1[i]は、カット映像VC[i]において、テロップが表示される領域が最も広いフレーム画像P[i,n]の面積比率rTL[i,n]を、0から1までの間の範囲で正規化した値となる。
【0051】
テロップスコア算出部24は、テロップスコアS1[i]からなるテロップスコア系列S1[1],...,S1[NC]を生成し、これを総合スコア算出部13に出力する。
【0052】
顔認識処理部21は、カット分割部10から、カット映像VC[i]からなるカット系列VC[1],...,VC[NC]を入力すると共に、テロップ領域検出部20から、フレーム画像P[i,n]からなる画像系列P[i,1],...,P[i,NP]を入力する。
【0053】
顔認識処理部21は、各フレーム画像P[i,n]について、対象番組におけるメインの出演者ID[m](M名のメインの出演者ID[1],...,ID[M])を対象として、これらの顔を認識する「顔認識処理」を行い、顔領域F[i,n,k]を検出する。当該フレーム画像P[i,n]からK個の顔領域F[i,n,k]が検出されたとする。顔認識処理部21は、顔領域F[i,n,k]からなるK個の顔領域系列F[i,n,1],...,F[i,n,K]を生成する。
【0054】
パラメータm=1,...,Mは、メインの出演者ID[m]の番号を示し、Mは、メインの出演者ID[m]の数を示す。また、パラメータk=1,...,Kは、顔領域F[i,n,k]の番号を示し、Kは、フレーム画像P[i,n]から検出された顔領域F[i,n,k]の数を示す。
【0055】
尚、「顔認識処理」は既知であり、詳細については、例えば特開2017−33372号公報を参照されたい。
【0056】
顔認識処理部21は、当該フレーム画像P[i,n]に対する顔領域F[i,n,k]の面積比率rFC[i,n,k]を算出し、K個の面積比率rFC[i,n,k]からなる面積比率系列rFC[i,n,1],...,rFC[i,n,K]を生成する。
【0057】
顔認識処理部21は、顔領域F[i,n,k]が出演者ID[m]の顔である確率pFC[i,n,k,m]を算出する「顔確率算出処理」を行い、M個の確率pFC[i,n,k,m]からなる確率系列pFC[i,n,k,1],...,pFC[i,n,k,M]を生成する。この確率pFC[i,n,k,m]は、当該演出に関連する対象である出演者ID[m]の「顔」が現れる確率である。
【0058】
尚、「顔確率算出処理」は既知であり、詳細については、「顔認識処理」と同様に、例えば特開2017−33372号公報を参照されたい。
【0059】
顔認識処理部21は、フレーム画像P[i,n]に対する顔領域F[i,n,k]の面積比率rFC[i,n,k]からなる面積比率系列rFC[i,n,1],...,rFC[i,n,K]、及び、フレーム画像P[i,n]内の顔領域F[i,n,k]が出演者ID[m]の顔である確率pFC[i,n,k,m]からなる確率系列pFC[i,n,k,1],...,pFC[i,n,k,M]を顔認識スコア算出部25に出力する。
【0060】
顔認識スコア算出部25は、顔認識処理部21から、フレーム画像P[i,n]に対する顔領域F[i,n,k]の面積比率rFC[i,n,k]からなる面積比率系列rFC[i,n,1],...,rFC[i,n,K]、及び、フレーム画像P[i,n]内の顔領域F[i,n,k]が出演者ID[m]の顔である確率pFC[i,n,k,m]からなる確率系列pFC[i,n,k,1],...,pFC[i,n,k,M]を入力する。
【0061】
顔認識スコア算出部25は、以下の式により、フレーム画像P[i,n]内の顔領域F[i,n,k]が出演者ID[m]の顔である確率pFC[i,n,k,m]に基づいて、パラメータwFC[i,n,k]を算出する。
【数2】
C’FCは、パラメータwFC[i,n,k]の最小値を定める値であり、予め設定される。
【0062】
パラメータwFC[i,n,k]は、フレーム画像P[i,n]内の顔領域F[i,n,k]において、最大となる確率pFC[i,n,k,m]が低いほど、大きい値となり、最大となる確率pFC[i,n,k,m]が高いほど、小さい値となる。
【0063】
顔認識スコア算出部25は、以下の式により、フレーム画像P[i,n]に対する顔領域F[i,n,k]の面積比率rFC[i,n,k]、及び前記数式(2)にて算出したパラメータwFC[i,n,k]に基づいて、パラメータRFC[i,n]を算出する。
【数3】
【0064】
パラメータRFC[i,n]は、フレーム画像P[i,n]において、顔領域F[i,n,k]のパラメータwFC[i,n,k]に顔領域F[i,n,k]の面積比率rFC[i,n,k]を乗算し、乗算結果を全ての顔領域F[i,n,k]について加算した値である。
【0065】
パラメータRFC[i,n]は、パラメータwFC[i,n,k]が大きいほど(確率pFC[i,n,k,m]が低いほど)、大きい値となり、パラメータwFC[i,n,k]が小さいほど(確率pFC[i,n,k,m]が高いほど)、小さい値となる。また、パラメータRFC[i,n]は、面積比率rFC[i,n,k]が高いほど、大きい値となり、面積比率rFC[i,n,k]が小さいほど、小さい値となる。
【0066】
顔認識スコア算出部25は、以下の式により、各カット映像VC[i]について、前記数式(3)にて算出したパラメータRFC[i,n]に基づいて、当該カット映像VC[i]の顔認識スコアS2[i]を算出する。
【数4】
CFCは正規化定数であり、予め設定される。
【0067】
顔認識スコアS2[i]の範囲は、0≦S2[i]≦1である。顔認識スコアS2[i]は、パラメータRFC[i,n]が大きいほど、大きい値となり、パラメータRFC[i,n]が小さいほど、小さい値となる。つまり、顔認識スコアS2[i]は、確率pFC[i,n,k,m]が低いほど、大きい値となり、確率pFC[i,n,k,m]が高いほど、小さい値となり、面積比率rFC[i,n,k]が高いほど、大きい値となり、面積比率rFC[i,n,k]が低いほど、小さい値となる。
【0068】
確率pFC[i,n,k,m]は、顔領域F[i,n,k]がメインの出演者ID[m]の顔である確率であるから、確率pFC[i,n,k,m]が低い場合は、メインでない出演者ID[m]の顔(ゲストの顔)である確率が高く、確率pFC[i,n,k,m]が高い場合は、ゲストの顔である確率が低いことを意味する。
【0069】
したがって、顔認識スコアS2[i]は、カット映像VC[i]に含まれるフレーム画像P[i,n]において、メインの出演者ID[m]の顔が現れる総面積が広いほど、大きい値となり、メインの出演者ID[m]の顔が現れる総面積が狭いほど、小さい値となる。また、顔認識スコアS2[i]は、カット映像VC[i]に含まれるフレーム画像P[i,n]において、ゲストの顔が現れる確率が高いほど、大きい値となり、ゲストの顔が現れる確率が低いほど、小さい値となる。つまり、顔認識スコアS2[i]は、カット映像VC[i]において、メインの出演者ID[m]の顔が現れる総面積が広いフレーム画像P[i,n]が出現するほど、大きい値となり、ゲストの顔が現れる確率が高いフレーム画像P[i,n]が出現するほど、大きい値となる。
【0070】
顔認識スコア算出部25は、顔認識スコアS2[i]からなる顔認識スコア系列S2[1],...,S2[NC]を生成し、これを総合スコア算出部13に出力する。
【0071】
カメラワーク算出部22は、カット分割部10から、カット映像VC[i]からなるカット系列VC[1],...,VC[NC]を入力し、「カメラワーク検出処理」を行う。そして、カメラワーク算出部22は、各カット映像VC[i]について、ズーム、パン等の所定のカメラワークが生じた映像区間VCW[i,q]を求め、映像区間VCW[i,q]からなる映像区間系列VCW[i,1],...,VCW[i,NCW]を生成する。
【0072】
パラメータq=1,...,NCWは、映像区間VCW[i,q]の番号を示し、NCWは、カット映像VC[i]から検出された映像区間VCW[i,q]の数を示す。
【0073】
尚、「カメラワーク検出処理」は既知であり、詳細については、例えば特開平10−243340号公報を参照されたい。
【0074】
カメラワーク算出部22は、各映像区間VCW[i,q]についてカメラの動き量を算出し、カメラの動き量を画像の対角線の長さで正規化(除算)した動き率rCW[i,q]を算出し、動き率rCW[i,q]からなる動き率系列rCW[i,1],...,rCW[i,NCW]を生成する。そして、カメラワーク算出部22は、動き率rCW[i,q]からなる動き率系列rCW[i,1],...,rCW[i,NCW]をカメラワークスコア算出部26に出力する。この動き率rCW[i,q]は、当該演出に関連する対象である「カメラワーク」の動き率である。
【0075】
カメラワークスコア算出部26は、カメラワーク算出部22から、動き率rCW[i,q]からなる動き率系列rCW[i,1],...,rCW[i,NCW]を入力し、以下の式により、各カット映像VC[i]について、動き率rCW[i,q]に基づいて、当該カット映像VC[i]のカメラワークスコアS3[i]を算出する。
【数5】
CCWは正規化定数であり、予め設定される。
【0076】
カメラワークスコアS3[i]の範囲は、0≦S3[i]≦1である。カメラワークスコアS3[i]は、カット映像VC[i]において、カメラの動き量が多いほど、大きい値となり、カメラの動き量が少ないほど、小さい値となる。つまり、カメラワークスコアS3[i]は、カット映像VC[i]において、カメラの動き量が多い映像区間VCW[i,q]が出現するほど、大きい値となる。
【0077】
カメラワークスコア算出部26は、カメラワークスコアS3[i]からなるカメラワークスコア系列S3[1],...,S3[NC]を生成し、これを総合スコア算出部13に出力する。
【0078】
CG映像らしさ算出部23は、カット分割部10から、カット映像VC[i]からなるカット系列VC[1],...,VC[NC]を入力すると共に、テロップ領域検出部20から、フレーム画像P[i,n]からなる画像系列P[i,1],...,P[i,NP]を入力する。
【0079】
CG映像らしさ算出部23は、各フレーム画像P[i,n]について、「サポートベクターマシーン(SVM)の認識モデルを用いた識別処理」を行い、CG映像である確率pCG[i,n]を算出する。そして、CG映像らしさ算出部23は、CG映像である確率pCG[i,n]からなる確率系列pCG[i,1],...,pCG[i,NP]を生成する。CG映像である確率pCG[i,n]の範囲は、0≦pCG[i,n]≦1である。
【0080】
サポートベクターマシーンには、CG映像の画像特徴とCG映像でない画像の画像特徴との間の違いを予め学習させておく。CG映像は彩度が高く、かつ人工的なテクスチャ特徴を持つ傾向がある。そこで、画像特徴としては、HSV色空間のS値(彩度)のヒストグラム、エッジ方向ヒストグラム、または自然物及び人工物の分類性の高いフラクタル特徴等が用いられる。
【0081】
尚、「サポートベクターマシーン(SVM)の認識モデルを用いた識別処理」は既知であるから、ここでは詳細な説明を省略する。また、フラクタル特徴の詳細については、例えば特開2001−56820号公報を参照されたい。
【0082】
CG映像らしさ算出部23は、CG映像である確率pCG[i,n]からなる確率系列pCG[i,1],...,pCG[i,NP]をCG映像らしさスコア算出部27に出力する。
【0083】
CG映像らしさスコア算出部27は、CG映像らしさ算出部23から、CG映像である確率pCG[i,n]からなる確率系列pCG[i,1],...,pCG[i,NP]を入力する。そして、CG映像らしさスコア算出部27は、以下の式により、各カット映像VC[i]について、CG映像である確率pCG[i,n]に基づいて、CG映像らしさスコアS4[i]を算出する。
【数6】
【0084】
CG映像らしさスコアS4[i]の範囲は、0≦S4[i]≦1である。CG映像らしさスコアS4[i]は、カット映像VC[i]に含まれるフレーム画像P[i,n]について、CG映像である確率pCG[i,n]の最大値が大きいほど、大きい値となり、CG映像である確率pCG[i,n]の最大値が小さいほど、小さい値となる。つまり、CG映像らしさスコアS4[i]は、カット映像VC[i]において、CG映像である確率pCG[i,n]の高いフレーム画像P[i,n]が出現するほど、大きい値となる。
【0085】
CG映像らしさスコア算出部27は、CG映像らしさスコアS4[i]からなるCG映像らしさスコア系列S4[1],...,S4[NC]を生成し、これを総合スコア算出部13に出力する。
【0086】
〔総合スコア算出部13〕
次に、図1に示した総合スコア算出部13について詳細に説明する。前述のとおり、総合スコア算出部13は、各カット映像VC[i]について、テロップスコアS1[i]、顔認識スコアS2[i]、カメラワークスコアS3[i]及びCG映像らしさスコアS4[i]を統合して総合スコアS[i]を算出する。
【0087】
図4は、総合スコア算出部13の構成例及び入出力データ例を示すブロック図である。この総合スコア算出部13は、重み係数設定部30及びスコア算出部31を備えている。
【0088】
総合スコア算出部13は、要素スコア算出部12から、カット映像VC[i]からなるカット系列VC[1],...,VC[NC]を入力し、これを要約映像生成部14に出力する。
【0089】
重み係数設定部30は、テロップスコアS1[i]、顔認識スコアS2[i]、カメラワークスコアS3[i]及びCG映像らしさスコアS4[i]の各要素について、総合スコアS[i]への反映度を定める重み係数Wr(r=1,...,4)を設定する。そして、重み係数設定部30は、重み係数W1〜W4をスコア算出部31に出力する。重み係数W1〜W4は、利用者(要約映像の制作者)の操作により自由に定められ、予め設定される
【0090】
スコア算出部31は、要素スコア算出部12のテロップスコア算出部24から、テロップスコアS1[i]からなるテロップスコア系列S1[1],...,S1[NC]を入力し、顔認識スコア算出部25から、顔認識スコアS2[i]からなる顔認識スコア系列S2[1],...,S2[NC]を入力する。また、重み係数設定部30は、カメラワークスコア算出部26から、カメラワークスコアS3[i]からなるカメラワークスコア系列S3[1],...,S3[NC]を入力し、CG映像らしさスコア算出部27から、CG映像らしさスコアS4[i]からなるCG映像らしさスコア系列S4[1],...,S4[NC]を入力する。また、スコア算出部31は、重み係数設定部30から重み係数W1〜W4を入力する。
【0091】
スコア算出部31は、以下の式により、テロップスコアS1[i]、顔認識スコアS2[i]、カメラワークスコアS3[i]及びCG映像らしさスコアS4[i]に重み係数Wrをそれぞれ乗算し、乗算結果を加算することで、カット映像VC[i]の総合スコアS[i]を算出する。
【数7】
【0092】
スコア算出部31は、カット映像VC[i]の総合スコアS[i]からなる総合スコア系列S[1],...,S[NC]を生成し、これを要約映像生成部14に出力する。
【0093】
これにより、重み係数Wrに応じて、当該重み係数Wrに対応する要素のスコアが反映された総合スコアS[i]が算出される。重み係数Wrを高く設定した要素については、その要素のスコアが総合スコアS[i]に大きく反映され、重み係数Wrを低く設定した要素については、その要素のスコアが総合スコアS[i]にさほど反映されない。
【0094】
例えば、顔認識スコアS2[i]の重み係数W2に大きい値を設定し、他の重み係数W1,3,4に小さい値を設定した場合には、顔認識スコアS2[i]が大きく反映された総合スコアS[i]が生成される。そして、後述する要約映像生成部14により、メインの出演者ID[m]の顔またはゲストの顔が多く現れる要約映像が生成される。同様に、CG映像らしさスコアS4[i]の重み係数W4に大きい値を設定し、他の重み係数W1,2,3に小さい値を設定した場合には、CG映像らしさスコアS4[i]が大きく反映された総合スコアS[i]が生成される。そして、後述する要約映像生成部14により、CG映像が多く現れる要約映像が生成される。
【0095】
〔要約映像生成部14〕
次に、図1に示した要約映像生成部14について詳細に説明する。前述のとおり、要約映像生成部14は、総合スコアS[i]及びシーン映像VS[j]を参照し、要約映像全体の長さが所定値を超えるまでカット映像VC[i]を選択し、選択したカット映像VC[i]を連結して要約映像を生成する。
【0096】
図5は、要約映像生成部14の構成例及び入出力データ例を示すブロック図である。この要約映像生成部14は、要約映像選択部40及び要約映像出力部41を備えている。
【0097】
要約映像選択部40は、総合スコア算出部13から、カット映像VC[i]からなるカット系列VC[1],...,VC[NC]、及び総合スコアS[i]からなる総合スコア系列S[1],...,S[NC]を入力する。また、要約映像選択部40は、シーン生成部11から、シーン映像VS[j]からなるシーン系列VS[1],...,VS[NS]を入力する。
【0098】
要約映像選択部40は、全てのカット映像VC[i]を、総合スコアS[i]に基づいて重要度の高い順にソートし、ソート後のカット映像VC[I[i]]に対して順番に、選択したカット映像VC[I[i]]の全体の長さ(要約映像全体の長さ)が所定値を超えるまで、カット映像VC[I[i]]を選択する。重要度の高い順とは、「テロップ」「顔認識」「カメラワーク」及び「CG映像らしさ」を総合した演出の効果の高い順をいう。
【0099】
要約映像選択部40は、カット映像VC[I[i]]を選択する際に、シーン映像VS[j]内で選択するカット映像VC[I[i]]の数が所定値を超えないようにする。そして、要約映像選択部40は、選択したカット映像VC[I[i]]を要約映像出力部41に出力する。
【0100】
要約映像出力部41は、要約映像選択部40から、選択したカット映像VC[I[i]]を入力し、選択したカット映像VC[I[i]]を時系列に連結して要約映像VC[i'1]...VC[i'L]を生成し、要約映像VC[i'1]...VC[i'L]を出力する。Lは、選択されたカット映像VC[i]の数、すなわち要約映像VC[i'1]...VC[i'L]の数である。
【0101】
〔要約映像生成部14の動作〕
図6は、要約映像生成部14の処理例を示すフローチャートであり、図7は、図6のフローチャートを説明する図である。要約映像生成部14の要約映像選択部40は、総合スコア系列S[1],...,S[NC]のスコアが高い順にカット系列VC[1],...,VC[NC]をソートし、カット系列VC[I[1]],...,VC[I[NC]]を生成する(ステップS601)。
【0102】
例えば図7に示すように、総合スコア系列S[1],...,S[NC]のスコアがS[8]>S[4]>S[1]>S[10]>S[3]>...>S[20]の場合、ステップS601の処理により、ソート後のカット系列は、VC[I[1]]=VC[8],VC[I[2]]=VC[4],VC[I[3]]=VC[1],VC[I[4]]=VC[10],VC[I[5]]=VC[3],...,VC[I[NC]]=VC[20]となる。
【0103】
図6に戻って、要約映像選択部40は、初期設定として、パラメータi=1,...,NCについての全てのフラグSelect[i]を「false」に設定し(Select[i]=false(i=1,...,NC))、パラメータj=1,...,NSについての全てのカウントCount[j]を0に設定する(Count[j]=0(j=1,...,NS)(ステップS602)。尚、このパラメータiは、図6及び図7の説明のために用いられ、カット映像VC[i]、総合スコアS[i]等のパラメータiとは異なる。
【0104】
フラグSelect[i]は、後述するステップS604及びステップS605にてカット映像VC[I[i]]が要約映像の一部に選択された場合、「true」が設定され、カット映像VC[I[i]]が要約映像に選択されない場合、初期設定された「false」が維持される。カウントCount[j]は、パラメータjのシーン番号のシーン映像VS[j]において、当該シーン映像VS[j]に属するカット映像VC[I[i]]の中で、要約映像の一部に選択されたカット映像VC[I[i]]の数を示す。
【0105】
以下、ソート後のカット系列VC[I[1]],...,VC[I[NC]]のそれぞれにパラメータi=1,...,NCを対応させ、ソート後のカット映像VC[I[i]]毎に、要約映像の選択処理が行われる。要約映像の選択処理は、後述するステップS606のとおり、要約映像として選択されたカット映像VC[I[i]]の全フレーム数が所定値TMAXを超えるまで行われる。
【0106】
要約映像選択部40は、パラメータiに1を設定し(i=1、ステップS603)、フラグSelect[i]に「true」が設定されている、またはカウントCount[J[i]]が所定値NMAXよりも大きい条件を満たすか否かを判定する(ステップS604)。すなわち、要約映像選択部40は、パラメータiのカット映像VC[I[i]]が要約映像の一部に選択されている、またはパラメータiのカット映像VC[I[i]]の属するシーン番号J[i]のシーン映像VS[J[i]]において、要約映像の一部として選択されているカット映像数が所定値NMAXよりも大きい条件を満たすか否かを判定する。
【0107】
J[i]は、カット映像VC[I[i]]の属するシーン番号を示す。NMAXは、1つのシーン映像VS[J[i]]から選択されるカット映像VC[I[i]]の数の最大値を示し、予め設定される。
【0108】
要約映像選択部40は、ステップS604において、フラグSelect[i]に「true」が設定されている、またはカウントCount[J[i]]が所定値NMAXよりも大きい条件を満たさないと判定した場合(ステップS604:N)、カット映像VC[I[i]]を要約映像の一部に選択し、フラグSelect[i]に「true」を設定し(Select[i]=true)、カウントCount[J[i]]をインクリメントする(Count[J[i]]=Count[J[i]]+1)(ステップS605)。すなわち、要約映像選択部40は、フラグSelect[i]に「true」が設定されていない(「false」が設定されている)場合、かつカウントCount[J[i]]が所定値NMAXよりも大きくない場合、ステップS605の処理を行う。言い換えると、要約映像選択部40は、カット映像VC[I[i]]が要約映像の一部に選択されておらず、かつ、カット映像VC[I[i]]の属するシーン番号J[i]のシーン映像VS[J[i]]において、要約映像の一部として選択されているカット映像数が所定値NMAXよりも大きくない場合、ステップS605の処理を行う。
【0109】
例えば図7に示すように、ステップS605により、初期設定にて「false」に設定されたフラグSelect[1],...,Select[Nc]のうち、フラグSelect[1],...,Select[5]等が「true」に変更される。
【0110】
図6に戻って、要約映像選択部40は、パラメータi=1から現在のパラメータiまでにおいて、フラグSelect[i]が「true」(Select[i]=true)に設定されている全てのカット映像VC[I[i]]の合計フレーム数を算出し、合計フレーム数が所定値TMAXよりも大きいか否かを判定する(ステップS606)。すなわち、要約映像選択部40は、要約映像の一部として選択された全てのカット映像VC[i]の全フレーム数が所定値TMAXよりも大きいか否か、つまり、要約映像全体の長さが所定値TMAXよりも大きいか否かを判定する。TMAXは、利用者が生成したい要約映像の長さ(フレーム数)を示し、予め設定される。
【0111】
要約映像選択部40は、ステップS606において、要約映像の一部として選択されたカット映像VC[i]の合計フレーム数が所定値TMAXよりも大きくないと判定した場合(ステップS606:N)、すなわち要約映像全体の長さが所定値TMAXよりも大きくないと判定した場合、ステップS604へ移行する。この場合、当該パラメータiのフラグSelect[i]はステップS605にて「true」に設定されているから、ステップS604からステップS607へ移行し、次のカット映像VC[I[i+1]]の処理が行われる。
【0112】
一方、要約映像選択部40は、ステップS606において、要約映像の一部として選択されたカット映像VC[i]の合計フレーム数が所定値TMAXよりも大きいと判定した場合(ステップS606:Y)、すなわち要約映像全体の長さが所定値TMAXよりも大きいと判定した場合、ステップS611へ移行する。
【0113】
一方、要約映像選択部40は、ステップS604において、フラグSelect[i]に「true」が設定されている、またはカウントCount[J[i]]が所定値NMAXよりも大きい条件を満たすと判定した場合(ステップS604:Y)、パラメータiをインクリメントする(i=i+1、ステップS607)。すなわち、要約映像選択部40は、フラグSelect[i]に「true」が設定されている場合、ステップS607の処理を行う。または、要約映像選択部40は、カウントCount[J[i]]が所定値NMAXよりも大きい場合、ステップS607の処理を行う。
【0114】
言い換えると、要約映像選択部40は、カット映像VC[I[i]]が要約映像の一部に選択されている場合、次のカット映像VC[I[i+1]]の処理を行うため、ステップS607へ移行する。または、要約映像選択部40は、カット映像VC[I[i]]の属するシーン番号J[i]のシーン映像VS[J[i]]において、要約映像の一部として選択されているカット映像数が所定値NMAXよりも大きい場合、当該シーン映像VS[J]における残りのカット映像VC[I[i]]の処理のために、ステップS607の処理を行う。この場合の残りのカット映像VC[I[i]]は、要約映像として選択されることはない。
【0115】
要約映像選択部40は、パラメータiが所定値NCよりも大きいか否かを判定する(i>NC、ステップS608)。すなわち、要約映像選択部40は、全てのカット映像VC[I[i]]の処理が完了したか否かを判定する。
【0116】
要約映像選択部40は、ステップS608において、パラメータiが所定値NCよりも大きくないと判定した場合(ステップS608:N)、ステップS604へ移行し、当該カット映像VC[I[i]]の処理を行う。
【0117】
一方、要約映像選択部40は、ステップS608において、パラメータiが所定値NCよりも大きいと判定した場合(ステップS608:Y)、すなわち全てのカット映像VC[I[i]]の処理が完了した場合、所定値NMAXをインクリメントする(NMAX=NMAX+1、ステップS609)。
【0118】
これにより、ステップS604にて使用する所定値NMAX(1つのシーン映像VS[j[i]]から選択されるカット映像VC[I[i]]の数の最大値)がインクリメントされる。そして、後述するステップS610からステップS603へ移行すると、最初のパラメータi=1のカット映像VC[I[i]]から順番に処理が行われる。したがって、ステップS606の条件を満たすまで、要約映像の一部として選択されるカット映像VC[I[i]]が追加される。
【0119】
要約映像選択部40は、所定値NMAXが所定値Ncよりも大きいか否かを判定し(ステップS610)、所定値NMAXが所定値Ncよりも大きくないと判定した場合(ステップS610:N)、ステップS603へ移行する。一方、要約映像選択部40は、所定値NMAXが所定値Ncよりも大きいと判定した場合(ステップS610:Y)、ステップS611へ移行する。
【0120】
要約映像出力部41は、ステップS606(Y)またはステップS610(Y)から移行して、ステップS605にて選択された全てのカット映像VC[I[i]](フラグSelect[i]=trueである全てのカット映像VC[I[i]])を時系列にソートして連結する。そして、要約映像出力部41は、連結した映像VC[i'1]...VC[i'L]を要約映像として生成し、出力する(ステップS611)。Lは、選択されたカット映像VC[I[i]]の数を示す。
【0121】
例えば図7に示すように、ステップS611により、フラグSelect[i]=trueである全てのカット映像VC[I[1]]=VC[8],VC[I[2]]=VC[4],VC[I[3]]=VC[1],VC[I[4]]=VC[10],VC[I[5]]=VC[3]等が時系列にソートされ連結される。そして、連結された映像VC[i'1]=VC[1],VC[i'2]=VC[3],VC[i'3]=VC[4],...,VC[i'L]=VC[25]が要約映像として生成される。
【0122】
以上のように、本発明の実施形態による要約映像生成装置1によれば、カット分割部10は、番組映像をカット映像VC[i](i=1,...,NC)に分割し、シーン生成部11は、同じ場面のカット映像VC[i]を統合してシーン映像VS[j](j=1,...,NS)を生成する。
【0123】
要素スコア算出部12は、「テロップ」「顔認識」「カメラワーク」及び「CG映像らしさ」からなる4つの要素の演出毎に、各カット映像VC[i]について、要素スコアS1[i]〜S4[i](テロップスコアS1[i]、顔認識スコアS2[i]、カメラワークスコアS3[i]及びCG映像らしさスコアS4[i])を算出する。
【0124】
総合スコア算出部13は、要素スコアS1[i]〜S4[i]及び重み係数W1〜W4に基づいて、カット映像VC[i]の総合スコアS[i]を算出する。
【0125】
要約映像生成部14は、総合スコアS[i]及びシーン映像VS[j]を参照し、要約映像全体の長さが所定値を超えるまでカット映像VC[i]を選択し、選択したカット映像VC[i]を時系列にソートして連結することで要約映像を生成する。
【0126】
これにより、番組映像における「テロップ」「顔認識」「カメラワーク」及び「CG映像らしさ」の各要素のように、番組演出上重要な場面に生じる傾向の強い要素を考慮した要約映像を生成することができる。
【0127】
つまり、番組映像に現れる演出を考慮することで、演出による効果の度合いの高い重要な区間の映像のみで構成される要約映像を生成することが可能となる。そして、このような要約映像をネット用コンテンツとして配信することにより、視聴者の番組への関心を高める媒体として利用することできる。
【0128】
また、本発明の実施形態による要約映像生成装置1によれば、総合スコア算出部13は、カット映像VC[i]の総合スコアS[i]を算出する際に、要素スコアS1[i]〜S4[i]毎に設定された重み係数W1〜W4を用いるようにした。
【0129】
これにより、重み係数W1〜W4に応じて、当該重み係数W1〜W4の要素のスコアを総合スコアS[i]へ反映することができる。つまり、どの要素に重きを置いて要約映像を作るのかを、重み係数W1〜W4に対し自由に設定することで、利用者の意図に沿った様々なバリエーションの要約映像を生成することができる。
【0130】
また、本発明の実施形態による要約映像生成装置1によれば、要約映像生成部14は、要約映像を生成するためのカット映像VC[i]を選択する際に、シーン映像VS[j]内で選択するカット映像VC[i]の数が所定値NMAXを超えないようにした。これにより、特定のシーンに偏ってカット映像VC[i]が選択されることがないから、特定のシーンに偏った要約映像が生成されることがない。つまり、番組映像の全体のシーンを考慮した要約映像が生成される。
【0131】
以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。前記実施形態では、演出の種類を「テロップ」「顔認識」「カメラワーク」及び「CG映像らしさ」として、要約映像を生成するようにしたが、演出の種類は、これら4つの要素に限定されるものではなく、他の要素を用いるようにしてもよい。例えば、音の大きさ、音楽、会話、特定の物体等を演出の要素として、要約映像を生成するようにしてもよい。また、これらの演出の要素のうち任意の所定数の要素を用いて、要約映像を生成するようにしてもよい。
【0132】
前述のとおり、要素スコアは、演出による効果の程度が反映された重要度を表すから、演出が「音の大きさ」の場合、要素スコアは、例えばその大きさに比例した値が設定される。また、演出が「音楽」の場合、要素スコアは、カット映像VC[i]内で音楽が流れている時間割合に応じて設定される。また、演出が「特定の物体」の場合、要素スコアは、前述の「顔認識」の場合と同様に、当該物体が検出された領域の面積比率及び当該物体である確率に基づいて設定される。
【0133】
尚、本発明の実施形態による要約映像生成装置1のハードウェア構成としては、通常のコンピュータを使用することができる。要約映像生成装置1は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。要約映像生成装置1に備えたカット分割部10、シーン生成部11、要素スコア算出部12、総合スコア算出部13及び要約映像生成部14の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。これらのプログラムは、前記記憶媒体に格納されており、CPUに読み出されて実行される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
【符号の説明】
【0134】
1 要約映像生成装置
10 カット分割部
11 シーン生成部
12 要素スコア算出部
13 総合スコア算出部
14 要約映像生成部
20 テロップ領域検出部
21 顔認識処理部
22 カメラワーク算出部
23 CG映像らしさ算出部
24 テロップスコア算出部
25 顔認識スコア算出部
26 カメラワークスコア算出部
27 CG映像らしさスコア算出部
30 重み係数設定部
31 スコア算出部
40 要約映像選択部
41 要約映像出力部
図1
図2
図3
図4
図5
図6
図7