(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022181790
(43)【公開日】2022-12-08
(54)【発明の名称】要約映像生成装置およびそのプログラム
(51)【国際特許分類】
H04N 5/91 20060101AFI20221201BHJP
G06T 7/00 20170101ALI20221201BHJP
【FI】
H04N5/91
G06T7/00 350C
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2021088951
(22)【出願日】2021-05-27
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り (1)令和3年3月1日に公益社団法人精密工学会画像応用技術専門委員会によってオンライン発行された「動的画像処理実利用化ワークショップ2021」の講演論文集において論文発表 (2)令和3年3月4日から5日に公益社団法人精密工学会画像応用技術専門委員会によってオンライン開催された「動的画像処理実利用化ワークショップ2021」において令和3年3月5日に講演発表
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】110001807
【氏名又は名称】弁理士法人磯野国際特許商標事務所
(72)【発明者】
【氏名】望月 貴裕
【テーマコード(参考)】
5C053
5L096
【Fターム(参考)】
5C053FA14
5L096AA01
5L096AA06
5L096BA18
5L096DA01
5L096EA35
5L096HA02
5L096HA11
5L096KA04
(57)【要約】
【課題】複数の特徴を組み合わせて、要約映像を生成することが可能な要約映像生成装置を提供する。
【解決手段】要約映像生成装置1は、特徴ごとに異なる分割手法で入力映像を分割し、複数の映像区間系列を生成する映像分割手段11と、映像区間の映像特徴に基づいて映像区間の映像が要約映像である度合いを示す区間スコアを算出する区間スコア算出手段12と、入力映像を単位映像区間に分割する単位区間分割手段20と、単位映像区間ごとに、複数の映像区間系列と重複する映像区間の時間の割合に応じて映像区間に対応する区間スコアを加算して、単位区間スコアを算出する単位区間スコア算出手段30と、単位区間スコアに基づいて単位映像区間を選択する区間選択手段41と、選択された単位映像区間の映像を連結する映像連結手段42と、を備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
入力映像から要約映像を生成する要約映像生成装置であって、
予め定めた特徴ごとに異なる分割手法で前記入力映像を映像区間に分割し、前記特徴ごとに複数の映像区間系列を生成する映像分割手段と、
前記映像分割手段で分割された映像区間の映像特徴に基づいて、前記映像区間の映像が前記要約映像である度合いを示す区間スコアを算出する区間スコア算出手段と、
前記入力映像を固定長の単位映像区間に分割する単位区間分割手段と、
前記単位映像区間ごとに、前記複数の映像区間系列と重複する映像区間の時間の割合に応じて、前記重複する映像区間に対応する前記区間スコアを加算して、単位区間スコアを算出する単位区間スコア算出手段と、
前記単位区間スコアに基づいて、前記要約映像である度合いの高い方から順に予め定めた時間長内で前記単位映像区間を選択する区間選択手段と、
前記区間選択手段で選択された単位映像区間の映像を連結する映像連結手段と、
を備えることを特徴とする要約映像生成装置。
【請求項2】
前記特徴の1つは画像特徴であって、前記映像分割手段は、前記入力映像から前記画像特徴となるカット点を検出し、前記カット点で前記入力映像を分割することを特徴とする請求項1に記載の要約映像生成装置。
【請求項3】
前記特徴の1つは発話特徴であって、前記映像分割手段は、前記入力映像に対応する音声を音声認識し、前記発話特徴となる文の切れ目の時間で前記入力映像を分割することを特徴とする請求項1に記載の要約映像生成装置。
【請求項4】
前記特徴の1つは音響特徴であって、前記映像分割手段は、前記入力映像に対応する音声から前記音響特徴となる無音区間を検出し、前記無音区間で前記入力映像を分割することを特徴とする請求項1に記載の要約映像生成装置。
【請求項5】
前記区間スコア算出手段は、映像が要約映像か非要約映像かを予め学習したニューラルネットワークに基づいて前記区間スコアを算出することを特徴とする請求項1から請求項4のいずれか一項に記載の要約映像生成装置。
【請求項6】
前記単位区間分割手段は、前記映像分割手段で分割されたすべての映像区間の区間長の平均値を、前記単位映像区間の区間長とすることを特徴とする請求項1から請求項5のいずれか一項に記載の要約映像生成装置。
【請求項7】
コンピュータを、請求項1から請求項6のいずれか一項に記載の要約映像生成装置として機能させるための要約映像生成プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像を要約した要約映像を生成する要約映像生成装置およびそのプログラムに関する。
【背景技術】
【0002】
近年、ソーシャルメディアサービスの発達等により、放送番組や自主制作した映像をPRすることを主な目的として、要約映像をネットワーク上で配信するケースが増えている。しかし、要約映像の編集作業は大きな労力を要するため、自動で要約映像を生成する技術が求められている。
【0003】
従来、要約映像を自動的に生成する技術として、例えば、特許文献1~3にその手法が提案されている。
特許文献1に記載の手法は、映像を分割した分割映像のキーフレームの画像特徴に基づいて、映像から重要度の高い映像区間を抽出して要約映像を生成する手法である。
特許文献2に記載の手法は、映像区間をノードとし、ノード間の映像特徴の類似度をエッジとするグラフを解析し、映像から重要度の高い映像区間の映像を抽出して要約映像を生成する手法である。
特許文献3に記載の手法は、まず、映像を複数のカット映像に分割し、複数の要素に関するスコアを算出する。そして、この手法は、ユーザが設定した各要素の重み配分に基づいてカット映像の総合スコアを算出し、総合スコアの高いカット映像を抽出して要約映像を生成する手法である。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特許第5537285号公報
【特許文献2】特許第5898117号公報
【特許文献3】特開2018-206292号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1,2に記載の手法は、単一の特徴(画像特徴のみ、映像特徴のみ)で要約映像を生成しており、複数の特徴を考慮していない。そのため、要約映像の品質を高めるためには、複数の特徴を考慮する手法が望まれていた。
特許文献3に記載の手法は、映像を分割したカット映像ごとに、複数の特徴(テロップスコア、顔認識スコア、カメラワークスコア)を統合したスコアで要約映像を生成している。しかし、映像の特徴は、必ずしもカット映像の単位で区分されるものではない。例えば、ある特徴はカット映像の一部にしか存在しない場合もある、そのため、カット映像に、より正確に複数の特徴を反映させたいという要望があった。
【0006】
本発明は、このような従来技術の要望に鑑みてなされたもので、複数の特徴を組み合わせて、従来よりも高品質な要約映像を生成することが可能な要約映像生成装置およびそのプログラムを提供することを課題とする。
【課題を解決するための手段】
【0007】
前記課題を解決するため、本発明に係る要約映像生成装置は、入力映像から要約映像を生成する要約映像生成装置であって、映像分割手段と、区間スコア算出手段と、単位区間分割手段と、単位区間スコア算出手段と、区間選択手段と、映像連結手段と、を備える構成とした。
【0008】
かかる構成において、要約映像生成装置は、映像分割手段によって、予め定めた画像特徴、発話特徴、音響特徴等の特徴ごとに異なる分割手法で入力映像を映像区間に分割する。これによって、映像分割手段は、特徴ごとに複数の映像区間系列を生成する。この映像区間系列は、特徴ごとに異なる分割手法で分割されているため、それぞれの映像区間は必ずしも一致していないことになる。
【0009】
そして、要約映像生成装置は、区間スコア算出手段によって、分割された映像区間の映像特徴に基づいて、映像区間の映像が要約映像である度合いを示す区間スコアを算出する。例えば、区間スコア算出手段は、予め学習したニューラルネットワークを用いて、映像区間の映像から区間スコアを算出する。
【0010】
さらに、要約映像生成装置は、単位区間分割手段によって、入力映像を、要約映像を生成する映像の単位となる固定長の単位映像区間に分割する。
そして、要約映像生成装置は、単位区間スコア算出手段によって、単位映像区間ごとに、複数の映像区間系列と重複する映像区間の時間の割合に応じて、重複する映像区間に対応する区間スコアを加算して、単位区間スコアを算出する。これによって、単位区間スコア算出手段は、複数の特徴から算出されるスコアを単位映像区間において統合することができる。
そして、要約映像生成装置は、区間選択手段によって、単位区間スコアに基づいて、要約映像である度合いの高い方から順に予め定めた時間長内で単位映像区間を選択する。
そして、要約映像生成装置は、映像連結手段によって、区間選択手段で選択された単位映像区間の映像を連結する。
【0011】
これによって、要約映像生成装置は、分割単位の異なる複数の特徴の映像区間のスコア(区間スコア)から、要約映像の構成要素となる単位映像区間のスコア(単位区間スコア)を算出することができ、複数の特徴を組み合わせて要約映像を生成することができる。
なお、要約映像生成装置は、コンピュータを、前記した各手段として機能させるための要約映像生成プログラムで動作させることができる。
【発明の効果】
【0012】
本発明によれば、映像の分割単位の異なる複数の特徴を組み合わせて要約映像を生成することができる。
また、本発明は、複数の特徴を組み合わせたスコアを算出することで、重要度の高い映像区間を精度よく選択することができ、従来よりも品質を高めた要約映像を生成することができる。
【図面の簡単な説明】
【0013】
【
図1】本発明の実施形態に係る要約映像生成装置の構成を示すブロック構成図である。
【
図2】
図1のモーダル別区間スコア算出手段の処理を説明するための説明図である。
【
図3】
図1の区間スコア算出手段の処理の一例を説明するための説明図である。
【
図4】
図1の単位区間分割手段の処理を説明するための説明図である。
【
図5】
図1の単位区間スコア算出手段の処理を説明するための説明図である。
【
図6】
図1の映像要約手段の処理を説明するための説明図である。
【
図7】本発明の実施形態に係る要約映像生成装置の動作を示すフローチャートである。
【
図8】映像区間重要度算出モデルを学習する映像区間重要度算出モデル学習装置の構成を示すブロック構成図である。
【
図9】
図8の映像区間重要度算出モデル学習装置で使用する学習映像(学習データ)である正例区間映像および負例区間映像を説明するための説明図である。
【発明を実施するための形態】
【0014】
<要約映像生成装置の構成>
最初に、
図1を参照して、本発明の実施形態に係る要約映像生成装置の構成について説明する。
【0015】
要約映像生成装置1は、映像から、内容を要約した要約映像を生成するものである。なお、映像は音声を含んでいるものとする。
図1に示すように、要約映像生成装置1は、複数のモーダル別区間スコア算出手段10と、単位区間分割手段20と、単位区間スコア算出手段30と、映像要約手段40と、を備える。
【0016】
モーダル別区間スコア算出手段10は、映像を特徴に基づいて分割し、分割した区間ごとに、要約としての重要度の度合いを示すスコア(区間スコア)を算出するものである。
ここでは、モーダル別区間スコア算出手段10は、モーダル別に複数のモーダル別区間スコア算出手段101,102,103を備える。本発明において、モーダルとは、映像を分割するための特徴であって、例えば、画像特徴、発話特徴、音響特徴等、映像そのもの、あるいは、映像に対応する音声の特徴である。
【0017】
例えば、ここでは、モーダル別区間スコア算出手段101は、入力される映像Vを、映像Vを構成するフレーム画像の特徴(画像特徴)によって映像を分割し、分割された映像区間のスコアを算出するものとする。また、モーダル別区間スコア算出手段102は、入力される映像Vを、映像Vに対応する音声から抽出される発話特徴によって分割し、分割された映像区間のスコアを算出するものとする。また、モーダル別区間スコア算出手段103は、入力される映像Vを、映像Vに対応する音声から抽出される音響特徴によって分割し、分割された映像区間のスコアを算出するものとする。
モーダル別区間スコア算出手段10は、映像分割手段11と、区間スコア算出手段12と、を備える。
【0018】
映像分割手段11は、予め定めた特徴ごとに異なる分割手法で入力映像を映像区間に分割し、特徴ごとに複数の映像区間系列を生成するものである。ここでは、映像分割手段11は、予め定めた特徴ごとに異なるモーダル別区間スコア算出手段101,102,103に備える構成としている。
例えば、モーダル別区間スコア算出手段101の映像分割手段11は、映像Vの画像特徴となるカメラの切り替わりや編集点であるカット点を検出し、カット点ごとに映像Vを分割する。なお、映像からカット点を検出する手法は、一般的な手法を用いればよい。例えば、特開2008-33749号公報に開示されている手法を用いることができる。
【0019】
また、モーダル別区間スコア算出手段102の映像分割手段11は、映像Vに対応する音声を音声認識し、音声認識結果における発話特徴となる文の切れ目の時間で映像Vを分割する。なお、音声認識には、一般的な手法を用いることができる。
【0020】
また、モーダル別区間スコア算出手段103の映像分割手段11は、映像Vに対応する音声の音響レベルに基づいて、音響特徴となる予め定めた長さ以上の無音区間を検出し、無音区間(例えば、無音区間の中心)で映像Vを分割する。
【0021】
映像分割手段11は、分割した映像Vの個々の映像区間を特定する情報(例えば、映像区間の先頭のタイムコード、時間長)を区間スコア算出手段12に出力する。
また、ここでは、映像分割手段11は、分割した映像Vの個々の映像区間の区間長(時間長)を単位区間分割手段20に出力する。
【0022】
区間スコア算出手段12は、映像分割手段11で分割された映像区間の映像特徴に基づいて、映像区間の映像が要約映像である度合いを示す区間スコアを算出するものである。ここでは、区間スコア算出手段12は、予め定めた特徴ごとに異なるモーダル別区間スコア算出手段101,102,103に備える構成としているが、共有して1つの構成としてのよい。
【0023】
区間スコア算出手段12は、映像区間ごとに特徴ベクトルを算出し、予め学習したニューラルネットワーク等の学習モデルを用いて、映像区間の映像が要約映像であるスコア(区間スコア)を算出する。
例えば、区間スコア算出手段12は、予め学習済みの画像分類用の畳み込みニューラルネットワーク(CNN)に、映像区間の映像を構成するフレーム画像を順次入力し、CNNの中間層の出力をフレーム数分平均化することで、映像区間の映像の特徴ベクトルを算出する。
そして、区間スコア算出手段12は、予め要約映像に使用された映像の特徴ベクトルを正例、要約映像に使用されなかった映像(非要約映像)の特徴ベクトルを負例とする学習データで学習した、映像が要約映像であるスコア(重要度)を出力するニューラルネットワークの学習モデル(映像区間重要度算出モデル)を用いて、映像区間のスコアを算出する。なお、映像区間重要度算出モデルの学習手法については、
図8を参照して後記する。
区間スコア算出手段12は、個々の映像区間を特定する情報とともに、算出した区間スコアを単位区間スコア算出手段30に出力する。
【0024】
すなわち、モーダル別区間スコア算出手段10は、
図2に示すように、映像分割手段11によって、映像Vを、映像Vの特徴によってモーダルn映像区間V
n(1),V
n(2),…,V
n(N
n)に分割し、映像区間系列を生成する。ここで、nはモーダル(特徴)の種類を示し、モーダルn映像区間は、あるモーダル(特徴)nによって分割された映像区間を示す。また、N
nは、モーダルnによって分割された映像Vの分割数を示す。
ここでは、モーダル別区間スコア算出手段10
1,10
2,10
3が、それぞれ、モーダル1,2,3に対応するものとする。
そして、モーダル別区間スコア算出手段10は、
図2に示すように、区間スコア算出手段12によって、モーダルn映像区間V
n(1),V
n(2),…,V
n(N
n)ごとに、区間スコアを算し、モーダルn区間スコアS
n(1),S
n(2),…,S
n(N
n)とする。
【0025】
このとき、モーダル別区間スコア算出手段10の区間スコア算出手段12は、
図3に示すように、モーダルn映像区間V
n(k)から、モーダルnの特徴ベクトルf
n(k)を算出する。そして、区間スコア算出手段12は、学習済NNの演算を行うことで、特徴ベクトルf
n(k)から、モーダルn区間スコアS
n(k)を算出する。
【0026】
単位区間分割手段20は、入力された映像Vを、固定長の単位映像区間に分割するものである。単位映像区間の区間長(単位区間長)は、生成する要約映像の構成要素となる単位映像の長さである。
ここでは、単位区間分割手段20は、モーダル別区間スコア算出手段10の映像分割手段11で分割されたすべての映像区間の区間長の平均値を、単位区間長とする。なお、単位区間長は、必ずしも映像分割手段11で分割されたすべての映像区間の区間長の平均値を用いる必要はなく、例えば、予め設定された固定値を用いてもよい。
単位区間分割手段20は、単位区間長で分割された個々の映像区間(単位映像区間)を特定する情報(例えば、単位映像区間の先頭のタイムコード、時間長)を単位区間スコア算出手段30に出力する。
【0027】
すなわち、単位区間分割手段20は、
図4に示すように、単位区間長Tごとに、映像Vを単位映像区間V(1),V(2),…,V(N))に分割する。ここで、Nは映像Vの分割数(単位映像区間数)である。なお、最後の単位映像区間V(N)は、単位区間長Tよりも短い場合がある。
【0028】
単位区間スコア算出手段30は、単位映像区間ごとに、複数の映像区間系列と重複する映像区間の時間の割合に応じて、重複する映像区間に対応する区間スコアを加算して、単位区間スコアを算出するものである。
具体的には、単位区間スコア算出手段30は、以下の式(1)により、k番目の単位映像区間V(k)(k=1,…,N;Nは単位映像区間数)の単位区間スコアS(k)を算出する。
【0029】
【0030】
式(1)において、VOL(n,k)は、各モーダルnにおいて、単位映像区間V(k)と時間的重なりのあるモーダルn映像区間の集合を示す。また、NVOL(n,k)は、VOL(n,k)に属するモーダルn映像区間の数を示す。
【0031】
例えば、
図5に示す例において単位映像区間V(2)に着目すると、V(2)と時間的重なりのあるモーダル1映像区間の集合VOL(1,2)={V
1(1),V
1(2)}、映像区間の数N
VOL(1,2)=2となる。同様に、V(2)と時間的重なりのあるモーダル2映像区間の集合VOL(2,2)={V
2(1)}、映像区間の数N
VOL(2,2)=1となる。また、V(2)と時間的重なりのあるモーダル3映像区間の集合VOL(3,2)={V
3(2),V
3(3)}、映像区間の数N
VOL(3,2)=2となる。
【0032】
また、式(1)において、モーダルn区間スコアSn(i)(i=1,…,NM;NMはモーダル数)に乗算するR(i,k)は、モーダルn映像区間Vn(i)と単位映像区間V(k)との時間的な重なり率を示す。
【0033】
例えば、
図5の単位映像区間V(2)において単位区間スコアS(2)を算出する場合、単位区間スコア算出手段30は、式(1)によって、モーダル1においては、V(2)と重なるV
1(1),V
1(2)の割合(時間的な重なり率)に応じて、S
1(1),S
1(2)を加算する。他のモーダルにおいても同様である。
これによって、単位区間スコア算出手段30は、複数の特徴から算出される区間スコアに基づいて、単位区間スコアを算出することができる。
単位区間スコア算出手段30は、算出した単位区間スコアを映像要約手段40に出力する。
【0034】
映像要約手段40は、単位区間スコア算出手段30で算出された単位区間スコアに基づいて、入力された映像から重要度の高い映像を抽出して要約映像を生成するものである。映像要約手段40は、区間選択手段41と、映像連結手段42と、を備える。
【0035】
区間選択手段41は、単位区間スコア算出手段30で算出された単位区間スコアに基づいて、要約映像である度合いの高い方から順に単位映像区間を選択するものである。
ここでは、区間選択手段41は、重要度の高い方から順に単位映像区間をソートして、重要度の高い予め定めた個数の単位映像区間を選択する。なお、この個数は、外部から設定されることとしてもよい。また、区間選択手段41は、予め定めた、あるいは、ユーザによって設定された時間長まで、単位映像区間を選択することとしてもよい。
区間選択手段41は、選択した単位映像区間を特定する情報(例えば、映像区間の先頭のタイムコード、時間長)を、映像連結手段42に出力する。
【0036】
映像連結手段42は、区間選択手段41で選択された単位映像区間の映像を連結することで要約映像を生成するものである。
この映像連結手段42は、単位映像区間で特定される映像を入力された映像Vから抽出する。そして、映像連結手段42は、抽出した単位映像区間の映像を時系列に連結して、要約映像SVを生成する。
【0037】
すなわち、映像要約手段40は、
図6に示すように、区間選択手段41によって、単位区間スコアS(1),S(2),…,S(N)において、重要度の高い方から順に予め定めた時間長内で単位映像区間V(k
1),V(k
2),…,V(k
N′)を選択する。
そして、映像要約手段40は、映像連結手段42によって、単位映像区間V(k
1),V(k
2),…,V(k
N′)の映像を時系列に連結して、要約映像SVを生成する。
【0038】
以上説明したように、要約映像生成装置1は、モーダル(特徴)によって異なる映像の分割単位を組み合わせて、複数の特徴に対して重要度の高くなる映像区間を選択した要約映像を生成することができる。
なお、要約映像生成装置1は、図示を省略したコンピュータを、前記した各手段として機能させるための要約映像生成プログラムで動作させることができる。
【0039】
<要約映像生成装置の動作>
次に、
図7を参照(構成については適宜
図1参照)して、本発明の実施形態に係る要約映像生成装置の動作について説明する。なお、ここでは、モーダル別区間スコア算出手段10
1,10
2,10
3において、ステップS1,S2が並列して動作することとするが、モーダル別区間スコア算出手段10
1,10
2,10
3が、順番に動作することとしてもよい。
【0040】
ステップS1,S11において、モーダル別区間スコア算出手段101の映像分割手段11は、モーダル1(ここでは、画像特徴)によって、映像Vからカット点を検出し、映像Vをモーダル1映像区間に分割する。
ステップS2,S21において、モーダル別区間スコア算出手段101の区間スコア算出手段12は、ステップS11で分割された映像区間ごとに、重要度の度合いを示す区間スコアを算出する。
【0041】
また、ステップS1,S12において、モーダル別区間スコア算出手段102の映像分割手段11は、モーダル2(ここでは、発話特徴)によって、映像Vに対応する音声を認識し、音声認識結果における文の切れ目のタイミングで映像Vをモーダル2映像区間に分割する。
ステップS2,S22において、モーダル別区間スコア算出手段102の区間スコア算出手段12は、ステップS12で分割された映像区間ごとに、重要度の度合いを示す区間スコアを算出する。
【0042】
また、ステップS1,S13において、モーダル別区間スコア算出手段103の映像分割手段11は、モーダル3(ここでは、音響特徴)によって、映像Vに対応する音声の音響レベルに基づいて無音区間を検出し、無音区間で映像Vをモーダル3映像区間に分割する。
ステップS2,S23において、モーダル別区間スコア算出手段103の区間スコア算出手段12は、ステップS13で分割された映像区間ごとに、重要度の度合いを示す区間スコアを算出する。
【0043】
ステップS3において、単位区間分割手段20は、入力された映像Vを、単位区間長の単位映像区間に分割する。なお、単位区間長は、ステップS1(S11,S12,S13)で分割されたすべての映像区間の区間長の平均値とする。なお、単位区間長は、予め設定された固定値でもよい。
【0044】
ステップS4において、単位区間スコア算出手段30は、ステップS3で分割された単位映像区間ごとに、当該区間が要約映像である度合いを示す単位区間スコアを算出する。
ここでは、単位区間スコア算出手段30は、前記式(1)により、ステップS1で分割されたモーダル別の映像区間と単位映像区間との時間的重なりの割合に応じて、ステップS2で分割されたモーダル別の区間スコアを加算することで、単位映像区間における単位区間スコアを算出する。
【0045】
ステップS5において、映像要約手段40の区間選択手段41は、ステップS4で算出された単位区間スコアにおいて、重要度の高い方から順に予め定めた時間長内で単位映像区間を選択する。
【0046】
ステップS6において、映像要約手段40の映像連結手段42は、ステップS5で選択された単位映像区間の映像を、入力された映像Vから抽出し、時系列に連結することで要約映像SVを生成する。
以上の動作によって、要約映像生成装置1は、複数の特徴に対して重要度の高くなる映像区間を選択した要約映像を生成することができる。
【0047】
<映像区間重要度算出モデルの学習手法について>
ここで、区間スコア算出手段12が映像区間の区間スコアを算出するために使用する映像区間重要度算出モデルの学習手法の例について説明する。
映像区間重要度算出モデルの学習は、例えば、
図8に示す映像区間重要度算出モデル学習装置2で行うことができる。
図8に示すように、映像区間重要度算出モデル学習装置2は、特徴ベクトル生成手段50と、ニューラルネットワーク学習手段60と、映像区間重要度算出モデル記憶手段70と、を備える。
【0048】
特徴ベクトル生成手段50は、学習データである学習映像LVから、特徴ベクトルを生成するものである。
この特徴ベクトル生成手段50は、要約映像に使用された映像である正例区間映像LVPとその要約映像に使用されなかった映像である負例区間映像LVNとをペアとする学習映像LVから、それぞれ特徴ベクトルとして、正例特徴ベクトルVPと負例特徴ベクトルVNとを生成する。
【0049】
なお、特徴ベクトルの生成は、区間スコア算出手段12で特徴ベクトルを算出する手法と同じである。すなわち、特徴ベクトル生成手段50は、予め学習済みの画像分類用の畳み込みニューラルネットワーク(CNN)に、映像区間の映像(正例区間映像LVP、負例区間映像LVN)を構成するフレーム画像を順次入力し、CNNの中間層の出力をフレーム数分平均化することで特徴ベクトル(正例特徴ベクトルVP、負例特徴ベクトルVN)を算出する。
【0050】
学習映像LVは、例えば、自作映像とそれを編集した要約映像、放送波から取得した番組映像と通信回線で配信されたその要約映像等を用いて、要約映像を正例区間映像LVPとし、要約映像に類似するフレーム画像を元の映像(自作映像、番組映像)から削除した映像を負例区間映像LVNとして生成することができる。もちろん、要約映像が元の映像のどの区間を使用したのかが既知であれば、負例区間映像LVNは、元の映像から要約映像の区間を削除して生成してもよい。
【0051】
ここで、
図9を参照して、学習映像LVについて模式的に説明する。なお、
図9に示す四角形は、映像のフレームを示しているが、図示を簡略化するためフレームを間引いて図示している。
図9に示すように、元映像V
ORGから要約映像V
SUMを生成した場合、抽出した区間映像LV
P1,LV
P2,…を、学習映像LVの正例区間映像LV
Pとする。
また、元映像V
ORGから要約映像V
SUMで使用した区間映像LV
P1,LV
P2,…を削除した区間映像LV
N1,LV
N2,LV
N3,…を、学習映像LVの負例区間映像LV
Nとする。
【0052】
図8に戻って、映像区間重要度算出モデル学習装置2の構成について説明を続ける。
特徴ベクトル生成手段50は、生成したペアとなる正例特徴ベクトルV
Pおよび負例特徴ベクトルV
Nを、ニューラルネットワーク学習手段60に出力する。
【0053】
ニューラルネットワーク学習手段60は、特徴ベクトル生成手段50で生成された特徴ベクトル(正例特徴ベクトル,負例特徴ベクトル)を用いて、映像区間重要度算出モデルのパラメータとして、ニューラルネットワークの内部パラメータを学習するものである。
このニューラルネットワーク学習手段60は、映像区間重要度算出モデルを用いて、正例特徴ベクトルを入力して演算した重要度から、負例特徴ベクトルを入力して演算した重要度を減じた値が大きくなるように映像区間重要度算出モデルのパラメータを学習する。
ニューラルネットワーク学習手段60は、正例NN演算手段61と、負例NN演算手段62と、パラメータ更新手段63と、を備える。
【0054】
正例NN(ニューラルネットワーク)演算手段61は、特徴ベクトル生成手段50で生成された正例特徴ベクトルVPを入力して、映像区間重要度算出モデルを演算するものである。
正例NN演算手段61は、映像区間重要度算出モデル記憶手段70に記憶されている映像区間重要度算出モデルのパラメータの値を用いて、映像区間重要度算出モデルの演算を行う。
なお、正例NN演算手段61は、パラメータ更新手段63から、再計算の指示があった場合、再度、同一の正例特徴ベクトルVPを入力して演算を行う。
正例NN演算手段61は、演算結果をパラメータ更新手段63に出力する。
【0055】
負例NN(ニューラルネットワーク)演算手段62は、特徴ベクトル生成手段50で生成された負例特徴ベクトルVNを入力して、映像区間重要度算出モデルを演算するものである。
負例NN演算手段62は、映像区間重要度算出モデル記憶手段70に記憶されている映像区間重要度算出モデルのパラメータの値を用いて、映像区間重要度算出モデルの演算を行う。
なお、負例NN演算手段62は、パラメータ更新手段63から、再計算の指示があった場合、再度、同一の負例特徴ベクトルVNを入力して演算を行う。
負例NN演算手段62は、演算結果をパラメータ更新手段63に出力する。
【0056】
パラメータ更新手段63は、正例NN演算手段61および負例NN演算手段62の演算結果に基づいて、映像区間重要度算出モデルのパラメータを更新するものである。
このパラメータ更新手段63は、正例NN演算手段61の演算結果(重要度)から負例NN演算手段62の演算結果(重要度)を減じた値が大きくなるように、パラメータを更新する。
パラメータ更新手段63は、更新後のパラメータを映像区間重要度算出モデル記憶手段70に記憶する。
【0057】
このパラメータ更新手段63によるパラメータの更新は、一般的な誤差逆伝播法を用いて行うことできる。
このパラメータ更新手段63は、パラメータ更新後、正例NN演算手段61および負例NN演算手段62に再計算の指示を行う。
そして、パラメータ更新手段63は、予め定めた回数、あるいは、パラメータ更新の変動量が予め定めた閾値を下回った場合、正例NN演算手段61および負例NN演算手段62に、新たな特徴ベクトルによる演算を指示する。
【0058】
これによって、ニューラルネットワーク学習手段60は、映像区間重要度算出モデルにおいて、正例特徴ベクトルVPを入力した場合の出力値が、負例特徴ベクトルVNを入力した場合の出力値に比べて大きくなるように、パラメータを学習することができる。
このように学習された映像区間重要度算出モデルによって、ある区間映像の特徴ベクトルを入力された場合、その出力値によって、その区間映像が要約映像として重要か否かを示す重要度を算出することができる。
映像区間重要度算出モデル記憶手段70は、ニューラルネットワーク学習手段60で学習される映像区間重要度算出モデルのパラメータを記憶するものである。
以上説明したように、映像区間重要度算出モデル学習装置2は、映像の特徴ベクトルから映像が要約映像として重要か否かを示す重要度(スコア)を算出する映像区間重要度算出モデルを学習することができる。
【0059】
以上、本発明の実施形態に係る要約映像生成装置1の構成および動作、ならびに、区間スコアを算出するために使用する映像区間重要度算出モデルの学習手法について説明したが、本発明は、この実施形態に限定されるものではない。
例えば、ここでは、要約映像生成装置1のモーダル別区間スコア算出手段10を3つで構成したが、少なくとも2以上あればよい。また、モーダル別区間スコア算出手段10の映像分割手段11は、前記した特徴で映像を分割するものに限定されず、種々の特徴を用いることができる。例えば、映像分割手段11は、顔認識により検出される登場人物の人数、カメラワークの動き量等の変化によって、映像区間を分割してもよい。
【0060】
また、ここでは、区間スコア算出手段12が、学習済のニューラルネットワークの学習モデル(映像区間重要度算出モデル)を用いて、区間スコアを算出したが、必ずしもニューラルネットワークを用いる必要はない。例えば、特許文献3に記載されている種々のスコア(テロップスコア、顔認識スコア、カメラワークスコア等)を用いてもよい。
【符号の説明】
【0061】
1 要約映像生成装置
10 モーダル別区間スコア算出手段
11 映像分割手段
12 区間スコア算出手段
20 単位区間分割手段
30 単位区間スコア算出手段
40 映像要約手段
41 区間選択手段
42 映像連結手段
2 映像区間重要度算出モデル
50 特徴ベクトル生成手段
60 ニューラルネットワーク学習手段
61 正例NN演算手段
62 負例NN演算手段
63 パラメータ更新手段
70 映像区間重要度算出モデル記憶手段