(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023122672
(43)【公開日】2023-09-05
(54)【発明の名称】要約映像生成装置およびそのプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20230829BHJP
【FI】
G06T7/00 350C
【審査請求】未請求
【請求項の数】4
【出願形態】OL
(21)【出願番号】P 2022026309
(22)【出願日】2022-02-24
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】110001807
【氏名又は名称】弁理士法人磯野国際特許商標事務所
(72)【発明者】
【氏名】望月 貴裕
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096CA02
5L096DA02
5L096EA23
5L096EA35
5L096HA11
5L096JA03
5L096KA04
(57)【要約】
【課題】要約映像として抽出する映像区間を近傍区間や映像全体との関係で学習した、従来よりも高品質な要約映像を生成することが可能な要約映像生成装置を提供する。
【解決手段】要約映像生成装置1は、映像区間ごとに、映像区間を含んだ複数の時間尺について複数のモーダルの特徴ベクトルを算出する特徴ベクトル算出部10と、予め学習されたニューラルネットワークを用いて、映像区間ごとの複数の特徴ベクトルから、当該映像区間の重要度を算出する映像区間重要度算出部20と、要約対象映像から、重要度の高い順に予め定めた合計尺までの映像区間を切り出して時系列に連結し、要約映像を生成する映像要約部40と、を備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
複数の映像区間で構成された要約対象映像から、要約映像を生成する要約映像生成装置であって、
前記映像区間ごとに、当該映像区間を含んだ複数の時間尺についてそれぞれ複数のモーダルの特徴ベクトルを算出する特徴ベクトル算出部と、
予め学習されたニューラルネットワークを用いて、前記特徴ベクトル算出部で算出された前記映像区間ごとの複数の特徴ベクトルから、当該映像区間の重要度を算出する映像区間重要度算出部と、
前記要約対象映像から、前記重要度の高い順に予め定めた合計尺までの映像区間を切り出して時系列に連結し、前記要約映像を生成する映像要約部と、
を備えることを特徴とする要約映像生成装置。
【請求項2】
前記映像区間重要度算出部は、
学習済の第1の1次元畳み込みニューラルネットワークを用いて、前記モーダル別に、前記映像区間に対応する複数の時間尺の特徴ベクトルを予め定めた複数チャンネルのベクトルに変換し、対応する要素ごとに最大値を抽出することで前記複数の時間尺の特徴ベクトルを統合した時間尺統合特徴ベクトルを生成する複数時間尺特徴統合部と、
学習済の第1の多層全結合ニューラルネットワークを用いて、前記モーダル別に、前記時間尺統合特徴ベクトルを予め定めた次元数に変換する第1の多層全結合NN演算部と、
学習済の第2の1次元畳み込みニューラルネットワークを用いて、前記第1の多層全結合NN演算部で予め定めた次元数に変換された前記モーダル別の時間尺統合特徴ベクトルを予め定めた複数チャンネルのベクトルに変換し、対応する要素ごとに最大値を抽出することで前記モーダル別の時間尺統合特徴ベクトルを統合した統合特徴ベクトルを生成する複数モーダル特徴統合部と、
学習済の第2の多層全結合ニューラルネットワークを用いて、前記統合特徴ベクトルから前記重要度を算出する第2の多層全結合NN演算部と、
を備えることを特徴とする請求項1に記載の要約映像生成装置。
【請求項3】
前記特徴ベクトル算出部は、前記映像区間を最小の時間尺、前記要約対象映像の全体を最大の時間尺とし、前記映像区間を含んだ複数の時間尺を設定し、前記複数のモーダルの特徴ベクトルを算出することを特徴とする請求項1または請求項2に記載の要約映像生成装置。
【請求項4】
コンピュータを、請求項1から請求項3のいずれか一項に記載の要約映像生成装置として機能させるための要約映像生成プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像を要約した要約映像を生成する要約映像生成装置およびそのプログラムに関する。
【背景技術】
【0002】
近年、ソーシャルメディアサービスの発達等により、放送番組や自主制作した映像をPRすることを主な目的として、要約映像をネットワーク上で配信するケースが増えている。しかし、要約映像の編集作業は大きな労力を要するため、自動で要約映像を生成する技術が求められている。
【0003】
従来、要約映像を自動的に生成する手法として、例えば、特許文献1~4にその手法が提案されている。
特許文献1に記載の手法は、映像を分割した分割映像のキーフレームの画像特徴に基づいて、映像から重要度の高い映像区間を抽出して要約映像を生成する。
特許文献2に記載の手法は、映像区間をノードとし、ノード間の映像特徴の類似度をエッジとするグラフを解析し、映像から重要度の高い映像区間の映像を抽出して要約映像を生成する。
【0004】
特許文献3に記載の手法は、映像を複数のカット映像に分割し、複数の要素に関するスコアを算出する。そして、この手法は、ユーザが設定した各要素の重み配分に基づいてカット映像の総合スコアを算出し、総合スコアの高いカット映像を抽出して要約映像を生成する。
特許文献4に記載の手法は、要約映像に使用された映像区間の特徴ベクトルにスコアを高く、使用されなかった映像区間の特徴ベクトルにスコアを低くし、かつ、複数の要素の重み配分が最適になるように学習したニューラルネットワークを用いて、映像区間のスコアを算出する。そして、この手法は、スコアの高い映像区間を抽出して要約映像を生成する。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特許第5537285号公報
【特許文献2】特許第5898117号公報
【特許文献3】特許第6917788号公報
【特許文献4】特開2021-189967号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
人手によって映像から要約映像を生成する場合、映像内のある映像区間の重要性を判断する際に、作業者は、その区間だけではなく近傍区間や映像全体の内容を考慮するのが一般的である。
しかし、従来の手法は、個々の映像区間の特徴のみから重要度を算出している。そのため、従来の手法は、要約映像として抽出する映像区間と、近傍区間や映像全体の内容との関係が考慮されておらず、近傍区間や映像全体との関係で重要度の高い映像を抽出することができない場合がある。
そこで、要約映像の生成に際し、人が要約映像を生成するような、より自然な要約映像の生成手法が望まれていた。
【0007】
本発明は、このような要望に鑑みてなされたもので、要約映像として抽出する映像区間を近傍区間や映像全体との関係で学習した、従来よりも高品質な要約映像を生成することが可能な要約映像生成装置およびそのプログラムを提供することを課題とする。
【課題を解決するための手段】
【0008】
前記課題を解決するため、本発明に係る要約映像生成装置は、複数の映像区間で構成された要約対象映像から、要約映像を生成する要約映像生成装置であって、特徴ベクトル算出部と、映像区間重要度算出部と、映像要約部と、を備える構成とした。
【0009】
かかる構成において、要約映像生成装置は、特徴ベクトル算出部によって、映像区間ごとに、当該映像区間を含んだ複数の時間尺についてそれぞれ複数のモーダル(種類)の特徴ベクトルを算出する。
そして、要約映像生成装置は、映像区間重要度算出部によって、予め学習されたニューラルネットワークを用いて、特徴ベクトル算出部で算出された映像区間ごとの複数の特徴ベクトルから、当該映像区間の重要度を算出する。
そして、要約映像生成装置は、映像要約部によって、要約対象映像から、重要度の高い順に予め定めた合計尺までの映像区間を切り出して時系列に連結し、要約映像を生成する。
これによって、要約映像生成装置は、映像区間の重要度を、前後の映像の特徴と合わせて算出して、要約映像を生成することができる。
なお、要約映像生成装置は、コンピュータを、前記した各部として機能させるための要約映像生成プログラムで動作させることができる。
【発明の効果】
【0010】
本発明によれば、映像区間の重要度を当該映像区間だけでなく、前後に連続する映像区間の特徴と合わせて算出することができる。
これによって、本発明は、映像の内容を考慮した高品質な要約映像を生成することができる。
【図面の簡単な説明】
【0011】
【
図1】本発明の実施形態に係る要約映像生成装置の全体構成を示すブロック構成図である。
【
図2】
図1の特徴ベクトル算出部の内部構成を示すブロック構成図である。
【
図3】
図2の複数時間尺設定部における複数の時間尺を設定する処理の一例を説明するための説明図である。
【
図4】
図1の映像区間重要度算出部の内部構成を示すブロック構成図である。
【
図5】
図4の複数時間尺特徴統合部の内部構成を示すブロック構成図である。
【
図6】
図4の複数モーダル特徴統合部の内部構成を示すブロック構成図である。
【
図7】
図1の映像要約部の内部構成を示すブロック構成図である。
【
図8】本発明の実施形態に係る要約映像生成装置の動作を示すフローチャートである。
【
図9】映像区間重要度算出モデルを学習する映像区間重要度算出モデル学習装置の構成を示すブロック構成図である。
【
図10】
図9の映像区間重要度算出モデル学習装置の動作を示すフローチャートである。
【発明を実施するための形態】
【0012】
<要約映像生成装置の構成>
最初に、
図1を参照して、本発明の実施形態に係る要約映像生成装置の構成について説明する。
【0013】
要約映像生成装置1は、複数の映像区間で構成された要約対象映像から、要約映像を生成するものである。なお、要約対象映像は音声を含んでいてもよい。
ここでは、要約映像生成装置1は、要約映像を生成する対象となる要約対象映像Vと、要約対象映像Vを予め区分した複数の映像区間k(k=1,2,…,K;Kは要約対象映像Vに設定した映像区間の数)のIN点(開始点)/OUT点(終了点)を入力する。そして、要約映像生成装置1は、要約対象映像Vから重要度の高い映像区間を抽出して要約映像SVを出力する。
【0014】
なお、映像区間は、要約対象映像Vの画像特徴となるカメラの切り替わりや編集点であるカット点ごとに映像を分割した区間とすることができる。また、映像区間のIN点/OUT点は、区間を特定できれば、例えば、開始時刻と時間長であっても構わない。
図1に示すように、要約映像生成装置1は、特徴ベクトル算出部10と、映像区間重要度算出部20と、パラメータ記憶部30と、映像要約部40と、を備える。
【0015】
特徴ベクトル算出部10は、要約対象映像Vの映像区間ごとに、当該映像区間を含んだ複数の時間尺についてそれぞれ複数のモーダルの特徴ベクトルを算出し、時間尺およびモーダル別の複数の特徴ベクトルを算出するものである。
ここで、モーダルとは、特徴の種類であって、例えば、被写体の種類に関する特徴、顔領域に関する特徴、カメラの動き情報に関する特徴、発話内容による特徴、声の高さや大きさに関する特徴等である。
【0016】
ここで、
図2を参照して、特徴ベクトル算出部10の内部構成について説明する。
図2に示すように、特徴ベクトル算出部10は、複数時間尺設定部11と、複数のモーダル別特徴ベクトル算出部12(12
1,12
2,…,12
NM[NM〔=N
M〕はモーダル数])と、を備える。
【0017】
複数時間尺設定部11は、映像区間kごとに、映像区間kを含んだ複数の時間尺を設定するものである。
複数時間尺設定部11は、入力された映像区間kのIN点/OUT点で特定される映像区間kを最小の時間尺T1、要約対象映像Vの全体を最大の時間尺TNT[NT(=NT)は設定する時間尺の数]とし、映像区間kを含んだ複数の時間尺T1,…,TNTを設定する。
【0018】
ここで、
図3を参照して、複数時間尺設定部11の時間尺の設定例について説明する。
ここでは、複数の時間尺を設定する対象となる映像区間を映像区間kとし、その時間尺をT
K、要約対象映像Vの全体時間尺をT
Wとする。
複数時間尺設定部11は、時間尺T
1(1番目の時間尺)を、映像区間kの時間尺T
Kとして設定する。
複数時間尺設定部11は、時間尺T
NT(N
T番目の時間尺)を、要約対象映像Vの全体の時間尺T
Wとして設定する。
【0019】
そして、複数時間尺設定部11は、時間尺T1<時間尺T2<時間尺T3<…<時間尺TNTとなるように、時間尺T2,時間尺T3,…,を設定する。
ここでは、T2=TK+(TW-TK)/(NT-1)、T3=TK+2(TW-TK)/(NT-1)とする。
【0020】
時間尺T
2,T
3,…,T
NTは、基本的に時間尺T
1(映像区間k)を中心に、時間方向の前後に等間隔に拡張した区間とする。ただし、時間尺の開始点が要約対象映像Vの開始点よりも前になる場合、複数時間尺設定部11は、例えば、要約対象映像Vの開始点から後方に時間尺を設定する。同様に、時間尺の終了点が要約対象映像Vの終了点よりも後になる場合、複数時間尺設定部11は、例えば、要約対象映像Vの終了点から前方に時間尺を設定する。
これによって、複数時間尺設定部11は、映像区間kに対して、映像区間kを含んだ複数の時間尺を設定することができる。
図2に戻って、特徴ベクトル算出部10の内部構成について説明を続ける。
【0021】
モーダル別特徴ベクトル算出部12は、モーダル別に、複数時間尺設定部11で設定された映像区間ごとの複数の時間尺の特徴ベクトルを算出するものである。
モーダル別特徴ベクトル算出部121,122,…,12NMは、複数の時間尺T1,…,TNTの映像について、それぞれ異なるモーダル特徴を算出する。
【0022】
例えば、モーダル別特徴ベクトル算出部121は、VGG(Visual Geometry Group)19等の一般的な物体認識ネットワークを用いて、映像内に映る被写体の種類に関する特徴ベクトルを算出するものとすることができる。
また、例えば、モーダル別特徴ベクトル算出部122は、映像に映る顔領域に関する特徴ベクトルを算出するものとすることができる。
また、例えば、モーダル別特徴ベクトル算出部12NMは、映像内のカメラの動き情報を特徴ベクトルとして算出するものとすることができる。
【0023】
もちろん、モーダル別特徴ベクトル算出部12は、映像に対応する音声を認識した発話内容(テキスト)から特徴ベクトルを算出するものであってもよいし、映像に対応する音声の高さ、大きさを特徴ベクトルとして算出するものであってもよい。
なお、モーダル別特徴ベクトル算出部121,122,…,12NMが算出する特徴ベクトルの要素数は、モーダル特徴によって異なる場合がある。
【0024】
モーダル別特徴ベクトル算出部121は、映像区間kの映像に対して、1番目のモーダル特徴として時間尺の数NT分の特徴ベクトルvs[k,1,1],vs[k,1,2],…,vs[k,1,NT]を算出する。
モーダル別特徴ベクトル算出部122は、映像区間kの映像に対して、2番目のモーダル特徴として時間尺の数NT分の特徴ベクトルvs[k,2,1],vs[k,2,2],…,vs[k,2,NT]を算出する。
同様に、モーダル別特徴ベクトル算出部12NMは、映像区間kの映像に対して、NM番目のモーダル特徴として時間尺の数NT分の特徴ベクトルvs[k,NM,1],vs[k,NM,2],…,vs[k,NM,NT]を算出する。
【0025】
特徴ベクトル算出部10は、モーダル別特徴ベクトル算出部12
1,12
2,…,12
NMで算出された特徴ベクトルv
s[k,m,n](m=1,…,N
M、n=1,…,N
T)の集合を、映像区間kに対する特徴ベクトルセットV
SET[k]として、映像区間重要度算出部20に出力する。
図1に戻って、要約映像生成装置1の構成について説明を続ける。
【0026】
映像区間重要度算出部20は、予め学習されたニューラルネットワークを用いて、映像区間ごとの複数の特徴ベクトル(特徴ベクトルセット)から、当該映像区間の重要度を算出するものである。
映像区間重要度算出部20は、特徴ベクトル算出部10で算出された特徴ベクトルセットVSET[k](k=1,2,…,K;Kは要約対象映像Vに設定した映像区間の数)について、パラメータ記憶部30に記憶されている学習済のニューラルネットワークの内部パラメータを用いて、映像区間ごとに複数時間尺の特徴ベクトルを統合し、さらに複数のモーダル間で特徴ベクトルの統合することで、映像区間の重要度を算出する。
【0027】
ここで、
図4を参照して、映像区間重要度算出部20の内部構成について説明する。
図4に示すように、映像区間重要度算出部20は、複数の複数時間尺特徴統合部21(21
1,21
2,…,21
NM[NM〔=N
M〕はモーダル数])と、複数の多層全結合NN演算部22(22
1,22
2,…,22
NM)と、複数モーダル特徴統合部23と、多層全結合NN演算部24と、を備える。
【0028】
複数時間尺特徴統合部21は、学習済の1次元畳み込みニューラルネットワーク(1DCNN)を用いて、モーダル別に、映像区間に対応する複数の時間尺の特徴ベクトルを予め定めた複数チャンネルのベクトルに変換し、対応する要素ごとに最大値を抽出することで複数の時間尺の特徴ベクトルを統合した時間尺統合特徴ベクトルを生成するものである。
例えば、複数時間尺特徴統合部211は、特徴ベクトルセットVSET[k]のうちで、1番目のモーダル特徴である特徴ベクトルvs[k,1,1],vs[k,1,2],…,vs[k,1,NT]を統合して、時間尺統合特徴ベクトルv′[k,1]を生成する。
同様に、複数時間尺特徴統合部212は、特徴ベクトルセットVSET[k]のうちで、2番目のモーダル特徴である特徴ベクトルvs[k,2,1],vs[k,2,2],…,vs[k,2,NT]を統合して、時間尺統合特徴ベクトルv′[k,2]を生成する。
また、複数時間尺特徴統合部21NMは、特徴ベクトルセットVSET[k]のうちで、NM番目のモーダル特徴である特徴ベクトルvs[k,NM,1],vs[k,NM,2],…,vs[k,NM,NT]を統合して、時間尺統合特徴ベクトルv′[k,NM]を生成する。
【0029】
ここで、さらに、
図5を参照して、複数時間尺特徴統合部21の内部構成について説明する。
図5に示すように、複数時間尺特徴統合部21は、1次元CNN演算部210と、要素別最大値抽出部211と、を備える。
【0030】
1次元CNN演算部210は、モーダルごとの複数の特徴ベクトルに対して、パラメータ記憶部30(
図1)に記憶されている学習済の第1の1次元畳み込みニューラルネットワーク(1DCNN)のパラメータを用いて、1DCNNの演算を行うものである。
1次元CNN演算部210は、m番目のモーダル特徴であるD[m]次元の特徴ベクトルv
s[k,m,1],v
s[k,m,2],…,v
s[k,m,N
T]を入力する。なお、D[m]次元は、m番目のモーダル特徴の次元数(特徴ベクトルの要素数)である。
【0031】
1次元CNN演算部210は、入力ベクトル長をD[m]、入力チャンネル数をNT、フィルタサイスを1、出力チャンネル数をCTとして、vs[k,m,1],vs[k,m,2],…,vs[k,m,NT]に対して、1DCNNの演算を行う。
なお、出力チャンネル数CTは、16,32等、2以上の予め定めた数である。このように、出力チャンネルを複数にすることで、要素に異なる重みを乗じた複数のベクトルが生成されることになる。
ここでは、1次元CNN演算部210は、1DCNNにより、D[m]次元のCT個のベクトルvs′[k,m,1],vs′[k,m,2],…,vs′[k,m,CT]を生成し、要素別最大値抽出部211に出力する。
【0032】
要素別最大値抽出部211は、1次元CNN演算部210で生成された複数(C
T個)のベクトルから要素ごとに最大値を抽出するものである。
要素別最大値抽出部211は、D[m]次元のC
T個のベクトルv
s′[k,m,1],v
s′[k,m,2],…,v
s′[k,m,C
T]について、要素ごとの最大値を抽出することで、1チャンネル分のD[m]次元の時間尺統合特徴ベクトルv′[k,m]を生成する。このように生成された時間尺統合特徴ベクトルv′[k,m]は、要素ごとの重要性が反映された特徴ベクトルとなる。
要素別最大値抽出部211は、生成した時間尺統合特徴ベクトルを、多層全結合NN演算部22に出力する。
図4に戻って、映像区間重要度算出部20の内部構成について説明を続ける。
【0033】
多層全結合NN演算部(第1の多層全結合NN演算部)22は、複数時間尺特徴統合部21で統合された映像区間kに対する時間尺統合特徴ベクトルv′[k,m]に対して、パラメータ記憶部30(
図1)に記憶されている学習済の第1の多層全結合ニューラルネットワーク(多層全結合NN)のパラメータを用いて、多層全結合NNの演算を行い、予め定めた次元数に変換するものである。
【0034】
多層全結合NNは、入力層と複数の中間層と出力層とで構成され、各層のノードが層間で全結像したネットワークである。なお、中間層の数、ノード数は任意の数とすることができるが、後記する学習処理の時間等を考慮し、中間層の数は2~3、各中間層のノード数は500から1000程度に留めるのが望ましい。
多層全結合NN演算部22における多層全結合NNは、入力ノード数をD[m](時間尺統合特徴ベクトルv′[k,m]の次元数)、出力ノード数を予め定めた数(D)とする。
【0035】
多層全結合NN演算部22は、複数時間尺特徴統合部211,212,…,21NMに対応して、モーダルごとに、多層全結合NN演算部221,222,…,22NMで構成される。
多層全結合NN演算部221は、複数時間尺特徴統合部211で生成された時間尺統合特徴ベクトルv′[k,1]を、D次元の時間尺統合特徴ベクトルv[k,1]に変換する。
同様に、多層全結合NN演算部222は、複数時間尺特徴統合部212で生成された時間尺統合特徴ベクトルv′[k,2]を、D次元の時間尺統合特徴ベクトルv[k,2]に変換する。
また、多層全結合NN演算部22NMは、複数時間尺特徴統合部21NMで生成された時間尺統合特徴ベクトルv′[k,NM]を、D次元の時間尺統合特徴ベクトルv[k,NM]に変換する。
【0036】
これによって、多層全結合NN演算部221,222,…,22NMは、時間尺統合特徴ベクトルの次元数をすべてD次元に変換することができる。
多層全結合NN演算部221,222,…,22NMは、それぞれ、変換後のD次元の時間尺統合特徴ベクトルを、複数モーダル特徴統合部23に出力する。
【0037】
複数モーダル特徴統合部23は、学習済の1次元畳み込みニューラルネットワーク(1DCNN)を用いて、モーダル別の時間尺統合特徴ベクトルを予め定めた複数チャンネルのベクトルに変換し、対応する要素ごとに最大値を抽出することでモーダル別の時間尺統合特徴ベクトルを統合した統合特徴ベクトルを生成するものである。
複数モーダル特徴統合部23は、多層全結合NN演算部221,222,…,22NMから、それぞれ、映像区間kにおける、D次元の時間尺統合特徴ベクトルv[k,1],v[k,2],…,v[k,NM]を入力し、時間尺およびモーダルごとの特徴を統合した統合特徴ベクトルV[k]を生成する。
【0038】
ここで、さらに、
図6を参照して、複数モーダル特徴統合部23の内部構成について説明する。
図6に示すように、複数モーダル特徴統合部23は、1次元CNN演算部230と、要素別最大値抽出部231と、を備える。
【0039】
1次元CNN演算部230は、モーダルごとの複数の時間尺統合特徴ベクトルに対して、パラメータ記憶部30(
図1)に記憶されている学習済の第2の1次元畳み込みニューラルネットワーク(1DCNN)ののパラメータを用いて、1DCNNの演算を行うものである。
1次元CNN演算部230は、モーダルごとのD次元の時間尺統合特徴ベクトルv[k,1],v[k,2],…,v[k,N
M]を入力する。
1次元CNN演算部230は、入力ベクトル長をD、入力チャンネル数をN
M、フィルタサイスを1、出力チャンネル数をC
Mとして、v[k,1],v[k,2],…,v[k,N
M]に対して、1DCNNの演算を行う。
なお、出力チャンネル数C
Mは、16,32等、2以上の予め定めた数である。このように、出力チャンネルを複数にすることで、要素に異なる重みを乗じた複数のベクトルが生成されることになる。
ここでは、1次元CNN演算部230は、1DCNNにより、D次元のC
M個のベクトルv′[k,1],v′[k,2],…,v′[k,C
M]を生成し、要素別最大値抽出部231に出力する。
【0040】
要素別最大値抽出部231は、1次元CNN演算部230で生成された複数(C
M個)のベクトルから要素ごとに最大値を抽出するものである。
要素別最大値抽出部231は、D次元のC
M個のベクトルv
s′[k,1],v
s′[k,2],…,v
s′[k,C
M]について、要素ごとの最大値を抽出することで、1チャンネル分のD次元の統合特徴ベクトルV[k]を生成する。このように生成された統合特徴ベクトルV[k]は、要素ごとの重要性が反映された特徴ベクトルとなる。
要素別最大値抽出部231は、生成した統合特徴ベクトルを、多層全結合NN演算部24に出力する。
図4に戻って、映像区間重要度算出部20の内部構成について説明を続ける。
【0041】
多層全結合NN演算部(第2の多層全結合NN演算部)24は、複数モーダル特徴統合部23で統合された映像区間kに対する統合特徴ベクトルV[k]に対して、パラメータ記憶部30(
図1)に記憶されている学習済の第2の多層全結合ニューラルネットワーク(多層全結合NN)のパラメータを用いて、多層全結合NNの演算を行うものである。
【0042】
多層全結合NNは、入力層と複数の中間層と出力層とで構成され、各層のノードが層間で全結像したネットワークである。なお、中間層の数、ノード数は任意の数とすることができるが、後記する学習処理の時間等を考慮し、中間層の数は2~3、各中間層のノード数は500から1000程度に留めるのが望ましい。
多層全結合NN演算部24における多層全結合NNは、入力ノード数をD(統合特徴ベクトルV[k]の次元数)、出力ノード数を1とする。
多層全結合NN演算部24は、多層全結合NNを演算した出力ノードの値を映像区間kの重要度S[k]として、映像要約部40に出力する。
図1に戻って、要約映像生成装置1の構成について説明を続ける。
【0043】
パラメータ記憶部30は、映像区間重要度算出部20で使用する1次元畳み込みニューラルネットワーク(1DCNN)、多層全結合ニューラルネットワーク(多層全結合NN)の予め学習した内部パラメータを記憶するものである。
パラメータ記憶部30は、半導体メモリ等の一般的な記憶媒体で構成することができる。
パラメータ記憶部30に記憶する内部パラメータの学習については、
図9,
図10を参照して後で説明する。
【0044】
映像要約部40は、要約対象映像から、映像区間重要度算出部20で算出された重要度の高い順に予め定めた合計尺までの映像区間を切り出して時系列に連結し、要約映像を生成するものである。
【0045】
ここで、
図7を参照して、映像要約部40の内部構成について説明する。
図7に示すように、映像要約部40は、重要区間ソート部41と、映像切出部42と、映像連結部43と、を備える。
【0046】
重要区間ソート部41は、映像区間重要度算出部20で算出された映像区間kの重要度S[k]に基づいて、映像区間の識別番号k(k=1,2,…,K)を降順にソートするものである。ここでは、重要区間ソート部41は、映像区間の識別番号k(k=1,2,…,K)を、重要度の高い方から順に、k1,k2,…,kKと並び変える。
重要区間ソート部41は、ソートした映像区間の識別番号k1,k2,…,kKを映像切出部311に出力する。
【0047】
映像切出部42は、重要区間ソート部41でソートされた映像区間の識別番号に基づいて、合計尺が予め定めた閾値を超過するまで、要約対象映像Vから重要度の高い映像区間の映像を切り出すものである。
映像切出部42は、重要度の高い映像区間k1,k2,…に対応する映像V[k1],V[k2],…を要約対象映像Vから切り出し、映像連結部43に出力する。
【0048】
映像連結部43は、映像切出部42で切り出された映像を、時系列に並べ替えて連結するものである。
映像連結部43は、連結した映像を要約映像SVとして出力する。
【0049】
以上説明したように、要約映像生成装置1は、映像区間に対応する複数の時間尺の特徴と、複数のモーダル特徴によって映像区間の重要度を特定することができる。
これによって、要約映像生成装置1は、映像区間と近傍区間や映像全体との関係で、要約対象映像から映像区間の映像を抽出することができ、人手による要約映像の生成処理に類似した処理を実現することができる。
なお、要約映像生成装置1は、図示を省略したコンピュータを、前記した各部として機能させるための要約映像生成プログラムで動作させることができる。
【0050】
<要約映像生成装置の動作>
次に、
図8を参照(構成については、適宜
図1,
図2,
図4~
図7を参照)して、本発明の実施形態に係る要約映像生成装置の動作について説明する。
【0051】
ステップS1において、複数時間尺設定部11は、要約対象映像Vの映像区間ごとに、映像区間を含んだ複数の時間尺を設定する(
図3参照)。
以下、ここでは、ステップS2からS5までは、モーダル別に並列して動作することとするが、モーダルごとに順番に動作することとしてもよい。
【0052】
ステップS2において、モーダル別特徴ベクトル算出部12は、映像区間ごとに、ステップS1で設定された複数の時間尺の映像の特徴ベクトルを算出する。なお、ステップS2
1,S2
2,…,S2
NM[NM〔=N
M〕はモーダル数]は、モーダルが異なるだけである。以下、ステップS3~S5においても同様である。
これによって、映像区間kごとに、時間尺およびモーダルごとの特徴ベクトルセットV
SET[k](
図2参照)が算出される。
【0053】
ステップS3において、複数時間尺特徴統合部21は、1次元CNN演算部210によって、ステップS2で算出された特徴ベクトルセットのうちで、モーダルに対応する複数の時間尺の特徴ベクトルに対して、学習済のパラメータを用いて、1次元畳み込みニューラルネットワーク(1DCNN)の演算を行うことで、出力チャンネル数C
Tに応じたベクトルを生成する(
図5参照)。
これによって、要素に異なる重みを乗じたC
T個のベクトルが生成される。
【0054】
ステップS4において、複数時間尺特徴統合部21は、要素別最大値抽出部211によって、ステップS3で生成された複数(CT個)のベクトルから要素ごとに最大値を抽出する。
これによって、モーダル特徴として、複数の時間尺の特徴ベクトルが統合され、さらに、要素ごとに重要度が反映された時間尺統合特徴ベクトルが生成される。
【0055】
ステップS5において、多層全結合NN演算部22は、ステップS4で生成された時間尺統合特徴ベクトルに対して、学習済のパラメータを用いて、多層全結合ニューラルネットワーク(多層全結合NN)の演算を行うことで、モーダルごとに次元数が異なる時間尺統合特徴ベクトルを同じ次元数Dのベクトルに変換する。
【0056】
ステップS6において、複数モーダル特徴統合部23は、ステップS5で生成されたモーダルごとの時間尺統合特徴ベクトルを統合して統合特徴ベクトルを生成する。
なお、このステップS6は、図示を省略するが、ステップS3,S4と同様の処理を行う。すなわち、複数モーダル特徴統合部23は、1次元CNN演算部230によって、ステップS5で生成されたモーダルごとの時間尺統合特徴ベクトルに対して、学習済のパラメータを用いて、1次元畳み込みニューラルネットワーク(1DCNN)の演算を行うことで、出力チャンネル数C
Mに応じたベクトルを生成する(
図6参照)。
これによって、要素に異なる重みを乗じたC
M個のベクトルが生成される。
そして、複数モーダル特徴統合部23は、要素別最大値抽出部231によって、複数(C
M個)のベクトルから要素ごとに最大値を抽出することで、映像区間kに対応した統合特徴ベクトルV[k]を生成する。
【0057】
ステップS7において、多層全結合NN演算部24は、ステップS6で生成された統合特徴ベクトルに対して、学習済のパラメータを用いて、多層全結合ニューラルネットワーク(多層全結合NN)の演算を行うことで、映像区間kに対応した重要度S[k]を算出する。
【0058】
ステップS8において、重要区間ソート部41は、ステップS7で算出された映像区間kの重要度S[k]に基づいて、映像区間の識別番号k(k=1,2,…,K)を重要度の降順にソートする。ここでは、重要度の高い方から順に、識別番号k1,k2,…,kKとする。
ステップS9において、映像切出部42は、変数iを初期化(i=1)する。
ステップS10において、映像切出部42は、要約対象映像Vから映像区間kiの映像V[ki]を切り出す。
【0059】
ステップS11において、映像切出部42は、ステップS10で順次切り出した映像区間の合計尺が、予め定めた閾値Lを超えたか否かを判定する。
ここで、合計尺が閾値L未満の場合(ステップS11でYes)、映像切出部42は、ステップS12において、変数iに1を加算して、ステップS10に戻る。
一方、合計尺が閾値L以上の場合(ステップS11でNo)、映像切出部42は映像の切り出しを終了し、ステップS13に動作を進める。
【0060】
ステップS13において、映像連結部43は、ステップS10で切り出された映像を、時系列に並べ替えて連結することで、要約映像SVを生成する。
以上の動作によって、要約映像生成装置1は、人手による要約映像の類似した処理により、要約映像を生成することができる。
【0061】
<映像区間重要度算出モデル学習装置の構成>
次に、
図9を参照して、映像区間重要度算出モデル学習装置の構成について説明する。
映像区間重要度算出モデル学習装置2は、要約映像生成装置1(
図1参照)のパラメータ記憶部30に記憶するニューラルネットワーク(1DCNN,多層全結合NN)の内部パラメータを学習するものである。
【0062】
映像区間重要度算出モデル学習装置2は、学習データとして、要約映像に使用された映像区間を含む映像VPosと、要約映像に使用されなかった映像区間を含む映像VNegと、を複数用いる。
映像VPosには、要約映像に使用されたNPos個の映像区間(以下、正例区間という)が含まれている。また、映像VNegには、要約映像に使用されなかったNNeg個の映像区間(以下、負例区間という)が含まれている。
【0063】
これらの学習データは、例えば、自作映像(要約対象映像)から要約映像を生成した際に使用した映像区間を正例区間、それ以外の映像区間を負例区間とすることができる。
この要約対象映像および要約映像は、放送から取得した番組映像と、ネットワークで配信される当該番組映像の要約映像としてもよい。その場合、要約映像のフレーム画像の類似性に基づいて、要約映像に使用した映像区間を、番組映像の映像区間と対応させることが可能である。なお、正例区間および負例区間は、要約映像生成装置1に入力される映像と同様、カット点等に区分された映像区間とする。
【0064】
図9に示すように、映像区間重要度算出モデル学習装置2は、特徴ベクトル算出部50と、特徴ベクトルセット記憶部60と、パラメータ記憶部70と、映像区間重要度算出部80と、パラメータ更新部90と、を備える。
【0065】
特徴ベクトル算出部50は、映像(V
Pos,V
Neg)の映像区間(正例区間,負例区間)ごとに、当該映像区間を含んだ複数の時間尺ついてそれぞれ複数のモーダルの特徴ベクトルを算出し、時間尺およびモーダル別の複数の特徴ベクトルを算出するものである。
この特徴ベクトル算出部50は、要約映像生成装置1の特徴ベクトル算出部10(
図1,
図2参照)と同じ構成とする。
【0066】
特徴ベクトル算出部50は、映像VPosと、正例区間p(p=1,2,…,NPos;NPosは正例区間の数)のIN点/OUT点とを入力し、正例区間pごとの特徴ベクトルセットVSET[p]を算出する。
また、特徴ベクトル算出部50は、映像VNegと、負例区間q(q=1,2,…,NNeg;NNegは負例区間の数)のIN点/OUT点とを入力し、負例区間qごとの特徴ベクトルセットVSET[q]を算出する。
特徴ベクトル算出部50は、学習データから生成した正例区間の特徴ベクトルセットと、負例区間の特徴ベクトルセットとを特徴ベクトルセット記憶部60に記憶する。
【0067】
特徴ベクトルセット記憶部60は、特徴ベクトル算出部50で算出された複数の正例区間の特徴ベクトルセットと負例区間の特徴ベクトルセットとを記憶するものである。
特徴ベクトルセット記憶部60は、半導体メモリ等の一般的な記憶媒体で構成することができる。
【0068】
パラメータ記憶部70は、学習対象である1DCNNおよび多層全結合NNの内部パラメータを記憶するものである。
パラメータ記憶部70は、半導体メモリ等の一般的な記憶媒体で構成することができる。
【0069】
映像区間重要度算出部80は、特徴ベクトル算出部50で算出され、特徴ベクトルセット記憶部60に記憶されている特徴ベクトルセットから、映像区間の重要度を算出するものである。
この映像区間重要度算出部80は、要約映像生成装置1の映像区間重要度算出部20(
図1,
図4参照)と同じ構成とする。
映像区間重要度算出部80は、特徴ベクトルセット記憶部60に記憶されているN
Pos個の正例区間の特徴ベクトルセットから、ランダムにP個の特徴ベクトルセットV
SET[p
1],…,V
SET[p
P]を選択し、パラメータ記憶部70に記憶されている内部パラメータを用いて、重要度S[p
1],…,S[p
P]を算出する。
【0070】
また、映像区間重要度算出部80は、特徴ベクトルセット記憶部60に記憶されているNNeg個の負例区間の特徴ベクトルセットから、ランダムにQ個の特徴ベクトルセットVSET[q1],…,VSET[qQ]を選択し、パラメータ記憶部70に記憶されている内部パラメータを用いて、重要度S[q1],…,S[qQ]を算出する。
映像区間重要度算出部80は、算出した正例区間の重要度と、負例区間の重要度とを、パラメータ更新部90に出力する。
なお、映像区間重要度算出部80は、パラメータ更新部90から、重要度の算出を指示されるたびに、特徴ベクトルセットをランダムに選択して重要度を算出する処理を繰り返す。
【0071】
パラメータ更新部90は、映像区間重要度算出部80で算出された正例区間の重要度と、負例区間の重要度とに基づいて、パラメータ記憶部70に記憶されている内部パラメータを更新するものである。
なお、パラメータ更新部90は、起動時に1回だけ、パラメータ記憶部70に記憶される内部パラメータを乱数で初期化する。
【0072】
パラメータ更新部90は、以下の式(1)に示すように、正例区間の重要度S[p1],…,S[pP]の平均から、負例区間の重要度[q1],…,S[qQ]の平均を減じた差分値dが、前回の繰り返し処理で演算した差分値dよりも大きくなるように、パラメータ記憶部70に記憶されている内部パラメータを更新する。
【0073】
【0074】
パラメータ更新部90は、更新回数が予め定めた回数未満の場合、かつ、差分値dが予め定めた閾値未満の場合、映像区間重要度算出部80に対して、新たな特徴ベクトルセットによる重要度の算出を指示する。
一方、パラメータ更新部90は、更新回数が予め定めた回数となった場合、または、差分値dが予め定めた閾値以上となった場合、内部パラメータの更新処理を終了する。
これによって、正例区間に対しては重要度が高く、負例区間に対しては重要度が低くなるように内部パラメータが学習されることになる。
【0075】
以上の構成によって、映像区間重要度算出モデル学習装置2は、要約映像生成装置1で用いるニューラルネットワーク(1DCNN,多層全結合NN)の内部パラメータを学習することができる。
なお、映像区間重要度算出モデル学習装置2は、図示を省略したコンピュータを、前記した各部として機能させるための映像区間重要度算出モデル学習プログラムで動作させることができる。
【0076】
<映像区間重要度算出モデル学習装置の動作>
次に、
図10を参照(構成については適宜
図9を参照)して、映像区間重要度算出モデル学習装置の動作について説明する。
【0077】
ステップS20において、特徴ベクトル算出部50は、要約映像に使用された映像区間(正例区間)を含む映像V
Posを入力し、映像(V
Pos)の正例区間ごとに、正例区間を含んだ複数の時間尺の映像から、複数のモーダルについての特徴ベクトル(特徴ベクトルセット)を算出し、特徴ベクトルセット記憶部60に記憶する。
ステップS21において、特徴ベクトル算出部50は、要約映像に使用されなかった映像区間(負例区間)を含む映像V
Negを入力し、映像(V
Neg)の負例区間ごとに、負例区間を含んだ複数の時間尺の映像から、複数のモーダルについての特徴ベクトル(特徴ベクトルセット)を算出し、特徴ベクトルセット記憶部60に記憶する。
このステップS20,S21は、
図10に示すように並列に処理してもよい。
【0078】
ステップS22において、パラメータ更新部90は、パラメータ記憶部70に記憶される内部パラメータを乱数で初期化する。
ステップS23において、パラメータ更新部90は、変数nTRを初期化(nTR=0)する。
【0079】
ステップS24において、映像区間重要度算出部80は、ステップS20で算出された正例区間の特徴ベクトルセットから、ランダムにP個の特徴ベクトルセットVSET[p1],…,VSET[pP]選択する。
ステップS25において、映像区間重要度算出部80は、ステップS24で選択した正例区間の特徴ベクトルセットから、パラメータ記憶部70に記憶されている内部パラメータを用いて、重要度S[p1],…,S[pP]を算出する。
【0080】
ステップS26において、映像区間重要度算出部80は、ステップS21で算出された負例区間の特徴ベクトルセットから、ランダムにQ個の特徴ベクトルセットV
SET[q
1],…,V
SET[q
Q]選択する。
ステップS27において、映像区間重要度算出部80は、ステップS26で選択した負例区間の特徴ベクトルセットから、パラメータ記憶部70に記憶されている内部パラメータを用いて、重要度S[q
1],…,S[q
Q]を算出する。
なお、ステップS24,S25と、ステップS26,S27とは、
図10に示すように並列に処理してもよい。
【0081】
ステップS28において、パラメータ更新部90は、正例区間の重要度S[p1],…,S[pP]の平均から、負例区間の重要度[q1],…,S[qQ]の平均を減じた差分値dが、前回よりも大きくなるように、パラメータ記憶部70に記憶されている内部パラメータを更新する。
【0082】
ステップS29において、パラメータ更新部90は、変数nTRが予め定めた回数未満(nTR<NTR)、かつ、差分値dが予め定めた閾値未満(d<DTH)であるいか否かを判定する。
ここで、nTR<NTRかつd<DTHの場合(ステップS29でYes)、ステップS30において、パラメータ更新部90は、変数nTRに1を加算して、ステップS24に戻る。一方、nTR≧NTRまたはd≧DTHの場合(ステップS29でNo)、パラメータ更新部90はパラメータの更新を行わず、映像区間重要度算出モデル学習装置2は、動作を終了する。
【0083】
これによって、映像区間重要度算出モデル学習装置2は、要約映像生成装置1で用いるニューラルネットワーク(1DCNN,多層全結合NN)のモデルのパラメータを学習することができる。
【符号の説明】
【0084】
1 要約映像生成装置
10 特徴ベクトル算出部
11 複数時間尺設定部
12 モーダル別特徴ベクトル算出部
20 映像区間重要度算出部
21 複数時間尺特徴統合部
210 1次元CNN演算部
211 要素別最大値抽出部
22 多層全結合NN演算部(第1の多層全結合NN演算部)
23 複数モーダル特徴統合部
230 1次元CNN演算部
231 要素別最大値抽出部
24 多層全結合NN演算部(第2の多層全結合NN演算部)
30 パラメータ記憶部
40 映像要約部
41 重要区間ソート部
42 映像切出部
43 映像連結部
5 映像区間重要度算出モデル学習装置
50 特徴ベクトル算出部
60 特徴ベクトルセット記憶部
70 パラメータ記憶部
80 映像区間重要度算出部
90 パラメータ更新部