特開2023-122672 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特開2023-122672要約映像生成装置およびそのプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023122672

(43)【公開日】2023-09-05

(54)【発明の名称】要約映像生成装置およびそのプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20230829BHJP

【ＦＩ】

G06T7/00 350C

【審査請求】未請求

【請求項の数】4

【出願形態】ＯＬ

(21)【出願番号】P 2022026309

(22)【出願日】2022-02-24

(71)【出願人】

【識別番号】000004352

【氏名又は名称】日本放送協会

(74)【代理人】

【識別番号】110001807

【氏名又は名称】弁理士法人磯野国際特許商標事務所

(72)【発明者】

【氏名】望月貴裕

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA06

5L096CA02

5L096DA02

5L096EA23

5L096EA35

5L096HA11

5L096JA03

5L096KA04

(57)【要約】

【課題】要約映像として抽出する映像区間を近傍区間や映像全体との関係で学習した、従来よりも高品質な要約映像を生成することが可能な要約映像生成装置を提供する。
【解決手段】要約映像生成装置１は、映像区間ごとに、映像区間を含んだ複数の時間尺について複数のモーダルの特徴ベクトルを算出する特徴ベクトル算出部１０と、予め学習されたニューラルネットワークを用いて、映像区間ごとの複数の特徴ベクトルから、当該映像区間の重要度を算出する映像区間重要度算出部２０と、要約対象映像から、重要度の高い順に予め定めた合計尺までの映像区間を切り出して時系列に連結し、要約映像を生成する映像要約部４０と、を備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

複数の映像区間で構成された要約対象映像から、要約映像を生成する要約映像生成装置であって、
前記映像区間ごとに、当該映像区間を含んだ複数の時間尺についてそれぞれ複数のモーダルの特徴ベクトルを算出する特徴ベクトル算出部と、
予め学習されたニューラルネットワークを用いて、前記特徴ベクトル算出部で算出された前記映像区間ごとの複数の特徴ベクトルから、当該映像区間の重要度を算出する映像区間重要度算出部と、
前記要約対象映像から、前記重要度の高い順に予め定めた合計尺までの映像区間を切り出して時系列に連結し、前記要約映像を生成する映像要約部と、
を備えることを特徴とする要約映像生成装置。

【請求項2】

前記映像区間重要度算出部は、
学習済の第１の１次元畳み込みニューラルネットワークを用いて、前記モーダル別に、前記映像区間に対応する複数の時間尺の特徴ベクトルを予め定めた複数チャンネルのベクトルに変換し、対応する要素ごとに最大値を抽出することで前記複数の時間尺の特徴ベクトルを統合した時間尺統合特徴ベクトルを生成する複数時間尺特徴統合部と、
学習済の第１の多層全結合ニューラルネットワークを用いて、前記モーダル別に、前記時間尺統合特徴ベクトルを予め定めた次元数に変換する第１の多層全結合ＮＮ演算部と、
学習済の第２の１次元畳み込みニューラルネットワークを用いて、前記第１の多層全結合ＮＮ演算部で予め定めた次元数に変換された前記モーダル別の時間尺統合特徴ベクトルを予め定めた複数チャンネルのベクトルに変換し、対応する要素ごとに最大値を抽出することで前記モーダル別の時間尺統合特徴ベクトルを統合した統合特徴ベクトルを生成する複数モーダル特徴統合部と、
学習済の第２の多層全結合ニューラルネットワークを用いて、前記統合特徴ベクトルから前記重要度を算出する第２の多層全結合ＮＮ演算部と、
を備えることを特徴とする請求項１に記載の要約映像生成装置。

【請求項3】

前記特徴ベクトル算出部は、前記映像区間を最小の時間尺、前記要約対象映像の全体を最大の時間尺とし、前記映像区間を含んだ複数の時間尺を設定し、前記複数のモーダルの特徴ベクトルを算出することを特徴とする請求項１または請求項２に記載の要約映像生成装置。

【請求項4】

コンピュータを、請求項１から請求項３のいずれか一項に記載の要約映像生成装置として機能させるための要約映像生成プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、映像を要約した要約映像を生成する要約映像生成装置およびそのプログラムに関する。

【背景技術】

【0002】

近年、ソーシャルメディアサービスの発達等により、放送番組や自主制作した映像をＰＲすることを主な目的として、要約映像をネットワーク上で配信するケースが増えている。しかし、要約映像の編集作業は大きな労力を要するため、自動で要約映像を生成する技術が求められている。

【0003】

従来、要約映像を自動的に生成する手法として、例えば、特許文献１～４にその手法が提案されている。
特許文献１に記載の手法は、映像を分割した分割映像のキーフレームの画像特徴に基づいて、映像から重要度の高い映像区間を抽出して要約映像を生成する。
特許文献２に記載の手法は、映像区間をノードとし、ノード間の映像特徴の類似度をエッジとするグラフを解析し、映像から重要度の高い映像区間の映像を抽出して要約映像を生成する。

【0004】

特許文献３に記載の手法は、映像を複数のカット映像に分割し、複数の要素に関するスコアを算出する。そして、この手法は、ユーザが設定した各要素の重み配分に基づいてカット映像の総合スコアを算出し、総合スコアの高いカット映像を抽出して要約映像を生成する。
特許文献４に記載の手法は、要約映像に使用された映像区間の特徴ベクトルにスコアを高く、使用されなかった映像区間の特徴ベクトルにスコアを低くし、かつ、複数の要素の重み配分が最適になるように学習したニューラルネットワークを用いて、映像区間のスコアを算出する。そして、この手法は、スコアの高い映像区間を抽出して要約映像を生成する。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特許第５５３７２８５号公報

【特許文献2】特許第５８９８１１７号公報

【特許文献3】特許第６９１７７８８号公報

【特許文献4】特開２０２１－１８９９６７号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

人手によって映像から要約映像を生成する場合、映像内のある映像区間の重要性を判断する際に、作業者は、その区間だけではなく近傍区間や映像全体の内容を考慮するのが一般的である。
しかし、従来の手法は、個々の映像区間の特徴のみから重要度を算出している。そのため、従来の手法は、要約映像として抽出する映像区間と、近傍区間や映像全体の内容との関係が考慮されておらず、近傍区間や映像全体との関係で重要度の高い映像を抽出することができない場合がある。
そこで、要約映像の生成に際し、人が要約映像を生成するような、より自然な要約映像の生成手法が望まれていた。

【0007】

本発明は、このような要望に鑑みてなされたもので、要約映像として抽出する映像区間を近傍区間や映像全体との関係で学習した、従来よりも高品質な要約映像を生成することが可能な要約映像生成装置およびそのプログラムを提供することを課題とする。

【課題を解決するための手段】

【0008】

前記課題を解決するため、本発明に係る要約映像生成装置は、複数の映像区間で構成された要約対象映像から、要約映像を生成する要約映像生成装置であって、特徴ベクトル算出部と、映像区間重要度算出部と、映像要約部と、を備える構成とした。

【0009】

かかる構成において、要約映像生成装置は、特徴ベクトル算出部によって、映像区間ごとに、当該映像区間を含んだ複数の時間尺についてそれぞれ複数のモーダル（種類）の特徴ベクトルを算出する。
そして、要約映像生成装置は、映像区間重要度算出部によって、予め学習されたニューラルネットワークを用いて、特徴ベクトル算出部で算出された映像区間ごとの複数の特徴ベクトルから、当該映像区間の重要度を算出する。
そして、要約映像生成装置は、映像要約部によって、要約対象映像から、重要度の高い順に予め定めた合計尺までの映像区間を切り出して時系列に連結し、要約映像を生成する。
これによって、要約映像生成装置は、映像区間の重要度を、前後の映像の特徴と合わせて算出して、要約映像を生成することができる。
なお、要約映像生成装置は、コンピュータを、前記した各部として機能させるための要約映像生成プログラムで動作させることができる。

【発明の効果】

【0010】

本発明によれば、映像区間の重要度を当該映像区間だけでなく、前後に連続する映像区間の特徴と合わせて算出することができる。
これによって、本発明は、映像の内容を考慮した高品質な要約映像を生成することができる。

【図面の簡単な説明】

【0011】

【図1】本発明の実施形態に係る要約映像生成装置の全体構成を示すブロック構成図である。

【図2】図１の特徴ベクトル算出部の内部構成を示すブロック構成図である。

【図3】図２の複数時間尺設定部における複数の時間尺を設定する処理の一例を説明するための説明図である。

【図4】図１の映像区間重要度算出部の内部構成を示すブロック構成図である。

【図5】図４の複数時間尺特徴統合部の内部構成を示すブロック構成図である。

【図6】図４の複数モーダル特徴統合部の内部構成を示すブロック構成図である。

【図7】図１の映像要約部の内部構成を示すブロック構成図である。

【図8】本発明の実施形態に係る要約映像生成装置の動作を示すフローチャートである。

【図9】映像区間重要度算出モデルを学習する映像区間重要度算出モデル学習装置の構成を示すブロック構成図である。

【図10】図９の映像区間重要度算出モデル学習装置の動作を示すフローチャートである。

【発明を実施するための形態】

【0012】

＜要約映像生成装置の構成＞
最初に、図１を参照して、本発明の実施形態に係る要約映像生成装置の構成について説明する。

【0013】

要約映像生成装置１は、複数の映像区間で構成された要約対象映像から、要約映像を生成するものである。なお、要約対象映像は音声を含んでいてもよい。
ここでは、要約映像生成装置１は、要約映像を生成する対象となる要約対象映像Ｖと、要約対象映像Ｖを予め区分した複数の映像区間ｋ（ｋ＝１，２，…，Ｋ；Ｋは要約対象映像Ｖに設定した映像区間の数）のＩＮ点（開始点）／ＯＵＴ点（終了点）を入力する。そして、要約映像生成装置１は、要約対象映像Ｖから重要度の高い映像区間を抽出して要約映像ＳＶを出力する。

【0014】

なお、映像区間は、要約対象映像Ｖの画像特徴となるカメラの切り替わりや編集点であるカット点ごとに映像を分割した区間とすることができる。また、映像区間のＩＮ点／ＯＵＴ点は、区間を特定できれば、例えば、開始時刻と時間長であっても構わない。
図１に示すように、要約映像生成装置１は、特徴ベクトル算出部１０と、映像区間重要度算出部２０と、パラメータ記憶部３０と、映像要約部４０と、を備える。

【0015】

特徴ベクトル算出部１０は、要約対象映像Ｖの映像区間ごとに、当該映像区間を含んだ複数の時間尺についてそれぞれ複数のモーダルの特徴ベクトルを算出し、時間尺およびモーダル別の複数の特徴ベクトルを算出するものである。
ここで、モーダルとは、特徴の種類であって、例えば、被写体の種類に関する特徴、顔領域に関する特徴、カメラの動き情報に関する特徴、発話内容による特徴、声の高さや大きさに関する特徴等である。

【0016】

ここで、図２を参照して、特徴ベクトル算出部１０の内部構成について説明する。
図２に示すように、特徴ベクトル算出部１０は、複数時間尺設定部１１と、複数のモーダル別特徴ベクトル算出部１２（１２_１，１２_２，…，１２_ＮＭ［ＮＭ〔＝Ｎ_Ｍ〕はモーダル数］）と、を備える。

【0017】

複数時間尺設定部１１は、映像区間ｋごとに、映像区間ｋを含んだ複数の時間尺を設定するものである。
複数時間尺設定部１１は、入力された映像区間ｋのＩＮ点／ＯＵＴ点で特定される映像区間ｋを最小の時間尺Ｔ_１、要約対象映像Ｖの全体を最大の時間尺Ｔ_ＮＴ［ＮＴ（＝Ｎ_Ｔ）は設定する時間尺の数］とし、映像区間ｋを含んだ複数の時間尺Ｔ_１，…，Ｔ_ＮＴを設定する。

【0018】

ここで、図３を参照して、複数時間尺設定部１１の時間尺の設定例について説明する。
ここでは、複数の時間尺を設定する対象となる映像区間を映像区間ｋとし、その時間尺をＴ_Ｋ、要約対象映像Ｖの全体時間尺をＴ_Ｗとする。
複数時間尺設定部１１は、時間尺Ｔ_１（１番目の時間尺）を、映像区間ｋの時間尺Ｔ_Ｋとして設定する。
複数時間尺設定部１１は、時間尺Ｔ_ＮＴ（Ｎ_Ｔ番目の時間尺）を、要約対象映像Ｖの全体の時間尺Ｔ_Ｗとして設定する。

【0019】

そして、複数時間尺設定部１１は、時間尺Ｔ_１＜時間尺Ｔ_２＜時間尺Ｔ_３＜…＜時間尺Ｔ_ＮＴとなるように、時間尺Ｔ_２，時間尺Ｔ_３，…，を設定する。
ここでは、Ｔ_２＝Ｔ_Ｋ＋（Ｔ_Ｗ－Ｔ_Ｋ）／（Ｎ_Ｔ－１）、Ｔ_３＝Ｔ_Ｋ＋２（Ｔ_Ｗ－Ｔ_Ｋ）／（Ｎ_Ｔ－１）とする。

【0020】

時間尺Ｔ_２，Ｔ_３，…，Ｔ_ＮＴは、基本的に時間尺Ｔ_１（映像区間ｋ）を中心に、時間方向の前後に等間隔に拡張した区間とする。ただし、時間尺の開始点が要約対象映像Ｖの開始点よりも前になる場合、複数時間尺設定部１１は、例えば、要約対象映像Ｖの開始点から後方に時間尺を設定する。同様に、時間尺の終了点が要約対象映像Ｖの終了点よりも後になる場合、複数時間尺設定部１１は、例えば、要約対象映像Ｖの終了点から前方に時間尺を設定する。
これによって、複数時間尺設定部１１は、映像区間ｋに対して、映像区間ｋを含んだ複数の時間尺を設定することができる。
図２に戻って、特徴ベクトル算出部１０の内部構成について説明を続ける。

【0021】

モーダル別特徴ベクトル算出部１２は、モーダル別に、複数時間尺設定部１１で設定された映像区間ごとの複数の時間尺の特徴ベクトルを算出するものである。
モーダル別特徴ベクトル算出部１２_１，１２_２，…，１２_ＮＭは、複数の時間尺Ｔ_１，…，Ｔ_ＮＴの映像について、それぞれ異なるモーダル特徴を算出する。

【0022】

例えば、モーダル別特徴ベクトル算出部１２_１は、ＶＧＧ（Visual Geometry Group）１９等の一般的な物体認識ネットワークを用いて、映像内に映る被写体の種類に関する特徴ベクトルを算出するものとすることができる。
また、例えば、モーダル別特徴ベクトル算出部１２_２は、映像に映る顔領域に関する特徴ベクトルを算出するものとすることができる。
また、例えば、モーダル別特徴ベクトル算出部１２_ＮＭは、映像内のカメラの動き情報を特徴ベクトルとして算出するものとすることができる。

【0023】

もちろん、モーダル別特徴ベクトル算出部１２は、映像に対応する音声を認識した発話内容（テキスト）から特徴ベクトルを算出するものであってもよいし、映像に対応する音声の高さ、大きさを特徴ベクトルとして算出するものであってもよい。
なお、モーダル別特徴ベクトル算出部１２_１，１２_２，…，１２_ＮＭが算出する特徴ベクトルの要素数は、モーダル特徴によって異なる場合がある。

【0024】

モーダル別特徴ベクトル算出部１２_１は、映像区間ｋの映像に対して、１番目のモーダル特徴として時間尺の数Ｎ_Ｔ分の特徴ベクトルｖ_ｓ［ｋ，１，１］，ｖ_ｓ［ｋ，１，２］，…，ｖ_ｓ［ｋ，１，Ｎ_Ｔ］を算出する。
モーダル別特徴ベクトル算出部１２_２は、映像区間ｋの映像に対して、２番目のモーダル特徴として時間尺の数Ｎ_Ｔ分の特徴ベクトルｖ_ｓ［ｋ，２，１］，ｖ_ｓ［ｋ，２，２］，…，ｖ_ｓ［ｋ，２，Ｎ_Ｔ］を算出する。
同様に、モーダル別特徴ベクトル算出部１２_ＮＭは、映像区間ｋの映像に対して、Ｎ_Ｍ番目のモーダル特徴として時間尺の数Ｎ_Ｔ分の特徴ベクトルｖ_ｓ［ｋ，Ｎ_Ｍ，１］，ｖ_ｓ［ｋ，Ｎ_Ｍ，２］，…，ｖ_ｓ［ｋ，Ｎ_Ｍ，Ｎ_Ｔ］を算出する。

【0025】

特徴ベクトル算出部１０は、モーダル別特徴ベクトル算出部１２_１，１２_２，…，１２_ＮＭで算出された特徴ベクトルｖ_ｓ［ｋ，ｍ，ｎ］（ｍ＝１，…，Ｎ_Ｍ、ｎ＝１，…，Ｎ_Ｔ）の集合を、映像区間ｋに対する特徴ベクトルセットＶ_ＳＥＴ［ｋ］として、映像区間重要度算出部２０に出力する。
図１に戻って、要約映像生成装置１の構成について説明を続ける。

【0026】

映像区間重要度算出部２０は、予め学習されたニューラルネットワークを用いて、映像区間ごとの複数の特徴ベクトル（特徴ベクトルセット）から、当該映像区間の重要度を算出するものである。
映像区間重要度算出部２０は、特徴ベクトル算出部１０で算出された特徴ベクトルセットＶ_ＳＥＴ［ｋ］（ｋ＝１，２，…，Ｋ；Ｋは要約対象映像Ｖに設定した映像区間の数）について、パラメータ記憶部３０に記憶されている学習済のニューラルネットワークの内部パラメータを用いて、映像区間ごとに複数時間尺の特徴ベクトルを統合し、さらに複数のモーダル間で特徴ベクトルの統合することで、映像区間の重要度を算出する。

【0027】

ここで、図４を参照して、映像区間重要度算出部２０の内部構成について説明する。
図４に示すように、映像区間重要度算出部２０は、複数の複数時間尺特徴統合部２１（２１_１，２１_２，…，２１_ＮＭ［ＮＭ〔＝Ｎ_Ｍ〕はモーダル数］）と、複数の多層全結合ＮＮ演算部２２（２２_１，２２_２，…，２２_ＮＭ）と、複数モーダル特徴統合部２３と、多層全結合ＮＮ演算部２４と、を備える。

【0028】

複数時間尺特徴統合部２１は、学習済の１次元畳み込みニューラルネットワーク（１ＤＣＮＮ）を用いて、モーダル別に、映像区間に対応する複数の時間尺の特徴ベクトルを予め定めた複数チャンネルのベクトルに変換し、対応する要素ごとに最大値を抽出することで複数の時間尺の特徴ベクトルを統合した時間尺統合特徴ベクトルを生成するものである。
例えば、複数時間尺特徴統合部２１_１は、特徴ベクトルセットＶ_ＳＥＴ［ｋ］のうちで、１番目のモーダル特徴である特徴ベクトルｖ_ｓ［ｋ，１，１］，ｖ_ｓ［ｋ，１，２］，…，ｖ_ｓ［ｋ，１，Ｎ_Ｔ］を統合して、時間尺統合特徴ベクトルｖ′［ｋ，１］を生成する。
同様に、複数時間尺特徴統合部２１_２は、特徴ベクトルセットＶ_ＳＥＴ［ｋ］のうちで、２番目のモーダル特徴である特徴ベクトルｖ_ｓ［ｋ，２，１］，ｖ_ｓ［ｋ，２，２］，…，ｖ_ｓ［ｋ，２，Ｎ_Ｔ］を統合して、時間尺統合特徴ベクトルｖ′［ｋ，２］を生成する。
また、複数時間尺特徴統合部２１_ＮＭは、特徴ベクトルセットＶ_ＳＥＴ［ｋ］のうちで、Ｎ_Ｍ番目のモーダル特徴である特徴ベクトルｖ_ｓ［ｋ，Ｎ_Ｍ，１］，ｖ_ｓ［ｋ，Ｎ_Ｍ，２］，…，ｖ_ｓ［ｋ，Ｎ_Ｍ，Ｎ_Ｔ］を統合して、時間尺統合特徴ベクトルｖ′［ｋ，Ｎ_Ｍ］を生成する。

【0029】

ここで、さらに、図５を参照して、複数時間尺特徴統合部２１の内部構成について説明する。
図５に示すように、複数時間尺特徴統合部２１は、１次元ＣＮＮ演算部２１０と、要素別最大値抽出部２１１と、を備える。

【0030】

１次元ＣＮＮ演算部２１０は、モーダルごとの複数の特徴ベクトルに対して、パラメータ記憶部３０（図１）に記憶されている学習済の第１の１次元畳み込みニューラルネットワーク（１ＤＣＮＮ）のパラメータを用いて、１ＤＣＮＮの演算を行うものである。
１次元ＣＮＮ演算部２１０は、ｍ番目のモーダル特徴であるＤ［ｍ］次元の特徴ベクトルｖ_ｓ［ｋ，ｍ，１］，ｖ_ｓ［ｋ，ｍ，２］，…，ｖ_ｓ［ｋ，ｍ，Ｎ_Ｔ］を入力する。なお、Ｄ［ｍ］次元は、ｍ番目のモーダル特徴の次元数（特徴ベクトルの要素数）である。

【0031】

１次元ＣＮＮ演算部２１０は、入力ベクトル長をＤ［ｍ］、入力チャンネル数をＮ_Ｔ、フィルタサイスを１、出力チャンネル数をＣ_Ｔとして、ｖ_ｓ［ｋ，ｍ，１］，ｖ_ｓ［ｋ，ｍ，２］，…，ｖ_ｓ［ｋ，ｍ，Ｎ_Ｔ］に対して、１ＤＣＮＮの演算を行う。
なお、出力チャンネル数Ｃ_Ｔは、１６，３２等、２以上の予め定めた数である。このように、出力チャンネルを複数にすることで、要素に異なる重みを乗じた複数のベクトルが生成されることになる。
ここでは、１次元ＣＮＮ演算部２１０は、１ＤＣＮＮにより、Ｄ［ｍ］次元のＣ_Ｔ個のベクトルｖ_ｓ′［ｋ，ｍ，１］，ｖ_ｓ′［ｋ，ｍ，２］，…，ｖ_ｓ′［ｋ，ｍ，Ｃ_Ｔ］を生成し、要素別最大値抽出部２１１に出力する。

【0032】

要素別最大値抽出部２１１は、１次元ＣＮＮ演算部２１０で生成された複数（Ｃ_Ｔ個）のベクトルから要素ごとに最大値を抽出するものである。
要素別最大値抽出部２１１は、Ｄ［ｍ］次元のＣ_Ｔ個のベクトルｖ_ｓ′［ｋ，ｍ，１］，ｖ_ｓ′［ｋ，ｍ，２］，…，ｖ_ｓ′［ｋ，ｍ，Ｃ_Ｔ］について、要素ごとの最大値を抽出することで、１チャンネル分のＤ［ｍ］次元の時間尺統合特徴ベクトルｖ′［ｋ，ｍ］を生成する。このように生成された時間尺統合特徴ベクトルｖ′［ｋ，ｍ］は、要素ごとの重要性が反映された特徴ベクトルとなる。
要素別最大値抽出部２１１は、生成した時間尺統合特徴ベクトルを、多層全結合ＮＮ演算部２２に出力する。
図４に戻って、映像区間重要度算出部２０の内部構成について説明を続ける。

【0033】

多層全結合ＮＮ演算部（第１の多層全結合ＮＮ演算部）２２は、複数時間尺特徴統合部２１で統合された映像区間ｋに対する時間尺統合特徴ベクトルｖ′［ｋ，ｍ］に対して、パラメータ記憶部３０（図１）に記憶されている学習済の第１の多層全結合ニューラルネットワーク（多層全結合ＮＮ）のパラメータを用いて、多層全結合ＮＮの演算を行い、予め定めた次元数に変換するものである。

【0034】

多層全結合ＮＮは、入力層と複数の中間層と出力層とで構成され、各層のノードが層間で全結像したネットワークである。なお、中間層の数、ノード数は任意の数とすることができるが、後記する学習処理の時間等を考慮し、中間層の数は２～３、各中間層のノード数は５００から１０００程度に留めるのが望ましい。
多層全結合ＮＮ演算部２２における多層全結合ＮＮは、入力ノード数をＤ［ｍ］（時間尺統合特徴ベクトルｖ′［ｋ，ｍ］の次元数）、出力ノード数を予め定めた数（Ｄ）とする。

【0035】

多層全結合ＮＮ演算部２２は、複数時間尺特徴統合部２１_１，２１_２，…，２１_ＮＭに対応して、モーダルごとに、多層全結合ＮＮ演算部２２_１，２２_２，…，２２_ＮＭで構成される。
多層全結合ＮＮ演算部２２_１は、複数時間尺特徴統合部２１_１で生成された時間尺統合特徴ベクトルｖ′［ｋ，１］を、Ｄ次元の時間尺統合特徴ベクトルｖ［ｋ，１］に変換する。
同様に、多層全結合ＮＮ演算部２２_２は、複数時間尺特徴統合部２１_２で生成された時間尺統合特徴ベクトルｖ′［ｋ，２］を、Ｄ次元の時間尺統合特徴ベクトルｖ［ｋ，２］に変換する。
また、多層全結合ＮＮ演算部２２_ＮＭは、複数時間尺特徴統合部２１_ＮＭで生成された時間尺統合特徴ベクトルｖ′［ｋ，Ｎ_Ｍ］を、Ｄ次元の時間尺統合特徴ベクトルｖ［ｋ，Ｎ_Ｍ］に変換する。

【0036】

これによって、多層全結合ＮＮ演算部２２_１，２２_２，…，２２_ＮＭは、時間尺統合特徴ベクトルの次元数をすべてＤ次元に変換することができる。
多層全結合ＮＮ演算部２２_１，２２_２，…，２２_ＮＭは、それぞれ、変換後のＤ次元の時間尺統合特徴ベクトルを、複数モーダル特徴統合部２３に出力する。

【0037】

複数モーダル特徴統合部２３は、学習済の１次元畳み込みニューラルネットワーク（１ＤＣＮＮ）を用いて、モーダル別の時間尺統合特徴ベクトルを予め定めた複数チャンネルのベクトルに変換し、対応する要素ごとに最大値を抽出することでモーダル別の時間尺統合特徴ベクトルを統合した統合特徴ベクトルを生成するものである。
複数モーダル特徴統合部２３は、多層全結合ＮＮ演算部２２_１，２２_２，…，２２_ＮＭから、それぞれ、映像区間ｋにおける、Ｄ次元の時間尺統合特徴ベクトルｖ［ｋ，１］，ｖ［ｋ，２］，…，ｖ［ｋ，Ｎ_Ｍ］を入力し、時間尺およびモーダルごとの特徴を統合した統合特徴ベクトルＶ［ｋ］を生成する。

【0038】

ここで、さらに、図６を参照して、複数モーダル特徴統合部２３の内部構成について説明する。
図６に示すように、複数モーダル特徴統合部２３は、１次元ＣＮＮ演算部２３０と、要素別最大値抽出部２３１と、を備える。

【0039】

１次元ＣＮＮ演算部２３０は、モーダルごとの複数の時間尺統合特徴ベクトルに対して、パラメータ記憶部３０（図１）に記憶されている学習済の第２の１次元畳み込みニューラルネットワーク（１ＤＣＮＮ）ののパラメータを用いて、１ＤＣＮＮの演算を行うものである。
１次元ＣＮＮ演算部２３０は、モーダルごとのＤ次元の時間尺統合特徴ベクトルｖ［ｋ，１］，ｖ［ｋ，２］，…，ｖ［ｋ，Ｎ_Ｍ］を入力する。
１次元ＣＮＮ演算部２３０は、入力ベクトル長をＤ、入力チャンネル数をＮ_Ｍ、フィルタサイスを１、出力チャンネル数をＣ_Ｍとして、ｖ［ｋ，１］，ｖ［ｋ，２］，…，ｖ［ｋ，Ｎ_Ｍ］に対して、１ＤＣＮＮの演算を行う。
なお、出力チャンネル数Ｃ_Ｍは、１６，３２等、２以上の予め定めた数である。このように、出力チャンネルを複数にすることで、要素に異なる重みを乗じた複数のベクトルが生成されることになる。
ここでは、１次元ＣＮＮ演算部２３０は、１ＤＣＮＮにより、Ｄ次元のＣ_Ｍ個のベクトルｖ′［ｋ，１］，ｖ′［ｋ，２］，…，ｖ′［ｋ，Ｃ_Ｍ］を生成し、要素別最大値抽出部２３１に出力する。

【0040】

要素別最大値抽出部２３１は、１次元ＣＮＮ演算部２３０で生成された複数（Ｃ_Ｍ個）のベクトルから要素ごとに最大値を抽出するものである。
要素別最大値抽出部２３１は、Ｄ次元のＣ_Ｍ個のベクトルｖ_ｓ′［ｋ，１］，ｖ_ｓ′［ｋ，２］，…，ｖ_ｓ′［ｋ，Ｃ_Ｍ］について、要素ごとの最大値を抽出することで、１チャンネル分のＤ次元の統合特徴ベクトルＶ［ｋ］を生成する。このように生成された統合特徴ベクトルＶ［ｋ］は、要素ごとの重要性が反映された特徴ベクトルとなる。
要素別最大値抽出部２３１は、生成した統合特徴ベクトルを、多層全結合ＮＮ演算部２４に出力する。
図４に戻って、映像区間重要度算出部２０の内部構成について説明を続ける。

【0041】

多層全結合ＮＮ演算部（第２の多層全結合ＮＮ演算部）２４は、複数モーダル特徴統合部２３で統合された映像区間ｋに対する統合特徴ベクトルＶ［ｋ］に対して、パラメータ記憶部３０（図１）に記憶されている学習済の第２の多層全結合ニューラルネットワーク（多層全結合ＮＮ）のパラメータを用いて、多層全結合ＮＮの演算を行うものである。

【0042】

多層全結合ＮＮは、入力層と複数の中間層と出力層とで構成され、各層のノードが層間で全結像したネットワークである。なお、中間層の数、ノード数は任意の数とすることができるが、後記する学習処理の時間等を考慮し、中間層の数は２～３、各中間層のノード数は５００から１０００程度に留めるのが望ましい。
多層全結合ＮＮ演算部２４における多層全結合ＮＮは、入力ノード数をＤ（統合特徴ベクトルＶ［ｋ］の次元数）、出力ノード数を１とする。
多層全結合ＮＮ演算部２４は、多層全結合ＮＮを演算した出力ノードの値を映像区間ｋの重要度Ｓ［ｋ］として、映像要約部４０に出力する。
図１に戻って、要約映像生成装置１の構成について説明を続ける。

【0043】

パラメータ記憶部３０は、映像区間重要度算出部２０で使用する１次元畳み込みニューラルネットワーク（１ＤＣＮＮ）、多層全結合ニューラルネットワーク（多層全結合ＮＮ）の予め学習した内部パラメータを記憶するものである。
パラメータ記憶部３０は、半導体メモリ等の一般的な記憶媒体で構成することができる。
パラメータ記憶部３０に記憶する内部パラメータの学習については、図９，図１０を参照して後で説明する。

【0044】

映像要約部４０は、要約対象映像から、映像区間重要度算出部２０で算出された重要度の高い順に予め定めた合計尺までの映像区間を切り出して時系列に連結し、要約映像を生成するものである。

【0045】

ここで、図７を参照して、映像要約部４０の内部構成について説明する。
図７に示すように、映像要約部４０は、重要区間ソート部４１と、映像切出部４２と、映像連結部４３と、を備える。

【0046】

重要区間ソート部４１は、映像区間重要度算出部２０で算出された映像区間ｋの重要度Ｓ［ｋ］に基づいて、映像区間の識別番号ｋ（ｋ＝１，２，…，Ｋ）を降順にソートするものである。ここでは、重要区間ソート部４１は、映像区間の識別番号ｋ（ｋ＝１，２，…，Ｋ）を、重要度の高い方から順に、ｋ_１，ｋ_２，…，ｋ_Ｋと並び変える。
重要区間ソート部４１は、ソートした映像区間の識別番号ｋ_１，ｋ_２，…，ｋ_Ｋを映像切出部３１１に出力する。

【0047】

映像切出部４２は、重要区間ソート部４１でソートされた映像区間の識別番号に基づいて、合計尺が予め定めた閾値を超過するまで、要約対象映像Ｖから重要度の高い映像区間の映像を切り出すものである。
映像切出部４２は、重要度の高い映像区間ｋ_１，ｋ_２，…に対応する映像Ｖ［ｋ_１］，Ｖ［ｋ_２］，…を要約対象映像Ｖから切り出し、映像連結部４３に出力する。

【0048】

映像連結部４３は、映像切出部４２で切り出された映像を、時系列に並べ替えて連結するものである。
映像連結部４３は、連結した映像を要約映像ＳＶとして出力する。

【0049】

以上説明したように、要約映像生成装置１は、映像区間に対応する複数の時間尺の特徴と、複数のモーダル特徴によって映像区間の重要度を特定することができる。
これによって、要約映像生成装置１は、映像区間と近傍区間や映像全体との関係で、要約対象映像から映像区間の映像を抽出することができ、人手による要約映像の生成処理に類似した処理を実現することができる。
なお、要約映像生成装置１は、図示を省略したコンピュータを、前記した各部として機能させるための要約映像生成プログラムで動作させることができる。

【0050】

＜要約映像生成装置の動作＞
次に、図８を参照（構成については、適宜図１，図２，図４～図７を参照）して、本発明の実施形態に係る要約映像生成装置の動作について説明する。

【0051】

ステップＳ１において、複数時間尺設定部１１は、要約対象映像Ｖの映像区間ごとに、映像区間を含んだ複数の時間尺を設定する（図３参照）。
以下、ここでは、ステップＳ２からＳ５までは、モーダル別に並列して動作することとするが、モーダルごとに順番に動作することとしてもよい。

【0052】

ステップＳ２において、モーダル別特徴ベクトル算出部１２は、映像区間ごとに、ステップＳ１で設定された複数の時間尺の映像の特徴ベクトルを算出する。なお、ステップＳ２_１，Ｓ２_２，…，Ｓ２_ＮＭ［ＮＭ〔＝Ｎ_Ｍ〕はモーダル数］は、モーダルが異なるだけである。以下、ステップＳ３～Ｓ５においても同様である。
これによって、映像区間ｋごとに、時間尺およびモーダルごとの特徴ベクトルセットＶ_ＳＥＴ［ｋ］（図２参照）が算出される。

【0053】

ステップＳ３において、複数時間尺特徴統合部２１は、１次元ＣＮＮ演算部２１０によって、ステップＳ２で算出された特徴ベクトルセットのうちで、モーダルに対応する複数の時間尺の特徴ベクトルに対して、学習済のパラメータを用いて、１次元畳み込みニューラルネットワーク（１ＤＣＮＮ）の演算を行うことで、出力チャンネル数Ｃ_Ｔに応じたベクトルを生成する（図５参照）。
これによって、要素に異なる重みを乗じたＣ_Ｔ個のベクトルが生成される。

【0054】

ステップＳ４において、複数時間尺特徴統合部２１は、要素別最大値抽出部２１１によって、ステップＳ３で生成された複数（Ｃ_Ｔ個）のベクトルから要素ごとに最大値を抽出する。
これによって、モーダル特徴として、複数の時間尺の特徴ベクトルが統合され、さらに、要素ごとに重要度が反映された時間尺統合特徴ベクトルが生成される。

【0055】

ステップＳ５において、多層全結合ＮＮ演算部２２は、ステップＳ４で生成された時間尺統合特徴ベクトルに対して、学習済のパラメータを用いて、多層全結合ニューラルネットワーク（多層全結合ＮＮ）の演算を行うことで、モーダルごとに次元数が異なる時間尺統合特徴ベクトルを同じ次元数Ｄのベクトルに変換する。

【0056】

ステップＳ６において、複数モーダル特徴統合部２３は、ステップＳ５で生成されたモーダルごとの時間尺統合特徴ベクトルを統合して統合特徴ベクトルを生成する。
なお、このステップＳ６は、図示を省略するが、ステップＳ３，Ｓ４と同様の処理を行う。すなわち、複数モーダル特徴統合部２３は、１次元ＣＮＮ演算部２３０によって、ステップＳ５で生成されたモーダルごとの時間尺統合特徴ベクトルに対して、学習済のパラメータを用いて、１次元畳み込みニューラルネットワーク（１ＤＣＮＮ）の演算を行うことで、出力チャンネル数Ｃ_Ｍに応じたベクトルを生成する（図６参照）。
これによって、要素に異なる重みを乗じたＣ_Ｍ個のベクトルが生成される。
そして、複数モーダル特徴統合部２３は、要素別最大値抽出部２３１によって、複数（Ｃ_Ｍ個）のベクトルから要素ごとに最大値を抽出することで、映像区間ｋに対応した統合特徴ベクトルＶ［ｋ］を生成する。

【0057】

ステップＳ７において、多層全結合ＮＮ演算部２４は、ステップＳ６で生成された統合特徴ベクトルに対して、学習済のパラメータを用いて、多層全結合ニューラルネットワーク（多層全結合ＮＮ）の演算を行うことで、映像区間ｋに対応した重要度Ｓ［ｋ］を算出する。

【0058】

ステップＳ８において、重要区間ソート部４１は、ステップＳ７で算出された映像区間ｋの重要度Ｓ［ｋ］に基づいて、映像区間の識別番号ｋ（ｋ＝１，２，…，Ｋ）を重要度の降順にソートする。ここでは、重要度の高い方から順に、識別番号ｋ_１，ｋ_２，…，ｋ_Ｋとする。
ステップＳ９において、映像切出部４２は、変数ｉを初期化（ｉ＝１）する。
ステップＳ１０において、映像切出部４２は、要約対象映像Ｖから映像区間ｋ_ｉの映像Ｖ［ｋ_ｉ］を切り出す。

【0059】

ステップＳ１１において、映像切出部４２は、ステップＳ１０で順次切り出した映像区間の合計尺が、予め定めた閾値Ｌを超えたか否かを判定する。
ここで、合計尺が閾値Ｌ未満の場合（ステップＳ１１でＹｅｓ）、映像切出部４２は、ステップＳ１２において、変数ｉに１を加算して、ステップＳ１０に戻る。
一方、合計尺が閾値Ｌ以上の場合（ステップＳ１１でＮｏ）、映像切出部４２は映像の切り出しを終了し、ステップＳ１３に動作を進める。

【0060】

ステップＳ１３において、映像連結部４３は、ステップＳ１０で切り出された映像を、時系列に並べ替えて連結することで、要約映像ＳＶを生成する。
以上の動作によって、要約映像生成装置１は、人手による要約映像の類似した処理により、要約映像を生成することができる。

【0061】

＜映像区間重要度算出モデル学習装置の構成＞
次に、図９を参照して、映像区間重要度算出モデル学習装置の構成について説明する。
映像区間重要度算出モデル学習装置２は、要約映像生成装置１（図１参照）のパラメータ記憶部３０に記憶するニューラルネットワーク（１ＤＣＮＮ，多層全結合ＮＮ）の内部パラメータを学習するものである。

【0062】

映像区間重要度算出モデル学習装置２は、学習データとして、要約映像に使用された映像区間を含む映像Ｖ_Ｐｏｓと、要約映像に使用されなかった映像区間を含む映像Ｖ_Ｎｅｇと、を複数用いる。
映像Ｖ_Ｐｏｓには、要約映像に使用されたＮ_Ｐｏｓ個の映像区間（以下、正例区間という）が含まれている。また、映像Ｖ_Ｎｅｇには、要約映像に使用されなかったＮ_Ｎｅｇ個の映像区間（以下、負例区間という）が含まれている。

【0063】

これらの学習データは、例えば、自作映像（要約対象映像）から要約映像を生成した際に使用した映像区間を正例区間、それ以外の映像区間を負例区間とすることができる。
この要約対象映像および要約映像は、放送から取得した番組映像と、ネットワークで配信される当該番組映像の要約映像としてもよい。その場合、要約映像のフレーム画像の類似性に基づいて、要約映像に使用した映像区間を、番組映像の映像区間と対応させることが可能である。なお、正例区間および負例区間は、要約映像生成装置１に入力される映像と同様、カット点等に区分された映像区間とする。

【0064】

図９に示すように、映像区間重要度算出モデル学習装置２は、特徴ベクトル算出部５０と、特徴ベクトルセット記憶部６０と、パラメータ記憶部７０と、映像区間重要度算出部８０と、パラメータ更新部９０と、を備える。

【0065】

特徴ベクトル算出部５０は、映像（Ｖ_Ｐｏｓ，Ｖ_Ｎｅｇ）の映像区間（正例区間，負例区間）ごとに、当該映像区間を含んだ複数の時間尺ついてそれぞれ複数のモーダルの特徴ベクトルを算出し、時間尺およびモーダル別の複数の特徴ベクトルを算出するものである。
この特徴ベクトル算出部５０は、要約映像生成装置１の特徴ベクトル算出部１０（図１，図２参照）と同じ構成とする。

【0066】

特徴ベクトル算出部５０は、映像Ｖ_Ｐｏｓと、正例区間ｐ（ｐ＝１，２，…，Ｎ_Ｐｏｓ；Ｎ_Ｐｏｓは正例区間の数）のＩＮ点／ＯＵＴ点とを入力し、正例区間ｐごとの特徴ベクトルセットＶ_ＳＥＴ［ｐ］を算出する。
また、特徴ベクトル算出部５０は、映像Ｖ_Ｎｅｇと、負例区間ｑ（ｑ＝１，２，…，Ｎ_Ｎｅｇ；Ｎ_Ｎｅｇは負例区間の数）のＩＮ点／ＯＵＴ点とを入力し、負例区間ｑごとの特徴ベクトルセットＶ_ＳＥＴ［ｑ］を算出する。
特徴ベクトル算出部５０は、学習データから生成した正例区間の特徴ベクトルセットと、負例区間の特徴ベクトルセットとを特徴ベクトルセット記憶部６０に記憶する。

【0067】

特徴ベクトルセット記憶部６０は、特徴ベクトル算出部５０で算出された複数の正例区間の特徴ベクトルセットと負例区間の特徴ベクトルセットとを記憶するものである。
特徴ベクトルセット記憶部６０は、半導体メモリ等の一般的な記憶媒体で構成することができる。

【0068】

パラメータ記憶部７０は、学習対象である１ＤＣＮＮおよび多層全結合ＮＮの内部パラメータを記憶するものである。
パラメータ記憶部７０は、半導体メモリ等の一般的な記憶媒体で構成することができる。

【0069】

映像区間重要度算出部８０は、特徴ベクトル算出部５０で算出され、特徴ベクトルセット記憶部６０に記憶されている特徴ベクトルセットから、映像区間の重要度を算出するものである。
この映像区間重要度算出部８０は、要約映像生成装置１の映像区間重要度算出部２０（図１，図４参照）と同じ構成とする。
映像区間重要度算出部８０は、特徴ベクトルセット記憶部６０に記憶されているＮ_Ｐｏｓ個の正例区間の特徴ベクトルセットから、ランダムにＰ個の特徴ベクトルセットＶ_ＳＥＴ［ｐ_１］，…，Ｖ_ＳＥＴ［ｐ_Ｐ］を選択し、パラメータ記憶部７０に記憶されている内部パラメータを用いて、重要度Ｓ［ｐ_１］，…，Ｓ［ｐ_Ｐ］を算出する。

【0070】

また、映像区間重要度算出部８０は、特徴ベクトルセット記憶部６０に記憶されているＮ_Ｎｅｇ個の負例区間の特徴ベクトルセットから、ランダムにＱ個の特徴ベクトルセットＶ_ＳＥＴ［ｑ_１］，…，Ｖ_ＳＥＴ［ｑ_Ｑ］を選択し、パラメータ記憶部７０に記憶されている内部パラメータを用いて、重要度Ｓ［ｑ_１］，…，Ｓ［ｑ_Ｑ］を算出する。
映像区間重要度算出部８０は、算出した正例区間の重要度と、負例区間の重要度とを、パラメータ更新部９０に出力する。
なお、映像区間重要度算出部８０は、パラメータ更新部９０から、重要度の算出を指示されるたびに、特徴ベクトルセットをランダムに選択して重要度を算出する処理を繰り返す。

【0071】

パラメータ更新部９０は、映像区間重要度算出部８０で算出された正例区間の重要度と、負例区間の重要度とに基づいて、パラメータ記憶部７０に記憶されている内部パラメータを更新するものである。
なお、パラメータ更新部９０は、起動時に１回だけ、パラメータ記憶部７０に記憶される内部パラメータを乱数で初期化する。

【0072】

パラメータ更新部９０は、以下の式（１）に示すように、正例区間の重要度Ｓ［ｐ_１］，…，Ｓ［ｐ_Ｐ］の平均から、負例区間の重要度［ｑ_１］，…，Ｓ［ｑ_Ｑ］の平均を減じた差分値ｄが、前回の繰り返し処理で演算した差分値ｄよりも大きくなるように、パラメータ記憶部７０に記憶されている内部パラメータを更新する。

【0073】

【数1】

【0074】

パラメータ更新部９０は、更新回数が予め定めた回数未満の場合、かつ、差分値ｄが予め定めた閾値未満の場合、映像区間重要度算出部８０に対して、新たな特徴ベクトルセットによる重要度の算出を指示する。
一方、パラメータ更新部９０は、更新回数が予め定めた回数となった場合、または、差分値ｄが予め定めた閾値以上となった場合、内部パラメータの更新処理を終了する。
これによって、正例区間に対しては重要度が高く、負例区間に対しては重要度が低くなるように内部パラメータが学習されることになる。

【0075】

以上の構成によって、映像区間重要度算出モデル学習装置２は、要約映像生成装置１で用いるニューラルネットワーク（１ＤＣＮＮ，多層全結合ＮＮ）の内部パラメータを学習することができる。
なお、映像区間重要度算出モデル学習装置２は、図示を省略したコンピュータを、前記した各部として機能させるための映像区間重要度算出モデル学習プログラムで動作させることができる。

【0076】

＜映像区間重要度算出モデル学習装置の動作＞
次に、図１０を参照（構成については適宜図９を参照）して、映像区間重要度算出モデル学習装置の動作について説明する。

【0077】

ステップＳ２０において、特徴ベクトル算出部５０は、要約映像に使用された映像区間（正例区間）を含む映像Ｖ_Ｐｏｓを入力し、映像（Ｖ_Ｐｏｓ）の正例区間ごとに、正例区間を含んだ複数の時間尺の映像から、複数のモーダルについての特徴ベクトル（特徴ベクトルセット）を算出し、特徴ベクトルセット記憶部６０に記憶する。
ステップＳ２１において、特徴ベクトル算出部５０は、要約映像に使用されなかった映像区間（負例区間）を含む映像Ｖ_Ｎｅｇを入力し、映像（Ｖ_Ｎｅｇ）の負例区間ごとに、負例区間を含んだ複数の時間尺の映像から、複数のモーダルについての特徴ベクトル（特徴ベクトルセット）を算出し、特徴ベクトルセット記憶部６０に記憶する。
このステップＳ２０，Ｓ２１は、図１０に示すように並列に処理してもよい。

【0078】

ステップＳ２２において、パラメータ更新部９０は、パラメータ記憶部７０に記憶される内部パラメータを乱数で初期化する。
ステップＳ２３において、パラメータ更新部９０は、変数ｎ_ＴＲを初期化（ｎ_ＴＲ＝０）する。

【0079】

ステップＳ２４において、映像区間重要度算出部８０は、ステップＳ２０で算出された正例区間の特徴ベクトルセットから、ランダムにＰ個の特徴ベクトルセットＶ_ＳＥＴ［ｐ_１］，…，Ｖ_ＳＥＴ［ｐ_Ｐ］選択する。
ステップＳ２５において、映像区間重要度算出部８０は、ステップＳ２４で選択した正例区間の特徴ベクトルセットから、パラメータ記憶部７０に記憶されている内部パラメータを用いて、重要度Ｓ［ｐ_１］，…，Ｓ［ｐ_Ｐ］を算出する。

【0080】

ステップＳ２６において、映像区間重要度算出部８０は、ステップＳ２１で算出された負例区間の特徴ベクトルセットから、ランダムにＱ個の特徴ベクトルセットＶ_ＳＥＴ［ｑ_１］，…，Ｖ_ＳＥＴ［ｑ_Ｑ］選択する。
ステップＳ２７において、映像区間重要度算出部８０は、ステップＳ２６で選択した負例区間の特徴ベクトルセットから、パラメータ記憶部７０に記憶されている内部パラメータを用いて、重要度Ｓ［ｑ_１］，…，Ｓ［ｑ_Ｑ］を算出する。
なお、ステップＳ２４，Ｓ２５と、ステップＳ２６，Ｓ２７とは、図１０に示すように並列に処理してもよい。

【0081】

ステップＳ２８において、パラメータ更新部９０は、正例区間の重要度Ｓ［ｐ_１］，…，Ｓ［ｐ_Ｐ］の平均から、負例区間の重要度［ｑ_１］，…，Ｓ［ｑ_Ｑ］の平均を減じた差分値ｄが、前回よりも大きくなるように、パラメータ記憶部７０に記憶されている内部パラメータを更新する。

【0082】

ステップＳ２９において、パラメータ更新部９０は、変数ｎ_ＴＲが予め定めた回数未満（ｎ_ＴＲ＜Ｎ_ＴＲ）、かつ、差分値ｄが予め定めた閾値未満（ｄ＜Ｄ_ＴＨ）であるいか否かを判定する。
ここで、ｎ_ＴＲ＜Ｎ_ＴＲかつｄ＜Ｄ_ＴＨの場合（ステップＳ２９でＹｅｓ）、ステップＳ３０において、パラメータ更新部９０は、変数ｎ_ＴＲに１を加算して、ステップＳ２４に戻る。一方、ｎ_ＴＲ≧Ｎ_ＴＲまたはｄ≧Ｄ_ＴＨの場合（ステップＳ２９でＮｏ）、パラメータ更新部９０はパラメータの更新を行わず、映像区間重要度算出モデル学習装置２は、動作を終了する。

【0083】

これによって、映像区間重要度算出モデル学習装置２は、要約映像生成装置１で用いるニューラルネットワーク（１ＤＣＮＮ，多層全結合ＮＮ）のモデルのパラメータを学習することができる。

【符号の説明】

【0084】

１要約映像生成装置
１０特徴ベクトル算出部
１１複数時間尺設定部
１２モーダル別特徴ベクトル算出部
２０映像区間重要度算出部
２１複数時間尺特徴統合部
２１０１次元ＣＮＮ演算部
２１１要素別最大値抽出部
２２多層全結合ＮＮ演算部（第１の多層全結合ＮＮ演算部）
２３複数モーダル特徴統合部
２３０１次元ＣＮＮ演算部
２３１要素別最大値抽出部
２４多層全結合ＮＮ演算部（第２の多層全結合ＮＮ演算部）
３０パラメータ記憶部
４０映像要約部
４１重要区間ソート部
４２映像切出部
４３映像連結部
５映像区間重要度算出モデル学習装置
５０特徴ベクトル算出部
６０特徴ベクトルセット記憶部
７０パラメータ記憶部
８０映像区間重要度算出部
９０パラメータ更新部

【図1】