特開2022-181790 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 日本放送協会の特許一覧

特開2022-181790要約映像生成装置およびそのプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022181790

(43)【公開日】2022-12-08

(54)【発明の名称】要約映像生成装置およびそのプログラム

(51)【国際特許分類】

H04N 5/91 20060101AFI20221201BHJP

G06T 7/00 20170101ALI20221201BHJP

【ＦＩ】

H04N5/91

G06T7/00 350C

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2021088951

(22)【出願日】2021-05-27

【新規性喪失の例外の表示】特許法第３０条第２項適用申請有り（１）令和３年３月１日に公益社団法人精密工学会画像応用技術専門委員会によってオンライン発行された「動的画像処理実利用化ワークショップ２０２１」の講演論文集において論文発表（２）令和３年３月４日から５日に公益社団法人精密工学会画像応用技術専門委員会によってオンライン開催された「動的画像処理実利用化ワークショップ２０２１」において令和３年３月５日に講演発表

(71)【出願人】

【識別番号】000004352

【氏名又は名称】日本放送協会

(74)【代理人】

【識別番号】110001807

【氏名又は名称】弁理士法人磯野国際特許商標事務所

(72)【発明者】

【氏名】望月貴裕

【テーマコード（参考）】

5C053

5L096

【Ｆターム（参考）】

5C053FA14

5L096AA01

5L096AA06

5L096BA18

5L096DA01

5L096EA35

5L096HA02

5L096HA11

5L096KA04

(57)【要約】

【課題】複数の特徴を組み合わせて、要約映像を生成することが可能な要約映像生成装置を提供する。
【解決手段】要約映像生成装置１は、特徴ごとに異なる分割手法で入力映像を分割し、複数の映像区間系列を生成する映像分割手段１１と、映像区間の映像特徴に基づいて映像区間の映像が要約映像である度合いを示す区間スコアを算出する区間スコア算出手段１２と、入力映像を単位映像区間に分割する単位区間分割手段２０と、単位映像区間ごとに、複数の映像区間系列と重複する映像区間の時間の割合に応じて映像区間に対応する区間スコアを加算して、単位区間スコアを算出する単位区間スコア算出手段３０と、単位区間スコアに基づいて単位映像区間を選択する区間選択手段４１と、選択された単位映像区間の映像を連結する映像連結手段４２と、を備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

入力映像から要約映像を生成する要約映像生成装置であって、
予め定めた特徴ごとに異なる分割手法で前記入力映像を映像区間に分割し、前記特徴ごとに複数の映像区間系列を生成する映像分割手段と、
前記映像分割手段で分割された映像区間の映像特徴に基づいて、前記映像区間の映像が前記要約映像である度合いを示す区間スコアを算出する区間スコア算出手段と、
前記入力映像を固定長の単位映像区間に分割する単位区間分割手段と、
前記単位映像区間ごとに、前記複数の映像区間系列と重複する映像区間の時間の割合に応じて、前記重複する映像区間に対応する前記区間スコアを加算して、単位区間スコアを算出する単位区間スコア算出手段と、
前記単位区間スコアに基づいて、前記要約映像である度合いの高い方から順に予め定めた時間長内で前記単位映像区間を選択する区間選択手段と、
前記区間選択手段で選択された単位映像区間の映像を連結する映像連結手段と、
を備えることを特徴とする要約映像生成装置。

【請求項2】

前記特徴の１つは画像特徴であって、前記映像分割手段は、前記入力映像から前記画像特徴となるカット点を検出し、前記カット点で前記入力映像を分割することを特徴とする請求項１に記載の要約映像生成装置。

【請求項3】

前記特徴の１つは発話特徴であって、前記映像分割手段は、前記入力映像に対応する音声を音声認識し、前記発話特徴となる文の切れ目の時間で前記入力映像を分割することを特徴とする請求項１に記載の要約映像生成装置。

【請求項4】

前記特徴の１つは音響特徴であって、前記映像分割手段は、前記入力映像に対応する音声から前記音響特徴となる無音区間を検出し、前記無音区間で前記入力映像を分割することを特徴とする請求項１に記載の要約映像生成装置。

【請求項5】

前記区間スコア算出手段は、映像が要約映像か非要約映像かを予め学習したニューラルネットワークに基づいて前記区間スコアを算出することを特徴とする請求項１から請求項４のいずれか一項に記載の要約映像生成装置。

【請求項6】

前記単位区間分割手段は、前記映像分割手段で分割されたすべての映像区間の区間長の平均値を、前記単位映像区間の区間長とすることを特徴とする請求項１から請求項５のいずれか一項に記載の要約映像生成装置。

【請求項7】

コンピュータを、請求項１から請求項６のいずれか一項に記載の要約映像生成装置として機能させるための要約映像生成プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、映像を要約した要約映像を生成する要約映像生成装置およびそのプログラムに関する。

【背景技術】

【0002】

近年、ソーシャルメディアサービスの発達等により、放送番組や自主制作した映像をＰＲすることを主な目的として、要約映像をネットワーク上で配信するケースが増えている。しかし、要約映像の編集作業は大きな労力を要するため、自動で要約映像を生成する技術が求められている。

【0003】

従来、要約映像を自動的に生成する技術として、例えば、特許文献１～３にその手法が提案されている。
特許文献１に記載の手法は、映像を分割した分割映像のキーフレームの画像特徴に基づいて、映像から重要度の高い映像区間を抽出して要約映像を生成する手法である。
特許文献２に記載の手法は、映像区間をノードとし、ノード間の映像特徴の類似度をエッジとするグラフを解析し、映像から重要度の高い映像区間の映像を抽出して要約映像を生成する手法である。
特許文献３に記載の手法は、まず、映像を複数のカット映像に分割し、複数の要素に関するスコアを算出する。そして、この手法は、ユーザが設定した各要素の重み配分に基づいてカット映像の総合スコアを算出し、総合スコアの高いカット映像を抽出して要約映像を生成する手法である。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特許第５５３７２８５号公報

【特許文献2】特許第５８９８１１７号公報

【特許文献3】特開２０１８－２０６２９２号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

特許文献１，２に記載の手法は、単一の特徴（画像特徴のみ、映像特徴のみ）で要約映像を生成しており、複数の特徴を考慮していない。そのため、要約映像の品質を高めるためには、複数の特徴を考慮する手法が望まれていた。
特許文献３に記載の手法は、映像を分割したカット映像ごとに、複数の特徴（テロップスコア、顔認識スコア、カメラワークスコア）を統合したスコアで要約映像を生成している。しかし、映像の特徴は、必ずしもカット映像の単位で区分されるものではない。例えば、ある特徴はカット映像の一部にしか存在しない場合もある、そのため、カット映像に、より正確に複数の特徴を反映させたいという要望があった。

【0006】

本発明は、このような従来技術の要望に鑑みてなされたもので、複数の特徴を組み合わせて、従来よりも高品質な要約映像を生成することが可能な要約映像生成装置およびそのプログラムを提供することを課題とする。

【課題を解決するための手段】

【0007】

前記課題を解決するため、本発明に係る要約映像生成装置は、入力映像から要約映像を生成する要約映像生成装置であって、映像分割手段と、区間スコア算出手段と、単位区間分割手段と、単位区間スコア算出手段と、区間選択手段と、映像連結手段と、を備える構成とした。

【0008】

かかる構成において、要約映像生成装置は、映像分割手段によって、予め定めた画像特徴、発話特徴、音響特徴等の特徴ごとに異なる分割手法で入力映像を映像区間に分割する。これによって、映像分割手段は、特徴ごとに複数の映像区間系列を生成する。この映像区間系列は、特徴ごとに異なる分割手法で分割されているため、それぞれの映像区間は必ずしも一致していないことになる。

【0009】

そして、要約映像生成装置は、区間スコア算出手段によって、分割された映像区間の映像特徴に基づいて、映像区間の映像が要約映像である度合いを示す区間スコアを算出する。例えば、区間スコア算出手段は、予め学習したニューラルネットワークを用いて、映像区間の映像から区間スコアを算出する。

【0010】

さらに、要約映像生成装置は、単位区間分割手段によって、入力映像を、要約映像を生成する映像の単位となる固定長の単位映像区間に分割する。
そして、要約映像生成装置は、単位区間スコア算出手段によって、単位映像区間ごとに、複数の映像区間系列と重複する映像区間の時間の割合に応じて、重複する映像区間に対応する区間スコアを加算して、単位区間スコアを算出する。これによって、単位区間スコア算出手段は、複数の特徴から算出されるスコアを単位映像区間において統合することができる。
そして、要約映像生成装置は、区間選択手段によって、単位区間スコアに基づいて、要約映像である度合いの高い方から順に予め定めた時間長内で単位映像区間を選択する。
そして、要約映像生成装置は、映像連結手段によって、区間選択手段で選択された単位映像区間の映像を連結する。

【0011】

これによって、要約映像生成装置は、分割単位の異なる複数の特徴の映像区間のスコア（区間スコア）から、要約映像の構成要素となる単位映像区間のスコア（単位区間スコア）を算出することができ、複数の特徴を組み合わせて要約映像を生成することができる。
なお、要約映像生成装置は、コンピュータを、前記した各手段として機能させるための要約映像生成プログラムで動作させることができる。

【発明の効果】

【0012】

本発明によれば、映像の分割単位の異なる複数の特徴を組み合わせて要約映像を生成することができる。
また、本発明は、複数の特徴を組み合わせたスコアを算出することで、重要度の高い映像区間を精度よく選択することができ、従来よりも品質を高めた要約映像を生成することができる。

【図面の簡単な説明】

【0013】

【図1】本発明の実施形態に係る要約映像生成装置の構成を示すブロック構成図である。

【図2】図１のモーダル別区間スコア算出手段の処理を説明するための説明図である。

【図3】図１の区間スコア算出手段の処理の一例を説明するための説明図である。

【図4】図１の単位区間分割手段の処理を説明するための説明図である。

【図5】図１の単位区間スコア算出手段の処理を説明するための説明図である。

【図6】図１の映像要約手段の処理を説明するための説明図である。

【図7】本発明の実施形態に係る要約映像生成装置の動作を示すフローチャートである。

【図8】映像区間重要度算出モデルを学習する映像区間重要度算出モデル学習装置の構成を示すブロック構成図である。

【図9】図８の映像区間重要度算出モデル学習装置で使用する学習映像（学習データ）である正例区間映像および負例区間映像を説明するための説明図である。

【発明を実施するための形態】

【0014】

＜要約映像生成装置の構成＞
最初に、図１を参照して、本発明の実施形態に係る要約映像生成装置の構成について説明する。

【0015】

要約映像生成装置１は、映像から、内容を要約した要約映像を生成するものである。なお、映像は音声を含んでいるものとする。
図１に示すように、要約映像生成装置１は、複数のモーダル別区間スコア算出手段１０と、単位区間分割手段２０と、単位区間スコア算出手段３０と、映像要約手段４０と、を備える。

【0016】

モーダル別区間スコア算出手段１０は、映像を特徴に基づいて分割し、分割した区間ごとに、要約としての重要度の度合いを示すスコア（区間スコア）を算出するものである。
ここでは、モーダル別区間スコア算出手段１０は、モーダル別に複数のモーダル別区間スコア算出手段１０_１，１０_２，１０_３を備える。本発明において、モーダルとは、映像を分割するための特徴であって、例えば、画像特徴、発話特徴、音響特徴等、映像そのもの、あるいは、映像に対応する音声の特徴である。

【0017】

例えば、ここでは、モーダル別区間スコア算出手段１０_１は、入力される映像Ｖを、映像Ｖを構成するフレーム画像の特徴（画像特徴）によって映像を分割し、分割された映像区間のスコアを算出するものとする。また、モーダル別区間スコア算出手段１０_２は、入力される映像Ｖを、映像Ｖに対応する音声から抽出される発話特徴によって分割し、分割された映像区間のスコアを算出するものとする。また、モーダル別区間スコア算出手段１０_３は、入力される映像Ｖを、映像Ｖに対応する音声から抽出される音響特徴によって分割し、分割された映像区間のスコアを算出するものとする。
モーダル別区間スコア算出手段１０は、映像分割手段１１と、区間スコア算出手段１２と、を備える。

【0018】

映像分割手段１１は、予め定めた特徴ごとに異なる分割手法で入力映像を映像区間に分割し、特徴ごとに複数の映像区間系列を生成するものである。ここでは、映像分割手段１１は、予め定めた特徴ごとに異なるモーダル別区間スコア算出手段１０_１，１０_２，１０_３に備える構成としている。
例えば、モーダル別区間スコア算出手段１０_１の映像分割手段１１は、映像Ｖの画像特徴となるカメラの切り替わりや編集点であるカット点を検出し、カット点ごとに映像Ｖを分割する。なお、映像からカット点を検出する手法は、一般的な手法を用いればよい。例えば、特開２００８－３３７４９号公報に開示されている手法を用いることができる。

【0019】

また、モーダル別区間スコア算出手段１０_２の映像分割手段１１は、映像Ｖに対応する音声を音声認識し、音声認識結果における発話特徴となる文の切れ目の時間で映像Ｖを分割する。なお、音声認識には、一般的な手法を用いることができる。

【0020】

また、モーダル別区間スコア算出手段１０_３の映像分割手段１１は、映像Ｖに対応する音声の音響レベルに基づいて、音響特徴となる予め定めた長さ以上の無音区間を検出し、無音区間（例えば、無音区間の中心）で映像Ｖを分割する。

【0021】

映像分割手段１１は、分割した映像Ｖの個々の映像区間を特定する情報（例えば、映像区間の先頭のタイムコード、時間長）を区間スコア算出手段１２に出力する。
また、ここでは、映像分割手段１１は、分割した映像Ｖの個々の映像区間の区間長（時間長）を単位区間分割手段２０に出力する。

【0022】

区間スコア算出手段１２は、映像分割手段１１で分割された映像区間の映像特徴に基づいて、映像区間の映像が要約映像である度合いを示す区間スコアを算出するものである。ここでは、区間スコア算出手段１２は、予め定めた特徴ごとに異なるモーダル別区間スコア算出手段１０_１，１０_２，１０_３に備える構成としているが、共有して１つの構成としてのよい。

【0023】

区間スコア算出手段１２は、映像区間ごとに特徴ベクトルを算出し、予め学習したニューラルネットワーク等の学習モデルを用いて、映像区間の映像が要約映像であるスコア（区間スコア）を算出する。
例えば、区間スコア算出手段１２は、予め学習済みの画像分類用の畳み込みニューラルネットワーク（ＣＮＮ）に、映像区間の映像を構成するフレーム画像を順次入力し、ＣＮＮの中間層の出力をフレーム数分平均化することで、映像区間の映像の特徴ベクトルを算出する。
そして、区間スコア算出手段１２は、予め要約映像に使用された映像の特徴ベクトルを正例、要約映像に使用されなかった映像（非要約映像）の特徴ベクトルを負例とする学習データで学習した、映像が要約映像であるスコア（重要度）を出力するニューラルネットワークの学習モデル（映像区間重要度算出モデル）を用いて、映像区間のスコアを算出する。なお、映像区間重要度算出モデルの学習手法については、図８を参照して後記する。
区間スコア算出手段１２は、個々の映像区間を特定する情報とともに、算出した区間スコアを単位区間スコア算出手段３０に出力する。

【0024】

すなわち、モーダル別区間スコア算出手段１０は、図２に示すように、映像分割手段１１によって、映像Ｖを、映像Ｖの特徴によってモーダルｎ映像区間Ｖ_ｎ（１），Ｖ_ｎ（２），…，Ｖ_ｎ（Ｎ_ｎ）に分割し、映像区間系列を生成する。ここで、ｎはモーダル（特徴）の種類を示し、モーダルｎ映像区間は、あるモーダル（特徴）ｎによって分割された映像区間を示す。また、Ｎ_ｎは、モーダルｎによって分割された映像Ｖの分割数を示す。
ここでは、モーダル別区間スコア算出手段１０_１，１０_２，１０_３が、それぞれ、モーダル１，２，３に対応するものとする。
そして、モーダル別区間スコア算出手段１０は、図２に示すように、区間スコア算出手段１２によって、モーダルｎ映像区間Ｖ_ｎ（１），Ｖ_ｎ（２），…，Ｖ_ｎ（Ｎ_ｎ）ごとに、区間スコアを算し、モーダルｎ区間スコアＳ_ｎ（１），Ｓ_ｎ（２），…，Ｓ_ｎ（Ｎ_ｎ）とする。

【0025】

このとき、モーダル別区間スコア算出手段１０の区間スコア算出手段１２は、図３に示すように、モーダルｎ映像区間Ｖ_ｎ（ｋ）から、モーダルｎの特徴ベクトルｆ_ｎ（ｋ）を算出する。そして、区間スコア算出手段１２は、学習済ＮＮの演算を行うことで、特徴ベクトルｆ_ｎ（ｋ）から、モーダルｎ区間スコアＳ_ｎ（ｋ）を算出する。

【0026】

単位区間分割手段２０は、入力された映像Ｖを、固定長の単位映像区間に分割するものである。単位映像区間の区間長（単位区間長）は、生成する要約映像の構成要素となる単位映像の長さである。
ここでは、単位区間分割手段２０は、モーダル別区間スコア算出手段１０の映像分割手段１１で分割されたすべての映像区間の区間長の平均値を、単位区間長とする。なお、単位区間長は、必ずしも映像分割手段１１で分割されたすべての映像区間の区間長の平均値を用いる必要はなく、例えば、予め設定された固定値を用いてもよい。
単位区間分割手段２０は、単位区間長で分割された個々の映像区間（単位映像区間）を特定する情報（例えば、単位映像区間の先頭のタイムコード、時間長）を単位区間スコア算出手段３０に出力する。

【0027】

すなわち、単位区間分割手段２０は、図４に示すように、単位区間長Ｔごとに、映像Ｖを単位映像区間Ｖ（１），Ｖ（２），…，Ｖ（Ｎ））に分割する。ここで、Ｎは映像Ｖの分割数（単位映像区間数）である。なお、最後の単位映像区間Ｖ（Ｎ）は、単位区間長Ｔよりも短い場合がある。

【0028】

単位区間スコア算出手段３０は、単位映像区間ごとに、複数の映像区間系列と重複する映像区間の時間の割合に応じて、重複する映像区間に対応する区間スコアを加算して、単位区間スコアを算出するものである。
具体的には、単位区間スコア算出手段３０は、以下の式（１）により、ｋ番目の単位映像区間Ｖ（ｋ）（ｋ＝１，…，Ｎ；Ｎは単位映像区間数）の単位区間スコアＳ（ｋ）を算出する。

【0029】

【数1】

【0030】

式（１）において、ＶＯＬ（ｎ，ｋ）は、各モーダルｎにおいて、単位映像区間Ｖ（ｋ）と時間的重なりのあるモーダルｎ映像区間の集合を示す。また、Ｎ_ＶＯＬ（ｎ，ｋ）は、ＶＯＬ（ｎ，ｋ）に属するモーダルｎ映像区間の数を示す。

【0031】

例えば、図５に示す例において単位映像区間Ｖ（２）に着目すると、Ｖ（２）と時間的重なりのあるモーダル１映像区間の集合ＶＯＬ（１，２）＝｛Ｖ_１（１），Ｖ_１（２）｝、映像区間の数Ｎ_ＶＯＬ（１，２）＝２となる。同様に、Ｖ（２）と時間的重なりのあるモーダル２映像区間の集合ＶＯＬ（２，２）＝｛Ｖ_２（１）｝、映像区間の数Ｎ_ＶＯＬ（２，２）＝１となる。また、Ｖ（２）と時間的重なりのあるモーダル３映像区間の集合ＶＯＬ（３，２）＝｛Ｖ_３（２），Ｖ_３（３）｝、映像区間の数Ｎ_ＶＯＬ（３，２）＝２となる。

【0032】

また、式（１）において、モーダルｎ区間スコアＳ_ｎ（ｉ）（ｉ＝１，…，Ｎ_Ｍ；Ｎ_Ｍはモーダル数）に乗算するＲ（ｉ，ｋ）は、モーダルｎ映像区間Ｖ_ｎ（ｉ）と単位映像区間Ｖ（ｋ）との時間的な重なり率を示す。

【0033】

例えば、図５の単位映像区間Ｖ（２）において単位区間スコアＳ（２）を算出する場合、単位区間スコア算出手段３０は、式（１）によって、モーダル１においては、Ｖ（２）と重なるＶ_１（１），Ｖ_１（２）の割合（時間的な重なり率）に応じて、Ｓ_１（１），Ｓ_１（２）を加算する。他のモーダルにおいても同様である。
これによって、単位区間スコア算出手段３０は、複数の特徴から算出される区間スコアに基づいて、単位区間スコアを算出することができる。
単位区間スコア算出手段３０は、算出した単位区間スコアを映像要約手段４０に出力する。

【0034】

映像要約手段４０は、単位区間スコア算出手段３０で算出された単位区間スコアに基づいて、入力された映像から重要度の高い映像を抽出して要約映像を生成するものである。映像要約手段４０は、区間選択手段４１と、映像連結手段４２と、を備える。

【0035】

区間選択手段４１は、単位区間スコア算出手段３０で算出された単位区間スコアに基づいて、要約映像である度合いの高い方から順に単位映像区間を選択するものである。
ここでは、区間選択手段４１は、重要度の高い方から順に単位映像区間をソートして、重要度の高い予め定めた個数の単位映像区間を選択する。なお、この個数は、外部から設定されることとしてもよい。また、区間選択手段４１は、予め定めた、あるいは、ユーザによって設定された時間長まで、単位映像区間を選択することとしてもよい。
区間選択手段４１は、選択した単位映像区間を特定する情報（例えば、映像区間の先頭のタイムコード、時間長）を、映像連結手段４２に出力する。

【0036】

映像連結手段４２は、区間選択手段４１で選択された単位映像区間の映像を連結することで要約映像を生成するものである。
この映像連結手段４２は、単位映像区間で特定される映像を入力された映像Ｖから抽出する。そして、映像連結手段４２は、抽出した単位映像区間の映像を時系列に連結して、要約映像ＳＶを生成する。

【0037】

すなわち、映像要約手段４０は、図６に示すように、区間選択手段４１によって、単位区間スコアＳ（１），Ｓ（２），…，Ｓ（Ｎ）において、重要度の高い方から順に予め定めた時間長内で単位映像区間Ｖ（ｋ_１），Ｖ（ｋ_２），…，Ｖ（ｋ_Ｎ′）を選択する。
そして、映像要約手段４０は、映像連結手段４２によって、単位映像区間Ｖ（ｋ_１），Ｖ（ｋ_２），…，Ｖ（ｋ_Ｎ′）の映像を時系列に連結して、要約映像ＳＶを生成する。

【0038】

以上説明したように、要約映像生成装置１は、モーダル（特徴）によって異なる映像の分割単位を組み合わせて、複数の特徴に対して重要度の高くなる映像区間を選択した要約映像を生成することができる。
なお、要約映像生成装置１は、図示を省略したコンピュータを、前記した各手段として機能させるための要約映像生成プログラムで動作させることができる。

【0039】

＜要約映像生成装置の動作＞
次に、図７を参照（構成については適宜図１参照）して、本発明の実施形態に係る要約映像生成装置の動作について説明する。なお、ここでは、モーダル別区間スコア算出手段１０_１，１０_２，１０_３において、ステップＳ１，Ｓ２が並列して動作することとするが、モーダル別区間スコア算出手段１０_１，１０_２，１０_３が、順番に動作することとしてもよい。

【0040】

ステップＳ１，Ｓ１_１において、モーダル別区間スコア算出手段１０_１の映像分割手段１１は、モーダル１（ここでは、画像特徴）によって、映像Ｖからカット点を検出し、映像Ｖをモーダル１映像区間に分割する。
ステップＳ２，Ｓ２_１において、モーダル別区間スコア算出手段１０_１の区間スコア算出手段１２は、ステップＳ１_１で分割された映像区間ごとに、重要度の度合いを示す区間スコアを算出する。

【0041】

また、ステップＳ１，Ｓ１_２において、モーダル別区間スコア算出手段１０_２の映像分割手段１１は、モーダル２（ここでは、発話特徴）によって、映像Ｖに対応する音声を認識し、音声認識結果における文の切れ目のタイミングで映像Ｖをモーダル２映像区間に分割する。
ステップＳ２，Ｓ２_２において、モーダル別区間スコア算出手段１０_２の区間スコア算出手段１２は、ステップＳ１_２で分割された映像区間ごとに、重要度の度合いを示す区間スコアを算出する。

【0042】

また、ステップＳ１，Ｓ１_３において、モーダル別区間スコア算出手段１０_３の映像分割手段１１は、モーダル３（ここでは、音響特徴）によって、映像Ｖに対応する音声の音響レベルに基づいて無音区間を検出し、無音区間で映像Ｖをモーダル３映像区間に分割する。
ステップＳ２，Ｓ２_３において、モーダル別区間スコア算出手段１０_３の区間スコア算出手段１２は、ステップＳ１_３で分割された映像区間ごとに、重要度の度合いを示す区間スコアを算出する。

【0043】

ステップＳ３において、単位区間分割手段２０は、入力された映像Ｖを、単位区間長の単位映像区間に分割する。なお、単位区間長は、ステップＳ１（Ｓ１_１，Ｓ１_２，Ｓ１_３）で分割されたすべての映像区間の区間長の平均値とする。なお、単位区間長は、予め設定された固定値でもよい。

【0044】

ステップＳ４において、単位区間スコア算出手段３０は、ステップＳ３で分割された単位映像区間ごとに、当該区間が要約映像である度合いを示す単位区間スコアを算出する。
ここでは、単位区間スコア算出手段３０は、前記式（１）により、ステップＳ１で分割されたモーダル別の映像区間と単位映像区間との時間的重なりの割合に応じて、ステップＳ２で分割されたモーダル別の区間スコアを加算することで、単位映像区間における単位区間スコアを算出する。

【0045】

ステップＳ５において、映像要約手段４０の区間選択手段４１は、ステップＳ４で算出された単位区間スコアにおいて、重要度の高い方から順に予め定めた時間長内で単位映像区間を選択する。

【0046】

ステップＳ６において、映像要約手段４０の映像連結手段４２は、ステップＳ５で選択された単位映像区間の映像を、入力された映像Ｖから抽出し、時系列に連結することで要約映像ＳＶを生成する。
以上の動作によって、要約映像生成装置１は、複数の特徴に対して重要度の高くなる映像区間を選択した要約映像を生成することができる。

【0047】

＜映像区間重要度算出モデルの学習手法について＞
ここで、区間スコア算出手段１２が映像区間の区間スコアを算出するために使用する映像区間重要度算出モデルの学習手法の例について説明する。
映像区間重要度算出モデルの学習は、例えば、図８に示す映像区間重要度算出モデル学習装置２で行うことができる。
図８に示すように、映像区間重要度算出モデル学習装置２は、特徴ベクトル生成手段５０と、ニューラルネットワーク学習手段６０と、映像区間重要度算出モデル記憶手段７０と、を備える。

【0048】

特徴ベクトル生成手段５０は、学習データである学習映像ＬＶから、特徴ベクトルを生成するものである。
この特徴ベクトル生成手段５０は、要約映像に使用された映像である正例区間映像ＬＶ_Ｐとその要約映像に使用されなかった映像である負例区間映像ＬＶ_Ｎとをペアとする学習映像ＬＶから、それぞれ特徴ベクトルとして、正例特徴ベクトルＶ_Ｐと負例特徴ベクトルＶ_Ｎとを生成する。

【0049】

なお、特徴ベクトルの生成は、区間スコア算出手段１２で特徴ベクトルを算出する手法と同じである。すなわち、特徴ベクトル生成手段５０は、予め学習済みの画像分類用の畳み込みニューラルネットワーク（ＣＮＮ）に、映像区間の映像（正例区間映像ＬＶ_Ｐ、負例区間映像ＬＶ_Ｎ）を構成するフレーム画像を順次入力し、ＣＮＮの中間層の出力をフレーム数分平均化することで特徴ベクトル（正例特徴ベクトルＶ_Ｐ、負例特徴ベクトルＶ_Ｎ）を算出する。

【0050】

学習映像ＬＶは、例えば、自作映像とそれを編集した要約映像、放送波から取得した番組映像と通信回線で配信されたその要約映像等を用いて、要約映像を正例区間映像ＬＶ_Ｐとし、要約映像に類似するフレーム画像を元の映像（自作映像、番組映像）から削除した映像を負例区間映像ＬＶ_Ｎとして生成することができる。もちろん、要約映像が元の映像のどの区間を使用したのかが既知であれば、負例区間映像ＬＶ_Ｎは、元の映像から要約映像の区間を削除して生成してもよい。

【0051】

ここで、図９を参照して、学習映像ＬＶについて模式的に説明する。なお、図９に示す四角形は、映像のフレームを示しているが、図示を簡略化するためフレームを間引いて図示している。
図９に示すように、元映像Ｖ_ＯＲＧから要約映像Ｖ_ＳＵＭを生成した場合、抽出した区間映像ＬＶ_Ｐ１，ＬＶ_Ｐ２，…を、学習映像ＬＶの正例区間映像ＬＶ_Ｐとする。
また、元映像Ｖ_ＯＲＧから要約映像Ｖ_ＳＵＭで使用した区間映像ＬＶ_Ｐ１，ＬＶ_Ｐ２，…を削除した区間映像ＬＶ_Ｎ１，ＬＶ_Ｎ２，ＬＶ_Ｎ３，…を、学習映像ＬＶの負例区間映像ＬＶ_Ｎとする。

【0052】

図８に戻って、映像区間重要度算出モデル学習装置２の構成について説明を続ける。
特徴ベクトル生成手段５０は、生成したペアとなる正例特徴ベクトルＶ_Ｐおよび負例特徴ベクトルＶ_Ｎを、ニューラルネットワーク学習手段６０に出力する。

【0053】

ニューラルネットワーク学習手段６０は、特徴ベクトル生成手段５０で生成された特徴ベクトル（正例特徴ベクトル，負例特徴ベクトル）を用いて、映像区間重要度算出モデルのパラメータとして、ニューラルネットワークの内部パラメータを学習するものである。
このニューラルネットワーク学習手段６０は、映像区間重要度算出モデルを用いて、正例特徴ベクトルを入力して演算した重要度から、負例特徴ベクトルを入力して演算した重要度を減じた値が大きくなるように映像区間重要度算出モデルのパラメータを学習する。
ニューラルネットワーク学習手段６０は、正例ＮＮ演算手段６１と、負例ＮＮ演算手段６２と、パラメータ更新手段６３と、を備える。

【0054】

正例ＮＮ（ニューラルネットワーク）演算手段６１は、特徴ベクトル生成手段５０で生成された正例特徴ベクトルＶ_Ｐを入力して、映像区間重要度算出モデルを演算するものである。
正例ＮＮ演算手段６１は、映像区間重要度算出モデル記憶手段７０に記憶されている映像区間重要度算出モデルのパラメータの値を用いて、映像区間重要度算出モデルの演算を行う。
なお、正例ＮＮ演算手段６１は、パラメータ更新手段６３から、再計算の指示があった場合、再度、同一の正例特徴ベクトルＶ_Ｐを入力して演算を行う。
正例ＮＮ演算手段６１は、演算結果をパラメータ更新手段６３に出力する。

【0055】

負例ＮＮ（ニューラルネットワーク）演算手段６２は、特徴ベクトル生成手段５０で生成された負例特徴ベクトルＶ_Ｎを入力して、映像区間重要度算出モデルを演算するものである。
負例ＮＮ演算手段６２は、映像区間重要度算出モデル記憶手段７０に記憶されている映像区間重要度算出モデルのパラメータの値を用いて、映像区間重要度算出モデルの演算を行う。
なお、負例ＮＮ演算手段６２は、パラメータ更新手段６３から、再計算の指示があった場合、再度、同一の負例特徴ベクトルＶ_Ｎを入力して演算を行う。
負例ＮＮ演算手段６２は、演算結果をパラメータ更新手段６３に出力する。

【0056】

パラメータ更新手段６３は、正例ＮＮ演算手段６１および負例ＮＮ演算手段６２の演算結果に基づいて、映像区間重要度算出モデルのパラメータを更新するものである。
このパラメータ更新手段６３は、正例ＮＮ演算手段６１の演算結果（重要度）から負例ＮＮ演算手段６２の演算結果（重要度）を減じた値が大きくなるように、パラメータを更新する。
パラメータ更新手段６３は、更新後のパラメータを映像区間重要度算出モデル記憶手段７０に記憶する。

【0057】

このパラメータ更新手段６３によるパラメータの更新は、一般的な誤差逆伝播法を用いて行うことできる。
このパラメータ更新手段６３は、パラメータ更新後、正例ＮＮ演算手段６１および負例ＮＮ演算手段６２に再計算の指示を行う。
そして、パラメータ更新手段６３は、予め定めた回数、あるいは、パラメータ更新の変動量が予め定めた閾値を下回った場合、正例ＮＮ演算手段６１および負例ＮＮ演算手段６２に、新たな特徴ベクトルによる演算を指示する。

【0058】

これによって、ニューラルネットワーク学習手段６０は、映像区間重要度算出モデルにおいて、正例特徴ベクトルＶ_Ｐを入力した場合の出力値が、負例特徴ベクトルＶ_Ｎを入力した場合の出力値に比べて大きくなるように、パラメータを学習することができる。
このように学習された映像区間重要度算出モデルによって、ある区間映像の特徴ベクトルを入力された場合、その出力値によって、その区間映像が要約映像として重要か否かを示す重要度を算出することができる。
映像区間重要度算出モデル記憶手段７０は、ニューラルネットワーク学習手段６０で学習される映像区間重要度算出モデルのパラメータを記憶するものである。
以上説明したように、映像区間重要度算出モデル学習装置２は、映像の特徴ベクトルから映像が要約映像として重要か否かを示す重要度（スコア）を算出する映像区間重要度算出モデルを学習することができる。

【0059】

以上、本発明の実施形態に係る要約映像生成装置１の構成および動作、ならびに、区間スコアを算出するために使用する映像区間重要度算出モデルの学習手法について説明したが、本発明は、この実施形態に限定されるものではない。
例えば、ここでは、要約映像生成装置１のモーダル別区間スコア算出手段１０を３つで構成したが、少なくとも２以上あればよい。また、モーダル別区間スコア算出手段１０の映像分割手段１１は、前記した特徴で映像を分割するものに限定されず、種々の特徴を用いることができる。例えば、映像分割手段１１は、顔認識により検出される登場人物の人数、カメラワークの動き量等の変化によって、映像区間を分割してもよい。

【0060】

また、ここでは、区間スコア算出手段１２が、学習済のニューラルネットワークの学習モデル（映像区間重要度算出モデル）を用いて、区間スコアを算出したが、必ずしもニューラルネットワークを用いる必要はない。例えば、特許文献３に記載されている種々のスコア（テロップスコア、顔認識スコア、カメラワークスコア等）を用いてもよい。

【符号の説明】

【0061】

１要約映像生成装置
１０モーダル別区間スコア算出手段
１１映像分割手段
１２区間スコア算出手段
２０単位区間分割手段
３０単位区間スコア算出手段
４０映像要約手段
４１区間選択手段
４２映像連結手段
２映像区間重要度算出モデル
５０特徴ベクトル生成手段
６０ニューラルネットワーク学習手段
６１正例ＮＮ演算手段
６２負例ＮＮ演算手段
６３パラメータ更新手段
７０映像区間重要度算出モデル記憶手段

【図1】