特許7652252 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7652252映像処理装置、映像処理方法、及び、プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-03-18

(45)【発行日】2025-03-27

(54)【発明の名称】映像処理装置、映像処理方法、及び、プログラム

(51)【国際特許分類】

H04N 5/91 20060101AFI20250319BHJP

G06T 7/00 20170101ALI20250319BHJP

G06V 10/764 20220101ALI20250319BHJP

G06V 10/778 20220101ALI20250319BHJP

G06V 20/40 20220101ALI20250319BHJP

【ＦＩ】

H04N5/91

G06T7/00 350B

G06V10/764

G06V10/778

G06V20/40

【請求項の数】 12

(21)【出願番号】P 2023526812

(86)(22)【出願日】2021-06-11

(86)【国際出願番号】 JP2021022330

(87)【国際公開番号】W WO2022259530

(87)【国際公開日】2022-12-15

【審査請求日】2023-12-05

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100107331

【弁理士】

【氏名又は名称】中村聡延

(74)【代理人】

【識別番号】100104765

【弁理士】

【氏名又は名称】江上達夫

(74)【代理人】

【識別番号】100131015

【弁理士】

【氏名又は名称】三輪浩誉

(72)【発明者】

【氏名】鍋藤悠

(72)【発明者】

【氏名】渡辺はるな

(72)【発明者】

【氏名】白石壮馬

【審査官】櫃本研太郎

(56)【参考文献】

【文献】国際公開第２０２１／０１９６４５（ＷＯ，Ａ１）

【文献】特開２００７－２６７３５１（ＪＰ，Ａ）

【文献】特開２００６－２８７３１９（ＪＰ，Ａ）

【文献】特開２０１２－０７０２８３（ＪＰ，Ａ）

【文献】特開２００６－０１８９７２（ＪＰ，Ａ）

【文献】特開２００８－３１２０６１（ＪＰ，Ａ）

【文献】特開２０１２－０３９５５０（ＪＰ，Ａ）

【文献】特開２０１１－２２３２８７（ＪＰ，Ａ）

【文献】特開２００７－１７４２６０（ＪＰ，Ａ）

【文献】西澤尚宏 Takahiro NISHIZAWA，映像間の関連性を考慮したダイジェスト自動生成手法の提案 Automatic Generation of Video Digests Consid，第１４回データ工学ワークショップ（ＤＥＷＳ２００３）論文集，日本，電子情報通信学会データ工学研究専門委員会，2003年05月16日

【文献】田村徹 Tohru Tamura，サッカー放送映像のダイジェスト化に向けたショット境界の検出法 A Method of Shot Boundary Detection fr，ＦＩＴ２０１３第１２回情報科学技術フォーラム講演論文集第３分冊査読付き論文・一般論文画像認，日本，一般社団法人情報処理学会社団法人電子情報通信学会，2013年08月20日，p.253-258

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｎ５／２６２、５／９１、

２３／００－２３／９５９

(57)【特許請求の範囲】

【請求項1】

素材映像及びダイジェスト映像を取得する映像取得手段と、
前記素材映像と前記ダイジェスト映像の内容が一致する一致箇所を検出する一致箇所検出手段と、
時間的な距離が所定値以下である一致箇所を、同一の重要シーンとしてグルーピングするグルーピング手段と、
前記グルーピングにより得られた各グループにおいて、前記一致箇所をそれぞれ異なるクラスとし、前記素材映像を前記クラスに分類する分類手段と、
前記素材映像に含まれる各クラスの出現頻度に基づいて、キーイベントを判定するイベント判定手段と、
を備える映像処理装置。

【請求項2】

映像を前記クラスに分類する映像認識モデルを学習する学習手段、を備え、
前記分類手段は、学習により得られた前記映像認識モデルを用いて、前記素材映像を前記クラスに分類する請求項１に記載の映像処理装置。

【請求項3】

前記一致箇所の特徴量を抽出する第１の特徴量抽出手段と、
前記素材映像の各フレーム画像の特徴量を抽出する第２の特徴量抽出手段と、
を備え、
前記分類手段は、前記各一致箇所の特徴量と、前記素材映像の各フレームの特徴量とに基づいて、前記素材映像の各フレームを前記クラスに分類する請求項１に記載の映像処理装置。

【請求項4】

前記イベント判定手段は、最も出現頻度の低いクラスをキーイベントと判定する請求項２又は３に記載の映像処理装置。

【請求項5】

前記イベント判定手段は、最も出現頻度が低く、かつ、前記一致箇所に含まれるクラスをキーイベントと判定する請求項２又は３に記載の映像処理装置。

【請求項6】

前記イベント判定手段は、前記キーイベントと判定されたクラス以外のクラスを関連イベントと判定する請求項２又は３のいずれか一項に記載の映像処理装置。

【請求項7】

前記キーイベント及び前記関連イベントに対応するフラグを付与した学習データを生成する学習データ生成手段を備える請求項６に記載の映像処理装置。

【請求項8】

素材映像及びダイジェスト映像を取得し、
前記素材映像と前記ダイジェスト映像の内容が一致する一致箇所を検出し、
時間的な距離が所定値以下である一致箇所を、同一の重要シーンとしてグルーピングし、
前記グルーピングにより得られた各グループにおいて、前記一致箇所をそれぞれ異なるクラスとし、前記素材映像を前記クラスに分類し、
前記素材映像に含まれる各クラスの出現頻度に基づいて、キーイベントを判定する映像処理方法。

【請求項9】

【請求項10】

入力映像を取得する映像取得手段と、
前記入力映像から重要シーンを検出する重要シーン検出手段と、
前記入力映像から、前記重要シーンの少なくとも後の部分を含む時間的に連続する領域を第１の部分映像として抽出する第１の部分映像抽出手段と、
重要シーンの少なくとも後の部分を含む部分映像から重要シーンに関連する関連イベントを検出するように学習された関連イベント検出モデルを用いて、前記第１の部分映像から関連イベントを検出する関連イベント検出手段と、
を備える映像処理装置。

【請求項11】

前記重要シーンの時刻情報に基づいて、前記入力映像から前記重要シーンの部分をキーイベント部分映像として抽出し、前記関連イベントの時刻情報に基づいて、前記入力映像から前記関連イベントの部分を関連イベント部分映像として抽出する第２の部分映像抽出手段を備える請求項１０に記載の映像処理装置。

【請求項12】

前記キーイベント部分映像と前記関連イベント部分映像とを結合する映像結合手段を備える請求項１１に記載の映像処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、映像データの処理に関する。

【背景技術】

【0002】

動画像から映像ダイジェストを生成する技術が提案されている。特許文献１には、予め準備されたトレーニング動画像及びユーザが指定した重要シーン動画像から学習データファイルを作成し、当該学習データファイルに基づき、対象の動画像から重要シーンの検出を行うハイライト抽出装置が開示されている。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２００８－０２２１０３号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

スポーツなどのダイジェスト映像では、１つのシーンは暗黙的に決まっている複数の映像から構成される場合が多い。例えば、サッカーの試合のダイジェスト映像では、１つのゴールシーンは、フィールド全体を俯瞰で撮影するカメラにより選手のシュートからゴールまでを撮影した映像が流れ、次に別角度から撮影したゴールシーンの映像、又は、選手のゴールパフォーマンスの映像などが流れることが多い。よって、ダイジェスト映像を作成する際には、１つのシーンに関連する複数の短い映像を検出することが求められる。

【0005】

本開示の１つの目的は、素材映像に含まれる重要シーンを構成する複数の短い映像を高精度で検出することが可能な映像処理装置を提供することにある。

【課題を解決するための手段】

【0009】

本発明の１つの観点では、映像処理装置は、
素材映像及びダイジェスト映像を取得する映像取得手段と、
前記素材映像と前記ダイジェスト映像の内容が一致する一致箇所を検出する一致箇所検出手段と、
時間的な距離が所定値以下である一致箇所を、同一の重要シーンとしてグルーピングするグルーピング手段と、
前記グルーピングにより得られた各グループにおいて、前記一致箇所をそれぞれ異なるクラスとし、前記素材映像を前記クラスに分類する分類手段と、
前記素材映像に含まれる各クラスの出現頻度に基づいて、キーイベントを判定するイベント判定手段と、
を備える。

【0010】

本発明の他の観点では、映像処理方法は、
素材映像及びダイジェスト映像を取得し、
前記素材映像と前記ダイジェスト映像の内容が一致する一致箇所を検出し、
時間的な距離が所定値以下である一致箇所を、同一の重要シーンとしてグルーピングし、
前記グルーピングにより得られた各グループにおいて、前記一致箇所をそれぞれ異なるクラスとし、前記素材映像を前記クラスに分類し、
前記素材映像に含まれる各クラスの出現頻度に基づいて、キーイベントを判定する。

【0011】

本発明のさらに他の観点では、プログラムは、
素材映像及びダイジェスト映像を取得し、
前記素材映像と前記ダイジェスト映像の内容が一致する一致箇所を検出し、
時間的な距離が所定値以下である一致箇所を、同一の重要シーンとしてグルーピングし、
前記グルーピングにより得られた各グループにおいて、前記一致箇所をそれぞれ異なるクラスとし、前記素材映像を前記クラスに分類し、
前記素材映像に含まれる各クラスの出現頻度に基づいて、キーイベントを判定する処理をコンピュータに実行させる。
本発明のさらに他の観点では、映像処理装置は、
入力映像を取得する映像取得手段と、
前記入力映像から重要シーンを検出する重要シーン検出手段と、
前記入力映像から、前記重要シーンの少なくとも後の部分を含む時間的に連続する領域を第１の部分映像として抽出する第１の部分映像抽出手段と、
重要シーンの少なくとも後の部分を含む部分映像から重要シーンに関連する関連イベントを検出するように学習された関連イベント検出モデルを用いて、前記第１の部分映像から関連イベントを検出する関連イベント検出手段と、
を備える。

【発明の効果】

【0012】

本開示によれば、素材映像に含まれる重要シーンを構成する複数の短い映像を高精度で検出することが可能となる。

【図面の簡単な説明】

【0013】

【図1】ダイジェスト映像生成装置の概略構成を示す。

【図2】ダイジェスト映像の例を示す。

【図3】あるゴールシーンを構成する要素の例を示す。

【図4】１つの重要シーンを構成する複数の映像を検出する手法を模式的に示す。

【図5】ダイジェスト映像生成装置のハードウェア構成を示すブロック図である。

【図6】ダイジェスト映像生成装置の機能構成を示すブロック図である。

【図7】ダイジェスト映像生成処理のフローチャートである。

【図8】重要シーン検出部の学習のための構成例を示す。

【図9】関連イベント検出部の学習のための構成例を示す。

【図10】第２実施形態に係る学習データ生成装置を示す。

【図11】素材映像とダイジェスト映像を照合する処理を示す。

【図12】一致箇所をグルーピングする処理を示す。

【図13】映像認識モデルの学習及び推論を示す。

【図14】学習データ生成装置のハードウェア構成を示すブロック図である。

【図15】学習データ生成装置の機能構成を示すブロック図である。

【図16】学習データ生成処理のフローチャートである。

【図17】第３実施形態に係る映像処理装置の機能構成を示すブロック図である。

【図18】第３実施形態の映像処理装置による処理のフローチャートである。

【図19】第４実施形態に係る映像処理装置の機能構成を示すブロック図である。

【図20】第４実施形態の映像処理装置による処理のフローチャートである。

【発明を実施するための形態】

【0014】

以下、図面を参照して、本開示の好適な実施形態について説明する。
＜第１実施形態＞
［ダイジェスト映像生成装置］
図１は、ダイジェスト映像生成装置の概略構成を示す。ダイジェスト映像生成装置１００は、素材映像データベース（以下、「データベース」を「ＤＢ」とも記す。）２に接続されている。素材映像ＤＢ２は、各種の素材映像、即ち、動画像を記憶している。素材映像は、例えば放送局から放送されるテレビ番組などの映像でもよく、インターネットなどで配信されている映像でもよい。なお、素材映像は、音声を含んでいてもよく、含んでいなくてもよい。

【0015】

ダイジェスト映像生成装置１００は、素材映像ＤＢ２に保存されている素材映像の一部を用いたダイジェスト映像を生成し、出力する。ダイジェスト映像は、素材映像において何らかのイベントが発生したシーンを時系列につなげた映像である。ダイジェスト映像生成装置１００は、後述するように、機械学習により訓練済みの重要シーン検出モデルを用いて素材映像から重要シーンを検出し、重要シーンを時系列につなげてダイジェスト映像を生成する。重要シーン検出モデルは、素材映像から重要シーンの区間を検出するモデルであり、例えば、ニューラルネットワークを用いた深層学習のモデルを用いることができる。

【0016】

図２は、ダイジェスト映像の例を示す。図２の例では、ダイジェスト映像生成装置１００は、素材映像に含まれる重要シーンＡ～Ｄを抽出し、これらを時系列につなげてダイジェスト映像を生成する。なお、素材映像から抽出された重要シーンは、その内容次第で、ダイジェスト映像中で繰り返し使用されてもよい。重要シーンは、素材映像において何らかのイベントが起きたシーンに対応する複数のフレーム画像により構成される。重要シーンは、その始点及び終点により規定される。なお、終点の代わりに、重要シーンの長さを用いて重要シーンを規定してもよい。

【0017】

［基本原理］
まず、本実施形態に係るダイジェスト映像生成装置の基本原理について説明する。スポーツのダイジェスト映像では、１つの重要シーンは暗黙的に決まっている複数の短い映像から構成されることが多い。例えば、サッカーのゴールシーンでは、フィールド全体を俯瞰で撮影するカメラ（以下、「俯瞰カメラ」と呼ぶ。）により選手のシュートからゴールまでを撮影した映像が映り、次に選手のゴールパフォーマンスの映像、又は、別角度のカメラで撮影したゴールシーンの映像などが映ることが多い。

【0018】

図３は、あるゴールシーンを構成する要素の例を示す。この例では、１つのゴールシーンが映像１～３により構成されている。映像１は俯瞰カメラで撮影したゴールシーンの映像であり、映像２は別カメラで撮影したゴールシーンの映像であり、映像３は選手のゴールパフォーマンスの映像である。

【0019】

通常のダイジェスト映像の生成手法では、ダイジェスト映像として使用された箇所を全て重要シーンとして重要シーン検出モデルを学習し、そのモデルを用いた推論により素材映像から重要シーンを検出する。このため、図３に示すように、学習済みの重要シーン検出モデルを用いて、ある素材映像Ａから重要シーンを検出した場合に、俯瞰カメラで撮影した映像１は検出されるが、選手のゴールパフォーマンスの映像３は検出できないことがある。即ち、上記の重要シーン検出モデルでは、１つの重要シーンを構成する複数の構成要素のうちの一部しか検出できないことがある。

【0020】

そこで、本実施形態では、１つの重要シーンを構成する複数の要素（映像）を階層構造で捉え、２段階の処理を行って素材映像から複数の映像を検出する。図４は、１つの重要シーンを構成する複数の映像を検出する手法を模式的に示す。まず、ダイジェスト映像生成装置１００は、素材映像から重要シーン検出モデルを用いて、重要シーンを検出する。図４では、重要シーン検出モデルは、素材映像Ａから１つの重要シーン５１を検出している。この例では、重要シーン５１は俯瞰カメラで撮影したゴールシーンである。こうして検出された重要シーンのイベントを「キーイベント」とも呼ぶ。

【0021】

次に、ダイジェスト映像生成装置１００は、検出された重要シーンに基づいて、その重要シーンに関連する関連イベントを検出する。具体的には、ダイジェスト映像生成装置１００は、検出された重要シーンの周囲の映像を切り出し、切り出した映像に含まれる関連イベントを検出する。関連イベントの検出は、予め学習済みの関連イベント検出モデルを用いて行われる。即ち、重要シーンの周囲を切り出した部分映像（以下、「重要シーン部分映像」とも呼ぶ。）を関連イベント検出モデルに入力し、関連イベント検出モデルが関連イベントを推論して出力する。

【0022】

図４の例では、素材映像Ａから検出された重要シーン５１に基づいて、素材映像Ａから重要シーン部分映像５２ａが切り出されている。また、素材映像Ａと時間的に同期している素材映像Ｂからも、重要シーン５１に基づいて重要シーン部分映像５２ｂが切り出されている。そして、重要シーン部分映像５２ａ、５２ｂが関連イベント検出モデルに入力され、関連イベントが検出されている。具体的に、重要シーン部分映像５２ａから選手のゴールパフォーマンスの映像が検出され、重要シーン部分映像５２ｂから、別カメラのゴールシーンの映像が検出されている。

【0023】

このように、本実施形態では、まず、素材映像から重要シーンを検出し、その重要シーンの周囲の部分映像から関連イベントを検出するので、素材映像から重要シーンに関連する複数の映像を抽出することができる。よって、１つの重要シーンを、その重要シーンに対応するキーイベントの映像と、関連イベントの映像とにより構成することができる。図４の例では、素材映像Ａ及びＢを用いて、俯瞰カメラによるゴールシーンの映像と、別カメラによるゴールシーンの映像と、選手のゴールパフォーマンスの映像とを含む１つの重要シーンの映像をダイジェスト映像に含めることができる。

【0024】

［ハードウェア構成］
図５は、ダイジェスト映像生成装置１００のハードウェア構成を示すブロック図である。図示のように、ダイジェスト映像生成装置１００は、インタフェース（ＩＦ）１１と、プロセッサ１２と、メモリ１３と、記録媒体１４と、データベース（ＤＢ）１５とを備える。

【0025】

ＩＦ１１は、外部装置との間でデータの入出力を行う。具体的に、インタフェース１１は、素材映像ＤＢ２などからダイジェスト映像を作成する基になる素材映像を受け取り、生成されたダイジェスト映像を出力する。

【0026】

プロセッサ１２は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのコンピュータであり、予め用意されたプログラムを実行することにより、ダイジェスト映像生成装置１００の全体を制御する。具体的に、プロセッサ１２は、後述するダイジェスト映像生成処理を実行する。

【0027】

メモリ１３は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などにより構成される。メモリ１３は、プロセッサ１２による各種の処理の実行中に作業メモリとしても使用される。

【0028】

記録媒体１４は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、ダイジェスト映像生成装置１００に対して着脱可能に構成される。記録媒体１４は、プロセッサ１２が実行する各種のプログラムを記録している。ダイジェスト映像生成装置１００が各種の処理を実行する際には、記録媒体１４に記録されているプログラムがメモリ１３にロードされ、プロセッサ１２により実行される。

【0029】

データベース１５は、ＩＦ１１を通じて入力された素材映像や、生成されたダイジェスト映像などを一時的に記憶する。なお、ダイジェスト映像生成装置１００は、作成者が指示や入力を行うためのキーボード、マウスなどの入力部、及び、液晶ディスプレイなどの表示部を備えていてもよい。

【0030】

［機能構成］
図６は、ダイジェスト映像生成装置１００の機能構成を示すブロック図である。ダイジェスト映像生成装置１００は、映像取得部２１と、重要シーン検出部２２と、第１映像切り出し部２３と、関連イベント検出部２４と、第２映像切り出し部２５と、映像結合部２６と、を備える。

【0031】

映像取得部２１は、外部から入力映像を取得し、重要シーン検出部２２、第１映像切り出し部２３及び第２映像切り出し部２５へ出力する。入力映像は、ダイジェスト映像の基になる素材映像である。入力映像は、複数のカメラで撮影した映像を含むいわゆるスイッチング映像であってもよい。また、映像取得部２１には、ある入力映像に加えて、その入力映像と時間の同期がとれている１又は複数の映像（例えば他のカメラで撮影した映像など）を入力してもよい。

【0032】

重要シーン検出部２２は、入力映像から重要シーンを検出する。重要シーンとは、入力映像のうち、ダイジェスト映像に使用されるような注目すべきイベントが発生したシーンである。重要シーン検出部２２は、予め学習された重要シーン検出モデルを用いて推論を行い、入力映像から重要シーンを検出する。重要シーン検出部２２は、検出した重要シーンの情報、例えば、入力映像における重要シーンの時刻情報などを第１映像切り出し部２３及び第２映像切り出し部２５へ出力する。

【0033】

第１映像切り出し部２３は、入力映像から、重要シーンの周囲の映像を部分映像として切り出す。具体的に、第１映像切り出し部２３は、入力映像から、重要シーンを含む時間的に連続する領域を重要シーン部分映像として切り出す。重要シーン部分映像は、重要シーンと、時間的に重要シーンの前の部分と後の部分の一方又は両方を含み、第１の部分映像に相当する。例えば、第１映像切り出し部２３は、入力映像における重要シーンの前の所定時間幅の部分と、重要シーンと、重要シーンの後の所定時間幅の部分とを含む領域を、重要シーン部分映像として切り出す。

【0034】

なお、第１映像切り出し部２３は、重要シーンの周囲において入力映像から区間検出を行い、検出された映像区間の境界で部分映像を切り出してもよい。区間検出とは、入力映像におけるシーンの切り替わり位置（境界位置）を検出する処理である。これにより、重要シーン部分映像の始点及び終点を、入力映像中のシーンの切り替え位置と一致させることができる。この場合、区間検出処理は、入力映像の色ヒストグラムの変化量や音声の変化量に基づいて区間を検出する手法や、開始点・終了点を求める深層学習モデルなどを用いることができる。開始点・終了点を求める深層学習モデル（例えばＢＭＮ（Ｂｏｕｎｄａｒｙ－ＭａｔｃｈｉｎｇＮｅｔｗｏｒｋ））などを用いれば、入力映像中の色や音声が大きく変化しない箇所でも区間の開始点・終了点を検出することができる。第１映像切り出し部２３は、切り出した重要シーン部分映像を関連イベント検出部２４へ出力する。

【0035】

なお、映像取得部２１に、時間的に同期した複数の入力映像が入力されている場合、第１映像切り出し部２３は、それら複数の入力映像からそれぞれ重要シーン部分映像を切り出してもよい。

【0036】

関連イベント検出部２４は、入力された重要シーン部分映像から関連イベントを検出する。具体的に、関連イベント検出部２４は、予め学習済みの関連イベント検出モデルを用いて重要シーン部分映像の推論を行い、関連イベントを検出する。関連イベント検出部２４は、１つの重要シーンをキーイベントとし、そのキーイベントに関連する１又は複数の関連イベントを検出する。図３の例では、関連イベント検出部２４は、俯瞰カメラによるゴールシーンを重要シーン（キーイベント）とし、それに対する関連イベントとして、別カメラによるゴールシーンや選手のゴールパフォーマンスのシーンを関連イベントとして検出する。関連イベント検出部２４の学習については後述する。関連イベント検出部２４は、検出した関連イベントの情報、例えば、入力映像における各関連イベントの時刻情報などを第２映像切り出し部２５へ出力する。

【0037】

第２映像切り出し部２５は、入力映像から各イベントの部分映像を切り出す。具体的に、第２映像切り出し部２５は、重要シーン検出部２２から入力された重要シーンの時刻情報に基づいて、入力映像から重要シーンの部分をキーイベント部分映像として切り出す。また、第２映像切り出し部２５は、関連イベント検出部２４から入力された各関連イベントの時刻情報に基づいて、入力映像から関連イベントの部分を関連イベント部分映像として切り出す。キーイベント部分映像及び関連イベント部分映像は、第２の部分映像に相当する。そして、第２映像切り出し部２５は、キーイベント部分映像と、１又は複数の関連イベント部分映像とを映像結合部２６へ出力する。

【0038】

なお、第２映像切り出し部２５は、重要シーン検出部２２が検出した重要シーンと、関連イベント検出部２４が検出した関連イベントを元に入力映像から区間検出を行い、検出された映像区間の境界でキーイベント部分映像及び関連イベント部分映像を切り出してもよい。この場合、区間検出処理は、入力映像の色ヒストグラムの変化量や音声の変化量に基づいて区間を検出する手法や、開始点・終了点を求める深層学習モデルなどを用いることができる。

【0039】

映像結合部２６は、第２映像切り出し部２５から入力されたキーイベント部分映像と関連イベント部分映像とを結合してダイジェスト映像を生成し、出力する。なお、映像結合部２６は、基本的にはキーイベント部分映像と関連イベント部分映像とを、それらの時刻情報が示す順序で結合する。但し、映像結合部２６は、複数の関連イベント部分映像を予め決められた所定の順序で結合することとしてもよい。例えば、映像結合部２６は、サッカーのゴールシーンについては、常に別カメラからのゴールシーンの後に選手のゴールパフォーマンスのシーンが来るように結合してもよい。

【0040】

上記の構成において、映像取得部２１は映像取得手段の一例であり、重要シーン検出部２２は重要シーン検出手段の一例であり、第１映像切り出し部２３は第１の部分映像抽出手段の一例であり、関連イベント検出部２４は関連イベント検出手段の一例である。また、第２映像切り出し部２５は第２の部分映像抽出手段の一例であり、映像結合部２６は映像結合手段の一例である。

【0041】

［ダイジェスト映像生成処理］
図７は、ダイジェスト映像生成装置１００によるダイジェスト映像生成処理のフローチャートである。この処理は、図５に示すプロセッサ１２が予め用意されたプログラムを実行し、図６に示す各要素として動作することにより実現される。

【0042】

まず、映像取得部２１は入力映像を取得する（ステップＳ２１）。なお、入力映像は１つの映像でもよく、時間的に同期した複数の映像であってもよい。次に、重要シーン検出部２２は、入力映像から重要シーンを検出する（ステップＳ２２）。次に、第１映像切り出し部２３は、入力映像から重要シーンの周囲を切り出し、重要シーン部分映像を出力する（ステップＳ２３）。

【0043】

次に、関連イベント検出部２４は、重要シーン部分映像から関連イベントを検出する（ステップＳ２４）。次に、第２映像切り出し部２５は、入力映像から、重要シーンに対応するキーイベント部分映像と、関連イベントに対応する関連イベント部分映像とを切り出す（ステップＳ２５）。次に、映像結合部２６は、キーイベント部分映像と関連イベント部分映像とを結合してダイジェスト映像を生成する（ステップＳ２６）。そして、処理は終了する。

【0044】

［重要シーン検出部の学習］
次に、重要シーン検出部２２の学習について説明する。図８は、重要シーン検出部２２の学習のための構成例を示す。重要シーン検出部２２は、学習部２８と接続される。重要シーン検出部２２及び学習部２８には、予め用意された学習データが入力される。具体的に、学習データは、学習用入力映像と、正解データとを含む。正解データは、学習用入力映像における重要シーンの区間を示す時刻情報などのデータである。学習用データは、例えば、予め用意されたダイジェスト映像を用いて生成される。具体的には、学習用入力映像と予め用意されたダイジェスト映像とを比較し、学習用入力映像のうち、ダイジェスト映像と一致する区間を示すデータを正解データとする。

【0045】

学習時には、学習データのうちの学習用入力映像が重要シーン検出部２２に入力され、正解データが学習部２８に入力される。重要シーン検出部２２は、重要シーン検出モデルを用いて、学習用入力映像から重要シーンを検出し、学習部２８へ出力する。重要シーン検出モデルとしては、例えばＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）などを用いることができる。学習部２８は、重要シーン検出部２２が検出した重要シーンと、正解データとに基づいて、重要シーン検出モデルを最適化する。こうして、重要シーン検出部２２の学習が行われる。

【0046】

［関連イベント検出部の学習］
次に、関連イベント検出部２４の学習について説明する。図９は、関連イベント検出部２４の学習のための構成例を示す。関連イベント検出部２４は、学習部２９と接続される。関連イベント検出部２４及び学習部２９には、予め用意された学習データが入力される。具体的に、学習データは、学習用入力映像と、正解データとを含む。正解データは、重要シーン（キーイベント）と関連する関連イベントの区間を示す時刻情報などのデータである。

【0047】

関連イベント検出部２４は、関連イベント検出モデルを用いて関連イベントを検出する。一例では、関連イベント検出モデルとして画像分類タスクを実行するモデルを用い、例えばＣＮＮや、時間情報を用いる３ＤＣＮＮなどを使用するモデルとすることができる。他の例では、関連イベント検出モデルとして、動作認識（ＡｃｔｉｏｎＲｅｃｏｇｎｉｔｉｏｎ）モデルを使用することができる。いずれの場合も、関連イベント検出部２４は、入力映像を必ずいずれかのクラスとして判定してもよいし、推論時のスコアが所定の閾値より小さい箇所を非重要シーンと判定してもよい。

【0048】

関連イベント検出部２４の学習では、ニュース番組等向けに編集されたダイジェスト映像と編集前の素材映像との画像照合を行い、両者が連続して一致した区間の単位でクラスを分類して学習を行う。その際、素材映像のうち、ダイジェスト映像として使用されていない箇所を非重要シーンクラスとし、ダイジェスト映像として使用されているクラスをいくつかのクラスに分類して学習データを生成し、学習を行う。

【0049】

また、関連イベント検出部２４の学習では、ニュース番組等向けに編集されたダイジェスト映像と編集前の素材映像との画像照合を行い、両者が連続して一致した箇所の周囲の数秒の映像を切り出した部分映像を入力として、上記の学習データを生成して学習を行ってもよい。

【0050】

また、関連イベント検出部２４の学習では、ニュース番組等向けに編集されたダイジェスト映像と編集前の素材映像との画像照合を行い、両者が連続して一致した箇所を元に区間検出処理を行い、検出された区間で切り出した部分映像を入力として上記の学習データを生成して学習を行ってもよい。この場合、区間検出処理は、入力映像の色ヒストグラムの変化量や音声の変化量に基づいて区間を検出する手法や、開始点・終了点を求める深層学習モデルなどを用いることができる。

【0051】

＜第２実施形態＞
第２実施形態は、第１実施形態における重要シーン検出部２２及び関連イベント検出部２４の学習に使用する学習データを生成する手法に関する。

【0052】

［学習データ生成装置］
図１０は、第２実施形態に係る学習データ生成装置２００を示す。学習データ生成装置２００には、素材映像と、ダイジェスト映像が入力される。学習データ生成装置２００は、入力された素材映像及びダイジェスト映像を用いて学習データを生成し出力する。

【0053】

［基本原理］
第２実施形態に係る学習データ生成装置２００の基本原理について説明する。学習データ生成装置２００には、素材映像とダイジェスト映像が入力される。図１１に示すように、学習データ生成装置２００は、まず素材映像とダイジェスト映像を照合する。具体的には、学習データ生成装置２００は、ニュース映像などの既に作成済みのダイジェスト映像と、素材映像Ａ、Ｂを照合し、映像の一致箇所を検出する。なお、この例では、素材映像Ｂは、素材映像Ａに含まれる映像とは別のカメラで撮影された映像とする。図１１の例では、素材映像Ａから４つの一致箇所Ｐ１～Ｐ４、素材映像Ｂから２つの一致箇所Ｐ５～Ｐ６が検出されている。

【0054】

次に、図１２に示すように、学習データ生成装置２００は、検出された一致箇所を時間軸上の位置に基づいてグルーピングする。具体的には、学習データ生成装置２００は、時間軸上の距離が所定値より近い一致箇所を同一のグループとし、所定値より遠い一致箇所を別のグループとする。図１２の例では、学習データ生成装置２００は、時間軸上の距離に基づいて一致箇所Ｐ１、Ｐ５、Ｐ２をグループ１とし、一致箇所Ｐ３、Ｐ４をグループ２とし、一致箇所Ｐ６をグループ３とする。

【0055】

次に、図１３（Ａ）に示すように、学習データ生成装置２００は、各グループについて、一致箇所の映像を別クラスとして映像認識モデルを学習する。図１３（Ａ）の例では、グループ１にグルーピングされた一致箇所Ｐ１、Ｐ５、Ｐ２をそれぞれクラス１、クラス２、クラス３として映像認識モデルを学習する。

【0056】

次に、学習データ生成装置２００は、素材映像Ａ、Ｂを学習済みの映像認識モデルに入力して推論を行い、推論結果に基づいてキーイベント及び関連イベントを検出する。具体的には、学習データ生成装置２００は、映像認識モデルを用いて素材映像を複数のクラスに分類する。そして、学習データ生成装置２００は、そのグループに属するクラスのうち、分類結果において最も出現頻度の低いクラスをキーイベントと判定し、それ以外のクラスを関連イベントと判定する。

【0057】

ここで、最も出現頻度の低いクラスをキーイベントと判定する理由は以下の通りである。通常、素材映像は、重要シーンとしてダイジェスト映像に含められるような特徴的な映像と、他のシーンにも共通して含まれるような普遍的な映像とにより構成されている。よって、学習データ生成装置２００は、各グループにおける複数のクラスのうち、素材映像における出現頻度が最も少ないクラスを特徴的な映像と推定し、それ以外のクラスを普遍的な映像と推定する。そして、学習データ生成装置２００は、特徴的な映像に対応するクラスをキーイベントと判定し、それ以外の普遍的な映像に対応するクラスを関連イベントと判定する。

【0058】

図１３（Ｂ）の例では、素材映像において出現頻度が最も少ないクラスはクラス１である。よって、学習データ生成装置２００は、クラス１をキーイベントと判定し、クラス２、３を関連イベントと判定する。こうして、素材映像に対して、正解データとしてキーイベント及び関連イベントのフラグを付与して学習データを生成することができる。

【0059】

［ハードウェア構成］
図１４は、学習データ生成装置２００のハードウェア構成を示すブロック図である。図示のように、学習データ生成装置２００は、インタフェース（ＩＦ）２１１と、プロセッサ２１２と、メモリ２１３と、記録媒体２１４と、データベース（ＤＢ）１５とを備える。

【0060】

ＩＦ２１１は、外部装置との間でデータの入出力を行う。具体的には、インタフェース２１１は、素材映像及びダイジェスト映像を受け取り、生成された学習データを出力する。

【0061】

プロセッサ２１２は、ＣＰＵなどのコンピュータであり、予め用意されたプログラムを実行することにより、学習データ生成装置２００の全体を制御する。具体的に、プロセッサ２１２は、後述する学習データ生成処理を実行する。

【0062】

メモリ２１３は、ＲＯＭ、ＲＡＭなどにより構成される。メモリ２１３は、プロセッサ２１２による各種の処理の実行中に作業メモリとしても使用される。

【0063】

記録媒体２１４は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、学習データ生成装置２００に対して着脱可能に構成される。記録媒体２１４は、プロセッサ２１２が実行する各種のプログラムを記録している。学習データ生成装置２００が各種の処理を実行する際には、記録媒体２１４に記録されているプログラムがメモリ２１３にロードされ、プロセッサ２１２により実行される。

【0064】

データベース２１５は、ＩＦ２１１を通じて入力された素材映像やダイジェスト映像などを一時的に記憶する。なお、学習データ生成装置２００は、作成者が指示や入力を行うためのキーボード、マウスなどの入力部、及び、液晶ディスプレイなどの表示部を備えていてもよい。

【0065】

［機能構成］
図１５は、学習データ生成装置２００の機能構成を示すブロック図である。学習データ生成装置２００は、映像取得部２２１と、映像照合部２２２と、グルーピング部２２３と、モデル学習部２２４と、推論部２２５と、イベント判定部２２６と、学習データ生成部２２７と、を備える。

【0066】

映像取得部２２１は、素材映像とダイジェスト映像を取得する。素材映像は、学習データを生成する元になる映像である。ダイジェスト映像は、ニュース映像などの用途で生成された映像である。映像取得部２２１は、素材映像及びダイジェスト映像を映像照合部２２２へ出力し、素材映像を推論部２２５及び学習データ生成部２２７へ出力する。

【0067】

映像照合部２２２は、図１１に示すように、素材映像とダイジェスト映像とを照合し、素材映像中のダイジェスト映像との一致箇所を検出する。映像照合部２２２は、検出された一致箇所をグルーピング部２２３へ出力する。

【0068】

グルーピング部２２３は、図１２に示すように、入力された一致箇所を時間軸上の位置に基づいてグルーピングする。具体的に、グルーピング部２２３は、時間軸上の距離が所定値より近い一致箇所を同一のグループに含め、時間軸上の距離が所定値より遠い一致箇所を別のグループに含める。グルーピング部２２３は、グルーピング結果をモデル学習部２２４へ出力する。

【0069】

モデル学習部２２４は、図１３（Ａ）に示すように、素材映像を認識・分類する映像認識モデルを学習する。具体的には、モデル学習部２２４は、グルーピング部２２３により生成された各グループについて、そのグループに含まれる一致箇所の各々を別クラスとして認識、分類する映像認識モデルを学習する。映像認識モデルは、深層学習を用いた画像認識モデルや画像分類モデルなどとすることができる。学習により得られた学習済みの映像認識モデルは、素材映像をそのグループに含まれる複数のクラスに分類可能となる。モデル学習部２２４は、学習済みの映像認識モデルを推論部２２５へ出力する。

【0070】

推論部２２５は、モデル学習部２２４により学習済みの映像認識モデルを用いて、図１３（Ｂ）に示すように素材映像の推論を行い、素材映像を複数のクラスに分類する。そして、推論部２２５は、推論結果をイベント判定部２２６へ出力する。

【0071】

イベント判定部２２６は、推論部２２５による推論結果に基づいて、素材映像からイベントを検出する。具体的に、イベント判定部２２６は、推論結果において、最も出現頻度の低いクラスをキーイベントと判定し、それ以外のイベントを関連イベントと判定する。イベント判定部２２６は、判定結果を学習データ生成部２２７へ出力する。

【0072】

学習データ生成部２２７は、キーイベント及び関連イベントの判定結果を正解データとする学習データを生成する。具体的には、学習データ生成部２２７は、素材映像にキーイベント及び／又は関連イベントを示すフラグを付与した学習データを生成し、出力する。例えば、素材映像にキーイベントのフラグを付与した学習データを生成し、第１実施形態における重要シーン検出部２２の学習に用いることができる。また、素材映像に対して関連イベントのフラグを付与した学習データを生成し、第１実施形態における関連イベント検出部２４の学習に用いることができる。

【0073】

上記の構成において、映像取得部２２１は映像取得手段の一例であり、映像照合部２２２は一致箇所検出手段の一例であり、グルーピング部２２３はグルーピング手段の一例である。また、モデル学習部２２４は学習手段の一例であり、推論部２２５は分類手段の一例であり、イベント判定部２２６はイベント判定手段の一例であり、学習データ生成部２２７は学習データ生成手段の一例である。

【0074】

［学習データ生成処理］
図１６は、学習データ生成装置２００による学習データ生成処理のフローチャートである。この処理は、図１４に示すプロセッサ２１２が予め用意されたプログラムを実行し、図１５に示す各要素として動作することにより実現される。

【0075】

まず、映像取得部２２１は、素材映像とダイジェスト映像を取得する（ステップＳ４１）。次に、映像照合部２２２は、素材映像中のダイジェスト映像と一致する箇所を検出する（ステップＳ４２）。次に、グルーピング部２２３は、検出された一致箇所のうち時間の近い一致箇所をグルーピングする（ステップＳ４３）。

【0076】

次に、モデル学習部２２４は、グルーピングにより得られた１つのグループに含まれる一致箇所の各々を別クラスとして映像認識モデルを学習する（ステップＳ４４）。次に、推論部２２５は、学習済みの映像認識モデルを用いて素材映像を推論し、素材映像を複数のクラスに分類する（ステップＳ４５）。次に、イベント判定部２２６は、推論部２２５による推論結果に基づき、そのグループ内のイベントを判定する（ステップＳ４６）。具体的には、イベント判定部２２６は、素材映像中の出現頻度が最も低いクラスをキーイベントと判定し、それ以外のクラスを関連イベントと判定する。

【0077】

次に、学習データ生成装置２００は、ステップＳ４３で得られた全てのグループについて処理を行ったか否かを判定する（ステップＳ４７）。全てのグループについて処理を行っていない場合（ステップＳ４７：Ｎｏ）、別のグループについてステップＳ４４～Ｓ４７の処理が繰り返される。そして、全てのグループについて処理が行われると（ステップＳ４７：Ｙｅｓ）、学習データ生成部２２７は、素材映像中のキーイベント及び／又は関連イベントの箇所にフラグを付与した学習データを生成し、出力する（ステップＳ４８）。そして、学習データ生成処理は終了する。

【0078】

［変形例］
次に、第２実施形態の変形例を説明する。以下の変形例は、適宜組み合わせて第２実施形態に適用することができる。

【0079】

（変形例１）
上記の第２実施形態では、モデル学習部２２４が映像認識モデルを学習し、推論部２２５が学習済みの映像認識モデルを用いて素材映像の推論を行うことにより、素材映像を複数のクラスに分類している。その代わりに、モデルの学習を行わずに素材映像を複数のクラスに分類してもよい。

【0080】

具体的な方法としては、学習データ生成装置２００は、まず事前学習済みの映像認識モデルを用いて、映像照合部２２２が検出した一致箇所をそれぞれ別クラスとして特徴量化する。例えば、映像認識モデルを構成する深層学習ネットワークに各一致箇所を入力し、最終層の前の層から得られる特徴量などを使用することができる。

【0081】

次に、学習データ生成装置２００は、上記と同様の手法で、素材映像を特徴量化する。そして、学習データ生成装置２００は、素材映像の各フレーム画像の特徴量を、上記の各一致箇所に対応する各クラスの特徴量と比較し、最も類似性の高い（特徴量の距離が近い）クラスを、そのフレーム画像が所属するクラスとする。こうして、学習データ生成装置２００は、素材映像の各フレーム画像を複数のクラスに分類し、素材映像中で出現頻度が最も低いクラスをキーイベントと判定する。この場合、学習データ生成装置２００は、第１及び第２の特徴量抽出手段としても機能する。

【0082】

（変形例２）
上記の例では、イベント判定部２２６は、映像認識モデルを用いた素材映像の推論結果に基づき、素材映像において出現頻度が最も低いクラスをキーイベントと判定している。その代わりに、イベント判定部２２６は、素材映像において出現頻度が最も低く、かつ、映像照合部２２２により検出された一致箇所に必ず存在するクラスをキーイベントと判定してもよい。これにより、確実にダイジェスト映像に含まれるクラスをキーイベントとして検出することが可能となる。

【0083】

＜第３実施形態＞
次に、本開示の第３実施形態について説明する。図１７は、第３実施形態に係る映像処理装置の機能構成を示すブロック図である。図示のように、映像処理装置７０は、映像取得手段７１と、重要シーン検出手段７２と、第１の部分映像抽出手段７３と、関連イベント検出手段７４と、を備える。

【0084】

図１８は、映像処理装置７０による処理のフローチャートである。映像取得手段７１は、入力映像を取得する（ステップＳ７１）。重要シーン検出手段７２は、入力映像から重要シーンを検出する（ステップＳ７２）。第１の部分映像抽出手段７３は、入力映像から、重要シーンを含む時間的に連続する領域を第１の部分映像として抽出する（ステップＳ７３）。そして、関連イベント検出手段７４は、第１の部分映像から、重要シーンに関連する関連イベントを検出する（ステップＳ７４）。

【0085】

第３実施形態の映像処理装置７０によれば、入力映像から、重要シーンと、その重要シーンに関連する関連イベントを検出することができる。

【0086】

＜第４実施形態＞
次に、本開示の第４実施形態について説明する。図１９は、第４実施形態に係る映像処理装置の機能構成を示すブロック図である。図示のように、映像処理装置８０は、映像取得手段８１と、一致箇所検出手段８２と、グルーピング手段８３とを備える。

【0087】

図２０は、映像処理装置８０による処理のフローチャートである。映像取得手段８１は、素材映像及びダイジェスト映像を取得する（ステップＳ８１）。一致箇所検出手段８２は、素材映像とダイジェスト映像の内容が一致する一致箇所を検出する（ステップＳ８２）。そして、グルーピング手段８３は、時間的な距離が所定値以下である一致箇所を、同一の重要シーンとしてグルーピングする（ステップＳ８３）。

【0088】

第４実施形態の映像処理装置８０によれば、素材映像のうち、ダイジェスト映像と一致する区間を、同一の重要シーンとしてグルーピングすることができる。

【0089】

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

【0090】

（付記１）
入力映像を取得する映像取得手段と、
前記入力映像から重要シーンを検出する重要シーン検出手段と、
前記入力映像から、前記重要シーンを含む時間的に連続する領域を第１の部分映像として抽出する第１の部分映像抽出手段と、
前記第１の部分映像から、前記重要シーンに関連する関連イベントを検出する関連イベント検出手段と、
を備える映像処理装置。

【0091】

（付記２）
前記第１の部分映像抽出手段は、前記入力映像において、前記重要シーンと、時間的に前記重要シーンの前の部分及び後の部分の少なくとも一方とを含む領域を前記第１の部分映像として抽出する付記１に記載の映像処理装置。

【0092】

（付記３）
前記第１の部分映像抽出手段は、前記入力映像の区間検出を行い、検出された区間の境界位置で前記第１の部分映像を切り出す付記１又は２に記載の映像処理装置。

【0093】

（付記４）
前記映像取得手段は、前記入力映像と時間的に同期している他の入力映像を取得し、
前記第１の部分映像抽出手段は、前記他の入力映像からも、前記重要シーンを含む時間的に連続する領域を前記第１の部分映像として抽出する付記１乃至３のいずれか一項に記載の映像処理装置。

【0094】

（付記５）
前記入力映像から、前記重要シーンに対応する領域、及び、前記関連イベントに対応する領域を第２の部分映像として抽出する第２の部分映像抽出手段と、
前記第２の部分映像を結合してダイジェスト映像を生成する映像結合手段と、
を備える付記１乃至４のいずれか一項に記載の映像処理装置。

【0095】

（付記６）
前記第２の部分映像抽出手段は、前記入力映像の区間検出を行い、検出された区間の境界位置で前記第２の部分映像を抽出する付記５に記載の映像処理装置。

【0096】

（付記７）
入力映像を取得し、
前記入力映像から重要シーンを検出し、
前記入力映像から、前記重要シーンを含む時間的に連続する領域を第１の部分映像として抽出し、
前記第１の部分映像から、前記重要シーンに関連する関連イベントを検出する映像処理方法。

【0097】

（付記８）
入力映像を取得し、
前記入力映像から重要シーンを検出し、
前記入力映像から、前記重要シーンを含む時間的に連続する領域を第１の部分映像として抽出し、
前記第１の部分映像から、前記重要シーンに関連する関連イベントを検出する処理をコンピュータに実行させるプログラムを記録した記録媒体。

【0098】

（付記９）
素材映像及びダイジェスト映像を取得する映像取得手段と、
前記素材映像と前記ダイジェスト映像の内容が一致する一致箇所を検出する一致箇所検出手段と、
時間的な距離が所定値以下である一致箇所を、同一の重要シーンとしてグルーピングするグルーピング手段と、
を備える映像処理装置。

【0099】

（付記１０）
前記グルーピングにより得られた各グループにおいて、前記一致箇所をそれぞれ異なるクラスとし、映像を前記クラスに分類する映像認識モデルを学習する学習手段と、
学習により得られた前記映像認識モデルを用いて、前記素材映像を前記クラスに分類する分類手段と、
前記素材映像に含まれる各クラスの出現頻度に基づいて、キーイベントを判定するイベント判定手段と、
を備える付記９に記載の映像処理装置。

【0100】

（付記１１）
前記グルーピングにより得られた各グループにおいて、前記一致箇所をそれぞれ異なるクラスとし、各一致箇所の特徴量を抽出する第１の特徴量抽出手段と、
前記素材映像の各フレーム画像の特徴量を抽出する第２の特徴量抽出手段と、
前記各一致箇所の特徴量と、前記素材映像の各フレームの特徴量とに基づいて、前記素材映像の各フレームを前記クラスに分類する分類手段と、
前記素材映像に含まれる各クラスの出現頻度に基づいて、キーイベントを判定するイベント判定手段と、
を備える付記９に記載の映像処理装置。

【0101】

（付記１２）
前記イベント判定手段は、最も出現頻度の低いクラスをキーイベントと判定する付記１０又は１１に記載の映像処理装置。

【0102】

（付記１３）
前記イベント判定手段は、最も出現頻度が低く、かつ、前記一致箇所に含まれるクラスをキーイベントと判定する付記１０又は１１に記載の映像処理装置。

【0103】

（付記１４）
前記イベント判定手段は、前記キーイベントと判定されたクラス以外のクラスを関連イベントと判定する付記１０乃至１３のいずれか一項に記載の映像処理装置。

【0104】

（付記１５）
前記キーイベント及び前記関連イベントに対応するフラグを付与した学習データを生成する学習データ生成手段を備える付記１４に記載の映像処理装置。

【0105】

（付記１６）
素材映像及びダイジェスト映像を取得し、
前記素材映像と前記ダイジェスト映像の内容が一致する一致箇所を検出し、
時間的な距離が所定値以下である一致箇所を、同一の重要シーンとしてグルーピングする映像処理方法。

【0106】

（付記１７）
素材映像及びダイジェスト映像を取得し、
前記素材映像と前記ダイジェスト映像の内容が一致する一致箇所を検出し、
時間的な距離が所定値以下である一致箇所を、同一の重要シーンとしてグルーピングする処理をコンピュータに実行させるプログラムを記録した記録媒体。

【0107】

以上、実施形態及び実施例を参照して本開示を説明したが、本開示は上記実施形態及び実施例に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。

【符号の説明】

【0108】

１２、２１２プロセッサ
２１、２２１映像取得部
２２重要シーン検出部
２３第１映像切り出し部
２４関連イベント検出部
２５第２映像切り出し部
２６映像結合部
１００ダイジェスト映像生成装置
２００学習データ生成装置
２２２映像照合部
２２３グルーピング部
２２４モデル学習部
２２５推論部
２２６イベント判定部
２２７学習データ生成部

【図1】