(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-03-18
(45)【発行日】2025-03-27
(54)【発明の名称】映像処理装置、映像処理方法、及び、プログラム
(51)【国際特許分類】
H04N 5/91 20060101AFI20250319BHJP
G06T 7/00 20170101ALI20250319BHJP
G06V 10/764 20220101ALI20250319BHJP
G06V 10/778 20220101ALI20250319BHJP
G06V 20/40 20220101ALI20250319BHJP
【FI】
H04N5/91
G06T7/00 350B
G06V10/764
G06V10/778
G06V20/40
(21)【出願番号】P 2023526812
(86)(22)【出願日】2021-06-11
(86)【国際出願番号】 JP2021022330
(87)【国際公開番号】W WO2022259530
(87)【国際公開日】2022-12-15
【審査請求日】2023-12-05
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100107331
【氏名又は名称】中村 聡延
(74)【代理人】
【識別番号】100104765
【氏名又は名称】江上 達夫
(74)【代理人】
【識別番号】100131015
【氏名又は名称】三輪 浩誉
(72)【発明者】
【氏名】鍋藤 悠
(72)【発明者】
【氏名】渡辺 はるな
(72)【発明者】
【氏名】白石 壮馬
【審査官】櫃本 研太郎
(56)【参考文献】
【文献】国際公開第2021/019645(WO,A1)
【文献】特開2007-267351(JP,A)
【文献】特開2006-287319(JP,A)
【文献】特開2012-070283(JP,A)
【文献】特開2006-018972(JP,A)
【文献】特開2008-312061(JP,A)
【文献】特開2012-039550(JP,A)
【文献】特開2011-223287(JP,A)
【文献】特開2007-174260(JP,A)
【文献】西澤 尚宏 Takahiro NISHIZAWA,映像間の関連性を考慮したダイジェスト自動生成手法の提案 Automatic Generation of Video Digests Consid,第14回データ工学ワークショップ(DEWS2003)論文集,日本,電子情報通信学会データ工学研究専門委員会,2003年05月16日
【文献】田村 徹 Tohru Tamura,サッカー放送映像のダイジェスト化に向けたショット境界の検出法 A Method of Shot Boundary Detection fr,FIT2013 第12回情報科学技術フォーラム 講演論文集 第3分冊 査読付き論文・一般論文 画像認,日本,一般社団法人情報処理学会 社団法人電子情報通信学会,2013年08月20日,p.253-258
(58)【調査した分野】(Int.Cl.,DB名)
H04N 5/262、5/91、
23/00-23/959
(57)【特許請求の範囲】
【請求項1】
素材映像及びダイジェスト映像を取得する映像取得手段と、
前記素材映像と前記ダイジェスト映像の内容が一致する一致箇所を検出する一致箇所検出手段と、
時間的な距離が所定値以下である一致箇所を、同一の重要シーンとしてグルーピングするグルーピング手段と、
前記グルーピングにより得られた各グループにおいて、前記一致箇所をそれぞれ異なるクラスとし、前記素材映像を前記クラスに分類する分類手段と、
前記素材映像に含まれる各クラスの出現頻度に基づいて、キーイベントを判定するイベント判定手段と、
を備える映像処理装置。
【請求項2】
映像を前記クラスに分類する映像認識モデルを学習する学習手段、を備え、
前記分類手段は、学習により得られた前記映像認識モデルを用いて、前記素材映像を前記クラスに分類する請求項1に記載の映像処理装置。
【請求項3】
前記一致箇所の特徴量を抽出する第1の特徴量抽出手段と、
前記素材映像の各フレーム画像の特徴量を抽出する第2の特徴量抽出手段と、
を備え、
前記分類手段は、前記各一致箇所の特徴量と、前記素材映像の各フレームの特徴量とに基づいて、前記素材映像の各フレームを前記クラスに分類する請求項1に記載の映像処理装置。
【請求項4】
前記イベント判定手段は、最も出現頻度の低いクラスをキーイベントと判定する請求項2又は3に記載の映像処理装置。
【請求項5】
前記イベント判定手段は、最も出現頻度が低く、かつ、前記一致箇所に含まれるクラスをキーイベントと判定する請求項2又は3に記載の映像処理装置。
【請求項6】
前記イベント判定手段は、前記キーイベントと判定されたクラス以外のクラスを関連イベントと判定する請求項2又は3のいずれか一項に記載の映像処理装置。
【請求項7】
前記キーイベント及び前記関連イベントに対応するフラグを付与した学習データを生成する学習データ生成手段を備える請求項6に記載の映像処理装置。
【請求項8】
素材映像及びダイジェスト映像を取得し、
前記素材映像と前記ダイジェスト映像の内容が一致する一致箇所を検出し、
時間的な距離が所定値以下である一致箇所を、同一の重要シーンとしてグルーピングし、
前記グルーピングにより得られた各グループにおいて、前記一致箇所をそれぞれ異なるクラスとし、前記素材映像を前記クラスに分類し、
前記素材映像に含まれる各クラスの出現頻度に基づいて、キーイベントを判定する映像処理方法。
【請求項9】
素材映像及びダイジェスト映像を取得し、
前記素材映像と前記ダイジェスト映像の内容が一致する一致箇所を検出し、
時間的な距離が所定値以下である一致箇所を、同一の重要シーンとしてグルーピングし、
前記グルーピングにより得られた各グループにおいて、前記一致箇所をそれぞれ異なるクラスとし、前記素材映像を前記クラスに分類し、
前記素材映像に含まれる各クラスの出現頻度に基づいて、キーイベントを判定する処理をコンピュータに実行させるプログラム。
【請求項10】
入力映像を取得する映像取得手段と、
前記入力映像から重要シーンを検出する重要シーン検出手段と、
前記入力映像から、前記重要シーンの少なくとも後の部分を含む時間的に連続する領域を第1の部分映像として抽出する第1の部分映像抽出手段と、
重要シーンの少なくとも後の部分を含む部分映像から重要シーンに関連する関連イベントを検出するように学習された関連イベント検出モデルを用いて、前記第1の部分映像から関連イベントを検出する関連イベント検出手段と、
を備える映像処理装置。
【請求項11】
前記重要シーンの時刻情報に基づいて、前記入力映像から前記重要シーンの部分をキーイベント部分映像として抽出し、前記関連イベントの時刻情報に基づいて、前記入力映像から前記関連イベントの部分を関連イベント部分映像として抽出する第2の部分映像抽出手段を備える請求項10に記載の映像処理装置。
【請求項12】
前記キーイベント部分映像と前記関連イベント部分映像とを結合する映像結合手段を備える請求項11に記載の映像処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、映像データの処理に関する。
【背景技術】
【0002】
動画像から映像ダイジェストを生成する技術が提案されている。特許文献1には、予め準備されたトレーニング動画像及びユーザが指定した重要シーン動画像から学習データファイルを作成し、当該学習データファイルに基づき、対象の動画像から重要シーンの検出を行うハイライト抽出装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
スポーツなどのダイジェスト映像では、1つのシーンは暗黙的に決まっている複数の映像から構成される場合が多い。例えば、サッカーの試合のダイジェスト映像では、1つのゴールシーンは、フィールド全体を俯瞰で撮影するカメラにより選手のシュートからゴールまでを撮影した映像が流れ、次に別角度から撮影したゴールシーンの映像、又は、選手のゴールパフォーマンスの映像などが流れることが多い。よって、ダイジェスト映像を作成する際には、1つのシーンに関連する複数の短い映像を検出することが求められる。
【0005】
本開示の1つの目的は、素材映像に含まれる重要シーンを構成する複数の短い映像を高精度で検出することが可能な映像処理装置を提供することにある。
【課題を解決するための手段】
【0009】
本発明の1つの観点では、映像処理装置は、
素材映像及びダイジェスト映像を取得する映像取得手段と、
前記素材映像と前記ダイジェスト映像の内容が一致する一致箇所を検出する一致箇所検出手段と、
時間的な距離が所定値以下である一致箇所を、同一の重要シーンとしてグルーピングするグルーピング手段と、
前記グルーピングにより得られた各グループにおいて、前記一致箇所をそれぞれ異なるクラスとし、前記素材映像を前記クラスに分類する分類手段と、
前記素材映像に含まれる各クラスの出現頻度に基づいて、キーイベントを判定するイベント判定手段と、
を備える。
【0010】
本発明の他の観点では、映像処理方法は、
素材映像及びダイジェスト映像を取得し、
前記素材映像と前記ダイジェスト映像の内容が一致する一致箇所を検出し、
時間的な距離が所定値以下である一致箇所を、同一の重要シーンとしてグルーピングし、
前記グルーピングにより得られた各グループにおいて、前記一致箇所をそれぞれ異なるクラスとし、前記素材映像を前記クラスに分類し、
前記素材映像に含まれる各クラスの出現頻度に基づいて、キーイベントを判定する。
【0011】
本発明のさらに他の観点では、プログラムは、
素材映像及びダイジェスト映像を取得し、
前記素材映像と前記ダイジェスト映像の内容が一致する一致箇所を検出し、
時間的な距離が所定値以下である一致箇所を、同一の重要シーンとしてグルーピングし、
前記グルーピングにより得られた各グループにおいて、前記一致箇所をそれぞれ異なるクラスとし、前記素材映像を前記クラスに分類し、
前記素材映像に含まれる各クラスの出現頻度に基づいて、キーイベントを判定する処理をコンピュータに実行させる。
本発明のさらに他の観点では、映像処理装置は、
入力映像を取得する映像取得手段と、
前記入力映像から重要シーンを検出する重要シーン検出手段と、
前記入力映像から、前記重要シーンの少なくとも後の部分を含む時間的に連続する領域を第1の部分映像として抽出する第1の部分映像抽出手段と、
重要シーンの少なくとも後の部分を含む部分映像から重要シーンに関連する関連イベントを検出するように学習された関連イベント検出モデルを用いて、前記第1の部分映像から関連イベントを検出する関連イベント検出手段と、
を備える。
【発明の効果】
【0012】
本開示によれば、素材映像に含まれる重要シーンを構成する複数の短い映像を高精度で検出することが可能となる。
【図面の簡単な説明】
【0013】
【
図1】ダイジェスト映像生成装置の概略構成を示す。
【
図3】あるゴールシーンを構成する要素の例を示す。
【
図4】1つの重要シーンを構成する複数の映像を検出する手法を模式的に示す。
【
図5】ダイジェスト映像生成装置のハードウェア構成を示すブロック図である。
【
図6】ダイジェスト映像生成装置の機能構成を示すブロック図である。
【
図7】ダイジェスト映像生成処理のフローチャートである。
【
図8】重要シーン検出部の学習のための構成例を示す。
【
図9】関連イベント検出部の学習のための構成例を示す。
【
図10】第2実施形態に係る学習データ生成装置を示す。
【
図11】素材映像とダイジェスト映像を照合する処理を示す。
【
図14】学習データ生成装置のハードウェア構成を示すブロック図である。
【
図15】学習データ生成装置の機能構成を示すブロック図である。
【
図16】学習データ生成処理のフローチャートである。
【
図17】第3実施形態に係る映像処理装置の機能構成を示すブロック図である。
【
図18】第3実施形態の映像処理装置による処理のフローチャートである。
【
図19】第4実施形態に係る映像処理装置の機能構成を示すブロック図である。
【
図20】第4実施形態の映像処理装置による処理のフローチャートである。
【発明を実施するための形態】
【0014】
以下、図面を参照して、本開示の好適な実施形態について説明する。
<第1実施形態>
[ダイジェスト映像生成装置]
図1は、ダイジェスト映像生成装置の概略構成を示す。ダイジェスト映像生成装置100は、素材映像データベース(以下、「データベース」を「DB」とも記す。)2に接続されている。素材映像DB2は、各種の素材映像、即ち、動画像を記憶している。素材映像は、例えば放送局から放送されるテレビ番組などの映像でもよく、インターネットなどで配信されている映像でもよい。なお、素材映像は、音声を含んでいてもよく、含んでいなくてもよい。
【0015】
ダイジェスト映像生成装置100は、素材映像DB2に保存されている素材映像の一部を用いたダイジェスト映像を生成し、出力する。ダイジェスト映像は、素材映像において何らかのイベントが発生したシーンを時系列につなげた映像である。ダイジェスト映像生成装置100は、後述するように、機械学習により訓練済みの重要シーン検出モデルを用いて素材映像から重要シーンを検出し、重要シーンを時系列につなげてダイジェスト映像を生成する。重要シーン検出モデルは、素材映像から重要シーンの区間を検出するモデルであり、例えば、ニューラルネットワークを用いた深層学習のモデルを用いることができる。
【0016】
図2は、ダイジェスト映像の例を示す。
図2の例では、ダイジェスト映像生成装置100は、素材映像に含まれる重要シーンA~Dを抽出し、これらを時系列につなげてダイジェスト映像を生成する。なお、素材映像から抽出された重要シーンは、その内容次第で、ダイジェスト映像中で繰り返し使用されてもよい。重要シーンは、素材映像において何らかのイベントが起きたシーンに対応する複数のフレーム画像により構成される。重要シーンは、その始点及び終点により規定される。なお、終点の代わりに、重要シーンの長さを用いて重要シーンを規定してもよい。
【0017】
[基本原理]
まず、本実施形態に係るダイジェスト映像生成装置の基本原理について説明する。スポーツのダイジェスト映像では、1つの重要シーンは暗黙的に決まっている複数の短い映像から構成されることが多い。例えば、サッカーのゴールシーンでは、フィールド全体を俯瞰で撮影するカメラ(以下、「俯瞰カメラ」と呼ぶ。)により選手のシュートからゴールまでを撮影した映像が映り、次に選手のゴールパフォーマンスの映像、又は、別角度のカメラで撮影したゴールシーンの映像などが映ることが多い。
【0018】
図3は、あるゴールシーンを構成する要素の例を示す。この例では、1つのゴールシーンが映像1~3により構成されている。映像1は俯瞰カメラで撮影したゴールシーンの映像であり、映像2は別カメラで撮影したゴールシーンの映像であり、映像3は選手のゴールパフォーマンスの映像である。
【0019】
通常のダイジェスト映像の生成手法では、ダイジェスト映像として使用された箇所を全て重要シーンとして重要シーン検出モデルを学習し、そのモデルを用いた推論により素材映像から重要シーンを検出する。このため、
図3に示すように、学習済みの重要シーン検出モデルを用いて、ある素材映像Aから重要シーンを検出した場合に、俯瞰カメラで撮影した映像1は検出されるが、選手のゴールパフォーマンスの映像3は検出できないことがある。即ち、上記の重要シーン検出モデルでは、1つの重要シーンを構成する複数の構成要素のうちの一部しか検出できないことがある。
【0020】
そこで、本実施形態では、1つの重要シーンを構成する複数の要素(映像)を階層構造で捉え、2段階の処理を行って素材映像から複数の映像を検出する。
図4は、1つの重要シーンを構成する複数の映像を検出する手法を模式的に示す。まず、ダイジェスト映像生成装置100は、素材映像から重要シーン検出モデルを用いて、重要シーンを検出する。
図4では、重要シーン検出モデルは、素材映像Aから1つの重要シーン51を検出している。この例では、重要シーン51は俯瞰カメラで撮影したゴールシーンである。こうして検出された重要シーンのイベントを「キーイベント」とも呼ぶ。
【0021】
次に、ダイジェスト映像生成装置100は、検出された重要シーンに基づいて、その重要シーンに関連する関連イベントを検出する。具体的には、ダイジェスト映像生成装置100は、検出された重要シーンの周囲の映像を切り出し、切り出した映像に含まれる関連イベントを検出する。関連イベントの検出は、予め学習済みの関連イベント検出モデルを用いて行われる。即ち、重要シーンの周囲を切り出した部分映像(以下、「重要シーン部分映像」とも呼ぶ。)を関連イベント検出モデルに入力し、関連イベント検出モデルが関連イベントを推論して出力する。
【0022】
図4の例では、素材映像Aから検出された重要シーン51に基づいて、素材映像Aから重要シーン部分映像52aが切り出されている。また、素材映像Aと時間的に同期している素材映像Bからも、重要シーン51に基づいて重要シーン部分映像52bが切り出されている。そして、重要シーン部分映像52a、52bが関連イベント検出モデルに入力され、関連イベントが検出されている。具体的に、重要シーン部分映像52aから選手のゴールパフォーマンスの映像が検出され、重要シーン部分映像52bから、別カメラのゴールシーンの映像が検出されている。
【0023】
このように、本実施形態では、まず、素材映像から重要シーンを検出し、その重要シーンの周囲の部分映像から関連イベントを検出するので、素材映像から重要シーンに関連する複数の映像を抽出することができる。よって、1つの重要シーンを、その重要シーンに対応するキーイベントの映像と、関連イベントの映像とにより構成することができる。
図4の例では、素材映像A及びBを用いて、俯瞰カメラによるゴールシーンの映像と、別カメラによるゴールシーンの映像と、選手のゴールパフォーマンスの映像とを含む1つの重要シーンの映像をダイジェスト映像に含めることができる。
【0024】
[ハードウェア構成]
図5は、ダイジェスト映像生成装置100のハードウェア構成を示すブロック図である。図示のように、ダイジェスト映像生成装置100は、インタフェース(IF)11と、プロセッサ12と、メモリ13と、記録媒体14と、データベース(DB)15とを備える。
【0025】
IF11は、外部装置との間でデータの入出力を行う。具体的に、インタフェース11は、素材映像DB2などからダイジェスト映像を作成する基になる素材映像を受け取り、生成されたダイジェスト映像を出力する。
【0026】
プロセッサ12は、CPU(Central Processing Unit)などのコンピュータであり、予め用意されたプログラムを実行することにより、ダイジェスト映像生成装置100の全体を制御する。具体的に、プロセッサ12は、後述するダイジェスト映像生成処理を実行する。
【0027】
メモリ13は、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。メモリ13は、プロセッサ12による各種の処理の実行中に作業メモリとしても使用される。
【0028】
記録媒体14は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、ダイジェスト映像生成装置100に対して着脱可能に構成される。記録媒体14は、プロセッサ12が実行する各種のプログラムを記録している。ダイジェスト映像生成装置100が各種の処理を実行する際には、記録媒体14に記録されているプログラムがメモリ13にロードされ、プロセッサ12により実行される。
【0029】
データベース15は、IF11を通じて入力された素材映像や、生成されたダイジェスト映像などを一時的に記憶する。なお、ダイジェスト映像生成装置100は、作成者が指示や入力を行うためのキーボード、マウスなどの入力部、及び、液晶ディスプレイなどの表示部を備えていてもよい。
【0030】
[機能構成]
図6は、ダイジェスト映像生成装置100の機能構成を示すブロック図である。ダイジェスト映像生成装置100は、映像取得部21と、重要シーン検出部22と、第1映像切り出し部23と、関連イベント検出部24と、第2映像切り出し部25と、映像結合部26と、を備える。
【0031】
映像取得部21は、外部から入力映像を取得し、重要シーン検出部22、第1映像切り出し部23及び第2映像切り出し部25へ出力する。入力映像は、ダイジェスト映像の基になる素材映像である。入力映像は、複数のカメラで撮影した映像を含むいわゆるスイッチング映像であってもよい。また、映像取得部21には、ある入力映像に加えて、その入力映像と時間の同期がとれている1又は複数の映像(例えば他のカメラで撮影した映像など)を入力してもよい。
【0032】
重要シーン検出部22は、入力映像から重要シーンを検出する。重要シーンとは、入力映像のうち、ダイジェスト映像に使用されるような注目すべきイベントが発生したシーンである。重要シーン検出部22は、予め学習された重要シーン検出モデルを用いて推論を行い、入力映像から重要シーンを検出する。重要シーン検出部22は、検出した重要シーンの情報、例えば、入力映像における重要シーンの時刻情報などを第1映像切り出し部23及び第2映像切り出し部25へ出力する。
【0033】
第1映像切り出し部23は、入力映像から、重要シーンの周囲の映像を部分映像として切り出す。具体的に、第1映像切り出し部23は、入力映像から、重要シーンを含む時間的に連続する領域を重要シーン部分映像として切り出す。重要シーン部分映像は、重要シーンと、時間的に重要シーンの前の部分と後の部分の一方又は両方を含み、第1の部分映像に相当する。例えば、第1映像切り出し部23は、入力映像における重要シーンの前の所定時間幅の部分と、重要シーンと、重要シーンの後の所定時間幅の部分とを含む領域を、重要シーン部分映像として切り出す。
【0034】
なお、第1映像切り出し部23は、重要シーンの周囲において入力映像から区間検出を行い、検出された映像区間の境界で部分映像を切り出してもよい。区間検出とは、入力映像におけるシーンの切り替わり位置(境界位置)を検出する処理である。これにより、重要シーン部分映像の始点及び終点を、入力映像中のシーンの切り替え位置と一致させることができる。この場合、区間検出処理は、入力映像の色ヒストグラムの変化量や音声の変化量に基づいて区間を検出する手法や、開始点・終了点を求める深層学習モデルなどを用いることができる。開始点・終了点を求める深層学習モデル(例えばBMN(Boundary-Matching Network))などを用いれば、入力映像中の色や音声が大きく変化しない箇所でも区間の開始点・終了点を検出することができる。第1映像切り出し部23は、切り出した重要シーン部分映像を関連イベント検出部24へ出力する。
【0035】
なお、映像取得部21に、時間的に同期した複数の入力映像が入力されている場合、第1映像切り出し部23は、それら複数の入力映像からそれぞれ重要シーン部分映像を切り出してもよい。
【0036】
関連イベント検出部24は、入力された重要シーン部分映像から関連イベントを検出する。具体的に、関連イベント検出部24は、予め学習済みの関連イベント検出モデルを用いて重要シーン部分映像の推論を行い、関連イベントを検出する。関連イベント検出部24は、1つの重要シーンをキーイベントとし、そのキーイベントに関連する1又は複数の関連イベントを検出する。
図3の例では、関連イベント検出部24は、俯瞰カメラによるゴールシーンを重要シーン(キーイベント)とし、それに対する関連イベントとして、別カメラによるゴールシーンや選手のゴールパフォーマンスのシーンを関連イベントとして検出する。関連イベント検出部24の学習については後述する。関連イベント検出部24は、検出した関連イベントの情報、例えば、入力映像における各関連イベントの時刻情報などを第2映像切り出し部25へ出力する。
【0037】
第2映像切り出し部25は、入力映像から各イベントの部分映像を切り出す。具体的に、第2映像切り出し部25は、重要シーン検出部22から入力された重要シーンの時刻情報に基づいて、入力映像から重要シーンの部分をキーイベント部分映像として切り出す。また、第2映像切り出し部25は、関連イベント検出部24から入力された各関連イベントの時刻情報に基づいて、入力映像から関連イベントの部分を関連イベント部分映像として切り出す。キーイベント部分映像及び関連イベント部分映像は、第2の部分映像に相当する。そして、第2映像切り出し部25は、キーイベント部分映像と、1又は複数の関連イベント部分映像とを映像結合部26へ出力する。
【0038】
なお、第2映像切り出し部25は、重要シーン検出部22が検出した重要シーンと、関連イベント検出部24が検出した関連イベントを元に入力映像から区間検出を行い、検出された映像区間の境界でキーイベント部分映像及び関連イベント部分映像を切り出してもよい。この場合、区間検出処理は、入力映像の色ヒストグラムの変化量や音声の変化量に基づいて区間を検出する手法や、開始点・終了点を求める深層学習モデルなどを用いることができる。
【0039】
映像結合部26は、第2映像切り出し部25から入力されたキーイベント部分映像と関連イベント部分映像とを結合してダイジェスト映像を生成し、出力する。なお、映像結合部26は、基本的にはキーイベント部分映像と関連イベント部分映像とを、それらの時刻情報が示す順序で結合する。但し、映像結合部26は、複数の関連イベント部分映像を予め決められた所定の順序で結合することとしてもよい。例えば、映像結合部26は、サッカーのゴールシーンについては、常に別カメラからのゴールシーンの後に選手のゴールパフォーマンスのシーンが来るように結合してもよい。
【0040】
上記の構成において、映像取得部21は映像取得手段の一例であり、重要シーン検出部22は重要シーン検出手段の一例であり、第1映像切り出し部23は第1の部分映像抽出手段の一例であり、関連イベント検出部24は関連イベント検出手段の一例である。また、第2映像切り出し部25は第2の部分映像抽出手段の一例であり、映像結合部26は映像結合手段の一例である。
【0041】
[ダイジェスト映像生成処理]
図7は、ダイジェスト映像生成装置100によるダイジェスト映像生成処理のフローチャートである。この処理は、
図5に示すプロセッサ12が予め用意されたプログラムを実行し、
図6に示す各要素として動作することにより実現される。
【0042】
まず、映像取得部21は入力映像を取得する(ステップS21)。なお、入力映像は1つの映像でもよく、時間的に同期した複数の映像であってもよい。次に、重要シーン検出部22は、入力映像から重要シーンを検出する(ステップS22)。次に、第1映像切り出し部23は、入力映像から重要シーンの周囲を切り出し、重要シーン部分映像を出力する(ステップS23)。
【0043】
次に、関連イベント検出部24は、重要シーン部分映像から関連イベントを検出する(ステップS24)。次に、第2映像切り出し部25は、入力映像から、重要シーンに対応するキーイベント部分映像と、関連イベントに対応する関連イベント部分映像とを切り出す(ステップS25)。次に、映像結合部26は、キーイベント部分映像と関連イベント部分映像とを結合してダイジェスト映像を生成する(ステップS26)。そして、処理は終了する。
【0044】
[重要シーン検出部の学習]
次に、重要シーン検出部22の学習について説明する。
図8は、重要シーン検出部22の学習のための構成例を示す。重要シーン検出部22は、学習部28と接続される。重要シーン検出部22及び学習部28には、予め用意された学習データが入力される。具体的に、学習データは、学習用入力映像と、正解データとを含む。正解データは、学習用入力映像における重要シーンの区間を示す時刻情報などのデータである。学習用データは、例えば、予め用意されたダイジェスト映像を用いて生成される。具体的には、学習用入力映像と予め用意されたダイジェスト映像とを比較し、学習用入力映像のうち、ダイジェスト映像と一致する区間を示すデータを正解データとする。
【0045】
学習時には、学習データのうちの学習用入力映像が重要シーン検出部22に入力され、正解データが学習部28に入力される。重要シーン検出部22は、重要シーン検出モデルを用いて、学習用入力映像から重要シーンを検出し、学習部28へ出力する。重要シーン検出モデルとしては、例えばCNN(Convolutional Neural Network)などを用いることができる。学習部28は、重要シーン検出部22が検出した重要シーンと、正解データとに基づいて、重要シーン検出モデルを最適化する。こうして、重要シーン検出部22の学習が行われる。
【0046】
[関連イベント検出部の学習]
次に、関連イベント検出部24の学習について説明する。
図9は、関連イベント検出部24の学習のための構成例を示す。関連イベント検出部24は、学習部29と接続される。関連イベント検出部24及び学習部29には、予め用意された学習データが入力される。具体的に、学習データは、学習用入力映像と、正解データとを含む。正解データは、重要シーン(キーイベント)と関連する関連イベントの区間を示す時刻情報などのデータである。
【0047】
関連イベント検出部24は、関連イベント検出モデルを用いて関連イベントを検出する。一例では、関連イベント検出モデルとして画像分類タスクを実行するモデルを用い、例えばCNNや、時間情報を用いる3DCNNなどを使用するモデルとすることができる。他の例では、関連イベント検出モデルとして、動作認識(Action Recognition)モデルを使用することができる。いずれの場合も、関連イベント検出部24は、入力映像を必ずいずれかのクラスとして判定してもよいし、推論時のスコアが所定の閾値より小さい箇所を非重要シーンと判定してもよい。
【0048】
関連イベント検出部24の学習では、ニュース番組等向けに編集されたダイジェスト映像と編集前の素材映像との画像照合を行い、両者が連続して一致した区間の単位でクラスを分類して学習を行う。その際、素材映像のうち、ダイジェスト映像として使用されていない箇所を非重要シーンクラスとし、ダイジェスト映像として使用されているクラスをいくつかのクラスに分類して学習データを生成し、学習を行う。
【0049】
また、関連イベント検出部24の学習では、ニュース番組等向けに編集されたダイジェスト映像と編集前の素材映像との画像照合を行い、両者が連続して一致した箇所の周囲の数秒の映像を切り出した部分映像を入力として、上記の学習データを生成して学習を行ってもよい。
【0050】
また、関連イベント検出部24の学習では、ニュース番組等向けに編集されたダイジェスト映像と編集前の素材映像との画像照合を行い、両者が連続して一致した箇所を元に区間検出処理を行い、検出された区間で切り出した部分映像を入力として上記の学習データを生成して学習を行ってもよい。この場合、区間検出処理は、入力映像の色ヒストグラムの変化量や音声の変化量に基づいて区間を検出する手法や、開始点・終了点を求める深層学習モデルなどを用いることができる。
【0051】
<第2実施形態>
第2実施形態は、第1実施形態における重要シーン検出部22及び関連イベント検出部24の学習に使用する学習データを生成する手法に関する。
【0052】
[学習データ生成装置]
図10は、第2実施形態に係る学習データ生成装置200を示す。学習データ生成装置200には、素材映像と、ダイジェスト映像が入力される。学習データ生成装置200は、入力された素材映像及びダイジェスト映像を用いて学習データを生成し出力する。
【0053】
[基本原理]
第2実施形態に係る学習データ生成装置200の基本原理について説明する。学習データ生成装置200には、素材映像とダイジェスト映像が入力される。
図11に示すように、学習データ生成装置200は、まず素材映像とダイジェスト映像を照合する。具体的には、学習データ生成装置200は、ニュース映像などの既に作成済みのダイジェスト映像と、素材映像A、Bを照合し、映像の一致箇所を検出する。なお、この例では、素材映像Bは、素材映像Aに含まれる映像とは別のカメラで撮影された映像とする。
図11の例では、素材映像Aから4つの一致箇所P1~P4、素材映像Bから2つの一致箇所P5~P6が検出されている。
【0054】
次に、
図12に示すように、学習データ生成装置200は、検出された一致箇所を時間軸上の位置に基づいてグルーピングする。具体的には、学習データ生成装置200は、時間軸上の距離が所定値より近い一致箇所を同一のグループとし、所定値より遠い一致箇所を別のグループとする。
図12の例では、学習データ生成装置200は、時間軸上の距離に基づいて一致箇所P1、P5、P2をグループ1とし、一致箇所P3、P4をグループ2とし、一致箇所P6をグループ3とする。
【0055】
次に、
図13(A)に示すように、学習データ生成装置200は、各グループについて、一致箇所の映像を別クラスとして映像認識モデルを学習する。
図13(A)の例では、グループ1にグルーピングされた一致箇所P1、P5、P2をそれぞれクラス1、クラス2、クラス3として映像認識モデルを学習する。
【0056】
次に、学習データ生成装置200は、素材映像A、Bを学習済みの映像認識モデルに入力して推論を行い、推論結果に基づいてキーイベント及び関連イベントを検出する。具体的には、学習データ生成装置200は、映像認識モデルを用いて素材映像を複数のクラスに分類する。そして、学習データ生成装置200は、そのグループに属するクラスのうち、分類結果において最も出現頻度の低いクラスをキーイベントと判定し、それ以外のクラスを関連イベントと判定する。
【0057】
ここで、最も出現頻度の低いクラスをキーイベントと判定する理由は以下の通りである。通常、素材映像は、重要シーンとしてダイジェスト映像に含められるような特徴的な映像と、他のシーンにも共通して含まれるような普遍的な映像とにより構成されている。よって、学習データ生成装置200は、各グループにおける複数のクラスのうち、素材映像における出現頻度が最も少ないクラスを特徴的な映像と推定し、それ以外のクラスを普遍的な映像と推定する。そして、学習データ生成装置200は、特徴的な映像に対応するクラスをキーイベントと判定し、それ以外の普遍的な映像に対応するクラスを関連イベントと判定する。
【0058】
図13(B)の例では、素材映像において出現頻度が最も少ないクラスはクラス1である。よって、学習データ生成装置200は、クラス1をキーイベントと判定し、クラス2、3を関連イベントと判定する。こうして、素材映像に対して、正解データとしてキーイベント及び関連イベントのフラグを付与して学習データを生成することができる。
【0059】
[ハードウェア構成]
図14は、学習データ生成装置200のハードウェア構成を示すブロック図である。図示のように、学習データ生成装置200は、インタフェース(IF)211と、プロセッサ212と、メモリ213と、記録媒体214と、データベース(DB)15とを備える。
【0060】
IF211は、外部装置との間でデータの入出力を行う。具体的には、インタフェース211は、素材映像及びダイジェスト映像を受け取り、生成された学習データを出力する。
【0061】
プロセッサ212は、CPUなどのコンピュータであり、予め用意されたプログラムを実行することにより、学習データ生成装置200の全体を制御する。具体的に、プロセッサ212は、後述する学習データ生成処理を実行する。
【0062】
メモリ213は、ROM、RAMなどにより構成される。メモリ213は、プロセッサ212による各種の処理の実行中に作業メモリとしても使用される。
【0063】
記録媒体214は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、学習データ生成装置200に対して着脱可能に構成される。記録媒体214は、プロセッサ212が実行する各種のプログラムを記録している。学習データ生成装置200が各種の処理を実行する際には、記録媒体214に記録されているプログラムがメモリ213にロードされ、プロセッサ212により実行される。
【0064】
データベース215は、IF211を通じて入力された素材映像やダイジェスト映像などを一時的に記憶する。なお、学習データ生成装置200は、作成者が指示や入力を行うためのキーボード、マウスなどの入力部、及び、液晶ディスプレイなどの表示部を備えていてもよい。
【0065】
[機能構成]
図15は、学習データ生成装置200の機能構成を示すブロック図である。学習データ生成装置200は、映像取得部221と、映像照合部222と、グルーピング部223と、モデル学習部224と、推論部225と、イベント判定部226と、学習データ生成部227と、を備える。
【0066】
映像取得部221は、素材映像とダイジェスト映像を取得する。素材映像は、学習データを生成する元になる映像である。ダイジェスト映像は、ニュース映像などの用途で生成された映像である。映像取得部221は、素材映像及びダイジェスト映像を映像照合部222へ出力し、素材映像を推論部225及び学習データ生成部227へ出力する。
【0067】
映像照合部222は、
図11に示すように、素材映像とダイジェスト映像とを照合し、素材映像中のダイジェスト映像との一致箇所を検出する。映像照合部222は、検出された一致箇所をグルーピング部223へ出力する。
【0068】
グルーピング部223は、
図12に示すように、入力された一致箇所を時間軸上の位置に基づいてグルーピングする。具体的に、グルーピング部223は、時間軸上の距離が所定値より近い一致箇所を同一のグループに含め、時間軸上の距離が所定値より遠い一致箇所を別のグループに含める。グルーピング部223は、グルーピング結果をモデル学習部224へ出力する。
【0069】
モデル学習部224は、
図13(A)に示すように、素材映像を認識・分類する映像認識モデルを学習する。具体的には、モデル学習部224は、グルーピング部223により生成された各グループについて、そのグループに含まれる一致箇所の各々を別クラスとして認識、分類する映像認識モデルを学習する。映像認識モデルは、深層学習を用いた画像認識モデルや画像分類モデルなどとすることができる。学習により得られた学習済みの映像認識モデルは、素材映像をそのグループに含まれる複数のクラスに分類可能となる。モデル学習部224は、学習済みの映像認識モデルを推論部225へ出力する。
【0070】
推論部225は、モデル学習部224により学習済みの映像認識モデルを用いて、
図13(B)に示すように素材映像の推論を行い、素材映像を複数のクラスに分類する。そして、推論部225は、推論結果をイベント判定部226へ出力する。
【0071】
イベント判定部226は、推論部225による推論結果に基づいて、素材映像からイベントを検出する。具体的に、イベント判定部226は、推論結果において、最も出現頻度の低いクラスをキーイベントと判定し、それ以外のイベントを関連イベントと判定する。イベント判定部226は、判定結果を学習データ生成部227へ出力する。
【0072】
学習データ生成部227は、キーイベント及び関連イベントの判定結果を正解データとする学習データを生成する。具体的には、学習データ生成部227は、素材映像にキーイベント及び/又は関連イベントを示すフラグを付与した学習データを生成し、出力する。例えば、素材映像にキーイベントのフラグを付与した学習データを生成し、第1実施形態における重要シーン検出部22の学習に用いることができる。また、素材映像に対して関連イベントのフラグを付与した学習データを生成し、第1実施形態における関連イベント検出部24の学習に用いることができる。
【0073】
上記の構成において、映像取得部221は映像取得手段の一例であり、映像照合部222は一致箇所検出手段の一例であり、グルーピング部223はグルーピング手段の一例である。また、モデル学習部224は学習手段の一例であり、推論部225は分類手段の一例であり、イベント判定部226はイベント判定手段の一例であり、学習データ生成部227は学習データ生成手段の一例である。
【0074】
[学習データ生成処理]
図16は、学習データ生成装置200による学習データ生成処理のフローチャートである。この処理は、
図14に示すプロセッサ212が予め用意されたプログラムを実行し、
図15に示す各要素として動作することにより実現される。
【0075】
まず、映像取得部221は、素材映像とダイジェスト映像を取得する(ステップS41)。次に、映像照合部222は、素材映像中のダイジェスト映像と一致する箇所を検出する(ステップS42)。次に、グルーピング部223は、検出された一致箇所のうち時間の近い一致箇所をグルーピングする(ステップS43)。
【0076】
次に、モデル学習部224は、グルーピングにより得られた1つのグループに含まれる一致箇所の各々を別クラスとして映像認識モデルを学習する(ステップS44)。次に、推論部225は、学習済みの映像認識モデルを用いて素材映像を推論し、素材映像を複数のクラスに分類する(ステップS45)。次に、イベント判定部226は、推論部225による推論結果に基づき、そのグループ内のイベントを判定する(ステップS46)。具体的には、イベント判定部226は、素材映像中の出現頻度が最も低いクラスをキーイベントと判定し、それ以外のクラスを関連イベントと判定する。
【0077】
次に、学習データ生成装置200は、ステップS43で得られた全てのグループについて処理を行ったか否かを判定する(ステップS47)。全てのグループについて処理を行っていない場合(ステップS47:No)、別のグループについてステップS44~S47の処理が繰り返される。そして、全てのグループについて処理が行われると(ステップS47:Yes)、学習データ生成部227は、素材映像中のキーイベント及び/又は関連イベントの箇所にフラグを付与した学習データを生成し、出力する(ステップS48)。そして、学習データ生成処理は終了する。
【0078】
[変形例]
次に、第2実施形態の変形例を説明する。以下の変形例は、適宜組み合わせて第2実施形態に適用することができる。
【0079】
(変形例1)
上記の第2実施形態では、モデル学習部224が映像認識モデルを学習し、推論部225が学習済みの映像認識モデルを用いて素材映像の推論を行うことにより、素材映像を複数のクラスに分類している。その代わりに、モデルの学習を行わずに素材映像を複数のクラスに分類してもよい。
【0080】
具体的な方法としては、学習データ生成装置200は、まず事前学習済みの映像認識モデルを用いて、映像照合部222が検出した一致箇所をそれぞれ別クラスとして特徴量化する。例えば、映像認識モデルを構成する深層学習ネットワークに各一致箇所を入力し、最終層の前の層から得られる特徴量などを使用することができる。
【0081】
次に、学習データ生成装置200は、上記と同様の手法で、素材映像を特徴量化する。そして、学習データ生成装置200は、素材映像の各フレーム画像の特徴量を、上記の各一致箇所に対応する各クラスの特徴量と比較し、最も類似性の高い(特徴量の距離が近い)クラスを、そのフレーム画像が所属するクラスとする。こうして、学習データ生成装置200は、素材映像の各フレーム画像を複数のクラスに分類し、素材映像中で出現頻度が最も低いクラスをキーイベントと判定する。この場合、学習データ生成装置200は、第1及び第2の特徴量抽出手段としても機能する。
【0082】
(変形例2)
上記の例では、イベント判定部226は、映像認識モデルを用いた素材映像の推論結果に基づき、素材映像において出現頻度が最も低いクラスをキーイベントと判定している。その代わりに、イベント判定部226は、素材映像において出現頻度が最も低く、かつ、映像照合部222により検出された一致箇所に必ず存在するクラスをキーイベントと判定してもよい。これにより、確実にダイジェスト映像に含まれるクラスをキーイベントとして検出することが可能となる。
【0083】
<第3実施形態>
次に、本開示の第3実施形態について説明する。
図17は、第3実施形態に係る映像処理装置の機能構成を示すブロック図である。図示のように、映像処理装置70は、映像取得手段71と、重要シーン検出手段72と、第1の部分映像抽出手段73と、関連イベント検出手段74と、を備える。
【0084】
図18は、映像処理装置70による処理のフローチャートである。映像取得手段71は、入力映像を取得する(ステップS71)。重要シーン検出手段72は、入力映像から重要シーンを検出する(ステップS72)。第1の部分映像抽出手段73は、入力映像から、重要シーンを含む時間的に連続する領域を第1の部分映像として抽出する(ステップS73)。そして、関連イベント検出手段74は、第1の部分映像から、重要シーンに関連する関連イベントを検出する(ステップS74)。
【0085】
第3実施形態の映像処理装置70によれば、入力映像から、重要シーンと、その重要シーンに関連する関連イベントを検出することができる。
【0086】
<第4実施形態>
次に、本開示の第4実施形態について説明する。
図19は、第4実施形態に係る映像処理装置の機能構成を示すブロック図である。図示のように、映像処理装置80は、映像取得手段81と、一致箇所検出手段82と、グルーピング手段83とを備える。
【0087】
図20は、映像処理装置80による処理のフローチャートである。映像取得手段81は、素材映像及びダイジェスト映像を取得する(ステップS81)。一致箇所検出手段82は、素材映像とダイジェスト映像の内容が一致する一致箇所を検出する(ステップS82)。そして、グルーピング手段83は、時間的な距離が所定値以下である一致箇所を、同一の重要シーンとしてグルーピングする(ステップS83)。
【0088】
第4実施形態の映像処理装置80によれば、素材映像のうち、ダイジェスト映像と一致する区間を、同一の重要シーンとしてグルーピングすることができる。
【0089】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0090】
(付記1)
入力映像を取得する映像取得手段と、
前記入力映像から重要シーンを検出する重要シーン検出手段と、
前記入力映像から、前記重要シーンを含む時間的に連続する領域を第1の部分映像として抽出する第1の部分映像抽出手段と、
前記第1の部分映像から、前記重要シーンに関連する関連イベントを検出する関連イベント検出手段と、
を備える映像処理装置。
【0091】
(付記2)
前記第1の部分映像抽出手段は、前記入力映像において、前記重要シーンと、時間的に前記重要シーンの前の部分及び後の部分の少なくとも一方とを含む領域を前記第1の部分映像として抽出する付記1に記載の映像処理装置。
【0092】
(付記3)
前記第1の部分映像抽出手段は、前記入力映像の区間検出を行い、検出された区間の境界位置で前記第1の部分映像を切り出す付記1又は2に記載の映像処理装置。
【0093】
(付記4)
前記映像取得手段は、前記入力映像と時間的に同期している他の入力映像を取得し、
前記第1の部分映像抽出手段は、前記他の入力映像からも、前記重要シーンを含む時間的に連続する領域を前記第1の部分映像として抽出する付記1乃至3のいずれか一項に記載の映像処理装置。
【0094】
(付記5)
前記入力映像から、前記重要シーンに対応する領域、及び、前記関連イベントに対応する領域を第2の部分映像として抽出する第2の部分映像抽出手段と、
前記第2の部分映像を結合してダイジェスト映像を生成する映像結合手段と、
を備える付記1乃至4のいずれか一項に記載の映像処理装置。
【0095】
(付記6)
前記第2の部分映像抽出手段は、前記入力映像の区間検出を行い、検出された区間の境界位置で前記第2の部分映像を抽出する付記5に記載の映像処理装置。
【0096】
(付記7)
入力映像を取得し、
前記入力映像から重要シーンを検出し、
前記入力映像から、前記重要シーンを含む時間的に連続する領域を第1の部分映像として抽出し、
前記第1の部分映像から、前記重要シーンに関連する関連イベントを検出する映像処理方法。
【0097】
(付記8)
入力映像を取得し、
前記入力映像から重要シーンを検出し、
前記入力映像から、前記重要シーンを含む時間的に連続する領域を第1の部分映像として抽出し、
前記第1の部分映像から、前記重要シーンに関連する関連イベントを検出する処理をコンピュータに実行させるプログラムを記録した記録媒体。
【0098】
(付記9)
素材映像及びダイジェスト映像を取得する映像取得手段と、
前記素材映像と前記ダイジェスト映像の内容が一致する一致箇所を検出する一致箇所検出手段と、
時間的な距離が所定値以下である一致箇所を、同一の重要シーンとしてグルーピングするグルーピング手段と、
を備える映像処理装置。
【0099】
(付記10)
前記グルーピングにより得られた各グループにおいて、前記一致箇所をそれぞれ異なるクラスとし、映像を前記クラスに分類する映像認識モデルを学習する学習手段と、
学習により得られた前記映像認識モデルを用いて、前記素材映像を前記クラスに分類する分類手段と、
前記素材映像に含まれる各クラスの出現頻度に基づいて、キーイベントを判定するイベント判定手段と、
を備える付記9に記載の映像処理装置。
【0100】
(付記11)
前記グルーピングにより得られた各グループにおいて、前記一致箇所をそれぞれ異なるクラスとし、各一致箇所の特徴量を抽出する第1の特徴量抽出手段と、
前記素材映像の各フレーム画像の特徴量を抽出する第2の特徴量抽出手段と、
前記各一致箇所の特徴量と、前記素材映像の各フレームの特徴量とに基づいて、前記素材映像の各フレームを前記クラスに分類する分類手段と、
前記素材映像に含まれる各クラスの出現頻度に基づいて、キーイベントを判定するイベント判定手段と、
を備える付記9に記載の映像処理装置。
【0101】
(付記12)
前記イベント判定手段は、最も出現頻度の低いクラスをキーイベントと判定する付記10又は11に記載の映像処理装置。
【0102】
(付記13)
前記イベント判定手段は、最も出現頻度が低く、かつ、前記一致箇所に含まれるクラスをキーイベントと判定する付記10又は11に記載の映像処理装置。
【0103】
(付記14)
前記イベント判定手段は、前記キーイベントと判定されたクラス以外のクラスを関連イベントと判定する付記10乃至13のいずれか一項に記載の映像処理装置。
【0104】
(付記15)
前記キーイベント及び前記関連イベントに対応するフラグを付与した学習データを生成する学習データ生成手段を備える付記14に記載の映像処理装置。
【0105】
(付記16)
素材映像及びダイジェスト映像を取得し、
前記素材映像と前記ダイジェスト映像の内容が一致する一致箇所を検出し、
時間的な距離が所定値以下である一致箇所を、同一の重要シーンとしてグルーピングする映像処理方法。
【0106】
(付記17)
素材映像及びダイジェスト映像を取得し、
前記素材映像と前記ダイジェスト映像の内容が一致する一致箇所を検出し、
時間的な距離が所定値以下である一致箇所を、同一の重要シーンとしてグルーピングする処理をコンピュータに実行させるプログラムを記録した記録媒体。
【0107】
以上、実施形態及び実施例を参照して本開示を説明したが、本開示は上記実施形態及び実施例に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。
【符号の説明】
【0108】
12、212 プロセッサ
21、221 映像取得部
22 重要シーン検出部
23 第1映像切り出し部
24 関連イベント検出部
25 第2映像切り出し部
26 映像結合部
100 ダイジェスト映像生成装置
200 学習データ生成装置
222 映像照合部
223 グルーピング部
224 モデル学習部
225 推論部
226 イベント判定部
227 学習データ生成部