(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-04-07
(45)【発行日】2025-04-15
(54)【発明の名称】映像処理装置、映像処理方法、及び、プログラム
(51)【国際特許分類】
H04N 5/91 20060101AFI20250408BHJP
H04N 21/8549 20110101ALI20250408BHJP
H04N 21/232 20110101ALI20250408BHJP
【FI】
H04N5/91
H04N21/8549
H04N21/232
(21)【出願番号】P 2023528884
(86)(22)【出願日】2021-06-17
(86)【国際出願番号】 JP2021023064
(87)【国際公開番号】W WO2022264365
(87)【国際公開日】2022-12-22
【審査請求日】2023-12-14
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100107331
【氏名又は名称】中村 聡延
(74)【代理人】
【識別番号】100104765
【氏名又は名称】江上 達夫
(74)【代理人】
【識別番号】100131015
【氏名又は名称】三輪 浩誉
(72)【発明者】
【氏名】渡辺 はるな
(72)【発明者】
【氏名】白石 壮馬
(72)【発明者】
【氏名】鍋藤 悠
【審査官】鈴木 順三
(56)【参考文献】
【文献】国際公開第2021/019645(WO,A1)
【文献】特開2016-058024(JP,A)
【文献】特開2007-336106(JP,A)
【文献】特開2006-287319(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 5/76 - 5/956
H04N 21/00 - 21/858
(57)【特許請求の範囲】
【請求項1】
素材映像と、前記素材映像中のダイジェスト映像に使用された区間の情報とを取得する情報取得手段と、
前記ダイジェスト映像に使用された区間に含まれる要素に類似した要素を、前記素材映像中で検索する映像検索手段と、
各要素の、前記素材映像中及び前記ダイジェスト映像に使用された区間中における出現頻度に基づいて、各要素の重要度を算出する重要度算出手段と、
を備え
、
前記重要度は、前記ダイジェスト映像に使用された区間中における前記要素の出現頻度が他の要素の出現頻度より高いほど大きい値となり、かつ、前記素材映像中における前記要素の出現頻度が低いほど大きい値となる映像処理装置。
【請求項2】
各要素の重要度を出力する出力手段を備える請求項1に記載の映像処理装置。
【請求項3】
各要素の重要度に基づいて、前記素材映像中の各要素の区間にラベル付けし、学習データを生成する学習データ生成手段を備える請求項1に記載の映像処理装置。
【請求項4】
前記要素は、1枚のフレーム画像、又は、複数枚のフレーム画像である請求項1乃至3のいずれか一項に記載の映像処理装置。
【請求項5】
前記要素は、1枚又は複数枚のフレーム画像をクラスタリングして得られる各クラスタに含まれるフレーム画像である請求項1乃至3のいずれか一項に記載の映像処理装置。
【請求項6】
前記要素は、1枚又は複数枚のフレーム画像をクラスタリングして得られる各クラスタにおける中心の特徴量である請求項1乃至3のいずれか一項に記載の映像処理装置。
【請求項7】
前記重要度算出手段は、前記ダイジェスト映像に使用された区間中の全要素の数に対する前記ダイジェスト映像に使用された区間中の一要素の数の比である第1の比、及び、前記素材映像中の前記一要素の数に対する前記ダイジェスト映像に使用された区間中の前記一要素の数の比である第2の比に基づいて前記重要度を算出する請求項1乃至6のいずれか一項に記載の映像処理装置。
【請求項8】
前記重要度算出手段は、前記ダイジェスト映像に使用された区間中の全要素の数に対する前記ダイジェスト映像に使用された区間中の一要素の数の比である第1の比、及び、前記素材映像中の全要素の数に対する前記素材映像中の前記一要素の数の比である第3の比を1から減じた値に基づいて前記重要度を算出する請求項1乃至6のいずれか一項に記載の映像処理装置。
【請求項9】
素材映像と、前記素材映像中のダイジェスト映像に使用された区間の情報とを取得し、
前記ダイジェスト映像に使用された区間に含まれる要素に類似した要素を、前記素材映像中で検索し、
各要素の、前記素材映像中及び前記ダイジェスト映像に使用された区間中における出現頻度に基づいて、各要素の重要度を算出
し、
前記重要度は、前記ダイジェスト映像に使用された区間中における前記要素の出現頻度が他の要素の出現頻度より高いほど大きい値となり、かつ、前記素材映像中における前記要素の出現頻度が低いほど大きい値となる映像処理方法。
【請求項10】
素材映像と、前記素材映像中のダイジェスト映像に使用された区間の情報とを取得し、
前記ダイジェスト映像に使用された区間に含まれる要素に類似した要素を、前記素材映像中で検索し、
各要素の、前記素材映像中及び前記ダイジェスト映像に使用された区間中における出現頻度に基づいて、各要素の重要度を算出
し、
前記重要度は、前記ダイジェスト映像に使用された区間中における前記要素の出現頻度が他の要素の出現頻度より高いほど大きい値となり、かつ、前記素材映像中における前記要素の出現頻度が低いほど大きい値となる処理をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、映像データの処理に関する。
【背景技術】
【0002】
動画像から映像ダイジェストを生成する技術が提案されている。特許文献1には、予め準備されたトレーニング動画像及びユーザが指定した重要シーン動画像から学習データファイルを作成し、当該学習データファイルに基づき、対象の動画像から重要シーンの検出を行うハイライト抽出装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
スポーツなどのダイジェスト映像に含まれる映像には、ダイジェスト映像に特徴的な映像と、それ以外の普遍的な映像とがある。従来のダイジェスト映像生成装置の学習では、ダイジェスト映像に使用されたか否かに基づいて学習データを生成し、学習を行っていた。即ち、素材映像のうち、ダイジェスト映像に使用された箇所を全て正解として学習データを生成し、学習を行っていた。この場合、普遍的な映像が学習データの正解クラスと非正解クラスの両方に含まれてしまい、これが素材映像から重要なイベントを検出する際の精度低下の一因となっていた。
【0005】
本開示の1つの目的は、素材映像から重要なイベントを高精度で検出可能なダイジェスト映像装置を生成可能とすることにある。
【課題を解決するための手段】
【0006】
本開示の1つの観点では、映像処理装置は、
素材映像と、前記素材映像中のダイジェスト映像に使用された区間の情報とを取得する情報取得手段と、
前記ダイジェスト映像に使用された区間に含まれる要素に類似した要素を、前記素材映像中で検索する映像検索手段と、
各要素の、前記素材映像中及び前記ダイジェスト映像に使用された区間中における出現頻度に基づいて、各要素の重要度を算出する重要度算出手段と、
を備え、
前記重要度は、前記ダイジェスト映像に使用された区間中における前記要素の出現頻度が他の要素の出現頻度より高いほど大きい値となり、かつ、前記素材映像中における前記要素の出現頻度が低いほど大きい値となる。
【0007】
本開示の他の観点では、映像処理方法は、
素材映像と、前記素材映像中のダイジェスト映像に使用された区間の情報とを取得し、
前記ダイジェスト映像に使用された区間に含まれる要素に類似した要素を、前記素材映像中で検索し、
各要素の、前記素材映像中及び前記ダイジェスト映像に使用された区間中における出現頻度に基づいて、各要素の重要度を算出し、
前記重要度は、前記ダイジェスト映像に使用された区間中における前記要素の出現頻度が他の要素の出現頻度より高いほど大きい値となり、かつ、前記素材映像中における前記要素の出現頻度が低いほど大きい値となる。
【0008】
本発明のさらに他の観点では、プログラムは、
素材映像と、前記素材映像中のダイジェスト映像に使用された区間の情報とを取得し、
前記ダイジェスト映像に使用された区間に含まれる要素に類似した要素を、前記素材映像中で検索し、
各要素の、前記素材映像中及び前記ダイジェスト映像に使用された区間中における出現頻度に基づいて、各要素の重要度を算出し、
前記重要度は、前記ダイジェスト映像に使用された区間中における前記要素の出現頻度が他の要素の出現頻度より高いほど大きい値となり、かつ、前記素材映像中における前記要素の出現頻度が低いほど大きい値となる処理をコンピュータに実行させる。
【発明の効果】
【0009】
本開示によれば、素材映像から重要なイベントを高精度で検出可能なダイジェスト映像装置を生成可能となる。
【図面の簡単な説明】
【0010】
【
図1】ダイジェスト映像生成装置の概略構成を示す。
【
図3】学習データ生成時における素材映像に対するラベル付けの例を示す。
【
図4】本実施形態の学習データ生成装置の全体構成を示す。
【
図5】学習データ生成装置のハードウェア構成を示すブロック図である。
【
図6】学習データ生成装置の機能構成を示すブロック図である。
【
図8】学習データ生成装置による学習データ生成処理のフローチャートである。
【
図9】学習データ生成処理の具体例を説明する図である。
【
図10】学習データ生成処理の具体例を説明する図である。
【
図11】学習データ生成処理の具体例を説明する図である。
【
図13】ダイジェスト映像生成装置の学習のための構成を示す。
【
図14】ダイジェスト映像生成装置の変形例の構成を示すブロック図である。
【
図15】第2実施形態に係る映像処理装置の機能構成を示すブロック図である。
【
図16】第2実施形態に係る映像処理装置による処理のフローチャートである。
【発明を実施するための形態】
【0011】
以下、図面を参照して、本開示の好適な実施形態について説明する。
<第1実施形態>
[ダイジェスト映像生成装置]
まず、前提として、ダイジェスト映像生成装置について説明する。
図1は、ダイジェスト映像生成装置の概略構成を示す。ダイジェスト映像生成装置200は、素材映像データベース(以下、「データベース」を「DB」とも記す。)2に接続されている。素材映像DB2は、各種の素材映像、即ち、動画像を記憶している。素材映像は、例えば放送局から放送されるテレビ番組などの映像でもよく、インターネットなどで配信されている映像でもよい。なお、素材映像は、音声を含んでいてもよく、含んでいなくてもよい。
【0012】
ダイジェスト映像生成装置200は、素材映像DB2に保存されている素材映像の一部を用いたダイジェスト映像を生成し、出力する。ダイジェスト映像は、素材映像において何らかのイベントが発生したシーンを時系列につなげた映像である。ダイジェスト映像生成装置200は、機械学習により訓練済みのダイジェスト映像生成モデルを用いて素材映像からイベントシーンを検出し、複数のイベントシーンを時系列につなげてダイジェスト映像を生成する。ダイジェスト映像生成モデルは、素材映像からイベントシーンを検出するモデルであり、例えば、ニューラルネットワークを用いた深層学習のモデルを用いることができる。
【0013】
図2は、ダイジェスト映像の例を示す。
図2の例では、ダイジェスト映像生成装置200は、素材映像に含まれるイベントシーンA~Dを抽出し、これらを時系列につなげてダイジェスト映像を生成する。なお、素材映像から抽出されたイベントシーンは、その内容次第で、ダイジェスト映像中で繰り返し使用されてもよい。イベントシーンは、素材映像において何らかのイベントが起きたシーンに対応する1枚又は複数のフレーム画像により構成される。イベントシーンは、その始点及び終点により規定される。なお、終点の代わりに、イベントシーンの長さを用いてイベントシーンを規定してもよい。
【0014】
[学習データ生成装置]
(基本原理)
次に、本実施形態に係る学習データ生成装置の基本原理について説明する。学習データ生成装置は、上記のダイジェスト映像生成装置200(ダイジェスト映像生成モデル)の学習に用いられる学習データを生成する装置である。
【0015】
スポーツのダイジェスト映像では、イベントシーンとして検出されるような重要なイベントのシーンは、暗黙的に決まっている複数の短い映像から構成されることが多い。例えば、サッカーのゴールシーンでは、フィールド全体を俯瞰で撮影するカメラ(以下、「俯瞰カメラ」と呼ぶ。)により選手のシュートからゴールまでを撮影した映像が映り、次に選手のゴールパフォーマンスの映像、又は、別角度のカメラで撮影したゴールシーンの映像などが映ることが多い。
【0016】
また、ダイジェスト映像に含まれる映像には、ダイジェスト映像に特徴的な映像と、それ以外の普遍的な映像とがある。普遍的な映像とは、ダイジェスト映像のみならず、ダイジェスト映像以外のシーンにも共通して含まれるような映像である。
【0017】
通常、ダイジェスト映像生成装置の学習では、ダイジェスト映像に使用されたか否かに基づいて学習データを生成し、ダイジェスト映像生成モデルの学習を行っていた。即ち、素材映像のうち、ダイジェスト映像に使用された箇所を全て正解として学習データを生成し、ダイジェスト映像生成モデルの学習を行っていた。この場合、普遍的な映像が学習データの正解クラスと非正解クラスの両方に含まれてしまい、これが試合全体の素材映像からサッカーのゴールシーンなどの重要なイベントシーンを検出する際の精度低下の一因となっていた。
【0018】
そこで、本実施形態では、学習データ生成装置は、ダイジェスト映像に使用された箇所には高頻度で現れるが、ダイジェスト映像に使用されなかった箇所には比較的低頻度で現れる映像を、イベントシーンに特徴的な映像であると仮定し、この特徴的な映像を規定する「特徴的な要素」を決定する。特徴的な要素とは、ダイジェスト映像に使用された区間、即ちイベントシーンに含まれる要素である。ここで、特徴的な要素は、例えば映像の1枚のフレーム画像であってもよく、複数枚の連続するフレーム画像であってもよい。また、特徴的な要素は、1種類であってもよいし、2種類以上でもよい。
【0019】
図3は、学習データ生成時における素材映像に対するラベル付けの例を示す。ダイジェスト映像生成モデルの学習を行う場合、素材映像に正解ラベルを付与して学習データを生成する。
図3において、斜線で示すイベントシーン7は、素材映像のうち、既存のダイジェスト映像に含まれるシーンである。即ち、イベントシーン7は、素材映像と、ニュースなどで使用された既存のダイジェスト映像と照合し、両者が一致した箇所である。なお、
図3に示すサッカーの素材映像の場合、イベントシーンとしては、俯瞰カメラによるゴールシーン、ゴール裏のカメラによるゴールシーン、選手のゴールパフォーマンスシーンなどが検出される。具体的に、
図3におけるイベントシーン7aは俯瞰カメラによるゴールシーンであり、イベントシーン7bはゴール裏のカメラによるゴールシーンであり、イベントシーン7cは選手のゴールパフォーマンスのシーンである。なお、イベントシーン7a~7cの前後のシーン8は、ダイジェスト映像に含まれていないシーンである。
【0020】
学習データの生成時には、素材映像から検出されたイベントシーンに対して正解ラベルを付与する。ここで、
図3に示すように、通常のラベル付け方法は、イベントシーンのフレーム画像に対してラベル「1」を付与し、それ以外のシーンのフレーム画像に対してはラベル「0」を付与する。
【0021】
これに対し、本実施形態のラベル付け方法1は、各イベントシーンが特徴的である度合いに応じて、各イベントシーンに「0」~「1」の間の値を付与する。なお、この「特徴的である度合い」は、後述する「重要度」に相当する。
図3の例では、ゴール裏のカメラによる映像はサッカーのゴールシーンに特に特徴的なシーンと考えられるため、ゴール裏のカメラによるゴールシーンであるイベントシーン7bにはラベル「1」が付与されている。また、俯瞰カメラによるゴールシーンであるイベントシーン7aと、選手のゴールパフォーマンスシーンであるイベントシーン7cにはラベル「0.5」が付与されている。そして、これら以外のシーンにはラベル「0」が付与されている。
【0022】
また、本実施形態のラベル付け方法2は、ゴール裏のカメラによるゴールシーンであるイベントシーン7bにはラベル「1」を付与し、それ以外のシーンにはラベル「0」を付与している。
【0023】
このように、本実施形態では、単にダイジェスト映像に含まれているシーンであるか否かではなく、ダイジェスト映像において特徴的である度合いを考慮して学習データのラベル付けを行う。これにより、ダイジェスト映像に使用された区間における普遍的な映像の影響を低減することができる。よって、その学習データを用いて学習することにより、高精度なダイジェスト映像生成装置を得ることが可能となる。
【0024】
(全体構成)
図4は、本実施形態の学習データ生成装置の全体構成を示す。学習データ生成装置100は、素材映像及びダイジェスト映像から学習データを生成する。素材映像は、学習データの元になる映像である。また、ダイジェスト映像は、ニュース番組などで使用した既存のダイジェスト映像である。一方、学習データは、
図3に例示したように、素材映像に対して正解ラベルを付与したデータである。
【0025】
(ハードウェア構成)
図5は、学習データ生成装置100のハードウェア構成を示すブロック図である。図示のように、学習データ生成装置100は、インタフェース(IF)11と、プロセッサ12と、メモリ13と、記録媒体14と、データベース(DB)15とを備える。
【0026】
IF11は、外部装置との間でデータの入出力を行う。具体的に、インタフェース11は、学習データの元になる素材映像と、既存のダイジェスト映像とを受け取り、生成された学習データを出力する。
【0027】
プロセッサ12は、CPU(Central Processing Unit)などのコンピュータであり、予め用意されたプログラムを実行することにより、学習データ生成装置100の全体を制御する。具体的に、プロセッサ12は、後述する学習データ生成処理を実行する。
【0028】
メモリ13は、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。メモリ13は、プロセッサ12による各種の処理の実行中に作業メモリとしても使用される。
【0029】
記録媒体14は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、学習データ生成装置100に対して着脱可能に構成される。記録媒体14は、プロセッサ12が実行する各種のプログラムを記録している。学習データ生成装置100が各種の処理を実行する際には、記録媒体14に記録されているプログラムがメモリ13にロードされ、プロセッサ12により実行される。
【0030】
データベース15は、IF11を通じて入力された素材映像やダイジェスト映像などを一時的に記憶する。なお、学習データ生成装置100は、作業者が指示や入力を行うためのキーボード、マウスなどの入力部、及び、液晶ディスプレイなどの表示部を備えていてもよい。
【0031】
(機能構成)
図6は、学習データ生成装置100の機能構成を示すブロック図である。学習データ生成装置100は、映像取得部21と、映像検索部22と、重要度算出部23と、学習データ生成部24と、を備える。
【0032】
映像取得部21は、外部から素材映像とダイジェスト映像とを取得する。映像取得部21は、素材映像とダイジェスト映像とを照合し、素材映像中のダイジェスト映像と一致する区間、即ち、ダイジェスト映像に使用されている区間(以下、「ダイジェスト映像使用区間」とも呼ぶ。)の情報を生成する。そして、映像取得部21は、素材映像と、素材映像中のダイジェスト映像使用区間の情報と、を映像検索部22へ出力する。また、映像取得部21は、素材映像を学習データ生成部24へ出力する。
【0033】
なお、ダイジェスト映像使用区間の情報自体を外部から取得可能な場合には、映像取得部21は、素材映像と、ダイジェスト映像使用区間の情報とを外部から取得し、映像検索部22へ出力してもよい。
【0034】
映像検索部22は、ダイジェスト映像使用区間に含まれる要素に類似した要素を、素材映像中から検索する。ここでの「要素」は、1枚のフレーム画像であってもよく、連続する複数枚のフレーム画像であってもよい。例えば、映像検索部22は、ダイジェスト映像使用区間に含まれるフレーム画像をクラスタリングして複数の要素を抽出する。この場合、各要素は、1枚のフレーム画像又は複数枚のフレーム画像をクラスタリングして得た各クラスタに含まれるフレーム画像であってもよい。さらには、各要素は、1枚のフレーム画像又は複数枚のフレーム画像をクラスタリングして得た各クラスタの中心の特徴量であってもよい。
【0035】
その代わりに、映像検索部22は、ダイジェスト映像からショット切替位置を検出し、個々のカメラによる映像を要素として抽出してもよい。
【0036】
そして、映像検索部22は、素材映像から各要素に類似する要素を検索し、重要度算出部23へ出力する。なお、映像検索部22は、素材映像の最初から最後までの全体を検索して各要素を検出してもよいし、素材映像のうちダイジェスト映像使用区間以外の区間を検索して各要素を検出してもよい。
【0037】
なお、映像検索部22は、素材映像から各要素を検索する代わりに、素材映像を各要素に分類してもよい。各要素の検索手法や分類手法は、学習が必要な手法でもよく、学習が不要な手法(例えば、教師なし学習や、既存のモデルを使用する方法)であってもよい。
【0038】
重要度算出部23は、素材映像中及びダイジェスト映像使用区間中における各要素の出現頻度に基づいて、各要素の重要度を算出する。ここで、「重要度」とは、各要素がダイジェスト映像に含まれるシーンを特徴づける要素であるかどうかを反映した値であり、先に述べた「各イベントシーンが特徴的である度合い」に相当する。重要度の値が大きいほど、そのシーンが特徴的である度合いが高い。そして、重要度算出部23は、各要素について重要度を算出し、学習データ生成部24へ出力する。
【0039】
図7は、重要度の計算式の例を示す。重要度s(x)は、関数a(x)とb(x)を用いて、例えば
図7(A)に示す式(1)又は式(2)により定義することができる。式(1)又は式(2)を用いることにより、重要度s(x)は、関数a(x)とb(x)のどちらも大きくなるときに、大きくなる値とする。
【0040】
図7(B)は、関数a(x)とb(x)の一例を示す。関数a(x)は、ダイジェスト映像に使用された区間中の全要素の数に対する、ダイジェスト映像に使用された区間中のある要素xの数の比(「第1の比」と呼ぶ。)である。関数a(x)は、ダイジェスト映像使用区間中における要素xの出現頻度が他の要素の出現頻度より大きいほど大きい値となる。関数b(x)は、素材映像中の要素xの数に対する、ダイジェスト映像に使用された区間中の要素xの数の比(「第2の比」と呼ぶ。)である。関数b(x)は、要素xがダイジェスト映像使用区間に高い頻度で出現し、かつ、素材映像中に低い頻度で出現するほど大きい値となる。
【0041】
図7(C)は、関数の別の例を示す。関数a(x)は、
図7(B)と同様である。一方、関数b’(x)は、関数b(x)の代わりに使用される。関数b’(x)は、素材映像中の全要素の数に対する、素材映像中の要素xの数の比(「第3の比」と呼ぶ。)を1から減じた値である。関数b’(x)は、要素xの素材映像中での出現頻度が低いほど大きい値となる。
【0042】
学習データ生成部24は、各要素の重要度に基づいて、素材映像にラベル付けを行って学習データを生成し、出力する。具体的に、学習データ生成部24は、
図3に示すような素材映像において、ダイジェスト映像使用区間に含まれる要素と類似する各要素について、重要度算出部23が算出した重要度に基づいて正解ラベルの値を決定し、ラベル付けを行う。1つの例では、学習データ生成部24は、複数の要素のうち、重要度が最大である要素のラベルを「1」として他の要素の重要度を正規化した値をラベルとして付与する。別の例では、学習データ生成部24は、重要度が大きい方から所定数の要素のラベルを「1」とし、それ以外の要素のラベルを「0」とする。こうして、
図3に示すように、ダイジェスト映像使用区間に含まれる要素と類似する要素毎に適切なラベルが付与された学習データが生成される。
【0043】
なお、上記の例では、重要度算出部23が算出した各要素の重要度に基づいて、学習データ生成部24が素材映像にラベル付けを行って学習データを生成している。その代わりに、重要度算出部23は、算出した各要素の重要度をそのまま外部装置へ出力してもよい。この場合、外部装置は学習データ生成部24と同様に学習データを生成してもよいし、各要素の重要度を他の用途に使用してもよい。
【0044】
上記の構成において、映像取得部21は情報取得手段の一例であり、映像検索部22は映像検索手段の一例であり、重要度算出部23は重要度算出手段及び出力手段の一例であり、学習データ生成部24は学習データ生成手段の一例である。
【0045】
(学習データ生成処理)
図8は、学習データ生成装置100による学習データ生成処理のフローチャートである。この処理は、
図5に示すプロセッサ12が予め用意されたプログラムを実行し、
図6に示す各要素として動作することにより実現される。
【0046】
まず、映像取得部21は、素材映像と、素材映像中のダイジェスト映像使用区間の情報を取得する(ステップS21)。一例では、映像取得部21は、素材映像とダイジェスト映像を取得し、素材映像とダイジェスト映像とが一致する区間を検出してダイジェスト映像使用区間の情報を取得する。他の例では、映像取得部21は、素材映像と、ダイジェスト映像使用区間の情報を外部から取得する。
【0047】
次に、映像検索部22は、ダイジェスト映像使用区間に含まれる全ての要素を処理したかを判定する(ステップS22)。全ての要素を処理していない場合(ステップS22:No)、映像検索部22は、素材映像の終わりまで処理したか否かを判定する(ステップS23)。素材映像の終わりまで処理していない場合(ステップS23:No)、映像検索部22は、素材映像中の、ダイジェスト映像に含まれる要素と似ている要素を検索する(ステップS24)。具体的には、映像検索部22は、まずダイジェスト映像使用区間の映像をクラスタリングするなどしてダイジェスト映像使用区間に含まれる複数の要素を検出し、そのうちの1つの要素と似ている要素を素材映像から検索する。
【0048】
映像検索部22は、この検索を素材映像の終わりまで行うと(ステップS23:Yes)、ダイジェスト映像使用区間に含まれる別の要素についてステップS23~S24を実行する。こうして、ダイジェスト映像使用区間に含まれる全ての要素の処理が終わると(ステップS22:Yes)、重要度算出部23は、素材映像中及びダイジェスト映像使用区間中の各要素の出現頻度に基づいて、各要素の重要度を算出する(ステップS25)。具体的には、重要度算出部23は、
図7に例示した式などを用いて、各要素の重要度を算出する。
【0049】
次に、学習データ生成部24は、各要素の重要度に基づいて、素材映像の各要素に対応する区間に正解ラベルを付与し、学習データを生成する(ステップS26)。そして、学習データ生成処理は終了する。
【0050】
(具体例)
次に、学習データ生成処理の具体例を説明する。いま、
図9(A)に示すように、素材映像A及びBと、ダイジェスト映像とが与えられたとする。映像取得部21は、素材映像A及びBと素材映像とをマッチングし、
図9(B)に示すように、素材映像中の一致区間Mを検出する。一致区間は、ダイジェスト映像使用区間に相当する。
【0051】
次に、
図10(A)に示すように、映像検索部22は、各一致区間Mの映像をクラスタリングし、複数のクラスタを得る。
図10(A)の例では、素材映像A及びBから一致区間の映像P1~P9が得られており、映像検索部22は映像P1~P9をクラスタリングして
図10(B)に示す5つのクラスタを得る。なお、個々のクラスタは、個々の要素に相当する。
図10(B)では、クラスタ1は映像P1、P3を含み、クラスタ2は映像P4、P7を含み、クラスタ3は映像P6を含み、クラスタ4は映像P8を含み、クラスタ5は映像P2、P5、P9を含む。
【0052】
次に、映像検索部22は、
図10(B)に示す各クラスタを1つのクラスとして分類モデルを学習する。この分類モデルは、入力された素材映像を、クラス1~5に分類するモデルとなる。
【0053】
次に、映像検索部22は、
図11に示すように、学習済みの分類モデル31に素材映像Aを入力し、素材映像Aを5つのクラスに分類する。なお、分類モデル31による分類結果には、いずれのクラスにも似ていない映像があってもよい。なお、素材映像Bも同様に分類モデル31を用いて分類される。
【0054】
次に、重要度算出部23は、分類結果に基づいて、素材映像及びダイジェスト映像使用区間における各要素の出現頻度を算出し、
図7に例示した計算式などを用いて各要素の重要度を算出する。そして、学習データ生成部24は、各要素の重要度を用いて素材映像中の各要素の区間にラベル付けし、学習データを生成する。これにより、例えば
図12に示すように、素材映像A中の各要素の区間に正解ラベルが付与された学習データが生成される。
【0055】
[ダイジェスト映像生成装置の学習]
次に、学習データ生成装置100が生成した学習データを用いてダイジェスト映像生成装置(ダイジェスト映像生成モデル)を学習する方法を説明する。
図13は、ダイジェスト映像生成装置200の学習のための構成を示す。ダイジェスト映像生成装置200は、学習部41と接続される。ダイジェスト映像生成装置200及び学習部41には、学習データ生成装置100が生成した学習データが入力される。具体的に、学習データは、
図12に例示するように、素材映像と、素材映像の各要素の区間に付与された正解ラベルとを含む。
【0056】
学習時には、学習データのうちの素材映像がダイジェスト映像生成装置200に入力され、正解ラベルが学習部41に入力される。ダイジェスト映像生成装置200は、ダイジェスト映像生成モデルを用いて、素材映像からイベントシーンを検出し、学習部41へ出力する。学習部41は、ダイジェスト映像生成モデルが検出したイベントシーンと、正解ラベルとに基づいて、ダイジェスト映像生成モデルを最適化する。こうして、学習データ生成装置100が生成した学習データを用いて、ダイジェスト映像生成装置200の学習が行われる。
【0057】
本実施形態の学習データ生成装置100が生成する学習データは、単にダイジェスト映像に使用されているか否かではなく、ダイジェスト映像に使用されるシーンを特徴づける要素であるか否かを示す重要度に基づいてラベル付けが行われている。よって、その学習データを用いて学習したダイジェスト映像生成装置200は、ダイジェスト映像に使用されている区間に含まれる普遍的な映像の影響を低減し、適切なダイジェスト映像の生成が可能となる。
【0058】
[ダイジェスト映像生成装置の変形例]
上記のように、学習データ生成装置100が生成する学習データを用いてダイジェスト映像生成装置200を学習する代わりに、学習データ生成装置100の映像検索部22が生成した分類モデル31を用いてダイジェスト映像生成装置を構成してもよい。
【0059】
図14は、変形例に係るダイジェスト映像生成装置200xの構成を示すブロック図である。ダイジェスト映像生成装置200xは、分類モデル31と、重要度算出部32と、イベントシーン選択部33と、映像結合部34とを備える。分類モデル31には、素材映像Xが入力される。素材映像Xは、ダイジェスト映像の作成の元になる映像である。分類モデル31は、素材映像Xをダイジェスト映像使用区間に含まれる各要素に分類し、重要度算出部32へ出力する。重要度算出部32は、素材映像Xに含まれる各要素の重要度を算出し、イベントシーン選択部33へ出力する。
【0060】
イベントシーン選択部33は、各要素の重要度に基づいて、ダイジェスト映像を構成するイベントシーンを選択し、映像結合部34へ出力する。例えば、イベントシーン選択部33は、素材映像Xから、重要度が所定値以上である要素に対応する区間をイベントシーンとして選択する。映像結合部34は、イベントシーン選択部33が選択したシーンを時系列で結合し、ダイジェスト映像を生成する。
【0061】
<第2実施形態>
次に、本開示の第2実施形態について説明する。
図15は、第2実施形態に係る映像処理装置の機能構成を示すブロック図である。図示のように、映像処理装置70は、情報取得手段71と、映像検索手段72と、重要度算出手段73と、を備える。
【0062】
図16は、映像処理装置70による処理のフローチャートである。情報取得手段71は、素材映像と、素材映像中のダイジェスト映像に使用された区間の情報とを取得する(ステップS71)。映像検索手段72は、ダイジェスト映像に使用された区間に含まれる要素に類似した要素を、素材映像中で検索する(ステップS72)。重要度算出手段73は、各要素の、素材映像中及びダイジェスト映像に使用された区間中における出現頻度に基づいて、各要素の重要度を算出する(ステップS73)。
【0063】
第2実施形態の映像処理装置70によれば、素材映像中の、ダイジェスト映像に使用された区間に含まれる要素と類似する要素について重要度を算出することができる。
【0064】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0065】
(付記1)
素材映像と、前記素材映像中のダイジェスト映像に使用された区間の情報とを取得する情報取得手段と、
前記ダイジェスト映像に使用された区間に含まれる要素に類似した要素を、前記素材映像中で検索する映像検索手段と、
各要素の、前記素材映像中及び前記ダイジェスト映像に使用された区間中における出現頻度に基づいて、各要素の重要度を算出する重要度算出手段と、
を備える映像処理装置。
【0066】
(付記2)
各要素の重要度を出力する出力手段を備える付記1に記載の映像処理装置。
【0067】
(付記3)
各要素の重要度に基づいて、前記素材映像中の各要素の区間にラベル付けし、学習データを生成する学習データ生成手段を備える付記1に記載の映像処理装置。
【0068】
(付記4)
前記要素は、1枚のフレーム画像、又は、複数枚のフレーム画像である付記1乃至3のいずれか一項に記載の映像処理装置。
【0069】
(付記5)
前記要素は、1枚又は複数枚のフレーム画像をクラスタリングして得られる各クラスタに含まれるフレーム画像である付記1乃至3のいずれか一項に記載の映像処理装置。
【0070】
(付記6)
前記要素は、1枚又は複数枚のフレーム画像をクラスタリングして得られる各クラスタにおける中心の特徴量である付記1乃至3のいずれか一項に記載の映像処理装置。
【0071】
(付記7)
前記重要度算出手段は、前記ダイジェスト映像に使用された区間中の全要素の数に対する前記ダイジェスト映像に使用された区間中の一要素の数の比である第1の比、及び、前記素材映像中の前記一要素の数に対する前記ダイジェスト映像に使用された区間中の前記一要素の数の比である第2の比に基づいて前記重要度を算出する付記1乃至6のいずれか一項に記載の映像処理装置。
【0072】
(付記8)
前記重要度算出手段は、前記ダイジェスト映像に使用された区間中の全要素の数に対する前記ダイジェスト映像に使用された区間中の一要素の数の比である第1の比、及び、前記素材映像中の全要素の数に対する前記素材映像中の前記一要素の数の比である第3の比を1から減じた値に基づいて前記重要度を算出する付記1乃至6のいずれか一項に記載の映像処理装置。
【0073】
(付記9)
素材映像と、前記素材映像中のダイジェスト映像に使用された区間の情報とを取得し、
前記ダイジェスト映像に使用された区間に含まれる要素に類似した要素を、前記素材映像中で検索し、
各要素の、前記素材映像中及び前記ダイジェスト映像に使用された区間中における出現頻度に基づいて、各要素の重要度を算出する映像処理方法。
【0074】
(付記10)
素材映像と、前記素材映像中のダイジェスト映像に使用された区間の情報とを取得し、
前記ダイジェスト映像に使用された区間に含まれる要素に類似した要素を、前記素材映像中で検索し、
各要素の、前記素材映像中及び前記ダイジェスト映像に使用された区間中における出現頻度に基づいて、各要素の重要度を算出する処理をコンピュータに実行させるプログラムを記録した記録媒体。
【0075】
以上、実施形態及び実施例を参照して本開示を説明したが、本開示は上記実施形態及び実施例に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。
【符号の説明】
【0076】
12 プロセッサ
21 映像取得部
22 映像検索部
23 重要度算出部
24 学習データ生成部
31 分類モデル
32 重要度算出部
33 イベントシーン選択部
34 映像結合部
41 学習部
100 学習データ生成装置
200 ダイジェスト映像生成装置