特許7662033 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7662033映像処理装置、映像処理方法、及び、プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-04-07

(45)【発行日】2025-04-15

(54)【発明の名称】映像処理装置、映像処理方法、及び、プログラム

(51)【国際特許分類】

H04N 5/91 20060101AFI20250408BHJP

H04N 21/8549 20110101ALI20250408BHJP

H04N 21/232 20110101ALI20250408BHJP

【ＦＩ】

H04N5/91

H04N21/8549

H04N21/232

【請求項の数】 10

(21)【出願番号】P 2023528884

(86)(22)【出願日】2021-06-17

(86)【国際出願番号】 JP2021023064

(87)【国際公開番号】W WO2022264365

(87)【国際公開日】2022-12-22

【審査請求日】2023-12-14

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100107331

【弁理士】

【氏名又は名称】中村聡延

(74)【代理人】

【識別番号】100104765

【弁理士】

【氏名又は名称】江上達夫

(74)【代理人】

【識別番号】100131015

【弁理士】

【氏名又は名称】三輪浩誉

(72)【発明者】

【氏名】渡辺はるな

(72)【発明者】

【氏名】白石壮馬

(72)【発明者】

【氏名】鍋藤悠

【審査官】鈴木順三

(56)【参考文献】

【文献】国際公開第２０２１／０１９６４５（ＷＯ，Ａ１）

【文献】特開２０１６－０５８０２４（ＪＰ，Ａ）

【文献】特開２００７－３３６１０６（ＪＰ，Ａ）

【文献】特開２００６－２８７３１９（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｎ５／７６－５／９５６

Ｈ０４Ｎ２１／００－２１／８５８

(57)【特許請求の範囲】

【請求項1】

素材映像と、前記素材映像中のダイジェスト映像に使用された区間の情報とを取得する情報取得手段と、
前記ダイジェスト映像に使用された区間に含まれる要素に類似した要素を、前記素材映像中で検索する映像検索手段と、
各要素の、前記素材映像中及び前記ダイジェスト映像に使用された区間中における出現頻度に基づいて、各要素の重要度を算出する重要度算出手段と、
を備え、
前記重要度は、前記ダイジェスト映像に使用された区間中における前記要素の出現頻度が他の要素の出現頻度より高いほど大きい値となり、かつ、前記素材映像中における前記要素の出現頻度が低いほど大きい値となる映像処理装置。

【請求項2】

各要素の重要度を出力する出力手段を備える請求項１に記載の映像処理装置。

【請求項3】

各要素の重要度に基づいて、前記素材映像中の各要素の区間にラベル付けし、学習データを生成する学習データ生成手段を備える請求項１に記載の映像処理装置。

【請求項4】

前記要素は、１枚のフレーム画像、又は、複数枚のフレーム画像である請求項１乃至３のいずれか一項に記載の映像処理装置。

【請求項5】

前記要素は、１枚又は複数枚のフレーム画像をクラスタリングして得られる各クラスタに含まれるフレーム画像である請求項１乃至３のいずれか一項に記載の映像処理装置。

【請求項6】

前記要素は、１枚又は複数枚のフレーム画像をクラスタリングして得られる各クラスタにおける中心の特徴量である請求項１乃至３のいずれか一項に記載の映像処理装置。

【請求項7】

前記重要度算出手段は、前記ダイジェスト映像に使用された区間中の全要素の数に対する前記ダイジェスト映像に使用された区間中の一要素の数の比である第１の比、及び、前記素材映像中の前記一要素の数に対する前記ダイジェスト映像に使用された区間中の前記一要素の数の比である第２の比に基づいて前記重要度を算出する請求項１乃至６のいずれか一項に記載の映像処理装置。

【請求項8】

前記重要度算出手段は、前記ダイジェスト映像に使用された区間中の全要素の数に対する前記ダイジェスト映像に使用された区間中の一要素の数の比である第１の比、及び、前記素材映像中の全要素の数に対する前記素材映像中の前記一要素の数の比である第３の比を１から減じた値に基づいて前記重要度を算出する請求項１乃至６のいずれか一項に記載の映像処理装置。

【請求項9】

素材映像と、前記素材映像中のダイジェスト映像に使用された区間の情報とを取得し、
前記ダイジェスト映像に使用された区間に含まれる要素に類似した要素を、前記素材映像中で検索し、
各要素の、前記素材映像中及び前記ダイジェスト映像に使用された区間中における出現頻度に基づいて、各要素の重要度を算出し、
前記重要度は、前記ダイジェスト映像に使用された区間中における前記要素の出現頻度が他の要素の出現頻度より高いほど大きい値となり、かつ、前記素材映像中における前記要素の出現頻度が低いほど大きい値となる映像処理方法。

【請求項10】

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、映像データの処理に関する。

【背景技術】

【0002】

動画像から映像ダイジェストを生成する技術が提案されている。特許文献１には、予め準備されたトレーニング動画像及びユーザが指定した重要シーン動画像から学習データファイルを作成し、当該学習データファイルに基づき、対象の動画像から重要シーンの検出を行うハイライト抽出装置が開示されている。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２００８－０２２１０３号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

スポーツなどのダイジェスト映像に含まれる映像には、ダイジェスト映像に特徴的な映像と、それ以外の普遍的な映像とがある。従来のダイジェスト映像生成装置の学習では、ダイジェスト映像に使用されたか否かに基づいて学習データを生成し、学習を行っていた。即ち、素材映像のうち、ダイジェスト映像に使用された箇所を全て正解として学習データを生成し、学習を行っていた。この場合、普遍的な映像が学習データの正解クラスと非正解クラスの両方に含まれてしまい、これが素材映像から重要なイベントを検出する際の精度低下の一因となっていた。

【0005】

本開示の１つの目的は、素材映像から重要なイベントを高精度で検出可能なダイジェスト映像装置を生成可能とすることにある。

【課題を解決するための手段】

【0006】

本開示の１つの観点では、映像処理装置は、
素材映像と、前記素材映像中のダイジェスト映像に使用された区間の情報とを取得する情報取得手段と、
前記ダイジェスト映像に使用された区間に含まれる要素に類似した要素を、前記素材映像中で検索する映像検索手段と、
各要素の、前記素材映像中及び前記ダイジェスト映像に使用された区間中における出現頻度に基づいて、各要素の重要度を算出する重要度算出手段と、
を備え、
前記重要度は、前記ダイジェスト映像に使用された区間中における前記要素の出現頻度が他の要素の出現頻度より高いほど大きい値となり、かつ、前記素材映像中における前記要素の出現頻度が低いほど大きい値となる。

【0007】

本開示の他の観点では、映像処理方法は、
素材映像と、前記素材映像中のダイジェスト映像に使用された区間の情報とを取得し、
前記ダイジェスト映像に使用された区間に含まれる要素に類似した要素を、前記素材映像中で検索し、
各要素の、前記素材映像中及び前記ダイジェスト映像に使用された区間中における出現頻度に基づいて、各要素の重要度を算出し、
前記重要度は、前記ダイジェスト映像に使用された区間中における前記要素の出現頻度が他の要素の出現頻度より高いほど大きい値となり、かつ、前記素材映像中における前記要素の出現頻度が低いほど大きい値となる。

【0008】

本発明のさらに他の観点では、プログラムは、
素材映像と、前記素材映像中のダイジェスト映像に使用された区間の情報とを取得し、
前記ダイジェスト映像に使用された区間に含まれる要素に類似した要素を、前記素材映像中で検索し、
各要素の、前記素材映像中及び前記ダイジェスト映像に使用された区間中における出現頻度に基づいて、各要素の重要度を算出し、
前記重要度は、前記ダイジェスト映像に使用された区間中における前記要素の出現頻度が他の要素の出現頻度より高いほど大きい値となり、かつ、前記素材映像中における前記要素の出現頻度が低いほど大きい値となる処理をコンピュータに実行させる。

【発明の効果】

【0009】

本開示によれば、素材映像から重要なイベントを高精度で検出可能なダイジェスト映像装置を生成可能となる。

【図面の簡単な説明】

【0010】

【図1】ダイジェスト映像生成装置の概略構成を示す。

【図2】ダイジェスト映像の例を示す。

【図3】学習データ生成時における素材映像に対するラベル付けの例を示す。

【図4】本実施形態の学習データ生成装置の全体構成を示す。

【図5】学習データ生成装置のハードウェア構成を示すブロック図である。

【図6】学習データ生成装置の機能構成を示すブロック図である。

【図7】重要度の計算式の例を示す。

【図8】学習データ生成装置による学習データ生成処理のフローチャートである。

【図9】学習データ生成処理の具体例を説明する図である。

【図10】学習データ生成処理の具体例を説明する図である。

【図11】学習データ生成処理の具体例を説明する図である。

【図12】生成された学習データの例を示す。

【図13】ダイジェスト映像生成装置の学習のための構成を示す。

【図14】ダイジェスト映像生成装置の変形例の構成を示すブロック図である。

【図15】第２実施形態に係る映像処理装置の機能構成を示すブロック図である。

【図16】第２実施形態に係る映像処理装置による処理のフローチャートである。

【発明を実施するための形態】

【0011】

以下、図面を参照して、本開示の好適な実施形態について説明する。
＜第１実施形態＞
［ダイジェスト映像生成装置］
まず、前提として、ダイジェスト映像生成装置について説明する。図１は、ダイジェスト映像生成装置の概略構成を示す。ダイジェスト映像生成装置２００は、素材映像データベース（以下、「データベース」を「ＤＢ」とも記す。）２に接続されている。素材映像ＤＢ２は、各種の素材映像、即ち、動画像を記憶している。素材映像は、例えば放送局から放送されるテレビ番組などの映像でもよく、インターネットなどで配信されている映像でもよい。なお、素材映像は、音声を含んでいてもよく、含んでいなくてもよい。

【0012】

ダイジェスト映像生成装置２００は、素材映像ＤＢ２に保存されている素材映像の一部を用いたダイジェスト映像を生成し、出力する。ダイジェスト映像は、素材映像において何らかのイベントが発生したシーンを時系列につなげた映像である。ダイジェスト映像生成装置２００は、機械学習により訓練済みのダイジェスト映像生成モデルを用いて素材映像からイベントシーンを検出し、複数のイベントシーンを時系列につなげてダイジェスト映像を生成する。ダイジェスト映像生成モデルは、素材映像からイベントシーンを検出するモデルであり、例えば、ニューラルネットワークを用いた深層学習のモデルを用いることができる。

【0013】

図２は、ダイジェスト映像の例を示す。図２の例では、ダイジェスト映像生成装置２００は、素材映像に含まれるイベントシーンＡ～Ｄを抽出し、これらを時系列につなげてダイジェスト映像を生成する。なお、素材映像から抽出されたイベントシーンは、その内容次第で、ダイジェスト映像中で繰り返し使用されてもよい。イベントシーンは、素材映像において何らかのイベントが起きたシーンに対応する１枚又は複数のフレーム画像により構成される。イベントシーンは、その始点及び終点により規定される。なお、終点の代わりに、イベントシーンの長さを用いてイベントシーンを規定してもよい。

【0014】

［学習データ生成装置］
（基本原理）
次に、本実施形態に係る学習データ生成装置の基本原理について説明する。学習データ生成装置は、上記のダイジェスト映像生成装置２００（ダイジェスト映像生成モデル）の学習に用いられる学習データを生成する装置である。

【0015】

スポーツのダイジェスト映像では、イベントシーンとして検出されるような重要なイベントのシーンは、暗黙的に決まっている複数の短い映像から構成されることが多い。例えば、サッカーのゴールシーンでは、フィールド全体を俯瞰で撮影するカメラ（以下、「俯瞰カメラ」と呼ぶ。）により選手のシュートからゴールまでを撮影した映像が映り、次に選手のゴールパフォーマンスの映像、又は、別角度のカメラで撮影したゴールシーンの映像などが映ることが多い。

【0016】

また、ダイジェスト映像に含まれる映像には、ダイジェスト映像に特徴的な映像と、それ以外の普遍的な映像とがある。普遍的な映像とは、ダイジェスト映像のみならず、ダイジェスト映像以外のシーンにも共通して含まれるような映像である。

【0017】

通常、ダイジェスト映像生成装置の学習では、ダイジェスト映像に使用されたか否かに基づいて学習データを生成し、ダイジェスト映像生成モデルの学習を行っていた。即ち、素材映像のうち、ダイジェスト映像に使用された箇所を全て正解として学習データを生成し、ダイジェスト映像生成モデルの学習を行っていた。この場合、普遍的な映像が学習データの正解クラスと非正解クラスの両方に含まれてしまい、これが試合全体の素材映像からサッカーのゴールシーンなどの重要なイベントシーンを検出する際の精度低下の一因となっていた。

【0018】

そこで、本実施形態では、学習データ生成装置は、ダイジェスト映像に使用された箇所には高頻度で現れるが、ダイジェスト映像に使用されなかった箇所には比較的低頻度で現れる映像を、イベントシーンに特徴的な映像であると仮定し、この特徴的な映像を規定する「特徴的な要素」を決定する。特徴的な要素とは、ダイジェスト映像に使用された区間、即ちイベントシーンに含まれる要素である。ここで、特徴的な要素は、例えば映像の１枚のフレーム画像であってもよく、複数枚の連続するフレーム画像であってもよい。また、特徴的な要素は、１種類であってもよいし、２種類以上でもよい。

【0019】

図３は、学習データ生成時における素材映像に対するラベル付けの例を示す。ダイジェスト映像生成モデルの学習を行う場合、素材映像に正解ラベルを付与して学習データを生成する。図３において、斜線で示すイベントシーン７は、素材映像のうち、既存のダイジェスト映像に含まれるシーンである。即ち、イベントシーン７は、素材映像と、ニュースなどで使用された既存のダイジェスト映像と照合し、両者が一致した箇所である。なお、図３に示すサッカーの素材映像の場合、イベントシーンとしては、俯瞰カメラによるゴールシーン、ゴール裏のカメラによるゴールシーン、選手のゴールパフォーマンスシーンなどが検出される。具体的に、図３におけるイベントシーン７ａは俯瞰カメラによるゴールシーンであり、イベントシーン７ｂはゴール裏のカメラによるゴールシーンであり、イベントシーン７ｃは選手のゴールパフォーマンスのシーンである。なお、イベントシーン７ａ～７ｃの前後のシーン８は、ダイジェスト映像に含まれていないシーンである。

【0020】

学習データの生成時には、素材映像から検出されたイベントシーンに対して正解ラベルを付与する。ここで、図３に示すように、通常のラベル付け方法は、イベントシーンのフレーム画像に対してラベル「１」を付与し、それ以外のシーンのフレーム画像に対してはラベル「０」を付与する。

【0021】

これに対し、本実施形態のラベル付け方法１は、各イベントシーンが特徴的である度合いに応じて、各イベントシーンに「０」～「１」の間の値を付与する。なお、この「特徴的である度合い」は、後述する「重要度」に相当する。図３の例では、ゴール裏のカメラによる映像はサッカーのゴールシーンに特に特徴的なシーンと考えられるため、ゴール裏のカメラによるゴールシーンであるイベントシーン７ｂにはラベル「１」が付与されている。また、俯瞰カメラによるゴールシーンであるイベントシーン７ａと、選手のゴールパフォーマンスシーンであるイベントシーン７ｃにはラベル「０．５」が付与されている。そして、これら以外のシーンにはラベル「０」が付与されている。

【0022】

また、本実施形態のラベル付け方法２は、ゴール裏のカメラによるゴールシーンであるイベントシーン７ｂにはラベル「１」を付与し、それ以外のシーンにはラベル「０」を付与している。

【0023】

このように、本実施形態では、単にダイジェスト映像に含まれているシーンであるか否かではなく、ダイジェスト映像において特徴的である度合いを考慮して学習データのラベル付けを行う。これにより、ダイジェスト映像に使用された区間における普遍的な映像の影響を低減することができる。よって、その学習データを用いて学習することにより、高精度なダイジェスト映像生成装置を得ることが可能となる。

【0024】

（全体構成）
図４は、本実施形態の学習データ生成装置の全体構成を示す。学習データ生成装置１００は、素材映像及びダイジェスト映像から学習データを生成する。素材映像は、学習データの元になる映像である。また、ダイジェスト映像は、ニュース番組などで使用した既存のダイジェスト映像である。一方、学習データは、図３に例示したように、素材映像に対して正解ラベルを付与したデータである。

【0025】

（ハードウェア構成）
図５は、学習データ生成装置１００のハードウェア構成を示すブロック図である。図示のように、学習データ生成装置１００は、インタフェース（ＩＦ）１１と、プロセッサ１２と、メモリ１３と、記録媒体１４と、データベース（ＤＢ）１５とを備える。

【0026】

ＩＦ１１は、外部装置との間でデータの入出力を行う。具体的に、インタフェース１１は、学習データの元になる素材映像と、既存のダイジェスト映像とを受け取り、生成された学習データを出力する。

【0027】

プロセッサ１２は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのコンピュータであり、予め用意されたプログラムを実行することにより、学習データ生成装置１００の全体を制御する。具体的に、プロセッサ１２は、後述する学習データ生成処理を実行する。

【0028】

メモリ１３は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などにより構成される。メモリ１３は、プロセッサ１２による各種の処理の実行中に作業メモリとしても使用される。

【0029】

記録媒体１４は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、学習データ生成装置１００に対して着脱可能に構成される。記録媒体１４は、プロセッサ１２が実行する各種のプログラムを記録している。学習データ生成装置１００が各種の処理を実行する際には、記録媒体１４に記録されているプログラムがメモリ１３にロードされ、プロセッサ１２により実行される。

【0030】

データベース１５は、ＩＦ１１を通じて入力された素材映像やダイジェスト映像などを一時的に記憶する。なお、学習データ生成装置１００は、作業者が指示や入力を行うためのキーボード、マウスなどの入力部、及び、液晶ディスプレイなどの表示部を備えていてもよい。

【0031】

（機能構成）
図６は、学習データ生成装置１００の機能構成を示すブロック図である。学習データ生成装置１００は、映像取得部２１と、映像検索部２２と、重要度算出部２３と、学習データ生成部２４と、を備える。

【0032】

映像取得部２１は、外部から素材映像とダイジェスト映像とを取得する。映像取得部２１は、素材映像とダイジェスト映像とを照合し、素材映像中のダイジェスト映像と一致する区間、即ち、ダイジェスト映像に使用されている区間（以下、「ダイジェスト映像使用区間」とも呼ぶ。）の情報を生成する。そして、映像取得部２１は、素材映像と、素材映像中のダイジェスト映像使用区間の情報と、を映像検索部２２へ出力する。また、映像取得部２１は、素材映像を学習データ生成部２４へ出力する。

【0033】

なお、ダイジェスト映像使用区間の情報自体を外部から取得可能な場合には、映像取得部２１は、素材映像と、ダイジェスト映像使用区間の情報とを外部から取得し、映像検索部２２へ出力してもよい。

【0034】

映像検索部２２は、ダイジェスト映像使用区間に含まれる要素に類似した要素を、素材映像中から検索する。ここでの「要素」は、１枚のフレーム画像であってもよく、連続する複数枚のフレーム画像であってもよい。例えば、映像検索部２２は、ダイジェスト映像使用区間に含まれるフレーム画像をクラスタリングして複数の要素を抽出する。この場合、各要素は、１枚のフレーム画像又は複数枚のフレーム画像をクラスタリングして得た各クラスタに含まれるフレーム画像であってもよい。さらには、各要素は、１枚のフレーム画像又は複数枚のフレーム画像をクラスタリングして得た各クラスタの中心の特徴量であってもよい。

【0035】

その代わりに、映像検索部２２は、ダイジェスト映像からショット切替位置を検出し、個々のカメラによる映像を要素として抽出してもよい。

【0036】

そして、映像検索部２２は、素材映像から各要素に類似する要素を検索し、重要度算出部２３へ出力する。なお、映像検索部２２は、素材映像の最初から最後までの全体を検索して各要素を検出してもよいし、素材映像のうちダイジェスト映像使用区間以外の区間を検索して各要素を検出してもよい。

【0037】

なお、映像検索部２２は、素材映像から各要素を検索する代わりに、素材映像を各要素に分類してもよい。各要素の検索手法や分類手法は、学習が必要な手法でもよく、学習が不要な手法（例えば、教師なし学習や、既存のモデルを使用する方法）であってもよい。

【0038】

重要度算出部２３は、素材映像中及びダイジェスト映像使用区間中における各要素の出現頻度に基づいて、各要素の重要度を算出する。ここで、「重要度」とは、各要素がダイジェスト映像に含まれるシーンを特徴づける要素であるかどうかを反映した値であり、先に述べた「各イベントシーンが特徴的である度合い」に相当する。重要度の値が大きいほど、そのシーンが特徴的である度合いが高い。そして、重要度算出部２３は、各要素について重要度を算出し、学習データ生成部２４へ出力する。

【0039】

図７は、重要度の計算式の例を示す。重要度ｓ（ｘ）は、関数ａ（ｘ）とｂ（ｘ）を用いて、例えば図７（Ａ）に示す式（１）又は式（２）により定義することができる。式（１）又は式（２）を用いることにより、重要度ｓ（ｘ）は、関数ａ（ｘ）とｂ（ｘ）のどちらも大きくなるときに、大きくなる値とする。

【0040】

図７（Ｂ）は、関数ａ（ｘ）とｂ（ｘ）の一例を示す。関数ａ（ｘ）は、ダイジェスト映像に使用された区間中の全要素の数に対する、ダイジェスト映像に使用された区間中のある要素ｘの数の比（「第１の比」と呼ぶ。）である。関数ａ（ｘ）は、ダイジェスト映像使用区間中における要素ｘの出現頻度が他の要素の出現頻度より大きいほど大きい値となる。関数ｂ（ｘ）は、素材映像中の要素ｘの数に対する、ダイジェスト映像に使用された区間中の要素ｘの数の比（「第２の比」と呼ぶ。）である。関数ｂ（ｘ）は、要素ｘがダイジェスト映像使用区間に高い頻度で出現し、かつ、素材映像中に低い頻度で出現するほど大きい値となる。

【0041】

図７（Ｃ）は、関数の別の例を示す。関数ａ（ｘ）は、図７（Ｂ）と同様である。一方、関数ｂ’（ｘ）は、関数ｂ（ｘ）の代わりに使用される。関数ｂ’（ｘ）は、素材映像中の全要素の数に対する、素材映像中の要素ｘの数の比（「第３の比」と呼ぶ。）を１から減じた値である。関数ｂ’（ｘ）は、要素ｘの素材映像中での出現頻度が低いほど大きい値となる。

【0042】

学習データ生成部２４は、各要素の重要度に基づいて、素材映像にラベル付けを行って学習データを生成し、出力する。具体的に、学習データ生成部２４は、図３に示すような素材映像において、ダイジェスト映像使用区間に含まれる要素と類似する各要素について、重要度算出部２３が算出した重要度に基づいて正解ラベルの値を決定し、ラベル付けを行う。１つの例では、学習データ生成部２４は、複数の要素のうち、重要度が最大である要素のラベルを「１」として他の要素の重要度を正規化した値をラベルとして付与する。別の例では、学習データ生成部２４は、重要度が大きい方から所定数の要素のラベルを「１」とし、それ以外の要素のラベルを「０」とする。こうして、図３に示すように、ダイジェスト映像使用区間に含まれる要素と類似する要素毎に適切なラベルが付与された学習データが生成される。

【0043】

なお、上記の例では、重要度算出部２３が算出した各要素の重要度に基づいて、学習データ生成部２４が素材映像にラベル付けを行って学習データを生成している。その代わりに、重要度算出部２３は、算出した各要素の重要度をそのまま外部装置へ出力してもよい。この場合、外部装置は学習データ生成部２４と同様に学習データを生成してもよいし、各要素の重要度を他の用途に使用してもよい。

【0044】

上記の構成において、映像取得部２１は情報取得手段の一例であり、映像検索部２２は映像検索手段の一例であり、重要度算出部２３は重要度算出手段及び出力手段の一例であり、学習データ生成部２４は学習データ生成手段の一例である。

【0045】

（学習データ生成処理）
図８は、学習データ生成装置１００による学習データ生成処理のフローチャートである。この処理は、図５に示すプロセッサ１２が予め用意されたプログラムを実行し、図６に示す各要素として動作することにより実現される。

【0046】

まず、映像取得部２１は、素材映像と、素材映像中のダイジェスト映像使用区間の情報を取得する（ステップＳ２１）。一例では、映像取得部２１は、素材映像とダイジェスト映像を取得し、素材映像とダイジェスト映像とが一致する区間を検出してダイジェスト映像使用区間の情報を取得する。他の例では、映像取得部２１は、素材映像と、ダイジェスト映像使用区間の情報を外部から取得する。

【0047】

次に、映像検索部２２は、ダイジェスト映像使用区間に含まれる全ての要素を処理したかを判定する（ステップＳ２２）。全ての要素を処理していない場合（ステップＳ２２：Ｎｏ）、映像検索部２２は、素材映像の終わりまで処理したか否かを判定する（ステップＳ２３）。素材映像の終わりまで処理していない場合（ステップＳ２３：Ｎｏ）、映像検索部２２は、素材映像中の、ダイジェスト映像に含まれる要素と似ている要素を検索する（ステップＳ２４）。具体的には、映像検索部２２は、まずダイジェスト映像使用区間の映像をクラスタリングするなどしてダイジェスト映像使用区間に含まれる複数の要素を検出し、そのうちの１つの要素と似ている要素を素材映像から検索する。

【0048】

映像検索部２２は、この検索を素材映像の終わりまで行うと（ステップＳ２３：Ｙｅｓ）、ダイジェスト映像使用区間に含まれる別の要素についてステップＳ２３～Ｓ２４を実行する。こうして、ダイジェスト映像使用区間に含まれる全ての要素の処理が終わると（ステップＳ２２：Ｙｅｓ）、重要度算出部２３は、素材映像中及びダイジェスト映像使用区間中の各要素の出現頻度に基づいて、各要素の重要度を算出する（ステップＳ２５）。具体的には、重要度算出部２３は、図７に例示した式などを用いて、各要素の重要度を算出する。

【0049】

次に、学習データ生成部２４は、各要素の重要度に基づいて、素材映像の各要素に対応する区間に正解ラベルを付与し、学習データを生成する（ステップＳ２６）。そして、学習データ生成処理は終了する。

【0050】

（具体例）
次に、学習データ生成処理の具体例を説明する。いま、図９（Ａ）に示すように、素材映像Ａ及びＢと、ダイジェスト映像とが与えられたとする。映像取得部２１は、素材映像Ａ及びＢと素材映像とをマッチングし、図９（Ｂ）に示すように、素材映像中の一致区間Ｍを検出する。一致区間は、ダイジェスト映像使用区間に相当する。

【0051】

次に、図１０（Ａ）に示すように、映像検索部２２は、各一致区間Ｍの映像をクラスタリングし、複数のクラスタを得る。図１０（Ａ）の例では、素材映像Ａ及びＢから一致区間の映像Ｐ１～Ｐ９が得られており、映像検索部２２は映像Ｐ１～Ｐ９をクラスタリングして図１０（Ｂ）に示す５つのクラスタを得る。なお、個々のクラスタは、個々の要素に相当する。図１０（Ｂ）では、クラスタ１は映像Ｐ１、Ｐ３を含み、クラスタ２は映像Ｐ４、Ｐ７を含み、クラスタ３は映像Ｐ６を含み、クラスタ４は映像Ｐ８を含み、クラスタ５は映像Ｐ２、Ｐ５、Ｐ９を含む。

【0052】

次に、映像検索部２２は、図１０（Ｂ）に示す各クラスタを１つのクラスとして分類モデルを学習する。この分類モデルは、入力された素材映像を、クラス１～５に分類するモデルとなる。

【0053】

次に、映像検索部２２は、図１１に示すように、学習済みの分類モデル３１に素材映像Ａを入力し、素材映像Ａを５つのクラスに分類する。なお、分類モデル３１による分類結果には、いずれのクラスにも似ていない映像があってもよい。なお、素材映像Ｂも同様に分類モデル３１を用いて分類される。

【0054】

次に、重要度算出部２３は、分類結果に基づいて、素材映像及びダイジェスト映像使用区間における各要素の出現頻度を算出し、図７に例示した計算式などを用いて各要素の重要度を算出する。そして、学習データ生成部２４は、各要素の重要度を用いて素材映像中の各要素の区間にラベル付けし、学習データを生成する。これにより、例えば図１２に示すように、素材映像Ａ中の各要素の区間に正解ラベルが付与された学習データが生成される。

【0055】

［ダイジェスト映像生成装置の学習］
次に、学習データ生成装置１００が生成した学習データを用いてダイジェスト映像生成装置（ダイジェスト映像生成モデル）を学習する方法を説明する。図１３は、ダイジェスト映像生成装置２００の学習のための構成を示す。ダイジェスト映像生成装置２００は、学習部４１と接続される。ダイジェスト映像生成装置２００及び学習部４１には、学習データ生成装置１００が生成した学習データが入力される。具体的に、学習データは、図１２に例示するように、素材映像と、素材映像の各要素の区間に付与された正解ラベルとを含む。

【0056】

学習時には、学習データのうちの素材映像がダイジェスト映像生成装置２００に入力され、正解ラベルが学習部４１に入力される。ダイジェスト映像生成装置２００は、ダイジェスト映像生成モデルを用いて、素材映像からイベントシーンを検出し、学習部４１へ出力する。学習部４１は、ダイジェスト映像生成モデルが検出したイベントシーンと、正解ラベルとに基づいて、ダイジェスト映像生成モデルを最適化する。こうして、学習データ生成装置１００が生成した学習データを用いて、ダイジェスト映像生成装置２００の学習が行われる。

【0057】

本実施形態の学習データ生成装置１００が生成する学習データは、単にダイジェスト映像に使用されているか否かではなく、ダイジェスト映像に使用されるシーンを特徴づける要素であるか否かを示す重要度に基づいてラベル付けが行われている。よって、その学習データを用いて学習したダイジェスト映像生成装置２００は、ダイジェスト映像に使用されている区間に含まれる普遍的な映像の影響を低減し、適切なダイジェスト映像の生成が可能となる。

【0058】

［ダイジェスト映像生成装置の変形例］
上記のように、学習データ生成装置１００が生成する学習データを用いてダイジェスト映像生成装置２００を学習する代わりに、学習データ生成装置１００の映像検索部２２が生成した分類モデル３１を用いてダイジェスト映像生成装置を構成してもよい。

【0059】

図１４は、変形例に係るダイジェスト映像生成装置２００ｘの構成を示すブロック図である。ダイジェスト映像生成装置２００ｘは、分類モデル３１と、重要度算出部３２と、イベントシーン選択部３３と、映像結合部３４とを備える。分類モデル３１には、素材映像Ｘが入力される。素材映像Ｘは、ダイジェスト映像の作成の元になる映像である。分類モデル３１は、素材映像Ｘをダイジェスト映像使用区間に含まれる各要素に分類し、重要度算出部３２へ出力する。重要度算出部３２は、素材映像Ｘに含まれる各要素の重要度を算出し、イベントシーン選択部３３へ出力する。

【0060】

イベントシーン選択部３３は、各要素の重要度に基づいて、ダイジェスト映像を構成するイベントシーンを選択し、映像結合部３４へ出力する。例えば、イベントシーン選択部３３は、素材映像Ｘから、重要度が所定値以上である要素に対応する区間をイベントシーンとして選択する。映像結合部３４は、イベントシーン選択部３３が選択したシーンを時系列で結合し、ダイジェスト映像を生成する。

【0061】

＜第２実施形態＞
次に、本開示の第２実施形態について説明する。図１５は、第２実施形態に係る映像処理装置の機能構成を示すブロック図である。図示のように、映像処理装置７０は、情報取得手段７１と、映像検索手段７２と、重要度算出手段７３と、を備える。

【0062】

図１６は、映像処理装置７０による処理のフローチャートである。情報取得手段７１は、素材映像と、素材映像中のダイジェスト映像に使用された区間の情報とを取得する（ステップＳ７１）。映像検索手段７２は、ダイジェスト映像に使用された区間に含まれる要素に類似した要素を、素材映像中で検索する（ステップＳ７２）。重要度算出手段７３は、各要素の、素材映像中及びダイジェスト映像に使用された区間中における出現頻度に基づいて、各要素の重要度を算出する（ステップＳ７３）。

【0063】

第２実施形態の映像処理装置７０によれば、素材映像中の、ダイジェスト映像に使用された区間に含まれる要素と類似する要素について重要度を算出することができる。

【0064】

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

【0065】

（付記１）
素材映像と、前記素材映像中のダイジェスト映像に使用された区間の情報とを取得する情報取得手段と、
前記ダイジェスト映像に使用された区間に含まれる要素に類似した要素を、前記素材映像中で検索する映像検索手段と、
各要素の、前記素材映像中及び前記ダイジェスト映像に使用された区間中における出現頻度に基づいて、各要素の重要度を算出する重要度算出手段と、
を備える映像処理装置。

【0066】

（付記２）
各要素の重要度を出力する出力手段を備える付記１に記載の映像処理装置。

【0067】

（付記３）
各要素の重要度に基づいて、前記素材映像中の各要素の区間にラベル付けし、学習データを生成する学習データ生成手段を備える付記１に記載の映像処理装置。

【0068】

（付記４）
前記要素は、１枚のフレーム画像、又は、複数枚のフレーム画像である付記１乃至３のいずれか一項に記載の映像処理装置。

【0069】

（付記５）
前記要素は、１枚又は複数枚のフレーム画像をクラスタリングして得られる各クラスタに含まれるフレーム画像である付記１乃至３のいずれか一項に記載の映像処理装置。

【0070】

（付記６）
前記要素は、１枚又は複数枚のフレーム画像をクラスタリングして得られる各クラスタにおける中心の特徴量である付記１乃至３のいずれか一項に記載の映像処理装置。

【0071】

（付記７）
前記重要度算出手段は、前記ダイジェスト映像に使用された区間中の全要素の数に対する前記ダイジェスト映像に使用された区間中の一要素の数の比である第１の比、及び、前記素材映像中の前記一要素の数に対する前記ダイジェスト映像に使用された区間中の前記一要素の数の比である第２の比に基づいて前記重要度を算出する付記１乃至６のいずれか一項に記載の映像処理装置。

【0072】

（付記８）
前記重要度算出手段は、前記ダイジェスト映像に使用された区間中の全要素の数に対する前記ダイジェスト映像に使用された区間中の一要素の数の比である第１の比、及び、前記素材映像中の全要素の数に対する前記素材映像中の前記一要素の数の比である第３の比を１から減じた値に基づいて前記重要度を算出する付記１乃至６のいずれか一項に記載の映像処理装置。

【0073】

（付記９）
素材映像と、前記素材映像中のダイジェスト映像に使用された区間の情報とを取得し、
前記ダイジェスト映像に使用された区間に含まれる要素に類似した要素を、前記素材映像中で検索し、
各要素の、前記素材映像中及び前記ダイジェスト映像に使用された区間中における出現頻度に基づいて、各要素の重要度を算出する映像処理方法。

【0074】

（付記１０）
素材映像と、前記素材映像中のダイジェスト映像に使用された区間の情報とを取得し、
前記ダイジェスト映像に使用された区間に含まれる要素に類似した要素を、前記素材映像中で検索し、
各要素の、前記素材映像中及び前記ダイジェスト映像に使用された区間中における出現頻度に基づいて、各要素の重要度を算出する処理をコンピュータに実行させるプログラムを記録した記録媒体。

【0075】

以上、実施形態及び実施例を参照して本開示を説明したが、本開示は上記実施形態及び実施例に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。

【符号の説明】

【0076】

１２プロセッサ
２１映像取得部
２２映像検索部
２３重要度算出部
２４学習データ生成部
３１分類モデル
３２重要度算出部
３３イベントシーン選択部
３４映像結合部
４１学習部
１００学習データ生成装置
２００ダイジェスト映像生成装置

【図1】