IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7485023映像処理装置、映像処理方法、訓練装置、及び、プログラム
<>
  • 特許-映像処理装置、映像処理方法、訓練装置、及び、プログラム 図1
  • 特許-映像処理装置、映像処理方法、訓練装置、及び、プログラム 図2
  • 特許-映像処理装置、映像処理方法、訓練装置、及び、プログラム 図3
  • 特許-映像処理装置、映像処理方法、訓練装置、及び、プログラム 図4
  • 特許-映像処理装置、映像処理方法、訓練装置、及び、プログラム 図5
  • 特許-映像処理装置、映像処理方法、訓練装置、及び、プログラム 図6
  • 特許-映像処理装置、映像処理方法、訓練装置、及び、プログラム 図7
  • 特許-映像処理装置、映像処理方法、訓練装置、及び、プログラム 図8
  • 特許-映像処理装置、映像処理方法、訓練装置、及び、プログラム 図9
  • 特許-映像処理装置、映像処理方法、訓練装置、及び、プログラム 図10
  • 特許-映像処理装置、映像処理方法、訓練装置、及び、プログラム 図11
  • 特許-映像処理装置、映像処理方法、訓練装置、及び、プログラム 図12
  • 特許-映像処理装置、映像処理方法、訓練装置、及び、プログラム 図13
  • 特許-映像処理装置、映像処理方法、訓練装置、及び、プログラム 図14
  • 特許-映像処理装置、映像処理方法、訓練装置、及び、プログラム 図15
  • 特許-映像処理装置、映像処理方法、訓練装置、及び、プログラム 図16
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-08
(45)【発行日】2024-05-16
(54)【発明の名称】映像処理装置、映像処理方法、訓練装置、及び、プログラム
(51)【国際特許分類】
   H04N 5/91 20060101AFI20240509BHJP
   H04N 5/92 20060101ALI20240509BHJP
【FI】
H04N5/91
H04N5/92 010
【請求項の数】 10
(21)【出願番号】P 2022527348
(86)(22)【出願日】2020-05-27
(86)【国際出願番号】 JP2020020867
(87)【国際公開番号】W WO2021240677
(87)【国際公開日】2021-12-02
【審査請求日】2022-11-16
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100107331
【弁理士】
【氏名又は名称】中村 聡延
(74)【代理人】
【識別番号】100104765
【弁理士】
【氏名又は名称】江上 達夫
(74)【代理人】
【識別番号】100131015
【弁理士】
【氏名又は名称】三輪 浩誉
(72)【発明者】
【氏名】白石 壮馬
(72)【発明者】
【氏名】菊池 克
(72)【発明者】
【氏名】鍋藤 悠
(72)【発明者】
【氏名】渡辺 はるな
【審査官】川中 龍太
(56)【参考文献】
【文献】特開2012-070283(JP,A)
【文献】特開2014-229092(JP,A)
【文献】特開2008-022103(JP,A)
【文献】韓国公開特許第10-2018-0093582(KR,A)
【文献】米国特許出願公開第2020/0126244(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 5/76 - 5/956
(57)【特許請求の範囲】
【請求項1】
素材映像を取得する映像取得手段と、
複数のモデルを用いて、前記素材映像における重要度を算出する重要度算出手段と、
前記複数のモデルを用いて算出された重要度を統合する重要度統合手段と、
統合された重要度に基づいて前記素材映像における重要シーンを抽出し、抽出された重要シーンを含むダイジェスト映像を生成する生成手段と、
を備え、
前記複数のモデルは、
前記素材映像のある時刻における重要度を、その時刻の映像に基づいて算出する基本モデルと、
前記素材映像のある時刻における重要度を、その時刻よりも所定時間前又は後の時刻の映像に基づいて算出する1又は複数のシフトモデルと、
を含む映像処理装置。
【請求項2】
素材映像を取得する映像取得手段と、
複数のモデルを用いて、前記素材映像における重要度を算出する重要度算出手段と、
前記複数のモデルを用いて算出された重要度を統合する重要度統合手段と、
統合された重要度に基づいて前記素材映像における重要シーンを抽出し、抽出された重要シーンを含むダイジェスト映像を生成する生成手段と、
を備え、
前記複数のモデルは、前記素材映像の重要度を、異なる時間幅の単位で算出するモデルを含む映像処理装置。
【請求項3】
コンピュータにより実行される映像処理方法であって、
素材映像を取得し、
複数のモデルを用いて、前記素材映像における重要度を算出し、
前記複数のモデルを用いて算出された重要度を統合し、
統合された重要度に基づいて前記素材映像における重要シーンを抽出し、抽出された重要シーンを含むダイジェスト映像を生成し、
前記複数のモデルは、
前記素材映像のある時刻における重要度を、その時刻の映像に基づいて算出する基本モデルと、
前記素材映像のある時刻における重要度を、その時刻よりも所定時間前又は後の時刻の映像に基づいて算出する1又は複数のシフトモデルと、
を含む映像処理方法。
【請求項4】
コンピュータにより実行される映像処理方法であって、
素材映像を取得し、
複数のモデルを用いて、前記素材映像における重要度を算出し、
前記複数のモデルを用いて算出された重要度を統合し、
統合された重要度に基づいて前記素材映像における重要シーンを抽出し、抽出された重要シーンを含むダイジェスト映像を生成し、
前記複数のモデルは、前記素材映像の重要度を、異なる時間幅の単位で算出するモデルを含む映像処理方法。
【請求項5】
素材映像を取得し、
複数のモデルを用いて、前記素材映像における重要度を算出し、
前記複数のモデルを用いて算出された重要度を統合し、
統合された重要度に基づいて前記素材映像における重要シーンを抽出し、抽出された重要シーンを含むダイジェスト映像を生成する処理をコンピュータに実行させ、
前記複数のモデルは、
前記素材映像のある時刻における重要度を、その時刻の映像に基づいて算出する基本モデルと、
前記素材映像のある時刻における重要度を、その時刻よりも所定時間前又は後の時刻の映像に基づいて算出する1又は複数のシフトモデルと、
を含むプログラム。
【請求項6】
素材映像を取得し、
複数のモデルを用いて、前記素材映像における重要度を算出し、
前記複数のモデルを用いて算出された重要度を統合し、
統合された重要度に基づいて前記素材映像における重要シーンを抽出し、抽出された重要シーンを含むダイジェスト映像を生成する処理をコンピュータに実行させ、
前記複数のモデルは、前記素材映像の重要度を、異なる時間幅の単位で算出するモデルを含むプログラム。
【請求項7】
訓練用素材映像を取得する映像取得手段と、
前記訓練用素材映像における重要シーンに正解タグが付与された基本正解データを取得する正解データ取得手段と、
前記基本正解データにおける正解タグを所定時間前又は後にシフトして追加正解データを生成する正解データ生成手段と、
前記訓練用素材映像と、前記基本正解データと、前記追加正解データとを用いて、複数のモデルの訓練を行う訓練手段と、
を備える訓練装置。
【請求項8】
訓練用素材映像を取得する映像取得手段と、
前記訓練用素材映像における重要シーンに正解タグが付与された基本正解データを取得する正解データ取得手段と、
前記基本正解データに基づいて、各々が異なる時間幅の正解タグを含む追加正解データを生成する正解データ生成手段と、
前記訓練用素材映像と、前記基本正解データと、前記追加正解データとを用いて、複数のモデルの訓練を行う訓練手段と、
を備える訓練装置。
【請求項9】
訓練用素材映像を取得し、
前記訓練用素材映像における重要シーンに正解タグが付与された基本正解データを取得し、
前記基本正解データにおける正解タグを所定時間前又は後にシフトして追加正解データを生成し、
前記訓練用素材映像と、前記基本正解データと、前記追加正解データとを用いて、複数のモデルの訓練を行う処理をコンピュータに実行させるプログラム。
【請求項10】
訓練用素材映像を取得し、
前記訓練用素材映像における重要シーンに正解タグが付与された基本正解データを取得し、
前記基本正解データに基づいて、各々が異なる時間幅の正解タグを含む追加正解データを生成し、
前記訓練用素材映像と、前記基本正解データと、前記追加正解データとを用いて、複数のモデルの訓練を行う処理をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像データの処理に関する。
【背景技術】
【0002】
動画像から映像ダイジェストを生成する技術が提案されている。特許文献1には、予め準備されたトレーニング動画像及びユーザが指定した重要シーン動画像から学習データファイルを作成し、当該学習データファイルに基づき、対象の動画像から重要シーンの検出を行うハイライト抽出装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2008-022103号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
人間が編集したダイジェスト映像においては、重要シーンに加えて、その周辺のシーンが使用されることが多い。例えば、野球のホームランシーンについては、打者がホームランを打ったシーンに加えて、投手が投球したシーンや、打者がベースランするシーンなどもダイジェスト映像に含められることが多い。この点、機械学習を用いて重要シーンを自動抽出する方法では、重要シーンの周辺のシーンを適切にダイジェスト映像に含めることが難しい。
【0005】
本発明の1つの目的は、重要シーンについて、関連する周辺のシーンを含むダイジェスト映像を生成することが可能な映像処理装置を提供することにある。
【課題を解決するための手段】
【0006】
本発明の一つの観点では、映像処理装置は、
素材映像を取得する映像取得手段と、
複数のモデルを用いて、前記素材映像における重要度を算出する重要度算出手段と、
前記複数のモデルを用いて算出された重要度を統合する重要度統合手段と、
統合された重要度に基づいて前記素材映像における重要シーンを抽出し、抽出された重要シーンを含むダイジェスト映像を生成する生成手段と、
を備え
前記複数のモデルは、
前記素材映像のある時刻における重要度を、その時刻の映像に基づいて算出する基本モデルと、
前記素材映像のある時刻における重要度を、その時刻よりも所定時間前又は後の時刻の映像に基づいて算出する1又は複数のシフトモデルと、を含む
本発明の他の観点では、映像処理装置は、
素材映像を取得する映像取得手段と、
複数のモデルを用いて、前記素材映像における重要度を算出する重要度算出手段と、
前記複数のモデルを用いて算出された重要度を統合する重要度統合手段と、
統合された重要度に基づいて前記素材映像における重要シーンを抽出し、抽出された重要シーンを含むダイジェスト映像を生成する生成手段と、
を備え、
前記複数のモデルは、前記素材映像の重要度を、異なる時間幅の単位で算出するモデルを含む。
【0007】
本発明のさらに他の観点では、コンピュータにより実行される映像処理方法は、
素材映像を取得し、
複数のモデルを用いて、前記素材映像における重要度を算出し、
前記複数のモデルを用いて算出された重要度を統合し、
統合された重要度に基づいて前記素材映像における重要シーンを抽出し、抽出された重要シーンを含むダイジェスト映像を生成し、
前記複数のモデルは、
前記素材映像のある時刻における重要度を、その時刻の映像に基づいて算出する基本モデルと、
前記素材映像のある時刻における重要度を、その時刻よりも所定時間前又は後の時刻の映像に基づいて算出する1又は複数のシフトモデルと、を含む
本発明のさらに他の観点では、コンピュータにより実行される映像処理方法は、
素材映像を取得し、
複数のモデルを用いて、前記素材映像における重要度を算出し、
前記複数のモデルを用いて算出された重要度を統合し、
統合された重要度に基づいて前記素材映像における重要シーンを抽出し、抽出された重要シーンを含むダイジェスト映像を生成し、
前記複数のモデルは、前記素材映像の重要度を、異なる時間幅の単位で算出するモデルを含む。
【0008】
本発明のさらに他の観点では、プログラムは、
素材映像を取得し、
複数のモデルを用いて、前記素材映像における重要度を算出し、
前記複数のモデルを用いて算出された重要度を統合し、
統合された重要度に基づいて前記素材映像における重要シーンを抽出し、抽出された重要シーンを含むダイジェスト映像を生成する処理をコンピュータに実行させ
前記複数のモデルは、
前記素材映像のある時刻における重要度を、その時刻の映像に基づいて算出する基本モデルと、
前記素材映像のある時刻における重要度を、その時刻よりも所定時間前又は後の時刻の映像に基づいて算出する1又は複数のシフトモデルと、を含む
本発明のさらに他の観点では、プログラムは、
素材映像を取得し、
複数のモデルを用いて、前記素材映像における重要度を算出し、
前記複数のモデルを用いて算出された重要度を統合し、
統合された重要度に基づいて前記素材映像における重要シーンを抽出し、抽出された重要シーンを含むダイジェスト映像を生成する処理をコンピュータに実行させ、
前記複数のモデルは、前記素材映像の重要度を、異なる時間幅の単位で算出するモデルを含む。
【0009】
本発明のさらに他の観点では、訓練装置は、
訓練用素材映像を取得する映像取得手段と、
前記訓練用素材映像における重要シーンに正解タグが付与された基本正解データを取得する正解データ取得手段と、
前記基本正解データにおける正解タグを所定時間前又は後にシフトして追加正解データを生成する正解データ生成手段と、
前記訓練用素材映像と、前記基本正解データと、前記追加正解データとを用いて、複数のモデルの訓練を行う訓練手段と、を備える。
本発明のさらに他の観点では、訓練装置は、
訓練用素材映像を取得する映像取得手段と、
前記訓練用素材映像における重要シーンに正解タグが付与された基本正解データを取得する正解データ取得手段と、
前記基本正解データに基づいて、各々が異なる時間幅の正解タグを含む追加正解データを生成する正解データ生成手段と、
前記訓練用素材映像と、前記基本正解データと、前記追加正解データとを用いて、複数のモデルの訓練を行う訓練手段と、を備える。
【0011】
本発明のさらに他の観点では、プログラムは、
訓練用素材映像を取得し、
前記訓練用素材映像における重要シーンに正解タグが付与された基本正解データを取得し、
前記基本正解データにおける正解タグを所定時間前又は後にシフトして追加正解データを生成し、
前記訓練用素材映像と、前記基本正解データと、前記追加正解データとを用いて、複数のモデルの訓練を行う処理をコンピュータに実行させる。
本発明のさらに他の観点では、プログラムは、
訓練用素材映像を取得し、
前記訓練用素材映像における重要シーンに正解タグが付与された基本正解データを取得し、
前記基本正解データに基づいて、各々が異なる時間幅の正解タグを含む追加正解データを生成し、
前記訓練用素材映像と、前記基本正解データと、前記追加正解データとを用いて、複数のモデルの訓練を行う処理をコンピュータに実行させる。
【発明の効果】
【0012】
本発明によれば、重要シーンについて、関連する周辺のシーンを含むダイジェスト映像を生成することが可能なとなる。
【図面の簡単な説明】
【0013】
図1】実施形態に係るダイジェスト生成装置の全体構成を示す。
図2】ダイジェスト映像の例を示す。
図3】ダイジェスト生成装置の訓練時及び推論時の構成を示す。
図4】ダイジェスト生成装置のハードウェア構成を示すブロック図である。
図5】第1実施形態で使用する複数の生成モデルの処理を模式的に示す。
図6】第1実施形態において各モデルが算出した重要度を統合する例を示す。
図7】第1実施形態に係る訓練装置1の機能構成を示すブロック図である。
図8】第1実施形態の訓練装置による訓練処理のフローチャートである。
図9】第1実施形態に係るダイジェスト生成装置の機能構成を示すブロック図である。
図10】第1実施形態のダイジェスト生成処理のフローチャートである。
図11】第2実施形態で使用する複数の生成モデルの処理を模式的に示す。
図12】第2実施形態に係る訓練装置の機能構成を示すブロック図である。
図13】第2実施形態の訓練処理のフローチャートである。
図14】第2実施形態に係るダイジェスト生成装置の機能構成を示すブロック図である。
図15】第2実施形態のダイジェスト生成処理のフローチャートである。
図16】第3実施形態に係る映像処理装置及び訓練装置の機能構成を示すブロック図である。
【発明を実施するための形態】
【0014】
以下、図面を参照して、本発明の好適な実施形態について説明する。
<基本構成>
まず、実施形態に係るダイジェスト生成装置の基本構成について説明する。
[全体構成]
図1は、実施形態に係るダイジェスト生成装置100の全体構成を示す。ダイジェスト生成装置100は、素材映像データベース(以下、「データベース」を「DB」とも記す。)2に接続されている。素材映像DB2は、各種の素材映像、即ち、動画像を記憶している。素材映像は、例えば放送局から放送されるテレビ番組などの映像でもよく、インターネットなどで配信されている映像でもよい。なお、素材映像は、音声を含んでいてもよく、含んでいなくてもよい。
【0015】
ダイジェスト生成装置100は、素材映像DB2に保存されている素材映像の一部を用いるダイジェスト映像を生成し、出力する。ダイジェスト映像は、素材映像における重要シーンを時系列につなげた映像である。ダイジェスト生成装置100は、機械学習により訓練済みのダイジェスト生成モデル(以下、単に「生成モデル」とも呼ぶ。)を用いてダイジェスト映像を生成する。生成モデルとしては、例えば、ニューラルネットワークを用いたモデルを用いることができる。
【0016】
図2は、ダイジェスト映像の例を示す。図2の例では、ダイジェスト生成装置100は、素材映像に含まれるシーンA~Dを重要シーンとして抽出し、これらを時系列につなげたダイジェスト映像を生成する。なお、素材映像から抽出された重要シーンは、その内容次第で、ダイジェスト映像中で繰り返し使用されてもよい。
【0017】
[機能構成]
図3(A)は、ダイジェスト生成装置100が使用する生成モデルを訓練するための構成を示すブロック図である。生成モデルの訓練には、予め用意された訓練データセットが使用される。訓練データセットは、訓練用素材映像と、訓練用素材映像に対する正解を示す正解データのペアである。正解データは、訓練用素材映像における重要シーンの位置に正解を示すタグ(以下、「正解タグ」と呼ぶ。)を付与したデータである。典型的には、正解データにおける正解タグの付与は、経験のある編集者などにより行われる。例えば野球中継の素材映像については、野球解説者などが試合中のハイライトシーンなどを選択し、正解タグを付与する。なお、編集者による正解タグの付与方法を機械学習などで学習し、正解タグを自動的に付与してもよい。
【0018】
訓練時には、訓練用素材映像が生成モデルMに入力される。生成モデルMは、素材映像から重要シーンを抽出する。具体的には、生成モデルMは、素材映像を構成する1枚又は複数のフレームの集合から特徴量を抽出し、抽出した特徴量に基づいて素材映像に対する重要度(重要度スコア)を算出する。そして、生成モデルMは、重要度が予め決められた閾値以上である部分を重要シーンとして出力する。訓練部4は、生成モデルMの出力と、正解データとを用いて、生成モデルMを最適化する。具体的には、訓練部4は、生成モデルMが出力した重要シーンと、正解データに含まれる正解タグが示すシーンとを比較し、その誤差(損失)を小さくするように生成モデルMのパラメータを更新する。こうして得られた訓練済みの生成モデルMは、編集者が正解タグを付与したシーンに近いシーンを素材映像から重要シーンとして抽出することができるようになる。
【0019】
図3(B)は、ダイジェスト生成装置100による推論時の構成を示す。推論時には、ダイジェスト映像の生成の対象となる素材映像が訓練済みの生成モデルMに入力される。生成モデルMは、素材映像から重要度を算出し、重要度が予め決められた閾値以上である部分を重要シーンとして抽出し、ダイジェスト生成部5に出力する。ダイジェスト生成部5は、生成モデルMが抽出した重要シーンをつなげてダイジェスト映像を生成し、出力する。こうして、ダイジェスト生成装置100は、訓練済みの生成モデルMを用いて、素材映像からダイジェスト映像を生成する。
【0020】
[ハードウェア構成]
図4は、ダイジェスト生成装置100のハードウェア構成を示すブロック図である。図示のように、ダイジェスト生成装置100は、インタフェース(IF)11と、プロセッサ12と、メモリ13と、記録媒体14と、データベース(DB)15とを備える。
【0021】
IF11は、外部装置との間でデータの入出力を行う。具体的に、素材映像DB2に保存されている素材映像はIF11を介してダイジェスト生成装置100に入力される。また、ダイジェスト生成装置100により生成されたダイジェスト映像は、IF11を通じて外部装置へ出力される。
【0022】
プロセッサ12は、CPU(Central Processing Unit)などのコンピュータであり、予め用意されたプログラムを実行することにより、ダイジェスト生成装置100の全体を制御する。具体的に、プロセッサ12は、後述する訓練処理、及び、ダイジェスト生成処理を実行する。
【0023】
メモリ13は、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。メモリ13は、プロセッサ12による各種の処理の実行中に作業メモリとしても使用される。
【0024】
記録媒体14は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、ダイジェスト生成装置100に対して着脱可能に構成される。記録媒体14は、プロセッサ12が実行する各種のプログラムを記録している。ダイジェスト生成装置100が各種の処理を実行する際には、記録媒体14に記録されているプログラムがメモリ13にロードされ、プロセッサ12により実行される。
【0025】
データベース15は、IF11を通じて入力された素材映像、ダイジェスト生成装置100が生成したダイジェスト映像などを一時的に記憶する。また、データベース15は、ダイジェスト生成装置100が使用する訓練済みの生成モデルの情報、及び、生成モデルの訓練に用いられる訓練データセットなどを記憶する。なお、ダイジェスト生成装置100は、作成者が指示や入力を行うためのキーボード、マウスなどの入力部、及び、液晶ディスプレイなどの表示部を備えていてもよい。
【0026】
<第1実施形態>
次に、本発明の第1実施形態について説明する。
[原理説明]
第1実施形態は、正解タグの時間的な位置をシフトした正解データを用いて訓練した複数の生成モデルを用いて、重要シーンの周辺を含むダイジェスト映像を生成するものである。図5は、第1実施形態で使用する複数の生成モデルの処理を模式的に示す。前述のように、訓練用素材映像に対して正解タグCTが付与された正解データ(以下、「基本正解データ」と呼ぶ。)が用意される。基本の生成モデル(以下、「基本モデル」と呼ぶ。)は、基本正解データを用いて訓練され、グラフ81に示す重要度を算出する。基本モデルは、基本正解データにおける正解タグCTに対応する位置で高い重要度を出力する。
【0027】
これに加えて、第1実施形態では、基本正解データにおける正解タグの位置を時間軸上で所定時間シフトした正解データ(以下、「追加正解データ」と呼ぶ。)を作り、それらを用いて別の生成モデル(以下、「シフトモデル」とも呼ぶ。)を訓練する。図5の例では、正解タグの位置を時間軸上で前に1秒にシフトした正解データを用いてシフトモデル(以下、「-1秒モデル」と呼ぶ。)を訓練する。こうすると、図5に示すように、-1秒モデルが算出する重要度スコア82は、正解タグCTより時間的に前の位置で大きな値となる。即ち、-1秒モデルは、基本正解データにおける正解タグの位置より1秒前の部分を検出するように訓練され、重要シーンの1秒前を検出するモデルとなる。言い換えると、-1秒モデルが検出したシーンの1秒後に重要シーンが存在することになる。
【0028】
図5の例では、さらに正解タグの位置を時間軸上で後に1秒にシフトした正解データを用いて別のシフトモデル(以下、「+1秒モデル」と呼ぶ。)を訓練する。こうすると、図5に示すように、+1秒モデルが算出する重要度スコア83は、正解タグCTより時間的に後の位置で大きな値となる。即ち、+1秒モデルは、基本正解データにおける正解タグの位置より1秒後の部分を検出するように訓練され、重要シーンの1秒後を検出するモデルとなる。言い換えると、+1秒モデルが検出したシーンの1秒後に重要シーンが存在することになる。
【0029】
このように、基本正解データにおける正解タグの位置を時間軸上で前後に所定時間(N秒)シフトした追加正解データを用いて別の生成モデルを訓練することにより、重要シーンから前後に所定時間ずれたシーンを抽出することができる。
【0030】
こうして複数のモデルを訓練した後、推論時においては、ダイジェスト生成装置100は、各モデルが出力した重要度を統合して重要シーンを抽出する。具体的には、ダイジェスト生成装置100は、基本モデルとシフトモデルが算出した重要度を加算する。その際、各シフトモデルが算出した重要度は、基本正解データにおける正解タグの位置に対応する重要度として加算される。図6は、各モデルが算出した重要度を統合する例を示す。基本モデルが算出した重要度81は基準として用いられる。-1秒モデルが算出した重要度スコア82は、破線82xで示すように、時間軸上で後ろに1秒シフトした後、基本モデルが算出した重要度81に加算される。また、+1秒モデルが算出した重要度83は、破線83xで示すように、時間軸上で前に1秒シフトした後、基本モデルが算出した重要度81に加算される。
【0031】
こうして、シフトモデルが高い重要度を算出すると、その重要度は、シフト前の正解タグの位置における重要度として加算される。これにより、重要シーンの周辺に関連するシーンがある場合、その関連シーンの重要度が重要シーンの重要度に加算され、図6に示すように、統合後の重要度が重要シーンの前後でも高くなる。その結果、重要シーンと、その周辺にある関連シーンを含む映像区間が重要シーンとして抽出されやすくなる。
【0032】
具体例として、訓練用素材映像が野球中継の映像であり、ホームランシーンを含むものとする。その素材映像は打者がホームランを打つシーン(以下、「ボールヒットシーン」と呼ぶ。)の前に投手の投球シーンを含んでいるものとする。基本正解データでは、ボールヒットシーンに正解タグが付与されているとする。この場合、基本モデルは、ボールヒットシーンで高い重要度を算出する。ここで、ボールヒットシーンの1秒前に投手の投球シーンがあると仮定すると、-1秒モデルは、投手の投球シーンを検出して高い重要度を算出する。この重要度は、基本モデルがボールヒットシーンで算出した重要度に加算される。同様に、ボールヒットシーンの1秒後に打者のベースランシーンがあると仮定すると、+1秒モデルは、ベースランシーンを検出して高い重要度を算出する。この重要度は、基本モデルがボールヒットシーンで算出した重要度に加算される。このように、第1実施形態では、素材映像において、ボールヒットシーンの周辺に投球シーンやベースランシーンなどの関連シーンがあると、ボールヒットシーンの重要度スコアが増加し、その結果、周辺シーンも含めて重要シーンを抽出することが可能になる。
【0033】
[訓練装置]
(機能構成)
図7は、第1実施形態に係る訓練装置110の機能構成を示すブロック図である。訓練装置110は、基本モデル及びシフトモデルを訓練する装置であり、基本モデル21aと、複数のシフトモデル21b~21nと、訓練部22a~22nと、正解生成部23と、を備える。基本モデル21aは、前述のように基本正解データを用いて訓練される生成モデルであり、シフトモデル21b~21nは、基本正解データを時間軸上で所定時間シフトした正解データを用いて訓練される生成モデルである。
【0034】
正解生成部23は、予め用意された基本正解データをそのまま訓練部22aに出力する。また、正解生成部23は、基本正解データを時間軸上で前又は後に所定時間シフトして追加正解データを生成し、シフトモデル21b~21nへ出力する。例えば、シフトモデル21bが前述の-1秒モデルである場合、正解生成部23は、基本正解データを時間軸上で前に1秒シフトした追加正解データを生成し、訓練部22bに出力する。また、シフトモデル21cが前述の+1秒モデルである場合、正解生成部23は、基本正解データを時間軸上の後に1秒シフトした追加正解データを生成し、訓練部22cに出力する。
【0035】
基本モデル21a及びシフトモデル21b~21nには、訓練用素材映像が入力される。基本モデル21a及びシフトモデル21b~21nは、入力された訓練用素材映像から重要度を算出し、訓練部22a~22nに出力する。訓練部22aは、基本モデル21aが出力した重要度と、基本正解データとを用いて、基本モデル21aを最適化する。具体的には、訓練部22aは、基本モデル21aが出力した重要度に基づいて重要シーンを抽出し、基本正解データに含まれる正解タグと比較して損失を算出し、損失が小さくなるように基本モデルの21aのパラメータを更新する。同様に、訓練部22b~22nは、シフトモデル21b~21nが出力した重要度と、正解生成部23が生成した追加正解データとを用いて、シフトモデル21b~21nを最適化する。具体的には、訓練部22b~22nは、シフトモデル21b~21nが出力した重要度に基づいて重要シーンを抽出し、正解生成部23が生成した追加正解データに含まれる正解タグと比較して損失を算出し、損失が小さくなるようにシフトモデル21b~21nのパラメータをそれぞれ更新する。こうして、基本モデル21aと、-1秒モデル、+1秒モデルなどのシフトモデル21b~21nが訓練される。
【0036】
上記の構成において、正解生成部23は正解データ取得手段及び正解データ生成手段の一例であり、訓練部22a~22nは訓練手段の一例である。
【0037】
(訓練処理)
図8は、訓練装置110による訓練処理のフローチャートである。この処理は、実際には図4に示すプロセッサ12が予め用意されたプログラムを実行し、図7に示す各要素として動作することにより実現される。まず、正解生成部23は、基本正解データから各シフトモデル21b~21n用の追加正解データを生成する(ステップS11)。次に、基本モデル21a及び各シフトモデル21b~21nは、訓練用素材映像から重要度を算出する(ステップS12)。次に、訓練部22a~22nは、各モデルから出力された重要度と、正解生成部23から入力された正解データとを用いて各モデルを最適化する(ステップS13)。
【0038】
次に、訓練装置110は、訓練終了条件が具備されたか否かを判定する(ステップS14)。訓練終了条件とは、例えば予め用意された訓練データセットを全て使用したこと、訓練部22a~22nが算出する損失の値が所定範囲内に収束したことなどである。こうして訓練終了条件が具備されるまで、基本モデル21a及びシフトモデル21b~21nの訓練が行われ、訓練終了条件が具備されると、訓練処理は終了する。
【0039】
[ダイジェスト生成装置]
(機能構成)
図9は、第1実施形態に係るダイジェスト生成装置120の機能構成を示すブロック図である。ダイジェスト生成装置120は、基本モデル21aと、シフトモデル21b~21nと、重要度統合部24と、ダイジェスト生成部25とを備える。なお、基本モデル21aと、シフトモデル21b~21nは、上記の訓練装置110により訓練済みのモデルである。
【0040】
基本モデル21a及びシフトモデル21b~21nには、ダイジェスト映像を生成する対象となる素材映像が入力される。基本モデル21aは、素材映像から重要度を算出し、重要度統合部24に出力する。同様に、シフトモデル21b~21nは、それぞれ素材映像から重要度を算出し、重要度統合部24に出力する。
【0041】
重要度統合部24は、各シフトモデル21b~21nが算出した重要度を、基本正解データにおける時間軸に一致させて、基本モデル21aが算出した重要度に加算する。具体的に、重要度統合部24は、-1秒モデルであるシフトモデル21bが算出した重要度を、1秒遅らせて基本モデル21aが算出した重要度に加算する。同様に、重要度統合部24は、+1秒モデルであるシフトモデル21cが算出した重要度を、1秒進めて基本モデル21aが算出した重要度に加算する。こうして、重要度統合部24は、基本モデル21a及びシフトモデル21b~21nが算出した重要度を統合し、予め決められた閾値以上であるシーンを重要シーンとして抽出してダイジェスト生成部25に出力する。
【0042】
ダイジェスト生成部25は、重要度統合部24が抽出した重要シーンを時系列につなげてダイジェスト映像を生成し、出力する。このように、第1実施形態のダイジェスト生成装置120では、重要シーンの周辺に存在する関連シーンがシフトモデルにより検出され、関連シーンを含む映像区間が重要シーンとして抽出されるので、重要シーンの前後に存在するシーンを含めたダイジェスト映像を生成することが可能となる。
【0043】
上記の構成において、基本モデル21a及びシフトモデル21b~21nは重要度算出手段の一例であり、重要度統合部24は重要度統合手段の一例であり、重要度統合部24及びダイジェスト生成部25は生成手段の一例である。
【0044】
(ダイジェスト生成処理)
図10は、ダイジェスト生成装置120によるダイジェスト生成処理のフローチャートである。この処理は、実際には図4に示すプロセッサ12が予め用意されたプログラムを実行し、図9に示す各要素として動作することにより実現される。
【0045】
まず、基本モデル21a及び各シフトモデル21b~21nは、素材映像から重要度を算出し、重要度統合部24に出力する(ステップS21)。重要度統合部24は、基本モデル21a及びシフトモデル21b~21nから入力された重要度を統合し、所定の閾値以上であるシーンを重要シーンとして抽出する(ステップS22)。次に、ダイジェスト生成部25は、抽出された重要シーンを時系列につなげてダイジェスト映像を生成する(ステップS23)。そして、処理は終了する。
【0046】
<第2実施形態>
次に、本発明の第2実施形態について説明する。
[原理説明]
第2実施形態は、素材映像を所定時間幅の映像区間の集合として構成するとともに、正解データにも同じ所定時間幅の単位で正解タグを付与する。そして、異なる時間幅の正解タグが付与された正解データを用いて複数の生成モデルを訓練する。図11は、第2実施形態で使用する複数の生成モデルの処理を模式的に示す。図11の例では、2秒幅モデルと、5秒幅モデルと、10秒幅モデルが生成される。
【0047】
具体的には、まず前述のように、訓練用素材映像に対して正解タグCTが付与された基本正解データが用意される。次に、訓練用素材映像から、異なる時間幅の映像区間により構成される素材映像が生成される。図11の例では、訓練用素材映像を2秒幅に区切り2秒幅の訓練用素材映像が生成される。同様に、5秒幅の訓練用素材映像と、10秒幅の訓練用素材映像も生成される。次に、2秒幅の訓練素材映像に対して、基本正解データを参照して2秒幅の正解タグが付与された2秒幅の正解データが生成される。同様に、5秒幅の訓練素材映像に対して、基本正解データを参照して5秒幅の正解タグが付与された5秒幅の正解データが生成される。また、10秒幅の訓練素材映像に対して、基本正解データを参照して10秒幅の正解タグが付与された10秒幅の正解データが生成される。
【0048】
こうして、各時間幅の訓練用素材映像及び正解データが生成されると、それらを用いて、各生成モデルの訓練が行われる。具体的に、2秒幅の訓練用素材映像と2秒幅の正解データとを用いて、2秒幅の生成モデル(以下、「2秒幅モデル」と呼ぶ。)が訓練される。同様に、5秒幅の生成モデル(以下、「5秒幅モデル」と呼ぶ。)、及び、10秒幅の生成モデル(以下、「10秒幅モデル」と呼ぶ。)も訓練される。こうして、時間幅の異なる複数の訓練済み生成モデルが得られる。こうして得られた2秒幅モデルは、素材映像に含まれる2秒程度のイベントを重要シーンとして抽出する能力を有するものとなる。同様に、5秒幅モデルは5秒程度のイベントを重要シーンとして抽出する能力を有し、10秒幅モデルは、10秒程度のイベントを重要シーンとして抽出する能力を有するものとなる。よって、時間幅の異なる複数の生成モデルを使用することにより、素材映像に含まれる時間幅の異なるイベントを重要シーンとして抽出することが可能となる。
【0049】
推論時、即ちダイジェスト映像の生成時には、図11に示すように、対象となる素材映像から各生成モデルが重要度を算出し、それらを統合した重要度に基づいて重要シーンが抽出される。これにより、素材映像から2秒幅、5秒幅、10秒幅などの異なる時間幅の重要シーンを抽出することが可能となる。例えば、前述のホームランシーンの例では、ボールヒットシーンに加えて、その周辺の投球シーンやベースランシーンも重要シーンとして抽出することが可能となる。
【0050】
[訓練装置]
(機能構成)
図12は、第2実施形態に係る訓練装置130の機能構成を示すブロック図である。訓練装置130は、生成モデルを訓練する装置であり、映像調整部40と、複数の生成モデル41a~41nと、訓練部42a~42nと、正解生成部43と、を備える。なお、生成モデル41aは2秒幅モデルであり、生成モデル41bは5秒幅モデルであり、生成モデル41cは10秒幅モデルであり、生成モデル41nはN秒幅モデルであるとする。
【0051】
映像調整部40は、訓練用素材映像を2秒の映像区間に区切って2秒幅の素材映像を生成し、生成モデル41aに出力する。同様に、映像調整部40は、訓練用の素材映像から5秒幅、10秒幅~N秒幅の素材映像を生成し、それぞれ生成モデル41b~41nに出力する。
【0052】
正解生成部43は、予め用意された基本正解データから、2秒幅の正解タグを付与した正解データを生成し、訓練部42aに出力する。同様に、正解生成部43は、基本正解データから、5秒幅、10秒幅~N秒幅の正解タグを付与した正解データを生成し、それぞれ訓練部42b~42nに出力する。
【0053】
生成モデル41a~41nは、入力された訓練用素材映像からそれぞれ重要度を算出し、訓練部42a~42nに出力する。訓練部42aは、生成モデル41aが出力した重要度と、2秒幅の正解データとを用いて、生成モデル41aを最適化する。具体的には、訓練部42aは、生成モデル41aが出力した重要度に基づいて重要シーンを抽出し、2秒幅の正解データに含まれる正解タグと比較して損失を算出し、損失が小さくなるように生成モデル41aのパラメータを更新する。同様に、訓練部42b~42nは、生成モデル41b~41nが出力した重要度と、正解生成部43が生成した各時間幅の正解データとを用いて、生成モデル41b~41nを最適化する。具体的には、訓練部42b~42nは、生成モデル41b~41nが出力した重要度に基づいて重要シーンを抽出し、正解生成部23が生成した各時間幅の正解データに含まれる正解タグと比較して損失を算出し、損失が小さくなるように生成モデル41b~41nのパラメータを更新する。こうして、生成モデル41a~41nが訓練される。
【0054】
上記の構成において、正解生成部43は、正解データ取得手段及び正解データ生成手段の一例であり、訓練部42a~42nは訓練手段の一例である。
【0055】
(訓練処理)
図13は、訓練装置130による訓練処理のフローチャートである。この処理は、実際には図4に示すプロセッサ12が予め用意されたプログラムを実行し、図12に示す各要素として動作することにより実現される。まず、映像調整部40は、訓練用素材映像から、生成モデル41a~41nのそれぞれに対応する時間幅の素材映像を生成し、生成モデル41a~41nに出力する(ステップS31)。次に、正解生成部43は、基本正解データから各生成モデル41a~41n用の正解データを生成する(ステップS32)。次に、生成モデル41a~41nは、入力された素材映像から重要度を算出する(ステップS33)。次に、訓練部42a~42nは、各生成モデル41a~41nから出力された重要度と、正解生成部23から入力された正解データとを用いて各生成モデル41a~41nを最適化する(ステップS34)。
【0056】
次に、訓練装置130は、訓練終了条件が具備されたか否かを判定する(ステップS35)。訓練終了条件とは、例えば予め用意された訓練データセットを全て使用したこと、訓練部42a~42nが算出する損失の値が所定範囲内に収束したことなどである。こうして訓練終了条件が具備されるまで、生成モデル41a~41nの訓練が行われ、訓練終了条件が具備されると、訓練処理は終了する。
【0057】
[ダイジェスト生成装置]
(機能構成)
図14は、第2実施形態に係るダイジェスト生成装置140の機能構成を示すブロック図である。ダイジェスト生成装置140は、映像調整部40と、生成モデル41a~41nと、重要度統合部44と、ダイジェスト生成部45とを備える。なお、生成モデル41a~41nは、上記の訓練装置130により訓練済みのモデルである。
【0058】
映像調整部40は、ダイジェスト映像の生成の対象となる素材映像から、2秒幅、5秒幅、10秒幅~N秒幅の素材映像を生成し、それぞれ生成モデル41a~41nに出力する。生成モデル41a~41nは、入力された素材映像から重要度を算出し、重要度統合部44に出力する。
【0059】
重要度統合部44は、各生成モデル41a~41nが算出した重要度を統合する。具体的には、重要度統合部44は、各生成モデル41a~41nが算出した重要度を加算し、加算により得られた重要度が予め決められた閾値以上であるシーンを重要シーンとして抽出してダイジェスト生成部45に出力する。
【0060】
ダイジェスト生成部45は、重要度統合部44が抽出した重要シーンを時系列につなげてダイジェスト映像を生成し、出力する。第2実施形態のダイジェスト生成装置140では、素材映像に含まれる様々な時間幅のイベントが重要シーンとして抽出されるので、重要シーンの周辺に存在するシーンを含めたダイジェスト映像を生成することが可能となる。
【0061】
上記の構成において、生成モデル41a~41nは重要度算出手段の一例であり、重要度統合部44は重要度統合手段の一例であり、重要度統合部44及びダイジェスト生成部45は生成手段の一例である。
【0062】
(ダイジェスト生成処理)
図15は、ダイジェスト生成装置140によるダイジェスト生成処理のフローチャートである。この処理は、実際には図4に示すプロセッサ12が予め用意されたプログラムを実行し、図14に示す各要素として動作することにより実現される。
【0063】
まず、映像調整部40は、対象となる素材映像から、生成モデル41a~41nのそれぞれに対応する時間幅の素材映像を生成し、生成モデル41a~41nに出力する(ステップS41)。次に、生成モデル41a~41nは、入力された素材映像から重要度を算出し、重要度統合部44に出力する(ステップS42)。重要度統合部44は、生成モデル41a~41nから入力された重要度を統合し、重要度が所定の閾値以上であるシーンを重要シーンとして抽出する(ステップS43)。次に、ダイジェスト生成部45は、抽出された重要シーンを時系列につなげてダイジェスト映像を生成する(ステップS44)。そして、処理は終了する。
【0064】
<第3実施形態>
次に、本発明の第3実施形態について説明する。図16(A)は、第3実施形態に係る映像処理装置の機能構成を示すブロック図である。図示のように、映像処理装置60は、映像取得手段61と、重要度算出手段62と、重要度統合手段63と、生成手段64とを備える。映像取得手段61は、素材映像を取得する。重要度算出手段62は、複数のモデルを用いて、素材映像における重要度を算出する。重要度統合手段63は、複数のモデルを用いて算出された重要度を統合する。生成手段64は、統合された重要度に基づいて素材映像における重要シーンを抽出し、抽出された重要シーンを含むダイジェスト映像を生成する。
【0065】
図16(B)は、第3実施形態に係る訓練装置の機能構成を示すブロック図である。図示のように、訓練装置70は、映像取得手段71と、正解データ取得手段72と、正解データ生成手段73と、訓練手段74と、を備える。映像取得手段71は、訓練用素材映像を取得する。正解データ取得手段72は、訓練用素材映像における重要シーンに正解タグが付与された基本正解データを取得する。正解データ生成手段73は、基本正解データから、異なるモデルの訓練に使用する追加正解データを生成する。訓練手段74は、訓練用素材映像と、正解データとを用いて、前記複数のモデルの訓練を行う。
【0066】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0067】
(付記1)
素材映像を取得する映像取得手段と、
複数のモデルを用いて、前記素材映像における重要度を算出する重要度算出手段と、
前記複数のモデルを用いて算出された重要度を統合する重要度統合手段と、
統合された重要度に基づいて前記素材映像における重要シーンを抽出し、抽出された重要シーンを含むダイジェスト映像を生成する生成手段と、
を備える映像処理装置。
【0068】
(付記2)
前記複数のモデルは、
前記素材映像のある時刻における重要度を、その時刻の映像に基づいて算出する基本モデルと、
前記素材映像のある時刻における重要度を、その時刻よりも所定時間前又は後の時刻の映像に基づいて算出する1又は複数のシフトモデルと、
を含む付記1に記載の映像処理装置。
【0069】
(付記3)
前記基本モデルは、前記素材映像の重要シーンに正解タグが付与された基本正解データを用いて訓練された訓練済みモデルであり、
前記シフトモデルは、前記基本正解データにおける前記正解タグを所定時間前又は後にシフトしたシフト正解データを用いて訓練された訓練済みモデルである付記2に記載の映像処理装置。
【0070】
(付記4)
前記重要度統合手段は、前記シフトモデルが算出した重要度を、前記シフト正解データにおいて前記正解タグがシフトされた方向と逆方向に前記所定時間だけシフトして、前記基本モデルが算出した重要度に加算する付記3に記載の映像処理装置。
【0071】
(付記5)
前記複数のモデルは、前記素材映像の重要度を、異なる時間幅の単位で算出するモデルを含む付記1に記載の映像処理装置。
【0072】
(付記6)
前記複数のモデルは、前記素材映像の重要シーンに異なる時間幅の単位で正解タグが付与された正解データを用いて訓練された訓練済みモデルである付記5に記載の映像処理装置。
【0073】
(付記7)
前記重要度統合手段は、前記複数のモデルが算出した重要度を加算する付記5又は6に記載の映像処理装置。
【0074】
(付記8)
前記素材映像から、前記異なる時間幅の素材映像を生成して、対応する前記複数のモデルに出力する映像調整手段を備える付記5乃至7のいずれか一項に記載の映像処理装置。
【0075】
(付記9)
素材映像を取得し、
複数のモデルを用いて、前記素材映像における重要度を算出し、
前記複数のモデルを用いて算出された重要度を統合し、
統合された重要度に基づいて前記素材映像における重要シーンを抽出し、抽出された重要シーンを含むダイジェスト映像を生成する映像処理方法。
【0076】
(付記10)
素材映像を取得し、
複数のモデルを用いて、前記素材映像における重要度を算出し、
前記複数のモデルを用いて算出された重要度を統合し、
統合された重要度に基づいて前記素材映像における重要シーンを抽出し、抽出された重要シーンを含むダイジェスト映像を生成する処理をコンピュータに実行させるプログラムを記録した記録媒体。
【0077】
(付記11)
訓練用素材映像を取得する映像取得手段と、
前記訓練用素材映像における重要シーンに正解タグが付与された基本正解データを取得する正解データ取得手段と、
前記基本正解データから、異なるモデルの訓練に使用する追加正解データを生成する正解データ生成手段と、
前記訓練用素材映像と、前記正解データとを用いて、複数のモデルの訓練を行う訓練手段と、
を備える訓練装置。
【0078】
(付記12)
前記正解データ生成手段は、前記基本正解データにおける正解タグを所定時間前又は後にシフトして前記追加正解データを生成する付記11に記載の訓練装置。
【0079】
(付記13)
前記正解データ生成手段は、前記基本正解データに基づいて、各々が異なる時間幅の正解タグを含む前記追加正解データを生成する付記11に記載の訓練装置。
【0080】
(付記14)
訓練用素材映像を取得し、
前記訓練用素材映像における重要シーンに正解タグが付与された基本正解データを取得し、
前記基本正解データから、異なるモデルの訓練に使用する追加正解データを生成し、
前記訓練用素材映像と、前記正解データとを用いて、複数のモデルの訓練を行う訓練方法。
【0081】
(付記15)
訓練用素材映像を取得し、
前記訓練用素材映像における重要シーンに正解タグが付与された基本正解データを取得し、
前記基本正解データから、異なるモデルの訓練に使用する追加正解データを生成し、
前記訓練用素材映像と、前記正解データとを用いて、複数のモデルの訓練を行う処理をコンピュータに実行させるプログラムを記録した記録媒体。
【0082】
以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【符号の説明】
【0083】
2 素材映像DB
3 正解データ
4 訓練部
5、25 ダイジェスト生成部
12 プロセッサ
21a 基本モデル
21b~21n シフトモデル
22a~22n、42a~42n 訓練部
23、43 正解生成部
24、44 重要度統合部
40 映像調整部
41a~41n 生成モデル
100、120、140 ダイジェスト生成装置
110、130 訓練装置
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16