(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-15
(45)【発行日】2024-01-23
(54)【発明の名称】映像処理装置、映像処理方法、及び、プログラム
(51)【国際特許分類】
H04N 5/91 20060101AFI20240116BHJP
H04N 5/92 20060101ALI20240116BHJP
【FI】
H04N5/91
H04N5/92 010
(21)【出願番号】P 2022527349
(86)(22)【出願日】2020-05-27
(86)【国際出願番号】 JP2020020868
(87)【国際公開番号】W WO2021240678
(87)【国際公開日】2021-12-02
【審査請求日】2022-11-16
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100107331
【氏名又は名称】中村 聡延
(74)【代理人】
【識別番号】100104765
【氏名又は名称】江上 達夫
(74)【代理人】
【識別番号】100131015
【氏名又は名称】三輪 浩誉
(72)【発明者】
【氏名】白石 壮馬
(72)【発明者】
【氏名】菊池 克
(72)【発明者】
【氏名】鍋藤 悠
(72)【発明者】
【氏名】渡辺 はるな
【審査官】川中 龍太
(56)【参考文献】
【文献】国際公開第2006/008923(WO,A2)
【文献】特開2014-229092(JP,A)
【文献】特表2011-504702(JP,A)
【文献】米国特許出願公開第2019/0222776(US,A1)
【文献】米国特許出願公開第2017/0109584(US,A1)
【文献】米国特許出願公開第2015/0297949(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 5/91 - 5/956
(57)【特許請求の範囲】
【請求項1】
素材映像を取得する映像取得手段と、
前記素材映像から、観客を映した観客シーンを抽出する観客シーン抽出手段と、
前記素材映像から重要シーンを抽出する重要シーン抽出手段と、
前記観客シーンを前記重要シーンに関連付ける関連付け手段と、
前記重要シーンと、前記重要シーンに関連付けされた観客シーンとを含むダイジェスト映像を生成する生成手段と、
を備え
、
前記観客シーン抽出手段は、前記観客シーンに含まれる色に関する情報を抽出し、
前記関連付け手段は、前記色に関する情報に基づいて、当該観客シーンを前記重要シーンに関連付けする映像処理装置。
【請求項2】
素材映像を取得する映像取得手段と、
前記素材映像から、観客を映した観客シーンを抽出する観客シーン抽出手段と、
前記素材映像から重要シーンを抽出する重要シーン抽出手段と、
前記観客シーンを前記重要シーンに関連付ける関連付け手段と、
前記重要シーンと、前記重要シーンに関連付けされた観客シーンとを含むダイジェスト映像を生成する生成手段と、
を備え、
前記素材映像は、スポーツの映像であり、
前記観客シーン抽出手段は、前記観客シーンに含まれる人々の服装又は人々が所持する物体の色を抽出し、
前記関連付け手段は、前記観客シーンを、当該観客シーンから抽出された色をチームカラーとするチームを映した重要シーンに関連付けする映像処理装置。
【請求項3】
前記生成手段は、前記重要シーンを時系列に配置して前記ダイジェスト映像を生成し、
前記生成手段は、前記重要シーンに関連付けされた観客シーンを、当該重要シーンの前又は後に配置して前記ダイジェスト映像を生成する請求項
1又は2に記載の映像処理装置。
【請求項4】
前記関連付け手段は、前記重要シーンの前後の所定時間以内の位置に存在する観客シーンを、当該重要シーンに関連付けする請求項1又は2に記載の映像処理装置。
【請求項5】
前記観客シーン抽出手段は、前記観客シーンに含まれる文字列を抽出し、
前記関連付け手段は、前記文字列に基づいて、前記観客シーンを前記重要シーンに関連付けする請求項
1又は2に記載の映像処理装置。
【請求項6】
前記素材映像は、スポーツの映像であり、
前記観客シーン抽出手段は、前記観客シーンに含まれるメッセージボード、もしくは、前記観客シーンに含まれる人物が着用又は所持している物体が示す文字列を抽出し、
前記関連付け手段は、前記観客シーンを、当該観客シーンから抽出された文字列が示す
チーム、又は、当該文字列が示す選手が属するチームを映した重要シーンに関連付けする
請求項
1又は2に記載の映像処理装置。
【請求項7】
素材映像を取得し、
前記素材映像から、観客を映した観客シーンを抽出する観客シーン抽出処理を行い、
前記素材映像から重要シーンを抽出する重要シーン抽出処理を行い、
前記観客シーンを前記重要シーンに関連付ける関連付け処理を行い、
前記重要シーンと、前記重要シーンに関連付けされた観客シーンとを含むダイジェスト映像を生成し、
前記観客シーン抽出処理は、前記観客シーンに含まれる色に関する情報を抽出し、
前記関連付け処理は、前記色に関する情報に基づいて、当該観客シーンを前記重要シーンに関連付けする映像処理方法。
【請求項8】
素材映像を取得し、
前記素材映像から、観客を映した観客シーンを抽出する観客シーン抽出処理を行い、
前記素材映像から重要シーンを抽出する重要シーン抽出処理を行い、
前記観客シーンを前記重要シーンに関連付ける関連付け処理を行い、
前記重要シーンと、前記重要シーンに関連付けされた観客シーンとを含むダイジェスト映像を生成し、
前記観客シーン抽出処理は、前記観客シーンに含まれる色に関する情報を抽出し、
前記関連付け処理は、前記色に関する情報に基づいて、当該観客シーンを前記重要シーンに関連付けする処理をコンピュータに実行させるプログラム。
【請求項9】
素材映像を取得し、
前記素材映像から、観客を映した観客シーンを抽出する観客シーン抽出処理を行い、
前記素材映像から重要シーンを抽出する重要シーン抽出処理を行い、
前記観客シーンを前記重要シーンに関連付ける関連付け処理を行い、
前記重要シーンと、前記重要シーンに関連付けされた観客シーンとを含むダイジェスト映像を生成し、
前記素材映像は、スポーツの映像であり、
前記観客シーン抽出処理は、前記観客シーンに含まれる人々の服装又は人々が所持する物体の色を抽出し、
前記関連付け処理は、前記観客シーンを、当該観客シーンから抽出された色をチームカラーとするチームを映した重要シーンに関連付けする映像処理方法。
【請求項10】
素材映像を取得し、
前記素材映像から、観客を映した観客シーンを抽出する観客シーン抽出処理を行い、
前記素材映像から重要シーンを抽出する重要シーン抽出処理を行い、
前記観客シーンを前記重要シーンに関連付ける関連付け処理を行い、
前記重要シーンと、前記重要シーンに関連付けされた観客シーンとを含むダイジェスト映像を生成し、
前記素材映像は、スポーツの映像であり、
前記観客シーン抽出処理は、前記観客シーンに含まれる人々の服装又は人々が所持する物体の色を抽出し、
前記関連付け処理は、前記観客シーンを、当該観客シーンから抽出された色をチームカラーとするチームを映した重要シーンに関連付けする処理をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像データの処理に関する。
【背景技術】
【0002】
動画像から映像ダイジェストを生成する技術が提案されている。特許文献1には、予め準備されたトレーニング動画像及びユーザが指定した重要シーン動画像から学習データファイルを作成し、当該学習データファイルに基づき、対象の動画像から重要シーンの検出を行うハイライト抽出装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
スポーツの試合映像からダイジェスト映像を作成する場合、人間が編集したダイジェスト映像においては、選手がプレイする映像だけでなく、観客席にいる観客や観客が持つメッセージボードなどの映像が含められることが多い。しかし、このような観客のシーンは選手がプレイするシーンと比べて数が少ないため、機械学習により重要シーンとして学習することが困難であり、ダイジェスト映像に含めることが難しい。
【0005】
本発明の1つの目的は、スポーツ映像などにおける観客シーンをダイジェスト映像に含むダイジェスト映像を生成することが可能な映像処理装置を提供することにある。
【課題を解決するための手段】
【0006】
本発明の一つの観点では、映像処理装置は、
素材映像を取得する映像取得手段と、
前記素材映像から、観客を映した観客シーンを抽出する観客シーン抽出手段と、
前記素材映像から重要シーンを抽出する重要シーン抽出手段と、
前記観客シーンを前記重要シーンに関連付ける関連付け手段と、
前記重要シーンと、前記重要シーンに関連付けされた観客シーンとを含むダイジェスト映像を生成する生成手段と、を備え、
前記観客シーン抽出手段は、前記観客シーンに含まれる色に関する情報を抽出し、
前記関連付け手段は、前記色に関する情報に基づいて、当該観客シーンを前記重要シーンに関連付けする。
また、本発明の他の観点では、映像処理装置は、
素材映像を取得する映像取得手段と、
前記素材映像から、観客を映した観客シーンを抽出する観客シーン抽出手段と、
前記素材映像から重要シーンを抽出する重要シーン抽出手段と、
前記観客シーンを前記重要シーンに関連付ける関連付け手段と、
前記重要シーンと、前記重要シーンに関連付けされた観客シーンとを含むダイジェスト映像を生成する生成手段と、
を備え、
前記素材映像は、スポーツの映像であり、
前記観客シーン抽出手段は、前記観客シーンに含まれる人々の服装又は人々が所持する物体の色を抽出し、
前記関連付け手段は、前記観客シーンを、当該観客シーンから抽出された色をチームカラーとするチームを映した重要シーンに関連付けする。
【0007】
本発明の他の観点では、映像処理方法は、
素材映像を取得し、
前記素材映像から、観客を映した観客シーンを抽出する観客シーン抽出処理を行い、
前記素材映像から重要シーンを抽出する重要シーン抽出処理を行い、
前記観客シーンを前記重要シーンに関連付ける関連付け処理を行い、
前記重要シーンと、前記重要シーンに関連付けされた観客シーンとを含むダイジェスト映像を生成し、
前記観客シーン抽出処理は、前記観客シーンに含まれる色に関する情報を抽出し、
前記関連付け処理は、前記色に関する情報に基づいて、当該観客シーンを前記重要シーンに関連付けする。
また、本発明の他の観点では、映像処理方法は、
素材映像を取得し、
前記素材映像から、観客を映した観客シーンを抽出する観客シーン抽出処理を行い、
前記素材映像から重要シーンを抽出する重要シーン抽出処理を行い、
前記観客シーンを前記重要シーンに関連付ける関連付け処理を行い、
前記重要シーンと、前記重要シーンに関連付けされた観客シーンとを含むダイジェスト映像を生成し、
前記素材映像は、スポーツの映像であり、
前記観客シーン抽出処理は、前記観客シーンに含まれる人々の服装又は人々が所持する物体の色を抽出し、
前記関連付け処理は、前記観客シーンを、当該観客シーンから抽出された色をチームカラーとするチームを映した重要シーンに関連付けする。
【0008】
本発明のさらに他の観点では、記録媒体は、
素材映像を取得し、
前記素材映像から、観客を映した観客シーンを抽出する観客シーン抽出処理を行い、
前記素材映像から重要シーンを抽出する重要シーン抽出処理を行い、
前記観客シーンを前記重要シーンに関連付ける関連付け処理を行い、
前記重要シーンと、前記重要シーンに関連付けされた観客シーンとを含むダイジェスト映像を生成し、
前記観客シーン抽出処理は、前記観客シーンに含まれる色に関する情報を抽出し、
前記関連付け処理は、前記色に関する情報に基づいて、当該観客シーンを前記重要シーンに関連付けする処理をコンピュータに実行させるプログラムを記録する。
また、本発明のさらに他の観点では、記録媒体は、
素材映像を取得し、
前記素材映像から、観客を映した観客シーンを抽出する観客シーン抽出処理を行い、
前記素材映像から重要シーンを抽出する重要シーン抽出処理を行い、
前記観客シーンを前記重要シーンに関連付ける関連付け処理を行い、
前記重要シーンと、前記重要シーンに関連付けされた観客シーンとを含むダイジェスト映像を生成し、
前記素材映像は、スポーツの映像であり、
前記観客シーン抽出処理は、前記観客シーンに含まれる人々の服装又は人々が所持する物体の色を抽出し、
前記関連付け処理は、前記観客シーンを、当該観客シーンから抽出された色をチームカラーとするチームを映した重要シーンに関連付けする処理をコンピュータに実行させるプログラムを記録する。
【発明の効果】
【0009】
本発明によれば、スポーツ映像などにおける観客シーンをダイジェスト映像に含むダイジェスト映像を生成することが可能となる。
【図面の簡単な説明】
【0010】
【
図1】実施形態に係るダイジェスト生成装置の全体構成を示す。
【
図3】ダイジェスト生成装置の訓練時及び推論時の構成を示す。
【
図4】ダイジェスト生成装置のハードウェア構成を示すブロック図である。
【
図6】観客シーンをダイジェスト映像に含める方法を模式的に示す。
【
図7】第1実施形態に係るダイジェスト生成装置の機能構成を示す。
【
図8】ダイジェスト生成処理のフローチャートである。
【
図9】観客シーン抽出処理のフローチャートである。
【
図10】観客シーン抽出モデルの訓練装置の機能構成を示す。
【
図12】第2実施形態に係る映像処理装置の機能構成を示すブロック図である。
【発明を実施するための形態】
【0011】
以下、図面を参照して、本発明の好適な実施形態について説明する。
<基本構成>
まず、実施形態に係るダイジェスト生成装置の基本構成について説明する。
[全体構成]
図1は、実施形態に係るダイジェスト生成装置100の全体構成を示す。ダイジェスト生成装置100は、素材映像データベース(以下、「データベース」を「DB」とも記す。)2に接続されている。素材映像DB2は、各種の素材映像、即ち、動画像を記憶している。素材映像は、例えば放送局から放送されるテレビ番組などの映像でもよく、インターネットなどで配信されている映像でもよい。なお、素材映像は、音声を含んでいてもよく、含んでいなくてもよい。
【0012】
ダイジェスト生成装置100は、素材映像DB2に保存されている素材映像の一部を用いるダイジェスト映像を生成し、出力する。ダイジェスト映像は、素材映像における重要シーンを時系列につなげた映像である。ダイジェスト生成装置100は、機械学習により訓練済みのダイジェスト生成モデル(以下、単に「生成モデル」とも呼ぶ。)を用いてダイジェスト映像を生成する。生成モデルとしては、例えば、ニューラルネットワークを用いたモデルを用いることができる。
【0013】
図2は、ダイジェスト映像の例を示す。
図2の例では、ダイジェスト生成装置100は、素材映像に含まれるシーンA~Dを重要シーンとして抽出し、これらを時系列につなげたダイジェスト映像を生成する。なお、素材映像から抽出された重要シーンは、その内容次第で、ダイジェスト映像中で繰り返し使用されてもよい。
【0014】
[機能構成]
図3(A)は、ダイジェスト生成装置100が使用する生成モデルを訓練するための構成を示すブロック図である。生成モデルの訓練には、予め用意された訓練データセットが使用される。訓練データセットは、訓練用素材映像と、訓練用素材映像に対する正解を示す正解データのペアである。正解データは、訓練用素材映像における重要シーンの位置に正解を示すタグ(以下、「正解タグ」と呼ぶ。)を付与したデータである。典型的には、正解データにおける正解タグの付与は、経験のある編集者などにより行われる。例えば野球中継の素材映像については、野球解説者などが試合中のハイライトシーンなどを選択し、正解タグを付与する。なお、編集者による正解タグの付与方法を機械学習などで学習し、正解タグを自動的に付与してもよい。
【0015】
訓練時には、訓練用素材映像が生成モデルMに入力される。生成モデルMは、素材映像から重要シーンを抽出する。具体的には、生成モデルMは、素材映像を構成する1枚又は複数のフレームの集合から特徴量を抽出し、抽出した特徴量に基づいて素材映像に対する重要度(重要度スコア)を算出する。そして、生成モデルMは、重要度が予め決められた閾値以上である部分を重要シーンとして出力する。訓練部4は、生成モデルMの出力と、正解データとを用いて、生成モデルMを最適化する。具体的には、訓練部4は、生成モデルMが出力した重要シーンと、正解データに含まれる正解タグが示すシーンとを比較し、その誤差(損失)を小さくするように生成モデルMのパラメータを更新する。こうして得られた訓練済みの生成モデルMは、編集者が正解タグを付与したシーンに近いシーンを素材映像から重要シーンとして抽出することができるようになる。
【0016】
図3(B)は、ダイジェスト生成装置100による推論時の構成を示す。推論時には、ダイジェスト映像の生成の対象となる素材映像が訓練済みの生成モデルMに入力される。生成モデルMは、素材映像から重要度を算出し、重要度が予め決められた閾値以上である部分を重要シーンとして抽出し、ダイジェスト生成部5に出力する。ダイジェスト生成部5は、生成モデルMが抽出した重要シーンをつなげてダイジェスト映像を生成し、出力する。こうして、ダイジェスト生成装置100は、訓練済みの生成モデルMを用いて、素材映像からダイジェスト映像を生成する。
【0017】
[ハードウェア構成]
図4は、ダイジェスト生成装置100のハードウェア構成を示すブロック図である。図示のように、ダイジェスト生成装置100は、インタフェース(IF)11と、プロセッサ12と、メモリ13と、記録媒体14と、データベース(DB)15とを備える。
【0018】
IF11は、外部装置との間でデータの入出力を行う。具体的に、素材映像DB2に保存されている素材映像はIF11を介してダイジェスト生成装置100に入力される。また、ダイジェスト生成装置100により生成されたダイジェスト映像は、IF11を通じて外部装置へ出力される。
【0019】
プロセッサ12は、CPU(Central Processing Unit)などのコンピュータであり、予め用意されたプログラムを実行することにより、ダイジェスト生成装置100の全体を制御する。具体的に、プロセッサ12は、後述する訓練処理、及び、ダイジェスト生成処理を実行する。
【0020】
メモリ13は、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。メモリ13は、プロセッサ12による各種の処理の実行中に作業メモリとしても使用される。
【0021】
記録媒体14は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、ダイジェスト生成装置100に対して着脱可能に構成される。記録媒体14は、プロセッサ12が実行する各種のプログラムを記録している。ダイジェスト生成装置100が各種の処理を実行する際には、記録媒体14に記録されているプログラムがメモリ13にロードされ、プロセッサ12により実行される。
【0022】
データベース15は、IF11を通じて入力された素材映像、ダイジェスト生成装置100が生成したダイジェスト映像などを一時的に記憶する。また、データベース15は、ダイジェスト生成装置100が使用する訓練済みの生成モデルの情報、及び、生成モデルの訓練に用いられる訓練データセットなどを記憶する。なお、ダイジェスト生成装置100は、作成者が指示や入力を行うためのキーボード、マウスなどの入力部、及び、液晶ディスプレイなどの表示部を備えていてもよい。
【0023】
<第1実施形態>
次に、本発明の第1実施形態について説明する。
[原理説明]
第1実施形態では、ダイジェスト生成装置100は、スポーツの試合映像などの素材映像からダイジェスト映像を生成する際に、観客席を映したシーン(以下、「観客シーン」と呼ぶ。)を抽出し、ダイジェスト映像に含める。この際、ダイジェスト生成装置100は、素材映像から抽出した観客シーンを、素材映像から抽出された重要シーンに関連付けてダイジェスト映像に含める点に特徴を有する。
図5(A)は、観客席の映像の一例を示す。この映像は、多数の観客を含む観客席の映像である。
【0024】
図6は、観客シーンをダイジェスト映像に含める方法を模式的に示す。
図6では、素材映像における時刻を横軸に示す。ダイジェスト生成装置100は、素材映像から前処理により観客シーンを抽出しておく。
図6の例では、素材映像から観客シーンA、Bが抽出されたとする。また、ダイジェスト生成装置100は、素材映像から前述の方法で重要シーンを抽出する。
図6の例では、素材映像から重要シーン1~3が抽出されたとする。この場合、ダイジェスト生成装置100は、観客シーンA、Bをいずれかの重要シーンに関連付ける処理を行う。そして、関連付けができた場合、ダイジェスト生成装置100は、観客シーンを、時間軸上で関連付けされた重要シーンの前又は後に配置してダイジェスト映像を生成する。
【0025】
観客シーンを重要シーンに関連付けする方法としては、下記の方法が挙げられる。
(1)第1の方法
第1の方法は、素材映像における時刻に基づいて、観客シーンを重要シーンに関連付ける。具体的には、第1の方法は、観客シーンを、素材映像における時刻が最も近い重要シーンに関連付ける。なお、観客シーンと重要シーンの時間間隔(時刻の差)が所定の閾値以下である場合に限り、観客シーンを重要シーンに関連付けることとしてもよい。この場合、観客シーンと、それに最も近い重要シーンとの時間間隔が閾値より大きければ、その観客シーンはその重要シーンに関連付けされない。
【0026】
なお、第1の方法で関連付けを行う場合、観客シーンの重要シーンに対する位置関係は、素材映像における両者の位置関係に従うことが好ましい。
図6の例では、素材映像において観客シーンAは重要シーン1の前にあるので、ダイジェスト映像の例に示すように、観客シーンAを重要シーン1の前に配置する。逆に、素材映像において観客シーンが、関連付けの対象となる重要シーンより後にある場合には、その観客シーンを対象となる重要シーンの後に配置する。
【0027】
(2)第2の方法
第2の方法は、観客シーンから色に関する情報を抽出し、これを用いて観客シーンを重要シーンに関連付けする。具体的には、ダイジェスト生成装置100は、素材映像から抽出した観客シーンに含まれる人々の着用している服や帽子などの色、又は、それらの人々が所持している物体(例えば、メガホン、応援旗など)などの色を認識し、観客席の大部分を占める色に関する情報を抽出する。
【0028】
通常、スポーツのチームには特定のチームカラーがあり、選手はそのチームカラーのユニフォームを着用している。また、そのチームのファンは、そのチームのユニフォームと同一又は類似したデザインのシャツ、帽子などを着用して試合を観戦することが多い。また、ファンは、チームカラーを採用したメガホン、応援旗などの応援グッズを持って応援することが多い。そこで、ダイジェスト生成装置100は、観客シーンから色に関する情報を取得し、その色と同一又は類似するチームカラーを有するチームの重要シーンに関連付ける。例えば、素材映像がチームAとチームBの試合であり、チームAのチームカラーが赤であり、チームBのチームカラーが青であるとする。この場合、ダイジェスト生成装置100は、観客席の大部分が赤で占められる観客シーンをチームAに関する重要シーン(例えば、チームAの得点シーンなど)に関連付け、観客席の大部分が青で占められる観客シーンをチームBに関する重要シーンに関連付ける。
【0029】
なお、あるチームについて、複数の観客シーンと複数の重要シーンが抽出された場合、各観客シーンを関連付ける重要シーンを選択する方法はいくつか考えらえる。例えば、各観客シーンを、そのチームの重要シーンのうち、時間的に最も近い重要シーンに関連付けてもよい。また、各観客シーンを、そのチームの複数の重要シーンのうち、ランダムに選択した重要シーンに関連付けてもよい。
【0030】
(3)第3の方法
第3の方法は、観客シーンから文字列に関する情報を抽出し、これを用いて観客シーンを重要シーンに関連付けする。具体的には、ダイジェスト生成装置100は、素材映像から抽出した観客シーンに含まれるメッセージボード、プラカード、応援旗などに書かれている応援メッセージなどの文字列を認識し、その観客シーンを、その文字列と関連性のある重要シーンに関連付けする。
【0031】
具体的に、観客シーンに映っているメッセージボードにチーム名、選手名、選手の背番号などが書かれている場合、ダイジェスト生成装置100は、その文字列が示すチームや、その文字列が示す選手が属するチームの重要シーンにその観客シーンを関連付けする。例えば、
図5(B)に示すように、観客シーンに映っているメッセージボードに「Go!GIANTS!」のメッセージが書かれている場合、ダイジェスト生成装置100は、この観客シーンをチーム「GIANTS」の重要シーンに関連付けする。
【0032】
第3の方法でも、複数の観客シーンと複数の重要シーンが抽出された場合、ダイジェスト生成装置100は、各観客シーンを、そのチームの重要シーンのうち、時間的に最も近い重要シーンに関連付けてもよいし、そのチームの複数の重要シーンのうち、ランダムに選択した重要シーンに関連付けてもよい。
【0033】
図6の例では、ダイジェスト生成装置100は、第1の方法により観客シーンAを重要シーン1に関連付け、重要シーン1の前に配置している。観客シーンAについては、素材映像における観客シーンAの時刻t
1と重要シーンの時刻t
2の時間間隔Δt
12が所定の閾値Tthより小さいので、観客シーンAが重要シーン1に関連付けされている。一方、観客シーンBについては、重要シーン2の時間間隔Δt
35及び重要シーン3との時間間隔Δt
45がいずれも所定の閾値Tthより大きいので、観客シーンBは第1の方法によっては重要シーンに関連付けされない。但し、
図6の例では、観客シーンBは、第2の方法又は第3の方法のいずれかにより、重要シーン2に関連付けされている。
【0034】
なお、上記の第1~第3の方法は、いずれか1つを使用してもよいし、2つ以上を組み合わせて使用してもよい。2つ以上を組み合わせて使用する場合の優先順位は任意に決定することができる。また、ダイジェスト生成装置100は、素材映像から抽出した観客シーンの全てを重要シーンに関連付けし、ダイジェスト映像に含める必要はない。観客シーンが多い場合には、それらのうちのいくつかを選択して重要シーンに関連付けしてダイジェスト映像に含めてもよい。また、上記の第1~第3のうちの1つ又は複数の方法を適用して関連付けの対象となった観客シーンのみを重要シーンに含め、関連付けの対象とならなかった観客シーンはダイジェスト映像に含めないこととしてもよい。
【0035】
[ダイジェスト生成装置]
(機能構成)
図7は、第1実施形態に係るダイジェスト生成装置100の機能構成を示すブロック図である。ダイジェスト生成装置100は、観客シーン抽出部21と、観客シーンDB22と、重要シーン抽出部23と、関連付け部24と、ダイジェスト生成部25とを備える。
【0036】
素材映像は、観客シーン抽出部21及び重要シーン抽出部23に入力される。観客シーン抽出部21は、素材映像から観客シーンを抽出し、観客シーンDB22に保存する。観客シーンは、スポーツの試合映像などにおいて観客席を映した映像である。観客シーン抽出部21は、例えばニューラルネットワークを用い、予め訓練済みのモデルを用いて観客シーンを抽出する。モデルの訓練方法については後述する。観客シーン抽出部21は、ダイジェスト映像を生成するための前処理として素材映像から観客シーンを抽出し、観客シーンDB22に保存する。なお、観客シーン抽出部21は、前述の第1の方法で用いる各観客シーンの時刻情報も付随情報として抽出し、観客シーンと対応付けて観客シーンDB22に保存する。また、観客シーン抽出部21は、前述の第2の方法で用いる色に関する情報や文字列に関する情報も付随情報として抽出し、観客シーンと対応付けて観客シーンDB22に保存する。
【0037】
重要シーン抽出部23は、
図3を参照して説明した方法により、素材映像から重要シーンを抽出し、関連付け部24に出力する。関連付け部24は、観客シーンDB22に保存されている観客シーンを、重要シーン抽出部23が抽出した重要シーンに関連付ける。具体的に、関連付け部24は、前述の第1~第3の方法のいずれか又は複数の組み合わせを用いて観客シーンを重要シーンに関連付け、ダイジェスト生成部25へ出力する。なお、関連付け部24は、観客シーンが関連付けされた重要シーンについては観客シーンと重要シーンのペアをダイジェスト生成部25へ出力し、観客シーンが関連付けされなかった重要シーンについてはその重要シーンのみをダイジェスト生成部25へ出力する。
【0038】
ダイジェスト生成部25は、関連付け部24から入力された重要シーンを時系列につなげてダイジェスト映像を生成する。その際、ダイジェスト生成部25は、各観客シーンを、関連付けされた重要シーンの前又は後に挿入する。なお、関連付け部24は、各観客シーンを重要シーンの前後のいずれに配置するかを示す配置情報を生成し、観客シーン及び重要シーンとともにダイジェスト生成部25に出力してもよい。この場合には、ダイジェスト生成部25は入力された配置情報を参照して観客シーンの挿入位置を決定すればよい。こうして、ダイジェスト生成部25は、観客シーンを含むダイジェスト映像を生成し、出力する。
【0039】
(ダイジェスト映像生成処理)
図8は、ダイジェスト生成装置100が実行するダイジェスト生成処理のフローチャートである。この処理は、
図4に示すプロセッサ12が予め用意されたプログラムを実行し、
図7に示す各要素として動作することにより実現される。
【0040】
まず、観客シーン抽出部21は、前処理として観客シーン抽出処理を行う(ステップS11)。
図9は、観客シーン抽出処理のフローチャートである。まず、観客シーン抽出部21は、素材映像を取得し(ステップS21)、素材映像から観客シーンを検出する(ステップS22)。そして、観客シーン抽出部21は、観客シーンが検出されると(ステップS23:Yes)、観客シーンDB22に保存する(ステップS24)。次に、観客シーン抽出部21は、ステップS21~S24の処理を素材映像の最後まで行ったか否かを判定し(ステップS25:No)、最後まで行っていない場合は、ステップS21~S24を繰り返す。そして、観客シーン抽出部21は、ステップS21~S24の処理を素材映像の最後まで行うと(ステップS25:Yes)、処理を終了する。これにより、素材映像に観客シーンが抽出される。また、観客シーンの付随情報として、各観客シーンの時刻、観客シーンに含まれる色や文字列に関する情報などが取得される。
【0041】
図8に戻り、重要シーン抽出部23は素材映像から重要シーンを抽出する(ステップS12)。次に、関連付け部24は、抽出された重要シーンに対して、前述の第1~第3のいずれか又は複数を用いて、観客シーンDB22に保存されている観客シーンを関連付ける(ステップS13)。関連付け部24は、観客シーンが関連付けされた重要シーン、及び、観客シーンが関連付けされていない重要シーンをダイジェスト生成部25へ出力する。そして、ダイジェスト生成部25は、重要シーンを時系列につなげ、重要シーンの前又は後に対応する観客シーンを挿入してダイジェスト映像を生成する(ステップS14)。こうして、ダイジェスト映像生成処理は終了する。
【0042】
[訓練装置]
次に、観客シーン抽出部21が使用する観客シーン抽出モデルの訓練について説明する。
図10は、観客シーン抽出モデルMxを訓練する訓練装置の機能構成を示す。訓練装置200は、観客シーン抽出モデルMxと、訓練部4xとを備える。また、観客シーン抽出モデルMxの訓練のための訓練データセットが用意される。訓練データセットは、訓練用素材映像と、正解データとを含む。正解データは、訓練用素材映像に含まれる観客シーンに正解を示す正解タグが付与されたデータである。
【0043】
観客シーン抽出モデルMxには、訓練用素材映像が入力される。観客シーン抽出モデルMxは、入力された訓練用素材映像から特徴量を抽出し、特徴量に基づいて観客シーンを抽出して訓練部4xに出力する。訓練部4xは、観客シーン抽出モデルMxが出力した観客シーンと、正解データとを用いて、観客シーン抽出モデルMxを最適化する。具体的には、訓練部4xは、観客シーン抽出モデルMxが抽出した観客シーンを、正解タグが付与されたシーンと比較して損失を算出し、損失が小さくなるように観客シーン抽出モデルMxのパラメータを更新する。こうして、訓練済みの観客シーン抽出モデルMxが得られる。
【0044】
(訓練処理)
図11は、訓練装置200による訓練処理のフローチャートである。この処理は、実際には
図4に示すプロセッサ12が予め用意されたプログラムを実行し、
図10に示す各要素として動作することにより実現される。まず、観客シーン抽出モデルMxは、訓練用素材映像から観客シーンを抽出する(ステップS31)。次に、訓練部4xは、観客シーン抽出モデルMxから出力された観客シーンと、正解データとを用いて各モデルを最適化する(ステップS32)。
【0045】
次に、訓練装置200は、訓練終了条件が具備されたか否かを判定する(ステップS33)。訓練終了条件とは、例えば予め用意された訓練データセットを全て使用したこと、訓練部4xが算出する損失の値が所定範囲内に収束したことなどである。こうして訓練終了条件が具備されるまで、観客シーン抽出モデルMxの訓練が行われ、訓練終了条件が具備されると、訓練処理は終了する。
【0046】
<第2実施形態>
次に、本発明の第2実施形態について説明する。
図12は、第2実施形態に係る映像処理装置の機能構成を示すブロック図である。図示のように、映像処理装置70は、映像取得手段71と、観客シーン抽出手段72と、重要シーン抽出手段73と、関連付け手段74と、生成手段75と、を備える。映像取得手段71は、素材映像を取得する。観客シーン抽出手段72は、素材映像から、観客を映した観客シーンを抽出する。重要シーン抽出手段73は、素材映像から重要シーンを抽出する。関連付け手段74は、観客シーンを重要シーンに関連付ける。生成手段75は、重要シーンと、重要シーンに関連付けされた観客シーンとを含むダイジェスト映像を生成する。
【0047】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0048】
(付記1)
素材映像を取得する映像取得手段と、
前記素材映像から、観客を映した観客シーンを抽出する観客シーン抽出手段と、
前記素材映像から重要シーンを抽出する重要シーン抽出手段と、
前記観客シーンを前記重要シーンに関連付ける関連付け手段と、
前記重要シーンと、前記重要シーンに関連付けされた観客シーンとを含むダイジェスト映像を生成する生成手段と、
を備える映像処理装置。
【0049】
(付記2)
前記生成手段は、前記重要シーンを時系列に配置して前記ダイジェスト映像を生成し、
前記生成手段は、前記重要シーンに関連付けされた観客シーンを、当該重要シーンの前又は後に配置して前記ダイジェスト映像を生成する付記1に記載の映像処理装置。
【0050】
(付記3)
前記関連付け手段は、前記重要シーンの前後の所定時間以内の位置に存在する観客シーンを、当該重要シーンに関連付けする付記1又は2に記載の映像処理装置。
【0051】
(付記4)
前記観客シーン抽出手段は、前記観客シーンに含まれる色に関する情報を抽出し、
前記関連付け手段は、前記色に関する情報に基づいて、当該観客シーンを前記重要シーンに関連付けする付記1乃至3のいずれか一項に記載の映像処理装置。
【0052】
(付記5)
前記素材映像は、スポーツの映像であり、
前記観客シーン抽出手段は、前記観客シーンに含まれる人々の服装又は人々が所持する物体の色を抽出し、
前記関連付け手段は、前記観客シーンを、当該観客シーンから抽出された色をチームカラーとするチームを映した重要シーンに関連付けする付記1乃至3のいずれか一項に記載の映像処理装置。
【0053】
(付記6)
前記観客シーン抽出手段は、前記観客シーンに含まれる文字列を抽出し、
前記関連付け手段は、前記文字列に基づいて、前記観客シーンを前記重要シーンに関連付けする付記1乃至5のいずれか一項に記載の映像処理装置。
【0054】
(付記7)
前記素材映像は、スポーツの映像であり、
前記観客シーン抽出手段は、前記観客シーンに含まれるメッセージボード、もしくは、前記観客シーンに含まれる人物が着用又は所持している物体が示す文字列を抽出し、
前記関連付け手段は、前記観客シーンを、当該観客シーンから抽出された文字列が示すチーム、又は、当該文字列が示す選手が属するチームを映した重要シーンに関連付けする付記1乃至5のいずれか一項に記載の映像処理装置。
【0055】
(付記8)
前記観客シーン抽出手段は、予め用意された訓練用素材映像と、当該訓練用素材映像中の観客シーンを示す正解データとを含む訓練データセットを用いて訓練されたモデルを用いて、前記観客シーンを抽出する付記1乃至7のいずれか一項に記載の映像処理装置。
【0056】
(付記9)
素材映像を取得し、
前記素材映像から、観客を映した観客シーンを抽出し、
前記素材映像から重要シーンを抽出し、
前記観客シーンを前記重要シーンに関連付け、
前記重要シーンと、前記重要シーンに関連付けされた観客シーンとを含むダイジェスト映像を生成する映像処理方法。
【0057】
(付記10)
素材映像を取得し、
前記素材映像から、観客を映した観客シーンを抽出し、
前記素材映像から重要シーンを抽出し、
前記観客シーンを前記重要シーンに関連付け、
前記重要シーンと、前記重要シーンに関連付けされた観客シーンとを含むダイジェスト映像を生成する処理をコンピュータに実行させるプログラムを記録した記録媒体。
【0058】
以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【符号の説明】
【0059】
2 素材映像DB
3、3x 正解データ
4、4x 訓練部
5、25 ダイジェスト生成部
12 プロセッサ
21 観客シーン抽出部
22 観客シーンDB
23 重要シーン抽出部
24 関連付け部
100 ダイジェスト生成装置
200 訓練装置