(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-09
(45)【発行日】2024-09-18
(54)【発明の名称】情報処理装置、情報処理方法、及び、プログラム
(51)【国際特許分類】
H04N 5/91 20060101AFI20240910BHJP
G11B 20/10 20060101ALI20240910BHJP
G11B 27/02 20060101ALI20240910BHJP
G11B 27/00 20060101ALI20240910BHJP
【FI】
H04N5/91
G11B20/10 G
G11B27/02 Z
G11B27/00 B
(21)【出願番号】P 2022573843
(86)(22)【出願日】2021-01-06
(86)【国際出願番号】 JP2021000215
(87)【国際公開番号】W WO2022149217
(87)【国際公開日】2022-07-14
【審査請求日】2023-07-04
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100107331
【氏名又は名称】中村 聡延
(74)【代理人】
【識別番号】100104765
【氏名又は名称】江上 達夫
(74)【代理人】
【識別番号】100131015
【氏名又は名称】三輪 浩誉
(72)【発明者】
【氏名】鍋藤 悠
(72)【発明者】
【氏名】渡辺 はるな
(72)【発明者】
【氏名】白石 壮馬
【審査官】鈴木 順三
(56)【参考文献】
【文献】特開2019-110421(JP,A)
【文献】特開2008-227860(JP,A)
【文献】特開2014-022837(JP,A)
【文献】特開2010-028651(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 5/76 - 5/956
G11B 20/10 - 20/16
G11B 27/00 - 27/06
(57)【特許請求の範囲】
【請求項1】
素材映像を取得する取得手段と、
前記素材映像中の重要シーンを検出する重要シーン検出手段と、
前記素材映像における重要シーンを含む部分を切り出して部分映像を生成する映像切り出し手段と、
前記重要シーンの検出結果を用いて、
前記部分映像から前記素材映像中のイベント区間を検出するイベント区間検出手段と、
を備え
、
前記映像切り出し手段は、前記重要シーンの前後に所定の時間幅を付加した範囲を前記部分映像として切り出す情報処理装置。
【請求項2】
前記重要シーン検出手段は、前記素材映像に含まれるシーンの重要度を算出し、
前記映像切り出し手段は、前記重要シーンの重要度の値又は重要度の値の変化に基づいて、前記部分映像として切り出す範囲を変更する請求項
1に記載の情報処理装置。
【請求項3】
前記素材映像と、前記イベント区間検出手段が検出したイベント区間とに基づいて、イベント区間の映像を時系列につなげてダイジェスト映像を生成するダイジェスト生成手段を備える請求項1
又は2に記載の情報処理装置。
【請求項4】
コンピュータにより実行される情報処理方法であって、
素材映像を取得し、
前記素材映像中の重要シーンを検出し、
前記素材映像における重要シーンを含む部分を切り出して部分映像を生成し、
前記重要シーンの検出結果を用いて、
前記部分映像から前記素材映像中のイベント区間を検出し
、
前記部分映像の生成においては、前記重要シーンの前後に所定の時間幅を付加した範囲が前記部分映像として切り出される情報処理方法。
【請求項5】
素材映像を取得し、
前記素材映像中の重要シーンを検出し、
前記素材映像における重要シーンを含む部分を切り出して部分映像を生成し、
前記重要シーンの検出結果を用いて、
前記部分映像から前記素材映像中のイベント区間を検出する処理をコンピュータに実行させ
、
前記部分映像の生成においては、前記重要シーンの前後に所定の時間幅を付加した範囲が前記部分映像として切り出されるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像データの処理に関する。
【背景技術】
【0002】
動画像から映像ダイジェストを生成する技術が提案されている。特許文献1には、予め準備されたトレーニング動画像及びユーザが指定した重要シーン動画像から学習データファイルを作成し、当該学習データファイルに基づき、対象の動画像から重要シーンの検出を行うハイライト抽出装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
素材映像から重要シーンなどを抽出してダイジェスト映像を作成する場合、素材映像全体から重要シーンを検出する処理を行う。しかし、通常、素材映像は時間が長いため、重要シーンなどを検出する処理には時間を要する。また、処理時間があまり問題とならない場合であっても、重要シーンなどの検出精度が十分に高くない場合には、不適切なシーンがダイジェスト映像に含められてしまうことがある。
【0005】
本発明の1つの目的は、素材映像中のイベントの部分を効率的に抽出し、高精度にダイジェスト映像を作成することが可能な情報処理装置を提供することにある。
【課題を解決するための手段】
【0006】
本発明の一つの観点では、情報処理装置は、
素材映像を取得する取得手段と、
前記素材映像中の重要シーンを検出する重要シーン検出手段と、
前記素材映像における重要シーンを含む部分を切り出して部分映像を生成する映像切り出し手段と、
前記重要シーンの検出結果を用いて、前記部分映像から前記素材映像中のイベント区間を検出するイベント区間検出手段と、
を備え、
前記映像切り出し手段は、前記重要シーンの前後に所定の時間幅を付加した範囲を前記部分映像として切り出す。
【0007】
本発明の他の観点では、コンピュータにより実行される情報処理方法は、
素材映像を取得し、
前記素材映像中の重要シーンを検出し、
前記素材映像における重要シーンを含む部分を切り出して部分映像を生成し、
前記重要シーンの検出結果を用いて、前記部分映像から前記素材映像中のイベント区間を検出し、
前記部分映像の生成においては、前記重要シーンの前後に所定の時間幅を付加した範囲が前記部分映像として切り出される。
【0008】
本発明のさらに他の観点では、プログラムは、
素材映像を取得し、
前記素材映像中の重要シーンを検出し、
前記素材映像における重要シーンを含む部分を切り出して部分映像を生成し、
前記重要シーンの検出結果を用いて、前記部分映像から前記素材映像中のイベント区間を検出する処理をコンピュータに実行させ、
前記部分映像の生成においては、前記重要シーンの前後に所定の時間幅を付加した範囲が前記部分映像として切り出される。
【発明の効果】
【0009】
本発明によれば、素材映像中のイベントの部分を効率的に抽出し、高精度にダイジェスト映像を作成することが可能となる。
【図面の簡単な説明】
【0010】
【
図2】ダイジェスト映像、及び、イベント区間の例を示す。
【
図3】重要シーン検出モデルの訓練時及び推論時の構成を示す。
【
図4】イベント区間検出モデルの訓練データの生成方法を説明する図である。
【
図5】イベント区間検出モデルの訓練装置の機能構成を示すブロック図である。
【
図6】ダイジェスト生成装置のハードウェア構成を示すブロック図である。
【
図7】第1実施形態のダイジェスト生成装置によるイベント区間の検出方法を模式的に示す。
【
図8】第1実施形態のダイジェスト生成装置の機能構成を示すブロック図である。
【
図9】第1実施形態のダイジェスト生成装置によるダイジェスト生成処理のフローチャートである。
【
図10】第2実施形態のダイジェスト生成装置によるイベント区間の検出方法を模式的に示す。
【
図11】第2実施形態のダイジェスト生成装置の機能構成を示すブロック図である。
【
図12】第2実施形態のダイジェスト生成装置により実行されるダイジェスト生成処理のフローチャートである。
【
図13】第3実施形態の情報処理装置の機能構成を示すブロック図である。
【
図14】第3実施形態の情報処理装置による処理のフローチャートである。
【発明を実施するための形態】
【0011】
以下、図面を参照して、本発明の好適な実施形態について説明する。
<ダイジェスト生成装置の基本概念>
図1は、ダイジェスト生成装置の基本概念を示す。ダイジェスト生成装置100は、素材映像データベース(以下、「データベース」を「DB」とも記す。)2に接続されている。素材映像DB2は、各種の素材映像、即ち、動画像を記憶している。素材映像は、例えば放送局から放送されるテレビ番組などの映像でもよく、インターネットなどで配信されている映像でもよい。なお、素材映像は、音声を含んでいてもよく、含んでいなくてもよい。
【0012】
ダイジェスト生成装置100は、素材映像DB2に保存されている素材映像の一部を用いたダイジェスト映像を生成し、出力する。ダイジェスト映像は、素材映像において何らかのイベントが発生したシーンを時系列につなげた映像である。ダイジェスト生成装置100は、後述するように、機械学習により訓練済みのイベント区間検出モデルを用いて素材映像からイベント区間を検出し、イベント区間を時系列につなげてダイジェスト映像を生成する。イベント区間検出モデルは、素材映像からイベントの区間を検出するモデルであり、例えば、ニューラルネットワークを用いたモデルを用いることができる。
【0013】
図2(A)は、ダイジェスト映像の例を示す。
図2(A)の例では、ダイジェスト生成装置100は、素材映像に含まれるイベント区間A~Dを抽出し、これらを時系列につなげてダイジェスト映像を生成する。なお、素材映像から抽出されたイベント区間は、その内容次第で、ダイジェスト映像中で繰り返し使用されてもよい。
【0014】
図2(B)は、イベント区間の例を示す。イベント区間は、素材映像において何らかのイベントが起きたシーンに対応する複数のフレーム画像により構成される。イベント区間は、その始点及び終点により規定される。なお、終点の代わりに、イベント区間の長さを用いてイベント区間を規定してもよい。
【0015】
<基本原理>
次に、実施形態に係るダイジェスト生成装置の基本原理について説明する。素材映像からダイジェスト映像を作成する場合、素材映像をイベント区間検出モデルに入力してイベント区間を検出する。しかし、通常、素材映像は長いので、素材映像全体に対してイベント区間の検出処理を行うと、処理に時間を要する。また、処理時間があまり問題とならない場合であっても、イベントの検出精度が十分に高くない場合には、イベント以外のシーンがダイジェスト映像に含められてしまうことがある。
【0016】
そこで、本実施形態では、イベント区間検出モデルと、素材映像から重要シーンを検出するモデル(以下、「重要シーン検出モデル」と呼ぶ。)を併用してダイジェスト映像を作成する。これにより、ダイジェスト映像の作成における効率と精度を改善する。
【0017】
<重要シーン検出モデル>
次に、重要シーン検出モデルについて説明する。
図3(A)は、ダイジェスト生成装置100が使用する重要シーン検出モデルを訓練するための構成を示す。重要シーン検出モデルの訓練には、予め用意された訓練データセットが使用される。訓練データセットは、訓練用素材映像と、訓練用素材映像に対する正解を示す正解データのペアである。正解データは、訓練用素材映像における重要シーンの位置に正解を示すタグ(以下、「正解タグ」と呼ぶ。)を付与したデータである。典型的には、正解データにおける正解タグの付与は、経験のある編集者などにより行われる。例えば野球中継の素材映像については、野球解説者などが試合中のハイライトシーンなどを選択し、正解タグを付与する。なお、編集者による正解タグの付与方法を機械学習などで学習し、正解タグを自動的に付与してもよい。
【0018】
訓練時には、訓練用素材映像が重要シーン検出モデルMIに入力される。重要シーン検出モデルMIは、素材映像から重要シーンを抽出する。具体的には、重要シーン検出モデルMIは、素材映像を構成する1枚又は複数のフレームの集合から特徴量を抽出し、抽出した特徴量に基づいて素材映像に対する重要度(重要度スコア)を算出する。そして、重要シーン検出モデルMIは、重要度が予め決められた閾値以上である部分を重要シーンとして出力する。訓練部4は、重要シーン検出モデルMIの出力と、正解データとを用いて、重要シーン検出モデルMIを最適化する。具体的には、訓練部4は、重要シーン検出モデルMIが出力した重要シーンと、正解データに含まれる正解タグが示すシーンとを比較し、その誤差(損失)を小さくするように重要シーン検出モデルMIのパラメータを更新する。こうして得られた訓練済みの重要シーン検出モデルMIは、編集者が正解タグを付与したシーンに近いシーンを素材映像から重要シーンとして抽出することができるようになる。
【0019】
図3(B)は、重要シーン検出モデルMIによる推論時の構成を示す。推論時には、素材映像が訓練済みの重要シーン検出モデルMIに入力される。重要シーン検出モデルMIは、素材映像から重要度を算出し、重要度が予め決められた閾値以上である部分を重要シーンとして抽出する。
【0020】
<イベント区間検出モデル>
次に、イベント区間検出モデルについて説明する。
(訓練データの生成方法)
図4(A)は、イベント区間検出モデルの訓練に使用する訓練データの生成方法を説明する図である。まず、既存のダイジェスト映像が用意される。このダイジェスト映像は、適切な内容を含むものとして既に作成済みのダイジェスト映像であり、適切な箇所で区切られた複数のイベント区間A~Cを含んでいる。
【0021】
イベント区間検出モデルの訓練装置は、素材映像とダイジェストとのマッチングを行い、ダイジェスト映像に含まれるイベント区間と同一内容の区間を素材映像から検出し、そのイベント区間の始点及び終点の時刻情報を取得する。なお、終点の代わりに、始点からの時間幅を用いてもよい。時刻情報は、素材映像におけるタイムコードやフレーム番号などとすることができる。
図4(A)の例では、ダイジェスト映像のイベント区間A~Cに対応して、素材映像からイベント区間1~3が検出されている。
【0022】
なお、訓練装置は、素材映像とダイジェスト映像の内容が一致している一致区間の間に、僅かに内容が不一致の区間が存在したとしても、その不一致の区間が所定の時間幅(例えば1秒など)以下である場合には、その不一致の区間を前後の一致区間と一体として1つの一致区間としてもよい。
図4(A)の例では、素材映像のイベント区間3には、ダイジェスト映像中のイベント区間Cと一致しない不一致区間90があるが、不一致区間90の時間幅が所定値以下であるため、イベント区間3に含められている。
【0023】
訓練装置は、素材映像に含まれるイベントの時刻及びイベント名(イベントクラス)を含むメタ情報がある場合には、メタ情報を用いて、各イベント区間にイベント名を示すタグ情報を付与してもよい。
図4(B)は、メタ情報を用いてタグ情報を付与する例を示す。メタ情報には、時刻t
1のイベント名「三振」、時刻t
2のイベント名「ヒット」、時刻t
3のイベント名「ホームラン」を含んでいる。この場合、訓練装置は、素材映像から検出されたイベント区間1にタグ情報「三振」を付与し、イベント区間2にタグ情報「ヒット」を付与し、イベント区間3にタグ情報「ホームラン」を付与する。付与されたタグ情報は、訓練データにおける正解データの一部として使用される。
【0024】
上記の例では、イベント名を含むメタ情報を用いて各イベント区間にタグ情報を付与しているが、その代わりに、人間がダイジェスト映像を構成する各イベントを目視してダイジェスト映像にタグ情報を付与してもよい。その場合には、訓練装置は、素材映像とダイジェスト映像とのマッチングにより得られた対応関係に基づいて、ダイジェスト映像のイベント区間に付与されているタグ情報を、それと対応する素材映像のイベント区間に反映すればよい。例えば、
図4(B)の例において、ダイジェスト映像のイベント区間Aにタグ情報「三振」が付与されている場合、訓練装置は、それに対応する素材映像のイベント区間1にタグ情報「三振」を付加すればよい。
【0025】
(訓練装置の構成)
図5は、イベント区間検出モデルの訓練装置200の機能構成を示すブロック図である。訓練装置200は、入力部21と、映像マッチング部22と、区間情報生成部23と、訓練データ生成部24と、訓練部25とを備える。
【0026】
入力部21には、素材映像D1と、ダイジェスト映像D2とが入力される。素材映像D1は、訓練データの元になる映像である。入力部21は、素材映像D1を訓練データ生成部24へ出力し、素材映像D1とダイジェスト映像D2を映像マッチング部22へ出力する。
【0027】
映像マッチング部22は、
図4(A)に例示したように、素材映像D1とダイジェスト映像D2のマッチングを行い、映像の内容が一致している区間である一致区間を示す一致区間情報D3を生成して区間情報生成部23へ出力する。
【0028】
区間情報生成部23は、一致区間情報D3に基づいて、一連のシーンとなる区間情報を生成する。具体的に、区間情報生成部23は、ある一致区間が所定の時間幅以上である場合、その一致区間をイベント区間と決定し、そのイベント区間の区間情報D4を訓練データ生成部24へ出力する。また、前述のように、連続する2つの一致区間の間にある不一致区間の時間が所定の閾値以下である場合、区間情報生成部23は、前後の一致区間とその不一致区間との全体を1つのイベント区間と決定する。区間情報D4は、素材映像D1におけるそのイベント区間を示す時刻情報を含む。具体的に、イベント区間を示す時刻情報は、イベント区間の始点と終点の時刻、又は、始点の時刻とイベント区間の時間幅を含む。
【0029】
訓練データ生成部24は、素材映像D1と、区間情報D4とに基づいて、訓練データを生成する。具体的に、訓練データ生成部24は、素材映像D1から区間情報D4が示すイベント区間に対応する部分を切り出した映像を訓練用映像とする。具体的には、訓練データ生成部24は、イベント区間の前後にある程度の幅を持たせて素材映像D1から映像を切り出す。この場合、訓練データ生成部24は、イベント区間の前後に持たせる幅をランダムに決定してもよく、予め指定した長さとしてもよい。イベント区間の前と後に付加する幅は同一でもよく、異なってもよい。また、訓練データ生成部24は、区間情報D4が示すイベント区間の時刻情報を正解データとする。こうして、訓練データ生成部24は、素材映像D1に含まれる各イベント区間について、訓練用映像と正解データとのセットである訓練データD5を生成し、訓練部25へ出力する。
【0030】
訓練部25は、訓練データ生成部24が生成した訓練データD5を用いて、イベント区間検出モデルを訓練する。具体的には、訓練部25は、訓練用映像をイベント区間検出モデルに入力し、イベント区間検出モデルの出力を正解データと比較し、その誤差に基づいてイベント区間検出モデルを最適化する。訓練部25は、複数の素材映像から生成された複数の訓練データD5を用いてイベント区間検出モデルを訓練し、所定の終了条件が具備されたときに、訓練を終了する。こうして得られた訓練済みのイベント区間検出モデルは、入力された素材映像から適切にイベント区間を検出し、その区間を示す時刻情報、イベントらしさのスコア、イベント名を示すタグ情報などを含む検出結果を出力できるようになる。
【0031】
<ダイジェスト生成装置>
次に、上記の訓練済みの重要シーン検出モデル、及び、訓練済みのイベント区間検出モデルを用いたダイジェスト生成装置について説明する。
【0032】
[第1実施形態]
まず、第1実施形態に係るダイジェスト生成装置について説明する。
(ハードウェア構成)
図6は、第1実施形態に係るダイジェスト生成装置100のハードウェア構成を示すブロック図である。図示のように、ダイジェスト生成装置100は、インタフェース(IF)11と、プロセッサ12と、メモリ13と、記録媒体14と、データベース(DB)15とを備える。
【0033】
IF11は、外部装置との間でデータの入出力を行う。具体的に、素材映像DB2に保存されている素材映像はIF11を介してダイジェスト生成装置100に入力される。また、ダイジェスト生成装置100により生成されたダイジェスト映像は、IF11を通じて外部装置へ出力される。
【0034】
プロセッサ12は、CPU(Central Processing Unit)などのコンピュータであり、予め用意されたプログラムを実行することにより、ダイジェスト生成装置100の全体を制御する。具体的に、プロセッサ12は、後述するダイジェスト生成処理を実行する。
【0035】
メモリ13は、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。メモリ13は、プロセッサ12による各種の処理の実行中に作業メモリとしても使用される。
【0036】
記録媒体14は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、ダイジェスト生成装置100に対して着脱可能に構成される。記録媒体14は、プロセッサ12が実行する各種のプログラムを記録している。ダイジェスト生成装置100が各種の処理を実行する際には、記録媒体14に記録されているプログラムがメモリ13にロードされ、プロセッサ12により実行される。
【0037】
データベース15は、IF11を通じて入力された素材映像、ダイジェスト生成装置100が生成したダイジェスト映像などを一時的に記憶する。また、データベース15は、ダイジェスト生成装置100が使用する訓練済みのイベント区間検出モデルの情報、訓練済みの重要シーン検出モデルの情報、各モデルの訓練に用いられる訓練データセットなどを記憶する。なお、ダイジェスト生成装置100は、作成者が指示や入力を行うためのキーボード、マウスなどの入力部、及び、液晶ディスプレイなどの表示部を備えていてもよい。
【0038】
(イベント区間の検出方法)
図7は、第1実施形態のダイジェスト生成装置100によるイベント区間の検出方法を模式的に示す。第1実施形態では、まず、素材映像から重要シーンを検出し、検出された重要シーンを含む部分映像をイベント区間検出モデルに入力してイベント区間を検出する。
【0039】
具体的には、素材映像が訓練済みの重要シーン検出モデルMIに入力される。重要シーン検出モデルMIは、素材映像から重要シーンを検出する。ダイジェスト生成装置100は、検出された重要シーンを含む部分映像を素材映像から切り出し、訓練済みのイベント区間検出モデルMEに入力する。イベント区間検出モデルMEは、入力された部分映像からイベント区間を検出する。こうすることにより、ダイジェスト生成装置100は、素材映像のうち、重要シーンが含まれる部分映像に対してのみ推論処理を行えばよいので、推論処理を効率化することができる。
【0040】
(機能構成)
図8は、第1実施形態に係るダイジェスト生成装置100の機能構成を示すブロック図である。ダイジェスト生成装置100は、推論部30と、ダイジェスト生成部40とを備える。推論部30は、入力部31と、重要シーン検出部32と、映像切り出し部33と、イベント区間検出部34とを備える。
【0041】
入力部31には、素材映像D11が入力される。入力部31は、素材映像D11を重要シーン検出部32及び映像切り出し部33へ出力する。
【0042】
重要シーン検出部32は、訓練済みの重要シーン検出モデルを用いて、素材映像D11から重要シーンを検出し、重要シーン情報D12を映像切り出し部33へ出力する。重要シーン情報D12は、例えば検出された重要シーンの始点及び終点の時刻を含む。
【0043】
映像切り出し部33は、素材映像D11から、重要シーンを含む部分の映像を切り出し、部分映像D13としてイベント区間検出部34へ出力する。一例では、映像切り出し部33は、重要シーン情報D12が示す重要シーンの前後にそれぞれ所定時間幅の区間を付加した範囲を部分映像として切り出す。この場合、重要シーンの前後に付加する時間幅は異なってもよい。
【0044】
また、映像切り出し部33は、重要シーンにおける重要度の値又はその変化に応じて、重要シーンの前後に付加する時間幅を変更してもよい。前述のように、重要シーン検出モデルは、素材映像の重要度が所定の閾値以上である区間を重要シーンとして出力する。よって、例えば、重要シーンの前端又は後端付近における重要度の変化が急な場合には前後に付加する時間幅を小さくし、重要度の変化が緩やかな場合には前後に付加する時間幅を大きくしてもよい。また、重要度の変化が非常に大きい場合には、その直後に重要シーンが続いている可能性がある。よって、映像切り出し部33は、重要度の変化が非常に大きい場合には、その前後における重要シーンの有無を考慮して、切り出す部分映像の区間を決定してもよい。例えば、映像切り出し部33は、ある重要シーンの前端又は後端の重要度の変化が所定値より大きい場合、その前後に隣接して重要シーンがあるか否かを判定し、隣接する重要シーンとの時間間隔が所定値以下である場合には、それら2つの重要シーンを含む部分映像を切り出してもよい。
【0045】
イベント区間検出部34は、訓練済みのイベント区間検出モデルを用いて、部分映像D13からイベント区間を検出し、検出結果D14をダイジェスト生成部40へ出力する。検出結果D14は、素材映像から検出された複数のイベント区間の時刻情報、イベントらしさのスコア、タグ情報などを含む。
【0046】
ダイジェスト生成部40には、素材映像D11と、推論部30による検出結果D14とが入力される。ダイジェスト生成部40は、検出結果D14が示すイベント区間の映像を素材映像D11から切り出し、時系列に並べてダイジェスト映像を生成する。こうして、訓練済みのイベント区間検出モデルを用いて、ダイジェスト映像を生成することができる。
【0047】
上記の構成において、入力部31は取得手段の一例であり、重要シーン検出部32は重要シーン検出手段の一例であり、映像切り出し部33は映像切り出し手段の一例であり、イベント区間検出部34はイベント区間検出手段の一例であり、ダイジェスト生成部40はダイジェスト生成手段の一例である。
【0048】
(ダイジェスト生成処理)
図9は、第1実施形態のダイジェスト生成装置100によるダイジェスト生成処理のフローチャートである。この処理は、
図6に示すプロセッサ12が、予め用意されたプログラムを実行し、
図8に示す各要素として動作することにより実現される。
【0049】
まず、入力部31が素材映像D11を取得する(ステップS31)。重要シーン検出部32は、素材映像D11から重要シーンを検出し、重要シーン情報D12を映像切り出し部33へ出力する(ステップS32)。次に、映像切り出し部33は、重要シーン情報D12に基づいて、素材映像D11から重要シーンに対応する部分映像D13を切り出し、イベント区間検出部34へ出力する(ステップS33)。
【0050】
次に、イベント区間検出部34は、訓練済みのイベント区間検出モデルを用いて部分映像D13からイベント区間を検出し、検出結果D14をダイジェスト生成部40へ出力する(ステップS34)。ダイジェスト生成部40は、素材映像D11と検出結果D14とに基づいて、ダイジェスト映像を生成する(ステップS35)。そして、処理は終了する。
【0051】
このように、第1実施形態のダイジェスト生成装置100によれば、素材映像のうち重要シーンを含む映像部分のみをイベント区間検出部34の処理対象とするので、素材映像全体からイベント区間を検出する場合と比較して、イベント区間を検出する処理の効率を改善することができる。
【0052】
[第2実施形態]
次に、ダイジェスト生成装置の第2実施形態について説明する。第2実施形態のダイジェスト生成装置100xのハードウェア構成は、
図6に示す第1実施形態のものと同様であるので、説明を省略する。
【0053】
(イベント区間の検出方法)
図10は、第2実施形態のダイジェスト生成装置100xによるイベント区間の検出方法を模式的に示す。第2実施形態では、ダイジェスト生成装置100xは、まず、訓練済みのイベント区間検出モデルMEを用いて素材映像から複数のイベント区間候補Eを検出する。次に、ダイジェスト生成装置100xは、得られたイベント区間候補Eについて、重要シーン検出モデルを用いて重要度を算出し、重要度が所定の閾値より高いイベント区間候補Eを、イベント区間として選択する。
【0054】
具体的には、素材映像が訓練済みのイベント区間検出モデルMEに入力される。イベント区間検出モデルMEは、素材映像からイベント区間候補Eを検出する。ダイジェスト生成装置100は、検出された複数のイベント区間候補Eを訓練済みの重要シーン検出モデルMIに入力する。重要シーン検出モデルMIは、入力された各イベント区間候補Eの重要度を算出し、所定の閾値以上のイベント区間候補を、イベント区間として選択する。これにより、イベント区間候補Eのうち、重要度が高いものが最終的なイベント区間として選択される。よって、イベント区間候補Eとして検出されたシーンであっても、重要度が高くないシーンはダイジェスト映像から除外することができる。なお、ダイジェスト生成装置100xは、同一の時刻に対応して複数のイベント区間候補Eが検出された場合には、重要度が最も高いイベント区間候補Eをイベント区間として選択すればよい。
【0055】
(機能構成)
図11は、第2実施形態に係るダイジェスト生成装置100xの機能構成を示すブロック図である。ダイジェスト生成装置100xは、推論部30xと、ダイジェスト生成部40とを備える。推論部30xは、入力部31と、候補検出部35と、重要シーン検出部36と、選択部37とを備える。
【0056】
入力部31には、素材映像D11が入力される。入力部31は、素材映像D11を候補検出部35へ出力する。
【0057】
候補検出部35は、訓練済みのイベント区間検出モデルを用いて、素材映像D11からイベント区間候補Eを検出し、イベント区間候補情報D16を重要シーン検出部36へ出力する。重要シーン検出部36は、入力された各イベント区間候補Eについて重要度を算出し、重要度情報D17として選択部37へ出力する。
【0058】
選択部37は、各イベント区間候補Eの重要度に基づいてイベント区間を選択する。具体的には、選択部37は、重要度が所定の閾値以上であるイベント区間候補Eをイベント区間として選択し、検出結果D18としてダイジェスト生成部40へ出力する。ダイジェスト生成部40は、第1実施形態と同様であり、素材映像D11と検出結果D18とを用いて、ダイジェスト映像を生成する。
【0059】
上記の構成において、入力部31は取得手段の一例であり、重要シーン検出部36は重要シーン検出手段の一例であり、候補検出部35及び選択部37はイベント区間検出手段の一例であり、ダイジェスト生成部40はダイジェスト生成手段の一例である。
【0060】
(ダイジェスト生成処理)
図12は、第2実施形態のダイジェスト生成装置100xにより実行されるダイジェスト生成処理のフローチャートである。この処理は、
図6に示すプロセッサ12が、予め用意されたプログラムを実行し、
図11に示す各要素として動作することにより実現される。
【0061】
まず、入力部31が素材映像D11を取得する(ステップS41)。候補検出部35は、訓練済みのイベント区間検出モデルを用いて素材映像からイベント区間候補Eを検出し、イベント区間候補情報D16を重要シーン検出部36へ出力する(ステップS42)。次に、重要シーン検出部36は、各イベント区間候補Eの重要度を算出し、重要度情報D17を選択部37へ出力する(ステップS43)。
【0062】
選択部37は、重要度が所定の閾値以上であるイベント区間候補Eをイベント区間として選択し、検出結果D18としてダイジェスト生成部40へ出力する(ステップS44)。ダイジェスト生成部40は、素材映像D11と検出結果D18とに基づいて、ダイジェスト映像を生成する(ステップS45)。そして、処理は終了する。
【0063】
このように、第2実施形態のダイジェスト生成装置100xによれば、素材映像から検出された複数のイベント区間候補から、重要度に基づいて適切なイベント区間候補を選択してダイジェスト映像を作成することができる。
【0064】
[第3実施形態]
次に、第3実施形態に係る情報処理装置について説明する。
図13は、第3実施形態に係る情報処理装置の機能構成を示すブロック図である。図示のように、情報処理装置70は、取得手段71と、重要シーン検出手段72と、イベント区間検出手段73とを備える。
【0065】
図14は、情報処理装置70による処理のフローチャートである。取得手段71は、素材映像を取得する(ステップS71)。重要シーン検出手段72は、素材映像中の重要シーンを検出する(ステップS72)。イベント区間検出手段73は、重要シーンの検出結果を用いて、素材映像中のイベント区間を検出する(ステップS73)。
【0066】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0067】
(付記1)
素材映像を取得する取得手段と、
前記素材映像中の重要シーンを検出する重要シーン検出手段と、
前記重要シーンの検出結果を用いて、前記素材映像中のイベント区間を検出するイベント区間検出手段と、
を備える情報処理装置。
【0068】
(付記2)
前記素材映像における重要シーンを含む部分を切り出して部分映像を生成する映像切り出し手段を備え、
前記イベント区間検出手段は、前記部分映像から前記イベント区間を検出する付記1に記載の情報処理装置。
【0069】
(付記3)
前記映像切り出し手段は、前記重要シーンの前後に所定の時間幅を付加した範囲を前記部分映像として切り出す付記2に記載の情報処理装置。
【0070】
(付記4)
前記重要シーン検出手段は、前記素材映像に含まれるシーンの重要度を算出し、
前記映像切り出し手段は、前記重要シーンの重要度の値又は重要度の値の変化に基づいて、前記部分映像として切り出す範囲を変更する付記3に記載の情報処理装置。
【0071】
(付記5)
前記イベント区間検出手段は、前記素材映像から複数のイベント区間候補を検出し、前記重要シーンの検出結果に基づいて、前記複数のイベント区間候補からイベント区間を選択する付記1に記載の情報処理装置。
【0072】
(付記6)
前記重要シーン検出手段は、前記複数のイベント区間候補の重要度を算出し、
前記イベント区間検出手段は、前記重要度が所定値以上であるイベント区間候補をイベント区間として選択する付記5に記載の情報処理装置。
【0073】
(付記7)
前記イベント区間検出手段は、同一の時刻に対応するイベント区間候補を複数検出した場合、前記重要度が最も高いイベント区間候補をイベント区間として選択する付記6に記載の情報処理装置。
【0074】
(付記8)
前記素材映像と、前記イベント区間検出手段が検出したイベント区間とに基づいて、イベント区間の映像を時系列につなげてダイジェスト映像を生成するダイジェスト生成手段を備える付記1乃至7のいずれか一項に記載の情報処理装置。
【0075】
(付記9)
素材映像を取得し、
前記素材映像中の重要シーンを検出し、
前記重要シーンの検出結果を用いて、前記素材映像中のイベント区間を検出する情報処理方法。
【0076】
(付記10)
素材映像を取得し、
前記素材映像中の重要シーンを検出し、
前記重要シーンの検出結果を用いて、前記素材映像中のイベント区間を検出する処理をコンピュータに実行させるプログラムを記録した記録媒体。
【0077】
以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【符号の説明】
【0078】
12 プロセッサ
21、31 入力部
22 映像マッチング部
23 区間情報生成部
24 訓練データ生成部
25 訓練部
30、30x 推論部
32、36重要シーン検出部
33 映像切り出し部
34 イベント区間検出部
35 候補検出部
37 選択部
40 ダイジェスト生成部
100、100x ダイジェスト生成装置
200 訓練装置