(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-09
(45)【発行日】2024-09-18
(54)【発明の名称】情報処理装置、情報処理方法、及び、プログラム
(51)【国際特許分類】
H04N 5/91 20060101AFI20240910BHJP
【FI】
H04N5/91
(21)【出願番号】P 2022573844
(86)(22)【出願日】2021-01-06
(86)【国際出願番号】 JP2021000216
(87)【国際公開番号】W WO2022149218
(87)【国際公開日】2022-07-14
【審査請求日】2023-07-04
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100107331
【氏名又は名称】中村 聡延
(74)【代理人】
【識別番号】100104765
【氏名又は名称】江上 達夫
(74)【代理人】
【識別番号】100131015
【氏名又は名称】三輪 浩誉
(72)【発明者】
【氏名】鍋藤 悠
(72)【発明者】
【氏名】渡辺 はるな
(72)【発明者】
【氏名】白石 壮馬
【審査官】鈴木 順三
(56)【参考文献】
【文献】特開2019-110421(JP,A)
【文献】特開2008-227860(JP,A)
【文献】特開2014-022837(JP,A)
【文献】特開2010-028651(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 5/76 - 5/956
(57)【特許請求の範囲】
【請求項1】
素材映像を取得する取得手段と、
前記素材映像から対象物の画像を検出する画像認識手段と、
前記素材映像から前記対象物の画像を含む部分を切り出して部分映像を生成する映像切り出し手段と、
前記対象物の画像の検出結果を用いて、
前記部分映像から前記素材映像中のイベント区間を検出するイベント区間検出手段と、
を備え
、
前記映像切り出し手段は、前記対象物の画像の前後に所定の時間幅を付加した範囲を前記部分映像として切り出す情報処理装置。
【請求項2】
前記イベント区間検出手段は、前記素材映像から複数のイベント区間候補を検出し、前記対象物の画像の検出結果に基づいて、前記複数のイベント区間候補からイベント区間を選択する請求項1に記載の情報処理装置。
【請求項3】
前記画像認識手段は、前記複数のイベント区間候補において前記対象物が含まれる度合いを示すスコアを算出し、
前記イベント区間検出手段は、前記スコアが所定値以上であるイベント区間候補をイベント区間として選択する請求項
2に記載の情報処理装置。
【請求項4】
前記イベント区間検出手段は、同一の時刻に対応するイベント区間候補を複数検出した場合、前記スコアが最も高いイベント区間候補をイベント区間として選択する請求項
3に記載の情報処理装置。
【請求項5】
前記素材映像と、前記イベント区間検出手段が検出したイベント区間とに基づいて、イベント区間の映像を時系列につなげてダイジェスト映像を生成するダイジェスト生成手段を備える請求項1乃至
4のいずれか一項に記載の情報処理装置。
【請求項6】
コンピュータにより実行される情報処理方法であって、
素材映像を取得し、
前記素材映像から対象物の画像を検出し、
前記素材映像から前記対象物の画像を含む部分を切り出して部分映像を生成し、
前記対象物の画像の検出結果を用いて、
前記部分映像から前記素材映像中のイベント区間を検出
し、
前記部分映像の生成においては、前記対象物の画像の前後に所定の時間幅を付加した範囲が前記部分映像として切り出される情報処理方法。
【請求項7】
素材映像を取得し、
前記素材映像から対象物の画像を検出し、
前記素材映像から前記対象物の画像を含む部分を切り出して部分映像を生成し、
前記対象物の画像の検出結果を用いて、
前記部分映像から前記素材映像中のイベント区間を検出する処理をコンピュータに実行させ
、
前記部分映像の生成においては、前記対象物の画像の前後に所定の時間幅を付加した範囲が前記部分映像として切り出されるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像データの処理に関する。
【背景技術】
【0002】
動画像から映像ダイジェストを生成する技術が提案されている。特許文献1には、予め準備されたトレーニング動画像及びユーザが指定した重要シーン動画像から学習データファイルを作成し、当該学習データファイルに基づき、対象の動画像から重要シーンの検出を行うハイライト抽出装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
素材映像からダイジェスト映像を作成する場合、特定の対象物が映っている部分を集めてダイジェスト映像を作りたい場合がある。例えば、スポーツの映像において特定の注目選手が登場するシーンを集めてダイジェスト映像を作成したい場合や、カーレースにおいて特定の車両の走行シーンを集めてダイジェスト映像を作成したい場合などがある。
【0005】
本発明の1つの目的は、素材映像中の特定の対象物に注目してダイジェスト映像を作成することが可能な情報処理装置を提供することにある。
【課題を解決するための手段】
【0006】
本発明の一つの観点では、情報処理装置は、
素材映像を取得する取得手段と、
前記素材映像から対象物の画像を検出する画像認識手段と、
前記素材映像から前記対象物の画像を含む部分を切り出して部分映像を生成する映像切り出し手段と、
前記対象物の画像の検出結果を用いて、前記部分映像から前記素材映像中のイベント区間を検出するイベント区間検出手段と、
を備え、
前記映像切り出し手段は、前記対象物の画像の前後に所定の時間幅を付加した範囲を前記部分映像として切り出す。
【0007】
本発明の他の観点では、コンピュータにより実行される情報処理方法は、
素材映像を取得し、
前記素材映像から対象物の画像を検出し、
前記素材映像から前記対象物の画像を含む部分を切り出して部分映像を生成し、
前記対象物の画像の検出結果を用いて、前記部分映像から前記素材映像中のイベント区間を検出し、
前記部分映像の生成においては、前記対象物の画像の前後に所定の時間幅を付加した範囲が前記部分映像として切り出される。
【0008】
本発明のさらに他の観点では、プログラムは、
素材映像を取得し、
前記素材映像から対象物の画像を検出し、
前記素材映像から前記対象物の画像を含む部分を切り出して部分映像を生成し、
前記対象物の画像の検出結果を用いて、前記部分映像から前記素材映像中のイベント区間を検出する処理をコンピュータに実行させ、
前記部分映像の生成においては、前記対象物の画像の前後に所定の時間幅を付加した範囲が前記部分映像として切り出される。
【発明の効果】
【0009】
本発明によれば、素材映像中の特定の対象物に注目してダイジェスト映像を作成することが可能となる。
【図面の簡単な説明】
【0010】
【
図2】ダイジェスト映像、及び、イベント区間の例を示す。
【
図3】イベント区間検出モデルの訓練データの生成方法を説明する図である。
【
図4】イベント区間検出モデルの訓練装置の機能構成を示すブロック図である。
【
図5】ダイジェスト生成装置のハードウェア構成を示すブロック図である。
【
図6】第1実施形態のダイジェスト生成装置によるイベント区間の検出方法を模式的に示す。
【
図7】第1実施形態のダイジェスト生成装置の機能構成を示すブロック図である。
【
図8】第1実施形態のダイジェスト生成装置によるダイジェスト生成処理のフローチャートである。
【
図9】第2実施形態のダイジェスト生成装置によるイベント区間の検出方法を模式的に示す。
【
図10】第2実施形態のダイジェスト生成装置の機能構成を示すブロック図である。
【
図11】第2実施形態のダイジェスト生成装置により実行されるダイジェスト生成処理のフローチャートである。
【
図12】第3実施形態の情報処理装置の機能構成を示すブロック図である。
【
図13】第3実施形態の情報処理装置による処理のフローチャートである。
【発明を実施するための形態】
【0011】
以下、図面を参照して、本発明の好適な実施形態について説明する。
<ダイジェスト生成装置の基本概念>
図1は、ダイジェスト生成装置の基本概念を示す。ダイジェスト生成装置100は、素材映像データベース(以下、「データベース」を「DB」とも記す。)2に接続されている。素材映像DB2は、各種の素材映像、即ち、動画像を記憶している。素材映像は、例えば放送局から放送されるテレビ番組などの映像でもよく、インターネットなどで配信されている映像でもよい。なお、素材映像は、音声を含んでいてもよく、含んでいなくてもよい。
【0012】
ダイジェスト生成装置100は、素材映像DB2に保存されている素材映像の一部を用いたダイジェスト映像を生成し、出力する。ダイジェスト映像は、素材映像において何らかのイベントが発生したシーンを時系列につなげた映像である。ダイジェスト生成装置100は、後述するように、機械学習により訓練済みのイベント区間検出モデルを用いて素材映像からイベント区間を検出し、イベント区間を時系列につなげてダイジェスト映像を生成する。イベント区間検出モデルは、素材映像からイベントの区間を検出するモデルであり、例えば、ニューラルネットワークを用いたモデルを用いることができる。
【0013】
図2(A)は、ダイジェスト映像の例を示す。
図2(A)の例では、ダイジェスト生成装置100は、素材映像に含まれるイベント区間A~Dを抽出し、これらを時系列につなげてダイジェスト映像を生成する。なお、素材映像から抽出されたイベント区間は、その内容次第で、ダイジェスト映像中で繰り返し使用されてもよい。
【0014】
図2(B)は、イベント区間の例を示す。イベント区間は、素材映像において何らかのイベントが起きたシーンに対応する複数のフレーム画像により構成される。イベント区間は、その始点及び終点により規定される。なお、終点の代わりに、イベント区間の長さを用いてイベント区間を規定してもよい。
【0015】
<イベント区間検出モデル>
次に、イベント区間検出モデルについて説明する。
(訓練データの生成方法)
図3(A)は、イベント区間検出モデルの訓練に使用する訓練データの生成方法を説明する図である。まず、既存のダイジェスト映像が用意される。このダイジェスト映像は、適切な内容を含むものとして既に作成済みのダイジェスト映像であり、適切な箇所で区切られた複数のイベント区間A~Cを含んでいる。
【0016】
イベント区間検出モデルの訓練装置は、素材映像とダイジェストとのマッチングを行い、ダイジェスト映像に含まれるイベント区間と同一内容の区間を素材映像から検出し、そのイベント区間の始点及び終点の時刻情報を取得する。なお、終点の代わりに、始点からの時間幅を用いてもよい。時刻情報は、素材映像におけるタイムコードやフレーム番号などとすることができる。
図3(A)の例では、ダイジェスト映像のイベント区間A~Cに対応して、素材映像からイベント区間1~3が検出されている。
【0017】
なお、訓練装置は、素材映像とダイジェスト映像の内容が一致している一致区間の間に、僅かに内容が不一致の区間が存在したとしても、その不一致の区間が所定の時間幅(例えば1秒など)以下である場合には、その不一致の区間を前後の一致区間と一体として1つの一致区間としてもよい。
図3(A)の例では、素材映像のイベント区間3には、ダイジェスト映像中のイベント区間Cと一致しない不一致区間90があるが、不一致区間90の時間幅が所定値以下であるため、イベント区間3に含められている。
【0018】
訓練装置は、素材映像に含まれるイベントの時刻及びイベント名(イベントクラス)を含むメタ情報がある場合には、メタ情報を用いて、各イベント区間にイベント名を示すタグ情報を付与してもよい。
図3(B)は、メタ情報を用いてタグ情報を付与する例を示す。メタ情報には、時刻t
1のイベント名「三振」、時刻t
2のイベント名「ヒット」、時刻t
3のイベント名「ホームラン」を含んでいる。この場合、訓練装置は、素材映像から検出されたイベント区間1にタグ情報「三振」を付与し、イベント区間2にタグ情報「ヒット」を付与し、イベント区間3にタグ情報「ホームラン」を付与する。付与されたタグ情報は、訓練データにおける正解データの一部として使用される。
【0019】
上記の例では、イベント名を含むメタ情報を用いて各イベント区間にタグ情報を付与しているが、その代わりに、人間がダイジェスト映像を構成する各イベントを目視してダイジェスト映像にタグ情報を付与してもよい。その場合には、訓練装置は、素材映像とダイジェスト映像とのマッチングにより得られた対応関係に基づいて、ダイジェスト映像のイベント区間に付与されているタグ情報を、それと対応する素材映像のイベント区間に反映すればよい。例えば、
図3(B)の例において、ダイジェスト映像のイベント区間Aにタグ情報「三振」が付与されている場合、訓練装置は、それに対応する素材映像のイベント区間1にタグ情報「三振」を付加すればよい。
【0020】
(訓練装置の構成)
図4は、イベント区間検出モデルの訓練装置200の機能構成を示すブロック図である。訓練装置200は、入力部21と、映像マッチング部22と、区間情報生成部23と、訓練データ生成部24と、訓練部25とを備える。
【0021】
入力部21には、素材映像D1と、ダイジェスト映像D2とが入力される。素材映像D1は、訓練データの元になる映像である。入力部21は、素材映像D1を訓練データ生成部24へ出力し、素材映像D1とダイジェスト映像D2を映像マッチング部22へ出力する。
【0022】
映像マッチング部22は、
図3(A)に例示したように、素材映像D1とダイジェスト映像D2のマッチングを行い、映像の内容が一致している区間である一致区間を示す一致区間情報D3を生成して区間情報生成部23へ出力する。
【0023】
区間情報生成部23は、一致区間情報D3に基づいて、一連のシーンとなる区間情報を生成する。具体的に、区間情報生成部23は、ある一致区間が所定の時間幅以上である場合、その一致区間をイベント区間と決定し、そのイベント区間の区間情報D4を訓練データ生成部24へ出力する。また、前述のように、連続する2つの一致区間の間にある不一致区間の時間が所定の閾値以下である場合、区間情報生成部23は、前後の一致区間とその不一致区間との全体を1つのイベント区間と決定する。区間情報D4は、素材映像D1におけるそのイベント区間を示す時刻情報を含む。具体的に、イベント区間を示す時刻情報は、イベント区間の始点と終点の時刻、又は、始点の時刻とイベント区間の時間幅を含む。
【0024】
訓練データ生成部24は、素材映像D1と、区間情報D4とに基づいて、訓練データを生成する。具体的に、訓練データ生成部24は、素材映像D1から区間情報D4が示すイベント区間に対応する部分を切り出した映像を訓練用映像とする。具体的には、訓練データ生成部24は、イベント区間の前後にある程度の幅を持たせて素材映像D1から映像を切り出す。この場合、訓練データ生成部24は、イベント区間の前後に持たせる幅をランダムに決定してもよく、予め指定した長さとしてもよい。イベント区間の前と後に付加する幅は同一でもよく、異なってもよい。また、訓練データ生成部24は、区間情報D4が示すイベント区間の時刻情報を正解データとする。こうして、訓練データ生成部24は、素材映像D1に含まれる各イベント区間について、訓練用映像と正解データとのセットである訓練データD5を生成し、訓練部25へ出力する。
【0025】
訓練部25は、訓練データ生成部24が生成した訓練データD5を用いて、イベント区間検出モデルを訓練する。具体的には、訓練部25は、訓練用映像をイベント区間検出モデルに入力し、イベント区間検出モデルの出力を正解データと比較し、その誤差に基づいてイベント区間検出モデルを最適化する。訓練部25は、複数の素材映像から生成された複数の訓練データD5を用いてイベント区間検出モデルを訓練し、所定の終了条件が具備されたときに、訓練を終了する。こうして得られた訓練済みのイベント区間検出モデルは、入力された素材映像から適切にイベント区間を検出し、その区間を示す時刻情報、イベントらしさのスコア、イベント名を示すタグ情報などを含む検出結果を出力できるようになる。
【0026】
<ダイジェスト生成装置>
次に、上記の訓練済みのイベント区間検出モデルを用いたダイジェスト生成装置について説明する。本実施形態では、素材映像中に含まれる対象物の画像を画像認識により検出し、イベント区間検出モデルと組み合わせてダイジェスト映像を作成する。
【0027】
[第1実施形態]
まず、第1実施形態に係るダイジェスト生成装置について説明する。
(ハードウェア構成)
図5は、第1実施形態に係るダイジェスト生成装置100のハードウェア構成を示すブロック図である。図示のように、ダイジェスト生成装置100は、インタフェース(IF)11と、プロセッサ12と、メモリ13と、記録媒体14と、データベース(DB)15とを備える。
【0028】
IF11は、外部装置との間でデータの入出力を行う。具体的に、素材映像DB2に保存されている素材映像はIF11を介してダイジェスト生成装置100に入力される。また、ダイジェスト生成装置100により生成されたダイジェスト映像は、IF11を通じて外部装置へ出力される。
【0029】
プロセッサ12は、CPU(Central Processing Unit)などのコンピュータであり、予め用意されたプログラムを実行することにより、ダイジェスト生成装置100の全体を制御する。具体的に、プロセッサ12は、後述するダイジェスト生成処理を実行する。
【0030】
メモリ13は、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。メモリ13は、プロセッサ12による各種の処理の実行中に作業メモリとしても使用される。
【0031】
記録媒体14は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、ダイジェスト生成装置100に対して着脱可能に構成される。記録媒体14は、プロセッサ12が実行する各種のプログラムを記録している。ダイジェスト生成装置100が各種の処理を実行する際には、記録媒体14に記録されているプログラムがメモリ13にロードされ、プロセッサ12により実行される。
【0032】
データベース15は、IF11を通じて入力された素材映像、ダイジェスト生成装置100が生成したダイジェスト映像などを一時的に記憶する。また、データベース15は、ダイジェスト生成装置100が使用する訓練済みのイベント区間検出モデルの情報、訓練済みの重要シーン検出モデルの情報、各モデルの訓練に用いられる訓練データセットなどを記憶する。なお、ダイジェスト生成装置100は、作成者が指示や入力を行うためのキーボード、マウスなどの入力部、及び、液晶ディスプレイなどの表示部を備えていてもよい。
【0033】
(イベント区間の検出方法)
図6は、第1実施形態のダイジェスト生成装置100によるイベント区間の検出方法を模式的に示す。第1実施形態では、まず、素材映像から特定の対象物の画像を検出し、検出された対象物の画像を含む部分映像をイベント区間検出モデルに入力してイベント区間を検出する。
【0034】
具体的には、素材映像が訓練済みの画像認識モデルMIに入力される。画像認識モデルMIは、例えばニューラルネットワークを利用した画像認識モデルにより構成され、入力画像に含まれる特定の対象物を認識するように訓練済みである。画像認識モデルMIは、素材映像から対象物を含むフレーム画像を検出し、素材映像におけるそのフレーム画像又はフレーム画像群の位置を示す時刻情報などを検出する。ダイジェスト生成装置100は、検出された対象物の画像を含む部分映像を素材映像から切り出し、訓練済みのイベント区間検出モデルMEに入力する。イベント区間検出モデルMEは、入力された部分映像からイベント区間を検出する。
【0035】
(機能構成)
図7は、第1実施形態に係るダイジェスト生成装置100の機能構成を示すブロック図である。ダイジェスト生成装置100は、推論部30と、ダイジェスト生成部40とを備える。推論部30は、入力部31と、画像認識部32と、映像切り出し部33と、イベント区間検出部34とを備える。
【0036】
入力部31には、素材映像D11が入力される。入力部31は、素材映像D11を画像認識部32及び映像切り出し部33へ出力する。
【0037】
画像認識部32は、訓練済みの画像認識モデルを用いて、素材映像D11から対象物を検出し、対象物を含む画像を示す対象物画像情報D12を映像切り出し部33へ出力する。対象物画像情報D12は、例えば、検出された対象物を含むフレーム画像の時刻、又は、対象物を含むシーン(フレーム画像群)の始点と終点の時刻を含む。
【0038】
映像切り出し部33は、素材映像D11から、対象物を含む部分の映像を切り出し、部分映像D13としてイベント区間検出部34へ出力する。一例では、映像切り出し部33は、対象物画像情報D12が示すフレーム画像又はシーンの前後にそれぞれ所定時間幅の区間を付加した範囲を部分映像として切り出す。この場合、対象物を含む画像又はシーンの前後に付加する時間幅は異なってもよい。
【0039】
イベント区間検出部34は、訓練済みのイベント区間検出モデルを用いて、部分映像D13からイベント区間を検出し、検出結果D14をダイジェスト生成部40へ出力する。検出結果D14は、素材映像から検出された複数のイベント区間の時刻情報、イベントらしさのスコア、タグ情報などを含む。
【0040】
ダイジェスト生成部40には、素材映像D11と、推論部30による検出結果D14とが入力される。ダイジェスト生成部40は、検出結果D14が示すイベント区間の映像を素材映像D11から切り出し、時系列に並べてダイジェスト映像を生成する。こうして、訓練済みのイベント区間検出モデルを用いて、ダイジェスト映像を生成することができる。
【0041】
上記の構成において、入力部31は取得手段の一例であり、画像認識部32は画像認識手段の一例であり、映像切り出し部33は映像切り出し手段の一例であり、イベント区間検出部34はイベント区間検出手段の一例であり、ダイジェスト生成部40はダイジェスト生成手段の一例である。
【0042】
(ダイジェスト生成処理)
図8は、第1実施形態のダイジェスト生成装置100によるダイジェスト生成処理のフローチャートである。この処理は、
図5に示すプロセッサ12が、予め用意されたプログラムを実行し、
図7に示す各要素として動作することにより実現される。
【0043】
まず、入力部31が素材映像D11を取得する(ステップS31)。画像認識部32は、素材映像D11から対象物を含む画像又はシーンを検出し、対象物画像情報D12を映像切り出し部33へ出力する(ステップS32)。次に、映像切り出し部33は、対象物画像情報D12に基づいて、素材映像D11から対象物を含むフレーム画像又はシーンに対応する部分映像D13を切り出し、イベント区間検出部34へ出力する(ステップS33)。
【0044】
次に、イベント区間検出部34は、訓練済みのイベント区間検出モデルを用いて部分映像D13からイベント区間を検出し、検出結果D14をダイジェスト生成部40へ出力する(ステップS34)。ダイジェスト生成部40は、素材映像D11と検出結果D14とに基づいて、ダイジェスト映像を生成する(ステップS35)。そして、処理は終了する。
【0045】
このように、第1実施形態のダイジェスト生成装置100によれば、素材映像のうち対象物が含まれる映像部分からイベント区間が検出されるので、対象物を含むシーンを集めたダイジェスト映像を生成することができる。
【0046】
(変形例)
上記の実施形態では、画像認識部32は、素材映像を構成する全てのフレーム画像に対して画像認識処理を行っているが、その代わりに、素材映像を所定の割合で間引いてから画像認識を行ってもよい。具体的には、素材画像から数フレーム毎又は数秒毎にフレーム画像を抽出した間引き素材画像を生成し、この間引き素材画像に対して画像認識処理を行ってもよい。これにより、画像認識処理を効率化、高速化することができる。
【0047】
[第2実施形態]
次に、ダイジェスト生成装置の第2実施形態について説明する。第2実施形態のダイジェスト生成装置100xのハードウェア構成は、
図5に示す第1実施形態のものと同様であるので、説明を省略する。
【0048】
(イベント区間の検出方法)
図9は、第2実施形態のダイジェスト生成装置100xによるイベント区間の検出方法を模式的に示す。第2実施形態では、ダイジェスト生成装置100xは、まず、訓練済みのイベント区間検出モデルMEを用いて素材映像から複数のイベント区間候補Eを検出する。次に、ダイジェスト生成装置100xは、得られた各イベント区間候補Eから、画像認識モデルを用いて対象物の画像を検出し、対象物の画像を含む度合いを示すスコアが所定の閾値より高いイベント区間候補Eを、イベント区間として選択する。
【0049】
具体的には、素材映像が訓練済みのイベント区間検出モデルMEに入力される。イベント区間検出モデルMEは、素材映像からイベント区間候補Eを検出する。ダイジェスト生成装置100は、検出された複数のイベント区間候補Eを訓練済みの画像認識モデルMIに入力する。画像認識モデルMIは、特定の対象物を認識するように訓練済みであり、入力された各イベント区間候補Eに対象物が含まれる度合いを示すスコア(以下、「対象物スコア」とも呼ぶ。)を算出し、スコアが所定の閾値以上であるイベント区間候補Eをイベント区間として選択する。これにより、イベント区間候補Eのうち、対象物が含まれる確率が高いものが最終的なイベント区間として選択される。なお、ダイジェスト生成装置100xは、同一の時刻に対応して複数のイベント区間候補Eが検出された場合には、対象物スコアが最も高いイベント区間候補Eをイベント区間として選択すればよい。
【0050】
(機能構成)
図10は、第2実施形態に係るダイジェスト生成装置100xの機能構成を示すブロック図である。ダイジェスト生成装置100xは、推論部30xと、ダイジェスト生成部40とを備える。推論部30xは、入力部31と、候補検出部35と、画像認識部36と、選択部37とを備える。
【0051】
入力部31には、素材映像D11が入力される。入力部31は、素材映像D11を候補検出部35へ出力する。
【0052】
候補検出部35は、訓練済みのイベント区間検出モデルを用いて、素材映像D11からイベント区間候補Eを検出し、イベント区間候補情報D16を画像認識部36へ出力する。画像認識部36は、入力された各イベント区間候補Eについて対象物スコアを算出し、スコア情報D17として選択部37へ出力する。
【0053】
選択部37は、各イベント区間候補Eについて算出された対象物スコアに基づいてイベント区間を選択する。具体的には、選択部37は、対象物スコアが所定の閾値以上であるイベント区間候補Eをイベント区間として選択し、検出結果D18としてダイジェスト生成部40へ出力する。ダイジェスト生成部40は、第1実施形態と同様であり、素材映像D11と検出結果D18とを用いて、ダイジェスト映像を生成する。
【0054】
上記の構成において、入力部31は取得手段の一例であり、画像認識部36は画像認識手段の一例であり、候補検出部35及び選択部37はイベント区間検出手段の一例であり、ダイジェスト生成部40はダイジェスト生成手段の一例である。
【0055】
(ダイジェスト生成処理)
図11は、第2実施形態のダイジェスト生成装置100xにより実行されるダイジェスト生成処理のフローチャートである。この処理は、
図5に示すプロセッサ12が、予め用意されたプログラムを実行し、
図10に示す各要素として動作することにより実現される。
【0056】
まず、入力部31が素材映像D11を取得する(ステップS41)。候補検出部35は、訓練済みのイベント区間検出モデルを用いて素材映像からイベント区間候補Eを検出し、イベント区間候補情報D16を画像認識部36へ出力する(ステップS42)。次に、画像認識部36は、各イベント区間候補Eについて対象物スコアを算出し、スコア情報D17を選択部37へ出力する(ステップS43)。
【0057】
選択部37は、対象物スコアが所定の閾値以上であるイベント区間候補Eをイベント区間として選択し、検出結果D18としてダイジェスト生成部40へ出力する(ステップS44)。ダイジェスト生成部40は、素材映像D11と検出結果D18とに基づいて、ダイジェスト映像を生成する(ステップS45)。そして、処理は終了する。
【0058】
このように、第2実施形態のダイジェスト生成装置100xによれば、素材映像から検出された複数のイベント区間候補から、対象物スコアに基づいて適切なイベント区間が選択される。よって、対象物を含むシーンを集めたダイジェスト映像を作成することができる。
【0059】
[第3実施形態]
次に、第3実施形態に係る情報処理装置について説明する。
図12は、第3実施形態に係る情報処理装置の機能構成を示すブロック図である。図示のように、情報処理装置70は、取得手段71と、画像認識手段72と、イベント区間検出手段73とを備える。
【0060】
図13は、情報処理装置70による処理のフローチャートである。取得手段71は、素材映像を取得する(ステップS71)。画像認識手段72は、素材映像から対象物の画像を検出する(ステップS72)。イベント区間検出手段73は、対象物の画像の検出結果を用いて、素材映像中のイベント区間を検出する(ステップS73)。
【0061】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0062】
(付記1)
素材映像を取得する取得手段と、
前記素材映像から対象物の画像を検出する画像認識手段と、
前記対象物の画像の検出結果を用いて、前記素材映像中のイベント区間を検出するイベント区間検出手段と、
を備える情報処理装置。
【0063】
(付記2)
前記素材映像から前記対象物の画像を含む部分を切り出して部分映像を生成する映像切り出し手段を備え、
前記イベント区間検出手段は、前記部分映像から前記イベント区間を検出する付記1に記載の情報処理装置。
【0064】
(付記3)
前記映像切り出し手段は、前記対象物の画像の前後に所定の時間幅を付加した範囲を前記部分映像として切り出す付記2に記載の情報処理装置。
【0065】
(付記4)
前記イベント区間検出手段は、前記素材映像から複数のイベント区間候補を検出し、前記対象物の画像の検出結果に基づいて、前記複数のイベント区間候補からイベント区間を選択する付記1に記載の情報処理装置。
【0066】
(付記5)
前記画像認識手段は、前記複数のイベント区間候補において前記対象物が含まれる度合いを示すスコアを算出し、
前記イベント区間検出手段は、前記スコアが所定値以上であるイベント区間候補をイベント区間として選択する付記4に記載の情報処理装置。
【0067】
(付記6)
前記イベント区間検出手段は、同一の時刻に対応するイベント区間候補を複数検出した場合、前記スコアが最も高いイベント区間候補をイベント区間として選択する付記5に記載の情報処理装置。
【0068】
(付記7)
前記素材映像と、前記イベント区間検出手段が検出したイベント区間とに基づいて、イベント区間の映像を時系列につなげてダイジェスト映像を生成するダイジェスト生成手段を備える付記1乃至6のいずれか一項に記載の情報処理装置。
【0069】
(付記8)
素材映像を取得し、
前記素材映像から対象物の画像を検出し、
前記対象物の画像の検出結果を用いて、前記素材映像中のイベント区間を検出する情報処理方法。
【0070】
(付記9)
素材映像を取得し、
前記素材映像から対象物の画像を検出し、
前記対象物の画像の検出結果を用いて、前記素材映像中のイベント区間を検出する処理をコンピュータに実行させるプログラムを記録した記録媒体。
【0071】
以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【符号の説明】
【0072】
12 プロセッサ
21、31 入力部
22 映像マッチング部
23 区間情報生成部
24 訓練データ生成部
25 訓練部
30、30x 推論部
32、36 画像認識部
33 映像切り出し部
34 イベント区間検出部
35 候補検出部
37 選択部
40 ダイジェスト生成部
100、100x ダイジェスト生成装置
200 訓練装置