(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-09
(45)【発行日】2024-09-18
(54)【発明の名称】情報処理装置、情報処理方法、及び、プログラム
(51)【国際特許分類】
H04N 5/91 20060101AFI20240910BHJP
H04N 5/92 20060101ALI20240910BHJP
【FI】
H04N5/91
H04N5/92 010
(21)【出願番号】P 2022573842
(86)(22)【出願日】2021-01-06
(86)【国際出願番号】 JP2021000214
(87)【国際公開番号】W WO2022149216
(87)【国際公開日】2022-07-14
【審査請求日】2023-07-04
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100107331
【氏名又は名称】中村 聡延
(74)【代理人】
【識別番号】100104765
【氏名又は名称】江上 達夫
(74)【代理人】
【識別番号】100131015
【氏名又は名称】三輪 浩誉
(72)【発明者】
【氏名】渡辺 はるな
(72)【発明者】
【氏名】白石 壮馬
(72)【発明者】
【氏名】鍋藤 悠
【審査官】鈴木 順三
(56)【参考文献】
【文献】特開2019-110421(JP,A)
【文献】特開2014-022837(JP,A)
【文献】特開2010-028651(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 5/76 - 5/956
(57)【特許請求の範囲】
【請求項1】
素材映像及びダイジェスト映像を含む複数の映像を取得する取得手段と、
前記素材映像と前記ダイジェスト映像の内容が一致する一致区間を検出する一致区間検出手段と、
前記一致区間に基づいて、前記素材映像から訓練データを生成する訓練データ生成手段と、
を備え
、
前記一致区間検出手段は、連続する一致区間の間にある不一致期間の時間が所定閾値以下である場合、当該連続する一致区間とその間の不一致期間の全体を1つの一致区間として検出する情報処理装置。
【請求項2】
前記訓練データ生成手段は、前記素材映像の前記一致区間に対応する部分を訓練用入力データとし、前記素材映像における前記一致区間の時刻を示す時刻情報を正解データとする訓練データを生成する請求項1に記載の情報処理装置。
【請求項3】
前記取得手段は、前記ダイジェスト映像に含まれるイベントの時刻及び名称を含むイベント情報を取得し、
前記訓練データ生成手段は、前記イベント情報に含まれるイベントの名称をタグ情報として前記訓練データに含める請求項2に記載の情報処理装置。
【請求項4】
コンピュータにより実行される情報処理方法であって、
素材映像及びダイジェスト映像を含む複数の映像を取得し、
前記素材映像と前記ダイジェスト映像の内容が一致する一致区間を検出し、
前記一致区間に基づいて、前記素材映像から訓練データを生成し
、
前記一致区間の検出において、連続する一致区間の間にある不一致期間の時間が所定閾値以下である場合、当該連続する一致区間とその間の不一致期間の全体が1つの一致区間として検出される情報処理方法。
【請求項5】
素材映像及びダイジェスト映像を含む複数の映像を取得し、
前記素材映像と前記ダイジェスト映像の内容が一致する一致区間を検出し、
前記一致区間に基づいて、前記素材映像から訓練データを生成する処理をコンピュータに実行させ
、
前記一致区間の検出において、連続する一致区間の間にある不一致期間の時間が所定閾値以下である場合、当該連続する一致区間とその間の不一致期間の全体が1つの一致区間として検出されるプログラム。
【請求項6】
素材映像と、前記素材映像に含まれるイベントの時刻を含むイベント情報とを取得する取得手段と、
イベント区間を検出する訓練済みモデルを用いて、前記素材映像及び前記イベント情報からイベント区間を検出するイベント区間検出手段と、
を備える情報処理装置。
【請求項7】
前記イベント区間検出手段は、
前記イベント情報に基づいて、前記素材映像における推論対象区間を決定する推論対象区間決定手段と、
前記素材映像から前記推論対象区間を切り出して推論対象データを生成する推論対象データ生成手段と、
前記訓練済みモデルを用いて、推論対象データから前記イベント区間を検出する推論手段と、
を備える請求項
6に記載の情報処理装置。
【請求項8】
コンピュータにより実行される情報処理方法であって、
素材映像と、前記素材映像に含まれるイベントの時刻を含むイベント情報とを取得し、
イベント区間を検出する訓練済みモデルを用いて、前記素材映像及び前記イベント情報からイベント区間を検出する情報処理方法。
【請求項9】
素材映像と、前記素材映像に含まれるイベントの時刻を含むイベント情報とを取得し、
イベント区間を検出する訓練済みモデルを用いて、前記素材映像及び前記イベント情報からイベント区間を検出する処理をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像データの処理に関する。
【背景技術】
【0002】
動画像から映像ダイジェストを生成する技術が提案されている。特許文献1には、予め準備されたトレーニング動画像及びユーザが指定した重要シーン動画像から学習データファイルを作成し、当該学習データファイルに基づき、対象の動画像から重要シーンの検出を行うハイライト抽出装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
素材映像から何らかのイベントが起きた箇所を抽出してダイジェスト映像を作成する場合、個々のイベント全体をうまく切り取ってダイジェスト映像に含めることが好ましい。例えば、野球の試合の素材映像から、打者がホームランを打った部分をイベントとして抽出する場合、打者が打った打球が高く飛んでいるシーンのみでなく、その前後のシーンをまとめてホームランのイベントとして素材映像から抽出し、ダイジェスト映像に含めることが好ましい。
【0005】
本発明の1つの目的は、素材映像中のイベントを、その内容が理解できるような適切な区間で抽出することが可能な情報処理装置を提供することにある。
【課題を解決するための手段】
【0006】
本発明の一つの観点では、情報処理装置は、
素材映像及びダイジェスト映像を含む複数の映像を取得する取得手段と、
前記素材映像と前記ダイジェスト映像の内容が一致する一致区間を検出する一致区間検出手段と、
前記一致区間に基づいて、前記素材映像から訓練データを生成する訓練データ生成手段と、
を備え、
前記一致区間検出手段は、連続する一致区間の間にある不一致期間の時間が所定閾値以下である場合、当該連続する一致区間とその間の不一致期間の全体を1つの一致区間として検出する。
【0007】
本発明の他の観点では、コンピュータにより実行される情報処理方法は、
素材映像及びダイジェスト映像を含む複数の映像を取得し、
前記素材映像と前記ダイジェスト映像の内容が一致する一致区間を検出し、
前記一致区間に基づいて、前記素材映像から訓練データを生成し、
前記一致区間の検出において、連続する一致区間の間にある不一致期間の時間が所定閾値以下である場合、当該連続する一致区間とその間の不一致期間の全体が1つの一致区間として検出される。
【0008】
本発明のさらに他の観点では、プログラムは、
素材映像及びダイジェスト映像を含む複数の映像を取得し、
前記素材映像と前記ダイジェスト映像の内容が一致する一致区間を検出し、
前記一致区間に基づいて、前記素材映像から訓練データを生成する処理をコンピュータに実行させ、
前記一致区間の検出において、連続する一致区間の間にある不一致期間の時間が所定閾値以下である場合、当該連続する一致区間とその間の不一致期間の全体が1つの一致区間として検出される。
【0009】
本発明の一つの観点では、情報処理装置は、
素材映像と、前記素材映像に含まれるイベントの時刻を含むイベント情報とを取得する取得手段と、
イベント区間を検出する訓練済みモデルを用いて、前記素材映像及び前記イベント情報に基づき、前記素材映像からイベント区間を検出するイベント区間検出手段と、を備える。
【0010】
本発明の他の観点では、コンピュータにより実行される情報処理方法は、
素材映像と、前記素材映像に含まれるイベントの時刻を含むイベント情報とを取得し、
イベント区間を検出する訓練済みモデルを用いて、前記素材映像及び前記イベント情報からイベント区間を検出する。
【0011】
本発明のさらに他の観点では、プログラムは、
素材映像と、前記素材映像に含まれるイベントの時刻を含むイベント情報とを取得し、
イベント区間を検出する訓練済みモデルを用いて、前記素材映像及び前記イベント情報に基づき、前記素材映像からイベント区間を検出する処理をコンピュータに実行させる。
【発明の効果】
【0012】
本発明によれば、素材映像中のイベントを、その内容が理解できるような適切な区間で抽出することが可能となる。
【図面の簡単な説明】
【0013】
【
図2】ダイジェスト映像、及び、イベント区間の例を示す。
【
図4】訓練装置のハードウェア構成を示すブロック図である。
【
図5】イベント区間検出モデルの訓練データの生成方法を説明する図である。
【
図6】訓練装置の機能構成を示すブロック図である。
【
図7】訓練装置より実行される訓練処理のフローチャートである。
【
図8】第1実施例のダイジェスト生成装置の機能構成を示すブロック図である。
【
図9】第2実施例におけるダイジェスト映像の生成方法を模式的に示す。
【
図10】第2実施例のダイジェスト生成装置の機能構成を示すブロック図である。
【
図11】第2実施例のダイジェスト生成処理のフローチャートである。
【
図12】第3実施例におけるダイジェスト映像の生成方法を模式的に示す。
【
図13】第3実施例のダイジェスト生成装置の機能構成を示すブロック図である。
【
図14】第3実施例のダイジェスト生成処理のフローチャートである。
【
図15】第2実施形態の情報処理装置の機能構成を示すブロック図である。
【
図16】第2実施形態の情報処理装置による処理のフローチャートである。
【
図17】第3実施形態の情報処理装置の機能構成を示すブロック図である。
【
図18】第3実施形態の情報処理装置による処理のフローチャートである。
【発明を実施するための形態】
【0014】
以下、図面を参照して、本発明の好適な実施形態について説明する。
<ダイジェスト生成装置の基本概念>
図1は、ダイジェスト生成装置の基本概念を示す。ダイジェスト生成装置200は、素材映像データベース(以下、「データベース」を「DB」とも記す。)2に接続されている。素材映像DB2は、各種の素材映像、即ち、動画像を記憶している。素材映像は、例えば放送局から放送されるテレビ番組などの映像でもよく、インターネットなどで配信されている映像でもよい。なお、素材映像は、音声を含んでいてもよく、含んでいなくてもよい。
【0015】
ダイジェスト生成装置200は、素材映像DB2に保存されている素材映像の一部を用いたダイジェスト映像を生成し、出力する。ダイジェスト映像は、素材映像において何らかのイベントが発生したシーンを時系列につなげた映像である。ダイジェスト生成装置200は、後述するように、機械学習により訓練済みのイベント区間検出モデルを用いて素材映像からイベント区間を検出し、イベント区間を時系列につなげてダイジェスト映像を生成する。イベント区間検出モデルは、素材映像からイベントの区間を検出するモデルであり、例えば、ニューラルネットワークを用いたモデルを用いることができる。
【0016】
図2(A)は、ダイジェスト映像の例を示す。
図2(A)の例では、ダイジェスト生成装置200は、素材映像に含まれるイベント区間A~Dを抽出し、これらを時系列につなげてダイジェスト映像を生成する。なお、素材映像から抽出されたイベント区間は、その内容次第で、ダイジェスト映像中で繰り返し使用されてもよい。
【0017】
図2(B)は、イベント区間の例を示す。イベント区間は、素材映像において何らかのイベントが起きたシーンに対応する複数のフレーム画像により構成される。イベント区間は、その始点及び終点により規定される。なお、終点の代わりに、イベント区間の長さを用いてイベント区間を規定してもよい。
【0018】
<基本原理>
まず、実施形態に係るダイジェスト生成装置の基本原理について説明する。素材映像からダイジェスト映像を作成する場合、素材映像におけるイベント区間を適切に抽出することが重要である。例えば、前述の例のように野球の試合の素材映像から、打者がホームランを打った部分をイベントとして抽出する場合、打者が打った打球が高く飛んでいる瞬間のみをイベントとして切り取っても、それだけでは視聴者はホームランなのかどうかを理解することは難しい。よって、この場合には、打者がボールを打った映像、打球が高く上がって外野スタンドに入る映像、打者がベースランする映像、などの一連の映像をまとめてホームランのイベントとして素材映像から抽出することが好ましい。
【0019】
このような観点から、本実施形態では、素材映像からイベント区間を検出するイベント検出モデルを作成する。
図3は、本実施形態の基本原理を模式的に示す。概要としては、まず、訓練用映像を用いて訓練データを作成する。訓練データは、イベント区間検出モデルを訓練するためのデータであり、入力データとしての訓練用映像と、その訓練用映像におけるイベント区間を示す正解データとを含む。ここで、正解データは、訓練用映像におけるイベント区間の時間的位置を示すデータであり、具体的には訓練用映像におけるイベント区間の始点及び終点を示す時刻を含む。なお、イベント区間を始点と終点で示す代わりに、イベント空間を始点とイベント区間の長さ(時間幅)とで示してもよい。
【0020】
訓練データが用意できると、訓練データを用いてイベント区間検出モデルが訓練される。具体的に、イベント区間検出モデルは、入力された訓練用映像からイベント区間を検出する。検出されたイベント区間は正解データと比較され、その誤差に基づいて、イベント区間検出モデルが最適化される。こうして、訓練済みのイベント区間検出モデルは、入力された素材映像からイベント区間を検出できるようになる。
【0021】
推論時には、訓練済みのイベント区間検出モデルに素材映像が入力される。イベント区間検出モデルは素材映像に含まれるイベントをイベント区間として検出する。イベント区間検出モデルによる検出結果は、素材映像におけるイベント区間の始点及び終点を示す時刻と、そのイベント区間の映像のイベントらしさを示すスコアとを含む。また、イベント区間の検出結果は、そのイベント区間がどのようなイベントであるかを示すイベント名のクラスを含んでもよい。こうして検出された複数のイベント区間を時系列につなげてダイジェスト映像が生成される。
【0022】
<第1実施形態>
[訓練装置]
まず、イベント区間検出モデルの訓練装置について説明する。
(ハードウェア構成)
図4は、訓練装置100のハードウェア構成を示すブロック図である。図示のように、訓練装置100は、インタフェース(IF)11と、プロセッサ12と、メモリ13と、記録媒体14と、データベース(DB)15とを備える。
【0023】
IF11は、外部装置との間でデータの入出力を行う。具体的には、訓練用映像及び既存のダイジェスト映像がIF11を介して訓練装置100に入力される。
【0024】
プロセッサ12は、CPU(Central Processing Unit)などのコンピュータであり、予め用意されたプログラムを実行することにより、訓練装置100の全体を制御する。具体的に、プロセッサ12は、後述する訓練処理を実行する。
【0025】
メモリ13は、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。メモリ13は、プロセッサ12による各種の処理の実行中に作業メモリとしても使用される。
【0026】
記録媒体14は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、訓練装置100に対して着脱可能に構成される。記録媒体14は、プロセッサ12が実行する各種のプログラムを記録している。訓練装置100が各種の処理を実行する際には、記録媒体14に記録されているプログラムがメモリ13にロードされ、プロセッサ12により実行される。
【0027】
データベース15は、IF11を通じて入力された訓練用映像、既存のダイジェスト映像などを記憶する。また、データベース15は、訓練の対象となるイベント区間検出モデルの情報を記憶する。なお、訓練装置100は、作成者が指示や入力を行うためのキーボード、マウスなどの入力部、及び、液晶ディスプレイなどの表示部を備えていてもよい。
【0028】
(訓練データの生成方法)
図5(A)は、イベント区間検出モデルの訓練に使用する訓練データの生成方法を説明する図である。まず、既存のダイジェスト映像が用意される。このダイジェスト映像は、適切な内容を含むものとして既に作成済みのダイジェスト映像であり、適切な箇所で区切られた複数のイベント区間A~Cを含んでいる。
【0029】
訓練装置100は、素材映像とダイジェストとのマッチングを行い、ダイジェスト映像に含まれるイベント区間と同一内容の区間を素材映像から検出し、そのイベント区間の始点及び終点の時刻情報を取得する。なお、終点の代わりに、始点からの時間幅を用いてもよい。時刻情報は、素材映像におけるタイムコードやフレーム番号などとすることができる。
図5(A)の例では、ダイジェスト映像のイベント区間A~Cに対応して、素材映像からイベント区間1~3が検出されている。
【0030】
なお、訓練装置100は、素材映像とダイジェスト映像の内容が一致している一致区間の間に、僅かに内容が不一致の区間が存在したとしても、その不一致の区間が所定の時間幅(例えば1秒など)以下である場合には、その不一致の区間を前後の一致区間と一体として1つの一致区間としてもよい。
図5(A)の例では、素材映像のイベント区間3には、ダイジェスト映像中のイベント区間Cと一致しない不一致区間90があるが、不一致区間90の時間幅が所定値以下であるため、イベント区間3に含められている。
【0031】
訓練装置100は、素材映像に含まれるイベントの時刻及びイベント名(イベントクラス)を含むメタ情報がある場合には、メタ情報を用いて、各イベント区間にイベント名を示すタグ情報を付与してもよい。
図5(B)は、メタ情報を用いてタグ情報を付与する例を示す。メタ情報には、時刻t
1のイベント名「三振」、時刻t
2のイベント名「ヒット」、時刻t
3のイベント名「ホームラン」を含んでいる。この場合、訓練装置100は、素材映像から検出されたイベント区間1にタグ情報「三振」を付与し、イベント区間2にタグ情報「ヒット」を付与し、イベント区間3にタグ情報「ホームラン」を付与する。付与されたタグ情報は、訓練データにおける正解データの一部として使用される。
【0032】
上記の例では、イベント名を含むメタ情報を用いて各イベント区間にタグ情報を付与しているが、その代わりに、人間がダイジェスト映像を構成する各イベントを目視してダイジェスト映像にタグ情報を付与してもよい。その場合には、訓練装置100は、素材映像とダイジェスト映像とのマッチングにより得られた対応関係に基づいて、ダイジェスト映像のイベント区間に付与されているタグ情報を、それと対応する素材映像のイベント区間に反映すればよい。例えば、
図5(B)の例において、ダイジェスト映像のイベント区間Aにタグ情報「三振」が付与されている場合、訓練装置100は、それに対応する素材映像のイベント区間1にタグ情報「三振」を付加すればよい。
【0033】
(機能構成)
図6は、訓練装置100の機能構成を示すブロック図である。訓練装置100は、入力部21と、映像マッチング部22と、区間情報生成部23と、訓練データ生成部24と、訓練部25とを備える。
【0034】
入力部21には、素材映像D1と、ダイジェスト映像D2とが入力される。素材映像D1は、訓練データの元になる映像である。入力部21は、素材映像D1を訓練データ生成部24へ出力し、素材映像D1とダイジェスト映像D2を映像マッチング部22へ出力する。
【0035】
映像マッチング部22は、
図5(A)に例示したように、素材映像D1とダイジェスト映像D2のマッチングを行い、映像の内容が一致している区間である一致区間を示す一致区間情報D3を生成して区間情報生成部23へ出力する。
【0036】
区間情報生成部23は、一致区間情報D3に基づいて、一連のシーンとなる区間情報を生成する。具体的に、区間情報生成部23は、ある一致区間が所定の時間幅以上である場合、その一致区間をイベント区間と決定し、そのイベント区間の区間情報D4を訓練データ生成部24へ出力する。また、前述のように、連続する2つの一致区間の間にある不一致区間の時間が所定の閾値以下である場合、区間情報生成部23は、前後の一致区間とその不一致区間との全体を1つのイベント区間と決定する。区間情報D4は、素材映像D1におけるそのイベント区間を示す時刻情報を含む。具体的に、イベント区間を示す時刻情報は、イベント区間の始点と終点の時刻、又は、始点の時刻とイベント区間の時間幅を含む。
【0037】
訓練データ生成部24は、素材映像D1と、区間情報D4とに基づいて、訓練データを生成する。具体的に、訓練データ生成部24は、素材映像D1から区間情報D4が示すイベント区間に対応する部分を切り出した映像を訓練用映像とする。具体的には、訓練データ生成部24は、イベント区間の前後にある程度の幅を持たせて素材映像D1から映像を切り出す。この場合、訓練データ生成部24は、イベント区間の前後に持たせる幅をランダムに決定してもよく、予め指定した長さとしてもよい。イベント区間の前と後に付加する幅は同一でもよく、異なってもよい。また、訓練データ生成部24は、区間情報D4が示すイベント区間の時刻情報を正解データとする。こうして、訓練データ生成部24は、素材映像D1に含まれる各イベント区間について、訓練用映像と正解データとのセットである訓練データD5を生成し、訓練部25へ出力する。
【0038】
訓練部25は、訓練データ生成部24が生成した訓練データD5を用いて、イベント区間検出モデルを訓練する。具体的には、訓練部25は、訓練用映像をイベント区間検出モデルに入力し、イベント区間検出モデルの出力を正解データと比較し、その誤差に基づいてイベント区間検出モデルを最適化する。訓練部25は、複数の素材映像から生成された複数の訓練データD5を用いてイベント区間検出モデルを訓練し、所定の終了条件が具備されたときに、訓練を終了する。こうして得られた訓練済みのイベント区間検出モデルは、入力された素材映像から適切にイベント区間を検出し、その区間を示す時刻情報、イベントらしさのスコア、イベント名を示すタグ情報などを含む検出結果を出力できるようになる。
【0039】
上記の構成において、入力部21は取得手段の一例であり、映像マッチング部22及び区間情報生成部23は一致区間検出手段の一例であり、訓練データ生成部24は訓練データ生成手段の一例であり、訓練部25は訓練手段の一例である。また、メタ情報はイベント情報の一例である。
【0040】
(訓練処理)
図7は、訓練装置100により実行される訓練処理のフローチャートである。この処理は、
図4に示すプロセッサ12が、予め用意されたプログラムを実行し、
図6に示す各要素として動作することにより実現される。
【0041】
まず、入力部21が素材映像D1とダイジェスト映像D2を取得する(ステップS21)。次に、映像マッチング部22は、素材映像D1とダイジェスト映像D2の内容が一致する区間である一致区間を検出し、一致区間情報D3を出力する(ステップS22)。次に、区間情報生成部23は、マッチング結果として得られた一致区間に基づいて、素材映像D1に含まれるイベント区間を決定し、区間情報D4を出力する(ステップS23)。
【0042】
次に、訓練データ生成部24は、素材映像D1と区間情報D4に基づいて訓練データD5を生成し、訓練部25へ出力する(ステップS24)。そして、訓練部25は、訓練データD5を用いてイベント区間検出モデルを訓練する(ステップS25)。こうして、訓練済みのイベント区間検出モデルが生成される。
【0043】
[ダイジェスト生成装置]
次に、上記の訓練済みのイベント区間検出モデルを用いたダイジェスト生成装置について説明する。なお、ダイジェスト生成装置のハードウェア構成は、基本的に
図4に示す訓練装置100と同様である。但し、インタフェース11は、ダイジェスト映像を作成する基になる素材映像を受け取り、生成されたダイジェスト映像を出力する。
【0044】
(1)第1実施例
まず、ダイジェスト生成装置の第1実施例について説明する。
図8は、第1実施例に係るダイジェスト生成装置200の機能構成を示すブロック図である。ダイジェスト生成装置200は、推論部30と、ダイジェスト生成部40とを備える。
【0045】
推論部30には、ダイジェスト映像の作成対象となる素材映像が入力される。推論部30は、前述の訓練装置100により訓練済みのイベント区間検出モデルを用いて推論を行う。具体的には、推論部30は、イベント区間検出モデルを用いて、素材映像からイベント区間を検出し、検出結果D10をダイジェスト生成部40へ出力する。検出結果D10は、素材映像から検出された複数のイベント区間の時刻情報、イベントらしさのスコア、タグ情報などを含む。
【0046】
ダイジェスト生成部40には、素材映像と、推論部30による検出結果D10とが入力される。ダイジェスト生成部40は、検出結果D10が示すイベント区間の映像を素材映像から切り出し、時系列に並べてダイジェスト映像を生成する。こうして、訓練済みのイベント区間検出モデルを用いて、ダイジェスト映像を生成することができる。
【0047】
(2)第2実施例
次に、ダイジェスト生成装置の第2実施例について説明する。第2実施例は、メタ情報を利用してダイジェスト生成を効率的に行うものである。
図9は、第2実施例のダイジェスト生成装置200xによるダイジェスト映像の生成方法を模式的に示す。第2実施例では、素材映像全体をイベント区間検出モデルに入力するのではなく、素材映像のうちイベントを含むと予測される部分の映像のみをイベント区間検出モデルに入力する。
【0048】
具体的には、ダイジェスト生成装置200xは、メタ情報を用いて素材映像からイベント区間の付近を検出する。前述のように、メタ情報は、素材映像に含まれる各イベント区間の時刻を含む。よって、ダイジェスト生成装置200xは、メタ情報に基づいて、素材映像に含まれるイベント付近を大まかに切り出して部分映像を生成し、これを訓練済みのイベント区間検出モデルに入力する。こうすることにより、ダイジェスト生成装置200xは、素材映像のうち、イベントが含まれると予測される部分映像に対してのみ推論処理を行えばよいので、推論処理を効率化することができる。
【0049】
(機能構成)
図10は、第2実施例に係るダイジェスト生成装置200xの機能構成を示すブロック図である。ダイジェスト生成装置200xは、推論部30xと、ダイジェスト生成部40とを備える。推論部30xは、入力部31と、推論対象区間決定部32と、推論対象データ生成部33と、イベント区間検出部34とを備える。
【0050】
入力部31には、素材映像D11と、メタ情報D12とが入力される。入力部31は、素材映像D11を推論対象データ生成部33へ出力し、メタ情報D12を推論対象区間決定部32へ出力する。
【0051】
推論対象区間決定部32は、メタ情報D12に基づいて推論対象区間を決定する。推論対象区間は、素材映像のうち、イベントが含まれると予測される部分を示し、
図9を参照して説明した部分映像の区間に相当する。一例では、推論対象区間決定部32は、メタ情報D12に含まれるイベントの時刻を基準として、前後にそれぞれ所定時間幅の区間を推論対象区間と決定する。この場合、前後の時間幅は異なってもよい。通常、メタ情報に含まれるイベントの時刻は、イベントのおよその開始時刻を示していることが多いので、イベントの前の時間幅はイベントの時刻の誤差分程度の時間とし、イベントの後の時間幅はその素材映像において発生するイベントの所要時間としてもよい。また、イベントの前後の時間幅は、その素材映像のジャンルや内容などに応じて決定してもよい。
【0052】
また、他の例として、素材映像が複数のカメラの映像を編集して作成された映像である場合、推論対象区間決定部32は、素材映像におけるカメラの切替タイミング、即ち、ショット境界を用いて推論対象区間を決定してもよい。具体的には、推論対象区間決定部32は、メタ情報D12に含まれるイベントの時刻を基準として、前後にそれぞれ所定数(n個)のショット境界分の区間を推論対象区間と決定してもよい。この場合、イベントの前後で所定数nを異ならせてもよい。また、イベントの前後における所定数nは、素材映像のジャンルや内容に応じて決定してもよい。そして、推論対象区間決定部32は、決定した推論対象区間を示す推論対象区間情報D13を推論対象データ生成部33へ出力する。
【0053】
推論対象データ生成部33は、素材映像D11と、推論対象区間情報D13に基づいて、推論対象データD14を生成し、イベント区間検出部34へ出力する。具体的には、推論対象データ生成部33は、素材映像D11のうち、推論対象区間に対応する部分の映像を推論対象データD14として生成する。推論対象データD14は、
図9に示すイベント部分を大まかに切り出した部分映像に相当する。
【0054】
イベント区間検出部34は、訓練済みのイベント区間検出モデルを用いて推論対象データD14からイベント区間を検出し、検出結果D10をダイジェスト生成部40へ出力する。ダイジェスト生成部40は、第1実施例と同様であり、素材映像D11と検出結果D10とを用いて、ダイジェスト映像を生成する。
【0055】
上記の構成において、入力部31は取得手段の一例であり、推論部30xはイベント区間検出手段の一例である。また、推論対象区間決定部32は推論対象区間決定手段の一例であり、推論対象データ生成部33は推論対象データ生成手段の一例であり、イベント区間検出部34は推論手段の一例であり、ダイジェスト生成部40はダイジェスト生成手段の一例である。
【0056】
(ダイジェスト生成処理)
図11は、第2実施例のダイジェスト生成装置200xによるダイジェスト生成処理のフローチャートである。この処理は、
図4に示すプロセッサ12が、予め用意されたプログラムを実行し、
図10に示す各要素として動作することにより実現される。
【0057】
まず、入力部31が素材映像D11とメタ情報D12を取得する(ステップS31)。推論対象区間決定部32は、メタ情報D12に基づいて推論対象区間を決定し、推論対象区間情報D13を推論対象データ生成部33へ出力する(ステップS32)。次に、推論対象データ生成部33は、素材映像D11と推論対象区間情報D13とに基づいて、推論対象データD14を生成し、イベント区間検出部34へ出力する(ステップS33)。
【0058】
次に、イベント区間検出部34は、訓練済みのイベント区間検出モデルを用いて推論対象データD14からイベント区間を検出し、検出結果D10をダイジェスト生成部40へ出力する(ステップS34)。そして、ダイジェスト生成部40は、素材映像D11と検出結果D10とに基づいて、ダイジェスト映像を生成する(ステップS35)。そして、処理は終了する。
【0059】
このように、第2実施形態のダイジェスト生成装置200xによれば、素材映像のうちイベントを含むと予測される映像部分のみを推論部30xの処理対象とするので、イベント区間を検出する処理の効率を改善することができる。
【0060】
(3)第3実施例
次に、ダイジェスト生成装置の第3実施例について説明する。第3実施例もメタ情報を利用してダイジェスト生成を行うものである。
図12は、第3実施例のダイジェスト生成装置200yによるダイジェスト映像の生成方法を模式的に示す。第3実施例では、素材映像全体をイベント区間検出モデルに入力する。イベント区間検出モデルは、複数のイベント区間をイベント区間候補として出力する。なお、
図12に示すように、イベント区間モデルは、素材映像の同じ時刻に対応して複数のイベント区間候補を検出することがある。そこで、ダイジェスト生成装置200yは、メタ情報からイベント時刻を取得し、イベント区間の時刻に対応するイベント区間候補を最終的なイベント区間として採用する。
【0061】
例えば、
図12の例では、メタ情報は、時刻t
10のイベント「ヒット」と、時刻t
11のイベント「ホームラン」を含んでいる。よって、ダイジェスト生成装置200yは、複数のイベント区間候補のうち、時刻t
10に対応するイベント区間候補E1と、時刻t
11に対応するイベント区間候補E2を最終的なイベント区間として選択する。
【0062】
なお、メタ情報から抽出したイベント時刻に対応するイベント区間候補が複数ある場合、ダイジェスト生成装置200yは、イベント区間検出モデルの検出結果に含まれるイベントらしさのスコアが最も高いものを選択すればよい。その代わりに、イベント区間の尺の長さ、即ち時間幅に関して予め決められた条件がある場合、ダイジェスト生成装置200yは、その条件に適合するイベント区間候補を選択してもよい。例えば、生成すべきダイジェスト映像のトータル時間の条件が決まっている場合、ダイジェスト生成装置200yは、合計の時間がそのトータル時間になるようにイベント区間候補を選択すればよい。また、1つのイベント区間の時間幅の条件が決められている場合(例えば、T1秒以上かつT2秒以下など)、ダイジェスト生成装置200yは、同一のイベント時刻に対応する複数のイベント区間候補のうち、その条件に最も適合するイベント区間候補を選択すればよい。なお、この場合、1つのイベント区間の時間幅の条件は、素材映像のジャンルや内容などに基づいて決定することができる。
【0063】
(機能構成)
図13は、第3実施例に係るダイジェスト生成装置200yの機能構成を示すブロック図である。ダイジェスト生成装置200yは、推論部30yと、ダイジェスト生成部40とを備える。推論部30yは、入力部31と、候補検出部37と、候補選択部38とを備える。
【0064】
入力部31には、素材映像D11と、メタ情報D12とが入力される。入力部31は、素材映像D11を候補検出部37へ出力し、メタ情報D12を候補選択部38へ出力する。
【0065】
候補検出部37は、訓練済みのイベント区間検出モデルを用いて、素材映像D11からイベント区間候補D15を検出し、候補選択部38へ出力する。候補選択部38は、メタ情報D12からイベント時刻を取得し、複数のイベント区間候補D15のうち、そのイベント時刻に対応するイベント区間候補を選択し、検出結果D10としてダイジェスト生成部40へ出力する。ダイジェスト生成部40は、第1実施例と同様であり、素材映像D11と検出結果D10とを用いて、ダイジェスト映像を生成する。
【0066】
上記の構成において、入力部31は取得手段の一例であり、推論部30yはイベント区間検出手段の一例である。また、候補検出部37は候補検出手段の一例であり、候補選択部38は候補選択手段の一例であり、ダイジェスト生成部40はダイジェスト生成手段の一例である。
【0067】
(ダイジェスト生成処理)
図14は、第3実施例のダイジェスト生成装置200yにより実行されるダイジェスト生成処理のフローチャートである。この処理は、
図4に示すプロセッサ12が、予め用意されたプログラムを実行し、
図13に示す各要素として動作することにより実現される。
【0068】
まず、入力部31が素材映像D11とメタ情報D12を取得する(ステップS41)。候補検出部37は、訓練済みのイベント区間検出モデルを用いて素材映像からイベント区間候補D15を検出し、候補選択部38へ出力する(ステップS42)。次に、候補選択部38は、メタ情報D12からイベント時刻を取得し、各イベント時刻に対応するイベント区間候補を検出結果D10として選択してダイジェスト生成部40へ出力する(ステップS43)。そして、ダイジェスト生成部40は、素材映像D11と検出結果D10とに基づいて、ダイジェスト映像を生成する(ステップS44)。そして、処理は終了する。
【0069】
このように、第3実施例のダイジェスト生成装置200yによれば、素材映像から検出された複数のイベント区間候補から、メタ情報に基づいて適切なイベント区間候補を選択してダイジェスト映像を作成することができる。
【0070】
<第2実施形態>
次に、本発明の第2実施形態について説明する。
図15は、第2実施形態に係る情報処理装置の機能構成を示すブロック図である。図示のように、情報処理装置70は、取得手段71と、一致区間検出手段72と、訓練データ生成手段73とを備える。
【0071】
図16は、情報処理装置70による処理のフローチャートである。取得手段71は、素材映像及びダイジェスト映像を含む複数の映像を取得する(ステップS71)。一致区間検出手段72は、素材映像とダイジェスト映像の内容が一致する一致区間を検出する(ステップS72)。訓練データ生成手段73は、一致区間に基づいて、素材映像から訓練データを生成する(ステップS73)。
【0072】
<第3実施形態>
次に、本発明の第3実施形態について説明する。
図17は、第3実施形態に係る情報処理装置の機能構成を示すブロック図である。図示のように、情報処理装置80は、取得手段81と、イベント区間検出手段82とを備える。
【0073】
図18は、情報処理装置80による処理のフローチャートである。取得手段81は、素材映像と、前記素材映像に含まれるイベントの時刻を含むイベント情報とを取得する(ステップS81)。イベント区間検出手段82は、イベント区間を検出する訓練済みモデルを用いて、素材映像及びイベント情報に基づき、素材映像からイベント区間を検出する(ステップS82)。
【0074】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0075】
(付記1)
素材映像及びダイジェスト映像を含む複数の映像を取得する取得手段と、
前記素材映像と前記ダイジェスト映像の内容が一致する一致区間を検出する一致区間検出手段と、
前記一致区間に基づいて、前記素材映像から訓練データを生成する訓練データ生成手段と、
を備える情報処理装置。
【0076】
(付記2)
前記訓練データ生成手段は、前記素材映像の前記一致区間に対応する部分を訓練用入力データとし、前記素材映像における前記一致区間の時刻を示す時刻情報を正解データとする訓練データを生成する付記1に記載の情報処理装置。
【0077】
(付記3)
前記一致区間検出手段は、連続する一致区間の時間間隔が所定閾値以下である場合、当該連続する一致区間を1つの一致区間として検出する付記1又は2に記載の情報処理装置。
【0078】
(付記4)
前記取得手段は、前記ダイジェスト映像に含まれるイベントの時刻及び名称を含むイベント情報を取得し、
前記訓練データ生成手段は、前記イベント情報に含まれるイベントの名称をタグ情報として前記訓練データに含める付記2又は3に記載の情報処理装置。
【0079】
(付記5)
前記訓練データを用いて、前記素材映像からイベント区間を検出するモデルを訓練する訓練手段を備える付記1乃至4のいずれか一項に記載の情報処理装置。
【0080】
(付記6)
素材映像及びダイジェスト映像を含む複数の映像を取得し、
前記素材映像と前記ダイジェスト映像の内容が一致する一致区間を検出し、
前記一致区間に基づいて、前記素材映像から訓練データを生成する情報処理方法。
【0081】
(付記7)
素材映像及びダイジェスト映像を含む複数の映像を取得し、
前記素材映像と前記ダイジェスト映像の内容が一致する一致区間を検出し、
前記一致区間に基づいて、前記素材映像から訓練データを生成する処理をコンピュータに実行させるプログラムを記録した記録媒体。
【0082】
(付記8)
素材映像と、前記素材映像に含まれるイベントの時刻を含むイベント情報とを取得する取得手段と、
イベント区間を検出する訓練済みモデルを用いて、前記素材映像及び前記イベント情報に基づき、前記素材映像からイベント区間を検出するイベント区間検出手段と、
を備える情報処理装置。
【0083】
(付記9)
前記イベント区間検出手段は、
前記イベント情報に基づいて、前記素材映像における推論対象区間を決定する推論対象区間決定手段と、
前記素材映像から前記推論対象区間を切り出して推論対象データを生成する推論対象データ生成手段と、
前記訓練済みモデルを用いて、推論対象データから前記イベント区間を検出する推論手段と、
を備える付記8に記載の情報処理装置。
【0084】
(付記10)
前記イベント区間検出手段は、
前記訓練済みモデルを用いて、前記素材映像からイベント区間候補を検出する候補検出手段と、
前記イベント情報に基づいて、前記イベント区間候補からイベント区間を選択する選択手段と、
を備える付記8に記載の情報処理装置。
【0085】
(付記11)
前記選択手段は、同一の時刻について複数のイベント区間候補がある場合、前記訓練済みモデルによる推論のスコアが最も高いイベント区間候補を前記イベント区間として選択する付記10に記載の情報処理装置。
【0086】
(付記12)
前記選択手段は、同一の時刻について複数のイベント区間候補がある場合、予め決められたイベント区間の時間条件に最も適合するイベント区間候補を前記イベント区間として選択する付記10に記載の情報処理装置。
【0087】
(付記13)
前記素材映像と、前記イベント区間検出手段が検出したイベント区間とに基づいて、イベント区間の映像を時系列につなげてダイジェスト映像を生成するダイジェスト生成手段を備える付記8乃至12のいずれか一項に記載の情報処理装置。
【0088】
(付記14)
素材映像と、前記素材映像に含まれるイベントの時刻を含むイベント情報とを取得し、
イベント区間を検出する訓練済みモデルを用いて、前記素材映像及び前記イベント情報に基づき、前記素材映像からイベント区間を検出する情報処理方法。
【0089】
(付記15)
素材映像と、前記素材映像に含まれるイベントの時刻を含むイベント情報とを取得し、
イベント区間を検出する訓練済みモデルを用いて、前記素材映像及び前記イベント情報に基づき、前記素材映像からイベント区間を検出する処理をコンピュータに実行させるプログラムを記録した記録媒体。
【0090】
以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【符号の説明】
【0091】
12 プロセッサ
21、31 入力部
22 映像マッチング部
23 区間情報生成部
24 訓練データ生成部
25 訓練部
30、30x、30y 推論部
32 推論対象区間決定部
33 推論対象データ生成部
34 イベント区間検出部
37 候補検出部
38 候補選択部
40 ダイジェスト生成部
100 訓練装置
200、200x、200y ダイジェスト生成装置