特許7552733 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7552733情報処理装置、情報処理方法、及び、プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-09-09

(45)【発行日】2024-09-18

(54)【発明の名称】情報処理装置、情報処理方法、及び、プログラム

(51)【国際特許分類】

H04N 5/91 20060101AFI20240910BHJP

【ＦＩ】

H04N5/91

【請求項の数】 7

(21)【出願番号】P 2022573844

(86)(22)【出願日】2021-01-06

(86)【国際出願番号】 JP2021000216

(87)【国際公開番号】W WO2022149218

(87)【国際公開日】2022-07-14

【審査請求日】2023-07-04

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100107331

【弁理士】

【氏名又は名称】中村聡延

(74)【代理人】

【識別番号】100104765

【弁理士】

【氏名又は名称】江上達夫

(74)【代理人】

【識別番号】100131015

【弁理士】

【氏名又は名称】三輪浩誉

(72)【発明者】

【氏名】鍋藤悠

(72)【発明者】

【氏名】渡辺はるな

(72)【発明者】

【氏名】白石壮馬

【審査官】鈴木順三

(56)【参考文献】

【文献】特開２０１９－１１０４２１（ＪＰ，Ａ）

【文献】特開２００８－２２７８６０（ＪＰ，Ａ）

【文献】特開２０１４－０２２８３７（ＪＰ，Ａ）

【文献】特開２０１０－０２８６５１（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｎ５／７６－５／９５６

(57)【特許請求の範囲】

【請求項1】

素材映像を取得する取得手段と、
前記素材映像から対象物の画像を検出する画像認識手段と、
前記素材映像から前記対象物の画像を含む部分を切り出して部分映像を生成する映像切り出し手段と、
前記対象物の画像の検出結果を用いて、前記部分映像から前記素材映像中のイベント区間を検出するイベント区間検出手段と、
を備え、
前記映像切り出し手段は、前記対象物の画像の前後に所定の時間幅を付加した範囲を前記部分映像として切り出す情報処理装置。

【請求項2】

前記イベント区間検出手段は、前記素材映像から複数のイベント区間候補を検出し、前記対象物の画像の検出結果に基づいて、前記複数のイベント区間候補からイベント区間を選択する請求項１に記載の情報処理装置。

【請求項3】

前記画像認識手段は、前記複数のイベント区間候補において前記対象物が含まれる度合いを示すスコアを算出し、
前記イベント区間検出手段は、前記スコアが所定値以上であるイベント区間候補をイベント区間として選択する請求項２に記載の情報処理装置。

【請求項4】

前記イベント区間検出手段は、同一の時刻に対応するイベント区間候補を複数検出した場合、前記スコアが最も高いイベント区間候補をイベント区間として選択する請求項３に記載の情報処理装置。

【請求項5】

前記素材映像と、前記イベント区間検出手段が検出したイベント区間とに基づいて、イベント区間の映像を時系列につなげてダイジェスト映像を生成するダイジェスト生成手段を備える請求項１乃至４のいずれか一項に記載の情報処理装置。

【請求項6】

コンピュータにより実行される情報処理方法であって、
素材映像を取得し、
前記素材映像から対象物の画像を検出し、
前記素材映像から前記対象物の画像を含む部分を切り出して部分映像を生成し、
前記対象物の画像の検出結果を用いて、前記部分映像から前記素材映像中のイベント区間を検出し、
前記部分映像の生成においては、前記対象物の画像の前後に所定の時間幅を付加した範囲が前記部分映像として切り出される情報処理方法。

【請求項7】

素材映像を取得し、
前記素材映像から対象物の画像を検出し、
前記素材映像から前記対象物の画像を含む部分を切り出して部分映像を生成し、
前記対象物の画像の検出結果を用いて、前記部分映像から前記素材映像中のイベント区間を検出する処理をコンピュータに実行させ、
前記部分映像の生成においては、前記対象物の画像の前後に所定の時間幅を付加した範囲が前記部分映像として切り出されるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、映像データの処理に関する。

【背景技術】

【0002】

動画像から映像ダイジェストを生成する技術が提案されている。特許文献１には、予め準備されたトレーニング動画像及びユーザが指定した重要シーン動画像から学習データファイルを作成し、当該学習データファイルに基づき、対象の動画像から重要シーンの検出を行うハイライト抽出装置が開示されている。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２００８－０２２１０３号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

素材映像からダイジェスト映像を作成する場合、特定の対象物が映っている部分を集めてダイジェスト映像を作りたい場合がある。例えば、スポーツの映像において特定の注目選手が登場するシーンを集めてダイジェスト映像を作成したい場合や、カーレースにおいて特定の車両の走行シーンを集めてダイジェスト映像を作成したい場合などがある。

【0005】

本発明の１つの目的は、素材映像中の特定の対象物に注目してダイジェスト映像を作成することが可能な情報処理装置を提供することにある。

【課題を解決するための手段】

【0006】

本発明の一つの観点では、情報処理装置は、
素材映像を取得する取得手段と、
前記素材映像から対象物の画像を検出する画像認識手段と、
前記素材映像から前記対象物の画像を含む部分を切り出して部分映像を生成する映像切り出し手段と、
前記対象物の画像の検出結果を用いて、前記部分映像から前記素材映像中のイベント区間を検出するイベント区間検出手段と、
を備え、
前記映像切り出し手段は、前記対象物の画像の前後に所定の時間幅を付加した範囲を前記部分映像として切り出す。

【0007】

本発明の他の観点では、コンピュータにより実行される情報処理方法は、
素材映像を取得し、
前記素材映像から対象物の画像を検出し、
前記素材映像から前記対象物の画像を含む部分を切り出して部分映像を生成し、
前記対象物の画像の検出結果を用いて、前記部分映像から前記素材映像中のイベント区間を検出し、
前記部分映像の生成においては、前記対象物の画像の前後に所定の時間幅を付加した範囲が前記部分映像として切り出される。

【0008】

本発明のさらに他の観点では、プログラムは、
素材映像を取得し、
前記素材映像から対象物の画像を検出し、
前記素材映像から前記対象物の画像を含む部分を切り出して部分映像を生成し、
前記対象物の画像の検出結果を用いて、前記部分映像から前記素材映像中のイベント区間を検出する処理をコンピュータに実行させ、
前記部分映像の生成においては、前記対象物の画像の前後に所定の時間幅を付加した範囲が前記部分映像として切り出される。

【発明の効果】

【0009】

本発明によれば、素材映像中の特定の対象物に注目してダイジェスト映像を作成することが可能となる。

【図面の簡単な説明】

【0010】

【図1】ダイジェスト生成装置の基本概念を示す。

【図2】ダイジェスト映像、及び、イベント区間の例を示す。

【図3】イベント区間検出モデルの訓練データの生成方法を説明する図である。

【図4】イベント区間検出モデルの訓練装置の機能構成を示すブロック図である。

【図5】ダイジェスト生成装置のハードウェア構成を示すブロック図である。

【図6】第１実施形態のダイジェスト生成装置によるイベント区間の検出方法を模式的に示す。

【図7】第１実施形態のダイジェスト生成装置の機能構成を示すブロック図である。

【図8】第１実施形態のダイジェスト生成装置によるダイジェスト生成処理のフローチャートである。

【図9】第２実施形態のダイジェスト生成装置によるイベント区間の検出方法を模式的に示す。

【図10】第２実施形態のダイジェスト生成装置の機能構成を示すブロック図である。

【図11】第２実施形態のダイジェスト生成装置により実行されるダイジェスト生成処理のフローチャートである。

【図12】第３実施形態の情報処理装置の機能構成を示すブロック図である。

【図13】第３実施形態の情報処理装置による処理のフローチャートである。

【発明を実施するための形態】

【0011】

以下、図面を参照して、本発明の好適な実施形態について説明する。
＜ダイジェスト生成装置の基本概念＞
図１は、ダイジェスト生成装置の基本概念を示す。ダイジェスト生成装置１００は、素材映像データベース（以下、「データベース」を「ＤＢ」とも記す。）２に接続されている。素材映像ＤＢ２は、各種の素材映像、即ち、動画像を記憶している。素材映像は、例えば放送局から放送されるテレビ番組などの映像でもよく、インターネットなどで配信されている映像でもよい。なお、素材映像は、音声を含んでいてもよく、含んでいなくてもよい。

【0012】

ダイジェスト生成装置１００は、素材映像ＤＢ２に保存されている素材映像の一部を用いたダイジェスト映像を生成し、出力する。ダイジェスト映像は、素材映像において何らかのイベントが発生したシーンを時系列につなげた映像である。ダイジェスト生成装置１００は、後述するように、機械学習により訓練済みのイベント区間検出モデルを用いて素材映像からイベント区間を検出し、イベント区間を時系列につなげてダイジェスト映像を生成する。イベント区間検出モデルは、素材映像からイベントの区間を検出するモデルであり、例えば、ニューラルネットワークを用いたモデルを用いることができる。

【0013】

図２（Ａ）は、ダイジェスト映像の例を示す。図２（Ａ）の例では、ダイジェスト生成装置１００は、素材映像に含まれるイベント区間Ａ～Ｄを抽出し、これらを時系列につなげてダイジェスト映像を生成する。なお、素材映像から抽出されたイベント区間は、その内容次第で、ダイジェスト映像中で繰り返し使用されてもよい。

【0014】

図２（Ｂ）は、イベント区間の例を示す。イベント区間は、素材映像において何らかのイベントが起きたシーンに対応する複数のフレーム画像により構成される。イベント区間は、その始点及び終点により規定される。なお、終点の代わりに、イベント区間の長さを用いてイベント区間を規定してもよい。

【0015】

＜イベント区間検出モデル＞
次に、イベント区間検出モデルについて説明する。
（訓練データの生成方法）
図３（Ａ）は、イベント区間検出モデルの訓練に使用する訓練データの生成方法を説明する図である。まず、既存のダイジェスト映像が用意される。このダイジェスト映像は、適切な内容を含むものとして既に作成済みのダイジェスト映像であり、適切な箇所で区切られた複数のイベント区間Ａ～Ｃを含んでいる。

【0016】

イベント区間検出モデルの訓練装置は、素材映像とダイジェストとのマッチングを行い、ダイジェスト映像に含まれるイベント区間と同一内容の区間を素材映像から検出し、そのイベント区間の始点及び終点の時刻情報を取得する。なお、終点の代わりに、始点からの時間幅を用いてもよい。時刻情報は、素材映像におけるタイムコードやフレーム番号などとすることができる。図３（Ａ）の例では、ダイジェスト映像のイベント区間Ａ～Ｃに対応して、素材映像からイベント区間１～３が検出されている。

【0017】

なお、訓練装置は、素材映像とダイジェスト映像の内容が一致している一致区間の間に、僅かに内容が不一致の区間が存在したとしても、その不一致の区間が所定の時間幅（例えば１秒など）以下である場合には、その不一致の区間を前後の一致区間と一体として１つの一致区間としてもよい。図３（Ａ）の例では、素材映像のイベント区間３には、ダイジェスト映像中のイベント区間Ｃと一致しない不一致区間９０があるが、不一致区間９０の時間幅が所定値以下であるため、イベント区間３に含められている。

【0018】

訓練装置は、素材映像に含まれるイベントの時刻及びイベント名（イベントクラス）を含むメタ情報がある場合には、メタ情報を用いて、各イベント区間にイベント名を示すタグ情報を付与してもよい。図３（Ｂ）は、メタ情報を用いてタグ情報を付与する例を示す。メタ情報には、時刻ｔ_１のイベント名「三振」、時刻ｔ_２のイベント名「ヒット」、時刻ｔ_３のイベント名「ホームラン」を含んでいる。この場合、訓練装置は、素材映像から検出されたイベント区間１にタグ情報「三振」を付与し、イベント区間２にタグ情報「ヒット」を付与し、イベント区間３にタグ情報「ホームラン」を付与する。付与されたタグ情報は、訓練データにおける正解データの一部として使用される。

【0019】

上記の例では、イベント名を含むメタ情報を用いて各イベント区間にタグ情報を付与しているが、その代わりに、人間がダイジェスト映像を構成する各イベントを目視してダイジェスト映像にタグ情報を付与してもよい。その場合には、訓練装置は、素材映像とダイジェスト映像とのマッチングにより得られた対応関係に基づいて、ダイジェスト映像のイベント区間に付与されているタグ情報を、それと対応する素材映像のイベント区間に反映すればよい。例えば、図３（Ｂ）の例において、ダイジェスト映像のイベント区間Ａにタグ情報「三振」が付与されている場合、訓練装置は、それに対応する素材映像のイベント区間１にタグ情報「三振」を付加すればよい。

【0020】

（訓練装置の構成）
図４は、イベント区間検出モデルの訓練装置２００の機能構成を示すブロック図である。訓練装置２００は、入力部２１と、映像マッチング部２２と、区間情報生成部２３と、訓練データ生成部２４と、訓練部２５とを備える。

【0021】

入力部２１には、素材映像Ｄ１と、ダイジェスト映像Ｄ２とが入力される。素材映像Ｄ１は、訓練データの元になる映像である。入力部２１は、素材映像Ｄ１を訓練データ生成部２４へ出力し、素材映像Ｄ１とダイジェスト映像Ｄ２を映像マッチング部２２へ出力する。

【0022】

映像マッチング部２２は、図３（Ａ）に例示したように、素材映像Ｄ１とダイジェスト映像Ｄ２のマッチングを行い、映像の内容が一致している区間である一致区間を示す一致区間情報Ｄ３を生成して区間情報生成部２３へ出力する。

【0023】

区間情報生成部２３は、一致区間情報Ｄ３に基づいて、一連のシーンとなる区間情報を生成する。具体的に、区間情報生成部２３は、ある一致区間が所定の時間幅以上である場合、その一致区間をイベント区間と決定し、そのイベント区間の区間情報Ｄ４を訓練データ生成部２４へ出力する。また、前述のように、連続する２つの一致区間の間にある不一致区間の時間が所定の閾値以下である場合、区間情報生成部２３は、前後の一致区間とその不一致区間との全体を１つのイベント区間と決定する。区間情報Ｄ４は、素材映像Ｄ１におけるそのイベント区間を示す時刻情報を含む。具体的に、イベント区間を示す時刻情報は、イベント区間の始点と終点の時刻、又は、始点の時刻とイベント区間の時間幅を含む。

【0024】

訓練データ生成部２４は、素材映像Ｄ１と、区間情報Ｄ４とに基づいて、訓練データを生成する。具体的に、訓練データ生成部２４は、素材映像Ｄ１から区間情報Ｄ４が示すイベント区間に対応する部分を切り出した映像を訓練用映像とする。具体的には、訓練データ生成部２４は、イベント区間の前後にある程度の幅を持たせて素材映像Ｄ１から映像を切り出す。この場合、訓練データ生成部２４は、イベント区間の前後に持たせる幅をランダムに決定してもよく、予め指定した長さとしてもよい。イベント区間の前と後に付加する幅は同一でもよく、異なってもよい。また、訓練データ生成部２４は、区間情報Ｄ４が示すイベント区間の時刻情報を正解データとする。こうして、訓練データ生成部２４は、素材映像Ｄ１に含まれる各イベント区間について、訓練用映像と正解データとのセットである訓練データＤ５を生成し、訓練部２５へ出力する。

【0025】

訓練部２５は、訓練データ生成部２４が生成した訓練データＤ５を用いて、イベント区間検出モデルを訓練する。具体的には、訓練部２５は、訓練用映像をイベント区間検出モデルに入力し、イベント区間検出モデルの出力を正解データと比較し、その誤差に基づいてイベント区間検出モデルを最適化する。訓練部２５は、複数の素材映像から生成された複数の訓練データＤ５を用いてイベント区間検出モデルを訓練し、所定の終了条件が具備されたときに、訓練を終了する。こうして得られた訓練済みのイベント区間検出モデルは、入力された素材映像から適切にイベント区間を検出し、その区間を示す時刻情報、イベントらしさのスコア、イベント名を示すタグ情報などを含む検出結果を出力できるようになる。

【0026】

＜ダイジェスト生成装置＞
次に、上記の訓練済みのイベント区間検出モデルを用いたダイジェスト生成装置について説明する。本実施形態では、素材映像中に含まれる対象物の画像を画像認識により検出し、イベント区間検出モデルと組み合わせてダイジェスト映像を作成する。

【0027】

［第１実施形態］
まず、第１実施形態に係るダイジェスト生成装置について説明する。
（ハードウェア構成）
図５は、第１実施形態に係るダイジェスト生成装置１００のハードウェア構成を示すブロック図である。図示のように、ダイジェスト生成装置１００は、インタフェース（ＩＦ）１１と、プロセッサ１２と、メモリ１３と、記録媒体１４と、データベース（ＤＢ）１５とを備える。

【0028】

ＩＦ１１は、外部装置との間でデータの入出力を行う。具体的に、素材映像ＤＢ２に保存されている素材映像はＩＦ１１を介してダイジェスト生成装置１００に入力される。また、ダイジェスト生成装置１００により生成されたダイジェスト映像は、ＩＦ１１を通じて外部装置へ出力される。

【0029】

プロセッサ１２は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのコンピュータであり、予め用意されたプログラムを実行することにより、ダイジェスト生成装置１００の全体を制御する。具体的に、プロセッサ１２は、後述するダイジェスト生成処理を実行する。

【0030】

メモリ１３は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などにより構成される。メモリ１３は、プロセッサ１２による各種の処理の実行中に作業メモリとしても使用される。

【0031】

記録媒体１４は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、ダイジェスト生成装置１００に対して着脱可能に構成される。記録媒体１４は、プロセッサ１２が実行する各種のプログラムを記録している。ダイジェスト生成装置１００が各種の処理を実行する際には、記録媒体１４に記録されているプログラムがメモリ１３にロードされ、プロセッサ１２により実行される。

【0032】

データベース１５は、ＩＦ１１を通じて入力された素材映像、ダイジェスト生成装置１００が生成したダイジェスト映像などを一時的に記憶する。また、データベース１５は、ダイジェスト生成装置１００が使用する訓練済みのイベント区間検出モデルの情報、訓練済みの重要シーン検出モデルの情報、各モデルの訓練に用いられる訓練データセットなどを記憶する。なお、ダイジェスト生成装置１００は、作成者が指示や入力を行うためのキーボード、マウスなどの入力部、及び、液晶ディスプレイなどの表示部を備えていてもよい。

【0033】

（イベント区間の検出方法）
図６は、第１実施形態のダイジェスト生成装置１００によるイベント区間の検出方法を模式的に示す。第１実施形態では、まず、素材映像から特定の対象物の画像を検出し、検出された対象物の画像を含む部分映像をイベント区間検出モデルに入力してイベント区間を検出する。

【0034】

具体的には、素材映像が訓練済みの画像認識モデルＭＩに入力される。画像認識モデルＭＩは、例えばニューラルネットワークを利用した画像認識モデルにより構成され、入力画像に含まれる特定の対象物を認識するように訓練済みである。画像認識モデルＭＩは、素材映像から対象物を含むフレーム画像を検出し、素材映像におけるそのフレーム画像又はフレーム画像群の位置を示す時刻情報などを検出する。ダイジェスト生成装置１００は、検出された対象物の画像を含む部分映像を素材映像から切り出し、訓練済みのイベント区間検出モデルＭＥに入力する。イベント区間検出モデルＭＥは、入力された部分映像からイベント区間を検出する。

【0035】

（機能構成）
図７は、第１実施形態に係るダイジェスト生成装置１００の機能構成を示すブロック図である。ダイジェスト生成装置１００は、推論部３０と、ダイジェスト生成部４０とを備える。推論部３０は、入力部３１と、画像認識部３２と、映像切り出し部３３と、イベント区間検出部３４とを備える。

【0036】

入力部３１には、素材映像Ｄ１１が入力される。入力部３１は、素材映像Ｄ１１を画像認識部３２及び映像切り出し部３３へ出力する。

【0037】

画像認識部３２は、訓練済みの画像認識モデルを用いて、素材映像Ｄ１１から対象物を検出し、対象物を含む画像を示す対象物画像情報Ｄ１２を映像切り出し部３３へ出力する。対象物画像情報Ｄ１２は、例えば、検出された対象物を含むフレーム画像の時刻、又は、対象物を含むシーン（フレーム画像群）の始点と終点の時刻を含む。

【0038】

映像切り出し部３３は、素材映像Ｄ１１から、対象物を含む部分の映像を切り出し、部分映像Ｄ１３としてイベント区間検出部３４へ出力する。一例では、映像切り出し部３３は、対象物画像情報Ｄ１２が示すフレーム画像又はシーンの前後にそれぞれ所定時間幅の区間を付加した範囲を部分映像として切り出す。この場合、対象物を含む画像又はシーンの前後に付加する時間幅は異なってもよい。

【0039】

イベント区間検出部３４は、訓練済みのイベント区間検出モデルを用いて、部分映像Ｄ１３からイベント区間を検出し、検出結果Ｄ１４をダイジェスト生成部４０へ出力する。検出結果Ｄ１４は、素材映像から検出された複数のイベント区間の時刻情報、イベントらしさのスコア、タグ情報などを含む。

【0040】

ダイジェスト生成部４０には、素材映像Ｄ１１と、推論部３０による検出結果Ｄ１４とが入力される。ダイジェスト生成部４０は、検出結果Ｄ１４が示すイベント区間の映像を素材映像Ｄ１１から切り出し、時系列に並べてダイジェスト映像を生成する。こうして、訓練済みのイベント区間検出モデルを用いて、ダイジェスト映像を生成することができる。

【0041】

上記の構成において、入力部３１は取得手段の一例であり、画像認識部３２は画像認識手段の一例であり、映像切り出し部３３は映像切り出し手段の一例であり、イベント区間検出部３４はイベント区間検出手段の一例であり、ダイジェスト生成部４０はダイジェスト生成手段の一例である。

【0042】

（ダイジェスト生成処理）
図８は、第１実施形態のダイジェスト生成装置１００によるダイジェスト生成処理のフローチャートである。この処理は、図５に示すプロセッサ１２が、予め用意されたプログラムを実行し、図７に示す各要素として動作することにより実現される。

【0043】

まず、入力部３１が素材映像Ｄ１１を取得する（ステップＳ３１）。画像認識部３２は、素材映像Ｄ１１から対象物を含む画像又はシーンを検出し、対象物画像情報Ｄ１２を映像切り出し部３３へ出力する（ステップＳ３２）。次に、映像切り出し部３３は、対象物画像情報Ｄ１２に基づいて、素材映像Ｄ１１から対象物を含むフレーム画像又はシーンに対応する部分映像Ｄ１３を切り出し、イベント区間検出部３４へ出力する（ステップＳ３３）。

【0044】

次に、イベント区間検出部３４は、訓練済みのイベント区間検出モデルを用いて部分映像Ｄ１３からイベント区間を検出し、検出結果Ｄ１４をダイジェスト生成部４０へ出力する（ステップＳ３４）。ダイジェスト生成部４０は、素材映像Ｄ１１と検出結果Ｄ１４とに基づいて、ダイジェスト映像を生成する（ステップＳ３５）。そして、処理は終了する。

【0045】

このように、第１実施形態のダイジェスト生成装置１００によれば、素材映像のうち対象物が含まれる映像部分からイベント区間が検出されるので、対象物を含むシーンを集めたダイジェスト映像を生成することができる。

【0046】

（変形例）
上記の実施形態では、画像認識部３２は、素材映像を構成する全てのフレーム画像に対して画像認識処理を行っているが、その代わりに、素材映像を所定の割合で間引いてから画像認識を行ってもよい。具体的には、素材画像から数フレーム毎又は数秒毎にフレーム画像を抽出した間引き素材画像を生成し、この間引き素材画像に対して画像認識処理を行ってもよい。これにより、画像認識処理を効率化、高速化することができる。

【0047】

［第２実施形態］
次に、ダイジェスト生成装置の第２実施形態について説明する。第２実施形態のダイジェスト生成装置１００ｘのハードウェア構成は、図５に示す第１実施形態のものと同様であるので、説明を省略する。

【0048】

（イベント区間の検出方法）
図９は、第２実施形態のダイジェスト生成装置１００ｘによるイベント区間の検出方法を模式的に示す。第２実施形態では、ダイジェスト生成装置１００ｘは、まず、訓練済みのイベント区間検出モデルＭＥを用いて素材映像から複数のイベント区間候補Ｅを検出する。次に、ダイジェスト生成装置１００ｘは、得られた各イベント区間候補Ｅから、画像認識モデルを用いて対象物の画像を検出し、対象物の画像を含む度合いを示すスコアが所定の閾値より高いイベント区間候補Ｅを、イベント区間として選択する。

【0049】

具体的には、素材映像が訓練済みのイベント区間検出モデルＭＥに入力される。イベント区間検出モデルＭＥは、素材映像からイベント区間候補Ｅを検出する。ダイジェスト生成装置１００は、検出された複数のイベント区間候補Ｅを訓練済みの画像認識モデルＭＩに入力する。画像認識モデルＭＩは、特定の対象物を認識するように訓練済みであり、入力された各イベント区間候補Ｅに対象物が含まれる度合いを示すスコア（以下、「対象物スコア」とも呼ぶ。）を算出し、スコアが所定の閾値以上であるイベント区間候補Ｅをイベント区間として選択する。これにより、イベント区間候補Ｅのうち、対象物が含まれる確率が高いものが最終的なイベント区間として選択される。なお、ダイジェスト生成装置１００ｘは、同一の時刻に対応して複数のイベント区間候補Ｅが検出された場合には、対象物スコアが最も高いイベント区間候補Ｅをイベント区間として選択すればよい。

【0050】

（機能構成）
図１０は、第２実施形態に係るダイジェスト生成装置１００ｘの機能構成を示すブロック図である。ダイジェスト生成装置１００ｘは、推論部３０ｘと、ダイジェスト生成部４０とを備える。推論部３０ｘは、入力部３１と、候補検出部３５と、画像認識部３６と、選択部３７とを備える。

【0051】

入力部３１には、素材映像Ｄ１１が入力される。入力部３１は、素材映像Ｄ１１を候補検出部３５へ出力する。

【0052】

候補検出部３５は、訓練済みのイベント区間検出モデルを用いて、素材映像Ｄ１１からイベント区間候補Ｅを検出し、イベント区間候補情報Ｄ１６を画像認識部３６へ出力する。画像認識部３６は、入力された各イベント区間候補Ｅについて対象物スコアを算出し、スコア情報Ｄ１７として選択部３７へ出力する。

【0053】

選択部３７は、各イベント区間候補Ｅについて算出された対象物スコアに基づいてイベント区間を選択する。具体的には、選択部３７は、対象物スコアが所定の閾値以上であるイベント区間候補Ｅをイベント区間として選択し、検出結果Ｄ１８としてダイジェスト生成部４０へ出力する。ダイジェスト生成部４０は、第１実施形態と同様であり、素材映像Ｄ１１と検出結果Ｄ１８とを用いて、ダイジェスト映像を生成する。

【0054】

上記の構成において、入力部３１は取得手段の一例であり、画像認識部３６は画像認識手段の一例であり、候補検出部３５及び選択部３７はイベント区間検出手段の一例であり、ダイジェスト生成部４０はダイジェスト生成手段の一例である。

【0055】

（ダイジェスト生成処理）
図１１は、第２実施形態のダイジェスト生成装置１００ｘにより実行されるダイジェスト生成処理のフローチャートである。この処理は、図５に示すプロセッサ１２が、予め用意されたプログラムを実行し、図１０に示す各要素として動作することにより実現される。

【0056】

まず、入力部３１が素材映像Ｄ１１を取得する（ステップＳ４１）。候補検出部３５は、訓練済みのイベント区間検出モデルを用いて素材映像からイベント区間候補Ｅを検出し、イベント区間候補情報Ｄ１６を画像認識部３６へ出力する（ステップＳ４２）。次に、画像認識部３６は、各イベント区間候補Ｅについて対象物スコアを算出し、スコア情報Ｄ１７を選択部３７へ出力する（ステップＳ４３）。

【0057】

選択部３７は、対象物スコアが所定の閾値以上であるイベント区間候補Ｅをイベント区間として選択し、検出結果Ｄ１８としてダイジェスト生成部４０へ出力する（ステップＳ４４）。ダイジェスト生成部４０は、素材映像Ｄ１１と検出結果Ｄ１８とに基づいて、ダイジェスト映像を生成する（ステップＳ４５）。そして、処理は終了する。

【0058】

このように、第２実施形態のダイジェスト生成装置１００ｘによれば、素材映像から検出された複数のイベント区間候補から、対象物スコアに基づいて適切なイベント区間が選択される。よって、対象物を含むシーンを集めたダイジェスト映像を作成することができる。

【0059】

［第３実施形態］
次に、第３実施形態に係る情報処理装置について説明する。図１２は、第３実施形態に係る情報処理装置の機能構成を示すブロック図である。図示のように、情報処理装置７０は、取得手段７１と、画像認識手段７２と、イベント区間検出手段７３とを備える。

【0060】

図１３は、情報処理装置７０による処理のフローチャートである。取得手段７１は、素材映像を取得する（ステップＳ７１）。画像認識手段７２は、素材映像から対象物の画像を検出する（ステップＳ７２）。イベント区間検出手段７３は、対象物の画像の検出結果を用いて、素材映像中のイベント区間を検出する（ステップＳ７３）。

【0061】

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

【0062】

（付記１）
素材映像を取得する取得手段と、
前記素材映像から対象物の画像を検出する画像認識手段と、
前記対象物の画像の検出結果を用いて、前記素材映像中のイベント区間を検出するイベント区間検出手段と、
を備える情報処理装置。

【0063】

（付記２）
前記素材映像から前記対象物の画像を含む部分を切り出して部分映像を生成する映像切り出し手段を備え、
前記イベント区間検出手段は、前記部分映像から前記イベント区間を検出する付記１に記載の情報処理装置。

【0064】

（付記３）
前記映像切り出し手段は、前記対象物の画像の前後に所定の時間幅を付加した範囲を前記部分映像として切り出す付記２に記載の情報処理装置。

【0065】

（付記４）
前記イベント区間検出手段は、前記素材映像から複数のイベント区間候補を検出し、前記対象物の画像の検出結果に基づいて、前記複数のイベント区間候補からイベント区間を選択する付記１に記載の情報処理装置。

【0066】

（付記５）
前記画像認識手段は、前記複数のイベント区間候補において前記対象物が含まれる度合いを示すスコアを算出し、
前記イベント区間検出手段は、前記スコアが所定値以上であるイベント区間候補をイベント区間として選択する付記４に記載の情報処理装置。

【0067】

（付記６）
前記イベント区間検出手段は、同一の時刻に対応するイベント区間候補を複数検出した場合、前記スコアが最も高いイベント区間候補をイベント区間として選択する付記５に記載の情報処理装置。

【0068】

（付記７）
前記素材映像と、前記イベント区間検出手段が検出したイベント区間とに基づいて、イベント区間の映像を時系列につなげてダイジェスト映像を生成するダイジェスト生成手段を備える付記１乃至６のいずれか一項に記載の情報処理装置。

【0069】

（付記８）
素材映像を取得し、
前記素材映像から対象物の画像を検出し、
前記対象物の画像の検出結果を用いて、前記素材映像中のイベント区間を検出する情報処理方法。

【0070】

（付記９）
素材映像を取得し、
前記素材映像から対象物の画像を検出し、
前記対象物の画像の検出結果を用いて、前記素材映像中のイベント区間を検出する処理をコンピュータに実行させるプログラムを記録した記録媒体。

【0071】

以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

【符号の説明】

【0072】

１２プロセッサ
２１、３１入力部
２２映像マッチング部
２３区間情報生成部
２４訓練データ生成部
２５訓練部
３０、３０ｘ推論部
３２、３６画像認識部
３３映像切り出し部
３４イベント区間検出部
３５候補検出部
３７選択部
４０ダイジェスト生成部
１００、１００ｘダイジェスト生成装置
２００訓練装置

【図1】