特許7552732 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7552732情報処理装置、情報処理方法、及び、プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-09-09

(45)【発行日】2024-09-18

(54)【発明の名称】情報処理装置、情報処理方法、及び、プログラム

(51)【国際特許分類】

H04N 5/91 20060101AFI20240910BHJP

G11B 20/10 20060101ALI20240910BHJP

G11B 27/02 20060101ALI20240910BHJP

G11B 27/00 20060101ALI20240910BHJP

【ＦＩ】

H04N5/91

G11B20/10 G

G11B27/02 Z

G11B27/00 B

【請求項の数】 5

(21)【出願番号】P 2022573843

(86)(22)【出願日】2021-01-06

(86)【国際出願番号】 JP2021000215

(87)【国際公開番号】W WO2022149217

(87)【国際公開日】2022-07-14

【審査請求日】2023-07-04

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100107331

【弁理士】

【氏名又は名称】中村聡延

(74)【代理人】

【識別番号】100104765

【弁理士】

【氏名又は名称】江上達夫

(74)【代理人】

【識別番号】100131015

【弁理士】

【氏名又は名称】三輪浩誉

(72)【発明者】

【氏名】鍋藤悠

(72)【発明者】

【氏名】渡辺はるな

(72)【発明者】

【氏名】白石壮馬

【審査官】鈴木順三

(56)【参考文献】

【文献】特開２０１９－１１０４２１（ＪＰ，Ａ）

【文献】特開２００８－２２７８６０（ＪＰ，Ａ）

【文献】特開２０１４－０２２８３７（ＪＰ，Ａ）

【文献】特開２０１０－０２８６５１（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｎ５／７６－５／９５６

Ｇ１１Ｂ２０／１０－２０／１６

Ｇ１１Ｂ２７／００－２７／０６

(57)【特許請求の範囲】

【請求項1】

素材映像を取得する取得手段と、
前記素材映像中の重要シーンを検出する重要シーン検出手段と、
前記素材映像における重要シーンを含む部分を切り出して部分映像を生成する映像切り出し手段と、
前記重要シーンの検出結果を用いて、前記部分映像から前記素材映像中のイベント区間を検出するイベント区間検出手段と、
を備え、
前記映像切り出し手段は、前記重要シーンの前後に所定の時間幅を付加した範囲を前記部分映像として切り出す情報処理装置。

【請求項2】

前記重要シーン検出手段は、前記素材映像に含まれるシーンの重要度を算出し、
前記映像切り出し手段は、前記重要シーンの重要度の値又は重要度の値の変化に基づいて、前記部分映像として切り出す範囲を変更する請求項１に記載の情報処理装置。

【請求項3】

前記素材映像と、前記イベント区間検出手段が検出したイベント区間とに基づいて、イベント区間の映像を時系列につなげてダイジェスト映像を生成するダイジェスト生成手段を備える請求項１又は２に記載の情報処理装置。

【請求項4】

コンピュータにより実行される情報処理方法であって、
素材映像を取得し、
前記素材映像中の重要シーンを検出し、
前記素材映像における重要シーンを含む部分を切り出して部分映像を生成し、
前記重要シーンの検出結果を用いて、前記部分映像から前記素材映像中のイベント区間を検出し、
前記部分映像の生成においては、前記重要シーンの前後に所定の時間幅を付加した範囲が前記部分映像として切り出される情報処理方法。

【請求項5】

素材映像を取得し、
前記素材映像中の重要シーンを検出し、
前記素材映像における重要シーンを含む部分を切り出して部分映像を生成し、
前記重要シーンの検出結果を用いて、前記部分映像から前記素材映像中のイベント区間を検出する処理をコンピュータに実行させ、
前記部分映像の生成においては、前記重要シーンの前後に所定の時間幅を付加した範囲が前記部分映像として切り出されるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、映像データの処理に関する。

【背景技術】

【0002】

動画像から映像ダイジェストを生成する技術が提案されている。特許文献１には、予め準備されたトレーニング動画像及びユーザが指定した重要シーン動画像から学習データファイルを作成し、当該学習データファイルに基づき、対象の動画像から重要シーンの検出を行うハイライト抽出装置が開示されている。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２００８－０２２１０３号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

素材映像から重要シーンなどを抽出してダイジェスト映像を作成する場合、素材映像全体から重要シーンを検出する処理を行う。しかし、通常、素材映像は時間が長いため、重要シーンなどを検出する処理には時間を要する。また、処理時間があまり問題とならない場合であっても、重要シーンなどの検出精度が十分に高くない場合には、不適切なシーンがダイジェスト映像に含められてしまうことがある。

【0005】

本発明の１つの目的は、素材映像中のイベントの部分を効率的に抽出し、高精度にダイジェスト映像を作成することが可能な情報処理装置を提供することにある。

【課題を解決するための手段】

【0006】

本発明の一つの観点では、情報処理装置は、
素材映像を取得する取得手段と、
前記素材映像中の重要シーンを検出する重要シーン検出手段と、
前記素材映像における重要シーンを含む部分を切り出して部分映像を生成する映像切り出し手段と、
前記重要シーンの検出結果を用いて、前記部分映像から前記素材映像中のイベント区間を検出するイベント区間検出手段と、
を備え、
前記映像切り出し手段は、前記重要シーンの前後に所定の時間幅を付加した範囲を前記部分映像として切り出す。

【0007】

本発明の他の観点では、コンピュータにより実行される情報処理方法は、
素材映像を取得し、
前記素材映像中の重要シーンを検出し、
前記素材映像における重要シーンを含む部分を切り出して部分映像を生成し、
前記重要シーンの検出結果を用いて、前記部分映像から前記素材映像中のイベント区間を検出し、
前記部分映像の生成においては、前記重要シーンの前後に所定の時間幅を付加した範囲が前記部分映像として切り出される。

【0008】

本発明のさらに他の観点では、プログラムは、
素材映像を取得し、
前記素材映像中の重要シーンを検出し、
前記素材映像における重要シーンを含む部分を切り出して部分映像を生成し、
前記重要シーンの検出結果を用いて、前記部分映像から前記素材映像中のイベント区間を検出する処理をコンピュータに実行させ、
前記部分映像の生成においては、前記重要シーンの前後に所定の時間幅を付加した範囲が前記部分映像として切り出される。

【発明の効果】

【0009】

本発明によれば、素材映像中のイベントの部分を効率的に抽出し、高精度にダイジェスト映像を作成することが可能となる。

【図面の簡単な説明】

【0010】

【図1】ダイジェスト生成装置の基本概念を示す。

【図2】ダイジェスト映像、及び、イベント区間の例を示す。

【図3】重要シーン検出モデルの訓練時及び推論時の構成を示す。

【図4】イベント区間検出モデルの訓練データの生成方法を説明する図である。

【図5】イベント区間検出モデルの訓練装置の機能構成を示すブロック図である。

【図6】ダイジェスト生成装置のハードウェア構成を示すブロック図である。

【図7】第１実施形態のダイジェスト生成装置によるイベント区間の検出方法を模式的に示す。

【図8】第１実施形態のダイジェスト生成装置の機能構成を示すブロック図である。

【図9】第１実施形態のダイジェスト生成装置によるダイジェスト生成処理のフローチャートである。

【図10】第２実施形態のダイジェスト生成装置によるイベント区間の検出方法を模式的に示す。

【図11】第２実施形態のダイジェスト生成装置の機能構成を示すブロック図である。

【図12】第２実施形態のダイジェスト生成装置により実行されるダイジェスト生成処理のフローチャートである。

【図13】第３実施形態の情報処理装置の機能構成を示すブロック図である。

【図14】第３実施形態の情報処理装置による処理のフローチャートである。

【発明を実施するための形態】

【0011】

以下、図面を参照して、本発明の好適な実施形態について説明する。
＜ダイジェスト生成装置の基本概念＞
図１は、ダイジェスト生成装置の基本概念を示す。ダイジェスト生成装置１００は、素材映像データベース（以下、「データベース」を「ＤＢ」とも記す。）２に接続されている。素材映像ＤＢ２は、各種の素材映像、即ち、動画像を記憶している。素材映像は、例えば放送局から放送されるテレビ番組などの映像でもよく、インターネットなどで配信されている映像でもよい。なお、素材映像は、音声を含んでいてもよく、含んでいなくてもよい。

【0012】

ダイジェスト生成装置１００は、素材映像ＤＢ２に保存されている素材映像の一部を用いたダイジェスト映像を生成し、出力する。ダイジェスト映像は、素材映像において何らかのイベントが発生したシーンを時系列につなげた映像である。ダイジェスト生成装置１００は、後述するように、機械学習により訓練済みのイベント区間検出モデルを用いて素材映像からイベント区間を検出し、イベント区間を時系列につなげてダイジェスト映像を生成する。イベント区間検出モデルは、素材映像からイベントの区間を検出するモデルであり、例えば、ニューラルネットワークを用いたモデルを用いることができる。

【0013】

図２（Ａ）は、ダイジェスト映像の例を示す。図２（Ａ）の例では、ダイジェスト生成装置１００は、素材映像に含まれるイベント区間Ａ～Ｄを抽出し、これらを時系列につなげてダイジェスト映像を生成する。なお、素材映像から抽出されたイベント区間は、その内容次第で、ダイジェスト映像中で繰り返し使用されてもよい。

【0014】

図２（Ｂ）は、イベント区間の例を示す。イベント区間は、素材映像において何らかのイベントが起きたシーンに対応する複数のフレーム画像により構成される。イベント区間は、その始点及び終点により規定される。なお、終点の代わりに、イベント区間の長さを用いてイベント区間を規定してもよい。

【0015】

＜基本原理＞
次に、実施形態に係るダイジェスト生成装置の基本原理について説明する。素材映像からダイジェスト映像を作成する場合、素材映像をイベント区間検出モデルに入力してイベント区間を検出する。しかし、通常、素材映像は長いので、素材映像全体に対してイベント区間の検出処理を行うと、処理に時間を要する。また、処理時間があまり問題とならない場合であっても、イベントの検出精度が十分に高くない場合には、イベント以外のシーンがダイジェスト映像に含められてしまうことがある。

【0016】

そこで、本実施形態では、イベント区間検出モデルと、素材映像から重要シーンを検出するモデル（以下、「重要シーン検出モデル」と呼ぶ。）を併用してダイジェスト映像を作成する。これにより、ダイジェスト映像の作成における効率と精度を改善する。

【0017】

＜重要シーン検出モデル＞
次に、重要シーン検出モデルについて説明する。図３（Ａ）は、ダイジェスト生成装置１００が使用する重要シーン検出モデルを訓練するための構成を示す。重要シーン検出モデルの訓練には、予め用意された訓練データセットが使用される。訓練データセットは、訓練用素材映像と、訓練用素材映像に対する正解を示す正解データのペアである。正解データは、訓練用素材映像における重要シーンの位置に正解を示すタグ（以下、「正解タグ」と呼ぶ。）を付与したデータである。典型的には、正解データにおける正解タグの付与は、経験のある編集者などにより行われる。例えば野球中継の素材映像については、野球解説者などが試合中のハイライトシーンなどを選択し、正解タグを付与する。なお、編集者による正解タグの付与方法を機械学習などで学習し、正解タグを自動的に付与してもよい。

【0018】

訓練時には、訓練用素材映像が重要シーン検出モデルＭＩに入力される。重要シーン検出モデルＭＩは、素材映像から重要シーンを抽出する。具体的には、重要シーン検出モデルＭＩは、素材映像を構成する１枚又は複数のフレームの集合から特徴量を抽出し、抽出した特徴量に基づいて素材映像に対する重要度（重要度スコア）を算出する。そして、重要シーン検出モデルＭＩは、重要度が予め決められた閾値以上である部分を重要シーンとして出力する。訓練部４は、重要シーン検出モデルＭＩの出力と、正解データとを用いて、重要シーン検出モデルＭＩを最適化する。具体的には、訓練部４は、重要シーン検出モデルＭＩが出力した重要シーンと、正解データに含まれる正解タグが示すシーンとを比較し、その誤差（損失）を小さくするように重要シーン検出モデルＭＩのパラメータを更新する。こうして得られた訓練済みの重要シーン検出モデルＭＩは、編集者が正解タグを付与したシーンに近いシーンを素材映像から重要シーンとして抽出することができるようになる。

【0019】

図３（Ｂ）は、重要シーン検出モデルＭＩによる推論時の構成を示す。推論時には、素材映像が訓練済みの重要シーン検出モデルＭＩに入力される。重要シーン検出モデルＭＩは、素材映像から重要度を算出し、重要度が予め決められた閾値以上である部分を重要シーンとして抽出する。

【0020】

＜イベント区間検出モデル＞
次に、イベント区間検出モデルについて説明する。
（訓練データの生成方法）
図４（Ａ）は、イベント区間検出モデルの訓練に使用する訓練データの生成方法を説明する図である。まず、既存のダイジェスト映像が用意される。このダイジェスト映像は、適切な内容を含むものとして既に作成済みのダイジェスト映像であり、適切な箇所で区切られた複数のイベント区間Ａ～Ｃを含んでいる。

【0021】

イベント区間検出モデルの訓練装置は、素材映像とダイジェストとのマッチングを行い、ダイジェスト映像に含まれるイベント区間と同一内容の区間を素材映像から検出し、そのイベント区間の始点及び終点の時刻情報を取得する。なお、終点の代わりに、始点からの時間幅を用いてもよい。時刻情報は、素材映像におけるタイムコードやフレーム番号などとすることができる。図４（Ａ）の例では、ダイジェスト映像のイベント区間Ａ～Ｃに対応して、素材映像からイベント区間１～３が検出されている。

【0022】

なお、訓練装置は、素材映像とダイジェスト映像の内容が一致している一致区間の間に、僅かに内容が不一致の区間が存在したとしても、その不一致の区間が所定の時間幅（例えば１秒など）以下である場合には、その不一致の区間を前後の一致区間と一体として１つの一致区間としてもよい。図４（Ａ）の例では、素材映像のイベント区間３には、ダイジェスト映像中のイベント区間Ｃと一致しない不一致区間９０があるが、不一致区間９０の時間幅が所定値以下であるため、イベント区間３に含められている。

【0023】

訓練装置は、素材映像に含まれるイベントの時刻及びイベント名（イベントクラス）を含むメタ情報がある場合には、メタ情報を用いて、各イベント区間にイベント名を示すタグ情報を付与してもよい。図４（Ｂ）は、メタ情報を用いてタグ情報を付与する例を示す。メタ情報には、時刻ｔ_１のイベント名「三振」、時刻ｔ_２のイベント名「ヒット」、時刻ｔ_３のイベント名「ホームラン」を含んでいる。この場合、訓練装置は、素材映像から検出されたイベント区間１にタグ情報「三振」を付与し、イベント区間２にタグ情報「ヒット」を付与し、イベント区間３にタグ情報「ホームラン」を付与する。付与されたタグ情報は、訓練データにおける正解データの一部として使用される。

【0024】

上記の例では、イベント名を含むメタ情報を用いて各イベント区間にタグ情報を付与しているが、その代わりに、人間がダイジェスト映像を構成する各イベントを目視してダイジェスト映像にタグ情報を付与してもよい。その場合には、訓練装置は、素材映像とダイジェスト映像とのマッチングにより得られた対応関係に基づいて、ダイジェスト映像のイベント区間に付与されているタグ情報を、それと対応する素材映像のイベント区間に反映すればよい。例えば、図４（Ｂ）の例において、ダイジェスト映像のイベント区間Ａにタグ情報「三振」が付与されている場合、訓練装置は、それに対応する素材映像のイベント区間１にタグ情報「三振」を付加すればよい。

【0025】

（訓練装置の構成）
図５は、イベント区間検出モデルの訓練装置２００の機能構成を示すブロック図である。訓練装置２００は、入力部２１と、映像マッチング部２２と、区間情報生成部２３と、訓練データ生成部２４と、訓練部２５とを備える。

【0026】

入力部２１には、素材映像Ｄ１と、ダイジェスト映像Ｄ２とが入力される。素材映像Ｄ１は、訓練データの元になる映像である。入力部２１は、素材映像Ｄ１を訓練データ生成部２４へ出力し、素材映像Ｄ１とダイジェスト映像Ｄ２を映像マッチング部２２へ出力する。

【0027】

映像マッチング部２２は、図４（Ａ）に例示したように、素材映像Ｄ１とダイジェスト映像Ｄ２のマッチングを行い、映像の内容が一致している区間である一致区間を示す一致区間情報Ｄ３を生成して区間情報生成部２３へ出力する。

【0028】

区間情報生成部２３は、一致区間情報Ｄ３に基づいて、一連のシーンとなる区間情報を生成する。具体的に、区間情報生成部２３は、ある一致区間が所定の時間幅以上である場合、その一致区間をイベント区間と決定し、そのイベント区間の区間情報Ｄ４を訓練データ生成部２４へ出力する。また、前述のように、連続する２つの一致区間の間にある不一致区間の時間が所定の閾値以下である場合、区間情報生成部２３は、前後の一致区間とその不一致区間との全体を１つのイベント区間と決定する。区間情報Ｄ４は、素材映像Ｄ１におけるそのイベント区間を示す時刻情報を含む。具体的に、イベント区間を示す時刻情報は、イベント区間の始点と終点の時刻、又は、始点の時刻とイベント区間の時間幅を含む。

【0029】

訓練データ生成部２４は、素材映像Ｄ１と、区間情報Ｄ４とに基づいて、訓練データを生成する。具体的に、訓練データ生成部２４は、素材映像Ｄ１から区間情報Ｄ４が示すイベント区間に対応する部分を切り出した映像を訓練用映像とする。具体的には、訓練データ生成部２４は、イベント区間の前後にある程度の幅を持たせて素材映像Ｄ１から映像を切り出す。この場合、訓練データ生成部２４は、イベント区間の前後に持たせる幅をランダムに決定してもよく、予め指定した長さとしてもよい。イベント区間の前と後に付加する幅は同一でもよく、異なってもよい。また、訓練データ生成部２４は、区間情報Ｄ４が示すイベント区間の時刻情報を正解データとする。こうして、訓練データ生成部２４は、素材映像Ｄ１に含まれる各イベント区間について、訓練用映像と正解データとのセットである訓練データＤ５を生成し、訓練部２５へ出力する。

【0030】

訓練部２５は、訓練データ生成部２４が生成した訓練データＤ５を用いて、イベント区間検出モデルを訓練する。具体的には、訓練部２５は、訓練用映像をイベント区間検出モデルに入力し、イベント区間検出モデルの出力を正解データと比較し、その誤差に基づいてイベント区間検出モデルを最適化する。訓練部２５は、複数の素材映像から生成された複数の訓練データＤ５を用いてイベント区間検出モデルを訓練し、所定の終了条件が具備されたときに、訓練を終了する。こうして得られた訓練済みのイベント区間検出モデルは、入力された素材映像から適切にイベント区間を検出し、その区間を示す時刻情報、イベントらしさのスコア、イベント名を示すタグ情報などを含む検出結果を出力できるようになる。

【0031】

＜ダイジェスト生成装置＞
次に、上記の訓練済みの重要シーン検出モデル、及び、訓練済みのイベント区間検出モデルを用いたダイジェスト生成装置について説明する。

【0032】

［第１実施形態］
まず、第１実施形態に係るダイジェスト生成装置について説明する。
（ハードウェア構成）
図６は、第１実施形態に係るダイジェスト生成装置１００のハードウェア構成を示すブロック図である。図示のように、ダイジェスト生成装置１００は、インタフェース（ＩＦ）１１と、プロセッサ１２と、メモリ１３と、記録媒体１４と、データベース（ＤＢ）１５とを備える。

【0033】

ＩＦ１１は、外部装置との間でデータの入出力を行う。具体的に、素材映像ＤＢ２に保存されている素材映像はＩＦ１１を介してダイジェスト生成装置１００に入力される。また、ダイジェスト生成装置１００により生成されたダイジェスト映像は、ＩＦ１１を通じて外部装置へ出力される。

【0034】

プロセッサ１２は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのコンピュータであり、予め用意されたプログラムを実行することにより、ダイジェスト生成装置１００の全体を制御する。具体的に、プロセッサ１２は、後述するダイジェスト生成処理を実行する。

【0035】

メモリ１３は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などにより構成される。メモリ１３は、プロセッサ１２による各種の処理の実行中に作業メモリとしても使用される。

【0036】

記録媒体１４は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、ダイジェスト生成装置１００に対して着脱可能に構成される。記録媒体１４は、プロセッサ１２が実行する各種のプログラムを記録している。ダイジェスト生成装置１００が各種の処理を実行する際には、記録媒体１４に記録されているプログラムがメモリ１３にロードされ、プロセッサ１２により実行される。

【0037】

データベース１５は、ＩＦ１１を通じて入力された素材映像、ダイジェスト生成装置１００が生成したダイジェスト映像などを一時的に記憶する。また、データベース１５は、ダイジェスト生成装置１００が使用する訓練済みのイベント区間検出モデルの情報、訓練済みの重要シーン検出モデルの情報、各モデルの訓練に用いられる訓練データセットなどを記憶する。なお、ダイジェスト生成装置１００は、作成者が指示や入力を行うためのキーボード、マウスなどの入力部、及び、液晶ディスプレイなどの表示部を備えていてもよい。

【0038】

（イベント区間の検出方法）
図７は、第１実施形態のダイジェスト生成装置１００によるイベント区間の検出方法を模式的に示す。第１実施形態では、まず、素材映像から重要シーンを検出し、検出された重要シーンを含む部分映像をイベント区間検出モデルに入力してイベント区間を検出する。

【0039】

具体的には、素材映像が訓練済みの重要シーン検出モデルＭＩに入力される。重要シーン検出モデルＭＩは、素材映像から重要シーンを検出する。ダイジェスト生成装置１００は、検出された重要シーンを含む部分映像を素材映像から切り出し、訓練済みのイベント区間検出モデルＭＥに入力する。イベント区間検出モデルＭＥは、入力された部分映像からイベント区間を検出する。こうすることにより、ダイジェスト生成装置１００は、素材映像のうち、重要シーンが含まれる部分映像に対してのみ推論処理を行えばよいので、推論処理を効率化することができる。

【0040】

（機能構成）
図８は、第１実施形態に係るダイジェスト生成装置１００の機能構成を示すブロック図である。ダイジェスト生成装置１００は、推論部３０と、ダイジェスト生成部４０とを備える。推論部３０は、入力部３１と、重要シーン検出部３２と、映像切り出し部３３と、イベント区間検出部３４とを備える。

【0041】

入力部３１には、素材映像Ｄ１１が入力される。入力部３１は、素材映像Ｄ１１を重要シーン検出部３２及び映像切り出し部３３へ出力する。

【0042】

重要シーン検出部３２は、訓練済みの重要シーン検出モデルを用いて、素材映像Ｄ１１から重要シーンを検出し、重要シーン情報Ｄ１２を映像切り出し部３３へ出力する。重要シーン情報Ｄ１２は、例えば検出された重要シーンの始点及び終点の時刻を含む。

【0043】

映像切り出し部３３は、素材映像Ｄ１１から、重要シーンを含む部分の映像を切り出し、部分映像Ｄ１３としてイベント区間検出部３４へ出力する。一例では、映像切り出し部３３は、重要シーン情報Ｄ１２が示す重要シーンの前後にそれぞれ所定時間幅の区間を付加した範囲を部分映像として切り出す。この場合、重要シーンの前後に付加する時間幅は異なってもよい。

【0044】

また、映像切り出し部３３は、重要シーンにおける重要度の値又はその変化に応じて、重要シーンの前後に付加する時間幅を変更してもよい。前述のように、重要シーン検出モデルは、素材映像の重要度が所定の閾値以上である区間を重要シーンとして出力する。よって、例えば、重要シーンの前端又は後端付近における重要度の変化が急な場合には前後に付加する時間幅を小さくし、重要度の変化が緩やかな場合には前後に付加する時間幅を大きくしてもよい。また、重要度の変化が非常に大きい場合には、その直後に重要シーンが続いている可能性がある。よって、映像切り出し部３３は、重要度の変化が非常に大きい場合には、その前後における重要シーンの有無を考慮して、切り出す部分映像の区間を決定してもよい。例えば、映像切り出し部３３は、ある重要シーンの前端又は後端の重要度の変化が所定値より大きい場合、その前後に隣接して重要シーンがあるか否かを判定し、隣接する重要シーンとの時間間隔が所定値以下である場合には、それら２つの重要シーンを含む部分映像を切り出してもよい。

【0045】

イベント区間検出部３４は、訓練済みのイベント区間検出モデルを用いて、部分映像Ｄ１３からイベント区間を検出し、検出結果Ｄ１４をダイジェスト生成部４０へ出力する。検出結果Ｄ１４は、素材映像から検出された複数のイベント区間の時刻情報、イベントらしさのスコア、タグ情報などを含む。

【0046】

ダイジェスト生成部４０には、素材映像Ｄ１１と、推論部３０による検出結果Ｄ１４とが入力される。ダイジェスト生成部４０は、検出結果Ｄ１４が示すイベント区間の映像を素材映像Ｄ１１から切り出し、時系列に並べてダイジェスト映像を生成する。こうして、訓練済みのイベント区間検出モデルを用いて、ダイジェスト映像を生成することができる。

【0047】

上記の構成において、入力部３１は取得手段の一例であり、重要シーン検出部３２は重要シーン検出手段の一例であり、映像切り出し部３３は映像切り出し手段の一例であり、イベント区間検出部３４はイベント区間検出手段の一例であり、ダイジェスト生成部４０はダイジェスト生成手段の一例である。

【0048】

（ダイジェスト生成処理）
図９は、第１実施形態のダイジェスト生成装置１００によるダイジェスト生成処理のフローチャートである。この処理は、図６に示すプロセッサ１２が、予め用意されたプログラムを実行し、図８に示す各要素として動作することにより実現される。

【0049】

まず、入力部３１が素材映像Ｄ１１を取得する（ステップＳ３１）。重要シーン検出部３２は、素材映像Ｄ１１から重要シーンを検出し、重要シーン情報Ｄ１２を映像切り出し部３３へ出力する（ステップＳ３２）。次に、映像切り出し部３３は、重要シーン情報Ｄ１２に基づいて、素材映像Ｄ１１から重要シーンに対応する部分映像Ｄ１３を切り出し、イベント区間検出部３４へ出力する（ステップＳ３３）。

【0050】

次に、イベント区間検出部３４は、訓練済みのイベント区間検出モデルを用いて部分映像Ｄ１３からイベント区間を検出し、検出結果Ｄ１４をダイジェスト生成部４０へ出力する（ステップＳ３４）。ダイジェスト生成部４０は、素材映像Ｄ１１と検出結果Ｄ１４とに基づいて、ダイジェスト映像を生成する（ステップＳ３５）。そして、処理は終了する。

【0051】

このように、第１実施形態のダイジェスト生成装置１００によれば、素材映像のうち重要シーンを含む映像部分のみをイベント区間検出部３４の処理対象とするので、素材映像全体からイベント区間を検出する場合と比較して、イベント区間を検出する処理の効率を改善することができる。

【0052】

［第２実施形態］
次に、ダイジェスト生成装置の第２実施形態について説明する。第２実施形態のダイジェスト生成装置１００ｘのハードウェア構成は、図６に示す第１実施形態のものと同様であるので、説明を省略する。

【0053】

（イベント区間の検出方法）
図１０は、第２実施形態のダイジェスト生成装置１００ｘによるイベント区間の検出方法を模式的に示す。第２実施形態では、ダイジェスト生成装置１００ｘは、まず、訓練済みのイベント区間検出モデルＭＥを用いて素材映像から複数のイベント区間候補Ｅを検出する。次に、ダイジェスト生成装置１００ｘは、得られたイベント区間候補Ｅについて、重要シーン検出モデルを用いて重要度を算出し、重要度が所定の閾値より高いイベント区間候補Ｅを、イベント区間として選択する。

【0054】

具体的には、素材映像が訓練済みのイベント区間検出モデルＭＥに入力される。イベント区間検出モデルＭＥは、素材映像からイベント区間候補Ｅを検出する。ダイジェスト生成装置１００は、検出された複数のイベント区間候補Ｅを訓練済みの重要シーン検出モデルＭＩに入力する。重要シーン検出モデルＭＩは、入力された各イベント区間候補Ｅの重要度を算出し、所定の閾値以上のイベント区間候補を、イベント区間として選択する。これにより、イベント区間候補Ｅのうち、重要度が高いものが最終的なイベント区間として選択される。よって、イベント区間候補Ｅとして検出されたシーンであっても、重要度が高くないシーンはダイジェスト映像から除外することができる。なお、ダイジェスト生成装置１００ｘは、同一の時刻に対応して複数のイベント区間候補Ｅが検出された場合には、重要度が最も高いイベント区間候補Ｅをイベント区間として選択すればよい。

【0055】

（機能構成）
図１１は、第２実施形態に係るダイジェスト生成装置１００ｘの機能構成を示すブロック図である。ダイジェスト生成装置１００ｘは、推論部３０ｘと、ダイジェスト生成部４０とを備える。推論部３０ｘは、入力部３１と、候補検出部３５と、重要シーン検出部３６と、選択部３７とを備える。

【0056】

入力部３１には、素材映像Ｄ１１が入力される。入力部３１は、素材映像Ｄ１１を候補検出部３５へ出力する。

【0057】

候補検出部３５は、訓練済みのイベント区間検出モデルを用いて、素材映像Ｄ１１からイベント区間候補Ｅを検出し、イベント区間候補情報Ｄ１６を重要シーン検出部３６へ出力する。重要シーン検出部３６は、入力された各イベント区間候補Ｅについて重要度を算出し、重要度情報Ｄ１７として選択部３７へ出力する。

【0058】

選択部３７は、各イベント区間候補Ｅの重要度に基づいてイベント区間を選択する。具体的には、選択部３７は、重要度が所定の閾値以上であるイベント区間候補Ｅをイベント区間として選択し、検出結果Ｄ１８としてダイジェスト生成部４０へ出力する。ダイジェスト生成部４０は、第１実施形態と同様であり、素材映像Ｄ１１と検出結果Ｄ１８とを用いて、ダイジェスト映像を生成する。

【0059】

上記の構成において、入力部３１は取得手段の一例であり、重要シーン検出部３６は重要シーン検出手段の一例であり、候補検出部３５及び選択部３７はイベント区間検出手段の一例であり、ダイジェスト生成部４０はダイジェスト生成手段の一例である。

【0060】

（ダイジェスト生成処理）
図１２は、第２実施形態のダイジェスト生成装置１００ｘにより実行されるダイジェスト生成処理のフローチャートである。この処理は、図６に示すプロセッサ１２が、予め用意されたプログラムを実行し、図１１に示す各要素として動作することにより実現される。

【0061】

まず、入力部３１が素材映像Ｄ１１を取得する（ステップＳ４１）。候補検出部３５は、訓練済みのイベント区間検出モデルを用いて素材映像からイベント区間候補Ｅを検出し、イベント区間候補情報Ｄ１６を重要シーン検出部３６へ出力する（ステップＳ４２）。次に、重要シーン検出部３６は、各イベント区間候補Ｅの重要度を算出し、重要度情報Ｄ１７を選択部３７へ出力する（ステップＳ４３）。

【0062】

選択部３７は、重要度が所定の閾値以上であるイベント区間候補Ｅをイベント区間として選択し、検出結果Ｄ１８としてダイジェスト生成部４０へ出力する（ステップＳ４４）。ダイジェスト生成部４０は、素材映像Ｄ１１と検出結果Ｄ１８とに基づいて、ダイジェスト映像を生成する（ステップＳ４５）。そして、処理は終了する。

【0063】

このように、第２実施形態のダイジェスト生成装置１００ｘによれば、素材映像から検出された複数のイベント区間候補から、重要度に基づいて適切なイベント区間候補を選択してダイジェスト映像を作成することができる。

【0064】

［第３実施形態］
次に、第３実施形態に係る情報処理装置について説明する。図１３は、第３実施形態に係る情報処理装置の機能構成を示すブロック図である。図示のように、情報処理装置７０は、取得手段７１と、重要シーン検出手段７２と、イベント区間検出手段７３とを備える。

【0065】

図１４は、情報処理装置７０による処理のフローチャートである。取得手段７１は、素材映像を取得する（ステップＳ７１）。重要シーン検出手段７２は、素材映像中の重要シーンを検出する（ステップＳ７２）。イベント区間検出手段７３は、重要シーンの検出結果を用いて、素材映像中のイベント区間を検出する（ステップＳ７３）。

【0066】

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

【0067】

（付記１）
素材映像を取得する取得手段と、
前記素材映像中の重要シーンを検出する重要シーン検出手段と、
前記重要シーンの検出結果を用いて、前記素材映像中のイベント区間を検出するイベント区間検出手段と、
を備える情報処理装置。

【0068】

（付記２）
前記素材映像における重要シーンを含む部分を切り出して部分映像を生成する映像切り出し手段を備え、
前記イベント区間検出手段は、前記部分映像から前記イベント区間を検出する付記１に記載の情報処理装置。

【0069】

（付記３）
前記映像切り出し手段は、前記重要シーンの前後に所定の時間幅を付加した範囲を前記部分映像として切り出す付記２に記載の情報処理装置。

【0070】

（付記４）
前記重要シーン検出手段は、前記素材映像に含まれるシーンの重要度を算出し、
前記映像切り出し手段は、前記重要シーンの重要度の値又は重要度の値の変化に基づいて、前記部分映像として切り出す範囲を変更する付記３に記載の情報処理装置。

【0071】

（付記５）
前記イベント区間検出手段は、前記素材映像から複数のイベント区間候補を検出し、前記重要シーンの検出結果に基づいて、前記複数のイベント区間候補からイベント区間を選択する付記１に記載の情報処理装置。

【0072】

（付記６）
前記重要シーン検出手段は、前記複数のイベント区間候補の重要度を算出し、
前記イベント区間検出手段は、前記重要度が所定値以上であるイベント区間候補をイベント区間として選択する付記５に記載の情報処理装置。

【0073】

（付記７）
前記イベント区間検出手段は、同一の時刻に対応するイベント区間候補を複数検出した場合、前記重要度が最も高いイベント区間候補をイベント区間として選択する付記６に記載の情報処理装置。

【0074】

（付記８）
前記素材映像と、前記イベント区間検出手段が検出したイベント区間とに基づいて、イベント区間の映像を時系列につなげてダイジェスト映像を生成するダイジェスト生成手段を備える付記１乃至７のいずれか一項に記載の情報処理装置。

【0075】

（付記９）
素材映像を取得し、
前記素材映像中の重要シーンを検出し、
前記重要シーンの検出結果を用いて、前記素材映像中のイベント区間を検出する情報処理方法。

【0076】

（付記１０）
素材映像を取得し、
前記素材映像中の重要シーンを検出し、
前記重要シーンの検出結果を用いて、前記素材映像中のイベント区間を検出する処理をコンピュータに実行させるプログラムを記録した記録媒体。

【0077】

以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

【符号の説明】

【0078】

１２プロセッサ
２１、３１入力部
２２映像マッチング部
２３区間情報生成部
２４訓練データ生成部
２５訓練部
３０、３０ｘ推論部
３２、３６重要シーン検出部
３３映像切り出し部
３４イベント区間検出部
３５候補検出部
３７選択部
４０ダイジェスト生成部
１００、１００ｘダイジェスト生成装置
２００訓練装置

【図1】