(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-10-30
(45)【発行日】2023-11-08
(54)【発明の名称】情報処理装置、制御方法及び、プログラム
(51)【国際特許分類】
H04N 5/91 20060101AFI20231031BHJP
H04N 5/765 20060101ALI20231031BHJP
【FI】
H04N5/91
H04N5/765
(21)【出願番号】P 2022527327
(86)(22)【出願日】2020-05-26
(86)【国際出願番号】 JP2020020775
(87)【国際公開番号】W WO2021240654
(87)【国際公開日】2021-12-02
【審査請求日】2022-11-16
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100107331
【氏名又は名称】中村 聡延
(74)【代理人】
【識別番号】100104765
【氏名又は名称】江上 達夫
(74)【代理人】
【識別番号】100131015
【氏名又は名称】三輪 浩誉
(72)【発明者】
【氏名】鍋藤 悠
(72)【発明者】
【氏名】菊池 克
(72)【発明者】
【氏名】白石 壮馬
(72)【発明者】
【氏名】渡辺 はるな
【審査官】川中 龍太
(56)【参考文献】
【文献】特開2008-312061(JP,A)
【文献】特開2012-070283(JP,A)
【文献】特開2014-112787(JP,A)
【文献】特開2007-174260(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 5/76 - 5/956
(57)【特許請求の範囲】
【請求項1】
第1カメラにより撮影された第1素材映像データのダイジェストの候補となる候補映像データに基づき、前記第1カメラとは異なる第2カメラの映像データを抽出する基準となる時刻又は時間帯である基準時間を決定する基準時間決定手段と、
前記基準時間に基づき、前記第2カメラにより撮影された第2素材映像データの一部の映像データとなる他カメラショットを抽出する他カメラショット抽出手段と、
前記候補映像データと、前記他カメラショットと、に基づき、前記第1素材映像データ及び前記第2素材映像データに対するダイジェストの候補であるダイジェスト候補を生成するダイジェスト候補生成手段と、
を有する情報処理装置。
【請求項2】
前記他カメラショット抽出手段は、前記基準時間に基づき、前記第2素材映像データにおいて映像又は音の、変化又は切替が生じる切替点を検出し、当該切替点に基づき前記他カメラショットを抽出する、請求項1に記載の情報処理装置。
【請求項3】
前記他カメラショット抽出手段は、前記基準時間が時間帯を示す場合、前記時間帯の始点を基準として探索した前記第2素材映像データの第1切替点と、前記時間帯の終点を基準として探索した前記第2素材映像データの第2切替点と、に基づき、前記他カメラショットを抽出する、請求項2に記載の情報処理装置。
【請求項4】
前記他カメラショット抽出手段は、前記基準時間が示す時間帯に対応する前記第2素材映像データの映像データを、前記他カメラショットとして抽出する、請求項1に記載の情報処理装置。
【請求項5】
前記第1素材映像データに対する時系列の第1スコアに基づき、前記第1素材映像データから前記候補映像データを選定する候補映像データ選定手段をさらに有する、請求項1~4のいずれか一項に記載の情報処理装置。
【請求項6】
前記基準時間決定手段は、前記候補映像データに対する前記第1スコア又は前記第1スコアとは異なる第2スコアに基づき、前記基準時間の決定に用いる前記候補映像データである基準候補映像データを選定する、請求項5に記載の情報処理装置。
【請求項7】
前記候補映像データ選定手段は、入力された映像データに対して前記第1スコアを推論するように学習された第1推論器に対し、前記第1素材映像データの区間毎の区間映像データを入力することで得られる前記第1スコアに基づき、前記候補映像データを選定し、
前記基準時間決定手段は、入力された映像データに対して前記第2スコアを推論するように学習された第2推論器に対し、前記候補映像データを入力することで得られる前記第2スコアに基づき、前記基準候補映像データを選定する、請求項6に記載の情報処理装置。
【請求項8】
前記第1推論器は、重要区間か否かに関するラベルが付された学習用素材映像データに基づき学習された推論器であり、
前記第2推論器は、特定のイベントが発生しているか否かに関するラベルが付された学習用素材映像データに基づき学習された推論器である、請求項7に記載の情報処理装置。
【請求項9】
コンピュータにより、
第1カメラにより撮影された第1素材映像データのダイジェストの候補となる候補映像データに基づき、前記第1カメラとは異なる第2カメラの映像データを抽出する基準となる時刻又は時間帯である基準時間を決定し、
前記基準時間に基づき、前記第2カメラにより撮影された第2素材映像データの一部の映像データとなる他カメラショットを抽出し、
前記候補映像データと、前記他カメラショットと、に基づき、前記第1素材映像データ及び前記第2素材映像データに対するダイジェストの候補であるダイジェスト候補を生成する、
制御方法。
【請求項10】
第1カメラにより撮影された第1素材映像データのダイジェストの候補となる候補映像データに基づき、前記第1カメラとは異なる第2カメラの映像データを抽出する基準となる時刻又は時間帯である基準時間を決定する基準時間決定手段と、
前記基準時間に基づき、前記第2カメラにより撮影された第2素材映像データの一部の映像データとなる他カメラショットを抽出する他カメラショット抽出手段と、
前記候補映像データと、前記他カメラショットと、に基づき、前記第1素材映像データ及び前記第2素材映像データに対するダイジェストの候補であるダイジェスト候補を生成するダイジェスト候補生成手段
としてコンピュータを機能させるプログラム
。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、ダイジェストの生成に関する処理を行う情報処理装置、制御方法及び記憶媒体の技術分野に関する。
【背景技術】
【0002】
素材となる映像データを編集してダイジェストを生成する技術が存在する。例えば、特許文献1には、グランドでのスポーツイベントの映像ストリームからハイライトを確認して製作する方法が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
スポーツなどを対象とする撮影では、複数のカメラを用いて撮影を行うことが一般である。一方、特許文献1には、複数カメラにより夫々生成された映像データに基づきダイジェストを生成する方法については、何ら開示がない。
【0005】
本開示の目的は、上記の課題を勘案し、複数カメラの映像データに基づくダイジェスト候補を好適に生成することが可能な情報処理装置、制御方法及び記憶媒体を提供することである。
【課題を解決するための手段】
【0006】
情報処理装置の一の態様は、第1カメラにより撮影された第1素材映像データのダイジェストの候補となる候補映像データに基づき、前記第1カメラとは異なる第2カメラの映像データを抽出する基準となる時刻又は時間帯である基準時間を決定する基準時間決定手段と、前記基準時間に基づき、前記第2カメラにより撮影された第2素材映像データの一部の映像データとなる他カメラショットを抽出する他カメラショット抽出手段と、前記候補映像データと、前記他カメラショットと、に基づき、前記第1素材映像データ及び前記第2素材映像データに対するダイジェストの候補であるダイジェスト候補を生成するダイジェスト候補生成手段と、を有する情報処理装置である。
【0007】
制御方法の一の態様は、コンピュータにより、第1カメラにより撮影された第1素材映像データのダイジェストの候補となる候補映像データに基づき、前記第1カメラとは異なる第2カメラの映像データを抽出する基準となる時刻又は時間帯である基準時間を決定し、前記基準時間に基づき、前記第2カメラにより撮影された第2素材映像データの一部の映像データとなる他カメラショットを抽出し、前記候補映像データと、前記他カメラショットと、に基づき、前記第1素材映像データ及び前記第2素材映像データに対するダイジェストの候補であるダイジェスト候補を生成する、制御方法である。
【0008】
プログラムの一の態様は、第1カメラにより撮影された第1素材映像データのダイジェストの候補となる候補映像データに基づき、前記第1カメラとは異なる第2カメラの映像データを抽出する基準となる時刻又は時間帯である基準時間を決定する基準時間決定手段と、前記基準時間に基づき、前記第2カメラにより撮影された第2素材映像データの一部の映像データとなる他カメラショットを抽出する他カメラショット抽出手段と、前記候補映像データと、前記他カメラショットと、に基づき、前記第1素材映像データ及び前記第2素材映像データに対するダイジェストの候補であるダイジェスト候補を生成するダイジェスト候補生成手段としてコンピュータを機能させるプログラムである。
【発明の効果】
【0009】
本開示によれば、複数のカメラにより生成された映像データに基づくダイジェストの候補を好適に生成することができる。
【図面の簡単な説明】
【0010】
【
図1】第1実施形態におけるダイジェスト候補選定システムの構成を示す。
【
図4】(A)第1素材映像データの再生時間長に応じた長さの帯グラフにより第1素材映像データを表した図である。(B)第1素材映像データの時系列での第1スコアを示す線グラフである。(C)第2素材映像データの再生時間長に応じた長さの帯グラフにより第2素材映像データを表した図である。(D)第2素材映像データの時系列での第1スコアを示す線グラフである。
【
図5】(A)第1素材映像データの帯グラフである。(B)他カメラショットを明示した第2素材映像データの帯グラフである。(C)第1素材映像データ及び第2素材映像データに基づき生成されるダイジェスト候補の帯グラフである。
【
図6】(A)第1素材映像データD1の帯グラフである。(B)他カメラショットを明示した第2素材映像データの帯グラフである。(C)第1素材映像データ及び第2素材映像データに基づき生成されるダイジェスト候補の帯グラフである。
【
図7】第1推論器及び第2推論器の学習を行う学習システムの概略構成図である。
【
図8】第1実施形態において情報処理装置が実行する処理の手順を示すフローチャートの一例である。
【
図9】変形例1において情報処理装置が実行する処理の手順を示すフローチャートの一例である。
【
図10】(A)第1素材映像データの帯グラフを示す。(B)他カメラショットを明示した第2素材映像データの帯グラフを示す。(C)生成されたダイジェスト候補の帯グラフを示す。
【
図11】変形例3において情報処理装置が実行する処理の手順を示すフローチャートの一例である。
【
図12】第2実施形態における情報処理装置の機能ブロック図である。
【
図13】第2実施形態において情報処理装置が実行するフローチャートの一例である。
【発明を実施するための形態】
【0011】
以下、図面を参照しながら、情報処理装置、制御方法及び記憶媒体の実施形態について説明する。
【0012】
<第1実施形態>
(1)
システム構成
図1は、第1実施形態に係るダイジェスト候補選定システム100の構成を示す。ダイジェスト候補選定システム100は、複数のカメラにより撮影された映像データからダイジェストの候補となる映像データ(「ダイジェスト候補Cd」とも呼ぶ。)を好適に選定する。ダイジェスト候補選定システム100は、主に、情報処理装置1と、入力装置2と、出力装置3と、記憶装置4と、第1カメラ8aと、第2カメラ8bと、を備える。以後において、映像データは、音データを含んでもよい。また、ダイジェスト候補Cdの選定において素材となる映像データを「素材映像データ」と呼ぶ。
【0013】
情報処理装置1は、通信網を介し、又は、無線若しくは有線による直接通信により、入力装置2、及び出力装置3とデータ通信を行う。情報処理装置1は、第1カメラ8a及び第2カメラ8bが撮影した各素材映像データに基づき、ダイジェスト候補Cdを生成する。
【0014】
第1カメラ8a及び第2カメラ8bは、例えば、催し物の会場(例えばスポーツフィールド)において用いられるカメラであり、同一時間帯において異なる位置から催し物に関する撮影を行う。例えば、第1カメラ8aは、ダイジェスト候補Cdを生成する主な映像を生成するカメラであり、第2カメラ8bは、特定の重要場面においてダイジェスト候補Cdの一部として採用される映像を生成するカメラである。例えば、球技の撮影では、第1カメラ8aは、球技場の全体を撮影するカメラであり、第2カメラ8bは、球付近の選手を主に撮影するカメラであってもよい。
【0015】
入力装置2は、ユーザ入力を受け付ける任意のユーザインターフェースであり、例えば、ボタン、キーボード、マウス、タッチパネル、音声入力装置などが該当する。入力装置2は、ユーザ入力に基づき生成した入力信号「S1」を、情報処理装置1へ供給する。出力装置3は、例えば、ディスプレイ、プロジェクタ等の表示装置、及び、スピーカ等の音出力装置であり、情報処理装置1から供給される出力信号「S2」に基づき、所定の表示又は/及び音出力(ダイジェスト候補Cdの再生などを含む)を行う。
【0016】
記憶装置4は、情報処理装置1の処理に必要な各種情報を記憶するメモリである。記憶装置4は、例えば、第1素材映像データD1と、第2素材映像データD2と、第1推論器情報D3と、第2推論器情報D4とを記憶する。
【0017】
第1素材映像データD1は、第1カメラ8aが生成した映像データである。第2素材映像データD2は、第2カメラ8bが生成した映像データである。第1素材映像データD1及び第2素材映像データD2は、少なくとも一部が重複する時間帯に撮影された映像データとなる。また、第1素材映像データD1及び第2素材映像データD2には、撮影時刻を示すメタ情報が含まれている。
【0018】
なお、第1素材映像データD1及び第2素材映像データD2は、夫々、第1カメラ8a及び第2カメラ8bからデータ通信を介して記憶装置4に記憶されてもよく、持ち運び可能な記憶媒体を介して記憶装置4に記憶されてもよい。これらの場合、情報処理装置1は、第1カメラ8a及び第2カメラ8bからデータ通信又は記憶媒体を介して第1素材映像データD1及び第2素材映像データD2を受信した後、当該第1素材映像データD1及び第2素材映像データD2を記憶装置4に記憶してもよい。
【0019】
第1推論器情報D3は、入力された映像データに対する第1のスコア(「第1スコア」とも呼ぶ。)を推論する推論器である第1推論器に関する情報である。第1スコアは、例えば、入力された映像データの重要度を示すスコアであり、上述の重要度は、入力された映像データが重要区間であるか又は非重要区間であるか(即ちダイジェストの一区間として相応しいか否か)を判定するための基準となる指標である。
【0020】
第1推論器は、例えば、映像データを構成する所定枚数(1枚以上)の画像が入力された場合に、対象の映像データに対する第1スコアを推論するように予め学習され、第1推論器情報D3には、学習された第1推論器のパラメータが含まれる。本実施形態では、情報処理装置1は、第1素材映像データD1を所定の再生時間長の区間毎に第1素材映像データD1を分割した映像データ(「区間映像データ」とも呼ぶ。)を、第1推論器に順次入力する。なお、第1推論器は、対象となる映像データを構成する画像に加え、当該映像データに含まれる音データを入力として第1スコアを推論してもよい。この場合、第1推論器には、音データから算出した特徴量が入力されてもよい。
【0021】
第2推論器情報D4は、入力された映像データに対する第2のスコア(「第2スコア」とも呼ぶ。)を推論する推論器である第2推論器に関する情報である。第2スコアは、特定のイベントが発生しているか否かの確からしさを示すスコアである。上述の「特定のイベント」は、撮影対象の催し物において重要なイベントを指し、例えば、催し物において重要な特定の行動(例えば野球におけるホームラン)の発生又はその他の事象の発生(例えば得点を競う競技における得点の発生)などが該当する。
【0022】
第2推論器は、例えば、映像データを構成する所定枚数の画像が入力された場合に、対象の映像データに対する第2スコアを推論するように予め学習され、第2推論器情報D4には、学習された第2推論器のパラメータが含まれる。本実施形態では、情報処理装置1は、第1推論器が出力する第1スコアに基づき選定された区間映像データの各々を第2推論器に順次入力する。なお、第2推論器は、対象となる映像データを構成する画像に加え、当該映像データに含まれる音データを入力として第2スコアを推論してもよい。
【0023】
第1推論器及び第2推論器の学習モデルは、それぞれ、ニューラルネットワーク又はサポートベクターマシンなどの任意の機械学習に基づく学習モデルであってもよい。例えば、上述の第1推論器及び第2推論器のモデルが畳み込みニューラルネットワークなどのニューラルネットワークである場合、第1推論器情報D3及び第2推論器情報D4は、層構造、各層のニューロン構造、各層におけるフィルタ数及びフィルタサイズ、並びに各フィルタの各要素の重みなどの各種パラメータを含む。
【0024】
なお、記憶装置4は、情報処理装置1に接続又は内蔵されたハードディスクなどの外部記憶装置であってもよく、フラッシュメモリなどの記憶媒体であってもよい。また、記憶装置4は、情報処理装置1とデータ通信を行うサーバ装置であってもよい。また、記憶装置4は、複数の装置から構成されてもよい。この場合、記憶装置4は、第1推論器情報D3及び第2推論器情報D4を分散して記憶してもよい。
【0025】
以上において説明したダイジェスト候補選定システム100の構成は一例であり、当該構成に種々の変更が行われてもよい。例えば、入力装置2及び出力装置3は、一体となって構成されてもよい。この場合、入力装置2及び出力装置3は、情報処理装置1と一体となるタブレット型端末として構成されてもよい。他の例では、ダイジェスト候補選定システム100は、入力装置2又は出力装置3の少なくとも一方を備えなくともよい。さらに別の例では、情報処理装置1は、複数の装置から構成されてもよい。この場合、情報処理装置1を構成する複数の装置は、予め割り当てられた処理を実行するために必要な情報の授受を、これらの複数の装置間において行う。
【0026】
(2)
情報処理装置のハードウェア構成
図2は、情報処理装置1のハードウェア構成を示す。情報処理装置1は、ハードウェアとして、プロセッサ11と、メモリ12と、インターフェース13とを含む。プロセッサ11、メモリ12及びインターフェース13は、データバス19を介して接続されている。
【0027】
プロセッサ11は、メモリ12に記憶されているプログラムを実行することにより、所定の処理を実行する。プロセッサ11は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、量子プロセッサなどのプロセッサである。
【0028】
メモリ12は、RAM(Random Access Memory)、ROM(Read Only Memory)などの各種の揮発性メモリ及び不揮発性メモリにより構成される。また、メモリ12には、情報処理装置1が実行するプログラムが記憶される。また、メモリ12は、作業メモリとして使用され、記憶装置4から取得した情報等を一時的に記憶する。なお、メモリ12は、記憶装置4として機能してもよい。同様に、記憶装置4は、情報処理装置1のメモリ12として機能してもよい。なお、情報処理装置1が実行するプログラムは、メモリ12以外の記憶媒体に記憶されてもよい。
【0029】
インターフェース13は、情報処理装置1と他の装置とを電気的に接続するためのインターフェースである。例えば、情報処理装置1と他の装置とを接続するためのインターフェースは、プロセッサ11の制御に基づき他の装置とデータの送受信を有線又は無線により行うためのネットワークアダプタなどの通信インターフェースであってもよい。他の例では、情報処理装置1と他の装置とはケーブル等により接続されてもよい。この場合、インターフェース13は、他の装置とデータの授受を行うためのUSB(Universal Serial Bus)、SATA(Serial AT Attachment)などに準拠したハードウェアインターフェースを含む。
【0030】
なお、情報処理装置1のハードウェア構成は、
図2に示す構成に限定されない。例えば、情報処理装置1は、入力装置2又は出力装置3の少なくとも一方を含んでもよい。
【0031】
(3)機能ブロック
情報処理装置1は、ダイジェスト候補Cdに含める区間映像データの候補(「候補映像データCd1」とも呼ぶ。)に基づき、第2カメラの映像データを抽出する基準となる撮影時刻又は撮影時間帯(「基準時間Tref」とも呼ぶ。)を決定する。そして、情報処理装置1は、基準時間Trefに基づき第2素材映像データD2から抽出した一まとまりの映像データ(「他カメラショットSh」とも呼ぶ。)と、候補映像データCd1とに基づき、ダイジェスト候補Cdを生成する。以下では、上述の処理を実現するための情報処理装置1の機能ブロックについて説明する。
【0032】
情報処理装置1のプロセッサ11は、機能的には、候補映像データ選定部15と、基準時間決定部16と、他カメラショット抽出部17と、ダイジェスト候補生成部18とを有する。なお、
図3では、データの授受が行われるブロック同士を実線により結んでいるが、データの授受が行われるブロックの組合せは
図3に限定されない。後述する他の機能ブロックの図においても同様である。
【0033】
候補映像データ選定部15は、インターフェース13を介して取得した第1素材映像データD1に対して区間毎に第1スコアを算出し、第1スコアに基づき候補映像データCd1を区間映像データから選定する。そして、候補映像データ選定部15は、選定した候補映像データCd1を、基準時間決定部16及びダイジェスト候補生成部18に供給する。
【0034】
この場合、まず、候補映像データ選定部15は、第1素材映像データD1を区間毎に分割した映像データである区間映像データを生成する。ここで、区間映像データは、例えば、第1素材映像データD1を単位時間長の区間により区切ったデータであり、所定枚数分の画像を含むデータとなる。そして、候補映像データ選定部15は、第1推論器情報D3を参照することで第1推論器を構成し、区間映像データを第1推論器に順次入力することで、入力した区間映像データに対する第1スコアを算出する。これにより、候補映像データ選定部15は、重要性が高い区間映像データほど高い値となる第1スコアを算出する。そして、候補映像データ選定部15は、第1スコアが予め定めた所定の閾値(「閾値Th1」とも呼ぶ。)以上となる区間映像データを、候補映像データCd1として選定する。
【0035】
なお、候補映像データ選定部15は、第1スコアが閾値Th1以上となる区間映像データが時系列において連続する1つのシーンを構成する場合、連続する区間映像データを、1つのまとまった候補映像データCd1とみなしてもよい。この場合、候補映像データCd1は、少なくとも1つ以上の区間映像データを含み、再生時間長が夫々異なる可能性がある映像データとなる。
【0036】
基準時間決定部16は、候補映像データCd1に基づき、基準時間Trefを決定する。そして、基準時間決定部16は、決定した基準時間Trefを他カメラショット抽出部17に供給する。
【0037】
この場合、基準時間決定部16は、第2推論器情報D4を参照することで第2推論器を構成し、当該第2推論器に候補映像データCd1を順次入力することで、入力した候補映像データCd1に対する第2スコアを算出する。ここで、第2スコアは、特定のイベントが発生している蓋然性が高いほど高い値を示す。そして、基準時間決定部16は、第2スコアが予め定めた所定の閾値(「閾値Th2」とも呼ぶ。)以上となる候補映像データCd1を、基準時間Trefを設ける対象となる候補映像データCd1(「基準候補映像データCd2」とも呼ぶ。)として選定する。そして、基準時間決定部16は、基準候補映像データCd2の撮影時間帯又は撮影時刻を、基準時間Trefとして定める。この場合、第1の例では、基準時間決定部16は、基準候補映像データCd2の撮影時間帯を、そのまま基準時間Trefとして設定する。第2の例では、基準時間決定部16は、基準候補映像データCd2の撮影時間帯の中心時刻(又はその他の代表的な時刻)を、基準時間Trefとして設定する。このように設定された基準時間Trefは、特定のイベントが発生している蓋然性が高い特徴的な撮影時刻又は撮影時間帯となる。
【0038】
他カメラショット抽出部17は、基準時間Trefに基づき、第2素材映像データD2から一まとまりの映像データである他カメラショットShを抽出し、抽出した他カメラショットShをダイジェスト候補生成部18へ供給する。この場合、他カメラショット抽出部17は、基準時間Trefに基づき、第2素材映像データD2において映像又は音の変化又は切替が発生する時刻(「切替点」とも呼ぶ。)を2つ検出する。そして、他カメラショット抽出部17は、検出した2つの切替点により定まる第2素材映像データD2の区間に対応する映像データを、他カメラショットShとして抽出する。ここで、切替点は、第2素材映像データD2を構成する連続する画像間において撮影対象が切り替わった時点であってもよく、第2素材映像データD2に含まれる音のボリュームが大きく変化した時点であってもよい。以後では、他カメラショットShの始点となる切替点を「第1切替点」と呼び、他カメラショットShの終点となる切替点を「第2切替点」と呼ぶ。
【0039】
ダイジェスト候補生成部18は、候補映像データ選定部15から供給される候補映像データCd1と、他カメラショット抽出部17から供給される他カメラショットShとに基づき、ダイジェスト候補Cdを生成する。例えば、ダイジェスト候補生成部18は、全ての候補映像データCd1と、全ての他カメラショットShとを結合した1つの映像データを、ダイジェスト候補Cdとして生成する。この場合、ダイジェスト候補生成部18は、例えば、シーンごとに時系列に候補映像データCd1及び他カメラショットShを並べて連結したダイジェスト候補Cdを生成する。
【0040】
なお、ダイジェスト候補生成部18は、ダイジェスト候補Cdとして1つの映像データを生成する代わりに、候補映像データCd1と他カメラショットShとのリストを、ダイジェスト候補Cdとして生成してもよい。この場合、ダイジェスト候補生成部18は、ダイジェスト候補Cdを出力装置3に表示させ、最終的なダイジェストに含める映像データを選択するユーザ入力などを入力装置2により受け付けてもよい。また、ダイジェスト候補生成部18は、選定された候補映像データCd1と他カメラショットShとの一部のみを用いてダイジェスト候補Cdを生成してもよい。
【0041】
ダイジェスト候補生成部18は、生成したダイジェスト候補Cdを、記憶装置4又はメモリ12に記憶させてもよく、記憶装置4以外の外部装置に送信してもよい。また、ダイジェスト候補生成部18は、ダイジェスト候補Cdを再生するための出力信号S2を出力装置3に送信することで、ダイジェスト候補Cdを出力装置3により再生してもよい。
【0042】
なお、
図3において説明した候補映像データ選定部15、基準時間決定部16、他カメラショット抽出部17及びダイジェスト候補生成部18の各構成要素は、例えば、プロセッサ11が記憶装置4又はメモリ12に格納されたプログラムを実行することによって実現できる。また、必要なプログラムを任意の不揮発性記憶媒体に記録しておき、必要に応じてインストールすることで、各構成要素を実現するようにしてもよい。なお、これらの各構成要素は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組み合わせ等により実現してもよい。また、これらの各構成要素は、例えばFPGA(field-programmable gate array)又はマイコン等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。この場合、この集積回路を用いて、上記の各構成要素から構成されるプログラムを実現してもよい。このように、各構成要素は、プロセッサ以外のハードウェアを含む任意のコントローラにより実現されてもよい。以上のことは、後述する他の実施の形態においても同様である。
【0043】
(4)
具体例
次に、
図3の機能ブロックに基づくダイジェスト候補Cdの生成の具体例について、
図4(A)~(D)、
図5(A)~(C)及び
図6(A)~(C)を参照して説明する。
【0044】
図4(A)は、第1素材映像データD1の再生時間長(即ちフレーム数)に応じた長さの帯グラフにより第1素材映像データD1を表した図である。
図4(B)は、第1素材映像データD1の時系列での第1スコアを示す線グラフである。
図4(C)は、第2素材映像データD2の再生時間長に応じた長さの帯グラフにより第2素材映像データD2を表した図である。
図4(D)は、第2素材映像データD2の時系列での第1スコアを示す線グラフである。
【0045】
図4(A)及び
図4(B)に示すように、候補映像データ選定部15は、「シーンA1」及び「シーンB1」に該当する区間映像データの第1スコアが閾値Th1以上となると判定し、これらの区間映像データを候補映像データCd1として選定する。ここで、候補映像データ選定部15は、第1スコアが閾値Th1以上となる区間映像データのまとまり毎に、候補映像データCd1を定める。
図4(A)の例では、シーンA1及びシーンB1は、夫々、第1スコアが閾値Th1以上となる1又は複数の区間映像データが連続したシーンに相当する。よって、候補映像データ選定部15は、第1素材映像データD1の再生時刻「t1」から再生時刻「t2」までの区間に対応するシーンA1と、再生時刻「t3」から再生時刻「t4」までの区間に対応するシーンB1とを、夫々候補映像データCd1と定める。
【0046】
次に、基準時間決定部16は、シーンA1及びシーンB1を構成する候補映像データCd1に対して第2スコアを算出し、第2スコアが閾値Th2以上となる候補映像データCd1を、基準候補映像データCd2とみなす。ここでは、基準時間決定部16は、シーンA1に対応する候補映像データCd1の第2スコアが閾値Th2以上となり、シーンB1に対応する候補映像データCd1の第2スコアが閾値Th2未満であると判定する。よって、この場合、基準時間決定部16は、シーンA1を基準候補映像データCd2とみなし、基準時間Trefを設定する。
【0047】
ここで、基準時間決定部16は、第2推論器情報D4を参照して構成した第2推論器に候補映像データCd1を入力することで、候補映像データCd1毎に第2スコアを算出する。このとき、候補映像データCd1が複数の区間映像データから構成される場合、基準時間決定部16は、候補映像データCd1を区間毎に分割して第2推論器に順次入力し、第2推論器の推論結果を平均化等の統計処理を行うことで、上述の第2スコアを算出してもよい。
【0048】
次に、基準時間Trefとして時間帯を設定する場合のダイジェスト候補Cdの生成例について説明する。
【0049】
図5(A)は、
図4(A)と同一の第1素材映像データD1の帯グラフである。
図5(B)は、他カメラショットShを明示した第2素材映像データD2の帯グラフである。
図5(C)は、
図5(A)に示す第1素材映像データD1及び
図5(B)に示す第2素材映像データD2に基づき生成されるダイジェスト候補Cdの帯グラフである。
【0050】
この場合、基準時間決定部16は、基準候補映像データCd2であると判定したシーンA1の撮影時間帯(即ち時刻t1から時刻t2までの時間帯)を、基準時間Trefとして設定する。
【0051】
他カメラショット抽出部17は、基準時間Trefに基づき、第2素材映像データD2の「シーンA2」を、他カメラショットShとして抽出する。この場合、他カメラショット抽出部17は、基準時間Trefの始点t1を基準として他カメラショットShの始点となる第1切替点を探索し、基準時間Trefの終点t2を基準として他カメラショットShの終点となる第2切替点を探索する。そして、他カメラショット抽出部17は、時刻t1に最も近い第2素材映像データD2の切替点となる時刻「t11」を第1切替点として検出し、時刻t2に最も近い第2素材映像データD2の切替点となる時刻「t21」を第2切替点として検出する。そして、他カメラショット抽出部17は、第1切替点と第2切替点とにより特定されるシーンA2を、他カメラショットShとして抽出する。
【0052】
次に、ダイジェスト候補生成部18は、
図5(C)に示すように、候補映像データCd1であるシーンA1及びシーンB1と、他カメラショットShであるシーンA2とを時系列により連結させたダイジェスト候補Cdを生成する。この場合、ダイジェスト候補生成部18は、同一の素材映像データから抽出された時系列で連続する映像データについては、分離させることなくまとめてダイジェスト候補Cdに組み込む。
図5(C)の例では、シーンA1、シーンA2、シーンB1は、夫々、時系列で連続する映像データに該当することから、ダイジェスト候補生成部18は、これらのシーンを夫々一まとまりのシーンとしてダイジェスト候補Cdに組み込んでいる。これにより、ダイジェスト候補生成部18は、不自然なダイジェスト候補Cdが生成されるのを抑制する。
【0053】
次に、基準時間Trefとして時刻を設定する場合のダイジェスト候補Cdの生成例について説明する。
【0054】
図6(A)は、
図4(A)と同一の第1素材映像データD1の帯グラフである。
図6(B)は、他カメラショットShを明示した第2素材映像データD2の帯グラフである。
図6(C)は、
図6(A)に示す第1素材映像データD1及び
図6(B)に示す第2素材映像データD2に基づき生成されるダイジェスト候補Cdの帯グラフである。
【0055】
この場合、基準時間決定部16は、基準時間Trefの設定が必要と判定したシーンA1の撮影時間帯の代表時刻「t10」を、基準時間Trefとして設定する。ここでは、時刻t10は、撮影時間帯の開始時刻t1と終了時刻t2との中間時刻である。
【0056】
そして、他カメラショット抽出部17は、基準時間Trefに基づき、第2素材映像データD2の「シーンA3」を、他カメラショットShとして抽出する。この場合、他カメラショット抽出部17は、例えば、基準時間Trefより前の時刻から第1切替点を探索すると共に、基準時間Trefより後の時刻から第2切替点を探索する。そして、他カメラショット抽出部17は、基準時間Trefである時刻t10より前の時刻で最も近い切替点となる時刻「t31」を第1切替点として検出し、時刻t10より後の時刻で最も近い切替点となる時刻「t41」を第2切替点として検出する。そして、ダイジェスト候補生成部18は、
図6(C)に示すように、候補映像データCd1であるシーンA1及びシーンB1と、他カメラショットShであるシーンA3とを時系列により連結させたダイジェスト候補Cdを生成する。
【0057】
ここで、
図5(C)に示すダイジェスト候補Cdに含まれる他カメラショットShであるシーンA2と、
図6(C)に示すダイジェスト候補Cdに含まれる他カメラショットShであるシーンA3とは、いずれも、第1スコアが閾値Th1未満となる第2素材映像データD2の区間に対応する(
図4(D)参照)。このように、情報処理装置1は、基準時間Trefを時間帯又は時刻のいずれとする場合においても、第1スコアによらず、重要なシーンに該当する第2カメラの映像データを、ダイジェスト候補Cdに好適に含めることができる。
【0058】
ここで、
図5(B)及び
図6(B)において説明した切替点の検出方法について補足説明する。
【0059】
他カメラショット抽出部17は、例えば、第2素材映像データD2の連続する画像間又は所定枚数だけ間隔を空けた画像間の輝度の分布の差分に基づく指標値(例えば画素ごとの輝度差の合計値)を算出する。そして、他カメラショット抽出部17は、算出した指標値が所定の閾値以上となる場合に、対象となる画像間の時刻を、切替点として検出する。他の例では、他カメラショット抽出部17は、第2素材映像データD2の連続する画像間又は所定枚数だけ間隔を空けた画像間において、検出されるエッジ数の差分を算出する。そして、他カメラショット抽出部17は、算出した差分が所定の閾値以上となる場合に、対象となる画像間の時刻を切替点として検出する。
【0060】
さらに別の例では、他カメラショット抽出部17は、第1素材映像データD1の時系列での音ボリュームを算出し、音ボリュームの変化の度合が所定の閾値以上となる時刻を切替点として検出する。なお、他カメラショット抽出部17は、切替点の検出方法を任意に組み合わせてもよい。この場合、他カメラショット抽出部17は、例えば、採用する検出方法毎に算出した指標値を個々に用意した閾値と比較することで(又はこれらの総合指標値と単一の閾値とを比較することで)、切替点を検出する。
【0061】
(5)
第1推論器及び第2推論器の学習
次に、第1推論器及び第2推論器の学習による第1推論器情報D3及び第2推論器情報D4の生成について説明する。
図7は、第1推論器及び第2推論器の学習を行う学習システムの概略構成図である。上記学習システムは、学習データD5を参照可能な学習装置6を有する。
【0062】
学習装置6は、例えば
図2に示す情報処理装置1の構成と同一構成を有し、主に、プロセッサ21と、メモリ22と、インターフェース23とを有している。学習装置6は、情報処理装置1であってもよく、情報処理装置1以外の任意の装置であってもよい。
【0063】
学習データD5は、学習用の素材データである学習用素材データと、学習用素材データに対する第1スコアに関する正解ラベルである第1ラベルと、学習用素材データに対する第2スコアに関する正解ラベルである第2ラベルとを含んでいる。
【0064】
第1ラベルは、例えば、学習用素材データにおいて重要区間と非重要区間とを識別するための情報である。第2ラベルは、例えば、学習用素材データにおいて特定のイベントの発生区間を識別するための情報である。他の例では、第2ラベルは、第1ラベルと同様、学習用素材データにおいて重要区間と非重要区間とを識別するための情報であってもよい。なお、学習用素材データは、第1推論器の学習と第2推論器の学習とで夫々設けられてもよい。
【0065】
そして、学習装置6は、学習データD5を参照し、学習用素材データと、第1ラベルとに基づき、第1推論器の学習を行う。この場合、学習装置6は、学習用素材データから抽出した区間映像データを第1推論器に入力した場合の第1推論器の出力と、入力データに対応する第1ラベルが示す正解の第1スコアとの誤差(損失)が最小となるように、第1推論器のパラメータを決定する。損失を最小化するように上述のパラメータを決定するアルゴリズムは、勾配降下法や誤差逆伝播法などの機械学習において用いられる任意の学習アルゴリズムであってもよい。なお、学習装置6は、第1ラベルにより重要区間と指定された学習用素材データの区間映像データについては、正解の第1スコアを第1スコアの最大値とし、それ以外の区間映像データについては、正解の第1スコアを第1スコアの最低値としてもよい。
【0066】
同様に、学習装置6は、学習データD5を参照し、学習用素材データと、第2ラベルとに基づき、第2推論器の学習を行う。この場合、学習装置6は、学習用素材データから抽出した区間映像データを第2推論器に入力した場合の第2推論器の出力と、入力データに対応する第2ラベルが示す正解の第2スコアとの誤差(損失)が最小となるように、第2推論器のパラメータを決定する。
【0067】
そして、学習装置6は、学習により得られた第1推論器のパラメータを、第1推論器情報D3として生成し、学習により得られた第2推論器のパラメータを、第2推論器情報D4として生成する。なお、生成された第1推論器情報D3及び第2推論器情報D4は、記憶装置4と学習装置6とのデータ通信により直ちに記憶装置4に記憶されてもよく、着脱可能な記憶媒体を介して記憶装置4に記憶されてもよい。
【0068】
なお、第1推論器と第2推論器の学習は、夫々別の装置により行われてもよい。この場合、学習装置6は、第1推論器の学習と第2推論器の学習とを夫々行う複数の装置から構成される。また、第1推論器及び第2推論器は、学習用素材データの撮影対象となった催し物の種類ごとに学習が行われてもよい。
【0069】
(6)
処理フロー
図8は、第1実施形態において情報処理装置1が実行する処理の手順を示すフローチャートの一例である。情報処理装置1は、
図8に示すフローチャートの処理を、例えば、対象となる第1素材映像データD1及び第2素材映像データD2を指定して処理の開始を指示するユーザ入力を検知した場合等に実行する。
【0070】
まず、情報処理装置1は、第1素材映像データD1の終端であるか否か判定する(ステップS11)。この場合、情報処理装置1は、対象となる第1素材映像データD1の全ての区間について、後述するステップS12及びステップS13の処理が終了した場合に、第1素材映像データD1の終端であると判定する。そして、情報処理装置1は、第1素材映像データD1の終端である場合(ステップS11;Yes)、ステップS14へ処理を進める。一方、情報処理装置1は、第1素材映像データD1の終端ではない場合(ステップS11;No)、ステップS12及びステップS13の処理が行われていない第1素材映像データD1の区間映像データを対象として、ステップS12及びステップS13を実行する。
【0071】
ステップS12では、情報処理装置1の候補映像データ選定部15は、第1素材映像データD1の一区間に対応する区間映像データを取得する(ステップS12)。例えば、候補映像データ選定部15は、ステップS12及びステップS13の処理が行われていない第1素材映像データD1の区間映像データを、再生時刻が早い順に取得する。
【0072】
次に、候補映像データ選定部15は、ステップS12で取得した区間映像データに対して第1スコアを算出し、当該区間映像データが候補映像データCd1であるか否か判定する(ステップS13)。この場合、候補映像データ選定部15は、第1推論器情報D3を参照して構成した第1推論器に区間映像データを入力することで算出した第1スコアが閾値Th1以上の場合、当該区間映像データが候補映像データCd1であるとみなす。一方、候補映像データ選定部15は、区間映像データの第1スコアが閾値Th1未満の場合、当該区間映像データは候補映像データCd1でないとみなす。そして、情報処理装置1は、ステップS11へ処理を戻し、ステップS12及びステップS13を第1素材映像データD1の終端に至るまで繰り返すことで、第1素材映像データD1を構成する全ての区間映像データの候補映像データCd1への適否を判定する。
【0073】
ステップS14では、基準時間決定部16は、ステップS13で選定した候補映像データCd1に対する第2スコアに基づき、基準時間Trefを決定する(ステップS14)。この場合、基準時間決定部16は、第2推論器情報D4を参照することで構成した第2推論器に候補映像データCd1を入力することで第2スコアを算出する。そして、基準時間決定部16は、第2スコアが閾値Th2以上となる候補映像データCd1を基準候補映像データCd2とみなし、基準候補映像データCd2の撮影時間帯又は代表的な時刻を基準時間Trefとして定める。
【0074】
そして、他カメラショット抽出部17は、ステップS14で定めた基準時間Trefに基づき、第2素材映像データD2から他カメラショットShを抽出する(ステップS15)。これにより、他カメラショット抽出部17は、所定のイベントが発生した可能性が高い時間帯において第2カメラ8bから撮影された映像データを、他カメラショットShとして好適に抽出することができる。
【0075】
そして、ダイジェスト候補生成部18は、ステップS13で選定された候補映像データCd1と、ステップS15で選定された他カメラショットShとに基づき、ダイジェスト候補Cdを生成する(ステップS16)。この場合、例えば、ダイジェスト候補生成部18は、候補映像データCd1と、他カメラショットShとを時系列により連結した映像データを、ダイジェスト候補Cdとして生成する。他の例では、ダイジェスト候補生成部18は、候補映像データCd1と、他カメラショットShとのリストを、ダイジェスト候補Cdとして生成する。
【0076】
ここで、本実施形態による効果について補足説明する。
【0077】
スポーツ映像編集の時間短縮化とコンテンツ拡大の二つのニーズから、スポーツ映像の自動編集に対するニーズが高まっている。自動編集技術において、入力映像から重要なシーンを検出するとき、ある同じ時刻において片方のカメラに対しては重要と判定したが、別のカメラに対しては重要と判定しない場合がある。この場合、別カメラの重要シーンを逃してしまうことになり、重要なシーンに効果的な演出ができない場合があった。
【0078】
以上を勘案し、第1実施形態に係る情報処理装置1は、メインカメラである第1カメラ8aにより撮影された重要シーンと同様の時間帯で撮影された第2カメラ8bの映像データについてもダイジェスト候補Cdに含める。これにより、情報処理装置1は、重要なシーンに対し複数のカメラの映像データを使用したダイジェスト候補Cdを好適に生成することができる。これにより、視聴者により印象付けられるダイジェスト映像を生成できるようになる。例えば、情報処理装置1は、全体を俯瞰して撮影する第1カメラ8a(サッカーの上カメラなど)で重要と判定されたシーンに対し、ボールを保持する選手を主に撮影する第2カメラ8b(下カメラ)の、同時刻~数秒後までの映像データを、ダイジェスト候補Cdに含めることができる。これにより、情報処理装置1は、別アングルでシュートが放たれたシーンと、ゴールパフォーマンスとを取り込んだダイジェスト候補Cdを好適に生成することができる。
【0079】
(7)変形例
次に、上記実施形態に好適な各変形例について説明する。以下の変形例は任意に組み合わせて上述の実施形態に適用してもよい。
【0080】
(変形例1)
情報処理装置1は、第2推論器情報D4を参照することなく、第1推論器情報D3を参照して算出した第1スコアに基づいて、基準時間Trefを設定する候補映像データCd1の選定を行ってもよい。
【0081】
図9は、変形例1において情報処理装置1が実行するフローチャートの一例である。
図9のフローチャートでは、情報処理装置1は、第1スコアに対して2つの閾値(第1閾値Th11、第2閾値Th12)を設定することで、候補映像データCd1の選定及び基準候補映像データCd2の選定を行う。
【0082】
まず、情報処理装置1の候補映像データ選定部15は、ステップS21~ステップS23を、
図8のステップS11~ステップS13と同様に行うことで、候補映像データCd1となる区間映像データの選定を行う。この場合、ステップS23では、候補映像データ選定部15は第1スコアが第1閾値Th11以上となる区間映像データを、候補映像データCd1として選定する。
【0083】
その後、基準時間決定部16は、第1スコアが第2閾値Th12以上となる基準候補映像データCd2に基づき基準時間Trefを決定する(ステップS24)。この場合、第2閾値Th12は、第1閾値Th11よりも高い値に設定される。よって、この場合、基準時間決定部16は、ステップS23で選定した候補映像データCd1のうち特に重要度が高い基準候補映像データCd2を第2閾値Th12により選定し、選定した基準候補映像データCd2に対して基準時間Trefを設ける。
【0084】
その後、他カメラショット抽出部17は、基準時間Trefに基づき、第2素材映像データD2から他カメラショットShを抽出する(ステップS25)。そして、ダイジェスト候補生成部18は、候補映像データCd1と、他カメラショットShとに基づき、ダイジェスト候補Cdを生成する(ステップS26)。
【0085】
本変形例によれば、情報処理装置1は、第1素材映像データD1において重要度が特に高いシーンに対応する第2素材映像データD2の他カメラショットShを好適にダイジェスト候補Cdに含めることができる。
【0086】
(変形例2)
情報処理装置1は、基準時間Trefを設定する基準候補映像データCd2と同一撮影時間帯の第2素材映像データD2の映像データを、他カメラショットShとして抽出してもよい。
【0087】
図10(A)は、
図4(A)及び
図5(A)と同一の第1素材映像データD1の帯グラフを示す。
図10(B)は、他カメラショットShを明示した第2素材映像データD2の帯グラフを示す。
図10(C)は、生成されたダイジェスト候補Cdの帯グラフを示す。
【0088】
この場合、基準時間決定部16は、第1スコアが閾値Th1以上となる候補映像データCd1が連続するシーンA1の撮影時間帯(時刻t1から時刻t2までの時間帯)を、基準時間Trefとして設定する。そして、他カメラショット抽出部17は、基準時間Trefに該当する時刻t1から時刻t2までの撮影時間帯となる第2素材映像データD2の「シーンA4」を、他カメラショットShとして抽出する。そして、ダイジェスト候補生成部18は、候補映像データCd1であるシーンA1及びシーンB1と他カメラショットShであるシーンA4とを時系列で結合したダイジェスト候補Cdを生成する。この場合、他カメラショットShであるシーンA4と、対応する候補映像データCd1であるシーンA1とは同一撮影時間帯となる。
【0089】
このように、本変形例では、情報処理装置1は、切替点の検出を行うことなく他カメラショットShを第2素材映像データD2から抽出する。そして、第1カメラ8aで撮影された重要シーンと同一時間帯に第2カメラ8bで撮影されたシーンを、好適にダイジェスト候補Cdに含めることができる。
【0090】
(変形例3)
情報処理装置1は、重要区間か否かを識別するためのラベルが予め付されている第1素材映像データD1に基づきダイジェスト候補Cdを生成してもよい。この場合、情報処理装置1は、第1推論器情報D3を参照して候補映像データCd1を選定する代わりに、上述のラベルを参照して候補映像データCd1を選定する。
【0091】
図11は、変形例3において情報処理装置1が実行するフローチャートの一例である。まず、情報処理装置1の候補映像データ選定部15は、重要区間か否かを識別するためのラベルが付された第1素材映像データD1を記憶装置4から取得する(ステップS31)。
【0092】
そして、基準時間決定部16は、第1素材映像データD1に付されたラベルに基づき選定された候補映像データCd1に基づき、基準時間Trefを設定する(ステップS32)。この場合、候補映像データ選定部15は、第1素材映像データD1に付されたラベルに基づき識別した重要区間の映像データを候補映像データCd1とみなす。そして、基準時間決定部16は、第2スコアに基づき候補映像データCd1から基準候補映像データCd2を選定し、基準候補映像データCd2の撮影時間帯に応じた基準時間Trefを設定する。なお、基準時間決定部16は、後述する変形例5において述べるように、基準候補映像データCd2の選定を行うことなく、全ての候補映像データCd1の撮影時間帯に応じた基準時間Trefを設定してもよい。
【0093】
その後、他カメラショット抽出部17は、基準時間Trefに基づき、第2素材映像データD2から他カメラショットShを抽出する(ステップS33)。そして、ダイジェスト候補生成部18は、候補映像データCd1と、他カメラショットShとに基づき、ダイジェスト候補Cdを生成する(ステップS34)。
【0094】
このように、本変形例においても、情報処理装置1は、第2カメラ8bが生成した他カメラショットShを含むダイジェスト候補Cdを好適に生成することができる。また、本変形例では、情報処理装置1は、第1推論器情報D3を用いることなく、ダイジェスト候補Cdを生成する。
【0095】
(変形例4)
情報処理装置1は、3台以上のカメラにより生成された映像データに基づき、ダイジェスト候補Cdを生成してもよい。
【0096】
この場合、他カメラショット抽出部17は、第2素材映像データD2から他カメラショットShを抽出し、かつ、第1カメラ8a及び第2カメラ8b以外のカメラで撮影された各素材映像データから他カメラショットShを抽出する。この場合、他カメラショット抽出部17は、例えば、基準時間Trefに基づき各素材映像データの第1切替点及び第2切替点を夫々検出することで、各素材映像データに対する他カメラショットShを抽出する。他の例では、他カメラショット抽出部17は、変形例2に基づき、基準候補映像データCd2と同一撮影時間帯の映像データを各素材映像データから他カメラショットShとして抽出してもよい。そして、ダイジェスト候補生成部18は、各素材映像データから抽出した他カメラショットShと、候補映像データCd1とに基づき、ダイジェスト候補Cdを生成する。
【0097】
このように、情報処理装置1は、3台以上のカメラにより生成された映像データに基づいて、好適にダイジェスト候補Cdを生成することができる。
【0098】
(変形例5)
情報処理装置1は、基準時間Trefの設定のための候補映像データCd1の選定を行わなくともよい。
【0099】
この場合、候補映像データCd1の一部を基準候補映像データCd2として選定する代わりに、候補映像データCd1の全てを基準候補映像データCd2とみなす。具体的には、基準時間決定部16は、
図8のステップS14では、第2スコアを用いることなく、全ての候補映像データCd1の撮影時間帯に基づき基準時間Trefを設定する。これによっても、情報処理装置1は、第1素材映像データD1において重要度が高いシーンに対応する第2素材映像データD2の他カメラショットShを、好適にダイジェスト候補Cdに含めることができる。
【0100】
(変形例6)
情報処理装置1は、第2素材映像データD2に対しても第1素材映像データD1と同様に時系列の第1スコアを算出し、第1スコアが閾値Th1以上となる第2素材映像データD2の区間の映像データ(シーン)を、ダイジェスト候補Cdに含めてもよい。
【0101】
<第2実施形態>
図12は、第2実施形態における情報処理装置1Xの機能ブロック図である。情報処理装置1Xは、主に、基準時間決定手段16Xと、他カメラショット抽出手段17Xと、ダイジェスト候補生成手段18Xとを有する。
【0102】
基準時間決定手段16Xは、第1カメラにより撮影された第1素材映像データのダイジェストの候補となる候補映像データ「Cd1」に基づき、第1カメラとは異なる第2カメラの映像データを抽出する基準となる時刻又は時間帯である基準時間「Tref」を決定する。基準時間決定手段16Xは、第1実施形態(変形例を含む、以下同じ)の基準時間決定部16とすることができる。ここで、基準時間決定手段16Xは、候補映像データCd1の選定を行う情報処理装置1X内の他の構成要素から候補映像データCd1を受信してもよく、候補映像データCd1の選定を行う外部装置(即ち情報処理装置1X以外の装置)から候補映像データCd1を受信してもよい。
【0103】
他カメラショット抽出手段17Xは、基準時間Trefに基づき、第2カメラにより撮影された第2素材映像データの一部の映像データとなる他カメラショット「Sh」を抽出する。他カメラショット抽出手段17Xは、第1実施形態の他カメラショット抽出部17とすることができる。
【0104】
ダイジェスト候補生成手段18Xは、候補映像データCd1と、他カメラショットShと、に基づき、第1素材映像データ及び第2素材映像データに対するダイジェストの候補であるダイジェスト候補「Cd」を生成する。ここで、ダイジェスト候補生成手段18Xは、第1実施形態のダイジェスト候補生成部18とすることができる。例えば、ダイジェスト候補生成手段18Xは、候補映像データCd1と、他カメラショットShとを結合した1つの映像データであるダイジェスト候補Cdを生成する。他の例では、ダイジェスト候補生成手段18Xは、候補映像データCd1と、他カメラショットShとのリストを、ダイジェスト候補Cdとして生成してもよい。なお、ダイジェスト候補Cdには、候補映像データCd1及び他カメラショットSh以外の映像データが含まれてもよい。
【0105】
図13は、第2実施形態において情報処理装置1Xが実行するフローチャートの一例である。まず、基準時間決定手段16Xは、第1カメラにより撮影された第1素材映像データのダイジェストの候補となる候補映像データCd1に基づき、第2カメラの映像データを抽出する基準となる時刻又は時間帯である基準時間Trefを決定する(ステップS41)。次に、他カメラショット抽出手段17Xは、基準時間Trefに基づき、第2カメラにより撮影された第2素材映像データの一部の映像データとなる他カメラショットShを抽出する(ステップS42)。そして、ダイジェスト候補生成手段18Xは、候補映像データCd1と、他カメラショットShと、に基づきダイジェスト候補Cdを生成する(ステップS43)。
【0106】
第2実施形態に係る情報処理装置1Xは、複数カメラから撮影された映像を含むダイジェスト候補を好適に生成することができる。
【0107】
なお、上述した各実施形態において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータであるプロセッサ等に供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記憶媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記憶媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記憶媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
【0108】
その他、上記の各実施形態の一部又は全部は、以下の付記のようにも記載され得るが以下には限られない。
【0109】
[付記1]
第1カメラにより撮影された第1素材映像データのダイジェストの候補となる候補映像データに基づき、前記第1カメラとは異なる第2カメラの映像データを抽出する基準となる時刻又は時間帯である基準時間を決定する基準時間決定手段と、
前記基準時間に基づき、前記第2カメラにより撮影された第2素材映像データの一部の映像データとなる他カメラショットを抽出する他カメラショット抽出手段と、
前記候補映像データと、前記他カメラショットと、に基づき、前記第1素材映像データ及び前記第2素材映像データに対する前記ダイジェストの候補であるダイジェスト候補を生成するダイジェスト候補生成手段と、
を有する情報処理装置。
【0110】
[付記2]
前記他カメラショット抽出手段は、前記基準時間に基づき、前記第2素材映像データにおいて映像又は音の、変化又は切替が生じる切替点を検出し、当該切替点に基づき前記他カメラショットを抽出する、付記1に記載の情報処理装置。
【0111】
[付記3]
前記他カメラショット抽出手段は、前記基準時間が時間帯を示す場合、前記時間帯の始点を基準として探索した前記第2素材映像データの第1切替点と、前記時間帯の終点を基準として探索した前記第2素材映像データの第2切替点と、に基づき、前記他カメラショットを抽出する、付記2に記載の情報処理装置。
【0112】
[付記4]
前記他カメラショット抽出手段は、前記基準時間が示す時間帯に対応する前記第2素材映像データの映像データを、前記他カメラショットとして抽出する、付記1に記載の情報処理装置。
【0113】
[付記5]
前記第1素材映像データに対する時系列の第1スコアに基づき、前記第1素材映像データから前記候補映像データを選定する候補映像データ選定手段をさらに有する、付記1~4のいずれか一項に記載の情報処理装置。
【0114】
[付記6]
前記基準時間決定手段は、前記候補映像データに対する前記第1スコア又は前記第1スコアとは異なる第2スコアに基づき、前記基準時間の決定に用いる前記候補映像データである基準候補映像データを選定する、付記5に記載の情報処理装置。
【0115】
[付記7]
前記候補映像データ選定手段は、入力された映像データに対して前記第1スコアを推論するように学習された第1推論器に対し、前記第1素材映像データの区間毎の区間映像データを入力することで得られる前記第1スコアに基づき、前記候補映像データを選定し、
前記基準時間決定手段は、入力された映像データに対して前記第2スコアを推論するように学習された第2推論器に対し、前記候補映像データを入力することで得られる前記第2スコアに基づき、前記基準候補映像データを選定する、付記5または6に記載の情報処理装置。
【0116】
[付記8]
前記第1推論器は、重要区間か否かに関するラベルが付された学習用素材映像データに基づき学習された推論器であり、
前記第2推論器は、特定のイベントが発生しているか否かに関するラベルが付された学習用素材映像データに基づき学習された推論器である、付記7に記載の情報処理装置。
【0117】
[付記9]
前記候補映像データ選定手段は、前記第1スコアを第1閾値と比較することで、前記第1素材映像データから前記候補映像データを選定し、
前記基準時間決定手段は、前記第1スコアを第1閾値よりも厳しい基準となる第2閾値と比較することで、前記基準候補映像データを選定する、付記6に記載の情報処理装置。
【0118】
[付記10]
コンピュータにより、
第1カメラにより撮影された第1素材映像データのダイジェストの候補となる候補映像データに基づき、前記第1カメラとは異なる第2カメラの映像データを抽出する基準となる時刻又は時間帯である基準時間を決定し、
前記基準時間に基づき、前記第2カメラにより撮影された第2素材映像データの一部の映像データとなる他カメラショットを抽出し、
前記候補映像データと、前記他カメラショットと、に基づき、前記第1素材映像データ及び前記第2素材映像データに対するダイジェストの候補であるダイジェスト候補を生成する、
制御方法。
【0119】
[付記11]
第1カメラにより撮影された第1素材映像データのダイジェストの候補となる候補映像データに基づき、前記第1カメラとは異なる第2カメラの映像データを抽出する基準となる時刻又は時間帯である基準時間を決定する基準時間決定手段と、
前記基準時間に基づき、前記第2カメラにより撮影された第2素材映像データの一部の映像データとなる他カメラショットを抽出する他カメラショット抽出手段と、
前記候補映像データと、前記他カメラショットと、に基づき、前記第1素材映像データ及び前記第2素材映像データに対するダイジェストの候補であるダイジェスト候補を生成するダイジェスト候補生成手段
としてコンピュータを機能させるプログラムが格納された記憶媒体。
【0120】
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。すなわち、本願発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。また、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。
【符号の説明】
【0121】
1、1X 情報処理装置
2 入力装置
3 出力装置
4 記憶装置
6 学習装置
100 ダイジェスト候補選定システム