IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特開2024-63917撮影領域決定装置、撮影領域学習装置及びそれらのプログラム
<>
  • 特開-撮影領域決定装置、撮影領域学習装置及びそれらのプログラム 図1
  • 特開-撮影領域決定装置、撮影領域学習装置及びそれらのプログラム 図2
  • 特開-撮影領域決定装置、撮影領域学習装置及びそれらのプログラム 図3
  • 特開-撮影領域決定装置、撮影領域学習装置及びそれらのプログラム 図4
  • 特開-撮影領域決定装置、撮影領域学習装置及びそれらのプログラム 図5
  • 特開-撮影領域決定装置、撮影領域学習装置及びそれらのプログラム 図6A
  • 特開-撮影領域決定装置、撮影領域学習装置及びそれらのプログラム 図6B
  • 特開-撮影領域決定装置、撮影領域学習装置及びそれらのプログラム 図7
  • 特開-撮影領域決定装置、撮影領域学習装置及びそれらのプログラム 図8
  • 特開-撮影領域決定装置、撮影領域学習装置及びそれらのプログラム 図9
  • 特開-撮影領域決定装置、撮影領域学習装置及びそれらのプログラム 図10
  • 特開-撮影領域決定装置、撮影領域学習装置及びそれらのプログラム 図11A
  • 特開-撮影領域決定装置、撮影領域学習装置及びそれらのプログラム 図11B
  • 特開-撮影領域決定装置、撮影領域学習装置及びそれらのプログラム 図12
  • 特開-撮影領域決定装置、撮影領域学習装置及びそれらのプログラム 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024063917
(43)【公開日】2024-05-14
(54)【発明の名称】撮影領域決定装置、撮影領域学習装置及びそれらのプログラム
(51)【国際特許分類】
   H04N 23/695 20230101AFI20240507BHJP
   H04N 23/60 20230101ALI20240507BHJP
   G03B 15/00 20210101ALI20240507BHJP
【FI】
H04N5/232 990
H04N5/232 290
G03B15/00 P
G03B15/00 Q
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022172089
(22)【出願日】2022-10-27
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】110001807
【氏名又は名称】弁理士法人磯野国際特許商標事務所
(72)【発明者】
【氏名】▲高▼橋 康太
(72)【発明者】
【氏名】洗井 淳
(72)【発明者】
【氏名】三ツ峰 秀樹
(72)【発明者】
【氏名】三須 俊枝
【テーマコード(参考)】
5C122
【Fターム(参考)】
5C122EA42
5C122FH11
5C122GD04
5C122GD06
5C122HA13
5C122HA35
5C122HA48
5C122HA82
5C122HB01
5C122HB10
(57)【要約】
【課題】装置の処理時間によるカメラワークの遅延を抑制できる撮影領域決定装置を提供する。
【解決手段】カメラワーク予測生成装置1は、サッカー映像のフォーメーションマップを畳み込む畳み込み部10と、サッカー映像のプレイ状況を判定するプレイ状況判定部11と、時間方向で連続した撮影領域候補のベクトルを生成するLSTM部12と、フォーメーションマップの列ベクトルと撮影領域候補のベクトルとプレイ状況とを結合した結合ベクトルを生成する結合部13と、撮影領域決定用ニューラルネットワークに結合ベクトルを入力することで、サッカー映像に対応した撮影領域を決定する決定部14と、ロボットカメラ4を制御するカメラ制御部15とを備える。
【選択図】図2
【特許請求の範囲】
【請求項1】
球技映像のフィールド内における各被写体の少なくとも位置又は速度を表すフォーメーションマップを用いて、前記球技映像を撮影するカメラの撮影領域を決定する撮影領域決定装置であって、
予め学習した畳み込みニューラルネットワークにより前記フォーメーションマップを畳み込むことで、前記フォーメーションマップの列ベクトルを生成する畳み込み部と、
予め学習した再帰型ニューラルネットワークに前記フォーメーションマップより先の時刻における前記撮影領域の予測結果を入力することで、時間方向で連続した撮影領域候補のベクトルを生成する再帰処理部と、
前記フォーメーションマップの列ベクトルと前記撮影領域候補のベクトルとを結合した結合ベクトルを生成する結合部と、
予め学習した撮影領域決定用ニューラルネットワークに前記結合ベクトルを入力することで、前記撮影領域を決定する決定部と、
を備えることを特徴とする撮影領域決定装置。
【請求項2】
予め学習したプレイ状況判定用ニューラルネットワークに前記フォーメーションマップの列ベクトルを入力することで、前記球技映像で発生したイベントを表すプレイ状況ベクトルを生成するプレイ状況判定部、をさらに備え、
前記結合部は、前記フォーメーションマップの列ベクトルと前記撮影領域候補のベクトルと前記球技映像のプレイ状況ベクトルとを結合した前記結合ベクトルを生成することを特徴とする請求項1に記載の撮影領域決定装置。
【請求項3】
所定の変換規則に基づいて、前記決定部が決定した撮影領域をカメラワークに変換し、変換した前記カメラワークに従って前記カメラを制御するカメラ制御部、をさらに備えることを特徴とする請求項1に記載の撮影領域決定装置。
【請求項4】
球技映像のフィールド内における各被写体の少なくとも位置又は速度を表すフォーメーションマップを用いて、前記球技映像を撮影するカメラの撮影領域を決定するための学習を行う撮影領域学習装置であって、
カメラの操作情報が入力され、入力された前記操作情報を所定の変換規則により入力用撮影領域に変換する操作情報変換部と、
学習データとして、実際の前記球技映像を撮影したときのフォーメーションマップ、及び、前記入力用撮影領域を時刻毎に記憶する学習データ記憶部と、
前記学習データ記憶部から、前記フォーメーションマップより先の時刻における入力用撮影領域を出力する入力用撮影領域出力部と、
畳み込みニューラルネットワークにより前記学習データ記憶部のフォーメーションマップを畳み込むことで、前記フォーメーションマップの列ベクトルを生成する畳み込み部と、
前記入力用撮影領域出力部が出力した入力用撮影領域を再帰型ニューラルネットワークに入力することで、時間方向で連続した撮影領域候補のベクトルを生成する再帰処理部と、
前記フォーメーションマップの列ベクトルと前記撮影領域候補のベクトルとを結合した結合ベクトルを生成する結合部と、
撮影領域決定用ニューラルネットワークに前記結合ベクトルを入力することで、前記撮影領域を決定する決定部と、
前記決定部が決定した撮影領域の誤差を算出する誤差算出部と、
前記誤差算出部が算出した誤差が最小となるように、前記畳み込みニューラルネットワーク、前記再帰型ニューラルネットワーク及び前記撮影領域決定用ニューラルネットワークの学習を行う学習部と、
を備えることを特徴とする撮影領域学習装置。
【請求項5】
前記フォーメーションマップの列ベクトルを第2撮影領域決定用ニューラルネットワークに結合ベクトルを入力することで、前記学習データ記憶部のフォーメーションマップより先の時刻における学習用撮影領域を決定する学習用決定部、をさらに備え、
前記誤差算出部は、前記決定部が決定した撮影領域の誤差を算出すると共に、前記学習用決定部が決定した学習用撮影領域の誤差を算出し、
前記学習部は、前記誤差算出部が算出した誤差が最小となるように、前記畳み込みニューラルネットワーク、前記再帰型ニューラルネットワーク、前記撮影領域決定用ニューラルネットワーク及び前記第2撮影領域決定用ニューラルネットワークの学習を行うことを特徴とする請求項4に記載の撮影領域学習装置。
【請求項6】
予め学習したプレイ状況判定用ニューラルネットワークに前記フォーメーションマップの列ベクトルを入力することで、前記球技映像で発生したイベントを表すプレイ状況ベクトルを生成するプレイ状況判定部、をさらに備え、
前記結合部は、前記フォーメーションマップの列ベクトルと前記撮影領域候補のベクトルと前記球技映像のプレイ状況ベクトルとを結合した前記結合ベクトルを生成することを特徴とする請求項4に記載の撮影領域学習装置。
【請求項7】
コンピュータを請求項1に記載の撮影領域決定装置として機能させるためのプログラム。
【請求項8】
コンピュータを請求項4に記載の撮影領域学習装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、球技映像の撮影領域を決定する撮影領域決定装置、撮影領域学習装置及びそれらのプログラムに関する。
【背景技術】
【0002】
スポーツ番組制作でのカメラ操作に関するノウハウ習得には、中継番組での豊富な経験が必要となるが、経験豊富なカメラマンの人的リソースは限られている。また、中継現場では、低コストで効率よく、かつ高品質な番組制作が求められている。これらの理由から、カメラ操作のノウハウを備えたAIロボットカメラによるカメラワークの自動化が求められている。
【0003】
非特許文献1には、中継番組に携わるカメラマンの操作情報と撮影対象(例えば、選手やボール)の情報を収集し学習させることでカメラワークの自動生成を行う技術が記載されている。この非特許文献1に記載の技術では、カメラワークの自動生成に際して測定対象のフォーメーションマップが用いられている。しかし、測定対象のフォーメーションマップを用いただけでは、経験豊富なカメラマンによるカメラワークには及ばないと考えられる。
【0004】
そこで、非特許文献2に記載の技術が提案されている。この非特許文献2に記載の技術では、カメラワークの自動生成に際して、測定対象のフォーメーションマップに加えて、競技中のイベントと過去のカメラワークを用いることで、より自然で好適なカメラワークの自動生成を可能としている。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】荒井敦志 他、「サッカー中継における熟練カメラマンのカメラワーク推定」、一般社団法人 電子情報通信学会、電子情報通信学会技術研究報告、2020年
【非特許文献2】▲高▼橋康太 他、「サッカー中継用AIロボットカメラにおける撮影領域決定技術」、一般社団法人 映像情報メディア学会、映像情報メディア学会冬季大会、2021年、31B-2
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、非特許文献2に記載の技術では、カメラワークの自動生成を行うと、装置の処理時間によりカメラワークに遅延が生じるという問題がある。
【0007】
本発明は、前記の問題に鑑みてなされたものであり、装置の処理時間によるカメラワークの遅延を抑制できる撮影領域決定装置、撮影領域学習装置及びそれらプログラムを提供することを課題とする。
【課題を解決するための手段】
【0008】
前記課題を解決するため、本発明に係る撮影領域決定装置は、球技映像のフィールド内における各被写体の少なくとも位置又は速度を表すフォーメーションマップを用いて、球技映像を撮影するカメラの撮影領域を決定する撮影領域決定装置であって、畳み込み部と、再帰処理部と、結合部と、決定部と、を備える構成とした。
【0009】
かかる構成によれば、畳み込み部は、予め学習した畳み込みニューラルネットワークによりフォーメーションマップを畳み込むことで、フォーメーションマップの列ベクトルを生成する。
再帰処理部は、予め学習した再帰型ニューラルネットワークにフォーメーションマップより先の時刻における撮影領域の予測結果を入力することで、時間方向で連続した撮影領域候補のベクトルを生成する。
【0010】
結合部は、フォーメーションマップの列ベクトルと撮影領域候補のベクトルとを結合した結合ベクトルを生成する。
決定部は、予め学習した撮影領域決定用ニューラルネットワークに結合ベクトルを入力することで、撮影領域を決定する。
【0011】
このように、撮影領域決定装置は、未来の撮影領域の予測結果を学習した再帰型ニューラルネットワークを利用するので、装置の処理時間による遅延を織り込むように撮影領域を決定できる。
【0012】
また、前記課題を解決するため、本発明に係る撮影領域学習装置は、球技映像のフィールド内における各被写体の少なくとも位置又は速度を表すフォーメーションマップを用いて、球技映像を撮影するカメラの撮影領域を決定するための学習を行う撮影領域学習装置であって、操作情報変換部と、学習データ記憶部と、入力用撮影領域出力部と、畳み込み部と、再帰処理部と、結合部と、決定部と、誤差算出部と、学習部と、を備える構成とした。
【0013】
かかる構成によれば、操作情報変換部は、カメラの操作情報が入力され、入力された操作情報を所定の変換規則により入力用撮影領域に変換する。
学習データ記憶部は、学習データとして、実際の球技映像を撮影したときのフォーメーションマップ、及び、入力用撮影領域を時刻毎に記憶する。
入力用撮影領域出力部は、学習データ記憶部から、フォーメーションマップより先の時刻における入力用撮影領域を出力する。
【0014】
畳み込み部は、畳み込みニューラルネットワークにより学習データ記憶部のフォーメーションマップを畳み込むことで、フォーメーションマップの列ベクトルを生成する。
再帰処理部は、入力用撮影領域出力部が出力した入力用撮影領域を再帰型ニューラルネットワークに入力することで、時間方向で連続した撮影領域候補のベクトルを生成する。
結合部は、フォーメーションマップの列ベクトルと撮影領域候補のベクトルとを結合した結合ベクトルを生成する。
【0015】
決定部は、撮影領域決定用ニューラルネットワークに結合ベクトルを入力することで、撮影領域を決定する。
誤差算出部は、決定部が決定した撮影領域の誤差を算出する。
学習部は、誤差算出部が算出した誤差が最小となるように、畳み込みニューラルネットワーク、再帰型ニューラルネットワーク及び撮影領域決定用ニューラルネットワークの学習を行う。
【0016】
このように、撮影領域学習装置は、未来の撮影領域の予測結果を学習するので、再帰型ニューラルネットワークが決定する撮影領域候補に、装置の処理時間による遅延を織り込むことができる。
【0017】
なお、本発明は、コンピュータを前記した撮影領域決定装置又は撮影領域学習装置として機能させるためのプログラムで実現することもできる。
【発明の効果】
【0018】
本発明によれば、装置の処理時間によるカメラワークの遅延を抑制することができる。
【図面の簡単な説明】
【0019】
図1】第1実施形態に係るカメラワーク予測生成装置の概要を説明する説明図である。
図2】第1実施形態に係るカメラワーク予測生成装置の構成を示すブロック図である。
図3】第1実施形態において、フォーメーションマップの一例を示す画像である。
図4】第1実施形態において、フォーメーションマップの正規化を示す画像である。
図5】第1実施形態において、畳み込みニューラルネットワークの一例を説明する説明図である。
図6A】第1実施形態において、カメラの撮影領域を説明する説明図である。
図6B】第1実施形態において、撮影領域の座標系を説明する説明図である。
図7】第1実施形態において、撮影領域決定用ニューラルネットワークの一例を説明する説明図である。
図8】第1実施形態に係るカメラワーク予測学習装置の構成を示すブロック図である。
図9】第1実施形態において、カメラワーク予測学習装置の処理を説明する説明図である。
図10】第1実施形態に係るカメラワーク予測生成装置の動作を示すフローチャートである。
図11A】第1実施形態に係るカメラワークカメラワーク予測学習装置の動作を示すフローチャートである。
図11B】第1実施形態に係るカメラワークカメラワーク予測学習装置の動作を示すフローチャートである。
図12】第2実施形態に係るカメラワーク予測生成装置の構成を示すブロック図である。
図13】第2実施形態に係るカメラワーク予測学習装置の構成を示すブロック図である。
【発明を実施するための形態】
【0020】
以下、本発明の各実施形態について図面を参照して説明する。但し、以下に説明する各実施形態は、本発明の技術思想を具体化するためのものであって、特定的な記載がない限り、本発明を以下のものに限定しない。また、同一の手段には同一の符号を付し、説明を省略する場合がある。
【0021】
(第1実施形態)
[カメラワーク予測生成装置の概要]
図1を参照し、第1実施形態に係るカメラワーク予測生成装置(撮影領域決定装置)1について説明する。
カメラワーク予測生成装置1は、球技映像のフィールド内における各被写体の少なくとも位置又は速度を表すフォーメーションマップを用いて、球技映像を撮影するロボットカメラ4の撮影領域を決定するものである。
【0022】
以後、球技映像が、サッカーの試合を撮影したサッカー映像であることとして説明する。
また、カメラワーク予測生成装置1で利用する各ニューラルネットワークは、後記するカメラワーク予測学習装置4(図8)で予め学習していることとする。
【0023】
図1には、カメラワーク予測生成装置1の他、カメラ2と、フォーメーションマップ生成部3と、ロボットカメラ4とを図示した。
カメラ2は、サッカーのフィールド20全体の映像を俯瞰で撮影するカメラである。例えば、カメラ2としては、センサカメラがあげられる。そして、カメラ2は、撮影したサッカー映像をフォーメーションマップ生成部3に出力する。
【0024】
フォーメーションマップ生成部3は、カメラ2が撮影したサッカー映像から、フォーメーションマップを生成するものである。ここで、フォーメーションマップ生成部3は、既知の手法でフォーメーションマップを生成する(非特許文献1参照)。具体的には、フォーメーションマップを生成する際、サッカー映像の被写体抽出には背景差分法及びクロマキー法、選手追跡には拡張カルマンフィルタ、ボール追跡にはパーティクルフィルタ、顔向き推定には11層の畳み込みニューラルネットワークを利用する。
【0025】
ロボットカメラ4は、カメラワーク予測生成装置1から入力されたカメラ制御情報に基づいて、サッカー映像を撮影するカメラである。例えば、ロボットカメラ4は、撮影レンズや撮像素子を有するカメラ本体と、カメラ本体を搭載する自動雲台とを備える。そして、ロボットカメラ4は、カメラワーク予測生成装置1からのカメラ制御情報に従って、その位置や姿勢を変化させる。
【0026】
<フォーメーションマップ>
以下、フォーメーションマップの具体例を説明する。
フォーメーションマップは、サッカー映像のフィールド内における各被写体の少なくとも位置又は速度を表す。例えば、サッカー映像では、被写体として、各チームの選手やボールがあげられる。すなわち、フォーメーションマップは、複数の被写体(例えば、選手、ボール)の特徴を表したマップであり、サッカーの試合開始から試合終了まで順次生成される。ここで、フォーメーションマップは、サッカー映像のフィールド内における各被写体の位置分布及び速度分布を表してもよい。さらに、フォーメーションマップは、サッカー映像のフィールド内における各被写体(各選手)の注視領域及び加速度を表してもよい。
【0027】
例えば、特許第6596804号公報に記載の手法を用いて、フォーメーションマップの生成に必要な情報を取得できる。サッカー映像に対応したフォーメンションマップを生成する場合、サッカー映像のフレーム毎に以下のようなデータを用いればよい。
【0028】
選手のチーム:各選手が所属するチーム。フィールドの右方向に攻めるチーム、又は、フィールドの左方向に攻めるチームの区分。
選手の位置:フィールド上の選手位置。例えば、フィールド中央を中心として、長手方向に何mの位置、短手方向に何mの位置として選手の位置を表す。
ボールの位置:フィールド上のボールの位置。選手の位置と同様にボールの位置を表すことができる。
選手の速度:選手が走っている方向及び速度。
選手の顔方向:選手の顔が向いている方向。
【0029】
図3の例では、フォーメーションマップは、上半分が各選手の位置分布及び顔方向を表す画像であり、下半分が各選手の速度分布及びボールの位置分布を表す画像となっている。フォーメーションマップの各画素は、0~255のRGB値(256階調)で表される。
【0030】
図3上段には、フォーメーションマップに含まれる各被写体の位置分布を図示した。図3上段では、フィールドの右方向に攻めるチームの選手の位置分布を赤色、フィールドの左方向に攻めるチームの選手の位置分布を緑色、選手の顔方向を青色で表している。なお、各選手の位置分布を同一半径の円で表したが、実際には異なる場合がある。例えば、長時間に同一方向に移動しているとき、フォーメーションマップでは、選手の位置分布を表す円の中心に選手が位置しない場合や、選手の位置分布を表す領域が円形にならない場合がある。
【0031】
図3下段には、フォーメーションマップに含まれる各被写体の速度分布を図示した。図3下段では、フィールドの右方向に攻めるチームの選手の速度分布を赤色、フィールドの左方向に攻めるチームの選手の速度分布を緑色、ボールの位置情報を青色で表している。なお、ボール位置の誤検出が多いため、複数個所で青色となっている。また、選手の速度分布は、1画素が1メートル/秒を表す。
【0032】
[カメラワーク予測生成装置の構成]
図2を参照し、カメラワーク予測生成装置1の構成を具体的に説明する。
図2に示すように、カメラワーク予測生成装置1は、畳み込み部10と、プレイ状況判定部11と、LSTM部(再帰処理部)12と、結合部13と、決定部14と、カメラ制御部15とを備える。なお、カメラワーク予測生成装置1が用いる各ニューラルネットワークは、後記するカメラワーク予測学習装置4で学習済みであることとする。
【0033】
畳み込み部10は、予め学習した畳み込みニューラルネットワークによりフォーメーションマップを畳み込むことで、フォーメーションマップの列ベクトルを生成するものである。ここで、畳み込み部10には、フォーメーションマップがフォーメーションマップ生成部3から入力される。そして、畳み込み部10は、フォーメーションマップを正規化した後、畳み込みニューラルネットワークで畳み込む。
【0034】
図4に示すように、畳み込み部10は、フォーメーションマップのサイズ及び各画素のRGB値を正規化する。一般的には、サッカーのフィールドが105×68メートルである。そこで、畳み込み部10は、フォーメーションマップの1画素を1メートルとして、1画素分だけ余裕が生じるように、フォーメーションマップの位置分布及び速度分布それぞれのサイズを106×69画素に正規化する。また、畳み込み部10は、フォーメーションマップの各画素のRGB値を0~1の数値で正規化する。
【0035】
例えば、畳み込み部10は、畳み込みニューラルネットワークとしては、残差ニューラルネットワーク(ResNet:Residual Network)を利用できる(例えば、参考文献1参照)。
参考文献1:He etc、”Deep Residual Learning for Image Recognition”、Computer Vision and Pattern Recognition、2016年、pp.770-pp.778
【0036】
<畳み込みニューラルネットワーク>
図5には、畳み込みニューラルネットワーク100の具体例を図示した。
図5に示すように、畳み込みニューラルネットワーク100は、入力側から出力側の順に、第1畳み込み層110と、第1プーリング層120と、第2畳み込み層130と、第3畳み込み層140と、第2プーリング層150とを備える。
【0037】
第1畳み込み層110は、128×128×3のサイズ(3次元配列)のフォーメーションマップ111を、56×56×64のサイズのデータに畳み込むものである。このとき、第1畳み込み層110は、カーネル112の重み係数を用いた式で計算した数値に対して、ストライド2×2ごとに活性化関数(例えば、ReLU)を適用する。このカーネル112は、縦横に7×7の範囲である。そして、第1畳み込み層110は、畳み込み結果を第1プーリング層120に出力する。
【0038】
ここで、フォーメーションマップ111の3次元配列「128×128×3」は、「フォーメーションマップの縦サイズ(画素数)」×「フォーメーションマップの横サイズ(画素数)」×「各画素のRGB値」を表す。すなわち、第1畳み込み層110に入力されるフォーメーションマップ111は、入力されたフォーメーションマップを128×128にリサイズしたものである。また、ストライド2×2は、7×7のサイズのカーネル112を横又は横に2ずつずらして畳み込みを行うことを表す。また、活性化関数のReLUは、0以上の値をそのままの値として出力し、0未満の値を0に置き換えて出力する関数である。
【0039】
第1プーリング層120は、64×64×64のサイズのデータ121をプーリング(最大プーリング)することによって、32×32×64のサイズのデータに変換するものである。このとき、カーネル122が3×3の範囲であり、ストライドが2×2の範囲である。そして、第1プーリング層120は、プーリング結果を第2畳み込み層130に出力する。
【0040】
第2畳み込み層130は、32×32×64のサイズのデータ131を、16×16×128のサイズのデータに畳み込むものである。このとき、第2畳み込み層130は、カーネル132の重み係数を用いた式で計算した数値に対して、ストライド2×2ごとに活性化関数(例えば、ReLU)を適用する。このカーネル132は、縦横に3×3の範囲である。そして、第2畳み込み層130は、畳み込み結果を第3畳み込み層140へ出力する。
【0041】
第3畳み込み層140は、16×16×128のサイズのデータ141を、8×8×25のサイズのデータに畳み込むものである。このとき、第3畳み込み層140は、カーネル142の重み係数を用いた式で計算した数値に対して、ストライド2×2ごとに活性化関数(例えば、ReLU)を適用する。このカーネル142は、縦横に3×3の範囲である。そして、第3畳み込み層140は、畳み込み結果を第2プーリング層150に出力する。
【0042】
第2プーリング層150は、8×8×256のサイズのデータ151を、プーリング(グローバルアベレージプーリング)を行うことによって、1×1×256のサイズ(つまり、要素数256の列ベクトル)に変換するものである。そして、第2プーリング層150は、フォーメーションマップの畳み込み結果である列ベクトル152を、プレイ状況判定部11及び結合部13に出力する。
【0043】
なお、図5の畳み込み部の畳み込みニューラルネットワーク100は、一例であり、これに限定されないことは言うまでもない。
【0044】
図2に戻り、カメラワーク予測生成装置1の説明を続ける。
プレイ状況判定部11は、予め学習したプレイ状況判定用ニューラルネットワークにフォーメーションマップの列ベクトルを入力することで、サッカー映像で発生したイベントを表すプレイ状況ベクトルを生成するものである。ここで、プレイ状況判定部11には、畳み込み部10からフォーメーションマップの列ベクトルが入力される。
【0045】
つまり、プレイ状況判定部11は、サッカーの試合で発生するイベント(プレイ状況)を判定し、判定したイベントを表すプレイ状況ベクトルを生成する。例えば、プレイ状況判定部11は、プレイ状況判定用ニューラルネットワークとして、多クラス分類が可能なニューラルネットワークを利用できる(例えば、多層パーセプトロン)。
【0046】
プレイ状況判定用ニューラルネットワークにおける各ノードの連結構造及び各ノードに設定される重み係数は、後記するカメラワーク予測学習装置4で算出したものである。すなわち、プレイ状況判定部11は、フォーメーションマップの列ベクトルを学習済みのプレイ状況判定用ニューラルネットワークに入力することで、プレイ状況を判別する。その後、プレイ状況判定部11は、生成したプレイ状況ベクトルを結合部13に出力する。
【0047】
本実施形態では、プレイ状況ベクトルは、One-hot表現の列ベクトルとなる。例えば、プレイ状況ベクトルが、インプレイ、ゴールキック、コーナーキック、フリーキック、スローインというサッカー試合で発生するイベントを表す場合、以下のように、各イベントに対応したOne-hot表現の列ベクトルとなる。
【0048】
インプレイ =[1,0,0,0,0]
ゴールキック =[0,1,0,0,0]
コーナーキック=[0,0,1,0,0]
フリーキック =[0,0,0,1,0]
スローイン =[0,0,0,0,1]
【0049】
この他、プレイ状況ベクトルは、サッカーの試合におけるプレイ継続中又はプレイストップ中を表してもよく、フィールド上の位置に応じてコーナーキックを4分割した詳細情報であってもよい。
【0050】
LSTM部12は、予め学習した再帰型ニューラルネットワークにフォーメーションマップより先の時刻における撮影領域の予測結果を入力することで、時間方向で連続した撮影領域候補のベクトルを生成するものである。
【0051】
ここで、LSTM部12には、後記する決定部14から撮影領域の予測結果(ベクトル)が入力される。つまり、LSTM部12に入力される撮影領域の予測結果は、現時刻より前のフォーメーションマップから推定された、現時刻以後の撮影領域のベクトルを表す。例えば、後記する決定部14が、1秒後の撮影領域の予測結果を推定する場合を考える。この場合、LSTM部12は、過去1秒間で推定された、現時刻から1秒先までの撮影領域候補を求める。
【0052】
具体的には、LSTM部12では、以下のような一定間隔の撮影領域のベクトルを入力データとして用いる。例えば、入力データは、1秒前のフォーメーションマップを用いて推定された現時刻の撮影領域のベクトル、0.9秒前のフォーメーションマップを用いて推定された、0.1秒先の撮影領域のベクトル、0.8秒前のフォーメーションマップを用いて推定された、0.2秒先の撮影領域のベクトル、…、0.1秒前のフォーメーションマップを用いて推定された0.9秒先の撮影領域のベクトルである。
【0053】
例えば、LSTM部12は、再帰型ニューラルネットワークとして、LSTM(Long Short Term Memory)を利用できる(例えば、参考文献2参照)。LSTMは、時系列を扱う再帰型ニューラルネットワーク(RNN: Recurrent Neural Network)の一種であり、RNNの欠点である勾配消失を解消したものである。このLSTMを用いることで、時間経過と共に変化していく撮影領域から、未来の撮影領域候補を予測できる。
参考文献2:S.Hochreiter etc,”Long Short-Term Memory”、Neural Computation、1997年、pp.1735-1780
【0054】
なお、LSTM部12は、生成した撮影領域候補のベクトルを結合部13に出力し、撮影領域の予測結果が決定部14から入力されるという再帰構造を有する。
【0055】
結合部13は、フォーメーションマップの列ベクトルと撮影領域候補のベクトルとサッカー映像のプレイ状況ベクトルとを結合した結合ベクトルを生成するものである。ここで、結合部13には、畳み込み部10からフォーメーションマップの列ベクトルが入力され、プレイ状況判定部11からプレイ状況ベクトルが入力され、LSTM部12から撮影領域候補のベクトルが入力される。
【0056】
すなわち、結合部13は、時間方向を考慮した撮影領域の予測領域と畳み込まれたフォーメーションマップの列ベクトルとサッカー映像のプレイ状況とを結合し、撮影領域を予測する要素とする。これにより、結合部13は、時間方向での撮影領域の予測結果に大きな差異が生じることを抑制し、時間的に連続性のある結果が得られる。その後、結合部13は、生成した結合ベクトルを決定部14に出力する。
【0057】
決定部14は、予め学習した撮影領域決定用ニューラルネットワークに結合ベクトルを入力することで、撮影領域を決定するものである。ここで、決定部14には、結合部13から結合ベクトルが入力される。
【0058】
決定部14が決定する撮影領域は、フォーメーションマップの時刻よりも、所定の時間分だけ未来の撮影領域の予測結果を表す。図6Aには、サッカーのフィールド20を図示した。図6Aに示すように、ロボットカメラ4の撮影領域は、フィールド20の中央(センターサークルの中心)を原点K、フィールド20の長手方向をX軸、フィールド20の短手方向をY軸とする座標系で記述する。この場合、図6Bに示すように、ロボットカメラ4の撮影領域は、3列の列ベクトル[C,C,C]で表される。Cは、カメラ光軸とフィールド20との交点の水平座標である。Cは、カメラ光軸とフィールド20との交点の垂直座標である。Cは、撮影領域の広さをあらわし、撮影領域の水平方向(横方向)の長さの半分である。
【0059】
ここで、決定部14は、撮影領域決定用ニューラルネットワークとして、既知のニューラルネットワークを利用できる(例えば、多層パーセプトロン)。図7には、撮影領域決定用ニューラルネットワーク200の一例を図示した。図7に示すように、撮影領域決定用ニューラルネットワーク200は、3層のニューラルネットワークであり、入力層201と、中間層202と、出力層203とを備える。入力層201、中間層202及び出力層203のそれぞれは、複数のノード204で構成されている。例えば、入力層201は、結合ベクトルの各要素に対応したノード204で構成されている。また、出力層203は、撮影領域の各要素C,C,Cに対応した3個のノード204で構成されている。ノード204の連結構造及び各ノード204に設定されるパラメータ(重み、バイアス)は、後記するカメラワーク予測学習装置が、経験豊富なカメラマンによる操作結果から算出したものである。
【0060】
その後、決定部14は、出力層203が求めた撮影領域の列ベクトル[C,C,C]をカメラ制御部15に出力する。さらに、決定部14は、撮影領域の予測結果として、撮影領域の列ベクトル[C,C,C]をLSTM部12に出力する。
【0061】
このように、決定部14は、フォーメーションマップの列ベクトルに加えて、プレイ状況判定部11からのプレイ状況ベクトルと、LSTM部12から撮影領域候補のベクトルとを用いることで、未来の撮影領域を好適に決定できる。仮に、フォーメーションマップがノイズによって大きくに変化した場合であっても、決定部14が、過去の推定結果に応じて撮影領域を決定するので、時系列的なバラツキを抑制できる。
【0062】
図2に戻り、カメラワーク予測生成装置1の説明を続ける。
カメラ制御部15は、所定の変換規則に基づいて、決定部14が決定した撮影領域をカメラワークに変換し、変換したカメラワークに従ってサッカー映像を撮影するロボットカメラ4を制御するものである。
【0063】
ここで、カメラ制御部15は、決定部14から入力された撮影領域に基づいて、ロボットカメラ4を制御する。例えば、カメラ制御部15は、撮影領域の列ベクトル[C,C,C]をロボットカメラ4の姿勢(パン角、チルト角及び視野角)に変換する。さらに、カメラ制御部15は、視野角とズームデマンドとの対応表を参照し、視野角をズームデマンドの回転量に変換する。この他、カメラ制御部15は、ロボットカメラ4の設置位置とフィールド座標上のカメラ注視点[C,C]から、ロボットカメラ4とカメラ注視点[C,C]との注視点距離を算出する。そして、カメラ制御部15は、この注視点距離をフォーカスデマンドの回転量に変換する。その後、カメラ制御部15は、パン角、チルト角、ズームデマンドの回転量及びフォーカスデマンドの回転量をカメラ制御情報として、ロボットカメラ4に出力する。
【0064】
なお、変換規則として、撮影領域の列ベクトル[C,C,C]とロボットカメラ4の姿勢との対応関係、視野角とズームデマンドとの対応表、注視点距離とフォーカスデマンドの回転量との対応関係は、予め設定しておく。
【0065】
[カメラワーク予測学習装置の構成]
図8を参照し、第1実施形態に係るカメラワーク予測学習装置(撮影領域学習装置)4の構成を具体的に説明する。
カメラワーク予測学習装置4は、フォーメーションマップを用いて、サッカー映像を撮影するロボットカメラ4の撮影領域を決定するための学習を行うものである。
【0066】
図8に示すように、カメラワーク予測学習装置4は、畳み込み部10と、プレイ状況判定部11と、LSTM部(再帰処理部)12Bと、結合部13と、決定部14と、操作情報変換部40と、学習データ拡張部41と、学習データ記憶部42と、入力用撮影領域出力部43と、学習用決定部44と、評価部(誤差算出部)45と、重み係数算出部(学習部)46とを備える。なお、畳み込み部10、プレイ状況判定部11、結合部13及び決定部14は、カメラワーク予測生成装置1と同様のため、説明を省略する。
【0067】
ここで、カメラワーク予測学習装置4には、学習データとして、過去のサッカー映像に対応するフォーメーションマップ及びプレイ状況と、そのサッカー映像を撮影したとき操作情報とが入力される。すなわち、カメラワーク予測学習装置4は、実際の撮影結果に対応するフォーメーションマップ及びプレイ状況が予め生成され、カメラマンによる実際のカメラ操作が取得できるケースを想定している。
【0068】
操作情報変換部40は、カメラの操作情報が入力され、入力された操作情報を所定の変換規則により入力用撮影領域に変換するものである。ここで、操作情報変換部40には、カメラマンによるカメラの操作情報(例えば、パン角、チルト角、ズームデマンドの回転量)が入力される。例えば、操作情報変換部40は、特許第5771117号公報に記載の技術を用いて、カメラの操作情報を取得できる。そして、操作情報変換部40は、カメラ制御部15と逆の変換規則により、取得した操作情報を入力用撮影領域の列ベクトル[C,C,C]に変換する。その後、操作情報変換部40は、入力用撮影領域列ベクトル[C,C,C]を学習データ拡張部41に出力する。
【0069】
学習データ拡張部41は、過学習を防止するため、学習データを拡張(水増し)するものである。ここで、学習データ拡張部41には、学習データとして、過去のフォーメーションマップ及びプレイ状況と、操作情報変換部40からの入力用撮影領域とが入力される。そして、学習データ拡張部41は、入力された学習データを水増し(Data Augmentation)する。
【0070】
具体的には、学習データ拡張部41は、フォーメーションマップを左右反転させることで、フォーメーションマップを水増しする。また、学習データ拡張部41は、左右反転済みのフォーメーションマップに対応するように、入力用撮影領域[C,C]を左右反転させた撮影領域[-C,C]を生成する。さらに、学習データ拡張部41は、プレイ状況に関しては、ゴールキック、コーナーキック等のイベントをフィールド20の左右で区別している場合、左右を入れ替えればよい。その後、学習データ拡張部41は、拡張した学習データを学習データ記憶部42に書き込む。
【0071】
学習データ記憶部42は、学習データ拡張部41からの学習データを記憶するメモリ、ハードディスクなどの記憶装置である。具体的には、学習データ記憶部42は、学習データとして、実際のサッカー技映像を撮影したときのフォーメーションマップと、入力用撮影領域と、プレイ状況とを時刻毎に記憶する。
【0072】
入力用撮影領域出力部43は、学習データ記憶部42から、フォーメーションマップより先の時刻における入力用撮影領域を出力するものである。具体的には、入力用撮影領域出力部43は、結合部13で結合対象となるフォーメーションマップ及びプレイ状況に対し、未来の撮影領域を複数フレーム分(例えば、6フレーム毎に10フレーム分)だけ、LSTM部12Bに出力する。
【0073】
LSTM部12Bは、入力用撮影領域出力部43が出力した入力用撮影領域を再帰型ニューラルネットワークに入力することで、時間方向で連続した撮影領域候補のベクトルを生成するものである。例えば、LSTM部12Bは、LSTMを用いて、複数フレーム分の撮影領域から、所定の予測時間(例えば、1秒先)だけ未来の撮影領域候補を予測する。LSTM部12Bの処理自体は、図2のLSTM部12と同様のため、説明を省略する。なお、LSTM部12Bの出力は、撮影領域候補の列ベクトル[C,C,C]の形式でなくともよく、4列以上の列ベクトルとしてもよい。
【0074】
学習用決定部44は、フォーメーションマップの列ベクトルを第2撮影領域決定用ニューラルネットワークに入力することで、学習データ記憶部42のフォーメーションマップより先の時刻における学習用撮影領域を決定する。
【0075】
ここで、学習用決定部44は、畳み込み部10からフォーメーションマップの列ベクトルが入力される。学習用決定部44が決定する学習用撮影領域は、入力されたフォーメーションマップの列ベクトルの時刻に対して、所定時間分(例えば、60フレーム)だけ未来の撮影領域の予測値を表す。また、学習用撮影領域は、3列の列ベクトル[C,C,C]で表すことができる。
【0076】
学習用決定部44は、第2撮影領域決定用ニューラルネットワークとして、既知のニューラルネットワークを利用できる(例えば、多層パーセプトロン)。第2撮影領域決定用ニューラルネットワークのパラメータ(重み、バイアス)は、決定部14の撮影領域決定用ニューラルネットワークと同様、経験豊富なカメラマンによる操作結果から算出したものである。また、第2撮影領域決定用ニューラルネットワークのパラメータは、カメラワーク予測生成装置1では使用しない。
その後、学習用決定部44は、決定した学習用撮影領域を評価部45に出力する。
【0077】
フォーメーションマップが大きく変化すると、撮影領域も大きく変化することになる。ここで、学習用決定部44を備えていない場合、予測する撮影領域の変化が遅れるという問題が生じる。この問題は、LSTM部12Bで時系列的に滑らかな撮影領域が取得できる反面、フォーメーションマップの大きな変化への反応が鈍くなることに起因する。そこで、学習用決定部44は、LSTM部12Bでのフォーメーションマップの大きな変化への反応の鈍さを改善し、適切な撮影領域を予想できるように、決定部14の撮影領域決定用ニューラルネットワーク及びLSTM部12Bの再帰型ニューラルネットワークのパラメータを算出できる。
【0078】
評価部45は、決定部14が決定した撮影領域の誤差を算出すると共に、学習用決定部44が決定した学習用撮影領域の誤差を算出するものである。つまり、評価部45は、撮影領域及び学習用撮影領域のそれぞれについて、学習データ記憶部42に記憶されている実際の撮影領域(正解データ)に対する精度を評価する。さらに、評価部45は、プレイ状況判定部11が判定したプレイ状況について、学習データ記憶部42に記憶されている実際のプレイ状況(正解データ)に対する精度を評価する。
【0079】
ここで、評価部45には、決定部14から撮影領域が入力され、学習用決定部44から学習用撮影領域が入力され、プレイ状況判定部11からプレイ状況が入力される。また、評価部45には、正解データとして、学習データ記憶部42からフォーメーションマップ、入力用撮影領域及びプレイ状況を読み出す。なお、学習データ記憶部42から読み出す入力用撮影領域(実際の撮影領域)は、フォーメーションマップよりも所定時間分(例えば、1秒)だけ先のデータである。また、学習データ記憶部42から読み出すプレイ状況は、フォーメーションマップと同時刻のデータである。
【0080】
図9に示すように、評価部45は、撮影領域の列ベクトルの各要素C,C,C毎に、撮影領域及びプレイ状況の正解データと、プレイ状況判定部11及び決定部14が撮影領域及びプレイ状況の予測結果との誤差を用いて、撮影領域の精度を損失関数によって評価する。
【0081】
例えば、損失関数として、撮影領域の評価には平均二乗誤差、プレイ状況の評価には交差エントロピー誤差を利用できる。平均二乗誤差Lmseは、実際の撮影領域(入力用撮影領域)を真値y、決定部14の撮影領域決定用ニューラルネットワーク200で決定した撮影領域を予測値y^として、以下の式(1)で表される。
【0082】
【数1】
【0083】
学習用決定部44が決定した学習用撮影領域についても、前記式(1)と同様に評価できる。実際の撮影領域を真値y、学習用決定部44の第2撮影領域決定用ニューラルネットワーク230で決定した撮影領域を予測値y^として、前記式(1)と同様に表すことができる(平均二乗誤差Lmse2)。
【0084】
交差エントロピー誤差Lceは、実際のプレイ状況に対応する列ベクトルの要素を真値y、プレイ状況判定部11のプレイ状況判定用ニューラルネットワーク210で決定したプレイ状況に対応する列ベクトルの要素(確率)を予測値y^として、以下の式(2)で表される。
【0085】
【数2】
【0086】
その後、評価部45は、評価結果(平均二乗誤差、交差エントロピー誤差)を重み係数算出部46に出力する。
なお、評価に際して、プレイ状況判定部11、決定部14及び学習用決定部44での損失関数の算出結果を用いるが、予め設定した重みを各部の算出結果に反映してもよい。
【0087】
重み係数算出部46は、評価部45が算出した誤差が最小となるように、畳み込みニューラルネットワーク、再帰型ニューラルネットワーク、撮影領域決定用ニューラルネットワーク及び第2撮影領域決定用ニューラルネットワークの学習を行うものである。
【0088】
ここで、重み係数算出部46は、評価部45からの評価結果(損失関数の算出結果)に基づいて、撮影領域及びプレイ状況の決定精度が向上するように、すなわち、実際の撮影領域及びプレイ状況と決定した撮影領域及びプレイ状況との誤差が小さくなるように、畳み込みニューラルネットワーク、再帰型ニューラルネットワーク、撮影領域決定用ニューラルネットワーク及び第2撮影領域決定用ニューラルネットワークのパラメータ(重み、バイアス)を算出する。
【0089】
例えば、重み係数算出部46は、損失関数の最適化アルゴリズムとして、Adam(Adaptive Moment Estimation)を利用できる。重み係数算出部46が算出したパラメータは、学習中においては、カメラワーク予測学習装置4の各ニューラルネットワークに適用すると共に、学習後においては、カメラワーク予測生成装置1の各ニューラルネットワークに適用する。なお、パラメータを未学習の状態で学習を開始する場合、パラメータの初期値は任意(例えば、ランダム)に設定すればよい。
【0090】
現時点における重み係数をw(t)、評価関数(損失関数)をE(w)としたとき、評価関数の勾配g(t)は、以下の式(3)で表される。
【0091】
【数3】
【0092】
ここで、tはイテレーション数という学習回数に関係するパラメータであり、何回目のイテレーションであるかを表す。tの最大値は、1エポックにおけるバッチ数×設定されたエポック数である。
【0093】
また、m,vのそれぞれを以下の式(4)及び式(5)を満たすように設定したこととする。
【0094】
【数4】
【0095】
この場合、評価関数の勾配の不偏推定量m^、及び、評価関数の二乗勾配の不偏推定量v^は、以下の式(6)及び式(7)で表される。なお、β,βはハイパーパラメータである。また、m=0であり、v=0である。
【0096】
【数5】
【0097】
重み係数算出部46は、以下の式(8)及び式(9)に示すように、次回の重み係数w(t+1)を算出する。なお、η,εはハイパーパラメータであり、ηが学習率を表す。また、w(t),g(t),m,vはベクトルである。
【0098】
【数6】
【0099】
なお、カメラワーク予測学習装置4は、学習用決定部44を備えずともよい。この場合、評価部45は、学習用撮影領域の誤差を算出せずともよい。さらに、重み係数算出部46は、第2撮影領域決定用ニューラルネットワークの学習を行わずともよい。
【0100】
[カメラワーク予測生成装置の動作]
図10を参照し、カメラワーク予測生成装置1の動作を説明する。
図10に示すように、ステップS1において、カメラワーク予測生成装置1は、LSTM部12に入力する撮影領域の初期値を設定する。
【0101】
ステップS2において、畳み込み部10には、フォーメーションマップがフォーメーションマップ生成部3から入力される。
ステップS3において、畳み込み部10は、フォーメーションマップを正規化する。
ステップS4において、畳み込み部10は、正規化したフォーメーションマップを畳み込む。
【0102】
ステップS5において、プレイ状況判定部11は、プレイ状況判定用ニューラルネットワークにフォーメーションマップの列ベクトルを入力することで、サッカー映像のプレイ状況ベクトルを生成する。
ステップS6において、LSTM部12は、現時刻での撮影領域を再帰型ニューラルネットワークに入力し、時間方向で連続した撮影領域候補のベクトルを生成する。
ステップS7において、結合部13は、フォーメーションマップの列ベクトルと撮影領域候補のベクトルとサッカー映像のプレイ状況ベクトルとの結合ベクトルを生成する。
【0103】
ステップS8において、決定部14は、撮影領域決定用ニューラルネットワークに結合ベクトルを入力することで、撮影領域を決定する。
ステップS9において、カメラワーク予測生成装置1は、サッカー映像が終了したか判定する。例えば、カメラワーク予測生成装置1は、サッカー映像の最終フレームに到達した場合、サッカー映像が終了したと判定する。
【0104】
サッカー映像が終了した場合(ステップS9でYes)、カメラワーク予測生成装置1は、処理を終了する。
サッカー映像が終了していない場合(ステップS9でNo)、カメラワーク予測生成装置1は、ステップS10の処理に進む。
ステップS10において、カメラワーク予測生成装置1は、LSTM部12に入力する撮影領域を次フレーム群に更新し、ステップS2の処理に戻る。
【0105】
[カメラワーク予測学習装置の動作]
図11A及び図11Bを参照し、カメラワーク予測学習装置4の動作を説明する。
図11Aに示すように、ステップS20において、カメラワーク予測学習装置4は、学習回数を設定する。
ステップS21において、カメラワーク予測学習装置4は、カウンタを1に設定する。
【0106】
ステップS22において、カメラワーク予測学習装置4には、学習データ実際のサッカー映像の全フレームについて、フォーメンションマップ、プレイ状況及びカメラの操作情報が入力される。
【0107】
ステップS23において、操作情報変換部40は、カメラの操作情報を入力用撮影領域に変換する。
ステップS24において、学習データ拡張部41は、学習データを拡張する。
ステップS25において、学習データ拡張部41は、拡張した学習データを学習データ記憶部42に記憶させる。
ステップS26において、畳み込み部10は、学習データ記憶部42から全フレーム分のフォーメーションマップを読み出す。
【0108】
ステップS27において、畳み込み部10は、読み出したフォーメーションマップを正規化する。
ステップS28において、畳み込み部10は、学習データ記憶部42から全フレーム分の入力用撮影領域を読み出す。
【0109】
図11Bに示すように、ステップS29において、畳み込み部10は、正規化した全フレーム分のフォーメーションマップを畳み込む。
ステップS30において、プレイ状況判定部11は、プレイ状況判定用ニューラルネットワークに全フレーム分のフォーメーションマップの列ベクトルを入力することで、サッカー映像のプレイ状況ベクトルを生成する。
【0110】
ステップS31において、LSTM部12Bは、全フレーム分の撮影領域を再帰型ニューラルネットワークに入力し、時間方向で連続した撮影領域候補のベクトルを生成する。
ステップS32において、結合部13は、全フレーム分について、フォーメーションマップの列ベクトルと撮影領域候補のベクトルとサッカー映像のプレイ状況ベクトルとの結合ベクトルを生成する。
【0111】
ステップS33において、決定部14は、撮影領域決定用ニューラルネットワークに結合ベクトルを入力することで、撮影領域を全フレーム分決定する。
ステップS34において、学習用決定部44は、全フレーム分のフォーメーションマップの列ベクトルを第2撮影領域決定用ニューラルネットワークに入力することで、学習用撮影領域を決定する。
なお、ステップS30~S33の処理と、ステップS34の処理とは、並列で実行してもよい。
【0112】
ステップS35において、評価部45は、決定部14が決定した撮影領域の誤差と、学習用決定部44が決定した学習用撮影領域の誤差と、プレイ状況判定部11が判定したプレイ状況の誤差とをそれぞれ算出する。
ステップS36において、重み係数算出部46は、評価部45が算出した誤差が最小となるように、畳み込みニューラルネットワーク、再帰型ニューラルネットワーク、撮影領域決定用ニューラルネットワーク及び第2撮影領域決定用ニューラルネットワークの学習を行う。
【0113】
ステップS37において、カメラワーク予測学習装置4は、カウンタが学習回数に等しいか否かを判定する。
カウンタが学習回数に等しい場合(ステップS37でYes)、カメラワーク予測学習装置4は、処理を終了する。
カウンタが学習回数に等しくない場合(ステップS37でNo)、カメラワーク予測学習装置4は、ステップS38の処理に進む。
ステップS38において、カメラワーク予測学習装置4は、カウンタをインクリメントし、ステップS29の処理に戻る。
【0114】
[作用・効果]
以上のように、第1実施形態に係るカメラワーク予測学習装置4は、未来の撮影領域の予測結果を学習するので、再帰型ニューラルネットワークが決定する撮影領域候補に、装置の処理時間による遅延を織り込むことができる。
そして、第1実施形態に係るカメラワーク予測生成装置1は、未来の撮影領域の予測結果を学習した再帰型ニューラルネットワークを利用するので、装置の処理時間による遅延を織り込むように撮影領域を決定できる。このようにして、カメラワークの遅延を抑制することができる。
【0115】
さらに、カメラワーク予測生成装置1及びカメラワーク予測学習装置4は、サッカー試合のプレイ状況を撮影領域に反映できるので、より好適なカメラワークを実現できる。
【0116】
(第2実施形態)
[カメラワーク予測生成装置の構成]
図12を参照し、第2実施形態に係るカメラワーク予測生成装置(撮影領域決定装置)1Bの構成について、第1実施形態と異なる点を説明する。
図12に示すように、カメラワーク予測生成装置1Bは、畳み込み部10と、LSTM部(再帰処理部)12と、結合部13Bと、決定部14と、カメラ制御部15とを備える。
【0117】
つまり、カメラワーク予測生成装置1Bは、図2のプレイ状況判定部11を備えていない。
結合部13Bは、プレイ状況ベクトルを結合しない以外、図2の結合部13と同様である。
他の点、第1実施形態と同様のため、これ以上の説明を省略する。
【0118】
[カメラワーク予測学習装置の構成]
図13を参照し、第2実施形態に係るカメラワーク予測学習装置(撮影領域学習装置)4Bの構成について、第1実施形態と異なる点を説明する。
図13に示すように、カメラワーク予測学習装置4Bは、畳み込み部10と、LSTM部12Bと、結合部13Bと、決定部14Bと、操作情報変換部40と、学習データ拡張部41と、学習データ記憶部42Bと、入力用撮影領域出力部43と、学習用決定部44と、評価部45Bと、重み係数算出部46とを備える。
【0119】
つまり、カメラワーク予測学習装置4Bは、図8のプレイ状況判定部11を備えていない。
結合部13B、決定部14B及び学習データ記憶部42Bは、プレイ状況ベクトルを利用しない以外、図2の各手段と同様である。
他の点、第1実施形態と同様のため、これ以上の説明を省略する。
【0120】
[作用・効果]
以上のように、第2実施形態に係るカメラワーク予測生成装置1B及びカメラワーク予測学習装置4Bによれば、第1実施形態と同様、装置の処理時間によるカメラワークの遅延を抑制することができる。
さらに、カメラワーク予測生成装置1B及びカメラワーク予測学習装置4Bによれば、プレイ状況判定部11を省略できるので、簡易な構成を実現できる。
【0121】
以上、実施形態を詳述してきたが、本発明は前記した各実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
【0122】
前記した各実施形態では、球技映像がサッカー映像であることとして説明したが、これに限定されない。例えば、球技映像としては、バスケットボールの試合を撮影したバスケットボール映像、ハンドボールの試合を撮影したハンドボール映像、又は、ラグビーの試合を撮影したラグビー映像があげられる。
【0123】
前記した各実施形態では、カメラワーク予測生成装置及びカメラワーク予測学習装置が独立したハードウェアであることとして説明したが、本発明は、これに限定されない。例えば、本発明は、コンピュータが備えるCPU、メモリ、ハードディスク等のハードウェア資源を、前記したカメラワーク予測生成装置又はカメラワーク予測学習装置として機能させるためのプログラムで実現することもできる。このプログラムは、通信回線を介して配布してもよく、CD-ROMやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。
【符号の説明】
【0124】
1,1B カメラワーク予測生成装置(撮影領域決定装置)
2 カメラ
3 フォーメーションマップ生成部
4,4B カメラワーク予測学習装置(撮影領域学習装置)
10 畳み込み部
11 プレイ状況判定部(プレイ状況判定部)
12,12B LSTM部(再帰処理部)
13,13B 結合部
14 決定部
15 カメラ制御部
40 操作情報変換部
41 学習データ拡張部
42 学習データ記憶部
43 入力用撮影領域出力部
44 学習用決定部
45 評価部(誤差算出部)
46 重み係数算出部(学習部)
図1
図2
図3
図4
図5
図6A
図6B
図7
図8
図9
図10
図11A
図11B
図12
図13