(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-05-08
(45)【発行日】2023-05-16
(54)【発明の名称】番組映像制作装置およびカメラモデル学習装置、ならびに、それらのプログラム
(51)【国際特許分類】
H04N 23/60 20230101AFI20230509BHJP
H04N 23/695 20230101ALI20230509BHJP
G06T 7/70 20170101ALI20230509BHJP
G06T 7/00 20170101ALI20230509BHJP
【FI】
H04N23/60
H04N23/695
G06T7/70 Z
G06T7/00 350C
(21)【出願番号】P 2019039127
(22)【出願日】2019-03-05
【審査請求日】2022-02-09
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】110001807
【氏名又は名称】弁理士法人磯野国際特許商標事務所
(72)【発明者】
【氏名】三ツ峰 秀樹
(72)【発明者】
【氏名】高橋 正樹
(72)【発明者】
【氏名】三科 智之
(72)【発明者】
【氏名】菊池 宏
【審査官】高野 美帆子
(56)【参考文献】
【文献】特開2017-055175(JP,A)
【文献】特開2013-206273(JP,A)
【文献】特表2017-531979(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 23/60
H04N 23/695
G06T 7/70
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
移動物体を用いて行うスポーツの番組映像を複数のロボットカメラの撮影映像から制作する番組映像制作装置であって、
前記スポーツを行う選手の予め定めた動作における時系列の3次元姿勢情報を予め複数記憶する3次元姿勢情報記憶手段と、
固定カメラが撮影する前記選手を含んだ映像のフレーム画像から前記選手の2次元姿勢情報を検出し、前記3次元姿勢情報を2次元座標に投影した2次元姿勢情報との誤差が最小となる3次元姿勢情報を前記選手の3次元姿勢情報と推定する姿勢推定手段と、
前記移動物体の速度および位置を移動物体情報として検出する移動物体検出手段と、
前記選手の3次元姿勢情報から前記予め定めた動作の時間位置を示すインデックスを推定する学習済みの動作モデルを用いて、前記姿勢推定手段で推定された3次元姿勢情報に対応するインデックスを推定するインデックス推定手段と、
前記選手の3次元姿勢情報、前記移動物体情報および前記インデックスから前記ロボットカメラのカメラワーク情報およびスイッチング情報を推定する学習済みのカメラモデルを用いて、前記姿勢推定手段で推定された3次元姿勢情報、前記移動物体検出手段で検出された移動物体情報、および、前記インデックス推定手段で推定されたインデックスに対応するカメラワーク情報およびスイッチング情報を推定するカメラ制御情報推定手段と、
前記カメラ制御情報推定手段で推定されたカメラワーク情報に基づいて、前記複数のロボットカメラのカメラワークを制御するカメラ制御手段と、
前記カメラ制御情報推定手段で推定されたスイッチング情報に基づいて、前記複数のロボットカメラが撮影する映像を切り替える映像切替手段と、
を備えることを特徴とする番組映像制作装置。
【請求項2】
前記スポーツはゴルフであって、
前記3次元姿勢情報記憶手段に記憶する3次元姿勢情報は、前記選手のゴルフスイングにおける時系列の3次元姿勢情報であることを特徴とする請求項1に記載の番組映像制作装置。
【請求項3】
コンピュータを、請求項1または請求項2に記載の番組映像制作装置として機能させるための映像制作プログラム。
【請求項4】
移動物体を用いて行うスポーツの番組映像を複数のロボットカメラの撮影映像から制作するための前記ロボットカメラのカメラワーク情報およびスイッチング情報を推定するカメラモデルを学習するカメラモデル学習装置であって、
前記スポーツを行う選手の予め定めた動作における時系列の3次元姿勢情報を予め複数記憶する3次元姿勢情報記憶手段と、
固定カメラが撮影する前記選手を含んだ映像のフレーム画像から前記選手の2次元姿勢情報を検出し、前記3次元姿勢情報を2次元座標に投影した2次元姿勢情報との誤差が最小となる3次元姿勢情報を前記選手の3次元姿勢情報と推定する姿勢推定手段と、
前記移動物体の速度および位置を移動物体情報として検出する移動物体検出手段と、
前記選手の3次元姿勢情報から前記予め定めた動作の時間位置を示すインデックスを推定する学習済みの動作モデルを用いて、前記姿勢推定手段で推定された3次元姿勢情報に対応するインデックスを推定するインデックス推定手段と、
前記カメラワーク情報および前記スイッチング情報を推定する際の前記複数のロボットカメラと同じ位置に配置した、カメラマンが操作する複数の撮影カメラから、カメラワークを特定する情報であるカメラワーク情報を入力するカメラワーク情報入力手段と、
前記複数の撮影カメラで撮影した映像をスイッチャが切り替えるスイッチング情報を入力するスイッチング情報入力手段と、
前記選手の3次元姿勢情報、前記移動物体情報および前記インデックスを入力し、前記カメラワーク情報および前記スイッチング情報を出力するようにニューラルネットワークの前記カメラモデルを学習するモデル学習手段と、
を備えることを特徴とするカメラモデル学習装置。
【請求項5】
コンピュータを、請求項
4に記載のカメラモデル学習装置として機能させるためのカメラモデル学習プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ロボットカメラを用いてスポーツ番組の映像を制作する番組映像制作装置、動作モデル学習装置およびカメラモデル学習装置、ならびに、それらのプログラムに関する。
【背景技術】
【0002】
試合会場が広いスポーツの番組を制作する場合、試合状況を漏れなく中継するには、多くのカメラマン等のスタッフが必要となる場合が多い。
特に、ゴルフ競技のように大規模な試合会場の異なる場所(ホール)で、ほぼ同じ時間に、複数の選手がプレーを行う場合、漏れなく中継を行うことは困難である。そのため、注目される選手や、主要なホールを撮影対象に絞ることも多い。
このようなスポーツ中継を自動化して撮影する技術としては、ロボットカメラを用いて被写体を撮影する技術が存在する。例えば、GPSやビーコンを用いて被写体の位置を検出し、被写体を追跡して撮影する手法(非特許文献1,2参照)や、画像認識技術によって認識した被写体を追跡する手法(非特許文献3参照)等が存在する。
また、カメラをスイッチングする技術としては、映像中に映っている被写体等に予め与えたメタ情報から、時刻ごとにコスト関数を演算し、その値に応じて、映像を切り替える手法が存在する(非特許文献4,5参照)。
【先行技術文献】
【非特許文献】
【0003】
【文献】“SOLOSHOT”[online],SOLOSHOT-JAPAN,[平成31年2月5日検索]、インターネット<URL:https://www.soloshot-japan.jp/>
【文献】“PIXEM & PIXIO”[online],MOVE’N SEE,[平成31年2月5日検索]、インターネット<URL:https://shop.movensee.com/>
【文献】岡田ほか、「ロボットのための高速視覚システム」、東芝レビュー、Vol.59、No.9、pp.29-32(2004).
【文献】藤澤ほか, 「キュレータの価値観に基づく複数映像情報流の実時間編纂支援システム」, 第22回マルチメディア通信と分散処理ワークショップ(DPSWS2014)論文集, pp.63-66, 2014.
【文献】藤澤ほか, 「複数カメラで撮影したスポーツ映像ストリームの実時間自動編纂システムの提案」, DICOMO2015シンポジウム論文集, pp.1010-1018, 2015.
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来の被写体を追跡して撮影する手法は、カメラのスイッチングを考慮したものではない。そのため、この手法は、被写体を追跡し、撮影し続けることは可能であるが、撮影される映像が1台のカメラの映像だけとなり、臨場感や迫力に欠けた映像となってしまうという問題がある。
また、従来の被写体が映っている映像をコスト関数の値によって切り替える手法は、映像内に何が映っているのかによってカメラのスイッチングを行っている。そのため、この手法は、例えば、選手が主体となるゴルフの打球前のスイング動作の映像、ゴルフボールが主体となる打球後のボールの映像等のカメラワークや映像の切り替えを行うことができず、競技の流れに伴う番組映像を制作することができないという問題がある。
【0005】
本発明は、このような問題に鑑みてなされたものであり、選手、ボール等の被写体の動きに応じてロボットカメラのカメラワークやスイッチングを制御して番組映像を制作することが可能な番組映像制作装置およびカメラモデル学習装置、ならびに、それらのプログラムを提供することを課題とする。
【課題を解決するための手段】
【0006】
前記課題を解決するため、本発明に係る番組映像制作装置は、移動物体を用いて行うスポーツの番組映像を複数のロボットカメラの撮影映像から制作する番組映像制作装置であって、3次元姿勢情報記憶手段と、姿勢推定手段と、移動物体検出手段と、インデックス推定手段と、カメラ制御情報推定手段と、カメラ制御手段と、映像切替手段と、を備える構成とした。
【0007】
かかる構成において、番組映像制作装置は、3次元姿勢情報記憶手段に、スポーツを行う選手の予め定めた動作における時系列の3次元姿勢情報を予め複数記憶しておく。ここで、3次元姿勢情報は、姿勢を特定する関節位置の3次元座標である。
そして、番組映像制作装置は、姿勢推定手段によって、固定カメラが撮影する選手を含んだ映像のフレーム画像から、OpenPose等の公知の手法によって選手の2次元姿勢情報を検出する。そして、番組映像制作装置は、姿勢推定手段によって、検出した2次元姿勢情報と、3次元姿勢情報記憶手段に記憶されている3次元姿勢情報を2次元座標に投影した2次元姿勢情報との誤差が最小となる3次元姿勢情報を選手の3次元姿勢情報と推定する。
また、番組映像制作装置は、移動物体検出手段によって、移動物体の速度および位置を移動物体情報として検出する。
【0008】
さらに、番組映像制作装置は、インデックス推定手段によって、動作モデルを用いて、姿勢推定手段で推定された3次元姿勢情報から、予め定めた動作の時間位置を示すインデックスを推定する。この動作モデルは、選手の3次元姿勢情報からインデックスを推定する学習済みのニューラルネットワークのモデルである。
そして、番組映像制作装置は、カメラ制御情報推定手段によって、カメラモデルを用いて、姿勢推定手段で推定された3次元姿勢情報、移動物体検出手段で検出された移動物体情報、および、インデックス推定手段で推定されたインデックスからカメラワーク情報およびスイッチング情報を推定する。このカメラモデルは、3次元姿勢情報、移動物体情報およびインデックスからロボットカメラのカメラワーク情報およびスイッチング情報を推定する学習済みのニューラルネットワークのモデルである。
【0009】
そして、番組映像制作装置は、カメラ制御手段によって、カメラワーク情報(パン、チルト、ズーム)に基づいて、複数のロボットカメラのカメラワークを制御する。
また、番組映像制作装置は、映像切替手段によって、スイッチング情報に基づいて、複数のロボットカメラが撮影する映像を切り替える。
なお、番組映像制作装置は、コンピュータを、前記した各手段として機能させるためのプログラムで動作させることができる。
【0013】
また、前記課題を解決するため、本発明に係るカメラモデル学習装置は、移動物体を用いて行うスポーツの映像を複数のロボットカメラの撮影映像から制作するための前記ロボットカメラのカメラワーク情報およびスイッチング情報を推定するカメラモデルを学習するカメラモデル学習装置であって、3次元姿勢情報記憶手段と、姿勢推定手段と、移動物体検出手段と、インデックス推定手段と、カメラワーク情報入力手段と、スイッチング情報入力手段と、モデル学習手段と、を備える構成とした。
【0014】
かかる構成において、カメラモデル学習装置は、3次元姿勢情報記憶手段に、スポーツを行う選手の予め定めた動作における時系列の3次元姿勢情報を予め複数記憶しておく。
そして、カメラモデル学習装置は、姿勢推定手段によって、固定カメラが撮影する選手を含んだ映像のフレーム画像から、選手の2次元姿勢情報を検出する。そして、カメラモデル学習装置は、姿勢推定手段によって、検出した2次元姿勢情報と、3次元姿勢情報記憶手段に記憶されている3次元姿勢情報を2次元座標に投影した2次元姿勢情報との誤差が最小となる3次元姿勢情報を選手の3次元姿勢情報と推定する。
また、カメラモデル学習装置は、移動物体検出手段によって、移動物体の速度および位置を移動物体情報として検出する。
【0015】
さらに、カメラモデル学習装置は、インデックス推定手段によって、動作モデルを用いて、姿勢推定手段で推定された3次元姿勢情報から、予め定めた動作の時間位置を示すインデックスを推定する。
また、カメラモデル学習装置は、カメラワーク情報入力手段によって、カメラワーク情報およびスイッチング情報を推定する際の複数のロボットカメラと同じ位置に配置した、カメラマンが操作する複数の撮影カメラから、カメラワークを特定する情報であるカメラワーク情報を入力する。
また、カメラモデル学習装置は、スイッチング情報入力手段によって、複数の撮影カメラで撮影した映像をスイッチャが切り替えるスイッチング情報を入力する。
【0016】
そして、カメラモデル学習装置は、モデル学習手段によって、選手の3次元姿勢情報、移動物体情報およびインデックスを入力し、カメラワーク情報およびスイッチング情報を出力するようにニューラルネットワークのカメラモデルを学習する。
なお、カメラモデル学習装置は、コンピュータを、前記した各手段として機能させるためのプログラムで動作させることができる。
【発明の効果】
【0017】
本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、カメラマンによるカメラワークやスイッチャによるスイッチングを予め学習したモデルを用いて、ロボットカメラのカメラワークや映像の切り替えを制御することができる。
これによって、本発明は、スポーツの競技進行に応じて、カメラマンやスイッチャによって生成される番組映像と同等の番組映像を、人手を介さずに生成することができる。
【図面の簡単な説明】
【0018】
【
図1】本発明の実施形態に係る番組映像制作装置を用いた映像制作システムの全体構成を示す構成図である。
【
図2】本発明の実施形態に係る番組映像制作装置の構成を示すブロック構成図である。
【
図3】動作の時間位置を特定するインデックスを推定するための動作モデルの構成例を示すネットワーク図である。
【
図4】インデックスの例を説明するための説明図である。
【
図5】カメラ制御情報(カメラワーク情報、スイッチング情報)を推定するためのカメラモデルの構成例を示すネットワーク図である。
【
図6】
図2の姿勢推定手段における2次元姿勢情報から3次元姿勢情報を推定する手法を説明するための説明図である。
【
図7】本発明の実施形態に係る番組映像制作装置の動作を示すフローチャートである。
【
図8】本発明の実施形態に係る動作モデル学習装置の構成を示すブロック構成図である。
【
図9】
図8のマッチング手段における動作データのマッチングの手法を説明するための説明図である。
【
図10】
図8の平均化手段における動作データの平均化処理の手法を説明するための説明図である。
【
図11】本発明の実施形態に係る動作モデル学習装置の動作を示すフローチャートである。
【
図12】本発明の実施形態に係るカメラモデル学習装置の学習時のシステム構成を示す構成図である。
【
図13】本発明の実施形態に係るカメラモデル学習装置の構成を示すブロック構成図である。
【
図14】本発明の実施形態に係るカメラモデル学習装置の動作を示すフローチャートである。
【発明を実施するための形態】
【0019】
以下、本発明の実施形態について図面を参照して説明する。
[映像制作システムの構成]
まず、
図1を参照して、本発明の実施形態に係る番組映像制作装置を用いた映像制作システムSの全体構成について説明する。
【0020】
映像制作システムSは、予め学習した複数のロボットカメラのカメラワークと映像のスイッチングとにより、選手やボール等の移動物体を撮影したスポーツの番組映像を制作するものである。
ここでは、スポーツとして、ゴルフを例に説明するが、選手と、選手が打ったり、投げたりするボール等の移動物体とを撮影可能なスポーツであれば、どのスポーツでもよい。例えば、砲丸投げ等の投てき競技、アーチェリー、カーリング等でもよい。この例示したスポーツの場合、移動物体は、砲丸、弓、ストーン等となる。
映像制作システムSは、ゴルフ場のコース上に設置された複数のロボットカメラRC(RC1,RC2)と、ティーグラウンドに設置されたセンサカメラSCと、番組映像制作装置1と、で構成される。
【0021】
ロボットカメラRCは、外部からの制御信号によって、パン、チルト、ズームを制御して、撮影を行うカメラである。なお、ロボットカメラは、一般的なものであるため、詳細な説明は省略する。ここでは、ロボットカメラRCとして、2台のロボットカメラRC1,RC2を例に説明するが、3台以上であっても構わない。
ロボットカメラRCは、番組映像制作装置1から制御信号を入力し、指示されたパン、チルト、ズームの各値に基づいたカメラワークを行い、撮影した映像を番組映像制作装置1に出力する。このロボットカメラRCが撮影する映像が、番組制作用の素材となる。
【0022】
センサカメラSCは、被写体Oである選手O1の姿勢やボールO2の速度、位置等を計測するためのカメラ(固定カメラ)である。ここでは、センサカメラSCをステレオカメラで構成する。
センサカメラSCは、撮影した被写体映像SV1,SV2を番組映像制作装置1に出力する。このセンサカメラSCが撮影する1枚の映像(例えば、SV1)は、選手O1の姿勢を計測するための映像である。また、センサカメラSCが撮影するステレオ映像(SV1,SV2)は、ボールO2の速度および位置を計測するための映像である。
【0023】
番組映像制作装置1は、センサカメラSCで撮影された映像から、選手O1の姿勢、ボールO2の速度、位置を計測してロボットカメラRCのカメラワークを制御するとともに、撮影映像のスイッチングを行って、番組映像を生成するものである。
番組映像制作装置1は、予め学習したニューラルネットワークによって、選手O1の姿勢、ボールO2の速度、位置から、ロボットカメラRCのカメラワークを決定し、制御信号によって、ロボットカメラRCにパン、チルト、ズームの各値を指示する。また、番組映像制作装置1は、ニューラルネットワークによって、カメラワークとともに、ロボットカメラRCが撮影した映像の切り替え(スイッチング)を決定し、映像を切り替えて番組映像を生成する。
なお、番組映像制作装置1が使用するニューラルネットワークは、選手O1の姿勢、ボールO2の位置等によって、予めカメラマンがロボットカメラRCを操作したカメラワーク、および、映像の切り替えを操作するスイッチャが行ったスイッチングを学習したものである。
【0024】
このように、映像制作システムSは、選手O1の姿勢、ボールO2の位置等によって、ロボットカメラRCをニューラルネットワークで学習したカメラワークで制御し、映像のスイッチングを行うことができる。
これによって、映像制作システムSは、人手を介さずに、スポーツの番組映像を自動で制作することができる。
【0025】
[番組映像制作装置の構成]
以下、
図2を参照(適宜
図1参照)して、番組映像制作装置1の構成について詳細に説明する。
図2に示すように、番組映像制作装置1は、3次元姿勢情報記憶手段10と、動作モデル記憶手段11と、カメラモデル記憶手段12と、姿勢推定手段13と、インデックス推定手段14と、ボール情報検出手段15と、カメラ制御情報推定手段16と、カメラ制御手段17と、映像切替手段18と、を備える。
【0026】
3次元姿勢情報記憶手段10は、被写体である選手O1の3次元姿勢情報として、種々のポーズの関節位置である3次元座標を予め記憶しておくものである。
この3次元姿勢情報は、一般的なモーションキャプチャ等の姿勢計測手法を用いて、選手O1の関節位置を計測したデータである。3次元姿勢情報は、対象スポーツがゴルフであれば、ゴルフのショット前後の姿勢を複数の選手で計測しておく。
【0027】
動作モデル記憶手段11は、選手のある時点における動作を特定する番号(インデックス)を推定する動作モデル(具体的にはそのモデルパラメータ)を記憶するものである。例えば、
図3に示すように、動作モデルM1は、ある時刻iの3次元姿勢情報における選手O1のインデックスIdx
iを推定するモデルである。
この動作モデルM1は、入力層IL、隠れ層HLおよび出力層OLを有する再帰型ニューラルネットワーク(RNN)で構成することができる。
【0028】
動作モデルM1の入力層ILに入力するデータは、ある時刻iにおける予め定めた関節数jの関節位置の3次元座標(P1x
i,P1y
i,P1z
i)、(P2x
i,P2y
i,P2z
i)、…、(Pjx
i,Pjy
i,Pjz
i)である。
また、動作モデルM1の出力層OLから出力されるデータは、先頭からのフレーム番号である時刻iにおけるインデックスIdx
iである。
インデックスは、選手O1のショット動作をある時間単位(例えば、映像のフレーム単位)に付した番号である。例えば、
図4に示すように、インデックスは、ゴルフのスイングの開始から終了までのフレームに付した番号Idx
1~Idx
nである。
なお、動作モデルM1の学習については、後で
図8を参照して説明する。
【0029】
カメラモデル記憶手段12は、ロボットカメラRCのカメラワーク情報およびスイッチング情報を推定するカメラモデル(具体的はそのモデルパラメータ)を記憶するものである。例えば、
図5に示すように、カメラモデルM2は、ある時刻iのロボットカメラRCのカメラ制御情報を推定するモデルである。このカメラモデルM2は、入力層IL、隠れ層HLおよび出力層OLを有する再帰型ニューラルネットワーク(RNN)で構成することができる。
【0030】
カメラモデルM2の入力層ILに入力するデータは、ある時刻iにおける予め定めた関節数jの関節位置の3次元座標(P1x
i,P1y
i,P1z
i)、(P2x
i,P2y
i,P2z
i)…(Pjx
i,Pjy
i,Pjz
i)、ボールO2の速度V
i、位置(X
i,Y
i,Z
i)、インデックスIdx
iである。
また、カメラモデルM2の出力層OLから出力されるカメラ制御情報のうちのカメラワーク情報は、ある時刻iにおけるロボットカメラRC1のパン値C1p
i、チルト値C1t
i、ズーム値C1z
i、および、ロボットカメラRC2のパン値C2p
i、チルト値C2t
i、ズーム値C2z
iである。
また、カメラモデルM2の出力層OLから出力されるカメラ制御情報のうちのスイッチング情報は、ロボットカメラRC1のON/OFF情報C1s
i、および、ロボットカメラRC2のON/OFF情報C2s
iである。このON/OFF情報C1s
i,C2s
iは、例えば、OFF値“0”からON値“1”の範囲を示す実数である。
なお、カメラモデルM2の学習については、後で
図13を参照して説明する。
【0031】
以上説明した3次元姿勢情報記憶手段10、動作モデル記憶手段11およびカメラモデル記憶手段12は、半導体メモリ等の一般的な記憶媒体で構成することができる。各記憶手段は、必ずしも分離した記憶媒体で構成する必要はなく、1つの記憶媒体の記憶領域を区分して各データを記憶すればよい。
【0032】
姿勢推定手段13は、センサカメラ(固定カメラ)SCで撮影した被写体映像SV1から、選手O1の3次元姿勢情報を推定するものである。
姿勢推定手段13は、被写体映像SV1の予め定めたフレーム間隔で時系列に入力される2次元画像であるフレーム画像から、選手O1の関節位置(2次元姿勢情報)を推定し、3次元姿勢情報記憶手段10に記憶されている3次元姿勢情報の中で誤差が最小となる3次元姿勢情報を、選手O1の姿勢として推定する。
【0033】
姿勢推定手段13の2次元画像から人物の関節位置を推定する手法は、以下の参考文献1に記載されているOpenPose等の公知の手法を用いることができるため、詳細な説明は省略する。。
(参考文献1:Zhe Cao and Tomas Simon and Shih-En Wei and Yaser Sheikh. Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields. In CVPR, 2017.)
姿勢推定手段13は、選手O1の2次元姿勢情報(2次元関節位置)と、3次元姿勢情報記憶手段10に記憶されている3次元姿勢情報(3次元関節位置)とから、選手O1の3次元姿勢情報を推定する。
【0034】
以下、姿勢推定手段13における2次元姿勢情報から3次元姿勢情報を推定する手法について説明する。
2次元関節位置を(u,v)、3次元関節位置を(x,y,z)としたとき、その関係は、以下の式(1)で表すことができる。
【0035】
【0036】
ここで、センサカメラSCの内部パラメータとして、fx,fyは焦点距離、cx,cyはレンズ主点位置を表す。また、センサカメラSCの外部パラメータとして、r(r11~r33)はカメラの回転行列、t(t1~t3)はカメラの並進行例を表す。また、sは任意のスケールを表す。
これらのカメラパラメータ(内部、外部)のうち、事前校正によって、fx,fy,cx,cyを既知とすることができる。また、sは任意の値であればよく、例えば“1”とする。
【0037】
姿勢推定手段13は、未知のr,tに適当な値を設定し、
図6に示すように、3次元姿勢情報記憶手段10に記憶されているすべての3次元姿勢情報P
3d1,P
3d2,P
3d3,…の関節ごとの2次元座標(U,V)上の2次元関節位置(u′,v′)を算出する。
なお、r,tは、解が極小値に落ちないように予め定めた大まかな初期値であればよい。例えば、rは、ティーマーカを結んだ線とグラウンド面を基準とした回転行列を用いればよい。また、tは、3次元姿勢情報の2次元座標上の平均値(重心位置)と、3次元姿勢情報に対応する2次元関節位置の重心位置とが一致するように予め定めた行列を用いればよい。
【0038】
そして、姿勢推定手段13は、算出したすべての2次元関節位置(u′,v′)と、2次元画像から推定した2次元関節位置(u,v)との間で、関節ごとにユークリッド距離を求め、距離の二乗和が最小となる2次元関節位置(u′,v′)を求める。
そして、姿勢推定手段13は、誤差の最も小さい2次元関節位置(u′,v′)を、選手O1の3次元関節位置に対応する2次元関節位置とする。なお、この誤差最小の位置を求めるには、非線形最小二乗問題を解く手法として知られるレーベンバーグ・マーカート法等を用いればよい。
そして、姿勢推定手段13は、誤差の最も小さい2次元関節位置(u′,v′)から、式(1)により、関節ごとに3次元関節位置を算出し、選手O1の3次元姿勢情報を求める。
図2に戻って、番組映像制作装置1の構成について説明を続ける。
【0039】
姿勢推定手段13は、被写体映像SV1を構成するフレームごとの2次元画像から推定した3次元姿勢情報を、順次、インデックス推定手段14と、カメラ制御情報推定手段16とに出力する。
【0040】
インデックス推定手段14は、動作モデルを用いて、姿勢推定手段13で時系列に順次推定された3次元姿勢情報からインデックスを推定するものである。
インデックス推定手段14は、
図3に示した動作モデルM1のニューラルネットワークの入力層ILに、ある時刻iにおける3次元姿勢情報(P1x
i,P1y
i,P1z
i)、(P2x
i,P2y
i,P2z
i)、…、(Pjx
i,Pjy
i,Pjz
i)を入力する。
そして、インデックス推定手段14は、動作モデルM1によって、出力層OLから出力される出力値として、インデックスIdx
iを算出する。
インデックス推定手段14は、算出したインデックスをカメラ制御情報推定手段16に出力する。
【0041】
ボール情報検出手段15は、センサカメラSCで撮影したステレオ映像である被写体映像SV1,SV2から、ボールO2の速度および位置をボール情報として検出するものである。
ボール情報検出手段15は、被写体映像SV1,SV2の予め定めたフレーム間隔で時系列に、ステレオ画像(2枚のフレーム画像)を入力し、それぞれの画像上でボールO2の予め定めた形状、色等によってボールO2の2次元座標を検出する。そして、ボール情報検出手段15は、ステレオ画像上のボールO2の位置から、三角測量の原理でボールO2の3次元空間上の位置を求めるとともに、予め定めたフレーム周期に基づいてボールO2の速度を算出する。
【0042】
ステレオ画像から、ボールの位置や速度を計測する手法は、以下の参考文献2に記載されている公知の手法を用いることができるため、詳細な説明は省略する。
(参考文献2:三ッ峰,加藤、“3次元飛翔軌道方程式に基づくゴルフ軌跡表示システムの開発”、NHK技研R&D,No.173,2019年1月発行)
ボール情報検出手段15は、推定したボールO2のボール情報(速度、位置〔3次元座標〕)をカメラ制御情報推定手段16に出力する。
【0043】
カメラ制御情報推定手段16は、カメラモデルを用いて、姿勢推定手段13で推定された3次元姿勢情報と、インデックス推定手段14で推定されたインデックスと、ボール情報検出手段15で検出されたボール情報(速度、位置)とから、カメラワーク情報およびスイッチング情報とを、カメラ制御情報として推定するものである。
カメラ制御情報推定手段16は、
図5に示したカメラモデルM2のニューラルネットワークの入力層ILに、ある時刻iにおける3次元姿勢情報(P1x
i,P1y
i,P1z
i)、(P2x
i,P2y
i,P2z
i)、…、(Pjx
i,Pjy
i,Pjz
i)と、ボールの速度V
i、位置(X
i,Y
i,Z
i)およびインデックスIdx
iを入力する。
【0044】
そして、カメラ制御情報推定手段16は、カメラモデルM2によって、出力層OLから出力される出力値として、カメラワーク情報であるロボットカメラRC1のパン値C1pi、チルト値C1ti、ズーム値C1zi、および、ロボットカメラRC2のパン値C2pi、チルト値C2ti、ズーム値C2ziを算出するとともに、スイッチング情報であるロボットカメラRC1のON/OFF情報C1si、および、ロボットカメラRC2のON/OFF情報C2siを算出する。
カメラ制御情報推定手段16は、算出したカメラワーク情報をカメラ制御手段17に出力する。また、カメラ制御情報推定手段16は、算出したスイッチング情報を映像切替手段18に出力する。
【0045】
カメラ制御手段17は、カメラ制御情報推定手段16で推定されたカメラワーク情報に基づいて、ロボットカメラRC1,RC2のカメラワークを制御するものである。
カメラ制御手段17は、カメラ制御情報推定手段16から入力されるロボットカメラRC1のパン値C1pi、チルト値C1tiおよびズーム値C1ziを、第1制御信号CS1として、ロボットカメラRC1に出力する。
【0046】
また、カメラ制御手段17は、カメラ制御情報推定手段16から入力されるロボットカメラRC2のパン値C2pi、チルト値C2tiおよびズーム値C2ziを、第2制御信号CS2として、ロボットカメラRC2に出力する。
これによって、カメラ制御手段17は、カメラ制御情報推定手段16で逐次推定されるカメラワーク情報に基づいて、ロボットカメラRC1,RC2のパン、チルト、ズームのカメラワークを制御することができる。
【0047】
映像切替手段18は、カメラ制御情報推定手段16で推定されたスイッチング情報に基づいて、ロボットカメラRC1,RC2が撮影する映像を切り替えて、制作映像として出力するものである。
映像切替手段18は、カメラ制御情報推定手段16から入力されるロボットカメラRC1のON/OFF情報C1siでONが指定された場合、ロボットカメラRC1から入力された第1撮影映像RV1を制作映像として出力する。
また、映像切替手段18は、カメラ制御情報推定手段16から入力されるロボットカメラRC2のON/OFF情報C2siでONが指定された場合、ロボットカメラRC2から入力された第2撮影映像RV2を制作映像として出力する。
【0048】
ここで、あるロボットカメラRCがONであるとは、スイッチング情報の中で最も値が大きく、その値が予め定めた閾値(例えば、0.5)以上である場合をいう。なお、スイッチング情報のすべてのON/OFF情報が、閾値未満の場合、映像切替手段18は、制作映像の出力を停止する。
【0049】
以上説明したように番組映像制作装置1を構成することで、番組映像制作装置1は、センサカメラSCで撮影した映像から、ロボットカメラRCのカメラワークを制御するとともに、複数の撮影映像をスイッチングして番組映像を生成することができる。
このとき、番組映像制作装置1は、選手O1のボールO2のショット前においては、選手の動作に対して重みを付けたカメラワークおよびスイッチングの推定を行い、ショット後においては、ボールO2の速度および位置に対して重みを付けたカメラワークおよびスイッチングの推定を行うことができる。なお、この重み付けは、予め学習した動作モデルM1およびカメラモデルM2において、モデルパラメータとして学習されている。
【0050】
これによって、番組映像制作装置1は、スポーツの映像制作において、人手を介さずに、スムーズなカメラワークとカメラスイッチングを実現することができる。
なお、番組映像制作装置1は、コンピュータを、前記した番組映像制作装置1の各手段として機能させるための映像制作プログラムで動作させることができる。
【0051】
[番組映像制作装置の動作]
次に、
図7を参照(適宜
図1,
図2参照)して、番組映像制作装置1の動作について説明する。なお、ここでは、予め3次元姿勢情報記憶手段10に選手O1の3次元姿勢情報として、種々のポーズの関節位置である3次元座標を予め記憶しておくこととする。
また、動作モデル記憶手段11には予め学習した動作モデルM1(
図3)が記憶され、カメラモデル記憶手段12には予め学習したカメラモデルM2(
図5)が記憶されているものとする。
【0052】
ステップS1において、姿勢推定手段13は、センサカメラSCで撮影した被写体映像SV1から、フレームごとに選手O1の3次元姿勢情報(3次元関節位置)を推定する。
このとき、姿勢推定手段13は、OpenPose等の公知の手法によって、フレーム画像から選手O1の関節位置(2次元姿勢情報)を推定し、3次元姿勢情報記憶手段10に記憶されている3次元姿勢情報の中で誤差が最小となる3次元姿勢情報を、選手O1の姿勢として推定する。
【0053】
ステップS2において、ボール情報検出手段15は、センサカメラSCで撮影したステレオ映像である被写体映像SV1,SV2から、フレームごとにボールO2の速度および位置をボール情報として検出する。なお、このステップS2は、ステップS1と同じフレーム単位でボール情報を検出する。
【0054】
ステップS3において、インデックス推定手段14は、動作モデルM1を用いて、ステップS1で推定された3次元姿勢情報から、選手O1の動作を特定する番号であるインデックスを推定する。
【0055】
ステップS4において、カメラ制御情報推定手段16は、カメラモデルM2を用いて、ステップS1で推定された3次元姿勢情報と、ステップS2で検出されたボール情報(速度、位置)と、ステップS3で推定されたインデックスとから、カメラ制御情報(カメラワーク情報およびスイッチング情報)を推定する。
【0056】
ステップS5において、カメラ制御手段17は、ステップS4で推定されたカメラ制御情報のうちのカメラワーク情報であるパン、チルト、ズームの各値を、制御信号として、ロボットカメラRC1,RC2に出力する。
これによって、ロボットカメラRC1,RC2は、パン、チルト、ズームの各値が制御信号で指示された値となるように制御される。
【0057】
ステップS6において、映像切替手段18は、ステップS4で推定されたカメラ制御情報のうちのスイッチング情報に基づいて、ロボットカメラRC1,RC2が撮影する映像を切り替えて出力する。
なお、番組映像制作装置1は、ロボットカメラRC1,RC2から順次撮影映像が入力される場合(ステップS7でYes)、ステップS1に戻って動作を継続する。
【0058】
以上の動作によって、番組映像制作装置1は、カメラモデルで推定されるカメラワーク情報およびスイッチング情報によって、複数のロボットカメラRCのカメラワークを制御するとともに、複数のロボットカメラRCが撮影する映像を切り替えて番組用の映像を生成することができる。
【0059】
[動作モデル学習装置の構成]
次に、
図8を参照して、番組映像制作装置1で用いる動作モデルM1(
図3)を学習する動作モデル学習装置2の構成について説明する。
図8に示すように、動作モデル学習装置2は、姿勢情報取得手段20と、時系列姿勢情報記憶手段21と、学習データ生成手段22と、モデル学習手段23と、動作モデル記憶手段24と、を備える。
【0060】
姿勢情報取得手段20は、選手の動作中における関節位置を3次元姿勢情報として、時系列に取得するものである。例えば、姿勢情報取得手段20は、一般的なモーションキャプチャ等の姿勢計測手法を用いて、選手の関節位置を計測したデータを取得する。
この姿勢情報取得手段20で取得する時系列の3次元姿勢情報は、対象スポーツ(ここでは、ゴルフ)の所定の動作(ここでは、スイング動作)中のデータとする。
また、姿勢情報取得手段20は、複数の選手の3次元姿勢情報を取得する。取得する3次元姿勢情報は、複数の異なる選手がそれぞれ複数の動作を行って取得したデータであることが好ましい。
【0061】
なお、姿勢情報取得手段20は、屋外で実際にスポーツ(例えば、ゴルフ)を行う環境で姿勢情報を取得する必要はなく、屋内でスイング動作のみを行って姿勢情報を取得すればよい。
姿勢情報取得手段20は、取得した時系列の3次元姿勢情報を時系列姿勢情報記憶手段21に記憶する。
【0062】
時系列姿勢情報記憶手段21は、姿勢情報取得手段20で取得した時系列の3次元姿勢情報を複数記憶するものである。
この時系列姿勢情報記憶手段21は、選手の一連の動作(例えば、スイング動作)の時系列の3次元姿勢情報を時刻と対応付けて1つのサンプルデータとして、複数のサンプルデータを記憶する。
【0063】
学習データ生成手段22は、時系列姿勢情報記憶手段21に記憶されている複数の時系列の3次元姿勢情報から、動作モデルを学習するための学習データを生成するものである。学習データ生成手段22は、マッチング手段220と、平均化手段221と、を備える。
【0064】
マッチング手段220は、時系列姿勢情報記憶手段21に記憶されている複数の時系列の3次元姿勢情報(複数のサンプルデータ)を、近似するポーズごとにマッチングするものである。
このマッチング手段220は、サンプルデータごとに、近似するポーズを探索し、複数のサンプルデータ間で対応するポーズの3次元姿勢情報と時刻とを対応付ける。
【0065】
ここで、
図9を参照して、マッチング手段220が行うマッチング手法について説明する。
図8は、あるサンプルデータSM
1と、サンプルデータSM
2とのマッチング例を示す。
マッチング手段220は、
図9に示すように、サンプルデータSM
1,SM
2間において、総当たりで近似するポーズ(p
1-p
1等)を探索する。ここで、ポーズが近似するか否かは、例えば、2つの点群を重ね合わせる手法であるICP(Iterative Closest Point)を用いて、各関節位置の差が最も小さいポーズ同士を近似するポーズと判定する。
このとき、サンプルデータSM
1,SM
2間にはトータルの時間範囲に差があるため、マッチング手段220は、例えば、サンプルデータSM
1の複数のポーズが、サンプルデータSM
2の同じポーズに対応することも許容する。
【0066】
そして、マッチング手段220は、すべてのサンプルデータ間で近似するポーズ同士を対応付けたときの差の総和が最小となる組み合わせを求める。
具体的には、マッチング手段220は、以下の式(2)に示すコスト関数eの値が最小となるポーズの組み合わせを求める。
【0067】
【0068】
ここで、mは、すべてのサンプルデータの組み合わせとなるサンプルデータ対の総数である。n
iは、総サンプルデータ対のi番目のサンプルデータ対における近似したポーズの対応数である。
e
icp,i,jは、i番目のサンプルデータ対の対応するポーズにおけるj番目のポーズ対の差である。なお、この差には、ICPを用いてポーズ間の近似判定を行う際の差を用いることができる。
p
i,jは、重み係数であって、i番目のサンプルデータ対の対応するポーズにおけるj番目のポーズの動作の遷移に誤りがある場合に値を“1.5”、それ以外の場合に値を“1.0”とする。
これによって、
図9に示すように、サンプルデータSM1のポーズp
2,p
3が、サンプルデータSM2のポーズp
2,p
3に遷移順序が異なるように対応付けられている場合に、コスト関数eの値が大きくなる。
図8に戻って、動作モデル学習装置2の構成について説明を続ける。
【0069】
平均化手段221は、マッチング手段220でマッチングされたポーズの遷移時間を平均化するものである。これによって、サンプリングデータの選手ごとの動作スピードによるポーズに時間差が生じる場合でも、近似するポーズについては、同じ時刻に生じる動作とすることができる。
また、平均化手段221は、遷移時間を平均化したポーズに対して、番組映像制作装置1で姿勢を推定するための映像のフレームと同じ周期となるように、3次元姿勢情報を時間方向に内挿することとする。
これによって、フレームごとの3次元姿勢情報と、フレームに対応するインデックスとを、動作モデルを学習するための学習データとして生成することができる。
【0070】
ここで、
図10を参照して、平均化手段221の処理について具体的に説明する。
図10では、サンプルデータSM
1~SM
3において、ポーズp
1,p
2,p
3がそれぞれ近似したポーズとしてマッチングされているものとする。
ここで、サンプルデータSM
1のポーズp
1からp
2の遷移時間がt
11、サンプルデータSM
2のポーズp
1からp
2の遷移時間がt
21、サンプルデータSM
3のポーズp
1からp
2の遷移時間がt
31であったとする。
この場合、平均化手段221は、t
11、t
21およびt
31を平均化した時間t
1を、ポーズp
1からp
2の遷移時間とする。
そして、平均化手段221は、平均化したポーズ間の遷移時間を基準に、内挿によって、フレーム周期の3次元姿勢情報を生成する。
このように、平均化したポーズ間の遷移時間を基準に3次元姿勢情報を生成することで、同一の時間にほぼ同じ姿勢情報が対応することになり、動作モデルを学習する際の学習速度と学習精度を高めることができる。
図8に戻って、動作モデル学習装置2の構成について説明を続ける。
学習データ生成手段22は、生成したフレーム周期の3次元姿勢情報をモデル学習手段23に出力する。
【0071】
モデル学習手段23は、動作モデルを学習するものである。
モデル学習手段23は、
図3で説明した動作モデルM1において、学習データ生成手段22で生成されたフレーム単位の3次元姿勢情報を入力層ILに入力し、出力層OLから、入力した3次元姿勢情報のフレームの先頭からの番号を示すインデックスを出力するように、ニューラルネットワークの動作モデルM1のパラメータを学習する。
モデル学習手段23は、学習した動作モデルを動作モデル記憶手段24に記憶する。
【0072】
動作モデル記憶手段24は、モデル学習手段23で学習した動作モデルを記憶するものである。
この動作モデル記憶手段24に記憶された動作モデルは、
図2の動作モデル記憶手段11に書き込まれ、番組映像制作装置1のインデックス推定手段14が、3次元姿勢情報からインデックスを推定する際に使用される。
なお、動作モデル学習装置2は、コンピュータを、前記した動作モデル学習装置2の各手段として機能させるための動作モデル学習プログラムで動作させることができる。
【0073】
[動作モデル学習装置の動作]
次に、
図11を参照(適宜
図8参照)して、動作モデル学習装置2の動作について説明する。
【0074】
ステップS10において、姿勢情報取得手段20は、一般的なモーションキャプチャ等の姿勢計測手法を用いて、選手の所定動作中における関節位置を3次元姿勢情報として取得する。ここでは、姿勢情報取得手段20は、複数の異なる選手がそれぞれ複数の動作を行った3次元姿勢情報を取得する。
【0075】
ステップS11において、姿勢情報取得手段20は、ステップS10で取得した3次元姿勢情報を時系列姿勢情報記憶手段21に記憶する。
ステップS12において、学習データ生成手段22のマッチング手段220は、時系列姿勢情報記憶手段21に記憶されている複数の時系列の3次元姿勢情報を、近似するポーズごとにマッチングする。このとき、マッチング手段220は、近似するポーズ同士を対応付けたときの差の総和が最小となる組み合わせを求める。
【0076】
ステップS13において、学習データ生成手段22の平均化手段221は、ステップS12でマッチングされたポーズの遷移時間を平均化する。このとき、平均化手段221は、遷移時間を平均化したポーズに対して、番組映像制作装置1で姿勢を推定するための映像のフレームレートと同じ周期となるように、3次元姿勢情報を時間方向に内挿する。
これによって、学習データ生成手段22は、対応するポーズが同一時刻となるフレーム周期の3次元姿勢情報を学習データとして生成することができる。
【0077】
ステップS14において、モデル学習手段23は、ステップS13で生成されたフレームごとの3次元姿勢情報を入力し、3次元姿勢情報のフレームの先頭からの番号を示すインデックスを出力するように、動作モデルM1のパラメータを学習する。
このとき、モデル学習手段23は、出力が正解データであるインデックスとなるように、動作モデル記憶手段24に記憶されている動作モデルM1のパラメータを更新する。
【0078】
ここで、学習が完了していない場合(ステップS15でNo)、動作モデル学習装置2は、ステップS14に戻って動作を継続する。一方、学習が完了した場合(ステップS15でYes)、動作モデル学習装置2は、動作を終了する。
ここで、学習の完了は、例えば、モデル学習手段23が学習データ生成手段22で生成された学習データをすべて使用したか否か、モデル学習手段23においてパラメータの補正量が予め定めた閾値よりも小さくなったか否か等により判定する。
以上の動作によって、動作モデル学習装置2は、番組映像制作装置1で用いる動作モデルM1を学習することができる。
【0079】
[カメラモデル学習装置の構成]
次に、
図12,
図13を参照して、番組映像制作装置1で用いるカメラモデルM2(
図5)を学習するカメラモデル学習装置3の構成について説明する。
カメラモデル学習装置3は、
図12に示すように、
図1で説明した映像制作時と同様、実際のスポーツを行う環境で学習を行う。
図12に示すように、カメラモデルM2(
図5)を学習するカメラモデル学習システムS
Bは、ゴルフ場のコース上に設置された複数の撮影カメラC(C1,C2)と、ティーグラウンドに設置されたセンサカメラSCと、カメラモデル学習装置3と、スイッチャ装置4と、で構成される。
【0080】
撮影カメラCは、カメラマンが手動で映像を撮影するものである。なお、撮影カメラCの設置位置は、
図1で示したロボットカメラRCの位置と同じである。
撮影カメラC1,C2は、カメラマンの操作によって変更されたパン、チルト、ズームのカメラワークを特定する情報(第1カメラワーク情報CI1、第2カメラワーク情報CI2)を、カメラモデル学習装置3に出力する。
また、撮影カメラC1,C2は、撮影した映像(第1撮影映像V1,第2撮影映像V2)をスイッチャ装置4に出力する。
センサカメラSCは、
図1で説明したものと同じであるため、説明を省略する。
【0081】
スイッチャ装置4は、撮影カメラC1,C2で撮影された映像を切り替えて制作映像を生成するものである。
スイッチャ装置4は、図示を省略したモニタに複数の撮影映像を表示し、スイッチャが適宜、出力映像を切り替えることで、番組用の制作映像を生成する。
このスイッチャ装置4は、スイッチャが切り替えた撮影カメラC1,C2の切替情報をスイッチング情報SWとして、カメラモデル学習装置3に出力する。なお、スイッチャ装置4は、一般的なものであるため、説明を省略する。
【0082】
次に、
図13を参照(適宜
図12参照)して、カメラモデル学習装置3の詳細な構成について説明する。
図13に示すように、カメラモデル学習装置3は、3次元姿勢情報記憶手段10と、動作モデル記憶手段11と、姿勢推定手段13と、インデックス推定手段14と、ボール情報検出手段15と、カメラワーク情報入力手段30と、スイッチング情報入力手段31と、モデル学習手段32と、カメラモデル記憶手段33と、を備える。
【0083】
カメラワーク情報入力手段30、スイッチング情報入力手段31、モデル学習手段32およびカメラモデル記憶手段33以外の構成は、
図2で説明した番組映像制作装置1と同じ構成であるため、同一の符号を付して説明を省略する。
【0084】
カメラワーク情報入力手段30は、カメラマンが操作する撮影カメラCから、カメラワークを特定するパン、チルト、ズームの各値を示すカメラワーク情報を入力するものである。
ここでは、カメラワーク情報入力手段30は、撮影カメラC1から、撮影カメラC1のカメラワーク情報として、第1カメラワーク情報CI1を入力する。また、カメラワーク情報入力手段30は、撮影カメラC2から、撮影カメラC2のカメラワーク情報として、第2カメラワーク情報CI2を入力する。
カメラワーク情報入力手段30は、入力した撮影カメラCごとのカメラワーク情報を、モデル学習手段32に出力する。
【0085】
スイッチング情報入力手段31は、スイッチャが操作するスイッチャ装置4から、撮影カメラC1,C2の映像の切り替えを示すスイッチング情報SWを入力するものである。
スイッチング情報入力手段31は、入力したスイッチング情報SWを、モデル学習手段32に出力する。
【0086】
モデル学習手段32は、カメラモデルを学習するものである。
モデル学習手段32は、
図5で説明したカメラモデルM2において、姿勢推定手段13で推定された3次元姿勢情報と、インデックス推定手段14で推定されたインデックスと、ボール情報検出手段15で検出されたボール情報(速度、位置)とを入力層ILに入力し、出力層OLから、カメラ制御情報を出力するように、ニューラルネットワークのカメラモデルM2のパラメータを学習する。
ここで、カメラ制御情報は、カメラワーク情報入力手段30で入力されたカメラワーク情報、および、スイッチング情報入力手段31で入力されたスイッチング情報である。
モデル学習手段32は、学習した動作モデルをカメラモデル記憶手段33に記憶する。
【0087】
カメラモデル記憶手段33は、モデル学習手段32で学習したカメラモデルを記憶するものである。
このカメラモデル記憶手段33に記憶されたカメラモデルは、
図2のカメラモデル記憶手段12に書き込まれ、番組映像制作装置1のカメラ制御情報推定手段16が、3次元姿勢情報、ボール情報(速度、位置)、および、インデックスからカメラ制御情報を推定する際に使用される。
なお、カメラモデル学習装置3は、コンピュータを、前記したカメラモデル学習装置3の各手段として機能させるためのカメラモデル学習プログラムで動作させることができる。
【0088】
[カメラモデル学習装置の動作]
次に、
図14を参照(適宜
図13参照)して、カメラモデル学習装置3の動作について説明する。なお、ここでは、予め3次元姿勢情報記憶手段10に選手O1の3次元姿勢情報として、種々のポーズの関節位置である3次元座標を予め記憶しておくこととする。また、動作モデル記憶手段11には予め学習した動作モデルM1(
図3)が記憶されているものとする。
ステップS20~S22の動作は、
図7で説明した番組映像制作装置1のステップS1~S3の動作と同じであるため、説明を省略する。
【0089】
ステップS23において、カメラワーク情報入力手段30は、カメラマンが操作する撮影カメラC1,C2から、カメラワークを特定するパン、チルト、ズームの各値を示すカメラワーク情報を入力する。
ステップS24において、スイッチング情報入力手段31は、スイッチャが操作するスイッチャ装置4から、撮影カメラC1,C2の映像の切り替えを示すスイッチング情報SWを入力する。
【0090】
ステップS25において、モデル学習手段32は、ステップS20で推定されたフレームごとの3次元姿勢情報、ステップS21で推定されたボール情報、および、ステップS22で推定されたインデックスを入力し、ステップS23で入力したカメラワーク情報、および、ステップS24で入力したスイッチング情報を出力するように、カメラモデルM2のパラメータを学習する。
【0091】
ここで、学習が完了していない場合(ステップS26でNo)、カメラモデル学習装置3は、ステップS20に戻って動作を継続する。一方、学習が完了した場合(ステップS26でYes)、カメラモデル学習装置3は、動作を終了する。
ここで、学習の完了は、例えば、モデル学習手段32が予め定めた回数の学習を行ったか否か、モデル学習手段32においてパラメータの補正量が予め定めた閾値よりも小さくなったか否か等により判定する。
以上の動作によって、カメラモデル学習装置3は、番組映像制作装置1で用いるカメラモデルM2を学習することができる。
【符号の説明】
【0092】
1 番組映像制作装置
10 3次元姿勢情報記憶手段
11 動作モデル記憶手段
12 カメラモデル記憶手段
13 姿勢推定手段
14 インデックス推定手段
15 ボール情報検出手段(移動物体検出手段)
16 カメラ制御情報推定手段
17 カメラ制御手段
18 映像切替手段
2 動作モデル学習装置
20 姿勢情報取得手段
21 時系列姿勢情報記憶手段
22 学習データ生成手段
220 マッチング手段
221 平均化手段
23 モデル学習手段
24 動作モデル記憶手段
3 カメラモデル学習装置
30 カメラワーク情報入力手段
31 スイッチング情報入力手段
32 モデル学習手段
33 カメラモデル記憶手段
4 スイッチャ装置
SC センサカメラ
RC ロボットカメラ
C 撮影カメラ