(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-04
(45)【発行日】2023-12-12
(54)【発明の名称】ロボットカメラソフトウェアと制御装置
(51)【国際特許分類】
H04N 23/66 20230101AFI20231205BHJP
H04N 23/69 20230101ALI20231205BHJP
H04N 23/695 20230101ALI20231205BHJP
G03B 15/00 20210101ALI20231205BHJP
G03B 17/56 20210101ALI20231205BHJP
【FI】
H04N23/66
H04N23/69
H04N23/695
G03B15/00 P
G03B17/56 A
(21)【出願番号】P 2020557337
(86)(22)【出願日】2019-04-16
(86)【国際出願番号】 IB2019053109
(87)【国際公開番号】W WO2019202487
(87)【国際公開日】2019-10-24
【審査請求日】2022-04-12
(32)【優先日】2018-04-17
(33)【優先権主張国・地域又は機関】CH
(73)【特許権者】
【識別番号】523354152
【氏名又は名称】シアヴィジョン・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング
(74)【代理人】
【識別番号】100069556
【氏名又は名称】江崎 光史
(74)【代理人】
【識別番号】100111486
【氏名又は名称】鍛冶澤 實
(74)【代理人】
【識別番号】100191835
【氏名又は名称】中村 真介
(74)【代理人】
【識別番号】100221981
【氏名又は名称】石田 大成
(74)【代理人】
【識別番号】100208258
【氏名又は名称】鈴木 友子
(72)【発明者】
【氏名】カリオトグロウ・ニコラオス
(72)【発明者】
【氏名】ホフマン・レート
【審査官】高野 美帆子
(56)【参考文献】
【文献】特開2012-114593(JP,A)
【文献】特開平05-119823(JP,A)
【文献】特開2007-158860(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 23/66
H04N 23/69
H04N 23/695
G03B 15/00
G03B 17/56
(57)【特許請求の範囲】
【請求項1】
カメ
ラを持
ち、前記カメラを配向するロボットヘッ
ドであって、前記ロボットヘッドが、空間座標(x、y、z)と、パン角度と、チルト角度と、ロール角度と、焦点と、画角と、絞りとの中の少なくともいくつかについて、前記カメラを、動かし、配向し、又は配置すべく、動作可能である、前記ロボットヘッドと、
前記カメラか
ら映像を捉えるべく、
動作可能に構成されていて、フレームバッファ領
域に記憶する、映像キャプチャユニッ
トと、
前記フレームバッファ領
域にアクセスし、指示部からの指示に基づいて基準カメラ
経路を生成するように
動作可能に配置され
た処理ユニットであって、
前記フレームバッファ領
域内の映像記録内の、対象オブジェクトのリアルタイム
プロジェクションを決定し、
前記リアルタイムプロジェクションに基づいて前記基準カメラ経路を最適化し、
最適化された前記基準カメラ経路に従って前記ロボットヘッドを、空間座標(x、y、z)と、パン角度と、チルト角度と、ロール角度と、焦点と、画角と、絞りとの中の少なくともいくつかについて、カメラを、動かす、配向する、又は配置すべく、操作する、
前記処理ユニッ
トと、
を備えるロボットカメラシステム。
【請求項2】
前記処理ユニットが、前記ロボットヘッドの制限速度に従って前記ロボットヘッドを操作するように構成されている、
請求項
1に記載のロボットカメラシステム。
【請求項3】
既知の映像撮影規則と、過去事例でトレーニングしたニューラルネットワークとのセットに基づいて、前記
基準カメラ経路を生成する映像撮影最適化ユニッ
トを備える、請求項
1に記載のロボットカメラシステム。
【請求項4】
前記処理ユニットが、前記リアルタイム
プロジェクションにおいて前記対象オブジェク
トを光学フローアルゴリズムによって
更新するように
構成されたプロジェクションユニッ
トを備える、請求項
1に記載のロボットカメラシステム。
【請求項5】
前記処理ユニットが、シーン内の
前記対象オブジェクトを、
前記対象オブジェクトの輪郭と共に検出して特定するように
動作可能に配置された推論
層を備える、請求項
1に記載のロボットカメラシステム。
【請求項6】
前記推論層は畳み込みニューラルネットワークを備える、請求項
5に記載のロボットカメラシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ロボット化されたカメラを用いて自動的に動く物体を撮影するシステムに関する。
【0002】
ロボット機器に取り付けられたカメラを使用して動く物体を自動的に撮影するように設計されたアルゴリズムは、動的に変化するシーンで、人間の操作者と同じ性能を達成するのに苦労している。
主な目に見える主要な問題は次のとおりである。
a)カメラの「ロボットみたいな」の動き、
b)不必要な動き、
c)1シーンへの遅すぎる反応、
d)人間に明らかなものへの不適応、
e)カメラのマイクに拾われてロボット部品の運動音がわかること
【0003】
本発明によれば、これらの課題は、本明細書に記載されて、特許請求の範囲に記載されるシステムによって達成される。
【0004】
特に、本発明は、次のことからわかる、既知の解決策の限界の分析から、出てきたものである。
【0005】
映像制作の観点から、何が起こっているのかについての理解が欠けていた。
例えば、ある人がステージにとどまっているのに対し、テニスプレーヤーが加速してネットに到達するなど、さまざまな状況に正しく反応可能な外部作動を介して、カメラやレンズと連携可能なシステムがない。
【0006】
上記の理解に基づくロボットの動きの予測が欠けていた。
例えば、スポーツカーがカーブ横に配置されたカメラに向かってくる場合、人間はレーストラックとその上のカメラの位置を知って、次の位置を予測する。
既存のロボットには、未知の環境の関係性において、そして最高のシネマトグラフィ結果を得るためにカメラをどのように配置する必要があるかの予測に基づいて、追跡するオブジェクトを位置付けるインテリジェンスがない。
同様に、テニスプレーヤーがボレーでネットに向かって走るとき、人間の写真家は、(ボールが)ネットに落ちる前に立ち止まって、それに応じてカメラの動きを調整することをわかっているが、ロボットは操作者によってハードウェアにおいてコード化されている行動がない限りそれは実行不可能である。
本発明は、シーンを意識した予測によってそのようなことを処理する。
【0007】
人間の操作者がショットをリフレームしない場合があった。例えば、ステージ上のスピーカーが定点を中心に振動する場合、ロボットはこれを認識し、カメラを常に動かす必要がないようにフレーミング(ズーム、再配置)を調整する必要がある。重要なことに、本発明のシステムは、人間のような特定の「再プログラミング」なしに、そのような状況を異なる関係性において認識可能である。
【0008】
「ロボット的な」動きは、突然の加速によるものである。これらは、既存の全ての制御装置が、「人が特定範囲外にいる場合は、カメラを動かして元に戻す。人が入ったらすぐに止まる」のような一定のしきい値に基づいて反応するために生じる。このような動きは、人間の動き方とは異なる。人間は、動きを予想して、突然の動きを避ける方法でフレームを準備するからである。
経験ある操作者は、被写体の動きを捉え、最小限の動きで動きを捉えるフレームを実行できる。これは上述の事項に関連するが、現在のフレームではなく、いかに将来のフレームを配置するかの予測が追加的に必要である。
【0009】
高速のオブジェクトのフレーミングを行う、将来を見据える予測が欠けていた。人間は、自発的に物理的な運動モデルを使用して、目標が空間のどこに移動するかを予測する。例えば、人間は、無意識の物理モデリングによって軌道を予測可能なため、速度に関係なく飛行ロケットを簡単に撮影可能である。現存のシステムには、状況を認識し、それを物理モデルに帰して、予測的に目標を追跡する機能がない。
【0010】
本発明は、例として与えられ、以下の図によって示される実施形態の説明をたよりに、よりよく理解されるであろう。
【図面の簡単な説明】
【0011】
【
図1】
図1にロボット撮影システムの簡略図を示す。
【
図2】
図2は、本発明の様々なハードウェア及びソフトウェア要素の相互作用を示すブロック図である。
【発明を実施するための形態】
【0012】
図1は、本発明の具体化に適してロボット化された撮影システムを簡略に表す。シーン100は、システムが捉えなくてはならない動きが実行される所定の領域である。映像及び/又は音声で動きを捉える任意の数のロボット化されたカメラ21が、1つだけ図示されているが、本発明は、任意の数のカメラ21を備えてよい。典型的には、電子プロセッサ40の制御下で、パン、ローリング、及びチルトが可能な自動電動ジンバルに、カメラ21が取り付けられている。本発明は、静止三脚に設置される固定カメラと、同じくプロセッサ40によって制御される、ある種の自律型車両又は飛行機によって運ばれる可動カメラの両方を、備えてよい。システムは、各カメラのx、y、zの位置と、速度の3つの成分を制御する。
【0013】
好ましくはそして重要なことに、集束距離、(画角を決定する)焦点距離、絞り開口などのようなカメラの光学系の設定は、制御装置40によって自動的に設定及び管理される。
【0014】
本説明は、簡単にするために「プロセッサ」に言及しているが、これは、本発明が単一プロセッサ装備(設置計画)に限定されていると解釈されるべきではない。「プロセッサ」という表現は、この関係において、データを処理可能なコンピューティング装置の任意の組立体を明示的に含み、ネットワーク内又は通信バスを介してそれらの間で通信する複数の物理的に異なる装置によって実現されてよい。本発明は、逐次プログラム可能プロセッサにも限定されず、有線論理回路及びフィールドプログラム可能論理回路を含むデジタルデータを処理可能な全ての可能なシステムを含むものとする。人工ニューラルネットワーク(複数)は、それらが本発明に含まれる限り、ソフトウェア又はハードウェア、例えばFPGA(フィールドプログラマブルゲートアレイ)又は専用ハードウェアによって実装されてよい。
【0015】
好ましい実施形態では、プロセッサユニットは、少なくとも1つの汎用CPU、例えば、Intel(登録商標)(インテル)のプロセッサ又は互換性のあるユニット、及び高効率視覚処理のための専用GPU、例えば、NVIDIA(登録商標)(エヌビディアコーポレーション)のGPUを備える。
【0016】
カメラ21によって生成された映像ストリームは、映像フレームをプロセッサユニットの作業メモリに格納する機能を有する専用の映像キャプチャユニット30に送信される。フレームは、後で説明するように、モデリングと予測に使用される履歴を維持するために、ローリングバッファに好ましくは格納される。
【0017】
本発明のシステム、例えば、パーソナルコンピュータ52、あるいはスマートフォン又はタブレットのようなモバイル端末51との相互作用を可能にするために、複数のインタフェースユニットが予見されよう。インタフェースユニット51、52と制御ユニット40との間の通信は、有線バス(例えば、USB)、ブルートゥース(登録商標)又はWi-Fiを含む無線リンクによって実施されてよい。通信は、例えばTCP/IP上のhttpsのような、標準ネットワークプロトコルに従ってもよい後者の実装は、LAN又はWANを介したリモート接続の可能性も開く。
【0018】
プロセッサユニット40及びフレームキャプチャユニット30は、それらの特定の独立した機能を強調するために、カメラヘッド45から取り外された別個のユニットとして描かれている。しかしながら、具体的な実装では、ロボットヘッドに完全に又は部分的に埋め込まれてあってもよい。カメラシステムの一部の計算集約的機能及び時間制約的ではない機能は、外部サーバーに委任されてもよい。
【0019】
図2は、本発明が、任意のカメラ及びレンズに対して静かにかつ互換性のある、自動で人間のようなカメラの動きを達成可能にするハードウェア及びソフトウェアの組み合わせを概略的に示す。実線の四角で示されるブロックはハードウェア装置であり、白抜き円が付されたブロックは、データ処理機能又はデータ構造を表し、プロセッサ30によってソフトウェアに実装される可能性がある部分である。矢印は、情報の優先フロー又は主要フローを示す。矢印はまた、ブロックが別の状態への状態変化を起こすことも示す。(図で矢印の示す意味から)しかしながら、他の接続、影響、及び異なるパスでの反対方向の信号の交換が、除外されるものではない。
【0020】
システムの基本的次元は、少なくとも12で、カメラの、x、y、zの位置座標、パン、チルト、ロール角度、速度の少なくとも3つの成分、ズーム、焦点、アイリス(絞り)が含まれる。システムは、(12)より高次元を処理してもよい。ロボットインタフェース150とカメラヘッド45との間の情報及びコマンドの交換は、12軸の制御を伴う。
【0021】
カメラ48のライブ出力から来るフレームは、画像形成プロセスの避けられない又は意図的な歪みを伴って、カメラレンズを通して画像をキャプチャすることによって生成される。フレーム抽出ユニット30は、フレームを受信し、プロセッサ30がアクセス可能な「フレームバッファ」260で示されるメモリ領域にフレームを格納する。フレームバッファ260は、過去のフレーム履歴を所定の深さまで保持するローリングバッファとして構造化されている。推論ユニット200及びオブジェクトモデラーユニット240は、静的フレームを次々に処理するのではなく、フレームのこの履歴セグメントを処理する。
【0022】
推論ユニット200は、シーン内のオブジェクトをそれらの輪郭とともに検出及び識別するように動作可能に配置されている。これは、各フレームにどのようなオブジェクトがどこに存在するのかを判断可能な任意の適切な物体識別方法によって実現されるだろう。これには、例えば人工ニューラルネットワークが含まれる。3つの深い畳み込みニューラルネットワークが、テストされ、使用されて、良好な効果が得られている。
【0023】
バッファ260内のフレームはまた、最新のフレームだけでなく先行するフレームにもあるオブジェクトの移動モデルを独立して構築するオブジェクトモデラーユニット240に渡される。これは現在、全てのオブジェクトの線形システム抽象化として実装されていて、いわゆる二重積分器の動きを模倣しているが、ニューラルネットワークの動きモデラーの粒子フィルターやその他の適切なアルゴリズムでもよいだろう。
【0024】
推論層出力及びオブジェクトモデラー出力は、3D世界座標で表現された、現在カメラの前にあるシーンの推定を構築する3Dシーン推定ユニット170に渡される。(速度などを含め、次元はさらに増大することがある。)
【0025】
シーン推定ユニット170の更新は、フレーム抽出器30rからの元の材料にも基づいて、同等に、フレームバッファ260内の最新のフレームに基づいて、関心のあるオブジェクトの状態をリアルタイムで更新するプロジェクタユニット160によって使用される。好ましくは、推定ユニット160は、カメラから取得されたフレームを見逃すことなく、ターゲットオブジェクトの状態を更新する。このブロックは、好ましくは、線形補間モデルなどの単純で時間効率の良いアルゴリズムを使用する。これは、画像内のピクセルの明るさ(いわゆる光学フローアルゴリズム)に基づいてもよい。
【0026】
予測最適化ユニットは、プロジェクタユニット160によって提供されるオブジェクトの状態と、指示入力110から生成される基準パスとの、2つの入力で、動作する。
【0027】
指示入力ディレクティブ110は、関心のオブジェクトとそのターゲット位置の観点から表現される。それは、指示に従って、観客が画面上で見るべき2D画像がどのように見えるべきかという静的な目標を作成するアルゴリズム120によって処理される。例えば、フレームが、ある人と、他の人が話している人と、話者が見ている物体との少なくともいずれかを含むべきであることと、フレームが、話者の視線によって変化するべきであることとを、指示が示すだろう。最適化ユニットは、結果が指示の要件を満たすことを保証する制約も、実装する。この最適化アルゴリズムは、例えば、過去の映像でトレーニングされた一連の既知のシネマトグラフィ(映像撮影技術の)規則とニューラルネットワークを統合することによって実装される。
【0028】
カメラ及びレンズ経路発生器130は、シネマトグラフィ最適化ユニット120によって与えられる静的フレーム目標を使用し、ロボットシステムが必要な静的目標フレームに到達するためにたどれる実行可能な経路を設計する。重要なことに、経路発生器130は、カメラ及びレンズヘッドのエンコーダにアクセス可能であり、これにより、カメラの正確な位置及びレンズ設定の正確な知識が得られる。エンコーダデータは、描画されたままのプロキシとしてロボットインタフェース150を通過するか、又は他の方法でアクセス可能である。経路発生器は、事前の較正及び準備プロセスで識別されたカメラとレンズの光学特性を最大限に活用する。
【0029】
予測最適化ユニットは、プロジェクタユニット160によって提供されるオブジェクトの状態と、ディレクタ入力110から生成された基準パスとを融合して、シーンの予測される動きに調整されたカメラの目標位置を作成する。最適化ユニット140は、準備段階で識別されるロボットシステム及びカメラ及びレンズ装置の機能に関連する長い制約を処理する。例えば、最適化ユニットは、ロボットシステムの制限速度を超える動きに注意を払う。
【0030】
有利には、本発明のシステムは、任意のタイプの物体、例えば、人、車、又は推論層200によって認識及び配置され得る任意の物体に適応可能である。プロジェクタの予測は、取得した全フレームでリアルタイムに動作するように設計されているため、対象のオブジェクトに関係なく、高速であり、その可用性は決定的である。これにより、100Hz以上のユニット160の出力で予測アルゴリズムのリフレッシュ周波数が可能となる。計画ユニット140によって生成される最適化された軌道は、制約付き最適化アルゴリズムの結果であり、ロボットヘッドの仕様を決して超えないことが保証される。
【0031】
システムは、複数のオブジェクトとそれらの関係に関して与えられる複数の指示を理解する。指示は、再プログラミングなしに、リアルタイムで出せ、そのようにして、大きな芸術的自由と自然な結果を提供する。