(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-18
(45)【発行日】2024-06-26
(54)【発明の名称】画像を取り込むシステムおよびカメラ機器
(51)【国際特許分類】
H04N 23/60 20230101AFI20240619BHJP
G03B 15/00 20210101ALI20240619BHJP
G03B 17/56 20210101ALI20240619BHJP
H04N 23/695 20230101ALI20240619BHJP
【FI】
H04N23/60 100
G03B15/00 U
G03B15/00 P
G03B15/00 Q
G03B17/56 A
H04N23/695
【外国語出願】
(21)【出願番号】P 2020041939
(22)【出願日】2020-03-11
【審査請求日】2022-12-22
(32)【優先日】2019-03-19
(33)【優先権主張国・地域又は機関】GB
(73)【特許権者】
【識別番号】310021766
【氏名又は名称】株式会社ソニー・インタラクティブエンタテインメント
(74)【代理人】
【識別番号】100105924
【氏名又は名称】森下 賢樹
(72)【発明者】
【氏名】ナイジェル ジョン ウィリアムズ
(72)【発明者】
【氏名】ファビオ カッペロ
(72)【発明者】
【氏名】ラジーブ グプタ
(72)【発明者】
【氏名】マーク ヤコブス ブリューゲルマンズ
【審査官】▲徳▼田 賢二
(56)【参考文献】
【文献】中国特許出願公開第107749952(CN,A)
【文献】特開2013-247508(JP,A)
【文献】特開2009-239346(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 23/60
G03B 15/00
G03B 17/56
H04N 23/695
(57)【特許請求の範囲】
【請求項1】
システムであって、
シーンの画像を取り込むように動作可能なカメラと、
前記シーンの画像内の注目物体を識別するように構成された識別ユニットと、
前記カメラに対する前記シーン内の前記注目物体の姿勢を取得するように構成された姿勢プロセッサと、
取得した前記注目物体の姿勢および前記カメラによって取り込まれた画像の少なくとも一方に基づいて、前記カメラの現在の姿勢で前記カメラによって取り込まれた画像に関連付けられたシーンの品質を判定するように動作可能なシーン解析部であって、
前記シーン解析部が、前記カメラによって取り込まれた前記画像に関連付けられた前記シーンの品質を判定するように訓練された第1の機械学習モデルを含む、シーン解析部と、
現在の姿勢で取り込まれた画像の前記シーンの品質が閾値未満であるという判定に基づいて、前記カメラの姿勢を調整するように構成されたコントローラと
を備え、
前記第1の機械学習モデルが、訓練画像および/または注目物体の訓練画像を取り込んだ前記カメラに対する前記シーン内の前記注目物体の姿勢を示す姿勢データを用いて訓練され、前記姿勢データおよび/または前記訓練画像には、前記画像に関連付けられた前記シーンの品質がラベル付けされ、
前記姿勢データおよび/または前記訓練画像が、前記姿勢データおよび/または訓練画像のソースおよび前記姿勢データおよび/または訓練画像に関連付けられたユーザフィードバックの少なくとも一方に基づいて、高品質のシーンを有するとしてラベル付けされる、システム。
【請求項2】
前記コントローラが、現在の姿勢で取り込まれた画像の前記シーンの品質が閾値未満であるという判定に基づいて、前記カメラの1つ以上の内部パラメータを調整するように構成され、
前記第1の機械学習モデルが、前記姿勢データおよび/または前記訓練画像が取得された前記カメラの1つ以上の内部パラメータを示す固有データを用いてさらに訓練される、請求項
1に記載のシステム。
【請求項3】
前記コントローラが、結果的により高品質のシーンを有する注目物体の画像を取り込む可能性が高い前記カメラの姿勢を特定するように訓練された、第2の機械学習モデルを含む、請求項1
または2に記載のシステム。
【請求項4】
前記第2の機械学習モデルが、深層強化学習を使用して訓練されたエージェントを含み、前記エージェントが、前記カメラによって取り込まれた画像の前記シーンの品質を最大限に高める姿勢を学習するように訓練され、前記エージェントが、複数の異なる仮想シーン内を移動し、かつ前記仮想シーン内の注目物体の仮想画像を取り込むことによって訓練される、請求項
3に記載のシステム。
【請求項5】
前記第2の機械学習モデルが、前記仮想画像を前記訓練された第1の機械学習モデルに入力することによって、前記仮想画像に関連付けられたシーンの品質を判定するように構成される、請求項
4に記載のシステム。
【請求項6】
前記識別ユニットが、前記カメラによって取り込まれた前記画像に関連付けられた前記シーンのタイプを識別するように構成され、
前記シーン解析部が、前記識別されたシーンのタイプに基づいて、前記カメラの現在の姿勢で前記カメラによって取り込まれた前記画像に関連付けられたシーンの品質を判定するようにさらに構成される、請求項1~
5のいずれか一項に記載のシステム。
【請求項7】
前記識別ユニットが、前記カメラによって取り込まれた前記画像が対応するシーンのタイプを識別するように訓練された第3の機械学習モデルを含み、前記第3の機械学習モデルが、異なるタイプのシーンの画像および対応するシーン識別子を用いて訓練される、請求項
6に記載のシステム。
【請求項8】
前記注目物体がシーン内にキャラクタを含み、シーン品質モデルが、姿勢データおよび/またはシーン内のキャラクタの訓練画像を用いて訓練される、請求項1~
7のいずれか一項に記載のシステム。
【請求項9】
前記注目物体が複数のキャラクタを含み、前記システムが、
前記取り込まれた画像に含まれる1人以上のキャラクタを示す入力をユーザから受信するように動作可能な入力ユニットを備え、
前記シーン解析部が、取り込まれた前記画像および/または前記カメラによって取り込まれた前記画像に含まれるキャラクタの3D姿勢に基づいて、シーンの品質を判定するように構成される、請求項
8に記載のシステム。
【請求項10】
少なくとも1人のキャラクタが話しているか、または話し始めようとしていることを示す音声データを受信するように動作可能な音声ユニットを備え、
前記識別ユニットが、前記音声データに基づいて前記少なくとも1人のキャラクタを主要キャラクタとして識別するように構成され、
前記シーン解析部が、前記カメラおよび/または前記カメラによって取り込まれた前記画像に対する前記シーン内の前記少なくとも1人の主要キャラクタの姿勢に基づいて、前記シーンの品質を検出するように構成される、請求項
9に記載のシステム。
【請求項11】
前記識別ユニットが、前記シーン内の音源を識別するように構成され、前記姿勢プロセッサが、前記カメラに対する前記音源の姿勢を特定するように構成され、
前記シーン解析部が、前記カメラに対する前記音源の検出された姿勢に基づいて、取り込まれた前記画像に関連付けられたシーンの品質を判定するようにさらに構成される、請求項1~1
0のいずれか一項に記載のシステム。
【請求項12】
前記カメラが実カメラであり、前記システムが、前記カメラの位置および/または方向を制御する運動手段を含み、
コントローラから入力を受信するように構成される前記運動手段が、車輪およびプロペラの少なくとも一方を備える、請求項1~1
1のいずれか一項に記載のシステム。
【請求項13】
カメラ機器が、
シーンの画像を取り込むように動作可能なセンサと、
i.識別ユニット、
ii.姿勢プロセッサ、
iii.シーン解析部、および
iv.コントローラ
から選択された1つ以上の構成要素と
を含む、請求項1に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、画像を取り込むシステムおよびカメラ機器に関する。
【背景技術】
【0002】
最近では、写真撮影やビデオ撮影が非常に利用しやすくなっている。市販の携帯カメラ機器の急増により、この状況が少なくとも部分的に加速している。これらの携帯機器は、スマートフォン機器、装着型カメラ、プロ用カメラ、カメラを組み込んだドローンなどとは形態が異なる。
【0003】
カメラ機器の解像度は向上し続けているが、このようなカメラによって取り込まれる画像の品質は、操作者の技能に大きく依存している。例えば、構図、被写体のオクルージョン、照明、被写界深度などの特性は、通常は操作者がシーン内の被写体に対してカメラを構成する方法に依存する。複雑な地形や複数の動的な被写体を含むシーンの場合、最良の画像を得るためにカメラを位置決めするのは必ずしも容易ではない。
【0004】
Google(登録商標)Clipカメラなどの一部のカメラ機器は、シーン内で発生する注目イベントを自動的に検出して、それらイベントの画像を取り込むように訓練されている。これは確かに有用であるが、この方法で取り込まれた画像の品質は、いまだに、操作者がカメラを向ける場所で主に機能する。さらに、これらの機器は静止している傾向があるため、動的なシーンの範囲に何かしらの制限がある。
【0005】
注目物体を追跡するカメラ機器は、当技術分野で知られている。例えば、いわゆる「フォローミー機能付き」ドローンは、(例えば、ユーザに関連付けられたGPS信号またはコンピュータビジョンを使用した)ユーザ位置の検出に基づいて、ユーザを追尾することを可能にする。しかし、通常、これらのドローンはユーザに対する所定の相対位置を維持し、検出された被写体の任意のオクルージョン、または取り込まれた画像の審美的品質の低下には反応しない。
【0006】
ビデオゲームの中には、ゲーム内環境などの仮想シーンの画像を取り込む仮想カメラを提供するものがある。この仮想カメラの姿勢は通常、プレイヤが制御しているため、取込画像の品質は、仮想カメラに対するプレイヤの制御に依存する。いくつかのゲームでは、例えば上述のドローンの仮想版のように、アバターの身体上のある場所から一定の距離を維持するために、予め構成されたスクリプトパスを使用してカメラの姿勢を制御してもよい。
【0007】
しかし、一般に、この方法で仮想カメラを配置しても、取り込まれる仮想シーンの最適な画像が常に得られるとは限らない。
【0008】
本発明は、これらの問題に対処するか、または少なくとも軽減しようとするものである。
【発明の概要】
【0009】
本明細書に開示される第1の態様によれば、請求項1に記載のシステムが提供される。
【0010】
本明細書に開示される第2の態様によれば、請求項15に記載の機器が提供される。
【図面の簡単な説明】
【0011】
本開示の理解に役立つように、かつ、実施形態を実施する方法を示すために、添付の図面を一例として参照する。
【0012】
【
図1】2つの被写体と、被写体に対して姿勢が異なるカメラとで構成されるシーンの一例を示す図である。
【
図2】シーンの画像を取り込むシステムの一例を概略的に示す図である。
【発明を実施するための形態】
【0013】
画像を取り込むシステムおよびカメラ機器が開示されている。以下の説明では、本発明の実施形態を完全に理解することができるように、いくつかの具体的詳細が提示されている。しかし、これらの具体的詳細を使用して本発明を実施する必要がないことは、当業者には明らかであろう。逆に、当業者に知られている具体的詳細は、理解しやすいように必要に応じて省略されている。
【0014】
カメラ操作者は、様々な理由でシーンの画像を取り込みたいと望む場合がある。いくつかの例では、シーンは実際の物理的環境に対応してもよく、ユーザは、当該環境の静止画像もしくはビデオ画像を取り込みたいと望む場合がある。通常、これは、シーン内の1人以上の被写体の画像を取り込むことが目的である。被写体は、例えばシーン内の人物、カメラ操作者自身(例えば自撮りの場合)、シーン内の特定の物体などに対応してもよい。
【0015】
いくつかの例では、シーンは、ビデオゲームの一部とされる仮想環境などの仮想シーンであってもよく、ユーザは、仮想カメラを使用してゲーム内イベントの静止画像もしくはビデオ画像を取り込みたいと望む場合がある。例えば、プレイヤは、ビデオゲーム内で自身のアバターの画像を取り込みたいと望む場合がある。
【0016】
図1は、2人の被写体102および104を含むシーン100の一例を示している。
図1では、被写体は人物に対応しているが、注目する物に対応していてもよい。シーンは、別の物体、この場合は樹木106をさらに含む。カメラは、シーン内の被写体に対する第1の位置および方向(つまり姿勢)108Aに示されている。この姿勢でカメラによって取り込まれた画像は、第1の画像110Aとして示される。カメラはまた、シーン内の被写体に対する第2の姿勢108Bで示されており、その姿勢で取り込まれた対応画像は、第2の画像110Bとして示されている。シーンは、前述したように、実際の物理的環境または仮想環境に対応してもよい。
【0017】
図1からわかるように、第1の姿勢108Aでの取込画像は、第2の被写体が樹木によって部分的に遮蔽され、取込画像において被写体の顔がいずれも前方を向いていないため、ほとんどの状況において準最適であると見なされる。カメラの位置を自動的に調整して、少なくとも1人の被写体がシーン内の任意の他の物体によって遮蔽されていない(または、少なくとも許容量だけ遮蔽されていない)シーンの画像を取得できることが望ましい。さらに、この画像が、例えば三分割法などの既知の芸術的原理に準拠した、審美的に美しい構図で取り込むことができることが望ましい。このような画像を取得するシステムを、
図2との関連で説明する。
【0018】
図2は、カメラ201の位置を自動的に調整して、シーン内の被写体の画像を取得するシステム200の一例を概略的に示している。
【0019】
システム200は、シーンの画像を取り込むように動作可能なカメラ201を備える。カメラ201は、例えば、画像センサと、センサに光を合焦する1つ以上のレンズを備える実カメラ201に対応してもよい。代替的に、カメラ201は仮想カメラ201に対応してもよく、この仮想カメラ201は、例えばビデオゲームにおいて提供され、プレイヤが仮想シーンの画像を取り込むことを可能にする。
【0020】
システム200はまた、カメラ201によって取り込まれた画像を受信し、かつシーン内の注目物体を識別するように構成された識別ユニット202を備える。識別ユニット202は、この識別を実行するためにコンピュータビジョンまたは機械学習技術を使用してもよい。
【0021】
識別ユニット202はまた、取込画像が対応するシーンのタイプを識別するように構成されてもよい。いくつかの例では、この識別を、訓練された機械学習モデル(本明細書ではシーンタイプモデル203と呼ぶ)を使用して実行してもよい。シーンタイプモデル203は、異なるタイプのシーンを表す高度な特徴を学習するように訓練されてもよい。この訓練は、それぞれのシーン識別子がラベル付けされた(すなわち、教師あり学習)異なるシーンの画像、またはコンテンツの類似性に基づいて異なるシーンのタイプにグループ化された(すなわち、教師なし学習を使用した)ラベル付けされていない画像を使用して達成されてもよい。教師なし学習の場合、開発者は、そのグループ内の画像が代表するシーンのタイプを示す識別子を異なるグループに手動でラベル付けしてもよい。教師あり学習の場合、画像には、例えばシーンのタイプを示すメタデータが事前にラベル付けされてもよい。
【0022】
高度な特徴は、例えばシーンのタイプに対応するものとして学習された画像の構図、色、強度変化(またはそれらの特徴の表現)に対応してもよい。例えば、いくつかの実施形態では、画像は、DenseNet、ResNet、MobileNetなどの特徴表現生成部に入力されてもよく、機械学習モデルは、DenseNet、ResNet、MobileNetなどによって生成された特徴表現に対応する、(シーンのタイプを表す)識別子を学習するように訓練されてもよい。
【0023】
いくつかの例では、シーン識別子は、訓練に使用される画像にタグ付けされたメタデータに対応してもよい。例えば、Instagram(商標)、Flickr(商標)などのウェブサイトでは、ユーザが画像に識別子(例えばハッシュタグ、ジオタグ)をタグ付けして、それらの画像の内容を示すことができるため、シーンタイプモデルが異なるタグに対応する高度な画像特徴を学習することができるように、これらのタグをシーンタイプモデルの訓練に使用することができる。ビデオ映像の場合、例えばYouTube(商標)、Twitch(商標)などのウェブサイトでは、ユーザがビデオにタグを付けることができるため、これらのサイトのビデオクリップおよび対応するタグを用いてシーンタイプモデルを訓練してもよい。このようにして、シーンタイプモデルは、(特定のタイプのビデオクリップの学習済みの高度な特徴との類似性に基づいて)特定のビデオクリップに関連付けられた識別子を学習することができる。
【0024】
異なるシーンの高度な特徴が学習されると、訓練されたシーンタイプモデル203は、それら任意のシーンのタイプが存在する場合に、現在の画像が最も対応する可能性が高いものを識別してもよい。一般に、取込画像の品質はシーンのタイプに依存するため、カメラ201が取り込んでいるシーンのタイプを最初に識別することが有用である。例えば、カメラ201の操作者が、例えばシーン内の役者をとらえようとしている場合に、少なくとも1人の役者の顔がシーン内で視認できると、シーンの品質が向上する可能性がある。
【0025】
シーンタイプモデル203が訓練される画像は、カメラ201の使用方法、および、カメラ201の操作者が、自動的に識別されることを望む可能性のあるシーンのタイプに依存してもよいことが理解されるであろう。例えば、カメラ201がシーン内の役者を撮影するために使用される場合、シーンタイプモデル203は、映画に関連するフィルム映像、または撮影されるコンテンツに関連する映画のジャンルを用いて訓練されてもよい。カメラ201が、スポーツ活動などの多くの動作を含む動的シーンを取り込むために使用される場合、シーンタイプモデル203は、このような活動の画像を用いて訓練されてもよい。最終的に、シーンタイプモデル203が訓練される程度および性質は、カメラ201の使用目的に依存してもよい。
【0026】
システム200は、カメラ201に対するシーン内の注目物体の姿勢を取得するように構成された姿勢プロセッサ204をさらに備える。本明細書では、「物体の姿勢」という用語は、カメラ201に対するシーン内の物体の位置および/または方向を説明するために使用される。姿勢プロセッサ204は、カメラ201に対する物体の姿勢を特定することができるデータを受信するかまたは取り込むように構成されてもよい。例えば、姿勢プロセッサ204は、画像を取り込んだカメラに対する画像内の物体の姿勢を示す姿勢データでマークアップされた画像を受信するように構成されてもよい。代替的または追加的に、姿勢プロセッサ204は、カメラによって取り込まれた画像を処理することによって、シーン内の物体の姿勢を特定するように構成されてもよい。すなわち、姿勢データは抽象化された画像データに対応してもよい。一般に、姿勢プロセッサ204は、カメラに対する注目物体の方向、およびカメラに対する注目物体の距離の少なくとも一方を示す姿勢データを取得するように構成される。
【0027】
いくつかの例では、注目物体は人物に対応してもよく、人物の3D姿勢は、人物が保持しているかまたは装着している電子機器から受信したデータ(例えばGPSおよび/またはジャイロスコープのデータ)に基づいて概算することができる。例えば、ラグビーなどのスポーツの試合では、プレイヤは競技場での位置(および場合によっては方向)を追跡するセンサを装着している場合があり、このデータは、姿勢プロセッサへの入力として提供されてもよい。カメラの姿勢が把握された(すなわち追跡された)場合、カメラに対するプレイヤの姿勢を特定することができる。代替的に、カメラに対するプレイヤの姿勢は、既知の較正技術を使用して特定することができ、例えば、カメラの組込み関数が把握され、かつ3Dシーン内のプレイヤの姿勢が把握された場合、被写体に対するカメラの位置および方向を特定することができる。
【0028】
いくつかの例では、シーン内の被写体の姿勢は、例えばセンサを使用して追跡されない。このような例では、シーン内の被写体の姿勢は、例えばカメラに対するシーン内の被写体の位置および/または方向を検出するための顔追跡および/または骨格追跡を使用して特定されてもよい。カメラに対する被写体の位置および/または方向はまた、カメラから所定の距離および方向に存在する既知の、例えば標準的な物体(例えば人間)の大きさおよび形状に関する情報を使用して特定されてもよい。これは、例えばカメラが固定されており、かつ、スポーツの試合におけるプレイヤなどの被写体がカメラから比較的離れている場合(例えば、いわゆる「スパイダーカム」によって取り込まれたビデオ)に適用可能であってもよい。
【0029】
複数のカメラが存在する場合、被写体に対するカメラの位置および方向は特徴追跡を使用して特定されてもよい。例えば、複数のカメラによって取り込まれた画像において共通の特徴が検出された場合、被写体に対するカメラの姿勢を特定することができる。
【0030】
注目物体が仮想シーン(例えば、ビデオゲーム)内の仮想物体に対応する例では、姿勢プロセッサ204は、仮想シーン内の仮想物体の姿勢を示す姿勢データを単に受信するように構成されてもよい。
【0031】
カメラ201に対する3Dシーン内の被写体の位置および/または方向を特定するために、任意の適切な方法を使用してもよいことが理解されるであろう。
【0032】
図2に戻って、システム200はまた、カメラによって取り込まれた画像に関連付けられたシーンの品質を判定するように動作可能なシーン解析部205を備える。シーン解析部205は、(上述のように取得された)カメラに対するシーン内の注目物体の姿勢を示す姿勢データ、特定の姿勢のカメラによって取り込まれた画像、および抽象化された画像データ(例えば、ローパスフィルタ処理画像、低解像度画像および/またはモノクロ画像など)のうちの1つ以上に基づいてシーンの品質を判定するように構成される。シーン解析部に対するこれらの入力の形式は、必要に応じて個別のもの(つまり独立したもの)とするか、または組み合わされたものでもよい。
【0033】
シーン解析部205は、カメラの現在の姿勢から取り込まれた被写体の画像が、その画像を見る人からは審美的に美しく見える可能性を示す、対応するシーンの品質(すなわち、値もしくはパラメータ)に、これらの入力のいずれか1つをマッピングするように訓練された機械学習モデルを含んでもよい。本明細書で説明する実施形態では、このモデルをシーン品質モデル206と呼ぶ。
【0034】
シーン品質モデル206は、姿勢データおよび/または画像データおよび/または抽象化された画像データ、およびそのデータに関連付けられたシーンの品質を用いて訓練されてもよい。以下で説明するように、そのデータに関連付けられたシーンの品質は、姿勢データ、画像データおよび/または抽象化された(つまり、専門的に取り込まれたか、または人気のある)画像データのソースから推測してもよい。
【0035】
いくつかの例では、シーン品質モデル206は、下記のうちの少なくとも1つに基づいて、取込画像に関連付けられたシーンの品質を判定するように訓練される。
・カメラに対する被写体の方向(例えば、被写体の顔が視認可能になる方向)
・被写体からカメラまでの距離(例えば、被写体の顔が解像可能になる距離)
・取込画像内の被写体のオクルージョン(例えば、被写体が遮蔽されている割合、その中でも、被写体の顔などの重要領域が遮蔽されている割合)
・被写体の画像内の位置/占有率(美学の場合、例えば、三分割法または分野特有の規則)
【0036】
シーン品質モデル206は、関連付けられたシーンの品質が把握されている複数の訓練画像について取得された、この情報のうちの少なくともいくつかを用いて訓練されてもよい。このようにして、シーン品質モデル206は、被写体の方向、距離、オクルージョン、位置/占有率、および関連付けられたシーン品質のうちの1つ以上との関連性を学習するように訓練される。
【0037】
場合によっては、訓練画像内に複数の被写体が存在する可能性があるため、これらの被写体の各々の方向、距離、オクルージョンおよび/または画像占有率とともに、それら被写体を特徴とする訓練画像に関連付けられたシーンの品質を用いて、シーン品質モデルを訓練してもよいことが理解されるであろう。
【0038】
被写体のオクルージョンは、例えば骨格および顔の追跡を実行し、かつ、被写体が対応するものとして把握されている基準の顔もしくは骨格に対して、取込画像内で検出された顔もしくは骨格が覆い隠されている割合を判定することによって特定されてもよい。被写体の顔は重要領域として識別され、この重要領域が閾値量以上に遮蔽される場合、取込画像に関連付けられたオクルージョンが高いと判定されてもよい。複数の訓練画像に関連付けられたオクルージョン、およびそれらの画像に関連付けられたシーンの品質を使用して、シーン品質モデル206を訓練してもよい。
【0039】
いくつかの例では、被写体が前方を向いていないことが望ましい場合があるため、シーン品質モデルは、識別されたシーンのタイプ、およびそのシーンのタイプについて取り込まれた画像に関連付けられたオクルージョンの両方を用いて訓練されてもよいことが理解されるであろう。特定のオクルージョンに関連付けられた特定の画像のシーンの品質は、オクルージョンが特定された画像に関連付けられたソースもしくは人気度から推測することができる。例えば、専門的に取り込まれた画像から取得されたオクルージョン情報は、高品質のシーンに関連付けられているとして自動的にラベル付けされてもよい。このようにして、シーン品質モデル206を、画像内の被写体に関連付けられたオクルージョンと、その画像に関連付けられたシーンの品質との関連性を学習するように訓練することができる。
【0040】
取込画像内の被写体の位置/占有率は、カメラによって取込画像を処理することによって特定されてもよい。例えば、取込画像内の注目物体が(例えば、識別ユニットを介して)識別され、取込画像内の他の物体/特徴に対するその注目物体の位置が特定されてもよい。簡単な例では、これは、注目物体が水平軸線に沿って約1/3または2/3の位置にあるかどうかを判定することを含んでもよい。
【0041】
理解されるように、シーン内の被写体の「望ましい」位置は、通常は取り込まれるシーンのタイプに依存するため、シーン品質モデルは、(例えば識別子としての)シーンのタイプ、およびそのシーンのタイプの画像内の被写体の位置の両方を用いて訓練されてもよい。いくつかの例では、識別ユニットは、画像内の被写体の相対位置/占有率を識別するように構成されてもよく、この情報は、画像内の被写体の相対位置/占有率が取得された画像に関連付けられたシーンの品質とともに、シーン品質モデルへの入力として提供されてもよい。この場合もやはり、画像内の被写体の位置/占有率に関連付けられたシーンの品質は、被写体の位置/占有率が専門的に取り込まれたコンテンツおよび/または人気のあるコンテンツから取得された場合に高いと識別されてもよい。このようにして、特定のシーンのタイプについて、画像内の被写体の位置/占有率と、関連付けられたシーンの品質との関連性を学習するように、シーン品質モデル206を訓練することができる。
【0042】
いくつかの例では、シーン品質モデルは、ライブイベントの記録中に取り込まれた姿勢データを用いて訓練されてもよい。例えば、スポーツの試合など(サッカー、バスケットボール、ラグビー、アイスホッケーなど)の放送イベント中に、競技場でのプレイヤの位置が追跡されてもよく、カメラの姿勢もまた追跡されてもよい(または、例えば、会場の既知の形状およびプレイヤの既知の位置に基づいて取得されてもよい)。この姿勢データは、シーン品質モデルに入力されてもよく、専門的な方法で取り込まれたコンテンツに対応するので、高品質のシーンに対応するものとしてラベル付けされてもよい。このようにして、シーン品質モデルは、プレイヤに対するカメラの姿勢について、高品質のシーンに対応する姿勢を学習することができる。
【0043】
いくつかの例では、ビデオゲーム映像から取得した姿勢データをシーン品質モデルの訓練に使用してもよい。このような例では、仮想物体(例えば、プレイヤのアバター)に対する仮想カメラの姿勢を正確に把握することができ、この姿勢データを、シーン品質モデルの訓練に使用してもよい。この姿勢データに関連付けられたシーンの品質は、例えば人気のあるコンテンツ作成者によって取り込まれたビデオ映像に対応するか、またはそのビデオ映像に関連付けられた人気度が高い(例えば、多数のオンライン「閲覧」または「いいね」)場合に高いと識別されてもよい。このデータを用いてシーン品質モデル206を訓練することによって、シーン品質モデル206は、仮想物体に対する仮想カメラの姿勢について、結果的に高品質のシーンを有する画像を取り込む可能性が高い姿勢を学習することができる。この場合もやはり、シーン品質モデルを、仮想カメラの姿勢データに関連付けられたシーンのタイプを用いて訓練して、(被写体に対する)仮想カメラの姿勢とシーンの品質との関連性をシーンのタイプごと(つまり、ゲームのジャンルごと)に学習するようにする必要がある。
【0044】
いくつかの例では、シーン品質モデル206は、異なるシーン内の異なる注目物体の訓練画像を用いてさらに訓練されてもよい。すなわち、例えばそれらの画像から抽出された姿勢、オクルージョンおよび構図情報とは対照的に、画像はシーン品質モデルへの入力として提供されてもよい。このようにして、シーン品質モデルは、高品質のシーンの画像に対応する画像特徴(例えば、照明、オクルージョン、構図など)を暗黙的に学習するように訓練されてもよい。上述の通り、例えば、訓練画像が専門的に取り込まれたコンテンツ、または人気があるとして知られているコンテンツに対応する場合、高品質のシーンは訓練画像のソースから推測することができる。例えば、Instagram(商標)、Flickr(商標)、500px(商標)、YouTube(商標)などから取り込まれた画像に多数の「いいね」や「ビュー」が関連付けられている場合、その画像はシーンの品質が高いと知られている場合がある。訓練画像は、訓練画像のソース、関連付けられた人気度(例えば、閾値を超える「いいね」または「閲覧」)および作成者のうちの少なくとも1つに基づいて、高品質のシーンであるとしてラベル付けされてもよい。
【0045】
シーン品質モデル206を訓練するために使用される訓練画像の品質には、ばらつきがあり得ることが理解されるであろう。例えば、放送されるスポーツ映像は、例えばYouTube(商標)から取り込まれた映像より品質が優れている。これを補償するために、訓練画像は、例えばCycleGANなどの外部システムを使用して標準形式に変換されてもよい。
【0046】
このデータを用いてシーン品質モデルを訓練することにより、シーン品質モデルは、特定のシーンのタイプについて、高品質のシーンの画像に共通する高度な画像特徴(色、構図、照明など)を学習することができる。訓練が完了すると、シーン品質モデルは、特定のシーンのタイプについて、現在の取込画像が高品質のシーンであるかどうかを決定することができる。
【0047】
システム200は、シーン解析部205から入力を受信し、それに応答してカメラ201の姿勢を調整するように構成されたコントローラ207をさらに備える。この入力は、現在の画像に関連付けられたシーンの品質が閾値未満であるかどうかの指標を提供する。
【0048】
カメラ201が実カメラ201である実施形態では、コントローラ207は、カメラ201が組み込まれているかまたは取り付けられている機器のモータなどの運動手段209が受信する信号を生成するように構成されてもよい。運動手段209は、カメラ201の並進および回転の少なくとも一方を制御するように動作可能である。いくつかの例では、カメラ201は、車輪および/またはプロペラを含む機器(例えば、ドローン)に組み込まれてもよく、コントローラ207は、車輪および/またはプロペラ(およびそれらに関連付けられた任意の操縦手段)に加わる動力を制御するように構成されてもよい。カメラ201が仮想カメラ201である実施形態では、コントローラ207は、仮想カメラ201が移動する仮想シーン内の新たな姿勢を単に特定してもよい。
【0049】
代替的に、カメラが手持ちカメラである場合、コントローラがモータを制御することによってカメラの姿勢を調整する代わりに、コントローラは、カメラの案内インタフェースを制御することによってカメラの姿勢を調整してもよい。この案内インタフェースとしては、例えば、カメラの背面の画面(および/またはファインダ内)において所望の移動方向を指し、任意には、ユーザがカメラを理想的な位置に移動させるにつれて減少する数字もしくは線など、示された方向の所望の距離を示す矢印図形などが挙げられる。
【0050】
いくつかの例では、コントローラ207は、結果的にシーンの品質が高い注目物体の画像を取り込む可能性がより高いカメラ201の姿勢を特定するように訓練された機械学習モデル(本明細書では姿勢モデル208と呼ぶ)を含む。姿勢モデル208は、深層強化学習を使用して訓練されたエージェントを含んでもよい。例えば、エージェントは、シーン内を無作為に移動するかまたは確率的に移動して、シーン内の被写体のシーンの全体的な品質が最高となる姿勢を学習することによって訓練されてもよい。つまり、報酬関数は、経時的なシーンの平均品質に対応してもよい。前述したように、取込画像のシーンの品質は、シーン品質モデル206を使用して判定されてもよい。
【0051】
好ましい例では、エージェントは、仮想被写体を含む仮想シーン内を移動することによって訓練される(これは、被写体の周りのカメラの移動が容易になるため好ましい)。仮想シーンは、例えばゲームエンジンによって提供されてもよく、実カメラが配置される実際のシーンに対応してもよい。仮想シーン内の被写体に対する仮想カメラの各姿勢について、その姿勢に関連付けられたシーンの品質は、訓練されたシーン品質モデル206を使用して判定されてもよく、エージェントは、結果的に関連付けられたシーンの品質が高い画像を取り込む可能性が高い新たな姿勢を学習するように訓練されてもよい。いくつかの例では、仮想シーンは複数の仮想被写体を含んでもよく、シーン品質モデルは、カメラに対するそれら被写体の姿勢に基づいてシーンの品質を判定するように構成されてもよい。
【0052】
一例では、姿勢モデル208に対する入力は、仮想カメラの位置および/または方向、仮想被写体の位置および/または方向、およびシーン品質モデル206の出力を含んでもよい。姿勢モデルは、シーンの平均品質を最大限に高める仮想被写体に対する仮想カメラの姿勢を(深層強化学習を介して)学習するよう、これらの入力を用いて訓練されてもよい。
【0053】
エージェントは、複数の異なるシーン内を移動して、それらシーン内の異なる注目物体の画像を取り込むことによって訓練されてもよい。エージェントが十分な数の異なるシーンのタイプおよび異なる被写体について訓練されると、姿勢モデル208を使用してカメラ201の位置を調整してもよい。後に説明するように、姿勢モデルはまた、結果的に品質のより高いシーンの画像が取り込まれる1つ以上のカメラパラメータを学習するように訓練されてもよい。
【0054】
いくつかの例では、注目物体(すなわち被写体)は人間のキャラクタを含んでもよい。このような例では、シーン品質モデル206は、人間のキャラクタに関連する姿勢および/または画像のデータを用いて訓練されてもよい。これらの例では、姿勢モデルを訓練して、人間の被写体の顔があまり遮蔽されない(例えば、前方を向く)ようにカメラの姿勢を調整してもよい。
【0055】
理解されるように、人間の被写体の場合、識別ユニット202は、(例えば、画像分割、顔認識などを使用して)シーン内の人間の被写体を検出し、検出結果をシーン品質モデル206に対する入力として提供するように構成されてもよく、これにより、シーン解析部205は、適切に訓練されたモデル(すなわち、対応するシーン内の人間の被写体の画像を用いて訓練されたモデル)を採用して、取込画像のシーンの品質を判定することができる。
【0056】
一般に、複数の人間のキャラクタを含むシーンの場合、1人以上の主要キャラクタと1人以上の副次的キャラクタが存在する。カメラ201の操作者がシーン内の役者を撮影している場合、主要キャラクタは、話しているかまたは所定の動作を行っているキャラクタに対応してもよい。通常、カメラ201は主要キャラクタに合焦することが望ましいため、シーンの取込画像は、脇役よりも主役を多く含まなくてはならない。また、通常は、主役の顔が遮蔽されないことが望ましい。
【0057】
したがって、いくつかの例では、シーン品質モデル206は、複数のキャラクタに関連する姿勢および/または画像のデータを用いて訓練されてもよく、画像内の1人以上のキャラクタが主要キャラクタとして識別される。取込画像内で視認できる(および/または閾値量未満が遮蔽された)主要キャラクタに対応する画像データおよび/または姿勢データは、シーン品質モデル206が訓練されて、主要キャラクタを特徴とする画像が、主要キャラクタを視認できない画像よりも高品質であることを学習するように、高品質のシーンであるとしてラベル付けされてもよい。したがって、コントローラ207は、主要キャラクタの顔が遮蔽されていないか、または少なくともカメラ201の操作者が取り込もうとしているシーンのタイプに適した態様で現れるシーンの画像をもたらす可能性がより高いカメラ201の姿勢を特定するように訓練されてもよい。
【0058】
いくつかの例では、ユーザは、どのキャラクタが主要キャラクタかを示す入力を提供してもよく、(十分に訓練された)シーン品質モデル206は、この識別に基づいてシーンの品質を判定してもよい。この識別は、例えばカメラ201によって取り込まれたビデオが表示されているタッチスクリーンを使用して実行されてもよく、ユーザは、シーン内の主要キャラクタに対応するタッチスクリーンの領域を選択してもよい。より一般的には、識別ユニット202は、シーン内の1人以上の主要キャラクタを示す入力を受信するように動作可能であってもよい。
【0059】
いくつかの例では、シーン内の主要キャラクタの検出は自動的に実行されてもよい。例えば、システム200は、キャラクタの音声を検出する1つ以上のマイクロホンを備えてもよく、キャラクタは、そのキャラクタの音声の検出に基づいて、シーン内の主要キャラクタとして識別されてもよい。代替的または追加的に、シーン内の異なるキャラクタが話すように設定される時間は、例えば台本に基づいて事前に把握されている場合があり、この情報を識別ユニット202に提供して、シーンを撮影する間にカメラが合焦すべき異なるキャラクタを識別してもよい。一般に、システムは、少なくとも1人のキャラクタが話しているか、または話し始めようとしていることを示す音声データを受信するように動作可能な音声ユニット(図示せず)を備えてもよく、この情報が識別ユニット202に提供された後、どのキャラクタが主要キャラクタに対応するかが決定されてもよい。
【0060】
場合によっては、カメラ201を用いて取り込もうとする複数の主要キャラクタまたは少なくとも2人のキャラクタが存在することがある。このような例では、少なくとも2人のキャラクタは、(上述の手段のいずれかを介して)取込画像に含めるために識別され、シーン品質モデル206は、シーン内の複数のキャラクタの識別に基づいて、取込画像に関連付けられたシーンの品質を判定するように構成されてもよい。この場合もやはり、シーン品質モデル206は、複数の主要キャラクタに関係する姿勢データおよび/または画像データを用いて訓練されてもよく、主要キャラクタの顔を視認できる画像について、シーンの品質はさらに高くてもよい。このようにして、コントローラ207は、結果的に複数の主要キャラクタの顔のオクルージョンを最小限にするカメラ201の姿勢を特定するように構成されてもよい。
【0061】
いくつかの例では、カメラ201の操作者は、他の注目物体(つまり、人物以外)を取込画像に含めたいと望む場合がある。このような例では、識別ユニット202は、取込画像に含めるために、1つ以上の注目物体を示す入力を受信するように構成されてもよい。この入力がシーン品質モデル206に提供された後、識別された物体、カメラ201に対するそれら物体の姿勢、および/またはシーンの取込画像に基づいて、取込画像のシーンの品質が判定されてもよい。
【0062】
物体は、取込画像に含めるためにユーザ入力によって識別されてもよい。例えば、カメラ201によって取り込まれたビデオ画像が画面に表示されてもよく、ユーザは、取込画像に含めたい注目物体に対応する画面の領域を選択してもよい。物体の識別は、シーン内の異なる物体を識別するために機械学習またはコンピュータビジョン技術を使用されてもよく、操作者が取込画像に含める優先度が高い識別された物体を手動で入力するという点で、ある程度自動的に行われてもよい。
【0063】
いくつかの例では、操作者は、取込画像内の特定の注目物体の数もしくは量を最大にしたいと望む場合がある。例えばホラー映画では、樹木に囲まれたキャラクタを見せて恐怖を呼び起こすのが一般的である。したがって、カメラ201の操作者は、取込画像内の樹木の数を最大にすることを示す入力を提供してもよい。これは、例えば「樹木」を表示画像内の注目物体として選択すること、および、取込画像内の樹木の数を最大にするさらなる入力を提供することを含んでもよい。これらの入力がシーン品質モデル206に提供された後、取込画像内の識別された注目物体の数、任意の識別されたキャラクタ、取込画像、および/またはカメラ201に対する任意の識別されたキャラクタの姿勢に基づいて、取込画像のシーンの品質が判定されてもよい。理解されるように、一般に、識別されたキャラクタを視認できる画像のシーンの品質はより高くなるため、取り込まれた画像内の、例えば樹木の数を最大にしようとする場合に、カメラ201が可能な限り遠く離れた位置へ移動しないようにすることができる。
【0064】
一部のコンテンツでは、カメラ201の位置を、(必ずしも人間のキャラクタに関連付けられているわけではない)シーン内の音源の位置に基づいて調整することが望ましい場合がある。したがっていくつかの例では、システム200は、シーン内の音源を検出する2つ以上のマイクロホンを備えてもよい。識別ユニット202は、マイクロホンによって検出された音声信号を受信し、それに応答して、検出された音声信号が対応する既知の音源を識別するように構成されてもよい。これは、例えば機械学習を使用することによって、または、単に音声信号のスペクトル特性を複数の既知の音源のスペクトル特性と比較することによって達成されてもよい。姿勢プロセッサ204は、2つ以上のマイクロホンによって検出された音声信号に基づいて、マイクロホンに対する音源の3D姿勢を特定するように構成されてもよい。好ましい例では、2つ以上のマイクロホンはカメラ201を含む機器に関連付けられているため、カメラ201に対する音源の姿勢は、マイクロホンによって検出された音声信号から推測することができる。
【0065】
シーン品質モデル206は、識別された音源(すなわちタイプ)の指標およびカメラに対する音源の3D姿勢を受信し、それに応答して、取込画像に関連付けられたシーンの品質を判定するように構成されてもよい。これは、識別ユニット202によって注目物体として識別された人間のキャラクタなどの、任意の他の注目物体に追加することができる。理解されるように、このような例では、シーン品質モデル206は、シーン内の異なるタイプの音源を示すデータと、シーン内の被写体を取り込むために使用されるカメラ201に対する音源の位置および方向の少なくとも一方を示す姿勢データとを用いてさらに訓練される。
【0066】
このようにして、シーン品質モデル206は、撮像被写体に関連付けられた姿勢データおよび/または画像データ、およびカメラ201に対する音源の姿勢に基づいて、取込画像に関連付けられたシーンの品質をさらに判定することができる。
【0067】
一例では、シーン品質モデル206は、キャラクタが爆発から逃げているビデオのフレームを用いて訓練されてもよく、シーン品質モデル206は、(例えば、カメラに対する役者の姿勢、取込画像、爆発の場所に基づいて、)このような状況を撮影する場合に採用されるべきカメラ201の姿勢を学習してもよい。
【0068】
いくつかの例では、シーンは仮想シーンであってもよいため、音源のタイプおよびシーン内での音源の相対位置を正確に把握することができる。さらに、異なる音源が音声を生成するタイミングもまた把握することができる。したがって、音声のタイプ、相対位置、および任意にはタイミング情報をシーン品質モデル206に入力してもよい。そこで、シーン品質モデル206は、例えば取込画像、例えばプレイヤのアバターおよび任意の音源のシーン内での位置に基づいて、仮想シーンの現在の取込画像に関連付けられたシーンの品質を判定してもよい。この場合もやはり、このような例では、シーン品質モデル206は、訓練画像(例えば、ビデオフレーム)および/または例えばプレイヤのアバターの3D姿勢、およびシーン内の任意の音源の相対位置を用いて訓練されてもよい。理解されるように、いくつかのビデオゲームでは、複数の音源が存在する可能性があるため、識別ユニット202は、プレイヤの体験に最も影響する音源(例えば、最大音源および/または最至近音源)を検出するように動作可能であってもよい。
【0069】
いくつかの例では、シーン品質モデル206は、被写体の画像を取り込むために使用された1つ以上のカメラパラメータを示す固有のカメラデータを用いてさらに訓練されてもよい。固有のデータは、例えば訓練画像の取込みに使用されるカメラの焦点距離、絞り値、シャッタ速度、任意の特殊モード(HDRなど)を含んでもよい。例えば、実カメラによって取り込まれた実際のシーンの画像がシーン品質モデルの訓練に使用される場合、固有のカメラデータは、取込画像を用いてメタデータとして符号化されてもよい。このようにして、シーン品質モデル206を訓練して、カメラに対する被写体の相対的な姿勢と、(任意には、取込画像データの)1つ以上のカメラパラメータと、対応するシーンとの関連性を判定することができる。
【0070】
(内部パラメータが考慮される)これらの例では、コントローラ207は、現在の画像のシーンの品質が閾値未満であるという判定に基づいて、カメラ201の1つ以上の内部パラメータを調整するようにさらに構成されてもよい。例えば、コントローラ207は、判定されたシーンの品質に基づいてカメラ201の焦点距離(すなわちズーム)、絞り値、シャッタ速度などを調整するように構成されてもよい。これらのパラメータの調整は、シーン品質モデル206によって出力された、判定されたシーンの品質に基づいて決定されてもよい。
【0071】
前述したように、コントローラ207は、カメラ201の姿勢の調整を決定するように訓練された姿勢モデル208を含んでもよい。1つ以上のカメラパラメータも調整される例では、姿勢モデルをさらに訓練して、シーンの品質を最大限に高めるための1つ以上のカメラパラメータを決定してもよい。これは、例えば深層強化学習を使用して、仮想シーン内の被写体の複数の画像を取り込み、かつ(特定の位置について)最高品質のシーンを有する取込画像をもたらすカメラパラメータの組合せを学習するようにエージェントを訓練することを含んでもよい。この訓練の間に取り込まれた画像のシーンの品質は、訓練されたシーン品質モデル206を使用して(すなわち、シーンの品質が高いと把握された、対応するシーン内の対応する被写体の画像とどの程度密接に対応するかを判定することによって)判定されてもよい。
【0072】
追加的または代替的な例では、コントローラは、例えば、カメラの移動先での姿勢に基づいて被写界深度を調整するように構成されてもよい。例えば、カメラが被写体から閾値距離未満の位置に移動した場合、コントローラは、背景をぼかしながら画像の被写体に合焦する必要があると決定してもよい。逆に、画像内の被写体について、姿勢が調整されたカメラからの距離が閾値を超えていると判定された場合、コントローラは、例えばカメラの絞り値を制御して、全てまたは大部分のシーンに合焦するように構成されてもよい。
【0073】
上記の例を、システム内の別個のユニットとして説明したが、これらの1つ以上が同じ機器に含まれ、機器自体がカメラ機器を構成してもよいことが理解されるであろう。カメラ機器は、制御可能な位置および方向を有する物理的機器に対応してもよい。例えばカメラ機器は、動力式の車輪もしくはプロペラを有するカメラ機器(例えば、ドローン)に対応してもよい。全ての構成要素が同一の物理的機器に組み込まれている例では、例えば1つ以上のサーバ(例えば、クラウド)を使用して様々な機械学習モデルが訓練され、訓練された機械学習モデルは、物理カメラ機器の関連モジュールにエクスポートされてもよい。
【0074】
したがって、いくつかの実施形態では、実カメラ機器が、シーンの画像を取り込むように動作可能なセンサと、(例えば、取込画像内の注目物体を識別するように動作可能な)識別ユニット、(例えば、カメラに対するシーン内の注目物体の姿勢を取得するように動作可能)な姿勢プロセッサ、(例えば、カメラによって取り込まれた画像に関連付けられたシーンの品質を検出するように構成され、取込画像に関連付けられたシーンの品質を判定するように訓練された機械学習モデルを含む)シーン解析部、および、(例えば、現在の画像のシーンの品質が閾値未満であるという判定に基づいて、カメラ機器の姿勢を制御するように動作可能な)コントローラから選択された1つ以上の構成要素とを含むシステムが提供される。
【0075】
本明細書で説明する機械学習モデルは、例えば、訓練された畳み込みニューラルネットワーク(CNN)もしくは再帰型ニューラルネットワーク(RNN)などの訓練されたニューラルネットワーク、多層パーセプトロン(MLP)、または制限付きボルツマンマシンのうちの少なくとも1つを含んでもよいことが理解されるであろう。最終的に、任意の適切な機械学習システムを使用することができる。
【0076】
いくつかの例では、シーンの品質を判定するためにカメラが画像を取り込む必要はないことがさらに理解されるであろう。例えば、いくつかの例では、シーンの品質は、カメラに対する被写体の姿勢のみに基づいて判定されてもよく、(例えば、被写体およびカメラの位置が放送イベント中に追跡されている場合、)任意の画像の取込みを実際には必要としない。
【0077】
本明細書で説明する方法は、ソフトウェア命令によって、または専用ハードウェアを含めるかこれに置き換えることによって、適切に適合された従来のハードウェア上で実行してもよいことがさらに理解されるであろう。したがって、従来の同等の機器の既存の部品に対して必要な適合は、フロッピーディスク、光ディスク、ハードディスク、PROM、RAM、フラッシュメモリ、または、これらもしくはその他の記憶媒体の任意の組合せなどの非一時的な機械可読媒体に格納されたプロセッサが実行可能な命令を含むコンピュータプログラム製品の形で実施されるか、または、ASIC(特定用途向け集積回路)もしくはFPGA(フィールドプログラマブルゲートアレイ)、または従来の同等の機器の適合に使用するのに適した他の構成可能な回路としてハードウェアにおいて実現されてもよい。これとは別に、このようなコンピュータプログラムは、イーサネット、無線ネットワーク、インターネット、またはこれらもしくは他のネットワークの任意の組合せなどのネットワーク上のデータ信号を介して送信されてもよい。