(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-12-17
(54)【発明の名称】グローバルシャッタセンサを有するモノクロカメラおよびカラーカメラを含んだカメラシステム
(51)【国際特許分類】
H04N 23/45 20230101AFI20241210BHJP
G06T 3/14 20240101ALI20241210BHJP
H04N 23/60 20230101ALI20241210BHJP
H04N 23/745 20230101ALI20241210BHJP
H04N 23/13 20230101ALI20241210BHJP
G03B 15/00 20210101ALI20241210BHJP
G03B 7/00 20210101ALI20241210BHJP
G03B 17/02 20210101ALI20241210BHJP
【FI】
H04N23/45
G06T3/14
H04N23/60 500
H04N23/745
H04N23/13
G03B15/00 H
G03B7/00
G03B17/02
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023569998
(86)(22)【出願日】2022-10-04
(85)【翻訳文提出日】2024-01-09
(86)【国際出願番号】 US2022045659
(87)【国際公開番号】W WO2024076338
(87)【国際公開日】2024-04-11
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】デヴィッド・マーティン
【テーマコード(参考)】
2H002
5B057
5C122
【Fターム(参考)】
2H002FB00
2H002JA09
5B057AA20
5B057BA02
5B057BA17
5B057CA01
5B057CA02
5B057CA08
5B057CA12
5B057CA16
5B057CB01
5B057CB02
5B057CB08
5B057CB12
5B057CB16
5B057CC01
5B057CE08
5B057DA16
5B057DB02
5B057DB05
5B057DB06
5B057DB09
5B057DC01
5B057DC32
5B057DC40
5C122EA13
5C122EA67
5C122FA18
5C122FH11
5C122FH18
5C122GA01
5C122GA23
5C122HA35
5C122HA48
5C122HB01
(57)【要約】
カメラシステムは、グローバルシャッタを有し、シーンの第1の画像を捕捉することを行うためのモノクロカメラと、モノクロカメラから離して配設され、グローバルシャッタを有し、シーンの第2の画像を捕捉することを行うためのカラーカメラとを含む。第2の画像は第1の画像に位置整合され、第2の画像の色情報が第1の画像に提供されて、シーンを表す第3の画像が取得される。
【特許請求の範囲】
【請求項1】
グローバルシャッタを有し、シーンの第1の画像を捕捉することを行うように構成された、モノクロカメラと、
前記モノクロカメラから離して配設され、グローバルシャッタを有し、前記シーンの第2の画像を捕捉することを行うように構成された、カラーカメラと、
前記第2の画像を前記第1の画像に位置整合させること、および
前記第2の画像の色情報を前記第1の画像に提供して、前記シーンを表す第3の画像を取得すること
を行うように構成された、1つまたは複数のプロセッサと
を備える、カメラシステム。
【請求項2】
前記モノクロカメラおよび前記カラーカメラが、前記第1の画像および前記第2の画像を実質的に同時に捕捉するために同期される、請求項1に記載のカメラシステム。
【請求項3】
前記モノクロカメラおよび前記カラーカメラが配設されている環境内でピーク照明条件が生じたときに、前記第1の画像および前記第2の画像がそれぞれ捕捉される、請求項2に記載のカメラシステム。
【請求項4】
前記モノクロカメラおよび前記カラーカメラが、同じ方向に面するように配設され、互いにしきい値距離未満に配設される、請求項1に記載のカメラシステム。
【請求項5】
前記しきい値距離が10センチメートル以下である、請求項4に記載のカメラシステム。
【請求項6】
前記1つまたは複数のプロセッサが、前記第1の画像の対応する部分に位置整合している、前記第2の画像の部分について、前記第2の画像の部分の色情報を前記第1の画像の対応する部分に転移させることによって、前記第2の画像の前記色情報を前記第1の画像に提供するように構成される、請求項1に記載のカメラシステム。
【請求項7】
前記1つまたは複数のプロセッサが、前記第2の画像の部分が前記第1の画像の対応する部分に位置整合していない、前記第1の画像の非位置整合部分を識別することと、前記第1の画像の前記非位置整合部分に、合成した色情報を適用することとを行うように構成される、請求項6に記載のカメラシステム。
【請求項8】
前記カラーカメラが赤-緑-青(RGB)カメラである、請求項1に記載のカメラシステム。
【請求項9】
前記カラーカメラが前記モノクロカメラよりも低い解像度を有する、請求項1に記載のカメラシステム。
【請求項10】
前記モノクロカメラが前記カラーカメラよりも大きなサイズを有する、請求項1に記載のカメラシステム。
【請求項11】
前記第1の画像がルマ成分を含み、
前記第3の画像が、前記第1の画像の前記ルマ成分と、前記第2の画像に基づくクロマ成分とを含む、
請求項1に記載のカメラシステム。
【請求項12】
前記第2の画像を前記第1の画像に位置整合させることを行うための第1の機械学習リソースと、前記第2の画像の部分が前記第1の画像の対応する部分に位置整合していない、前記第1の画像の非位置整合部分についての色情報を合成すること、および前記第1の画像の前記非位置整合部分に、前記合成した色情報を適用することを行うための、第2の機械学習リソースと
をさらに含む、請求項1に記載のカメラシステム。
【請求項13】
グローバルシャッタを有するモノクロカメラによって、シーンの第1の画像を捕捉するステップと、
前記モノクロカメラから離して配設され、グローバルシャッタを有するカラーカメラによって、前記シーンの第2の画像を捕捉するステップと、
前記第2の画像を前記第1の画像に位置整合させるステップと、
前記第2の画像の色情報を前記第1の画像に提供することによって、前記シーンを表す第3の画像を取得するステップと
を含む、コンピュータ実装方法。
【請求項14】
前記第1の画像が、ルマ成分を有する単一のチャネルを含み、
前記第3の画像が、前記ルマ成分を有する第1のチャネルと、前記第2の画像に基づくクロマ成分を含む複数のチャネルとを含んだ、少なくとも3つのチャネルを含む、
請求項13に記載の方法。
【請求項15】
前記モノクロカメラおよび前記カラーカメラが、前記第1の画像および前記第2の画像を実質的に同時に捕捉するために同期され、
前記第1の画像および前記第2の画像をそれぞれ捕捉するステップが、照明サイクルのピークにおいて生じる、
請求項13に記載の方法。
【請求項16】
前記カラーカメラおよび前記モノクロカメラが、実質的に同じ視野を有する、請求項15に記載の方法。
【請求項17】
前記カラーカメラが前記第2の画像を捕捉する時間と、前記モノクロカメラが前記第1の画像を捕捉する時間との差が、前記モノクロカメラの積分時間未満である、請求項13に記載の方法。
【請求項18】
前記第2の画像の前記色情報を前記第1の画像に提供することが、前記第1の画像の対応する部分に位置整合している、前記第2の画像の部分について、前記第2の画像の部分の色情報を前記第1の画像の対応する部分に転移させることを含む、請求項13に記載の方法。
【請求項19】
前記第2の画像の部分が前記第1の画像の対応する部分に位置整合していない、前記第1の画像の非位置整合部分を識別するステップと、
機械学習リソースによって、前記第1の画像の前記非位置整合部分についての色情報を合成するステップと、
前記第1の画像の前記非位置整合部分に、前記合成した色情報を適用するステップと
をさらに含む、請求項18に記載の方法。
【請求項20】
カメラシステムの1つまたは複数のプロセッサによって実行可能である命令を記憶する非一時的コンピュータ可読媒体であって、前記命令が、
グローバルシャッタを有するモノクロカメラに、シーンの第1の画像を捕捉させることを行うための命令と、
グローバルシャッタを有し、前記モノクロカメラからしきい値距離未満だけ隔置されているカラーカメラに、前記シーンの第2の画像を捕捉させることであって、前記第2の画像が前記第1の画像よりも低い解像度を有する、捕捉させることを行うための命令と、
前記第2の画像を前記第1の画像に位置整合させることを行うための命令と、
前記第2の画像の色情報を前記第1の画像に提供することによって、前記シーンを表す第3の画像を取得することを行うための命令と
を含む、非一時的コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、一般に、カメラシステムに関する。より詳細には、本開示は、グローバルシャッタセンサを有するモノクロカメラ、およびグローバルシャッタセンサを有するカラーカメラを含み、それらの画像が、最小の視覚的アーチファクトを有する画像を作り出すために組み合わせて使用される、カメラシステムに関する。
【背景技術】
【0002】
ローリングシャッタ方式赤-緑-青(RGB)カメラが、環境の画像を収集するために、時として使用される。特定の環境条件下では(例えばより低光量の条件下では)、モーションブラーを抑えるために積分時間の長さが制限されるが、これにより、雑音が多くアンダー露光の画像が作り出されることがある。一方、ローリングシャッタ方式RGBカメラの積分時間は、それほど短くてはならず、そうでないと、人工照明由来のバンディングアーチファクト(例えば交流のため、および/またはデューティサイクルを変化させる調光制御のため生じる、フリッカリング)が発生することがある。したがって、ローリングシャッタ方式RGBカメラの、RGBカメラの動作が実行可能である積分時間は、狭いことがある。
【発明の概要】
【課題を解決するための手段】
【0003】
本開示の実施形態の態様および利点は、一部には以下の説明内に記載され、または同説明から知ることができ、または例示的な実施形態の実践を通じて知ることができる。
【0004】
例示的な一実施形態では、カメラシステムが、グローバルシャッタを有し、シーンの第1の画像を捕捉することを行うように構成された、モノクロカメラと、モノクロカメラから離して配設され、グローバルシャッタを有し、シーンの第2の画像を捕捉することを行うように構成された、カラーカメラとを含む。カメラシステムは、第2の画像を第1の画像に位置整合させること、および第2の画像の色情報を第1の画像に提供して、シーンを表す第3の画像を取得することを行うように構成された、1つまたは複数のプロセッサをさらに含む。
【0005】
いくつかの実装形態では、モノクロカメラおよびカラーカメラは、第1の画像および第2の画像を実質的に同時に捕捉するために同期される。
【0006】
いくつかの実装形態では、モノクロカメラおよびカラーカメラが配設されている環境内でピーク照明条件が生じたときに、第1の画像および第2の画像がそれぞれ捕捉される。
【0007】
いくつかの実装形態では、モノクロカメラおよびカラーカメラは、同じ方向に面するように配設され、互いにしきい値距離未満に配設される。例えば、しきい値距離は10センチメートル以下である。
【0008】
いくつかの実装形態では、1つまたは複数のプロセッサが、第1の画像の対応する部分に位置整合している、第2の画像の部分について、第2の画像の部分の色情報を第1の画像の対応する部分に転移させることによって、第2の画像の色情報を第1の画像に提供するように構成される。
【0009】
いくつかの実装形態では、1つまたは複数のプロセッサが、第2の画像の部分が第1の画像の対応する部分に位置整合していない、第1の画像の非位置整合部分を識別することと、第1の画像の非位置整合部分に、合成した色情報を適用することとを行うように構成される。
【0010】
いくつかの実装形態では、カラーカメラは赤-緑-青(RGB)カメラである。
【0011】
いくつかの実装形態では、カラーカメラはモノクロカメラよりも低い解像度を有する。
【0012】
いくつかの実装形態では、モノクロカメラはカラーカメラよりも大きなサイズを有する。
【0013】
いくつかの実装形態では、第1の画像はルマ(luma)成分を含み、第3の画像は、第1の画像のルマ成分と、第2の画像に基づくクロマ(chroma)成分とを含む。
【0014】
いくつかの実装形態では、カメラシステムは、第2の画像を第1の画像に位置整合させることを行うための第1の機械学習リソースと、第2の画像の部分が第1の画像の対応する部分に位置整合していない、第1の画像の非位置整合部分についての色情報を合成すること、および第1の画像の非位置整合部分に、合成した色情報を適用することを行うための、第2の機械学習リソースとを含む。
【0015】
例示的な一実施形態では、カメラシステムのためのコンピュータ実装方法が提供される。コンピュータ実装方法は、グローバルシャッタを有するモノクロカメラによって、シーンの第1の画像を捕捉することと、モノクロカメラから離して配設され、グローバルシャッタを有するカラーカメラによって、シーンの第2の画像を捕捉することと、第2の画像を第1の画像に位置整合させることと、第2の画像の色情報を第1の画像に提供することによって、シーンを表す第3の画像を取得することとを含む。
【0016】
いくつかの実装形態では、第1の画像は、ルマ成分を有する単一のチャネルを含み、第3の画像は、ルマ成分を有する第1のチャネルと、第2の画像に基づくクロマ成分を含む複数のチャネルとを含んだ、少なくとも3つのチャネルを含む。
【0017】
いくつかの実装形態では、モノクロカメラおよびカラーカメラは、第1の画像および第2の画像を実質的に同時に捕捉するために同期され、第1の画像および第2の画像をそれぞれ捕捉することが、照明サイクルのピークにおいて生じる。
【0018】
いくつかの実装形態では、カラーカメラおよびモノクロカメラは、実質的に同じ視野を有する。
【0019】
いくつかの実装形態では、カラーカメラが第2の画像を捕捉する時間と、モノクロカメラが第1の画像を捕捉する時間との差が、モノクロカメラの積分時間未満である。
【0020】
いくつかの実装形態では、第2の画像の色情報を第1の画像に提供することが、第1の画像の対応する部分に位置整合している、第2の画像の部分について、第2の画像の部分の色情報を第1の画像の対応する部分に転移させることを含む。
【0021】
いくつかの実装形態では、方法は、第2の画像の部分が第1の画像の対応する部分に位置整合していない、第1の画像の非位置整合部分を識別することと、機械学習リソースによって、第1の画像の非位置整合部分についての色情報を合成することと、第1の画像の非位置整合部分に、合成した色情報を適用することとを含む。
【0022】
例示的な一実施形態では、カメラシステムの1つまたは複数のプロセッサによって実行可能である命令を記憶する非一時的コンピュータ可読媒体が提供される。非一時コンピュータ可読媒体は、カメラシステムの1つまたは複数のプロセッサによって実行可能である命令を記憶する。命令は、グローバルシャッタを有するモノクロカメラに、シーンの第1の画像を捕捉させることを行うための命令と、グローバルシャッタを有し、モノクロカメラからしきい値距離未満だけ隔置されているカラーカメラに、シーンの第2の画像を捕捉させることであって、第2の画像が第1の画像よりも低い解像度を有する、捕捉させることを行うための命令と、第2の画像を第1の画像に位置整合させることを行うための命令と、第2の画像の色情報を第1の画像に提供することによって、シーンを表す第3の画像を取得することを行うための命令とを含む。
【0023】
非一時コンピュータ可読媒体は、本明細書において説明するカメラシステムおよびコンピュータ実装方法の他の態様および動作を実行するためのさらなる命令を記憶することができる。
【0024】
本開示のさまざまな実施形態の上記および他の特徴、態様、および利点は、以下の説明、図面、および添付の特許請求の範囲を参照してより良好に理解されるようになろう。本明細書に組み込まれ、その一部をなす添付の図面は、本開示の例を図示するものであり、以下の説明とともに、関連する原理について説明する働きをする。
【0025】
当業者を対象とする例示的な実施形態についての詳細な議論が、本明細書において記載され、この議論では添付の図面を参照する。
【図面の簡単な説明】
【0026】
【
図1】本開示の1つまたは複数の例による、カメラシステム、サーバコンピューティングシステム、および1つまたは複数の外部コンピューティングデバイスを含んだシステムのブロック図を含む、例示的なシステムを示す図である。
【
図2A】本開示の1つまたは複数の例によるカメラシステムの例示的な図である。
【
図2B】本開示の1つまたは複数の例によるカメラシステムの例示的な図である。
【
図3】本開示の1つまたは複数の例によるカメラシステムの1つまたは複数の態様の例示的な図である。
【
図4】本開示の1つまたは複数の例によるカメラシステムの1つまたは複数の態様の例示的な図である。
【
図5】本開示の1つまたは複数の例による例示的な非限定のコンピュータ実装方法のフロー図である。
【発明を実施するための形態】
【0027】
ここで、図面内にその1つまたは複数の例が示されている本開示の実施形態を参照されたい。各例は、本開示の説明として提供されており、本開示を限定することは意図されていない。実際、本開示の範囲または趣旨から逸脱することなく本開示にさまざまな修正および変形を加えられることが、当業者には明らかとなろう。例として、一実施形態の一部として図示または説明した特徴を別の実施形態とともに使用して、さらに別の実施形態をもたらすことができる。したがって、添付の特許請求の範囲およびそれらの等価物の範囲に含まれるような修正形態および変形形態を本開示が包含することが、意図されている。
【0028】
本明細書において使用される用語は、例示的な実施形態について説明するために使用されるのであり、本開示を限定および/または制限することは意図されていない。単数形「a」、「an」、および「the」は、文脈上別段の明確な指示のない限り、複数形も含むことが意図されている。本開示では、「含む(including)」、「有する(having)」、「備える(comprising)」などの用語は、特徴、数、ステップ、動作、要素、コンポーネント、またはそれらの組合せを指定するために使用されるが、特徴、要素、ステップ、動作、要素、コンポーネント、またはそれらの組合せのうちの1つまたは複数の存在または追加を排除するものではない。
【0029】
本明細書においてさまざまな要素について説明するために第1の、第2の、第3のなどという用語が使用されることがあるが、それらの要素はこれらの用語によって限定されない、ということが理解されよう。そうではなく、これらの用語は、ある要素を別の要素と区別するために使用される。例えば、本開示の範囲から逸脱することなく、第1の要素が第2の要素と呼ばれることがあり、第2の要素が第1の要素と呼ばれることがある。
【0030】
「および/または」という用語は、複数の列挙された関連する項目の組合せ、または複数の列挙された関連する項目のうちのいずれかの項目を含む。例えば、「Aおよび/またはB」という表現または句の範囲は、項目「A」、項目「B」、および項目の組合せ「AおよびB」を含む。
【0031】
それに加えて、「AまたはBのうちの少なくとも1つ」という表現または句の範囲は、次の、(1)Aのうちの少なくとも1つ、(2)Bのうちの少なくとも1つ、ならびに(3)Aのうちの少なくとも1つおよびBのうちの少なくとも1つ、の全てを含むことが意図されている。同様に、「A、B、またはCのうちの少なくとも1つ」という表現または句の範囲は、次の、(1)Aのうちの少なくとも1つ、(2)Bのうちの少なくとも1つ、(3)Cのうちの少なくとも1つ、(4)Aのうちの少なくとも1つおよびBのうちの少なくとも1つ、(5)Aのうちの少なくとも1つおよびCのうちの少なくとも1つ、(6)Bのうちの少なくとも1つおよびCのうちの少なくとも1つ、ならびに(7)Aのうちの少なくとも1つ、Bのうちの少なくとも1つ、およびCのうちの少なくとも1つ、の全てを含むことが意図されている。
【0032】
本開示の例は、屋内空間および屋外空間を含む、(例えば地上における)大いに多様な環境内、また自然光環境および人工光環境内で、高性能画像を生成または作り出すことのできる、カメラシステムを対象とする。例えば、交流、発光ダイオードなどの光のデューティサイクル、調光回路のデューティサイクルなどのため明滅する人工光が、ローリングシャッタ方式カメラによって生成された画像など、他の方法によって生成または作り出された画像内に、バンディングを生じさせることがある。
【0033】
本開示の例によれば、カメラシステムは、グローバルシャッタを有し、シーンの第1の画像を捕捉することを行うように構成された、モノクロカメラと、モノクロカメラから離して配設され、グローバルシャッタを有し、シーンの第2の画像を捕捉することを行うように構成された、カラーカメラとを含むことができる。カメラシステムは、第1の画像を第2の画像と位置整合させること、および第2の画像の色情報を第1の画像に提供して、シーンを表す第3の画像を取得することを行うように構成された、1つまたは複数のプロセッサをさらに含むことができる。
【0034】
例えば、グローバルシャッタは、シーン全体をセンサの一方の側から他方に一斉に露光することによって動作する。グローバルシャッタを有するカメラには、ワーピング(warping)または歪みがそれほどないことがある。対照的に、ローリングシャッタは、スキャン様の様式で、画素を、センサの一方の側からオンにさせ、センサの他方の側までスイープさせることによって動作する。グローバルシャッタを有するカメラは、ローリングシャッタを有するカメラと同じ高さの解像度を有する画像を作り出さないことがある。しかし、ローリングシャッタを有するカメラは、空間歪みおよびバンディングを含むモーションアーチファクトをきたすことがある。
【0035】
本開示の例によれば、カメラシステムは、グローバルシャッタを有するモノクロカメラ、およびグローバルシャッタを有するカラーカメラ(例えばRGBカメラなどの多色(multi-chromatic)カメラ)を含む。モノクロカメラおよびカラーカメラがグローバルシャッタを利用するので、バンディングアーチファクトを回避することができ、積分時間がより短いことにより、モーションブラーを抑えることが可能になり得る。カメラシステムの感度を上げるために、モノクロカメラではモノクロセンサを利用する。例えば、典型的なRGBカメラにおける色フィルタ配列(CFA)は、カメラ感度を約2.5分の1に下げる。CFAを取り除き、モノクロセンサのみを使用して画像を捕捉することによって、カメラのスピードを(例えば典型的なRGBカメラに比べて2.5倍)上げることができ、またカメラの線形解像度を(例えば典型的なRGBカメラに比べて画素単位で表して約1.5~2倍)増大させることができる。例えば、いくつかの実装形態では、モノクロセンサは、10から20メガピクセルの解像度を有することができる。さらに、カメラのカメラ感度を2~2.5倍上げることができる。
【0036】
一般に、グローバルシャッタ方式カメラを使用して捕捉された画像からの画素は、ローリングシャッタ方式カメラを使用して捕捉された画像からの画素よりも低いダイナミックレンジを有し、というのも、グローバルシャッタ画素はより複雑であり、検出された光子から電荷を収集し保つための容積がより少ないためである。例えば、グローバルシャッタ画素のダイナミックレンジ(すなわち最大測定可能光強度と最小測定可能光強度とのコントラスト比に影響を及ぼす「ウェル容量」)は、類似のサイズのローリングシャッタ画素よりも約1ビット少ないことがある。本開示の例によれば、カメラシステムのダイナミックレンジを上げるために、モノクロカメラは、増大した線形解像度を有するモノクロセンサを含む。カメラシステムは、より広範囲の照明条件下でより多種多様な環境(例えば屋内および屋外)を捕捉するように、実装することができる。
【0037】
色は、二次的なグローバルシャッタ方式カラーカメラを使用することによって提供される。例えば、カラーカメラはRGBカメラとすることができる。例えば、カラーカメラはモノクロカメラよりも低い解像度を有する。例えば、カラーカメラは、モノクロカメラの(例えば画素数で表した)解像度の1/2から1/16を有することができる。カラーカメラは、より低い解像度を有するように構成されるので、カメラシステムのサイズ、コスト、またはデータレートを大幅に増やさない。例えば、モノクロカメラおよびカラーカメラは、広い(例えば120度よりも大きな)視野を有するfシータ(魚眼)レンズを含むことができる。
【0038】
いくつかの実装形態では、モノクロカメラおよびカラーカメラは、同じ視野を有することができる。モノクロカメラおよびカラーカメラを、同じシーンを捕捉するために同じ方向に面するように構成することができる。モノクロカメラとカラーカメラとの間の静的視差は、モノクロカメラおよびカラーカメラを互いに数センチメートル(例えば5センチメートル未満など、3センチメートルから10センチメートル)以内に位置付けることによって、最小限に抑えることが可能である。
【0039】
いくつかの実装形態では、計算プロセス(例えば機械学習リソースによって実装される機械学習アルゴリズム)が、低解像度カラー(例えばRGB)画像を高解像度モノクロ画像に位置整合させることができる。例えば、位置整合プロセスは、カラー画像をモノクロ画像に変換すること、およびモノクロカメラからのモノクロ画像と変換したモノクロ画像との間の位置整合および信頼性フィールド(alignment and confidence field)を計算することを含むことができる。位置整合プロセスは、カメラシステムによって実施することもでき、あるいは(例えばサーバコンピューティングシステムによって)遠隔で実施することもできる。例えば、位置整合プロセスは、知られている位置整合方法を使用して実施することができる。位置整合プロセスは、リアルタイムで実施することもでき、あるいは後処理手順の一部として実施することもできる。
【0040】
いくつかの実装形態では、計算プロセス(例えば機械学習リソースによって実装される機械学習アルゴリズム)が、高解像度モノクロ画像の、位置整合に成功した部分について、低解像度カラー(RGB)画像からの色を高解像度モノクロ画像に転移させることができる。例えば、高解像度モノクロ画像の、位置整合に成功した部分に対応する、低解像度カラー(RGB)画像の部分から、色を転移させる(例えば補間する)ことができる。例えば、転移動作またはマージ動作は、(Y成分またはルマ成分を有する)高解像度モノクロ画像用に、より低い(例えば半分の解像度の)クロマ(例えばCbCr)チャネルを作り出すことを含むことができる。
【0041】
いくつかの実装形態では、計算プロセス(例えば機械学習リソースによって実装される機械学習アルゴリズム)が、高解像度モノクロ画像の、(例えばオクルージョンまたは不十分な信号対雑音比のため)位置整合に失敗した部分についての色を合成する(生成する)ことができる。位置整合は、位置整合に関する信頼性レベルがしきい値レベル未満であるとき、失敗したと見なすことができる。例えば、高解像度モノクロ画像の、非位置整合部分に隣接する部分の色を参照することによって、モノクロ画像の、位置整合に成功していない部分についての色を合成する(例えば生成する)こともでき、あるいは色を合成するようにトレーニングされたニューラルネットワークを用いて色を合成する機械学習リソースを使用して、色を合成することもできる。いくつかの実装形態では、モノクロ画像のルマ成分は、変更されないままである。すなわち、色チャネル(chromatic channel)のみが合成される。例えば、色チャネルは、カラー画像の解像度の半分で合成することができる。
【0042】
カメラシステムを、モノクロ画像およびカラー画像に基づいて(例えばモノクロ画像のルマ成分およびカラー画像の色成分(chromatic component)に基づいて)、高解像度モノクロ画像の、位置整合に成功した部分に転移された色情報に従って、また位置整合に成功していない場合には合成された色情報に従って、結果として得られる画像(例えば第3の画像)を生成するように、構成することができる。
【0043】
いくつかの実装形態では、計算プロセス(例えばトレーニング済みのニューラルネットワークなどの機械学習リソースによって実装される機械学習アルゴリズム)が、ネットワークへの入力が2つのソース画像(すなわちモノクロ画像およびカラー画像)となり、出力が合成後の高解像度RGB画像となるように、プロセス全体を端から端まで最適化することができる。この実装形態では、個別の位置整合動作および色転移動作がなく、というのも、ニューラルネットワークが、位置整合が内部で暗黙的に実施された状態で、プロセスを端から端まで実施するためである。
【0044】
モノクロカメラとカラーカメラは、どちらもグローバルシャッタ方式カメラであるので、運動視差を回避するように、時間的に強く同期させることができ(例えばモノクロカメラとカラーカメラはそれぞれ、シーンの画像を同時に捕捉することができ)、また視野が位置整合された状態で、静的視差が存在する場合にのみ位置整合に失敗する可能性があり、この静的視差は、上で論じたように、モノクロカメラとカラーカメラを互いに数センチメートル以内に位置付けることによって最小限に抑えることが可能である。それに加えて、確実にモノクロ画像内のより多くの境界画素がカラー(例えばRGB)画像内に関連する画素を有するようにするために、カラー(例えばRGB)カメラはモノクロカメラよりもわずかに広い視野を有することができる。
【0045】
本明細書において開示するカメラシステムは、2つ以上のカメラを収容することのできる任意の電子装置内に実装することができる。例えば、カメラシステムは、スマートフォン、セキュリティシステム、監視システム、車両内などに実装することができる。
【0046】
カラーカメラは、任意の色空間における画像を捕捉することができる。モノクロ画像およびカラー画像に基づいて生成された画像は、任意の色空間によって表すことができる。例えば、色空間は、RGB(赤、緑、および青の加法混色の原色)、YCbCr(ルマ成分、青差クロマ成分(blue-difference chroma component)、赤差クロマ成分(red-difference chroma component))、HSV(色相、彩度、明度(value))、YUV(輝度、青投影(blue projection)、赤投影(red projection))、L*a*b*(明度(lightness value)、緑-赤反対色チャネル、および黄-青反対色チャネル)などを含むことができる。
【0047】
本開示の例示的な態様は、カメラシステム技術におけるいくつかの技術的な効果、利点、および/または改善をもたらす。例えば、本明細書において開示する例によれば、カメラシステムは拡張された動作および機能を有し、というのも、カメラがより多くの多様な環境内で動作することになるためである。したがって、屋内用カメラと屋外用カメラを別々に有する必要はない。例えば、姿勢アルゴリズムおよび3次元再構築アルゴリズムは、基礎をなす画像がグローバルシャッタ方式カメラを使用して捕捉されたときに、精度が増大するとともに品質が増大する。本明細書において開示するカメラシステムを使用すると、より広範囲の照明条件下でより多種多様な環境をマッピングすることができ、その結果、より多くの環境内で画像を収集することが可能になるとともに画像の運用範囲がより広がることが可能である。さらに、カメラシステムは、(例えばモノクロカメラよりも小型のカラーカメラを利用することによって)より小型に、より軽量に、またより持ち運びやすくすることができる。
【0048】
ここで図面を参照すると、
図1は、本開示の1つまたは複数の例による、カメラシステム、サーバコンピューティングシステム、および1つまたは複数の外部コンピューティングデバイスを含んだシステムのブロック図を示す。
図1では、例示的なシステム1000が、ネットワーク200経由で相互に接続されているカメラシステム100、サーバコンピューティングシステム300、および1つまたは複数の外部コンピューティングデバイス400を含む。ネットワーク200を介して通信するのに適した(ネットワークインターフェースカードなどの)任意の通信インターフェースを、適宜、またはカメラシステム100、サーバコンピューティングシステム300、および1つまたは複数の外部コンピューティングデバイス400の所望のとおりに、利用することができる。
【0049】
カメラシステム100は、例えば、2つ以上のカメラを収容することのできる任意の電子装置を含むことができる。例えば、カメラシステムは、スマートフォン、セキュリティシステム、監視システム、車両内などに実装することができる。サーバコンピューティングシステム300は、サーバ、または例えば分散された形で相互に通信するサーバ(例えばウェブサーバ、アプリケーションサーバなど)の組合せを含むことができる。1つまたは複数の外部コンピューティングデバイス400は、パーソナルコンピュータ、スマートフォン、ラップトップ機、タブレットコンピュータなどを含むことができる。
【0050】
本開示のいくつかの実装形態によれば、カメラシステム100は、モノクロカメラ182によって捕捉された第1の画像およびカラーカメラ184によって捕捉された第2の画像に基づいて第3の画像を生成するために、サーバコンピューティングシステム300と通信することができる。例えば、サーバコンピューティングシステム300を、第1の画像と第2の画像を位置整合させること、および/または第3の画像を生成するための色情報を合成することを行うように構成することができる。
【0051】
本開示のいくつかの実装形態によれば、カメラシステム100は、モノクロカメラ182および/またはカラーカメラ184を活動化または制御するために使用することのできるイメージングアプリケーション330を実行するために、サーバコンピューティングシステム300と通信することができる。
【0052】
本開示のいくつかの実装形態によれば、カメラシステム100は、モノクロカメラ182および/もしくはカラーカメラ184を活動化もしくは制御するためのイメージングアプリケーションを実行するために、第1の画像と第2の画像を位置整合させるために、かつ/または第3の画像を生成するための色情報を合成するために、1つまたは複数の外部コンピューティングデバイス400と通信することができる。例として、1つまたは複数の外部コンピューティングデバイス400は、ホームセキュリティシステムなどのホームアプライアンス、または車両、またはスマートフォンを含むことができる。
【0053】
例えば、ネットワーク200は、ローカルエリアネットワーク(LAN)、ワイヤレスローカルエリアネットワーク(WLAN)、広域ネットワーク(WAN)、パーソナルエリアネットワーク(PAN)、バーチャルプライベートネットワーク(VPN)など、任意のタイプの通信ネットワークを含むことができる。例えば、本明細書において説明する例の要素間のワイヤレス通信は、ワイヤレスLAN、Wi-Fi、Bluetooth、ZigBee、Wi-Fi direct(WFD)、ウルトラワイドバンド(UWB)、赤外線通信規格(infrared data association)(IrDA)、Bluetoothローエナジー(BLE)、近距離無線通信(NFC)、無線周波数(RF)信号などを介して実施することができる。例えば、本明細書において説明する例の要素間の有線通信は、ペアケーブル、同軸ケーブル、光ファイバケーブル、イーサネットケーブルなどを介して実施することができる。ネットワーク経由の通信には、多種多様な通信プロトコル(例えばTCP/IP、HTTP、SMTP、FTP)、符号化もしくはフォーマット(例えばHTML、XML)、および/または保護スキーム(例えばVPN、セキュアHTTP、SSL)を使用することができる。
【0054】
カメラシステム100は、1つまたは複数のプロセッサ110、1つまたは複数のメモリデバイス120、イメージングアプリケーション130、機械学習リソース140、入力デバイス150、出力デバイス160、ディスプレイデバイス170、および1つまたは複数のセンサ180を含むことができる。カメラシステム100のコンポーネントはそれぞれ、システムバスを介して相互に動作可能に接続することができる。例えば、システムバスは、商業的に入手可能な多様なバスアーキテクチャのうちのいずれかを使用してメモリバス(メモリコントローラの有無を問わない)、周辺機器用バス、および/またはローカルバスにさらに相互接続することのできるいくつかのタイプのバス構造のうちのいずれかとすることができる。
【0055】
サーバコンピューティングシステム300は、1つまたは複数のプロセッサ310、1つまたは複数のメモリデバイス320、イメージングアプリケーション330、および1つまたは複数の機械学習リソース340を含むことができる。サーバコンピューティングシステム300の特徴はそれぞれ、システムバスを介して相互に動作可能に接続することができる。例えば、システムバスは、商業的に入手可能な多様なバスアーキテクチャのうちのいずれかを使用してメモリバス(メモリコントローラの有無を問わない)、周辺機器用バス、および/またはローカルバスにさらに相互接続することのできるいくつかのタイプのバス構造のうちのいずれかとすることができる。
【0056】
1つまたは複数の外部コンピューティングデバイス400は、サーバコンピューティングシステム300(例えば1つまたは複数のプロセッサ310、1つまたは複数のメモリデバイス320、イメージングアプリケーション330、および1つまたは複数の機械学習リソース340)と類似の構造的特徴を含むことができる。したがって、1つまたは複数の外部コンピューティングデバイスの文脈におけるこれらの特徴についての説明は、簡潔にするために、再度繰り返さない。
【0057】
例えば、1つまたは複数のプロセッサ110、310は、カメラシステム100内またはサーバコンピューティングシステム300内に含めることのできる任意の適切な処理デバイスとすることができる。例えば、1つまたは複数のプロセッサ110、310は、規定された様式で命令に応答し、命令を実行することの可能な他の任意のデバイスを含めて、プロセッサ、プロセッサコア、コントローラおよび算術論理演算装置、中央処理装置(CPU)、グラフィック処理装置(GPU)、デジタル信号プロセッサ(DSP)、画像処理プロセッサ、マイクロコンピュータ、フィールドプログラマブルアレイ、プログラマブルロジックユニット、特定用途向け集積回路(ASIC)、マイクロプロセッサ、マイクロコントローラなど、ならびにそれらの組合せのうちの1つまたは複数を含むことができる。1つまたは複数のプロセッサ110、310は、単一のプロセッサとすることもでき、あるいは動作可能に例えば並列に接続されている複数のプロセッサとすることもできる。
【0058】
1つまたは複数のメモリデバイス120、320は、読出し専用メモリ(ROM)、プログラマブル読出し専用メモリ(PROM)、消去可能プログラマブル読出し専用メモリ(EPROM)、およびフラッシュメモリ、USBドライブ、ランダムアクセスメモリ(RAM)などの揮発性メモリデバイス、内蔵もしくは外付けのハードディスクドライブ(HDD)、フロッピーディスク、ブルーレイディスク、またはCD ROMディスクやDVDなどの光学媒体、ならびにそれらの組合せなど、1つまたは複数の非一時的コンピュータ可読記憶媒体を含むことができる。しかし、1つまたは複数のメモリデバイス120、320の例は、上記の説明に限定されず、当業者には理解されるように、1つまたは複数のメモリデバイス120、320は、さまざまな他のデバイスおよび構造によって実現することができる。
【0059】
例えば、1つまたは複数のメモリデバイス120は、命令を記憶することができ、この命令は、1つまたは複数のプロセッサ110によって実行されると、イメージングアプリケーション130の1つまたは複数の動作であって、本開示の例に従って説明するように、グローバルシャッタを有するモノクロカメラ182に、シーンの第1の画像を捕捉させることと、グローバルシャッタを有し、モノクロカメラ182からしきい値距離未満だけ隔置されているカラーカメラ184に、シーンの第2の画像を捕捉させることであって、第2の画像が第1の画像よりも低い解像度を有する、捕捉させることと、第2の画像を第1の画像に位置整合させることと、第2の画像の色情報を第1の画像に提供することによって、シーンを表す第3の画像を取得することとを行うための、1つまたは複数の動作を実行するものである。
【0060】
例えば、1つまたは複数のメモリデバイス320は、命令を記憶することができ、この命令は、1つまたは複数のプロセッサ310によって実行されると、イメージングアプリケーション330の1つまたは複数の動作であって、本開示の例に従って説明するように、グローバルシャッタを有するモノクロカメラ182に、シーンの第1の画像を捕捉させることと、グローバルシャッタを有し、モノクロカメラ182からしきい値距離未満だけ隔置されているカラーカメラ184に、シーンの第2の画像を捕捉させることであって、第2の画像が第1の画像よりも低い解像度を有する、捕捉させることと、第2の画像を第1の画像に位置整合させることと、第2の画像の色情報を第1の画像に提供することによって、シーンを表す第3の画像を取得することとを行うための、1つまたは複数の動作を実行するものである。
【0061】
1つまたは複数のメモリデバイス120は、1つまたは複数のプロセッサ110によって取り出し、操作し、作成し、または記憶することのできるデータ122および命令124を含むこともできる。いくつかの例では、そのようなデータにアクセスし、そのようなデータを、イメージングアプリケーション130の1つまたは複数の動作であって、本開示の例に従って説明するように、グローバルシャッタを有するモノクロカメラ182に、シーンの第1の画像を捕捉させることと、グローバルシャッタを有し、モノクロカメラ182からしきい値距離未満だけ隔置されているカラーカメラ184に、シーンの第2の画像を捕捉させることであって、第2の画像が第1の画像よりも低い解像度を有する、捕捉させることと、第2の画像を第1の画像に位置整合させることと、第2の画像の色情報を第1の画像に提供することによって、シーンを表す第3の画像を取得することとを行うための、1つまたは複数の動作を実行するための入力として使用することができる。
【0062】
1つまたは複数のメモリデバイス320は、1つまたは複数のプロセッサ310によって取り出し、操作し、作成し、または記憶することのできるデータ322および命令324を含むこともできる。いくつかの例では、そのようなデータにアクセスし、そのようなデータを、イメージングアプリケーション330の1つまたは複数の動作であって、本開示の例に従って説明するように、グローバルシャッタを有するモノクロカメラ182に、シーンの第1の画像を捕捉させることと、グローバルシャッタを有し、モノクロカメラ182からしきい値距離未満だけ隔置されているカラーカメラ184に、シーンの第2の画像を捕捉させることであって、第2の画像が第1の画像よりも低い解像度を有する、捕捉させることと、第2の画像を第1の画像に位置整合させることと、第2の画像の色情報を第1の画像に提供することによって、シーンを表す第3の画像を取得することとを行うための、1つまたは複数の動作を実行するための入力として使用することができる。
【0063】
イメージングアプリケーション130およびイメージングアプリケーション330は、1つまたは複数の画像を捕捉するために使用される任意のアプリケーションを含むことができる。例えば、捕捉された画像は、セキュリティアプリケーション、監視アプリケーション、ナビゲーションアプリケーション、ジオマッピングアプリケーションなどに関連して使用することができる。例えば、画像は、モノクロカメラ182およびカラーカメラ184のうちの1つまたは複数を使用して捕捉することができる。本明細書における本開示の例に従って説明するように、モノクロカメラ182およびカラーカメラ184によって捕捉された画像から取得された画像情報を使用して、別の画像を生成することができる。
【0064】
いくつかの実装形態では、カメラシステム100は、1つまたは複数の機械学習リソース140を含むことができる。例えば、1つまたは複数のメモリデバイス120が、画像位置整合器142および色合成器144を含んだ1つまたは複数のモデルを記憶するかまたは含むことができる。例えば、画像位置整合器142および色合成器144は、ニューラルネットワーク(例えば深層ニューラルネットワーク)や、非線形モデルおよび/または線形モデルを含む他のタイプの機械学習済みモデルなど、さまざまな機械学習済みモデルとすることもでき、あるいはその他の方法でそれらのさまざまな機械学習済みモデルを含むこともできる。ニューラルネットワークは、フィードフォワードニューラルネットワーク、再帰型ニューラルネットワーク(例えば長短期記憶再帰型ニューラルネットワーク)、畳み込みニューラルネットワーク、または他の形態のニューラルネットワークを含むことができる。いくつかの例示的な機械学習済みモデルでは、自己注意などの注意機構を活用することができる。例えば、いくつかの例示的な機械学習済みモデルは、マルチヘッド自己注意モデル(例えばトランスフォーマモデル)を含むことができる。
【0065】
いくつかの実装形態では、画像位置整合器142および色合成器144への入力は、例えばモノクロカメラ182およびカラーカメラ184によって捕捉された画像からの画像データを含むことができる。画像位置整合器142および色合成器144は、この画像データを処理して、出力を生成することができる。一例として、画像位置整合器142は、モノクロカメラ182およびカラーカメラ184によって捕捉された画像からの画像データを処理して、画像位置整合出力(例えばモノクロカメラ182によって捕捉された画像とカラーカメラ184によって捕捉された画像との間で画像データを位置整合またはマッピングしたもの)を生成することができ、この画像位置整合出力により、カラーカメラ184によって捕捉された画像の特定の部分がモノクロカメラ182によって捕捉された画像の特定の部分と位置整合しているかどうかが決定される。別の例として、色合成器144は、画像データを処理して、出力を生成することができる。一例として、色合成器144は、モノクロカメラ182によって捕捉された画像の、カラーカメラ184によって捕捉された画像の部分と位置整合していないと画像位置整合器142によって決定された部分に対応する画像データを処理することができる。色合成器144は、モノクロカメラ182によって捕捉された画像の、位置整合していない部分に対応する画像データを、その非位置整合部分についての色情報を合成することによって処理することができる。
【0066】
いくつかの実装形態では、サーバコンピューティングシステム300は、画像位置整合器342および色合成器344を含んだ1つまたは複数の機械学習リソース340を含む。例えば、モノクロカメラ182およびカラーカメラ184によって捕捉された画像からの画像データの処理は、サーバコンピューティングシステム300によって、例えば画像位置整合器342および/または色合成器344によって、遠隔で実施することができる。画像位置整合器342および色合成器344の特徴および動作はそれぞれ、本明細書において説明する画像位置整合器142および色合成器144の同じ特徴および動作に対応していてよい。したがって、サーバコンピューティングシステム300の文脈における画像位置整合器342および色合成器344の特徴および動作についての説明は、簡潔にするために、再度繰り返さない。
【0067】
カメラシステム100は、ユーザから入力を受け取るように構成された入力デバイス150を含むことができ、例えば、キーボード(例えば物理的キーボード、仮想キーボードなど)、マウス、ジョイスティック、ボタン、スイッチ、電子ペンまたはスタイラスペン、(例えば身体部分の動きを含むユーザのジェスチャを認識するための)ジェスチャ認識センサ、入力サウンドデバイスまたは音声認識センサ(例えば音声コマンドを受け取るためのマイクロホン)、トラックボール、リモートコントローラ、ポータブル(例えばセルラーまたはスマート)フォンなどのうちの1つまたは複数を含むことができる。入力デバイス150は、例えばタッチスクリーン機能を有するタッチセンシティブディスプレイデバイスによって具現化することもできる。入力デバイス150を、カメラシステム100のユーザが使用して、イメージングアプリケーション130を実行するための入力を提供することができる。入力デバイス150を、カメラシステム100のユーザが使用して、モノクロカメラ182および/またはカラーカメラ184にシーンの画像を捕捉させるための入力を提供することもできる。例えば、入力は、音声入力、タッチ入力、ジェスチャ入力、マウスまたはリモートコントローラを介したクリックなどとすることができる。
【0068】
カメラシステム100は、ユーザへの出力を提供するように構成された出力デバイス160を含み、例えば、オーディオデバイス(例えば1つまたは複数のスピーカ)、ユーザにハプティックフィードバックを提供するためのハプティックデバイス(例えば振動デバイス166)、光源(例えば、ユーザに視覚的フィードバックを提供する、LEDなど、1つまたは複数の光源)などのうちの1つまたは複数を含むことができる。
【0069】
カメラシステム100は、ユーザが見ることのできる情報を例えばユーザインターフェース(例えばグラフィカルユーザインターフェース)上に提示するディスプレイデバイス170を含む。例えば、ディスプレイデバイス170は、非タッチセンシティブディスプレイとすることができる。ディスプレイデバイス170は、例えば、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、有機発光ダイオード(OLED)ディスプレイ、アクティブマトリックス有機発光ダイオード(AMOLED)、フレキシブルディスプレイ、3Dディスプレイ、プラズマディスプレイパネル(PDP)、陰極線管(CRT)ディスプレイなどを含むことができる。しかし、本開示はこれらの例に限定されず、他のタイプのディスプレイデバイスを含むことができる。例えば、ディスプレイデバイス170は、イメージングアプリケーション130に関するさまざまなオプション(例えばモノクロカメラ182および/またはカラーカメラ184を、シーンの画像を捕捉するように制御するための条件を、ユーザが定められるようにするためのオプション)をユーザが選択できるようにするためのグラフィカルユーザインターフェースを提供するように、構成することができる。
【0070】
カメラシステム100は、1つまたは複数のセンサ180を含む。1つまたは複数のセンサ180は、モノクロカメラ182およびカラーカメラ184を含むことができる。例えば、モノクロカメラ182およびカラーカメラ184は、鉛直方向または水平方向に相互に隣接して配置することができる。
図2A~
図2Bを参照すると、本開示の1つまたは複数の例によるカメラシステムの例示的な図が示されている。
【0071】
例えば、
図2Aでは、カメラシステム2100が、カラーカメラ184の上方に配設されたモノクロカメラ182を示しており、ここで、モノクロカメラ182はカラーカメラ184から距離d1だけ隔置されている。距離d1は、約3センチメートルから10センチメートルに、例えば5センチメートル未満に、対応することができる。モノクロカメラ182およびカラーカメラ184は、軸A1に沿って位置整合させることができ、同じ方向に面することができる。いくつかの実装形態では、モノクロカメラ182は、カラーカメラ184よりもサイズが大きくてよい。いくつかの実装形態では、モノクロカメラ182は、カラーカメラ184の下方に配設することができる。
【0072】
例えば、
図2Bでは、カメラシステム2200が、カラーカメラ184の左側に配設されたモノクロカメラ182を示しており、ここで、モノクロカメラ182はカラーカメラ184から距離d1だけ隔置されている。距離d1は、約3センチメートルから10センチメートルに、例えば5センチメートル未満に、対応することができる。モノクロカメラ182およびカラーカメラ184は、軸A2に沿って位置整合させることができ、同じ方向に面することができる。いくつかの実装形態では、モノクロカメラ182は、カラーカメラ184の右側に配設することができる。
【0073】
カメラシステム100は、他のタイプのセンサを含むことができる。例えば、1つまたは複数のセンサ180は、1つもしくは複数の加速度計および/または1つもしくは複数のジャイロスコープを含んだ慣性計測装置など、他のセンサを含むことができる。1つまたは複数の加速度計は、カメラシステム100に関する動き情報を捕捉するために使用することができる。1つまたは複数のジャイロスコープも、それに加えてまたはその代わりに、カメラシステム100に関する動き情報を捕捉するために使用することができる。1つまたは複数のセンサ180は、磁力計、GPSセンサなど、他のセンサを含むこともできる。
【0074】
図3を参照すると、本開示の1つまたは複数の例によるカメラシステムの1つまたは複数の態様が示されている。
図3では、カメラシステム3000が、1つまたは複数のプロセッサ110、モノクロカメラ182、カラーカメラ184、第1の画像3100、第2の画像3200、および第3の画像3300を含む。
【0075】
例示的な一実施形態では、モノクロカメラ182は、シーンの第1の画像3100を捕捉することを行うように構成され、カラーカメラ184は、シーンの第2の画像3200を捕捉することを行うように構成される。1つまたは複数のプロセッサ110は、第1の画像3100および第2の画像3200を受け取るように、また(下でより詳細に説明する、第2の画像3200の第1の画像3100への位置整合、および第2の画像3200の色情報の第1の画像3100への提供などの)さまざまな動作を実施して、第1の画像3100および第2の画像3200に基づいて第3の画像3300を生成するように構成される。
【0076】
上で論じたように、モノクロカメラ182およびカラーカメラ184はそれぞれ、グローバルシャッタを含むことができ、シーンの画像を同時にまたは実質的に同時に(例えば互いに1ミリ秒以内に)捕捉するために相互に同期させることができる。例えば、モノクロカメラ182およびカラーカメラ184は、周囲環境内でピーク照明条件が発生する時に第1の画像3100および第2の画像3200を捕捉するために、同期させることができる。例えば、第1の画像3100および第2の画像3200はそれぞれ、環境内の照明サイクルのピークにおいて捕捉することができる。例えば、ピーク照明条件または照明サイクルのピークは、カメラシステム100が環境を観察または監視し、(例えば発光ダイオードなどの光のデューティサイクルもしくは調光回路のデューティサイクルを決定することにより、または交流電源の周期などを決定することなどにより)照明サイクルのタイミングを認識することによって、決定することができる。例えば、カラーカメラ184が第2の画像3200を捕捉する時間と、モノクロカメラ182が第1の画像3100を捕捉する時間との差は、しきい値時間未満とすることができる。例えば、しきい値時間は、モノクロカメラ182の積分時間に対応することができる。積分時間は、モノクロカメラ182が電荷を捕獲(収集)し保持する時間間隔に対応する。
【0077】
カラーカメラ184を、任意の色空間における多色画像を捕捉するように構成することができる。例えば、カラーカメラ184は、色フィルタ配列を含むことができる。例えば、色フィルタ配列は、正方格子状(例えば2×2)のフォトセンサ上にRGB色フィルタを配列するための、(例えばRGGBフィルタパターンを有する)ベイヤー色フィルタ配列とすることができる。カラーカメラ184は、YCbCr(ルマ成分、青差クロマ成分、赤差クロマ成分)、HSV(色相、彩度、明度)、YUV(輝度、青投影、赤投影)、L*a*b*(明度、緑-赤反対色チャネル、および黄-青反対色チャネル)などを含む他の色空間における多色画像を捕捉するように構成されてもよい。
【0078】
上で論じたように、モノクロカメラ182は、カラーカメラ184よりもサイズが物理的に大きくてよく、カラーカメラ184よりも高い解像度を有してよい。例えば、カラーカメラ184の解像度は、モノクロカメラ182の解像度の1/2から1/16とすることができる。モノクロカメラ182およびカラーカメラ184のうちの1つまたは複数は、広い(例えば120度よりも大きな)視野を有するfシータ(魚眼)レンズを含むことができる。モノクロカメラ182およびカラーカメラ184は、同じ方向に面することができ、静的視差を低減または回避するように相互に位置整合させることができる。モノクロカメラ182とカラーカメラ184との間の静的視差は、モノクロカメラ182およびカラーカメラ184を相互にしきい値距離未満に位置付けることによって、さらに最小限に抑えることが可能である。例えば、モノクロカメラ182およびカラーカメラ184は、互いに数センチメートル(例えば5センチメートル未満など、3センチメートルから10センチメートル)以内に位置付けることができる。
【0079】
図4を参照すると、本開示の1つまたは複数の例によるカメラシステムの1つまたは複数の態様が示されている。
図4では、カメラシステム4000は、第1の画像3100、第2の画像3200、画像位置整合器142、色合成器144、および第3の画像3300、ならびに色情報を転移させる動作4100を含む。例えば、1つまたは複数のプロセッサ110を、画像位置整合器142および色合成器144を含む1つまたは複数の機械学習リソース140を利用または起動して第3の画像3300を生成するように構成することができる。
図4には示していないが、いくつかの実装形態では、1つまたは複数のプロセッサ110を、サーバコンピューティングシステム300からの、画像位置整合器342および色合成器344を含む1つまたは複数の機械学習リソース340を利用または起動して第3の画像3300を生成するように構成することができる。例えば、画像位置整合器342および色合成器344はそれぞれ、第1の画像3100および第2の画像3300に対して、画像位置整合器142および色合成器144と類似の動作を実施することができる。
【0080】
例えば、計算プロセス(例えば画像位置整合器142によって実装される機械学習アルゴリズム)が、(比較的低い解像度の、RGB画像などのカラー画像である)第2の画像3200を(比較的高い解像度のモノクロ画像である)第1の画像3100に位置整合させることができる。例えば、画像位置整合器142は、位置整合プロセスを、第2の画像3200をモノクロ画像に変換し、(モノクロカメラ182によって捕捉されたモノクロ画像である)第1の画像3100と変換したモノクロ画像との間の位置整合および信頼性フィールドを計算することによって実施するように、構成することができる。例えば、第1の画像3100と第2の画像3200との間の対応する画素を見いだして第1の画像3100と第2の画像3200との間で画素を割り当てる(すなわち画素をマッピングする)ためのニューラルネットワークを、画像位置整合器142によって実装することができる。上述したように、位置整合プロセスは、カメラシステム100によって実施することもでき、あるいは(例えばサーバコンピューティングシステム300によって)遠隔で実施することもできる。例えば、画像位置整合器142は、位置整合プロセスを、知られている位置整合方法を使用して実施するように、構成することができる。例えば、位置整合プロセスは、リアルタイムで実施することもでき、あるいは後処理手順の一部として実施することもできる。
【0081】
画像位置整合器142を、第2の画像3200のいくつかの部分が第1の画像3100の対応する部分と位置整合していることを決定するように構成することができる。これらの位置整合部分について、1つまたは複数のプロセッサ110および/または色合成器144を、第1の画像の、位置整合に成功した部分についての第2の画像3200(すなわち低解像度カラー(RGB)画像)からの色情報を第1の画像(すなわち高解像度モノクロ画像)に転移させるように構成することができる。例えば、第1の画像3100(すなわち高解像度モノクロ画像)の、位置整合に成功した部分に対応する、第2の画像3200(すなわち低解像度カラー(RGB)画像)の部分から、色情報を転移させる(例えば補間する)ことができる。例えば、転移動作またはマージ動作は、Y成分またはルマ成分を有する第1の画像3100(すなわち高解像度モノクロ画像)用に、より低い(例えば半分の解像度の)クロマ(例えばCbCr)チャネルを作り出すことを含むことができる。第1の画像3100のY成分またはルマ成分は、その解像度を保持することができ、変更されないままとすることができる。
【0082】
画像位置整合器142を、第2の画像3200のいくつかの部分が第1の画像3100の対応する部分と位置整合していないことを決定するように構成することができる。第1の画像3100の非位置整合部分について、1つまたは複数のプロセッサ110および/または色合成器144を、位置整合に成功していない場合に色情報を合成する(生成する)ように構成することができる。いくつかの実装形態では、計算プロセス(例えば色合成器144によって実装される機械学習アルゴリズム)が、第1の画像3100(すなわち高解像度モノクロ画像)の、(例えばオクルージョンまたは不十分な信号対雑音比のため)位置整合に失敗した部分についての色情報を合成する(生成する)ことができる。位置整合は、画像位置整合器142によって実施された位置整合に関する信頼性レベルがしきい値レベル未満であるとき(例えば第1の画像3100の画素が第2の画像3200の画素にマッピングされないか、またはマッピングに関する不確実性レベルがしきい値レベルよりも大きい場合)、失敗したと見なすことができる。例えば、ニューラルネットワーク用のトレーニング例を参照することによって、または第1の画像3100の、非位置整合部分に隣接する部分の色を参照することによって、第1の画像3100の、位置整合に成功していない部分についての色を合成する(例えば生成する)ことができる。例えば、色合成器144によって実装されるニューラルネットワーク用のトレーニングデータは、(1)同一のRGBカメラがシーンの第1のテスト画像および第2のテスト画像を捕捉し、(2)第1の画像3100を模擬するために、第1のテスト画像からグレースケール画像を合成し、第2の画像3200を模擬するために、第2のテスト画像のサイズを低減し、(3)機械学習アルゴリズムを実行して、第1のテスト画像と第2のテスト画像との間の非位置整合部分についての色情報を合成し、合成した色情報を(グランドトゥルースとしての役割を果たす)元の第1のテスト画像と比較し、それによって、機械学習アルゴリズムが、合成した色情報を正確に出力するように、かつ/または出力された、合成した色情報の信頼性レベルが、しきい値レベルよりも大きくなるようにすることによって、取得することができる。いくつかの実装形態では、第1の画像3100のルマ成分は、変更されないままであり、その解像度を保持する。すなわち、色チャネルのみが合成され、色チャネルの解像度は半分にすることができる。すなわち、色チャネルは、第2の画像3200の解像度の半分の解像度で合成することができる。
【0083】
カメラシステム4000を、第1の画像3100および第2の画像3200に基づいて(例えば第1の画像3100のルマ成分および第2の画像3200の色成分に基づいて)、第1の画像3100の、位置整合に成功した部分に、動作4100において転移された色情報に従って、また第1の画像3100の非位置整合部分について位置整合に成功していない場合には色合成器144によって合成された色情報に従って、結果として得られる画像(例えば第3の画像3300)を生成するように、構成することができる。
【0084】
いくつかの実装形態では、カメラシステム4000を、ネットワークへの入力が第1の画像3100および第2の画像3200(すなわちモノクロ画像およびカラー画像)となり、出力が第3の画像3300(すなわち合成後の高解像度RGB画像)となるように
図4に示すプロセス全体を最適化するようにトレーニングされたニューラルネットワークを用いて、構成することができる。この実装形態では、位置整合動作および色転移動作は個別の動作ではなく、というのも、ニューラルネットワークが、位置整合が内部で暗黙的に実施された状態で、プロセスを端から端まで実施するためである。
【0085】
図5を参照すると、本開示の1つまたは複数の例による例示的な非限定のコンピュータ実装方法のフロー図が示されている。
図5のフロー図は、グローバルシャッタ(すなわちグローバルシャッタセンサ)を有するモノクロカメラ182およびグローバルシャッタ(すなわちグローバルシャッタセンサ)を有するカラーカメラ184によって捕捉された画像を通じて画像を生成するための方法5000を示す。
【0086】
5100において、方法は、グローバルシャッタを有するモノクロカメラによって、シーンの第1の画像を捕捉することを含む。例えば、モノクロカメラ182は、グローバルシャッタを含むことができ、シーンの画像を捕捉することを行うように構成することができる。例えば、モノクロカメラ182は、車両上に取り付け、(例えば夜間または日中の、また人工照明条件を含むさまざまな照明条件下の)環境の画像を捕捉することができる。別の例として、モノクロカメラ182は、セキュリティシステム内に実装し、(例えば夜間または日中の、また人工照明条件を含むさまざまな照明条件下の)環境の画像を捕捉することができる。
【0087】
5200において、方法は、グローバルシャッタを有するカラーカメラによって、シーンの第2の画像を捕捉することを含む。例えば、カラーカメラ184は、グローバルシャッタを含むことができ、シーンの画像を捕捉することを行うように構成することができる。例えば、カラーカメラ184は、車両上に取り付け、(例えば夜間または日中の、また人工照明条件を含むさまざまな照明条件下の)環境の画像を捕捉することができる。別の例として、カラーカメラ184は、セキュリティシステム内に実装し、(例えば夜間または日中の、また人工照明条件を含むさまざまな照明条件下の)環境の画像を捕捉することができる。カラーカメラ184は、モノクロカメラ182から離して配設することができるが、カラーカメラ184は、モノクロカメラ182に隣接して配設し、同じ方向に面することができる。例えば、モノクロカメラ182によって捕捉された画像とカラーカメラ184によって捕捉された画像との間の静的視差を低減し、または防ぐために、モノクロカメラ182およびカラーカメラ184は、互いに数センチメートル(例えば5センチメートル未満など、3センチメートルから10センチメートル)以内に位置付けることができる。例えば、モノクロカメラ182およびカラーカメラ184は、少なくとも1つの軸に沿って相互に位置整合させることができる。例えば、モノクロカメラ182およびカラーカメラ184は、鉛直軸(例えば
図2AのA1)または水平軸(例えば
図2BのA2)に沿って相互に位置整合させることができる。それに加えて、モノクロカメラ182およびカラーカメラ184は、鉛直軸および水平軸に垂直な奥行き軸に沿ってなど、第2の軸に沿って相互に位置整合させることができる。
【0088】
5300において、方法は、第2の画像を第1の画像に位置整合させることを含む。例えば、画像位置整合器142は、計算プロセスを実装することができる。例えば、画像位置整合器142を、
図4に関して論じた様式で(比較的低い解像度の、RGB画像などのカラー画像である)第2の画像3200を(比較的高い解像度のモノクロ画像である)第1の画像3100に位置整合させるように構成することができる。
【0089】
5400において、方法は、第2の画像の色情報を第1の画像に提供することによって、シーンを表す第3の画像を取得することを含む。例えば、
図4に関して論じたように、画像位置整合器142を、第2の画像3200のいくつかの部分が第1の画像3100の対応する部分と位置整合していることを決定するように構成することができる。これらの位置整合部分について、1つまたは複数のプロセッサ110および/または色合成器144を、第1の画像の、位置整合に成功した部分についての第2の画像3200(すなわち低解像度カラー(RGB)画像)からの色情報を第1の画像(すなわち高解像度モノクロ画像)に転移させるように構成することができる。例えば、
図4に関して論じたように、画像位置整合器142を、第2の画像3200のいくつかの部分が第1の画像3100の対応する部分と位置整合していないことを決定するように構成することができる。第1の画像3100の非位置整合部分について、1つまたは複数のプロセッサ110および/または色合成器144を、第1の画像3100の、位置整合に成功していない部分についての色情報を合成する(生成する)ように構成することができる。第3の画像3300は、シーンを表すことができ、第1の画像3100からの(同じ解像度を有し、変更されていない)Yまたはルマ成分、ならびに本明細書において説明する位置整合プロセスおよび/または色合成プロセスに従って第2の画像3200を通じて取得される2つ以上のクロマ(色)成分またはクロマ(色)チャネルを有する、第1の画像3100に対応することができる。2つ以上のクロマ成分またはクロマチャネルは、第2の画像3200の解像度よりも低い解像度を有することもできる。
【0090】
上述した例示的な実施形態の態様は、コンピュータによって具現化されるさまざまな動作を実装するためのプログラム命令を含む、非一時的コンピュータ可読媒体内に記録することができる。この媒体は、データファイル、データ構造などを、単独で、またはプログラム命令と組み合わせて、含むこともできる。非一時的コンピュータ可読媒体の例としては、ハードディスク、フロッピーディスク、および磁気テープなどの磁気媒体;CD ROMディスク、ブルーレイディスク、およびDVDなどの光学媒体;光ディスクなどの光磁気媒体;ならびに半導体メモリ、読出し専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、フラッシュメモリ、USBメモリなど、プログラム命令を記憶し実施するように特別に構成された他のハードウェアデバイスがある。プログラム命令の例としては、コンパイラによって作り出されるようなマシンコードと、コンピュータによってインタープリタを使用して実行することのできる、より上位レベルのコードを収容したファイルの両方がある。プログラム命令は、1つまたは複数のプロセッサによって実行することができる。ここで説明したハードウェアデバイスを、上述した実施形態の動作を実施するために、1つまたは複数のソフトウェアモジュールとして機能するように構成することもでき、その逆も同様である。それに加えて、非一時的コンピュータ可読記憶媒体を、ネットワークを通じて接続されたコンピュータシステムの間で分散させることもでき、コンピュータ可読コードまたはコンピュータ可読プログラム命令を、非集中化様式で記憶し実行することもできる。それに加えて、非一時的コンピュータ可読記憶媒体は、少なくとも1つの特定用途向け集積回路(ASIC)またはフィールドプログラマブルゲートアレイ(FPGA)内に具現化することもできる。
【0091】
フローチャート図の各ブロックは、規定された論理機能を実装するための1つまたは複数の実行可能命令を含むコードのユニット、モジュール、セグメント、または一部分を表すことがある。いくつかの代替実装形態ではブロック内に記された機能が順不同で行われることがあることにも留意されたい。例えば、関与する機能に応じて、連続して示されている2つのブロックが実際には実質的に並行して(同時に)実行されることもあり、それらのブロックが時には逆順で実行されることもある。
【0092】
以上、本開示について、さまざまな例示的な実施形態に関して説明してきたが、各例は、本開示を限定するものとしてではなく本開示の説明として提供されている。当業者なら、前述の内容の理解を得れば、そのような実施形態の代替形態、変形形態、および等価物を容易に作り出すことができよう。したがって、本開示は、当業者に容易に明らかとなるような開示の主題に対する修正形態、変形形態、および/または追加を含むことを除外するものではない。例えば、一実施形態の一部として図示または説明した特徴を別の実施形態とともに使用して、さらに別の実施形態をもたらすことができる。したがって、そのような代替形態、変形形態、および等価物を本開示が包含することが、意図されている。
【符号の説明】
【0093】
100 カメラシステム
110 プロセッサ
120 メモリデバイス
122 データ
124 命令
130 イメージングアプリケーション
140 機械学習リソース
142 画像位置整合器
144 色合成器
150 入力デバイス
160 出力デバイス
166 振動デバイス
170 ディスプレイデバイス
180 センサ
182 モノクロカメラ
184 カラーカメラ
200 ネットワーク
300 サーバコンピューティングシステム
310 プロセッサ
320 メモリデバイス
322 データ
324 命令
330 イメージングアプリケーション
340 機械学習リソース
342 画像位置整合器
344 色合成器
400 外部コンピューティングデバイス
1000 システム
2100 カメラシステム
2200 カメラシステム
3000 カメラシステム
3100 第1の画像
3200 第2の画像
3300 第3の画像、第2の画像
4000 カメラシステム
4100 動作
5000 方法
A1 軸
A2 軸
d1 距離
【手続補正書】
【提出日】2024-01-09
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
グローバルシャッタを有し、シーンの第1の画像を捕捉することを行うように構成された、モノクロカメラと、
前記モノクロカメラから離して配設され、グローバルシャッタを有し、前記シーンの第2の画像を捕捉することを行うように構成された、カラーカメラと、
前記第2の画像を前記第1の画像に位置整合させること、および
前記第2の画像の色情報を前記第1の画像に提供して、前記シーンを表す第3の画像を取得すること
を行うように構成された、1つまたは複数のプロセッサと
を備える、カメラシステム。
【請求項2】
前記モノクロカメラおよび前記カラーカメラが、前記第1の画像および前記第2の画像を実質的に同時に捕捉するために同期される、請求項1に記載のカメラシステム。
【請求項3】
前記モノクロカメラおよび前記カラーカメラが配設されている環境内でピーク照明条件が生じたときに、前記第1の画像および前記第2の画像がそれぞれ捕捉される、請求項2に記載のカメラシステム。
【請求項4】
前記モノクロカメラおよび前記カラーカメラが、同じ方向に面するように配設され、互いにしきい値距離未満に配設される、請求項1に記載のカメラシステム。
【請求項5】
前記しきい値距離が10センチメートル以下である、請求項4に記載のカメラシステム。
【請求項6】
前記1つまたは複数のプロセッサが、前記第1の画像の対応する部分に位置整合している、前記第2の画像の部分について、前記第2の画像の部分の色情報を前記第1の画像の対応する部分に転移させることによって、前記第2の画像の前記色情報を前記第1の画像に提供するように構成される、請求項1に記載のカメラシステム。
【請求項7】
前記1つまたは複数のプロセッサが、前記第2の画像の部分が前記第1の画像の対応する部分に位置整合していない、前記第1の画像の非位置整合部分を識別することと、前記第1の画像の前記非位置整合部分に、合成した色情報を適用することとを行うように構成される、請求項6に記載のカメラシステム。
【請求項8】
前記カラーカメラが赤-緑-青(RGB)カメラである、請求項1に記載のカメラシステム。
【請求項9】
前記カラーカメラが前記モノクロカメラよりも低い解像度を有する、請求項1に記載のカメラシステム。
【請求項10】
前記モノクロカメラが前記カラーカメラよりも大きなサイズを有する、請求項1に記載のカメラシステム。
【請求項11】
前記第1の画像がルマ成分を含み、
前記第3の画像が、前記第1の画像の前記ルマ成分と、前記第2の画像に基づくクロマ成分とを含む、
請求項1に記載のカメラシステム。
【請求項12】
前記第2の画像を前記第1の画像に位置整合させることを行うための第1の機械学習リソースと、前記第2の画像の部分が前記第1の画像の対応する部分に位置整合していない、前記第1の画像の非位置整合部分についての色情報を合成すること、および前記第1の画像の前記非位置整合部分に、前記合成した色情報を適用することを行うための、第2の機械学習リソースと
をさらに含む、請求項1に記載のカメラシステム。
【請求項13】
グローバルシャッタを有するモノクロカメラによって、シーンの第1の画像を捕捉するステップと、
前記モノクロカメラから離して配設され、グローバルシャッタを有するカラーカメラによって、前記シーンの第2の画像を捕捉するステップと、
前記第2の画像を前記第1の画像に位置整合させるステップと、
前記第2の画像の色情報を前記第1の画像に提供することによって、前記シーンを表す第3の画像を取得するステップと
を含む、コンピュータ実装方法。
【請求項14】
前記第1の画像が、ルマ成分を有する単一のチャネルを含み、
前記第3の画像が、前記ルマ成分を有する第1のチャネルと、前記第2の画像に基づくクロマ成分を含む複数のチャネルとを含んだ、少なくとも3つのチャネルを含む、
請求項13に記載の方法。
【請求項15】
前記モノクロカメラおよび前記カラーカメラが、前記第1の画像および前記第2の画像を実質的に同時に捕捉するために同期され、
前記第1の画像および前記第2の画像をそれぞれ捕捉するステップが、照明サイクルのピークにおいて生じる、
請求項13に記載の方法。
【請求項16】
前記カラーカメラおよび前記モノクロカメラが、実質的に同じ視野を有する、請求項15に記載の方法。
【請求項17】
前記カラーカメラが前記第2の画像を捕捉する時間と、前記モノクロカメラが前記第1の画像を捕捉する時間との差が、前記モノクロカメラの積分時間未満である、請求項13に記載の方法。
【請求項18】
前記第2の画像の前記色情報を前記第1の画像に提供することが、前記第1の画像の対応する部分に位置整合している、前記第2の画像の部分について、前記第2の画像の部分の色情報を前記第1の画像の対応する部分に転移させることを含む、請求項13に記載の方法。
【請求項19】
前記第2の画像の部分が前記第1の画像の対応する部分に位置整合していない、前記第1の画像の非位置整合部分を識別するステップと、
機械学習リソースによって、前記第1の画像の前記非位置整合部分についての色情報を合成するステップと、
前記第1の画像の前記非位置整合部分に、前記合成した色情報を適用するステップと
をさらに含む、請求項18に記載の方法。
【請求項20】
カメラシステムの1つまたは複数のプロセッサによって実行可能である命令を記憶す
るコンピュータ可読
記憶媒体であって、前記命令が、
グローバルシャッタを有するモノクロカメラに、シーンの第1の画像を捕捉させることを行うための命令と、
グローバルシャッタを有し、前記モノクロカメラからしきい値距離未満だけ隔置されているカラーカメラに、前記シーンの第2の画像を捕捉させることであって、前記第2の画像が前記第1の画像よりも低い解像度を有する、捕捉させることを行うための命令と、
前記第2の画像を前記第1の画像に位置整合させることを行うための命令と、
前記第2の画像の色情報を前記第1の画像に提供することによって、前記シーンを表す第3の画像を取得することを行うための命令と
を含む
、コンピュータ可読
記憶媒体。
【国際調査報告】