(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-01-24
(45)【発行日】2023-02-01
(54)【発明の名称】統合撮像装置を使用しての視覚的データ、深さデータ、および微小振動データの抽出
(51)【国際特許分類】
G06T 7/521 20170101AFI20230125BHJP
【FI】
G06T7/521
(21)【出願番号】P 2019572057
(86)(22)【出願日】2018-07-12
(86)【国際出願番号】 IL2018050761
(87)【国際公開番号】W WO2019012534
(87)【国際公開日】2019-01-17
【審査請求日】2021-06-09
(32)【優先日】2017-07-12
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】500115826
【氏名又は名称】ジェンテックス コーポレイション
(74)【代理人】
【識別番号】100094569
【氏名又は名称】田中 伸一郎
(74)【代理人】
【識別番号】100109070
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100086771
【氏名又は名称】西島 孝喜
(74)【代理人】
【識別番号】100109335
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100120525
【氏名又は名称】近藤 直樹
(74)【代理人】
【識別番号】100139712
【氏名又は名称】那須 威夫
(72)【発明者】
【氏名】ズータ ヨアヴ
(72)【発明者】
【氏名】カーモン ギデオン
(72)【発明者】
【氏名】レヴィー ロイ
(72)【発明者】
【氏名】ラッツ ガイ
【審査官】大塚 俊範
(56)【参考文献】
【文献】米国特許出願公開第2016/0253821(US,A1)
【文献】国際公開第2016/021313(WO,A1)
【文献】国際公開第2016/138143(WO,A1)
【文献】中国特許出願公開第106778810(CN,A)
【文献】米国特許出願公開第2016/0046298(US,A1)
【文献】SHARMA, Avinash、他1名,Object Category Recognition with Projected Texture,2008 sixth Indian Conference on Computer Vision, Graphics & Image Processing,IEEE,2008年12月16日,p.374-381,DOI 10.1109/ICVGIP.2008.62
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00- 7/90
(57)【特許請求の範囲】
【請求項1】
統合撮像装置を使用して、対象物を検出し、前記対象物の深さ情報を抽出し、前記対象物の微小振動を識別する、コンピュータによって実施される方法であって、
少なくとも1つのプロセッサを使用して、
複数の拡散光要素から構成される事前定義される構造化光パターンをシーンに投射するようになされている光源、を備えた統合撮像装置の撮像センサによって撮影された、前記シーンの複数の画像、を受信するステップと、
前記複数の画像の少なくとも1枚を視覚的に分析することによって、前記シーン内に存在する少なくとも1つの対象物を分類するステップと、
前記少なくとも1つの対象物から反射された前記複数の拡散光要素のうちの少なくとも1つの位置を分析することによって、前記少なくとも1つの対象物の深さデータを抽出するステップと、
前記複数の画像の少なくとも何枚かの連続する画像において、前記複数の反射された拡散光要素のうちの少なくとも1つのスペックルパターンの変化を分析することによって、前記少なくとも1つの対象物の少なくとも1つの微小振動を識別するステップと、
前記撮像センサによって撮影された画像の前記分析から導かれ、したがって共通の座標系に本質的に記録される、前記分類、前記深さデータ、および前記少なくとも1つの微小振動のデータ、を出力するステップと、
を含
み、
前記スペックルパターンにスペックルパターン変換を適用して、前記スペックルパターン内の少なくとも1つの隣接する点に対する、前記スペックルパターン内の少なくとも1つの点の、前記少なくとも1つの微小振動を示す角速度を求めることによって、前記スペックルパターンの前記変化が識別される、
コンピュータによって実施される方法。
【請求項2】
前記光源および前記撮像センサが、可視光、赤外光、および紫外光からなる群のメンバーである共通の光の波長スペクトルにおいて動作する、請求項1に記載の、コンピュータによって実施される方法。
【請求項3】
前記撮像センサによって撮影された画像の前記分析から導かれる前記分類、前記深さデータ、および前記少なくとも1つの微小振動が、時刻同期されている、請求項1に記載の、コンピュータによって実施される方法。
【請求項4】
前記複数の拡散光要素それぞれが、ドット、スポット、線、およびこれらの組合せ、からなる群のメンバーである、請求項1に記載の、コンピュータによって実施される方法。
【請求項5】
前記光源が、反射された構造化光パターンが前記複数の画像のサブセットに写されるように、前記構造化光パターンを周期的に発するようにさらになされている、請求項1に記載の、コンピュータによって実施される方法。
【請求項6】
前記視覚的な分析が、前記少なくとも1つの対象物を分類するための少なくとも1つの訓練された機械学習モデルを使用するステップ、を含む、請求項1に記載の、コンピュータによって実施される方法。
【請求項7】
前記少なくとも1つの機械学習モデルが、前記少なくとも1枚の画像に写されている視覚的データに基づいて前記少なくとも1つの対象物を分類するように、訓練されており、前記視覚的データが、前記少なくとも1つの対象物の視覚的データと、前記反射された拡散光要素の少なくとも1つとを含む、請求項6に記載の、コンピュータによって実施される方法。
【請求項8】
前記少なくとも1つの機械学習モデルが、前記抽出された深さデータに基づいて生成される少なくとも1つの深さマップと組み合わされる、前記少なくとも1枚の画像に写されている前記少なくとも1つの対象物の視覚的データに従って、前記少なくとも1つの対象物を分類するように、訓練される、請求項6に記載の、コンピュータによって実施される方法。
【請求項9】
しきい値と比較される、前記少なくとも何枚かの連続する画像における前記少なくとも1つの反射された拡散光要素の強度の経時的な標準偏差、を分析することによって、前記スペックルパターンの前記変化が識別される、請求項1に記載の、コンピュータによって実施される方法。
【請求項10】
前記少なくとも1つの対象物の表面から反射される複数の反射された拡散光要素の前記経時的な標準偏差を計算することによって、前記経時的な標準偏差を平均するステップ、
をさらに含む、請求項9に記載の、コンピュータによって実施される方法。
【請求項11】
前記複数の画像のうちの複数の連続する画像内の前記少なくとも1つの点に対して時間スライディングウィンドウを適用することによって、前記少なくとも1つの点の強度を平均するステップ、
をさらに含む、請求項
1に記載の、コンピュータによって実施される方法。
【請求項12】
前記少なくとも1つの点の強度に無限応答フィルタを適用し、前記フィルタの結果を、前記複数の画像のうちの複数の連続する画像において測定された前記強度に基づいて計算される平均強度で除算することによって、前記少なくとも1つの点の前記強度を平均するステップ、
をさらに含む、請求項
1に記載の、コンピュータによって実施される方法。
【請求項13】
前記スペックルパターン内の複数の隣接する点の強度を計算することによって、前記少なくとも1つの点の前記強度を平均するステップ、
をさらに含む、請求項
1に記載の、コンピュータによって実施される方法。
【請求項14】
前記シーンが車両の車室である、請求項1に記載の、コンピュータによって実施される方法。
【請求項15】
前記抽出された分類、前記深さデータ、および前記少なくとも1つの微小振動が分析されて、
車両乗員の総数、少なくとも1人の車両乗員の位置および動き、少なくとも1人の車両乗員の姿勢、少なくとも1人の車両乗員の頭部および身体部位の位置、少なくとも1人の車両乗員の行動、および、少なくとも1人の車両乗員に関連付けられる少なくとも1つの品目の存在、のうちの少なくとも1つ、
を導く、請求項
14に記載の、コンピュータによって実施される方法。
【請求項16】
統合撮像装置であって、
事前定義される構造化光パターンをシーンに投射するようになされている光源であって、前記事前定義される構造化光パターンが、複数の拡散光要素を含む、前記光源と、
前記シーンの複数の画像を撮影するようになされている撮像センサと、
を備えており、
前記統合撮像装置は、
前記複数の画像の少なくとも1枚を視覚的に分析することによって、前記シーン内に存在する少なくとも1つの対象物を分類するステップと、
前記少なくとも1つの対象物から反射された前記複数の拡散光要素のうちの少なくとも1つの位置を分析することによって、前記少なくとも1つの対象物の深さデータを抽出するステップと、
前記複数の画像の少なくとも何枚かの連続する画像において、前記複数の反射された拡散光要素のうちの少なくとも1つのスペックルパターンの変化を分析することによって、前記少なくとも1つの対象物の少なくとも1つの微小振動を識別するステップと、
前記撮像センサによって撮影された画像の前記分析から導かれ、したがって共通の座標系に本質的に記録される、前記分類、前記深さデータ、および前記少なくとも1つの微小振動のデータ、を出力するステップと、
を実行し、
しきい値と比較される、前記少なくとも何枚かの連続する画像における前記少なくとも1つの反射された拡散光要素の強度の経時的な標準偏差、を分析することによって、前記スペックルパターンの前記変化が識別される、
統合撮像装置。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、米国仮特許出願第62/531,417号「Systems and Methods for Acquiring Information from an Environment(環境から情報を取得するシステムおよび方法)」(出願日2017年7月12日)の優先権の利益を主張し、この文書の内容はその全体が参照により本明細書に組み込まれている。
【0002】
本出願は、特許文献1(国際出願第PCT/IL2015/051255号(公開番号:WO2016/103271号)「System and Method for Detecting Surface Vibrations(表面振動を検出するシステムおよび方法)」(出願日:2015年12月27日))を参照し、この文書の内容はその全体が参照により本明細書に組み込まれている。
【0003】
本発明は、そのいくつかの実施形態においては、統合撮像装置によって撮影された画像を分析してシーン内の対象物を検出することに関し、より具体的には、以下に限定されないが、構造化光パターンを投射する統合撮像装置によって撮影された画像を分析して、シーン内の対象物を、その動きおよび微小振動を含めて検出することに関する。
【背景技術】
【0004】
対象物を自動的に検出する方法およびシステムには、ますます関心が高まっており、なぜならこれらは、商業用途、エンターテインメント用途から、自動車および/または自立走行車ならびに多数のさらなる用途に至る、複数のシステム、サービス、および/またはアプリケーションに適用できるためである。
【0005】
動きおよび/または微小振動の検出を含む対象物および人の検出は、極めて挑戦的な課題であり、したがって、シーン内に存在する対象物を正確に検出および分類するツール、アルゴリズム、および方法を開発およびデプロイするための数多くの研究に、多くの利害関係者によって投資されている。
【先行技術文献】
【特許文献】
【0006】
【発明の概要】
【課題を解決するための手段】
【0007】
本発明の第1の態様によれば、統合撮像装置を使用して、対象物を検出し、対象物の深さ情報を抽出し、対象物の微小振動を識別する、コンピュータによって実施される方法であって、1つまたは複数のプロセッサを使用して、
- 複数の拡散光要素から構成される事前定義される構造化光パターンをシーンに投射するようになされている光源、を備えた統合撮像装置の撮像センサによって撮影された、シーンの複数の画像、を受信するステップと、
- 複数の画像の1枚または複数を視覚的に分析することによって、シーン内に存在する1つまたは複数の対象物を分類するステップと、
- 1つまたは複数の対象物から反射された複数の拡散光要素のうちの1つまたは複数の位置を分析することによって、1つまたは複数の対象物の深さデータを抽出するステップと、
- 複数の画像の少なくとも何枚かの連続する画像において、複数の反射された拡散光要素のうちの1つまたは複数のスペックルパターンの変化を分析することによって、1つまたは複数の対象物の1つまたは複数の微小振動を識別するステップと、
- 撮像センサによって撮影された画像の分析から導かれ、したがって共通の座標系に本質的に(inherently)記録される、分類、深さデータ、および1つまたは複数の微小振動のデータ、を出力するステップと、
を含む、方法、を提供する。
【0008】
本発明の第2の態様によれば、統合撮像装置であって、
事前定義される構造化光パターンをシーンに投射するようになされている光源であって、事前定義される構造化光パターンが、複数の拡散光要素を含む、光源と、
シーンの複数の画像を撮影するようになされている撮像センサと、
を備えている、統合撮像装置、を提供する。
【0009】
複数の画像の少なくとも何枚かを分析して、シーン内に存在する1つまたは複数の対象物を分類する、(1つまたは複数の)対象物の深さデータを抽出する、および、(1つまたは複数の)対象物の1つまたは複数の微小振動を識別する。これらの分類、深さデータ、および(1つまたは複数の)微小振動は、少なくとも何枚かの画像を同時に分析することから導かれ、したがって共通の座標系に本質的に記録される。
【0010】
視覚的データ、深さデータ、および微小振動データは、すべて、撮影された同じ画像から導かれるため、これらのデータはいずれも共通の座標系に本質的に記録される。したがって、さまざまなモダリティ(modality)から抽出されるデータを、抽出されたデータの空間座標に従って、シーン内に存在するそれぞれの(1つまたは複数の)対象物(例えば、人、品目、背景、および/または同種のもの)に容易に関係付けることができる。さらに、シーン内に存在する1つまたは複数の対象物の、さまざまなモダリティから抽出されたデータを、抽出されたデータの空間座標に従って一緒に融合することができる。
【0011】
第1の態様および/または第2の態様のさらなる実施形態においては、光源および撮像センサは、可視光、赤外光、および紫外光からなる群のメンバーである共通の光の波長スペクトルにおいて動作する。広い光スペクトルにおいて動作することにより、さまざまな照明条件(例えば日中、夜間、および/または同種のもの)を必要としうる複数のシステムおよび/またはアプリケーションに、本統合撮像装置を容易に組み込む、適合させる、および/または、そのようなシステム/アプリケーションにおいて採用する、ことが可能である。
【0012】
第1の態様および/または第2の態様のさらなる実施形態においては、撮像センサによって撮影された画像の分析から導かれる分類、深さデータ、および1つまたは複数の微小振動は、時刻同期されている。これらの分類、動き、および微小振動データは、(本統合撮像装置の)同じ撮像センサによって撮影された共通の画像の分析から導かれるため、これらのデータも本質的に時刻(時間的に)同期されており、したがって、導かれたデータとシーン内の(1つまたは複数の)対象物との関係付けがさらに単純化される。
【0013】
第1の態様および/または第2の態様のさらなる実施形態においては、複数の拡散光要素それぞれは、例えば、ドット、スポット、線、および/またはこれらの組合せ、である。シーンの物理的パラメータに従って、照明条件に従って、分析要件に従って、および/または同種のものに従って、さまざまなタイプの拡散光要素の1つまたは複数を含むように構造化光パターンを投射するように、本統合撮像装置を構成する、および/または制御することができる。
【0014】
第1の態様および/または第2の態様のオプションの実施形態においては、光源は、反射された構造化光パターンが複数の画像のサブセットに写されるように、構造化光パターンを周期的に発するようにさらになされている。反射された構造化光パターンを写していない撮影された画像は、より正確な視覚的分析を支援することができ、なぜならこれらの画像には、反射された構造化光パターンによって引き起こされるアーチファクトおよび/または視覚的影響が存在しないためである。
【0015】
第1の態様および/または第2の態様のさらなる実施形態においては、視覚的な分析は、(1つまたは複数の)対象物を分類するための1つまたは複数の訓練された機械学習モデルを使用するステップ、を含む。1つまたは複数の訓練された機械学習モデルを使用することによって、新しいシナリオ、新しい対象物、および/または同種のものに適合するように、効率的、自動的、かつ絶え間ない学習・進化を可能にすることができ、したがって検出および分類の信頼性および精度が著しく向上する。
【0016】
第1の態様および/または第2の態様のさらなる実施形態においては、機械学習モデルの1つまたは複数は、(1枚または複数の)画像に写されている視覚的データに基づいて(1つまたは複数の)対象物を分類するように、訓練される。視覚的データは、(1つまたは複数の)対象物の視覚的データと、反射された拡散光要素の1つまたは複数とを含む。分類の精度、信頼性、および/または同種のものを向上させる目的で、撮影された(1枚または複数の)画像に写されている(1つまたは複数の)対象物の視覚的特性を分析することに加えて、反射された構造化光パターンの視覚的特性に従って、(1つまたは複数の)対象物、その(1つまたは複数の)属性、および/または動きを検出および分類するように、(1つまたは複数の)機械学習モデルを訓練することができる。
【0017】
第1の態様および/または第2の態様のさらなる実施形態においては、(1つまたは複数の)機械学習モデルの1つまたは複数は、抽出された深さデータに基づいて生成される1つまたは複数の深さマップと組み合わされる、(1枚または複数の)画像に写されている(1つまたは複数の)対象物の視覚的データに従って、(1つまたは複数の)対象物を分類するように、訓練される。(1つまたは複数の)機械学習モデルは、両方のモダリティからのデータ(すなわち撮影された画像における視覚的データと、深さデータに基づいて作成された深さマップ)を受け取り、(1つまたは複数の)対象物、その(1つまたは複数の)属性、および/または動きを検出および分類するように、訓練することができる。
【0018】
第1の態様および/または第2の態様のさらなる実施形態においては、スペックルパターンの変化は、しきい値と比較される、少なくとも何枚かの連続する画像における反射された拡散光要素の1つまたは複数の強度の経時的な標準偏差(temporal standard deviation)、を分析することによって、識別される。スペックルパターンの変化を、経時的な標準偏差に基づいて測定することにより、検出される変化の精度および/または信頼性を著しく向上させることができ、なぜなら経時的に(すなわち連続する画像において)測定される標準偏差を、しきい値と単純に比較して変化を識別することができるためである。
【0019】
第1の態様および/または第2の態様のオプションの実施形態においては、経時的な標準偏差は、それぞれの(1つまたは複数の)対象物の表面から反射される複数の反射された拡散光要素の経時的な標準偏差を計算することによって、平均される。複数のスペックルパターンにわたる経時的な標準偏差を平均することによって、スペックルパターンの強度の信号対雑音比(SNR:Signal to Noise Ratio)が著しく高まり、スペックルパターンの強度レベルに影響しうる雑音に対する耐性(immunity to noise)が改善されうる。
【0020】
第1の態様および/または第2の態様のさらなる実施形態においては、スペックルパターンの変化は、スペックルパターンにスペックルパターン変換(speckle pattern translation)を適用して、スペックルパターン内の1つまたは複数の隣接する点に対する、スペックルパターン内の1つまたは複数の点の角速度を求めることによって、識別される。角速度は、(1つまたは複数の)微小振動を示す。スペックルパターン変換を適用することは、スペックルパターンの変化を識別するための有効かつ効率的な方法でありうる。
【0021】
第1の態様および/または第2の態様のオプションの実施形態においては、スペックルパターン内の点のうちの1つまたは複数の強度は、複数の画像のうちの複数の連続する画像内の1つまたは複数の点に対して時間スライディングウィンドウ(temporal sliding window)を適用することによって、平均される。スライディングウィンドウは、雑音の影響を大幅に低減し可能であれば排除する目的で、経時的な(1つまたは複数の)スペックルパターンの点の強度を時間的に平均して強度を平滑化するための効率的かつ有効な方法でありうる。
【0022】
第1の態様および/または第2の態様のオプションの実施形態においては、スペックルパターン内の点のうちの1つまたは複数の強度は、それぞれの(1つまたは複数の)点の強度に無限応答フィルタ(infinite response filter)を適用し、このフィルタの結果を、複数の画像のうちの複数の連続する画像において測定された強度に基づいて計算される平均強度で除算することによって、平均される。無限応答フィルタは、雑音の影響を大幅に低減し可能であれば排除する目的で、経時的な(1つまたは複数の)スペックルパターンの点の強度を時間的に平均して強度を平滑化するための効率的かつ有効な方法でありうる。
【0023】
第1の態様および/または第2の態様のオプションの実施形態においては、スペックルパターン内の点のうちの1つまたは複数の強度は、スペックルパターン内の複数の隣接する点の強度を計算することによって、平均される。スペックルパターン内の複数の点の強度を空間的に平均することにより、点の1つまたは複数に存在しうる雑音の影響が大幅に低減し可能であれば排除されうる。
【0024】
第1の態様および/または第2の態様のさらなる実施形態においては、シーンは、車両の車室である。車室に本統合撮像装置を配置することは、撮影された画像を分析して、(1つまたは複数の)属性、動き、および微小振動を含む、車両の乗員(例:運転者、(1人または複数の)同乗者、(1匹または複数の)ペットなど)および/または車室内に存在する他の品目、を検出および分類するために極めて有用である。
【0025】
第1の態様および/または第2の態様のさらなる実施形態においては、抽出された分類、深さデータ、および(1つまたは複数の)微小振動が分析されて、車両乗員の総数、(1人または複数の)車両乗員の位置および動き、(1人または複数の)車両乗員の姿勢、(1人または複数の)車両乗員の頭部および身体部位の位置、(1人または複数の)車両乗員の行動、(1人または複数の)車両乗員に関連する1つまたは複数の品目の存在、および/または同種のもの、を導く。分類、動き、および/または微小振動データを使用することは、車両に関連する複数のアプリケーションにおいて極めて有利でありうる。
【0026】
当業者には、図面および以下の詳細な説明を検討することによって、本開示の別のシステム、方法、特徴、および利点が明らかである、または明らかになるであろう。このようなさらなるシステム、方法、特徴、および利点のすべては、本説明に含まれ、本開示の範囲内であり、かつ添付のクレームによって保護されていることが想定されている。
【0027】
本明細書において使用されているすべての専門用語および/または科学用語は、特に定義されていない限り、本発明が関連する技術分野における通常の技術を有する者によって一般的に理解されている意味と同じ意味を有する。本発明の実施形態を実施または試験するとき、本明細書に記載されている方法および材料に類似するかまたは同等の方法および材料を使用できるが、例示的な方法および/または材料が以下に記載してある。矛盾が生じる場合、定義を含めて本特許明細書に従うものとする。さらには、これらの材料、方法、および例は、説明のみを目的としており、必ずしも本発明を制限するようには意図されていない。
【0028】
本発明の実施形態の方法および/またはシステムの実施においては、選択されたタスクを、手操作で、または自動的に、またはこれらの組合せによって、実行または完了することができる。さらには、本発明の方法および/またはシステムの実施形態の実際の機器および装置に応じて、いくつかの選択されたタスクを、ハードウェア、ソフトウェア、またはファームウェアによって、あるいはオペレーティングシステムを使用するこれらの組合せによって、実施することができる。
【0029】
例えば、本発明の実施形態による選択されたタスクを実行するためのハードウェアは、チップまたは回路として実施することができる。ソフトウェアとしては、本発明の実施形態による選択されたタスクを、任意の適切なオペレーティングシステムを使用するコンピュータによって実行される複数のソフトウェア命令として実施することができる。本発明の例示的な実施形態においては、本明細書に記載されている方法および/またはシステムの例示的な実施形態による1つまたは複数のタスクは、データプロセッサ(複数の命令を実行するコンピューティングプラットフォームなど)によって実行される。オプションとして、データプロセッサは、命令および/またはデータを記憶する揮発性メモリ、および/または、命令および/またはデータを記憶する不揮発性記憶装置(例えば磁気ハードディスクおよび/またはリムーバルメディア)、を含む。オプションとして、ネットワーク接続も提供される。オプションとして、ディスプレイおよび/またはユーザ入力装置(キーボードやマウスなど)も提供される。
【0030】
本明細書には、本発明のいくつかの実施形態を、添付の図面を参照しながら一例としてのみ説明してある。以下では図面を詳細に参照するが、図示されている細部は一例であり、本発明の実施形態を実例を通じて説明することを目的としていることを強調しておく。これに関して、図面を参照しながらの説明によって、当業者には、本発明の実施形態をどのように実施することができるかが明らかになる。
【図面の簡単な説明】
【0031】
【
図1】本発明のいくつかの実施形態に係る、統合撮像装置によって撮影された、シーンを写している画像を分析して、シーン内の対象物の画像データ、深さデータ、微小振動データを抽出する例示的なプロセス、の流れ図である。
【
図2】本発明のいくつかの実施形態に係る、シーンの画像を撮影して分析し、シーン内の対象物の画像データ、深さデータ、および微小振動データを抽出する例示的な統合撮像装置、の概略図である。
【
図3】本発明のいくつかの実施形態に係る、統合撮像装置によって撮影された画像を視覚的に分析してシーン内の対象物を検出および分類する目的に使用される例示的なニューラルネットワーク、の概略図である。
【
図4】本発明のいくつかの実施形態に係る、深さデータを抽出するために例示的な統合撮像装置によって監視されるシーンの概略図である。
【
図5】本発明のいくつかの実施形態に係る、統合撮像装置によって撮影された画像と、画像から抽出される深さデータとを分析して、シーン内の対象物を検出および分類する目的に使用される例示的なニューラルネットワーク、の概略図である。
【発明を実施するための形態】
【0032】
本発明は、そのいくつかの実施形態においては、統合撮像装置によって撮影された画像を分析してシーン内の対象物を検出することに関し、より具体的には、以下に限定されないが、構造化光パターンを投射する統合撮像装置によって撮影された画像を分析して、シーン内の対象物をその動きおよび微小振動を含めて検出することに関する。
【0033】
本発明のいくつかの実施形態によれば、統合撮像装置によって撮影された画像から抽出される視覚的データ、深さデータ、および(1つまたは複数の)スペックルパターンを分析することによって、シーン内に存在する1つまたは複数の対象物を、対象物および/またはその(1つまたは複数の)一部の動きおよび微小振動(小さいわずかな動き)を含めて検出および分類する装置、方法、およびシステム、を提供する。
【0034】
本統合撮像装置は、光源、特にコヒーレント光源(例えば、複数の拡散光要素(例えば、ドット、スポット、線、形状、および/またはこれらの組合せ)を含む、シーンに投射される構造化光パターン、を発するように構成されているレーザおよび/またはその他)を含む。本統合撮像装置は、シーンの複数の画像を撮影するようになされている撮像センサ(例えば、カメラ、赤外線カメラ、および/または同種のもの)をさらに含む。したがって、撮像センサによって撮影された少なくとも何枚かの画像は、シーン内に存在する(1つまたは複数の)対象物から反射された1つまたは複数の拡散光要素を含む、構造化光パターンの反射を写している。
【0035】
シーン内に存在する1つまたは複数の対象物(例えば、人、品目、および/または同種のもの)を検出および分類する目的で、1つまたは複数の訓練された機械学習モデルおよび/またはアルゴリズム(例えば、ニューラルネットワーク、サポートベクターマシン(SVM:Support Vector Machine)、決定木学習アルゴリズム、K近傍アルゴリズム、および/または同種のもの)を、撮影された画像に適用することができる。撮影された画像をさらに分析して、検出された(1つまたは複数の)対象物の1つまたは複数の属性(例えば、動き、ジェスチャ、表情、身体の位置、四肢の位置、大きさ、形状、および/または同種のもの)を識別することができる。
【0036】
オプションとして、(1枚または複数の)画像に写されている視覚的データの分類に基づき、およびオプションとして、反射された構造化光パターンの分類に従って、対象物を検出および分類することができるように、(1つまたは複数の)対象物および/またはそれらの(1つまたは複数の)一部の深さおよび距離を示す反射された構造化光パターンを写している訓練画像を備えた訓練データセットを使用して、(1つまたは複数の)機械学習モデルおよび/または(1つまたは複数の)アルゴリズムを構築して訓練することができる。訓練された(1つまたは複数の)機械学習モデルおよび/または(1つまたは複数の)アルゴリズムを、撮影された画像の1枚または複数に適用して、(1つまたは複数の)対象物の検出および分類を改善することができる。
【0037】
撮影された画像の1枚または複数を分析して、シーンの深さデータを抽出することができ、例えば、(1つまたは複数の)対象物から反射された拡散光要素の位置を分析して、それら(1つまたは複数の)対象物に関連する深さデータを抽出することができる。深さデータは、反射された拡散光要素の三角法(triangulation)に基づいて抽出することができる。これに加えて、および/または、これに代えて、撮影された画像内のピクセルの位置にそれぞれの距離(深さ)値を関連付けてデータセット(例えば、ルックアップテーブル、リスト、データベース、および/または同種のもの)に格納する較正プロセスに基づいて、深さデータを抽出することができる。抽出された深さデータに基づいて、シーンの1つまたは複数の深さマップを生成することができる。
【0038】
シーン内に存在する(1つまたは複数の)対象物および/またはそれらの識別された(1つまたは複数の)属性の検出および分類を改善するため、一般には撮影された画像と併せて(1つまたは複数の)深さマップに、(1つまたは複数の)機械学習モデルおよび/または(1つまたは複数の)アルゴリズムをさらに適用することができる。
【0039】
さらには、撮影された画像の少なくとも何枚かを分析して、(1つまたは複数の)対象物の微小振動を識別することができる。微小振動は、(1つまたは複数の)対象物および/または(1つまたは複数の)一部分の、(例えばマイクロラジアンのオーダーの)極めてわずかな、小さい、および/または限られた動き(例えば、呼吸、目の動き、まぶたの動き、四肢のわずかな動き、頭部のわずかな動き、および/または同種のもの)であることがあり、したがって深さデータを分析することによって検出できないことがある。(1つまたは複数の)対象物から反射された拡散された光パターンのうちの1つまたは複数のスペックルパターンを分析することによって、(1つまたは複数の)微小振動を検出することができる。特に、わずかな微小振動を示しうる、(1つまたは複数の)スペックルパターンの変化を分析する。
【0040】
シーン内の(1つまたは複数の)対象物に関連する複数の異なるモダリティ(すなわち視覚的データ、深さデータ、およびスペックルパターン)は、すべて、本統合撮像装置に組み込まれている同じ撮像センサによって撮影された同じ画像から抽出される。したがって、視覚的データの分析および/または深さデータの分析に基づいて検出される(1つまたは複数の)対象物、深さデータの分析に基づいて検出される動き、および(1つまたは複数の)スペックルパターンの分析に基づいて検出される微小振動は、共通の座標系に本質的に記録され、したがって本質的に空間的に位置が合っている。さらに、(1つまたは複数の)対象物の分類、動き、および微小振動データは、(本統合撮像装置の)同じ撮像センサによって撮影された共通の画像の分析から導かれるため、これらは本質的にさらに時刻(時間的に)同期されうる。
【0041】
本発明のいくつかの実施形態によれば、本統合撮像装置は、小さい、および/または限られた空間(例えば、車室および/またはその他など)にデプロイされる(例えば、設置される、取り付けられる、組み込まれる、および/または埋め込まれる、など)。撮像センサによって撮影された画像を分析して、車両の1人または複数の乗員(すなわち運転者、同乗者、ペット)を、それらの属性、動き、および微小振動を含めて検出および分類することができる。撮影された画像をさらに分析して、車室内に存在する1つまたは複数の物体(例えば、座席、ハンドレスト、窓、ドア、車室内の品目(例:チャイルドシート、ショッピングバッグ、ブリーフケースなど)、および/または同種のもの)を検出および分類することができる。
【0042】
本統合撮像装置によって撮影された画像を分析することによって、(1つまたは複数の)対象物、それらの属性、およびそれぞれの微小振動を検出することは、シーン内の対象物を検出する現在の既存の方法およびシステムと比較して、著しい利点および恩恵を提供することができる。
【0043】
第一に、複数の異なるモダリティから抽出されるデータ(すなわち視覚的データ、深さデータ、および(1つまたは複数の)スペックルパターン)を使用して、(1つまたは複数の)対象物、それらの(1つまたは複数の)属性、および/またはそれらの関連する微小振動を検出することにより、一般には1つのモダリティに基づく検出および/または分類をベースとする既存の方法と比較して、これらの対象物の分類の精度を著しく向上させることができる。
【0044】
さらに、訓練された(1つまたは複数の)機械学習モデルおよび/または(1つまたは複数の)アルゴリズムを使用することにより、新しいシナリオ、新しい対象物、および/または同種のものに適合するように、自動的かつ絶え間ない進化を支援することができ、したがって、検出および分類の信頼性および精度が著しく向上する。特に、(1つまたは複数の)機械学習モデルおよび/または(1つまたは複数の)アルゴリズムは、新しいシナリオ用に自身を更新するための絶え間ない大きなメンテナンスを必要とするルールベースのアルゴリズムを採用する既存の方法より、優れている。
【0045】
さらには、視覚的データ、深さデータ、および微小振動データは、すべて、撮影された同じ画像から導かれるため、これらはいずれも共通の座標系に本質的に記録される。したがって、さまざまなモダリティから抽出されたデータを、抽出されたデータの空間座標に従って、シーン内に存在するそれぞれの(1つまたは複数の)対象物に容易に関係付けることができる。さらに、シーン内に存在する1つまたは複数の対象物の、さまざまなモダリティから抽出されたデータを、抽出されたデータの空間座標に従って一緒に融合することができる。これに加えて、(1つまたは複数の)対象物の分類、動き、および微小振動データは、(統合撮像装置の)同じ撮像センサによって撮影された共通の画像の分析から導かれるため、これらは本質的にさらに時刻(時間的に)同期されうる。このことは、視覚的データ、深さデータ、および/または微小振動データのそれぞれを撮影するために別々の撮影装置および/またはセンサを使用しうる既存の方法と比較して、大きな利点でありうる。別々の撮影装置では、共通の座標系に記録するための計算が複雑であり、その精度も著しく低いことがある。
【0046】
また、光源および撮像センサが同じ統合装置に組み込まれているため、光源および撮像センサを、空間的かつ時間的に容易に較正することができる。さらに、1つの統合撮像装置に光源および撮像センサを組み込み、この装置を使用して、すべてのモダリティのデータ(すなわち視覚的データ、深さデータ、およびスペックルパターンデータ)を抽出し、(1つまたは複数の)対象物、それらの(1つまたは複数の)属性、それらの動き、およびそれらの微小振動を分類することによって、システムのコスト、大きさ、および/またはデプロイメントの複雑さを、大幅に低減することができる。
【0047】
本統合撮像装置を車室に配置し、撮影された画像を分析して、車両乗員および車室内に存在する他の対象物を検出および分類することは、複数の用途(例えば、運転者の監視、同乗者の安全性、置き忘れられた幼児(またはペット)の監視、同乗者の快適性、インフォテインメント、車両の安全性(侵入者の警報)、および/または同種のもの)に有用でありうる。
【0048】
本発明の少なくとも一実施形態を詳しく説明する前に、本発明は、その適用において、以下の説明に記載されている、および/または、図面もしくは実施例またはその両方に説明されている、構成要素の構造および配置および/または方法の細部に、必ずしも限定されないことを理解されたい。本発明は、別の実施形態が可能である、またはさまざまな方法で実施または実行することが可能である。
【0049】
当業者によって理解されるように、本発明の態様は、システム、方法、またはコンピュータプログラム製品として実施することができる。したがって、本発明の態様は、完全にハードウェアの実施形態、完全にソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)、またはソフトウェアの側面とハードウェアの側面を組み合わせた実施形態、の形をとることができ、これらはいずれも本明細書においては、一般に「回路」、「モジュール」、または「システム」と称することがある。さらに、本発明の態様は、コンピュータ読み取り可能なプログラムコードを実装した1つまたは複数のコンピュータ可読媒体に実施されたコンピュータプログラム製品の形をとることができる。
【0050】
1種類または複数種類のコンピュータ可読媒体の任意の組合せを利用することができる。コンピュータ読み取り可能な記憶媒体は、命令実行装置によって使用するための命令を保持および記憶することのできる有形装置とすることができる。コンピュータ可読媒体は、コンピュータ読み取り可能な信号媒体またはコンピュータ読み取り可能な記憶媒体とすることができる。コンピュータ読み取り可能な記憶媒体は、例えば、以下に限定されないが、電子式、磁気式、光学式、電磁式、赤外線式、または半導体の、システム、装置、またはデバイス、またはこれらの任意の適切な組合せ、とすることができる。コンピュータ読み取り可能な記憶媒体のさらに具体的な例(すべてを網羅していないリスト)としては、以下、すなわち、1本または複数本のワイヤを有する電気接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、またはこれらの任意の適切な組合せ、が挙げられる。本文書の文脈においては、コンピュータ読み取り可能な記憶媒体は、命令を実行するシステム、装置、またはデバイスによって使用するためのプログラムを、またはこれらのシステム、装置、またはデバイスに関連して使用するためのプログラムを、含むまたは記憶することのできる任意の有形媒体とすることができる。
【0051】
コンピュータ読み取り可能な信号媒体としては、コンピュータ読み取り可能なプログラムコードが、例えばベースバンドにおいて、または搬送波の一部として実施されている、伝搬されるデータ信号、が挙げられる。このような伝搬信号は、さまざまな形(以下に限定されないが、電磁気、光、またはこれらの任意の適切な組合せを含む)のいずれかをとることができる。コンピュータ読み取り可能な信号媒体は、コンピュータ読み取り可能な記憶媒体ではなく、かつ、命令を実行するシステム、装置、またはデバイスによって、またはこれらのシステム、装置、またはデバイスに関連して使用するためのプログラムを、伝える、伝搬させる、または運ぶことのできる、任意のコンピュータ可読媒体、とすることができる。
【0052】
コンピュータ可読媒体に実施されているコンピュータ読み取り可能なプログラム命令を含むコンピュータプログラムコードは、任意の適切な媒体(以下に限定されないが、ワイヤレス、有線、光ファイバケーブル、無線周波数など、またはこれらの任意の適切な組合せを含む)を使用して、送信することができる。
【0053】
本発明の態様の動作を実行するためのプログラムコードは、1種類または複数種類のプログラミング言語(対象物指向プログラミング言語(Java(登録商標)、Smalltalk(登録商標)、C++など)および従来の手続き型プログラミング言語(「C」プログラミング言語または類似するプログラミング言語など)を含む)の任意の組合せにおいて書かれていてよい。
【0054】
プログラムコードは、独立したソフトウェアパッケージとして、その全体を使用者のコンピュータ上で実行する、またはその一部を使用者のコンピュータ上で実行する、または一部を使用者のコンピュータ上で実行しかつ一部を遠隔のコンピュータ上で実行する、または全体を遠隔のコンピュータまたはサーバ上で実行することができる。後者のシナリオでは、遠隔のコンピュータは、任意のタイプのネットワーク(ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む)を通じて使用者のコンピュータに接続することができる、または、(例えばインターネットサービスプロバイダを使用してインターネットを通じて)外部のコンピュータへの接続を形成することができる。プログラムコードは、コンピュータ読み取り可能な記憶媒体からそれぞれの計算装置/処理装置にダウンロードする、またはネットワーク(例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、および/または無線ネットワーク)を介して外部のコンピュータまたは外部の記憶装置にダウンロードすることができる。
【0055】
本明細書では、本発明の実施形態に係る方法、装置(システム)、およびコンピュータプログラム製品の流れ図および/またはブロック図を参照しながら、本発明の態様を説明してある。流れ図および/またはブロック図の各ブロック、および、流れ図および/またはブロック図におけるブロックの組合せを、コンピュータ読み取り可能なプログラム命令によって実施できることが理解されるであろう。
【0056】
図における流れ図およびブロック図は、本発明のさまざまな実施形態に係るシステム、方法、およびコンピュータプログラム製品の可能な実装形態のアーキテクチャ、機能性、および動作を示している。これに関して、流れ図またはブロック図における各ブロックは、指定された(1つまたは複数の)論理機能を実施するための1つまたは複数の実行可能命令を含むモジュール、セグメント、または命令の一部を表しうる。いくつかの代替実装形態においては、ブロックに記載されている機能は、図面に記載されている以外の順序で実行してもよい。例えば、連続して示されている2つのブロックを、関与する機能に応じて、実際には、実質的に同時に実行する、あるいは場合によってはブロックを逆の順序で実行することができる。さらに、ブロック図および/または流れ図の各ブロックと、ブロック図および/または流れ図におけるブロックの組合せは、指定された機能または動作を実行する専用ハードウェアベースのシステムによって、または専用ハードウェアおよびコンピュータ命令の組合せを実行する専用ハードウェアベースのシステムによって、実施してもよいことに留意されたい。
【0057】
次に図面を参照し、
図1は、本発明のいくつかの実施形態に係る、統合撮像装置によって撮影された、シーンを写している画像を分析して、シーン内の対象物の視覚的データ、深さデータ、および微小振動データを抽出する例示的なプロセス、の流れ図を示している。例示的なプロセス100は、統合撮像装置によって撮影された画像を分析するために実行することができ、統合撮像装置は、構造化光パターンをシーン(特に、車室などの小さい、および/または限られた空間)に投射して、シーン内の1つまたは複数の対象物を、検出された対象物のうちの1つまたは複数の動きおよび微小振動を含めて識別するようになされている。
【0058】
本統合撮像装置は、構造化光パターンをシーンに投射する、組み込まれた光源、を備えている。複数の拡散光要素(例えば、ドット、スポット、線、形状、および/またはこれらの組合せ)から構成されている投射された構造化光パターンを、シーン内に存在する1つまたは複数の対象物によって反射させて、本統合撮像装置に組み込まれている撮像センサによって撮影することができる。
【0059】
シーン内の(1つまたは複数の)対象物から反射されて戻る拡散光要素のうちの1つまたは複数の位置を分析することによって、シーン内に存在する対象物に関連する深さデータを抽出することができる。
【0060】
抽出された深さデータ(深さマップ)をオプションとして含む撮影された画像を、シーン内の(1つまたは複数の)対象物を検出および/または分類するように構築されて訓練された1つまたは複数の機械学習モデルおよび/またはアルゴリズムを使用して、分析することができる。(1つまたは複数の)機械学習モデルおよび/または(1つまたは複数の)アルゴリズムを画像および/または深さデータにさらに適用して、シーン内の(1つまたは複数の)対象物の動きを識別することができる。
【0061】
抽出された深さデータを分析することでは検出することのできない、例えばマイクロラジアンのオーダーの極めてわずかな動きおよび/または動作によって表されうる微小振動は、シーン内の(1つまたは複数の)対象物から反射されて戻る拡散光要素(具体的には、反射された拡散光要素のスペックルパターン)の1つまたは複数を分析して、識別することができる。
【0062】
シーン内の(1つまたは複数の)対象物に関連する複数の異なるモダリティ(すなわち視覚的データ、深さデータ、およびスペックルパターン)は、いずれも、構造化光パターンを投射する光源も組み込んでいる本統合撮像装置に組み込まれている同じ撮像センサによって撮影された同じ画像から抽出される。したがって、視覚的データの分析および/または深さデータの分析に基づいて検出される(1つまたは複数の)対象物と、深さデータの分析に基づいて検出される動きと、(1つまたは複数の)スペックルパターンの分析に基づいて検出される微小振動は、共通の座標系に本質的に記録され、したがって本質的に空間的に位置が合っている。この本質的な記録の理由で、シーン内に存在する1つまたは複数の対象物の、さまざまなモダリティから抽出されたデータを、抽出されたデータの空間座標に従って容易に関係付ける、および/または互いに融合することができる。さらに、(1つまたは複数の)対象物の分類、動き、および微小振動データは、(本統合撮像装置の)同じ撮像センサによって撮影された共通の画像の分析から導かれるため、これらは本質的にさらに時刻(時間的に)同期されうる。
【0063】
さらに
図2を参照し、
図2は、本発明のいくつかの実施形態に係る、シーンの知覚的データを撮影して分析し、シーン内の対象物の視覚的データ、深さデータ、および微小振動データを抽出する例示的な統合撮像装置、の概略図である。例示的な撮像システム200は、シーン220内に存在する(1つまたは複数の)対象物を検出および分類する目的でシーン220を監視するようにデプロイされている統合撮像装置202および処理ユニット204を含むことができる。
【0064】
本発明のいくつかの実施形態によれば、システム200は、車両に(具体的には車両の車室に)設置する、取り付ける、組み込む、および/または埋め込むことができ、したがってシーン220は車室内部であり、車室内に存在する(1つまたは複数の)対象物は、例えば、1人または複数の車両乗員(例:運転者、同乗者、ペットなど)、車室に関連付けられる1つまたは複数の対象物(例:座席、ドア、窓、ヘッドレスト、アームレストなど)、車両乗員の1人または複数に関連付けられる品目(例:チャイルドシート、ペットケージ、ブリーフケース、おもちゃなど)、および/または同種のもの、を含むことができる。
【0065】
オプションとして、統合撮像装置202および処理ユニット204は、1つの装置に一緒に統合されている。
【0066】
統合撮像装置202は、例えば1つまたは複数の光スペクトル(例えば、可視光(400~700nm)、近赤外線(700~1200nm)、近紫外線(100~400nm)、および/または同種のもの)において、構造化光パターンをシーン220に投射するようになされている光源210、を備えている。構造化光パターンは、複数の拡散光要素(例えば、ドット、光、および/またはこれらの組合せ)から構成することができる。特に、光源210は、構造化光パターンがコヒーレントな構造化光パターンであるようにコヒーレント光を発するように構成されているコヒーレント光源(例えばレーザおよび/またはその他)とすることができる。
【0067】
統合撮像装置202は、シーン220の画像を撮影するための撮像センサ212(例えば、カメラ、赤外線カメラ、および/または同種のもの)を備えている。撮像センサ212は、シーン220内に存在する対象物から反射された構造化光パターンの拡散光要素の反射を撮影するようにさらになされている。したがって、反射された構造化光パターンを撮影する目的で、撮像センサ212は、光源210によって適用される(1つまたは複数の)光スペクトルにおいて動作するようにすることができる。
【0068】
撮像センサ212は、事前定義される既知の位置合わせパラメータに従って、光源210に対して空間的に位置合わせされている。撮像センサ212と光源210との間の空間的位置合わせを確保するために、較正手順を行うことができる。統合撮像装置202の前方の事前定義される位置における、既知の記録された位置特性を有する1つまたは複数の較正目標物を特定し、光源210を動作させて構造化光パターンを投射し、撮像センサ212によって撮影された(1枚または複数の)較正画像から抽出される深さデータに(既知の)距離をマッピングし、(1つまたは複数の)較正目標物を表現することによって、較正を行うことができる。較正は、統合撮像装置202の製造時に1回、および/または周期的に、および/または要求時に、行うことができる。
【0069】
統合撮像装置202は、処理ユニット204に接続するための1つまたは複数の有線および/または無線入力/出力(I/O)インタフェース(例えば、ネットワークインタフェース、無線ネットワークインタフェース、無線周波数(RF)チャネル、ユニバーサルシリアルバス(USB)インタフェース、シリアルインタフェース、および/または同種のもの)をさらに含むことができる。
【0070】
オプションとして、統合撮像装置202は、シーン220を照らすための光(例えば、可視光、赤外光、および/または同種のもの)を発する(全体を照らす)ようになされている1つまたは複数の照明光源、を備えている。(1つまたは複数の)照明光源は、コヒーレント光源ではなく、構造化光パターンの放出とは無関係である。
【0071】
処理ユニット204は、統合撮像装置202に接続するためのI/Oインタフェース230と、プロセス100などのプロセスを実行する(1つまたは複数の)プロセッサ232と、プログラムコードおよび/またはデータを記憶する記憶装置234と、を含むことができる。
【0072】
I/Oインタフェース230は、統合撮像装置202への接続性を統合システム200に提供する1つまたは複数の有線および/または無線インタフェース(例えば、ネットワークインタフェース、無線ネットワークインタフェース、無線周波数(RF)チャネル、ユニバーサルシリアルバス(USB)インタフェース、シリアルインタフェース、および/または同種のもの)を含むことができる。処理ユニット204は、I/Oインタフェース230を通じて、統合撮像装置202から知覚的データ(具体的には撮像センサ212によって撮影された画像)を受信することができる。さらに処理ユニット204は、I/Oインタフェース230を使用して、統合撮像装置202と通信して光源210の動作および/または撮像センサ212の動作を制御することができる。
【0073】
(1つまたは複数の)プロセッサ232(同種または異種)は、クラスタとして、および/または、1つまたは複数のマルチコアプロセッサとして、並列処理するように構成された1つまたは複数の処理ノード、を含むことができる。
【0074】
記憶装置234は、1つまたは複数の非一時的メモリデバイス、すなわち永続的な不揮発性デバイス(例えば、読み出し専用メモリ(ROM)、フラッシュアレイ、ハードディスクドライブ、ソリッドステートドライブ(SSD)、および/または同種のもの)を含むことができる。さらに記憶装置234は、1つまたは複数の揮発性デバイス(例えば、ランダムアクセスメモリ(RAM)デバイス、キャッシュメモリ、および/または同種のもの)を含むこともできる。
【0075】
(1つまたは複数の)プロセッサ232は、記憶装置234などの非一時的媒体に記憶されておりかつプロセッサ232などの1つまたは複数のプロセッサによって実行される複数のプログラム命令をそれぞれが備えている、1つまたは複数のソフトウェアモジュール(例えば、プロセス、スクリプト、アプリケーション、エージェント、ユーティリティ、ツール、および/または同種のもの)、を実行することができる。例えば、(1つまたは複数の)プロセッサ232はアナライザ240を実行してプロセス100を実行させ、シーン220内の(1つまたは複数の)対象物を、検出される(1つまたは複数の)対象物の動きおよび/または微小振動を含めて検出することができる。アナライザ240は、1つまたは複数のハードウェア要素をさらに利用することができ、これらのハードウェア要素は、例えば、プロセス100を実行する回路、コンポーネント、集積回路(IC)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、デジタル信号プロセッサ(DSP)、グラフィック処理装置(GPU)、および/または同種のもの、を含むことができる。
【0076】
102に示したように、プロセス100は、最初に、アナライザ240を用いて撮像センサ212によって撮影された、シーン220を写している複数の画像、を受け取る。アナライザ240が、光源210を動作させて構造化光パターンをシーン220に投射することができ、さらに撮像センサ212を動作させてシーン220の画像を撮影することができる。
【0077】
撮像センサ212は、光源210と同じ波長スペクトルにおいて動作するようになされている、および/または構成されているため、撮像センサ212によって撮影された画像の少なくとも何枚かは、シーン220内に存在する1つまたは複数の対象物によって反射された構造化光パターンを構成する拡散光要素のうちの少なくともいくつかの反射を含む。
【0078】
オプションとして、撮像センサ212によって撮影される画像の1枚または複数を含む画像のサブセットが、構造化光パターンの反射を写してないように、光源210は、構造化光パターンを周期的に発するように動作する。
【0079】
104に示したように、アナライザ240は、受信された画像の1枚または複数を視覚的に分析して、シーン220内に存在する1つまたは複数の対象物(例えば、人、品目、および/または同種のもの)を検出および分類する。アナライザ240は、シーン内の(1つまたは複数の)対象物を検出および/または分類するように訓練された1つまたは複数の機械学習モデルおよび/またはアルゴリズム(例えば、ニューラルネットワーク、サポートベクターマシン(SVM)、決定木学習アルゴリズム、K近傍アルゴリズム、および/または、この技術分野において公知の任意の他の機械学習アルゴリズム)を適用することができる。これら(1つまたは複数の)機械学習モデルおよび/または(1つまたは複数の)アルゴリズムは、検出された(1つまたは複数の)対象物の1つまたは複数の属性(例えば、動き、ジェスチャ、表情、身体の位置、四肢の位置、大きさ、形状、および/または同種のもの)を識別するように、さらに訓練することができる。
【0080】
(1つまたは複数の)機械学習モデルおよび/または(1つまたは複数の)アルゴリズムは、(1枚または複数の)画像に写されている視覚的データに従って対象物を検出および分類するように構築して訓練することができ、この場合に視覚的データは、(1つまたは複数の)対象物自体に関連しており、(1つまたは複数の)対象物から反射された構造化光パターンを含まない。反射された構造化光パターンによって引き起こされるアーチファクトおよび/または視覚的影響を防止するため、アナライザ240は、構造化光パターンを周期的に投射するように光源210を動作させることができる。光源210と撮像センサ212を時刻同期させることができるため、アナライザ240は、撮像センサによって撮影される1つおきのフレーム、2つおきのフレーム、4つおきのフレーム、および/または他の割合で、構造化光パターンを発するように光源210を動作させることができる。
【0081】
オプションとして、シーン220内に存在する(1つまたは複数の)対象物の検出および分類の精度を向上させる目的で、(1つまたは複数の)対象物から反射された構造化光パターンを含む(1枚または複数の)画像に写されている視覚的データに従って対象物を検出および分類するように、(1つまたは複数の)機械学習モデルおよび/または(1つまたは複数の)アルゴリズムを構築して訓練することができる。したがって、(1つまたは複数の)対象物の視覚的特性に従って、かつ、(1つまたは複数の)から反射されしたがって(1枚または複数の)画像に写されている光要素によって表現される深さデータの両方に従って、対象物および/またはそれらの(1つまたは複数の)属性を分類するように、(1つまたは複数の)機械学習モデルおよび/または(1つまたは複数の)アルゴリズムを訓練することができる。
【0082】
次に
図3を参照し、
図3は、本発明のいくつかの実施形態に係る、統合撮像装置によって撮影された画像を視覚的に分析してシーン内の対象物を検出および分類する目的に使用される例示的なニューラルネットワーク、の概略図である。例示的なニューラルネットワーク300(例えば畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)および/またはその他)を、アナライザ240などのアナライザによって適用して、シーン220などのシーン内の1つまたは複数の対象物およびオプションとして(1つまたは複数の)対象物の属性の1つまたは複数を検出および分類することができる。
【0083】
アナライザ240は、撮影された画像(反射された構造化光パターンを写している(1枚または複数の)画像、および/または、反射された構造化光パターンを写していない画像、を含みうる)の1枚または複数を視覚的に分析するために、ニューラルネットワーク300を適用することができる。この実施形態に基づくと、対象物の視覚的情報に従って、さらにオプションとして、(1つまたは複数の)対象物の深さ特性を表す反射された構造化光パターンに従って、対象物を検出および分類するように、(1つまたは複数の)機械学習モデルおよび/または(1つまたは複数の)アルゴリズムを訓練することができる。
【0084】
ニューラルネットワーク300は、撮影された(1枚または複数の)画像を受け取る入力層、第1の畳み込み層302、第1のプーリング(ダウンサンプリング)層304、第2の畳み込み層306、第2のプーリング層308、第3の畳み込み層310、第1の全結合層312、第2の全結合層314、SOFTMAX損失層316、推定された分類を出力する出力層、を含むことができる。分類は、一般には、検出された対象物がそれぞれのクラスである確率を示す確率スコアがそれぞれに関連付けられている1つまたは複数のクラスラベルを含むことができる。
【0085】
ニューラルネットワーク300は、シーン220などのシーン(例えば、1つまたは複数の対象物(例えば、車両乗員(例:運転者、同乗者、ペットなど)、車室の対象物、1人または複数の車両乗員に関連付けられる品目、および/または同種のもの)が存在している車両の車室、および/または同種のもの)を写している複数の訓練画像、を含む複数の訓練データセットを使用して訓練することができる。オプションとして、ニューラルネットワーク300は、複数の訓練画像(シーンの視覚的データに加えて、画像がシーン内の(1つまたは複数の)対象物から反射された構造化光パターンを写している)を含む複数の訓練データセット、を使用して訓練される。
【0086】
【0087】
106において示したように、アナライザ240は、シーン220内の1つまたは複数の対象物から反射された構造化光パターンの拡散光要素の1つまたは複数の位置を分析して、それら(1つまたは複数の)対象物に関連する深さデータを抽出し、オプションとして、シーン220の1つまたは複数の深さマップを作成する。アナライザ240は、反射された拡散光要素のうちの1つまたは複数の位置を識別するために、三角法に基づいて深さデータを抽出することができる。
【0088】
次に
図4を参照し、
図4は、本発明のいくつかの実施形態に係る、深さデータを抽出するために例示的な統合撮像装置によって監視されるシーンの概略図である。深さデータは、一般には、複数の拡散光要素を含む構造化光パターンの反射を分析することによって、抽出することができる。しかしながら簡潔さのため、
図4は、単純化された光源210(例えば、1つのドット(光要素)を含む構造化光パターンをシーン220などのシーンに投射する単一のレーザ光を発するように構成されているレーザ)を提示している。
【0089】
光源210は、光源210の出射面の垂直軸線に対する事前定義される角度αにおいて、単一のレーザ光を発する。光源210の出射面の中心と、撮像センサ212などの撮像センサの撮像面の中心との間のベースライン距離bは、オプションとして較正によって既知である。
【0090】
シーン220内に存在する1つまたは複数の対象物の第1の表面402および第2の表面404が、レーザ光を撮像センサ212の方に反射する。明らかに、第1の表面402は、第2の表面404と比較して、光源210の出射面により近い。
【0091】
光源210の発光面からの表面の距離に応じて、同じレーザドットが異なる角度βで撮像センサ212に反射され、したがって撮影された画像において異なる(1つまたは複数の)ピクセル位置に写される。例えば光のドットは、第1の表面402(より近い)からは、第2の表面404(より遠い)から光のドットが反射される反射角β2と比較して、より大きい角度β1で反射されうる。
【0092】
アナライザ240などのアナライザは、撮像センサ212によって撮影された(1枚または複数の)画像を分析して、光のドットが特定の表面から反射される(1つまたは複数の)角度βを計算することができる。次いでアナライザは、撮像センサ212の撮像面とその特定の表面との間の距離hを、次の等式1に従って計算することができる。
等式1:
【数1】
【0093】
撮像センサ212を光源210に対して位置合わせするために適用される較正プロセスを、(1つまたは複数の)較正目標対象物を用いて実施して、(1つまたは複数の)光要素をピクセルに正確にマッピングし、したがって角度βiを正確に計算し、したがって等式1を使用して(1つまたは複数の)表面の距離を正確に測定することができる。
【0094】
アナライザ240は、光源210によってシーン220に投射される、より複雑な構造化光パターンの拡散光要素それぞれに対しても、同じ計算を適用することができる。
【0095】
さらに、光源210によって投射された1つの光ドットが反射されうる位置のすべての距離は、エピポーラ線として表される線を構成する。したがってアナライザ240は、拡散光要素それぞれについて、エピポーラ線に対応する(を写している)ピクセルを分析することができる。(1枚または複数の)画像の分析範囲を、光要素に関連付けられるエピポーラ線の領域の分析に減らすことにより、撮影された(1枚または複数の)画像からアナライザが深さデータを抽出するために必要な計算資源(例:処理能力、記憶容量など)および/または時間を、大幅に低減することができる。
【0096】
これに加えて、および/またはこれに代えて、アナライザ240は、データセット(例えば、撮影された(1枚または複数の)画像内の各ピクセルとそれぞれの距離の間を関係付けるルックアップテーブル)を使用することができる。アナライザ240は、反射された光要素を検出したすべてのピクセルについて、ルックアップテーブルを検索して、関係付けられている距離を抽出することができる。ピクセルと距離との間の関係付けは、拡散光要素の各々に対して各ピクセルにそれぞれの距離が関連付けられる較正プロセスの一部として、行うことができる。
【0097】
【0098】
本発明のいくつかの実施形態によれば、アナライザ240は、抽出された深さデータ(具体的には、抽出された深さデータに基づいてシーン220に対して作成された深さマップ)に、機械学習モデルおよび/またはアルゴリズム(例えばニューラルネットワークおよび/またはその他)の1つまたは複数を適用することができる。さらに、シーン220内に存在する(1つまたは複数の)対象物の検出および分類を改善するため、アナライザ240は、撮影された画像の視覚的内容と、撮影された(1枚または複数の)画像から抽出された深さデータから導かれる深さマップの両方に、(1つまたは複数の)機械学習モデルおよび/または(1つまたは複数の)アルゴリズムを適用することができる。
【0099】
次に
図5を参照し、
図5は、本発明のいくつかの実施形態に係る、統合撮像装置によって撮影された画像と、画像から抽出される深さデータとを分析して、シーン内の対象物を検出および分類する目的に使用される例示的なニューラルネットワーク、の概略図である。例示的なニューラルネットワーク500(例えばCNNおよび/またはその他)は、2つのモダリティ(すなわち、撮像センサ212などの撮像センサによって撮影された(1枚または複数の)画像の視覚的内容と、撮影された(1枚または複数の)画像から抽出される深さデータ)を分析し、シーン220などのシーン内の1つまたは複数の対象物と、オプションとして(1つまたは複数の)対象物の属性の1つまたは複数を検出および分類する目的で、アナライザ240などのアナライザによって適用することができる。
【0100】
例示的なニューラルネットワーク500は、2本の予備的なブランチを含むことができ、一方は、撮影された(1枚または複数の)画像を処理するためのブランチであり、他方は、撮影された(1枚または複数の)画像から抽出される深さデータに基づいてシーン220に対して作成される(1つまたは複数の)深さマップを処理するためのブランチである。2本のブランチは、初期処理の後に合流し、シーン220内に存在する(1つまたは複数の)対象物を検出および分類する。視覚的処理のブランチは、撮影された(1枚または複数の)画像を受け取る入力層、第1の畳み込み層(A1)502、プーリング層(A1)504、および第2の畳み込み層(A2)506を含むことができる。深さデータ処理のブランチは、(1つまたは複数の)深さマップを受け取る入力層、第1のプーリング層(B1)508、および第2のプーリング層(B2)510を含むことができる。第2の畳み込み層(A2)506の出力と、第2のプーリング層(B2)510の出力が合流し、結合プーリング層512(joint pooling layer)、結合畳み込み層514(joint convolution layer)、第1の全結合層516、第2の全結合層518、SOFTMAX損失層520、および推定された分類を出力する出力層、に入る。本明細書内で前述したように、分類は、一般には、検出された対象物がそれぞれのクラスである確率を示す確率スコアがそれぞれに関連付けられている1つまたは複数のクラスラベルを含むことができる。
【0101】
ニューラルネットワーク500は、シーン220などのシーンを写している訓練画像と、訓練画像の少なくとも何枚かから抽出される深さデータに基づいて生成される訓練深さマップとを含む、複数の訓練データセットを使用して、訓練することができる。
【0102】
【0103】
108に示したように、アナライザ240は、撮影された画像の少なくとも何枚かを分析して、シーン220内に存在する(1つまたは複数の)対象物から反射されて戻る構造化光パターンの拡散光要素のうちの1つまたは複数のスペックルパターンの変化を検出することによって、1つまたは複数の微小振動(例えば、呼吸、目の動き、まぶたの動き、四肢(手、足)のわずかな動き、頭部のわずかな動き、および/または同種のもの)を識別することができる。スペックルパターンの変化は、微小振動(すなわち撮影された画像から抽出される深さデータの変動を分析することによって検出するには小さすぎる極めて小さいわずかな動き)を示しうる。
【0104】
例えば、アナライザ240は、撮影された複数の連続する画像にわたり、それぞれの反射された拡散光要素の強度の経時的な標準偏差を測定して経時的な歪みパターン(temporal distortion pattern)を識別することによって、スペックルパターンの変化を検出することができる。I
nは、画像n内の、反射された拡散光パターンおよび/またはその一部を写している特定のピクセルのグレーレベル強度であると想定する。アナライザ240は、次の等式2に従って経時的な標準偏差を計算することができる。
等式2:
【数2】
【0105】
式中、nは現在の画像であり、kはそれまでの画像の数である。
【0106】
アナライザ240は、経時的な標準偏差の結果を、事前定義されるしきい値と比較して、微小振動が起きたかを判定することができる。経時的な標準偏差の値が、事前定義されるしきい値を超えている場合、アナライザ240は、微小振動が増大したと判定し、その一方で、経時的な標準偏差の値が、事前定義されるしきい値を超えていない場合、アナライザ240は、微小振動の変化が起きていないと判定することができる。
【0107】
事前定義されるしきい値は、あらかじめ固定して設定することができる。オプションとして、事前定義されるしきい値は、経時的に測定される経時的な標準偏差の値に従って動的に調整される。
【0108】
オプションとして、スペックルパターンの強度レベルに影響しうる雑音に対する耐性を改善し、スペックルパターンの強度の信号対雑音比(SNR)を高める目的で、アナライザ240は、同じ表面から反射されて、撮影された複数の画像内の同じ領域に表現されている拡散光要素の複数のスペックルパターンにわたり、経時的な標準偏差を平均することができる。
【0109】
別の例においては、アナライザ240は、撮像センサ212に対するスペックルパターンの傾き(tilt)を示す横方向のずれ(lateral translation)についてスペックルパターンを分析することによって、スペックルパターンの変化を検出することができる。極めて微細(例えばマイクロラジアンのオーダー)でありうる傾きは、経時的な(連続するフレームにわたる)スペックルパターンの1つまたは複数の点の角速度から導くことができる。スペックルパターンの(1つまたは複数の)点の強度が経時的に一定であると想定すると、アナライザ240は、撮影された複数の連続する画像内に写っている(1つまたは複数の)拡散光要素の(1つまたは複数の)スペックルパターン点の横方向のずれの分析から、次の等式3に従って角速度を導くことができる。
等式3:
【数3】
【0110】
式中、Iは、時刻tまたは位置xで微分された、撮影された画像内のグレーレベルにおけるピクセルの強度である。
【0111】
撮影された画像n内のi方向における隣接するピクセルに対する、特定のピクセル(i,j)の変化の角速度は、次の等式4によって表すことができる。
等式4:
【数4】
【0112】
特定のピクセル(i,j)の変化の角速度は、j方向においても同様に表すことができる。角速度の結果は、フレームユニットあたりのピクセルにおいて表される。
【0113】
オプションとして、アナライザ240は、スポット強度包絡線効果(spot intensity envelope effects)に起因する強度Ii,jの不均一性を補正するため、ピクセル(i,j)の強度Ii,jを経時的に正規化する。例えばアナライザ240は、時間スライディングウィンドウを適用して、撮影された画像内の1つまたは複数のピクセル(i,j)の強度Ii,jを平均することによって、強度Ii,jを正規化することができる。
【0114】
別の例においては、アナライザ240は、I
i,jに無限インパルス応答を適用して、時間領域において強度I
i,jを平滑化することによって、次の等式5で表されるように平滑化された強度
【数5】
を生成することができる。
等式5:
【数6】
【0115】
式中、αは、小さい係数(例えば0.05)である。
【0116】
アナライザ240は、撮影された複数の連続する画像において経時的に測定された平均強度で強度I
i,jを除算して、ピクセル(i,j)の1つまたは複数の強度I
i,jを正規化することによって、次の等式6で表されるように正規化された強度
【数7】
を生成することができる。
等式6:
【数8】
【0117】
等式4における強度の表現を、正規化された強度に置き換えることにより、角速度を次の等式7によって表すことができる。
等式7:
【数9】
【0118】
雑音の影響に対する、測定された強度の堅牢性をさらに改善する目的で、アナライザ240は、撮影された画像内の複数の隣接する反射された拡散光要素(例:ドット、スポットなど)にわたり、強度をさらに空間的に平均することができる。アナライザ240は、空間的に平均された強度値に対して時間的フィルタリングをさらに適用して、結果の強度信号を改善することができる。
【0119】
微小振動を検出するためのスペックルパターンの分析に関するさらなる詳細は、特許文献1に記載されており、この文書の内容はその全体が参照により本明細書に組み込まれている。
【0120】
110に示したように、アナライザ240は、シーン内で検出された(1つまたは複数の)対象物の分類(クラス)、(1つまたは複数の)属性(例:動き、ジェスチャ、表情、身体の位置、四肢の位置、大きさ、形状など)、深さデータの分析から導かれた(1つまたは複数の)対象物の動き、および(1つまたは複数の)対象物において検出された(1つまたは複数の)微小振動、を出力することができる。本明細書内で前述したように、分類は、一般には、検出された対象物がそれぞれのクラスである確率を示す確率スコアがそれぞれに関連付けられている1つまたは複数のクラスラベル(例えば、ベクトル、リスト、テーブル、および/または同種のもの)を含むことができる。
【0121】
すべてのモダリティ(すなわち視覚的データ、深さデータ、およびスペックルパターン)は、すべて同じ画像から抽出されるため、分類、動き、および微小振動は、同じ座標系に本質的に記録される(位置が合っている)。したがって、すべてが同じ座標系を参照するモダリティそれぞれのデータの空間パラメータ(座標)に従って、分類、動き、および微小振動を(1つまたは複数の)対象物に容易に関係付けることができる。
【0122】
したがって、属性、動き、および(1つまたは複数の)微小振動を、シーン220内で検出された対応する(1つまたは複数の)対象物に関連付けるときの精度を、著しく向上させることができる。
【0123】
車室に配置されるときには、アナライザ240は、(1つまたは複数の)対象物のクラス、(1つまたは複数の)属性、動き、および/または(1つまたは複数の)微小振動を、車両に関連する1つまたは複数のアプリケーションに提供することができ、これらのアプリケーションは、提供されたデータを利用することができる。例えば、運転者を監視する安全システムおよび/またはアプリケーションは、アナライザ240によって提供されるデータを分析して、運転者が起きており車両の運転に集中していることを確認することができる。別の例においては、同乗者の安全システムおよび/またはアプリケーションは、アナライザ240によって提供されるデータを分析して、車室内に検出される各車両乗員(例:運転者、同乗者)が自身のシートベルトを正しく着用していることを確認することができる。別の例においては、同乗者の安全システムおよび/またはアプリケーションは、アナライザ240によって提供されるデータを分析して、(1人または複数の)幼児および/または(1匹または複数の)ペットが、他の(1人または複数の)同乗者がシーンから離れた後に車室内に置き忘れられていないかを確認することができる。別の例においては、同乗者の快適性システムおよび/またはアプリケーションは、車室内に検出される車両乗員の総数(人数)に従って、空調システムを調整することができる。別の例においては、インフォテインメントシステムおよび/またはアプリケーションは、車室内に検出される車両乗員の総数に従って、具体的には、車室内の(1人または複数の)車両乗員の位置(例えば、前部座席、後部座席、右側座席、左側座席、および/または同種のもの)に従って、1つまたは複数のマルチメディアシステムを調整することができる。別の例においては、車両安全システムおよび/またはアプリケーションは、車室に入っている、および/または入ろうと試みている侵入者を検出することができる。
【0124】
本出願から発生する特許権の存続期間中、数多くの関連するシステム、方法、およびコンピュータプログラムが開発されることが予測されるが、用語「構造化光パターン」および「機械学習モデル」の範囲は、このような新規の技術すべてを含むものとする。
【0125】
本明細書において使用されている語「約」は、±10%を意味する。
【0126】
語「備える」、「備えている」、「含む」、「含んでいる」、「有する」、およびこれらの活用形は、「~を含み、ただしそれらに限定されない」を意味する。
【0127】
語「からなる」は、「~を含み、それらに限定される」ことを意味する。
【0128】
本明細書において使用されているとき、単数形(「a」、「an」および「the」)は、文脈から明らかに複数の場合が除外されない限り、複数の場合も含む。例えば、語「化合物」または「少なくとも1種類の化合物」は、複数種類の化合物(その混合物を含む)を含むことができる。
【0129】
本出願の全体を通じて、本発明のさまざまな実施形態は、範囲形式で提示されていることがある。範囲形式での記述は、便宜上および簡潔さのみを目的としており、本発明の範囲を固定的に制限するようには解釈されないことを理解されたい。したがって、範囲の記述には、具体的に開示されている可能な部分範囲すべてと、その範囲内の個々の数値とが含まれるものとみなされたい。例えば、1~6などの範囲の記述には、具体的に開示された部分範囲(例えば、1~3、1~4、1~5、2~4、2~6、3~6など)と、この範囲内の個々の数(例えば1、2、3、4、5、および6)とが含まれるものとみなされたい。このことは、範囲の広さにかかわらずあてはまる。
【0130】
本明細書中に数値範囲が示されているときには、示された範囲内の任意の該当する数値(分数または整数)が含まれるものとする。第1の指示数と第2の指示数「との間の範囲」、および、第1の指示数「から」第2の指示数「までの範囲」という表現は、本明細書においては互換的に使用され、第1の示された数および第2の示された数と、それらの間のすべての分数および整数を含むものとする。
【0131】
明確さを目的として個別の実施形態の文脈の中で説明されている本発明の特定の複数の特徴は、1つの実施形態の中に組み合わせて設けることもできることを理解されたい。逆に、簡潔さを目的として1つの実施形態の文脈の中で説明されている本発明のさまざまな特徴は、個別に設ける、または任意の適切な部分的な組合せとして設ける、または本発明の任意の他の説明されている実施形態において適切に設けることもできる。さまざまな実施形態の文脈の中で説明されている特定の特徴は、実施形態がそれらの要素なしでは動作・機能しない場合を除いて、それらの実施形態の本質的な特徴とはみなさないものとする。