(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-02-07
(54)【発明の名称】画像処理システム
(51)【国際特許分類】
G06V 10/82 20220101AFI20240131BHJP
G06T 7/00 20170101ALI20240131BHJP
G06V 20/59 20220101ALI20240131BHJP
G08G 1/16 20060101ALI20240131BHJP
【FI】
G06V10/82
G06T7/00 350C
G06T7/00 660A
G06V20/59
G08G1/16 F
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023542985
(86)(22)【出願日】2021-10-14
(85)【翻訳文提出日】2023-09-12
(86)【国際出願番号】 EP2021078422
(87)【国際公開番号】W WO2022111909
(87)【国際公開日】2022-06-02
(32)【優先日】2021-01-13
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】523268262
【氏名又は名称】フォトネーション リミテッド
(74)【代理人】
【識別番号】100094569
【氏名又は名称】田中 伸一郎
(74)【代理人】
【識別番号】100103610
【氏名又は名称】▲吉▼田 和彦
(74)【代理人】
【識別番号】100109070
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100109335
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100120525
【氏名又は名称】近藤 直樹
(74)【代理人】
【識別番号】100139712
【氏名又は名称】那須 威夫
(74)【代理人】
【識別番号】100141553
【氏名又は名称】鈴木 信彦
(74)【代理人】
【識別番号】100228337
【氏名又は名称】大橋 綾
(72)【発明者】
【氏名】ブリスマン リチャード
(72)【発明者】
【氏名】ライアン シアン
(72)【発明者】
【氏名】キールティ ポール
(72)【発明者】
【氏名】レムリー ジョセフ
【テーマコード(参考)】
5H181
5L096
【Fターム(参考)】
5H181AA01
5H181BB20
5H181CC04
5H181LL01
5H181LL02
5H181LL04
5H181LL09
5H181LL20
5L096AA13
5L096BA02
5L096CA05
5L096GA59
5L096HA11
(57)【要約】
頭部姿勢又は視線などの分類を生成するために顔の特徴を分析するための近赤外線(NIR)カメラ及びイベントカメラなどのフレームベースのカメラからの画像情報を融合するマルチモーダル畳み込みニューラルネットワーク(CNN)を開示する。ニューラルネットワークは、各カメラから取得された画像フレームを複数の畳み込み層を通じて処理して、1又は2以上の中間画像のそれぞれの組を提供する。ネットワークは、融合セルのアレイを通じて、画像フレームの各々から生成された中間画像の少なくとも1つの対応するペアを融合させる。各融合セルは、各中間画像の少なくともそれぞれの要素に接続され、各中間画像からの各要素に重み付けして融合出力を提供するように訓練される。ニューラルネットワークは、関心領域の1又は2以上のタスク出力を生成するように構成された少なくとも1つのタスクネットワークをさらに含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
画像処理システムであって、
カメラの視野をカバーする画像フレームを周期的に提供するように構成されたフレームベースのカメラと、
実質的に共通の視野を有し、視野内のx、y位置において検出された光強度の変化が閾値を上回ったことを示すイベントに応答してイベント情報を提供するように構成されたイベントカメラと、
前記共通の視野内の関心領域を識別する検出器と、
前記関心領域内の連続するイベントサイクル中に発生し、それぞれが前記関心領域内のx、y位置、該x、y位置に入射する検出された光強度の変化の極性、及び前記イベントが発生したイベントサイクルを示す複数のイベントからのイベント情報を蓄積し、前記関心領域のイベント基準が満たされたことに応答して、前記関心領域内から蓄積されたイベント情報から前記関心領域の画像フレームを生成するアキュムレータと、
前記フレームベースのカメラから画像フレームを受け取り、前記アキュムレータから前記関心領域の画像フレームを受け取るように構成され、複数の畳み込み層を介して各画像フレームを処理して、1又は2以上の中間画像のそれぞれの組を提供するように構成され、前記画像フレームの各々から生成された中間画像の少なくとも1つの対応するペアを、それぞれが各中間画像の少なくともそれぞれの要素に接続され、各中間画像からの各要素に重み付けして前記融合出力を提供するように訓練された融合セルのアレイを通じて融合させるようにさらに構成されたニューラルネットワークであって、最終的な中間画像の組から前記融合出力を受け取り、前記関心領域のための1又は2以上のタスク出力を生成するように構成された少なくとも1つのタスクネットワークをさらに含むニューラルネットワークと、
を備えるシステム。
【請求項2】
前記中間画像のペアの各融合セルは、以前の中間画像のペアからの融合出力のそれぞれの要素にさらに接続される、
請求項1に記載のシステム。
【請求項3】
各融合セルは、
h
v=tanh(W
v・x
v)
h
t=tanh(W
t・x
t)
z=σ(W
z・[x
v,x
t])
h
i=h
i-1*(z*h
v+(1-z)*h
t)
との関数に従って前記セルの融合出力hiを生成するように構成され、
x
v,x
tは各中間画像の要素値であり、
{W
v、W
t、W
z}は学習済みパラメータであり、
h
i-1は前の中間画像のペアからの融合出力の要素値であり、
[・,・]は連結演算子を示し、
σはゲートニューロンを表す、
請求項1に記載のシステム。
【請求項4】
前記ニューラルネットワークは、畳み込み層を通じて第1の中間画像の組を融合させるように構成される、
請求項2に記載のシステム。
【請求項5】
前記ニューラルネットワークは、前記複数の畳み込み層間に1又は2以上のプーリング層をさらに含む、
請求項1に記載のシステム。
【請求項6】
前記フレームベースのカメラからの前記画像フレーム及び前記アキュムレータからの前記画像フレームの解像度を前記ニューラルネットワークが必要とするサイズに一致させるようにさらに構成される、
請求項1に記載のシステム。
【請求項7】
前記関心領域は顔領域を含む、
請求項1に記載のシステム。
【請求項8】
頭部姿勢、視線、又は顔のオクルージョンを示すもののうちの1つを提供するそれぞれのタスクネットワークを備える、
請求項7に記載のシステム。
【請求項9】
各タスクネットワークは1又は2以上の畳み込み層を含み、これらに1又は2以上の完全接続層が後続する、
請求項8に記載のシステム。
【請求項10】
前記頭部姿勢タスクネットワークの出力層は3つの出力ノードを含み、前記視線タスクネットワークの出力層は2つの出力ノードを含み、前記顔のオクルージョンを示すタスクネットワークの出力層は、オクルージョンの各タイプについての出力ノードを含む、
請求項9に記載のシステム。
【請求項11】
前記顔領域の顔ランドマークの組を提供するタスクネットワークを備える、
請求項7に記載のシステム。
【請求項12】
前記検出器は、前記フレームベースのカメラによって提供された前記画像フレーム内の関心領域を識別するように構成される、
請求項1に記載のシステム。
【請求項13】
前記検出器は、前記イベントカメラによって提供されたイベント情報から関心領域を識別するように構成される、
請求項1に記載のシステム。
【請求項14】
前記フレームベースのカメラは近赤外(NIR)波長を感知する、
請求項1に記載のシステム。
【請求項15】
請求項1に記載の画像処理システムを備えたドライバーモニタリングシステムであって、前記画像処理システムは、前記1又は2以上のタスク出力を先進運転支援システム(ADAS)に提供するように構成される、
ドライバーモニタリングシステム。
【請求項16】
カメラの視野をカバーする画像フレームを周期的に提供するように構成されたフレームベースのカメラと、実質的に共通の視野を有し、イベントカメラの視野内のx、y位置において検出された光強度の変化が閾値を上回ったことを示すイベントに応答してイベント情報を提供するように構成されたイベントカメラとを備えたシステムにおいて動作可能な画像処理方法であって、
前記共通の視野内の関心領域を識別するステップと、
前記関心領域内の連続するイベントサイクル中に発生し、それぞれが前記関心領域内のx、y位置、前記x、y位置に入射する検出された光強度の変化の極性、及び前記イベントが発生したイベントサイクルを示す複数のイベントからのイベント情報を蓄積し、前記関心領域のイベント基準が満たされたことに応答して、前記関心領域内から蓄積されたイベント情報から前記関心領域の画像フレームを生成するステップと、
前記フレームベースのカメラから画像フレームを受け取り、前記アキュムレータから前記関心領域の画像フレームを受け取るステップと、
複数の畳み込み層を通じて各画像フレームを処理して、1又は2以上の中間画像のそれぞれの組を提供するステップと、
前記画像フレームの各々から生成された中間画像の少なくとも1つの対応するペアを、それぞれが各中間画像の少なくともそれぞれの要素に接続され、各中間画像からの各要素に重み付けして前記融合出力を提供するように訓練された融合セルのアレイを通じて融合させるステップと、
最終的な中間画像のペアから前記融合出力を受け取るステップと、
前記関心領域のための1又は2以上のタスク出力を生成するステップと、
を含む方法。
【請求項17】
コンピュータ可読媒体上に記憶されたコンピュータ可読命令を含むコンピュータプログラム製品であって、前記コンピュータ可読命令は、コンピュータ装置上で実行されたときに請求項16のステップを実行するように構成される、
コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理システムに関する。
【背景技術】
【0002】
マルチモーダル融合アーキテクチャを使用して複数の異なるセンサからの情報を融合させると、異なるセンサからのセンサ融合がシステム内の個々のセンサの利点を生かしてこれらの欠点を最小化することができるため、単一センサベースのアーキテクチャに比べて性能が向上するだけでなく、同じタイプのセンサを重複させるよりも高い冗長度がもたらされる。
【0003】
C.Zhang、Z.Yang、X.He及びL.Deng著、「マルチモーダルインテリジェンス:表現学習、情報融合及び応用(Multimodal intelligence:Representation learning, information fusion, and applications)」、IEEE J.Sel.Top.Signal Process、2020年には、異なるユニモーダルセンサからの情報を単一表現に統合することが開示されている。
【0004】
J.-M.Perez-Rua、V.Vielzeuf、S.Pateux、M.Baccouche及びF.Jurie著、「MFAS:マルチモーダル融合アーキテクチャサーチ(Multimodal fusion architecture search)」、Proceedings of the IEEE Conference on computer vision and pattern recognition、2019年、6966~6975頁には、ネットワークが文脈情報に基づいて異なるモダリティの重み付け方法を決定するコアテンションメカニズム(co-attention mechanism)が開示されている。
【0005】
R.A.Jacobs、M.I.Jordan、S.J.Nowlan及びG.E.Hinton著、「ローカルエキスパートの適応的混合(Adaptive mixtures of local experts)」、Neural Comput.、第3巻、第1号、79~87頁、1991年には、情報が識別レベル(decision-level)で融合されるコアテンションメカニズムが開示されている。
【0006】
J.Arevalo、T.Solorio、M.Montes-y-Gomez及びF.A.Gonzalez著、「情報融合のためのゲート付きマルチモーダルユニット(Gated multimodal units for information fusion)」、arXiv Prepr.arXiv1702.01992、2017年、並びにJ.Arevalo、T.Solorio、M.Montes-y-Gomez及びF.A.Gonzalez著、「ゲート付きマルチモーダルネットワーク(Gated multimodal networks)」、Neural Comput.Appl.、1~20頁、2020年には、画像及びテキスト入力を使用してネットワーク内のあらゆるレベルでの特徴レベルの融合を可能にするゲート付きマルチモーダルユニット(GMU)が提案されている。GMUは、どのモダリティが特定の入力にとって有用な情報を有しているかを決定する潜在的変数(latent variable)を学習することができる。
【0007】
A.Valada、A.Dhall及びW.Burgard著、「ロバストな意味的セグメンテーションのためのディープエキスパートの複雑な混合(Convoluted mixture of deep experts for robust semantic segmentation)」、IEEE/RSJ International conference on Intelligent Robots and Systems (IROS) workshop、全ての地形モバイルロボットのための状態推定及び地形予測(state estimation and terrain perception for all terrain mobile robots)、2016年、23頁には、各「エキスパート」(モダリティ)にいつ、どの程度依拠すべきであるかを決定する適応的ゲーティングネットワークを含むネットワークが提案されている。
【0008】
V.Vielzeuf、A.Lechervy、S.Pateux及びF.Jurie著、「セントラルネット:マルチモーダル融合のための多層アプローチ(Centralnet:a multilayer approach for multimodal fusion)」、Proceedings of the European Conference on Computer Vision (ECCV)、2018年、575~589頁には、各モダリティの個々のネットワークからの情報を複数の層において融合するマルチモーダルネットワークアーキテクチャが開示されている。
【0009】
R.Ranjan、S.Sankaranarayan、C.D.Castillo及びR.Chellappa著、「顔分析のためのオールインワン畳み込みニューラルネットワーク(An all-in-one convolutional neural network for face analysis)」、2017、第12回IEEE International Conference on Automatic Face & Gesture Recognition(FG 2017)、2017年、17~24頁、並びにR.Ranjan、V.M.Patel及びR.Chellappa著、「Hyperface:顔検出、ランドマーク定位、ポーズ推定及び性別認識のための深層マルチタスク学習アーキテクチャ(Hyperface:A deep multi-task learning framework for face detection, landmark localization, pose estimation, and gender recognition)」、IEEE Trans. Pattern Anal. Mach. Intell.、第41巻、第1号、121~135頁、2017年に開示されているAll-in-One及びHyperface-ResNetネットワークアーキテクチャは、それぞれニューラルネットワークの中間層の融合を応用するものである。
【0010】
イベントカメラとのマルチモーダル融合に関する文献は限られている。S.Pini、G.Borghi及びR.Vezzani著、「イベントによる見る力の学び:イベントカメラ及びRGBカメラからのカラーフレーム合成(Learn to see by events:Color frame synthesis from event and RGB cameras)」、International Joint Conference on Computer Vision、Imaging and Computer Graphics Theory and Applications、2020年、第4巻、37~47頁は、2つの入力チャネルとして連結されたRGB及びイベントをネットワークに供給するものである。イベントフレームは、固定された時間ウィンドウを使用して形成される。このため、イベントカメラの主要特性の多く、すなわち時間分解能及び速い動きへの応答性が排除される。
【先行技術文献】
【特許文献】
【0011】
【特許文献1】欧州特許第3440833号明細書
【特許文献2】国際公開第2019/145516号
【特許文献3】国際公開第2019/180033号
【特許文献4】米国特許出願公開第16/904,122号明細書
【特許文献5】米国特許出願公開第16/941,799号明細書
【特許文献6】米国特許出願第17/037,420号明細書
【特許文献7】国際公開第2019/145578号
【特許文献8】米国特許出願公開第16/544,238号明細書
【非特許文献】
【0012】
【非特許文献1】C.Zhang、Z.Yang、X.He及びL.Deng著、「マルチモーダルインテリジェンス:表現学習、情報融合及び応用(Multimodal intelligence:Representation learning, information fusion, and applications)」、IEEE J.Sel.Top.Signal Process、2020年
【非特許文献2】J.-M.Perez-Rua、V.Vielzeuf、S.Pateux、M.Baccouche及びF.Jurie著、「MFAS:マルチモーダル融合アーキテクチャサーチ(Multimodal fusion architecture search)」、Proceedings of the IEEE Conference on computer vision and pattern recognition、2019年、6966~6975頁
【非特許文献3】R.A.Jacobs、M.I.Jordan、S.J.Nowlan及びG.E.Hinton著、「ローカルエキスパートの適応的混合(Adaptive mixtures of local experts)」、Neural Comput.、第3巻、第1号、79~87頁、1991年
【非特許文献4】J.Arevalo、T.Solorio、M.Montes-y-Gomez及びF.A.Gonzalez著、「情報融合のためのゲート付きマルチモーダルユニット(Gated multimodal units for information fusion)」、arXiv Prepr.arXiv1702.01992、2017年
【非特許文献5】J.Arevalo、T.Solorio、M.Montes-y-Gomez及びF.A.Gonzalez著、「ゲート付きマルチモーダルネットワーク(Gated multimodal networks)」、Neural Comput.Appl.、1~20頁、2020年
【非特許文献6】A.Valada、A.Dhall及びW.Burgard著、「ロバストな意味的セグメンテーションのためのディープエキスパートの複雑な混合(Convoluted mixture of deep experts for robust semantic segmentation)」、IEEE/RSJ International conference on Intelligent Robots and Systems (IROS) workshop、全ての地形モバイルロボットのための状態推定及び地形予測(state estimation and terrain perception for all terrain mobile robots)、2016年、23頁
【非特許文献7】V.Vielzeuf、A.Lechervy、S.Pateux及びF.Jurie著、「セントラルネット:マルチモーダル融合のための多層アプローチ(Centralnet:a multilayer approach for multimodal fusion)」、Proceedings of the European Conference on Computer Vision (ECCV)、2018年、575~589頁
【非特許文献8】R.Ranjan、S.Sankaranarayan、C.D.Castillo及びR.Chellappa著、「顔分析のためのオールインワン畳み込みニューラルネットワーク(An all-in-one convolutional neural network for face analysis)」、2017、第12回IEEE International Conference on Automatic Face & Gesture Recognition(FG 2017)、2017年、17~24頁
【非特許文献9】R.Ranjan、V.M.Patel及びR.Chellappa著、「Hyperface:顔検出、ランドマーク定位、ポーズ推定及び性別認識のための深層マルチタスク学習アーキテクチャ(Hyperface:A deep multi-task learning framework for face detection, landmark localization, pose estimation, and gender recognition)」、IEEE Trans. Pattern Anal. Mach. Intell.、第41巻、第1号、121~135頁、2017年
【非特許文献10】S.Pini、G.Borghi及びR.Vezzani著、「イベントによる見る力の学び:イベントカメラ及びRGBカメラからのカラーフレーム合成(Learn to see by events:Color frame synthesis from event and RGB cameras)」、International Joint Conference on Computer Vision、Imaging and Computer Graphics Theory and Applications、2020年、第4巻、37~47頁
【非特許文献11】Posch,C、Serrano-Gotarredona,T.、Linares-Barranco,B.及びDelbruck,T.著、「網膜イベントベースのビジョンセンサ:スパイク出力を有する生体模倣カメラ(Retinomorphic event-based vision sensors: bioinspired cameras with spiking output)」、Proceedings of the IEEE、102(10)、1470~1484、(2014年)
【非特許文献12】Scheerlinck,C.、Rebecq,H.、Gehrig,D.、Barnes,N.、Mahony,R.及びScaramuzza,D.著、2020年、「イベントカメラを用いた高速画像再構成(Fast image reconstruction with an event camera)」、IEEE Winter Conference on Applications of Computer Vision(156~163頁)
【発明の概要】
【課題を解決するための手段】
【0013】
本発明によれば、請求項1に記載の画像処理システムが提供される。
【0014】
第2の態様では、請求項16に記載の画像処理方法、及びこの方法を実行するように構成されたコンピュータプログラム製品が提供される。
【0015】
本発明の実施形態は、頭部姿勢又は視線などの分類を生成するために顔の特徴を分析するための近赤外線(NIR)カメラ及びイベントカメラなどのフレームベースのカメラからの情報を融合させるマルチモーダル畳み込みニューラルネットワーク(CNN)を含むことができる。
【0016】
フレームベースのカメラは、イベントカメラに比べて時間分解能に限界があり、従ってカメラの視野内の物体が高速で移動している最中にぶれを生じやすい。一方で、イベントカメラは物体の動きには最も適しているが、物体が静止しているときには情報を生成しない。
【0017】
本発明の実施形態は、CNNの中間層を融合させ、提供された入力に基づいて各センサに重要度を割り当てることによって、両者の利点を活用するものである。
【0018】
本発明の実施形態は、ネットワークを通じて複数のレベルの中間層からセンサアテンションマップ(sensor attention maps)を生成する。
【0019】
実施形態は、ドライバーモニタリングシステム(DMS)に特に適する。NIRは、DMSにおいて使用されることが多い標準的なカメラである。これらの標準的なフレームベースのカメラは被写体ぶれ(motion blur)を生じやすい。このことは、車両の衝突又はその他の安全上重要な高速イベントにおいて特に顕著である。これとは逆に、イベントカメラはシーンダイナミクス(scene dynamics)に適合し、ドライバーを非常に高い時間分解能で正確に追跡することができる。しかしながら、イベントカメラは、例えばドライバーの注意力を判定するために、低速で動いている又は静止している物体をモニタすることには特に適していない。
【0020】
実施形態は、両モダリティを、各モダリティの利点を取り入れて欠点を最小化できる統合CNNに融合させる。この結果、DMSに実装された場合、ネットワークが通常運転と衝突などの稀なイベントとを正確に分析することができる。
【0021】
さらに、イベントカメラの出力に基づいて非同期的に推論を実行することができ、従ってネットワークが固定レートで実行するのではなくシーンダイナミクスに適合することができる。
【0022】
これにより、DMSは、車両衝突中にドライバーの状態を感知して理解し、正確な負傷の推定又は自律システムの介入を行うことができる。
【0023】
実施形態は、DMSと同様に、車両/歩行者の検出及び追跡などの自律走行目的での外部モニタリングを含む他のタスクにも応用することができる。
【0024】
以下、添付図面を参照しながら本発明の実施形態を一例として説明する。
【図面の簡単な説明】
【0025】
【
図1】本発明の実施形態による、フレームベースのNIRカメラ及びイベントカメラによって提供された情報を融合させるシステムを示す図である。
【
図2】
図1のシステム内で使用されるマルチモーダル顔分析のためのネットワークを示す図である。
【
図3】本発明の実施形態に従って検出できる顔のランドマークを示す図である。
【発明を実施するための形態】
【0026】
図1に、本発明の実施形態による画像処理システム10を示す。システム10は、この事例では近赤外(NIR)波長を感知して、典型的には30フレーム/秒(fps)~場合によっては最大240fpsのレートなどの周期的間隔で情報のフレームを生成するカメラである、フレームベースのカメラ12を含む。なお、フレームレートは、例えば文脈又は環境条件などに応じて時間と共に変化し、例えば低光条件下では高フレームレートが不可能又は不適切な場合があり、一般にカメラ12によって取得されてシステムの残り部分に提供されるデータは、視野内のいずれかの活動にかかわらずカメラの視野全体に及ぶ情報のフレームを含むと理解されるであろう。また、別の実装では、フレームベースのカメラが可視波長などの他の波長を感知し、RGB、YUV、LCC又はLABフォーマットを含むいずれかの好適なフォーマットで、単色の強度のみのフレーム情報又は多色フレーム情報のいずれかを提供することができると理解されるであろう。
【0027】
システムは、例えばPosch,C、Serrano-Gotarredona,T.、Linares-Barranco,B.及びDelbruck,T.著、「網膜イベントベースのビジョンセンサ:スパイク出力を有する生体模倣カメラ(Retinomorphic event-based vision sensors: bioinspired cameras with spiking output)」、Proceedings of the IEEE、102(10)、1470~1484、(2014年)、欧州特許第3440833号、Prophesee社からの国際公開第2019/145516号及び国際公開第2019/180033号に開示されているタイプのイベントカメラ14を含むこともできる。このようなカメラは、画素値の変化が一定の閾値を上回るときには常に個々の画素からの画像情報を非同期的に出力することに基づく。従って、「イベントカメラ」の画素は、強度変化のx、y位置、タイムスタンプ及び極性を特徴とする強度変化の非同期的「イベント」ストリームをレポートする。
【0028】
イベントカメラ14は、フレームカメラ12と同様にNIR波長又は可視波長を感知し、単色イベント情報又は多色のRGB、イベント情報などを提供することができる。
【0029】
イベントは、場合によってはイメージセンサのクロック周期と同程度の頻度で非同期的に発生することができ、本明細書ではイベントが発生し得る最小期間を「イベント周期」と呼ぶ。
【0030】
カメラ12、14の各々は、ドライバーモニタリングシステム(DMS)内で採用される場合、バックミラー上又はその近傍に車両キャビンの前方に向かって取り付けられ、キャビンの乗員に向かって後方を向くことができる。
【0031】
カメラ12、14はやや間隔を空けることができ、この立体的視点は、以下で詳細に説明するような乗員の頭部姿勢の検出などの特定のタスクを支援することができる。
【0032】
それにもかかわらず、一般にカメラ12、14のそれぞれの視野は、キャビン内の典型的な位置範囲にあるときに車両内の1又は2以上の関心乗員の顔をそれぞれ撮像できる程度に実質的に重なり合うと理解されるであろう。
【0033】
また、それにもかかわらず、カメラ12、14は個別ユニットである必要はなく、いくつかの実装では、iniVation.comにおいて入手可能なDavis346カメラなどの単一の統合センサを使用してフレームカメラ及びイベントカメラの機能を提供することもできると理解されたい。当然ながら、これによって二重光学システムの必要性を抑えることができる。
【0034】
説明したように、イベントカメラ14は、カメラ12によって提供される情報のフレームではなく、個々のイベントの発生時にこれらのイベントのストリームを提供する。
【0035】
本発明の実施形態では、イベントカメラ14によって取得され提供されたこのイベント情報がイベントアキュムレータ16によって蓄積され、この蓄積されたイベント情報を使用してテクスチャタイプ画像情報を再構成し、この情報がシステムによるさらなる処理のために画像フレームフォーマット18で提供される。
【0036】
周知のニューラルネットワークベースのイベントカメラ再構成方法としては、Scheerlinck,C.、Rebecq,H.、Gehrig,D.、Barnes,N.、Mahony,R.及びScaramuzza,D.著、2020年、「イベントカメラを用いた高速画像再構成(Fast image reconstruction with an event camera)」、IEEE Winter Conference on Applications of Computer Vision(156~163頁)において説明されている、イベント情報から画像フレーム情報を提供するE2VID及びFirenetが挙げられる。
【0037】
イベント情報を蓄積してフレーム情報を提供する方法及びシステムのさらなる例は、2020年6月17日に出願された米国特許出願第16/904,122号(参照番号:FN-662-US)の一部継続出願である2020年7月29日に出願された米国特許出願第16/941,799号の一部継続出願である2020年9月29日に出願された「イベントカメラのための物体検出(Object Detection for Event Cameras)」という名称の米国特許出願第17/037,420号に開示されている。これらのシステムは、イベントカメラの視野内の顔領域などの関心領域を識別し、例えば20,000個などの指定数のイベントが顔領域内で蓄積されると、顔領域のテクスチャ画像フレームを生成することができる。
【0038】
イベントアキュムレータ16は、このような1つの方法を使用して、イベントアキュムレータ16が画像フレーム18を提供するためにイベントを取得する時間ウィンドウ内に顔領域内の各画素位置において発生するイベントのカウントを保持する。この時間ウィンドウ中に各画素位置において発生するイベントの正味極性(net polarity)を決定し、カウントの関数としての各画素位置の減衰因子(decay factor)を生成する。この減衰因子を、現在の時間ウィンドウの前に顔領域について生成されたテクスチャ画像に適用し、各画素位置において発生するイベントの正味極性を減衰したテクスチャ画像の対応する位置に加算して、現在の時間ウィンドウのテクスチャ画像を生成する。これにより、イベントアキュムレータ16によって提供されるフレーム18内の画素が、モーションメモリの一形態として時間ウィンドウにわたって情報を維持できるようになるのに対し、カメラ12によって生成される画像フレームは、フレームの露光ウィンドウ(exposure window)からの比較的瞬間的な情報しか含まない。
【0039】
カウントを使用して減衰因子を生成することに加えて又は代えて、画像フレーム18を蓄積する際にイベントを時間の関数として減衰させることもできる。
【0040】
DMSシステムでは、顔のランドマーク、頭部姿勢、視線及びいずれかのオクルージョン(occlusion)などの車両乗員の顔領域の位置及び特性が最大の関心事であるため、これらの方法は本出願にとって特に有用である。
【0041】
それにもかかわらず、本発明のいくつかの実施形態では、これらに代えて又は加えて、フレームベースのカメラ12からのフレーム情報を有する検出器を使用してカメラ12の視野内の顔領域などの1又は2以上の関心領域を識別し、カメラ12、14の空間的関係及びそれぞれのカメラモデルを考慮してこれらの関心領域をカメラ14の視野内の対応する領域にマッピングすることにより、イベントカメラ14の視野内の1又は2以上の顔領域のイベント情報をそれぞれの画像フレーム内に蓄積することもできる。
【0042】
なお、フレームベースのカメラ12から取得されたフレームは、カメラ12のために設定されたフレームレートに従って周期的に到着すると理解されるであろう。一方で、イベントアキュムレータ16は、フレーム18を非同期的に、理論的には1イベントサイクル程度の小時間分解能で生成することができる。
【0043】
イベントカメラ14の視野内の関心領域内に大量の動きが存在する場合、イベントアキュムレータ16は極めて頻繁に、とにかくフレームベースのカメラ12によって生成されるよりも頻繁にフレーム18を生成することができる。
【0044】
本発明の実施形態では、アキュムレータ16によって提供される最新のフレーム、及びフレームベースのカメラ12によって提供される最新のフレームに
図2のニューラルネットワーク20が適用される。
【0045】
このことは、十分な物体の動きを前提として、フレームカメラ12によって新たなNIR画像フレームが提供される前にニューラルネットワーク20を複数回実行できることを意味する。
【0046】
それにもかかわらず、本発明のいくつかの実施形態では、カメラ12から提供されるフレーム間の間隔内に更新済みフレーム18がイベントアキュムレータ16によって提供されなかった場合、最新のNIR画像を使用してネットワーク20を再実行するとともに、イベントアキュムレータ16によって生成された最後の利用可能なフレームを要求し、或いはその最後のフレーム以降に生成されたイベントが存在する場合にはどのようなイベントであろうとそのイベントに基づいて必要な関心領域のフレームを生成するようにイベントアキュムレータ16に要求することができる。
【0047】
このことは、ネットワーク20が動きにかかわらずカメラ12の最低限のフレームレートで動作することを意味する。従って、30fpsで動作しているカメラ12では、20,000個のイベントを蓄積するために要した経過時間が(30fpsと同等の)0.033秒よりも大きい場合にネットワーク20が実行される。
【0048】
いずれの場合にも、イベントカメラ14によって提供されたシーンダイナミクスにネットワーク20が反応している間は、ごく最近に取得されたNIR画像が使用される。この結果、イベント画像フレームは「予定よりも早い(ahead of time)」傾向になり、基本的にNIR画像+動きを表す。
【0049】
このカメラ12によって提供される画像フレームとイベントアキュムレータ16によって提供される画像フレームとの間の時間的なずれを問題とみなすこともできるが、以下の説明からは、カメラ12、14の視野内で検出されたいずれかの顔の特性を決定する際に、この時間的なずれによって本出願の手法が悪影響を受けることはないと理解されるであろう。
【0050】
次に
図2をさらに詳細に参照すると、ネットワーク20は、フレームカメラ12によって検出された顔領域に対応する画像フレームを受け取るための第1の入力、及びイベントアキュムレータ16によって提供されたフレーム内で検出された顔領域に対応する画像フレームを受け取るための第2の入力という2つの入力を含む。
【0051】
図で分かるように、各入力は強度のみの224×224の画像を含み、従って各顔領域画像フレームは、ネットワーク20への提供前に、必要に応じて正しい解像度で提供されるようにアップサンプリング/ダウンサンプリング(正規化)する必要がある。
【0052】
各入力画像フレームは、2つ又は3つの畳み込み層の4つの連続ブロックを含むネットワークによって処理され、ブロックi=1~3の各々の後には不完全なVGG-16ネットワークと同様にマックスプール層が続く。
【0053】
図2では、適用可能な場合、各ブロックが、カーネルサイズ(3×3)、レイヤタイプ(Conv/MaxPool)、出力フィルタ数(32、64、128、256)、及びカーネルストライド(kernel stride)(\2)を表示する。
【0054】
なお、各入力を処理するネットワークの構造は同じであるが、各畳み込み層のカーネル内で使用される重みは一致しない場合もあり、理解されるようにこれらはネットワークの訓練中に学習される。
【0055】
ブロックi=1の中間出力(xv、xt)は、単純な畳み込み22に融合されて融合出力hiを生成する。
【0056】
ブロックi=2、3及び4の中間出力は、これらの直前のブロックの融合出力(h
i-1)と共に、それぞれのゲート付きマルチモーダルユニット(Gated Multimodal Unit:GMU)24-2、24-3、24-4を使用して融合される。各GMU24は、上記で引用したAreval他において提案される、
図2の右側に詳細に示すタイプのGMUセルのアレイを含む。各GMUセルは、ベクトルxv、xt及びh
i-1のそれぞれの要素に接続されて、そのセルの融合出力h
iを生成し、
h
v=tanh(W
v・x
v)
h
t=tanh(W
t・x
t)
z=σ(W
z・[x
v,x
t])
h
i=h
i-1*(z*h
v+(1-z)*h
t)
であり、
{W
v,W
t,W
z}は学習済みパラメータであり、
[・,・]は連結演算子を表し、
σは、セルh
iの出力全体に対する特徴x
v,x
tの寄与を制御するゲートニューロンを表す。
【0057】
これらのGMU24は、ネットワーク20がモダリティを組み合わせ、より良い推定値を与える可能性が高いモダリティを重視することを可能にする。
【0058】
従って、例えば大きな動きを体験しているシーンでは、カメラ12によって提供される画像フレームがぼやけて低コントラストを示す傾向にあると予想される。このようなぼやけたフレームの取得時又はその後にイベントアキュムレータによって提供される1又は2以上のフレームはいずれもシャープでなければならず、従ってネットワーク20は、これらの状況においてネットワークのイベントカメラ側からのこのようなフレームからの情報を優先するように好適な訓練セットを使用して訓練することができる。
【0059】
一方で、動きの少ない時間中には、GMU24は、イベントアキュムレータ16によって提供される最後に利用可能な画像フレームよりもフレームカメラ12からの高コントラスト画像の方にはるかに強く重み付けする傾向にあり、従ってたとえフレームカメラ12からのシャープな画像を処理する際に時代不明の画像フレームが利用可能な場合でも、GMU24はこの画像情報に強く重み付けしない傾向にある。いずれにせよ、シーン内に存在していた動きが少なければ少ないほど、イベントカメラ14からのいずれかの画像情報がフレームカメラ12から利用可能な情報を劣化させる傾向も低下する。
【0060】
さらに、各畳み込みブロックxv、xtの出力、並びに畳み込み層22及びGMU24の融合出力hiは、個々の要素が相互接続されたそれぞれのベクトルを含むので、このことは、カメラ12及びイベントアキュムレータ16によって提供されたそれぞれの画像の異なる空間領域に対して異なるように応答する可能性をネットワークに与える。
【0061】
図2のネットワークでは、畳み込み層22及びGMU24によってセンサ情報が結合され、ネットワーク内で4つの異なるレベルで重み付けされる。これにより、1つのセンサ12、14の低レベル特徴及び別のセンサの高レベル特徴を重視することが可能になり、或いはその逆も同様である。それにもかかわらず、リアルタイム性能を高めるようにネットワークアーキテクチャを変更し、初期の層においてGMU融合を1回又は2回のみ適用して計算コストを削減することができると理解されるであろう。
【0062】
なお、GMU24-2及び24-3の出力と入力との間、並びにGMU24-3及び24-4の出力と入力との間には、ブロック3及び4の中間出力のダウンサンプリングに一致させるために畳み込み26-1及び26-2が実行される。
【0063】
GMU24-4における最終的な特徴融合後には、1×1の畳み込み28を使用して、最終的なGMUによって提供される特徴ベクトルの次元を低減する。
【0064】
この実施形態では、畳み込み28によって提供される特徴ベクトルを、1又は2以上の個別のタスク固有チャネルに供給することができる。
【0065】
このようなチャネルの例示的な一般的構造を
図2の右上に示す。
【0066】
一般に、このような各チャネルは、1又は2以上のさらなる畳み込み層と、それに続く1又は2以上の完全連結(fc)層とを含むことができ、最後の完全連結層の1つ又はノードが必要な出力を提供する。
【0067】
この構造を使用して決定できる例示的な顔の特徴としては、以下に限定するわけではないが、頭部姿勢、視線及びオクルージョンが挙げられる。
【0068】
頭部姿勢及び視線は、頭部姿勢の場合にはそれぞれ頭部のピッチ角、ヨー角及びロール角に対応する3(x,y,z)の出力層ノードを使用して、視線の場合には目のヨー角及びピッチ角に対応する2(x,y)の出力層ノードを使用してそれぞれ表すことができる。
【0069】
頭部姿勢の正確な推定は、頭部の角速度の計算を可能にする。従って、例えば衝突中の頭部の初期方向を知ることで、衝突時にDMSがより知的なアクションを行うための文脈情報を得ることができる。
【0070】
視線角度は、ドライバーが衝突を予期していたかどうかに関する情報を提供することができる。例えば、追突中にドライバーがバックミラーを見ていれば、衝突の可能性を認識していたことを示すことができる。システムは、衝突物体に向かう瞳孔サッカード(pupil saccades)を追跡することで、反応までの時間、及び自律緊急ブレーキなどの先進運転支援システム(ADAS)の介入が必要であるかどうかを計算することができる。
【0071】
なお、頭部姿勢及び視線は、いずれもネットワークに提供される顔領域画像内に現れる通りの顔について決定され、従って相対的なものである。頭部の絶対位置又は視線の絶対角度を提供するには、画像平面とカメラ12、14との間の関係の知識が必要である。
【0072】
オクルージョンは、(乗員が眼鏡をかけている)目のオクルージョンを示すもの、及び(乗員がマスクを着けているように見える)口のオクルージョンを示すものに対応するそれぞれの出力ノード(x又はy)によって示すことができる。
【0073】
他の形態の顔特徴としては、国際公開第2019/145578号(参照番号:FN-630-PCT)及び2019年8月19日に出願された「ニューラルネットワークを用いた画像処理方法(Method of image processing using a neural network)」という名称の米国特許出願公開第16/544,238号で説明されているものなどの、例えば
図3に示すような顔領域の周辺の一連の関心点の位置を含む顔のランドマークが挙げられる。
【0074】
しかしながら、このようなランドマークを生成するために、畳み込み層24によって生成された特徴ベクトルを、2019年8月16日に出願された「ニューラルネットワークを用いた画像処理方法」という名称の米国特許出願公開第16/544,238号(文献:FN-651-US)に開示されているタイプのネットワークのデコーダネットワーク及び完全連結ネットワークに有益に提供することもでき、この文献の開示は引用により本明細書に組み入れられる。
【0075】
訓練に関連して言えば、この事例では視線、頭部姿勢及び顔のオクルージョンという個々のタスクの学習効率及び性能はマルチタスク学習によって高められる。
【0076】
ネットワーク20が訓練時に1つのカメラをいつ他のカメラよりも信頼すべきであるかを学習するように、NIRカメラ12の限界(ぶれ)及びイベントカメラ14の限界(動きなし)を考慮することが望ましい。従って、以下の補強方法を取り入れることができる。
1.IRカメラ12に対する依拠を促すには、限られた動きを反映するように訓練セットのいくつかの部分のイベント数を制限することができる。アテンションメカニズムは、イベント数が少ない場合にはNIRカメラの方に重きを置くはずである。
2.ベントカメラに対する依拠を促すには、NIRカメラ12の訓練セットの他の部分にランダムな被写体ぶれを適用して非常に速い物体の動きを反映させることができる。このことは、NIRがぶれに弱く時間分解能に欠ける衝突中に当てはまるはずである。
【0077】
上記の実施形態は、2つのモダリティを融合させるという観点から説明したものであるが、2つよりも多くの入力を融合させるように畳み込み層22及びGMU24のセルを拡張して、2つよりも多くのモダリティを融合させるようにネットワーク20を拡張することもできると理解されるであろう。
【符号の説明】
【0078】
10 画像処理システム
12 フレームベースのカメラ
14 イベントカメラ
16 イベントアキュムレータ
18 画像フレームフォーマット
20 ニューラルネットワーク
【手続補正書】
【提出日】2023-09-14
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
画像処理システム
(10)であって、
カメラの視野をカバーする画像フレームを周期的に提供するように構成されたフレームベースのカメラ
(12)と、
前記フレームベースのカメラの視野と重なり合う視野を有し、視野内のx、y位置において検出された光強度の変化が閾値を上回ったことを示すイベントに応答してイベント情報を提供するように構成されたイベントカメラ
(14)と、
前記
重なり合う視野内の関心領域を識別する検出器と、
前記関心領域内の連続するイベントサイクル中に発生し、それぞれが前記関心領域内のx、y位置、該x、y位置に入射する検出された光強度の変化の極性、及び前記イベントが発生したイベントサイクルを示す複数のイベントからのイベント情報を蓄積し、前記関心領域のイベント基準が満たされたことに応答して、
前記関心領域内の移動量に応じたイベントの発生率に応じて変化する頻度で、前記関心領域内から蓄積されたイベント情報から前記関心領域の画像フレームを生成するアキュムレータ
(16)と、
前記フレームベースのカメラから画像フレームを受け取り、前記アキュムレータから前記関心領域の画像フレームを受け取るように構成され、複数の畳み込み層
(ブロック1~4)を介して各画像フレームを処理して、1又は2以上の中間画像のそれぞれの組を提供するように構成され、前記画像フレームの各々から生成された中間画像の少なくとも1つの対応するペアを、それぞれが各中間画像の少なくともそれぞれの要素に接続され、各中間画像からの各要素に重み付けして前記融合出力を提供するように訓練された融合セル
(22~28)のアレイを通じて融合させるようにさらに構成されたニューラルネットワークであって、最終的な中間画像の組から前記融合出力を受け取り、前記関心領域のための1又は2以上のタスク出力を生成するように構成された少なくとも1つのタスクネットワークをさらに含むニューラルネットワーク
(20)と、
を備え
、
前記検出器は、前記フレームベースのカメラ又は前記イベントカメラのいずれかによって提供された前記画像フレーム内の関心領域を識別するように構成される、
システム。
【請求項2】
前記中間画像のペアの各融合セルは、以前の中間画像のペアからの融合出力
(hi-1)のそれぞれの要素にさらに接続される、
請求項1に記載のシステム。
【請求項3】
各融合セルは、
h
v=tanh(W
v・x
v)
h
t=tanh(W
t・x
t)
z=σ(W
z・[x
v,x
t])
h
i=h
i-1*(z*h
v+(1-z)*h
t)
との関数に従って前記セルの融合出力hiを生成するように構成され、
x
v,x
tは各中間画像の要素値であり、
{W
v、W
t、W
z}は学習済みパラメータであり、
h
i-1は前の中間画像のペアからの融合出力の要素値であり、
[・,・]は連結演算子を示し、
σはゲートニューロンを表す、
請求項1に記載のシステム。
【請求項4】
前記ニューラルネットワークは、畳み込み層
(22)を通じて第1の中間画像の組を融合させるように構成される、
請求項2に記載のシステム。
【請求項5】
前記ニューラルネットワークは、前記複数の畳み込み層間に1又は2以上のプーリング層をさらに含む、
請求項1に記載のシステム。
【請求項6】
前記フレームベースのカメラからの前記画像フレーム及び前記アキュムレータからの前記画像フレームの解像度を前記ニューラルネットワークが必要とするサイズに一致させるようにさらに構成される、
請求項1に記載のシステム。
【請求項7】
前記関心領域は顔領域を含む、
請求項1に記載のシステム。
【請求項8】
頭部姿勢、視線、又は顔のオクルージョンを示すもののうちの1つを提供するそれぞれのタスクネットワークを備える、
請求項7に記載のシステム。
【請求項9】
各タスクネットワークは1又は2以上の畳み込み層を含み、これらに1又は2以上の完全接続層が後続
し、
前記頭部姿勢タスクネットワークの出力層は3つの出力ノードを含み、前記視線タスクネットワークの出力層は2つの出力ノードを含み、前記顔のオクルージョンを示すタスクネットワークの出力層は、オクルージョンの各タイプについての出力ノードを含む、
請求項8に記載のシステム。
【請求項10】
前記顔領域の顔ランドマークの組を提供するタスクネットワークを備える、
請求項7に記載のシステム。
【請求項11】
前記フレームベースのカメラは近赤外(NIR)波長を感知する、
請求項1に記載のシステム。
【請求項12】
請求項1に記載の画像処理システムを備えたドライバーモニタリングシステムであって、前記画像処理システムは、前記1又は2以上のタスク出力を先進運転支援システム(ADAS)に提供するように構成される、
ドライバーモニタリングシステム。
【請求項13】
カメラの視野をカバーする画像フレームを周期的に提供するように構成されたフレームベースのカメラと、
前記フレームベースのカメラの視野と重なり合う視野を有し、イベントカメラの視野内のx、y位置において検出された光強度の変化が閾値を上回ったことを示すイベントに応答してイベント情報を提供するように構成されたイベントカメラとを備えたシステムにおいて動作可能な画像処理方法であって、
前記
重なり合う視野内の関心領域を識別するステップと、
前記関心領域内の連続するイベントサイクル中に発生し、それぞれが前記関心領域内のx、y位置、前記x、y位置に入射する検出された光強度の変化の極性、及び前記イベントが発生したイベントサイクルを示す複数のイベントからのイベント情報を蓄積し、前記関心領域のイベント基準が満たされたことに応答して、
前記関心領域内の移動量に応じたイベントの発生率に応じて変化する頻度で、前記関心領域内から蓄積されたイベント情報から前記関心領域の画像フレームを生成するステップと、
前記フレームベースのカメラから画像フレームを受け取り、前記アキュムレータから前記関心領域の画像フレームを受け取
り、前記関心領域は、前記フレームベースのカメラ又は前記イベントカメラのいずれかによって提供された前記画像フレーム内で識別されるステップと、
ニューラルネットワークの複数の畳み込み層を通じて各画像フレームを処理して、1又は2以上の中間画像のそれぞれの組を提供するステップと、
前記画像フレームの各々から生成された中間画像の少なくとも1つの対応するペアを、それぞれが各中間画像の少なくともそれぞれの要素に接続され、各中間画像からの各要素に重み付けして前記融合出力を提供するように訓練された
前記ニューラルネットワークの融合セルのアレイを通じて融合させるステップと、
最終的な中間画像のペアから前記融合出力を受け取るステップと、
前記関心領域のための
前記ニューラルネットワークの1又は2以上のタスク出力を生成するステップと、
を含む方法。
【請求項14】
コンピュータ可読媒体上に記憶されたコンピュータ可読命令を含むコンピュータプログラム製品であって、前記コンピュータ可読命令は、コンピュータ装置上で実行されたときに請求項
13のステップを実行するように構成される、
コンピュータプログラム製品。
【国際調査報告】