IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ スマート、アイ、アクチボラグの特許一覧

<>
  • 特許-なりすまし防止システム 図1a
  • 特許-なりすまし防止システム 図1b
  • 特許-なりすまし防止システム 図2
  • 特許-なりすまし防止システム 図3
  • 特許-なりすまし防止システム 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-06-06
(45)【発行日】2025-06-16
(54)【発明の名称】なりすまし防止システム
(51)【国際特許分類】
   G06V 40/40 20220101AFI20250609BHJP
   G06T 7/00 20170101ALI20250609BHJP
   G06V 10/141 20220101ALI20250609BHJP
   G06V 10/764 20220101ALI20250609BHJP
   G06V 10/82 20220101ALI20250609BHJP
   G06V 20/59 20220101ALI20250609BHJP
【FI】
G06V40/40
G06T7/00 350C
G06T7/00 660A
G06V10/141
G06V10/764
G06V10/82
G06V20/59
【請求項の数】 13
(21)【出願番号】P 2022581602
(86)(22)【出願日】2021-07-01
(65)【公表番号】
(43)【公表日】2023-07-28
(86)【国際出願番号】 EP2021068192
(87)【国際公開番号】W WO2022003107
(87)【国際公開日】2022-01-06
【審査請求日】2024-03-28
(31)【優先権主張番号】20183434.8
(32)【優先日】2020-07-01
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】522087707
【氏名又は名称】スマート、アイ、アクチボラグ
【氏名又は名称原語表記】SMART EYE AB
(74)【代理人】
【識別番号】100120031
【弁理士】
【氏名又は名称】宮嶋 学
(74)【代理人】
【識別番号】100107582
【弁理士】
【氏名又は名称】関根 毅
(74)【代理人】
【識別番号】100118843
【弁理士】
【氏名又は名称】赤岡 明
(72)【発明者】
【氏名】シモン、リジェストランド
(72)【発明者】
【氏名】ケネス、ヨンソン
(72)【発明者】
【氏名】ヨーン、ファイナー
(72)【発明者】
【氏名】シュテファン、クリントベルク
【審査官】岡本 俊威
(56)【参考文献】
【文献】米国特許出願公開第2018/0349721(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 10/141
G06V 10/764
G06V 10/82
G06V 40/40
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
なりすましの試行を検出するように構成された運転者監視システム(DMS)であって、当該システムは:
- ターゲットの一部分の画像フレームのシーケンスを取り込むためのNIR画像センサモジュールと、
- IRパルスを放出するように動作可能な光源であって、前記パルスはパルス幅を有するとともに間隔継続時間によって時間的に分離されている、光源と、
- 前記シーケンスの連続する各画像を異なる照明条件で取り込むように前記光源および前記画像センサモジュールを制御するように構成されたコントローラであって、前記異なる照明条件が前記光源の前記IRパルスに対応する、コントローラと、
- プロセッサと
を備え、前記プロセッサ内にプロセッサ動作可能ソフトウェアが実装され、前記ソフトウェアは:
・前記画像のシーケンスにおける動きを分析し、動きベースの結果を出力するように動作可能な動き分析器と、
・前記画像シーケンスからの少なくとも2つの連続する画像のセットを積み重ねることによって作成される少なくとも2チャネルの画像から、少なくとも1つのタイプの情報を抽出し、空間的結果を出力するように動作可能な第1のニューラルネットワークと、
・前記動きベースの結果および前記空間的結果をマージし、最終結果を出力するように動作可能な融合プログラムであって、前記最終結果は、前記ターゲットが生存しているか偽物であるかを示す、融合プログラムと
を具備し、
前記第1のニューラルネットワークは、3D形状分析を実行して前記少なくとも1つのタイプの情報を抽出するように訓練され、前記空間的結果は2D形状と3D形状とを判別する、運転者監視システム。
【請求項2】
前記融合プログラムは分類器であり、該分類器は、前記動きベースの結果および/または前記空間的結果に基づいて、前記最終結果を出力する、請求項1に記載のシステム。
【請求項3】
前記動き分析器は、前記ターゲットの前記画像フレームの目領域における目の特徴のセットおよび反射光位置を識別し、前記反射光位置および前記目の特徴に基づいて注視方向を決定するように構成されたアイトラッキングプログラムである、請求項1に記載のシステム。
【請求項4】
前記アイトラッキングプログラムは、前記画像のシーケンスにおける前記ターゲットの網膜に対する反射を検出および比較し、結果を前記融合プログラムに供給するようにさらに構成される、請求項3に記載のシステム。
【請求項5】
前記光源は、第1の距離だけ空間的に分離されてIR光を交互に放出するように設定された少なくとも2つのIR光源を備える、請求項1~4のいずれか一項に記載のシステム。
【請求項6】
前記異なる照明条件のうちの1つが、IRパルス間の非照射条件に対応する、請求項1~5のいずれか一項に記載のシステム。
【請求項7】
前記第1のニューラルネットワークは、テクスチャ情報分析を実行して前記少なくとも1つのタイプの情報を抽出するように訓練され、前記空間的結果は、前記ターゲットが生存しているかテクスチャ的に偽物であるかの分類となる、請求項1~6のいずれか一項に記載のシステム。
【請求項8】
前記第1のニューラルネットワークがさらに前記融合プログラムとして機能し、前記空間的結果が前記最終結果となるように、前記動きベースの結果が前記第1のニューラルネットワークへの入力として供給されるか、あるいは、
前記動き分析器がさらに前記融合プログラムとして機能し、前記動きベースの結果が前記最終結果となるように、前記空間的結果が前記動き分析器への入力として供給される、請求項1~7のいずれか一項に記載のシステム。
【請求項9】
前記プロセッサ実装ソフトウェアは、シーンダイナミクス分析を実行して複数の画像シーケンスから第2のタイプの情報を抽出し、反復結果を出力するように訓練された、第2のニューラルネットワークをさらに備え、前記反復結果は第2の動きベースの結果であり、前記第2のニューラルネットワークによって出力された前記反復結果が、前記融合プログラムに供給される、請求項1~8のいずれか一項に記載のシステム。
【請求項10】
運転者監視システム(DMS)を使用して、なりすましの試行を検出するための方法であって、当該方法は:
a)IRパルスを放出するステップであって、前記パルスはパルス幅を有するとともに間隔継続時間によって時間的に分離されている、ステップと、
b)シーケンスの連続する各画像が異なる照明条件で取得されるように、ターゲットの少なくとも一部分の画像フレームのシーケンスを取得するステップであって、前記異なる照明条件が前記IRパルスに対応する、ステップと、
c)前記画像フレームのシーケンスにおける動きを分析し、動きベースの結果を出力するステップと、
d)少なくとも2つの画像が連続して取得されるように、前記画像フレームのシーケンスから、少なくとも2つの画像の少なくとも1つのセットを選択するステップと、
e)前記少なくとも2つの画像のセットにおける関心領域を決定するステップと、
f)前記少なくとも2つの画像のセットを積み重ねることによって、少なくとも2チャネルの画像を作成するステップと、
g)前記少なくとも2チャネルの画像を、3D形状分析を実行するように訓練された第1のニューラルネットワークに供給するステップと、
h)少なくとも1つのタイプの情報を抽出するステップと、
i)前記抽出された情報に基づいて空間的結果を出力するステップであって、該空間的結果は2D形状と3D形状とを判別する、ステップと、
j)前記動きベースの結果および前記空間的結果をマージして、前記ターゲットが生存しているか偽物であるかを判定する最終結果を取得するステップと
を具備する、方法。
【請求項11】
ステップcにおける前記動きベースの結果も、前記第1のニューラルネットワークに提供される、請求項1に記載の方法。
【請求項12】
複数の画像シーケンスから第2のタイプの情報を抽出するためのシーンダイナミクス分析を実行するステップと、
反復結果を出力するステップであって、該反復結果は第2の動きベースの結果である、ステップと、
ステップjにおいて前記反復結果をマージして、最終結果を取得するステップと
をさらに具備する、請求項1または1に記載の方法。
【請求項13】
前記動きベースの結果、前記空間的結果、前記反復結果、および/または前記最終結果のうちの少なくとも1つの信頼度を算出するさらなるステップを具備する、請求項10~12のいずれか一項に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、なりすましの試行を検出するように構成された運転者監視システム(DMS:Driver Monitoring System)に関する。
【背景技術】
【0002】
技術が、様々な生体情報に基づいて識別情報を正確に特定する能力を高めるにつれて、生体情報は認証要素としてますます一般的になっている。生体情報を使用する識別が正確であることは、その識別が認証および否認不可を保証できることを意味し、生体情報が本質的に人物に結び付けられているという事実は、パスワードを記憶するまたはキーなどの物理的なトークンを携帯するなどの負担を課すことのない可用性を保証する。しかしながら、新しい認証要素には、安全性が保証されるように考慮する必要がある新しい潜在的な攻撃ベクトルが伴う。攻撃ベクトルの1つはなりすましである可能性があり、なりすましは、認証されたユーザの生体データを模倣する偽造された生体データを提示することである。例えば、認証要素として視覚的な顔の特徴が使用される場合、認証された人物の写真を提示することによって、またはその人物のように見えるマスクを着用することによって、顔の特徴になりすますことができる。したがって、生体認証要素を安全にするには、これらの攻撃に対処するためのロバストな方法が開発される必要がある。
【0003】
顔認識を含む生体認証システムに対するなりすまし攻撃を検出するための様々な手法が以前に提示されており、そのうちのいくつかは、NIRスペクトル内の画像に基づくなりすまし検出に基づいている。2019年9月23日の回路、システム、通信およびコンピュータに関する国際会議でのA. Ghoneim, S. Mohamed,およびA. Youssifによる論文「Visible/infrared face spoofing detection using texture descriptors」では、NIR画像と可視光画像との両方を使用した、なりすまし防止のためのマルチスペクトルソリューションが開示されている。さらに、この論文は、視覚データおよびNIRデータに対して畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)を別々にまたは組み合わせて利用することを含む様々な手法を開示している。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、なりすまし防止システムは、日常場面、例えば車両内において、容易に利用可能であり、かつシームレスに機能可能であることが必要である。車両内では、視覚ベースのユーザ認証、例えば顔認証が非常に有益である。さらに、これらのなりすまし防止システムを既存のハードウェアに最小限のコストで統合できることが望ましい。
【0005】
したがって、本発明の目的は、車両内の既存のハードウェアと互換性のある実行可能ななりすまし防止システムを提供し、より信頼性の高い視覚的識別を可能にすることである。
【課題を解決するための手段】
【0006】
本発明の第1の態様によれば、この目的および他の目的は、なりすましの試行を検出するように構成された運転者監視システム(DMS)によって達成される。当該システムは、ターゲットの一部分の画像フレームのシーケンスを取り込むための画像センサモジュールと、IRパルスを放出するように動作可能な光源であって、IRパルスはパルス幅を有するとともに間隔継続時間(separation time duration)によって時間的に分離されている、光源と、シーケンスの連続する各画像を異なる照明条件で取り込むように光源および画像センサモジュールを制御するように構成されたコントローラであって、異なる照明条件が光源のIRパルスに対応する、コントローラと、プロセッサとを備える。プロセッサ内には、プロセッサ動作可能ソフトウェアが実装される。ソフトウェアは、画像のシーケンスにおける動きを分析し、動きベースの結果を出力するように動作可能な動き分析器と、画像シーケンスからの少なくとも2つの連続する画像のセットを積み重ねることによって作成される少なくとも2チャネルの画像から、少なくとも1つのタイプの情報を抽出し、空間的結果を出力するように訓練された第1のニューラルネットワークと、動きベースの結果および空間的結果をマージし、最終結果を出力するように動作可能な融合プログラムであって、最終結果は、ターゲットが生存(live)しているか偽物(fake)であるかを示す、融合プログラムとを具備する。
【0007】
第1のニューラルネットワークは、3D形状分析を実行して少なくとも1つのタイプの情報を抽出するように訓練され、空間的結果は2D形状と3D形状とを判別する。換言すれば、第1のニューラルネットワークは、少なくとも2つの連続する画像のセットの異なる照明条件によって提供される3D情報を活用してもよく、テクスチャ情報と形状情報との組合せを抽出してもよい。
【0008】
画像センサモジュールおよび光源は、DMSシステムの統合された部分であってもよい。画像は、ターゲットの少なくとも一部分、例えば、運転者の目領域、または運転者の顔全体から撮影されてもよい。
【0009】
一実施形態によれば、融合プログラムは分類器であり、分類器は、動きベースの結果および/または空間的結果に基づいて、最終結果を出力する。最終結果は、DMSによって取得された画像が実際に生きている人物に関連している(生存)か、或いは関連していない(偽物)かを示すものと理解されるべきである。
【0010】
融合プログラムは、あるタイプの分類器、例えば、限定されないが、規則ベースの分類器、または代替的には、予め登録されたデータで訓練され得るニューラルネットワーク分類器であってもよい。分類器は、動き分析器および第1のニューラルネットワークのいずれかまたは両方の出力に基づいて結果を判定してもよい。例えば、基本的な規則ベースの分類器は、単純に動きベースの結果および空間的結果の両方またはいずれかを最終結果として転送してもよい。代替的には、動きベースの結果と空間的結果との両方が、ターゲットが「偽物」であると判定する場合、融合プログラムは、「偽物」であるという最終結果を出力してもよく、そうではなく、動きベースの結果および/または空間的結果がターゲットは生存していると判定する場合、融合プログラムは、「生存」しているという最終結果を出力してもよい。
【0011】
したがって、融合プログラムは、両方のタイプのなりすまし防止システムの利点を保証し、すなわち、動き分析器と第1のニューラルネットワークとがともにまとめられて、1つのコンパクトで低コストのシステム内で活用されるという手段によって保証する。
【0012】
動き分析器は、出力される動きベースの結果が、シーケンスの画像フレームの以前に分析された可能性がある以前の画像フレームの結果に依存し得るような、アイトラッカなどの追跡器であってもよい。
【0013】
画像のシーケンスを異なる照明条件で取得する理由は、異なる照明条件で取り込まれた複数の2D画像に基づいて、3D表面が少なくとも部分的に再構築され得るからであり、これは通常、フォトメトリックステレオ法と呼ばれることがある。これは、表面から反射される光の量が表面と光源とカメラとの間の角度関係によって変化する可能性があるという事実に起因するものである。
【0014】
本発明の第2の態様によれば、運転者監視システム(DMS)を使用して、なりすましの試行を検出するための方法は、
a)IRパルスを放出するステップであって、パルスはパルス幅を有するとともに間隔継続時間によって時間的に分離されている、ステップと、
b)シーケンスの連続する各画像が異なる照明条件で取得されるように、ターゲットの少なくとも一部分の画像フレームのシーケンスを取得するステップであって、異なる照明条件がIRパルスに対応する、ステップと、
c)画像フレームのシーケンスにおける動きを分析し、動きベースの結果を出力するステップと、
d)2つの画像が連続して取得されるように、画像フレームのシーケンスから、少なくとも2つの画像の少なくとも1つのセットを選択するステップと、
e)少なくとも2つの画像のセットにおける関心領域を決定するステップと、
f)少なくとも2つの画像を(深さ方向に)付加する(または積み重ねる)ことによって、少なくとも2チャネルの画像を作成するステップと、
g)少なくとも2チャネルの画像を第1のニューラルネットワークに供給するステップと、
h)少なくとも1つのタイプの情報を抽出するステップと、
i)抽出された情報に基づいて空間的結果を出力するステップと、
j)動きベースの結果および空間的結果をマージして、ターゲットが生存しているか偽物であるかを判定する最終結果を取得するステップと
を具備する。
【0015】
運転者監視システム(DMS)は、交通安全のためのアイトラッキングなどの運転者の注意力を監視するための標準的な構成要素になりつつあり、DMSは、目および口などの顔の特徴の運動に関する豊富な情報を提供する。本発明者らは、誤差率への影響が少なく、統合コストが低く、実行速度が速いなりすまし防止システムを得るために、車両内のDMSの既存のハードウェアを使用することによって、DMSから既に提供されている情報と、ニューラルネットワークの使用などのなりすまし詐欺に対処するための既存の手法とを組み合わせることができることを認識した。
【0016】
ステップeは、動きベースの結果に基づいて実行されてもよく、動きベースの結果から、関心領域の位置を含む特徴位置が抽出されてもよい。ステップeはフレーム準備と呼ばれることがある。フレーム準備では、所定のサイズで関心領域を含むように、連続する画像フレームは、例えば、切り取り、回転、平行移動などされてもよい。
【0017】
ステップdでセットのために選択された画像の数に応じて、ステップfにおいて、付加された各画像が、追加のチャネルを追加する。
【0018】
画像フレームは、NIR画像センサモジュールによって取得されてもよく、IRパルスは、少なくとも1つの光源によって放出されてもよい。ステップcからステップk、および後述される代替および/または追加のステップはすべて、プロセッサ実装ソフトウェアを備えるプロセッサによって実行されてもよい。
【0019】
画像センサモジュールは、カメラアセンブリ、または略してカメラと呼ばれることがある。したがって、本出願の文脈において、画像センサモジュールおよびカメラという用語は、交換可能に使用されており、特に記載されていない限り、同じ構成要素を指すことを意味することに留意されたい。
【0020】
一実施形態では、光源は、IR光を連続的に放出するように構成される。換言すれば、間隔継続時間は、ゼロになるように設定される。この実施形態によれば、1つの照明条件のみが存在するため、第1のニューラルネットワークは、テクスチャ情報のみを抽出する可能性を有する場合があり、3Dを抽出する可能性を有さない場合がある。
【0021】
代替的には、IR光源は、カメラからある距離だけ離れた少なくとも2つのIR光源を備えてもよく、カメラはターゲットからある一定の距離に位置している。一実施形態では、2つの光源は、第1の距離だけ空間的に分離されてIR光を交互に放出するように設定される。光源は、カメラの両側などの互いに最も離れた距離に位置してもよい可能性がある。代替的には、一方の光源は、カメラの前面に、すなわちターゲットのより近くに位置してもよく、他方はカメラの片側に位置している。空間的な分離は、画像が取得される個別の照明条件を得ることを可能する場合がある。
【0022】
2つ以上の光源の場合、各光源からのIRパルスのパルス幅は等しい可能性がある。代替的には、各光源からのIRパルスのパルス幅は等しくない可能性がある。
【0023】
画像のシーケンスは、IRパルスのパルス幅に排他的に対応する様々な照明条件で撮影されてもよい。後者は、2つ以上の光源を有する実施形態に最適な構成であってもよい。追加として、または代替的には、異なる照明条件のうちの1つは、IRパルス間の非照射条件に対応する。換言すれば、特定の照明条件が光源の非照射であるように、画像のいくつかは、パルス間の時間間隔中に取得されてもよい。この場合、環境照明は、異なる照明条件のうちの1つを提供してもよい。
【0024】
ネットワークが、生存しているターゲットと偽物のターゲットとを区別することに集中できるように、画像のシーケンスからの連続する画像間のターゲットの不必要な著しい運動を低減するために、画像のシーケンスからの連続する画像は、その連続する画像間の時間的距離が短いことが好ましい。それでもはやり、ネットワークは、ターゲットおよび/またはカメラおよび/またはまぶたなどの特徴が連続するフレーム間で動いた場合、例えば画像の幾何学的位置合せによってフレーム間の任意の既存の動きを処理するように訓練されてもよい。
【0025】
追加として、または代替的には、一実施形態では、アイトラッキングプログラムは、画像のシーケンスにおけるターゲットの網膜に対する反射を検出および比較し、結果を融合プログラムに供給するように構成される。この実施形態では、ターゲットの瞳孔の外観が異なり得る照明条件が、作成および比較されてもよい。網膜が至近距離からの光パルスによって照射されると、「赤目現象」と呼ばれ得る現象が発生する可能性がある。この実施形態では、動き分析器は、顔の動き自体を必ずしもまたは明示的に検出する必要はなく、異なる照明条件で網膜からの反射の存在または非存在を検出することができ、例えば、動き分析器は、瞳孔が明るいか暗いかを検出してもよい。この実施形態は、ターゲットの2Dプリントまたは繰り返される映像ループなどのなりすましを高速かつ効率的な方法で検出するのに非常に有益である場合がある。追加として、または代替的には、さらに、または代わりに、瞳孔が明るいか暗いかについての情報は、第1のニューラルネットワークへの入力として供給されてもよい。動き分析器からの情報が入力として第1のニューラルネットワークに供給され得る代替の実施形態についてのさらなる情報は、本文中においてさらに見出され得る。
【0026】
ニューラルネットワークは、画像解析における分類問題に成功裏に使用されている。一実施形態では、第1のニューラルネットワークは、テクスチャ情報分析を実行して少なくとも1つのタイプの情報を抽出するように訓練される。空間的結果は、ターゲットが生存しているか、テクスチャ的に偽物であるか、なりすまし、例えば2D写真の一部、偽物の物体、もしくは再生中の映像ループであるかの分類となる。偽物の物体は、マスク、人形の頭などの偽物の人間の頭、またはマネキンであってもよい。
【0027】
テクスチャ情報を抽出して分析するために、ニューラルネットワークは、色、線、シルエットなどのテクスチャ情報を認識し、生存しているターゲットのテクスチャおよび/または形状と、偽物のターゲットのテクスチャおよび/または形状とを見分けるように訓練されてもよい。
【0028】
第1のニューラルネットワークは、「生存」しているか「偽物」であるかを中間レベルで区別するように訓練されてもよい。少なくとも2つの連続する画像のセットは、この目的のためにともに結合され、第1のニューラルネットワークに供給されてもよい。第1のニューラルネットワークは、供給された積み重ねられた画像から、テクスチャ情報を抽出してもよい。
【0029】
一実施形態では、動きベースの結果と空間的結果との両方が融合プログラムへの直接入力として供給され、動きベースの結果および空間的結果を直接マージすることによって、最終結果を出力する。
【0030】
代替的には、一実施形態では、第1のニューラルネットワークはさらに、空間的結果が最終結果となるように融合プログラムとして機能し、かつ/または動きベースの結果、すなわち動き分析器からの検出および分析された動き情報は、入力として第1のニューラルネットワークに供給される。この実施形態では、第1のニューラルネットワークは、動きデータ分析からの情報に対して動作して、ターゲットが生存しているか偽物であるかに関する情報を抽出するようにさらに訓練される。この実施形態では、空間的結果と最終結果は同じである可能性があり、なりすまし検出システムからの最終出力結果と同じである可能性がある。この実施形態では、少なくとも2つの画像のセットにおける関心領域を決定するために、例えば、少なくとも2つの画像のセットの画像フレームを切り取り、ターゲットの顔領域を抽出するために、少なくとも動きベースの結果のサブセットが使用されてもよい。
【0031】
さらに別の代替の実施形態では、動き分析器はさらに、第1のニューラルネットワークから出力された空間的結果が動き分析器への入力として供給される融合プログラムとして機能する。この代替の実施形態では、動き分析器はさらに、第1のニューラルネットワークからの情報に対して動作して、ターゲットが生存しているか偽物であるかに関する情報を抽出するように訓練される。この実施形態では、動きベースの結果と最終結果は同じであり、なりすまし検出システムからの最終出力結果と同じである。
【0032】
DMSシステムでは、当然のことながら、NIR画像センサモジュールによって、ターゲットの少なくとも一部分の画像フレームの2つ以上のシーケンスが連続して取り込まれる可能性がある。これは、DMSシステムの映像取得機能とよく合致している可能性がある。この場合、動き分析器は、画像の複数のシーケンスの各シーケンスにおける動きを分析し、2つ以上の動きベースの結果を出力するように動作可能である可能性があり、各動きベースの結果は、画像の分析された各シーケンスに対応する。追加として、または代替的には、第1のニューラルネットワークは、2つ以上の画像シーケンスのそれぞれからの少なくとも2つの連続する画像のセットから、少なくとも1つのタイプの情報を抽出し、2つ以上の空間的結果を出力するように動作可能であってもよく、各空間的結果は、画像の各シーケンスに対応する。
【0033】
これにより、なりすまし分析の数が増加するため、システムはより信頼性の高いなりすまし検出の恩恵を受けることができる。後者は、使用期間を通じて、例えば運転中、所与の頻度で実行される可能性がある。
【0034】
追加として、または代替的には、一実施形態では、プロセッサ実装ソフトウェアは、シーンダイナミクス分析を実行して複数の画像シーケンスから第2のタイプの情報を抽出し、反復結果を出力するように訓練された、第2のニューラルネットワークをさらに備える。反復結果は第2の動きベースの結果であり、第2のニューラルネットワークによって出力された反復結果が、融合プログラムに供給される。
【0035】
画像フレームの複数のシーケンスが取得される場合、長期間にわたってターゲットを分析することによって、なりすまし検出に有用な他の情報が抽出されてもよい。このために、画像の各シーケンスの画像フレームは、多重スタックの各スタックが画像の1つのシーケンスに対応するように、ともに1つのスタックに付加されてもよい。これは、なりすまし検出に対して分析のさらに別の層を追加することができ、矛盾または繰返しが検出され、反復結果が出力され、融合プログラムに供給されてもよい。
【0036】
これもやはり、なりすまし検出の追加層が算出の誤差率を減少させ、なりすまし検出の信頼性を向上させるので、なりすましの試行を検出するのに有益である場合がある。
【0037】
例えば、多重スタックが供給され得る第2のニューラルネットワークとして、再帰型ニューラルネットワークアーキテクチャ(RNN)が利用されてもよい。一実施形態では、第2のニューラルネットワークは、シーンダイナミクスを分析して第2のタイプの情報を抽出するように訓練される。シーンダイナミクスとは、例えば、ターゲットの周囲環境を指す場合があり、周囲環境とは、車両のキャビン内環境、および/または、例えば車両の窓を通して見える外部環境を指す場合がある。これは、カメラに提示されたターゲットの2Dプリントなど、風景が決して変わらないなりすましの試行を検出するのに有益である場合がある。追加として、または代替的には、さらに重要なことに、これは、時間の経過とともに風景の変化が反復される再生中の映像ループを検出する際に非常に有用である場合があり、なりすまし検出の1つの層だけ、すなわち第1のニューラルネットワーク分析を伴う動き分析(動きベースおよび空間的結果)だけでは、再生中の映像ループを検出することができない可能性がある。
【0038】
第2のニューラルネットワークは、動き分析器および/または第1のニューラルネットワークとは独立して動作可能である可能性がある。
【0039】
一実施形態は、動きベースの結果、空間的結果、反復結果、および/または最終結果のうちの少なくとも1つの信頼度を算出するさらなるステップを含む。これは、システム、測定、および/または分析において起こり得る誤差を考慮するのに有益である場合がある。
【0040】
本発明は、本発明の現在の好ましい実施形態を示す添付された図面を参照して、より詳細に説明される。
【図面の簡単な説明】
【0041】
図1a】なりすましの試行を検出するように構成されたDMSシステムを概略的に示す図である。
図1b】なりすましの試行を検出するように構成されたDMSシステムを概略的に示す図である。
図2】なりすまし防止システムの一実施形態のブロック図である。
図3】なりすまし防止システムの一実施形態のブロック図である。
図4】なりすましの試行を検出するための方法のフローチャートである。
【発明を実施するための形態】
【0042】
以下の詳細な説明では、本発明のいくつかの実施形態が説明される。しかしながら、他に特に明記されていない限り、種々の実施形態の特徴は、実施形態間で交換可能であり、種々の方法で組み合わされてもよいことを理解されたい。以下の説明では、本発明のより完全な理解を提供するために多くの具体的な詳細が記載されているが、当業者には、これらの具体的な詳細なしで本発明が実践され得ることが明らかであろう。
【0043】
図1aは、なりすましの試行を検出するように構成された、すなわち、DMSによって取得された画像が、実際に生きている人物に関連しているかどうか、および、例えば写真またはフェイスマスクのような何らかの人工物に関連していないかどうかを判定するように構成された、DMSシステム1を概略的に示している。
【0044】
図示された例では、システムは、カメラ10、および2つの赤外線(IR)光源20a、20bを含む。カメラ10は、一般に、実質的にスペクトルのIR部分内の放射を感知するように動作可能な複数の画素を含む活性領域を含む画像センサと、画像センサの活性領域上に配置された光学アセンブリ11とを備える。光学アセンブリ11は、コントローラ30によって制御され、画像のシーケンスに対応する露光のシーケンスに画像センサを連続的に露光するように構成される。光学アセンブリ11は、シャッタと、複数の画素から出力信号を取得するように構成された読出し回路と、複数の画素からの出力信号に基づいて画像のシーケンスを生成するように構成された1つまたは複数の画像プロセッサとを備えてもよい。カメラ10はさらに、IRまたは近IR(NIR)フィルタ13を含む。フィルタ13は、例えば、IRパルス間の間隔継続時間中に画像を取り込む場合に引き出し可能であるように構成されてもよい。光源20a、20bは、LEDなどの固体光源であってもよい。図示された例では、光源20a、20bは、約850nmまたは約940nm(NIR)を中心とする50nm帯域に集中した光スペクトルを有する光を放出するように構成されたLEDである。フィルタ13は、帯域通過フィルタ、例えば、干渉フィルタであってもよい。フィルタ13は、光源20a、20bの発光スペクトルに実質的に対応する通過帯域を有するように構成されてもよい。したがって、上述された例では、フィルタ13は、約825~875nm、または約915~965nmの通過帯域を有するべきである。狭帯域照明と狭帯域通過フィルタリングとの組合せは、画像取得システムが、周囲光、例えば日光の影響を受けにくくする。
【0045】
図1aおよび図1bでは、後者の構成要素のいくつかの互いの相対距離および/またはターゲット50、9からの相対距離が概略的に示されている。システム1は、車両(図示せず)内に設置されていると見なされ、カメラ10が運転者の顔50および/または運転者の目領域9(略して運転者と呼ばれる)であるターゲットと距離Dcだけ離れて向き合う状態にあるように位置している。一方、2つのIR光源20a、20bは、カメラの両側にあり、互いに長さLだけ、カメラ10から横方向距離laおよびlbだけ、運転者50、9から距離D1およびD2だけ離れている。図示された実施形態1では、2つの光源20a、20bがカメラおよび/または運転者50、9に対して同じ横平面上に位置していることに留意されたい。カメラ10と光源20a、20bとの間の垂直距離はLcである。しかしながら、DMSシステム1のいくつかの実施形態では、図1に示された実施形態とは異なり、2つの光源20a、20bがカメラ10および/またはターゲット50、9に対して非対称に位置していることに留意すべきである。カメラ10は、ターゲット50、9から画像フレームのシーケンスを取り込むように動作可能である。一方、IR光源20a、20bは、IR光のパルスを交互に放出するように構成される。カメラ10およびIR源20a、20bは、コントローラ30に電気的に接続される。コントローラ30は、光源20aおよび光源20bのいずれかから、かつ/または連続する各パルス間の時間間隔から放出されるIRパルスのパルス幅に画像フレームが対応するように、画像フレームの取得を制御するように構成される。
【0046】
実際的な例として、光源20a、20bは、1つの画像フレームを取得するのに十分な照明を提供するように選択されたデューティサイクルを有するパルスによってトリガされる。前述されたように、光源20a、20bのうちの一方または両方が、画像フレームのために起動されてもよい。好ましくは、光源20a、20bは、パルス幅がカメラ10が1つの画像を取得するのに必要とされる時間に対応することを保証するようなデューティサイクルを有するパルス信号によって制御される。カメラ10は、このパルス信号と同期される。
【0047】
コントローラ30は、プロセッサ実装ソフトウェアを備えるプロセッサ40に電気的に接続される。また、システムは、例えば処理回路15によって実行されるソフトウェアを記憶する、RAMメモリなどのメモリを有する。
【0048】
図2および図3は、プロセッサがソフトウェア機能をどのように実装したかの例示的な実施形態42、44を示している。
【0049】
図2のプロセッサ実装ソフトウェアの実施形態42では、連続する画像のシーケンス100は、シーケンスの各画像が異なる照明条件に対応するように、ターゲット50、9からカメラ10によって取り込まれるように構成される。シーケンス100は、DMSシステム1のカメラ10によって取り込まれた映像クリップの画像フレームにおける選択されたシーケンスであってもよい。
【0050】
前述されたように、画像のシーケンスを異なる照明条件で取得する理由は、異なる照明条件で取り込まれた複数の2D画像に基づいて、3D表面が少なくとも部分的に再構築され得るからである。再構築自体は本発明の目的に利用されない可能性があるが、ニューラルネットワーク210は、再構築プロセスを通じて、生存しているターゲット50、9を偽物と区別するのに有用であり得る3D情報を抽出してもよい。
【0051】
シーケンス100は、DMSシステム内の動き分析器などの動き分析器200に供給されるように設定される。動き分析器200は、動きイベントを検出して分析、例えばターゲット50、9の目および/もしくは口の領域内などの顔の運動を検出して分析し、かつ/またはターゲット50、9の頭の姿勢および注視を推定して、例えば眠気を推定し、ターゲット50の自然な動きが存在すること或いは存在しないことを出力するように構成される。
【0052】
これは、例えばカメラ10に保持されたターゲット50、9の2Dプリントにおけるなりすまし攻撃、およびまたは完全な顔面ダイナミクスが可能ではない、例えば固定された口を有する何らかの顔マスクを検出する際に非常に有益である場合がある。動き分析器200は、シーケンス内の画像を互いに比較し、ターゲット50、9が合理的および/または自然な運動を示しているかどうかを検出してもよい。
【0053】
次いで、動きベースの結果は、それらの運動が存在するか存在しないかを判定してもよい。これは、例えば信頼度を算出するプロセッサ実装ソフトウェアによっていくつかの方法で実施されてもよく、すなわち、例えば、プロセッサは、プロセッサが合理的な動きを確実に検出した場合、例えば0というスコアを与えてもよく、一方、合理的な運動がまったく検出されない場合、例えば1というスコアが与えられる。典型的には、分析された画像のシーケンスが受け取るスコアは、0から1の間であってもよい。0から1の間の事前に定義された閾値がある場合があり、この閾値を下回る場合、出力される動きベースの結果は、合理的および/または自然な動きが存在すること、したがって、なりすましが検出されないことである可能性がある。一方、閾値を超えるスコアの場合、出力される動きベースの結果は、合理的および/または自然な運動が存在しないこと、すなわち、なりすましが検出されたことである可能性がある。
【0054】
さらに、異なる照明条件で取得された、シーケンス100からの少なくとも2つの連続する画像のセット110が、プロセッサ実装ソフトウェアによって選択されるように設定される。
【0055】
セット110の画像は追加(append)され、換言すればともに積み重ねられ、第1のニューラルネットワーク、例えばプロセッサ実装ソフトウェアによるテクスチャおよび3D形状分析のための畳み込みニューラルネットワーク210に供給される。画像スタック、または換言すれば2チャネルの画像は、第1のニューラルネットワーク210が3D情報を抽出できる材料、および/またはセット110の2D画像のそれぞれの照明条件から異なるターゲット50、9の少なくとも部分的な3D再構築を形成する可能性を提供する。分析後、第1のニューラルネットワーク210は、データを、生存、2Dプリント、または再生中の映像ループ、またはマスク、または任意の他のタイプのなりすましの試行に分類してもよい。動き分析器200からの出力と、第1のニューラルネットワーク210からの出力とは、なりすまし防止分類器情報融合プログラムであり得る融合プログラム230に供給されるように構成されており、マージされて、ターゲット50が「生存(live)」しているか「偽物(fake)」であるかという最終結果を出力する。
【0056】
テクスチャ情報などであるがこれに限定されない情報を抽出して分析するために、例えば、畳み込みニューラルネットワーク(CNN)が使用されてもよい。テクスチャ分析の一例を挙げると、自然に見える特徴と人工物とを区別する能力に言及することができる。例えば、何らかの顔マスクにおける目の開口部では、マスクの開口部のテクスチャと下にある実際の目のテクスチャとの間に何らかの矛盾がある可能性があるので、二重の輪郭が検出される場合がある。
【0057】
異なる照明条件で撮影された画像は、ターゲット50、9からの異なる情報を明らかにする可能性がある。画像セットがニューラルネットワーク210に供給される前に、少なくとも2つの連続する画像のセット110は、少なくとも2チャネルの画像を作成するように互いに積み重ねられるように設定される。これによって、ターゲット50、9の少なくとも部分的な3D構造を提供するように、セット110の各画像フレームの情報が深さ方向に組み合わされることを意味する。
【0058】
ニューラルネットワーク210は使用前に訓練されることに留意すべきである。この目的のために、例えば、フレームは、データ収集で作成された記録から抽出され、例えば、切り取り、回転、平行移動などがされ、所定のサイズの関心領域を含むように準備される。なりすましの記録から抽出されたフレームは、0とラベル付けされてもよく、生存の記録から抽出されたフレームは、1とラベル付けされてもよい。次いで、フレームは、無作為に選択された対象のすべての記録が訓練データとして使用され、残りが検証データとして使用されるように分割される。マスクの記録からのフレームは、マスクのいくつかを有するフレームが訓練に使用され、他のマスクを有するフレームが検証に使用されるように分割される。訓練および検証の前に、訓練データセットからの統計に基づいて、データがサンプル単位および/または特徴単位で正規化されることに留意する必要がある。訓練データセットが比較的小さい場合、訓練データの拡張によってバリエーションがもたらされてもよい。利用される最適化器は、例えば、「Adam」または「SGD」分類器であってもよい。コスト関数として、2値交差エントロピーが使用されてもよい。正確度の向上が止まるにつれて学習率を低下させるために、学習率を反復して更新するための学習率スケジューラが使用されてもよい。
【0059】
動きベースの結果と同様に、空間的結果の判定および出力は、信頼度を算出するプロセッサ実装ソフトウェアによって、いくつかの方法で実施されてもよい。例えば、プロセッサがテクスチャの不一致を検出した場合、および/または2Dと3Dとを確実に判別した場合、プロセッサは、例えば1というスコアを与えてもよい。一方、テクスチャの不一致がまったく検出されなかった場合、および/またはターゲットの3D構造が確実に判定された場合、例えば0というスコアが与えられる。典型的には、分析された画像のシーケンスが受け取るスコアは、0から1の間であり得る。0から1の間の事前に定義された閾値があってもよく、この閾値を上回る場合、出力される空間的結果は、テクスチャの不一致が存在するか、および/またはターゲットの2D構造であり、したがって、なりすましが検出される。一方、閾値を下回るスコアの場合、出力される空間的結果は、テクスチャの不一致が最小であるか、またはターゲットの3D構造であり、したがって、なりすましの試行は発生していない。信頼度を算出することは、例えば、システムにおける無視し得る誤差を考慮するときに有益である場合がある。
【0060】
図2の実施形態42には、なりすまし検出の追加層が図示されている。なりすまし検出がこの追加層とは独立して機能する場合があること、および、この層の存在が、簡単に説明された実施形態42になりすまし検出のさらなる過程を追加する場合があることに留意されたい。追加層は、ターゲット50から画像フレーム101、103、105の複数のシーケンスを取り込むことを含む。シーケンス101、103、105のそれぞれにおける各画像は、異なる照明条件で撮影されるように設定される。これらのシーケンスは、映像取得の場合と同様に、時間的に相互に取得されるように設定されてもよい。各シーケンス101、103、105内の画像は互いに結合され、画像の多重スタック150が作られるように設定される。この多重スタック150は、プロセッサ実装ソフトウェアによる第2のニューラルネットワーク270への入力として供給されるように設定される。第2のニューラルネットワークは、例えば、再帰型ニューラルネットワーク(RNN)であってもよい。RNNでは、矛盾または繰返しが検出および分析されてもよく、反復結果が出力される。次いで、出力は、融合プログラム230、250に供給され、融合プログラム230、250は、反復結果を他の出力とマージし、ターゲット50が「生存」しているか「偽物」であるかという最終結果を出力するように構成される。
【0061】
この場合もはやり、第2のニューラルネットワーク270は使用前に訓練され得ることに留意すべきである。
【0062】
この場合もやはり、最終結果の判定および出力は、いくつかの方法によって実装されることが可能であり、例えば、最終層で信頼度を算出するプロセッサ実装ソフトウェアによって、実装されることが可能である。
【0063】
図3のプロセッサ実装ソフトウェアの代替の実施形態44では、図2と同様に、ターゲット50から取り込まれた画像のシーケンス100は、動き分析器200に供給されるように設定される。動き分析器200は、動きイベントを検出して分析し、ターゲット50の自然な動きが存在すること或いは存在しないことを出力する。しかしながら、後者の実施形態42とは異なり、図3の実施形態44では、動き分析器200からの出力は、シーケンス100からの少なくとも2つの選択された連続する画像110の組み合わされたセットとともに、第1のニューラルネットワーク250への入力として供給されるように設定される。第1のニューラルネットワーク250は、入力されたデータに対してテクスチャおよび3D形状の分析を実行するだけでなく、融合も実行し、ターゲット50が「生存」しているか「偽物」であるかという最終結果を出力する。
【0064】
図2の実施形態42と同様に、図3の実施形態44には、なりすまし検出の追加層が図示されている。この場合もやはり、なりすまし検出がこの追加層とは独立して機能する場合があること、および、この層の存在が、簡単に説明された実施形態44になりすまし検出のさらなる過程を追加する場合があることに留意されたい。追加層は、実施形態42のステップについて述べたのと同じステップを実行するように構成されており、したがって、その説明が参照される。
【0065】
図4は、図1図3のシステムを使用して、なりすましの試行を検出するための方法のフローチャートを示している。S1において、光源20a、20bは、所与の持続時間および所与の時間間隔でIRパルスを放出する。ステップS2において、各IRパルスと同時に、および/または連続する各IRパルス間の間隔継続時間において、カメラ10は、交互のIRパルスによって生成される異なる条件でターゲット50、9の画像のシーケンス100を取得する。したがって、ステップS1およびステップS2は、互いに関連して実行される必要がある。一例として、毎秒120フレームのレートを有する1つの構成、ならびに光源20aおよび光源20bからの交互のIRパルスが異なる照明条件を構成する2フラッシュ構成では、IRパルスのパルス幅、したがってカメラの画像取得時間は、350μsに設定される。各フレームに使用可能な期間が8333μsであるこの構成では、各IRパルスは、期間の500μsで開始され、350μs後に終了する。したがって、前述の2フラッシュ構成では、毎秒60フレームの有効フレームレートが達成される。120の同じフレームレートを有する構成、および4フラッシュ構成では、毎秒30フレームの有効フレームレートが到達され得る。
【0066】
S3において、プロセッサ実装ソフトウェアの動き分析器200は、ターゲット50、9の自然な動きおよび/または合理的な動きの存在を検出するために、画像のシーケンス100を分析する。動き分析器200は、前述の動きの存在または非存在を検出し、システムの起こり得る誤差および/または測定値を補償するために、S4において信頼度を算出する。S4は、図4の例示的な実施形態に示されるような方法を実行するために不可欠なステップではなく、無視されるか、または代替的には、他の手段に置き換えられてもよいことに留意されたい。S5において、動き分析器200は、動きベースの結果を出力する。
【0067】
S6において、画像100のシーケンスから、異なる照明条件で取得された少なくとも2つの連続する画像のセット110が選択される。S7において、少なくとも2つの画像のセット110において、関心領域が決定される。この関心領域は、例えば、ターゲット50、9の目領域、または顔領域全体とすることができる。このステップは、フレーム準備と呼ばれることがある。フレーム準備では、所定の所望のサイズで関心領域を含むように、連続する画像フレームは、例えば、切り取り、回転、平行移動などがされてもよい。フレーム準備、例えば切り取りは、典型的には動きベースの結果に基づいて行われることに留意されたい。追跡器は、例えば、切り取りを決定するために使用され得る、顔の特徴座標を提供してもよい。代替的には、後者を達成するために、顔検出器を利用するなどの他の方法が使用されてもよく、これは、なりすまし防止機能を、動き分析器とは無関係な状態にする。
【0068】
S8において、少なくとも2チャネルの画像を作成するために、前に説明したように少なくとも2つの連続する画像のセット110の画像が深さ方向に互いに積み重ねられる。セットにおける異なる照明条件で撮影された連続する各画像がチャネルを追加することに留意されたい。例えば、3つ以上の連続する画像、例えば、異なる照明条件で撮影された3つまたは4つの画像が画像セット110のために選択され、互いに積み重ねられる場合、3チャネル画像または4チャネル画像が作成される。S9において、スタックは、第1のニューラルネットワークに供給される。第1のニューラルネットワークは、そのテクスチャ情報を分析することにより、および/または2D構造と3D構造とを判別することにより、セットの分類を実行する。第1のニューラルネットワークは、S10において、テクスチャの不一致および/またはターゲットの2D構造の存在について信頼度を算出し、システムの起こり得る誤差および/または測定値を補償する。S4と同様に、S10は、図4の例示的な実施形態に示されるような方法を実行するために不可欠なステップではなく、無視されるか、または代替的には、他の手段に置き換えられてもよいことに留意されたい。代替的には、信頼度を算出することが後処理ステップである必要はない。この場合、信頼度は第1のニューラルネットワーク自体によって計算されてもよく、すなわち、S10およびS9が組み合わされて1つのステップになってもよい。S11において、第1のニューラルネットワークは空間的結果を出する。
【0069】
フローチャートに示された1つの代替経路では、S5の動きベースの結果が、画像スタックとともにニューラルネットワークS9への入力として供給されてもよいことに留意されたい。代替経路では、S5の動きベースの結果は、S12において、空間的結果とともに融合プログラムに供給されることが可能であり、融合プログラムは、入力された情報をマージし、場合によってはS13において信頼度を算出し、S14において、ターゲット50が「生存」しているか「偽物」であるかを分類する最終結果を出力する。
【0070】
ステップS21~S26の独立したセットが、図4に示されるフローチャートの左側に表示されており、なりすまし検出のさらなる層を方法に追加している。S21において、シーケンス101、103、105のそれぞれにおける各画像が異なる照明条件で撮影されるように、ターゲット50、9から、画像フレームの複数のシーケンス101、103、105が取り込まれる。これらのシーケンスは、時間的に相互に取得される。S22において、各シーケンス101、103、105内の画像は互いに積み重ねられ、S23において、画像の多重スタック150が作られる。次いで、この多重スタック150は、S24において、第2のニューラルネットワーク270への入力として供給される。第2のニューラルネットワークは、例えば、再帰型ニューラルネットワークであってもよい。再帰型ニューラルネットワークでは、矛盾または繰返しが検出および分析されてもよく、S25に示されるように、信頼度が算出されてもよく、S26において、反復結果が出力される。次いで、S26の出力は、S12において融合プログラムに供給され、S11およびS5の他の出力とマージされ、ターゲット50、9が「生存」しているか「偽物」であるかという最終結果を出力する。
【0071】
当業者は、本発明が上記で説明された好ましい実施形態に決して限定されないことを理解する。それとは反対に、添付の特許請求の範囲内で多くの修正および変更が可能である。例えば、DMSの詳細は、本明細書に開示されたものと異なっていてもよい。さらに、ニューラルネットワークへの入力として使用されるフレームまたはフレームのセットの数と同様に、パルス幅およびパルス間隔は、実装に基づいて調整されてもよい。
図1a
図1b
図2
図3
図4