(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-28
(45)【発行日】2024-03-07
(54)【発明の名称】照明源を含むデバイスを使用する生体性検出
(51)【国際特許分類】
G06T 7/00 20170101AFI20240229BHJP
G06V 10/82 20220101ALI20240229BHJP
G06V 40/12 20220101ALI20240229BHJP
【FI】
G06T7/00 350C
G06V10/82
G06V40/12
(21)【出願番号】P 2022561401
(86)(22)【出願日】2021-04-09
(86)【国際出願番号】 EP2021059332
(87)【国際公開番号】W WO2021205016
(87)【国際公開日】2021-10-14
【審査請求日】2022-12-02
(32)【優先日】2020-04-09
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】520357453
【氏名又は名称】アイデンティー インコーポレイテッド
(74)【代理人】
【識別番号】100134832
【氏名又は名称】瀧野 文雄
(74)【代理人】
【識別番号】100165308
【氏名又は名称】津田 俊明
(74)【代理人】
【識別番号】100115048
【氏名又は名称】福田 康弘
(72)【発明者】
【氏名】アラゴン ヘスース
(72)【発明者】
【氏名】グプタ ハーディック
【審査官】真木 健彦
(56)【参考文献】
【文献】国際公開第2019/163065(WO,A1)
【文献】特表2019-525358(JP,A)
【文献】特開2017-138808(JP,A)
【文献】米国特許出願公開第2018/0173979(US,A1)
【文献】海老原 章記,フラッシュ反射光を利用した単眼可視光カメラによるなりすまし検知,映像情報メディア学会技術報告 Vol.42 No.14,日本,(一社)映像情報メディア学会,2018年05月17日,BioX2018-2 (2018-05),P.15-19
【文献】Haonan Chen et al,A Cascade Face Spoofing Detector Based on Face Anti-Spoofing R-CNN and Improved Retinex LBP,IEEE Access,IEEE,2019年11月25日,Volume 7, 2019,P. 170116 - 170133,https://ieeexplore.ieee.org/document/8911314
【文献】Haonan Chen et al,Attention-Based Two-Stream Convolutional Networks for Face Spoofing Detection,IEEE Transactions on Information Forensics and Security,IEEE,2019年06月17日,Vol.15 , 2020,P.578-593,https://ieeexplore.ieee.org/document/8737949
【文献】伊藤 康一,顔認証システムのためのFully Convolutional Networkを用いた生体検知手法に関する検討,電子情報通信学会技術研究報告 Vol.117 No.236,日本,一般社団法人電子情報通信学会,2017年10月05日,BioX2017-27 (2017-10),P.11-15
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06V 10/82
G06V 40/12
G06V 40/40
(57)【特許請求の範囲】
【請求項1】
ユーザを識別するためのコンピュータ実装方法であって、
前記方法は、作動されると可視光を発する照明源を有するコンピューティングデバイスを使用するものであり、
前記方法は、
バイオメトリック特徴を有する生体部分を含む可能性のあるシーンの2つの画像を取得する工程であって、第1の画像を前記照明源を作動させずに取得し、第2の画像を前記照明源が作動している状態で取得する工程と、
前記第1の画像及び前記第2の画像をニューラルネットワークに送る工程と、
前記第1の画像及び前記第2の画像を前記ニューラルネットワークによって処理する工程と、を含み、
前記処理する工程は、前記第1の画像と前記第2の画像とを比較し、これにより、前記第1の画像及び前記第2の画像が生体部分の画像であるか否かを判断する工程を含み、
前記方法は、
前記第1の画像及び前記第2の画像が生体部分の画像であると判断された場合、前記ユーザを識別するためのバイオメトリック特徴を見つけるために識別アルゴリズムを実行し、前記第1の画像及び前記第2の画像が生体部分の画像でないと判断された場合、前記識別アルゴリズムを実行しないことをさらに含
み、
前記ニューラルネットワークは3つのサブネットワークを含み、
第1のサブネットワークが前記第1の画像を処理して前記第1の画像から第1の情報を抽出し、第2のサブネットワークが前記第2の画像を処理して前記第2の画像から第2の情報を抽出し、
第3のサブネットワークが、前記第1の画像及び前記第2の画像が生体部分の画像であるか否かを判断するために、前記第1の情報と前記第2の情報とを比較する、方法。
【請求項2】
前記第1の画像と前記第2の画像とを比較することが、前記画像のピクセル輝度分布に関して前記画像を比較することを含む、請求項1に記載の方法。
【請求項3】
前記画像のピクセル輝度分布に関して前記画像を比較することが、
前記第1の画像のピクセルの赤、青及び緑の輝度中央値と、前記第2の画像のピクセルの赤、青及び緑の輝度中央値とを取得し、
前記第2の画像の前記輝度中央値が、所定の閾値だけ、前記第1の画像の前記ピクセルの前記輝度中央値を超える場合、前記画像が生体部分の画像であると判断することを含む、請求項
2に記載の方法。
【請求項4】
前記赤、青及び緑のピクセルの前記ピクセル輝度分布が、前記第1の画像と前記第2の画像について取得され、前記第1の画像の各色の取得された前記ピクセル輝度分布が、前記第2の画像の対応する色の取得された前記ピクセル輝度分布と比較される、請求項
3に記載の方法。
【請求項5】
前記画像を前記ニューラルネットワークによって処理する工程は、前記比較をする前に、前記ニューラルネットワークを使用して、体の一部を含む可能性が高い前記第1の画像及び/又は第2の画像の部分を特定し、前記部分に対応するピクセル情報を前記第1の画像及び前記第2の画像から抽出することを含み、
前記第1の画像と前記第2の画像とを比較することは、前記第1の画像及び前記第2の画像から抽出された前記部分に対応する前記ピクセル情報のみを比較することを含む、請求項1~
4の何れか一項に記載の方法。
【請求項6】
前記第1の画像及び前記第2の画像を取得する前に、照明チェック工程が実行され、
前記照明チェック工程は、現在の照明条件をチェックすることを含み、
前記方法は、前記現在の照明条件に対応する前記輝度が所定の閾値を超える場合、前記方法のさらなる工程は実行しないことをさらに含む、請求項1~
5の何れか一項に記載の方法。
【請求項7】
前記現在の照明条件に対応する前記輝度が所定の閾値を超える場合、前記現在の照明条件では前記識別を実行できない旨の情報を前記ユーザに提示する、請求項
6に記載の方法。
【請求項8】
前記方法の各工程は、モバイルコンピューティングデバイス上で実行され、
前記ニューラルネットワークが前記モバイルデバイスに完全にインストールされている、請求項1~
7の何れか一項に記載の方法。
【請求項9】
前記第1の画像及び前記第2の画像が生体部分の画像であるか否かを判断する工程は、前記第1の画像及び前記第2の画像が紙上の画像の画像であるか否か、及び/又は、前記第1の画像及び前記第2の画像がスクリーン上に提示された画像の画像であるか否か、及び/又は、前記第1の画像及び前記第2の画像が生体部分の三次元スプーフの画像であるか否か、及び/又は、前記第1の画像及び前記第2の画像が生体部分の画像であるか否かを決定することを含む、請求項1~
8の何れか一項に記載の方法。
【請求項10】
前記照明源は前記コンピューティングデバイスの明かりである、請求項1~
9の何れか一項に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、請求項1に記載のユーザを識別するためのコンピュータ実装方法に関する。
【背景技術】
【0002】
スマートフォンをはじめとするモバイルコンピューティングデバイスはますます日常生活の一部となってきている。そのため、今日ではスマートフォンを使って銀行口座にログインしたりスマートフォンを使ってレストランで支払いしたりすることなども一般的である。
【0003】
このような口座へのユーザのログインを容易にするために、欧州特許出願第3540635号により、例えばモバイルコンピューティングデバイスのカメラを用いてユーザを識別し、指紋のようなバイオメトリック特徴を抽出することによってユーザを識別するために得られた各画像を処理する手段が提供されている。
【0004】
バイオメトリック特徴は偽造することが非常に困難であることからセキュリティの観点において大きな利点を有するものの、銀行口座のような各機密情報へのアクセスを得るために悪意のあるアタッカーによって(指先などの)各バイオメトリック特徴の画像がカメラの前に保持されこの画像が撮影されることによりカメラが騙されることがないよう、保証する必要がある。
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来技術の観点から、本発明の目的は、生体とそのような生体のスプーフ(spoof)とを区別することができる方法を提供することである。
【課題を解決するための手段】
【0006】
上記課題は、独立請求項1に記載のコンピュータ実装方法によって対処される。好ましい実施形態は従属請求項に示されている。
【0007】
本発明によるユーザを識別するためのコンピュータ実装方法は、作動されると可視光を発する照明源を有するコンピューティングデバイスを使用し、本方法は、バイオメトリック特徴を有する生体部分を含む可能性のあるシーンの2つの画像を取得する工程であって、第1の画像を照明源を作動させずに取得し、第2の画像を照明源が作動している状態で取得する工程と、第1の画像及び第2の画像をニューラルネットワークに送る工程と、第1の画像及び第2の画像をニューラルネットワークによって処理する工程と、を含み、処理する工程は、第1の画像と第2の画像とを比較し、これにより、第1の画像及び第2の画像が生体部分の画像であるか否かを判断する工程を含み、本方法は、第1の画像及び第2の画像が生体部分の画像であると判断された場合、ユーザを識別するためのバイオメトリック特徴を見つけるために識別アルゴリズムを実行し、第1の画像及び第2の画像が生体部分の画像でないと判断された場合、識別アルゴリズムを実行しない工程をさらに含む。
【0008】
本発明における意味での照明源は、例えば、スマートフォンの明かりと考えることができる。但し、本発明はこの点に関して限定されず、対応するコンピューティングデバイスの一部であるあらゆる照明源が、選択的に作動されて可視光を発することができる限り、適当であると考えられる。
【0009】
この文脈において、第2の画像が照明源を作動させた状態で取得されるだけでなく、第2の画像が取得されるシーン(具体的には、物体)も照明源で照明されることも明らかである。
【0010】
ニューラルネットワークは、好ましくは、本発明による各タスクを実行するように訓練された任意のニューラルネットワークとすることができる。この点に関して、好ましい実施形態では、ニューラルネットワークは、各画像を比較するよう特に適応された畳み込みニューラルネットワークである。これは、ニューラルネットワークが対応して訓練され、またネットワーク構造及びアーキテクチャ(例えば、層の数)がこのタスクに適応していることを意味する。
【0011】
識別アルゴリズムは、(この画像情報が第1の画像又は第2の画像から取得されたかどうかにかかわらず)バイオメトリック特徴を分離するか又は少なくとも識別することができるように画像情報を処理するよう構成された任意のアルゴリズムとすることができる。例えば、ここでは、画像内の関心領域、例えば、指先の一部又は領域を画像の別の部分から分離するクロッピングアルゴリズムを使用することができる。
【0012】
照明源を作動させずに指のような生体部分から取得された画像と、スマートフォンの明かりのような追加の照明源を作動させて同じ体部分から取得された対応する画像とを区別できるということが、本発明における知見である。これは、可視光の異なる部分(すなわち異なる波長)が生体部分によって異なるように反射されるためである。これは、例えば、赤色の光は青色の光とは異なるように発されることを意味する。このような画像を比較することにより、この差異を決定することができ、そして、対応する差異が観測されなければ、取得された2つの画像は、画像取得の際にカメラの前に保持された実際の生体部分の画像のようなスプーフから得られた可能性が非常に高い。
【0013】
したがって、この方法を用いることで、スマートフォンのユーザが通常利用できない追加のコンポーネントを必要とせずに、物体のスプーフと生体とを確実に区別することができる。
【0014】
別の実施形態では、本発明によるユーザを識別するためのコンピュータ実装方法は、作動されると可視光を発する照明源を有するデバイスを使用するものであり、本方法は、バイオメトリック特徴を有する生体部分を含む可能性のあるシーンの2つの画像を取得する工程であって、第1の画像を照明源を作動させずに取得し、第2の画像を照明源が作動している状態で取得する工程と、第1の画像及び第2の画像から差分画像を取得する工程と、差分画像をニューラルネットワークに送る工程と、差分画像をニューラルネットワークによって処理する工程と、を含み、処理する工程は、差分画像から輝度差分情報を決定する工程と、輝度差分情報から、第1の画像及び第2の画像が生体部分の画像であるか否かを判断する工程と、第1の画像及び第2の画像が生体部分の画像であると判断された場合、ユーザを識別するためのバイオメトリック特徴を見つけるために識別アルゴリズムを実行し、第1の画像及び第2の画像が生体部分の画像でないと判断された場合、識別アルゴリズムを実行しない工程をさらに含む。
【0015】
差分画像は、好ましくは、第1の画像及び第2の画像のピクセル単位の差分画像と考えることができ、これは、好ましくは、各ピクセルの輝度値及び/又は色値が第1の画像及び第2の画像から取得され、互いに差し引かれることにより、第1の画像及び第2の画像の各ピクセルの色及び輝度の新しいピクセル値が得られることを意味する。この「新しい」画像は、本発明の文脈において差分画像と見なされる。
【0016】
上で説明したように、カメラの前に保持された画像のような生体部分のスプーフと比較したときに、生体部分では、明かりのオン又はオフ時の光の反射特性に差がある。そして、ニューラルネットワークを用いた各処理から、生体部分又はスプーフから取得された第1の画像及び第2の画像の証拠を差分画像が成すか否かを判断することができる。
【0017】
この方法では、両方の画像をニューラルネットワークによって処理して対応する比較を行う必要はなく、各情報を含む単一の画像を処理するだけでよいという利点がある。
【0018】
一実施形態では、第1の画像と第2の画像とを比較することは、画像のピクセル輝度分布に関して画像を比較することを含む。
【0019】
第1の画像と第2の画像について得られた輝度値は生体部分においては大きく異なるため、これにより、スプーフと生体との区別における信頼性を向上させることができる。
【0020】
さらに、画像のピクセル輝度分布に関して画像を比較することは、第1の画像のピクセルの赤、青及び緑の輝度中央値と、第2の画像のピクセルの赤、青及び緑の輝度中央値とを取得し、第2の画像の輝度中央値が、所定の閾値だけ、第1の画像のピクセルの輝度中央値を超える場合、画像が生体部分の画像であると判断することを含む。
【0021】
この閾値は、ニューラルネットワークがスプーフと本物の物体(生体)とを識別して区別できるようにする訓練された閾値とすることができ、何故なら、例えば、閾値を超えたとき(又は超えないとき)に物体がほぼ確実に本物の物体でなければならないように閾値の大きさを設定できるからである。
【0022】
より具体的な実施形態では、赤、青及び緑のピクセルについてのピクセル輝度分布が第1の画像及び第2の画像について取得され、第1の画像の各色の取得されたピクセル輝度分布が、第2の画像の対応する色の取得されたピクセル輝度分布と比較される。
【0023】
各色の輝度値を分離し、それらを別々に比較することにより、本物の物体とスプーフとを区別することにおける信頼性をさらに向上させることができる。
【0024】
また、画像をニューラルネットワークによって処理する工程は、比較をする前に、ニューラルネットワークを使用して、体の一部を含む可能性が高い第1の画像及び/又は第2の画像の部分を特定し、第1の画像及び第2の画像からこの部分に対応するピクセル情報を抽出することを含むことができ、第1の画像と第2の画像とを比較することは、この部分に対応する第1の画像及び第2の画像から抽出されたピクセル情報のみを比較することを含むことができる。
【0025】
これは、上に記載した第2の実施形態による方法にも適用でき、その際、差分画像を算出する前にこの実施形態による方法が実行され、すなわち、ニューラルネットワークを用いて、体の一部を含む可能性が高い第1の画像及び/又は第2の画像の部分が実行され、差分画像を算出するためにこの部分からのピクセル情報が第1の画像及び第2の画像から抽出される。これにより、処理されるべきピクセル量が減少し、したがって、方法の信頼性に悪影響を与えることなく、必要な計算リソースが低減される。
【0026】
さらなる実施形態では、第1の画像及び第2の画像を取得する前に照明チェック工程が実行され、照明チェック工程は現在の照明条件をチェックすることを含み、前記方法は、現在の照明条件に対応する輝度が所定の閾値を超える場合、前記方法のさらなる工程は実行しないことをさらに含む。
【0027】
これにより、環境条件の観点からも、生体性検出によって信頼性の高い結果が得られることが保証される。これにより、識別の誤検出又は検出漏れを回避することができる。
【0028】
より具体的には、現在の照明条件に対応する輝度が所定の閾値を超える場合、現在の照明条件下では識別を行うことができない旨の情報をユーザに提示する。
【0029】
この情報は、例えば、ユーザに本物の物体とその物体のスプーフとを区別するために別の手段を使用すべきことを示すことができ、あるいは、単に、第1の画像及び/又は第2の画像から得られたバイオメトリック特徴を使用する生体性検出又はユーザ識別のどちらも実行できないことを示すことができる。第1の代替的手段は、別の方法を採用することによって識別を依然として実行でき、一方、第2の代替的手段は、生体部分のスプーフを使用する悪意のあるユーザの誤識別を確実に不可能とする。
【0030】
また、前記方法の各工程は、モバイルコンピューティングデバイス上で実行することができ、ニューラルネットワークがモバイルデバイスに完全にインストールされていてもよい。
【0031】
これは、画像がモバイルコンピューティングデバイス上で取得されるだけでなく、ニューラルネットワークによるさらなる処理及び各後続工程がモバイルデバイス上で実行されることを意味する。これにより、例えば、モバイルインターネットへの永続的な接続は不要となり、これは、そのようなモバイルインターネットが常に利用可能ではない世界の領域において特に有利である。
【0032】
さらなる実施形態では、ニューラルネットワークは3つのサブネットワークを含み、第1のサブネットワークが第1の画像を処理して第1の画像から第1の情報を抽出し、第2のサブネットワークが第2の画像を処理して第2の画像から第2の情報を抽出し、第3のサブネットワークが、第1の画像及び第2の画像が生体部分の画像であるか否かを判断するために、第1の情報と第2の情報とを比較する。
【0033】
第1のサブネットワーク、第2のサブネットワーク及び第3のサブネットワークへのこの分離によって、画像の処理、及び取得された画像が本物の物体を示しているのか又はそのスプーフを示しているのかの決定における各タスクのために、(サブネットワークの形態の)ニューラルネットワークを特別に採用することができる。
【0034】
さらに、第1の画像及び第2の画像が生体部分の画像であるか否かを判断する工程は、第1の画像及び第2の画像が紙上の画像の画像であるか否か、及び/又は、第1の画像及び第2の画像がスクリーン上に提示された画像の画像であるか否か、及び/又は、第1の画像及び第2の画像が生体部分の三次元スプーフの画像であるか否か、及び/又は、第1の画像及び第2の画像が生体部分の画像であるか否かを決定することを含む。
【0035】
例えば紙上でカメラに提示された画像は、照らされているときと照らされていないときとで非常に特殊な特徴を示すので、ニューラルネットワークは対応する決定を行うことが可能であり、それによって、画像が本物の物体を示すか又は物体のスプーフを示すかを決定するだけでなく、スプーフが実際にどのような種類のものであるかを決定することも可能である。
【0036】
第2の実施形態の一具現化において、輝度差分は、差分画像を取得する際に、第1の画像と第2の画像の輝度値のピクセル単位の引き算から得られる。
【0037】
このピクセル単位の引き算は、色単位及びピクセル単位の引き算でも実行でき、つまり、各ピクセル及び各色値(緑、青、赤)について、輝度値が得られ、ピクセル単位の引き算が実行される。それにより、第1画像と第2画像の実際の特徴について詳細かつ精密な情報が得られ、この精密な情報が差分画像に用いられる。
【0038】
一実施形態では、照明源はコンピューティングデバイスの明かり(torch)である。
【0039】
このような明かりの形態の照明源は、ラップトップ、タブレットPC及びスマートフォンのような最近のモバイルコンピューティングデバイスに設けられているので、本発明による方法を実行するためにさらなるデバイスを採用する必要がなく、これにより、ユーザによる各方法の適用が容易となる。
【図面の簡単な説明】
【0040】
【
図1】画像の取得及び対応する輝度の寄与を概略的に示す図である。
【
図2】本発明の一実施形態による方法のフローチャートを示す。
【
図3】一実施形態によるニューラルネットワークによる入力の処理方法を概略的に示す図である。
【
図4】ニューラルネットワークの訓練の一実施形態を示す。
【
図5】本発明の方法を実行するための例示的なモバイルデバイスを示す。
【発明を実施するための形態】
【0041】
図1は、物体の2つの画像の取得を概略的に示す。
図1における描写ではスマートフォンなどのモバイルコンピューティングデバイス101が示されており、モバイルコンピューティングデバイス101は、例えば同図に示される手102の画像などのシーンの画像を取得するための光学センサ(別々に図示はしていない)を含む。このようなシーンがいくらかの周囲環境も含み得ることは明らかである。但し、説明を簡単にするため、ここではこれらは示されていない。
【0042】
方法が、ユーザの体部分(顔、目、手又は手のひらなど)の画像を取得することによってユーザを識別するのに採用される場合、後続の識別工程のために、取得した画像が実際に生体部分の画像であるか、生体部分のスプーフの画像であるかを知る必要がある。このようなスプーフは、例えば、悪意のあるユーザによって本物の人から取得され、カメラの前に保持された画像であり得る。この画像が十分な品質のものである場合、これは、今日、バイオメトリック特徴に関する今日使用されている識別メカニズムをスプーフィングすることが可能であり、それによって、本物の物体のスプーフを使うことによって、実際には権限が与えられていないユーザに銀行口座のような機密情報へのアクセス権が与えられてしまう可能性がある。
【0043】
本発明によれば、これを防止することは、本物の物体の可能性がある物体の複数の画像(これが本物の物体の画像であるか、その物体のスプーフの画像でしかないかが分かっていないならば)を取得して、後述するようにこれらの画像をニューラルネットワークにより処理することによって、可能である。
【0044】
これをより一般的な状況で説明するために、
図1中の左側に、本物の物体の可能性がある物体102(この場合は手)の画像を取得しているスマートフォン等のモバイルコンピューティングデバイス101が示されている。通常の状態では、これは、どのような場合でも、図形103及び図形104に描かれているような輝度分布をもたらす。この輝度分布は、あらゆる考え得る照明条件の下で得られる輝度分布であるとは限らず、単に、モバイルコンピューティングデバイスの明かり(又は任意の他の適切な照明源)を作動させずに画像が取得されるような物体の照明条件を示す例示的な図でしかない。これだけからでは、画像が生体からのものであるのか生体のスプーフからのものであるのかを判断することはできない。
【0045】
次に、
図1中の右側に、同じシーンにおいて、モバイルコンピューティングデバイス101の照明源が作動されてライト111でシーンを照らすことによって、画像が取得される。
【0046】
図形105及び図形106は、異なる色チャネル(赤、青及び緑など)における光分布及びこのシチュエーションについての各輝度値を示す。
【0047】
図形105は図形103及び図形104に酷似しているのに対し、図形106は元の図形104と明確に区別されることがはっきり分かる。
【0048】
画像が本物の物体の画像である場合、すなわち手102が実際に人間の本物の手である場合には、画像中のそれぞれの色値にわたって輝度分布における大きな差が得られることが、本発明における知見である。これとは対照的に、このような本物の物体のスプーフ、具体的には、
図1のシーンにおいてカメラの前に保持されている本物の物体の画像の形態のスプーフは、図形103及び図形105をもたらし、これらにおいては、コンピューティングデバイスの照明源を作動させずに取得された画像と照明デバイスを作動させた状態で取得された画像との間には差がないか、あったとしてもわずかでしかない。
【0049】
これを、本物の物体のスプーフしか撮影されなかった状況と本物の物体が撮影された状況とを区別するのに使用することができる。しかしながら、図形103から図形106は環境条件(バックライト、バックグラウンド、物体とカメラの距離など)に強く依存するので、画像が本物の物体の画像を構成するか物体のスプーフを構成するかに関し対応する決定をするために計算アルゴリズムによって簡単に処理することができない。
【0050】
1つのシーンから取得された対応する第1の画像及び第2の画像を処理するために特別に訓練されたニューラルネットワークが、高い精度で各決定を行うためにより適切であること、すなわち誤検出及び検出漏れを少なくすることが、本発明における知見である。
【0051】
図2は、取得された画像が本物の生体部分の画像であるか否かについての各決定をするために対応する第1の画像及び第2の画像を処理するための本発明による方法の概略的なフロー図である。
【0052】
図2において、第1の工程201及び202では、第1の画像及び第2の画像が取得される。本発明に関しては、第1の画像が照明源が作動されている状態で取得された画像であるか、第2の画像が照明源が作動されている状態で取得された画像であるかは関係ない。本発明の文脈において重要なのは、画像のうちの1つが、照明源が作動されている状態で取得されたものであり、他の1つが、照明源を作動させずに取得されたものであるということである。単なる例として、取得された第1の画像は工程201において照明源を作動させずに取得され、工程202において取得された第2の画像は照明源が作動された状態で取得された画像であると仮定する。このことから、第1の画像と第2の画像が次々に取得されることは明らかである。条件を変えることによって画像の評価に悪影響が及ばないようにするために、工程101から工程102の間の時間は、好ましくは非常に短くすべきである。好ましくは、画像の取得間の時間は1秒未満であり、好ましくは0.5秒未満である。
【0053】
上に記載したように、照明源は、例えば、スマートフォンやタブレットPCのような今日使用されているモバイルコンピューティングデバイスの明かりであってもよいが、場合によってはラップトップに設けられているものであってもよい。
【0054】
工程101及び工程102で取得された2つの画像は、次いで工程203で前処理されてもよい。この前処理は、例えば、第1の画像及び第2の画像で取得された元のピクセル数を、256×256ピクセルなどの特定の数に減らすか、画像の一部分を分離してこれらをさらに処理し、画像の他の部分は破棄するなどといった、何らかの正規化又は他の処理工程を含むことができる。但し、工程203は必須ではなく、
図2に示されている処理は、第1の画像及び第2の画像に前処理を適用せずに実行することもできる。さらに、画像のうちの1つだけを前処理することもでき、例えば、照明源を作動させた状態で取得した方の画像又は他方の画像のみを前処理することもできる。
【0055】
次のこれもまたオプションでしかない工程204で、照明チェックを実行することができる。この照明チェックは、取得された画像から(あるいは第1の画像及び第2の画像から独立して取得された第3の画像から)照明条件をチェックする特定のソフトウェアを使用することによって実行することができる。代替的又は追加的に、スマートフォンなどのモバイルデバイスの特定のハードウェアを使用してもよい。モバイルデバイスが(例えば、カメラの一部として)輝度センサを備える場合、この輝度センサから得られる情報を使用して後述の照明チェックを実行してもよい。輝度センサからの情報は画像をまったく取得しなくても得ることができる。代替的に又は追加的に、画像が取得されている間又は画像が取得された後に、輝度センサを使用して照明チェックを実行してもよい。さらに、照明チェックの結果を向上させるために、輝度センサから情報を得ることと、(例えば、取得された画像に基づいて)照明チェックを実行するためのソフトウェアを採用することとを組み合わせて用いてもよい。
【0056】
この照明チェックは画像が取得された後に実行されるが、この照明チェックを画像が取得される前に実行することもできる。照明チェックは、例えば、日中であるか夜間であるか、あるいは、
図2に記載した方法を実行するために実際にモバイルコンピューティングデバイスを保持しているか又はそれを作動させている人が人工光を有する建物内にいるかなど、環境における周囲の明るさ又は照明条件をチェックすることを含むことができる。上で説明したように、実際に得られる輝度分布(
図1参照)は環境条件に強く依存する。周囲の照明条件が、2つの画像を取得する際に一方の画像を照明源を作動させた状態で取得し他方の画像を照明源を作動させずに取得したときに区別可能な輝度値を妥当なレベルで得られない結果をもたらす可能性が非常に高い場合(例えば、日中の光が明るい場合)には、
図2による方法をさらに実行することは、信頼できる結果が得られない可能性があることから、合理的でない場合がある。このような場合、照明チェック204を実行した後に、方法を妥当なレベルで適用することができないと判断することができる。このような場合、方法を中止する及び/又は工程205で情報をユーザに提供して、識別方法が信頼性をもって実行できるような照明条件ではないことをユーザに知らせることができる。これは、例えば、現在の照明条件の輝度値に基づいて判断することができる。この輝度値が場合によって予め設定された閾値を超える場合、工程205で情報をユーザに送ることができる及び/又は方法を中止することができる。
【0057】
照明条件及び対応する輝度値がそれぞれの閾値未満である場合、方法は工程206に進むことができるか、あるいは、第1の画像及び第2の画像が取得される前に照明チェック204が実行される場合、方法は工程201及び工程202に進むことができる。
【0058】
次の工程では、第1の画像及び第2の画像が生体部分の画像であるか否かを判断するために、画像がニューラルネットワークによって処理される。
【0059】
本発明の一実施形態では、これは、ニューラルネットワークを介してピクセル輝度分布について画像を比較し、これから、画像が本物の物体から取得されたか否かを示す結果を得ることによって、第1の画像及び第2の画像を処理することを含む。これは、ニューラルネットワークがこの決定を行うために特別に訓練されているという事実から、ニューラルネットワークによって判断される。第1の画像及び第2の画像のピクセル輝度寄与はニューラルネットワークによって処理されてもよく、この処理中に、ニューラルネットワークはその1つ以上の層を介して各画像(又は両画像)を処理し、それによって具体的な結果が得られる。この結果は、本物の物体のスプーフから画像が取得された場合(
図1参照)には第1の画像と第2の画像でほぼ同じになり、取得された画像が本物の物体の画像である場合には
図1に関しても説明したように異なることになる。
【0060】
しかしながら、これらの差は必ずしも常に同じとはならず、したがって、画像が本物の物体の画像であるか否かに依存して詳細でかつ明確に定義された結果を与えるような特別に訓練されたニューラルネットワーク(以下に
図3に関して説明される)を有することが必要である。
【0061】
具体的には、画像の各々、つまり第1の画像及び第2の画像の各々は、赤、青及び緑の各色値に分離される及び/又は赤、青及び緑の各色における輝度分布に分離されると考えることができる。これから、各画像に対して、各色について、各ピクセルの輝度中央値を得ることができる。次いで、これらの輝度中央値から、照明源が作動されている状態で取得された画像が、照明源が作動されずに取得された画像のピクセルの輝度中央値を超えるか否かを判断することができる。もしこれが、第2の画像(照明源が作動された状態で取得されたもの)の輝度中央値が、第1の画像の輝度中央値を、第2の画像及び第1の画像が生体部分から取得された画像であることを示す特定の閾値だけ超えると判断された場合、ニューラルネットワークは、第1の画像及び第2の画像が本物の物体の画像であってスプーフではないと判断することができる。しかしながら、輝度中央値が少なくとも上記閾値だけ異ならなければ、判断は否定的となり得、第1の画像及び第2の画像は生体部分の画像ではないと判断することができる。
【0062】
より具体的には、第1の画像及び第2の画像について、赤、青及び緑の各ピクセルに関するピクセル輝度分布を求めることができ、第1の画像の各色の得られたピクセル輝度分布を、第2の画像における対応する色のピクセル輝度分布と比較することができる。これは、本発明の実施形態では実際には3つの比較工程があることを意味し、すなわち、第1の画像の赤色輝度分布が第2の画像の赤色輝度分布と比較され、第1の画像の緑色輝度分布が第2の画像の緑色輝度分布と比較され、第1の画像の青色輝度分布が第2の画像の青色輝度分布と比較される。これにより、基本的に独立した3つの判断が得られ、これは、第1の画像及び第2の画像が生体部分を示すか否かについてより信頼性の高い評価を得ることができる。
【0063】
この処理のために、例えば、前処理203の間に、ニューラルネットワーク又は別の対応して適応されたニューラルネットワークを使用して、第1の画像及び第2の画像の中で、関心のある体部分、例えば、バイオメトリック特徴として指紋がさらなる識別のために抽出されるべき指先、を含む可能性が最も高い部分を分離する工程を適用することも考えられる。この場合、このいわゆる「関心領域」ROIは例えば前処理工程の間に分離することができ、その後、各ニューラルネットワークによってさらに処理することができる。
【0064】
上で説明した実施形態について1つのニューラルネットワークのみを参照して説明したが、各工程を実行するために2つ以上のニューラルネットワークが採用される実施形態も考えることができる。
【0065】
具体的には、上で記載したように、第1画像と第2画像の値の比較において各判断を実際に行う前に、各画像から輝度分布と同様の情報が得られる。輝度情報はニューラルネットワークを使用しなくても取得することができるが、他の情報は画像から取得することがより困難でありニューラルネットワークを使用する必要がある場合がある。このために、第1の「サブネットワーク」を用いて第1の画像から各情報を抽出することができるとともに、第2の「サブネットワーク」を用いて第2の画像から各情報を取得することができる。勿論、サブネットワークもまた特別に訓練されたニューラルネットワークである。より具体的には、第1のサブネットワークは、モバイルコンピューティングデバイスの照明源を作動させずに取得される画像から情報を得るために訓練され得るのに対し、第2のサブネットワークは、コンピューティングデバイスの照明源を作動させた状態で取得される画像から対応する情報を得るために特別に構成され訓練される。
【0066】
ニューラルネットワークは、通常、それらが識別することができるはずのシーンの例示的な画像を使用して訓練されるので、それぞれのニューラルネットワーク(第1のサブネットワーク及び第2のサブネットワーク)のパラメータが少なくともわずかに異なる可能性があり、これにより、ニューラルネットワークの訓練に用いられた画像から対応する情報をより正確に抽出することができる。
【0067】
次に、第1の画像から得られた情報と第2の画像から得られた情報とを比較することで各判断を行うために、第3のサブネットワーク(特別に訓練されたニューラルネットワークとも称される)を提供することができ、それによって、第1の画像及び第2の画像が本物の生体部分の画像であるか否かが判断される。
【0068】
この判断もより洗練された判断を含むことができ、より洗練された判断においては、第1の画像と第2の画像が両方とも生体部分の画像であると判断されるか、あるいは、第1の画像と第2の画像がモバイルコンピューティングデバイスで撮影される紙上の画像であるか否か、及び/又は、第1の画像と第2の画像が画面上に提示された画像であるか否か、及び/又は第1の画像と第2の画像が生体部分の3次元スプーフ(例えば、シリコン模倣品)の画像であるか否かが決定される。この判断は対応して訓練されたニューラルネットワークを用いて可能であり、何故なら、各スプーフと実際の生体部分は特別な光反射特性を示すのでこれにニューラルネットワークを訓練することができるからである。その場合、各判断の結果は、その画像がスプーフの画像であるか生体部分の画像であるかを示すという意味の「バイナリ」ではなく、その結果はスプーフの種類も特定されるという点でより複雑になるであろう。
【0069】
上記実施形態に対する代替的な実施形態では、第1の画像及び第2の画像が実際には工程206でニューラルネットワークによって処理されるのではなく、ニューラルネットワークによる処理が実際に実行される前に第1の画像及び第2の画像から差分画像が取得されてもよい。この差分画像は、例えば、第1の画像及び第2の画像の色値及び/又は輝度値のピクセル単位の引き算によって得られてもよい。例えば、画像内の各ピクセルについて、第2の画像の赤色値から第1の画像の赤色値を引き算し、これと対応することを他の色値についても行うことができる。加えて又は代替的に、第1の画像内のピクセルのそれぞれについて、対応する輝度値が、第2の画像内の各ピクセルの対応する輝度値から引き算されてもよい。これによって、第1の画像及び第2の画像と同じサイズを有するが、輝度地及び/又は色値の差のみを示す「差分画像」が得られる。これは、第1の画像と第2の画像が実物体の画像を構成するか否かを特定しようとするときに最も重要な情報を含む差であるため、この決定をニューラルネットワークでの処理が実行される前に行うことは合理的である。
【0070】
そうすることにより、本発明の一実施形態において、この差分画像から輝度差分情報が得られ、この輝度差分情報がニューラルネットワークによって処理されることでこの輝度差分情報から第1の画像及び第2の画像が生体部分の画像であるか否かを判断することもできる。この判断は、2つの画像が互いに比較される上に記載した実施形態と基本的に同じ処理によって得られるが、ニューラルネットワークによって実際の比較が行われることを必要としない。これは、コンピューティングデバイスによって要求される処理能力及びニューラルネットワークの実際の能力に関して利点を有することができ、それにより、利用可能なコンピューティングリソースが少ないコンピューティングデバイスに実装することが容易となるとともに、特にモバイルインターネット接続を介して外部サーバのような外部コンピューティングリソースにアクセスできないコンピューティングデバイスにも実装することが容易となる。
【0071】
なお、この実施形態については、2つの画像が比較される上に記載した実施形態についても同様であるが、それぞれの方法のすべての工程がモバイルデバイス上で実行され、これは以下に説明する工程に対しても成立する。これにより、本発明の方法は、モバイルコンピューティングデバイスのユーザが外部処理パワーにアクセスできないような状況に有利に適用できるようになる。しかしながら、本方法のすべての工程がモバイルデバイス上で実行されるのではなく、例えば、画像のみが実際にモバイルデバイスによって取得され、その後外部サーバに送られ、この外部サーバによってさらなる処理が実行されてこの処理の結果がモバイルデバイスに戻され、そこで、例えば、ユーザの識別又はバイオメトリック特徴の抽出を実行することができる。
【0072】
工程206が実際にどのように実現されるか又は方法の工程がどこで実行されるかにかかわらず、方法は工程207に進み、第1の画像及び第2の画像が生体部分の画像であるか否かの判断が実際に行われる。第1の画像及び第2の画像が生体部分の画像ではない場合、本方法は単に工程209で終了することができるか、あるいは、情報が、例えば、第1の画像及び第2の画像に示されるこのバイオメトリック特徴で通常識別されるだろう人物に送られて、彼に、彼のバイオメトリック特徴のスプーフを使用して誰かが彼の機密情報への許されないアクセスを得ようとした旨の情報を提供することができる。
【0073】
第1の画像及び第2の画像が本物の体部分の画像を構成すると判断された場合、本方法は、画像から(前処理中にまだ行われていない場合)バイオメトリック特徴を抽出する(工程210)よう進むことができる。これは、例えば、バイオメトリック特徴を含む画像の一部分(いわゆる関心領域ROI)を画像の他の部分から分離し、画像のこの部分のみをさらに処理することによって、例えば、指先から特徴点を抽出したり、ユーザの顔又はユーザの目の虹彩又はユーザの手のひらの線から特定の情報を抽出したりすることによって行うことができる。
【0074】
工程210でバイオメトリック特徴を抽出した後、本方法は次にオプションの工程211に進むことができ、ここで、画像から抽出されたバイオメトリック特徴が実際に使用される。このバイオメトリック特徴を使用することは、例えば、バイオメトリック特徴を提供するために使用された画像がユーザの本物の生体部分を示すということが証明されたユーザを、彼の銀行口座又は他の機密の制限されたアクセス情報と重ね合わせることを含むことができる。
【0075】
図3は、2つの画像上の物体が生体であるか生体のスプーフであるかを決定するために採用することができるニューラルネットワークの1つの層300における、受け取られた入力に対する内部処理を示す。本発明の一実施形態によれば、ネットワーク(以下においても参照されるであろう)は畳み込みニューラルネットワーク(CNN)である。但し、出力を得るための入力の処理が使用されるニューラルネットワークの特定の構造に依存するような他のネットワークが使用されてもよい。
【0076】
上述の層300は、ニューラルネットワークを介する元の入力の処理順序において、例えば何らかの前処理の後に元の入力を受け取る第1の層である層であってもよい。受け取られる入力は、2つの画像、又は単一の画像、又は上で説明したような差分画像のいずれかであり得る。
【0077】
いずれの場合でも、層300は少なくとも元々取得された画像又は差分画像(又は何らかの前処理された対応物)に何らかの形で対応する入力330を受け取るであろう。この入力は、N及びMが0より大きい整数である、次元N×Mを有する少なくとも1つの行列の形で提供されることが好ましい。行列は、例えば、少なくとも1つの色値(例えば、赤)及び/又は対応する輝度値について、画像内のピクセルを表すことができる。したがって、この行列の中の成分は、この特定のピクセルの各色(例では赤)の値及び/又はその輝度の値に対応する値を持つことがある。以下から明らかなように、入力は、取得された画像又は差分画像と同一ではない場合があるが、元の画像又は差分画像を表す行列から、ニューラルネットワークにおける先行層を介した何らかの処理によって又は何らかの前処理(例えば、上で説明したような解像度の低減)によって得られた行列Pであってもよい。
【0078】
しかしながら、議論を簡単にするために、入力330は、元々取得された画像の少なくとも1つを表すN×M行列に対応するものと仮定され、このN×M行列の各成分は各画像におけるピクセルの色(例えば、赤)の値に対応する。この教示を、元のN×M行列に由来し、ニューラルネットワークの層でこの行列を処理することによって得られる任意の他の変換された行列に適用すること、又は対応する行列の各ピクセルについて輝度値(のみ)が提供されるケースに適用することは、簡単である。
【0079】
次に、
図3に例示したプロセスに沿って、入力330は、処理のために、depthwise畳み込み層311によって受け取られる。以下では、入力行列330がdepthwise畳み込み層によってどのように処理されるかに関して同程度シンプルな例を挙げる。これは、カーネルKを使用して行列の内積を計算することを含む。カーネルはいわゆる「ストライド(strides)」で行列の上を移動する。次の例では、水平ストライド幅と鉛直ストライド幅に1の値を使用するが、ストライド幅が0より大きい整数である限り、1より大きい他の値を使用することができる。カーネルKはS×Tのサイズであり、S及びTは整数であってN及びMよりも小さい。
【0080】
さらに、N×Mのサイズの元の入力行列I(すなわち入力行列330)のみが、カーネルとの内積の計算に使用されると仮定する。但し、拡張行列(extended matrix)Zをカーネルとの内積を計算するために使用できることも意図されている。この拡張行列Zは、元の行列Iに、最初の行の上と最後の行の下及び最初の列の左と最後の列の右において、行及び列を「加える」ことによって得られる。
【0081】
これを「パディング」と呼ぶ。パディングは通常、行方向に複数(PW個)の行を追加し、列方向に複数(Ph個)の列を追加することを含む。数PWはS-1に等しくてもよく、数PhはT-1に等しくてもよく、これにより、Zとカーネルの間で計算された内積が元の行列Iの少なくとも1つの成分を含むこととなる。結果として得られる行列Zはサイズが(N+2PW)×(M+2Ph)となる。このことを考慮すると、行列Zは次の成分を有するであろう。
【0082】
【0083】
この文脈において、すべての内積を計算し行と列に従って適切に配置することによって得られる新しい行列は、一般にサイズが
【数2】
であり、式中、W
W及びW
hは、行の方向と列の方向におけるストライド幅をそれぞれ定義する。新しい行列のサイズが整数となるようなパディング及びストライド幅だけがS×TのサイズのカーネルKに対して許されることは明らかである。さらに、ストライド幅W
W及びW
hは、好ましくは、それぞれS及びTよりも小さく、そうでなければ、元の行列のいくつかの行又は列が新しい行列の計算において脱落するようにカーネルが行列I上を移動することになる。
【0084】
議論を簡単にするために、以下では、元の行列Iにはパディングが行われず、ストライド幅は水平及び鉛直ストライドについて1であると仮定する。さらに、カーネルはS×Sのサイズの行列、すなわちS=Tと仮定される特殊なケースであると仮定する。以下の説明を以下の教示を用いて任意のパディング及びストライド幅並びにカーネルサイズに適用することは簡単である。
【0085】
depthwise畳み込み層311では、受け取られた入力行列330を使用して、サイズS×S(ここで、S<N,Mである)を有するカーネルKを用いて内積を形成する。元のN×M行列の各縮小行列(reduced matrix)について内積を計算し、ここで縮小行列はサイズS×Sで、元のN×M行列にコヒーレントな成分を含む。例えば、S=3を考えると、元のN×M行列の第1の縮小行列Rは、縮小行列(N×M)Sが9個の成分で構成されるように成分i=1,2,3、j=1,2,3を含み、カーネルKとの内積が計算されると結果が1つの数になる。元のN×M行列の行の方向の次の縮小行列は、iが1ずつ増加された行列であり、これにより、この方向の次の行列は、i=2,3,4、j=1,2,3である元のN×M行列の中の成分で構成される。次いで、この行列が、カーネルとの次の内積を計算するために使われてもよい。S=3のS×S行列の所与の例は一例にすぎず、他のカーネルも使用できることに注意すべきである。
【0086】
行/列の方向における(N×M)Sのサイズの次の縮小行列Rを計算するために、元のN×M行列の成分のインデックスjが1ずつ増加される。これが行の方向の最後の縮小行列まで行われ、ここで、S=3の場合、i=N-S+1、N-S+2、N-S+3である。列について、これは対応するやり方で行われ、j=M-S+1、M-S+2、M-S+3となる。これらの内積を計算することにより、(N-S+1)×(M-S+1)のサイズを有する行列Pが計算される。その成分Pijは、元のN×M行列の対応する縮小行列とカーネルKで計算された各内積に対応する。このサイズの行列が実際には層300のpointwise畳み込み層に送られることに注意すべきである。
【0087】
カーネルKは、本発明による場合、各画像に生体部分が示されているかどうかを見つけるために、意図された物体を適切に識別するためにニューラルネットワークが訓練される学習プロセスを介して得られる成分を構成する。ニューラルネットワークの層300で使用されるカーネルKは、各ニューラルネットワークの他の層で使用されるカーネルとサイズ及び成分が必ずしも同一ではない。さらに、カーネル内の成分は互いに同一である必要はなく、少なくとも、0以上の数を構成する。成分は、ニューラルネットワークの学習を介して得られる「重み」を表すと考えることができる。
【0088】
行列330をdepthwise畳み込み層で処理した結果が行列331であり、行列331は、上で説明したように、カーネルが、行の方向にΔi=1の距離、列の方向にΔj=1の距離を有するストライドで、元のN×M行列上を移動された場合、(N-S+1)×(M-S+1)のサイズを有するものである。しかしながら、これらのストライドが、Δi=2又はΔi=3のように、より大きな距離を有する場合(場合によっては列についても同様)、これに応じて、上に説明したように、結果331の次元が変わる。
【0089】
さらなる処理では、この結果331は、
図3の矢印で描かれた処理順序に沿って、depthwise畳み込み層311の後の第1のバッチ正規化312に送られる。これらの構成要素は、ネットワークを介する、特に(複数の)層で使用される(複数の)カーネルを介する画像の処理によって、関連する可能性がある情報の意図しないダンピングをもたらすために提供される。
【0090】
バッチ正規化部は、受信した結果行列331を正規化しようと試みる。これは、(N-S+1)×(M-S+1)行列の各成分の合計を計算し、それを(N-S+1)×(M-S+1)行列の成分の数で除算することによって達成される。(N-S+1)×(M-S+1)行列(以下ではPと表記し、対応する成分Pijを有する)の平均値Vは次のように表される。
【0091】
【0092】
式中、nとmは、N×M行列の行(lines)及び列(columns/rows)の数、あるいは行列P行及び列の数を表す。成分Pijは行列Pの成分であり、ここで、所与の成分Pijは行iと列jにある行列の要素である。
【0093】
そして、バッチ正規化部は、P’ij=Pij-Vのように、元の行列の各成分Pijから平均値Vを引き算して縮小行列P’を計算する。それによって、縮小行列P’の値が正規化され、一方向又は他方向の異常(極端に大きい値又は極端に低い値)が除去される。
【0094】
第1のバッチ正規化部312によってもたらされた結果332は、(N-S+1)×(M-S+1)のサイズを(
図4に示す例において)依然として有する行列であり、これは、ここまで行列のさらなる次元縮小が行われなかったからである。
【0095】
次いで、結果332が、第1のバッチ正規化部312に続く第1の整流化線形ユニット313に提供される。
【0096】
整流化線形ユニットは、新しい行列成分
【数4】
を計算することによって行列332内の各成分をさらに修正し、
ここで、
【数5】
である。
【0097】
これにより、バッチ正規化部を通過した後に0より小さくなる値は0に設定されるので、以下で説明するdepthwise畳み込み層におけるさらなる処理に影響しない。つまり、例えば、バッチ正規化部で計算された平均値を下回る色値はそれ以上考慮されず、平均値Vに少なくとも対応する値のみが計算における次の工程の結果に影響する。
【0098】
このようにして第1の整流化線形ユニット313によって出力される結果333は、依然として(N-S+1)×(M-S+1)の形状/サイズの行列であり、この行列がpointwise畳み込み層321に送られる。
【0099】
このpointwise畳み込み層321によって結果334が生み出される。この結果334は、pointwise畳み込み層321によって、(N-S+1)×(M-S+1)行列333の各成分を取得しこの成分に重みαを乗算することにより作成される。αは、好ましくは、いずれの場合でも0より大きく、この数は、(N-S+1)×(M-S+1)行列の各成分について同一である。したがって、pointwise畳み込み層321から得られる結果334は、同じサイズ(N-S+1)×(M-S+1)を有するが、各成分が重みαで乗算された行列である。
【0100】
次いで、結果334が第2のバッチ正規化部322に送られ、そこで第1のバッチ正規化部312について説明したように正規化され、結果335と同じ次元の正規化された行列P’が計算され、この行列/結果335が第2の整流化線形ユニット323に送られ、そこで整流化機能が適用されて結果/行列
【数6】
236が得られ、これが、次いでニューラルネットワーク内の次の層に送られるか、あるいはニューラルネットワークにおいて他の層が次にない場合には、結果336が出力として提供される。
【0101】
そして、入力画像の処理の結果によって、入力画像が生体部分の画像を構成するか否か(これは、照明源の光を用いる照明に対する生体部分の異なる挙動のために画像又は差分画像の処理中に見出される)、つまり生体部分のスプーフであるか否かを決定することが可能になる。使用されているニューラルネットワークがどの程度洗練されているかによって、実際に使用されているスプーフの種類がさらに区別され得る。
【0102】
次に、
図4に関し、カーネルKの重みと、
図3に関して説明した重みと、2つの画像が本物の生体部分を示しているのか又はこのスプーフを示しているだけなのかを実際に判断できるパターンとがニューラルネットワークによって学習されるように、ニューラルネットワークを適切に訓練することにについて、説明する。
【0103】
図4の方法は、訓練データ401を提供することから開始する。訓練データは、例えば、他の物体と共に1つの画像に描かれた指先又は複数の指の複数の画像によって構成されてもよい。さらに、訓練データは、本物の指/他の生体部分の画像と、そのような生体部分のスプーフを示す画像、例えば指の画像、とを含む。さらに又は代替的に、訓練データは、上に記載したニューラルネットワークによって処理されるための差分画像を含んでもよい。
【0104】
画像は、訓練データとして導入される、回転された、ハイライトされた、暗くされた、拡大された又は他の修正が施されたコピーを使用することによって、同じ画像から増やされてもよい。
【0105】
さらに、入力に対応する結果408が提供され、この結果は、ニューラルネットワークが得るべき結果であり、したがって、学習において、実際の結果に対するニューラルネットワークによる処理の結果をチェックし、そしてそれに応じてニューラルネットワークのパラメータを調整するために使用される。
【0106】
次の工程では、ニューラルネットワークに加えてオプティマイザ407及び損失関数計算部406が提供される訓練環境において、1つの特定の入力画像402がニューラルネットワークに提供される。
【0107】
入力画像(又は一対の画像)は、第1のラウンドにおいて、depthwise畳み込み層、第1のバッチ正規化部及び第1の整流化線形ユニット403(DCBRとしてまとめられている)を使用して処理され、次いで、pointwise畳み込み層、第2のバッチ正規化部及び第2の整流化線形ユニット(PCBRとしてまとめられている)に送られ、ここで、
図3に関する説明に沿って処理される。これは、
図4に示された工程又はセクション403及び404が、各セクション403及び404において、pointwise畳み込み層(PC)及びdepthwise畳み込み層(DC)のカーネルKについての対応する重みを使用して実行されることを意味する。第1及び第2のバッチ正規化部並びにアイテム403及び404の整流化線形ユニットは、
図3に関して上で説明したように動作する。
【0108】
その結果、
図3に沿って、出力が提供される。出力は、ベクトル
【数7】
のかたちを有してもよく、式中、a,b,c,dは、0≦a,b,c,d≦1で、a,b,c,dは、各々、入力が、本物の生体部分(例えば値a)又はそのような生体部分のスプーフ(値b,c及びdであり、b,c及びdは各々異なる種類のスプーフの可能性を表す)のいずれかを表す可能性を表す。このような4つの値の代わりに、より多くの又はより少ない値を与えることができる。また、(例えば、1より小さい場合)画像が本物の生体部分を示すこと、及び(例えば、1より大きい場合)画像が生体部分のスプーフを示すことを示す1つの出力値のみが生成されてもよい。
【0109】
この結果405は次に損失関数に提供され、結果405と正しい結果408との差異を決定するために結果408と比較される。損失関数406によって得られたこの差異は、次にオプティマイザ407に提供され、オプティマイザは、各pointwise畳み込み層及び各depthwise畳み込み層の重み、すなわちα、並びにカーネルKの成分を修正する。これは、ネットワーク内のすべての層について一度に、又は分離された各層について、pointwise畳み込み層の重みα及びdepthwise畳み込み層のカーネルKの成分が操作されることを意味する。
【0110】
これらの新しい値により、全く同じ(複数の)画像についてサイクルが繰り返され、結果として得られるベクトル
【数8】
が損失関数に提供され、正しい結果408と比較され、その結果がオプティマイザ407に提供され、オプティマイザ407が重みを修正する。
【0111】
この手順は、結果として得られるベクトル
【数9】
との間の差異、特に結果408との比較における画像が本物の生体部分を示すか又はそのスプーフを示すかについての決定が、実質的に意図されている識別精度に対応する所定の閾値を超えている限り、実行される。
【0112】
その後、次の(複数の)入力画像402が訓練データ401から取得され、対応するバウンディングボックスが損失関数に提供される。次いで、説明した処理を新しい画像に対して再度繰り返し、pointwise畳み込み層とdepthwise畳み込み層についての最適な重みが得られる。これは、重みの特定の組み合わせが、すべての入力画像についての適切な識別精度をもたらすまで繰り返される。次に得られる重みの組み合わせは、最終重み410として出力される。
【0113】
これらの最終重みは、次に、モバイルデバイス上で本発明の方法を実行するアプリケーションに導入される。
【0114】
したがって、本発明のコンセプトでは、モバイルデバイスに提供されるニューラルネットワークは、生体部分及びそのような生体部分のスプーフの画像の識別にすでに十分に適合されており、したがって、さらなる学習を必要とせずに採用することができ、これにより、モバイルデバイスで必要とされるコンピュータリソースがさらに低減される。
【0115】
全体として、上記の図及び実施形態を参照して上で説明したように、pointwise畳み込み層、depthwise畳み込み層、バッチ正規化部及び線形ユニットを使用することによって、サイズが小さいアプリケーションを提供することができ、したがって、インターネットなどを介して追加のデータソースにアクセスすることなく、分離されたモバイルデバイス上での利用が可能となる。これにより、無線ネットワーク等へのアクセスが不可能な環境でのアプリケーションに適したものとすることができる。さらに、このアプリケーションを実行するために必要なプロセッサ電力は、適切なスプーフ検出結果を依然として生成しつつ最小に低減され、これにより、確認された(すなわち、スプーフィングされていない)画像から生体部分のバイオメトリック特徴を抽出することができ、これが後に、上で説明したような実行されるバイオメトリック特徴によるユーザの識別に使用される。
【0116】
本発明の方法を実行することができる状況を提供するために、
図5は、本発明の一実施形態によるスマートフォンの形態におけるモバイルデバイスを示す。
【0117】
モバイルデバイス500は、現在知られているようなスマートフォンとして具体化されている。モバイルデバイス500は、好ましくは、ディスプレイ530が設けられているモバイルデバイス500の側とは反対であるモバイルデバイスの裏面に、光学センサ520(例えばカメラ)を備える。本発明によれば、照度源が(例えば、光学センサ520の一部として)設けられており、これは選択的に作動及び作動停止することができる。
【0118】
このカメラは、解像度が1MP、2MP又はそれ以上のカメラ、例えば、HDカメラとすることができる。カメラには照明源としてフラッシュライトが設けられていてもよいが、本発明はこれに限定されず、そのようなモバイルデバイスの適当な照明源を使用することができる。また、カメラは低解像度でリアルタイム画像を撮影するように構成することができ、カメラがいったん作動されると、ディスプレイ530は、カメラが実際に「見る」ものの描写を示すことができる。これは、例えば、手510とすることができる。
【0119】
本発明の一実施形態では、本発明の方法が取得された画像に対して実行されると、判断の結果がディスプレイ(ここでは図示せず)に示されてもよい。