(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-10
(45)【発行日】2024-07-19
(54)【発明の名称】ユーザのバイオメトリック特性を有する画像中の物体を識別して、画像のうちバイオメトリック特性を含む部分を他の部分から分離することにより当該ユーザのIDを検証するための方法
(51)【国際特許分類】
G06V 40/12 20220101AFI20240711BHJP
G06V 10/25 20220101ALI20240711BHJP
G06V 10/74 20220101ALI20240711BHJP
G06T 7/00 20170101ALI20240711BHJP
【FI】
G06V40/12
G06V10/25
G06V10/74
G06T7/00 350C
G06T7/00 530
(21)【出願番号】P 2023050810
(22)【出願日】2023-03-28
(62)【分割の表示】P 2021549736の分割
【原出願日】2020-02-24
【審査請求日】2023-04-25
(32)【優先日】2019-02-26
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】520357453
【氏名又は名称】アイデンティー インコーポレイテッド
(74)【代理人】
【識別番号】100134832
【氏名又は名称】瀧野 文雄
(74)【代理人】
【識別番号】100165308
【氏名又は名称】津田 俊明
(74)【代理人】
【識別番号】100115048
【氏名又は名称】福田 康弘
(72)【発明者】
【氏名】グプタ ハーディック
(72)【発明者】
【氏名】ムルガン サテーシュ
(72)【発明者】
【氏名】アラゴン ジーザス
【審査官】藤原 敬利
(56)【参考文献】
【文献】特表2015-529365(JP,A)
【文献】特表2018-508888(JP,A)
【文献】米国特許出願公開第2018/0137406(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
G06V 10/00 -20/90
G06V 40/00 -40/70
(57)【特許請求の範囲】
【請求項1】
ユーザの例えば1つの指紋又は複数の指先の指紋のセット等のバイオメトリック特性を有する当該ユーザの物体の画像を用いて当該ユーザを識別するための方法であって、
モバイル装置の光学センサによって前記物体の前記画像を取得するステップと、
前記画像又は前記画像の一部をニューラルネットワークへ供給するステップと、
前記ニューラルネットワークによって、前記画像又は前記画像の前記一部のうち関心領域(以下「ROI」という)を含む部分を当該画像の他の部分から区別することを含む、前記画像又は前記画像の前記一部を前記ニューラルネットワークによって処理するステップと、
前記画像又は前記画像の前記一部から前記ROIを抽出するステップと、
前記ROIを含む前記部分を記憶装置に記憶し、及び/又は、前記ROIを含む前記部分を入力として識別手段へ供給するステップと、を有し、
前記識別手段は、前記ROIのバイオメトリック特性を抽出することと、抽出した前記バイオメトリック特性が前記ユーザを識別するか否かを判定するため、抽出した前記バイオメトリック特性を処理することと、を含み、
前記画像又は前記画像の前記一部を前記ニューラルネットワークによって処理するステップは、
エンコーダによって前記画像を処理することにより符号化済み画像を得ることと、
その後、前記符号化済み画像をデコーダによって処理することにより復号化済み出力画像を得ることと、
を含み、
前記ニューラルネットワークは、エンコーダ層のセットとデコーダ層のセットとを有し、
前記エンコーダによって前記画像又は前記画像の前記一部を処理することにより符号化済み画像を得ることは、当該エンコーダの第1層によって入力を処理することにより第1の中間符号化出力を生成することと、前記エンコーダの各先行層の符号化出力を前記エンコーダの各後続層によって処理することと、を有し、
前記各エンコーダ層は、各層における前記入力の処理順に、深度畳み込み層と、第1のバッチ正規化部と、第1の整流線形ユニットと、点畳み込み層と、第2のバッチ正規化部と、第2の整流線形ユニットとをそれぞれ有する、深度で分離可能な畳み込みであり、
前記複数の層を用いて前記入力を処理することにより、前記エンコーダは前記符号化済み画像を得られ、
前記符号化済み画像は前記デコーダへ供給され、
前記符号化済み画像を前記デコーダによって処理することにより復号化済み出力画像を得ることは、当該デコーダの第1層によって入力を処理することにより第1の中間復号化出力を生成することと、前記デコーダの各先行層の復号化出力を前記デコーダの各後続層によって処理することと、を有し、
前記各デコーダ層は、逆畳み込み層及び/又はバイリニアアップサンプリング層を有し、
入力された前記符号化済み画像を前記複数の層を用いて処理することにより、前記デコーダは前記復号化済み出力画像を得られる
ことを特徴とする方法。
【請求項2】
前記物体は少なくとも1つの指先であり、
前記バイオメトリック特性は前記指先の指紋であり、
前記識別手段によって前記入力を処理することは、
前記指紋からバイオメトリック特徴を、例えば細かい特徴の位置及び種類等を抽出するステップと、
抽出された前記バイオメトリック特徴を、記憶装置に記憶されたバイオメトリック特徴と比較するステップと、
を含み、
前記抽出されたバイオメトリック特徴と前記記憶されたバイオメトリック特徴との差が閾値を下回る場合、前記識別手段は前記指紋によって前記ユーザが識別されると判定し、
前記バイオメトリック特徴と前記記憶されたバイオメトリック特徴との差が閾値を上回る場合、前記識別手段は前記指紋によって前記ユーザが識別されないと判定する、
請求項1記載の方法。
【請求項3】
前記画像は複数の指先を有し、
前記方法はさらに、前記画像中における各指先に対応する部分を抽出し、前記識別手段による前記ユーザの識別のために各指先の前記指紋を使用することを含む、
請求項2記載の方法。
【請求項4】
前記識別手段は、前記画像中の全ての指先の指紋の組み合わされた識別精度が特定の閾値を上回ると判定することによって、前記指先の前記指紋によりユーザが識別されると判定し、又は、
前記識別手段は、前記指先ごとに前記指紋のバイオメトリック特徴と当該指先の当該指紋の記憶されたバイオメトリック特徴との差が閾値を下回るか否かを判定し、判定された全ての差が対応する前記閾値を下回る場合にのみ前記指先の前記指紋によってユーザが識別されると判定することにより、前記指先の前記指紋によりユーザが識別されると判定する、
請求項3記載の方法。
【請求項5】
前記画像は、前記モバイル装置の光学センサとしてのカメラによって取得される、
請求項1から4までのいずれか1項記載の方法。
【請求項6】
処理のために前記ニューラルネットワークへ供給される前記画像又は前記画像の前記一部はN×M個の画素を有し、
前記符号化済み画像はn×m個の画素を有し、ここでn<N、m<Mであり、
前記復号化済み出力画像はN×M個の画素を有する、
請求項1から5までのいずれか1項記載の方法。
【請求項7】
前記画像又は前記画像の前記一部のうち前記部分を区別することは、前記復号化済み出画像の一部を他の部分から区別することを含む、
請求項1から6までのいずれか1項記載の方法。
【請求項8】
前記バイオメトリック特性を含む前記部分を抽出することは、前記復号化済み出力画像において、区別された前記部分内にある画素を識別し、その後、前記復号化済み出力画像における区別された前記部分内にある画素を、元の前記画像又は前記画像の前記一部に含まれる対応する画素を用いて識別することと、元の前記画像又は前記画像の前記一部から、前記画像又は前記画像の前記一部のうち前記バイオメトリック特性を含む部分に該当する対応する画素を抽出することと、を含む、
請求項7記載の方法。
【請求項9】
前記画像を前記ニューラルネットワークにより処理するステップは、前記画像又は前記画像の前記一部から、前記画像又は前記画像の前記一部の各画素の色値を表す少なくとも1つのマトリクスIを生成するステップと、前記マトリクスを前記ニューラルネットワークへ入力として供給するステップと、を含み、
前記画像又は前記画像の前記一部はN×M個の画素を有し、
前記マトリクスIはN×M個の値を有するマトリクスであり、
前記マトリクスIの成分はI
ijによって与えられ、ここでi及びjは整数であり、i=1・・・Nかつj=1・・・Mである、
請求項1から
8までのいずれか1項記載の方法。
【請求項10】
前記エンコーダの各深度畳み込み層は、サイズS×Tのマトリクスである予め定められたカーネルKであって成分S
abを有するカーネルKを、
【数1】
である成分A
ijを有するマトリクスAであって入力として受け取ったマトリクスAに適用し、ここで
【数2】
S,T<N;S,T<Mであり、
前記カーネルを前記マトリクスに適用することは、
サイズ(N+2P
w)×(M+2P
h)を有するマトリクスZのサイズ(N×M)
S,Tの各削減マトリクスRと前記マトリクスKとの内積を算出することを含み、
前記マトリクスRは前記カーネルKと同一サイズであり、
前記マトリクスZの成分Z
cdは、
【数3】
により与えられ、
【数4】
であり、出力として、
【数5】
のサイズを有するマトリクスPが供給され、
ここでW
w及びW
hはストライド幅を定義し、前記マトリクスPの各成分P
ijは、ij番目の前記削減マトリクスRと前記カーネルKとの内積の値であり、
前記マトリクスPは前記深度畳み込み層から出力として供給される、
請求項
9記載の方法。
【請求項11】
前記デコーダは、受け取った前記符号化済み画像に変換を施し、
前記変換は、成分B
ij有するサイズN’×M’の入力マトリクスBから
を生成するものであり、
を生成するためには、
を前記成分に乗算し、
を組み合わせることにより前記マトリクスBの各成分B
ijを拡張することによって
を得る、
請求項
10記載の方法。
【請求項12】
のサイズは全ての深度畳み込み層において等しく、
並びに/又は、
の成分のうち少なくとも1つは、当該カーネルの他の成分と異なる、
請求項
10又は
11記載の方法。
【請求項13】
前記バッチ正規化部は、正規化された削減マトリクスP’を生成し、前記整流線形ユニットは整流関数を各成分P’’
ijに適用し、前記整流関数は、
【数6】
を有する
を算出し、
は出力として供給され、及び/又は、
前記点畳み込み層は、先行層から受け取った前記マトリクスの各成分に重みαを乗じることにより、前記マトリクスに前記重みαを適用する、
請求項1から
12までのいずれか1項記載の方法。
【請求項14】
前記方法は、前記ニューラルネットワークに前記画像の一部を供給するステップを有し、
前記ニューラルネットワークに前記画像の一部を供給するステップは、
Q×R個のグリッドセルを有するグリッドに前記画像を分離し、各グリッドセル内に、当該グリッドセルにおける予め定められた位置と予め定められた幾何学的特性とを有する少なくとも1つの境界ボックスを作成することと、
前記境界ボックスの位置及び幾何学的特性を修正することにより、前記物体の位置に最も一致する修正後位置と修正後幾何学的特性とを有する修正後境界ボックスを得ることと、
前記境界ボックスに含まれる前記画像の画素を前記画像の一部として前記ニューラルネットワークに供給することと、
を含む、
請求項1から
13までのいずれか1項記載の方法。
【請求項15】
前記境界ボックスの位置は、前記グリッドセルの中心を基準として二次元で算出され、
前記境界ボックスの幾何学的特性は、当該境界ボックスの高さ及び幅を含み、さらに、前記物体が前記境界ボックス内にある確率が各境界ボックスに関連付けられる、
請求項
14記載の方法。
【請求項16】
前記方法の各ステップを前記モバイル装置上で行う、
請求項1から
15までのいずれか1項記載の方法。
【請求項17】
光学センサと、プロセッサと、実行可能な指令を記憶する記憶ユニットと、を備えたモバイル装置であって、
前記指令は、前記モバイル装置の前記プロセッサによって実行されたときに前記プロセッサに請求項1から
16までのいずれか1項記載の方法を実行させる
ことを特徴とするモバイル装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、請求項1記載のユーザの1つの指紋又は複数の指先の指紋のセット等のバイオメトリック特性を有する当該ユーザの物体の画像を使用して当該ユーザを識別するための方法と、請求項20記載の当該方法を実施するための装置と、に関する。
【背景技術】
【0002】
現在、ユーザを識別するために、例えば指紋、又は、顔の複数点間若しくは手のひらのしわ間の固有の幾何学的な距離等のバイオメトリック特性を利用することが知られている。これにより、ユーザのバイオメトリック特性を保有する各物体の視覚的情報(すなわち画像)を得て当該バイオメトリック特性をさらに処理する必要がある。このさらなる処理には、得られたバイオメトリック特性と、特定のユーザの記憶され又は他の態様で既知となっているバイオメトリック特性とを比較することを含むことができる。得られたバイオメトリック特性が、既知である又は記憶されているバイオメトリック特性と一致した場合、ユーザはこの得られたバイオメトリック特性によって識別されたことになる。
【0003】
モバイル装置の最近の大半の開発では、ユーザの識別を行う実際のソフトウェア又は他のハードウェアから遠隔の場所で、物体の画像を取得するために例えばモバイル装置のカメラ等の光学センサ等を用いて、バイオメトリック特性を有する当該物体の画像を取得することが可能となっている。後でユーザを識別するためには、その後、この識別を行う主体へ物体を転送する必要がある。
【0004】
識別を行う主体は通常、バイオメトリック特性をそのまま処理することしかできないか、又は主にバイオメトリック特性をそのまま処理するために適したものであるため、画像のうち一部しかバイオメトリック特性を有する物体を含まない画像の全部をその主体へ転送する際に問題が生じ得る。さらに、画像全体を該当の主体へ転送しなければならないので、データ転送が相当量になり得る。
【0005】
他方、バイオメトリック特性を有する関連の物体が、識別を行う主体へ適切に供給されるのを保証する必要もある。
【発明の概要】
【発明が解決しようとする課題】
【0006】
公知技術を出発点として、本発明の課題は、物体の画像を撮影することにより得られたユーザのバイオメトリック特性を用いて当該ユーザの識別を行えると同時に、ユーザの識別を行う主体に供給される不必要又は処理不能な画像情報の量を削減できるようにすることである。
【課題を解決するための手段】
【0007】
上記課題の解決手段は、本発明では、独立請求項の請求項1記載の方法と、請求項20記載のモバイル計算機である。本発明の好適な実施形態は従属請求項に記載されている。
【0008】
ユーザの例えば1つの指紋又は複数の指先の指紋のセット等のバイオメトリック特性を有する当該ユーザの物体の画像を用いて当該ユーザを識別するための本発明の方法は、
モバイル装置の光学センサによって物体の画像を取得するステップと、
画像又は画像の一部をニューラルネットワークへ供給するステップと、
前記ニューラルネットワークによって、前記画像又は前記画像の一部のうち関心領域(以下「ROI」という)を含む部分を当該画像の他の部分から区別することを含む、前記画像又は前記画像の一部をニューラルネットワークによって処理するステップと、
前記画像又は前記画像の一部からROIを抽出するステップと、
ROIを含む部分を記憶装置に記憶し、及び/又は、ROIを含む部分を入力として識別手段へ供給するステップと、を有し、
識別手段は、ROIのバイオメトリック特性を抽出することと、抽出したバイオメトリック特性がユーザを識別するか否かを判定するため、抽出したバイオメトリック特性を処理することと、を含む。
【0009】
バイオメトリック特性を有するユーザの物体は、それが保有するそのバイオメトリック特性により当該ユーザを識別するために適したもの、すなわち当該ユーザを他の可能性のあるどのユーザとも区別するために適したものであれば、如何なる物体とすることもできる。これは例えば、指紋又は眼の虹彩又は手の掌紋に当てはまり、また、顔の幾何学的特徴にも当てはまる。また、例えば足形等もユーザを識別して他人から区別するために用いることができる。よって、物体は例えば指先、指、顔、眼、手のひら、又は足等とすることができる。適したものとみなし得る物体は他にも存在する。以下の詳細な説明では物体一般を参照し、又は一例として指先を参照するが、全ての実施形態が上記の物体のうちいずれか1つ又は複数を単独又は互いに組み合わせて用いて実現することができることが明らかである。
【0010】
関心領域とは、物体の画像のうち実際にバイオメトリック特性を有する領域である。また、関心領域は好適には、物体の画像に含まれる部分であって、当該画像の部分を用いたときにユーザを高信頼性で識別できるようにバイオメトリック特性を提示する部分であり、具体的には、物体の当該部分又はバイオメトリック特性の当該部分である。例えば、指紋を有するのは指先全体であるが、この指先の画像を撮影すると、指先の一部が光学センサの方を向かないため画像中において傾いて見えてしまい、例えば指紋の他の部分より暗くなることがある。通常、かかる「曖昧な」領域は実際にはユーザを識別するために適していないため、関心領域を構成しない。
【0011】
本発明ではニューラルネットワークは、画像を処理することによって画像のうち関心領域を含む部分と関心領域を含まない他の部分とを区別できるように訓練され、及び/又は、かかる区別を行える適性を他の態様で獲得したものである。これは種々の手法で達成することができるので、本発明を限定するものと解すべきものではない。ROIを含む領域をニューラルネットワークが他の領域から「区別する」とは、ROIと画像の他の領域とを区別する出力をニューラルネットワークが出力できる能力を有すること、又は、ニューラルネットワークがこれらの領域の区別を可能にすることを意味する。例えば、出力は、ROIを含むがROIの他の領域を含まない画素の示唆とすることができる。いずれの場合においても、ニューラルネットワークによる画像の処理の結果は少なくとも、当該画像のうち関心領域を含む第1の部分が他の部分と異なることが識別されたことを含む。この点については、関心領域の具体的なサイズ、形状や位置は、ニューラルネットワークが画像の処理によって発見するものであり、事前設定されるものではないことに留意すべきである。
【0012】
この点において、本発明の方法は、物体の画像の自由形態の撮影を対象とすることを意図したものである。すなわち、物体の画像は、ユーザが光学センサに対して物体をどのように位置決めすべきかを定義するテンプレート又は他のマスクをユーザに提示して撮影されるものではない。
【0013】
識別手段は、画像を撮影するために用いられるモバイル装置から遠隔の場所とするか、
又はモバイル装置に設けられるものとすることができる。さらに、ニューラルネットワークはモバイル装置上に設けるか、又はモバイル装置から遠隔の場所とすることができることに留意すべきである。後者の場合、画像はニューラルネットワークにより処理される前にモバイル装置から、ニューラルネットワークが設けられている遠隔の場所に転送される。
【0014】
また、画像又は画像の一部をニューラルネットワークへ供給することは、光学センサによって取得されたそのままの状態で画像又は画像の一部を供給することのみを含むものでない点に留意すべきである。具体的には例えば、バイオメトリック特性を有する物体を含む可能性が最も高い元の画像又は画像の半分又は画像の特定の部分がニューラルネットワークへ供給される。さらに、当該ステップは元の画像の前処理を含むことができ、この前処理は例えば、画像の明るさの変更、又は画像を複数の個別の色画像に分離すること等により行われる。本発明はこの点で限定されることはない。
【0015】
本発明は、後続の処理のために、具体的には、抽出されたバイオメトリック特性がユーザを識別するか否かを高精度で判定する処理のために関心領域を取得し、これにより必要なデータ転送量を有意に削減し、また、識別手段によるバイオメトリック特性の処理を簡素化することを可能にするものである。というのも、関心領域を保有しない画像の残りの部分により識別手段に及ぼされる干渉影響を回避できるからである。
【0016】
一実施形態では、物体は少なくとも1つの指先であり、バイオメトリック特性は指先の指紋であり、識別手段によって入力を処理することは、指紋からバイオメトリック特徴を、例えば細かい特徴の位置及び種類等を抽出するステップと、抽出されたバイオメトリック特徴を、記憶装置に記憶されたバイオメトリック特徴と比較するステップと、を含み、抽出されたバイオメトリック特徴と記憶されたバイオメトリック特徴との差が閾値を下回る場合、識別手段は指紋によってユーザが識別されると判定し、バイオメトリック特徴と記憶されたバイオメトリック特徴との差が閾値を上回る場合、識別手段は指紋によってユーザが識別されないと判定する。
【0017】
閾値は例えば数値とすることができる。例えば、閾値は0~1の数値とすることができ、その際には0は、バイオメトリック特徴と記憶されたバイオメトリック特徴との完全一致に該当し、1は、バイオメトリック特徴と記憶されたバイオメトリック特徴との不一致に該当することができる。画像を取得することについては、100%一致とはならないリスクが常に存在することを考慮すると共に、例えばユーザが銀行口座にアクセスしたい場合、ユーザを識別するためには識別精度が非常に高くなければならないことを考慮するためには、閾値は0付近に設定することができ、例えば0.02又は0.04に設定することができる。しかし、他の任意の値も可能である。
【0018】
抽出されたバイオメトリック特徴と記憶されたバイオメトリック特徴との差は、例えば、取得された画像の使用される関心領域の画素ごとに算出することができる。具体的には、画素ごとに、記憶されたバイオメトリック特徴の値と抽出されたバイオメトリック特徴の値(例えば明度値又は色値等)との差を求めることができる。その際には例えば、これらの各値を0~1の範囲に正規化することができる。ROIの全ての画素について又はROIの画素のサブセットについて上述の正規化された値の平均値が閾値を下回る場合、識別手段は、指紋によってユーザが識別されると判定することができ、当該平均値が閾値を下回らない場合には、指紋によってユーザが識別されないと判定することができる。
【0019】
抽出されたバイオメトリック特徴と記憶されたバイオメトリック特徴との差を算出するための他の手段も考えられる。
【0020】
この算出と、閾値との比較とを用いることにより、得られたバイオメトリック特徴がユーザを識別するものであるか否かを高信頼性で判定することができる。
【0021】
より具体的な一具現化では、画像は複数の指先を有し、方法はさらに、画像中における各指先に対応する部分を抽出し、識別手段によるユーザの識別のために各指先の指紋を使用することを含む。
【0022】
この実施形態は、識別のために複数の指先を用いるので、ユーザの識別の精度を向上させるために有利となり得る。
【0023】
さらに、識別手段が、画像中の全ての指先の指紋の組み合わされた識別精度が特定の閾値を上回ると判定することによって、指先の指紋によりユーザが識別されると判定し、又は、識別手段が、指先ごとに指紋のバイオメトリック特徴と当該指先の当該指紋の記憶されたバイオメトリック特徴との差が閾値を下回るか否かを判定し、判定された全ての差が対応する閾値を下回る場合にのみ指先の指紋によってユーザが識別されると判定することにより、指先の指紋によりユーザが識別されると判定するように構成することも可能である。
【0024】
閾値は、上記のように特定することができる。抽出されたバイオメトリック特徴と記憶されたバイオメトリック特徴との差も同様に、既に上記で述べた通りに求めることができ、又は他の任意の適した態様で求めることができる。
【0025】
抽出されたバイオメトリック特徴と記憶されたバイオメトリック特徴との別々の差を用いることにより、又は組み合わされた識別精度を用いることにより、ユーザの識別を高信頼性で行うことができる。これについては、組み合わされた識別精度は例えば、複数の異なる指紋について得られた全ての識別精度の平均値とすることができる。
【0026】
一実施形態では、画像はモバイル装置の光学センサとしてのカメラによって取得される。
【0027】
現在の世代の全てのスマートフォンがかかるカメラを備えているので、本方法は多くのユーザが使用することができ、これにより、例えば銀行口座にログインするために必要な識別を簡単にすることができる。
【0028】
他の一実施形態では、画像又は画像の一部をニューラルネットワークによって処理するステップは、エンコーダによって画像を処理することにより符号化済み画像を得ることと、その後、符号化済み画像をデコーダによって処理することにより復号化済み出力画像を得ることと、を含む。
【0029】
ここで「デコーダ」及び「エンコーダ」は、「暗号化」や「復号化」の意味で解すべきものではなく、以下の意味に解すべきものである。エンコーダは画像を「第1の方向」に処理するもの、具体的には、画像に特定の変換を施すことにより修正済み画像(符号化済み画像)を得るものである。かかる変換には、元の画像のサイズを低減する変換及び/又は各画素若しくは画像を表現するマトリクスの各成分に関連付けられた値を変更する変換を含み得る。そしてデコーダは、符号化済み画像を処理して復号化済み出力画像を得るものであり、この復号化済み出力画像は好適には、元の入力と少なくとも同数の画素を有する。この点において、デコーダは本発明では、エンコーダによって施された変換を少なくとも部分的に元に戻すものである。しかし、符号化済み画像の復号化は、復号化と符号化とが画像に施される互いに逆の変換と必ずなるように元の入力画像を回復しなければならないものではない。
【0030】
本実施形態により、画像においてROIを識別することに関連する情報を得て、この識別結果を元の画像にマッピングすることにより、関連する画素を抽出することができる。
【0031】
これについては、処理のためにニューラルネットワークへ供給される画像又は画像の一部がN×M個の画素を有し、符号化済み画像がn×m個の画素を有し、ここでn<N、m<Mであり、復号化済み出力画像はN×M個の画素を有するように構成することが可能である。
【0032】
画像の符号化時に画素数を低減すると情報の損失となる。しかし、復号化の際に画像を拡大して戻すと、画像の他の部分からROIを区別するために最も関連する情報を、より見分けやすくなる。というのも、この処理によって、ROIの識別に必要でない非関連情報又は非常に細かい情報がフェードアウトするからである。
【0033】
具体的には、画像又は画像の一部のうち部分を区別することは、復号化済み出力画像の一部を他の部分から区別することを含む。
【0034】
復号化済み画像におけるこれらの部分の区別は、ROIを含む部分を元の画像の他の部分から区別する場合と比較して格段に容易となり得る。よって、復号化済み出力画像におけるある部分を他の部分から区別するために必要な処理能力は、元の入力画像を処理する場合と比較して有意に削減される。
【0035】
他の具体的な一具現化では、バイオメトリック特性を含む部分を抽出することは、復号化済み出力画像において、区別された部分(すなわちROI)内にある画素を識別し、その後、復号化済み出力画像における区別された部分内にある画素を、元の画像又は画像の一部に含まれる対応する画素を用いて識別することと、元の画像又は画像の一部から、画像又は画像の一部のうちバイオメトリック特性を含む部分に該当する対応する画素を抽出することと、を含む。
【0036】
復号化済み出力画像の画素数は入力画像の画素数に等しいので、ROIを含むとして識別された復号化済み出力画像の部分を元の画像の部分と容易に照合することができ、これによりROIを入力画像から抽出することが容易になる。
【0037】
本方法はさらに、復号化出力画像中の各画素が値x∈]-∞;+∞[を有し、復号化出力画像の部分を区別する前に、復号化出力画像中の各画素に活性化関数S(x)=1/(1+e
-x)を適用し、復号化出力画像中の各画素に
を関連付け、前記区別は、
を有する画素について行うことができる。
【0038】
これにより、ROIを含む部分が、ROIを含まない他の部分から一層区別しやすくなり、これにより、復号化済み出力画像においてROIを識別する精度を向上することができる。
【0039】
一実施形態では、ニューラルネットワークは、エンコーダ層のセットとデコーダ層のセットとを有し、エンコーダによって画像又は画像の一部を処理することにより符号化済み画像を得ることは、当該エンコーダの第1層によって入力を処理することにより第1の中
間符号化出力を生成することと、エンコーダの各先行層の符号化出力をエンコーダの各後続層によって処理することと、を有し、各エンコーダ層は、各層における入力の処理順に、深度畳み込み層と、第1のバッチ正規化部と、第1の整流線形ユニットと、点畳み込み層と、第2のバッチ正規化部と、第2の整流線形ユニットとをそれぞれ有する、深度で分離可能な畳み込みであり、複数の層を用いて入力を処理することにより、エンコーダは符号化済み画像を得られ、符号化済み画像はデコーダへ供給され、符号化済み画像をデコーダによって処理することにより復号化済み出力画像を得ることは、当該デコーダの第1層によって入力を処理することにより第1の中間復号化出力を生成することと、デコーダの各先行層の復号化出力をデコーダの各後続層によって処理することと、を有し、各デコーダ層は、逆畳み込み層及び/又はバイリニアアップサンプリング層を有し、入力された符号化済み画像を複数の層を用いて処理することにより、デコーダは復号化済み出力画像を得られる。この説明全体において「復号化済み画像」及び「符号化済み画像」並びに「復号化済み出力画像」及び「符号化入力画像」との用語を用いるが、これらの「画像」との用語は、通常の意味で解される画像ではない場合があることに留意すべきである。実際にはその画像情報は、ニューラルネットワークの各層による処理により変わり、符号化済み「画像」及び復号化済み「画像」の各画像が、人間により通常認識可能な情報を含まなくなることがある。よって、これら各用語はあくまで説明目的で用いられるものであると解すべきである。一般に、符号化済み「画像」及び復号化済み「画像」の各画像はテンソル又は特定のサイズのマトリクスである。
【0040】
エンコーダ及びデコーダの上述のような構成により、復号化済み出力画像について有利な結果が奏され、ROIと元の画像又は画像の一部の他の部分とを正確に区別することができる。
【0041】
画像をニューラルネットワークにより処理するステップは、画像又は画像の一部から、画像又は画像の一部の各画素の色値を表す少なくとも1つのマトリクスIを生成するステップと、マトリクスをニューラルネットワークへ入力として供給するステップと、を含み、画像又は画像の一部はN×M個の画素を有し、マトリクスIはN×M個の値を有するマトリクスであり、マトリクスIの成分はIijによって与えられ、ここでi及びjは整数であり、i=1・・・Nかつj=1・・・Mである。
【0042】
これにより、ニューラルネットワークによる処理前に画像の処理を単一の色値の処理に制限することができ、これにより処理をより容易にし、その結果をより正確にすることができる。
【0043】
エンコーダの各深度畳み込み層は、サイズS×Tのマトリクスである予め定められたカーネルKであって成分S
abを有するカーネルKを、
【数1】
である成分A
ijを有するマトリクスAであって入力として受け取ったマトリクスAに適用し、ここで
【数2】
S,T<N;S,T<Mであり、カーネルをマトリクスに適用することは、サイズ(N+2P
w)×(M+2P
h)を有するマトリクスZのサイズ(N×M)
S,Tの各削減マトリクスRとマトリクスKとの内積を算出することを含み、マトリクスRはカーネルKと同
一サイズであり、マトリクスZの成分Z
cdは、
【数3】
により与えられ、
【数4】
であり、出力として、
【数5】
のサイズを有するマトリクスPが供給され、ここでW
w及びW
hはストライド幅を定義し、マトリクスPの各成分P
ijは、ij番目の削減マトリクスRとカーネルKとの内積の値であり、マトリクスPは深度畳み込み層から出力として供給される。
【0044】
深度畳み込み層を用いて画像を処理したときに最も適切な結果を得るため、カーネルの成分はニューラルネットワークの訓練を通じて訓練されることができる。
【0045】
他の一具現化では、デコーダの深度畳み込み層は、受け取った符号化入力画像に逆変換を施し、逆変換は、成分B
ij有するサイズN’×M’の入力マトリクスBから
を生成するものであり、
を生成するためには、
を成分に乗算し、
を組み合わせることによりマトリクスBの各成分B
ijを拡張することによって
を得る。
【0046】
これにより、符号化済み画像を入力画像の元のサイズに復号化することができる。
の成分は、エンコーダの深度畳み込み層によって適用される元のカーネルの成分に対して必ず逆又は同一又は他の関係を有しなければならないという訳ではない。
の成分は、最も正確な結果が得られるようにニューラルネットワークの訓練の際に学習することができる。
【0047】
を組み合わせることは、任意の適切な態様で促進されることができる。例えば、部分マトリクスを横に並べることにより
を得ることができる。また、部分マトリクスを重なり合うように配置して、
を構成する際に第1の部分マトリクスの一部が他のいずれかの部分マトリクスの一部と重なるようにすることもできる。
【0048】
この変換により、最終的に入力画像の元のサイズを有する拡張マトリクスを得ることができ、これによりROIの識別がより容易になる。
【0049】
一実施形態では、
のサイズは全ての深度畳み込み層において等しく、
並びに/又は、
の成分のうち少なくとも1つは、当該カーネルの他の成分と異なる。
【0050】
等しいサイズの
を用いる際には、逆畳み込みにおいて、削減マトリクスを得るために畳み込みにおいて用いられた画像の符号化の回数と同じ回数の拡張/復号化ステップを用いて
を得ることができる。これにより、エンコーダにより行われる変換回数とデコーダにより行われる変換回数とが異なることによるアーティファクトやコンフリクトを低減することができる。最も好適なのは、ニューラルネットワークの訓練の際にカーネルの特定の成分の値を学習することである。
【0051】
他の一実施形態では、バッチ正規化部は、正規化された削減マトリクスP’を生成し、整流線形ユニットは整流関数を各成分P’’
ijに適用し、整流関数は、
【数6】
を有する
を算出し、
は出力として供給され、及び/又は、点畳み込み層は、先行層から受け取ったマトリクスの各成分に重みαを乗じることにより、マトリクスに重みαを適用する。
【0052】
これにより、符号化処理の際にさらに情報が失われるが、最も関連する情報がニューラルネットワークによる入力画像の処理に通されることとなる。というのも、ニューラルネットワークのパラメータはこれに対応して訓練されるからである。
【0053】
方法は、ニューラルネットワークに画像の一部を供給するステップを有し、ニューラルネットワークに画像の一部を供給するステップは、Q×R個のグリッドセルを有するグリッドに画像を分離し、各グリッドセル内に、当該グリッドセルにおける予め定められた位置と予め定められた幾何学的特性とを有する少なくとも1つの境界ボックスを作成することと、境界ボックスの位置及び幾何学的特性を修正することにより、物体の位置に最も一致する修正後位置と修正後幾何学的特性とを有する修正後境界ボックスを得ることと、境界ボックスに含まれる画像の画素を画像の一部としてニューラルネットワークに供給することと、を含む。
【0054】
これにより、元の画像を、バイオメトリック特性を有する物体を実際に含む境界ボックスにより構成された画像の部分に削減することができる。これにより、ROIを識別するために画像全部ではなく画像のうちバイオメトリック特性を含む一部のみが処理されるので、ニューラルネットワークによる入力画像のさらなる処理を簡素化することができる。これにより、コンピュータリソースを削減して精度を向上することができる。
【0055】
さらに、境界ボックスの位置を、グリッドセルの中心を基準として二次元で算出し、境界ボックスの幾何学的特性は、当該境界ボックスの高さ及び幅を含むことができ、さらに、物体が境界ボックス内にある確率が各境界ボックスに関連付けられる。
【0056】
これにより、境界ボックスを物体のサイズ及び位置及び向きに合理的に合わせることができる。
【0057】
一実施形態では、上述の方法の各ステップをモバイル装置上で行う。
【0058】
これにより、識別のために用いられる画像の分散処理が可能になり、一度に攻撃又は破壊されるのが1つのモバイル装置のみとなり、この1つのモバイル装置に含まれるのは1人のうーざ又は少なくとも非常に限られた人数のユーザのデータのみとなるため、データの脆弱性を低減することができる。
【0059】
本発明のモバイル装置は、光学センサと、プロセッサと、実行可能な指令を記憶する記憶ユニットと、を備えており、指令は、モバイル装置のプロセッサによって実行されたと
きにプロセッサに請求項1から19までのいずれか1項記載の方法を実行させる。
【図面の簡単な説明】
【0060】
【
図1】画像内の実際の関心領域と比較した本当の画像の概略図である。
【
図2】本発明の一実施形態の方法のフローチャートである。
【
図3】一実施形態の抽出されたバイオメトリック特徴を用いてユーザを識別するための方法のフローチャートである。
【
図4】一実施形態のエンコーダによる入力画像の処理の概略図である。
【
図5】一実施形態のニューラルネットワークのデコーダによる符号化済み画像の処理の概略図である。
【
図6】境界ボックスの作成及び使用を概略的に示す図である。
【
図7】一実施形態のニューラルネットワークの訓練のフローチャートである。
【
図8】本発明の一実施形態の方法と共に用いることができるモバイル装置の概略図である。
【発明を実施するための形態】
【0061】
本発明は、ユーザの物体を撮影した画像から関心領域(ROI)の抽出に焦点を当てたものであり、この画像は、ユーザを識別するために使用できるバイオメトリック特性を含む。かかる物体は、ユーザの手の1本若しくは複数本の指の指先、ユーザの手のひらのしわ、又はユーザの顔、あるいはユーザの眼若しくは足等、何でも可能である。これらの各実体は、ユーザを識別するために使用できるバイオメトリック特性を保持することが知られている。例えばユーザの指紋は、指紋スキャナを用いる際、又は容疑者の1つ若しくは複数の指紋のインク画像を採取する際に、ユーザを識別するために有用であることが周知となっている。下記では、説明のための一例として指先及び指紋を用いるが、これは本発明の如何なる限定にもならないと解すべきである。指や指紋(具体的には指紋の細かい特徴)に代えて、これまでに挙げた他の任意の物体や他の任意のバイオメトリック特性を用いることができる。
【0062】
本発明の方法は、バイオメトリック特性を有する物体の画像を取得するためにスマートフォン等のモバイル装置の光学センサを用いることを含む。
【0063】
図1の左側に、上述のような画像110が一例として提示されている。同図では、画像110の前景に指111が示されている。この指がバイオメトリック特性を指紋112の形態で有しており、指紋112は指の先端に細かい特徴を含む。画像はモバイル装置のカメラ等の光学センサによって撮影されたものであるから、画像は通常は他の物体113~118も含む。これらの物体は、他の人、車、家、植物や道路、又は他のあらゆるインフラストラクチャ等、あらゆるものであり得る。
【0064】
バイオメトリック特性を処理するための他のソフトウェア又はハードウェア等の識別手段に画像が供給される場合には、これがユーザの識別誤りを引き起こす可能性があり、またその可能性が非常に高い。というのも、かかるソフトウェア/ハードウェアは、画像のうちユーザを識別するために使用できる程度のバイオメトリック特徴を含む部分(以下「関心領域」という)と他の部分とをどのように区別したら良いか分からないからである。さらに、かかる識別手段(例えばログインサーバ等)が、ユーザを識別するために上述のような画像を適正に処理できる構成であったとしても、実際にバイオメトリック特性を含むROIを識別して画像の他の部分から区別するためだけに識別手段で必要とされる計算リソースが、相当な量となり得る。
【0065】
よって、ユーザを識別するため、すなわちROI又はROI内のバイオメトリック特性を識別するために本当に必要な情報のみを識別手段に供給することが、より適切である。
【0066】
このことに鑑みて、本発明の目的は、ROI122が抽出若しくは分離され又は画像中の他のあらゆる部分(以下、符号121で示す)から他の態様でROI122が区別された修正済みの画像120又は画像120の一部が得られるように、元の画像を処理することである。
【0067】
よって、この修正後画像120はROI122のみを含むものとすることができ、又は、正方形若しくは方形の領域を設けてその中にROIを埋め込んだものとすることができる。後者の実施形態は扱いが容易となり得る。というのも、上述のような正方形又は方形の領域は、例えば1024×1024画素又は198×198画素又は他の任意の適切な数の画素等の複数の画素を用いて画像を表現する通常の態様で表現できるからである。
【0068】
通常、モバイル装置の光学センサにより撮影された画像110は、実際に画像上に写るものが画像ごとに異なり、また、バイオメトリック特性(指等)を有する物体の見え方や位置も異なるため、例えば、画像の第1の部分を他の部分から区別する事前設定されたマスクを画像に被せることでは、ROIを容易に特定することができない。
【0069】
このことに鑑みて本発明の一認識は、後述するように適切な入力によりニューラルネットワークを訓練することにより、ROIを画像の他の残りの部分から高信頼性で分離できるように元の入力画像110又は当該画像110の一部を処理することができる、というものである。
【0070】
画像の他の部分からのROIの上述の抽出を容易にする本発明の一実施形態の処理を、
図2に簡単に示して説明する。
【0071】
それ以降の図において、分離ステップについてのより具体的な説明を行う。
【0072】
最初のステップでは、本方法は、モバイル装置の光学センサを用いて、バイオメトリック特性を有する物体の画像を取得するステップ201を有する。モバイル装置は、タブレットコンピュータ、ラップトップ、スマートフォン、又はCCDカメラ等のモバイルカメラ等、あらゆるモバイル装置とすることができる。取得される画像は好適には、画像を撮影するための自由形態のソフトウェア/ハードウェア構成要素を用いて取得される。これは、物体の画像の撮影中、バイオメトリック特性を有する物体を光学センサに対してどのように配置すべきかの特定のパターン又は他の指示がユーザに提供されないことを意味する。実際、本発明では好適には、ユーザは物体の画像の撮影の仕方について完全に自由である。これには例えば、照明条件や、光学センサに対する物体の相対的配置等が含まれる。またユーザは、画像を何処で撮影するかや、バイオメトリック特性を有する物体の他に画像の背景を実際に何にするかについて、実質的に自由である。よって、画像上には、
図1の画像110に例示されているように他の物体も写っていることがある。
【0073】
画像を取得した後、オプションとして、画像に対して何らかの前処理202を行うことができる。この前処理には例えば、明度/luma値又は色値の修正を含むことができる。また、この前処理には、例えば色相-彩度-明度法等を用いて取得当初の画像をその色値又は明度値に基づいて分解することも含むことができる。
【0074】
一例として、元の画像は通常は複数の画素(例えば1024×1024)から構成され、各画素ごとに3色の色値に明度値を割り当てたものが設けられる。これにより、前処理の際に元の画像から、画素数は変わらないが各画像の画素値が1色の色値のみに関連付けられた3つの画像を導出することができる。このようにして前処理後には、緑色値を有する画像が1つ、青色値を有する画像が1つ、赤色値を有する画像が1つ得られる。後述す
るように、他の前処理手法も可能である。
【0075】
具体的には前処理は、(ニューラルネットワーク又は他の任意のソフトウェア又は他の任意のニューラルネットワークのいずれかを用いて)画像を調べて、当該画像のうち、バイオメトリック特性を有する物体が配された元の当該画像のサイズより小さいサイズの一部を識別することを含むことができる。
【0076】
図1を参照すると、指先を有する指111は、撮影された画像の略中央に配されている。それゆえ、前処理ステップ102は、画像110の境界領域をカットすることと、元の画像のうち引き続きバイオメトリック特徴を有する指先112を含むより小さい一部のみをさらに処理することと、を含むことができる。これは、指先を含む中心部分(例えば方形の形態等の部分)のみを元の画像から抽出することと同じである。
【0077】
下記では、通常「画像」又は「入力画像」又は「元の画像」という。上記事項に鑑みると、これは光学センサにより取得された画像又は元の画像の全部を含むだけでなく、画像全部に代えて画像の一部のみを用いること、又は、各画素について1色の色値を含み若しくは明度値に限定された1つ若しくは複数の画像を用いることを含めた、前処理の任意の具現化も含むことが明らかである。従って、元の画像のさらなる処理について記載する場合には、これらのどの前処理も、また、想定し得る他のどの前処理も含まれるとみなされる。
【0078】
物体の画像を取得した後、又は少なくとも画像の前処理を行った後のいずれかの時期に、ステップ203において画像(又は画像の一部又は前処理後の画像)がさらなる処理のためにニューラルネットワークへ供給される。ニューラルネットワークへの画像の供給は、例えば、光学センサ又は前処理を行った構成要素からニューラルネットワークを実装したソフトウェア構成要素へ画像を内部転送することにより行うことができる。ニューラルネットワークへの画像の供給は、データ伝送手段を用いてモバイル装置と遠隔の装置との間でデータを転送することを含むこともできる。ニューラルネットワークがモバイル装置に実装されていない場合には(これは一部の実施形態に該当し得る)、例えばモバイルインターネット接続又は有線接続又はブルートゥース(Bluetooth、登録商標)又は他の適
切な接続を用いて、ニューラルネットワークが設けられている遠隔の場所に画像を供給する。
【0079】
ニューラルネットワークに対する画像の供給は、モバイル装置上の永続的又は非永続的な記憶部から画像を取り出してニューラルネットワークへ供給すると共に、ニューラルネットワークに対して設けられた永続的又は非永続的な記憶部であってニューラルネットワークがその記憶位置にアクセスできる記憶部に画像を記憶することを含むこともできる。
【0080】
次のステップにおいて、ニューラルネットワークへの画像の供給203を行った後、画像をニューラルネットワークによって処理する204。この処理は、ニューラルネットワーク内の1つ若しくは複数のノード又は1つ若しくは複数の層によって画像の1つ又は複数の画素に関連付けられたデータを処理し、これにより例えば、下記にて詳細に説明するように1つ又は複数の特定の態様で入力画像を変換することを含むことができる。このニューラルネットワークによる画像の処理204の後、ニューラルネットワークは、画像のうち上記のROIを含む部分を、例えばバイオメトリック特徴と関係のない画像の背景等の他の部分から区別する出力を出力する。この処理によって、物体の一部が関心領域に属しないとみなされることもあり得る。これは例えば、バイオメトリック特性を物体の一部が、当該バイオメトリック特性のどの部分も含まない場合に該当し得る。これは例えば、指の場合、指先ではない全ての部分について当てはまり得る。
【0081】
また、物体のうちバイオメトリック特性を含む部分の画質が識別に使用するには足りない場合もあり、これにより、これがROIに属しないということになってしまう。これが該当し得るのは、例えば、物体のうちバイオメトリック特性の一部を含む部分が光学センサに対して傾いている場合であり、かかる場合に物体の画像を撮影すると、当該部分は適切に写っていないか又は物体の撮影画像の他の残りの部分より暗くなってしまい、ユーザを識別するためにバイオメトリック特性の当該一部を使用できなくなってしまう。
【0082】
いずれの場合においても上述の処理により、ニューラルネットワークが画像のうちROIを含む部分を、ROIを含まない他の部分から区別する出力を出力する。
【0083】
この出力に応じて、本発明の一実施形態の方法は、画像(又は画像の一部)からROIを抽出することを含む。この抽出は、関心領域内のバイオメトリック特性を有する画素のみを画像から抽出することを含むことができる。しかし、かかる抽出により、複数の画素が合わさって、
図1の画像120中に示されているような楕円形又は円形等の想定外の形状を成すことがあり得る。かかる画像は通常は処理しづらい。というのも、この画像は、データ構造で画像を表現するために通常用いられるサイズや形状を有しないからである。それゆえ、関心領域に対応しユーザのバイオメトリック特性を有する画素のみを元の画像から抽出することに代えて、本発明の一実施形態では、元の画像のうち関心領域に含まれない画素全てを標準値(例えば黒又は白)に設定する。かかる設定により、抽出された関心領域は、修正後画像が通常使用される形状(例えば方形であり、1024×1024画素を有する形状)を有するように、複数の周囲の画素の中に埋め込まれることとなる。これにより、抽出された関心領域の処理を次のステップにおいてより容易にすることができる。
【0084】
かかる次のステップは、
図2のフローチャートのさらなる処理ステップ206にまとめられている。抽出された関心領域(関心領域自体の画素のみであるか、又は、標準値を与えられた画素の中に埋め込まれ又は当該画素によって囲まれた関心領域の画素である)のさらなる処理は、モバイル装置上又はモバイル装置から遠隔の場所に設けることができる記憶装置にROI(又はその画像)を記憶することを含むことができる。追加的又は代替的に、上述のさらなる処理206は、関心領域を識別手段に供給することを含むこともでき、この識別手段は、当該関心領域を用いて関心領域内のバイオメトリック特性を抽出し、抽出したこのバイオメトリック特性を処理して、当該抽出したバイオメトリック特性がユーザを識別するか否かを判定するものである。
【0085】
例えば、識別手段は、ユーザの銀行口座にログインするためのログインサーバとすることができる。ユーザ自身を識別するためには、ユーザは例えば自己の指先等の画像を撮影し、
図2のステップ201~205を参照して説明したように当該画像を処理させて、銀行口座にログインするためのログインサーバにその画像を(手動又は自動のいずれかで)送信することができる。その後、このサーバは、関心領域を含むデータ構造の関心領域をさらに処理することにより、識別が成功したか否かを判定することができる。
【0086】
かかる処理をどのように容易にできるかについてのプロセスは、
図3において一実施形態について詳細に説明する。
【0087】
図3は、バイオメトリック特性が指紋である場合にバイオメトリック特性を使用してどのようにユーザを識別できるかを詳細に説明する図であり、この場合、物体は少なくとも1本の指先である。上記にて説明したように、他の物体やバイオメトリック特性を選択することも同様に可能である。
【0088】
図3の方法はステップ21で開始し、当該ステップでは、指先からバイオメトリック特
徴を抽出する。よって、これらのステップは少なくとも、
図2にて説明したように、識別された物体からバイオメトリック特性又はROIを抽出するステップの後に行われる。
【0089】
指先からバイオメトリック特徴を抽出するステップは、例えば指紋の位置及び細かい特徴(minutia)の種類を抽出することを含むことができる。また、細かい特徴の非常に具
体的な種類のみを抽出することも可能である(例えば、指紋における2つ以上の線の交差等)。
【0090】
この情報を使用してユーザを識別するためには、もちろん、対応するバイオメトリック特徴の形態で参照が存在することが必要である。そのため、上記にて
図2を参照して説明した識別手段が、特定のユーザに係るバイオメトリック特徴を記憶した記憶装置に関連付けられ、又は、かかる記憶装置を備えている場合があり得る。例えば、1つ又は複数のバイオメトリック特徴を例えば画像、数値、又は他のデータ構造の形態で記憶したファイルが、ユーザごとに存在することが可能である。
【0091】
次のステップ22において、指紋から得られたバイオメトリック特徴を、対応して記憶されたバイオメトリック特徴と比較する。このステップは、例えば記憶されたバイオメトリック特徴が細かい特徴の複数の場所によって表されている場合、抽出されたバイオメトリック特徴における対応する場所を比較することを含むことができる。もちろん、取得されたバイオメトリック特徴と記憶されたバイオメトリック特徴とを比較するための他の手段も公知であり、また使用可能であり、例えば画像認識技術又は周波数変換等を用いることができる。取得されたバイオメトリック特徴と記憶されたバイオメトリック特徴とを比較するステップは本発明では、取得されたバイオメトリック特徴と記憶されたバイオメトリック特徴との一致度を計算できるように行われる。換言すると、この比較によって、記憶されたバイオメトリック特徴と取得されたバイオメトリック特徴との差が算出される。この差は1つの実数又はテンソル又はベクトル、又は、取得されたバイオメトリック特徴と記憶されたバイオメトリック特徴との一致度若しくは差を表すのに適していると考えられる他の任意の数学的構造とすることができる。また、記憶されたバイオメトリック特徴画像から、取得されたバイオメトリック特徴画像を画素ごとに減じることにより得られる差分画像とすることもできる。
【0092】
取得されたバイオメトリック特徴が記憶されたバイオメトリック特徴と一致するか否かを判定するために使用できる閾値、すなわちユーザを識別できる閾値を設けることができる。
【0093】
これに応じてステップ23では、取得されたバイオメトリック特徴と記憶されたバイオメトリック特徴との差が上記の閾値を上回るか又は下回るかを判定する。当該閾値を下回る場合、ステップ25において、ユーザがバイオメトリック特徴によって識別されると判定する。差が閾値を上回る場合には、上記判定結果ではなく、ステップ24においてユーザがバイオメトリック特徴によって識別されないと判定する。閾値は例えば0~1の数値に設定することができ、その際には0は、完全一致(すなわち差が無い)とし、1は完全不一致を表すことができる。識別精度は比較的高くなければならないことを考慮するが、それと共に、
図1及び
図2において説明したように通常歪みを生じ得る物体の自由形態の画像が撮影されることを考慮するためには、閾値は0付近に設定することができるが、0に設定してはならない。例えば、閾値は0.1未満、好適には0.05未満とすることができ、又は0.98以下とすることもできる。もちろん他の値も可能である。
【0094】
かかる判定によって識別手段は、取得された指紋によってユーザが識別されたこと、又は、取得された指紋によってユーザが識別されなかったことのいずれかを判定することとなる。
【0095】
図2及び
図3では、ユーザを識別するために使用される指先が1つのみである場合であって当該指先が画像中に存在する場合に、撮影当初の画像から取得されたバイオメトリック特性を用いてユーザを識別する態様を説明した。
【0096】
しかしながら、識別手段は1本の指先のみを評価するだけでなく、ユーザを識別するために画像上に存在する2本又は全ての指先等の複数の指先を評価することも可能である。1本の指先又は複数の指先の指紋から取得されたバイオメトリック特徴と記憶されたバイオメトリック特徴とを識別手段によって照合する態様は、
図3を参照して説明した態様に相当する。
【0097】
しかし複数の指紋を評価する場合には、複数のバイオメトリック特徴の組み合わされた識別精度が所与の閾値を上回る場合にのみユーザが識別されたとするか、又は、取得された指先ごとに、
図3のステップ22及び23にて説明した取得されたバイオメトリック特徴と記憶されたバイオメトリック特徴との比較を行うことによってステップ25の結果が得られた場合にのみユーザが識別されたとすることができる。
【0098】
図3を参照して説明した方法は画像中の指紋ごとに行われ、取得されたバイオメトリック特徴と記憶されたバイオメトリック特徴との差が各取得された指紋ごとに所与の閾値を下回る場合にのみユーザが識別されるので、後者の場合が明確である。他の全ての場合では、ユーザは識別されないとすることができる。
【0099】
しかし、画像中の全ての指先の指紋の組み合わされた識別精度が所与の閾値を上回る場合にユーザが識別されたとする場合には、各指先ごとに、取得されたバイオメトリック特徴と記憶されたバイオメトリック特徴との比較の結果として、
図2のステップ23の差が閾値を下回ることを要しない。
【0100】
例えば、あるバイオメトリック特徴の識別精度が0(非識別)~1(取得されたバイオメトリック特徴と記憶されたバイオメトリック特徴とが完全一致)の範囲の数値とすると、組み合わされた識別精度が、バイオメトリック特徴ごとに個別に得られる別々の識別精度の総和によって求められる場合、組み合わされた識別精度の値は4未満とすることができる(4は、4つの指紋についての識別精度が満点であることに相当する)。
【0101】
例えば、組み合わされた識別精度に対応する閾値は3.5とすることができる。この場合、ユーザを識別するためには、例えば各指紋の識別精度が約0.9であれば足りることとなる。というのも、これらの識別精度の総和(すなわち組み合わされた識別精度)は3.6となり、総和の閾値を上回るからである。他の一例として、3つの指紋が0.95の識別精度で識別される場合を考えると、4番目の指は0.75の精度で識別されるだけで足りることとなる。
【0102】
なお、識別精度は、取得されたバイオメトリック特徴と記憶されたバイオメトリック特徴との相対的な類似度又は一致度と考えることができる。よって、取得されたバイオメトリック特徴が記憶されたバイオメトリック特徴と90%一致する場合、識別精度(すなわち、当該バイオメトリック特徴によってどの程度正確にユーザを識別できるか)は0.9となる。
【0103】
識別精度の他の値を使用すること、又は閾値の他の値を使用することも可能であることは明らかである。さらに、組み合わされた識別精度を求めることができる手段は他にも存在する。例えば、複数の識別精度の平均値を求めることにより、又は、複数の識別精度の積を求めることにより、組み合わされた識別精度を算出することができる。
【0104】
後続の複数の図では、取得当初の画像をステップ12~14に従って処理して最終的にバイオメトリック特性を含むROIを抽出する処理を詳細に説明すると共に、指先を高精度で識別できるようにするためニューラルネットワークをどのように訓練できるかについての説明を行う。
【0105】
既に上記にて説明したように、取得された画像は、まずエンコーダ(
図4にて説明する)を用いて処理してからその後にデコーダ(
図5にて説明する)によって処理することにより、ニューラルネットワークによって処理される。
【0106】
図4は、本発明の一実施形態のニューラルネットワークのエンコーダの一層400における受け取った入力の内部処理を示す図である。この層400は、エンコーダによる元の入力の処理順で、上述のステップ202の後に元の入力を受け取る最初の層、若しくは、ニューラルネットワークの他の2つの層440と450との間に配されたいずれかの中間層とすることができ、又は、層400は最終的に、デコーダに供給される符号化出力を出力するニューラルネットワークの最後の層とすることもできる。
【0107】
いかなる場合においても層400は、少なくとも何らかの形で取得当初の画像に対応する入力430を受け取る。この入力は好適には、次元N×Mを有する少なくとも1つのマトリクスの形態であり、ここでN及びMは、0より大きい整数である。マトリクスは例えば、少なくとも1つの色値(例えば赤)について画像中の画素を表すものとすることができる。よって、このマトリクスの成分は、当該特定の画素の当該色(本事例では赤)の値に相当する値を有することができる。以下の記載から明らかであるように、入力は取得された画像と同一でなくてもよく、ニューラルネットワーク内の層による何らかの処理によって、又は何らかの前処理(例えば解像度低減処理、単色低減、明度値低減等)によって元の画像を表すマトリクスから得られたマトリクスPとすることができる。
【0108】
しかし説明の簡素化のため、入力430は、取得当初の画像を表すN×Mマトリクスに相当し、当該N×Mマトリクスの各成分は当該画像中の各画素の一色(例えば赤)の値に相当すると仮定する。この考え方は、元のN×Mマトリクスをニューラルネットワークの各層で処理した変換後のどのような他のマトリクスにも、容易に適用することができる。
【0109】
ここで、
図4に例示した処理によれば、入力430は処理のために深度畳み込み層411によって受け取られる。下記では、深度畳み込み層によって入力マトリクス430をどのように処理できるかに関する比較的簡単な例を提示する。これは、カーネルKを用いて当該マトリクスとの内積を算出することを含む。このカーネルは、いわゆる「ストライド」でマトリクス全体で実行される。下記の例は値1の水平方向ストライド幅及び垂直方向ストライド幅を用いているが、ストライド幅が0より大きい整数であれば、1より大きい他の任意の値を使用することができる。カーネルKはサイズがS×Tであり、ここでS及びTは整数であり、かつN及びMより小さい。
【0110】
さらに、サイズN×Mの元の入力マトリクスI(すなわち入力マトリクス430)のみがカーネルとの内積を算出するために使用されると仮定する。しかし、カーネルとの内積を算出するために、拡張されたマトリクスZを用いることも可能である。この拡張されたマトリクスZは、元のマトリクスIの最初の行の上と最後の行の下とに行を「付加」し、最初の列の左側と最後の列の右側とに列を「付加」することによって得られるものである。
【0111】
これは「パディング」と称される。パディングは通常、行方向に数P
wの行を追加し、列方向に数P
hの列を追加することを含む。数P
wはS-1に等しくすることができ、数
P
hはT-1に等しくすることができ、これにより、Zとカーネルとで算出されたいかなる内積も、元のマトリクスIの少なくとも1つの成分を含むこととなる。よって、これにより得られるマトリクスZのサイズは(N+2P
w)×(M+2P
h)となる。このことから、マトリクスZは以下の成分を有することとなる:
【数7】
【0112】
ここで、全ての内積を算出してこれらを行及び列に従って適切に配列することによって得られる新たなマトリクスは、一般的に
【数8】
のサイズとなる。ここで、W
wは行方向のストライド幅であり、W
hは列方向のストライド幅である。サイズS×Tの所与のカーネルKを得るためには、新たなマトリクスのサイズが整数となるパディング及びストライド幅のみが許容されることが明らかである。さらに、ストライド幅W
wはS以下であり、かつストライド幅W
hはT以下であることが好適である。その理由は、そうしないとマトリクスIにおけるカーネルの動きが、元のマトリクスのうち新たなマトリクスの算出で除外されてしまう行又は列が出てきてしまうものになってしまうからである。
【0113】
以下では説明の簡素化のため、元のマトリクスIに対してはパディングを行わず、水平方向及び垂直方向のストライドのストライド幅は1であると仮定する。さらに、カーネルはサイズS×Sのマトリクスであると仮定する。すなわち、S=Tである特殊な事例を想定する。任意のパディング及びストライド幅及び任意のカーネルサイズに対して以下の説明を適用することは、以下の思想により容易に行える。
【0114】
深度畳み込み層411では、受け取った入力マトリクス430を使用して、サイズS×SのカーネルKとの内積を求める。ここで、S<N,Mである。この内積は、元のN×Mマトリクスの各削減マトリクスごとに計算され、削減マトリクスのサイズはS×Sであり、元のN×Mマトリクスのコヒーレントな成分を含む。一例としてS=3の場合を考察すると、元のN×Mマトリクスの第1の削減マトリクスR((N×M)S)は成分i=1,2,3;j=1,2,3を有し、9個の成分から構成され、カーネルKとの内積を計算するとその結果は単一の数となる。元のN×Mマトリクスの行方向における次の削減マトリクスは、iを1増分したマトリクスであり(ストライド幅に相当する)、これにより当該方向における次のマトリクスは、元のN×Mマトリクスのi=2,3,4;j=1,2,3の要素から構成されることとなる。その後、このマトリクスは、カーネルとの次の内積を算出するために使用することができる。なお、ここで提示した一例のS=3であるS×Sマトリクスは単なる一例であり、他のカーネルを使用することも可能である。
【0115】
列/カラム方向において次のサイズ(N×M)sの削減マトリクスRを算出するためには、元のN×Mマトリクスの要素の添え字jを1増分する。これは、行方向において最後
の削減マトリクスまで行われ、この最後の削減マトリクスは、S=3の場合にはi=N-S+1,N-S+2,N-S+3となる。上述のことは列についても同様に行われ、j=M-S+1,M-S+2,M-S+3となる。これらの内積を計算することにより、サイズが(N-S+1)×(M-S+1)の新たなマトリクスであるマトリクスPが算出される。その成分Pijは、元のN×Mマトリクスの各削減マトリクスとカーネルKとから計算された各内積に相当する。なお、実際にはこのサイズのマトリクスが層400の点畳み込み層へ転送される。
【0116】
カーネルKは、意図されている物体を適切に識別するためにニューラルネットワークを訓練する学習プロセスによって得られた成分である。ニューラルネットワークの層400において使用されるこのカーネルKは、各ニューラルネットワークの他の層において使用されるカーネルと同一のサイズ及び成分である必要はない。また、カーネルの各成分は互いに同一である必要はなく、少なくとも0以上の数である。かかる成分は、ニューラルネットワークの学習を通じて得られる「重み」を表すものとみなすことができる。
【0117】
深度畳み込み層によるマトリクス430の処理の結果は、行方向ではΔi=1の距離と列方向ではΔj=1の距離(これは各ストライド幅に相当する)とを有するストライドでカーネルを元のN×Mマトリクス上で移動させる場合、上述のように、サイズ(N-S+1)×(M-S+1)のマトリクス431となる。しかし、このストライドがΔi=2やΔj=3のようなより大きな距離を有する場合(これは列についても同様にあり得る)、これに応じて結果431の次元が上述のように変化することとなる。
【0118】
後続の処理において、この結果431は第1のバッチ正規化部412へ転送される。この第1のバッチ正規化部412は、
図4中の矢印で示されている処理順において深度畳み込み層411の次である。このバッチ正規化部は、受け取った結果マトリクス431の正規化を試行する。この正規化は、(N-S+1)×(M-S+1)マトリクスの各成分の総和を算出し、これを(N-S+1)×(M-S+1)マトリクスの成分の数によって除算することにより達成される。要素P
ijを有する(N-S+1)×(M-S+1)マトリクス(以下「P」で示す)の平均値Vは、次のように与えられる:
【数9】
ここでn及びmは、N×Mマトリクスの行数及びカラム/列数、又はマトリクスPの行数及び列数を表す。要素P
ijはマトリクスPの成分であり、所与の要素P
ijは、当該マトリクスの第i番目の行かつ第j番目の列の要素である。
【0119】
その後、バッチ正規化部は元のマトリクスの各成分Pijから平均値Vを差し引くことにより削減マトリクスP’を算出し、P’ij=Pij-Vとなる。これによって削減マトリクスP’内の値は正規化され、一方向又は他方向における変則値(anomalies、極端
に大きい値又は極端に小さい値)がフィルタリング除去される。
【0120】
第1のバッチ正規化部412によって生成された結果432は、(
図4の例では)未だサイズが(N-S+1)×(M-S+1)であるマトリクスとなる。というのもこれ以前では、マトリクスの次元削減が行われていないからである。
【0121】
結果432はその後、第1のバッチ正規化部412の次の第1の整流線形ユニット413へ供給される。
【0122】
この整流線形ユニットは、
を算出することによって、マトリクス432の各成分をさらに修正する。ここで、
【数10】
である。
【0123】
これにより、0より小さい値はバッチ正規化部を通過した後は0に設定され、これにより、以下説明する深度畳み込み層における更なる処理に影響を及ぼさなくなる。このことは、具体的には例えば、バッチ正規化部において算出された平均値を下回る色値はこれ以降考慮されず、平均値Vと少なくとも一致する値のみが計算の次のステップの結果に影響を及ぼす、ということである。
【0124】
このようにして第1の整流線形ユニット413によって出力される結果433は依然として(N-S+1)×(M-S+1)の形状/サイズのマトリクスであり、このマトリクスは点畳み込み層421へ転送される。
【0125】
点畳み込み層421は結果434を生成する。この結果434は、点畳み込み層421が(N-S+1)×(M-S+1)マトリクス433の各成分をとって当該各成分に重みαを乗じることによって生成される。αは好適には、常に0より大きい数であり、この数は(N-S+1)×(M-S+1)マトリクスの各成分に対して同一である。よって、点畳み込み層421から得られる結果434は、同一サイズの(N-S+1)×(M-S+1)であるが各成分に重みαを乗じたマトリクスとなる。
【0126】
その後、結果434は第2のバッチ正規化部422へ供給され、この第2のバッチ正規化部422において第1のバッチ正規化部412について説明した態様で正規化されて、同じ次元の正規化マトリクスP’が結果435として算出される。このマトリクス/結果435は第2の整流線形ユニット423へ転送され、第2の整流線形ユニット423において
を得るために整流関数が適用され、この結果/マトリクスはニューラルネットワークにおける次の層へ転送され、又は、ニューラルネットワークにおいて次の層がもはや無い場合には、結果436は出力符号化画像として、エンコーダにより処理されるために、
図5にて説明するように出力される。
【0127】
なお、エンコーダにおける処理により、光学センサによって得られた元の画像に存在していた情報は失われてしまう。というのも、エンコーダにおいて適用される変換tの中には、関係t°t-1=1が保持される逆変換t-1を有しないものがあるからである。しかし、これは実際には、本発明において意図している結果である。というのも、後述するニューラルネットワークの訓練によってこの情報損失を基本的に、関心対象外の情報すなわちROIではない情報に絞る又は制限できるからである。このような情報は失われるが、他方でROIの情報重みは増大するので、ROIを画像の他の残りの部分から区別することができる。
【0128】
本発明の一認識は、指先を識別するためには
図4にて説明した層400と同一の層を1
3個設けるのが最も好適である。というのも、指先の識別精度及びその位置の識別精度が比較的高くなると同時に、各方法の実装に必要なコンピュータリソースが削減され、このことによってモバイル装置により適用しやすくなるからである。
【0129】
図5を参照して、エンコーダから符号化済み画像を受け取ったときにデコーダにおいて実行される処理を説明する。
【0130】
既にエンコーダについて示したように、デコーダとの用語は、物体に適用された暗号化を復号化するといった「復号化」するものの意味に解すべきものではなく、デコーダとは、当該デコーダによって符号化済み画像が処理されたときに復号化出力画像のサイズ(画素又はマトリクスの成分についての大きさ)が好適には元の入力画像のサイズに相当するように符号化済み画像を拡張し、又は符号化済み画像を少なくとも変換する、1つ又は複数のノード又は層を含むニューラルネットワークを構成する部分をいうものとする。例えば、元の入力画像のサイズがA×B画素である場合、復号化出力画像(又はテンソル)は好適には、これと等しいサイズ又は画素数を有する。これはマトリクス(又は、より具体的にはテンソル)の形態で記述することもでき、このマトリクスは、各画素を当該マトリクスの成分に関連付け、各画素の値がマトリクスの成分の値となったものであるから、マトリクスの形態の復号化出力画像のサイズは元の入力画像のサイズというのと等価である。一例として、元の入力画像が224×176×3(3は、色値の色数に相当する)のサイズを有するとすると、復号化出力画像は、復号化出力画像を構成する画素/マトリクスの成分の同じ数を有する。元の入力画像の解像度を他の解像度とすること(すなわち、色値の数を他の数とすること)も可能である。
【0131】
図5に示されているように、デコーダ500は、符号化入力画像531を順次処理するための1つ又は複数の層551及び552(並びに、図示されていない他の相応の層)を有する。具体的には、符号化入力画像531はまずデコーダ500の第1の層551に処理され、その中間復号化画像533は、ニューラルネットワークのデコーダ500における符号化済み画像の処理順において次の層552に供給される。デコーダの各層を通過した後は、最終的な復号化出力画像536が得られる。この最終的な復号化出力画像536はその後、下記にて詳細に説明するようにさらに処理することができる。
【0132】
層551及び552による符号化済み画像の処理に関してまず留意すべき点は、これらの各層は同一の構成要素を有することであり、これら構成要素は基本的に、「転置畳み込み」とも称される逆畳み込み部501及び502と、バイリニアアップサンプリングユニット511及び521である。バイリニアアップサンプリングユニットは、各層における処理順では逆畳み込み部501及び502の後に示されているが、入力符号化画像の処理順においてバイリニアアップサンプリングユニットを逆畳み込み部501及び502の前に設けることも可能である。
【0133】
逆畳み込み部501及び502は、畳み込みの変換を逆にするように動作する。
【0134】
これをより詳細に説明するにあたり、符号化入力画像531(又は任意の中間復号化画像533及び535)は特定のサイズN’×M’を有する入力マトリクスBの形態で表現されていると仮定し、この入力マトリクスの成分をBijとし、ここでi≦N’かつj≦M’である。
【0135】
この入力マトリクスから
を得るため、エンコーダの深度畳み込み層のカーネルのように
を有するマトリクスの形態の
を、マトリクスの各成分に乗算する。検討を簡単化するため、
【数11】
と仮定する。しかし、これは本発明を何ら限定するものではない。実際には、
を任意の値とすることができる。これには、デコーダにおいて用いられるカーネルの
【数12】
又は
が、エンコーダにおいて用いられるS及び/又はTと異なることが含まれる。
【0136】
このカーネルを元の入力画像(符号化済み画像531等)の成分B
ijに乗算することにより、特定の成分を有する
が得られる。
を考えると、
の成分は
として表される。これらは、
により算出される。
【0137】
これにより、入力マトリクスBの1つの成分が、
を有する部分マトリクスに拡張される。
の値はマトリクスBの成分だけでなく
にも依存する。各成分B
ijについてこの手順を行った後は、
が得られる
【0138】
は、下記にて詳細に説明するようにニューラルネットワークの訓練により得ることができる。原則的には、入力マトリクスの成分B
ijの添え字i及びjに依存して
を設けることが可能ではあるが、説明を簡単化するため、使用される
は逆畳み込み部の中では同一であると仮定する。これが意味するところは、
ということである。しかし、デコーダの他の逆畳み込みに対しては、上述のことは当てはまらず、カーネルのサイズ及び/又は成分を別のものとすることができる。
【0139】
算出された
に戻ると、これ以降の手順は下記のようになる。入力マトリクスBの各成分B
ijについて、部分マトリクスが上記にて説明したように算出される。逆畳み込みから合理的な出力を得るため、これらの部分マトリクスを特殊な態様で組み合わせることにより、
を得る。これは、多数の手法で達成することができる。
【0140】
例えば、これら複数の部分マトリクスを「貼り合わせる(sticked together)」することができる。具体的には、
を組み合わせると共に、
を組み合わせる。さらに、対角線上に
を設ける。このようにして、B
00からパターンを開始して入力マトリクスの元の成分B
ij全てとその部分マトリクスとに対して上述のパターンを続けることにより、拡張マトリクスが得られる。
【0141】
代替的に、
を重ね合わせて組み合わせることもできる。具体的には、部分マトリクスを上記のように互いにくっつけるのではなく、(上記段落の場合のように)各カーネルの
より小さいストライド幅Wで
をシフトさせるのみで、
とを組み合わせる。これにより、
において1つ又は複数の
の組み合わせから成分が得られる。この重なり合いは、どの方向にも設けることができることが明らかである。つまり、(マトリクス表現を考えると)左右方向、上下方向及び対角方向に設けることができる。
【0142】
上記のことを考えると、
となり、これは、
に簡素化する。これは、上記にて説明したように
を互いに横に配置する場合に当てはまり、これは
と等価である。重なり合いが設けられ、これによりストライド幅Wがカーネルの
より小さい場合、拡張マトリクスの合成サイズは(N’+(N’-1)W)×(M’+(M’-1)W)となることが容易に分かる。これはもちろん、ストライド幅Wが左右方向と上下方向とで同一である場合にのみ当てはまる。それ以外の場合には、各幅を算出するために異なる値W
a及びW
bを用いることができる。
【0143】
逆畳み込みによる符号化済み画像の処理の結果は、使用される入力マトリクスBと
とについて上記の離散的な演算と計算とにより成分が算出された拡張マトリクスとなる。
【0144】
その後、
のサイズは元の入力マトリクスBのサイズより大きくなるが、元の画像のサイズ(すなわち画素数)には未だ一致しないことがある。
【0145】
次のステップにおいて、この
に対応する中間拡張画像が、バイリニアアップサンプリングユニット511に転送される。
このユニットでは、周知のバイリニアアップサンプリング技術を用いて
がアップサンプリングされる。これは、バイリニアアップサンプリングを用いて、隣り合う画素間に新たな画素を設けるということである。つまり、中間画素の値は周知のバイリニアアップサンプリング技術を用いて算出される。一例として、
を考える。バイリニアアップサンプリングでは、
をさらに拡張して他のマトリクス(例えば
として示す)に達するため、隣り合う画素間の1つ又は複数の画素を算出することができる。このバイリニアアップサンプリングにより、算出された中間値は、逆畳み込みを用いて算出されたマトリクスの成分間のより「滑らか」な接続を表現することとなる。
【0146】
バイリニアアップサンプリング511によって
を処理した後は、さらなる中間復号化画像533が得られ、その後、デコーダにおける次の層に転送される。上記の手順はデコーダの全ての層において繰り返され、最終的に復号化出力画像536が得られる。
【0147】
この復号化出力画像が、各成分の値を有するマトリクスに相当する場合、復号化出力画像は出力マトリクスとしてのマトリクスOと称されることがある。この出力マトリクスOは元の画像と同じサイズN×Mを有し、これに応じて、元の画像の各画素に対応して1つずつ成分を有する。
【0148】
しかし、復号化画像は元の入力画像と同一ではない。というのも、ニューラルネットワークにおける処理により、例えばエンコーダにおいて変換が施されることによって情報が
失われているからである。
【0149】
出力マトリクスOの値は、-∞~+∞の範囲とすることができる。出力復号化画像の実際の形態如何にかかわらず、この出力の各成分ごと(各画素に相当する)に、各成分の値に相応する値xが存在すると仮定する。
各値に対し、
【数13】
の形態を有する活性化関数S(x)を適用することができる。これにより、元の値xから0と1との間の間隔に圧縮された
が得られ、ここで、値x<0から導出される
は全て約0となり、これに対して、元の値x>0から得られる
は約1となる。
【0150】
これにより、個別の画素又は成分に関連付けられた値が
のいずれかを有する
が得られる。
【0151】
次のステップにおいて、0.5未満の全ての
を0に設定すると共に、0.5を越える全ての
を1に設定することにより、
をさらに修正することができる。
【0152】
この修正後のマトリクスは「白黒」画像と考えることができ、このマトリクスの
を有する成分は白であり、
を有する成分及び修正後マトリクスは黒と考えることができる。その逆も可能であり、「白黒」画像についての言及はあくまで例示目的である。
【0153】
ニューラルネットワークによる元の画像の処理により、出力マトリクス又は出力復号化画像において関心領域が、例えば楕円形等の特定の形状を有して現れる。その理由は、学習済みのニューラルネットワークと入力画像の処理とにより、ROIは
のいずれかに一致することとなるからである。画像の他の部分はフェードアウトし(これは、それぞれ
をとることに相当する)、これにより関心領域と画像の他の部分又は一部とを区別することができる。
【0154】
その後、次のステップにおいて、元の画像の画素を用いて、復号化出力画像における関心領域の部分に相当する各画素を識別することができる。というのも、復号化出力画像のサイズ及び画素の配置は元の入力画像と同じであるからである。これにより、元の出力画像のうち関心領域内にある画素を抽出することができる。
【0155】
復号化出力画像に至るまで元の入力画像を処理する間、関心領域の可能性のある領域が複数存在することがあり得る。本当の関心領域と他の関心領域候補とを区別するためには、復号化画像内で最大の連続領域を選択し、関心領域の可能性のある候補である他の領域を全て無視することができる。
【0156】
この復号化手順により、関心領域を表す処理後画素数の画素は平滑な領域ではなく、縮小及び拡大や情報損失に起因する階段又は他の歪みを含むことがある。これは例えば、関連分野において周知の平滑化技術を適用することにより、階段の無い(略楕円形の)形状となるように補正することができる。
【0157】
その後、復号化画像の得られた関心領域及び当該関心領域内の画素を、上記にて説明したように元の入力画像と照合し、元の入力画像における各対応する画素を実際の関心領域として抽出することができ、その後、例えば関心領域を記憶することにより、又は、例えば
図1及び
図2を参照して説明したように識別手段へ関心領域を供給することにより、さらに処理を行うことができる。
【0158】
なお、
図5を参照して、逆畳み込み部及びバイリニアアップサンプリングユニットの特定の順序により復号化を説明したが、これらの主体の他の組み合わせを用いることも可能である。例えば本発明は、画像を上記のように順次処理する複数の逆畳み込み部のみを用いる構成も含む。これに代えて、画像の処理のためにバイリニアアップサンプリングユニットのみを順次用いることも可能である。
【0159】
さらに、バイリニアアップサンプリングユニットの数が逆畳み込み部の数と一致しない実施形態もある。例えば、2つおき又は3つおきにのみ逆畳み込み部の後にバイリニアアップサンプリングユニットを設けることができる。逆畳み込み部よりもバイリニアアップサンプリングユニットの方が多い場合にも、同様のことが当てはまる。例えば、2つおき又は3つおきにのみバイリニアアップサンプリングユニットの後に逆畳み込み部を設けることができる。
【0160】
バイリニアアップサンプリングユニット又は逆畳み込み部は、デコーダ全体を通じて均等に設けることを要しない。例えば、入力符号化画像の処理順に、最初に1つの逆畳み込み部を設け、その後に1つのバイリニアアップサンプリングユニットを設け、その後に2
つの逆畳み込み部を設け、その後に1つのバイリニアアップサンプリングユニットをもうけることができる。その後、もう一度逆畳み込み部を1つだけ設け、その直後に1つのバイリニアアップサンプリングユニットを設けることができる。他の組み合わせも可能である。
【0161】
図6は、複数の境界ボックスと、複数のグリッドへの元の画像の分離とを用いて指先の識別(具体的には、指先を構成する元の画像内の画素の識別)を行えるよう、
図4及び
図5に記載されているコンセプトを拡張した他の一実施形態を示す図である。これにより、ROIを発見するためにニューラルネットワークによって処理すべき画像のサイズを削減することができ、これによりコンピュータリソースとニューラルネットワークの処理能力とを抑えることができる。
【0162】
なお、後述するステップは好適には、ニューラルネットワークにおいてエンコーダ及びデコーダにより元の画像を処理する前に行うことができる。
【0163】
図6に記載されている実施形態は、既に説明したニューラルネットワークを用いて実施するか、又は他のニューラルネットワークを用いて実施することができる。いずれの場合においても、使用されるニューラルネットワークは、ROIを有する関心対象物体を含む特定の形状(好適には方形)の領域を識別できるように訓練されている。しかし各ニューラルネットワークは、正確なROIを画像の残りの部分から分離可能である必要はない。よって、この点においては、ROIを正確に識別するために用いられるニューラルネットワークとしては低性能である。それは、
図6にて用いられるニューラルネットワークの場合、他の領域から分離すべき領域の形状が既に定義されている(例えば方形等)からである。よって、ニューラルネットワークはこの領域を適切に位置決め及びスケーリングすることしかできないが、完全に未知の形状のROIを識別可能である必要はない。
【0164】
図6の実施形態では、受け取った入力が元の画像であると仮定する。しかし、この時点で何らかの前処理(例えば色分解等)を行っておくことも可能である。よって、ここでは「画像」についてのみ説明するが、画像以外にも上記にて説明した前処理済み画像のうちいずれかを用いることも可能であることが明らかである。
【0165】
最初のステップにおいて、受け取った画像600は複数のグリッドセル610,611及び613に分離される。各方向のグリッドセルの数は限定されることはないが、好適な一実施形態では、画像600は水平方向に13個のグリッドセルと、垂直方向に13個のグリッドセルとに分離され、一般的表現のQ×Rではなく13×13グリッドが生成される。ROIの抽出元の物体に依存して、使用されるグリッドセル数を増減することが可能である。いずれの場合においても、本発明は具体的なグリッドセル数の選択について限定されるものではない。
【0166】
次のステップにおいて、各グリッドセルの中心点630を識別し、この中心点630を用いて、各グリッドセルの座標の原点をグリッドセル相互間で別々に確立する。この中心630まわりに、通常は方形の形状である少なくとも1つの境界ボックス631及び632が配置され、ここでは、グリッドセル613で分かるように、境界ボックス631及び632は初期高さh0及び幅又は横幅b0を有する。各グリッドセルの境界ボックスが複数である場合には、その値は互いに異なることができる。例えば、各グリッドセルの最小の境界ボックスについては初期値h0及びb0をとることができ、各グリッドセルの他の境界ボックスの寸法を計算するために、これらの値を1.5倍又は2倍又は任意の倍率で増加することができる。
【0167】
なお、各グリッドセルの座標系における境界ボックスの位置、例えば境界ボックス63
1の位置は、各グリッドセルにおける中心点630すなわち各座標系の原点を基準とする境界ボックス631の中心点の位置によって表されることとなる。よって、グリッドセル611における各境界ボックスの位置は2つの座標x及びyによって表すことができる。境界ボックスの幅及び高さは、0より大きい2つの値によって表すことができる当該境界ボックスの幾何学的特性を表すと考えられる。
【0168】
これらの境界ボックスは後でROIの位置を識別するため、又は、元の画像の対応する一部を処理のために各ニューラルネットワークへ供給するために用いられるが、これらの各境界ボックスに、ROIを含むことが想定される各物体を境界ボックスが含む確率である第5の値を関連付けることも可能である。
【0169】
よって、各境界ボックスは
【数14】
の形態の5次元のベクトルによって表すことができる。
【0170】
これはすなわち、各グリッドセルが各々の境界ボックスと共に、次元Q×R×B×Aを有するテンソルTの形態で表すことができる、ということである。ここで、Aはグリッドセル1つあたりの境界ボックス数である。指先を識別するための最も好適な事例は、Q=R=13、B=5(ベクトルbの次元)であり、Aは3~10の整数、最も好適には5に設定することができる。
【0171】
上記にて説明したように、ニューラルネットワークは特定の物体、好適には指先を識別するために既に訓練済みであると仮定する。これは、指先を表す可能性が最も高い画素の特定のパターンをニューラルネットワークが識別可能であることを含む。これは、そのスポットの色値、又は輝度等の他の特性の特定のパターンをいうことができる。しかし、画像600の指先の表示又はバイオメトリック特性を有する他の物体の表示は任意であり、ニューラルネットワークを訓練するために使用された指先とサイズ及び配置が一致しない指先である場合もあり得ることが明らかである。
【0172】
しかし、境界ボックス及びグリッドを用いることにより、指先を含む可能性が最も高い特定の境界ボックスをニューラルネットワークが識別することができる。この特定の境界ボックスを識別するためには、ニューラルネットワーク(又は、これに関連付けられ画像600を処理する構成要素)は各グリッドセルの各境界ボックス内の画素の値を、当該ニューラルネットワークが事前に学習した指先に相当する画素のパターンと比較する。この最初の段階では、完全一致が見つかる可能性は極めて低いが、指先の少なくとも一部分を含む可能性が他の境界ボックスより既に高い境界ボックスが出てくることとなる。
【0173】
図6に示されている事例では、例えば、グリッドセル613内に点Mを中心として配された境界ボックス641は、手650の指先の一部を含む。これに対して、グリッドセル610及び611はいずれも、指先の一部を含む境界ボックスを含まない。続けて本方法が境界ボックス641内の画素値と、場合によっては境界ボックス640内の画素値とを評価する場合、そのプロセスは、境界ボックス641が指先に相当するパターンを境界ボックス640より含むことを判定することができる。
【0174】
このことに鑑みて、本方法は、境界ボックス631及び632(及び場合によっては他のグリッドセルの他の境界ボックス)のいずれも指先を含まないと結論付けることができ、これらの境界ボックスのBベクトルの確率値を0にセットすることができる。
【0175】
点Mを中心として配された境界ボックス640及び641が指先の少なくとも一部を含むので、これらの境界ボックスは実際に指先を含む可能性があると考えることができ、その確率値は最初のステップでは0より大きい。
【0176】
より小さい境界ボックス640が、指先に相当する可能性のあるパターンによって略完全に埋め尽くされている一方、より大きい境界ボックス641については、本プロセスによって指先に相当するパターンを含むと考えられるのは、当該境界ボックス641の左側の境界のみである。
【0177】
これにより、本方法は続いて損失関数を計算することができる。この損失関数は、各境界ボックス641及び640内で識別されたパターンと、実際に指先に相当する学習から得られたパターンとの差を決定するものである。
【0178】
次のステップにおいて本方法は、各境界ボックスのサイズ及び位置を修正することにより上記の差を最小にすることを試みる。これについては、学習済みのパターンに合わせて差を最小にするため、より大きな境界ボックス641を開始点として使用してその位置及び形状を修正すること、又は、より小さい境界ボックス640を開始点として使用してその位置及びサイズを修正することが可能である。
【0179】
この最小化プロセスは最初に、
図6に示されているように各グリッドセルの中心点Mまわりにx軸に沿った方向に少量移動させてから、その後にこれに直交するy軸に沿った方向に少量移動させることにより(又は、先にy軸に沿った方向に移動させてからその後にx軸に沿った方向に移動させることにより)、境界ボックスの位置を修正することを含むことができる(以下では、境界ボックス641がその後の計算に用いられると仮定する)。この移動は、正及び負のx軸及びy軸に沿った移動となり、位置ごとに、学習により得られたパターンと画像中で識別された実際のパターンとの差関数を求めるために比較が行われることとなる。これにより、座標に基づいて差d(x,y)を表す二次元関数を計算することができる。
【0180】
これに基づいて傾き∇xydを計算することができ、これにより、学習済みのパターンとの一致を増大し、好適には最大化するため(関数d(x,y)の値を最小にすることに相当する)座標系においてどの方向に境界ボックスを移動すべきかを判断することができる。
これは、∇xyd=0の場合に当てはまる。
【0181】
その結果、関数d(x,y)が最小値をとる新たな中心点M’に向かう方向rに沿って境界ボックスは移動することができる。次のステップにおいて、一方向又は二方向におけるサイズ(すなわち高さ及び/又は幅)の増加又は減少が高さh及び幅bに応じてe(h,b)により表すことができる元のパターンに対する他の差関数の値を変化させるか否か
を判断するため、位置M’における当該境界ボックスのサイズを増加又は減少することができる。この関数は、位置M’を有し高さhf及び幅bfを有する特定の境界ボックスと学習済みのパターンとの差が最小になるように最小化される。
【0182】
その後、この境界ボックスは、画像600のうち指先又はバイオメトリック特性を有する物体を含む部分を識別する確率pが最も高い最終的な境界ボックスとして用いられることとなる。この境界ボックスに係る出力ベクトルは、以下の形態を有することとなる。
【数15】
【0183】
このプロセスの結果として、次元Q×R×B×Aを有するテンソルTを出力することができ、各グリッドセル内の境界ボックスごとに当該グリッドセルの中心を基準とするx及びy位置と、当該境界ボックスの幅及び高さと、当該境界ボックスが指先を識別し又は含む確率と、が得られる。
【0184】
隣のグリッドセルの境界ボックスが同じ方向に移動して互いに重なり合うのを阻止するため、また、別のグリッドセルの境界ボックスが他のグリッドセル内に入ってしまうのを阻止するため、本方法は境界ボックスの中心の移動がその元のグリッドセル内でしか行えないようにすることができる。
【0185】
よって、この結果は複数のベクトルBを含むテンソルとなり、これらのベクトルのうち1つ又は複数は指先を識別する確率が高く、その他のベクトルは確率が低い。確率が低いベクトルは、その全ての値を0にセットすることにより完全に無視することができ、これによりテンソルを処理する際に必要な処理労力を削減することができる。
【0186】
その後、確率が最も高いベクトルBを使用して、エンコーダ及びデコーダを用いてニューラルネットワークにより画像のさらなる処理を行うことができる。
【0187】
上記のアプローチは、バイオメトリック特性を有する指紋等の物体の一部をさらに処理するために使用される境界ボックスを適切に識別できるものであるが、以下では、破棄すべき境界ボックスについて説明する。
【0188】
上記にて説明したように、境界ボックスのベクトルbは、当該境界ボックスが指紋を含み又は表す可能性を示す確率pを含む。この確率pを用いて、全ての境界ボックス(又はその各ベクトル)を、最も高い確率値pを有するベクトルbから降順にソートすることができる。
【0189】
これが完了すると、値pが最も高い境界ボックスから降順にリストを順次処理することができる。この順次処理は、リストから値pを有する特定の境界ボックスを選択し、この特定の境界ボックスについて、他の境界ボックスとの交差の量を計算することを含むことができる。これは具体的には、選択された特定の境界ボックスの面積と、他の境界ボックスの面積とを比較することであり、これらの境界ボックスが共有する全ての面積(すなわち境界ボックスが交差し合う面積)が、算出される交差部に寄与する。
【0190】
交差の量は、選択された境界ボックスの面積に対する比率として計算することができる。これにより、算出された交差部ごとに無次元の値が得られ、この無次元の値は、0(交差部なし)から1(検討対象の残りの境界ボックスが、選択された当該境界ボックスの領域と完全に交差し、又は当該領域を覆う)までの範囲である。
【0191】
次のステップにおいて、事前設定された閾値を用いて境界ボックスを無視若しくは破棄し、又はこれらを除外することができる。上記の例では、この閾値は0.75の計算された交差量とすることができる。交差量がこの閾値を超える選択された境界ボックスと他の境界ボックスとの各対について、値pが低い境界ボックスを無視し、又は上記のリストから除外することができる。
【0192】
その結果、最終的に画像のうちROIを含むの一部を表す1つの境界ボックスのみが残ることとなる。これはもちろん1つの境界ボックスにのみ限定されるものではない。というのも、本発明はユーザの識別のために複数の指とそのROIとを使用することを含み得るからである。
【0193】
図7及び以下の説明では、
図4を参照して説明したカーネルKの重み及びエンコーダの重みαと、デコーダの
の値と、をニューラルネットワークが学習するために、ニューラルネットワークをどのようにして適切に訓練できるかを説明する。
【0194】
以下では、エンコーダ及びデコーダを有するニューラルネットワークの訓練について説明するが、本方法は、
図6に記載の境界ボックスを算出するニューラルネットワーク(の一部)の訓練にも適用することができる。こうするために基本的に必要なのは、事前設定されたROIからの入力データを変更することにより境界ボックスとその値とを事前設定し、境界ボックスとその値(具体的にはテンソルTを定義する値)とを、境界ボックスの算出を担うニューラルネットワークに供給することのみである。
【0195】
図7の方法は、訓練データ701及びROIの準備から開始する。この訓練データは、例えば複数の指先の画像、又は、1つの画像中に他の物体と共に表されている複数の指等の、例えば
図1を参照して説明した画像のような複数の画像により構成することができる。これら複数の画像は、同一画像を回転、強調、暗色化、拡大、又は他の修正を施した複製を用いて増加したものとすることができ、このような複製を訓練データとして導入する。項目708で準備されるROIは、訓練データに含まれる画像に対応するROIであって、識別対象の物体に正しく関連付けられたROI、すなわち、エンコーダ及びデコーダによって適切に処理された場合と同様の正しいサイズ及び正しい位置を有するROIである。かかるROIは、訓練データ中の全ての画像に対して画像ごとに設けられる。ROIは、訓練画像を手動で処理することにより得ることができる。訓練画像の量は、上記の修正を施した複製を用いて人工的に増加させることができるので、訓練用にROIを定義するように手動で処理すべき画像数は削減することができる。
【0196】
次のステップにおいて、ニューラルネットワークの他に最適化部707及び損失関数計算部706がさらに設けられた訓練環境下で、ニューラルネットワークに1つの特定の入力画像702が供給される。
【0197】
この入力画像は、第1段階において、
図4にて説明したエンコーダ703と、
図5にて説明したデコーダ704とを用いて処理される。これは具体的には、セクション703において点畳み込み層及び深度畳み込み層のカーネルKに係る対応する重みを使用すると共
に、セクション704において
を使用することにより、
図7に示されているステップ又はセクション703及び704を
図4及び
図5にて説明したように実行する、ということである。項目403及び404の第1及び第2のバッチ正規化部並びに整流線形ユニットは、上記にて
図4を参照して説明したように動作する。これらは訓練可能なパラメータを有しないので、以下では詳細な説明を割愛する。
【0198】
その結果、
図7によれば、出力はROIを含む第1のテンソル符号化出力画像705となる。この結果はその後、損失関数に供給され、損失関数では当該結果と事前設定されたROIとが比較されることにより、結果705と、708から得られた正しいROIとの差が特定される。損失関数706により得られたこの差はその後、最適化部707へ供給され、最適化部707の方は、各点畳み込み層及び各深度畳み込み層の重み、すなわちエンコーダについてはαとカーネルKの成分を修正し、デコーダの層の
の対応する成分を修正する。これは具体的には、ネットワークの全ての層に対して同時に、又は各層ごとに別個に、点畳み込み層の重みαと深度畳み込み層のカーネルK及び
の成分を操作する、ということになる。
【0199】
これらの新たな値を用いて、まさに同一の画像について上記サイクルが繰り返され、その結果得られるROIが損失関数へ供給されて正しいROIと比較され、この比較の結果が最適化部707へ供給されて、最適化部707は再び重みを修正する。
【0200】
この手順は、上記の結果の復号化出力画像、特に識別されたROIと、項目708の事前定義されたROIと、の差が、意図された識別精度に実質的に相当する所与の閾値を超える限り行われる。
【0201】
そのあと、訓練データ701から次の入力画像702が取られて、対応するROIが損失関数に供給される。その後、この新たな画像について上記のプロセスを再び繰り返し、エンコーダ及びデコーダ並びにこれらの構成要素に係る最適な重みが求められる。これは、重みの特定の組み合わせによって全ての入力画像の識別精度が適切になるまで繰り返される。このようにして得られた重みの組み合わせは、最終的な重み710として出力される。
【0202】
この最終的な重みはその後、エンコーダ及びデコーダについて説明したところによりモバイル装置上で本発明の方法を実行するアプリケーションに、具体的には、
図6にて説明したROIを含む画像の一部又は境界ボックスを識別するニューラルネットワークのアプリケーションに導入される。この最終的な重みの導入は、該当する場合には、境界ボックスを識別するニューラルネットワークの対応する訓練が行われた後に行われる。
【0203】
このようにして本発明のコンセプトでは、モバイル装置に供給されるニューラルネットワークは既にROIの識別に完全に適したものとなっているので、さらに学習を行う必要なく当該ニューラルネットワークを用いることができ、モバイル装置で必要とされるコンピュータリソースをさらに削減することができる。
【0204】
総合的に、エンコーダ及びデコーダを備えたニューラルネットワークを使用すると共に
、
図6で説明したように元の画像を複数のグリッドセルに分離して各対応する境界ボックスをオプションとして特定することにより、小さい容量のアプリケーションを提供することができ、これによりインターネット等を介して他のデータソースに何らアクセスしなくても、モバイル装置単独で使用することができる。これにより、無線ネットワーク等へのアクセスが不可能である環境下での適用に適したものとなる。さらに、この用途を実行するために必要なプロセッサ性能を最小限に抑えつつ、例えば、上記にて説明したように、後で指先の指紋によって行われるユーザの識別に使用できるROIの適切な識別結果を得ることができる。
【0205】
上記の説明は、指の指紋を保持する側を示す手又は指の画像に焦点を当てたが、ユーザは1本又は複数本の指を、他方の側すなわち手の甲側から光学センサに偶然又は意図的に提示することがあり得る。指のこのような画像からは、指紋は視認できないので抽出することができない。もちろん、説明したように他の物体についても同様のことが当てはまる。例えば、ユーザは手のひらではなく手の甲を見せることもあり得る。
【0206】
指紋を保持する指先の画像を、指紋を見せずに爪又は指関節を見せる指先の画像と区別するためには、以下の手順を用いることができ、この手順は、識別精度を向上するように上記にて説明した方法を拡張することができる。これはもちろん、他の物体についても当てはまり得る。
【0207】
上記の例では、境界ボックスは以下のベクトルにより特徴付けられた。
【数16】
また上記の例では、指紋を保持する指先の側を表示する指の画像のみを用いて訓練を行った。
【0208】
指先の両側(すなわち、指紋を保持する側と爪又は指関節を保持する側)から画像を撮影できる場合には、画像中で識別される物体の2つのクラス、すなわち、指紋を見せる指先である物体と、爪又は指関節を見せる指先である物体と、を考慮することが有利である。
【0209】
この場合、上述のベクトルに1次元cを追加して以下のように拡張することができる:
【数17】
ここで、cはいわゆるクラスである。第1のクラスは肯定的な識別結果(指紋を保持する指先を識別できる)とすることができ、第2のクラスは否定的な識別結果(指先は爪又は指関節を保持する)とすることができる。このクラスは、例えば肯定的な識別結果の場合
には値1、否定的な識別結果の場合には値0によって表すことができる。ベクトルbに含まれる他の値とは異なり、クラスは離散値であり、クラスの数に相当する限られた数の異なる値しかとれないことが明らかである。
【0210】
その後、第1のクラス又は第2のクラスのいずれかに属する画像を区別できるようにするため、(指紋を保持する指先を含む画像と境界ボックス708とを示す訓練データのみが供給されるのではなく)肯定的及び否定的な識別結果をニューラルネットワークへ供給して上記の訓練を行うことができる。ここで、指紋を示さずそれ以外のものを示す指の複数の画像が考えられ、この画像が示すものは、あらゆるものが考えられる。かかる「物体」は全て第2のクラス(すなわち否定的な識別結果)に分類することができ、これによりニューラルネットワークは、指紋を保持する指先の画像を、指先の「他のあらゆる」画像と区別するよう訓練される。訓練のために設けられる境界ボックスはもちろん、ネットワークを適切に訓練できるようにするため、正しいクラスcを含むこととなる。
【0211】
画像中のROIを含む全ての指先を識別するためには、上記のプロセスは、物体の位置を表す境界ボックスであって第2のクラス(すなわち否定的な識別結果)に属すると考えられる境界ボックスを全て無視することとなり、これにより、バイオメトリック特性を見せない物体の画像又は当該画像の一部の以降の処理が阻止される。
【0212】
なお、この考え方を、ROIを含む境界ボックスを得るための画像の上述のオプションの処理に適用することが最も好適である。というのも、境界ボックスは、エンコーダ及びにデコーダよりROIを特定する場合と比較して容易であるからである。しかしこの手法は、エンコーダ及びデコーダを有するニューラルネットワークにも同様に適応することができる。というのも、エンコーダ及びデコーダが訓練された後は、これらによって画像を処理することにより、ROIを全く含まない符号化出力画像が得られるからである。その後、これを用いて、バイオメトリック特性を抽出できるようには物体が画像に写っていないことを確定することができる。
【0213】
本発明の方法を実施できる場面を提示するため、
図8に、本発明の一実施形態のスマートフォンの形態のモバイル装置を示す。
【0214】
モバイル装置800は、現在公知のスマートフォンとして構成されている。モバイル装置800は光学センサ820を備えており、これは好適には、モバイル装置800におけるディスプレイ830の設置場所である側とは反対側のカメラの裏面に設けられている。カメラは、1MP又は2MP以上の解像度を有するカメラとすることができ、例えばHDカメラとすることができる。カメラにはフラッシュライトを備え付けることができるが、これは必須ではない。カメラはまた、解像度を低くしたリアルタイム画像を撮影するよう構成することもでき、カメラが起動されるとディスプレイ830は、カメラが実際に「見ている」ものを表示することができる。
【0215】
本発明の一実施形態では、撮影画像に対して本発明の方法を実施した後、ディスプレイ830上に表示されている手の画像上にて、手の指先を識別する境界ボックスを強調する。上記にて詳細に説明したように、識別された境界ボックスは表示される必要はなく、ROIを抽出できるように指先に相当する画像の一部分を処理するため、モバイル装置内部でさらに処理することができる。