IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アマデウス エス.アー.エス.の特許一覧

特開2024-109096顔認識システムおよび方法ならびに関連する自動化制御
<>
  • 特開-顔認識システムおよび方法ならびに関連する自動化制御 図1
  • 特開-顔認識システムおよび方法ならびに関連する自動化制御 図2
  • 特開-顔認識システムおよび方法ならびに関連する自動化制御 図3
  • 特開-顔認識システムおよび方法ならびに関連する自動化制御 図4
  • 特開-顔認識システムおよび方法ならびに関連する自動化制御 図5
  • 特開-顔認識システムおよび方法ならびに関連する自動化制御 図6
  • 特開-顔認識システムおよび方法ならびに関連する自動化制御 図7
  • 特開-顔認識システムおよび方法ならびに関連する自動化制御 図8
  • 特開-顔認識システムおよび方法ならびに関連する自動化制御 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024109096
(43)【公開日】2024-08-13
(54)【発明の名称】顔認識システムおよび方法ならびに関連する自動化制御
(51)【国際特許分類】
   G06T 1/00 20060101AFI20240805BHJP
   G06T 5/60 20240101ALI20240805BHJP
   G06T 7/00 20170101ALI20240805BHJP
   G06T 7/90 20170101ALI20240805BHJP
   G06V 10/24 20220101ALI20240805BHJP
   G06V 10/82 20220101ALI20240805BHJP
   G06V 40/16 20220101ALI20240805BHJP
【FI】
G06T1/00 340A
G06T5/60
G06T7/00 350C
G06T7/00 660A
G06T7/90 A
G06V10/24
G06V10/82
G06T7/00 510F
G06V40/16 A
【審査請求】未請求
【請求項の数】15
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024011799
(22)【出願日】2024-01-30
(31)【優先権主張番号】23315017.6
(32)【優先日】2023-01-31
(33)【優先権主張国・地域又は機関】EP
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.BLUETOOTH
2.3GPP
3.JAVA
4.PYTHON
(71)【出願人】
【識別番号】509228994
【氏名又は名称】アマデウス エス.アー.エス.
【氏名又は名称原語表記】AMADEUS S.A.S.
【住所又は居所原語表記】485 Route du Pin Montard,Sophia Antipolis,F-06410 Biot,France
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ホンリウ・カオ
(72)【発明者】
【氏名】エオイン・トーマス
(72)【発明者】
【氏名】アレクシ・ラヴァネル
【テーマコード(参考)】
5B043
5B057
5L096
【Fターム(参考)】
5B043AA05
5B043BA04
5B043HA02
5B043HA06
5B057BA02
5B057CA01
5B057CA08
5B057CA12
5B057CB01
5B057CB08
5B057CB12
5B057DA11
5B057DA15
5B057DB02
5B057DB06
5B057DB09
5B057DC08
5B057DC22
5B057DC25
5B057DC40
5L096AA02
5L096AA06
5L096CA02
5L096DA01
5L096DA02
5L096DA03
5L096EA07
5L096EA18
5L096FA33
5L096FA67
5L096GA41
5L096HA11
5L096KA04
5L096MA03
(57)【要約】
【課題】本明細書は、パスポートのような画像を生成するためのシステムおよび方法を提供する。
【解決手段】パスポートのような画像は、個人識別可能情報(PII)の使用を伴わずに合成画像から生成され得る。パスポートのような画像は、個人のパスポート写真との個人のリアルタイム写真の比較に基づいて出力デバイスを制御するために使用され得る機械学習データセットを提供することなどの、異なる適用例のために使用され得る。
【選択図】図1
【特許請求の範囲】
【請求項1】
顔のキャプチャされた非正規化画像から生成される、前記顔の正規化画像に基づいて、出力デバイスを制御するための方法であって、
人間の顔および背景の合成非正規化写真を表す画像のランダムデータセットを生成するステップと、
合成非正規化写真ごとに、
各人間の顔の正規化画像を生成するために変動を除去し、
正規化画像ごとに各人間の顔を取り囲む前記背景を除去することによって、
合成正規化写真の出力データセットを生成するステップと、
前記ランダムデータセットおよび前記出力データセットを含む訓練データセットを生成するステップと、
前記訓練データセットを使用して非正規化写真から正規化写真を生成するようにニューラルネットワークを訓練するステップと、
個人の非正規化顔画像を受信するステップと、
前記非正規化顔画像から正規化顔画像を生成するために前記ニューラルネットワークを適用するステップと、
前記個人の前記正規化画像に基づいて出力デバイスを制御するステップと
を備える方法。
【請求項2】
前記個人のパスポート画像をキャプチャするステップと、
前記パスポート画像との前記正規化画像の比較を実行するステップとをさらに備え、
前記制御するステップが、ゲートを通じた前記個人の通行を前記比較に従って許可または拒絶するように前記ゲートを選択的に制御するステップを備える、
請求項1に記載の方法。
【請求項3】
前記合成非正規化写真が、ランダムノイズおよび事前訓練された敵対的生成ネットワーク(GAN)から生成され、それによって、訓練データセットの中の個人識別可能情報(PII)に依拠することなくニューラルネットワークを使用して前記出力デバイスを制御する、請求項2に記載の方法。
【請求項4】
前記制御するステップが、前記個人の前記非正規化顔画像のそばに前記正規化顔画像を生成するようにディスプレイデバイスを制御するステップを備える、請求項1から3のいずれか一項に記載の方法。
【請求項5】
変動を除去するステップが、正面顔照度を正規化するステップ、中立の姿勢を生成するステップ、中立の表情を生成するステップ、眼鏡の除去、および一様な淡色背景を作成するステップのうちの少なくとも1つを含む、請求項1から4のいずれか一項に記載の方法。
【請求項6】
前記ランダムデータセットが、敵対的生成ネットワーク(GAN)に従って生成され、前記適用するステップが、前記非正規化顔画像を反転させて、前記ランダムデータセットのために使用されるGAN空間にするステップを備える、請求項1から5のいずれか一項に記載の方法。
【請求項7】
前記背景を除去するステップが、
画像ごとに対称損失を計算するステップと、
画像ごとに背景統計値を計算するステップと、
より低い第1の範囲における対称損失、
より高い第1の範囲における背景色、および
より低い第2の範囲における背景多様性を用いて、
前記画像の第1のサブセットのポジティブデータセットを準備するステップと、
前記より低い第1の範囲よりも大きい、より高い範囲における前記対称損失、
前記より高い第2の範囲よりも低い第3の範囲における前記背景色、および
前記より低い第2の範囲よりも高い第3の範囲における前記背景多様性を用いて、
前記画像の第2のサブセットのネガティブデータセットを準備するステップと、
画像ごとに前記ポジティブデータセットと前記ネガティブデータセットとを分離する訓練された線形分類器を生成するステップと、
前記訓練された線形分類器から分離計画を生成するステップと、
上記の事項に基づいて各正規化画像を生成するように線形制御関数を学習するステップとを備える、
請求項1から6のいずれか一項に記載の方法。
【請求項8】
前記訓練セットのための新たな画像のための前記線形制御関数が、次式、すなわち、
’=W+(β×LS+β×MB+β×SB+β)×P
に基づき、
が、変動を前記除去するステップからの元の各画像のためのコードであり、W’が、前記元の画像に対応する新たな各画像のためのコードであり、Pが、分離超平面の法線ベクトルであり、
背景統計値が、
=I[0:h,0:w]
=I[0:h,n-w:n]
に従って決定され、
hが、ピクセル単位での前記画像の高さであり、
wが、ピクセル単位での前記画像の幅であり、
Iが、サイズn×nの画像であり、
Flip(I)が、画像Iの水平反転であり、
対称損失が、
【数1】
に従って計算され、
【数2】
であり、
Liが、前記顔画像を取り囲む左のウィンドウを示し、
Riが、前記顔画像を取り囲む右のウィンドウを示し、
MBiが、前記背景色を示し、
SBiが、前記背景多様性を示す、
請求項7に記載の方法。
【請求項9】
前記訓練するステップの前に前記出力データセットの中の顔の人口統計学的分布のバランスをとるステップをさらに備える、請求項1から8のいずれか一項に記載の方法。
【請求項10】
前記バランスをとるステップが、インターフェース(インタープリティングフェース)敵対的生成ネットワーク(インターフェースGAN)を使用して実行される、請求項9に記載の方法。
【請求項11】
検問所装置であって、
個人の顔の正規化されていない第1の画像を受信するためのカメラと、
顔の第2の画像の識別文書写真を受信するための入力デバイスと、
背景を除去すること、および前記第1の画像の前記顔をまっすぐ仮想カメラに向けることによって、前記第1の画像から正規化画像を生成するように構成されたプロセッサへの接続部であって、前記正規化画像が、前記個人を除外するニューラルネットワークデータセットから作成される、接続部と、
前記第1の画像および前記第2の画像が同じ個人であるかどうかに基づいて機能を選択的に実行するための出力デバイスと
を備える検問所装置。
【請求項12】
前記プロセッサが、前記第1の画像および前記第2の画像が同じ個人のものであるかどうかの決定を実行するように構成される、請求項11に記載の装置。
【請求項13】
前記機能が、後続の第1の画像および後続の第2の画像が同じ個人のものであるかどうかに関する、ニューラルネットワークの訓練である、請求項11または12に記載の装置。
【請求項14】
前記機能が、前記第1の画像および前記第2の画像が同じ個人のものである場合に、ゲートを開くこと、荷物コンベヤベルトをアクティブ化すること、搭乗券を印刷すること、または荷物タグを印刷することのうちの1つである、請求項11から13のいずれか一項に記載の装置。
【請求項15】
プログラムコード命令がコンピュータ上で実行されると、請求項1から10のいずれか一項に記載の方法ステップを実行するための、少なくとも1つのコンピュータ可読媒体上に記憶された前記プログラムコード命令を備える、コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、一般に、顔認識および関連する自動化制御に関する。
【背景技術】
【0002】
市民社会は、国家および他の強力な支配力が勢力を広げすぎることに対する検査を必要とする。そのような検査は、安全および保護への公共の権利を保護することとプライバシーへの個人の権利を保護することとの間のバランスを含む。多くの技術的進歩と同様に、顔認識技術は、悪用に対する多大なリスクを呈しながら公共安全を保護するための多大な裏付けを持ち続ける。したがって、多くの技術的問題は、報酬とリスクとのバランスをとる方法で顔認識技術を実施すべき必要に由来する。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】出願番号第22305318.2号
【非特許文献】
【0004】
【非特許文献1】Tero Karras、Samuli Laine、Timo Aila、「A Style-Based Generator Architecture for Generative Adversarial Networks」(https://arxiv.org/abs/1812.04948)
【非特許文献2】Yibo Hu、Xiang Wu1、Bing Yu、Ran He、Zhenan Sun、「Pose-Guided Photorealistic Face Rotation」、(https://openaccess.thecvf.com/content_cvpr_2018/papers/Hu_Pose-Guided_Photorealistic_Face_CVPR_2018_paper.pdf)
【発明の概要】
【課題を解決するための手段】
【0005】
このコンテキストでは、独立請求項によって規定されるような方法、システム、およびコンピュータプログラム製品が提示される。
【0006】
第1の態様として、本開示は、顔のキャプチャされた非正規化画像から生成される、顔の正規化画像に基づいて、出力デバイスを制御するための方法を提供し、方法は、人間の顔および背景の合成非正規化写真を表す画像のランダムデータセットを生成することと、合成非正規化写真ごとに、各人間の顔の正規化画像を生成するために変動を除去し、正規化画像ごとに各人間の顔を取り囲む背景を除去することによって達成される、合成正規化写真の出力データセットを生成することとを備える。方法は、ランダムデータセットおよび出力データセットを含む訓練データセットを生成することと、訓練データセットを使用して非正規化写真から正規化写真を生成するようにニューラルネットワークを訓練することと、個人の非正規化顔画像を受信することと、非正規化顔画像から正規化顔画像を生成するためにニューラルネットワークを適用することと、個人の正規化画像に基づいて出力デバイスを制御することとをさらに備える。
【0007】
いくつかの実施形態では、方法は、個人のパスポート画像をキャプチャすることと、パスポート画像との正規化画像の比較を実行することとをさらに備え、制御することは、ゲートを通じた個人の通行を比較に従って許可または拒絶するようにゲートを選択的に制御することを備える。
【0008】
合成非正規化写真が、ランダムノイズおよび事前訓練された敵対的生成ネットワーク(GAN:generative adversarial network)から生成され、それによって、訓練データセットの中の個人識別可能情報(PII:personal identifiable information)に依拠することなくニューラルネットワークを使用して出力デバイスを制御することができる。
【0009】
制御することは、個人の非正規化顔画像のそばに正規化顔画像を生成するようにディスプレイデバイスを制御することを備えることができる。
【0010】
変動の除去は、正面顔照度を正規化すること、中立の姿勢を生成すること、中立の表情を生成すること、眼鏡の除去、および一様な淡色背景を作成することのうちの少なくとも1つを含むことができる。
【0011】
ランダムデータセットは、敵対的生成ネットワーク(GAN)に従って生成されることが可能であり、適用することは、非正規化顔画像を反転させて、ランダムデータセットのために使用されるGAN空間にすることを備える。
【0012】
本明細書の別の態様は検問所装置を提供し、検問所装置は、個人の顔の正規化されていない第1の画像を受信するためのカメラと、顔の第2の画像の識別文書写真を受信するためのスキャナまたは他の入力装置を備える。装置はまた、背景を除去すること、および第1の画像の顔をまっすぐ仮想カメラに向けることによって、第1の画像から正規化画像を生成するように構成されたプロセッサへの接続部を含む。正規化画像は、個人を除外するニューラルネットワークデータセットから作成される。プロセッサは、第1の画像および第2の画像が同じ個人のものであるかどうかの決定を実行するように構成される。検問所装置はまた、決定に基づいて機能を選択的に実行するためにプロセッサに接続された出力デバイスを含む。
【0013】
機能は、第1の画像および第2の画像が同じ個人のものである場合に、ゲートを開くこと、荷物コンベヤベルトをアクティブ化すること、搭乗券を印刷すること、または荷物タグを印刷することのうちの1つであり得る。
【0014】
さらなる改善が従属請求項によって記載される。
【0015】
これらおよび他の目的、実施形態、および利点は、添付図への参照を有する実施形態の、以下の発明を実施するための形態から当業者には容易に明らかになり、本開示は、いかなる特定の実施形態にも限定されない。
【図面の簡単な説明】
【0016】
図1】例示的な一実施形態による、顔認識を介した自動化制御のためのシステムを表すブロック図である。
図2】例示的な実施形態による、図1からの制御サーバの構成要素を表すブロック図である。
図3】機械学習訓練データセットを生成するための方法を示すフローチャートである。
図4図3による、背景アーティファクトを除去するための方法を示すフローチャートである。
図5図4に関して説明する、ネガティブデータセットからのサンプルおよびポジティブデータセットからのサンプルの生成の一例を示す図である。
図6】複数の非正規化写真からの複数の正規化顔写真の生成の一例を示す図である。
図7】非正規化写真から正規化顔写真を生成するようにニューラルネットワークを訓練するためのプロセスを示すフローチャートである。
図8】非正規化写真から生成される正規化顔写真に基づいて出力デバイスを制御するためのプロセスを示すフローチャートである。
図9】非正規化写真から生成される正規化写真とのパスポート写真の比較に基づいて出力デバイスを制御するためのプロセスを示す図である。
【発明を実施するための形態】
【0017】
パスポートおよび運転免許証などの識別文書(「ID」)は、個人および個人に与えられた恩恵を識別するという、二重の機能をはたす。与えられた恩恵へのアクセスを確認すべき様々な事情において、IDの提示が必要とされる場合がある。身長、生年月日、目の色、性別、出生地などを含む、個人の固有の識別特性または他の指標が、IDに関連付けられることができる。指紋画像および網膜画像を含む生体情報も、IDの中に組み込まれることがある。市民社会において、これらの識別特性は、一般に、個人に属するプライベート情報であるものとして認識され、しばしば、個人識別可能情報(PII)と呼ばれ、個人識別可能情報(PII)はまた、非限定的な例として、法的なフルネーム、社会保障番号、顔特徴、タトゥー、ライセンスプレート、物理ロケーション住所、音声、および/またはテキストを含むことができる。IDは、しばしば、写真を載せ、かつ本明細書で説明する指標の主要な例である、個人の顔の写真を含む。
【0018】
IDは、一般に、恩恵を行使することを試みる個人によって検問所において提示される。検問所の性質は特に限定されず、当業者は様々なタイプの検問所を諒解されよう。たとえば、検問所は、地理的エリアから出るかまたは地理的エリアに入るという恩恵を個人が有することを確認するために国境横断において一般的である。検問所はまた、手荷物をチェックし、フライトのためにチェックインし、セキュリティを通過し、航空機に搭乗し、かつ税関および入国管理を通り抜けるために、空港において一般的である。個人のIDについての生態情報が個人の特徴と比較されてよく、整合が成功すると個人に恩恵が与えられてよい。整合が失敗する場合、恩恵は拒絶されてよい。整合が成功するが恩恵に対して個人が不適格である場合にも、恩恵は拒絶されてよい。
【0019】
次に図1を参照すると、100において、顔認識を介した自動化制御のためのシステムが概略的に示される。システム100は、ネットワーク112を介してワークステーション108に接続された制御サーバ104を備える。システム100はまた、複数の検問所装置116-1、116-2...116-nを備える。(集合的に、検問所装置116-1、116-2...116-nは、装置116と、また概略的に装置116と呼ばれる。この命名法は本明細書の中の他の場所で使用される。)
【0020】
検問所装置116は、恩恵の履行を要求する、固有の顔124を有する様々な個人120に恩恵が提供され得る、任意のデバイスであり得る。恩恵は、旅行のコンテキストにおいて頻繁に発生し、たとえば、荷物を検査するための権利、航空機または他の輸送車両に搭乗するための権利、航空機の出発の前に「チェックイン」するための権利、税関または入国管理局を通過するための権利を含むことができる。明快のために、検問所装置116は本質的に技術的であり、一般に、ゲート、コンベヤベルト、プリンタ、または他の出力デバイスなどの機械類を含む。ゲートは、施設内のあるロケーションから別のロケーションへ通るための承認を選択的に許可または拒絶するために使用され得る。ゲートは、制御サーバ104の直接制御または間接制御の下にある間、開くかまたは閉じるように自動的に制御され得る。同様に、コンベヤベルトは、荷物の受領を受け入れるとともに積み込みゾーンまで荷物を搬送するために使用され得る。プリンタは、物理的な搭乗券または荷物タグを生成するために使用され得る。
【0021】
図1のシステム100の例では、検問所装置116-1は「手荷物預入所」であり、ここで、個人は、航空機または他の輸送車両の積み込みエリアまで荷物を輸送するために、彼らの荷物をコンベヤベルト上に預けてよい。検問所装置116-2は、ある物理ロケーションから別の物理ロケーションへの移動を防止するための閉位置、および2つの物理ロケーション間の連絡を行うための開位置を有する、ゲートまたはターンスタイルである。検問所装置116-3はチェックインキオスクであり、ここで、個人は、空港(または、他の港)への到着、およびスケジュールされた特定の輸送車両に搭乗するための意図を確認してよい。したがって、装置116によって実行されている機能のみに言及するために、「検問所」という用語は、任意の特定の技術的意味を有するものとして強調されるべきである。各装置116は、スキャナ、カメラ、およびマイクロフォンなどの入力デバイス、ドア、コンベヤベルト、プリンタ、スピーカー、およびディスプレイなどの出力デバイス、ならびにプログラミング論理を使用して、各入力デバイスから受信される入力に基づいて出力デバイスを制御するプロセッサ、ならびに記憶機能を履行するためにプロセッサに接続された不揮発性ストレージおよび揮発性ストレージを伴って、本質的に高度に電気機械的である。各装置116はまた、ネットワーク112への接続用のネットワークインターフェースを含む。動作においては、個人120は、入力デバイスにIDを提示することができ、装置116において彼らの顔124の写真を撮らせることができる。制御サーバ104は、次いで、写真をIDと比較することができ、比較の結果に応じて、それぞれの装置116の出力デバイスを関連する恩恵に従って動作させることができる。
【0022】
次に図2を参照しながら、図1に示すいくつかの要素を詳述すると、制御サーバ104の非限定的な例がブロック図の形態でより詳細に示される。図1の中の制御サーバ104は単一の構成要素として示されるが、制御サーバ104の機能性は、そのすべてが1つまたは複数のデータセンタ内に収容され得る複数のサーバおよび/またはクラウドコンピューティングデバイスのうちの1つまたは複数などの、複数の構成要素の間で分散され得る。実際、「サーバ」または「エンジン」という用語自体は、使用され得るコンピューティングハードウェアまたはプラットフォームのタイプに関して限定的な意味で解釈されることを意図しない。
【0023】
制御サーバ104は、本実施形態ではキーボード204を含む、少なくとも1つの入力デバイスを含んでよい。(変形形態では、他の入力デバイスが企図される。)キーボード204からの入力は、プロセッサ208において受信される。変形形態では、プロセッサ208は複数のプロセッサとして実装され得る。プロセッサ208は、1つまたは複数の入力デバイスを介して受信された入力に応答できる、様々なプログラミング命令を実行するように構成され得る。プログラミング機能を履行するために、プロセッサ208は、少なくとも1つの不揮発性ストレージユニット216(たとえば、消去可能電子プログラマブル読取り専用メモリ(「EEPROM」)、フラッシュメモリ、ハードディスク)および少なくとも1つの揮発性ストレージユニット220(たとえば、ランダムアクセスメモリ(RAM))と通信するように構成される。不揮発性ストレージユニット216は、本明細書で説明するような制御サーバ104の機能上の教示を実施し、通常は不揮発性ストレージユニット216の中に持続的に維持され、かつそのようなプログラミング命令の実行中に揮発性ストレージ220の適切な利用を行うプロセッサ208によって使用される、読取り専用メモリ(ROM)プログラミング命令(たとえば、アプリケーション224)として実装されてよい。不揮発性ストレージユニット216はまた、通常、制御サーバ104内の構成要素を初期化するためのプログラミング命令を含む。
【0024】
プロセッサ208はまた、今度は、制御サーバ104の中に設けられてよいディスプレイ212および任意の他の出力デバイスを、同じく様々なプログラミング命令に従って、かつ入力デバイスから受信される様々な入力に応答して制御するように構成される。
【0025】
プロセッサ208はまた、システム100の中の他のノードに接続するために、ネットワークインターフェース236に接続する。したがって、ネットワークインターフェース236は、様々なプログラミング命令を履行するためにプロセッサ208によって利用され得る、さらなる入力/出力デバイスとして一般化されてよい。ネットワークインターフェース236は、システム100の他の構成要素と通信するように構成可能な1つまたは複数の有線および/またはワイヤレスの入力/出力(I/O)インターフェースを含んでよい。たとえば、ネットワークインターフェース236は、システム100の他の構成要素と通信するための、1つまたは複数の有線および/またはワイヤレスのトランシーバを含んでよい。したがって、1つまたは複数のトランシーバは、システム100の他の構成要素と通信するために使用される1つまたは複数の通信リンクおよび/または通信ネットワークとの通信のために適合されてよい。ネットワークインターフェース236は、ツイストペアワイヤ、同軸ケーブル、光ファイバリンク、またはワイヤラインネットワークへの類似の物理接続を介して通信するように構成可能な、Ethernetトランシーバ、USB(ユニバーサルシリアルバス)トランシーバ、または類似のトランシーバなどの、1つまたは複数のトランシーバを含んでよい。ネットワークインターフェース236はまた、組み合わせられた変調器/復調器(モデム)に結合されてよい。
【0026】
したがって、各装置116へのそれぞれのネットワーク112および/もしくはネットワークインターフェースまたはシステム100の中の他のノードの他のネットワークインターフェースの性質に応じて、ネットワークインターフェース236は、インターネット、デジタル移動無線(DMR)ネットワーク、Project 25(P25)ネットワーク、地上基盤無線(TETRA)ネットワーク、Bluetoothネットワーク、たとえば、IEEE802.11規格(たとえば、802.11a、802.11b、802.11g、802.11nなど)に従って動作する、Wi-Fiネットワーク、LTE(ロングタームエボリューション)ネットワークおよび/もしくは他のタイプのGSM(モバイル通信用グローバルシステム)、ならびに/または3GPP(第3世代パートナーシッププロジェクト)ネットワーク、5Gネットワーク(たとえば、3GPP TS23仕様シリーズに準拠する、たとえば、ネットワークアーキテクチャ、および/または3GPP TS38仕様シリーズ規格に準拠するニューラジオ(NR)エアインターフェース)、たとえば、IEEE802.16規格に従って動作する、ワールドワイドインターオペラビリティフォーマイクロウェーブアクセス(WiMAX)ネットワーク、ならびに/または別の類似のタイプのワイヤレスネットワークのうちの1つまたは複数との通信のために適合されてよい。したがって、トランシーバは、限定はしないが、セルフォントランシーバ、DMRトランシーバ、P25トランシーバ、TETRAトランシーバ、3GPPトランシーバ、LTEトランシーバ、GSMトランシーバ、5Gトランシーバ、Bluetoothトランシーバ、Wi-Fiトランシーバ、WiMAXトランシーバ、および/またはワイヤレス無線ネットワークを介して通信するように構成可能な別の類似のタイプのワイヤレストランシーバを含んでよい。
【0027】
以下でさらに明らかになるように、制御サーバ104は、いくつかの入力デバイスを省略するかまたは余分な入力デバイスを含み、また同様にいくつかの出力デバイスを省略するかまたは余分な出力デバイスを含む、説明したのとは異なる構成を用いて実装され得る。たとえば、制御サーバ104がデータセンタの中に実装される場合のキーボード204およびディスプレイ212は、そのようなデバイスが制御サーバ104に接続する外部端末または端末アプリケーションとして実装されて、省略され得る。一例として、そのような外部端末としてワークステーション108が使用されてよい。
【0028】
例示的な本実施形態では、制御サーバ104は、様々なアプリケーション224およびファイル228を不揮発性ストレージ216内で維持するように構成される。アプリケーション224およびファイル228は、不揮発性ストレージ216の中に事前記憶されること、またはネットワークインターフェース236を介してダウンロードされ不揮発性ストレージ216上にセーブされることが可能である。プロセッサ208は、必要に応じて不揮発性ストレージ216および揮発性ストレージ220にアクセスして、ファイル228にアクセスするアプリケーション224を実行するように構成される。上述のように、また以下でより詳細に説明するように、プロセッサ208は、アプリケーション224を実行するとき、ワークステーション108を介した監視入力の下で装置116を制御する。
【0029】
システム100を理解することをさらに支援するために、ここで、本明細書の一実施形態に従って機械学習訓練データセットを生成するためのプロセスを示す、300において概略的に示されるフローチャートを示す図3に参照が行われる。以後、フローチャートは方法300と呼ばれる。方法300は、システム100の制御サーバ104上で実施され得るが、方法300がシステム100の変形形態上で実施されることも可能であり、また同様に、方法300自体が修正されることおよびシステム100上で動作することが可能であることを理解されたい。方法300の中のブロックが図示の厳密なシーケンスをなして実行される必要がないこと、およびいくつかのブロックが他のブロックと並行して実行してよく、方法300自体が他のプロセスと並行して実行してよいことを理解されたい。システム100に関して本明細書で説明する追加のプロセスは、同じ非限定的な解釈を受ける。
【0030】
図3を参照すると、ブロック304は、顔の非正規化写真の画像のランダムデータセットを生成することを備える。ブロック304は、ランダムノイズに基づく事前訓練された敵対的生成ネットワーク(GAN)などの、様々な既存の人工知能アルゴリズムを使用して実行され得る。ランダムな入力がアルゴリズムに提供され、そのことは、実際には存在しない個人の顔の複数の写真の生成という結果になる。その内容が参照により本明細書に組み込まれる、たとえば、Tero Karras、Samuli Laine、Timo Aila、「A Style-Based Generator Architecture for Generative Adversarial Networks」(https://arxiv.org/abs/1812.04948)を参照されたい。
【0031】
ブロック308は、各顔の正規化バージョンを生成するために、ブロック304において生成された画像の各々から変動を除去することを備える。ブロック308は、その内容が参照により本明細書に組み込まれる、出願番号第22305318.2号を受けるとともに2022年3月18日という出願日を有する、「Generating Training and/or Testing Data of a Face Recognition System for Improved Reliability」と題する同時係属出願において開示される技法を含む、様々な既存の技法を使用して実行され得る。その内容が参照により本明細書に組み込まれる、Yibo Hu、Xiang Wu1、Bing Yu、Ran He、Zhenan Sun、「Pose-Guided Photorealistic Face Rotation」(「Yibo」)(https://openaccess.thecvf.com/content_cvpr_2018/papers/Hu_Pose-Guided_Photorealistic_Face_CVPR_2018_paper.pdf)も参照されたい。Yiboが、基本的な正規化された前向きの画像を作成するが、姿勢だけを正規化し本明細書における現在好ましい実施形態に従ってパスポートのようなタイプの画像から予想される表情もしくは照明または他の要因を正規化しないので、Yiboがブロック308にとって現在好ましい実装形態でないことに留意されたい。
【0032】
ブロック308による正規化バージョンは、ID写真において予想されるように、顔がカメラをまっすぐにのぞき見るように思われるように、顔の回転において任意のオフセットを回転させる。しかしながら、背景アーティファクトは残っていることがある。
【0033】
ブロック312は、写真の中の各人間の顔を取り囲む背景アーティファクトをブロック308のデータセットから除去することを備える。背景アーティファクトは、顔を取り囲む像、色などを含む。背景アーティファクトが除去されるとき、写真の残部の照明も影響を受ける場合があり、したがって、全体的な写真照明も、通常はこのブロックにおいて変更されるので、写真の照明も変更され得る。ブロック312は、図4における方法400に従って実行され得る。ブロック404は、画像ごとに対称損失を計算することを備える。ブロック408は、画像ごとに背景統計値を計算することを備える。
【0034】
ブロック412は、より低い第1の範囲における対称損失、より高い第1の範囲における背景色、およびより低い第2の範囲における背景多様性を用いて、画像の第1のサブセットのポジティブデータセットを準備することを備える。
【0035】
ブロック416は、
a. より低い第1の範囲よりも大きい、より高い範囲における対称損失、
b. より高い第2の範囲よりも低い第3の範囲における背景色、および
c. より低い第2の範囲よりも高い第3の範囲における背景多様性を用いて、
画像の第2のサブセットのネガティブデータセットを準備することを備える。
【0036】
ブロック420は、画像ごとにポジティブデータセットとネガティブデータセットとを分離する訓練された線形分類器を生成することを備える。
【0037】
図5は、ポジティブデータセット500-1からのサンプルおよびネガティブデータセット500-2からのサンプルを示す、ブロック412およびブロック416の例示的な実行を表す。
【0038】
ブロック424は、訓練された線形分類器から分離計画を生成することを備える。
【0039】
ブロック428は、上記の事項に基づいて、背景を除去する各正規化画像を生成するように線形制御関数を学習することを備える。
【0040】
新たな画像のためのブロック428のための線形制御関数は、次式、すなわち、
’=W+(β×LS+β×MB+β×SB+β)×P
に基づくことができ、ただし、
は、変動を除去するステップからの元の各画像のためのコードであり、
’は、元の画像に対応する新たな各画像のためのコードであり、
Pは、分離超平面の法線ベクトルであり、
ここで、背景統計値は、
=I[0:h,0:w]
=I[0:h,n-w:n]
h=ピクセル単位での画像の高さ
w=ピクセル単位での画像の幅
I=サイズn×nの画像
に従って決定され、
Flip(I)は、画像Iの水平反転であり、
ここで、対称損失は、
【数1】
に従って計算され、ここで、
【数2】
であり、ただし、
Liは、顔画像を取り囲む左のウィンドウを示し、
Riは、顔画像を取り囲む右のウィンドウを示し、
MBiは、背景色を示し、
SBiは、背景多様性を示す。
【0041】
再び方法300に戻ると、ブロック316は、顔の合成正規化写真の出力データセットを生成することを備え、ブロック320は、ブロック304からのランダムデータセットおよびブロック316からの正規化データセットを含む機械学習訓練データセットを生成することを備える。
【0042】
述べたように、ブロック312は、方法400に従って実行され得る。したがって、背景124-1(すなわち、背景像および他のアーティファクト)は、上の式からのLiおよびRiごとに、左のウィンドウおよび右のウィンドウを含む。
【0043】
図6は、ブロック308およびブロック312に従って処理され、それによって、顔画像が正規化され背景アーティファクトが除去される、複数の画像を示す。詳述すると、非正規化写真は、正規化写真を生み出すように処理され、その結果、顔の向きはまっすぐ向いており、顔の表情は中立化され、背景は除去される。
【0044】
方法は、訓練することの前に出力データセットの中の顔の人口統計学的分布のバランスをとることをさらに備えることができる。バランスをとることは、インターフェース(Interface)敵対的生成ネットワーク(インターフェースGAN)を使用して、または生成されるデータから人口統計学(性別、年齢、皮膚色など)のバランスを選択して実行される。(インターフェースGANが従来のGANではなく、むしろ、生成されるといくつかの属性を変更するやり方でGANをオープンにするとともに潜在コードを修正するためのフレームワークであることを、当業者は認識されよう。)インターフェースGANは、インタープリティングフェースGAN(Interpreting-Face-GAN)の省略である。
【0045】
次に図7を参照すると、正規化されていない顔から、顔の正規化写真を生成するようにニューラルネットワークを訓練するための方法が、700において概略的に示される。方法700は、制御サーバ104によって実行され得る。方法700は、人間の顔の実際の画像に基づくことができるか、またはブロック320からのデータセットに基づくことができる。ブロック704は、人間の顔の非正規化写真のデータセットを受信することを備える。データセットは、あるオフセットまたは角度から撮られるが正規化されておらず、かつ背景を含む、人間の顔の実際の写真の実際のデータセットに由来することができる。さもなければ、ブロック704のためのデータセットは、ブロック304において生成されたのと同じデータセットであり得る。
【0046】
ブロック708は、人間の顔の正規化写真の対応するデータセットを受信することを備える。ブロック708のためのデータセットは、ブロック704からの同じ人物のパスポート写真または他の写真に基づく、人間の顔の実際のデータセットに由来することができるが、ここで、写真は正規化され背景を有しない。ブロック708のためのデータセットは、ブロック316からの正規化写真に由来することができる。
【0047】
ブロック712は、ブロック704およびブロック708からのデータセットに基づいて非正規化写真から正規化写真を生成するようにニューラルネットワークを訓練することを備える。
【0048】
次に図8を参照すると、出力デバイスを制御するための方法が800において概略的に示される。方法800は制御サーバ104によって実行されることが可能であり、出力デバイスは検問所装置116であり得る。ブロック804は、個人の非正規化顔画像を受信することを備える。システム100の例によれば、ゲート検問所装置116-2に個人120-2がいることを想定する。個人120-2がゲート検問所装置116-2においてカメラによって撮られた彼らの顔124-2の写真を有することをさらに想定する。
【0049】
ブロック808は、ブロック804において受信された非正規化画像から正規化顔画像を生成することを備える。ブロック808は、方法700を使用して訓練されたニューラルネットワークを使用して実行され得る。特に、任意の背景アーティファクトが除去され、顔がまっすぐ前方に向いており、その結果、パスポートのような写真が得られる。ブロック808の例示的な実行が図9の中にある。
【0050】
ブロック812は、ブロック808からの正規化画像に基づいて出力デバイスを制御することを備える。図9を参照すると、システム100によれば、ブロック812はまた、個人124-2が、検問所装置116-2上に取り付けられたカメラにおいて彼らのパスポート904または他のIDをスキャンしており、それによって、個人120-2の顔124-2のパスポート写真908の画像をキャプチャすることを想定することができる。このようにして、パスポート写真908は、ブロック808からのパスポートのような写真900-2と容易に比較され得る(制御サーバ104によって実行されるブロック912を参照)。
【0051】
したがって、ブロック916における「整合」は、開くように制御サーバ104がゲート検問所装置116-2にコマンドを発行する結果となることができ(ブロック920)、それによって、個人120-2がゲートを通過することを可能にする。ブロック916における「整合」の失敗は、ゲートを閉じたままにしておき人間の介入を誘引する警報または信号をアクティブ化することなどの、例外(ブロック924)制御を導くことができる。変形形態では、出力デバイスをどのように動作させるべきかに関して手作業で決定、すなわち、「整合」を行う個人に、2つの画像がスクリーン上で提示される。そのような手作業の決定は、それ自体として、出力デバイスの将来の自動化制御のために別のニューラルネットワークを訓練するために使用され得る。
【0052】
変形形態が企図される。たとえば、ブロック304においてランダムでない入力を提供するために現実の個人の実際の写真がGAN空間に反転され得るので、本明細書は写真編集のために修正され得る。その結果、任意の個人の任意の写真が、背景を除去するとともに個人の顔を前方に向けるように正規化されることが可能であり、カメラの中をまっすぐに凝視することをシミュレートする。この変形形態では、パスポート写真は任意の写真から生成され得る。そのため、システム100の変形形態では、本明細書の教示は、それによって個人の顔124の写真が撮られパスポートまたは他の識別文書に適したフォーマットに自動的に変換されるパスポート証明写真ボックスなどの、検問所装置116以外の他のデバイスのために提供され得る。
【0053】
他の変形形態では、本明細書における方法の各々が別個の実施形態として独立することができることを理解されたい。たとえば、方法400は、それらの写真が合成であるのかそれとも現実であるのかにかかわらず、写真から背景を除去するための方法として独立することができる。
【0054】
本明細書によって様々な利点が与えられる。たとえば、空港において検問所を制御することは、より大きい確度を伴って空港を通じたスループットを大きくする際に著しい固有の効率利点を有する。しかしながら、空港、環境における特定の課題とは、プライバシーを侵害せず個人識別可能情報(PII)の不適切な使用を伴わない訓練データセットを生成することである。したがって、方法700は、空港を通過する実際の個人120の非正規化写真を蓄積することに基づくデータのセットを用いて達成され得るが、PIIの誤用がこのことを実際に困難にさせる。したがって、方法300および方法400の使用は、PIIの誤用を伴わずに、かつ/または実際のデータの訓練セットを苦心して収集するよりもずっと迅速に、方法800における使用のための有用な訓練データセットの生成を可能にする。
【0055】
この詳細な説明からここで明らかとなるように、本明細書で説明する電子コンピューティングデバイスの動作および機能は、コンピュータシステム上でのそれらの実装を必要とするほど十分に複雑であり、人間の精神の中では実際的な事柄として実行され得ない。本明細書に記載するような電子コンピューティングデバイスは、そのような動作の本質的にデジタルの性質に加えて、人間の精神的ステップによって取得可能でない速度および確度ならびに複雑度管理を必要とし提供するものとして理解される(たとえば、人間の精神は、RAMまたは他のデジタルストレージと直接インターフェースできず、電子メッセージを送信または受信できず、表示スクリーンを制御できず、機械学習アルゴリズムを実施することも機械学習アルゴリズムフィードバックループを実施することもできないなど)。
【0056】
上記の明細書において、特定の実施形態が説明されている。しかしながら、以下で特許請求の範囲に記載するような本開示の範囲を逸脱することなく、様々な修正および変更が加えられ得ることを、当業者はここで諒解されよう。したがって、本明細書および図は、制約的な意味ではなく例示的な意味で考慮されるべきであり、すべてのそのような修正は、本教示の範囲内に含まれることを意図する。利益、利点、問題の解決策、および任意の利益、利点、または解決策が生じるかまたはより顕著になるようにさせることがある任意の要素は、いずれかまたはすべての特許請求の範囲の、重要な、必要とされる、または必須の特徴または要素として解釈されるべきでない。本範囲は、本出願の係属中に加えられる任意の補正を含む添付の特許請求の範囲、および発行されるようなそれらの請求項のすべての均等物によって、単独で規定される。
【0057】
別の変形形態として、制御サーバ104は各検問所装置116から遠隔にある必要はなく、制御サーバ104は各検問所装置116の中に組み込まれ得る。
【0058】
さらなる変形形態は、非正規化写真を正規化するための方法を備える。方法は、写真ブースの中の、たとえば、写真編集ツールまたはモバイルアプリなどのために使用され得る。方法は、人間の顔および関連する背景の合成写真を表す非正規化画像を受信することと、人間の顔の正規化画像を生成するために変動を除去し、人間の顔を取り囲む背景を除去することによって、合成写真に対する正規化写真を生成することとを備える。方法は、正規化写真を備える出力画像を生成することを最後に備える。実施形態では、方法は、個人の顔の実際の写真をキャプチャすることと、実際の写真の正規化バージョンを提供するために、写真を反転させて、合成写真を作成するためのGAN空間にすることとをさらに備える。
【0059】
さらなる実施形態では、背景を除去することは、画像ごとに対称損失を計算することと、画像ごとに背景統計値を計算することと、より低い第1の範囲における対称損失、より高い第1の範囲における背景色、およびより低い第2の範囲における背景多様性を用いて、画像の第1のサブセットのポジティブデータセットを準備することとを備える。これらの実施形態では、背景を除去することは、より低い第1の範囲よりも大きい、より高い範囲における対称損失、より高い第2の範囲よりも低い第3の範囲における背景色、およびより低い第2の範囲よりも高い第3の範囲における背景多様性を用いて、画像の第2のサブセットのネガティブデータセットを準備することをさらに備える。これらの実施形態では、背景を除去することは、画像ごとにポジティブデータセットとネガティブデータセットとを分離する訓練された線形分類器を生成することと、訓練された線形分類器から分離計画を生成することと、上記の事項に基づいて、各正規化画像を生成するように線形制御関数を学習することとをさらに備える。
【0060】
さらなる実施形態では、訓練セットのための新たな画像のための線形制御関数は、次式、すなわち、
’=W+(β×LS+β×MB+β×SB+β)×P
に基づき、ただし、
は、変動を除去するステップからの元の各画像のためのコードであり、
’は、元の画像に対応する新たな各画像のためのコードであり、
Pは、分離超平面の法線ベクトルであり、
ここで、背景統計値は、
=I[0:h,0:w]
=I[0:h,n-w:n]
h=ピクセル単位での画像の高さ
w=ピクセル単位での画像の幅
I=サイズn×nの画像
に従って決定され、
Flip(I)は、画像Iの水平反転であり、
ここで、対称損失は、
【数3】
に従って計算され、ここで、
【数4】
であり、ただし、
Liは、顔画像を取り囲む左のウィンドウを示し、
Riは、顔画像を取り囲む右のウィンドウを示し、
MBiは、背景色を示し、
SBiは、背景多様性を示す。
【0061】
さらなる変形形態では、正規化画像がそこから作成されるニューラルネットワークデータセットは、合成画像に基づくことができる。その上、データセットは、正規化データセットを生成するために変動が除去され、かつ画像からの背景が除去される、合成画像に基づくことができる。またさらなる変形形態では、個人の画像および識別文書上の顔写真の画像は、第1の画像および第2の画像が同じ個人のものであるかどうかを決定する個人用のスクリーン上で生成されてよい。
【0062】
本明細書で説明する1つまたは複数の機械学習アルゴリズムおよび/もしくは深層学習アルゴリズムならびに/またはニューラルネットワークは、限定はしないが、一般化線形回帰アルゴリズム、ランダムフォレストアルゴリズム、サポートベクターマシンアルゴリズム、勾配ブースティング回帰アルゴリズム、決定木アルゴリズム、一般化付加モデル、ニューラルネットワークアルゴリズム、深層学習アルゴリズム、発展的プログラミングアルゴリズム、ベイズ推論アルゴリズム、強化学習アルゴリズムなどを含んでよい。ただし、一般化線形回帰アルゴリズム、ランダムフォレストアルゴリズム、サポートベクターマシンアルゴリズム、勾配ブースティング回帰アルゴリズム、決定木アルゴリズム、一般化付加モデルなどは、ニューラルネットワークアルゴリズム、深層学習アルゴリズム、発展的プログラミングアルゴリズムなどよりも好ましいことがある。明快のために、任意の好適な機械学習アルゴリズムおよび/もしくは深層学習アルゴリズムならびに/またはニューラルネットワークは、本明細書の範囲内にある。
【0063】
いくつかの実施形態が、マイクロプロセッサ、デジタル信号プロセッサ、カスタマイズされたプロセッサおよびフィールドプログラマブルゲートアレイ(FPGA)、ならびにいくつかの非プロセッサ回路と連携して、本明細書で説明するプロセスおよび/またはシステムの機能のうちの一部、大部分、または全部を実施するように1つまたは複数のプロセッサを制御する(ソフトウェアとファームウェアの両方を含む)固有の記憶されたプログラム命令などの、1つまたは複数の包括的または特殊なプロセッサ(または、「処理デバイス」)が備えられてよいことが諒解されよう。代替として、一部または全部の機能は、記憶されたプログラム命令を有しないか、あるいは各機能または機能のうちのいくつかの一部の組合せがカスタム論理として実施される1つまたは複数の特定用途向け集積回路(ASIC)の中の、ステートマシンによって実施され得る。当然、異なる手法の組合せが使用され得る。
【0064】
その上、実施形態は、本明細書で説明および特許請求するようなプロセスを実行するように(たとえば、プロセッサを備える)コンピュータをプログラムするための、その上に記憶されたコンピュータ可読コードを有する、コンピュータ可読記憶媒体として実施され得る。任意の好適なコンピュータ使用可能媒体またはコンピュータ可読媒体が利用されてよい。そのようなコンピュータ可読記憶媒体の例は、限定はしないが、ハードディスク、CD-ROM、光記憶デバイス、磁気記憶デバイス、ROM(読取り専用メモリ)、PROM(プログラマブル読取り専用メモリ)、EPROM(消去可能プログラマブル読取り専用メモリ)、EEPROM(電気的消去可能プログラマブル読取り専用メモリ)、およびフラッシュメモリを含む。本明細書のコンテキストでは、コンピュータ使用可能媒体またはコンピュータ可読媒体は、命令実行システム、装置、またはデバイスによる使用またはそれらに関連する使用のためのプログラムを含むこと、記憶すること、通信すること、伝搬させること、または移送することができる、任意の媒体であってよい。
【0065】
さらに、たとえば、利用可能な時間、現在の技術、および経済的な問題によって動機付けられる、できる限り重要な取組みおよび多くの設計選択にもかかわらず、本明細書で開示する概念および原理によって案内されると、当業者が最低限の実験を用いてそのようなソフトウェア命令およびプログラムならびに集積回路(IC)を容易に生成できることが予想される。たとえば、様々な例示的な実施形態の動作を実行するためのコンピュータプログラムコードは、Java、Smalltalk、C++、Pythonなどのオブジェクト指向プログラミング言語で書かれてよい。しかしながら、様々な例示的な実施形態の動作を実行するためのコンピュータプログラムコードはまた、「C」プログラミング言語または類似のプログラミング言語などの従来の手続き型プログラミング言語で書かれてよい。プログラムコードは、全体的にコンピュータ上で、部分的にコンピュータ上で、スタンドアロンソフトウェアパッケージとして、部分的にコンピュータ上かつ部分的に遠隔のコンピュータ上もしくはサーバ上で、または全体的に遠隔のコンピュータ上もしくはサーバ上で実行してよい。後者のシナリオでは、遠隔のコンピュータまたはサーバは、ローカルエリアネットワーク(LAN)もしくはワイドエリアネットワーク(WAN)を通じてコンピュータに接続されてよく、または(たとえば、インターネットサービスプロバイダを使用してインターネットを通じて)外部コンピュータに接続が行われてよい。
【符号の説明】
【0066】
100 システム
104 制御サーバ
108 ワークステーション
112 ネットワーク
116 検問所装置
120 個人
124 固有の顔
204 キーボード
208 プロセッサ
212 ディスプレイ
216 不揮発性ストレージユニット
220 揮発性ストレージユニット、揮発性ストレージ
224 アプリケーション
228 ファイル
236 ネットワークインターフェース
500-1 ポジティブデータセット
500-2 ネガティブデータセット
900-2 写真
904 パスポート
908 パスポート写真
図1
図2
図3
図4
図5
図6
図7
図8
図9
【外国語明細書】