(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-08-16
(54)【発明の名称】動的アイデンティティ認証
(51)【国際特許分類】
G06T 7/00 20170101AFI20230808BHJP
G06V 10/82 20220101ALI20230808BHJP
【FI】
G06T7/00 660Z
G06T7/00 350C
G06V10/82
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023511812
(86)(22)【出願日】2021-07-30
(85)【翻訳文提出日】2023-04-14
(86)【国際出願番号】 IL2021050925
(87)【国際公開番号】W WO2022038591
(87)【国際公開日】2022-02-24
(32)【優先日】2020-08-20
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】501177609
【氏名又は名称】ラモット・アット・テル・アビブ・ユニバーシテイ・リミテッド
【氏名又は名称原語表記】RAMOT AT TEL AVIV UNIVERSITY LTD.
(74)【代理人】
【識別番号】110000338
【氏名又は名称】弁理士法人 HARAKENZO WORLD PATENT & TRADEMARK
(72)【発明者】
【氏名】メンドロヴィク,デビッド
(72)【発明者】
【氏名】コーレン,メナヘム
(72)【発明者】
【氏名】ゲルベルグ,リオル
(72)【発明者】
【氏名】コーヘン,ケーン
(72)【発明者】
【氏名】アズーレ,モル-アヴィ
(72)【発明者】
【氏名】ヴォーヴォヴィチ,オハッド
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096CA04
5L096DA02
5L096FA09
5L096FA69
5L096FA72
5L096HA11
5L096KA04
(57)【要約】
人物を識別する方法であって、人物が関与する行動に関連する複数の解剖学的ランドマークであって、前記行動の期間中における、前記解剖学的ランドマークの時空間軌跡を決定付ける解剖学的ランドマークの各々に対する時空間データを取得する工程と、前記取得された時空間データを、時空間グラフ(ST-グラフ)としてモデル化する工程と、前記人物に対応するアイデンティティを提供するために、少なくとも1つの非局所的グラフ畳み込みニューラルネットワーク(NLGCN)を用いて前記ST-グラフを処理する工程と、を含む、方法。
【特許請求の範囲】
【請求項1】
人物を識別する方法であって、
人物が関与する行動に関連する複数の解剖学的ランドマークであって、前記行動の期間中における、前記解剖学的ランドマークの少なくとも1つの時空間軌跡を決定付けるデータを提供する解剖学的ランドマークの各々に対する時空間データを取得する工程と、
前記取得された時空間データを、時空間グラフ(ST-グラフ)としてモデル化する工程と、
前記人物に対応するアイデンティティを提供するために、少なくとも1つの非局所的グラフ畳み込みニューラルネットワーク(NLGCN)を用いて前記ST-グラフを処理する工程と、
を含む、方法。
【請求項2】
前記少なくとも1つのNLGCNは、前記複数の解剖学的ランドマークから成る解剖学的ランドマークに関するデータに応答して学習される適応隣接行列を含む少なくとも1つの適応NLGCN(ANLGCN)を備え、前記複数の解剖学的ランドマークから成る解剖学的ランドマークは、前記人物の身体構造のみによって決定されない、請求項1に記載の方法。
【請求項3】
前記ST-グラフを処理することは、前記複数の解剖学的ランドマークを、解剖学的ランドマークの複数のセットにセグメント化することを含み、各セットは、運動の自由度が異なる構成によって特徴付けられる、請求項1または2に記載の方法。
【請求項4】
各セット内の前記解剖学的ランドマークに関連する、前記取得された時空間データを、ST-グラフとしてモデル化することを含む、請求項3に記載の方法。
【請求項5】
前記処理する工程は、前記人物のアイデンティティを示すデータを決定するために、前記少なくとも1つのNLGCNから成るNLGCNを用いて、前記解剖学的ランドマークの複数のセットにおける各セットについてモデル化された前記ST-グラフを処理することを含み、前記決定は、前記複数のセットのうちの他のセットを処理することとは無関係である、請求項4に記載の方法。
【請求項6】
全ての前記セットから前記決定されたデータを融合して、前記人物に対する前記アイデンティティを提供することを含む、請求項5に記載の方法。
【請求項7】
前記時空間データを取得することは、前記行動に関与する前記人物を画像化した一連のビデオフレームを取得することを含み、各ビデオフレームは、前記複数の解剖学的ランドマークから成る解剖学的ランドマークを画像化した少なくとも1つの身体関心領域(BROI)の画像を含む、前記請求項のいずれかに記載の方法。
【請求項8】
各ビデオフレームにおいて前記少なくとも1つのBROIを検出するために前記ビデオフレームを処理することを含む、請求項7に記載の方法。
【請求項9】
前記少なくとも1つの検出されたBROIの各々において、前記複数の解剖学的ランドマークから成る解剖学的ランドマークの画像を識別することを含む、請求項7または8に記載の方法。
【請求項10】
前記識別された前記解剖学的ランドマークの画像を処理して、前記時空間軌跡を定義する前記データを決定することを含む、請求項9に記載の方法。
【請求項11】
前記複数の解剖学的ランドマークは、関節を含む、前記請求項のいずれかに記載の方法。
【請求項12】
前記複数の解剖学的ランドマークは、前記関節を接続する骨を含む、請求項11に記載の方法。
【請求項13】
前記関節は、指の関節を含む、請求項11または12に記載の方法。
【請求項14】
前記行動は、一連の指の動かし方を含む、請求項13に記載の方法。
【請求項15】
前記指の動かし方は、キーボードの操作に関与する動かし方を含む、請求項14に記載の方法。
【請求項16】
前記関節は、大きな外肢の関節を含む、請求項11~15のいずれか一項に記載の方法。
【請求項17】
前記行動は、スポーツである、請求項16に記載の方法。
【請求項18】
前記スポーツは、サッカーである、請求項17に記載の方法。
【請求項19】
前記スポーツは、ゴルフである、請求項17に記載の方法。
【請求項20】
前記複数の解剖学的ランドマークは、顔のランドマークを含む、前記請求項のいずれかに記載の方法。
【請求項21】
前記顔のランドマークは、表情および微小な表現を分類するために使用されるフェイシャルアクションコーディングシステム(FACS)のアクションユニット(AU)を定義するためにその動きが使用される顔のランドマークを含む、請求項20に記載の方法。
【請求項22】
前記複数の解剖学的ランドマークは、手の複数の指の指紋の詳細なペアの特徴を含む、請求項1から21のいずれかに記載の方法。
【請求項23】
人物を識別するためのシステムであって、
行動に関与する人物を撮像するビデオフレームを有する映像を取得するように動作可能な撮像システムと、
前記人物に対応するアイデンティティを提供するために、前記請求項のいずれかに従 って前記ビデオフレームを処理するために使用可能なソフトウェアと、を備える、システム。
【発明の詳細な説明】
【発明の詳細な説明】
【0001】
〔関連出願〕
本出願は2020年8月20日に出願された米国仮出願第63/067,890号の35 U.S.C.119(e)に基づく利益を主張し、その開示は参照により本明細書に組み込まれる。
【0002】
〔技術分野〕
本開示の実施形態は、人物のアイデンティティの生体認証 を提供するための方法および装置に関する。
【0003】
〔背景技術〕
サービスの増え続けるリストはサービスへのユーザアクセスを認証および認可するために、慣習的に多要素認証手順(MFA:multi-factor authentication procedure)と呼ばれる認証手順を必要とする。MFA手順では、ユーザが複数のカテゴリのチャレンジ のそれぞれに対して、チャレンジに対する適切な応答を提供することが要求される。チャレンジカテゴリは、「認証要素(authentication factors)」と呼ばれる。一般のMFAは、2要素認証(2FA:two-factor authentication)と呼ばれ、ユーザは3つの認証要素、すなわち、知識要素、所有要素、および固有要素のうちの少なくとも2つに正しく応答するようにチャレンジされる。知識要素は、ユーザが知っているはずのもの、例えばパスワードをテストする。所有要素は、ユーザが有すると予想されるもの、例えばクレジットカードまたはスマートフォンの提示を必要とする。固有要素は、ユーザが該ユーザを特徴付ける何か、例えば、指紋、声紋、または虹彩スキャンなどの生体特徴を提示することを必要とする。
【0004】
しかしながら、レガシー認証技術は現代の市民によって定期的に行われる行動のマトリックスの複雑さおよび相互依存性の増大によって必要とされている、使用の容易化および認証の品質の提供において困難に直面しているように見える。例えば、レガシーMFA構成はオープンバンキングイニシアチブにおいて消費者、銀行、およびサードパーティプロバイダ(TPP)を統合するために公布された改訂された欧州決済サービス指令(PSD2)の強力な顧客認証(SCA)の仕様を満たすために、厳しく迫られているように見える。SCAの実行は2回遅れている。当初2019年9月に開始予定であった制度は、2021年3月14日まで延期された後、2021年9月14日の現在の期限まで延期された。
【0005】
〔発明の概要〕
本開示の実施形態の一態様は、方法を提供することに関する。この方法は、動的識別(DYNAMIDE:dynamic identification)方法、または単にDYNAMIDEと呼ばれ得る。この方法は、人物が行動を行う方法の固有性に基づき当該人物を識別する。本開示の一実施形態によれば、DYNAMIDEは、人々によって実行される行動中に、解剖学的ランドマークを識別することと、当該行動が実行されている間に当該解剖学的ランドマークの時空間軌跡を識別することを含む。解剖学的ランドマークは、随意的に行動基準(AFID:activity fiducial)と呼ばれ、様々な運動の程度またはその欠如を示す。時空間軌跡は、行動を識別するために用いられ得る。DYNAMIDEは、前記軌跡を処理して、特定の個人によって実行される行動を区別するために有利であり、行動を実行する特定の個人を識別するのに有利である該軌跡の特徴を決定することを含む。
【0006】
行動を実行する個人によって該行動を区別し得る行動の特徴は非常に微妙であり得る。該行動に関連するAFID軌跡は実質的にわずかで直観的でない(nonintuitive)クロストークを呈し得る。結果として、行動の1つの時空間軌跡の特徴であって、該行動の別の時空間軌跡の特徴とは無関係に直感的に現れ得る特徴は、実際には行動を実行する個人に固有であり得、該個人を識別するための基準を提供し得る。本開示の一実施形態によれば、軌跡の識別と、空間および/または時間的処理と、のための、該軌跡によって示される固有性を発見および使用するのに有利な時空間決定の提供は、非局所的かつ多数のアプリオリ処理制約であってよい。アプリオリ処理制約は、有利に限定されるAFID軌跡によって示される動きに対して仮定される。
【0007】
一実施形態によれば、個人が実行し得る所与の行動に基づいて特定の個人を識別することは、所与の行動を実行する個人の一連の画像を取得することと、当該所与の行動に関連するAFIDを該画像内で識別することと、を含む。画像は識別されたAFIDによって示される時空間軌跡と、行動を実行し得る複数の個人の中から、行動を実行した特定の個人を識別するために処理された軌跡と、を決定するために処理され得る。随意的に、AFID軌跡を処理することは、所与の行動の実行中にAFIDが示す局所的および非局所的時空間的相関を決定することと、特定の個人のアイデンティティを決定するために当該相関を使用することとを含む。時空間的相関は、1以上のAFIDにおける時空間軌跡または軌跡を特徴付ける、空間パラメータ、時間パラメータ、または空間パラメータと時間パラメータとの両方に基づく相関を含み得る。
【0008】
本開示の実施形態において、所与の行動に関連するAFIDは、該行動を行う人物を識別する際に使用するのに適した所与の行動の実行において時空間的軌跡を示す、手足、顔、または頭などの任意の身体部分の解剖学的ランドマークであり得る。例えば、AFIDは例えば、歩行、ゴルフボールを打つこと、またはATMでのパスワードのタイピングなどの行動中に適合する時空間的軌跡を示す、手足の関節または骨格の骨(bone)であってもよい。タイピングのために、AFIDSは、手の骨が接続される複数の関節を含み得る。AFIDは、フェイシャルアクションコーディングシステム(FACS:facial action coding system)のアクションユニット(AU:action unit)を定義するためにその動きが使用される、眉、目、および唇の隅などの顔のランドマークであってよい。フェイシャルアクションコーディングシステムは、表情および微小な表現を分類するために用いられる。AFIDはまた、手の複数の指の指紋の詳細なペアの特徴であってもよく、ペアの特徴の識別を可能にするのに十分な光分解能で、非接触で画像化される。
【0009】
一実施形態によれば、DYNAMIDEは、行動を実行する個人を識別するために、行動の画像を処理するための少なくとも1つのニューラルネットワークを用いる。一実施形態では、少なくとも1つのニューラルネットワークは、画像内の身体部分または関心領域(BROI:body part or region of interest)を検出し、それらが含み得るAFIDを識別するように訓練される。行動の実行中における識別されたAFIDの空間および時間な進行は、時空間グラフ(ST-Graph:spatiotemporal graph)によって表される。時空間グラフにおいて、AFIDは、行動の時空間AFID軌跡を定義する空間および時間エッジによって接続されたノードである。少なくとも1つのニューラルネットワークは、軌跡を処理し、行動を実行する個人に従って行動を分類するための少なくとも1つのグラフ畳み込みネットワーク(GCN:graph convolutional network)を備え得る。
【0010】
一実施形態では、少なくとも1つのGCNは、AFID時空間軌跡を処理するための少なくとも1つの非局所的ニューラルネットワークブロックを有する非局所的ニューラルネットワーク(NLGCN:nonlocal neural network)を備える。少なくとも1つの非局所的ニューラルネットワークブロックは、少なくとも1つの空間非局所的ニューラルネットワークブロックおよび/または少なくとも1つの時間非局所的ニューラルネットワークブロックを備え得る。随意的に、NLGCNは、AFID軌跡に基づく独立した自由度によって特徴付けられるデータのセットを処理するように動作する複数の構成要素NLGCNを備えるマルチストリームGCNとして構成される。一実施形態では、マルチストリームGCNの出力は、構成要素GCNSの各々の出力の重み付けされた平均を含み得る。
【0011】
一例として、個人がタイプする方法によって個人を識別するように構成されたDYNAMIDEにおいて、手の関節であるAFIDは、関節を接続する手の骨であるAFIDに対して得られる運動の自由度とは独立した運動の自由度(例えば、異なる指の関節間の距離)によって特徴付けられる。したがって、一実施形態では、DYNAMIDEは、2つの構成要素NLGCNを有する2ストリーム2s-NLGCNマルチストリームGCNを含み得る。2つの構成要素NLGCNの一方は関節AFIDを処理し、他方の構成要素NLGCNは骨AFIDを処理する。一実施形態では、関節NLGCNは、2s-NLGCNを構成するために使用され得るアプリオリ制約の数を低減するために駆動される実質的なデータである、少なくとも1つの学習可能な「適応的」隣接行列を備える。本開示の一実施形態に係る、適応隣接行列を備える2s-NLGCNは、適応2s-NLGCN(2s-ANLGCN)と呼ばれ得る。タイピングDYNAMIDEの、2s-NLGCNまたは2s-ANLGCNにおける関節および骨NLGCNの出力、は個人を識別するために融合され得る。
【0012】
一実施形態によれば、特定の個人を識別することは、リアルタイムで行われる。一実施形態に係るリアルタイム識別は、個人が行動を行っている間の個人の識別、または識別が行われるサービスの経験品質(QoE:quality of experience)が識別プロセスによって実質的に劣化しないタイムフレーム内での個人の識別を指す。
【0013】
この概要は、以下の詳細な説明においてさらに説明される概念の選択を簡略化された形式で紹介するために提供される。この概要は、特許請求される主題の主要な特徴または必須の特徴を識別することを意図するものではなく、特許請求される主題の範囲を限定するために使用されることを意図するものでもない。
【0014】
〔図面の簡単な説明〕
本発明の実施形態の非限定的な例は、この段落の後に列挙される、本明細書に添付される図面を参照して、以下に記載される。2つ以上の図に現れる同一の特徴は一般に、該特徴が現れる全ての図において同じラベルでラベル付けされる。図中において、本発明の実施形態の所与の特徴を表すアイコンをラベル付けするラベルは、当該所与の特徴を参照するために使用され得る。図に示される特徴の寸法は、提示の利便性および明瞭さのために選択され、必ずしも一定の縮尺で示されていない。
【0015】
図1は、本開示の実施形態に係る、人物を識別するための、DYNAMIDEが行動を実行する該人物の一連のビデオフレームを処理し得るプロセスを図示するフロー図である。
【0016】
図2は、本開示の実施形態に係る、人物を識別するためにATM(automated teller machine:現金自動預け払い機)キーパッド上でタイピングする人物の一連のビデオフレームを処理するDYNAMIDEシステムを概略的に示す図である。
【0017】
図3Aは、本開示の実施形態に係る、DYNAMIDEがキーボード上でタイピングする人物を識別するために使用し得る手の画像および手のAFIDを概略的に示す図である。
【0018】
図3Bは、本開示の実施形態に係る、
図3Aに示される手をモデル化する空間グラフであるS-グラフを概略的に示す図である。
【0019】
図4Aは、本開示の実施形態に係る、
図2に示されるATMでタイピングに関与する人物のために取得された一連のビデオフレームのうちの1つのビデオフレームの拡大画像を概略的に示す図である。
【0020】
図4Bは、本開示の実施形態に係る、
図4Aに示されるビデオフレームにおいて画像化される手をモデル化するS-グラフを概略的に示す図である。
【0021】
図5Aは、本開示の実施形態に係る、
図2に示される一連のビデオフレームの拡大画像を概略的に示す図である。
【0022】
図5Bは、本開示の実施形態に係る、
図5Aに示される一連のビデオフレームの画像に対応する時空間グラフST-グラフを概略的に示す図である。
【0023】
図6Aは、本開示の一実施形態に係る、
図5Bに示されるST-グラフのノードに関連するデータを備える時空間特徴テンソルを概略的に示す図である。
【0024】
図6Bは、本開示の実施形態に係る、DYNAMIDEが
図6Aに示されるテンソル内のデータを処理するために使用し得る非局所的ニューラルネットワークのスキーマを示す図である。
【0025】
〔詳細な説明〕
議論において、特に明記しない限り、本開示の実施形態の1つの特徴点または複数の特徴点の状態または特性の関係を修正する「実質的に」および「約」などの形容詞は、当該状態または特性が、明細書の所望の実施形態の工程に対して容認可能な許容範囲内で定義されることを意味すると理解される。本開示における一般用語が例示または例示のリストを参照することによって説明される場合はいつでも、言及される実例(単数または複数)は該一般用語の非限定的な例示を目的としている。また、該一般用語は、言及される特定の例示(単数または複数)に限定されることを意図するものではない。「実施形態において」という語句は「あり得る」、「随意的に」、または「例示を目的として」などの許容性に関連するか否かにかかわらず、例示の検討材料を紹介するために使用される。しかしながら、当該語句は、必ずしも本開示の可能な実施形態において要求される構成を導入するわけではない。特に明示のない限り、明細書および特許請求の範囲における「または」という用語は、排他的なものではなく、包括的な「または」であると考えられ、結合する複数の項目のうちの少なくとも1つ、またはいずれかの組み合わせを示す。
【0026】
図1は、本開示の実施形態に係る、随意的に数字20によっても参照されるプロセスであって、該プロセスに基づき、人物が実行する行動に応答して該人物を識別するためにDYNAMIDEが動作し得るプロセスを図示する高レベルフロー
図20を示す。
【0027】
ブロック22において、本開示の実施形態に係るDYNAMIDEは、随意的に、行動に関与する人物の一連のビデオフレームを取得する。DYNAMIDEは、行動に関与する人物のアイデンティティを決定するために処理を行うように構成される。ブロック24において、DYNAMIDEは、ビデオフレームを処理して、行動に関連する少なくとも1つのAFIDを画像化するビデオフレームにおける身体関心領域(BROI:body region of interest)の画像を識別する。ビデオフレーム中のBROIを識別することは、随意的に、BROIの画像を含むフレーム中の少なくとも1つのバウンディングボックス(bounding box)を決定することを含む。ブロック26において、DYNAMIDEは、ビデオフレームに対して決定されたバウンディングボックスの各々を処理して、バウンディングボックスの各々において、少なくとも1つのAFIDの画像を識別する。ビデオフレームのバウンディングボックス内のAFIDの画像を識別することは、随意的に、AFIDの識別ラベルを含む時空間ID(ST-ID:spaciotemporal ID)である「AFID ST-ID」を画像に関連付けることを含む。ここで、「AFID ST-ID」は、ビデオフレーム内の同じAFIDのすべての識別された画像をラベル付けし、画像の時空間座標を決定するために使用される。時空間座標は、タイムスタンプと、少なくとも2つの空間座標とを含む。タイムスタンプは、一連のビデオフレームにおける他のビデオフレームが取得された時間に対して、AFIDが位置するバウンディングボックスを含むビデオフレームが取得された時間、時間位置を識別する。少なくとも2つの空間座標は、タイムスタンプによって示される時間におけるAFIDの空間位置に対応する。随意的に、所与の識別されたAFIDに対するAFID ST-IDは、各空間座標についての標準偏差(sd:standard deviation)と、AFID ST-IDに関連付けられたAFID-IDラベルが正しい確率とを含む。AFID ST-IDに対して決定された最古および最新のタイムスタンプおよび極端な空間座標は、時空間体積を決定する。時空間体積は、一連のビデオフレームにおいて画像化され識別されたAFIDのすべてのインスタンスの時空間座標を含む時空間AFIDハル(ST-Hull:spatiotemporal AFID hull)と呼ばれることがある。
【0028】
ブロック28において、DYNAMIDEは、AFIDSのST-IDを使用して、AFIDの識別されたインスタンスを、空間および時間エッジによって接続されるAFID時空間グラフ(ST-グラフ)のノードとして構成する。空間エッジはST-グラフノードを接続する。ST-グラフノードは、同じタイムスタンプによって識別されるAFIDの画像化されたインスタンス、すなわち、同じビデオフレーム内で画像化されるAFIDのインスタンスと、人物の身体の構造によってAFIDに課される空間的制約と、を表す。同じ所与のフレームおよび所与の時間において画像化されたAFIDのインスタンスの空間関係を表す空間エッジによって接続されたノードの構成は、所与の時間におけるAFIDの空間グラフ(S-グラフ)と呼称され得る。時間エッジは、一連のビデオフレームにおける2つの連続して取得されたビデオフレーム中において同じAFIDの画像を表すST-グラフ中の時間的に隣接するノードを接続する。時間エッジは、2つの連続するタイムスタンプ間の経過時間を表す。ST-グラフは、時間エッジによって接続されたAFIDに対応するS-グラフを含むと見なされ得る。
【0029】
一実施形態では、ブロック30において、DYNAMIDEは、随意的に適応できる適応非局所的グラフ畳み込みニューラルネット、ANLGCNを用いてAFID ST-グラフを処理する。これにより、DYNAMIDEは、ANLGCNが認識するように訓練された複数の人物のうちのどの人物が行動に関与しているか、または関与しようとしているかを、随意的にはリアルタイムで、決定する。一実施形態では、ANLGCNは、AFID ST-ハルをスパンし、ハル内の任意の時空間位置におけるAFIDの画像化されたインスタンスに関連付けられたデータが学習された重みによって重み付けされることを可能とするように構成される。また、ANLGCNは、ハル内の任意の他の場所における時空間位置に対して実行される、ANLGCNによる畳み込みに寄与するように構成される。随意的に、NLGCNは、独立した自由度によって特徴付けられるAFIDデータのセットを処理するように動作する複数の構成要素NLGCNを備えるマルチストリームGCNとして構成される。
【0030】
図2は本開示の実施形態に係るDYNAMIDEシステム100を概略的に示す。DYNAMIDEシステム100は、
図1に示されるプロセスを実行し、人物が行動を実行する方法に基づき行動に関与する人物を識別するように構成される。DYNAMIDEシステム100は、随意的にはクラウドベースの処理ハブ120と、破線111によって示される視野(FOV:field of view)を有する画像化システム110と、を備え得る。一例として、当該図では、行動は、ATM60において人物50が関与する、キーパッド62上でタイプする行動である。
【0031】
画像化システム110は、キーパッド62上でタイプする人物50の手52の複数の(「N」個の)2Dおよび/または3Dビデオフレーム114nから成るビデオの配列114を提供するように動作可能である。ここで、1≦n≦Nである。画像化システム110は少なくとも1つの有線および/または無線通信チャネル113によってハブ120に接続され、それを介して、画像化システム110は取得したビデオフレームをハブに送信する。ハブ120は、受信したビデオフレーム114nを処理して、人物50を識別するように構成される。人物50は、該人物50の手52がビデオフレーム内で画像化された人物である。ハブは、データおよび/または実行可能命令と、様々な電子的および/または光学的物理的および/または仮想的なプロセッサ、メモリ、および/または有線または無線通信インターフェースのいずれかと、を備える、および/またはそれらへのアクセスを有する。これらは、ハブが提供する機能をサポートするために必要とされ得る。データおよび/または実行可能命令は、以下、ソフトウェアとも称される。また、プロセッサ、メモリ、および/または通信インターフェースは、以下、ハードウェアとも称される。
【0032】
例として、ハブ120は、オブジェクト検出モジュール130と、AFID識別子モジュール140と、分類器モジュール150と、をサポートするソフトウェアおよびハードウェアを備える。オブジェクト検出器モジュール130は、ビデオフレーム114n内のBROIを検出するように動作可能である。AFID識別子モジュール140は、検出されたBROI内のAFIDを識別し、識別されたAFIDの各々にST-IDを提供する。分類器モジュール150は、人物50を識別するためにST-IDのセットを時空間グラフとして処理するように動作可能な非局所的分類器を備える。
【0033】
一実施形態では、オブジェクトBROI検出器モジュール130は、関連するBROIをリアルタイムで検出することができるYOLO(You Look Only Once)検出器などの高速物体検出器を備える。AFID識別子モジュール140は、検出されたBROI中のAFIDを識別するための畳み込みポーズマシン(CPM:convolutional pose machine)を備え得る。分類器モジュール150は、上述され、以下で論じられる、随意的に適応できる非局所的グラフ畳み込みネットワークを備える。
図2では、分類器モジュール150は、ヒストグラム152によって表される確率の出力を提供するように概略的に示される。該ヒストグラムは、複数の人物のうちの所与の人物の各々について、当該所与の人物が、ビデオフレーム内でタイピングしている手52が画像化された人物である確率を与える。DYNAMIDE100は、所与の人物が、ビデオフレーム内でタイピングしている手52が画像化された人物であることを認識するように訓練される。DYNAMIDE100は、ビデオフレーム114nにおいてタイピングしている手52が画像化された人物として人物50を首尾よく識別するものとして概略的に示されている。
【0034】
一実施形態では、DYNAMIDE100が人物のタイピングを識別するために使用するAFIDは、タイピングする手の関節(指の関節および/または手関節)および指の骨(指骨(phalanges))である。
図3Aは本開示の実施形態に係る、タイピングする手のビデオ画像を処理するために、DYNAMIDE100によってAFIDとして随意的に使用される指の関節(指関節(knuckles)とも呼ばれる)および手関節を有する手200の画像を概略的に示す。関節はプラス記号「+」によって示される手200上の配置を有し、図に示されるように、手関節のラベル「JH」によって総称的に参照され得、数字ラベルJ0、J1、…、J20によって個々に区別され得る。DYNAMIDE100がタイピング行動のためのAFIDとして使用し得る所定の指骨は、当該所定の指骨が、接続する2つの指関節を示す英数字ラベルによって参照される場合に識別される。例えば、
図3Aにおいて、関節J5とJ6とを接続する指の骨は、B5-6とラベル付けされた破線によって
図3Aにおいて概略的に示され、指骨B18-19は指関節J18とJ19とを接続する。指の骨は、ラベルBHによって総称的に参照され得る。
【0035】
図3Bは、本開示の実施形態に係る、所与の時間におけるAFIDの空間関係を表すために使用され得る空間グラフ(S-グラフ200)を概略的に示す。一例として、該空間グラフは、手200が画像化された所与の時間における手200によって示される。空間S-グラフ200において、
図3Aに示される指関節AFID JHは、ラベルJNによって総称的に参照されるノードによって表される。ノードJNは、
図3Aに示される相同の指関節J0、J1、…、J20にそれぞれ対応する英数字ラベルJN0、JN1、…、JN20によって個々に区別される。ノードJNを接続するS-グラフ200のエッジは、指の骨、すなわち指関節を接続する骨AFIDを表す。
図3Bに示されるように、エッジは、ラベルBEによって総称的に参照され得、手200における相同な指の骨に対応する参照ラベルによって個々に参照される。例えば、
図3BのエッジBE5-6は、
図3Aの骨B5-6に対応する。
【0036】
図4Aは、本開示の一実施形態に係る、取得時間tnにおいて画像化システム110によって取得され、処理のためにDYNAMIDEハブ120に送信されるビデオフレームの配列114(
図2)におけるn番目のビデオフレーム114nの拡大画像を概略的に示す。ビデオフレーム114nは、キーパッド62上でタイピングする手52、ならびに撮像システム110のFOV111(
図2)内に位置し得る手を取り囲む環境内の特徴を画像化している。
図4Aに概略的に示される周囲の特徴は、例えば、カウンタ64および側壁66などのATM60の構造の一部、ならびに人物50がカウンタ64上に置いた携帯電話55を含み得る。
【0037】
上述のように、ビデオフレーム114nの配列114の処理において、オブジェクト検出モジュール130は、AFID検出器140が識別し、DYNAMIDE100が人物50を識別するために使用する関節AFIDを備える物体として、フレーム内の手52の画像を位置特定するバウンディングボックスを決定し得る。ビデオフレーム114n内の手52についてオブジェクト検出器モジュール130によって決定されたバウンディングボックスは、破線の長方形116によって示される。AFID検出器140がバウンディングボックス116内で検出および識別する指関節AFIDは、汎用AFIDラベルJHによって示される(
図3A)。
図4Bは、取得時間tnにおいて取得されたビデオフレーム114n内の手の画像に基づくグラフとして手52をモデル化する空間S-グラフ-52(tn)を概略的に示す。S-グラフ-52(tn)内の指関節ノードは、適切な指関節ノードラベルJN0、JN1、…、JN20によって示され、ノードが属するS-グラフ-52(tn)に関連する取得時間tnを示す引数が追加されてもよい。例えば、S-グラフ-52(tn)のノードJN0、JN1、・・・、JN20は、JN0(tn)、JN1(tn)、…、JN20(tn)と参照され得る。
【0038】
図5Aは、それぞれの時間t1、t2、t3、…、tNにおいて、ATM60でタイピングする手52を画像化するビデオフレーム1141、1142、1143、…、114Nを含む、
図2に示されるビデオ配列114の拡大画像を概略的に示す。
図5Bは、本開示の一実施形態に係る、ビデオフレーム1141~114N内の手52の画像に基づいて、タイピングする行動の時空間的な進行をモデル化するST-グラフ52を概略的に示す。STグラフ52は、ビデオフレーム1141、…、114Nにおける手52の画像に対応する空間Sグラフ-52(tn)を含む。ここで、1≦n≦Nである。隣接するS-グラフである、S-グラフ-52(tn)およびS-グラフ-52(tn+1)における相同ノードJNは、それぞれの取得時間tnとtn+1との間の経過時間を表す時間エッジによって接続される。隣接するS-グラフ-52(tn)とS-グラフ-52(tn+1)との間のすべての時間エッジは同じ時間的長さを有し、TEn、n+1とラベル付けされる。
図5Bの時間エッジのいくつかは、それらのそれぞれのラベルによってラベル付けされる。
【0039】
ST-グラフ-52に関連するノードデータは、DYNAMIDEハブ120の分類器モジュール150がATM60のキーパッド62上でタイピングする人物50のアイデンティティを決定するために処理する時空間入力特徴のセットを提供する。入力特徴のセットは、
図6Aに概略的に示されるように、入力時空間特徴テンソル300としてモデル化され得、該入力時空間特徴テンソル300は、行、列、および奥行きによってテンソル内の位置を示すAFID、時間、およびチャネル軸を有する。ST-グラフ-52では、AFID軸は手52における特定の関節を示すノード番号で較正され、時間軸は連続フレーム番号またはフレーム取得時間によって較正される。一例として、時空間特徴テンソル300のチャネル軸は4つのチャネルを概略的に示すが、一実施形態に係る時空間特徴テンソルは4つより多いまたは少ないチャネルを有し得ることに留意されたい。例えば、AFIDおよび時間軸に沿ってそれぞれ示される所与のノードおよび所与の時間に対応するチャネル軸に沿ったエントリは、所与の時間における所与のノードに対応して空間位置を決定する2つまたは3つの空間座標を提供し得る。チャネルエントリはまた、座標の精度、および所与のノードが正しく識別される確率の誤差推定値を提供し得る。
【0040】
一実施形態では、本開示の一実施形態に係る分類器モジュール150は、テンソル300内のデータを処理するための少なくとも1つの非局所的グラフ畳み込みネット(NLGCN)を含む分類器を有し、人物50のアイデンティティを提供し得る。随意的に、少なくとも1つのNLGCNは、非局所的GCN層に加えて適応隣接行列を含む少なくとも1つの適応ANLGCNを備える。適応隣接行列は、互いに関連する手の関節における時空間運動の分類器認識を改善するように動作する。該時空間運動は、空間構造によって影響されず、人物がタイピングを実行する方法に特有の運動である。
【0041】
一例として、
図6Bは、本開示の一実施形態に係る、DYNAMIDEハブ120がテンソル300内のデータを処理するために使用し得る分類器320のスキーマを示す。分類器320は、完全に接続されたネットFCN328に対してデータを順方向に供給する畳み込みニューラルネットワークブロック322、324、および326を随意的に備える。完全に接続されたネットFCN328は、複数の人物の各々に対して、当該人物が、キーパッド62上でタイピングするビデオシーケンス114(
図2)において手52が撮像された人物であるか否かに関する確率を提供する。ブロック322は随意的に、時間畳み込みネットワーク(TCN:time convolutional network)に順方向データを供給するGCNを備える。ブロック324はTCNに対してデータを順方向に供給するANL-GCNを備え、ブロック326はANL-TCNに対してデータを順方向に供給するGCNを備える。
【0042】
従って、本開示の一実施形態によれば、人物を識別する方法が提供される。当該方法は、人物が関与する行動に関連する複数の解剖学的ランドマークであって、前記行動の期間中における、前記解剖学的ランドマークの少なくとも1つの時空間軌跡を決定付けるデータを提供する解剖学的ランドマークの各々に対する時空間データを取得する工程と、前記取得された時空間データを、時空間グラフ(ST-グラフ)としてモデル化する工程と、前記人物に対応するアイデンティティを提供するために、少なくとも1つの非局所的グラフ畳み込みニューラルネットワーク(NLGCN)を用いて前記ST-グラフを処理する工程と、を含む。随意的に、前記少なくとも1つのNLGCNは、前記複数の解剖学的ランドマークから成る解剖学的ランドマークに関するデータに応答して学習される適応隣接行列を含む少なくとも1つの適応NLGCN(ANLGCN)を備え、前記複数の解剖学的ランドマークから成る解剖学的ランドマークは、前記人物の身体構造のみによって決定されない。加えて、または二者択一的に、前記ST-グラフを処理することは、前記複数の解剖学的ランドマークを、解剖学的ランドマークの複数のセットにセグメント化することを含み、各セットは、運動の自由度が異なる構成によって特徴付けられる。随意的に、前記方法は、各セット内の前記解剖学的ランドマークに関連する、前記取得された時空間データを、ST-グラフとしてモデル化することを含む。前記処理する工程は、前記人物のアイデンティティを示すデータを決定するために、前記少なくとも1つのNLGCNから成るNLGCNを用いて、前記解剖学的ランドマークの複数のセットにおける各セットについてモデル化された前記ST-グラフを処理することを含み、前記決定は、前記複数のセットのうちの他のセットを処理することとは無関係であってもよい。前記方法は、随意的に、全ての前記セットから前記決定されたデータを融合して、前記人物に対する前記アイデンティティを提供することを含む。
【0043】
一実施形態において、前記時空間データを取得することは、前記行動に関与する前記人物を画像化した一連のビデオフレームを取得することを含み、各ビデオフレームは、前記複数の解剖学的ランドマークから成る解剖学的ランドマークを画像化した少なくとも1つの身体関心領域(BROI)の画像を含む。随意的に、前記方法は、各ビデオフレームにおいて前記少なくとも1つのBROIを検出するために前記ビデオフレームを処理することを含む。加えて、または二者択一的に、前記方法は、随意的に、前記少なくとも1つの検出されたBROIの各々において、前記複数の解剖学的ランドマークから成る解剖学的ランドマークの画像を識別することを含む。随意的に、前記方法は、前記識別された前記解剖学的ランドマークの画像を処理して、前記時空間軌跡を定義する前記データを決定することを含む。
【0044】
一実施形態において、前記複数の解剖学的ランドマークは、関節を含む。随意的に、前記複数の解剖学的ランドマークは、前記関節を接続する骨を含む。加えて、または二者択一的に、前記関節は、指の関節を含む。随意的に、前記行動は、一連の指の動かし方を含む。前記指の動かし方は、キーボードの操作に関与する動かし方を含んでもよい。
【0045】
一実施形態において、前記関節は、大きな外肢の関節を含む。随意的に、前記行動は、スポーツである。随意的に、前記スポーツは、サッカーである。随意的に、前記スポーツは、ゴルフである。
【0046】
一実施形態において、前記複数の解剖学的ランドマークは、顔のランドマークを含む。随意的に、前記顔のランドマークは、表情および微小な表現を分類するために使用されるフェイシャルアクションコーディングシステム(FACS)のアクションユニット(AU)を定義するためにその動きが使用される顔のランドマークを含む。一実施形態において、前記複数の解剖学的ランドマークは、手の複数の指の指紋の詳細なペアの特徴を含む。
【0047】
さらに、本開示の一実施形態によれば、人物を識別するためのシステムが提供される。当該システムは、行動に関与する人物を撮像するビデオフレームを有する映像を取得するように動作可能な撮像システムと、前記人物に対応するアイデンティティを提供するために、前記請求項のいずれかに従 って前記ビデオフレームを処理するために使用可能なソフトウェアと、を備える。
【0048】
本出願における本発明の実施形態の説明は、例として提供されるものであり、本発明の範囲を限定することを意図するものではない。説明される実施形態は異なる特徴を含み、それらの全てが全ての実施形態において必要とされるわけではない。いくつかの実施形態は特徴のうちのいくつか、または特徴の可能な組み合わせのみを利用する。記載された本発明の実施形態の変形例、および記載された実施形態で述べられた特徴の異なる組み合わせを含む実施形態は、当業者に想起されるだろう。本発明の範囲は、特許請求の範囲によってのみ限定される。
【図面の簡単な説明】
【0049】
【
図1】本開示の実施形態に係る、人物を識別するための、DYNAMIDEが行動を実行する該人物の一連のビデオフレームを処理し得るプロセスを図示するフロー図である。
【
図2】本開示の実施形態に係る、人物を識別するためにATM(automated teller machine:現金自動預け払い機)キーパッド上でタイピングする人物の一連のビデオフレームを処理するDYNAMIDEシステムを概略的に示す図である。
【
図3A】
図3Aは、本開示の実施形態に係る、DYNAMIDEがキーボード上でタイピングする人物を識別するために使用し得る手の画像および手のAFIDを概略的に示す図である。
【
図3B】
図3Bは、本開示の実施形態に係る、
図3Aに示される手をモデル化する空間グラフであるS-グラフを概略的に示す図である。
【
図4A】
図4Aは、本開示の実施形態に係る、
図2に示されるATMでタイピングに関与する人物のために取得された一連のビデオフレームのうちの1つのビデオフレームの拡大画像を概略的に示す図である。
【
図4B】
図4Bは、本開示の実施形態に係る、
図4Aに示されるビデオフレームにおいて画像化される手をモデル化するS-グラフを概略的に示す図である。
【
図5A】
図5Aは、本開示の実施形態に係る、
図2に示される一連のビデオフレームの拡大画像を概略的に示す図である。
【
図5B】
図5Bは、本開示の実施形態に係る、
図5Aに示される一連のビデオフレームの画像に対応する時空間グラフST-グラフを概略的に示す図である。
【
図6A】
図6Aは、本開示の一実施形態に係る、
図5Bに示されるST-グラフのノードに関連するデータを備える時空間特徴テンソルを概略的に示す図である。
【
図6B】
図6Bは、本開示の実施形態に係る、DYNAMIDEが
図6Aに示されるテンソル内のデータを処理するために使用し得る非局所的ニューラルネットワークのスキーマを示す図である。
【手続補正書】
【提出日】2023-04-14
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
人物を識別する方法であって、
人物が関与する行動に関連する複数の解剖学的ランドマークであって、前記行動の期間中における、前記解剖学的ランドマークの少なくとも1つの時空間軌跡を決定付けるデータを提供する解剖学的ランドマークの各々に対する時空間データを取得する工程と、
前記取得された時空間データを、時空間グラフ(ST-グラフ)としてモデル化する工程と、
前記人物に対応するアイデンティティを提供するために、少なくとも1つの非局所的グラフ畳み込みニューラルネットワーク(NLGCN)を用いて前記ST-グラフを処理する工程と、
を含
み、
前記ST-グラフを処理することは、前記複数の解剖学的ランドマークを、解剖学的ランドマークの複数のセットにセグメント化することを含み、各セットは、運動の自由度が異なる構成によって特徴付けられる、
方法。
【請求項2】
前記少なくとも1つのNLGCNは、前記複数の解剖学的ランドマークから成る解剖学的ランドマークに関するデータに応答して学習される適応隣接行列を含む少なくとも1つの適応NLGCN(ANLGCN)を備え、前記複数の解剖学的ランドマークから成る解剖学的ランドマークは、前記人物の身体構造のみによって決定されない、請求項1に記載の方法。
【請求項3】
各セット内の前記解剖学的ランドマークに関連する、前記取得された時空間データを、ST-グラフとしてモデル化することを含む、請求項
1に記載の方法。
【請求項4】
処理する工程は、前記人物のアイデンティティを示すデータを決定するために、前記少なくとも1つのNLGCNから成るNLGCNを用いて、前記解剖学的ランドマークの複数のセットにおける各セットについてモデル化された前記ST-グラフを処理することを含み、前記決定は、前記複数のセットのうちの他のセットを処理することとは無関係である、請求項
3に記載の方法。
【請求項5】
全ての前記セットから前記決定されたデータを融合して、前記人物に対する前記アイデンティティを提供することを含む、請求項
4に記載の方法。
【請求項6】
前記時空間データを取得することは、前記行動に関与する前記人物を画像化した一連のビデオフレームを取得することを含み、各ビデオフレームは、前記複数の解剖学的ランドマークから成る解剖学的ランドマークを画像化した少なくとも1つの身体関心領域(BROI)の画像を含む、前記請求項のいずれかに記載の方法。
【請求項7】
各ビデオフレームにおいて前記少なくとも1つのBROIを検出するために前記ビデオフレームを処理することを含む、請求項
6に記載の方法。
【請求項8】
前記少なくとも1つの検出されたBROIの各々において、前記複数の解剖学的ランドマークから成る解剖学的ランドマークの画像を識別することを含む、請求項
6に記載の方法。
【請求項9】
前記識別された前記解剖学的ランドマークの画像を処理して、前記時空間軌跡を定義する前記データを決定することを含む、請求項
8に記載の方法。
【請求項10】
前記複数の解剖学的ランドマークは、関節を含む
、請求項
8に記載の方法。
【請求項11】
前記複数の解剖学的ランドマークは、前記関節を接続する骨を含む、請求項
10に記載の方法。
【請求項12】
前記関節は、指の関節を含む、請求項1
0に記載の方法。
【請求項13】
前記行動は、一連の指の動かし方を含む、請求項
12に記載の方法。
【請求項14】
前記指の動かし方は、キーボードの操作に関与する動かし方を含む、請求項
13に記載の方法。
【請求項15】
前記関節は、大きな外肢の関節を含む、請求項1
0に記載の方法。
【請求項16】
前記行動は、スポーツである、請求項
15に記載の方法。
【請求項17】
前記スポーツは、サッカーである、請求項
16に記載の方法。
【請求項18】
前記スポーツは、ゴルフである、請求項
16に記載の方法。
【請求項19】
人物を識別する方法であって、
人物が関与する行動に関連する複数の解剖学的ランドマークであって、前記行動の期間中における、前記解剖学的ランドマークの少なくとも1つの時空間軌跡を決定付けるデータを提供する解剖学的ランドマークの各々に対する時空間データを取得する工程と、
前記取得された時空間データを、時空間グラフ(ST-グラフ)としてモデル化する工程と、
前記人物に対応するアイデンティティを提供するために、少なくとも1つの非局所的グラフ畳み込みニューラルネットワーク(NLGCN)を用いて前記ST-グラフを処理する工程と、
を含み、
前記複数の解剖学的ランドマークは、顔のランドマークを含む
、方法。
【請求項20】
前記顔のランドマークは、表情および微小な表現を分類するために使用されるフェイシャルアクションコーディングシステム(FACS)のアクションユニット(AU)を定義するためにその動きが使用される顔のランドマークを含む、請求項
19に記載の方法。
【請求項21】
前記複数の解剖学的ランドマークは、手の複数の指の指紋の詳細なペアの特徴を含む、請求項1から
20のいずれかに記載の方法。
【国際調査報告】