(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-07-21
(45)【発行日】2022-07-29
(54)【発明の名称】アイデンティティ認証方法及び装置
(51)【国際特許分類】
G06F 21/32 20130101AFI20220722BHJP
G06T 7/00 20170101ALI20220722BHJP
G06T 7/20 20170101ALI20220722BHJP
G06T 7/143 20170101ALI20220722BHJP
【FI】
G06F21/32
G06T7/00 510F
G06T7/20 300B
G06T7/143
【外国語出願】
(21)【出願番号】P 2021123330
(22)【出願日】2021-07-28
(62)【分割の表示】P 2018560844の分割
【原出願日】2017-04-12
【審査請求日】2021-08-03
(31)【優先権主張番号】201610340549.4
(32)【優先日】2016-05-19
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】520015461
【氏名又は名称】アドバンスド ニュー テクノロジーズ カンパニー リミテッド
(74)【代理人】
【識別番号】100188558
【氏名又は名称】飯田 雅人
(74)【代理人】
【識別番号】100205785
【氏名又は名称】▲高▼橋 史生
(72)【発明者】
【氏名】リー,パァン
(72)【発明者】
【氏名】スン,イーパァン
(72)【発明者】
【氏名】シェ,ヨンシャン
(72)【発明者】
【氏名】リー,リィァン
【審査官】吉田 歩
(56)【参考文献】
【文献】特開2014-085913(JP,A)
【文献】特開2011-203992(JP,A)
【文献】特開2011-215942(JP,A)
【文献】米国特許出願公開第2015/0228278(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 21/32
G06T 7/00
G06T 7/20
G06T 7/143
(57)【特許請求の範囲】
【請求項1】
コンピュータ実装方法であって、
認証すべきユーザの音声および映像ストリームを取得するステップと、
前記音声および映像ストリーム中の前記ユーザの音声が前記音声および映像ストリーム中の前記ユーザの唇と一致するかどうかを判定するステップと、
前記音声および映像ストリーム中の前記ユーザの音声が前記音声および映像ストリーム中の前記ユーザの唇と一致するかどうかを判定したことに応答して、前記音声および映像ストリームにおいて自動音声認識を実施することに基づいて、前記ユーザのユーザ識別子を決定するステップと、
前記音声及び映像ストリームにおいて自動生理学的特徴抽出を実行することに基づいて、前記ユーザの生理学的特徴を決定するステップと、
記憶されたオブジェクト登録情報から、前記決定されたユーザ識別子に対応する記憶されたモデル生理学的特徴を取得するステップであって、前記オブジェクト登録情報に記憶された前記ユーザ識別子が、前記認証すべきユーザの音声および映像ストリームの音声と唇とが一致したことに基づいて前記認証すべきユーザの前記音声および映像ストリームの自動音声認識を実施することにより生成されたものである、ステップと、
前記音声及び映像ストリームにおいて自動生理学的特徴抽出を実行したことに基づいて決定された対象オブジェクトの前記生理学的特徴を前記記憶されたモデル生理学的特徴と比較することに基づく比較結果を生成するステップと、
前記比較結果が認証条件を満たすと判定したことに応答して、前記ユーザが認証されたと判定するステップと
を備える、方法。
【請求項2】
前記ユーザの前記生理学的特徴が前記ユーザの顔特徴を備える、請求項1に記載の方法。
【請求項3】
前記比較結果が類似度スコアを備える、請求項1に記載の方法。
【請求項4】
前記比較結果が前記認証条件を満たすと判定することが、類似度スコアがスコア閾値を超えると判定することを備える、請求項1に記載の方法。
【請求項5】
前記音声および映像ストリーム中の前記ユーザの音声が前記ユーザの唇と一致するかどうかを判定するステップが、
特定の時点における前記音声および映像ストリームの映像画像における読唇の音節を決定するステップと、
前記特定の時点における前記音声および映像ストリームの音声における音声の音節を決定するステップと、
前記読唇の音節と前記音声の音節とが一致することを判定するステップと
を備える、請求項1に記載の方法。
【請求項6】
前記モデル生理学的特徴を前記オブジェクト登録情報に記憶するステップを備える、請求項1に記載の方法。
【請求項7】
前記ユーザから認証のための要求を受信するステップをさらに備え、前記ユーザの音声および映像ストリームが前記要求に応答して取得される、請求項1に記載の方法。
【請求項8】
コンピュータ可読記憶媒体であって、
認証すべきユーザの音声および映像ストリームを取得することと、
前記音声および映像ストリーム中の前記ユーザの音声が前記音声および映像ストリーム中の前記ユーザの唇と一致するかどうかを判定することと、
前記音声および映像ストリーム中の前記ユーザの音声が前記音声および映像ストリーム中の前記ユーザの唇と一致するかどうかを判定したことに応答して、前記音声および映像ストリームにおいて自動音声認識を実施することに基づいて、前記ユーザのユーザ識別子を決定することと、
前記音声及び映像ストリームにおいて自動生理学的特徴抽出を実行することに基づいて、前記ユーザの生理学的特徴を決定することと、
記憶されたオブジェクト登録情報から、前記決定されたユーザ識別子に対応する記憶されたモデル生理学的特徴を取得することであって、前記オブジェクト登録情報に記憶された前記ユーザ識別子が、前記認証すべきユーザの音声および映像ストリームの音声と唇とが一致したことに基づいて前記認証すべきユーザの前記音声および映像ストリームの自動音声認識を実施することにより生成されたものである、取得することと、
前記音声及び映像ストリームにおいて自動生理学的特徴抽出を実行したことに基づいて決定された対象オブジェクトの前記生理学的特徴を前記記憶されたモデル生理学的特徴と比較することに基づく比較結果を生成することと、
前記比較結果が認証条件を満たすと判定したことに応答して、前記ユーザが認証されたと判定することと
を備える動作を実行するためにコンピュータシステムによって実行可能な1つまたは複数の命令を記憶する、コンピュータ可読記憶媒体。
【請求項9】
前記ユーザの前記生理学的特徴が前記ユーザの顔特徴を備える、請求項8に記載のコンピュータ可読記憶媒体。
【請求項10】
前記比較結果が類似度スコアを備える、請求項8に記載のコンピュータ可読記憶媒体。
【請求項11】
前記比較結果が前記認証条件を満たすと判定することが、類似度スコアがスコア閾値を超えると判定することを備える、請求項8に記載のコンピュータ可読記憶媒体。
【請求項12】
前記音声および映像ストリーム中の前記ユーザの音声が前記ユーザの唇と一致するかどうかを判定することが、
特定の時点における前記音声および映像ストリームの映像画像における読唇の音節を決定することと、
前記特定の時点における前記音声および映像ストリームの音声における音声の音節を決定することと、
前記読唇の音節と前記音声の音節とが一致することを判定することと
を備える、請求項8に記載のコンピュータ可読記憶媒体。
【請求項13】
前記動作が前記モデル生理学的特徴を前記オブジェクト登録情報に記憶することを備える、請求項8に記載のコンピュータ可読記憶媒体。
【請求項14】
前記動作が前記ユーザから認証のための要求を受信することをさらに備え、前記ユーザの音声および映像ストリームが前記要求に応答して取得される、請求項8に記載のコンピュータ可読記憶媒体。
【請求項15】
コンピュータ実装システムであって、
1つまたは複数のコンピュータと、
前記1つまたは複数のコンピュータに相互動作可能に結合される1つまたは複数のコンピュータメモリデバイスであって、1つまたは複数の命令を記憶する有形の機械可読記憶媒体を有し、前記1つまたは複数のコンピュータによって実施されたとき、
認証すべきユーザの音声および映像ストリームを取得することと、
前記音声および映像ストリーム中の前記ユーザの音声が前記音声および映像ストリーム中の前記ユーザの唇と一致するかどうかを判定することと、
前記音声および映像ストリーム中の前記ユーザの音声が前記音声および映像ストリーム中の前記ユーザの唇と一致するかどうかを判定したことに応答して、前記音声および映像ストリームにおいて自動音声認識を実施することに基づいて、前記ユーザのユーザ識別子を決定することと、
前記音声及び映像ストリームにおいて自動生理学的特徴抽出を実行することに基づいて、前記ユーザの生理学的特徴を決定することと、
記憶されたオブジェクト登録情報から、前記決定されたユーザ識別子に対応する記憶されたモデル生理学的特徴を取得することであって、前記オブジェクト登録情報に記憶された前記ユーザ識別子が、前記認証すべきユーザの音声および映像ストリームの音声と唇とが一致したことに基づいて前記認証すべきユーザの前記音声および映像ストリームの自動音声認識を実施することにより生成されたものである、取得することと、
前記音声及び映像ストリームにおいて自動生理学的特徴抽出を実行したことに基づいて決定された対象オブジェクトの前記生理学的特徴を前記記憶されたモデル生理学的特徴と比較することに基づく比較結果を生成することと、
前記比較結果が認証条件を満たすと判定したことに応答して、前記ユーザが認証されたと判定することと
を備える1つまたは複数の動作を実行する、コンピュータ実装システム。
【請求項16】
前記ユーザの前記生理学的特徴が前記ユーザの顔特徴を備える、請求項15に記載コンピュータ実装システム。
【請求項17】
前記比較結果が類似度スコアを備える、請求項15に記載コンピュータ実装システム。
【請求項18】
前記比較結果が前記認証条件を満たすと判定することが、類似度スコアがスコア閾値を超えると判定することを備える、請求項15に記載コンピュータ実装システム。
【請求項19】
前記音声および映像ストリーム中の前記ユーザの音声が前記ユーザの唇と一致するかどうかを判定することが、
特定の時点における前記音声および映像ストリームの映像画像における読唇の音節を決定することと、
前記特定の時点における前記音声および映像ストリームの音声における音声の音節を決定することと、
前記読唇の音節と前記音声の音節とが一致することを判定することと
を備える、請求項15に記載コンピュータ実装システム。
【請求項20】
前記動作が前記モデル生理学的特徴を前記オブジェクト登録情報に記憶することを備える、請求項15に記載コンピュータ実装システム。
【発明の詳細な説明】
【技術分野】
【0001】
本願はネットワーク技術に関し、特に、アイデンティティ(身元)認証方法及び装置に関する。
【背景技術】
【0002】
インターネット技術の発展に伴い、ネットワークベースのサービスが、人々に益々広く使われるようになっている。例えば、人々は、メールボックスを用いて電子メールを送受信し、オンラインで買い物をし、オンラインで働くことすらできる。アプリケーションによっては、そのセキュリティ要件は高く、ユーザのアイデンティティが認証される必要がある。例えば、オンラインショッピングに対する決済が承認される前に、ユーザのアイデンティティが認証される必要がある、又は、ユーザは、ユーザのアイデンティティが認証された後に、セキュリティ要件が比較的高いアプリケーションにログインすることができる。関連技術において、顔認識(顔認証)及び声紋認識(声紋認証)など、インターネットで用いられるアイデンティティ認証方法が幾つか存在する。しかし、これらの一般に用いられる認証方法は比較的複雑である。例えば、ユーザは、ユーザのIDを入力し、次いで、声紋認識のために声紋を検証する必要がある。加えて、既存の認証方法の信頼性は比較的低い。例えば、攻撃者は、アナログ映像又は録画を使って顔認識を達成できる。検証が、例えば顔と声紋を参照する2種類の組み合わされた認証方法に基づいて実行される場合であっても、これらの認証方法は、比較的、互いに独立しているので、攻撃者は、認証プロセスを打ち破ることができる。アイデンティティ認証方法の上記の欠点は、アプリケーションセキュリティに対し何らかのリスクを生む可能性がある。
【発明の概要】
【0003】
上記に鑑み、本願は、アイデンティティ認証の効率及び信頼性を高めるアイデンティティ認証方法及び装置を提供する。
【0004】
具体的に、本願は、以下の技術的解決策を用いて実施される。
【0005】
第1の態様によれば、アイデンティティ認証方法が提供され、この方法は:収集された音声及び映像ストリームを取得するステップであって、前記音声及び映像ストリームは、認証対象である対象オブジェクトにより生成される、ステップと;前記音声及び映像ストリーム中の読唇と音声とが一致しているかどうかを特定し、前記読唇と前記音声とが一致している場合、前記音声及び映像ストリームにおける音声ストリームに対して音声認識を実行することにより取得される音声内容を、前記対象オブジェクトのオブジェクト識別子として用いるステップと;事前に格納されたオブジェクト登録情報が前記オブジェクト識別子を含む場合、前記オブジェクト登録情報から、前記オブジェクト識別子に対応するモデル生理学的特徴を取得するステップと;前記音声及び映像ストリームに対して生理学的認識を実行して、前記対象オブジェクトの生理学的特徴を取得するステップと;前記対象オブジェクトの前記生理学的特徴を、前記モデル生理学的特徴と比較して比較結果を取得し、前記比較結果が認証条件を満たす場合、前記対象オブジェクトは認証された、と特定するステップと;を含む。
【0006】
第2の態様によれば、アイデンティティ認証装置が提供され、この装置は:収集された音声及び映像ストリームを取得するよう構成された情報取得モジュールであって、前記音声及び映像ストリームは、認証対象である対象オブジェクトにより生成される、情報取得モジュールと;前記音声及び映像ストリーム中の読唇と音声とが一致しているかどうかを特定し、前記読唇と前記音声とが一致している場合、前記音声及び映像ストリームにおける音声ストリームに対して音声認識を実行することにより取得される音声内容を、前記対象オブジェクトのオブジェクト識別子として用いるよう構成された識別子特定モジュールと;事前に格納されたオブジェクト登録情報が前記オブジェクト識別子を含む場合、前記オブジェクト登録情報から前記オブジェクト識別子に対応するモデル生理学的特徴を取得するよう構成された情報管理モジュールと;前記音声及び映像ストリームに対して生理学的認識を実行して、前記対象オブジェクトの生理学的特徴を取得するよう構成された特徴認識モジュールと;前記対象オブジェクトの前記生理学的特徴を前記モデル生理学的特徴と比較して比較結果を取得し、前記比較結果が認証条件を満たす場合、前記対象オブジェクトは認証された、と特定するように構成された認証処理モジュールと;を含む。
【0007】
本願において提供されるアイデンティティ認証方法及び装置によれば、ユーザの認証時に、音声及び映像ストリームの認識を通じてユーザ識別子が取得され、顔特徴と声紋特徴も同じ音声及び映像ストリームを用いて検証できる。これにより、ユーザの操作は簡素化され、認証効率が向上し、1対1認証モデルは維持され、且つ認識精度が確保される。その上、本方法では、読唇と音声との一致を特定することにより、対象オブジェクトが攻撃者による偽の映像記録ではなく、本人そのものであることが保証され、よって認証のセキュリティ及び信頼性が向上する。
【図面の簡単な説明】
【0008】
【
図1】
図1は、本願の実施の例に係る、アイデンティティ登録手順を示す図である。
【0009】
【
図2】
図2は、本願の実施の例に係る、読唇と音声との一致を特定する手順を示す図である。
【0010】
【
図3】
図3は、本願の実施の例に係る、顔特徴認識手順を示す図である。
【0011】
【
図4】
図4は、本願の実施の例に係る、声紋特徴認識手順を示す図である。
【0012】
【
図5】
図5は、本願の実施の例に係る、アイデンティティ認証手順を示す図である。
【0013】
【
図6】
図6は、本願の実施の例に係る、アイデンティティ認証装置の構造図である。
【0014】
【
図7】
図7は、本願の実施の例に係る、アイデンティティ認証装置の構造図である。
【発明を実施するための形態】
【0015】
実施の例をここに詳細に述べ、これら実施の例のいくつかを添付図面に提示する。下記の説明が添付図面に関する場合、別段の定めがない限り、異なる添付図面における同一の符号は、同一の要素又は類似の要素を表す。下記の実施の例で述べる実施は、本願に合致する全ての実施を表す訳ではない。むしろそれらは、添付の特許請求の範囲に詳細に記載される本願の一部の態様に合致する装置及び方法の実施例に過ぎない。
【0016】
本願の実施において提供されるアイデンティティ認証方法は、インターネットアイデンティティ認証に適用できる。例えば、アプリケーションのセキュリティを確保するため、ユーザは、本方法を用いて認証された後に、ネットワークアプリケーションにログインすることができる。
【0017】
セキュリティ要件が比較的高いアプリケーションを以下一例として用いる。アプリケーションは、ユーザのインテリジェントデバイス上、例えばスマートフォン又はインテリジェントタブレット上で作動できると仮定する。ユーザがインテリジェントデバイス上でアプリケーションにログインする必要がある場合、インテリジェントデバイス上のカメラとマイクロホンとを用いて音声及び映像ストリームを収集できる。例えば、ユーザは、ユーザのアプリケーションIDを携帯電話のカメラとマイクロホンとに向かって読み上げることができる。アプリケーションIDは、ユーザによってアプリケーションに登録されているアカウント番号「123456」とすることができる。ユーザがアプリケーションIDを読み上げた後、携帯電話は、ビデオ画像と読み上げ音声とを含むユーザの音声(オーディオ)及び映像(ビデオ)ストリームを収集できる。
【0018】
本願のこの実施におけるアイデンティティ認証方法によると、収集された音声及び映像ストリームを処理できる。認証に先立ち、ユーザは、後でアイデンティティ認証を実行するためのアイデンティティ登録手順を実行する必要がある。登録手順も、収集された音声及び映像ストリームに基づいて実行される。以下、アイデンティティ登録手順とアイデンティティ認証手順とを別々に述べる。また、この実施は、実際のアプリケーションにおいてアイデンティティ登録又は認証処理を実行するデバイスに制限を課すものではない。例えば、ユーザの音声及び映像ストリームが収集された後、スマートフォンは、音声及び映像ストリームをアプリケーションのバックエンドサーバへ伝送できる、又は、処理の一部をスマートフォンのクライアントソフトウェア側で実行でき、処理のその他の部分をサーバ側で実行でき、さもなければ、他の方法を用いることができる。
【0019】
<アイデンティティ登録>
この実施の方法において、ユーザがアイデンティティ登録を実行する際、2つのタイプの情報を含めることができる。一方のタイプの情報はオブジェクト識別子である。例えば、ユーザがアプリケーションにログインする場合、ユーザを対象オブジェクトと称することができる。ユーザがアプリケーションに登録する際、ユーザを別のユーザと区別するために用いられる情報が、アプリケーションにおけるオブジェクト識別子であって、例えば、アプリケーションにおけるユーザのアカウント番号123456とすることができ、アカウント番号123456が、対象オブジェクトのオブジェクト識別子である。他方のタイプの情報は、ユーザを一意に識別ができる生理学的情報、例えば、ユーザの声紋特徴又はユーザの顔特徴である。通常、声紋及び顔は人によって異なり、各ユーザを識別する生理学的情報は、モデル生理学的特徴と呼ぶことができる。
【0020】
この2つのタイプの情報、すなわちオブジェクト識別子及びモデル生理学的特徴の間にマッピング関係が確立され、このマッピング関係が格納される。対応して格納される対象オブジェクトのオブジェクト識別子とモデル生理学的特徴は、「オブジェクト登録情報」と呼ぶことができる。例えば、ユーザXiao Zhangは、ユーザのオブジェクト登録情報を「123456-モデル生理学的特徴A」として格納できる。ユーザのより正確な識別のため、この例で用いられるモデル生理学的特徴に含まれる生理学的情報は、少なくとも2つのタイプの生理学的情報、例えば、顔及び声紋とすることができる。
【0021】
図1は、アイデンティティ登録手順の例を示す。この手順は、下記の処理を含む。
【0022】
ステップ101:対象オブジェクトの登録対象である音声及び映像ストリームを取得する。
【0023】
例えば、ユーザはアプリケーションに登録し、ユーザは、アプリケーションのアカウント番号「123456」をユーザのインテリジェントデバイス、例えば携帯電話に向かって読み上げることができる。この例において、登録を実行中のユーザを対象オブジェクトと呼ぶことができ、インテリジェントデバイスのカメラとマイクロホンは、ユーザがアカウント番号を読み上げる際に生成される音声及び映像ストリームを収集できる。登録時に収集される音声及び映像ストリームは、登録対象である音声及び映像ストリームと呼ぶことができ、音声ストリームと映像ストリームとを含む。音声ストリームは、ユーザの読み上げ音声であり、映像ストリームは、ユーザの読み上げビデオ画像である。
【0024】
このステップで音声及び映像ストリームが取得された後、下記の3つの態様の処理を実行してユーザの登録を完了できる。詳細については、同じく
図1を参照できる。
【0025】
一の態様における処理は下記の通りである。すなわち、ステップ102:登録対象である音声及び映像ストリーム中の読唇と音声とが一致しているかどうかを特定する。
【0026】
ここでの一致は、唇の動きと音声によって示される動きとのマッピング関係を意味する。例えば、音声が「今日の天気は晴れです」であり、音声は低速で生成されたものの、唇の動きは、高速で生成された「今日の天気は晴れです」に対応すると仮定する。音声と唇の動きが互いに対応しないことは明らかである。すなわち、唇の動きは既に止まっている(内容は完全に読み上げられている)のに、音声は続いている(…晴れです)。これは、多くの予想される状況、例えば、攻撃者がユーザのID及び顔検出をパスしようと試みる場合、攻撃者がユーザ(攻撃されたユーザ)の以前の映像レコードを使用することにより顔検出を攻撃する可能性がある場合、及び攻撃者が音声内容のIDの認識を攻撃するためにユーザのIDを読み上げる場合に起こり得る。このようにして、攻撃者が認証されてしまうことがあり得る。しかし、こうした攻撃において、読唇と音声は、通常、一致せず、そして読み上げ者はユーザではない、と特定できる。
【0027】
ステップ102に示すように、登録対象である音声及び映像ストリーム中の読唇と音声とが一致しない、と特定された場合、登録の失敗をユーザに通知できる。或いは、
図1に示すように、処理エラーを防ぐために、ステップ101に進み、音声及び映像ストリームを再度収集する。
【0028】
一方、登録対象である音声及び映像ストリーム中の読唇と音声が一致していると特定された場合、ステップ103を実行する。すなわち、収集された音声及び映像ストリームにおける音声ストリームに対して音声認識を実行することにより取得される音声内容を対象オブジェクトのオブジェクト識別子として使用する。音声認識は、個人の音声内容を自動的に認識するためのコンピュータ技術、すなわち、音声を内容に変換する認識プロセスを用いる。例えば、登録を実行すべきユーザによる「123456」を読み上げる音声に対して音声認識が実行された後、音声ストリームの取得された音声内容は「123456」であり、認識を通じて取得される内容は、ユーザの識別子、すなわち、ユーザのIDとして用いることができる。
【0029】
音声ストリームの上記音声認識は、読唇と音声が一致していると特定された後に実行してオブジェクト識別子を取得することができ、或いは、読唇と音声が一致しているかどうかを特定するプロセスにおいて実行してオブジェクト識別子を取得することができる。
【0030】
別の態様において、登録対象である音声及び映像ストリームに対して生理学的認識(認証)を実行して、登録対象である音声及び映像ストリームのモデル生理学的特徴を取得する。この例において、生理学的特徴としては顔特徴と声紋特徴とを含むが、特徴の一例がユーザを一意的に識別でき、異なるユーザの生理学的特徴の区別に用いることができる限り、この2つの特徴に限定されない。この態様において、ステップ104に示すように、登録対象である音声及び映像ストリームにおける音声ストリームに対して声紋認識を実行して、対象オブジェクトの声紋特徴を取得することができる。
【0031】
更に別の態様において、登録対象である音声及び映像ストリームにおける映像ストリームに対して顔検出を実行して、対象オブジェクトの顔特徴を取得する。
【0032】
登録手順において、検出された顔特徴はモデル顔特徴と呼ぶことができ、以降の認証プロセスにおいて基準として用いることができる。同様に、検出された声紋特徴もモデル声紋特徴と呼ぶことができ、モデル声紋特徴とモデル顔特徴は、総称してモデル生理学的特徴と呼ぶことができる。
【0033】
この実施において、対象オブジェクトのモデル生理学的特徴とオブジェクト識別子は、オブジェクト登録情報とも呼ばれる。オブジェクト登録情報におけるデータが揃っていると特定された後、ステップ106において、対象オブジェクトのオブジェクト識別子と対応するモデル生理学的特徴が、オブジェクト登録情報としてデータベースに格納される。
【0034】
また、
図1に示す3つの態様の実行順序は限定されない。例えば、ステップ101において登録対象である音声及び映像ストリームを取得した後、3つの態様を並行して実行することができる。読唇と音声が一致していない場合、認識された声紋特徴と認識された顔特徴は、格納されなくてもよい。或いは、読唇と音声が一致していると特定された後、次いで声紋特徴と顔特徴についての検出と認識が実行される。
【0035】
図2は、
図1における読唇と音声の一致を特定する手順を示す。手順は、下記のステップを含むことができる。
【0036】
ステップ201:登録対象である音声及び映像ストリームにおける音声ストリームに基
づいてエンドポイント(端点)検出を実行する。このステップでは、連続する音声ストリームにおいて音声ストリームの開始時刻と終了時刻とを検出できる。
【0037】
ステップ202:音声ストリームに基づき、連続する音声特徴を抽出する。ここで、特徴としてはMFCC特徴とLPCC特徴とを含むが、これに限定されない。このステップで抽出される特徴は、音声認識に用いることができる。
【0038】
ステップ203:音声ストリーム中の音声の音節と対応する時点を識別する。このステップにおいて、音声ストリーム中の各音節をステップ202において抽出される音声特徴に基づいて識別でき、音節の対応する出現時点と、対応する消滅時点とを特定できる。音声認識方法としては、隠れマルコフモデル(Hidden Markov Model、HMM)、ディープニューラルネットワーク(Deep Neural Network、DNN)、及びロングショートタイムモデル(Long Short Time Model、LSTM)などの方法を含むが、これらに限定されない。
【0039】
ステップ204:登録対象である音声及び映像ストリームにおける映像ストリームに基づいて唇の位置を検出する。このステップにおいて、唇の位置は、映像の画像から検出できる。
【0040】
ステップ205:検出された唇画像の品質を特定する。例えば、唇の位置の解像度及び露出などのパラメータを特定できる。解像度が低い場合、又は露出度が高過ぎる場合、映像は適格ではない、と特定され、この場合、登録対象である音声及び映像ストリームを再度収集する。映像が適格であれば、ステップ206に進んで読唇認識を実行する。
【0041】
ステップ206:唇の連続的な特徴を抽出する。このステップにおいて、特徴は、連続的な唇画像から抽出でき、この特徴は、ベアピクセル、LBP、Gabor(ガボール)、SIFT、又はSurfなどのローカル映像記述子を含むが、これらに限定されない。
【0042】
ステップ207:映像ストリーム中の読唇の音節と、対応する時点とを識別する。このステップにおいて、読唇の音節は、隠れマルコフモデル(HMM)及びロングショートタイムモデルなどの方法を用いて識別できる。映像時間シーケンスにおける読唇の音節に対応する時点も、読唇認識時にこのモデルを用いて特定される。
【0043】
ステップ208:読唇の音節と音声の音節との両方の、対応する時点が一致しているかどうかを特定する。例えば、このステップにおいて、音声の音節の時点情報を、読唇の音節の時点情報と比較できる。比較結果が一致を示す場合、音声ストリームは実在の人物によって生成されたとみなされ、この場合、ステップ209へ進む。比較結果が不一致を示す場合、音声ストリームは攻撃行為である疑いがあり、この場合、登録手順に戻る。この実施では、読唇の音節及び音声の音節の両方の、対応する時点の一致を検出する方法は、より細部にわたり、したがって、実在の人物の音声を特定する精度はより高くなる。
【0044】
ステップ209:ステップ202で抽出される音声特徴に対して音声認識を実行して、ユーザのID、すなわちオブジェクト識別子を取得する。音声認識方法としては、隠れマルコフモデル(HMM)、ディープニューラルネットワーク(DNN)、及びロングショートタイムモデル(LSTM)などの方法を含むが、これらに限定されない。
【0045】
更に、
図2に示す実施例では、読唇と音声とが一致している、と特定された後、ステップ209において音声ストリームの音声認識を実行できる。或いは、ステップ203において音声ストリーム中の音節の時点が識別されると、音声特徴に基づき音声認識を実行することによりユーザのIDが取得される。この場合、ステップ208において読唇と音声とが一致している、と特定された後、認識を通じて取得されるユーザのIDは、オブジェクト識別子として、直接、用いることができる。
【0046】
図3は、
図1における顔特徴認識手順を示す。この手順は、下記のステップを含むことができる。
【0047】
ステップ301:登録対象である音声及び映像ストリームにおける映像ストリームに基づき顔画像を検出する。このステップにおいて、映像フレーム画像を音声及び映像ストリームにおける映像ストリームから抽出でき、顔が映像フレーム画像に出現するかどうかを検出できる。肯定である場合、ステップ302へ進む。さもなければ、特定手順へ戻る。
【0048】
ステップ302:顔画像の品質を検出する。このステップにおいて、ステップ301で検出された顔に対して顔特徴点検出を実行でき、特徴点検出の結果に基づいて水平方向と垂直方向の両方における顔の角度を特定できる。両角度が特定の傾斜角を超えていない場合、品質要件は満たされる。そうでなければ、品質要件は満たされない。加えて、顔領域の解像度、露出などが特定され、これらも特定の閾値以内である必要がある。顔画像が良好な品質であれば、顔特徴をより良好に認識できる。
【0049】
ステップ303:品質要件を満たす顔画像に関し、顔画像から固有ベクトルを抽出する。ここで、固有ベクトルは、ローカルバイナリパターン(Local Binary Pattern、LBP)、Gabor、畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)等を含むが、これらに限定されない。
【0050】
ステップ304:ステップ303において抽出された複数の顔固有ベクトルを組み合わせてユーザの一意の顔特徴、すなわちモデル顔特徴を形成する。
【0051】
図4は、
図1における声紋特徴認識手順を示す。この手順は、下記のステップを含むことができる。
【0052】
ステップ401:登録対象である音声及び映像ストリームにおける音声ストリームを取得する。
【0053】
この例では、登録対象である音声及び映像ストリームにおける音声ストリームに基づいて声紋特徴認識を実行できる。
【0054】
ステップ402:音声ストリームの音声品質は品質基準を満たしている、と特定する。
【0055】
このステップでは音声品質を特定できる。収集された音声ストリームの品質が良好であるほど、音声に対して声紋認識を実行する効果が良好となる。したがって、以降の声紋認識を実行する前に、音声ストリームの品質を先ず特定できる。例えば、音声ストリーム中の音声の信号強度及び信号対ノイズ比などの情報を計算して、音声が品質基準を満たしているかどうかを特定できる。例えば、信号対ノイズ比が特定の範囲内に収まること、又は音声の信号強度が強度閾値より大きいことを品質基準とすることができる。音声ストリームが適格である場合、ステップ403へ進む。そうでなければ、登録対象である音声及び映像ストリームを再度収集する。
【0056】
ステップ403:音声ストリームから声紋固有ベクトルを抽出する。
【0057】
この例では、複数の登録対象である音声及び映像ストリームが存在する可能性がある。例えば、ユーザは、ユーザのIDを2度読み上げる可能性があり、これに応じ2つの音声及び映像ストリームが収集される。このステップにおいて、各音声及び映像ストリームにおける音声ストリームの声紋固有ベクトルを抽出できる。固有ベクトルは、複数の方法で抽出できるが、ここでは簡略化のため詳細は省略する。例えば、音声ストリームの音声信号から音声特徴パラメータメル周波数ケプストラム係数(Mel Frequency Cepstrum Coefficient、MFCC)を抽出でき、次いで、i-vector(話者認識アルゴリズム)又は確率的線形判別分析(Probabilistic Linear Discriminant Analysis、PLDA、すなわち、声紋認識のためのチャネル補償アルゴリズム)などの方法を用いて固有ベクトルが計算される。
【0058】
ステップ404:複数の音声ストリームの声紋固有ベクトルが一致しているかどうかを特定する。
【0059】
例えば、登録時にユーザがユーザのIDを少なくとも2度読み上げた場合、これに応じて、収集された音声ストリームは少なくとも2つ存在することになる。複数の音声ストリームの声紋特徴間の差が大きくなり過ぎないようにするため、複数の音声ストリーム間において声紋一致の特定を実行できる。例えば、ステップ403において各音声ストリームから抽出された声紋固有ベクトルに基づき、複数の音声ストリーム間の類似度スコアを計算できる。
【0060】
類似度スコアが特定のスコア閾値の範囲内にある場合、それは、音声ストリームが類似要件を満たしていることを意味し、この場合、ステップ405へ進む。そうでなければ、それは、ユーザによって入力された複数の音声間に大きな差があることを意味し、登録を実行しているユーザに、ユーザのIDの再度の読み上げを指示する、すなわち音声ストリームを再度収集する。
【0061】
ステップ405:複数の音声ストリームの声紋固有ベクトルに基づいてモデル声紋特徴を生成する。
【0062】
このステップでは、先のステップにおいて音声ストリームから抽出された声紋固有ベクトルに対して加重総和法を実行して、モデル声紋特徴を取得できる。
【0063】
上記登録手順の完了後、対象オブジェクトのオブジェクト登録情報はデータベースに格納された状態にある。オブジェクト登録情報は、オブジェクト識別子と、対応するモデル生理学的特徴とを含むことができる。モデル生理学的特徴は、モデル声紋特徴とモデル顔特徴とを含むことができ、オブジェクト登録情報に基づいてオブジェクトのアイデンティティ認証の処理を以下の通り実行できる。
【0064】
<アイデンティティ認証>
図5は、アイデンティティ認証手順の実施例を示す。この手順において、認証に用いられる生理学的特徴は、例えば顔特徴と声紋特徴との組合せを用いて記述される。更に、認証過程にある対象オブジェクトが映像ではなく本人である、と特定された後に、生理学的特徴を比較することができる。
図5に示すように、認証手順は下記の処理を含む。
【0065】
ステップ501:収集された音声及び映像ストリームを取得する。ここで、音声及び映像ストリームは、認証対象である対象オブジェクトによって生成される。
【0066】
例えば、ユーザは、ユーザのアイデンティティがアプリケーションによって認証されて初めて、セキュリティ要件が比較的高いアプリケーションにログインすることができる。このステップにおいて、ユーザは、ユーザのインテリジェントデバイス、例えば、スマートフォン上でアプリケーションを起動でき、ユーザは、スマートフォンのカメラとマイクロホンとを使って認証対象である音声及び映像ストリームを収集できる。音声及び映像ストリームは、ユーザがユーザのアプリケーションIDを読み上げるときに生成できる。
【0067】
ステップ502:音声及び映像ストリーム中の読唇と音声とが一致しているかどうかを特定する。
【0068】
この例では、音声及び映像ストリーム中の読唇と音声とが一致しているかどうかを先ず特定できる。具体的な一致特定手順については
図2を参照でき、ここでは簡略化のためその詳細は省略する。
【0069】
読唇と音声とが一致している場合、それは、認証過程にある対象オブジェクトが映像などではなく本人であることを意味する。この場合、ステップ503へ進む。そうでなければ、ステップ501に戻って再度収集を実行する。
【0070】
ステップ503:音声及び映像ストリームにおける音声ストリームに対して音声認識を実行して、音声ストリームの音声内容を取得する。例えば、認識を通して取得される音声内容は、ユーザのID「123456」とすることができる。
【0071】
ステップ504:音声内容を対象オブジェクトのオブジェクト識別子として用い、事前に格納されたオブジェクト登録情報がこのオブジェクト識別子を含むかどうかを特定する。
【0072】
例えば、事前に格納されたオブジェクト登録情報がオブジェクト識別子を含む場合、オブジェクト識別子に対応するモデル生理学的特徴、例えばモデル顔特徴及びモデル声紋特徴を、オブジェクト登録情報において取得できる。生理学的特徴をモデル生理学的特徴と比較するために、認証対象である音声及び映像ストリームに対して生理学的認識が更に実行されて、対象オブジェクトの生理学的特徴が取得される。事前に格納されたオブジェクト登録情報がオブジェクト識別子を含まない場合、ユーザは登録を未だ実行していないことをユーザに通知できる。
【0073】
ステップ505:音声及び映像ストリームに対して声紋認識を実行して、対象オブジェクトの声紋特徴を取得する。このステップにおける声紋特徴の抽出については、
図4を参照できる。
【0074】
ステップ506:音声及び映像ストリームに対して顔認識を実行して、対象オブジェクトの顔特徴を取得する。
【0075】
次いで、対象オブジェクトの生理学的特徴をモデル生理学的特徴と比較して比較結果を取得でき、この比較結果が認証条件を満たす場合、対象オブジェクトは認証された、と特定される。例えば、ステップ507乃至ステップ509が含まれる。
【0076】
ステップ507:対象オブジェクトの声紋特徴をモデル声紋特徴と比較して、声紋比較スコアを取得する。
【0077】
ステップ508:対象オブジェクトの顔特徴をモデル顔特徴と比較して顔比較スコアを取得する。
【0078】
ステップ509:声紋比較スコアと顔比較スコアが認証条件を満たすかどうかを特定する。
【0079】
例えば、声紋比較スコアと顔比較スコアとが:声紋比較スコアが声紋スコア閾値より大きく、且つ顔比較スコアが顔スコア閾値より大きい;及び、声紋比較スコアと顔比較スコアとの積が、対応する積閾値より大きい;及び、声紋比較スコアと顔比較スコアの加重和が、対応する加重閾値より大きい;うちの少なくとも1つを満たす場合、対象オブジェクトは認証された、と特定される。
【0080】
このステップにおいて、声紋比較スコアと顔比較スコアとが認証条件を満たす、と特定された場合、対象オブジェクトは認証された、と特定される。そうでなければ、対象オブジェクトは認証に失敗した、と特定される。
【0081】
更に、このアイデンティティ認証の例では、上記アイデンティティ登録手順と同様に、読唇と音声とが一致している、と特定された後、音声ストリームに対して音声認識を実行してユーザのIDを取得できる、或いは、音声ストリーム中の音節時点が識別される際に、ユーザのIDを取得できる。上記の例において、ユーザのIDは、読唇と音声とが一致している、と特定された後に識別される。
【0082】
本願のこの実施におけるアイデンティティ認証方法によると、音声及び映像ストリームは、ユーザの認証時に1度しか生成する必要がない。例えば、ユーザは、ユーザのIDを1度しか読み上げる必要がない。本方法において、ユーザのIDは、音声及び映像ストリームに対して音声認識を実行することにより取得でき、同じ音声及び映像ストリームを用いて顔特徴と声紋特徴とを検証できる。これによりユーザの操作は簡略化され、認証効率が向上し、1対1認証モデルが維持され、認識精度が確保される。換言すると、認識対象である生理学的特徴は、データベースにおけるオブジェクト識別子に対応する特徴とだけ比較され、それにより認識精度が確保される。加えて、本方法において、対象オブジェクトが攻撃者の偽の映像記録ではなく本人であることを保証するために読唇と音声との一致が特定され、それにより認証のセキュリティと信頼性が向上する。本方法において、認識を通じて取得されるユーザのIDと生理学的特徴は、同じ音声及び映像ストリームに基づいて取得される。ある程度までは、攻撃者の偽の音声及び映像ストリームを認識することができる。
【0083】
上記アイデンティティ認証方法を実施するため、本願の実施は、アイデンティティ認証装置を更に提供する。
図6に示すように、この装置は、情報取得モジュール61、識別子特定モジュール62、情報管理モジュール63、特徴認識モジュール64、及び認証処理モジュール65を含むことができる。
【0084】
情報取得モジュール61は、収集された音声及び映像ストリームを取得するよう構成されている。ここで、音声及び映像ストリームは、認証対象である対象オブジェクトによって生成される。
【0085】
識別子特定モジュール62は、音声及び映像ストリーム中の読唇と音声とが一致しているかどうかを特定し、読唇と音声とが一致している場合、音声及び映像ストリームにおける音声ストリームに対して音声認識を実行して取得される音声内容を、対象オブジェクトのオブジェクト識別子として用いるよう構成されている。
【0086】
情報管理モジュール63は、事前に格納されたオブジェクト登録情報がオブジェクト識別子を含む場合、オブジェクト登録情報からオブジェクト識別子に対応するモデル生理学的特徴を取得するよう構成されている。
【0087】
特徴認識モジュール64は、音声及び映像ストリームに対して生理学的認識を実行して、対象オブジェクトの生理学的特徴を取得するよう構成されている。
【0088】
認証処理モジュール65は、対象オブジェクトの生理学的特徴をモデル生理学的特徴と比較して比較結果を取得し、その比較結果が認証条件を満たす場合、対象オブジェクトは認証された、と特定するよう構成されている。
【0089】
図7を参照すると、実施例において、特徴認識モジュール64は、声紋認識サブモジュール641と顔認識サブモジュール642とを含むことができる。
【0090】
声紋認識サブモジュール641は、音声及び映像ストリームに対して声紋認識を実行して、対象オブジェクトの声紋特徴を取得するよう構成されている。
【0091】
顔認識サブモジュール642は、音声及び映像ストリームに対して顔認識を実行して対象オブジェクトの顔特徴を取得するよう構成されている。
【0092】
認証処理モジュール65は、対象オブジェクトの声紋特徴をモデル声紋特徴と比較して声紋比較スコアを取得し、対象オブジェクトの顔特徴をモデル顔特徴と比較して顔比較スコアを取得するように、そして、声紋比較スコアと顔比較スコアとが認証条件を満たす場合、対象オブジェクトは認証されたと特定するように、構成されている。
【0093】
実施例において、声紋比較スコアと顔比較スコアとが:声紋比較スコアが声紋スコア閾値より大きく、且つ顔比較スコアが顔スコア閾値より大きい;及び、声紋比較スコアと顔比較スコアとの積が、対応する積閾値より大きい;及び、声紋比較スコアと顔比較スコアの加重和が、対応する加重閾値より大きい;のうちの少なくとも1つを満たす場合、対象オブジェクトは認証された、と特定される。
【0094】
実施例において、
図7に示すように、識別子特定モジュール62は、音声及び映像ストリームにおける音声ストリーム中の音声の音節と対応する時点を識別し、音声及び映像ストリームにおける映像ストリーム中の読唇の音節と対応する時点を識別するよう構成された音節認識サブモジュール621と;音声の音節及び読唇の音節の両方が対応する時点で一致している場合、読唇と音声が一致している、と特定するよう構成された一致特定サブモジュール622と;を含むことができる。
【0095】
実施例において、情報取得モジュール61は、対象オブジェクトの登録対象である音声及び映像ストリームを取得するよう更に構成されている。
【0096】
識別子特定モジュール62は、登録対象である音声及び映像ストリーム中の読唇と音声とが一致している場合、音声及び映像ストリームにおける音声ストリームに対して音声認識を実行することにより取得される音声内容を、対象オブジェクトのオブジェクト識別子として用いるよう更に構成されている。
【0097】
特徴認識モジュール64は、登録対象である音声及び映像ストリームに対して生理学的認識を実行して、登録対象である音声及び映像ストリームのモデル生理学的特徴を取得するよう更に構成されている。
【0098】
情報管理モジュール63は、これに応じ、対象オブジェクトのオブジェクト識別子と対応するモデル生理学的特徴をオブジェクト登録情報に格納するよう更に構成されている。
【0099】
上記の説明は本願の実施の例に過ぎず、本願を限定することを意図したものではない。本願の主旨と原理の範囲内でなされるいかなる改変、均等物との置き換え、改良なども、本願の保護範囲内に含まれるべきものである。
【符号の説明】
【0100】
61 情報取得モジュール
62 識別子特定モジュール
63 情報管理モジュール
64 特徴認識モジュール
65 認証処理モジュール
621 音節認識サブモジュール
622 一致特定サブモジュール
641 声紋認識サブモジュール
642 顔認識サブモジュール