(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-30
(45)【発行日】2024-10-08
(54)【発明の名称】音声ユーザインタフェースのためのインイヤーライブネス検出
(51)【国際特許分類】
G06F 21/32 20130101AFI20241001BHJP
【FI】
G06F21/32
(21)【出願番号】P 2022556628
(86)(22)【出願日】2021-03-15
(86)【国際出願番号】 JP2021010439
(87)【国際公開番号】W WO2021200082
(87)【国際公開日】2021-10-07
【審査請求日】2023-12-28
(32)【優先日】2020-03-30
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2020-11-02
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】308036402
【氏名又は名称】株式会社JVCケンウッド
(74)【代理人】
【識別番号】100105924
【氏名又は名称】森下 賢樹
(72)【発明者】
【氏名】ジャン ジャスパー ヴァン デン バーグ
【審査官】辻 勇貴
(56)【参考文献】
【文献】米国特許出願公開第2020/0074055(US,A1)
【文献】米国特許出願公開第2019/0012448(US,A1)
【文献】特表2009-509575(JP,A)
【文献】国際公開第2018/051950(WO,A1)
【文献】荒川 隆行,"人によって異なる耳穴の形状を音で識別する耳音響認証技術",NEC技報,日本電気株式会社,第71巻,第2号,pp.84-86
(58)【調査した分野】(Int.Cl.,DB名)
G06F 21/32
(57)【特許請求の範囲】
【請求項1】
本人であることをバイオメトリック認証する方法であって、前記方法は、
耳の耳介に装着された電子デバイスにより、外耳道内にプロービング信号を発すること、
前記電子デバイスにより、前記外耳道により反射された前記プロービング信号を表す音声データを取得すること、
前記電子デバイスにより、人間の話者が所定の個人としての認証のためのフレーズを発声する時間に対応する前記音声データの一部分を特定すること、および、
前記電子デバイスにより、前記音声データの前記一部分の分析に基づいて、前記人間の話者が前記所定の個人である可能性を決定すること、
を備え
、
前記決定することは、
前記音声データの前記一部分に基づいて、前記時間にわたる前記外耳道の形状を表すプロファイルを確立すること、および、
前記プロファイルに基づいて、前記人間の話者が前記所定の個人である前記可能性を示すスコアを生成すること、
を備える方法。
【請求項2】
前記スコアを閾値と比較することをさらに備え、
前記人間の話者が前記所定の個人である前記可能性は、前記比較することの結果にさらに基づいている、請求項
1に記載の方法。
【請求項3】
前記電子デバイスにより、前記プロファイルをバイオメトリックデータベースと比較し、一致するエントリが見つかったか否かを決定することをさらに備え、
前記バイオメトリックデータベースのエントリは、異なる人の前記外耳道のための基準プロファイルを含む、請求項
1に記載の方法。
【請求項4】
前記電子デバイスにより、人間の話者が認証のためにフレーズを発声するように要求されることに応答して生成される第2の音声データを取得すること、
前記電子デバイスにより、前記フレーズが前記人間の話者によって発声された前記第2の音声データの一部分を特定すること、および、
前記電子デバイスにより、前記第2の音声データの前記一部分を第2のバイオメトリックデータベースと比較し、一致するエントリが見つかったかどうかを決定すること、をさらに備え、
第2のバイオメトリックデータのエントリは、異なる人物のための基準音声サンプルを含み、
前記人間の話者が前記所定の個人である可能性は、(i)もしあれば前記バイオメトリックデータベースの一致するエントリ、および(ii)もしあれば前記第2のバイオメトリックデータベースの一致するエントリに基づいている、請求項
3に記載の方法。
【請求項5】
前記音声データおよび前記第2の音声データは、前記電子デバイスにより生成される、請求項
4に記載の方法。
【請求項6】
本人であることをバイオメトリック認証する方法であって、前記方法は、
耳の耳介に装着された電子デバイスにより、外耳道内にプロービング信号を発すること、
前記電子デバイスにより、前記外耳道により反射された前記プロービング信号を表す音声データを取得すること、
前記電子デバイスにより、人間の話者が所定の個人としての認証のためのフレーズを発声する時間に対応する前記音声データの一部分を特定すること、および、
前記電子デバイスにより、前記音声データの前記一部分の分析に基づいて、前記人間の話者が前記所定の個人である可能性を決定すること、
を備え、
前記発することは、前記電子デバイスが、前記人間の話者が認証のためのフレーズを発声するよう要求されたことを決定することに応答して実行される
、方法。
【請求項7】
本人であることをバイオメトリック認証する方法であって、前記方法は、
耳の耳介に装着された電子デバイスにより、外耳道内にプロービング信号を発すること、
前記電子デバイスにより、前記外耳道により反射された前記プロービング信号を表す音声データを取得すること、
前記電子デバイスにより、人間の話者が所定の個人としての認証のためのフレーズを発声する時間に対応する前記音声データの一部分を特定すること、および、
前記電子デバイスにより、前記音声データの前記一部分の分析に基づいて、前記人間の話者が前記所定の個人である可能性を決定すること、
を備え、
前記人間の話者により発声された前記フレーズは、前記プロービング信号として機能する
、方法。
【請求項8】
プロセッサにより実行されたとき、前記プロセッサに、
フレーズが、認証のためのバイオメトリッククレデンシャルとしてある時間にわたり話者により発声されたことを決定すること、
個人により耳の耳介に装着される電子デバイスにより生成されるデータを取得することであって、前記電子デバイスは、一連のプロービング信号を外耳道内に発するように構成され、前記データは、前記外耳道の表面に対する前記一連のプロービング信号の反射により生成された一連のリターン信号を表す、取得すること、
前記データに基づいて、前記時間にわたる前記外耳道の形状を確立すること、
前記外耳道の形状に基づく前記個人が前記話者である可能性を示す第1のスコア、および、前記データから決定される前記時間にわたる前記外耳道の実際の変形と、前記フレーズが与えられた前記時間にわたる前記外耳道の予想される変形との間の対応を示す第2のスコアを生成すること、および、
前記第1および第2のスコアに基づいて、前記話者を前記個人として認証するか否かを決定すること、
を備える動作を実行させる命令が記憶された、非一時的コンピュータ読取可能媒体。
【請求項9】
前記第1のスコアは、前記外耳道の形状が前記個人に関連付けられたバイオメトリックデータベースのエントリと一致するかどうかを決定することによって生成される、請求項
8に記載の非一時的コンピュータ読取可能媒体。
【請求項10】
前記第2のスコアは、前記データを入力として受け取ったときに前記予想される変形を出力するコンピュータ実装モデルを適用することによって生成される、請求項
8に記載の非一時的コンピュータ読取可能媒体。
【請求項11】
フレーズのリストの中から前記フレーズを選択すること、および、
前記フレーズが前記話者により発声されることを要求すること、
をさらに備える請求項
8に記載の非一時的コンピュータ読取可能媒体。
【請求項12】
前記フレーズは、前記リスト内の他のフレーズよりも、よりロバストな認証をもたらす可能性が高い特性を有する、請求項
11に記載の非一時的コンピュータ読取可能媒体。
【請求項13】
前記一連の
プロービング信号は、時間とともに増加または減少する周波数を有する信号を表す、請求項
11に記載の非一時的コンピュータ読取可能媒体。
【請求項14】
前記話者が前記個人として認証されたという決定に応答して、支払プロセッサに、前記話者のバイオメトリック認証が正常に完了したことを通知することをさらに備える、請求項
8に記載の非一時的コンピュータ読取可能媒体。
【請求項15】
前記話者が前記個人として認証されなかったという決定に応答して、前記話者により別のフレーズが発声されることを要求することをさらに備える、請求項
8に記載の非一時的コンピュータ読取可能媒体。
【請求項16】
認証プラットフォームにより、電子デバイスを耳の耳介に装着している間にフレーズを発声するように個人に促す通知を生成させること、
前記認証プラットフォームにより、前記電子デバイスにより外耳道内に発せられた一連のプロービング信号の反射によって生成された一連のリターン信号を表すデータを取得すること、
前記認証プラットフォームにより、前記一連のリターン信号に基づいて、前記フレーズが前記個人によって発声されるときの前記外耳道の変形を示すモデルを生成すること、および、
前記認証プラットフォームにより、前記モデルを、バイオメトリックデータベース内の前記個人に関連付けられたプロファイルに記憶すること、
を備える方法。
【請求項17】
前記モデルは、前記個人が前記フレーズを発声するとき前記外耳道の形状が時間とともにどのように変化するかを示す一連の離散的な位置を表す、請求項
16に記載の方法。
【請求項18】
前記モデルは、前記個人に関連付けられた前記プロファイルに記憶された複数のモデルのうちの1つであり、かつ、各モデルが異なるフレーズに関連付けられる、請求項
16に記載の方法。
【請求項19】
前記認証プラットフォームは、ネットワークを介して前記電子デバイスに通信可能に接続されるサーバシステム上に存在する、請求項
16に記載の方法。
【請求項20】
前記認証プラットフォームは、前記電子デバイス上に存在する、請求項
16に記載の方法。
【請求項21】
前記バイオメトリックデータベースは、ネットワークアクセス可能なサーバシステム上でホストされる、請求項
16に記載の方法。
【請求項22】
プロセッサにより実行されるとき、前記プロセッサに、
電子デバイスを耳の耳介に近接して配置している間にフレーズを発声するように個人に促す第1の通知を生成させること、
前記電子デバイスにより、外耳道内に発せられたプロービング信号の反射により生成されたリターン信号を表すデータを取得すること、および、
前記データから推定される前記フレーズが発声されたときの前記外耳道の変形に基づいて、前記個人を認証するか否かを確立すること、
を備える動作を実行させる命令が記憶された、非一時的コンピュータ読取可能媒体。
【請求項23】
前記第1の通知は、前記電子デバイスにより発せられる可聴の指示であり、かつ
前記プロービング信号は、時間とともに変化する周波数を有する、
請求項
22に記載の非一時的コンピュータ読取可能媒体。
【請求項24】
前記電子デバイスの指紋センサに指を近づけるよう前記個人に促す第2の通知を生成させること、
前記指紋センサによって生成された指紋の画像を取得すること、および、
前記画像をバイオメトリックデータベースと比較させ、一致するエントリが見つかったかどうかを決定すること、
をさらに備える、請求項
22に記載の非一時的コンピュータ読取可能媒体。
【請求項25】
前記確立することは、(i)前記データから推定される前記外耳道の変形と、(ii)前記バイオメトリックデータベースの一致するエントリとに基づく、請求項
24に記載の非一時的コンピュータ読取可能媒体。
【請求項26】
前記電子デバイスのカメラに目を近づけるように前記個人に促す第2の通知を生成させること、
前記カメラにより生成された前記目の画像を取得すること、および、
前記画像をバイオメトリックデータベースと比較させ、一致するエントリが見つかったかどうかを決定すること、
をさらに備える、請求項
22に記載の非一時的コンピュータ読取可能媒体。
【請求項27】
前記確立することは、(i)前記データから推定される前記外耳道の変形と、(ii)前記バイオメトリックデータベースの一致するエントリとに基づく、請求項
26に記載の非一時的コンピュータ読取可能媒体。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本出願は、「In-Ear Liveness Detection for Voice Interfaces」と題し、2020年3月30日に出願された米国仮出願第63/002,051号の優先権を主張し、その全体が参照により本明細書に組み込まれる。
【0002】
(技術分野)
本開示は、コンピュータセキュリティにおけるバイオメトリック認証(生体認証)に関し、より具体的には、1以上の相関する生理学的特性に基づく音声認証のセキュリティの強化に関する技術に関する。
【背景技術】
【0003】
バイオメトリック認証手順は、固有のバイオメトリック特性を通じて個人が本人であることを確かめる。これらのバイオメトリック特性は、なりすましがより難しく、対応する個人がパスワードを記憶するか又はトークンを管理する必要がないので、より便利である。その代わりに、オーセンティケータは個人の一部である。
【0004】
音声認識(「音声認証」とも呼ばれる)は、音声サンプルの分析を含み、話者が本人であることを確かめる。口、気道、および軟組織腔の形状などのさまざまな生理学的特徴は、各個人について固有の音声プロファイルが作成され得るように音声パターンに影響を与える。この音声プロファイルは、「声の指紋」または「声紋」と呼ばれ得る。
【0005】
音声認証には、テキストに依存しないアプローチとテキストに依存するアプローチという2つの主要なアプローチがある。テキストに依存しないアプローチでは、音声認証は、任意のパスフレーズを使用して実行できる。テキストに依存するアプローチでは、音声認証は、登録と検証に同じパスフレーズが使用されることを必要とする。このことは、話者が認証目的の予め定められたフレーズを発声するよう求められるであろうということを意味する。しかし、人工知能ドライブ(AIドリブン)技術の普及に伴い、従来のテキストに依存しないアプローチとテキストに依存するアプローチの両者が、なりすましの対象となる。
【図面の簡単な説明】
【0006】
【
図1】
図1は、未知の話者が、発声されたパスフレーズの記録をアナログ音声データの形で生成する電子デバイスにより、パスフレーズを発声するように促される、従来の認証手順の高レベルの図を含む。
【0007】
【
図2A】
図2Aは、話者が本人であることを認証するために使用されるシステムの高レベルの表現を含む。
【0008】
【0009】
【
図3A】
図3Aは、パスフレーズ認証のために設計されたシステムの高レベル表現を含む。
【0010】
【
図3B】
図3Bは、モニタ音声認証のために設計されたシステムの高レベル表現を含む。
【0011】
【
図3C】
図3Cは、チャレンジ-レスポンス認証のために設計されたシステムの高レベル表現を含む。
【0012】
【
図4】
図4は、マイクロフォンにより生成された音声データと形状センサにより生成された形状データとに基づいて話者が本人であることを認証するように設計された認証プラットフォームを実装できる電子デバイスの一例を示す。
【0013】
【
図5A】
図5A-Bは、フレーズの録音を表す音声データと、話者が話している間の外耳道の形状を表す形状データとに基づいて、話者を認証する手順のフロー図を含む。
【
図5B】
図5A-Bは、フレーズの録音を表す音声データと、話者が話している間の外耳道の形状を表す形状データとに基づいて、話者を認証する手順のフロー図を含む。
【0014】
【
図6A】
図6A-Bは、パスフレーズ認証アプローチに従って実行される認証手順の訓練および使用段階のフロー図を含む。
【
図6B】
図6A-Bは、パスフレーズ認証アプローチに従って実行される認証手順の訓練および使用段階のフロー図を含む。
【0015】
【
図7A】
図7A-Bは、モニタ音声認証アプローチに従って実行される認証手順の訓練および使用段階のフロー図を含む。
【
図7B】
図7A-Bは、モニタ音声認証アプローチに従って実行される認証手順の訓練および使用段階のフロー図を含む。
【0016】
【
図8A】
図8A-Bは、チャレンジ-レスポンス認証アプローチに従って実行される認証手順の訓練および使用段階のフロー図を含む。
【
図8B】
図8A-Bは、チャレンジ-レスポンス認証アプローチに従って実行される認証手順の訓練および使用段階のフロー図を含む。
【0017】
【
図9】
図9は、話者が本人であることをバイオメトリック認証するためのプロセスのフロー図である。
【0018】
【
図10】
図10は、外耳道の変形に基づいて話者が本人であることを認証するかどうかを決定するためのプロセスのフロー図である。
【0019】
【
図11】
図11は、本明細書に記載される少なくともいくつかの動作が実装され得る処理システムの一例を示すブロック図である。
【0020】
本明細書に記載された技術の様々な特徴は、図面と共に詳細な説明を検討することから、当業者にとってより明らかになるであろう。実施形態は、例として、限定されずに図面に示され、その中で、同様の参照は同様の要素を示し得る。図面は例示の目的で様々な実施形態を描いているが、当業者は、技術の原理から逸脱することなく代替の実施形態が採用され得ることを認識するであろう。従って、図面に特定の実施形態が示されているが、本技術は様々な変更が可能である。
【発明を実施するための形態】
【0021】
認証プログラムに登録するために、個人(「ユーザ」とも呼ばれる)は、最初に、認証目的のために将来の音声サンプルが比較される基準テンプレートを作成するために使用される音声サンプルを提供するように促され得る。高レベルでは、基準テンプレートは、音声サンプルから決定される持続時間、強度、ダイナミクス、ピッチなどの声質を表す。
【0022】
図1は、未知の話者が、発せられたパスフレーズの記録をアナログ音声データの形で生成する電子デバイスによりパスフレーズを発声するように促される、従来の認証手順の高レベルの図を含む。電子デバイスの例は、携帯電話、タブレットコンピュータ、およびポイントオブセールス(POS)システムを含む。その後、アナログ音声データは、(例えば、周波数スペクトルにおける)デジタル表現に変換され得る。これは、電子デバイスまたは電子デバイスが通信可能に接続されている別の電子デバイス(例えば、コンピュータサーバ)によって行われ得る。アナログ音声データのデジタル表現を分析することによって、未知の話者を表す特徴および/またはパターンが特定され得る。
【0023】
一般に、これらの特徴および/またはパターンは、未知の話者が本人であることを確立するために、1つ以上の基準テンプレートと比較される。例えば、未知の話者が音声サンプルを提供することによって所定の個人として本人であることを確認しようとする場合、音声サンプルは、所定の個人について以前に作成された基準テンプレートと比較され得る。音声サンプルが基準テンプレートと一致する場合、未知の話者は所定の個人として認証され得る。しかし、音声サンプルが基準テンプレートと一致しない場合、電子デバイスは、未知の話者が本人であることを正常に確認していないと決定し得る。
【0024】
しかし、このような技術は、採用される音声認証のアプローチに関係なく、なりすましの影響を受けやすい。テキストに依存するアプローチに関して、権限のない個人(「スプーファー」とも呼ばれる)が、パスフレーズを発声するなりすまされた個人の録音にアクセスした場合、スプーファーは簡単に録音の再生を開始し得る。テキストに依存しないアプローチは、再生攻撃に対してより安全であると考えられているが、音声サンプルを作成できるAIドリブンのジェネレータプログラムは、セキュリティリスクがある。所定の個人の十分な音声サンプルがあれば、AIドリブンのジェネレータプログラムは、非常にリアルな、新しい、完全に架空の音声サンプルを生成できるかもしれない。
【0025】
したがって、ここで紹介されるのは、入力の「ライブネス」に基づいて話者が本人であることを認証するアプローチである。なりすましを防止するために、認証プラットフォームは、音声サンプルが、本人であることが認証されるべき話者によって発声された単語(複数可)の記録を表す可能性を確立してもよく、次に、その可能性に基づいて、話者を認証するかどうかを決定してもよい。より具体的には、認証プラットフォームは、話者が実際にパスフレーズを発声したかどうかを確立するために使用され得るバイオメトリック特性を示す「ライブネス信号」を生成し得る。理想的には、バイオメトリック特性は、話者に固有であるか、パスフレーズに固有であるか、または推論/推測が困難であるべきである。
【0026】
耳介と外耳道は、人が生まれたときにほぼ完全に形成され、かつ、その人の生涯を通じて実質的に同じ形状を維持するため、外耳(「耳介」または「耳輪」とも呼ばれる)は、認証のための魅力的な選択肢である。外耳道の形状は、例えば、マイクロフォンで検出されるプローブ信号の反射を通して測定され得る固有のバイオメトリックと考えられ得る。このバイオメトリックは、いくつかの異なる方法で使用され得る。
【0027】
第1に、認証プラットフォームは、音声サンプルが話者によって提供されることの証明として、外耳道の変形を観察し得る。例えば、耳介に電子デバイスを装着している話者が、認証のためにパスフレーズを発声するよう促されることを仮定されたい。このようなシナリオでは、電子デバイスは、外耳道内にプローブ信号を発し、次に、外耳道で反射されたプローブ信号を表すデータを生成できる。このデータをパスフレーズの記録を示す音声サンプルと比較することにより、認証プラットフォームは、話者が実際にパスフレーズを発声した可能性を確立できる。より具体的には、認証プラットフォームは、パスフレーズの発声に対応するデータの一部分を調べ、そのデータが、話している間に予想されるように外耳道が変形したことを示すかどうかを決定できる。
【0028】
第2に、認証プラットフォームは、認証のために変形自体を利用してもよい。上述したように、話者がその人の顎を動かすと、外耳道は、検出可能な態様で変形するであろう。外耳道自体が固有のバイオメトリックを表すので、外耳道の変形も固有のバイオメトリックを表すことができる。歴史的には、複数の基準テンプレートが作成され、かつ、各認証に同じパスフレーズが使用されないように、個人は、登録の間にいくつかのパスフレーズを発声するように促されていたかもしれない。ここでも、同様のアプローチを採用できる。しかし、登録の間に提供された音声サンプルを基準テンプレートに変換する代わりに、認証プラットフォームは、異なるパスフレーズが発声されたときの外耳道の変形を示す一般的なモデルを使用し得る。次に、話者が所定の個人としての認証のためにパスフレーズを発声するよう促されるとき、認証プラットフォームは、話者がパスフレーズを発声するときの外耳道の形状が、所定の個人およびパスフレーズに関連付けられているモデルと一致するかどうかを決定できる。
【0029】
例示の目的のために、実施形態は、例えばマイクロフォンによって検出可能なパスフレーズを聞こえるように発声する個人の文脈で説明され得る。しかし、外耳道の変形は、音が実際に個人の口から発せられるかどうかに関係なく生じるであろうことに留意されたい。したがって、本明細書で使用される「発声する」という用語は、聞こえる発声または聞こえない発声を指し得る。パスフレーズを聞こえるように発声するよりも、いくつかの状況(例えば、混雑した店舗)は、パスフレーズを聞こえないように発声するか、または「リップシンク(lip syncing)」することにより適しているかもしれない。
【0030】
必須ではないが、実装は、コンピュータサーバ、POSシステム、タブレットコンピュータ、または携帯電話などの汎用電子デバイスにより実行されるルーチンなどの、コンピュータ実行可能命令の文脈で以下に説明される。実際、「電子デバイス」という用語は、一般に「コンピューティングデバイス」という用語と互換的に使用され、したがって、コンピュータサーバ、POSシステム、タブレットコンピュータ、携帯電話、および、イヤフォンと補聴器などの様々な他の電子デバイスに関係し得る。
【0031】
特定のモジュールなどの本技術の態様は、単一の電子デバイス上で排他的に又は主に実行されるものとして説明され得るが、いくつかの実装は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、またはインターネットなどのネットワークを介してリンクされる複数の電子デバイス間でモジュールが共有される分散環境における実施である。例えば、携帯電話上で実行されるモバイルアプリケーションによって話者がパスフレーズを発声するよう促され得るが、パスフレーズの記録は、携帯電話と通信可能に接続されているコンピュータサーバ上に存在する認証プラットフォームによって分析され得る。分散コンピューティング環境では、モジュールは、ローカルおよびリモートの両方のメモリストレージ装置に配置され得る。
[用語]
【0032】
本明細書における「一実施形態」または「1つの実施形態」への言及は、説明される特定の特徴、機能、構造、または特性が、少なくとも1つの実施形態に含まれることを意味する。このようなフレーズの出現は、必ずしも同じ実施形態を指すものではなく、また、必ずしも互いに排他的である代替の実施形態を指すものでもない。
【0033】
文脈が明らかに異なって要求しない限り、単語「備える」および「備えている」は、排他的または網羅的な意味ではなく、包括的な意味で解釈されるものとする(すなわち、「含むが限定されない」の意味)。用語「基づく」もまた、排他的または網羅的な意味ではなく、包括的な意味で解釈されるものとする。したがって、特に断らない限り、用語「基づく」は、「少なくとも部分的に基づく」を意味するよう意図されている。
【0034】
用語「接続された」、「結合された」、またはその任意の変形は、直接的または間接的に、2つ以上の要素間の任意の接続または結合を含むことが意図されている。接続/結合は、物理的、論理的、またはそれらの組み合わせであることができる。例えば、オブジェクトは、物理的な接続を共有していないにもかかわらず、互いに電気的または通信可能に結合され得る。
【0035】
「モジュール」という用語は、ソフトウェアコンポーネント、ファームウェアコンポーネント、および/またはハードウェアコンポーネントを広く指す。モジュールは、通常、指定された入力(複数可)に基づいて出力(複数可)を生成する機能コンポーネントである。コンピュータプログラムは、1つ以上のモジュールを含み得る。したがって、コンピュータプログラムは、異なるタスクの完了を担当する複数のモジュール、またはすべてのタスクの完了を担当する単一のモジュールを含み得る。
【0036】
複数の項目のリストに関して使用される場合、用語「または」は、リスト内の項目のいずれか、リスト内の項目のすべて、およびリスト内の項目の任意の組み合わせという解釈のすべてをカバーすることが意図される。
【0037】
ここに記載されたプロセスのいずれかにおいて実行されるステップの順序は、例示的なものである。しかし、物理的な実現性に反しない限り、ステップは、様々な順序と組み合わせで実行され得る。例えば、ステップは、ここで説明したプロセスに追加されるか、または、そこから削除され得る。同様に、ステップは、置き換えられるか、または、順序を変更され得る。このように、任意のプロセスの記載は、オープンエンドであることが意図されている。
[認証のためのライブネス検出の概要]
【0038】
ここに紹介するのは、音声サンプルが実際に話者によって提供されたというバイオメトリック証明として、外耳道の変形を使用する認証プラットフォームである。以下でさらに論じるように、証明は、外耳道内に発せられるプロービング信号を使用して収集されることができ、それは、(i)話者に固有であり、かつ(ii)話すことによって生じる動的な変形に固有である。プロービング信号の反射は、耳に近接して配置される外耳道形状センサ(または単に「形状センサ」)によって検出され得る。
【0039】
認証プラットフォームは、音声インタフェースを介して認証される支払いなどのバイオメトリック・ドリブン取引を保護するために使用され得る。したがって、認証プラットフォームは、(i)音声データの特徴、および/または(ii)認証される音声サンプルに一意に結び付けられる外耳道の形状の測定された特徴変化に関連するセキュリティスコアに基づいて、音声サンプルを認証するように構成され得る。
【0040】
認証に対するいくつかの異なるアプローチが、以下でより詳細に説明される。これらのアプローチは、以下のものを含む。
・パスフレーズ認証:認証は、話者が固定パスフレーズを発声する際の外耳道の変形の測定された特徴に基づく。
・モニタ音声認証:認証は、話者が音声ドリブンインタフェースまたは周囲と普通に相互作用する(例:ビジネスで店員と会話する)際の外耳道の変形の測定された特徴に基づく。
・チャレンジ-レスポンス認証:認証は、外耳道の変形の測定された特徴に基づき、ここで、認証されるフレーズは、アルゴリズム的に選択され、かつ、認証手順が実行されるたびに異なり得る。
【0041】
いくつかの実施形態では、認証プラットフォームは、話者が本人であることを認証するために独立して動作するが、他の実施形態では、認証プラットフォームは、他のシステムと連動して動作する。例えば、支払いシステムは、支払い手順が安全な方法で完了されることを保証するために、認証プラットフォームとインタフェースで接続し得る。一例として、認証プラットフォームは、購入する製品を選択するため又は取引を確認するために話者の音声が使用される、音声による支払い(pay-by-voice)の支払手続きの促進に関与し得る。別の例として、認証プラットフォームは、外耳道の変形がセキュリティプロトコルの一部として使用され得る「非音声」支払手順(例えば、モバイルアプリケーション、ウェブブラウザ等を介して完了する取引)に関与し得る。したがって、ここに記載されたアプローチは、音声ドリブンアプリケーションおよび音声により駆動されないアプリケーションの文脈で使用され得る。
[認証プラットフォームの概要]
【0042】
図2Aは、話者が本人であることを認証するために使用され得るシステム200の高レベルの表現を含む。
図2Aに示すように、システム200は、ユーザインタフェース202、マイクロフォン204、外耳道形状センサ(または単に「形状センサ」)206、プロセッサ208、認証アルゴリズム210、およびメモリ(図示せず)に記憶されたバイオメトリックデータベース212を含むことができる。以下でさらに議論するように、システム200のこれらの要素は、単一の電子デバイスに組み込まれ、または複数の電子デバイスの間に分散させられ得る。
【0043】
ユーザインタフェース202は、それを介して話者がシステム200と相互作用できるインタフェースを表す。ユーザインタフェース202は、電子デバイスのディスプレイ上に表示される音声ドリブン・グラフィカルユーザインタフェース(GUI)であり得る。あるいは、ユーザインタフェース202は、電子デバイスのディスプレイ上に示される非音声ドリブンGUIであり得る。そのような実施形態では、ユーザインタフェース202は、認証のために発話されるべきフレーズを視覚的に示し得る。
【0044】
一方、マイクロフォン204は、話者の音声に対応する音波を表す音声データを生成するように構成される。例えば、ユーザインタフェース202は、話者が認証のためにフレーズを発声するべきであることを示すと仮定されたい。このようなシナリオでは、マイクロフォン204は、発声されたフレーズの音声サンプルを記録できる。マイクロフォン204は、音質を改善し、ノイズを除去し、または音声認識などのより高度な機能を実行するために、必要なアナログまたはデジタル信号処理要素(例えば、電子回路、処理アルゴリズムなど)も含み得る。
【0045】
上述したように、マイクロフォン204は、電子デバイスに組み込まれる。いくつかの実施形態では、電子デバイスは、話者と関連付けられている。例えば、マイクロフォン204は、イヤフォン、ヘッドフォン(例えば、ヘッドフォン自体またはヘッドフォンに接続されたケーブル)、携帯電話、タブレットコンピュータ、ウェアラブルデバイスなどに組み込まれてもよい。他の実施形態では、電子デバイスは、話者と関連付けられていない。例えば、マイクロフォン204は、それを介して話者が取引を完了しようとしているPOSシステムに組み込まれ得る。
【0046】
形状センサ206は、外耳道の形状を検出できる任意のセンシング装置であってよい。理想的には、センシング装置は、多数の異なる個人を区別でき、かつ、話すときの(例えば、顎の)動きにより引き起こされる単一の個人の外耳道の異なる変形を区別できるのに十分に高い空間分解能で形状寸法を検出できるべきである。一実施形態では、形状センサ206は、(i)信号生成器(「音生成器」または「音源」とも呼ばれる)および(ii)信号センサを含むアクティブセンシング装置である。信号生成器は、外耳道内にプロービング信号を送信できる素子を表す。信号生成器の一例は、振動発生器(例えばエキサイタ)である。通常、プロービング信号は音声信号を表すが、それは話者に聞こえなくてもよい。例えば、信号生成器は、時間とともに増加または減少する周波数を有する、聞き取れないチャープ信号を生成するように構成されてもよい。あるいは、信号生成器は、ホワイトノイズまたはピンクノイズを表すオーディオ信号を生成するように構成されてもよく、この場合、インパルス応答が外耳道の形状を測定するために使用されてもよい。別の例として、信号生成器は、外耳道内に発せられる、ある時間にわたる超音波信号を生成するように構成されてもよい。時間は、例えば、超音波信号の特性、個人、または認証の所望のレベルに基づいてもよい。形状センサ206の信号生成器が音を発することができる実施形態では、信号生成器は、ユーザインタフェース202としても機能し得ることに留意されたい。一方、信号センサ(「音センサ」とも呼ばれる)は、外耳道内の構造物によって反射されるプロービング信号の反射を収集できる要素を表す。いくつかの実施形態では、形状センサ206は、ノイズ除去、スペクトルフィルタリングなどの機能を実行するためのアナログまたはデジタル信号処理要素をさらに含む。
【0047】
バイオメトリックデータベース212は、話者を一意に識別するために使用され得る音声の特徴を表す収集された情報を表すバイオメトリックデータを記憶し得る。
図3A-Cを参照して以下でさらに議論するように、バイオメトリックデータベース212内のバイオメトリックデータは、システム200によって採用される認証へのアプローチに応じて異なってもよい。例えば、バイオメトリックデータベース212は、異なるフレーズが同じ個人または異なる個人によって発声されたときの外耳道の変形を示すモデルを含んでもよい。各モデルは、対応するフレーズが発声されたときに、対応する個人の外耳道の形状が時間とともにどのように変化したかを示す一連の離散的な位置を表してもよい。これらのモデルは、異なる個人に関連付けられたプロファイルに記憶され得る。プロファイルは、単一のフレーズに関連付けられた単一のモデル、単一のフレーズに関連付けられた複数のモデル、または異なるフレーズに関連付けられた複数のモデルを含み得る。
【0048】
プロセッサ208によって実行されると、認証アルゴリズム210は、認証手順の間に個人から記録された様々なデータを入力として取得でき、このデータをバイオメトリックデータベース212内の対応するデータと比較でき、次に、この比較に基づいてセキュリティスコアを出力できる。セキュリティスコアは、認証アルゴリズム210によって実行される認証手順の結果を示す数値、単語、またはフレーズを表し得る。したがって、セキュリティスコアは、システム200が入力データをバイオメトリックデータベース212に記憶されたバイオメトリックデータにリンクさせることができる確実性を表し得る。
図3A-Cを参照してさらに論じるように、認証アルゴリズム210は、認証へのアプローチに応じて異なる原理に基づいて動作してもよい。
【0049】
いくつかの実施形態では、システム200の要素は、単一の電子デバイスに組み込まれる。例えば、システム200の全ての要素は、耳介に装着され得るか又は耳介に近接して保持され得る電子デバイスに組み込まれてもよい。そのようなデバイス(「インイヤーデバイス」と呼ばれる)は、本明細書に記載されるアプローチを実施するために、必要なセンサ、処理能力、およびメモリストアを有してもよい。インイヤーデバイスの例は、イヤホンおよび補聴器を含む。
【0050】
他の実施形態では、システム200の要素は、複数の電子デバイスに分散される。例えば、システム200のいくつかの要素は、話者が耳介に装着できる第1の電子デバイスに組み込まれてもよく、システム200の他の要素は、第2の電子デバイスに組み込まれてもよい。第2の電子デバイスは、例えば、携帯電話、タブレットコンピュータ、POSシステム、またはコンピュータサーバであってもよい。第2の電子デバイスは、話者にフレーズを発声するよう促し、次に、発声されたフレーズを表す音声データを記録する役割を担ってもよい。加えてまたは代替的に、第2の電子デバイスは、発声されたフレーズを表す音声データ、および/または、そこから外耳道の変形が決定され得る形状データを表すものを分析する役割を担っていてもよい。
【0051】
図2Bは、
図2Aのシステムの概略的な実装を示す。最初に、電子デバイスは、未知の話者252に、ユーザインタフェースを介して認証のためのフレーズを発声するように指示できる。電子デバイスは、未知の話者252により耳介に装着される電子デバイス254であってもよいし、または、電子デバイスは、未知の話者252に近接して配置された別の電子デバイス256であってもよい。電子デバイス256は、例えば、未知の話者252に関連する携帯電話、または未知の話者252が取引を完了しようとしている商人に関連するPOSシステムであってもよい。
【0052】
未知の話者252がフレーズを発声すると、音声データおよび形状データの2種類のデータが生成され得る。上述したように、形状データは、フレーズが発声されるときの外耳道の変形を示してもよく、一方、音声データは、発声されたフレーズの記録を表してもよい。
図2Bに示すように、形状データは、未知の話者252によって耳介に装着される電子デバイス254によって生成され得る。一方、音声データは、耳介に装着された電子デバイス254、または未知の話者252に近接して配置された電子デバイス256によって生成され得る。したがって、音声および形状データは、同じ電子デバイスまたは異なる電子デバイスにより生成され得る。
【0053】
その後、認証プラットフォーム258は、音声データおよび/または形状データを調べ、未知の話者252を所定の個人として認証するかどうかを決定できる。特に、認証プラットフォーム258は、(i)形状データから決定される外耳道の形状が所定の個人に対して作成されたプロファイルと一致するかどうか、または(ii)形状データから決定される外耳道の形状が音声データから決定されるフレーズの発声と一致するかどうかに基づいてセキュリティスコアを生成するよう設計されている認証アルゴリズム258を実装できる。以下でさらに説明するように、認証プラットフォーム258は、耳介に位置する電子デバイス254、または未知の話者252に近接して位置する電子デバイス256に実装されてもよい。あるいは、認証プラットフォーム258は、他の何らかの電子デバイス(例えば、電子デバイス254および/または電子デバイス256に通信可能に接続されているコンピュータサーバ)上に全体的に実装され得る。
【0054】
未知の話者252が、その人が主張する所定の個人として認証されるべきかどうかを決定した後、認証プラットフォーム258は、認証状態を示す通知を生成し得る。ここでは、通知は、認証が正常に完了したことを視覚的に示すために、電子デバイス256上に提示される。しかしながら、通知は、電子デバイス254によって提示されてもよく、その場合、通知は、認証が正常に完了したことを聴覚的に示し得る。いくつかの実施形態では、未知の話者252は、認証が正常に完了したことを明示的に通知されなくてもよい。例えば、未知の話者252が、認証が要求される電子デバイス256上で商人との取引を完了しようとしている場合、認証プラットフォーム258は、商人に代わって取引を促進することを担当する支払プロセッサに通知を送信し得る。
【0055】
電子デバイス254は「耳介内に」位置すると言われ得るが、電子デバイス254の一部のみが実際に耳介内に位置してもよい。例えば、電子デバイス254の一部が耳介内に位置し、電子デバイス254の残りが耳介の外側に位置してもよい。あるいは、一部のイヤホンと補聴器のように、電子デバイス254の全体が耳介内に配置されてもよい。他の実施形態では、電子デバイス254は、耳介内ではなく、耳介に近接して配置される。例えば、未知の話者252は、認証が行われる際に耳介に隣接して電子デバイスを保持することを選択し得る。
【0056】
図3A-Cは、認証に対する特定のアプローチのために設計された、
図2Aに示されたシステム200の変形例の高レベル表現を含む。これらの変形例の各々は、以下でより詳細に説明される。
【0057】
図3Aは、パスフレーズ認証のために設計されたシステム300Aの高レベル表現を含む。
図3Aに示すように、システム300Aは、
図2Aのシステム200と同様に、ユーザインタフェース302、マイクロフォン304、形状センサ306、およびプロセッサ308を含むことができる。しかしながら、ここでは、認証はパスフレーズに基づいて実行される。本明細書で使用される「パスフレーズ」という用語は、音声ベースの認証の基礎として使用されるフレーズを意味する。パスフレーズは単一の単語を含んでもよく、または、パスフレーズは複数の単語を含んでもよい。システム300Aがパスフレーズ認証用に設計される場合、バイオメトリックデータベース312Aは、いくつかの形態のバイオメトリックデータ、すなわち、パスフレーズ(複数可)を発声する個人の記録に関する情報を表すパスフレーズ音声データ、および、個人がそれらのパスフレーズ(複数可)を発声する際の形状センサ306の動的読み取り値に関する情報を表すパスフレーズ外耳道形状データ(または単に「パスフレーズ形状データ」)を含み得る。
【0058】
システム300Aがパスフレーズ認証用に設計される場合、認証アルゴリズム310Aは、それぞれの話されたパスフレーズについてセキュリティスコアを生成するように構成されてもよい。例えば、個人がパスフレーズを発声するように指示され、次に、システム300Aが、マイクロフォン304によって生成された音声データおよび形状センサ306によって生成された形状データを取得すると仮定されたい。このようなシナリオでは、認証アルゴリズム310Aは、音声データをバイオメトリックデータベース312Aに記憶されたパスフレーズ音声データと比較し、形状データをバイオメトリックデータベース312Aに記憶されたパスフレーズ形状データと比較し、そして次に、これらの比較に基づいてセキュリティスコアを計算してもよい。例えば、認証アルゴリズム310Aは、音声データとパスフレーズ音声データとの間の類似度に基づいてセキュリティスコアを生成し、形状データとパスフレーズ形状データとの間の類似度に基づいて調整が必要であるか否かを判定してもよい。一例として、認証アルゴリズム310Aは、形状データとパスフレーズ形状データとの類似度に基づいて決定される係数(例えば、1.0、0.8、0.6)でセキュリティスコアを倍増させてもよい。一般に、このことは、認証アルゴリズム310Aが、形状データがパスフレーズ形状データと実質的に一致する(したがって、個人が実際にパスフレーズを発声した)と決定した場合にのみ、セキュリティスコアが高いままであることを保証する。
【0059】
パスフレーズ認証は、認証に対する他のアプローチと比較して、いくつかの利点を提供する。第1に、認証が要求されるたびに同じフレーズ(またはフレーズの同じセット)が使用されるため、認証プロセスはロバストである。第2に、パスフレーズが何らかの理由で危険にさらされた場合、パスフレーズとバイオメトリックオーセンティケータとなる外耳道の形状との一般的な関係をスプーファーが推測することは困難であろう。そして第3に、異なる認証手段に対して異なるパスフレーズを採用することが可能であり、その結果、異なるアプリケーションに対して、それらのアプリケーション間でバイオメトリックオーセンティケータを漏洩させることなく、独立して認証プロセスが使用され得る。
【0060】
図3Bは、モニタ音声認証のために設計されたシステム300Bの高レベル表現を含む。
図3Bに示すように、システム300Bは、
図2Aのシステム200と同様に、ユーザインタフェース302、マイクロフォン304、形状センサ306、およびプロセッサ308を含むことができる。しかしながら、ここでは、認証は、個人によって話された任意の所定のフレーズと、個人の外耳道の関連する動的形状との間の一般的な関係に基づいて実行される。これは、個人がユーザインタフェース302と相互作用する際の連続的なモニタによる認証の基礎となり得る。このような実施形態では、バイオメトリックデータベース312Bは、上述の関係を表す音声-形状伝達関数を含んでもよい。音声-形状伝達関数は、システム300Bにより、個人によって発声された音声の任意の所定の音声記録について、経時的な外耳道の形状を予測するために使用されてもよい。あるいは、音声-形状伝達関数の逆が使用され得る。別の言い方をすれば、外耳道の所定の形状について、システム300Bは、個人によって発声された音声の対応する音声記録を予測し得る。
【0061】
システム300Bがモニタ音声認証のために設計されている場合、認証アルゴリズム310Bは、個人がユーザインタフェース302または他の何らかのデバイス、システム、または人と相互作用する際に記録された音声および形状データに基づいてセキュリティスコアを生成するように構成され得る。例えば、個人が、商人によって管理されるPOSシステムを通じて取引を完了しようとしていることを仮定されたい。このようなシナリオでは、POSシステムは、(例えば、商人の従業員と会話している間に、POSシステムに示されたコンテンツにコメントする間に)個人によって発声された音声を記録し得る。別の例として、個人により装着されるイヤホンが、発話された音声を記録する役割を果たし得る。パスフレーズ認証と比較して、モニタ音声認証は、認証目的のために個人により発声された音声を記録する、より自然な選択肢を表す。
【0062】
所定のパスフレーズがモニタ音声認証に使用されないので、音声-形状伝達関数は、話者がその人が主張する人物である可能性を確立するために使用され得る。したがって、システム300Bは、プロセッサ308によって実行されるとき、訓練例のセットに基づいて伝達関数を計算する伝達関数計算アルゴリズム314Aを含んでもよい。各訓練例は、所定の個人の外耳道の形状が、その人が特定の単語(複数可)を発声するときにどのように変化するかを一緒に示す、対応する音声および形状データのセットを表してもよい。したがって、伝達関数計算アルゴリズム314Aによって計算された伝達関数は、音声が所定の個人の外耳道の形状にどのように関連するかを示し得る。その後、システム300Bによって話者の音声および形状データが得られると、音声および形状データは、セキュリティスコアを生成するために、話者が主張する個人について作成された伝達関数と比較され得る。
【0063】
モニタ音声認証は、認証に対する他のアプローチと比較していくつかの利点を提供する。第1に、認証が要求されるたびに異なるフレーズが使用されるので、認証プロセスは、バイオメトリックオーセンティケータが盗まれ、その後、認証システムを欺こうとするスプーファーによって提示される、繰り返し攻撃(「リプレイ攻撃」とも呼ばれる)に対してロバストである。第2に、この方式は、モニタ期間を調整できるため、セキュリティを向上させる。いくつかのシナリオは、長いモニタ期間(例えば、数分間)が必要かもしれず、他のシナリオは、短いモニタ期間(例えば、数秒間)が必要かもしれない。そして第3に、モニタは、個人が認証手順を特に開始することを必要とせずに、個人がその人の電子デバイスおよび/または周囲と普通に相互作用するように実行され得るので、非介入的(non-intrusive)である傾向がある。
【0064】
図3Cは、チャレンジ-レスポンス認証のために設計されたシステム300Cの高レベル表現を含む。
図3Cに示すように、システム300Cは、
図2Aのシステム200と同様に、ユーザインタフェース302、マイクロフォン304、形状センサ306、およびプロセッサ308を含むことができる。しかしながら、ここでは、認証は、チャレンジとレスポンスとの間の一般的な関係に基づいて実行される。本明細書で使用される「チャレンジ」という用語は、ユーザインタフェース302を介して個人に提示される入力を指し、本明細書で使用される「レスポンス」という用語は、入力に応答して/反応して話されるフレーズを指す。そのような実施形態では、バイオメトリックデータベース312Cは、任意のチャレンジと、個人がレスポンスフレーズを発声するときの外耳道の動的形状の読み取り値との間の一般的な関係を表すチャレンジ-形状伝達関数を含んでもよい。さらに、バイオメトリックデータベース312Cは、任意のチャレンジと、個人によって発声されたレスポンスフレーズの音声記録との間の一般的な関係を表すチャレンジ-音声伝達関数を含んでもよい。
【0065】
システム300Cがチャレンジ-レスポンス認証用に設計される場合、認証アルゴリズム310Cは、個人が所定のチャレンジに対してレスポンスフレーズを発声する際に記録された音声および形状データに基づいてセキュリティスコアを生成するように構成されてもよい。モニタ音声認証と同様に、伝達関数は、話者がその人が主張する人物である可能性を確立するためにチャレンジ-レスポンス認証において使用されてもよい。したがって、システム300Cは、プロセッサ308によって実行されるとき、訓練例のセットに基づいて複数の伝達関数を計算する伝達関数計算アルゴリズム314Bを含んでもよい。各訓練例は、所定の個人の外耳道の形状が、その人がレスポンスフレーズを発声するときにどのように変化するかを一緒に示す、対応する音声および形状データのセットを表してもよい。したがって、伝達関数計算アルゴリズム314Bによって計算される伝達関数は、(i)外耳道の形状が所定の個人のチャレンジにどのように関連するかを示すチャレンジ-形状伝達関数と、(ii)音声が所定の個人のチャレンジにどのように関連するかを示すチャレンジ-音声伝達関数とを含んでもよい。その後、システム300Cによって話者の形状および音声データが得られると、その形状および音声データは、セキュリティスコアを生成するために、話者が主張する個人について作成されたチャレンジ-形状伝達関数およびチャレンジ-音声伝達関数とそれぞれ比較され得る。
【0066】
いくつかの実施形態において、システム300Cは、認証される個人にその後提示されるチャレンジを生成できるチャレンジ生成アルゴリズム316をさらに含む。チャレンジ生成アルゴリズム316は、セキュリティを高めるために、(例えば、所定の個人に対して、所定の電子デバイスにより、など)認証プロセスが実行されるたびにチャレンジが異なるようにプログラムされてもよい。例えば、個人は、その人が認証されるたびに異なるチャレンジを提示されてもよい。コンピューティングデバイス(例えば、商人に関連するPOSシステム)は、異なる個人に同じチャレンジを提示でき、または、コンピューティングデバイスは、認証目的のために音声データが記録されるたびに異なるチャレンジを提示できる。さらに、チャレンジの特徴は、要求されるセキュリティのレベルに基づいてチャレンジ生成アルゴリズム316によって適合され得る。例えば、チャレンジ生成アルゴリズム316は、認証が機密の状況(例えば、個人または金融情報のアクセス)で求められる場合、レスポンスフレーズが増加した長さ又は複雑さを有することを要求し得る。
【0067】
チャレンジ-レスポンス認証は、認証に対する他のアプローチと比較していくつかの利点を提供する。第1に、認証に使用されるレスポンスフレーズが、認証が要求されるたびに異なり得るため、認証プロセスは繰り返し攻撃に対してロバストである。第2に、このアプローチは、レスポンスフレーズの長さと複雑さなどのパラメータを適合させることができるため、セキュリティを高めることができる。
【0068】
図4は、マイクロフォン408によって生成された音声データと形状センサ410によって生成された形状データとに基づいて話者が本人であることを認証するように設計された認証プラットフォームを実装できる電子デバイス400の一例を示す。上述したように、形状センサ410は、プロービング信号を外耳道内に発し、その後、外耳道内の構造物によるプロービング信号の反射に基づいて、形状データを生成できる。いくつかの実施形態では、プロービング信号は音響信号(例えば、チャープ信号)であるので、それらの実施形態において形状データも音声データであってもよい。
【0069】
いくつかの実施形態において、認証プラットフォーム414は、電子デバイス400によって実行されるコンピュータプログラムとして具現化される。例えば、認証プラットフォーム414は、音声および形状データを取得でき、その後、音声および形状データに基づいて話者を認証するかどうか決定されるヘッドホンまたは補聴器に存在してもよい。他の実施形態では、認証プラットフォーム414は、電子デバイス400が通信可能に接続されている別の電子デバイスにより実行されるコンピュータプログラムとして具現化される。このような実施形態では、電子デバイス400は、処理のために音声および形状データを他の電子デバイスに送信してもよい。当業者は、認証プラットフォームの態様が複数の電子デバイスの間で分散されることも可能であることを認識するであろう。
【0070】
電子デバイス400は、プロセッサ402、メモリ404、ユーザインタフェース(UI)出力装置406、マイクロフォン408、形状センサ410、および通信モジュール412を含むことができる。通信モジュール412は、例えば、他の電子デバイスと通信チャネルを確立するように設計された無線通信回路であってもよい。無線通信回路の例は、Bluetooth(登録商標)、Wi-Fi、NFCなどのために構成された集積回路(「チップ」とも呼ばれる)を含む。プロセッサ402は、汎用プロセッサと同様の汎用特性を有することができ、または、プロセッサ402は、電子デバイス400に制御機能を提供する特定用途向け集積回路(ASIC)であってもよい。
図4に示すように、プロセッサ402は、通信目的で、直接または間接的に、電子デバイス400のすべての構成要素に結合され得る。
【0071】
メモリ404は、スタティックランダムアクセスメモリ(SRAM)、ダイナミックランダムアクセスメモリ(DRAM)、電気的に消去可能なプログラマブルリードオンリーメモリ(EEPROM)、フラッシュメモリ、またはレジスタなどの任意の適切なタイプの記憶媒体で構成され得る。プロセッサ402によって実行可能な命令を記憶することに加えて、メモリ404は、マイクロフォン408によって生成された音声データ、形状センサ410によって生成された形状データ、および(例えば、認証プラットフォーム414のモジュールを実行するとき)プロセッサ402によって生成されたデータも記憶できる。なお、メモリ404は、記憶環境の抽象的な表現に過ぎない。メモリ404は、実際のメモリチップまたはモジュールで構成され得る。
【0072】
上述したように、マイクロフォン408は、話者の音声に対応する音波を表す音声データを生成するように構成され得る。いくつかの実施形態では、マイクロフォン408は、「常にオン」である。したがって、マイクロフォン408は、認証手順が実行されているかどうかに関係なく、音声データを継続的に記録し得る。他の実施形態では、マイクロフォン408は、認証手順が実行されるという決定に応答してプロセッサ402により起動される。例えば、プロセッサ402は、認証プラットフォーム414が、UI出力装置406を介してコンテンツの提示を引き起こすようにユーザインタフェース(UI)モジュール420に指示したことを決定すると、マイクロフォン408を起動し得る。
【0073】
形状センサ410は、外耳道の形状を検出できる任意のセンシング装置であってよい。上述したように、形状センサは、プロービング信号を外耳道内に送信し、その後、外耳道内の構造によって反射されるプロービング信号の反射を収集するように構成されてもよい。これらの反射は、そこから外耳道の形状が決定され得る形状データを表してもよい。
【0074】
通信モジュール412は、電子デバイス400の構成要素間の通信を管理できる。通信モジュール412は、他の電子デバイスとの通信も管理できる。電子デバイスの例は、イヤホン、ヘッドホン、補聴器、携帯電話、タブレットコンピュータ、パーソナルコンピュータ、およびコンピュータサーバ(複数可)で構成されるネットワークアクセス可能なサーバシステムを含む。例えば、電子デバイス400がイヤホンである実施形態では、通信モジュール412は、マイクロフォン408と形状センサ410によってそれぞれ生成された音声および形状データを調べる役割を担うネットワークアクセス可能なサーバシステムに通信可能に接続されてもよい。
【0075】
便宜上、認証プラットフォーム414は、メモリ404に存在するコンピュータプログラムと称され得る。しかしながら、認証プラットフォーム414は、電子デバイス400に実装された、または、電子デバイス400にアクセス可能なソフトウェア、ファームウェア、および/またはハードウェアコンポーネントで構成され得る。本明細書に記載される実施形態に従って、認証プラットフォーム414は、処理モジュール416、認証モジュール418、およびUIモジュール420を含み得る。これらのモジュールは、認証プラットフォーム414の不可欠な部分であり得る。あるいは、これらのモジュールは、認証プラットフォーム414とは論理的に別個であり得るが、それに「並行して」動作できる。一緒に、これらのモジュールは、認証プラットフォーム414が、マイクロフォン408および形状センサ410によってそれぞれ生成された音声および形状データの分析に基づいて話者が本人であることを認証することを可能にし得る。
【0076】
処理モジュール416は、認証プラットフォーム414によって得られたデータに対して演算を適用する役割を担ってもよい。例えば、上述したように、マイクロフォン408は、話者が認証の目的のために単語(複数可)を発声するように促されると、経時的に音声データを生成してもよい。処理モジュール416は、認証プラットフォーム414の他のモジュールによって使用可能であるように、この音声データを処理(例えば、ノイズ除去、フィルタ、または他の方法で変更)してもよい。同様に、処理モジュール416は、認証プラットフォーム414の他のモジュールによって使用可能であるように、形状センサ410によって生成された形状データを処理する役割を担ってもよい。一例として、処理モジュール416は、外れ値を除去するために形状データを検査し、および/または、経時的な外耳道の変形を表すモデルを形成してもよい。
【0077】
認証モジュール418は、様々な認証アプローチを実装するために必要に応じて本明細書に記載されたアルゴリズムを実装する役割を担ってもよい。例えば、認証モジュール418は、
図3A-Cの認証アルゴリズム310A-C、伝達関数計算アルゴリズム314A-B、またはチャレンジ生成アルゴリズム316を実行するように構成されてもよい。したがって、各認証手順について、認証モジュール418は、マイクロフォン408および形状センサ410からそれぞれ得られる音声および形状データに基づいて、認証が適切であるかどうかを決定するために使用され得るセキュリティスコアを生成してもよい。
【0078】
他のモジュールも、認証プラットフォーム414の一部として含まれ得る。例えば、UIモジュール420は、話者への提示のためにUI出力装置406により出力されるコンテンツを生成する役割を担ってもよい。コンテンツの形態は、UI出力装置406の性質に依存し得る。例えば、UI出力装置406がスピーカである場合、コンテンツは、認証目的のためにフレーズを発声するための可聴の指示を含んでもよい。別の例として、UI出力装置406がディスプレイである場合、コンテンツは、認証目的のためにフレーズを発話するための視覚的な指示を含んでもよい。
[認証のための方法]
【0079】
図5A-Bは、フレーズの録音を表す音声データと、話者が話している間の外耳道の形状を表す形状データとに基づいて、話者を認証する手順のフロー図を含む。
図6A-B,7A-B,および8A-Bは、それぞれ、パスフレーズ認証、モニタ音声認証、チャレンジ-レスポンス認証の状況におけるこれらの処理のフロー図を含む。特に指定しない限り、これらの処理のステップは、他の処理のステップと組み合わされ得ることに留意されたい。
【0080】
図5A-Bに示すように、認証手順は、訓練段階500と使用段階550の2つの段階を有する。
【0081】
訓練段階500において、ユーザインタフェースは、最初に、テスト録音を実行するように個人を促し得る(ステップ501)。例えば、認証プログラムへの参加に関心を示すと、個人は、登録手順を完了するように要求され得る。登録手順の一部として、個人は、1つ以上の単語で構成されるフレーズを発声するよう要求され得る。フレーズは、認証プログラムの要求に応じてパスワードまたは他の単語であり得る。個人がフレーズを発声すると、マイクロフォンは音声データを記録でき(ステップ502)、形状センサは形状データを記録できる(ステップ503)。音声データは、個人によって発話されたフレーズの一部または全部の記録を表してもよく、形状データは、フレーズが個人によって発話されたときの外耳道の形状(したがって変形)に関する情報を表してもよい。音声および形状データは、まとめて、個人の「バイオメトリックデータ」と呼ばれ得る。このバイオメトリックデータの少なくとも一部は、その後の認証手順で使用され得るように、バイオメトリックデータベースに記憶され得る(ステップ504)。上述したように、バイオメトリックデータベースの実際の内容は、バイオメトリックデータが使用される認証アプローチによって異なり得る。
【0082】
使用段階550において、認証手順の一部として、話者の録音が開始される(ステップ551)。例えば、電子デバイス(例えば、
図4の電子デバイス400)は、通知を生成することによって、本人であることを認証するために話者にフレーズを発声するように促してもよい。通知は、可聴であるか、見えるか、または触知できてもよい。一例として、話者により耳介に装着されたイヤホンは、フレーズを発声するように口頭の命令を発し得る。別の例として、話者に関連する携帯電話は、フレーズを発声するように可視の命令を発し得る。
【0083】
話者がフレーズを発声すると、マイクロフォンは音声データを記録でき(ステップ552)、形状センサは形状データを記録できる(ステップ553)。データは、認証手順の使用段階550が始まるとすぐにマイクロフォンおよび形状センサによって生成されてもよく、または、データは、電子デバイスがフレーズを発声するように話者に促した直後にマイクロフォンおよび形状センサによって生成されてもよい。
【0084】
上述したように、いくつかの実施形態では、マイクロフォンも形状センサも、話者にフレーズを発声するよう促す電子デバイスに組み込まれていない。例えば、電子デバイスは、そこで話者が取引を完了しようとしている携帯電話であってもよく、マイクロフォンおよび形状センサは、話者が耳介に装着したイヤホン内に組み込まれてもよい。他の実施形態では、マイクロフォンは電子デバイスに組み込まれているが、形状センサは別の電子デバイスに組み込まれている。上述の例を用いると、マイクロフォンは、そこで話者が取引を完了しようとしている電子デバイスに組み込まれてもよく、一方、形状センサはイヤホンに組み込まれてもよい。他の実施形態では、マイクロフォンと形状センサは、話者にフレーズを発声するよう促す電子デバイスに組み込まれている。例えば、マイクロフォンおよび形状センサは、話者にフレーズを発声するように促すイヤホンに組み込まれてもよい。
【0085】
音声および形状データは、集合的に、話者のバイオメトリックデータを表す。認証アルゴリズムは、このバイオメトリックデータ(「記録されたデータ」とも呼ばれる)をバイオメトリックデータベースと比較できる(ステップ554)。この比較は、例えば、認証アプローチに応じて、いくつかの方法で実行され得る。1つの方法は、一致するエントリを見つける試みにおいて、話者の記録されたデータをバイオメトリックデータベースに記憶されたバイオメトリックデータと直接比較することを含む。この選択肢は、パスフレーズ認証の状況で採用され得る。あるいは、記録されたデータは、バイオメトリックデータベースに記憶された伝達関数を用いて作成された、予測されたバイオメトリックデータ(または、単に「予測データ」)と比較され得る。この選択肢は、モニタ音声認証またはチャレンジ-レスポンス認証の状況で採用され得る。
【0086】
さらに、認証アルゴリズムは、セキュリティスコアを生成できる(ステップ555)。セキュリティスコアは、話者が特定の個人として認証されるべきかどうかを決定するために使用され得る。一般に、特定の個人に関連付けられた記憶されたバイオメトリックデータ(または単に「記憶されたデータ」)に対する記録されたデータの比較に基づいて決定されるセキュリティスコアが閾値を超える場合にのみ、話者は特定の個人として認証されるであろう。
【0087】
いくつかの実施形態では、認証アルゴリズムは、記録されたデータと記憶されたデータ、または記録されたデータと予測されたデータのいずれかの間の相関係数を計算するように構成される。相関係数に加えて又は替えて、他のメトリックが計算されてもよい。これらのメトリックは、記録されたデータと、記憶されたデータまたは予測されたデータのいずれかとの間の類似性を示し得る特徴抽出および比較、スペクトル分析、または他の数学関数など、より高度なデータ分析および操作技術を含んでもよい。
【0088】
比較に基づき、認証アルゴリズムは、出力として提供されるセキュリティスコアを計算できる。例えば、認証アルゴリズムは、メトリック(複数可)と、対応するセキュリティスコアとの間の関係を示す関数またはルックアップテーブルを利用してもよい。一例として、バイオメトリックデータベースは、個人がフレーズを発声する際の外耳道の変形を示す10個のモデル(「インスタンス」とも呼ばれる)を記憶していると仮定されたい。次に、未知の話者が同じフレーズを発声するときの外耳道の変形を示す記録されたデータは、これらの10個のモデルと比較される。この比較の結果、平均の相関係数(例えば、0.992)が得られ、それは閾値(例えば、0.950)と比較される。平均の相関係数が閾値を超える場合、認証アルゴリズムは、未知の話者が「合格(パス)」し、したがって個人として認証されたことを示すセキュリティスコアを出力し得る。しかし、平均の相関係数が閾値を超えない場合、認証アルゴリズムは、未知の話者が「失敗(フェイル)」し、したがって個人として認証されなかったことを示すセキュリティスコアを出力し得る。
【0089】
図6A-Bは、パスフレーズ認証アプローチに従って実行される認証手順の訓練および使用段階600、650のフロー図を含む。
図6A-Bから分かるように、認証手順の訓練および使用段階600、650は、
図5A-Bの訓練および使用段階500、550とほぼ同様であってよい。
【0090】
訓練段階600では、ユーザインタフェースは、最初に、パスフレーズを発声するように個人に促し得る(ステップ601)。例えば、認証プログラムの登録手順の一部として、個人は、その後認証に使用されるであろうパスフレーズを発声するように要求され得る。パスフレーズは、単一の単語または単語の集まり(例えば、広い発音域をカバーし、アルファベットの大きな割合を含む文など)であってもよい。当業者は、登録手順が、個人が同じパスフレーズを複数回発声すること、および/または、異なるパスフレーズを発声することを要求できることを認識するであろう。したがって、訓練段階600は、連続して複数回完了され得る。
【0091】
個人がパスフレーズを発声すると、マイクロフォンは音声データを記録でき(ステップ602)、形状センサは形状データを記録できる(ステップ603)。集合的に、音声および形状データは、個人の「バイオメトリックデータ」と呼ばれ得る。このバイオメトリックデータの少なくとも一部は、その後の認証手順で使用され得るように、バイオメトリックデータベースに記憶され得る(ステップ604)。このバイオメトリックデータは、生のセンサ測定値またはそれらの測定値の表現(例えば、複数の測定値を平均化した値、圧縮データ、またはそれらの測定値から抽出された特徴/メトリック)を含み得る。
【0092】
使用段階650において、ユーザインタフェースは、最初に、認証手順の一部としてパスフレーズを発声するよう話者に促してもよい(ステップ651)。例えば、電子デバイス(例えば、
図4の電子デバイス400)は、本人であることを認証するために、パスフレーズを発声するように話者に促し得る。話者がパスフレーズを発声すると、マイクロフォンは音声データを記録でき(ステップ652)、形状センサは形状データを記録できる(ステップ653)。データは、認証手順の使用段階650が始まるとすぐにマイクロフォンおよび形状センサによって生成されてもよく、または、データは、電子デバイスが話者にパスフレーズを発声するように促した直後にマイクロフォンおよび形状センサによって生成されてもよい。
【0093】
集合的に、音声および形状データは、話者のバイオメトリックデータを表す。認証アルゴリズムは、このバイオメトリックデータ(「記録されたデータ」とも呼ばれる)をバイオメトリックデータベースと比較できる(ステップ654)。例えば、話者が特定の個人として本人であることを認証しようとしている場合、認証アルゴリズムは、記録されたデータを、特定の個人に関連付けられたバイオメトリックデータベースのバイオメトリックデータと直接比較し得る。さらに、認証アルゴリズムは、セキュリティスコアを生成できる(ステップ655)。セキュリティスコアは、話者が特定の個人として認証されるべきかどうかを決定するために使用されてもよい。上述したように、セキュリティスコアが閾値を超える場合、話者は特定の個人として認証され得る。セキュリティスコアは、相関係数または他のメトリックであってもよい。
【0094】
図7A-Bは、モニタ音声認証アプローチに従って実行される認証手順の訓練および使用段階700、750のフロー図を含む。
【0095】
訓練段階700において、ユーザインタフェースは、最初に、テスト録音を実行するように個人に促し得る(ステップ701)。例えば、認証プログラムの登録手順の一部として、個人は、選択されたテキストの一節を読むように促されてもよいし、または、個人は、その人が音声ドリブンインタフェース又はその人の周囲(例えば、いくつかの他のデバイス、システム、または人)と自然に相互作用している間に記録されてもよい。当業者は、テスト録音が、記録された音声の所望の量に応じて数秒または数分続き得ることを認識するであろう。個人がテスト録音を実行すると、マイクロフォンは音声データを記録でき(ステップ702)、形状センサは形状データを記録できる(ステップ703)。集合的に、音声および形状データは、個人の「バイオメトリックデータ」と呼ばれ得る。
【0096】
次に、伝達関数計算アルゴリズムは、音声および形状データに基づいて音声-形状伝達関数を計算できる(ステップ704)。例えば、伝達関数計算アルゴリズムは、所定のフレーズに関連する音声データを入力として取得してもよく、次に、伝達関数計算アルゴリズムは、回帰モデル、予測的機械学習(ML)モデルなどを表す音声-形状伝達関数を用いて対応する形状データを予測してもよい。次に、伝達関数計算アルゴリズムは、予測された形状データと形状センサによって記録された実際の形状データとの間の類似性に基づいて、音声-形状伝達関数の変数を適応させてもよい。高レベルでは、伝達関数計算アルゴリズムは、予測された形状データを記録された形状データに実質的に一致させるように変数を変更し得る。伝達関数計算アルゴリズムは、セットを集合的に定義する複数のフレーズについて、このプロセスを繰り返し得る。セット内のフレーズは、たとえば、検出された音質、話された単語/文字、トーン、速度などの多様性に基づいて選択され得る。次に、音声-形状伝達関数は、バイオメトリックデータとしてバイオメトリックデータベースに記憶され得る(ステップ705)。
【0097】
使用段階750は、単に話者がフレーズを発声することで始めてもよい(ステップ751)。
図5Bと6Bの使用段階550、650とは対照的に、話者は、特定のフレーズを発声するように促されなくてもよい。代わりに、フレーズは、単に、認証手順を促進することを担う電子デバイスまたはその人の周囲と相互作用する際に話者により発声される任意のフレーズであってよい。話者がフレーズを発声すると、マイクロフォンは音声データを記録でき(ステップ752)、形状センサは形状データを記録できる(ステップ753)。データは、認証手順の使用段階750が始まるとすぐにマイクロフォンおよび形状センサによって生成されてもよい。例えば、データは、話者が所定の単語(例えば、「認証」または「検証」)またはフレーズ(例えば「認証が必要です」)を自然に発声したことを検出することに応答して、マイクロフォンおよび形状センサによって生成されてもよい。別の例として、データは、話者が認証を必要とするアクションを完了しようとしていることを決定することに応答して、マイクロフォンおよび形状センサによって生成されてもよい。
【0098】
集合的に、音声および形状データは、話者のバイオメトリックデータを表す。認証アルゴリズムは、音声-形状伝達関数を使用して、このバイオメトリックデータ間の類似性を決定してもよい(ステップ754)。例えば、認証アルゴリズムは、音声-形状伝達関数を使用して、記録された音声データに対応する形状データを予測してもよい。次に、認証アルゴリズムは、予測された形状データと、話者のための形状センサによって記録された実際の形状データとの間の類似性を決定してもよい。例えば、認証アルゴリズムは、予測された形状データおよび記録された形状データについて、相関係数または他の類似性メトリックを計算してもよい。さらに、認証アルゴリズムは、セキュリティスコアを生成できる(ステップ755)。セキュリティスコアは、話者が、その人が主張する個人として認証されるべきかどうかを決定するために使用され得る。セキュリティスコアが低い場合、および/または、高い不確実性を持つ場合、その話者はモニタされ続けてもよい。例えば、認証アルゴリズムが、話者が認証されるべきかどうかを十分な確実性をもって決定するまで、使用段階750は、数秒、数分、または数時間にわたり複数回実行されてもよい。
【0099】
図8A-Bは、チャレンジ-レスポンス認証アプローチに従って実行される認証手順の訓練および使用段階800、850のフロー図を含む。
【0100】
訓練段階800において、ユーザインタフェースは、最初に、1つ以上のチャレンジに対するレスポンスフレーズを収集することによってテスト記録を実行するように個人に促し得る(ステップ801)。例えば、認証プログラムの登録手順の一部として、個人は、チャレンジ生成アルゴリズム(例えば、
図3Cのチャレンジ生成アルゴリズム316)によって作成されたチャレンジのセットに応答するように要求されてもよい。一例として、チャレンジ生成アルゴリズムは、チャレンジの標準データベースから各チャレンジをランダムに選択してもよい。別の例として、チャレンジ生成アルゴリズムは、(例えば、認証が必要とされる実行されるアクションのタイプについて、採用される認証アプローチのタイプについて)要求されるセキュリティレベルを決定してもよく、その後、チャレンジの標準データベースから、それらのセキュリティ要件を満たすチャレンジを選択してもよい。一般に、より長い、および/または、より複雑なレスポンスフレーズに関連するこれらのチャレンジは、より安全である(したがって、よりロバストな認証につながる)と考えられる。個人がレスポンスフレーズを発声すると、マイクロフォンは音声データを記録でき(ステップ802)、形状センサは形状データを記録できる(ステップ803)。集合的に、音声および形状データは、個人の「バイオメトリックデータ」と呼ばれ得る。
【0101】
次に、伝達関数計算アルゴリズムは、音声データに基づいてチャレンジ-音声伝達関数を計算できる(ステップ804)。追加的に、または代替的に、伝達関数計算アルゴリズムは、形状データに基づいてチャレンジ-形状伝達関数を計算できる(ステップ805)。これらの伝達関数は、所定のチャレンジに対するレスポンスフレーズに関する音声データまたは形状データを生成するように設計され得る。チャレンジとそれらに対応するレスポンスフレーズの例は、以下を含む。
・チャレンジとして1つ以上の単語が聞こえるように伝えられ、話者は、その単語(複数可)を繰り返すように求められる。
・チャレンジとして数式が視覚的に伝えられ、話者は、答えを発声するよう要求される。
・よく知られた人物または物品の画像がチャレンジとして視覚的に伝えられ、話者は、その人物を(例えば姓または名により)特定するか又は物品を特定するよう求められる。
【0102】
伝達関数計算アルゴリズムは、
図7Aを参照して上述した音声-形状伝達関数について説明したのと同様のアプローチに従って、チャレンジ-音声伝達関数および/またはチャレンジ-形状伝達関数を決定できる。しかし、ここでは、入力は要求されるレスポンスフレーズであり、出力は、対応する音声データまたは対応する形状データのいずれかの予測である。
【0103】
上述したように、訓練段階800の一部として、一連のチャレンジが個人に提示されてもよい。したがって、伝達関数計算アルゴリズムは、一連のチャレンジの全体についてステップ804および/またはステップ805を繰り返してもよい。完了すると、伝達関数のすべては、バイオメトリックデータとしてバイオメトリックデータベースに記憶され得る(ステップ806)。
【0104】
使用段階850において、ユーザインタフェースは、最初に、特定の個人として自身を認証しようとする話者に、対応するレスポンスフレーズの発話を呼び起こすためのチャレンジを提示し得る(ステップ851)。チャレンジは、上述したように、登録プロセス中に特定の個人によって完了された一連のチャレンジからチャレンジ生成アルゴリズムによって選択されてもよい。話者がレスポンスフレーズを発声すると、マイクロフォンが音声データを記録でき(ステップ852)、形状センサが形状データを記録できる(ステップ853)。データは、認証手順の使用段階850が始まるとすぐにマイクロフォンおよび形状センサによって生成されてもよく、または、データは、チャレンジが話者に提示された直後にマイクロフォンおよび形状センサによって生成されてもよい。
【0105】
その後、認証アルゴリズムは、チャレンジ-音声伝達関数および/またはチャレンジ-形状伝達関数を使用して、話者に提示されたチャレンジが与えられた場合に、音声データまたは形状データをそれぞれ予測できる(ステップ854)。認証アルゴリズムは、
図7Bを参照して上述した音声-形状伝達関数について説明したのと同様のアプローチに従って、音声データまたは形状データを予測できる。次に、認証アルゴリズムは、予測されたデータと記録されたデータとの間の類似性を決定できる(ステップ855)。例えば、認証アルゴリズムは、チャレンジ-音声伝達関数によって出力された予測された音声データと記録された音声データとの間の類似性、および/または、チャレンジ-形状伝達関数によって出力された予測された形状データと記録された形状データとの間の類似性を決定し得る。さらに、認証アルゴリズムは、セキュリティスコアを生成できる(ステップ856)。セキュリティスコアは、話者が、その人が主張する個人として認証されるべきかどうかを決定するために使用され得る。セキュリティスコアが低い場合、および/または、高い不確実性を持つ場合、話者は別のチャレンジが提示されてもよい。この別のチャレンジは、より困難である、異なる特徴を有するなどであってもよい。
【0106】
セキュリティを高めるために、
図6A-B、
図7A-B、および
図8A-Bのステップの少なくともいくつかは、暗号化されたドメインで実行されてもよい。例えば、全てのデータの記録、操作、計算、または記憶は、暗号化されたドメインで実行されてもよい。暗号化されたドメインで実行されない場合でも、これらのステップは、認証プロセスが危険にさらされるリスクを最小化するために、安全な方法で実行され得る。
【0107】
図9は、特定の個人であると主張する人間の話者が本人であることをバイオメトリック認証するためのプロセス900のフロー図を示す。最初に、認証プラットフォームは、人間の話者がフレーズを発声するように要求されることに応答して第1電子デバイスコンポーネントによって生成される第1音声データを取得できる(ステップ901)。未知の話者は、フレーズを発声するように聴覚的に(例えば、可聴コマンドの提示を通じて)または視覚的に(例えば、視覚コマンドの提示を通じて)促され得る。次に、認証プラットフォームは、フレーズが人間の話者によってある時間にわたり発声された第1音声データの一部分を特定できる(ステップ902)。認証プラットフォームは、関連する部分がより容易に処理され得るように第1音声データを変更し得る。例えば、認証プラットフォームは、第1音声データからその部分を抽出してもよいし、または、認証プラットフォームは、第1音声データを編集(例えば、カット、フィルタ、または他の方法で変更)してもよい。
【0108】
認証プラットフォームは、人間の話者の外耳道によって反射されたプロービング信号を表す第2音声データも取得してもよい(ステップ903)。プロービング信号の反射は、第2電子デバイスコンポーネントによって検出されてもよい。上述したように、いくつかの実施形態では、第1および第2電子デバイスコンポーネントは、同じ電子デバイスの一部であり、他の実施形態では、第1および第2電子デバイスコンポーネントは、異なる電子デバイスの一部である。
【0109】
認証プラットフォームが人間の話者の耳介に配置された電子デバイス上に具現化される実施形態では、認証プラットフォームは、プロービング信号を外耳道内に放射させる。したがって、第2電子デバイスコンポーネントは、プロービング信号を人間の話者の外耳道内に発してもよく、その後、外耳道内の構造によって反射されるプロービング信号を表す第2音声データを記録してもよい。いくつかの実施形態では、第2電子デバイスコンポーネントは、未知の話者がフレーズを発声するように要求されたという決定に応答して、プロービング信号を外耳道内に発するように構成される。代替的に、人間の話者によって発声されたフレーズは、プロービング信号として機能し得る。したがって、プロービング信号は、第2電子デバイスコンポーネントによって生成される別個の信号であってもよく、または、プロービング信号は、人間の話者の音声を表してもよい。次に、認証プラットフォームは、人間の話者がフレーズを発声した時間に対応する第2音声データの一部分を特定できる(ステップ904)。別の言い方をすれば、認証プラットフォームは、ステップ902で特定された第1音声データの一部分に時間的に対応する第2音声データの一部分を特定できる。例えば、第2音声データの一部分は、第2音声データ内のタイムスタンプを使用して特定され得る。別の例として、第2音声データの一部分は、フィルタ(例えば、外耳道の変形が検出された第2音声データの一部分を示すフィルタ)を使用して特定されてもよい。
【0110】
その後、認証プラットフォームは、第2音声データの一部分の分析に基づいて、個人が人間の話者である可能性を決定してもよい(ステップ905)。例えば、認証プラットフォームは、第2音声データの一部分に基づいて、時間にわたる外耳道の形状を確立するように構成されてもよい。外耳道の形状は、いくつかの異なる方法で表されてもよい(そして、バイオメトリックデータベースと照合されてもよい)。
【0111】
いくつかの実施形態では、外耳道の形状は、形状ベクトルまたは設定された解像度での三次元(3D)座標の単純なセットなどのプロファイルとして表され、それにより外耳道のトポロジーを表現する。プロファイルは、フレーズが発声されたときの外耳道の形状を表してもよい。そのような実施形態では、比較は、基準バイオメトリック(例えば、基準外耳道)に関連付けられたトポロジーデータを変換することによって実行され、基準バイオメトリックと測定された外耳道との間の平均の座標位置差を最小化してもよい。変換は、第2音声データが記録された時点における耳介内の電子デバイスの位置の変動を考慮するために必要であり得る。次に、最小の平均の座標差は、所定の閾値と比較されて、測定された外耳道が基準バイオメトリックと一致するか否か決定できる。バイオメトリックデータベースの基準バイオメトリックが非常に詳細である実施形態では、認証プラットフォームは、各々の基準バイオメトリックに対して完全な一致を実行することに対して選択し得る。代わりに、認証プラットフォームは、異なる基準バイオメトリック(したがって、異なる個人)の間の最も高い相違度が示される選択された座標を使用して、初期の「事前マッチング」を完了できる。事前マッチングは、その後、1つ以上の基準バイオメトリックが候補として識別される、より詳細なマッチング手順によって継続され得る。
【0112】
いくつかの実施形態では、外耳道の形状は、完全に音声ドメインで表される。そのような実施形態では、外耳道の物理的形状は、プロービング信号の音響伝達関数に対応し得る。したがって、外耳道の「形状」は、音声データの周波数および振幅値に適用される既知の関数として記憶されてもよい。最も単純な形では、音響伝達関数は、周波数スペクトル上のさまざまなポイントでプロービング信号にどのような変化が起こるかを示す。したがって、個人のバイオメトリック署名は、異なる周波数に関連する一連の振幅変換値で構成され得る。そのような実施形態では、プロービング信号を基準バイオメトリックと比較する際に、振幅および周波数値について平均の異なるスコアが計算され得る。
【0113】
さらに、認証プラットフォームは、形状に基づいて、人間の話者がその人が主張する個人である可能性を示すセキュリティスコア(または単に「スコア」)を生成し得る。いくつかの実施形態では、このスコアは所定の閾値と比較され、人間の話者が個人である可能性は、さらにその比較に基づく。スコアが閾値を超える場合、認証プラットフォームは、人間の話者が個人として認証されたことを示し得る。しかしながら、スコアが閾値を超えない場合、認証プラットフォームは、人間の話者が個人として認証されていないことを示し得る。
【0114】
いくつかの実施形態では、スコアは、外耳道の形状のバイオメトリックデータベースとの比較に基づいて生成されて、一致するエントリが見つけられるかどうかを決定する。このバイオメトリックデータベースのエントリは、異なる人の外耳道についての形状を表す基準プロファイルを含んでもよい。当業者は、一人の人が複数の基準プロファイル、例えば、左耳のための1つの基準プロファイルおよび右耳のための1つの基準プロファイルと関連付けられ得ることを認識するであろう。認証手順の間、認証プラットフォームは、1つまたは両方の基準プロファイルを利用できる。例えば、認証が機密の状況で求められる場合、認証プラットフォームは、左耳と右耳に対してセキュリティスコアが生成され得るように、プロセス900の複数のインスタンスを同時に実行し得る。そのような実施形態では、認証プラットフォームは、左耳について生成されたセキュリティスコア、右耳について生成されたセキュリティスコア、または、両方のセキュリティスコアに基づいて、未知の話者を認証するかどうかを決定し得る。同様のアプローチは、外耳道の変形(または変形のモデル)をバイオメトリックデータベースと比較して、一致するエントリが見つけられたかどうかを決定することを含んでもよい。このバイオメトリックデータベースのエントリは、異なる人が同じまたは異なるフレーズを発声するときの外耳道の変形を表す基準プロファイルを含んでもよい。加えてまたは代替的に、認証プラットフォームは、第1音声データの一部分を別のバイオメトリックデータベースと比較して、一致するエントリが見つけられたかどうかを決定し得る。このバイオメトリックデータベースのエントリは、異なる人物の基準音声サンプルを含んでもよい。認証プラットフォームは、これらのバイオメトリックデータベースのいずれかにおいて一致するエントリが発見されたかどうかに基づいて、人間の話者を認証するかどうかを決定できてもよい。例えば、認証プラットフォームは、(i)もしあれば、外耳道の形状の基準プロファイルを含むバイオメトリックデータベースにおける一致するエントリ、(ii)もしあれば、外耳道の変形の基準プロファイルを含むバイオメトリックデータベースにおける一致するエントリ、および/または、(ii)もしあれば、基準音声サンプルを含むバイオメトリックデータベースにおける一致するエントリ、に基づいて人間の話者がその人が主張する個人である可能性を決定してもよい。
【0115】
図10は、外耳道の変形に基づいて人間の話者が本人であることを認証するかどうかを決定するためのプロセス1000のフロー図を示す。最初に、認証プラットフォームは、フレーズが、認証のためのバイオメトリッククレデンシャルとして、ある時間にわたり人間の話者によって発声されたことを決定できる(ステップ1001)。フレーズは、パスフレーズ認証、モニタ音声認証、またはチャレンジ-レスポンス認証の手段として発声され得る。次に、認証プラットフォームは、個人によって耳介に装着された電子デバイスにより生成される形状データ(または単に「データ」)を取得できる(ステップ1002)。電子デバイスは、一連のプロービング信号を外耳道内に発するように構成されてもよく、データは、一連のプロービング信号の外耳道の表面に対する反射によって生成される一連のリターン信号を表してもよい。いくつかの実施形態では、一連のプロービング信号は、時間の経過とともに増加または減少する周波数を有する信号を表す。
【0116】
次に、認証プラットフォームは、データに基づいて、上記時間にわたる外耳道の形状を確立できる(ステップ1003)。さらに、認証プラットフォームは、(i)外耳道の形状に基づいて個人が人間の話者である可能性を示す第1のスコア、および/または(ii)データから決定される外耳道の実際の変形と、フレーズを与えられた外耳道の予想される変形との間の対応関係を示す第2のスコアを生成できる(ステップ1004)。第1のスコアは、個人が人間の話者である場合に予想されるように外耳道が区間にわたって変形したかどうかを発見するために、データを調べることによって生成されてもよい。あるいは、第1のスコアは、外耳道の形状が、個人に関連付けられたバイオメトリックデータベースのエントリと一致するかどうかを決定することによって生成されてもよい。一方、第2のスコアは、フレーズが与えられた予想される変形を予測する伝達関数(例えば、音声-形状伝達関数またはチャレンジ-形状伝達関数)を適用することによって生成されてもよい。
【0117】
第1のスコアおよび/または第2のスコアに基づいて、認証プラットフォームは、人間の話者を個人として認証するか否かを決定できる(ステップ1005)。認証プラットフォームが、人間の話者が個人として認証されるべきであると決定した場合、追加のアクション(複数可)が実行され得る。例えば、認証プラットフォームは、人間の話者のバイオメトリック認証が正常に完了したことを支払いプロセッサに通知し得る。同様に、認証プラットフォームが、人間の話者が個人として認証されなかったと決定した場合、追加のアクション(複数可)が実行され得る。そのようなシナリオでは、認証プラットフォームは、認証目的のために別のフレーズが人間の話者により発声されることを要求してもよく、または、認証プラットフォームは、人間の話者を含む取引が完了することを妨げるか又は防止してもよい(例えば、人間の話者のバイオメトリック認証が正常に完了しなかったことを支払プロセッサに通知することにより)。
【0118】
物理的な実現性に反しない限り、上述したステップは、様々な順序と組み合わせで実行され得ることが想定される。例えば、認証プラットフォームは、ある個人に対する認証手順の訓練段階と、別の個人に対する認証手順の使用段階とを同時に実行できる。別の例として、認証プラットフォームは、左耳および右耳に関連するデータを使用して、認証手順の複数のインスタンスを同時に実行できる。そのような実施形態では、認証プラットフォームは、左耳に関する形状データの第1のセットと右耳に関する形状データの第2のセットとを取得し得るが、同じ音声データが両方の耳に対して使用され得る。
【0119】
他のステップも、いくつかの実施形態に含まれ得る。一例として、認証プラットフォームが、電子デバイスを耳介に近接して位置決めしながらフレーズを発声するよう個人に促す第1の通知を提示させることを仮定されたい。例えば、第1の通知は、電子デバイスが耳介内に位置決めされている間(例えば、イヤホンの場合)、個人がフレーズを発声することを要求してもよく、または、第1の通知は、電子デバイスが耳介の近くに位置決めされている間(例えば、携帯電話の場合)、個人がフレーズを発声することを要求してもよい。このようなシナリオでは、認証プラットフォームは、認証手順を別の形態のバイオメトリック認証で補完することによってセキュリティを高めることを選択し得る。例えば、認証プラットフォームは、電子デバイスの指紋センサに指を近づけるように個人に促す第2の通知を生成させてもよく、この場合、指紋の画像は、関連するバイオメトリックデータベースと比較され得る。別の例として、認証プラットフォームは、電子デバイスのカメラに近接して目を配置するように個人に促す第2の通知を生成させてもよく、その場合、目の画像は、関連するバイオメトリックデータベースと比較され得る。
[処理システム]
【0120】
図11は、本明細書に記載される少なくともいくつかの動作が実装され得る処理システム1100の一例を示すブロック図である。例えば、処理システム1100の構成要素は、マイクロフォン(例えば、
図2Aのマイクロフォン204)、形状センサ(例えば、
図2Aの形状センサ206)、または認証アルゴリズムを実行するように動作可能なプロセッサ(例えば、
図2Aのプロセッサ208)を含む電子デバイス上にホストされてもよい。別の例として、処理システム1100の構成要素は、認証プラットフォーム(例えば、
図4の認証プラットフォーム414)を含む電子デバイス上にホストされてもよい。
【0121】
処理システム1100は、バス1116に通信可能に接続された、プロセッサ1102、メインメモリ1106、不揮発性メモリ1110、ネットワークアダプタ1112(例えば、ネットワークインタフェース)、映像ディスプレイ1118、入力/出力装置1120、制御装置1122(例えば、キーボード、ポインティングデバイス、またはボタンなどの機械的入力)、記録媒体1126を含む駆動ユニット1124、または信号生成装置1130を含んでもよい。バス1116は、適切なブリッジ、アダプタ、またはコントローラによって接続される1以上の物理バスおよび/またはポイントツーポイント接続を表す抽象的なものとして図示されている。したがって、バス1116は、システムバス、PCI(Peripheral Component Interconnect)バス、PCI-Expressバス、HyperTransportバス、ISA(Industry Standard Architecture)バス、SCSI(Small Computer System Interface)バス、USB(Universal Serial Bus)、I2C(Inter-Integrated Circuit)バス、またはIEEE(Institute of Electrical and Electronics Engineers)標準1394に準拠するバスを含み得る。
【0122】
処理システム1100は、コンピュータサーバ、ルータ、デスクトップコンピュータ、タブレットコンピュータ、携帯電話、ビデオゲーム機、ウェアラブル電子デバイス(例えば、時計またはフィットネストラッカー)、ネットワーク接続(「スマート」)デバイス(例えば、テレビまたはホームアシスタント装置)、拡張または仮想現実システム(例えば、ヘッドマウントディスプレイ)、または処理システム1100によって行われるアクション(複数可)を指定する命令のセットを(連続に又は別の方法で)実行できる別の電子デバイスのものと同様のコンピュータプロセッサ・アーキテクチャを共有してもよい。
【0123】
メインメモリ1106、不揮発性メモリ1110、および記録媒体1124は、単一の媒体であるように示されているが、用語「記録媒体」および「機械可読媒体」は、1組以上の命令1126を記憶する単一の媒体または複数の媒体を含むように解釈されるべきである。また、「記録媒体」および「機械可読媒体」という用語は、処理システム1100による実行のための命令セットを記憶し、符号化し、又は運ぶことができる任意の媒体を含むと解釈されるべきである。
【0124】
一般に、本開示の実施形態を実装するために実行されるルーチンは、オペレーティングシステムまたは特定のアプリケーション、構成要素、プログラム、オブジェクト、モジュール、または命令のシーケンス(集合的に「コンピュータプログラム」と呼ばれる)の一部として実装され得る。コンピュータプログラムは、典型的には、コンピューティングデバイス内の様々なメモリおよび記憶装置に様々なタイミングで設定された1以上の命令(例えば、命令1104、1108、1128)を備える。プロセッサ1102によって読み取られ、実行されると、命令は、処理システム1100に、本開示の様々な態様を実行するための動作を実行させる。
【0125】
実施形態は、完全に機能するコンピューティングデバイスの文脈で説明されてきたが、当業者は、様々な実施形態が、様々な形態のプログラム製品として配布可能であることを理解するであろう。本開示は、実際に配布を実現するために使用される機械またはコンピュータ可読媒体の特定のタイプに関係なく適用される。機械およびコンピュータ可読媒体のさらなる例は、揮発性および不揮発性メモリデバイス1110、リムーバブルディスク、ハードディスクドライブ、光ディスク(例えば、コンパクトディスクリードオンリーメモリ(CD-ROM)およびデジタル多用途ディスク(DVD))、クラウドベースストレージなどの記録可能タイプ媒体、デジタルおよびアナログ通信リンクなどの伝送タイプ媒体を含む。
【0126】
ネットワークアダプタ1112は、処理システム1100が、処理システム1100と外部エンティティとによりサポートされる任意の通信プロトコルを通じて、処理システム1100の外部であるエンティティとネットワーク1114内のデータを仲介することを可能にする。ネットワークアダプタ1112は、ネットワークアダプタカード、無線ネットワークインタフェースカード、スイッチ、プロトコル変換器、ゲートウェイ、ブリッジ、ハブ、受信機、リピータ、または、集積回路を含むトランシーバ(例えば、BluetoothまたはWi-Fiでの通信を可能にする)を含むことができる。
【0127】
ここに紹介する技術は、ソフトウェア、ファームウェア、ハードウェア、またはそのような形態の組合せを用いて実装され得る。例えば、本開示の態様は、特定用途向け集積回路(ASIC)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)等の形態の特殊目的のハードウエア(すなわち、プログラム不可能な)回路を使用して実装され得る。
[備考]
【0128】
請求された主題の様々な実施形態の前述の説明は、例示および説明の目的で提供されたものである。それは、網羅的であること、または請求された主題を開示された正確な形態に限定することを意図していない。多くの修正および変形が当業者には明らかであろう。実施形態は、本発明の原理およびその実用的用途を最もよく説明するために選択および説明され、それによって、関連する技術の当業者は、請求された主題、種々の実施形態、および企図された特定の用途に適する種々の改変を理解できるようになる。
【0129】
詳細な説明は、特定の実施形態および企図される最良の態様を説明しているが、詳細な説明がいかに詳細に見えても、本技術は多くの方法で実施することが可能である。実施形態は、本明細書に包含されながら、その実装の詳細においてかなり異なる場合がある。様々な実施形態の特定の特徴または側面を説明するときに使用される特定の用語は、その用語が関連付けられる技術の任意の特定の特性、特徴、または側面に限定されるように、本明細書で再定義されることを意味するものと解釈されるべきではない。一般に、以下の特許請求の範囲で使用される用語は、それらの用語が本明細書で明示的に定義されない限り、本明細書に開示される特定の実施形態に技術を限定するように解釈されるべきではない。したがって、本技術の実際の範囲は、開示された実施形態だけでなく、実施形態を実施または実装するすべての等価な方法も包含する。
【0130】
本明細書で使用される用語は、主として、読みやすさと説明のために選択されたものである。それは、主題を画定または囲い込むために選択されたものではない。したがって、本技術の範囲は、この詳細な説明によってではなく、むしろ、これに基づく出願で発行される任意の請求項によって限定されることが意図される。したがって、様々な実施形態の開示は、以下の特許請求の範囲に規定される技術の範囲を例示するものであるが、限定するものではないことを意図している。
【産業上の利用可能性】
【0131】
本開示は、コンピュータセキュリティにおけるバイオメトリック認証に適用できる。