(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025010562
(43)【公開日】2025-01-22
(54)【発明の名称】声紋認証及び補間のシステム及び方法
(51)【国際特許分類】
G10L 17/24 20130101AFI20250115BHJP
G06F 21/32 20130101ALI20250115BHJP
G10L 17/00 20130101ALI20250115BHJP
G10L 17/18 20130101ALI20250115BHJP
G10L 15/00 20130101ALI20250115BHJP
G10L 25/21 20130101ALI20250115BHJP
【FI】
G10L17/24
G06F21/32
G10L17/00 200C
G10L17/18
G10L15/00 200J
G10L25/21
【審査請求】未請求
【請求項の数】20
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024100993
(22)【出願日】2024-06-24
(31)【優先権主張番号】18/339,677
(32)【優先日】2023-06-22
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】320003297
【氏名又は名称】トヨタ コネクテッド ノース アメリカ,インコーポレイティド
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100092624
【弁理士】
【氏名又は名称】鶴田 準一
(74)【代理人】
【識別番号】100147555
【弁理士】
【氏名又は名称】伊藤 公一
(74)【代理人】
【識別番号】100123593
【弁理士】
【氏名又は名称】関根 宣夫
(74)【代理人】
【識別番号】100133835
【弁理士】
【氏名又は名称】河野 努
(72)【発明者】
【氏名】テイラー スミス
(72)【発明者】
【氏名】キン チュン マ
(72)【発明者】
【氏名】ベンジャミン アール.レスニック
(72)【発明者】
【氏名】ハリス シッディーキー
(57)【要約】
【課題】ユーザを認証してユーザ嗜好エンベディングを補間する方法及びシステムを提出すること。
【解決手段】本システムは、車両の内側にいる複数の過去の話者によって話された人間音声を備える訓練データに基づいて特徴を生成するように訓練されたニューラルネットワークを使用して、車両の内側にいる現在の話者の人間音声に基づいて入力特徴を生成し、入力特徴の入力ベクトルと1人以上の登録ユーザの声紋における過去のベクトルとの類似度を計算する。入力ベクトルと認定ユーザの声紋における少なくとも1つの過去のベクトルとの類似度が閾値類似度未満であることを決定した後、システムは、現在の話者を認定ユーザとして認証し、類似度に基づいて確率論的概念を計算し、認定ユーザに関連付けられる下流のユーザ嗜好エンベディング間で補間するように確率論的概念を適用する。
【選択図】
図8
【特許請求の範囲】
【請求項1】
車両の内側にいる複数の過去の話者によって話された人間音声を備える訓練データに基づいて特徴を生成するように訓練されたニューラルネットワークを使用して、前記車両の内側にいる現在の話者の人間音声に基づいて入力特徴を生成することと、
前記入力特徴の入力ベクトルと1人以上の登録ユーザの声紋における過去のベクトルとの類似度を計算することと、
前記入力ベクトルと認定ユーザの声紋における少なくとも1つの過去のベクトルとの類似度が閾値類似度未満であることを決定した後、前記現在の話者を前記認定ユーザとして認証することと、
前記類似度に基づいて確率論的概念を計算することと、
前記認定ユーザに関連付けられる下流のユーザ嗜好エンベディング間で補間するように前記確率論的概念を適用することと、
を含む、方法。
【請求項2】
前記類似度は、ユークリッド類似度又はコサイン類似度である、請求項1に記載の方法。
【請求項3】
前記確率論的概念は、前記類似度に対して反比例する重み係数を備える、請求項1に記載の方法。
【請求項4】
前記下流のユーザ嗜好エンベディングは、ユーザ嗜好と使用エンベディングとを備え、
前記ユーザ嗜好は、認証中に前記認定ユーザによって述べられるユーザコメントに基づいて計算されるユーザ嗜好と、過去のユーザ嗜好への動的な統合と、を備え、
前記使用エンベディングは、前記車両とのユーザインタラクションを備える、請求項1に記載の方法。
【請求項5】
前記認定ユーザを認証した後、前記人間音声が前記車両とのユーザインタラクションを備えるかどうかを更に決定し、
前記人間音声が前記ユーザインタラクションを備えることを決定した後、前記確率論的概念に基づいて重み付けされる前記ユーザインタラクションを、前記認定ユーザに関連付けられる前記使用エンベディングに統合する、請求項4に記載の方法。
【請求項6】
前記ニューラルネットワークは、前記確率論的概念に基づいて重み付けされる前記入力特徴を前記認定ユーザの前記声紋に動的に統合するインクリメンタル学習アルゴリズムを備える、請求項1に記載の方法。
【請求項7】
前記方法は、閾値信頼度未満である信頼度を有する前記声紋の特徴を除去することによって前記認定ユーザの前記声紋を縮小することを更に含む、請求項1に記載の方法。
【請求項8】
前記認定ユーザの前記声紋は、別の登録ユーザの声紋と重複する前記声紋の前記特徴を除去することによって縮小される、請求項7に記載の方法。
【請求項9】
人間音声の前記入力特徴は、トーン、ピッチ、音量、速度、又は音色を備える、請求項1に記載の方法。
【請求項10】
1人以上の登録ユーザの前記声紋は、初期実装を通じて登録され、前記初期実装は、登録に関する、前記登録を初期化するための物理的な又は音声のトリガと、登録される前記声紋を作成するための前記人間音声の録音と、を備える、請求項1に記載の方法。
【請求項11】
前記方法は、
前記入力ベクトルと1人以上の非ユーザの声紋のベクトルとの非ユーザ類似度を計算することと、
前記非ユーザ類似度が、前記閾値類似度未満であるか、前記閾値類似度と等しいか、又は前記閾値類似度を超えるかを決定することと、
前記非ユーザ類似度が前記閾値類似度未満であることを決定した後、前記入力ベクトルを前記1人以上の非ユーザの前記声紋に統合することと、
前記非ユーザ類似度が前記閾値類似度を超えるか又は前記閾値類似度と等しいことを決定した後、前記入力ベクトルに基づいて非ユーザの声紋を作成することと、
を更に含む、請求項1に記載の方法。
【請求項12】
車両の内側にいる複数の過去の話者によって話された人間音声を備える訓練データに基づいて特徴を生成するように訓練されたニューラルネットワークを使用して、前記車両の内側にいる現在の話者の人間音声に基づいて入力特徴を生成し、
前記入力特徴の入力ベクトルと1人以上の登録ユーザの声紋における過去のベクトルとの類似度を計算し、
前記入力ベクトルと認定ユーザの声紋における少なくとも1つの過去のベクトルとの類似度が閾値類似度未満であることを決定した後、前記現在の話者を前記認定ユーザとして認証し、
前記類似度に基づいて確率論的概念を計算し、
前記認定ユーザに関連付けられる下流のユーザ嗜好エンベディング間で補間するように前記確率論的概念を適用する、
コントローラを備える、システム。
【請求項13】
前記確率論的概念は、前記類似度に対して反比例する重み係数を備える、請求項12に記載のシステム。
【請求項14】
前記下流のユーザ嗜好エンベディングは、ユーザ嗜好と使用エンベディングとを備え、
前記ユーザ嗜好は、認証中に前記認定ユーザによって述べられるユーザコメントに基づいて計算されて過去のユーザ嗜好に動的に統合されるユーザ嗜好を備え、
前記使用エンベディングは、前記車両とのユーザインタラクションを備える、請求項12に記載のシステム。
【請求項15】
前記認定ユーザを認証した後、前記人間音声が前記車両とのユーザインタラクションを備えるかどうかを更に決定し、
前記人間音声が前記ユーザインタラクションを備えることを決定した後、前記確率論的概念に基づいて重み付けされる前記ユーザインタラクションを、前記認定ユーザに関連付けられる前記使用エンベディングに統合する、請求項14に記載のシステム。
【請求項16】
前記ニューラルネットワークは、前記確率論的概念に基づいて重み付けされる前記入力特徴を前記認定ユーザの前記声紋に統合するインクリメンタル学習アルゴリズムを備える、請求項12に記載のシステム。
【請求項17】
人間音声の前記入力特徴は、トーン、ピッチ、音量、速度、又は音色を備える、請求項12に記載のシステム。
【請求項18】
前記システムは、前記人間音声を受信又は記録する音声センサを更に備える、請求項12に記載のシステム。
【請求項19】
1人以上の登録ユーザの前記声紋は、初期実装を通じて登録され、前記初期実装は、登録に関する、前記登録を初期化するための物理的な又は音声のトリガと、登録される前記声紋を作成するための前記人間音声の録音と、を備える、請求項12に記載のシステム。
【請求項20】
前記システムは、ボタン又はタッチスクリーンを更に備え、前記初期実装は、前記ボタンが押されるか又は前記タッチスクリーンがタッチされると物理的にトリガされる、請求項19に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本明細書に記載される実施形態は概して、音声ユーザインターフェースのアプリケーションに関し、より具体的には、車両の声紋認識及び認証に関する。
【背景技術】
【0002】
最近の車両は、リモートスタート、車両のロック/ロック解除、バレー、及びジオフェンシングなどの認証を必要とするサービスを使用する。認証は、車両が提供し得るサービスについてエンティティを識別するのに重要なセキュリティの機能である。一旦認証されると、車両は、特定のサービス又はデータにアクセスする権限をユーザに与え得る。したがって、正確で効率的な認証のシステムが車両システムにアクセスする必要性が存在する。
【発明の概要】
【0003】
一実施形態では、方法は、車両の内側にいる複数の過去の話者によって話された人間音声を備える訓練データに基づいて特徴を生成するように訓練されたニューラルネットワークを使用して、車両の内側にいる現在の話者の人間音声に基づいて入力特徴を生成することと、入力特徴の入力ベクトルと1人以上の登録ユーザの声紋における過去のベクトルとの類似度を計算することと、を含み得る。入力ベクトルと認定ユーザの声紋における少なくとも1つの過去のベクトルとの類似度が閾値類似度未満であることを決定した後、方法は、現在の話者を認定ユーザとして認証することと、類似度に基づいて確率論的概念を計算することと、認定ユーザに関連付けられる下流のユーザ嗜好エンベディング間で補間するように確率論的概念を適用することと、を含む。
【0004】
別の実施形態では、システムは、車両の内側にいる複数の過去の話者によって話された人間音声を備える訓練データに基づいて特徴を生成するように訓練されたニューラルネットワークを使用して、車両の内側にいる現在の話者の人間音声に基づいて入力特徴を生成し、入力特徴の入力ベクトルと1人以上の登録ユーザの声紋における過去のベクトルとの類似度を計算するコントローラを含む。入力ベクトルと認定ユーザの声紋における少なくとも1つの過去のベクトルとの類似度が閾値類似度未満であることを決定した後、コントローラは、現在の話者を認定ユーザとして認証し、類似度に基づいて確率論的概念を計算し、認定ユーザに関連付けられる下流のユーザ嗜好エンベディング間で補間するように確率論的概念を適用し得る。
【0005】
本明細書に記載される実施形態によって提供されるこれらの特徴及び追加の特徴は、図面と併せて以下の詳細な説明を考慮すると、より完全に理解されるであろう。
【図面の簡単な説明】
【0006】
図面に記載される実施形態は本質的に、実例的で例示的なものであって、特許請求の範囲によって定められる主題を限定することを意図したものではない。以下の図面と併せて読むと、実例的な実施形態の以下の詳細な説明を理解することができ、当該図面では、同様の構造は、同様の参照番号を用いて示される。
【0007】
【
図1】本明細書に記載され示される1つ以上の実施形態に係る、本開示の声紋認証システムの例示的で非限定的なデバイスを描写する図である。
【
図2A】本明細書に記載され示される1つ以上の実施形態に係る、本開示の音声特徴モジュール、類似度モジュール、及び認証モジュールの実例的な実装態様の実例的なブロック図を描写する図である。
【
図2B】本明細書に記載され示される1つ以上の実施形態に係る、認証、並びに重み付け及び補間用の確率論的概念の生成に関する認証モジュールの実例的な実装態様の実例的なブロック図を描写する図である。
【
図3】本明細書に記載され示される1つ以上の実施形態に係る、本開示の声紋認証システムにおいて訓練及び適用されるニューラルネットワークの実例的なブロック図を描写する図である。
【
図4】本明細書に記載され示される1つ以上の実施形態に係る、本開示の声紋認証システムを備える車両の例示的な内部図を描写する図である。
【
図5A】本明細書に記載され示される1つ以上の実施形態に係る、本開示の声紋認証システムにおける複数のユーザの声紋に関する例示的な元のクラスタを描写する図である。
【
図5B】本明細書に記載され示される1つ以上の実施形態に係る、本開示の声紋認証システムにおける複数のユーザの声紋に関する例示的な縮小クラスタを描写する図である。
【
図6】本明細書に記載され示される1つ以上の実施形態に係る、声紋認証及び補間に関する本開示の声紋認証システムの動作を記載しているフローチャートを描写する図である。
【
図7】本明細書に記載され示される1つ以上の実施形態に係る、本開示の声紋認証システムのニューラルネットワークに関する動作を記載しているフローチャートを描写する図である。
【
図8】話者を認証して本開示の補間に関する確率論的概念を適用する方法のステップを記載しているフローチャートを描写する図である。
【発明を実施するための形態】
【0008】
本明細書に開示される実施形態は、声紋認証及び補間に関する方法及びシステムを対象とする。システムは、ユーザについての声紋を作成して、ユーザの音声からユーザの認証を可能にする。最近の車両は、機能及びサービスを提供し、ここで、登録ユーザの認証は、ユーザが当該機能及びサービスを使用し得る前に行われる。しかしながら、パスワード又はPINコードなどの認証の方法は、容易に危殆化して、使用するのが不便であるか又は実用的でない場合がある。声紋認証は、車両のユーザを認証するためのよりセキュアで便利な方法を提供することによって、これらの問題を克服する。声紋認証は、偽造するのが困難であって声紋認証をセキュアな認証の方法にする人の音声に関する固有の特徴に基づく。ユーザが、どのパスワードもPINコードも覚える必要がなくユーザ自身の声を使用して車両のマイクに話す必要があるだけであるため、声紋認証は便利である。更に、声紋認証は、様々な目的、例えば、承認されていない車両の使用の防止、車両使用の追跡、及び複数の集団車両の監視に対して柔軟である。
【0009】
本明細書に開示される声紋認証は、アクティブ音声生体認証又はパッシブ音声生体認証を使用し得る。アクティブ手法は、ユーザが選択してガイドされる明示的な音声登録プロセスを必要とする。アクティブ音声生体認証手法は、ユーザが所定の原稿を複数回暗唱して自身の固有の声紋を明示的に確立することを必要とする。ユーザがアクティブ認証を使用する度に、ユーザは、パスフレーズを言う必要がある。アクティブ認証システムは、ユーザの音声を、記録された原稿と比較する。ユーザは、認証プロセスを完全に認識している。
【0010】
パッシブ手法は、車両内で行われている話に基づいて、匿名化されたユーザIDを推測する。パッシブ音声認証では、特定のパスフレーズを言う必要がない。ユーザは、通常の会話に参加してパッシブ認証をトリガし得、パッシブ認証は連続的に、ユーザを再識別及び再認証し得る。ユーザの声紋は、システムにおいて記録されて初期登録の録音及び/又は登録後の連続的な録音を含み得る。ユーザが車両内で話すと、システムは、ユーザが何を言っているかに関わらず、ユーザの話を声紋と比較して話を検証する。
【0011】
本明細書に開示される実施形態は、再び起きているバックグラウンドプロセスのパッシブ登録を含む。プロセスの間、話のサンプルが埋め込まれて記憶され、教師なしクラスタリングが通常の間隔で行われる。いくつかの音声サンプルを収集及び処理した後、声紋認証システムは、エンベディングが同じ話者に属するという高い信頼度を有する特徴のエンベディングを作成する。音声認証システムは、既存の登録ユーザについてエンベディング境界を更に改良し得る。音声認証システムは、検出された声紋がどの既知のユーザにも属しない場合に匿名の非ユーザに割り当てられる新しいエンベディングを作成する機能を有し得る。パッシブに登録された正規のエンベディングは、ユーザの体験を自身の車内バーチャルアシスタントで改善するために使用され得る。
【0012】
話及び声紋の比較に基づいて、システムは更に、それらの類似度に基づいて確率論的概念を生成して、認証を必要とする下流の「ユーザ嗜好」エンベディングにおいて確率論的概念を使用し得る。下流のエンベディングにおける確率論的概念の使用は、例えば、ノイズレベルを低減し、ユーザ嗜好エンベディングの変動性を捕らえ、推奨の精度を改善して、ユーザ嗜好モデリングの堅牢性を改善する。
【0013】
図に戻り、
図1は、声紋認証システム100の実例的な実施形態を描写する。声紋認証システム100は、音声特徴モジュール322と、類似度モジュール332と、認証モジュール342と、を備え得る。
図3に描写される声紋認証システム100は、コントローラ101を含む車両に備わる計算デバイスを含む。コントローラ101は、様々な構成要素、例えば、メモリ302、プロセッサ304、入力/出力ハードウェア305、ネットワークインターフェースハードウェア306、データストレージ構成要素307、ローカルインターフェース303、及び音声センサ402を更に備え得る。声紋認証システム100は、(例えば、
図4に示されるような)ボタン404と、(例えば、
図4に示されるような)タッチスクリーン406と、を更に含み得る。
【0014】
コントローラ101は、プロセッサ304及び非一時的なコンピュータ可読メモリなどのメモリ302を備える任意のデバイス又は構成要素の組み合わせであり得る。プロセッサ304は、非一時的なコンピュータ可読メモリに記憶された機械可読命令セットを実行することができる任意のデバイスであり得る。したがって、プロセッサ304は、電気コントローラ、集積回路、マイクロチップ、コンピュータ、又は任意の他の計算デバイスであり得る。プロセッサ304は、(データストレージ構成要素307及び/又はメモリ構成要素302などから)プログラミング命令を受信及び実行するように構成された任意の処理構成要素を含み得る。命令は、データストレージ構成要素307及び/又はメモリ構成要素302に記憶された機械可読命令セットの形態であり得る。プロセッサ304は、ローカルインターフェース303によってコントローラ101の他の構成要素に対して通信可能に接続される。したがって、ローカルインターフェース303は、任意の数のプロセッサ304を互いに通信可能に接続して、分散された計算環境で、ローカルインターフェース303に接続された構成要素が動作することを可能にし得る。ローカルインターフェース303は、コントローラ101の構成要素間の通信を容易にするためのバス又は他のインターフェースとして実装され得る。一部の実施形態では、構成要素の各々は、データを送信及び/又は受信し得るノードとして動作し得る。
図1に描写される実施形態は、単一のプロセッサ304を含むが、他の実施形態は、1つよりも多くのプロセッサを含み得る。
【0015】
メモリ302(例えば、非一時的なコンピュータ可読メモリ構成要素)は、機械可読命令がプロセッサ304によってアクセス及び実行され得るように機械可読命令を記憶することができる、RAM、ROM、フラッシュメモリ、ハードドライブ、又は任意の非一時的なメモリデバイスを備え得る。機械可読命令セットは、任意の世代(例えば、1GL、2GL、3GL、4GL、又は5GL)の任意のプログラミング言語、例えば、プロセッサ304によって直接実行され得る機械言語、又は機械可読命令にコンパイル若しくはアセンブルされてメモリ302に記憶され得る、アセンブリ言語、オブジェクト指向プログラミング(OOP)、スクリプト言語、マイクロコードなどで書かれたロジック又はアルゴリズムを備え得る。代替的に、機械可読命令セットは、フィールドプログラマブルゲートアレイ(FPGA)構成若しくは特定用途向け集積回路(ASIC)又はそれらと同等のものを介して実装されるロジックなどのハードウェア記述言語(HDL)で書かれ得る。したがって、本明細書に記載される機能は、事前にプログラムされたハードウェア要素として、又はハードウェア構成要素及びソフトウェア構成要素の組み合わせとして、任意の従来のコンピュータプログラミング言語で実装され得る。例えば、メモリ構成要素302は、命令を記憶する(非一時的なプロセッサ可読メモリ又は媒体とも称され得る)機械可読メモリであり得、当該命令は、プロセッサ304によって実行されると、本明細書に記載されるような方法又は制御スキームをプロセッサ304に行わせる。
図1に描写される実施形態は、単一の非一時的なコンピュータ可読メモリ302を含むが、他の実施形態は、1つよりも多くのメモリモジュールを含み得る。
【0016】
入力/出力ハードウェア305は、データを受信、送信、及び/又は提示する、モニタ、キーボード、マウス、プリンタ、カメラ、マイク、スピーカ、及び/又は他のデバイスを含み得る。ネットワークインターフェースハードウェア306は、他のネットワーク及び/又はデバイスと通信する、モデム、LANポート、Wi-Fiカード、WiMaxカード、モバイル通信ハードウェア、及び/又は他のハードウェアなどの任意の有線又は無線のネットワーキングハードウェアを含み得る。
【0017】
音声センサ402は、ローカルインターフェース303に接続されて、プロセッサ304に対して通信可能に接続される。音声センサ402は、車両における音声の音量、ピッチ、周波数、及び/又は特徴を決定する、声紋認証システム100に接続された1つ以上のセンサであり得る。音声センサ402は、エンジン音又はビームフォーミングなどのバックグラウンドノイズをフィルタリングするための機構を含み得るマイク又はマイクのアレイを含み得る。
【0018】
データストレージ構成要素307は、声紋317、ユーザ嗜好327、使用エンベディング337、及び訓練データ347を記憶する。
【0019】
メモリ構成要素302は、音声特徴モジュール322と、類似度モジュール332と、認証モジュール342と、を含み得る。音声特徴モジュール322は、エンコーダ及びデコーダを備えるニューラルネットワークモジュールを更に含み得る。
【0020】
音声特徴モジュール322は、本明細書に記載されるようにニューラルネットワーク122を介して訓練及び提供される機械学習機能であり得る。限定としてではなく、例示として、ニューラルネットワーク122は、1つ以上の人工ニューラルネットワーク(ANN)を利用し得る。ANNでは、ノード間の接続は、有向非巡回グラフ(DAG)を形成し得る。ANNは、ノード入力と、1つ以上の隠れ活性化層と、ノード出力と、を含み得、1つ以上の隠れ活性化層において活性化関数、例えば、線形関数、ステップ関数、ロジスティック(シグモイド)関数、tanh関数、正規化線形ユニット(ReLu)関数、又はこれらの組み合わせを用いて利用され得る。ANNは、当該活性化関数を訓練データセットに適用し、隠れ活性化層内のノードに適用される調整可能な重み及びバイアスから、最適化された解を決定して、最小化された誤差を有する最適化された解として1つ以上の出力を生成することによって訓練される。機械学習アプリケーションでは、(生成された1つ以上の出力などの)新しい入力は、精度を改善してANNモデルの誤差を最小化し続けるように訓練データとしてANNモデルに提供され得る。1つ以上のANNモデルは、1対1、1対多、多対1、及び/又は多対多(シーケンス対シーケンス)のシーケンスモデリングを利用し得る。1つ以上のANNモデルは、深層学習、ランダムフォレスト分類器、音声、画像からの特徴抽出、クラスタリングアルゴリズム、又はこれらの組み合わせなどであるがこれらに限定されない人工知能技術の組み合わせを採用し得る。一部の実施形態では、畳み込みニューラルネットワーク(CNN)が利用され得る。例えば、畳み込みニューラルネットワーク(CNN)は、機械学習の分野において、例えば、録音の音声分析に適用される深層フィードフォワードANNのクラスであるANNとして使用され得る。CNNは、シフト又は空間不変量であって、共有重みアーキテクチャ及び変換を利用し得る。
【0021】
図2A及び
図2Bは、音声特徴モジュール、類似度モジュール、並びにユーザを認証して、重み付け及び補間のために、認証されたユーザに関連して確率論的概念を生成する認証モジュールの実例的な実装態様の実例的なブロック図を描写する。
【0022】
図2Aのブロック図に示されるように、声紋認証システム100は、自動車の内側にいる現在の話者の人間音声110を受信して、人間音声110が、認証される登録ユーザに属するかどうかを決定し、(例えば、
図2Bに示されるような)下流のエンベディング補間160のために、認証に関連付けられる確率論的概念150も決定する。より具体的には、声紋認証システム100は、人間音声110を受信して、人間音声110を音声特徴モジュール322に送信する。音声特徴モジュール322は、1つ以上のニューラルネットワーク122を含み、1つ以上のニューラルネットワーク122は、自動車の内側にいる複数の過去の話者によって話された人間音声を備える訓練データに基づいて入力特徴112を生成するように訓練される。入力特徴112は、類似度モジュール332によって受信される入力ベクトル113に変換され得る。類似度モジュール332は、入力ベクトル113を登録ユーザの声紋における過去のベクトル116(例えば、声紋認証システム100において登録ユーザに属している全ての利用可能なベクトル)と比較して、入力ベクトル113が、登録ユーザに属している声紋における過去のベクトル116のうちの少なくとも1つと類似するかどうかを決定する。2つのベクトルがどのくらい類似しているかは、類似度として測定される。入力ベクトル113と認定ユーザに属している声紋における過去のベクトル116との類似度が閾値類似度未満であることを決定した後、認証モジュール342は、人間音声110を話す現在の話者を認定ユーザとして認証する。認証モジュール342は更に、類似度に基づいて確率論的概念を計算し得る。計算された確率論的概念は、認定ユーザに関連付けられる下流のユーザ嗜好エンベディング間、例えば、
図2Bに示されるユーザ嗜好327及び使用エンベディング337間で補間するように適用され得る。
【0023】
実施形態では、音声特徴モジュール322は、ニューラルネットワーク122を使用して、人間音声110に基づいて入力特徴112のセットを生成する。人間音声の入力特徴112は、各々の話におけるトーン、ピッチ、音量、速度、及び音色のデータを限定的ではなく含み得る。登録ユーザの特徴は次いで、ユーザが認証のために声紋認証システム100を最初に使用してから声紋の過去の特徴115を全て含むユーザの(例えば、
図3に示されるような)声紋317にプールされ得る。
【0024】
入力特徴112のセットは、入力ベクトル113として座標系においてプロットされ得る。ベクトルは、座標系におけるベクトルポイントである。例えば、声紋認証システム100は、各軸線が特徴の1つの変数を表す多次座標系を選択し得、ここで、変数は、トーン、ピッチ、音量、速度、音色、又は同種のものを含み得る。声紋認証システム100は、同じ登録ユーザの話を受信した後のベクトルを毎回クラスタ(例えば、ベクトルのグループ)にプロットし得、ここで、当該クラスタは、その特定の登録ユーザの声紋を表す。同様に、登録ユーザの声紋317は、ユーザが認証のために声紋認証システム100を最初に使用してから声紋の過去の特徴115を全て含み得る。また、登録ユーザの声紋317は、ユーザが認証のために声紋認証システム100を最初に使用してから、登録ユーザのクラスタとして過去のベクトル116を全て含み得る。様々な登録ユーザに属しているクラスタが座標系においてプロットされる場合、クラスタは、(例えば、
図5Aに示されるように)重複し得る。登録ユーザの声紋のクラスタはまた、声紋317内の特徴のプロットを通じて生成され得ることに留意されたい。
【0025】
本明細書に記載される類似度は、ベクトル(すなわち、座標系にプロットされるエンベディングのポイント)に基づくか、又は代替的に特徴に基づく。実施形態では、類似度は、ユークリッド類似度とコサイン類似度とを含み得る。ユークリッド類似度は、特徴の2つのポイント間の距離である。類似度が高くなるほどポイントは近くなる。ユークリッド距離は、2つのベクトルの対応する要素間の差を二乗したものの合計の平方根である。コサイン類似度は、2つのベクトル間の角度に基づく。コサイン類似度は、(1-cos α)と等しく、ここでαは、2つのベクトル間の角度である。ユークリッド類似度及びコサイン類似度の両方について、類似度のより小さい値は、ベクトルがより類似していることを示す。ユークリッド類似度は、声紋認証システム100が登録ユーザから人間音声110の充分なデータを受信する場合にコサイン類似度よりも好ましい場合がある。コサイン類似度は、特徴間の比が当該特徴の優先順位付けよりも重要である場合に好ましい場合がある。例えば、人が高トーンで高ピッチの特徴を有する場合に、声紋認証システム100が、ピッチを表すx軸線及びトーンを表すy軸線を有する2座標系を採用する場合、コサイン類似度は、低トーンで低ピッチを表すベクトルについて見出され得る。これは、利用可能な音声特徴が、制限されていて、特定のユーザを更に検証してユーザの使用嗜好をパーソナライズするように利用可能なデータを拡張するために使用され得る場合に、初期段階でより多くの音声入力を認めるのに有用である。したがって、システムは、その特定のユーザについての声紋におけるデータ/特徴の利用可能性に応じて、認証時にどの類似度を使用すべきかを戦略的に選択し得る。一部の実施形態では、類似度モジュール332は更に、類似度の計算時にジャッカード類似度又はダイス類似度などの他のタイプの類似度を採用し得る。ジャッカード類似度は、共通事項の特徴をカウントして2つの集合の特徴の総数で割ることによって、特徴の2つの集合間における類似度を測定する。ジャッカード類似度に類似するダイス類似度は、2つの集合の度数によって共通の特徴のカウントを重み付けする。
【0026】
認証モジュール342は、声紋認証システム100によって受信される人間音声が登録ユーザの音声として認識される最低ラインを示すために閾値類似度140を選択し得る。閾値類似度140の低い値は、高度な認証及びプライバシ保護が、人による承認されていない使用を排除することを示唆する。しかしながら、声紋認証システム100の初期使用の間、システム内へのより多くの音声データを認めて、声紋の過去の特徴115のプールを増加させて、ニューラルネットワーク122が1人以上のユーザにパーソナライズされることを可能にするために、より高い値が採用され得る。より後の段階で、システムが、信頼できる充分なデータが利用可能であることを見出すと、より低い閾値類似度140が選択され得る。場合によっては、声紋のクラスタ(ベクトルのグループ)は重複し得る。人間音声110に基づいて生成される入力ベクトル113が2つのクラスタの重複エリアにおいてプロットされるため、声紋認証システム100は、人間音声110が2人の登録ユーザに属するという高い信頼度を見出し得る。そのポイントにおいて、認証は、不正確な重み付けされた統合及び補間160をもたらし得る。当該不正確性に対するソリューションは、以下で更に提示される。
【0027】
実施形態では、声紋認証システム100が、人間音声がどの登録ユーザにも属しないことを決定すると、声紋認証システム100は、非ユーザについての声紋を作成し得る。当該機能により、声紋認証システム100は、非ユーザの複数の声紋を含み得る。したがって、(例えば、
図2Aに示されるような)類似度モジュール332は、入力ベクトルと1人以上の非ユーザの声紋との類似度を決定し得る。類似度が閾値類似度未満であることを決定した後、声紋認証システム100は、入力ベクトル113を非ユーザの声紋に統合し得る。更に、類似度が閾値類似度を超えることを決定する際、声紋認証システム100は、入力ベクトル113に基づいて非ユーザの声紋を作成し得る。非ユーザについての声紋を作成する機能は、非ユーザが後にユーザとして登録され得ると高信頼度のユーザ声紋を作成する便宜を可能にする。
【0028】
認証モジュール342は、入力ベクトル113と過去のベクトル116との間で類似度モジュール332によって計算される類似度118に基づいて確率論的概念150を決定する。確率論的概念150は、類似度118に対して反比例する重み係数を含み得、ここで、重み係数は、0と1との間の値を有する。類似度が、入力ベクトル113が過去のベクトル116におけるベクトルと同一であることを示唆する場合、重み係数は1と等しくなり得る。類似度が、入力ベクトル113が全ての過去のベクトル116の外側にあることを示唆する場合、重み係数は0と等しくなり得る。
【0029】
図2Bを参照すると、認証、並びに重み付け及び補間用の確率論的概念の生成に関する認証モジュールの実例的な実装態様の実例的なブロック図が描写されている。認証モジュール342が確率論的概念150を生成した後、確率論的概念150は、一部の特徴が他よりも重要であるということに対して、異なるユーザエンベディングにおける異なる特徴を重み付けするために使用され得る。例えば、確率論的概念は、異なるグループにユーザをクラスタリングするために使用され得、これは、同様の嗜好を有するユーザを識別するか、又はどのようにユーザが新しいピースのコンテンツに応答するかを予測するのに役立ち、その結果、車両システムは、ユーザが楽しむ可能性があるコンテンツを予測又は推奨し得る。
【0030】
特に、確率論的概念150は、車両での声紋認証システム100及び他のシステムにおいて、リアルタイムに生成された特徴及びベクトルをエンベディングに組み込むために使用され得る。例えば、入力特徴112は、認定ユーザに関する声紋の過去の特徴115にプールされる前に重み付け(152)され得、人間音声110から導出されるユーザコメント120は、ユーザ嗜好327にプールされる前に重み付け(152)され得、人間音声110から導出されるユーザインタラクション130は、使用エンベディングにプールされる前に重み付け(152)され得る。
【0031】
認証モジュールは、入力ベクトル113と過去のベクトル116との間で類似度モジュール332によって計算される類似度118に基づいて確率論的概念150を決定した後、人間音声110の話者の認証142も認め得る。当該認証下で、話者は、車両システムにおける様々な機能を使用するために、例えば、人間音声110を使用し、車両のサブシステムを制御するように車両に命令して認証され得る。話者は、ラジオ又はメディアプレーヤをオン又はオフにすること、電話をかけること、検索を行うこと、及び同種のことを行うように車両に命令し得る。
【0032】
実施形態では、人間音声110に基づいて、認証142が認定ユーザに対して利用可能であることを声紋認証システム100が決定した後、声紋認証システム100は、人間音声110がユーザコメント120を含むかどうか、例えば、認定ユーザが、新しくオープンしたレストランに関する肯定的なコメントを提供するかどうかを更に決定し得る。人間音声110及びユーザコメント120を決定した後、声紋認証システム100は、確率論的概念150に基づいてユーザコメント120を重み付けして、重み付け(152)されたユーザコメント120をユーザ嗜好327に統合し得る。同様に、人間音声110に基づいて、認証142が認定ユーザに対して利用可能であることを声紋認証システム100が決定した後、声紋認証システム100は、人間音声110がユーザインタラクション130を含むかどうか、例えば、認定ユーザが、特定の歌を再生するか又は認定ユーザの友達に電話をかけるように車両システムに命令するどうかを更に決定し得る。人間音声110及びユーザインタラクション130を決定した後、声紋認証システム100は、確率論的概念150に基づいてユーザインタラクション130を重み付けして、重み付け(152)されたユーザインタラクション130を使用エンベディング337に統合し得る。
【0033】
更に、確率論的概念150は、認定ユーザに関連付けられる下流のユーザ嗜好エンベディングなどの異なるエンベディング間で補間するために使用され得る。下流のユーザ嗜好エンベディングは、ユーザ嗜好エンベディングに関連付けられるサービスを提供するか又は新しい入力をユーザ嗜好エンベディングに統合する前に声紋認証を必要とするユーザ嗜好エンベディングを指し得る。ユーザ嗜好エンベディングは、車両システムに対するコマンド、ウェブサイトログ、及び登録ユーザのアプリ使用データなどの多様なソースから収集され得る。ユーザ嗜好は、認証中に認定ユーザによって述べられるユーザコメントに基づいて漸増的に計算されて過去のユーザ嗜好に動的に統合され得る。下流のユーザ嗜好エンベディングは、上述のようなユーザ嗜好327及び使用エンベディングを含む。確率論的概念150は、異なるデバイス及びアプリケーションを使用する下流のユーザ嗜好にわたって認定ユーザの共通表現を提供することによって、下流の高次元のユーザ嗜好エンベディング間で補間160を可能にするために使用され得る。例えば、補間エンベディング170は、式α×(ユーザ嗜好327)+(1-α)×(使用エンベディング337)を用いて生成され得、ここで、αは重み係数である。0と1との間の値を有する重み係数は、類似度118に対して反比例し、当該重み係数は、2つのユーザ嗜好エンベディング、すなわち、ユーザ嗜好327及び使用エンベディング337の相対的な重要性を表し得る。補間エンベディング170は次いで、ユーザの嗜好に関して予測を行うために使用され得る。例えば、車両システムは、車両システムを通じて配達の電話をするか又は直接運転してピザをピックアップすることによって、認証されたユーザが地元のピザ店のうちの1つにピザを注文する可能性があるかどうかを予測し得る。更に、車両システムは、機械学習モデルにおける特徴のうちの1つとして補間エンベディング170を使用し得る。
【0034】
図3を参照すると、訓練データ及びリアルタイムデータを使用して訓練されている声紋認証システム100における音声特徴モジュール322の例示的なニューラルネットワーク122が描写されている。声紋認証システム100におけるニューラルネットワーク122は、車両システムにおいて収集される人間音声110から導出される特徴を生成するために使用される。ニューラルネットワーク122は、車両の内側にいる複数の過去の話者によって話された人間音声を備える訓練データ347に基づく特徴を用いて事前に訓練され得る。ニューラルネットワーク122が事前に訓練されると、ニューラルネットワーク122は、人間音声110から導出される入力特徴112を生成するために使用され得る。入力特徴112は、確率論的概念150を使用して重み付けされて、関連付けられる登録ユーザの声紋317に統合され得、声紋317は次いで、ニューラルネットワーク122を連続的に訓練するために使用される。
【0035】
実施形態では、ニューラルネットワーク122は、確率論的概念150に基づいて重み付けされる入力特徴112を認定ユーザの声紋317に動的に統合するインクリメンタル学習アルゴリズムを含み得る。インクリメンタル学習アルゴリズムは、前のタスクに関する過去の特徴を蓄積して、同時に現在のタスクに関する入力特徴112を取り込む機能をニューラルネットワーク122に提供する。例えば、ニューラルネットワーク122によって新しく更新された声紋は、人間音声110に基づいて処理されたばかりのデータに基づいてニューラルネットワーク122を訓練するようにニューラルネットワーク122へフィードバックされる。このプロセスは、新しい人間音声110が利用可能になると繰り返され、これは、ニューラルネットワーク122がその精度を連続的に改善することを可能にする。インクリメンタル学習アルゴリズムは、少ない事前訓練データで、又は事前訓練データ無しでニューラルネットワーク122が特徴を生成することを可能にし得る。インクリメンタル学習アルゴリズムは、この状況において4つの異なるモデルで機能し得る。評価モードでは、インクリメンタル学習アルゴリズムは、人間音声110などの入って来るデータ又はインクリメンタル学習に使用されるモデルの履歴全体において、モデルの予測性能を追跡する。検出ドリフトモードでは、インクリメンタル学習アルゴリズムは、予測された特徴が構造変化又は分布ドリフトを示すかどうか、例えば、予測された特徴の分布が充分に変化したことを示すかどうかを検証する。アクティブ訓練モードでは、インクリメンタル学習アルゴリズムはまた、人間音声110などの入って来るデータに基づいてモデルを更新することによって自身でアクティブに訓練し得る。生成予測モードでは、インクリメンタル学習アルゴリズムは、最新のモデルからの予測ラベルを用いて特徴を生成し得る。ニューラルネットワーク122は、予測を生成するためにインクリメンタルモデルについて存在している音声データが充分であること、及び特徴の簡潔な予測のための訓練が充分であることに応じて、これらのモードを堅牢に切り替え得る。
【0036】
図4を参照すると、車両内の話を検出して車両において声紋登録を初期化するハードウェアを有する声紋認証システム100を備える車両の例示的な内部図が描写されている。
図4に示されるように、声紋認証システム100は、人が車両内で話すと生成される音波を検出して処理する1つ以上の音声センサ402を車両の内側に含み得る。音声センサは、車両の天井、ダッシュボード、又はセンターコンソールに配置され得る。音声センサは、音波を拾う1つ以上のマイクに接続され得る。音波は次いで、音波をデジタル信号に変換するコントローラ101によって処理される。
【0037】
声紋認証システム100は、新しいユーザについて声紋登録を初期化するボタン及びタッチスクリーンを更に含み得る。1人以上の登録ユーザの声紋は、初期実装を通じて登録される。初期実装は、登録に関する、登録を初期化するための物理的な又は音声のトリガを含み得る。登録に関する音声のトリガを介して登録を望むユーザは、声紋認証システム100によって認証されて登録プロセスを承認するように登録ユーザに要求する必要があり得る。登録に関する物理的なトリガを介して登録を望むユーザは、声紋認証システム100の設定メニューにアクセスして音声登録プロセスを初期化するために、物理的にボタン404を押すか又はタッチスクリーン406をタッチする必要があり得る。音声登録プロセスが始まったことを声紋認証システム100が示すと、ユーザは、音声サンプルをシステムに提供して初期声紋を作成し得る。例えば、ユーザは、所定の原稿を読んで声紋を作成し得る。別の例では、ユーザは、原稿に従うことなく任意のセットの言葉を話し得る。ユーザの音声の波ファイルは次いで、ニューラルネットワークに入力され、ユーザの音声の特徴を表している複数のベクトルを作成するように事前に訓練され得、声紋認証システム100にベクトルを記憶し得る。声紋認証システム100は、初期声紋のクラスタにおけるユーザの登録フレーズの平均に基づいて初期声紋を更に調整し得る。
【0038】
図5A及び
図5Bを参照すると、より正確に学習される特徴について複数のユーザの声紋を低減する例が描写されている。
図5Aに示されるように、複数のユーザに関する声紋のクラスタは互いに重複し得る。入力ベクトル113が、1人よりも多くの登録ユーザに非常に類似していると見なされ得、声紋認証システム100がどのユーザエンベディングを有効にすべきかを正確に決定することが困難であり得るため、異なるクラスタ間の重複は問題である。
【0039】
更に、ユーザに属している声紋は、クラスタのメインエリアから離れている分離されたベクトルを有し得る。声紋が、クラスタのメインエリアから離れている分離されたベクトルを有する場合、声紋認証システム100がユーザを識別することは困難であり得る。これは、ユーザが、クラスタ内の他のベクトルによって充分に表されない固有の話パターン(真に分離されたベクトル)を有する場合に回避不可能であり得る。しかしながら、一部の場合、当該分離されたベクトルは、人為的な理由により存在する。例えば、ユーザは、騒がしい環境で話している場合があって、これにより、ユーザの音声の特徴の全てを取り込むことが困難になり得るか、又はユーザが早口で話している場合があって、これによっても、ユーザの音声の特徴の全てを取り込むことが困難になり得る。したがって、当該分離されたベクトルを除去することが望ましい。
【0040】
上述の問題に対処するために、声紋認証システム100は、声紋認証システム100がユーザを効率的で正確に認識できる程度まで、声紋を縮小する機能を含み得る。声紋縮小は、音声認識の精度を向上させるために、ユーザの音声に関する声紋表現の次元を低減することを指す。この技術は、ニューラルネットワークの使用を通じて達成され得る。例えば、ニューラルネットワーク122は、閾値信頼度未満である信頼度を有する声紋の特徴を除去することによって認定ユーザの声紋を縮小し得る。ニューラルネットワーク122が当該機能を有することを可能にするために、ニューラルネットワーク122は、声紋を構成する異なる特徴、及び異なるユーザに属し得る声紋と同じ特徴を認識するように訓練され得る。訓練済みニューラルネットワーク122は、(例えば、
図5Aに示されるような)元の声紋から特徴を抽出して、(例えば、
図5Bに示されるような)より小さい新しい声紋を作成するために使用され得る。新しい声紋は、元の声紋よりも小さいが、重要な特徴を保持する。抽出の間、信頼値は、どの特徴が新しい声紋に保持されるかを決定するために使用され得る。閾値よりも大きい信頼値を有する特徴は保持される一方、閾値よりも低い信頼値を有する特徴は破棄される。信頼値の選択は、アプリケーションに依存する。例えば、識別に使用される声紋は、新しい声紋がより正確であることを保証するように高い信頼値を必要とする。特徴を抽出する方法は、主成分分析(PCA)又は再帰的特徴量削減(RFE)を含み得る。特に、
図5Bに示されるように、声紋は、別の声紋と重複する声紋の特徴を除去することによって縮小され得る。一部の実施形態では、真に分離されたベクトルが除去される場合、認証を誤って拒絶するリスクがあり得るため、声紋認証システム100は、真に分離されたベクトルを他の分離されたベクトルと区別する機械学習機能を含み得る。
【0041】
図6を参照すると、声紋認証142及び補間160に関する本開示の声紋認証システム100の動作を記載している例示的なフローチャートが描写されている。ステップ601で、音声特徴モジュール322は、ニューラルネットワーク122を使用して、車両の内側にいる現在の話者の人間音声110に基づいて入力特徴を生成する。人間音声110は、音声センサ402を使用して受信され得る。ニューラルネットワーク122は、車両の内側にいる複数の過去の話者によって話された人間音声を含む訓練データ347に基づいて事前に訓練され得、声紋認証システム100の使用中に連続的に訓練され得る。
【0042】
ステップ602で、類似度モジュール332は、入力特徴112の入力ベクトル113と1人以上の登録ユーザの声紋における過去のベクトル116との類似度を計算する。ステップ603で、認証モジュール342は、入力ベクトル113と声紋317における過去のベクトル116との少なくとも1つの類似度が閾値類似度140未満であるかどうかを決定する。
【0043】
閾値類似度未満である、入力ベクトル113と過去のベクトル116との類似度が無い(ステップ603で、いいえである)場合、次いでステップ604で、声紋認証システム100は、入力特徴112の入力ベクトル113に基づいて非ユーザの声紋317を作成し得る。入力ベクトル113と過去のベクトル116との少なくとも1つの類似度が閾値類似度140未満である(ステップ603で、はいである)場合、次いでステップ605で、次いでステップ605で、認証モジュール342は、入力ベクトル113に非常に類似している過去のベクトル116が登録ユーザに属するかどうかを決定する。
【0044】
過去のベクトルが登録ユーザに属さないことを認証モジュール342が決定する(ステップ605で、いいえである)場合、次いでステップ606で、認証モジュール342は、現在の話者を非ユーザとして認識し、声紋認証システム100は、入力ベクトル113を非ユーザの声紋に統合し得る。過去のベクトルが登録ユーザに属することを認証モジュール342が決定する(ステップ605で、はいである)場合、次いでステップ607で、認証モジュール342は、現在の話者を認定ユーザとして認識して、現在の話者を認定ユーザとして認証する。
【0045】
ステップ608で、認証モジュール342は、類似度118に基づいて確率論的概念150を計算する。ステップ609で、声紋認証システム100は、認定ユーザに関連付けられる嗜好エンベディング間で補間するように確率論的概念150を適用する。例えば、声紋認証システム100は、重み付けされたユーザコメント120を統合しているユーザ嗜好327及び重み付けされたユーザインタラクション130を統合している使用エンベディング337間で補間し得る。
【0046】
図7を参照すると、声紋認証システム100のニューラルネットワーク122の動作を記載している例示的なフローチャートが描写されている。ステップ701で、ニューラルネットワーク122は、車両の内側で話された人間音声を備える訓練データ347に基づいて事前に訓練され得る。訓練データ347は、車両内のバックグラウンド音声を更に含み得、その結果、ニューラルネットワーク122は、人間音声に関連付けられるバックグラウンドノイズを除去するように訓練され得る。ニューラルネットワーク122は更に、音声センサ402によって拾われる受信音波が車両の内側で記録されるかどうか、又は受信音波がリアルタイムの話ではなく録音であるかどうかを決定するように訓練され得る。
【0047】
ステップ702で、音声センサ402は、人間音声を受信し、音声特徴モジュール322内のニューラルネットワーク122は、人間音声110などの入って来るデータに基づいて入力特徴112を生成する。
【0048】
ステップ703で、認証モジュール342は、認定ユーザを認証するかどうかを決定する。認定ユーザについての認証が存在しない(ステップ703で、いいえである)場合、ニューラルネットワーク122は、訓練のために入力特徴を取得するのを拒否して、ステップ702で新しい人間音声を受信して新しい人間音声に基づいて入力特徴を生成するのを待機し得る。
【0049】
認定ユーザについての認証が存在する(ステップ703で、はいである)場合、ステップ704で、認証モジュール342は、入力ベクトル113と認定ユーザの過去のベクトル116との類似度118に基づいて確率論的概念150を計算する。
【0050】
ステップ705で、声紋認証システム100は、訓練のために入力特徴112及び入力ベクトル113をニューラルネットワーク122に供給する。訓練後、声紋認証システム100は、別の回の訓練のために別の人間音声110を受信し、それによって、ニューラルネットワーク122の精度を連続的に改善し得る。
【0051】
図8を参照すると、話者を認証して補間に関する確率論的概念を適用する方法のステップを記載している例示的なフローチャートが描写されている。ステップ801で、方法は、車両の内側にいる複数の過去の話者によって話された人間音声を備える訓練データに基づいて特徴を生成するようにニューラルネットワークを訓練するステップを含む。ステップ802で、方法は、ニューラルネットワークを使用して、車両の内側にいる現在の話者の人間音声に基づいて入力特徴を生成するステップを含む。ステップ803で、方法は、入力特徴の入力ベクトルと1人以上の登録ユーザの声紋における過去のベクトルとの類似度を計算するステップを含む。ステップ804で、方法は、入力ベクトルと認定ユーザの声紋における少なくとも1つの過去のベクトルとの類似度が閾値類似度未満であることを決定した後、現在の話者を認定ユーザとして認証するステップを含む。ステップ805で、方法は、類似度に基づいて確率論的概念を計算するステップを含む。ステップ806で、方法は、認定ユーザに関連付けられる下流のユーザ嗜好エンベディング間で補間するように確率論的概念を適用するステップを含む。
【0052】
本明細書で使用される用語は、単に特定の態様を記載するためのものであって、限定することを意図したものではない。本明細書で使用される単数形態「a」、「an」、及び「the」は、内容が明確に他の場合を示していない限り、「少なくとも1つ」を含む複数形態を含むように意図される。「又は」は、「及び/又は」を意味する。本明細書で使用される「及び/又は」という用語は、関連付けられた列挙事項のうちの1つ以上のいずれか及び全ての組み合わせを含む。本明細書で使用されるとき、「備える(comprises)」及び/若しくは「備えている(comprising)」又は「含む(includes)」及び/若しくは「含んでいる(including)」という用語は、述べられた特徴、領域、整数、ステップ、動作、要素、及び/又は構成要素の存在を指定するが、1つ以上の他の特徴、領域、整数、ステップ、動作、要素、構成要素、及び/又はこれらのグループの存在又は追加を除外しないことが更に理解されるであろう。「又はこれらの組み合わせ」という用語は、前述の要素のうちの少なくとも1つを含む組み合わせを意味する。
【0053】
特定の実施形態が本明細書に示され記載されているが、様々な他の変更及び修正が、請求された主題の趣旨及び範囲から逸脱することなく行われ得ることを理解されたい。更に、請求された主題の様々な態様が本明細書に記載されているが、当該態様は、組み合わされて利用される必要はない。したがって、添付の特許請求の範囲は、請求された主題の範囲内にある全てのこのような変更及び修正を包含することが意図される。
【外国語明細書】