IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ピンドロップ セキュリティー、インコーポレイテッドの特許一覧

特表2023-511104ディープ残差ニューラルネットワークを用いたロバストなスプーフィング検出システム
<>
  • 特表-ディープ残差ニューラルネットワークを用いたロバストなスプーフィング検出システム 図1
  • 特表-ディープ残差ニューラルネットワークを用いたロバストなスプーフィング検出システム 図2
  • 特表-ディープ残差ニューラルネットワークを用いたロバストなスプーフィング検出システム 図3
  • 特表-ディープ残差ニューラルネットワークを用いたロバストなスプーフィング検出システム 図4
  • 特表-ディープ残差ニューラルネットワークを用いたロバストなスプーフィング検出システム 図5
  • 特表-ディープ残差ニューラルネットワークを用いたロバストなスプーフィング検出システム 図6
  • 特表-ディープ残差ニューラルネットワークを用いたロバストなスプーフィング検出システム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-03-16
(54)【発明の名称】ディープ残差ニューラルネットワークを用いたロバストなスプーフィング検出システム
(51)【国際特許分類】
   G10L 17/00 20130101AFI20230309BHJP
   G10L 17/18 20130101ALI20230309BHJP
   G10L 25/51 20130101ALI20230309BHJP
【FI】
G10L17/00 200Z
G10L17/18
G10L25/51
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022543650
(86)(22)【出願日】2021-01-22
(85)【翻訳文提出日】2022-09-13
(86)【国際出願番号】 US2021014633
(87)【国際公開番号】W WO2021154600
(87)【国際公開日】2021-08-05
(31)【優先権主張番号】62/966,473
(32)【優先日】2020-01-27
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/068,670
(32)【優先日】2020-08-21
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】519084065
【氏名又は名称】ピンドロップ セキュリティー、インコーポレイテッド
(74)【代理人】
【識別番号】100094569
【弁理士】
【氏名又は名称】田中 伸一郎
(74)【代理人】
【識別番号】100103610
【弁理士】
【氏名又は名称】▲吉▼田 和彦
(74)【代理人】
【識別番号】100109070
【弁理士】
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【弁理士】
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100086771
【弁理士】
【氏名又は名称】西島 孝喜
(74)【代理人】
【識別番号】100109335
【弁理士】
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100120525
【弁理士】
【氏名又は名称】近藤 直樹
(74)【代理人】
【識別番号】100139712
【弁理士】
【氏名又は名称】那須 威夫
(74)【代理人】
【識別番号】100122563
【弁理士】
【氏名又は名称】越柴 絵里
(72)【発明者】
【氏名】チェン ティアンシャン
(72)【発明者】
【氏名】コーリー エリー
(57)【要約】
本明細書に記載される実施形態は、オーディオ信号におけるスプーフィング検出のためのニューラルネットワークアーキテクチャを実装するシステム及び方法を提供する。ニューラルネットワークアーキテクチャは、入力オーディオ信号から埋め込みを抽出する埋め込み抽出器を定義するレイヤを含む。スプーフプリント埋め込みは、登録者の音声をスプーフィングしようとする試みを検出するために、特定のシステム登録者について生成される。任意選択的に、登録者の音声を認識するために、システム登録者について声紋埋め込みが生成される。声紋は、登録者の音声に関連する特徴を用いて抽出される。スプーフプリントは、登録者の話し方及び他のアーチファクトの特徴に関連する特徴を用いて抽出される。このスプーフプリントにより、登録者の音声になりすましてエミュレートする合成スピーチ(例えば、ディープフェイク)を用いた音声バイオメトリクスを騙す試みを検出することが容易になる。
【選択図】 図1
【特許請求の範囲】
【請求項1】
スプーフィング対策のためのコンピュータ実装方法であって、
コンピュータによって、登録者のための1又は2以上の登録者オーディオ信号から抽出された1又は2以上の特徴の第1のセットに基づいて、前記登録者の登録者スプーフプリントを生成するステップであって、前記1又は2以上の特徴の第1のセットが前記登録者の1又は2以上のオーディオ特性を含む、ステップと、
前記コンピュータによって、ニューラルネットワークアーキテクチャをインバウンドオーディオ信号に適用するステップであって、前記ニューラルネットワークアーキテクチャが、オーディオ信号において発生するスプーフィングアーチファクトを検出するようにトレーニングされている、ステップと、
前記コンピュータによって、インバウンド話者のためのインバウンドオーディオ信号に前記ニューラルネットワークアーキテクチャを適用することによって、前記インバウンド話者のインバウンドスプーフプリントを生成するステップと、
前記コンピュータによって、前記インバウンドスプーフプリントと前記登録者スプーフプリントとの間の1又は2以上の類似性に基づいて、前記インバウンドオーディオ信号のためのスプーフィング尤度スコアを生成するステップと、
を含む、方法。
【請求項2】
前記コンピュータによって、複数のトレーニングオーディオ信号から複数の特徴を抽出するステップであって、前記複数のトレーニングオーディオ信号が、1又は2以上のシミュレーションオーディオ信号と1又は2以上のクリーンオーディオ信号とを含む、ステップと、
前記コンピュータによって、前記ニューラルネットワークアーキテクチャをトレーニングして、前記ニューラルネットワークアーキテクチャを前記複数の特徴に適用することによってスピーチを検出するステップと、
を含む、請求項1に記載の方法。
【請求項3】
前記コンピュータによって、1又は2以上のデータ拡張オペレーションを実行することによって前記1又は2以上のシミュレーションオーディオ信号を生成するステップを更に含む、請求項2に記載の方法。
【請求項4】
トレーニングフェーズ中に、
前記コンピュータによって、前記ニューラルネットワークアーキテクチャによって出力された前記スプーフィング尤度スコアに対して前記ニューラルネットワークアーキテクチャの損失関数を実行するステップであって、前記損失関数は、クラス間分散の最大化及びクラス内分散の最小化に基づいて、前記ニューラルネットワークアーキテクチャの1又は2以上のレイヤの1又は2以上のハイパーパラメータを更新するように前記コンピュータに命令する、ステップを更に含む、請求項2に記載の方法。
【請求項5】
前記登録者のための前記登録者スプーフプリントを生成するステップが、前記コンピュータによって、前記ニューラルネットワークアーキテクチャを前記1又は2以上の登録者オーディオ信号から抽出された1又は2以上の特徴の第1のセットに適用して、前記登録者スプーフプリントに対応する特徴ベクトルを生成するステップを含む、請求項1に記載の方法。
【請求項6】
前記登録フェーズの間、前記コンピュータによって、前記1又は2以上の登録者オーディオ信号に対して1又は2以上のデータ拡張オペレーションを実行することにより、1又は2以上のシミュレーション登録者オーディオ信号を生成するステップを更に含む、請求項5に記載の方法。
【請求項7】
前記1又は2以上のデータ拡張オペレーションは、周波数マスキングデータ拡張オペレーションを含む、請求項6に記載の方法。
【請求項8】
前記コンピュータによって、前記登録者のための前記1又は2以上の登録者オーディオ信号から抽出された1又は2以上の特徴の第2のセットに前記ニューラルネットワークアーキテクチャを適用することによって、前記登録者の登録者声紋を生成するステップであって、前記1又は2以上の特徴の第2のセットが、前記登録者の1又は2以上の音声特性を含む、ステップと、
前記コンピュータによって、前記インバウンドオーディオ信号から抽出された前記1又は2以上の特徴の第2のセットに前記ニューラルネットワークアーキテクチャを適用することによって、前記インバウンド話者のインバウンド声紋を生成するステップと、
前記コンピュータによって、前記インバウンド声紋と前記登録者声紋との間の1又は2以上の類似性に基づいて、前記インバウンドオーディオ信号の音声類似度スコアを生成するステップと、
前記コンピュータによって、前記音声類似度スコアと前記スプーフィング尤度スコアとに基づいて複合類似度スコアを生成するステップと、
を更に含む、請求項1に記載の方法。
【請求項9】
前記コンピュータによって、前記登録者スプーフプリントと前記登録者声紋とに基づいて登録者複合埋め込みを生成するステップと、
前記コンピュータによって、前記インバウンドスプーフプリントと前記インバウンド声紋とに基づいてインバウンド複合埋め込みを生成するステップと、
前記コンピュータによって、前記登録者複合埋め込みと前記インバウンド複合埋め込みとの間の類似性に基づいて、前記インバウンドオーディオ信号の類似度スコアを生成するステップと、
を更に含む、請求項1に記載の方法。
【請求項10】
前記ニューラルネットワークアーキテクチャは、スプーフプリント埋め込み抽出器及び声紋埋め込み抽出器の少なくとも1つを含む、1又は2以上の埋め込み抽出器の1又は2以上のレイヤを備える、請求項1に記載の方法。
【請求項11】
スプーフィング対策のためのコンピュータ実装方法であって、
コンピュータによって、1又は2以上のクリーンオーディオ信号と1又は2以上のシミュレーションオーディオ信号とを含む複数のトレーニングオーディオ信号を取得するステップと、
前記コンピュータによって、オーディオ信号からスプーフプリント埋め込みを抽出して前記オーディオ信号を分類するニューラルネットワークアーキテクチャをトレーニングするステップであって、前記ニューラルネットワークアーキテクチャが、前記複数のトレーニングオーディオ信号の複数の特徴に前記ニューラルネットワークアーキテクチャを適用することによってトレーニングされる、ステップと、
前記コンピュータによって、前記インバウンドオーディオ信号の前記複数の特徴に対して前記ニューラルネットワークアーキテクチャを適用することによって、前記インバウンド話者のためのインバウンドスプーフプリントを抽出するステップと、
前記コンピュータによって、前記インバウンドスプーフプリントに対して前記ニューラルネットワークアーキテクチャを適用することに基づいて、前記インバウンドオーディオ信号の分類を生成するステップと、
を含む、方法。
【請求項12】
前記コンピュータによって、1又は2以上のデータ拡張オペレーションを実行することによって、前記1又は2以上のシミュレーションオーディオ信号を生成するステップを更に含む、請求項11に記載の方法。
【請求項13】
前記各トレーニングオーディオ信号について、
前記コンピュータによって、対応するトレーニングオーディオ信号に対して前記ニューラルネットワークアーキテクチャの埋め込み抽出器を適用することによって、前記対応するトレーニングオーディオ信号のトレーニングスプーフプリントを抽出するステップと、
前記コンピュータによって、前記対応するトレーニングオーディオ信号に対する前記埋め込み抽出器によって出力された前記トレーニングスプーフプリントに従って、前記ニューラルネットワークアーキテクチャの損失関数を実行するステップであって、前記損失関数は、前記ニューラルネットワークアーキテクチャの1又は2以上のレイヤの1又は2以上のハイパーパラメータを更新するように前記コンピュータに命令し、前記1又は2以上のハイパーパラメータは、クラス間分散の最大化及びクラス内分散の最小化に基づいて更新される、ステップと、
を更に含む、請求項11に記載の方法。
【請求項14】
システムであって、
非一時的な機械可読メモリと、
プロセッサを含むコンピュータと、
を備え、
前記コンピュータが、
登録者のための1又は2以上の登録者オーディオ信号から抽出された1又は2以上の特徴の第1のセットに基づいて、前記登録者の登録者スプーフプリントを生成し、前記1又は2以上の特徴の第1のセットが、前記登録者の1又は2以上のタイプのオーディオ特性を含み、
前記登録者スプーフプリントを前記メモリに格納し、
インバウンドオーディオ信号にニューラルネットワークアーキテクチャを適用し、前記ニューラルネットワークアーキテクチャが、オーディオ信号において発生するスプーフィングアーチファクトを検出するようにトレーニングされ、
インバウンド話者のためのインバウンドオーディオ信号に前記ニューラルネットワークアーキテクチャを適用することによって、前記インバウンド話者のインバウンドスプーフプリントを生成し、
前記インバウンドスプーフプリントと前記登録者スプーフプリントとの間の1又は2以上の類似性に基づいて、前記インバウンドオーディオ信号のためのスプーフィング尤度スコアを生成する、
ように構成されている、
ことを特徴とする、システム。
【請求項15】
前記コンピュータは更に、
複数のトレーニングオーディオ信号から複数の特徴を抽出し、前記複数のトレーニングオーディオ信号が、1又は2以上のシミュレーションオーディオ信号と1又は2以上のクリーンオーディオ信号とを含み、
前記コンピュータによって、前記ニューラルネットワークアーキテクチャをトレーニングして、前記ニューラルネットワークアーキテクチャを前記複数の特徴に適用することによってスピーチを検出する、
ように構成されている、請求項14に記載のシステム。
【請求項16】
前記コンピュータは更に、
1又は2以上のデータ拡張オペレーションを実行することによって前記1又は2以上のシミュレーションオーディオ信号を生成する、
ように構成されている、請求項15に記載のシステム。
【請求項17】
前記コンピュータは更に、トレーニングフェーズにおいて、
前記ニューラルネットワークアーキテクチャによって出力された前記スプーフィング尤度スコアに対して前記ニューラルネットワークアーキテクチャの損失関数を実行し、前記損失関数は、クラス間分散の最大化及びクラス内分散の最小化に基づいて、前記ニューラルネットワークアーキテクチャのハイパーパラメータを更新するように前記コンピュータに命令する、
ように構成されている、請求項15に記載のシステム。
【請求項18】
前記コンピュータは更に、
前記ニューラルネットワークアーキテクチャを前記1又は2以上の登録者オーディオ信号から抽出された1又は2以上の特徴の第1のセットに適用して、前記登録者スプーフプリントに対応する特徴ベクトルを生成する、
ように構成されている、請求項14に記載のシステム。
【請求項19】
前記コンピュータは更に、
前記登録者のための1又は2以上の登録者オーディオ信号から抽出された1又は2以上の特徴の第2のセットに前記ニューラルネットワークアーキテクチャを適用することによって、前記登録者の登録者声紋を生成し、前記1又は2以上の特徴の第2のセットが、前記登録者の1又は2以上のオーディオ特性を含み、
前記インバウンドオーディオ信号から抽出された前記1又は2以上の特徴の第2のセットに前記ニューラルネットワークアーキテクチャを適用することによって、前記インバウンド話者のインバウンド声紋を生成し、
前記インバウンド声紋と前記登録者声紋との間の1又は2以上の類似性に基づいて、前記インバウンドオーディオ信号の音声類似度スコアを生成すること、及び
音声類似度スコアとスプーフィング尤度スコアに基づき、複合類似度スコアを生成する、
ように構成されている、請求項14に記載のシステム。
【請求項20】
前記ニューラルネットワークアーキテクチャは、スプーフプリント埋め込み抽出器及び声紋埋め込み抽出器の少なくとも1つを含む、1又は2以上の埋め込み抽出器の1又は2以上のレイヤを備える、請求項14に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願に対する相互参照)
本出願は、2020年1月27日に出願された米国仮出願第62/966,473号に対する優先権を主張し、引用により全体が本明細書に組み込まれる。
【0002】
本出願は、2020年8月21日に出願された米国仮出願第63/068,670号に対する優先権を主張し、その全体が引用により組み込まれる。
【0003】
本出願は、一般に、2019年10月11日に出願された米国仮出願第62/914,182号に対する優先権を主張する、2020年10月8日に出願された米国特許出願第17/066,210号の関連出願であり、これらの各々は、引用により全体が本明細書に組み込まれる。
【0004】
本出願は、一般に、2019年10月24日に出願された米国仮出願第62/925,349号に対する優先権を主張する、2020年10月23日に出願された米国特許出願第17/079,082号の関連出願であり、これらの各々は引用によりその全体が本明細書に組み込まれる。
【0005】
(技術分野)
本出願は、一般に、オーディオ処理のためのニューラルネットワークアーキテクチャを管理、トレーニング、及び展開するためのシステム及び方法に関する。詳細には、本出願は、オーディオ信号におけるスプーフィング検出及び話者認識のためのニューラルネットワークアーキテクチャに関する。
【背景技術】
【0006】
話者認識及び他のオペレーション(例えば、認証)のための音声バイオメトリクスは、特定の話者の低レベルの特徴を表す埋め込みを識別し抽出することができる。これらの埋め込みは、後でテスト時間中に参照して、後の話者の音声が保存された埋め込みにマッチすると決定することができる。しかしながら、間もなく、音声マッチングの従来の手法は、これらの従来のシステムを騙すことができるスピーチシンセサイザツールの改善に起因して、不十分又は陳腐化することになる。
【0007】
スピーチシンセサイザ技術及び音声変換技術の飛躍的な進歩に起因して、論理アクセス型音声スプーフィング(なりすまし)攻撃として知られ技術的に知られているオーディオディープフェイクは、音声インタフェースに対してますます脅威となっている。これらの攻撃を効果的に検出することは、インテリジェント話者認証システムを含む多くのスピーチアプリケーションにとって不可欠である。新しいタイプのスピーチシンセサイザ及び音声変換技術が急激に出現しているため、スプーフィング対策は極めて重要な課題になっている。合成スピーチツールは、従来の音声バイオメトリクステストの要件を満たす(そして騙す)合成スピーチを生成することができる。
【0008】
従って、合成スピーチツールが既知の話者のオーディオ特性を綿密に模倣する場合でもスプーフを検出するシステム及び方法が必要とされている。予期されない未知のスピーチシンセサイザツールの急激な展開を考えると、採用された特定の論理アクセス攻撃技術がこれまで知られてなかった場合でも、スプーフィング検出技術がスプーフ試行を検出できることが更に望まれている。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】米国仮出願第62/966,473号明細書
【特許文献2】米国仮出願第63/068,670号明細書
【特許文献3】米国仮出願第62/914,182号明細書
【特許文献4】米国特許出願第17/066,210号明細書
【特許文献5】米国仮出願第62/925,349号明細書
【特許文献6】米国特許出願第17/079,082号明細書
【発明の概要】
【0010】
本明細書で開示されるのは、上述の欠点に対処することができるシステム及び方法であり、また、あらゆる数の追加的又は代替の恩恵及び利点を提供することができる。本明細書で記載される実施形態は、オーディオ信号におけるスプーフィング検出のためのニューラルネットワークアーキテクチャを実装するシステム及び方法を提供する。ニューラルネットワークアーキテクチャは、声紋埋め込み及びスプーフプリント埋め込みを含む、入力オーディオ信号から埋め込みを抽出する埋め込み抽出器を定義する1又は2以上のレイヤを含む。ニューラルネットワークアーキテクチャは、声紋を使用して、話者のオーディオ特性が登録者の音声とマッチする尤度を評価する。ニューラルネットワークアーキテクチャは、スプーフプリントを使用して、インバウンド話者の音声が登録者の音声のスプーフィングされたインスタンスか又は真正のインスタンスである尤度を評価する。ニューラルネットワークアーキテクチャは、オーディオ信号から、声紋のために抽出された特徴のセットとは(少なくとも部分的に)異なるスプーフプリントのための特徴のセットを抽出する。声紋を抽出する際に生成される特徴ベクトルは、話者の音声を反映した特徴セットに基づいている。スプーフプリントを抽出するときに生成される特徴ベクトルは、スピーチシンセサイザツールがエミュレートするのが困難なスピーチパターンなど、話者の話し方の特定の態様のようなスプーフィングアーチファクトを示す様々なオーディオスプーフ特性を含む特徴のセットに基づいている。加えて、又は代替的に、本明細書に記載される実施形態は、顔認識システムにおける従来の使用から適応されるように、ラージマージンコサイン損失関数(LMCL)を採用することができる。有益なことに、LMCLは、真正クラスとスプーフィングクラスとの間の分散を最大化し、同時にクラス内分散を最小化する。
【0011】
一実施形態において、スプーフィング対策のためのコンピュータ実装方法であって、本方法は、コンピュータによって、登録者のための1又は2以上の登録者オーディオ信号から抽出された1又は2以上の特徴の第1のセットに基づいて、登録者の登録者スプーフプリントを生成するステップであって、1又は2以上の特徴の第1のセットが登録者の1又は2以上のオーディオ特性を含む、ステップと、コンピュータによって、ニューラルネットワークアーキテクチャをインバウンドオーディオ信号に適用するステップであって、ニューラルネットワークアーキテクチャが、オーディオ信号において発生するスプーフィングアーチファクトを検出するようにトレーニングされている、ステップと、コンピュータによって、インバウンド話者のためのインバウンドオーディオ信号にニューラルネットワークアーキテクチャを適用することによって、インバウンド話者のインバウンドスプーフプリントを生成するステップと、コンピュータによって、インバウンドスプーフプリントと登録者スプーフプリントとの間の1又は2以上の類似性に基づいて、インバウンドオーディオ信号のためのスプーフィング尤度スコアを生成するステップと、を含む。
【0012】
別の実施形態では、スプーフィング対策のためのコンピュータ実装方法であって、本方法は、コンピュータによって、1又は2以上のクリーンオーディオ信号と1又は2以上のシミュレーションオーディオ信号とを含む複数のトレーニングオーディオ信号を取得するステップと、コンピュータによって、オーディオ信号からスプーフプリント埋め込みを抽出してオーディオ信号を分類するニューラルネットワークアーキテクチャをトレーニングするステップであって、ニューラルネットワークアーキテクチャが、複数のトレーニングオーディオ信号の複数の特徴にニューラルネットワークアーキテクチャを適用することによってトレーニングされる、ステップと、コンピュータによって、インバウンドオーディオ信号の複数の特徴に対してニューラルネットワークアーキテクチャを適用することによって、インバウンド話者のためのインバウンドスプーフプリントを抽出するステップと、コンピュータによって、インバウンドスプーフプリントに対してニューラルネットワークアーキテクチャを適用することに基づいて、インバウンドオーディオ信号の分類を生成するステップと、を含む。
【0013】
別の実施形態では、システムは、非一時的な機械可読メモリと、プロセッサを含むコンピュータとを備える。コンピュータは、登録者のための1又は2以上の登録者オーディオ信号から抽出された1又は2以上の特徴の第1のセットに基づいて、登録者の登録者スプーフプリントを生成し、1又は2以上の特徴の第1のセットが、登録者の1又は2以上のタイプのオーディオ特性を含み、登録者スプーフプリントをメモリに格納し、インバウンドオーディオ信号にニューラルネットワークアーキテクチャを適用し、ニューラルネットワークアーキテクチャが、オーディオ信号において発生するスプーフィングアーチファクトを検出するようにトレーニングされ、インバウンド話者のためのインバウンドオーディオ信号にニューラルネットワークアーキテクチャを適用することによって、インバウンド話者のインバウンドスプーフプリントを生成し、インバウンドスプーフプリントと登録者スプーフプリントとの間の1又は2以上の類似性に基づいて、インバウンドオーディオ信号のためのスプーフィング尤度スコアを生成する、ように構成されている。
【0014】
前述の概要及び以下の詳細な説明は共に例証で説明のためのものであり、請求項に記載された本発明の実施形態の更なる説明を行うことを意図している点を理解されたい。
【0015】
本開示は、以下の図を参照することによりよく理解することができる。図中の構成要素は、必ずしも縮尺通りではなく、代わりに本開示の原理を説明することに重きが置かれている。図において、参照数字は、異なる図を通して対応する部品を示している。
【図面の簡単な説明】
【0016】
図1】例示的な実施形態による、電話コールを受信し分析するためのシステムの構成要素を示す図である。
図2】一実施形態による、スプーフィング検出及び話者認識のための1又は2以上のニューラルネットワークアーキテクチャを実装するための方法のステップを示す図である。
図3】一実施形態による、スプーフィング検出及び話者認識のための1又は2以上のニューラルネットワークアーキテクチャのオペレーションをトレーニングするための方法のステップを示す図である。
図4】一実施形態による、スプーフィング検出及び話者認識のための1又は2以上のニューラルネットワークアーキテクチャの登録及び展開オペレーションのための方法のステップを示す図である。
図5】一実施形態による、スプーフィング検出及び話者認識のための1又は2以上のニューラルネットワークアーキテクチャの登録及び展開オペレーションのための方法のステップを示す図である。
図6】一実施形態による、スプーフィング試行を検出するためにオーディオ信号を処理するニューラルネットワークアーキテクチャのアーキテクチャ構成要素を示す図である。
図7】一実施形態による、スプーフィング試行を検出するためにオーディオ信号を処理するニューラルネットワークアーキテクチャのアーキテクチャ構成要素を示す図である。
【発明を実施するための形態】
【0017】
ここで、図面に示された例示的な実施形態について説明し、これを記述するために具体的な表現が使用される。それでも、本発明の範囲のいかなる限定もそれによって意図されるものではないことは、理解されるであろう。本明細書で例示された発明の特徴の変更及び更なる修正、並びに本明細書で例示された発明の原理の追加的な適用は、関連技術に精通し本開示を所有している者には想起されるであろうし、これらは、本発明の範囲内にあるとみなされる。
【0018】
話者認識及び他のオペレーション(例えば、認証)のための音声バイオメトリクスは、典型的には、話者サンプルの母集団及び特定の話者のサンプルから生成されたモデル又はベクトルに依存する。一例として、トレーニングフェーズ(又は再トレーニングフェーズ)の間に、サーバ又は他のコンピュータデバイスは、複数のトレーニングオーディオ信号を使用してスピーチのインスタンスを認識し区別するようにトレーニングされたスピーチ認識エンジン(例えば、人工知能及び/又は機械トレーニングプログラムソフトウェア)を実行する。ニューラルネットワークアーキテクチャは、対応する入力に従って特定の結果を出力し、期待される出力と観測された出力とを比較することによって、損失関数に従って結果を評価する。次いで、トレーニングオペレーションは、ニューラルネットワークアーキテクチャの重み付け値(ハイパーパラメータと呼ばれることもある)を調整し、期待出力と観測出力が収束するまで、ニューラルネットワークアーキテクチャを入力に再適用する。その後、サーバは、ハイパーパラメータを固定し、場合によっては、トレーニングに使用されるニューラルネットワークアーキテクチャの1又は2以上のレイヤを無効化する。
【0019】
サーバは、話者認識エンジンを更にトレーニングし、特定の登録者-話者のための登録フェーズ中に特定の話者を認識することができる。スピーチ認識エンジンは、登録者を含むスピーチセグメントを有する登録者オーディオ信号を使用して、登録者オーディオ特性ベクトル(「声紋」と呼ばれることもある)を生成することができる。後のインバウンドコールコールの際に、サーバは、声紋を参照して、後のインバウンドコールから抽出された特徴ベクトルを登録者の声紋とマッチングすることに基づいて、後のオーディオ信号が登録者を含むかどうかを確認する。これらの手法は、一般に、インバウンドコールに含まれる登録者を検出するために成功し十分である。
【0020】
しかしながら、強力な音声バイオメトリクス偽装ツール(例えば、ディープフェイク技術)が、最終的に、登録者の音声サンプルを使用して、登録者に合わせた柔軟なディープフェイク音声シンセサイザを生成し、登録者シンセサイザは、登録者の声紋に密接にマッチングする特徴を伝えることによって認識エンジンを騙すことができるようになるという懸念がある。現在のスプーフィング検出システムの問題点は、汎化能力である。従来、信号処理の研究者は、入力オーディオファイルを処理する様々な方法を導入することによって、この問題を克服しようとしてきた。合成スピーチスプーフィングを検出する従来の方法は、例えば、高周波数ケプストラム係数(HFCC)、定Qケプストラム係数(CQCC))、コサイン正規化位相、及び修正群遅延(MGD)演算などを用いていた。これらの手法により、合成スピーチの検出における様々なオーディオ処理技術の有効性が確認されたが、これらの手法は、汎化能力の問題を解決することはできなかった。この欠点により、従来の手法は、例えば、未知のスプーフィング技術に対して十分に一般化することができず、従って、未知のスプーフィング技術に対するスプーフィング検出が不十分である。
【0021】
本明細書に記載されるように、システムは、登録者の音声のスプーフィングインスタンス(「スプーフプリント」と呼ばれることもある)を検出するため別の登録者特徴ベクトルを生成することができる。スプーフプリントテストは、インバウンド話者の音声が登録者の音声のスプーフィングされたインスタンスであるか又は真正のインスタンスであるかの可能性を評価する。スピーチシンセサイザは、声紋テストの類似性要件を満たすために、登録者の音声関連機能に十分に類似した音声関連機能を有する合成スピーチを伝達することにより、声紋テストを満たすことができる。しかしながら、合成スピーチは、登録者から期待される対応する特徴に十分に類似した発話挙動及び/又はスプーフィングアーチファクトを含まないので、スピーチシンセサイザは、スプーフィングテストに失敗することになる。本明細書で記載される実施形態は、声紋のために抽出された特徴のセットとは(少なくとも部分的に)異なるスプーフプリントのためのオーディオ信号から特徴のセットを抽出する。オーディオ信号から抽出される低レベルの特徴は、メル周波数ケプストル係数(MFCC)、HFCC、CQCC、及び話者の音声特性に関連する他の特徴、並びに話者(例えば、話者のスピーチ特性)及び/又はデバイス若しくはネットワーク(例えば、話者パターン、DTMFトーン、バックグラウンド雑音、コーデック、パケット損失)のスプーフィングアーチファクトを含むことができる。声紋を抽出する際に生成される特徴ベクトルは、スペクトル時間的特徴(例えば、MFCC、HFCC、CQCC)などの話者の音声特性を反映した特徴のセットに基づいている。スプーフプリントを抽出する際に生成される特徴ベクトルは、話者が特定の音素(パターン)を使用する頻度及び話者のスピーチの自然なリズムを含むことができる、スプーフィングアーチファクト(例えば、話者の話し方の特定の態様)などコールのオーディオ特性を含む特徴セットに基づいている。スプーフィングアーチファクトは、合成スピーチプログラムがエミュレートすることが困難であることが多い。
【0022】
ニューラルネットワークアーキテクチャは、声紋認識のために抽出された埋め込みを単に評価するのに比べて、スプーフィング検出の調整がより良好な埋め込みを抽出することができる。加えて又は代替的に、本明細書に記載される実施形態は、顔認識システムにおける従来の使用から適応された、トレーニング及び/又は登録中の損失関数、ラージマージンコサイン損失関数(LMCL)を採用することができる。有利には、LMCLは、真正クラスとスプーフィングクラスとの間の分散を最大化すると同時に、クラス内分散を最小化する。従来技術の手法は、前述のように、このような手法は他の分野に対して焦点を当てていたので、オーディオ信号におけるスプーフィング検出でのLMCLの使用を理解し採用することができなかった。
【0023】
本明細書で記載される実施形態は、とりわけ、オーディオデータの取り込み、前処理オペレーション、データ拡張オペレーション、埋め込み抽出、損失関数オペレーション、及び分類オペレーションなどの特定のオペレーションを実行するように構成されたあらゆる数のレイヤを含む1又は2以上のニューラルネットワークアーキテクチャを実装する。様々なオペレーションを実行するために、ニューラルネットワークアーキテクチャは、とりわけ、入力レイヤ、埋め込み抽出器のレイヤ、全結合レイヤ、損失レイヤ、及び分類器のレイヤなどのあらゆる数のレイヤを備える。レイヤ又はオペレーションは、あらゆる数のニューラルネットワークアーキテクチャによって実行できることを理解されたい。更に、又は代替的に、異なるオペレーションを実行するレイヤは、異なるタイプのニューラルネットワークアーキテクチャを定義することができる。例えば、ResNetニューラルネットワークアーキテクチャは、埋め込み抽出器を定義するレイヤ及びオペレーションを備えることができ、別のニューラルネットワークアーキテクチャは、分類器を定義するレイヤ及びオペレーションを備えることができる。更に、前処理オペレーション及びデータ拡張オペレーションなどの特定のオペレーションは、ニューラルネットワークアーキテクチャとは別に、又はニューラルネットワークアーキテクチャのレイヤとして、コンピュータデバイスによって実行することができる。ネットワーク内拡張及び事前処理の非限定的な例は、米国特許出願第17/066,210号及び第17/079,082号に見出すことができ、これらは引用により本明細書に組み込まれる。
【0024】
インバウンドオーディオ信号(例えば、真正又はスプーフィング)の分類に続いて、サーバは、出力された決定を1又は2以上のダウンストリームオペレーションに採用又は送信する。ダウンストリームオペレーションによって使用される出力は、分類決定、類似度スコア、及び/又は抽出されたスプーフプリント又は声紋を含むことができる。ダウンストリームオペレーションの非限定的な例及び/又は本明細書に記載されるニューラルネットワークアーキテクチャの潜在的な用途としては、とりわけ、音声スプーフィング検出、話者識別、話者認証、スピーチ認識、音声イベント検出、音声活動検出(VAD)、スピーチ活動検出(SAD)、及び話者ダイアリゼーションが挙げられる。
【0025】
(例示的なシステム構成要素)
図1は、例示的な実施形態による、電話コールを受信し分析するためのシステム100の構成要素を示す。システム100は、コール分析システム101と、顧客企業(例えば、企業、政府機関、大学)のコールセンターシステム110と、発信者デバイス114とを備える。コール分析システム101は、分析サーバ102と、分析データベース104と、管理者デバイス103とを含む。コールセンターシステム110は、コールセンターサーバ111と、コールセンターデータベース112と、エージェントデバイス116とを含む。実施形態は、図1のものから追加的又は代替的な構成要素を備えることができ、或いは、特定の構成要素を省略することができ、これらは依然として本開示の範囲内にある。例えば、複数のコールセンターシステム110を含むこと、又はコール分析システム101が複数の分析サーバ102を有することは、一般的とすることができる。実施形態は、本明細書に記載される様々な特徴及びタスクを実行することができるあらゆる数のデバイスを含むか、或いは実装することができる。例えば、図1は、分析データベース104とは異なるコンピュータデバイスとして分析サーバ102を示している。幾つかの実施形態では、分析データベース104は、分析サーバ102に統合することができる。
【0026】
1又は2以上のパブリック又はプライベートネットワークの様々なハードウェア及びソフトウェア構成要素は、システム100の様々な構成要素を相互接続することができる。このようなネットワークの非限定的な例には、ローカルエリアネットワーク(LAN)、無線ローカルエリアネットワーク(WLAN)、メトロポリタンエリアネットワーク(MAN)、ワイドエリアネットワーク(WAN)、及びインターネットを含むことができる。ネットワーク上の通信は、伝送制御プロトコル/インターネット・プロトコル(TCP/IP)、ユーザ・データグラム・プロトコル(UDP)、及びIEEE通信プロトコルなどの様々な通信プロトコルに従って実行することができる。同様に、発信者デバイス114は、電話コールに関連するオーディオデータをホスト、伝送及び交換することができる電話及び電気通信プロトコル、ハードウェア、及びソフトウェアを介して、被発呼側(例えば、コールセンターシステム110)と通信することができる。電気通信ハードウェアの非限定的な例は、電話コール、回路、及びシグナリングをホスト、ルーティング、又は管理するのに使用される他の追加又は代替のハードウェアのうち、スイッチ及びトランクを含むことができる。電気通信用のソフトウェア及びプロトコルの非限定的な例には、電話コール、回路、及びシグナリングをホスト、ルーティング、又は管理するのに使用される他の追加的又は代替のソフトウェア及びプロトコルのうち、SS7、SIGTRAN、SCTP、ISDN、及びDNISを含むことができる。電気通信用の構成要素は、とりわけ、キャリア、交換及びネットワークなどの様々な異なるエンティティに編成されるか又はこれらによって管理することができる。
【0027】
発信者デバイス114は、発信者が発呼先(例えば、コールセンターシステム110)に電話をかけるためにオペレーションする何れかの通信デバイス又はコンピュータデバイスとすることができる。発信者デバイス114の非限定的な例としては、固定電話114a及び携帯電話114bを含むことができる。発信者デバイス114は、電気通信指向のデバイス(例えば、電話)に限定されるものではない。一例として、発信者デバイス114は、発信者コンピュータデバイス114cを含むことができ、このデバイスは、ボイスオーバーIP(VoIP)電気通信を実装するように構成されたパーソナルコンピュータなどのプロセッサ及び/又はソフトウェアを備えた電子デバイスを含む。別の例として、発信者コンピュータデバイス114cは、携帯電話114bのような、ペアリングされた又は他の方法でネットワーク接続されたデバイスの電気通信機能を利用できるプロセッサ及び/又はソフトウェアを備えた電子IoTデバイス(例えば、音声アシスタントデバイス、「スマートデバイス」)とすることができる。
【0028】
コール分析システム101及びコールセンターシステム110は、様々な企業組織によって管理又は運用される物理的及び論理的に関連するソフトウェア及び電子デバイスを備えたネットワークインフラ101,110を表している。各ネットワークシステムインフラ101,110のデバイスは、特定の企業組織の意図するサービスを提供するように構成される。
【0029】
コール分析システム101の分析サーバ102は、1又は2以上のプロセッサ及びソフトウェアを含み、本明細書に記載される様々なプロセス及びタスクを実行することができる何れかのコンピュータデバイスとすることができる。分析サーバ102は、分析データベース104をホストするか、又はこれと通信することができ、1又は2以上のコールセンターシステム110から受信したコールデータ(例えば、オーディオ録音、メタデータ)を受信し処理する。図1は単一の分析サーバ102のみを示すが、分析サーバ102は、あらゆる数のコンピュータデバイスを含むことができる。場合によっては、分析サーバ102のコンピュータデバイスは、分析サーバ102のプロセス及び利点の全て又はサブパートを実行することができる。分析サーバ102は、分散型又はクラウドコンピュータ構成で及び/又は仮想マシン構成でオペレーションするコンピュータデバイスを備えることができる。また、幾つかの実施形態において、分析サーバ102の機能は、コールセンターシステム110のコンピュータデバイス(例えば、コールセンターサーバ111)によって部分的又は全体的に実行できることを理解されたい。
【0030】
分析サーバ102は、他の潜在的なオペレーション(例えば、話者認識、話者検証又は認証、話者ダイアリゼーション)のなかでも、話者スプーフィング検出を実行するニューラルネットワークを含むオーディオ処理ソフトウェアを実行する。ニューラルネットワークアーキテクチャは、トレーニングフェーズ、登録フェーズ、及び展開フェーズ(テストフェーズ又はテストと呼ばれることもある)を含む、複数のオペレーションフェーズで論理的にオペレーションする。分析サーバ102によって処理される入力されたオーディオ信号は、トレーニングオーディオ信号、登録オーディオ信号、及び展開フェーズ中に処理されるインバウンドオーディオ信号を含む。分析サーバ102は、対応するオペレーションフェーズの間、入力されたオーディオ信号のタイプの各々にニューラルネットワークを適用する。
【0031】
分析サーバ102又はシステム100の他のコンピュータデバイス(例えば、コールセンターサーバ111)は、入力オーディオ信号に対して様々な前処理オペレーション及び/又はデータ拡張オペレーションを行うことができる。前処理オペレーションの非限定的な例は、他の潜在的な前処理オペレーションのなかでも、オーディオ信号から低レベル特徴を抽出すること、オーディオ信号を解析してフレーム及びセグメントにセグメント化すること、及び短時間フーリエ変換(SFT)又は高速フーリエ変換(FFT)などの1又は2以上の変換関数を実行することを含む。拡張オペレーションの非限定的な例は、オーディオクリッピング、ノイズ拡張、周波数拡張、持続時間拡張及び同様のものを含む。分析サーバ102は、入力オーディオ信号をニューラルネットワークアーキテクチャの入力レイヤに供給する前に、前処理又はデータ拡張オペレーションを実行することができ、或いは、分析サーバ102は、ニューラルネットワークアーキテクチャの入力レイヤ(又は他のレイヤ)がこれらのオペレーションを実行する場合に、ニューラルネットワークアーキテクチャの実行の一部としてこのようなオペレーションを実行することができる。例えば、ニューラルネットワークアーキテクチャは、ニューラルネットワークアーキテクチャに供給される入力オーディオ信号に対してデータ拡張オペレーションを実行するネットワーク内データ拡張レイヤを含むことができる。
【0032】
トレーニング中、分析サーバ102は、分析データベース104又は他の記憶媒体に格納することができる1又は2以上のコーパスから様々な長さ及び特性のトレーニングオーディオ信号を受信する。トレーニングオーディオ信号は、クリーンオーディオ信号(サンプルと呼ばれることもある)及びシミュレーションオーディオ信号を含み、その各々を、分析サーバ102がスピーチの発生を認識するためにニューラルネットワークをトレーニングするのに使用する。クリーンオーディオ信号は、アナリティクスサーバー102によってスピーチが識別可能であるスピーチを含むオーディオサンプルである。分析サーバ102によって実行される特定のデータ拡張オペレーションは、トレーニング又は登録中にデータ拡張の目的でシミュレーションオーディオ信号を検索又は生成する。データ拡張オペレーションは、特定のタイプの信号劣化又は歪みを模倣する操作された特徴を含む所与のトレーニング信号の追加バージョン又はセグメントを生成することができる。分析サーバ102は、ニューラルネットワークアーキテクチャの将来の参照又はオペレーションのために、分析サーバ102及び/又は分析データベース104の非一時的媒体にトレーニングオーディオ信号を格納する。
【0033】
トレーニングフェーズ及び幾つかの実施構成において、登録フェーズの間、ニューラルネットワークアーキテクチャの全結合レイヤは、多数のトレーニングオーディオ信号の各々についてトレーニング特徴ベクトルを生成し、損失関数(例えば、LMCL)が複数のトレーニング特徴ベクトルについてエラーのレベルを決定する。ニューラルネットワークアーキテクチャの分類レイヤは、出力されたトレーニング特徴ベクトルが予め定められた期待特徴ベクトルに収束するまで、ニューラルネットワークアーキテクチャの重み付け値(例えば、ハイパーパラメータ)を調整する。トレーニングフェーズが終了すると、分析サーバ102は、重み付け値及びニューラルネットワークアーキテクチャを分析サーバ102の非一時的記憶媒体(例えば、メモリ、ディスク)に格納する。登録フェーズ及び/又は展開フェーズの間、分析サーバ102は、ニューラルネットワークアーキテクチャの1又は2以上のレイヤ(例えば、全結合レイヤ、分類レイヤ)を無効にし、重み付け値を固定したままにする。
【0034】
登録オペレーションフェーズの間、コールセンターシステム110のエンド消費者などの登録者は、コール分析システム101に複数のスピーチの例を提供する。例えば、登録者は、コールセンターサーバ111によって実行されるIVRソフトウェアの様々な双方向音声応答(IVR)プロンプトに応答することができる。次いで、コールセンターサーバ111は、真正の登録オーディオ信号を含む記録された応答を分析サーバ102に転送する。分析サーバ102は、トレーニングされたニューラルネットワークアーキテクチャを登録者音声サンプルの各々に適用し、対応する登録者特徴ベクトル(「登録者埋め込み」と呼ばれることもある)を生成するが、分析サーバ102は、ニューラルネットワークアーキテクチャをトレーニングするために採用されたレイヤなどの特定のレイヤを無効にする。分析サーバ102は、平均を生成するか、さもなければ、アルゴリズム的に登録者特徴ベクトルを結合し、登録者特徴ベクトルを分析データベース104又はコールセンターデータベース112に格納する。
【0035】
ニューラルネットワークアーキテクチャのレイヤは、特定のタイプの埋め込みを表す特徴ベクトルを生成する1又は2以上の埋め込み抽出器としてオペレーションするようにトレーニングされる。埋め込み抽出器は、登録フェーズにおいて登録者埋め込みを生成し、展開フェーズにおいてはインバウンド埋め込み(「テスト埋め込み」と呼ばれることもある)を生成する。埋め込みは、スプーフィング検出埋め込み(スプーフプリント)と話者認識埋め込み(声紋)を含む。一例として、ニューラルネットワークアーキテクチャは、登録フェーズにおいて登録者スプーフプリント及び登録者声紋を生成し、展開フェーズにおいては、インバウンドスプーフプリント及びインバウンド声紋を生成する。ニューラルネットワークアーキテクチャの異なる埋め込み抽出器は、スプーフプリント及び声紋を生成するが、幾つかの実施形態において、ニューラルネットワークアーキテクチャの同じ埋め込み抽出器を用いて、スプーフプリント及び声紋を生成することができる。
【0036】
一例として、スプーフプリント埋め込み抽出器は、入力オーディオ信号から抽出された特徴の第1のセットを処理するニューラルネットワークアーキテクチャ(例えば、ResNet、SyncNet)とすることができ、スプーフプリント抽出器は、あらゆる数の畳み込みレイヤ、統計レイヤ、及び全結合レイヤを備え、LMCLに従ってトレーニングされる。声紋埋め込み抽出器は、入力オーディオ信号から抽出された特徴の第2のセットを処理する別のニューラルネットワークアーキテクチャ(例えば、ResNet、SyncNet)とすることができ、声紋埋め込み抽出器は、あらゆる数の畳み込みレイヤ、統計レイヤ、及び全結合レイヤを備え、ソフトマックス関数に従ってトレーニングされる。
【0037】
損失関数オペレーションの一部として、ニューラルネットワークは、線形判別分析(LDA)アルゴリズム又は同様のオペレーションを実行し、抽出された埋め込みをより低次元でより判別性の高い部分空間に変換する。LDAは、真正のトレーニングオーディオ信号とスプーフィングのトレーニングオーディオ信号との間のクラス内分散を最小化し、クラス間分散を最大化する。幾つかの実施構成において、ニューラルネットワークアーキテクチャは更に、アルゴリズム的にスプーフプリントと声紋を結合して複合埋め込み(例えば、登録者複合埋め込み、インバウンド複合埋め込み)にするための様々なオペレーションを実行する埋め込み複合レイヤを含むことができる。しかしながら、埋め込みは、全ての実施形態において結合される必要はない。損失関数オペレーション及びLDA、並びにニューラルネットワークアーキテクチャの他の態様(例えば、スコアリングレイヤ)は、同様に、別個のスプーフプリント及び声紋埋め込みを評価することに加えて、又はその代替として、複合埋め込みを評価するように構成される。
【0038】
分析サーバ102は、トレーニングオーディオ信号に対して、及び幾つかの実施構成において、登録者オーディオ信号に対して特定のデータ拡張オペレーションを実行する。分析サーバ102は、トレーニングフェーズ及び登録フェーズ中に実行される拡張オペレーションを異なるように実行することができ、又は変化させることができる。更に、又は代替的に、分析サーバ102は、スプーフプリント埋め込み抽出器及び声紋埋め込み抽出器をトレーニングするために実行される拡張オペレーションを異なるように実行することができ、又は変化させることができる。例えば、サーバは、トレーニング及び/又は登録フェーズにおいて、スプーフプリント埋め込み抽出器のためのトレーニングオーディオ信号に対して周波数マスキング(周波数拡張と呼ぶこともある)を実行することができる。サーバは、トレーニング及び/又は登録フェーズにおいて、声紋埋め込み抽出器のためにノイズ拡張を行うことができる。
【0039】
展開フェーズの間、分析サーバ102は、インバウンド発信者の発信者デバイス114から発信された、インバウンドコールコールのインバウンドオーディオ信号を受信する。分析サーバ102は、インバウンドオーディオ信号にニューラルネットワークを適用して、インバウンドオーディオから特徴を抽出し、発信者が、コールセンターシステム110又は分析システム101に登録されている登録者であるか否かを決定する。分析サーバ102は、何れかのネットワーク内拡張レイヤを含むニューラルネットワークのレイヤの各々を適用するが、分類レイヤは無効化する。ニューラルネットワークは、発信者用のインバウンド埋め込み(例えば、スプーフプリント、声紋、複合埋め込み)を生成し、次に、これらの特徴ベクトルと対応する登録者特徴ベクトルとの間の距離を示す1又は2以上の類似度スコアを決定する。例えば、スプーフプリントの類似度スコアが所定のスプーフプリント閾値を満たす場合、分析サーバ102は、インバウンドコールがスプーフィング又はその他の不正のものである可能性が高いと決定する。別の例として、声紋又は複合埋め込みの類似度スコアが対応する所定の閾値を満たす場合、分析サーバ102は、発信者と登録者が同一人物である可能性が高いこと、又はインバウンドコールが真正又はスプーフィング(例えば、合成スピーチ)であることを決定する。
【0040】
展開フェーズの後、分析サーバ102(又はシステム100の別のデバイス)は、展開時にニューラルネットワークによって生成された決定を採用するあらゆる数の様々なダウンストリームオペレーション(例えば、話者認証、話者ダイアリゼーション)を実行することができる。
【0041】
分析データベース104及び/又はコールセンターデータベース112は、1又は2以上のネットワークを介して分析サーバ102にアクセス可能なトレーニングオーディオ信号のあらゆる数のコーパスを含むことができる。幾つかの実施形態では、分析サーバ102は、ニューラルネットワークをトレーニングするために教師ありトレーニングを採用し、ここで分析データベース104は、どの信号がスピーチ部分を含むかを示すトレーニングオーディオ信号に関連するラベルを含む。分析サーバ102はまた、外部データベース(図示せず)に照会して、トレーニングオーディオ信号のサードパーティコーパスにアクセスすることができる。管理者は、管理者デバイス103において、ランダムな、構成された制限内でランダムな、又は予め定められている持続時間を有するようにスピーチセグメントを選択するように分析サーバ102を構成することができる。スピーチセグメントの持続時間は、ダウンストリームオペレーションの必要性に基づいて、及び/又はオペレーションフェーズに基づいて変化する。例えば、トレーニング又は登録の間、分析サーバ102は、展開中に利用可能な音声サンプルと比較して、より長い音声サンプルにアクセスすることができる可能性が高い。別の例として、分析サーバ102は、音声認証用に受信された音声サンプルと比較して、電話オペレーションの間より長いスピーチサンプルにアクセスすることができる可能性が高い。
【0042】
コールセンターシステム110のコールセンターサーバ111は、コールセンターシステム110になされるコールキューの管理及び/又はコールのルーティングを行うためのソフトウェアプロセスを実行し、これは、インバウンドコール中に送出されたインバウンド発信者のコメント、命令、IVR入力、又は他の入力に基づいて適切なコールセンターエージェントデバイス116にコールをルーティングすることを含むことができる。コールセンターサーバ111は、コール、発信者、及び/又は発信者デバイス114に関する様々な種類の情報を取り込み、照会又は生成し、情報をエージェントデバイス116に転送し、エージェントデバイス116のグラフィカルユーザインターフェース(GUI)がコールセンターのエージェントに情報を表示することができる。コールセンターサーバ111はまた、インバウンドオーディオ信号及び他の何れかのオーディオデータに対して様々な分析処理を事前に実行するために、インバウンドコールに関する情報をコール分析システム101に送信する。コールセンターサーバ111は、予め設定されたトリガー条件(例えば、インバウンドコールコールの受信)、システム100の他のデバイス(例えば、エージェントデバイス116、管理者デバイス103、分析サーバ102)から受信した命令又はクエリに基づいて、或いは定期的間隔又は予め定められた時間に送信されるバッチの一部として情報及びオーディオデータを送信することができる。
【0043】
コール分析システム101の管理者デバイス103は、コール分析システム101の要員が様々な管理タスク又はユーザから促された分析オペレーションを実行することを可能にするコンピュータデバイスである。管理者デバイス103は、プロセッサ及びソフトウェアを備えた、本明細書に記載された様々なタスク及びプロセスを実行することができる何れかのコンピュータデバイスとすることができる。管理者デバイス103の非限定的な例としては、サーバ、パーソナルコンピュータ、ラップトップコンピュータ、タブレットコンピュータ及び同様のものを含むことができる。オペレーションにおいて、ユーザは、管理者デバイス103を採用して、コール分析システム101又はコールセンターシステム110の様々な構成要素のオペレーションを構成し、当該構成要素に対してクエリ及び命令を送出する。
【0044】
コールセンターシステム110のエージェントデバイス116は、コールセンターシステム110のエージェント又は他のユーザが、コールセンターシステム110のデバイスのオペレーションを構成することを可能にすることができる。コールセンターシステム110になされたコールについて、エージェントデバイス116は、コールセンターサーバ111からルーティングされたコールに関連する関連情報の一部又は全部を受信し、表示する。
【0045】
(オペレーション例)
図2は、一実施形態による、スプーフィング検出及び話者認識のための1又は2以上のニューラルネットワークアーキテクチャを実装するための方法200のステップを示す。実施形態は、方法200に記載されているオペレーションよりも追加された、より少ない、又は異なるオペレーションを含むことができる。方法200は、ニューラルネットワークアーキテクチャの機械可読ソフトウェアコードを実行するサーバによって実行されるが、様々なオペレーションは、1又は2以上のコンピュータデバイス及び/又はプロセッサによって実行できることは理解されるべきである。サーバは、スプーフプリント及び声紋埋め込みを生成及び評価するように説明されているが、サーバは、スプーフィングを検出するために、全ての実施形態において声紋の埋め込みを生成及び評価する必要はない。
【0046】
ニューラルネットワークアーキテクチャのサーバ又はレイヤは、入力オーディオ信号(例えば、トレーニングオーディオ信号、登録オーディオ信号、インバウンドオーディオ信号)に対して様々な前処理オペレーションを実行することができる。これらの前処理オペレーションは、例えば、オーディオ信号から低レベルの特徴を抽出するステップと、短時間フーリエ変換(SFT)及び/又は高速フーリエ変換(FFT)を行うことによってこれらの特徴を時間領域表現から周波数領域表現に変換するステップとを含むことができる。前処理オペレーションはまた、オーディオ信号をフレーム又はサブフレームに解析するステップと、様々な正規化又はスケーリングオペレーションを実行するステップとを含むことができる。任意選択的に、サーバは、オーディオデータをニューラルネットワークに供給する前に、あらゆる数の前処理オペレーションを実行する。サーバは、オペレーションフェーズの1又は2以上において様々な前処理オペレーションを実行することができるが、実行される特定の前処理オペレーションは、オペレーションフェーズにわたって異なることができる。サーバは、ニューラルネットワークアーキテクチャとは別に、又はニューラルネットワークアーキテクチャのネットワーク内レイヤとして、様々な前処理オペレーションを実行することができる。
【0047】
サーバ又はニューラルネットワークアーキテクチャのレイヤは、入力オーディオ信号(例えば、トレーニングオーディオ信号、登録オーディオ信号)に対して様々な拡張オペレーションを実行することができる。拡張オペレーションは、入力オーディオ信号に対して様々なタイプの歪み又は劣化を生成し、結果として得られるオーディオ信号が、例えば、特徴ベクトルを生成する畳み込みオペレーションによって取り込まれるようになる。サーバは、ニューラルネットワークアーキテクチャとは別のオペレーションとして、又はネットワーク内拡張レイヤとして様々な拡張オペレーションを実行することができる。サーバは、オペレーションフェーズの1又は2以上において様々な拡張オペレーションを実行することができるが、実行される特定の拡張オペレーションは、オペレーションフェーズにわたって異なることができる。
【0048】
ステップ202において、サーバは、ニューラルネットワークをトレーニングオペレーションフェーズに配置する。サーバは、(入力されたオーディオ信号として受信された)数千のスピーチサンプルにニューラルネットワークを適用して、例えば、オーディオのスピーチ部分を識別するために分類器レイヤをトレーニングする。サーバは、トレーニング用オーディオ信号を選択し、及び/又はシミュレーションオーディオセグメントをランダムに生成することができ、全結合レイヤ又は分類レイヤがこれを用いて、ニューラルネットワークの埋め込み抽出器によって生成されるトレーニング特徴ベクトル(「トレーニング埋め込み」とも呼ばれる)のエラーレベルを決定する。分類レイヤは、トレーニング特徴ベクトルが期待される特徴ベクトルに収束するまで、ニューラルネットワークのハイパーパラメータを調整する。トレーニングが完了すると、サーバは、ハイパーパラメータをサーバのメモリ又は他のメモリロケーションに格納する。また、サーバは、ハイパーパラメータを固定したままにするために、ニューラルネットワークの1又は2以上のレイヤを無効化することができる。
【0049】
ステップ204において、サーバは、ニューラルネットワークを登録オペレーションフェーズに配置し、登録者のための登録者埋め込みを生成する。サーバは、登録者の登録スピーチサンプルを受信し、ニューラルネットワークを適用して、例えば、登録者スプーフプリント及び登録者声紋を含む登録特徴ベクトルを生成する。サーバは、登録フェーズにおいて、ニューラルネットワークアーキテクチャの特定のレイヤを有効化及び/又は無効化することができる。例えば、サーバは、典型的には、登録フェーズの間、レイヤの各々を有効にして適用するが、分類レイヤを無効にする。
【0050】
登録者の特定の埋め込み(例えば、スプーフプリント、声紋)を抽出すると、ニューラルネットワークアーキテクチャは、各登録者オーディオ信号から抽出された特定のタイプの埋め込みに関連する特徴に基づいて、登録者特徴ベクトルのセットを生成する。次に、ニューラルネットワークアーキテクチャは、登録者特徴ベクトルの平均又は登録者特徴ベクトルを組み合わせるための他の何れかのアルゴリズム技術に基づいて、この登録者特徴ベクトルのセットを組み合わせることによって、特定の埋め込みを抽出する。サーバは、各登録者埋め込みを非一時的記憶媒体に格納する。
【0051】
ステップ206において、サーバは、ニューラルネットワークアーキテクチャを展開フェーズに配置して、インバウンド話者のためのインバウンド埋め込みを生成し、スプーフィングを検出しインバウンドを検証する。サーバは、展開フェーズ中に、ニューラルネットワークアーキテクチャの特定のレイヤを有効化及び/又は無効化することができる。例えば、サーバは、典型的には、展開フェーズ中にレイヤの各々を有効にして適用するが、サーバは、分類レイヤを無効にする。サーバは、インバウンド話者のためのインバウンドオーディオ信号を受信し、インバウンドオーディオ信号をニューラルネットワークアーキテクチャに供給する。
【0052】
ステップ208において、展開オペレーションフェーズの間、サーバは、話者のためのインバウンドオーディオ信号を受信し、ニューラルネットワークを適用して、例えば、インバウンドスプーフプリント及びインバウンド声紋を含むインバウンド埋め込みを抽出する。次に、ニューラルネットワークアーキテクチャは、インバウンド埋め込みと登録埋め込みとの間の類似性又は相違性に基づいて、1又は2以上の類似度スコアを生成する。例えば、ニューラルネットワークアーキテクチャは、インバウンドスプーフプリントを抽出し、インバウンドスプーフプリントと登録者スプーフプリントとの間の距離(例えば、類似点、相違点)を示す類似点スコアを出力する。距離が大きいほど、インバウンドスプーフプリントと登録者スプーフプリントとの間の類似性が低い/少ないことに起因して、インバウンドオーディオ信号がスプーフィングである尤度がより低いことを示すことができる。この例では、サーバは、類似度スコアがスプーフ閾値を満たすときに、インバウンドオーディオ信号の話者が登録者にスプーフィングしていると決定する。
【0053】
他の例として、ニューラルネットワークアーキテクチャは、インバウンド声紋を抽出し、インバウンド声紋と登録者声紋との間の距離を示す類似度スコアを出力する。距離が大きいほど、インバウンドオーディオ信号の話者が登録者にマッチする尤度がより低いことを示すことができる。この例では、サーバは、類似度スコアが音声マッチ閾値を満たすときに、話者と登録者との間のマッチ(又は可能性が高いマッチ)を識別する。
【0054】
サーバは、スプーフプリントと声紋を同時に又は順次的に評価することができる。例えば、サーバは、インバウンド声紋を登録者声紋に対して評価することができる。サーバが、インバウンドオーディオ信号の話者が登録者とマッチする可能性が高いと決定した場合、サーバは、インバウンドスプーフプリントを登録者スプーフプリントに対して評価する。その後、サーバは、インバウンドオーディオ信号がスプーフィング試行であるかどうかを決定する。別の例として、サーバは、順序に関係なくスプーフプリントと声紋を評価するが、抽出されたインバウンド埋め込みが対応する閾値を満たすことを要求する。幾つかの実施構成において、サーバは、音声類似度スコア(声紋の比較に基づいて)とスプーフィング尤度又は検出スコア(スプーフプリントの比較に基づいて)を使用して、複合類似度スコアを生成する。サーバは、音声類似度スコアとスプーフィング尤度スコアを加算するか、さもなければアルゴリズム的に結合することにより、複合類似度スコアを生成する。次いで、サーバは、複合類似度スコアが認証又は検証閾値スコアを満たすか否かを決定する。
【0055】
インバウンドオーディオ信号の話者の成功した又は失敗した検証に続いて、ステップ208において、サーバは、1又は2以上のダウンストリームオペレーション(例えば、話者認証、話者ダイアリゼーション)のために決定を使用することができる。サーバは、例えば、所与のダウンストリーム機能を実行するために、スプーフィング又はマッチ決定、類似度スコア、及び/又はインバウンド埋め込みを使用することができる。
【0056】
トレーニングオペレーションフェーズ
図3は、一実施形態による、スプーフィング検出及び話者認識のための1又は2以上のニューラルネットワークアーキテクチャのトレーニングオペレーション方法300のステップを示す。実施形態は、方法300に記載されたオペレーションよりも追加された、より少ない、又は異なるオペレーションを含むことができる。方法300は、ニューラルネットワークアーキテクチャの機械可読ソフトウェアコードを実行するサーバによって実行されるが、様々なオペレーションは、1又は2以上のコンピュータデバイス及び/又はプロセッサによって実行できることは理解されるべきである。
【0057】
ニューラルネットワークアーキテクチャのサーバ又はレイヤは、入力オーディオ信号(例えば、トレーニングオーディオ信号、登録オーディオ信号、インバウンドオーディオ信号)に対して様々な前処理オペレーションを実行することができる。これらの前処理オペレーションは、例えば、オーディオ信号から低レベルの特徴を抽出すること、並びに短時間フーリエ変換(SFT)及び/又は高速フーリエ変換(FFT)を行うことによってこれらの特徴を時間領域表現から周波数領域表現に変換することを含むことができる。前処理オペレーションはまた、オーディオ信号をフレーム又はサブフレームに解析すること、及び様々な正規化又はスケーリングオペレーションを実行することを含むことができる。任意選択的に、サーバは、オーディオデータをニューラルネットワークに供給する前に、あらゆる数の前処理オペレーションを実行する。サーバは、オペレーションフェーズのうちの1又は2以上において様々な前処理オペレーションを実行することができるが、実行される特定の前処理オペレーションは、オペレーションフェーズにわたって変わることができる。サーバは、ニューラルネットワークアーキテクチャとは別に、又はニューラルネットワークアーキテクチャのネットワーク内レイヤとして、様々な前処理オペレーションを実行することができる。
【0058】
サーバ又はニューラルネットワークアーキテクチャのレイヤは、入力オーディオ信号(例えば、トレーニングオーディオ信号、登録オーディオ信号)に対して様々な拡張オペレーションを実行することができる。拡張オペレーションは、入力オーディオ信号に対して様々なタイプの歪み又は劣化を生成し、結果として得られるオーディオ信号が、例えば特徴ベクトルを生成する畳み込みオペレーションによって取り込まれるようになる。サーバは、ニューラルネットワークアーキテクチャとは別のオペレーションとして、又はネットワーク内拡張レイヤとして様々な拡張オペレーションを実行することができる。サーバは、オペレーションフェーズの1又は2以上において様々な拡張オペレーションを実行することができるが、実行される特定の拡張オペレーションは、オペレーションフェーズもわたって異なることができる。
【0059】
トレーニングフェーズの間、サーバは、ニューラルネットワークアーキテクチャをトレーニングオーディオ信号(例えば、クリーンオーディオ信号、シミュレーションオーディオ信号、以前に受信した観測オーディオ信号)に適用する。幾つかの実施態様では、ニューラルネットワークアーキテクチャをトレーニングオーディオ信号に適用する前に、サーバは、本明細書に記載される様々な前処理オペレーションに従ってトレーニングオーディオ信号を前処理し、ニューラルネットワークアーキテクチャがトレーニングオーディオ信号の一部を表すアレイを受け取るようになる。
【0060】
ステップ302において、サーバは、クリーンオーディオ信号とノイズサンプルとを含むトレーニングオーディオ信号を取得する。サーバは、1又は2以上のスピーチコーパスデータベースからクリーンオーディオ信号を受信又は要求することができる。クリーンオーディオ信号は、あらゆる数の話者から発信された音声を含むことができ、ここでこの品質は、サーバがスピーチを識別できるようにし、すなわち、クリーンオーディオ信号が劣化(例えば、加算ノイズ、乗算ノイズ)をほとんど又は全く含まない。クリーンオーディオ信号は、サーバにアクセス可能な非一時的記憶媒体に格納することができ、或いは、ネットワーク又は他のデータソースを介して受信することができる。幾つかの状況において、サーバは、シミュレーションオーディオ信号を用いて、シミュレーションクリーンオーディオ信号を生成する。例えば、サーバは、音声をシミュレートすることによって、シミュレーションクリーンオーディオ信号を生成することができる。
【0061】
ステップ304において、サーバは、クリーントレーニングオーディオサンプルを使用して、及び/又はシミュレーションオーディオサンプルを生成するために、1又は2以上のデータ拡張オペレーションを実行する。例えば、サーバは、クリーンオーディオ信号を劣化させるための拡張オペレーションを適用することによって、1又は2以上のシミュレーションオーディオ信号を生成する。サーバは、例えば、クリーンオーディオ信号に加算ノイズ及び/又は乗算ノイズを適用して、これらのシミュレーションオーディオ信号をラベリングすることによって、シミュレーションオーディオ信号を生成することができる。加算ノイズは、クリーンオーディオ信号上に、異なるスペクトル形状を有するシミュレーションホワイトガウスノイズ又は他のシミュレーションノイズ、及び/又はバックグラウンドノイズ(例えば、実際のバブルノイズ、実際のホワイトノイズ、及び他の環境ノイズ)の例示的なソースとして生成することができる。乗算ノイズは、シミュレーション音響インパルス応答とすることができる。サーバは、クリーンオーディオ信号に対して追加の又は代替の拡張オペレーションを行い、シミュレーションオーディオ信号を生成することによって、トレーニングオーディオ信号のより大きなセットを生成することができる。
【0062】
ステップ306において、サーバは、トレーニングオーディオ信号を使用して、1又は2以上のニューラルネットワークアーキテクチャをトレーニングする。本明細書で検討するように、ニューラルネットワークアーキテクチャをトレーニングする結果は、予測された出力(例えば、真正又はスプーフィングの出力されたニューラルネットワークアーキテクチャ;抽出された特徴;抽出された特徴ベクトル)と期待される出力(例えば、特定のトレーニング信号が真正かスプーフィングかを示すトレーニングオーディオ信号に関連付けられたラベル;特定のトレーニング信号の期待される特徴又は特徴ベクトルを示すラベル)の間のエラー量を最小化することである。サーバは、各トレーニングオーディオ信号をニューラルネットワークアーキテクチャに供給し、これをニューラルネットワークアーキテクチャが用いて、ニューラルネットワークアーキテクチャの現在の状態をトレーニングオーディオ信号に適用することによって予測出力を生成する。
【0063】
ステップ308において、サーバは、損失関数(例えば、LMCL、LDA)を実行し、ニューラルネットワークアーキテクチャのハイパーパラメータ(又は他のタイプの重み値)を更新する。サーバは、予測された出力と期待される出力との間の類似性又は差異を比較することによって、予測された出力と期待される出力との間のエラーを決定する。サーバは、予測出力と期待出力との間のエラーが、エラーの所定の閾値マージン内に収まるように十分に小さくなるまで、ニューラルネットワークアーキテクチャのアルゴリズムの重みを調整し、トレーニングされたニューラルネットワークアーキテクチャをメモリに格納する。
【0064】
登録及び展開オペレーションフェーズ
図4は、一実施形態による、スプーフィング検出及び話者認識のための1又は2以上のニューラルネットワークアーキテクチャの登録及び展開オペレーション方法400のステップを示す。実施形態は、方法400に記載されたオペレーションよりも追加されたオペレーション、より少ないオペレーション、又は異なるオペレーションを含むことができる。方法400は、ニューラルネットワークアーキテクチャの機械可読ソフトウェアコードを実行するサーバによって実行されるが、様々なオペレーションが、1又は2以上のコンピュータデバイス及び/又はプロセッサによって実行できることは理解されるべきである。
【0065】
登録フェーズの間、サーバは、ニューラルネットワークアーキテクチャを真正の登録者オーディオ信号に適用する。幾つかの実施態様では、ニューラルネットワークアーキテクチャを登録者オーディオ信号に適用する前に、サーバは、本明細書に記載の様々な前処理オペレーションに従って登録者オーディオ信号の前処理をし、ニューラルネットワークアーキテクチャが登録者オーディオ信号の一部を表すアレイを受け取るようになる。オペレーションにおいて、ニューラルネットワークアーキテクチャの埋め込み抽出器レイヤは、登録者オーディオ信号の特徴に基づいて特徴ベクトルを生成して登録者埋め込みを抽出し、これをサーバが展開フェーズ中に後で参照する。幾つかの実施形態では、ニューラルネットワークアーキテクチャの同じ埋め込み抽出器は、各タイプの埋め込みに対して適用され、幾つかの実施形態では、ニューラルネットワークアーキテクチャの異なる埋め込み抽出器が、対応するタイプの埋め込みに適用される。
【0066】
ステップ402において、サーバは、登録者のための登録者オーディオ信号を取得する。サーバは、登録者のデバイス(例えば、電話、IoTデバイス)、データベース、又はサードパーティ(例えば、顧客コールセンターシステム)のデバイスから直接登録者オーディオ信号を受信することができる。幾つかの実施構成において、サーバは、登録者オーディオ信号に対して1又は2以上のデータ拡張オペレーションを実行することができ、これは、トレーニングフェーズ中に実行された同じ又は異なる拡張オペレーションを含むことができる。幾つかの場合、サーバは、登録者オーディオ信号から特定の特徴を抽出する。サーバは、関連のタイプの登録者埋め込みに基づいて特徴を抽出する。例えば、スプーフプリントを生成するのに使用される特徴のタイプは、声紋を生成するのに使用される特徴のタイプと異なることができる。
【0067】
ステップ404において、サーバは、ニューラルネットワークアーキテクチャを各登録者オーディオ信号に適用して、登録者スプーフプリントを抽出する。ニューラルネットワークアーキテクチャは、抽出された特徴の関連セットを使用して、登録者オーディオ信号のスプーフプリント特徴ベクトルを生成する。ニューラルネットワークアーキテクチャは、様々な統計的及び/又は畳み込みオペレーションに従ってスプーフプリント特徴ベクトルを結合することにより、登録者のスプーフプリント埋め込みを抽出する。次いで、サーバは、登録者スプーフプリント埋め込みを非一時的記憶媒体に格納する。
【0068】
ステップ406において、サーバは、ニューラルネットワークアーキテクチャを各登録者オーディオ信号に適用して、登録者声紋を抽出する。ニューラルネットワークアーキテクチャは、抽出された特徴の関連セットを使用して、登録者オーディオ信号の声紋特徴ベクトルを生成し、この特徴は、スプーフプリントを抽出するのに使用される特徴と同じ又は異なるタイプの特徴とすることができる。ニューラルネットワークアーキテクチャは、様々な統計的及び/又は畳み込みオペレーションに従って声紋特徴ベクトルを結合することにより、登録者の声紋埋め込みを抽出する。次いで、サーバは、登録者の声紋埋め込みを非一時的記憶媒体に格納する。
【0069】
ステップ408において、サーバは、話者を含むインバウンドオーディオ信号を受信し、登録者埋め込みに対応する話者のインバウンド埋め込みを抽出する。インバウンドオーディオ信号は、話者のデバイス又はサードパーティのデバイスから直接受信することができる。サーバは、ニューラルネットワークアーキテクチャをインバウンドオーディオ信号に適用して、例えば、インバウンドスプーフプリント及びインバウンド声紋を抽出する。
【0070】
ステップ410において、サーバは、インバウンド声紋と登録者声紋との間の距離に基づいて、類似度スコアを決定する。次いで、サーバは、類似度スコアが音声マッチ閾値を満たすか否かを決定する。ステップ412において、サーバは、インバウンド声紋と登録者声紋との間の距離に基づいて類似度スコアを決定する。次いで、サーバは、類似度スコアがスプーフィング検出閾値を満たすか否かを決定する。幾つかの実施形態において、サーバは、ステップ410及び412を順次実行し、サーバは、インバウンド声紋が音声マッチ閾値(ステップ410において)を満たすことをサーバが決定することに応答して、スプーフィング検出(ステップ412において)を実行する。幾つかの実施形態では、サーバは、順序に関係なくステップ410及び412を実行し、サーバは、対応部分評価の結果にかかわらず、インバウンド声紋が音声マッチ閾値を満たすかどうか(ステップ410において)、及び受信スプーププリントがスプープ検出閾値を満たすかどうか(ステップ412において)を決定する。
【0071】
図5は、一実施形態による、スプーフィング検出及び話者認識のための1又は2以上のニューラルネットワークアーキテクチャの登録及び展開オペレーション方法500のステップを示す。実施形態は、方法500に記載されているオペレーションよりも追加された、より少ない、又は異なるオペレーションを含むことができる。方法500は、ニューラルネットワークアーキテクチャの機械可読ソフトウェアコードを実行するサーバによって実行されるが、様々なオペレーションが、1又は2以上のコンピュータデバイス及び/又はプロセッサによって実行できることが理解されるべきである。
【0072】
登録フェーズの間、サーバは、ニューラルネットワークアーキテクチャを真正の登録者オーディオ信号に適用する。場合によっては、ニューラルネットワークアーキテクチャを登録者オーディオ信号に適用する前に、サーバは、本明細書に記載の様々な前処理オペレーションに従って登録者オーディオ信号の前処理をし、ニューラルネットワークアーキテクチャが、登録者オーディオ信号の一部を表すアレイを受け取るようになる。オペレーションにおいて、ニューラルネットワークアーキテクチャの埋め込み抽出器レイヤは、登録者オーディオ信号の特徴に基づいて特徴ベクトルを生成し、登録者埋め込みを抽出し、サーバがこれを展開フェーズ中に後で参照する。幾つかの実施形態では、ニューラルネットワークアーキテクチャの同じ埋め込み抽出器は、各タイプの埋め込みに対して適用され、幾つかの実施形態では、ニューラルネットワークアーキテクチャの異なる埋め込み抽出器は、対応するタイプの埋め込みに対して適用される。
【0073】
ステップ502において、サーバは、登録者のための登録者オーディオ信号を取得する。サーバは、登録者のデバイス(例えば、電話、IoTデバイス)、データベース、又はサードパーティ(例えば、顧客コールセンターシステム)のデバイスから登録者オーディオ信号を直接受信することができる。幾つかの実施構成において、サーバは、登録者オーディオ信号に対して1又は2以上のデータ拡張オペレーションを実行することができ、これは、トレーニングフェーズ中に実行された同じ又は異なる拡張オペレーションを含むことができる。幾つかの場合、サーバは、登録者オーディオ信号から特定の特徴を抽出する。サーバは、関連するタイプの登録者に基づき特徴を抽出する。例えば、スプーフプリントを生成するのに使用される特徴のタイプは、声紋を生成するのに使用される特徴のタイプと異なることができる。
【0074】
ステップ504において、サーバは、ニューラルネットワークアーキテクチャを各登録者オーディオ信号に適用して、登録者スプーフプリントを抽出する。ニューラルネットワークアーキテクチャは、抽出された特徴の関連セットを使用して、登録者オーディオ信号のスプーフプリント特徴ベクトルを生成する。ニューラルネットワークアーキテクチャは、様々な統計的及び/又は畳み込みオペレーションに従ってスプーフプリント特徴ベクトルを結合することにより、登録者のスプーフプリント埋め込みを抽出する。次に、サーバは、登録者スプーフプリント埋め込みを非一時的記憶媒体に格納する。
【0075】
ステップ506において、サーバは、ニューラルネットワークアーキテクチャを各登録者オーディオ信号に適用して、登録者声紋を抽出する。ニューラルネットワークアーキテクチャは、抽出された特徴の関連セットを使用して、登録者オーディオ信号の声紋特徴ベクトルを生成し、この特徴は、スプーフプリントを抽出するのに使用される特徴と同じ又は異なるタイプの特徴とすることができる。ニューラルネットワークアーキテクチャは、様々な統計的及び/又は畳み込みオペレーションに従って声紋特徴ベクトルを結合することにより、登録者の声紋埋め込みを抽出する。
次いで、サーバは、登録者の声紋埋め込みを非一時的記憶媒体に格納する。
【0076】
ステップ508において、サーバは、登録者のための登録者結合埋め込みを生成する。ニューラルネットワークアーキテクチャは、登録者スプーフプリント埋め込みと登録者声紋埋め込みをアルゴリズム的に結合するための1又は2以上のレイヤを含む。次に、サーバは、登録者結合埋め込みを非一時的記憶媒体に格納する。
【0077】
ステップ510において、サーバは、話者を含むインバウンドオーディオ信号を受信し、インバウンドスプーフプリント埋め込み、インバウンド声紋埋め込み、及びインバウンド複合埋め込みを含む、抽出された登録者リー埋め込みに対応する話者に対するインバウンド埋め込みを抽出する。インバウンドオーディオ信号は、話者のデバイス又はサードパーティのデバイスから直接受信することができる。サーバは、インバウンドオーディオ信号にニューラルネットワークアーキテクチャを適用して、インバウンドスプーフプリント及びインバウンド声紋を抽出し、インバウンドスプーフプリント及びインバウンド声紋をアルゴリズム的に結合して受信結合埋め込みを生成する。
【0078】
ステップ512において、サーバは、受信結合埋め込みと登録者結合埋め込みの間の距離に基づいて類似度スコアを決定する。次いで、サーバは、類似度スコアが検証閾値を満たすか否かを決定する。サーバは、インバウンド複合埋め込みが対応する検証閾値スコアを満たすとサーバが決定したとき、インバウンドオーディオ信号を、登録者の音声と話者がマッチし、真正(スプーフィングでない)であると検証する。幾つかの構成では、サーバによって検証されると、コールの続行が許可される。
【0079】
例示的なニューラルネットワークアーキテクチャ
トレーニングフェーズの例
図6は、一実施形態による、スプーフィング試行を検出するためにオーディオ信号を処理するためのニューラルネットワークアーキテクチャ600のアーキテクチャ構成要素を示す。ニューラルネットワーク600は、トレーニングオペレーションフェーズ及びオプションの登録及び展開オペレーションフェーズ中にサーバによって実行されるが、ニューラルネットワーク600は、ニューラルネットワーク600のオペレーションを実行できるプロセッサを含む何れかのコンピュータデバイスによって、またあらゆる数のかかるコンピュータデバイスによって実行することができる。ニューラルネットワーク600は、オーディオ信号登録者オーディオ信号602、603を取り込むための入力レイヤ601を含む(例えば、トレーニングオーディオ信号602、登録オーディオ信号603)を取り込み、様々な拡張オペレーションを行うための入力レイヤ601、1又は2以上の特徴ベクトル(又は埋め込み)を生成し、他のオペレーションを行うための1又は2以上の埋め込み抽出器606を定義するレイヤ、様々な統計及びアルゴリズム組み合わせオペレーションを行う1又は2以上の全結合レイヤ608、1又は2以上の損失関数を行うための損失レイヤ610、埋め込みに基づいてあらゆる数のスコア及び分類オペレーションを行う分類器612を含む。ニューラルネットワークアーキテクチャ600は、登録オペレーションフェーズのオペレーションを実行する必要がないことを理解されたい。このように、幾つかの実施形態では、ニューラルネットワークアーキテクチャ600は、トレーニング及び展開オペレーションフェーズを含む。
【0080】
トレーニングフェーズにおいて、サーバは、トレーニングオーディオ信号602を入力レイヤ601に供給し、ここでトレーニングオーディオ信号は、あらゆる数の真正オーディオ信号及びスプーフィング又は偽のオーディオ信号を含むことができる。トレーニングオーディオ信号602は、生のオーディオファイルとすることができ、或いは、1又は2以上の前処理オペレーションに従って前処理することができる。入力レイヤ601は、トレーニングオーディオ信号602に対して1又は2以上の前処理オペレーションを実行することができる。入力レイヤ601は、トレーニングオーディオ信号602から特定の特徴を抽出し、トレーニングオーディオ信号602に対して様々なデータ拡張オペレーションを実行する。例えば、入力レイヤ601は、トレーニングオーディオ信号602を多次元ログフィルタバンク(LFB)に変換することができる。入力レイヤ601は、次に、トレーニングオーディオ信号602のLFB表現の1又は2以上の部分に対して、例えば、周波数マスキングデータ拡張オペレーションを行うことにより、このような部分が後のオペレーションにどのように影響するかを否定又は無効化する。トレーニングオーディオ信号602は、次に、埋め込み抽出器606を定義する機能レイヤ(例えば、ResNetブロック)に供給される。埋め込み抽出器606は、埋め込み抽出器606に供給された抽出特徴に基づいて特徴ベクトルを生成し、この特徴ベクトルに基づいて、他のタイプの埋め込み(例えば、声紋埋め込み)のうち、例えばスプーフィング埋め込みを抽出する。
【0081】
スプーフ埋め込み抽出器606は、トレーニングオーディオ信号602に関連付けられたラベルに応じてスプーフィング埋め込みをトレーニング及び調整するための損失レイヤ610を実行することにより、トレーニングされる。分類器612は、スプーフ埋め込みを使用して、与えられた入力レイヤ601が「真正」であるか「スプーフィング」であるかを決定する。損失レイヤ610は、教師付きラベル又は以前に生成されたクラスタによって示されるように、決定された真正及びスプーフィング分類の間の距離(例えば、ラージマージンコサイン損失)を決定するために損失関数(例えば、LMCL)を実行することによって埋め込み抽出器606を調整する。ユーザは、損失レイヤ610のパラメータを調整(例えば、LMCL関数のm値を調整)して、損失関数の感度を調整することができる。サーバは、トレーニングオーディオ信号602をニューラルネットワークアーキテクチャ600に供給し、ニューラルネットワーク600のレイヤを再トレーニングして更に調整する。サーバは、予測された出力(例えば、分類、特徴ベクトル、埋め込み)がエラーの閾値マージン内で期待される出力に収束するとき、埋め込み抽出器606及び/又は全結合レイヤ608のハイパーパラメータを固定する。
【0082】
幾つかの実施形態では、サーバは、登録フェーズを見送り、展開フェーズに直接進むことができる。サーバは、インバウンドオーディオ信号(登録オーディオ信号を含むことができる)をニューラルネットワークアーキテクチャ600に供給する。分類器612は、埋め込み抽出器606及び/又は全結合レイヤ608の出力(例えば、分類、特徴ベクトル、埋め込み)が、LMCL及び/又はLDAアルゴリズムに従ってトレーニングフェーズ中に確立された閾値から所定の距離内にあるかどうかを決定するためにトレーニングされた1又は2以上のレイヤを含む。分類器612を実行することによって、サーバは、ニューラルネットワークアーキテクチャの600の出力に基づいて、インバウンドオーディオ信号を真正又はスプーフィングとして分類する。場合によっては、サーバは、分類器612の決定結果に従って、インバウンドオーディオ信号を認証することができる。
【0083】
オプションの登録フェーズにおいて、サーバは、1又は2以上の登録オーディオ信号603を埋め込み抽出器606に供給して、登録者のための登録者スプーフプリント埋め込みを抽出する。登録者スプーフプリント埋め込みは、その後、メモリに格納される。幾つかの実施形態では、登録者スプーフプリント埋め込みは、登録者のための分類器612をトレーニングするのに使用されるが、幾つかの実施形態では、サーバは登録フェーズ中に分類器612を無効化することができる。
【0084】
例示的な登録及び展開
図7は、一実施形態による、オーディオ信号702、712を処理してスプーフィング試行を検出するためのニューラルネットワークアーキテクチャ700のアーキテクチャ構成要素を示す。ニューラルネットワーク700は、認証のための登録及び展開オペレーションフェーズ中にサーバによって実行されるものとして説明されるが、ニューラルネットワーク700は、ニューラルネットワーク700のオペレーションを実行できるプロセッサを含む何れかのコンピュータデバイスによって、及びあらゆる数のこのようなコンピュータデバイスによって実行することができる。ニューラルネットワーク700は、オーディオ信号702、712を取り込んで様々な拡張オペレーションを行うための入力レイヤ703と、1又は2以上の埋め込み706、714を生成するための1又は2以上の埋め込み抽出器704を定義するレイヤ(例えば、スプーフプリント埋め込み抽出器、声紋埋め込み抽出器)、登録者埋め込み706をアルゴリズム的に結合する結合オペレーションを定義する1又は2以上のレイヤ(LDA)、及び距離スコアリングオペレーション716などの種々のスコアリングオペレーションを行って検証スコア718を生成する1又は2以上のスコアリングレイヤ716を含む。
【0085】
サーバは、オーディオ信号702、712を入力レイヤ703に供給し、ニューラルネットワーク700の適用を開始する。場合によっては、入力レイヤ703は、他の前処理オペレーションのうち、オーディオ信号702、712をフレーム又はセグメントに解析すること、低レベル特徴を抽出すること、オーディオ信号702、712を時間領域表現から周波数領域(又はエネルギー領域)表現に変換することなど、1又は2以上の前処理オペレーションをオーディオ信号702、712に対して実行する。
【0086】
登録フェーズの間、入力レイヤ703は、登録者のための登録オーディオ信号702を受信する。幾つかの実施構成において、入力レイヤ703は、例えば、登録オーディオ信号702内のオーディオ信号をオペレーションする、低レベル特徴をオペレーションする、又は対応する登録オーディオ信号702に基づいて特徴又はオーディオ信号をオペレーションしたシミュレーション登録オーディオ信号702を生成するために登録オーディオ信号702に対してデータ拡張オペレーションを実行する。
【0087】
展開フェーズの間、入力レイヤ703は、埋め込み抽出器704のためのインバウンドオーディオ信号712を準備するために、前処理オペレーションを実行することができる。しかしながら、サーバは、埋め込み抽出器704が受信したままのインバウンドオーディオ信号712の特徴を評価するように、入力レイヤ703の拡張オペレーションを無効化することができる。
【0088】
埋め込み抽出器704は、スピーチを検出してオーディオ信号702、712から抽出された特徴に基づいて特徴ベクトルを生成するように(トレーニングフェーズ中に)トレーニングされたニューラルネットワーク700の1又は2以上のレイヤを備え、オーディオ信号は、埋め込み抽出器704が埋め込み706、714として出力する。登録フェーズにおいて、埋め込み抽出器704は、登録オーディオ信号702の各々について登録者埋め込み706を生成する。次いで、ニューラルネットワーク700は、埋め込み706に対して結合オペレーション708を行い、登録者用の登録者スプーフプリント710を抽出する。
【0089】
展開フェーズにおいて、埋め込み抽出器704は、インバウンドオーディオ信号712から抽出された特徴に基づいて、インバウンドオーディオ信号712の特徴ベクトルを生成する。埋め込み抽出器704は、この特徴ベクトルを、インバウンドオーディオ信号712に対するインバウンドスプーフプリント714として出力する。
【0090】
ニューラルネットワーク700は、登録者スプーフプリント710とインバウンド者スプーフプリント714をスコアリングレイヤ716に供給し、様々なスコアリングオペレーションを行う。スコアリングレイヤ716は、インバウンドスプーフプリント714がスプーフィング試行である尤度を示す登録者スプーフプリント710とインバウンドスプーフプリント714との間の距離(例えば、類似性、差異)を決定する距離スコアリングオペレーションを行う。例えば、インバウンドスプーフプリント714の距離スコアが低いほど、インバウンドスプーフプリント714がスプーフィング試行である可能性がより高いことを示す。ニューラルネットワーク700は、1又は2以上のスコアリングオペレーション(例えば、距離スコアリング)に基づいてスコアリングレイヤ716によって生成された値とすることができる、検証スコア718を出力することができる。
【0091】
幾つかの実施構成において、スコアリングレイヤ716は、距離スコア又は他の出力された値が閾値を満たすか否かを決定する。このような実施構成において、検証スコア718は、数値出力である必要はない。例えば、検証スコア718は、インバウンドオーディオ信号712がスプーフ試行であるとニューラルネットワーク700が決定したかどうか(例えば、サーバがスプーフを検出したかどうか)を示す、人間が読める指標(例えば、平文、視覚表示)とすることができる。加えて、又は代替的に、検証スコア718は、機械可読検出インジケータ又は認証命令を含むことができ、サーバは、これを1又は2以上のネットワークを介して1又は2以上のダウンストリームアプリケーションを実行するコンピュータデバイスに送信する。
【0092】
本明細書に開示される実施形態に関連して説明される様々な例示的な論理ブロック、モジュール、回路、及びアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア、又は両者の組み合わせとして実装することができる。ハードウェアとソフトウェアのこの互換性を明確に説明するために、様々な例示的な構成要素、ブロック、モジュール、回路、及びステップについて全体としてその機能性の観点で上述してきた。このような機能がハードウェアとして実装されるかソフトウェアとして実装されるかは、システム全体に課される特定の用途及び設計上の制約に依存する。当業者であれば、記載された機能性を各特定の用途に対して様々な方法で実装することができるが、このような実装の決定は、本発明の範囲からの逸脱を引き起こすと解釈されるべきではない。
【0093】
コンピュータソフトウェアで実装される実施形態は、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、又はこれらの何れかの組み合わせで実装することができる。コードセグメント又は機械実行可能な命令は、手続き、関数、サブプログラム、プログラム、ルーチン、サブルーチン、モジュール、ソフトウェアパッケージ、クラス、又は命令、データ構造、プログラム文の何れかの組み合わせを表すことができる。コードセグメントは、情報、データ、引数、パラメータ、又はメモリコンテンツを受け渡しすることによって、別のコードセグメント又はハードウェア回路に結合することができる。情報、引数、パラメータ、データ、その他は、メモリ共有、メッセージパッシング、トークンパッシング、ネットワーク伝送などを含む何れかの適切な手段を介して、移動、転送、又は伝送することができる。
【0094】
これらのシステム及び方法を実施するのに使用される実際のソフトウェアコード又は特殊な制御ハードウェアは、本発明を限定するものではない。従って、システム及び方法のオペレーション及び挙動は、本明細書の説明に基づいてシステム及び方法を実施するためにソフトウェア及び制御ハードウェアを設計することができることを理解して、特定のソフトウェアコードを参照することなく説明されている。
【0095】
ソフトウェアで実装される場合、機能は、非一時的なコンピュータ可読又はプロセッサ可読記憶媒体上の1又は2以上の命令又はコードとして格納することができる。本明細書に開示される方法又はアルゴリズムのステップは、コンピュータ可読記憶媒体又はプロセッサ可読記憶媒体に常駐できるプロセッサ実行可能ソフトウェアモジュールにおいて具現化することができる。非一時的なコンピュータ可読媒体又はプロセッサ可読媒体は、コンピュータ記憶媒体と、ある場所から別の場所へのコンピュータプログラムの転送を容易にする有形の記憶媒体の両方を含む。非一時的なプロセッサ読み取り可能な記憶媒体は、コンピュータによってアクセス可能な何れかの利用可能な媒体とすることができる。限定ではなく例として、このような非一時的なプロセッサ可読媒体は、命令又はデータ構造の形態で所望のプログラムコードを格納するのに使用され、コンピュータ又はプロセッサによってアクセスされ得るRAM、ROM、EEPROM、CD-ROM又は他の光ディスクストレージ、磁気ディスクストレージ又は他の磁気ストレージデバイス、又は他の何れかの有形記憶媒体を備えることができる。本明細書で使用されるディスク及びディスクは、コンパクトディスク(CD)、レーザーディスク、光ディスク、デジタル多用途ディスク(DVD)、フロッピーディスク、及びブルーレイディスクを含み、ディスクは通常磁気的にデータを再生し、ディスクはレーザーを用いて光学的にデータを再生する。上記の組み合わせもまた、コンピュータ読み取り可能な媒体の範囲に含まれるべきである。更に、方法又はアルゴリズムのオペレーションは、非一時的なプロセッサ可読媒体及び/又はコンピュータ可読媒体上のコード及び/又は命令の1つ又は何れかの組み合わせ又はセットとして存在し、これらはコンピュータプログラム製品に組み込まれることがある。
【0096】
開示された実施形態の前述の説明は、当業者であれば本発明を製造又は使用することができるように提供される。これらの実施形態に対する様々な修正は、当業者には容易に明らかであり、本明細書で定義された一般的な原理は、本発明の精神又は範囲から逸脱することなく、他の実施形態に適用することができる。従って、本発明は、本明細書に示された実施形態に限定されることを意図するものではなく、以下の請求項と本明細書に開示された原理及び新規な特徴と一致する最も広い範囲が与えられるべきである。
【0097】
様々な態様及び実施形態が開示されてきたが、他の態様及び実施形態も企図される。開示された様々な態様及び実施形態は、説明のためのものであり、限定することを意図しておらず、真の範囲及び精神は、以下の特許請求の範囲によって示される。
【符号の説明】
【0098】
100 システム
101 コール分析サービスシステム
102 分析サーバ
103 管理者デバイス
104 分析データベース
110 顧客コールセンターシステム
111 コールセンターサーバ
112 コールセンターデータベース
114 発信者デバイス
116 エージェントデバイス
図1
図2
図3
図4
図5
図6
図7
【国際調査報告】