IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ピンドロップ セキュリティー、インコーポレイテッドの特許一覧

特表2023-512178音声バイオメトリクスのクロスチャネル登録と認証
<>
  • 特表-音声バイオメトリクスのクロスチャネル登録と認証 図1
  • 特表-音声バイオメトリクスのクロスチャネル登録と認証 図2
  • 特表-音声バイオメトリクスのクロスチャネル登録と認証 図3
  • 特表-音声バイオメトリクスのクロスチャネル登録と認証 図4
  • 特表-音声バイオメトリクスのクロスチャネル登録と認証 図5
  • 特表-音声バイオメトリクスのクロスチャネル登録と認証 図6A
  • 特表-音声バイオメトリクスのクロスチャネル登録と認証 図6B
  • 特表-音声バイオメトリクスのクロスチャネル登録と認証 図7
  • 特表-音声バイオメトリクスのクロスチャネル登録と認証 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-03-24
(54)【発明の名称】音声バイオメトリクスのクロスチャネル登録と認証
(51)【国際特許分類】
   G10L 17/00 20130101AFI20230316BHJP
   G10L 17/18 20130101ALI20230316BHJP
   G10L 21/038 20130101ALI20230316BHJP
【FI】
G10L17/00 200C
G10L17/18
G10L21/038
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022543649
(86)(22)【出願日】2021-02-02
(85)【翻訳文提出日】2022-09-13
(86)【国際出願番号】 US2021016189
(87)【国際公開番号】W WO2021158531
(87)【国際公開日】2021-08-12
(31)【優先権主張番号】62/969,484
(32)【優先日】2020-02-03
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】519084065
【氏名又は名称】ピンドロップ セキュリティー、インコーポレイテッド
(74)【代理人】
【識別番号】100094569
【弁理士】
【氏名又は名称】田中 伸一郎
(74)【代理人】
【識別番号】100103610
【弁理士】
【氏名又は名称】▲吉▼田 和彦
(74)【代理人】
【識別番号】100109070
【弁理士】
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【弁理士】
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100086771
【弁理士】
【氏名又は名称】西島 孝喜
(74)【代理人】
【識別番号】100109335
【弁理士】
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100120525
【弁理士】
【氏名又は名称】近藤 直樹
(74)【代理人】
【識別番号】100139712
【弁理士】
【氏名又は名称】那須 威夫
(74)【代理人】
【識別番号】100122563
【弁理士】
【氏名又は名称】越柴 絵里
(72)【発明者】
【氏名】シヴァラマン ガネシュ
(72)【発明者】
【氏名】コーリー エリー
(72)【発明者】
【氏名】クマール アヴロッシュ
(57)【要約】
本明細書に記載される実施形態は、音声ベースのクロスチャネル登録及び認証のためのシステム及び方法を提供する。システムは、話者照合ニューラルネットワークと帯域幅拡張ニューラルネットワークとを含むニューラルネットワークアーキテクチャをトレーニングして採用することにより、あらゆる数の通信チャネルにわたって受信されたオーディオ信号の変動を制御して軽減する。帯域幅拡張ニューラルネットワークは、狭帯域オーディオ信号に対してトレーニングされ、狭帯域オーディオ信号に対応する推定広帯域オーディオ信号を作成し生成する。これらの推定広帯域オーディオ信号は、話者照合ニューラルネットワーク又は埋め込み抽出ニューラルネットワークなどの1又は2以上のダウンストリームアプリケーションに供給することができる。次に、話者照合ニューラルネットワークは、インバウンド信号又は登録信号を受信するのに使用されるチャネルに関係なく、登録された埋め込みに対して現在のコールのためのインバウンド埋め込みを比較しスコア化することができる。
【選択図】 図1
【特許請求の範囲】
【請求項1】
コンピュータ実装方法であって、
コンピュータによって、第1の帯域幅を有する1又は2以上の低帯域幅オーディオ信号と、第2の帯域幅を有する1又は2以上の対応する高帯域幅オーディオ信号とを含む複数のトレーニングオーディオ信号を得るステップであって、前記第1の帯域幅が前記第2の帯域幅よりも比較的に低い、ステップと、
前記コンピュータによって、ニューラルネットワークの1又は2以上のニューラルネットワークレイヤのセットを含む帯域幅拡張器をトレーニングするステップであって、前記帯域幅拡張器が、前記ニューラルネットワークを前記複数のトレーニングオーディオ信号に適用することによってトレーニングされる、ステップと、
前記コンピュータによって、前記第1の帯域幅を有するインバウンドオーディオ信号を受信するステップと、
前記コンピュータによって、前記インバウンドオーディオ信号に前記ニューラルネットワークの帯域幅拡張器を適用することによって、前記第2の帯域幅を有する推定インバウンドオーディオ信号を生成するステップと、
を含む、方法。
【請求項2】
前記複数のトレーニングオーディオ信号を取得するステップは、
前記コンピュータによって、前記第2の帯域幅を有する高帯域幅オーディオ信号に対してコーデックプログラムを実行することにより、前記第1の帯域幅を有する低帯域幅オーディオ信号を生成するステップと、
を含む、請求項1に記載の方法。
【請求項3】
前記複数のトレーニングオーディオ信号を取得するステップが、
前記コンピュータによって、低帯域幅オーディオ信号に対して劣化のタイプの拡張オペレーションを実行することによって、前記劣化のタイプを有するシミュレーション低帯域幅オーディオ信号を生成するステップであって、前記複数のトレーニングオーディオ信号が、前記シミュレーション低帯域幅オーディオ信号を更に含む、ステップと、
を含み、
前記インバウンドオーディオ信号が、前記劣化のタイプを有することにより、前記コンピュータによって生成された前記推定インバウンドオーディオ信号が、前記劣化のタイプが比較的少ない拡張インバウンドオーディオ信号である、
請求項1に記載の方法。
【請求項4】
前記コンピュータによって、前記トレーニングオーディオ信号の各々から1又は2以上の特徴を抽出するステップであって、前記コンピュータが前記トレーニングオーディオ信号の前記1又は2以上の特徴に前記ニューラルネットワークを適用するステップと、
前記コンピュータによって、前記インバウンドオーディオ信号から前記1又は2以上の特徴を抽出するステップであって、前記コンピュータが前記インバウンドオーディオ信号の前記1又は2以上の特徴に前記ニューラルネットワークを適用するステップと、
を更に含む、請求項1に記載の方法。
【請求項5】
前記複数のトレーニング信号のうちの少なくとも1つの高帯域幅オーディオ信号は、前記第2の帯域幅用に構成されたチャネルを介して発信される、請求項1に記載の方法。
【請求項6】
前記インバウンドオーディオ信号が前記第1の帯域幅用に構成されたチャネルを介して発信されたと前記コンピュータが決定することに応答して、前記コンピュータは、前記推定インバウンドオーディオ信号を生成する、
請求項1に記載の方法。
【請求項7】
前記トレーニングするステップが、
前記コンピュータによって、トレーニングオーディオ信号に対して前記ニューラルネットワークによって出力されたトレーニング推定オーディオ信号に従って前記ニューラルネットワークの損失関数を実行するステップであって、前記損失関数が、前記帯域幅拡張器の1又は2以上のレイヤの1又は2以上のハイパーパラメータを更新するように前記コンピュータに命令する、ステップを更に含む、
請求項1に記載の方法。
【請求項8】
前記コンピュータによって、1又は2以上のクリーンオーディオ信号とシミュレーションオーディオ信号とを含む複数の第2トレーニングオーディオ信号に1又は2以上のニューラルネットワークレイヤの第2セットを含む話者認識器を適用することによって、前記話者認識器をトレーニングするステップと、
前記コンピュータによって、登録者の1又は2以上の登録者オーディオ信号に前記話者認識器を適用することにより、前記登録者の登録者声紋を抽出するステップと、
前記コンピュータによって、前記推定インバウンドオーディオ信号に前記ニューラルネットワークのアーキテクチャを適用することによって、インバウンド話者のインバウンド声紋を抽出するステップと、
前記コンピュータによって、前記インバウンド声紋と前記登録者声紋とに基づいて尤度スコアを生成するステップであって、前記尤度スコアが、前記インバウンド話者が前記登録者である尤度を示す、ステップと、
を更に含む、請求項1に記載の方法。
【請求項9】
前記コンピュータによって、前記第2のトレーニングオーディオ信号及び前記登録者オーディオ信号の少なくとも一方に対して1又は2以上のデータ拡張オペレーションを実行するステップを更に含む、請求項8に記載の方法。
【請求項10】
前記1又は2以上のデータ拡張オペレーションを実行するステップは、前記第2のトレーニングオーディオ信号及び前記登録者オーディオ信号の少なくとも一方に前記帯域幅拡張器を適用するステップを含む、請求項9に記載の方法。
【請求項11】
前記コンピュータによって、前記第1の帯域幅を有し且つ前記第1の帯域幅用に構成されたチャネルを介して発信された登録者オーディオ信号に対して前記帯域幅拡張器を適用することによって、前記1又は2以上の登録者オーディオ信号に対する推定登録者オーディオ信号を生成するステップを更に含む、請求項8に記載の方法。
【請求項12】
システムであって、
1又は2以上のニューラルネットワークのための機械可読命令を格納するように構成された非一時的機械可読メモリと、
プロセッサを含むコンピュータと、
を備え、
前記コンピュータは、
第1の帯域幅を有する1又は2以上の低帯域幅オーディオ信号と、第2の帯域幅を有する1又は2以上の対応する高帯域幅オーディオ信号とを含む複数のトレーニングオーディオ信号を得て、前記第1の帯域幅が前記第2の帯域幅よりも比較的に低く、
ニューラルネットワークの1又は2以上のニューラルネットワークレイヤのセットを含む帯域幅拡張器をトレーニングし、前記帯域幅拡張器が、前記ニューラルネットワークを前記複数のトレーニングオーディオ信号に適用することによってトレーニングし、
前記第1の帯域幅を有するインバウンドオーディオ信号を受信し、
前記インバウンドオーディオ信号に前記ニューラルネットワークの帯域幅拡張器を適用することによって、前記第2の帯域幅を有する推定インバウンドオーディオ信号を生成する、
ように構成される、システム。
【請求項13】
前記複数のトレーニングオーディオ信号を得るために、前記コンピュータは更に、
前記コンピュータによって、前記第2の帯域幅を有する高帯域幅オーディオ信号に対してコーデックプログラムを実行することによって、前記第1の帯域幅を有する低帯域幅オーディオ信号を生成する、
ように構成されている、請求項12に記載のシステム。
【請求項14】
前記複数のトレーニングオーディオ信号を得るために、前記コンピュータは更に、
低帯域幅オーディオ信号に対して劣化のタイプの拡張オペレーションを実行することによって、前記劣化のタイプを有するシミュレーション低帯域幅オーディオ信号を生成し、前記複数のトレーニングオーディオ信号が、前記シミュレーション低帯域幅オーディオ信号を更に含む、
ように更に構成され、
前記インバウンドオーディオ信号が、前記劣化のタイプを有することにより、前記コンピュータによって生成された前記推定インバウンドオーディオ信号が、前記劣化のタイプを比較的少ない拡張インバウンドオーディオ信号である、
請求項12に記載のシステム。
【請求項15】
前記トレーニングオーディオ信号の各々から1又は2以上の特徴を抽出し、前記コンピュータが前記トレーニングオーディオ信号の前記1又は2以上の特徴にニューラルネットワークを適用すること、
及び
前記インバウンドオーディオ信号から前記1又は2以上の特徴を抽出し、前記コンピュータが前記インバウンドオーディオ信号の前記1又は2以上の特徴に前記ニューラルネットワークを適用すること、
を更に含む、請求項12に記載のシステム。
【請求項16】
前記複数のトレーニング信号のうちの少なくとも1つの高帯域幅オーディオ信号は、前記第2の帯域幅用に構成されたチャネルを介して発信される、請求項12に記載のシステム。
【請求項17】
前記インバウンドオーディオ信号が前記第1の帯域幅用に構成されたチャネルを介して発信されたと前記コンピュータが決定することに応答して、前記コンピュータは、前記推定インバウンドオーディオ信号を生成する、請求項12に記載のシステム。
【請求項18】
前記コンピュータは更に、
トレーニングオーディオ信号に対して前記ニューラルネットワークによって出力されたトレーニング推定オーディオ信号に従って前記ニューラルネットワークの損失関数を実行し、前記損失関数が、前記帯域幅拡張器の1又は2以上のレイヤの1又は2以上のハイパーパラメータを更新するように前記コンピュータに命令する、
ように構成されている、請求項12に記載のシステム。
【請求項19】
前記コンピュータは更に、
1又は2以上のクリーンオーディオ信号とシミュレーションオーディオ信号とを含む複数の第2のトレーニングオーディオ信号に1又は2以上のニューラルネットワークレイヤの第2のセットを含む話者認識器を適用することによって、前記話者認識器をトレーニングし、
登録者の1又は2以上の登録者オーディオ信号に前記話者認識器を適用することにより、前記登録者の登録者声紋を抽出し、
前記推定インバウンドオーディオ信号に前記ニューラルネットワークのアーキテクチャを適用することによって、インバウンド話者のインバウンド声紋を抽出し、
前記インバウンド声紋と前記登録者声紋とに基づいて尤度スコアを生成し、前記尤度スコアが、前記インバウンド話者が前記登録者である尤度を示す、
ように構成される、請求項12に記載のシステム。
【請求項20】
前記コンピュータは更に、
前記第1の帯域幅を有し且つ前記第1の帯域幅用に構成されたチャネルを介して発信された登録者オーディオ信号に対して前記帯域幅拡張器を適用することによって、前記1又は2以上の登録者オーディオ信号に対する推定登録者オーディオ信号を生成する、
ように構成される、請求項19に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願に対する相互参照)
本出願は、2020年2月3日に出願された米国特許仮出願第62/969,484号に対する優先権を主張し、その全体が参照により組み込まれる。
【0002】
(技術分野)
本出願は、一般に、オーディオ処理ニューラルネットワークをトレーニングし展開するためのシステム及び方法に関する。詳細には、本出願は、音声バイオメトリクスシステムに採用されるニューラルネットワークに関する。
【背景技術】
【0003】
モノのインターネット(IoT)デバイスの出現は、音声コマンドと対話する機械の新しいチャネルにつながった。多くの場合、デバイスとの対話の多くは、プライベートで機密性の高いデータに関するオペレーションの実行を伴う。多くの新しいモバイルアプリ及び家庭用パーソナルアシスタントは、デバイスとの音声ベースの対話を使用して金融取引を可能にしている。コールセンター、特にコールセンターでの人間のエージェントとの対話は、重要な個人情報を管理する機関にとって、もはや音声ベースの対話の唯一のインスタンスではない。様々なエッジデバイス又はIoTデバイスをオペレーションさせることによりユーザアカウントにアクセス及び管理する、或いは、コールセンターに問い合わせすることによる発信者/話者のアイデンティティを一様な精度及びセキュリティレベルに従って確実に照合することが不可欠である。
【0004】
自動スピーチ認識(ASR)及び自動話者照合(ASV)システムは、セキュリティ及び認証機能、並びに他の音声ベースのオペレーションに使用されることが多い。しかしながら、ASR及びASVは、異なるサンプリングレートでサンプリングされた複数の異なるタイプのデバイスからのオーディオに遭遇することが多い。より高度な通信チャネル(例えば、エッジデバイス、IoT、VoIP)を介して録音及び伝送されるオーディオは、0~8kHzの広帯域幅で16kHzでサンプリングされることが多い。従来の電話音声は、0.3~3.4kHzの周波数レンジに帯域制限され、8kHzでサンプリングされ、またスピーチ符号化アルゴリズムで符号化される。スピーチ技術は通常、広帯域のオーディオデータに対して優れた性能を発揮するが、これは高い周波数帯域で利用可能な追加情報に起因する。話者認識システムの性能は、より高い周波数帯域を含めることで向上する。広帯域スピーチに対してトレーニングした話者認識システムは、トレーニング及びテスト条件の不一致に起因して、狭帯域オーディオでは性能が低下する。狭帯域スピーチの高域周波数帯帯域が欠落しているため、電話スピーチでは広帯域でトレーニングした話者認識システムの性能が低下することになる。
【0005】
従って、必要とされるのは、あらゆる数の通信チャネルにわたって受信されるオーディオ信号の変動を制御してこれに対して緩和する音声バイオメトリクス及び話者認識に対する改良された手法である。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】米国特許出願第17/066,210号明細書
【特許文献2】米国特許出願第17/079,082号明細書
【発明の概要】
【0007】
本明細書で開示されるのは、上述の欠点に対処することができるシステム及び方法であり、また、あらゆる数の追加的又は代替の恩恵及び利点を提供することができる。本明細書に記載される実施形態は、音声ベースのクロスチャネル登録及び認証のためのシステム及び方法を提供する。特に、本明細書に記載のシステム及び方法は、話者照合ニューラルネットワーク及び帯域幅拡張ニューラルネットワークを含むニューラルネットワークアーキテクチャをトレーニングして採用することにより、あらゆる数の通信チャネルにわたって受信されるオーディオ信号の変動を制御しこれに対して緩和する。帯域幅拡張ニューラルネットワークは、狭帯域オーディオ信号でトレーニングされ、狭帯域オーディオ信号に対応する推定広帯域オーディオ信号を作成し生成する。これらの推定広帯域オーディオ信号は、話者照合ニューラルネットワーク又は埋め込み抽出ニューラルネットワークなどの1又は2以上のダウンストリームアプリケーションに供給することができる。次に、話者照合ニューラルネットワークは、インバウンド信号又は登録信号を受信するのに使用されるチャネルに関係なく、登録された埋め込みに対して現在のコールのインバウンド埋め込みを比較し、スコア化することができる。
【0008】
一実施形態では、コンピュータ実装方法は、コンピュータによって、第1の帯域幅を有する1又は2以上の低帯域幅オーディオ信号と第2の帯域幅を有する1又は2以上の対応する高帯域幅オーディオ信号とを含む複数のトレーニングオーディオ信号を得るステップであって、第1の帯域幅は第2の帯域幅よりも比較的に低い、ステップと、コンピュータによって、ニューラルネットワークの1又は2以上のニューラルネットワークレイヤのセットを含む帯域幅拡張器をトレーニングするステップであって、帯域幅拡張器が、ニューラルネットワークを複数のトレーニングオーディオ信号に適用することによってトレーニングされるステップと、コンピュータによって、第1の帯域幅を有するインバウンドオーディオ信号を受信するステップと、コンピュータによって、インバウンドオーディオ信号にニューラルネットワークの帯域幅拡張器を適用して第2の帯域幅を有する推定インバウンドオーディオ信号を生成するステップと、を含む。
【0009】
別の実施形態では、システムは、1又は2以上のニューラルネットワークのための機械可読命令を格納するように構成された非一時的機械可読メモリと、プロセッサを含むコンピュータとを備え、コンピュータは、第1の帯域幅を有する1又は2以上の低帯域幅オーディオ信号及び第2の帯域幅を有する1又は2以上の対応する高い帯域幅オーディオ信号を含む複数のトレーニングオーディオ信号を得て、第1の帯域幅が第2の帯域幅より比較的に低く、ニューラルネットワークの1又は2以上のニューラルネットワークのセットを含む帯域幅拡張器をトレーニングし、帯域幅拡張器が、複数のトレーニングオーディオ信号にニューラルネットワークを適用することによってトレーニングし、第1の帯域幅を有するインバウンドオーディオ信号を受信し、インバウンドオーディオ信号に前記ニューラルネットワークの帯域幅拡張器を適用することによって、第2の帯域幅を有する推定インバウンドオーディオ信号を生成する、ように構成される。
【0010】
前述の概要及び以下の詳細な説明は共に例証で説明のためのものであり、請求項に記載された本発明の実施形態の更なる説明を行うことを意図している点を理解されたい。
【0011】
本開示は、以下の図を参照することによりよく理解することができる。図中の構成要素は、必ずしも縮尺通りではなく、代わりに本開示の原理を説明することに重きが置かれている。図において、参照数字は、異なる図を通して対応する部品を示している。
【図面の簡単な説明】
【0012】
図1】例示的な実施形態による、電話コールを受信し分析するためのシステムの構成要素を示す図である。
図2】帯域幅拡張のための1又は2以上のニューラルネットワークを実装する方法のステップを示す図である。
図3】話者照合のためのニューラルネットワークアーキテクチャ(埋め込み抽出器と呼ばれることもある)を実装する方法のステップを示す図である。
図4】帯域幅拡張のためのニューラルネットワークアーキテクチャのレイヤを示す図である。
図5】話者認識のためのニューラルネットワークアーキテクチャのレイヤを示す図である。
図6A】帯域幅拡張及び話者認識のためのニューラルネットワークアーキテクチャのレイヤを示す図である。
図6B】帯域幅拡張及び話者認識のためのニューラルネットワークアーキテクチャのレイヤを示す図である。
図7】複数のチャネルにわたる話者及び認証のためのニューラルネットワークアーキテクチャのレイヤを示す図である。
図8】一実施形態によるニューラルネットワークアーキテクチャを採用するクロスチャネル発信者認証のためのシステムを示す図である。
【発明を実施するための形態】
【0013】
ここで、図面に示された例示的な実施形態について説明し、これを記述するために具体的な表現が使用される。それでも、本発明の範囲のいかなる限定もそれによって意図されるものではないことは、理解されるであろう。本明細書で例示された発明の特徴の変更及び更なる修正、並びに本明細書で例示された発明の原理の追加的な適用は、関連技術に精通し本開示を所有している者には想起されるであろうし、これらは、本発明の範囲内にあるとみなされる。
【0014】
話者認識及び他のオペレーション(例えば、認証)のための音声バイオメトリクスは、典型的には、話者サンプルの母集団及び特定の話者のサンプルから生成されたモデル又はベクトルに依存する。一例として、トレーニングフェーズ(又は再トレーニングフェーズ)の間に、サーバ又は他のコンピュータデバイスは、複数のトレーニングオーディオ信号を使用してスピーチのインスタンスを認識し区別するようにトレーニングされたスピーチ認識エンジン(例えば、人工知能及び/又は機械学習プログラムソフトウェア)を実行する。ニューラルネットワークアーキテクチャは、対応する入力に従って特定の結果を出力し、期待される出力と観測された出力とを比較することによって、損失関数に従って結果を評価する。次いで、トレーニングオペレーションは、ニューラルネットワークアーキテクチャの重み付け値(ハイパーパラメータと呼ばれることもある)を調整し、期待出力及び観測出力が収束するまで、ニューラルネットワークアーキテクチャを入力に再適用する。その後、サーバは、ハイパーパラメータを固定(例えば、フリーズ又は設定)し、場合によっては、トレーニングに使用されるニューラルネットワークアーキテクチャの1又は2以上のレイヤを無効化する。
【0015】
サーバは、話者認識エンジンを更にトレーニングし、特定の登録者-話者の登録フェーズ中に特定の話者を認識することができる。スピーチ認識エンジンは、登録者を含むスピーチセグメントを有する登録者オーディオ信号を使用して、登録者音声特徴ベクトル(「声紋」と呼ばれることもある)を生成することができる。後のインバウンド電話コールの際に、サーバは、声紋を参照して、後のインバウンドコールから抽出された特徴ベクトルを登録者の声紋とマッチングすることに基づいて、後のオーディオ信号が登録者を含むかどうかを確認する。これらの手法は、一般に、インバウンドコールにおいて登録者を検出するために成功し十分である。
【0016】
しかしながら、インバウンド信号の品質が利用可能な通信チャネル間で変化するという懸念がある。この変動は、ニューラルネットワークアーキテクチャの性能を低下させることが多く、及び/又は特定の通信チャネル毎に異なる登録信号を提供することを登録者に要求してストレスとなる。場合によっては、異なるニューラルネットワークアーキテクチャを特定の通信チャネル毎に維持しなければならず、これは扱いにくく、性能を低下させる可能性がある。
【0017】
本明細書で説明するように、システムは、帯域幅拡張ニューラルネットワーク(「帯域幅拡張器」と呼ばれることもある)をトレーニングし採用する。帯域幅拡張器は、低品質データ(例えば、低サンプリングレート、低帯域幅)用に構成された通信チャネルを介して到達する狭帯域オーディオ信号を取り込み、対応する推定広帯域オーディオ信号を生成する。これらの推定広帯域オーディオ信号は、話者照合ニューラルネットワーク又は埋め込み抽出ニューラルネットワークなどの1又は2以上のダウンストリームアプリケーションに供給することができる。次に、話者照合ニューラルネットワークは、インバウンド信号又は登録信号を受信するのに使用されるチャネルに関係なく、登録された埋め込みに対して現在のコールのインバウンド埋め込みを比較してスコアリングすることができる。
【0018】
本明細書で記載される実施形態は、とりわけ、オーディオデータの取り込み、前処理オペレーション、データ増強オペレーション、帯域幅拡張、埋め込み抽出、損失関数オペレーション、及び分類オペレーションなどの特定のオペレーションを行うように構成されたあらゆる数のレイヤを含む1又は2以上のニューラルネットワークアーキテクチャを実装している。様々なオペレーションを実行するために、1又は2以上のニューラルネットワークアーキテクチャは、入力レイヤ、帯域幅拡張器のレイヤ、埋め込み抽出器のレイヤ、全結合レイヤ、損失レイヤ、分類器のレイヤなど、あらゆる数のレイヤを備える。
【0019】
レイヤ又はオペレーションは、あらゆる数のニューラルネットワークアーキテクチャによって実行できることを理解されたい。一例として、帯域幅拡張器ニューラルネットワーク(帯域幅拡張レイヤを有する)及び話者認識器ニューラルネットワーク(埋め込み抽出器レイヤを有する)は、サーバによって実行される別個のニューラルネットワークアーキテクチャとすることができる。別の例として、帯域幅拡張器ニューラルネットワーク(帯域幅拡張レイヤを有する)及び話者認識器ニューラルネットワーク(埋め込み抽出器レイヤを有する)は、サーバによって実行される同じニューラルネットワークアーキテクチャの構成要素とすることができる。更に又は代替的に、異なるオペレーションを実行するレイヤは、異なるタイプのニューラルネットワークアーキテクチャを定義することができる。例えば、埋め込み抽出器のためのレイヤは、ResNetニューラルネットワークアーキテクチャとすることができ、帯域幅拡張器のためのレイヤは、別のタイプの畳み込みニューラルネットワーク(CNN)又はディープニューラルネットワーク(DNN)とすることができる。
【0020】
更に、前処理オペレーション及びデータ拡張オペレーションなどの特定のオペレーションは、ニューラルネットワークアーキテクチャとは別に、又はニューラルネットワークアーキテクチャのレイヤとしてコンピュータデバイスによって実行することができる。ネットワーク内拡張及び前処理に関する非限定的な例は、2020年10月8日に出願された米国特許出願第17/066,210号及び2020年10月23日に出願された米国特許出願第17/079,082号に見出すことができ、これらは引用により本明細書に組み込まれる。
【0021】
(例示的なシステム構成要素)
図1は、例示的な実施形態による、クロスチャネル音声バイオメトリクスのための電話コールを受信し分析するためのシステム100の構成要素を示す。システム100は、コール分析システム101と、顧客企業(例えば、企業、政府機関、大学)のコールセンターシステム110と、発信者デバイス114とを備える。コール分析システム101は、分析サーバ102と、分析データベース104と、管理者デバイス103とを含む。コールセンターシステム110は、コールセンターサーバ111と、コールセンターデータベース112と、エージェントデバイス116とを含む。実施形態は、図1のものから追加的又は代替の構成要素を備えること、或いは特定の構成要素を省略することができ、これらは依然として本開示の範囲内にある。例えば、複数のコールセンターシステム110を含むこと、又はコール分析システム101が複数の分析サーバ102を有することは、一般的とすることができる。実施形態は、本明細書に記載される様々な特徴及びタスクを実行することができるあらゆる数のデバイスを含むか、或いは実装することができる。例えば、図1は、分析データベース104とは異なるコンピュータデバイスとして分析サーバ102を示している。幾つかの実施形態では、分析データベース104は、分析サーバ102に統合することができる。
【0022】
図1に関して記載された実施形態は、本明細書で記載したクロスチャネル音声バイオメトリクスの単なる例に過ぎず、他の潜在的な実施形態を必ずしも限定するものではないことを理解されたい。図1の説明では、発信者が様々な通信チャネルを介して電話をかけ、コールセンターシステム110によって提供されるサービスと連絡をとって対話する状況について言及しているが、本明細書に記載されるクロスチャネル音声バイオメトリクス技術のオペレーション及び特徴は、発信者とコールセンターシステム110によって提供されるサービスとの間の音声ベースのインターフェースを伴うあらゆる状況に適用することができる。
【0023】
例えば、本明細書に記載のクロスチャネル音声バイオメトリクスシステム及びオペレーションは、複数の通信チャネルを介して話者オーディオ入力を受信し認証するあらゆるシステムにおいて実装することができる。エンドユーザは、サービスプロバイダ及びサービスプロバイダのコールセンターシステム110のユーザアカウント又は他の特徴にアクセスし、コールセンターサーバ111によってホストされるソフトウェアアプリケーション(例えば、クラウドアプリケーション)と、又はその人間エージェントと対話することができる。幾つかの実施構成において、サービスプロバイダのコールセンターシステム110のユーザは、様々なタイプのユーザデバイス114を使用して電話をかけることによって、サービスプロバイダのユーザアカウント又は他の特徴にアクセスすることができる。また、ユーザは、コールセンターサーバ111によってホストされるソフトウェアプログラミング(例えば、クラウドアプリケーション)とデータ及び命令を交換するように構成された特定のユーザデバイス114によって実行されるソフトウェアを使用して、サービスプロバイダのユーザアカウント又は他の特徴にアクセスすることができる。顧客コールセンター110は、例えば、電話コール中に発信者と会話する人間のエージェント、コールセンターサーバ111によって実行される双方向音声応答(IVR)ソフトウェア、又はコールセンターサーバ111によって実行されるクラウドソフトウェアプログラミングを含むことができる。顧客コールセンター110は、人間のエージェントも含む必要はなく、エンドユーザがIVRシステム又はクラウドソフトウェアアプリケーションとのみ対話するようになる。
【0024】
一例として、場合によっては、カスタマーコールセンターシステム110は、例えば、固定電話デバイス114a(狭帯域チャネル)又はモバイルデバイス114b(広帯域チャネル)から発信される電話コールを処理する人間のエージェント及び/又はIVRシステムを含む。別の例として、場合によっては、コールセンターサーバ111は、モバイルデバイス114b、コンピュータデバイス114c、又はエッジデバイス114dなどのユーザデバイス114上の対応するソフトウェアアプリケーションにアクセス可能なクラウドアプリケーションを実行する。ユーザは、ユーザ側ソフトウェアアプリケーションを使用して、サービスプロバイダのユーザアカウント又は他の特徴と対話する。このような場合、コールセンターシステム110は、人間のエージェントを含む必要はなく、又は、ユーザは、ソフトウェアアプリケーションをリダイレクトして別のチャネルを介してエージェントデバイス116と接続するようにコールセンターサーバ111に命令することができ、これによって、ユーザが困難なときに人間のエージェントと話すことが可能になる。
【0025】
1又は2以上のパブリック又はプライベートネットワークの様々なハードウェア及びソフトウェア構成要素は、様々な通信チャネルを介してシステム100の様々な構成要素と相互接続することができる。このようなネットワークの非限定的な例には、ローカルエリアネットワーク(LAN)、無線ローカルエリアネットワーク(WLAN)、メトロポリタンエリアネットワーク(MAN)、ワイドエリアネットワーク(WAN)、及びインターネットを含むことができる。ネットワーク上の通信は、伝送制御プロトコル/インターネット・プロトコル(TCP/IP)、ユーザ・データグラム・プロトコル(UDP)、及びIEEE通信プロトコルなどの様々な通信プロトコルに従って実行することができる。同様に、発信者デバイス114は、電話コールに関連するオーディオデータをホスト、伝送及び交換することができる電話及び電気通信プロトコル、ハードウェア、及びソフトウェアを介して、被発呼側(例えば、コールセンターシステム110)と通信することができる。電気通信ハードウェアの非限定的な例は、電話コール、回路、及びシグナリングをホスト、ルーティング又は管理するのに使用される他の追加又は代替のハードウェアのうち、スイッチ及びトランクを含むことができる。電気通信用のソフトウェア及びプロトコルの非限定的な例は、電話コール、回路、及びシグナリングをホスト、ルーティング、又は管理するのに使用される他の追加的又は代替のソフトウェア及びプロトコルのうち、SS7、SIGTRAN、SCTP、ISDN、及びDNISを含むことができる。電気通信用の構成要素は、とりわけ、キャリア、交換、及びネットワークなどの様々な異なるエンティティに編成されるか又はこれらによって管理することができる。
【0026】
発信者デバイス114は、発信者が様々な通信チャネルを通じてコールセンターシステム100のサービスにアクセスするためにオペレーションする何れかの通信デバイス又はコンピュータデバイスとすることができる。例えば、発信者は、電話ネットワークを通じて、又は発信者デバイス114によって実行されるソフトウェアアプリケーションを通じてコールセンターシステム110に電話をかけることができる。発信者デバイス114の非限定的な例としては、固定電話114a、携帯電話114b、コールコンピュータデバイス114c、又はエッジデバイス114dを含むことができる。固定電話114a及び携帯電話114bは、電気通信チャネルを介して通信する電気通信指向のデバイス(例えば、電話)である。発信者デバイス114は、電気通信指向のデバイス又はチャネルに限定されるものではない。例えば、場合によっては、携帯電話114bは、コンピュータネットワークチャネル(例えば、インターネット)を介して通信を行うことができる。また、発信者デバイス114は、例えば、ボイスオーバーIP(VoIP)電気通信、TCP/IPネットワークを介したデータストリーミング、又は他のコンピュータネットワークチャネルを実装する発信者コンピュータデバイス114c又はエッジデバイス114dなどのプロセッサ及び/又はソフトウェアを含む電子デバイスを含むことができる。エッジデバイス114dは、ネットワーク通信用の何れかのモノのインターネット(IoT)デバイス又は他の電子デバイスを含むことができる。エッジデバイス114dは、ソフトウェアアプリケーションを実行すること及び/又は音声インターフェースオペレーションを実行することができる何れかのスマートデバイスとすることができる。エッジデバイス114dの非限定的な例としては、音声アシスタントデバイス、自動車、スマート家電及び同様のものを含むことができる。
【0027】
コールセンターシステム110は、コールセンターシステム110との発信者の連絡に関連する様々なタイプのデータ又はメタデータを取り込んで格納する様々なハードウェア及びソフトウェア構成要素を備える。このデータは、例えば、コール又は発信者の音声のオーディオ記録、及び特定の通信チャネルに採用されるプロトコル及びソフトウェアに関連するメタデータを含むことができる。発信者の音声と共に取り込まれたオーディオ信号は、使用された特定の通信に基づく品質を有する。例えば、固定電話114aからのオーディオ信号は、エッジデバイス114dからのオーディオ信号のサンプリングレート及び/又は帯域幅と比較して、より低いサンプリングレート及び/又は低い帯域幅を有することになる。
【0028】
コール分析システム101及びコールセンターシステム110は、様々な企業組織によって管理又は運営される物理的及び論理的に関連するソフトウェア及び電子デバイスを備えたネットワークインフラ101,110を表している。各ネットワークシステムインフラ101,110のデバイスは、特定の企業組織の意図するサービスを提供するように構成される。
【0029】
コール分析システム101の分析サーバ102は、1又は2以上のプロセッサ及びソフトウェアを含み、本明細書に記載される様々な処理及びタスクを実行することができる何れかのコンピュータデバイスとすることができる。分析サーバ102は、分析データベース104をホストするか、又はこれと通信することができ、1又は2以上のコールセンターシステム110から受信したコールデータ(例えば、オーディオ録音、メタデータ)を受信し処理する。図1は単一の分析サーバ102のみを示すが、分析サーバ102は、あらゆる数のコンピュータデバイスを含むことができる。場合によっては、分析サーバ102のコンピュータデバイスは、分析サーバ102のプロセス及び利点の全て又はサブパートを実行することができる。分析サーバ102は、分散型又はクラウドコンピュータ構成で及び/又は仮想マシン構成でオペレーションするコンピュータデバイスを備えることができる。また、幾つかの実施形態において、分析サーバ102の機能は、コールセンターシステム110のコンピュータデバイス(例えば、コールセンターサーバ111)によって部分的又は全体的に実行できることを理解されたい。
【0030】
分析サーバ102は、帯域幅拡張及び話者認識のためのニューラルネットワークレイヤを有する1又は2以上のニューラルネットワークアーキテクチャを含むオーディオ処理ソフトウェアを実行する。場合によっては、ニューラルネットワークアーキテクチャは、とりわけ、オーディオ入力拡張、話者照合又は認証(クロスチャネル話者照合を含む)、及び話者ダイアリゼーションなどの追加のオペレーション又は機能を実行することができる。説明を容易にするために、分析サーバ102は、帯域幅拡張器及び埋め込み抽出器を有する単一のニューラルネットワークアーキテクチャを実行するものとして説明されるが、幾つかの実施形態では、複数のニューラルネットワークアーキテクチャを採用することができる。
【0031】
ニューラルネットワークアーキテクチャは、トレーニングフェーズ、登録フェーズ、及び展開フェーズ(テストフェーズ又はテストと呼ばれることもある)を含む、複数のオペレーションフェーズで論理的にオペレーションするが、幾つかの実施形態では登録フェーズを実行する必要はない。分析サーバ102及びニューラルネットワークアーキテクチャによって処理される入力されたオーディオ信号は、トレーニングオーディオ信号、登録オーディオ信号、及び展開フェーズ中に処理されるインバウンドオーディオ信号を含む。分析サーバ102は、対応するオペレーションフェーズの間、入力されたオーディオ信号の各タイプにニューラルネットワークアーキテクチャを適用する。
【0032】
分析サーバ102又はシステム100の他のコンピュータデバイス(例えば、コールセンターサーバ111)は、入力オーディオ信号に対して様々な前処理オペレーション及び/又はデータ拡張オペレーションを行うことができる。入力されたオーディオ信号に対する前処理オペレーションの非限定的な例は、他の潜在的な前処理オペレーションのなかでも、帯域幅拡張の実行、ダウンサンプリング又はアップサンプリング、低レベル特徴の抽出、オーディオ信号を解析してフレーム又はセグメントへのセグメント化、及び1又は2以上の変換関数(例えば、FFT、SFT)の実行を含む。拡張オペレーションの非限定的な例は、とりわけ、帯域幅拡張の実行、ダウンサンプリング又はアップサンプリング、オーディオクリッピング、ノイズ拡張、周波数拡張、及び持続時間拡張を含む。分析サーバ102は、入力オーディオ信号をニューラルネットワークアーキテクチャの入力レイヤに供給する前に、前処理又はデータ拡張オペレーションを実行することができる。加えて又は代替的に、分析サーバ102は、ニューラルネットワークアーキテクチャを実行する際に、前処理又はデータ拡張オペレーションを実行することができ、ここでニューラルネットワークアーキテクチャの入力レイヤ(又は他のレイヤ)が前処理又はデータ拡張オペレーションを実行する。例えば、ニューラルネットワークアーキテクチャは、ニューラルネットワークアーキテクチャに供給される入力オーディオ信号に対してデータ拡張オペレーションを実行するネットワーク内データ拡張レイヤを含むことができる。
【0033】
トレーニングフェーズにおいて、分析サーバ102は、分析データベース104又は他の記憶媒体に格納することができる1又は2以上のコーパスから、様々な長さ及び特性(例えば、帯域幅、サンプルレート、劣化のタイプ)のトレーニングオーディオ信号を受信する。トレーニングオーディオ信号は、クリーンオーディオ信号(サンプルと呼ばれることもある)及びシミュレーションオーディオ信号を含み、その各々を、分析サーバ102がニューラルネットワークアーキテクチャの様々なレイヤをトレーニングするのに使用する。クリーンオーディオ信号は、スピーチ及び特徴が分析サーバ102によって識別可能であるスピーチを含むオーディオサンプルである。
【0034】
分析サーバ102は、より多くの分析データベース104からシミュレーションオーディオ信号を検索し、及び/又は様々なデータ拡張オペレーションを実行することによってシミュレーションオーディオ信号を生成することができる。場合によっては、データ拡張オペレーションは、所与の入力オーディオ信号(例えば、トレーニング信号、登録信号)に対するシミュレーションオーディオ信号を生成することができ、ここで、シミュレーションオーディオ信号は、入力オーディオ信号に対する特定のタイプの信号劣化又は歪みの影響を模倣する入力オーディオ信号の操作された特徴を含む。分析サーバ102は、ニューラルネットワークアーキテクチャの将来の参照又はオペレーションのために、分析サーバ102及び/又は分析データベース104の非一時的媒体にトレーニングオーディオ信号を格納する。
【0035】
帯域幅拡張器の登録のトレーニング又は開発のために、トレーニングオーディオ信号又は登録オーディオ信号は、システム100の潜在的な通信チャネルに関連する様々な帯域幅を有する。このようにして、帯域幅拡張器のレイヤは、通信チャネルによって使用される様々な帯域幅を有するトレーニングオーディオ入力オーディオ信号に対して、推定広帯域オーディオ信号を生成するように調整される。
【0036】
幾つかの実施構成において、分析サーバ102は、トレーニング/登録オーディオ信号が同じ帯域幅を有すること、又は何れかの特定の帯域幅のトレーニング/登録オーディオ信号が少なすぎる(閾値を下回る)ことを決定する。このような実施構成において、分析サーバ102は、1又は2以上の拡張処理を実行して、様々な帯域幅を有するシミュレーショントレーニング/登録信号を生成し、これによって、帯域幅拡張器を調整するためのトレーニング/登録信号の量を増加させる。例えば、分析サーバ102は、シミュレーションオーディオ信号を生成するためにコーデックプログラムを実行し、これによって、分析サーバ102は、広帯域(例えば、16kHz)トレーニングオーディオファイルをコーデックプログラムに渡し、対応する狭帯域(例えば、8kHz)のシミュレーションオーディオファイルを生成する。
【0037】
トレーニングフェーズ、及び幾つかの実施構成では登録フェーズの間、1又は2以上の全結合及び/又はフィードフォワードレイヤは、トレーニングオーディオ信号に対する予測された推定広帯域信号を生成し出力する。損失レイヤは、トレーニング/登録信号に関連するラベルによって示されるように、推定広帯域信号と予想広帯域信号の特徴間の距離を評価するために、様々な損失関数を実行する。損失レイヤ又は分析サーバ102によって実行される他の関数は、予測された推定広帯域信号と期待される推定広帯域信号との間の距離が閾値を満たすまで、ニューラルネットワークアーキテクチャのハイパーパラメータを調整する。
【0038】
登録オペレーションフェーズの間、コールセンターシステム110のエンド消費者のような登録者話者は、登録者スピーチの例を含む複数の登録者オーディオ信号を(コール分析システム101に)提供する。一例として、登録者は、電話チャネルを介してコールセンターサーバ111によって実行されるIVRソフトウェアの様々な双方向音声応答(IVR)プロンプトに応答することができる。別の例として、登録者は、コールセンターサーバ111によって生成され、対応するデータ通信チャネルを介してエッジデバイス114dのソフトウェアアプリケーションと交換される様々なプロンプトに応答することができる。コールセンターサーバ111は、次に、真正の登録オーディオ信号を含む記録された応答を分析サーバ102に転送する。分析サーバ102は、トレーニングされたニューラルネットワークアーキテクチャを登録者音声サンプルの各々に適用し、対応する登録者特徴ベクトル(「登録者埋め込み」と呼ばれることもある)を生成するが、分析サーバ102は、ニューラルネットワークアーキテクチャをトレーニングするために採用されたレイヤなどの特定のレイヤを無効にする。分析サーバ102は、平均を生成するか、さもなければアルゴリズム的に登録者特徴ベクトルを結合し、登録者特徴ベクトルを分析データベース104又はコールセンターデータベース112に格納する。任意選択的に、エッジデバイスは、トレーニングされたニューラルネットワークアーキテクチャを登録者音声サンプルの各々に局所的に(オンデバイスで)適用することによって登録者特徴ベクトルを生成し、次いで、登録者特徴ベクトルをコールセンターサービス111又は分析サーバ102に送信する。
【0039】
話者照合ニューラルネットワークのトレーニング及び登録フェーズの同様の詳細は、米国特許出願第17/066,210号及び第17/079,082号に記載されており、これらは引用により本明細書に組み込まれる。加えて、本明細書に記載のニューラルネットワークアーキテクチャは、話者照合ニューラルネットワークのレイヤを更に含むことができ、話者照合ニューラルネットワークのレイヤは、帯域幅拡張器ニューラルネットワークのレイヤと連動して実行される。幾つかの実施形態では、話者照合ニューラルネットワークは、帯域幅拡張器によって出力された推定広帯域オーディオ信号を受信する。加えて、又は代替的に、話者照合は、帯域幅拡張器をデータ拡張オペレーションとしてオーディオ信号に適用することができる。
【0040】
トレーニングフェーズの後、分析サーバ102は、ニューラルネットワークアーキテクチャを分析データベース104又はコールセンターデータベース112に格納する。コールセンターサーバ111、エージェントデバイス116、管理者デバイス103、又はユーザデバイス114が、登録者オーディオ信号の特徴を抽出するため、又は登録者オーディオ信号に対するニューラルネットワークアーキテクチャのチューニングのため、登録フェーズに入るように分析サーバ102に命令すると、分析サーバ102は、データベース104、112からトレーニングされたニューラルネットワークアーキテクチャを検索する。次いで、分析サーバ102は、展開フェーズのために、抽出された登録者埋め込み及びトレーニングされたニューラルネットワークアーキテクチャをデータベース104,112に格納する。
【0041】
展開フェーズの間、分析サーバ102は、特定の通信チャネルを介してインバウンド発信者の発信者デバイス114から発信されたようなインバウンドコールのインバウンドオーディオ信号を受信する。分析サーバ102は、インバウンドオーディオ信号にニューラルネットワークアーキテクチャを適用して、インバウンドオーディオから特徴を抽出し、発信者が、コールセンターシステム110又は分析システム101に登録されている登録者であるか否かを決定する。場合によっては、分析サーバ102は、インバウンドオーディオ信号の帯域幅を評価し、インバウンドオーディオ信号に帯域幅拡張器を適用するか否かを決定する。分析サーバ102が、インバウンドオーディオ信号が狭い帯域幅を有すると決定した場合、分析サーバ102は、帯域幅拡張器を狭帯域インバウンド信号に適用する。逆に、分析サーバ102が、インバウンドオーディオ信号が広帯域を有すると決定したときには、分析サーバ102は、広帯域インバウンド信号に帯域幅拡張器を適用する必要はない。展開中、分析サーバ102は、入力レイヤ(例えば、前処理レイヤ、拡張レイヤ)、帯域幅拡張レイヤ、及び埋め込み抽出レイヤなどのニューラルネットワークアーキテクチャのオペレーションレイヤをインバウンドオーディオ信号に適用する。幾つかの実施形態では、分析サーバ102は、トレーニング又は登録のために採用される特定のレイヤ(例えば、分類レイヤ、損失レイヤ)を無効化することができる。
【0042】
分析サーバ102は、ニューラルネットワークアーキテクチャをインバウンド信号に適用することによって、インバウンドオーディオ信号の推定広帯域信号を生成する。展開フェーズの後、分析サーバ102(又はシステム100の別のデバイス)は、推定広帯域信号を採用して、あらゆる数の様々なダウンストリームオペレーションを実行することができる。例えば、ニューラルネットワークアーキテクチャによって生成される推定広帯域信号は、多くの場合、1又は2以上のタイプの劣化が比較的少ないインバウンドオーディオ信号の拡張バージョンである。比較的狭い帯域幅(例えば、8kHz)を有するインバウンドオーディオ信号は、一般的に低品質を有し、バックグラウンドノイズなどの特定の劣化を含む可能性がある。ニューラルネットワークアーキテクチャは、比較的広い帯域幅(例えば、16kHz)を有する推定広帯域信号を生成するだけでなく、ニューラルネットワークアーキテクチャをトレーニングし開発する際に採用される様々なデータ拡張オペレーションに起因して、推定広帯域信号もまたノイズ除去されることになる。ダウンストリームアプリケーションは、データストリーミングサービスとすることができ、これによって、分析サーバ102は、推定広帯域信号をあらゆる数のデバイス(例えば、コールセンターサーバ111、発信者デバイス114)に転送又はストリーミングする。
【0043】
ダウンストリームアプリケーションの別の例として、分析サーバ102は、推定広帯域信号を話者照合ニューラルネットワークに供給することができる。話者照合ニューラルネットワークは、推定広帯域信号から埋め込みを抽出して、インバウンド話者を認識するための様々な処理を実行することができ、或いは、話者照合ニューラルネットワークの出力を使用してあらゆる数の追加のダウンストリームオペレーション(例えば、話者認証、話者ダイアリゼーション)を実行することができる。
【0044】
分析データベース104及び/又はコールセンターデータベース112は、1又は2以上のネットワークを介して分析サーバ102にアクセス可能なトレーニングオーディオ信号のあらゆる数のコーパスを含むことができる。幾つかの実施形態では、分析サーバ102は、ニューラルネットワークをトレーニングするために教師ありトレーニングを採用し、ここで、分析データベース104は、例えば、トレーニング信号の特性(例えば、帯域幅)又は特徴を示すトレーニングオーディオ信号に関連するラベルを含む。また、分析サーバ102は、外部データベース(図示せず)に照会して、トレーニングオーディオ信号のサードパーティコーパスにアクセスすることができる。管理者は、特定の帯域幅又は他の特性を有するトレーニングオーディオ信号を選択するように、分析サーバ102を構成することができる。
【0045】
コールセンターシステム110のコールセンターサーバ111は、コールキューを管理し、及び/又は様々なチャネルを通じてコールセンターシステム110になされたコールをルーティングするためのソフトウェアプロセスを実行し、ここで、プロセスは、例えば、インバウンドコール中に送出されたインバウンド発信者のコメント、命令、IVR入力、又は他の入力に基づいて適切なコールセンターエージェントデバイス116にコールをルーティングすることを含むことができる。コールセンターサーバ111は、コール、発信者、及び/又は発信者デバイス114に関する様々な種類の情報を取り込み、照会又は生成し、情報をエージェントデバイス116に転送し、ここでエージェントデバイス116のグラフィカルユーザインターフェース(GUI)が、コールセンターのエージェントに情報を表示することができる。コールセンターサーバ111はまた、インバウンドオーディオ信号及び他の何れかのオーディオデータに対して様々な分析処理を事前に実行するために、インバウンドコールに関する情報をコール分析システム101に送信する。コールセンターサーバ111は、予め設定されたトリガ条件(例えば、インバウンド電話コールの受信)、システム100の別のデバイス(例えば、エージェントデバイス116、管理者デバイス103、分析サーバ102)から受信した命令又はクエリに基づいて、或いは定期的間隔又は予め定められた時間に送信されるバッチの一部として情報及びオーディオデータを送信することができる。
【0046】
コール分析システム101の管理者デバイス103は、コール分析システム101の要員が様々な管理タスク又はユーザが促した分析オペレーションを実行することを可能にするコンピュータデバイスである。管理者デバイス103は、プロセッサ及びソフトウェアを備えた、本明細書に記載された様々なタスク及びプロセスを実行することができる何れかのコンピュータデバイスとすることができる。管理者デバイス103の非限定的な例としては、サーバ、パーソナルコンピュータ、ラップトップコンピュータ、タブレットコンピュータ及び同様のものを含むことができる。オペレーションにおいて、ユーザは、管理者デバイス103を採用して、コール分析システム101又はコールセンターシステム110の様々な構成要素のオペレーションを構成し、当該構成要素に対してクエリ及び命令を送出する。
【0047】
コールセンターシステム110のエージェントデバイス116は、コールセンターシステム110のエージェント又は他のユーザが、コールセンターシステム110のデバイスのオペレーションを構成することを可能にすることができる。コールセンターシステム110になされたコールについて、エージェントデバイス116は、コールセンターサーバ111からルーティングされたコールに関連する関連情報の一部又は全部を受信し、表示する。
【0048】
処理例
帯域幅拡張トレーニング
図2は、帯域幅拡張のための1又は2以上のニューラルネットワークを実装するための方法200のステップを示す。実施形態は、方法200に記載されたオペレーションよりも追加された、より少ない、又は異なるオペレーションを含むことができる。方法200は、ニューラルネットワークアーキテクチャの機械可読ソフトウェアコードを実行するサーバによって実行されるが、様々なオペレーションは、1又は2以上のコンピュータデバイス及び/又はプロセッサによって実行できることは理解されるべきである。
【0049】
ステップ202において、サーバは、ニューラルネットワークをトレーニングオペレーションフェーズにし、サーバは、何れかの数(場合によっては、数千又は数十万)のトレーニングオーディオ信号を取得し、これは、狭帯域トレーニング信号、広帯域トレーニング信号、シミュレーション狭帯域信号、及びシミュレーション広帯域信号の何れかの組み合わせを含むことが可能である。
【0050】
ニューラルネットワークアーキテクチャのサーバ又はレイヤは、入力オーディオ信号(例えば、トレーニングオーディオ信号、登録オーディオ信号、インバウンドオーディオ信号)に対して様々な前処理オペレーションを実行することができる。これらの前処理オペレーションは、例えば、オーディオ信号から低レベルの特徴を抽出するステップと、FFT及び/又はSFTオペレーションを行うことによってこれらの特徴を時間領域表現から周波数領域表現に変換するステップとを含むことができる。前処理オペレーションはまた、オーディオ信号をフレーム又はサブフレームに解析するステップと、様々な正規化又はスケーリングオペレーションを実行するステップとを含むことができる。任意選択的に、サーバは、オーディオデータをニューラルネットワークの入力レイヤに供給する前に、あらゆる数の前処理オペレーションを実行する。サーバは、オペレーションフェーズの1又は2以上において様々な前処理オペレーションを実行することができるが、実行される特定の前処理オペレーションは、オペレーションフェーズにわたって異なることができる。サーバは、ニューラルネットワークアーキテクチャとは別に、又はニューラルネットワークアーキテクチャのネットワーク内レイヤとして様々な前処理オペレーションを実行することができる。
【0051】
サーバ又はニューラルネットワークアーキテクチャのレイヤは、入力オーディオ信号(例えば、トレーニングオーディオ信号、登録オーディオ信号)に対して様々な拡張オペレーションを実行することができる。拡張オペレーションは、入力オーディオ信号に対して様々なタイプの歪み又は劣化を生成し、結果として得られるオーディオ信号が、例えば畳み込みオペレーションによって取り込まれるようになる。サーバは、ニューラルネットワークアーキテクチャとは別のオペレーションとして、又はネットワーク内拡張レイヤとして様々な拡張オペレーションを実行することができる。更に、サーバは、オペレーションフェーズの1又は2以上において様々な拡張オペレーションを実行することができるが、実行される特定の拡張オペレーションは、オペレーションフェーズのそれぞれにおいて異なることができる。
【0052】
場合によっては、サーバは、狭帯域トレーニング信号及び/又は広帯域トレーニング信号のコーパスに対して様々な拡張オペレーションを実行するときに、シミュレーション狭帯域信号及び/又はシミュレーション広帯域信号を生成する。例えば、サーバは、データベースから広帯域トレーニングオーディオ信号を受信し、広帯域トレーニング信号に対応するシミュレーション狭帯域オーディオ信号を生成することができる。サーバは、広帯域トレーニングオーディオ信号に対して1又は2以上の既知のダウンサンプリング技術を実行することによって、広帯域トレーニング信号をダウンサンプリングする。更に、又は代替的に、サーバは、広帯域トレーニング信号に対してコーデックプログラムを実行し、これによって、対応するシミュレーション狭帯域オーディオ信号を生成する。
【0053】
任意選択の実施形態では、サーバは、狭帯域トレーニングオーディオ信号を選択し、狭帯域トレーニング信号に対応するシミュレーション広帯域オーディオ信号を生成することができる。サーバは、狭帯域トレーニング信号に対して1又は2以上の既知のアップサンプリング技術を実行することによって、狭帯域トレーニングオーディオ信号をアップサンプリングする。更に、又は代替的に、サーバは、狭帯域トレーニング信号に対してコーデックプログラムを実行し、これによって、対応するシミュレーション広帯域信号を生成する。
【0054】
ステップ204において、サーバは、トレーニングオーディオ信号にニューラルネットワークアーキテクチャを適用することによって、帯域幅拡張のためのニューラルネットワークアーキテクチャをトレーニングする。サーバは、帯域幅拡張器のレイヤと1又は2以上の追加のレイヤ(例えば、全結合レイヤ)をトレーニングするために、トレーニングオーディオ信号の各々にニューラルネットワークを適用し、これによって、与えられた受信狭帯域信号に対する推定広帯域信号(「推定インバウンドオーディオ信号」と呼ばれることもある)を生成するためにニューラルネットワーク・アーキテクチャをトレーニングする。
【0055】
ステップ206において、サーバは、損失関数を実行し、帯域幅拡張器のハイパーパラメータを更新する。ニューラルネットワークアーキテクチャは、トレーニング信号に関連付けられた話者ラベルを用いてエラーのレベルを評価するための1又は2以上の損失レイヤを備える。トレーニング信号は、例えば、予測された推定広帯域信号に対応する期待される推定広帯域信号の値又は特徴を示す様々な情報を含む。損失レイヤは、予測された(出力された)推定信号と期待される推定信号との間の差異又は類似性(例えば、エラーのレベル)に基づいて、様々な損失関数(例えば、平均二乗エラー損失関数)を実行することができる。ニューラルネットワークアーキテクチャの損失レイヤは、エラーの閾値レベルが満たされるまで、エラーのレベルを改善するために帯域幅拡張器のハイパーパラメータを調整することができる。
【0056】
トレーニングが完了すると、サーバは、ハイパーパラメータをサーバのメモリ又は他のメモリロケーションに格納する。また、サーバは、ハイパーパラメータを固定したままにするために、ニューラルネットワークの1又は2以上のレイヤを無効化することができる。
【0057】
ステップ208において、展開中に、サーバは、狭帯域通信チャネルを介して、インバウンド話者から狭帯域インバウンドオーディオ信号を受信する。ニューラルネットワークアーキテクチャは、帯域幅拡張ニューラルネットワークのためにインバウンドオーディオを準備するために、インバウンドオーディオ信号に対してあらゆる数の前処理及び/又はデータ拡張オペレーションを適用する。前述のように、前処理オペレーションは、オーディオ信号をフレーム又はサブフレームに解析するステップと、生のオーディオ信号をスペクトルエネルギー/周波数表現に変換するステップと、スペクトル-時間的特徴を抽出するステップと、様々な正規化又はスケーリングオペレーションを実行するステップとを含むことができる。その後、オーディオ信号の特徴は、帯域幅拡張ニューラルネットワークレイヤに供給される。
【0058】
ステップ210において、サーバは、インバウンドオーディオを取り込み、インバウンドオーディオ信号に帯域幅拡張ニューラルネットワークレイヤを適用することによって、入力オーディオ信号に対する推定広帯域信号を生成する。帯域幅拡張ニューラルネットワークのトレーニングされた畳み込みレイヤ及び全結合レイヤは、狭帯域インバウンド信号から抽出された特徴に基づいて、推定広帯域信号を生成する。その後、出力された推定広帯域信号は、話者照合ニューラルネットワークなどのあらゆる数のダウンストリーム関数に供給することができる。
【0059】
話者照合及び帯域幅拡張
図3は、話者照合のためのニューラルネットワークアーキテクチャを実装するための方法300のステップを示す(埋め込み抽出器と呼ばれることもある)。実施形態は、方法300に記載されたオペレーションよりも追加された、より少ない、又は異なるオペレーションを含むことができる。方法300は、ニューラルネットワークアーキテクチャの機械可読ソフトウェアコードを実行するサーバによって実行されるが、様々なオペレーションは、1又は2以上のコンピュータデバイス及び/又はプロセッサによって実行することができることは、理解されたい。
【0060】
サーバは、話者照合ニューラルネットワークに恩恵を与えて改善する帯域幅拡張ニューラルネットワーク(帯域幅拡張器と呼ばれることもある)を採用する。議論を容易にするために、図3のニューラルネットワークアーキテクチャは、帯域幅拡張ニューラルネットワーク及び話者照合ニューラルネットワークのレイヤを備えるが、帯域幅拡張ニューラルネットワーク及び話者照合ニューラルネットワークは、別個のニューラルネットワークアーキテクチャの構成要素とすることができる。
【0061】
ステップ302において、サーバは、ニューラルネットワークアーキテクチャをトレーニングオペレーションフェーズにし、トレーニング信号を取得し、このトレーニング信号は、クリーンオーディオ信号及びシミュレーションオーディオ信号を含むことができる。サーバは、データベース又は帯域幅拡張器の出力などの様々なデータソースからトレーニングオーディオ信号を受信する。サーバはまた、様々なデータ拡張オペレーションを実行することによって、シミュレーションオーディオ信号を生成することができる。
【0062】
前述のように、ニューラルネットワークアーキテクチャのサーバ又はレイヤは、入力オーディオ信号(例えば、トレーニングオーディオ信号、登録オーディオ信号、インバウンドオーディオ信号)に対して様々な前処理オペレーションを実行することができる。加えて、又は代替的に、ニューラルネットワークアーキテクチャのサーバ又はレイヤは、入力オーディオ信号(例えば、トレーニングオーディオ信号、登録オーディオ信号)に対して様々な拡張オペレーションを実行することができる。
【0063】
サーバは、クリーンオーディオ信号とシミュレーションオーディオ信号の何れかの組み合わせを含む、トレーニングオーディオ信号のコーパスを含むデータベースからトレーニングオーディオ信号を受信することができる。シミュレーションオーディオ信号は、例えば、サーバが、クリーンオーディオ信号に対応する更なるシミュレーションオーディオ信号を生成するために、特定のデータ拡張オペレーションのためにクリーンオーディオ信号に対して採用し適用する様々な事前記録されたオーディオ信号を含むことができる。
【0064】
例えば、特定のシミュレーションオーディオ信号は、一般的な付加的なバックグラウンドノイズの録音を含むことができる。サーバは、これらのノイズの録音をクリーンオーディオ信号に適用する付加的ノイズ拡張オペレーションを実行し、これによって、付加的ノイズと元のクリーンオーディオ信号とを有する更なるシミュレーションオーディオ信号を生成する。別の例として、データ拡張処理は、帯域幅拡張器をトレーニングオーディオ信号に適用して、対応する推定広帯域信号を生成し、これをシミュレートオーディオ信号に追加するステップを含むことができる。
【0065】
ステップ304において、サーバは、ニューラルネットワークアーキテクチャをトレーニングオーディオサンプルに適用することによって、話者照合のためのニューラルネットワークアーキテクチャをトレーニングする。サーバは、ニューラルネットワークをトレーニング信号に適用して、例えばオーディオのスピーチ部分を識別するための分類器レイヤをトレーニングする。全結合レイヤ又は分類レイヤは、トレーニング信号に関する情報を含むラベルを使用して、ニューラルネットワークの埋め込み抽出器によって生成されたトレーニング特徴ベクトル(「トレーニング埋め込み」と呼ばれることもある)のエラーのレベルを決定する。サーバは、各トレーニングオーディオ信号をニューラルネットワークアーキテクチャに供給し、ニューラルネットワークアーキテクチャは、ニューラルネットワークアーキテクチャの現在の状態をトレーニングオーディオ信号に適用して、予測出力を生成するのに使用する。ニューラルネットワークアーキテクチャの分類器レイヤ又は他の損失レイヤは、トレーニング特徴ベクトルが予想特徴ベクトルに収束するまで、ニューラルネットワークのハイパーパラメータを調整し、ラベルは、予想特徴ベクトルのための情報又は値を含む。トレーニングが完了すると、サーバはハイパーパラメータをサーバのメモリ又は他のメモリロケーションに格納する。また、サーバは、ハイパーパラメータを固定状態に保つために、ニューラルネットワークの1又は2以上のレイヤを無効にすることができる。
【0066】
ステップ306において、サーバは、1又は2以上の登録者オーディオ信号に対してトレーニングされたニューラルネットワークを適用することによって、1又は2以上の登録者埋め込み(登録者声紋と呼ばれることもある)を抽出する。ニューラルネットワークアーキテクチャは、各登録者オーディオ信号について登録者特徴ベクトルを抽出する。ニューラルネットワークアーキテクチャの統計レイヤは、様々な統計的及びアルゴリズム的な組み合わせ関数を実行して、登録者特徴ベクトルを組み合わせ、これによって登録者声紋を生成することができる。
【0067】
場合によっては、トレーニングされたニューラルネットワークアーキテクチャを登録者オーディオ信号に適用する前に、サーバは、登録者オーディオ信号に対して1又は2以上のデータ拡張オペレーションを行うことによって1又は2以上のシミュレーション登録者オーディオ信号を生成する。例えば、サーバは、特定の帯域幅を有する登録者オーディオ信号が少なすぎると決定することができる。サーバは、トレーニングされた帯域幅拡張器を登録者オーディオ信号に適用して、対応する登録者オーディオ信号に対してより高い帯域幅を有するシミュレーション推定登録者信号を生成することができる。更に、又は代替的に、サーバは、ダウンサンプリング技術を実行するか、又はコーデックプログラムを実行して、対応する登録者オーディオ信号に対してより低い帯域幅を有するシミュレーション登録者信号を生成することができる。登録者信号及びシミュレーション登録者信号は、登録者声紋を抽出するために埋め込み抽出レイヤに供給される。
【0068】
別の例として、特定の登録者オーディオ信号は、一般的な付加的バックグラウンドノイズの録音を含むことができる。サーバは、これらのノイズの録音をクリーンなオーディオ信号に適用する付加的ノイズ拡張オペレーションを実行し、これによって、付加的ノイズと元のクリーンなオーディオ信号とを有する更なるシミュレーション登録者オーディオ信号が生成される。別の例として、データ拡張処理は、帯域幅拡張器を登録者オーディオ信号に適用して、対応する推定登録者広帯域信号を生成するステップを含むことができ、対応する推定登録者広帯域信号は、シミュレーション登録者オーディオ信号に追加される。
【0069】
ステップ308において、サーバは、インバウンドオーディオ信号にニューラルネットワークを適用することによって、類似度スコア(尤度スコアと呼ばれることもある)を決定する。サーバは、展開オペレーションフェーズ(「テスト」と呼ばれることもある)に入り、通常は、分類レイヤを除くニューラルネットワークの各レイヤを有効にする。サーバは、話者から入力オーディオ信号を受信し、入力オーディオ信号をニューラルネットワークアーキテクチャに供給する。場合によっては、ニューラルネットワークのレイヤは、特定の前処理オペレーションの前に、入力オーディオ信号のオーディオデータを時間領域表現から周波数領域表現に変換するためにFFTアルゴリズムを適用するなどを行うことができる。サーバは、インバウンドオーディオ信号に対してあらゆる数の追加的又は代替の前処理及びデータ拡張オペレーションを実行することができる。
【0070】
サーバは、入力オーディオ信号に対してニューラルネットワークを適用し、インバウンド声紋埋め込みを生成する。全結合レイヤは、インバウンド埋め込みと、インバウンド声紋埋め込みと登録者埋め込みとの間の距離を示す類似度スコアとを出力する。サーバは、類似度スコアが閾値を満たす場合、インバウンド話者と登録者とのマッチ(又は可能性のあるマッチ)を識別する。1又は2以上のダウンストリームオペレーション(例えば、話者認証、話者ダイアリゼーション)は、マッチ決定、類似度スコア、及び/又はテスト特徴ベクトルを使用して、所与の機能を実行することができる。
【0071】
例示的なニューラルネットワークアーキテクチャ
帯域幅拡張のための例示的なニューラルネットワークアーキテクチャ
図4は、帯域幅拡張のためのニューラルネットワークアーキテクチャ400のレイヤを示す。サーバは、ニューラルネットワーク400の様々なレイヤを実行するための機械可読ソフトウェアプログラミングを備えるが、ニューラルネットワーク400は、ニューラルネットワーク400のオペレーションを実行できるソフトウェア及びハードウェア(例えば、プロセッサ)を含む何れかのコンピュータデバイスによって実行することができる。更に、ニューラルネットワークアーキテクチャ400のレイヤは、あらゆる数のこのようなコンピュータデバイスによって実行することができる。ニューラルネットワーク400のレイヤは、入力レイヤ402、1又は2以上の帯域幅拡張ニューラルネットワークレイヤ(帯域幅拡張器404と呼ばれることもある)、及び推定広帯域信号を出力するための1又は2以上の出力レイヤ406を含む。オペレーションにおいて、入力レイヤ402は、入力オーディオ信号(例えば、トレーニングオーディオ信号、登録オーディオ信号、インバウンドオーディオ信号)を取り込み、入力オーディオ信号を前処理し、及び/又は入力オーディオ信号に対して様々なデータ拡張オペレーションを実行するための様々なオペレーションを実行する。帯域幅拡張器404のレイヤと出力レイヤ406は、狭帯域入力オーディオ信号に対応する推定広帯域オーディオ信号を生成し、様々な損失関数又は他のオペレーションに従ってニューラルネットワークアーキテクチャ400のレイヤをトレーニングする。
【0072】
入力レイヤ402は、入力オーディオ信号を取り込む、入力オーディオ信号を前処理する、及び/又は入力オーディオ信号に対してデータ拡張オペレーションを行うための1又は2以上のレイヤを備える。入力オーディオ信号は、例えば、生のオーディオファイル又はデータストリーム、又は1又は2以上の前処理オペレーションに従って前処理されたオーディオデータ(例えば、スペクトル表現、スペクトログラム、スペクトログラムの特徴)とすることができる。入力レイヤ402は、オーディオ入力(例えば、生のオーディオ入力、スペクトル-時間的特徴)に対して1又は2以上の前処理オペレーションを実行することができる。
【0073】
一例として、ニューラルネットワークアーキテクチャ400の入力レイヤ402は、生のオーディオ入力を取り込み、入力レイヤ402は、スペクトル-時間的特徴を抽出し、周波数領域表現を生成する。入力レイヤ402は、生のオーディオ入力を取り込み、生のオーディオ入力の特徴を抽出し、抽出された特徴を時間領域表現から周波数領域表現に変換する変換関数(例えば、FFT、SFT)を実行する。次いで、オーディオ入力は、帯域幅拡張器404を定義する機能レイヤに供給される。場合によっては、入力レイヤ402は、入力オーディオ信号に対して正規化機能を実行し、入力オーディオ信号の特徴を表す、z正規化狭帯域対数スペクトログラムを取り込み生成し、入力レイヤ402が入力オーディオ信号から評価及び抽出を行う。スペクトログラムから抽出された特徴は、ユーザの設定に従ってあらゆる数の次元を有することができる。入力レイヤ402は、これらの抽出された特徴を帯域幅拡張器404の畳み込みレイヤに転送し、この畳み込みレイヤは、最終的に特徴を平坦化して出力レイヤ406に転送する。
【0074】
場合によっては、生のオーディオファイルが、比較的広い帯域幅(例えば、16kHz)を有するように構成された(及びそれを有するオーディオ信号を生成する)通信チャネルを介して発信される場合、入力レイヤ402は、生のオーディオファイルに対してダウンサンプリング又はコーデックを実行し、対応するシミュレーション狭帯域オーディオ信号を生成することができる。同様に、場合によっては、入力レイヤ402は、アップサンプリング技術を実行するか、又は狭帯域生オーディオファイル上でコーデックを実行して、対応するシミュレーション広帯域オーディオ信号を生成することができる。
【0075】
帯域幅拡張器404は、様々な出力レイヤ406に結合された畳み込みニューラルネットワーク(CNN)又はディープニューラルネットワーク(DNN)などの何れかのタイプの何れかの数のニューラルネットワークレイヤを備え、様々な出力レイヤ406は、他の潜在的なレイヤのうち、フィードフォワードレイヤ、全結合レイヤ、損失レイヤ、正規化レイヤ又は非正規化レイヤを含むことができる。帯域幅拡張器404は、例えば、出力レイヤ406の3つのフィードフォワードレイヤに続く1-D CNNレイヤを備えることができる。帯域幅拡張器404のCNNレイヤは、入力オーディオ信号の予想される特徴に従って、複数のフィルタ及びカーネルサイズを適用する(例えば、64フィルタ、カーネルサイズ5)。フィードフォワードレイヤは、同様に、オーディオ信号によって必要とされる各レイヤの複数のノードを備える(例えば、フィードフォワードレイヤあたり1024ノード)。
【0076】
トレーニングオペレーションフェーズにおいて、帯域幅拡張器404は、予測された推定広帯域信号を生成する。例えば、サーバは、帯域幅拡張器404のレイヤをトレーニング狭帯域信号に適用して、257次元の広帯域z正規化対数スペクトルを予測する。出力レイヤ406は、ニューラルネットワークアーキテクチャ400の他のレイヤのうち、帯域幅拡張器404をトレーニング、チューニング、又は開発するための様々な機能を実行するレイヤを含む。出力レイヤ406は、例えば、予測された推定広帯域信号の特徴と、特定の入力オーディオ信号に関連付けられたラベルによって示される、期待される(又は実際の)広帯域信号の特徴との間の距離を決定する平均二乗エラー損失関数を実行することによって帯域幅拡張器404をトレーニングする。出力レイヤ406は、これらの距離に基づいて出力レイヤ406をトレーニング又は調整するために、あらゆる数の追加又は代替のオペレーションを実行することができる。
【0077】
展開オペレーションフェーズにおいて、入力レイヤ402は、インバウンドオーディオ信号を受信し、これは、生のオーディオ信号をスペクトル表現に変換すること、オーディオ信号の特徴を抽出すること、及び様々な追加的又は代替のオペレーションを含むことができる。例えば、入力レイヤ402は、コーデック歪み狭帯域インバウンドオーディオ信号(例えば、生のオーディオを含むコンピュータファイル又はデータストリーム)のアップサンプリングを実行することができる。入力レイヤ402は、対応する帯域幅拡張スペクトルを抽出するために、特徴の一部又は全部(例えば、インバウンドスペクトログラムの下半分の特徴のみ)を帯域幅拡張器404に転送することができる。帯域幅拡張器404の畳み込みレイヤは、入力レイヤ入力レイヤ402から受け取った受信スペクトログラムの特徴に基づいて推定広帯域信号(例えば、257次元スペクトログラム)を生成し、推定広帯域スペクトログラムの特徴を平坦化する。
【0078】
出力レイヤ406は、帯域幅拡張器404によって生成された推定広帯域次元スペクトログラムの特徴に対して様々なオペレーションを実行する。例えば、出力レイヤ406は、帯域幅拡張器404によって生成された推定広帯域信号を非正規化するために、入力狭帯域信号の特徴の様々な対数スペクトル平均及び/又は分散統計値を計算する様々な統計レイヤを含むことができる。出力レイヤ406は、他の潜在的オペレーションのうち、例えば、入力オーディオ信号のスペクトルで推定広帯域信号を正規化又は非正規化し、及び/又はチューニング/展開のための様々な統計又は分散を計算するあらゆる数の追加又は代替オペレーションを実行することができる。
【0079】
出力レイヤ406は、帯域幅拡張器404によって生成された推定広帯域信号の特徴を更に抽出することができる。最終的に、推定広帯域信号の特徴は、トレーニング目的のために使用することができ、或いは、あらゆる数のダウンストリームアプリケーションに提供することができる。幾つかの実施形態では、例えば、推定広帯域信号の特徴は、話者照合及び認証オペレーションのための埋め込み抽出器ニューラルネットワークによって入力として取り込まれる。
【0080】
話者認識のための例示的なニューラルネットワークアーキテクチャ
図5は、話者認識のためのニューラルネットワーク・アーキテクチャ500のレイヤを示す。ニューラルネットワーク500は、入力オーディオ信号のオーディオデータを取り込んで処理するエンドツーエンドシステムである。幾つかの実施形態では、ニューラルネットワーク500は、様々なオペレーションフェーズ(例えば、トレーニングフェーズ、登録フェーズ、展開フェーズ)中に取り込まれたオーディオデータに対してデータ拡張技術を選択的に適用するネットワーク内拡張レイヤ(図示せず)を含む。このように、図5で言及された入力オーディオ信号は、トレーニングオーディオ信号(例えば、クリーンオーディオ信号、シミュレーションオーディオ信号)、登録オーディオ信号、又はインバウンドオーディオ信号を指すことができる。実施形態は、図5に示されるものから追加の又は代替のオペレーションを含むことができ、又はオペレーションを省略することができ、依然として本開示の範囲内に入る。更に、実施形態は、ニューラルネットワーク500の構成要素が実行される順序を変えることができる。
【0081】
サーバは、特定のオペレーションフェーズの必要性に基づいて、ユーザ設定に従って、ニューラルネットワークアーキテクチャ500の特定のレイヤを有効化又は無効化する。例えば、入力レイヤ502の拡張レイヤの一部又は全部は、トレーニング又は登録中に有効化され、展開中に無効化することができる。
【0082】
入力レイヤ502は、入力オーディオ信号を取り込み、様々な前処理及び/又はデータ拡張データオペレーションを実行するためのあらゆる数のレイヤを備える。レイヤのうちの何れかは、入力オーディオ信号又は入力オーディオ信号の特徴を取り込む際に、前処理技術を実行することができる。これらの前処理技術は、例えば、帯域幅拡張オペレーションを行うこと、オーディオデータを固定フレーム又はサブフレームに解析すること、SFTアルゴリズムのFFTに従ってオーディオデータを時間領域表現から周波数領域表現に変換すること、及び正規化又はスケーリング関数を実行することを含むことができる。例えば、特定の前処理オペレーションは、多くの場合、変換されたエネルギー値を[-1,1]の範囲を有するスケールに正規化又はスケーリングし、ここで、-1は極低値、1は極高値である。
【0083】
1又は2以上の畳み込みレイヤ504は、入力レイヤ入力レイヤ502の様々な出力を取り込み、これは、入力オーディオ信号から抽出された特徴を含むことができる。場合によっては、これらの入力オーディオ信号は、入力レイヤ502によって実行される様々な前処理及び/又はデータ拡張オペレーションに起因して操作される。場合によっては、畳み込みレイヤ504は更に、サーバメモリによって生成された又はデータベースから受信されたトレーニングオーディオ信号又はシミュレーションオーディオ信号などの、他のデータソースからの追加の入力を取り込む。畳み込みレイヤ504は、例えば、1-D畳み込みレイヤ又はSincNetレイヤを含む。畳み込みレイヤ504は、生成された特徴を、あらゆる数の統計レイヤ及び/又は正規化レイヤを含むことができる様々なプーリングレイヤ506に出力する。全結合レイヤ508は、統計プーリングレイヤ506から取り込まれた結果に対して様々な重み付けオペレーションを行い、入力されたオーディオ信号に対する特徴ベクトル(例えば、トレーニング特徴ベクトル、登録特徴ベクトル、トレーニング特徴ベクトル)を生成する。
【0084】
ニューラルネットワークアーキテクチャ500のためのトレーニングフェーズは、2つのサブフェーズ、すなわち、第1フェーズトレーニングオペレーション509及び第2フェーズトレーニングオペレーション511を含むことができる。第1フェーズのトレーニングオペレーション509について、サーバは、様々なハイパーパラメータを凍結し、及び/又は特定のレイヤ(例えば、第2フェーズのトレーニングオペレーション511のレイヤ)を無効化することができる。第1フェーズトレーニングオペレーション509の全結合レイヤ510は、全結合レイヤ508からの出力を取り込み、同様に全結合レイヤ508から取り込んだ結果に対して様々な重み付けオペレーションを行い、低次元の特徴ベクトルを生成する。第1フェーズトレーニングオペレーション509の損失レイヤ512は、ソフトマックス及び/又はクロスエントロピーのオペレーションを行い、幾つかの実施構成において、入力されたオーディオ信号に対応する話者ラベル513を参照する。損失レイヤ512は、実行される特定の損失関数に基づいて、ニューラルネットワークアーキテクチャ500のレイヤにおける様々なパラメータを調整することができる。
【0085】
第2フェーズのトレーニングオペレーション511について、サーバは、様々なハイパーパラメータをフリーズし、及び/又は特定のレイヤ(例えば、第1フェーズのトレーニングオペレーション509のレイヤ)を無効にして、ニューラルネットワークアーキテクチャ500を介して入力オーディオ信号を再供給することができる。第2フェーズトレーニングオペレーション511の全結合レイヤ514は、全結合レイヤ508から取り込まれた特徴ベクトルに対して様々な重み付けオペレーションを行い、特定の入力されたオーディオ信号に対する別の低次元特徴ベクトルを生成する。第2フェーズトレーニングオペレーション511の損失レイヤ516は、ラージマージンコサイン損失(LMCL)関数を実行し、これは、幾つかの実施構成において、特定の入力されたオーディオ信号に対応する話者ラベル513を参照する。幾つかの実施態様において、損失レイヤ516は、LMCLに基づいて、ニューラルネットワークアーキテクチャ500のレイヤにおける様々なパラメータを調整することができる。
【0086】
展開中、全結合レイヤ514及び損失レイヤ516は、有効化される。全結合レイヤ514で生成された特徴ベクトルは、抽出された話者埋め込みとなり、話者照合のために参照される。損失レイヤ516のオペレーションは、展開時に受信したインバウンドオーディオ信号について、期待される埋め込み又は登録された埋め込みと抽出された話者埋め込みとの間の距離及び類似度をスコア化するのに使用される。インバウンド話者埋め込みと、期待又は登録埋め込みとの間の類似度スコア又は距離が、閾値の類似度スコア又は距離の範囲内であると損失レイヤ516が決定すりと、インバウンドオーディオ信号のインバウンド話者は、期待又は登録者として検証される。
【0087】
帯域幅拡張及び話者認識のためのニューラルネットワーク
図6Aは、帯域幅拡張及び話者認識のためのニューラルネットワークアーキテクチャ600のレイヤを示す。ニューラルネットワークアーキテクチャ600は、様々なオペレーションフェーズ(例えば、トレーニングフェーズ、登録フェーズ、展開フェーズ)中に受信した入力オーディオ信号601(例えば、トレーニング信号、登録信号、インバウンド信号)のオーディオデータを取り込み、処理する。ニューラルネットワークアーキテクチャ600は、話者埋め込み抽出器608及び帯域幅拡張器605のためのレイヤを備える。図6Aに関する以下の説明は、混合帯域幅話者埋め込みを生成及び評価するためのトレーニングオペレーションに関するものである。実施形態は、図6Aに示されるものから追加のオペレーション又は代替のオペレーションを含むことができ、或いはオペレーションを省略することができ、依然として本開示の範囲内に入る。更に、実施形態は、ニューラルネットワーク600の構成要素が実行される順序を変えることができる。
【0088】
ニューラルネットワークアーキテクチャ600の入力レイヤ602は、入力オーディオ信号601を取り込み、前処理オペレーションを実行し、及び/又はデータ拡張オペレーションを実行するためのあらゆる数のニューラルネットワークレイヤを備える。入力レイヤ602は、様々な事前構成に従って入力音声601が受信されたチャネルに基づいて又は入力音声601の特性又は特徴を評価することに基づいて、入力音声601の帯域幅を決定する。入力レイヤ602は、狭帯域入力オーディオ信号601を帯域幅拡張器605のレイヤにルーティングし、広帯域入力オーディオ信号601を帯域幅拡張器605を迂回して埋め込み抽出器608のレイヤに直接ルーティングする。
【0089】
帯域幅拡張器605のレイヤは、狭帯域オーディオ信号を取り込み、本明細書に記載の様々な処理に従って、推定広帯域信号を生成する。帯域幅拡張器605は、埋め込み抽出器608のレイヤのために、推定広帯域信号の特徴を出力する。埋め込み抽出器608は、入力レイヤ602から直接受信した広帯域入力信号601又は帯域幅拡張器605によって生成された推定広帯域信号とすることができるあらゆる数の広帯域信号を取り込む。埋め込み抽出器608は、入力オーディオ信号601の話者に対する話者埋め込みを抽出するための種々のオペレーションを行う。
【0090】
全結合レイヤ610は、埋め込み抽出器608によって生成された特徴ベクトルの次元を縮小し、更に、例えば、様々な統計計算又はプーリングオペレーション、損失関数、及び分類を実行することができる。全結合レイヤ610によって実行される様々なオペレーションは、入力オーディオ信号601に関連付けられた話者ラベル612を参照して、埋め込み抽出器608によって生成された埋め込み及び/又は分類におけるエラーの量を決定する。
【0091】
損失レイヤは更に、ニューラルネットワークアーキテクチャ600のあらゆる数のハイパーパラメータに調節又は調整する様々な損失関数を実行する。損失関数は、帯域幅拡張器605によって生成された推定広帯域信号の品質を改善するため、及び/又は埋め込み抽出器608及び全結合レイヤ610によって抽出された特徴ベクトル及び話者埋め込みを改善するために、帯域幅拡張器605、埋め込み抽出器608、及び全結合レイヤ610のハイパーパラメータを調整することができる。
【0092】
幾つかの実施形態では、サーバは、埋め込み抽出器608をトレーニングすることのみを必要とする。このような実施形態では、サーバは、以前に帯域幅拡張器605をトレーニングし、帯域幅拡張器605のハイパーパラメータを固定した。また、サーバは、帯域幅拡張器605をトレーニングするのに使用されるニューラルネットワークアーキテクチャ600の1又は2以上のレイヤを無効化することができる。埋め込み抽出器608及び全結合レイヤ610のレイヤは、推定広帯域信号(帯域幅拡張器605によって生成される)及び広帯域オーディオ入力601(入力レイヤ602から直接ルーティング)に対してトレーニングされる。
【0093】
幾つかの実施形態では、サーバは、帯域幅拡張器605及び埋め込み抽出器608を共同でトレーニングする。入力オーディオ信号601は、様々な帯域幅を有することができ、入力レイヤ602は、狭帯域入力オーディオ信号601を帯域幅拡張器605にルーティングする。埋め込み抽出器608及び全結合レイヤ610は、入力オーディオ信号601に対する埋め込みを抽出し、抽出された埋め込みにおけるエラーのレベルを決定する。話者ラベル612は、特定の入力オーディオ信号601について期待される帯域幅又は帯域幅の種類、期待される埋め込み又は特徴、及び入力オーディオ信号601に関する他の様々な情報を示すことができる。ニューラルネットワークアーキテクチャ600は、帯域幅拡張器605及び埋め込み抽出器608を介して、エラーレベル又は話者分類エラーをバックプロパゲートし、これは、様々なハイパーパラメータの調整及び入力オーディオ信号601へのニューラルネットワークアーキテクチャ600の再適用を含む。
【0094】
幾つかの実施形態において、サーバは、埋め込み抽出器608の出力に基づいて帯域幅拡張器605を微調整する。サーバは、埋め込み抽出器608を固定し、埋め込み抽出器608によって生成された話者分類エラーに従って帯域幅拡張器605のパラメータを微調整する。
【0095】
幾つかの実施形態において、サーバは、帯域幅拡張器605を微調整することのみを必要とする。このような実施形態では、サーバは、埋め込み抽出器608を事前にトレーニングし、埋め込み抽出器608のハイパーパラメータを固定した。また、サーバは、埋め込み抽出器608のトレーニングに使用されるニューラルネットワークアーキテクチャ600の1又は2以上のレイヤを無効化することができる。帯域幅拡張器605は、トレーニングされた埋め込み抽出器608によって取り込まれる推定広帯域信号を生成する。埋め込み抽出器608及び全結合レイヤ610は、入力オーディオ信号601に対する埋め込みを抽出し、抽出された埋め込みにおけるエラーのレベルを決定する。話者ラベル612は、期待される埋め込みや特徴を示すものであり、入力オーディオ信号601に関する様々な情報を示すものである。帯域幅拡張器605は、埋め込み抽出器608によって生成されたエラーのレベル又は話者分類エラーに従って微調整される。ニューラルネットワークアーキテクチャ600は、帯域幅拡張器605を介して、エラーのレベル又は話者分類エラーを逆伝播し、これは、帯域幅拡張器605のハイパーパラメータの調整と、入力オーディオ信号601に対するニューラルネットワークアーキテクチャ600の再適用とを含む。
【0096】
帯域幅拡張及びデュアル埋め込みのためのニューラルネットワーク
図6Bは、帯域幅拡張及び話者認識のためのニューラルネットワークアーキテクチャ600のレイヤを示し、ニューラルネットワークアーキテクチャ600は、狭帯域信号及び広帯域信号に最適化されたデュアルエンベディングを抽出及び評価するようにトレーニングされる。これらのオペレーションは、サーバが帯域幅拡張器605及び/又は埋め込み抽出器608のトレーニングを完了したときに実行される。
【0097】
帯域幅拡張器605及び埋め込み抽出器608がトレーニングされると(図6Aに記載)、サーバは、帯域幅拡張器605及び埋め込み抽出器608のモデル(例えば、ハイパーパラメータ)を固定する。また、サーバは、帯域幅拡張器605及び埋め込み抽出器608をトレーニングするのに使用される何れかのレイヤを無効化する。このようにして、サーバは、帯域幅拡張器605及び埋め込み抽出器608を凍結し、全結合レイヤ610のみをトレーニングする。
【0098】
トレーニングフェーズにおいて、サーバは、全結合レイヤ610を別々に微調整するために、2つのトレーニングサブフェーズを実行することができる。次いで、全結合レイヤ610は、狭帯域オーディオに最適化された埋め込み(狭帯域埋め込み613)及び広帯域オーディオに最適化された埋め込み(広帯域埋め込み615)の2つの異なるタイプの埋め込みを抽出するようにトレーニングされる。ニューラルネットワークアーキテクチャ600の損失関数は、特定のトレーニングサブフェーズに従って、全結合レイヤ610のハイパーパラメータを調整する。幾つかの実施構成において、狭帯域最適化埋め込み613を抽出するために全結合レイヤ610をトレーニングするとき、入力オーディオ信号は、帯域幅拡張器605をバイパスする狭帯域信号を含むことができる。幾つかの実施構成において、全結合レイヤ610は、広帯域信号又は推定広帯域信号(帯域幅拡張器605によって生成される)のみでトレーニングされる。展開フェーズにおいて、ニューラルネットワークアーキテクチャ600は、インバウンド入力オーディオ601の帯域幅のタイプ(例えば、狭帯域又は広帯域)にかかわらず、両方のタイプの最適化された埋め込み613、615を抽出する。
【0099】
クロスチャネル登録及び認証オペレーション
図7は、複数のチャネルにわたる話者及び認証のためのニューラルネットワークアーキテクチャ700のレイヤを示す。ニューラルネットワーク700は、認証のための登録及び展開オペレーションフェーズ中にサーバによって実行されるものとして説明されるが、ニューラルネットワーク700は、ニューラルネットワーク700のオペレーションを実行できるプロセッサを含む何れかのコンピュータデバイスによって、及びあらゆる数のこのようなコンピュータデバイスによって実行することができる。ニューラルネットワーク700は、オーディオ信号702、712を取り込み、様々な拡張オペレーションを行うための入力レイヤ703、帯域幅拡張器704を定めるレイヤ、話者埋め込み708、709(例えば、声紋)を生成するための埋め込み抽出器706を定めるレイヤ、及び距離得点オペレーションなどの様々な得点オペレーションを行い、認証得点718又は他の同様の決定を行う1又は2以上の得点化レイヤ716を含む。
【0100】
幾つかの実施形態では、ニューラルネットワークアーキテクチャ700は、狭帯域及び広帯域埋め込みを抽出するための1つの埋め込み抽出器706を備える。場合によっては、埋め込み抽出器706の特定のレイヤは、狭帯域入力信号又は広帯域入力信号に対して最適化された狭帯域埋め込み及び広帯域埋め込みを生成するためにトレーニングされる。或いは、幾つかの実施形態において、ニューラルネットワークアーキテクチャ700は、狭帯域埋め込み抽出器706a及び広帯域埋め込み抽出器706bを備える。狭帯域埋め込み抽出器706aは、最適化された狭帯域埋め込みを生成するためにトレーニングされたレイヤを含む。同様に、広帯域埋め込み抽出器706bは、最適化された広帯域埋め込みを生成するためにトレーニングされたレイヤを含む。
【0101】
登録フェーズの間、登録者の話者は、サービスプロバイダのシステムに連絡し、狭帯域に従ってオペレーションする第1のチャネルを介して、幾つかの例示的な登録者オーディオ信号702を供給する。例えば、話者は、登録者オーディオ信号702として機能する音声応答で様々な質問又はプロンプトに応答し、サービスプロバイダシステムは、IVRシステムによって又はサービスプロバイダシステムの人間エージェントによって、登録者に質問又はプロンプトを提示する。サーバは、登録者の音声応答を狭帯域登録者オーディオ信号702として受信する。サーバは、結果として得られた狭帯域登録者信号702をニューラルネットワークアーキテクチャ700に与え、ニューラルネットワークアーキテクチャ700は、登録者オーディオ信号702に狭帯域埋め込み抽出器706aを適用して、登録者のための狭帯域登録者埋め込み708を抽出する。サーバは、狭帯域登録者708を、認証中に後で参照するために、データベース又は他の非一時的な記憶媒体に格納する。サーバは、第1チャネル(又は他の狭帯域チャネル)を介して受信された将来のインバウンドオーディオ信号を認証するために、狭帯域登録者708を参照する。
【0102】
サーバはまた、狭帯域エンローリーオーディオ信号702に基づいて、広帯域エンローリー埋め込み711を生成する。ニューラルネットワークアーキテクチャ700は、登録者オーディオ信号702のそれぞれを帯域幅拡張器704に送り込み、1又は2以上の対応する推定広帯域登録者信号705を生成する。ニューラルネットワークアーキテクチャ700は、推定広帯域登録者信号705を広帯域埋め込み抽出器706bにフィードし、登録者のための広帯域登録者711を抽出する。サーバは、広帯域登録者埋め込み711をデータベース又は他の非一時的な記憶媒体に格納する。サーバは、広帯域幅に従ってオペレーションする第2の通信チャネルを介して受信される将来のインバウンドオーディオ信号712を認証するために、広帯域登録者埋め込み711を参照する。
【0103】
サーバは、オーディオ信号702、712を入力レイヤ703に供給し、ニューラルネットワーク700の適用を開始する。場合によっては、入力レイヤ703は、他の前処理オペレーションのうち、オーディオ信号702、712をフレーム又はセグメントに解析すること、低レベル特徴を抽出すること、及びオーディオ信号702、712を時間領域表現から周波数領域(又はエネルギー領域)表現に変換することなど、1又は2以上の前処理オペレーションをオーディオ信号702、712に対して実行する。
【0104】
登録フェーズの間、入力レイヤ703は、登録者のための登録オーディオ信号702を受信する。幾つかの実施構成において、入力レイヤ703は、例えば、登録オーディオ信号702内のオーディオ信号をオペレーションする、低レベル特徴をオペレーションする、又は対応する登録オーディオ信号702に基づいて特徴又はオーディオ信号をオペレーションしたシミュレーション登録オーディオ信号702を生成するために登録オーディオ信号702に対してデータ拡張オペレーションを実行する。
【0105】
展開フェーズの間、入力レイヤ703は、埋め込み抽出器706又は幾つかの実施構成では広帯域埋め込み抽出器706bのためのインバウンドオーディオ信号712を準備するために、前処理オペレーションを実行することができる。しかしながら、サーバは、埋め込み抽出器706が受信したままのインバウンドオーディオ信号712の特徴を評価するように、入力レイヤ703の前処理及び/又は拡張オペレーションの一部又は全部を無効化することができる。
【0106】
埋め込み抽出器706は、スピーチを検出し、埋め込み抽出器706は埋め込み708、711、709として出力するオーディオ信号702、712から抽出された特徴に基づいて、特徴ベクトルを生成するようにトレーニングされた(トレーニングフェーズ中に)ニューラルネットワーク700の1又は2以上のレイヤを含む。埋め込みフェーズにおいて、埋め込み抽出器706は、埋め込みオーディオ信号702のそれぞれについて、特徴ベクトルを生成する。次いで、ニューラルネットワーク700は、様々な統計的又はアルゴリズム的オペレーションを実行して、各特徴ベクトルを結合し、登録者708、711を抽出する。例えば、ニューラルネットワークアーキテクチャ700は、狭帯域埋め込み抽出器706a及び広帯域埋め込み抽出器706bを含むことができる。狭帯域埋め込み抽出器706aは、狭帯域登録者オーディオ信号702のそれぞれに対応する特徴ベクトルを生成し、狭帯域特徴ベクトルの平均を表す狭帯域登録者埋め込み708を抽出する。広帯域埋め込み抽出器706bも同様に、推定された広帯域登録者信号705のそれぞれに対応する広帯域特徴ベクトルを生成し、広帯域特徴ベクトルの平均を表す広帯域登録者埋込711を抽出する。
【0107】
展開フェーズにおいて、埋め込み抽出器706(又は広帯域埋め込み抽出器706b)は、第2の通信チャネルが採用する広帯域を有するインバウンドオーディオ信号712の特徴を取り込む。埋め込み抽出器706は、第2のチャネルを介して受信したインバウンドオーディオ信号712に基づいて特徴ベクトルを生成し、これをインバウンドオーディオ信号712に対するインバウンド広帯域埋め込み709として出力する。
【0108】
インバウンドオーディオ信号712のインバウンド話者を認証するために、ニューラルネットワーク700は、広帯域エンローリー埋め込み711とインバウンド広帯域埋め込み709をニューラルネットワークアーキテクチャ700のスコアリングレイヤ716に供給し、様々なスコアリングオペレーションを実行させる。スコアリングレイヤ716は、広帯域エンローリー埋め込み711とインバウンド広帯域埋め込み709との間の距離(例えば、類似性、差異)を決定する距離スコアリングオペレーションを行い、インバウンド話者が登録者である可能性を示す。例えば、インバウンド信号712についてより低い距離スコア(又はより高い類似度スコア)は、広帯域エンローリー埋め込み711とインバウンド広帯域埋め込み709との間のより多くの類似性を示し、インバウンド話者がエンローリーであるという高い尤度をもたらす。ニューラルネットワークアーキテクチャ700は、スコアリングオペレーションに基づいて認証出力718を生成することができる。認証出力718は、1又は2以上のスコアリングオペレーション(例えば、距離スコアリング)に基づいてスコアリングレイヤ716によって生成された値、GUIのための視覚的インジケータ、及び/又はダウンストリームのアプリケーションのための命令又はデータとすることができる。
【0109】
幾つかの実施構成において、スコアリングレイヤ716は、距離スコア又は他の出力された値が閾値を満たすか否かを決定する。このような実施構成において、認証出力718は、数値出力である必要はない。例えば、認証出力718は、ニューラルネットワークアーキテクチャ700がインバウンド話者を認証したかどうかを示す、人間が読める指標(例えば、平易な言語、視覚表示)とすることができる。更に、又は代替的に、認証出力718は、機械可読の検出インジケータ又は認証命令を含むことができ、この命令は、サーバが1又は2以上のネットワークを介して1又は2以上のダウンストリームアプリケーションを実行するコンピュータデバイスに送信される。
【0110】
ローカル認証によるマルチチャネル認証の例
図8は、実施形態によるニューラルネットワークアーキテクチャを採用するクロスチャネル発信者認証のためのシステム800を示す。システム800は、認証サーバ802と、認証データベース804と、発信者デバイス114とを備える。実施形態は、図8のものから追加的又は代替の構成要素で構成されてもよく、或いは特定の構成要素を省略しても、本開示の範囲内に入る。更に、実施形態は、本明細書に記載される様々な特徴及びタスクを実行することができるあらゆる数のデバイスを含むか、又はそうでなければ実装することができる。例えば、図8は、分析データベース804とは異なるコンピュータデバイスとして、認証サーバ802を示す。幾つかの実施形態では、分析データベース804は、分析サーバ802に統合することができる。ハードウェア、ソフトウェア、及びそれらの変形に関する多くの詳細は、以前に(例えば、図1)説明されており、このような詳細は、ここで繰り返す必要はなく、図8に対して企図される範囲内のままであることを理解されたい。
【0111】
発信者は、様々な通信チャネルを介してサービスプロバイダのコールセンターに連絡することができる。通信チャネルは、発信者からオーディオ入力及び他のデータを受信するように構成されたハードウェア及びソフトウェア構成要素を含み、これらのデータは、様々な装置が通信チャネルから捕捉して認証サーバ802に転送し、又はコールセンターエージェントが認証サーバ802に転送する。
【0112】
通信チャネルは、発信者デバイス814からの入力オーディオ信号をホストし、処理し、捕捉する。各通信チャネルは、特定の帯域幅でオペレーションするように構成され、これによって、生成され認証サーバ802に転送されるオーディオ入力信号は、特定の帯域幅を有する生のオーディオファイル又はデータストリームを含む。例えば、固定電話814aは、8kHzの帯域幅を有する入力オーディオ信号を生成する電話チャネルを通じてプロバイダサービスと通信する。別の例として、スマートフォン814b(又はエッジデバイス)は、16kHzの帯域幅を有する入力オーディオ信号を生成するソフトウェアアプリケーションのためのコンピュータネットワークチャネルを介してプロバイダサービスと通信するソフトウェアアプリケーションを実行することができる。
【0113】
認証サーバ802(又はプロバイダシステムの他のコンピュータデバイス)は、認証データベース804に格納することができるニューラルネットワークアーキテクチャを適用することにより、ソフトウェアプログラミングを実行し、入力オーディオ信号を処理し認証する。ニューラルネットワークアーキテクチャは、帯域幅拡張器805と埋め込み抽出器806とを含む。
【0114】
登録プロセスの間、発信者-登録者は、プロバイダのシステムに一連の登録者オーディオ信号を提供することのみ必要とされる。認証サーバ802は、埋め込み抽出器を登録者オーディオ信号に対して適用し、発信者-登録者のための登録者埋め込みを抽出する。次いで、認証サーバ802は、後で参照するために、登録者埋め込みを認証サーバ804に格納する。
【0115】
幾つかの実施形態において、認証サーバ802は、発信者が固定電話814aを使用して第1の通信チャネル(例えば、低帯域幅電話チャネル)を介して認証サーバ802に登録信号を通信するときに、低帯域幅登録信号を受信し検出することができる。認証サーバ802は、インバウンド信号の品質を向上させるために帯域幅拡張器805を適用することができる。認証サーバ802は、スマートフォン814bから第2の通信チャネルを介して受信した高帯域幅登録信号に対して帯域幅拡張器805を適用する必要はない。
【0116】
認証サーバ802は、スマートフォン814bのアプリケーションと常時又は定期的にネットワーク通信を行っている。認証サーバ802又はスマートフォン814bは、コンピュータネットワーク(例えば、インターネット)を介して、登録者埋込の更新に関する問い合わせ又はプッシュ通知を交換することができる。スマートフォン814bは、登録者埋め込みに対する変更の検知に応答して、又は予め設定された間隔で登録者埋め込みをダウンロードする。
【0117】
幾つかの実施形態では、スマートフォン814b上のアプリケーションは、埋め込み抽出器806ニューラルネットワークを含み、アプリケーションは、登録者及び/又は展開フェーズの間、オーディオ入力に適用する。スマートフォン814bは、発信者-登録者によって提供される一連の登録オーディオ信号に埋め込み抽出器806を適用することによって、登録者埋め込みを生成又は更新することができる。このようにして、スマートフォン814bは、登録者埋め込みをローカルに生成し、登録者埋め込みを認証データベース804にアップロードする。
【0118】
インバウンド発信者を発信者-登録者として認証するために、認証サーバ802又はスマートフォン814bのアプリケーションは、インバウンドオーディオ信号に埋め込み抽出器806を適用する。発信者が、固定電話814aを使用して第1の通信チャネル(例えば、低帯域幅電話チャネル)を介してコールセンターエージェントと通信すると、認証サーバ802は、低帯域幅のインバウンド信号を検出し、帯域幅拡張器805を適用してインバウンド信号の品質を向上させる。次に、認証サーバ802は、認証データベース804から登録者埋め込みを検索し、インバウンドオーディオ信号に対して埋め込み抽出器806を適用してインバウンド埋め込みを抽出し、インバウンド埋め込みと登録者埋め込みの間の距離を決定する。認証サーバ802は、スマートフォン814bから第2の通信チャネルを介して受信された高帯域登録信号に帯域幅拡張器805を適用する必要はないので、認証サーバは、埋め込み抽出器806の適用及びインバウンド発信者の認証に進むことができる。
【0119】
幾つかの実施形態では、スマートフォン814bのアプリケーションは、インバウンドオーディオ信号に埋め込み抽出器をローカルに適用する。発信者が第2の通信チャネルを介して発信者-センターエージェントに連絡するためのGUIオプションを選択すると、スマートフォンは、音声バイオメトリクスを認証するように発信者に促し、或いは、認証ソフトウェアルーチンをトリガする。スマートフォン814bは、スマートフォン814bのローカルメモリ又は認証データベース804から登録者埋め込みを検索し、インバウンドオーディオ信号に対して埋め込み抽出器806を適用してインバウンド埋め込みを抽出し、インバウンド埋め込みと登録者埋め込みの間の距離を決定する。認証が成功した場合、スマートフォン814bは、インバウンド発信者が登録者として認証されたことを示す、確認命令又は他のセキュリティトークンを認証サーバ802に送信することができる。
【0120】
追加の例示的な実施形態
話者がクラウドベースのアプリケーション上で音声を登録する
幾つかの実施形態では、発信者デバイスは、サービスプロバイダのシステムに音声通信を送信し、このサービスプロバイダのシステムは、通信データを取り込んで認証サービスのクラウドプラットフォーム(例えば、1又は2以上のサーバ)に送信する。サービスプロバイダのシステムは、認証サービスによってホストされるクラウドベースのアプリケーションに通信データをアップロードする様々なコンピュータデバイス(例えば、エージェントデバイス)を含む。発信者デバイスは、認証サービスに関連するソフトウェアアプリケーション又はウェブベースアプリケーションを実行し、これにより、発信者デバイスが、埋め込み抽出及び他のオペレーションを認証サービスのクラウドプラットフォームにオフロードすることが可能になる。クラウドプラットフォームの幾つかの例として、カスタムWebアプリケーション及びコールセンターIVRが挙げられる。
【0121】
発信者の音声は、発信者がサービスプロバイダ及び/又は認証サービスに初めて連絡したときに認証サービスに受動的/自動的に登録され、又はサービス又は発信者の一方からの要求に応答して能動的に登録される。このようなオペレーションの例は、例えば、図6Bに見出すことができる。
【0122】
幾つかの実施形態では、発信者は、コンピュータデバイス上でクラウドベースのソフトウェアアプリケーションを開き、発信者がオーディオデータを入力するための要求をトリガする(例えば、エッジデバイスにサービスプロバイダと通信するように命令する)。ウェブアプリケーションは、オーディオ信号をプロバイダのコンピュータデバイスに、又は認証サービスのサーバに直接ストリーミングする。認証サーバは、サンプルレート又は符号化形式などのインバウンドオーディオ信号の特性を検出し、例えば、インバウンドオーディオ信号に対して帯域幅拡張ニューラルネットワークを適用することによって、スピーチ信号の可能な限り高帯域幅を得るための前処理を実行する。次に、認証サーバは、インバウンドオーディオ信号に埋め込み抽出器ニューラルネットワークを適用して、発信者を登録及び/又は認証する。発信者は、プロバイダサービス及び/又は認証サービスとの複数の対話を実行して、将来的に話者を一意に識別するためにデータベースに格納される登録者埋め込みを更新することができる。
【0123】
話者はエッジデバイス上で音声を登録する
幾つかの実施形態では、発信者は、エッジデバイス(又は他のIoTデバイス)を使用して、音声を使用して要求を実行する。エッジデバイスの非限定的な例としては、とりわけ、テレビリモコン、スマートフォン、パーソナル音声アシスタント、及び自動車ダッシュボードアシスタントなどに組み込まれた内蔵マイクを有する組み込みデバイスを挙げることができる。エッジデバイスは、通常、生の個人情報をクラウドにストリーミングすることを必要とせず、デバイス自体でデータの重い処理を実行するのに使用される。このような実施形態では、エッジデバイスと認証サーバは、クラウドソリューションで使用される同じ「話者埋め込み抽出器」ソフトウェアをクロスコンパイルして、エッジデバイス上で実行させる。
【0124】
発信者は、タスクを実行するために音声を使用してエッジデバイスと対話する。アイデンティティサービスによって提供されるアプリケーションは、エッジデバイス上で実行され、発信者がデバイスを使用して初めて通信したとき、又はアイデンティティサービス又は発信者からのアクティブな登録要求に応答して、音声登録の必要性を検出する。エッジデバイスは、エッジデバイス又は認証サーバで実行される帯域幅拡張ニューラルネットワークに従ってデバイスを通じて利用可能な最高の可能な帯域幅信号を使用して、アイデンティティサービスのスピーチ埋め込み抽出ニューラルネットワークをローカルに実行する。発信者は、登録者話者埋め込みを更新するために複数の対話を実行することができ、エッジデバイスは、アイデンティティサービスのクラウドデータにアップロードし、認証サーバは、他のチャネルを介して発信者を認証するために参照する。
【0125】
話者がアイデンティティプロバイダのコールセンター又はIVRに電話をかけることにより音声を登録する
場合によっては、電話チャネルを介して転送されるスピーチ信号は、8kHzでサンプリングされた狭帯域幅(0.3~3.4kHz)となることが多い。このような狭帯域の音声を用いて話者登録を行う場合、広帯域スピーチ信号を提供する広帯域通信チャネルを介して抽出された埋め込みの間にミスマッチが生じる可能性がある。このため、話者埋め込みは、狭帯域音声が好まれる類似のチャネルに対してのみ適切に機能する。これにより、アイデンティティサービスが検証及び認証できるクロスチャネル環境の範囲が制限される。
【0126】
帯域幅拡張ニューラルネットワークは、話者埋め込みを抽出する前に、電話チャネルの低帯域幅スピーチ信号を比較的高品質の広帯域信号に変換し、全ての狭帯域及び広帯域チャネルにわたってスピーチ帯域幅を一貫して維持することができる。音声登録を完了するには、登録者は、電話チャネルを通じてIVR又はコールセンターに電話をかける。アイデンティティサービスの認証サーバは、コールオーディオ信号に帯域幅拡張ニューラルネットワークを適用し、狭帯域オーディオ信号をより高品質な広帯域スピーチ信号に変換する。音声の品質が向上することで、コールセンターのエージェントとの対話が改善され、埋め込み抽出も可能になる。認証サーバは、変換された(推定された)広帯域スピーチ信号に埋め込み抽出器を適用し、話者埋め込みを抽出する。登録者埋め込みは、同じ話者と行う後続のコールの間に更新することができる。登録者埋め込みは、コールセンターにコールバックしてきた話者を認証するために、アイデンティティプロバイダによって話者を一意に識別するために、アイデンティティプロバイダのクラウドデータベースに格納される。同じ登録者埋め込みは、アイデンティティプロバイダによってサポートされる他の何れかのチャネルを介して受信されたオーディオ信号に対して要求又は適用することができ、これによって登録者が追加のチャネル毎に再度登録することを必要とせずに、クロスチャネル認証を支援することができる。
【0127】
マルチチャネル及びマルチデバイスの音声登録の統合
幾つかの実施形態では、アイデンティティプロバイダは、複数のチャネルにわたる一意の話者のアイデンティティを管理する。各チャネルは、異なる特性(例えば、マイクロフォンのタイプ、スピーチ符号化アルゴリズムのタイプ、チャネルのサンプルレート)を有する。このような実施形態では、認証サーバは、何れかのチャネルからのスピーチ信号をターゲットバンドのスピーチ信号に統合する。例えば、認証用の主要チャネルが電話チャネルである場合、全ての登録スピーチデータは、話者埋め込みを作成するために狭帯域オーディオとして扱われる。また、認証の主要チャネルが広帯域オーディオの場合、全ての登録スピーチデータは、帯域幅拡張ニューラルネットワークを使用して広帯域に変換される。これにより、アイデンティティプロバイダは、あらゆるチャネル又はデバイスからのインバウンドオーディオ信号を使用して、全てのチャネルで発信者-登録者を登録及び認証する能力が得られる。
【0128】
アイデンティティプロバイダの認証サーバが、話者登録埋め込みを生成すると、認証サーバは、最新のタイムスタンプで登録埋め込みを生成又は更新する。登録埋め込みを更新又は参照する必要がある何れかのデバイスは、アイデンティティプロバイダのクラウドサーバデータベースに問い合わせ、デバイスが最新バージョンの登録埋め込みを有するかどうかを決定する。古い場合には、デバイスは、認証サーバに最新バージョンの登録埋め込みを要求し、何れかの新しいオーディオ入力信号に従って、登録埋め込みをローカルに更新する。登録埋め込みをローカルに更新した後、デバイスは、登録埋め込みを最新のタイムスタンプで更新し、登録埋め込みをアイデンティティサービスのデータベースに戻してアップロードし、登録埋め込みを他の何れかのチャネル又はデバイスに照会/配信できるようにする。
【0129】
電話チャネル上の登録を用いたエッジデバイスアプリケーション上の話者の認証
幾つかの実施形態では、アイデンティティプロバイダの電話チャネルにコールすることにより既に音声を登録した発信者は、エッジデバイスアプリケーションを使用して認証を行う。エッジデバイスは、以前のコール中に発信者のスピーチ信号に帯域幅拡張ニューラルネットワークを適用した後に生成された最新の登録埋め込みに対する要求をクラウドサーバに送信する。発信者は、オーディオ入力を用いてエッジデバイスのアプリケーションと対話し、ここで発信者は、コールセンターでIVRエージェントと対話することによって、電話チャネルを通じて発信者の音声を事前に登録した。エッジデバイスのアプリケーションは、アイデンティティプロバイダのクラウドデータベースで利用可能なより新しい登録埋め込みをクラウドデータベースに問い合わせる。次いで、エッジデバイスは、認証処理(例えば、スコア予測)を実行するために、最新の登録埋め込みを要求する。
【0130】
エッジデバイス上の登録を使用して電話チャネル上の発信者を認証する
幾つかの実施形態では、エッジデバイスのソフトウェアは、広帯域音声を使用して、電話チャネルを介して登録者-発信者を認証するのに使用される登録埋め込みを生成する。認証中、電話チャネルスピーチは、エッジデバイスの認証サーバ上の帯域幅拡張ニューラルネットワークによって処理され、これによって、認証サーバ又はエッジデバイスは、エッジデバイス上で作成された登録埋め込みに対して話者照合ニューラルネットワークを適用して電話コールを認証する。
【0131】
狭帯域通信チャネルに対する広帯域品質のオーディオを再構成する
幾つかの実施形態では、帯域幅拡張ニューラルネットワークを使用して、狭帯域データストリーム信号をリアルタイムで処理し、オーディオデータを広帯域品質スピーチに変換する。広帯域品質は、狭帯域チャネル上で転送されるスピーチの了解度及び明瞭性を向上させるのに役立つ。例えば、帯域幅拡張ニューラルネットワークは、コールセンターのエージェントに配置されて、到来信号品質が向上し、エージェントが発信者をより理解するのに役立つ。また、帯域幅拡張ニューラルネットワークは、到来コールに使用されるエッジデバイスに配備することができる。例えば、帯域幅拡張ニューラルネットワークは、発信者の音声入力に適用して、品質を向上させ、劣化(例えば、バックグラウンド雑音)を低減し、発信者の体験を向上させるのに役立てることができる。
【0132】
本明細書に開示される実施形態に関連して説明される様々な例示的な論理ブロック、モジュール、回路、及びアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア、又は両者の組み合わせとして実装することができる。ハードウェアとソフトウェアのこの互換性を明確に説明するために、様々な例示的な構成要素、ブロック、モジュール、回路、及びステップについて全体としてその機能性の観点で上述してきた。このような機能がハードウェアとして実装されるかソフトウェアとして実装されるかは、システム全体に課される特定の用途及び設計上の制約に依存する。当業者であれば、記載された機能性を各特定の用途に対して様々な方法で実装することができるが、このような実装の決定は、本発明の範囲からの逸脱を引き起こすと解釈されるべきではない。
【0133】
コンピュータソフトウェアで実装される実施形態は、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、又はこれらの何れかの組み合わせで実装することができる。コードセグメント又は機械実行可能な命令は、手続き、関数、サブプログラム、プログラム、ルーチン、サブルーチン、モジュール、ソフトウェアパッケージ、クラス、又は命令、データ構造、プログラム文の何れかの組み合わせを表すことができる。コードセグメントは、情報、データ、引数、パラメータ、又はメモリコンテンツを受け渡しすることによって、別のコードセグメント又はハードウェア回路に結合することができる。情報、引数、パラメータ、データ、その他は、メモリ共有、メッセージパッシング、トークンパッシング、ネットワーク伝送などを含む何れかの適切な手段を介して、移動、転送、又は伝送することができる。
【0134】
これらのシステム及び方法を実施するのに使用される実際のソフトウェアコード又は特殊な制御ハードウェアは、本発明を限定するものではない。従って、システム及び方法のオペレーション及び挙動は、本明細書の説明に基づいてシステム及び方法を実施するためにソフトウェア及び制御ハードウェアを設計することができることを理解して、特定のソフトウェアコードを参照することなく説明されている。
【0135】
ソフトウェアで実装される場合、機能は、非一時的なコンピュータ可読又はプロセッサ可読記憶媒体上の1又は2以上の命令又はコードとして格納することができる。本明細書に開示される方法又はアルゴリズムのステップは、コンピュータ可読記憶媒体又はプロセッサ可読記憶媒体に常駐できるプロセッサ実行可能ソフトウェアモジュールにおいて具現化することができる。非一時的なコンピュータ可読媒体又はプロセッサ可読媒体は、コンピュータ記憶媒体と、ある場所から別の場所へのコンピュータプログラムの転送を容易にする有形の記憶媒体の両方を含む。非一時的なプロセッサ読み取り可能な記憶媒体は、コンピュータによってアクセス可能な何れかの利用可能な媒体とすることができる。限定ではなく例として、このような非一時的なプロセッサ可読媒体は、命令又はデータ構造の形態で所望のプログラムコードを格納するのに使用され、コンピュータ又はプロセッサによってアクセスされ得るRAM、ROM、EEPROM、CD-ROM又は他の光ディスクストレージ、磁気ディスクストレージ又は他の磁気ストレージデバイス、又は他の何れかの有形記憶媒体を備えることができる。本明細書で使用されるディスク及びディスクは、コンパクトディスク(CD)、レーザーディスク、光ディスク、デジタル多用途ディスク(DVD)、フロッピーディスク、及びブルーレイディスクを含み、ディスクは通常磁気的にデータを再生し、ディスクはレーザーを用いて光学的にデータを再生する。上記の組み合わせもまた、コンピュータ読み取り可能な媒体の範囲に含まれるべきである。更に、方法又はアルゴリズムのオペレーションは、非一時的なプロセッサ可読媒体及び/又はコンピュータ可読媒体上のコード及び/又は命令の1つ又は何れかの組み合わせ又はセットとして存在し、これらはコンピュータプログラム製品に組み込まれることがある。
【0136】
開示された実施形態の前述の説明は、当業者であれば本発明を製造又は使用することができるように提供される。これらの実施形態に対する様々な修正は、当業者には容易に明らかであり、本明細書で定義された一般的な原理は、本発明の精神又は範囲から逸脱することなく、他の実施形態に適用することができる。従って、本発明は、本明細書に示された実施形態に限定されることを意図するものではなく、以下の請求項と本明細書に開示された原理及び新規な特徴と一致する最も広い範囲が与えられるべきである。
【0137】
様々な態様及び実施形態が開示されてきたが、他の態様及び実施形態も企図される。開示された様々な態様及び実施形態は、説明のためのものであり、限定することを意図しておらず、真の範囲及び精神は、以下の特許請求の範囲によって示される。
【符号の説明】
【0138】
100 システム
101 コール分析サービスシステム
102 分析サーバ
103 管理者デバイス
104 分析データベース
110 顧客コールセンターシステム
111 コールセンターサーバ
112 コールセンターデータベース
114 発信者デバイス
116 エージェントデバイス
図1
図2
図3
図4
図5
図6A
図6B
図7
図8
【国際調査報告】