IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アリババ・グループ・ホールディング・リミテッドの特許一覧

特許6993353ニューラルネットワークベースの声紋情報抽出方法及び装置
<>
  • 特許-ニューラルネットワークベースの声紋情報抽出方法及び装置 図1
  • 特許-ニューラルネットワークベースの声紋情報抽出方法及び装置 図2
  • 特許-ニューラルネットワークベースの声紋情報抽出方法及び装置 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2021-12-13
(45)【発行日】2022-01-13
(54)【発明の名称】ニューラルネットワークベースの声紋情報抽出方法及び装置
(51)【国際特許分類】
   G10L 25/30 20130101AFI20220105BHJP
   G10L 17/00 20130101ALI20220105BHJP
【FI】
G10L25/30
G10L17/00 200C
【請求項の数】 15
(21)【出願番号】P 2018559969
(86)(22)【出願日】2017-06-13
(65)【公表番号】
(43)【公表日】2019-08-15
(86)【国際出願番号】 US2017037145
(87)【国際公開番号】W WO2017218465
(87)【国際公開日】2017-12-21
【審査請求日】2020-06-04
(31)【優先権主張番号】201610421908.9
(32)【優先日】2016-06-13
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】510330264
【氏名又は名称】アリババ・グループ・ホールディング・リミテッド
【氏名又は名称原語表記】ALIBABA GROUP HOLDING LIMITED
(74)【代理人】
【識別番号】110001243
【氏名又は名称】特許業務法人 谷・阿部特許事務所
(72)【発明者】
【氏名】シャオフェイ シュエ
【審査官】渡部 幸和
(56)【参考文献】
【文献】米国特許出願公開第2015/0127336(US,A1)
【文献】GHALEHJEGH, Sina Hamidi ;ROSE, Richard C.,Deep bottleneck features for i-vector based text-independent speaker verification,2015 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU),IEEE,2015年12月13日,pp.555-560
【文献】張 兆峰、外4名,DNNに基づく特徴変換による残響環境話者認識,電子情報通信学会技術研究報告 SP2014-119,Vol.114 No.365,一般社団法人 電子情報通信学会,2014年12月08日
【文献】VARIANI, Ehsan, et al.,Deep neural networks for small footprint text-dependent speaker verification,2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),IEEE,2014年05月04日,pp.4052-4056
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-25/93
(57)【特許請求の範囲】
【請求項1】
音声音響特徴を入力音声セグメントから抽出すること、
ニューラルネットワークに基づきトレーニングされる声紋モデルに前記音声音響特徴を入力することであって、前記ニューラルネットワークは、入力層、双方向リカレントニューラルネットワーク層、全結合層、及び出力層を備える、こと、
前記声紋モデル内の前記ニューラルネットワークのボトルネック特徴を抽出することであって、前記ニューラルネットワークの前記ボトルネック特徴は、前記声紋モデルの前記全結合層内の前記音声音響特徴の出力を備える、こと、および
前記入力音声セグメントに対応する声紋情報として機能する単一フレームの声紋表現ベクトルに前記ニューラルネットワークの前記ボトルネック特徴のフレームベクトルをマッピングすること、
を備える、方法。
【請求項2】
前記単一フレームの声紋表現ベクトルに前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルをマッピングすることは、前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルに重み付けし、前記ニューラルネットワークの前記ボトルネック特徴に対応する前記単一フレームの声紋表現ベクトルを計算することを備える、請求項1に記載の方法。
【請求項3】
前記単一フレームの声紋表現ベクトルに前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルをマッピングすることは、
前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルについてiベクトルモデルを構築すること、および
前記iベクトルモデルを使用して、前記ニューラルネットワークの前記ボトルネック特徴に対応する前記単一フレームの声紋表現ベクトルを計算すること、
を備える、請求項1に記載の方法。
【請求項4】
前記方法は、前記ニューラルネットワークをトレーニングすることを備え、
トレーニングする音声セグメントから抽出されるそれぞれの音声音響特徴を前記ニューラルネットワークの入力データとして使用すること、
前記トレーニングする音声セグメントに対応するそれぞれの分類ラベルを前記ニューラルネットワークの出力データとして使用すること、および
前記ニューラルネットワークを使用して前記入力データを分類し、分類結果と前記出力データとの間の対応関係を比較することにより前記声紋モデルをトレーニングすること、をさらに備える、請求項1に記載の方法。
【請求項5】
前記ニューラルネットワークは、畳み込みニューラルネットワーク層をさらに備える、請求項1または請求項4に記載の方法。
【請求項6】
1つ以上のプロセッサと、
メモリと、
前記メモリに格納され、入力音声セグメントから1つ以上の音声音響特徴を抽出するように前記1つ以上のプロセッサにより実行可能である音声音響特徴抽出モジュールと、
前記メモリに格納され、ニューラルネットワークに基づきトレーニングされる声紋モデルに前記1つ以上の音声音響特徴を入力するように、前記声紋モデル内の前記ニューラルネットワークのボトルネック特徴を抽出するように前記1つ以上のプロセッサにより実行可能である処理モジュールであって、前記ニューラルネットワークは、入力層、双方向リカレントニューラルネットワーク層、全結合層、及び出力層を備え、前記ニューラルネットワークの前記ボトルネック特徴は、前記声紋モデルの前記全結合層内の前記音声音響特徴の出力を備える、処理モジュールと、
前記メモリに格納され、前記入力音声セグメントに対応する声紋情報として機能する単一フレームの声紋表現ベクトルに前記ニューラルネットワークの前記ボトルネック特徴のフレームベクトルをマッピングするように前記1つ以上のプロセッサにより実行可能である声紋情報計算モジュールと、
を備える、装置。
【請求項7】
前記声紋情報計算モジュールは、前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルに重み付けし、前記ニューラルネットワークの前記ボトルネック特徴に対応する前記単一フレームの声紋表現ベクトルを計算するようにさらに構成される、請求項6に記載の装置。
【請求項8】
前記声紋情報計算モジュールは、前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルについてiベクトルモデルを構築するように、また前記iベクトルモデルを使用して前記ニューラルネットワークの前記ボトルネック特徴に対応する前記単一フレームの声紋表現ベクトルを計算するようにさらに構成される、請求項6に記載の装置。
【請求項9】
トレーニングする音声セグメントから抽出されるそれぞれの音声音響特徴を前記ニューラルネットワークの入力データとして使用し、
前記トレーニングする音声セグメントに対応するそれぞれの分類ラベルを前記ニューラルネットワークの出力データとして使用し、
前記ニューラルネットワークを使用して前記入力データを分類し、分類結果と前記出力データとの間の対応関係を比較することにより前記声紋モデルをトレーニングする、
ように構成されるニューラルネットワークトレーニングモデルをさらに備える、請求項6に記載の装置。
【請求項10】
前記ニューラルネットワークは、畳み込みニューラルネットワーク層をさらに備える、請求項6または請求項9に記載の装置。
【請求項11】
1つ以上のコンピュータ可読媒体であって、1つ以上のプロセッサにより実行されるときに、
音声音響特徴を入力音声セグメントから抽出すること、
ニューラルネットワークに基づきトレーニングされる声紋モデルに前記音声音響特徴を入力することであって、前記ニューラルネットワークは、入力層、双方向リカレントニューラルネットワーク層、全結合層、及び出力層を備える、こと、
前記声紋モデル内の前記ニューラルネットワークのボトルネック特徴を抽出することであって、前記ニューラルネットワークの前記ボトルネック特徴は、前記声紋モデルの前記全結合層内の前記音声音響特徴の出力を備える、こと、および
前記入力音声セグメントに対応する声紋情報として機能する単一フレームの声紋表現ベクトルに前記ニューラルネットワークの前記ボトルネック特徴のフレームベクトルをマッピングすること、
を備える動作を前記1つ以上のプロセッサに実行させる、実行可能な命令を格納する、前記1つ以上のコンピュータ可読媒体。
【請求項12】
前記単一フレームの声紋表現ベクトルに前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルをマッピングすることは、前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルに重み付けし、前記ニューラルネットワークの前記ボトルネック特徴に対応する前記単一フレームの声紋表現ベクトルを計算することを備える、請求項11に記載の1つ以上のコンピュータ可読媒体。
【請求項13】
前記単一フレームの声紋表現ベクトルに前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルをマッピングすることは、
前記ニューラルネットワークの前記ボトルネック特徴の前記フレームベクトルについてiベクトルモデルを構築すること、および
前記iベクトルモデルを使用して、前記ニューラルネットワークの前記ボトルネック特徴に対応する前記単一フレームの声紋表現ベクトルを計算すること、
を備える、請求項11に記載の1つ以上のコンピュータ可読媒体。
【請求項14】
前記動作は、前記ニューラルネットワークをトレーニングすることを備え
トレーニングする音声セグメントから抽出されるそれぞれの音声音響特徴を前記ニューラルネットワークの入力データとして使用すること、
前記トレーニングする音声セグメントに対応するそれぞれの分類ラベルを前記ニューラルネットワークの出力データとして使用すること、および
前記ニューラルネットワークを使用して前記入力データを分類し、分類結果と前記出力データとの間の対応関係を比較することにより前記声紋モデルをトレーニングすること、をさらに備える、請求項11に記載の1つ以上のコンピュータ可読媒体。
【請求項15】
前記ニューラルネットワークは、畳み込みニューラルネットワーク層をさらに備える、請求項11または請求項14に記載の1つ以上のコンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連特許出願の相互参照
本出願は、2016年6月13日に出願された「Neural Network-Based Voiceprint Information Extraction Method and Apparatus」と題する中国特許出願第201610421908.9号への外国優先権を主張するものであり、その全体が参照により本明細書によって援用される。
【0002】
本開示は、コンピュータの分野に関し、特に、ニューラルネットワークに基づき声紋情報を抽出する方法及び装置に関する。
【背景技術】
【0003】
声紋情報は、一般的に話者を表すことが可能である情報に関し、音声波形を通して話者の生理学的及びビヘイビア特性を反映する一種の音声情報である。声紋情報は、発話認識における、話者認識、話者検証、及び話者自己適応などのタスクに広範に適用されることができる。声紋情報の迅速で効果的な抽出は、前述のタスクのパフォーマンスを改善するために非常に重要である。
【0004】
iベクトルは、話者認識の主流の技術である。iベクトルにおいて、各話者は、異なる話者の中から区別可能であるベクトルを有する。
【0005】
一般的に、iベクトルは、話者空間及びチャネル空間を別々にモデル化し、計算用に変化する因子を代入する必要があることにより、声紋情報を表すベクトルは、入力音声から抽出されることが可能である。そのトレーニング及び声紋情報抽出のプロセスは、比較的に複雑である。
【発明の概要】
【0006】
この発明の概要は、発明を実施するための形態において以下にさらに説明される簡略化された形態で概念の選択を導入するために提供される。この発明の概要は、特許請求された主題のすべての重要な特徴または本質的な特徴を特定することを意図するものではなく、特許請求された主題の範囲を決定する際の助けとして単独で使用されることを意図するものでもない。用語「技法」は、上記文脈によって及び本開示全体を通して許容されるような、たとえば、デバイス(複数可)、システム(複数可)、方法(複数可)及び/またはコンピュータ可読命令を指し得る。
【0007】
本開示の目的は、ニューラルネットワークに基づき声紋情報を抽出する方法及び装置を提供すること、声紋情報を抽出するプロセスを簡略化することである。
【0008】
実施態様において、本開示は、ニューラルネットワークベースの声紋情報抽出方法を提供する。この方法は、入力音声セグメントから1つ以上の音声音響特徴を抽出することと、ニューラルネットワークに基づきトレーニングされる声紋モデルに1つ以上の音声音響特徴を入力し、声紋モデル内のニューラルネットワークのボトルネック特徴を抽出することと、単一フレームの声紋表現ベクトルにニューラルネットワークのボトルネック特徴のフレームベクトルをマッピングすることとを備え、この単一フレームの声紋表現ベクトルは、入力音声セグメントに対応する声紋情報として機能することができる。
【0009】
実施態様において、単一フレームの声紋表現ベクトルにニューラルネットワークのボトルネック特徴のフレームベクトルをマッピングすることは、ニューラルネットワークのボトルネック特徴のフレームベクトルに重み付けし、ニューラルネットワークのボトルネック特徴に対応する単一フレームの声紋表現ベクトルを計算し、取得することを備えることができる。
【0010】
実施態様において、単一フレームの声紋表現ベクトルにニューラルネットワークのボトルネック特徴のフレームベクトルをマッピングすることは、ニューラルネットワークのボトルネック特徴のフレームベクトルについてのiベクトルモデルを構築すること、このiベクトルモデルを使用して、ニューラルネットワークのボトルネック特徴に対応する単一フレームの声紋表現ベクトルを計算することを備えることができる。
【0011】
実施態様において、方法は、ニューラルネットワークをトレーニングすることをさらに備えることができ、このトレーニングすることは、トレーニングする音声セグメントから抽出される音声音響特徴をニューラルネットワークの入力データとして使用すること、トレーニングする音声セグメントに対応する分類ラベルをニューラルネットワークの出力データとして使用すること、ニューラルネットワークを介して入力データを分類して分類結果と出力データとの間の対応関係を比較し、声紋モデルをトレーニングすることを備える。
【0012】
実施態様において、ニューラルネットワークは、下から上に順に、入力層、双方向リカレントニューラルネットワーク層、全結合層、及び出力層を備えることができる。
【0013】
実施態様において、ニューラルネットワークは、下から上に順に、入力層、双方向リカレントニューラルネットワーク層、畳み込みニューラルネットワーク層、全結合層、及び出力層を備えることができる。
【0014】
実施態様において、ニューラルネットワークのボトルネック特徴は、声紋モデルの全結合層内の音声音響特徴の出力を備えることができる。
【0015】
実施態様において、本開示は、ニューラルネットワークベースの声紋情報抽出装置をさらに提供する。これらの装置は、入力音声セグメントから1つ以上の音声音響特徴を抽出するように構成される音声音響特徴抽出モジュールと、ニューラルネットワークに基づきトレーニングされる声紋モデルに1つ以上の音声音響特徴を入力し、声紋モデル内のニューラルネットワークのボトルネック特徴を抽出するように構成される処理モジュールと、入力音声セグメントに対応する声紋情報として機能する単一フレームの声紋表現ベクトルにニューラルネットワークのボトルネック特徴のフレームベクトルをマッピングするように構成される声紋情報計算モジュールとを備えることができる。
【0016】
実施態様において、声紋情報計算モジュールは、ニューラルネットワークのボトルネック特徴のフレームベクトルに重み付けし、ニューラルネットワークのボトルネック特徴に対応する単一フレームの声紋表現ベクトルを計算し、取得するようにさらに構成されることができる。
【0017】
実施態様において、声紋情報計算モジュールは、ニューラルネットワークのボトルネック特徴のフレームベクトルについてiベクトルモデルを構築し、このiベクトルモデルを使用してニューラルネットワークのボトルネック特徴に対応する単一フレームの声紋表現ベクトルを計算するようにさらに構成されることができる。
【0018】
実施態様において、装置は、トレーニングする音声セグメントから抽出される音声音響特徴をニューラルネットワークの入力データとして使用し、トレーニングする音声セグメントに対応する分類ラベルをニューラルネットワークの出力データとして使用し、ニューラルネットワークを使用して入力データを分類し、分類結果と出力データとの間の対応関係を比較することにより声紋モデルをトレーニングするように構成されるニューラルネットワークトレーニングモジュールをさらに備えることができる。
【0019】
実施態様において、ニューラルネットワークは、下から上に順に、入力層、双方向リカレントニューラルネットワーク層、全結合層、及び出力層を備えることができる。
【0020】
実施態様において、ニューラルネットワークは、下から上に順に、入力層、双方向リカレントニューラルネットワーク層、畳み込みニューラルネットワーク層、全結合層、及び出力層を備えることができる。
【0021】
実施態様において、ニューラルネットワークのボトルネック特徴は、声紋モデルの全結合層内の音声音響特徴の出力を備えることができる。
【0022】
既存の技法と比較して、ニューラルネットワークベースの声紋情報抽出方法及び装置は、ニューラルネットワークに基づきトレーニングされる声紋モデルを通して音声セグメントの声紋情報を抽出し、より良い方式において短時間の音声セグメントを処理することが可能である、比較的に簡単な抽出プロセスを有する。
【図面の簡単な説明】
【0023】
図1】本開示の実施形態による声紋モデルの構造図である。
図2】本開示の実施形態によるニューラルネットワークベースの声紋情報抽出方法のフローチャートである。
図3】本開示の実施形態によるニューラルネットワークベースの声紋情報抽出装置のモジュール図である。
【発明を実施するための形態】
【0024】
本開示は、添付の図面に示されるように、例示的な実施態様を参照して以降本明細書中に詳細に説明される。しかしながら、これらの実施態様は、本開示を限定することを意図されない。当業者であれば、これらの実施態様に基づき構造、方法または機能へ変更を行うことができ、これらの変更は、本開示の保護範囲内にすべて入る。
【0025】
声紋は、電気音響機器により表示される口頭情報を搬送する音波スペクトルである。人間の言語の発生は、人体の言語中枢と発声器官との間の複雑な生理学的及び物理的プロセスである。人々が話すときに使用する発声器官(舌、歯、咽頭、肺、及び鼻腔)は、大きさや形状の観点で人によって著しく変わるため、いずれか2人の声紋は、異なる。
【0026】
声紋情報は、フィルタ、モデルなどの手段により抽出される情報であり、これは、話者を表し、極めて識別可能な声紋表現をもっている。声紋情報は、声紋認識システム、すなわち、話者認識及び検証により使用されることができる。前者は、複数の人の中からどの人が特定の発話セグメントの話者であるかを決定するために使用され、「複数の選択肢から1つを選択する」問題である。後者は、発話セグメントが指定された人により話されているかどうかを検証するために使用され、「1対1の裁量」問題である。異なるタスク及びアプリケーションは、異なる声紋認識技法を使用することができる。たとえば、犯罪捜査の範囲を縮小させる認識技法を必要とする可能性があり、銀行取引を行うときに検証技法を必要とする。
【0027】
また声紋情報は、発話認識についての話者自己適応システムに使用されることができる。話者自己適応システムは、話者に関連する音声特徴を話者に関連しない音声特徴に変換し、または話者に関連しない声紋モデルを話者に関連する声紋モデルに変換し、より良い方式において、標的話者の音声特徴を試験し、その声紋モデルにマッチングさせるので、より良い認識効果を取得することが可能である。これらの変換を達成する重要な手法は、話者の音声の声紋情報を抽出することである。
【0028】
本開示は、ニューラルネットワークに基づきトレーニングされる声紋モデルを使用して、音声の声紋情報を抽出する。これは、抽出及びモデリングのプロセスを極めて簡略化し、抽出された声紋情報は、比較的に高品質を有する。
【0029】
図1は、声紋情報を抽出するための声紋モデルを示す。声紋モデルは、本開示に従い、ニューラルネットワーク100に基づきトレーニングされる。実施態様において、下から上に開始する順序に従い、ニューラルネットワーク100は、1層の入力層102、1層以上の双方向リカレントニューラルネットワーク層104、1層以上の全結合層108、及び1層の出力層110を備えることができる。換言すれば、ニューラルネットワーク100に入るデータは、1層の入力層102、1層以上の双方向リカレントニューラルネットワーク層104、1層以上の全結合層108、及び1層の出力層110を連続して通過する。実施態様において、全結合層は、少なくとも1層の全結合層を含む。
【0030】
実施態様において、ニューラルネットワークは、双方向リカレントニューラルネットワーク層(双方向RNN)、すなわち、順伝播層及び逆伝播層を含むBLSTMネットワークを用いることができる。したがって、声紋モデル内で抽出されるニューラルネットワークのボトルネック特徴がより正確であるように、全体の時間シーケンスに順及び逆時間フレームを合わせて使用して、現在の時間フレームの音声音響特徴を分析する。
【0031】
別の実施態様において、下から上に開始する順序に従い、ニューラルネットワーク100は、1層の入力層102、1層以上の双方向リカレントニューラルネットワーク層104、1層以上の畳み込みニューラルネットワーク層106、1層以上の全結合層108、及び1層の出力層110を備えることができる。換言すれば、ニューラルネットワーク100に入るデータは、1層の入力層102、1層以上の双方向リカレントニューラルネットワーク層104、1層以上の畳み込みニューラルネットワーク層106、1層以上の全結合層108、及び1層の出力層110を連続して通過する。
【0032】
ニューラルネットワークのより良いボトルネック特徴をより大きなステージにおいて抽出することができるように、現在の実施態様は、前の実施態様に基づいて畳み込みニューラルネットワーク層(CNN)106をさらに加え、複数のフレームの音声音響特徴をより少ない数のフレームに結合することができるので、この方式においてフレームレートを低下させる。
【0033】
当業者は、既存の技法を使用して、上文のニューラルネットワークアーキテクチャ、たとえば、双方向リカレントニューラルネットワーク、畳み込みニューラルネットワーク、及び全結合ネットワークにおけるさまざまな層に伴われるネットワーク構造及び特性を理解し、これらに精通することが可能であるため、その詳細は、本明細書に冗長に記述されない。以降本明細書において、ニューラルネットワークに基づき声紋情報を抽出する方法を開示する。
【0034】
さらに、声紋情報を抽出する前に、ニューラルネットワークは、最初にトレーニングされる必要がある。実施態様において、GPUアクセラレーションを使用して、ニューラルネットワークが声紋モデルのトレーニングを受ける。その方法は、トレーニングする音声セグメントから抽出される音声音響特徴をニューラルネットワークの入力データとして使用し、トレーニングする音声セグメントに対応する分類ラベルをニューラルネットワークの出力データとして使用し、ニューラルネットワークを使用して入力データを分類し、分類結果と出力データとの間の対応関係を比較することにより声紋モデルをトレーニングすることを備えることができる。
【0035】
実施態様において、話者は、分類ラベルとして使用される、すなわち、1人の話者は、少なくとも1つのトレーニングする音声セグメントに対応する。ニューラルネットワークをトレーニングする手法は、多数のトレーニングする音声セグメントをニューラルネットワークに入力し、このニューラルネットワークによる分類を実行すること、ニューラルネットワークがトレーニングする音声セグメントを対応する話者に分類する(すなわち、分類結果は出力データに対応する)場合に1として分類にマーク付けすること、ニューラルネットワークがトレーニングする音声セグメントを対応する話者に分類することに失敗した(すなわち、分類結果は出力データに対応しない)場合に0としてこの分類にマーク付けすること、及びすべてのトレーニングする音声セグメントがこの方式において分類された後に、ニューラルネットワークが正確に分類を実行することが可能になるまで、またはその分類精度が所定の閾値を超えるまで、分析的トレーニングについての分類ラベルを参照して再度ニューラルネットワークに入力データを代入し、つぎにニューラルネットワークを声紋モデルとして設定することを備えることができる。
【0036】
図2に示されるように、実施態様において、ニューラルネットワークベースの声紋情報抽出方法200は、つぎの操作を含むことができる。
【0037】
S202は、音声音響特徴を入力音声セグメントから抽出する。
【0038】
S204は、ニューラルネットワークに基づきトレーニングされる声紋モデルに音声音響特徴を入力し、声紋モデル内のニューラルネットワークのボトルネック特徴を抽出する。
【0039】
S206は、入力音声セグメントに対応する声紋情報として機能する、単一フレームの声紋表現ベクトルにニューラルネットワークのボトルネック特徴のフレームベクトルをマッピングする。
【0040】
実施態様において、音声セグメントは、連続的な発話の節、たとえば、文、段落、及び同様のものを含むことができる。音声音響特徴は、音声セグメントの、メル周波数ケプストラム係数(MFCC)、知覚線形予測(PLP)係数、フィルタバンク特徴などを有することができる。外見上、音声音響特徴は、音声セグメントの、元の、または生の発話データであることもできる。
【0041】
音声セグメントに対応する抽出された音声音響特徴を声紋モデルに入力した後に、この声紋モデルは、前のトレーニングにおいて定義される1つ以上のルールに従い音声音響特徴を処理することができる。たとえば、音声音響特徴は、分析のために、1層の入力層、1層以上の双方向リカレントニューラルネットワーク層、1層以上の畳み込みニューラルネットワーク層、及び1層以上の全結合層を連続して通過する。
【0042】
実施態様において、声紋情報が抽出される必要がある音声セグメントについて、抽出された特徴は、ニューラルネットワークのボトルネック特徴、たとえば、声紋モデル内の全結合層の出力である。実施態様において、ニューラルネットワークをトレーニングするときに、特定の層は、ニューラルネットワーク内の他の層より少ない数のノードを含むように選択されることができる。たとえば、特定の層は、数百個のノード(200個のノードなど)を含むことができ、他の層は、数千個のノード(たとえば、2000個のノード)を含むことができる。この特定の層は、他の層のこれらと比較してより少ない数のノードを含むように選択され、ボトルネック層と称される。実施態様において、ボトルネック特徴は、ボトルネック層の出力であり、特徴のグループをトレーニングされたニューラルネットワーク(たとえば、上文に記述されるようなニューラルネットワーク)に入力した後に、この特徴のグループにより表現される情報の新規の表現として取られる。
【0043】
この方式において、声紋情報を表すベクトルのグループを取得することができ、ベクトルのこのグループは、声紋情報に対応する複数のフレームからなる。同時に、ニューラルネットワークのボトルネック特徴を使用して声紋情報を抽出することは、より良い方式において、短時間の音声セグメント(たとえば、3s)の声紋情報を抽出するように適合されることが可能である。当業者は、既存の技法に基づきニューラルネットワークのボトルネック特徴の定義及び抽出手法に精通することが可能であり、その詳細は、本明細書に冗長に記述されない。
【0044】
さらに、実施態様において、単一フレームの声紋表現ベクトルにニューラルネットワークのボトルネック特徴のフレームベクトルをマッピングすることは、ニューラルネットワークのボトルネック特徴のフレームベクトルに重み付けし、ニューラルネットワークのボトルネック特徴に対応する単一フレームの声紋表現ベクトルを計算することを備えることができる。実施態様において、ニューラルネットワークのボトルネック特徴のフレームは、重み付けされることができ、つぎにその平均値を取り(たとえば、同一の重み付け、または所定の異なる重み付けはニューラルネットワークのボトルネック特徴の各フレームに加えられ、重み付け後に平均値を取り)、単一フレームの声紋表現ベクトルを計算する。代替に、窓関数重み付けをニューラルネットワークのボトルネック特徴のフレームベクトル上に実行し、単一フレームの声紋表現ベクトルを計算することができる。実施態様において、単一フレームの声紋表現ベクトルは、ニューラルネットワークのボトルネック特徴のフレームベクトルに含まれる情報の表現または具体的表現であり、単一フレームの声紋表現ベクトルは、抽出される声紋情報の抽象化を有する、または抽象化に対応する。
【0045】
実施態様において、単一フレームの声紋表現ベクトルにニューラルネットワークのボトルネック特徴のフレームベクトルをマッピングすることは、ニューラルネットワークのボトルネック特徴のフレームベクトルについてのiベクトルモデルを構築すること、このiベクトルモデルを使用して、ニューラルネットワークのボトルネック特徴に対応する単一フレームの声紋表現ベクトルを計算することを備えることができる。この実施態様において、ニューラルネットワークのボトルネック特徴のフレームベクトルは、既存のiベクトルを使用することによりモデル化され、このiベクトルモデルを使用してiベクトル声紋表現を計算し、単一フレームの声紋表現ベクトルとして機能することができる。この実施態様において、声紋を抽出するプロセスは、前の実施態様と比較してさらに複雑になる。しかしながら、ニューラルネットワークのボトルネック特徴の特性により、この実施態様を使用して抽出されるノイズのある環境内の、短時間の音声セグメント、及び音声セグメントの声紋情報は、従来のiベクトルを使用して抽出される声紋情報より良いパフォーマンスを有する。
【0046】
図3は、図1に示されるニューラルネットワーク構造も適用可能である、本開示による例示的なニューラルネットワークベースの声紋情報抽出装置300を示す。実施態様において、装置300は、1つ以上のプロセッサ302、入出力(I/O)インターフェイス304、ネットワークインターフェイス306、及びメモリ308を含むことができる。
【0047】
メモリ308は、コンピュータ可読媒体、たとえば、非永続的なストレージデバイス、ランダムアクセスメモリ(RAM)、及び/または不揮発性内部ストレージ、たとえば、読み取り専用メモリ(ROM)またはフラッシュRAMの形態を含み得る。メモリ308は、コンピュータ可読媒体の実施例である。
【0048】
コンピュータ可読媒体は、永続的な、または非永続的な種類の、取り外し可能な、または取り外し不可能な媒体を含むことができ、それは、任意の方法または技術を使用して情報のストレージを達成し得る。この情報は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータを含み得る。コンピュータ記憶媒体の実施例は、限定されるものではないが、相変化メモリ(PRAM)、静的ランダムアクセスメモリ(SRAM)、動的ランダムアクセスメモリ(DRAM)、他の種類のランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、電子的に消去可能でプログラム可能な読み取り専用メモリ(EEPROM)、高速フラッシュメモリ若しくは他の内部記憶技術、コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)若しくは他の光ストレージ、磁気カセットテープ、磁気ディスクストレージ若しくは他の磁気ストレージデバイス、または任意の他の非伝送媒体を含み、それらは、コンピューティングデバイスによってアクセスされ得る情報を記憶するために使用され得る。本明細書に定義されるように、コンピュータ可読媒体は、一時的な媒体、たとえば、変調データ信号及び搬送波を含まない。説明の容易さのために、システムは、機能に基づくさまざまなタイプのユニットに分割され、これらのユニットは、上文の説明に別々に記述される。外見上、さまざまなユニットの機能は、本開示の実施中に、1つ以上のソフトウェア及び/またはハードウェアコンポーネント内に実装されることができる。
【0049】
メモリ308は、プログラムモジュール310及びプログラムデータ312を含み得る。実施態様において、プログラムモジュール310は、ニューラルネットワークトレーニングモジュール314、音声音響特徴抽出モジュール316、処理モジュール318、及び声紋情報計算モジュール320を含むことができる。
【0050】
実施態様において、声紋情報を抽出する前に、ニューラルネットワークトレーニングモジュール314は、たとえば、ニューラルネットワークを迅速にトレーニングするためにGPUアクセラレーションを使用して、ニューラルネットワークをトレーニングすることができる。たとえば、ニューラルネットワークトレーニングモジュール314は、トレーニングする音声セグメントから抽出される音声音響特徴(音声音響特徴抽出モジュール316を使用して抽出されることができる)をニューラルネットワークの入力データとして使用し、トレーニングする音声セグメントに対応する分類ラベルをニューラルネットワークの出力データとして使用し、ニューラルネットワークを使用して入力データを分類し、分類結果と出力データとの間の対応関係を比較することにより声紋モデルをトレーニングすることができる。
【0051】
実施態様において、話者は、分類ラベルとして使用される、すなわち、1人の話者は、少なくとも1つのトレーニングする音声セグメントに対応する。ニューラルネットワークをトレーニングする手法は、多数のトレーニングする音声セグメントをニューラルネットワークに入力し、このニューラルネットワークによる分類を実行すること、ニューラルネットワークがトレーニングする音声セグメントを対応する話者に分類する(すなわち、分類結果は出力データに対応する)場合に1として分類にマーク付けすること、ニューラルネットワークがトレーニングする音声セグメントを対応する話者に分類することに失敗した(すなわち、分類結果は出力データに対応しない)場合に0としてこの分類にマーク付けすること、及びすべてのトレーニングする音声セグメントがこの方式において分類された後に、ニューラルネットワークが正確に分類を実行することが可能になるまで、またはその分類精度が所定の閾値を超えるまで、分析的トレーニングについての分類ラベルを参照して再度ニューラルネットワークに入力データを代入し、つぎにニューラルネットワークを声紋モデルとして設定することを備えることができる。
【0052】
実施態様において、音声音響特徴抽出モジュール316は、音声音響特徴を入力音声セグメントから抽出することができる。処理モジュール318は、ニューラルネットワークに基づきトレーニングされる声紋モデルに音声音響特徴を入力し、この声紋モデル内のニューラルネットワークのボトルネック特徴を抽出することができる。声紋情報計算モジュール320は、入力音声セグメントに対応する声紋情報として機能する、単一フレームの声紋表現ベクトルにニューラルネットワークのボトルネック特徴のフレームベクトルをマッピングすることができる。
【0053】
実施態様において、音声セグメントは、連続的な発話の節、たとえば、文、段落、及び同様のものを含むことができる。音声音響特徴は、音声セグメントの、メル周波数ケプストラム係数(MFCC)、知覚線形予測(PLP)係数、フィルタバンク特徴などを有することができる。外見上、音声音響特徴は、音声セグメントの、元の、または生の発話データであることもできる。
【0054】
音声セグメントに対応する抽出された音声音響特徴を声紋モデルに入力した後に、この声紋モデルは、前のトレーニングにおいて定義される1つ以上のルールに従い音声音響特徴を処理することができる。たとえば、音声音響特徴は、分析のために、入力層、双方向リカレントニューラルネットワーク層、畳み込みニューラルネットワーク層、及び全結合層を連続して通過する。
【0055】
実施態様において、声紋情報が抽出される必要がある音声セグメントについて、抽出された特徴は、ニューラルネットワークのボトルネック特徴、すなわち、声紋モデル内の全結合層の出力である。この方式において、声紋情報を表すベクトルのグループを、取得することができ、ベクトルのこのグループは、声紋情報に対応する複数のフレームからなる。同時に、ニューラルネットワークのボトルネック特徴を使用して声紋情報を抽出することは、より良い方式において、短時間の音声セグメント(たとえば、3s)の声紋情報を抽出するように適合されることが可能である。当業者は、既存の技法に基づきニューラルネットワークのボトルネック特徴の定義及び抽出手法に精通することが可能であり、その詳細は、本明細書に冗長に記述されない。
【0056】
実施態様において、声紋情報計算モジュール320は、ニューラルネットワークのボトルネック特徴のフレームベクトルにさらに重み付けし、ニューラルネットワークのボトルネック特徴に対応する単一フレームの声紋表現ベクトルを計算することができる。実施態様において、ニューラルネットワークのボトルネック特徴のフレームは、重み付けされることができ、つぎにその平均値を取り(たとえば、同一の重み付け、または所定の異なる重み付けはニューラルネットワークのボトルネック特徴の各フレームに加えられ、重み付け後に平均値を取り)、単一フレームの声紋表現ベクトルを計算する。代替に、窓関数重み付けをニューラルネットワークのボトルネック特徴のフレームベクトル上に実行し、単一フレームの声紋表現ベクトルを計算することができる。
【0057】
実施態様において、声紋情報計算モジュール320は、ニューラルネットワークのボトルネック特徴のフレームベクトルについてiベクトルモデルをさらに構築し、このiベクトルモデルを使用してニューラルネットワークのボトルネック特徴に対応する単一フレームの声紋表現ベクトルを計算することができる。この実施態様において、ニューラルネットワークのボトルネック特徴のフレームベクトルは、既存のiベクトルを使用することによりモデル化され、このiベクトルモデルを使用してiベクトル声紋表現を計算し、単一フレームの声紋表現ベクトルとして機能することができる。この実施態様において、声紋を抽出するプロセスは、前の実施態様と比較してさらに複雑になる。しかしながら、ニューラルネットワークのボトルネック特徴の特性により、この実施態様を使用して抽出されるノイズのある環境内の短時間の音声セグメント、及び音声セグメントの声紋情報は、従来のiベクトルを使用して抽出される声紋情報より良いパフォーマンスを有する。
【0058】
上記を鑑みて、本開示のニューラルネットワークベースの声紋情報抽出方法及び装置は、ニューラルネットワークに基づきトレーニングされる声紋モデルを介して音声セグメントから声紋情報を抽出するので、声紋モデルをトレーニングし、声紋情報を抽出するプロセスは、比較的に簡単である。さらに、ニューラルネットワークの特性により、声紋モデルは、より良い方式において、短時間の音声セグメント及びノイズのある環境内の音声セグメントを処理することが可能である。このようなものとして、抽出された声紋情報は、より良いパフォーマンスを有する。
【0059】
当業者は、前述の方法の実装に対応するプロセスを参照して、上述される、装置の特定の作業プロセス、装置及びモジュールを取得することができ、説明の明瞭さのために、本明細書に繰り返し記述されないことを明らかに理解することが可能である。
【0060】
本開示に提供される実施態様において、開示された装置及び方法を他の方式において実装することができることを理解するであろう。たとえば、前述の装置の実施態様は、例示に過ぎない。たとえば、前述のモジュールの分割は、論理関数の分割に過ぎず、実際の実施中に別の分割方式を使用することができる。たとえば、複数のモジュールまたはコンポーネントは、組み合わされることができる、若しくは別の装置に統合されることができる、またはいくつかの機能は、省略される、若しくは実行されないことができる。他方で、開示された、または考察された相互結合または直接結合または通信接続は、いくつかのインターフェイス、装置またはモジュールを介して実装される間接結合または通信接続であることができ、電気の、機械の、または他の形態にあることができる。
【0061】
別々のコンポーネントとして記述されるモジュールは、物理的に別々であってもよいし、別々でなくてもよい。モジュールとして記述されるコンポーネントは、物理的なモジュールであってもよいし、物理的なモジュールでなくてもよい、すなわち、単一の位置に設置される、または複数のネットワークモジュール間に分散されることができる。実施形態の解決策の目的は、実際の要件に従いそのモジュールのうちのいくつかを、またはすべてを選択することにより実施されることができる。
【0062】
加えて、本開示の実施態様における機能モジュールは、決定モジュールに統合されることができる。代替に、これらのモジュールは、物理的に個々のエンティティとして存在することもできる。代替に、2つ以上のモジュールは、単一のモジュールに統合される。統合されたモジュールは、ハードウェアの形で、またはハードウェア及びソフトウェア機能モジュール(複数可)の組み合わせの形で実現され得る。
【0063】
統合されたモジュールは、ソフトウェア機能モジュールの形で実現され、コンピュータ可読記憶媒体に格納され得る。ソフトウェア機能モジュールは、記憶媒体に格納され、コンピューティングデバイス(複数可)(パーソナルコンピュータ、サーバ、ネットワークデバイス、または同様のものであることができる)またはプロセッサ(複数可)が本開示の例示的な方法の操作の一部を実行することを可能にするために使用される複数の命令を含む。記憶媒体は、USBフラッシュディスク、モバイルハードディスク、読み取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、磁気ディスク、光ディスク、またはプログラムコードを格納することが可能である他の媒体を含むことができる。
【0064】
最後に、本開示は、制限することよりもむしろ、本開示の技術的な解決策を説明するために前述の実施態様を使用されるに過ぎないことに留意するべきである。本開示は、前述の実施態様を参照して詳細に記述されるが、当業者は、彼らが上記の実施態様の技術的な解決策に変更を行う、または技術的な特徴のうちのいくつかに均等物の置換を実行することが依然として可能であることを理解するであろう。これらの変更または置換は、対応する技術的な解決策の本質を本開示の実施態様の技術的な解決策の趣旨及び範囲から逸脱させることを意図されない。
図1
図2
図3