特許第6682523号(P6682523)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッドの特許一覧

<>
  • 特許6682523-声紋認証処理方法及び装置 図000002
  • 特許6682523-声紋認証処理方法及び装置 図000003
  • 特許6682523-声紋認証処理方法及び装置 図000004
  • 特許6682523-声紋認証処理方法及び装置 図000005
  • 特許6682523-声紋認証処理方法及び装置 図000006
  • 特許6682523-声紋認証処理方法及び装置 図000007
  • 特許6682523-声紋認証処理方法及び装置 図000008
  • 特許6682523-声紋認証処理方法及び装置 図000009
  • 特許6682523-声紋認証処理方法及び装置 図000010
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6682523
(24)【登録日】2020年3月27日
(45)【発行日】2020年4月15日
(54)【発明の名称】声紋認証処理方法及び装置
(51)【国際特許分類】
   G10L 17/00 20130101AFI20200406BHJP
   G10L 17/04 20130101ALI20200406BHJP
   G10L 17/18 20130101ALI20200406BHJP
【FI】
   G10L17/00 200C
   G10L17/04
   G10L17/18
【請求項の数】12
【全頁数】17
(21)【出願番号】特願2017-519504(P2017-519504)
(86)(22)【出願日】2016年7月4日
(65)【公表番号】特表2018-508799(P2018-508799A)
(43)【公表日】2018年3月29日
(86)【国際出願番号】CN2016088435
(87)【国際公開番号】WO2017113680
(87)【国際公開日】20170706
【審査請求日】2017年4月11日
(31)【優先権主張番号】201511024873.7
(32)【優先日】2015年12月30日
(33)【優先権主張国】CN
【前置審査】
(73)【特許権者】
【識別番号】512015127
【氏名又は名称】バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
(74)【代理人】
【識別番号】100101340
【弁理士】
【氏名又は名称】丸山 英一
(74)【代理人】
【識別番号】100205730
【弁理士】
【氏名又は名称】丸山 重輝
(74)【代理人】
【識別番号】100213551
【弁理士】
【氏名又は名称】丸山 智貴
(72)【発明者】
【氏名】リ チャオ
(72)【発明者】
【氏名】ウ ベング
(72)【発明者】
【氏名】ヂュ リン
【審査官】 岩田 淳
(56)【参考文献】
【文献】 特開2009−109712(JP,A)
【文献】 米国特許出願公開第2016/0284346(US,A1)
【文献】 米国特許出願公開第2016/0042739(US,A1)
【文献】 田中 章浩, 外4名,階層型ニューラルネットワークを用いた声紋による個人認証システムの構築,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,2008年 3月 5日,第107巻, 第542号,第427-431ページ
【文献】 花沢 健, 外1名,先読みモデル選択による性別非依存音声認識,日本音響学会2004年秋季研究発表会講演論文集−I−,日本,社団法人日本音響学会,2004年 9月21日,第197-198ページ
(58)【調査した分野】(Int.Cl.,DB名)
G10L 17/00−17/26
(57)【特許請求の範囲】
【請求項1】
性別を混合した深層ニューラルネットワークDNN声紋のベースラインシステムを利用して、訓練集合における各音声断片を前記ベースラインシステムに入力して取得された第1特徴ベクトルを抽出するステップと、
前記各音声断片の第1特徴ベクトル及び予め標識された性別タグに基づいて、性別分類器を訓練するステップと、
前記訓練集合における性別が異なる音声データに基づいて、男性DNNモデルと女性DNNモデルをそれぞれ訓練するステップと、
男性DNNモデルと女性DNNモデル、及び前記訓練集合における性別が異なる音声データに基づいて、性別が異なる統一背景モデルと、特徴ベクトル抽出モデルと、確率線形判別分析モデルとをそれぞれ訓練するステップと、を含む、
ことを特徴とする声紋認証処理方法。
【請求項2】
ユーザにより送信されたユーザ識別子を有する声紋登録要求を受信するステップと、
ユーザにより送信された声紋登録用の複数の音声断片を取得し、第1音声断片の第1特徴ベクトルを抽出し、前記性別分類器を利用して前記第1特徴ベクトルの性別タグを取得するステップと、
前記性別タグに対応する男性DNNモデルと女性DNNモデルとにおけるDNNモデルに基づいて、各音声断片の事後確率を取得するステップと、
前記性別タグに対応する統一背景モデル及び特徴ベクトル抽出モデルに基づいて、各音声第2特徴ベクトルをそれぞれ抽出するステップと、
前記複数の音声に対応する複数の第2特徴ベクトルに基づいて、前記ユーザの声紋登録モデルを取得するステップと、
前記ユーザ識別子と、前記性別タグと、前記声紋登録モデルとの対応関係を声紋登録データベースに記憶するステップと、をさらに含む、
ことを特徴とする請求項1に記載の方法。
【請求項3】
前記複数の音声に対応する複数の第2特徴ベクトルに基づいて、前記ユーザの声紋登録モデルを取得するステップは、
前記複数の第2特徴ベクトルの平均特徴ベクトルを、前記ユーザの声紋登録モデルとして取得するステップを含む、
ことを特徴とする請求項2に記載の方法。
【請求項4】
ユーザにより送信されたユーザ識別子を有する声紋認識要求を受信するステップと、
前記声紋登録データベースを照会し、前記ユーザ識別子に対応する性別タグ及び声紋登録モデルを取得するステップと、
ユーザにより送信された声紋認識用の音声を取得し、前記性別タグに対応する男性DNNモデルと女性DNNモデルとにおけるDNNモデルに基づいて、前記音声の事後確率を取得するステップと、
前記性別タグに対応する統一背景モデル及び特徴ベクトル抽出モデルを利用し、前記音声の第2特徴ベクトルを抽出するステップと、
前記性別タグに対応する確率線形判別分析モデルを利用して、前記音声の第2特徴ベクトルと前記声紋登録モデルとの類似度を比較するステップと、
前記類似度及び予め設置された閾値に基づいて、前記ユーザに声紋認識結果を返信するステップと、をさらに含む、
ことを特徴とする請求項2または3に記載の方法。
【請求項5】
前記類似度及び予め設置された閾値に基づいて、前記ユーザに声紋認識結果を返信するステップは、
前記類似度と予め設置された閾値の大きさとを比較するステップと、
前記類似度が予め設置された閾値以上であると確認された場合、声紋認識が成功されたと返信するステップと、
前記類似度が予め設置された閾値よりも小さいと確認された場合、声紋認識が失敗されたと返信するステップとを、含む、
ことを特徴とする請求項4に記載の方法。
【請求項6】
性別を混合した深層ニューラルネットワークDNN声紋のベースラインシステムを利用することにより、訓練集合における各音声断片を前記ベースラインシステムに入力して取得された第1特徴ベクトルを抽出する抽出モジュールと、
前記各音声断片の第1特徴ベクトル及び予め標識された性別タグに基づいて、性別分類器を訓練する生成モジュールと、
前記訓練集合における性別が異なる音声データに基づいて、男性DNNモデルと女性DNNモデルをそれぞれ訓練する第1訓練モジュールと、
男性DNNモデルと女性DNNモデル、及び前記訓練集合における性別が異なる音声データに基づいて、性別が異なる統一背景モデルと、特徴ベクトル抽出モデルと、確率線形判別分析モデルとをそれぞれ訓練する第2訓練モジュールと、を含む、
ことを特徴とする声紋認証処理装置。
【請求項7】
ユーザにより送信されたユーザ識別子を有する声紋登録要求を受信する第1受信モジュールと、
ユーザにより送信された声紋登録用の複数の音声断片を取得し、第1音声断片の第1特徴ベクトルを抽出し、前記性別分類器を利用して前記第1特徴ベクトルの性別タグを取得する性別標識モジュールと、
前記性別タグに対応する男性DNNモデルと女性DNNモデルとにおけるDNNモデルに基づいて、各音声断片の事後確率を取得し、前記性別タグに対応する統一背景モデル及び特徴ベクトル抽出モデルに基づいて、各音声の第2特徴ベクトルをそれぞれ抽出する第1処理モジュールと、
前記複数の音声に対応する複数の第2特徴ベクトルに基づいて、前記ユーザの声紋登録モデルを取得する取得モジュールと、
前記ユーザ識別子と、前記性別タグと、前記声紋登録モデルとの対応関係を声紋登録データベースに登録する登録モジュールと、
を更に含む、
ことを特徴とする請求項6に記載の装置。
【請求項8】
前記取得モジュールは、
前記複数の第2特徴ベクトルの平均特徴ベクトルを前記ユーザの声紋登録モデルとして取得する、
ことを特徴とする請求項7に記載の装置。
【請求項9】
ユーザにより送信されたユーザ識別子を有する声紋認識要求を受信する第2受信モジュールと、
前記声紋登録データベースを照会し、前記ユーザ識別子に対応する性別タグ及び声紋登録モデルを取得する照会モジュールと、
ユーザにより送信された声紋認識用の音声を取得し、前記性別タグに対応する男性DNNモデルと女性DNNモデルとにおけるDNNモデルに基づいて、前記音声の事後確率を取得し、前記性別タグに対応する統一背景モデル及び特徴ベクトル抽出モデルを利用して、前記音声の第2特徴ベクトルを抽出する第2処理モジュールと、
前記性別タグに対応する確率線形判別分析モデルを利用して、前記音声の第2特徴ベクトルと前記声紋登録モデルとの類似度を比較する比較モジュールと、
前記類似度及び予め設置された閾値に基づいて、前記ユーザに声紋認識結果を返信する認識モジュールと、
をさらに含む、
ことを特徴とする請求項7または8に記載の装置。
【請求項10】
前記認識モジュールは、
前記類似度と予め設置された閾値の大きさとを比較し、
前記類似度が予め設置された閾値以上であると確認できた場合、声紋認識が成功されたと返信し、
前記類似度が予め設置された閾値よりも小さいと確認できた場合、声紋認識が失敗されたと返信する、
ことを特徴とする請求項9に記載の装置。
【請求項11】
アプリケーションプログラムを記憶するための記憶媒体であって、
前記アプリケーションプログラムは、請求項1ないし5のいずれかに記載の声紋認証処理方法を実行するためのものである、
ことを特徴とする記憶媒体。
【請求項12】
一つ又は複数のプロセッサと、
メモリと、
前記メモリに格納される一つ又は複数のモジュールと、を含み、
前記一つ又は複数のモジュールが前記一つ又は複数のプロセッサにより実行される場合、
性別を混合した深層ニューラルネットワークDNN声紋ベースラインシステムを利用して、訓練集合における各音声断片を前記ベースラインシステムに入力して取得された第1特徴ベクトルを抽出するステップと、
前記各音声断片の第1特徴ベクトル及び予め標識された性別タグに基づいて、性別分類器を訓練するステップと、
前記訓練集合における性別が異なる音声データに基づいて、男性DNNモデルと女性DNNモデルをそれぞれ訓練するステップと、
男性DNNモデルと女性DNNモデル、及び前記訓練集合における性別が異なる音声データに基づいて、性別が異なる統一背景モデルと、特徴ベクトル抽出モデルと、確率線形判別分析モデルとをそれぞれ訓練するステップと、
を実行する、
ことを特徴とする声紋認証処理設備。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、声紋認証技術分野に関し、特に声紋認証処理方法及び装置に関する。
【背景技術】
【0002】
技術の不断の進歩に伴い、声紋認識(Voiceprint Recognition、VPR)技術の応用分野が広がってきている。
【0003】
声紋認識は、ある音声断片が特定の人により発話されたか否かを確認することができ、例えば、勤務をレコーダする時、又は銀行で取引する時、ユーザの声を確認する必要がある。声紋認識前に、先ず話者の声紋に対してモデリングを行う必要があり、これはいわゆる「訓練」又は「学習」過程である。
【0004】
現在の声紋認識の訓練過程は、共通のモデルで声紋の訓練及び認識を行い、精度が高くない。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の目的は、関連技術における一つの問題を少なくともある程度解決することにある。
【0006】
そのため、本発明の第一の目的は、声紋認証処理方法を提出することにあり、当該方法は、性別を区分する声紋認証処理モデルを構築することにより、声紋認証の効率及び精度を向上させる。
【0007】
本発明の第二の目的は、声紋認証処理装置を提供することにある。
【0008】
本発明の第三の目的は、記憶媒体を提供することにある。
【0009】
本発明の第四の目的は、声紋認証処理設備を提供することにある。
【課題を解決するための手段】
【0010】
上述の目的を達成するため、本発明の第一側面の実施例は、声紋認証処理方法を提出し、前記方法は、性別を混合した深層ニューラルネットワークDNN声紋ベースラインシステムを利用し、訓練集合における各音声断片の第1特徴ベクトルを抽出するステップと、前記各音声断片の第1特徴ベクトル及び予め標識された性別タグに基づいて、性別分類器を訓練するステップと、前記訓練集合における性別が異なる音声データに基づき、性別が異なるDNNモデルをそれぞれ訓練するステップと、性別が異なるDNNモデル及び前記訓練集合における性別が異なる音声データに基づき、性別が異なる統一背景モデルと、特徴ベクトル抽出モデルと、確率線形判別分析モデルとをそれぞれ訓練するステップとを含む。
【0011】
本発明の実施例の声紋認証処理方法は、性別を混合する深層ニューラルネットワークDNN声紋ベースラインシステムを利用することにより、訓練集合における各音声断片の第1特徴ベクトルを抽出し、前記各音声断片の第1特徴ベクトル及び予め標識された性別タグに基づいて、性別分類器を訓練し、前記訓練集合における性別が異なる音声データに基づき、性別が異なるDNNモデルをそれぞれ訓練し、性別が異なるDNNモデル及び前記訓練集合における性別が異なる音声データに基づき、性別が異なる統一背景モデルと、特徴ベクトル抽出モデルと、確率線形判別分析モデルとをそれぞれ訓練する。これにより、性別を区分する声紋認証処理モデルを構築し、声紋認証の効率及び精度を向上させる。
【0012】
上述の目的を達成するため、本発明の第二側面の実施例は、声紋認証処理装置を提出し、前記声紋認証処理装置は、性別を混合する深層ニューラルネットワークDNN声紋ベースラインシステムを利用することにより、訓練集合における各音声断片の第1特徴ベクトルを抽出するための、抽出モジュール、前記各音声断片の第1特徴ベクトル及び予め標識された性別タグに基づいて、性別分類器を訓練するための、生成モジュールと、前記訓練集合における性別が異なる音声データに基づき、性別が異なるDNNモデルをそれぞれ訓練するための、第1訓練モジュールと、性別が異なるDNNモデル及び前記訓練集合における性別が異なる音声データに基づき、性別が異なる統一背景モデルと、特徴ベクトル抽出モデルと、確率線形判別分析モデルとをそれぞれ訓練するための、第2訓練モジュールと、を含む。
【0013】
本発明の実施例の声紋認証処理装置は、性別を混合した深層ニューラルネットワークDNN声紋ベースラインシステムを利用することにより、訓練集合における各音声断片の第1特徴ベクトルを抽出し、前記各音声断片の第1特徴ベクトル及び予め標識された性別タグに基づいて、性別分類器を訓練し、前記訓練集合における性別が異なる音声データに基づき、性別が異なるDNNモデルをそれぞれ訓練し、性別が異なるDNNモデル及び前記訓練集合における性別が異なる音声データに基づき、性別が異なる統一背景モデルと、特徴ベクトル抽出モデルと、確率線形判別分析モデルとをそれぞれ訓練する。これにより、性別を区分する声紋認証処理モデルを構築し、声紋認証の効率及び精度を向上させる。
【0014】
上述の目的を実現するため、本発明の第三側面の実施例の記憶媒体は、アプリケーションを記憶するためのものであり、前記アプリケーションは、本発明の第一側面の実施例に記載の声紋認証処理方法を実行するためのものである。
【0015】
上述の目的を実現するため、本発明の第四側面の実施例の声紋認証処理設備は、一つ又は複数のプロセッサと、メモリと、一つ又は複数のモジュールとを備え、前記一つ又は複数のモジュールは、前記メモリに記憶され、前記一つ又は複数のプロセッサによって実行された時、以下の操作を行う。性別を混合した深層ニューラルネットワークDNN声紋ベースラインシステムを利用し、訓練集合における各音声断片の第1特徴ベクトルを抽出し、前記各音声断片の第1特徴ベクトル及び予め標識された性別タグに基づいて、性別分類器を訓練し、前記訓練集合における性別が異なる音声データに基づき、性別が異なるDNNモデルをそれぞれ訓練し、性別が異なるDNNモデル及び前記訓練集合における性別が異なる音声データに基づき、性別が異なる統一背景モデルと、特徴ベクトル抽出モデルと、確率線形判別分析モデルとをそれぞれ訓練する。
【図面の簡単な説明】
【0016】
本発明の上述および/または付加的な特徴と利点は、下記の添付図面を参照した実施形態に対する説明により、明らかになり、理解されることが容易になる。その中、
図1】本発明の一つの実施例の声紋認証処理方法のフローチャートである。
図2】性別分類器の生成概略図である。
図3】男性声紋認証処理モデルの生成概略図である。
図4】女性声紋認証処理モデルの生成概略図である。
図5】本発明のもう一つの実施例の声紋認証処理方法のフローチャートである。
図6】本発明のもう一つの実施例の声紋認証処理方法のフローチャートである。
図7】本発明の一つの実施例の声紋認証処理装置の構造概略図である。
図8】本発明のもう一つの実施例の声紋認証処理装置の構造概略図である。
図9】本発明のもう一つの実施例の声紋認証処理装置の構造概略図である。
【発明を実施するための形態】
【0017】
次に、図面に示された実施例について詳しく説明する。下記の記述で図面を引用するとき、別に表示がない限り、異なる図面の同じ数字は同じ要素、または類似的要素を示す。図面を参照しながら説明する下記の実施例は、本発明の解釈の例示であり、本発明を制限するものではない。
【0018】
次に、図面を参照して本発明の実施例の声紋認証処理方法及び装置を説明する。
【0019】
図1は、本発明の一つの実施例の声紋認証処理方法のフローチャートである。
【0020】
図1に示すように、当該声紋認証処理方法は、ステップ101とステップ102を含む。
【0021】
ステップ101は、性別を混合した深層ニューラルネットワーク(DNN:Deep Neural Network)声紋ベースラインシステムを利用し、訓練集合における各音声断片の第1特徴ベクトルを抽出する。
【0022】
ステップ102は、前記各音声断片の第1特徴ベクトル及び予め標識された性別タグに基づいて、性別分類器を訓練する。
【0023】
具体的に、性別を区分する声紋認証処理モデルを構築することを訓練するため、まず、性別を混合した深層ニューラルネットワークDNN声紋ベースラインシステムを利用し、性別を生成し、性別分類器を訓練することにより、性別分類器を訓練することで認識された、入力された声の性別を利用し、入力された声に対して性別タグを分配する。
【0024】
図2は、性別分類器の生成概略図であり、図2を参照して如何に性別を混合したDNN声紋ベースラインシステムを利用して性別分類器を生成することを説明し、具体的には、以下のよう作動する。
【0025】
複数の音声断片を含む訓練集合を予め設置し、訓練集合における各音声データのいずれにも、対応する性別情報が予め標識され、例えば、第1音声データが対応する性別は、男性データであり、第2音声データが対応する性別は、女性データである。
【0026】
訓練集合における各音声データを、性別を混合したDNN声紋ベースラインシステムに入力し、DNN声紋ベースラインシステムを利用して各音声データに対してデータ処理を行い、各音声に対応する第1特徴ベクトルを抽出する。
【0027】
さらに、各音声断片の第1特徴ベクトル及び予め標識された各音声の性別によって、性別分類器を訓練することにより、性別分類器を訓練することで認識された、入力された声の性別を利用し、入力された声に対して性別タグを分配する。
【0028】
ステップ103は、前記訓練集合における性別が異なる音声データに基づき、性別が異なるDNNモデルをそれぞれ訓練する。
【0029】
具体的に、訓練集合における性別が異なる音声データ及び予め設置された深層ニューラルネットワークアルゴリズムによって、性別が異なるDNNモデルをそれぞれ訓練し、即ち、男性DNNモデル及び女性DNNモデルをそれぞれ訓練する。
【0030】
その中、男性DNNモデルは、男性の音声データを受信し、当該男性音声データに対応する事後確率を出力するためのものであり、女性DNNモデルは、女性の音声データを受信し、当該女性音声データに対応する事後確率を出力するためのものである。
【0031】
ステップ104は、性別が異なるDNNモデル及び前記訓練集合における性別が異なる音声データに基づき、性別が異なる統一背景モデルと、特徴ベクトル抽出モデルと、確率線形判別分析モデルとをそれぞれ訓練する。
【0032】
具体的に、性別が異なるDNNモデル及び訓練集合における性別が異なる音声データに基づき、性別が異なる統一背景モデルと、特徴ベクトル抽出モデルと、確率線形判別分析モデルとをそれぞれ訓練する。
【0033】
その中、各モデルの機能に対する説明は、以下のようである。
統一背景モデルは、DNNモデルに出力された事後確率に対して正規化処理を行うためのものである。
特徴ベクトル抽出モデルは、DNNモデルに出力された事後確率及びユーザに入力された音声データを受信し、且つ予め設置されたアルゴリズムによって音声データの第2特徴ベクトルを抽出するためのものである。
確率線形判別分析モデルは、ユーザに入力された音声データの第2特徴ベクトルと予め記憶された声紋登録テンプレートとの類似度を比較するためのものである。
【0034】
図3は、男性声紋認証処理モデルの生成概略図であり、図3を参照し、具体的には、男性のDNNモデルを利用し、訓練集合における男性の音声データに対して処理を行い、事後確率を出力し、且つ出力された事後確率に対して正規化処理を行い、男性声紋認証処理モデルにおける統一背景モデルを訓練する。
【0035】
DNNモデルに出力された事後確率及び男性音声データを取得し、予め設置されたアルゴリズムによって、男性音声データの第2特徴ベクトルを抽出し、男性声紋認証処理モデルにおける特徴ベクトル抽出モデルを訓練する。
【0036】
男性音声データの第2特徴ベクトルと予め記憶された男性声紋登録テンプレートとの類似度を比較し、男性声紋認証処理モデルにおける確率線形判別分析モデルを訓練する。
【0037】
図4は、女性声紋認証処理モデルの生成概略図であり、図4を参照し、具体的には、女性のDNNモデルを利用し、訓練集合における女性の音声データに対して処理を行い、事後確率を出力し、かつ出力された事後確率に対して正規化処理を行い、女性声紋認証処理モデルにおける統一背景モデルを訓練する。
【0038】
DNNモデルに出力された事後確率及び女性音声データを取得し、予め設置されたアルゴリズムによって、女性音声データの第2特徴ベクトルを抽出し、女性声紋認証処理モデルにおける特徴ベクトル抽出モデルを訓練する。
【0039】
女性音声データの第2特徴ベクトルと予め記憶された女性声紋登録テンプレートとの類似度を比較し、女性声紋認証処理モデルにおける確率線形判別分析モデルを訓練する。
【0040】
本実施例の声紋認証処理方法は、性別を混合した深層ニューラルネットワークDNN声紋ベースラインシステムを利用し、訓練集合における各音声断片の第1特徴ベクトルを抽出し、前記各音声断片の第1特徴ベクトル及び予め標識された性別によって性別分類器を訓練し、前記訓練集合における性別が異なる音声データに基づき、性別が異なるDNNモデルをそれぞれ訓練し、性別が異なるDNNモデル及び前記訓練集合における性別が異なる音声データに基づき、性別が異なる統一背景モデルと、特徴ベクトル抽出モデルと、確率線形判別分析モデルとをそれぞれ訓練する。これにより、性別を区分する声紋認証処理モデルを構築し、声紋認証の効率及び精度を向上させる。
【0041】
図5は、本発明のもう一つの実施例の声紋認証処理方法のフローチャートである。
【0042】
図5を参照し、ステップ104の後、当該声紋認証処理方法は、声紋登録ステップ201〜ステップ206をさらに含む。
【0043】
ステップ201は、ユーザにより送信されたユーザ識別子を有する声紋登録要求を受信する。
【0044】
ステップ202は、ユーザにより送信された声紋登録用の複数の音声断片を取得し、第1音声断片の第1特徴ベクトルを抽出し、前記性別分類器を利用して前記第1特徴ベクトルの性別タグを取得する。
【0045】
具体的に、声紋認証を要求するユーザは、声紋認証処理モデルに声紋を予め登録する必要がある。まず、ユーザは声紋認証処理モデルに、ユーザ識別子を有する声紋登録要求を送信する必要がある。
【0046】
声紋認証処理モデルは、ユーザにより送信されたユーザ識別子を有する声紋登録要求を受信した後、ユーザに、音声の入力を提示する。ユーザは、声紋認証処理モデルに、声紋登録用の複数の音声断片を送信する。
【0047】
声紋認証処理モデルは、第1音声断片の第1特徴ベクトルを抽出し、かつ第1特徴ベクトルを予め生成された性別分類器に送信する。性別分類器は、第1特徴ベクトルに対して分析を行い、前記第1特徴ベクトルの性別タグ、即ち第1音声の性別タグを取得する。
【0048】
ステップ203は、前記性別タグに対応するDNNモデルに基づいて各音声断片の事後確率を取得する。
【0049】
ステップ204は、前記性別タグに対応する統一背景モデル及び特徴ベクトル抽出モデルに基づいて、各音声断片の第2特徴ベクトルをそれぞれ抽出する。
【0050】
ステップ205は、前記複数の音声断片に対応する複数の第2特徴ベクトルに基づいて、前記ユーザの声紋登録モデルを取得する。
【0051】
ステップ206は、前記ユーザ識別子と、前記性別タグと、前記声紋登録モデルとの対応関係を声紋登録データベースに記憶する。
【0052】
具体的に、性別分類器により返信された、第1音声に対応する性別タグに基づいて、ユーザに入力された複数の音声断片を、対応する性別のDNNモデルに送信する。即ち、第1音声が対応するのは男性音声である場合に、複数の音声断片を男性DNNモデルに送信する。第1音声が対応するのは女性音声である場合に、複数の音声断片を女性DNNモデルに送信する。
【0053】
性別タグに対応するDNNモデルに基づいて、各音声が対応する複数の事後確率を取得する。
【0054】
性別タグに対応する統一背景モデルによって、各事後確率に対して正規化処理を行い、予め訓練された特徴ベクトル抽出モデルを利用し、各音声、及び対応する正規化された事後確率によって、各音声断片の第2特徴ベクトルをそれぞれ抽出する。
【0055】
前記複数の音声断片に対応する複数の第2特徴ベクトルに基づいて、前記ユーザの声紋登録モデルを取得し、取得方法が多くあり、異なる応用要求に応じて選択することができ、例えば、複数の第2特徴ベクトルの平均特徴ベクトルを前記ユーザの声紋登録モデルとして取得する。
【0056】
さらに、ユーザが登録を要求するユーザ識別子、当該ユーザの性別タグ、及び声紋登録モデルの対応関係を、声紋登録データベースに記録することにより、以後に当該声紋登録モデルによって声紋認識を行うようになる。
【0057】
本実施例の声紋認証処理方法は、まず、性別分類器を利用してユーザに入力された第1音声の性別タグを取得し、性別タグに対応するDNNモデルに基づいて、各音声断片の事後確率を取得し、前記性別タグに対応する統一背景モデル及び特徴ベクトル抽出モデルに基づいて、各音声断片の第2特徴ベクトルをそれぞれ抽出し、複数の第2特徴ベクトルに基づいて、前記ユーザの声紋登録モデルを取得し、前記ユーザ識別子と、前記性別タグと、及び前記声紋登録モデルとの対応関係を声紋登録データベースに登録する。これにより、性別を区分する声紋登録過程を実現し、これにより、性別を区分する声紋認証処理モデルを利用し、声紋認証の効率及び精度を向上させる。
【0058】
図6は、本発明のもう一つの実施例の声紋認証処理方法のフローチャートである。
【0059】
図6を参照し、当該声紋認証処理方法は、ステップ301〜ステップ306を含む。
【0060】
ステップ301は、ユーザにより送信されたユーザ識別子を有する声紋認識要求を受信する。
【0061】
ステップ302は、前記声紋登録データベースを照会し、前記ユーザ識別子に対応する性別タグ及び声紋登録モデルを取得する。
【0062】
具体的に、声紋認識を要求するユーザは、声紋認証処理モデルにユーザ識別子を入力し、かつユーザ識別子を有する声紋認識要求を送信する必要がある。
【0063】
ユーザにより送信された声紋認識要求に対して解析を行い、ユーザ識別子を取得し、前記声紋登録データベースを照会し、前記ユーザ識別子に対応する性別タグ及び声紋登録モデルを取得し、これにより、当該ユーザの性別タグ及び声紋登録モデルを取得する。
【0064】
ステップ303は、ユーザにより送信された声紋認識用の音声を取得し、前記性別タグに対応するDNNモデルに基づいて、前記音声の事後確率を取得する。
【0065】
具体的に、ユーザにより送信された声紋認識用の音声を取得し、当該音声をユーザの性別タグに対応するDNNモデルに送信し、DNNモデルは、当該音声に処理を行い、当該音声の事後確率を取得する。
【0066】
ステップ304は、前記性別タグに対応する統一背景モデル及び特徴ベクトル抽出モデルを利用し、前記音声の第2特徴ベクトルを抽出する。
【0067】
具体的に、当該音声の事後確率を、前記性別タグに対応する統一背景モデルに送信する。統一背景モデルは、各事後確率に対して正規化処理を行い、予め訓練された特徴ベクトル抽出モデルを利用し、当該音声、及び対応する正規化された事後確率によって、当該音声の第2特徴ベクトルを抽出する。
【0068】
ステップ305は、前記性別タグに対応する確率線形判別分析モデルを利用し、前記音声の第2特徴ベクトルと前記声紋登録モデルとの類似度を比較する。
【0069】
ステップ306は、前記類似度及び予め設置された閾値に基づいて、前記ユーザに声紋認識結果を返信する。
【0070】
具体的に、当該音声の第2特徴ベクトルを、性別タグに対応する確率線形判別分析モデルに送信し、確率線形判別分析モデルは、当該音声の第2特徴ベクトルと予め記憶された当該ユーザの声紋登録モデルとの類似度を比較する。
【0071】
前記類似度と予め設置された閾値の大きさとを比較する。
【0072】
前記類似度が予め設置された閾値以上であると確認された場合、声紋認識が成功されたと返信する。
【0073】
前記類似度が予め設置された閾値よりも小さいと確認された場合、声紋認識が失敗されたと返信する。
【0074】
本実施例の声紋認証処理方法は、まず、声紋登録データベースを照会し、ユーザ識別子に対応する性別タグ及び声紋登録モデルを取得し、性別タグに対応する統一背景モデル及び特徴ベクトル抽出モデルを利用し、音声の第2特徴ベクトルを抽出し、確率線形判別分析モデルを応用し、音声の第2特徴ベクトルと声紋登録モデルとの類似度を比較し、前記類似度及び予め設置された閾値に基づいて、前記ユーザに声紋認識結果を返信する。これにより、性別を区分する声紋認証過程を実現し、声紋認証の効率及び精度を向上させる。
【0075】
上述の実施例を実現するため、本発明は、さらに声紋認証処理装置を提出する。
【0076】
図7は、本発明の一つの実施例の声紋認証処理装置の構造概略図である。
【0077】
図7に示すように、当該声紋認証処理装置は、抽出モジュール11と、生成モジュール12と、第1訓練モジュール13と、第2訓練モジュール14と、を含む。
【0078】
抽出モジュール11は、性別を混合した深層ニューラルネットワークDNN声紋ベースラインシステムを利用し、セットにおける各音声断片の第1特徴ベクトルを抽出するためのものである。
【0079】
生成モジュール12は、前記各音声断片の第1特徴ベクトル及び予め標識された性別タグに基づいて、性別分類器を訓練するためのものである。
【0080】
第1訓練モジュール13は、前記訓練集合における性別が異なる音声データに基づき、性別が異なるDNNモデルをそれぞれ訓練するためのものである。
【0081】
第2訓練モジュール14は、性別が異なるDNNモデル及び前記訓練集合における性別が異なる音声データに基づき、性別が異なる統一背景モデルと、特徴ベクトル抽出モデルと、確率線形判別分析モデルとをそれぞれ訓練するためのものである。
【0082】
なお、前述声紋認証処理方法実施例に対する説明は、当該実施例の声紋認証処理装置にも利用するので、ここで説明を省略する。
【0083】
本発明実施例の声紋認証処理装置は、性別を混合した深層ニューラルネットワークDNN声紋ベースラインシステムを利用し、訓練集合における各音声断片の第1特徴ベクトルを抽出し、前記各音声断片の第1特徴ベクトル及び予め標識された性別タグに基づいて、性別分類器を訓練し、前記訓練集合における性別が異なる音声データに基づき、性別が異なるDNNモデルをそれぞれ訓練し、性別が異なるDNNモデル及び前記訓練集合における性別が異なる音声データに基づき、性別が異なる統一背景モデルと、特徴ベクトル抽出モデルと、確率線形判別分析モデルとをそれぞれ訓練する。これにより、性別を区分する声紋認証処理モデルを構築し、声紋認証の効率及び精度を向上させる。
【0084】
図8は、本発明のもう一つの実施例の声紋認証処理装置の構造概略図であり、図8に示すように、図7に示す実施例に基づき、第1受信モジュール15と、性別標識モジュール16と、第1処理モジュール17と、取得モジュール18と、登録モジュール19と、をさらに含む。
【0085】
第1受信モジュール15は、ユーザにより送信されたユーザ識別子を有する声紋登録要求を受信するためのものである。
【0086】
性別標識モジュール16は、ユーザにより送信された声紋登録用の複数の音声断片を取得し、第1音声断片の第1特徴ベクトルを抽出し、前記性別分類器を利用して前記第1特徴ベクトルの性別タグを取得するためのものである。
【0087】
第1処理モジュール17は、前記性別タグに対応するDNNモデルに基づいて、各音声断片の事後確率を取得し、前記性別タグに対応する統一背景モデル及び特徴ベクトル抽出モデルに基づいて、各音声断片の第2特徴ベクトルをそれぞれ抽出するためのものである。
【0088】
取得モジュール18は、前記複数の音声断片に対応する複数の第2特徴ベクトルに基づいて、前記ユーザの声紋登録モデルを取得するためのものである。
【0089】
登録モジュール19は、前記ユーザ識別子と、前記性別タグと、前記声紋登録モデルとの対応関係を声紋登録データベースに登録するためのものである。
【0090】
一つの実施例において、前記取得モジュール18は、
前記複数の第2特徴ベクトルの平均特徴ベクトルを前記ユーザの声紋登録モデルとして取得するためのものである。
【0091】
なお、前述声紋認証処理方法実施例に対する説明は、当該実施例の声紋認証処理装置にも利用するので、ここで説明を省略する。
【0092】
本発明の実施例の声紋認証処理装置は、まず、性別分類器を利用してユーザに入力された第1音声の性別タグを取得し、性別タグに対応するDNNモデルに基づいて、各音声断片の事後確率を取得し、前記性別タグに対応する統一背景モデル及び特徴ベクトル抽出モデルに基づいて、各音声断片の第2特徴ベクトルをそれぞれ抽出し、複数の第2特徴ベクトルに基づいて、前記ユーザの声紋登録モデルを取得し、前記ユーザ識別子と、前記性別タグと、及び前記声紋登録モデルとの対応関係を声紋登録データベースに記録する。これにより、性別を区分する声紋登録過程を実現し、性別を区分する声紋認証処理モデルを利用し、声紋認証の効率及び精度を向上させる。
【0093】
図9は、本発明のもう一つの実施例の声紋認証処理装置の構造概略図であり、図9に示すように、図8に示す実施例に基づき、第2受信モジュール20と、照会モジュール21と、第2処理モジュール22と、比較モジュール23と、認識モジュール(識別モジュール)24と、をさらに含む。
【0094】
第2受信モジュール20は、ユーザにより送信されたユーザ識別子を有する声紋認識要求を受信するためのものである。
【0095】
照会モジュール21は、前記声紋登録データベースを照会し、前記ユーザ識別子に対応する性別タグ及び声紋登録モデルを取得するためのものである。
【0096】
第2処理モジュール22は、ユーザにより送信された声紋認識用の音声を取得し、前記性別タグに対応するDNNモデルに基づいて、前記音声の事後確率を取得し、前記性別タグに対応する統一背景モデル及び特徴ベクトル抽出モデルを利用し、前記音声の第2特徴ベクトルを抽出するためのものである。
【0097】
比較モジュール23は、前記性別タグに対応する確率線形判別分析モデルを利用し、前記音声の第2特徴ベクトルと前記声紋登録モデルとの類似度を比較するためのものである。
【0098】
認識モジュール24は、前記類似度及び予め設置された閾値に基づいて、前記ユーザに声紋認識結果を返信するためのものである。
【0099】
その中、前記認識モジュール24は、
前記類似度と予め設置された閾値の大きさとを比較し、
前記類似度が予め設置された閾値以上であると確認された場合、声紋認識が成功されたと返信し、
前記類似度が予め設置された閾値よりも小さいと確認された場合、声紋認識が失敗されたと返信する。
【0100】
なお、前述声紋認証処理方法実施例に対する説明は、当該実施例の声紋認証処理装置にも利用するので、ここで説明を省略する。
【0101】
本発明の実施例の声紋認証処理装置は、まず、声紋登録データベースを照会し、ユーザ識別子に対応する性別タグ及び声紋登録モデルを取得し、性別タグに対応する統一背景モデル及び特徴ベクトル抽出モデルを利用し、音声の第2特徴ベクトルを抽出し、確率線形判別分析モデルを利用し、音声の第2特徴ベクトルと声紋登録モデルとの類似度を比較し、前記類似度及び予め設置された閾値に基づいて、前記ユーザに声紋認識結果を返信する。これにより、性別を区分する声紋認証過程を実現し、声紋認証の効率及び精度を向上させる。
【0102】
上述の実施例を実現するため、本発明の第三側面の実施例の記憶媒体は、アプリケーション(アプリケーションプログラム)を記憶するためのものであり、前記アプリケーションは、本発明の第一側面の実施例に記載の声紋認証処理方法を実行するためのものである。
【0103】
上述の実施例を実現するため、本発明の第四側面の実施例の声紋認証処理設備は、一つ又は複数のプロセッサと、メモリと、一つ又は複数のモジュールとを備え、前記一つ又は複数のモジュールは、前記メモリに記憶(格納)され、前記一つ又は複数のプロセッサにより実行される時、操作S101’と、S102’と、S103’と、S104’とを実行する。
【0104】
S101’は、性別を混合した深層ニューラルネットワークDNN声紋ベースラインシステムを利用し、訓練集合における各音声断片の第1特徴ベクトルを抽出する。
【0105】
S102’は、各音声断片の第1特徴ベクトル及び予め標識された性別タグに基づいて、性別分類器を訓練する。
【0106】
S103’は、訓練集合における性別が異なる音声データに基づき、性別が異なるDNNモデルをそれぞれ訓練する。
【0107】
S104’は、性別が異なるDNNモデル及び訓練集合における性別が異なる音声データに基づき、性別が異なる統一背景モデルと、特徴ベクトル抽出モデルと、確率線形判別分析モデルとをそれぞれ訓練する。
【0108】
本発明の説明において、「一つの実施形態」、「一部の実施形態」、「例示的な実施形態」、「示例」、「具体的な示例」、或いは「一部の示例」などの用語を参考した説明とは、該実施形態或いは示例に結合して説明された具体的な特徴、構成、材料或いは特徴が、本発明の少なくとも一つの実施形態或いは示例に含まれることである。本明細書において、上記用語に対する例示的な描写は、必ずしも同じ実施形態或いは示例を示すことではない。又、説明された具体的な特徴、構成、材料或いは特徴は、いずれか一つ或いは複数の実施形態又は示例において適切に結合することができる。
【0109】
なお、「第1」、「第2」の用語は目的を説明するためだけに用いられるものであり、比較的な重要性を指示又は暗示するか、或いは示された技術的特徴の数を黙示的に指示すると理解してはいけない。そこで、「第1」、「第2」が限定されている特徴は一つ又はより多くの前記特徴を含むことを明示又は暗示するものである。本発明の説明において、明確且つ具体的な限定がない限り、「複数」とは、二つ又は二つ以上のことを意味する。
【0110】
フローチャートまたは他の方式で説明した過程や方法は、一つまたは複数の、判定ロジック性能または過程のステップの実行できるコマンドのコードのモジュール、セクターあるいは部分を含む。本発明の望ましい実施方式の範囲は、他の実現を含み、表示または説明の順序に従わなくてもよい。述べられた機能に基づいて基本的に同様な方式または逆の順序で、その機能を実行することができる。これは、本発明実施例の所属技術領域の技術者に理解される。
【0111】
フローチャートの中で示し又は本明細書に他の方法で記載したロジック及び/又はステップは、例えば論理機能を実施するのに使用される実行可能命令のシーケンスリストと見なすことができ、とりわけ使用する命令実行システム、装置、又はデバイス(コンピュータベースのシステム、プロセッサを含むシステム、命令実行システム、装置、又はデバイスから命令を抽出し、その命令を実行することができる他のシステム等)用の任意のコンピュータ可読媒体の中に実装することができ、又はこれらの命令実行システム、装置、若しくはデバイスと組み合わせて使用される。この説明では、「コンピュータ可読媒体」は、使用する命令実行システム、装置、又はデバイス用のプログラムを含む、記憶する、伝える、伝搬する、又は伝送することができる任意の装置、又はこれらの命令実行システム、装置、若しくはデバイスと組み合わせて使用される任意の装置であり得る。コンピュータ可読媒体のより具体的な例(非網羅的一覧)には、1つ又は複数の配線を有する電気接続部(電子装置)、携帯型コンピュータディスクボックス(磁気装置)、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去及びプログラム可能読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ装置、及び携帯型CD読み取り専用メモリ(CDROM)が含まれる。
【0112】
また、本発明の各部分は、ハードウェア、ソフトウェア、部品またはそれらの組み合わせで実現できる。前記実施例には、複数のステップまたは方法がメモリに保存され、適当なコマンド実行システムのソフトウェアまたは部品で実現される。たとえば、ハードウェアで実現する場合、他の実施方式と同じように、本技術分野で周知の下記の任意の一つまたはそれらの組み合わせで実現できる。すなわち、デジタル信号に対してロジック機能を実現するロジックゲート回路を有する個別のロジック回路、ロジックゲート回路を組み合わせた適当な専用IC、プログラマブルゲートアレイ(Programmable Gate Array、以下、PGAと略す)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array、以下、FPGAと略す)などである。
【0113】
前記実施例の方法にある全部または一部のステップがプログラムにより関連のハードウェアを実行することで完成されることは、当業者に理解される。前記プログラムは一つの計算機の読み出し書き込み可能な記憶メディアに記憶される。当プログラムを実行するとき、実施例に記載した方法のステップの一つまたはそれらの組み合わせを含む。
【0114】
なお、本発明の各実施例の各機能モジュールを一つの処理モジュールに集中し、または、単独に存在し、あるいは、二つまたは二つ以上のモジュールを一つの処理モジュールに集中することができる。前記集成したモジュールは、ハードウェアの形式、または、ソフトウェアの形式で実現される。前記集成したモジュールは、ソフトウェアの形式で実現し、また、独立の製品として販売や使用するとき、計算機の読み出し書き込み可能な記憶メディアに記憶されることができる。
【0115】
以上本発明の実施形態を示して説明したが、上記の実施形態は例示的なものであり、本発明を制限するように解釈すべきではないことは当業者にとって理解できることである。本発明の原理と要旨から逸脱しない範囲で、これらの実施形態に対し様々な変更、修正、置換および変形をすることができる。
図1
図2
図3
図4
図5
図6
図7
図8
図9