IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッドの特許一覧

特許7221258声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体
<>
  • 特許-声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体 図1
  • 特許-声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体 図2
  • 特許-声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体 図3
  • 特許-声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体 図4
  • 特許-声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体 図5
  • 特許-声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体 図6
  • 特許-声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体 図7
  • 特許-声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-02-03
(45)【発行日】2023-02-13
(54)【発明の名称】声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体
(51)【国際特許分類】
   G10L 17/00 20130101AFI20230206BHJP
   G10L 25/51 20130101ALI20230206BHJP
   G10L 25/30 20130101ALI20230206BHJP
   G10L 17/04 20130101ALI20230206BHJP
   G10L 17/18 20130101ALI20230206BHJP
   G06N 3/02 20060101ALI20230206BHJP
【FI】
G10L17/00 200C
G10L25/51
G10L25/30
G10L17/04
G10L17/18
G06N3/02
【請求項の数】 16
(21)【出願番号】P 2020156101
(22)【出願日】2020-09-17
(65)【公開番号】P2021173987
(43)【公開日】2021-11-01
【審査請求日】2020-09-17
(31)【優先権主張番号】202010324112.8
(32)【優先日】2020-04-22
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】520274253
【氏名又は名称】ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド
(74)【代理人】
【識別番号】100107489
【弁理士】
【氏名又は名称】大塩 竹志
(72)【発明者】
【氏名】ツァイ グオドゥ
(72)【発明者】
【氏名】ワン シン
(72)【発明者】
【氏名】ワン イーフェン
【審査官】佐久 聖子
(56)【参考文献】
【文献】特開2019-185605(JP,A)
【文献】特表2019-522810(JP,A)
【文献】特開2021-117245(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 17/00-17/26
G10L 25/51
G10L 25/30
G06N 3/02
(57)【特許請求の範囲】
【請求項1】
声紋抽出モデルを訓練する方法であって、前記声紋抽出モデルは、ニューラルネットワークモデルであり、前記方法は、
T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築することであって、Tが2以上の正整数である、ことと、
前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、
前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定することと
を含み、
前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である、方法。
【請求項2】
前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することは、
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報及びチャネル雑音情報を取得することと、
前記声紋特徴情報及びチャネル雑音情報に基づいて、前記差異損失関数を算出することと
を含む、請求項1に記載の方法。
【請求項3】
前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することは、
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報を取得することと、
前記声紋特徴情報を処理することによって、前記声紋特徴情報と所属チャネルとの関連性を除去することと、
処理された声紋特徴情報を前記ニューラルネットワークモデルのドメイン分類器に入力することと、
前記ドメイン分類器によって、前記処理された声紋特徴情報が前記T個の装置の中の各装置に属するか否かの分類結果を決定し、前記ニューラルネットワークモデルによって、前記分類結果の正確率を決定し、前記分類結果と、前記ニューラルネットワークモデルから出力された前記分類結果の正確率とに基づいて、前記類似損失関数を取得することと
を含む、請求項1に記載の方法。
【請求項4】
前記声紋特徴情報を処理することによって、前記声紋特徴情報と所属チャネルとの関連性を除去することは、勾配反転により、前記声紋特徴情報を処理することを含む、請求項3に記載の方法。
【請求項5】
声紋を認識する方法であって、前記方法は、請求項1~4のいずれか1項に記載の声紋抽出モデルを訓練する方法で訓練された声紋抽出モデルを利用し、前記方法は、
ユーザに対して声紋認識する時に、前記ユーザのユーザ情報を取得することと、
訓練された声紋抽出モデルが設けられた音声取得装置により、前記ユーザの音声を取得することと、
前記訓練された声紋抽出モデルにより、前記ユーザの音声に対して声紋抽出を行い、それによって、前記ユーザの識別しようとする声紋特徴を取得することと、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得することと、
前記ユーザの声紋特徴及び前記識別しようとする声紋特徴に基づいて、前記ユーザに対して声紋認識を行うことと
を含む、方法。
【請求項6】
ユーザに対して声紋認識する前に、前記方法は、
前記音声取得装置により、前記ユーザの音声を取得することと、
前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定することと、
決定された前記声紋特徴と前記ユーザ情報との対応関係をメモリに記憶することと
を更に含み、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得することは、前記ユーザ情報に基づいて、前記メモリから前記ユーザの声紋特徴を取得することを含む、請求項5に記載の方法。
【請求項7】
声紋抽出モデルを訓練する装置であって、ニューラルネットワークモデルに適用され、前記装置は、
T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築するように構成される音声取得モジュールであって、Tが2以上の正整数である、音声取得モジュールと、
前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練するように構成される訓練モジュールと、
前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得するように構成される損失関数取得モジュールと、
前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定するように構成される訓練完了判定モジュールと
を備え、
前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である、装置。
【請求項8】
前記損失関数取得モジュールは、
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報及びチャネル雑音情報を取得することと、
前記声紋特徴情報及びチャネル雑音情報に基づいて、前記差異損失関数を算出することと
を行うように更に構成される、請求項7に記載の装置。
【請求項9】
前記損失関数取得モジュールは、
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報を取得することと、
前記声紋特徴情報を処理することによって、前記声紋特徴情報と所属チャネルとの関連性を除去することと、
処理された声紋特徴情報を前記ニューラルネットワークモデルのドメイン分類器に入力することと、
前記ドメイン分類器によって、前記処理された声紋特徴情報が前記T個の装置の中の各装置に属するか否かの分類結果を決定し、前記ニューラルネットワークモデルによって、前記分類結果の正確率を決定し、前記分類結果と、前記ニューラルネットワークモデルから出力された前記分類結果の正確率とに基づいて、前記類似損失関数を取得することと
を行うように更に構成される、請求項7に記載の装置。
【請求項10】
前記損失関数取得モジュールは、勾配反転により、前記声紋特徴情報を処理することによって、前記声紋特徴情報と所属チャネルとの関連性を除去するように更に構成される、
請求項9に記載の装置。
【請求項11】
声紋を認識する装置であって、
ユーザに対して声紋認識する時に、前記ユーザの音声を取得するように構成される、請求項7~10いずれか1項に記載の訓練された声紋抽出モデルが設けられた音声取得装置と、
前記訓練された声紋抽出モデルにより、前記ユーザの音声に対して声紋抽出を行い、それによって、前記ユーザの識別しようとする声紋特徴を取得するように構成される第1声紋取得モジュールと、
前記ユーザに対して声紋認識の時に、ユーザ情報を取得するように構成される情報取得モジュールと、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得するように構成される第2声紋取得モジュールと、
前記ユーザの声紋特徴及び前記識別しようとする声紋特徴に基づいて、前記ユーザに対して声紋認識を行うように構成される認識モジュールと
を備える、装置。
【請求項12】
前記音声取得装置は、ユーザに対して声紋認識する前に、前記ユーザの音声を取得するように更に構成され、
前記装置は、
前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定するように構成される関係決定モジュールと、
決定された前記声紋特徴と前記ユーザ情報との対応関係をメモリに記憶するように構成される記憶モジュールと
を更に備え、
前記声紋取得モジュールは、前記ユーザ情報に基づいて、前記メモリから前記ユーザの声紋特徴を取得するように更に構成される、請求項11に記載の装置。
【請求項13】
声紋を認識する装置であって、
プロセッサと
プロセッサによる実行可能な命令を記憶するためのメモリと
を備え、
前記プロセッサは、前記実行可能な命令を実行すると、
T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築することであって、Tが2以上の正整数である、ことと、
前記訓練データ集合をニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、
前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定することと
を実現させるように構成され、
前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である、装置。
【請求項14】
非一時的なコンピュータ読み取り可能な記憶媒体であって、前記記憶媒体における命令は、装置のプロセッサによって実行されると、声紋を認識する方法を実行することを前記装置に行わせ、前記方法は、
T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築することであって、Tが2以上の正整数である、ことと、
前記訓練データ集合をューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、
前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定することと
を含み、
前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である、非一時的なコンピュータ読み取り可能な記憶媒体。
【請求項15】
声紋抽出モデルを訓練する装置であって、
プロセッサと、
プロセッサによる実行可能な命令を記憶するためのメモリと
を備え、
前記プロセッサは、前記実行可能な命令を実行すると、
ユーザに対して声紋認識する時に、前記ユーザのユーザ情報を取得することと、
訓練された声紋抽出モデルが設けられた音声取得装置により、前記ユーザの音声を取得することであって、前記訓練された声紋抽出モデルは、請求項1~4のいずれか1項に記載の声紋抽出モデルを訓練する方法で訓練されたものである、ことと、
前記訓練された声紋抽出モデルにより、前記ユーザの音声に対して声紋抽出を行い、それによって、前記ユーザの識別しようとする声紋特徴を取得することと、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得することと、
前記ユーザの声紋特徴及び前記識別しようとする声紋特徴に基づいて、前記ユーザに対して声紋認識を行うことと
を実現するように構成される、装置。
【請求項16】
非一時的なコンピュータ読み取り可能な記憶媒体であって、前記記憶媒体における命令は、装置のプロセッサによって実行されると、声紋抽出モデルを訓練する方法を実行することを前記装置に行わせ、前記方法は、
ユーザに対して声紋認識する時に、前記ユーザのユーザ情報を取得することと、
訓練された声紋抽出モデルが設けられた音声取得装置により、前記ユーザの音声を取得することであって、前記訓練された声紋抽出モデルは、請求項1~4のいずれか1項に記載の声紋抽出モデルを訓練する方法で訓練されたものである、ことと、
前記訓練された声紋抽出モデルにより、前記ユーザの音声に対して声紋抽出を行い、それによって、前記ユーザの識別しようとする声紋特徴を取得することと、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得することと、
前記ユーザの声紋特徴及び前記識別しようとする声紋特徴に基づいて、前記ユーザに対して声紋認識を行うことと
を含む、非一時的なコンピュータ読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本出願は、2020年4月22日付の中国特許出願第2020103241128号に基づく優先権を主張するものであり、該中国特許出願の全内容を参照として本出願に援用する。
【0002】
本出願は、声紋処理技術分野に関し、特に声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体に関する。
【背景技術】
【0003】
音声技術の継続的な進歩に伴い、声紋認識は、生体認証技術として、種々のインテリジェント機器に適用されつつある。声紋推薦システム、声紋ロッキング機能、声紋支払い等はよく知られている。音声には、一般的にチャネル情報、環境雑音情報及び話者情報が含まれているが、声紋認識技術にとって、話者情報のみが必要である。しかしながら、これらの情報の完全な分離は困難であるため、現在の声紋認識システムは、チャネルによる影響が大きいである。異なる録音装置が異なるチャネル情報を取り入れているため、異なる装置の間での適用は、効果が低い。
【0004】
話者情報(即ち、話者の声紋特徴)と種々の雑音情報を好適に分離するための方法が望まれている。
【発明の概要】
【発明が解決しようとする課題】
【0005】
関連技術における課題を解決するために、本出願は、声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体を提供する。
【課題を解決するための手段】
【0006】
本出願の実施例の第1態様によれば、声紋抽出モデル訓練方法を提供する。前記声紋抽出モデルは、ニューラルネットワークモデルであり、前記方法は、
T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であることと、
前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、
前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定することとを含み、
前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である。
【0007】
ここで、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することは、
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報及びチャネル雑音情報を取得することと、
前記声紋特徴情報及びチャネル雑音情報に基づいて、前記差異損失関数を算出することとを含む。
【0008】
ここで、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することは、
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報を取得することと、
前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去することと、
処理された声紋特徴情報を前記ニューラルネットワークモデルのドメイン分類器に入力することと、
前記ドメイン分類器の分類結果と、前記ニューラルネットワークモデルから出力された分類の正確率とに基づいて、前記類似損失関数を取得することとを含む。
【0009】
ここで、前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去することは、
勾配反転により、前記声紋特徴情報を処理することを含む。
【0010】
本出願の第2態様によれば、声紋認識方法を提供する。前記方法は、上記声紋抽出モデル訓練方法で訓練された声紋抽出モデルを利用し、前記方法は、
訓練された声紋抽出モデルが設けられた音声取得装置により、ユーザの音声を取得することと、
前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定することと、
前記ユーザに対して声紋認識の時に、ユーザ情報を取得することと、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得することと、
前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行うこととを含む。
【0011】
ここで、前記方法は、
決定された前記声紋特徴と前記ユーザ情報との対応関係をメモリに記憶することを更に含み、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得することは、
前記ユーザ情報に基づいて、前記メモリから、前記ユーザの声紋特徴を取得することを含む。
【0012】
本出願の実施例の第3態様によれば、声紋抽出モデル訓練装置を提供する。前記装置は、ニューラルネットワークモデルに適用され、前記装置は、
T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であるように構成される音声取得モジュールと、
前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練するように構成される訓練モジュールと、
前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得するように構成される損失関数取得モジュールと、
前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定するように構成される訓練完了判定モジュールとを備え、
前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である。
【0013】
ここで、前記損失関数取得モジュールは更に、
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報及びチャネル雑音情報を取得し、
前記声紋特徴情報及びチャネル雑音情報に基づいて、前記差異損失関数を算出するように構成される。
【0014】
ここで、前記損失関数取得モジュールは更に、
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報を取得し、
前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去し、
処理された声紋特徴情報を前記ニューラルネットワークモデルのドメイン分類器に入力し、
前記ドメイン分類器の分類結果と、前記ニューラルネットワークモデルから出力された分類の正確率とに基づいて、前記類似損失関数を取得するように構成される。
【0015】
ここで、前記損失関数取得モジュールは更に、
勾配反転により、前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去するように構成される。
【0016】
本出願の実施例の第4態様によれば、声紋認識装置を提供する。前記装置は、
ユーザの音声を取得するように構成される、上記訓練された声紋抽出モデルが設けられた音声取得装置と、
前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定するように構成される関係決定モジュールと、
前記ユーザに対して声紋認識の時に、ユーザ情報を取得するように構成される情報取得モジュールと、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得するように構成される声紋取得モジュールと、
前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行うように構成される認識モジュールとを備える。
【0017】
ここで、前記装置は、
決定された前記声紋特徴と前記ユーザ情報との対応関係をメモリに記憶するように構成される記憶モジュールを更に備え、
前記声紋取得モジュールは更に、前記ユーザ情報に基づいて、前記メモリから、前記ユーザの声紋特徴を取得するように構成される。
【0018】
本出願の第5態様によれば、声紋認識装置を提供する。該装置は、
プロセッサと
プロセッサによる実行可能な命令を記憶するためのメモリとを備え、
前記プロセッサは、前記実行可能な命令を実行する時、
T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であることと、
前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、
前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定することとを実現させるように構成され、
前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である。
【0019】
本出願の実施例の第6態様によれば、非一時的コンピュータ可読記憶媒体を提供する。前記記憶媒体における命令が装置のプロセッサにより実行される時、装置に声紋認識方法を実行させ、前記方法は、
T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であることと、
前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、
前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定することとを含み、
前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である。
【0020】
本出願の第7態様によれば、声紋抽出モデル訓練装置を提供する。該装置は、
プロセッサと、
プロセッサによる実行可能な命令を記憶するためのメモリとを備え、
前記プロセッサは、前記実行可能な命令を実行する時、
訓練された声紋抽出モデルが設けられた音声取得装置により、ユーザの音声を取得することと、
前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定することと、
前記ユーザに対して声紋認識の時に、ユーザ情報を取得することと、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得することと、
前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行うこととを実現させるように構成される。
【0021】
本出願の実施例の第8態様によれば、非一時的コンピュータ可読記憶媒体を提供する。前記記憶媒体における命令が装置のプロセッサにより実行される時、装置に声紋抽出モデル訓練方法を実行させ、前記方法は、
訓練された声紋抽出モデルが設けられた音声取得装置により、ユーザの音声を取得することと、
前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定することと、
前記ユーザに対して声紋認識の時に、ユーザ情報を取得することと、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得することと、
前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行うこととを含む。
例えば、本願は以下の項目を提供する。
(項目1)
声紋抽出モデル訓練方法であって、上記声紋抽出モデルは、ニューラルネットワークモデルであり、上記方法は、
T個の装置におけるユーザの音声データを取得し、上記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であることと、
上記訓練データ集合を上記ニューラルネットワークモデルに入力し、上記ニューラルネットワークモデルを訓練し、上記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、
上記損失関数が収束する時、上記ニューラルネットワークモデルの訓練が完了したと判定することとを含み、
上記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和であることを特徴とする、上記方法。
(項目2)
上記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することは、
上記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報及びチャネル雑音情報を取得することと、
上記声紋特徴情報及びチャネル雑音情報に基づいて、上記差異損失関数を算出することとを含むことを特徴とする
上記項目に記載の方法。
(項目3)
上記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することは、
上記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報を取得することと、
上記声紋特徴情報を処理し、上記声紋特徴情報と所属チャネルとの関連性を除去することと、
処理された声紋特徴情報を上記ニューラルネットワークモデルのドメイン分類器に入力することと、
上記ドメイン分類器の分類結果と、上記ニューラルネットワークモデルから出力された分類の正確率とに基づいて、上記類似損失関数を取得することとを含むことを特徴とする
上記項目いずれか一項に記載の方法。
(項目4)
上記声紋特徴情報を処理し、上記声紋特徴情報と所属チャネルとの関連性を除去することは、
勾配反転により、上記声紋特徴情報を処理することを含むことを特徴とする
上記項目いずれか一項に記載の方法。
(項目5)
声紋認識方法であって、上記方法は、上記項目いずれか一項に記載の声紋抽出モデル訓練方法で訓練された声紋抽出モデルを利用し、上記方法は、
訓練された声紋抽出モデルが設けられた音声取得装置により、ユーザの音声を取得することと、
上記訓練された声紋抽出モデルにより、上記ユーザの声紋特徴を取得し、上記声紋特徴と上記ユーザ情報との対応関係を決定することと、
上記ユーザに対して声紋認識の時に、ユーザ情報を取得することと、
上記ユーザ情報に基づいて、上記ユーザの声紋特徴を取得することと、
上記ユーザの声紋特徴に基づいて、上記ユーザに対して声紋認識を行うこととを含むことを特徴とする、上記方法。
(項目6)
上記方法は、
決定された上記声紋特徴と上記ユーザ情報との対応関係をメモリに記憶することを更に含み、
上記ユーザ情報に基づいて、上記ユーザの声紋特徴を取得することは、
上記ユーザ情報に基づいて、上記メモリから、上記ユーザの声紋特徴を取得することを含むことを特徴とする
上記項目いずれか一項に記載の方法。
(項目7)
声紋抽出モデル訓練装置であって、ニューラルネットワークモデルに適用され、上記装置は、
T個の装置におけるユーザの音声データを取得し、上記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であるように構成される音声取得モジュールと、
上記訓練データ集合を上記ニューラルネットワークモデルに入力し、上記ニューラルネットワークモデルを訓練するように構成される訓練モジュールと、
上記ニューラルネットワークモデルの毎回の訓練の損失関数を取得するように構成される損失関数取得モジュールと、
上記損失関数が収束する時、上記ニューラルネットワークモデルの訓練が完了したと判定するように構成される訓練完了判定モジュールとを備え、
上記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和であることを特徴とする、上記装置。
(項目8)
上記損失関数取得モジュールは更に、
上記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報及びチャネル雑音情報を取得し、
上記声紋特徴情報及びチャネル雑音情報に基づいて、上記差異損失関数を算出するように構成されることを特徴とする
上記項目に記載の装置。
(項目9)
上記損失関数取得モジュールは更に、
上記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報を取得し、
上記声紋特徴情報を処理し、上記声紋特徴情報と所属チャネルとの関連性を除去し、
処理された声紋特徴情報を上記ニューラルネットワークモデルのドメイン分類器に入力し、
上記ドメイン分類器の分類結果と、上記ニューラルネットワークモデルから出力された分類の正確率とに基づいて、上記類似損失関数を取得するように構成されることを特徴とする
上記項目いずれか一項に記載の装置。
(項目10)
上記損失関数取得モジュールは更に、
勾配反転により、上記声紋特徴情報を処理し、上記声紋特徴情報と所属チャネルとの関連性を除去するように構成されることを特徴とする
上記項目いずれか一項に記載の装置。
(項目11)
声紋認識装置であって、
ユーザの音声を取得するように構成される、上記項目いずれか一項に記載の訓練された声紋抽出モデルが設けられた音声取得装置と、
上記訓練された声紋抽出モデルにより、上記ユーザの声紋特徴を取得し、上記声紋特徴と上記ユーザ情報との対応関係を決定するように構成される関係決定モジュールと、
上記ユーザに対して声紋認識の時に、ユーザ情報を取得するように構成される情報取得モジュールと、
上記ユーザ情報に基づいて、上記ユーザの声紋特徴を取得するように構成される声紋取得モジュールと、
上記ユーザの声紋特徴に基づいて、上記ユーザに対して声紋認識を行うように構成される認識モジュールとを備えることを特徴とする、上記装置。
(項目12)
上記装置は、
決定された上記声紋特徴と上記ユーザ情報との対応関係をメモリに記憶するように構成される記憶モジュールを更に備え、
上記声紋取得モジュールは更に、上記ユーザ情報に基づいて、上記メモリから、上記ユーザの声紋特徴を取得するように構成されることを特徴とする
上記項目いずれか一項に記載の装置。
(項目13)
声紋認識装置であって、
プロセッサと
プロセッサによる実行可能な命令を記憶するためのメモリとを備え、
上記プロセッサは、上記実行可能な命令を実行する時、
T個の装置におけるユーザの音声データを取得し、上記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であることと、
上記訓練データ集合を上記ニューラルネットワークモデルに入力し、上記ニューラルネットワークモデルを訓練し、上記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、
上記損失関数が収束する時、上記ニューラルネットワークモデルの訓練が完了したと判定することとを実現させるように構成され、
上記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和であることを特徴とする、上記装置。
(項目14)
非一時的コンピュータ可読記憶媒体であって、上記記憶媒体における命令が装置のプロセッサにより実行される時、装置に声紋認識方法を実行させ、上記方法は、
T個の装置におけるユーザの音声データを取得し、上記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であることと、
上記訓練データ集合を上記ニューラルネットワークモデルに入力し、上記ニューラルネットワークモデルを訓練し、上記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、
上記損失関数が収束する時、上記ニューラルネットワークモデルの訓練が完了したと判定することとを含み、
上記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である、上記非一時的コンピュータ可読記憶媒体。
(項目15)
声紋抽出モデル訓練装置であって、
プロセッサと、
プロセッサによる実行可能な命令を記憶するためのメモリとを備え、
上記プロセッサは、上記実行可能な命令を実行する時、
訓練された声紋抽出モデルが設けられた音声取得装置により、ユーザの音声を取得することと、
上記訓練された声紋抽出モデルにより、上記ユーザの声紋特徴を取得し、上記声紋特徴と上記ユーザ情報との対応関係を決定することと、
上記ユーザに対して声紋認識の時に、ユーザ情報を取得することと、
上記ユーザ情報に基づいて、上記ユーザの声紋特徴を取得することと、
上記ユーザの声紋特徴に基づいて、上記ユーザに対して声紋認識を行うこととを実現させるように構成されることを特徴とする、上記装置。
(項目16)
非一時的コンピュータ可読記憶媒体であって、上記記憶媒体における命令が装置のプロセッサにより実行される時、装置に声紋抽出モデル訓練方法を実行させ、上記方法は、
訓練された声紋抽出モデルが設けられた音声取得装置により、ユーザの音声を取得することと、
上記訓練された声紋抽出モデルにより、上記ユーザの声紋特徴を取得し、上記声紋特徴と上記ユーザ情報との対応関係を決定することと、
上記ユーザに対して声紋認識の時に、ユーザ情報を取得することと、
上記ユーザ情報に基づいて、上記ユーザの声紋特徴を取得することと、
上記ユーザの声紋特徴に基づいて、上記ユーザに対して声紋認識を行うこととを含む、上記非一時的コンピュータ可読記憶媒体。
(摘要)
本出願は、声紋抽出モデル訓練方法及び声紋認識方法、その装置並びに媒体に関する。声紋抽出モデル訓練方法は、T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であることと、前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定することとを含み、前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である。該方法によれば、異なる装置の間で、訓練された同様な声紋抽出モデルを利用することで、作業負荷を大幅に低減させると共に、システムのメンテナンスはより容易になる。
【発明の効果】
【0022】
本出願は、声紋認識方法を提供する。該方法において、音声取得装置により、ユーザの音声を取得する。前記音声取得装置には、訓練された声紋抽出モデルが設けられている。前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定する。前記ユーザに対して声紋認識の時に、ユーザ情報を取得し、前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得する。続いて、前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行う。本出願は、声紋抽出モデル訓練方法を更に提供する。該方法により訓練された声紋抽出モデルは、取得したユーザ音声からユーザの声紋特徴を抽出することができ、声紋特徴とチャネル雑音とを好適に分離させることを実現する。
【0023】
本出願の声紋認識方法において、異なる装置の間で、訓練された同様な声紋抽出モデルを利用することで、作業負荷を大幅に低減させると共に、システムのメンテナンスはより容易になる。また、ユーザが使用する時、1台の装置で登録すれば、他の装置で利用可能になり、ユーザの使用体験を向上させる。
【0024】
上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本出願を限定するものではないことが理解されるべきである。
【図面の簡単な説明】
【0025】
図1】一例示的な実施例による声紋抽出モデル訓練方法を示すフローチャートである。
図2】一例示的な実施例による声紋抽出モデルのネットワーク構造を示す概略図である。
図3】一例示的な実施例による声紋認識方法を示すフローチャートである。
図4】一例示的な実施例による声紋認識方法を示すフローチャートである。
図5】一例示的な実施例による声紋抽出モデル訓練装置を示すブロック図である。
図6】一例示的な実施例による声紋認識装置を示すブロック図である。
図7】一例示的な実施例による装置を示すブロック図である。
図8】一例示的な実施例による装置を示すブロック図である。
【0026】
ここで添付した図面は、明細書に引き入れて本明細書の一部分を構成し、本発明に適合する実施例を示し、かつ、明細書とともに本出願の技術的解決手段を解釈することに用いられる。
【発明を実施するための形態】
【0027】
ここで、例示的な実施例を詳細に説明し、その例を図面に示す。以下の記述が図面に係る場合、別途にて示さない限り、異なる図面における同じ数字は、同じまたは類似する要素を示す。以下の例示的な実施例において記述する実施形態は、本発明の実施例に合致するすべての実施形態を代表するものではない。一方、それらは、添付された特許請求の範囲に詳細に記載されたような、本発明の一部の形態に合致する装置及び方法の例に過ぎない。
【0028】
現在の声紋認識システムは、チャネルから大きな影響を受けている。異なる録音装置が異なるチャネル情報を取り入れているするため、異なる装置の間での適用は、効果が低い。
【0029】
上記課題に対して、現在、異なるチャネル間のマッピング関係を学習することで、声紋マッピングモデルを確立し、1つの録音装置で得られた音声に対してい、話者特徴を抽出し、当該ユーザとバインディングし、異なる装置の間での声紋マッピングモデルに基づいて、他の装置における該音声の深度特徴を得て、即ち他の録音装置における該ユーザの話者特徴を得るという方法が利用されている。
【0030】
しかしながら、該方法において、異なる装置の間のマッピング関係を別途1つずつ学習する必要がある。装置が多い時、多くの声紋マッピングモデルを確立する必要がある。インテリジェント機器がどんどん増加するにつれて、各装置に対して声紋モデルを確立する必要があり、また、常にメンテナンスする必要があり、作業負荷が極めて大きい。また、ユーザが利用する時、各装置に登録する必要があり、処理を繰り返して行い、また煩雑である。
【0031】
本出願は、声紋認識方法を提供する。該方法において、音声取得装置により、ユーザの音声を取得する。前記音声取得装置には、訓練された声紋抽出モデルが設けられている。前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定する。前記ユーザに対して声紋認識の時に、ユーザ情報を取得し、前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得する。続いて、前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行う。本出願は、声紋抽出モデル訓練方法を更に提供する。該方法により訓練された声紋抽出モデルは、取得したユーザ音声からユーザの声紋特徴を抽出することができ、声紋特徴とチャネル雑音とを好適に分離させることを実現する。
【0032】
本出願の声紋認識方法において、異なる装置の間で、訓練された同様な声紋抽出モデルを利用することで、作業負荷を大幅に低減させると共に、システムのメンテナンスはより容易になる。また、ユーザが使用する時、1台の装置で登録すれば、他の装置で利用可能になり、ユーザの使用体験を向上させる。
【0033】
図1は、一例示的な実施例による声紋抽出モデル訓練方法を示すフローチャートである。前記声紋抽出モデルは、ニューラルネットワークモデルである。図1に示すように、該方法は、下記ステップを含む。
【0034】
ステップ101、T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数である。
【0035】
ステップ102、前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得する。
【0036】
ステップ103、前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定する。
【0037】
ここで、前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である。
【0038】
該方法における声紋抽出モデルは、深層ニューラルネットワークモデルのような、当業者に既知のニューラルネットワークである。該声紋抽出モデルは、装置と無関係の汎用のモデルである。該モデルにおいて、異なるチャネルからのデータに対して、共有スペースとプライベートスペースをそれぞれ確立する。共有スペースは、異なるチャネルに共有され、共有特徴、即ち話者の声紋特徴を学習するために用いられる。プライベートスペースは、各チャネルに使用されるように限定されるものであり、各装置のプライベート特徴、即ち、各装置により生じされるチャネル雑音を学習するために用いられる。従って、オーディオデータが共有スペースにおいて表されるものは、チャネルと無関係の話者声紋特徴であり、つまり、装置と無関係の話者声紋特徴である。
【0039】
本出願で用いられる深層ニューラルネットワークモデルは図2に示すとおりである。その各モジュールに関する説明は、以下のとおりである。
【0040】
1,2,…,Tは、訓練セットである。ただし、Tは、装置の総数を表す。
【0041】
(x)は、共有スペースのエンコーダであり、異なる装置の共有特徴hを抽出するためのものである。
【0042】
(x)は、プライベートスペースのエンコーダであり、異なる装置のプライベート特徴hをそれぞれ抽出するためのものである。
【0043】
D(h)は、エンコーダにより抽出された隠れ特徴hを復号して再構築するためのデコーダである。
【0044】
G(h)は、エンコーダにより抽出された隠れ特徴hに対して予測し、予測タグ
【0045】
【化1】
【0046】
を得るための予測器である。
【0047】
【化2】
【0048】
は、入力Xをエンコードしてから復号して再構築することを表す。
【0049】
【化3】
【0050】
は、入力Xをエンコードしてから予測することを表す。
【0051】
【化4】
【0052】
はそれぞれ、共有スペースエンコーダ、プライベートスペースエンコーダにより装置のサブスペースをエンコードしてから得られた隠れ層特徴行列を表す。
【0053】
classは、最終的な出力タグを予測するための分類損失関数である。
【0054】
reconは、プライベートスペース特徴を学習対象に作用させることを確保するための再構築損失関数である。
【0055】
differenceは、共有スペースとプライベートスペースとの直交性を表すための差異損失関数である。
【0056】
similarityは、ネットワークが異なる装置の類似性特徴を抽出できることを確保するための類似損失関数である。
【0057】
当業者であれば、深層ニューラルネットワークモデルにより、差異損失関数及び類似損失関数以外の上記各モジュールを取得することができるため、ここで、詳細な説明を省略する。
【0058】
本出願の深層ニューラルネットワークモデルの損失関数Lは、下記式で表されてもよい。
【0059】
【化5】
【0060】
ただし、λ、α、β、γはそれぞれ、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の重みである。これらの重みは、深層ニューラルネットワークモデルの訓練過程において更新され、重みの更新により、各回の訓練の損失関数を取得する。ここで、重みの更新は、当業者により深層ニューラルネットワークモデルの訓練に基づいて実現されてもよく、ここで、詳細な説明を省略する。
【0061】
本方法において、深層ニューラルネットワークモデルの損失関数に差異損失関す及び類似損失関数を引き入れることで、声紋特徴とチャネル雑音を好適に分離させる。
【0062】
任意選択的な実施形態において、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することは、
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報及びチャネル雑音情報を取得することと、
前記声紋特徴情報及びチャネル雑音情報に基づいて、前記差異損失関数を算出することとを含む。
【0063】
差異損失関数Ldifferenceは、下記式により算出される。
【0064】
【化6】
【0065】
ただし、
【0066】
【化7】
【0067】
は、F-ノルムの二乗を表す。当然ながら、他のタイプのノルムにより算出してもい。
【0068】
【化8】
【0069】
はそれぞれ、ニューラルネットワークモデルの毎回の訓練により得られた声紋特徴行列及びチャネル雑音行列である。該差異損失関数により、声紋特徴とチャネル雑音との直交性を得ることができる。2つのパラメータ同士間の直交性は、2つのパラメータ同士が互いに依存しないことを表す。従って、声紋特徴とチャネル雑音との直交性が小さいほど、声紋特徴とチャネル雑音との分離が好適になる。
【0070】
任意選択な実施形態において、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することは、
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報を取得することと、
前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去することと、
処理された声紋特徴情報を前記ニューラルネットワークモデルのドメイン分類器に入力することと、
前記ドメイン分類器の分類結果と、前記ニューラルネットワークモデルから出力された分類の正確率とに基づいて、前記類似損失関数を取得することとを含む。
【0071】
異なるサブスペース間が移行可能であることを確保するために、共有特徴
【0072】
【化9】
【0073】
の分布が類似性を持つことを確保する必要がある。従って、声紋特徴情報を処理し、声紋特徴情報と所属チャネルとの関連性を除去し、続いて、ドメイン分類器に入力する。従って、ドメイン分類器は、入力がどのサブ空間からのものであるかを判別付かないようにし、これにより、ネットワークが異なる装置の類似性特徴を抽出することができる。つまり、入力される共通特徴である共有特徴を取得する。類似損失関数の定義は、以下のとおりである。
【0074】
【化10】
【0075】
ただし、dは、ドメイン分類器が話者の音声における各センテンスを分類した結果(共有特徴を所属の装置、即ちチャネルの中に分類した結果)を表し、その値は、0又は1である。正確に分類した場合、その値は、1である。正確に分類しなかった場合、その値は、0である。
【0076】
【化11】
【0077】
は、ニューラルネットワークモデルから出力された分類の正確率を表し、その値は、0~1の間にある。
【0078】
任意選択的な実施形態において、前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去することは、
勾配反転により、前記声紋特徴情報を処理することを含む。
【0079】
勾配反転は、ネットワークの訓練過程において同期して行うことができる。声紋特徴情報を勾配反転してから、ネットワーク全体は、入力された音声がどの装置からのものであるかを判別することができなくなる。それによって、入力された音声の共有特徴を取得するという目的を達成する。
【0080】
また、分類損失関数Lclassは以下のとおりである。
【0081】
【化12】
【0082】
ただし、Nは、取得された話者の音声に含まれたセンテンスの数を表す。
【0083】
【化13】
【0084】
は、入力された実の音声を表し、
【0085】
【化14】
【0086】
は、モデルにより予測された音声を表す。
【0087】
再構築損失関数Lreconは、下記式により算出される。
【0088】
【化15】
【0089】
ただし、
【0090】
【化16】
【0091】
は、スケール不変平均二乗誤差損失関数を表し、下記式により算出される。
【0092】
【化17】
【0093】
ただし、kは、入力xの次元数を表し、
【0094】
【化18】
【0095】
は、要素が1であり、長さがkである行列を表し、
【0096】
【化19】
【0097】
は、L-ノルムを表す。勿論、他のタイプのノルムにより算出してもよい。
【0098】
分類損失関数及び再構築損失関数は、いずれも従来方法により算出される。ここで、分類損失関数は、softmaxであってもよいし、A-Softmax、L-Softmax、AM-Softmaxのような、softmaxの最適化した変形であってもよい。同様に、再構築損失関数は、スケール不変平均二乗誤差損失関数以外の他の関数であってもよく、ここでこれを制限しない。
【0099】
本出願は、声紋認識方法を更に提供する。図3に示すように、該方法は、以下を含む。
【0100】
ステップ301、訓練された声紋抽出モデルが設けられた音声取得装置により、ユーザの音声を取得する。
【0101】
ステップ302、前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定する。
【0102】
ステップ303、前記ユーザに対して声紋認識の時に、ユーザ情報を取得する。
【0103】
ステップ304、前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得する。
【0104】
ステップ305、前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行う。
【0105】
該声紋認識方法は、上記声紋抽出モデル訓練方法で訓練された声紋抽出モデルにより実現する。つまり、ステップ301における訓練された声紋抽出モデルは、上記声紋抽出モデル訓練方法で訓練された。上記声紋抽出モデルは、訓練された後に、声紋特徴とチャネル雑音を好適に分離させることができる。従って、ユーザの音声を訓練された声紋抽出モデルに入力してから、ユーザの声紋特徴を取得することができる。該声紋特徴とユーザ情報を一対一に対応付ける。続いて、上記訓練された声紋抽出モデルを異なる音声取得装置で共有する。ユーザが1つの装置に登録する時、ユーザ登録情報に基づいて、該情報に一対一に対応する声紋特徴を取得し、該声紋特徴により、ユーザに対して声紋認識を行う。
【0106】
任意選択的な実施形態において、前記方法は、
決定された前記声紋特徴と前記ユーザ情報との対応関係をメモリに記憶することを更に含み、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得することは、
前記ユーザ情報に基づいて、前記メモリから、前記ユーザの声紋特徴を取得することを含む
ここのメモリは、クラウドメモリであってもよい。ユーザが他の装置で声紋認識を行う場合、クラウド側のユーザ情報とのマッチングを行い、該ユーザを認識し、ユーザの音声命令に基づいて、対応する操作を完了する。
【0107】
以下、具体的な適用シナリオを参照しながら、本出願の具体的な実施例を説明する。該実施例において、声紋抽出モデルは、深層ニューラルネットワークモデルである。図4に示すように、該方法は下記ステップを含む。
【0108】
ステップ401、5つの装置におけるユーザの音声データを取得し、これらの音声データに基づいて、訓練データ集合を構築する。
【0109】
ステップ402、訓練データ集合を深層ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練する。
【0110】
ステップ403、毎回の訓練の損失関数を取得する。
【0111】
ステップ404、損失関数が収束する時、深層ニューラルネットワークモデルの訓練が完了したと判定する。
【0112】
ステップ405、訓練された深層ニューラルネットワークモデルを複数の音声取得装置に設ける。
【0113】
ステップ406、訓練された深層ニューラルネットワークモデルが設けられた音声取得装置により、ユーザの音声を取得する。
【0114】
ステップ407、前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、ユーザとその声紋特徴との対応関係をクラウドメモリに記憶する。
【0115】
ステップ408、前記ユーザに対して声紋認識の時に、ユーザ情報を取得する。
【0116】
ステップ409、前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得する。
【0117】
ステップ410、前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行い、更に、対応する操作を実行する。
【0118】
本出願は、声紋抽出モデル訓練装置を更に提供する。前記装置は、ニューラルネットワークモデルに適用され、図5に示すように、前記装置は、
T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であるように構成される音声取得モジュール501と、
前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練するように構成される訓練モジュール502と、
前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得するように構成される損失関数取得モジュール503と、
前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定するように構成される訓練完了判定モジュール504とを備え、
前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である。
【0119】
任意選択的な実施形態において、前記損失関数取得モジュール503は更に、
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報及びチャネル雑音情報を取得し、
前記声紋特徴情報及びチャネル雑音情報に基づいて、前記差異損失関数を算出するように構成される。
【0120】
任意選択的な実施形態において、前記損失関数取得モジュール503は更に、
前記ニューラルネットワークモデルの毎回の訓練で得られた声紋特徴情報を取得し、
前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去し、
処理された声紋特徴情報を前記ニューラルネットワークモデルのドメイン分類器に入力し、
前記ドメイン分類器の分類結果と、前記ニューラルネットワークモデルから出力された分類の正確率とに基づいて、前記類似損失関数を取得するように構成される。
【0121】
任意選択的な実施形態において、前記損失関数取得モジュール503は更に、
勾配反転により、前記声紋特徴情報を処理し、前記声紋特徴情報と所属チャネルとの関連性を除去するように構成される。
【0122】
本出願は、声紋認識装置を更に提供する。図6に示すように、前記装置は、
ユーザの音声を取得するように構成される、訓練された声紋抽出モデルが設けられた音声取得装置601と、
前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定するように構成される関係決定モジュール602と、
前記ユーザに対して声紋認識の時に、ユーザ情報を取得するように構成される情報取得モジュール603と、
前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得するように構成される声紋取得モジュール604と、
前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行うように構成される認識モジュール605とを備える。
【0123】
任意選択的な実施形態において、前記装置は、
決定された前記声紋特徴と前記ユーザ情報との対応関係をメモリに記憶するように構成される記憶モジュールを更に備え、
前記声紋取得モジュールは更に、前記ユーザ情報に基づいて、前記メモリから、前記ユーザの声紋特徴を取得するように構成される。
【0124】
上記実施例における装置について、各モジュールによる操作実行の具体的な形態は、該方法に関わる実施例において詳しく説明したため、ここで詳しく説明しないようにする。
【0125】
本出願は、声紋認識方法を提供する。該方法において、音声取得装置により、ユーザの音声を取得する。前記音声取得装置には、訓練された声紋抽出モデルが設けられている。前記訓練された声紋抽出モデルにより、前記ユーザの声紋特徴を取得し、前記声紋特徴と前記ユーザ情報との対応関係を決定する。前記ユーザに対して声紋認識の時に、ユーザ情報を取得し、前記ユーザ情報に基づいて、前記ユーザの声紋特徴を取得する。続いて、前記ユーザの声紋特徴に基づいて、前記ユーザに対して声紋認識を行う。本出願は、声紋抽出モデル訓練方法を更に提供する。該方法により訓練された声紋抽出モデルは、取得したユーザ音声からユーザの声紋特徴を抽出することができ、声紋特徴とチャネル雑音とを好適に分離させることを実現する。
【0126】
本出願の声紋認識方法において、異なる装置の間で、訓練された同様な声紋抽出モデルを利用することで、作業負荷を大幅に低減させると共に、システムのメンテナンスはより容易になる。また、ユーザが使用する時、1台の装置で登録すれば、他の装置で利用可能になり、ユーザの使用体験を向上させる。
【0127】
図7は、一例示的な実施例による声紋抽出モデル訓練装置700を示すブロック図である。
【0128】
図7を参照すると、装置700は、処理ユニット702、メモリ704、電源ユニット706、マルチメディアユニット708、オーディオユニット710、入力/出力(I/O)インタフェース712、センサユニット714及び通信ユニット716のうちの1つ又は複数を備えてもよい。
【0129】
処理ユニット702は一般的には、装置700の全体操作を制御する。例えば、表示、通話呼、データ通信、カメラ操作及び記録操作に関連する操作を制御する。処理ユニット702は、指令を実行するための1つ又は複数のプロセッサ720を備えてもよい。それにより上記方法の全て又は一部のステップを実行する。なお、処理ユニット702は、他のユニットとのインタラクションのために、1つ又は複数のモジュールを備えてもよい。例えば、処理ユニット702はマルチメディアモジュールを備えることで、マルチメディアユニット708と処理ユニット702とのインタラクションに寄与する。
【0130】
メモリ704は、各種のデータを記憶することで装置700における操作をサポートするように構成される。これらのデータの例として、装置700上で操作れる如何なるアプリケーション又は方法の命令、連絡先データ、電話帳データ、メッセージ、イメージ、ビデオ等を含む。メモリ704は任意のタイプの揮発性または不揮発性記憶装置、あるいはこれらの組み合わせにより実現される。例えば、スタティックランダムアクセスメモリ(SRAM)、電気的消去可能なプログラマブル読み出し専用メモリ(EEPROM)、電気的に消去可能なプログラマブル読出し専用メモリ(EPROM)、プログラマブル読出し専用メモリ(PROM)、読出し専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気もしくは光ディスクを含む。
【0131】
電源ユニット706は装置700の様々なユニットに電力を提供する。電源ユニット706は、電源管理システム、1つ又は複数の電源、及び装置700のための電力生成、管理、分配に関連する他のユニットを備えてもよい。
【0132】
マルチメディアユニット708は、上記装置700とユーザとの間に出力インタフェースを提供するためのスクリーンを備える。幾つかの実施例において、スクリーンは、液晶ディスプレイ(LCD)及びタッチパネル(TP)を含む。スクリーンは、タッチパネルを含むと、タッチパネルとして実現され、ユーザからの入力信号を受信する。タッチパネルは、タッチ、スライド及びパネル上のジェスチャを感知する1つ又は複数のタッチセンサを備える。上記タッチセンサは、タッチ又はスライド動作の境界を感知するだけでなく、上記タッチ又はスライド操作に関連する持続時間及び圧力を検出することもできる。幾つかの実施例において、マルチメディアユニット708は、フロントカメラ及び/又はリアカメラを備える。装置700が、撮影モード又は映像モードのような操作モードであれば、フロントカメラ及び/又はリアカメラは外部からのマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは固定した光学レンズシステム又は焦点及び光学ズーム能力を持つものであってもよい。
【0133】
オーディオユニット710は、オーディオ信号を出力/入力するように構成される。例えば、オーディオユニット710は、マイクロホン(MIC)を備える。装置700が、通話モード、記録モード及び音声識別モードのような操作モードであれば、マイクロホンは、外部からのオーディオ信号を受信するように構成される。受信したオーディオ信号を更にメモリ704に記憶するか、又は通信ユニット716を経由して送信することができる。幾つかの実施例において、オーディオユニット710は、オーディオ信号を出力するように構成されるスピーカーを更に備える。
【0134】
I/Oインタフェース712は、処理ユニット702と周辺インタフェースモジュールとの間のインタフェースを提供する。上記周辺インタフェースモジュールは、キーボード、クリックホイール、ボタン等であってもよい。これらのボタンは、ホームボダン、ボリュームボタン、スタートボタン及びロックボタンを含むが、これらに限定されない。
【0135】
センサユニット714は、1つ又は複数のセンサを備え、装置700のために様々な状態の評価を行うように構成される。例えば、センサユニット714は、装置700のオン/オフ状態、ユニットの相対的な位置決めを検出することができる。例えば、上記ユニットが装置700のディスプレイ及びキーパッドである。センサユニット714は装置700又は装置700における1つのユニットの位置の変化、ユーザと装置800との接触の有無、装置700の方位又は加速/減速及び装置700の温度の変動を検出することもできる。センサユニット714は近接センサを備えてもよく、いかなる物理的接触もない場合に周囲の物体の存在を検出するように構成される。センサユニット714は、CMOS又はCCD画像センサのような光センサを備えてもよく、結像に適用されるように構成される。幾つかの実施例において、該センサユニット714は、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ又は温度センサを備えてもよい。
【0136】
通信ユニット716は、装置700と他の機器との有線又は無線方式の通信に寄与するように構成される。装置700は、WiFi、2G又は3G又はそれらの組み合わせのような通信規格に基づいた無線ネットワークにアクセスできる。一例示的な実施例において、通信ユニット716は放送チャネルを経由して外部放送チャネル管理システムからの放送信号又は放送関連する情報を受信する。一例示的な実施例において、上記通信ユニット716は、近接場通信(NFC)モジュールを更に備えることで近距離通信を促進する。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標)(BT)技術及び他の技術に基づいて実現される。
【0137】
例示的な実施例において、装置700は、1つ又は複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理機器(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサ又は他の電子素子により実現され、上記方法を実行するように構成されてもよい。
【0138】
例示的な実施例において、命令を記憶したメモリ704のような非一時的コンピュータ可読記憶媒体を更に提供する。上記命令は、装置700のプロセッサ720により実行され上記方法を完了する。例えば、前記非一時的コンピュータ可読記憶媒体はROM、ランダムアクセスメモリ(RAM)、CD-ROM、磁気テープ、フロッピー(登録商標)ディスク、光データ記憶装置等であってもよい。
【0139】
非一時的コンピュータ可読記憶媒体であって、前記記憶媒体における命令が携帯端末のプロセッサにより実行される場合、携帯端末に声紋抽出モデル訓練方法を実行させ、前記方法は、T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であることと、前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定することとを含み、前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である。
【0140】
図8は、一例示的な実施例による声紋抽出モデル訓練装置800を示すブロック図である。例えば、装置800は、サーバとして提供されてもよい。図8を参照すると、装置800は、処理ユニットを822を含む。それは1つ又は複数のプロセッサと、メモリ832で表されるメモリリソースを更に備える。該メモリリースは、アプリケーションプログラムのような、処理ユニット822により実行される命令を記憶するためのものである。メモリ832に記憶されているアプリケーションプログラムは、それぞれ一組の命令に対応する1つ又は1つ以上のモジュールを含んでもよい。なお、処理ユニット822は、命令を実行して、上記方法を実行するように構成される。該方法は、T個の装置におけるユーザの音声データを取得し、前記音声データに基づいて、音響特徴を抽出し、訓練データ集合を構築し、Tが2以上の正整数であることと、前記訓練データ集合を前記ニューラルネットワークモデルに入力し、前記ニューラルネットワークモデルを訓練し、前記ニューラルネットワークモデルの毎回の訓練の損失関数を取得することと、前記損失関数が収束する時、前記ニューラルネットワークモデルの訓練が完了したと判定することとを含み、前記損失関数は、分類損失関数、再構築損失関数、差異損失関数及び類似損失関数の加重和である。
【0141】
装置800は、装置800の電源管理を実行するように構成される電源ユニット826と、装置800をネットワークに接続するように構成される有線又は無線ネットワークインタフェース850と、入力出力(I/O)インタフェース858を更に備えてもよい。装置800は、Windows(登録商標) ServerTM、Mac OS XTM、Unix(登録商標), Linux(登録商標)、FreeBSDTM又は類似したものような、メモリ832に記憶されているオペレーティングシステムを実行することができる。
【0142】
当業者は明細書を検討し、ここで開示した発明を実践した後、本発明のその他の実施方案を容易に思いつくことができる。本発明の実施例は、本発明の実施例のいかなる変形、用途、又は適応的な変化を含むことを目的としており、いかなる変形、用途、又は適応的な変化は、本発明の一般原理に基づいて、且つ本発明の実施例において公開されていない本技術分野においての公知常識又は慣用技術手段を含む。明細書及び実施例は、例示的なものを開示しており、本発明の保護範囲と主旨は、特許請求の範囲に記述される。
【0143】
本発明の実施例は、上記で説明した、また図面において示した精確な構造に限定されず、その範囲を逸脱しない前提のもとで種々の変更及び修正を行うことができることを理解すべきである。本発明の実施例の範囲は付された特許請求の範囲によってのみ限定される。
図1
図2
図3
図4
図5
図6
図7
図8