(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0013】
次から図面に示された実施例について詳しく説明する。下記の記述で図面を引用するとき、別に表示がない限り、異なる図面の同じ数字は同じ要素、または類似的要素を示す。図面を参照しがら説明する下記の実施例は、本発明の解釈のみの例示であり、本発明を制限するものと理解できない。また、本発明の実施例は、特許請求項の範囲内でのすべての変化、修正および同等物を含む。
【0014】
図1は本発明の声紋認証法の一つの実施例のフローチャートである。
図1に示すように、当声紋認証方法はステップ101、ステップ102およびステップ103を含む。
【0015】
ステップ101:、ユーザに文字列を表示する。前記文字列には、前記ユーザが設置した好みの文字が含まれる。また、前記ユーザが設置した好みの文字は前記文字列の中において前記好みの文字に対応する符号で表示される。
【0016】
その中に、好みの文字がどの符号に対応するかは、ユーザの事前設定によって決める。たとえば、ユーザが、0−9の10個の数字から「1」と「6」を好みの文字として選び、「1」に対応する符号を「#」、「6」に対応する符号を「@」とする。これによって、文字列「8291765」を「829#7@5」として表示される。
【0017】
本実施例には、好みの文字に対応する符号の表示形式は具体的には異なってもよい。その表示形式は、次のような形式を含めるが、それらに限らない。
【0018】
1、特殊符号、たとえば、キーボードの中の特殊符号「!」、「@」、「#」、「$」、「^」、「&」、「*」、「(」、「)」など。
【0019】
2、漢字、たとえば、「水」、「火」、「風」など。
【0020】
3、画像、たとえば、果物、小動物、漫画など。
【0021】
ステップ102において、前記ユーザが朗読した前記文字列の音声を取得する。
【0022】
本実施例には、ユーザが朗読した「829#7@5」文字列の音声を取得する。
【0023】
ステップ103において、前記音声の声紋識別ベクトルを取得する。
【0024】
具体的に、前記少なくとも一節の音声の声紋識別ベクトルを取得するステップは、前記音声の声学特徴を抽出するステップと、普通背景モデル条件における前記声学特徴の事後確率を計算するステップとを含み、前記事後確率がガウス分布に従い、前記事後確率の期待値が前記音声の声紋識別ベクトルである。
【0025】
ステップ104において、前記音声の声紋識別ベクトルと前記ユーザが登録した声紋識別ベクトルとを比較し、声紋認証結果を判定する。
【0026】
前記声紋認証方法によれば、ユーザに表示した文字列の中に、ユーザが設置した好みの文字が含まれ、そのうち、前記ユーザが設置した好みの文字は前記文字列の中において前記好みの文字に対応する符号で表示される。続いて、ユーザが朗読した前記文字列の音声を取得し、前記音声の声紋識別ベクトルを取得し、前記音声の声紋識別ベクトルと前記ユーザが登録した声紋識別ベクトルとを比較し、声紋認証結果を判定する。このように、ユーザの声紋を照合することによってユーザの身分を認証し、支払いの安全性をアップでき、また、ユーザからのパスワード入力が不要し、パスワード検証も要らない。したがって、利用過程の便利さと支払い効率をアップし、ユーザ好みで隠した文字が、パスワードを平文で表示したくないというユーザの心理要求を満足したので、ユーザ体験を向上し、声紋パスワードの使い勝手を上げられる。
【0027】
さらに、
図2を参照して、
図2は本発明の声紋認証方法のほかの一つの実施例のフローチャートである。ステップ103において前記音声の声紋識別ベクトルを取得する前に、さらに、ステップ201およびステップ202を含むことができる。
【0028】
ステップ201において、前記音声に対して音声識別を行い、前記ユーザが朗読した前記符号の音声と前記ユーザが設置した好みの文字との一致性を判断する。一致する場合、ステップ103を実行し、もし前記ユーザが朗読した前記符号の音声は前記ユーザが設置した好みの文字と一致しなければ、ステップ202を実行する。
【0029】
ステップ202において、エラーメッセージを返して、朗読した前記符号の音声は前記ユーザが設置した好みの文字と一致しないことを提示する。
【0030】
すなわち、認証過程では、ユーザが一つの文字列を朗読する必要があり、サーバ側は、ユーザが朗読した文字列の音声に対して音声識別を行い、前記ユーザが朗読した前記符号の音声と前記ユーザが設置した好みの文字との一致性を判断する。ユーザが好みの文字を正しく朗読した場合のみ、ユーザの朗読した文字列の音声を更に声紋認証モジュールへ伝送し、前記音声の声紋識別ベクトルを取得する。
【0031】
認証過程においては、録音詐欺を防ぐため、完全にランダムな文字列を使うことができる。認証過程で話した文字列をユーザ登録した声紋識別ベクトルにできるだけ近付けるために、平文表示の文字は文字列の中に含まれることができる。ただし、本実施例には、平文表示の文字が一回しか出ない。すなわち、平文表示の文字がそれぞれ異なる。それに対して、符号で隠した好みの文字は、平文表示の文字と違ってもいいし(ケース1)、同じであってもよい(ケース2)。たとえば、好みの数字が「1」であり、 「1」に対応する符号が「#」である場合、支払い提示の文字列が「2#763985」(ケース1)、あるいは、「2#763915」(ケース2)となる。
【0032】
具体的に、認証過程は、信号処理、声紋照合および一致性判断という三つの段階を含む。信号処理は、ユーザの朗読した文字列の音声に対して、プリ増幅、音声区間検出(Voice Activity Detection, 以下、VADと略す)、声学特徴抽出および特徴処理などの処理を行う。
【0033】
声紋照合および一致性判断の段階というのは、ステップ104において、前記音声の声紋識別ベクトルとユーザが登録した声紋識別ベクトルとを照合し、声紋認証結果を判定する。具体的には、
図2を参照して、ステップ104は、ステップ203、ステップ204、ステップ205、およびステップ206を含むことができる。
【0034】
ステップ203において、前記音声の声紋識別ベクトルと前記ユーザが登録した声紋識別ベクトルとのマッチング値を計算する。
【0035】
具体的に、前記音声の声紋識別ベクトルと前記ユーザが登録した声紋識別ベクトルとのマッチング値を計算し、すなわち、認証過程で生じた声紋識別ベクトル(Identigy Vector、以下、ivectorと略す)とユーザが登録した時に生じた声紋識別ベクトルを照合して点数を付ける。これは、コサイン距離、サポートベクターマシン(Support Vector Machine、以下、SVMと略す)、ベイズ分類器、または、ガウス確率線形判別分析(Gauss Probabilistic Linear Discriminant Analysis、以下、GPLDAと略す)などの方法によって実現される。次は、例として、GPLDA方法により照合して点数を付けるのを説明する。
【0036】
認証過程からの声紋ivectorをη
1とし、サーバに保存したユーザ登録の声紋ivectorをη
2とする。ここに、二種類の仮説がある。H
1は前記音声を朗読したユーザが登録したユーザと同一話者であり、H
0は前記音声を朗読したユーザが登録したユーザと異なる話者である。したがって、この仮説の対数尤度比は、次の式で表す。
【数1】
【0037】
ここで、分子と分母の条件付き確率の分布がいずれもガウス分布に従い、しかも、その期待値が0だと仮定する。そして、式(1)は、次のように簡略化できる。
【数2】
【0038】
ここで、
【数3】
その中に、ΦとΣは、GPLDAモデルの訓練段階からのもので、ここで直接に抽出されてもよい。GPLDAのモデルは、次の式で表す。
【0039】
【数4】
ここで、η
rは観測したr人目の声紋ivectorであり、βはr人目の声紋の真実値で、隠し変数だから直接に取得できない。Φは伝送行列であり、ε
rは観測誤差であり、N(0,Σ)のガウス分布に従う。
【0040】
また、本実施例はマルチ分類器のスコア融合をサポートする。すなわち、検証段階において、一つの声学特徴に対し、複数の分類方法を利用する。たとえば、SVM、 GPLDAおよびコサイン距離という三種類の分類器を同時に利用し、その後、三つの分類器の得点をスコア融合して、最終スコアを得る。
【0041】
また、本実施例はマルチ特徴の融合をもサポートする。すなわち、複数の声学特徴を抽出し、同じまたは違う分類器で点数を付けて、再びスコアを融合する。たとえば、同時に一節の音声からメル周波数ケプストラム係数(Mel Frequency Cepstral Coefficients、以下、 MFCCと略す)と知覚的線形予測係数(Perceptual Linear Predictive、以下、PLPと略す)の特徴を抽出する。その後、MFCCとPLPに基づく声紋ivectorをそれぞれ取得し、再びGPLDA分類器に入り、2個のスコアを得てから、一つのスコアに融合する。
【0042】
ステップ204において、前記マッチング値が予め設定した閾値より大きいか、または、それと等しいかを判断する。そうである場合、ステップ205を実行する。前記マッチング値が予め設定した閾値より小さい場合、ステップ206を実行する。
【0043】
その中に、前記予め設定した閾値は、具体的操作においてシステムの性能および/または操作要求によって自分で設定される。本実施例は予め設定した閾値の大きさを制限しない。
【0044】
ステップ205において、前記ユーザが認証を通過すると判定する。
【0045】
ステップ206において、前記ユーザが認証を通過しないと判定する。
【0046】
以上、認証過程を説明した。前記認証過程は、支払いおよび/または身分検証などのユーザ身分を認証する必要がある場合に利用されることができる。
【0047】
本発明の実施例において、認証過程の前に、ユーザが登録した声紋識別ベクトルを取得するため、登録過程を行うこともできる。
図3は本発明の声紋認証方法における登録過程の一つの実施例のフローチャートである。
図3に示すように、登録過程は、ステップ301、ステップ302、ステップ303、ステップ304、ステップ305およびステップ306を含む。
【0048】
ステップ301において、前記ユーザが設置した好みの文字と前記ユーザが設置した符号との間の対応関係を作成して保存する。
【0049】
たとえば、ユーザは、自分の好みで0−9の10個の数字から任意の数字を好みの文字として選ばれる。たとえば、「1」と「6」を好みの文字とする。そして、符号「#」が「1」に対応し、符号「@」が「6」に対応するように設置する。この場合、サーバが「1」と「#」の対応関係、および「6」と「@」の対応関係を作成して保存する必要がある。
【0050】
本実施例には、好みの文字に対応する符号の表示形式は異なってもよい。その表示形式は、次のような形式を含めるが、それらに限らない。
【0051】
1、特殊符号、たとえば、キーボードの中の特殊符号「!」、「@」、「#」、「$」、「^」、「&」、「*」、「(」、「)」など。
【0052】
2、漢字、たとえば、「水」、「火」、「風」など。
【0053】
3、画像、たとえば、果物、小動物、漫画など。
【0054】
ステップ302において、ユーザに少なくとも一つの文字列を表示する。前記文字列には、ユーザ設置の好みの文字が含まれ、前記ユーザが設置した好みの文字は前記文字列の中において前記好みの文字に対応する符号で表示される。
【0055】
その中に、ユーザに表示した文字列は、平文表示の文字が含まれてもよい。前記平文表示の文字がそれぞれ異なる。
【0056】
安全性をアップして、録音詐欺を防ぐため、ユーザに表示した少なくともひとつの文字列は、ルールがなく、完全にランダムな文字列である。また、もっと大きなサンプル空間を覆うために、文字列の中に数字が一回しか出ない。すなわち、文字列の中に、平文表示の文字がそれぞれ異なる。たとえば、文字列が「32149658」でもよいが、「32149628」のように「2」を重複することがない。同時に、文字列には、ユーザ設置の好み数字が含まれるべきである。
【0057】
ステップ303において、前記ユーザが朗読した少なくとも一つの文字列の少なくとも一節の音声を取得する。
【0058】
登録過程では、ユーザが提示に従い、表示した少なくとも一つの文字列を朗読する。そのうち、好みの数字が特殊符号で表示される。たとえば、表示した文字列が「32#49@58」である場合には、ユーザが「32149658」と朗読する必要がある。
【0059】
ステップ304において、前記少なくとも一節の音声の声紋識別ベクトルを取得する。
【0060】
具体的に、前記少なくとも一節の音声の声紋識別ベクトルを取得するステップは、前記音声の声学特徴を抽出するステップと、普通背景モデル条件における前記声学特徴の事後確率を計算するステップとを含み、前記事後確率がガウス分布に従い、前記事後確率の期待値が前記音声の声紋識別ベクトルである。
【0061】
本実施例において、音声の声紋識別ベクトルを取得するのは、現在の国際先進的な識別ベクトル(identity−vector、以下、ivectorと略す)モデリング方法を利用する。当モデリング方法は、信号処理及びモデリングという二段階を含む。信号処理は、プリ増幅、音声区間検出(VAD)、声学特徴抽出および特徴処理などを含む。モデリング段階は、普通背景モデル(Universal Backgroud Model、以下、UBMと略す)条件における各節の音声の声学特徴(たとえば、MFCC)に対して、Baum−Welch統計を行い、その事後確率を計算し、この事後確率がガウス分布に従い、当事後確率の期待値はivectorである。たとえば、一節の音声uはL個のフレームの声学特徴{y
1,y
2,…y
L}に分割され、特徴次元がDであり、C個のガウスUBMモデルΩに基づいてBaum−Welchの0階と1階統計を行い、次のように示される。
【数5】
【0062】
ここで、c=1,2,…,Cはガウスモデルのインデックス、P(c|y
t,Ω)はy
tの第c個ガウスの事後確率、m
cは第c個ガウスの期待値である。次の式により音声uの声紋ivectorを得られる。
【数6】
【0063】
ここで、Nは、対角要素がN
cI(c=1,…,C)であるCD×CD次元の行列である。その中に、Iは単位対角行列、Fはすべての一階統計F
cを組み合わせたCD×1のベクトル、TとΣは声紋ivector抽出手段の伝送行列と分散共分散行列であり、訓練段階で因子分析の方法により得られ、ここでは直接に抽出されてもよい。演算子(・)
tは、行列転置を表す。
【0064】
ステップ305において、取得した少なくとも一節の音声の声紋識別ベクトルにより前記ユーザが登録した声紋識別ベクトルを算出する。
【0065】
登録過程でK個の文字列を利用し、各文字列がいずれも一つの独立声紋ivectorを抽出せば、ユーザがすべての文字列を朗読し終わると、当該K個の声紋ivectorを結合し、ユーザの唯一の声紋ivectorを計算して、ユーザの声紋特徴と表す。計算は次の通りである。
【数7】
ここで、演算子norm(・)は長さ正規化であり、すなわち、括弧中のベクトルのモールドを1に変える。同時に、本実施例も、
【数8】
の声紋特徴をサポートする。
【0066】
理解できるのは、前記音声の声紋識別ベクトルを取得する方法が、同様に認証過程で前記音声の声紋識別ベクトルの取得ステップに使われる。
【0067】
ステップ306において、前記ユーザが登録した声紋識別ベクトルを保存する。
【0068】
さらに、
図4を参照して、
図4は本発明の声紋認証方法における登録過程のほかの一つの実施例のフローチャートである。
図4に示すように、ステップ304の前に、さらに、ステップ401、ステップ402およびステップ403を含む。
【0069】
ステップ401において、前記少なくとも一節の音声に対して音声識別を行う。
【0070】
ステップ402において、前記ユーザが朗読した前記符号の音声と前記ユーザが設置した好みの文字との一致性を判断し、一致する場合、ステップ304を実行し、もし前記ユーザが朗読した前記符号の音声は前記ユーザが設置した好みの文字と一致しなければ、ステップ403を実行する。
【0071】
ステップ403において、エラーメッセージを返送して、ユーザが朗読した前記符号の音声が前記ユーザの設置した好みの文字と一致しないことを提示する。
【0072】
すなわち、ユーザが朗読した各文字列は、いずれもサーバ端末でテキストマッチングを行う。ユーザが好みの数字を正しく朗読した場合だけ、モデリングへ進む。そうでなければ、ユーザが再度数字列を朗読すべきである。
【0073】
本発明実施例が提供した声紋認証方法は、本質的に声紋識別とユーザパスワードを結合して声紋支払いシステムのユーザ体験を改善することである。ランダムな文字列の中に一部の文字を隠して表示することによって、声紋検証の安全性をアップし、同時に、ユーザニーズで隠した文字が、パスワードを表示したくないユーザの心理要求を満足できる。そのほか、隠し数字が非常に少なく、従来の長いパスワードと同様ではない。また、特殊符号と関連つけて覚えやすい。
【0074】
本発明実施例が提供した声紋認証方法は、支払いの安全性をアップした。利用者の声紋情報を利用したので、真似にくく、安全度を上げられる。なお、便利さを増加し、また、ユーザからのパスワード入力が不要し、パスワード検証も要らない。したがって、利用過程の便利さと支払い効率をアップする。単純な声紋支払いに比べて、本発明実施例が提供した声紋認証方法は、声紋とユーザ好みを結合して、声紋安全性と従来のパスワード安全性を重なった効果を有する。ユーザ好みで隠した文字が、パスワードを平文で表示したくないユーザの心理要求を満足でき、ユーザ体験を向上した。なお、本発明実施例が提供した方法は、声紋の使い勝手を上げられる。従来の声紋パスワードが退屈であり、本発明実施例は、特殊文字、画像、または漢字などの符号を結合して、声紋パスワードの便利性をさらに向上させ、使い勝手を上げられる。
【0075】
図5は本発明の声紋認装置の一つの実施例の構造模式図である。本実施例の声紋認装置は、本発明の
図1に示す実施例のフローチャートを実現できる。
図5に示すように、前記声紋認装置は、表示モジュール51、取得モジュール52および判定モジュール53を含む。
【0076】
その中に、表示モジュール51は、ユーザに文字列を表示する。前記文字列には、前記ユーザが設置した好みの文字が含まれ、前記ユーザが設置した好みの文字は前記文字列の中において前記好みの文字に対応する符号で表示される。
【0077】
その中に、好みの文字がどの符号に対応するかは、ユーザの事前設定によって決める。たとえば、ユーザが、0−9の10個の数字から「1」と「6」を好みの文字として選び、「1」に対応する符号を「#」、「6」に対応する符号を「@」とする。これによって、文字列「8291765」を「829#7@5」として表示される。
【0078】
本実施例には、好みの文字に対応する符号の表示形式は異なってもよい。その表示形式は、次のような形式を含めるが、それらに限らない。
【0079】
1、特殊符号、たとえば、キーボードの中の特殊符号「!」、「@」、「#」、「$」、「^」、「&」、「*」、「(」、「)」など。
【0080】
2、漢字、たとえば、「水」、「火」、「風」など。
【0081】
3、画像、たとえば、果物、小動物、漫画など。
【0082】
取得モジュール52は、前記ユーザが朗読した前記文字列の音声を取得し、前記音声の声紋識別ベクトルを取得する。本例には、取得モジュール52は、ユーザが朗読した「829#7@5」の音声を取得する。
【0083】
判定モジュール53は、前記音声の声紋識別ベクトルと前記ユーザが登録した声紋識別ベクトルとを比較し、声紋認証結果を判定する。
【0084】
前記声紋認証装置において、表示モジュール51は、ユーザに前記ユーザが設置した好みの文字を含む文字列を表示する。その中に、前記ユーザが設置した好みの文字は前記文字列の中において前記好みの文字に対応する符号で表示される。そして、取得モジュール52は、ユーザが朗読した前記文字列の音声を取得し、前記音声の声紋識別ベクトルを取得する。判定モジュール53は、前記音声の声紋識別ベクトルと前記ユーザが登録した声紋識別ベクトルを比較し、声紋認証結果を判定する。これで、ユーザの声紋を照合することによってユーザの身分を認証し、支払いの安全性をアップでき、また、ユーザからのパスワード入力が不要し、パスワード検証も要らない。したがって、利用過程の便利さと支払い効率をアップし、ユーザ好みで隠した文字が、パスワードを平文で表示したくないというユーザの心理要求を満足したので、ユーザ体験を向上し、声紋パスワードの使い勝手を上げられる。
【0085】
図6は本発明の声紋認装置のほかの一つの実施例の構造模式図である。
図5に示す声紋認装置と違うのは、
図6に示す声紋認装置は、さらに、音声識別モジュール54を含む。
【0086】
音声識別モジュール54は、取得モジュール52により前記音声の声紋識別ベクトルを取得する前に、さらに、前記音声に対して音声識別を行い、ユーザが朗読した前記符号の音声と前記ユーザが設置した好みの文字との一致性を判断する。
【0087】
取得モジュール52は、具体的には、音声識別モジュール54により前記ユーザが朗読した前記符号の音声と前記ユーザが設置した好みの文字との一致性を判定した場合、前記音声の声紋識別ベクトルを取得するステップを実行する。
【0088】
すなわち、認証過程では、ユーザが一つの文字列を朗読する必要があり、音声識別モジュール54は、ユーザが朗読した文字列の音声に対して音声識別を行い、前記ユーザが朗読した前記符号の音声と前記ユーザが設置した好みの文字との一致性を判断する。ユーザが好みの文字を正しく朗読した場合のみ、ユーザの朗読した文字列の音声を声紋認証モジュールへ伝送し、取得モジュール52により前記音声の声紋識別ベクトルを取得する。
【0089】
認証過程においては、録音詐欺を防ぐため、完全にランダムな文字列を使うことができる。認証過程で話した文字列をユーザ登録した声紋識別ベクトルにできるだけ近付けるために、平文表示の文字は文字列の中に含まれることができる。ただし、本実施例には、平文表示の文字を一回しか出ない。すなわち、平文表示の文字がそれぞれ異なる。それに対して、符号で隠した好みの文字は、平文表示の文字と違ってもいいし(ケース1)、同じであってもよい(ケース2)。たとえば、好みの数字が「1」 であり、「1」に対応する符号が「#」である場合、支払い提示の文字列が「2#763985」(ケース1)、あるいは、「2#763915」(ケース2)となる。
【0090】
本実施例には、判定モジュール53は、計算サブモジュール531および認証結果判定サブモジュール532を含むことができる。
【0091】
その中に、計算サブモジュール531は、前記音声の声紋識別ベクトルと前記ユーザが登録した声紋識別ベクトルとのマッチング値を計算する。具体的に、計算サブモジュール531は、マッチング値を計算するとき、本発明の
図2に示す実施例の方法を利用できるので、ここでその説明を省略する。
【0092】
認証結果判定サブモジュール532は、計算サブモジュール531により計算したマッチング値が予め設定した閾値より大きいか、またはそれと等しい場合、前記ユーザが認証を通過すると判定し、計算サブモジュール531により計算したマッチング値が予め設定した閾値より小さい場合、前記ユーザが認証を通過しないと判定する。その中に、前記予め設定した閾値は、具体的操作においてシステムの性能および/または操作要求によって自分で設定される。本実施例は予め設定した閾値の大きさを制限しない。
【0093】
さらに、前記声紋認証装置は、作成モジュール55と保存モジュール56を更に含むことができる。
【0094】
作成モジュール55は、表示モジュール51によりユーザに文字列を表示する前に、前記ユーザが設置した好みの文字と前記ユーザが設置した符号との間の対応関係を作成する。
【0095】
保存モジュール56は、作成モジュール55により作成した対応関係を保存する。
【0096】
例として、ユーザは、自分の好みで0−9の10個の数字から任意の数字を好みの文字として選ばれる。たとえば、「1」と「6」を好みの文字とする。そして、符号「#」が「1」に対応し、符号「@」が「6」に対応するように設置する。この場合、作成モジュール55は「1」と「#」の対応関係、および「6」と「@」の対応関係を作成する必要があり、保存モジュール56は、作成モジュール55により作成した対応関係を保存する必要がある。
【0097】
そして、表示モジュール51は、ユーザに少なくとも一つの文字列を表示する。前記文字列には、ユーザ設置の好みの文字が含まれ、前記ユーザが設置した好みの文字は前記文字列の中において前記好みの文字に対応する符号で表示される。
【0098】
その中に、表示モジュール51によりユーザに表示した文字列には、平文表示の文字が含まれてもよい。平文表示の文字平文表示の文字前記平文表示の文字がそれぞれ異なる。
【0099】
安全性をアップして、録音詐欺を防ぐために、表示モジュール51によりユーザに表示した少なくとも一つの文字列は、ルールがなく、完全にランダムな文字列である。また、もっと大きなサンプル空間を覆うために、文字列の中に数字が一回しか出ない。すなわち、表示モジュール51により表示した文字列の中に、平文表示の文字がそれぞれ異なる。たとえば、文字列が「32149658」でもよいが、「32149628」のように「2」を重複することがない。同時に、文字列には、ユーザ設置の好み数字が含まれるべきである。
【0100】
取得モジュール52は、前記ユーザが朗読した少なくとも一つの文字列の少なくとも一節の音声を取得し、前記少なくとも一節の音声の声紋識別ベクトルをそれぞれ取得し、取得した前記少なくとも一節の音声の声紋識別ベクトルにより前記ユーザが登録した声紋識別ベクトルを算出する。
【0101】
保存モジュール56は、更に、前記ユーザが登録した声紋識別ベクトルを保存する
【0102】
さらに、音声識別モジュール54は、取得モジュール52により前記少なくとも一節の音声の声紋識別ベクトルを取得する前に、前記少なくとも一節の音声に対して音声識別を行い、ユーザが朗読した前記符号の音声と前記ユーザが設置した好みの文字との一致性を判断し、取得モジュール52は、具体的には、音声識別モジュール54により前記ユーザが朗読した前記符号の音声と前記ユーザが設置した好みの文字との一致性を判定した場合、前記少なくとも一節の音声の声紋識別ベクトルを取得するステップを実行する。
【0103】
すなわち、ユーザが朗読した各文字列は、いずれもサーバ端末でテキストマッチングを行う。ユーザが好みの数字を正しく朗読した場合だけ、モデリングへ進む。そうでなければ、ユーザが再度数字列を朗読すべきである。
【0104】
本実施例において、取得モジュール52が音声の声紋識別ベクトルを取得するステップは次の通りである。具体的には、取得モジュール52によって、前記音声の声学特徴を抽出して、普通背景モデル条件における前記声学特徴の事後確率を計算し、前記事後確率がガウス分布に従い、前記事後確率の期待値が前記音声の声紋識別ベクトルである。具体的に、取得モジュール52が音声の声紋識別ベクトルを取得する方法は、本発明の
図3に示す実施例を参照できるので、ここでその説明を省略する。
【0105】
前記声紋認証装置は、本質的に声紋識別とユーザパスワードを結合して声紋支払いシステムのユーザ体験を改善することである。ランダムな文字列の中に一部の文字を隠して表示することによって、声紋検証の安全性をアップし、同時に、ユーザニーズで隠した文字が、パスワードを表示したくないユーザの心理要求を満足できる。そのほか、隠し数字が非常に少なく、従来の長いパスワードと同様ではない。また、特殊符号と関連つけて覚えやすい。
【0106】
前記声紋認証装置は、支払いの安全性をアップした。利用者の声紋情報を利用したので、真似にくく、安全度を上げられる。なお、便利さを増加し、また、ユーザからのパスワード入力が不要し、パスワード検証も要らない。したがって、利用過程の便利さと支払い効率をアップする。単純な声紋支払いに比べて、本発明実施例が提供した声紋認証装置は、声紋とユーザ好みを結合して、声紋安全性と従来のパスワード安全性を重なった効果を有する。ユーザ好みで隠した文字が、パスワードを平文で表示したくないユーザの心理要求を満足でき、ユーザ体験を向上した。なお、本発明実施例が提供した装置は、声紋の使い勝手を上げられる。従来の声紋パスワードが退屈であり、本発明実施例は、特殊文字、画像、または漢字などの符号を結合して、声紋パスワードの便利性をさらに向上させ、使い勝手を上げられる。
【0107】
説明すべきなのは、本発明の表現には、用語「第一」、「第二」などが単なる表現目的に使われ、相対重要性を示したり暗示することはない。また、本発明の表現には、別に説明がなければ、「複数」の意味が二つまたは二つ以上である。
【0108】
フローチャートまたは他の方式で説明した過程や方法は、一つまたは複数の、判定ロジック性能または過程のステップの実行できるコマンドのコードのモジュール、セクターあるいは部分を含む。本発明の望ましい実施方式の範囲は、他の実現を含み、表示または討論の順序に従わなくてもよい。述べられた機能に基づいて基本的に同様な方式または逆の順序で、その機能を実行することができる。これは、本発明実施例の所属技術領域の技術者に理解される。
【0109】
また、理解すべきなのは、本発明の各部分は、ハードウェア、ソフトウェア、部品またはそれらの組み合わせで実現できる。前記実施例には、複数のステップまたは方法がメモリに保存され、適当なコマンド実行システムのソフトウェアまたは部品で実現される。たとえば、ハードウェアで実現する場合、他の実施方式と同じように、本領域周知の下記の任意一つまたはそれらの組み合わせで実現できる。すなわち、デジタル信号に対してロジック機能を実現するロジックゲート回路を有する個別のロジック回路、ロジックゲート回路を組み合わせた適当な専用IC、プログラマブルゲートアレイ(Programmable Gate Array、以下、PGAと略す)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array、以下、FPGAと略す)などである。
【0110】
前記実施例の方法にある全部または一部のステップがプログラムにより関連のハードウェアを実行することで完成されることは、本技術領域の普通技術者に理解される。前記プログラムは一つの計算機の読み出し書き込み可能な記憶メディアに記憶される。当プログラムを実行するとき、実施例方法のステップの一つまたはそれらの組み合わせを含む。
【0111】
なお、本発明の各実施例の各機能モジュールを一つの処理モジュールに集中し、または、単独に存在し、あるいは、二つまたは二つ以上モジュールを一つの処理モジュールに集中することができる。前記集成したモジュールは、ハードウェアの形式、または、ソフトウェアの形式で実現される。前記集成したモジュールは、ソフトウェアの形式で実現し、また、独立の製品として販売や使用するとき、計算機の読み出し書き込み可能な記憶メディアに記憶されることができる。
【0112】
前記記憶メディアは、ディスク、または、CDなどである。
【0113】
本説明書には、用語「一つの実施例」、「いくつかの実施例」、「例示」、「具体的例示」などは、当実施例や例示の具体的特徴、構造、材料が本発明の少なくとも一つの実施例や例示に含まれることを意味する。本説明書には、前記用語の説明が必ずしも同じ実施例や例示を意味しない。また、説明の中の具体的特徴、構造、材料は、任意の一つやいくつかの実施例や例示に適当な方式で結合されることができる。
【0114】
以上本発明の実施形態を示して説明したが、当業者にとって理解できるのは、上記の実施形態は例示的なものに限らず、本発明を制限するように解釈される事が出来ない。本発明の原理と要旨から逸脱しない範囲で、これらの実施形態に対し様々な変更、修正、置換および変形をすることができる。