(58)【調査した分野】(Int.Cl.,DB名)
前記声紋モデルに含まれていないプリセットキーワードが前記第一の音声情報に含まれて搬送されているということを決定する時、前記音声分節を用いる前記声紋モデルを更新するステップは、前記声紋モデルに前記音声分節を加えることによって前記声紋モデルを更新するステップを備える:
請求項2に記載の方法。
前記声紋モデルにすでに含まれているプリセットキーワードが前記第一の音声情報に含まれて搬送されているということを決定する時、前記音声分節を用いる前記声紋モデルを更新するステップは、前記声紋モデルを訓練するステップを備える:
請求項2又は3に記載の方法。
【発明を実施するための形態】
【0017】
音声は人間同士のコミュニケーションにとって重要な搬送担体(キャリア)である。音声認識等の技術が急速に発達するにつれて、すでにユーザは、音声入力及び音声制御等の多くのシナリオにおいて、音声を介してコンピュータと対話できるようになった。言い換えれば、コンピュータの観点からすれば、ユーザ音声情報を収集する多くの機会があるということである。その上、ユーザの音声情報はユーザの電話メッセージ及びリアルタイム通話記録から収集できる。かかる実態に基づいて、本願は、ユーザが何らの追加登録操作を増やすことなく、ユーザの音声を収集できる任意のシナリオにおけるユーザの声紋モデリングを実施可能な解決策を提供し、よって声紋登録操作が複雑であった従来技術における問題を解決する。
【0018】
声紋認識には、テキスト依存型声紋認識及びテキスト非依存型声紋認識がある。テキスト依存型声紋認識システムは、登録中に、指定された内容に従って発音するようユーザに要求する。各ユーザの声紋モデルは正確に設定される。その上、ユーザは、認識中にも、指定された内容に従って発音しなければならない。全てのユーザの声紋モデルは「標準」であるので望ましい認識効果を達成できる。しかし、システムはユーザの協力を必要とし、ユーザの発音が指定された内容に準じていなければ、ユーザは正しく認識されることはない。理論的には、テキスト非依存型声紋認識システムは話者の発音した内容を特定しなくてもよい。しかし、モデルの設定は比較的難しく、理想的な認識効果を実際の適用中に達成することができない。
【0019】
認証効果を保証するため、本願において提供される解決策は「テキスト依存型」声紋認識技術に対して提案され、その解決すべき課題は、ユーザに対して追加の操作を課さずに、どのようにして、ユーザが「指定された内容」を発声できるようにするかである。
【0020】
この解決策の実施中、発明者は、特定の適用シナリオにおいて、ユーザはその適用シナリオに関するキーワードを発声する可能性が極めて高いことを見出した。例えば、ユーザが音声(例えば、電話又は音声メッセージ等の方法で)で製品照会をする場合、ユーザは、名称、モデル、機能、部品、及び標準的な不具合等の製品のキーワードのうちの1つ以上をほぼ必然的に発声する可能性がある。ユーザが音声制御操作を行う場合は、予め多くの音声制御命令も定義されており、類似する様々なシナリオがある。かかる実態に基づいて、声紋認識が適用される異なるシナリオに対して、これらのシナリオにおいて高頻度で現れる1つ以上のキーワードに関して事前に統計処理がなされてもよく、高頻度の用語は「指定された内容」として定義される。こうして、ユーザが音声対話中にこれらのキーワードを一旦発声すると、システムはユーザの声紋モデリングを実施してもよい。
【0021】
当業者が本願における技術的解決策を良く理解できるように、本願の実施の形態における技術的解決策を、本願の実施の形態における添付の図面を介して詳細に説明する。明らかに、説明する実施の形態は、単に本願の実施の形態の一部に過ぎず、実施の形態の全てではない。本願の実施の形態に基づいて、当業者によって得られる他の実施の形態は全て本願の保護適用範囲に含まれる。
【0022】
図1は、本願によるユーザ声紋モデルを構築するための方法のフロー図を示し、この方法は以下のステップを含むことができる。
ステップS101:ユーザによって入力される音声情報を受信する;
ステップS102:モデリング要件を満たすプリセットキーワードが音声情報に含まれて搬送されているかどうかを判断する;
ステップS103:判断結果が肯定である場合、モデリング要件を満たすプリセットキーワードに対応する音声分節を、音声情報から取り込む;そして、
ステップS104:ユーザの声紋モデルを、音声分節を用いて構築する。
【0023】
上記の解決策を更に以下で詳細に示す。
理論的には、本願の解決策は、音声入力、音声制御、及び電話メッセージ等のユーザの音声を収集できる何れのシナリオにも実施できる。明らかではあるが、実際の適用中に、以下の要因を更に考慮する必要がある。すなわち、シナリオは声紋認識要件を有するかどうか、現在話しているユーザの身元を判断できるかどうか、ユーザの音声の長さ(計算の複雑さに関わる)、キーワードを含んで搬送する音声分節を効果的に収集できるかどうか(収集効率に関わる)等。
【0024】
典型的な適用シナリオは、例えば、自動音声応答(IVR)システムにおける「1文が1つの問題を記述する」である。このシステムは、発信者IDに従って、又は、ユーザが手動で入力した検証情報によって、又は他の方法で、ユーザの身元を確認できる。「1文」の音声長さは後続の処理に向いている。その上、ユーザは、多くの特定のサービスシナリオにおいて、大抵はいくつかのキーワードを声に出す。例えば、オンライン取引シナリオで関与する可能性のあるキーワードには、注文、受領、納品、金額等が含まれる。銀行及び支払等のシナリオで関与する可能性のあるキーワードには、振込、残高、口座、パスワード等が含まれる。
【0025】
加えて、ユーザがパーソナル端末を使う場合、オペレーティングシステム層又は様々な特定のアプリケーション層のどちらか一方で用いる様々な音声制御命令をすべて使って、声紋モデリング中に音声情報を収集してもよい。最初に、ユーザは、個人所有の端末を用いる場合、様々な検証操作を行ってもよい。例えば、ユーザが携帯電話のロックを解除するとき又はいくつかの特定のアプリケーションを開始するとき、ユーザに、ジェスチャ(意思表示)又は数字パスワードの入力を要求し、そうすることによって、最初に、ユーザの本人確認の要件を満たすようにしてもよい。加えて、オペレーティングシステム又は特定のアプリケーションのどちらか一方が用いる音声制御命令はそれ程長くなく、それらの多くは予め定義されてもいる。例えば、Android携帯電話における音声対話機能は、音声命令「オーケー、グーグル」又は「オーケー、グーグル、ナウ」を用いて起動される。これらのキーワードを、全て、ユーザ声紋モデリングの実施に用いてもよい。
【0026】
計算の複雑さに関する要件がそれ程高くない場合、手動応答プラットフォームへ実際にアクセスしたユーザ呼出しが記録されてもよく、ユーザの音声及び手動応答プラットフォームの音声は、ユーザの音声部分だけが後続の各ステップで解析されるように、音響特徴に従って区別される。このように、キーワードを含んで搬送する音声分節は、ユーザの長じ時間にわたる呼出し全体から、より効果的に収集できる。
【0027】
明らかに、上記の適用シナリオはいずれも単なる例示のために用いられ、本願の解決策に対する制限として理解すべきではない。
【0028】
ステップS101によれば、ユーザの音声情報は任意の適用シナリオにおいて受信できる。明らかに、最終的な要件は、声紋モデリングを実施することであるため、最初に別の方法(ユーザID、検証パスワード、ジェスチャ、指紋等の)で現在の話者の身元を確認する必要がある。
【0029】
ステップS102において、モデリング要件を満たすプリセットキーワードが音声情報内に含まれて搬送されているかどうかを判断する。ここで、1つ以上のキーワードを実際の要件に従って予め設定してもよい。複数のキーワードを予め設定しておくことは以下の点で有利である。すなわち、一方では、モデリングが成功する可能性が高まる、すなわち、複数のキーワードのうちの少なくとも1つをユーザが声に出しさえすれば声紋モデリングを実施することができる、また他方では、いくつかの適用シナリオにおいて、高い安全性要件を有すると共に、検証のために複数の声紋分節を用いることが要求されてもよい。
【0030】
このステップでは、プリセットキーワードが音声情報に含まれて搬送されているかどうかを、音声認識関連技術を用いて判断する必要がある。音声認識システムのモデルは、一般に、音声から音節への確率の計算及び音節から単語への確率の計算にそれぞれ対応する音響モデル及び言語モデルを含む2つの部分を含む。本願の解決策の実際の要件に従って、音声情報に関する認識は、以下の2つの観点から実施されてもよい。
【0031】
a)音響特徴を用いる:
人間の言語は全て一連の連続した音節から成り、連続する音情報は音節ストリームと称される。音響学の観点から、音節ストリームは独立したいくつかの音節に分割されてもよい。加えて、各発音音節はその固定音響特徴を有する。音声認識技術は、2つの態様に基づく音響モデルを確立し、斯くして、音節ストリーム上の単語分割を実施する。しかし、本願において、その技術を直接的に利用してユーザ音声情報に関する認識を実施してもよく、特定の解決策は以下のステップを含む。
音響モデルを用いることによって音声情報を分割して少なくとも1つの音声分節を取得するステップ;及び、
取得した音声分節又はそれらの組み合わせがモデリング要件を満たすプリセットキーワードの音響特徴に一致するかどうかを判断し、肯定の場合、モデリング要件を満たすプリセットキーワードが音声情報に含まれて搬送されていると判断するステップ。
【0032】
例えば、プリセットキーワードには、振込、残高、口座、及びパスワードが含まれており、システムはこれら4つのキーワードの音響データ又は音響特徴データを予め格納しておく必要がある。受信したユーザの音声が「残高照会」であった場合、いくつかの音声分節(特定の分割結果は、異なる分割アルゴリズムに従って異なっていてもよいが、ここでは検討しない)が、音響モデルにより分割することによって最初に取得されてもよく、これらの分節又は分節の組み合わせが「残高」の音響特徴と一致する部分を含んでいることが比較時に認識される。したがって、モデリング要件を満たすキーワードが音声情報に含まれて搬送されていると判断できる。
【0033】
b)言語特徴を用いる:
テキスト単語分割は自然言語処理技術の分野に属する。純粋な音響学レベルでの単語分割と比較して、テキスト単語分割技術はより成熟しており、より良好な実際の効果がある。加えて、同じ発音は多数の種類のテキストに対応してもよく、そのため、マッチングの間にテキストの内容を直接比較することによってよりよい効果を達成できることが分かる。本願において、ユーザ音声情報の認識は、音声認識技術とテキスト単語分割技術と組み合わせを直接用いることによって実施されてもよい。特定の解決策は以下のステップを含む。
音声情報に関する音声認識を行って対応するテキスト情報を取得するステップ;
言語モデルを用いることによってテキスト情報を分割して少なくとも1つのテキスト分節を取得するステップ;及び、
取得したテキスト分節又はそれらの組み合わせがモデリング要件を満たすプリセットキーワードのテキスト内容と一致するかどうかを判断し、肯定の場合、モデリング要件を満たすプリセットキーワードが音声情報に含まれて搬送されていると判断するステップ。
【0034】
上記の2つの解決策によれば、当業者は実際の要件に従って柔軟に選択することができる。例えば、異なる言語の特性に従って、西洋言語(英語及び仏語等)の各単語は比較的完全な意味を有するが、中国語の各文字はこの特性を有していない。したがって、音響特徴を単に利用する処理方法は現在のところ西洋言語を処理する方が適している。中国語は、言語内の特徴に関して処理されることが推奨される。明らかに、本願は音声認識アルゴリズム又は単語分割アルゴリズムに集中せず、それが対応する要件を満たす限り、任意の技術的手段を本願に適用することができることに留意されたい。
【0035】
モデリング要件を満たすプリセットキーワードが音声情報に含まれて搬送されていることがステップS102で確認された場合、対応する音声分節は、更にステップS103において音声情報から取り込まれる。判断がステップS102において音声分節に基づいてなされた場合、音声分節は音声分節のマッチング結果に従って直接取り込まれる。判断がステップS102においてテキスト分節に基づいてなされた場合、音声分節は、テキスト分節のマッチング結果から逆に推定することによって取得される対応する音声分節の位置に従って取り込まれる。例えば、ユーザが「口座の残高を照会したい」と話すと、ここで「口座」又は「残高」がモデリング要件を満たすプリセットキーワードである。音声情報全体における2つの単語の相対位置は、ステップS102の処理手続に従って判断することができ、続いて2つの単語「口座」及び「残高」の音響分節が取り込まれる。
【0036】
ステップS104では、声紋モデリングが、ステップS013で取り込まれる音響分節を用いることによって行われる。特定のモデリング方法は本願とは関連がなく、ここで詳細に説明しない。最終的に、モデリング結果はステップS101において判断された話者身元識別子に関連して格納されて、ユーザの声紋モデルライブラリを形成する。
【0037】
上記の方法を適用することにより、ユーザが他の音声機能を用いる場合、声紋モデリングが「付随的に」なされてもよく、ユーザによる使用が容易になる。その上、「キーワード」を用いることにより、「テキスト依存」のモデリング要件を満たすこと、及び高いモデリング成功率を保証することの両方が可能になる。
加えて、上記の方法は、更に、初回の声紋情報登録への適用に加え、声紋モデルの更新にも適用できる。特定の更新ストラテジは、以下の2つの観点から考慮することができる。
【0038】
1)モデルの改良:
声紋モデルを構築する上記の手順は多数のデフォルトキーワードをサポートしており、ユーザは音声対話中に必ずしも全てのキーワードを話せるとは限らない。しかし、ユーザの音声対話は普通の行動であるので、声紋モデルの構築を初回に完了した後、ユーザの音声情報は、ユーザとの対話の後続の手順において再度収集することができる。新規に収集された音声情報が以前のモデルに含まれていないキーワードを含んでいた場合、新しいキーワードを利用して既存の声紋モデルを補完してもよい。
【0039】
具体的には、特定のユーザに対し、ユーザの声紋モデルが現時点で存在すると仮定し、ステップS102において、「モデリング要件を満たすプリセットキーワード」は更に「ユーザの現在の声紋モデルに含まれていないプリセットキーワード」として定義されてもよい。
【0040】
例えば、システムによって指定されるキーワードには、「振込」、「残高」、「口座」、及び「パスワード」が含まれている。ユーザXが初回に声紋情報を登録する場合、2つのキーワード、「口座」及び「残高」、に対する声紋モデルがそれぞれのユーザに対して確立されている。その後、ユーザXの音声情報「口座のパスワードを変更したい」が更に収集される。ステップS102によれば、「口座」及び「パスワード」の両方はプリセットキーワードに属すると判断でき、ここで「パスワード」はユーザXの現在の声紋モデルに含まれていないプリセットキーワードである。したがって、声紋モデリングはその後「パスワード」を用いて行われ、モデリング結果は、ユーザXの声紋モデルライブラリに追加される。
【0041】
この方法を適用することによって、ユーザの声紋モデルを常に改良し、様々な特殊要件を満たすようにしてもよい。その上、システムが、セキュリティ性能についてより高い要件を有する場合、ユーザの声紋モデルに含まれるキーワードの数は、キーワード適用前のある特定の数よりも多くなければならないことを指定してもよい。音声情報収集を1回行っただけでは、ユーザの声紋モデリングを実施できない場合、ユーザの音声情報を複数回収集することによってユーザの声紋モデリングを完了するよう、この実施の形態の方法を採用してもよい。
【0042】
2)モデルの訓練:
生体認識技術と機械学習技術は密接に関係している。多くの適用シナリオにおいて、モデルは、一般に、サンプルを複数回収集することによって訓練され、それによって、認識の精度及び失敗の許容範囲等の多くの態様における性能を高めている。本願の解決策のために、声紋モデルの訓練は、同じキーワードに対する同じユーザの音声情報を複数回収集することによって行ってもよい。
【0043】
ここでの要件は、1)の要件とは逆であることが見て取れる。具体的には、同じキーワードに対する声紋サンプルの複数回の収集を実施するため、ステップS102において、「モデリング要件を満たすプリセットキーワード」は更に「ユーザの現在の声紋モデル内に含まれているプリセットキーワード」として定義されるべきである。
【0044】
例えば、システムによって指定されるキーワードには、「振込」、「残高」、「口座」、及び「パスワード」が含まれる。ユーザXが初回に声紋情報を登録するとき、2つのキーワード、「口座」及び「残高」に対して声紋モデルがそれぞれのユーザのために確立されている。後続の音声情報収集工程において、2つのキーワードの声紋モデルが常に訓練されるように、2つのキーワード、「口座」及び「残高」に対してのみ注意が払われてもよい。
【0045】
実際の適用において、いくつかの制限条件が、ユーザの音声情報を無限に収集することを防ぐよう設定されてもよい。例えば、1つのキーワードに対して収集される声紋サンプルの数が閾値に達すると、声紋サンプルはそのキーワードに対してその後全く収集されない。
【0046】
更に、特定の適用要件と選択された訓練アルゴリズムとに従って、複数回収集されたサンプルは、本願において限定されることのない平均化及び同時保持等の方法を用いて処理されてもよい。
【0047】
上記2つの更新ストラテジは、独立に実施しても、組み合わせて実施してもよい。実際には、マクロ的な観点から、2つの機能の実施は、「モデリング要件を満たすプリセットキーワード」が定義されていないとしても、影響を受けない。言い換えれば、ステップS102が実行される度に、この音声情報に含まれて搬送される全てのキーワードは、可能な限り多く取得される。新しい声紋モデルが、以前のモデルに含まれていないキーワードに対して確立され、以前のモデルに含まれているキーワードは、以前のモデルを訓練するために用いられる。その上、上記2つの機能のうちの一方を選択して実施してもよい。本願の解決策を適用することにより、ユーザに対して何ら問題を生じることなく、学習が可能になる。かように、ユーザの声紋モデルは、徐々に完成させることが重要である。
【0048】
本願によって提供されるユーザ声紋モデルを構築するための方法について上で述べた。同様の概念に基づいて、本願は更に声紋に基づくユーザ身元検証方法を提供する。
図2を参照すると、この方法は以下のステップを含んでも良い。
ステップS201:ユーザによって入力された音声情報を受信する。
ステップS202:検証要件を満たすプリセットキーワードが音声情報に含まれて搬送されているかどうかを判断する。
ステップS203:判断結果が肯定である場合、検証要件を満たすプリセットキーワードに対応する音声分節を音声情報から取り込む。
ステップS204:音声分節の声紋特徴を抽出する。
ステップS205:ユーザの身元を、ユーザの声紋特徴と予め構築された声紋モデルとを用いて検証する。
ステップS201乃至ステップS203は技術的実施という点でステップS101乃至ステップS103と基本的に全く同じであり、その違いは適用シナリオが異なるという点のみにある。ステップS204乃至ステップS205は通常の声紋検証ステップであり、詳細には説明しない。本願の解決策と従来の声紋検証解決策との間の相違は明確に以下の通りである。
【0049】
声紋認識は、主に、登録と適用とを含む2つのステップを含むことが本願の背景技術の記載に従って認められるが、ここで、登録ステップは、適用部分のために必要なデータを準備する。本願の方法を適用して実施される声紋モデリングは、主に、様々な適用要件に当てはまる。加えて、いくつかの特殊適用要件も、本願の解決策の特徴に従って満たしてもよい。
【0050】
厳密に言えば、声紋認識を含む生体特徴認識技術の適用シナリオは、2つのカテゴリ、すなわち検証と本人確認とに更に細かく分類されてもよい。検証とは、ユーザは、ユーザ自身により宣言された同一人物であるかどうかを認証することであり、例えば、指紋ロック、声紋ロック等を指す。本人確認とは、ユーザの身元を判断することであり、例えば、公安機関が事件現場の指紋又は記録を調査することによって犯罪を判断することを指す。検証の要件は本人確認の要件よりも少ないと知ることは容易である。
【0051】
本願で提供される技術的解決策は、「検証」要件に基づいて提案されており、通常の声紋検証と比較して、少なくとも以下の特徴を有する。
【0052】
第1に、本願によって提供される解決策は「テキスト依存型」声紋技術に基づいているが、解決策が適用される場合、ユーザが「指定された内容」を意図的に発声する必要はなく、システムがユーザを意図的に促したり案内したりする必要もない。その理由は、ユーザが他の操作を実行するとき、そのついでに上記要件の全てを満たすことができるからである。
【0053】
例えば、銀行のセルフサービスの音声サービスシステムにおいて、ユーザがサービス番号に電話をかけ、セルフサービス音声プロンプトに従って「1文が1つの問題を記述する」部分において「残高を照会」を声に出す場合、システムは、情報に従って音声認識、意味認識、要件解析、及び他の処理を実行し、サービスが個人のプライバシに関連し、ユーザの身元を更に認証する必要があると判断してもよい。従来の処理方法は、プロンプト「あなたの口座パスワードを入力し、最後に#を入力してください」がユーザに提供され、次いで、ユーザがプロンプトに従って操作して検証を完了することであってもよい。本願で提供される解決策を利用することによって、キーワード「残高」に対するモデリングが以前にユーザに対して完了していれば、ユーザが「残高を照会」を声に出した後、声紋を用いることによって検証を実施でき、ユーザがパスワードを入力する必要はなくなる。「指定された内容」を意図的に発声する必要がなければ、声紋検証の利便性を享受できる。
【0054】
次に、ユーザが発声した特定の内容は不確かではあるが、実際は、「キーワード」の特性に従えば、ユーザがこれらのキーワードを発声した確率は高く、この確率は、キーワードの数が増加するにつれて明らかに高まるであろう。声紋検証に失敗したとしても、通常の検証方法を更に用いてもよい。例えば、上記の例では、パスワードを手動で入力してもよく、そうすることがユーザにとって更なる問題とはならない。
【0055】
更に、ステップS203において「検証要件を満たすプリセットキーワード」を定義することによって、システム性能を更に高めてもよく、又は特定の要件を更に満たしてもよい。例えば、「検証要件を満たすプリセットキーワード」は、システムが声紋抽出又はマッチング等の不正な処理を引き続き実行してしまわないように、ユーザの現在の声紋モデルに含まれているプリセットキーワードとして定義されてもよい。その上、支払取引等の安全性に関してより高い要件を有する適用シナリオのために、ユーザ音声に含まれて搬送されるキーワードの数も、「検証要件を満たすプリセットキーワード」において定義されてもよい。数の要件が満たされない場合、この方法は安全性が不十分であると見なされ、この時点で、声紋検証方法を放棄してもよく、より安全な別の方法を代わりに用いてもよい。
【0056】
最後に、本願によって提供される声紋モデリング方法及び声紋検証方法は、同じ原理に基づいている。したがって、2つの解決策は様々な方法で統合されてもよいことが分かる。例えば、検証手順後、この検証に用いるユーザの音声情報を依然として用いて声紋モデルを完成させてもよい。代表的な適用において、この検証で用いる音声情報がユーザの現在の声紋モデルに含まれていないプリセットキーワードを含んで搬送しているかどうかが最初に判断され、それが肯定である場合、キーワードに対応する音声分節が音声情報から取り込まれ、ユーザの声紋モデルが、音声分節を用いて更新される。特定の更新方法は先の実施の形態を参照して得てもよいが、ここではその内容を繰り返さない。加えて、技術的手順の観点から、身元検証が成功するかどうかは、声紋モデルの更新に影響を及ぼさない。明らかに、安全性の向上が考慮される場合、声紋モデルを更新する操作を、更にユーザ身元検証に成功した場合に起動してもよい。その上、「身元検証に成功する」ことは、声紋身元検証に限定されない。
【0057】
要約すれば、従来技術に比較して、本願は、ユーザ声紋情報の登録及び検証を、ユーザが他の音声に基づく操作を行ったときに付随的に実施できる。したがって、ユーザによる使用を容易にしていることが、主たる有利な点である。その上、特定の適用シナリオに対して特定のキーワードを設定することによって、「テキスト依存」の利点を保つことができ、より高い成功率も元の不確かな適用シナリオにおいて保証できる。
【0058】
上記の方法の実施の形態に対応して、本願は、更にユーザ声紋モデルを構築するための装置を提供する。
図3を参照すると、この装置は、
ユーザによって入力される音声情報を受信するよう構成された音声情報受信モジュール110と;
モデリング要件を満たすプリセットキーワードが音声情報に含まれて搬送されているかどうかを判断するように構成されるモデリングキーワード判断モジュール120と;
判断結果が肯定である場合、音声情報から、モデリング要件を満たすプリセットキーワードに対応する音声分節を取り込むよう構成される音声分節取込モジュール130と;
音声分節を用いることによってユーザのための声紋モデルを構築するよう構成される声紋モデル構築モジュール140とを含んでもよい。
【0059】
本願の特定の実施の形態によれば、モデリングキーワード判断モジュール120は、特に、
ユーザの声紋モデルが既に現時点で存在している場合、声紋モデルに含まれていないプリセットキーワードが音声情報に含まれて搬送されているかどうかを判断する;
又は、
ユーザの声紋モデルが既に現時点で存在している場合、声紋モデル内に既に含まれているプリセットキーワードが音声情報に含まれて搬送されているかどうかを判断するように構成されてもよい。
本願の特定の実施の形態によれば、声紋モデル構築モジュール140は、特に、
ユーザの声紋モデルが既に現時点で存在している場合、音声分節を用いることによって声紋モデルを更新するように構成されてもよい。
【0060】
本願の特定の実施の形態によれば、モデリングキーワード判断モジュール120は、特に、
音響モデルを用いることによって音声情報を分割して少なくとも1つの音声分節を取得し;
取得した音声分節又はそれらの組み合わせがモデリング要件を満たすプリセットキーワードの音響特徴に一致するかどうかを判断し、肯定の場合、モデリング要件を満たすプリセットキーワードが音声情報内に含まれて搬送されていることを判断する、よう構成されてもよい。
又は、
モデリングキーワード判断モジュール120は、更に、具体的には、
音声情報に関する音声認識を行って対応するテキスト情報を取得し;
言語モデルを用いることによってテキスト情報を分割して少なくとも1つのテキスト分節を取得し;
取得したテキスト分節又はそれらの組み合わせがモデリング要件を満たすプリセットキーワードのテキスト内容と一致するかどうかを判断し、肯定の場合、モデリング要件を満たすプリセットキーワードが音声情報内に含まれて搬送されていることを判断する、ように構成されてもよい。
【0061】
上記の方法の実施の形態に対応して、本願は更に声紋に基づくユーザ身元検証装置を提供する。
図4を参照すると、この装置は、
ユーザによって入力される音声情報を受信するよう構成された音声情報受信モジュール210と;
検証要件を満たすプリセットキーワードが音声情報に含まれて搬送されているかどうかを判断するよう構成された検証キーワード判断モジュール220と;
判断結果が肯定である場合、音声情報から、検証要件を満たすプリセットキーワードに対応する音声分節を取り込むよう構成された音声分節取込モジュール230と;
音声分節の声紋特徴を抽出するよう構成された声紋特徴抽出モジュール250と;
ユーザの声紋特徴と予め構築された声紋モデルとを用いることによってユーザの身元を検証するよう構成された検証モジュール260とを含んでいてもよい。
【0062】
本願は更に声紋に基づくユーザ身元検証システムを提供し、このシステムは、ユーザ声紋モデルを構築するための装置及び上で説明したようなユーザ身元検証装置を含んでいてもよい。
【0063】
実際に、上記の2つの装置におけるいくつかのモジュールによって実施される機能は、例えば、以下の点で全く同じである。
音声情報受信モジュール110と、音声情報受信モジュール210;
音声分節取込モジュール130と、音声分節取込モジュール230;
そして、検証キーワード判断モジュール120と検証キーワード判断モジュール220との間の相違は、単に、判断を行うルールが異なる点にある。したがって、実際の適用中、これらの同一又は類似モジュールは、
図5に示すように、システム内で完全に多重化されてもよい。
【0064】
音声情報受信モジュール310は、音声情報受信モジュール110と音声情報受信モジュール210との機能を統合している。
キーワード判断モジュール320は、検証キーワード判断モジュール120と検証キーワード判断モジュール220との機能を統合している。
音声分節取込モジュール330は、音声分節取込モジュール130と音声分節取込モジュール230との機能を統合している。
声紋モデル構築モジュール340、声紋特徴抽出モジュール350、及び検証モジュール360の機能は、それぞれ、上記の装置において同じ名称のモジュールの機能と全く同じである。
【0065】
上記の装置における機能の実施プロセス及び全てのユニットの効果は、特に、上記の方法における対応するステップの実施プロセスを参照してもよく、ここでは繰り返さない。
【0066】
実施方法の上記の説明に基づいて、当業者は、本願が、必要な万能ハードウェアプラットフォームと組み合わせて、ソフトウェアによって実施されてもよいことを明確に理解するであろう。かかる理解に基づいて、本質的に本願の技術的解決策、又は、先行技術に寄与する部分は、ソフトウェア製品の形態で具現化されてもよい。ソフトウェア製品は、ROM/RAM、磁気ディスク、又は光ディスク等の記憶媒体内に格納されてもよく、コンピュータデバイス(パーソナルコンピュータ、サーバ、ネットワークデバイス等であってもよい)が、本願の全ての実施の形態又は実施の形態のある特定の一部における方法を実行することを可能にするいくつかの命令を含んでいてもよい。
【0067】
明細書に記載する様々な実施の形態は進歩的な方法で説明されている。実施の形態間の同一又は類似の部分は互いに参照してもよい。各実施の形態については、他の実施の形態とは異なる部分に焦点を当てて説明した。特に、装置又はシステムの実施の形態は、方法の実施の形態と基本的に類似しており、その結果、説明は簡単であり、関連部分については、方法の実施の形態における部分の説明を参照してもよい。上で説明した装置又はシステムの実施の形態は単なる例示であり、ここで別々の部分として示したモジュールは物理的に分離されても、されなくてもよい。本願の実施中、モジュールの機能は、ソフトウェア及び/又はハードウェアの同じ1つ以上の断片の形態で実施されてもよい。この実施の形態の解決策の目的は、実際の要件に従って、そのモジュールの一部又は全部を選択することによって実施されてもよい。当業者は、創意工夫をすることなく本願を理解し、実施してもよい。
【0068】
本願の特定の実施は上で説明されている。当業者は、いくらかの改良及び改変を本願の原理から逸脱することなく行うことができ、これらの改良及び改変は、本願の保護適用範囲に含まれるとして見なすべきであることに留意されたい。
以下、本発明の実施の態様の例を列挙する。
[第1の局面]
ユーザによって入力される音声情報を受信するステップと;
モデリング要件を満たすプリセットキーワードが前記音声情報に含まれて搬送されているかどうかを判断するステップと;
前記判断結果が肯定である場合、前記音声情報から、モデリング要件を満たす前記プリセットキーワードに対応する音声分節を取り込むステップと;
前記音声分節を用いることによって前記ユーザのための声紋モデルを構築するステップとを備える:
ユーザ声紋モデルを構築するための方法。
[第2の局面]
モデリング要件を満たすプリセットキーワードが前記音声情報に含まれて搬送されているかどうかを判断する前記ステップは、
前記ユーザの前記声紋モデルが既に現時点で存在している場合、前記声紋モデルに含まれていないプリセットキーワードが前記音声情報に含まれて搬送されているかどうかを判断するステップ、又は、
前記ユーザの前記声紋モデルが既に現時点で存在している場合、前記声紋モデルに既に含まれているプリセットキーワードが前記音声情報に含まれて搬送されているかどうかを判断するステップを備える:
第1の局面に記載の方法。
[第3の局面]
前記音声分節を用いることによって前記ユーザのための声紋モデルを構築する前記ステップは、
前記ユーザの前記声紋モデルが既に現時点で存在している場合、前記音声分節を用いることによって前記声紋モデルを更新するステップを備える:
第1又は第2の局面に記載の方法。
[第4の局面]
モデリング要件を満たすプリセットキーワードが前記音声情報に含まれて搬送されているかどうかを判断する前記ステップは、
音響モデルを用いることによって前記音声情報を分割して少なくとも1つの音声分節を取得するステップと;
前記取得した音声分節又はそれらの組み合わせがモデリング要件を満たす前記プリセットキーワードの音響特徴に一致するかどうかを判断し、肯定の場合、モデリング要件を満たす前記プリセットキーワードが前記音声情報に含まれて搬送されていることを判断するステップとを備える:
第1の局面に記載の方法。
[第5の局面]
モデリング要件を満たすプリセットキーワードが前記音声情報に含まれて搬送されているかどうかを判断する前記ステップは、
前記音声情報に関する音声認識を行って、対応するテキスト情報を取得するステップと;
言語モデルを用いることによって前記テキスト情報を分割して少なくとも1つのテキスト分節を取得するステップと;
前記取得したテキスト分節又はそれらの組み合わせがモデリング要件を満たす前記プリセットキーワードの前記テキスト内容と一致するかどうかを判断し、肯定の場合、モデリング要件を満たす前記プリセットキーワードが前記音声情報に含まれて搬送されていることを判断するステップとを備える:
第1の局面に記載の方法。
[第6の局面]
ユーザによって入力される音声情報を受信するステップと;
検証要件を満たすプリセットキーワードが前記音声情報に含まれて搬送されているかどうかを判断するステップと;
前記判断結果が肯定である場合、前記音声情報から、検証要件を満たす前記プリセットキーワードに対応する音声分節を取り込むステップと;
前記音声分節の声紋特徴を抽出するステップと;
前記ユーザの前記声紋特徴と予め構築された声紋モデルとを用いることによって前記ユーザの前記身元を検証するステップとを備える:
声紋に基づくユーザ身元検証方法。
[第7の局面]
前記ユーザの前記声紋モデルに含まれていないプリセットキーワードが前記音声情報に含まれて搬送されているかどうかを判断するステップと;
前記判断結果が肯定である場合、前記音声情報から、前記含まれていないプリセットキーワードに対応する音声分節を取り込むステップと;
前記含まれていない前記プリセットキーワードに対応する前記音声分節を用いることによって前記ユーザの前記声紋モデルを更新するステップとを更に備える:
第6の局面に記載の方法。
[第8の局面]
ユーザによって入力される音声情報を受信するよう構成された音声情報受信モジュールと;
モデリング要件を満たすプリセットキーワードが前記音声情報に含まれて搬送されているかどうかを判断するよう構成されたモデリングキーワード判断モジュールと;
前記判断結果が肯定である場合、前記音声情報から、モデリング要件を満たす前記プリセットキーワードに対応する音声分節を取り込むよう構成された音声分節取込モジュールと;
前記音声分節を用いることによって前記ユーザのための声紋モデルを構築するよう構成された声紋モデル構築モジュールとを備える:
ユーザ声紋モデルを構築するための装置。
[第9の局面]
前記モデリングキーワード判断モジュールは、具体的には、
前記ユーザの前記声紋モデルが既に現時点で存在している場合、前記声紋モデルに含まれていないプリセットキーワードが前記音声情報に含まれて搬送されているかどうかを判断する;又は、
前記ユーザの前記声紋モデルが既に現時点で存在している場合、前記声紋モデルに既に含まれているプリセットキーワードが前記音声情報に含まれて搬送されているかどうかを判断するように構成された:
第8の局面に記載の装置。
[第10の局面]
前記声紋モデル構築モジュールは、具体的には、
前記ユーザの前記声紋モデルが既に現時点で存在している場合、前記音声分節を用いることによって前記声紋モデルを更新するよう構成された:
第8又は第9の局面に記載の装置。
[第11の局面]
前記モデリングキーワード判断モジュールは、具体的には、
音響モデルを用いることによって前記音声情報を分割して少なくとも1つの音声分節を取得し;
前記取得した音声分節又はそれらの組み合わせがモデリング要件を満たす前記プリセットキーワードの前記音響特徴に一致するかどうかを判断し、肯定の場合、モデリング要件を満たす前記プリセットキーワードが前記音声情報に含まれて搬送されていることを判断するように構成された:
第8の局面に記載の装置。
[第12の局面]
前記モデリングキーワード判断モジュールは、具体的には、
前記音声情報に関する音声認識を行って、対応するテキスト情報を取得し;
言語モデルを用いることによって前記テキスト情報を分割して少なくとも1つのテキスト分節を取得し;
前記取得したテキスト分節又はそれらの組み合わせがモデリング要件を満たす前記プリセットキーワードの前記テキスト内容と一致するかどうかを判断し、肯定の場合、モデリング要件を満たす前記プリセットキーワードが前記音声情報に含まれて搬送されていることを判断するように構成された:
第8の局面に記載の装置。
[第13の局面]
ユーザによって入力される音声情報を受信するよう構成された音声情報受信モジュールと;
検証要件を満たすプリセットキーワードが前記音声情報に含まれて搬送されているかどうかを判断するよう構成された検証キーワード判断モジュールと;
前記判断結果が肯定である場合、前記音声情報から、検証要件を満たす前記プリセットキーワードに対応する音声分節を取り込むよう構成された音声分節取込モジュールと;
前記音声分節の声紋特徴を抽出するよう構成された声紋特徴抽出モジュールと;
前記ユーザの前記声紋特徴及び予め構築された声紋モデルを用いることによって前記ユーザの前記身元を検証するよう構成された検証モジュールとを備える:
声紋に基づくユーザ身元検証装置。
[第14の局面]
前記システムは、第8乃至第12の局面のいずれかに記載のユーザ声紋モデルを構築するための前記装置と、第13の局面に記載の前記ユーザ身元検証装置とを備える:
声紋に基づくユーザ身元検証システム。