【文献】
田熊竜太,逐次話者適応を用いた並列処理型会議音声認識システムの検討 Parallel computing-based meeting speech recognition system with incremental on-line speaker adaptation,日本音響学会研究発表会議講演論文集 春I,日本,2002年 3月,PP.105−106
(58)【調査した分野】(Int.Cl.,DB名)
プリセット話者セグメンテーション及びクラスタリング・アルゴリズムに従って、前記オリジナル・オーディオ・ストリームにおける前記少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームを取得する前記ステップは、具体的には、
プリセット話者セグメンテーション・アルゴリズムに従って、前記オリジナル・オーディオ・ストリームを複数のオーディオ・クリップに分割する段階であり、前記複数のオーディオ・クリップに係る各オーディオ・クリップは、前記少なくとも1人の話者に係る同一話者のオーディオ情報だけを含む段階と、
プリセット話者クラスタリング・アルゴリズムに従って、前記少なくとも1人の話者に係る同一話者だけを含む前記オーディオ・クリップをクラスタリングする段階であり、前記少なくとも1人の話者に係る同一話者のオーディオ情報だけを含むオーディオ・ストリームを生成する、段階と、を含む、
請求項1または2に記載の方法。
前記少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームとオリジナル声紋特徴モデルとを別々にマッチングして、うまくマッチングしたオーディオ・ストリームを取得する前記ステップは、具体的には、
前記少なくとも1人の話者に係る各話者の前記オーディオ・ストリーム及び前記オリジナル声紋特徴モデルに従って、前記少なくとも1人の話者に係る各話者の前記オーディオ・ストリームと前記オリジナル声紋特徴モデルとの合致度を取得する段階と、
前記うまくマッチングしたオーディオ・ストリームとして最も高く、かつ、プリセット・マッチング・スレショルドより大きい合致度に対応するオーディオ・ストリームを選択する段階と、を含む、
請求項1乃至3いずれか一項に記載の方法。
前記オリジナル声紋特徴モデルを生成するために前記うまくマッチングしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用して、前記オリジナル声紋特徴モデルを更新する前記ステップは、具体的には、
前記うまくマッチングしたオーディオ・ストリーム及び前記プリセット・オーディオ・ストリーム訓練サンプルに従って、補正済み声紋特徴モデルを生成する段階であり、前記プリセット・オーディオ・ストリーム訓練サンプルは、前記オリジナル声紋特徴モデルを生成するためのオーディオ・ストリームである段階と、
前記オリジナル声紋特徴モデルを前記補正済み声紋特徴モデルに更新する段階と、を含む、
請求項2に記載の方法。
オリジナル・オーディオ・ストリーム取得ユニットと、セグメンテーション及びクラスタリング・ユニットと、マッチング・ユニットと、モデル更新ユニットと、を備える端末であって、
前記オリジナル・オーディオ・ストリーム取得ユニットは、少なくとも1人の話者を含むオリジナル・オーディオ・ストリームを取得し、前記オリジナル・オーディオ・ストリームを前記セグメンテーション及びクラスタリング・ユニットに送るように構成され、
前記セグメンテーション及びクラスタリング・ユニットは、前記オリジナル・オーディオ・ストリーム取得ユニットから送られた前記オリジナル・オーディオ・ストリームを受け取り、プリセット話者セグメンテーション及びクラスタリング・アルゴリズムに従って、前記オリジナル・オーディオ・ストリームにおける前記少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームを取得し、かつ、前記少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームを前記マッチング・ユニットに送る、ように構成され、
前記マッチング・ユニットは、前記セグメンテーション及びクラスタリング・ユニットから送られた前記少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームを受け取り、前記少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームとオリジナル声紋特徴モデルとを別々にマッチングして、うまくマッチングしたオーディオ・ストリームを取得し、かつ、前記うまくマッチングしたオーディオ・ストリームを前記モデル更新ユニットに送る、ように構成され、
前記モデル更新ユニットは、前記マッチング・ユニットから送られた前記うまくマッチングしたオーディオ・ストリームを受け取り、前記オリジナル声紋特徴モデルを生成するために、前記うまくマッチングしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用し、かつ、前記オリジナル声紋特徴モデルを更新する、ように構成される、
端末。
【発明を実施するための形態】
【0018】
本発明のいくつかの目的、いくつかの技術解決策、及びいくつかの利点をより明確にし、より分かりやすくするために、添付の諸図面及び諸実施形態を参照して本発明を以下に詳細にさらに説明する。本明細書に説明する具体的な諸実施形態は、本発明を説明するために単に使用しているに過ぎないものであり、本発明を限定することを意図していないことを理解されたい。
【0019】
本発明の諸実施形態において、少なくとも1人の話者に係るオリジナル・オーディオ・ストリームが取得され、オリジナル・オーディオ・ストリームにおける少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームが、プリセット話者セグメンテーション及びクラスタリング・アルゴリズムにより取得され、オリジナル声紋特徴モデルにマッチするオーディオ・ストリームが取得され、マッチしたオーディオ・ストリームは、オリジナル声紋特徴モデルを生成するために追加のオーディオ・ストリーム訓練サンプルとして使用され、それによってオリジナル声紋特徴モデルが更新され、したがって、声紋特徴モデルの精度が改善され、ユーザ
体験が高められる。
【0020】
本発明の具体的な実施を具体的な諸実施形態に関して以下に詳細に説明する。
【0021】
実施形態1
図1は、本発明の実施形態1による、声紋特徴モデルを更新するための方法を実施するプロセスを示し、以下に詳細を説明する。
【0022】
ステップS101:少なくとも1人の話者を含むオリジナル・オーディオ・ストリームを取得する。
【0023】
オリジナル・オーディオ・ストリームは、携帯端末を使用して電話をする又は音声チャットをするユーザによって生成されたオーディオ・ストリームでよく、又は例えば、音声を記録するやり方で取得したオーディオ・ストリームでよい。具体的には、可能な状況は、
携帯端末ユーザが通話接続状態にあるときに、ユーザが声紋学習機能を使用することに同意するかどうか尋ねられ、ユーザが同意すると会話の間に生成されたオーディオ・ストリームが記録される場合、又は通話中に自動的に声紋学習機能を可能にするためのスイッチが、端末に構成されていて、ユーザが必要に応じスイッチを設定する場合、又は声紋学習機能が端末に構成されていて、ユーザがオーディオ・ストリームを記録することができる場合である。通常、複数の人が電話中又はチャット中に順に会話に参加することがあるので、この場合に取得されたオリジナル・オーディオ・ストリームは、複数の人のオーディオ・データを含むことができることに留意されたい。
【0024】
ステップS102:プリセット話者セグメンテーション及びクラスタリング・アルゴリズムによりオリジナル・オーディオ・ストリームにおける少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームを取得する。
【0025】
具体的には、オリジナル・オーディオ・ストリームが少なくとも1人の話者に係るオーディオ・ストリームを含むので、プリセット話者セグメンテーション・アルゴリズムによりオリジナル・オーディオ・ストリームを複数のオーディオ・クリップに分割することが必要である。その場合、複数のオーディオ・クリップの各オーディオ・クリップは、少なくとも1人の話者に係る同一話者のオーディオ情報だけを含む。次いで、少なくとも1人の話者に係る同一話者だけを含むオーディオ・クリップは、プリセット話者クラスタリング・アルゴリズムによりクラスタリングされて、最後に、少なくとも1人の話者に係る同一話者のオーディオ情報だけを含むオーディオ・ストリームが生成される。
【0026】
ステップS103:少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームとオリジナル声紋特徴モデルとを別々にマッチングして、うまくマッチングしたオーディオ・ストリームを取得する。
【0027】
オリジナル声紋
特徴モデルは、プリセット・オーディオ・ストリーム訓練サンプルにより前もって確立された声紋特徴モデルである。オリジナル声紋特徴モデルは、
一人又は複数の人の声紋登録プロセスの後に形成される特徴モデルであり、登録プロセスには、オーディオ・ストリーム訓練サンプルとも呼ばれる訓練コーパスの長さに対する要件がない。この場合、うまくマッチングしたオーディオ・ストリームは、少なくとも1人の話者に係る各話者のオーディオ・ストリームとオリジナル声紋特徴モデルとの合致度により選択することができる。
【0028】
ステップS104:オリジナル声紋特徴モデルを生成するためにうまくマッチングしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用し、オリジナル声紋特徴モデルを更新する。
【0029】
具体的には、うまくマッチングしたオーディオ・ストリームを取得した後、うまくマッチングしたオーディオ・ストリーム及びプリセット・オーディオ・ストリーム訓練サンプルを基準として使用する。その場合、プリセット・オーディオ・ストリーム訓練サンプルは、前述のオリジナル声紋特徴モデルを生成するためのサンプルである。次いで、声紋登録アルゴリズム・インターフェースが呼び出され、補正済み声紋特徴モデルが生成され、その場合、補正済み声紋特徴モデルは、より精密な声紋特徴モデルであり、それによって、モデル適応及びインテリジェンスの目的が達成される。
【0030】
任意選択で、少なくとも1人の話者に係る各話者のオーディオ・ストリームがオリジナル声紋特徴モデルにマッチングすることができない状況において、声紋特徴モデルは、ユーザのプリセッティングにより新たに確立し、記録することができる。例えば、初めて使用される端末の場合、オリジナル声紋特徴モデルがゼロであり、マッチングに使用されるオーディオ・ストリームが何もない。この場合、
話者のオーディオ・ストリームは、ユーザのセッティングにより認識され、声紋登録アルゴリズム・インターフェースが声紋特徴モデルを新たに確立するために呼び出され、オリジナル声紋特徴モデルが新たに確立した声紋特徴モデルに更新される。
【0031】
本発明のこの実施形態において、少なくとも1人の話者に係るオリジナル・オーディオ・ストリームが取得され、オリジナル・オーディオ・ストリームにおける少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームがプリセット話者セグメンテーション及びクラスタリング・アルゴリズムにより取得され、オリジナル声紋特徴モデルにマッチするオーディオ・ストリームが取得され、マッチしたオーディオ・ストリームがオリジナル声紋特徴モデルを生成するために追加のオーディオ・ストリーム訓練サンプルとして使用され、オリジナル声紋特徴モデルが更新され、それによって、声紋特徴モデルを継続的に補正し更新し、声紋特徴モデルの精度を継続的に改善し、ユーザ体験を高めるなどの目的が達成される。
【0032】
実施形態2
図2は、本発明の実施形態2による、声紋特徴モデルを更新するための方法を実施するプロセスを示し、以下に詳細を説明する。
【0033】
ステップS201:プリセット・オーディオ・ストリーム訓練サンプルによりオリジナル声紋特徴モデルを確立する。
【0034】
オリジナル声紋特徴モデルは、声紋登録アルゴリズム・インターフェースを呼び出すことによってプリセット・オーディオ・ストリーム訓練サンプルにより確立された声紋特徴モデルである。オリジナル声紋特徴モデルは、
一人又は複数の人の声紋登録プロセスの後に形成される特徴モデルであり、登録プロセスには、オーディオ・ストリーム訓練サンプルとも呼ばれる訓練コーパスの長さに対する要件がない。さらに、本発明のこの実施形態によって提供される方法が、補正済みモデルの継続的及び動的補正を実施することができるので、オリジナル声紋特徴モデルは、既存の方法を使用して取得されるモデルでよく、本発明のこの実施形態によって提供される方法を使用して補正されるモデルでもよい。
【0035】
ステップS202:少なくとも1人の話者を含むオリジナル・オーディオ・ストリームを取得する。
【0036】
具体的な実施プロセスにおいて、オリジナル・オーディオ・ストリームは、携帯端末を使用して電話をする又は音声チャットをするユーザによって生成されたオーディオ・ストリームでよく、又は音声を記録するやり方で取得したオーディオ・ストリームでよい。具体的には、可能な状況では、
携帯端末ユーザが通話接続状態にあるとき、ユーザが声紋学習機能を使用することに同意するかどうか尋ねられ、ユーザが同意した後に、会話の間に生成されたオーディオ・ストリームが記録される場合、又は通話中に自動的に声紋学習機能を可能にするためのスイッチが、端末に構成されていて、ユーザが必要に応じスイッチを設定する場合、又は声紋学習機能が端末に構成されていて、ユーザがオーディオ・ストリームを記録することができる場合である。通常、複数の人が電話中又はチャット中に順に会話に参加することができるので、この場合に取得されたオリジナル・オーディオ・ストリームは、複数の人のオーディオ・データを含むことができることに留意されたい。
【0037】
さらに、大きく変動する発話速度、抑揚、及び感情の変化は、一般に、ユーザが話しているプロセス中又は複数の人の会話などのプロセス中に起きることがあり、通話中のコーパスは、継続的に収集して、声紋特徴モデルの精度のためにユーザの抑揚、発話速度、及び感情の要因によって生じるずれを除去し、それによって、声紋特徴モデルの精度への抑揚、発話速度、及び感情の要因の影響を大幅に低減し、声紋認識精度へのインパクトも減少させることができる。
【0038】
ステップS203:プリセット話者セグメンテーション・アルゴリズムによりオリジナル・オーディオ・ストリームを複数のオーディオ・クリップに分割し、その場合、複数のオーディオ・クリップの各オーディオ・クリップは、少なくとも1人の話者に係る同一話者のオーディオ情報だけを含む。
【0039】
ステップS204:プリセット話者クラスタリング・アルゴリズムにより、少なくとも1人の話者に係る同一話者だけを含むオーディオ・クリップをクラスタリングして、少なくとも1人の話者に係る同一話者のオーディオ情報だけを含むオーディオ・ストリームを生成する。
【0040】
具体的には、一例として複数の人の会話を使用し、会話に参加する人がユーザA、ユーザB、及びユーザCとすることができるとする。ユーザが音声を記録することに同意すると、記録モジュールを有効にすることができ、通話が終了した後又は記録時間が切れた後に、通話中のオリジナル・オーディオ・ストリームが記録される。オリジナル・オーディオ・ストリームは、プリセット話者セグメンテーション・アルゴリズムにより複数のオーディオ・クリップに分割することでき、その場合、各オーディオ・クリップは、1人の話者のオーディオ情報だけを含む。
図3に示すように、オリジナル・オーディオ・ストリームが分割された後、取得したオーディオ・クリップは、オーディオ・クリップA、オーディオ・クリップB、オーディオ・クリップA、オーディオ・クリップC、オーディオ・クリップA、オーディオ・クリップCであり、オーディオ・クリップA、オーディオ・クリップB、及びオーディオ・クリップCは、それぞれユーザA、B、及びCの異なるクリップであり、発話時間シーケンスにより取得される。次いで、同じ話者のオーディオ・クリップがプリセット話者クラスタリング・アルゴリズムを使用することによってクラスタリングされて、オーディオ・ストリームAのファイル、オーディオ・ストリームBのファイル、及びオーディオ・ストリームCのファイルを生成する。例えば、オーディオ・ストリームAは、ユーザAのすべてのオーディオ・クリップを含む。したがって、異なる人のオーディオ・ストリームは区別することができ、同じ人の有効なオーディオ・ストリームを抽出することができる。話者セグメンテーション・アルゴリズム及びクラスタリング・アルゴリズムは、それぞれ任意の1つの既存の話者セグメンテーション・アルゴリズム及びクラスタリング・アルゴリズムであってよく、本明細書では限定されない。
【0041】
ステップS205:少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームとオリジナル声紋特徴モデルとを別々にマッチングして、うまくマッチングしたオーディオ・ストリームを取得する。
【0042】
ステップS205は、具体的には、少なくとも1人の話者に係る各話者のオーディオ・ストリーム及びオリジナル声紋特徴モデルにより少なくとも1人の話者に係る各話者のオーディオ・ストリームとオリジナル声紋特徴モデルとの合致度を取得するステップと、うまくマッチングしたオーディオ・ストリームとして最も高く、プリセット・マッチング・スレショルドより大きい合致度に対応するオーディオ・ストリームを選択するステップとを含む。
【0043】
具体的には、声紋検証アルゴリズム・インターフェースが呼び出されて、オーディオ・ストリームA、オーディオ・ストリームB、及びオーディオ・ストリームCと、オリジナル声紋特徴モデルとの合致度A、合致度B、及び合致度Cを別々に取得する。合致度の計算のやり方は、オリジナル声紋特徴モデルの入力値として、それぞれオーディオ・ストリームA、オーディオ・ストリームB、及びオーディオ・ストリームCを使用するステップと、オリジナル声紋特徴モデルに対応する、オーディオ・ストリームA、オーディオ・ストリームB、及びオーディオ・ストリームCのそれぞれ合致度A、合致度B、及び合致度Cを取得するステップとでよく、その場合、合致度A、合致度B、及び合致度Cは、それぞれ対応する確率A、確立B、及び確立Cとも呼ばれる。例えば、合致度Aは、オーディオ・ストリームAとオリジナル声紋特徴モデルとの関連性を示す。オリジナル
声紋特徴モデルがユーザAのオーディオ・ストリーム訓練サンプルに基づいて確立され、合致度Aが通常の状態の下でマッチング・スレショルドより大きく、合致度B及び合致度Cが通常の状態の下でマッチング・スレショルドより小さく、その場合、プリセット・スレショルドが、実際のテスト結果により取得することができ、プリセットすることができ、又はユーザ定義することができるとする。したがって、この場合、プリセット・スレショルドより大きい合致度に対応するオーディオ・ストリームが取得され、すなわち、オーディオ・ストリームAがうまくマッチングしたオーディオ・ストリームである。特別な場合、A及びBの音声が、非常に似ているとき、マッチング・スレショルドより大きい1つを超えるオーディオ・ストリームがあってよく、最も高い合致値を有するオーディオ・ストリームをうまくマッチングしたオーディオ・ストリームとして選択することができる。
【0044】
さらに、オリジナル声紋特徴モデルが、複数の人の声紋登録プロセスが、例えば、ユーザB及びCのオーディオ・ストリーム訓練サンプルに対して確立された後に形成される特徴モデルであるとき、マッチング後に取得されたオーディオ・ストリームがオーディオ・ストリームBとオーディオ・ストリームCの両方を含み、それによって、複数人モードで声紋特徴モデルのマッチングを実施する可能性が高い。この場合、前述のいくつかのステップは、複数の人の各人に対して別々に実行される。
【0045】
ステップS206:オリジナル声紋特徴モデルを生成するためにうまくマッチングしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用し、オリジナル声紋特徴モデルを更新する。
【0046】
ステップS206は具体的には、うまくマッチングしたオーディオ・ストリーム及びプリセット・オーディオ・ストリーム訓練サンプルにより補正済み声紋特徴モデルを生成するステップであって、その場合、プリセット・オーディオ・ストリーム訓練サンプルは、オリジナル声紋特徴モデルを生成するためのオーディオ・ストリームであるステップと、オリジナル声紋特徴モデルを補正済み声紋特徴モデルに更新するステップとを含む。
【0047】
具体的には、うまくマッチングしたオーディオ・ストリームは、追加のオーディオ・ストリーム訓練サンプルとして使用される。すなわち、声紋登録アルゴリズム・インターフェースが、うまくマッチングしたオーディオ・ストリーム及びプリセット・オーディオ・ストリーム訓練サンプルにより補正済み声紋特徴モデルを生成するために呼び出され、その場合、補正済み声紋特徴モデルは、より精密な声紋特徴モデルであり、それによって、モデル適応及びインテリジェンスの目的を達成する。
【0048】
さらに、更新済み声紋特徴モデルは、オリジナル声紋
特徴モデルとしても使用することができ、前述のいくつかのステップが声紋特徴モデルを継続的に補正し更新するために繰り返され、声紋特徴モデルの精度を継続的に改善する。
【0049】
本発明のこの実施形態において、音声電話のオリジナル・オーディオ・ストリームは、声紋訓練コーパスとして自動的に使用され、収集されたオリジナル・オーディオ・ストリームは、ユーザ体験が影響されない、又はユーザ操作が減少する状況において話者セグメンテーション及びクラスタリング・アルゴリズムを使用して処理され、それによって、声紋訓練コーパスの純粋さが確保され、追加のマッチングしたオーディオ・ストリームが訓練コーパスを長くするために使用され、それによってオリジナル声紋特徴モデルを動的補正する。これにより、声紋特徴モデルが動的補正され更新され、声紋特徴モデルの精度が改善される。したがって、認識率をさらに改善することができ、
ユーザ体験も声紋特徴モデルを使用することによる音声認識などのプロセスにおいて高まる。
【0050】
前述の実施形態における方法のいくつかのステップの全部又は一部が関連ハードウェアに命令するプログラムによって実施することができることが当業者には理解され得る。プログラムは、コンピュータ可読記憶媒体に格納することができ、その場合、記憶媒体は、例えば、ROM/RAM、磁気ディスク、又は光学ディスクである。
【0051】
実施形態3
図4は、本発明の実施形態3による端末の構造を示す。本発明の実施形態3において提供される端末は、本発明の実施形態1及び実施形態2のいくつかの方法を実施するように構成することができる。説明を容易にするために、本発明の実施形態に関連する部分だけを示す。開示していない具体的な技術的詳細については、本発明の実施形態1及び実施形態2を参照することができる。
【0052】
端末は、携帯電話、タブレット型コンピュータ、PDA(personal digital assistant:携帯情報端末)、POS(point of sales:販売時点情報管理)、又は車載コンピュータなどの端末デバイスでよい。端末が携帯電話であることが、一例として使用される。
図4は、本発明のこの実施形態によって提供される端末に関連する携帯電話400の構造の一部の構成図である。
図4を参照すると、携帯電話400は、RF(radio frequency:無線周波数)回路410、メモリ420、入力ユニット430、ディスプレイ・ユニット440、センサ450、オーディオ回路460、WiFi(wireless fidelity:ワイヤレス・フィディリティ)モジュール470、プロセッサ480、電源490などの部分を含む。
図4に示す携帯電話の構造は、携帯電話に対する制限を構成しないし、携帯電話が図に示すより多い若しくは少ない部分を含む、又は一部の部分を組み合わせる、又はそれらの部分の異なる配列を有し得ることが当業者には理解され得る。
【0053】
図4を参照し携帯電話400のいくつかの部分を以下に詳細に説明する。
【0054】
RF回路410は、情報を受信若しくは送信するように、又は通話中に信号を受信若しくは送信するように、及び、特には、処理のために基地局のダウンリンク情報を受信し、プロセッサ480にその情報を送るように構成することができる。さらに、RF回路410は、アップリンクデータを基地局に送信する。一般に、RF回路は、限定はされないが、少なくとも1つの増幅器、トランシーバ、結合器、LNA(low noise amplifier:低雑音増幅器)、送受切換器などを含む。さらに、RF回路410は、無線通信及びネットワークを使用することにより他のデバイスとも通信することもできる。無線通信は、任意の1つの通信規格又はプロトコルを使用することができ、限定はされないが、GSM(登録商標)(global system of mobile communication:移動通信の全地球システム)、GPRS(general packet radio service:汎用パケット無線サービス)、CDMA(code division multiple access:符号分割多元接続)、WCDMA(登録商標)(wideband code division multiple access:広帯域符号分割多元接続)、LTE(long term evolution:ロング・ターム・エボリューション)、電子メール、SMS(short messaging service:ショート・メッセージ・サービス)などを含む。
【0055】
メモリ420は、ソフトウェア・プログラム及びモジュールを格納するように構成することができる。プロセッサ480は、メモリ420に格納されたソフトウェア・プログラム及びモジュールを起動して、携帯電話400のすべての種類の機能アプリケーションを実行し、データを処理する。メモリ420は、主に、プログラム記憶領域とデータ記憶領域とを含むことができ、その場合、プログラム記憶領域は、オペレーティング・システム、機能に必要とされる少なくとも1つのアプリケーション・プログラム(例えば、音声再生機能及び画像再生機能)などを格納することができ、データ記憶領域は、携帯電話400の使用により作成されたデータ(例えば、オーディオ・データ及び電話帳)などを格納することができる。さらに、メモリ420は、高速ランダム・アクセス・メモリを含むことができ、不揮発性メモリ、例えば、少なくとも1つの磁気ディスク・メモリ、フラッシュメモリ、又は他の揮発性固体メモリも含むことができる。
【0056】
入力ユニット430は、入力されたデジタル又は文字情報を受け取り、携帯電話400のユーザ設定及び機能制御に関連するキー信号入力を生成するように構成することができる。具体的には、入力ユニット430は、タッチ制御パネル431と別の入力デバイス432とを含むことができる。タッチスクリーンとも呼ばれるタッチ制御パネル431は、パネル上の又はパネル近くのユーザのタッチ操作(例えば、指やタッチペンなど任意の適切な物体又は付属品を使用することによるタッチ制御パネル431上の又はタッチ制御パネル431近くのユーザによって実施される操作)を収集し、プリセット・プログラムにより対応する接続装置を駆動することができる。任意選択で、タッチ制御パネル431は、2つの部分、すなわち、タッチ検知装置とタッチ制御器とを含むことができる。タッチ検知装置は、ユーザのタッチ位置を検知し、タッチ操作によってもたらされた信号を検知し、その信号をタッチ制御器に転送する。タッチ制御器は、タッチ情報をタッチ検知装置から受け取り、その情報をタッチ位置の座標に変換し、プロセッサ480に座標を送り、プロセッサ480から送られた命令を受け取り起動することができる。さらに、タッチ制御パネル431は、抵抗性、容量性、赤外線、表面弾性波など、複数の形態で実施することができる。タッチ制御パネル431に加えて、入力ユニット430は、別の入力デバイス432を含むこともできる。具体的には、別の入力デバイス432は、限定はされないが、1つ又は複数の種類の以下のものを含むことができる。すなわち、物理的キーボード、機能キー(音量制御キー又はオン/オフ
ボタンなど)、トラックボール、マウス、及びジョイスティックである。
【0057】
ディスプレイ・ユニット440は、ユーザによって入力された情報又はユーザに提供された情報及び携帯電話400のメニューを表示するように構成することができる。ディスプレイ・ユニット440は、ディスプレイ・パネル441を含むことができる。任意選択で、ディスプレイ・パネル441は、LCD(liquid crystal display:液晶ディスプレイ)及びOLED(organic light−emitting diode:有機発光ダイオード)などの形態で構成することができる。さらに、タッチ制御パネル431は、ディスプレイ・パネル441を覆うことができる。タッチ制御パネル431上の又はタッチ制御パネル431近くのタッチ操作を検知した後、タッチ制御パネル431は、タッチ事象の種類を決定するためにその操作をプロセッサ480に転送する。次いで、プロセッサ480は、タッチ事象の種類によりディスプレイ・パネル441上に対応する視覚出力を提供する。
図4におけるタッチ制御パネル431及びディスプレイ・パネル441は、携帯電話400の入力及び
出力機能を実施する2つの独立した部分であるが、タッチ制御パネル431及びディスプレイ・パネル441は、一部の実施形態において、携帯電話400の入力及び出力機能を実施するために統合することができる。
【0058】
携帯電話400は、少なくとも1つの種類のセンサ450、例えば、光センサ、動きセンサ及び他のセンサも含むことができる。具体的には、光センサは、周囲光センサと近接センサとを含むことができ、その場合、周囲光センサは、周囲光の強度によりディスプレイ・パネル441の輝度を調整することができ、近接センサは、携帯電話400が耳に移動するとき、ディスプレイ・パネル441及び/又はバックライトを消灯することができる。1つの種類の動きセンサとして、加速度計センサがすべての方向(一般に三軸)への加速度を検知することができ、加速度計センサが静止しているとき重力のサイズと方向とを検知することができ、携帯電話の姿勢アプリケーション(例えば、縦方向と横方向との切換え、関連するゲーム、及び磁力計姿勢較正)及び振動認識関連機能(歩数計及びノッキング)などを認識するように構成することができる。携帯電話400に構成することができる、ジャイロスコープ、気圧計、湿度計、温度計、及び赤外線センサなどの他のセンサに関して、詳細は本明細書に再度説明しない。
【0059】
オーディオ回路460、スピーカ461、及びマイクロホン462は、ユーザと携帯電話400とのオーディオ・インターフェースを提供することができる。オーディオ回路460は、受け取ったオーディオ・データから変換された電気信号をスピーカ461に送信することができ、スピーカ461は、電気信号を出力される音声信号に変換する。
さらに、マイクロホン462は、収集された音声信号を電気信号に変換し、オーディオ回路460は、電気信号を受け取り、電気信号をオーディオ・データに変換し、オーディオ・データをプロセッサ480に処理のために出力し、処理されたオーディオ・データを、例えば、RF回路410を使用して別の携帯電話に送信し、又はオーディオ・データをさらに処理するためにメモリ420に出力する。
【0060】
WiFiは、短距離の無線送信技術に属する。携帯電話400は、ユーザがWiFiモジュール470を使用して電子メールを受信し、送信し、ウェブ・ページをブラウズし、ストリーミング・メディアにアクセスするのを手助けすることができる。WiFiモジュール470は、ユーザに無線広帯域インターネット・アクセスを提供する。WiFiモジュール470を
図4に示すが、WiFiモジュール470が携帯電話400にとって不可欠ではなく、もちろん、本発明の本質を変更しない範囲内で必要に応じ省略できることが理解され得る。
【0061】
プロセッサ480は、携帯電話400のコントロール・センターであり、すべての種類のインターフェース及び回路を使用して携帯電話全体のすべての部分を接続し、メモリ420に格納されたソフトウェア・プログラム及び/又はモジュールを起動又は実行すること及びメモリ420に格納されたデータを呼び出すことによって携帯電話400のいくつかの機能を実行し、データを処理し、それによって、携帯電話を全体として監視する。任意選択で、プロセッサ480は、1つ又は複数の処理ユニットを含むことができる。好ましくは、プロセッサ480は、アプリケーション・プロセッサ及びモデム・プロセッサと統合することができ、その場合、アプリケーション・プロセッサは、主にオペレーティング・システム、ユーザ・インターフェース、アプリケーション・プログラムなどを処理し、モデム・プロセッサは、主に無線通信を処理する。前述のモデム・プロセッサは、プロセッサ480中に統合できないことが理解され得る。
【0062】
携帯電話400は、電力をすべての部分に供給する電源490(電池など)をさらに含む。好ましくは、電源は、電源管理システムを使用することによってプロセッサ480に論理的に接続することができ、したがって、充電、放電、及び電力消費管理の機能は、電源管理システムを使用することによって実施される。
【0063】
図示していないが、携帯電話400は、カメラ、ブルートゥース・モジュールなども含むこともできるが、詳細は本明細書に再度説明しない。
【0064】
本発明のこの実施形態において、端末に含まれるマイクロホン462、メモリ420、及びプロセッサ480は、さらに以下の機能を有する。
【0065】
マイクロホン462は、オーディオ回路460を使用することにより、少なくとも1つの話者を含むオリジナル・オーディオ・ストリームを取得し、オリジナル・オーディオ・ストリームをメモリ420に送るようにさらに構成される。
【0066】
本発明のこの実施形態において、オリジナル・オーディオ・ストリームは、携帯電話端末を使用してユーザが電話をする若しくは音声チャットをすることによって生成されたオーディオ・ストリームでよく、又は例えば音声を記録するやり方でマイクロホン462によって取得されたオーディオ・ストリームでよい。具体的には、可能な状況は、
携帯電話端末が通話接続状態にあるとき、ユーザは声紋学習機能を使用することに同意するかどうか尋ねられ、ユーザが同意した場合、会話の間に生成されたオーディオ・ストリームが記録される、又は通話中に自動的に声紋学習機能を可能にするためのスイッチが、端末に構成されていて、ユーザが必要に応じスイッチを設定する、又は声紋学習機能が携帯電話端末に構成されていて、ユーザがオーディオ・ストリームを記録することができる。通常、複数の人が電話中又はチャット中に順に会話に参加することができるので、この場合に取得されたオリジナル・オーディオ・ストリームは、複数の人のオーディオ・データを含むことができることに留意されたい。
【0067】
プロセッサ480は、メモリに格納されたオリジナル・オーディオ・ストリームを呼び出し、メモリ420のプリセット話者セグメンテーション及びクラスタリング・アルゴリズムを呼び出し、オリジナル・オーディオ・ストリームにおける少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームを取得し、少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームとオリジナル声紋特徴モデルとを別々にマッチングして、うまくマッチングしたオーディオ・ストリームを取得し、オリジナル声紋特徴モデルを生成するためにうまくマッチングしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用し、オリジナル声紋特徴モデルを更新するようにさらに構成される。
【0068】
本発明のこの実施形態において、オリジナル・オーディオ・ストリームが少なくとも1人の話者に係るオーディオ・ストリームを含むので、プロセッサ480は、メモリ420のプリセット話者セグメンテーション・アルゴリズムを呼び出し、オリジナル・オーディオ・ストリームを複数のオーディオ・クリップに分割する必要があり、その場合、複数のオーディオ・クリップの各オーディオ・クリップは、少なくとも1人の話者に係る同一話者のオーディオ情報だけを含む。次いで、プロセッサ480は、プリセット話者クラスタリング・アルゴリズムにより、少なくとも1人の話者に係る同一話者だけを含むオーディオ・クリップをクラスタリングして、最後に少なくとも1人の話者に係る同一話者のオーディオ情報だけを含むオーディオ・ストリームを生成する。さらに、プロセッサ480は、各人のそれぞれのオーディオ・ストリーム及びオリジナル声紋特徴モデルを参照して、少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームとオリジナル声紋特徴モデルとを別々にマッチングすることによって取得した合致度を獲得することができ、うまくマッチングしたオーディオ・ストリームとしてプリセット・マッチング・スレショルドより大きく、最も高い合致度を有するオーディオ・ストリームを使用することができ、それによって、オリジナル声紋特徴モデルを生成するためにうまくマッチングしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用し、声紋登録アルゴリズム・インターフェースを呼び出し、オリジナル声紋特徴モデルを更新し、それによって、より精密な声紋特徴モデルを取得することができる。
【0069】
本発明のこの実施形態は、マイクロホン462、メモリ420、プロセッサ480などを含む端末を提供する。マイクロホン462は、少なくとも1人の話者に係るオリジナル・オーディオ・ストリームを取得し、オーディオ回路460を介してメモリ420にオリジナル・オーディオ・ストリームを送る。プロセッサ480は、オーディオ回路460を介してマイクロホン462から送られたオリジナル・オーディオ・ストリームを受け取り、メモリ420のプリセット話者セグメンテーション及びクラスタリング・アルゴリズムを呼び出し、オリジナル・オーディオ・ストリームにおける少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームを取得し、オリジナル声紋特徴モデルにマッチするオーディオ・ストリームを取得し、オリジナル声紋特徴モデルを生成するためにマッチしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用し、オリジナル声紋特徴モデルを更新する。これにより、比較的高い実用性を前提とした声紋特徴モデルの動的補正及び更新が確保され、声紋特徴モデルの精度が改善される。
【0070】
実施形態4
図5は、本発明の実施形態4による端末の構造を示す。説明を容易にするために、本発明のこの実施形態に関連する部分だけを示す。本発明の実施形態4において提供される端末は、本発明の実施形態1及び実施形態2のいくつかの方法を実施するように構成することができる。説明を容易にするために、本発明の実施形態に関連する部分だけを示す。開示していない具体的な技術的詳細については、本発明の実施形態1及び実施形態2を参照することができる。
【0071】
具体的には、
図5は、本発明のこの実施形態によって提供される端末に関連した携帯電話500の構造の一部の構成図を示す。
図4に示す構造に基づいて、本発明のこの実施形態ではマイクロホン51及びプロセッサ52が使用されて、それぞれ
図4に示すマイクロホン462及びプロセッサ480に置き換わる。
【0072】
実施形態3におけるマイクロホン462に含まれるいくつかの機能に加えて、マイクロホン51は、オーディオ回路460を使用することにより、プリセット・オーディオ・ストリーム訓練サンプルを取得し、オーディオ・ストリーム訓練サンプルをメモリ420に送り、したがって、プロセッサ52がメモリのプリセット声紋登録アルゴリズム・インターフェースを呼び出し、プリセット・オーディオ・ストリーム訓練サンプルによりオリジナル声紋特徴モデルを確立するようにさらに構成される。
【0073】
本発明のこの実施形態において、オリジナル声紋特徴モデルは、声紋登録アルゴリズム・インターフェースを呼び出すことによってプリセット・オーディオ・ストリーム訓練サンプルにより確立される声紋特徴モデルである。オリジナル声紋特徴モデルは、
一人又は複数の人の声紋登録プロセスの後に形成される特徴モデルであり、登録プロセスには、オーディオ・ストリーム訓練サンプルとも呼ばれる訓練コーパスの長さに対する要件がない。さらに、本発明の一実施形態によって提供される方法が、補正済みモデルの継続的及び動的補正を実施することができるので、オリジナル声紋特徴モデルは、既存の方法を使用して取得されるモデルでよく、本発明の実施形態によって提供される方法を使用して補正されるモデルでもよい。
【0074】
この場合、プロセッサ52は、少なくとも1人の話者が話しているときマイクロホン51によって受け取られるオリジナル・オーディオ・ストリームにより、メモリ420のプリセット話者セグメンテーション・アルゴリズムを呼び出すことによってオリジナル・オーディオ・ストリームを複数のオーディオ・クリップに分割するようにさらに構成され、その場合、複数のオーディオ・クリップの各オーディオ・クリップは、少なくとも1人の話者に係る同一話者のオーディオ情報だけを含み、次いで、プロセッサ52は、メモリ420のプリセット話者クラスタリング・アルゴリズムを呼び出すことによって少なくとも1人の話者に係る同一話者だけを含むオーディオ・クリップをクラスタリングして、少なくとも1人の話者に係る同一話者のオーディオ情報だけを含むオーディオ・ストリームを生成するようにさらに構成される。
【0075】
さらに、プロセッサ52は、少なくとも1人の話者に係る各話者のオーディオ・ストリーム及びオリジナル声紋特徴モデルにより少なくとも1人の話者に係る各話者のオーディオ・ストリームとオリジナル声紋特徴モデルとの合致度を取得し、うまくマッチングしたオーディオ・ストリームとして最も高く、プリセット・マッチング・スレショルドより大きい合致度に対応するオーディオ・ストリームを選択し、うまくマッチングしたオーディオ・ストリーム及びプリセット・オーディオ・ストリーム訓練サンプルにより補正済み声紋特徴モデルを生成し、オリジナル声紋特徴モデルを補正済み声紋特徴モデルに更新するようにさらに構成される。
【0076】
本発明のこの実施形態において、マイクロホン51は、プリセット・オーディオ・ストリーム訓練サンプルを取得することができ、その場合、プリセット・オーディオ・ストリーム訓練サンプルは、オリジナル声紋特徴モデルを確立するのに必要なオリジナル・オーディオ・ストリームである。マイクロホン51は、少なくとも1人の話者に係るオリジナル・オーディオ・ストリームも取得することができる。プロセッサ52は、メモリ420のプリセット声紋登録アルゴリズム・インターフェース、話者セグメンテーション・アルゴリズム、及びプリセット話者クラスタリング・アルゴリズムを続けて呼び出して、少なくとも1人の話者に係る同一話者のオーディオ情報だけを含むオーディオ・ストリームを生成することができ、最後に、うまくマッチングしたオーディオ・ストリームを取得し、うまくマッチングしたオーディオ・ストリーム及びプリセット・オーディオ・ストリーム訓練サンプルを参照して補正済み声紋特徴モデルを生成し、オリジナル声紋特徴モデルを補正済み声紋特徴モデルに更新することができる。したがって、補正済み声紋特徴モデルは、オリジナル声紋特徴モデルに比較してオーディオ・ストリーム認識精度を大幅に改善するのに使用され、ユーザ体験がさらに改善される。
【0077】
実施形態5
図6は、本発明の実施形態5による端末の構造を示す。説明を容易にするために、本発明のこの実施形態に関連する部分だけを示す。本発明の実施形態5において提供される端末は、本発明の実施形態1及び実施形態2のいくつかの方法を実施するように構成することができる。説明を容易にするために、本発明のこの実施形態に関連する部分だけを示す。開示していない具体的な技術的詳細については、本発明の実施形態1及び実施形態2を参照することができる。
【0078】
端末は、オリジナル・オーディオ・ストリーム取得ユニット61と、セグメンテーション及びクラスタリング・ユニット62と、マッチング・ユニット63と、モデル更新ユニット64とを含む。オリジナル・オーディオ・ストリーム取得ユニット61は、実施形態3におけるマイクロホン41に含まれるいくつかの機能と1対1対応にあり、セグメンテーション及びクラスタリング・ユニット62、マッチング・ユニット63及びモデル更新ユニット64は、実施形態3におけるプロセッサ42に含まれるいくつかの機能と1対1対応にあり、その場合、 オリジナル・オーディオ・ストリーム取得ユニット61は、少なくとも1人の話者を含むオリジナル・オーディオ・ストリームを取得し、オリジナル・オーディオ・ストリームをセグメンテーション及びクラスタリング・ユニット62に送るように構成され、セグメンテーション及びクラスタリング・ユニット62は、オリジナル・オーディオ・ストリーム取得ユニット61から送られたオリジナル・オーディオ・ストリームを受け取り、プリセット話者セグメンテーション及びクラスタリング・アルゴリズムによりオリジナル・オーディオ・ストリームにおける少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームを取得し、少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームをマッチング・ユニット63に送るように構成され、マッチング・ユニット63は、セグメンテーション及びクラスタリング・ユニット62から送られた少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームを受け取り、少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームとオリジナル声紋特徴モデルとを別々にマッチングして、うまくマッチングしたオーディオ・ストリームを取得し、うまくマッチングしたオーディオ・ストリームをモデル更新ユニット64に送るように構成され、モデル更新ユニット64は、マッチング・ユニット63から送られたうまくマッチングしたオーディオ・ストリームを受け取り、オリジナル声紋特徴モデルを生成するためにうまくマッチングしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用し、オリジナル声紋特徴モデルを更新するように構成される。
【0079】
本発明のこの実施形態において、通話聴取状態を入力した後、オリジナル・オーディオ・ストリーム取得ユニット61は、聴取によってオーディオ・ストリームを取得することができ、その場合、ボイス・レコーダ又は音声チャット・ソフトウェアを使用してオーディオ・ストリームを生成することができる。
【0080】
本発明のこの実施形態において、セグメンテーション及びクラスタリング・ユニット62は、オリジナル・オーディオ・ストリームをいくつかのオーディオ・クリップに分割することができ、その場合、各オーディオ・クリップは、1人の話者のオーディオ情報だけを含み、セグメンテーション及びクラスタリング・ユニット62は、同じ話者のオーディオ・クリップを再度クラスタリングして、各人のオーディオ・ストリームを生成し、最後に、オリジナル・オーディオ・ストリームを異なる話者を表すオーディオ・ストリームに分割し、すなわち、すべての話者における同じ話者のオーディオ情報のオーディオ・ストリームを生成することができる。マッチング・ユニット63は、すべてのオーディオ・ストリームを精査し、オリジナル声紋特徴モデルを参照して各オーディオ・ストリームとオリジナル声紋特徴モデルとの合致度を取得する。具体的には、マッチング・ユニット63は、各オーディオ・ストリームをオリジナル声紋特徴モデルの入力値として別々に使用して、各オーディオ・ストリームに対応する合致度とも呼ばれる確率を取得し、オリジナル声紋特徴モデルにマッチする1つ又は複数のオーディオ・ストリームを取得する。実際の動作プロセスにおいて、最も高く、プリセット・マッチング・スレショルドより大きい合致度に対応するオーディオ・ストリームは、うまくマッチングしたオーディオ・ストリームとして選択されて、取得したオーディオ・ストリームがオリジナル声紋特徴モデルに大いに関連し、したがって、声紋訓練コーパスとして使用されるオーディオ・ストリームが純粋であることが確保され得る。モデル更新ユニット64は、オリジナル声紋特徴モデルを生成するためにうまくマッチングしたオーディオ・ストリームを追加のオーディオ・ストリーム訓練サンプルとして使用し、次いで声紋登録を実施し、補正済み声紋特徴モデルとも呼ばれる新たな声紋特徴モデルを生成し、オリジナル声紋特徴モデルを補正済み声紋特徴モデルに更新する。最後に、声紋特徴モデルが取得されたとき、声紋特徴モデルの精度を改善する目的が比較的高い実用性を前提にして達成されることが確保される。
【0081】
実施形態6
図7は、本発明の実施形態6による端末の構造を示す。説明を容易にするために、本発明のこの実施形態に関連する部分だけを示す。本発明の実施形態6において提供される端末は、本発明の実施形態1及び実施形態2のいくつかの方法を実施するように構成することができる。説明を容易にするために、本発明のこの実施形態に関連する部分だけを示す。開示していない具体的な技術的詳細については、本発明の実施形態1及び実施形態2を参照することができる。
【0082】
端末は、サンプル取得ユニット71と、オリジナル・モデル確立ユニット72と、オリジナル・オーディオ・ストリーム取得ユニット73と、セグメンテーション及びクラスタリング・ユニット74と、マッチング・ユニット75と、モデル更新ユニット76とを含み、オリジナル・オーディオ・ストリーム取得ユニット73、セグメンテーション及びクラスタリング・ユニット74、マッチング・ユニット75、及びモデル更新ユニット76は、それぞれ実施形態5におけるオリジナル・オーディオ・ストリーム取得ユニット61、セグメンテーション及びクラスタリング・ユニット62、マッチング・ユニット63、及びモデル更新ユニット64のいくつかの機能と1対1対応にある。詳細は本明細書に再度説明しない。
【0083】
サンプル取得ユニット71は、プリセット・オーディオ・ストリーム訓練サンプルを取得し、それをオリジナル・モデル確立ユニット72に送るように構成される。
【0084】
オリジナル・モデル確立ユニット72は、プリセット・オーディオ・ストリーム訓練サンプルによりオリジナル声紋特徴モデルを確立するように構成される。
【0085】
オリジナル声紋特徴モデルは、サンプル取得ユニット71から送られたプリセット・オーディオ・ストリーム訓練サンプルにより、声紋登録アルゴリズム・インターフェースを呼び出すことによってオリジナル・モデル確立ユニット72によって確立される声紋特徴モデルである。オリジナル声紋特徴モデルは、
一人又は複数の人の声紋登録プロセスの後に形成される特徴モデルであり、登録プロセスには、オーディオ・ストリーム訓練サンプルとも呼ばれる訓練コーパスの長さに対する要件がない。さらに、本発明の一実施形態によって提供される方法が、補正済みモデルの継続的及び動的補正を実施することができるので、オリジナル声紋特徴モデルは、既存の方法を使用して取得されるモデルでよく、本発明の実施形態によって提供される方法を使用して補正されるモデルでもよい。
【0086】
本発明のこの実施形態において、通話聴取状態を入力した後、オリジナル・オーディオ・ストリーム取得ユニット73は、聴取によってオーディオ・ストリームを取得することができ、その場合、ボイス・レコーダ又は音声チャット・ソフトウェアを使用してオーディオ・ストリームを生成することができる。端末がスマートフォンであることが、一例として使用される。スマートフォンが通話接続状態にあるとき、ユーザは声紋学習機能を使用することに同意するかどうか尋ねられ、ユーザが同意した後、通話に参加するユーザ及び通話の相手のオーディオ・ストリームを記録することができ、又は通話中に自動的に声紋学習機能を可能にするためのスイッチが、端末に構成されていて、ユーザが必要に応じスイッチを設定する、又は声紋学習機能が端末に構成されていて、ユーザがオーディオ・ストリームを記録することができる。複数の人が電話中又はチャット中に順に会話に参加することができるので、この場合に取得されたオリジナル・オーディオ・ストリームは、複数の人のオーディオ・データを含むことができることに留意されたい。オリジナル・オーディオ・ストリーム取得ユニット73によって取得されたオリジナル・オーディオ・ストリームは、話者の様々な抑揚、発話速度、及び感情のオーディオ・データを包含することができ、抑揚、発話速度、及び感情の要因のモデルの精度に対する影響を低減することができる。さらに、ユーザは、オーディオ・ストリームを取得するプロセスの間、
回数及び持続時間でオーディオ・ストリームを意図的に入力する必要がなく、それによって、ユーザ操作の複雑性が減少し、取得プロセスにおける実用性が確保され、ユーザ体験も改善される。
【0087】
図7に示すように、セグメンテーション及びクラスタリング・ユニット74は、具体的には、セグメンテーション・ユニット741とクラスタリング・ユニット742とを含み、その場合、
セグメンテーション・ユニット741は、プリセット話者セグメンテーション・アルゴリズムによりオリジナル・オーディオ・ストリームを複数のオーディオ・クリップに分割するように構成され、その場合、複数のオーディオ・クリップの各オーディオ・クリップは、少なくとも1人の話者に係る同一話者のオーディオ情報だけを含み、セグメンテーション・ユニット741は、少なくとも1人の話者に係る同一話者だけを含むオーディオ・クリップをクラスタリング・ユニット742に送るように構成され、
クラスタリング・ユニット742は、セグメンテーション・ユニット741から送られた、少なくとも1人の話者に係る同一話者だけを含むオーディオ・クリップを受け取り、プリセット話者クラスタリング・アルゴリズムにより、少なくとも1人の話者に係る同一話者だけを含むオーディオ・クリップをクラスタリングして、少なくとも1人の話者に係る同一話者のオーディオ情報だけを含むオーディオ・ストリームを生成するように構成される。
【0088】
本発明のこの実施形態において、セグメンテーション・ユニット741は、オリジナル・オーディオ・ストリームをいくつかのオーディオ・クリップに分割することができ、その場合、各オーディオ・クリップは、1人の話者のオーディオ情報だけを含み、クラスタリング・ユニット742は、同じ話者のオーディオ・クリップを再度クラスタリングして、各人のオーディオ・ストリームを生成する。最後に、オリジナル・オーディオ・ストリームは、異なる話者を表すオーディオ・ストリームに分割される。
【0089】
図7に示すように、マッチング・ユニット75は、具体的には、合致度取得ユニット751とマッチング済みオーディオ・ストリーム取得ユニット752とを含み、その場合、合致度取得ユニット751は、少なくとも1人の話者に係る各話者のオーディオ・ストリーム及びオリジナル声紋特徴モデルにより少なくとも1人の話者に係る各話者のオーディオ・ストリームとオリジナル声紋特徴モデルとの合致度を取得し、合致度をマッチング済みオーディオ・ストリーム取得ユニット752に送るように構成され、マッチング済みオーディオ・ストリーム取得ユニット752は、合致度取得ユニット751から送られた、少なくとも1人の話者に係る各話者のオーディオ・ストリームとオリジナル声紋特徴モデルとの合致度を受け取り、うまくマッチングしたオーディオ・ストリームとして最も高く、プリセット・マッチング・スレショルドより大きい合致度に対応するオーディオ・ストリームを選択するように構成される。
【0090】
本発明のこの実施形態において、合致度取得ユニット
751は、すべてのオーディオ・ストリームを精査し、少なくとも1人の話者に係る各話者のオーディオ・ストリーム及びオリジナル声紋特徴モデルにより少なくとも1人の話者に係る各話者のオーディオ・ストリームとオリジナル声紋特徴モデルとの合致度を取得する。具体的には、合致度取得ユニット
751は、各オーディオ・ストリームをオリジナル声紋特徴モデルの入力値として別々に使用して各オーディオ・ストリームに対応する合致値を取得し、その場合、合致値は、具体的には声紋検証アルゴリズム・インターフェースを呼び出して取得することができる。次いで、マッチング済みオーディオ・ストリーム取得ユニット752は、オリジナル声紋特徴モデルにマッチする1つ又は複数のオーディオ・ストリームを取得し、具体的には、うまくマッチングしたオーディオ・ストリームとして最も高く、プリセット・マッチング・スレショルドより大きい合致度に対応するオーディオ・ストリームを選択することができ、それによって、取得したオーディオ・ストリームがオリジナル声紋特徴モデルに大いに関連し、したがって、声紋訓練コーパスとして使用されたオーディオ・ストリームが純粋であることが確保される。
【0091】
図7に示すように、モデル更新ユニット76は、具体的には、補正済みモデル取得ユニット761とモデル更新サブユニット762とを含み、その場合、補正済みモデル取得ユニット761は、うまくマッチングしたオーディオ・ストリーム及びプリセット・オーディオ・ストリーム訓練サンプルにより補正済み声紋特徴モデルを生成し、補正済み声紋特徴モデルをモデル更新サブユニット762に送るように構成され、モデル更新サブユニット762は、補正済みモデル取得ユニット761から送られた補正済み声紋特徴モデルを受け取り、オリジナル声紋特徴モデルを補正済み声紋特徴モデルに更新するように構成される。
【0092】
本発明のこの実施形態において、うまくマッチングしたオーディオ・ストリームは、オリジナル声紋特徴モデルを生成するために追加のオーディオ・ストリーム訓練サンプルとして使用される。すなわち、オリジナル声紋特徴モデルを生成するために使用されるオーディオ・ストリーム訓練サンプル及びうまくマッチングしたオーディオ・ストリームを参照して、補正済みモデル取得ユニット761は、声紋登録を実施し、補正済み声紋特徴モデルとも呼ばれる新たな声紋特徴モデルを生成するために使用される。モデル更新サブユニット762は、オリジナル声紋特徴モデルを補正済み声紋特徴モデルに更新する。
【0093】
本発明のこの実施形態は、サンプル取得ユニット71、オリジナル・モデル確立ユニット72、オリジナル・オーディオ・ストリーム取得ユニット73、セグメンテーション及びクラスタリング・ユニット74、マッチング・ユニット75、及びモデル更新ユニット76を含む端末を提供する。話者のオリジナル・オーディオ・ストリーム情報は、聴取によって取得され、声紋訓練コーパスとして使用され、オリジナル・オーディオ・ストリーム情報は、プリセット話者セグメンテーション及びクラスタリング・アルゴリズムを使用して処理され、それによって、追加のオーディオ・ストリーム訓練サンプルを取得し、したがって、追加のオーディオ・ストリーム訓練サンプルによりオリジナル声紋特徴モデルの補正及び更新動作が実施され、それによって、比較的高い実用性を前提にした声紋特徴モデルの精度が改善される。したがって、補正済みオリジナル声紋特徴モデルを端末の声紋アンブロッキング・ソリューションに適用すると、声紋認識精度が大幅に改善される。さらに、複数の人の発話オーディオ・ストリーム訓練サンプルのためにオリジナル声紋特徴モデルが確立された場合、更新済みオリジナル声紋特徴モデルは、複数の人のオーディオ情報を正確に認識して開錠などを実施することができ、したがって、開錠プロセスがよりインテリジェントとなる。
【0094】
本発明の諸実施形態によって提供される声紋特徴モデルを更新するための方法において、少なくとも1人の話者を含むオリジナル・オーディオ・ストリームが取得され、オリジナル・オーディオ・ストリームにおける少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームがプリセット話者セグメンテーション及びクラスタリング・アルゴリズムにより取得され、少なくとも1人の話者に係る各話者それぞれのオーディオ・ストリームがオリジナル声紋特徴モデルに別々にマッチングされて、うまくマッチングしたオーディオ・ストリームを取得し、うまくマッチングしたオーディオ・ストリームがオリジナル声紋特徴モデルを生成するために追加のオーディオ・ストリーム訓練サンプルとして使用され、オリジナル声紋特徴モデルが更新される。これにより、声紋特徴モデルが既存の方法を使用して取得されるとき、声紋特徴モデルの精度が比較的高い実用性を前提にして改善されることが確保できず、その結果、認識精度が声紋特徴モデルを使用して改善することができないという問題が解決される。これにより、ユーザ体験が影響されず、比較的高い実用性が確保されるという前提で声紋特徴モデルの精度及び認識精度が改善される。
【0095】
本明細書に開示する諸実施形態において説明する諸例に組み合わせて、いくつかのユニット及びいくつかのアルゴリズム・ステップは、電子ハードウェア、コンピュータ・ソフトウェア、又はそれらの組合せによって実施できることに留意されたい。ハードウェアとソフトウェアとの互換性について明確に説明するために、前述のことは、いくつかの機能による各例の一般的に説明したいくつかの構成及びいくつかのステップを有する。いくつかの機能がハードウェア又はソフトウェアによって実施されるかどうかは、技術的解決策の特定のアプリケーション及び設計上の制約条件による。各々の特定のアプリケーションの説明したいくつかの機能を実施するのに異なるいくつかの方法を当業者は使用することができるが、実施が本発明の範囲を超えるとみなすべきではない。
【0096】
本明細書に開示する諸実施形態に組み合わせて、方法又はいくつかのアルゴリズム・ステップは、ハードウェア、プロセッサによって実行されるソフトウェア・モジュール、又はそれらの組合せによって実施することができる。ソフトウェア・モジュールは、ランダム・アクセス・メモリ(RAM)、メモリ、読出し専用メモリ(ROM)、電気的プログラム可能ROM、電気的消去可能プログラム可能ROM、レジスタ、ハードディスク、リムーバブル・ディスク、CD−ROM、又は当分野で周知の記憶媒体の任意の他の形態に常駐することができる。
【0097】
前述の具体的な諸実施形態は、本発明の目的、技術的解決策、及び利益を詳細に明らかにする。前述の説明は、単に本発明の具体的な諸実施形態に過ぎず、本発明の保護範囲を限定することを意図していないことを理解されたい。本発明の精神及び原則を逸脱することなくなされるいかなる修正、均等代替、又は改善も、本発明の保護範囲内に含まれるものとする。