(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-03
(45)【発行日】2022-10-12
(54)【発明の名称】モデル評価方法、モデル評価装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム製品
(51)【国際特許分類】
G10L 25/69 20130101AFI20221004BHJP
G10L 25/15 20130101ALI20221004BHJP
【FI】
G10L25/69
G10L25/15
(21)【出願番号】P 2021048756
(22)【出願日】2021-03-23
【審査請求日】2021-03-23
(31)【優先権主張番号】202010437127.5
(32)【優先日】2020-05-21
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100118913
【氏名又は名称】上田 邦生
(74)【代理人】
【識別番号】100142789
【氏名又は名称】柳 順一郎
(74)【代理人】
【識別番号】100163050
【氏名又は名称】小栗 眞由美
(74)【代理人】
【識別番号】100201466
【氏名又は名称】竹内 邦彦
(72)【発明者】
【氏名】鄭 林
(72)【発明者】
【氏名】陳 昌濱
(72)【発明者】
【氏名】馬 嘯空
(72)【発明者】
【氏名】孫 宇娟
【審査官】堀 洋介
(56)【参考文献】
【文献】米国特許出願公開第2013/0080172(US,A1)
【文献】特開2017-067948(JP,A)
【文献】特開2017-167273(JP,A)
【文献】特開2017-083621(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 25/00-25/72
G10L 13/00-13/10
(57)【特許請求の範囲】
【請求項1】
第1の評価対象音声合成モデルで合成されたM個の第1のオーディオ信号と、録音されたN個の第2のオーディオ信号とを取得することと、
M個の前記第1のオーディオ信号のそれぞれに対して声紋抽出を行ってM個の第1の声紋特徴を取得し、N個の前記第2のオーディオ信号のそれぞれに対して声紋抽出を行ってN個の第2の声紋特徴を取得することと、
M個の前記第1の声紋特徴をクラスタリングしてK個の第1の中心特徴を取得し、N個の前記第2の声紋特徴をクラスタリングしてJ個の第2の中心特徴を取得することと、
K個の前記第1の中心特徴とJ個の前記第2の中心特徴との間の余弦距離を統計し、第1の距離を取得することと、
前記第1の距離に基づき、前記第1の評価対象音声合成モデルを評価することとを含み、
ここで、M、N、K及びJはいずれも1よりも大きい正の整数であり、MはKよりも大きく、NはJよりも大き
く、
K個の前記第1の中心特徴とJ個の前記第2の中心特徴との間の前記余弦距離を統計し、前記第1の距離を取得することは、
各前記第1の中心特徴について、該第1の中心特徴と各前記第2の中心特徴との間の前記余弦距離を計算し、前記第1の中心特徴に対応するJ個の余弦距離を取得し、前記第1の中心特徴に対応するJ個の前記余弦距離を合計し、前記第1の中心特徴に対応する前記余弦距離の和を取得することと、
K個の前記第1の中心特徴に対応する余弦距離の和を合計し、前記第1の距離を取得することとを含むモデル評価方法。
【請求項2】
前記第1の距離に基づき、前記第1の評価対象音声合成モデルを評価することは、
前記第1の距離が予め設定された第1の閾値未満である場合、前記第1の評価対象音声合成モデルへの評価が成功したことを確定することと、
前記第1の距離が予め設定された前記第1の閾値以上である場合、前記第1の評価対象音声合成モデルへの評価が成功しなかったことを確定することとを含む請求項
1に記載のモデル評価方法。
【請求項3】
前記第1の評価対象音声合成モデルで合成されたM個の前記第1のオーディオ信号と、録音されたN個の前記第2のオーディオ信号とを取得した後、
第2の評価対象音声合成モデルで合成されたT個の第3のオーディオ信号を取得することと、
T個の前記第3のオーディオ信号のそれぞれに対して声紋抽出を行ってT個の第3の声紋特徴を取得することと、
T個の前記第3の声紋特徴をクラスタリングしてP個の第3の中心特徴を取得することと、
P個の前記第3の中心特徴とJ個の前記第2の中心特徴との間の余弦距離を統計し、第2の距離を取得することと、
前記第1の距離及び前記第2の距離に基づき、前記第1の評価対象音声合成モデル又は前記第2の評価対象音声合成モデルを評価することとをさらに含み、
ここで、T及びPは1よりも大きい正の整数であり、TはPよりも大きい請求項1に記載のモデル評価方法。
【請求項4】
K個の前記第1の中心特徴のうち2つずつの前記第1の中心特徴間の余弦距離は、予め設定された第2の閾値よりも大きく、J個の前記第2の中心特徴のうち2つずつの前記第2の中心特徴間の余弦距離は、予め設定された第3の閾値よりも大きい請求項1に記載のモデル評価方法。
【請求項5】
第1の評価対象音声合成モデルで合成されたM個の第1のオーディオ信号と、録音されたN個の第2のオーディオ信号とを取得する第1の取得モジュールと、
M個の前記第1のオーディオ信号のそれぞれに対して声紋抽出を行ってM個の第1の声紋特徴を取得し、N個の前記第2のオーディオ信号のそれぞれに対して声紋抽出を行ってN個の第2の声紋特徴を取得する第1の声紋抽出モジュールと、
M個の前記第1の声紋特徴をクラスタリングしてK個の第1の中心特徴を取得し、N個の前記第2の声紋特徴をクラスタリングしてJ個の第2の中心特徴を取得する第1のクラスタリングモジュールと、
K個の前記第1の中心特徴とJ個の前記第2の中心特徴との間の余弦距離を統計し、第1の距離を取得する第1の統計モジュールと、
前記第1の距離に基づき、前記第1の評価対象音声合成モデルを評価する第1の評価モジュールとを備え、
ここで、M、N、K及びJはいずれも1よりも大きい正の整数であり、MはKよりも大きく、NはJよりも大き
く、
前記第1の統計モジュールは、具体的には、
各前記第1の中心特徴について、該第1の中心特徴と各前記第2の中心特徴との間の前記余弦距離を計算し、前記第1の中心特徴に対応するJ個の余弦距離を取得し、前記第1の中心特徴に対応するJ個の前記余弦距離を合計し、前記第1の中心特徴に対応する前記余弦距離の和を取得し、K個の前記第1の中心特徴に対応する前記余弦距離の和を合計し、前記第1の距離を取得するモデル評価装置。
【請求項6】
前記第1の評価モジュールは、具体的には、
前記第1の距離が予め設定された第1の閾値未満である場合、前記第1の評価対象音声合成モデルへの評価が成功したことを確定し、前記第1の距離が予め設定された前記第1の閾値以上である場合、前記第1の評価対象音声合成モデルへの評価が成功しなかったことを確定する請求項
5に記載のモデル評価装置。
【請求項7】
第2の評価対象音声合成モデルで合成されたT個の第3のオーディオ信号を取得する第2の取得モジュールと、
T個の前記第3のオーディオ信号のそれぞれに対して声紋抽出を行ってT個の第3の声紋特徴を取得する第2の声紋抽出モジュールと、
T個の前記第3の声紋特徴をクラスタリングしてP個の第3の中心特徴を取得する第2のクラスタリングモジュールと、
P個の前記第3の中心特徴とJ個の前記第2の中心特徴との間の余弦距離を統計し、第2の距離を取得する第2の統計モジュールと、
前記第1の距離及び前記第2の距離に基づき、前記第1の評価対象音声合成モデル又は前記第2の評価対象音声合成モデルを評価する第2の評価モジュールとをさらに備え、
ここで、T及びPは1よりも大きい正の整数であり、TはPよりも大きい請求項
5に記載のモデル評価装置。
【請求項8】
K個の前記第1の中心特徴のうち2つずつの前記第1の中心特徴間の余弦距離は、予め設定された第2の閾値よりも大きく、J個の前記第2の中心特徴のうち2つずつの前記第2の中心特徴間の余弦距離は、予め設定された第3の閾値よりも大きい請求項
5に記載のモデル評価装置。
【請求項9】
少なくとも1つのプロセッサと、
少なくとも1つの該プロセッサに通信可能に接続されたメモリとを備え、
少なくとも1つの前記プロセッサにより実行されると、請求項1から請求項
4のいずれかに記載のモデル評価方法を少なくとも1つの前記プロセッサに実行させる、少なくとも1つの前記プロセッサによって実行可能な命令が前記メモリに記憶されている電子機器。
【請求項10】
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、請求項1から請求項
4のいずれかに記載のモデル評価方法を前記コンピュータに実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
【請求項11】
プロセッサによって実行されると、請求項1から請求項
4のいずれかに記載のモデル評価方法が実現されるコンピュータプログラ
ム。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、データ処理技術に関し、特にオーディオデータ処理の技術分野に関し、具体的には、モデル評価方法、モデル評価装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム製品に関する。
【背景技術】
【0002】
音声合成技術は、文字をオーディオ信号に変換して出力する技術であり、ヒューマンコンピュータインタラクション分野で重要な役割を果たし、幅広い用途がある。パーソナライズされた音声合成は、音声合成技術により、実際の人間の発音に非常に類似するオーディオ信号を合成することであり、現在、地図、スマートスピーカーなどの分野に広く応用されている。
【0003】
現在、オーディオ信号を合成するためのパーソナライズされた音声合成モデルが多いが、これらのパーソナライズされた音声合成モデルで合成されたオーディオの復元度は不均一であり、したがって、パーソナライズされた音声合成モデルを評価することは非常に重要である。
【0004】
現在、一般的に、事前にトレーニングされた声紋検証モデルにより、パーソナライズされた音声合成モデルで合成されたオーディオの復元度、即ち合成されたオーディオと実際の人間の発音との類似度を評価し、それによって、パーソナライズされた音声合成モデルの優劣を評価する。しかしながら、声紋検証モデルは、一般的に、合成されたオーディオ信号の復元度を1つずつ検証するため、評価効率が低い。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本願は、モデル評価方法、モデル評価装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム製品を提供する。
【課題を解決するための手段】
【0006】
本願の第1の態様として、第1の評価対象音声合成モデルで合成されたM個の第1のオーディオ信号と、録音されたN個の第2のオーディオ信号とを取得することと、M個の前記第1のオーディオ信号のそれぞれに対して声紋抽出を行ってM個の第1の声紋特徴を取得し、N個の前記第2のオーディオ信号のそれぞれに対して声紋抽出を行ってN個の第2の声紋特徴を取得することと、M個の前記第1の声紋特徴をクラスタリングしてK個の第1の中心特徴を取得し、N個の前記第2の声紋特徴をクラスタリングしてJ個の第2の中心特徴を取得することと、K個の前記第1の中心特徴とJ個の前記第2の中心特徴との間の余弦距離を統計し、第1の距離を取得することと、前記第1の距離に基づき、前記第1の評価対象音声合成モデルを評価することとを含み、ここで、M、N、K及びJはいずれも1よりも大きい正の整数であり、MはKよりも大きく、NはJよりも大きいモデル評価方法を提供する。
【0007】
本願の第2の態様として、第1の評価対象音声合成モデルで合成されたM個の第1のオーディオ信号と、録音されたN個の第2のオーディオ信号とを取得する第1の取得モジュールと、M個の前記第1のオーディオ信号のそれぞれに対して声紋抽出を行ってM個の第1の声紋特徴を取得し、N個の前記第2のオーディオ信号のそれぞれに対して声紋抽出を行ってN個の第2の声紋特徴を取得する第1の声紋抽出モジュールと、M個の前記第1の声紋特徴をクラスタリングしてK個の第1の中心特徴を取得し、N個の前記第2の声紋特徴をクラスタリングしてJ個の第2の中心特徴を取得する第1のクラスタリングモジュールと、K個の前記第1の中心特徴とJ個の前記第2の中心特徴との間の余弦距離を統計し、第1の距離を取得する第1の統計モジュールと、前記第1の距離に基づき、前記第1の評価対象音声合成モデルを評価する第1の評価モジュールとを備え、ここで、M、N、K及びJはいずれも1よりも大きい正の整数であり、MはKよりも大きく、NはJよりも大きいモデル評価装置を提供する。
【0008】
本願の第3の態様として、少なくとも1つのプロセッサと、少なくとも1つの該プロセッサに通信可能に接続されたメモリとを備え、少なくとも1つの前記プロセッサにより実行されると、上記のモデル評価方法を少なくとも1つの前記プロセッサに実行させる、少なくとも1つの前記プロセッサによって実行可能な命令が前記メモリに記憶されている電子機器を提供する。
【0009】
本願の第4の態様として、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令は、上記のモデル評価方法を前記コンピュータに実行させる非一時的なコンピュータ読み取り可能な記憶媒体を提供する。
本願の第5の態様として、プロセッサによって実行されると、上記のモデル評価方法が実現されるコンピュータプログラムを含むコンピュータプログラム製品を提供する。
【発明の効果】
【0010】
本願の技術によれば、M個の第1の声紋特徴をクラスタリングしてK個の第1の中心特徴を取得し、N個の第2の声紋特徴をクラスタリングしてJ個の第2の中心特徴を取得し、K個の第1の中心特徴とJ個の第2の中心特徴との間の余弦距離を統計し、第1の距離を取得する。これにより、第1の評価対象音声合成モデルで合成されたM個の第1のオーディオ信号の復元度を、第1の距離に基づいて全体として評価することができ、さらに第1の評価対象音声合成モデルの評価効率を向上させることができる。本願は、パーソナライズされた音声合成モデルに対する従来技術の評価効率が低いという問題を解決する。
【0011】
ここでは説明される内容は、本開示の実施例の主要な特徴又は重要な特徴を示すことを意図しておらず、本開示の範囲を限定することにも用いられないことを理解すべきである。本開示の他の特徴は、以下の説明により理解しやすくなる。
【図面の簡単な説明】
【0012】
図面は、本解決策をより理解しやすくするためであり、本願を制限するものではない。
【
図1】本願の実施例1に係るモデル評価方法のフローチャートである。
【
図2】第2の評価対象音声合成モデルを評価する模式的フローチャートである。
【
図3】本願の実施例2に係るモデル評価装置の構造模式
図1である。
【
図4】本願の実施例2に係るモデル評価装置の構造模式
図2である。
【
図5】本願の上記実施例に係るモデル評価方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0013】
以下では、図面を参照しながら本願の例示的な実施例を説明するが、この説明には、理解を容易にするために本願の実施例の様々な詳細が含まれるが、これらは単に例示的なものであると考えるべきである。したがって、当業者が理解できるように、本願の範囲及び精神を逸脱することなく、ここでは記載される実施例に様々な変更及び修正を加えることができる。同様に、以下の説明では、周知の機能及び構造については、明確化及び簡明化のために詳しく説明しない。
【0014】
実施例1
図1に示されるように、本願の実施例1に係るモデル評価方法は、ステップS101からステップS105を含む。
ステップS101として、第1の評価対象音声合成モデルで合成されたM個の第1のオーディオ信号と、録音されたN個の第2のオーディオ信号とを取得する。
【0015】
本実施例では、第1の評価対象音声合成モデルは、パーソナライズされた音声合成モデルであり、その目的は、第1の評価対象音声合成モデルで実際の人間の発音に類似するオーディオ信号を合成して、地図、スマートスピーカーなどの分野に適用することである。
【0016】
第1の評価対象音声合成モデルは、予め設定された第1のモデルによって事前にトレーニングされて生成されてもよい。予め設定された第1のモデルは、実質的には第1のアルゴリズムによって構築されたモデルであり、第1の評価対象音声合成モデルを取得するために、予め設定された第1のモデルにおけるパラメータはトレーニングにより取得される。
【0017】
具体的には、第1のユーザがテキストに従って録音した複数のオーディオ信号をトレーニングサンプルとし、たとえば、第1のユーザがテキストに従って録音した20個又は30個のオーディオ信号をトレーニングサンプルとし、予め設定された第1のモデルに入力し、トレーニングして予め設定された第1のモデルにおけるパラメータデータを取得し、第1のユーザの第1の評価対象合成モデルを生成する。
【0018】
第1の評価対象合成モデルを生成した後、1バッチのテキストを使用し、第1のユーザの第1の評価対象音声合成モデルを使用して1バッチの第1のオーディオ信号を生成する。具体的には、各テキストを第1の評価対象音声合成モデルに入力し、テキストに対応する第1のオーディオ信号を出力し、最終的にM個の第1のオーディオ信号を取得する。同時に、第1のユーザによって録音された1バッチの第2のオーディオ信号を取得し、最終的にN個の第2のオーディオ信号を取得する。
【0019】
ここで、M及びNは、同じでもよく、異なっていてもよく、ここでは特に限定しない。第1の評価対象音声合成モデルの評価結果をより正確にするために、M及びNは、通常大きく、たとえば20又は30である。
【0020】
ステップS102として、M個の第1のオーディオ信号のそれぞれに対して声紋抽出を行い、M個の第1の声紋特徴を取得し、N個の第2のオーディオ信号のそれぞれに対して声紋抽出を行い、N個の第2の声紋特徴を取得する。
【0021】
第1のオーディオ信号に対して声紋抽出を行う方式は、複数の方式を含むことができ、たとえば、従来の統計的方法を使用して、第1のオーディオ信号に対して声紋抽出を行い、第1の声紋特徴である第1のオーディオ信号の統計的特徴を取得する。また、たとえば、ディープニューラルネットワーク(DNN:Deep Neural Networks)を使用し、第1のオーディオ信号に対して声紋抽出を行い、第1の声紋特徴である第1のオーディオ信号のDNN声紋特徴を取得する。
【0022】
また、第2のオーディオ信号に対して声紋抽出を行う方式は、第1のオーディオ信号に対して声紋抽出を行う方式と類似するため、ここでは詳しく説明しない。
【0023】
ステップS103として、M個の第1の声紋特徴をクラスタリングしてK個の第1の中心特徴を取得し、N個の第2の声紋特徴をクラスタリングしてJ個の第2の中心特徴を取得する。
【0024】
従来、クラスタリングアルゴリズム又は新しいクラスタリングアルゴリズムを使用してM個の第1の声紋特徴をクラスタリングし、K個の第1の中心特徴を取得することができる。ここで、Kは、これらのM個の第1の声紋特徴のうちの2つずつの第1の声紋特徴間の余弦距離の実際の状況に基づいてクラスタリングアルゴリズムによって取得されてもよい。
【0025】
たとえば、クラスタリングアルゴリズムは、これらのM個の第1の声紋特徴のうちの2つずつの第1の声紋特徴間の余弦距離に応じて、これらのM個の第1の声紋特徴を、3つのクラスタ、4つのクラスタ、5つのクラスタなどにクラスタリングすることができ、Kは、クラスタの数である。ここで、各クラスタの第1の声紋特徴のうちの2つずつの第1の声紋特徴間の余弦距離、即ち、グループ内の距離は、予め設定された閾値未満である。クラスタとクラスタの第1の声紋特徴間の余弦距離、即ちグループ間の距離は、別の予め設定された閾値よりも大きい。
【0026】
クラスタリングした後、各クラスタの第1の声紋特徴に応じて、クラスタの第1の中心特徴を計算し、たとえばクラスタの第1の中心特徴がクラスタの複数の第1の声紋特徴を平均した後の声紋特徴であってもよく、最終的にK個の第1の中心特徴を得る。
【0027】
また、N個の声紋特徴をクラスタリングする方式は、M個の声紋特徴をクラスタリングする方式と類似するため、ここでは詳しく説明しない。
【0028】
ここで、K及びJは、同じでもよく、異なっていてもよく、ここでは特に限定しない。また、M、N、K及びJはいずれも1よりも大きい正の整数であり、MはKよりも大きく、NはJよりも大きい。
【0029】
ステップS104として、K個の第1の中心特徴と前記J個の第2の中心特徴との間の余弦距離を統計し、第1の距離を取得する。
【0030】
各第1の中心特徴について、第1の中心特徴とJ個の第2の中心特徴のそれぞれとの間の余弦距離を計算し、第1の中心特徴に対応する余弦距離を取得することができる。ここで、2つの中心特徴間の余弦距離は、これらの2つの中心特徴の類似度を特徴付けることができる。
【0031】
たとえば、K個の第1の中心特徴は、それぞれ第1の中心特徴A1、第1の中心特徴A2及び第1の中心特徴A3であり、J個の第2の中心特徴は、それぞれ第2の中心特徴B1、第2の中心特徴B2及び第2の中心特徴B3である。第1の中心特徴A1と第2の中心特徴B1、第1の中心特徴A1と第2の中心特徴B2、第1の中心特徴A1と第2の中心特徴B3との間の余弦距離を計算する。そして、第1の中心特徴A1に対応する余弦距離A1B1、余弦距離A1B2及び余弦距離A1B3を取得する。次に、第1の中心特徴A2と第2の中心特徴B1、第1の中心特徴A2と第2の中心特徴B2、第1の中心特徴A2と第2の中心特徴B3との間の余弦距離を計算する。さらに、第1の中心特徴A2に対応する余弦距離A2B1、余弦距離A2B2及び余弦距離A2B3を取得する。そして、第1の中心特徴A3と第2の中心特徴B1、第1の中心特徴A3と第2の中心特徴B2、第1の中心特徴A3と第2の中心特徴B3との間の余弦距離を計算する。さらに、第1の中心特徴A3に対応する余弦距離A3B1、余弦距離A3B2及び余弦距離A3B3を取得する。最終的に、K個の第1の中心特徴とJ個の第2中心特徴との間の複数の余弦距離を取得することができる。
【0032】
次に、K個の第1の中心特徴とJ個の第2の中心特徴との間の複数の余弦距離を統計し、第1の距離を取得する。ここで、K個の第1の中心特徴とJ個の第2の中心特徴との間の複数の余弦距離を統計する方式は、様々であり、たとえば、これらの余弦距離を合計し、第1の距離を取得する。また、たとえば、これらの余弦距離を平均して、第1の距離を取得する。
【0033】
また、K個の第1の中心特徴がM個の第1の声紋特徴に基づいてクラスタリングされたものであり、J個の第2の中心特徴がN個の第2の声紋特徴に基づいてクラスタリングされたものであり、かつ第1の距離がK個の第1の中心特徴とJ個の第2の中心特徴との間の複数の余弦距離に基づいて統計されたものである。このため、第1の距離は、M個の第1の声紋特徴とN個の第2の声紋特徴との間の類似度を全体として評価することができる。
【0034】
つまり、第1の距離は、M個の第1のオーディオ信号と、実際の人間により録音されたN個の第2のオーディオ信号の発音との類似度を全体として評価する。即ち、第1の評価対象音声合成モデルで合成されたM個の第1のオーディオ信号の復元度を評価することができる。第1の距離が予め設定された第1の閾値未満である場合、これらのM個の第1のオーディオ信号の復元度が良いことを示し、第1の距離が予め設定された第1の閾値以上である場合、これらのM個の第1のオーディオ信号の復元度が悪いことを示す。
【0035】
ステップS105として、第1の距離に基づき、第1の評価対象音声合成モデルを評価する。
【0036】
これらのM個の第1のオーディオ信号が第1の評価対象音声合成モデルで合成されるため、第1の距離は、第1の評価対象音声合成モデルを評価するために使用されてもよい。これにより、第1の距離に基づき、第1の評価対象音声合成モデルを評価することができる。
【0037】
本実施例では、M個の第1の声紋特徴をクラスタリングしてK個の第1の中心特徴を取得し、N個の第2の声紋特徴をクラスタリングしてJ個の第2の中心特徴を取得し、K個の第1の中心特徴とJ個の第2の中心特徴との間の余弦距離を統計し、第1の距離を取得する。これにより、第1の評価対象音声合成モデルで合成されたM個の第1のオーディオ信号の復元度を、第1の距離に基いて全体として評価することができ、さらに多くの第1のオーディオ信号の復元度を迅速に評価し、第1の評価対象音声合成モデルの評価効率を向上させることができる。
【0038】
さらに、従来技術と比較して、本実施例では、声紋検証モデルを使用してモデル評価を行う必要がないため、声紋検証モデルを定期的に更新する必要があるという欠点を回避し、モデル評価のコストを削減させる。また、モデル評価プロセスでは、複数の第1の声紋特徴と複数の第2の声紋特徴とをそれぞれクラスタリングし、複数の第1の中心特徴と複数の第2の中心特徴とを取得することにより、オーディオ信号それぞれの特徴を十分に考慮し、さらにモデル評価の精度を向上させることができる。
【0039】
さらに、第1の評価対象音声合成モデルは、実質的には1つのアルゴリズムによって構築されたモデルである予め設定された第1のモデルを事前にトレーニングして生成されたおのである。したがって、本実施例では、予め設定された第1のモデルにより複数のユーザの第1の評価対象音声合成モデルを生成し、これらのユーザの第1の評価対象音声合成モデルを評価することにより、予め設定された第1のモデルを評価し、即ち予め設定された第1のモデルを構築するためのアルゴリズムを評価することもできる。したがって、本実施例は、パーソナライズされた音声合成アルゴリズムの評価効率を向上させることもできる。
【0040】
たとえば、パーソナライズされた音声合成アルゴリズムを使用して予め設定された第1のモデルを構築し、予め設定された第1のモデルにより複数のユーザの第1の評価対象音声合成モデルを生成し、これらの複数のユーザの第1の評価対象音声合成モデルをそれぞれ評価する。次に、これらの複数のユーザの第1の評価対象音声合成モデルの評価結果に基づき、予め設定された第1のモデルを評価し、これらの複数のユーザのうち、ほとんど又はすべてのユーザの第1の評価対象音声合成モデルへの評価が成功した場合、予め設定された第1のモデルへの評価が成功し、即ち予め設定された第1のモデルを構築するためのパーソナライズされた音声合成アルゴリズムへの評価が成功したことを確定する。
【0041】
オプションとして、K個の第1の中心特徴とJ個の第2の中心特徴との間の余弦距離を統計し、第1の距離を取得することは、各第1の中心特徴について、第1の中心特徴と各第2の中心特徴との間の余弦距離を計算し、第1の中心特徴に対応するJ個の余弦距離を取得し、第1の中心特徴に対応するJ個の余弦距離を合計し、第1の中心特徴に対応する余弦距離の和を取得することと、K個の第1の中心特徴に対応する余弦距離の和を合計し、第1の距離を取得することとを含む。
【0042】
本実施形態では、K個の第1の中心特徴とJ個の第2の中心特徴との間の複数の余弦距離を計算し、これらの複数の余弦距離を合計することで、第1の距離、即ちK個の第1の中心特徴とJ個の第2の中心特徴との間の総距離を取得する。総距離は、M個の第1の声紋特徴とN個の第2の声紋特徴との類似度を全体として特徴付けることができる。したがって、本実施形態では、総距離に基づき、M個の第1のオーディオ信号と実際の人間によって録音されたN個の第2のオーディオ信号の発音との類似度を全体として評価し、即ちM個の第1のオーディオ信号の復元度を評価することができる。これにより、多くの第1のオーディオ信号の復元度を迅速に評価することができ、さらに第1の評価対象音声合成モデルの評価効率を向上させることができる。
【0043】
オプションとして、第1の距離に基づき、第1の評価対象音声合成モデルを評価することは、第1の距離が予め設定された第1の閾値未満である場合、第1の評価対象音声合成モデルへの評価が成功したことを確定することと、第1の距離が予め設定された第1の閾値以上である場合、第1の評価対象音声合成モデルへの評価が成功しなかったことを確定することとを含んでいてもよい。
【0044】
本実施形態では、第1の距離が予め設定された第1の閾値未満である場合、これらのM個の第1のオーディオ信号の復元度が良いことを全体として確定することができ、これにより、これらのM個の第1のオーディオ信号を合成するための第1の評価対象音声合成モデルへの評価が成功したことを確定することができる。第1の距離が予め設定された第1の閾値以上である場合、これらのM個の第1のオーディオ信号の復元度が低いことを全体として確定することができる。これにより、これらのM個の第1のオーディオ信号を合成するための第1の評価対象音声合成モデルへの評価が成功しておらず、改善する必要があることを確定することができる。
【0045】
ここで、予め設定された第1の閾値は、実際の状況に応じて設定されてもよく、合成オーディオの復元度が高く要求される分野では、予め設定された第1の閾値は、小さく設定されてもよい。
【0046】
オプションとして、第1の評価対象音声合成モデルで合成されたM個の第1のオーディオ信号と、録音されたN個の第2のオーディオ信号とを取得した後、本実施例に係るモデル評価方法は、第2の評価対象音声合成モデルで合成されたT個の第3のオーディオ信号を取得することと、T個の第3のオーディオ信号のそれぞれに対して声紋抽出を行ってT個の第3の声紋特徴を取得することと、T個の第3の声紋特徴をクラスタリングしてP個の第3の中心特徴を取得することと、P個の第3の中心特徴とJ個の第2の中心特徴との間の余弦距離を統計し、第2の距離を取得することと、第1の距離と第2の距離とに基づき、第1の評価対象音声合成モデル又は第2の評価対象音声合成モデルを評価することとをさらに含んでいてもよい。ここで、T及びPは1よりも大きい正の整数であり、TはPよりも大きい。
【0047】
本実施形態では、第2の評価対象音声合成モデルは、第1のユーザの評価対象音声合成モデルであり、第2の評価対象音声合成モデルもパーソナライズされた音声合成モデルであり、その目的は、第2の評価対象音声合成モデルで実際の人間の発音に類似するオーディオ信号を合成し、地図、スマートスピーカーなどの分野に適用することである。
【0048】
第2の評価対象音声合成モデルは、実質的には第2のアルゴリズムによって構築されたモデルである予め設定された第2のモデルを事前にトレーニングして生成されてもよい。第2の評価対象音声合成モデルを取得するために、第2の予め設定されたモデルにおけるパラメータは、トレーニングにより取得される。ここで、第2のアルゴリズムは、第1のアルゴリズムをアップグレードしたアルゴリズムであってもよいし、第1のアルゴリズムと同種の競合アルゴリズムであってもよい。
【0049】
具体的には、第1のユーザがテキストに従って録音した複数のオーディオ信号をトレーニングサンプルとし、たとえば、第1のユーザがテキストに従って録音した20又は30個のオーディオ信号をトレーニングサンプルとする。そして、予め設定された第2のモデルに入力し、トレーニングして予め設定された第2のモデルにおけるパラメータデータを取得し、第1のユーザの第2の評価対象合成モデルを生成する。
【0050】
第2の評価対象合成モデルを生成した後、1バッチのテキストを使用し、第1のユーザの第2の評価対象音声合成モデルを使用して1バッチの第3のオーディオ信号を生成する。具体的には、各テキストを第2の評価対象音声合成モデルに入力し、テキストに対応する第3のオーディオ信号を出力し、最終的にT個の第3のオーディオ信号を取得する。
【0051】
ここで、M及びTは、同じでもよく、異なっていてもよく、ここでは特に限定しない。第2の評価対象音声合成モデルの評価結果をより正確にするために、Tは、通常大きく、たとえば20又は30である。
【0052】
本実施形態では、第3のオーディオ信号に対して声紋抽出を行う方式は、第1のオーディオ信号に対して声紋抽出を行う方式と類似し、T個の第3の声紋特徴をクラスタリングする方式は、M個の第1の声紋特徴をクラスタリングする方式と類似する。そして、P個の第3の中心特徴とJ個の第2の中心特徴との間の余弦距離の統計方式は、K個の第1の中心特徴とJ個の第2の中心特徴との間の余弦距離の統計方式と類似し、ここでは詳しく説明しない。
【0053】
P個の第3の中心特徴とJ個の第2の中心特徴との間の余弦距離を統計し、第2の距離を取得した後、第1の距離と第2の距離とに基づき、第1の評価対象音声合成モデル又は第2の評価対象音声合成モデルを評価することができる。
【0054】
具体的には、第2のアルゴリズムが第1のアルゴリズムをアップグレードしたアルゴリズムである場合、一般的に、第2の評価対象音声合成モデルを評価する必要がある。
図2を参照すると、
図2は、第2の評価対象音声合成モデルを評価する模式的フローチャートである。
図2に示されるように、ユーザによって録音されたN個の第2のオーディオ信号、第1の評価対象音声合成モデル即ちオンラインで使用されているモデルで合成されたM個の第1のオーディオ信号、及び第2の評価対象音声合成モデル即ち今回アップグレードされたモデルで合成されたT個の第3のオーディオ信号に対して、声紋抽出をそれぞれ行い、M個の第1の声紋特徴、N個の第2の声紋特徴、及びT個の第3の声紋特徴を取得する。
【0055】
次に、これらの3つの声紋特徴をそれぞれクラスタリングして、K個の第1の中心特徴、J個の第2の中心特徴、及びP個の第3の中心特徴を取得する。
【0056】
次に、K個の第1の中心特徴とJ個の第2の中心特徴との間の余弦距離を統計し、第1の距離を取得し、それと同時に、P個の第3の中心特徴とJ個の第2の中心特徴との間の余弦距離を統計し、第2の距離を取得する。
【0057】
最後に、第1の距離及び第2の距離の大きさを比較する。第2の距離が第1の距離よりも小さい場合には、第2の評価対象音声合成モデルで合成されたT個の第3のオーディオ信号の復元度が第1の評価対象音声合成モデルで合成されたM個の第1のオーディオ信号の復元度よりも高いことを確定し、それによって、第2の評価対象音声合成モデルへの評価が成功したことを確定する。第2の距離が第1の距離以上である場合、第2の評価対象音声合成モデルへの評価が成功しておらず、第2のアルゴリズムを再度アップグレードして改善する必要があることを確定する。
【0058】
第2のアルゴリズムが第1のアルゴリズムと同種の競合アルゴリズムである場合、一般的に、第1の評価対象音声合成モデルを評価する必要があり、第1の距離及び第2の距離の大きさを比較する。第2の距離が第1の距離よりも大きい場合、第2の評価対象音声合成モデルで合成されたT個の第3のオーディオ信号の復元度が第1の評価対象音声合成モデルで合成されたM個の第1のオーディオ信号の復元度よりも低いことを確定し、それによって、第1の評価対象音声合成モデルへの評価が成功したことを確定する。第2の距離が第1の距離以下である場合、第1の評価対象音声合成モデルへの評価が成功しておらず、第1のアルゴリズムをアップグレードして改善する必要があることを確定する。
【0059】
本実施形態では、T個の第3の声紋特徴をクラスタリングし、P個の第3の中心特徴を取得し、P個の第3の中心特徴とJ個の第2の中心特徴との間の余弦距離を統計し、第2の距離を取得する。これにより、第2の評価対象音声合成モデルで合成されたT個の第3のオーディオ信号の復元度を、第2の距離に基づいて全体として評価することができ、さらに多くの第3のオーディオ信号の復元度を迅速に評価することができ、第2の評価対象音声合成モデルの評価効率を向上させることができる。また、第1の距離及び第2の距離の大きさを比較することにより、第2の評価対象音声合成モデルで合成されたT個の第3のオーディオ信号の復元度と第1の評価対象音声合成モデルで合成されたM個の第1のオーディオ信号の復元度とを比較することができる。さらに、様々なパーソナライズされた音声合成アルゴリズムを比較し、パーソナライズされた音声合成アルゴリズムを評価することができ、アルゴリズム評価の効率を向上させることができる。
【0060】
オプションとして、K個の第1の中心特徴のうち2つずつの第1の中心特徴間の余弦距離は、予め設定された第2の閾値よりも大きく、J個の第2の中心特徴のうち2つずつの第2の中心特徴間の余弦距離は、予め設定された第3の閾値よりも大きくてもよい。
【0061】
本実施形態では、K個の第1の中心特徴のうち2つずつの第1の中心特徴間の余弦距離を予め設定された第2の閾値よりも大きく設定し、J個の第2の中心特徴のうち2つずつの第2の中心特徴間の余弦距離を予め設定された第3の閾値よりも大きく設定することにより、オーディオ信号それぞれの特徴を十分に考慮し、さらにモデル評価の精度を向上させることができる。
【0062】
ここで、予め設定された第2の閾値及び予め設定された第3の閾値は、実際の状況に応じて設定されてもよい。オーディオ信号それぞれの特徴を十分に考慮し、モデル評価の精度を確保するために、一般的に、予め設定された第2の閾値及び予め設定された第3の閾値が大きく設定されるほど好ましく、即ち、グループ間の距離が大きいほど好ましい。
【0063】
なお、本願のモデル評価方法における複数の選択可能な実施形態は、互いに組み合わせて実現されてもよいし、個別に実現されてもよく、本願はこれについて限定しない。
【0064】
実施例2
図3に示されるように、本願は、モデル評価装置300を提供する。
モデル評価装置300は、第1の評価対象音声合成モデルで合成されたM個の第1のオーディオ信号と、録音されたN個の第2のオーディオ信号とを取得する第1の取得モジュール301と、M個の第1のオーディオ信号のそれぞれに対して声紋抽出を行ってM個の第1の声紋特徴を取得し、N個の第2のオーディオ信号のそれぞれに対して声紋抽出を行ってN個の第2の声紋特徴を取得する第1の声紋抽出モジュール302と、M個の第1の声紋特徴をクラスタリングしてK個の第1の中心特徴を取得し、N個の第2の声紋特徴をクラスタリングしてJ個の第2の中心特徴を取得する第1のクラスタリングモジュール303と、K個の第1の中心特徴とJ個の第2の中心特徴との間の余弦距離を統計し、第1の距離を取得する第1の統計モジュール304と、第1の距離に基づき、第1の評価対象音声合成モデルを評価する第1の評価モジュール305とを備える。ここで、M、N、K及びJはいずれも1よりも大きい正の整数であり、MはKよりも大きく、NはJよりも大きい。
【0065】
オプションとして、第1の統計モジュール304は、具体的には、各第1の中心特徴について、第1の中心特徴と各第2の中心特徴との間の余弦距離を計算し、第1の中心特徴に対応するJ個の余弦距離を取得し、第1の中心特徴に対応するJ個の余弦距離を合計し、第1の中心特徴に対応する余弦距離の和を取得し、K個の第1の中心特徴に対応する余弦距離の和を合計し、第1の距離を取得してもよい。
【0066】
オプションとして、第1の評価モジュール305は、具体的には、第1の距離が予め設定された第1の閾値未満である場合、第1の評価対象音声合成モデルへの評価が成功したことを確定し、第1の距離が予め設定された第1の閾値以上である場合、第1の評価対象音声合成モデルへの評価が成功しなかったことを確定してもよい。
【0067】
オプションとして、
図4に示されるように、本願はモデル評価装置300をさらに提供する。
図3に示すモジュールに基づき、モデル評価装置300は、第2の評価対象音声合成モデルで合成されたT個の第3のオーディオ信号を取得する第2の取得モジュール306と、T個の第3のオーディオ信号のそれぞれに対して声紋抽出を行ってT個の第3の声紋特徴を取得する第2の声紋抽出モジュール307と、T個の第3の声紋特徴をクラスタリングしてP個の第3の中心特徴を取得する第2のクラスタリングモジュール308と、P個の第3の中心特徴とJ個の第2の中心特徴との間の余弦距離を統計し、第2の距離を取得する第2の統計モジュール309と、第1の距離及び第2の距離に基づき、第1の評価対象音声合成モデル又は第2の評価対象音声合成モデルを評価する第2の評価モジュール310とをさらに備えていてもよい。ここで、T及びPは1よりも大きい正の整数であり、TはPよりも大きい。
【0068】
オプションとして、K個の第1の中心特徴のうち2つずつの第1の中心特徴間の余弦距離は、予め設定された第2の閾値よりも大きく、J個の第2の中心特徴のうち2つずつの第2の中心特徴間の余弦距離は、予め設定された第3の閾値よりも大きくてもよい。
【0069】
本願に係るモデル評価装置300は、モデル評価方法の上記実施例におけるモデル評価装置で実現される各プロセスを実現することができ、かつ同じ有益な効果を達成することができ、繰り返しを回避するために、ここで詳しく説明しない。
【0070】
本願の実施例によれば、本願は、電子機器及びコンピュータ読み取り可能な記憶媒体をさらに提供する。
【0071】
図5には、本願の上記実施例に係るモデル評価方法の電子機器のブロック図が示されている。電子機器は、たとえば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及びその他の適切なコンピュータなど、様々な形式のデジタルコンピュータを指すことを意図している。電子機器は、たとえば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブル機器、及びその他の類似のコンピューティング装置など、様々な形式の移動装置を示してもよい。本明細書に示されているコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であるが、本明細書の説明及び/又は要求される本願の実現を制限する意図はしない。
【0072】
図5に示されるように、電子機器は、少なくとも1つのプロセッサ501と、メモリ502と、高速インターフェース及び低速インターフェースを有する、様々なコンポーネントを接続するためのインターフェースとを備える。
各コンポーネントは、異なるバスを介して互いに接続され、共通のマザーボードに取り付けられ、又は必要に応じて他の方式で取り付けられ得る。プロセッサは電子機器内で実行される命令を処理でき、この命令には、メモリ内に格納される又はメモリ上に格納されて外部入力/出力装置(たとえば、インターフェースに結合された表示機器など)にGUMのグラフィック情報を表示する命令が含まれる。他の実施形態では、複数のプロセッサ及び/又は複数のバスを、必要に応じて、複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各機器は必要な操作の一部(たとえば、サーバアレイ、ブレードサーバのグループ、又はマルチプロセッサシステムとして)を提供する。
図5では、単一のプロセッサ501を用いた場合が例示されている。
【0073】
メモリ502は、本願の実施例に係る非一時的なコンピュータ読み取り可能な記憶媒体である。
メモリ502は、本願の実施例に係る上記モデル評価方法を少なくとも1つのプロセッサに実行させるように、少なくとも1つのプロセッサによって実行可能な命令を格納している。本願の非一時的なコンピュータ読み取り可能な記憶媒体は、本願に係るモデル評価方法をコンピュータに実行させるためのコンピュータ命令を格納している。
【0074】
非一時的なコンピュータ読み取り可能な記憶媒体としてのメモリ502は、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュール、たとえば、本願の実施例に係るモデル評価方法に対応するプログラム命令/モジュール(たとえば、
図3又は
図4に示す第1の取得モジュール301、第1の声紋抽出モジュール302、第1のクラスタリングモジュール303、第1の統計モジュール304、第1の評価モジュール305、第2の取得モジュール306、第2の声紋抽出モジュール307、第2のクラスタリングモジュール308、第2の統計モジュール309及び第2の評価モジュール310)を格納することができる。プロセッサ501は、メモリ502に格納された非一時的なソフトウェアプログラム、命令、及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち、上記実施例に係るモデル評価方法を実現する。
【0075】
メモリ502は、プログラム記憶領域及びデータ記憶領域を含むことができ、プログラム記憶領域は、オペレーティングシステム、及び少なくとも1つの機能に必要なアプリケーションプログラムを格納し、データ記憶領域は、モデル評価方法を実現するための電子機器の使用に従って作成されたデータなどを格納する。
さらに、メモリ502は、高速ランダムアクセスメモリを含み、さらに、たとえば、少なくとも1つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスなどの非一時的なメモリを含んでもよい。他の実施例として、メモリ502は、プロセッサ501に対して遠隔的に設置されるメモリを選択的に含んでもよく、これらの遠隔メモリは、ネットワークを介してモデル評価方法を実現するための電子機器に接続され得る。上記ネットワークの一例には、インターネット、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。
【0076】
モデル評価方法を実現する電子機器は、入力装置503及び出力装置504をさらに備えていてもよい。プロセッサ501、メモリ502、入力装置503及び出力装置504はバス又はその他の方式で接続してもよく、
図5には、バスによる接続が例示されている。
【0077】
入力装置503は、入力される数字又はキャラクター情報を受信すること、モデル評価方法を実現するための電子機器、たとえば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインタ、少なくとも1つのマウスボタン、トラックボール、ジョイスティックなどの入力装置のユーザ設定及び機能制御に関連するキー信号入力を生成することができる。
出力装置504は、表示機器、補助照明装置(たとえば、LED)、触覚フィードバック装置(たとえば、振動モータ)などを含む。表示機器は、液晶ディスプレイ(LDC)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むが、これらに限定されない。他の実施例として、表示機器はタッチスクリーンであってもよい。
【0078】
本願の実施例によれば、本願は、コンピュータプログラム製品をさらに提供する。
ここで説明するシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、少なくとも1つのコンピュータプログラム製品において実施され、少なくとも1つのコンピュータプログラムは、少なくとも1つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行及び/又は解釈され得、このプログラム可能なプロセッサは専用又は汎用のプログラム可能なプロセッサであってもよい。ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令をこのストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置に送信することができる。
【0079】
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)には、プログラム可能なプロセッサの機械命令が含まれ、高度なプロセス及び/又はオブジェクト指向のプログラミング言語、及び/又はアセンブリ/機械語を用いてこれらのコンピューティングプログラムを実施できる。たとえば、本明細書で使用される「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び/又はデータをプログラム可能なプロセッサの任意のコンピュータプログラム製品、機器、及び/又は装置(たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジック機器(PLD))に提供するものを指し、機械読み取り可能な信号としての機械命令を受信するための機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、プログラム可能なプロセッサに機械命令及び/又はデータを提供するために使用される任意の信号を指す。
【0080】
ユーザと対話できるように、ここで説明するシステム及び技術をコンピュータに実施することができ、このコンピュータは、ユーザに情報を表示するための表示装置(たとえば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニター)、ユーザがコンピュータに入力することを可能とするキーボード及びポインティング装置(たとえば、マウスやトラックボール)を有する。他の種類の装置も、ユーザとの対話を提供することができ、たとえば、ユーザに提供するフィードバックは、任意の形式の感覚フィードバック(たとえば、視覚的フィードバック、聴覚的フィードバック、又は触覚的フィードバック)であってもよく、そして、ユーザからの入力は、任意の形式(音響入力、音声入力、又は触覚入力を含む)で受信できる。
【0081】
ここで説明するシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(たとえば、データサーバとして)、又はミドルウェアコンポーネントを含むコンピューティングシステム(たとえば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(たとえば、グラフィカルユーザインターフェース又はWEBブラウザーを備えたユーザコンピュータが挙げられ、ユーザはこのグラフィカルユーザインターフェース又はこのWEBブラウザーを介してここで説明するシステム及び技術の実施形態と対話できる)、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントを含む任意の組み合わせコンピューティングシステムにおいて実施できる。システムのコンポーネントは、任意の形式又は媒体のデジタルデータ通信(たとえば、通信ネットワーク)を介して相互に接続できる。通信ネットワークの例には、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、及びインターネットが含まれる。
【0082】
コンピュータシステムには、クライアントとサーバを含むことができる。クライアントとサーバは通常、互いに遠く離れており、通信ネットワークを介して互いに会話するのが一般的である。クライアントとサーバの関係は、対応するコンピュータで実行され、互いにクライアント-サーバの関係を持つコンピュータプログラムによって生成される。
【0083】
本実施例では、M個の第1の声紋特徴をクラスタリングしてK個の第1の中心特徴を取得し、N個の第2の声紋特徴をクラスタリングしてJ個の第2の中心特徴を取得し、K個の第1の中心特徴とJ個の第2の中心特徴との間の余弦距離を統計し、第1の距離を取得する。これにより、第1の評価対象音声合成モデルで合成されたM個の第1のオーディオ信号の復元度を、第1の距離に基いて全体として評価することができ、さらに多くの第1のオーディオ信号の復元度を迅速に評価し、第1の評価対象音声合成モデルの評価効率を向上させることができる。したがって、上記の技術的手段により、パーソナライズされた音声合成モデルに対する従来技術の評価効率が低いという問題をよく解決する。
【0084】
なお、上記の様々な形式のプロセスを用いて、ステップを改めて並べ替えたり、追加したり、削除したりすることができる。たとえば、本願に記載の各ステップは、本願開示の技術案の所望の結果が達成できる限り、並行して実施しても、順次実施しても、異なる順序で実施してもよく、本明細書では、それについて限定しない。
【0085】
上記特定実施形態は、本願の特許範囲に対する制限を構成するものではない。当業者にとって明らかなように、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブ組み合わせ、及び置換を行うことができる。本願の精神及び原則の範囲内で行われた修正、同等の置換、及び改良であれば、本願の特許範囲に含まれるものとする。