(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-01-10
(45)【発行日】2025-01-21
(54)【発明の名称】話者適応型モデルを実現して合成音声信号を生成するニューラルボコーダおよびニューラルボコーダの訓練方法
(51)【国際特許分類】
G10L 13/047 20130101AFI20250114BHJP
G10L 19/06 20130101ALI20250114BHJP
G10L 25/30 20130101ALI20250114BHJP
【FI】
G10L13/047 Z
G10L19/06 B
G10L25/30
(21)【出願番号】P 2023069781
(22)【出願日】2023-04-21
(62)【分割の表示】P 2021540067の分割
【原出願日】2019-08-16
【審査請求日】2023-04-21
(31)【優先権主張番号】10-2019-0004084
(32)【優先日】2019-01-11
(33)【優先権主張国・地域又は機関】KR
(31)【優先権主張番号】10-2019-0004085
(32)【優先日】2019-01-11
(33)【優先権主張国・地域又は機関】KR
【新規性喪失の例外の表示】特許法第30条第2項適用 2018年8月16日に大韓民国ソウル市の延世大学校で開催された2018年度韓国音響学会第35回音声通信及び信号処理学術大会にて「DEEP LEARNING-BASED SPEECH SYNTHESIS SYSTEM」として公開。
【新規性喪失の例外の表示】特許法第30条第2項適用 2018年11月8日にウェブサイト(https://arxiv.org/abs/1811.03311)上にて「SPEAKER-ADAPTIVE NEURAL VODODERS FOR STATISTICAL PARAMETRIC SPEECH SYNTHESIS SYSTEMS」として公開。
(73)【特許権者】
【識別番号】505205812
【氏名又は名称】ネイバー コーポレーション
【氏名又は名称原語表記】NAVER Corporation
(73)【特許権者】
【識別番号】514024262
【氏名又は名称】インダストリー-アカデミック コーペレーション ファウンデーション,ヨンセイ ユニバーシティ
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ソン,ウンウー
(72)【発明者】
【氏名】キム,ジンソプ
(72)【発明者】
【氏名】ビョン,キョングン
(72)【発明者】
【氏名】カン,ホング
【審査官】山下 剛史
(56)【参考文献】
【文献】国際公開第2010/104040(WO,A1)
【文献】特開平7-234697(JP,A)
【文献】国際公開第2017/046887(WO,A1)
【文献】韓国公開特許第10-2018-0113325(KR,A)
【文献】田口史朗,鏑木時彦,End-to-End調音-音声変換のための調音データからのメルスペクトログラム推定,日本音響学会2018年秋季研究発表会講演論文集[CD-ROM],2018年09月,pp.1153-1156
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-13/10,19/00-25/93
(57)【特許請求の範囲】
【請求項1】
コンピュータによって実現されるニューラルボコーダの訓練方法であって、
複数の話者からの音声データセットに対して話者独立的に訓練されたソースモデルからの加重値を初期値として設定する段階であって、前記音声データセットのそれぞれは、第1サイズを有する、段階、および
前記初期値に対し、前記複数の話者でなくターゲット話者からの前記第1サイズよりも小さい第2サイズの音声データセットを訓練することによってアップデートされた加重値を生成する段階
を含み、
前記アップデートされた加重値は、前記ターゲット話者に対応する合成音声信号を生成するために使用される、
ニューラルボコーダの訓練方法
によって訓練されたニューラルボコーダが実行する音声信号生成方法であって、
入力されたテキストまたは入力された音声信号に基づき、音響モデルによって生成されたスペクトル関連パラメータおよび励起の周期性によって区分される励起関連パラメータを含む複数の音響パラメータを取得する段階、
前記複数の音響パラメータに基づいて励起信号を推定する段階であって、モデリングされた励起信号の確率分布を使用して前記複数の音響パラメータに対する励起信号を推定することを含む、励起信号を推定する段階、および
前記推定された励起信号に対して前記スペクトル関連パラメータのうちの少なくとも1つに基づく線形合成フィルタを適用することにより、ターゲット音声信号を生成する段階
を含み、
前記ターゲット音声信号は、前記ターゲット話者に対応する合成音声である、
音声信号生成方法。
【請求項2】
前記ソースモデルからの加重値は、前記音声データセットに含まれた、話者ごとに区分されないグローバル特性を示す値であり、
前記アップデートされた加重値を生成する段階は、
前記ソースモデルからの加重値を、前記ターゲット話者からの音声データセットが含む前記ターゲット話者の固有の特性が反映されるように調整することによって前記アップデートされた加重値を生成する、
請求項1に記載の音声信号生成方法。
【請求項3】
前記複数の話者からの音声データセットを話者独立的に訓練するソースモデルを構築する段階、および
前記ソースモデルから前記加重値を取得する段階
をさらに含み、
前記ソースモデルは、前記ターゲット話者からの音声データセットを訓練するためのモデルの初期化子として使用される、
請求項1
又は2に記載の音声信号生成方法。
【請求項4】
前記励起関連パラメータは、所定のカットオフ周波数以下の励起を示す第1励起パラメータ、および前記カットオフ周波数を超過する励起を示す第2励起パラメータを含む、
請求項
1乃至3のいずれか1項に記載の音声信号生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
以下の説明は、ニューラルボコーダを使用する合成音声信号生成方法とニューラルボコーダ、およびニューラルボコーダの訓練方法に関する。
【0002】
また、以下の説明は、話者適応型モデルを利用してターゲット話者の合成音声信号を生成するニューラルボコーダ、および話者適応型モデルを実現するためのニューラルボコーダの訓練方法に関する。
【背景技術】
【0003】
音声合成技術とは、入力されたデータに基づいて人間の音声と類似の合成音を作り出す技術である。一例として、TTS(Text to speech)は、入力されたテキストを人間の音声に変換して提供する。
【0004】
このような合成音声は、入力された音響パラメータに基づいて音声信号を生成するボコーダによって生成される。近年は、人工知能およびディープラーニング技術の発展に伴い、合成音声の生成にニューラルネットワークを活用するニューラルボコーダが提案されるようになった。ニューラルボコーダは、話者からの音声データによって話者独立的または話者従属的に訓練され、訓練の結果を使用することにより、入力された音響パラメータに対する合成音声信号を生成する。
【0005】
ニューラルボコーダが特定のターゲット話者に対応する合成音声信号を生成するためには、該当のターゲット話者の音声データを利用してニューラルボコーダを訓練しなければならない。一定以上の品質をもつ合成音声信号を生成するためには、一般的には、ターゲット話者の音声録音を含んだ、数時間以上の音声データが必要となる。音声データが足りない場合には、生成される合成音声信号の品質が低下したり歪曲が発生したりするようになる。ターゲット話者が一般人ではなく、芸能人や有名人などのようなセレブリティ(celebrity)の場合には、数時間以上の音声録音を訓練データとして確保するのが困難なことが多い。したがって、訓練に使用するためのターゲット話者の音声データの量を最小に抑えながらも合成音声信号の品質を高めることができるニューラルボコーダシステムが求められている。
【0006】
一方、音声信号に基づく合成音声信号の生成において、音声信号はダイナミックな特性を有するため、ニューラルネットワーク(例えば、CNN)がこのような特性を完全に捕捉するには困難がある。特に、音声信号の高周波数領域ではスペクトル歪曲が発生しやすく、これは合成音声信号の品質の低下にも繋がりかねない。したがって、高周波数領域のスペクトル歪曲を低めて合成音声信号の品質を高めることができ、さらに音声データを訓練する過程を簡略化することのできるニューラルボコーダシステムも求められている。
【0007】
特許文献1(韓国特許出願公開第10-2018-0113325号公報(公開日2018年10月16日))は、音声合成装置が音声波形を合成するにあたり、開発者や利用者の意図したとおりに合成音の音声が変調されるように音声合成器の音声モデルを符号化し、音声モデルコードを変換し、音声モデルを復号化することにより、変調された音声波形を合成する機能を提供する音声合成装置および方法について説明している。
【0008】
上述した情報は、本発明の理解を助けるためのものに過ぎず、従来技術の一部を形成しない内容を含むこともあるし、従来技術が通常の技術者に提示することのできる内容を含まないこともある。
【先行技術文献】
【特許文献】
【0009】
【文献】韓国特許出願公開第10-2018-0113325号
【発明の概要】
【発明が解決しようとする課題】
【0010】
スペクトル関連パラメータおよび励起関連パラメータを含む複数の音響パラメータを取得し、複数の音響パラメータに基づいて励起信号を推定し、推定された励起信号に対してスペクトル関連パラメータのうちの少なくとも1つに基づく線形合成フィルタを適用することによってターゲット音声信号を生成する、ニューラルボコーダによる音声信号生成方法を提供することを目的とする。
【0011】
複数の話者からの音声データセットに対して話者独立的に訓練されたソースモデルからの加重値を初期値として設定し、該当の初期値に対してターゲット話者からの音声データセットを訓練することによってアップデートされた加重値を生成する、ニューラルボコーダの訓練方法を提供することを他の目的とする。
【課題を解決するための手段】
【0012】
一側面において、コンピュータによって実現されるニューラルボコーダ(neural vocoder)が実行する音声信号生成方法であって、スペクトル関連パラメータ(spectral parameter)および励起(excitation)の周期性によって区分される励起関連パラメータを含む複数の音響パラメータを取得する段階、前記複数の音響パラメータに基づいて励起信号(excitation signal)を推定する段階、および前記推定された励起信号に対して前記スペクトル関連パラメータのうちの少なくとも1つに基づく線形合成フィルタを適用することによってターゲット音声信号を生成する段階を含む、音声信号生成方法を提供する。
【0013】
前記励起関連パラメータは、所定のカットオフ周波数以下の励起を示す第1励起パラメータ、および前記カットオフ周波数を超過する励起を示す第2励起パラメータを含んでよい。
【0014】
前記第1励起パラメータは、前記励起の高調波スペクトル(harmonic spectrum)を示し、前記第2励起パラメータは、前記励起のその他の部分を示してよい。
【0015】
前記スペクトル関連パラメータは、音声信号のピッチを示す周波数パラメータ、音声信号のエネルギーを示すエネルギーパラメータ、音声信号が有声音(voice)であるか無声音(unvoice)であるかを示すパラメータ、および音声信号の線スペクトル周波数(Line Spectral Frequency:LSF)を示すパラメータを含んでよい。
【0016】
前記ターゲット音声信号を生成する段階は、前記LSFを示すパラメータを線形予測符号(Linear Predictive Coding:LPC)に変換する段階、および前記推定された励起信号に対し、前記変換されたLPCに基づく前記線形合成フィルタを適用する段階を含んでよい。
【0017】
前記複数の音響パラメータは、入力されたテキストまたは入力された音声信号に基づいて音響モデル(acoustic model)によって生成されたものであってよい。
【0018】
前記ニューラルボコーダは、訓練のために入力された音声信号に基づいて訓練されたものであり、前記訓練は、前記入力された音声信号に対して線形予測分析フィルタ(Linear predictionanalysis filter)を適用することによって前記入力された音声信号から励起信号を分離する段階、および前記分離した励起信号の確率分布をモデリングする段階を含み、前記励起信号を推定する段階は、前記モデリングされた励起信号の確率分布を使用して前記複数の音響パラメータに対する励起信号を推定してよい。
【0019】
前記励起信号を分離する段階は、前記入力された音声信号のLSFを示すパラメータを線形予測符号(Linear Predictive Coding:LPC)に変換する段階、および前記入力された音声信号に対し、前記入力された音声信号の変換されたLPCに基づく前記線形予測分析フィルタを適用する段階を含んでよい。
【0020】
前記分離された励起信号は、前記入力された音声信号の残渣成分(residual component)であってよい。
【0021】
他の側面において、コンピュータによって実現されるニューラルボコーダの訓練方法であって、音声信号の入力を受ける段階、前記入力された音声信号から、スペクトル関連パラメータおよび励起の周期性によって区分される励起関連パラメータを含む複数の音響パラメータを抽出する段階、前記入力された音声信号に対して前記スペクトル関連パラメータのうちの少なくとも1つに基づく線形予測分析フィルタを適用することによって前記入力された音声信号から励起信号を分離する段階、および前記分離した励起信号の確率分布をモデリングする段階を含む、ニューラルボコーダの訓練方法を提供する。
【0022】
前記励起信号を分離する段階は、前記スペクトル関連パラメータのうちで前記入力された音声信号のLSFを示すパラメータをLPCに変換する段階、および前記入力された音声信号に対し、前記入力された音声信号の変換されたLPCに基づく前記線形予測分析フィルタを適用する段階を含んでよい。
【0023】
前記励起関連パラメータは、所定のカットオフ周波数以下の励起を示す第1励起パラメータ、および前記カットオフ周波数を超過する励起を示す第2励起パラメータを含んでよい。
【0024】
また他の側面において、ニューラルボコーダであって、スペクトル関連パラメータ(spectral parameter)、および励起(excitation)の周期性によって区分される励起関連パラメータを含む複数の音響パラメータを取得するパラメータ取得部、前記複数の音響パラメータに基づいて励起信号(excitation signal)を推定する励起信号推定部、および前記推定された励起信号に対して前記スペクトル関連パラメータのうちの少なくとも1つに基づく線形合成フィルタを適用することによってターゲット音声信号を生成する音声信号生成部を含む、ニューラルボコーダを提供する。
【0025】
前記音声信号生成部は、前記スペクトル関連パラメータのうちで音声信号のLSFを示すパラメータを線形予測符号(Linear Predictive Coding:LPC)に変換する変換部を含み、前記推定された励起信号に対し、前記変換されたLPCに基づく前記線形合成フィルタを適用してよい。
【0026】
前記ニューラルボコーダは、訓練のために入力された音声信号に基づいて訓練されたものであり、前記ニューラルボコーダは、前記入力された音声信号に対して線形予測分析フィルタ(linear prediction analysis filter)を適用することによって前記入力された音声信号から励起信号を分離する励起信号分離部、および前記分離した励起信号の確率分布をモデリングするモデリング部をさらに含んでよく、前記励起信号推定部は、前記モデリングされた励起信号の確率分布を使用して前記複数の音響パラメータに対する励起信号を推定してよい。
【0027】
前記励起信号分離部は、前記入力された音声信号のLSFを示すパラメータを線形予測符号(Linear Predictive Coding:LPC)に変換する変換部を含み、前記入力された音声信号に対し、前記入力された音声信号の変換されたLPCに基づく前記線形予測分析フィルタを適用してよい。
【0028】
また他の側面において、コンピュータによって実現されるニューラルボコーダの訓練方法であって、複数の話者からの音声データセットに対して訓練されたソースモデルからの加重値(weight)を初期値として設定する段階、および前記初期値に対し、ターゲット話者からの音声データセットを訓練することによってアップデートされた加重値を生成する段階を含み、前記アップデートされた加重値は、前記ターゲット話者に対応する合成音声信号を生成するために使用される、ニューラルボコーダの訓練方法が提供される。
【0029】
前記ソースモデルからの加重値(weight)は、前記音声データセットに含まれた話者ごとに区分されないグローバル特性を示す値であり、前記アップデートされた加重値を生成する段階は、前記ソースモデルからの加重値を、前記ターゲット話者からの音声データセットが含む前記ターゲット話者の固有の特性が反映されるように調整することによって前記アップデートされた加重値を生成してよい。
【0030】
前記複数の話者からの音声データセットのそれぞれの大きさは、前記ターゲット話者からの音声データセットよりも大きくてよい。
【0031】
前記ニューラルボコーダの訓練方法は、前記複数の話者からの音声データセットを話者独立的に訓練するソースモデルを構築する段階、および前記ソースモデルから前記加重値を取得する段階をさらに含み、前記ソースモデルは、前記ターゲット話者からの音声データセットを訓練するためのモデルの初期化子(initializer)として使用されてよい。
【0032】
前記訓練方法によって訓練されたニューラルボコーダが実行する音声信号生成方法であって、入力されたテキストまたは入力された音声信号に基づき、音響モデル(acoustic model)によって生成されたスペクトル関連パラメータ(spectral parameter)および励起(excitation)の周期性によって区分される励起関連パラメータを含む複数の音響パラメータを取得する段階、前記複数の音響パラメータに基づいて励起信号(excitation signal)を推定する段階、および前記推定された励起信号に対して前記スペクトル関連パラメータのうちの少なくとも1つに基づく線形合成フィルタを適用することによってターゲット音声信号を生成する段階を含み、前記ターゲット音声信号は、前記ターゲット話者に対応する合成音声である、音声信号生成方法が提供される。
【0033】
前記励起関連パラメータは、所定のカットオフ周波数以下の励起を示す第1励起パラメータ、および前記カットオフ周波数を超過する励起を示す第2励起パラメータを含んでよい。
【0034】
前記ターゲット音声信号を生成する段階は、前記スペクトル関連パラメータのうちで音声信号のLSFを示すパラメータを線形予測符号(Linear Predictive Coding:LPC)に変換する段階、および前記推定された励起信号に対し、前記変換されたLPCに基づく前記線形合成フィルタを適用する段階を含んでよい。
【0035】
前記励起信号を推定する段階は、モデリングされた励起信号の確率分布を使用して前記複数の音響パラメータに対する励起信号を推定し、前記励起信号の確率分布のモデリングは、訓練のために入力された音声信号に対して線形予測分析フィルタ(Linear prediction analysis filter)を適用することによって前記入力された音声信号から励起信号を分離する段階、および前記分離した励起信号の確率分布をモデリングする段階を含む方法によって実行されてよい。
【0036】
前記励起信号を分離する段階は、前記入力された音声信号のLSFを示すパラメータを線形予測符号(Linear Predictive Coding:LPC)に変換する段階、および前記入力された音声信号に対し、前記入力された音声信号の変換されたLPCに基づく前記線形予測分析フィルタを適用する段階を含んでよい。
【0037】
また他の側面において、ニューラルボコーダであって、複数の話者からの音声データセットに対して話者独立的に訓練されたソースモデルからの加重値(weight)を初期値として設定し、前記初期値に対し、ターゲット話者からの音声データセットを訓練することによってアップデートされた加重値を生成する話者適応型モデルを構築する話者適応型モデル構築部を含み、前記話者適応型モデルによって生成された、前記アップデートされた加重値は、前記ターゲット話者に対応する合成音声を生成するために使用される、ニューラルボコーダを提供する。
【0038】
前記ニューラルボコーダは、前記複数の話者からの音声データセットを話者独立的に訓練するソースモデルを構築するソースモデル構築部をさらに含み、前記ソースモデルは、前記ターゲット話者からの音声データセットを訓練するためのモデルの初期化子(initializer)として動作してよい。
【0039】
前記ニューラルボコーダは、入力されたテキストまたは入力された音声信号に基づき、音響モデル(acoustic model)によって生成されたスペクトル関連パラメータ(spectral parameter)および励起(excitation)の周期性によって区分される励起関連パラメータを含む複数の音響パラメータを取得するパラメータ取得部、前記複数の音響パラメータに基づいて励起信号(excitation signal)を推定する励起信号推定部、および前記推定された励起信号に対して前記スペクトル関連パラメータのうちの少なくとも1つに基づく線形合成フィルタを適用することによってターゲット音声信号を生成する音声信号生成部をさらに含み、前記ターゲット音声信号は、前記ターゲット話者に対応する合成音声であってよい。
【0040】
前記音声信号生成部は、前記スペクトル関連パラメータのうちで音声信号のLSFを示すパラメータを線形予測符号(Linear Predictive Coding:LPC)に変換する変換部を含み、前記推定された励起信号に対し、前記変換されたLPCに基づく前記線形合成フィルタを適用してよい。
【0041】
前記ニューラルボコーダは、訓練のために入力された音声信号に対して線形予測分析フィルタ(linear prediction analysis filter)を適用することによって前記入力された音声信号から励起信号を分離する励起信号分離部、および前記分離された励起信号の確率分布をモデリングするモデリング部をさらに含み、前記励起信号推定部は、前記モデリングされた励起信号の確率分布を使用して前記複数の音響パラメータに対する励起信号を推定してよい。
【0042】
前記励起信号分離部は、前記入力された音声信号のLSFを示すパラメータを線形予測符号(Linear Predictive Coding:LPC)に変換する変換部を含み、前記入力された音声信号に対し、前記入力された音声信号の変換されたLPCに基づく前記線形予測分析フィルタを適用してよい。
【発明の効果】
【0043】
ニューラルボコーダが励起信号をターゲットにして推定を実行し、推定された励起信号に対して線形予測フィルタを適用することによってターゲット音声信号が生成されることにより、生成されたターゲット音声信号の品質を高めることができ、特に、音声信号の高周波数領域のスペクトル歪曲を減らすことができる。
【0044】
ランダム値ではない話者独立的に訓練されたソースモデルからの加重値を初期値として使用してターゲット話者からの音声データセットを訓練することにより、相対的に小さい(すなわち、短時間の)音声データセットを訓練するだけでも高品質のターゲット話者の合成音声(合成音声信号)を生成することができる。
【図面の簡単な説明】
【0045】
【
図1】一実施形態における、入力されたテキストまたは音声信号に基づいて合成音声信号を生成する方法を示した図である。
【
図2】一実施形態における、ニューラルボコーダシステムの構造を示したブロック図である。
【
図3】一実施形態における、ニューラルボコーダシステムのプロセッサの構造を示したブロック図である。
【
図4】一実施形態における、音声信号生成方法を示したフローチャートである。
【
図5】一実施形態における、ニューラルボコーダを訓練させる方法を示したフローチャートである。
【
図6】一実施形態における、話者適応型モデルを構築してターゲット話者の合成音声を生成する方法を示した図である。
【
図7】一実施形態における、ニューラルボコーダのプロセッサの構造を示したブロック図である。
【
図8】一実施形態における、話者適応型モデルを構築するためのニューラルボコーダの訓練方法を示したフローチャートである。
【
図9】一例における、音声信号および励起信号とその関係を示した図である。
【
図10a】それぞれ異なる種類のボコーダを使用した、合成音声信号生成のための統計的パラメトリック音声合成(Statistical Parametric Speech Synthesis:SPSS)システムを示した図である。
【
図10b】それぞれ異なる種類のボコーダを使用した、合成音声信号生成のための統計的パラメトリック音声合成(Statistical Parametric Speech Synthesis:SPSS)システムを示した図である。
【
図10c】それぞれ異なる種類のボコーダを使用した、合成音声信号生成のための統計的パラメトリック音声合成(Statistical Parametric Speech Synthesis:SPSS)システムを示した図である。
【
図11】一実施形態における、訓練のために入力された音声信号から励起信号を分離することによってニューラルボコーダを訓練させる方法を示した図である。
【
図12】一実施形態における、入力テキストに基づいて音響モデルによって生成された音響パラメータから励起信号を推定して合成音声信号を生成する方法を示した図である。
【
図13】一実施形態における、訓練のために入力された音声信号から励起信号を分離することによってニューラルボコーダを訓練させる方法を示した図である。
【
図14】一実施形態における、入力テキストに基づいて音響モデルによって生成された音響パラメータから励起信号を推定して合成音声信号を生成する方法を示した図である。
【
図15】一例における、訓練過程/合成音声信号の生成過程で取得した負の対数尤度(Negative Log-Likelihood:NLL)の音響パラメータとして励起の周期性によって区分されるパラメータの使用の可否による差を示したグラフである。
【
図16】一例における、複数の話者からの音声信号に対し、音声信号の話者従属的な特徴と話者独立的な特徴を示した図式である。
【
図17】一例における、複数の話者からの音声データセットを訓練させることによって構築されたソースモデルと、ターゲット話者からの音声データセットを訓練させることによって構築された話者適応型モデルを使用してターゲット話者の合成音声を生成する方法を示した図である。
【
図18】一例における、話者適応(speaker adaptation)アルゴリズムの適用の可否によって生成された合成音声信号の品質を比較評価した結果を示した図である。
【
図19】一例における、話者適応(speaker adaptation)アルゴリズムの適用の可否によって生成された合成音声信号の品質を比較評価した結果を示した図である。
【
図20】一例における、ExcitNetボコーダと他のボコーダとのMOS(Mean Opinion Score)評価の結果を示した図である。
【
図21】一例における、F0スケーリングファクタ(scaling factor)を相違させる場合において、話者適応型モデルを構築するニューラルボコーダの性能の変化を示した図である。
【発明を実施するための形態】
【0046】
以下、本発明の実施形態について、添付の図面を参照しながら詳細に説明する。
【0047】
図1は、一実施形態における、入力されたテキストまたは音声信号に基づいて合成音声信号を生成する方法を示した図である。
【0048】
音声信号とは音声を示すものであるが、以下の詳細な説明では、説明の便宜上、「音声信号」と「音声」が混用されることもある。
【0049】
音響モデル(acoustic model)110は、合成音声信号の生成のために入力されたテキストまたは音声信号から音響パラメータ(複数可)を生成してよい。音響モデル110は、ディープラーニングに基づく統計的パラメトリック音声合成(Statistical Parametric Speech Synthesis:SPSS)システムで設計されたものであってよい。音響モデル110は、言語入力と音響出力パラメータとの間の非線形マッピング関数を示すために訓練された、マルチフィードフォワードおよび長短期記憶層で構成されてよい。音響モデル110は、例えば、DNN TTSモジュールであってよい。音響パラメータは、合成音声信号を生成するために使用されるフィーチャーであるか、フィーチャーを構成するために使用されるパラメータであってよい。
【0050】
ボコーダ120は、音響モデル110で生成された音響パラメータを音声信号に変換することによって合成音声信号を生成してよい。ボコーダ120は、ニューラルボコーダであってよい。ニューラルボコーダは、ディープラーニングモデルによって訓練されたものであってよい。ニューラルボコーダは、例えば、WaveNet、SampleRNN、またはWaveRNNであってよい。また、ニューラルボコーダは、これらに制限されない、一般的な生成モデル(generative model)であってもよい。
【0051】
「ニューラルボコーダ」は、(合成)音声信号の生成のために訓練されたモデル(例えば、WaveNet、SampleRNN、WaveRNN、または一般的なモデル)、および各種フィルタを含む装置を示すために使用されてよい。
【0052】
ボコーダ120は、音響モデル110から取得した音響パラメータに基づいて音声信号の励起(excitation)信号を推定してよい。すなわち、音声信号の励起信号がボコーダ120のターゲットとなってよい。
【0053】
励起信号は、音声信号のうちで音声の震えを示す成分であって、発話者の口の形状によって変化する音声信号の変化を示す成分(スペクトル成分(spectral component))とは区分されてよい。励起信号の変化は、発話者の声帯の動き(vocal cord movement)によってのみ制限されてよい。励起信号は、音声信号の残渣信号(residual signal)であってよい。
【0054】
ボコーダ120によって推定された励起信号に対し、音声信号のスペクトル成分を示す音響パラメータに基づいて生成された線形予測(Linear Prediction)フィルタが適用されることにより、ターゲット音声信号(すなわち、合成音声信号)が生成されてよい。
【0055】
ボコーダ120が音声信号ではない励起信号をターゲットとし、推定された励起信号に対して線形予測フィルタを適用することによってターゲット音声信号が生成されることにより、生成されたターゲット音声信号の品質を高めることができ、特に、音声信号の高周波数領域のスペクトル歪曲を減らすことができる。
【0056】
励起信号を推定することによってターゲット音声信号を生成するより具体的な方法と、励起信号を推定するためにニューラルボコーダを訓練させるより具体的な方法については、
図2~5を参照しながらさらに詳しく説明する。
【0057】
図2は、一実施形態における、ニューラルボコーダシステムの構造を示したブロック図である。
【0058】
図2を参照しながら、ニューラルボコーダシステム200のより詳細な構成について説明する。図に示したニューラルボコーダシステム200は、ニューラルボコーダを含んで構成されるコンピュータ(コンピュータシステム)を示してよい。
【0059】
ニューラルボコーダシステム200は、コンピュータシステムによって実現される固定端末や移動端末であってよい。例えば、ニューラルボコーダシステム200は、AIスピーカ、スマートフォン、携帯電話、ナビゲーション、PC(personal computer)、ノート型PC、デジタル放送用端末、PDA(Personal Digital Assistant)、PMP(Portable Multimedia Player)、タブレット、ゲームコンソール、ウェアラブルデバイス、IoT(Internet of Things)デバイス、VR(Virtual Reality)デバイス、AR(Augmented Reality)デバイスなどによって実現されてよい。また、ニューラルボコーダシステム200は、上述したような端末とネットワークを介して通信するサーバまたはその他のコンピューティング装置によって実現されてよい。
【0060】
ニューラルボコーダシステム200は、メモリ210、プロセッサ220、通信モジュール230、および入力/出力インタフェースを含んでよい。メモリ210は、非一時的なコンピュータ読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、ディスクドライブ、SSD(solid state drive)、フラッシュメモリ(flash memory)などのような永続的大容量記録装置を含んでよい。ここで、ROM、SSD、フラッシュメモリ、ディスクドライブのような永続的大容量記録装置は、メモリ210とは区分される別の永続的記録装置としてニューラルボコーダシステム200に含まれてもよい。また、メモリ210には、オペレーティングシステムと、少なくとも1つのプログラムコード(一例として、ニューラルボコーダシステム200においてインストールされて実行されるブラウザや、特定のサービスの提供のためにニューラルボコーダシステム200にインストールされたアプリケーションなどのためのコード)が記録されてよい。このようなソフトウェア構成要素は、メモリ210とは別のコンピュータ読み取り可能な記録媒体からロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD-ROMドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信モジュール230を通じてメモリ210にロードされてもよい。例えば、少なくとも1つのプログラムは、開発者またはアプリケーションのインストールファイルを配布するファイル配布システム(一例として、外部サーバ)を経て提供するファイルによってインストールされるコンピュータプログラムに基づいてメモリ210にロードされてよい。
【0061】
プロセッサ220は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ210または通信モジュール230によって、プロセッサ220に提供されてよい。例えば、プロセッサ220は、メモリ210のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。
【0062】
通信モジュール230は、ネットワークを介してニューラルボコーダシステム200が他の電子機器または他のサーバと互いに通信するための機能を提供してよい。通信モジュール230は、ニューラルボコーダシステム200のネットワークインタフェースカード、ネットワークインタフェースチップ、およびネットワーキングインタフェースポートなどのようなハードウェアモジュール、またはネットワークデバイスドライバまたはネットワーキングプログラムのようなソフトウェアモジュールであってよい。
【0063】
入力/出力インタフェース240は、入力/出力装置(図示せず)とのインタフェースのための手段であってよい。例えば、入力装置は、キーボード、マウス、マイクロフォン、カメラなどの装置を、出力装置は、ディスプレイ、話者、触覚フィードバックデバイスなどのような装置を含んでよい。他の例として、入力/出力インタフェース240は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置215は、ニューラルボコーダシステム200の構成であってよい。ニューラルボコーダシステム200がサーバとして実現される場合、ニューラルボコーダシステム200は、入力/出力装置および入力/出力インタフェースを含まなくてもよい。
【0064】
また、他の実施形態において、ニューラルボコーダシステム200は、図に示した構成要素よりも多くの構成要素を含んでもよい。しかし、大部分の従来技術の構成要素を明確に図に示す必要はないため、これについては省略する。
【0065】
図3を参照しながら、プロセッサ220のより詳細な構成を中心に、励起信号を推定することによってターゲット音声信号を生成する方法と、励起信号を推定するためにニューラルボコーダを訓練させる方法について説明する。
【0066】
以上、
図1を参照しながら説明した技術的特徴についての説明は、
図2に対してもそのまま適用可能であるため、重複する説明は省略する。
【0067】
図3は、一実施形態における、ニューラルボコーダシステムのプロセッサの構造を示したブロック図である。
【0068】
以下で説明するプロセッサ220の構成310~340のそれぞれは、1つ以上のソフトウェアモジュールおよび/またはハードウェアモジュールによって実現されてよい。実施形態によって、プロセッサ220の構成要素は、選択的にプロセッサ220に含まれても除外されてもよい。また、実施形態によって、プロセッサ220の構成要素は、プロセッサ220の機能の表現のために分離されても併合されてもよい。
【0069】
プロセッサ220の構成要素は、ニューラルボコーダシステム200に記録されたプログラムコードが提供する命令にしたがってプロセッサ220によって実行される、プロセッサ220の互いに異なる機能(different functions)の表現であってよい。
【0070】
プロセッサ220のパラメータ取得部310は、スペクトル関連パラメータ(spectral parameter)、および励起(excitation)の周期性によって区分される励起関連パラメータを含む複数の音響パラメータを取得してよい。パラメータ取得部310が取得する複数の音響パラメータは、利用者から入力されたテキスト、または話者から入力された音声信号に基づいて音響モデル(acoustic model)によって生成されたものであってよい。
【0071】
プロセッサ220の励起信号推定部320は、複数の音響パラメータに基づいて励起信号(excitationsignal)を推定してよい。励起信号推定部320(ニューラルボコーダ)は、訓練のために入力された音声信号に基づいて訓練されたものであってよい。励起信号推定部320は、訓練によってモデリングされた励起信号の確率分布を使用して複数の音響パラメータに対する励起信号を推定してよい。
【0072】
プロセッサ220は、ニューラルボコーダの訓練を実行するための構成340を含んでよい。プロセッサ220の励起信号分離部342は、訓練のために入力された音声信号に対して線形予測分析フィルタ(linear prediction analysis filter)を適用することにより、訓練のために入力された音声信号から励起信号を分離してよい。励起信号分離部342は、訓練のために入力された音声信号の線スペクトル周波数(Line Spectral Frequency:LSF)を示すパラメータを線形予測符号(Linear Predictive Coding:LPC)に変換する変換部343を含んでよい。前記線形予測分析フィルタは、LSFを示すパラメータに基づくものであり、前記変換されたLPCに基づいて生成されるものであってよい。プロセッサ220のモデリング部344は、分離した励起信号の確率分布をモデリングしてよい。
【0073】
プロセッサ220の音声信号生成部330は、励起信号推定部320によって推定された励起信号に対してスペクトル関連パラメータのうちの少なくとも1つに基づく線形(予測)合成フィルタを適用することによってターゲット音声信号を生成してよい。ターゲット音声信号は、合成された音声信号であってよい。
【0074】
音声信号生成部330は、取得したスペクトル関連パラメータのうちで音声信号のLSFを示すパラメータを線形予測符号(Linear Predictive Coding:LPC)に変換する変換部332を含んでよい。前記線形予測合成フィルタは、取得したスペクトル関連パラメータのうちで音声信号のLSFを示すパラメータに基づくものであり、前記変換されたLPCに基づいて生成されるものであってよい。言い換えれば、音声信号生成部330は、推定された励起信号に対して変換されたLPCに基づく線形予測合成フィルタを適用することによってターゲット音声信号を生成してよい。
【0075】
励起信号を推定することによってターゲット音声信号を生成するより具体的な方法については、
図4を参照しながらさらに詳しく説明するし、励起信号を推定するためにニューラルボコーダを訓練させるより具体的な方法については、
図5を参照しながらさらに詳しく説明する。
【0076】
以上、
図1および
図2を参照しながら説明した技術的特徴ついての説明は、
図3に対してもそのまま適用可能であるため、重複する説明は省略する。
【0077】
図4は、一実施形態における、音声信号生成方法を示したフローチャートである。
【0078】
段階410で、パラメータ取得部310は、スペクトル関連パラメータおよび励起の周期性によって区分される励起関連パラメータを含む複数の音響パラメータを取得してよい。パラメータ取得部310が取得する複数の音響パラメータは、利用者が入力したテキストまたは話者が入力した音声信号に基づいて音響モデルによって生成されたものであってよい。すなわち、パラメータ取得部310は、音響モデルから前記複数の音響パラメータを受信してよい。
【0079】
スペクトル関連パラメータは、音声信号を構成するスペクトル成分(spectral component)を示すパラメータであってよい。励起関連パラメータは、音声信号からスペクトル成分を除いた残渣信号(励起信号)に該当する成分を示すパラメータであってよい。スペクトル成分の信号は、発話者の口の形状に応じて変化する音声信号の部分を示してよい。励起信号は、音声信号のうちで音声の震えを示す音声信号の部分を示してよい。励起信号の変化は、発話者の声帯の動きによってのみ制限されてよい。
【0080】
スペクトル関連パラメータは、例えば、音声信号のピッチを示す周波数パラメータ(F0)、音声信号のエネルギーを示すエネルギーパラメータ(一例として、利得(gain)を示すパラメータ)、音声信号が有声音(voice)であるか無声音(unvoice)であるかを示すパラメータ(v/uv)、および音声信号の線スペクトル周波数(Line Spectral Frequency:LSF)を示すパラメータを含んでよい。
【0081】
励起関連パラメータは、励起の周期性によって区分されるパラメータを含んでよい。励起関連パラメータは、例えば、TFTE(Time-Frequency Trajectory Excitation)パラメータであってよい。TFTEは、周波数軸に沿った励起のスペクトル形状と時間軸に沿ったこのような形状の展開(evolution)を示してよい。励起関連パラメータは、励起信号のうちで時間-周波数軸でよりゆっくり変化する成分を示す第1励起パラメータ(SEW(Slowly Evolving Waveform)パラメータ)、および励起信号のうちで時間-周波数軸でより迅速に変化する成分を示す第2励起パラメータ(REW(Rapidly Evolving Waveform)パラメータ)を含んでよい。
【0082】
第1励起パラメータは、所定のカットオフ周波数以下の励起を示してよく、第2励起パラメータは、カットオフ周波数を超過する励起を示してよい。第1励起パラメータは、励起の高調波スペクトル(harmonic spectrum)を示してよく、第2励起パラメータは、励起のその他の部分を示してよい。例えば、高調波励起スペクトル(harmonic excitation spectrum)に該当する第1励起パラメータ(SEWパラメータ)は、TFTEの各周波数成分を時間領域軸に沿って(所定のカットオフ周波数で)ローパスフィルタリングすることによって取得されてよい。所定のカットオフ周波数を超過する残留雑音スペクトルは、第2励起パラメータ(REWパラメータ)として、TFTEからSEWを減算することによって取得されてよい。第1励起パラメータ(SEWパラメータ)および第2励起パラメータが使用されることにより、励起の周期性がより効果的に表現されるようになる。第1励起パラメータおよび第2励起パラメータは、ITFTE(Improved Time-Frequency Trajectory Excitation)パラメータに該当してよい。
【0083】
段階420で、励起信号推定部320は、複数の音響パラメータに基づいて励起信号(excitationsignal)を推定してよい。すなわち、励起信号推定部320は、スペクトル関連パラメータおよび励起関連パラメータを入力として励起信号を推定してよい。推定される励起信号は、励起信号の時間シーケンス(time sequence)であってよい。
【0084】
励起信号推定部320は、訓練のために入力された音声信号に基づいて訓練されたものであって、励起信号推定部320は、訓練によってモデリングされた励起信号の確率分布を使用することで、取得した複数の音響パラメータに対する励起信号を推定してよい。励起信号推定部320を含むニューラルボコーダの訓練方法については、
図5を参照しながらより詳しく説明する。
【0085】
励起信号推定部320は、例えば、WaveNet、SampleRNN、またはWaveRNNによって実現されてよい。また、励起信号推定部320は、これらに制限されない、一般的な生成モデル(generative model)によって実現されてもよい。
【0086】
段階430で、音声信号生成部330は、励起信号推定部320によって推定された励起信号に対してスペクトル関連パラメータのうちの少なくとも1つに基づく線形(予測)合成フィルタを適用することによってターゲット音声信号を生成してよい。ターゲット音声信号は、合成された音声信号であってよい。段階432および434を参照しながら、段階430についてより詳しく説明する。
【0087】
段階432で、変換部332は、取得したスペクトル関連パラメータのうちで音声信号のLSFを示すパラメータを線形予測符号(Linear Predictive Coding:LPC)に変換してよい。線形予測合成フィルタは、取得したスペクトル関連パラメータのうちで音声信号のLSFを示すパラメータに基づくものであり、変換されたLPCに基づいて生成されてよい。
【0088】
段階434で、音声信号生成部330は、推定された励起信号に対して段階432で変換されたLPCに基づく線形予測合成フィルタを適用することによってターゲット音声信号を生成してよい。
【0089】
段階410~430によって生成されたターゲット音声信号は、励起信号をターゲットとして推定せず、音声信号を直ぐに推定して生成された音声信号に比べて品質が優れ、特に、音声信号の高周波数領域のスペクトル歪曲を減らすことができる。
【0090】
以上、
図1~3を参照しながら説明した技術的特徴についての説明は、
図4に対してもそのまま適用可能であるため、重複する説明は省略する。
【0091】
図5は、一実施形態における、ニューラルボコーダを訓練させる方法を示したフローチャートである。
【0092】
図5を参照しながら、取得した音響パラメータに基づいて励起信号を推定することができる励起信号の確率分布をモデリングする方法について詳しく説明する。
【0093】
段階510で、ニューラルボコーダシステム200は、訓練のための音声信号を受信してよい。訓練のための音声信号は、話者からニューラルボコーダシステム200に直接に入力されるか、音声信号を含むデータが音声信号を受信した電子機器から送信されることによってニューラルボコーダシステム200に入力されてよい。
【0094】
段階520で、ニューラルボコーダシステム200は、入力された音声信号から、スペクトル関連パラメータおよび励起の周期性によって区分される励起関連パラメータを含む複数の音響パラメータを抽出してよい。ニューラルボコーダシステム200は、音声分析(speech analysis)によって音声信号から複数の音響パラメータを抽出してよい。例えば、ニューラルボコーダシステム200は、その内部または外部に存在するパラメトリックボコーダを使用して音声信号から複数の音響パラメータを抽出してよい。
【0095】
スペクトル関連パラメータは、例えば、音声信号のピッチを示す周波数パラメータ(F0)、音声信号のエネルギーを示すエネルギーパラメータ(一例として、利得(gain)を示すパラメータ)、音声信号が有声音(voice)であるか無声音(unvoice)であるかを示すパラメータ(v/uv)、および音声信号の線スペクトル周波数(Line Spectral Frequency:LSF)を示すパラメータを含んでよい。励起関連パラメータは、励起の周期性によって区分されるパラメータを含んでよい。励起関連パラメータは、例えば、TFTE(Time-Frequency Trajectory Excitation)パラメータであってよい。TFTEは、周波数軸に沿った励起のスペクトル形状と時間軸に沿ったこのような形状の展開(evolution)を示してよい。励起関連パラメータは、励起信号のうちで時間-周波数軸でよりゆっくり変化する成分を示すSEWパラメータ、および励起信号のうちで時間-周波数軸でより迅速に変化する成分を示すREWパラメータを含んでよい。SEWパラメータは、所定のカットオフ周波数以下の励起を示してよく、REWパラメータは、カットオフ周波数を超過する励起を示してよい。SEWパラメータは、励起の高調波スペクトル(harmonic spectrum)を示してよく、REWパラメータは、励起のその他の部分を示してよい。例えば、高調波励起スペクトル(harmonic excitation spectrum)に該当するSEWパラメータは、TFTEの各周波数成分を時間領域軸に沿って(所定のカットオフ周波数で)ローパスフィルタリングすることによって取得されてよい。所定のカットオフ周波数を超過する残留雑音スペクトルは、REWパラメータとして、TFTEからSEWを減算することによって取得されてよい。
【0096】
上述した段階510および520は、以下で説明する段階530および540と同じように、ニューラルボコーダシステム200のプロセッサ220によって実行されてよい。
【0097】
段階530で、励起信号分離部342は、入力された音声信号に対してスペクトル関連パラメータのうちの少なくとも1つに基づく線形予測分析フィルタ(linear prediction analysis filter)を適用することにより、入力された音声信号から励起信号を分離してよい。線形予測分析フィルタは、音声信号からスペクトルフォルマント(spectral formant)構造を分離するフィルタであってよい。分離した励起信号は、入力された音声信号の残渣成分(residual component)(すなわち、残渣信号)であってよい。励起信号は、情報量を減らすために残渣信号をパルスまたは雑音(PoN)、帯域非周期性(BAP)、声門励起(glottal excitation)、および時間-周波数軌跡励起(TFTE)モデルなどのような多様な類型の励起モデルのうちの少なくとも1つによって近似化したものであってよい。
【0098】
段階532および534を参照しながら、音声信号から励起信号を分離する方法についてより詳しく説明する。
【0099】
段階532で、励起信号分離部342の変換部343は、スペクトル関連パラメータのうちで入力された音声信号のLSFを示すパラメータをLPCに変換してよい。線形予測分析フィルタは、取得したスペクトル関連パラメータのうちで音声信号のLSFを示すパラメータに基づくものであり、変換されたLPCに基づいて生成されてよい。
【0100】
段階534で、励起信号分離部342は、入力された音声信号に対して前記LPCに基づく線形予測分析フィルタを適用することにより、音声信号から励起信号を分離してよい。
【0101】
段階540で、モデリング部344は、分離した励起信号の確率分布をモデリングしてよい。モデリング部344は、例えば、WaveNet、SampleRNN、またはWaveRNNによって実現されてよい。また、モデリング部344は、これらに制限されない、一般的な生成モデル(generative model)によって実現されてもよい。
【0102】
励起信号推定部320は、モデリング部344によってモデリングされた励起信号の確率分布を使用することで、上述した段階420の励起信号の推定を実行してよい。
【0103】
図1~4を参照しながら説明した実施形態のニューラルボコーダは、励起信号を訓練し、励起信号を推定して合成音声信号を生成するという点において、ExcitNetボコーダと命名されてよい。
【0104】
励起信号の変化は、発話者の声帯の動きによってのみ制限されるようになるため、励起信号を訓練する過程は、(音声信号を訓練することに比べて)遥かに簡単に実行することができる。また、励起信号の周期性の程度を効果的に示す条件付き特徴としてITFTEパラメータが使用されることにより、励起信号の確率分布モデリングの正確度を大きく向上させることができる。
【0105】
以上、
図1~4を参照しながら説明した技術的特徴についての説明は、
図5に対してもそのまま適用可能であるため、重複する説明は省略する。
【0106】
以下では、
図6~8を参照しながら、ターゲット話者からの少量の(すなわち、短時間の)音声データだけで高品質のターゲット話者の合成音声を生成する話者適応型モデルを構築してターゲット話者の合成音声を生成する方法について説明する。
【0107】
図6は、一実施形態における、話者適応型モデルを構築してターゲット話者の合成音声を生成する方法を示した図である。
【0108】
以下の詳細な説明において、音声データセットは、音声信号または音声信号を含むデータを示してよい。例えば、音声データセットは、話者から一定の時間にわたって録音された音声信号を示してよい。
【0109】
ソースモデル610は、複数の話者からの音声データセットに対して訓練された音響モデルであってよい。ソースモデル610は、複数の話者に対して話者独立的に訓練された音響モデルであってよい。例えば、ソースモデル610は、10人の話者それぞれからの1時間の音声データセットを使用して話者独立的に訓練された音響モデルであってよい。ソースモデル610は、ディープラーニングに基づく統計的パラメトリック音声合成(Statistical Parametric Speech Synthesis:SPSS)システムで設計されたものであってよい。音響モデル110は、例えば、DNN TTSモジュールであってよい。
【0110】
複数の話者からの音声データセットによって話者独立的に訓練されたソースモデル610は、話者適応型モデル620の初期化子(initializer)として使用されてよい。言い換えれば、ソースモデル610からの加重値(weight)は、話者適応型モデル620のターゲット話者からの音声データセットに対する訓練において初期値として設定されてよい。ソースモデル610からの加重値は、例えば、上述した音響パラメータに対応してよい。
【0111】
話者適応型モデル620は、ニューラルボコーダによって実現されてよい。ニューラルボコーダは、ディープラーニングモデルに基づいて訓練されたものであってよい。ニューラルボコーダは、例えば、WaveNet、SampleRNN、ExcitNet、またはWaveRNNであってよい。また、ニューラルボコーダは、これらに制限されない、一般的な生成モデル(generative model)であってもよい。
【0112】
話者適応型モデル620は、話者適応(speaker adaptation)アルゴリズムを適用することにより、特定の話者に対して従属的に(speaker-dependent)訓練されてよい。例えば、話者適応型モデル620は、特定のターゲット話者(例えば、芸能人や有名人などのようなセレブリティ)に対して話者従属的に訓練されてよい。話者適応型モデル620は、ターゲット話者からの音声データセットを訓練することによってアップデートされた加重値(複数可)を生成してよい。
【0113】
話者適応型モデル620は、ランダム値でない、話者独立的に訓練されたソースモデル610からの加重値を初期値として使用してターゲット話者からの音声データセットを訓練することにより、相対的に小さい(すなわち、短時間)音声データセットを訓練するだけでも高品質のターゲット話者の合成音声(合成音声信号)を生成することができる。例えば、話者適応型モデル620は、10分前後のターゲット話者の音声データセットを訓練するだけでも高品質のターゲット話者の合成音声を生成することができる。
【0114】
実施形態によっては、数時間~数十時間以上の音声データセットの確保が困難なセレブリティに対して10分前後の音声データセットを確保し、これを訓練データとして使用するだけでも、高品質のターゲット話者の合成音声を生成する話者適応型モデル620を構築することができる。
【0115】
以上、
図1~5を参照しながら説明した技術的特徴の説明は、
図6に対してもそのまま適用可能であるため、重複する説明は省略する。
【0116】
図7は、一実施形態における、ニューラルボコーダのプロセッサの構造を示したブロック図である。
【0117】
図7を参照しながら説明するプロセッサ220は、
図3を参照しながら説明したプロセッサ220に対応してよい。以下で説明するプロセッサ220の構成710~720のそれぞれは、1つ以上のソフトウェアモジュールおよび/またはハードウェアモジュールによって実現されてよい。実施形態によって、プロセッサ220の構成要素は、選択的にプロセッサ220に含まれても除外されてもよい。また、実施形態によって、プロセッサ220の構成要素は、プロセッサ220の機能の表現のために分離されても併合されてもよい。構成710~720は、ニューラルボコーダシステム200に記録されたプログラムコードが提供する命令にしたがってプロセッサ220によって実行される、プロセッサ220の互いに異なる機能(different functions)の表現であってよい。
【0118】
プロセッサ220は、話者適応型モデル構築部720を含んでよい。話者適応型モデル構築部720は、複数の話者からの音声データセットに対して話者独立的に訓練されたソースモデル610からの加重値(weight)を初期値として設定してよく、設定された初期値に対し、ターゲット話者からの音声データセットを訓練することによってアップデートされた加重値を生成する話者適応型モデル620を構築してよい。話者適応型モデル620によって生成されたアップデートされた加重値は、ターゲット話者に対応する合成音声を生成するために使用されてよい。
【0119】
プロセッサ220は、ソースモデル構築部710をさらに含んでよい。ソースモデル構築部710は、複数の話者からの音声データセットを話者独立的に訓練するソースモデル610を構築してよい。構築されたソースモデル610は、ターゲット話者からの音声データセットを訓練するためのモデルの初期化子(initializer)として動作してよい。
【0120】
ソースモデル構築部710は、プロセッサ220に含まれず、ニューラルボコーダシステム200とは個別の装置内に実現されてもよい。話者適応型モデル構築部720は、このような個別の装置内に実現されたソースモデル構築部710によって構築されたソースモデル610から加重値を取得し、話者適応型モデル620を構築するためのターゲット話者の音声データセットを訓練してよい。
【0121】
以上、
図1~6を参照しながら説明した技術的特徴についての説明は、
図7に対してもそのまま適用可能であるため、重複する説明は省略する。
【0122】
図8は、一実施形態における、話者適応型モデルを構築するためのニューラルボコーダの訓練方法を示したフローチャートである。
【0123】
段階810で、ソースモデル構築部710は、複数の話者からの音声データセットを話者独立的に訓練するソースモデル610を構築してよい。複数の話者は、ソースモデル610を訓練させるための音声データセットを提供する任意の利用者であってよい。
【0124】
段階820で、話者適応型モデル構築部720は、ソースモデル610から加重値を取得してよい。ソースモデル610からの加重値は、複数の話者からの音声データセットに含まれた、話者ごとに区分されないグローバル特性を示す値を示してよい。グローバル特性とは、例えば、特定の発音(一例として、「あ(ah)」または「い(ee)」など)に対するフォルマント(formant)特性、または振幅-周波数特性(パターン)を示してよい。言い換えれば、ソースモデル610は、複数の話者からの音声データセットを使用してこのような音声の話者独立的なグローバル特性を訓練してよい。
【0125】
段階830で、話者適応型モデル構築部720は、ソースモデル610から取得された加重値を初期値として設定してよい。言い換えれば、ソースモデル610は、話者適応型モデル構築部720によって構築される話者適応型モデル620の初期化子として使用されてよい。
【0126】
段階840で、話者適応型モデル構築部720は、取得された初期値に対し、ターゲット話者からの音声データセットを訓練することによってアップデートされた加重値を生成してよい。言い換えれば、話者適応型モデル構築部720は、ソースモデル610からの初期値に対してターゲット話者からの音声データセットを訓練することにより、ターゲット話者に適応する(すなわち、ターゲット話者に従属的な)話者適応型モデル620を構築してよい。
【0127】
話者適応型モデル構築部720は、ソースモデル610からの加重値を、ターゲット話者からの音声データセットが含むターゲット話者の固有の特性が反映されるように調整することによってアップデートされた加重値を生成してよい。例えば、話者適応型モデル構築部720は、ターゲット話者からの音声データセットを訓練することにより、ソースモデル610からの話者ごとに区分されないグローバル特性を示す値をターゲット話者の固有の特性を含むように微調整することによってアップデートされた加重値を生成してよい。
【0128】
生成された、アップデートされた加重値は、ターゲット話者に対応する合成音声信号を生成するために使用されてよい。ターゲット話者に対応する合成音声信号は、例えば、ターゲット話者に対応するセレブリティの合成音声であってよい。
【0129】
ソースモデル610を訓練させるための複数の話者からの音声データセットのそれぞれの大きさ(すなわち、録音された音声信号の長さ、例えば、1時間以上)は、ターゲット話者からの音声データセットの大きさ(すなわち、録音された音声信号の長さ、例えば、10分)よりも大きくてよい。
【0130】
段階830で説明したような適応プロセスの微調整(fine-tuning)メカニズムによっては、ターゲット話者からの音声データセットからターゲット話者の固有の特性がキャプチャされてよい。したがって、説明した実施形態の方法によっては、ターゲット話者からの訓練のための音声データセットが不十分であっても、ボコーディング性能を向上させることができる。
【0131】
図6~8を参照しながら説明したニューラルボコーダの訓練方法は、
図1~4を参照しながら説明した実施形態のニューラルボコーダの訓練方法と合成音声信号の生成方法と組み合わされてよい。例えば、上述したExcitNetボコーダは、
図6~8を参照しながら説明した実施形態と組み合わされてよい。
【0132】
一例として、段階810~840を実行することによって訓練されたニューラルボコーダは、
図1~4を参照しながら説明したニューラルボコーダシステム200に対応してよい。段階430で生成されたターゲット音声信号は、話者適応型モデル620が訓練したターゲット話者に対応する合成音声信号であってよい。
【0133】
図6~8を参照しながら説明したニューラルボコーダの訓練方法と
図1~4を参照しながら説明したExcitNetモデルの技術的特徴とを組み合わせることにより、ターゲット話者に対応する合成音声の品質を高めることができる。
【0134】
以上、
図1~7を参照しながら説明した技術的特徴についての説明は、
図8に対してもそのまま適用可能であるため、重複する説明は省略する。
【0135】
図9は、一例における、音声信号および励起信号とその関係を示した図である。
【0136】
図に示すように、音声信号をS(n)と仮定し、S(n)が含む励起信号をe(n)と仮定するとき、S(n)とe(n)との関係は、以下の数式(1)のように表現されてよい。
【0137】
【数1】
h(n)は、線形予測合成フィルタを示してよい。h(n)は、S(n)のe(n)成分を除いた残りの成分(すなわち、スペクトル成分)を示してよい。h(n)は、S(n)のLSFを示すパラメータに基づいて生成されてよい。
【0138】
数式(1)の関係により、
図4の段階420によって推定された励起信号(すなわち、e(n))に対して線形予測合成フィルタ(すなわち、h(n))を適用することによってターゲット音声信号(S(n))が生成されてよい。線形予測合成フィルタの具体的な例については、
図14を参照しながらさらに詳しく説明する。
【0139】
数式(1)の関係は、
図5の段階530の励起信号(すなわち、e(n))の分離に対しても類似に適用されてよい。言い換えれば、訓練のために入力された音声信号(S(n))に対して線形予測分析フィルタが適用されることにより、音声信号(S(n))から励起信号(e(n))が分離されてよい。線形予測分析フィルタの具体的な例については、
図13を参照しながらさらに詳しく説明する。
【0140】
以上、
図1~8を参照しながら説明した技術的特徴についての説明は、
図9に対してもそのまま適用可能であるため、重複する説明は省略する。
【0141】
図10a~10cは、それぞれ異なる種類のボコーダを使用する合成音声信号生成のための統計的パラメトリック音声合成(Statistical Parametric Speech Synthesis:SPSS)システムを示した図である。
【0142】
図10aは、音響モデル1010と音響モデル1010からの音響フィーチャー(音響パラメータ)をLPC(Linear Predictive Coding)合成することによって音声信号を生成する、LPC合成モジュール1020を含む音声合成のためのフレームワークを示している。LPC合成モジュール1020は、LPCボコーダであり、例えば、上述した線形予測合成フィルタに対応してよい。
【0143】
図10bは、音響モデル1010と音響モデル1010からの音響フィーチャー(音響パラメータ)に基づいて音声信号を推定するニューラルボコーダであり、WaveNetボコーダ1022を含む音声合成のためのフレームワークを示した図である。
【0144】
図10cは、
図1~5で説明したような、ExcitNetボコーダ1024を使用する音声合成のためのフレームワークを示している。
図10cに示した構造は、
図10aのLPCコーダ1020と
図10bのWaveNetボコーダ1022が組み合わされたものであってよい。
【0145】
図10cの構造において、ExcitNetボコーダ1024は、音響モデル1010からの音響フィーチャー(音響パラメータ)に基づいて励起信号を推定してよい。推定された励起信号は、線形予測合成フィルタ1030によるLPC(Linear Predictive Coding)合成によってターゲット音声信号に変換されてよい。
【0146】
図10cの構造のより詳細な例については、
図12および
図14を参照しながらさらに詳しく説明する。
【0147】
以上、
図1~9を参照しながら説明した技術的特徴についての説明は、
図10a~
図10cに対してもそのまま適用可能であるため、重複する説明は省略する。
【0148】
図11および
図13は、一実施形態における、訓練のために入力された音声信号から励起信号を分離することによってニューラルボコーダを訓練させる方法を示した図である。
【0149】
図11に示すように、訓練のために入力された音声信号に対し、パラメトリックボコーダ1110は、音響パラメータを抽出してよい。入力された音声信号に対しては、抽出された音響パラメータのうちでスペクトル関連パラメータに基づいて生成された線形予測分析フィルタ1140が適用されることにより、入力された音声信号から励起信号が分離されてよい。
【0150】
WaveNetボコーダ1130は、抽出された音響パラメータを補助 フィーチャー(auxiliary feature)として構成1120して受信してよい。補助フィーチャーは、上述したスペクトル関連パラメータおよび励起関連パラメータを含んでよい。WaveNetボコーダ1130は、補助フィーチャーおよび分離した励起信号に基づいて励起信号の確率分布をモデリングしてよい。WaveNetボコーダ1130は、ExcitNetボコーダまたはその他の一般的な生成モデル(generative model)のニューラルボコーダによって実現されてよい。
【0151】
図13を参照しながら、
図11の構造についてより詳しく説明する。訓練のために入力された音声信号は、音声分析1310によって音響フィーチャー(音響パラメータ)が抽出されてよい。音響パラメータのうちでLSFを示すパラメータは、LPCに変換1320されてよい。変換されたLPCに基づき、線形予測分析フィルタ1340が実現されてよい。入力された音声信号に対して線形予測分析フィルタ1340が適用されることにより、入力された音声信号から励起信号が分離されてよい。分離した励起信号は、ExcitNetモデル(すなわち、ExcitNetボコーダ)1350に入力されてよい。一方、音響パラメータは補助フィーチャー(auxiliary feature)として構成1330されてよく、補助フィーチャーはExcitNetモデル1350に入力されてよい。ExcitNetモデル1350は、入力された補助フィーチャー(すなわち、音響パラメータ)と分離した励起信号に基づいて励起信号の確率分布をモデリングしてよい。図に示した例において、e
nは、分離した励起信号に対応してよい。
【0152】
図12および
図14は、一実施形態における、入力テキストに基づいて音響モデルによって生成された音響パラメータから励起信号を推定して合成音声信号を生成する方法を示した図である。
【0153】
図12に示すように、音響モデル1150は、受信した言語パラメータに基づいて音響パラメータを生成してよい。WaveNetボコーダ1170は、音響パラメータを補助フィーチャーとして構成1160して受信してよい。補助フィーチャーは、上述したスペクトル関連パラメータおよび励起関連パラメータを含んでよい。WaveNetボコーダ1170は、音響パラメータに基づいて励起信号を推定してよい。WaveNetボコーダ1170は、ExcitNetボコーダまたはその他の一般的な生成モデル(generative model)のニューラルボコーダによって実現されてよい。推定された励起信号に対しては、抽出された音響パラメータのうちでスペクトル関連パラメータに基づいて生成された線形予測合成フィルタ1180が適用されることにより、ターゲット合成音声が生成されてよい。
【0154】
図14を参照しながら、
図12の構造についてより詳しく説明する。合成音声信号の生成のために入力されたテキストに対してテキスト分析1410を実行することにより、(上述した言語パラメータに対応する)言語フィーチャーが抽出されてよい。言語フィーチャーの抽出においては、図に示すように、音素デュレーション(phoneme duration)を推定するデュレーションモデル1420がさらに使用されてよい。音響モデル1430は、抽出された言語フィーチャーから音響フィーチャー(音響パラメータ)を生成してよい。音響パラメータのうちでLSFを示すパラメータは、LPCに変換1440されてよい。変換されたLPCに基づいて線形予測合成フィルタ1470が実現されてよい。音響パラメータは補助フィーチャー(auxiliary feature)として構成1450されてよく、補助フィーチャーはExcitNetモデル(すなわち、ExcitNetボコーダ)1460に入力されてよい。ExcitNetモデル1460は、入力された補助フィーチャー(すなわち、音響パラメータ)に基づいて励起信号を推定してよい。推定された励起信号に対して変換されたLPCに基づく線形予測合成フィルタ1470が適用されることにより、ターゲット音声信号が生成されてよい。図に示した例において、
【0155】
【数2】
は生成されたターゲット音声信号に対応してよく、
【0156】
【0157】
以上、
図1~10cを参照しながら説明した技術的特徴についての説明は、
図11~14に対してもそのまま適用可能であるため、重複する説明は省略する。
【0158】
図15は、一例における、訓練過程/合成音声信号の生成過程で取得した負の対数尤度(Negative Log-Likelihood:NLL)の音響パラメータとして、励起の周期性によって区分されるパラメータの使用の可否による差を示したグラフである。
【0159】
訓練(training)過程において、NLLが低いほどモデリングの正確度が高いと見ることができる。図に示したグラフでは、上述したSEWパラメータおよびREWパラメータのようなITFTEパラメータを使用した場合のNLLは、そうでない場合よりも低くなることを確認することができる。
【0160】
また、合成音声信号の検証(validation)過程においても、NLLが低いほど生成される合成音声の品質が優れると見なすことができる。図に示したグラフでは、SEWパラメータおよびREWパラメータのようなITFTEパラメータを使用した場合のNLLが、そうでない場合よりも低くなることを確認することができる。
【0161】
言い換えれば、図に示したグラフから、ニューラルボコーダの訓練においてITFTEパラメータを使用することによって励起信号の確率分布のモデリングのエラーを大きく減らすことができ、合成音声の生成のための励起信号の推定でITFTEパラメータを使用することによって合成音声信号の生成におけるエラーを大きく減らすことができるという事実を確認することができる。
【0162】
以上、
図1~14を参照しながら説明した技術的特徴についての説明は、
図15に対してもそのまま適用可能であるため、重複する説明は省略する。
【0163】
図16は、一例における、複数の話者からの音声信号に対し、音声信号の話者従属的な特徴と話者独立的な特徴を示した図である。
図17は、一例における、複数の話者からの音声データセットを訓練させることによって構築されたソースモデルと、ターゲット話者からの音声データセットを訓練させることによって構築された話者適応型モデルを使用してターゲット話者の合成音声を生成する方法を示している。
【0164】
図16に示すように、話者独立的な特徴は、話者(話者1~3)の音声で共通する特徴であってよい。言い換えれば、話者独立的な特徴は、話者ごとに区分されない、グローバル特性を示してよい。話者従属的な特徴は、話者ごとの固有の特性を示してよい。
【0165】
図17に示すように、複数の話者からの音声データセットを話者独立的に訓練することによってソースモデル610が構築されてよく、このようなソースモデル610からの加重値に基づいてターゲット話者からの音声データセットを訓練することにより、ターゲット話者に従属的な話者適応型モデル620が構築されてよい。ソースモデル610からの加重値は、話者適応型モデル620でターゲット話者からの音声データセットが訓練されるにより、ターゲット話者の固有の特性を反映するように微調整されてよい。図に示すように、ソースモデル610および話者適応型モデル620は、ExcitNetモデルを使用して実現されてよい。図に示すように、実施形態によっては、ニューラルボコーダに対して話者適応(speaker adaptation)アルゴリズムを適用してよい。図には示してはいないが、ソースモデル610に対応する音響モデル(例えば、DNNTTS)に対しても同じように話者適応アルゴリズムが適用されてよい。
【0166】
以上、
図1~15を参照しながら説明した技術的特徴についての説明は、
図16および
図17に対してもそのまま適用可能であるため、重複する説明は省略する。
【0167】
図18および
図19は、一例における、話者適応(speaker adaptation)アルゴリズムの適用の可否によって生成された合成音声信号の品質を比較評価した結果を示した図である。
【0168】
図18および
図19のScoreは、評価者が音声信号を聞き取って評価したスコアの平均を示している。ここで、RAWは、原本音声信号に該当してよい。
【0169】
図18を参照すると、WaveNetモデルおよびExcitNetモデルの両方で話者適応アルゴリズムを適用した場合の合成音声信号の品質が高く評価されたことを確認することができる。言い換えれば、
図6~8を参照しながら説明したように、話者適応型モデル620を構築して合成音声信号を生成する場合(w/ speaker adaptation)が、そうでない場合(w/o speaker adaptation)に比べて優れた性能を示すことを確認することができる。
【0170】
図19は、合成音声信号の品質を比較評価した、より詳細な結果を示した図である。
図19については、以下でさらに詳しく説明する。
【0171】
以上、
図1~17を参照しながら説明した技術的特徴についての説明は、
図18および
図19に対してもそのまま適用可能であるため、重複する説明は省略する。
【0172】
以下では、
図1~5を参照しながら説明したExcitNetモデルについてより詳しく説明し、他のモデルとの比較実験結果についてさらに説明する。
【0173】
ExcitNetモデル(ExcitNetボコーダ)は、統計的パラメトリック音声合成(SPSS)システムのためのWaveNetに基づくニューラル励起モデルであってよい。WaveNetに基づくニューラルボコーダシステムは、合成音声信号の認識品質を大きく向上させるが、音声信号の複雑な時変特性を捕捉できない場合があるためノイズを出力する場合がある。ExcitNetに基づくニューラルボコーダシステムは、音声信号からスペクトル成分を分離する適応的エンボスフィルタを使用して(例えば、WaveNetフレームワーク内で)残渣成分(すなわち、励起信号)を分離して訓練することができ、合成音声信号を生成するにあたり励起信号をターゲットとして推定することができる。このような方式により、ディープラーニングフレームワークによって音声信号のスペクトル成分がより適切に表現されるようになり、残渣成分はWaveNetフレームワークによって効率的に生成されるため、合成された音声信号の品質を向上することができる。
【0174】
以下の実験でも、(話者従属的および話者独立的に訓練された)ExcitNetに基づくニューラルボコーダシステムが、従来の線形予測ボコーダおよびWaveNetボコーダよりも優れた性能を発揮するという結果を示した。
【0175】
試験のためには、音響モデルと話者従属的(SD)ExcitNetボコーダを訓練させるために音声的に韻律的に豊かな3つのスピーチコーパスを利用した。各コーパスは、専門の韓国人女性(KRF)と韓国人男性(KRM)が録音したものである。音声信号は24kHzでサンプリングされ、各サンプルは16ビットで量子化された。以下の表1は、各集合の発話数を示したものである。話者独立的(SI)ExcitNetボコーダを訓練させるために、韓国人女性5人と韓国人男性5人が録音した音声コーパスを使用した。合計6,422件(10時間)および1,080件(1.7時間)の発話がそれぞれ訓練および検証(validation)に使用された。SIデータセットに含まれない、同じKRFおよびKRM話者によって録音された音声サンプルが試験のために使用された。
【0176】
【表1】
以下の表2および表3は、客観的な試験の結果であって、原本音声と生成された音声との間の歪曲をLSD(Log-Spectral Distance)(dB)とF0 RMSE(Root Mean Square Error)(Hz)によってそれぞれ示したものである。WNはWaveNetボコーダを示し、WN-NSはWaveNetボコーダにノイズシェーピング方法を適用したものを示し、ExcitNetはExcitNetボコーダを示す。最も低いエラーが現れた部分は太字で表示した。表2および表3は、有声音に対して測定された結果であってよい。
【0177】
【0178】
【表3】
表2および表3に表示したように、SDおよびSIの殆どの場合において、ExcitNetボコーダの場合が、原本音声と生成された音声の間の歪曲が最も低く現われることを確認することができる。
【0179】
以下の表4は、無声音およびトランジション領域(transition regions)に対して測定されたLSD(dB)を示している。
【0180】
【表4】
表4に表示したように、SDおよびSIのすべての場合において、ExcitNetボコーダの場合が、原本音声と生成された音声の間の歪曲が最も低く現われることを確認することができる。
【0181】
以下の表5および表6は、主観的な試験の結果であって、選好度テストの結果(%)を示している。聞き取り者から高い選好度が示された部分は太字で表示した。残りのものに比べ、ExcitNetボコーダの場合、合成音声の認識品質が著しく優れることを確認することができる。評価者は12人の韓国語を母国語として使用する聞き取り者であり、20件のランダムに選択された発話に対して試験が行われた。
【0182】
【0183】
【表6】
図20は、一例における、ExcitNetボコーダと他のボコーダとの間のMOS(Mean Opinion Score)(MOS)の評価結果を示している。
【0184】
録音された音声から音響フィーチャーが抽出される場合である分析/合成(A/S)の結果に対する評価、および音響モデルから音響フィーチャーが生成される場合であるSPSSにおける結果が評価された。
【0185】
S/Aにおいて、SI-ExcitNetボコーダは、ITFTEボコーダと類似の性能を示したが、WORLDシステムよりも遥かに優れたものとして現われた。すべての場合において、SD-ExcitNetボコーダは、最高の認識品質(KRFおよびKRM話者に対してそれぞれ4.35および4.47MOS)を示した。高音の女性の音声を表現するのは難しいため、KRF話者に対するMOS結果は、SIボコーダ(WORLD、ITFTE、およびSI-ExcitNet)においてKRM話者の場合よりも良くない結果が出た。この反面、SD-ExcitNetのKRF話者に対する結果は、KRM話者に対する結果と類似するという点において、高音の声を効果的に表現するためには各話者の特性がモデリングされなければならないことを示す。SPSSの側面では、SDもSI-ExcitNetボコーダも、パラメトリックITFTEボコーダよりも遥かに優れた認識品質を示した。音響モデルが過度に平坦な音声媒介変数を生成したが、ExcitNetボコーダは時間領域励起信号を直接に推定することによって平滑化効果を緩和することができた。結果的に、SD-ExcitNetボコーダを使用するSPSSシステムは、それぞれKRFおよびKRM話者に対して3.78および3.85MOSを達成した。SI-ExcitNetボコーダは、KRFおよびKRM話者に対してそれぞれ2.91および2.89MOSを達成した。
【0186】
以下では、
図6~8を参照しながら説明した話者適応型モデル620を構築するニューラルボコーダについてより詳細に説明し、他のモデルとの比較試験結果についてさらに説明する。実施形態のニューラルボコーダは、たった10分の音声データセットのようにターゲット話者からの訓練データが不十分な場合であっても、高品質の音声合成システムを構築することができる。
【0187】
実施形態のニューラルボコーダは、ターゲット話者に対する制限された訓練データによって発生するターゲット話者関連情報の不足問題を解決するために、複数の話者に対して普遍的な特性を抽出する、話者独立的に訓練されたソースモデル610からの加重値を活用する。このようなソースモデル610からの加重値は、話者適応型モデル620の訓練を初期化するために使用され、ターゲット話者の固有の特性を示すために微調整されてよい。このような適応過程によってディープニューラルネットワークがターゲット話者の特性を捕捉することができるため、話者独立的なモデルで発生する不連続性の問題を減らすことができる。以下で説明する実験結果も、実施形態のニューラルボコーダが、従来の方法に比べて合成された音声の認識品質を著しく向上させることを示す。
【0188】
SDは(ソースモデル610からの加重値を初期値にせず)話者従属的に訓練されたモデルを示し、SIは話者独立的に訓練されたモデルを示し、SAは
図6~8を参照しながら説明したような話者適応型に訓練されたモデル(すなわち、ソースモデル610からの加重値を初期値にして話者従属的に訓練されたモデル)を示す。
【0189】
SDおよびSAモデルにおいて、韓国人女性の話者が録音した音声コーパスが使用された。音声信号は24kHzでサンプリングされ、各サンプルは16ビットで量子化された。訓練、検証、および試験には合計90件(10分)、40件(5分)、130件(15分)の発話が使用された。SIモデルを訓練させるために、SDとSAモデル訓練には含まれない5人の韓国人男性の話者および5人の韓国人女性の話者が録音した音声データが使用された。このために、訓練および検証にそれぞれ6,422件(10時間)および1,080件(1.7時間)の発話が使用された。SDおよびSAモデルのテストセットは、SIモデルを評価するためにも使用された。
【0190】
以下の表7および表8は、客観的な試験の結果であって、原本音声と生成された音声の間の歪曲をLSD(Log-Spectral Distance)(dB)とF0 RMSE(Root Mean Square Error)(Hz)によってそれぞれ示したものである。表7は、録音された音声から抽出された音響フィーチャーが補助フィーチャーを構成するために直接的に使用される場合の分析/合成の結果に対する評価(A/S)を示している。表8は、SPSSにおける結果の評価を示している。最も低いエラーが現れた部分は太字で表示した。
【0191】
【0192】
【表8】
表7および表8において、WaveNetボコーダおよびExcitNetボコーダの両方において、SAの場合が、原本音声と生成された音声の間の歪曲が最も低く現われることを確認することができる。
【0193】
図21は、一例における、F0スケーリングファクタ(scaling factor)を相違させる場合において、話者適応型モデルを構築するニューラルボコーダの性能変化を示した図である。
【0194】
実施形態のSAを適用した訓練方法の有効性を検証するために、F0を手動で変更したときのニューラルボコーダの性能変化を調査した。SIモデルは、ピッチを修正した合成音声の生成に効果的であることが明らかになっている。SAモデルもSIモデルを活用するものであるため、SD接近法に比べて高い性能を示すことが期待される。
【0195】
試験において、F0軌跡は、SPSSフレームワークによって生成された後、補助フィーチャーベクトルを修正するためにスケーリングファクタ(0:6、0:8、1:0、および1:2)が乗算された。音声信号は、ニューラルボコーダシステムによって合成された。
【0196】
図21は、相違するF0スケーリングファクタに対するF0 RMSE(Hz)試験結果を示している。
図21により、SAモデルが、従来のSDモデルに比べて遥かに低い修正エラー(modification error)を含んでいることを確認することができる。SIモデルに比べ、SA-ExcitNetボコーダは、すべての加重値がターゲット話者の特性に合うように最適化されているにも関わらず、同等な品質が維持されていることを確認することができる。
【0197】
また、ExcitNetボコーダは、WaveNetボコーダよりも遥かに優れた性能を発揮することを確認することができる。ExcitNetボコーダは、声帯の動きの変化(励起信号の変化)を訓練するため、WaveNetに基づく接近方式よりも柔軟にF0修正された音声セグメントを再構成できるものと見なされる。
【0198】
図19は、主観的な試験結果であって、SD、SI、およびSAのボコーダ間のMOS評価結果を示した図である。録音された音声から音響フィーチャーが抽出される場合である分析/合成(A/S)の結果に対する評価、および音響モデルから音響フィーチャーが生成される場合であるSPSSにおける結果の評価がなされた。
【0199】
A/Sの結果において、SD-WaveNetボコーダは、制限的な訓練データではターゲット話者の特性を訓練することが不可能であるため、最も良くない結果が現れた。SI-WaveNetボコーダは、ITFTEボコーダと類似の性能を示し、WORLDシステムよりは優れた性能を示した。すべてのWaveNetボコーダにおけるSAの活用は、優れた性能を示すということが確認された。ExcitNetボコーダに対する結果は、WaveNetボコーダの場合と類似の傾向を示したが、ExcitNetボコーダは、LPインバスフィルタによって音声信号のフォルマント構成要素を分離することによって残りの信号のモデリング正確度を向上させるため、全体的に遥かに優れた性能を示した。結果的に、SA-ExcitNetボコーダは、A/S結果において4.40MOSを達成した。
【0200】
SPSSの結果において、SI-WaveNetボコーダとSI-ExcitNetボコーダは、パラメトリックITFTEボコーダよりも優れた認識品質を提供した。結果的に、実施形態のSA訓練モデルは、従来の話者依存的な方法と話者独立的な方法に比べ、合成音声信号の品質を大きく向上させることを確認することができた。A/S結果と同じように、ExcitNetボコーダは、SPSS結果においてWaveNetボコーダよりも優れた性能を示した。音響モデルが過度に平坦な音声媒介変数を生成したが、ExcitNetボコーダは、時間領域励起信号を直接に推定することによって平滑化効果を緩和することができた。結果的に、SA-ExcitNetボコーダがあるSPSSシステムは3.77MOSを達成した。
【0201】
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
【0202】
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。
【0203】
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD-ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。
【0204】
以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。
【0205】
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
【0206】
次の付記を記す。
(付記1) コンピュータによって実現されるニューラルボコーダが実行する音声信号生成方法であって、
スペクトル関連パラメータ、および励起の周期性によって区分される励起関連パラメータを含む複数の音響パラメータを取得する段階、
前記複数の音響パラメータに基づいて励起信号を推定する段階、および
前記推定された励起信号に対して前記スペクトル関連パラメータのうちの少なくとも1つに基づく線形合成フィルタを適用することによってターゲット音声信号を生成する段階
を含む、音声信号生成方法。
(付記2) 前記励起関連パラメータは、所定のカットオフ周波数以下の励起を示す第1励起パラメータ、および前記カットオフ周波数を超過する励起を示す第2励起パラメータを含む、
付記1に記載の音声信号生成方法。
(付記3)
前記第1励起パラメータは、前記励起の高調波スペクトルを示し、前記第2励起パラメータは、前記励起のその他の部分を示す、
付記2に記載の音声信号生成方法。
(付記4) 前記スペクトル関連パラメータは、
音声信号のピッチを示す周波数パラメータ、音声信号のエネルギーを示すエネルギーパラメータ、音声信号が有声音であるか無声音であるかを示すパラメータ、および音声信号の線スペクトル周波数(LSF)を示すパラメータを含む、
付記1に記載の音声信号生成方法。
(付記5) 前記ターゲット音声信号を生成する段階は、
前記LSFを示すパラメータを線形予測符号(LPC)に変換する段階、および
前記推定された励起信号に対し、前記変換されたLPCに基づく前記線形合成フィルタを適用する段階
を含む、
付記4に記載の音声信号生成方法。
(付記6) 前記複数の音響パラメータは、入力されたテキストまたは入力された音声信号に基づいて音響モデルによって生成されたものである、
付記1に記載の音声信号生成方法。
(付記7) 前記ニューラルボコーダは、訓練のために入力された音声信号に基づいて訓練されたものであり、
前記訓練は、
前記入力された音声信号に対して線形予測分析フィルタを適用することにより、前記入力された音声信号から前記励起信号を分離する段階、および
前記分離された励起信号の確率分布をモデリングする段階
を含み、
前記励起信号を推定する段階は、
前記モデリングされた励起信号の確率分布を使用して前記複数の音響パラメータに対する励起信号を推定する、
付記1に記載の音声信号生成方法。
(付記8) 前記励起信号を分離する段階は、
前記入力された音声信号の線スペクトル周波数(LSF)を示すパラメータを線形予測符号(LPC)に変換する段階、および
前記入力された音声信号に対して前記入力された音声信号の変換されたLPCに基づく前記線形予測分析フィルタを適用する段階
を含む、
付記7に記載の音声信号生成方法。
(付記9) 前記分離された励起信号は、前記入力された音声信号の残渣成分である、
付記7に記載の音声信号生成方法。
(付記10) コンピュータによって実現されるニューラルボコーダの訓練方法であって、
音声信号の入力を受ける段階、
前記入力された音声信号から、スペクトル関連パラメータ、および励起の周期性によって区分される励起関連パラメータを含む複数の音響パラメータを抽出する段階、
前記入力された音声信号に対して前記スペクトル関連パラメータのうちの少なくとも1つに基づく線形予測分析フィルタを適用することにより、前記入力された音声信号から励起信号を分離する段階、および
前記分離された励起信号の確率分布をモデリングする段階
を含む、ニューラルボコーダの訓練方法。
(付記11) 前記励起信号を分離する段階は、
前記スペクトル関連パラメータのうちで前記入力された音声信号の線スペクトル周波数(LSF)を示すパラメータを線形予測符号(LPC)に変換する段階、および
前記入力された音声信号に対し、前記入力された音声信号の変換されたLPCに基づく前記線形予測分析フィルタを適用する段階
を含む、
付記10に記載のニューラルボコーダの訓練方法。
(付記12) 前記励起関連パラメータは、所定のカットオフ周波数以下の励起を示す第1励起パラメータ、および前記カットオフ周波数を超過する励起を示す第2励起パラメータを含む、
付記10に記載のニューラルボコーダの訓練方法。
(付記13) ニューラルボコーダであって、
スペクトル関連パラメータ、および励起の周期性によって区分される励起関連パラメータを含む複数の音響パラメータを取得するパラメータ取得部、
前記複数の音響パラメータに基づいて励起信号を推定する励起信号推定部、および
前記推定された励起信号に対して前記スペクトル関連パラメータのうちの少なくとも1つに基づく線形合成フィルタを適用することによってターゲット音声信号を生成する音声信号生成部
を含む、ニューラルボコーダ。
(付記14) 前記音声信号生成部は、前記スペクトル関連パラメータのうちで音声信号の線スペクトル周波数(LSF)を示すパラメータを線形予測符号(LPC)に変換する変換部を含み、
前記推定された励起信号に対し、前記変換されたLPCに基づく前記線形合成フィルタを適用する、
付記13に記載のニューラルボコーダ。
(付記15) 前記ニューラルボコーダは、訓練のために入力された音声信号に基づいて訓練されたものであり、
前記入力された音声信号に対して線形予測分析フィルタを適用することにより、前記入力された音声信号から励起信号を分離する励起信号分離部、および
前記分離された励起信号の確率分布をモデリングするモデリング部
をさらに含み、
前記励起信号推定部は、前記モデリングされた励起信号の確率分布を使用して前記複数の音響パラメータに対する励起信号を推定する、
付記13に記載のニューラルボコーダ。
(付記16) コンピュータによって実現されるニューラルボコーダの訓練方法であって、
複数の話者からの音声データセットに対して訓練されたソースモデルからの加重値を初期値として設定する段階、および
前記初期値に対し、ターゲット話者からの音声データセットを訓練することによってアップデートされた加重値を生成する段階
を含み、
前記アップデートされた加重値は、前記ターゲット話者に対応する合成音声信号を生成するために使用される、
ニューラルボコーダの訓練方法。
(付記17) 前記ソースモデルからの加重値は、前記音声データセットに含まれた、話者ごとに区分されないグローバル特性を示す値であり、
前記アップデートされた加重値を生成する段階は、
前記ソースモデルからの加重値を、前記ターゲット話者からの音声データセットが含む前記ターゲット話者の固有の特性が反映されるように調整することによって前記アップデートされた加重値を生成する、
付記16に記載のニューラルボコーダの訓練方法。
(付記18) 前記複数の話者からの音声データセットを話者独立的に訓練するソースモデルを構築する段階、および
前記ソースモデルから前記加重値を取得する段階
をさらに含み、
前記ソースモデルは、前記ターゲット話者からの音声データセットを訓練するためのモデルの初期化子として使用される、
付記16に記載のニューラルボコーダの訓練方法。
(付記19) 請求項16に記載の訓練方法によって訓練されたニューラルボコーダが実行する音声信号生成方法であって、
入力されたテキストまたは入力された音声信号に基づき、音響モデルによって生成されたスペクトル関連パラメータおよび励起の周期性によって区分される励起関連パラメータを含む複数の音響パラメータを取得する段階、
前記複数の音響パラメータに基づいて励起信号を推定する段階、および
前記推定された励起信号に対して前記スペクトル関連パラメータのうちの少なくとも1つに基づく線形合成フィルタを適用することにより、ターゲット音声信号を生成する段階
を含み、
前記ターゲット音声信号は、前記ターゲット話者に対応する合成音声である、
音声信号生成方法。
(付記20) 前記励起関連パラメータは、所定のカットオフ周波数以下の励起を示す第1励起パラメータ、および前記カットオフ周波数を超過する励起を示す第2励起パラメータを含む、
付記19に記載の音声信号生成方法。