(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023035921
(43)【公開日】2023-03-13
(54)【発明の名称】非自己回帰音声合成方法及びシステム
(51)【国際特許分類】
G10L 13/08 20130101AFI20230306BHJP
【FI】
G10L13/08 150B
【審査請求】有
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2022131711
(22)【出願日】2022-08-22
(31)【優先権主張番号】10-2021-0115859
(32)【優先日】2021-08-31
(33)【優先権主張国・地域又は機関】KR
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.BLUETOOTH
2.ZIGBEE
(71)【出願人】
【識別番号】505205812
【氏名又は名称】ネイバー コーポレーション
【氏名又は名称原語表記】NAVER Corporation
(71)【出願人】
【識別番号】321003371
【氏名又は名称】LINE株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ファン ミンジェ
(72)【発明者】
【氏名】山本 龍一
(72)【発明者】
【氏名】ソン ウンウ
(57)【要約】 (修正有)
【課題】入力テキストに対応する音声波形を迅速に生成し、高品質の合成音声を得る非自己回帰音声合成方法及びシステムを提供する。
【解決手段】非自己回帰音声合成方法は、第1の人工ニューラルネットワークが、入力テキストに対応する音響特徴及び第1のノイズ信号を受信するステップと、受信した音響特徴及び第1のノイズ信号に基づいて、入力テキストに対応する音声波形の調和成分を生成するステップと、第2のニューラルネットワークが、受信した音響特徴及び第2のノイズ信号に基づいて、入力テキストに対応する音声波形のノイズ成分を生成するステップと、調和成分及びノイズ成分を合成して、入力テキストに対応する音声波形を生成するステップと、を含む。
【選択図】
図5
【特許請求の範囲】
【請求項1】
少なくとも一つのプロセッサにより遂行される、非自己回帰音声合成方法であって、
入力テキストに対応する音響特徴を受信するステップと、
前記受信された音響特徴及び第1のノイズ信号に基づいて、前記入力テキストに対応する音声波形の調和成分を生成するステップと、
前記受信された音響特徴及び第2のノイズ信号に基づいて、前記入力テキストに対応する音声波形のノイズ成分を生成するステップと、
前記調和成分及び前記ノイズ成分を合成して、前記入力テキストに対応する音声波形を生成するステップとを含む、非自己回帰音声合成方法。
【請求項2】
前記音声波形の調和成分を生成するステップは、
前記音響特徴に基づいて正弦波信号を生成するステップと、
前記音響特徴に基づいて有声音/無声音情報を生成するステップと、
前記正弦波信号、前記有声音/無声音情報及び前記第1のノイズ信号を第1の人工ニューラルネットワークに入力して、前記入力テキストに対応する音声波形の調和成分を生成するステップとを含む、請求項1に記載の非自己回帰音声合成方法。
【請求項3】
前記正弦波信号は、前記音響特徴に含まれたピッチ情報に基づいて生成される、請求項2に記載の非自己回帰音声合成方法。
【請求項4】
前記正弦波信号は、瞬間周波数が前記入力テキストに対応する音声波形の基本周波数を従うように生成される、請求項2に記載の非自己回帰音声合成方法。
【請求項5】
前記音声波形のノイズ成分を生成するステップは、
前記音響特徴に基づいて有声音/無声音情報を生成するステップと、
前記有声音/無声音情報及び前記第2のノイズ信号を第2の人工ニューラルネットワークに入力して、前記入力テキストに対応する音声波形のノイズ成分を生成するステップとを含む、請求項1に記載の非自己回帰音声合成方法。
【請求項6】
前記第1のノイズ信号及び前記第2のノイズ信号はランダムなガウシアンノイズ信号であり、前記第1のノイズ信号及び前記第2のノイズ信号は互いに異なる、請求項1に記載の非自己回帰音声合成方法。
【請求項7】
前記入力テキストに対応する音声波形を生成するステップは、
前記音声波形の調和成分から複数のサブバンド調和成分を抽出するステップと、
前記音声波形のノイズ成分から複数のサブバンドノイズ成分を抽出するステップとを含む、請求項1に記載の非自己回帰音声合成方法。
【請求項8】
複数のシンク関数に基づいたバンドパスフィルタを利用して、前記音声波形の調和成分及び前記音声波形のノイズ成分から複数のサブバンド調和成分及び複数のサブバンドノイズ成分を各々抽出する、請求項7に記載の非自己回帰音声合成方法。
【請求項9】
前記入力テキストに対応する音声波形を生成するステップは、
前記音響特徴に基づいて、複数のサブバンド調和性を推定するステップと、
前記複数のサブバンド調和性に基づいて、前記複数のサブバンド調和成分及び前記複数のサブバンドノイズ成分を加重合計するステップとをさらに含む、請求項7に記載の非自己回帰音声合成方法。
【請求項10】
前記複数のサブバンド調和性は、複数のサブバンドの各々における調和成分及びノイズ成分間の推定された最適のエネルギー比率を示す、請求項9に記載の非自己回帰音声合成方法。
【請求項11】
前記複数のサブバンド調和性は、埋め込みニューラルネットワークに基づいたモデルに前記音響特徴を入力して推定される、請求項10に記載の非自己回帰音声合成方法。
【請求項12】
請求項1乃至11のいずれか一項に記載の非自己回帰音声合成方法をコンピュータに実行させるコンピュータプログラム。
【請求項13】
非自己回帰音声合成システムであって、
メモリと、
前記メモリと連結され、前記メモリに含まれたコンピュータ読み取り可能な少なくとも一つのプログラムを実行するように構成された少なくとも一つのプロセッサとを含み、
前記少なくとも一つのプログラムは、
入力テキストに対応する音響特徴を受信し、
前記受信された音響特徴及び第1のノイズ信号に基づいて、前記入力テキストに対応する音声波形の調和成分を生成し、
前記受信された音響特徴及び第2のノイズ信号に基づいて、前記入力テキストに対応する音声波形のノイズ成分を生成し、
前記調和成分及び前記ノイズ成分を合成して、前記入力テキストに対応する音声波形を生成するための命令語を含む、非自己回帰音声合成システム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、非自己回帰(non-autoregressive)音声合成方法及びシステムに関し、具体的には、非自己回帰ニューラルネットワークボコーダ(neural network vocoder)を用いて音声信号を合成する非自己回帰音声合成方法及びシステムに関する。
【背景技術】
【0002】
一般に、テキスト-音声変換(Text-To-Speech、TTS)システムは、案内放送やナビゲーションや人工知能アシスタントなどのような人の音声が必要なアプリケーションにおいて、実際の人の音声を予め録音しておくことなく、必要な音声を再生するために使用される。このために、任意のテキストをTTSシステムに入力して音声信号を合成して出力する。最近は、人工ニューラルネットワークを用いたエンドツーエンド(end-to-end)音声変換システムが多く紹介されている。
【0003】
このようなエンドツーエンド音声変換システムは、自己回帰方式を使用するシステムと、非自己回帰方式を使用するシステムとに区分される。自己回帰方式は、合成音声の品質は高いが、音声変換速度が非常に遅いという問題点がある。これに対し、非自己回帰方式は、音声変換速度は速いが、不安で音声の品質が低いという問題点がある。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】韓国公開特許公報第10-2000-0030906号
【発明の概要】
【発明が解決しようとする課題】
【0005】
前記問題点を解決するために、本開示の多様な実施例は、非自己回帰音声合成方法、記録媒体に保存されたコンピュータプログラム及び装置(システム)を提供する。
【課題を解決するための手段】
【0006】
本開示は、方法、装置(システム)又はコンピュータ読取り可能な保存媒体に保存されたコンピュータプログラムを含む多様な方式により具現化できる。
【0007】
本開示の一実施例によれば、少なくとも一つのプロセッサにより遂行される、非自己回帰音声合成方法が提供される。非自己回帰音声合成方法は、入力テキストに対応する音響特徴(acoustic features)を受信するステップと、受信された音響特徴及び第1のノイズ信号に基づいて、入力テキストに対応する音声波形の調和成分(harmonic component)を生成するステップと、受信された音響特徴及び第2のノイズ信号に基づいて、入力テキストに対応する音声波形のノイズ成分(noise component)を生成するステップと、調和成分及びノイズ成分を合成して、入力テキストに対応する音声波形を生成するステップとを含む。
【0008】
本開示の一実施例によれば、非自己回帰音声合成方法をコンピュータで実行するために、コンピュータ読み取り可能な記録媒体に保存されたコンピュータプログラムが提供される。
【0009】
本開示の一実施例によれば、非自己回帰音声合成システムが提供される。非自己回帰音声合成システムは、メモリと、メモリと連結され、メモリに含まれたコンピュータ読み取り可能な少なくとも一つのプログラムを実行するように構成された少なくとも一つのプロセッサとを含む。少なくとも一つのプログラムは、入力テキストに対応する音響特徴を受信し、受信された音響特徴及び第1のノイズ信号に基づいて、入力テキストに対応する音声波形の調和成分を生成し、受信された音響特徴及び第2のノイズ信号に基づいて、入力テキストに対応する音声波形のノイズ成分を生成し、調和成分及びノイズ成分を合成して、入力テキストに対応する音声波形を生成するための命令語を含む。
【発明の効果】
【0010】
本開示の多様な実施例によれば、一つの人工ニューラルネットワークは、ノイズ信号及びピッチ(pitch)依存正弦波信号を受信し、もう一つの人工ニューラルネットワークは、ノイズ信号を受信して調和成分及びノイズ成分を生成/合成することで、入力テキストに対応する音声波形を迅速に生成し、高品質の合成音声を提供することができる。
【0011】
本開示の多様な実施例によれば、音声信号の調和成分及びノイズ成分が、個別の人工ニューラルネットワークにより別途にモデリングされることで、安定的な合成音声を提供することができる。
【0012】
本開示の多様な実施例によれば、人工ニューラルネットワークを介して生成された調和成分及びノイズ成分を各々のサブバンド(sub-band)成分として抽出し、サブバンド調和性(harmonicity)に基づいて加重合計して、入力テキストに対応する音声波形を生成することで、高品質の合成音声を提供することができる。
【0013】
本開示の効果は、これに制限されず、言及されない他の効果等は、請求範囲の記載から本開示が属する技術分野における通常の知識を有した者(“通常の技術者”という)に明確に理解されるべきである。
【図面の簡単な説明】
【0014】
【
図1】本開示の一実施例に係るTTSシステムが入力テキストに対応する音声波形を生成する例を示す図である。
【
図2】本開示の一実施例に係る入力テキストに対応する音声を非自己回帰に基づいて合成するために、情報処理システムが複数のユーザ端末と通信可能であるように連結された構成を示す概要図である。
【
図3】本開示の一実施例に係るユーザ端末及び情報処理システムの内部構成を示すブロック図である。
【
図4】本開示の一実施例に係るニューラルネットワークボコーダの内部構成を示す機能的なブロック図である。
【
図5】本開示の一実施例に係る入力テキストに対応する音声波形が生成される例を示す図である。
【
図6】本開示の一実施例に係るニューラルネットワークボコーダの内部構成を示す機能的なブロック図である。
【
図7】本開示の一実施例に係る入力テキストに対応する音声波形が生成される例を示す図である。
【
図8】本開示の一実施例に係る全バンドニューラルネットワークボコーダ及びマルチバンドニューラルネットワークボコーダにより生成された調和成分及びノイズ成分のスペクトログラムの例を示す図である。
【
図9】本開示の一実施例に係る非自己回帰音声合成方法を示すフローチャートである。
【
図10】本開示の一実施例に係るマルチバンド非自己回帰音声合成方法を示すフローチャートである。
【発明を実施するための形態】
【0015】
以下、本開示の実施のための具体的な内容を添付図面に基づいて詳細に説明する。ただし、以下の説明では、本開示の要旨を不要に不明瞭にする恐れがある場合、公知の機能や構成に関する具体的な説明は省略する。
【0016】
添付図面において、同一又は対応する構成要素には同一の参照符号が付与される。また、以下の実施例の説明において、同一又は対応する構成要素の重複記述は省略され得る。しかしながら、構成要素に関する記述が省略されても、そのような構成要素が、ある実施例に含まれないものと意図してはならない。
【0017】
開示の実施例の利点及び特徴、そしてそれらを達成する方法は、添付図面に基づいて後述する実施例を参照すれば明確になる。しかしながら、本開示は、以下で開示される実施例に限定されず、互いに異なる多様な形態で具現化され得る。但し、本実施例は、本開示が完全になるようにし、本開示が通常の技術者に発明のカテゴリを正確に認識させるために提供されるだけである。
【0018】
本明細書で使用される用語について簡略に説明し、開示の実施例について具体的に説明する。本明細書で使用される用語は、本開示での機能を考慮しつつ、可能な限り現在広く使用される一般的な用語を選択したが、これは関連分野に従事する技術者の意図又は判例、新技術の出現などにより変化し得る。また、特定の場合は出願人が任意で選定した用語もあり得るが、これらの意味は当該発明の説明の部分において詳細に記載する。よって、本開示で使用される用語は、単純な用語の名称ではなく、その用語が有する意味と本開示の全般にわたった内容に基づいて定義されるべきである。
【0019】
本明細書では、文脈上において明確に特定しない限り、単数の表現は複数の表現を含み、複数の表現は単数の表現を含むことができる。明細書の全般に渡り、ある部分がある構成要素を「含む」とする際、これは特に反対の記載がない限り、他の構成要素を除くものではなく、他の構成要素をさらに含むこともできることを意味する。
【0020】
また、明細書で使用される「モジュール」又は「部(ユニット)」という用語は、ソフトウェアやハードウェア構成要素を意味し、「モジュール」又は「部」はある役割を遂行する。しかしながら、「モジュール」又は「部」はソフトウェアやハードウェアに限定される意味ではない。「モジュール」又は「部」は、アドレッシング可能な保存媒体にあるように構成してもよく、一つ又はそれ以上のプロセッサを再生させるように構成してもよい。したがって、一例として、「モジュール」又は「部」は、ソフトウェア構成要素、オブジェクト指向ソフトウェア構成要素、クラス構成要素、タスク構成要素のような構成要素、並びに、プロセス、関数、属性、プロシージャ、サブルーチン、プログラムコードのセグメント、ドライバー、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイ又は変数のうちで少なくとも一つを含むことができる。構成要素と「モジュール」又は「部」は、内部で提供される機能はさらに小さい数の構成要素及び「モジュール」又は「部」で結合されたり、追加的な構成要素と「モジュール」又は「部」にさらに分離されたりできる。
【0021】
本開示の一実施例によれば、「モジュール」又は「部」はプロセッサ及びメモリで具現化され得る。「プロセッサ」は汎用プロセッサ、中央処理装置(CPU)、マイクロプロセッサ、デジタル信号プロセッサ(DSP)、制御器、マイクロ制御器、状態マシンなどを含むように広く解釈されるべきである。いくつかの環境では、「プロセッサ」は特定用途向け半導体(ASIC)、プログラム可能なロジックデバイス(PLD)、フィールドプログラム可能なゲートアレイ(FPGA)等を称することもできる。「プロセッサ」は、例えば、DSPとマイクロプロセッサの組合せ、複数のマイクロプロセッサの組合せ、DSPコアと結合した一つ以上のマイクロプロセッサの組合せ、若しくは、任意の他のそのような構成等の組合せのような処理デバイスの組合せを称することもできる。また、「メモリ」は電子情報を保存可能な任意の電子コンポーネントを含むように広く解釈されるべきである。「メモリ」は、RAM(Random Access Memory)、ROM(Read Only Memory)、NVRAM(Non-Volatile Random Access Memory)、PROM(Programmable Read-Only Memory)、EPROM(Erasable Programmable Read-Only Memory)、EEPROM(Electrically Erasable Programmable Reda-Only Memory)、フラッシュメモリ、磁気又は光学データ保存装置、レジスタなどのようなプロセッサ-読み取り可能な媒体の多様な類型を称することもできる。プロセッサがメモリから情報を読み取り/読み取ったりメモリに情報を記録できる場合、メモリはプロセッサと電子通信状態にあると言われる。プロセッサに集積されたメモリはプロセッサと電子通信状態にある。
【0022】
本開示において、「システム」は、サーバ装置及びクラウド装置の少なくとも一つを含むことができるが、これに限定されるものではない。例えば、システムは、一つ以上のサーバ装置からなることができる。他の例として、システムは、一つ以上のクラウド装置からなることができる。また他の例として、システムは、サーバ装置及びクラウド装置の全部からなって動作されることもできる。
【0023】
図1は、本開示の一実施例に係るTTS(Text-To-Speech)システムが入力テキスト110に対応する音声波形150を生成する例を示す図である。図に示すように、TTSシステムは、音響特徴抽出モデル120及びニューラルネットワークボコーダ140を含むことができる。代替的に、TTSシステムは、音響特徴抽出モデル120を含まず、別途のシステムが生成した音響特徴130を受信できる。
【0024】
一実施例によれば、音響特徴抽出モデル120は、入力テキスト110の入力により、入力テキスト110に対応する音響特徴130を抽出できる。音響特徴抽出モデル120は、入力テキストに基づいてスピーチの音響特徴を生成するように構成されたモデルであり得る。音響特徴130を抽出するために、音響特徴抽出モデル120は、入力テキスト110から言語特徴(linguistic features)を抽出して、LSTM(a long short-term memory)に基づいた期間予測器により各音素の持続時間を推定できる。その後、音響特徴抽出モデル120は、推定された音素の持続時間に基づいて音素水準の言語特徴をフレーム水準にアップサンプリング(upsampling)し、アップサンプリングした言語特徴に基づいて入力テキスト110に対応する音響特徴130を予測できる。ここで、音響特徴130は、メルスペクトル(Mel spectrum)、ピッチ情報、エネルギー情報、有声音/無声音(voice/unvoice又はV/UV)情報を含むボイシング情報(voicing information又はvoicing flag)などを含むことができる。
【0025】
一実施例によれば、ニューラルネットワークボコーダ140は、受信された音響特徴130に基づいて入力テキスト110に対応する音声波形150を生成できる。生成された音声波形150はユーザ又はユーザ端末に提供できる。ニューラルネットワークボコーダ140は、より高品質の音声波形150を生成するために、入力テキストに対応する音声波形の調和成分を生成する第1の人工ニューラルネットワークと、入力テキストに対応する音声波形のノイズ成分を生成する第2の人工ニューラルネットワークとを含むことができる。ここで、第1の人工ニューラルネットワークは、音声波形の調和成分を生成するためにピッチ依存正弦波信号を受信し、第2の人工ニューラルネットワークは、音声波形のノイズ成分を生成するためにガウシアンノイズ信号を受信できる。その後、ニューラルネットワークボコーダ140は、第1の人工ニューラルネットワークを介して生成された調和成分と、第2の人工ニューラルネットワークを介して生成されたノイズ成分とを合成して、出力音声波形を生成できる。
【0026】
一実施例において、音声波形150の品質をより向上させるために、ニューラルネットワークボコーダ140は、第1の人工ニューラルネットワークが生成した音声波形の調和成分から複数のサブバンド調和成分を抽出できる。同様に、ニューラルネットワークボコーダ140は、第2の人工ニューラルネットワークが生成した音声波形のノイズ成分から複数のサブバンドノイズ成分を抽出できる。さらに、ニューラルネットワークボコーダ140は、複数のサブバンドの各々における調和成分及びノイズ成分間の最適のエネルギー比率を示す複数のサブバンド調和性を推定できる。推定された複数のサブバンド調和性に基づいて、ニューラルネットワークボコーダ140は、複数のサブバンド調和成分及び複数のサブバンドノイズ成分を加重合計して、音声波形150を生成できる。
【0027】
このような構成により、入力テキスト110に対応する音声波形150を迅速に生成しながら、品質の低下を防止することで、高品質の音声を合成することが可能である。
【0028】
図2は、本開示の一実施例に係る入力テキストに対応する音声を非自己回帰に基づいて合成するために、情報処理システム230が複数のユーザ端末210_1、210_2、210_3と通信可能であるように連結された構成を示す概要図である。情報処理システム230は、ネットワーク220を介して、複数のユーザ端末210_1、210_2、210_3に、入力テキストに対応する音声合成サービスが提供されるシステムを含むことができる。一実施例において、情報処理システム230は、テキスト-音声変換(TTS)サービスと関連付けられたコンピュータ実行可能なプログラム(例えば、ダウンロード可能なアプリケーション)や、データの保存、提供及び実行できる一つ以上のサーバ装置及び/又はデータベースや、クラウドコンピューティング(cloud computing)サービス基盤の一つ以上の分散コンピュータ装置及び/又は分散データベースを含むことができる。情報処理システム230により提供されるテキスト-音声変換サービスは、複数のユーザ端末210_1、210_2、210_3の各々に設置されたテキスト-音声変換アプリケーションやウェブブラウザなどを介してユーザに提供できる。
【0029】
複数のユーザ端末210_1、210_2、210_3は、ネットワーク220を介して情報処理システム230と通信できる。ネットワーク220は、複数のユーザ端末210_1、210_2、210_3及び情報処理システム230間の通信が可能であるように構成できる。ネットワーク220は、設置環境に応じて、例えば、イーサネット(Ethernet)、PLC(Power Line Communication)、電話線通信装置及びRS-serial通信などのような有線ネットワーク、移動通信網、WLAN(Wireless LAN)、Wi-Fi、Bluetooth及びZigBeeなどのような無線ネットワーク又はその組合せからなることができる。通信方式は制限されず、ネットワーク220を含むことができる通信網(例えば、移動通信網、有線インターネット、無線インターネット、放送網、衛星網等)を活用する通信方式だけでなく、ユーザ端末210_1、210_2、210_3間の近距離無線通信も含まれる。例えば、ネットワーク220は、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broad band network)、インターネットなどのネットワークの一つ以上の任意のネットワークを含むことができる。また、ネットワーク220は、バス型ネットワーク、スター型ネットワーク、リング型ネットワーク、メッシュ型ネットワーク、スター-バス型ネットワーク、ツリまたは階層(hierarchical)ネットワークなどを含むネットワークトポロジーの任意の一つ以上を含むことができるが、これに制限されるものではない。
【0030】
図2では、携帯電話端末210_1、タブレット端末210_2及びPC端末210_3をユーザ端末の例として示したが、これに限定されず、ユーザ端末210_1、210_2、210_3は、有線及び/又は無線通信が可能であり、テキスト-音声変換アプリケーションが設置されて実行できる任意のコンピューティング装置であり得る。例えば、ユーザ端末は、スマートフォン、携帯電話、ナビゲーション、デスクトップコンピュータ、ラップトップコンピュータ、デジタル放送用端末、PDA(Personal Digital Assistants)、PMP(Portable Multimedia Player)、タブレットPC、ゲームコンソール(game console)、ウェアラブルデバイス(wearable device)、IoT(internet of things)デバイス、VR(virtual reality)デバイス、AR(augmented reality)デバイスなどを含むことができる。また、
図2では、3つのユーザ端末210_1、210_2、210_3がネットワーク220を介して情報処理システム230と通信するものと示したが、これに限定されず、異なる数のユーザ端末がネットワーク220を介して情報処理システム230と通信するように構成されることもできる。
【0031】
情報処理システム230は、テキスト-音声変換アプリケーションが動作するユーザ端末210_1、210_2、210_3から入力されたテキスト又は音声変換要請情報が含まれたテキストを受信できる。入力テキストが受信される場合、情報処理システム230は、入力されたテキストに対応する音声波形を生成できる。その後、情報処理システム230は、生成された音声波形をユーザ端末210_1、210_2、210_3に提供できる。
図2にはユーザ端末210_1、210_2、210_3が情報処理システム230から入力テキストに対応する音声波形を受信するものと示したが、これに限定されず、ユーザ端末210_1、210_2、210_3が入力テキストを受信し、入力テキストに対応する音声波形を生成するように構成されることもできる。
【0032】
図3は、本開示の一実施例に係るユーザ端末210及び情報処理システム230の内部構成を示すブロック図である。ユーザ端末210は、テキスト-音声変換アプリケーションやウェブブラウザなどが実行可能であり、有/無線通信が可能な任意のコンピュータ装置を称することができ、例えば、
図2の携帯電話端末210_1、タブレット端末210_2及びPC端末210_3などを含むことができる。図に示すように、ユーザ端末210は、メモリ312、プロセッサ314、通信モジュール316及び入出力インタフェース318を含むことができる。これと同様に、情報処理システム230は、メモリ332、プロセッサ334、通信モジュール336及び入出力インタフェース338を含むことができる。
図3に示すように、ユーザ端末210及び情報処理システム230は、各々の通信モジュール316、336を用いて、ネットワーク220を介して情報及び/又はデータが通信できるように構成できる。また、入出力装置320は、入出力インタフェース318を介して、ユーザ端末210に情報及び/又はデータを入力したり、ユーザ端末210から生成された情報及び/又はデータを出力したりするように構成できる。
【0033】
メモリ312、332は、非一時的な任意のコンピュータ読み取り可能な記録媒体を含むことができる。一実施例によれば、メモリ312、332は、RAM(random access memory)、ROM(read only memory)、ディスクドライブ、SSD(solid state drive)及びフラッシュメモリ(flash memory)などのような永久的な大容量保存装置(permanent mass storage device)を含むことができる。他の例として、ROM、SSD、フラッシュメモリ及びディスクドライブなどのような永久的な大容量保存装置は、メモリとは区分される別途の永久保存装置としてユーザ端末210又は情報処理システム230に含まれることができる。また、メモリ312、332には、運営体制と少なくとも一つのプログラムコード(例えば、ユーザ端末210に設置されて駆動されるテキスト-音声変換アプリケーションなどのためのコード)が保存され得る。
【0034】
このようなソフトウェア構成要素は、メモリ312、332とは別途のコンピュータ読み取り可能な記録媒体からローディングできる。このような別途のコンピュータ読み取り可能な記録媒体は、このようなユーザ端末210及び情報処理システム230に直接連結可能な記録媒体を含むことのできるが、例えば、フロッピードライブ、ディスク、テープ、DVD/CD-ROMドライブ及びメモリカードなどのようなコンピュータ読み取り可能な記録媒体を含むことができる。他の例として、ソフトウェア構成要素等は、コンピュータ読み取り可能な記録媒体でなく、通信モジュールを介してメモリ312、332にローディングされることもできる。例えば、少なくとも一つのプログラムは、開発者又はアプリケーションの設置ファイルを配信するファイル配信システムが、ネットワーク220を介して提供するファイルにより設置されるコンピュータプログラム(例:テキスト-音声変換サービスを提供するアプリケーション)に基づいてメモリ312、332にローディングされることができる。
【0035】
プロセッサ314、334は、基本的な算術、ロジック及び入出力演算を遂行することで、コンピュータプログラムの命令を処理するように構成できる。命令は、メモリ312、332又は通信モジュール316、336によりプロセッサ314、334に提供され得る。例えば、プロセッサ314、334は、メモリ312、332のような記録装置に保存されたプログラムコードによって受信される命令を実行するように構成できる。
【0036】
通信モジュール316、336は、ネットワーク220を介して、ユーザ端末210と情報処理システム230とが互いに通信するための構成や機能が提供でき、ユーザ端末210及び/又は情報処理システム230が、他のユーザ端末又は他のシステム(例えば、別途のクラウドシステムや音響特徴抽出システムなど)と通信するための構成や機能が提供できる。一例として、ユーザ端末210のプロセッサ314がメモリ312などのような記録装置に保存されたプログラムコードによって生成した要請(例えば、テキスト-音声変換要請)は、通信モジュール316の制御により、ネットワーク220を介して情報処理システム230に伝達され得る。反対に、情報処理システム230のプロセッサ334の制御により提供される制御信号や命令が、通信モジュール336及びネットワーク220を経て、ユーザ端末210の通信モジュール316を介してユーザ端末210に受信され得る。例えば、ユーザ端末210は、情報処理システム230から通信モジュール316を介して入力テキストに対応する音声波形信号を受信できる。
【0037】
入出力インタフェース318は、入出力装置320とのインタフェースのための手段であり得る。一例として、入力装置はイメージセンサを含むカメラ、キーボード、マイクロホン、マウスなどのような装置を含み、出力装置はディスプレイ、スピーカ、ハプティック(触覚)フィードバックデバイス(haptic feedback device)などのような装置を含むことができる。他の例として、入出力インタフェース318は、タッチスクリーンなどのように入力及び出力を遂行するための構成及び機能が一つで統合された装置とのインタフェースのための手段であり得る。例えば、ユーザ端末210のプロセッサ314がメモリ312にローディングされたコンピュータプログラムの命令を処理する際に、情報処理システム230や他のユーザ端末が提供する情報及び/又はデータを用いて構成されるサービス画面が、入出力インタフェース318を介してディスプレイに表示され得る。
図3では、入出力装置320がユーザ端末210に含まれないように示したが、これに限定されず、ユーザ端末210と一体に構成することもできる。また、情報処理システム230の入出力インタフェース338は、情報処理システム230と連結するか、又は、情報処理システム230が含むことのできる入力や出力のための装置(図示せず)とのインタフェースのための手段であり得る。
図3では、入出力インタフェース318、338がプロセッサ314、334と別途に構成された要素として示したが、これに限定されず、入出力インタフェース318、338がプロセッサ314、334に含まれるように構成することもできる。
【0038】
ユーザ端末210及び情報処理システム230は、
図3に示す構成要素よりも多くの構成要素を含むことができる。しかしながら、大部分の従来技術的構成要素を明確に示す必要はない。一実施例によれば、ユーザ端末210は、前述した入出力装置320の少なくとも一部を含むように具現化できる。また、ユーザ端末210は、トランシーバー(transceiver)、GPS(Global Positioning system)モジュール、カメラ、各種センサ及びデータベースなどのような他の構成要素をさらに含むことができる。例えば、ユーザ端末210がスマートフォンである場合、一般にスマートフォンが有する構成要素を含むことができ、例えば、加速度センサ、ジャイロセンサ、カメラモジュール、各種物理的なボタン、タッチパネルを用いたボタン、入出力ポート及び振動のための振動器などのような多様な構成要素がユーザ端末210にさらに含まれるように具現化できる。
【0039】
一実施例によれば、ユーザ端末210のプロセッサ314は、テキスト-音声変換サービスを提供するテキスト-音声変換アプリケーション又はウェブブラウザアプリケーションなどが動作するように構成できる。このとき、当該アプリケーションと関連付けられたプログラムコードがユーザ端末210のメモリ312にローディングできる。アプリケーションが動作する際に、ユーザ端末210のプロセッサ314は、入出力装置320から提供された情報及び/又はデータを入出力インタフェース318を介して受信したり、通信モジュール316を介して情報処理システム230から情報及び/又はデータを受信したりでき、受信された情報及び/又はデータを処理してメモ312に保存できる。また、このような情報及び/又はデータは、通信モジュール316を介して情報処理システム230に提供できる。
【0040】
テキスト-音声変換アプリケーションが動作される際に、プロセッサ314は、入出力インタフェース318と連結されたタッチスクリーンやキーボードなどのような入力装置により入力又は選択されたテキストやイメージなどが受信でき、受信されたテキスト及び/又はイメージをメモリ312に保存したり、通信モジュール316及びネットワーク220を介して情報処理システム230に提供したりできる。例えば、プロセッサ314は、タッチスクリーンやキーボードなどのような入力装置を介して、合成しようとするテキスト入力やテキスト-音声変換要請などに関する情報などを受信できる。これにより受信された要請及び/又は情報は、通信モジュール316及びネットワーク220を介して情報処理システム230に提供できる。
【0041】
ユーザ端末210のプロセッサ314は、入出力装置320、他のユーザ端末、情報処理システム230及び/又は複数の外部システムから受信された情報及び/又はデータを管理、処理及び/又は保存するように構成できる。プロセッサ314により処理された情報及び/又はデータは、通信モジュール316及びネットワーク220を介して情報処理システム230に提供できる。ユーザ端末210のプロセッサ314は、入出力インタフェース318を介して、入出力装置320に情報及び/又はデータを転送して出力できる。例えば、プロセッサ314は、受信した情報及び/又はデータをユーザ端末の画面にディスプレイしたり、スピーカを介して出力したりできる。
【0042】
情報処理システム230のプロセッサ334は、複数のユーザ端末210及び/又は複数の外部システムから受信された情報及び/又はデータを管理、処理及び/又は保存するように構成できる。プロセッサ334により処理された情報及び/又はデータは、通信モジュール336及びネットワーク220を介してユーザ端末210に提供できる。
図3では、情報処理システム230が単一のシステムと示したが、これに限定されず、テキスト-音声変換サービスと関連付けられた多様なサービスを提供するための複数のシステム/サーバからなることができる。例えば、情報処理システム230は、音響特徴抽出モデルを含む別途のサーバなどを含むことができる。
【0043】
図4は、本開示の一実施例に係るニューラルネットワークボコーダ140の内部構成を示す機能的なブロック図である。図に示すように、ニューラルネットワークボコーダ140は、音響特徴前処理部410、ランダムノイズ生成部420、第1の人工ニューラルネットワーク430、第2の人工ニューラルネットワーク440及び音声波形生成部450を含むことができる。ニューラルネットワークボコーダ140は、非自己回帰方式により入力テキストに対応する音声波形を合成するように構成できる。
【0044】
一実施例において、ニューラルネットワークボコーダ140の音響特徴前処理部410は、入力テキストに対応する音響特徴を受信できる。音響特徴前処理部410は、受信した音響特徴に基づいて、正弦波信号及び有声音/無声音情報を生成できる。ここで、正弦波信号は、音響特徴に含まれたピッチ(pitch)情報に基づいて生成されることができる。一実施例によれば、音響特徴前処理部410は、正弦波信号の瞬間周波数(instantaneous frequency)がターゲットスピーチ信号(すなわち、入力テキストに対応する音声波形の基本周波数(fundamental frequency))を従うように正弦波信号を生成できる。換言すれば、音響特徴前処理部410は、各時間区間の音程(すなわち、ピッチ)を瞬間周波数として有する正弦波を生成できる。具体的に、音響特徴前処理部410は、次の数1の式によって正弦波信号を生成できる。
【0045】
【数1】
ここで、s[t]は正弦波信号、f
kはk番目の時間区間における基本周波数、F
sは入力テキストに対応する音声波形のサンプリングレート、φ∈[-π,π]はランダム初期位相値を表わす。
【0046】
また、音響特徴前処理部410は、正弦波信号及びランダムノイズ生成部420により生成されたノイズ信号とタイムレゾリューション(time resolution)が一致するように音響特徴に含まれた有声音/無声音情報を、フレーム水準からサンプル水準にアップサンプリングできる。例えば、音響特徴前処理部410は、最近傍アップサンプリング(nearest neighbor up-sampling)により、有声音/無声音情報をフレームレベルからサンプルレベルにアップサンプリングできる。音声波形を生成するために有声音/無声音情報を利用することで、各人工ニューラルネットワーク430、440がボイシング状態(voicing state)を効果的に認識するようにできる。
【0047】
ランダムノイズ生成部420はノイズ信号を生成できる。ここで、ノイズ信号はランダムなガウシアンノイズ信号であり得る。また、ランダムノイズ生成部420は、異なるランダムなガウシアンノイズ信号を生成して、第1の人工ニューラルネットワーク430及び第2の人工ニューラルネットワーク440に各々提供できる。異なるランダムなガウシアンノイズ信号を第1の人工ニューラルネットワーク430及び第2の人工ニューラルネットワーク440の入力に提供することで、音声合成の品質を向上させることができる。
【0048】
第1の人工ニューラルネットワーク430は、入力テキストに対応する音響特徴に基づいた正弦波信号、アップサンプリングした有声音/無声音情報及びランダムなノイズ信号の入力により、入力テキストに対応する音声波形の調和成分を生成できる。第2の人工ニューラルネットワーク440は、有声音/無声音情報及びランダムなノイズ信号の入力により、入力テキストに対応する音声波形のノイズ成分を生成できる。ここで、調和成分は、音声波形の周期的(periodic)かつ決定論的(deterministic)な成分であり得、ノイズ成分は、音声波形の非周期的 (aperiodic)かつ確率論的(stochastic)な成分であり得る。一実施例において、第1の人工ニューラルネットワーク430及び第2の人工ニューラルネットワーク440は、条件付き音響パラメータに基づいて時間ドメインの音声波形を生成する非自己回帰ニューラルネットワークモデルであり得る。
【0049】
音声波形生成部450は、第1の人工ニューラルネットワークにより生成された調和成分と、第2の人工ニューラルネットワークにより生成されたノイズ成分とを合成して、入力テキストに対応する音声波形を生成できる。生成された音声波形は、入力テキストに対応する音声信号としてユーザ端末に転送できる。調和成分及びノイズ成分を合成して生成された音声波形は、次の数2の式によって算出できる。
【0050】
【数2】
ここで、Xは生成された音声波形、X
hは音声波形の調和成分、X
nは音声波形のノイズ成分を表わす。すなわち、ニューラルネットワークボコーダ140は、音声波形生成部450により、音声波形の全体周波数範囲の調和成分及びノイズ成分を同等に合成できる。
図4には、第1の人工ニューラルネットワーク430、第2の人工ニューラルネットワーク440及び音声波形生成部450が別途の構成として示したが、これに限定されず、第1の人工ニューラルネットワーク430、第2の人工ニューラルネットワーク440及び音声波形生成部450が一つのモジュールとして構成されることもできる。
【0051】
図5は、本開示の一実施例に係る入力テキストに対応する音声波形542が生成される例を示す図である。図に示すように、音響特徴前処理部510は、入力テキストに対応する音響特徴512を受信できる。音響特徴512は、入力テキストに基づいて音響特徴抽出モデルにより抽出できる。
【0052】
一実施例によれば、音響特徴前処理部510は、受信した音響特徴512に含まれたピッチ情報に基づいて正弦波信号514を生成して、第1の人工ニューラルネットワーク520に提供できる。一実施例によれば、音響特徴前処理部510は、受信した音響特徴512に基づいて有声音/無声音情報516を生成して、第1の人工ニューラルネットワーク520及び第2の人工ニューラルネットワーク530に提供できる。ここで、有声音/無声音情報516は、音響特徴に含まれた有声音/無声音情報を、フレーム水準からサンプル水準にアップサンプリングしたものであり得る。
【0053】
一実施例によれば、ランダムノイズ生成部により生成された第1のノイズ信号522は、第1の人工ニューラルネットワークに提供され得る。また、ランダムノイズ生成部により生成された第2のノイズ信号532は、第2の人工ニューラルネットワークに提供され得る。ここで、第1のノイズ信号522及び第2のノイズ信号532はランダムなガウシアンノイズ信号であり、第1のノイズ信号522及び第2のノイズ信号532は互いに異なることができる。
【0054】
一実施例によれば、第1の人工ニューラルネットワーク520は、ランダムノイズ生成部により生成された第1のノイズ信号522、音響特徴前処理部510により生成された正弦波信号514及び有声音/無声音情報516を受信して、入力テキストに対応する音声波形542の調和成分524を生成できる。また、第2の人工ニューラルネットワーク530は、ランダムノイズ生成部により生成された第2のノイズ信号532及び音響特徴前処理部510により生成された有声音/無声音情報516を受信して、入力テキストに対応する音声波形542のノイズ成分534を生成できる。その後、音声波形生成部540は、第1の人工ニューラルネットワークで生成された調和成分524と、第2の人工ニューラルネットワークで生成されたノイズ成分534とを合成して、入力テキストに対応する音声波形542を生成できる。
【0055】
図6は、本開示の一実施例に係るニューラルネットワークボコーダ140の内部構成を示す機能的なブロック図である。図に示すように、ニューラルネットワークボコーダ140は、音響特徴前処理部610、ランダムノイズ生成部620、第1の人工ニューラルネットワーク630、第2の人工ニューラルネットワーク640、フィルタ650、調和性推定器660及び音声波形生成部670を含むことができる。音響特徴前処理部610、ランダムノイズ生成部620、第1の人工ニューラルネットワーク630及び第2の人工ニューラルネットワーク640は、
図4の説明と同一/類似の機能を遂行できる。
【0056】
フィルタ650は、各人工ニューラルネットワーク630、640で生成された調和成分及びノイズ成分の入力により、各々のサブバンド成分を抽出できる。一実施例において、フィルタ650は、第1の人工ニューラルネットワーク630で生成された調和成分の入力により複数のサブバンド調和成分を抽出する第1のフィルタと、第2の人工ニューラルネットワーク640で生成されたノイズ成分の入力により複数のサブバンドノイズ成分を抽出する第2のフィルタとを含むことができる。ここで、フィルタ650は、複数のシンク関数(sinc function)に基づいたバンドパスフィルタ(Band Pass Filter)を称することができる。また、第1のフィルタ及び第2のフィルタは各々複数のフィルタを含むことができる。例えば、第1のフィルタ及び第2のフィルタは、各々N個のフィルタを含むことができ、各々のフィルタを介してN個のサブバンド調和成分及びN個のサブバンドノイズ成分を抽出できる。具体的に、サブバンド調和成分及びサブバンドノイズ成分は、次の数3の式によって算出できる。
【0057】
【数3】
ここで、
【数4】
は畳み込み(convolution)演算、x
h,iはi番目のサブバンド調和成分(または波形)、x
n,iはi番目のサブバンドノイズ成分、g
iはi番目のサブバンドBPF(Band Pass Filter)係数を表わす。一実施例において、全バンド信号を複数のサブバンド成分に抽出するために、シンク関数を使用して各BPFをパラメータ化する方式を採択できる。このとき、各BPF係数は、次の数5の式によって算出できる。
【0058】
【数5】
ここで、[f
i,f
i+1]はi番目のサブバンドのカットオフ周波数(cutoff frequencies)を表わし、シンク関数はsinc(x)=sin(x)/xとして定義される。シンク関数は、振幅レスポンス(magnitude response)の矩形パスバンドを有するため、隣接BPF間にエイリアシング効果(aliasing effect)を効果的に最小化できる。さらには、実用的な具現化のために、フィルタ係数は、次の数6の式によってハミングウインドウ(hamming window)を使用して切断(truncated)できる。
【0059】
【数6】
ここで、
【数7】
は切断されたフィルタ係数を表わし、w[k]=0.54-0.46cos(2πk/L)は長さがLであるハミングウインドウを表わす。各BPFのカットオフ周波数は、メルスケール(Mel-scale)により初期化して、学習過程中に最適化できる。代替的に、N個のパスバンドの個数で均一に分かれた固定カットオフ周波数を使用することができる。
【0060】
調和性推定器660は、サブバンド調和成分及びサブバンドノイズ成分間のエネルギー比率(または調和性)を算出できる。調和性は、各サブバンドにおけるサブバンド調和成分及びサブバンドノイズ成分間のエネルギー均衡を調整するために使用されることができる。具体的に、調和性(ai)は、フィルタを介して抽出されたN個のサブバンド調和成分及びN個のサブバンドノイズ成分のうち、i番目のサブバンドの調和成分及びノイズ成分間の推定された最適のエネルギー比率を示す。一実施例において、サブバンド調和性(ai)は、規則基盤分析方法(rule-based analysis method)により推定できるヒューリスティックパラメータ(heuristic parameter)として取扱できる。代替的に、調和性推定器660は、音響特徴からサブバンド調和性(ai)の最適値を推定するために、CNN(Convolutional neural network)ブロックからなることができる。
【0061】
音声波形生成部670は、調和性推定器で算出された複数のサブバンド調和性(ai)に基づいて、複数のサブバンド調和成分及び複数のサブバンドノイズ成分を加重合計することで、入力テキストに対応する音声波形を生成できる。具体的に、音声波形は、次の数8の式によって算出できる。
【0062】
【数8】
ここで、a
iはi番目のサブバンド調和性を表わし、x
h,iはi番目のサブバンド調和成分、x
n,iはi番目のサブバンドノイズ成分を表わす。すなわち、サブバンド調和成分にサブバンド調和性加重値を適用し、サブバンドノイズ成分に1からサブバンド調和性を減算した加重値を適用した後、これを加重合計して、入力テキストに対応する音声波形を算出できる。
【0063】
図7は、本開示の一実施例に係る入力テキストに対応する音声波形772が生成される例を示す図である。図に示すように、音響特徴前処理部710が入力テキストに対応する音響特徴712を受信し、正弦波信号714を生成して第1の人工ニューラルネットワーク720に入力し、有声音/無声音情報716を生成して第1の人工ニューラルネットワーク720及び第2の人工ニューラルネットワーク730に入力することは、前述した
図5と同様である。
【0064】
一実施例によれば、第1の人工ニューラルネットワーク720は、ランダムノイズ生成部により生成された第1のノイズ信号722、音響特徴前処理部710により生成された正弦波信号714及び有声音/無声音情報716を受信して、入力テキストに対応する音声波形772の調和成分724を生成できる。その後、調和成分724は、複数のフィルタ740を介して複数のサブバンド調和成分742として抽出される。例えば、複数のフィルタ740は、N個のシンク関数に基づいたバンドパスフィルタを含むことができる。このとき、調和成分724からN個のサブバンド調和成分742を抽出できる。
【0065】
一実施例によれば、第2の人工ニューラルネットワーク730は、ランダムノイズ生成部により生成された第2のノイズ信号732、音響特徴前処理部710により生成された有声音/無声音情報716を受信して、入力テキストに対応する音声波形772のノイズ成分734を生成できる。その後、生成されたノイズ成分734は、複数のフィルタ750を介して複数のサブバンドノイズ成分752として抽出される。
【0066】
一実施例によれば、調和性推定器760は、複数のサブバンド調和成分及び複数のサブバンドノイズ成分間のエネルギー比率(または調和性)を算出/予測できる。例えば、i番目のサブバンド調和成分及びi番目のサブバンドノイズ成分間のサブバンド調和性762はaiで表わす。その後、音声波形生成部770は、サブバンド調和性762に基づいてサブバンド調和成分742及びサブバンドノイズ成分752を加重合計して、入力テキストに対応する音声波形772を生成できる。
【0067】
図8は、本開示の一実施例に係る全バンドニューラルネットワークボコーダ及びマルチバンド(multi-band)ニューラルネットワークボコーダにより生成された調和成分及びノイズ成分のスペクトログラム(spectrogram)の例を示す図である。第1のスペクトログラム810及び第2のスペクトログラム820は、全バンドニューラルネットワークボコーダの第1の人工ニューラルネットワーク(例えば、
図4の430及び
図5の520)と、第2の人工ニューラルネットワーク(例えば、
図4の440及び
図5の530)とで生成された調和成分及びノイズ成分のスペクトログラムを各々示す。また、第3のスペクトログラム830及び第4のスペクトログラム840は、マルチバンドニューラルネットワークボコーダの第1の人工ニューラルネットワーク(例えば、
図6の630及び
図7の720)で生成された調和成分と、第2の人工ニューラルネットワーク(例えば、
図6の640及び
図7の730)で生成されたノイズ成分とのスペクトログラムを各々示す。図に示すように、マルチバンドニューラルネットワークボコーダにより生成された調和成分及びノイズ成分は、全バンドニューラルネットワークボコーダにより生成された調和成分及びノイズ成分と比較して、明確に相関関係がない(decorrelated)。これは、マルチバンド方式が学習過程中に所望の成分を学習するように、第1の人工ニューラルネットワーク及び第2の人工ニューラルネットワークをより効率的に誘導したことを示す。
【0068】
図4乃至
図7を参照して説明した本開示のニューラルネットワークボコーダのそのままの知覚品質(perceptual quality)に関する評価のために、分析/合成シナリオのMOSリスニングテストをテストデータセットとして使用して評価を進行した。テストに使用された音声サンプルは、GT音響特徴(ground-truth acoustic features)を利用してニューラルネットワークボコーダにより生成した。その後、20名のネイティブ韓国人の聴取者に対し、テストセットのうちで無作為に選択した15個の合成発話を提供して、5つのMOS応答(1=悪さ、2=不良、3=適正、4=良好、6=優秀)の一つを選択して評価するようにした。次の表1は、MOSテスト結果を要約したものを表わす。
【0069】
【0070】
HN-PWG(Harmonic-plus-Noise Parallel WaveGAN)(S4)及びMulti-band HN-PWG(S5)は、全部モデルの複雑度を維持しながら、既存のPWGモデル(S2)よりも非常に良い知覚品質を示すことを確認できる。特に、Multi-band HN-PWG(S5)は、一般のPWG(S2)よりも23%高い4.29MOSを達成した。HN-PWGの品質は、第1の人工ニューラルネットワーク(harmonic WaveNet)に追加的なノイズソースを使用して改善されることを確認できる(S2とS4の比較)。また、Multi-band HN-PWG(S5)がHN-PWG(S4)よりも高い品質を提供することを確認できる(S4とS5の比較)。これは、本開示のMulti-bandの接近がHN-PWGの品質改善に役立つことを示す。Multi-band HN-PWGの品質は、ベースラインである自己回帰(AR、autoregressive)WaveNetよりも一層良い品質を提供することを確認できる(S1とS5の比較)。
【0071】
次の表2は、生成された音声サンプルの品質を評価するためのMOSテストの遂行結果を表わす。
【0072】
【0073】
TTSシナリオにおいて、ノイズが含まれていないHN-PWG(S-T3)は、ノイズが含まれているシステム(S-T4)に比べて、顕著に低下された品質を提供する。入力音響特徴に予測エラーが含まれても、HN-PWGは相変らず一般のPWGに比べて優れた品質を示す(S-T2、S-T4及びS-T5の比較)。最後に、TTSフレームワーク内のMulti-band HN-PWGは、4.03MOSを達成して、一般のPWGよりも13%高い数値を示す(S-T2とS-T5の比較)。
【0074】
図9は、本開示の一実施例に係る非自己回帰音声合成方法900を示すフローチャートである。一実施例において、非自己回帰音声合成方法900は、プロセッサ(例えば、情報処理システム又はユーザ端末の少なくとも一つのプロセッサ)により遂行できる。図に示すように、非自己回帰音声合成方法900は、プロセッサが入力テキストに対応する音響特徴を受信することにより開始することができる(S910)。
【0075】
その後、プロセッサは、第1の人工ニューラルネットワークを介して、受信された音響特徴及び第1のノイズ信号に基づいて、入力テキストに対応する音声波形の調和成分を生成できる(S920)。このために、プロセッサは、音響特徴に基づいて正弦波信号を生成し、音響特徴に基づいて有声音/無声音情報を生成できる。そして、プロセッサは、正弦波信号、有声音/無声音情報及び第1のノイズ信号を第1の人工ニューラルネットワークに入力して、入力テキストに対応する音声波形の調和成分を生成できる。ここで、正弦波信号は、音響特徴に含まれたピッチ情報に基づいて生成できる。すなわち、正弦波信号は、瞬間周波数が入力テキストに対応する音声波形の基本周波数を従うように生成できる。また、第1のノイズ信号は、ランダムなガウシアンノイズ信号であり得る。
【0076】
一実施例において、プロセッサは、受信された音響特徴及び第2のノイズ信号に基づいて、入力テキストに対応する音声波形のノイズ成分を生成できる(S930)。具体的に、有声音/無声音情報及び第2のノイズ信号を第2の人工ニューラルネットワークに入力して、入力テキストに対応する音声波形のノイズ成分を生成できる。ここで、第2のノイズ信号は、ランダムなガウシアンノイズ信号であり得る。また、第1のノイズ信号及び第2のノイズ信号は互いに異なることができる。最後に、プロセッサは、調和成分及びノイズ成分を合成して、入力テキストに対応する音声波形を生成できる(S940)。
【0077】
図10は、本開示の一実施例に係るマルチバンド非自己回帰音声合成方法1000を示すフローチャートである。一実施例において、マルチバンド非自己回帰音声合成方法1000は、プロセッサ(例えば、情報処理システムまたはユーザ端末の少なくとも一つのプロセッサ)により遂行できる。図に示すように、マルチバンド非自己回帰音声合成方法1000は、プロセッサが入力テキストに対応する音響特徴を受信することにより開始することができる(S1010)。
【0078】
その後、プロセッサは、第1の人工ニューラルネットワークを介して、受信された音響特徴及び第1のノイズ信号に基づいて、入力テキストに対応する音声波形の調和成分を生成できる(S1020)。また、プロセッサは、第2の人工ニューラルネットワークを介して、受信された音響特徴及び第2のノイズ信号に基づいて、入力テキストに対応する音声波形のノイズ成分を生成できる(S1030)。そして、プロセッサは、音声波形の調和成分から複数のサブバンド調和成分を抽出し(S1040)、音声波形のノイズ成分から複数のサブバンドノイズ成分を抽出できる(S1050)。例えば、プロセッサは、複数のシンク関数に基づいたバンドパスフィルタを利用して、音声波形の調和成分及び音声波形のノイズ成分から複数のサブバンド調和成分及び複数のサブバンドノイズ成分を各々抽出できる。
【0079】
一実施例において、プロセッサは、音響特徴に基づいて複数のサブバンド調和性を推定できる(S1060)。ここで、複数のサブバンド調和性は、複数のサブバンドの各々における調和成分及びノイズ成分間の推定された最適のエネルギー比率を示すことができる。例えば、複数のサブバンド調和性は、埋め込みニューラルネットワークに基づいたモデルに音響特徴を入力して推定されることができる。最後に、プロセッサは、複数のサブバンド調和性に基づいて複数のサブバンド調和成分及び複数のサブバンドノイズ成分を加重合計して、入力テキストに対応する音声波形を生成できる(S1070)。
【0080】
前述した方法は、コンピュータで実行するために、コンピュータ読み取り可能な記録媒体に保存されたコンピュータプログラムとして提供され得る。媒体は、コンピュータで実行可能なプログラムを継続的に保存したり、実行又はダウンロードのために一時保存したりするものであり得る。また、媒体は、単一又は多数のハードウェアが結合された形態の多様な記録手段又は保存手段であり得るが、あるコンピュータシステムに直接接続される媒体に限定されず、ネットワーク上に分散して存在するものであり得る。媒体の例としては、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、CD-ROMやDVDのような光記録媒体、フロプティカルディスク(floptical disk)のような磁気-光媒体(magneto-optical medium)、及び、ROM、RAM、フラッシュメモリなどを含み、プログラム命令語が保存されるように構成されたものが挙げられる。また、他の媒体の例としては、アプリケーションを流通するアプリストアやその他の多様なソフトウェアを供給乃至流通するサイト、サーバなどで管理する記録媒体乃至保存媒体も挙げられる。
【0081】
本開示の方法、動作又は技法は多様な手段により具現化できる。例えば、このような技法は、ハードウェア、ファームウェア、ソフトウェア、若しくはこれらの組合せで具現化できる。本願の開示により説明された多様な例示的な論理的ブロック、モジュール、回路及びアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア、若しくは両方の組合せで具現化できることを、通常の技術者であれば理解できるはずである。ハードウェア及びソフトウェアのこのような相互の代替を明確に説明するために、多様な例示的な構成要素、ブロック、モジュール、回路及びステップが、それらの機能的観点から一般的に前述された。そのような機能が、ハードウェアとして具現化されるか、若しくは、ソフトウェアとして具現化されるかは、特定アプリケーション及び全体システムに付加される設計要求事項によって変化する。通常の技術者は、各々の特定アプリケーションのために多様な方式により説明された機能を具現化することもできるが、そのような具現化は本開示の範囲から逸脱するものと解釈してはならない。
【0082】
ハードウェアの具現化において、技法の遂行に利用されるプロセッシングユニットは、一つ以上のASIC、DSP、デジタル信号処理デバイス(digital signal processing devices DSPD)、プログラム可能な論理デバイス(programmable logic devices PLD)、フィールドプログラム可能なゲートアレイ(field programmable gate arrays FPGA)、プロセッサ、制御器、マイクロ制御器、マイクロプロセッサ、電子デバイス、本開示に説明された機能を遂行するように設計された他の電子ユニット、コンピュータ、若しくはこれらの組合せ内で具現化されることもできる。
【0083】
したがって、本開示により説明された多様な例示的な論理ブロック、モジュール及び回路は、汎用プロセッサ、DSP、ASIC、FPGAや他のプログラム可能な論理デバイス、離散ゲートやトランジスタロジック、離散ハードウェアコンポーネント、若しくは、本願に説明された機能を遂行するように設計されたもの等の任意の組合せで具現化又は遂行されることもできる。汎用プロセッサはマイクロプロセッサであり得るが、代替的に、プロセッサは、任意の従来のプロセッサ、制御器、マイクロ制御器、若しくは状態マシンであり得る。プロセッサは、また、コンピューティングデバイスの組合せ、例えば、DSPとマイクロプロセッサ、複数のマイクロプロセッサ、DSPコアと関連付けられる一つ以上のマイクロプロセッサ、若しくは任意の他の構成の組合せで具現化されることもできる。
【0084】
ファームウェア及び/又はソフトウェアの具現化において、技法は、RAM(random access memory)、ROM(read-only memory)、NVRAM(non-volatile random access memory)、PROM(programmable read-only memory)、EPROM(erasable programmable read-only memory)、EEPROM(electrically erasable PROM)、フラッシュメモリ、CD(compact disc)、磁気又は光学データストレージデバイスなどのようなコンピュータ読み取り可能な媒体上に保存された命令として具現化できる。命令は、一つ以上のプロセッサによって実行可能であり得、プロセッサが本開示に説明された機能の特定様態を遂行するようにできる。
【0085】
ソフトウェアとして具現化される場合、前記技法は、一つ以上の命令又はコードとしてコンピュータ読み取り可能な媒体上に保存されたり、コンピュータ読み取り可能な媒体を介して転送されたりできる。コンピュータ読み取り可能な媒体は、ある場所から他の場所にコンピュータプログラムの転送を容易にする任意の媒体を含み、コンピュータ保存媒体及び通信媒体の両方を含む。保存媒体は、コンピュータによってアクセスできる任意の利用可能な媒体であり得る。非制限的な例として、このようなコンピュータ読み取り可能な媒体は、RAM、ROM、EEPROM、CD-ROMや他の光学ディスクストレージ、磁気ディスクストレージや他の磁気ストレージデバイス、若しくは、所望のプログラムコードを命令又はデータ構造の形態に移送又は保存するために使用されることができ、コンピュータによってアクセスできる任意の他の媒体を含むことができる。また、任意の接続がコンピュータ読み取り可能な媒体として適切に称することができる。
【0086】
例えば、ソフトウェアが同軸ケーブル、光ファイバーケーブル、鉛線、デジタル加入者回線(DSL)、又は、赤外線、無線及びマイクロ波のような無線技術を用いて、ウェブサイト、サーバ又は他の遠隔ソースから転送される場合、同軸ケーブル、光ファイバーケーブル、鉛線、デジタル加入者回線、又は、赤外線、無線及びマイクロ波などのような無線技術は、媒体の定義内に含まれる。本願で使用されたディスク(disk)及びディスク(disc)は、CD、レーザーディスク、光ディスク、DVD(digital versatile disc)、フロッピーディスク及びブルーレイディスクを含み、ここで、通常、ディスク(disk)は磁気的にデータを再生するのに対し、ディスク(disc)はレーザーを用いて光学的にデータを再生する。前記組合せ等も、コンピュータ読み取り可能な媒体等の範囲内に含まれなければならない。
【0087】
ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、移動式ディスク、CD-ROM、又は、公知された任意の異なる形態の保存媒体内に常駐することもできる。例示的な保存媒体は、プロセッサが保存媒体から情報を読み取る、或いは、保存媒体に情報を書き込むように、プロセッサに連結することができる。代替的に、保存媒体はプロセッサに統合されることもできる。プロセッサ及び保存媒体はASIC内に存在することもできる。ASICはユーザ端末内に存在することもできる。代替的に、プロセッサ及び保存媒体はユーザ端末で個別構成要素として存在することもできる。
【0088】
以上で説明された実施例が一つ以上の独立型コンピュータシステムで現在開示された主題の態様を活用するものとして記述しているが、本開示はこれに限定されず、ネットワークや分散コンピューティング環境のような任意のコンピューティング環境によって具現化できる。さらには、本開示における主題の様相は、複数のプロセッシングチップや装置で具現化することもでき、ストレージは、複数の装置に亘って同様に影響を受ける場合もある。このような装置は、PC、ネットワークサーバ及び携帯用装置を含むこともできる。
【0089】
本明細書では、本開示が一部の実施例によって説明されたが、本開示の発明が属する技術分野における通常の技術者が理解し得る本開示から逸脱しない範囲内で多様な変形や変更が可能である。また、そのような変形や変更は、本明細書に添付された特許請求の範囲内に属するものと理解されるべきである。
【符号の説明】
【0090】
110 入力テキスト
120 音響特徴抽出モデル
130 音響特徴
140 ニューラルネットワークボコーダ
150 音声波形