特開2023-35921 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ネイバー　コーポレーションの特許一覧 ▶ ＬＩＮＥ株式会社の特許一覧

特開2023-35921非自己回帰音声合成方法及びシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023035921

(43)【公開日】2023-03-13

(54)【発明の名称】非自己回帰音声合成方法及びシステム

(51)【国際特許分類】

G10L 13/08 20130101AFI20230306BHJP

【ＦＩ】

G10L13/08 150B

【審査請求】有

【請求項の数】13

【出願形態】ＯＬ

(21)【出願番号】P 2022131711

(22)【出願日】2022-08-22

(31)【優先権主張番号】10-2021-0115859

(32)【優先日】2021-08-31

(33)【優先権主張国・地域又は機関】KR

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＢＬＵＥＴＯＯＴＨ

２．ＺＩＧＢＥＥ

(71)【出願人】

【識別番号】505205812

【氏名又は名称】ネイバーコーポレーション

【氏名又は名称原語表記】ＮＡＶＥＲＣｏｒｐｏｒａｔｉｏｎ

(71)【出願人】

【識別番号】321003371

【氏名又は名称】ＬＩＮＥ株式会社

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】ファンミンジェ

(72)【発明者】

【氏名】山本龍一

(72)【発明者】

【氏名】ソンウンウ

(57)【要約】（修正有）

【課題】入力テキストに対応する音声波形を迅速に生成し、高品質の合成音声を得る非自己回帰音声合成方法及びシステムを提供する。
【解決手段】非自己回帰音声合成方法は、第１の人工ニューラルネットワークが、入力テキストに対応する音響特徴及び第１のノイズ信号を受信するステップと、受信した音響特徴及び第１のノイズ信号に基づいて、入力テキストに対応する音声波形の調和成分を生成するステップと、第２のニューラルネットワークが、受信した音響特徴及び第２のノイズ信号に基づいて、入力テキストに対応する音声波形のノイズ成分を生成するステップと、調和成分及びノイズ成分を合成して、入力テキストに対応する音声波形を生成するステップと、を含む。
【選択図】図５

【特許請求の範囲】

【請求項1】

少なくとも一つのプロセッサにより遂行される、非自己回帰音声合成方法であって、
入力テキストに対応する音響特徴を受信するステップと、
前記受信された音響特徴及び第１のノイズ信号に基づいて、前記入力テキストに対応する音声波形の調和成分を生成するステップと、
前記受信された音響特徴及び第２のノイズ信号に基づいて、前記入力テキストに対応する音声波形のノイズ成分を生成するステップと、
前記調和成分及び前記ノイズ成分を合成して、前記入力テキストに対応する音声波形を生成するステップとを含む、非自己回帰音声合成方法。

【請求項2】

前記音声波形の調和成分を生成するステップは、
前記音響特徴に基づいて正弦波信号を生成するステップと、
前記音響特徴に基づいて有声音／無声音情報を生成するステップと、
前記正弦波信号、前記有声音／無声音情報及び前記第１のノイズ信号を第１の人工ニューラルネットワークに入力して、前記入力テキストに対応する音声波形の調和成分を生成するステップとを含む、請求項１に記載の非自己回帰音声合成方法。

【請求項3】

前記正弦波信号は、前記音響特徴に含まれたピッチ情報に基づいて生成される、請求項２に記載の非自己回帰音声合成方法。

【請求項4】

前記正弦波信号は、瞬間周波数が前記入力テキストに対応する音声波形の基本周波数を従うように生成される、請求項２に記載の非自己回帰音声合成方法。

【請求項5】

前記音声波形のノイズ成分を生成するステップは、
前記音響特徴に基づいて有声音／無声音情報を生成するステップと、
前記有声音／無声音情報及び前記第２のノイズ信号を第２の人工ニューラルネットワークに入力して、前記入力テキストに対応する音声波形のノイズ成分を生成するステップとを含む、請求項１に記載の非自己回帰音声合成方法。

【請求項6】

前記第１のノイズ信号及び前記第２のノイズ信号はランダムなガウシアンノイズ信号であり、前記第１のノイズ信号及び前記第２のノイズ信号は互いに異なる、請求項１に記載の非自己回帰音声合成方法。

【請求項7】

前記入力テキストに対応する音声波形を生成するステップは、
前記音声波形の調和成分から複数のサブバンド調和成分を抽出するステップと、
前記音声波形のノイズ成分から複数のサブバンドノイズ成分を抽出するステップとを含む、請求項１に記載の非自己回帰音声合成方法。

【請求項8】

複数のシンク関数に基づいたバンドパスフィルタを利用して、前記音声波形の調和成分及び前記音声波形のノイズ成分から複数のサブバンド調和成分及び複数のサブバンドノイズ成分を各々抽出する、請求項７に記載の非自己回帰音声合成方法。

【請求項9】

前記入力テキストに対応する音声波形を生成するステップは、
前記音響特徴に基づいて、複数のサブバンド調和性を推定するステップと、
前記複数のサブバンド調和性に基づいて、前記複数のサブバンド調和成分及び前記複数のサブバンドノイズ成分を加重合計するステップとをさらに含む、請求項７に記載の非自己回帰音声合成方法。

【請求項10】

前記複数のサブバンド調和性は、複数のサブバンドの各々における調和成分及びノイズ成分間の推定された最適のエネルギー比率を示す、請求項９に記載の非自己回帰音声合成方法。

【請求項11】

前記複数のサブバンド調和性は、埋め込みニューラルネットワークに基づいたモデルに前記音響特徴を入力して推定される、請求項１０に記載の非自己回帰音声合成方法。

【請求項12】

請求項１乃至１１のいずれか一項に記載の非自己回帰音声合成方法をコンピュータに実行させるコンピュータプログラム。

【請求項13】

非自己回帰音声合成システムであって、
メモリと、
前記メモリと連結され、前記メモリに含まれたコンピュータ読み取り可能な少なくとも一つのプログラムを実行するように構成された少なくとも一つのプロセッサとを含み、
前記少なくとも一つのプログラムは、
入力テキストに対応する音響特徴を受信し、
前記受信された音響特徴及び第１のノイズ信号に基づいて、前記入力テキストに対応する音声波形の調和成分を生成し、
前記受信された音響特徴及び第２のノイズ信号に基づいて、前記入力テキストに対応する音声波形のノイズ成分を生成し、
前記調和成分及び前記ノイズ成分を合成して、前記入力テキストに対応する音声波形を生成するための命令語を含む、非自己回帰音声合成システム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、非自己回帰（non-autoregressive）音声合成方法及びシステムに関し、具体的には、非自己回帰ニューラルネットワークボコーダ（neural network vocoder）を用いて音声信号を合成する非自己回帰音声合成方法及びシステムに関する。

【背景技術】

【0002】

一般に、テキスト－音声変換（Text-To-Speech、TTS）システムは、案内放送やナビゲーションや人工知能アシスタントなどのような人の音声が必要なアプリケーションにおいて、実際の人の音声を予め録音しておくことなく、必要な音声を再生するために使用される。このために、任意のテキストをＴＴＳシステムに入力して音声信号を合成して出力する。最近は、人工ニューラルネットワークを用いたエンドツーエンド（end-to-end）音声変換システムが多く紹介されている。

【0003】

このようなエンドツーエンド音声変換システムは、自己回帰方式を使用するシステムと、非自己回帰方式を使用するシステムとに区分される。自己回帰方式は、合成音声の品質は高いが、音声変換速度が非常に遅いという問題点がある。これに対し、非自己回帰方式は、音声変換速度は速いが、不安で音声の品質が低いという問題点がある。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】韓国公開特許公報第１０－２０００－００３０９０６号

【発明の概要】

【発明が解決しようとする課題】

【0005】

前記問題点を解決するために、本開示の多様な実施例は、非自己回帰音声合成方法、記録媒体に保存されたコンピュータプログラム及び装置（システム）を提供する。

【課題を解決するための手段】

【0006】

本開示は、方法、装置（システム）又はコンピュータ読取り可能な保存媒体に保存されたコンピュータプログラムを含む多様な方式により具現化できる。

【0007】

本開示の一実施例によれば、少なくとも一つのプロセッサにより遂行される、非自己回帰音声合成方法が提供される。非自己回帰音声合成方法は、入力テキストに対応する音響特徴（acoustic features）を受信するステップと、受信された音響特徴及び第１のノイズ信号に基づいて、入力テキストに対応する音声波形の調和成分（harmonic component）を生成するステップと、受信された音響特徴及び第２のノイズ信号に基づいて、入力テキストに対応する音声波形のノイズ成分（noise component）を生成するステップと、調和成分及びノイズ成分を合成して、入力テキストに対応する音声波形を生成するステップとを含む。

【0008】

本開示の一実施例によれば、非自己回帰音声合成方法をコンピュータで実行するために、コンピュータ読み取り可能な記録媒体に保存されたコンピュータプログラムが提供される。

【0009】

本開示の一実施例によれば、非自己回帰音声合成システムが提供される。非自己回帰音声合成システムは、メモリと、メモリと連結され、メモリに含まれたコンピュータ読み取り可能な少なくとも一つのプログラムを実行するように構成された少なくとも一つのプロセッサとを含む。少なくとも一つのプログラムは、入力テキストに対応する音響特徴を受信し、受信された音響特徴及び第１のノイズ信号に基づいて、入力テキストに対応する音声波形の調和成分を生成し、受信された音響特徴及び第２のノイズ信号に基づいて、入力テキストに対応する音声波形のノイズ成分を生成し、調和成分及びノイズ成分を合成して、入力テキストに対応する音声波形を生成するための命令語を含む。

【発明の効果】

【0010】

本開示の多様な実施例によれば、一つの人工ニューラルネットワークは、ノイズ信号及びピッチ（pitch）依存正弦波信号を受信し、もう一つの人工ニューラルネットワークは、ノイズ信号を受信して調和成分及びノイズ成分を生成／合成することで、入力テキストに対応する音声波形を迅速に生成し、高品質の合成音声を提供することができる。

【0011】

本開示の多様な実施例によれば、音声信号の調和成分及びノイズ成分が、個別の人工ニューラルネットワークにより別途にモデリングされることで、安定的な合成音声を提供することができる。

【0012】

本開示の多様な実施例によれば、人工ニューラルネットワークを介して生成された調和成分及びノイズ成分を各々のサブバンド（sub-band）成分として抽出し、サブバンド調和性（harmonicity）に基づいて加重合計して、入力テキストに対応する音声波形を生成することで、高品質の合成音声を提供することができる。

【0013】

本開示の効果は、これに制限されず、言及されない他の効果等は、請求範囲の記載から本開示が属する技術分野における通常の知識を有した者（“通常の技術者”という）に明確に理解されるべきである。

【図面の簡単な説明】

【0014】

【図1】本開示の一実施例に係るＴＴＳシステムが入力テキストに対応する音声波形を生成する例を示す図である。

【図2】本開示の一実施例に係る入力テキストに対応する音声を非自己回帰に基づいて合成するために、情報処理システムが複数のユーザ端末と通信可能であるように連結された構成を示す概要図である。

【図3】本開示の一実施例に係るユーザ端末及び情報処理システムの内部構成を示すブロック図である。

【図4】本開示の一実施例に係るニューラルネットワークボコーダの内部構成を示す機能的なブロック図である。

【図5】本開示の一実施例に係る入力テキストに対応する音声波形が生成される例を示す図である。

【図6】本開示の一実施例に係るニューラルネットワークボコーダの内部構成を示す機能的なブロック図である。

【図7】本開示の一実施例に係る入力テキストに対応する音声波形が生成される例を示す図である。

【図8】本開示の一実施例に係る全バンドニューラルネットワークボコーダ及びマルチバンドニューラルネットワークボコーダにより生成された調和成分及びノイズ成分のスペクトログラムの例を示す図である。

【図9】本開示の一実施例に係る非自己回帰音声合成方法を示すフローチャートである。

【図10】本開示の一実施例に係るマルチバンド非自己回帰音声合成方法を示すフローチャートである。

【発明を実施するための形態】

【0015】

以下、本開示の実施のための具体的な内容を添付図面に基づいて詳細に説明する。ただし、以下の説明では、本開示の要旨を不要に不明瞭にする恐れがある場合、公知の機能や構成に関する具体的な説明は省略する。

【0016】

添付図面において、同一又は対応する構成要素には同一の参照符号が付与される。また、以下の実施例の説明において、同一又は対応する構成要素の重複記述は省略され得る。しかしながら、構成要素に関する記述が省略されても、そのような構成要素が、ある実施例に含まれないものと意図してはならない。

【0017】

開示の実施例の利点及び特徴、そしてそれらを達成する方法は、添付図面に基づいて後述する実施例を参照すれば明確になる。しかしながら、本開示は、以下で開示される実施例に限定されず、互いに異なる多様な形態で具現化され得る。但し、本実施例は、本開示が完全になるようにし、本開示が通常の技術者に発明のカテゴリを正確に認識させるために提供されるだけである。

【0018】

本明細書で使用される用語について簡略に説明し、開示の実施例について具体的に説明する。本明細書で使用される用語は、本開示での機能を考慮しつつ、可能な限り現在広く使用される一般的な用語を選択したが、これは関連分野に従事する技術者の意図又は判例、新技術の出現などにより変化し得る。また、特定の場合は出願人が任意で選定した用語もあり得るが、これらの意味は当該発明の説明の部分において詳細に記載する。よって、本開示で使用される用語は、単純な用語の名称ではなく、その用語が有する意味と本開示の全般にわたった内容に基づいて定義されるべきである。

【0019】

本明細書では、文脈上において明確に特定しない限り、単数の表現は複数の表現を含み、複数の表現は単数の表現を含むことができる。明細書の全般に渡り、ある部分がある構成要素を「含む」とする際、これは特に反対の記載がない限り、他の構成要素を除くものではなく、他の構成要素をさらに含むこともできることを意味する。

【0020】

また、明細書で使用される「モジュール」又は「部（ユニット）」という用語は、ソフトウェアやハードウェア構成要素を意味し、「モジュール」又は「部」はある役割を遂行する。しかしながら、「モジュール」又は「部」はソフトウェアやハードウェアに限定される意味ではない。「モジュール」又は「部」は、アドレッシング可能な保存媒体にあるように構成してもよく、一つ又はそれ以上のプロセッサを再生させるように構成してもよい。したがって、一例として、「モジュール」又は「部」は、ソフトウェア構成要素、オブジェクト指向ソフトウェア構成要素、クラス構成要素、タスク構成要素のような構成要素、並びに、プロセス、関数、属性、プロシージャ、サブルーチン、プログラムコードのセグメント、ドライバー、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイ又は変数のうちで少なくとも一つを含むことができる。構成要素と「モジュール」又は「部」は、内部で提供される機能はさらに小さい数の構成要素及び「モジュール」又は「部」で結合されたり、追加的な構成要素と「モジュール」又は「部」にさらに分離されたりできる。

【0021】

本開示の一実施例によれば、「モジュール」又は「部」はプロセッサ及びメモリで具現化され得る。「プロセッサ」は汎用プロセッサ、中央処理装置（ＣＰＵ）、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、制御器、マイクロ制御器、状態マシンなどを含むように広く解釈されるべきである。いくつかの環境では、「プロセッサ」は特定用途向け半導体（ＡＳＩＣ）、プログラム可能なロジックデバイス（ＰＬＤ）、フィールドプログラム可能なゲートアレイ（ＦＰＧＡ）等を称することもできる。「プロセッサ」は、例えば、ＤＳＰとマイクロプロセッサの組合せ、複数のマイクロプロセッサの組合せ、ＤＳＰコアと結合した一つ以上のマイクロプロセッサの組合せ、若しくは、任意の他のそのような構成等の組合せのような処理デバイスの組合せを称することもできる。また、「メモリ」は電子情報を保存可能な任意の電子コンポーネントを含むように広く解釈されるべきである。「メモリ」は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、ＮＶＲＡＭ（Non-Volatile Random Access Memory）、ＰＲＯＭ（Programmable Read-Only Memory）、ＥＰＲＯＭ（Erasable Programmable Read-Only Memory）、ＥＥＰＲＯＭ（Electrically Erasable Programmable Reda-Only Memory）、フラッシュメモリ、磁気又は光学データ保存装置、レジスタなどのようなプロセッサ－読み取り可能な媒体の多様な類型を称することもできる。プロセッサがメモリから情報を読み取り／読み取ったりメモリに情報を記録できる場合、メモリはプロセッサと電子通信状態にあると言われる。プロセッサに集積されたメモリはプロセッサと電子通信状態にある。

【0022】

本開示において、「システム」は、サーバ装置及びクラウド装置の少なくとも一つを含むことができるが、これに限定されるものではない。例えば、システムは、一つ以上のサーバ装置からなることができる。他の例として、システムは、一つ以上のクラウド装置からなることができる。また他の例として、システムは、サーバ装置及びクラウド装置の全部からなって動作されることもできる。

【0023】

図１は、本開示の一実施例に係るＴＴＳ（Text-To-Speech）システムが入力テキスト１１０に対応する音声波形１５０を生成する例を示す図である。図に示すように、ＴＴＳシステムは、音響特徴抽出モデル１２０及びニューラルネットワークボコーダ１４０を含むことができる。代替的に、ＴＴＳシステムは、音響特徴抽出モデル１２０を含まず、別途のシステムが生成した音響特徴１３０を受信できる。

【0024】

一実施例によれば、音響特徴抽出モデル１２０は、入力テキスト１１０の入力により、入力テキスト１１０に対応する音響特徴１３０を抽出できる。音響特徴抽出モデル１２０は、入力テキストに基づいてスピーチの音響特徴を生成するように構成されたモデルであり得る。音響特徴１３０を抽出するために、音響特徴抽出モデル１２０は、入力テキスト１１０から言語特徴（linguistic features）を抽出して、ＬＳＴＭ（a long short-term memory）に基づいた期間予測器により各音素の持続時間を推定できる。その後、音響特徴抽出モデル１２０は、推定された音素の持続時間に基づいて音素水準の言語特徴をフレーム水準にアップサンプリング（upsampling）し、アップサンプリングした言語特徴に基づいて入力テキスト１１０に対応する音響特徴１３０を予測できる。ここで、音響特徴１３０は、メルスペクトル（Mel spectrum）、ピッチ情報、エネルギー情報、有声音／無声音（voice/unvoice又はV/UV）情報を含むボイシング情報（voicing information又はvoicing flag）などを含むことができる。

【0025】

一実施例によれば、ニューラルネットワークボコーダ１４０は、受信された音響特徴１３０に基づいて入力テキスト１１０に対応する音声波形１５０を生成できる。生成された音声波形１５０はユーザ又はユーザ端末に提供できる。ニューラルネットワークボコーダ１４０は、より高品質の音声波形１５０を生成するために、入力テキストに対応する音声波形の調和成分を生成する第１の人工ニューラルネットワークと、入力テキストに対応する音声波形のノイズ成分を生成する第２の人工ニューラルネットワークとを含むことができる。ここで、第１の人工ニューラルネットワークは、音声波形の調和成分を生成するためにピッチ依存正弦波信号を受信し、第２の人工ニューラルネットワークは、音声波形のノイズ成分を生成するためにガウシアンノイズ信号を受信できる。その後、ニューラルネットワークボコーダ１４０は、第１の人工ニューラルネットワークを介して生成された調和成分と、第２の人工ニューラルネットワークを介して生成されたノイズ成分とを合成して、出力音声波形を生成できる。

【0026】

一実施例において、音声波形１５０の品質をより向上させるために、ニューラルネットワークボコーダ１４０は、第１の人工ニューラルネットワークが生成した音声波形の調和成分から複数のサブバンド調和成分を抽出できる。同様に、ニューラルネットワークボコーダ１４０は、第２の人工ニューラルネットワークが生成した音声波形のノイズ成分から複数のサブバンドノイズ成分を抽出できる。さらに、ニューラルネットワークボコーダ１４０は、複数のサブバンドの各々における調和成分及びノイズ成分間の最適のエネルギー比率を示す複数のサブバンド調和性を推定できる。推定された複数のサブバンド調和性に基づいて、ニューラルネットワークボコーダ１４０は、複数のサブバンド調和成分及び複数のサブバンドノイズ成分を加重合計して、音声波形１５０を生成できる。

【0027】

このような構成により、入力テキスト１１０に対応する音声波形１５０を迅速に生成しながら、品質の低下を防止することで、高品質の音声を合成することが可能である。

【0028】

図２は、本開示の一実施例に係る入力テキストに対応する音声を非自己回帰に基づいて合成するために、情報処理システム２３０が複数のユーザ端末２１０＿１、２１０＿２、２１０＿３と通信可能であるように連結された構成を示す概要図である。情報処理システム２３０は、ネットワーク２２０を介して、複数のユーザ端末２１０＿１、２１０＿２、２１０＿３に、入力テキストに対応する音声合成サービスが提供されるシステムを含むことができる。一実施例において、情報処理システム２３０は、テキスト－音声変換（ＴＴＳ）サービスと関連付けられたコンピュータ実行可能なプログラム（例えば、ダウンロード可能なアプリケーション）や、データの保存、提供及び実行できる一つ以上のサーバ装置及び／又はデータベースや、クラウドコンピューティング（cloud computing）サービス基盤の一つ以上の分散コンピュータ装置及び／又は分散データベースを含むことができる。情報処理システム２３０により提供されるテキスト－音声変換サービスは、複数のユーザ端末２１０＿１、２１０＿２、２１０＿３の各々に設置されたテキスト－音声変換アプリケーションやウェブブラウザなどを介してユーザに提供できる。

【0029】

複数のユーザ端末２１０＿１、２１０＿２、２１０＿３は、ネットワーク２２０を介して情報処理システム２３０と通信できる。ネットワーク２２０は、複数のユーザ端末２１０＿１、２１０＿２、２１０＿３及び情報処理システム２３０間の通信が可能であるように構成できる。ネットワーク２２０は、設置環境に応じて、例えば、イーサネット（Ethernet）、ＰＬＣ（Power Line Communication）、電話線通信装置及びＲＳ－ｓｅｒｉａｌ通信などのような有線ネットワーク、移動通信網、ＷＬＡＮ（Wireless LAN）、Ｗｉ－Ｆｉ、Ｂｌｕｅｔｏｏｔｈ及びＺｉｇＢｅｅなどのような無線ネットワーク又はその組合せからなることができる。通信方式は制限されず、ネットワーク２２０を含むことができる通信網（例えば、移動通信網、有線インターネット、無線インターネット、放送網、衛星網等）を活用する通信方式だけでなく、ユーザ端末２１０＿１、２１０＿２、２１０＿３間の近距離無線通信も含まれる。例えば、ネットワーク２２０は、ＰＡＮ（personal area network）、ＬＡＮ（local area network）、ＣＡＮ（campus area network）、ＭＡＮ（metropolitan area network）、ＷＡＮ（wide area network）、ＢＢＮ（broad band network）、インターネットなどのネットワークの一つ以上の任意のネットワークを含むことができる。また、ネットワーク２２０は、バス型ネットワーク、スター型ネットワーク、リング型ネットワーク、メッシュ型ネットワーク、スター－バス型ネットワーク、ツリまたは階層（hierarchical）ネットワークなどを含むネットワークトポロジーの任意の一つ以上を含むことができるが、これに制限されるものではない。

【0030】

図２では、携帯電話端末２１０＿１、タブレット端末２１０＿２及びＰＣ端末２１０＿３をユーザ端末の例として示したが、これに限定されず、ユーザ端末２１０＿１、２１０＿２、２１０＿３は、有線及び／又は無線通信が可能であり、テキスト－音声変換アプリケーションが設置されて実行できる任意のコンピューティング装置であり得る。例えば、ユーザ端末は、スマートフォン、携帯電話、ナビゲーション、デスクトップコンピュータ、ラップトップコンピュータ、デジタル放送用端末、ＰＤＡ（Personal Digital Assistants）、ＰＭＰ（Portable Multimedia Player）、タブレットＰＣ、ゲームコンソール（game console）、ウェアラブルデバイス（wearable device）、ＩｏＴ（internet of things）デバイス、ＶＲ（virtual reality）デバイス、ＡＲ（augmented reality）デバイスなどを含むことができる。また、図２では、３つのユーザ端末２１０＿１、２１０＿２、２１０＿３がネットワーク２２０を介して情報処理システム２３０と通信するものと示したが、これに限定されず、異なる数のユーザ端末がネットワーク２２０を介して情報処理システム２３０と通信するように構成されることもできる。

【0031】

情報処理システム２３０は、テキスト－音声変換アプリケーションが動作するユーザ端末２１０＿１、２１０＿２、２１０＿３から入力されたテキスト又は音声変換要請情報が含まれたテキストを受信できる。入力テキストが受信される場合、情報処理システム２３０は、入力されたテキストに対応する音声波形を生成できる。その後、情報処理システム２３０は、生成された音声波形をユーザ端末２１０＿１、２１０＿２、２１０＿３に提供できる。図２にはユーザ端末２１０＿１、２１０＿２、２１０＿３が情報処理システム２３０から入力テキストに対応する音声波形を受信するものと示したが、これに限定されず、ユーザ端末２１０＿１、２１０＿２、２１０＿３が入力テキストを受信し、入力テキストに対応する音声波形を生成するように構成されることもできる。

【0032】

図３は、本開示の一実施例に係るユーザ端末２１０及び情報処理システム２３０の内部構成を示すブロック図である。ユーザ端末２１０は、テキスト－音声変換アプリケーションやウェブブラウザなどが実行可能であり、有／無線通信が可能な任意のコンピュータ装置を称することができ、例えば、図２の携帯電話端末２１０＿１、タブレット端末２１０＿２及びＰＣ端末２１０＿３などを含むことができる。図に示すように、ユーザ端末２１０は、メモリ３１２、プロセッサ３１４、通信モジュール３１６及び入出力インタフェース３１８を含むことができる。これと同様に、情報処理システム２３０は、メモリ３３２、プロセッサ３３４、通信モジュール３３６及び入出力インタフェース３３８を含むことができる。図３に示すように、ユーザ端末２１０及び情報処理システム２３０は、各々の通信モジュール３１６、３３６を用いて、ネットワーク２２０を介して情報及び／又はデータが通信できるように構成できる。また、入出力装置３２０は、入出力インタフェース３１８を介して、ユーザ端末２１０に情報及び／又はデータを入力したり、ユーザ端末２１０から生成された情報及び／又はデータを出力したりするように構成できる。

【0033】

メモリ３１２、３３２は、非一時的な任意のコンピュータ読み取り可能な記録媒体を含むことができる。一実施例によれば、メモリ３１２、３３２は、ＲＡＭ（random access memory）、ＲＯＭ（read only memory）、ディスクドライブ、ＳＳＤ（solid state drive）及びフラッシュメモリ（flash memory）などのような永久的な大容量保存装置（permanent mass storage device）を含むことができる。他の例として、ＲＯＭ、ＳＳＤ、フラッシュメモリ及びディスクドライブなどのような永久的な大容量保存装置は、メモリとは区分される別途の永久保存装置としてユーザ端末２１０又は情報処理システム２３０に含まれることができる。また、メモリ３１２、３３２には、運営体制と少なくとも一つのプログラムコード（例えば、ユーザ端末２１０に設置されて駆動されるテキスト－音声変換アプリケーションなどのためのコード）が保存され得る。

【0034】

このようなソフトウェア構成要素は、メモリ３１２、３３２とは別途のコンピュータ読み取り可能な記録媒体からローディングできる。このような別途のコンピュータ読み取り可能な記録媒体は、このようなユーザ端末２１０及び情報処理システム２３０に直接連結可能な記録媒体を含むことのできるが、例えば、フロッピードライブ、ディスク、テープ、ＤＶＤ／ＣＤ－ＲＯＭドライブ及びメモリカードなどのようなコンピュータ読み取り可能な記録媒体を含むことができる。他の例として、ソフトウェア構成要素等は、コンピュータ読み取り可能な記録媒体でなく、通信モジュールを介してメモリ３１２、３３２にローディングされることもできる。例えば、少なくとも一つのプログラムは、開発者又はアプリケーションの設置ファイルを配信するファイル配信システムが、ネットワーク２２０を介して提供するファイルにより設置されるコンピュータプログラム（例：テキスト－音声変換サービスを提供するアプリケーション）に基づいてメモリ３１２、３３２にローディングされることができる。

【0035】

プロセッサ３１４、３３４は、基本的な算術、ロジック及び入出力演算を遂行することで、コンピュータプログラムの命令を処理するように構成できる。命令は、メモリ３１２、３３２又は通信モジュール３１６、３３６によりプロセッサ３１４、３３４に提供され得る。例えば、プロセッサ３１４、３３４は、メモリ３１２、３３２のような記録装置に保存されたプログラムコードによって受信される命令を実行するように構成できる。

【0036】

通信モジュール３１６、３３６は、ネットワーク２２０を介して、ユーザ端末２１０と情報処理システム２３０とが互いに通信するための構成や機能が提供でき、ユーザ端末２１０及び／又は情報処理システム２３０が、他のユーザ端末又は他のシステム（例えば、別途のクラウドシステムや音響特徴抽出システムなど）と通信するための構成や機能が提供できる。一例として、ユーザ端末２１０のプロセッサ３１４がメモリ３１２などのような記録装置に保存されたプログラムコードによって生成した要請（例えば、テキスト－音声変換要請）は、通信モジュール３１６の制御により、ネットワーク２２０を介して情報処理システム２３０に伝達され得る。反対に、情報処理システム２３０のプロセッサ３３４の制御により提供される制御信号や命令が、通信モジュール３３６及びネットワーク２２０を経て、ユーザ端末２１０の通信モジュール３１６を介してユーザ端末２１０に受信され得る。例えば、ユーザ端末２１０は、情報処理システム２３０から通信モジュール３１６を介して入力テキストに対応する音声波形信号を受信できる。

【0037】

入出力インタフェース３１８は、入出力装置３２０とのインタフェースのための手段であり得る。一例として、入力装置はイメージセンサを含むカメラ、キーボード、マイクロホン、マウスなどのような装置を含み、出力装置はディスプレイ、スピーカ、ハプティック（触覚）フィードバックデバイス（haptic feedback device）などのような装置を含むことができる。他の例として、入出力インタフェース３１８は、タッチスクリーンなどのように入力及び出力を遂行するための構成及び機能が一つで統合された装置とのインタフェースのための手段であり得る。例えば、ユーザ端末２１０のプロセッサ３１４がメモリ３１２にローディングされたコンピュータプログラムの命令を処理する際に、情報処理システム２３０や他のユーザ端末が提供する情報及び／又はデータを用いて構成されるサービス画面が、入出力インタフェース３１８を介してディスプレイに表示され得る。図３では、入出力装置３２０がユーザ端末２１０に含まれないように示したが、これに限定されず、ユーザ端末２１０と一体に構成することもできる。また、情報処理システム２３０の入出力インタフェース３３８は、情報処理システム２３０と連結するか、又は、情報処理システム２３０が含むことのできる入力や出力のための装置（図示せず）とのインタフェースのための手段であり得る。図３では、入出力インタフェース３１８、３３８がプロセッサ３１４、３３４と別途に構成された要素として示したが、これに限定されず、入出力インタフェース３１８、３３８がプロセッサ３１４、３３４に含まれるように構成することもできる。

【0038】

ユーザ端末２１０及び情報処理システム２３０は、図３に示す構成要素よりも多くの構成要素を含むことができる。しかしながら、大部分の従来技術的構成要素を明確に示す必要はない。一実施例によれば、ユーザ端末２１０は、前述した入出力装置３２０の少なくとも一部を含むように具現化できる。また、ユーザ端末２１０は、トランシーバー（transceiver）、ＧＰＳ（Global Positioning system）モジュール、カメラ、各種センサ及びデータベースなどのような他の構成要素をさらに含むことができる。例えば、ユーザ端末２１０がスマートフォンである場合、一般にスマートフォンが有する構成要素を含むことができ、例えば、加速度センサ、ジャイロセンサ、カメラモジュール、各種物理的なボタン、タッチパネルを用いたボタン、入出力ポート及び振動のための振動器などのような多様な構成要素がユーザ端末２１０にさらに含まれるように具現化できる。

【0039】

一実施例によれば、ユーザ端末２１０のプロセッサ３１４は、テキスト－音声変換サービスを提供するテキスト－音声変換アプリケーション又はウェブブラウザアプリケーションなどが動作するように構成できる。このとき、当該アプリケーションと関連付けられたプログラムコードがユーザ端末２１０のメモリ３１２にローディングできる。アプリケーションが動作する際に、ユーザ端末２１０のプロセッサ３１４は、入出力装置３２０から提供された情報及び／又はデータを入出力インタフェース３１８を介して受信したり、通信モジュール３１６を介して情報処理システム２３０から情報及び／又はデータを受信したりでき、受信された情報及び／又はデータを処理してメモ３１２に保存できる。また、このような情報及び／又はデータは、通信モジュール３１６を介して情報処理システム２３０に提供できる。

【0040】

テキスト－音声変換アプリケーションが動作される際に、プロセッサ３１４は、入出力インタフェース３１８と連結されたタッチスクリーンやキーボードなどのような入力装置により入力又は選択されたテキストやイメージなどが受信でき、受信されたテキスト及び／又はイメージをメモリ３１２に保存したり、通信モジュール３１６及びネットワーク２２０を介して情報処理システム２３０に提供したりできる。例えば、プロセッサ３１４は、タッチスクリーンやキーボードなどのような入力装置を介して、合成しようとするテキスト入力やテキスト－音声変換要請などに関する情報などを受信できる。これにより受信された要請及び／又は情報は、通信モジュール３１６及びネットワーク２２０を介して情報処理システム２３０に提供できる。

【0041】

ユーザ端末２１０のプロセッサ３１４は、入出力装置３２０、他のユーザ端末、情報処理システム２３０及び／又は複数の外部システムから受信された情報及び／又はデータを管理、処理及び／又は保存するように構成できる。プロセッサ３１４により処理された情報及び／又はデータは、通信モジュール３１６及びネットワーク２２０を介して情報処理システム２３０に提供できる。ユーザ端末２１０のプロセッサ３１４は、入出力インタフェース３１８を介して、入出力装置３２０に情報及び／又はデータを転送して出力できる。例えば、プロセッサ３１４は、受信した情報及び／又はデータをユーザ端末の画面にディスプレイしたり、スピーカを介して出力したりできる。

【0042】

情報処理システム２３０のプロセッサ３３４は、複数のユーザ端末２１０及び／又は複数の外部システムから受信された情報及び／又はデータを管理、処理及び／又は保存するように構成できる。プロセッサ３３４により処理された情報及び／又はデータは、通信モジュール３３６及びネットワーク２２０を介してユーザ端末２１０に提供できる。図３では、情報処理システム２３０が単一のシステムと示したが、これに限定されず、テキスト－音声変換サービスと関連付けられた多様なサービスを提供するための複数のシステム／サーバからなることができる。例えば、情報処理システム２３０は、音響特徴抽出モデルを含む別途のサーバなどを含むことができる。

【0043】

図４は、本開示の一実施例に係るニューラルネットワークボコーダ１４０の内部構成を示す機能的なブロック図である。図に示すように、ニューラルネットワークボコーダ１４０は、音響特徴前処理部４１０、ランダムノイズ生成部４２０、第１の人工ニューラルネットワーク４３０、第２の人工ニューラルネットワーク４４０及び音声波形生成部４５０を含むことができる。ニューラルネットワークボコーダ１４０は、非自己回帰方式により入力テキストに対応する音声波形を合成するように構成できる。

【0044】

一実施例において、ニューラルネットワークボコーダ１４０の音響特徴前処理部４１０は、入力テキストに対応する音響特徴を受信できる。音響特徴前処理部４１０は、受信した音響特徴に基づいて、正弦波信号及び有声音／無声音情報を生成できる。ここで、正弦波信号は、音響特徴に含まれたピッチ（pitch）情報に基づいて生成されることができる。一実施例によれば、音響特徴前処理部４１０は、正弦波信号の瞬間周波数（instantaneous frequency）がターゲットスピーチ信号（すなわち、入力テキストに対応する音声波形の基本周波数（fundamental frequency））を従うように正弦波信号を生成できる。換言すれば、音響特徴前処理部４１０は、各時間区間の音程(すなわち、ピッチ）を瞬間周波数として有する正弦波を生成できる。具体的に、音響特徴前処理部４１０は、次の数１の式によって正弦波信号を生成できる。

【0045】

【数1】

ここで、ｓ［ｔ］は正弦波信号、ｆ_ｋはｋ番目の時間区間における基本周波数、Ｆ_ｓは入力テキストに対応する音声波形のサンプリングレート、φ∈［－π，π］はランダム初期位相値を表わす。

【0046】

また、音響特徴前処理部４１０は、正弦波信号及びランダムノイズ生成部４２０により生成されたノイズ信号とタイムレゾリューション（time resolution）が一致するように音響特徴に含まれた有声音／無声音情報を、フレーム水準からサンプル水準にアップサンプリングできる。例えば、音響特徴前処理部４１０は、最近傍アップサンプリング（nearest neighbor up-sampling）により、有声音／無声音情報をフレームレベルからサンプルレベルにアップサンプリングできる。音声波形を生成するために有声音／無声音情報を利用することで、各人工ニューラルネットワーク４３０、４４０がボイシング状態（voicing state）を効果的に認識するようにできる。

【0047】

ランダムノイズ生成部４２０はノイズ信号を生成できる。ここで、ノイズ信号はランダムなガウシアンノイズ信号であり得る。また、ランダムノイズ生成部４２０は、異なるランダムなガウシアンノイズ信号を生成して、第１の人工ニューラルネットワーク４３０及び第２の人工ニューラルネットワーク４４０に各々提供できる。異なるランダムなガウシアンノイズ信号を第１の人工ニューラルネットワーク４３０及び第２の人工ニューラルネットワーク４４０の入力に提供することで、音声合成の品質を向上させることができる。

【0048】

第１の人工ニューラルネットワーク４３０は、入力テキストに対応する音響特徴に基づいた正弦波信号、アップサンプリングした有声音／無声音情報及びランダムなノイズ信号の入力により、入力テキストに対応する音声波形の調和成分を生成できる。第２の人工ニューラルネットワーク４４０は、有声音／無声音情報及びランダムなノイズ信号の入力により、入力テキストに対応する音声波形のノイズ成分を生成できる。ここで、調和成分は、音声波形の周期的（periodic）かつ決定論的（deterministic）な成分であり得、ノイズ成分は、音声波形の非周期的 (aperiodic)かつ確率論的（stochastic）な成分であり得る。一実施例において、第１の人工ニューラルネットワーク４３０及び第２の人工ニューラルネットワーク４４０は、条件付き音響パラメータに基づいて時間ドメインの音声波形を生成する非自己回帰ニューラルネットワークモデルであり得る。

【0049】

音声波形生成部４５０は、第１の人工ニューラルネットワークにより生成された調和成分と、第２の人工ニューラルネットワークにより生成されたノイズ成分とを合成して、入力テキストに対応する音声波形を生成できる。生成された音声波形は、入力テキストに対応する音声信号としてユーザ端末に転送できる。調和成分及びノイズ成分を合成して生成された音声波形は、次の数２の式によって算出できる。

【0050】

【数2】

ここで、Ｘは生成された音声波形、Ｘ_ｈは音声波形の調和成分、Ｘ_ｎは音声波形のノイズ成分を表わす。すなわち、ニューラルネットワークボコーダ１４０は、音声波形生成部４５０により、音声波形の全体周波数範囲の調和成分及びノイズ成分を同等に合成できる。図４には、第１の人工ニューラルネットワーク４３０、第２の人工ニューラルネットワーク４４０及び音声波形生成部４５０が別途の構成として示したが、これに限定されず、第１の人工ニューラルネットワーク４３０、第２の人工ニューラルネットワーク４４０及び音声波形生成部４５０が一つのモジュールとして構成されることもできる。

【0051】

図５は、本開示の一実施例に係る入力テキストに対応する音声波形５４２が生成される例を示す図である。図に示すように、音響特徴前処理部５１０は、入力テキストに対応する音響特徴５１２を受信できる。音響特徴５１２は、入力テキストに基づいて音響特徴抽出モデルにより抽出できる。

【0052】

一実施例によれば、音響特徴前処理部５１０は、受信した音響特徴５１２に含まれたピッチ情報に基づいて正弦波信号５１４を生成して、第１の人工ニューラルネットワーク５２０に提供できる。一実施例によれば、音響特徴前処理部５１０は、受信した音響特徴５１２に基づいて有声音／無声音情報５１６を生成して、第１の人工ニューラルネットワーク５２０及び第２の人工ニューラルネットワーク５３０に提供できる。ここで、有声音／無声音情報５１６は、音響特徴に含まれた有声音／無声音情報を、フレーム水準からサンプル水準にアップサンプリングしたものであり得る。

【0053】

一実施例によれば、ランダムノイズ生成部により生成された第１のノイズ信号５２２は、第１の人工ニューラルネットワークに提供され得る。また、ランダムノイズ生成部により生成された第２のノイズ信号５３２は、第２の人工ニューラルネットワークに提供され得る。ここで、第１のノイズ信号５２２及び第２のノイズ信号５３２はランダムなガウシアンノイズ信号であり、第１のノイズ信号５２２及び第２のノイズ信号５３２は互いに異なることができる。

【0054】

一実施例によれば、第１の人工ニューラルネットワーク５２０は、ランダムノイズ生成部により生成された第１のノイズ信号５２２、音響特徴前処理部５１０により生成された正弦波信号５１４及び有声音／無声音情報５１６を受信して、入力テキストに対応する音声波形５４２の調和成分５２４を生成できる。また、第２の人工ニューラルネットワーク５３０は、ランダムノイズ生成部により生成された第２のノイズ信号５３２及び音響特徴前処理部５１０により生成された有声音／無声音情報５１６を受信して、入力テキストに対応する音声波形５４２のノイズ成分５３４を生成できる。その後、音声波形生成部５４０は、第１の人工ニューラルネットワークで生成された調和成分５２４と、第２の人工ニューラルネットワークで生成されたノイズ成分５３４とを合成して、入力テキストに対応する音声波形５４２を生成できる。

【0055】

図６は、本開示の一実施例に係るニューラルネットワークボコーダ１４０の内部構成を示す機能的なブロック図である。図に示すように、ニューラルネットワークボコーダ１４０は、音響特徴前処理部６１０、ランダムノイズ生成部６２０、第１の人工ニューラルネットワーク６３０、第２の人工ニューラルネットワーク６４０、フィルタ６５０、調和性推定器６６０及び音声波形生成部６７０を含むことができる。音響特徴前処理部６１０、ランダムノイズ生成部６２０、第１の人工ニューラルネットワーク６３０及び第２の人工ニューラルネットワーク６４０は、図４の説明と同一／類似の機能を遂行できる。

【0056】

フィルタ６５０は、各人工ニューラルネットワーク６３０、６４０で生成された調和成分及びノイズ成分の入力により、各々のサブバンド成分を抽出できる。一実施例において、フィルタ６５０は、第１の人工ニューラルネットワーク６３０で生成された調和成分の入力により複数のサブバンド調和成分を抽出する第１のフィルタと、第２の人工ニューラルネットワーク６４０で生成されたノイズ成分の入力により複数のサブバンドノイズ成分を抽出する第２のフィルタとを含むことができる。ここで、フィルタ６５０は、複数のシンク関数（sinc function）に基づいたバンドパスフィルタ（Band Pass Filter）を称することができる。また、第１のフィルタ及び第２のフィルタは各々複数のフィルタを含むことができる。例えば、第１のフィルタ及び第２のフィルタは、各々Ｎ個のフィルタを含むことができ、各々のフィルタを介してＮ個のサブバンド調和成分及びＮ個のサブバンドノイズ成分を抽出できる。具体的に、サブバンド調和成分及びサブバンドノイズ成分は、次の数３の式によって算出できる。

【0057】

【数3】

ここで、

【数4】

は畳み込み（convolution）演算、ｘ_ｈ，ｉはｉ番目のサブバンド調和成分（または波形）、ｘ_ｎ，ｉはｉ番目のサブバンドノイズ成分、ｇ_ｉはｉ番目のサブバンドＢＰＦ（Band Pass Filter）係数を表わす。一実施例において、全バンド信号を複数のサブバンド成分に抽出するために、シンク関数を使用して各ＢＰＦをパラメータ化する方式を採択できる。このとき、各ＢＰＦ係数は、次の数５の式によって算出できる。

【0058】

【数5】

ここで、［ｆ_ｉ，ｆ_ｉ＋１］はｉ番目のサブバンドのカットオフ周波数（cutoff frequencies）を表わし、シンク関数はｓｉｎｃ（ｘ）＝ｓｉｎ（ｘ）／ｘとして定義される。シンク関数は、振幅レスポンス（magnitude response）の矩形パスバンドを有するため、隣接ＢＰＦ間にエイリアシング効果（aliasing effect）を効果的に最小化できる。さらには、実用的な具現化のために、フィルタ係数は、次の数６の式によってハミングウインドウ（hamming window）を使用して切断（truncated）できる。

【0059】

【数6】

ここで、

【数7】

は切断されたフィルタ係数を表わし、ｗ［ｋ］＝０．５４－０．４６ｃｏｓ（２πｋ／Ｌ）は長さがＬであるハミングウインドウを表わす。各ＢＰＦのカットオフ周波数は、メルスケール（Mel-scale）により初期化して、学習過程中に最適化できる。代替的に、Ｎ個のパスバンドの個数で均一に分かれた固定カットオフ周波数を使用することができる。

【0060】

調和性推定器６６０は、サブバンド調和成分及びサブバンドノイズ成分間のエネルギー比率（または調和性）を算出できる。調和性は、各サブバンドにおけるサブバンド調和成分及びサブバンドノイズ成分間のエネルギー均衡を調整するために使用されることができる。具体的に、調和性（ａ_ｉ）は、フィルタを介して抽出されたＮ個のサブバンド調和成分及びＮ個のサブバンドノイズ成分のうち、ｉ番目のサブバンドの調和成分及びノイズ成分間の推定された最適のエネルギー比率を示す。一実施例において、サブバンド調和性（ａ_ｉ）は、規則基盤分析方法（rule-based analysis method）により推定できるヒューリスティックパラメータ（heuristic parameter）として取扱できる。代替的に、調和性推定器６６０は、音響特徴からサブバンド調和性（ａ_ｉ）の最適値を推定するために、ＣＮＮ（Convolutional neural network）ブロックからなることができる。

【0061】

音声波形生成部６７０は、調和性推定器で算出された複数のサブバンド調和性（ａ_ｉ）に基づいて、複数のサブバンド調和成分及び複数のサブバンドノイズ成分を加重合計することで、入力テキストに対応する音声波形を生成できる。具体的に、音声波形は、次の数８の式によって算出できる。

【0062】

【数8】

ここで、ａ_ｉはｉ番目のサブバンド調和性を表わし、ｘ_ｈ，ｉはｉ番目のサブバンド調和成分、ｘ_ｎ，ｉはｉ番目のサブバンドノイズ成分を表わす。すなわち、サブバンド調和成分にサブバンド調和性加重値を適用し、サブバンドノイズ成分に１からサブバンド調和性を減算した加重値を適用した後、これを加重合計して、入力テキストに対応する音声波形を算出できる。

【0063】

図７は、本開示の一実施例に係る入力テキストに対応する音声波形７７２が生成される例を示す図である。図に示すように、音響特徴前処理部７１０が入力テキストに対応する音響特徴７１２を受信し、正弦波信号７１４を生成して第１の人工ニューラルネットワーク７２０に入力し、有声音／無声音情報７１６を生成して第１の人工ニューラルネットワーク７２０及び第２の人工ニューラルネットワーク７３０に入力することは、前述した図５と同様である。

【0064】

一実施例によれば、第１の人工ニューラルネットワーク７２０は、ランダムノイズ生成部により生成された第１のノイズ信号７２２、音響特徴前処理部７１０により生成された正弦波信号７１４及び有声音／無声音情報７１６を受信して、入力テキストに対応する音声波形７７２の調和成分７２４を生成できる。その後、調和成分７２４は、複数のフィルタ７４０を介して複数のサブバンド調和成分７４２として抽出される。例えば、複数のフィルタ７４０は、Ｎ個のシンク関数に基づいたバンドパスフィルタを含むことができる。このとき、調和成分７２４からＮ個のサブバンド調和成分７４２を抽出できる。

【0065】

一実施例によれば、第２の人工ニューラルネットワーク７３０は、ランダムノイズ生成部により生成された第２のノイズ信号７３２、音響特徴前処理部７１０により生成された有声音／無声音情報７１６を受信して、入力テキストに対応する音声波形７７２のノイズ成分７３４を生成できる。その後、生成されたノイズ成分７３４は、複数のフィルタ７５０を介して複数のサブバンドノイズ成分７５２として抽出される。

【0066】

一実施例によれば、調和性推定器７６０は、複数のサブバンド調和成分及び複数のサブバンドノイズ成分間のエネルギー比率（または調和性）を算出／予測できる。例えば、ｉ番目のサブバンド調和成分及びｉ番目のサブバンドノイズ成分間のサブバンド調和性７６２はａ_ｉで表わす。その後、音声波形生成部７７０は、サブバンド調和性７６２に基づいてサブバンド調和成分７４２及びサブバンドノイズ成分７５２を加重合計して、入力テキストに対応する音声波形７７２を生成できる。

【0067】

図８は、本開示の一実施例に係る全バンドニューラルネットワークボコーダ及びマルチバンド（multi-band）ニューラルネットワークボコーダにより生成された調和成分及びノイズ成分のスペクトログラム（spectrogram）の例を示す図である。第１のスペクトログラム８１０及び第２のスペクトログラム８２０は、全バンドニューラルネットワークボコーダの第１の人工ニューラルネットワーク（例えば、図４の４３０及び図５の５２０）と、第２の人工ニューラルネットワーク（例えば、図４の４４０及び図５の５３０）とで生成された調和成分及びノイズ成分のスペクトログラムを各々示す。また、第３のスペクトログラム８３０及び第４のスペクトログラム８４０は、マルチバンドニューラルネットワークボコーダの第１の人工ニューラルネットワーク（例えば、図６の６３０及び図７の７２０）で生成された調和成分と、第２の人工ニューラルネットワーク（例えば、図６の６４０及び図７の７３０）で生成されたノイズ成分とのスペクトログラムを各々示す。図に示すように、マルチバンドニューラルネットワークボコーダにより生成された調和成分及びノイズ成分は、全バンドニューラルネットワークボコーダにより生成された調和成分及びノイズ成分と比較して、明確に相関関係がない(decorrelated)。これは、マルチバンド方式が学習過程中に所望の成分を学習するように、第１の人工ニューラルネットワーク及び第２の人工ニューラルネットワークをより効率的に誘導したことを示す。

【0068】

図４乃至図７を参照して説明した本開示のニューラルネットワークボコーダのそのままの知覚品質（perceptual quality）に関する評価のために、分析／合成シナリオのＭＯＳリスニングテストをテストデータセットとして使用して評価を進行した。テストに使用された音声サンプルは、ＧＴ音響特徴（ground-truth acoustic features）を利用してニューラルネットワークボコーダにより生成した。その後、２０名のネイティブ韓国人の聴取者に対し、テストセットのうちで無作為に選択した１５個の合成発話を提供して、５つのＭＯＳ応答（１＝悪さ、２＝不良、３＝適正、４＝良好、６＝優秀）の一つを選択して評価するようにした。次の表１は、ＭＯＳテスト結果を要約したものを表わす。

【0069】

【表1】

【0070】

ＨＮ－ＰＷＧ（Harmonic-plus-Noise Parallel WaveGAN）（Ｓ４）及びＭｕｌｔｉ－ｂａｎｄＨＮ－ＰＷＧ（Ｓ５）は、全部モデルの複雑度を維持しながら、既存のＰＷＧモデル（Ｓ２）よりも非常に良い知覚品質を示すことを確認できる。特に、Ｍｕｌｔｉ－ｂａｎｄＨＮ－ＰＷＧ（Ｓ５）は、一般のＰＷＧ（Ｓ２）よりも２３％高い４．２９ＭＯＳを達成した。ＨＮ－ＰＷＧの品質は、第１の人工ニューラルネットワーク（harmonic WaveNet）に追加的なノイズソースを使用して改善されることを確認できる（Ｓ２とＳ４の比較）。また、Ｍｕｌｔｉ－ｂａｎｄＨＮ－ＰＷＧ（Ｓ５）がＨＮ－ＰＷＧ（Ｓ４）よりも高い品質を提供することを確認できる（Ｓ４とＳ５の比較）。これは、本開示のＭｕｌｔｉ－ｂａｎｄの接近がＨＮ－ＰＷＧの品質改善に役立つことを示す。Ｍｕｌｔｉ－ｂａｎｄＨＮ－ＰＷＧの品質は、ベースラインである自己回帰（AR、autoregressive）ＷａｖｅＮｅｔよりも一層良い品質を提供することを確認できる（Ｓ１とＳ５の比較)。

【0071】

次の表２は、生成された音声サンプルの品質を評価するためのＭＯＳテストの遂行結果を表わす。

【0072】

【表2】

【0073】

ＴＴＳシナリオにおいて、ノイズが含まれていないＨＮ－ＰＷＧ（Ｓ－Ｔ３）は、ノイズが含まれているシステム（Ｓ－Ｔ４）に比べて、顕著に低下された品質を提供する。入力音響特徴に予測エラーが含まれても、ＨＮ－ＰＷＧは相変らず一般のＰＷＧに比べて優れた品質を示す（Ｓ－Ｔ２、Ｓ－Ｔ４及びＳ－Ｔ５の比較)。最後に、ＴＴＳフレームワーク内のＭｕｌｔｉ－ｂａｎｄＨＮ－ＰＷＧは、４．０３ＭＯＳを達成して、一般のＰＷＧよりも１３％高い数値を示す（Ｓ－Ｔ２とＳ－Ｔ５の比較)。

【0074】

図９は、本開示の一実施例に係る非自己回帰音声合成方法９００を示すフローチャートである。一実施例において、非自己回帰音声合成方法９００は、プロセッサ（例えば、情報処理システム又はユーザ端末の少なくとも一つのプロセッサ）により遂行できる。図に示すように、非自己回帰音声合成方法９００は、プロセッサが入力テキストに対応する音響特徴を受信することにより開始することができる（Ｓ９１０）。

【0075】

その後、プロセッサは、第１の人工ニューラルネットワークを介して、受信された音響特徴及び第１のノイズ信号に基づいて、入力テキストに対応する音声波形の調和成分を生成できる（Ｓ９２０）。このために、プロセッサは、音響特徴に基づいて正弦波信号を生成し、音響特徴に基づいて有声音／無声音情報を生成できる。そして、プロセッサは、正弦波信号、有声音／無声音情報及び第１のノイズ信号を第１の人工ニューラルネットワークに入力して、入力テキストに対応する音声波形の調和成分を生成できる。ここで、正弦波信号は、音響特徴に含まれたピッチ情報に基づいて生成できる。すなわち、正弦波信号は、瞬間周波数が入力テキストに対応する音声波形の基本周波数を従うように生成できる。また、第１のノイズ信号は、ランダムなガウシアンノイズ信号であり得る。

【0076】

一実施例において、プロセッサは、受信された音響特徴及び第２のノイズ信号に基づいて、入力テキストに対応する音声波形のノイズ成分を生成できる（Ｓ９３０）。具体的に、有声音／無声音情報及び第２のノイズ信号を第２の人工ニューラルネットワークに入力して、入力テキストに対応する音声波形のノイズ成分を生成できる。ここで、第２のノイズ信号は、ランダムなガウシアンノイズ信号であり得る。また、第１のノイズ信号及び第２のノイズ信号は互いに異なることができる。最後に、プロセッサは、調和成分及びノイズ成分を合成して、入力テキストに対応する音声波形を生成できる（Ｓ９４０）。

【0077】

図１０は、本開示の一実施例に係るマルチバンド非自己回帰音声合成方法１０００を示すフローチャートである。一実施例において、マルチバンド非自己回帰音声合成方法１０００は、プロセッサ（例えば、情報処理システムまたはユーザ端末の少なくとも一つのプロセッサ）により遂行できる。図に示すように、マルチバンド非自己回帰音声合成方法１０００は、プロセッサが入力テキストに対応する音響特徴を受信することにより開始することができる（Ｓ１０１０）。

【0078】

その後、プロセッサは、第１の人工ニューラルネットワークを介して、受信された音響特徴及び第１のノイズ信号に基づいて、入力テキストに対応する音声波形の調和成分を生成できる（Ｓ１０２０）。また、プロセッサは、第２の人工ニューラルネットワークを介して、受信された音響特徴及び第２のノイズ信号に基づいて、入力テキストに対応する音声波形のノイズ成分を生成できる（Ｓ１０３０）。そして、プロセッサは、音声波形の調和成分から複数のサブバンド調和成分を抽出し（Ｓ１０４０）、音声波形のノイズ成分から複数のサブバンドノイズ成分を抽出できる（Ｓ１０５０）。例えば、プロセッサは、複数のシンク関数に基づいたバンドパスフィルタを利用して、音声波形の調和成分及び音声波形のノイズ成分から複数のサブバンド調和成分及び複数のサブバンドノイズ成分を各々抽出できる。

【0079】

一実施例において、プロセッサは、音響特徴に基づいて複数のサブバンド調和性を推定できる（Ｓ１０６０）。ここで、複数のサブバンド調和性は、複数のサブバンドの各々における調和成分及びノイズ成分間の推定された最適のエネルギー比率を示すことができる。例えば、複数のサブバンド調和性は、埋め込みニューラルネットワークに基づいたモデルに音響特徴を入力して推定されることができる。最後に、プロセッサは、複数のサブバンド調和性に基づいて複数のサブバンド調和成分及び複数のサブバンドノイズ成分を加重合計して、入力テキストに対応する音声波形を生成できる（Ｓ１０７０）。

【0080】

前述した方法は、コンピュータで実行するために、コンピュータ読み取り可能な記録媒体に保存されたコンピュータプログラムとして提供され得る。媒体は、コンピュータで実行可能なプログラムを継続的に保存したり、実行又はダウンロードのために一時保存したりするものであり得る。また、媒体は、単一又は多数のハードウェアが結合された形態の多様な記録手段又は保存手段であり得るが、あるコンピュータシステムに直接接続される媒体に限定されず、ネットワーク上に分散して存在するものであり得る。媒体の例としては、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、ＣＤ－ＲＯＭやＤＶＤのような光記録媒体、フロプティカルディスク（floptical disk）のような磁気－光媒体（magneto-optical medium）、及び、ＲＯＭ、ＲＡＭ、フラッシュメモリなどを含み、プログラム命令語が保存されるように構成されたものが挙げられる。また、他の媒体の例としては、アプリケーションを流通するアプリストアやその他の多様なソフトウェアを供給乃至流通するサイト、サーバなどで管理する記録媒体乃至保存媒体も挙げられる。

【0081】

本開示の方法、動作又は技法は多様な手段により具現化できる。例えば、このような技法は、ハードウェア、ファームウェア、ソフトウェア、若しくはこれらの組合せで具現化できる。本願の開示により説明された多様な例示的な論理的ブロック、モジュール、回路及びアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア、若しくは両方の組合せで具現化できることを、通常の技術者であれば理解できるはずである。ハードウェア及びソフトウェアのこのような相互の代替を明確に説明するために、多様な例示的な構成要素、ブロック、モジュール、回路及びステップが、それらの機能的観点から一般的に前述された。そのような機能が、ハードウェアとして具現化されるか、若しくは、ソフトウェアとして具現化されるかは、特定アプリケーション及び全体システムに付加される設計要求事項によって変化する。通常の技術者は、各々の特定アプリケーションのために多様な方式により説明された機能を具現化することもできるが、そのような具現化は本開示の範囲から逸脱するものと解釈してはならない。

【0082】

ハードウェアの具現化において、技法の遂行に利用されるプロセッシングユニットは、一つ以上のＡＳＩＣ、ＤＳＰ、デジタル信号処理デバイス（digital signal processing devices DSPD）、プログラム可能な論理デバイス（programmable logic devices PLD）、フィールドプログラム可能なゲートアレイ（field programmable gate arrays FPGA）、プロセッサ、制御器、マイクロ制御器、マイクロプロセッサ、電子デバイス、本開示に説明された機能を遂行するように設計された他の電子ユニット、コンピュータ、若しくはこれらの組合せ内で具現化されることもできる。

【0083】

したがって、本開示により説明された多様な例示的な論理ブロック、モジュール及び回路は、汎用プロセッサ、ＤＳＰ、ＡＳＩＣ、ＦＰＧＡや他のプログラム可能な論理デバイス、離散ゲートやトランジスタロジック、離散ハードウェアコンポーネント、若しくは、本願に説明された機能を遂行するように設計されたもの等の任意の組合せで具現化又は遂行されることもできる。汎用プロセッサはマイクロプロセッサであり得るが、代替的に、プロセッサは、任意の従来のプロセッサ、制御器、マイクロ制御器、若しくは状態マシンであり得る。プロセッサは、また、コンピューティングデバイスの組合せ、例えば、ＤＳＰとマイクロプロセッサ、複数のマイクロプロセッサ、ＤＳＰコアと関連付けられる一つ以上のマイクロプロセッサ、若しくは任意の他の構成の組合せで具現化されることもできる。

【0084】

ファームウェア及び／又はソフトウェアの具現化において、技法は、ＲＡＭ（random access memory）、ＲＯＭ（read-only memory）、ＮＶＲＡＭ（non-volatile random access memory）、ＰＲＯＭ（programmable read-only memory）、ＥＰＲＯＭ（erasable programmable read-only memory）、ＥＥＰＲＯＭ（electrically erasable PROM）、フラッシュメモリ、ＣＤ（compact disc）、磁気又は光学データストレージデバイスなどのようなコンピュータ読み取り可能な媒体上に保存された命令として具現化できる。命令は、一つ以上のプロセッサによって実行可能であり得、プロセッサが本開示に説明された機能の特定様態を遂行するようにできる。

【0085】

ソフトウェアとして具現化される場合、前記技法は、一つ以上の命令又はコードとしてコンピュータ読み取り可能な媒体上に保存されたり、コンピュータ読み取り可能な媒体を介して転送されたりできる。コンピュータ読み取り可能な媒体は、ある場所から他の場所にコンピュータプログラムの転送を容易にする任意の媒体を含み、コンピュータ保存媒体及び通信媒体の両方を含む。保存媒体は、コンピュータによってアクセスできる任意の利用可能な媒体であり得る。非制限的な例として、このようなコンピュータ読み取り可能な媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ－ＲＯＭや他の光学ディスクストレージ、磁気ディスクストレージや他の磁気ストレージデバイス、若しくは、所望のプログラムコードを命令又はデータ構造の形態に移送又は保存するために使用されることができ、コンピュータによってアクセスできる任意の他の媒体を含むことができる。また、任意の接続がコンピュータ読み取り可能な媒体として適切に称することができる。

【0086】

例えば、ソフトウェアが同軸ケーブル、光ファイバーケーブル、鉛線、デジタル加入者回線（ＤＳＬ）、又は、赤外線、無線及びマイクロ波のような無線技術を用いて、ウェブサイト、サーバ又は他の遠隔ソースから転送される場合、同軸ケーブル、光ファイバーケーブル、鉛線、デジタル加入者回線、又は、赤外線、無線及びマイクロ波などのような無線技術は、媒体の定義内に含まれる。本願で使用されたディスク（disk）及びディスク（disc）は、ＣＤ、レーザーディスク、光ディスク、ＤＶＤ（digital versatile disc）、フロッピーディスク及びブルーレイディスクを含み、ここで、通常、ディスク（disk）は磁気的にデータを再生するのに対し、ディスク（disc）はレーザーを用いて光学的にデータを再生する。前記組合せ等も、コンピュータ読み取り可能な媒体等の範囲内に含まれなければならない。

【0087】

ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、移動式ディスク、ＣＤ－ＲＯＭ、又は、公知された任意の異なる形態の保存媒体内に常駐することもできる。例示的な保存媒体は、プロセッサが保存媒体から情報を読み取る、或いは、保存媒体に情報を書き込むように、プロセッサに連結することができる。代替的に、保存媒体はプロセッサに統合されることもできる。プロセッサ及び保存媒体はＡＳＩＣ内に存在することもできる。ＡＳＩＣはユーザ端末内に存在することもできる。代替的に、プロセッサ及び保存媒体はユーザ端末で個別構成要素として存在することもできる。

【0088】

以上で説明された実施例が一つ以上の独立型コンピュータシステムで現在開示された主題の態様を活用するものとして記述しているが、本開示はこれに限定されず、ネットワークや分散コンピューティング環境のような任意のコンピューティング環境によって具現化できる。さらには、本開示における主題の様相は、複数のプロセッシングチップや装置で具現化することもでき、ストレージは、複数の装置に亘って同様に影響を受ける場合もある。このような装置は、ＰＣ、ネットワークサーバ及び携帯用装置を含むこともできる。

【0089】

本明細書では、本開示が一部の実施例によって説明されたが、本開示の発明が属する技術分野における通常の技術者が理解し得る本開示から逸脱しない範囲内で多様な変形や変更が可能である。また、そのような変形や変更は、本明細書に添付された特許請求の範囲内に属するものと理解されるべきである。

【符号の説明】

【0090】

１１０入力テキスト
１２０音響特徴抽出モデル
１３０音響特徴
１４０ニューラルネットワークボコーダ
１５０音声波形

【図1】