(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023005583
(43)【公開日】2023-01-18
(54)【発明の名称】信号処理装置およびプログラム
(51)【国際特許分類】
G10L 13/10 20130101AFI20230111BHJP
【FI】
G10L13/10 113Z
G10L13/10 111A
G10L13/10 111D
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2021107593
(22)【出願日】2021-06-29
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(71)【出願人】
【識別番号】591053926
【氏名又は名称】一般財団法人NHKエンジニアリングシステム
(74)【代理人】
【識別番号】100141139
【弁理士】
【氏名又は名称】及川 周
(74)【代理人】
【識別番号】100171446
【弁理士】
【氏名又は名称】高田 尚幸
(74)【代理人】
【識別番号】100114937
【弁理士】
【氏名又は名称】松本 裕幸
(74)【代理人】
【識別番号】100171930
【弁理士】
【氏名又は名称】木下 郁一郎
(72)【発明者】
【氏名】清山 信正
(72)【発明者】
【氏名】齋藤 礼子
(72)【発明者】
【氏名】熊野 正
(72)【発明者】
【氏名】今井 篤
(57)【要約】
【課題】高品質な合成音声を出力するための音響特徴量推定モデルを構築することのできる信号処理装置を提供する。
【解決手段】音響分析部は、音声信号について音響分析処理を行うことにより音響特徴量を求める。言語解析部は、テキストについて言語分析処理を行うことにより、前記テキストの読み仮名の情報および前記テキストに対応する韻律の情報を含む入力ラベルを求める。音響特徴量推定モデル学習部は、読み仮名の情報と韻律の情報とを含む入力ラベルに対応する音響特徴量を求めるための音響特徴量推定モデルの機械学習を、前記言語解析部が出力する前記入力ラベルと、前記音響分析部が出力する前記音響特徴量と、を学習用データとして実行する言語解析部は、音響分析部が求めたピッチに基づいて、テキスト内の句について隣接する他の句に対する相対的な音の高さを表す記号を求める。
【選択図】
図1
【特許請求の範囲】
【請求項1】
テキストと前記テキストに対応する音声信号とを含む学習用音声コーパスを記憶する学習用音声コーパス記憶部と、
前記音声信号について音響分析処理を行うことにより音響特徴量を求める音響分析部と、
前記テキストについて言語分析処理を行うことにより、前記テキストの読み仮名の情報および前記テキストに対応する韻律の情報を含む入力ラベルを求める言語解析部と、
読み仮名の情報と韻律の情報とを含む入力ラベルに対応する音響特徴量を求めるための音響特徴量推定モデルの機械学習を、前記言語解析部が出力する前記入力ラベルと、前記音響分析部が出力する前記音響特徴量と、を学習用データとして実行する音響特徴量推定モデル学習部と、
を備え、
前記音響分析部は、前記音声信号に基づいてピッチを求め、
前記言語解析部は、前記音響分析部が求めた前記ピッチに基づいて、前記テキストに含まれる句について隣接する他の句に対する相対的な音の高さを表す記号を求め、前記句の区切りを表す記号に当該相対的な音の高さを表す記号を付加して前記入力ラベルに含める、
信号処理装置。
【請求項2】
前記音響分析部は、前記音声信号に基づいて、前記音声信号が含む音素の区間を求めることによって、前記音声信号が含むポーズの時間長を求め、
前記言語解析部は、前記音響分析部が求めた前記ポーズの時間長に基づいて、ポーズの複数種類の時間長を区別するための韻律記号を前記入力ラベルに含める、
請求項1に記載の信号処理装置。
【請求項3】
前記言語解析部は、前記韻律の情報としてはアクセントの上昇位置を表す記号を含まない前記入力ラベルを求める、
請求項1または2に記載の信号処理装置。
【請求項4】
前記言語解析部は、前記読み仮名の情報としては音素を表す記号の列による前記入力ラベルを求める、
請求項1から3までのいずれか一項に記載の信号処理装置。
【請求項5】
音響特徴量に対応する音声信号を求めるための音声信号生成モデルの機械学習を、前記音響分析部が出力する前記音響特徴量と、前記学習用音声コーパスに含まれる前記音声信号と、を学習用データとして実行する音声信号生成モデル学習部、
をさらに備える請求項1から4までのいずれか一項に記載の信号処理装置。
【請求項6】
入力されるテキストについて言語分析処理を行うことにより、前記テキストの読み仮名の情報および前記テキストに対応する韻律の情報を含む入力ラベルを求める言語解析部と、
請求項1から4までのいずれか一項に記載の信号処理装置によって学習済みの音響特徴量推定モデルに、前記言語解析部が求めた前記入力ラベルを入力することによって、音響特徴量を推定する音響特徴量推定部と、
を備える信号処理装置。
【請求項7】
請求項5に記載の信号処理装置によって学習済みの音声信号生成モデルに、前記音響特徴量推定部が出力した前記音響特徴量を入力することによって、音声信号を生成する音声信号生成部、
をさらに備える請求項6に記載の信号処理装置。
【請求項8】
コンピューターを、
請求項1から7までのいずれか一項に記載の信号処理装置、
として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、信号処理装置およびプログラムに関する。
【背景技術】
【0002】
テキストとこれに対応する音声信号を基にこれら両者に関する統計モデルを構築し、構築された統計モデルを用いて、任意のテキストに対応する合成音声を得る技術が、従来技術として存在する。
【0003】
例えば特許文献1には、深層学習(DNN、Deep Neural Network)を用いて、テキストと音声信号とに関するモデルを構築し、利用する手法が記載されている。特許文献1に記載された方法では、事前にテキストとこれに対応する音声信号を用意する。テキストについては言語分析処理により読み仮名と韻律記号からなる入力ラベルを求めるとともに、適宜、音声信号と整合がとれるように人手で修正を加える。音声信号については音声分析処理により音響特徴量を算出する。そして、これらの入力ラベルと音響特徴量とを用いて、ニューラルネットワークで実現される音響特徴量推定モデルの学習を行う。この音響特徴量推定モデルが構築されると、任意の入力テキストに対して、音響特徴量推定モデルに基づく音響特徴量を推定することができる。即ち、任意の入力テキストについて言語分析処理を行うことにより、入力テキストに対応する入力ラベルを求める。この入力ラベルと、上記の音響特徴量推定モデルとから、音響特徴量が推定される。音響特徴量が推定されると、音声信号生成処理によって、その音響特徴量に対応する音声信号を求めることができる。つまり、任意のテキストに対する合成音声信号が得られる。
【0004】
なお、特許文献1には、漢字仮名交じり文として表わされる日本語テキストに対応する入力ラベルとして、読み仮名と韻律記号を用いることが記載されている。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
上記の従来技術には、解決すべき課題が存在する。特許文献1に記載の手法では、入力ラベルとして用いる韻律記号について、アクセント位置を指定する記号と、句又はフレーズの区切りを指定する記号と、文末のイントネーションを指定する記号と、ポーズ長を指定する記号とのうちのいずれかを含むことが記載されている。
【0007】
(1)特許文献1に記載の技術における韻律記号では、隣接する句間における相対的な音の高さに関する情報がない。つまり、このような韻律記号では、音声を合成する際に、隣接する句との間の音の相対的な高さを制御することができないという問題がある。
【0008】
(2)特許文献1の実施形態には、上記の句又はフレーズの区切りを指定する記号に関して、「使用しなくてもよい」と記載されている。しかしながら、句又はフレーズの区切りを指定しない場合には、正しいアクセントを再現できないという問題がある。
【0009】
(3)特許文献1では、特に、ポーズの指定には、ポーズを表す韻律記号「$%」が用いられるということが記載されている。しかしながら、特許文献1に記載された技術においてはポーズを表す韻律記号を1種類だけ用いている。つまり、この韻律記号は、ポーズ長の違いを表すことができないという問題がある。
【0010】
(4)特許文献1では、特に、上記のアクセント位置を指定する記号として、アクセント上昇位置を表す韻律記号、およびアクセント下降位置を表す韻律記号を用いる実施形態が記載されている。しかしながら、日本語の標準語(東京方言とも呼ばれる)を前提とした場合には、アクセント上昇位置は自ずと決まる。つまり、アクセント上昇位置を表す韻律記号を用いることは、入力ラベルの冗長性を増すことにつながる。このような冗長な入力ラベルを用いて音響特徴量推定モデルを学習した場合には、音響特徴量の推定精度が低くなるという問題がある。
【0011】
(5)特許文献1では、入力ラベルとして用いる読み仮名として、カタカナを用いる実施形態が記載されている。しかしながら、カタカナ全体の集合としては、記号数が多すぎることが問題である。言い換えれば、カタカナを用いる場合に隣接する文字の表現空間が比較的スパースであるため、このような入力ラベルを用いて学習した場合の音響特徴量推定モデルの、推定精度が低くなるという問題がある。
【0012】
以上のように、従来技術では、任意のテキストに基づいて音声を合成する際に、きめ細かい制御に基づく合成音声を得ることができないという問題があった。
【0013】
本発明は、上記の課題認識に基づいて行なわれたものであり、高品質な合成音声を出力するための音響特徴量推定モデルを構築することのできる信号処理装置およびプログラムを提供しようとするものである。また、そのような音響特徴量推定モデルを用いて、高品質な合成音声を生成するための音響特徴量を推定することのできる信号処理装置およびプログラムを提供しようとするものである。
【課題を解決するための手段】
【0014】
[1]上記の課題を解決するため、本発明の一態様による信号処理装置は、テキストと前記テキストに対応する音声信号とを含む学習用音声コーパスを記憶する学習用音声コーパス記憶部と、前記音声信号について音響分析処理を行うことにより音響特徴量を求める音響分析部と、前記テキストについて言語分析処理を行うことにより、前記テキストの読み仮名の情報および前記テキストに対応する韻律の情報を含む入力ラベルを求める言語解析部と、読み仮名の情報と韻律の情報とを含む入力ラベルに対応する音響特徴量を求めるための音響特徴量推定モデルの機械学習を、前記言語解析部が出力する前記入力ラベルと、前記音響分析部が出力する前記音響特徴量と、を学習用データとして実行する音響特徴量推定モデル学習部と、を備え、前記音響分析部は、前記音声信号に基づいてピッチを求め、前記言語解析部は、前記音響分析部が求めた前記ピッチに基づいて、前記テキストに含まれる句について隣接する他の句に対する相対的な音の高さを表す記号を求め、前記句の区切りを表す記号に当該相対的な音の高さを表す記号を付加して前記入力ラベルに含める、ものである。
【0015】
[2]また、本発明の一態様は、上記の信号処理装置において、前記音響分析部は、前記音声信号に基づいて、前記音声信号が含む音素の区間を求めることによって、前記音声信号が含むポーズの時間長を求め、前記言語解析部は、前記音響分析部が求めた前記ポーズの時間長に基づいて、ポーズの複数種類の時間長を区別するための韻律記号を前記入力ラベルに含める、というものである。
【0016】
[3]また、本発明の一態様は、上記の信号処理装置において、前記言語解析部は、前記韻律の情報としてはアクセントの上昇位置を表す記号を含まない前記入力ラベルを求める、というものである。
【0017】
[4]また、本発明の一態様は、上記の信号処理装置において、前記言語解析部は、前記読み仮名の情報としては音素を表す記号の列による前記入力ラベルを求める、というものである。
【0018】
[5]また、本発明の一態様は、上記の信号処理装置において、音響特徴量に対応する音声信号を求めるための音声信号生成モデルの機械学習を、前記音響分析部が出力する前記音響特徴量と、前記学習用音声コーパスに含まれる前記音声信号と、を学習用データとして実行する音声信号生成モデル学習部、をさらに備えるものである。
【0019】
[6]また、本発明の一態様の信号処理装置は、入力されるテキストについて言語分析処理を行うことにより、前記テキストの読み仮名の情報および前記テキストに対応する韻律の情報を含む入力ラベルを求める言語解析部と、上記[1]から[4]までのいずれかの信号処理装置によって学習済みの音響特徴量推定モデルに、前記言語解析部が求めた前記入力ラベルを入力することによって、音響特徴量を推定する音響特徴量推定部と、を備えるものである。
【0020】
[7]また、本発明の一態様は、上記の信号処理装置において、上記[5]の信号処理装置によって学習済みの音声信号生成モデルに、前記音響特徴量推定部が出力した前記音響特徴量を入力することによって、音声信号を生成する音声信号生成部、をさらに備えるものである。
【0021】
[8]また、本発明の一態様は、コンピューターを、上記[1]から[7]までの信号処理装置、として機能させるためのプログラムである。
【発明の効果】
【0022】
本発明によれば、隣接する句間の相対的な音の高さを高品質に再現するための音響特徴量推定モデルを構築することができる。また、この音響特徴量推定モデルを用いて、高品質な音響特徴量を推定することにつながる。
【図面の簡単な説明】
【0023】
【
図1】本発明の実施形態による信号処理装置の概略機能構成を示したブロック図である。
【
図2】同実施形態によるアクセント推定装置が使用するフルコンテキストラベルの形式を示す概略図(1/3)である。
【
図3】同実施形態によるアクセント推定装置が使用するフルコンテキストラベルの形式を示す概略図(2/3)である。
【
図4】同実施形態によるアクセント推定装置が使用するフルコンテキストラベルの形式を示す概略図(3/3)である。
【
図5】同実施形態においてテキストの言語解析処理を行ったことによって抽出されるフルコンテキストラベルの例を示す概略図(1/2)である。
【
図6】同実施形態においてテキストの言語解析処理を行ったことによって抽出されるフルコンテキストラベルの例を示す概略図(2/2)である。
【
図7】同実施形態における入力ラベル(読み仮名と韻律記号)で用いられる記号の一覧を示す概略図である。
【
図8】同実施形態によるモデル学習装置が、テキストと音声信号とに基づいて入力ラベルを求めるための概略機能構成を示すブロック図である。
【
図9】同実施形態による信号処理装置(あるいは少なくともその一部)の内部構成の例を示すブロック図である。
【発明を実施するための形態】
【0024】
次に、本発明の一実施形態について、図面を参照しながら説明する。
【0025】
本実施形態では、事前に、テキストとこれに対応する音声信号を用意する。このテキストについて、言語分析処理を行うことにより、読み仮名に対応する音素列と、韻律記号とで構成される入力ラベルとを求める。また、音声信号について、音声分析処理を行うことにより、音響特徴量を算出する。これらの入力ラベルおよび音響特徴量を用いて、入力ラベルから音響特徴量を推定するための音響特徴量推定モデルの機械学習を行う一方で、音響特徴量と音声信号を用いて、音響特徴量から音声信号を推定するための音声信号生成モデルの機械学習を行う。学習済みのこれらのモデルを用いて、任意のテキストから、音声を合成することが可能になる。合成時には、任意のテキストを入力して、そのテキストについての言語分析処理を行うことにより入力ラベルを求める。そして、入力ラベルと事前に学習した音響特徴量推定モデルとを用いて音響特徴量を推定する。さらに、推定結果として得られた音響特徴量と事前に学習した音声信号生成モデルとを用いて音声信号を生成することができる。つまり、任意のテキストに対応する合成音声信号を得ることができる。
【0026】
本実施形態の特徴は、次の通りである。なお、ここに列挙する特徴のうちの一部のみを実施するようにしてもよい。特徴の一つは、テキストに対応する読み仮名として音素記号列を用いることである。また、別の特徴の一つは、韻律記号として、アクセント上昇位置を表す記号を使わないことである。また、別の特徴の一つは、韻律記号として、フレーズ区切り、アクセント句区切り、副次アクセント句区切りのそれぞれを表す記号に、隣接する句の相対的な高さに関する情報を表す記号を付加した記号を用いることである。また、別の特徴の一つは、韻律記号として、複数の異なるポーズ長を区別することのできる情報を表す記号を用いることである。
【0027】
図1は、本実施形態による信号処理装置の概略機能構成を示すブロック図である。図示するように、信号処理装置1は、音声合成装置2と、モデル学習装置3と、音響特徴量推定モデル記憶部14と、音声信号生成モデル記憶部15とを含んで構成される。音声合成装置2と、モデル学習装置3とは、例えば、コンピューターと、プログラムとで実現することが可能である。また、各装置の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。各装置は、必要に応じて、記憶手段を有する。また、音響特徴量推定モデル記憶部14と、音声信号生成モデル記憶部15とは、記憶手段を用いて実現される。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーや、データベース管理システムが管理するデータである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ(SSD)といった不揮発性の記憶手段を用いるようにしてもよい。
【0028】
音声合成装置2は、学習済みの音響特徴量推定モデルおよび音声信号生成モデルを用いて、未知のテキストを基に、合成音声を生成する。音声合成装置2は、「信号処理装置」とも呼ばれる。音声合成装置2は、具体的には、音響特徴量推定モデル記憶部14および音声信号生成モデル記憶部15が記憶する、それぞれのモデルのパラメーターを読み出して利用する。音声合成装置2のより詳細な機能構成については後でさらに説明する。
【0029】
モデル学習装置3は、学習用音声コーパスに基づいて、音響特徴量推定モデルおよび音声信号生成モデルの機械学習を行う。モデル学習装置3は、「信号処理装置」とも呼ばれる。モデル学習装置3は、各モデルの機械学習の結果として、音響特徴量推定モデル記憶部14および音声信号生成モデル記憶部15に記憶されるそれぞれのモデルのパラメーターを更新する。モデル学習装置3のより詳細な機能構成については後でさらに説明する。
【0030】
音響特徴量推定モデル記憶部14は、音響特徴量推定モデルの内部パラメーターを記憶する。音響特徴量推定モデルは、テキストに基づく入力ラベルと音響特徴量との統計的関係を表す。音響特徴量推定モデル記憶部14が記憶するモデルのパラメーターは、後述する音響特徴量推定モデル学習部34による学習の処理によって更新される。また、音響特徴量推定モデル記憶部14が記憶するモデルのパラメーターは、後述する音響特徴量推定部24による音響特徴量推定の処理の際に参照される。
【0031】
なお、音響特徴量推定モデルとしては、Tacotron2、TransformerTTS、FastSpeech、FastSpeech2などを利用することができる。
【0032】
音声信号生成モデル記憶部15は、音声信号生成モデルの内部パラメーターを記憶する。音声信号生成モデルは、音響特徴量と音声信号との統計的関係を表す。音声信号生成モデル記憶部15が記憶するモデルのパラメーターは、後述する音声信号生成モデル学習部35による学習の処理によって更新される。また、音声信号生成モデル記憶部15が記憶するモデルのパラメーターは、後述する音声信号生成部25による音声信号生成の処理の際に参照される。
【0033】
なお、音声信号生成モデルとしては、ParallelWaveGAN、MelGAN、FullBandMelGAN、MultiBandMelGANなどを利用することができる。
【0034】
図1に示すように、モデル学習装置3は、学習用音声コーパス記憶部31と、言語解析部32と、音響分析部33と、音響特徴量推定モデル学習部34と、音声信号生成モデル学習部35と、を含んで構成される。各部の機能は、次に説明する通りである。
【0035】
学習用音声コーパス記憶部31は、学習用データとして用いるためのコーパスを記憶する。学習用音声コーパスは、文等を含むテキストと、そのテキストに対応する音声信号の対の集合として構成される。学習用音声コーパスは、大量の対を含む。ここでテキストは、例えば日本語の文のテキストであるが、他の言語の文のテキストであってもよい。音声信号は、例えば、モノラル音声であり、標本化周波数22.050キロヘルツ(kHz)、量子化ビット数16ビット(bits)で標本化されているものであってよい。但し、他の形態(チャンネル数、標本化周波数、量子化ビット数)の音声信号であってもよい。また、アナログ音声信号であってもよい。なお、信号処理装置1は、学習用音声コーパス全体を、例えば、統計モデルの訓練用に80%、パラメーター調整用に10%、評価用に10%などといった割合で利用する。ここでの割合の数値自体は、他の値であってもよい。
【0036】
言語解析部32は、上記の音声コーパスが持つテキストおよび音声信号の各対について、言語解析を行う。具体的には、言語解析部32は、テキストの言語解析処理により、フルコンテキストラベル(文脈依存音素ラベル)を抽出する。フルコンテキストラベルは、文脈に依存し、音素および韻律に関する情報を持つラベルである。フルコンテキストラベルの抽出自体は、既存技術を利用して行うことができる。言語解析部32は、例えば、Open JTalk version 1.11(2018年12月25日リリース)の音声合成処理ツールキットに内包される言語解析処理機能を用いて実現され得る。Open JTalk version 1.11は、2021年5月31日時点で、下記URLで提供されている。
URL http://open-jtalk.sourceforge.net
【0037】
フルコンテキストラベルには、当該音素を含む前後2音素、品詞情報、文内の呼気段落位置、呼気段落内のアクセント句位置、アクセント句内のモーラ位置などの情報が記述されている。フルコンテキストラベルが持つ品詞情報、呼気段落位置の情報、およびアクセント句位置の情報を用いて、現在のアクセント句の区切りが、フレーズ区切り、アクセント句区切り、サブアクセント句区切りのどれにあたるかを判定することが可能となる。なお、フルコンテキストラベルの具体例については、後で図を参照しながらさらに詳細に説明する。
【0038】
言語解析部32は、上記のフルコンテキストラベルと、音響分析部33から受け取るポーズ長の情報およびピッチの情報とに基づいて、入力ラベルを作成する。つまり、言語解析部32は、テキストについて言語分析処理を行うことにより、テキストの読み仮名の情報および前記テキストに対応する韻律の情報を含む入力ラベルを求める。
【0039】
また、言語解析部32は、後述する音響分析部33が求めたピッチに基づいて、テキストに含まれる句について、隣接する他の句に対する相対的な音の高さを表す記号を求める。言語解析部32は、句の区切りを表す記号に、当該相対的な音の高さを表す記号を付加して入力ラベルに含めるようにする。さらに、言語解析部32は、後述するように、音響分析部33が求める音声内のポーズ長に応じて、ポーズの複数種類の時間長を区別するための韻律記号を入力ラベルに含める。
【0040】
また、言語解析部32は、韻律の情報としてはアクセントの上昇位置を表す記号を含まない入力ラベルを求めるようにする。また、言語解析部32は、テキストの読み仮名の情報としては、カタカナや平仮名の列ではなく、音素を表す記号の列による入力ラベルを求める。
【0041】
音響分析部33は、上記の音声コーパスが持つテキストおよび音声信号の各対について、音響分析を行う。具体的には、音響分析部33は、音声信号について音響分析処理を行うことにより音響特徴量を求める。また、音響分析部33は、音声コーパスが持つ音声信号とそのフルコンテキストラベルの中心音素に基づいて、音素セグメンテーションを行う。音素セグメンテーションの処理自体は、既存技術を利用して行うことができる。音響分析部33は、例えば、The Hidden Markov Model Toolkit(HTK、隠れマルコフモデルツールキット)に内包される強制アラインメント(Forced Alignments)の技術を用いて実現され得る。The Hidden Markov Model Toolkitは、2021年5月31日時点で、下記URLで提供されている。
URL http://htk.eng.cam.ac.uk
【0042】
なお、強制アラインメントによる音素セグメンテーションについては、人手で確認したり修正したりしてもよい。音素セグメンテーションの処理によって、音響分析部33は、音声信号における各音素の音素区間情報を求める。音素区間情報は、音素の開始位置(絶対時刻)および終了位置(絶対時刻)で表わされる情報である。また、音響分析部33は、それぞれのポーズ(pause)の音素区間情報に基づいて、ポーズの時間長tpau(単位は、ミリ秒(msec))を算出する。つまり、音響分析部33は、音声信号に基づいて、音声信号が含む音素の区間を求めることによって、音声信号が含むポーズの時間長を求める。音響分析部33は、この時間長tpauの情報を、言語解析部32に渡す。音響分析部33は、この時間長tpauの値を閾値によって分類し、その時間長に応じた入力ラベルを、それぞれのポーズに付与する。一例として、0≦tpau<100のとき、そのポーズの入力ラベルを"_0"とする。また、100≦tpau<200のとき、そのポーズの入力ラベルを"_1"とする。また、200≦tpau<500のとき、そのポーズの入力ラベルを"_2"とする。また、500≦tpau<1000のとき、そのポーズの入力ラベルを"_3"とする。また、1000≦tpauのとき、そのポーズの入力ラベルを"_4"とする。なお、音響分析部33に代わって、言語解析部32がこれらのポーズ長に応じた入力ラベルを決定してもよい。なお、時間長の範囲をここに例示した値以外としてもよい。
【0043】
なお、音響分析部33は、音声信号の音響分析により、フレーム単位でピッチを抽出する。フレームは、例えば、窓幅50ミリ秒、フレームシフト幅10ミリ秒としてよい。フレームの窓幅およびシフト幅を、ここに例示した値以外の値としてもよい。ピッチ抽出の処理自体は、既存技術を利用して行うことができる。音響分析部33のピッチ抽出の機能は、例えば、REAPER(Robust Epoch And Pitch EstimatoR)の技術を用いて実現され得る。REAPERは、2021年5月31日時点で、下記URLで提供されている。
URL https://github.com/dtalkin/REAPER
【0044】
なお、音響分析部33は、無音区間あるいは無声区間などのピッチが抽出できない区間については、ピッチ抽出が可能な隣接区間におけるピッチの値に基づいて、内挿あるいは外挿により、補完する。
【0045】
また、音響分析部33は、音声信号の音響特徴量を求める。音響特徴量として、例えば、フレーム単位のメルスペクトログラムを用いることができる。
【0046】
音響特徴量推定モデル学習部34は、音響特徴量推定モデルの学習を行う。音響特徴量推定モデル学習部34は、学習用データとして、読み仮名(音素ラベル列)と韻律記号からなる文字列と、音声信号から求められた音響特徴量(フレーム単位のメルスペクトログラム)との対を用いる。この学習用データは、上で説明した言語解析部32および音響分析部33の処理で得られるものである。音響特徴量推定モデル学習部34は、読み仮名(音素ラベル列)と韻律記号からなる文字列を音響特徴量推定モデルに入力する。音響特徴量推定モデル学習部34は、音響特徴量推定モデルにより、これらの入力に対応する出力である音響特徴量を計算する。音響特徴量推定モデル学習部34は、計算された音響特徴量と、学習用データに含まれる音響特徴量との差(ロス)を求め、この差に基づいて音響特徴量推定モデルの内部パラメーターを調整する。言い換えれば、音響特徴量推定モデル学習部34は、音響特徴量推定モデル記憶部14が記憶する内部パラメーターを更新する。音響特徴量推定モデル学習部34は、充分な量の学習用データを用いて、音響特徴量推定モデルの学習を行う。
【0047】
つまり、音響特徴量推定モデル学習部34は、読み仮名の情報と韻律の情報とを含む入力ラベルに対応する音響特徴量を求めるための音響特徴量推定モデルの機械学習を、言語解析部32が出力する入力ラベルと、音響分析部33が出力する音響特徴量と、を学習用データとして実行する。
【0048】
なお、音響特徴量推定モデルの学習は、例えば、ESPnetの技術を利用して行うことができる。ESPnetの技術は、下記URLで提供されている。
URL https://github.com/espnet/espnet
【0049】
音声信号生成モデル学習部35は、音声信号生成モデルの学習を行う。音声信号生成モデル学習部35は、学習用データとして、音声信号から求められた音響特徴量(フレーム単位のメルスペクトログラム)と、音声コーパスに含まれていた音声信号との対を用いる。音響特徴量は、上で説明した音響分析部33の処理で得られるものである。音声信号は、学習用音声コーパス記憶部31に記憶されているそれぞれの音声信号そのものである。音声信号生成モデル学習部35は、フレームごとの音響特徴量を音声信号生成モデルに入力する。音声信号生成モデル学習部35は、音声信号生成モデルにより、この入力に対応する出力である音声信号を算出する。音声信号生成モデル学習部35は、算出された音声信号と、学習用データに含まれる音声信号との差を求め、この差に基づいて音声信号生成モデルの内部パラメーターを調整する。言い換えれば、音声信号生成モデル学習部35は、音声信号生成モデル記憶部15が記憶する内部パラメーターを更新する。音声信号生成モデル学習部35は、充分な量の学習用データを用いて、音声信号生成モデルの学習を行う。
【0050】
つまり、音声信号生成モデル学習部35は、音響特徴量に対応する音声信号を求めるための音声信号生成モデルの機械学習を、音響分析部33が出力する音響特徴量と、学習用音声コーパスに含まれる音声信号と、を学習用データとして実行する。
【0051】
なお、音声信号生成モデルの学習は、例えば、Parallel WaveGANの技術を利用して行うことができる。Parallel WaveGANは、例えば下記URLで提供されている。
URL https://github.com/kan-bayashi/ParallelWaveGAN
【0052】
次に、学習済みのモデルに基づいて音声を合成する処理のための機能について説明する。
図1に示すように、音声合成装置2は、入力テキスト記憶部21と、言語解析部22と、音響特徴量推定部24と、音声信号生成部25と、合成音声出力部26と、を含んで構成される。各部の機能は、次に説明する通りである。
【0053】
入力テキスト記憶部21は、入力されるテキストを少なくとも一時的に記憶する。このテキストは、未知のテキストであってよい。音声合成装置2は、次に説明する処理によって、このテキストに対応する音声を合成する。
【0054】
言語解析部22は、入力テキストの言語解析を行い、音響特徴量推定モデルに入力するための入力ラベルを求める。入力ラベルについては、モデル学習装置3の説明で述べた通りである。具体的には、言語解析部22は、辞書データを参照しながら形態素解析処理および係り受け解析処理を行うことによって、文節を構成する形態素を求める。また、言語解析部22は、文章を構成する文節の係り受け構造を求める。言語解析部22は、文節と形態素から、その読み仮名とアクセントを求める。言語解析部22は、係り受け構造に基づいて、隣接する句間のポーズ長、および、句間の相対的高さに関する情報を求める。これらを用いて、入力ラベルを作成する。言語解析部22は、作成した入力ラベルを、音響特徴量推定部24に渡す。
【0055】
言語解析部22は、既存の技術を用いて実現することができる。言語解析部22は、隣接する句間のポーズ長を求めるために、例えば、下記参考文献の手法を用いることができる。
[参考文献]
佐藤奈穂子ほか,テキスト音声合成における係り受け解析結果を用いたポーズ挿入処理,自然言語処理,1999年,6巻2号,p. 117-132,URL https://www.jstage.jst.go.jp/article/jnlp1994/6/2/6_2_117/_pdf/-char/ja
【0056】
また、言語解析部22は、句間の相対的な高さを求めるために、例えば、既存技術である韻律推定方法を用いることができる。
【0057】
また、言語解析部22は、形態素解析処理の技術として、例えば、MeCab(和布蕪): Yet Another Part-of-Speech and Morphological Analyzerを用いることができる。また、言語解析部22は、係り受け解析処理の技術として、例えば、CaboCha(南瓜): Yet Another Japanese Dependency Structure Analyzerを用いることができる。また、言語解析部22は、辞書データとして、例えばUniDicを利用することができる。ここに挙げたMeCab、CaboCha、およびUniDicは、それぞれ、下記URLで提供される。
URL http://taku910.github.io/mecab/
URL https://taku910.github.io/cabocha/
URL https://unidic.ninjal.ac.jp/
【0058】
また、言語解析部22は、言語解析部32と同様に、例えば、Open JTalk version 1.11(2018年12月25日リリース)の音声合成処理ツールキットに内包される言語解析処理機能を用いて実現され得る。
【0059】
つまり、言語解析部22は、入力テキストについて言語分析処理を行うことにより、テキストの読み仮名の情報およびテキストに対応する韻律の情報を含む入力ラベルを求める。この入力ラベルは、音響特徴量推定モデルに入力するためのデータである。
【0060】
音響特徴量推定部24は、言語解析部22が求めた入力ラベル(入力テキストに対応する読み仮名と韻律記号)を学習済みの音響特徴量推定モデルに入力することによって、音響特徴量を算出(推定)する。音響特徴量推定部24は、推定結果である音響特徴量を、音声信号生成部25に渡す。
【0061】
音声信号生成部25は、音響特徴量推定部24が出力した音響特徴量を学習済みの音声信号生成モデルに入力することによって、音声信号を生成する。音声信号生成部25は、生成した音声信号を合成音声出力部26に渡す。
【0062】
合成音声出力部26は、音声信号生成部25から渡される合成音声を、外部に出力することができる。
【0063】
以上のように、音声合成装置2は、学習済みの音響特徴量推定モデルおよび音声信号生成モデルを用いて、入力テキストに対応する合成音声を生成し、出力することができる。
【0064】
図2、
図3、
図4は、信号処理装置1が使用するフルコンテキストラベル(文脈依存音素ラベル)の形式の例を示す概略図である。フルコンテキストラベルの列は、音声特徴量推定モデルへの入力となる入力ラベルである。フルコンテキストラベルは、テキストの文脈に依存する音素ラベルである。
図2から
図4までが、フルコンテキストラベルの1つのデータ構造体を示す。
図2、
図3、
図4に図示するように、フルコンテキストラベルは、下に列挙するデータを含んでいる。
【0065】
下記のp1からp5までは、音素情報である。このように、フルコンテキストラベルは、現音素の±2の範囲の音素の識別情報を含む。
p1:前音素の前の音素の識別情報
p2:前音素の識別情報
p3:現音素(p1からp5までの中心音素)の識別情報
p4:次音素の識別情報
p5:次音素の次の音素の識別情報
【0066】
下記のa1からa3までは、アクセント情報である。
a1:アクセント型(アクセント核のモーラ位置)と現モーラ識別情報の位置との差
a2:現アクセント句における現モーラ識別情報の位置(前向き)
a3:現アクセント句における現モーラ識別情報の位置(後ろ向き)
【0067】
下記のb1からb3までと、c1からc3までと、d1からd3までとは、品詞情報である。
b1:前の語の品詞
b2:前の語の活用形
b3:前の語の活用型
【0068】
c1:現在の語の品詞
c2:現在の語の活用形
c3:現在の語の活用型
【0069】
d1:次の語の品詞
d2:次の語の活用形
d3:次の語の活用型
【0070】
下記のe1からe5までと、f1からf8までと、g1からg5までとは、アクセント情報である。
e1:前のアクセント句におけるモーラ数
e2:前のアクセント句におけるアクセント型(アクセント核のモーラ位置)
e3:前のアクセント句が疑問詞であるか否か
e4:未定義コンテキスト
e5:前のアクセント句と現アクセント句との間に休止が挿入されるか否か
【0071】
f1:現アクセント句におけるモーラ数
f2:現アクセント句におけるアクセント型(アクセント核のモーラ位置)
f3:現アクセント句が疑問詞であるか否か
f4:未定義コンテキスト
f5:現アクセント句識別情報の、現呼気段落におけるアクセント句単位での位置(前向き)
f6:現アクセント句識別情報の、現呼気段落におけるアクセント句単位での位置(後ろ向き)
f7:現アクセント句識別情報の、現呼気段落におけるモーラ単位での位置(前向き)
f8:現アクセント句識別情報の、現呼気段落におけるモーラ単位での位置(後ろ向き)
【0072】
g1:次のアクセント句におけるモーラ数
g2:次のアクセント句におけるアクセント型(アクセント核のモーラ位置)
g3:次のアクセント句が疑問詞であるか否か
g4:未定義コンテキスト
g5:次のアクセント句と現アクセント句との間に休止が挿入されるか否か
【0073】
下記のh1からh2までと、i1からi8までと、j1からj2までは、呼気段落情報である。
h1:前の呼気段落内におけるアクセント句の数
h2:前の呼気段落内におけるモーラ数
【0074】
i1:現呼気段落内におけるアクセント句の数
i2:現呼気段落内におけるモーラ数
i3:現呼気段落識別情報の呼気段落単位の位置(前向き)
i4:現呼気段落識別情報の呼気段落単位の位置(後ろ向き)
i5:現呼気段落識別情報のアクセント句単位の位置(前向き)
i6:現呼気段落識別情報のアクセント句単位の位置(後ろ向き)
i7:現呼気段落識別情報のモーラ単位の位置(前向き)
i8:現呼気段落識別情報のモーラ単位の位置(後ろ向き)
【0075】
j1:次の呼気段落内におけるアクセント句の数
j2:次の呼気段落内におけるモーラ数
【0076】
下記のk1からk3は、総数情報である。
k1:本発話内における呼気段落の総数
k2:本発話内におけるアクセント句の総数
k3:本発話内におけるモーラの総数
【0077】
図5、
図6は、言語解析部32や22がテキストを言語解析することによって抽出したフルコンテキストラベルの例を示す概略図である。本例は、「晴れ、のち、曇り。」というテキストに基づくフルコンテキストラベルである。この図では、フルコンテキストラベルのデータの1行が、1音素に対応する。ただし、図では、1行のデータを途中で折り返して示して。
図5は、データの第1行から第8行までを示す。
図6は、データの第9行から第15行までを示す。各行のデータは、
図2、
図3、
図4で説明した構成のデータである。各行の先頭部分が、前述の項目p
1からp
5までに対応している。また、各行の「/A:」から始まる部分が、前述の項目a
1からa
3までに対応している。また、各行の「/B:」から始まる部分が、前述の項目b
1からb
3までに対応している。また、各行の「/C:」から始まる部分が、前述の項目c
1からc
3までに対応している。また、各行の「/D:」から始まる部分が、前述の項目d
1からd
3までに対応している。また、各行の「/E:」から始まる部分が、前述の項目e
1からe
5までに対応している。また、各行の「/F:」から始まる部分が、前述の項目f
1からf
8までに対応している。また、各行の「/G:」から始まる部分が、前述の項目g
1からg
5までに対応している。また、各行の「/H:」から始まる部分が、前述の項目h
1からh
2までに対応している。また、各行の「/I:」から始まる部分が、前述の項目i
1からi
8までに対応している。また、各行の「/J:」から始まる部分が、前述の項目j
1からj
2までに対応している。また、各行の「/K:」から始まる部分が、前述の項目k
1からk
3までに対応している。
【0078】
つまり、フルコンテキストラベルは、音素情報と、アクセント情報と、品詞情報と、アクセント句情報と、呼気段落情報と、総数情報とを含む。
【0079】
モデル学習装置3における言語解析部32は、あるテキストについて言語解析を行うことによって、
図5、
図6で例示したようなフルコンテキストラベルを求める。また、言語解析部32は、得られたフルコンテキストラベルに含まれる各アクセント句を構成する音素を特定する。それぞれの音素の音素区間情報に基づいて、音声信号における、各アクセント句の存在する位置を特定することができる。言語解析部32は、音声信号からフレーム単位で抽出(あるいは補完)したピッチと、音声信号において各アクセント句の存在する位置とから、各アクセント句の平均ピッチを算出する。そして、言語解析部32は、あるアクセント句の平均ピッチと、そのアクセント句の次のアクセント句の平均ピッチを比較することによって、アクセント句の相対的な高さを表すラベルを次のように決定する。即ち、当該アクセント句より次のアクセント句の平均ピッチが低い場合には、相対的な高さを「0」とする。当該アクセント句と次のアクセント句の平均ピッチが同じ場合には、相対的な高さを「1」とする。また、当該アクセント句より次のアクセント句の平均ピッチが高い場合には、相対的な高さを「2」とする。
【0080】
なお、アクセント句間での平均ピッチの比較を行う際には、平均ピッチの差分が所定の閾値(例えば平均ピッチの値の±10%など)を超えるか否かで判定してよい。つまり、言語解析部32は、次のように判定してよい。即ち、当該アクセント句の平均ピッチと比較して、次のアクセント句の平均ピッチが90%未満である場合には、相対的な高さを「0」とする。当該アクセント句の平均ピッチと比較して、次のアクセント句の平均ピッチが90%以上且つ110%以下である場合には、相対的な高さを「1」とする。また、当該アクセント句の平均ピッチと比較して、次のアクセント句の平均ピッチが110%超である場合には、相対的な高さを「2」とする。
【0081】
以上のように、言語解析部32は、特定のアクセント句の、隣接するアクセント句に対する相対的な高さに関する情報を、記号として付加することができる。
【0082】
図7は、本実施形態における入力ラベル(読み仮名と韻律記号)で用いられる記号の一覧を示す概略図である。図示するように、入力ラベルは、母音、撥音、促音、子音、アクセント核、句の区切り、句間の相対的高さ、ポーズ、文末という種類を含む。
【0083】
図7に示すように、本実施形態の入力ラベルは、読み仮名として、日本語の平仮名やカタカナではなく、音素記号(母音、撥音、促音、子音)を用いる。これにより、本実施形態の入力ラベルは、カタカナ等を用いて表現する場合に比べて、使用する記号の種類数が相対的に少ない。つまり、本実施形態での入力ラベルは、カタカナ等を用いる場合よりもデンスな表現空間での情報の表現となる。このため、そのような入力ラベルを用いて音響特徴量推定モデルの学習を行うことにより、音響特徴量の推定精度が上がる。
【0084】
また、本実施形態の入力ラベルは、アクセント上昇位置を示す韻律記号を持たない。つまり、本実施形態の入力ラベルがアクセント上昇位置を示す韻律記号を持たないため、入力ラベルにおいてアクセントの位置を表す記号の冗長性がない(または相対的に小さい)。即ち、より小さい冗長性で、音響特徴量推定モデルが、韻律記号と音響特徴量との関係の情報を持つことができるようになる。
【0085】
また、本実施形態の入力ラベルは、句の区切り(フレーズ区切り、アクセント句区切り、副次アクセント区切り)を指定する記号を必ず含む。このような入力ラベルを使用することにより、音響特徴量を推定して音声を合成する際に、正しいアクセントを再現できるようになる。また、本実施形態の入力ラベルは、隣接する句の間での音の相対的な高さを表す記号(0,1,2)を持つ。このような入力ラベルを用いることにより、音響特徴量を推定して音声を合成する際に、隣接する句の間での相対的な音の高さを制御することができるようになる。
【0086】
また、本実施形態の入力ラベルは、ポーズ長の違いに応じた複数の記号(_0,_1,_2,_3,_4)を用いる。このような入力ラベルを使用することにより、音響特徴量を推定して音声を合成する際に、従来技術で不可能であったポーズ長の違いを表すことが可能となる。
【0087】
図8は、モデル学習装置3が、テキストと音声信号とに基づいて入力ラベルを求めるための概略機能構成を示すブロック図である。ここに図示する言語解析部32と音響分析部33とについては、
図1を参照しながら説明した通りである。図示するように、言語解析部32は、フルコンテキストラベル抽出部321と、入力ラベル作成部322と、を含んで構成される。
【0088】
言語解析部32には、テキストと、音響分析部33による分析結果とが渡される。テキストは、学習用音声コーパスに含まれる1件のテキストである。音響分析部33による分析結果は、テキストに対応する音声信号を分析した結果である。音響分析部33から言語解析部32へは、ポーズ長の情報と、フレーム単位でのピッチの情報が渡される。言語解析部32内のフルコンテキストラベル抽出部321が、テキストを取得する。また、入力ラベル作成部322が、ポーズの情報とピッチの情報とを取得する。
【0089】
フルコンテキストラベル抽出部321は、渡されるテキストを基に、言語解析処理を行い、フルコンテキストラベルを求める。渡されるテキストは、一例として、「一週間ばかりニューヨークを取材した。」というテキストである。フルコンテキストラベル抽出部321は、求めたフルコンテキストラベルを、入力ラベル作成部322に渡す。
【0090】
入力ラベル作成部322は、フルコンテキストラベル抽出部321から渡されるフルコンテキストラベルと、音響分析部33から渡されるポーズの情報およびピッチの情報とを基に、入力ラベルを作成する。フルコンテキストラベルに含まれる読み仮名(音素記号の列として表わされる)の情報は、そのまま、入力ラベル側に引き継がれる。また、入力ラベル作成部322は、音声信号を音響分析した結果であるポーズの情報に基づいて、ポーズの長さを区別するための記号を、入力ラベルに含める。また、入力ラベル作成部322は、音声信号を音響分析した音響分析結果であるピッチの情報に基づいて、隣接する句と句との間での相対的な音の高さを表す記号を、入力ラベルに含める。
【0091】
上記のように、本実施形態では、入力ラベルは、隣接する句(アクセント句)間での音の相対的な高さの情報を持つ。一方、従来技術(特許文献1)では、入力ラベルが隣接する句の間での音の相対的な高さの情報を持たなかった。このような本実施形態の入力ラベルを用いることにより、音響特徴量を推定して音声を合成する際に、隣接する句の間での相対的な音の高さを制御することができるようになる。
【0092】
また、上記のように、本実施形態では、入力ラベルは、句の区切りを指定する記号を必ず含む。一方、従来技術(特許文献1)では、句またはフレーズの区切りを指定する記号を使用しなくてもよい、としていた。このような本実施形態の入力ラベルを用いることにより、音響特徴量を推定して音声を合成する際に、正しいアクセントを再現できるようになる。
【0093】
また、上記のように、本実施形態では、入力ラベルは、ポーズ長の違いに応じた複数の(例として、5種類の)記号を用いる。一方、従来技術(特許文献1)では、ポーズを表す1種類のみの韻律記号を用いている。本実施形態では、音響特徴量を推定して音声を合成する際に、従来技術で不可能であったポーズ長の違いを表すことが可能となる。
【0094】
また、上記のように、本実施形態では、入力ラベルは、アクセント上昇位置を示す韻律記号を持たない。一方、従来技術(特許文献1)では、アクセント位置を指定する記号として、アクセント上昇位置を表す韻律記号、およびアクセント下降位置を表す韻律記号を用いていた。本実施形態では、入力ラベルがアクセント上昇位置を示す韻律記号を持たないため、入力ラベルにおいてアクセントの位置を表す記号の冗長性がない(または相対的に小さい)。即ち、より小さい冗長性で、音響特徴量推定モデルが、韻律記号と音響特徴量との関係の情報を持つことができる。つまり、本実施形態によれば、音響特徴量の推定精度が高まる。
【0095】
また、上記のように、本実施形態では、入力ラベルにおける読み仮名は、音素に対応する記号を用いて表現している。一方、従来技術(特許文献1)では、読み仮名はカタカナを用いて表現されている。本実施形態のように音素記号を用いて読み仮名を表現する場合には、カタカナを用いて表現する場合に比べて、使用する記号数が相対的に少ない。つまり、本実施形態での入力ラベルは、従来技術よりもデンス(dense)な表現空間での情報の表現となる。即ち、本実施形態では、このような入力ラベルを用いて音響特徴量推定モデルの学習を行うことにより、音響特徴量の推定精度が上がるという効果が得られる。
【0096】
つまり、本実施形態では、より高品質な音響特徴量を推定できるため、安定的に高品質な合成音声を生成することが可能となる。
【0097】
図9は、上記実施形態(変形例を含む)における信号処理装置1(少なくともその一部)の内部構成の例を示すブロック図である。信号処理装置1の少なくとも一部は、コンピューターを用いて実現され得る。図示するように、そのコンピューターは、中央処理装置901と、RAM902と、入出力ポート903と、入出力デバイス904や905等と、バス906と、を含んで構成される。コンピューター自体は、既存技術を用いて実現可能である。中央処理装置901は、RAM902等から読み込んだプログラムに含まれる命令を実行する。中央処理装置901は、各命令にしたがって、RAM902にデータを書き込んだり、RAM902からデータを読み出したり、算術演算や論理演算を行ったりする。RAM902は、データやプログラムを記憶する。RAM902に含まれる各要素は、アドレスを持ち、アドレスを用いてアクセスされ得るものである。なお、RAMは、「ランダムアクセスメモリー」の略である。入出力ポート903は、中央処理装置901が外部の入出力デバイス等とデータのやり取りを行うためのポートである。入出力デバイス904や905は、入出力デバイスである。入出力デバイス904や905は、入出力ポート903を介して中央処理装置901との間でデータをやりとりする。バス906は、コンピューター内部で使用される共通の通信路である。例えば、中央処理装置901は、バス906を介してRAM902のデータを読んだり書いたりする。また、例えば、中央処理装置901は、バス906を介して入出力ポートにアクセスする。
【0098】
上述した実施形態における信号処理装置1の少なくとも一部の機能をコンピューターおよびプログラムで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM、DVD-ROM、USBメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。つまり、「コンピューター読み取り可能な記録媒体」とは、非一過性の(non-transitory)コンピューター読み取り可能な記録媒体であってよい。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0099】
以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
【0100】
[変形例]
本実施形態では、上で説明したように、特徴量推定モデルの学習を行うための入力ラベルを作成するために、信号処理装置1は、下記の(1)から(4)までのすべてを実施するものであった。変形例として、信号処理装置1は、これら(1)から(4)のすべてを実施するものではなく、これらのちの少なくとも一部のみを実施するものであってよい。
【0101】
(1)音響分析部33は、音声信号に基づいてフレームごとのピッチを求める。言語解析部32は、音響分析部33が求めたピッチに基づいて、テキストに含まれる句について隣接する他の句に対する相対的な音の高さを表す記号を求め、句の区切りを表す記号に当該相対的な音の高さを表す記号を付加して入力ラベルに含める。
(2)音響分析部33は、音声信号が含む音素の区間を求めることによって、音声信号が含むポーズの時間長を求める。言語解析部32は、求められたポーズの時間長に基づいて、ポーズの時間長を区別するための韻律記号を入力ラベルに含める。
(3)言語解析部32は、韻律の情報としてはアクセントの上昇位置を表す記号を含まない入力ラベルを求める。
(4)言語解析部32は、テキストについての読み仮名の情報としては音素を表す記号の列による入力ラベルを求める。
【0102】
以上説明したように、本実施形態によれば、音響特徴量推定モデルによる推定精度を向上させることができる。このようなモデルを用いて推定された音響特徴量を使用することにより、音声信号生成モデルによって生成される合成音声は、高品質なものとなる。
【0103】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【産業上の利用可能性】
【0104】
本発明は、例えば、あらゆる産業における音声合成に利用できる。また、本発明は、音響特徴量推定モデルの学習に利用できる。但し、本発明の利用範囲はここに例示したものには限られない。
【符号の説明】
【0105】
1 信号処理装置
2 音声合成装置(信号処理装置)
3 モデル学習装置(信号処理装置)
14 音響特徴量推定モデル記憶部
15 音声信号生成モデル記憶部
21 入力テキスト記憶部
22 言語解析部
24 音響特徴量推定部
25 音声信号生成部
26 合成音声出力部
31 学習用音声コーパス記憶部
32 言語解析部
33 音響分析部
34 音響特徴量推定モデル学習部
35 音声信号生成モデル学習部
321 フルコンテキストラベル抽出部
322 入力ラベル作成部
901 中央処理装置
902 RAM
903 入出力ポート
904,905 入出力デバイス
906 バス