特開2024-134928 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧 ▶ 一般財団法人ＮＨＫエンジニアリングシステムの特許一覧

特開2024-134928音声合成モデル学習装置、音声合成装置及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024134928

(43)【公開日】2024-10-04

(54)【発明の名称】音声合成モデル学習装置、音声合成装置及びプログラム

(51)【国際特許分類】

G10L 13/06 20130101AFI20240927BHJP

G10L 21/043 20130101ALI20240927BHJP

G10L 21/0316 20130101ALI20240927BHJP

G10L 21/003 20130101ALI20240927BHJP

【ＦＩ】

G10L13/06 230A

G10L21/043

G10L21/0316

G10L21/003

【審査請求】未請求

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2023045381

(22)【出願日】2023-03-22

(71)【出願人】

【識別番号】000004352

【氏名又は名称】日本放送協会

(71)【出願人】

【識別番号】591053926

【氏名又は名称】一般財団法人ＮＨＫエンジニアリングシステム

(74)【代理人】

【識別番号】100141139

【弁理士】

【氏名又は名称】及川周

(74)【代理人】

【識別番号】100171446

【弁理士】

【氏名又は名称】高田尚幸

(74)【代理人】

【識別番号】100114937

【弁理士】

【氏名又は名称】松本裕幸

(74)【代理人】

【識別番号】100171930

【弁理士】

【氏名又は名称】木下郁一郎

(72)【発明者】

【氏名】清山信正

(72)【発明者】

【氏名】今井篤

(72)【発明者】

【氏名】熊野正

(57)【要約】

【課題】発話全体に所望の韻律制御が行われた任意のテキストの合成音を高品質かつ低遅延で生成する。
【解決手段】音声変換部は、発話の音声信号に種類及び倍率の組み合わせが異なる複数の韻律制御それぞれを行った拡張音声信号を生成する。タグ付与部は、発話のテキストデータに韻律制御を表すテキストデータのタグを付与して、拡張音声信号それぞれに対応した学習用入力ラベルを生成する。モデル学習部は、対応する拡張音声信号と学習用入力ラベルとの組を用いて音声合成モデルを学習する。音声合成部は、学習された音声合成モデルに、複数の韻律制御のうち所望の韻律制御のタグが付与された任意の発話内容のテキストデータである入力ラベルを入力して音声信号を得る。
【選択図】図１

【特許請求の範囲】

【請求項1】

発話の音声信号に種類及び倍率の組み合わせが異なる複数の韻律制御それぞれを行った拡張音声信号を生成する音声変換部と、
前記発話のテキストデータに前記拡張音声信号の生成のため前記音声信号に行われた前記韻律制御を表すテキストデータのタグを付与して、前記拡張音声信号それぞれに対応した学習用入力ラベルを生成するタグ付与部と、
対応する前記拡張音声信号と前記学習用入力ラベルとの組を用いて、前記複数の韻律制御のうち所望の韻律制御を表すタグが付与された任意の発話内容のテキストデータを入力し、入力された前記テキストデータに対応した音声信号を出力する音声合成モデルを学習するモデル学習部と、
を備える音声合成モデル学習装置。

【請求項2】

前記韻律制御の種類は、話速変換と、音量変換と、ピッチ変換と、抑揚変換とのうち一以上である、
請求項１に記載の音声合成モデル学習装置。

【請求項3】

前記タグ付与部は、前記発話のテキストデータに、前記韻律制御の単位の文又は句毎に前記タグを付与する、
請求項１又は請求項２に記載の音声合成モデル学習装置。

【請求項4】

入力されたテキストデータに対応した音声信号を出力する音声合成モデルであって、発話の音声信号に種類及び倍率の組み合わせが異なる複数の韻律制御それぞれを行って得られた拡張音声信号と、前記発話のテキストデータに前記拡張音声信号の生成のため前記音声信号に行われた前記韻律制御を表すテキストデータのタグを付与した学習用入力ラベルとを用いて学習された前記音声合成モデルに、前記複数の韻律制御のうち所望の韻律制御のタグが付与された任意の発話内容のテキストデータである入力ラベルを入力し、入力された前記入力ラベルに対応した音声信号を得る音声合成部、
を備える音声合成装置。

【請求項5】

前記韻律制御の種類は、話速変換と、音量変換と、ピッチ変換と、抑揚変換とのうち一以上である、
請求項４に記載の音声合成装置。

【請求項6】

前記発話内容のテキストデータに、前記韻律制御の単位の文又は句毎に前記所望の韻律制御のタグを付与して前記入力ラベルを生成するタグ付与部をさらに備える、
請求項４又は請求項５に記載の音声合成装置。

【請求項7】

対応する前記拡張音声信号と前記学習用入力ラベルとの組を用いて前記音声合成モデルを学習する学習部をさらに備える、
請求項４に記載の音声合成装置。

【請求項8】

コンピュータを、
請求項１に記載の音声合成モデル学習装置として機能させるためのプログラム。

【請求項9】

コンピュータを、
請求項４に記載の音声合成装置として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声合成モデル学習装置、音声合成装置及びプログラムに関する。

【背景技術】

【0002】

従来、対応するテキストと音声信号との組に基づいて深層学習（ＤＬ：Deep Learning）により統計モデルを学習し、学習した統計モデルを用いて任意のテキストに対する合成音声を得る技術がある（例えば、特許文献１参照）。この技術では、読み方を表す文字又は文字列と、韻律を表す韻律記号と、発話に与える特徴を表す発話スタイル記号とを用いたテキストデータを統計モデルの入力ラベルとすることにより、任意の発話テキストに対する所望の発話スタイルの合成音声信号を得る。

【0003】

また、従来、音声を分析して所望の倍率で話速を変換する技術がある（例えば、特許文献２参照）。この技術では、音声をフレーム単位で音響分析して無音／有音の区間に判別し、有音の区間についてはさらに無声／有声の区間に判別し、判別結果を利用して、所望の倍率に応じて話速を変更した変換音声を得る。

【0004】

また、従来、音量を変更する技術がある（例えば、非特許文献１参照）。この技術では、所望の音量に変更した変換音声を得る。

【0005】

また、従来、音声信号の声質変換を行う技術がある（例えば、特許文献３参照）。この技術では、音声信号から算出された周波数特性やスペクトル包絡に基づいて、声質変換処理が施された音声信号を得る。

【先行技術文献】

【特許文献】

【0006】

【特許文献1】特開２０２０－０３４８８３号公報

【特許文献2】特許第６２２４３２５号公報

【特許文献3】特許第６６１６９６２号公報

【非特許文献】

【0007】

【非特許文献1】"SoX - Sound eXchange"，2015年，［online］，[2023年3月1日検索]，インターネット<URL：https://sox.sourceforge.net/>

【発明の概要】

【発明が解決しようとする課題】

【0008】

特許文献１の技術では、発話全体に与える特徴は、感情、発話スタイル、又は、話者であり、韻律制御を対象としていない。特許文献１の技術を利用して発話全体に韻律制御された音声を得るには、特許文献１の方法で得られる合成音に対して、非特許文献１、特許文献２、３の技術を用いて、所望の種類の音声変換処理を所望の倍率で実施する必要がある。しかしながら、合成音を音声変換処理した場合、音響分析誤りによる品質劣化が生じる可能性があることに加え、音声変換処理による遅延が生じる。

【0009】

このように、品質劣化および音声変換処理による遅延を伴わずに、発話全体に所望の韻律制御を行った任意テキストの合成音声信号を求めることは困難であり、この問題を解決する方法はなかった。

【0010】

本発明は、このような事情を考慮してなされたものであり、発話全体に所望の韻律制御が行われた任意テキストの合成音を高品質かつ低遅延で生成することができる音声合成モデル学習装置、音声合成装置及びプログラムを提供する。

【課題を解決するための手段】

【0011】

［１］本発明の一態様は、発話の音声信号に種類及び倍率の組み合わせが異なる複数の韻律制御それぞれを行った拡張音声信号を生成する音声変換部と、前記発話のテキストデータに前記拡張音声信号の生成のため前記音声信号に行われた前記韻律制御を表すテキストデータのタグを付与して、前記拡張音声信号それぞれに対応した学習用入力ラベルを生成するタグ付与部と、対応する前記拡張音声信号と前記学習用入力ラベルとの組を用いて、前記複数の韻律制御のうち所望の韻律制御を表すタグが付与された任意の発話内容のテキストデータを入力し、入力された前記テキストデータに対応した音声信号を出力する音声合成モデルを学習するモデル学習部と、を備える音声合成モデル学習装置である。

【0012】

［２］本発明の一態様は、上述の音声合成モデル学習装置であって、前記韻律制御の種類は、話速変換と、音量変換と、ピッチ変換と、抑揚変換とのうち一以上である。

【0013】

［３］本発明の一態様は、上述の音声合成モデル学習装置であって、前記タグ付与部は、前記発話内容のテキストデータに、前記韻律制御の単位の文又は句毎に前記タグを付与する。

【0014】

［４］本発明の一態様は、入力されたテキストデータに対応した音声信号を出力する音声合成モデルであって、発話の音声信号に種類及び倍率の組み合わせが異なる複数の韻律制御それぞれを行って得られた拡張音声信号と、前記発話のテキストデータに前記拡張音声信号の生成のため前記音声信号に行われた前記韻律制御を表すテキストデータのタグを付与した学習用入力ラベルとを用いて学習された前記音声合成モデルに、前記複数の韻律制御のうち所望の韻律制御のタグが付与された任意の発話内容のテキストデータである入力ラベルを入力し、入力された前記入力ラベルに対応した音声信号を得る音声合成部、を備える音声合成装置である。

【0015】

［５］本発明の一態様は、上述の音声合成装置であって、前記韻律制御の種類は、話速変換と、音量変換と、ピッチ変換と、抑揚変換とのうち一以上である。

【0016】

［６］本発明の一態様は、上述の音声合成装置であって、前記発話内容のテキストデータに、前記韻律制御の単位の文又は句毎に前記所望の韻律制御のタグを付与して前記入力ラベルを生成するタグ付与部をさらに備える。

【0017】

［７］本発明の一態様は、上述の音声合成装置であって、対応する前記拡張音声信号と前記学習用入力ラベルとの組を用いて前記音声合成モデルを学習する学習部をさらに備える。

【0018】

［８］本発明の一態様は、コンピュータを、上述した音声合成モデル学習装置として機能させるためのプログラムである。

【0019】

［９］本発明の一態様は、コンピュータを、上述した音声合成装置として機能させるためのプログラムである。

【発明の効果】

【0020】

本発明によれば、所望の韻律制御が行われた任意テキストの合成音を高品質かつ低遅延で生成することが可能となる。

【図面の簡単な説明】

【0021】

【図1】本発明の実施形態による音声合成装置の動作概要を示す図である。

【図2】同実施形態による音声合成装置の機能ブロック図である。

【図3】同実施形態による入力ラベルの例を示す図である。

【図4】同実施形態による音声合成装置の学習処理を示すフロー図である。

【図5】同実施形態による音声合成装置の音声合成処理を示すフロー図である。

【図6】同実施形態による実験条件を示す図である。

【図7】同実施形態による実験結果を示す図である。

【図8】同実施形態による実験結果を示す図である。

【図9】同実施形態による音声合成装置のハードウェア構成例を示す図である。

【発明を実施するための形態】

【0022】

以下、図面を参照しながら本発明の実施形態を詳細に説明する。

【0023】

図１は、本発明の一実施形態による音声合成装置の動作概要を示す図である。本実施形態の音声合成装置は、まず、音声合成モデルの学習処理を行う。音声合成モデルは、テキストデータの入力ラベルを入力し、入力された入力ラベルに対応した推定の音声信号を出力する統計モデルである。学習処理の際は、事前に、学習用データとして音声コーパスを用意する。音声コーパスは、対応する音声信号と発話テキストとの組を複数含む。発話テキストは、対応する音声信号の発話内容が記述されたテキストデータである。音声合成装置は、音声コーパスに韻律制御を行って学習用データを拡張する。すなわち、音声合成装置は、音声コーパスに含まれる原音の音声信号に音声変換処理を施すことにより、１つの音声信号から種類及び倍率の組み合わせが異なる複数の韻律制御それぞれを行った音声信号を生成する。韻律制御の種類は、例えば、話速変換、音量変換、ピッチ変換、抑揚変換である。また、韻律制御の倍率は、離散値である。原音の音声信号に韻律制御を行って得られた音声信号を、拡張音声信号と記載する。音声合成装置は、発話テキストに、拡張音声信号の生成時に原音の音声信号に対して行った韻律制御の種類及び倍率を表すタグを付加し、学習用の入力ラベルを生成する。音声合成装置は、拡張音声信号と学習用の入力ラベルとの組を用いて、音声合成モデルを学習する。

【0024】

音声信号の合成時、本実施形態の音声合成装置は、音声合成用テキストを入力する。音声合成用テキストは、任意の発話内容を記述したテキストデータである。音声合成装置は、音声合成用テキストに、所望の種類及び所望の倍率の韻律制御のタグを付与した音声合成用の入力ラベルを生成する。音声合成装置は、生成した音声合成用入力ラベルを、事前に学習した音声合成モデルに入力することにより、推定の音声信号を出力として得る。これにより、音声合成装置は、任意の発話内容に、所望の韻律制御を施した品質の良い音声信号を、音声変換処理による遅延を伴うことなく生成することができる。なお、音声合成モデルの学習を音声合成モデル学習装置が行い、音声信号の合成を音声合成装置が行ってもよい。

【0025】

図２は、本実施形態による音声合成装置１の構成を示すブロック図である。図２に示す音声合成装置１は、音声合成モデル学習装置としても機能する。音声合成装置１は、例えば、コンピュータ装置により実現される。音声合成装置１は、入力部１０と、モデル記憶部２０と、学習部３０と、合成部４０と、出力部５０とを備える。

【0026】

入力部１０は、データを取得し、取得したデータを他の機能部へ入力する。入力部１０は、例えば、コンピュータ読み取り可能な記録媒体からデータを読み出してもよく、音声合成装置１と接続される他の装置からデータを受信又は読み出してもよい。また、入力部１０は、キーボード、ポインティングデバイス（マウス、タブレット等）、ボタン、タッチパネル等の既存の入力装置をユーザが操作することにより入力されたデータを取得してもよい。入力部１０は、学習用データ入力部１１及び合成用データ入力部１２を有する。学習用データ入力部１１は、音声コーパスを取得し、学習部３０に入力する。音声コーパスは、音声信号と発話テキストとの組を複数含む。合成用データ入力部１２は、音声合成用テキストを取得し、合成部４０に入力する。モデル記憶部２０は、入力ラベルに対応した推定の音声信号を出力する音声合成モデルを記憶する。

【0027】

学習部３０は、音声合成モデルを学習する。学習部３０は、学習用データ記憶部３１と、音声変換部３２と、タグ付与部３３と、モデル学習部３４とを有する。学習用データ記憶部３１は、学習用データ入力部１１から入力された音声コーパスを記憶する。音声変換部３２は、音声コーパスの音声信号に音声変換処理を施すことにより、複数の韻律制御それぞれが行われた拡張音声信号を生成する。タグ付与部３３は、音声コーパスの発話テキストに、音声変換部３２が音声信号に行った韻律制御の種類及び倍率を表すタグを付加し、発話テキストを拡張した学習用入力ラベルを生成する。モデル学習部３４は、拡張音声信号と学習用入力ラベルとの組を用いて、音声合成モデルを学習する。モデル学習部３４は、学習した音声合成モデルをモデル記憶部２０に格納する。

【0028】

合成部４０は、任意のテキストの発話に所望の韻律制御が行われた音声信号を生成する。合成部４０は、タグ付与部４１と、音声合成部４２とを有する。タグ付与部４１は、合成用データ入力部１２から入力された音声合成用テキストに、所望の韻律制御の種類及び倍率の組み合わせを表すタグを付加し、音声合成用入力ラベルを生成する。音声合成部４２は、学習部３０が学習した音声合成モデルに、タグ付与部４１が生成した音声合成用入力ラベルを入力することにより、推定の音声信号を得る。出力部５０は、音声合成部４２が生成した音声信号を出力する。出力は、スピーカからの出力でもよく、記録媒体への記録でもよく、音声合成装置１に接続されている他の装置などへの出力でもよい。

【0029】

図３は、発話内容のテキストと、音声合成モデルの入力ラベルの例を示す図である。ここでは、タグ付与部３３が発話テキストとしてテキストＴを取得した場合を例に説明する。テキストＴは、日本語の漢字仮名混じりのテキストデータである。タグ付与部３３は、テキストＴの文の先頭又は句の先頭に韻律制御を表すテキストデータのタグを付与し、タグ付きテキストＴａ又はタグ付きテキストＴｂを生成する。タグには、読みを表す文字、文字列又は記号とは異なる文字、文字列又は記号が用いられる。本実施形態では、韻律制御を表すタグは、韻律制御の種類をx、倍率をyとした場合、「<x_y>」と記述される。話速変換の場合はxに「s」が設定され、音量変換の場合はxに「e」が設定され、ピッチ変換の場合はxに「p」が設定され、抑揚変換の場合はxに「i」が設定され、原音の場合はxに「o」が設定される。また、倍率yには、離散値が設定される。なお、倍率yの範囲や、その範囲内における離散値は任意に設定可能である。

【0030】

タグ付きテキストＴａは、文単位で話速変換倍率を1.2に設定する場合の例を示す。文単位で韻律制御を行う場合、タグ付与部３３は、テキストＴの文の先頭に、韻律制御の種類及び倍率を表すタグ「<s_1.2>」を付加してタグ付きテキストＴａを生成する。タグ付与部３３は、例えば、形態素解析等を行って、タグ付きテキストＴａに含まれる漢字仮名混じりのテキストデータを、読みを表す文字、文字列又は記号に変換して学習用の入力ラベルＬａを作成する。

【0031】

一方、タグ付きテキストＴｂは、各句のピッチ変換倍率を0.8に設定する場合の例を示す。句単位で韻律制御を行う場合、タグ付与部３３は、テキストＴの各句の先頭に、その句に行う韻律制御の種類及び倍率を表すタグ「<p_0.8>」を付加してタグ付きテキストＴｂを生成する。タグ付与部３３は、例えば、形態素解析等を行って、タグ付きテキストＴｂに含まれる漢字仮名混じりのテキストデータを、読みを表す文字、文字列又は記号に変換して学習用の入力ラベルＬｂを作成する。

【0032】

図３では、入力ラベルＬａ、Ｌｂに読みを表す文字として片仮名を用いているが、平仮名、アルファベット、音素記号などを用いてもよい。また、漢字仮名混じりのテキストＴに代えて、読みを表す文字、文字列又は記号により記述されたテキストデータをテキストＴとして用いてもよい。この場合、タグ付与部３３は、テキストＴにタグを付与することにより、形態素解析を行わずに入力ラベルＬａ又は入力ラベルＬｂを作成できる。また、タグ付与部３３は、漢字仮名混じりのテキストＴに形態素解析を行って読みを表す文字、文字列又は記号により記述されたテキストデータ作成した後、タグを付与して入力ラベルＬａ又は入力ラベルＬｂを作成してもよい。

【0033】

音声合成時、タグ付与部４１は、タグ付与部３３と同様の処理により、テキストＴのように記述された漢字仮名混じりの音声合成用テキストの文の先頭又は句の先頭に所望の韻律制御を表すタグを付与し、漢字仮名混じりのテキストデータを読みを表す文字のテキストデータに変換して入力ラベルＬａ又は入力ラベルＬｂのように記述された音声合成用入力ラベルを生成する。

【0034】

なお、入力ラベルＬａ、Ｌｂは、中間言語で記述されたテキストデータに、韻律制御の種類及び倍率を表すタグを付与したものであってもよい。中間言語は、特許文献１に記載のように、読みを表す文字、文字列又は記号と、韻律記号とにより記述される。韻律記号には、読みを表す文字、文字列又は記号、及び、タグを表す文字、文字列又は記号とは異なる記号が用いられる。例えば、中間言語に読みを表す仮名と韻律記号とを用いる場合、韻律記号にはアクセント上昇記号を表す「’」、アクセント下降記号を表す「＼」、アクセント句の区切りを表す「／」、フレーズの区切りを表す「＃」、通常の文末を表す「＝」、疑問の文末を表す「？」、ポーズを表す「＄％」などを用いることができる。例えば、中間言語は、「ア’ラユ＼ル＃ゲ’ンジツオ＄％」のように記述される。なお、これらの韻律記号は一例であり、他の記号を用いてもよい。

【0035】

続いて、音声合成装置１の処理の例を説明する。図４は、音声合成装置１の学習処理を示すフロー図である。音声合成装置１の学習用データ入力部１１は、音声信号と発話テキストの組からなる音声コーパスを取得し、学習部３０に入力する（ステップＳ１１）。学習部３０の学習用データ記憶部３１は、入力された音声コーパスを記憶する。例えば、音声信号は、モノラルであり、標本化周波数２２．０５０ｋＨｚ、ビット数１６ｂｉｔで標本化されている。

【0036】

学習部３０は、所望の種類および所望の倍率の韻律制御により音声コーパスのデータ拡張を行う。韻律制御の種類には、話速変換、音量変換、ピッチ変換、抑揚変換の４種類が用いられる。ここでは、韻律制御の倍率には、各韻律制御の種類に対して0.5、0.6、0.7、0.8、0.9、1.2、1.4、1.6、1.8、2.0の１０段階を用い、全ての韻律制御の種類に共通して1.0を用いる。つまり、学習部３０は、４種類の韻律制御と１０段階の倍率との組み合わせによる４０個の学習用データを作成する。そして、学習部３０は、これら４０個の学習用データに、共通の倍率1.0の１個の学習用データを加えることにより、一つの音声信号を４１個の学習用データに拡張する。なお、この中でも音声変換処理による品質劣化を勘案すると、韻律制御の倍率の実用的な範囲は0.8～1.4である。

【0037】

学習部３０は、音声コーパスの音声信号と発話テキストとの組それぞれについて、以下のステップＳ１２～ステップＳ１４の処理を行う。ｎ組目（ｎ＝１，２，…）の音声信号及び発話テキストをそれぞれ、音声信号Ｖｎ及び発話テキストＴｎと記載する。学習部３０は、ステップＳ１２の処理とステップＳ１３の処理とを並行して行ってもよく、ステップＳ１３の処理をステップＳ１２の処理よりも先に行ってもよい。

【0038】

音声変換部３２は、音声コーパスの音声信号Ｖｎに音声変換処理を施し、話速変換（x=s）、音量変換（x=e）、ピッチ変換（x=p）、抑揚変換（x=i）の４つの種類xそれぞれについて、倍率yが0.5、0.6、0.7、0.8、0.9、1.2、1.4、1.6、1.8、2.0の１０段階の拡張音声信号Ｖｎ(x_y)を作成する（ステップＳ１２）。これにより、４０個の拡張音声信号Ｖｎ(x_y)と、原音の音声信号Ｖｎとを合わせて４１個の学習用音声信号が得られる。

【0039】

タグ付与部３３は、原音の音声信号Ｖｎに対応した発話テキストＴｎの文の先頭又は各句の先頭に、４０個の拡張音声信号Ｖｎ(x_y)それぞれに施された韻律制御の種類x及び倍率ｙを表すタグ「<x_y>」を付与し、タグ付きテキストＴｎ(x_y)を生成する。例えば、話速変換1.4倍の場合のタグは「<s_1.4>」であり、音量変換0.8倍の場合のタグは「<e_0.8>」であり、ピッチ変換1.2倍の場合のタグは「<p_1.2>」であり、抑揚変換0.9倍の場合のタグは「<i_0.9>」である。また、タグ付与部３３は、発話テキストＴｎにタグ「<o_1.0>」を付与し、原音の音声信号Ｖｎに対応したタグ付きテキストＴｎ(o_1.0)を生成する。なお、各文の先頭にタグを付与するか、各句の先頭にタグを付与するかは、音声コーパス全体で共通とする。タグ付きテキストＴｎ(x_y)及びＴｎ(o_1.0)は、図３のタグ付きテキストＴａ又はタグ付きテキストＴｂと同様に記述される。

【0040】

タグ付与部３３は、タグ付きテキストＴｎ(x_y)及びタグ付きテキストＴｎ(o_1.0)のそれぞれに含まれる発話が漢字仮名混じりのテキストである場合、その漢字仮名混じりのテキストを形態素解析し、読みを表す文字、文字列又は記号に変換する。これにより、タグ付きテキストＴｎ(x_y)から入力ラベルＬｎ(x_y)が生成され、タグ付きテキストＴｎ(o_1.0)から入力ラベルＬｎ(o_1.0)が生成される（ステップＳ１３）。入力ラベルＬｎ(x_y)及び入力ラベルＬｎ(o_1.0)は、図３の入力ラベルＬａ又は入力ラベルＬｂと同様に記述される。タグ付与部３３は、タグ付きテキストＴｎ(x_y)及びタグ付きテキストＴｎ(o_1.0)のそれぞれに含まれる漢字仮名混じりのテキストを形態素解析して中間言語に変換し、入力ラベルＬｎ(x_y)及び入力ラベルＬｎ(o_1.0)を生成してもよい。

【0041】

学習用データ記憶部３１は、４０個の拡張音声信号Ｖｎ(x_y)と入力ラベルＬｎ(x_y)との組と、原音の音声信号Ｖｎと入力ラベルＬｎ(o_1.0)との組とを、学習用音声信号と学習用入力ラベルとからなる４１個の学習用データとして記憶する（ステップＳ１４）。

【0042】

モデル学習部３４は、学習用データ記憶部３１に記憶された学習用データを用いて、音声合成モデルを学習する（ステップＳ１５）。例えば、モデル学習部３４は、学習用データ全体のうち、８割の音声コーパスから作成された学習用データを音声合成モデルの訓練用に、１割の音声コーパスから作成された学習用データを訓練パラメータ調整用に、１割の音声コーパスから作成された学習用データを音声合成モデルの評価用に使用して、音声合成モデルとして用いる統計モデルを学習する。この統計モデルの学習には、以下の参考文献１に記載された方法を利用することができる。

【0043】

（参考文献１）ESPnet，[2023年3月1日検索]，インターネット<URL：https://github.com/espnet/espnet

【0044】

音声合成モデルには、テキストから音声信号を推定するモデル（Ｔ２Ｗ：Text to Wave）の１段階の構造を用いてもよく、テキストから音響特徴量を推定する音響特徴量推定モデル（Ｔ２Ｍ：Text to Mel-Spectrogram）と、音響特徴量推定モデルにより推定された音響特徴量から音声信号を推定する音声信号推定モデル（Ｍ２Ｗ：Mel-Spectrogram to Wav）とからなる２段階の構造を用いてもよい。

【0045】

モデル学習部３４は、音声合成モデルがＴ２Ｗモデルの場合、学習用入力ラベルを入力に、学習用入力ラベルに対応した学習用音声信号を出力に用いて学習を行う。モデル学習部３４は、音声合成モデルがＴ２Ｍモデル及びＭ２Ｗモデルの２段階の構造の場合、学習用入力ラベルを入力に、学習用入力ラベルに対応した学習用音声信号から算出した音響特徴量を出力に用いてＴ２Ｍモデルを学習し、学習用音声信号から算出した音響特徴量を入力に、その学習用音声信号を出力としてＭ２Ｗモデルを学習する。あるいは、モデル学習部３４は、学習用入力ラベルを入力に、学習用入力ラベルに対応した学習用音声信号から算出した音響特徴量を出力に用いてＴ２Ｍモデルを先に学習した後、学習したＴ２Ｍモデルに学習用入力ラベルを入力して得られた音響特徴量を入力に、学習用入力ラベルに対応した学習用音声信号を出力に用いてＭ２Ｗモデルを学習してもよい。これらの音響特徴量は、フレーム単位のメルスペクトログラムである。モデル学習部３４は、学習した音声合成モデルをモデル記憶部２０に格納する。

【0046】

上記では、全ての韻律制御の種類とも同一の倍率及び段階を用いる例を示したが、韻律制御の種類によって倍率及び段階を変えてもよい。例えば、上記の例と同様に各韻律制御の種類に１０段階の倍率がある場合でも、話速変換（x=s）の倍率yには0.5、0.6、0.7、0.8、0.9、1.6、2.2、2.8、3.4、4.0を使用し、音量変換(x=e)の倍率yには0.00001、0.2、0.4、0.6、0.8、1.2、1.4、1,6、1.8、2.0を使用し、ピッチ変換(x=p)の倍率yには0.5、0.6、0.7、0.8、0.9、1.2、1.4、1.6、1.8、2.0を使用し、抑揚変換(x=i)の倍率yには0.0、0.2、0.4、0.6、0.8、1.2、1.4、1.6、1.8、2.0を使用してもよい。そしてさらに、話速変換、音量変換、ピッチ変換及び抑揚変換の全てに共通して1.0を用いる。

【0047】

図５は、音声合成装置１の音声合成処理を示すフロー図である。音声合成装置１の合成用データ入力部１２は、音声合成用テキストを合成部４０に入力する（ステップＳ２１）。音声合成用テキストは、日本語の漢字仮名混じりのテキストデータでもよく、読みを表す文字、文字列又は記号により記述されたテキストデータもよい。

【0048】

タグ付与部４１は、音声合成用テキストの文の先頭又は各句の先頭に、所望の韻律制御の種類及び倍率を表すタグを付与し、タグ付きテキストを生成する。所望の韻律制御の種類及び倍率は、例えば、合成用データ入力部１２により入力される。この韻律制御の種類及び倍率の組み合わせは、学習処理において使用されたものの中から選択される。図４のステップＳ１３において、各文の先頭にタグを付与して入力ラベルが生成された場合、タグ付与部４１は、音声合成用テキストの各文の先頭にタグを付与してタグ付きテキストを生成する。この場合、文単位で所望の韻律制御の種類及び倍率を指定可能である。例えば、音声合成用テキストが「これは日本語音声合成のテストです。」であり、所望の韻律制御の種類及び倍率が抑揚変換倍率1.2の場合、タグ付きテキストは、「<i_1.2> これは日本語音声合成のテストです。」となる。

【0049】

一方、図４のステップＳ１３において、各句の先頭にタグを付与して入力ラベルが生成された場合、タグ付与部４１は、音声合成用テキストの各句の先頭にタグを付与してタグ付きテキストを生成する。この場合、句単位で所望の韻律制御の種類及び倍率を指定可能である。例えば、音声合成用テキストが「これは日本語音声合成のテストです。」であり、部分的に音量倍率0.8を指定する場合、タグ付きテキストは、「<o_1.0> これは <e_0.8> 日本語 <e_0.8> 音声合成の <o_1.0> テストです。」となる。

【0050】

音声合成用テキストが漢字仮名混じりのテキストデータである場合、生成されるタグ付きテキストは、図３に示すタグ付きテキストＴａ又はタグ付きテキストＴｂと同様に記述される。タグ付与部４１は、形態素解析を行って、タグ付きテキストに含まれる漢字仮名混じりのテキストデータを、読みを表す文字、文字列又は記号に変換して音声合成用入力ラベルを生成する（ステップＳ２２）。音声合成用入力ラベルは、図３の入力ラベルＬａ又は入力ラベルＬｂと同様に記述される。なお、音声合成用テキストが読みを表す文字、文字列又は記号により記述されたテキストデータの場合、タグ付きテキストがそのまま入力ラベルとして用いられる。また、ステップＳ１４において生成された学習用入力ラベルに中間言語が用いられている場合、タグ付与部４１は、形態素解析を行って、タグ付きテキストに含まれる漢字仮名混じりのテキストデータを中間言語に変換し、音声合成用入力ラベルを生成するか、中間言語の音声合成用テキストにタグを付与して音声合成用入力ラベルを生成する。

【0051】

音声合成部４２は、モデル記憶部２０に記憶されている音声合成モデルと音声合成用入力ラベルとに基づいて、音声信号を得る（ステップＳ２３）。音声合成モデルがＴ２Ｗモデルである場合、音声合成部４２は、Ｔ２Ｗモデルに、音声合成用入力ラベルを入力し、出力として音声信号を得る。音声合成モデルがＴ２ＭモデルとＭ２Ｗモデルとから構成される場合、音声合成部４２は、Ｔ２Ｍモデルに、音声合成用入力ラベルを入力し、出力として推定の音響特徴量を得る。さらに、音声合成部４２は、得られた音響特徴量をＭ２Ｗモデルに入力し、出力として音声信号を得る。出力部５０は、得られた音声信号を出力する。

【0052】

上記の実施形態では、韻律制御の種類として話速変換、音量変換、ピッチ変換及び抑揚変換の４種類を用いたが、これらのうち一部を用いてもよい。

【0053】

続いて、本実施形態の有効性を確認するため評価実験について述べる。図６は、実験条件を示す図である。従来法と、本実施形態とのそれぞれにより、音声合成用テキストに対応した音声信号を生成した。韻律制御の倍率は、0.8～1.4倍の実用的な範囲で実施した。

【0054】

従来法及び本実施形態によるモデル学習のための音声コーパスとして、女性話者１名の７１８４文、約１０時間の音声と発話テキストを使用した。音声合成モデルの学習時に、７１８４文のうち６６８４文を訓練用に使用し、２５０文を訓練パラメータ調整用（開発）に使用し、２５０文を評価用に使用した。

【0055】

従来法では、上記の訓練用及び訓練パラメータ調整用の音声コーパスを用いて、Ｅ２Ｅ（End-to-End）音声合成モデルを学習した。そして、学習されたＥ２Ｅ音声合成モデルに評価用の音声コーパスの発話テキストを入力して合成音を生成し、生成された合成音に、話速、音量、ピッチ、抑揚の４種類それぞれの韻律制御を、韻律制御倍率0.8、0.9、1.0、1.2、1.4の５段階で行う音声変換処理を施し、２０種類の音声信号を得た。

【0056】

一方、本実施形態の手法では、音声合成装置１の学習部３０は、音声コーパスに、話速、音量、ピッチ、抑揚の４種類それぞれの韻律制御を、韻律制御倍率0.8、0.9、1.0、1.2、1.4の５段階で行う音声変換処理を施した。音声コーパスに施した音声変換処理は、従来法と同じである。これにより、学習部３０は、音声コーパスを２０倍の学習用データに拡張し、訓練用及び訓練パラメータ調整用の学習用データを、Ｅ２Ｅ音声合成モデルの学習に用いた。音声合成装置１の合成部４０は、評価用のコーパスの発話テキストを音声合成用テキストとし、上記の韻律制御の種類及び倍率の組み合わせを表すタグをそれぞれ付加した音声合成用入力ラベルを生成した。合成部４０は、生成した各音声合成用入力ラベルを、学習されたＥ２Ｅ音声合成モデルに入力することにより、２０種類の合成音の音声信号を直接作成した。

【0057】

従来法により得られた音声信号及び本実施形態の手法で得られた音声信号の客観評価尺度として、原音と合成音をフレームごとに対応付けたメルケプストラム距離（MCD）、原音と合成音をフレームごとに対応付けた対数ピッチ二乗平均平方根誤差（LF0_RMSE）、文字認識誤り率（CER）、及び、主観評価（５段階のMean Opinion Score）の推定値（UTMOS：参考文献２参照）を算出した。ここでは、韻律制御の種類ごとに、従来法と本実施形態の手法のそれぞれについてこれら客観評価尺度の平均と９５％信頼区間を算出した。さらに、音声合成用テキストの入力から音声信号が生成されるまでの処理時間を、合成音の時間長で除算したリアルタイム性能（RTF）を算出し、従来法と本実施形態の手法のそれぞれについて平均と９５％信頼区間を算出した。

【0058】

（参考文献２）UTMOS:Utokyo-SaruLab MOS Prediction System，[2023年3月13日検索]，インターネット<URL：https://github.com/sarulab-speech/UTMOS22>

【0059】

図７は、客観評価尺度の評価結果を示す図である。図７では、MCD、LF0_RMSE、CER、UTMOSそれぞれの９５％信頼区間における平均を示している。また、図８は、リアルタイム性能の評価結果を示す図である。図８では、リアルタイム性能（RTF）の９５％信頼区間における平均を示している。図７及び図８において、下矢印↓は値が低いほど評価が良い指標であり、上矢印↑は値が高いほど評価が良い指標であることを示す。また、図７及び図８において、下線は、有意に優れることを示す。

【0060】

図７に示す客観評価から、本実施形態の手法は従来法と同等か優れることがわかる。また、図８に示すリアルタイム性能から、本実施形態の手法は、従来法の約４倍高速なことがわかる。これらの結果から、本実施形態の有効性が確認された。

【0061】

上述の音声合成装置１は、内部にコンピュータシステムを有している。そして、音声合成装置１の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、ＣＰＵ（Central processing unit）及び各種メモリやＯＳ（Operation System）、周辺機器等のハードウェアを含むものである。また、音声合成装置１の機能の全て又は一部は、ＡＳＩＣ（Application specific integrated circuit）やＰＬＤ（Programmable logic device）やＦＰＧＡ（Field programmable gate array）等のハードウェアを用いて実現されてもよい。

【0062】

音声合成装置１は、１台以上のコンピュータ装置により実現してもよい。この場合、音声合成装置１の機能部をいずれのコンピュータ装置により実現するかは任意とすることができる。また、同一の機能部を複数のコンピュータ装置により実現してもよい。例えば、学習用データ入力部１１、モデル記憶部２０及び学習部３０を１台又は複数台のサーバコンピュータにより実現し、合成用データ入力部１２、合成部４０及び出力部５０をクライアント端末で実現してもよい。あるいは、学習用データ入力部１１、モデル記憶部２０、学習部３０及び音声合成部４２を１台又は複数台のサーバコンピュータにより実現し、合成用データ入力部１２、タグ付与部４１及び出力部５０をクライアント端末で実現してもよい。またあるいは、学習用データ入力部１１、モデル記憶部２０、学習部３０及び合成部４０を１台又は複数台のサーバコンピュータにより実現し、合成用データ入力部１２及び出力部５０をクライアント端末で実現してもよい。また、音声合成装置１が学習用データ入力部１１及び学習部３０を有せず、音声合成モデル学習装置が学習用データ入力部１１及び学習部３０を備えてもよい。この場合、音声合成モデル学習装置は、さらに、モデル記憶部２０を備えてもよい。

【0063】

図９は、音声合成装置１のハードウェア構成例を示す図である。音声合成装置１は、プロセッサ７１と、記憶部７２と、通信インタフェース７３と、ユーザインタフェース７４とを備える。プロセッサ７１は、演算や制御を行う中央演算装置である。プロセッサ７１は、例えば、ＣＰＵ（central processing unit）やＧＰＵ（Graphics Processing Unit）である。プロセッサ７１は、記憶部７２からプログラムを読み出して実行する。記憶部７２は、さらに、プロセッサ７１が各種プログラムを実行する際のワークエリアなどを有する。通信インタフェース７３は、他装置と通信可能に接続するものである。ユーザインタフェース７４は、ボタン、キーボード、ポインティングデバイスなどの入力装置や、ディスプレイなどの表示装置や、スピーカなどの音声出力装置である。

【0064】

音声変換部３２、タグ付与部３３、モデル学習部３４及び合成部４０の機能の全て又は一部は、プロセッサ７１が記憶部７２からプログラムを読み出して実行することより実現される。なお、これらの機能の全て又は一部は、ＡＳＩＣやＰＬＤ等のハードウェアを用いて実現されてもよい。

【0065】

以上説明した実施形態によれば、音声合成モデル学習装置は、音声変換部と、タグ付与部と、モデル学習部とを備える。音声変換部は、発話の音声信号に、種類及び倍率の組み合わせが異なる複数の韻律制御それぞれを行った拡張音声信号を生成する。タグ付与部は、発話のテキストデータに拡張音声信号の生成のため音声信号に行われた韻律制御を表すテキストデータのタグを付与して、拡張音声信号それぞれに対応した学習用入力ラベルを生成する。モデル学習部は、対応する拡張音声信号と学習用入力ラベルとの組を用いて、複数の韻律制御のうち所望の韻律制御を表すタグが付与された任意の発話のテキストデータを入力し、入力されたテキストデータに対応した音声信号を出力する音声合成モデルを学習する。

【0066】

また、音声合成装置は、音声合成部を備える。音声合成部は、入力されたテキストデータに対応した音声信号を出力する音声合成モデルであって、発話の音声信号に種類及び倍率の組み合わせが異なる複数の韻律制御それぞれを行って得られた拡張音声信号と、発話のテキストデータに拡張音声信号の生成のため音声信号に行われた韻律制御を表すテキストデータのタグを付与した学習用入力ラベルとを用いて学習された音声合成モデルに、複数の韻律制御のうち所望の韻律制御のタグが付与された任意の発話のテキストデータである入力ラベルを入力し、入力された入力ラベルに対応した音声信号を得る。

【0067】

韻律制御の種類は、話速変換と、音量変換と、ピッチ変換と、抑揚変換とのうち一以上である。

【0068】

音声合成モデル学習装置のタグ付与部は、発話のテキストデータに、韻律制御の単位の文又は句毎にタグを付与してもよい。また、音声合成装置は、発話内容のテキストデータに、韻律制御の単位の文又は句毎に所望の韻律制御のタグを付与して入力ラベルを生成するタグ付与部をさらに備えてもよい。また、音声合成装置は、音声合成モデル学習装置の各部を備えてもよい。

【0069】

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

【符号の説明】

【0070】

１音声合成装置
１０入力部
１１学習用データ入力部
１２合成用データ入力部
２０モデル記憶部
３０学習部
３１学習用データ記憶部
３２音声変換部
３３タグ付与部
３４モデル学習部
４０合成部
４１タグ付与部
４２音声合成部
５０出力部
７１プロセッサ
７２記憶部
７３通信インタフェース
７４ユーザインタフェース

【図1】