特許6578544 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社テクノスピーチの特許一覧 ▶ 国立大学法人　名古屋工業大学の特許一覧

特許6578544音声処理装置、および音声処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】6578544

(24)【登録日】2019年9月6日

(45)【発行日】2019年9月25日

(54)【発明の名称】音声処理装置、および音声処理方法

(51)【国際特許分類】

G10L 13/047 20130101AFI20190912BHJP

G10L 19/04 20130101ALI20190912BHJP

【ＦＩ】

G10L13/047 Z

G10L19/04

【請求項の数】6

【全頁数】14

(21)【出願番号】特願2019-110997(P2019-110997)

(22)【出願日】2019年6月14日

【審査請求日】2019年6月19日

【早期審査対象出願】

(73)【特許権者】

【識別番号】515327133

【氏名又は名称】株式会社テクノスピーチ

(73)【特許権者】

【識別番号】304021277

【氏名又は名称】国立大学法人名古屋工業大学

(74)【代理人】

【識別番号】110000028

【氏名又は名称】特許業務法人明成国際特許事務所

(72)【発明者】

【氏名】徳田恵一

(72)【発明者】

【氏名】大浦圭一郎

(72)【発明者】

【氏名】中村和寛

(72)【発明者】

【氏名】橋本佳

(72)【発明者】

【氏名】南角吉彦

【審査官】山下剛史

(56)【参考文献】

【文献】岡野原大輔，ＡＩ最前線第１６回，ＮＩＫＫＥＩＲｏｂｏｔｉｃｓ第１６号，日本，日経ＢＰ社

【文献】 Tanzir Islam Pial他，"End-to-End Speech Synthesis for Bngla with Text Normalization"，［online］，２０１８年９月１０日，ＵＲＬ，https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8457103&tag=1

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１３／００−１９／２６

(57)【特許請求の範囲】

【請求項1】

音声処理装置であって、
音声波形を生成するための音響特徴量を取得する取得部と、
ニューラルネットワークに前記音声波形の基本周波数に応じた周期波形信号を入力すると共に、前記音響特徴量を入力して、前記ニューラルネットワークが出力した情報を用いて変換処理を行うことで前記音声波形を生成する生成部を備え、
前記ニューラルネットワークは、非周期成分を生成するための第１情報と、周期成分を示す第２情報と、を出力し、
前記変換処理は、前記第１情報と非周期波形信号とを用いて演算処理を行った情報と、前記第２情報とを足し合わせる処理である、音声処理装置。

【請求項2】

請求項１に記載の音声処理装置であって、
前記第１情報は、予め定められた周波数帯域毎の非周期成分の強さを示す情報であり、
前記変換処理は、前記周波数帯域毎の非周期波形信号に、それぞれ対応する前記第１情報を掛け合わせた情報と、前記第２情報とを足し合わせる処理である、音声処理装置。

【請求項3】

請求項１または請求項２に記載の音声処理装置であって、
前記生成部は、前記ニューラルネットワークに、更に、生成しようとする音声波形に応じた周期の有無の程度を示す信号を入力する、音声処理装置。

【請求項4】

請求項１から請求項３までのいずれか一項に記載の音声処理装置であって、
前記生成部は、位相が異なる複数の前記周期波形信号を前記ニューラルネットワークに入力する、音声処理装置。

【請求項5】

請求項１から請求項４までのいずれか一項に記載の音声処理装置であって、更に、
前記音響特徴量と前記周期波形信号と前記第１情報と前記第２情報との関係を機械学習によって学習して前記ニューラルネットワークに反映させる学習部を備える、音声処理装置。

【請求項6】

音声処理方法であって、
音声波形を生成するための音響特徴量を取得する取得工程と、
ニューラルネットワークに前記音声波形の基本周波数に応じた周期波形信号を入力すると共に、前記音響特徴量を入力して、前記ニューラルネットワークが出力した情報を用いて変換処理を行うことで前記音声波形を生成する生成工程を備え、
前記ニューラルネットワークは、非周期成分を生成するための第１情報と、周期成分を示す第２情報と、を出力し、
前記変換処理は、前記第１情報と非周期波形信号とを用いて演算処理を行った情報と、前記第２情報とを足し合わせる処理である、音声処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声処理装置、および音声処理方法に関する。

【背景技術】

【0002】

近年の音声処理装置として、ニューラルネットワークを用いて音声波形を生成するものが知られている。非特許文献１や非特許文献２に記載された技術では、畳み込みを用いたニューラルネットワークによって音声波形を生成している。また、非特許文献３に記載された技術では、非特許文献１や非特許文献２に記載された技術を応用して音響特徴量から音声波形を生成している。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】Ａ．ｖａｎｄｅｎＯｏｒｄ他， ”Ｗａｖｅｎｅｔ：ＡＧｅｎｅｒａｔｉｖｅＭｏｄｅｌｆｏｒＲａｗＡｕｄｉｏ”，ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１６０９．０３４９９，２０１６

【非特許文献2】Ａ．ｖａｎｄｅｎＯｏｒｄ他， ”ＰａｒａｌｌｅｌＷａｖｅＮｅｔ：ＦａｓｔＨｉｇｈ−ＦｉｄｅｌｉｔｙＳｐｅｅｃｈＳｙｎｔｈｅｓｉｓ” ，ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１７１１．１０４３３，２０１７

【非特許文献3】ＡｋｉｒａＴａｍａｍｏｒｉ他， ”Ｓｐｅａｋｅｒ−ｄｅｐｅｎｄｅｎｔＷａｖｅｎｅｔｖｏｃｏｄｅｒ”，Ｉｎ：ＩＮＴＥＲＳＰＥＥＣＨ，ｐｐ．１１１８−１１２２，Ａｕｇ．２０１７

【非特許文献4】ＴａｋｕｈｉｒｏＫａｎｅｋｏ他， ”ＣｙｃｌｅＧＡＮ−ＶＣ：Ｎｏｎ−ｐａｒａｌｌｅｌＶｏｉｃｅＣｏｎｖｅｒｓｉｏｎＵｓｉｎｇＣｙｃｌｅ−ＣｏｎｓｉｓｔｅｎｔＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ”，５ｔｈＥＵＲＡＳＩＰＣｏｎｆｅｒｅｎｃｅｏｎ，２０１６，ｐｐ．２１１４−２１１８

【発明の概要】

【発明が解決しようとする課題】

【0004】

非特許文献３に記載された技術では、音響特徴量であるスペクトル情報や基本周波数情報などを補助情報として用いて音声波形を生成している。このようなニューラルネットワークを用いた音声処理技術の分野では高品位な音声波形を生成可能な技術や、所望の音高の音声波形を生成可能な技術が望まれている。

【課題を解決するための手段】

【0005】

本発明は、上述の課題を解決するためになされたものであり、以下の形態として実現することが可能である。

【0006】

（１）本発明の一形態によれば、音声処理装置が提供される。この音声処理装置は、音声波形を生成するための音響特徴量を取得する取得部と、ニューラルネットワークに前記音声波形の基本周波数に応じた周期波形信号を入力すると共に、前記音響特徴量を入力して、前記ニューラルネットワークが出力した情報を用いて変換処理を行うことで前記音声波形を生成する生成部を備える。前記ニューラルネットワークは、非周期成分を生成するための第１情報と、周期成分を示す第２情報と、を出力し、前記変換処理は、前記第１情報と非周期波形信号とを用いて演算処理を行った情報と、前記第２情報とを足し合わせる処理である。この形態の音声処理装置によれば、非周期成分を生成するための第１情報と非周期波形信号とを用いて演算処理を行った情報と、周期成分を示す第２情報とを足し合わせて音声波形を生成するため、高品位で、所望の音高の音声波形を生成できる。
（２）上記形態の音声処理において、前記第１情報は、予め定められた周波数帯域毎の非周期成分の強さを示す情報であり、前記変換処理は、前記周波数帯域毎の非周期波形信号に、それぞれ対応する前記第１情報を掛け合わせた情報と、前記第２情報とを足し合わせる処理でもよい。この形態の音声処理装置によれば、予め定められた周波数帯域毎の非周期波形信号に、対応する周波数帯域毎の非周期成分の強さを示す第１情報を掛け合わせた情報と、周期成分を示す第２情報とを足し合わせて音声波形を生成するため、高品位で、所望の音高の音声波形を生成できる。
（３）上記形態の音声処理装置において、前記生成部は、前記ニューラルネットワークに、更に、生成しようとする音声波形に応じた周期の有無の程度を示す信号を入力してもよい。この形態の音声処理装置によれば、例えば、生成しようとする音声波形の無音部分や、無声子音の部分といった励振源に関する情報に応じて、高品位な音声波形を生成できる。
（４）上記形態の音声処理装置において、前記生成部は、位相が異なる複数の前記周期波形信号を前記ニューラルネットワークに入力してもよい。この形態の音声処理装置によれば、より効果的に、所望の基本周波数を有する音声波形を生成できる。
（５）上記形態の音声処理装置において、更に、前記音響特徴量と前記周期波形信号と前記第１情報と前記第２情報との関係を機械学習によって学習して前記ニューラルネットワークに反映させる学習部を備えてもよい。この形態の音声処理装置によれば、音響特徴量と音声波形との関係を学習でき、生成部に学習結果を反映できる。

【0007】

なお、本発明は、種々の態様で実現することが可能である。例えば、この形態の音声処理装置を利用した音声処理システム、音声処理装置や音声処理システムの機能を実現するために情報処理装置において実行される方法、コンピュータプログラム、そのコンピュータプログラムを配布するためのサーバ装置、そのコンピュータプログラムを記憶した一時的でない記憶媒体等の形態で実現することができる。

【図面の簡単な説明】

【0008】

【図1】音声処理装置の概要を示す説明図である。

【図2】音響特徴量における各種のパラメータの一例を示す図である。

【図3】第１実施形態におけるニューラルネットワークについて説明するための説明図である。

【図4】音声波形の生成における変換処理について説明するための説明図である。

【図5】音声波形生成処理を表すフローチャートである。

【図6】ニューラルネットワークの他の態様を示す説明図である。

【図7】生成した音声波形の一例を示す図である。

【図8】主観評価実験の実験結果を示した図である。

【図9】周期補助信号の一例を示す図である。

【図10】位相が異なる複数の周期波形信号の一例の図である。

【発明を実施するための形態】

【0009】

Ａ．第１実施形態：
図１は、本発明の一実施形態における音声処理装置１００の概要を示す説明図である。音声処理装置１００は、取得部１０と、生成部２０と、学習部３０と、を備える。取得部１０と、生成部２０と、学習部３０とは、１以上のＣＰＵやＧＰＵがメモリに記憶されたプログラムを実行することにより、ソフトウェア的に実現される。なおこれらの一部または全部は、回路によってハードウェア的に実現されてもよい。

【0010】

取得部１０は、音声波形を生成するための音響特徴量を取得する。音響特徴量の詳細については後述する。取得部１０は、例えば、予め録音された音声の音声波形から周知の音声分析技術を用いて音響特徴量を抽出してもよく、発語対象のテキストや楽譜に応じて予め生成された音響特徴量を取得してもよい。

【0011】

生成部２０は、ノイズ発生源２１と、バンドパスフィルタ部２２とを有する。ノイズ発生源２１は、非周期波形信号を生成する。非周期波形信号とは、ノイズを表す信号であり、例えば、ガウス雑音である。バンドパスフィルタ部２２は、ノイズ発生源２１が生成した非周期波形信号に対して、予め定められた周波数帯域毎にフィルタ処理を行い、周波数帯域が異なる複数の非周期波形信号を生成する。

【0012】

生成部２０は、複数の出力チャネルを有するニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）が出力した情報を用いて変換処理を行うことで音声波形を生成する。生成部２０は、ニューラルネットワークの入力層に、生成する音声波形の基本周波数に応じた周期波形信号を入力すると共に、取得部１０が取得した音響特徴量を補助情報としてニューラルネットワークに入力して、第１情報および第２情報を出力させる。

【0013】

周期波形信号とは、生成を行う音声波形の基本周波数に応じた周期波形信号である。周期波形信号は、発話スタイルや歌唱スタイル等を含んでいてもよい。例えば、ビブラートが付与された音声波形を生成する場合は、ビブラートが付与された状態の基本周波数に応じた周期波形信号でもよい。周期波形信号は、例えば、生成を行う音声波形の基本周波数と同じ周波数のサイン波形の信号や、生成を行う音声波形の基本周波数より１オクターブ高い周波数のコサイン波形の信号である。また、周期波形信号は、非正弦波である三角波、のこぎり波、短径波やパルス波の信号でもよい。生成を行う音声波形の基本周波数は、例えば、予め録音された音声の音声波形から周知の音声分析技術を用いて基本周波数を求めてもよく、発語対象のテキストや楽譜に応じて予め生成された基本周波数を用いてもよい。

【0014】

生成部２０は、ニューラルネットワークが出力した第１情報と第２情報と、ノイズ発生源２１が生成した非周期波形信号と、を用いて変換処理を行い、音声波形を生成する。本実施形態では、生成部２０は、第１情報と、第２情報と、バンドパスフィルタ部２２が生成した非周期波形信号と、を用いて変換処理を行う。第１情報とは、非周期成分を生成するための情報であり、本実施形態では予め定められた周波数帯域毎の非周期成分の強さを示す情報である。第２情報は、周期成分を示す情報であり、より具体的には、周期成分をサンプリング周期毎にサンプリングした振幅情報である。変換処理の詳細については後述する。

【0015】

学習部３０は、音響特徴量と、周期波形信号と、第１情報と、第２情報と、の関係を教師有り機械学習、もしくは、教師無し機械学習（例えば、非特許文献４参照）によって学習し、ニューラルネットワークで用いられる各種のパラメータを最適化する。教師有り機械学習では、例えば、生成しようとする音声波形の自然音声を教師データとし、第１情報と第２情報とを用いて変換処理を行った結果と比較して学習する。学習部３０は、学習結果を生成部２０が用いるニューラルネットワークに反映させる。こうすることにより、生成部２０は、学習部３０の学習結果を反映して音声波形の生成を行うことができる。音声処理装置１００は、学習部３０を備えていなくてもよい。この場合、生成部２０は、外部の機械学習を行う学習装置等によって得られた学習結果を反映して、後述する変換処理によって第１情報と第２情報とから音声波形の生成を行うことができる。

【0016】

図２は、音響特徴量における各種のパラメータの一例を示す図である。本実施形態において、音響特徴量は、音声の特徴量である。スペクトルパラメータとしては、メルケプストラムや線スペクトル対（ＬｉｎｅＳｐｅｃｔｒｕｍＰａｉｒ（ＬＳＰ））などがある。これらは、スペクトル情報と呼ばれることがある。音源情報としては、基本周波数がある。基本周波数は、一般に対数基本周波数として扱われており、その関連パラメータとしては、有声／無声の区別や、非周期性指標が考えられる。なお、無声部分は対数基本周波数の値を持たないため、有声／無声の区別を音源情報に含める代わりに、無声部分に所定の定数を入れる等の方法によって有声／無声の区別を行ってもよい。なお、音源情報における基本周波数は、上述した周期波形信号に含まれる情報であるため、省略してもよい。また、有声／無声の区別に関する情報も、後述する周期補助信号に含まれる情報であるため、省略してもよい。また、スペクトル情報や音源情報は、発話スタイルや歌唱スタイル等を含んでいてもよい。例えば、スペクトル情報として、音の大きさのビブラートが付与された状態のスペクトル情報を用いることができる。

【0017】

図３は、生成部２０によって用いられるニューラルネットワークについて説明するための説明図である。ニューラルネットワーク２００は、複数のｄｉｌａｔｉｏｎ層Ｌ１〜Ｌ４を備える。ｄｉｌａｔｉｏｎ層の数は任意に定める事ができる。なお「ｄｉｌａｔｉｏｎ層」のことを「拡張層」や「中間層」ともいう。

【0018】

ｄｉｌａｔｉｏｎ層Ｌ１は、情報が入力される層である。以下、「入力層」ともいう。ｄｉｌａｔｉｏｎ層Ｌ１は、入力された信号に基づいて初期演算処理と情報畳み込みを行い、ｄｉｌａｔｉｏｎ層Ｌ２〜Ｌ４は、下層から伝達される情報に基づいて情報の畳み込みを行う。各層には、複数のノードが含まれる。

【0019】

ニューラルネットワーク２００による第１情報および第２情報の生成について説明する。図３には、第１情報を「ａ１」、「ａ２」…と示しており、第２情報を「ｂ」と示している。以下ではこれらの情報のことを「データ」ともいう。本実施形態では、ニューラルネットワーク２００によって、２４個の第１情報が生成される。周期波形信号のサンプルＳ１〜Ｓ８は、ｄｉｌａｔｉｏｎ層Ｌ１で初期演算処理が行われた後、各ノードＮ１〜Ｎ８に時系列順に入力される。ｄｉｌａｔｉｏｎ層Ｌ１の各ノードＮ１〜Ｎ８は、それらの情報に畳み込みを行った情報を上層であるｄｉｌａｔｉｏｎ層Ｌ２に伝達する。図示の便宜上、図３に示すｄｉｌａｔｉｏｎ層Ｌ１には、８個の周期波形信号のサンプルＳ１〜Ｓ８が入力されているが、入力されるサンプルの数は任意に定める事ができ、例えば３０００個である。

【0020】

ｄｉｌａｔｉｏｎ層Ｌ２〜Ｌ４では、入力層Ｌ１から伝達された情報に対して種々の演算が各層において段階的に行われる。入力層Ｌ１の各ノードＮ１〜Ｎ８やｄｉｌａｔｉｏｎ層Ｌ２〜Ｌ４の各ノードには、補助情報ＡＩとして各サンプルに対応する音響特徴量が入力される。なお、ｄｉｌａｔｉｏｎ層Ｌ２〜Ｌ４にも、下層から伝達された情報に加えて、周期波形信号のサンプルが入力されてもよい。ｄｉｌａｔｉｏｎ層Ｌ４において、最終的に演算されたデータと、各層の最右のノードのデータ、つまり時系列において最も先のデータが入力されるノードのデータとを足しあわせて演算処理を行うことで、データＤＡが出力される。本実施形態において、データＤＡは、時系列において、入力されたサンプルＳ８の時点の２４個に区分された周波数帯域毎の非周期成分の強さを示す第１情報ａ１〜ａ２４および、入力されたサンプルＳ８の時点の音声サンプルの周期成分として予測された振幅情報である第２情報ｂである。本実施形態におけるニューラルネットワーク２００は、時系列において近いサンプルであるほど、出力されるデータＤＡに強い影響を与えやすい構造となっている。具体的には、サンプルＳ８の方が、サンプルＳ１よりも、データＤＡの予測に影響を与えやすい。

【0021】

図４は、音声波形の生成における変換処理について説明するための説明図である。生成部２０は、バンドパスフィルタ部２２が生成した周波数帯域毎の非周期波形信号ｎｚ１〜ｎｚ２４に、対応する第１情報ａ１〜ａ２４をそれぞれ掛け合わせた情報と、第２情報ｂとを足し合わせることで音声波形を生成する。第１情報ａ１〜ａ２４をそれぞれ非周期波形信号ｎｚ１〜ｎｚ２４に掛け合わせた情報と第２情報ｂとは、全てが合算されればよく、第１情報ａ１〜ａ２４をそれぞれ非周期波形信号ｎｚ１〜ｎｚ２４に掛け合わせた情報を足し合わせてから第２情報ｂを足し合わせてもよいし、第１情報ａ１〜ａ２４をそれぞれ非周期波形信号ｎｚ１〜ｎｚ２４に掛け合わせた情報と第２情報ｂとを同時に足し合わせてもよい。第１情報ａ１〜ａ２４および非周期波形信号ｎｚ１〜ｎｚ２４における周波数帯域は、例えば、１０００Ｈｚ毎に区切られた帯域である。非周期波形信号ｎｚ１〜ｎｚ２４は、例えば、バンドパスフィルタ部２２によって生成された周波数帯域が異なるガウスノイズである。なお、本実施形態において、周波数帯域は２４個に区分されているが、区分数はこれに限らない。

【0022】

図５は、本実施形態における音声処理装置１００を用いた音声波形生成処理を表すフローチャートである。まず、取得部１０が、ステップＳ１００で音響特徴量を取得する。次に、生成部２０が、ステップＳ１１０において、ステップＳ１００で取得した音響特徴量と予め定められた期間分の周期波形信号をニューラルネットワークに入力して、予め定められた周波数帯域毎の非周期成分の強さを示す第１情報と、周期成分を示す第２情報とを出力させる。最後に、生成部２０が、ステップＳ１２０において、ステップＳ１１０でニューラルネットワークが出力した情報を用いて変換処理を行い、音声波形を生成する。

【0023】

以上で説明した本実施形態の音声処理装置１００によれば、生成部２０は、非周期成分を生成するための第１情報と非周期波形信号とを用いて演算処理を行った情報と、周期成分を示す第２情報とを足し合わせて音声波形を生成している。より具体的には、バンドパスフィルタ部２２が生成した予め定められた周波数帯域毎の非周期波形信号に、対応する周波数帯域毎の非周期成分の強さを示す第１情報を掛け合わせた情報と、周期成分を示す第２情報とを足し合わせて音声波形を生成するため、高品位で所望の音高の音声波形を生成できる。また、ニューラルネットワーク自身が出力したデータをニューラルネットワークに入力して次のデータを予測する自己回帰構造のニューラルネットワークよりも高速に音声波形を生成できる。また、学習部３０によって音響特徴量と周期波形信号と第１情報と第２情報との関係を学習でき、生成部２０に学習結果を反映できる。また、学習部３０の学習範囲から大きく外れた基本周波数の音声波形であっても、生成部２０は、生成を行おうとする音声波形の基本周波数に応じた周期波形信号を、ニューラルネットワークの入力層に入力して音声波形を生成するため、所望の音高を有する音声波形を生成できる。

【0024】

図６は、ニューラルネットワークの他の態様を示す説明図である。図６に示すニューラルネットワークは、図３に示したニューラルネットワークの構造が左右対称に備えられる事により構成されている。入力層Ｌ１には、第１実施形態と同様に、周期波形信号のサンプルが入力される。本実施形態のニューラルネットワークの入力層Ｌ１には、出力されるデータＤＡの時系列における過去の周期波形信号のサンプルと未来の周期波形信号のサンプルが入力される。より具体的には、ノードＮ１〜Ｎ７までには、過去の周期波形信号のサンプルＳ１〜Ｓ７に初期演算処理を行った情報が入力され、ノードＮ８には現在の周期波形信号のサンプルＳ８に初期演算処理を行った情報が入力され、ノードＮ９〜Ｎ１５には、未来の周期波形信号のサンプルＳ９〜Ｓ１５に初期演算処理を行った情報が入力される。また、各ノードでは、第１実施形態と同様に、補助情報として音響特徴量が入力される。図６に示すニューラルネットワーク２００は、時系列において近いサンプルであるほど、出力されるデータＤＡに強い影響を与えやすい構造となっている。具体的には、データＤＡの予測には、サンプルＳ８の方が、サンプルＳ１やサンプルＳ１５よりも、強い影響を与えやすい。このようなニューラルネットワークを用いれば、生成するデータの時系列における過去の周期波形信号のサンプルだけでなく、未来の周期波形信号のサンプルを入力するため、より高品位な音声波形を生成できる。

【0025】

図７は、実施例において生成した音声波形の一例を示す図である。上段に示す波形は、目標音声波形であり、音声処理によって生成しようとする波形である。中段に示す波形は、実施例において生成した音声波形である。下段に示す波形は、ニューラルネットワークに入力した周期波形信号であり、目標音声波形と同じ基本周波数のサイン波形である。図７に示すように、実施例において生成した音声波形は、同じ周期Ｔで変動しており、目標音声波形と同じ基本周波数となった。

【0026】

実験結果：
図８は、生成した音声波形に対する主観評価実験の実験結果である平均オピニオン評点（ＭｅａｎＯｐｉｎｉｏｎＳｃｏｒｅ（ＭＯＳ））を示した図である。本実験において、４手法の合成音声の品質を、「１：非常に悪い、２：悪い、３：普通、４：良い、５：非常に良い」の５段階の主観評価実験によって評価した。図８には４手法のうちの２手法のスコアを示す。被験者は１６人であり、各被験者はテストデータである１０曲から各手法につき１０フレーズを評価した。評価対象である合成音声の音声波形は、２手法とも同じ音響特徴量を用いて生成した。

【0027】

実施例は、上述した実施形態１の音声処理装置１００および図６に示したニューラルネットワークを用いて音声波形を生成した。比較例は、ｗａｖｅｎｅｔ（非特許文献１記載）のニューラルネットワークを用いたボコーダ技術によって音声波形を生成した。ｗａｖｅｎｅｔのニューラルネットワークには、実施例と同一の音響特徴量を入力した。図８に示すように、実施例のスコアは、比較例のスコアよりも高かった。つまり、生成部２０が上記実施形態に従って音声波形を生成すると、より高品位に音声波形を生成できる。なお、図８に示していない残りの２手法は、（１）人間の歌唱によるオリジナル音声をそのまま出力したものと、（２）実施例と同一の手法であって、実施例におけるニューラルネットワークを音声処理装置１００の学習部３０によって教師無し機械学習（例えば、非特許文献４参照）によって最適化した学習済みのニューラルネットワークを用いた音声波形の生成手法である。

【0028】

Ｂ．第２実施形態：
第２実施形態における生成部２０は、ニューラルネットワークの入力層に、更に、生成しようとする音声波形に応じた周期の有無の程度を示す信号（以下、「周期補助信号」という）を入力して音声波形を生成する点が第１実施形態と異なる。第２実施形態の音声処理装置１００の構成は、第１実施形態の音声処理装置１００の構成と同様であるため、構成の説明は省略する。

【0029】

本実施形態において、生成部２０は、ニューラルネットワークの入力層Ｌ１に、周期波形信号と周期補助信号とを入力する。つまり、本実施形態において、生成部２０が用いるニューラルネットワークの入力層のノードは、２つの入力チャネルを有している。例えば、第１のチャネルには、周期波形信号のサンプルが入力され、第２のチャネルには、周期補助信号のサンプルが入力される。なお、チャネルの順序は任意に定める事ができる。

【0030】

周期補助信号は、周期波形が始まる境界位置と終わる境界位置に応じて定める事ができ、非周期波形の部分を０、周期波形の部分を１とした、０〜１の値で表現できる。例えば、周期波形が始まる境界位置における周期補助信号は、無声から有声に切り替わる境界の２４０サンプル前の位置から２４０サンプル後の位置までを０．０から１．０にサンプル単位で線形補間した信号であり、周期波形が終わる境界位置における周期補助信号は、有声から無声に切り替わる境界の２４０サンプル前の位置から２４０サンプル後の位置までを１．０から０．０にサンプル単位で線形補間した信号である。図９は、周期補助信号の一例を示す図である。また、周期補助信号は、音素やフレーム毎の値を線形補間したデータでもよい。

【0031】

以上で説明した本実施形態の音声処理装置１００によれば、生成部２０は、周期波形信号を、直接的にニューラルネットワークの入力層に入力して音声波形を生成するため、所望の基本周波数を有する音声波形を生成できる。また、生成部２０は、ニューラルネットワークの入力層に、更に、周期補助信号を入力するため、例えば、生成しようとする音声波形の無音部分や、無声子音の部分といった励振源に関する情報に応じて、高品位な音声波形を生成できる。

【0032】

Ｃ．第３実施形態：
第３実施形態における生成部２０は、位相が異なる複数の周期波形信号をニューラルネットワークの入力層に入力して音声波形を生成する点が第１実施形態と異なる。第３実施形態の音声処理装置１００の構成は、第１実施形態の音声処理装置１００の構成と同様であるため、構成の説明は省略する。

【0033】

図１０は、位相が異なる複数の周期波形信号の一例の図である。本実施形態において、生成部２０は、ニューラルネットワークの入力層Ｌ１に、周期波形信号Ｗｓと周期波形信号Ｗｃとを入力する。つまり、本実施形態において、生成部２０が用いるニューラルネットワークの入力層のノードは、２つの入力チャネルを有している。第１のチャネルには、周期波形信号Ｗｓのサンプルが入力され、第２のチャネルには、周期波形信号Ｗｃのサンプルが入力される。なお、チャネルの順序は任意に定める事ができる。

【0034】

周期波形信号Ｗｓは、生成を行う音声波形と同じ基本周波数を有するサイン波形であり、周期波形信号Ｗｃは、生成を行う音声波形と同じ基本周波数を有するコサイン波形である。図１０に示すように、周期波形信号Ｗｓは、上昇時であるタイミングｔ１の場合の振幅の値と、下降時であるタイミングｔ２の場合の値とは、どちらも振幅Ａ１であるが、タイミングｔ１における周期波形信号Ｗｃは振幅Ａ２であり、タイミングｔ２における周期波形信号Ｗｃは振幅Ａ２と異なる値の振幅Ａ３である。従って、生成部２０の用いるニューラルネットワークは、周期波形信号Ｗｓが振幅Ａ１の場合、周期波形信号Ｗｃが振幅Ａ２であれば上昇時であり、周期波形信号Ｗｃが振幅Ａ３であれば下降時であることを一意に判断できる。

【0035】

以上で説明した本実施形態の音声処理装置１００によれば、生成部２０は、位相が異なる複数の周期波形信号をニューラルネットワークの入力層に入力するため、生成部２０が用いるニューラルネットワークは、周期波形信号の値が、上昇時の値なのか下降時の値なのかを一意に決める事ができる。そのため、生成部２０は、より効果的に、所望の基本周波数を有する音声波形を生成でき、より高品位な音声波形を生成できる。

【0036】

Ｄ．第４実施形態
第４実施形態では、生成部２０によって用いられるニューラルネットワークの構造が第１実施形態と異なる。第４実施形態の音声処理装置１００の構成は、第１実施形態の音声処理装置１００の構成と同様であるため、構成の説明は省略する。

【0037】

本実施形態において、生成部２０は、図３や図６に示したニューラルネットワークを、縦に複数重ねた構造のニューラルネットワークを用いて第１情報および第２情報を出力する。例えば、ニューラルネットワークを２つ重ねた場合、生成部２０は、下段のニューラルネットワークで出力された情報を、上段のニューラルネットワークの入力層Ｌ１に入力して、第１情報および第２情報を出力する。つまり、上段のニューラルネットワークの入力層Ｌ１のノードの数分、下段のニューラルネットワークの出力を用意する。

【0038】

以上で説明した本実施形態の音声処理装置１００によれば、生成部２０は、周期波形信号を、直接的にニューラルネットワークの入力層に入力して音声波形を生成するため、所望の基本周波数を有する音声波形を生成できる。また、生成部２０は、ニューラルネットワークを複数重ねた構造のニューラルネットワークを用いて第１情報および第２情報を求めて音声波形を生成するため、１段のみの構造であるニューラルネットワークに比べて、同数のサンプルを入力して音声波形を生成する場合に、各段のニューラルネットワークを小さくすることができる。そのため、全体としてパラメータを増加させることなく、多くのサンプルを入力して音声波形を生成できるため、より高品位な音声波形を生成できる。

【0039】

Ｅ．その他の実施形態：
（Ｅ１）上記実施形態において、取得部１０が取得する音響特徴量は、歌唱音声の特徴量である。この代わりに、取得部１０は、音響特徴量として話し言葉の特徴量を取得してもよい。この形態によれば、歌声ではない、テキスト合成音声である音声波形を生成できる。また、声のトーンやアクセント、イントネーション、中国語における四声等をより正確に再現した音声波形を生成できる。また、取得部１０は、音響特徴量として声質を表す特徴量を取得してもよい。声質を表す特徴量は、他人の声から抽出した音響特徴量である。この形態によれば、ある話者の音響特徴量から、他の話者の音響特徴量へと変換する声質変換を行った音声波形を生成できる。声質変換を行う場合、音響特徴量は、変換する音声の音響特徴量でもよく、変換したい音声の音響特徴量でもよい。また、これらの音響特徴量の差分を音響特徴量としてもよく、両方を用いてもよい。ニューラルネットワークには、周期波形信号として、変換する音声や変換する音声の基本周波数を有する周期信号、変換する音声の残差信号である周期信号、変換したい音声の基本周波数を有する周期信号を入力してもよい。また、取得部１０は音響特徴量として、楽器音の特徴量を取得して、ニューラルネットワークに補助情報として入力してもよい。この形態によれば、歌声ではない、楽器音である音声波形を生成できる。打楽器音の生成を行う場合、取得部１０は打楽器音の特徴量を取得し、周期波形信号として、打楽器を発音させたいタイミングで立ち上がるパルス信号を用いる。より具体的には、エイトビートのハイハットの音声波形を生成したい場合、８分音符毎に１となり、他は０であるパルス信号を用いる。

【0040】

（Ｅ２）上記実施形態において、取得部１０は、生成したい音声波形の元となる楽譜特徴量や言語特徴量を周知の変換技術を用いて音声特徴量に変換することで、音響特徴量を取得してもよい。また、取得部１０は、楽譜特徴量や言語特徴量を任意のニューラルネットワークを用いて変換した情報を音響特徴量として用いてもよい。更に、学習部３０は、楽譜特徴量や言語特徴量の変換に用いるニューラルネットワークと、上記実施形態における第１情報および第２情報を出力するニューラルネットワークとを同時に学習して、各種パラメータを最適化してもよい。

【0041】

（Ｅ３）上記実施形態において、取得部１０が取得する音響特徴量は、音源情報とスペクトル情報との他に、表現情報が含まれてもよい。表現情報には、例えば、歌唱の場合は音高のビブラートの周期および振幅とその有無、音の大きさのビブラートの周期および振幅とその有無等が、話し言葉の場合はアクセントやイントネーション等が、楽器音の場合はギターのチョーキングの程度やその有無等が、含まれている。なお、音高のビブラートの有無の区別を歌唱表現情報に含める代わりに、音高のビブラート無い部分に所定の定数を入れる等の方法によって音高のビブラートの有無の区別を行ってもよい。同様に、音の大きさのビブラートの有無の区別を歌唱表現情報に含める代わりに、音の大きさのビブラート無い部分に所定の定数を入れる等の方法によって音の大きさのビブラートの有無の区別を行ってもよい。

【0042】

（Ｅ４）上記実施形態において、ニューラルネットワークの入力層Ｌ１のノードは、２つ以上の入力チャネルを有していてもよい。例えば、入力層Ｌ１に２つの入力チャネルを設け、第１のチャネルには、周期波形信号のサンプルを入力し、第２のチャネルには、時系列において第１のチャネルに入力されたサンプルの一つ前の時点の周期波形信号のサンプルを入力してもよい。また、ニューラルネットワークは、複数の入力チャネルに時系列において同じ時点の周期波形信号のサンプルを複数種類入力し、各チャネルに対して第１情報と第２情報とを出力してもよい。これにより、複数の声が重なった多重音声や和音を表す音声波形を生成できる。

【0043】

（Ｅ５）上記実施形態において、生成部２０は、ニューラルネットワークの入力層に生成する音声波形の基本周波数に応じた周期波形信号を入力すると共に、音響特徴量を補助情報としてニューラルネットワークに入力している。生成部２０は、更に、非周期波形信号を、ニューラルネットワークの入力層に入力してもよい。

【0044】

（Ｅ６）上記実施形態において、ノイズ発生源２１は、非周期波形信号としてガウス雑音を生成しているが、これに限らず、他のノイズを表す信号を生成してもよい。ノイズ発生源２１は、例えば、白色雑音を生成する。

【0045】

（Ｅ７）上記実施形態において、生成部２０は、一つのニューラルネットワークを用いて、第１情報と第２情報とを出力している。この代わりに、生成部２０は、２つのニューラルネットワークを用いて、第１情報と第２情報とをそれぞれ出力してもよい。また、この形態において、生成部２０は、第１情報を出力する一方のニューラルネットワークの入力層に、生成する音声波形の基本周波数に応じた周期波形信号として他方のニューラルネットワークが出力した第２情報を入力してもよい。

【0046】

（Ｅ８）上記実施形態において、生成部２０は、ニューラルネットワークを用いて出力する第１情報として、非周期成分を生成するための情報である、メルケプストラムやＬＳＰ（線スペクトル対）等の音響特徴量を出力し、第１特徴量と第２特徴量と非周期波形信号とを用いて演算処理を行うことで音声波形を生成する変換処理を行ってもよい。例えば、生成部２０は、ニューラルネットワークを用いて、２４次元の非周期成分のメルケプストラムである第１情報と、１次元の周期成分である第２情報と、を出力する。そして、生成部２０は、第１情報をノイズ発生源２１で生成した非周期波形信号に畳み込むことで非周期成分を生成し、第２情報と足し合わせることで音声波形を生成する。

【0047】

（Ｅ９）上記第２実施形態において、生成部２０は、更に、位相が異なる周期波形信号をニューラルネットワークの入力層に入力して音声波形を生成してもよい。つまり、第２実施形態と第３実施形態とを組み合わせてもよい。より具体的には、生成部２０は、例えば、生成したい音声波形と同じ基本周波数であるサイン波形からなる周期波形信号Ｗｓと、生成したい音声波形と同じ基本周波数であるコサイン波形からなる周期波形信号Ｗｃと、周期補助信号とをニューラルネットワークの入力層に入力できる。

【0048】

（Ｅ１０）上記第２実施形態において、周期補助信号は、例えば、生成しようとする音声波形の言語情報に応じて定めてもよい。「言語情報」とは、例えば、母音や子音の情報である。言語情報は音響特徴量に含まれていてもよい。より具体的には、周期補助信号は、無音部分や無声子音の部分が０．０であり、母音部分が０．９や１．０であり、／ｂ／、／ｄ／、／ｇ／等の周期と非周期が混在するような子音部分が０．３〜０．７の値であるデータを用いることができる。

【0049】

本発明は、上述の実施形態に限られるものではなく、その趣旨を逸脱しない範囲において種々の構成で実現することができる。例えば発明の概要の欄に記載した各形態中の技術的特徴に対応する実施形態中の技術的特徴は、上述した課題を解決するために、あるいは上述の効果の一部又は全部を達成するために、適宜、差し替えや組み合わせを行うことが可能である。また、その技術的特徴が本明細書中に必須なものとして説明されていなければ、適宜削除することが可能である。

【符号の説明】

【0050】

１０…取得部、２０…生成部、２１…ノイズ発生源、２２…バンドパスフィルタ部、３０…学習部、１００…音声処理装置、２００…ニューラルネットワーク、ＡＩ…補助情報、ＤＡ…データ、Ｌ１〜Ｌ４…ｄｉｌａｔｉｏｎ層、Ｎ１〜Ｎ１５…ノード、Ｓ１〜Ｓ１５…サンプル、ａ１〜ａ２４…第１情報、ｂ…第２情報、ｎｚ１〜ｎｚ２４…非周期波形信号

【要約】

【課題】高品位で所望の音高の音声波形を生成可能な技術を提供する。
【解決手段】音声処理装置は、音声処理装置であって、音声波形を生成するための音響特徴量を取得する取得部と、ニューラルネットワークに音声波形の基本周波数に応じた周期波形信号を入力すると共に、音響特徴量を入力して、ニューラルネットワークが出力した情報を用いて変換処理を行うことで音声波形を生成する生成部を備える。ニューラルネットワークは、非周期成分を生成するための第１情報と、周期成分を示す第２情報と、を出力し、変換処理は、第１情報と非周期波形信号とを用いて演算処理を行った情報と、第２情報とを足し合わせる処理である。
【選択図】図１

【図1】