特開2016-151709(P2016-151709A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特開2016-151709音声合成装置及び音声合成プログラム
<>
  • 特開2016151709-音声合成装置及び音声合成プログラム 図000004
  • 特開2016151709-音声合成装置及び音声合成プログラム 図000005
  • 特開2016151709-音声合成装置及び音声合成プログラム 図000006
  • 特開2016151709-音声合成装置及び音声合成プログラム 図000007
  • 特開2016151709-音声合成装置及び音声合成プログラム 図000008
  • 特開2016151709-音声合成装置及び音声合成プログラム 図000009
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2016-151709(P2016-151709A)
(43)【公開日】2016年8月22日
(54)【発明の名称】音声合成装置及び音声合成プログラム
(51)【国際特許分類】
   G10L 13/07 20130101AFI20160725BHJP
【FI】
   G10L13/07 B
【審査請求】未請求
【請求項の数】4
【出願形態】OL
【全頁数】8
(21)【出願番号】特願2015-29816(P2015-29816)
(22)【出願日】2015年2月18日
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100147485
【弁理士】
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】100153017
【弁理士】
【氏名又は名称】大倉 昭人
(72)【発明者】
【氏名】世木 寛之
(57)【要約】      (修正有)
【課題】安定的に少ない処理時間でテキストデータから自然で肉声感のある音声を合成する音声合成装置及び音声合成プログラムを提供する。
【解決手段】音声合成装置1は、入力文(テキストデータ)をラベル列に変換する文ラベル列変換部10と、ラベル列に含まれる少なくとも1つのラベルに対して複数の特徴量モデルを記憶する特徴量モデル記録部20と、ラベル列に対応する複数の特徴量モデルの組み合わせの中から、前後の特徴量モデル間の類似度に基づき特徴量モデルの組み合わせを選択する特徴量モデル選択部30と、選択された特徴量モデルの組み合わせから音声波形を取得する音声波形取得部40と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
入力文をラベル列に変換する文ラベル列変換部と、
前記ラベル列に含まれる少なくとも1つのラベルに対して複数の特徴量モデルを記憶する特徴量モデル記録部と、
前記ラベル列に対応する複数の特徴量モデルの組み合わせの中から、前後の特徴量モデル間の類似度に基づき特徴量モデルの組み合わせを選択する特徴量モデル選択部と、
前記選択された特徴量モデルの組み合わせから音声波形を取得する音声波形取得部と、を備える音声合成装置。
【請求項2】
複数の音声データを記録する音声サンプル記録部を備え、
前記特徴量モデル選択部は、前記ラベル列に対応する複数の特徴量モデルおよび音声データをモデル化したものの組み合わせの中から、前後のモデルの類似度に基づき特徴量モデルおよび音声データの組み合わせを選択する、請求項1に記載の音声合成装置。
【請求項3】
前記特徴量モデル選択部は、前後のモデル間において、前方のモデルの終端の特徴量と、後方のモデルの始端の特徴量とに基づき、前記類似度を算出する、請求項1に記載の音声合成装置。
【請求項4】
コンピュータを、請求項1乃至3のいずれか一項に記載の音声合成装置として機能させるための音声合成プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、入力文を合成音に変換する音声合成装置及び音声合成プログラムに関する。
【背景技術】
【0002】
従来、統計モデルの一つである隠れマルコフモデル(HMM:Hidden Markov Model)を用いた音声合成方法として、例えば特許文献1で提案されているような手法が利用されていた。特許文献1で提案された音声合成方法は、事前に音声データから隠れマルコフモデル(以下、HMMという)を作成しておき、音声合成時には、入力文(入力テキスト)に対応するHMMを用いることにより音響特徴量の列を生成し、当該音響特徴量の列を音声波形に変換して音声合成するという仕組みである。また、非特許文献1に記載の方法では、複数の隠れマルコフモデルを扱うことができる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2002−268660号公報
【非特許文献】
【0004】
【非特許文献1】徳田恵一他、「動的特徴を用いたHMMからの音声パラメータ生成アルゴリズム、日本音響学会誌、53(3)、192-200,1997年
【発明の概要】
【発明が解決しようとする課題】
【0005】
ここで、合成音の高品質化を図るためには、高精度で大規模なモデルの構築が必須である。しかしながら、特許文献1に記載の方法では、各ラベル・状態に対して複数の隠れマルコフモデルを保持させることについては考えられていなかったため、合成音は肉声感に乏しかった。また、非特許文献1に記載の方法では、繰り返し法を用いるため解の安定性や処理に時間がかかる問題がある。
【0006】
したがって、かかる点に鑑みてなされた本発明の目的は、安定的に少ない処理時間で、自然で肉声感のある音声を合成する音声合成装置および音声合成プログラムを提供することである。
【課題を解決するための手段】
【0007】
上述した諸課題を解決すべく、本発明に係る音声合成装置は、入力文をラベル列に変換する文ラベル列変換部と、前記ラベル列に含まれる少なくとも1つのラベルに対して複数の特徴量モデルを記憶する特徴量モデル記録部と、前記ラベル列に対応する複数の特徴量モデルの組み合わせの中から、前後の特徴量モデル間の類似度に基づき特徴量モデルの組み合わせを選択する特徴量モデル選択部と、前記選択された特徴量モデルの組み合わせから音声波形を取得する音声波形取得部と、を備える。
【0008】
また、複数の音声データを記録する音声サンプル記録部を備え、前記特徴量モデル選択部は、前記ラベル列に対応する複数の特徴量モデルおよび音声データをモデル化したものの組み合わせの中から、前後のモデルの類似度に基づき特徴量モデルおよび音声データの組み合わせを選択する、ことが好ましい。
【0009】
また、前記特徴量モデル選択部は、前後のモデル間において、前方のモデルの終端の特徴量と、後方のモデルの始端の特徴量とに基づき、前記類似度を算出することが好ましい。
【0010】
また、上記課題を解決するため、本発明に係る音声合成プログラムは、コンピュータを、上記音声合成装置として機能させるものである。
【発明の効果】
【0011】
本発明に係る音声合成装置および音声合成プログラムによれば、安定的に少ない処理時間で、自然で肉声感のある音声を合成することが可能となる。
【図面の簡単な説明】
【0012】
図1】本発明の第一実施形態に係る音声合成装置の構成を示す図である。
図2】音声データの特徴量の概要を示す図である。
図3】ラベルに対応した特徴量モデルの概要を示す図である。
図4】特徴量モデル間の類似度計算の概要を示す図である。
図5】複数の特徴量モデルによる合成音生成の概要を示す図である。
図6】本発明の第二実施形態に係る音声合成装置の構成を示す図である。
【発明を実施するための形態】
【0013】
以降、諸図面を参照しながら、本発明の実施態様を詳細に説明する。
【0014】
図1は本発明の第一実施形態に係る音声合成装置1のブロック図である。音声合成装置1は、入力されたテキストデータに対応した音声波形を生成して出力するものであり、文ラベル列変換部10、特徴量モデル記録部20、特徴量モデル選択部30、音声波形取得部40とを備える。文ラベル列変換部10、特徴量モデル選択部30、音声波形取得部40は、CPU等の好適なプロセッサや好適な電子回路により構成されるものである。また、特徴量モデル記録部20は、ハードディスク/メモリ等の好適な記憶媒体により構成されるものである。
【0015】
文ラベル列変換部10では、入力された漢字仮名交じりの文をラベル列に変換する。より詳細には、文ラベル列変換部10は、図示しないテキスト入力手段(例えばキーボード等)から入力された入力文の解析を行い、かな漢字交じり文である入力を「ラベル」の組み合わせであるラベル列に変換(分割)する。ラベルとは、例えば音素単位又は単語単位(複数音素単位)で構成されるものであり、各ラベルには後述する特徴量モデルが対応づけられる。また、各ラベルには、音素の品詞、左右の音素、アクセントの型、モーラおよび入力文の種類(単文と複文のどちらであるか)、文内/単語内における位置等といったメタデータをラベル情報として含めることができる。
【0016】
特徴量モデル記録部20は、文ラベル列変換部10で出力され得る全てのラベルの種類に対応した特徴量モデルを記録しており、ラベル毎に複数の特徴量モデルを記憶している。ここで、図2図3を用いて特徴量モデルについて詳述する。図2は、音声データの特徴量の概要を示す図である。特徴量として、メル周波数ケプストラム係数(MFCC:Mel-Frequency Cepstrum Coefficients)や線形予測係数などを用いることができる。MFCCは、音声データを短い時間単位(例えば25ms)のフレーム毎に処理して得られるものである。各フレームは隣接するフレーム同士が重複するように所定時間(例えば5ms)ずつシフトして音声データから切り出される。フレーム毎に高速フーリエ変換(FFT:Fast Fourier Transform)を行うことにより各フレームのスペクトルが抽出され、当該スペクトルのメル周波数ケプストラム係数の各次元の値(例えば39次元の値)が特徴量として取得される(MFCCの具体的な計算方法については、「放送品質を実現するための波形接続型音声合成システムの構築」,世木寛之,慶應義塾大学博士論文,pp. 33-37を参照)。図3は、ラベルに対応する特徴量モデルの概要を示す図である。図示の通り、ラベルに対応する特徴量モデルとは、ラベルに対応する各音声データの特徴量の平均となる。この方法以外にも、「多空間上の確率分布に基づいたHMM,徳田恵一他,電子情報通信学会論文誌,J83-D-II(7),1579−1589,2000」のようにEMアルゴリズムを利用することにより、特徴量モデルを作成することが可能である。
【0017】
特徴量モデル記録部20は、ラベル毎に複数の特徴量モデルを記憶するものであるが、音素の品詞、左右の音素、アクセントの型、モーラおよび入力文の種類(単文と複文のどちらであるか)、文内/単語内における位置等といったメタデータを含めた場合のラベル情報は膨大であるため、全てのラベルに対応する特徴量モデルを用意することはできない。このため、「Tree-based state tying for high accuracy acoustic modelling,S.J.Young他2名,Proc. ARPA Human Language Technology Workshop,pp.307-312, 1994」のようなクラスタリングを行っておくことにより、特徴量モデルを作成することができなかったラベルに対しても、何らかの特徴量モデルを割り当てることが可能になる。
【0018】
特徴量モデル選択部30は、ラベル列に対応する複数の特徴量モデルの組み合わせの中から、前後の特徴量モデル間の類似度に基づき特徴量モデルの組み合わせを選択する。具体的には、特徴量モデル選択部30は、下記の数式1の通り、前後の特徴量モデル間において、前方の特徴量モデルの終端(最終フレーム)の特徴量と、後方の特徴量モデルの始端(開始フレーム)の特徴量とに基づき、類似度を算出することができる。数式1において、mdiff(A,B)は前方ラベルの特徴量モデルAと後方ラベルの特徴量モデルBとの類似度であり、mは特徴量モデルの次元数である。ここで、「特徴量モデルの終端/始端のラベル」とは、例えばラベルが複数音素から構成されている場合にはその終端/始端の音素に対応するラベルとなり、ラベルが単一音素から構成されている場合には、当該音素に対応するラベルとなる。
【0019】
【数1】
【0020】
図4は、特徴量モデル間の類似度計算の概要を示す図である。数式1に示す類似度は、前方ラベルの特徴量モデルの終端(最終フレーム)の特徴量と、後方ラベルの特徴量モデルの始端(開始フレーム)の特徴量との各次元における差分(二乗誤差)が積算されたものであり、前方ラベルの特徴量モデルの終端と、後方ラベルの特徴量モデルの始端との距離尺度を示すものである。なお、各次元の値を正規化するため、分母には分散値及び平均値からなる正規化項を設けている。この距離尺度が小さいほど、特徴量モデルAの終端と特徴量モデルBの始端とが類似していることになる。特徴量モデル選択部30は、ビタービ探索等を用いて、距離尺度の和が最も小さくなる特徴量モデルを選択することができる。これにより、ラベル間のつなぎ目の部分で整合性がありギャップの少ない特徴量モデルの組み合わせを選択することができる。なお、前後の特徴量モデル間の類似度の計算は数式1に限られず、例えば、終端/始端からそれぞれ複数フレームを選択して計算をしても良く、選択したフレーム位置に応じた重み付けを用いて類似度を計算しても良い。
【0021】
音声波形取得部40は、選択された特徴量モデルの組み合わせを音声波形に変換する。特徴量モデルから音声波形への変換は公知の技術を利用することができ、本稿で詳述は行わない(例えば特許文献1参照)。音声波形取得部40は、前から順に対応する音声波形にクロスフェード(オーバーラップ)させて足し合わせることで、接続部分のショックを低減し、接続点に歪みを生じることなく合成音を生成することができる。
【0022】
次に、音声合成装置1の具体的な処理について、入力される読み上げテキストデータを例示して説明する。図5は、複数の特徴量モデルによる合成音生成の概要を示す図である。例えば「あいうえお」が入力された場合、文ラベル列変換部10は、入力文「あいうえお」をラベル列「aiueo」に変換する。ここで、特徴量モデル記録部20は、ラベル「a」の特徴量モデルを8つ、ラベル「i」の特徴量モデルを6つ、ラベル「u」の特徴量モデルを4つ、ラベル「e」の特徴量モデルを3つ、ラベル「o」の特徴量モデルを2つ記録しているものとする。この場合、特徴量モデル選択部30が考慮すべき特徴量モデルの組み合わせは8×6×4×3×2=1152通りある。特徴量モデル選択部30が例えば「a」の3番目の特徴量モデル、「i」の2番目の特徴量モデル、「u」の4番目の特徴量モデル、「e」の2番目の特徴量モデル、「o」の2番目の特徴量モデルをそれぞれ選択すると、音声波形取得部40は、選択された特徴量モデルの組み合わせを音声波形に変換する。
【0023】
このように、本実施形態によれば、特徴量モデル記録部20は、ラベル列に含まれる少なくとも1つのラベルに対して複数の特徴量モデルを記憶し、特徴量モデル選択部30は、ラベル列に対応する複数の特徴量モデルの組み合わせの中から、前後の特徴量モデル間の類似度に基づき特徴量モデルの組み合わせを選択する。これにより、安定的に少ない処理時間で、入力文に対して自然で肉声感のある音声を合成することが可能となる。
【0024】
また、特徴量モデル選択部30は、前後の特徴量モデル間において、前方の特徴量モデルの終端の特徴量と、後方の特徴量モデルの始端の特徴量とに基づき、類似度を算出することができる。これにより、ラベル間のつなぎ目の部分で整合性がありギャップの少ない特徴量モデルの組み合わせを選択することができる。
【0025】
図6は、本発明の第二実施形態に係る音声合成装置2の構成を示す図である。第二実施形態に係る音声合成装置2は、第一実施形態に係る音声合成装置1に音声サンプル記録部50を追加したものであり、音声合成装置1と同一符号の機能部については重複する説明を省略する。
【0026】
音声サンプル記録部50は、音声サンプルの波形データを記憶するものであり、ハードディスク/メモリ等の好適な記憶媒体により構成されるものである。
【0027】
本実施形態において、特徴量モデル選択部30は、ラベル列に対応する複数の特徴量モデルおよび音声データをモデル化したものの組み合わせの中から、前後のモデルの類似度に基づき特徴量モデルおよび音声データの組み合わせを選択する。より詳細には、図3で説明した通り、特徴量モデルとは音声データの特徴量の平均であるから、特徴量という基準において、特徴量モデル及び音声データ間の類似度は数式1の通り計算可能である。つまり、特徴量モデル選択部30は、前方の特徴量モデル又は音声データの終端の特徴量と、後方の特徴量モデル又は音声データの始端の特徴量とに基づき、類似度を算出することができる。
【0028】
音声波形取得部40は、特徴量モデル選択部30が選択した組み合わせに対応する音声データが音声サンプル記録部50に存在する場合、当該音声データを用いて音声波形を取得することができる。一般に、特徴量モデルから取得した音声波形は再生時に歪みが生じやすいのに比べ、音声データはそれ自体再生可能であり歪みの発生がないため、合成音声の品質が向上するという利点がある。音声波形取得部40は、前から順に対応する音声波形にクロスフェード(オーバーラップ)させて足し合わせることで、接続部分のショックを低減し、接続点に歪みを生じることなく合成音を生成することができる。
【0029】
このように、本実施形態によれば、音声サンプル記録部は複数の音声データを記録し、特徴量モデル選択部30は、ラベル列に対応する複数の特徴量モデルおよび音声データをモデル化したものの組み合わせの中から、前後のモデルの類似度に基づき特徴量モデルおよび音声データの組み合わせを選択する。一般に特徴量モデルから取得した音声波形は再生時に歪みが生じやすいのに比べ、音声データは歪みの発生がないため、音声データを考慮して組み合わせを選択することにより、安定的に少ない処理時間で、入力文に対してより自然で肉声感のある音声を合成することが可能となる。
【0030】
本発明を諸図面や実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形や修正を行うことが容易であることに注意されたい。従って、これらの変形や修正は本発明の範囲に含まれることに留意されたい。例えば、各機能部、各ステップなどに含まれる機能などは論理的に矛盾しないように再配置可能であり、複数の機能部やステップなどを1つに組み合わせたり、或いは分割したりすることが可能である。
【0031】
なお、上述した音声合成装置として機能させるためにコンピュータを用いることができ、そのようなコンピュータは、音声合成装置の各機能を実現する処理内容を記述したプログラム(音声合成プログラム)を該コンピュータの記録部に格納しておき、該コンピュータのCPUによってこのプログラムを読み出して実行させることで実現することができる。なお、このプログラムは、コンピュータ読取り可能な記録媒体に記録することができる。
【符号の説明】
【0032】
1、2 音声合成装置
10 文ラベル列変換部
20 特徴量モデル記録部
30 特徴量モデル選択部
40 音声波形取得部
50 音声サンプル記録部
図1
図2
図3
図4
図5
図6