特許第6806619号(P6806619)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立超エル・エス・アイ・システムズの特許一覧

特許6806619音声合成システム、音声合成方法、及び音声合成プログラム
<>
  • 特許6806619-音声合成システム、音声合成方法、及び音声合成プログラム 図000002
  • 特許6806619-音声合成システム、音声合成方法、及び音声合成プログラム 図000003
  • 特許6806619-音声合成システム、音声合成方法、及び音声合成プログラム 図000004
  • 特許6806619-音声合成システム、音声合成方法、及び音声合成プログラム 図000005
  • 特許6806619-音声合成システム、音声合成方法、及び音声合成プログラム 図000006
  • 特許6806619-音声合成システム、音声合成方法、及び音声合成プログラム 図000007
  • 特許6806619-音声合成システム、音声合成方法、及び音声合成プログラム 図000008
  • 特許6806619-音声合成システム、音声合成方法、及び音声合成プログラム 図000009
  • 特許6806619-音声合成システム、音声合成方法、及び音声合成プログラム 図000010
  • 特許6806619-音声合成システム、音声合成方法、及び音声合成プログラム 図000011
  • 特許6806619-音声合成システム、音声合成方法、及び音声合成プログラム 図000012
  • 特許6806619-音声合成システム、音声合成方法、及び音声合成プログラム 図000013
  • 特許6806619-音声合成システム、音声合成方法、及び音声合成プログラム 図000014
  • 特許6806619-音声合成システム、音声合成方法、及び音声合成プログラム 図000015
  • 特許6806619-音声合成システム、音声合成方法、及び音声合成プログラム 図000016
  • 特許6806619-音声合成システム、音声合成方法、及び音声合成プログラム 図000017
  • 特許6806619-音声合成システム、音声合成方法、及び音声合成プログラム 図000018
  • 特許6806619-音声合成システム、音声合成方法、及び音声合成プログラム 図000019
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6806619
(24)【登録日】2020年12月8日
(45)【発行日】2021年1月6日
(54)【発明の名称】音声合成システム、音声合成方法、及び音声合成プログラム
(51)【国際特許分類】
   G10L 13/10 20130101AFI20201221BHJP
   G10L 13/033 20130101ALI20201221BHJP
【FI】
   G10L13/10 114
   G10L13/033 102A
   G10L13/033 102Z
   G10L13/10 113B
【請求項の数】12
【全頁数】19
(21)【出願番号】特願2017-84095(P2017-84095)
(22)【出願日】2017年4月21日
(65)【公開番号】特開2018-180459(P2018-180459A)
(43)【公開日】2018年11月15日
【審査請求日】2019年12月19日
(73)【特許権者】
【識別番号】000233169
【氏名又は名称】株式会社日立ソリューションズ・テクノロジー
(74)【代理人】
【識別番号】110000176
【氏名又は名称】一色国際特許業務法人
(72)【発明者】
【氏名】孫 慶華
【審査官】 岩田 淳
(56)【参考文献】
【文献】 特開2014−056235(JP,A)
【文献】 国際公開第2010/070839(WO,A1)
【文献】 特開2015−215626(JP,A)
【文献】 特開2003−302992(JP,A)
【文献】 国際公開第2009/125710(WO,A1)
【文献】 森田 眞弘, 外2名,多様な声や感情を豊かに表現できる音声合成技術,東芝レビュー,株式会社東芝,2013年 9月 1日,第68巻, 第9号,第10-13ページ
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00−13/10
(57)【特許請求の範囲】
【請求項1】
プロセッサ及びメモリを備え、入力された文字に対応する音声を合成する音声合成システムであって、
複数の音声データを取得し、音声の特徴を示すパラメータである音声特徴量を前記取得した複数の音声データのそれぞれに対して算出する音声特徴量算出部と、
前記取得した音声データに対応する文字のデータである対応文字データをそれぞれ取得し、取得した前記対応文字データのそれぞれと、前記算出した前記音声特徴量のそれぞれとの相関関係を算出し、算出した前記相関関係を記憶する発話スタイル予測モデル生成部と、
前記記憶した相関関係に基づき、入力された文字に対応する音声の特徴を推定する発話スタイル推定部と、
前記推定した音声の特徴を有する音声を合成する音声合成部と、
を備え
前記音声特徴量算出部は、前記音声特徴量を、前記音声の特徴が所定の複数の項目のそれぞれに該当する確率として算出する、
音声合成システム。
【請求項2】
前記複数の音声データと、前記複数の音声データのそれぞれに対応する前記対応文字データとを対応づけて記憶した情報である音声コーパスを記憶する音声コーパス記憶部を備え、
前記音声特徴量算出部は、前記音声コーパスから前記複数の音声データを取得し、取得した前記音声データに基づき前記音声特徴量を算出し、
前記発話スタイル予測モデル生成部は、前記音声コーパスから前記対応文字データを取得し、取得した前記対応文字データに基づき前記相関関係を算出する、
請求項1に記載の音声合成システム。
【請求項3】
前記音声特徴量算出部は、前記音声特徴量として、感情、年齢、又は性別に関する特徴量を算出する、請求項1に記載の音声合成システム。
【請求項4】
前記発話スタイル予測モデル生成部は、前記取得した対応文字データが示す文字の表記、読み、品詞、又は係り受けに関する特徴量であるテキスト特徴量を算出し、算出した前記テキスト特徴量に基づき前記相関関係を算出する、請求項1に記載の音声合成システム。
【請求項5】
前記音声特徴量算出部は、前記算出した音声特徴量のそれぞれに対して所定の係数を乗算することにより新たな特徴量を算出し、算出した前記新たな特徴量を前記音声特徴量とする、請求項1に記載の音声合成システム。
【請求項6】
前記複数の音声データと、前記複数の音声データのそれぞれに対応する前記対応文字データとを対応づけて記憶した情報である音声コーパスを記憶する音声コーパス記憶部を備え、
前記音声特徴量算出部は、
前記音声コーパスから前記複数の音声データを取得し、取得した前記音声データに基づき前記音声特徴量を算出し、
前記音声特徴量として、感情、年齢、又は性別に関する特徴量を算出し
前記算出した音声特徴量のそれぞれに対して所定の係数を乗算することにより新たな特徴量を算出し、算出した前記新たな特徴量を前記音声特徴量とするものであり、
前記発話スタイル予測モデル生成部は、
前記音声コーパスから前記対応文字データを取得し、取得した前記対応文字データに基づき前記相関関係を算出し、
前記取得した対応文字データが示す文字の表記、読み、品詞、又は係り受けに関する特徴量であるテキスト特徴量を算出し、算出した前記テキスト特徴量に基づき前記相関関係を算出する、
請求項1に記載の音声合成システム。
【請求項7】
入力された文字に対応する音声を合成する音声合成方法であって、
プロセッサ及びメモリを備える情報処理装置が、
複数の音声データを取得し、音声の特徴を示すパラメータである音声特徴量を前記取得した複数の音声データのそれぞれに対して算出する音声特徴量算出処理と、
前記取得した音声データに対応する文字のデータである対応文字データをそれぞれ取得し、取得した前記対応文字データのそれぞれと、前記算出した前記音声特徴量のそれぞれとの相関関係を算出し、算出した前記相関関係を記憶する発話スタイル予測モデル生成処理と、
前記記憶した相関関係に基づき、入力された文字に対応する音声の特徴を推定する発話スタイル推定処理と、
前記推定した音声の特徴を有する音声を合成する音声合成処理と、
を実行し、
前記音声特徴量算出処理は、前記音声特徴量を、前記音声の特徴が所定の複数の項目のそれぞれに該当する確率として算出する処理を含む、
音声合成方法。
【請求項8】
前記情報処理装置は、前記複数の音声データと、前記複数の音声データのそれぞれに対応する前記対応文字データとを対応づけて記憶した情報である音声コーパスを記憶する音声コーパス記憶処理を実行し、
前記音声特徴量算出処理は、前記音声コーパスから前記複数の音声データを取得し、取得した前記音声データに基づき前記音声特徴量を算出する処理を含み、
前記発話スタイル予測モデル生成処理は、前記音声コーパスから前記対応文字データを取得し、取得した前記対応文字データに基づき前記相関関係を算出する処理を含む、
請求項に記載の音声合成方法。
【請求項9】
前記発話スタイル予測モデル生成処理は、前記取得した対応文字データが示す文字の表記、読み、品詞、又は係り受けに関する特徴量であるテキスト特徴量を算出し、算出した前記テキスト特徴量に基づき前記相関関係を算出する処理を含む、請求項に記載の音声合成方法。
【請求項10】
入力された文字に対応する音声を合成する音声合成プログラムであって、
プロセッサ及びメモリを備える情報処理装置に、
複数の音声データを取得し、音声の特徴を示すパラメータである音声特徴量を前記取得した複数の音声データのそれぞれに対して算出する音声特徴量算出処理と、
前記取得した音声データに対応する文字のデータである対応文字データをそれぞれ取得し、取得した前記対応文字データのそれぞれと、前記算出した前記音声特徴量のそれぞれとの相関関係を算出し、算出した前記相関関係を記憶する発話スタイル予測モデル生成処理と、
前記記憶した相関関係に基づき、入力された文字に対応する音声の特徴を推定する発話スタイル推定処理と、
前記推定した音声の特徴を有する音声を合成する音声合成処理と、
を実行させ、
前記音声特徴量算出処理は、前記音声特徴量を、前記音声の特徴が所定の複数の項目のそれぞれに該当する確率として算出する処理を含む、
音声合成プログラム。
【請求項11】
前記複数の音声データと、前記複数の音声データのそれぞれに対応する前記対応文字データとを対応づけて記憶した情報である音声コーパスを記憶する音声コーパス記憶処理を実行させ、
前記音声特徴量算出処理は、前記音声コーパスから前記複数の音声データを取得し、取得した前記音声データに基づき前記音声特徴量を算出する処理を含み、
前記発話スタイル予測モデル生成処理は、前記音声コーパスから前記対応文字データを取得し、取得した前記対応文字データに基づき前記相関関係を算出する処理を含む、
請求項1に記載の音声合成プログラム。
【請求項12】
前記発話スタイル予測モデル生成処理は、前記取得した対応文字データが示す文字の表記、読み、品詞、又は係り受けに関する特徴量であるテキスト特徴量を算出し、算出した前記テキスト特徴量に基づき前記相関関係を算出する処理を含む、請求項1に記載の音声合成プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声合成システム、音声合成方法、及び音声合成プログラムに関する。
【背景技術】
【0002】
従来の音声合成製品における音声合成は、カーナビゲーションによる道案内(音声ガイダンス)又は構内放送などの、単に音声を読み上げるスタイルのものが主流であったが、近年、人間共生ロボット、コールセンターにおける自動応答、車の自動運転などの分野における進歩により、会話調の音声や感情を込めた音声といった多様な発話スタイルを有する音声の合成が求められるようになってきた。しかし、これらの音声合成には一般的に、音声合成時に予め発話スタイルの指定が必要であり、これは音声処理において大きな負担となっていた。
【0003】
そこで、例えば特許文献1のように、単語と感情との対応付けが定義された感情辞書を参照し、読み上げ対象となる文の発話スタイルを推定する技術が提案されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2015−215626号
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1における感情辞書は、感情辞書と対比される、音声データを収録した音声コーパスの特徴を考慮せずに作成されるため、合成音声と感情辞書とのミスマッチが生じる可能性が高い。例えば、異なる感情で発話した音声でも同じ発話スタイルとなったり、逆に同じ内容の文章に対しても発話者によって異なるスタイルで音声を読み上げたりするなどの不自然さが生じる場合がある。
【0006】
本発明はこのような現状に鑑みてなされたものであり、その目的は、適切な発話スタイルを有する音声を合成するための音声合成システム、音声合成方法、及び音声合成プログラムを提供することにある。
【課題を解決するための手段】
【0007】
以上の課題を解決するために、本発明の一つは、プロセッサ及びメモリを備え、入力された文字に対応する音声を合成する音声合成システムであって、複数の音声データを取得し、音声の特徴を示すパラメータである音声特徴量を前記取得した複数の音声データのそれぞれに対して算出する音声特徴量算出部と、前記取得した音声データに対応する文字のデータである対応文字データをそれぞれ取得し、取得した前記対応文字データのそれぞれと、前記算出した前記音声特徴量のそれぞれとの相関関係を算出し、算出した前記相関関係を記憶する発話スタイル予測モデル生成部と、前記記憶した相関関係に基づき、入力された文字に対応する音声の特徴を推定する発話スタイル推定部と、前記推定した音声の特徴を有する音声を合成する音声合成部と、を備える。
【発明の効果】
【0008】
本発明によれば、適切な発話スタイルを有する音声を合成することができる。
【図面の簡単な説明】
【0009】
図1図1は、本実施形態に係る音声合成システム10の構成の一例を説明する図である。
図2図2は、サーバ20が備える機能の一例を説明する図である。
図3図3は、音声合成処理の一例を説明するフローチャートである。
図4図4は、音声特徴付き対応文字データ75の一例を示す図である。
図5図5は、音声データ分類処理の一例を説明するフローチャートである。
図6図6は、初期化により分類された音声データセット120の一例を示す図である。
図7図7は、音声特徴量DBの一例を示す図である。
図8図8は、音声データセットの分布の一例を示す図である。
図9図9は、音声データセットの分布の他の一例を示す図である。
図10図10は、補正された音声特徴量DB140の一例を示す図である。
図11図11は、発話スタイル予測モデル生成処理の一例を説明する図である。
図12図12は、発話スタイル推定処理の一例を説明する図である。
図13図13は、算出される生成確率の一例を示す図である。
図14図14は、モデル選択型の一例を説明する図である。
図15図15は、モデル融合型の一例を説明する図である。
図16図16は、案分計算に用いるための案分比の算出式の一例を示す図である。
図17図17は、波形融合型の一例を説明する図である。
図18図18は、音声合成装置100の構成の一例を示す図である。
【発明を実施するための形態】
【0010】
以下、本発明に係る実施形態を図面を参照しつつ説明する。
<システム構成>
図1は、本実施形態に係る音声合成システム10の構成の一例を説明する図である。本実施形態の音声合成システム10は、入力されたテキスト(文章や句)に対する適切な発話スタイル(会話調である、感情がこもっているといった、発声上の特徴。例えば、声の抑揚、大きさ、リズム、速さ、間の長さといった要素によって特徴付けられる発声上の特徴。)を推定し、推定した発話スタイルに従った音声を合成する。
【0011】
音声合成システム10は、サーバ20と、少なくとも1台以上の端末30と、サーバ20及び各端末30を通信可能に接続している通信ネットワーク5とを含んで構成されている。通信ネットワーク5は、例えば、LAN(Local Area Network)、WAN(Wide Area Network)、インターネット、イントラネット、専用線、又は光ファイバなどの有線又
は無線の通信網である。
【0012】
サーバ20は、情報処理装置(コンピュータ)であり、端末30等から入力されたテキスト(文字データ)に対応する音声を合成する。サーバ20は、例えば、音声合成サービスを行う事業体の事業所やデータセンタ等に設けられる。
【0013】
端末30は、情報処理装置(コンピュータ)であり、例えば、前記の事業体と契約関係にある各顧客(以下、ユーザという。)の事業所等に設けられる。端末30は、この各顧客から文字データ(以下、入力テキストという。)の入力を受け付け、入力を受け付けた文字データを、通信ネットワーク5を介してサーバ20に送信する。
【0014】
図1に示すように、サーバ20は、CPU(Central Processing Unit)等の、処理の
制御を司るプロセッサ1102と、RAM(Random Access Memory)、ROM(Read Only Memory)等のメモリ1103と、スピーカー等の音声出力装置1104と、有線LANカ
ード、無線LANカード、モデム等の通信装置1105と、HDD(Hard Disk Drive)、SSD(Solid State Drive)等の記憶装置1106とを備える。なお、サーバ20は、キ
ーボード、マウス、タッチパネル等の入力装置や、モニタ(ディスプレイ)等の出力装置を備えていてもよい。以上の各装置は、バス1117によって互いに接続されている。
【0015】
端末30は、CPU(Central Processing Unit)等の、処理の制御を司るプロセッサ
1108と、RAM(Random Access Memory)、ROM(Read Only Memory)等のメモリ1109と、キーボード、マウス、タッチパネル等の入力装置1111と、有線LANカー
ド、無線LANカード、モデム等の通信装置1112とを備える。なお、端末30は、HD
D(Hard Disk Drive)、SSD(Solid State Drive)、FD(フレキシブルディスク)、フラッシュメモリ等の記憶装置や、モニタ(ディスプレイ)等の出力装置を備えていてもよい。以上の各装置は、バス1118によって互いに接続されている。
【0016】
<機能>
次に、各情報処理装置が備える機能について説明する。
【0017】
図2は、サーバ20が備える機能の一例を説明する図である。同図に示すように、サーバ20は、複数の音声データを収録した音声コーパス(音声コーパスDB60)を用いた機械学習に基づき生成される発話スタイル予測モデル80と、音声コーパスDB60から構築される音声合成用データ70とを用いて、端末30から入力された入力テキスト50から、適切な発話スタイルの合成音声90を生成する。
【0018】
サーバ20は、コーパス記憶部21と、音声合成用データ70を構築し、また発話スタイル予測モデル80を生成するデータ作成部23と、音声合成用データ70及び発話スタイル予測モデル80に基づき音声を合成する合成部25とを備える。
【0019】
コーパス記憶部21は、前記複数の音声データと、前記複数の音声データのそれぞれに対応する前記対応文字データとを対応づけて記憶した情報である音声コーパスを記憶する。
【0020】
この音声コーパスは、音声コーパスDB60に記憶される。すなわち、音声コーパスDB60は、予め収録された様々な発話(音声)のデータが記録されている音声データ61と、音声データ61の音声に対応する文字又は文字列(以下、特に断りの無い限り、「文字」とは文字列を含むものとする。)が記録されている対応文字データ62とを有する。
【0021】
データ作成部23は、音声特徴量算出部231(音声データ分類部)、音声合成用データ構築部232、音声特徴付き対応文字データ作成部234、及び発話スタイル予測モデル生成部235の各機能を備える。
【0022】
音声特徴量算出部231は、複数の音声データを取得し、前記音声データが示す音声の特徴を示すパラメータである音声特徴量を前記取得した複数の音声データのそれぞれに対して算出する。
具体的には、前記音声特徴量算出部231は、前記音声の特徴量を、前記音声の特徴が所定の複数の項目のそれぞれに該当する確率として算出する。
また、前記音声特徴量算出部231は、前記音声コーパス(音声コーパスDB60)から前記複数の音声データ(音声データ61)を取得し、取得した前記音声データに基づき前記音声特徴量を算出する。すなわち、音声特徴量算出部231は、音声コーパスDB60における音声データ61のクラスタリングを行う。
また、前記音声特徴量算出部231は、前記算出した音声特徴量のそれぞれに対して所定の係数を乗算することにより新たな特徴量を算出し、算出した前記新たな特徴量を前記音声特徴量とする。
また、前記音声特徴量算出部231は、前記音声特徴量として、感情、年齢、又は性別
に関する特徴量を算出する。
【0023】
なお、本実施形態では、音声データ61は、音声の発声時における感情の特徴(スタイル)によって分類されるものとする。具体的には、音声特徴量算出部231は、各音声データ61を、喜びの感情をもって発せられる音声(以下、喜び音声という。)、怒りの感情をもって発せられる音声(以下、怒り音声という。)、及び悲しみの感情をもって発せられる音声(以下、悲しみ音声という。)の少なくともいずれかに、その所属確率(以下、生成確率ともいう。)に基づき分類するものとする。
【0024】
以上のような音声特徴量算出部231は、以下の各機能部を有する。すなわち、音声特徴量算出部231は、各音声データ61を暫定的に複数の種類に分類する(以下、初期化という。)初期化部2311、初期化部2311により分類された音声データ61に基づき、音声の特徴を学習する統計モデル学習部2312、統計モデル学習部2312による学習結果に基づき各音声データ61の音声特徴量を算出する生成確率計算部2313、生成確率計算部2313により算出された音声特徴量に基づき各音声データ61を発話スタイルに基づき分類するデータ分類部2314、及び、統計モデル学習部2312を再度実行するか否かを判定する終了判別部2315を備える。
【0025】
次に、音声合成用データ構築部232は、音声特徴量算出部231により分類された音声データ61を、音声合成に適したデータフォーマットを有する音声データである音声合成用データ70に変換する。
【0026】
なお、本実施形態では、音声合成用データ70は、発話スタイルごとに存在するものとする。また、音声合成用データ70は、音声合成用データ70を構成する各音声に対応する文字ごと、各音声に対応する単語ごと、又は各音声に対応する文ごと等に存在するものとする。
【0027】
音声特徴付き対応文字データ作成部234は、音声特徴量算出部231が算出した、音声データ61の音声特徴量と、当該音声データ61に対応する対応文字データ62とを関連付けしたデータである音声特徴付き対応文字データ75を生成する。音声特徴付き対応文字データ75の詳細は後述する。
【0028】
発話スタイル予測モデル生成部235は、前記取得した音声データに対応する文字のデータである対応文字データをそれぞれ取得し、取得した前記対応文字データのそれぞれと、前記算出した前記音声特徴量のそれぞれとの相関関係を算出し、算出した前記相関関係を記憶する。すなわち、発話スタイル予測モデル生成部235は、音声特徴付き対応文字データ作成部234が生成した音声特徴付き対応文字データ75に基づき、文字(列)と音声の特徴との間の相関関係を記憶し、入力された文字に対応する適切な発話スタイルを出力するモデルである発話スタイル予測モデル80を構築する。
なお、前記発話スタイル予測モデル生成部235は、前記音声コーパスから前記対応文字データを取得し、取得した前記対応文字データに基づき前記相関関係を算出する。
また、前記発話スタイル予測モデル生成部235は、前記取得した対応文字データが示す文字の表記、読み、品詞、又は係り受けに関する特徴量であるテキスト特徴量を算出し、算出した前記テキスト特徴量に基づき前記相関関係を算出する。
【0029】
次に、合成部25は、発話スタイル推定部251、及び音声合成部252を備える。
【0030】
発話スタイル推定部251は、発話スタイル予測モデル生成部235が前記記憶した相関関係に基づき、入力された文字(入力テキスト50)に対応する音声の特徴を推定する。
【0031】
音声合成部252は、発話スタイル推定部251が前記推定した音声の特徴を有する音声を合成する。
【0032】
以上に説明したサーバ20の機能は、サーバ20のハードウェアによって、もしくは、サーバ20のプロセッサが、メモリ1103や記憶装置1106に記憶されている各プログラムを読み出して実行することにより実現される。なお、このプログラムは、例えば、二次記憶デバイスや不揮発性半導体メモリ、ハードディスクドライブ、SSDなどの記憶デバイス、または、ICカード、SDカード、DVDなどの、計算機で読み取り可能な非一時的データ記憶媒体に格納される。前記の端末30の機能についても同様である。
【0033】
次に、音声合成システム10において行われる処理について説明する。
<音声合成処理>
図3は、音声合成システム10において行われる、入力テキスト50に対応する合成音声90を生成する処理(以下、音声合成処理という。)の一例を説明するフローチャートである。この処理は、例えば、サーバ20が、端末30から入力テキスト50を受信したことを契機に開始される。
【0034】
まず、サーバ20は、音声コーパスDB60に記録されている各音声データ61を取得し、取得した音声データ61を音声の特徴(発話スタイル)に応じて分類すると共に、音声データ61の音声特徴量を算出する処理(以下、音声データ分類処理という。)を実行する(s10)。この処理の詳細は後述する。
【0035】
サーバ20は、s10で分類した音声データ61(以下、分類済み音声データという。)のそれぞれを、それぞれの分類済み音声データに対応する音声合成用データ70に変換する(s30)。
【0036】
また、サーバ20は、各分類済み音声データに対応する対応文字データ62を音声コーパスDB60からそれぞれ取得することにより、各分類済み音声データと、各対応文字データ62とを関連づけたデータである音声特徴付き対応文字データ75を生成する(s50)。
【0037】
ここで、音声特徴付き対応文字データ75について説明する。
<音声特徴付き対応文字データ>
図4は、音声特徴付き対応文字データ75の一例を示す図である。同図に示すように、音声特徴付き対応文字データ75は、分類済み音声データに対応する文字列(対応文字データ62)の情報が格納されるテキスト項目751、及び分類済み音声データ(音声データ61)の音声特徴量の情報が格納される音声項目752の各項目を有する、少なくとも1つ以上のレコードで構成されるデータベースである。
【0038】
テキスト項目751は、分類済み音声データに対応する対応文字データ62の識別子(以下、テキストIDという。)が格納されるテキストID753、及び、テキストID753の対応文字データ62が格納されるテキスト内容754の各小項目を有する。音声項目752は、テキストID753の対応文字データ62に対応する音声の特徴が喜び音声の特徴である確率(生成確率)が格納される生成確率(喜)755と、その特徴が怒り音声の特徴である確率(生成確率)が格納される生成確率(怒)756と、その特徴が悲しみ音声の特徴である確率(生成確率)が格納される生成確率(悲)757とを含んで構成されている。
【0039】
次に、図3のs70に示すように、サーバ20は、s50で生成した音声特徴付き対応
文字データ75に基づき、発話スタイル予測モデル80を生成する処理(以下、発話スタイル予測モデル生成処理という。)を行う。この処理の詳細は後述する。
【0040】
サーバ20は、s70で生成した発話スタイル予測モデル80に基づき、端末30から受信した入力テキスト50に対応する音声の特徴を推定する処理(以下、発話スタイル推定処理という。)を実行する(s90)。この処理の詳細は後述する。
【0041】
サーバ20は、s90で推定した音声の特徴と、s30で生成した音声合成用データ70とに基づき、端末30から受信した入力テキスト50に対応する音声を合成する処理(以下、音声合成処理という。)を実行する(s110)。この処理の詳細は後述する。
【0042】
その後、サーバ20は、s110で合成した音声を出力する(s130)。例えば、サーバ20は、s110で合成した音声を、入力テキスト50を送信してきた端末30に送信する。なお、サーバ20は、合成した音声をスピーカー等により出力してもよい。
以上で音声合成処理は終了する(s150)。
【0043】
次に、音声合成処理における各処理の詳細を説明する。
<音声データ分類処理>
まず、音声データ分類処理について説明する。
図5は、音声データ分類処理の一例を説明するフローチャートである。同図に示すように、まずサーバ20の初期化部2311が、初期化を行う。すなわち、初期化部2311は、発話スタイルに基づき暫定的に分類された音声データ(以下、音声データセット120という。)を生成する(s11)。具体的には、例えば、初期化部2311は、音声コーパスDB60に記録されている各音声データ61をランダムに分類する。
【0044】
但し、ランダムな分類を行うと、後述する各処理に係る時間が増大する可能性もある。そこで、初期化部2311は、分類方法の指定をユーザから受け付け、指定された分類に従って各音声データ61を分類してもよい。また、初期化部2311は、他の音声コーパスのデータに基づき得られた音声の特徴の分類の結果に基づき、各音声データ61を分類してもよい。
【0045】
なお、図6は、初期化により分類された音声データセット120の一例を示す図である。同図に示すように、音声データセット120は、「喜び」「怒り」「悲しみ」の3種類の感情を表す音声のうち「喜び」の感情を表す音声データ61の識別子(以下、音声データ61の識別子を音声IDという。)が格納される喜音声セット121、「怒り」の感情を表す音声データ61の音声IDが格納される怒音声セット122、及び、「悲しみ」の感情を表す音声データ61の音声IDが格納される悲音声セット123の各項目を有する。
【0046】
次に図5のs12に示すように、統計モデル学習部2312は、s11で生成した音声データセット120に基づき音声の特徴を学習することにより、音声データ61と音声特徴量との間の相関関係を記憶したモデルである統計モデル130を生成する。この統計モデル130の学習(機械学習)は、例えば、隠れマルコフモデル(Hidden Markov Model
:HMM)、ディープニューラルネットワーク(Delay Neural Network:DNN)に基づき行
われる。特に、HMMを用いた場合、生成確率計算部2313は、後述する生成確率を容易
に算出することができる。
【0047】
次に、生成確率計算部2313は、s12で生成した統計モデル130に基づき、音声コーパスDB60に登録されている全ての音声データ61の音声特徴量を算出する。具体的には、生成確率計算部2313は、各音声データ61の音声特徴量を、生成確率として
算出する。算出された音声特徴量(生成確率)は、例えば所定のデータベース(以下、音声特徴量DBという。)に記憶される。
【0048】
ここで、図7は、音声特徴量DBの一例を示す図である。同図に示すように、この音声特徴量DB140は、音声データ61の音声IDが格納される音声ID141、音声IDの音声データ61が喜び音声に該当する確率(以下、喜び生成確率という。)が格納される生成確率(喜)142、音声IDの音声データ61が怒り音声に該当する確率(以下、怒り生成確率という。)が格納される生成確率(怒)143、及び、音声IDの音声データ61が悲しみ音声に該当する確率(以下、悲しみ生成確率という。)が格納される生成確率(悲)144の各項目を有する、少なくとも1つ以上のレコードで構成される。
【0049】
例えば、図6、7に示されているように、音声データセット120の喜音声セット121に基づき算出された、音声IDが「001」の音声の喜び生成確率は「0.01」である。同
様に、怒り生成確率は「0.5」であり、悲しみ生成確率は「0.3」である。
【0050】
なお、このような生成確率の算出は、HMMを用いる場合、例えば以下のように行われる
。すなわち、生成確率計算部2313は、音声(発話内容)から生成される各遷移状態の時系列データのうち、その出力確率及び状態遷移確率が最大となる最適な各遷移状態の時系列を探索し(遷移状態の最大化を行い)、その最適な各遷移状態の時系列から算出された出力確率と状態遷移確率との総和を、該当音声の生成確率とする。
【0051】
なお、特徴量に基づく音声データの分類方法の詳細は、例えば、「K. Tokuda, T. Kobayashi and S. Imai, "Speech parameter generation from HMM using dynamic features", Proc. ICASSP-95, pp.660-663, 1995.」に開示されている。
【0052】
次に、図5のs14に示すように、データ分類部2314は、s13で算出した音声特徴量(生成確率)に基づき、修正した音声データセット120を生成する。具体的には、例えば、データ分類部2314は、各音声データ61について、音声データセット120の各項目のうち、s13で算出した各生成確率のうち最も確率が高かった確率の項目に、当該音声データ61を分類する。
【0053】
例えば、s14の処理前に、喜び生成確率は「0.01」であり、怒り生成確率が「0.5」
であり、悲しみ生成確率が「0.3」である音声データ61があった場合、その音声データ
61は、s14の処理により、音声データセット120の怒音声セット122の項目に分類される。また、s14の処理前に、喜び生成確率は「0.5」であり、怒り生成確率が「0.1」であり、悲しみ生成確率が「0.09」である音声データ61があった場合、その音声データ61は、s14の処理により、音声データセット120の喜音声セット121の項目に分類される。
【0054】
しかし、このような生成確率の単純な比較により音声データ61を分類した場合は、分類された各音声データセットの分布に偏りが生じる場合がある。例えば、図8(音声データセットの分布の一例を示す図)に示すように、喜音声セット121に分類された音声データの数81と比べ、悲音声セット123に分類された音声データの数82が極端に少ない場合、悲しみ音声に関する学習の精度が低下する可能性がある。そこで、データ分類部2314は、図9(音声データセットの分布の他の一例を示す図)に示すように、各生成確率に対応した係数を各生成確率に乗算することにより、喜音声セット121に分類される音声データの数83と、悲音声セット123に分類される音声データの数84とで、その数の分布が偏らないようにしてもよい。なお、前記の各係数は、例えば、算出される各生成確率の分布の歪度が所定の閾値以下になるような数値とする。
【0055】
例えば、図7の音声特徴量DB140において、喜び生成確率、怒り生成確率、及び悲しみ生成確率にそれぞれ0.5、1.5、1.3の係数を乗算すると、図10(修正された音声特
徴量DB140の一例を示す図)に示されるように、修正された音声特徴量DB140においては、音声IDが「003」の音声データ61の喜び生成確率は「0.075」に、怒り生成確率が「0.015」に、悲しみ生成確率が「0.169」にそれぞれ修正される。これにより、修正前には喜音声セット121の項目に分類されていた音声ID「003」の音声データ61
は、修正後には、悲音声セット123の項目に分類される。
【0056】
このように、生成確率に対して各係数を乗算することにより、各音声の特徴の間の偏りが生じることを防ぐことができる。これにより、発話スタイル予測モデル80のモデル精度を向上させることができる。
【0057】
次に、図5のs15に示すように、終了判別部2315は、音声データ分類処理を終了すべきか否かを判断する。音声データ分類処理を終了すべきと判断した場合には(s15:T)、終了判別部2315は音声データ分類処理を終了し(s16)、音声データ分類処理を終了すべきでないと判断した場合には(s15:F)、終了判別部2315はs12の処理を繰り返す。
【0058】
なお、音声データ分類処理を終了すべきか否かの判断は、例えば、s14で直近に生成した音声データセット120の内容と、それよりも前にs14で生成した音声データセット120の内容とが同じであるか否かの判断、音声データセット120の生成を所定回数以上行ったか否かの判断、又は、算出した各生成確率の平均値が所定値以下であるか否かの判断である。
【0059】
次に、発話スタイル予測モデル生成処理の詳細を説明する。
<発話スタイルモデル生成処理>
図11は、発話スタイル予測モデル生成処理の一例を説明する図である。同図に示すように、サーバ20の発話スタイル予測モデル生成部235は、対応文字データ62の特徴量(テキスト特徴量)を算出する(s71)。
【0060】
具体的には、例えば、発話スタイル予測モデル生成部235は、対応文字データ62における各単語の識別を行った上で、各単語の表記、読み、又は品詞の解析、もしくは、文節間の係り受けの解析を行う。なお、この際、発話スタイル予測モデル生成部235は、対応文字データ62における、話し言葉の特徴量を算出してもよい。
【0061】
発話スタイル予測モデル生成部235は、s71で算出したテキスト特徴量と、音声特徴付き対応文字データ75とに基づき機械学習を行うことにより、入力された文字に対応する音声の特徴を予測する発話スタイル予測モデル80を生成する(s73)。なお、この機械学習は、例えば、決定木、DNN、サポートベクターマシン、CRF(Conditional Random Fields)等に基づき行われる。
以上で発話スタイル予測モデル生成処理は終了する。
【0062】
次に、発話スタイル推定処理について説明する。
<発話スタイル推定処理>
図12は、発話スタイル推定処理の一例を説明する図である。同図に示すように、発話スタイル推定部251は、入力テキスト50のテキスト特徴量を算出する(s81)。なお、この入力テキスト50のテキスト特徴量は、発話スタイル予測モデル生成処理において算出したテキスト特徴量と同じ種類のテキスト特徴量である。
【0063】
次に、発話スタイル推定部251は、発話スタイル予測モデル生成処理で生成した発話
スタイル予測モデル80に、入力テキスト50(具体的には、例えば、s81で算出したテキスト特徴量)を入力することにより、入力テキスト50に対応する音声の特徴(具体的には、例えば、音声特徴量又は生成確率。以下、発話スタイル特徴量ともいう。)を算出する(s83)。
【0064】
例えば、図13は、算出される発話スタイル特徴量の一例を示す図である。同図に示すように、入力テキスト50が「これはどういうこと?」であった場合、発話スタイル推定部251は、「これはどういうこと?」という文章のテキスト特徴量に対応する(例えば同一である)テキスト特徴量を有する、対応文字データ62を抽出する。抽出した対応文字データ62に対応する生成確率(発話スタイル特徴量)のうち、喜び生成確率は「0.01」であり、怒り生成確率は「0.6」であり、悲しみ生成確率は「0.08」である。そこで、
発話スタイル推定部251は、入力テキスト50における喜び生成確率を「0.01」とし、怒り生成確率を「0.6」とし、悲しみ生成確率を「0.08」とする。
以上で発話スタイル推定処理は終了する。
【0065】
次に、音声合成処理の詳細を説明する。
<音声合成処理>
音声合成処理は、発話スタイル特徴推定処理で算出した入力テキスト50の音声特徴量に基づき、音声を合成する処理である。音声合成処理には、例えば、以下に説明するモデル選択型、モデル融合型、又は波形融合型等があり、例えば、これらの処理のうち少なくとも1つ以上が行われればよい。
【0066】
(モデル選択型)
図14は、音声合成処理のうち、音声合成用データ70を予め選択することにより音声を合成する処理(以下、モデル選択型という。)の一例を説明する図である。同図に示すように、モデル選択型においては、サーバ20の音声合成部252は、音声合成用データ70における音声データ(以下、合成用データという。)のうち、発話スタイル推定処理で算出した入力テキスト50の音声特徴量(具体的には、発話スタイル特徴量)に最も近い音声特徴量を有する音声データの合成用データMを選択する(s111)。
【0067】
例えば、図13に示した例では、喜び音声、怒り音声、及び悲しみ音声のうち、音声特徴量の値(生成確率)が最も高い種類の音声、すなわち怒り音声の合成用データが選択される。
【0068】
そして、音声合成部252は、s111で選択した合成用データ(合成用データM)を用いて合成音声90を生成する(s113)。以上で本音声合成処理は終了する。
【0069】
(モデル融合型)
図15は、音声合成処理のうち、音声合成用データ70における各合成用データを融合したデータに基づき音声を合成する処理(以下、モデル融合型という。)の一例を説明する図である。同図に示すように、モデル融合型においては、音声合成部252は、音声合成用データ70における各合成用データとs90で推定した発話スタイル(具体的には、発話スタイル特徴量)とに基づき、新たな合成用データ72を生成する(s115)。具体的には、例えば、音声合成部252は、スタイル(特徴)mの合成用データm(m=1、2、…N)のそれぞれに、そのそれぞれに対応する、発話スタイルに係る所定の案分比Wmを乗算し、この乗算により得られた各算出値を合計することにより、新たな合成用データ72を生成する。
【0070】
なお、前記の発話スタイルに係る案分比Wmは、例えば、図16に示される式により算出される。すなわち、発話スタイルにおける特徴(スタイル)mに係る案分比Wmは、発
話スタイルにおける特徴(スタイル)mの生成確率Fmを、生成確率の合計値(F1+F2+・・・+FN)で除算することにより求められる。
【0071】
続いて、図5のs117に示すように、音声合成部252は、s115で生成した新たな合成用データ72に対して合成処理を行うことにより、合成音声90を生成する。以上で本音声合成処理は終了する。
【0072】
このようにすることで、合成音声90の音声の特徴を細かく調節することができ、入力テキスト50の内容に適した合成音声90を生成することができる。
【0073】
なお、以上のようなモデル融合型の音声合成処理は、HMMに適している。例えば、音声
合成部252は、各スタイルの合成用データを、HMMモデルで定義されている発話スタイ
ルの分布(正規分布)に適合するように混合する。
【0074】
(波形融合型)
図17は、音声合成処理のうち、音声合成用データ70における各合成用データを融合したデータに基づき音声を合成する処理(以下、波形融合型という。)の一例を説明する図である。同図に示すように、波形融合型においては、音声合成部252は、音声合成用データ70における各合成用データ(具体的には、各スタイル(特徴)の合成用データ)のそれぞれに対して、それぞれに対応する各スタイル(特徴)の合成音声73を生成する(s118)。
【0075】
そして、音声合成部252は、s118で生成した合成音声73における各合成音声を、発話スタイル特徴量に基づき混合することにより、合成音声90を得る(s119)。例えば、音声合成部252は、s118で生成した各特徴(スタイル)の合成音声m(m=1、2、…N)のそれぞれに、そのそれぞれに対応する所定の案分比(モデル融合型で説明した案分比と同様にして算出される案分比)を乗算し、乗算して得られた全ての合成音声を合計することにより、合成音声90を生成する。
以上で本音声合成処理は終了する。
【0076】
なお、s119の処理においては、例えば、音声分析再合成手法が用いられる。音声分析再合成とは、音声の波形データを複数のパラメータに分解した後、分解したパラメータを用いて音声を再構築する手法である。
【0077】
なお、モデル選択型及び波形融合型は、波形接続型音声合成(concatenative synthesis)や統計ベースパラメータ音声合成などの、すべての音声合成手法に適用できる。
【0078】
以上の音声合成処理においては、音声の特徴ごとに、異なる種類の音声合成処理を行ってもよい。例えば、「喜び」の感情の音声合成は波形接続型音声合成(concatenative synthesis)を用い、「怒り」及び「悲しみ」の感情の音声の合成はHMM音声合成を用いてもよい。
【0079】
以上のように、本実施形態の音声合成システム10によれば、発話スタイルを表す音声特徴量を複数の音声データ61のそれぞれに対して算出し、対応文字データ62のそれぞれと、算出した音声特徴量のそれぞれとの相関関係を算出し(発話スタイル予測モデル80を生成し)、入力された文字に対応する音声の特徴を推定してその特徴を有する音声を合成するので、音声データ61の解析結果に基づいて、適切な発話スタイルを有する音声合成を行うことができる。例えば、話者性や発話スタイルの種類等に応じて適切な発話スタイルを推定することで、合成音声の自然性を向上させるとともに、話者性の揺らぎを抑えることができる。
【0080】
また、本実施形態の音声合成システム10は、音声特徴量を、音声の特徴が所定の複数の項目のそれぞれに該当する確率として算出するので、音声の特徴量を適切に評価することにより、適切な発話スタイルを有する音声を合成することができる。
【0081】
また、本実施形態の音声合成システム10は、音声コーパス(音声コーパスDB60)から取得した複数の音声データに基づき音声特徴量を算出し、音声コーパスから取得した対応文字データに基づき相関関係を算出する(発話スタイル予測モデル80を生成する)ので、ユーザ等がこの音声コーパスDB60のデータを設定するだけで、音声合成システム10は、適切な音声の特徴を有する音声合成を行うことができる。これにより、例えば、ユーザ等は音声コーパスDB60として自動車等のカーナビゲーションシステムの音声データベースを用いることで、この音声データベースに記録されている音声の特徴(例えば、住所読みスタイル(住所を発声する場合の声の特徴)や、ニュース読みスタイル(一般的な情報を読み上げる場合の声の特徴))に対応した音声合成を行うことができる。
【0082】
また、本実施形態の音声合成システム10は、対応文字データが示す文字の表記、読み、品詞、又は係り受けに関する特徴量であるテキスト特徴量を算出し、算出したテキスト特徴量に基づき相関関係を算出する(発話スタイル予測モデル80を生成する)ので、入力された文字データ(入力テキスト50)が示す語句や文章に対して適切な対応付けがなされている特徴を有する音声を合成することができる。
【0083】
以上の実施形態の説明は、本発明の理解を容易にするためのものであり、本発明を限定するものではない。本発明はその趣旨を逸脱することなく、変更、改良され得ると共に本発明にはその等価物が含まれる。
【0084】
例えば、本実施形態の音声合成システム10では、サーバ20が音声合成に係る処理を行い、端末30が入力テキスト50に係る処理を行ったが、これらは同一の装置として構成されてもよい。例えば、図18に示すように、プロセッサ101、メモリ102、音声出力装置103、入力装置104、及び通信装置105等を備える音声合成装置100として構成し、また、この音声合成装置100を携帯電話機、パーソナルコンピュータ等のデバイスに、音声合成ユニットとして組み込んでもよい。
【0085】
また、本実施形態においてデータベースとして記憶されていた情報は、必ずしもデータベースの形式で記憶される必要はなく、その他の任意の形式でもよい。
【0086】
また、本実施形態では、入力テキスト50が単文のテキストのデータであることを前提としたが、複数の文章を結合したテキストのデータであってもよい。また、本実施形態では、入力テキスト50及び合成音声90が日本語であることを前提としたが、他の言語であってもよいし、日本語とその他の言語とを組み合わせた言語であってもよい。
【0087】
また、本実施形態では、発話スタイル(音声の特徴)が「喜び」、「怒り」、及び「悲しみ」の3種類の感情であるとしたが、その他の特徴に基づいてもよい。具体的には、例えば、音声合成システム10は、音声特徴量として、感情、年齢、又は性別に関する特徴量を算出するものであってもよい。また、音声合成システム10は、話者ごとの音声の特徴、方言ごとの音声の特徴、住所の読み上げに適した音声の特徴、ニュースの読み上げに適した音声の特徴などの、様々な発話スタイルに係る音声特徴量を算出するようにしてもよい。このようにすれば、音声合成システム10は、様々な状況下において適切な発話スタイルを有する音声を合成することができる。
【符号の説明】
【0088】
10 音声合成システム、30 端末、231 音声特徴量算出部、235 発話スタイル予測モデル生成部、251 発話スタイル推定部、252 音声合成部、61 音声データ、62 対応文字データ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18