特許第6581356号(P6581356)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッドの特許一覧

特許6581356大規模コーパスに基づく音声合成方法及び装置
<>
  • 特許6581356-大規模コーパスに基づく音声合成方法及び装置 図000015
  • 特許6581356-大規模コーパスに基づく音声合成方法及び装置 図000016
  • 特許6581356-大規模コーパスに基づく音声合成方法及び装置 図000017
  • 特許6581356-大規模コーパスに基づく音声合成方法及び装置 図000018
  • 特許6581356-大規模コーパスに基づく音声合成方法及び装置 図000019
  • 特許6581356-大規模コーパスに基づく音声合成方法及び装置 図000020
  • 特許6581356-大規模コーパスに基づく音声合成方法及び装置 図000021
  • 特許6581356-大規模コーパスに基づく音声合成方法及び装置 図000022
  • 特許6581356-大規模コーパスに基づく音声合成方法及び装置 図000023
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6581356
(24)【登録日】2019年9月6日
(45)【発行日】2019年9月25日
(54)【発明の名称】大規模コーパスに基づく音声合成方法及び装置
(51)【国際特許分類】
   G10L 13/10 20130101AFI20190912BHJP
【FI】
   G10L13/10 113Z
   G10L13/10 111Z
【請求項の数】12
【外国語出願】
【全頁数】17
(21)【出願番号】特願2014-264861(P2014-264861)
(22)【出願日】2014年12月26日
(65)【公開番号】特開2016-4267(P2016-4267A)
(43)【公開日】2016年1月12日
【審査請求日】2017年12月25日
(31)【優先権主張番号】201410276352.X
(32)【優先日】2014年6月19日
(33)【優先権主張国】CN
(73)【特許権者】
【識別番号】512015127
【氏名又は名称】バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
(74)【代理人】
【識別番号】100073184
【弁理士】
【氏名又は名称】柳田 征史
(74)【代理人】
【識別番号】100090468
【弁理士】
【氏名又は名称】佐久間 剛
(72)【発明者】
【氏名】リー シウリン
【審査官】 安田 勇太
(56)【参考文献】
【文献】 特開2014−232145(JP,A)
【文献】 特開2007−114507(JP,A)
【文献】 国際公開第2008/056590(WO,A1)
【文献】 特開2002−156990(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00 −13/10
(57)【特許請求の範囲】
【請求項1】
大規模コーパスに基づく音声合成方法であって、
韻律構造予測モデルを利用して少なくとも2つの代替的な韻律境界分割方式を提供すべく入力テキストに対して韻律構造予測処理を実行するステップと、
前記少なくとも2つの代替的な韻律境界分割方式における音声コーパスの韻律単位に関する構造確率情報に従い、1つの韻律境界分割方式を決定するステップと、
決定された前記1つの韻律境界分割方式に従い音声合成を実行するステップと
を含み、前記韻律単位は、前記入力テキストにおける各漢字に対応する音節であり、
前記韻律単位に関する構造確率情報は、韻律語、韻律句、又は音調句の先頭又は末尾に前記韻律単位が出現する確率を含むことを特徴とする方法。
【請求項2】
前記韻律構造予測モデルが、テキストコーパス及び音声コーパス内の注釈付きデータに関する統計的学習を事前に実行することにより生成されることを特徴とする、請求項1に記載の方法。
【請求項3】
テキストコーパス及び音声コーパス内の注釈付きデータに関して事前に実行される前記統計的学習が、決定木アルゴリズム、条件付き確率場アルゴリズム、最大エントロピーモデルアルゴリズム、及び隠れマルコフモデルアルゴリズムに従い実行される統計的学習を含むことを特徴とする、請求項2に記載の方法。
【請求項4】
前記少なくとも2つの代替的な韻律境界分割方式における音声コーパス内の韻律単位に関する構造確率情報に従い、1つの韻律境界分割方式を決定する前記ステップが、
前記音声コーパス内のデータについて事前に実施された統計に従い前記少なくとも2つの代替的な韻律境界分割方式における韻律単位に関する構造確率情報を取得するステップと、
前記構造確率情報に従い出力確率計算関数を利用して前記少なくとも2つの代替的な韻律境界分割方式の出力確率を計算するステップと、
前記出力確率が最大である代替的な韻律境界分割方式を、前記1つの韻律境界分割方式として決定するステップと
を含むことを特徴とする、請求項1に記載の方法。
【請求項5】
前記少なくとも2つの代替的な韻律境界分割方式により分割される韻律境界が、韻律語境界、韻律句境界、又は音調句境界を含むことを特徴とする、請求項4に記載の方法。
【請求項6】
前記構造確率情報に従い出力確率計算関数を利用して前記少なくとも2つの代替的な韻律境界分割方式の出力確率を計算する前記ステップが、
所定の重みパラメータに従い前記少なくとも2つの代替的な韻律境界分割方式の目標となる韻律階層確率及び構造確率の加重平均を求めて、前記少なくとも2つの代替的な韻律境界分割方式の出力確率を決定するステップを含むことを特徴とする、請求項4に記載の方法。
【請求項7】
大規模コーパスに基づく音声合成装置であって、
韻律構造予測モデルを利用して少なくとも2つの代替的な韻律境界分割方式を提供すべく入力テキストに対して韻律構造予測処理を実行する予測処理モジュールと、
前記少なくとも2つの代替的な韻律境界分割方式における音声コーパスの韻律単位に関する構造確率情報に従い、1つの韻律境界分割方式を決定する境界分割モジュールと、
決定された前記1つの韻律境界分割方式に従い音声合成を実行する音声合成モジュールとを備え、前記韻律単位は、前記入力テキストにおける各漢字に対応する音節であり、
前記韻律単位に関する構造確率情報は、韻律語、韻律句、又は音調句の先頭又は末尾に前記韻律単位が出現する確率を含むことを特徴とする装置。
【請求項8】
前記韻律構造予測モデルが、テキストコーパス及び音声コーパス内の注釈付きデータに関する統計的学習を事前に実行することにより生成されることを特徴とする、請求項7に記載の装置。
【請求項9】
テキストコーパス及び音声コーパス内の注釈付きデータに関して事前に実行される前記統計的学習が、決定木アルゴリズム、条件付き確率場アルゴリズム、最大エントロピーモデルアルゴリズム、及び隠れマルコフモデルアルゴリズムに従い実行される統計的学習を含むことを特徴とする、請求項8に記載の装置。
【請求項10】
前記境界分割モジュールが
前記音声コーパス内のデータについて事前に実施された統計に従い前記少なくとも2つの代替的な韻律境界分割方式における韻律単位に関する構造確率情報を取得する構造確率情報取得ユニットと、
前記構造確率情報に従い出力確率計算関数を利用して前記少なくとも2つの代替的な韻律境界分割方式の出力確率を計算する出力確率計算ユニットと、
前記出力確率が最大である代替的な韻律境界分割方式を、前記1つの韻律境界分割方式として決定する境界分割方式決定ユニットと
を備えることを特徴とする、請求項7に記載の装置。
【請求項11】
前記少なくとも2つの代替的な韻律境界分割方式により分割される韻律境界が、韻律語境界、韻律句境界、又は音調句境界を含むことを特徴とする、請求項10に記載の装置。
【請求項12】
前記出力確率計算ユニットが特に、
所定の重みパラメータに従い前記少なくとも2つの代替的な韻律境界分割方式の目標となる韻律階層確率及び構造確率の加重平均を求めて、前記少なくとも2つの代替的な韻律境界分割方式の出力確率を決定するために使用されることを特徴とする、請求項10に記載の装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、テキスト音声変換の技術分野に関し、特に大規模コーパスに基づく音声合成方法及び装置に関する。
【背景技術】
【0002】
音声は、人間と機械がコミュニケーションするための最もありふれた、且つ最も自然な手段である。テキスト入力を音声出力に変換する技術は、テキスト音声(TTS)変換又は音声合成技術と呼ばれる。当該技術は、音響学、言語学、デジタル信号処理マルチメディア技術等、複数の分野に関係しており、中国における情報処理分野での最先端技術である。
【0003】
図1に、従来技術による音声合成システムの信号フローを示す。図1を参照すると、訓練フェーズにおいて、韻律構造予測モデル103、音響モデル104、及び候補単位105は、テキストコーパス101及び音声コーパス102内の注釈付きデータの訓練に基づいて得ることができる。韻律構造予測モデル103は音声合成フェーズにおいて韻律構造予測107の基準を提供し、音響モデル104は音声合成109を行う基礎となり、候補単位105は、波形接続型の音声合成109における共通の候補波形を得るソフトウェアユニットである。
【0004】
音声合成フェーズでは第1に、入力テキストに対してテキスト解析106が実行され、次いで韻律構造予測モデル103に従い入力テキストに対して韻律構造予測107が実行され、次いで各種の音声合成パターン、すなわちパラメータ合成型の音声合成又は波形接続型の音声合成に応じてパラメータ予測/単位選択108が実行され、最後に、最終的な音声合成109が実行される。
【発明の概要】
【発明が解決しようとする課題】
【0005】
韻律構造予測を実行すべく既存の音声合成システムを採用することにより、幾つかの入力テキストに関して、入力テキストにより決定される韻律階層構造が既に得られている場合がある。しかし、音声の韻律階層構造は往々にして人々の実際のコミュニケーションにおける各種要因に影響を受ける。図2は、実際の人の声における韻律構造の影響因子の原理を示す模式図である。図2を参照すると、実際の人の声の韻律構造は、特徴、感情、基本周波数、及び話者の文の意味に影響され得る。一例として話者の特徴を挙げると、70歳の男性の発話の韻律構造は30歳の女性の発話の韻律構造とは異なる。
【0006】
従って、一様な韻律構造予測モデル103による予測を介して得られる文の韻律構造は柔軟性に乏しく、従って音声合成システムにより最終的に合成される音声は結果的に不自然なものになる。
【課題を解決するための手段】
【0007】
この目的のため、本発明の実施形態は、合成音声の自然さ及び柔軟性を向上させるべく大規模コーパスに基づく音声合成方法及び装置を提案する。
【0008】
第1の態様において、本発明の実施形態は、大規模コーパスに基づく音声合成方法を提案するものであり、本方法は、
韻律構造予測モデルを利用して少なくとも2つの代替的な韻律境界分割方式を提供すべく入力テキストに対して韻律構造予測処理を実行するステップと、
当該少なくとも2つの代替的な韻律境界分割方式における音声コーパスの韻律単位に関する構造確率情報に従い、1つの韻律境界分割方式を決定するステップと、
決定された1つの韻律境界分割方式に従い音声合成を実行するステップと
を含む
【0009】
第2の態様において、本発明の実施形態は、大規模コーパスに基づく音声合成装置を提案するものであり、本装置は、
韻律構造予測モデルを利用して少なくとも2つの代替的な韻律境界分割方式を提供すべく入力テキストに対して韻律構造予測処理を実行する予測処理モジュールと、
当該少なくとも2つの代替的な韻律境界分割方式における音声コーパスの韻律単位に関する構造確率情報に従い、1つの韻律境界分割方式を決定する境界分割モジュールと、
決定された1つの韻律境界分割方式に従い音声合成を実行する音声合成モジュールと、
を備える。
【0010】
韻律構造予測モデルを利用して少なくとも2つの代替的な韻律境界分割方式を提供すべく入力テキストに対して韻律構造予測処理を実行し、次いで当該少なくとも2つの代替的な韻律境界分割方式における音声コーパスの韻律単位に関する構造確率情報に従い韻律境界分割方式を決定し、最後に、決定された韻律境界分割方式に従い音声合成を実行することにより、本発明の実施形態で提案する大規模コーパスに基づく音声合成を行う方法及び装置は、合成音声の自然さ及び柔軟性を向上させる。
【0011】
添付の図面を参照しながら、以下の非限定的な実施形態の詳細説明を精査することにより、本発明の他の特徴、目的、及び利点がより明らかになろう。
【図面の簡単な説明】
【0012】
図1】従来技術による音声合成システムの信号フローを示す構成図
図2】従来技術における実際の人の声の韻律構造の影響因子の原理を示す模式図
図3】本発明の第1の実施形態による大規模コーパスに基づく音声合成方法のフローチャート
図4】本発明の実施形態に適用可能な中国語の文の韻律構造の模式図
図5】本発明の第1の実施形態によるテキストコーパス内の韻律注釈付きデータの模式図
図6】本発明の第1の実施形態による大規模コーパスに基づく音声合成方法を動作させる音声合成システムの信号フローを示す構成図
図7】本発明の第2の実施形態による大規模コーパスに基づく音声合成方法における境界分割のフローチャート
図8】本発明の好適な実施形態による大規模コーパスに基づく音声合成方法のフローチャート
図9】本発明の第3の実施形態による大規模コーパスに基づく音声合成装置の構造図
【発明を実施するための形態】
【0013】
本発明について、添付の図面及び実施形態と共に以下により詳細に記述する。本明細書に記述する特定の実施形態は本発明を限定するものではなく、単に本発明を説明する目的で用いるのに過ぎないことを理解されたい。また、説明を容易にするため、添付の図面は全ての構成要素ではなく本発明に関する部分のみを示していることにも留意する必要がある。
【0014】
図3〜6に、本発明の第1の実施形態を示す。
【0015】
図3は、本発明の第1の実施形態による大規模コーパスに基づく音声合成方法のフローチャートである。大規模コーパスに基づく音声合成方法は、音声合成用に特化された計算装置において実施される。音声合成用に特化された計算装置は、パーソナルコンピュータ及びサーバ等の汎用コンピュータを含み、音声合成用の各種の埋め込み型コンピュータを更に含む。大規模コーパスに基づく音声合成方法は、以下のステップを含む。
S310:韻律構造予測モデルを利用して少なくとも2つの代替的な韻律境界分割方式を提供すべく入力テキストに対して韻律構造予測処理を実行するステップ。
【0016】
音声合成システムは、構成及び機能の観点から、テキスト解析、韻律処理、及び音響処理の3個の主モジュールに分割することができる。テキスト解析モジュールは主として、コンピュータが入力テキストを完全に理解して、後の2つの部分が必要とする各種の発音プロンプトを提供することができるように、人が自然言語を理解するプロセスをシミュレートする。韻律処理は、合成音声が意義素を正確に表してより自然に聞こえるように、合成音声の分節特性を計画する。音響処理は、先行する2つの部分の処理結果の要件に従い音声、すなわち合成音声を出力する。
【0017】
入力テキストの韻律処理は、入力テキストに対する韻律構造予測無しでは実行することができない。一般に、中国語の韻律構造は韻律語、韻律句、及び音調句の3階層からなると考えられている。図4は、中国語の文の韻律構造の模式図である。中国語の文は、多くの文法に則った単語401を結合することにより構成される。1つ以上の文法に則った単語401は集合的に韻律語402を構成し、1つ以上の韻律語402は集合的に韻律句403を構成し、次いで、1つ以上の韻律句403は集合的に音調句404を構成する。
【0018】
韻律語402の基本的な特徴は以下の通りである。(1)1つの韻脚からなり、(2)一般に文法に則った単語又は3音節未満の単語群であり、(3)例えば接続詞、前置詞のように1〜3音節、大部分は2又は3音節にわたり、(4)文法に則った単語と同様の連声パターン及び語強勢パターンを有し、内部にリズム境界が現れず、(5)韻律語402が韻律句403を形成することができる。
【0019】
韻律句403の主な特徴は、(1)1つ又は複数の韻律語402により形成されている、(2)7〜9音節にわたり、(3)各種の内部韻律語402の間に韻律の観点でリズム境界が潜在的に現れ、主な表現が韻律語の最後の音節の延長及び韻律語間のピッチ再設定からなり、(4)韻律句403の音程階調の傾向は基本的に下降傾向であり、(5)相対的に安定した句強勢構成パターン、すなわち統語構造に関する従来型の強勢パターンを有していることである。
【0020】
音調句404の主な特徴は、(1)恐らくは複数の韻脚を有し、(2)複数の韻律句音調パターン及び韻律句強勢パターンが恐らく内部に含まれ、従って関連するリズム境界が現れ、主な表現が韻律句の最後の音節の延長及び韻律句間のピッチ再設定からなり、(3)異なる音程又は文パターンに依存する音調パターンを有する、すなわち例えば平叙文は下降傾向を有し、一般的な疑問文は上昇傾向を有し、感嘆文の音高レベルは一般に上昇する特定の音程階調傾向を有している。
【0021】
入力テキストのこれらの3階層の認識、すなわち入力テキストに対する韻律構造予測により、文中での合成音声の休止特性を決定する。一般に、3個の休止レベルはシステムの入力テキストの韻律階層と1対1に対応しており、韻律階層が高いほど、それにより区切られる休止特性がより顕著であり、韻律階層が低いほど、それにより区切られる休止特性がより不明瞭である。更に、合成音声の休止特性は、その自然さに多大な影響を及ぼす。従って、入力テキストに対する韻律構造予測は、最終的な合成音声の自然さに多大な影響を及ぼす。
【0022】
入力テキストに対する韻律構造予測を実行した結果が韻律境界分割方式である。音声合成は、異なる韻律境界分割方式に従い実行されるため、合成音声の休止位置及び休止時間長等のパラメータは異なっている。韻律境界分割方式は、予測を介して得られる韻律語境界、韻律句境界、及び音調句境界を含む。すなわち、韻律境界分割方式は、韻律語、韻律句、及び音調句における境界分割を含む。
【0023】
韻律構造予測が同一入力テキストに対して実行されることで、入力テキストに対し異なる複数の韻律境界分割方式が出力され得ることを理解されたい。好適には、入力テキストに対する異なる韻律境界分割方式は、入力テキストに対する複数の優れた韻律境界分割方式を出力することにより得ることができる。
【0024】
入力テキストに対する韻律構造予測を実行するプロセスで、音調句は基本的に句読点で区切られるため、音調句は容易に認識できると一般に考えられている。一方、韻律語の予測は規則を要約する方法に依存しており、これは基本的に使用要件を満たしている。これに対して、韻律構造予測における韻律句の予測は困難なものとなる。従って、入力テキストの韻律構造予測とは、主として韻律句境界の予測を解くことである。
【0025】
入力テキストの韻律構造予測は、韻律構造予測モデルに基づいて実行される。韻律構造予測モデルは、テキストコーパス及び音声コーパス内の注釈付きデータに関する統計的学習を実行することにより生成される。好適には、統計的学習は、韻律構造予測モデルを生成すべくテキストコーパス及び音声コーパス内の注釈付きデータに対して決定木アルゴリズム、条件付き確率場アルゴリズム、最大エントロピーモデルアルゴリズム、及び隠れマルコフモデルアルゴリズムを利用して実行することができる。
【0026】
テキストコーパス及び音声コーパスは、韻律構造予測モデルの訓練に用いる2つの基本コーパスであり、テキストコーパスの保存対象はテキストデータであって、音声コーパスの保存対象は音声データである。テキストコーパス及び音声コーパスは基本コーパスを保存するだけでなく、これらのコーパスの注釈付きデータをも保存する。コーパスの注釈付きデータは少なくとも、コーパスの韻律階層構造に関する注釈付きデータを含む。
【0027】
コーパスに関する注釈付きデータの構造を、一例としてテキストコーパスを用いて示す。図5は、本発明の第1の実施形態によるテキストコーパス内の韻律注釈付きデータの模式図である。図5を参照すると、テキストコーパスは、コーパス501を保存するだけでなく、コーパスの韻律構造に関する注釈付きデータ502をも保存する。コーパス501は文として保存され、韻律語、韻律句及び音調句はこれらの文中で分割される。コーパスの注釈付きデータ502は、当該コーパス内の韻律語の終端がどの韻律境界であるかに関する注釈である。コーパスの韻律構造に関する注釈付きデータにおいて、B0は韻律語の終端が韻律語境界であることを表し、B1は韻律語の終端が韻律句境界であることを表し、B2は韻律語の終端が音調句境界であることを表す。
【0028】
本実施形態において、入力テキストを受信した後で、韻律構造予測モデルを利用して入力テキストに対する少なくとも2つの韻律境界分割方式を得るべく入力テキストに対する韻律構造予測を実行する。
【0029】
S320:少なくとも2つの代替的な韻律境界分割方式における音声コーパスの韻律単位に関する構造確率情報に従い、1つの韻律境界分割方式を決定する。
【0030】
音声合成において、入力テキストは異なる韻律単位の組と考えられる。すなわち、入力テキストは複数の異なる韻律単位を含む。韻律単位は、入力テキストにおける各漢字に対応する音節である。例えば、入力テキスト
は韻律単位
を含み、入力テキスト
を含む。
【0031】
入力テキストに関して複数の異なる韻律境界分割方式が得られた後では、異なる韻律境界分割方式で得られる韻律境界が異なるため、異なる韻律境界分割方式内の同一箇所に位置する韻律単位は異なっている。
【0032】
例えば、入力テキスト
に関して、韻律句境界分割だけ与えられた場合、以下の2つの韻律境界分割方式がある。
【0033】
上述の2つの韻律境界分割方式において、記号「$」は、韻律境界分割方式における韻律句境界を表す。第1の韻律境界分割方式において、韻律単位「格」が韻律境界分割方式の第2の韻律句の終端にあるのに対し、第2の韻律境界分割方式では、韻律単位「了」が韻律境界分割方式の第2の韻律句の終端にあることが分かる。
【0034】
本実施形態において、音声コーパス内の複数の異なる韻律単位に関する構造確率情報を比較し、比較結果に従い少なくとも2つの代替的な韻律境界分割方式から最終的な韻律境界分割方式を決定する。韻律単位に関する構造確率情報は、韻律語、韻律句、又は音調句の先頭又は末尾に韻律単位が出現する確率を含む。
【0035】
上述の2つの韻律境界分割方式の例において、韻律単位「格」及び韻律単位「了」は各々、第1の韻律境界分割方式及び第2の韻律境界分割方式の終端にある。音声コーパス内において、韻律単位「格」が韻律句の終端にある確率が、韻律単位「了」が韻律句の終端にある確率よりも大きい場合は、第1の韻律境界分割方式が最終的な韻律境界分割方式として選択され、音声コーパス内において、韻律単位「了」が韻律句の終端にある確率が、韻律単位「格」が韻律句の終端にある確率よりも大きい場合は、第2の韻律境界分割方式が最終的な韻律境界分割方式として選択される。
【0036】
S330:決定された韻律境界分割方式に従い音声合成を実行する。
【0037】
入力テキストに対する韻律境界分割方式が決定された後で、決定された韻律境界分割方式に従い音声合成を実行する。音声合成は、波形接続型の音声合成及びパラメータ合成型の音声合成を含む。
【0038】
上述の方式において、韻律語分割方式を決定すべく最初に上述の方式を採用し、必要に応じて、複数の代替的な韻律句分割方式を得るために韻律語分割に基づいて韻律句分割を実行し、最終的な韻律境界分割方式として機能する好適な代替的な方式を得るために同様の方法を採用することが好適である。
【0039】
図6は、本発明の第1の実施形態による大規模コーパスに基づく音声合成方法を動作させる音声合成システムの信号フローを示す構成図である。図6を参照すると、大規模コーパスに基づいて音声合成方法を動作させる音声合成システムによる入力テキストに対する音声合成は、従来技術における音声合成システムに含まれる入力テキストに対するテキスト解析608、韻律構造予測モデルによる入力テキストに対する韻律構造予測609、入力テキストに対するパラメータ予測/単位選択610、及び最終音声合成611に加えて、音声コーパス内の韻律単位に関する構造確率情報に従い韻律構造に対して実行される韻律修正607を更に含む。入力テキストに対する音声合成は、修正された韻律構造により実行され、得られた合成音声はより自然なものとなっている。
【0040】
本実施形態は、入力テキストに対する韻律構造予測を実行することにより、少なくとも2つの代替的な韻律境界分割方式を提供し、次いで少なくとも2つの代替的な韻律境界分割方式における韻律単位に関する構造確率情報に従い1つの韻律境界分割方式を決定し、最後に、決定された韻律境界分割方式に従い音声合成を実行するため、入力テキストに対して実行される韻律構造予測は、コーパス内の韻律単位に関する構造確率情報を参照し、音声合成の自然さ及び柔軟性が向上する。
【0041】
図7に、本発明の第2の実施形態を示す。
【0042】
図7は、本発明の第2の実施形態による大規模コーパスに基づく音声合成方法における境界分割のフローチャートである。大規模コーパスに基づく音声合成方法は本発明の第1の実施形態に基づいており、更に、少なくとも2つの代替的な韻律境界分割方式における音声コーパス内の韻律単位に関する構造確率情報による韻律境界分割方式の決定は以下のステップを含む。
S321:少なくとも2つの代替的な韻律境界分割方式における韻律単位に関する構造確率情報を、音声コーパス内のデータについて事前に実施された統計に従い取得する。
【0043】
入力テキストに対する韻律境界分割方式を、韻律単位に関する位置統計情報に従い決定する場合、第1に、少なくとも2つの代替的な韻律境界分割方式における韻律単位に関する構造確率情報を、音声コーパス内のデータについて事前に実施された統計に従い取得する。韻律単位に関する構造確率情報は、韻律語、韻律句、又は音調句の先頭又は末尾に韻律単位が出現する確率を含む。
【0044】
韻律単位は、代替的な韻律境界分割方式における韻律境界に位置する韻律単位を選択すべきである。韻律単位に関する構造確率情報が、韻律語、韻律句、又は音調句の先頭に韻律単位が出現する確率を指す場合は、韻律境界よりも後方の韻律単位を選択する必要があり、韻律単位に関する構造確率情報が、韻律語、韻律句、又は音調句の末尾に韻律単位が出現する確率を指す場合は、韻律境界よりも前方の韻律単位を選択する必要がある。
【0045】
好適には、韻律単位に関する構造確率情報は、次式で表すことができる。
=β×log(m+n0)−γ
【0046】
mが音声コーパス内の目標韻律階層における目標位置にある韻律単位の個数を表し、目標韻律階層は韻律語、韻律句、及び音調句を含み、目標位置は韻律語、韻律句、又は音調句の先頭又は末尾にあり、n0は個数調整パラメータであってゼロより大きい任意の整数であってよく、βは確率拡大縮小係数であり、γは確率オフセット係数である。上式において、パラメータn0、β、及びγは値が経験則に基づくパラメータであり、上式を介して計算で得られた結果Wiは音声コーパス内の韻律単位に関する構造確率情報を表す。
【0047】
S322:少なくとも2つの代替的な韻律境界分割方式の出力確率を、構造確率情報に従い出力確率計算関数を利用して計算する。
【0048】
好適には、少なくとも2つの代替的な韻律境界分割方式の出力確率を決定すべく所定の重みパラメータに従い少なくとも2つの代替的な韻律境界分割方式の目標韻律階層確率及び構造確率の加重平均を求める。
【0049】
一例として、出力確率計算関数は次式のように示される。
f(W,W)=α×W+(1−α)W
ここに、αは重み係数であって値が経験則に基づくパラメータであり、当該値は0〜1の間にあり、Wは韻律単位の韻律階層確率であり、Wは韻律単位の構造確率である。韻律単位の韻律階層確率、すなわちWは、韻律構造予測モデルを利用して入力テキストに対して韻律構造予測を実行する際に韻律構造予測モデルにより出力される韻律単位に対応する確率値であり、対応する階層の韻律境界が韻律単位に出現する入力テキストの確率を表す。対応する階層は、韻律語階層、韻律句階層、又は音調句階層であってよい。
【0050】
韻律単位の構造確率とは、韻律単位が音声コーパスのコーパス内の特定の位置に出現する確率を指す。構造確率は、韻律単位が音声コーパス内で出現する位置について統計を実施することにより得られる。
【0051】
好適には、韻律単位の構造確率は、音声コーパス内の韻律語、韻律句、又は音調句の先頭又は末尾に韻律単位が出現する確率を指す。
【0052】
出力確率計算関数の計算結果は、代替的な韻律境界分割方式の出力確率である。
【0053】
S323:出力確率が最大である代替的な韻律境界分割方式を韻律境界分割方式として決定する。
【0054】
出力確率が最大である代替的な韻律境界分割方式が、音声コーパス内の韻律単位に関する構造確率情報に基づく最も適切な韻律境界分割方式であると考えられ、従って出力確率が最大である代替的な韻律境界分割方式を最終的な韻律境界分割方式として採用する。
【0055】
少なくとも2つの代替的な韻律境界分割方式における韻律単位に関する構造確率情報を取得し、次いで構造確率情報に従い出力確率計算関数を利用して少なくとも2つの代替的な韻律境界分割方式の出力確率を計算して、最後に、出力確率が最大である代替的な韻律境界分割方式を最終的な韻律境界分割方式として決定することにより、本実施形態は、韻律単位に関する位置統計情報による韻律境界分割方式の決定を完了し、音声合成の自然さ及び柔軟性が向上する。
【0056】
図8に、本発明の好適な実施形態を示す。
【0057】
図8は、本発明の好適な実施形態による大規模コーパスに基づく音声合成方法のフローチャートである。図8を参照すると、大規模コーパスに基づく音声合成方法は以下のステップを含む。
S810:テキストコーパス及び音声コーパス内の注釈付きデータを利用して韻律構造予測モデルを訓練する。
【0058】
音声合成システムは、入力テキストシーケンスを合成音声波形に変換するシステムである。当該システムは、特定のソフトウェア及びハードウェアを介してテキストファイルを変換し、次いで、コンピュータ又は他の音声システムを介して音声を出力して、合成音声が極力人間の音声のように相対的に高い明瞭さ及び自然さを持ち得るようにする。
【0059】
入力テキストに対する音声合成は、2つのコーパス、すなわちテキストコーパス及び音声コーパス内のコーパスデータに基づいて実行される。テキストコーパス及び音声コーパスは共に大量のコーパスデータを保存している。テキストコーパス内のコーパスデータの形式はテキスト形式であり、入力テキストに対するテキスト解析を実行する際の基本的な基準である。音声コーパス内のコーパスデータの形式は音声形式であり、入力テキストに対する解析が完了した後で音声合成を実行する際の基本データである。
【0060】
入力テキスト解析と、音声合成及び出力との2つのステップの間に、入力テキストの韻律構造の予測を実行する必要がある。入力テキストに対する韻律構造予測は、出力音声の休止位置及び休止時間長等の音響パラメータを決定する。入力テキストに対する韻律構造予測は、訓練済み韻律構造予測モデルに基づいて実行する必要がある。
【0061】
韻律構造予測モデルの訓練は、テキストコーパス及び音声コーパス内の注釈付きデータに基づいて実行される。注釈付きデータは、コーパス内の韻律構造に注釈を付ける。韻律構造予測モデルの訓練プロセスにおいて、テキストコーパス及び音声コーパス内の注釈付きデータに関する統計的学習により、韻律構造予測モデルは自身の構造を完成させ、従って入力テキストに関して入力テキストの韻律構造を予測することができる。
【0062】
本実施形態において、テキストコーパス及び音声コーパス内の注釈付きデータに関する統計的学習は、決定木アルゴリズム、条件付き確率場アルゴリズム、最大エントロピーモデルアルゴリズム、及び隠れマルコフモデルアルゴリズムに従い実行される統計的学習を含む。
【0063】
S820:韻律単位に関する構造確率情報は、音声コーパス内で韻律単位が出現する位置に対して統計を実施することにより得られる。
【0064】
音声コーパスは、大量の音声コーパスセグメントを保存している。音声コーパスセグメントは複数の異なる韻律単位からなる。例えば、音声コーパスは音声コーパスセグメント
を保存し、この音声コーパスセグメントは5個の韻律単位、すなわち
を含む。
【0065】
音声コーパスセグメントは、韻律語、韻律句、又は音調句であってよい。本実施形態において、音声コーパスセグメントは韻律句である。
【0066】
構造確率情報とは、音声コーパス内の音声コーパスセグメント内に設定された位置に韻律単位が出現する確率に関する情報を指す。好適には、構造確率情報は、音声コーパス内の音声コーパスセグメントの先頭又は末尾に韻律単位が出現する確率に関する情報を指す。
【0067】
構造確率情報は、音声コーパス内で韻律単位が出現する位置について統計を実施することにより得られる。好適には、構造確率情報は、音声コーパス内の音声コーパスセグメントの先頭又は末尾に韻律単位が出現する確率を介して得られる。
【0068】
S830:韻律構造予測モデルを利用して少なくとも2つの代替的な韻律境界分割方式を提供すべく入力テキストに対する韻律構造予測処理を実行する。
【0069】
入力テキストを受信した後で、訓練済み韻律構造予測モデルを利用して入力テキストに対する韻律構造予測処理を実行する。入力テキストに対して韻律構造予測処理を実行した結果は、入力テキストに関する少なくとも2つの代替的な韻律境界分割方式である。好適には、入力テキストに対する少なくとも2つの優れた代替的な韻律境界分割方式を出力することにより、入力テキストに対する複数の異なる韻律境界分割方式が得られる。
【0070】
韻律境界分割方式を用いて入力テキストに対する韻律境界を画定する。好適には、入力テキストに対する異なる韻律階層によれば、韻律境界分割方式により画定される入力テキストの韻律境界は、韻律語境界、韻律句境界、及び音調句境界を含む。
【0071】
韻律構造予測においては韻律句の予測が難点となるため、本実施形態では韻律構造境界分割について、単に韻律句境界分割を一例として説明している。当業者であれば、韻律語及び音調句に対して境界分割を実行するプロセスが、韻律句に対して境界分割を実行するプロセスと同様であることを理解できよう。
【0072】
一例として、入力テキスト
に対する韻律句境界分割を、少なくとも2つの代替的な韻律境界分割方式を提供するプロセスを説明するための例として挙げる。上述の入力テキストに関して、以下のように2つの韻律句境界分割方式がある。
【0073】
記号「$」は、韻律境界分割方式内の韻律句境界を表す。
【0074】
S840:少なくとも2つの代替的な韻律境界分割方式の音声コーパス内の韻律単位に関する構造確率情報に従い韻律境界分割方式を決定する。
【0075】
韻律語、韻律句、又は音調句は全て韻律単位を含む。音声コーパス内で、韻律単位は、特定の確率に従い、韻律語、韻律句、又は音調句の先頭又は末尾に出現する。例えば、韻律単位「了」が韻律句の末尾に出現する確率は0.78である。この確率は、音声コーパス内の韻律単位に関する構造確率情報である。
【0076】
韻律単位に関する構造確率情報は、音声コーパス内で韻律単位が出現する位置について実施された統計、すなわち韻律語、韻律句、又は音調句の先頭又は末尾に韻律単位が出現する確率により得られる。韻律単位に関する構造確率情報が得られた後で、韻律単位に関する構造確率情報に基づいて、少なくとも2つの代替的な韻律境界分割方式の出力確率を各々計算し、次いで、出力確率に基づいて少なくとも2つの代替的な韻律境界分割方式から最終的な韻律境界分割方式を決定することができる。
【0077】
好適には、少なくとも2つの代替的な韻律境界分割方式の出力確率は、次式により計算することができる。
f(W,W)=α×W+(1−α)W
ここに、αは重み係数であって値が経験則に基づくパラメータであり、当該値は0〜1の間にあって、一旦選択されたならば異なる代替的な韻律境界分割方式により変化せず、Wは韻律単位の韻律階層確率であり、Wは韻律単位の構造確率である。
【0078】
一例として上述の入力テキスト
に対する2つの韻律境界分割方式を挙げると、音声コーパス内の韻律句の終端に韻律単位「了」が出現する確率が韻律句の終端に韻律単位「格」が出現する確率よりも大きい場合、構造確率情報に基づく計算から得られた第2の韻律境界分割方式の出力確率は第1の韻律境界分割方式の出力確率よりも大きく、従って、第2の韻律境界分割方式が最終的な韻律境界分割方式として選択される。
【0079】
S850:決定された韻律境界分割方式に従い音声合成を実行する。
【0080】
入力テキストに対する韻律境界分割方式が決定された後で、決定された韻律境界分割方式に従い音声合成を実行する。音声合成は、波形接続型の音声合成であってよく、またパラメータ合成型の音声合成であってよい。
【0081】
上述の方法ステップを1台のコンピュータで実行しなくてもよいことに注意されたい。実際に、韻律構造予測モデルに対する訓練をコンピュータで完了し、次いで、訓練済み韻律構造予測モデルを別のコンピュータに移植して入力テキストに対する音声合成を完了することもできる。
【0082】
韻律構造予測モデルを訓練し、韻律単位に関する位置統計情報について統計を実施し、少なくとも2つの代替的な韻律境界分割方式を提供すべく入力テキストに対する韻律構造予測を実行し、韻律単位に関する位置統計情報に従い少なくとも2つの代替的な韻律境界分割方式から最終的な韻律境界分割方式を決定して、最後に、決定された韻律境界分割方式に従い音声合成を実行することにより、本実施形態は、韻律単位に関する位置統計情報が、音声合成の自然さ及び柔軟性を向上させるべく入力テキストに対する韻律構造予測を実行することを可能にする。
【0083】
図9に、本発明の第3の実施形態を示す。
【0084】
図9は、本発明の第3の実施形態による大規模コーパスに基づく音声合成装置の構造図である。図9を参照すると、大規模コーパスに基づく音声合成装置は、予測処理モジュール910、境界分割モジュール920、及び音声合成モジュール930を含む。
【0085】
予測処理モジュール910は、韻律構造予測モデルを利用して少なくとも2つの代替的な韻律境界分割方式を提供すべく入力テキストに対する韻律構造予測処理を実行するために用いる。
【0086】
境界分割モジュール920は、少なくとも2つの代替的な韻律境界分割方式における音声コーパス内の韻律単位に関する構造確率情報に従い、1つの韻律境界分割方式を決定するために用いる。
【0087】
音声合成モジュール930は、決定された韻律境界分割方式に従い音声合成を実行するために使用される。
【0088】
好適には、韻律構造予測モデルは、テキストコーパス及び音声コーパス内の注釈付きデータに関する統計的学習を事前に実行することにより生成される。
【0089】
好適には、テキストコーパス及び音声コーパス内の注釈付きデータに関して事前に実行される統計的学習は、決定木アルゴリズム、条件付き確率場アルゴリズム、最大エントロピーモデルアルゴリズム、及び隠れマルコフモデルアルゴリズムに従い実行される統計的学習を含む。
【0090】
好適には、境界分割モジュールは、構造確率情報取得ユニット921、出力確率計算ユニット922、及び境界分割方式決定ユニット923を含む。
【0091】
構造確率情報取得ユニット921は、音声コーパス内のデータについて事前に実施された統計に従い少なくとも2つの代替的な韻律境界分割方式における韻律単位に関する構造確率情報を得るために使用される。
【0092】
出力確率計算ユニット922は、構造確率情報に従い出力確率計算関数を利用して少なくとも2つの代替的な韻律境界分割方式の出力確率を計算するために使用される。
【0093】
境界分割方式決定ユニット923は、出力確率が最大である代替的な韻律境界分割方式を韻律境界分割方式として決定するために使用される。
【0094】
好適には、少なくとも2つの代替的な韻律境界分割方式により分割される韻律境界は、韻律語境界、韻律句境界、又は音調句境界を含む。
【0095】
好適には、韻律単位に関する構造確率情報は、韻律語、韻律句、又は音調句の先頭又は末尾に韻律単位が出現する確率を含む。
【0096】
好適には、出力確率計算ユニット922は特に、所定の重みパラメータに従い少なくとも2つの代替的な韻律境界分割方式の目標韻律階層確率及び構造確率の加重平均を求めて、少なくとも2つの代替的な韻律境界分割方式の出力確率を決定するために使用される。
【0097】
本発明の上記複数の実施形態のシーケンス番号は、説明目的のために過ぎず、実施形態の優先順位を表すものではない。
【0098】
当業者には、本発明の上述の各種モジュール又は各種ステップが、汎用計算装置を用いて実装でき、単一の計算装置に一体化でき、又は複数の計算装置を含むネットワーク上に分散されていてもよく、また任意選択的に、計算装置の実行可能なプログラムコードを用いて実装でき、その結果、ストレージ装置に保存されて計算装置により実行されても、又は各種集積回路モジュールに各々組み込まれてもよく、或いは複数のモジュール又はそのステップを単一の集積回路モジュールに一体化できることが理解されよう。このように、本発明は、ハードウェア及びソフトウェアの如何なる特定の組合せにも限定されない。
【0099】
本明細書において各種の実施形態を漸進的に記述しており、各実施形態において他の実施形態との差異を強調しながら、各種実施形態間で同一又は類似の部分を相互に参照してもよい。
【0100】
上記の説明は本発明の好適な実施形態に過ぎず、本発明を限定するものではなく、当業者には本発明に各種の変更及び変型があり得ることが理解されよう。本発明の趣旨及び原理の範囲内でなされる任意の変更、均等物との置換、又は改良は全て本発明の権利保護範囲に含まれるものとする。
【符号の説明】
【0101】
101 テキストコーパス
102 音声コーパス
103 韻律構造予測モデル
104 音響モデル
105 候補単位
106 テキスト解析
107 韻律構造予測
108 パラメータ予測/単位選択
109 音声合成
401 単語
402 韻律語
403 韻律句
404 音調句
501 コーパス
502 注釈付きデータ
607 韻律修正
608 テキスト解析
609 韻律構造予測
610 パラメータ予測/単位選択
611 音声合成
910 予測処理モジュール
920 境界分割モジュール
921 構造確率情報取得ユニット
922 出力確率計算ユニット
923 境界分割方式決定ユニット
930 音声合成モジュール
図1
図2
図3
図4
図5
図6
図7
図8
図9