IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社フューチャー・ブレインの特許一覧

<>
  • 特開-音声合成システム及び音声合成方法 図1
  • 特開-音声合成システム及び音声合成方法 図2
  • 特開-音声合成システム及び音声合成方法 図3
  • 特開-音声合成システム及び音声合成方法 図4
  • 特開-音声合成システム及び音声合成方法 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024111781
(43)【公開日】2024-08-19
(54)【発明の名称】音声合成システム及び音声合成方法
(51)【国際特許分類】
   G10L 13/08 20130101AFI20240809BHJP
   G10L 13/10 20130101ALI20240809BHJP
【FI】
G10L13/08 160
G10L13/10 111Z
G10L13/10 110
【審査請求】未請求
【請求項の数】7
【出願形態】書面
(21)【出願番号】P 2023027772
(22)【出願日】2023-02-06
(71)【出願人】
【識別番号】512065591
【氏名又は名称】株式会社フューチャー・ブレイン
(72)【発明者】
【氏名】萬屋 菊洋
(57)【要約】
【課題】 本発明は、音声合成により作成した人の音声に類似する擬似音声を用いてテキストメッセージを音声出力する音声合成システムおよび音声合成方法に関するものである。
【解決手段】 文字入力された対象テキストの文章及び単語が、音声波形格納手段に格納された話し手の音声データとして存在するかどうかを検索する検索手段と、前記検索手段により該当する文章又は単語の音声データが存在する場合は、該当する文章又は単語を前記音声波形格納手段より抽出し、録音編集手段による合成音声を生成し、該当する音声データが存在しない場合は、前記サブワードを用いたテキスト音声合成手段により合成音声を生成し、生成した合成音声を適用することを主たる特徴とする。
【選択図】図1
【特許請求の範囲】
【請求項1】
話し手の音声又は録音済み音声を文字化し、文章、単語及びサブワードごとに符号化し、音声データとして格納する音声波形格納手段と、
別途、文字入力された対象テキストを文章、単語及びサブワードごとに符号化し、前記音声波形格納手段に格納された音声データが存在するかどうかを検索する検索手段と、
前記検索手段により該当する文章又は単語の音声データが存在する場合は、該当する文章又は単語を前記音声波形格納手段より抽出し、録音編集手段による合成音声を生成し、該当する文章又は単語の音声データが存在しない場合は、前記サブワードを用いたテキスト音声合成手段により存在しない文章又は単語の合成音声を生成し、生成した合成音声を適用することを特徴とする音声合成システム。
【請求項2】
前記テキスト音声合成手段は、前記対象テキストから取得したサブワードを参照して、前記音声波形格納手段に格納されたサブワードの音声データを抽出し合成音声を生成することを特徴とする請求項1記載の音声合成システム。
【請求項3】
前記テキスト音声合成手段は、言語辞書を用いて言語解析する言語解析手段と、
前記対象テキストをサブワードを含む合成単位ごとに単語辞書データベースを用いて読み、アクセント、品詞、ポーズ(間)を決定する言語解析手段と、リズム、イントネーション、スピード、ピッチ、強弱のいずれか又はそれらの組み合わせによる韻律特徴量を抽出する韻律抽出手段とを備え、
前記韻律抽出手段により取得した韻律特徴量に従って合成音声の韻律が調整される韻律生成手段を有することを特徴とする請求項2記載の音声合成システム。
【請求項4】
前記テキスト音声合成手段により生成された音声データは、前記音声波形格納手段に符号化されて格納され、
格納された音声データが、前記話し手により新たに音声入力された音声データと同じ又は類似する場合は、新たに音声入力された音声データに置換されることを特徴とする請求項3記載の音声合成システム。
【請求項5】
前記対象テキストが、法話、占い、天気予報、車内案内、道案内(カーナビゲーション)、機器の操作マニュアル、商業施設や街頭でのアナウンスを含むテキストであって、当該テキストが略パターン化されている文章であることを特徴とする請求項1乃至4記載の音声合成システム。
【請求項6】
前記音声合成システムは、前記話し手の音声又は録音済み音声データに音律情報を付加する韻律情報付加手段を備え、
前記合成単位で格納される音声データに、韻律情報が付加されて前記音声波形格納手段に格納されることを特徴とする請求項1記載の音声合成システム。
【請求項7】
話し手の音声を入力する工程と、
入力された音声を文章、単語及びサブワードごとに符号化し、音声データベースとして格納する工程と、
文字入力された対象テキストを文章、単語及びサブワードごとに符号化し、前記工程により格納された音声データと比較、検索する工程と、
前記比較、検索する工程により該当する音声データが存在する場合は、該当する文章又は単語を抽出する工程と、該当する音声データが存在しない場合は、前記サブワードを用いたテキスト音声合成手段により合成音声を生成し、生成した合成音声を適用する工程とを備えることを特徴とする音声合成方法。
【発明の詳細な説明】
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声合成により作成した人の音声に類似する擬似音声を用いてテキストメッセージを音声出力する音声合成システムおよび音声合成方法に関するものである。
【背景技術】
【0002】
テキスト、文章、文字を音声データとしてデータ化したり、逆に音声からテキスト化する技術は、めざましく進展し種々の分野で利用し、応用されてきている。近年、人の音声を擬似音声として作成する疑似音声合成技術は、種々の工夫、改良により本人の発声に近い疑似音声を取得することが可能となってきている。例えば、コーパスベースの音声波形合成により発声音源の言語を母音と子音に分類してデーターベース化して音声を再構成した音声に喜怒哀楽などの感情を付加することで本人の音声により近く、機械的違和感のない自然な擬似音声が合成できるようになってきている。
【0003】
スマートフォンや種々のアナウンスによる音声合成の多くは、ロボット的あるいは機械的なものでなく、より自然で流暢な音声により、多くの任意テキストに対応した音声合成技術が求められている。できるだけ多様なテキストに対応する任意性を持たせるために、テキスト文を単語系列から音素系列に分解し、音素片またはサブワードとして処理し、蓄積した音素片を音声コーパスとして蓄積し、音声合成に用いている。一方で、計算機の処理能力の向上により音声コーパスサイズも拡大し、音声素片の選択方法や合成方法に隠れマルコムモデルやニューラルネットワークでモデル化する方式などの確率モデルに基づく統計的パラメトリック音声合成が用いられることで、より自然な発声となる音声合成を得ている。
【0004】
ここで、テキスト(又は、文、文章)、単語、サブワード(又は、音節、音素)とは、この技術分野における一般的解釈に従うものとするが、サブワードとは、音節、音素又は音素片を含むものとする。具体的例示として、本発明においてそれぞれの系列構成は、以下のように取り扱う。
テキスト系列:「次は、大学前に停車します。」
単語系列:(無音)(次)(は)(無音)(大学)(前)(に)(停車)・・・・
サブワード系列:/ /ts/g/i/w/a/ /d/a/i/g/a/k/u/m/e/n/i/・・・・
なお、上記サブワード系列の単位としては、音素単位、ダイフォン単位、子音(C)母音(V)組合せ単位など,音声合成方式に従い種々の系列構成が採用される。
【0005】
これらの音声合成技術の進化により、発声に障害を生じた人の会話やコミュニュケーションを補助する目的で音声合成を利用できるようになったり、また、著名人、高僧、有名な芸能人・タレントなど(以下、著名人)の音声を用いて法話、占い、天気予報、車内案内、道案内(カーナビゲーション)、機器の操作マニュアル、商業施設や街頭での種々のアナウンス、などの音声コンテンツを作成できるようになってきている。
【0006】
本人性を重視した音声合成の場合、発声や朗読の自然性と併せ、本人の発声や個性により近い発声が求められる。できれば話し手本人が、テキストを朗読し録音した音声がそのまま再生できるような音声合成が理想的である。より本人性を重視した音声合成としては、特許文献1などが見られる。特許文献1では、音声の中継ネットワークにおいて、通話中の通信端末間で送受信される音声データを複製、蓄積し、蓄積された音声データを基に音声合成データベースを作成することで、より多くの音声データベースを蓄積し、本人音声に近似した音声合成を達成している。
【0007】
このような電話中継での多量の音声データベースを用いることなくできるだけ簡便な手段により、より本人の音声に近い本人性を重視した音声合成が可能となればより適用範囲や利便性の高い装置を構成することが可能となる。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開2013-47851号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
本発明は、任意の文章から話し手の音声を生成し、音声合成によるアナウンス、情報提供、注意喚起などを行うことを目的として以下の課題解決を行うものである。
(1)できるだけ本人の音声に近似した音声合成を取得できる音声合成システムおよび音声合成方法の提供
(2)より簡便な手段、方法により本人の音声データを取得し、音声合成を取得できる音声合成システムおよび音声合成方法の提供
【課題を解決するための手段】
【0010】
このような課題を解決するための手段として本発明の音声合成システムは、話し手の音声又は録音済み音声を文字化し、文章、単語及びサブワードごとに符号化し、音声データとして格納する音声波形格納手段と、別途、文字入力された対象テキストを文章、単語及びサブワードごとに符号化し、前記音声波形格納手段に格納された音声データが存在するかどうかを検索する検索手段と、前記検索手段により該当する文章又は単語の音声データが存在する場合は、該当する文章又は単語を前記音声波形格納手段より抽出し、録音編集手段による合成音声を生成し、該当する文章又は単語の音声データが存在しない場合は、前記サブワードを用いたテキスト音声合成手段により存在しない文章又は単語の合成音声を生成し、生成した合成音声を適用することを特徴とする。
【0011】
また、本発明の音声合成システムは、前記テキスト音声合成手段が、前記対象テキストから取得したサブワードを参照して、前記音声波形格納手段に格納されたサブワードの音声データを抽出し合成音声を生成するように構成することもできる。
【0012】
また、本発明の音声合成システムは、前記テキスト音声合成手段が、言語辞書を用いて言語解析する言語解析手段と、前記対象テキストをサブワードを含む合成単位ごとに単語辞書データベースを用いて読み、アクセント、品詞、ポーズ(間)を決定する言語解析手段と、リズム、イントネーション、スピード、ピッチ、強弱のいずれか又はそれらの組み合わせによる韻律特徴量を抽出する韻律抽出手段とを備え、前記韻律抽出手段により取得した韻律特徴量に従って合成音声の韻律が調整される韻律生成手段を有するように構成することもできる。
【0013】
また、本発明の音声合成システムは、前記テキスト音声合成手段により生成された音声データが、前記音声波形格納手段に符号化されて格納され、格納された音声データが、前記話し手により新たに音声入力された音声データと同じ又は類似する場合は、新たに音声入力された音声データに置換されるように構成することもできる。
【0014】
また、本発明の音声合成システムは、 前記対象テキストが、法話、占い、天気予報、車内案内、道案内(カーナビゲーション)、機器の操作マニュアル、商業施設や街頭でのアナウンスを含むテキストであって、当該テキストが略パターン化されている文章であるように構成することもできる。
【0015】
また、本発明の音声合成システムは、前記音声合成システムが、前記話し手の音声又は録音済み音声データに音律情報を付加する韻律情報付加手段を備え、前記合成単位で格納される音声データに、韻律情報が付加されて前記音声波形格納手段に格納されることを特徴とするように構成することもできる。
【0016】
また、本発明の音声合成方法は、話し手の音声を入力する工程と、入力された音声を文章、単語及びサブワードごとに符号化し、音声データベースとして格納する工程と、文字入力された対象テキストを文章、単語及びサブワードごとに符号化し、前記工程により格納された音声データと比較、検索する工程と、前記比較、検索する工程により該当する音声データが存在する場合は、該当する文章又は単語を抽出する工程と、該当する音声データが存在しない場合は、前記サブワードを用いたテキスト音声合成手段により合成音声を生成し、生成した合成音声を適用する工程とを備えることを特徴とする。
なお、上記した課題を解決する手段は、可能な限り組合せて使用することができる。
【発明の効果】
【0017】
本発明においては、符号化し、格納した話し手の音声データベースから、対象テキストの語彙を検索し、検索により該当する文章、単語が存在する場合は、録音編集方式による合成音声を取得し、該当するデータが存在しない場合は、音声データベースのサブワードを参照しテキスト音声合成方式による合成音声を取得するような構成である。そのため、まず格納された文章及び単語の該当音声データをできるだけ多く利用して録音編集方式による音声合成を行い、該当データが無い場合でも本人音声から取得、格納した音声データベースのサブワードを用いてテキスト音声合成方式による音声合成を行う構成であるため、より本人の音声に類似した疑似音声を取得することができる。
【図面の簡単な説明】
【0018】
図1】本発明の実施形態における音声合成システムの一例を示す説明図である。
図2】本発明の実施形態におけるテキスト音声合成システムの一例を示す説明図である。
図3】本発明の改良実施形態における音声合成システムの一例を示す説明図である。
図4】本発明による話し手の音声波形取得処理のフロー図である。
図5】本発明の音声合成システムのフロー図である。
【発明を実施するための形態】
【0019】
以下、図面に基づいて、本発明の実施の形態について説明する。なお、説明において、実施例に記載されているいずれの図面も本発明の説明用に概略的な模式図として描かれており、必然的かつ当然に具備されている手段や構成は省略されている。また、寸法や形状も厳密なものではない。従って、構成要素の寸法、材質、形状、その相対配置等は、特に記載がない限り発明の技術的範囲をそれらのみに限定する趣旨のものではない。
【0020】
本発明においては、話し手による法話、占い、天気予報、車内案内、道案内(カーナビゲーション)、機器の操作マニュアル、商業施設や街頭での種々のアナウンス、などを話し手本人の音声に類似した擬似音声合成により再生利用することを想定している。殊に、著名な高僧やタレント、芸能人がより本人に近い擬似音声により各種テキストを読み上げたり、発声することが可能となれば、著名人の活動範囲を広範なものしたり、種々の広宣活動などにも利用することが可能となる。また、生前の話し手の音声データが取得されていれば、本人の日記などを本人の擬似音声で読み上げて、在りし日の様子をより現実的に偲ぶことも可能となる。
【0021】
図1は、本発明の実施形態における音声合成システムの一例を示す説明図であり、話し手によるサンプルテキストの音声入力素材又は録音済素材を用いて対象テキストの文章を、話し手本人の擬似音声により出力する音声合成の概略図を示している。ここで、録音編集方式とは、本発明において、予め録音した話し手のテキストを文章及び単語ベースで音声データベースに格納し、音声合成したいコンテンツの内容に応じて抽出し、接続、編集する音声合成方式をいう。また、テキスト音声合成又はその方式とは、音声合成単位の音節、音素又は音素片をなどのサブワードを合成単位として音声データ及び音声コーパスとして録音、格納しておき、音声合成したいコンテンツの内容に応じて音声データを抽出し、単語系列として接続する音声合成又はその方式をいう。
【0022】
話し手1は、テキスト(以下、サンプルテキスト)を音声入力手段2へ音声入力し、録音した音源を取得する。また、話し手1による録音素材3が入手できる場合はそれらの音源をサンプルテキストとして使用することができる。特に、話し手1が著名人などである場合、音声入力するサンプルテキストは通常自ら行っている講演、法話、占い、あるいはテレビ、ラジオ、ポッドキャスト、インターネットなどのメディア媒体からの録音素材3を用いて音声入力することができる。また、既にメディア媒体などから取得した音源がある場合は、その音源を流用することで、サンプルテキストをわざわざ録音する必要がなく、録音スタジオ等の録音環境を不要とし、音質良好であり、かつ豊富な音声コンテンツを取得でき、また、音源更新も容易となる。
【0023】
音声入力手段2で入力された音声データ又は録音素材3の音声データは、テキスト変換手段4により文章、文字に変換される。このテキスト変換手段4は、汎用の音声認識技術による音声・テキスト変換ソフトを用いることができる。テキスト変換手段4により文字化された文字データと音声波形の両方のデータは、符号化処理手段5において符号化処理を行う。この符号化処理手段5において、文章、単語及びサブワードの合成単位ごとに文字と音声波形とを結びつける符号化処理を行う。符号化処理されたテキストは合成単位での文章、単語又はサブワードが関連付けられた音声データ(音声波形)として音声波形データベース(音声波形格納手段)6に格納される。
【0024】
ここで、サブワード単位で波形処理を行った波形は、音声波形データベース6の中で音声コーパスデータベース6’として格納される。この音声コーパスデータベース6’として格納されたサブワード波形(音素片)は、後述するテキスト音声合成において参照される。このサブワード(音節又は音素片)は、できるだけ短い合成単位が望ましいが、母音(V)および子音(C)を構成単位とする半音素単位(C, V)、ダイフォン単位(CV,VC,VV)、トライフォン単位(CVC、VCV)、音節単位(CV,V)、のいずれであっても構わない。
【0025】
話し手1により入力された音声の符号化単位は、文章、単語及びサブワードごとに符号化されるが、符号化単位を長くするか、短くするかは話し手1の音声を利用するコンテンツ内容に依存する。天気予報、占い、電車の車内案内などは、比較的定型文が多く、文章固定部分が多い場合は符号化単位を長く設定し、講演、法話などのコンテンツでは、定型文が少ないため符号化単位を短く設定する。符号化単位が長いほど音声波形接続箇所が少なくなるため、より自然な音声合成が期待できる。
【0026】
一方、話し手1(著名人など)の本人音声による音声合成の対象となる対象テキスト7は、文字入力手段8により文字入力を行い入力された対象テキスト7の文章、単語及びサブワードごとに符号化処理手段9により符号化処理を行う。ここで、文章及び単語及びサブワードでの符号化単位などの符号化基準は前述の話し手1により入力されたサンプルテキスト音声入力の符号化基準と同様である。
【0027】
符号化処理された対象テキスト7は、文章及び単語に関してのみ音声選択手段10を介して音声データ検索手段11により、音声波形データベース6に該当する音声データが存在するかどうか検索を行い、文章又は単語の語彙(音声データ)の抽出を行う。符号化に相当する文章又は単語の音声データ(音声波形)があれば、当該音声波形を順次取り出し、格納された音声波形が文章として完結すれば、それらの波形片を順次文章合成処理手段12へ送出する。文章合成処理手段12では、送出されてきた文章又は単語の音声波形片を音節接続し、ポーズ(間)、ピッチ(音程)、スピード(話速)などを調節し、文章としてスピーカなどの音声出力装置13から合成音声として出力する。ここでの音声データ接続では、符号化された文章、単語の音声波形片を接続するいわゆる録音編集方式の構成となっている。
【0028】
読み上げ対象テキスト7の文章で符号化された文章及び単語の語彙がすべて音声波形データベース6に格納されていれば、それらを取り出し接続することで合成音声として出力できるため、合成音声出力は、話し手1本人の音声に酷似した疑似音声を取得することができる。
【0029】
録音編集方式では、話し手1本人の音声波形を音声波形データベース6に格納しており、最も本人音声に近い音声合成を行うことが可能となる。この方式に適したテキスト文章のコンテンツとしては、駅のアナウンス、天気予報、占い、カーナビ音声案内などが挙げられる。例えば、有名タレントによる「占い」などでは、予め占いの基本メッセージのほか、「十二支・干支名」、「吉凶」、「ラッキーカラー」、「金運」、「恋愛運」、・・・などある程度語彙が限定されているフレーズを符号化し、辞書として保有していれば、必要なテキストに該当するメッセージとフレーズを組み合わせて接続すれば音声合成が可能となる。
【0030】
この録音編集方式では、上述のような合成接続単位が少ないコンテンツの音声合成を取り扱うのに適しており、できるだけ定型化したパターンを用いるため合成単位は比較的長く処理可能であるが、音声波形データベース6に格納されていない場合、語句を生成する必要があるため合成単位は、音声合成方式に適した単位として格納する必要がある。音声データ検索手段11の検索により音声波形データベース6に必要な語彙が存在しない場合、存在しない語彙については、テキスト音声合成手段14による音声合成を行う。
【0031】
このテキスト音声合成手段14としては、言語音声コーパス(言語波形片のデータベース)から選択された合成単位の音声素片を接続する波形接続型音声合成方式と音響的な音声パラメータを統計的モデルにより音声波形を生成する統計モデル方式(隠れマルコムモデルやニューラルネットワークでモデル化する方式など)が提案されているが、いずれの方式であっても適用できる。本発明では、録音編集方式による音声合成で音声データが存在しない場合の語彙を生成するための補完的音声合成であり、より本人性を重視した音声合成のためには、統計モデル方式より波形接続型音声合成方式の方が望ましい。
【0032】
次に、音声データ検索手段11において音声波形データベース6に文章及び単語の音声データが存在しない語彙を生成するテキスト音声合成手段14につき説明する。図2は、本発明の実施形態に係るテキスト音声合成手段の一例を示す説明図である。図1と同じブロック構成や部材には同じ番号を付している。音声波形データベース6に音声データが存在しない場合のテキスト音声合成方式による音声波形データの生成には、まず、文字入力された対象テキスト7から取得したサブワード(音節、音素又は音素片)を合成単位として用いる。この合成単位は、上述したサンプルテキストの音声入力により取得したサブワードの音声データ(音声波形)と同じ基準の合成単位である。当然、音声波形を生成するための合成単位は、短くするほど接続が増え音声の不連続性が高まる。また、合成単位を長くするほど音声パラメータ系列が限定され、適合する音素系列が少なくなる。
【0033】
ここで、上述した合成単位は、音素片の音声波形を生成し、語彙(単語)を音声合成するための単位であり、合成単位により生成した語彙(単語)が符号化の単位を形成する。符号化単位と合成単位をどの様に設定するかは、コンテンツ(テキスト)次第であり、テキスト音声合成による音声合成の語彙生成が多いような場合、つまり録音編集方式による単語が多く存在しない場合は、より短い合成単位を設定する方が望ましい。
【0034】
音声データ検索手段11により音声波形データベース6に存在しないと判断された語彙は、その語彙が言語解析手段21に入力される。入力された語彙は、言語解析手段21により単語ごとに同定され、言語辞書15を用いてテキスト解析及び韻律生成を行い、必要な音声情報(コンテキスト情報)を制御パラメータとして取得する。この言語解析手段21では、テキストの正規化、形態素解析、係り受け解析、読み生成、アクセント生成のプロセスをパイプライン処理によって実行する。この言語解析手段21により、読み、構文、アクセント、形態などの情報(コンテキスト情報)が出力される。この言語辞書15は、言語の種類(日本語、英語など)に応じて市場で入手できるもので構わない。
【0035】
言語解析手段21の出力は、韻律生成手段22へ入力され、音声パラメータとなる韻律的特徴及び文節的特徴を取り出し、韻律情報として後段の波形合成処理へ出力する。この韻律情報の主なものは、音声のピッチ(周波数の高低)、パワー(声の大きさ)、スピード(話速)などである。
【0036】
言語解析手段21及び韻律生成手段22により取得したコンテキスト情報及び韻律情報は、合成単位選択手段23へ送られ、音素系列に沿った合成単位候補を音声波形データベース(音声コーパス)6’よりサブワードの音素片候補から適切な音素片を列挙する。つまり、音声コーパス6’に含まれるサブワードの音声素片の中から音声パラメータに適応するような音素片候補に対し抽出環境と使用環境の適合度、接続した際の基本周波数パターンやスペクトル包絡連続性(接続コスト)及びコンテキスト情報及び韻律情報との差を表すターゲットコストにより動的計画法で最適となる組合せを探索し、合成単位を選択する。
【0037】
最適となる音素片の合成単位が選択されればそのまま波形接続しても良いが、合成単位接続時の不連続性や生成された韻律との不一致度を低減するために、波形編集手段24においてピッチ、パワー、スペクトル、スピード(話速)等の音響的特徴を調整する。
【0038】
波形編集手段24で音響的特徴が調整された音素片の合成単位は、波形合成処理手段25で合成単位波形の位相合わせが行われ、音素片間の接続をなめらかにするクロスフェード処理を行い単位合成された単語ベースとしての合成音声として出力する。この合成された音声(単語)は、符号化されて音声波形データベース6に格納される。
【0039】
本発明では、話し手1のサンプルテキスト読み上げによる音声入力又は話し手1の音源から取得したサブワードごとの音素片を音声波形として格納したものを使用して音声合成しているため、話し手1本人の音声波形をベースとすることができ、より本人性を高めた合成音声を取得することができる。しかし、音声コーパスデータベース6’中に適合するか類似する音素片波形が見つからない場合を想定して、市場で入手可能な音声コーパスデータベースを付加的に使用しても構わない。
【0040】
テキスト音声合成手段14により生成した合成音声(単語)は、録音編集方式により音声波形データベース6から抽出した文章又は単語を補完する形で文章合成処理手段12へ送られ、対象テキスト7の文章を出力装置13から出力する。
【0041】
録音編集方式における音源取得は、本人性を重視する場合、極力ノイズを排除し、良質な本人音質を取得する必要がある。しかし、話し手1の音源がテレビ、ラジオ、ネットなど各種メディアでのコンテンツから入手できる場合、そのような音源の録音素材3をサンプルテキストとして音声波形データ取得することも可能である。音源に本人以外の音声や環境ノイズが存在する場合は、状況に応じて種々のノイズフィルタや話し手1の特性であるピッチやフォルマントを取り出すフィルタによりノイズの少ない音源を取得する手法も考えられる。特に、著名人などはこのようにメディアから良好な音源を多数取得することが比較的容易であると考えられる。このように、サンプルテキストとなる音源が豊富に入手できれば、常にサンプルテキストからの音源を容易に更新できるため、サンプルテキスト音源の学習効果により、より本人の音声に近い擬似音声を取得することが可能となる。
【0042】
また、この録音編集方式で、より音声の本人性に近づけるためにサンプルテキスト音源の音声素片に対し、韻律情報を付加して処理することもできる。図3にでは、その音声波形に韻律情報を付加する改良一例のブロック説明図である。図1又は図2と同じブロック構成や部材の場合は同じ番号を付している。話し手1の音声を録音した音源が入力されるとその音源は、韻律情報付加手段31に送られる。韻律情報付加手段31の特徴量計測部32では、サンプルテキストの文章、単語及びサブワードごとの音素片データにつきパワー(音圧レベル)、ピッチ(音程)、スピード(話速)などの韻律情報(音声パラメータ)を計測する。この韻律情報は、必要に応じていくつかを選択しても、またその他のリズム、ポーズ(間)、イントネーションなどを追加したり、組合せても良い。
【0043】
この音律情報(音声パラメータ)を取得するには、合成単位の音声パラメータごとに測定し、韻律生成部33において文章、単語に応じてそれらの平均値を求め、韻律情報を生成する。取得した韻律情報は、韻律情報付加部34において合成単位ごとに韻律情報が付加されて、符号化処理手段5で符号化され音声波形データベース6へ格納される。
【0044】
サンプルテキスト音源より取得した韻律情報は、パワー、ピッチ、スピードなどを含む韻律ごとに調音合成フィルターによりスペクトルを音声パラメータとして調整できるようにして、波形データベース6に格納するか、または、コンテンツによっては、パワー、ピッチ、スピードなどが固定されていれば、特徴量にあわせて調整した音声素片として波形データベース6に格納しても良い。
【0045】
図4は、本発明による話し手の音声波形取得処理のフロー図である。フロー図のそれぞれの工程(ステップ)はSで示し、図1又は図2で用いた同じ部材、装置には同じ番号を付してある。話し手1による音源はサンプルテキスト音源として入力、録音される(ステップ1、以下S1とし、他のステップも同様に記載する)。入力された音源に対し音素片の合成単位を決定する(S2)。合成単位ごとに数字、英字又は記号による符号化を行い(S3)、音声波形データベース6に格納する(S4)。こここで、文章、単語に符号化された音声データは音声波形データベース6に格納されるが、サブワード単位で符号化された音素片は、音声波形データベース内の音声コーパス6’領域に格納される。
【0046】
このステップにおいて、韻律情報を付加する場合は、上記S2において決定された単位音素片に対し、パワー、ピッチ、スピードなどにつき計測し(S5)、文章又は単語、もしくはサブワード同士でそれぞれの平均値を取得し韻律を決定する(S6)。決定された韻律情報は、音声データに付加されて(S7)、音声波形データベース6又は6’に格納される。このようにサンプルテキストから録音された話し手1の音源が文章、単語については音声波形データベース6に、サブワードの音素片については、音声コーパスとして音声コーパス領域6’に格納されてプロセスは終了する。
【0047】
図5は、本発明により対象テキストから話し手1の音声合成方法を示すフロー図である。対象テキストの文章は、文字入力手段8により文字入力される(S11)。文字入力された対象テキストは、文章、単語又はサブワードの音声合成される合成単位が決定される(S12)。決定された文章、単語又はサブワードの合成単位は、それぞれに符号化される(S13)。この符号化は、数字、英字又はその他の識別符号である。符号化されたそれぞれの文章、単語又はサブワードは、音声データ検索手段11によりそれぞれの合成単位での音声波形が存在するかどうかの選択を行う(S14)。この音声選択のステップは、音声データ検索手段11を介して音声波形データベース6においてサンプルテキストより音声入力された音声波形に該当する語彙が存在するかどうかを判断し(S15)、音声波形データベース6中に該当する文章又は単語の音声波形又は音素片が存在する場合は、その音声波形を抽出して取得する(S16)。
【0048】
上記ステップ(S15)において、音声波形データベース6に該当する語彙の音声波形が存在しないと判定された場合、その語彙は、言語辞書15を用いて単語同定、読み、係り受け(構文構成)、アクセントを含むコンテキスト情報の言語解析を行う(S17)。言語解析処理後、その語彙は、韻律生成手段22へ入力され、音声パラメータとなる韻律的特徴及び文節的特徴となる韻律情報を取り出す(S18)。この韻律情報の主なものは、音声のピッチ(周波数の高低)、パワー(声の大きさ)、スピード(話速)などである。
【0049】
上記ステップ(S17及び18)により取得したコンテキスト情報及び韻律情報を音声波形選択の音声パラメータとして次の音声合成単位選択ステップへ送られ、音声波形データベース6の中のサンプルテキストに基づく音声コーパス6’の中から音声パラメータに適応する音素片候補を選択する(S19)。選択された音素片波形は、合成単位接続時の不連続性や生成された韻律との不一致度を低減するために、ピッチ、パワー、スペクトル、スピード(話速)等の音響的特徴を調整するよう波形編集を行う(S20)。
【0050】
ステップ20において音響的特徴が調整され、波形編集された音素片の合成単位は、合成単位波形の位相合わせが行い、音素片間の接続をなめらかにするクロスフェード処理などの波形合成を行い単語ベースとしての合成音声として出力する(S21)。この合成された音声(単語)は、文章合成ステップへ送られ対象テキストを補完する単語として文章合成される(S23)。また、同時にステップ21で音声合成された単語は、符号化ステップ(S22)で符号化されて音声波形データベース6に格納される。
【0051】
上述した音声合成システム及び音声合成方法によれば、録音編集方式により話し手本人の音声波形データベース6から選択した音声波形を接続することで音声合成を行い、音声波形データベース6に音声波形が存在しない場合にテキスト音声合成方式を用いて語彙の音声波形片(単語)を生成する構成である。このような構成によれば話し手本人の音素片を多く利用でき、合成音声による音声波形片は限られたものであるため、より本人性の高い音声合成をおこなうことが可能となる。
【0052】
また、この方式を著名人による対象テキストの音声合成に適用する場合、著名人等のメディア媒体からの音源を利用することができるため、容易に本人の音声波形データベースを入手出来、かつ常時これらのデータベースを更新することで、より本人性の高い(本人音声に近い)合成音声を取得することができる。
【産業上の利用可能性】
【0053】
以上説明の通り、話し手本人の音声により近い擬似音声を音声合成することで、本人のテキスト著作物などを本人の合成音声で読み上げたりすることが可能となり、著名人などの活動範囲を広げたり、音声障害者や物故者であっても以前の音声データを利用して音声合成が可能となるなど、医療、介護、福祉、エンターテイメントなどの分野での応用が可能となり、産業上の利用可能性が高いものである。
【符号の説明】
【0054】
1 話し手、2 音声入力手段、3 録音素材、4 テキスト変換手段、5 符号化処理手段、6 音声波形データベース(6’音声コーパス)、7 対象テキスト、8 文字入力手段、9 符号化処理手段、10 音声選択手段、11 音声データ検索段、12 文章合成処理手段、13 音声出力装置、スピーカ、14 テキスト音声合成手段、15 言語辞書、21 言語解析手段、22 韻律生成手段、23 合成単位選択手段、24 波形編集手段、25 波形合成処理手段、31 韻律情報付加手段、32 特徴量計測部、33 韻律生成部、34 韻律情報付加部
図1
図2
図3
図4
図5