(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2021-12-22
(45)【発行日】2022-01-18
(54)【発明の名称】音声合成用データ生成装置、音声合成用データ生成方法及び音声合成システム
(51)【国際特許分類】
G10L 13/10 20130101AFI20220111BHJP
G10L 25/30 20130101ALI20220111BHJP
G10L 13/08 20130101ALI20220111BHJP
【FI】
G10L13/10 113B
G10L25/30
G10L13/08 110A
(21)【出願番号】P 2019004974
(22)【出願日】2019-01-16
【審査請求日】2021-06-25
(31)【優先権主張番号】P 2018004811
(32)【優先日】2018-01-16
(33)【優先権主張国・地域又は機関】JP
【新規性喪失の例外の表示】特許法第30条第2項適用 平成29年11月7日にhttps://medium.com/spectee-inc-news-press-releasesに掲載したニュースリリースで公開
【新規性喪失の例外の表示】特許法第30条第2項適用 平成29年11月7日にhttps://prtimes.jp/main/html/rd/p/000000007.000016808.htmlに掲載したニュースリリースで公開
【新規性喪失の例外の表示】特許法第30条第2項適用 平成29年11月15日~17日に展示会にて公開
【早期審査対象出願】
(73)【特許権者】
【識別番号】516083461
【氏名又は名称】株式会社Spectee
(74)【代理人】
【識別番号】100173646
【氏名又は名称】大森 桂子
(72)【発明者】
【氏名】岩井 清彦
【審査官】渡部 幸和
(56)【参考文献】
【文献】米国特許出願公開第2010/0042410(US,A1)
【文献】国際公開第2008/114453(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-25/93
(57)【特許請求の範囲】
【請求項1】
テキストデータと該テキストデータに韻律情報が付与された情報付与データとで構成される複数のデータセットを教師データとして機械学習を行って構築された学習済みモデルを用いて、入力文章から韻律情報を含む音声合成用データを生成するデータ処理部を備え、
前記情報付与データの少なくとも一部には音韻情報も付与されており、前記データ処理部は、韻律情報と音韻情報を含む音声合成用データも生成する音声合成用データ生成装置。
【請求項2】
前記音声合成用データは、特定の単語のみ音韻情報が付与されている請求項
1に記載の音声合成用データ生成装置。
【請求項3】
前記データ処理部には、更に、入力文章を単語毎に区切る分かち書き処理部、難読漢字をひらがなに置き換えるかな変換部及び単語を数字に置き換える数字変換部のうち少なくとも1種が設けられている請求項
1又は2に記載の音声合成用データ生成装置。
【請求項4】
テキストデータと該テキストデータに韻律情報が付与された情報付与データとで構成される複数のデータセットを教師データとして機械学習を行って構築された学習済みモデルを用いて、入力文章から韻律情報を含む音声合成用データを生成するデータ処理工程を有し、
前記情報付与データの少なくとも一部には音韻情報も付与されており、前記データ処理工程では、韻律情報と音韻情報を含む音声合成用データも生成する音声合成用データ生成方法。
【請求項5】
前記データ処理工程では、特定の単語のみ音韻情報が付与された音声合成用データを生成する請求項
4に記載の音声合成用データ生成方法。
【請求項6】
前記データ処理工程の前に、入力文章を単語毎に区切る分かち書き処理工程、難読漢字をひらがなに置き換えるかな変換工程及び単語を数字に置き換える数字変換工程のうち少なくとも1つの工程を行う請求項
4又は5に記載の音声合成用データ生成装置。
【請求項7】
請求項1~
3のいずれか1項に記載のデータ生成装置と、
前記データ生成装置で生成した音声合成用データを用いて音声を合成する音声合成装置と、
を有する音声合成システム。
【請求項8】
インターネットを介して収集したテキストデータから任意の文章を作成する文章作成装置を更に有し、
前記文章作成装置で作成した文章が前記音声合成用データ生成装置に入力される請求項
7に記載の音声合成システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声合成技術に関する。より詳しくは、テキストデータに韻律などの情報を付与した音声合成用データを生成する装置、方法及びこれらの装置や方法を用いて音声を合成するシステムに関する。
【背景技術】
【0002】
テキストを合成音声に変換する音声合成装置では、一般に、入力された文章を解析し、読み、アクセント及び品詞などの語彙情報や、文節境界位置や係り受けなどの構文情報を得て、それに音韻規則や韻律規則を適用し、音声合成用データを生成している。
【0003】
また、従来、機械学習により、自然で、高品質な合成音声を得るための検討がなされている(例えば特許文献1~3参照)。特許文献1には、合成を行うために必要なパラメータを標準パラメータとして取得し、その標準パラメータを実際の発話データに基づいて学習されたDRNN(Dynamic Recurrent Neural Network)によって、より自然な発話に近い値を持つパラメータに変換した後、その変換後のパラメータを用いて合成音声の生成を行う方法が提案されている。
【0004】
一方、特許文献2には、入力テキスト中の言語単位間の句読点生起率を含む、韻律に関する複数の学習データを基に、言語単位間の句読点生起率に対する条件を含む音声合成のための韻律制御規則を生成し、それを利用して音声を合成する方法が提案されている。また、特許文献3には、学習データの情報量の疎密状態を示す疎密情報を生成するために用いられる学習用データベースを、統計的手法で機械学習することによって、音声と韻律情報との関係を表す韻律生成モデルを生成し、それを利用して音声波形を生成する方法が提案されている。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2002-123280号公報
【文献】特開2007-114507号公報
【文献】国際公開第2012/164835号
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、前述した従来の音声合成方法は、その構成上、前段処理を多数行う必要があるため、高速で動作させる際に支障をきたし、更に、韻律情報を付加する際も、複雑な処理が必要であるため、専門的な知識が求められるという課題がある。
【0007】
そこで、本発明は、より自然な合成音声を短時間で生成することができる音声合成用データ生成装置、音声合成用データ生成方法及び音声合成システムを提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明に係る音声合成用データ生成装置は、テキストデータと該テキストデータに韻律情報を付与した情報付与データとで構成される複数のデータセットを教師データとして機械学習を行って構築された学習済みモデルを用いて、入力文章から韻律情報を含む音声合成用データを生成するデータ処理部を備える。
本発明の音声合成用データ生成装置は、前記情報付与データに音韻情報も付与し、前記データ処理部において韻律情報と音韻情報を含む音声合成用データを生成することもできる。
その場合、前記音声合成用データは特定の単語にのみ音韻情報が付与されていてもよい。
本発明の音声合成用データ生成装置は、前記データ処理部に、入力文章を単語毎に区切る分かち書き処理部、難読漢字をひらがなに置き換えるかな変換部及び単語を数字に置き換える数字変換部のうち少なくとも1種を設けることもできる。
【0009】
本発明に係る音声合成用データ生成方法は、テキストデータと該テキストデータに韻律情報を付与した情報付与データとで構成される複数のデータセットを教師データとして機械学習を行って構築された学習済みモデルを用いて、入力文章から韻律情報を含む音声合成用データを生成するデータ処理工程を有する。
本発明の音声合成用データ生成方法は、前記情報付与データとして音韻情報も付与されたテキストデータを用い、前記データ処理工程において、韻律情報及び音韻情報を含む音声合成用データを生成することもできる。
その場合、前記データ処理工程で、特定の単語のみ音韻情報が付与された音声合成用データを生成してもよい。
本発明の音声合成用データ生成方法は、前記データ処理工程の前に、入力文章を単語毎に区切る分かち書き処理工程、難読漢字をひらがなに置き換えるかな変換工程及び単語を数字に置き換える数字変換工程のうち少なくとも1つの工程を行うこともできる。
【0010】
本発明に係る音声合成システムは、前述したデータ生成装置と、前記データ生成装置で生成した音声合成用データを用いて音声を合成する音声合成装置とを有する。
本発明の音声合成システムは、インターネットを介して収集したテキストデータから任意の文章を作成する文章作成装置を更に有し、前記文章作成装置で作成した文章が前記音声合成用データ生成装置に入力してもよい。
【発明の効果】
【0011】
本発明によれば、機械学習により構築されたモデルを用いて韻律情報を付与したテキストデータを作成しているため、より自然な合成音声を短時間で生成することができる。
【図面の簡単な説明】
【0012】
【
図1】本発明の第1の実施形態のデータ生成装置の構成例を示すブロック図である。
【
図2】A及びBは機械学習で用いる教師データセットの例であり、Aはテキストデータであり、Bは情報付与データである。
【
図3】本発明の第1の実施形態のデータ生成装置を用いたデータ生成方法の各工程を示すフローチャートである。
【
図4】本発明の第2の実施形態の音声合成システムの構成例を示すブロック図である。
【
図5】本発明の第2の実施形態の音声合成システムの他の構成例を示す概念図である。
【発明を実施するための形態】
【0013】
以下、本発明を実施するための形態について、添付の図面を参照して、詳細に説明する。なお、本発明は、以下に説明する実施形態に限定されるものではない。
【0014】
(第1の実施形態)
先ず、本発明の第1の実施形態に係るデータ生成装置について説明する。
図1は本実施形態のデータ生成装置の構成例を示すブロック図である。
図1に示すように、本実施形態のデータ生成装置10は、入力文章から音声合成用データを生成するデータ処理部1を備える。
【0015】
[入力文章]
本実施形態のデータ生成装置10で処理される入力文章は、例えばニュース原稿、ドキュメンタリーやバラエティ番組のナレーション原稿、劇場や美術館などの館内放送原稿、観光案内、結婚式やその他式典での司会用原稿などが挙げられるが、これらに限定されるものではなく、種々の文章を入力することができる。また、例えば、インタビューなどの録音データやニュース動画の音声データを、音声認識ソフトなどを用いて文字データにしたものを、入力文章とすることもできる。
【0016】
[データ処理部1]
データ処理部1は、機械学習により構築されたモデル11を備えている。具体的には、モデル11は、テキストデータと、このテキストデータに少なくとも韻律情報が付与された情報付与データとで構成される複数のデータセットを教師データとして機械学習を行い作成されたものである。この学習済みモデル11は、入力されたテキストデータに韻律情報などを付与した情報付与データを出力する。
【0017】
また、データ処理部1には、前述したモデル11の他に、例えば前処理部として、入力文章を単語毎に区切る分かち書き処理部12、難読漢字をひらがなに置き換えるかな変換部13、及び単語を数字に置き換える数字変換部14などが設けられていてもよく、また、後処理部として、数字を単語に置き換える単語変換部(図示せず)などが設けられていてもよい。
【0018】
[学習部2]
本実施形態のデータ生成装置10には、教師データを用いた機械学習によりモデル11を作成する学習部2が設けられていてもよい。学習部2で行う機械学習では、テキストデータとこのテキストデータに少なくとも韻律情報が付与された情報付与データとで構成される複数のデータセットを教師データとして用いる。データ生成装置10において教師データとして用いられるテキストデータには、韻律情報に加えて、音韻情報が付与されていてもよい。
【0019】
ここで、テキストデータに付与される「韻律情報」は、例えば発話時の音調、抑揚(イントネーション)、アクセント、音長、リズム及びポーズなどであり、「音韻情報」は漢字の読みなどである。また、教師データとするテキストデータは、例えばアナウンサーが読んでいるニュース音声のテキストデータであり、これに付与する韻律情報及び音律情報も同じニュース音声から抽出される。このように、実際に人が読んでいる音声を学習データに用いることで、人に近い自然な発音、アクセントやイントネーションを習得することができる。なお、本実施形態のデータ生成装置10で用いられる教師データは、これらに限定されるものではなく、合成音声を適用可能な種々の分野の音声などから作成することができる。
【0020】
図2A及び
図2Bは機械学習で用いる教師データセットの例であり、
図2Aはテキストデータであり、
図2Bは情報付与データである。教師データセットは、例えば入力文章に相当するテキストデータに
図2Aに示す文章を用いる場合は、生成データに相当する情報付与データには、
図2Bに示すように「韻律情報」や「音韻情報」を付与したテキストデータを用いることができる。なお、音韻情報は、全ての単語に付与されている必要はなく、複数の読み方がある単語など、一部の単語にのみ付与することもできる。
【0021】
学習部2には、前述した教師データセットが例えば100セット以上記憶されている。なお、
図1には学習部2がデータ生成装置10内に設けられている構成例を示しているが、学習部2はデータ処理部1とは別の装置に設けられていてもよい。また、本実施形態のデータ生成装置10では、必要に応じて、データ処理部1での処理結果を学習部2の教師データに反映させて、学習済みモデル11を更新することもできる。
【0022】
[動作]
次に、本実施形態のデータ生成装置10の動作、即ち、データ生成装置10を用いて音声合成用データを生成する方法について説明する。
図3は本実施形態のデータ生成方法の各工程を示すフローチャートである。
図3に示すように、本実施形態のデータ生成方法では、データ生成装置10に入力された文章のテキストデータに対して、必要に応じて、入力文章を単語毎に区分する分かち書き処理S11、地名や特殊な読み方をする漢字などの難読漢字をひらがなに変換するかな変換処理S12、単語を数字に変換する数字変換処理S13などを行う。
【0023】
ここで、データ生成装置10に入力される文章としては、例えばニュース原稿やナレーション原稿などの各種原稿の他に、インターネットを介して収集したテキストデータやニュース動画の音声データなどから作成した文章も用いることもできる。また、かな変換処理S12及び数字変換処理S13では、予め作成された地名の辞書データベース、難読漢字の辞書データベース及び単語と対応する数字の辞書データベースなどを利用して実施することができる。これらのデータベースは、例えば日本郵便の郵便番号データに含まれている住所データやGeoNLPなどを用いて作成することができる。
【0024】
そして、分かち書き処理S11において、入力文章を単語毎に区分すると共に区分された単語の品詞を判定し、かな変換処理S12において、固有名詞のうち「地名」と判定された単語を、地名の辞書データベースを用いてひらがなに変換する。例えば、かな変換処理S12で「愛子」という単語が地名と判定された場合、この単語と地名の辞書データベースに登録されている地名とを比較し、「宮城県仙台市愛子(あやし)」という地名から、この「愛子」は「あやし」と変換する。
【0025】
また、漢字は同じでも地域によって異なる読み方をする地名については、FILO(First In Last Out)方式のスタックを用いることで、かな変換処理S12において正しい読みを選択することが可能となる。例えば、入力文章に「大阪の日本橋と東京の日本橋で・・・」という文が含まれていた場合、分かち書き処理S11において固有名詞と判断されたものの中から「大阪」、「東京」及び「日本橋」が地名と判定され、抽出される。そして、これらの地名を、抽出(判定)された順に、即ち「大阪」、「日本橋」、「東京」、「日本橋」の順に、FILO形式のスタックに追加(Push)しておく。
【0026】
かな変換処理S12では、FILO方式のスタックから地名データが順番に取り出(Pop)される。前述した例文の場合は、最後に追加(Push)された「日本橋」が、最初に取り出(Pop)される。ここで、「日本橋」は2種類の読みがあり、東京にある「日本橋」は「にほんばし」と読むが、大阪にある「日本橋」は「にっぽんばし」と読む。このため、地名の辞書データベースには、「日本橋」について、「にほんばし」と「にっぽんばし」の2つのひらがな(読み)が登録されている。
【0027】
この場合、「日本橋」は、読み分けが必要(複数のよみがある)と判定され、FILO方式のスタックから次の地名である「東京」が取り出される。これにより、判定対象の「日本橋」は、「東京」の「日本橋」であると認定され、「にほんばし」と正しい読みで変換される。このように、入力文章から地名を抽出し、FILO方式のスタックに記憶しておけば、判定したい単語(この場合「日本橋」)に複数の読みがある場合でも、正しい読みを選択することが可能となる。
【0028】
一方、数字変換処理S13では、数字の辞書データベースを用いて、単語を数字に変換する処理や、変換した数字を漢数字及び算用数字のいずれか、又はより適切な数字表記にする処理を行う。これにより、漢数字と算用数字で読みが違う数字についても、正しい読みを選択することが可能となる。
【0029】
前述した処理S11~S13は、データ処理部10で実施してもよいが、データ処理部10とは別に設けられたデータ前処理部で実施してもよい。また、本実施形態のデータ処理方法では、前述した分かち書き処理S11、かな変換処理S12及び数字変換処理S13の全てを実施する必要はなく、入力文章毎に必要な処理のみを行えばよく、処理の順番も
図3に示す順に限定されるものではなく、順番を入れ替えて行ってもよい。
【0030】
次に、機械学習により構成されたモデル11を用いて、入力文章のテキストデータに韻律情報を付与し、韻律情報を含む音声合成用データを生成する(韻律情報付与処理S14)。この韻律情報付与処理S14では、
図2Aに示すようなテキストデータと、
図2Bに示すようなテキストデータに韻律情報を付与した情報付与データとで構成される複数のデータセットを教師データとして機械学習を行って作成された学習済みモデル11を用いる。前述した処理を経て生成した音声合成用データは、音声合成装置に入力され、音声が合成される。
【0031】
本実施形態のデータ生成方法では、情報付与データとして、韻律情報と共に音韻情報も付与されたテキストデータを用い、データ処理工程において、韻律情報及び音韻情報を含む音声合成用データを生成することもできる。その際、例えば「日本橋」のように、複数の読み方(「ニホンバシ」と「ニッポンバシ」)がある漢字のように特定の単語にのみ音韻情報を付与し、音声合成用データを生成してもよい。
【0032】
これにより、地域によって異なる読み方をする漢字なども読み分けをすることができ、また、難読地名も正確に読むことができる。複数の読み方がある漢字や難読地名は、あらかじめ登録された辞書を参照することもでき、その辞書に照らし合わせることで、より正確で、短時間で自然に発話する音声データを生成できる。
【0033】
[プログラム]
前述したデータ生成工程は、データ生成装置10に設けられた各部の機能を実現するためのコンピュータプログラムを作成し、1又は2以上のコンピュータに実装することにより実施することができる。即ち、本実施形態のデータ生成方法は、コンピュータに、テキストデータとこのテキストデータに韻律情報を付与した情報付与データとで構成される複数のデータセットを教師データとして構築された学習済みモデルを用いて、入力文章から韻律情報を含む音声合成用データを生成するデータ処理機能を実行させることにより、実施することができる。
【0034】
以上詳述したように、本実施形態のデータ生成装置及び方法は、テキストデータとこのテキストデータに韻律情報や音韻情報を付与した情報付与データとで構成される複数のデータセットを教師データとして機械学習を行って構築したモデルを用いているため、より自然な合成音声を短時間で生成することができる。これにより、ニュースや災害時の速報など、従来適用できなかった用途にも合成音声を利用することができる。更に、本実施形態のデータ生成装置及び方法を用いて合成された音声は、ナレーションやカーナビゲーションの音声としても好適に利用できる。
【0035】
(第2の実施形態)
次に、本発明の第2の実施形態に係る音声合成システムについて説明する。
図4は本実施形態の音声合成システムの構成例を示すブロック図である。
図4に示すように、本実施形態の音声合成システム50は、前述した第1の実施形態のデータ生成装置10と音声合成装置20を有し、データ生成装置10で生成した音声合成用データを用いて音声合成装置20で音声を合成する。
【0036】
[音声合成装置20]
音声合成装置20は、テキストデータから音声を合成できるものであればよく、例えばアマゾン・ドット・コム社のAmazon Poly(サービス名)、グーグル社のGoogle Cloud Speech API(サービス名)、HOYA株式会社のVOICE TEXT(登録商標)、ヤマハ株式会社のVOCALOID(登録商標)や株式会社エーアイのAlTalk(登録商標)などを用いることができる。
【0037】
本実施形態の音声合成システムは、ニュース原稿やナレーション原稿などのように用意された文章をテキスト化して用いてもよいが、インターネットを介して収集した任意の事象に関する投稿文章群から作成した文章を用いてもよい。
図5は本実施形態の
音声合成システムの他の構成例を示す概念図である。
図5に示す
音声合成システム51には、データ生成装置10、音声合成装置20に加えて、インターネット3を介して収集したテキストデータから任意の文章を作成する文章作成装置30を備えている。
【0038】
[文章作成装置30]
文章作成装置30の構成は、特に限定されるものではないが、例えば本出願人により出願された特願2017-044433号に記載のデータ処理装置を用いることができる。具体的には、文章作成装置30は、インターネット3を介して収集した任意の事象に関する投稿文章群の各投稿文を解析し、投稿文に含まれる単語を出現頻度で順位付けする文章解析部と、文章解析部で得られた単語の順位データに基づいて投稿文章群に関する短文を作成する文章作成部を備えた構成とすることができる。
【0039】
この文章作成装置30では、インターネット3を介して収集した任意の事象に関する投稿文章群の各投稿文を解析し、投稿文に含まれる単語を出現頻度で順位付けした後、単語の順位データに基づいて投稿文章群に関する短文を自動作成することが可能である。そして、本実施形態の音声合成システム51では、文章作成装置30で作成した文章がデータ生成装置10に入力され、音声合成用データが生成される。
【0040】
本実施形態の音声合成システムは、インターネットを介して、SNS(Social Networking Service)などから事件や事故などの特定の事象に関する情報を収集し、それを解析することで、何処で、どのような事象が発生しているかを特定でき、更に、その内容について短文を作成して音声合成することができる。これにより、事象の発生の感知から音声の合成(人の声での発話)までを自動で行うことができるため、例えば緊急を要する防災システムなどへの応用が可能である。
【符号の説明】
【0041】
1 データ処理部
2 学習部
3 インターネット
10 データ生成装置
11 モデル
12 分かち書き処理部
13 かな変換部
14 数字変換部
20 音声合成装置
30 文章作成装置
50、51 音声合成システム