(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023044436
(43)【公開日】2023-03-30
(54)【発明の名称】合成音声生成用データ形成方法、合成音声生成方法及び合成音声生成装置
(51)【国際特許分類】
G10L 13/10 20130101AFI20230323BHJP
G10L 13/033 20130101ALI20230323BHJP
【FI】
G10L13/10 113B
G10L13/10 111D
G10L13/10 113Z
G10L13/033 101Z
【審査請求】未請求
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2021152468
(22)【出願日】2021-09-17
(71)【出願人】
【識別番号】592139854
【氏名又は名称】図書印刷株式会社
(74)【代理人】
【識別番号】100103850
【弁理士】
【氏名又は名称】田中 秀▲てつ▼
(74)【代理人】
【識別番号】100105854
【弁理士】
【氏名又は名称】廣瀬 一
(74)【代理人】
【識別番号】100116012
【弁理士】
【氏名又は名称】宮坂 徹
(74)【代理人】
【識別番号】100066980
【弁理士】
【氏名又は名称】森 哲也
(72)【発明者】
【氏名】山形 茂雄
(57)【要約】
【課題】より自然な発話の合成音声を生成する合成音声生成用データ形成方法、合成音声生成方法及び合成音声生成装置を提供する。
【解決手段】テキストデータ中のテキストに含まれる記号及びテキストのうち所定の条件を満たす位置をポーズ位置としてポーズ長を割り当て、ポーズ位置に、ポーズ長を示すポーズ長情報を挿入した合成音声生成用データを形成する。合成音声生成用データは、テキストに含まれる記号が読点である場合には、読点の直後にポーズ長として第1のポーズ長を示すポーズ長情報を挿入し、テキストに含まれる記号が句点である場合には、句点の直後にポーズ長として第1のポーズ長よりも長い第2のポーズ長を示すポーズ長情報を挿入する。また、テキストデータ中において鉤括弧内のテキストに含まれる読点及び句点の直後には、鉤括弧外に位置する読点及び句点よりも短いポーズ長を示すポーズ長情報をそれぞれ挿入する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
テキストデータ中のテキストに含まれる記号及び前記テキストのうち所定の条件を満たす位置をポーズ位置としてポーズ長を割り当て、
前記ポーズ位置に、前記ポーズ長を示すポーズ長情報を挿入した合成音声生成用データを形成する
合成音声生成用データ形成方法。
【請求項2】
前記テキストに含まれる前記記号が読点である場合には、前記読点の直後に前記ポーズ長として第1のポーズ長を示す前記ポーズ長情報を挿入し、
前記テキストに含まれる前記記号が句点である場合には、前記句点の直後に前記ポーズ長として前記第1のポーズ長よりも長い第2のポーズ長を示す前記ポーズ長情報を挿入する
請求項1に記載の合成音声生成用データ形成方法。
【請求項3】
前記テキストデータ中の鉤括弧で示される前記記号同士の間に位置する前記テキストに含まれる前記記号が読点である場合には、前記鉤括弧同士の間に位置する前記読点の直後に前記ポーズ長として前記第1のポーズ長よりも短い第3のポーズ長を示す前記ポーズ長情報を挿入し、
前記鉤括弧同士の間に位置する前記テキストに含まれる前記記号が句点である場合には、前記鉤括弧同士の間に位置する前記句点の直後に前記ポーズ長として第2のポーズ長よりも短い第4のポーズ長を示す前記ポーズ長情報を挿入する
請求項2に記載の合成音声生成用データ形成方法。
【請求項4】
前記テキストに含まれる前記記号が括弧である場合には、少なくとも前記括弧のうち前括弧の直前に前記ポーズ長として第5のポーズ長を示す前記ポーズ長情報を挿入する
請求項1から3のいずれか1項に記載の合成音声生成用データ形成方法。
【請求項5】
前記テキストが見出しである場合に、前記見出しの直後に、前記見出し以外の前記テキストの直前又は直後に挿入された他のポーズ長よりも長い第6のポーズ長を示す前記ポーズ長情報を挿入する
請求項1から4のいずれか1項に記載の合成音声生成用データ形成方法。
【請求項6】
前記テキストが意味上のまとまりを有する場合に、前記テキストのまとまりの直後に、第7のポーズ長を示す前記ポーズ長情報を挿入する
請求項1から5のいずれか1項に記載の合成音声生成用データ形成方法。
【請求項7】
前記テキストデータ中の前記テキストのうち所定の条件を満たす位置に、音声データに対して音響効果を加えるための音響情報を挿入する
請求項1から6のいずれか1項に記載の合成音声生成用データ形成方法。
【請求項8】
前記テキストが見出しである場合に、前記見出しの直後に前記音響情報を挿入する
請求項7に記載の合成音声生成用データ形成方法。
【請求項9】
前記音響情報は、前記音響データのリンク先を示すリンク先情報を含む
請求項8に記載の合成音声生成用データ形成方法。
【請求項10】
テキストデータに対応するテキストの所定のポーズが入るポーズ位置に前記ポーズの長さを示すポーズ長情報が挿入された合成音声生成用データを取得し、
前記テキストデータに対応する前記テキストを発音表記に変換し、
前記発音表記を用いて、抑揚及び持続時間の韻律情報を生成し、
人間が発生した合成単位ごとの音声データを含む音声データベースから、前記発音表記に対応する合成単位を選択し、
前記合成音声生成用データに含まれる前記ポーズ位置に前記ポーズ長情報に対応する長さの前記ポーズを介して前記合成単位を連結するとともに、前記韻律情報を付加して合成音声を生成する
合成音声生成方法。
【請求項11】
テキストデータに対応するテキストの所定のポーズが入るポーズ位置に前記ポーズの長さを示すポーズ長情報が挿入された合成音声生成用データを取得する合成音声生成用データ取得部と、
前記テキストデータに対応する前記テキストを発音表記に変換する発音表記変換部と、
前記発音表記変換部から取得した前記発音表記を用いて、前記テキストの抑揚及び持続時間の韻律情報を生成する韻律処理部と、
人間が発生した合成単位ごとの音声データを含む音声データベースから、前記発音表記変換部から取得した前記発音表記に対応する合成単位を選択し、前記合成音声生成用データに含まれる前記ポーズ位置に前記ポーズ長情報に対応する長さの前記ポーズを介して前記合成単位を連結するとともに、前記韻律情報を付加して合成音声を生成する音声合成部と、
を備える合成音声生成装置。
【請求項12】
前記テキストに含まれる記号及び前記テキストのうち所定の条件を満たす位置を前記ポーズ位置としてポーズ長を割り当て、前記ポーズ位置に、前記ポーズ長を示す前記ポーズ長情報を挿入した前記合成音声生成用データを形成する合成音声生成用データ形成部をさらに備え、
前記合成音声生成用データ取得部は、前記合成音声生成用データ形成部から前記合成音声生成用データを取得する
請求項11に記載の合成音声生成装置。
【請求項13】
前記テキストデータは、書籍とした場合の前記テキストの配置及び改行の位置並びに空白行の幅に関する情報を含むデータである
請求項11又は12に記載の合成音声生成装置。
【請求項14】
前記テキストデータを保存したテキストデータ保存部をさらに備えている
請求項13に記載の合成音声生成装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、合成音声生成用データ形成方法、合成音声生成方法及び合成音声生成装置に関する。
【背景技術】
【0002】
近年、テキストデータを音声データに変換して発話する技術を用いた様々なサービスが提供されている。このために、テキストデータから合成音声データを生成する様々な技術が用いられており、例えば人間が発生した音声データを含む大規模な音声データベースである音声コーパスを用いたコーパスベース音声合成が広く用いられている(特許文献1参照)。コーパスベース音声合成では、人によって発声された音声データを所定単位に分けてデータベースに蓄積し、音声合成の際にデータベースから抽出した所定単位の音声データを連結して合成音声データを生成している(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上述した音声合成方法では、人によって発声された所定単位の音声データを連携しているものの、依然として人が文字を読み上げた様な自然な発話の合成音声には至っておらず、不自然な合成音声が生成される場合がある。
本開示は、より自然な発話の合成音声を生成する合成音声生成用データ形成方法、合成音声生成方法及び合成音声生成装置を提供することにある。
【課題を解決するための手段】
【0005】
上記課題を解決するために、本開示の一態様に係る合成音声生成用データ形成方法は、テキストデータ中のテキストに含まれる記号及びテキストのうち所定の条件を満たす位置をポーズ位置としてポーズ長を割り当て、ポーズ位置に、ポーズ長を示すポーズ長情報を挿入した合成音声生成用データを形成する。
【0006】
上記課題を解決するために、本開示の一態様に係る合成音声生成方法は、テキストデータに対応するテキストの所定のポーズが入るポーズ位置にポーズの長さを示すポーズ長情報が挿入された合成音声生成用データを取得し、テキストデータに対応する文章を発音表記に変換し、発音表記を用いて、抑揚及び持続時間の韻律情報を生成し、人間が発生した合成単位ごとの音声データを含む音声データベースから、発音表記に対応する合成単位を選択し、合成音声生成用データに含まれるポーズ位置にポーズ長情報に対応する長さのポーズを介して合成単位を連結するとともに、韻律情報を付加して合成音声を生成する。
【0007】
上記課題を解決するために、本開示の一態様に係る合成音声生成装置は、テキストデータに対応するテキストの所定のポーズが入るポーズ位置にポーズの長さを示すポーズ長情報が挿入された合成音声生成用データを取得する合成音声生成用データ取得部と、テキストデータに対応する文章を発音表記に変換する発音表記変換部と、発音表記変換部から取得した発音表記を用いて、文章の抑揚及び持続時間の韻律情報を生成する韻律処理部と、人間が発生した合成単位ごとの音声データを含む音声データベースから、発音表記変換部から取得した発音表記に対応する合成単位を選択し、合成音声生成用データに含まれるポーズ位置にポーズ長情報に対応する長さのポーズを介して合成単位を連結するとともに、韻律情報を付加して合成音声を生成する音声合成部と、を備えている。
【発明の効果】
【0008】
本開示の態様によれば、より自然な発話の合成音声を生成する合成音声生成用データ形成方法、合成音声生成方法及び合成音声生成装置を提供することができる。
【図面の簡単な説明】
【0009】
【
図1】本開示の第一実施形態に係る合成音声生成用データ形成方法においてポーズ長情報への変換ルールの一例を示す表である。
【
図2】本開示の第一実施形態に係る合成音声生成用データ形成方法を実行する合成音声生成用データ形成装置の一構成例を示すブロック図である。
【
図3】本開示の第一実施形態に係る合成音声生成用データ形成方法を用いて形成された合成音声生成用データの一例を示す模式図である。
【
図4】本開示の第二実施形態に係る合成音声生成用データ形成方法を実行する合成音声生成用データ形成装置の一構成例を示すブロック図である。
【
図5】本開示の第二実施形態に係る合成音声生成用データ形成方法を用いて形成された合成音声生成用データの一例を示す模式図である。
【
図6】本開示の第三実施形態に係る合成音声生成装置の一構成例を示すブロック図である。
【
図7】本開示の第三実施形態に係る合成音声生成装置の他の構成例を示すブロック図である。
【発明を実施するための形態】
【0010】
以下、実施形態を通じて本開示を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。また、図面は特許請求の範囲にかかる発明を模式的に示すものであり、各部の構成及び機能は現実の方法及び装置とは異なる。
【0011】
1.第一実施形態
以下、第一実施形態に係る合成音声生成用データ形成方法について説明する。また、第一実施形態では合成音声生成用データ形成方法をコンピュータに実行させる合成音声生成用データ形成プログラム及び合成音声生成用データ形成装置について説明する。
【0012】
(1.1)合成音声生成用データ形成方法
第一実施形態に係る合成音声生成用データ形成方法について説明する。
第一実施形態に係る合成音声生成用データ形成方法は、少なくとも以下の方法により実行される。
(A)テキストデータ中のテキストに含まれる記号及び前記テキストのうち所定の条件を満たす位置をポーズ位置としてポーズ長を割り当てる
(B)テキストのポーズ位置に、ポーズ長を示すポーズ長情報を挿入した合成音声生成用データを形成する
以上により、テキストの所定の位置に適切な長さのポーズを示すポーズ長情報が挿入された合成音声生成用データが形成される。このような合成音声生成用データを用いて音声合成を行った場合、合成音声でありながらより自然な発話の合成音声を生成することができる。
ポーズ長情報は、例えば以下のようなポーズ長を有する。
【0013】
(読点)
本実施形態に係る合成音声生成用データ形成方法では、テキストに含まれる記号が読点(、)である場合には、読点の直後にポーズ長として第1のポーズ長を示すポーズ長情報を挿入することが好ましい。
第1のポーズ長は、例えば300msec以上500msec以下であることが好ましく、350msec以上450msec以下であることがより好ましく、例えば400msecである。
【0014】
本実施形態に係る合成音声生成用データ形成方法では、テキストに含まれる記号が句点(。)である場合には、句点の直後にポーズ長として第1のポーズ長よりも長い第2のポーズ長を示すポーズ長情報を挿入することが好ましい。
第2のポーズ長は、例えば900msec以上1500msec以下であることが好ましく、900msec以上1100msec以下であることがより好ましく、例えば1000msecである。
句点の位置に、読点よりも長いポーズ長のポーズ長情報を挿入した合成音声生成用データを形成することにより、より自然な発話の合成音声を生成することができる。
【0015】
また、本実施形態に係る合成音声生成用データ形成方法では、テキストデータ中の鉤括弧(「」)で示される記号同士の間に位置するテキストに含まれる記号が読点(、)である場合には、鉤括弧同士の間に位置する読点の直後に、ポーズ長として第1のポーズ長(鉤括弧の外に位置する句点のポーズ長)よりも短い第3のポーズ長を示すポーズ長情報を挿入することが好ましい。
第3のポーズ長は、例えば150msec以上300msec以下であることが好ましく、150msec以上250msec以下であることがより好ましく、例えば200msecである。
【0016】
また、本実施形態に係る合成音声生成用データ形成方法では、鉤括弧(「」)同士の間に位置するテキストに含まれる記号が句点(。)である場合には、鉤括弧同士の間に位置する句点の直後に、ポーズ長として第2のポーズ長(鉤括弧の外に位置する読点のポーズ長)よりも短い第4のポーズ長を示すポーズ長情報を挿入することが好ましい。
第4のポーズ長は、例えば450msec以上900msec以下であることが好ましく、650msec以上750msec以下であることがより好ましく、例えば700msecである。
鉤括弧で示される記号同士の間に位置するテキストは、セリフ等を示すテキストである場合が多い。このため、鉤括弧内の句点や読点の位置におけるポーズ長を鉤括弧外の句点や読点の位置におけるポーズ長よりもそれぞれ短くすることにより、合成音声とした際に鉤括弧内のテキストに対応する音声中のポーズを短くして、さらに自然な発話の合成音声とすることができる。
【0017】
(括弧等)
本実施形態に係る合成音声生成用データ形成方法では、テキストに含まれる記号が括弧である場合には、少なくとも括弧のうち前括弧(「)の直前にポーズ長として第5のポーズ長を示すポーズ長情報を挿入することが好ましい。ポーズ長情報は、前括弧の直前のみ、又は前括弧の直前及び後ろ括弧(」)の直後に挿入されることが好ましい。例えば括弧が連続する場合(例えば、」「等)には、前括弧の直前のみにポーズ長情報が挿入されることにより、前括弧(」)と後ろ括弧(「」との間にポーズ長情報が重複して挿入されることを防ぐことができる。
ここで、「括弧」とは、鉤括弧(二重鉤括弧を含む)、丸括弧、隅付き括弧、角括弧、波括弧等の各括弧をいう。
【0018】
第5のポーズ長は、例えば500msec以上1000msec以下であることが好ましく、500msec以上600msec以下であることがより好ましく、例えば500msecである。
上述したように、括弧で示される記号同士の間に位置するテキストは、例えばセリフや重要な事柄を説明する文言である場合が多い。このため、少なくとも括弧の直前にポーズ長情報を挿入することで、合成音声とした際に括弧内のテキストに対応する音声と、前後の音声との間にポーズを入れて、括弧内のテキストに対応する音声に聞き手の意識を集中しやすくして自然な発話の合成音声とすることができる。
【0019】
(見出し)
本実施形態に係る合成音声生成用データ形成方法では、テキストが見出しである場合に、見出しの直後(所定の条件を満たす位置の一例)に、第6のポーズ長を示すポーズ長情報を挿入する。第6のポーズ長は、見出し以外のテキストの直前又は直後に挿入された他のポーズ長(すなわち、第1から第5のポーズ長)よりも長いことが好ましい。
第6のポーズ長は、例えば1500msec以上4500msec以下であることが好ましく、2000msec以上3000msec以下であることがより好ましい。テキストに複数種類の見出し(例えば、大見出し(例えば各章の冒頭の見出し)と小見出し)が含まれる場合、大見出し直後の第6のポーズ長を小見出し直後の第6のポーズ長よりも長くすることが好ましい。例えば、大見出し直後の第6のポーズ長を3000msecとし、小見出し直後の第6のポーズ長を2000msecとする。
このように、見出しの直後に比較的長いポーズを入れることで、見出しのテキストに対応する音声に聞き手の意識を集中しやすくして自然な発話の合成音声とすることができる。
【0020】
(文章のまとまり)
本実施形態に係る合成音声生成用データ形成方法では、テキストが意味上のまとまりを有する場合、文章のまとまりの直後(所定の条件を満たす位置の一例)に、ポーズ長情報を挿入することが好ましい。ここで、「文章のまとまり」とは、例えば、一つの見出し内に記載されて関連する内容を説明する複数の文章をいう。このとき、文章のまとまりの直後には、見出し以外のテキストの直前又は直後に挿入された他のポーズ長(すなわち、第1から第5のポーズ長)よりも長い第7のポーズ長を示すポーズ長情報が挿入されることが好ましい。
【0021】
第7のポーズ長は、見出しと同程度であることが好ましく、見出しとして大見出しと小見出し等の複数種類の見出しが用いられている場合には比較的ポーズ長が短い小見出しよりも長いポーズ長を有することが好ましい。第7のポーズ長は、例えば2500msec以上4500msec以下であることが好ましく、3000msec以上4000msec以下であることがより好ましい。例えば、大見出し直後の第6のポーズ長が3000msecであり、小見出し直後の第6のポーズ長が2000msecである場合、第7のポーズ長は3000msecであることが好ましい。
このように、文章のまとまりの直後に比較的長いポーズを入れることで、テキストに対応する音声の内容の切れ目が聞き手に理解しやすくなり、自然な発話の合成音声とすることができる。
【0022】
(その他)
また、
図1に示すように、本実施形態に係る合成音声生成用データ形成方法では、各記号や条件に応じて、所定の条件を満たす位置にポーズ長情報を挿入することができる。
例えば、ポーズ長情報は、二点リーダ(‥)や三点リーダ(…)等のリーダ、疑問符(?)、感嘆符(!)、縦線(|)、ダッシュ(―)、丸数字や四角囲み数字等の囲み英数字等の記号の直後に挿入される。
図1には、ポーズ長情報を挿入する条件、ポーズ長の一例(ポーズ長の好ましい範囲)及びポーズ長情報の具体例を示す。リーダは、会話中での無音の状態(間)、文末における余韻、文中での省略を示し、ダッシュも間等を示すことから、例えば句点や読点よりも長いポーズ長が割り当てられることが好ましい。リーダの直後には、1000msec以上1500msec以下のポーズ長が割り当てられることが好ましく、例えば1000msecが割り当てられる。縦線は、文章の区切りを示すことが多いことから、例えば句点や読点よりも長いポーズ長が割り当てられることが好ましい。縦線の直後には、1000msec以上1500msec以下のポーズ長が割り当てられることが好ましく、例えば1000msecが割り当てられる。また、囲み英数字は、例えば箇条書きにされた文章の行頭等を示す事が多いことから、例えば読点と同等程度の長さのポーズ長が割り当てられることが好ましい。囲み英数字の直後には、300msec以上500msec以下のポーズ長が割り当てられることが好ましく、例えば300msecが割り当てられる。
【0023】
ここで、句読点や括弧類などの記号類(いわゆる約物)が2つ以上連続した場合には、連続した記号同士の間にはポーズを割り当てず、連続する記号の最後のみにポーズを割り当てるようにしてもよい。記号が連続する場合、例えばそれぞれの記号のポーズ長のうち長い方のポーズ長を、後ろの記号の直後に挿入することが好ましい。
例えば、前括弧(「)及び後ろ括弧(」)の間に、最後に疑問符(?)を含むテキストが記載されている場合、連続する疑問符と後ろ鍵括弧との間にはポーズを割り当てず、後ろ鍵括弧の直後のみにポーズを割り当てればよい。このとき、後ろ鍵括弧の直後に割り当てたポーズ位置には、疑問符のポーズ長(900~1500msec)と、後ろ鍵括弧のポーズ長(500~1000msec)のうち、より長さが長い疑問符のポーズ長(例えば1200msec)を割り当てることが好ましい。
【0024】
また、
図1に記載していない他の記号類についてもポーズ長を割り当てても良い。
また、従来の合成音声生成装置において合成音声を生成する際に、テキストに含まれる記号及びテキストのうち所定の条件を満たす位置以外の位置において微小な長さのポーズが含まれる場合、当該ポーズの位置に第8のポーズ長情報を挿入しても良い。この場合、第8のポーズ長は、例えば130msec以上200msec以下であることが好ましく、140msec以上170msec以下であることがより好ましく、例えば150msecである。
【0025】
さらに、合成音声を生成するためのテキストには、注釈を示す番号等が含まれる場合がある。このため、注釈の前後に、テキストの発話を行わないようにするための発話禁止情報をタグとして挿入し、注釈を示す番号等を含まない合成音声生成用データを生成しても良い。
これにより、合成音声生成用データから生成された合成音声において、テキストの文脈と関連せず合成音声の自然な発話を阻害する注釈が発話されないようにすることができる。
【0026】
(1.2)合成音声生成用データ形成プログラムの基本構成
本実施形態に係る合成音声生成用データ形成プログラムについて説明する。後述する合成音声生成用データ形成装置10は、少なくとも以下の(a),(b)の各動作をコンピュータに実行させるプログラムに従って、合成音声生成用データを形成する。以下のプログラムは、例えばハードディスクドライブ、メモリ等の記録媒体やDVDディスク又はBlu-ray(登録商標)等の光ディスクに非一時的に記録される。以下のプログラムは、インターネットを介して配布されても良い。さらに、以下のプログラムは、クラウドサーバに記録され、インターネットを介して実行されても良い。
【0027】
(a)テキストデータ中のテキストに含まれる記号及び前記テキストのうち所定の条件を満たす位置をポーズ位置としてポーズ長を割り当てること
(b)テキストのポーズ位置に、ポーズ長を示すポーズ長情報を挿入した合成音声生成用データを形成すること
【0028】
(1.3)合成音声生成用データ形成装置の基本構成
以下、第一実施形態に係る合成音声生成用データ形成方法を実行する合成音声生成用データ形成装置10を、
図2を参照して説明する。
図2は、合成音声生成用データ形成装置10の基本構成及び各部の機能について説明する機能ブロック図である。
【0029】
図2に示すように、合成音声生成用データ形成装置10は、テキストデータ処理部11及びポーズ設定部12を備えている。合成音声生成用データ形成装置10は、例えば書籍の内容を示すテキストデータが入力され、テキストデータ処理部11及びポーズ設定部12の各部での処理により、テキストの所定の位置に適切な長さのポーズを示す情報を挿入した合成音声生成用データを形成して出力する。
【0030】
ここで、合成音声生成用データ形成装置10に入力されるテキストデータとしては、例えば、文字等がレイアウトの指定に従って配置されたデータである組版データが用いられる。組版データには、例えば書籍とした場合の見出し、文章の配置及び改行の位置並びに空白行の幅に関する情報の少なくとも1つを示すタグが挿入されている。このため、合成音声生成用データ形成装置10において、テキストのうち見出しに相当する部分や、文章のまとまりの最後部分(例えば見出しの直前)の判断が容易となるため好ましい。
また、合成音声生成用データ形成装置10に入力されるテキストデータとしては、例えば、文字情報のみが含まれる(組版データ用のタグ等が含まれない)原稿データであってもよい。
【0031】
なお、合成音声生成用データ形成装置10は、テキストデータが入力され、合成音声生成用データを出力する出入力部と、上述した合成音声生成用データ形成方法をコンピュータに実行させるプログラムを記憶する記憶部と、装置内の動作を制御する制御部とを備えている(
図2中不図示)。テキストデータ処理部11及びポーズ設定部12は、合成音声生成用データ形成プログラムがコンピュータによって実行されることにより実現される。
以下、合成音声生成用データ形成装置10の各部について説明する。
【0032】
<テキストデータ処理部>
テキストデータ処理部11は、入力されたテキストデータが組版データである場合、テキストデータからテキストを抜き出して分析を行う。テキストデータには、組版用のタグが挿入されている。また、テキストデータには、複数の文章が、一つの見出し内に記載されて関連する内容を説明する場合、これらの複数の文章は「文章のまとまり」となっている。テキストデータ処理部11は、見出しを示すタグや改行を示すタグ等に応じて、見出し(所定の条件の一例)を検出する。
なお、この場合、
図2に示す言語辞典51及び品詞辞典52等をテキストの分析に用いる必要はない。
【0033】
また、テキストデータ処理部11は、入力されたテキストデータが原稿データである場合、テキストデータ中のテキストを分析して、見出しや文章のまとまりを検出する。テキストデータ処理部11は、例えば言語辞典51や品詞辞典52も用いてテキストを分析し、見出しや文章のまとまりを検出してもよい。
なお、テキストの分析は、機械学習により生成された学習済モデルを用いて行なわれても良い。例えば、学習済モデルは、見出しを示すタグや文章のまとまりの終わりを示すタグ等を挿入したテキストデータを学習用データとした機械学習により生成される。このような学習済モデルに上述したようなタグが挿入されていないテキストデータを挿入して分析することにより、テキストデータから見出しや文章のまとまりの終わり部分を抽出することができる。
【0034】
<ポーズ設定部>
ポーズ設定部12は、テキストデータ中のテキストに含まれる記号の位置をポーズ位置としてポーズ長を割り当て、ポーズ位置に、ポーズ長を示すポーズ長情報を挿入する。また、ポーズ設定部12は、テキストデータ処理部11で検出された所定の条件を満たすテキストの所定位置にポーズ長情報を挿入する。ポーズ長情報は、
図1に示すルール表の一例に従って、記号の直前又は直後等に挿入される。ポーズ設定部12は、検出された条件に応じたポーズ長を示すポーズ長情報を挿入する。
これにより、ポーズ設定部12は、合成音声生成用データを形成する。ポーズ設定部12は、生成された合成音声生成用データを出力する。また、ポーズ設定部12は、合成音声生成用データを図示しない記憶部に記憶してもよい。記憶部に記憶された合成音声生成用データは、出入力部を介して出力することができる。
【0035】
図3に、ポーズ長情報が挿入された合成音声生成用データをテキストで示した場合の具体例を示す。なお、
図3では、説明のために、記号や所定の条件を満たすテキストの一部のみにポーズ長情報を示している。
図3に示すように、合成音声生成用データ中のテキストのうち、大見出しとなる「第1章 下級老人とは何か」のテキストP1の直後には、ポーズ長が3000msecであることを示すポーズ長情報「<vtml_pause time=”3000”/>」が挿入されている。
同様に、文章のまとまりの最後部のテキストP4の直後にも同様に、ポーズ長が3000msecであることを示すポーズ長情報「<vtml_pause time=”3000”/>」が挿入されている。
【0036】
合成音声生成用データ中のテキストのうち、小見出しとなる「下級老人とは、いったい何か」のテキストP2、「下流老人の具体的な指標3つの「ない」」のテキストP5及び「収入が著しく少「ない」」のテキストP7の直後には、ポーズ長が2000msecであることを示すポーズ長情報「<vtml_pause time=”2000”/>」が挿入されている。
合成音声生成用データ中のテキストのうち、文末が三点リーダで終わる「人生の終結に向かっていく…」のテキストP3の直後には、ポーズ長が1000msecであることを示すポーズ長情報「<vtml_pause time=”1000”/>」が挿入されている。
【0037】
合成音声生成用データ中のテキストのうち、丸括弧P3の直前には、ポーズ長が500msecであることを示すポーズ長情報「<vtml_pause time=”500”/>」が挿入されている。
合成音声生成用データ中のテキストのうち、丸数字P6の直後には、ポーズ長が300msecであることを示すポーズ長情報「<vtml_pause time=”300”/>」が挿入されている。
このように、ポーズ設定部12では、テキストデータ中のテキストに含まれる記号及び前記テキストのうち所定の条件を満たす位置に、それぞれに適したポーズ長を示すポーズ長情報が挿入される。
【0038】
また、ポーズ設定部12は、ポーズ長情報と共に、組版データのタグも含んだ合成音声生成用データを形成しても良い。
上述した合成音声生成用データ形成装置では、人が文字を読み上げた様な自然な発話の音声を合成するための合成音声生成用データを生成することができる。
【0039】
2.第二実施形態
以下、第二実施形態に係る合成音声生成用データ形成方法について説明する。また、第二実施形態では合成音声生成用データ形成方法をコンピュータに実行させる合成音声生成用データ形成プログラム及び合成音声生成用データ形成装置について説明する。
【0040】
(2.1)合成音声生成用データ形成方法
第二実施形態に係る合成音声生成用データ形成方法は、第一実施形態に係る合成音声生成用データ形成方法の(A)、(B)と、以下の方法とにより実行される。
(C)テキストデータ中のテキストのうち所定の条件を満たす位置に、音声データに対して音響効果を加えるための音響情報を挿入する
例えば、テキストが見出しである場合に、見出しの直後に音響情報を挿入する。また、音響情報は、例えば音響データのリンク先、すなわち音響データの保存先を示すリンク先情報を含む。
【0041】
以上により、テキストの所定の位置に、ポーズ長情報と音声データに対して音響効果を加えるための音響情報とが挿入された合成音声生成用データが形成される。このような合成音声生成用データを用いて音声合成を行った場合、合成音声でありながらより自然な発話の合成音声を生成することができ、かつ合成音声のみでも場面転換を聞き手にわかりやすくすることができる。また、音響情報は、音声編集機器がなくても音響情報を示すタグ中のテキストの編集を行うだけでリンク先の編集やリバーブ・エコーのような音響の設定等を行うことができ、合成音声生成用データの生成及び編集が用意となる。
【0042】
(2.2)合成音声生成用データ形成プログラムの基本構成
本実施形態に係る合成音声生成用データ形成プログラムについて説明する。後述する合成音声生成用データ形成装置20は、第一実施形態に記載の(a)、(b)と、以下の(c)の各動作をコンピュータに実行させるプログラムに従って、合成音声生成用データを形成する。
(c)テキストデータ中のテキストのうち所定の条件を満たす位置に、音声データに対して音響効果を加えるための音響情報を挿入すること
【0043】
(2.3)合成音声生成用データ形成装置の基本構成
以下、第二実施形態に係る合成音声生成用データ形成方法を実行する合成音声生成用データ形成装置20を、
図4を参照して説明する。
図4は、合成音声生成用データ形成装置20の基本構成及び各部の機能について説明する機能ブロック図である。
【0044】
図4に示すように、合成音声生成用データ形成装置20は、テキストデータ処理部11及びポーズ設定部12と共に音響設定部23を備えている。すなわち、合成音声生成用データ形成装置20は、音響設定部23を備える点で合成音声生成用データ形成装置10と相違する。合成音声生成用データ形成装置20では、所定の条件を満たす位置に、音声データに対して音響効果を加えるための音響情報を挿入することにより、合成音声に効果音やBGM、リバーブ(残響)やエコー(反響)等の音響効果等を与えることが可能となる。
以下、音響設定部23について説明する。なお、テキストデータ処理部11及びポーズ設定部12は、第一実施形態で説明した各部と同様の構成であるため説明を省略する。
【0045】
<音響設定部>
音響設定部23は、テキストデータ中のテキストのうち所定の条件を満たす位置に、テキストを読み上げた音声データに対して音響効果を加える、すなわちリバーブ、エコー等の音響をかけたり、効果音を入れるための音響情報を挿入する。
音響設定部23は、テキストが見出しである場合に、見出しの前及び後ろの少なくとも一方に音響情報を挿入する。音響情報としては、例えば効果音データのリンク先、すなわち効果音データの保存先を示すリンク先情報を含む。
また、音響設定部23は、テキストが見出しである場合に、見出しの前後にリバーブやエコー等の音響効果の開始時点又は終了時点を示す音響情報を挿入しても良い。この場合、見出しの前には音響効果の開始を示すタグを音響情報として挿入し、見出しの後には音響効果の終了を示すタグを音響情報として挿入する。
【0046】
図5に、ポーズ長情報とともに音響情報が挿入された合成音声生成用データをテキストで示した場合の具体例を示す。なお、
図5では、説明のために、記号や所定の条件を満たすテキストの一部のみにポーズ長情報及び音響情報を示している。
図5に示すように、合成音声生成用データ中のテキストのうち、大見出しとなる「第1章 下級老人とは何か」のテキストP1の直前には、音響効果であるリバーブの開始を示す音響情報「<vtml_mark name=”reverb_start”/>」と、再生する効果音のリンク先(保存先のURL)を示す音響情報「<vtml_ mark name="sound:効果音ファイル.wav"/>」とが挿入されている。また、合成音声生成用データ中のテキストのうち、大見出しとなるテキストP1の直後には、リバーブの終了を示す音響情報「<vtml_ mark name=”reverb_end”/>」が挿入されている。
上述した合成音声生成用データ形成装置では、人が文字を読み上げた様な自然な発話の音声を合成するための合成音声生成用データを生成することができる。
【0047】
上述した合成音声生成用データ形成装置は、人が文字を読み上げた様な自然な発話であり、かつ場面転換を容易に聞き手に示す事ができる音響情報を含む合成音声生成用データを生成することができる。
【0048】
3.第三実施形態
以下、第三実施形態に係る合成音声生成装置及び合成音声生成方法について説明する。
(3.1)合成音声生成方法の基本構成
以下、第三実施形態に係る合成音声生成方法について説明する。
第三実施形態に係る合成音声生成法は、少なくとも以下の方法により実行される。
(P)テキストデータに対応するテキストの所定のポーズが入るポーズ位置にポーズの長さを示すポーズ長情報が挿入された合成音声生成用データを取得する
(Q)テキストデータに対応する文章を発音表記に変換する
(R)発音表記を用いて、抑揚及び持続時間の韻律情報を生成する
(S)人間が発生した合成単位ごとの音声データを含む音声データベースから、発音表記に対応する合成単位を選択する
(T)合成音声生成用データに含まれるポーズ位置にポーズ長情報に対応する長さのポーズを介して合成単位を連結するとともに、韻律情報を付加して合成音声を生成する
【0049】
また、第三実施形態に係る合成音声生成方法は、合成音声生成用データ取得前に以下の方法が実行されてもよい。
(O)テキストデータに対応するテキストの所定のポーズが入るポーズ位置にポーズの長さを示すポーズ長情報を挿入した合成音声生成用データを形成する
すなわち、第三実施形態に係る合成音声生成方法では合成音声生成用データの形成が別途行なわれても良い。
【0050】
(3.2)合成音声生成装置の基本構成
以下、第三実施形態に係る合成音声生成用データ形成方法を実行する合成音声生成装置100を、
図6を参照して説明する。
図6は、合成音声生成装置100の基本構成及び各部の機能について説明する機能ブロック図である。
【0051】
図6に示すように、合成音声生成装置100は、言語処理部110、韻律処理部120及び音声合成部130を備えている。合成音声生成装置100は、例えば書籍の内容を示すテキストデータが入力され、言語処理部110、韻律処理部120及び音声合成部130の各部での処理により、自然な発話の合成音声を生成する。合成音声生成装置100には、例えば、ポーズ長情報が挿入されていないテキストデータが入力される。
【0052】
<言語処理部>
言語処理部110は、第一実施形態で説明した合成音声生成用データ形成装置10、第二実施形態で説明した合成音声生成用データ形成装置20の各部の機能を含んでいる。
言語処理部110は、例えばテキストデータ処理部111及びポーズ設定部112と、発音表記変換部114とを備えている。テキストデータ処理部111及びポーズ設定部112は、言語処理部110において、
図2に示す合成音声生成用データ形成装置10と同様の機能を有する合成音声生成用データ形成部115を形成している。合成音声生成用データ形成部は、テキストデータ中のテキストに含まれる記号及びテキストのうち所定の条件を満たす位置(ポーズ位置)にポーズ長情報を挿入した合成音声生成用データを形成する。ここで、合成音声生成用データ形成部は、
図4に示す合成音声生成用データ形成装置20と同様の構成であっても良い。
【0053】
言語処理部110のテキストデータ処理部111ポーズ設定部112は、合成音声生成用データ形成装置10のテキストデータ処理部11及びポーズ設定部12と同一の機能を有する。すなわち、言語処理部110は、発音表記変換部114を備えている点で第一実施形態で説明した合成音声生成用データ形成装置10と相違する。
以下、言語処理部110の発音表記変換部114と、韻律処理部120及び音声合成部130について説明する。また、テキストデータ処理部111及びポーズ設定部112の説明は省略する。
【0054】
<言語処理部>
(発音表記変換部)
発音表記変換部114は、入力されたテキストデータに対応する文章を発音表記に変換する。発音表記変換部114に入力されるテキストデータは、ポーズ設定部112においてテキストデータに対応するテキストの所定のポーズ位置にポーズ長情報が挿入された合成音声生成用データである。
発音表記変換部114は、例えば、発音辞典53と通信可能であり、入力されたテキストデータ(合成音声生成用データ)に基づいて、テキストデータに対応するテキストを発音表記に変換する。
なお、合成音声生成装置100は、テキストデータ(又は合成音声生成用データ)を保存したテキストデータ保存部をさらに備えており、言語処理部110は、テキストデータ保存部からテキストデータを取得しても良い。
【0055】
<韻律処理部>
韻律処理部120は、言語処理部110の発音表記変換部114から取得した発音表記を用いて文章の抑揚及び持続時間の韻律情報を生成する韻律情報生成部121を備えている。韻律処理部120は、生成した韻律情報を音声合成部130に出力する。
【0056】
<音声合成部>
音声合成部130は、テキストデータ(合成音声生成用データ)と、人間が発生した合成単位ごとの音声データを含む音声データベース54とに基づいて合成音声を生成する。音声合成部130は、合成単位選択部131と合成単位連結部132とを備えている。
以下、音声合成部130の各部について説明する。
【0057】
(合成単位選択部)
合成単位選択部131は、音声データベース54から、発音表記変換部114から取得した発音表記に対応する合成単位を選択して抽出する。合成単位選択部131は、抽出した合成単位は、合成単位連結部132に送信する。
【0058】
(合成単位連結部)
合成単位連結部132は、合成単位選択部131で抽出された合成単位を連結するとともに、韻律情報を付加して合成音声を生成する。このとき、音声合成部130は、合成音声生成用データに含まれるポーズ位置にポーズ長情報に対応する長さのポーズを介して合成単位を連結することで、自然な発話の合成音声を生成する。また、合成音声生成用データがポーズ長情報と共に、書籍とした場合の見出し、文章の配置及び改行の位置並びに空白行の幅に関する情報も含んだ合成音声生成用データである場合には、見出し、改行や空白行の幅に対応するポーズを介して合成単位を連結することで、自然な発話の合成音声を生成してもよい。
【0059】
(3.3)変形例1
第三実施形態では、音声合成を行いたいテキストデータが挿入され、テキストデータに基づいて音声合成を行う合成音声生成装置100について説明したが、このような構成に限られない。
例えば、変形例1の合成音声生成装置100Aは、別途生成された合成音声生成用データが入力されて音声合成を行う装置であってもよい。この場合、
図7に示すように、合成音声生成装置100Aの言語処理部110Aは、テキストデータ処理部111及びポーズ設定部112を有しておらず、少なくとも発音表記変換部114を備えていれば良い。合成音声生成装置100Aには、第三実施形態の合成音声生成用データ形成部115で生成される合成音声生成用データが入力される。このため、発音表記変換部114を備えていれば、合成音声生成装置100Aの言語処理部110Aとしての機能を果たすことができる。
【0060】
(3.4)変形例2
言語処理部110は、例えばテキストデータ処理部111、ポーズ設定部112及び発音表記変換部114とともに、図示しない音響設定部を備えていてもよい。この場合、音響設定部は、合成音声生成用データ形成装置20の音響設定部23と同一の機能を有する。
言語処理部110が音響設定部を備える場合、音声合成部130は、合成単位同士を連結する際に、所定の位置(例えば見出しの位置)に、音響情報のリンク先から取得した効果音を重ねたり、例えば見出し等に対してリバーブ等の音響効果をかけることができる。
【0061】
(3.5)変形例3
第三実施形態では、合成音声生成装置100が、言語処理部110が合成音声生成用データ形成装置10と同様の機能を有する場合について説明したがこのような構成に限られない。
例えば、合成音声生成装置100の言語処理部110は、第二実施形態に係る合成音声生成用データ形成装置20と同様の機能を有していてもよい。
【0062】
以上、本開示の実施形態について説明したが、本開示の技術的範囲は、上述した実施形態に記載の技術的範囲には限定されない。上述した実施形態に、多様な変更又は改良を加えることも可能であり、そのような変更又は改良を加えた形態も本開示の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
【符号の説明】
【0063】
10,20 合成音声生成用データ形成装置
11,111 テキストデータ処理部
12、112 ポーズ設定部
30 機械学習装置
31 テキストデータ化部
32 記憶部
33 学習データ抽出部
34 学習部
51 言語辞典
52 品詞辞典
53 発音辞典
54 音声データベース
100 合成音声生成装置
110 言語処理部
114 発音表記変換部
120 韻律処理部
121 韻律情報生成部
130 音声合成部
131 合成単位選択部
132 合成単位連結部