特開2023-44436 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 図書印刷株式会社の特許一覧

特開2023-44436合成音声生成用データ形成方法、合成音声生成方法及び合成音声生成装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023044436

(43)【公開日】2023-03-30

(54)【発明の名称】合成音声生成用データ形成方法、合成音声生成方法及び合成音声生成装置

(51)【国際特許分類】

G10L 13/10 20130101AFI20230323BHJP

G10L 13/033 20130101ALI20230323BHJP

【ＦＩ】

G10L13/10 113B

G10L13/10 111D

G10L13/10 113Z

G10L13/033 101Z

【審査請求】未請求

【請求項の数】14

【出願形態】ＯＬ

(21)【出願番号】P 2021152468

(22)【出願日】2021-09-17

(71)【出願人】

【識別番号】592139854

【氏名又は名称】図書印刷株式会社

(74)【代理人】

【識別番号】100103850

【弁理士】

【氏名又は名称】田中秀▲てつ▼

(74)【代理人】

【識別番号】100105854

【弁理士】

【氏名又は名称】廣瀬一

(74)【代理人】

【識別番号】100116012

【弁理士】

【氏名又は名称】宮坂徹

(74)【代理人】

【識別番号】100066980

【弁理士】

【氏名又は名称】森哲也

(72)【発明者】

【氏名】山形茂雄

(57)【要約】

【課題】より自然な発話の合成音声を生成する合成音声生成用データ形成方法、合成音声生成方法及び合成音声生成装置を提供する。
【解決手段】テキストデータ中のテキストに含まれる記号及びテキストのうち所定の条件を満たす位置をポーズ位置としてポーズ長を割り当て、ポーズ位置に、ポーズ長を示すポーズ長情報を挿入した合成音声生成用データを形成する。合成音声生成用データは、テキストに含まれる記号が読点である場合には、読点の直後にポーズ長として第１のポーズ長を示すポーズ長情報を挿入し、テキストに含まれる記号が句点である場合には、句点の直後にポーズ長として第１のポーズ長よりも長い第２のポーズ長を示すポーズ長情報を挿入する。また、テキストデータ中において鉤括弧内のテキストに含まれる読点及び句点の直後には、鉤括弧外に位置する読点及び句点よりも短いポーズ長を示すポーズ長情報をそれぞれ挿入する。
【選択図】図２

【特許請求の範囲】

【請求項1】

テキストデータ中のテキストに含まれる記号及び前記テキストのうち所定の条件を満たす位置をポーズ位置としてポーズ長を割り当て、
前記ポーズ位置に、前記ポーズ長を示すポーズ長情報を挿入した合成音声生成用データを形成する
合成音声生成用データ形成方法。

【請求項2】

前記テキストに含まれる前記記号が読点である場合には、前記読点の直後に前記ポーズ長として第１のポーズ長を示す前記ポーズ長情報を挿入し、
前記テキストに含まれる前記記号が句点である場合には、前記句点の直後に前記ポーズ長として前記第１のポーズ長よりも長い第２のポーズ長を示す前記ポーズ長情報を挿入する
請求項１に記載の合成音声生成用データ形成方法。

【請求項3】

前記テキストデータ中の鉤括弧で示される前記記号同士の間に位置する前記テキストに含まれる前記記号が読点である場合には、前記鉤括弧同士の間に位置する前記読点の直後に前記ポーズ長として前記第１のポーズ長よりも短い第３のポーズ長を示す前記ポーズ長情報を挿入し、
前記鉤括弧同士の間に位置する前記テキストに含まれる前記記号が句点である場合には、前記鉤括弧同士の間に位置する前記句点の直後に前記ポーズ長として第２のポーズ長よりも短い第４のポーズ長を示す前記ポーズ長情報を挿入する
請求項２に記載の合成音声生成用データ形成方法。

【請求項4】

前記テキストに含まれる前記記号が括弧である場合には、少なくとも前記括弧のうち前括弧の直前に前記ポーズ長として第５のポーズ長を示す前記ポーズ長情報を挿入する
請求項１から３のいずれか１項に記載の合成音声生成用データ形成方法。

【請求項5】

前記テキストが見出しである場合に、前記見出しの直後に、前記見出し以外の前記テキストの直前又は直後に挿入された他のポーズ長よりも長い第６のポーズ長を示す前記ポーズ長情報を挿入する
請求項１から４のいずれか１項に記載の合成音声生成用データ形成方法。

【請求項6】

前記テキストが意味上のまとまりを有する場合に、前記テキストのまとまりの直後に、第７のポーズ長を示す前記ポーズ長情報を挿入する
請求項１から５のいずれか１項に記載の合成音声生成用データ形成方法。

【請求項7】

前記テキストデータ中の前記テキストのうち所定の条件を満たす位置に、音声データに対して音響効果を加えるための音響情報を挿入する
請求項１から６のいずれか１項に記載の合成音声生成用データ形成方法。

【請求項8】

前記テキストが見出しである場合に、前記見出しの直後に前記音響情報を挿入する
請求項７に記載の合成音声生成用データ形成方法。

【請求項9】

前記音響情報は、前記音響データのリンク先を示すリンク先情報を含む
請求項８に記載の合成音声生成用データ形成方法。

【請求項10】

テキストデータに対応するテキストの所定のポーズが入るポーズ位置に前記ポーズの長さを示すポーズ長情報が挿入された合成音声生成用データを取得し、
前記テキストデータに対応する前記テキストを発音表記に変換し、
前記発音表記を用いて、抑揚及び持続時間の韻律情報を生成し、
人間が発生した合成単位ごとの音声データを含む音声データベースから、前記発音表記に対応する合成単位を選択し、
前記合成音声生成用データに含まれる前記ポーズ位置に前記ポーズ長情報に対応する長さの前記ポーズを介して前記合成単位を連結するとともに、前記韻律情報を付加して合成音声を生成する
合成音声生成方法。

【請求項11】

テキストデータに対応するテキストの所定のポーズが入るポーズ位置に前記ポーズの長さを示すポーズ長情報が挿入された合成音声生成用データを取得する合成音声生成用データ取得部と、
前記テキストデータに対応する前記テキストを発音表記に変換する発音表記変換部と、
前記発音表記変換部から取得した前記発音表記を用いて、前記テキストの抑揚及び持続時間の韻律情報を生成する韻律処理部と、
人間が発生した合成単位ごとの音声データを含む音声データベースから、前記発音表記変換部から取得した前記発音表記に対応する合成単位を選択し、前記合成音声生成用データに含まれる前記ポーズ位置に前記ポーズ長情報に対応する長さの前記ポーズを介して前記合成単位を連結するとともに、前記韻律情報を付加して合成音声を生成する音声合成部と、
を備える合成音声生成装置。

【請求項12】

前記テキストに含まれる記号及び前記テキストのうち所定の条件を満たす位置を前記ポーズ位置としてポーズ長を割り当て、前記ポーズ位置に、前記ポーズ長を示す前記ポーズ長情報を挿入した前記合成音声生成用データを形成する合成音声生成用データ形成部をさらに備え、
前記合成音声生成用データ取得部は、前記合成音声生成用データ形成部から前記合成音声生成用データを取得する
請求項１１に記載の合成音声生成装置。

【請求項13】

前記テキストデータは、書籍とした場合の前記テキストの配置及び改行の位置並びに空白行の幅に関する情報を含むデータである
請求項１１又は１２に記載の合成音声生成装置。

【請求項14】

前記テキストデータを保存したテキストデータ保存部をさらに備えている
請求項１３に記載の合成音声生成装置。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、合成音声生成用データ形成方法、合成音声生成方法及び合成音声生成装置に関する。

【背景技術】

【0002】

近年、テキストデータを音声データに変換して発話する技術を用いた様々なサービスが提供されている。このために、テキストデータから合成音声データを生成する様々な技術が用いられており、例えば人間が発生した音声データを含む大規模な音声データベースである音声コーパスを用いたコーパスベース音声合成が広く用いられている（特許文献１参照）。コーパスベース音声合成では、人によって発声された音声データを所定単位に分けてデータベースに蓄積し、音声合成の際にデータベースから抽出した所定単位の音声データを連結して合成音声データを生成している（例えば、特許文献１参照）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０１２―１０３６６８号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、上述した音声合成方法では、人によって発声された所定単位の音声データを連携しているものの、依然として人が文字を読み上げた様な自然な発話の合成音声には至っておらず、不自然な合成音声が生成される場合がある。
本開示は、より自然な発話の合成音声を生成する合成音声生成用データ形成方法、合成音声生成方法及び合成音声生成装置を提供することにある。

【課題を解決するための手段】

【0005】

上記課題を解決するために、本開示の一態様に係る合成音声生成用データ形成方法は、テキストデータ中のテキストに含まれる記号及びテキストのうち所定の条件を満たす位置をポーズ位置としてポーズ長を割り当て、ポーズ位置に、ポーズ長を示すポーズ長情報を挿入した合成音声生成用データを形成する。

【0006】

上記課題を解決するために、本開示の一態様に係る合成音声生成方法は、テキストデータに対応するテキストの所定のポーズが入るポーズ位置にポーズの長さを示すポーズ長情報が挿入された合成音声生成用データを取得し、テキストデータに対応する文章を発音表記に変換し、発音表記を用いて、抑揚及び持続時間の韻律情報を生成し、人間が発生した合成単位ごとの音声データを含む音声データベースから、発音表記に対応する合成単位を選択し、合成音声生成用データに含まれるポーズ位置にポーズ長情報に対応する長さのポーズを介して合成単位を連結するとともに、韻律情報を付加して合成音声を生成する。

【0007】

上記課題を解決するために、本開示の一態様に係る合成音声生成装置は、テキストデータに対応するテキストの所定のポーズが入るポーズ位置にポーズの長さを示すポーズ長情報が挿入された合成音声生成用データを取得する合成音声生成用データ取得部と、テキストデータに対応する文章を発音表記に変換する発音表記変換部と、発音表記変換部から取得した発音表記を用いて、文章の抑揚及び持続時間の韻律情報を生成する韻律処理部と、人間が発生した合成単位ごとの音声データを含む音声データベースから、発音表記変換部から取得した発音表記に対応する合成単位を選択し、合成音声生成用データに含まれるポーズ位置にポーズ長情報に対応する長さのポーズを介して合成単位を連結するとともに、韻律情報を付加して合成音声を生成する音声合成部と、を備えている。

【発明の効果】

【0008】

本開示の態様によれば、より自然な発話の合成音声を生成する合成音声生成用データ形成方法、合成音声生成方法及び合成音声生成装置を提供することができる。

【図面の簡単な説明】

【0009】

【図1】本開示の第一実施形態に係る合成音声生成用データ形成方法においてポーズ長情報への変換ルールの一例を示す表である。

【図2】本開示の第一実施形態に係る合成音声生成用データ形成方法を実行する合成音声生成用データ形成装置の一構成例を示すブロック図である。

【図3】本開示の第一実施形態に係る合成音声生成用データ形成方法を用いて形成された合成音声生成用データの一例を示す模式図である。

【図4】本開示の第二実施形態に係る合成音声生成用データ形成方法を実行する合成音声生成用データ形成装置の一構成例を示すブロック図である。

【図5】本開示の第二実施形態に係る合成音声生成用データ形成方法を用いて形成された合成音声生成用データの一例を示す模式図である。

【図6】本開示の第三実施形態に係る合成音声生成装置の一構成例を示すブロック図である。

【図7】本開示の第三実施形態に係る合成音声生成装置の他の構成例を示すブロック図である。

【発明を実施するための形態】

【0010】

以下、実施形態を通じて本開示を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。また、図面は特許請求の範囲にかかる発明を模式的に示すものであり、各部の構成及び機能は現実の方法及び装置とは異なる。

【0011】

１．第一実施形態
以下、第一実施形態に係る合成音声生成用データ形成方法について説明する。また、第一実施形態では合成音声生成用データ形成方法をコンピュータに実行させる合成音声生成用データ形成プログラム及び合成音声生成用データ形成装置について説明する。

【0012】

（１．１）合成音声生成用データ形成方法
第一実施形態に係る合成音声生成用データ形成方法について説明する。
第一実施形態に係る合成音声生成用データ形成方法は、少なくとも以下の方法により実行される。
（Ａ）テキストデータ中のテキストに含まれる記号及び前記テキストのうち所定の条件を満たす位置をポーズ位置としてポーズ長を割り当てる
（Ｂ）テキストのポーズ位置に、ポーズ長を示すポーズ長情報を挿入した合成音声生成用データを形成する
以上により、テキストの所定の位置に適切な長さのポーズを示すポーズ長情報が挿入された合成音声生成用データが形成される。このような合成音声生成用データを用いて音声合成を行った場合、合成音声でありながらより自然な発話の合成音声を生成することができる。
ポーズ長情報は、例えば以下のようなポーズ長を有する。

【0013】

（読点）
本実施形態に係る合成音声生成用データ形成方法では、テキストに含まれる記号が読点（、）である場合には、読点の直後にポーズ長として第１のポーズ長を示すポーズ長情報を挿入することが好ましい。
第１のポーズ長は、例えば３００ｍｓｅｃ以上５００ｍｓｅｃ以下であることが好ましく、３５０ｍｓｅｃ以上４５０ｍｓｅｃ以下であることがより好ましく、例えば４００ｍｓｅｃである。

【0014】

本実施形態に係る合成音声生成用データ形成方法では、テキストに含まれる記号が句点（。）である場合には、句点の直後にポーズ長として第１のポーズ長よりも長い第２のポーズ長を示すポーズ長情報を挿入することが好ましい。
第２のポーズ長は、例えば９００ｍｓｅｃ以上１５００ｍｓｅｃ以下であることが好ましく、９００ｍｓｅｃ以上１１００ｍｓｅｃ以下であることがより好ましく、例えば１０００ｍｓｅｃである。
句点の位置に、読点よりも長いポーズ長のポーズ長情報を挿入した合成音声生成用データを形成することにより、より自然な発話の合成音声を生成することができる。

【0015】

また、本実施形態に係る合成音声生成用データ形成方法では、テキストデータ中の鉤括弧（「」）で示される記号同士の間に位置するテキストに含まれる記号が読点（、）である場合には、鉤括弧同士の間に位置する読点の直後に、ポーズ長として第１のポーズ長（鉤括弧の外に位置する句点のポーズ長）よりも短い第３のポーズ長を示すポーズ長情報を挿入することが好ましい。
第３のポーズ長は、例えば１５０ｍｓｅｃ以上３００ｍｓｅｃ以下であることが好ましく、１５０ｍｓｅｃ以上２５０ｍｓｅｃ以下であることがより好ましく、例えば２００ｍｓｅｃである。

【0016】

また、本実施形態に係る合成音声生成用データ形成方法では、鉤括弧（「」）同士の間に位置するテキストに含まれる記号が句点（。）である場合には、鉤括弧同士の間に位置する句点の直後に、ポーズ長として第２のポーズ長（鉤括弧の外に位置する読点のポーズ長）よりも短い第４のポーズ長を示すポーズ長情報を挿入することが好ましい。
第４のポーズ長は、例えば４５０ｍｓｅｃ以上９００ｍｓｅｃ以下であることが好ましく、６５０ｍｓｅｃ以上７５０ｍｓｅｃ以下であることがより好ましく、例えば７００ｍｓｅｃである。
鉤括弧で示される記号同士の間に位置するテキストは、セリフ等を示すテキストである場合が多い。このため、鉤括弧内の句点や読点の位置におけるポーズ長を鉤括弧外の句点や読点の位置におけるポーズ長よりもそれぞれ短くすることにより、合成音声とした際に鉤括弧内のテキストに対応する音声中のポーズを短くして、さらに自然な発話の合成音声とすることができる。

【0017】

（括弧等）
本実施形態に係る合成音声生成用データ形成方法では、テキストに含まれる記号が括弧である場合には、少なくとも括弧のうち前括弧（「）の直前にポーズ長として第５のポーズ長を示すポーズ長情報を挿入することが好ましい。ポーズ長情報は、前括弧の直前のみ、又は前括弧の直前及び後ろ括弧（」）の直後に挿入されることが好ましい。例えば括弧が連続する場合（例えば、」「等）には、前括弧の直前のみにポーズ長情報が挿入されることにより、前括弧（」）と後ろ括弧（「」との間にポーズ長情報が重複して挿入されることを防ぐことができる。
ここで、「括弧」とは、鉤括弧（二重鉤括弧を含む）、丸括弧、隅付き括弧、角括弧、波括弧等の各括弧をいう。

【0018】

第５のポーズ長は、例えば５００ｍｓｅｃ以上１０００ｍｓｅｃ以下であることが好ましく、５００ｍｓｅｃ以上６００ｍｓｅｃ以下であることがより好ましく、例えば５００ｍｓｅｃである。
上述したように、括弧で示される記号同士の間に位置するテキストは、例えばセリフや重要な事柄を説明する文言である場合が多い。このため、少なくとも括弧の直前にポーズ長情報を挿入することで、合成音声とした際に括弧内のテキストに対応する音声と、前後の音声との間にポーズを入れて、括弧内のテキストに対応する音声に聞き手の意識を集中しやすくして自然な発話の合成音声とすることができる。

【0019】

（見出し）
本実施形態に係る合成音声生成用データ形成方法では、テキストが見出しである場合に、見出しの直後（所定の条件を満たす位置の一例）に、第６のポーズ長を示すポーズ長情報を挿入する。第６のポーズ長は、見出し以外のテキストの直前又は直後に挿入された他のポーズ長（すなわち、第１から第５のポーズ長）よりも長いことが好ましい。
第６のポーズ長は、例えば１５００ｍｓｅｃ以上４５００ｍｓｅｃ以下であることが好ましく、２０００ｍｓｅｃ以上３０００ｍｓｅｃ以下であることがより好ましい。テキストに複数種類の見出し（例えば、大見出し（例えば各章の冒頭の見出し）と小見出し）が含まれる場合、大見出し直後の第６のポーズ長を小見出し直後の第６のポーズ長よりも長くすることが好ましい。例えば、大見出し直後の第６のポーズ長を３０００ｍｓｅｃとし、小見出し直後の第６のポーズ長を２０００ｍｓｅｃとする。
このように、見出しの直後に比較的長いポーズを入れることで、見出しのテキストに対応する音声に聞き手の意識を集中しやすくして自然な発話の合成音声とすることができる。

【0020】

（文章のまとまり）
本実施形態に係る合成音声生成用データ形成方法では、テキストが意味上のまとまりを有する場合、文章のまとまりの直後（所定の条件を満たす位置の一例）に、ポーズ長情報を挿入することが好ましい。ここで、「文章のまとまり」とは、例えば、一つの見出し内に記載されて関連する内容を説明する複数の文章をいう。このとき、文章のまとまりの直後には、見出し以外のテキストの直前又は直後に挿入された他のポーズ長（すなわち、第１から第５のポーズ長）よりも長い第７のポーズ長を示すポーズ長情報が挿入されることが好ましい。

【0021】

第７のポーズ長は、見出しと同程度であることが好ましく、見出しとして大見出しと小見出し等の複数種類の見出しが用いられている場合には比較的ポーズ長が短い小見出しよりも長いポーズ長を有することが好ましい。第７のポーズ長は、例えば２５００ｍｓｅｃ以上４５００ｍｓｅｃ以下であることが好ましく、３０００ｍｓｅｃ以上４０００ｍｓｅｃ以下であることがより好ましい。例えば、大見出し直後の第６のポーズ長が３０００ｍｓｅｃであり、小見出し直後の第６のポーズ長が２０００ｍｓｅｃである場合、第７のポーズ長は３０００ｍｓｅｃであることが好ましい。
このように、文章のまとまりの直後に比較的長いポーズを入れることで、テキストに対応する音声の内容の切れ目が聞き手に理解しやすくなり、自然な発話の合成音声とすることができる。

【0022】

（その他）
また、図１に示すように、本実施形態に係る合成音声生成用データ形成方法では、各記号や条件に応じて、所定の条件を満たす位置にポーズ長情報を挿入することができる。
例えば、ポーズ長情報は、二点リーダ（‥）や三点リーダ（…）等のリーダ、疑問符（？）、感嘆符（！）、縦線（｜）、ダッシュ（―）、丸数字や四角囲み数字等の囲み英数字等の記号の直後に挿入される。図１には、ポーズ長情報を挿入する条件、ポーズ長の一例（ポーズ長の好ましい範囲）及びポーズ長情報の具体例を示す。リーダは、会話中での無音の状態（間）、文末における余韻、文中での省略を示し、ダッシュも間等を示すことから、例えば句点や読点よりも長いポーズ長が割り当てられることが好ましい。リーダの直後には、１０００ｍｓｅｃ以上１５００ｍｓｅｃ以下のポーズ長が割り当てられることが好ましく、例えば１０００ｍｓｅｃが割り当てられる。縦線は、文章の区切りを示すことが多いことから、例えば句点や読点よりも長いポーズ長が割り当てられることが好ましい。縦線の直後には、１０００ｍｓｅｃ以上１５００ｍｓｅｃ以下のポーズ長が割り当てられることが好ましく、例えば１０００ｍｓｅｃが割り当てられる。また、囲み英数字は、例えば箇条書きにされた文章の行頭等を示す事が多いことから、例えば読点と同等程度の長さのポーズ長が割り当てられることが好ましい。囲み英数字の直後には、３００ｍｓｅｃ以上５００ｍｓｅｃ以下のポーズ長が割り当てられることが好ましく、例えば３００ｍｓｅｃが割り当てられる。

【0023】

ここで、句読点や括弧類などの記号類（いわゆる約物）が２つ以上連続した場合には、連続した記号同士の間にはポーズを割り当てず、連続する記号の最後のみにポーズを割り当てるようにしてもよい。記号が連続する場合、例えばそれぞれの記号のポーズ長のうち長い方のポーズ長を、後ろの記号の直後に挿入することが好ましい。
例えば、前括弧（「）及び後ろ括弧（」）の間に、最後に疑問符（？）を含むテキストが記載されている場合、連続する疑問符と後ろ鍵括弧との間にはポーズを割り当てず、後ろ鍵括弧の直後のみにポーズを割り当てればよい。このとき、後ろ鍵括弧の直後に割り当てたポーズ位置には、疑問符のポーズ長（９００～１５００ｍｓｅｃ）と、後ろ鍵括弧のポーズ長（５００～１０００ｍｓｅｃ）のうち、より長さが長い疑問符のポーズ長（例えば１２００ｍｓｅｃ）を割り当てることが好ましい。

【0024】

また、図１に記載していない他の記号類についてもポーズ長を割り当てても良い。
また、従来の合成音声生成装置において合成音声を生成する際に、テキストに含まれる記号及びテキストのうち所定の条件を満たす位置以外の位置において微小な長さのポーズが含まれる場合、当該ポーズの位置に第８のポーズ長情報を挿入しても良い。この場合、第８のポーズ長は、例えば１３０ｍｓｅｃ以上２００ｍｓｅｃ以下であることが好ましく、１４０ｍｓｅｃ以上１７０ｍｓｅｃ以下であることがより好ましく、例えば１５０ｍｓｅｃである。

【0025】

さらに、合成音声を生成するためのテキストには、注釈を示す番号等が含まれる場合がある。このため、注釈の前後に、テキストの発話を行わないようにするための発話禁止情報をタグとして挿入し、注釈を示す番号等を含まない合成音声生成用データを生成しても良い。
これにより、合成音声生成用データから生成された合成音声において、テキストの文脈と関連せず合成音声の自然な発話を阻害する注釈が発話されないようにすることができる。

【0026】

（１．２）合成音声生成用データ形成プログラムの基本構成
本実施形態に係る合成音声生成用データ形成プログラムについて説明する。後述する合成音声生成用データ形成装置１０は、少なくとも以下の（ａ），（ｂ）の各動作をコンピュータに実行させるプログラムに従って、合成音声生成用データを形成する。以下のプログラムは、例えばハードディスクドライブ、メモリ等の記録媒体やＤＶＤディスク又はＢｌｕ－ｒａｙ（登録商標）等の光ディスクに非一時的に記録される。以下のプログラムは、インターネットを介して配布されても良い。さらに、以下のプログラムは、クラウドサーバに記録され、インターネットを介して実行されても良い。

【0027】

（ａ）テキストデータ中のテキストに含まれる記号及び前記テキストのうち所定の条件を満たす位置をポーズ位置としてポーズ長を割り当てること
（ｂ）テキストのポーズ位置に、ポーズ長を示すポーズ長情報を挿入した合成音声生成用データを形成すること

【0028】

（１．３）合成音声生成用データ形成装置の基本構成
以下、第一実施形態に係る合成音声生成用データ形成方法を実行する合成音声生成用データ形成装置１０を、図２を参照して説明する。図２は、合成音声生成用データ形成装置１０の基本構成及び各部の機能について説明する機能ブロック図である。

【0029】

図２に示すように、合成音声生成用データ形成装置１０は、テキストデータ処理部１１及びポーズ設定部１２を備えている。合成音声生成用データ形成装置１０は、例えば書籍の内容を示すテキストデータが入力され、テキストデータ処理部１１及びポーズ設定部１２の各部での処理により、テキストの所定の位置に適切な長さのポーズを示す情報を挿入した合成音声生成用データを形成して出力する。

【0030】

ここで、合成音声生成用データ形成装置１０に入力されるテキストデータとしては、例えば、文字等がレイアウトの指定に従って配置されたデータである組版データが用いられる。組版データには、例えば書籍とした場合の見出し、文章の配置及び改行の位置並びに空白行の幅に関する情報の少なくとも１つを示すタグが挿入されている。このため、合成音声生成用データ形成装置１０において、テキストのうち見出しに相当する部分や、文章のまとまりの最後部分（例えば見出しの直前）の判断が容易となるため好ましい。
また、合成音声生成用データ形成装置１０に入力されるテキストデータとしては、例えば、文字情報のみが含まれる（組版データ用のタグ等が含まれない）原稿データであってもよい。

【0031】

なお、合成音声生成用データ形成装置１０は、テキストデータが入力され、合成音声生成用データを出力する出入力部と、上述した合成音声生成用データ形成方法をコンピュータに実行させるプログラムを記憶する記憶部と、装置内の動作を制御する制御部とを備えている（図２中不図示）。テキストデータ処理部１１及びポーズ設定部１２は、合成音声生成用データ形成プログラムがコンピュータによって実行されることにより実現される。
以下、合成音声生成用データ形成装置１０の各部について説明する。

【0032】

＜テキストデータ処理部＞
テキストデータ処理部１１は、入力されたテキストデータが組版データである場合、テキストデータからテキストを抜き出して分析を行う。テキストデータには、組版用のタグが挿入されている。また、テキストデータには、複数の文章が、一つの見出し内に記載されて関連する内容を説明する場合、これらの複数の文章は「文章のまとまり」となっている。テキストデータ処理部１１は、見出しを示すタグや改行を示すタグ等に応じて、見出し（所定の条件の一例）を検出する。
なお、この場合、図２に示す言語辞典５１及び品詞辞典５２等をテキストの分析に用いる必要はない。

【0033】

また、テキストデータ処理部１１は、入力されたテキストデータが原稿データである場合、テキストデータ中のテキストを分析して、見出しや文章のまとまりを検出する。テキストデータ処理部１１は、例えば言語辞典５１や品詞辞典５２も用いてテキストを分析し、見出しや文章のまとまりを検出してもよい。
なお、テキストの分析は、機械学習により生成された学習済モデルを用いて行なわれても良い。例えば、学習済モデルは、見出しを示すタグや文章のまとまりの終わりを示すタグ等を挿入したテキストデータを学習用データとした機械学習により生成される。このような学習済モデルに上述したようなタグが挿入されていないテキストデータを挿入して分析することにより、テキストデータから見出しや文章のまとまりの終わり部分を抽出することができる。

【0034】

＜ポーズ設定部＞
ポーズ設定部１２は、テキストデータ中のテキストに含まれる記号の位置をポーズ位置としてポーズ長を割り当て、ポーズ位置に、ポーズ長を示すポーズ長情報を挿入する。また、ポーズ設定部１２は、テキストデータ処理部１１で検出された所定の条件を満たすテキストの所定位置にポーズ長情報を挿入する。ポーズ長情報は、図１に示すルール表の一例に従って、記号の直前又は直後等に挿入される。ポーズ設定部１２は、検出された条件に応じたポーズ長を示すポーズ長情報を挿入する。
これにより、ポーズ設定部１２は、合成音声生成用データを形成する。ポーズ設定部１２は、生成された合成音声生成用データを出力する。また、ポーズ設定部１２は、合成音声生成用データを図示しない記憶部に記憶してもよい。記憶部に記憶された合成音声生成用データは、出入力部を介して出力することができる。

【0035】

図３に、ポーズ長情報が挿入された合成音声生成用データをテキストで示した場合の具体例を示す。なお、図３では、説明のために、記号や所定の条件を満たすテキストの一部のみにポーズ長情報を示している。
図３に示すように、合成音声生成用データ中のテキストのうち、大見出しとなる「第１章下級老人とは何か」のテキストＰ１の直後には、ポーズ長が３０００ｍｓｅｃであることを示すポーズ長情報「<vtml_pause time=”3000”/>」が挿入されている。
同様に、文章のまとまりの最後部のテキストＰ４の直後にも同様に、ポーズ長が３０００ｍｓｅｃであることを示すポーズ長情報「<vtml_pause time=”3000”/>」が挿入されている。

【0036】

合成音声生成用データ中のテキストのうち、小見出しとなる「下級老人とは、いったい何か」のテキストＰ２、「下流老人の具体的な指標３つの「ない」」のテキストＰ５及び「収入が著しく少「ない」」のテキストＰ７の直後には、ポーズ長が２０００ｍｓｅｃであることを示すポーズ長情報「<vtml_pause time=”2000”/>」が挿入されている。
合成音声生成用データ中のテキストのうち、文末が三点リーダで終わる「人生の終結に向かっていく…」のテキストＰ３の直後には、ポーズ長が１０００ｍｓｅｃであることを示すポーズ長情報「<vtml_pause time=”1000”/>」が挿入されている。

【0037】

合成音声生成用データ中のテキストのうち、丸括弧Ｐ３の直前には、ポーズ長が５００ｍｓｅｃであることを示すポーズ長情報「<vtml_pause time=”500”/>」が挿入されている。
合成音声生成用データ中のテキストのうち、丸数字Ｐ６の直後には、ポーズ長が３００ｍｓｅｃであることを示すポーズ長情報「<vtml_pause time=”300”/>」が挿入されている。
このように、ポーズ設定部１２では、テキストデータ中のテキストに含まれる記号及び前記テキストのうち所定の条件を満たす位置に、それぞれに適したポーズ長を示すポーズ長情報が挿入される。

【0038】

また、ポーズ設定部１２は、ポーズ長情報と共に、組版データのタグも含んだ合成音声生成用データを形成しても良い。
上述した合成音声生成用データ形成装置では、人が文字を読み上げた様な自然な発話の音声を合成するための合成音声生成用データを生成することができる。

【0039】

２．第二実施形態
以下、第二実施形態に係る合成音声生成用データ形成方法について説明する。また、第二実施形態では合成音声生成用データ形成方法をコンピュータに実行させる合成音声生成用データ形成プログラム及び合成音声生成用データ形成装置について説明する。

【0040】

（２．１）合成音声生成用データ形成方法
第二実施形態に係る合成音声生成用データ形成方法は、第一実施形態に係る合成音声生成用データ形成方法の（Ａ）、（Ｂ）と、以下の方法とにより実行される。
（Ｃ）テキストデータ中のテキストのうち所定の条件を満たす位置に、音声データに対して音響効果を加えるための音響情報を挿入する
例えば、テキストが見出しである場合に、見出しの直後に音響情報を挿入する。また、音響情報は、例えば音響データのリンク先、すなわち音響データの保存先を示すリンク先情報を含む。

【0041】

以上により、テキストの所定の位置に、ポーズ長情報と音声データに対して音響効果を加えるための音響情報とが挿入された合成音声生成用データが形成される。このような合成音声生成用データを用いて音声合成を行った場合、合成音声でありながらより自然な発話の合成音声を生成することができ、かつ合成音声のみでも場面転換を聞き手にわかりやすくすることができる。また、音響情報は、音声編集機器がなくても音響情報を示すタグ中のテキストの編集を行うだけでリンク先の編集やリバーブ・エコーのような音響の設定等を行うことができ、合成音声生成用データの生成及び編集が用意となる。

【0042】

（２．２）合成音声生成用データ形成プログラムの基本構成
本実施形態に係る合成音声生成用データ形成プログラムについて説明する。後述する合成音声生成用データ形成装置２０は、第一実施形態に記載の（ａ）、（ｂ）と、以下の（ｃ）の各動作をコンピュータに実行させるプログラムに従って、合成音声生成用データを形成する。
（ｃ）テキストデータ中のテキストのうち所定の条件を満たす位置に、音声データに対して音響効果を加えるための音響情報を挿入すること

【0043】

（２．３）合成音声生成用データ形成装置の基本構成
以下、第二実施形態に係る合成音声生成用データ形成方法を実行する合成音声生成用データ形成装置２０を、図４を参照して説明する。図４は、合成音声生成用データ形成装置２０の基本構成及び各部の機能について説明する機能ブロック図である。

【0044】

図４に示すように、合成音声生成用データ形成装置２０は、テキストデータ処理部１１及びポーズ設定部１２と共に音響設定部２３を備えている。すなわち、合成音声生成用データ形成装置２０は、音響設定部２３を備える点で合成音声生成用データ形成装置１０と相違する。合成音声生成用データ形成装置２０では、所定の条件を満たす位置に、音声データに対して音響効果を加えるための音響情報を挿入することにより、合成音声に効果音やＢＧＭ、リバーブ（残響）やエコー（反響）等の音響効果等を与えることが可能となる。
以下、音響設定部２３について説明する。なお、テキストデータ処理部１１及びポーズ設定部１２は、第一実施形態で説明した各部と同様の構成であるため説明を省略する。

【0045】

＜音響設定部＞
音響設定部２３は、テキストデータ中のテキストのうち所定の条件を満たす位置に、テキストを読み上げた音声データに対して音響効果を加える、すなわちリバーブ、エコー等の音響をかけたり、効果音を入れるための音響情報を挿入する。
音響設定部２３は、テキストが見出しである場合に、見出しの前及び後ろの少なくとも一方に音響情報を挿入する。音響情報としては、例えば効果音データのリンク先、すなわち効果音データの保存先を示すリンク先情報を含む。
また、音響設定部２３は、テキストが見出しである場合に、見出しの前後にリバーブやエコー等の音響効果の開始時点又は終了時点を示す音響情報を挿入しても良い。この場合、見出しの前には音響効果の開始を示すタグを音響情報として挿入し、見出しの後には音響効果の終了を示すタグを音響情報として挿入する。

【0046】

図５に、ポーズ長情報とともに音響情報が挿入された合成音声生成用データをテキストで示した場合の具体例を示す。なお、図５では、説明のために、記号や所定の条件を満たすテキストの一部のみにポーズ長情報及び音響情報を示している。
図５に示すように、合成音声生成用データ中のテキストのうち、大見出しとなる「第１章下級老人とは何か」のテキストＰ１の直前には、音響効果であるリバーブの開始を示す音響情報「<vtml_mark name=”reverb_start”/>」と、再生する効果音のリンク先（保存先のＵＲＬ）を示す音響情報「<vtml_ mark name="sound:効果音ファイル.wav"/>」とが挿入されている。また、合成音声生成用データ中のテキストのうち、大見出しとなるテキストＰ１の直後には、リバーブの終了を示す音響情報「<vtml_ mark name=”reverb_end”/>」が挿入されている。
上述した合成音声生成用データ形成装置では、人が文字を読み上げた様な自然な発話の音声を合成するための合成音声生成用データを生成することができる。

【0047】

上述した合成音声生成用データ形成装置は、人が文字を読み上げた様な自然な発話であり、かつ場面転換を容易に聞き手に示す事ができる音響情報を含む合成音声生成用データを生成することができる。

【0048】

３．第三実施形態
以下、第三実施形態に係る合成音声生成装置及び合成音声生成方法について説明する。
（３．１）合成音声生成方法の基本構成
以下、第三実施形態に係る合成音声生成方法について説明する。
第三実施形態に係る合成音声生成法は、少なくとも以下の方法により実行される。
（Ｐ）テキストデータに対応するテキストの所定のポーズが入るポーズ位置にポーズの長さを示すポーズ長情報が挿入された合成音声生成用データを取得する
（Ｑ）テキストデータに対応する文章を発音表記に変換する
（Ｒ）発音表記を用いて、抑揚及び持続時間の韻律情報を生成する
（Ｓ）人間が発生した合成単位ごとの音声データを含む音声データベースから、発音表記に対応する合成単位を選択する
（Ｔ）合成音声生成用データに含まれるポーズ位置にポーズ長情報に対応する長さのポーズを介して合成単位を連結するとともに、韻律情報を付加して合成音声を生成する

【0049】

また、第三実施形態に係る合成音声生成方法は、合成音声生成用データ取得前に以下の方法が実行されてもよい。
（Ｏ）テキストデータに対応するテキストの所定のポーズが入るポーズ位置にポーズの長さを示すポーズ長情報を挿入した合成音声生成用データを形成する
すなわち、第三実施形態に係る合成音声生成方法では合成音声生成用データの形成が別途行なわれても良い。

【0050】

（３．２）合成音声生成装置の基本構成
以下、第三実施形態に係る合成音声生成用データ形成方法を実行する合成音声生成装置１００を、図６を参照して説明する。図６は、合成音声生成装置１００の基本構成及び各部の機能について説明する機能ブロック図である。

【0051】

図６に示すように、合成音声生成装置１００は、言語処理部１１０、韻律処理部１２０及び音声合成部１３０を備えている。合成音声生成装置１００は、例えば書籍の内容を示すテキストデータが入力され、言語処理部１１０、韻律処理部１２０及び音声合成部１３０の各部での処理により、自然な発話の合成音声を生成する。合成音声生成装置１００には、例えば、ポーズ長情報が挿入されていないテキストデータが入力される。

【0052】

＜言語処理部＞
言語処理部１１０は、第一実施形態で説明した合成音声生成用データ形成装置１０、第二実施形態で説明した合成音声生成用データ形成装置２０の各部の機能を含んでいる。
言語処理部１１０は、例えばテキストデータ処理部１１１及びポーズ設定部１１２と、発音表記変換部１１４とを備えている。テキストデータ処理部１１１及びポーズ設定部１１２は、言語処理部１１０において、図２に示す合成音声生成用データ形成装置１０と同様の機能を有する合成音声生成用データ形成部１１５を形成している。合成音声生成用データ形成部は、テキストデータ中のテキストに含まれる記号及びテキストのうち所定の条件を満たす位置（ポーズ位置）にポーズ長情報を挿入した合成音声生成用データを形成する。ここで、合成音声生成用データ形成部は、図４に示す合成音声生成用データ形成装置２０と同様の構成であっても良い。

【0053】

言語処理部１１０のテキストデータ処理部１１１ポーズ設定部１１２は、合成音声生成用データ形成装置１０のテキストデータ処理部１１及びポーズ設定部１２と同一の機能を有する。すなわち、言語処理部１１０は、発音表記変換部１１４を備えている点で第一実施形態で説明した合成音声生成用データ形成装置１０と相違する。
以下、言語処理部１１０の発音表記変換部１１４と、韻律処理部１２０及び音声合成部１３０について説明する。また、テキストデータ処理部１１１及びポーズ設定部１１２の説明は省略する。

【0054】

＜言語処理部＞
（発音表記変換部）
発音表記変換部１１４は、入力されたテキストデータに対応する文章を発音表記に変換する。発音表記変換部１１４に入力されるテキストデータは、ポーズ設定部１１２においてテキストデータに対応するテキストの所定のポーズ位置にポーズ長情報が挿入された合成音声生成用データである。
発音表記変換部１１４は、例えば、発音辞典５３と通信可能であり、入力されたテキストデータ（合成音声生成用データ）に基づいて、テキストデータに対応するテキストを発音表記に変換する。
なお、合成音声生成装置１００は、テキストデータ（又は合成音声生成用データ）を保存したテキストデータ保存部をさらに備えており、言語処理部１１０は、テキストデータ保存部からテキストデータを取得しても良い。

【0055】

＜韻律処理部＞
韻律処理部１２０は、言語処理部１１０の発音表記変換部１１４から取得した発音表記を用いて文章の抑揚及び持続時間の韻律情報を生成する韻律情報生成部１２１を備えている。韻律処理部１２０は、生成した韻律情報を音声合成部１３０に出力する。

【0056】

＜音声合成部＞
音声合成部１３０は、テキストデータ（合成音声生成用データ）と、人間が発生した合成単位ごとの音声データを含む音声データベース５４とに基づいて合成音声を生成する。音声合成部１３０は、合成単位選択部１３１と合成単位連結部１３２とを備えている。
以下、音声合成部１３０の各部について説明する。

【0057】

（合成単位選択部）
合成単位選択部１３１は、音声データベース５４から、発音表記変換部１１４から取得した発音表記に対応する合成単位を選択して抽出する。合成単位選択部１３１は、抽出した合成単位は、合成単位連結部１３２に送信する。

【0058】

（合成単位連結部）
合成単位連結部１３２は、合成単位選択部１３１で抽出された合成単位を連結するとともに、韻律情報を付加して合成音声を生成する。このとき、音声合成部１３０は、合成音声生成用データに含まれるポーズ位置にポーズ長情報に対応する長さのポーズを介して合成単位を連結することで、自然な発話の合成音声を生成する。また、合成音声生成用データがポーズ長情報と共に、書籍とした場合の見出し、文章の配置及び改行の位置並びに空白行の幅に関する情報も含んだ合成音声生成用データである場合には、見出し、改行や空白行の幅に対応するポーズを介して合成単位を連結することで、自然な発話の合成音声を生成してもよい。

【0059】

（３．３）変形例１
第三実施形態では、音声合成を行いたいテキストデータが挿入され、テキストデータに基づいて音声合成を行う合成音声生成装置１００について説明したが、このような構成に限られない。
例えば、変形例１の合成音声生成装置１００Ａは、別途生成された合成音声生成用データが入力されて音声合成を行う装置であってもよい。この場合、図７に示すように、合成音声生成装置１００Ａの言語処理部１１０Ａは、テキストデータ処理部１１１及びポーズ設定部１１２を有しておらず、少なくとも発音表記変換部１１４を備えていれば良い。合成音声生成装置１００Ａには、第三実施形態の合成音声生成用データ形成部１１５で生成される合成音声生成用データが入力される。このため、発音表記変換部１１４を備えていれば、合成音声生成装置１００Ａの言語処理部１１０Ａとしての機能を果たすことができる。

【0060】

（３．４）変形例２
言語処理部１１０は、例えばテキストデータ処理部１１１、ポーズ設定部１１２及び発音表記変換部１１４とともに、図示しない音響設定部を備えていてもよい。この場合、音響設定部は、合成音声生成用データ形成装置２０の音響設定部２３と同一の機能を有する。
言語処理部１１０が音響設定部を備える場合、音声合成部１３０は、合成単位同士を連結する際に、所定の位置（例えば見出しの位置）に、音響情報のリンク先から取得した効果音を重ねたり、例えば見出し等に対してリバーブ等の音響効果をかけることができる。

【0061】

（３．５）変形例３
第三実施形態では、合成音声生成装置１００が、言語処理部１１０が合成音声生成用データ形成装置１０と同様の機能を有する場合について説明したがこのような構成に限られない。
例えば、合成音声生成装置１００の言語処理部１１０は、第二実施形態に係る合成音声生成用データ形成装置２０と同様の機能を有していてもよい。

【0062】

以上、本開示の実施形態について説明したが、本開示の技術的範囲は、上述した実施形態に記載の技術的範囲には限定されない。上述した実施形態に、多様な変更又は改良を加えることも可能であり、そのような変更又は改良を加えた形態も本開示の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。

【符号の説明】

【0063】

１０，２０合成音声生成用データ形成装置
１１，１１１テキストデータ処理部
１２、１１２ポーズ設定部
３０機械学習装置
３１テキストデータ化部
３２記憶部
３３学習データ抽出部
３４学習部
５１言語辞典
５２品詞辞典
５３発音辞典
５４音声データベース
１００合成音声生成装置
１１０言語処理部
１１４発音表記変換部
１２０韻律処理部
１２１韻律情報生成部
１３０音声合成部
１３１合成単位選択部
１３２合成単位連結部

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版