IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特開2022-169012編集装置、音声合成装置及びプログラム
<>
  • 特開-編集装置、音声合成装置及びプログラム 図1
  • 特開-編集装置、音声合成装置及びプログラム 図2
  • 特開-編集装置、音声合成装置及びプログラム 図3
  • 特開-編集装置、音声合成装置及びプログラム 図4
  • 特開-編集装置、音声合成装置及びプログラム 図5
  • 特開-編集装置、音声合成装置及びプログラム 図6
  • 特開-編集装置、音声合成装置及びプログラム 図7
  • 特開-編集装置、音声合成装置及びプログラム 図8
  • 特開-編集装置、音声合成装置及びプログラム 図9
  • 特開-編集装置、音声合成装置及びプログラム 図10
  • 特開-編集装置、音声合成装置及びプログラム 図11
  • 特開-編集装置、音声合成装置及びプログラム 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022169012
(43)【公開日】2022-11-09
(54)【発明の名称】編集装置、音声合成装置及びプログラム
(51)【国際特許分類】
   G10L 13/10 20130101AFI20221101BHJP
【FI】
G10L13/10 111B
G10L13/10 113Z
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2021074758
(22)【出願日】2021-04-27
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100141139
【弁理士】
【氏名又は名称】及川 周
(74)【代理人】
【識別番号】100171446
【弁理士】
【氏名又は名称】高田 尚幸
(74)【代理人】
【識別番号】100114937
【弁理士】
【氏名又は名称】松本 裕幸
(74)【代理人】
【識別番号】100171930
【弁理士】
【氏名又は名称】木下 郁一郎
(72)【発明者】
【氏名】栗原 清
(72)【発明者】
【氏名】八谷 昌幸
(72)【発明者】
【氏名】深谷 崇史
(72)【発明者】
【氏名】水野 真由美
(72)【発明者】
【氏名】清山 信正
(57)【要約】
【課題】音声合成処理に用いられるテキストデータに記述されている読み仮名に対するアクセントの情報を容易に編集する。
【解決手段】表示制御部は、発話内容の読みを表す文字と、アクセントを表す第一韻律記号と、読みの区切りを表す第二韻律記号とが記述されたテキストデータに基づいて、読みを表す文字と、第二韻律記号を表す韻律表示オブジェクトとを表示し、文字に重畳して又は対応付けて、その文字が表す読みのアクセントであって、第一韻律記号により示されるアクセントを表すアクセント表示オブジェクトを表示する。書替部は、第二韻律記号により区切られた文字及び第一韻律記号からなり、アクセント核として選択された文字である選択文字が含まれる部分テキストデータを処理対象データとし、処理対象データに含まれる第一韻律記号を、処理対象データにおける選択文字の位置に応じたアクセントを表すように書替える。
【選択図】図1
【特許請求の範囲】
【請求項1】
発話内容の読みを表す文字と、アクセントを表す第一韻律記号と、読みの区切りを表す第二韻律記号とが記述されたテキストデータに基づいて、読みを表す前記文字と、前記第二韻律記号を表す韻律表示オブジェクトとを前記テキストデータにおける出現順に表示部に表示し、前記表示部に表示されている前記文字に重畳して又は対応付けて、前記文字が表す読みのアクセントであって、前記第一韻律記号により示される前記アクセントを表すアクセント表示オブジェクトを表示する表示制御部と、
前記表示部に表示されている前記文字のいずれかをアクセント核として選択する情報が入力された場合に、前記テキストデータにおいて前記第二韻律記号により区切られた前記文字及び前記第一韻律記号からなる部分テキストデータのうち、アクセント核として選択された前記文字である選択文字が含まれる前記部分テキストデータを処理対象データとし、前記処理対象データに含まれる前記第一韻律記号を、前記処理対象データにおける前記選択文字の位置に応じたアクセントを表すように書替える書替部と、
を備えることを特徴とする編集装置。
【請求項2】
前記表示制御部は、前記第一韻律記号に基づいてアクセント核であることが示される前記文字を、アクセント核であることを表す態様により前記表示部に表示する、
ことを特徴とする請求項1に記載の編集装置。
【請求項3】
低いアクセントを表す前記アクセント表示オブジェクトは、前記文字の表示における所定の高さより下部に表示される線であり、高いアクセントを表す前記アクセント表示オブジェクトは、前記所定の高さよりも上に表示される線である、
ことを特徴とする請求項1又は請求項2に記載の編集装置。
【請求項4】
前記表示制御部は、前記文字の出現順に、当該文字に対応した前記アクセント表示オブジェクトである前記線を前記部分テキストデータ毎につないで表示する、
ことを特徴とする請求項3に記載の編集装置。
【請求項5】
前記書替部は、読み又は読みの区切りの変更を示す情報の入力を受け、入力された前記情報に基づいて前記テキストデータに含まれる前記文字又は前記第二韻律記号を書替える、
ことを特徴とする請求項1から請求項4のいずれか一項に記載の編集装置。
【請求項6】
前記第一韻律記号は、アクセントの上昇、又は、アクセントの下降を表し、
前記第二韻律記号は、アクセントの区切り、文末、又は、ポーズを表す、
ことを特徴とする請求項1から請求項5のいずれか一項に記載の編集装置。
【請求項7】
発話内容の読みを表す文字と、アクセントを表す第一韻律記号と、読みの区切りを表す第二韻律記号とが記述されたテキストデータに基づいて、読みを表す前記文字と、前記第二韻律記号を表す韻律表示オブジェクトとを前記テキストデータにおける出現順に表示部に表示し、前記表示部に表示されている前記文字に重畳して又は対応付けて、前記文字が表す読みのアクセントであって、前記第一韻律記号により示される前記アクセントを表すアクセント表示オブジェクトを表示する表示制御部と、
前記表示部に表示されている前記文字のいずれかをアクセント核として選択する情報が入力された場合に、前記テキストデータにおいて前記第二韻律記号により区切られた前記文字及び前記第一韻律記号からなる部分テキストデータのうち、アクセント核として選択された前記文字である選択文字が含まれる前記部分テキストデータを処理対象データとし、前記処理対象データに含まれる前記第一韻律記号を、前記処理対象データにおける前記選択文字の位置に応じたアクセントを表すように書替える書替部と、
前記書替部により書替えられた前記テキストデータに基づいて音響特徴量を推定する音響特徴量推定部と、
前記音響特徴量推定部が推定した前記音響特徴量を用いて音声波形を推定するボコーダ部と、
を備えることを特徴とする音声合成装置。
【請求項8】
コンピュータを、請求項1から請求項6のいずれか一項に記載の編集装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、編集装置、音声合成装置及びプログラムに関する。
【背景技術】
【0002】
読み仮名及び韻律記号が記述された中間言語のテキストデータに基づいて音声合成を行う技術がある(例えば、特許文献1及び非特許文献1参照)。特に、ディープラーニングを用いた音声合成は実用的に使用されている(例えば、非特許文献2参照)。音声合成に用いられる中間言語の生成には、例えば、従来技術による言語解析の結果を用いることができる。一方で、テキストから発音情報を作成するときに、発音情報を対話的に修正する技術がある(例えば、特許文献2参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2020-34883号公報
【特許文献2】特開平9-171392号公報
【非特許文献】
【0004】
【非特許文献1】Kiyoshi KURIHARA,Nobumasa SEIYAMA,and Tadashi KUMANO,"Prosodic Features Control by Symbols as Input of Sequence-to-Sequence Acoustic Modeling for Neural TTS",一般社団法人 電子情報通信学会,IEICE Transactions on Information and Systems,Vol.E104-D,No.2,February 2021,p. 302-311
【非特許文献2】Kiyoshi Kurihara,et al.,"AI News Anchor",SMPTE 2020 Annual Technical Conference & Exhibition
【発明の概要】
【発明が解決しようとする課題】
【0005】
言語解析により推定されたアクセントには少なからず誤りが含まれる。これは、日本語が複数の読み方を持つことと、アクセントに規則性がなく推定が難しいことが理由としてあげられる。中間言語のテキストデータを入力に用いて高い品質の音声合成を行うためには、言語解析によって得られた中間言語に対して適切なアクセントを表すようにテキストデータを修正する必要がある。特許文献2の技術では、テキストのアクセント核を移動するユーザーインターフェースを提供しているが、高低アクセントと読み仮名との関係が明確ではない。
【0006】
本発明は、このような事情を考慮してなされたもので、音声合成処理に用いられるテキストデータに記述されている読み仮名に対するアクセントの情報を容易に編集することができる編集装置、音声合成装置及びプログラムを提供する。
【課題を解決するための手段】
【0007】
[1]本発明の一態様は、発話内容の読みを表す文字と、アクセントを表す第一韻律記号と、読みの区切りを表す第二韻律記号とが記述されたテキストデータに基づいて、読みを表す前記文字と、前記第二韻律記号を表す韻律表示オブジェクトとを前記テキストデータにおける出現順に表示部に表示し、前記表示部に表示されている前記文字に重畳して又は対応付けて、前記文字が表す読みのアクセントであって、前記第一韻律記号により示される前記アクセントを表すアクセント表示オブジェクトを表示する表示制御部と、前記表示部に表示されている前記文字のいずれかをアクセント核として選択する情報が入力された場合に、前記テキストデータにおいて前記第二韻律記号により区切られた前記文字及び前記第一韻律記号からなる部分テキストデータのうち、アクセント核として選択された前記文字である選択文字が含まれる前記部分テキストデータを処理対象データとし、前記処理対象データに含まれる前記第一韻律記号を、前記処理対象データにおける前記選択文字の位置に応じたアクセントを表すように書替える書替部とを備える、ことを特徴とする編集装置である。
【0008】
[2]本発明の一態様は、上述の編集装置であって、前記表示制御部は、前記第一韻律記号に基づいてアクセント核であることが示される前記文字を、アクセント核であることを表す態様により前記表示部に表示する、ことを特徴とする。
【0009】
[3]本発明の一態様は、上述の編集装置であって、低いアクセントを表す前記アクセント表示オブジェクトは、前記文字の表示における所定の高さより下部に表示される線であり、高いアクセントを表す前記アクセント表示オブジェクトは、前記所定の高さよりも上に表示される線である、ことを特徴とする。
【0010】
[4]本発明の一態様は、上述の編集装置であって、前記表示制御部は、前記文字の出現順に、当該文字に対応した前記アクセント表示オブジェクトである前記線を前記部分テキストデータ毎につないで表示する、ことを特徴とする。
【0011】
[5]本発明の一態様は、上述の編集装置であって、前記書替部は、読み又は読みの区切りの変更を示す情報の入力を受け、入力された前記情報に基づいて前記テキストデータに含まれる前記文字又は前記第二韻律記号を書替える、ことを特徴とする。
【0012】
[6]本発明の一態様は、上述の編集装置であって、前記第一韻律記号は、アクセントの上昇、又は、アクセントの下降を表し、前記第二韻律記号は、アクセントの区切り、文末、又は、ポーズを表す、ことを特徴とする。
【0013】
[7]本発明の一態様は、発話内容の読みを表す文字と、アクセントを表す第一韻律記号と、読みの区切りを表す第二韻律記号とが記述されたテキストデータに基づいて、読みを表す前記文字と、前記第二韻律記号を表す韻律表示オブジェクトとを前記テキストデータにおける出現順に表示部に表示し、前記表示部に表示されている前記文字に重畳して又は対応付けて、前記文字が表す読みのアクセントであって、前記第一韻律記号により示される前記アクセントを表すアクセント表示オブジェクトを表示する表示制御部と、前記表示部に表示されている前記文字のいずれかをアクセント核として選択する情報が入力された場合に、前記テキストデータにおいて前記第二韻律記号により区切られた前記文字及び前記第一韻律記号からなる部分テキストデータのうち、アクセント核として選択された前記文字である選択文字が含まれる前記部分テキストデータを処理対象データとし、前記処理対象データに含まれる前記第一韻律記号を、前記処理対象データにおける前記選択文字の位置に応じたアクセントを表すように書替える書替部と、前記書替部により書替えられた前記テキストデータに基づいて音響特徴量を推定する音響特徴量推定部と、前記音響特徴量推定部が推定した前記音響特徴量を用いて音声波形を推定するボコーダ部と、を備えることを特徴とする音声合成装置である。
【0014】
[8]本発明の一態様は、コンピュータを、上述したいずれかの編集装置として機能させるためのプログラムである。
【発明の効果】
【0015】
本発明によれば、音声合成処理に用いられるテキストデータに記述されている読み仮名に対するアクセントの情報を容易に編集することができる。
【図面の簡単な説明】
【0016】
図1】本発明の実施形態による音声合成装置の機能ブロック図である。
図2】実施形態による中間言語データに用いられる韻律記号を示す図である。
図3】実施形態による中間言語データの例を示す図である。
図4】従来のアクセント修正インタフェースのアクセント表示例を示す図である。
図5】従来の修正インタフェースによるアクセント修正操作を示す図である。
図6】実施形態によるアクセント修正インタフェースの表示例を示す図である。
図7】実施形態によるアクセント型の決定を示す図である。
図8】実施形態による音声合成装置の音声合成処理を示すフロー図である。
図9】実施形態による音声合成装置の中間言語データ修正処理を示すフロー図である。
図10】実施形態による中間言語データ修正画面の表示例を示す図である。
図11】実施形態による中間言語データ修正画面の表示例を示す図である。
図12】実施形態による音声合成アルゴリズムの例を示す図である。
【発明を実施するための形態】
【0017】
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
【0018】
図1は、本発明の一実施形態による音声合成装置1の構成を示す図である。音声合成装置1は、編集装置の一例である。音声合成装置1は、例えば、サーバコンピュータ、パーソナルコンピュータ、タブレット端末、スマートフォン、スマートグラス、スマートウォッチ、組み込みデバイスなどにより実現することができる。音声合成装置1は、言語解析部2と、編集部3と、表示部4と、入力部5と、音声合成部6とを備える。
【0019】
言語解析部2は、日本語の仮名漢字混じり文のテキストデータを、仮名及び韻律記号を用いた中間言語に変換する。この変換は、形態素解析などの既存技術により行うことができる。以下では、日本語の仮名漢字混じり文のテキストデータを原文データと記載し、中間言語のテキストデータを中間言語データと記載する。仮名は、読みを表す文字の一例であり、モーラに対応する。中間言語データにおける読みを表す仮名を読み仮名とも記載する。本実施形態では、仮名としてカタカナを用いる場合を記載するが、ひらがな、アルファベット、発音記号を用いてもよく、仮名に代えて音素を表す記号を用いてもよい。中間言語データに用いられる韻律記号は、韻律を表す文字又は記号である。韻律を表す文字には、読みを表す文字とは異なる文字を用いる。韻律記号は、第一韻律記号と、第二韻律記号とを含む。第一韻律記号は、アクセントを表す。第二韻律記号は、例えば、アクセント句の区切り、文末、ポーズなどの読みの区切りを表す。第二韻律記号によって区切られた仮名及び第一韻律記号からなる中間言語のテキストデータを、アクセント句中間言語データと記載する。アクセント句中間言語データに含まれる読み仮名は、アクセント句に相当する。
【0020】
編集部3は、記憶部31と、表示制御部32と、書替部33とを有する。編集部3は、例えば、ウェブブラウザにより提供されてもよく、コンピュータアプリケーションとして提供されてもよい。記憶部31は、中間言語データを記憶する。記憶部31は、原文データをさらに記憶してもよい。表示制御部32は、読み仮名と、第二韻律記号を表す韻律表示オブジェクトとを、中間言語データにおける出現順に表示部4に表示する。韻律表示オブジェクトは、読みを表す文字の仮名とは異なる文字でもよく、記号でもよく、図形でもよい。さらに、表示制御部32は、表示部4に表示されている読み仮名に重畳して又は対応付けて、第一韻律記号により表されるアクセントの高低を表すアクセント表示オブジェクトを表示する。加えて、表示制御部32は、第一韻律記号によりアクセント核であることが示される読み仮名を、アクセント核であることを表す態様により表示する。具体的には、アクセント核がある読み仮名に重畳して又は対応付けて、アクセント核であることを表すアクセント核表示オブジェクトを表示してもよく、アクセント核がある位置の読み仮名の色、太さ又は背景色を、他の読み仮名と変えて表示してもよい。また、表示制御部32は、中間言語データに対応した原文データを表示部4に表示してもよい。
【0021】
書替部33は、表示部4に表示されている読み仮名のいずれかをアクセント核として選択するアクセント核選択情報が入力部5により入力された場合に、選択された読み仮名が含まれるアクセント句中間言語データを処理対象データとする。以下では、アクセント核として選択された読み仮名を選択文字と記載する。書替部33は、処理対象データに含まれる第一韻律記号を、処理対象データにおける選択文字の位置に応じて決定されるアクセントを表すように変更し、中間言語データを書替える。また、書替部33は、読み仮名の変更を示す情報の入力を受けた場合、中間言語データに含まれる読み仮名を入力された読み仮名に書替える。また、書替部33は、読みの区切りの変更を示す情報の入力を受けた場合、入力された情報に応じて、中間言語データに含まれる第二韻律記号の位置や種類の変更、あるいは、第二韻律記号の挿入又は削除を行う。
【0022】
表示部4は、データを表示する。表示部4は、例えば、CRT(Cathode Ray Tube)ディスプレイ、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ等の画像表示装置である。表示部4は、ヘッドマウントディスプレイ、網膜投影ディスプレイなどでもよい。表示部4は、画像表示装置を音声合成装置1に接続するためのインタフェースであってもよい。この場合、表示部4は、データを表示するための映像信号を生成し、自身に接続されている画像表示装置に映像信号を出力する。また、表示部4は、音声合成装置1と接続される情報処理装置にデータを表示してもよい。
【0023】
入力部5は、ユーザの指示を入力する。入力部5は、キーボード、ポインティングデバイス(マウス、タブレット等)、ボタン、タッチパネル等の既存の入力装置を用いて構成される。入力部5は、ユーザの指示を音声合成装置1に入力する際にユーザによって操作される。また、入力部5は、音声認識によりユーザの音声を入力してもよい。入力部5は、入力装置を音声合成装置1に接続するためのインタフェースであってもよい。この場合、入力部5は、入力装置においてユーザの入力に応じて生成された入力信号を音声合成装置1に入力する。また、入力部5は、音声合成装置1と接続される情報処理装置からユーザが入力した指示を受信してもよい。
【0024】
音声合成部6は、中間言語データを入力データに用いて音声合成を行う。音声合成部6には、例えば、特許文献1や非特許文献1、2に記載の技術のほか、特開2018-146803号公報に記載の技術や、参考文献1「橋本佳,高木信二,”深層学習に基づく統計的音声合成”,日本音響学会誌,73巻1号,2017年,p.55-62」、参考文献2「栗原 清,清山 信正,熊野 正,”ラベリング作業を必要としないsequence-to-sequence音響特徴量推定手法の有効性”,一般社団法人 電子情報通信学会,信学技報,vol.119,no.321,SP2019-37,2019年」に記載の技術を用いることができる。音声合成部6は、音響特徴量推定部61とボコーダ部62とを有する。音響特徴量推定部61は、編集部3から入力した中間言語データに基づいて音響特徴量を推定する。ボコーダ部62は、音響特徴量推定部61が推定した音響特徴量を用いて音声波形を推定する。
【0025】
図2は、本実施形態の中間言語データに用いられる韻律記号を示す図である。図2に示す韻律記号は、参考文献3「音声入出力方式標準化専門委員会,JEITA規格 IT-4006 日本語テキスト音声合成用記号,社団法人 電子情報技術産業協会,2010年,p.4-10」に記載の韻律記号を改変した情報である。韻律情報には、アクセント位置の指定、句・フレーズの区切り指定、文末イントネーションの指定、ポーズの指定などの種類がある。アクセント位置の指定を表す韻律記号には、アクセント上昇記号「^」と、アクセント下降記号「!」がある。アクセント上昇記号「^」は、その記号の直後の仮名(モーラ)でアクセントが上昇することを示す。アクセント下降記号「!」は、その記号の直後の仮名(モーラ)でアクセントが下降することを表す。アクセント上昇記号「^」及びアクセント下降記号「!」は、第一韻律記号である。句・フレーズの区切りの指定には、アクセント句の区切りを表す韻律記号「#」が用いられる。文末イントネーションの指定には、通常の文末を表す韻律記号「=」、体言止めの文末を表す韻律記号「(」、及び、疑問の文末を表す韻律記号「?」が用いられる。ポーズの指定には、ポーズを表す韻律記号「,」が用いられる。アクセント句の区切りを表す韻律記号「#」、通常の文末を表す韻律記号「=」、体言止めの文末を表す韻律記号「(」、疑問の文末を表す韻律記号「?」及びポーズを表す韻律記号「,」は、読みの区切りを表す第二韻律記号である。なお、これらの韻律記号は一例であり、他の記号を用いてもよい。
【0026】
図3は、本実施形態による中間言語データの例を示す図である。図3(a)は、仮名漢字混じり文の原文データを示している。実際には、原文データにアクセントの高低の情報は含まれないが、図3(a)には、線の高低により、正しいアクセントの高低を重畳して示している。図3(b)は、音声合成装置1の言語解析部2が図3(a)に示す原文データに形態素解析を行って得られる中間言語データを示す。例えば、言語解析部2は、原文データが示す漢字仮名交じりの文章を既存の技術によりフルコンテキストラベルデータに変換する。フルコンテキストラベルデータは、発話における音素の情報、当該音素の前後の音素の情報、当該音素のアクセント句情報などを含む。アクセント句情報は、発話において現在の音素が含まれるアクセント句に関する特徴、及び、当該アクセント句に隣接するアクセント句に関する特徴などを示す。言語解析部2は、フルコンテキストラベルデータから音素の情報を抽出し、出現順の音素が表す読み方に対応した読み仮名からなる文字列に、フルコンテキストラベルデータが示す音素やアクセント句情報に基づいて得られる韻律を表す韻律記号を付加して中間言語データを生成する。
【0027】
ユーザは、言語解析部2が生成した中間言語データが示すアクセントなどが異なる場合、中間言語データの修正を行う。音声合成装置1の編集部3は、図3(b)に示す中間言語データをユーザの入力に従って修正し、図3(c)に示す中間言語データを生成する。点線の箇所は、修正が行われたことを示す。音声合成装置1は、図3(c)に示す修正後の中間言語データを、音声合成部6に出力する。音声合成部6は、図3(c)に示す中間言語データを入力に用いて音声合成を行う。
【0028】
図4は、従来の音声合成ソフトウェアにより提供されるアクセント修正インタフェースのアクセント表示例を示す図である。図4(a)及び図4(b)に示すように、従来のアクセント修正インタフェースでは、読み仮名と、その読み仮名のアクセントの高低を表すアクセント表示オブジェクトとが異なる列に表示されている。図4(a)のアクセント表示オブジェクトは、アクセントの高低に対応して高い位置又は低い位置に表示される線をアクセント句ごとにつなげた線である。高い位置の線と低い位置の線との間の縦の線分は、アクセントの高低が変化することを表す。図4(b)のアクセント表示オブジェクトは、アクセントの高低に対応して高い位置又は低い位置に表示される丸である。高い位置の丸と低い位置の丸との間の線分は、アクセントの高低が変化することを表す。アクセント句間の丸は間隔を空けて表示される。
【0029】
図5は、従来の修正インタフェースによるアクセント修正操作を示す図である。従来の修正インタフェースでは、ユーザは、アクセント修正対象の読み仮名ごとに、その読み仮名に対応したアクセント表示オブジェクトの位置を高い位置から低い位置へ、あるいは、低い位置から高い位置へと変更する操作を行うことによって、アクセントの修正を行っていた。例えば、図5(a)に示すアクセント句「アラユル」のアクセントを、図5(b)に示すアクセントに変更する。この場合、ユーザはマウス等を用いて、「ア」に対応したアクセント表示オブジェクトを符号A1に示すように高い位置から低い位置に修正し、「ラ」に対応したアクセント表示オブジェクトを符号A2に示すように低い位置から高い位置に修正し、さらに、「ユ」に対応したアクセント表示オブジェクトを符号A3に示すように低い位置から高い位置に修正していた。
【0030】
図6は、本実施形態の音声合成装置1が提供するアクセント修正インタフェースの表示例を示す図である。図6(a)は中間言語データ修正前の表示を示し、図6(b)は中間言語データ修正後の表示を示す。本実施形態の音声合成装置1の表示制御部32は、アクセント句に分けて読み仮名を表示するため、中間言語データを第二韻律記号により分割すし、アクセント句中間言語データを生成する。アクセント句中間言語データには、読み仮名及び第一韻律データが含まれる。表示制御部32は、アクセント句中間言語データから読み仮名を出現順に抽出してアクセント句を取得し、さらに、中間言語データからそのアクセント句中間言語データの直後に設定されている第二韻律記号を取得する。表示制御部32は、アクセント句中間言語データから取得したアクセント句と、そのアクセント句中間言語データの直後に設定されている第二韻律記号を表す区切りオブジェクトとを、中間言語データにおける出現順に表示する。図6(a)及び(b)では、アクセント句「アラユル」の直後に、アクセント句の区切りを表す韻律記号「#」に対応した区切りオブジェクト「_」が表示されている。また、アクセント句「ゲンジツオ」の直後に、ポーズを表す韻律記号「、」に対応した区切りオブジェクト「、」が表示されている。
【0031】
さらに、表示制御部32は、各アクセント句のアクセント核を判断する。アクセント句中間言語データにアクセント下降記号「!」が含まれる場合、アクセント核はアクセント下降記号の直前の読み仮名である。アクセント句中間言語データにアクセント下降記号が含まれない場合、アクセント核はアクセント句の最後の仮名である。表示制御部32は、各アクセント句のアクセント核を示すアクセント核表示オブジェクトB1を、アクセント核がある読み仮名の上に表示する。
【0032】
参考文献4「峯松 信明,"OJADとそれを用いた音声指導",[online],<URL:https://www.gavo.t.u-tokyo.ac.jp/~mine/japanese/acoustics/OJAD_workshop_long.pdf>」、及び、参考文献5「Hiroya Fujisaki and Keikichi Hirose,"Analysis of voice fundamental frequency contours for declarative sentences of Japanese",1984年,[online],<URL: https://www.jstage.jst.go.jp/article/ast1980/5/4/5_4_233/_pdf/-char/en>」には、日本語の東京方言(標準語)の高低アクセントを特定できる原理が記載されている。この原理では、アクセント句内におけるいずれのモーラにアクセント核があるかによって、そのアクセント句のモーラ毎のアクセントの高低のパターンであるアクセント型が一意に特定されることを示している。これは、(1)アクセント句の最初のモーラと2番目のモーラとはアクセントの高低が異なること、(2)アクセント核のモーラはアクセントが高く、アクセント核の次のモーラでアクセントが低くなること、(3)アクセント句において一旦アクセントが低くなると、そのアクセント句においてアクセントは上昇しないこと、という規則による。つまり、モーラ数と同じ数だけアクセント型があり、アクセント核があるモーラの位置によって、アクセント型が一意に決定される。そこで、表示制御部32は、アクセント核に応じて定まるアクセント型のアクセントを表すアクセント表示オブジェクトB2を、各アクセント句の表示に重畳して表示する。
【0033】
ユーザは、アクセント句のアクセントを変更する場合、アクセント句内の読み仮名のうちいずれの読み仮名の位置にアクセント核があるかを音声合成装置1に入力する。例えば、図6(a)に示すアクセント句「アラユル」のアクセントを、図6(b)に示すアクセントに変更する。この場合、ユーザはアクセント句「アラユル」においてアクセント核がある「ユ」の表示領域B3、又は、表示領域B3の上の領域B4をマウスによりクリックなどして選択する。表示領域B3の下の領域B5によりアクセント核の読み仮名を選択可能としてもよい。音声合成装置1の書替部33は、アクセント核があるとして選択された読み仮名の位置に基づいて、その読み仮名が含まれるアクセント句におけるアクセント型を特定する。書替部33は、特定したアクセント型に従って中間言語データに含まれる第一韻律記号を書替える。さらに、表示制御部32は、書替え後の中間言語データにより、図6(b)に示すようにアクセント核表示オブジェクトB1及びアクセント表示オブジェクトB2の表示を変更する。
【0034】
このように、音声合成装置1は、音声合成に用いる中間言語データに記述されているアクセントの制御を、ユーザがアクセント核の読み仮名の表示又はその上部を1クリックする事で実現する。また、音声合成装置1は、図4のように従来は2行に分けて表示していた読み仮名とアクセント表示オブジェクトを1行で表示するため、画面に多くの情報を表示できる。
【0035】
図7は、音声合成装置1によるアクセント型の決定を示す図である。図7では、アクセント句のモーラ数が5である場合を例に示している。図7(a)は、従来技術のアクセント修正インタフェースにより表した1型から5型のアクセント型を示す。図7(b)は、1型から5型のアクセント型に対応したアクセント核を示す。図7(c)は、図7(b)に示すようにアクセント核が指定された場合に、音声合成装置1のアクセント修正インタフェースが表示するアクセント表示オブジェクトの例を示す。
【0036】
図7に示すように、アクセント句のアクセントの高低は、アクセント核の位置によって決まる。そこで、ユーザは、入力部5により、表示部4が表示しているアクセント句の文字列に対して、アクセント核がある読みの文字を指定する指定情報を入力する。書替部33は、指定情報が示す読み仮名が含まれるアクセント句中間言語データを処理対象データとし、処理対象データにおいてユーザがアクセント核として指定したアクセント句内の文字の位置に基づいてアクセント型を決定する。書替部33は、決定したアクセント型に従って、中間言語データを変更する。つまり、書替部33は、処理対象データに含まれているアクセント上昇記号及びアクセント下降記号の記述を、決定したアクセント型に従って変更する。
【0037】
具体的には、書替部33は、処理対象データからアクセント下降記号及びアクセント上昇記号を削除する。書替部33は、アクセント核が最初の読み仮名である場合(1型)、最初の読み仮名の直後にアクセント下降記号を挿入する。書替部33は、アクセント核が処理対象データにおける最初の読み仮名でも最後の読み仮名でもない場合(2型~4型)、処理対象データの1番目の読み仮名の直後にアクセント上昇記号を挿入し、さらに、アクセント核が指定された読み仮名の直後にアクセント下降記号を挿入する。書替部33は、アクセント核が処理対象データの最後の読み仮名である場合(5型)、処理対象データの1番目の読み仮名の直後にアクセント上昇記号を挿入し、アクセント下降記号を記述しない。表示制御部32は、書替後の処理対象データに基づきアクセント表示オブジェクトの表示を変更する。
【0038】
図8は、音声合成装置1の音声合成処理を示すフロー図である。音声合成装置1の言語解析部2は、発話内容を表す仮名漢字混じりの文章の原文データを取得する(ステップS110)。言語解析部2は、外部から原文データを受信してもよく、記録媒体から読み出してもよく、ユーザが入力部5により入力した原文データを取得してもよい。発話内容を表す文章は、1文でもよく複数文でもよい。
【0039】
言語解析部2は、取得した原文データが示す文章の形態素解析を行い、発話内容を表す文章を、読み仮名及び韻律記号を用いた文字列により記述した中間言語データに変換する(ステップS120)。言語解析部2は、中間言語データを編集部3に出力する。言語解析部2は、原文データ及び中間言語データを編集部3に出力してもよい。この場合、言語解析部2は、原文データに、原文データに含まれる各文章と、その文章に対応した中間言語データの文章とを対応づける情報を付加する。編集部3は、記憶部31に中間言語データ及び原文データを記憶する。
【0040】
編集部3の表示制御部32は、中間言語データを表示部4に表示する。表示制御部32は、中間言語データに対応づけられた原文データをさらに表示部4に表示してもよい。編集部3は、ユーザが入力部5により入力した指示に従って、記憶部31に記憶されている中間言語データを修正する(ステップS130)。詳細な処理については、図9を用いて後述する。
【0041】
編集部3は、ユーザが音声合成の指示を入力部5により入力したか否かを判定する(ステップS140)。編集部3は、音声合成の指示が入力されていないと判定した場合(ステップS140:NO)、ステップS160の処理を行う。一方、編集部3は、音声合成の指示が入力されたと判定した場合(ステップS140:YES)、修正された中間言語データを記憶部31から読み出し、音声合成部6に出力する。なお、ユーザが中間言語データの一部を指定した音声合成の指示を入力部5により入力した場合、編集部3は、指定された一部の中間言語データを記憶部31から読み出し、音声合成部6に出力する。音声合成部6は、編集部3から入力した中間言語データを用いて音声合成を行う(ステップS150)。
【0042】
音声合成装置1は、ユーザが終了を入力したか否かを判定する(ステップS160)。音声合成装置1は、終了が入力されていないと判定した場合(ステップS160:NO)、ステップS130からの処理を繰り返し、終了が入力されたと判定した場合(ステップS160:YES)、図8の処理を終了する。
【0043】
図9は、音声合成装置1の中間言語データ修正処理を示すフロー図である。図9は、ステップS130における音声合成装置1の詳細な処理を示す。表示制御部32は、記憶部31から中間言語データを読み出し、表示部4に表示する(ステップS210)。すなわち、表示制御部32は、中間言語データを第二韻律記号によりアクセント句中間言語データに区切る。表示制御部32は、アクセント句中間言語データに含まれる読み仮名のアクセント句と、第二韻律記号を表す韻律表示オブジェクトとを、中間言語データにおける出現順に表示部4に表示する。さらに、表示制御部32は、各アクセント句中間言語データに含まれる第一韻律記号に基づいて、各アクセント句のアクセント核及びアクセントの高低を判断する。
【0044】
具体的には、表示制御部32は、アクセント句中間言語データの最初の読み仮名の直後にアクセント下降記号がある場合、最初の読み仮名がアクセント核であると判断し、最初の読み仮名は高いアクセント、次の読み仮名から最後の読み仮名までは低いアクセントと判断する。
【0045】
また、表示制御部32は、アクセント句中間言語データの2番目以降の読み仮名の直後にアクセント下降記号がある場合、アクセント下降記号の直前の読み仮名がアクセント核であると判断し、最初の読み仮名は低いアクセント、2番目からアクセント下降記号の直前の読み仮名までは高いアクセント、アクセント下降記号の次の読み仮名から最後の読み仮名までは低いアクセントと判断する。アクセント核がアクセント句中間言語データの2番目以降最後から2番目までの読み仮名にある場合、2番目の読み仮名の直前にはアクセント上昇記号がある。そこで、表示制御部32は、アクセント上昇記号の前の読み仮名は低いアクセント、アクセント上昇記号の次の読み仮名からアクセント下降記号の直前の読み仮名までは高いアクセントと判断してもよい。
【0046】
また、表示制御部32は、アクセント句中間言語データにアクセント下降記号がない場合、アクセント句の最後の読み仮名がアクセント核であると判断し、最初の読み仮名は低いアクセント、2番目から最後の読み仮名までは高いアクセントと判断する。最後の読み仮名がアクセント核である場合、上述のようにアクセント句中間言語データにアクセント下降記号がないが、2番目の読み仮名の直前にはアクセント上昇記号がある。そこで、表示制御部32は、アクセント上昇記号の前の読み仮名は低いアクセント、アクセント上昇記号の次の読み仮名から第二韻律記号の直前の読み仮名までは高いアクセントと判断してもよい。
【0047】
表示制御部32は、読み仮名に重畳して又は対応付けて、読み仮名のアクセントを表すアクセント表示オブジェクト表示する。さらに、表示制御部32は、アクセント核であることが示される文字の表示を、アクセント核であることを表す態様により表示する。表示制御部32は、さらに、原文データを表示部4に表示してもよい。なお、表示制御部32は、ユーザが原文データの一部を表示対象として指定する情報を入力部5により入力した場合、表示対象の一部の原文データに対応した中間言語データについてステップS210の処理を行ってもよい。
【0048】
書替部33は、入力部5によりアクセント核がある読み仮名を選択するアクセント核選択情報が入力されたか否かを判定する(ステップS220)。書替部33は、アクセント核選択情報が入力されたと判定した場合(ステップS220:YES)、アクセント核選択情報が示す読み仮名である選択文字を含んだアクセント句中間言語データを処理対象データとする。書替部33は、処理対象データにおける選択文字の位置に基づいてアクセント型を決定する。書替部33は、決定したアクセント型に従って処理対象データに第一韻律記号を記述するよう、記憶部31に記憶されている中間言語データを書替える(ステップS230)。すなわち、書替部33は、処理対象データからアクセント下降記号及びアクセント上昇記号を削除する。書替部33は、アクセント核が最初の読み仮名である場合、最初の読み仮名の直後にアクセント下降記号を挿入し、アクセント核が処理対象データの最後の読み仮名である場合、処理対象データの最初の読み仮名の直後にアクセント上昇記号を挿入する。書替部33は、アクセント核が2番目以降最後から2番目までの読み仮名の場合、処理対象データの1番目の読み仮名の直後にアクセント上昇記号を挿入し、アクセント核が指定された読み仮名の直後にアクセント下降記号を挿入する。表示制御部32は、ステップS210と同様の処理により、ステップS230における書替が行われた中間言語データを表示する(ステップS240)。
【0049】
書替部33は、修正終了指示が入力されたか否かを判断する(ステップS250)。表示制御部32は、修正終了指示が入力されていないと判断した場合(ステップS250:NO)、ステップS220からの処理を繰り返す。
【0050】
書替部33は、アクセント核選択情報が入力されていないと判断した場合(ステップS220:NO)、読み仮名又は第二韻律記号の修正が入力部5により入力されたか否かを判定する(ステップS260)。書替部33は、読み仮名又は第二韻律記号の修正が入力されたと判断した場合(ステップS260:YES)、入力内容に基づいて、記憶部31に記憶されている中間言語データを修正する(ステップS270)。例えば、書替部33は、修正対象の読み仮名と修正後の読み仮名とが入力された場合、中間言語データに対して、修正対象の読み仮名を、修正後の読み仮名に書替える修正を行う。また、書替部33は、修正対象の第二韻律記号と移動先の位置とが入力された場合、中間言語データに対して、修正対象の第二韻律記号を移動先の位置に移動する修正を行う。書替部33は、修正対象の第二韻律記号と、削除指示とが入力された場合、中間言語データに対して、修正対象の第二韻律記号を削除する修正を行う。また、書替部33は、修正対象の第二韻律記号と、修正後の韻律記号の種類とが入力された場合、中間言語データに対して、修正対象の第二韻律記号を、修正後の種類の韻律記号に書替える修正を行う。書替部33は、追加対象の第二韻律記号と、追加位置とが入力された場合、中間言語データに対して、追加位置に追加対象の第二韻律記号を挿入する修正を行う。編集部3は、ステップS240からの処理を行う。
【0051】
書替部33が、読み仮名又は第二韻律記号の修正が入力されていないと判定した場合(ステップS260:NO)、編集部3は、入力部5により入力された内容に応じた処理を行う(ステップS280)。例えば、表示制御部32は、ユーザが指定した原文データの一部に対応する中間言語データを表示している場合、原文データの他の一部の指定を受け、ステップS210と同様の処理を行ってもよい。編集部3は、ステップS250からの処理を行う。そして、編集部3は、ステップS250において終了が入力されたと判断した場合(ステップS250:YES)、図9の処理を終了する。音声合成指示を修正終了指示としてもよい。
【0052】
図10は、音声合成装置1の中間言語データ修正画面の表示例を示す図である。表示制御部32は、中間言語データ修正画面に、原文データに含まれる仮名漢字混じりの文を1文ずつ異なる行に並べて表示する。表示制御部32は、各文の先頭に詳細表示ボタンC1を表示する。ユーザが詳細表示ボタンC1をマウスでクリックするなどして表示状態とした場合、表示制御部32は、その詳細表示ボタンC1と同じ行に表示されている仮名漢字混じり文に対応した中間言語データを読み出し、その仮名漢字混じり文の下部に表示する。表示制御部32は、読み出した中間言語データに含まれる読み仮名と、第二韻律記号を表す区切りオブジェクトとを中間言語データにおける出現順に表示する。さらに、表示制御部32は、アクセント核がある読み仮名の上部に、アクセント核を表すアクセント核表示オブジェクトC2を表示し、アクセント句の文字列にアクセントの高低を表すアクセント表示オブジェクトC3を表示している。高いアクセントは、文字列の表示の中心の高さよりも高い位置の線で表され、低いアクセントは、文字列の表示の中心よりも低い位置の線で表され、アクセント表示オブジェクトC3は、それらの線をアクセント句の単位でつないだ線である。また、表示制御部32は、修正前のアクセント核を示すオブジェクトC4をさらに示している。
【0053】
ユーザは、アクセント句のアクセントを変更する場合、そのアクセント句における正しいアクセント核の読み仮名の表示領域又はその上部の領域にカーソルを合わせ、マウスを左クリックする。また、ユーザは、他の指示を行う場合、マウスを右クリックすることによりメニューを表示する。ユーザは、表示されたメニューから文字の修正、ポーズの修正、文末の修正などを選択する。例えば、区切りオブジェクトC5は、通常の文末の韻律記号を表している。ユーザは、マウスにより文末の修正を選択し、変更後の文末イントネーションを選択する。これにより、書替部33は、表示中の中間言語データに記述されている通常の文末の韻律記号を、変更後の文末イントネーションを表す韻律記号に書替える。表示制御部32は、区切りオブジェクトC5を、書替後の韻律記号を表す区切りオブジェクトに変更する。また、ユーザは、再生ボタンC6をマウスでクリックすることにより、修正後の中間言語データを用いた音声合成を指示することができる。
【0054】
アクセント核の読み仮名の上部を左クリックすることにより各アクセント句の高低アクセントを指示する場合、読み仮名の表示上で左クリックする動作を修正する文字列の指定に使用することもできる。
【0055】
図11は、音声合成装置1の中間言語データ修正画面の他の表示例を示す図である。表示制御部32は、図10と同様に、ユーザが詳細表示ボタンC1により表示状態とした仮名漢字混じり文に対応した中間言語データを、その仮名漢字混じり文の下部に表示する。また、表示制御部32は、図11における中間言語データ修正画面において、各アクセント句の先頭に文字の前に、文字の編集を指示するための編集ボタンD1を表示する。ユーザが、編集ボタンD1を入力部5により選択すると、表示制御部32は、その編集ボタンD1に続くアクセント句の読み仮名を編集可能とする。書替部33は、入力された文字によって、中間言語データの対応するアクセント句の読み仮名を置き換える。また、表示制御部32は、アクセント核がある読み仮名の表示に、アクセント核を表すアクセント核表示オブジェクトD2を重畳して表示し、各読み仮名にその読み仮名のアクセントの高低を表すアクセント表示オブジェクトD3を表示している。高いアクセントのアクセント表示オブジェクトD3は、文字列の表示の中心の高さよりも高い位置の線であり、低いアクセントを表すアクセント表示オブジェクトD3は、文字列の表示の中心よりも低い位置の線である。図11では、読み仮名の表示よりも上及び下にアクセント表示オブジェクトD3を表示している。
【0056】
続いて、音声合成部6の例を説明する。図12は、音響特徴量生成モデル80及び音声波形生成モデル90を用いた音声合成アルゴリズムの一例を示す図である。音響特徴量生成モデル80は、音響特徴量推定部61の一例である。音響特徴量生成モデル80は、参考文献6「Shen et al.,[online],2018年2月,"Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions",arXiv:1712.05884v2,インターネット<URL:https://arxiv.org/pdf/1712.05884.pdf>」に示す技術を適用したDNNである。音声波形生成モデル90は、ボコーダ部62の一例である。音声波形生成モデル90は、音響特徴量のデータを入力し、音声波形を出力するDNNである。
【0057】
音響特徴量生成モデル80は、エンコーダ82及びデコーダ85を有する。エンコーダ82は、CNN(Convolutional Neural Network;畳み込みニューラルネットワーク)及びRNN(Recurrent Neural Network;再帰型ニューラルネットワーク)により、入力された中間言語データが示す文章内の発話内容に、その中間言語データが示す文章内における当該発話内容の前後の文脈を考慮した文字列の特徴量を生成する。デコーダ85は、RNNにより、エンコーダ82が生成した特徴量と、過去に生成した音響特徴量とに基づいて、入力された中間言語データが示す発話内容に対応する音声の予測の音響特徴量を1フレームずつ生成する。
【0058】
エンコーダ82は、文字列変換処理811と、畳み込みネットワーク812と、双方向LSTMネットワーク813とにより構成される。文字列変換処理811では、中間言語データに用いられている読み仮名及び韻律記号それぞれを数値に変換し、中間言語をベクトル表現に変換する。畳み込みネットワーク812は、複数層(例えば、3層)の畳み込みレイヤが接続されたニューラルネットワークである。各畳み込みレイヤでは、中間言語のベクトル表現に対して、所定の文字数に相当する大きさの複数のフィルタにより畳み込み処理を行い、さらに、バッチ正規化及びReLU(Rectified Linear Units)活性化を行う。これにより、発話内容の文脈がモデル化される。例えば、3層の畳み込みレイヤのフィルタサイズは[5,0,0]、フィルタの数は512である。デコーダ85に入力する文字列の特徴量を生成するために、畳み込みネットワーク812の出力が双方向LSTMネットワーク813に入力される。双方向LSTMネットワーク813は、512ユニット(各方向に256ユニット)の単一の双方向LSTMである。双方向LSTMネットワーク813により、入力されたテキストデータに記述された文章内における前後の文脈を考慮した文字列の特徴量を生成することが可能となる。LSTMは、RNN(Recurrent Neural Network)の一つである。
【0059】
デコーダ85は、自己回帰RNNである。デコーダ85は、アテンションネットワーク851と、前処理ネットワーク852と、LSTMネットワーク853と、第一線形変換処理854と、後処理ネットワーク855と、加算処理856と、第二線形変換処理857とにより構成される。
【0060】
アテンションネットワーク851は、自己回帰RNNにアテンション機能を追加したネットワークであり、エンコーダ82からの出力全体を1フレームごとに要約した固定長のコンテキストベクトルを出力する。アテンションネットワーク851は、双方向LSTMネットワーク813からの出力(エンコーダ出力)を入力する。フレームごとに、要約を生成するためにエンコーダ出力からデータを抽出するときの重みは、エンコーダ出力におけるデータ位置に応じて異なっている。アテンションネットワーク851は、エンコーダ出力から抽出したデータに、前のデコードのタイミングで生成したコンテキストベクトルを用いて特徴を追加したデータを用いて、今回のフレームの出力となるコンテキストベクトル(アテンションネットワーク出力)を生成する。
【0061】
前処理ネットワーク852は、前回の時間ステップにおいて第一線形変換処理854が出力したデータを入力する。前処理ネットワーク852は、それぞれ256個の隠れReLUユニットからなる完全結合された複数(例えば2つ)のレイヤを含んだニューラルネットワークである。ReLUユニットからなるレイヤは、各ユニットの値がゼロよりも小さい場合はゼロを出力し、ゼロよりも大きい場合はそのままの値を出力する。LSTMネットワーク853は、1024ユニットを有する複数(例えば、2層)の一方向LSTMが結合されたニューラルネットワークであり、前処理ネットワーク852からの出力と、アテンションネットワーク851からの出力を結合したデータを入力する。フレームの音響特徴量は、前のフレームの音響特徴量の影響を受けるため、アテンションネットワーク851から出力された現在のフレームの特徴量に、前処理ネットワーク852からの出力を結合することにより、前のフレームの音響特徴量に基づく特徴を付加している。
【0062】
第一線形変換処理854は、LSTMネットワーク853から出力されたデータを線形変換し、1フレーム分のメルスペクトログラムのデータであるコンテキストベクトルを生成する。第一線形変換処理854は、生成したコンテキストベクトルを、前処理ネットワーク852、後処理ネットワーク855及び加算処理856に出力する。
【0063】
後処理ネットワーク855は、複数層(例えば、5層)の畳み込みネットワークを結合したニューラルネットワークである。例えば、5層の畳み込みネットワークは、フィルタサイズが[5,0,0]、フィルタの数は1024である。各畳み込みネットワークでは、畳み込み処理及びバッチ正規化と、最後の層を除いてtanh活性化とを行う。後処理ネットワーク855からの出力は、波長変換後の全体的な品質を改善するために用いられる。加算処理856では、第一線形変換処理854が生成したコンテキストベクトルと、後処理ネットワーク855からの出力とを加算する。
【0064】
上記のスペクトログラムフレーム予測と並行して、第二線形変換処理857では、LSTMネットワーク853の出力とアテンションコンテキストとの連結をスカラに投影したのちシグモイド活性化を行って、出力シーケンスが完了したかの判定に用いるストップトークン(Stop Token)を出力する。
【0065】
音響特徴量生成モデル80は、中間言語データを入力し、フレーム毎の音響特徴量であるメルスペクトログラムを生成して音声波形生成モデル90に出力する。音声波形生成モデル90は、音声波形生成モデルにフレーム毎のメルスペクトログラムを入力し、時間領域波形に逆変換して音声波形データを生成し、出力する。音声波形生成モデル90には、例えば、多層の畳み込みネットワークを利用したWaveNetを用いるが、他のボコーダを用いてもよい。推定された音声波形は、音声データにより、あるいは、スピーカーなどの音声出力部(図示せず)により出力される。
【0066】
また、音響特徴量生成モデル80には、参考文献6に記載のTacotron 2のほか、Deep Voice 3、Transformer-based TTSなどのSequence-to-sequence + attention方式を用いることができる。Deep Voice 3は、例えば、参考文献7「Wei Ping et al.,[online],2018年2月,"Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning",arXiv:1710.07654v3,インターネット<URL:https://arxiv.org/pdf/1710.07654.pdf>」に記載されている。Transformer-based TTSは、例えば、参考文献8「Naihan Li et al.,[online],2019年1月,"Neural Speech Synthesis with Transformer Network",arXiv:1809.08895v3,インターネット<URL:https://arxiv.org/pdf/1809.08895.pdf>」に記載されている。
【0067】
なお、音声合成装置1は、中間言語データと正解の音響特徴量とを学習データとして用いた学習により音響特徴量生成モデル80を更新する。すなわち、音響特徴量生成モデル80は、学習データの中間言語データを入力し、メルスペクトログラムを推定する。音声合成部6は、正解の音響特徴量のメルスペクトログラムと、推定されたメルスペクトログラムとの差分が小さくなるように音響特徴量生成モデル80を更新する。
【0068】
以上説明した実施形態の音声合成装置1によれば、音声合成部6に入力する前の中間言語データに基づいて、読みを表す文字の表示にオーバーレイして、又は、読みを表す文字の表示位置に対応した周辺位置に、アクセント核、高低アクセント、アクセント区切り位置、フレーズ区切り位置、読点、文末情報(通常、体言止め、疑問形等)などを表すオブジェクトを表示し、それらを修正可能なユーザーインターフェースを提供することができる。そのため、音声合成装置1は、読みを表す文字の表示と別の操作により、高低アクセントの情報を表示させる必要がない。また、ユーザは、アクセント核の指定を入力することにより、音声合成装置1は、指定されたアクセント核により決まる高低アクセントとなるように中間言語データの記述を変更する。よって、ユーザが読みを表す文字ごとにアクセントを指定する必要がない。
【0069】
アクセント核は、発声において意識的にピッチを上げたり下げたりする部分である。そのため、アクセント核は英語のストレスアクセントのように、直感的に明示しやすい。ユーザが、このアクセントと意識した部分をクリックするのみで、音声合成装置1は、アクセント句の高低アクセントを決定する。よって、音声合成装置1は、ユーザが簡単にアクセント修正作業を行えるように支援することができる。なお、上記実施形態において音声合成装置1は、アクセント表示オブジェクトを読み仮名に重畳して表示しているが、アクセント表示オブジェクトを読み仮名と異なる行に表示してもよい。この場合、音声合成装置1は、読み仮名が表す読みと対応付けて、その読みの高低のアクセントを表すアクセント表示オブジェクトを表示する。
【0070】
なお、上述の音声合成装置1は、内部にコンピュータシステムを有している。そして、音声合成装置1の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU(central processing unit)及び各種メモリやOS(Operation System)、周辺機器等のハードウェアを含むものである。また、音声合成装置1の機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。
【0071】
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ウェブページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
【0072】
音声合成装置1は、例えば、1台以上のコンピュータ装置により実現することができる。音声合成装置1が複数台のコンピュータ装置により実現される場合、いずれの機能部をいずれのコンピュータ装置により実現するかは任意とすることができる。例えば、編集部3と、音声合成部6とを異なるコンピュータ装置により実現してもよい。また、編集部3、又は、言語解析部2及び編集部3を、音声合成装置1の外部の編集装置により実現してもよい。
【0073】
以上説明した実施形態によれば、編集装置は、表示制御部と、書替部とを有する。表示制御部は、発話内容の読みを表す文字と、アクセントを表す第一韻律記号と、読みの区切りを表す第二韻律記号とが記述されたテキストデータに基づいて、読みを表す文字と、第二韻律記号を表す韻律表示オブジェクトとをテキストデータにおける出現順に表示部に表示する。さらに、表示制御部は、表示部に表示されている文字に重畳して又は対応付けて、文字が表す読みのアクセントを表すアクセント表示オブジェクトを表示する。文字が表す読みのアクセントは、第一韻律記号により示される。表示制御部は、第一韻律記号に基づいてアクセント核であることが示される文字を、アクセント核であることを表す態様により表示部に表示してもよい。書替部は、表示部に表示されている文字のいずれかをアクセント核として選択する情報が入力された場合に、第二韻律記号により区切られた文字及び第一韻律記号からなる部分テキストデータのうち、アクセント核として選択された文字である選択文字が含まれる部分テキストデータを処理対象データとし、処理対象データに含まれる第一韻律記号を、処理対象データにおける選択文字の位置に応じたアクセントを表すように書替える。部分テキストデータは、例えば、実施形態のアクセント句中間言語データである。表示制御部は、書替部が書替えたテキストデータに基づいて表示部への表示を更新する。
【0074】
低いアクセントを表すアクセント表示オブジェクトは、文字の表示の中心の高さなど所定の高さより下部に表示される線であり、高いアクセントを表すアクセント表示オブジェクトは、所定の高さよりも上に表示される線である。表示制御部は、文字の出現順に、当該文字に対応したアクセント表示オブジェクトである線を部分テキストデータ毎につないで表示してもよい。また、書替部は、読み方又は読みの区切りの変更を示す情報の入力を受け、入力された情報に基づいてテキストデータに含まれる文字又は第二韻律記号を書替えてもよい。
【0075】
第一韻律記号は、アクセントの上昇、又は、アクセントの下降を表し、第二韻律記号は、アクセントの区切り、文末、又は、ポーズを表す。
【0076】
音声合成装置が、上記の編集装置の機能を有してもよい。音声合成装置は、書替部により書替えられたテキストデータに基づいて音響特徴量を推定する音響特徴量推定部と、音響特徴量推定部が推定した音響特徴量を用いて音声波形を推定するボコーダ部とを備える。
【0077】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0078】
1…音声合成装置
2…言語解析部
3…編集部
31…記憶部
32…表示制御部
33…書替部
4…表示部
5…入力部
6…音声合成部
61…音響特徴量推定部
62…ボコーダ部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12