特開2022-169012 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特開2022-169012編集装置、音声合成装置及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022169012

(43)【公開日】2022-11-09

(54)【発明の名称】編集装置、音声合成装置及びプログラム

(51)【国際特許分類】

G10L 13/10 20130101AFI20221101BHJP

【ＦＩ】

G10L13/10 111B

G10L13/10 113Z

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2021074758

(22)【出願日】2021-04-27

(71)【出願人】

【識別番号】000004352

【氏名又は名称】日本放送協会

(74)【代理人】

【識別番号】100141139

【弁理士】

【氏名又は名称】及川周

(74)【代理人】

【識別番号】100171446

【弁理士】

【氏名又は名称】高田尚幸

(74)【代理人】

【識別番号】100114937

【弁理士】

【氏名又は名称】松本裕幸

(74)【代理人】

【識別番号】100171930

【弁理士】

【氏名又は名称】木下郁一郎

(72)【発明者】

【氏名】栗原清

(72)【発明者】

【氏名】八谷昌幸

(72)【発明者】

【氏名】深谷崇史

(72)【発明者】

【氏名】水野真由美

(72)【発明者】

【氏名】清山信正

(57)【要約】

【課題】音声合成処理に用いられるテキストデータに記述されている読み仮名に対するアクセントの情報を容易に編集する。
【解決手段】表示制御部は、発話内容の読みを表す文字と、アクセントを表す第一韻律記号と、読みの区切りを表す第二韻律記号とが記述されたテキストデータに基づいて、読みを表す文字と、第二韻律記号を表す韻律表示オブジェクトとを表示し、文字に重畳して又は対応付けて、その文字が表す読みのアクセントであって、第一韻律記号により示されるアクセントを表すアクセント表示オブジェクトを表示する。書替部は、第二韻律記号により区切られた文字及び第一韻律記号からなり、アクセント核として選択された文字である選択文字が含まれる部分テキストデータを処理対象データとし、処理対象データに含まれる第一韻律記号を、処理対象データにおける選択文字の位置に応じたアクセントを表すように書替える。
【選択図】図１

【特許請求の範囲】

【請求項1】

発話内容の読みを表す文字と、アクセントを表す第一韻律記号と、読みの区切りを表す第二韻律記号とが記述されたテキストデータに基づいて、読みを表す前記文字と、前記第二韻律記号を表す韻律表示オブジェクトとを前記テキストデータにおける出現順に表示部に表示し、前記表示部に表示されている前記文字に重畳して又は対応付けて、前記文字が表す読みのアクセントであって、前記第一韻律記号により示される前記アクセントを表すアクセント表示オブジェクトを表示する表示制御部と、
前記表示部に表示されている前記文字のいずれかをアクセント核として選択する情報が入力された場合に、前記テキストデータにおいて前記第二韻律記号により区切られた前記文字及び前記第一韻律記号からなる部分テキストデータのうち、アクセント核として選択された前記文字である選択文字が含まれる前記部分テキストデータを処理対象データとし、前記処理対象データに含まれる前記第一韻律記号を、前記処理対象データにおける前記選択文字の位置に応じたアクセントを表すように書替える書替部と、
を備えることを特徴とする編集装置。

【請求項2】

前記表示制御部は、前記第一韻律記号に基づいてアクセント核であることが示される前記文字を、アクセント核であることを表す態様により前記表示部に表示する、
ことを特徴とする請求項１に記載の編集装置。

【請求項3】

低いアクセントを表す前記アクセント表示オブジェクトは、前記文字の表示における所定の高さより下部に表示される線であり、高いアクセントを表す前記アクセント表示オブジェクトは、前記所定の高さよりも上に表示される線である、
ことを特徴とする請求項１又は請求項２に記載の編集装置。

【請求項4】

前記表示制御部は、前記文字の出現順に、当該文字に対応した前記アクセント表示オブジェクトである前記線を前記部分テキストデータ毎につないで表示する、
ことを特徴とする請求項３に記載の編集装置。

【請求項5】

前記書替部は、読み又は読みの区切りの変更を示す情報の入力を受け、入力された前記情報に基づいて前記テキストデータに含まれる前記文字又は前記第二韻律記号を書替える、
ことを特徴とする請求項１から請求項４のいずれか一項に記載の編集装置。

【請求項6】

前記第一韻律記号は、アクセントの上昇、又は、アクセントの下降を表し、
前記第二韻律記号は、アクセントの区切り、文末、又は、ポーズを表す、
ことを特徴とする請求項１から請求項５のいずれか一項に記載の編集装置。

【請求項7】

【請求項8】

コンピュータを、請求項１から請求項６のいずれか一項に記載の編集装置として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、編集装置、音声合成装置及びプログラムに関する。

【背景技術】

【0002】

読み仮名及び韻律記号が記述された中間言語のテキストデータに基づいて音声合成を行う技術がある（例えば、特許文献１及び非特許文献１参照）。特に、ディープラーニングを用いた音声合成は実用的に使用されている（例えば、非特許文献２参照）。音声合成に用いられる中間言語の生成には、例えば、従来技術による言語解析の結果を用いることができる。一方で、テキストから発音情報を作成するときに、発音情報を対話的に修正する技術がある（例えば、特許文献２参照）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０２０－３４８８３号公報

【特許文献2】特開平９－１７１３９２号公報

【非特許文献】

【0004】

【非特許文献1】Kiyoshi KURIHARA，Nobumasa SEIYAMA，and Tadashi KUMANO，"Prosodic Features Control by Symbols as Input of Sequence-to-Sequence Acoustic Modeling for Neural TTS"，一般社団法人電子情報通信学会，IEICE Transactions on Information and Systems，Vol.E104-D，No.2，February 2021，p. 302-311

【非特許文献2】Kiyoshi Kurihara，et al.，"AI News Anchor"，SMPTE 2020 Annual Technical Conference & Exhibition

【発明の概要】

【発明が解決しようとする課題】

【0005】

言語解析により推定されたアクセントには少なからず誤りが含まれる。これは、日本語が複数の読み方を持つことと、アクセントに規則性がなく推定が難しいことが理由としてあげられる。中間言語のテキストデータを入力に用いて高い品質の音声合成を行うためには、言語解析によって得られた中間言語に対して適切なアクセントを表すようにテキストデータを修正する必要がある。特許文献２の技術では、テキストのアクセント核を移動するユーザーインターフェースを提供しているが、高低アクセントと読み仮名との関係が明確ではない。

【0006】

本発明は、このような事情を考慮してなされたもので、音声合成処理に用いられるテキストデータに記述されている読み仮名に対するアクセントの情報を容易に編集することができる編集装置、音声合成装置及びプログラムを提供する。

【課題を解決するための手段】

【0007】

［１］本発明の一態様は、発話内容の読みを表す文字と、アクセントを表す第一韻律記号と、読みの区切りを表す第二韻律記号とが記述されたテキストデータに基づいて、読みを表す前記文字と、前記第二韻律記号を表す韻律表示オブジェクトとを前記テキストデータにおける出現順に表示部に表示し、前記表示部に表示されている前記文字に重畳して又は対応付けて、前記文字が表す読みのアクセントであって、前記第一韻律記号により示される前記アクセントを表すアクセント表示オブジェクトを表示する表示制御部と、前記表示部に表示されている前記文字のいずれかをアクセント核として選択する情報が入力された場合に、前記テキストデータにおいて前記第二韻律記号により区切られた前記文字及び前記第一韻律記号からなる部分テキストデータのうち、アクセント核として選択された前記文字である選択文字が含まれる前記部分テキストデータを処理対象データとし、前記処理対象データに含まれる前記第一韻律記号を、前記処理対象データにおける前記選択文字の位置に応じたアクセントを表すように書替える書替部とを備える、ことを特徴とする編集装置である。

【0008】

［２］本発明の一態様は、上述の編集装置であって、前記表示制御部は、前記第一韻律記号に基づいてアクセント核であることが示される前記文字を、アクセント核であることを表す態様により前記表示部に表示する、ことを特徴とする。

【0009】

［３］本発明の一態様は、上述の編集装置であって、低いアクセントを表す前記アクセント表示オブジェクトは、前記文字の表示における所定の高さより下部に表示される線であり、高いアクセントを表す前記アクセント表示オブジェクトは、前記所定の高さよりも上に表示される線である、ことを特徴とする。

【0010】

［４］本発明の一態様は、上述の編集装置であって、前記表示制御部は、前記文字の出現順に、当該文字に対応した前記アクセント表示オブジェクトである前記線を前記部分テキストデータ毎につないで表示する、ことを特徴とする。

【0011】

［５］本発明の一態様は、上述の編集装置であって、前記書替部は、読み又は読みの区切りの変更を示す情報の入力を受け、入力された前記情報に基づいて前記テキストデータに含まれる前記文字又は前記第二韻律記号を書替える、ことを特徴とする。

【0012】

［６］本発明の一態様は、上述の編集装置であって、前記第一韻律記号は、アクセントの上昇、又は、アクセントの下降を表し、前記第二韻律記号は、アクセントの区切り、文末、又は、ポーズを表す、ことを特徴とする。

【0013】

［７］本発明の一態様は、発話内容の読みを表す文字と、アクセントを表す第一韻律記号と、読みの区切りを表す第二韻律記号とが記述されたテキストデータに基づいて、読みを表す前記文字と、前記第二韻律記号を表す韻律表示オブジェクトとを前記テキストデータにおける出現順に表示部に表示し、前記表示部に表示されている前記文字に重畳して又は対応付けて、前記文字が表す読みのアクセントであって、前記第一韻律記号により示される前記アクセントを表すアクセント表示オブジェクトを表示する表示制御部と、前記表示部に表示されている前記文字のいずれかをアクセント核として選択する情報が入力された場合に、前記テキストデータにおいて前記第二韻律記号により区切られた前記文字及び前記第一韻律記号からなる部分テキストデータのうち、アクセント核として選択された前記文字である選択文字が含まれる前記部分テキストデータを処理対象データとし、前記処理対象データに含まれる前記第一韻律記号を、前記処理対象データにおける前記選択文字の位置に応じたアクセントを表すように書替える書替部と、前記書替部により書替えられた前記テキストデータに基づいて音響特徴量を推定する音響特徴量推定部と、前記音響特徴量推定部が推定した前記音響特徴量を用いて音声波形を推定するボコーダ部と、を備えることを特徴とする音声合成装置である。

【0014】

［８］本発明の一態様は、コンピュータを、上述したいずれかの編集装置として機能させるためのプログラムである。

【発明の効果】

【0015】

本発明によれば、音声合成処理に用いられるテキストデータに記述されている読み仮名に対するアクセントの情報を容易に編集することができる。

【図面の簡単な説明】

【0016】

【図1】本発明の実施形態による音声合成装置の機能ブロック図である。

【図2】実施形態による中間言語データに用いられる韻律記号を示す図である。

【図3】実施形態による中間言語データの例を示す図である。

【図4】従来のアクセント修正インタフェースのアクセント表示例を示す図である。

【図5】従来の修正インタフェースによるアクセント修正操作を示す図である。

【図6】実施形態によるアクセント修正インタフェースの表示例を示す図である。

【図7】実施形態によるアクセント型の決定を示す図である。

【図8】実施形態による音声合成装置の音声合成処理を示すフロー図である。

【図9】実施形態による音声合成装置の中間言語データ修正処理を示すフロー図である。

【図10】実施形態による中間言語データ修正画面の表示例を示す図である。

【図11】実施形態による中間言語データ修正画面の表示例を示す図である。

【図12】実施形態による音声合成アルゴリズムの例を示す図である。

【発明を実施するための形態】

【0017】

以下、図面を参照しながら本発明の実施形態を詳細に説明する。

【0018】

図１は、本発明の一実施形態による音声合成装置１の構成を示す図である。音声合成装置１は、編集装置の一例である。音声合成装置１は、例えば、サーバコンピュータ、パーソナルコンピュータ、タブレット端末、スマートフォン、スマートグラス、スマートウォッチ、組み込みデバイスなどにより実現することができる。音声合成装置１は、言語解析部２と、編集部３と、表示部４と、入力部５と、音声合成部６とを備える。

【0019】

言語解析部２は、日本語の仮名漢字混じり文のテキストデータを、仮名及び韻律記号を用いた中間言語に変換する。この変換は、形態素解析などの既存技術により行うことができる。以下では、日本語の仮名漢字混じり文のテキストデータを原文データと記載し、中間言語のテキストデータを中間言語データと記載する。仮名は、読みを表す文字の一例であり、モーラに対応する。中間言語データにおける読みを表す仮名を読み仮名とも記載する。本実施形態では、仮名としてカタカナを用いる場合を記載するが、ひらがな、アルファベット、発音記号を用いてもよく、仮名に代えて音素を表す記号を用いてもよい。中間言語データに用いられる韻律記号は、韻律を表す文字又は記号である。韻律を表す文字には、読みを表す文字とは異なる文字を用いる。韻律記号は、第一韻律記号と、第二韻律記号とを含む。第一韻律記号は、アクセントを表す。第二韻律記号は、例えば、アクセント句の区切り、文末、ポーズなどの読みの区切りを表す。第二韻律記号によって区切られた仮名及び第一韻律記号からなる中間言語のテキストデータを、アクセント句中間言語データと記載する。アクセント句中間言語データに含まれる読み仮名は、アクセント句に相当する。

【0020】

編集部３は、記憶部３１と、表示制御部３２と、書替部３３とを有する。編集部３は、例えば、ウェブブラウザにより提供されてもよく、コンピュータアプリケーションとして提供されてもよい。記憶部３１は、中間言語データを記憶する。記憶部３１は、原文データをさらに記憶してもよい。表示制御部３２は、読み仮名と、第二韻律記号を表す韻律表示オブジェクトとを、中間言語データにおける出現順に表示部４に表示する。韻律表示オブジェクトは、読みを表す文字の仮名とは異なる文字でもよく、記号でもよく、図形でもよい。さらに、表示制御部３２は、表示部４に表示されている読み仮名に重畳して又は対応付けて、第一韻律記号により表されるアクセントの高低を表すアクセント表示オブジェクトを表示する。加えて、表示制御部３２は、第一韻律記号によりアクセント核であることが示される読み仮名を、アクセント核であることを表す態様により表示する。具体的には、アクセント核がある読み仮名に重畳して又は対応付けて、アクセント核であることを表すアクセント核表示オブジェクトを表示してもよく、アクセント核がある位置の読み仮名の色、太さ又は背景色を、他の読み仮名と変えて表示してもよい。また、表示制御部３２は、中間言語データに対応した原文データを表示部４に表示してもよい。

【0021】

書替部３３は、表示部４に表示されている読み仮名のいずれかをアクセント核として選択するアクセント核選択情報が入力部５により入力された場合に、選択された読み仮名が含まれるアクセント句中間言語データを処理対象データとする。以下では、アクセント核として選択された読み仮名を選択文字と記載する。書替部３３は、処理対象データに含まれる第一韻律記号を、処理対象データにおける選択文字の位置に応じて決定されるアクセントを表すように変更し、中間言語データを書替える。また、書替部３３は、読み仮名の変更を示す情報の入力を受けた場合、中間言語データに含まれる読み仮名を入力された読み仮名に書替える。また、書替部３３は、読みの区切りの変更を示す情報の入力を受けた場合、入力された情報に応じて、中間言語データに含まれる第二韻律記号の位置や種類の変更、あるいは、第二韻律記号の挿入又は削除を行う。

【0022】

表示部４は、データを表示する。表示部４は、例えば、ＣＲＴ（Cathode Ray Tube）ディスプレイ、液晶ディスプレイ、有機ＥＬ（Electro Luminescence）ディスプレイ等の画像表示装置である。表示部４は、ヘッドマウントディスプレイ、網膜投影ディスプレイなどでもよい。表示部４は、画像表示装置を音声合成装置１に接続するためのインタフェースであってもよい。この場合、表示部４は、データを表示するための映像信号を生成し、自身に接続されている画像表示装置に映像信号を出力する。また、表示部４は、音声合成装置１と接続される情報処理装置にデータを表示してもよい。

【0023】

入力部５は、ユーザの指示を入力する。入力部５は、キーボード、ポインティングデバイス（マウス、タブレット等）、ボタン、タッチパネル等の既存の入力装置を用いて構成される。入力部５は、ユーザの指示を音声合成装置１に入力する際にユーザによって操作される。また、入力部５は、音声認識によりユーザの音声を入力してもよい。入力部５は、入力装置を音声合成装置１に接続するためのインタフェースであってもよい。この場合、入力部５は、入力装置においてユーザの入力に応じて生成された入力信号を音声合成装置１に入力する。また、入力部５は、音声合成装置１と接続される情報処理装置からユーザが入力した指示を受信してもよい。

【0024】

音声合成部６は、中間言語データを入力データに用いて音声合成を行う。音声合成部６には、例えば、特許文献１や非特許文献１、２に記載の技術のほか、特開２０１８－１４６８０３号公報に記載の技術や、参考文献１「橋本佳，高木信二，”深層学習に基づく統計的音声合成”，日本音響学会誌，73巻1号，2017年，p.55-62」、参考文献２「栗原清，清山信正，熊野正，”ラベリング作業を必要としないsequence-to-sequence音響特徴量推定手法の有効性”，一般社団法人電子情報通信学会，信学技報，vol.119，no.321，SP2019-37，2019年」に記載の技術を用いることができる。音声合成部６は、音響特徴量推定部６１とボコーダ部６２とを有する。音響特徴量推定部６１は、編集部３から入力した中間言語データに基づいて音響特徴量を推定する。ボコーダ部６２は、音響特徴量推定部６１が推定した音響特徴量を用いて音声波形を推定する。

【0025】

図２は、本実施形態の中間言語データに用いられる韻律記号を示す図である。図２に示す韻律記号は、参考文献３「音声入出力方式標準化専門委員会，JEITA規格 IT-4006 日本語テキスト音声合成用記号，社団法人電子情報技術産業協会，2010年，p.4-10」に記載の韻律記号を改変した情報である。韻律情報には、アクセント位置の指定、句・フレーズの区切り指定、文末イントネーションの指定、ポーズの指定などの種類がある。アクセント位置の指定を表す韻律記号には、アクセント上昇記号「＾」と、アクセント下降記号「！」がある。アクセント上昇記号「＾」は、その記号の直後の仮名（モーラ）でアクセントが上昇することを示す。アクセント下降記号「！」は、その記号の直後の仮名（モーラ）でアクセントが下降することを表す。アクセント上昇記号「＾」及びアクセント下降記号「！」は、第一韻律記号である。句・フレーズの区切りの指定には、アクセント句の区切りを表す韻律記号「＃」が用いられる。文末イントネーションの指定には、通常の文末を表す韻律記号「＝」、体言止めの文末を表す韻律記号「（」、及び、疑問の文末を表す韻律記号「？」が用いられる。ポーズの指定には、ポーズを表す韻律記号「，」が用いられる。アクセント句の区切りを表す韻律記号「＃」、通常の文末を表す韻律記号「＝」、体言止めの文末を表す韻律記号「（」、疑問の文末を表す韻律記号「？」及びポーズを表す韻律記号「，」は、読みの区切りを表す第二韻律記号である。なお、これらの韻律記号は一例であり、他の記号を用いてもよい。

【0026】

図３は、本実施形態による中間言語データの例を示す図である。図３（ａ）は、仮名漢字混じり文の原文データを示している。実際には、原文データにアクセントの高低の情報は含まれないが、図３（ａ）には、線の高低により、正しいアクセントの高低を重畳して示している。図３（ｂ）は、音声合成装置１の言語解析部２が図３（ａ）に示す原文データに形態素解析を行って得られる中間言語データを示す。例えば、言語解析部２は、原文データが示す漢字仮名交じりの文章を既存の技術によりフルコンテキストラベルデータに変換する。フルコンテキストラベルデータは、発話における音素の情報、当該音素の前後の音素の情報、当該音素のアクセント句情報などを含む。アクセント句情報は、発話において現在の音素が含まれるアクセント句に関する特徴、及び、当該アクセント句に隣接するアクセント句に関する特徴などを示す。言語解析部２は、フルコンテキストラベルデータから音素の情報を抽出し、出現順の音素が表す読み方に対応した読み仮名からなる文字列に、フルコンテキストラベルデータが示す音素やアクセント句情報に基づいて得られる韻律を表す韻律記号を付加して中間言語データを生成する。

【0027】

ユーザは、言語解析部２が生成した中間言語データが示すアクセントなどが異なる場合、中間言語データの修正を行う。音声合成装置１の編集部３は、図３（ｂ）に示す中間言語データをユーザの入力に従って修正し、図３（ｃ）に示す中間言語データを生成する。点線の箇所は、修正が行われたことを示す。音声合成装置１は、図３（ｃ）に示す修正後の中間言語データを、音声合成部６に出力する。音声合成部６は、図３（ｃ）に示す中間言語データを入力に用いて音声合成を行う。

【0028】

図４は、従来の音声合成ソフトウェアにより提供されるアクセント修正インタフェースのアクセント表示例を示す図である。図４（ａ）及び図４（ｂ）に示すように、従来のアクセント修正インタフェースでは、読み仮名と、その読み仮名のアクセントの高低を表すアクセント表示オブジェクトとが異なる列に表示されている。図４（ａ）のアクセント表示オブジェクトは、アクセントの高低に対応して高い位置又は低い位置に表示される線をアクセント句ごとにつなげた線である。高い位置の線と低い位置の線との間の縦の線分は、アクセントの高低が変化することを表す。図４（ｂ）のアクセント表示オブジェクトは、アクセントの高低に対応して高い位置又は低い位置に表示される丸である。高い位置の丸と低い位置の丸との間の線分は、アクセントの高低が変化することを表す。アクセント句間の丸は間隔を空けて表示される。

【0029】

図５は、従来の修正インタフェースによるアクセント修正操作を示す図である。従来の修正インタフェースでは、ユーザは、アクセント修正対象の読み仮名ごとに、その読み仮名に対応したアクセント表示オブジェクトの位置を高い位置から低い位置へ、あるいは、低い位置から高い位置へと変更する操作を行うことによって、アクセントの修正を行っていた。例えば、図５（ａ）に示すアクセント句「アラユル」のアクセントを、図５（ｂ）に示すアクセントに変更する。この場合、ユーザはマウス等を用いて、「ア」に対応したアクセント表示オブジェクトを符号Ａ１に示すように高い位置から低い位置に修正し、「ラ」に対応したアクセント表示オブジェクトを符号Ａ２に示すように低い位置から高い位置に修正し、さらに、「ユ」に対応したアクセント表示オブジェクトを符号Ａ３に示すように低い位置から高い位置に修正していた。

【0030】

図６は、本実施形態の音声合成装置１が提供するアクセント修正インタフェースの表示例を示す図である。図６（ａ）は中間言語データ修正前の表示を示し、図６（ｂ）は中間言語データ修正後の表示を示す。本実施形態の音声合成装置１の表示制御部３２は、アクセント句に分けて読み仮名を表示するため、中間言語データを第二韻律記号により分割すし、アクセント句中間言語データを生成する。アクセント句中間言語データには、読み仮名及び第一韻律データが含まれる。表示制御部３２は、アクセント句中間言語データから読み仮名を出現順に抽出してアクセント句を取得し、さらに、中間言語データからそのアクセント句中間言語データの直後に設定されている第二韻律記号を取得する。表示制御部３２は、アクセント句中間言語データから取得したアクセント句と、そのアクセント句中間言語データの直後に設定されている第二韻律記号を表す区切りオブジェクトとを、中間言語データにおける出現順に表示する。図６（ａ）及び（ｂ）では、アクセント句「アラユル」の直後に、アクセント句の区切りを表す韻律記号「＃」に対応した区切りオブジェクト「＿」が表示されている。また、アクセント句「ゲンジツオ」の直後に、ポーズを表す韻律記号「、」に対応した区切りオブジェクト「、」が表示されている。

【0031】

さらに、表示制御部３２は、各アクセント句のアクセント核を判断する。アクセント句中間言語データにアクセント下降記号「！」が含まれる場合、アクセント核はアクセント下降記号の直前の読み仮名である。アクセント句中間言語データにアクセント下降記号が含まれない場合、アクセント核はアクセント句の最後の仮名である。表示制御部３２は、各アクセント句のアクセント核を示すアクセント核表示オブジェクトＢ１を、アクセント核がある読み仮名の上に表示する。

【0032】

参考文献４「峯松信明，"OJADとそれを用いた音声指導"，[online]，<URL:https://www.gavo.t.u-tokyo.ac.jp/~mine/japanese/acoustics/OJAD_workshop_long.pdf>」、及び、参考文献５「Hiroya Fujisaki and Keikichi Hirose，"Analysis of voice fundamental frequency contours for declarative sentences of Japanese"，1984年，[online]，<URL: https://www.jstage.jst.go.jp/article/ast1980/5/4/5_4_233/_pdf/-char/en>」には、日本語の東京方言（標準語）の高低アクセントを特定できる原理が記載されている。この原理では、アクセント句内におけるいずれのモーラにアクセント核があるかによって、そのアクセント句のモーラ毎のアクセントの高低のパターンであるアクセント型が一意に特定されることを示している。これは、（１）アクセント句の最初のモーラと２番目のモーラとはアクセントの高低が異なること、（２）アクセント核のモーラはアクセントが高く、アクセント核の次のモーラでアクセントが低くなること、（３）アクセント句において一旦アクセントが低くなると、そのアクセント句においてアクセントは上昇しないこと、という規則による。つまり、モーラ数と同じ数だけアクセント型があり、アクセント核があるモーラの位置によって、アクセント型が一意に決定される。そこで、表示制御部３２は、アクセント核に応じて定まるアクセント型のアクセントを表すアクセント表示オブジェクトＢ２を、各アクセント句の表示に重畳して表示する。

【0033】

ユーザは、アクセント句のアクセントを変更する場合、アクセント句内の読み仮名のうちいずれの読み仮名の位置にアクセント核があるかを音声合成装置１に入力する。例えば、図６（ａ）に示すアクセント句「アラユル」のアクセントを、図６（ｂ）に示すアクセントに変更する。この場合、ユーザはアクセント句「アラユル」においてアクセント核がある「ユ」の表示領域Ｂ３、又は、表示領域Ｂ３の上の領域Ｂ４をマウスによりクリックなどして選択する。表示領域Ｂ３の下の領域Ｂ５によりアクセント核の読み仮名を選択可能としてもよい。音声合成装置１の書替部３３は、アクセント核があるとして選択された読み仮名の位置に基づいて、その読み仮名が含まれるアクセント句におけるアクセント型を特定する。書替部３３は、特定したアクセント型に従って中間言語データに含まれる第一韻律記号を書替える。さらに、表示制御部３２は、書替え後の中間言語データにより、図６（ｂ）に示すようにアクセント核表示オブジェクトＢ１及びアクセント表示オブジェクトＢ２の表示を変更する。

【0034】

このように、音声合成装置１は、音声合成に用いる中間言語データに記述されているアクセントの制御を、ユーザがアクセント核の読み仮名の表示又はその上部を１クリックする事で実現する。また、音声合成装置１は、図４のように従来は２行に分けて表示していた読み仮名とアクセント表示オブジェクトを１行で表示するため、画面に多くの情報を表示できる。

【0035】

図７は、音声合成装置１によるアクセント型の決定を示す図である。図７では、アクセント句のモーラ数が５である場合を例に示している。図７（ａ）は、従来技術のアクセント修正インタフェースにより表した１型から５型のアクセント型を示す。図７（ｂ）は、１型から５型のアクセント型に対応したアクセント核を示す。図７（ｃ）は、図７（ｂ）に示すようにアクセント核が指定された場合に、音声合成装置１のアクセント修正インタフェースが表示するアクセント表示オブジェクトの例を示す。

【0036】

図７に示すように、アクセント句のアクセントの高低は、アクセント核の位置によって決まる。そこで、ユーザは、入力部５により、表示部４が表示しているアクセント句の文字列に対して、アクセント核がある読みの文字を指定する指定情報を入力する。書替部３３は、指定情報が示す読み仮名が含まれるアクセント句中間言語データを処理対象データとし、処理対象データにおいてユーザがアクセント核として指定したアクセント句内の文字の位置に基づいてアクセント型を決定する。書替部３３は、決定したアクセント型に従って、中間言語データを変更する。つまり、書替部３３は、処理対象データに含まれているアクセント上昇記号及びアクセント下降記号の記述を、決定したアクセント型に従って変更する。

【0037】

具体的には、書替部３３は、処理対象データからアクセント下降記号及びアクセント上昇記号を削除する。書替部３３は、アクセント核が最初の読み仮名である場合（１型）、最初の読み仮名の直後にアクセント下降記号を挿入する。書替部３３は、アクセント核が処理対象データにおける最初の読み仮名でも最後の読み仮名でもない場合（２型～４型）、処理対象データの１番目の読み仮名の直後にアクセント上昇記号を挿入し、さらに、アクセント核が指定された読み仮名の直後にアクセント下降記号を挿入する。書替部３３は、アクセント核が処理対象データの最後の読み仮名である場合（５型）、処理対象データの１番目の読み仮名の直後にアクセント上昇記号を挿入し、アクセント下降記号を記述しない。表示制御部３２は、書替後の処理対象データに基づきアクセント表示オブジェクトの表示を変更する。

【0038】

図８は、音声合成装置１の音声合成処理を示すフロー図である。音声合成装置１の言語解析部２は、発話内容を表す仮名漢字混じりの文章の原文データを取得する（ステップＳ１１０）。言語解析部２は、外部から原文データを受信してもよく、記録媒体から読み出してもよく、ユーザが入力部５により入力した原文データを取得してもよい。発話内容を表す文章は、１文でもよく複数文でもよい。

【0039】

言語解析部２は、取得した原文データが示す文章の形態素解析を行い、発話内容を表す文章を、読み仮名及び韻律記号を用いた文字列により記述した中間言語データに変換する（ステップＳ１２０）。言語解析部２は、中間言語データを編集部３に出力する。言語解析部２は、原文データ及び中間言語データを編集部３に出力してもよい。この場合、言語解析部２は、原文データに、原文データに含まれる各文章と、その文章に対応した中間言語データの文章とを対応づける情報を付加する。編集部３は、記憶部３１に中間言語データ及び原文データを記憶する。

【0040】

編集部３の表示制御部３２は、中間言語データを表示部４に表示する。表示制御部３２は、中間言語データに対応づけられた原文データをさらに表示部４に表示してもよい。編集部３は、ユーザが入力部５により入力した指示に従って、記憶部３１に記憶されている中間言語データを修正する（ステップＳ１３０）。詳細な処理については、図９を用いて後述する。

【0041】

編集部３は、ユーザが音声合成の指示を入力部５により入力したか否かを判定する（ステップＳ１４０）。編集部３は、音声合成の指示が入力されていないと判定した場合（ステップＳ１４０：ＮＯ）、ステップＳ１６０の処理を行う。一方、編集部３は、音声合成の指示が入力されたと判定した場合（ステップＳ１４０：ＹＥＳ）、修正された中間言語データを記憶部３１から読み出し、音声合成部６に出力する。なお、ユーザが中間言語データの一部を指定した音声合成の指示を入力部５により入力した場合、編集部３は、指定された一部の中間言語データを記憶部３１から読み出し、音声合成部６に出力する。音声合成部６は、編集部３から入力した中間言語データを用いて音声合成を行う（ステップＳ１５０）。

【0042】

音声合成装置１は、ユーザが終了を入力したか否かを判定する（ステップＳ１６０）。音声合成装置１は、終了が入力されていないと判定した場合（ステップＳ１６０：ＮＯ）、ステップＳ１３０からの処理を繰り返し、終了が入力されたと判定した場合（ステップＳ１６０：ＹＥＳ）、図８の処理を終了する。

【0043】

図９は、音声合成装置１の中間言語データ修正処理を示すフロー図である。図９は、ステップＳ１３０における音声合成装置１の詳細な処理を示す。表示制御部３２は、記憶部３１から中間言語データを読み出し、表示部４に表示する（ステップＳ２１０）。すなわち、表示制御部３２は、中間言語データを第二韻律記号によりアクセント句中間言語データに区切る。表示制御部３２は、アクセント句中間言語データに含まれる読み仮名のアクセント句と、第二韻律記号を表す韻律表示オブジェクトとを、中間言語データにおける出現順に表示部４に表示する。さらに、表示制御部３２は、各アクセント句中間言語データに含まれる第一韻律記号に基づいて、各アクセント句のアクセント核及びアクセントの高低を判断する。

【0044】

具体的には、表示制御部３２は、アクセント句中間言語データの最初の読み仮名の直後にアクセント下降記号がある場合、最初の読み仮名がアクセント核であると判断し、最初の読み仮名は高いアクセント、次の読み仮名から最後の読み仮名までは低いアクセントと判断する。

【0045】

また、表示制御部３２は、アクセント句中間言語データの２番目以降の読み仮名の直後にアクセント下降記号がある場合、アクセント下降記号の直前の読み仮名がアクセント核であると判断し、最初の読み仮名は低いアクセント、２番目からアクセント下降記号の直前の読み仮名までは高いアクセント、アクセント下降記号の次の読み仮名から最後の読み仮名までは低いアクセントと判断する。アクセント核がアクセント句中間言語データの２番目以降最後から２番目までの読み仮名にある場合、２番目の読み仮名の直前にはアクセント上昇記号がある。そこで、表示制御部３２は、アクセント上昇記号の前の読み仮名は低いアクセント、アクセント上昇記号の次の読み仮名からアクセント下降記号の直前の読み仮名までは高いアクセントと判断してもよい。

【0046】

また、表示制御部３２は、アクセント句中間言語データにアクセント下降記号がない場合、アクセント句の最後の読み仮名がアクセント核であると判断し、最初の読み仮名は低いアクセント、２番目から最後の読み仮名までは高いアクセントと判断する。最後の読み仮名がアクセント核である場合、上述のようにアクセント句中間言語データにアクセント下降記号がないが、２番目の読み仮名の直前にはアクセント上昇記号がある。そこで、表示制御部３２は、アクセント上昇記号の前の読み仮名は低いアクセント、アクセント上昇記号の次の読み仮名から第二韻律記号の直前の読み仮名までは高いアクセントと判断してもよい。

【0047】

表示制御部３２は、読み仮名に重畳して又は対応付けて、読み仮名のアクセントを表すアクセント表示オブジェクト表示する。さらに、表示制御部３２は、アクセント核であることが示される文字の表示を、アクセント核であることを表す態様により表示する。表示制御部３２は、さらに、原文データを表示部４に表示してもよい。なお、表示制御部３２は、ユーザが原文データの一部を表示対象として指定する情報を入力部５により入力した場合、表示対象の一部の原文データに対応した中間言語データについてステップＳ２１０の処理を行ってもよい。

【0048】

書替部３３は、入力部５によりアクセント核がある読み仮名を選択するアクセント核選択情報が入力されたか否かを判定する（ステップＳ２２０）。書替部３３は、アクセント核選択情報が入力されたと判定した場合（ステップＳ２２０：ＹＥＳ）、アクセント核選択情報が示す読み仮名である選択文字を含んだアクセント句中間言語データを処理対象データとする。書替部３３は、処理対象データにおける選択文字の位置に基づいてアクセント型を決定する。書替部３３は、決定したアクセント型に従って処理対象データに第一韻律記号を記述するよう、記憶部３１に記憶されている中間言語データを書替える（ステップＳ２３０）。すなわち、書替部３３は、処理対象データからアクセント下降記号及びアクセント上昇記号を削除する。書替部３３は、アクセント核が最初の読み仮名である場合、最初の読み仮名の直後にアクセント下降記号を挿入し、アクセント核が処理対象データの最後の読み仮名である場合、処理対象データの最初の読み仮名の直後にアクセント上昇記号を挿入する。書替部３３は、アクセント核が２番目以降最後から２番目までの読み仮名の場合、処理対象データの１番目の読み仮名の直後にアクセント上昇記号を挿入し、アクセント核が指定された読み仮名の直後にアクセント下降記号を挿入する。表示制御部３２は、ステップＳ２１０と同様の処理により、ステップＳ２３０における書替が行われた中間言語データを表示する（ステップＳ２４０）。

【0049】

書替部３３は、修正終了指示が入力されたか否かを判断する（ステップＳ２５０）。表示制御部３２は、修正終了指示が入力されていないと判断した場合（ステップＳ２５０：ＮＯ）、ステップＳ２２０からの処理を繰り返す。

【0050】

書替部３３は、アクセント核選択情報が入力されていないと判断した場合（ステップＳ２２０：ＮＯ）、読み仮名又は第二韻律記号の修正が入力部５により入力されたか否かを判定する（ステップＳ２６０）。書替部３３は、読み仮名又は第二韻律記号の修正が入力されたと判断した場合（ステップＳ２６０：ＹＥＳ）、入力内容に基づいて、記憶部３１に記憶されている中間言語データを修正する（ステップＳ２７０）。例えば、書替部３３は、修正対象の読み仮名と修正後の読み仮名とが入力された場合、中間言語データに対して、修正対象の読み仮名を、修正後の読み仮名に書替える修正を行う。また、書替部３３は、修正対象の第二韻律記号と移動先の位置とが入力された場合、中間言語データに対して、修正対象の第二韻律記号を移動先の位置に移動する修正を行う。書替部３３は、修正対象の第二韻律記号と、削除指示とが入力された場合、中間言語データに対して、修正対象の第二韻律記号を削除する修正を行う。また、書替部３３は、修正対象の第二韻律記号と、修正後の韻律記号の種類とが入力された場合、中間言語データに対して、修正対象の第二韻律記号を、修正後の種類の韻律記号に書替える修正を行う。書替部３３は、追加対象の第二韻律記号と、追加位置とが入力された場合、中間言語データに対して、追加位置に追加対象の第二韻律記号を挿入する修正を行う。編集部３は、ステップＳ２４０からの処理を行う。

【0051】

書替部３３が、読み仮名又は第二韻律記号の修正が入力されていないと判定した場合（ステップＳ２６０：ＮＯ）、編集部３は、入力部５により入力された内容に応じた処理を行う（ステップＳ２８０）。例えば、表示制御部３２は、ユーザが指定した原文データの一部に対応する中間言語データを表示している場合、原文データの他の一部の指定を受け、ステップＳ２１０と同様の処理を行ってもよい。編集部３は、ステップＳ２５０からの処理を行う。そして、編集部３は、ステップＳ２５０において終了が入力されたと判断した場合（ステップＳ２５０：ＹＥＳ）、図９の処理を終了する。音声合成指示を修正終了指示としてもよい。

【0052】

図１０は、音声合成装置１の中間言語データ修正画面の表示例を示す図である。表示制御部３２は、中間言語データ修正画面に、原文データに含まれる仮名漢字混じりの文を１文ずつ異なる行に並べて表示する。表示制御部３２は、各文の先頭に詳細表示ボタンＣ１を表示する。ユーザが詳細表示ボタンＣ１をマウスでクリックするなどして表示状態とした場合、表示制御部３２は、その詳細表示ボタンＣ１と同じ行に表示されている仮名漢字混じり文に対応した中間言語データを読み出し、その仮名漢字混じり文の下部に表示する。表示制御部３２は、読み出した中間言語データに含まれる読み仮名と、第二韻律記号を表す区切りオブジェクトとを中間言語データにおける出現順に表示する。さらに、表示制御部３２は、アクセント核がある読み仮名の上部に、アクセント核を表すアクセント核表示オブジェクトＣ２を表示し、アクセント句の文字列にアクセントの高低を表すアクセント表示オブジェクトＣ３を表示している。高いアクセントは、文字列の表示の中心の高さよりも高い位置の線で表され、低いアクセントは、文字列の表示の中心よりも低い位置の線で表され、アクセント表示オブジェクトＣ３は、それらの線をアクセント句の単位でつないだ線である。また、表示制御部３２は、修正前のアクセント核を示すオブジェクトＣ４をさらに示している。

【0053】

ユーザは、アクセント句のアクセントを変更する場合、そのアクセント句における正しいアクセント核の読み仮名の表示領域又はその上部の領域にカーソルを合わせ、マウスを左クリックする。また、ユーザは、他の指示を行う場合、マウスを右クリックすることによりメニューを表示する。ユーザは、表示されたメニューから文字の修正、ポーズの修正、文末の修正などを選択する。例えば、区切りオブジェクトＣ５は、通常の文末の韻律記号を表している。ユーザは、マウスにより文末の修正を選択し、変更後の文末イントネーションを選択する。これにより、書替部３３は、表示中の中間言語データに記述されている通常の文末の韻律記号を、変更後の文末イントネーションを表す韻律記号に書替える。表示制御部３２は、区切りオブジェクトＣ５を、書替後の韻律記号を表す区切りオブジェクトに変更する。また、ユーザは、再生ボタンＣ６をマウスでクリックすることにより、修正後の中間言語データを用いた音声合成を指示することができる。

【0054】

アクセント核の読み仮名の上部を左クリックすることにより各アクセント句の高低アクセントを指示する場合、読み仮名の表示上で左クリックする動作を修正する文字列の指定に使用することもできる。

【0055】

図１１は、音声合成装置１の中間言語データ修正画面の他の表示例を示す図である。表示制御部３２は、図１０と同様に、ユーザが詳細表示ボタンＣ１により表示状態とした仮名漢字混じり文に対応した中間言語データを、その仮名漢字混じり文の下部に表示する。また、表示制御部３２は、図１１における中間言語データ修正画面において、各アクセント句の先頭に文字の前に、文字の編集を指示するための編集ボタンＤ１を表示する。ユーザが、編集ボタンＤ１を入力部５により選択すると、表示制御部３２は、その編集ボタンＤ１に続くアクセント句の読み仮名を編集可能とする。書替部３３は、入力された文字によって、中間言語データの対応するアクセント句の読み仮名を置き換える。また、表示制御部３２は、アクセント核がある読み仮名の表示に、アクセント核を表すアクセント核表示オブジェクトＤ２を重畳して表示し、各読み仮名にその読み仮名のアクセントの高低を表すアクセント表示オブジェクトＤ３を表示している。高いアクセントのアクセント表示オブジェクトＤ３は、文字列の表示の中心の高さよりも高い位置の線であり、低いアクセントを表すアクセント表示オブジェクトＤ３は、文字列の表示の中心よりも低い位置の線である。図１１では、読み仮名の表示よりも上及び下にアクセント表示オブジェクトＤ３を表示している。

【0056】

続いて、音声合成部６の例を説明する。図１２は、音響特徴量生成モデル８０及び音声波形生成モデル９０を用いた音声合成アルゴリズムの一例を示す図である。音響特徴量生成モデル８０は、音響特徴量推定部６１の一例である。音響特徴量生成モデル８０は、参考文献６「Shen et al.，[online]，2018年2月，"Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions"，arXiv:1712.05884v2，インターネット<URL:https://arxiv.org/pdf/1712.05884.pdf>」に示す技術を適用したＤＮＮである。音声波形生成モデル９０は、ボコーダ部６２の一例である。音声波形生成モデル９０は、音響特徴量のデータを入力し、音声波形を出力するＤＮＮである。

【0057】

音響特徴量生成モデル８０は、エンコーダ８２及びデコーダ８５を有する。エンコーダ８２は、ＣＮＮ（Convolutional Neural Network；畳み込みニューラルネットワーク）及びＲＮＮ（Recurrent Neural Network；再帰型ニューラルネットワーク）により、入力された中間言語データが示す文章内の発話内容に、その中間言語データが示す文章内における当該発話内容の前後の文脈を考慮した文字列の特徴量を生成する。デコーダ８５は、ＲＮＮにより、エンコーダ８２が生成した特徴量と、過去に生成した音響特徴量とに基づいて、入力された中間言語データが示す発話内容に対応する音声の予測の音響特徴量を１フレームずつ生成する。

【0058】

エンコーダ８２は、文字列変換処理８１１と、畳み込みネットワーク８１２と、双方向ＬＳＴＭネットワーク８１３とにより構成される。文字列変換処理８１１では、中間言語データに用いられている読み仮名及び韻律記号それぞれを数値に変換し、中間言語をベクトル表現に変換する。畳み込みネットワーク８１２は、複数層（例えば、３層）の畳み込みレイヤが接続されたニューラルネットワークである。各畳み込みレイヤでは、中間言語のベクトル表現に対して、所定の文字数に相当する大きさの複数のフィルタにより畳み込み処理を行い、さらに、バッチ正規化及びＲｅＬＵ（Rectified Linear Units）活性化を行う。これにより、発話内容の文脈がモデル化される。例えば、３層の畳み込みレイヤのフィルタサイズは［５，０，０］、フィルタの数は５１２である。デコーダ８５に入力する文字列の特徴量を生成するために、畳み込みネットワーク８１２の出力が双方向ＬＳＴＭネットワーク８１３に入力される。双方向ＬＳＴＭネットワーク８１３は、５１２ユニット（各方向に２５６ユニット）の単一の双方向ＬＳＴＭである。双方向ＬＳＴＭネットワーク８１３により、入力されたテキストデータに記述された文章内における前後の文脈を考慮した文字列の特徴量を生成することが可能となる。ＬＳＴＭは、ＲＮＮ（Recurrent Neural Network）の一つである。

【0059】

デコーダ８５は、自己回帰ＲＮＮである。デコーダ８５は、アテンションネットワーク８５１と、前処理ネットワーク８５２と、ＬＳＴＭネットワーク８５３と、第一線形変換処理８５４と、後処理ネットワーク８５５と、加算処理８５６と、第二線形変換処理８５７とにより構成される。

【0060】

アテンションネットワーク８５１は、自己回帰ＲＮＮにアテンション機能を追加したネットワークであり、エンコーダ８２からの出力全体を１フレームごとに要約した固定長のコンテキストベクトルを出力する。アテンションネットワーク８５１は、双方向ＬＳＴＭネットワーク８１３からの出力（エンコーダ出力）を入力する。フレームごとに、要約を生成するためにエンコーダ出力からデータを抽出するときの重みは、エンコーダ出力におけるデータ位置に応じて異なっている。アテンションネットワーク８５１は、エンコーダ出力から抽出したデータに、前のデコードのタイミングで生成したコンテキストベクトルを用いて特徴を追加したデータを用いて、今回のフレームの出力となるコンテキストベクトル（アテンションネットワーク出力）を生成する。

【0061】

前処理ネットワーク８５２は、前回の時間ステップにおいて第一線形変換処理８５４が出力したデータを入力する。前処理ネットワーク８５２は、それぞれ２５６個の隠れＲｅＬＵユニットからなる完全結合された複数（例えば２つ）のレイヤを含んだニューラルネットワークである。ＲｅＬＵユニットからなるレイヤは、各ユニットの値がゼロよりも小さい場合はゼロを出力し、ゼロよりも大きい場合はそのままの値を出力する。ＬＳＴＭネットワーク８５３は、１０２４ユニットを有する複数（例えば、２層）の一方向ＬＳＴＭが結合されたニューラルネットワークであり、前処理ネットワーク８５２からの出力と、アテンションネットワーク８５１からの出力を結合したデータを入力する。フレームの音響特徴量は、前のフレームの音響特徴量の影響を受けるため、アテンションネットワーク８５１から出力された現在のフレームの特徴量に、前処理ネットワーク８５２からの出力を結合することにより、前のフレームの音響特徴量に基づく特徴を付加している。

【0062】

第一線形変換処理８５４は、ＬＳＴＭネットワーク８５３から出力されたデータを線形変換し、１フレーム分のメルスペクトログラムのデータであるコンテキストベクトルを生成する。第一線形変換処理８５４は、生成したコンテキストベクトルを、前処理ネットワーク８５２、後処理ネットワーク８５５及び加算処理８５６に出力する。

【0063】

後処理ネットワーク８５５は、複数層（例えば、５層）の畳み込みネットワークを結合したニューラルネットワークである。例えば、５層の畳み込みネットワークは、フィルタサイズが［５，０，０］、フィルタの数は１０２４である。各畳み込みネットワークでは、畳み込み処理及びバッチ正規化と、最後の層を除いてtanh活性化とを行う。後処理ネットワーク８５５からの出力は、波長変換後の全体的な品質を改善するために用いられる。加算処理８５６では、第一線形変換処理８５４が生成したコンテキストベクトルと、後処理ネットワーク８５５からの出力とを加算する。

【0064】

上記のスペクトログラムフレーム予測と並行して、第二線形変換処理８５７では、ＬＳＴＭネットワーク８５３の出力とアテンションコンテキストとの連結をスカラに投影したのちシグモイド活性化を行って、出力シーケンスが完了したかの判定に用いるストップトークン（Stop Token）を出力する。

【0065】

音響特徴量生成モデル８０は、中間言語データを入力し、フレーム毎の音響特徴量であるメルスペクトログラムを生成して音声波形生成モデル９０に出力する。音声波形生成モデル９０は、音声波形生成モデルにフレーム毎のメルスペクトログラムを入力し、時間領域波形に逆変換して音声波形データを生成し、出力する。音声波形生成モデル９０には、例えば、多層の畳み込みネットワークを利用したWaveNetを用いるが、他のボコーダを用いてもよい。推定された音声波形は、音声データにより、あるいは、スピーカーなどの音声出力部（図示せず）により出力される。

【0066】

また、音響特徴量生成モデル８０には、参考文献６に記載のTacotron 2のほか、Deep Voice 3、Transformer-based TTSなどのSequence-to-sequence + attention方式を用いることができる。Deep Voice 3は、例えば、参考文献７「Wei Ping et al.，[online]，2018年2月，"Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning"，arXiv:1710.07654v3，インターネット<URL:https://arxiv.org/pdf/1710.07654.pdf>」に記載されている。Transformer-based TTSは、例えば、参考文献８「Naihan Li et al.，[online]，2019年1月，"Neural Speech Synthesis with Transformer Network"，arXiv:1809.08895v3，インターネット<URL:https://arxiv.org/pdf/1809.08895.pdf>」に記載されている。

【0067】

なお、音声合成装置１は、中間言語データと正解の音響特徴量とを学習データとして用いた学習により音響特徴量生成モデル８０を更新する。すなわち、音響特徴量生成モデル８０は、学習データの中間言語データを入力し、メルスペクトログラムを推定する。音声合成部６は、正解の音響特徴量のメルスペクトログラムと、推定されたメルスペクトログラムとの差分が小さくなるように音響特徴量生成モデル８０を更新する。

【0068】

以上説明した実施形態の音声合成装置１によれば、音声合成部６に入力する前の中間言語データに基づいて、読みを表す文字の表示にオーバーレイして、又は、読みを表す文字の表示位置に対応した周辺位置に、アクセント核、高低アクセント、アクセント区切り位置、フレーズ区切り位置、読点、文末情報（通常、体言止め、疑問形等）などを表すオブジェクトを表示し、それらを修正可能なユーザーインターフェースを提供することができる。そのため、音声合成装置１は、読みを表す文字の表示と別の操作により、高低アクセントの情報を表示させる必要がない。また、ユーザは、アクセント核の指定を入力することにより、音声合成装置１は、指定されたアクセント核により決まる高低アクセントとなるように中間言語データの記述を変更する。よって、ユーザが読みを表す文字ごとにアクセントを指定する必要がない。

【0069】

アクセント核は、発声において意識的にピッチを上げたり下げたりする部分である。そのため、アクセント核は英語のストレスアクセントのように、直感的に明示しやすい。ユーザが、このアクセントと意識した部分をクリックするのみで、音声合成装置１は、アクセント句の高低アクセントを決定する。よって、音声合成装置１は、ユーザが簡単にアクセント修正作業を行えるように支援することができる。なお、上記実施形態において音声合成装置１は、アクセント表示オブジェクトを読み仮名に重畳して表示しているが、アクセント表示オブジェクトを読み仮名と異なる行に表示してもよい。この場合、音声合成装置１は、読み仮名が表す読みと対応付けて、その読みの高低のアクセントを表すアクセント表示オブジェクトを表示する。

【0070】

なお、上述の音声合成装置１は、内部にコンピュータシステムを有している。そして、音声合成装置１の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、ＣＰＵ（central processing unit）及び各種メモリやＯＳ（Operation System）、周辺機器等のハードウェアを含むものである。また、音声合成装置１の機能の全て又は一部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されてもよい。

【0071】

また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ウェブページ提供環境（あるいは表示環境）も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

【0072】

音声合成装置１は、例えば、１台以上のコンピュータ装置により実現することができる。音声合成装置１が複数台のコンピュータ装置により実現される場合、いずれの機能部をいずれのコンピュータ装置により実現するかは任意とすることができる。例えば、編集部３と、音声合成部６とを異なるコンピュータ装置により実現してもよい。また、編集部３、又は、言語解析部２及び編集部３を、音声合成装置１の外部の編集装置により実現してもよい。

【0073】

以上説明した実施形態によれば、編集装置は、表示制御部と、書替部とを有する。表示制御部は、発話内容の読みを表す文字と、アクセントを表す第一韻律記号と、読みの区切りを表す第二韻律記号とが記述されたテキストデータに基づいて、読みを表す文字と、第二韻律記号を表す韻律表示オブジェクトとをテキストデータにおける出現順に表示部に表示する。さらに、表示制御部は、表示部に表示されている文字に重畳して又は対応付けて、文字が表す読みのアクセントを表すアクセント表示オブジェクトを表示する。文字が表す読みのアクセントは、第一韻律記号により示される。表示制御部は、第一韻律記号に基づいてアクセント核であることが示される文字を、アクセント核であることを表す態様により表示部に表示してもよい。書替部は、表示部に表示されている文字のいずれかをアクセント核として選択する情報が入力された場合に、第二韻律記号により区切られた文字及び第一韻律記号からなる部分テキストデータのうち、アクセント核として選択された文字である選択文字が含まれる部分テキストデータを処理対象データとし、処理対象データに含まれる第一韻律記号を、処理対象データにおける選択文字の位置に応じたアクセントを表すように書替える。部分テキストデータは、例えば、実施形態のアクセント句中間言語データである。表示制御部は、書替部が書替えたテキストデータに基づいて表示部への表示を更新する。

【0074】

低いアクセントを表すアクセント表示オブジェクトは、文字の表示の中心の高さなど所定の高さより下部に表示される線であり、高いアクセントを表すアクセント表示オブジェクトは、所定の高さよりも上に表示される線である。表示制御部は、文字の出現順に、当該文字に対応したアクセント表示オブジェクトである線を部分テキストデータ毎につないで表示してもよい。また、書替部は、読み方又は読みの区切りの変更を示す情報の入力を受け、入力された情報に基づいてテキストデータに含まれる文字又は第二韻律記号を書替えてもよい。

【0075】

第一韻律記号は、アクセントの上昇、又は、アクセントの下降を表し、第二韻律記号は、アクセントの区切り、文末、又は、ポーズを表す。

【0076】

音声合成装置が、上記の編集装置の機能を有してもよい。音声合成装置は、書替部により書替えられたテキストデータに基づいて音響特徴量を推定する音響特徴量推定部と、音響特徴量推定部が推定した音響特徴量を用いて音声波形を推定するボコーダ部とを備える。

【0077】

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

【符号の説明】

【0078】

１…音声合成装置
２…言語解析部
３…編集部
３１…記憶部
３２…表示制御部
３３…書替部
４…表示部
５…入力部
６…音声合成部
６１…音響特徴量推定部
６２…ボコーダ部

【図1】