特開2022-37815 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧 ▶ 一般財団法人ＮＨＫエンジニアリングシステムの特許一覧

特開2022-37815韻律記号推定学習装置、韻律記号推定装置及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022037815

(43)【公開日】2022-03-09

(54)【発明の名称】韻律記号推定学習装置、韻律記号推定装置及びプログラム

(51)【国際特許分類】

G10L 15/06 20130101AFI20220302BHJP

G10L 13/10 20130101ALI20220302BHJP

G10L 15/16 20060101ALI20220302BHJP

G06F 40/44 20200101ALI20220302BHJP

【ＦＩ】

G10L15/06 300C

G10L13/10 113Z

G10L15/16

G06F40/44

【審査請求】未請求

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2020142157

(22)【出願日】2020-08-25

(71)【出願人】

【識別番号】000004352

【氏名又は名称】日本放送協会

(71)【出願人】

【識別番号】591053926

【氏名又は名称】一般財団法人ＮＨＫエンジニアリングシステム

(74)【代理人】

【識別番号】100121119

【弁理士】

【氏名又は名称】花村泰伸

(72)【発明者】

【氏名】清山信正

(72)【発明者】

【氏名】栗原清

(72)【発明者】

【氏名】熊野正

(72)【発明者】

【氏名】今井篤

【テーマコード（参考）】

5B091

【Ｆターム（参考）】

5B091EA01

(57)【要約】（修正有）

【課題】テキスト及び音声信号から、アクセントだけでなくポーズ等を含む韻律記号を推定する。
【解決手段】韻律記号推定学習装置１において、、前処理部１１と、統計モデル１３を含む韻律記号推定学習部１２と、を備える。前処理部１１は、韻律記号推定学習用音声コーパスのテキストに対する言語分析処理により、韻律記号を付与して正解ラベルを作成し、教師データを作成し、１文字分前方へシフトして正解データを作成し、正解ラベルの所定の韻律記号を削除する等して入力ラベルを作成し、入力文字データを作成し、テキストに対応する音声信号から入力音響データを作成する。韻律記号推定学習部１２は、統計モデル１３を用いて、入力文字データ、入力音響データ及び教師データから推定データを求め、推定データと正解データとの間の誤差が小さくなるように、統計モデル１３を学習する。
【選択図】図１

【特許請求の範囲】

【請求項1】

予め設定された韻律記号推定学習用音声コーパスを用いて、韻律記号付き文字列を推定するための統計モデルを学習する韻律記号推定学習装置において、
前記韻律記号推定学習用音声コーパスが格納されたメモリと、
前記メモリから、前記韻律記号推定学習用音声コーパスのテキスト及び前記テキストに対応する音声信号を読み出し、前記テキストに対して所定の前処理を行うことで、正解ラベル、教師データ、正解データ、入力ラベル及び入力文字データをそれぞれ作成すると共に、前記音声信号に対して所定の前処理を行い、入力音響データを作成する前処理部と、
前記統計モデルを用いて、前記前処理部により作成された前記入力文字データ、前記入力音響データ及び前記教師データから推定データを求め、前記推定データと、前記前処理部により作成された前記正解データとの間の誤差が小さくなるように、前記統計モデルを学習する韻律記号推定学習部と、を備え、
前記前処理部は、
前記テキストの読み仮名を求め、前記読み仮名に韻律記号を付与することで前記正解ラベルを作成する正解ラベル作成部と、
前記正解ラベル作成部により作成された前記正解ラベルを構成する前記読み仮名及び前記韻律記号のそれぞれを番号に変換し、所定の最大文字列長となるように、前記番号の並びで表した前記教師データを作成する教師データ作成部と、
前記教師データ作成部により作成された前記教師データの前記並びをシフトし、前記正解データを作成する正解データ作成部と、
前記正解ラベル作成部により作成された前記正解ラベルを構成する前記読み仮名及び前記韻律記号のうち、所定種類の前記韻律記号を削除し、所定種類の前記韻律記号を所定の韻律記号に置き換え、前記入力ラベルを作成する入力ラベル作成部と、
前記入力ラベル作成部により作成された前記入力ラベルを構成する前記読み仮名及び前記韻律記号のそれぞれを前記番号に変換し、所定の最大文字列長となるように、前記番号の並びで表した前記入力文字データを作成する入力文字データ作成部と、
前記音声信号からフレーム単位の音響特徴量を求め、所定の最大フレーム数となるように、前記音響特徴量の前記入力音響データを作成する入力音響データ作成部と、
を備えたことを特徴とする韻律記号推定学習装置。

【請求項2】

請求項１に記載の韻律記号推定学習装置において、
前記統計モデルを、アテンション構造付きのseq2seq（sequence to sequence）モデルのディープニューラルネットワークとし、
前記統計モデルは、
前記前処理部から前記入力文字データ及び前記入力音響データを入力して符号化を行うことで、文字時系列出力encoderg_outputs及び音響時系列出力encodera_outputsを求めるエンコーダ部と、
前記エンコーダ部から前記文字時系列出力encoderg_outputs及び前記音響時系列出力encodera_outputsを入力すると共に、前記前処理部から前記教師データを入力して復号を行うことで、前記文字時系列出力encoderg_outputs及び前記音響時系列出力encodera_outputsに基づきアテンションを求め、前記アテンション及び前記教師データに基づき前記推定データを求めるデコーダ部と、
を備えたことを特徴とする韻律記号推定学習装置。

【請求項3】

請求項１に記載の韻律記号推定学習装置において、
前記統計モデルを、アテンション構造付きのseq2seq（sequence to sequence）モデルのディープニューラルネットワークとし、
前記統計モデルは、
前記前処理部から前記入力文字データ及び前記入力音響データを入力して符号化を行うことで、文字時系列出力encoderg_outputs及び音響時系列出力encodera_outputsを求めると共に、前記符号化に伴う内部状態及び最終状態を、それぞれ文字内部状態state_c及び文字最終状態state_hとして求めるエンコーダ部と、
前記エンコーダ部から前記文字内部状態state_c及び前記文字最終状態state_hを入力し、前記文字内部状態state_c及び前記文字最終状態state_hを、復号を行う際の再帰型ニューラルネットワークの初期状態として使用し、
前記エンコーダ部から前記文字時系列出力encoderg_outputs及び前記音響時系列出力encodera_outputsを入力すると共に、前記前処理部から前記教師データを入力して前記復号を行うことで、前記教師データに基づき前記再帰型ニューラルネットワークを用いて復号化時系列出力decoder_outputsを求め、前記文字時系列出力encoderg_outputs及び前記音響時系列出力encodera_outputsに基づき第１のアテンションを求め、前記第１のアテンション及び前記復号化時系列出力decoder_outputsに基づき第２のアテンションを求め、前記第１のアテンション、前記第２のアテンション及び前記復号化時系列出力decoder_outputsに基づき前記推定データを求めるデコーダ部と、
を備えたことを特徴とする韻律記号推定学習装置。

【請求項4】

請求項１に記載の韻律記号推定学習装置において、
前記統計モデルを、アテンション構造付きのseq2seq（sequence to sequence）モデルのディープニューラルネットワークとし、
前記統計モデルは、
前記前処理部から前記入力文字データ及び前記入力音響データを入力して符号化を行うことで、文字時系列出力encoderg_outputs及び音響時系列出力encodera_outputsを求めると共に、前記符号化に伴う内部状態及び最終状態を、それぞれ文字内部状態state_c及び文字最終状態state_hとして求めるエンコーダ部と、
前記エンコーダ部から前記文字内部状態state_c及び前記文字最終状態state_hを入力し、前記文字内部状態state_c及び前記文字最終状態state_hを、復号を行う際の再帰型ニューラルネットワークの初期状態として使用し、
前記エンコーダ部から前記文字時系列出力encoderg_outputs及び前記音響時系列出力encodera_outputsを入力すると共に、前記前処理部から前記教師データを入力して前記復号を行うことで、前記教師データに基づき前記再帰型ニューラルネットワークを用いて復号化時系列出力decoder_outputsを求め、前記文字時系列出力encoderg_outputs及び前記復号化時系列出力decoder_outputsに基づき第１のアテンションを求め、前記音響時系列出力encodera_outputs及び前記復号化時系列出力decoder_outputsに基づき第２のアテンションを求め、前記第１のアテンション、前記文字時系列出力encoderg_outputs、前記第２のアテンション、前記音響時系列出力encodera_outputs及び前記復号化時系列出力decoder_outputsに基づき前記推定データを求めるデコーダ部と、
を備えたことを特徴とする韻律記号推定学習装置。

【請求項5】

請求項２から４までのいずれか一項に記載の韻律記号推定学習装置において、
前記エンコーダ部は、
前記入力音響データに対して前記符号化を行うことで前記音響時系列出力encodera_outputsを求める際に、
前記入力音響データに対する双方向再帰型ニューラルネットワーク（Bidirectional LSTM）の演算、及び前記演算により得られた前記音響時系列出力encodera_outputsに対する平均プーリング演算（AveragePooling1D）の処理を所定のＮ回行い（Ｎは２以上の整数）、前記音響時系列出力encodera_outputsにおけるフレーム数を減少させる、ことを特徴とする韻律記号推定学習装置。

【請求項6】

請求項３に記載の韻律記号推定学習装置において、
前記デコーダ部は、
前記第２のアテンションを求める際に、前記第１のアテンション及び前記復号化時系列出力decoder_outputsをそれぞれの全結合層（Dense）に入力し、それぞれの前記全結合層の出力の行列積（Dot）を演算し、前記行列積の結果にスケーリング因子sqrtの逆数を乗算（ScaleMul）することで、前記第２のアテンションを求める、ことを特徴とする韻律記号推定学習装置。

【請求項7】

請求項１から６までのいずれか一項に記載の韻律記号推定学習装置により学習された統計モデルを用いて、音声コーパスから韻律記号付き文字列を推定する韻律記号推定装置であって、
前記音声コーパスが格納されたメモリと、
前記メモリから、前記音声コーパスのテキスト及び前記テキストに対応する音声信号を読み出し、前記テキストに対して所定の前処理を行い、正解ラベル、入力ラベル及び入力文字データを作成すると共に、前記音声信号に対して所定の前処理を行い、入力音響データを作成し、前記テキストの文頭に対応する番号を文頭データとして出力する前処理部と、
前記統計モデルを用いて、前記前処理部により作成された前記入力文字データ及び前記入力音響データ、並びに前記前処理部により出力された前記文頭データから、前記文頭データの次のデータを推定し、さらにその次のデータを順次推定することで、推定データを求める推定部と、
前記推定部により推定された前記推定データを構成する番号のそれぞれを読み仮名及び韻律記号に変換し、前記韻律記号付き文字列の推定ラベルを求める番号／ラベル変換部と、を備え、
前記前処理部は、
前記テキストの前記読み仮名を求め、前記読み仮名に前記韻律記号を付与することで前記正解ラベルを作成する正解ラベル作成部と、
前記正解ラベル作成部により作成された前記正解ラベルを構成する前記読み仮名及び前記韻律記号のうち、所定種類の前記韻律記号を削除し、所定種類の前記韻律記号を所定の韻律記号に置き換え、前記入力ラベルを作成する入力ラベル作成部と、
前記入力ラベル作成部により作成された前記入力ラベルを構成する前記読み仮名及び前記韻律記号のそれぞれを番号に変換し、所定の最大文字列長となるように、前記番号の並びで表した前記入力文字データを作成する入力文字データ作成部と、
前記音声信号からフレーム単位の音響特徴量を求め、所定の最大フレーム数となるように、前記音響特徴量の前記入力音響データを作成する入力音響データ作成部と、
前記テキストの文頭に対応する番号を文頭データとして出力する文頭データ出力部と、
を備えたことを特徴とする韻律記号推定装置。

【請求項8】

コンピュータを、請求項１から６までのいずれか一項に記載の韻律記号推定学習装置として機能させるためのプログラム。

【請求項9】

コンピュータを、請求項７に記載の韻律記号推定装置として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、テキスト及び音声信号を用いて韻律記号を推定する統計モデルを学習する韻律記号推定学習装置、統計モデルを用いてテキスト及び音声信号から韻律記号を推定する韻律記号推定装置、及びプログラムに関する。

【背景技術】

【0002】

従来、統計的な情報を用いて、任意のテキストに対し音声を合成する技術が知られている。このテキスト音声合成を高品質に実現するためには、事前準備として、音声信号、その発話内容のテキストの読み仮名、及び、アクセント、ポーズ等の韻律に関する情報（以下、「韻律記号」という。）を多量に用意しておく必要がある。

【0003】

多量の音声信号に対して読み仮名及び韻律記号を正しく付与するには、アクセント、ポーズ等の韻律を正確に聞き分けることができるアナウンサー等の専門家による作業が必要となり、コストがかかるという問題があった。

【0004】

この問題を解決するために、音声信号に対するアクセント型を判定する技術が提案されている（例えば、非特許文献１を参照）。

【0005】

非特許文献１の技術は、発話の音声信号に対する文章をひらがなで表現し、単語毎にアクセント型の数値を付記した正解ラベルと、音声信号をフレーム単位で切り出し音響分析して得られる音響特徴量とを事前に文章毎に作成しておく。そして、当該技術は、アクセント型の数値を「？」記号に置換したラベルと、フレーム単位の音響特徴量とを入力し、アクセント型の数値を付記した正解ラベルを出力及び推定するＤＮＮ（Deep Neural Network）を用いたモデルを学習する。

【0006】

このモデルは、seq2seq（sequence to sequence）で構成される。seq2seqは、ＲＮＮを用いたエンコーダ（encoder）部及びデコーダ（decoder）部から構成されたニューラルネットワークのモデルである。

【0007】

エンコーダ部は、ラベル及び音響特徴量を入力し、それぞれ符号化を行う。デコーダ部は、符号化データを用いて作成した２次元のアテンション（attention）を重み付け加算等することで、復号を行う。そして、デコーダ部により復号された出力データと正解ラベルとの間の誤差が最小となるように、モデルの学習が行われる。

【0008】

一方、テキストに対してポーズを付与する技術が提案されている（例えば、特許文献１を参照）。

【0009】

特許文献１の技術は、テキストに対して、当該テキストを構成する単語の並び、当該単語の並びに含まれる各単語に対応する品詞を表すラベル、及び、単語の直後のポーズの有無を表すラベルが付与された品詞及びポーズラベル付きテキストを学習テキストとする。そして、当該技術は、品詞及びポーズの有無で構成された２組の系列をＮ－ｇｒａｍモデルによってモデル化したポーズ付与モデルを学習する。

【0010】

また、特許文献１の技術は、学習されたポーズ付与モデルを用いて、テキストに対し、当該テキストを構成する単語の並び、及び当該単語の並びに含まれる各単語に対応する品詞を表すラベルが付与された品詞ラベル付きテキストについて、最尤となる２組の系列を探索する。そして、当該技術は、最尤となる２組の系列に含まれるポーズの有無を、品詞ラベル付きテキストに付与する。

【先行技術文献】

【特許文献】

【0011】

【特許文献1】特許第５９８０１４３号公報

【非特許文献】

【0012】

【非特許文献1】Interspeech.2018-1381, 1284-1287, 2018/09/2-6, “Sequence-to-Sequence Neural Network Model with 2D Attention for Learning Japanese Pitch Accents”, Antoine Bruguier, Heiga Zen, Arkady Arkhangorodsky

【発明の概要】

【発明が解決しようとする課題】

【0013】

前述の非特許文献１の技術では、２次元のアテンションを作成するために、入力ラベル及び入力音響特徴量をそれぞれ符号化したデータ（入力ラベル符号化データ、入力音響特徴量符号化データ）が用いられる。具体的には、２次元のアテンションは、符号化の次元毎に、入力ラベル符号化データが入力音響特徴量のフレーム数分繰り返して用いられ、入力音響特徴量符号化データが入力ラベルのその数分繰り返して用いられることで作成される。

【0014】

このため、情報量は冗長となると共に、２次元のアテンションのサイズは、入力ラベル数×入力音響特徴量フレーム数×（入力ラベル符号化次元数＋入力音響特徴量フレーム符号化次元数）となり、大規模なものとなる。

【0015】

このように、前述の非特許文献１の技術では、２次元のアテンションを作成するために、膨大なメモリ及び演算量が必要となり、その実現が難しいという問題があった。さらに、この技術は、テキスト及び音声信号からアクセント型を推定するものであり、ポーズ等を含む韻律記号を推定することはできない。

【0016】

また、前述の特許文献１の技術は、音声信号の情報を考慮しておらず、テキストの情報のみを用いてポーズを付与するため、ポーズを正しく付与することができない場合があるという問題があった。また、この技術は、テキストにポーズを付与するものであり、アクセント型を推定するものではなく、ポーズ以外の韻律記号を推定するものでもない。

【0017】

このように、従来技術では、テキスト及び音声信号から、アクセントだけでなくポーズ等を含む韻律記号を同時に推定することができず、現在のところ、この問題を解決する技術は存在しない。

【0018】

そこで、本発明は前記課題を解決するためになされたものであり、その目的は、テキスト及び音声信号から、アクセントだけでなくポーズ等を含む韻律記号を推定可能な韻律記号推定学習装置、韻律記号推定装置及びプログラムを提供することにある。

【課題を解決するための手段】

【0019】

前記課題を解決するために、請求項１の韻律記号推定学習装置は、予め設定された韻律記号推定学習用音声コーパスを用いて、韻律記号付き文字列を推定するための統計モデルを学習する韻律記号推定学習装置において、前記韻律記号推定学習用音声コーパスが格納されたメモリと、前記メモリから、前記韻律記号推定学習用音声コーパスのテキスト及び前記テキストに対応する音声信号を読み出し、前記テキストに対して所定の前処理を行うことで、正解ラベル、教師データ、正解データ、入力ラベル及び入力文字データをそれぞれ作成すると共に、前記音声信号に対して所定の前処理を行い、入力音響データを作成する前処理部と、前記統計モデルを用いて、前記前処理部により作成された前記入力文字データ、前記入力音響データ及び前記教師データから推定データを求め、前記推定データと、前記前処理部により作成された前記正解データとの間の誤差が小さくなるように、前記統計モデルを学習する韻律記号推定学習部と、を備え、前記前処理部が、前記テキストの読み仮名を求め、前記読み仮名に韻律記号を付与することで前記正解ラベルを作成する正解ラベル作成部と、前記正解ラベル作成部により作成された前記正解ラベルを構成する前記読み仮名及び前記韻律記号のそれぞれを番号に変換し、所定の最大文字列長となるように、前記番号の並びで表した前記教師データを作成する教師データ作成部と、前記教師データ作成部により作成された前記教師データの前記並びをシフトし、前記正解データを作成する正解データ作成部と、前記正解ラベル作成部により作成された前記正解ラベルを構成する前記読み仮名及び前記韻律記号のうち、所定種類の前記韻律記号を削除し、所定種類の前記韻律記号を所定の韻律記号に置き換え、前記入力ラベルを作成する入力ラベル作成部と、前記入力ラベル作成部により作成された前記入力ラベルを構成する前記読み仮名及び前記韻律記号のそれぞれを前記番号に変換し、所定の最大文字列長となるように、前記番号の並びで表した前記入力文字データを作成する入力文字データ作成部と、前記音声信号からフレーム単位の音響特徴量を求め、所定の最大フレーム数となるように、前記音響特徴量の前記入力音響データを作成する入力音響データ作成部と、を備えたことを特徴とする。

【0020】

また、請求項２の韻律記号推定学習装置は、請求項１に記載の韻律記号推定学習装置において、前記統計モデルを、アテンション構造付きのseq2seq（sequence to sequence）モデルのディープニューラルネットワークとし、前記統計モデルが、前記前処理部から前記入力文字データ及び前記入力音響データを入力して符号化を行うことで、文字時系列出力encoderg_outputs及び音響時系列出力encodera_outputsを求めるエンコーダ部と、前記エンコーダ部から前記文字時系列出力encoderg_outputs及び前記音響時系列出力encodera_outputsを入力すると共に、前記前処理部から前記教師データを入力して復号を行うことで、前記文字時系列出力encoderg_outputs及び前記音響時系列出力encodera_outputsに基づきアテンションを求め、前記アテンション及び前記教師データに基づき前記推定データを求めるデコーダ部と、を備えたことを特徴とする。

【0021】

また、請求項３の韻律記号推定学習装置は、請求項１に記載の韻律記号推定学習装置において、前記統計モデルを、アテンション構造付きのseq2seq（sequence to sequence）モデルのディープニューラルネットワークとし、前記統計モデルが、前記前処理部から前記入力文字データ及び前記入力音響データを入力して符号化を行うことで、文字時系列出力encoderg_outputs及び音響時系列出力encodera_outputsを求めると共に、前記符号化に伴う内部状態及び最終状態を、それぞれ文字内部状態state_c及び文字最終状態state_hとして求めるエンコーダ部と、前記エンコーダ部から前記文字内部状態state_c及び前記文字最終状態state_hを入力し、前記文字内部状態state_c及び前記文字最終状態state_hを、復号を行う際の再帰型ニューラルネットワークの初期状態として使用し、前記エンコーダ部から前記文字時系列出力encoderg_outputs及び前記音響時系列出力encodera_outputsを入力すると共に、前記前処理部から前記教師データを入力して前記復号を行うことで、前記教師データに基づき前記再帰型ニューラルネットワークを用いて復号化時系列出力decoder_outputsを求め、前記文字時系列出力encoderg_outputs及び前記音響時系列出力encodera_outputsに基づき第１のアテンションを求め、前記第１のアテンション及び前記復号化時系列出力decoder_outputsに基づき第２のアテンションを求め、前記第１のアテンション、前記第２のアテンション及び前記復号化時系列出力decoder_outputsに基づき前記推定データを求めるデコーダ部と、を備えたことを特徴とする。

【0022】

また、請求項４の韻律記号推定学習装置は、請求項１に記載の韻律記号推定学習装置において、前記統計モデルを、アテンション構造付きのseq2seq（sequence to sequence）モデルのディープニューラルネットワークとし、前記統計モデルが、前記前処理部から前記入力文字データ及び前記入力音響データを入力して符号化を行うことで、文字時系列出力encoderg_outputs及び音響時系列出力encodera_outputsを求めると共に、前記符号化に伴う内部状態及び最終状態を、それぞれ文字内部状態state_c及び文字最終状態state_hとして求めるエンコーダ部と、前記エンコーダ部から前記文字内部状態state_c及び前記文字最終状態state_hを入力し、前記文字内部状態state_c及び前記文字最終状態state_hを、復号を行う際の再帰型ニューラルネットワークの初期状態として使用し、前記エンコーダ部から前記文字時系列出力encoderg_outputs及び前記音響時系列出力encodera_outputsを入力すると共に、前記前処理部から前記教師データを入力して前記復号を行うことで、前記教師データに基づき前記再帰型ニューラルネットワークを用いて復号化時系列出力decoder_outputsを求め、前記文字時系列出力encoderg_outputs及び前記復号化時系列出力decoder_outputsに基づき第１のアテンションを求め、前記音響時系列出力encodera_outputs及び前記復号化時系列出力decoder_outputsに基づき第２のアテンションを求め、前記第１のアテンション、前記文字時系列出力encoderg_outputs、前記第２のアテンション、前記音響時系列出力encodera_outputs及び前記復号化時系列出力decoder_outputsに基づき前記推定データを求めるデコーダ部と、を備えたことを特徴とする。

【0023】

また、請求項５の韻律記号推定学習装置は、請求項２から４までのいずれか一項に記載の韻律記号推定学習装置において、前記エンコーダ部が、前記入力音響データに対して前記符号化を行うことで前記音響時系列出力encodera_outputsを求める際に、前記入力音響データに対する双方向再帰型ニューラルネットワーク（Bidirectional LSTM）の演算、及び前記演算により得られた前記音響時系列出力encodera_outputsに対する平均プーリング演算（AveragePooling1D）の処理を所定のＮ回行い（Ｎは２以上の整数）、前記音響時系列出力encodera_outputsにおけるフレーム数を減少させる、ことを特徴とする。

【0024】

また、請求項６の韻律記号推定学習装置は、請求項３に記載の韻律記号推定学習装置において、前記デコーダ部が、前記第２のアテンションを求める際に、前記第１のアテンション及び前記復号化時系列出力decoder_outputsをそれぞれの全結合層（Dense）に入力し、それぞれの前記全結合層の出力の行列積（Dot）を演算し、前記行列積の結果にスケーリング因子sqrtの逆数を乗算（ScaleMul）することで、前記第２のアテンションを求める、ことを特徴とする。

【0025】

さらに、請求項７の韻律記号推定装置は、請求項１から６までのいずれか一項に記載の韻律記号推定学習装置により学習された統計モデルを用いて、音声コーパスから韻律記号付き文字列を推定する韻律記号推定装置であって、前記音声コーパスが格納されたメモリと、前記メモリから、前記音声コーパスのテキスト及び前記テキストに対応する音声信号を読み出し、前記テキストに対して所定の前処理を行い、正解ラベル、入力ラベル及び入力文字データを作成すると共に、前記音声信号に対して所定の前処理を行い、入力音響データを作成し、前記テキストの文頭に対応する番号を文頭データとして出力する前処理部と、前記統計モデルを用いて、前記前処理部により作成された前記入力文字データ及び前記入力音響データ、並びに前記前処理部により出力された前記文頭データから、前記文頭データの次のデータを推定し、さらにその次のデータを順次推定することで、推定データを求める推定部と、前記推定部により推定された前記推定データを構成する番号のそれぞれを読み仮名及び韻律記号に変換し、前記韻律記号付き文字列の推定ラベルを求める番号／ラベル変換部と、を備え、前記前処理部が、前記テキストの前記読み仮名を求め、前記読み仮名に前記韻律記号を付与することで前記正解ラベルを作成する正解ラベル作成部と、前記正解ラベル作成部により作成された前記正解ラベルを構成する前記読み仮名及び前記韻律記号のうち、所定種類の前記韻律記号を削除し、所定種類の前記韻律記号を所定の韻律記号に置き換え、前記入力ラベルを作成する入力ラベル作成部と、前記入力ラベル作成部により作成された前記入力ラベルを構成する前記読み仮名及び前記韻律記号のそれぞれを番号に変換し、所定の最大文字列長となるように、前記番号の並びで表した前記入力文字データを作成する入力文字データ作成部と、前記音声信号からフレーム単位の音響特徴量を求め、所定の最大フレーム数となるように、前記音響特徴量の前記入力音響データを作成する入力音響データ作成部と、前記テキストの文頭に対応する番号を文頭データとして出力する文頭データ出力部と、を備えたことを特徴とする。

【0026】

さらに、請求項８のプログラムは、コンピュータを、請求項１から６までのいずれか一項に記載の韻律記号推定学習装置として機能させることを特徴とする。

【0027】

また、請求項９のプログラムは、コンピュータを、請求項７に記載の韻律記号推定装置として機能させることを特徴とする。

【発明の効果】

【0028】

以上のように、本発明によれば、テキスト及び音声信号から、アクセントだけでなくポーズ等を含む韻律記号を推定することができる。

【図面の簡単な説明】

【0029】

【図1】本発明の実施形態による韻律記号推定学習装置の構成例を示すブロック図である。

【図2】韻律記号推定学習装置に備えた前処理部の構成例を示すブロック図である。

【図3】韻律記号推定学習装置に備えた前処理部の処理例を示すフローチャートである。

【図4】テキスト、正解ラベル等の例を説明する図である。

【図5】文脈依存ラベルの形式例を示す図である。

【図6】ステップＳ３０１の言語分析処理により作成された文脈依存ラベルのデータ構成例を説明する図である。

【図7】ラベル／番号対応表の例を示す図である。

【図8】ベースライン方式の統計モデルのネットワーク構造を示す図である。

【図9】実施例１の統計モデルのネットワーク構造を示す図である。

【図10】実施例２の統計モデルのネットワーク構造を示す図である。

【図11】実施例３の統計モデルのネットワーク構造を示す図である。

【図12】本発明の実施形態による韻律記号推定装置の構成例を示すブロック図である。

【図13】韻律記号推定装置に備えた前処理部の構成例を示すブロック図である。

【図14】韻律記号推定装置に備えた前処理部の処理例を示すフローチャートである。

【図15】推定部に備えた処理部の処理例を示すフローチャートである。

【図16】（１）は、音響特徴量としてスペクトルパラメータを利用した場合の推定実験の結果を示す図である。（２）は、音響特徴量として音源パラメータを利用した場合の推定実験の結果を示す図である。

【発明を実施するための形態】

【0030】

以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明の韻律記号推定学習装置は、韻律記号推定学習用音声コーパスから読み出したテキスト及び音声信号に対して前処理を行い、入力文字データ、入力音響データ、教師データ及び正解データを求める。そして、韻律記号推定学習装置は、入力文字データ、入力音響データ及び教師データを入力データとし、統計モデルを用いて推定データを求め、推定データが正解データと一致するように、統計モデルを学習する。

【0031】

また、本発明の韻律記号推定装置は、音声コーパスから読み出したテキスト及び音声信号に対して前処理を行い、入力文字データ、入力音響データ及び文頭データを求める。そして、韻律記号推定装置は、入力文字データ、入力音響データ及び文頭データを入力データとし、韻律記号推定学習装置により学習された統計モデルを用いて、文頭データの次のデータを推定データとして求めて出力する。韻律記号推定装置は、統計モデルを用いて、さらにその次のデータを推定データとして順次求めて出力する。

【0032】

これにより、テキスト及び音声信号から、アクセントだけでなくポーズ等を含む韻律記号を推定することができる。

【0033】

〔韻律記号推定学習装置〕
まず、韻律記号推定学習装置について説明する。図１は、本発明の実施形態による韻律記号推定学習装置の構成例を示すブロック図である。この韻律記号推定学習装置１は、メモリ１０、前処理部１１及び韻律記号推定学習部１２を備えている。

【0034】

メモリ１０には、予め設定された韻律記号推定学習用音声コーパスが格納されている。韻律記号推定学習用音声コーパスは、発話文章毎の予め設定されたテキストと、これに対応する予め設定された音声信号から構成される。テキストは、漢字仮名交じり文で構成され、音声信号は、標本化周波数が１６ｋＨｚ、変換ビット数が１６ビットで標本化されているものとする。後述する音声コーパスについても同様である。

【0035】

前処理部１１は、メモリ１０から韻律記号推定学習用音声コーパスのテキスト、及び当該テキストに対応する音声信号を読み出す。そして、前処理部１１は、テキストに基づいて所定の前処理を行い、入力文字データ、教師データ及び正解データを求める。また、前処理部１１は、テキストに対応する音声信号に基づいて所定の前処理を行い、入力音響データを求める。

【0036】

前処理部１１は、入力文字データ、入力音響データ、教師データ及び正解データを韻律記号推定学習部１２に出力する。

【0037】

ここで、前処理部１１は、メモリ１０に格納された韻律記号推定学習用音声コーパスの発話文章毎のテキスト及びこれに対応する音声信号を単位として、前処理をそれぞれ行い、入力文字データ、入力音響データ、教師データ及び正解データを求める。韻律記号推定学習用音声コーパスの発話文章毎の入力文字データ、入力音響データ、教師データ及び正解データは、韻律記号推定学習部１２の学習処理に用いられる。前処理部１１の処理の詳細については後述する。

【0038】

韻律記号推定学習部１２は、前処理部１１から入力文字データ、入力音響データ、教師データ及び正解データを入力する。そして、韻律記号推定学習部１２は、後述するseq2seqの統計モデル１３を用いて、入力文字データ、入力音響データ及び教師データから推定データを求め、推定データと正解データとの間の誤差が小さくなるように、seq2seqの統計モデル１３を学習する。

【0039】

ここで、韻律記号推定学習部１２は、韻律記号推定学習用音声コーパスの発話文章毎の入力文字データ、入力音響データ、教師データ及び正解データを単位として、seq2seqの統計モデル１３を学習する。韻律記号推定学習部１２の詳細については後述する。

【0040】

（前処理部１１）
次に、図１に示した前処理部１１について詳細に説明する。図２は、韻律記号推定学習装置１に備えた前処理部１１の構成例を示すブロック図であり、図３は、韻律記号推定学習装置１に備えた前処理部１１の処理例を示すフローチャートである。また、図４は、テキスト、正解ラベル等の例を説明する図である。

【0041】

この前処理部１１は、正解ラベル作成部３０、メモリ３１，３５、教師データ作成部３２、正解データ作成部３３、入力ラベル作成部３４、入力文字データ作成部３６及び入力音響データ作成部３７を備えている。

【0042】

（正解ラベル作成部３０）
正解ラベル作成部３０は、メモリ１０から読み出したテキストを入力し、テキストに対して言語分析処理を行い、漢字仮名交じり文のテキストから文脈依存ラベルを求める（ステップＳ３０１）。具体的には、正解ラベル作成部３０は、テキストを言語分析処理によりアクセント句単位に分割する等して、テキストの文を構成する音素毎に、音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報、総数情報等の各情報を求め、文脈依存ラベルを作成する。

【0043】

図５は、文脈依存ラベルの形式例を示す図であり、図６は、ステップＳ３０１の言語分析処理により作成された文脈依存ラベルのデータ構成例を説明する図である。図５に示す文脈依存ラベルの形式例を用いることで、図６に示す文脈依存ラベルにおいて、現在着目している音素に関する情報が１行に記述される。

【0044】

音素毎の文脈依存ラベルとしては、現在着目している音素及びこれに隣接する前後２つの音素を併せた５つの音素（p1～p5）、現在着目している音素の属するアクセント句における拍単位での位置及びアクセント核からの拍単位での位置（a1～a3）、現在着目している音素の属するアクセント句における形態素の品詞及びその活用形並びに活用型（c1～c3）、現在着目している音素の属するアクセント句に隣接するアクセント句における形態素の品詞及びその活用形並びに活用型（b1～b3，d1～d3）、現在着目している音素の属するアクセント句の拍数、アクセント核の拍単位での位置及びアクセント句のタイプ（疑問形か疑問形でないか）並びに現在着目している音素の属する呼気段落における現在着目している音素の属するアクセント句のアクセント句単位での位置及び拍単位での位置（f1～f8）、現在着目している音素の属するアクセント句に隣接するアクセント句の拍数及びアクセント核の拍単位での位置並びに現在着目している音素の属するアクセント句と隣接するアクセント句との間のポーズの有無（e1～e5，g1～g5）、現在着目している音素の属する呼気段落におけるアクセント句数及び拍数並びに発話内における現在着目している音素の属する呼気段落の呼気段落単位での位置、アクセント句単位及び拍単位での位置（i1～i8）、現在着目している音素の属する呼気段落に隣接する呼気段落のアクセント句数及び拍数（h1，h2，j1，j2）、発話内の呼気段落数、アクセント句数及び拍数（k1～k3）等が使用される。

【0045】

図６に示す文脈依存ラベルは、音韻に関わる情報及び韻律に関わる情報から構成される。具体的には、文脈依存ラベルは、図３のステップＳ３０１の言語分析処理により作成され、音素毎に、音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報及び総数情報から構成される。この例は、テキストが「あらゆる現実を、すべて自分の方へ捻じ曲げたのだ。」の場合の文脈依存ラベルである。

【0046】

言語分析処理としては、例えば以下に示すプログラムが用いられる。
“Open JTalk”，インターネット＜ＵＲＬ：http://open-jtalk.sourceforge.net/＞

【0047】

図２～図４に戻って、正解ラベル作成部３０は、ステップＳ３０１から移行して、文脈依存ラベルを用いて、テキストの読み仮名（本実施形態では、カタカナ）を求める。そして、正解ラベル作成部３０は、テキストのカタカナに対して韻律記号を付与することで、テキストの正解ラベルを作成する（ステップＳ３０２）。

【0048】

正解ラベル作成部３０は、正解ラベルを教師データ作成部３２及び入力ラベル作成部３４に出力する。後述する韻律記号の例では、正解ラベルの文頭文字は、いずれも「Ｓ」となる。

【0049】

具体的には、正解ラベル作成部３０は、文脈依存ラベルにおける音韻情報（各音素における現在の音素（p3）の時系列）を用いてカタカナを求めると共に、韻律情報（p3，a1～a3，f1～f3）を用いて韻律記号を付与することで、テキストの正解ラベルを作成する。

【0050】

尚、正解ラベル作成部３０は、文脈依存ラベルから正解ラベルを作成するようにしたが、このような自動変換では、テキストのみを用いており、音声信号が考慮されていないため、カタカナ及び韻律記号に誤りを含む可能性がある。そこで、正解ラベル作成部３０は、正解ラベルを作成した後、ユーザに対し音声信号を聴取させ正解ラベルを確認させるようにしてもよい。この場合、正解ラベル作成部３０は、ユーザ操作に従い、正解ラベルを修正する。

【0051】

韻律記号は、アクセント核、アクセント句区切り、ポーズ、文末表現、並びに文頭及び文末の記号である。韻律記号には、フレーズ区切り、サブアクセント句区切りの記号を追加するようにしてもよい。

【0052】

図４を参照して、テキストが「あらゆる現実を、すべて自分の方へ捻じ曲げたのだ。」の場合、ステップＳ３０１，Ｓ３０２により、正解ラベル「Ｓアラユ’ル／ゲンジツオ＿ス’ベテ／ジブンノホ’オエ／ネジマ’ゲタノダＮ」が作成される。

【0053】

韻律記号は、JEITA IT-4006「日本語テキスト音声合成用記号」を参考に設定したものである。韻律記号において、文頭記号を「Ｓ」、通常のイントネーションの文末記号を「Ｎ」（疑問のイントネーションの文末記号を「Ｉ」）、アクセント核の位置を「’」、アクセント句区切りを「／」、フレーズ区切りを「｜」、ポーズを「＿」で表す。

【0054】

文末のイントネーションによって、文末記号を増やすようにしてもよい。また、ポーズの長さの閾値を設定し、ポーズの長さの属する範囲によって、異なる記号を設定してもよい。また、この韻律記号は例であり、任意の記号を用いることができる。

【0055】

（メモリ３１）
メモリ３１には、ラベルと番号が対応したラベル／番号対応表が格納されている。図７は、ラベル／番号対応表の例を示す図である。このラベル／番号対応表は、韻律記号のラベル、及び当該ラベルに対応する番号から構成され、ラベル及び番号の組からなる。

【0056】

ラベルは、原則として、全てのカタカナ及び全ての韻律記号におけるそれぞれの１文字である。より詳細には、ラベルは、拍または韻律記号の単位の文字である。例えば、カタカナが拗音「ャ、ュ、ョ」または外来語で使われる小さな母音「ァ、ィ、ゥ、ェ、ォ」の場合、２文字（または３文字）で１拍のラベルとして扱われる。ラベルのカタカナは、音素及び発音記号等、読み方を表現する記号に置き換えてもよい。

【0057】

番号は、ラベルに対応して一意に割り当てられており、異なるラベルに対して同じ番号は存在しない。図７の例では、文頭記号のラベル「Ｓ」に対応する番号が「１」であり、文末記号のラベル「Ｎ」に対応する番号が「４」である。

【0058】

（教師データ作成部３２）
図２～図４に戻って、教師データ作成部３２は、正解ラベル作成部３０から正解ラベルを入力する。そして、教師データ作成部３２は、メモリ１０に格納された韻律記号推定学習用音声コーパスの全てのテキストに対応する全ての正解ラベルについて、予め、その最大文字列長を算出し、これを保持しておく（ステップＳ３０３）。

【0059】

教師データ作成部３２は、メモリ３１に格納されたラベル／番号対応表を用いて、正解ラベルを構成する全てのラベル（カタカナ及び韻律記号）のそれぞれを、対応する番号に変換することで、正解ラベルを番号の並びで表現する。

【0060】

教師データ作成部３２は、正解ラベルに対応する番号の並びの長さが最大文字列長となるように、文末記号のラベル「Ｎ」を除いた正解ラベルについて、対応する番号の並びにゼロデータ（ゼロ「０」）を詰める（付加する）ことで、教師データを作成する（ステップＳ３０４）。そして、教師データ作成部３２は、教師データを正解データ作成部３３に出力すると共に、韻律記号推定学習部１２に出力する。教師データの文頭番号は、いずれも文頭記号のラベル「Ｓ」に対応する番号「１」となる。

【0061】

図４を参照して、正解ラベルが「Ｓアラユ’ル／ゲンジツオ＿ス’ベテ／ジブンノホ’オエ／ネジマ’ゲタノダＮ」である場合、ステップＳ３０３，Ｓ３０４により、教師データ「１２・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・３０００」が作成される。

【0062】

ここで、仮に最大文字列長が正解ラベル「Ｓアラユ’ル／ゲンジツオ＿ス’ベテ／ジブンノホ’オエ／ネジマ’ゲタノダＮ」の文字列長＋２とする。また、文頭記号のラベル「Ｓ」に対応する番号を「１」、ラベル「ア」に対応する番号を「２」、ラベル「ダ」に対応する番号を「３」、文末記号のラベル「Ｎ」に対応する番号を「４」とする。

【0063】

教師データ「１２・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・３０００」は、正解ラベルにおける文頭記号のラベル「Ｓ」に対応する番号「１」、ラベル「ア」に対応する番号「２」、・・・、正解ラベルにおける文末記号のラベル「Ｎ」の１つ手前のラベル「ダ」に対応する番号「３」に加え、最大文字列長までゼロ「０」を詰めた並びである。ゼロ「０」の数は、正解ラベルの文字列長から文末記号のラベル分の１を減算した結果をＡとして、最大文字列長からＡを減算した数である。

【0064】

（正解データ作成部３３）
正解データ作成部３３は、教師データ作成部３２から教師データを入力する。そして、正解データ作成部３３は、教師データに対し、その並びを１文字分（カタカナ及び韻律記号の１記号（１データ）分）先読み（前方へシフト）することで正解データを作成する（ステップＳ３０５）。これにより、正解データは、教師データに対して１文字分未来へシフトさせた並びとなる。

【0065】

これは、統計モデル１３に教師データが１文字入力されたときに、統計モデル１３から教師データのその次の１文字が推定データとして出力されるように、韻律記号推定学習部１２が統計モデル１３を学習するためである。

【0066】

この場合、正解データ作成部３３は、シフト後の並びに対し、末尾にゼロ「０」を付加すると共に、教師データの作成の際に付加された最初のゼロ「０」を、正解ラベルの文末記号のラベル「Ｎ」に対応する番号「４」に置き換えることで、正解データを作成する。正解データ作成部３３は、正解データを韻律記号推定学習部１２に出力する。正解データには、文頭記号のラベル「Ｓ」に対応する番号「１」が含まれていない。

【0067】

図４を参照して、教師データが「１２・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・３０００」である場合、ステップＳ３０５により、次に示す正解データが作成される。正解データは、「２・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・３４０００」となる。

【0068】

正解データ「２・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・３４０００」は、教師データの並びを前方へ１文字分シフトし、最初のゼロ「０」を正解ラベルの文末記号のラベル「Ｎ」に対応する番号「４」に置き換え、末尾にゼロ「０」を付加した並びである。

【0069】

（入力ラベル作成部３４）
入力ラベル作成部３４は、正解ラベル作成部３０から正解ラベルを入力する。そして、入力ラベル作成部３４は、正解ラベルを構成するカタカナ及び韻律記号のうち、所定種類の韻律記号（韻律記号のアクセント核「’」）を削除する。また、入力ラベル作成部３４は、所定種類の韻律記号（韻律記号のアクセント句区切り「／」、フレーズ区切り「｜」及びポーズ「＿」）を韻律記号「？」に置換することで、入力ラベルを作成する（ステップＳ３０６）。入力ラベル作成部３４は、入力ラベルを入力文字データ作成部３６に出力する。

【0070】

図４を参照して、正解ラベルが「Ｓアラユ’ル／ゲンジツオ＿ス’ベテ／ジブンノホ’オエ／ネジマ’ゲタノダＮ」である場合、ステップＳ３０６により、入力ラベル「Ｓアラユル？ゲンジツオ？スベテ？ジブンノホオエ？ネジマゲタノダＮ」が作成される。

【0071】

これにより、入力ラベルは、正解ラベルにおいて、韻律記号のアクセント核「’」が削除され、韻律記号のアクセント句区切り「／」、フレーズ区切り「｜」及びポーズ「＿」が韻律記号「？」に置換された文字列となる。

【0072】

（メモリ３５）
メモリ３５には、ラベルと番号が対応したラベル／番号対応表が格納されている。ラベル／番号対応表は、図７に示したように、ラベル、及び当該ラベルに対応する番号から構成され、ラベル及び番号の組からなる。ラベル／番号対応表には、例えば図７に示した組に加え、入力ラベル作成部３４により置換された「？」及びこれに対応する番号が含まれる。

【0073】

番号は、ラベルに対応して一意に割り当てられており、異なるラベルに対して同じ番号は存在しない。

【0074】

（入力文字データ作成部３６）
入力文字データ作成部３６は、入力ラベル作成部３４から入力ラベルを入力する。そして、入力文字データ作成部３６は、メモリ１０に格納された韻律記号推定学習用音声コーパスの全てのテキストに対応する全ての入力ラベルについて、予め、その最大文字列長を算出し、これを保持しておく（ステップＳ３０７）。

【0075】

入力文字データ作成部３６は、メモリ３５に格納されたラベル／番号対応表を用いて、入力ラベルを構成する全てのラベル（カタカナ及び韻律記号）のそれぞれを、対応する番号に変換することで、入力ラベルを番号の並びで表現する。

【0076】

入力文字データ作成部３６は、入力ラベルに対応する番号の並びの長さが最大文字列長となるように、入力ラベルに対応する番号の並びにゼロ「０」を詰める（付加する）ことで、入力文字データを作成する（ステップＳ３０８）。そして、入力文字データ作成部３６は、入力文字データを韻律記号推定学習部１２に出力する。入力文字データの文頭番号は、いずれも文頭記号のラベル「Ｓ」に対応する番号「１」となる。

【0077】

図４を参照して、入力ラベルが「Ｓアラユル？ゲンジツオ？スベテ？ジブンノホオエ？ネジマゲタノダＮ」である場合、ステップＳ３０７，Ｓ３０８により、入力文字データ「１２・・・・・・・・・・・・・・・・・・・・・・・・・・・・３４０００」が作成される。

【0078】

ここで、仮に最大文字列長が入力ラベル「Ｓアラユル？ゲンジツオ？スベテ？ジブンノホオエ？ネジマゲタノダＮ」の文字列長＋３とする。また、文頭記号のラベル「Ｓ」に対応する番号を「１」、ラベル「ア」に対応する番号を「２」、ラベル「ダ」に対応する番号を「３」、文末記号のラベル「Ｎ」に対応する番号を「４」とする。

【0079】

入力文字データ「１２・・・・・・・・・・・・・・・・・・・・・・・・・・・・３４０００」は、正解ラベルにおける文頭記号のラベル「Ｓ」に対応する番号「１」、ラベル「ア」に対応する番号「２」、・・・、ラベル「ダ」に対応する番号「３」、文末記号のラベル「Ｎ」に対応する番号「４」に加え、最大文字列長までゼロ「０」を詰めた並びである。ゼロ「０」の数は、最大文字列長から正解ラベルの文字列長を減算した数である。

【0080】

入力文字データと教師データ及び正解データとを比較すると、入力文字データは、正解ラベルを構成する全てのラベルから、所定種類の韻律記号（韻律記号のアクセント核「’」）を削除し、所定種類の韻律記号（韻律記号のアクセント句区切り「／」、フレーズ区切り「｜」及びポーズ「＿」）を韻律記号「？」に置換したラベルに対応する番号を含んで構成される。これに対し、教師データは、正解ラベルを構成する全てのラベルに対応する番号のうち、文末記号のラベル「Ｎ」に対応する番号「４」を含んでいない点で、入力文字データと相違する。また、正解データは、正解ラベルを構成する全てのラベルに対応する番号のうち、文頭記号のラベル「Ｓ」に対応する番号「１」を含んでいない点で、入力文字データと相違する。

【0081】

ここで、統計モデル１３を学習するために用いる入力文字データには、アクセント核「’」、アクセント句区切り「／」、フレーズ区切り「｜」及びポーズ「＿」が反映されていない。これは、一般に、テキストを言語分析して得られるアクセント核の位置、アクセント句区切り、フレーズ区切り及びポーズは、当該テキストに対応する音声信号と必ずしも一致するとは限らないからである。

【0082】

つまり、アクセント核「’」、アクセント句区切り「／」、フレーズ区切り「｜」及びポーズ「＿」が反映されていない入力文字データと、後述する入力音響データとを、統計モデル１３を学習するために用いることで、アクセント核「’」、アクセント句区切り「／」、フレーズ区切り「｜」及びポーズ「＿」を推定可能な統計モデル１３を学習することができる。

【0083】

（入力音響データ作成部３７）
入力音響データ作成部３７は、メモリ１０から読み出したテキストに対応する音声信号を入力し、音声信号に対して音響分析処理を行い、音響特徴量を求める（ステップＳ３０９）。具体的には、入力音響データ作成部３７は、音響分析処理により音声信号からフレーム単位の信号を切り出し、フレーム単位の音響特徴量を求める。

【0084】

例えば、入力音響データ作成部３７は、音響特徴量としてスペクトルパラメータを利用する場合、人間の聴覚特性を考慮したメルスペクトログラムを算出する。メルスペクトログラムの次数は８０とし、フレームシフトは１０ｍｓとする。メルスペクトログラムを算出する音響分析処理としては、例えば以下に示すプログラムが用いられる。
“librosa.feature.melspectrogram”，インターネット＜ＵＲＬ：https://librosa.github.io/librosa/generated/librosa.feature.melspectrogram.html＞

【0085】

また、入力音響データ作成部３７は、音響特徴量として音源パラメータを利用する場合、ピッチ周波数及び有声無声判定値を算出する。ピッチ周波数の次数は１とし、フレームシフトは５ｍｓとする。ピッチ周波数を算出する音響分析処理としては、例えば以下に示すプログラムが用いられる。
“google/REAPER”，インターネット＜ＵＲＬ：https://github.com/google/REAPER＞

【0086】

また、入力音響データ作成部３７は、ピッチ周波数を対数化し、無声区間を前後の対数ピッチ周波数で補完し、文頭及び文末の無音区間について、それぞれ文頭及び文末の対数ピッチ周波数の値とする。有声無声判定値は、有声区間を１、無声及び無音区間を０とする。これらの演算を実現するために、例えば以下に示すプログラムが用いられる。
“sp-nitech/SPTK”，インターネット＜ＵＲＬ：https://github.com/sp-nitech/SPTK＞

【0087】

ここで、音響特徴量として音源パラメータを利用する場合は、スペクトルパラメータを利用する場合よりも、少ない情報で実現することができる点で有利である。しかし、音源パラメータを利用する場合は、抽出誤りが生じることがあるため、スペクトルパラメータを利用する場合よりも、精度の点で劣ることが想定される。

【0088】

入力音響データ作成部３７は、ステップＳ３０９から移行して、メモリ１０に格納された韻律記号推定学習用音声コーパスの全ての音声信号に対応する全ての音響特徴量の最大フレーム数を算出し、これを保持しておく（ステップＳ３１０）。

【0089】

入力音響データ作成部３７は、音響分析処理により求めた全ての音響特徴量の全フレームのデータを用いて、次元毎に、平均が０及び分散が１となるように、音響特徴量に対して標準化を行う。そして、入力音響データ作成部３７は、標準化した音響特徴量のフレーム数が最大フレーム数となるように、音響特徴量の末尾フレーム以降にゼロ「０」を詰める（付加する）ことで、入力音響データを作成する（ステップＳ３１１）。入力音響データ作成部３７は、入力音響データを韻律記号推定学習部１２に出力する。

【0090】

（韻律記号推定学習部１２）
次に、図１に示した韻律記号推定学習部１２について詳細に説明する。図１に示したとおり、韻律記号推定学習部１２は、統計モデル１３、減算部１４及び更新部１５を備えている。統計モデル１３は、エンコーダ部１６及びデコーダ部１７から構成される。統計モデル１３の具体例については後述する。

【0091】

エンコーダ部１６は、前処理部１１から入力文字データ及び入力音響データを入力する。そして、エンコーダ部１６は、入力文字データに対して符号化を行うことで、文字時系列出力x_g、文字最終状態state_h_g及び文字内部状態state_c_gを求める。また、エンコーダ部１６は、入力音響データに対して符号化を行うことで、音響時系列出力x_aを求める。

【0092】

エンコーダ部１６は、文字時系列出力x_g、文字最終状態state_h_g、文字内部状態state_c_g及び音響時系列出力x_aをデコーダ部１７に出力する。これらのデータのうち文字最終状態state_h_g及び文字内部状態state_c_gは、デコーダ部１７の初期状態として使用される。

【0093】

デコーダ部１７は、前処理部１１から教師データを入力すると共に、エンコーダ部１６から文字時系列出力x_g、文字最終状態state_h_g、文字内部状態state_c_g及び音響時系列出力x_aを入力する。そして、デコーダ部１７は、文字最終状態state_h_g及び文字内部状態state_c_gを、当該デコーダ部１７に備えたＬＳＴＭ（Long Short Term Memory）のニューラルネットワークにおける初期状態として使用する。

【0094】

デコーダ部１７は、文字時系列出力x_g、音響時系列出力x_a及び教師データを用いて復号を行うことで、推定データを求める。そして、デコーダ部１７は、推定データを減算部１４に出力する。ここで、デコーダ部１７は、復号により推定データを求める際に、アテンションを求める。

【0095】

減算部１４は、前処理部１１から正解データを入力すると共に、統計モデル１３から推定データを入力する。そして、減算部１４は、推定データと正解データとの間の減算処理により誤差を求め、誤差を更新部１５に出力する。

【0096】

更新部１５は、減算部１４から誤差を入力し、誤差が小さくなるように、統計モデル１３のエンコーダ部１６及びデコーダ部１７のパラメータを更新する。これにより、統計モデル１３から出力された推定データが正解データと一致するように、統計モデル１３を学習することができ、最適なパラメータが得られる。

【0097】

尚、統計モデル１３の学習及びデータを推定するためのディープニューラルネットワークを構成するために、例えば以下に示すプラットフォームが用いられる。
“TensorFlow”，インターネット＜ＵＲＬ：https://www.tensorflow.org/＞

【0098】

統計モデル１３は、例えばアテンション構造付きのseq2seqモデル（sequence to sequence + attentionモデル）で構成され、図１に示したとおり、エンコーダ部１６及びデコーダ部１７に区分される。

【0099】

アテンションとしては、例えば、以下の文献に基づいて開発されたscaled dot product attention（縮小付き内積注意機構）が用いられる。
［文献］ Minh-Thang Luong, Hieu Pham, and Christopher D Manning. “Effective approaches to attention based neural machine translation,” arXiv：1508.04025, 2015/08
［文献］ Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. “Attention Is All You Need,” arXiv：1706.03762, 2017/06

【0100】

パラメータである学習係数は、例えばＡｄａｍの最適化にて、バッチ数Ｂ＝３２、エポック数１０００、誤差逆伝播法により学習が行われる。尚、過学習を防ぐため、２０エポック連続して誤差が減少しない場合は早期停止し、誤差が最小となったときの統計モデル１３が、後述する韻律記号推定装置２に用いられる。

【0101】

以上のように、本発明の実施形態の韻律記号推定学習装置１によれば、前処理部１１は、韻律記号推定学習用音声コーパスのテキストに対して言語分析処理を行うことで文脈依存ラベルを求め、テキストのカタカナを求め、韻律記号を付与することで正解ラベルを作成する。そして、前処理部１１は、予め設定されたラベル／番号対応表を用いて、正解ラベルを構成する全てのラベル（カタカナ及び韻律記号）のそれぞれを、対応する番号に変換し、全ての正解ラベルについての最大文字列長となるように、教師データを作成し、教師データの並びを１文字分前方へシフトすることで正解データを作成する。

【0102】

前処理部１１は、正解ラベルを構成するカタカナ及び韻律記号のうち、韻律記号のアクセント核「’」を削除し、韻律記号のアクセント句区切り「／」等を記号「？」に置換することで、入力ラベルを作成する。そして、前処理部１１は、予め設定されたラベル／番号対応表を用いて、入力ラベルを構成する全てのラベル（カタカナ及び韻律記号）のそれぞれを、対応する番号に変換し、全ての入力ラベルについての最大文字列長となるように、入力文字データを作成する。

【0103】

前処理部１１は、韻律記号推定学習用音声コーパスのテキストに対応する音声信号に対して音響分析処理を行い、音響特徴量を求め、標準化した音響特徴量のフレーム数が全ての音響特徴量の最大フレーム数となるように、入力音響データを作成する。

【0104】

韻律記号推定学習部１２は、統計モデル１３を用いて、入力文字データ、入力音響データ及び教師データから推定データを求め、推定データと正解データとの間の誤差が小さくなるように、統計モデル１３を学習する。

【0105】

これにより、後述する韻律記号推定装置２は、韻律記号推定学習装置１により事前に学習された統計モデル１３を用いることで、テキスト及びこれに対応する音声信号から、当該テキストに対応する韻律記号付き文字列を推定し、これを推定ラベルとして出力することができる。したがって、テキスト及び音声信号から、アクセントだけでなくポーズ等を含む韻律記号を推定することができる。

【0106】

〔統計モデル１３の具体例〕
次に、図１に示した統計モデル１３の具体例について説明する。この統計モデル１３は、後述する統計モデル２４でもある。

【0107】

＜ベースライン方式の統計モデル１３＞
まず、ベースライン方式の統計モデル１３について説明する。このベースライン方式の統計モデル１３は、音声信号から作成した入力音響データを用いることなく、テキストから作成した入力文字データ、教師データ及び正解データのみを用いて学習が行われるＤＮＮモデルである。後述する韻律記号推定装置２において、統計モデル２４は、テキストから作成した入力文字データ及び文頭データを入力し、推定データを出力する。

【0108】

図８は、ベースライン方式の統計モデル１３のネットワーク構造を示す図である。この統計モデル１３’のエンコーダ部１６は、前処理部１１から文字入力データを入力し、ステップＳ８０１～Ｓ８０５の処理を行い、文字最終状態state_h（state_h_g）、文字内部状態state_c（state_c_g）及び文字時系列出力encoder_outputs（x_g）を作成する。そして、エンコーダ部１６は、文字最終状態state_h、文字内部状態state_c及び文字時系列出力encoder_outputsをデコーダ部１７に出力する。

【0109】

デコーダ部１７は、前処理部１１から教師データを入力すると共に、エンコーダ部１６から文字最終状態state_h、文字内部状態state_c及び文字時系列出力encoder_outputsを入力する。そして、デコーダ部１７は、ステップＳ８０６～Ｓ８１９の処理を行い、アテンション、アテンションの重み及び推定データを作成し、推定データを減算部１４に出力する。

【0110】

デコーダ部１７から出力された推定データ及び前処理部１１から出力された正解データを用いて、統計モデル１３’の学習が行われる。

【0111】

ステップＳ８０１～Ｓ８１９の各処理に対応するニューラルネットワークを構成する層により、後述する演算が行われる。

【0112】

（エンコーダ部１６／ベースライン方式）
エンコーダ部１６は、入力文字データを入力層（InputLayer）に入力し（ステップＳ８０１）、１２８次元の埋め込み（Embedding）によりベクトル化する（ステップＳ８０２）。エンコーダ部１６は、ベクトル化したデータを、双方向再帰型ニューラルネットワーク（Bidirectional LSTM（順方向及び逆方向共に隠れ層Ｉ＝１２８次））に入力し、当該ニューラルネットワークの演算を行う（ステップＳ８０３）。

【0113】

エンコーダ部１６は、順方向及び逆方向の符号化時系列出力（入力ラベルの最大文字列長Teを有する）encoder_out_forward及びencoder_out_backwardを加算し、符号化時系列出力である文字時系列出力encoder_outputs[B,Te,I]を求め、デコーダ部１７に出力する。Ｂはバッチサイズ、Ｔｅは入力ラベルの最大文字列長、Ｉは隠れ層の次元を示す。

【0114】

ここで、エンコーダ部１６は、この文字時系列出力encoder_outputs[B,Te,I]について汎化学習させるために、バッチ毎の正規化（Batch Normalization）を行い（ステップＳ８０４）、さらに、ドロップアウト率（Dropout率）０．５でドロップアウト（Dropout）を実施しておく（ステップＳ８０５）。

【0115】

また、エンコーダ部１６は、ステップＳ８０３において、順方向及び逆方向の符号化時系列出力encoder_out_forward及びencoder_out_backwardの内部状態を加算し、文字内部状態state_cを求める。さらに、エンコーダ部１６は、これらの最終状態を加算し、文字最終状態state_hを求める。そして、エンコーダ部１６は、文字最終状態state_h及び文字内部状態state_cをデコーダ部１７に出力する。文字最終状態state_h及び文字内部状態state_cは、デコーダ部１７のＬＳＴＭの初期状態に使用される。

【0116】

（デコーダ部１７／ベースライン方式）
デコーダ部１７は、エンコーダ部１６から文字時系列出力encoder_outputs[B,Te,I]を入力し、アテンションを作成する。

【0117】

デコーダ部１７は、教師データを入力層（InputLayer）に入力し（ステップＳ８０６）、入力層の出力を１２８次元の埋め込み（Embedding）によりベクトル化する（ステップＳ８０７）。デコーダ部１７は、エンコーダ部１６から文字最終状態state_h及び文字内部状態state_cを入力する。そして、デコーダ部１７は、ベクトル化したデータを、文字最終状態state_h及び文字内部状態state_cを初期状態とする再帰型ニューラルネットワーク（LSTM（隠れ層Ｉ＝１２８次））に入力し、当該ニューラルネットワークの演算を行う（ステップＳ８０８）。

【0118】

デコーダ部１７は、復号化時系列出力（正解ラベルの最大文字列長Tdを有する）decoder_outputs[B,Td,I]を求める。Ｂはバッチサイズ、Ｔｄは正解ラベルの最大文字列長、Ｉは隠れ層の次元を示す。

【0119】

ここで、デコーダ部１７は、この復号化時系列出力decoder_outputs[B,Td,I]について汎化学習させるために、バッチ毎の正規化（Batch Normalization）を行い（ステップＳ８０９）、さらに、ドロップアウト率（Dropout率）０．５でドロップアウト（Dropout）を実施しておく（ステップＳ８１０）。

【0120】

デコーダ部１７は、エンコーダ部１６から文字時系列出力encoder_outputs[B,Te,I]を入力する。そして、デコーダ部１７は、文字時系列出力encoder_outputs[B,Te,I]とステップＳ８１０にて求めた復号化時系列出力decoder_outputs[B,Td,I]とを、それぞれＬ＝１２８次の全結合層（Dense）に入力し（ステップＳ８１１，Ｓ８１２）、Ｌの軸でそれぞれの全結合層の出力の行列積（Dot）を演算する（ステップＳ８１３）。

【0121】

デコーダ部１７は、行列積の結果にスケーリング因子sqrt（Ｌ）の逆数を乗算（ScaleMul）することで、アテンション[B,Td,Te]（scaled dot product attention）を求める（ステップＳ８１４）。Ｂはバッチサイズ、Ｔｄは正解ラベルの最大文字列長、Ｔｅは入力ラベルの最大文字列長を示す。

【0122】

デコーダ部１７は、アテンション[B,Td,Te]（scaled dot product attention）に対してソフトマックス関数（Softmax）を演算することで、アテンションの重みw[B,Td,Te]を求める（ステップＳ８１５）。

【0123】

デコーダ部１７は、アテンションの重みw[B,Td,Te]及び文字時系列出力encoder_outputs[B,Te,I]の行列積（Dot）を演算することで、コンテキストcontext[B,Td,I]を求める（ステップＳ８１６）。

【0124】

デコーダ部１７は、コンテキストcontext[B,Td,I]と復号化時系列出力decoder_outputs[B,Td,I]とをコンカテネート（Concatenate）により結合することで、データ[B,Td,2I]を求める（ステップＳ８１７）。

【0125】

デコーダ部１７は、データ[B,Td,2I]に対し、双曲線正接関数（tanh）を活性化関数とするＭ＝１２８次の全結合層（tanh）に入力し（ステップＳ８１８）、全結合層の出力であるデータ[B,Td,M]に対し、メモリ３１に格納されたラベル／番号対応表に含まれる正解ラベルの異なり数Ｎ＝８７次のソフトマックス関数（Softmax）を演算し（ステップＳ８１９）、演算結果[B,Td,N]を推定データとして出力する。

【0126】

デコーダ部１７から出力された推定データと前処理部１１から出力された正解データとの間の誤差が小さくなるように、スパースなマルチクラス分類交差エントロピー関数（sparse_categorical_crossentropy）を目的関数として、統計モデル１３’の学習が行われる。

【0127】

以上のように、図８に示したベースライン方式の統計モデル１３’によれば、エンコーダ部１６は、符号化により、入力文字データに基づいて文字時系列出力encoderg_outputs[B,Te,I]を求める。また、エンコーダ部１６は、双方向再帰型ニューラルネットワーク（Bidirectional LSTM）の演算において、文字最終状態state_h及び文字内部状態state_cを求める。

【0128】

デコーダ部１７は、文字最終状態state_h及び文字内部状態state_cを、ＬＳＴＭの初期状態に使用する。また、デコーダ部１７は、復号により、教師データに基づいて復号化時系列出力decoder_outputs[B,Td,I]を求める。そして、デコーダ部１７は、文字時系列出力encoderg_outputs[B,Te,I]及び復号化時系列出力decoder_outputs[B,Td,I]に基づいて、アテンション[B,Td,Te]（scaled dot product attention）を求め、アテンション[B,Td,Te]（scaled dot product attention）に基づいて、アテンションの重みw[B,Td,Te]を求める。

【0129】

デコーダ部１７は、アテンションの重みw[B,Td,Te]、文字時系列出力encoder_outputs[B,Te,I]、及び教師データから求めた復号化時系列出力decoder_outputs[B,Td,I]に基づいて、推定データを求める。そして、推定データ及び正解データを用いて、統計モデル１３’の学習が行われる。

【0130】

尚、図８に示した統計モデル１３’が、後述する韻律記号推定装置２の統計モデル２４として機能する場合、エンコーダ部１６は後述するエンコーダ部２６として機能し、デコーダ部１７は後述するデコーダ部２７として機能する。この場合、後述するデコーダ部２７は、教師データの代わりに、後述する配列Ｄ［１：Ｔ］を順次入力する。

【0131】

また、例えばメモリ３１に格納されたラベル／番号対応表に含まれる正解ラベルの異なり数が８７の場合、後述するデコーダ部２７は、ソフトマックス関数（Softmax）の演算により８７個の演算結果を出力する。このため、デコーダ部２７は、８７個の演算結果に対してargmax関数の演算を行い、最大値をとる演算結果に対応する番号を推定データとして出力する。後述する図９～図１１についても同様である。

【0132】

＜実施例１の統計モデル１３＞
次に、実施例１の統計モデル１３について説明する。この実施例１の統計モデル１３は、前述の非特許文献１を改良した方式によるものである。実施例１の統計モデル１３は、テキストから作成した入力文字データ、音声信号から作成した入力音響データ、教師データ及び正解データを用いて学習が行われるＤＮＮモデルである。後述する韻律記号推定装置２において、統計モデル２４は、テキストから作成した入力文字データ、及び音声信号から作成した入力音響データを入力すると共に、文頭データを入力し、推定データを出力する。尚、この実施例１の統計モデル１３では、文字内部状態state_c及び文字最終状態state_hを使用しない。

【0133】

図９は、実施例１の統計モデル１３のネットワーク構造を示す図である。この統計モデル１３－１のエンコーダ部１６は、前処理部１１から入力文字データを入力し、ステップＳ９０１～Ｓ９０５の処理を行い、文字時系列出力encoderg_outputs（x_g）を作成する。また、エンコーダ部１６は、前処理部１１から入力音響データを入力し、ステップＳ９０６～Ｓ９１０の処理を行い、音響時系列出力encodera_outputs（x_a）を作成する。そして、エンコーダ部１６は、文字時系列出力encoderg_outputs及び音響時系列出力encodera_outputsをデコーダ部１７に出力する。

【0134】

デコーダ部１７は、前処理部１１から教師データを入力すると共に、エンコーダ部１６から文字時系列出力encoderg_outputs及び音響時系列出力encodera_outputsを入力する。そして、デコーダ部１７は、ステップＳ９１１～Ｓ９３２の処理を行い、アテンション、アテンションの重み及び推定データを作成し、推定データを減算部１４に出力する。

【0135】

デコーダ部１７から出力された推定データ及び前処理部１１から出力された正解データを用いて、統計モデル１３－１の学習が行われる。

【0136】

ステップＳ９０１～Ｓ９３２の各処理に対応するニューラルネットワークの層により、後述する演算が行われる。

【0137】

（エンコーダ部１６／実施例１）
エンコーダ部１６は、入力文字データを入力層（InputLayer）に入力し（ステップＳ９０１）、入力層の出力を１２８次元の埋め込み（Embedding）によりベクトル化する（ステップＳ９０２）。エンコーダ部１６は、ベクトル化したデータを、双方向再帰型ニューラルネットワーク（Bidirectional LSTM（順方向及び逆方向共に隠れ層Ｉ＝１２８次））に入力し、当該ニューラルネットワークの演算を行う（ステップＳ９０３）。

【0138】

エンコーダ部１６は、順方向及び逆方向の符号化時系列出力（入力ラベルの最大文字列長Teを有する）encoderg_out_forward及びencoderg_out_backwardを加算し、符号化時系列出力である文字時系列出力encoderg_outputs[B,Te,I]を求め、デコーダ部１７に出力する。Ｂはバッチサイズ、Ｔｅは入力ラベルの最大文字列長、Ｉは隠れ層の次元を示す。

【0139】

ここで、エンコーダ部１６は、この文字時系列出力encoderg_outputs[B,Te,I]について汎化学習させるために、バッチ毎の正規化（Batch Normalization）を行い（ステップＳ９０４）、さらに、ドロップアウト率（Dropout率）０．５でドロップアウト（Dropout）を実施しておく（ステップＳ９０５）。

【0140】

エンコーダ部１６は、入力音響データを入力層（InputLayer）に入力し（ステップＳ９０６）、入力層の出力を双方向再帰型ニューラルネットワーク（Bidirectional LSTM（順方向及び逆方向共に隠れ層Ｊ＝６４次））に入力し、当該ニューラルネットワークの演算を行う（ステップＳ９０７）。

【0141】

エンコーダ部１６は、順方向及び逆方向の符号化時系列出力（入力音響データの最大フレーム数Ｕを有する）encodera_out_forward及びencodera_out_backwardを加算し、符号化時系列出力である音響時系列出力encodera_outputs[B,U,J]を求める。Ｂはバッチサイズ、Ｕは入力音響データの最大フレーム数、Ｊは隠れ層の次元を示す。

【0142】

エンコーダ部１６は、音響時系列出力encodera_outputs[B,U,J]に対し、時系列データのための平均プーリング演算（AveragePooling1D）を行い（ステップＳ９０８）、フレーム数を１／２に減らす。

【0143】

ここで、ステップＳ９０７，Ｓ９０８の処理をＮ回繰り返し行うことにより、時系列データのフレーム数を１／２^Nに減らすことができる。Ｎは２以上の整数とする。つまり、エンコーダ部１６は、ステップＳ９０７，Ｓ９０８の処理をＮ回繰り返し、音響時系列出力encodera_outputs[B,U’,J]を求める。エンコーダ部１６は、音響時系列出力encodera_outputs[B,U’,J]をデコーダ部１７に出力する。

【0144】

Ｕ’＝Ｕ／２^Nである。Ｎは２以上の整数であり、一般的な音素長を１６０ｍ程度と想定して予め設定される。例えば音響特徴量が１０ｍｓシフトで算出された場合、１６０／１０＝１６＝２⁴であり、Ｎ＝４が用いられる。音響特徴量が５ｍｓシフトで算出された場合、１６０／５＝３２＝２⁵であり、Ｎ＝５が用いられる。

【0145】

ここで、エンコーダ部１６は、入力音響データの最大フレーム数Ｕを１／２^N倍のＵ’に減らした音響時系列出力encodera_outputs[B,U’,J]について汎化学習させるために、バッチ毎の正規化（Batch Normalization）を行い（ステップＳ９０９）、さらに、ドロップアウト率（Dropout率）０．５でドロップアウト（Dropout）を実施しておく（ステップＳ９１０）。

【0146】

このように、エンコーダ部１６は、ステップＳ９０７，Ｓ９０８の処理にて、双方向再帰型ニューラルネットワーク（Bidirectional LSTM）の演算、及び当該演算により得られた音響時系列出力encodera_outputs[B,U,J]に対する平均プーリング演算（AveragePooling1D）の処理をＮ回行うようにした。

【0147】

これにより、音響時系列出力encodera_outputs[B,U,J]の最大フレーム数ＵをＵ’＝Ｕ／２^Nに減少させることができ、音響時系列出力encodera_outputs[B,U’,J]が求めらる。したがって、以降の演算を少ないメモリにて実現することができる。

【0148】

（デコーダ部１７／実施例１）
デコーダ部１７は、エンコーダ部１６から文字時系列出力encoderg_outputs[B,Te,I]及び音響時系列出力encodera_outputs[B,U’,J]を入力し、２次元のアテンション及びアテンションの重みを作成する。

【0149】

デコーダ部１７は、エンコーダ部１６から入力した文字時系列出力encoderg_outputs[B,Te,I]=[32,100,128]に対してリシェープ（Reshape）による整形を行い、データ[B,Te×I]=[32,12800]を求める（ステップＳ９１１）。

【0150】

デコーダ部１７は、データ[B,Te×I]=[32,12800]に対してリピートベクトル（RepeatVector）により、音響時系列出力encodera_outputs[B,U’,J]のフレーム数Ｕ’分の処理を繰り返すことでデータ[B,U’,Te×I]=[32,95,12800]を求める（ステップＳ９１２）。そして、デコーダ部１７は、データ[B,U’,Te×I]=[32,95,12800]に対してリシェープ（Reshape）による整形を行い、データencoderg_outputs_mod[B,U’×Te,I]=[32,9500,128]を求める（ステップＳ９１３）。

【0151】

デコーダ部１７は、エンコーダ部１６から入力した音響時系列出力encodera_outputs[B,U’,J]=[32,95,64]に対してリシェープ（Reshape）による整形を行い、データ[B,U’×J]=[32,6080]を求める（ステップＳ９１４）。

【0152】

デコーダ部１７は、データ[B,U’×J]=[32,6080]に対してリピートベクトル（RepeatVector）により、文字時系列出力encoderg_outputs[B,Te,I]の文字数Te分の処理を繰り返すことでデータ[B,Te,U’×J]=[32,100,6080]を求める（ステップＳ９１５）。そして、デコーダ部１７は、データ[B,Te,U’×J]=[32,100,6080]に対してリシェープ（Reshape）による整形を行い、データ[B,Te,U’,J]=[32,100,95,64]を求める（ステップＳ９１６）。

【0153】

デコーダ部１７は、データ[B,Te,U’,J]=[32,100,95,64]に対してパーミュート（Permute）により軸を入れ替えることで、データ[B,U’,Te,J]=[32,95,100,64]を求める（ステップＳ９１７）。そして、デコーダ部１７は、データ[B,U’,Te,J]=[32,95,100,64]に対してリシェープ（Reshape）による整形を行い、データencodera_outputs_mod[B,U’×Te,J]=[32,9500,64]を求める（ステップＳ９１８）。

【0154】

デコーダ部１７は、ステップＳ９１３にて求めたデータencoderg_outputs_mod[B,U’×Te,I]=[32,9500,128]と、ステップＳ９１８にて求めたデータencodera_outputs_mod[B,U’×Te,J]=[32,9500,64]とをコンカテネート（Concatenate）により結合することで、２次元のアテンション[B,U’×Te,K]=[32,9500,320]を求める（ステップＳ９１９）。Ｋ＝Ｉ＋Ｊとする。

【0155】

ここで、２次元のアテンション[B,U’×Te,K]は３次元のテンソルであるが、入力音響データの最大フレーム数ＵをダウンサンプリングしたＵ’及び入力ラベルの最大文字列長Ｔeを用いている点で２次元である。つまり、２次元のアテンション[B,U’×Te,K]における２次元は、前述の非特許文献１の技術と同様に、入力音響データの最大フレーム数ＵをダウンサンプリングしたＵ’、及び入力ラベルの最大文字列長Ｔeの部分を指している。

【0156】

ここで、前述の非特許文献１の技術では、Ｕ’の部分をＵ＝１５２４として演算を行うため、浮動小数点数が３２ビット（float32bit（4bytes））にて32×1524×100×320のメモリ量を確保する場合、それだけで６ＧＢ（≒32×1524×100×320×4バイト）程度のメモリ量が必要になる。

【0157】

このため、非特許文献１の技術では、他の演算も含めるとメモリ量確保の点において、また演算速度の点において実現が難しい。

【0158】

また、非特許文献１の技術では、２次元のアテンション[B,U’×Te,K]=[32,9500,320]に対して、２次元のアテンションの重みw[B,U’×Te]を求めるが、その算出方法については記載されていない。

【0159】

２次元のアテンションの重みw[B,U’×Te]を算出する方法として、self dot productを用いる場合、非特許文献１の技術において、アテンション[B,U’×Te,K]=[32,9500,320]のＫの軸で行列積（Dot）を演算することが想定される。しかし、この方法では、アテンションの重みw[B,U’×Te,U’×Te]=[32,9500,9500]のメモリを確保する必要があり、１２ＧＢ（≒32×9500×9500×4バイト）程度のメモリ量が必要となる。

【0160】

このため、非特許文献１の技術では、前述のとおり、メモリ量確保の点において、また演算速度の点において実現が難しい。

【0161】

そこで、デコーダ部１７は、ステップＳ９１９にて求めた２次元のアテンション[B,U’×Te,K]=[32,9500,320]をＫの軸で二乗和をとって加算し（Sum Square）（ステップＳ９２０）、加算結果に対してソフトマックス関数（Softmax）を演算し、アテンションの重みw[B,U’×Te]を求める（ステップＳ９２１）。

【0162】

これにより、アテンション[B,U’×Te,K]=[32,9500,320]のＫの軸で行列積（Dot）を演算することなく、アテンションの重みw[B,U’×Te]を求めることができる。非特許文献１では、アテンションの重みw[B,U’×Te,U’×Te]のメモリを確保する必要があると想定されるが、実施例１では、アテンションの重みw[B,U’×Te]のメモリを確保すれば済む。したがって、実施例１では、以降の演算を少ないメモリにて実現することができる。

【0163】

デコーダ部１７は、アテンションの重みw[B,U’×Te]及び２次元のアテンション[B, U’×Te,K]の行列積（Dot）を演算することで、コンテキストcontext[B,K]を求める（ステップＳ９２２）。

【0164】

デコーダ部１７は、コンテキストcontext[B,K]に対してリピートベクトル（RepeatVector）により、復号化時系列出力decoder_outputsの文字数（正解ラベルの最大文字列長Td=117）分の処理を繰り返すことで、データ[B,Td,K]を求める（ステップＳ９２３）。

【0165】

デコーダ部１７は、データ[B,Td,K]をＥ＝１２８次の全結合層（Dense）に入力する（ステップＳ９２４）。

【0166】

デコーダ部１７は、教師データを入力層（InputLayer）に入力し（ステップＳ９２５）、入力層の出力をＥ＝１２８次の埋め込み（Embedding）によりベクトル化する（ステップＳ９２６）。

【0167】

デコーダ部１７は、ステップＳ９２４における全結合層の出力であるデータ[B,Td,E]と、ステップＳ９２６にてベクトル化した１２８次のデータ[B,Td,E]とをコンカテネート（Concatenate）により結合することで、データ[B,Td,2E]を求める（ステップＳ９２７）。

【0168】

デコーダ部１７は、データ[B,Td,2E]を再帰型ニューラルネットワーク（LSTM（隠れ層Ｉ＝１２８次））に入力し、当該ニューラルネットワークの演算を行う（ステップＳ９２８）。デコーダ部１７は、復号化時系列出力（正解ラベルの最大文字列長Tdを有する）decoder_outputs[B,Td,2E]を求める。

【0169】

これにより、２次元のアテンション[B,U’×Te,K]から求めたコンテキストcontext[B,K]は、教師データをＥ＝１２８次の埋め込み層でベクトル化したものと結合され、再帰型ニューラルネットワーク（LSTM（隠れ層Ｉ＝１２８次））に入力され、ＬＳＴＭの演算が行われる。

【0170】

ここで、デコーダ部１７は、この復号化時系列出力decoder_outputs[B,Td,2E]について汎化学習させるために、バッチ毎の正規化（Batch Normalization）を行い（ステップＳ９２９）、さらに、ドロップアウト率（Dropout率）０．５でドロップアウト（Dropout）を実施しておく（ステップＳ９３０）。

【0171】

デコーダ部１７は、復号化時系列出力 [B,Td,2E]に対し、双曲線正接関数（tanh）を活性化関数とするＭ＝１２８次の全結合層（tanh）に入力し（ステップＳ９３１）、全結合層の出力であるデータ[B,Td,M]に対し、メモリ３１に格納されたラベル／番号対応表に含まれる正解ラベルの異なり数Ｎ＝８７次のソフトマックス関数（Softmax）を演算し（ステップＳ９３２）、演算結果[B,Td,N]を推定データとして出力する。

【0172】

デコーダ部１７から出力された推定データと前処理部１１から出力された正解データとの間の誤差が小さくなるように、スパースなマルチクラス分類交差エントロピー関数を目的関数として、統計モデル１３－１の学習が行われる。

【0173】

以上のように、図９に示した実施例１の統計モデル１３－１によれば、エンコーダ部１６は、符号化により、入力文字データに基づいて文字時系列出力encoderg_outputs[B,Te,I]を求め、入力音響データに基づいて音響時系列出力encodera_outputs[B,U’,J]を求める。

【0174】

デコーダ部１７は、復号により、文字時系列出力encoderg_outputs[B,Te,I]及び音響時系列出力encodera_outputs[B,U’,J]に基づいて、２次元のアテンション[B,U’×Te,K]を求め、２次元のアテンション[B,U’×Te,K]に基づいて、アテンションの重みw[B,U’×Te]を求める。そして、デコーダ部１７は、アテンションの重みw[B,U’×Te]及び２次元のアテンション[B, U’×Te,K]に基づいて、コンテキストcontext[B,K]を求める。

【0175】

デコーダ部１７は、コンテキストcontext[B,K]及び教師データに基づいて、推定データを求める。そして、推定データ及び正解データを用いて、統計モデル１３－１の学習が行われる。

【0176】

これにより、入力文字データに加え、入力音響データも用いているため、図８に示したベースライン方式よりも、推定精度が高くなり、精度の高い学習を行うことができる。

【0177】

また、エンコーダ部１６は、ステップＳ９０７，Ｓ９０８の処理にて、双方向再帰型ニューラルネットワーク（Bidirectional LSTM）の演算、及び当該演算により得られた音響時系列出力encodera_outputs[B,U,J]に対する平均プーリング演算（AveragePooling1D）の処理をＮ回行い、音響時系列出力encodera_outputs[B,U’,J]を求めるようにした。

【0178】

これにより、音響時系列出力encodera_outputs[B,U,J]の最大フレーム数ＵをＵ’＝Ｕ／２^Nに減少させることができ、以降の演算を少ないメモリにて実現することができる。

【0179】

また、デコーダ部１７は、ステップＳ９２０，Ｓ９２１の処理にて、２次元のアテンション[B,U’×Te,K]=[32,9500,320]をＫの軸で二乗和をとって加算し（Sum Square）、加算結果に対してソフトマックス関数（Softmax）を演算してアテンションの重みw[B,U’×Te]を求めるようにした。

【0180】

これにより、アテンション[B,U’×Te,K]=[32,9500,320]のＫの軸で行列積（Dot）を演算することなく、アテンションの重みw[B,U’×Te]を求めることができるため、以降の演算を少ないメモリにて実現することができる。

【0181】

＜実施例２の統計モデル１３＞
次に、実施例２の統計モデル１３について説明する。この実施例２の統計モデル１３は、前述の非特許文献１を改良した方式によるものである。実施例２の統計モデル１３は、実施例１と同様に、テキストから作成した入力文字データ、音声信号から作成した入力音響データ、教師データ及び正解データを用いて学習が行われるＤＮＮモデルである。後述する韻律記号推定装置２において、統計モデル２４は、テキストから作成した入力文字データ、及び音声信号から作成した入力音響データを入力すると共に、文頭データを入力し、推定データを出力する。

【0182】

図１０は、実施例２の統計モデル１３のネットワーク構造を示す図である。この統計モデル１３－２のエンコーダ部１６は、前処理部１１から入力文字データを入力し、ステップＳ１００１～Ｓ１００５の処理を行い、文字最終状態state_h（state_h_g）、文字内部状態state_c（state_c_g）及び文字時系列出力encoderg_outputs（x_g）を作成する。また、エンコーダ部１６は、前処理部１１から入力音響データを入力し、ステップＳ１００６～Ｓ１０１０の処理を行い、音響時系列出力encodera_outputs（x_a）を作成する。そして、エンコーダ部１６は、文字最終状態state_h、文字内部状態state_c、文字時系列出力encoderg_outputs及び音響時系列出力encodera_outputsをデコーダ部１７に出力する。

【0183】

デコーダ部１７は、前処理部１１から教師データを入力すると共に、エンコーダ部１６から文字最終状態state_h、文字内部状態state_c、文字時系列出力encoderg_outputs及び音響時系列出力encodera_outputsを入力する。そして、デコーダ部１７は、ステップＳ１０１１～Ｓ１０３３の処理を行い、アテンション、アテンションの重み及び推定データを作成し、推定データを減算部１４に出力する。

【0184】

デコーダ部１７から出力された推定データ及び前処理部１１から出力された正解データを用いて、統計モデル１３－２の学習が行われる。

【0185】

ステップＳ１００１～Ｓ１０３３の各処理に対応するニューラルネットワークの層により、後述する演算が行われる。

【0186】

（エンコーダ部１６／実施例２）
エンコーダ部１６は、図９に示した実施例１の統計モデル１３－１のエンコーダ部１６によるステップＳ９０１～Ｓ９１０と同様の処理を行い、文字時系列出力encoderg_outputs[B,Te,I]及び音響時系列出力encodera_outputs[B,U’,J]を求める（ステップＳ１００１～Ｓ１０１０）。そして、エンコーダ部１６は、文字時系列出力encoderg_outputs[B,Te,I]及び音響時系列出力encodera_outputs[B,U’,J]をデコーダ部１７に出力する。

【0187】

ここで、エンコーダ部１６は、ステップＳ１００３の双方向再帰型ニューラルネットワーク（Bidirectional LSTM）の演算において、順方向及び逆方向の符号化時系列出力encoder_out_forward及びencoder_out_backwardの内部状態を加算し、文字内部状態state_cを求める。また、エンコーダ部１６は、これらの最終状態を加算し、文字最終状態state_hを求める。そして、エンコーダ部１６は、文字最終状態state_h及び文字内部状態state_cをデコーダ部１７に出力する。文字最終状態state_h及び文字内部状態state_cは、デコーダ部１７のＬＳＴＭの初期状態に使用される。

【0188】

エンコーダ部１６は、実施例１のステップＳ９０７，Ｓ９０８と同様に、ステップＳ１００７，Ｓ１００８の処理を行う。これにより、音響時系列出力encodera_outputs[B,U,J]の最大フレーム数ＵをＵ’＝Ｕ／２^Nに減少させることができ、以降の演算を少ないメモリにて実現することができる。

【0189】

（デコーダ部１７／実施例２）
デコーダ部１７は、エンコーダ部１６から文字時系列出力encoderg_outputs[B,Te,I]及び音響時系列出力encodera_outputs[B,U’,J]を入力し、２次元のアテンションを作成し、さらに、前処理部１１から教師データを入力し、アテンションの重みを作成する。

【0190】

デコーダ部１７は、図９に示した実施例１の統計モデル１３－１のデコーダ部１７によるステップＳ９１１～Ｓ９１９と同様の処理を行い、２次元のアテンション[B,U’×Te,K]を求める（ステップＳ１０１１～Ｓ１０１９）。

【0191】

デコーダ部１７は、図８に示したベースライン方式の統計モデル１３’のデコーダ部１７によるステップＳ８０６～Ｓ８１０と同様の処理を行い、復号化時系列出力decoder_outputs[B,Td,I]を求める（ステップＳ１０２０～Ｓ１０２４）。

【0192】

デコーダ部１７は、ステップＳ１０１９にて求めた２次元のアテンション[B,U’×Te,K]とステップＳ１０２４にて求めた復号化時系列出力decoder_outputs[B,Td,I]とを、それぞれＬ＝１２８次の全結合層（Dense）に入力し（ステップＳ１０２５，Ｓ１０２６）、Ｌの軸でそれぞれの全結合層の出力の行列積（Dot）を演算する（ステップＳ１０２７）。

【0193】

デコーダ部１７は、行列積の結果にスケーリング因子sqrt（Ｌ＝１２８）の逆数を乗算（ScaleMul）することで、アテンション[B,Td,U’×Te]（scaled dot product attention）を求める（ステップＳ１０２８）。

【0194】

デコーダ部１７は、アテンション[B,Td,U’×Te]（scaled dot product attention）に対してソフトマックス関数（Softmax）を演算することで、アテンションの重みw[B,Td,U’×Te]を求める（ステップＳ１０２９）。

【0195】

デコーダ部１７は、ステップＳ１０２９にて求めたアテンションの重みw[B,Td,U’×Te]及びステップＳ１０１９にて求めた２次元のアテンション[B,U’×Te,K]の行列積（Dot）を演算することで、コンテキストcontext[B,Td,K]を求める（ステップＳ１０３０）。

【0196】

ここで、前述の非特許文献１の技術では、スケーリング因子sqrtの逆数を乗算（ScaleMul）するステップＳ１０２８の処理は行っていない。このため、アテンションが大きくなりすぎて、逆伝播のソフトマックス関数（Softmax）の勾配が極端に小さくなり、アテンションの効果が得られない。

【0197】

これに対し、実施例２の統計モデル１３－２では、ステップＳ１０２８において、デコーダ部１７は、スケーリング因子sqrtの逆数を乗算（ScaleMul）することで、アテンションを求めるようにした。このため、アテンションが大きくなることはなく、逆伝播のソフトマックス関数（Softmax）の勾配が極端に小さくなることもなく、アテンションの効果を得ることができる。

【0198】

デコーダ部１７は、コンテキストcontext[B,Td,K]と復号化時系列出力decoder_outputs[B,Td,I]とをコンカテネート（Concatenate）により結合することで、データ[B,Td,I+K]を求める（ステップＳ１０３１）。

【0199】

デコーダ部１７は、データ[B,Td,I+K]に対し、双曲線正接関数（tanh）を活性化関数とするＭ＝１２８次の全結合層（tanh）に入力し（ステップＳ１０３２）、全結合層の出力であるデータ[B,Td,M]に対し、メモリ３１に格納されたラベル／番号対応表に含まれる正解ラベルの異なり数Ｎ＝８７次のソフトマックス関数（Softmax）を演算し（ステップＳ１０３３）、演算結果[B,Td,N]を推定データとして出力する。

【0200】

デコーダ部１７から出力された推定データと前処理部１１から出力された正解データとの間の誤差が小さくなるように、スパースなマルチクラス分類交差エントロピー関数を目的関数として、統計モデル１３－２の学習が行われる。

【0201】

以上のように、図１０に示した実施例２の統計モデル１３－２によれば、エンコーダ部１６は、符号化により、入力文字データに基づいて文字時系列出力encoderg_outputs[B,Te,I]を求め、入力音響データに基づいて音響時系列出力encodera_outputs[B,U’,J]を求める。また、エンコーダ部１６は、双方向再帰型ニューラルネットワーク（Bidirectional LSTM）の演算において、文字最終状態state_h及び文字内部状態state_cを求める。

【0202】

デコーダ部１７は、文字最終状態state_h及び文字内部状態state_cを、ＬＳＴＭの初期状態に使用する。また、デコーダ部１７は、復号により、文字時系列出力encoderg_outputs[B,Te,I]及び音響時系列出力encodera_outputs[B,U’,J]に基づいて、２次元のアテンション[B,U’×Te,K]を求める。そして、デコーダ部１７は、２次元のアテンション[B,U’×Te,K]、及び教師データから求めた復号化時系列出力decoder_outputs[B,Td,I]に基づいて、アテンション[B,Td,U’×Te]（scaled dot product attention）を求める。

【0203】

デコーダ部１７は、アテンション[B,Td,U’×Te]（scaled dot product attention）に基づいて、アテンションの重みw[B,Td,U’×Te]を求める。そして、デコーダ部１７は、アテンションの重みw[B,Td,U’×Te]及び２次元のアテンション[B,U’×Te,K]に基づいて、コンテキストcontext[B,Td,K]を求める。

【0204】

デコーダ部１７は、コンテキストcontext[B,K]、及び教師データから求めた復号化時系列出力decoder_outputs[B,Td,I]に基づいて、推定データを求める。そして、推定データ及び正解データを用いて、統計モデル１３－２の学習が行われる。

【0205】

これにより、エンコーダ部１６により求めた文字最終状態state_h及び文字内部状態state_cを、デコーダ部１７のＬＳＴＭの初期状態として使用するため、図９に示した実施例１よりも、推定精度が高くなり、精度の高い学習を行うことができる。

【0206】

また、エンコーダ部１６は、ステップＳ１００７，Ｓ１００８の処理にて、双方向再帰型ニューラルネットワーク（Bidirectional LSTM）の演算及び平均プーリング演算（AveragePooling1D）の処理をＮ回行い、音響時系列出力encodera_outputs[B,U’,J]を求めるようにした。

【0207】

【0208】

また、実施例２の統計モデル１３－２では、ソースターゲットアテンション（source-target attention）であるアテンション[B,Td,U’×Te]（scaled dot product attention）を用いて推定データを求める。一方、図９に示した実施例１では、セルフアテンション（self-attention）である２次元のアテンション[B,U’×Te,K]を用いて推定データを求める。このため、ソースとターゲットの関連度合を利用する実施例２の統計モデル１３－２の方が、ソースのみの情報を利用する実施例１よりも推定精度が高くなる。

【0209】

また、デコーダ部１７は、ステップＳ１０２８～Ｓ１０３０の処理にて、行列積の結果にスケーリング因子sqrt（Ｌ＝１２８）の逆数を乗算（ScaleMul）することで、アテンション[B,Td,U’×Te]（scaled dot product attention）を求め、ソフトマックス関数（Softmax）を演算することで、アテンションの重みw[B,Td,U’×Te]を求めるようにした。

【0210】

これにより、スケーリング因子sqrtの逆数を乗算（ScaleMul）することで、アテンションを求めるようにしたから、前述の非特許文献１とは異なり、アテンションが大きくなることはない。このため、逆伝播のソフトマックス関数（Softmax）の勾配が極端に小さくなることがなく、アテンションの効果を得ることができる。

【0211】

＜実施例３の統計モデル１３＞
次に、実施例３の統計モデル１３について説明する。この実施例３の統計モデル１３は、実施例１，２と同様に、テキストから作成した入力文字データ、音声信号から作成した入力音響データ、教師データ及び正解データを用いて学習が行われるＤＮＮモデルである。後述する韻律記号推定装置２において、統計モデル２４は、テキストから作成した入力文字データ、及び音声信号から作成した入力音響データを入力すると共に、文頭データを入力し、推定データを出力する。

【0212】

図１１は、実施例３の統計モデル１３のネットワーク構造を示す図である。この統計モデル１３－３のエンコーダ部１６は、前処理部１１から入力文字データを入力し、ステップＳ１１０１～Ｓ１１０５の処理を行い、文字最終状態state_h（state_h_g）、文字内部状態state_c（state_c_g）及び文字時系列出力encoderg_outputs（x_g）を作成する。また、エンコーダ部１６は、前処理部１１から入力音響データを入力し、ステップＳ１１０６～Ｓ１１１０の処理を行い、音響時系列出力encodera_outputs（x_a）を作成する。そして、エンコーダ部１６は、文字最終状態state_h、文字内部状態state_c、文字時系列出力encoderg_outputs及び音響時系列出力encodera_outputsをデコーダ部１７に出力する。

【0213】

デコーダ部１７は、前処理部１１から教師データを入力すると共に、エンコーダ部１６から文字最終状態state_h、文字内部状態state_c、文字時系列出力encoderg_outputs及び音響時系列出力encodera_outputsを入力する。そして、デコーダ部１７は、ステップＳ１１１１～Ｓ１１３０の処理を行い、２つのアテンション、２つのアテンションの重み及び推定データを作成し、推定データを減算部１４に出力する。

【0214】

デコーダ部１７から出力された推定データ及び前処理部１１から出力された正解データを用いて、統計モデル１３－３の学習が行われる。

【0215】

ステップＳ１１０１～Ｓ１１３０の各処理に対応するニューラルネットワークの層により、後述する演算が行われる。

【0216】

（エンコーダ部１６／実施例３）
エンコーダ部１６は、図９に示した実施例１の統計モデル１３－１のエンコーダ部１６によるステップＳ９０１～Ｓ９１０と同様の処理を行い、文字時系列出力encoderg_outputs[B,Te,I]及び音響時系列出力encodera_outputs[B,U’,J]を求める（ステップＳ１１０１～Ｓ１１１０）。そして、エンコーダ部１６は、文字時系列出力encoderg_outputs[B,Te,I]及び音響時系列出力encodera_outputs[B,U’,J]をデコーダ部１７に出力する。

【0217】

ここで、エンコーダ部１６は、ステップＳ１１０３の双方向再帰型ニューラルネットワーク（Bidirectional LSTM）の演算において、順方向及び逆方向の符号化時系列出力encoder_out_forward及びencoder_out_backwardの内部状態を加算し、文字内部状態state_cを求める。また、エンコーダ部１６は、これらの最終状態を加算し、文字最終状態state_hを求める。そして、エンコーダ部１６は、文字最終状態state_h及び文字内部状態state_cをデコーダ部１７に出力する。文字最終状態state_h及び文字内部状態state_cは、デコーダ部１７のＬＳＴＭの初期状態に使用される。

【0218】

エンコーダ部１６は、実施例１のステップＳ９０７，Ｓ９０８及び実施例２のステップＳ１００７，１００８と同様に、ステップＳ１１０７，Ｓ１１０８の処理を行う。これにより、音響時系列出力encodera_outputs[B,U,J]の最大フレーム数ＵをＵ’＝Ｕ／２^Nに減少させることができ、以降の演算を少ないメモリにて実現することができる。

【0219】

（デコーダ部１７／実施例３）
デコーダ部１７は、エンコーダ部１６から文字時系列出力encoderg_outputs[B,Te,I]及び音響時系列出力encodera_outputs[B,U’,J]を入力する。そして、デコーダ部１７は、文字時系列出力encoderg_outputs[B,Te,I]、及び教師データから求めた復号化時系列出力decoder_outputs[B,Td,I]に基づいて、第１のアテンション及びアテンションの重みを作成する。また、デコーダ部１７は、音響時系列出力encodera_outputs[B,U’,J]、及び教師データから求めた復号化時系列出力decoder_outputs[B,Td,I]に基づいて、第２のアテンション及びアテンションの重みを作成する。

【0220】

デコーダ部１７は、図８に示したベースライン方式の統計モデル１３’のデコーダ部１７によるステップＳ８０６～Ｓ８１０と同様の処理を行い、復号化時系列出力decoder_outputs[B,Td,I]を求める（ステップＳ１１１１～Ｓ１１１５）。

【0221】

デコーダ部１７は、エンコーダ部１６がステップＳ１１０５にて求めた文字時系列出力encoderg_outputs[B,Te,I]と、ステップＳ１１１５にて求めた復号化時系列出力decoder_outputs[B,Td,I]とを、それぞれＬ＝１２８次の全結合層（Dense）に入力し（ステップＳ１１１６，Ｓ１１１７）、Ｌの軸でそれぞれの全結合層の出力の行列積（Dot）を演算する（ステップＳ１１１８）。

【0222】

デコーダ部１７は、行列積の結果にスケーリング因子sqrt（Ｌ＝１２８）の逆数を乗算（ScaleMul）することで、第１のアテンション[B,Td,Te]（scaled dot product attention）を求める（ステップＳ１１１９）。

【0223】

デコーダ部１７は、第１のアテンション[B,Td,Te]（scaled dot product attention）に対してソフトマックス関数（Softmax）を演算することで、第１のアテンションの重みwg[B,Td,Te]を求める（ステップＳ１１２０）。

【0224】

デコーダ部１７は、ステップＳ１１２０にて求めた第１のアテンションの重みwg[B,Td,Te]、及びエンコーダ部１６がステップＳ１００５にて求めた文字時系列出力encoderg_outputs[B,Te,I]の行列積（Dot）を演算することで、第１のコンテキストcontextg[B,Td,I]を求める（ステップＳ１１２１）。

【0225】

一方、デコーダ部１７は、エンコーダ部１６がステップＳ１１１０にて求めた音響時系列出力encodera_outputs[B,U’,J]と、ステップＳ１１１５にて求めた復号化時系列出力decoder_outputs[B,Td,I]とを、それぞれＬ＝１２８次の全結合層（Dense）に入力し（ステップＳ１１２２，Ｓ１１１７）、Ｌの軸でそれぞれの全結合層の出力の行列積（Dot）を演算する（ステップＳ１１２３）。

【0226】

デコーダ部１７は、行列積の結果にスケーリング因子sqrt（Ｌ＝１２８）の逆数を乗算（ScaleMul）することで、第２のアテンション[B,Td,Te]（scaled dot product attention）を求める（ステップＳ１１２４）。

【0227】

デコーダ部１７は、第２のアテンション[B,Td,Te]（scaled dot product attention）に対してソフトマックス関数（Softmax）を演算することで、第２のアテンションの重みwa[B,Td,Te]を求める（ステップＳ１１２５）。

【0228】

デコーダ部１７は、ステップＳ１１２５にて求めた第２のアテンションの重みwa[B,Td,Te]、及びエンコーダ部１６がステップＳ１１１０にて求めた音響時系列出力encodera_outputs[B,U’,J]の行列積（Dot）を演算することで、第２のコンテキストcontexta[B,Td,J]を求める（ステップＳ１１２６）。

【0229】

デコーダ部１７は、ステップＳ１１２１にて求めた第１のコンテキストcontextg[B,Td,I]、ステップＳ１１２６にて求めた第２のコンテキストcontexta[B,Td,J]、及びステップＳ１１１５にて求めた復号化時系列出力decoder_outputs[B,Td,I]をコンカテネート（Concatenate）により結合することで、データ[B,Td,2I+J]を求める（ステップＳ１１２７）。

【0230】

デコーダ部１７は、データ[B,Td,2I+J]に対し、双曲線正接関数（tanh）を活性化関数とするＭ＝１２８次の全結合層（tanh）に入力し（ステップＳ１１２８）、全結合層の出力であるデータ[B,Td,M]に対し、メモリ３１に格納されたラベル／番号対応表に含まれる正解ラベルの異なり数Ｎ＝８７次のソフトマックス関数（Softmax）を演算し（ステップＳ１１２９）、演算結果[B,Td,N]を推定データとして出力する。

【0231】

デコーダ部１７から出力された推定データと前処理部１１から出力された正解データとの間の誤差が小さくなるように、スパースなマルチクラス分類交差エントロピー関数を目的関数として、統計モデル１３－３の学習が行われる。

【0232】

以上のように、図１１に示した実施例３の統計モデル１３－３によれば、エンコーダ部１６は、符号化により、入力文字データに基づいて文字時系列出力encoderg_outputs[B,Te,I]を求め、入力音響データに基づいて音響時系列出力encodera_outputs[B,U’,J]を求める。また、エンコーダ部１６は、双方向再帰型ニューラルネットワーク（Bidirectional LSTM）の演算において、文字最終状態state_h及び文字内部状態state_cを求める。

【0233】

デコーダ部１７は、文字最終状態state_h及び文字内部状態state_cを、ＬＳＴＭの初期状態に使用する。また、デコーダ部１７は、復号により、文字時系列出力encoderg_outputs[B,Te,I] 、及び教師データから求めた復号化時系列出力decoder_outputs[B,Td,I]に基づいて、第１のアテンション[B,Td,Te]（scaled dot product attention）を求め、第１のアテンションの重みwg[B,Td,Te]を求める。また、デコーダ部１７は、音響時系列出力encodera_outputs[B,U’,J] 、及び教師データから求めた復号化時系列出力decoder_outputs[B,Td,I]に基づいて、第２のアテンション[B,Td,Te]（scaled dot product attention）を求め、第２のアテンションの重みwa[B,Td,Te]を求める。

【0234】

デコーダ部１７は、第１のアテンションの重みwg[B,Td,Te]及び文字時系列出力encoderg_outputs[B,Te,I]に基づいて、第１のコンテキストcontextg[B,Td,I]を求める。また、デコーダ部１７は、第２のアテンションの重みwa[B,Td,Te]及び音響時系列出力encodera_outputs[B,U’,J]に基づいて、第２のコンテキストcontexta[B,Td,J]を求める。

【0235】

デコーダ部１７は、第１のコンテキストcontextg[B,Td,I]、第２のコンテキストcontexta[B,Td,J] 、及び教師データから求めた復号化時系列出力decoder_outputs[B,Td,I]に基づいて、推定データを求める。そして、推定データ及び正解データを用いて、統計モデル１３－３の学習が行われる。

【0236】

【0237】

また、エンコーダ部１６は、ステップＳ１１０７，Ｓ１１０８の処理にて、双方向再帰型ニューラルネットワーク（Bidirectional LSTM）の演算及び平均プーリング演算（AveragePooling1D）の処理をＮ回行い、音響時系列出力encodera_outputs[B,U’,J]を求めるようにした。

【0238】

【0239】

また、実施例３の統計モデル１３－３では、ソースターゲットアテンション（source-target attention）である第１及び第２のアテンション[B,Td,Te]（scaled dot product attention）を用いて推定データを求める。一方、図９に示した実施例１では、セルフアテンション（self-attention）である２次元のアテンション[B,U’×Te,K]を用いて推定データを求める。このため、ソースとターゲットの関連度合を利用する実施例３の統計モデル１３－３の方が、ソースのみの情報を利用する実施例１よりも推定精度が高くなる。

【0240】

また、実施例３の統計モデル１３－３に用いるアテンション[B,Td,Te]（scaled dot product attention）は、図９に示した実施例１の２次元のアテンション[B,U’×Te,K]及び図１０に示した実施例２のアテンション[B,Td,U’×Te]（scaled dot product attention）よりも、使用するメモリ量が少なくて済む。

【0241】

つまり、実施例１，２のアテンションは、図９に示したステップＳ９１２，Ｓ９１５及び図１０に示したステップＳ１０１２，Ｓ１０１５のリピートベクトル（RepeatVector）の処理により、入力文字データの処理及び入力音響データの処理を冗長に繰り返して求めたものである。これに対し、実施例３のアテンションは、リピートベクトル（RepeatVector）の処理による繰り返しがないため、実施例１，２によりも消費メモリ及び演算コストが少なくて済む。

【0242】

〔韻律記号推定装置〕
次に、本発明の実施形態による韻律記号推定装置について説明する。図１２は、本発明の実施形態による韻律記号推定装置の構成例を示すブロック図である。この韻律記号推定装置２は、メモリ２０、前処理部２１、推定部２２及び番号／ラベル変換部２３を備えている。

【0243】

韻律記号推定装置２は、図１に示した韻律記号推定学習装置１により学習された統計モデル１３（図１２では後述する統計モデル２４）を用いて、テキスト及び音声信号に対応する韻律記号付き文字列を求め、これを推定ラベルとして出力する。韻律記号付き文字列である推定ラベルは、カタカナ及び韻律記号で表したラベルにより構成される。

【0244】

メモリ２０には、予め設定された音声コーパスが格納されている。音声コーパスは、図１に示したメモリ１０の韻律記号推定学習用音声コーパスと同様に、発話文章毎の予め設定されたテキストと、これに対応する予め設定された音声信号から構成される。

【0245】

前処理部２１は、メモリ２０から音声コーパスのテキスト、及び当該テキストに対応する音声信号を読み出す。そして、前処理部２１は、テキストに基づいて所定の前処理を行い、入力文字データを作成する。また、前処理部２１は、テキストに対応する音声信号に基づいて所定の前処理を行い、入力音響データを作成する。

【0246】

前処理部２１は、入力文字データ及び入力音響データ、並びに所定の文頭データ（例えば、文頭記号のラベル「Ｓ」に対応する番号「１」）を推定部２２に出力する。前処理部２１の処理の詳細については後述する。

【0247】

推定部２２は、前処理部２１から入力文字データ、入力音響データ及び文頭データを入力する。そして、推定部２２は、図１に示した韻律記号推定学習装置１により学習された統計モデル１３である後述する統計モデル２４を用いて、入力文字データ、入力音響データ及び文頭データから、文頭データの次のデータを推定し、さらにその次のデータを順次推定することで、推定データを求める。推定部２２は、推定データを番号／ラベル変換部２３に出力する。推定部２２の処理の詳細については後述する。

【0248】

番号／ラベル変換部２３は、図示しないメモリを備えており、当該メモリには、図７に示したラベル／番号対応表が格納されているものとする。番号／ラベル変換部２３は、推定部２２から推定データを入力し、図示しないメモリに格納されたラベル／番号対応表から、推定データの示す番号に対応するラベルを読み出し、読み出したラベルを推定ラベルとして出力する。

【0249】

これにより、メモリ２０から読み出したテキスト及び音声信号に対応する韻律記号付き文字列が、推定ラベルとして出力される。例えば、図４を参照して、テキストが「あらゆる現実を、すべて自分の方へ捻じ曲げたのだ。」の場合、理想的には、正解ラベルと同等の推定ラベル「Ｓアラユ’ル／ゲンジツオ＿ス’ベテ／ジブンノホ’オエ／ネジマ’ゲタノダＮ」が出力される。

【0250】

（前処理部２１）
次に、図１２に示した前処理部２１について詳細に説明する。図１３は、韻律記号推定装置２に備えた前処理部２１の構成例を示すブロック図であり、図１４は、韻律記号推定装置２に備えた前処理部２１の処理例を示すフローチャートである。

【0251】

前処理部２１は、正解ラベル作成部３０、入力ラベル作成部３４、メモリ３１，３５、入力文字データ作成部３６、入力音響データ作成部３７及び文頭データ出力部３８を備えている。

【0252】

図２に示した前処理部１１と図１３に示す前処理部２１とを比較すると、両前処理部１１，２１は、正解ラベル作成部３０、入力ラベル作成部３４、メモリ３１，３５、入力文字データ作成部３６及び入力音響データ作成部３７を備えている点で共通する。一方、前処理部２１は、文頭データ出力部３８を備えている点で、文頭データ出力部３８を備えていない前処理部１１と相違する。

【0253】

また、図１４に示すステップＳ１４０１～Ｓ１４０８の処理は、図３に示したステップＳ３０１，Ｓ３０２，Ｓ３０６～Ｓ３１１の処理にそれぞれ相当する。図１３において、図２と共通する部分にはそれぞれ図２と同一の符号を付し、その詳しい説明は省略する。

【0254】

尚、韻律記号推定装置２の前処理部２１に備えた正解ラベル作成部３０は、正解ラベルを作成したときに、ユーザ操作に従った正解ラベルの修正処理を行うことはない。つまり、正解ラベル作成部３０は、ユーザに対し音声信号を聴取させ正解ラベルを確認させることはなく、ユーザ操作に従い、正解ラベルを修正することもない。

【0255】

文頭データ出力部３８は、メモリ３１に格納されたラベル／番号対応表から、テキストの文頭記号のラベル「Ｓ」に対応する番号「１」を読み出し、読み出した番号「１」を文頭データとして推定部２２に出力する（ステップＳ１４０９）。

【0256】

尚、前処理部２１は、予め設定された文頭記号のラベル「Ｓ」に対応する番号「１」を、文頭データとして推定部２２に出力するようにしてもよい。この場合、前処理部２１は、メモリ３１及び文頭データ出力部３８を備えていない。また、文頭データ出力部３８は、メモリ３１の代わりにメモリ３５を用いるようにしてもよい。

【0257】

（推定部２２）
次に、図１２に示した推定部２２について詳細に説明する。図１２に示したとおり、推定部２２は、seq2seqの統計モデル２４及び処理部２５を備えている。統計モデル２４は、エンコーダ部２６及びデコーダ部２７から構成される。統計モデル２４は、図１に示した韻律記号推定学習装置１により学習された統計モデル１３に相当する。

【0258】

エンコーダ部２６は、前処理部２１から入力文字データ及び入力音響データを入力する。そして、エンコーダ部２６は、入力文字データに対して符号化を行うことで、文字時系列出力x_g、文字最終状態state_h_g及び文字内部状態state_c_gを求める。また、エンコーダ部２６は、入力音響データに対して符号化を行うことで、音響時系列出力x_aを求める。

【0259】

エンコーダ部２６は、文字時系列出力x_g、文字最終状態state_h_g、文字内部状態state_c_g及び音響時系列出力x_aをデコーダ部２７に出力する。これらのデータのうち文字最終状態state_h_g及び文字内部状態state_c_gは、デコーダ部２７の初期状態として使用される。

【0260】

デコーダ部２７は、処理部２５から後述する配列Ｄ［１：Ｔ－１］を順次入力すると共に、エンコーダ部２６から文字時系列出力x_g、文字最終状態state_h_g、文字内部状態state_c_g及び音響時系列出力x_aを入力する。そして、デコーダ部２７は、文字最終状態state_h_g及び文字内部状態state_c_gを、当該デコーダ部２７に備えたＬＳＴＭのニューラルネットワークにおける初期状態として使用する。

【0261】

デコーダ部２７は、文字時系列出力x_g及び音響時系列出力x_a、並びに順次入力した後述する配列Ｄ［１：Ｔ－１］を用いて復号を行うことで、推定データ（１文字に対応するデータ、既に求めた推定データに対して次の推定データ）を順次求める。そして、デコーダ部２７は、推定データを処理部２５に出力する。

【0262】

具体的には、最初に、デコーダ部２７は、処理部２５から、文頭データのみが格納された配列Ｄ［１：Ｔ］を入力し、復号を行うことで、文頭データの次のデータを推定データとして求めて出力する。次に、デコーダ部２７は、処理部２５から、文頭データ及び当該文頭データの次の推定データが格納された配列Ｄ［１：Ｔ］を入力し、復号を行うことで、文頭データの次の次のデータを推定データとして求めて出力する。

【0263】

このように、デコーダ部２７は、処理部２５から、推定データが順次追加された配列Ｄ［１：Ｔ］を入力し、復号を行うことで、次の推定データを出力する。ここで、デコーダ部２７は、復号により推定データを求める際に、アテンションを求める。

【0264】

このように、図１２に示した統計モデル２４において、エンコーダ部２６は、前処理部２１から文字入力データ及び入力音響データを入力し、デコーダ部２７は、前処理部２１から処理部２５を介して、文頭データのみが格納された配列Ｄ［１：Ｔ］を入力する。そして、統計モデル２４は、韻律記号付き文字列である推定ラベルの１ラベルに対応するデータを、推定データとして順番に推定する。

【0265】

図９～図１１に示した統計モデル２４（統計モデル１３）において、例えばメモリ３１に格納されたラベル／番号対応表に含まれる正解ラベルの異なり数が８７の場合、デコーダ部２７は、ソフトマックス関数（Softmax）の演算により８７個の演算結果を求める。そして、デコーダ部２７は、８７個の演算結果に対してargmax関数の演算を行い、最大値をとる演算結果に対応する番号を推定データとして出力する。

【0266】

処理部２５は、前処理部２１から文頭データを入力すると共に、統計モデル２４のデコーダ部２７から１文字に対応する推定データを入力する。

【0267】

最初に、処理部２５は、文頭データのみを格納した配列Ｄ［１：Ｔ］を生成し、これを統計モデル２４のデコーダ部２７に出力し、文頭データの次の推定データをデコーダ部２７から入力し、入力した推定データを番号／ラベル変換部２３に出力する。

【0268】

そして、処理部２５は、入力した推定データを配列Ｄ［１：Ｔ］に追加することで、新たな配列Ｄ［１：Ｔ］を生成し、これをデコーダ部２７に出力し、その次の推定データをデコーダ部２７から入力し、入力した推定データを番号／ラベル変換部２３に出力する。処理部２５は、このような処理を繰り返すことで、配列Ｄ［１：Ｔ］を出力し、次の推定データを入力して番号／ラベル変換部２３に出力する。

【0269】

図１５は、推定部２２に備えた処理部２５の処理例を示すフローチャートである。まず、処理部２５は、（正解データの最大文字列長と同様の）正解ラベルの最大文字列長と同じ文字列長を有する配列Ｄ［１：Ｔ］を用意し、ゼロ「０」にて初期化する（ステップＳ１５０１）。

【0270】

処理部２５は、前処理部２１から文頭データを入力し（ステップＳ１５０２）、配列Ｄ［１：Ｔ］のインデックスｉ＝１を設定する（ステップＳ１５０３）。

【0271】

処理部２５は、文頭データを配列Ｄ［１：Ｔ］に格納する（ステップＳ１５０４）。これにより、配列Ｄ［１：Ｔ］＝（文頭データ，０，・・・，０）が生成される。

【0272】

処理部２５は、配列Ｄ［１：Ｔ］＝（文頭データ，０，・・・，０）を統計モデル２４に出力する（ステップＳ１５０５）。

【0273】

これにより、配列Ｄ［１：Ｔ］＝（文頭データ，０，・・・，０）が統計モデル２４のデコーダ部２７に入力され、演算が行われ、統計モデル２４のデコーダ部２７から１文字に対応する推定データが出力される。

【0274】

処理部２５は、統計モデル２４から、配列Ｄ［１：Ｔ］＝（文頭データ，０，・・・，０）を用いて演算された１文字に対応する推定データを入力し（ステップＳ１５０６）、入力した推定データを番号／ラベル変換部２３に出力する（ステップＳ１５０７）。

【0275】

これにより、推定データが番号／ラベル変換部２３に入力され、推定データの番号が、推定ラベルを構成するラベルに変換される。

【0276】

処理部２５は、所定の条件を満たすか否かを判定する（ステップＳ１５０８）。所定の条件は、例えば統計モデル２４から入力した推定データが、文末記号のラベル「Ｎ」または疑問のイントネーションの文末記号のラベル「Ｉ」に対応する番号であるか否かである。また、所定の条件は、例えば統計モデル２４から入力した推定データの数が文頭データを含めて、正解ラベルの最大文字列長に到達したか否かである。

【0277】

処理部２５は、ステップＳ１５０８において、所定の条件を満たさないと判定した場合（ステップＳ１５０８：Ｎ）、ステップＳ１５０９へ移行する。一方、処理部２５は、ステップＳ１５０８において、所定の条件を満たすと判定した場合（ステップＳ１５０８：Ｙ）、当該処理を終了する。

【0278】

例えば、処理部２５は、統計モデル２４から入力した推定データが、文末記号のラベル「Ｎ」に対応する番号でなく、かつラベル「Ｉ」に対応する番号でないと判定した場合、所定の条件を満たさないと判定する。一方、処理部２５は、統計モデル２４から入力した推定データが、文末記号のラベル「Ｎ」に対応する番号であると判定した場合、またはラベル「Ｉ」に対応する番号でないと判定した場合、所定の条件を満たすと判定する。

【0279】

処理部２５は、ステップＳ１５０８（Ｎ）から移行して、配列Ｄ［１：Ｔ］に、１文字に対応する推定データを追加し（ステップＳ１５０９）、インデックスｉに１を加算し（ステップＳ１５１０）、ステップＳ１５０５へ移行する。

【0280】

これにより、例えば配列Ｄ［１：Ｔ］＝（文頭データ，０，・・・，０）に推定データが追加されることで、配列Ｄ［１：Ｔ］＝（文頭データ，文頭データの次の推定データ，・・・，０）が生成され、インデックスｉ＝２となる。そして、ステップＳ１５０５～ステップＳ１５１０の処理により、配列Ｄ［１：Ｔ］＝（文頭データ，文頭データの次の推定データ，文頭データの次の次の推定データ，・・・，０）が生成され、インデックスｉ＝３となる。

【0281】

以上のように、本発明の実施形態の韻律記号推定装置２によれば、前処理部２１は、音声コーパスのテキストに対して言語分析処理を行うことで文脈依存ラベルを求め、テキストのカタカナを求め、韻律記号を付与することで正解ラベルを作成する。

【0282】

前処理部２１は、正解ラベルを構成するカタカナ及び韻律記号のうち、韻律記号のアクセント核「’」を削除し、韻律記号のアクセント句区切り「／」等を記号「？」に置換することで、入力ラベルを作成する。そして、前処理部２１は、予め設定されたラベル／番号対応表を用いて、入力ラベルを構成する全てのラベル（カタカナ及び韻律記号）のそれぞれを、対応する番号に変換し、全ての入力ラベルについての最大文字列長となるように、入力文字データを作成する。

【0283】

前処理部２１は、音声コーパスのテキストに対応する音声信号に対して音響分析処理を行い、音響特徴量を求め、標準化した音響特徴量のフレーム数が全ての音響特徴量の最大フレーム数となるように、入力音響データを作成する。また、前処理部２１は、テキストの文頭データを出力する。

【0284】

推定部２２は、韻律記号推定学習装置１により学習された統計モデル１３である統計モデル２４を用いて、入力文字データ、入力音響データ及び文頭データから、文頭データの次のデータを推定データとして求め、さらにその次のデータを推定データとして順次求める。

【0285】

番号／ラベル変換部２３は、予め設定されたラベル／番号対応表から、推定データの示す番号に対応するラベルを読み出し、テキストに対応する韻律記号付き文字列である推定ラベルとして出力する。

【0286】

これにより、韻律記号推定学習装置１により事前に学習された統計モデル２４を用いて、テキストに対応する韻律記号を含むラベルを推定することができる。したがって、テキスト及び音声信号から、アクセントだけでなくポーズ等を含む韻律記号を推定することができる。

【0287】

〔実験結果〕
次に、シミュレーションによる実験結果について説明する。図１６（１）は、音響特徴量としてスペクトルパラメータを利用した場合の推定実験の結果を示す図である。図１６（２）は、音響特徴量として音源パラメータを利用した場合の推定実験の結果を示す図である。

【0288】

図１６（１）及び（２）には、統計モデル１３，２４が図８に示したベースライン方式のネットワーク構造の場合、図１０に示した実施例２のネットワーク構造の場合、及び図１１に示した実施例３のネットワーク構造の場合の結果がそれぞれ示されている。

【0289】

ここで、韻律記号推定学習装置１の韻律記号推定学習用音声コーパス及び韻律記号推定装置２の音声コーパスとしては、例えば以下の実験データを用いる。実験データは、２名の女性話者が各種文章を読み上げたもので、それぞれ10,577文及び10,217文の合計20,794文から、入力ラベルの文字数が１００文字以内（入力ラベルの最大文字列長が１００文字）となる18,852文を対象とする。より詳細には、実験データの合計18,852文のうち約８０％の15,072文を訓練用、約１０％の1,856文を訓練評価用とし、これの実験データは韻律記号推定学習装置１による学習用とする。また、約１０％の1,856文をテスト用とし、韻律記号推定装置２による推定用とする。このとき、メモリ３５に格納されたラベル／番号対応表に含まれる入力ラベルの異なり数は８３、メモリ３１に格納されたラベル／番号対応表に含まれる正解ラベルの異なり数は８７、正解ラベルの最大文字列長は１１７文字、音響特徴量の最大フレーム数は１５２４とする。

【0290】

評価には、２つの文字列がどの程度異なっているかを示す編集距離とも呼ばれるレーベンシュタイン距離を用いる。レーベンシュタイン距離は、挿入、削除及び置換によって、一方の文字列を他方の文字列に変形するのに必要な手順の最小回数である。この数値を長い方の文字列の長さから減算したものを一致文字数とする。

【0291】

テスト用の実験データについて、１文毎に正解ラベルと推定ラベルの一致文字数ｍ_i、正解ラベルの文字数ｃ_i、推定ラベルの文字数ｅ_iとし、それぞれ全テスト用の実験データに渡って加算したものをＭ＝Σ_iｍ_i，Ｃ＝Σ_iｃ_i，Ｅ＝Σ_iｅ_iとする。一致文字数Ｍを正解ラベルの文字数Ｃで除算したものを再現率Ｒ＝Ｍ／Ｃとし、一致文字数Ｍを推定ラベルの文字数Ｅで除算したものを適合率Ｐ＝Ｍ／Ｅとし、再現率Ｒと適合率Ｐの調和平均をＦ値Ｆ＝２×（Ｒ×Ｐ）／（Ｒ＋Ｐ）とする。

【0292】

テスト用の実験データの正解ラベル及び推定ラベルの区切り文字（ポーズ、フレーズ区切り、アクセント句区切り、サブアクセント句区切り）について、前記と同様の手順で求めた再現率、適合率、Ｆ値を、それぞれＲ_P，Ｐ_P，Ｆ_Pとする。

【0293】

また、テスト用の実験データの正解ラベル及び推定ラベルのアクセント核文字について、前記と同様の手順で求めた再現率、適合率、F値を、それぞれＲ_A，Ｐ_A，Ｆ_Aとする。また、テスト用の実験データの正解ラベル及び推定ラベルが完全に一致した文の数を全文数で除算したものを、完全一致率FULLとする。

【0294】

図１６（１）及び（２）に示す再現率Ｒ，Ｒ_P，Ｒ_A、適合率Ｐ，Ｐ_P，Ｐ_A、Ｆ値Ｆ，Ｆ_P，Ｆ_A及び完全一致率FULLにおいて、いずれの評価値も、値が大きい方が高い性能を示す。

【0295】

図１６（１）と図１６（２）とを比較すると、図１６（１）のスペクトルパラメータを利用した場合の方が、図１６（２）の音源パラメータを利用した場合よりも性能が高くなっていることがわかる。また、いずれの評価値においても、ベースライン方式＜実施例２≦実施例３となっていることがわかる。

【0296】

このように、シミュレーションによる実験によれば、最も評価の高い例が実施例３であることがわかる。実施例３を用いることにより、メモリ量確保の点でも、演算速度の点でも実現が容易であり、一層高精度に韻律記号付き文字列を推定することができる。

【0297】

以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。

【0298】

例えば、韻律記号推定学習装置１は、統計モデル１３として、図８～図１１に示したアテンション構造付きのseq2seqモデルのディープニューラルネットワークを用いるようにした。これに対し、韻律記号推定学習装置１は、アテンション構造付きでないseq2seqモデルのディープニューラルネットワークを用いるようにしてもよいし、seq2seqモデル以外のディープニューラルネットワークを用いるようにしてもよい。また、韻律記号推定学習装置１は、ディープニューラルネットワーク以外のニューラルネットワークを用いるようにしてもよい。

【0299】

尚、本発明の実施形態による韻律記号推定学習装置１及び韻律記号推定装置２のハードウェア構成としては、通常のコンピュータを使用することができる。韻律記号推定学習装置１及び韻律記号推定装置２は、ＣＰＵ、ＲＡＭ等の揮発性の記憶媒体、ＲＯＭ等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。

【0300】

韻律記号推定学習装置１に備えたメモリ１０、前処理部１１及び韻律記号推定学習部１２の各機能は、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現される。また、韻律記号推定装置２に備えたメモリ２０、前処理部２１、推定部２２及び番号／ラベル変換部２３の各機能も、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現される。

【0301】

これらのプログラムは、前記記憶媒体に格納されており、ＣＰＵに読み出されて実行される。また、これらのプログラムは、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスク等）、光ディスク（ＣＤ－ＲＯＭ、ＤＶＤ等）、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。

【符号の説明】

【0302】

１韻律記号推定学習装置
２韻律記号推定装置
１０，２０，３１，３５メモリ
１１，２１前処理部
１２韻律記号推定学習部
１３，１３’，１３－１，１３－２，１３－３，２４統計モデル
１４減算部
１５更新部
１６，２６エンコーダ部
１７，２７デコーダ部
２２推定部
２３番号／ラベル変換部
２５処理部
３０正解ラベル作成部
３２教師データ作成部
３３正解データ作成部
３４入力ラベル作成部
３６入力文字データ作成部
３７入力音響データ作成部
３８文頭データ出力部
x_g 文字時系列出力
state_h_g 文字最終状態
state_c_g 文字内部状態
x_a 音響時系列出力

【図1】