特開2024-17562 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ワークスモバイルジャパン株式会社の特許一覧

特開2024-17562情報処理装置、情報処理方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024017562

(43)【公開日】2024-02-08

(54)【発明の名称】情報処理装置、情報処理方法及びプログラム

(51)【国際特許分類】

G10L 13/10 20130101AFI20240201BHJP

G10L 25/30 20130101ALI20240201BHJP

【ＦＩ】

G10L13/10 113Z

G10L25/30

G10L13/10 111C

G10L13/10 111B

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2022120281

(22)【出願日】2022-07-28

(71)【出願人】

【識別番号】523303688

【氏名又は名称】ワークスモバイルジャパン株式会社

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】朴炳宣

(72)【発明者】

【氏名】山本龍一

(72)【発明者】

【氏名】橘健太郎

(57)【要約】

【課題】日本語テキストのアクセント推定精度の向上を図ることができる情報処理装置等を提供する。
【解決手段】情報処理装置は、音声合成対象のテキストデータを含む入力データを取得するデータ取得部と、入力データからテキストデータにおけるイントネーション句の区切り位置を推定する第１タスク、入力データからテキストデータにおけるアクセント句の区切り位置を推定する第２タスク、及び、入力データからテキストデータにおけるアクセント核の位置を推定する第３タスクを含むマルチタスク学習に基づき学習された学習済みモデルを用いて、入力データからテキストデータにおけるイントネーション句の区切り位置、テキストデータにおけるアクセント句の区切り位置、及び、テキストデータにおけるアクセント核の位置の推定結果を出力する推定部と、を含む。
【選択図】図３

【特許請求の範囲】

【請求項1】

情報処理装置であって、
音声合成対象のテキストデータを含む入力データを取得するデータ取得部と、
前記入力データから前記テキストデータにおけるイントネーション句の区切り位置を推定する第１タスク、前記入力データから前記テキストデータにおけるアクセント句の区切り位置を推定する第２タスク、及び、前記入力データから前記テキストデータにおけるアクセント核の位置を推定する第３タスクを含むマルチタスク学習に基づき学習された学習済みモデルを用いて、前記入力データから前記テキストデータにおけるイントネーション句の区切り位置、前記テキストデータにおけるアクセント句の区切り位置、及び、前記テキストデータにおけるアクセント核の位置の推定結果を出力する推定部と、を含む。

【請求項2】

請求項１に記載の情報処理装置であって、
前記推定部は、
前記入力データから前記学習済みモデルを用いて、潜在変数を出力するエンコーダと、
前記潜在変数から前記テキストデータにおけるイントネーション句の区切り位置の推定結果を出力する第１デコーダと、
前記潜在変数から前記テキストデータにおけるアクセント句の区切り位置の推定結果を出力する第２デコーダと、
前記潜在変数から前記テキストデータにおけるアクセント核の位置の推定結果を出力する第３デコーダと、を含む。

【請求項3】

請求項２に記載の情報処理装置であって、
前記第２デコーダは、前記潜在変数と前記第１デコーダの出力とから前記テキストデータにおけるアクセント句の区切り位置の推定結果を出力する。

【請求項4】

請求項２又は請求項３に記載の情報処理装置であって、
前記第３デコーダは、前記潜在変数と前記第２デコーダの出力とから前記テキストデータにおけるアクセント核の位置の推定結果を出力する。

【請求項5】

請求項１又は請求項２に記載の情報処理装置であって、
前記入力データは、前記テキストデータをモーラ単位に分解したものである。

【請求項6】

情報処理装置のコンピュータが実行する情報処理方法であって、
音声合成対象のテキストデータを含む入力データを取得することと、
前記入力データから前記テキストデータにおけるイントネーション句の区切り位置を推定する第１タスク、前記入力データから前記テキストデータにおけるアクセント句の区切り位置を推定する第２タスク、及び、前記入力データから前記テキストデータにおけるアクセント核の位置を推定する第３タスクを含むマルチタスク学習に基づき学習された学習済みモデルを用いて、前記入力データから前記テキストデータにおけるイントネーション句の区切り位置、前記テキストデータにおけるアクセント句の区切り位置、及び、前記テキストデータにおけるアクセント核の位置の推定結果を出力することと、を含む。

【請求項7】

情報処理装置のコンピュータに実行されるためのプログラムであって、
音声合成対象のテキストデータを含む入力データを取得することと、
前記入力データから前記テキストデータにおけるイントネーション句の区切り位置を推定する第１タスク、前記入力データから前記テキストデータにおけるアクセント句の区切り位置を推定する第２タスク、及び、前記入力データから前記テキストデータにおけるアクセント核の位置を推定する第３タスクを含むマルチタスク学習に基づき学習された学習済みモデルを用いて、前記入力データから前記テキストデータにおけるイントネーション句の区切り位置、前記テキストデータにおけるアクセント句の区切り位置、及び、前記テキストデータにおけるアクセント核の位置の推定結果を出力することと、が前記情報処理装置のコンピュータに実行される。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、情報処理装置、情報処理方法及びプログラムに関するものである。

【背景技術】

【0002】

日本語テキストのアクセント推定においては、テキストにおけるアクセント句（ＡＰ）の区切り位置とアクセント核（ＡＮ）の位置とをそれぞれ予測するための２つの推定モデルを別々に訓練するものが知られている（例えば、特許文献１参照）。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】鈴木雅之, 他3名, "条件付き確率場を用いた日本語東京方言のアクセント結合自動推定", 電子情報通信学会論文誌 Vol.J96-D, No.3, pp.644-654, 一般社団法人電子情報通信学会, 2013

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、特許文献１に示されるような日本語テキストのアクセント推定手法においては、テキストにおけるアクセント句の区切り位置とアクセント核の位置とをそれぞれ予測するための２つの推定モデルを別々に訓練するため、アクセント句とアクセント核の階層的言語構造がアクセント推定結果に十分に反映されているとは言い難い。また、日本語テキストには、アクセント句とアクセント核に加えて、イントネーション句（ＩＰ）との関係においても言語構造に階層的な依存性が見られるものの、そのようなイントネーション句（ＩＰ）との関係についても考慮に入れられていない。このため、日本語テキストのアクセント推定については精度向上の余地がある。

【0005】

本開示は、このような課題を解決するためになされたものである。その目的は、日本語テキストのアクセント推定精度の向上を図ることができる情報処理装置、情報処理方法及びプログラムを提供することにある。

【課題を解決するための手段】

【0006】

本開示に係る情報処理装置は、音声合成対象のテキストデータを含む入力データを取得するデータ取得部と、前記入力データから前記テキストデータにおけるイントネーション句の区切り位置を推定する第１タスク、前記入力データから前記テキストデータにおけるアクセント句の区切り位置を推定する第２タスク、及び、前記入力データから前記テキストデータにおけるアクセント核の位置を推定する第３タスクを含むマルチタスク学習に基づき学習された学習済みモデルを用いて、前記入力データから前記テキストデータにおけるイントネーション句の区切り位置、前記テキストデータにおけるアクセント句の区切り位置、及び、前記テキストデータにおけるアクセント核の位置の推定結果を出力する推定部と、を含む。

【0007】

本開示に係る情報処理方法は、情報処理装置のコンピュータが実行する情報処理方法であって、音声合成対象のテキストデータを含む入力データを取得することと、前記入力データから前記テキストデータにおけるイントネーション句の区切り位置を推定する第１タスク、前記入力データから前記テキストデータにおけるアクセント句の区切り位置を推定する第２タスク、及び、前記入力データから前記テキストデータにおけるアクセント核の位置を推定する第３タスクを含むマルチタスク学習に基づき学習された学習済みモデルを用いて、前記入力データから前記テキストデータにおけるイントネーション句の区切り位置、前記テキストデータにおけるアクセント句の区切り位置、及び、前記テキストデータにおけるアクセント核の位置の推定結果を出力することと、を含む。

【0008】

本開示に係るプログラムは、情報処理装置のコンピュータに実行されるためのプログラムであって、音声合成対象のテキストデータを含む入力データを取得することと、前記入力データから前記テキストデータにおけるイントネーション句の区切り位置を推定する第１タスク、前記入力データから前記テキストデータにおけるアクセント句の区切り位置を推定する第２タスク、及び、前記入力データから前記テキストデータにおけるアクセント核の位置を推定する第３タスクを含むマルチタスク学習に基づき学習された学習済みモデルを用いて、前記入力データから前記テキストデータにおけるイントネーション句の区切り位置、前記テキストデータにおけるアクセント句の区切り位置、及び、前記テキストデータにおけるアクセント核の位置の推定結果を出力することと、が前記情報処理装置のコンピュータに実行される。

【発明の効果】

【0009】

本開示に係る情報処理装置、情報処理方法及びプログラムによれば、日本語テキストのアクセント推定精度の向上を図ることができるという効果を奏する。

【図面の簡単な説明】

【0010】

【図1】実施の形態１に係る音声合成システムのサーバ（情報処理装置）の構成を示すブロック図である。

【図2】日本語テキストにおけるイントネーション句、アクセント句、アクセント核及びアクセント結合について説明する図である。

【図3】実施の形態１に係る音声合成システムのサーバが備える推定部の構成概略を示すブロック図である。

【図4】実施の形態１に係る音声合成システムのサーバ（情報処理装置）の処理動作の一例を示すフローチャートである。

【図5】実施の形態１に係る音声合成システムが用いる推定モデルによるアクセント推定精度を示す図である。

【図6】実施の形態１に係る音声合成システムが用いる推定モデルによるアクセント推定精度を示す図である。

【図7】実施の形態１に係る音声合成システムによる合成音声の評価値を示す図である。

【図8】実施の形態１に係る音声合成システムによる合成音声の評価値を示す図である。

【発明を実施するための形態】

【0011】

本開示に係る情報処理装置、情報処理方法及びプログラムを実施するための形態について添付の図面を参照しながら説明する。各図において、同一又は相当する部分には同一の符号を付して、重複する説明は適宜に簡略化又は省略する。以下の説明においては便宜上、図示の状態を基準に各構造の位置関係を表現することがある。なお、本開示は以下の実施の形態に限定されることなく、本開示の趣旨を逸脱しない範囲において、各実施の形態の自由な組み合わせ、各実施の形態の任意の構成要素の変形、又は各実施の形態の任意の構成要素の省略が可能である。

【0012】

実施の形態１．
図１から図８を参照しながら、本開示の実施の形態１について説明する。図１は音声合成システムのサーバ（情報処理装置）の構成を示すブロック図である。図２は日本語テキストにおけるイントネーション句、アクセント句、アクセント核及びアクセント結合について説明する図である。図３は音声合成システムのサーバが備える推定部の構成概略を示すブロック図である。図４は音声合成システムのサーバの処理動作の一例を示すフローチャートである。図５及び図６は音声合成システムが用いる推定モデルによるアクセント推定精度を示す図である。図７及び図８は音声合成システムによる合成音声の評価値を示す図である。

【0013】

この実施の形態に係る音声合成システムは、図１に示すように、サーバ１００を備えている。音声合成システムでは、サーバ１００は、図示しないネットワークを介して図示しない端末等と通信可能に接続されている。サーバ１００は、ネットワークを介してユーザが所有する端末に、音声合成サービス等を提供する。

【0014】

ネットワークは、１以上の端末と、１以上のサーバ１００とを接続する役割を担う。すなわち、ネットワークは、端末がサーバ１００に接続した後、データを送受信することができるように接続経路を提供する通信網を意味する。ネットワークのうちの１つ又は複数の部分は、有線ネットワークや無線ネットワークであってもよいし、そうでなくてもよい。

【0015】

ネットワークは、例えば、アドホック・ネットワーク（ＡｄＨｏｃＮｅｔｗｏｒｋ）、イントラネット、エクストラネット、仮想プライベート・ネットワーク（ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ：ＶＰＮ）、ローカル・エリア・ネットワーク（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ：ＬＡＮ）、ワイヤレスＬＡＮ（ＷｉｒｅｌｅｓｓＬＡＮ：ＷＬＡＮ）、広域ネットワーク（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ：ＷＡＮ）、ワイヤレスＷＡＮ（ＷｉｒｅｌｅｓｓＷＡＮ：ＷＷＡＮ）、大都市圏ネットワーク（ＭｅｔｒｏｐｏｌｉｔａｎＡｒｅａＮｅｔｗｏｒｋ：ＭＡＮ）、インターネットの一部、公衆交換電話網（ＰｕｂｌｉｃＳｗｉｔｃｈｅｄＴｅｌｅｐｈｏｎｅＮｅｔｗｏｒｋ：ＰＳＴＮ）の一部、携帯電話網、ＩＳＤＮ（ＩｎｔｅｇｒａｔｅｄＳｅｒｖｉｃｅＤｉｇｉｔａｌＮｅｔｗｏｒｋｓ）、無線ＬＡＮ、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）、ＣＤＭＡ（ＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ）、ブルートゥース（Ｂｌｕｅｔｏｏｔｈ（登録商標））、又は、衛星通信等、もしくは、これらの２つ以上の組合せを含むことができる。ネットワークは、１つ又は複数のネットワークを含むことができる。

【0016】

端末は、例えば、スマートフォン、携帯電話（フィーチャーフォン）、コンピュータ（例えば、デスクトップＰＣ、ラップトップＰＣ、タブレットＰＣ等）、メディアコンピュータプラットホーム（例えば、ケーブル、衛星セットトップボックス、デジタルビデオレコーダ）、ハンドヘルドコンピュータデバイス（例えば、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、電子メールクライアント等）、ウェアラブル端末（メガネ型デバイス、時計型デバイス等）、又は他種のコンピュータ、又はコミュニケーションプラットホームを含む。また、端末は情報処理端末と表現されてもよい。

【0017】

サーバ１００は、端末に対して、所定のサービスを提供する機能を備える。サーバ１００は、本開示に係る実施形態の機能を実現できる情報処理装置であればどのような装置であってもよい。サーバ１００は、例えば、サーバ装置、コンピュータ（例えば、デスクトップＰＣ、ラップトップＰＣ、タブレットＰＣ等）、メディアコンピュータプラットホーム（例えば、ケーブル、衛星セットトップボックス、デジタルビデオレコーダ）、ハンドヘルドコンピュータデバイス（例えば、ＰＤＡ、電子メールクライアント等）、あるいは他種のコンピュータ、又はコミュニケーションプラットホームを含む。また、サーバ１００は情報処理装置と表現されてもよい。サーバ１００と端末とを区別する必要がない場合は、サーバ１００と端末とは、それぞれ情報処理装置と表現されてもよいし、されなくてもよい。

【0018】

図１に示すように、サーバ１００は、通信部１１０、記憶部１２０、制御部１３０、入出力部１４０、表示部１５０及びスピーカ１６０を備えている。サーバ１００のハードウェアの各構成要素は、例えば、バスを介して相互に接続されている。サーバ１００のハードウェア構成として、ここで説明する全ての構成要素を含むことは必須ではない。例えば、サーバ１００は、スピーカ１６０等の個々の構成要素、又は複数の構成要素を取り外すような構成であってもよいし、そうでなくてもよい。

【0019】

通信部１１０は、ネットワークを介して各種データの送受信を行う。当該通信は、有線、無線のいずれで実行されてもよく、互いの通信が実行できるのであれば、どのような通信プロトコルを用いてもよい。通信部１１０は、ネットワークを介して、端末等との通信を実行する機能を有する。

【0020】

通信部１１０は、送信部１１１及び受信部１１２を含んでいる。送信部１１１は、各種データを制御部１３０からの指示に従って、端末等に送信する。受信部１１２は、端末等から送信された各種データを受信し、制御部１３０に伝達する。なお、通信部１１０を通信Ｉ／Ｆ（インタフェース）と表現する場合もある。また、通信部１１０が物理的に構造化された回路で構成される場合には、通信回路と表現する場合もある。

【0021】

入出力部１４０は、入力部及び出力部を含む。入力部は、サーバ１００に対する各種操作を入力する装置である。出力部は、サーバ１００で処理された処理結果を出力する装置である。入出力部１４０は、入力部と出力部が一体化していてもよいし、入力部と出力部に分離していてもよいし、そうでなくてもよい。

【0022】

入力部は、ユーザからの入力を受け付けて、当該入力に係る情報を制御部１３０に伝達できる全ての種類の装置のいずれか、又は、その組み合わせにより実現される。入力部は、例えば、タッチパネル、タッチディスプレイ、キーボード等のハードウェアキーや、マウス、タッチパッド等のポインティングデバイス等を含み得る。

【0023】

出力部は、制御部１３０で処理された処理結果を出力することができる全ての種類の装置のいずれか、又は、その組み合わせにより実現される。出力部は、例えば、タッチパネル、タッチディスプレイ、スピーカ（音声出力）、レンズ（例えば３Ｄ（ＴｈｒｅｅＤｉｍｅｎｓｉｏｎｓ）出力や、ホログラム出力）、プリンター等を含み得る。

【0024】

表示部１５０は、フレームバッファに書き込まれた表示データに従って、表示することができる全ての種類の装置のいずれか、又は、その組み合わせにより実現される。表示部１５０は、例えば、タッチパネル、タッチディスプレイ、モニタ（例えば、液晶ディスプレイやＯＥＬＤ（ＯｒｇａｎｉｃＥｌｅｃｔｒｏｌｕｍｉｎｅｓｃｅｎｃｅＤｉｓｐｌａｙ）等）、ヘッドマウントディスプレイ（ＨＤＭ：ＨｅａｄＭｏｕｎｔｅｄＤｉｓｐｌａｙ）、プロジェクションマッピング、ホログラム、空気中等（真空であってもよいし、そうでなくてもよい）に画像やテキスト情報等を表示可能な装置を含み得る。なお、これらの表示部１５０は、３Ｄで表示データを表示可能であってもよいし、そうでなくてもよい。

【0025】

なお、入出力部１４０がタッチパネルを有する場合、入出力部１４０と表示部１５０とは、略同一の大きさ及び形状で対向して配置されていてもよい。スピーカ１６０は、音声データの出力に利用される。

【0026】

制御部１３０は、プログラム内に含まれたコード又は命令によって実現する機能を実行するために物理的に構造化された回路を有し、例えば、ハードウェアに内蔵されたデータ処理装置により実現される。そのため、制御部１３０は、制御回路と表現されてもよいし、されなくてもよい。

【0027】

制御部１３０は、代表的には、中央処理装置（ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）であり、その他に、マイクロプロセッサ（Ｍｉｃｒｏｐｒｏｃｅｓｓｏｒ）、プロセッサコア（ＰｒｏｃｅｓｓｏｒＣｏｒｅ）、マルチプロセッサ（Ｍｕｌｔｉｐｒｏｃｅｓｓｏｒ）、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ－ＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等であってもよいし、そうでなくともよい。本開示において、制御部１３０は、これらに限定されない。

【0028】

記憶部１２０は、サーバ１００が動作するうえで必要とする各種プログラムや各種データを記憶する機能を有する。記憶部１２０は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、フラッシュメモリ、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等各種の記憶媒体により実現される。ただし、本開示において、記憶部１２０は、これらに限定されない。また、記憶部１２０は、メモリ（Ｍｅｍｏｒｙ）と表現されてもよいし、されなくてもよい。

【0029】

サーバ１００は、プログラムを記憶部１２０に記憶し、このプログラムを実行することで、制御部１３０が、制御部１３０に含まれる各部としての処理を実行する。つまり、記憶部１２０に記憶されるプログラムは、サーバ１００に、制御部１３０が実行する各機能を実現させる。換言すれば、サーバ１００においてメモリに記憶されたプログラムをプロセッサが実行し、サーバ１００のハードウェアとソフトウェアとが協働することによって、サーバ１００が備える各部の機能が実現される。なお、このプログラムは、プログラムモジュールと表現されてもよいし、されなくてもよい。

【0030】

なお、サーバ１００の制御部１３０は、制御回路を有するＣＰＵだけでなく、集積回路（ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）チップ、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ））等に形成された論理回路（ハードウェア）や専用回路によって各処理を実現してもよいし、そうでなくてもよい。また、これらの回路は、１又は複数の集積回路により実現されてよく、本開示に係る実施形態に示す複数の処理を１つの集積回路により実現されることとしてもよいし、そうでなくてもよい。また、ＬＳＩは、集積度の違いにより、ＶＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩ等と呼称されることもある。

【0031】

また、本開示に係る実施形態のプログラム(例えば、ソフトウェアプログラム、コンピュータプログラム、又はプログラムモジュール)は、コンピュータに読み取り可能な記憶媒体に記憶された状態で提供されてもよいし、されなくてもよい。記憶媒体は、「一時的でない有形の媒体」に、プログラムを記憶可能である。また、プログラムは、本開示に係る実施形態の機能の一部を実現するためのものであってもよいし、そうでなくてもよい。さらに、本開示に係る実施形態の機能を記憶媒体に既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよいし、そうでなくてもよい。

【0032】

記憶媒体は、１つ又は複数の半導体ベースの、又は他の集積回路（ＩＣ）（例えば、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）又は特定用途向けＩＣ（ＡＳＩＣ）等）、ハード・ディスク・ドライブ（ＨＤＤ）、ハイブリッド・ハード・ドライブ（ＨＨＤ）、光ディスク、光ディスクドライブ（ＯＤＤ）、光磁気ディスク、光磁気ドライブ、フロッピィ・ディスケット、フロッピィ・ディスク・ドライブ（ＦＤＤ）、磁気テープ、固体ドライブ（ＳＳＤ）、ＲＡＭドライブ、セキュア・デジタル・カード、又はドライブ、任意の他の適切な記憶媒体、もしくは、これらの２つ以上の適切な組合せを含むことができる。記憶媒体は、適切な場合、揮発性、不揮発性、又は揮発性と不揮発性の組合せでよい。なお、記憶媒体はこれらの例に限られず、プログラムを記憶可能であれば、どのようなデバイス又は媒体であってもよい。また、記憶媒体をメモリ（Ｍｅｍｏｒｙ）と表現されてもよいし、されなくてもよい。

【0033】

また、本開示のプログラムは、当該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して、サーバ１００に提供されてもよいし、されなくてもよい。プログラムが伝送媒体を介して提供される場合、サーバ１００は、例えば、インターネット等を介してダウンロードしたプログラムを実行することにより、各実施形態に示す複数の機能部の機能を実現することが可能である。

【0034】

また、本開示に係る実施形態は、プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。また、サーバ１００における処理の少なくとも一部は、１以上のコンピュータにより構成されるクラウドコンピューティングにより実現されていてもよいし、そうでなくてもよい。また、端末における処理の少なくとも一部を、サーバ１００により行う構成としてもよいし、そうでなくてもよい。また、サーバ１００における処理の少なくとも一部を、端末により行う構成としてもよいし、そうでなくてもよい。この場合、サーバ１００の制御部１３０の各機能部の処理のうち少なくとも一部の処理を、端末で行う構成としてもよいし、そうでなくてもよい。

【0035】

なお、本開示のプログラムは、例えば、ＡｃｔｉｏｎＳｃｒｉｐｔ、ＪａｖａＳｃｒｉｐｔ（登録商標）等のスクリプト言語、Ｏｂｊｅｃｔｉｖｅ－Ｃ、Ｊａｖａ（登録商標）等のオブジェクト指向プログラミング言語、ＨＴＭＬ５等のマークアップ言語等を用いて実装され得る。

【0036】

本開示に係る音声合成システムは、与えられた日本語テキスト（以下においては、単に「テキスト」ともいう）を読み上げた音声を人工的に合成する、いわゆるテキスト音声合成（ＴＴＳ：Ｔｅｘｔ－Ｔｏ－Ｓｐｅｅｃｈ）を行うものである。この実施の形態に係る仲介システムにおいては、図１に示すように、サーバ１００の記憶部１２０は、コーパスデータ記憶部１２１、学習済みモデル記憶部１２２及び合成音声データ記憶部１２３を含んでいる。

【0037】

コーパスデータ記憶部１２１は、与えられた日本語テキストを形態素解析するために用いる辞書データ、コーパスデータ等を記憶している。学習済みモデル記憶部１２２は、与えられた日本語テキストから、当該日本語テキストを発声した際のアクセントを推定するための学習済みモデルを記憶している。合成音声データ記憶部１２３は、合成音声の元となる音声波形辞書データ、音声波形コーパスデータ等を記憶している。

【0038】

この実施の形態に係る音声合成システムにおいては、サーバ１００は、制御部１３０により実現される機能として、データ取得部１３１、推定部２００及び音声合成部１３２を備えている。データ取得部１３１は、推定部２００に入力するための入力データを取得する。入力データには、音声合成対象の日本語テキストデータが含まれている。例えば、音声合成システムの利用者は、音声合成対象の日本語テキストを入出力部１４０のキーボード、タッチパネル等を操作して入力する。データ取得部１３１は、こうして入出力部１４０を介して入力された日本語テキストを入力データとして取得する。データ取得部１３１は、サーバ１００の外部から入力データを取得してもよい。例えば、音声合成システムの利用者は、サーバ１００外部０の端末を操作して音声合成対象の日本語テキストを入力する。入力されたテキストデータは、端末からネットワークを介してサーバ１００に送信される。サーバ１００の受信部１１２は、端末から送信されたテキストデータを受信する。そして、データ取得部１３１は、受信部１１２により受信されたテキストデータを入力データとして取得する。

【0039】

推定部２００は、学習済みモデル記憶部１２２に記憶されている学習済みモデルを用いて、データ取得部１３１により取得された入力データから、入力データに含まれるテキストデータにおけるイントネーション句の区切り位置、テキストデータにおけるアクセント句の区切り位置、及び、テキストデータにおけるアクセント核の位置を推定する。そして、推定部２００は、テキストデータにおける、イントネーション句の区切り位置、アクセント句の区切り位置、及び、アクセント核の位置の推定結果を出力する。なお、ここで説明する構成例では、推定部２００は、学習済みモデル記憶部１２２に記憶されている学習済みモデルに加えて、コーパスデータ記憶部１２１に記憶されている辞書データ及びコーパスデータをさらに用いて、テキストデータにおける、イントネーション句の区切り位置、アクセント句の区切り位置、及び、アクセント核の位置を推定する。

【0040】

ここで、図２を参照しながら、日本語テキストにおけるイントネーション句、アクセント句及びアクセント核について説明する。日本語では、同図に示すように、アクセントは各モーラのピッチの「高（Ｈ）」及び「低（Ｌ）」で表現される。発話は、イントネーション句（ＩＰ：ＩｎｔｏｎａｔｉｏｎＰｈｒａｓｅ）のグループから構成される。イントネーション句はイントネーションの基本単位である。イントネーション句は、１つ以上のアクセント句（ＡＰ：ＡｃｃｅｎｔＰｈｒａｓｅ）から構成される。各アクセント句は、最大で１モーラのピッチダウンを含んでいる。このピッチダウンが起こるモーラをアクセント核（ＡＮ：ＡｃｃｅｎｔＮｕｃｌｅｕｓ）と呼ぶ。アクセント核は単語レベルの属性であると考えられている。しかし、アクセント核は、文脈（単語の組み合わせ等）によりしばしば変化する。この現象は、アクセント結合と呼ばれている。

【0041】

図２の例は、「環境破壊は深刻なトピックだ」という文における、イントネーション句、アクセント句、アクセント核、及び、アクセント結合を示すものである。この文に含まれているイントネーション句は、「環境破壊は」と「深刻なトピックだ」の２つである。この文に含まれているアクセント句は、「環境破壊は」と「深刻な」と「トピックだ」の３つである。「環境破壊は」というイントネーション句は、１つのアクセント句を含んでいる。「深刻なトピックだ」というイントネーション句は、「深刻な」と「トピックだ」の２つのアクセント句を含んでいる。そして、「環境破壊は」というアクセント句におけるアクセント核は、「破壊」の「は」の位置にある。

【0042】

また、「環境」という４モーラの単語のアクセントは「低・高・高・高」であり、「環境」という３モーラの単語のアクセントは「低・高・高」である。一方、「環境破壊」という語では、アクセント結合が起こり、各単語のアクセントから変化する。具体的には、「環境破壊」という語のアクセントは「低・高・高・高・高・低・低・低」となる。このように、日本語ではアクセント結合が起こるため、単語ごとのアクセントを単純に繋げただけでは、アクセント核の位置を正確に特定することが難しい。アクセント核の位置を正確に特定するには、単語の組み合わせ等の文脈を考慮に入れることが重要となる。

【0043】

この実施の形態に係る音声合成システムにおける推定部２００の構成について、図３を参照しながら説明する。同図に示すように、推定部２００は、前処理部２１０、エンコーダ２２０、第１デコーダ２３１、第２デコーダ２３２及び第３デコーダ２３３を備えている。

【0044】

前処理部２１０は、データ取得部が取得した入力データに前処理を施して特徴量を出力する。この前処理においては、前処理部２１０は、入力データの日本語テキストをモーラ単位に分解する。また、前処理においては、前処理部２１０は、コーパスデータ記憶部１２１に記憶されている辞書データ及びコーパスデータを用いて、入力データの日本語テキストに対して形態素解析を行い、形態素ごとに以下の属性を特徴量として取得する。

【0045】

・表記（ｓｕｒｆａｃｅ）
・品詞（ＰＯＳ：Ｐａｒｔ－Ｏｆ－Ｓｐｅｅｃｈ）タグ
・語種
・活用型（ｃＴｙｐｅ）
・活用形（ｃＦｏｒｍ）
・アクセント型（ａＴｙｐｅ）
・アクセント結合型（ａＣｏｎＴｙｐｅ）
・アクセント修飾型（ａＭｏｄＴｙｐｅ）

【0046】

ここで、品詞タグは、例えば、一般普通名詞、連体詞、一般動詞、助動詞、接頭辞等であり、ここでは５５種に分類される。語種は、例えば、和語、漢語、外来語、記号等であり、ここでは７種に分類される。活用型は、動詞及び形容詞の活用のタイプを示すもので、例えば、五段活用等であり、ここでは９４種に分類される。活用形は、動詞、形容詞及び助動詞等における活用形で、例えば、語幹、未然形、終止形、命令形等であり、ここでは３６種に分類される。アクセント型は、各形態素が個別で発話される際におけるアクセント核の位置を先頭からのモーラ数で示したものである。アクセント結合型は、単語の結合によるアクセント型の変化を分類したものであり、ここでは１７種に分類される。そして、アクセント修飾型は、活用型を持つ単語（動詞、形容詞）の結合によるアクセント型の変化を分類したものであり、ここでは６種に分類される。

【0047】

前処理部２１０は、入力データを前処理し、日本語テキストデータをモーラ単位に分解したものと、日本語テキストデータにおける形態素ごとの上記８つの属性とを出力する。前処理部２１０から出力されたデータは、エンコーダ２２０に特徴量として入力される。第１結合処理部２４１は、前処理部２１０から出力された日本語テキストデータをモーラ単位に分解したものと、日本語テキストデータにおける形態素ごとの上記８つの属性とを結合して１つのベクトルデータとして出力する。第１結合処理部２４１により結合されたデータは、エンコーダ２２０に入力される。すなわち、前処理部２１０で前処理された入力データは、第１結合処理部２４１で結合された上で、エンコーダ２２０に入力される。

【0048】

この実施の形態に係る音声合成システムでは、日本語テキストデータにおける、イントネーション句の区切り位置、アクセント句の区切り位置、及び、アクセント核の位置のそれぞれを、日本語テキストをモーラ単位に分解した系列の各要素に対するラベルとして扱う。これにより、日本語テキストをモーラ単位に分解した系列に対して適切なラベリングを行う系列ラベリング問題を解くことで、日本語テキストのアクセント推定タスクを解くことができる。

【0049】

この実施の形態において扱うアクセント推定タスクには、第１タスク、第２タスク及び第３タスクの３つのタスクが含まれている。第１タスクは、入力データからテキストデータにおけるイントネーション句の区切り位置を推定するタスクである。第２タスクは、入力データからテキストデータにおけるアクセント句の区切り位置を推定するタスクである。第３タスクは、入力データからテキストデータにおけるアクセント核の位置を推定するタスクである。

【0050】

この実施の形態において、学習済みモデル記憶部１２２に記憶されている学習済みモデルには、第１タスク、第２タスク及び第３タスクの３つのタスクを同時に学習するマルチタスク学習により生成される。学習済みモデル記憶部１２２に記憶されている学習済みモデルには、３層双方向の長・短期記憶（ＬＳＴＭ：Ｌｏｎｇ－ＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）ネットワークモデル（以下においては、Ｂｉ－ＬＳＴＭ（ＢｉｄｉｒｅｃｔｉｏｎａｌＬＳＴＭ）モデルともいう）と、条件付き確率場（ＣＲＦ：ＣｏｎｄｉｔｉｏｎａｌＲａｎｄｏｍＦｉｅｌｄ）モデルと、自己回帰（ＡＲ：Ａｕｔｏｒｅｇｒｅｓｓｉｖｅ）モデルとが含まれている。

【0051】

このうち、Ｂｉ－ＬＳＴＭモデルは、テキストの時間依存性をモデル化するものである。なお、ここでいうテキストの時間依存性とは、テキストの先頭から末尾に向かう流れを時間の流れになぞらえたもので、テキスト中の文字、単語が、それより前の（すなわち過去の）文字、単語に依存する性質を意味している。

【0052】

エンコーダ２２０は、前処理部２１０で前処理された入力データから、学習済みモデルに含まれるＢｉ－ＬＳＴＭモデルを用いて、潜在変数を推定して出力する。エンコーダ２２０が出力する潜在変数は、例えば、２５６次元の特徴量からなる。エンコーダ２２０から出力された潜在変数は、第１デコーダ２３１、第２デコーダ２３２及び第３デコーダ２３３のそれぞれに入力される。

【0053】

第１デコーダ２３１は、エンコーダ２２０から出力された潜在変数から、学習済みモデルに含まれるＣＲＦモデルを用いて、テキストデータにおけるイントネーション句の区切り位置の条件付き確率を推定し、その推定結果を出力する。第２デコーダ２３２は、エンコーダ２２０から出力された潜在変数から、学習済みモデルに含まれるＣＲＦモデルを用いて、テキストデータにおけるアクセント句の区切り位置の条件付き確率を推定し、その推定結果を出力する。第３デコーダ２３３は、エンコーダ２２０から出力された潜在変数から、学習済みモデルに含まれるＡＲモデルを用いて、テキストデータにおけるアクセント核の位置を推定し、その推定結果を出力する。

【0054】

図３に示す構成例では、エンコーダ２２０から出力された潜在変数と、第１デコーダ２３１から出力されたイントネーション句の区切り位置の推定結果とが、第２結合処理部２４２により結合される。そして、第２結合処理部２４２により結合されたデータが、第２デコーダ２３２に入力される。このようにして、第２デコーダ２３２は、エンコーダ２２０から出力された潜在変数と、第１デコーダ２３１から出力されたイントネーション句の区切り位置の推定結果とからアクセント句の区切り位置を推定する。

【0055】

前述したように、イントネーション句は１つ以上のアクセント句を含んでおり、イントネーション句の区切り位置は、必ずアクセント句の区切り位置にもなる。第２デコーダ２３２におけるアクセント句の区切り位置の推定において、エンコーダ２２０から出力された潜在変数に加えて、第１デコーダ２３１から出力されたイントネーション句の区切り位置の推定結果を併せて用いることで、このようなアクセント句のイントネーション句への依存関係を、アクセント句の区切り位置の推定結果に反映できる。

【0056】

また、同図に示す構成例では、エンコーダ２２０から出力された潜在変数と、第２デコーダ２３２から出力されたアクセント句の区切り位置の推定結果とが、第３結合処理部２４３により結合される。そして、第３結合処理部２４３により結合されたデータが、第３デコーダ２３３に入力される。このようにして、第３デコーダ２３３は、エンコーダ２２０から出力された潜在変数と、第２デコーダ２３２から出力されたアクセント句の区切り位置の推定結果とからアクセント核の位置を推定する。

【0057】

前述したように、アクセント句が含み得るアクセント核の数は最大で１つである。第３デコーダ２３３におけるアクセント核の位置の推定において、エンコーダ２２０から出力された潜在変数に加えて、第２デコーダ２３２から出力されたアクセント句の区切り位置の推定結果を併せて用いることで、このようなアクセント核のアクセント句への依存関係を、アクセント核の位置の推定結果に反映できる。以上のように、日本語テキストには、アクセント句の区切り位置がイントネーション句の区切り位置に依存し、アクセント核がアクセント句に依存するという階層的言語構造が存在する。

【0058】

図３に示すように、第３デコーダ２３３は、注意機構２５１と、２層単方向ＬＳＴＭ２５２とを有している。第３デコーダ２３３は、ＬＳＴＭ２５２の出力を第４結合処理部２４４により注意機構２５１からの出力と結合した上で、ＬＳＴＭ２５２に入力する自己回帰モデルになっている。このようにすることで、アクセント核の時間相関を考慮しつつ、モーラレベルの特徴をアクセント句レベルの推定に合わせ込むことができる。

【0059】

次に、推定部２００によるアクセント推定について、さらに詳しく説明する。入力データに前処理を施すことで、以下の式（１）に示される特徴量が入力データとして与えられたとする。

【0060】

【数1】

【0061】

また、目的とするアクセント推定結果は、以下の式（２）で表されるイントネーション句（ＩＰ）のターゲットラベル系列、以下の式（３）で表されるアクセント句（ＡＰ）のターゲットラベル系列、及び、以下の式（４）で表されるアクセント核（ＡＰ）のターゲットラベル系列である。なお、式（４）におけるＫは、入力データのテキストに含まれるアクセント句の数である。

【0062】

【数2】

【0063】

ここで、イントネーション句（式（２））及びアクセント句（式（３））の各ラベルは、それぞれ次の式（５）及び式（６）に示すように０か１の値をとる。この２進数はモーラが句の区切り位置であるかどうかを表しており、ｎ番目のラベルが「１」であるとはｎ番目のモーラが句の区切り位置であることを表している。また、次の式（７）に示すようにアクセント核のラベル（式（４））の数字はｋ番目のアクセント句におけるアクセント核の位置を表している。式（７）におけるＭはアクセント核の位置の最大値である。また、アクセント核のラベルが「０」であるとは、アクセント句にアクセント核が含まれないことを表している。

【0064】

【数3】

【0065】

全てのターゲットラベルの集合を次の式（８）により定義すると、階層的言語構造に基づいてターゲットラベルの条件付き結合分布を以下の式（９）のようにモデル化できる。ここで、式（９）の各項は、それぞれアクセント核ラベル、アクセント句ラベル、イントネーション句ラベルの条件付き確率分布を表している。

【0066】

【数4】

【0067】

学習済みモデルを生成する段階では、与えられた教師データに対し対数尤度を最大化するようにモデル全体が最適化される。対数尤度は次の式（１０）に基づき、３つの対数確率の和として計算することができる。この対数尤度の最大化は、前処理部２１０及びエンコーダ２２０のパラメータを共有しつつ、前述した第１タスク、第２タスク及び第３タスクの３つのタスクを同時に解くことと等価である。このようにして最適化された学習済みモデルを用いてアクセントを推定する段階では、最適なターゲットラベルは以下の式（１１）から式（１３）により算出できる。ただし、ターゲットラベルの可能な組み合わせをすべて探索すると計算量が莫大になるため、ここで説明する構成例では、以下のようにイントネーション句、アクセント句、アクセント核の順序で推定することとした。

【0068】

【数5】

【0069】

以上のように、推定部２００は、マルチタスク学習に基づき学習された学習済みモデルを用いて、前処理部２１０、エンコーダ２２０、第１デコーダ２３１、第２デコーダ２３２及び第３デコーダ２３３での処理を行い、系列ラベリング問題を解くことで日本語テキストのアクセントを推定する。

【0070】

制御部１３０の音声合成部１３２は、以上のようにして推定部２００による日本語テキストデータのアクセント推定結果（イントネーション句、アクセント句、アクセント核）に基づいて、日本語テキストを読み上げた音声を合成する。音声合成部１３２は、例えば、合成音声データ記憶部１２３に記憶されている音声波形辞書データ、音声波形コーパスデータから、推定部２００のアクセント推定結果により近いものを取得して用いることで音声を合成する。音声合成部１３２は、合成音声データ記憶部１２３に記憶されているデータを推定部２００のアクセント推定結果によって補正して用いてもよい。

【0071】

音声合成部１３２により合成された音声は、例えば、サーバ１００のスピーカ１６０から再生される。音声合成部１３２による合成音声をサーバ１００外部の端末等に送信して再生等を行ってもよい。この場合、送信部１１１によりネットワークを介して端末等に合成音声が送信される。

【0072】

次に、以上のように構成された音声合成システムの処理動作例について、図４のフローチャートを参照しながら説明する。まず、ステップＳ１１において、音声合成対象の日本語テキストをサーバ１００、端末等に入力する。続くステップＳ１２において、サーバ１００のデータ取得部１３１は、ステップＳ１１で入力された日本語テキストを入力データとして取得する。ステップＳ１２の後、サーバ１００の制御部１３０は次にステップＳ１３の処理を行う。

【0073】

ステップＳ１３においては、制御部１３０の推定部２００は、学習済みモデル記憶部１２２に記憶されている学習済みモデルを用いて、ステップＳ１２で取得された入力データから、日本語テキストのアクセントを推定する。このアクセント推定に用いられる学習済みモデルは、これまでに説明したように、イントネーション句の区切り位置を推定する第１タスク、アクセント句の区切り位置を推定する第２タスク、及び、アクセント核の位置を推定する第３タスクの３つのタスクを同時に学習するマルチタスク学習により生成されたものである。ステップＳ１３の後、サーバ１００の制御部１３０は次にステップＳ１４の処理を行う。

【0074】

ステップＳ１４においては、制御部１３０の音声合成部１３２は、ステップＳ１３でのアクセント推定結果に基づいて、ステップＳ１１で入力された日本語テキストを読み上げた音声を合成する。ステップＳ１４の処理が完了すれば一連の音声合成処理は終了となる。

【0075】

次に、この実施の形態に係る日本語アクセント推定結果の評価について、従来手法と比較しながら説明する。図５に示すのは各推定モデルによるイントネーション句（ＩＰ）、アクセント句（ＡＰ）及びアクセント核（ＡＮ）それぞれの推定精度の評価スコアである。

【0076】

図５の（ａ）は、ＣＲＦのみを用いてＡＰを推定するモデルである。同図の（ｂ）は、ＣＲＦのみを用いてＡＮを推定するモデルである。同図の（ｃ）は、エンコーダとしてＢｉ－ＬＳＴＭ、デコーダとしてＣＲＦを用いてＩＰを推定するモデルである。同図の（ｄ）は、エンコーダとしてＢｉ－ＬＳＴＭ、デコーダとしてＣＲＦを用いてＡＰを推定するモデルである。同図の（ｅ）は、エンコーダとしてＢｉ－ＬＳＴＭ、デコーダとしてＡＲを用いてＡＮを推定するモデルである。

【0077】

同図の（ｆ）は、エンコーダとしてＢｉ－ＬＳＴＭ、デコーダとしてＣＲＦ及びＡＲを用いてＡＰ及びＡＮを同時に推定するモデルである。このモデルは、ＡＰ推定タスクとＡＮ推定タスクの２つのタスクを同時に解決するマルチタスク学習により生成されたものである。そして、同図の（ｇ）は、本開示に係る推定モデルである。エンコーダとしてＢｉ－ＬＳＴＭ、デコーダとして２つのＣＲＦ及びＡＲを用いてＩＰ、ＡＰ及びＡＮを同時に推定するモデルである。このモデルは、ＩＰ推定タスク、ＡＰ推定タスク及びＡＮ推定タスクの３つのタスクを同時に解決するマルチタスク学習により生成されたものである。なお、同図のＦ１はモーラ単位での評価スコアであり、精度は文単位での評価スコアである。

【0078】

また、図６に示すのは、図５に示す推定モデルのいくつかを組み合わせたシステムによるＩＰ、ＡＰ及びＡＮの推定精度の評価スコアである。図６の（Ａ）は、図５の（ａ）、（ｂ）及び（ｃ）のモデルを組み合わせてＩＰ、ＡＰ及びＡＮを推定するシステムである。図６の（Ｂ）は、図５の（ｃ）、（ｄ）及び（ｅ）のモデルを組み合わせてＩＰ、ＡＰ及びＡＮを推定するシステムである。図６の（Ｃ）は、図５の（ｃ）及び（ｆ）のモデルを組み合わせてＩＰ、ＡＰ及びＡＮを推定するシステムである。すなわち、ＡＰ及びＡＮの推定についてはマルチタスク学習を用い、ＩＰについてはシングルタスク学習を用いたものである。そして、図６の（Ｄ）は、図５の（ｇ）のモデルによりＩＰ、ＡＰ及びＡＮを推定するシステム、すなわち、本開示に係る推定モデルを用いたシステムである。

【0079】

図５から分かるように、シングルタスクのモデル（ｄ）によるＡＰ推定の文レベルでの評価スコアは９０．７７％であり、シングルタスクのモデル（ｅ）によるＡＮ推定の文レベルでの評価スコアは７８．２９％である。しかしながら、これらのモデルを用いたシステム（Ｂ）によるＡＰ及びＡＮを合わせた評価スコアは、図６に示すように７５．３６％であり、モデル（ｅ）の評価スコア（７８．２９％）から２．９３％も低下している。この低下は、シングルタスクのモデル（ｄ）及び（ｅ）の食い違いに起因するものであると考えられる。

【0080】

これに対し、本開示に係るモデル（ｇ）によれば、図５から分かるように、ＡＰ推定の文レベルでの評価スコアは９０．９６％、ＡＮ推定の文レベルでの評価スコアは８０．９８％でいずれもシングルタスクのモデル（ｄ）、（ｅ）よりも良い結果である。また、本開示に係るシステム（Ｄ）によるＡＰ及びＡＮを合わせた評価スコアは、図６に示すように８０．４０％である。これは、シングルタスクのモデルを用いたシステム（Ｂ）よりも高いだけでなく、モデル（ｇ）によるＡＮ推定の評価スコア（８０．９８％）からの低下量も０．５８％に抑えられている。

【0081】

このように、本開示に係るマルチタスク学習フレームワークによれば、複数のタスクを同時に最適化することで、全体としてアクセント推定精度の向上を図ることが可能である。すなわち、日本語テキストにおける、イントネーション句、アクセント句及びアクセント核の階層的言語構造をアクセント推定結果に反映し、日本語テキストのアクセント推定精度の向上を図ることができる。

【0082】

図７に示すのは、図６の各システムによる合成音声について、平均オピニオンスコア（ＭＯＳ：ＭｅａｎＯｐｉｎｉｏｎＳｃｏｒｅ）を用いたリスニングテストの結果である。図７には、ＭＯＳを９５％信頼区間とともに示してある。また、図７中の最下段に記載したリファレンスは、人間が手動で設定した韻律情報（ＩＰ、ＡＰ、ＡＮ）を用いて合成した音声についての評価である。なお、韻律の自然さを正確に判断してもらうために、評価者には、合成音声サンプルの元となるテキストを見せている。この結果から、マルチタスク学習による手法（システム（Ｃ）及び（Ｄ））は、シングルタスクによる手法（システム（Ａ）及び（Ｂ））よりも有意に高い自然度を達成することが確認された。

【0083】

また、図８に示すのは、図７に示した結果について、成功した推定タスクの組合せごとに自然度（ＭＯＳ値）を再計算した結果である。図８中のラベルは、テストセット内の各合成音声サンプルについて、どの推定タスクが成功したかを示している。例えば、「ＩＰ＋ＡＰ」はＩＰ及びＡＰの推定タスクが成功し、ＡＮの推定タスクは失敗したアクセント推定結果を用いて合成された音声サンプルであり、すなわち、正しいＩＰ及びＡＰと誤ったＡＮの情報により合成された音声サンプルを示している。なお、図８中のＮはサンプル数を示している。また、同図中の「＊」が付いた区間は、マン－ホイットニーのＵ検定のｐ値が０．０５以下の有意差を持ち、「＊」が付いていない区間はｐ値が０．００１以下の有意差を持つ。

【0084】

図８に示す結果から、以下のことが分かる。すなわち、推定が全タスクで成功した合成音声サンプル（ＩＰ＋ＡＰ＋ＡＮ）は、他と比べてＭＯＳ値が有意に高い。また、ＡＮ推定タスクが成功した合成音声サンプル（ＩＰ＋ＡＰ＋ＡＮ、ＡＰ＋ＡＮ）は、他と比べてＭＯＳ値が有意に高い。さらに、ＩＰ推定タスク及びＡＰ推定タスクが成功した合成音声サンプル（ＩＰ＋ＡＰ）は、シングルタスク（ＩＰ、ＡＰ）だけを成功できた合成音声サンプルと比べてＭＯＳ値が有意に高い。以上から、ＡＮ推定タスクが合成音声の知覚品質に最も大きな影響を与えることが確認された。さらに、この結果から、できるだけ多くの推定タスクを成功させることができるモデルがＴＴＳのフロントエンドとしてより適していることも示された。

【0085】

本開示に係る情報処理装置、情報処理方法及びプログラムは、日本語テキストのアクセントを推定するための情報処理装置、情報処理方法及びプログラムとして活用することができる。

【符号の説明】

【0086】

１００サーバ
１１０通信部
１１１送信部
１１２受信部
１２０記憶部
１２１コーパスデータ記憶部
１２２学習済みモデル記憶部
１２３合成音声データ記憶部
１３０制御部
１３１データ取得部
１３２音声合成部
１４０入出力部
１５０表示部
１６０スピーカ
２００推定部
２１０前処理部
２２０エンコーダ
２３１第１デコーダ
２３２第２デコーダ
２３３第３デコーダ
２４１第１結合処理部
２４２第２結合処理部
２４３第３結合処理部
２４４第４結合処理部
２５１注意機構
２５２ＬＳＴＭ

【図1】