IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ワークスモバイルジャパン株式会社の特許一覧

特開2024-17562情報処理装置、情報処理方法及びプログラム
<>
  • 特開-情報処理装置、情報処理方法及びプログラム 図1
  • 特開-情報処理装置、情報処理方法及びプログラム 図2
  • 特開-情報処理装置、情報処理方法及びプログラム 図3
  • 特開-情報処理装置、情報処理方法及びプログラム 図4
  • 特開-情報処理装置、情報処理方法及びプログラム 図5
  • 特開-情報処理装置、情報処理方法及びプログラム 図6
  • 特開-情報処理装置、情報処理方法及びプログラム 図7
  • 特開-情報処理装置、情報処理方法及びプログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024017562
(43)【公開日】2024-02-08
(54)【発明の名称】情報処理装置、情報処理方法及びプログラム
(51)【国際特許分類】
   G10L 13/10 20130101AFI20240201BHJP
   G10L 25/30 20130101ALI20240201BHJP
【FI】
G10L13/10 113Z
G10L25/30
G10L13/10 111C
G10L13/10 111B
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2022120281
(22)【出願日】2022-07-28
(71)【出願人】
【識別番号】523303688
【氏名又は名称】ワークスモバイルジャパン株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】朴 炳宣
(72)【発明者】
【氏名】山本 龍一
(72)【発明者】
【氏名】橘 健太郎
(57)【要約】
【課題】日本語テキストのアクセント推定精度の向上を図ることができる情報処理装置等を提供する。
【解決手段】情報処理装置は、音声合成対象のテキストデータを含む入力データを取得するデータ取得部と、入力データからテキストデータにおけるイントネーション句の区切り位置を推定する第1タスク、入力データからテキストデータにおけるアクセント句の区切り位置を推定する第2タスク、及び、入力データからテキストデータにおけるアクセント核の位置を推定する第3タスクを含むマルチタスク学習に基づき学習された学習済みモデルを用いて、入力データからテキストデータにおけるイントネーション句の区切り位置、テキストデータにおけるアクセント句の区切り位置、及び、テキストデータにおけるアクセント核の位置の推定結果を出力する推定部と、を含む。
【選択図】図3
【特許請求の範囲】
【請求項1】
情報処理装置であって、
音声合成対象のテキストデータを含む入力データを取得するデータ取得部と、
前記入力データから前記テキストデータにおけるイントネーション句の区切り位置を推定する第1タスク、前記入力データから前記テキストデータにおけるアクセント句の区切り位置を推定する第2タスク、及び、前記入力データから前記テキストデータにおけるアクセント核の位置を推定する第3タスクを含むマルチタスク学習に基づき学習された学習済みモデルを用いて、前記入力データから前記テキストデータにおけるイントネーション句の区切り位置、前記テキストデータにおけるアクセント句の区切り位置、及び、前記テキストデータにおけるアクセント核の位置の推定結果を出力する推定部と、を含む。
【請求項2】
請求項1に記載の情報処理装置であって、
前記推定部は、
前記入力データから前記学習済みモデルを用いて、潜在変数を出力するエンコーダと、
前記潜在変数から前記テキストデータにおけるイントネーション句の区切り位置の推定結果を出力する第1デコーダと、
前記潜在変数から前記テキストデータにおけるアクセント句の区切り位置の推定結果を出力する第2デコーダと、
前記潜在変数から前記テキストデータにおけるアクセント核の位置の推定結果を出力する第3デコーダと、を含む。
【請求項3】
請求項2に記載の情報処理装置であって、
前記第2デコーダは、前記潜在変数と前記第1デコーダの出力とから前記テキストデータにおけるアクセント句の区切り位置の推定結果を出力する。
【請求項4】
請求項2又は請求項3に記載の情報処理装置であって、
前記第3デコーダは、前記潜在変数と前記第2デコーダの出力とから前記テキストデータにおけるアクセント核の位置の推定結果を出力する。
【請求項5】
請求項1又は請求項2に記載の情報処理装置であって、
前記入力データは、前記テキストデータをモーラ単位に分解したものである。
【請求項6】
情報処理装置のコンピュータが実行する情報処理方法であって、
音声合成対象のテキストデータを含む入力データを取得することと、
前記入力データから前記テキストデータにおけるイントネーション句の区切り位置を推定する第1タスク、前記入力データから前記テキストデータにおけるアクセント句の区切り位置を推定する第2タスク、及び、前記入力データから前記テキストデータにおけるアクセント核の位置を推定する第3タスクを含むマルチタスク学習に基づき学習された学習済みモデルを用いて、前記入力データから前記テキストデータにおけるイントネーション句の区切り位置、前記テキストデータにおけるアクセント句の区切り位置、及び、前記テキストデータにおけるアクセント核の位置の推定結果を出力することと、を含む。
【請求項7】
情報処理装置のコンピュータに実行されるためのプログラムであって、
音声合成対象のテキストデータを含む入力データを取得することと、
前記入力データから前記テキストデータにおけるイントネーション句の区切り位置を推定する第1タスク、前記入力データから前記テキストデータにおけるアクセント句の区切り位置を推定する第2タスク、及び、前記入力データから前記テキストデータにおけるアクセント核の位置を推定する第3タスクを含むマルチタスク学習に基づき学習された学習済みモデルを用いて、前記入力データから前記テキストデータにおけるイントネーション句の区切り位置、前記テキストデータにおけるアクセント句の区切り位置、及び、前記テキストデータにおけるアクセント核の位置の推定結果を出力することと、が前記情報処理装置のコンピュータに実行される。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、情報処理方法及びプログラムに関するものである。
【背景技術】
【0002】
日本語テキストのアクセント推定においては、テキストにおけるアクセント句(AP)の区切り位置とアクセント核(AN)の位置とをそれぞれ予測するための2つの推定モデルを別々に訓練するものが知られている(例えば、特許文献1参照)。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】鈴木 雅之, 他3名, "条件付き確率場を用いた日本語東京方言のアクセント結合自動推定", 電子情報通信学会論文誌 Vol.J96-D, No.3, pp.644-654, 一般社団法人電子情報通信学会, 2013
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1に示されるような日本語テキストのアクセント推定手法においては、テキストにおけるアクセント句の区切り位置とアクセント核の位置とをそれぞれ予測するための2つの推定モデルを別々に訓練するため、アクセント句とアクセント核の階層的言語構造がアクセント推定結果に十分に反映されているとは言い難い。また、日本語テキストには、アクセント句とアクセント核に加えて、イントネーション句(IP)との関係においても言語構造に階層的な依存性が見られるものの、そのようなイントネーション句(IP)との関係についても考慮に入れられていない。このため、日本語テキストのアクセント推定については精度向上の余地がある。
【0005】
本開示は、このような課題を解決するためになされたものである。その目的は、日本語テキストのアクセント推定精度の向上を図ることができる情報処理装置、情報処理方法及びプログラムを提供することにある。
【課題を解決するための手段】
【0006】
本開示に係る情報処理装置は、音声合成対象のテキストデータを含む入力データを取得するデータ取得部と、前記入力データから前記テキストデータにおけるイントネーション句の区切り位置を推定する第1タスク、前記入力データから前記テキストデータにおけるアクセント句の区切り位置を推定する第2タスク、及び、前記入力データから前記テキストデータにおけるアクセント核の位置を推定する第3タスクを含むマルチタスク学習に基づき学習された学習済みモデルを用いて、前記入力データから前記テキストデータにおけるイントネーション句の区切り位置、前記テキストデータにおけるアクセント句の区切り位置、及び、前記テキストデータにおけるアクセント核の位置の推定結果を出力する推定部と、を含む。
【0007】
本開示に係る情報処理方法は、情報処理装置のコンピュータが実行する情報処理方法であって、音声合成対象のテキストデータを含む入力データを取得することと、前記入力データから前記テキストデータにおけるイントネーション句の区切り位置を推定する第1タスク、前記入力データから前記テキストデータにおけるアクセント句の区切り位置を推定する第2タスク、及び、前記入力データから前記テキストデータにおけるアクセント核の位置を推定する第3タスクを含むマルチタスク学習に基づき学習された学習済みモデルを用いて、前記入力データから前記テキストデータにおけるイントネーション句の区切り位置、前記テキストデータにおけるアクセント句の区切り位置、及び、前記テキストデータにおけるアクセント核の位置の推定結果を出力することと、を含む。
【0008】
本開示に係るプログラムは、情報処理装置のコンピュータに実行されるためのプログラムであって、音声合成対象のテキストデータを含む入力データを取得することと、前記入力データから前記テキストデータにおけるイントネーション句の区切り位置を推定する第1タスク、前記入力データから前記テキストデータにおけるアクセント句の区切り位置を推定する第2タスク、及び、前記入力データから前記テキストデータにおけるアクセント核の位置を推定する第3タスクを含むマルチタスク学習に基づき学習された学習済みモデルを用いて、前記入力データから前記テキストデータにおけるイントネーション句の区切り位置、前記テキストデータにおけるアクセント句の区切り位置、及び、前記テキストデータにおけるアクセント核の位置の推定結果を出力することと、が前記情報処理装置のコンピュータに実行される。
【発明の効果】
【0009】
本開示に係る情報処理装置、情報処理方法及びプログラムによれば、日本語テキストのアクセント推定精度の向上を図ることができるという効果を奏する。
【図面の簡単な説明】
【0010】
図1】実施の形態1に係る音声合成システムのサーバ(情報処理装置)の構成を示すブロック図である。
図2】日本語テキストにおけるイントネーション句、アクセント句、アクセント核及びアクセント結合について説明する図である。
図3】実施の形態1に係る音声合成システムのサーバが備える推定部の構成概略を示すブロック図である。
図4】実施の形態1に係る音声合成システムのサーバ(情報処理装置)の処理動作の一例を示すフローチャートである。
図5】実施の形態1に係る音声合成システムが用いる推定モデルによるアクセント推定精度を示す図である。
図6】実施の形態1に係る音声合成システムが用いる推定モデルによるアクセント推定精度を示す図である。
図7】実施の形態1に係る音声合成システムによる合成音声の評価値を示す図である。
図8】実施の形態1に係る音声合成システムによる合成音声の評価値を示す図である。
【発明を実施するための形態】
【0011】
本開示に係る情報処理装置、情報処理方法及びプログラムを実施するための形態について添付の図面を参照しながら説明する。各図において、同一又は相当する部分には同一の符号を付して、重複する説明は適宜に簡略化又は省略する。以下の説明においては便宜上、図示の状態を基準に各構造の位置関係を表現することがある。なお、本開示は以下の実施の形態に限定されることなく、本開示の趣旨を逸脱しない範囲において、各実施の形態の自由な組み合わせ、各実施の形態の任意の構成要素の変形、又は各実施の形態の任意の構成要素の省略が可能である。
【0012】
実施の形態1.
図1から図8を参照しながら、本開示の実施の形態1について説明する。図1は音声合成システムのサーバ(情報処理装置)の構成を示すブロック図である。図2は日本語テキストにおけるイントネーション句、アクセント句、アクセント核及びアクセント結合について説明する図である。図3は音声合成システムのサーバが備える推定部の構成概略を示すブロック図である。図4は音声合成システムのサーバの処理動作の一例を示すフローチャートである。図5及び図6は音声合成システムが用いる推定モデルによるアクセント推定精度を示す図である。図7及び図8は音声合成システムによる合成音声の評価値を示す図である。
【0013】
この実施の形態に係る音声合成システムは、図1に示すように、サーバ100を備えている。音声合成システムでは、サーバ100は、図示しないネットワークを介して図示しない端末等と通信可能に接続されている。サーバ100は、ネットワークを介してユーザが所有する端末に、音声合成サービス等を提供する。
【0014】
ネットワークは、1以上の端末と、1以上のサーバ100とを接続する役割を担う。すなわち、ネットワークは、端末がサーバ100に接続した後、データを送受信することができるように接続経路を提供する通信網を意味する。ネットワークのうちの1つ又は複数の部分は、有線ネットワークや無線ネットワークであってもよいし、そうでなくてもよい。
【0015】
ネットワークは、例えば、アドホック・ネットワーク(Ad Hoc Network)、イントラネット、エクストラネット、仮想プライベート・ネットワーク(Virtual Private Network:VPN)、ローカル・エリア・ネットワーク(Local Area Network:LAN)、ワイヤレスLAN(Wireless LAN:WLAN)、広域ネットワーク(Wide Area Network:WAN)、ワイヤレスWAN(Wireless WAN:WWAN)、大都市圏ネットワーク(Metropolitan Area Network:MAN)、インターネットの一部、公衆交換電話網(Public Switched Telephone Network:PSTN)の一部、携帯電話網、ISDN(Integrated Service Digital Networks)、無線LAN、LTE(Long Term Evolution)、CDMA(Code Division Multiple Access)、ブルートゥース(Bluetooth(登録商標))、又は、衛星通信等、もしくは、これらの2つ以上の組合せを含むことができる。ネットワークは、1つ又は複数のネットワークを含むことができる。
【0016】
端末は、例えば、スマートフォン、携帯電話(フィーチャーフォン)、コンピュータ(例えば、デスクトップPC、ラップトップPC、タブレットPC等)、メディアコンピュータプラットホーム(例えば、ケーブル、衛星セットトップボックス、デジタルビデオレコーダ)、ハンドヘルドコンピュータデバイス(例えば、PDA(Personal Digital Assistant)、電子メールクライアント等)、ウェアラブル端末(メガネ型デバイス、時計型デバイス等)、又は他種のコンピュータ、又はコミュニケーションプラットホームを含む。また、端末は情報処理端末と表現されてもよい。
【0017】
サーバ100は、端末に対して、所定のサービスを提供する機能を備える。サーバ100は、本開示に係る実施形態の機能を実現できる情報処理装置であればどのような装置であってもよい。サーバ100は、例えば、サーバ装置、コンピュータ(例えば、デスクトップPC、ラップトップPC、タブレットPC等)、メディアコンピュータプラットホーム(例えば、ケーブル、衛星セットトップボックス、デジタルビデオレコーダ)、ハンドヘルドコンピュータデバイス(例えば、PDA、電子メールクライアント等)、あるいは他種のコンピュータ、又はコミュニケーションプラットホームを含む。また、サーバ100は情報処理装置と表現されてもよい。サーバ100と端末とを区別する必要がない場合は、サーバ100と端末とは、それぞれ情報処理装置と表現されてもよいし、されなくてもよい。
【0018】
図1に示すように、サーバ100は、通信部110、記憶部120、制御部130、入出力部140、表示部150及びスピーカ160を備えている。サーバ100のハードウェアの各構成要素は、例えば、バスを介して相互に接続されている。サーバ100のハードウェア構成として、ここで説明する全ての構成要素を含むことは必須ではない。例えば、サーバ100は、スピーカ160等の個々の構成要素、又は複数の構成要素を取り外すような構成であってもよいし、そうでなくてもよい。
【0019】
通信部110は、ネットワークを介して各種データの送受信を行う。当該通信は、有線、無線のいずれで実行されてもよく、互いの通信が実行できるのであれば、どのような通信プロトコルを用いてもよい。通信部110は、ネットワークを介して、端末等との通信を実行する機能を有する。
【0020】
通信部110は、送信部111及び受信部112を含んでいる。送信部111は、各種データを制御部130からの指示に従って、端末等に送信する。受信部112は、端末等から送信された各種データを受信し、制御部130に伝達する。なお、通信部110を通信I/F(インタフェース)と表現する場合もある。また、通信部110が物理的に構造化された回路で構成される場合には、通信回路と表現する場合もある。
【0021】
入出力部140は、入力部及び出力部を含む。入力部は、サーバ100に対する各種操作を入力する装置である。出力部は、サーバ100で処理された処理結果を出力する装置である。入出力部140は、入力部と出力部が一体化していてもよいし、入力部と出力部に分離していてもよいし、そうでなくてもよい。
【0022】
入力部は、ユーザからの入力を受け付けて、当該入力に係る情報を制御部130に伝達できる全ての種類の装置のいずれか、又は、その組み合わせにより実現される。入力部は、例えば、タッチパネル、タッチディスプレイ、キーボード等のハードウェアキーや、マウス、タッチパッド等のポインティングデバイス等を含み得る。
【0023】
出力部は、制御部130で処理された処理結果を出力することができる全ての種類の装置のいずれか、又は、その組み合わせにより実現される。出力部は、例えば、タッチパネル、タッチディスプレイ、スピーカ(音声出力)、レンズ(例えば3D(Three Dimensions)出力や、ホログラム出力)、プリンター等を含み得る。
【0024】
表示部150は、フレームバッファに書き込まれた表示データに従って、表示することができる全ての種類の装置のいずれか、又は、その組み合わせにより実現される。表示部150は、例えば、タッチパネル、タッチディスプレイ、モニタ(例えば、液晶ディスプレイやOELD(Organic Electroluminescence Display)等)、ヘッドマウントディスプレイ(HDM:Head Mounted Display)、プロジェクションマッピング、ホログラム、空気中等(真空であってもよいし、そうでなくてもよい)に画像やテキスト情報等を表示可能な装置を含み得る。なお、これらの表示部150は、3Dで表示データを表示可能であってもよいし、そうでなくてもよい。
【0025】
なお、入出力部140がタッチパネルを有する場合、入出力部140と表示部150とは、略同一の大きさ及び形状で対向して配置されていてもよい。スピーカ160は、音声データの出力に利用される。
【0026】
制御部130は、プログラム内に含まれたコード又は命令によって実現する機能を実行するために物理的に構造化された回路を有し、例えば、ハードウェアに内蔵されたデータ処理装置により実現される。そのため、制御部130は、制御回路と表現されてもよいし、されなくてもよい。
【0027】
制御部130は、代表的には、中央処理装置(CPU:Central Processing Unit)であり、その他に、マイクロプロセッサ(Microprocessor)、プロセッサコア(Processor Core)、マルチプロセッサ(Multiprocessor)、ASIC(Application-Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等であってもよいし、そうでなくともよい。本開示において、制御部130は、これらに限定されない。
【0028】
記憶部120は、サーバ100が動作するうえで必要とする各種プログラムや各種データを記憶する機能を有する。記憶部120は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ、RAM(Random Access Memory)、ROM(Read Only Memory)等各種の記憶媒体により実現される。ただし、本開示において、記憶部120は、これらに限定されない。また、記憶部120は、メモリ(Memory)と表現されてもよいし、されなくてもよい。
【0029】
サーバ100は、プログラムを記憶部120に記憶し、このプログラムを実行することで、制御部130が、制御部130に含まれる各部としての処理を実行する。つまり、記憶部120に記憶されるプログラムは、サーバ100に、制御部130が実行する各機能を実現させる。換言すれば、サーバ100においてメモリに記憶されたプログラムをプロセッサが実行し、サーバ100のハードウェアとソフトウェアとが協働することによって、サーバ100が備える各部の機能が実現される。なお、このプログラムは、プログラムモジュールと表現されてもよいし、されなくてもよい。
【0030】
なお、サーバ100の制御部130は、制御回路を有するCPUだけでなく、集積回路(IC(Integrated Circuit)チップ、LSI(Large Scale Integration))等に形成された論理回路(ハードウェア)や専用回路によって各処理を実現してもよいし、そうでなくてもよい。また、これらの回路は、1又は複数の集積回路により実現されてよく、本開示に係る実施形態に示す複数の処理を1つの集積回路により実現されることとしてもよいし、そうでなくてもよい。また、LSIは、集積度の違いにより、VLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
【0031】
また、本開示に係る実施形態のプログラム(例えば、ソフトウェアプログラム、コンピュータプログラム、又はプログラムモジュール)は、コンピュータに読み取り可能な記憶媒体に記憶された状態で提供されてもよいし、されなくてもよい。記憶媒体は、「一時的でない有形の媒体」に、プログラムを記憶可能である。また、プログラムは、本開示に係る実施形態の機能の一部を実現するためのものであってもよいし、そうでなくてもよい。さらに、本開示に係る実施形態の機能を記憶媒体に既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよいし、そうでなくてもよい。
【0032】
記憶媒体は、1つ又は複数の半導体ベースの、又は他の集積回路(IC)(例えば、フィールド・プログラマブル・ゲート・アレイ(FPGA)又は特定用途向けIC(ASIC)等)、ハード・ディスク・ドライブ(HDD)、ハイブリッド・ハード・ドライブ(HHD)、光ディスク、光ディスクドライブ(ODD)、光磁気ディスク、光磁気ドライブ、フロッピィ・ディスケット、フロッピィ・ディスク・ドライブ(FDD)、磁気テープ、固体ドライブ(SSD)、RAMドライブ、セキュア・デジタル・カード、又はドライブ、任意の他の適切な記憶媒体、もしくは、これらの2つ以上の適切な組合せを含むことができる。記憶媒体は、適切な場合、揮発性、不揮発性、又は揮発性と不揮発性の組合せでよい。なお、記憶媒体はこれらの例に限られず、プログラムを記憶可能であれば、どのようなデバイス又は媒体であってもよい。また、記憶媒体をメモリ(Memory)と表現されてもよいし、されなくてもよい。
【0033】
また、本開示のプログラムは、当該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して、サーバ100に提供されてもよいし、されなくてもよい。プログラムが伝送媒体を介して提供される場合、サーバ100は、例えば、インターネット等を介してダウンロードしたプログラムを実行することにより、各実施形態に示す複数の機能部の機能を実現することが可能である。
【0034】
また、本開示に係る実施形態は、プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。また、サーバ100における処理の少なくとも一部は、1以上のコンピュータにより構成されるクラウドコンピューティングにより実現されていてもよいし、そうでなくてもよい。また、端末における処理の少なくとも一部を、サーバ100により行う構成としてもよいし、そうでなくてもよい。また、サーバ100における処理の少なくとも一部を、端末により行う構成としてもよいし、そうでなくてもよい。この場合、サーバ100の制御部130の各機能部の処理のうち少なくとも一部の処理を、端末で行う構成としてもよいし、そうでなくてもよい。
【0035】
なお、本開示のプログラムは、例えば、ActionScript、JavaScript(登録商標)等のスクリプト言語、Objective-C、Java(登録商標)等のオブジェクト指向プログラミング言語、HTML5等のマークアップ言語等を用いて実装され得る。
【0036】
本開示に係る音声合成システムは、与えられた日本語テキスト(以下においては、単に「テキスト」ともいう)を読み上げた音声を人工的に合成する、いわゆるテキスト音声合成(TTS:Text-To-Speech)を行うものである。この実施の形態に係る仲介システムにおいては、図1に示すように、サーバ100の記憶部120は、コーパスデータ記憶部121、学習済みモデル記憶部122及び合成音声データ記憶部123を含んでいる。
【0037】
コーパスデータ記憶部121は、与えられた日本語テキストを形態素解析するために用いる辞書データ、コーパスデータ等を記憶している。学習済みモデル記憶部122は、与えられた日本語テキストから、当該日本語テキストを発声した際のアクセントを推定するための学習済みモデルを記憶している。合成音声データ記憶部123は、合成音声の元となる音声波形辞書データ、音声波形コーパスデータ等を記憶している。
【0038】
この実施の形態に係る音声合成システムにおいては、サーバ100は、制御部130により実現される機能として、データ取得部131、推定部200及び音声合成部132を備えている。データ取得部131は、推定部200に入力するための入力データを取得する。入力データには、音声合成対象の日本語テキストデータが含まれている。例えば、音声合成システムの利用者は、音声合成対象の日本語テキストを入出力部140のキーボード、タッチパネル等を操作して入力する。データ取得部131は、こうして入出力部140を介して入力された日本語テキストを入力データとして取得する。データ取得部131は、サーバ100の外部から入力データを取得してもよい。例えば、音声合成システムの利用者は、サーバ100外部0の端末を操作して音声合成対象の日本語テキストを入力する。入力されたテキストデータは、端末からネットワークを介してサーバ100に送信される。サーバ100の受信部112は、端末から送信されたテキストデータを受信する。そして、データ取得部131は、受信部112により受信されたテキストデータを入力データとして取得する。
【0039】
推定部200は、学習済みモデル記憶部122に記憶されている学習済みモデルを用いて、データ取得部131により取得された入力データから、入力データに含まれるテキストデータにおけるイントネーション句の区切り位置、テキストデータにおけるアクセント句の区切り位置、及び、テキストデータにおけるアクセント核の位置を推定する。そして、推定部200は、テキストデータにおける、イントネーション句の区切り位置、アクセント句の区切り位置、及び、アクセント核の位置の推定結果を出力する。なお、ここで説明する構成例では、推定部200は、学習済みモデル記憶部122に記憶されている学習済みモデルに加えて、コーパスデータ記憶部121に記憶されている辞書データ及びコーパスデータをさらに用いて、テキストデータにおける、イントネーション句の区切り位置、アクセント句の区切り位置、及び、アクセント核の位置を推定する。
【0040】
ここで、図2を参照しながら、日本語テキストにおけるイントネーション句、アクセント句及びアクセント核について説明する。日本語では、同図に示すように、アクセントは各モーラのピッチの「高(H)」及び「低(L)」で表現される。発話は、イントネーション句(IP:Intonation Phrase)のグループから構成される。イントネーション句はイントネーションの基本単位である。イントネーション句は、1つ以上のアクセント句(AP:Accent Phrase)から構成される。各アクセント句は、最大で1モーラのピッチダウンを含んでいる。このピッチダウンが起こるモーラをアクセント核(AN:Accent Nucleus)と呼ぶ。アクセント核は単語レベルの属性であると考えられている。しかし、アクセント核は、文脈(単語の組み合わせ等)によりしばしば変化する。この現象は、アクセント結合と呼ばれている。
【0041】
図2の例は、「環境破壊は深刻なトピックだ」という文における、イントネーション句、アクセント句、アクセント核、及び、アクセント結合を示すものである。この文に含まれているイントネーション句は、「環境破壊は」と「深刻なトピックだ」の2つである。この文に含まれているアクセント句は、「環境破壊は」と「深刻な」と「トピックだ」の3つである。「環境破壊は」というイントネーション句は、1つのアクセント句を含んでいる。「深刻なトピックだ」というイントネーション句は、「深刻な」と「トピックだ」の2つのアクセント句を含んでいる。そして、「環境破壊は」というアクセント句におけるアクセント核は、「破壊」の「は」の位置にある。
【0042】
また、「環境」という4モーラの単語のアクセントは「低・高・高・高」であり、「環境」という3モーラの単語のアクセントは「低・高・高」である。一方、「環境破壊」という語では、アクセント結合が起こり、各単語のアクセントから変化する。具体的には、「環境破壊」という語のアクセントは「低・高・高・高・高・低・低・低」となる。このように、日本語ではアクセント結合が起こるため、単語ごとのアクセントを単純に繋げただけでは、アクセント核の位置を正確に特定することが難しい。アクセント核の位置を正確に特定するには、単語の組み合わせ等の文脈を考慮に入れることが重要となる。
【0043】
この実施の形態に係る音声合成システムにおける推定部200の構成について、図3を参照しながら説明する。同図に示すように、推定部200は、前処理部210、エンコーダ220、第1デコーダ231、第2デコーダ232及び第3デコーダ233を備えている。
【0044】
前処理部210は、データ取得部が取得した入力データに前処理を施して特徴量を出力する。この前処理においては、前処理部210は、入力データの日本語テキストをモーラ単位に分解する。また、前処理においては、前処理部210は、コーパスデータ記憶部121に記憶されている辞書データ及びコーパスデータを用いて、入力データの日本語テキストに対して形態素解析を行い、形態素ごとに以下の属性を特徴量として取得する。
【0045】
・表記(surface)
・品詞(POS:Part-Of-Speech)タグ
・語種
・活用型(cType)
・活用形(cForm)
・アクセント型(aType)
・アクセント結合型(aConType)
・アクセント修飾型(aModType)
【0046】
ここで、品詞タグは、例えば、一般普通名詞、連体詞、一般動詞、助動詞、接頭辞等であり、ここでは55種に分類される。語種は、例えば、和語、漢語、外来語、記号等であり、ここでは7種に分類される。活用型は、動詞及び形容詞の活用のタイプを示すもので、例えば、五段活用等であり、ここでは94種に分類される。活用形は、動詞、形容詞及び助動詞等における活用形で、例えば、語幹、未然形、終止形、命令形等であり、ここでは36種に分類される。アクセント型は、各形態素が個別で発話される際におけるアクセント核の位置を先頭からのモーラ数で示したものである。アクセント結合型は、単語の結合によるアクセント型の変化を分類したものであり、ここでは17種に分類される。そして、アクセント修飾型は、活用型を持つ単語(動詞、形容詞)の結合によるアクセント型の変化を分類したものであり、ここでは6種に分類される。
【0047】
前処理部210は、入力データを前処理し、日本語テキストデータをモーラ単位に分解したものと、日本語テキストデータにおける形態素ごとの上記8つの属性とを出力する。前処理部210から出力されたデータは、エンコーダ220に特徴量として入力される。第1結合処理部241は、前処理部210から出力された日本語テキストデータをモーラ単位に分解したものと、日本語テキストデータにおける形態素ごとの上記8つの属性とを結合して1つのベクトルデータとして出力する。第1結合処理部241により結合されたデータは、エンコーダ220に入力される。すなわち、前処理部210で前処理された入力データは、第1結合処理部241で結合された上で、エンコーダ220に入力される。
【0048】
この実施の形態に係る音声合成システムでは、日本語テキストデータにおける、イントネーション句の区切り位置、アクセント句の区切り位置、及び、アクセント核の位置のそれぞれを、日本語テキストをモーラ単位に分解した系列の各要素に対するラベルとして扱う。これにより、日本語テキストをモーラ単位に分解した系列に対して適切なラベリングを行う系列ラベリング問題を解くことで、日本語テキストのアクセント推定タスクを解くことができる。
【0049】
この実施の形態において扱うアクセント推定タスクには、第1タスク、第2タスク及び第3タスクの3つのタスクが含まれている。第1タスクは、入力データからテキストデータにおけるイントネーション句の区切り位置を推定するタスクである。第2タスクは、入力データからテキストデータにおけるアクセント句の区切り位置を推定するタスクである。第3タスクは、入力データからテキストデータにおけるアクセント核の位置を推定するタスクである。
【0050】
この実施の形態において、学習済みモデル記憶部122に記憶されている学習済みモデルには、第1タスク、第2タスク及び第3タスクの3つのタスクを同時に学習するマルチタスク学習により生成される。学習済みモデル記憶部122に記憶されている学習済みモデルには、3層双方向の長・短期記憶(LSTM:Long-Short Term Memory)ネットワークモデル(以下においては、Bi-LSTM(Bidirectional LSTM)モデルともいう)と、条件付き確率場(CRF:Conditional Random Field)モデルと、自己回帰(AR:Autoregressive)モデルとが含まれている。
【0051】
このうち、Bi-LSTMモデルは、テキストの時間依存性をモデル化するものである。なお、ここでいうテキストの時間依存性とは、テキストの先頭から末尾に向かう流れを時間の流れになぞらえたもので、テキスト中の文字、単語が、それより前の(すなわち過去の)文字、単語に依存する性質を意味している。
【0052】
エンコーダ220は、前処理部210で前処理された入力データから、学習済みモデルに含まれるBi-LSTMモデルを用いて、潜在変数を推定して出力する。エンコーダ220が出力する潜在変数は、例えば、256次元の特徴量からなる。エンコーダ220から出力された潜在変数は、第1デコーダ231、第2デコーダ232及び第3デコーダ233のそれぞれに入力される。
【0053】
第1デコーダ231は、エンコーダ220から出力された潜在変数から、学習済みモデルに含まれるCRFモデルを用いて、テキストデータにおけるイントネーション句の区切り位置の条件付き確率を推定し、その推定結果を出力する。第2デコーダ232は、エンコーダ220から出力された潜在変数から、学習済みモデルに含まれるCRFモデルを用いて、テキストデータにおけるアクセント句の区切り位置の条件付き確率を推定し、その推定結果を出力する。第3デコーダ233は、エンコーダ220から出力された潜在変数から、学習済みモデルに含まれるARモデルを用いて、テキストデータにおけるアクセント核の位置を推定し、その推定結果を出力する。
【0054】
図3に示す構成例では、エンコーダ220から出力された潜在変数と、第1デコーダ231から出力されたイントネーション句の区切り位置の推定結果とが、第2結合処理部242により結合される。そして、第2結合処理部242により結合されたデータが、第2デコーダ232に入力される。このようにして、第2デコーダ232は、エンコーダ220から出力された潜在変数と、第1デコーダ231から出力されたイントネーション句の区切り位置の推定結果とからアクセント句の区切り位置を推定する。
【0055】
前述したように、イントネーション句は1つ以上のアクセント句を含んでおり、イントネーション句の区切り位置は、必ずアクセント句の区切り位置にもなる。第2デコーダ232におけるアクセント句の区切り位置の推定において、エンコーダ220から出力された潜在変数に加えて、第1デコーダ231から出力されたイントネーション句の区切り位置の推定結果を併せて用いることで、このようなアクセント句のイントネーション句への依存関係を、アクセント句の区切り位置の推定結果に反映できる。
【0056】
また、同図に示す構成例では、エンコーダ220から出力された潜在変数と、第2デコーダ232から出力されたアクセント句の区切り位置の推定結果とが、第3結合処理部243により結合される。そして、第3結合処理部243により結合されたデータが、第3デコーダ233に入力される。このようにして、第3デコーダ233は、エンコーダ220から出力された潜在変数と、第2デコーダ232から出力されたアクセント句の区切り位置の推定結果とからアクセント核の位置を推定する。
【0057】
前述したように、アクセント句が含み得るアクセント核の数は最大で1つである。第3デコーダ233におけるアクセント核の位置の推定において、エンコーダ220から出力された潜在変数に加えて、第2デコーダ232から出力されたアクセント句の区切り位置の推定結果を併せて用いることで、このようなアクセント核のアクセント句への依存関係を、アクセント核の位置の推定結果に反映できる。以上のように、日本語テキストには、アクセント句の区切り位置がイントネーション句の区切り位置に依存し、アクセント核がアクセント句に依存するという階層的言語構造が存在する。
【0058】
図3に示すように、第3デコーダ233は、注意機構251と、2層単方向LSTM252とを有している。第3デコーダ233は、LSTM252の出力を第4結合処理部244により注意機構251からの出力と結合した上で、LSTM252に入力する自己回帰モデルになっている。このようにすることで、アクセント核の時間相関を考慮しつつ、モーラレベルの特徴をアクセント句レベルの推定に合わせ込むことができる。
【0059】
次に、推定部200によるアクセント推定について、さらに詳しく説明する。入力データに前処理を施すことで、以下の式(1)に示される特徴量が入力データとして与えられたとする。
【0060】
【数1】
【0061】
また、目的とするアクセント推定結果は、以下の式(2)で表されるイントネーション句(IP)のターゲットラベル系列、以下の式(3)で表されるアクセント句(AP)のターゲットラベル系列、及び、以下の式(4)で表されるアクセント核(AP)のターゲットラベル系列である。なお、式(4)におけるKは、入力データのテキストに含まれるアクセント句の数である。
【0062】
【数2】


【0063】
ここで、イントネーション句(式(2))及びアクセント句(式(3))の各ラベルは、それぞれ次の式(5)及び式(6)に示すように0か1の値をとる。この2進数はモーラが句の区切り位置であるかどうかを表しており、n番目のラベルが「1」であるとはn番目のモーラが句の区切り位置であることを表している。また、次の式(7)に示すようにアクセント核のラベル(式(4))の数字はk番目のアクセント句におけるアクセント核の位置を表している。式(7)におけるMはアクセント核の位置の最大値である。また、アクセント核のラベルが「0」であるとは、アクセント句にアクセント核が含まれないことを表している。
【0064】
【数3】


【0065】
全てのターゲットラベルの集合を次の式(8)により定義すると、階層的言語構造に基づいてターゲットラベルの条件付き結合分布を以下の式(9)のようにモデル化できる。ここで、式(9)の各項は、それぞれアクセント核ラベル、アクセント句ラベル、イントネーション句ラベルの条件付き確率分布を表している。
【0066】
【数4】

【0067】
学習済みモデルを生成する段階では、与えられた教師データに対し対数尤度を最大化するようにモデル全体が最適化される。対数尤度は次の式(10)に基づき、3つの対数確率の和として計算することができる。この対数尤度の最大化は、前処理部210及びエンコーダ220のパラメータを共有しつつ、前述した第1タスク、第2タスク及び第3タスクの3つのタスクを同時に解くことと等価である。このようにして最適化された学習済みモデルを用いてアクセントを推定する段階では、最適なターゲットラベルは以下の式(11)から式(13)により算出できる。ただし、ターゲットラベルの可能な組み合わせをすべて探索すると計算量が莫大になるため、ここで説明する構成例では、以下のようにイントネーション句、アクセント句、アクセント核の順序で推定することとした。
【0068】
【数5】



【0069】
以上のように、推定部200は、マルチタスク学習に基づき学習された学習済みモデルを用いて、前処理部210、エンコーダ220、第1デコーダ231、第2デコーダ232及び第3デコーダ233での処理を行い、系列ラベリング問題を解くことで日本語テキストのアクセントを推定する。
【0070】
制御部130の音声合成部132は、以上のようにして推定部200による日本語テキストデータのアクセント推定結果(イントネーション句、アクセント句、アクセント核)に基づいて、日本語テキストを読み上げた音声を合成する。音声合成部132は、例えば、合成音声データ記憶部123に記憶されている音声波形辞書データ、音声波形コーパスデータから、推定部200のアクセント推定結果により近いものを取得して用いることで音声を合成する。音声合成部132は、合成音声データ記憶部123に記憶されているデータを推定部200のアクセント推定結果によって補正して用いてもよい。
【0071】
音声合成部132により合成された音声は、例えば、サーバ100のスピーカ160から再生される。音声合成部132による合成音声をサーバ100外部の端末等に送信して再生等を行ってもよい。この場合、送信部111によりネットワークを介して端末等に合成音声が送信される。
【0072】
次に、以上のように構成された音声合成システムの処理動作例について、図4のフローチャートを参照しながら説明する。まず、ステップS11において、音声合成対象の日本語テキストをサーバ100、端末等に入力する。続くステップS12において、サーバ100のデータ取得部131は、ステップS11で入力された日本語テキストを入力データとして取得する。ステップS12の後、サーバ100の制御部130は次にステップS13の処理を行う。
【0073】
ステップS13においては、制御部130の推定部200は、学習済みモデル記憶部122に記憶されている学習済みモデルを用いて、ステップS12で取得された入力データから、日本語テキストのアクセントを推定する。このアクセント推定に用いられる学習済みモデルは、これまでに説明したように、イントネーション句の区切り位置を推定する第1タスク、アクセント句の区切り位置を推定する第2タスク、及び、アクセント核の位置を推定する第3タスクの3つのタスクを同時に学習するマルチタスク学習により生成されたものである。ステップS13の後、サーバ100の制御部130は次にステップS14の処理を行う。
【0074】
ステップS14においては、制御部130の音声合成部132は、ステップS13でのアクセント推定結果に基づいて、ステップS11で入力された日本語テキストを読み上げた音声を合成する。ステップS14の処理が完了すれば一連の音声合成処理は終了となる。
【0075】
次に、この実施の形態に係る日本語アクセント推定結果の評価について、従来手法と比較しながら説明する。図5に示すのは各推定モデルによるイントネーション句(IP)、アクセント句(AP)及びアクセント核(AN)それぞれの推定精度の評価スコアである。
【0076】
図5の(a)は、CRFのみを用いてAPを推定するモデルである。同図の(b)は、CRFのみを用いてANを推定するモデルである。同図の(c)は、エンコーダとしてBi-LSTM、デコーダとしてCRFを用いてIPを推定するモデルである。同図の(d)は、エンコーダとしてBi-LSTM、デコーダとしてCRFを用いてAPを推定するモデルである。同図の(e)は、エンコーダとしてBi-LSTM、デコーダとしてARを用いてANを推定するモデルである。
【0077】
同図の(f)は、エンコーダとしてBi-LSTM、デコーダとしてCRF及びARを用いてAP及びANを同時に推定するモデルである。このモデルは、AP推定タスクとAN推定タスクの2つのタスクを同時に解決するマルチタスク学習により生成されたものである。そして、同図の(g)は、本開示に係る推定モデルである。エンコーダとしてBi-LSTM、デコーダとして2つのCRF及びARを用いてIP、AP及びANを同時に推定するモデルである。このモデルは、IP推定タスク、AP推定タスク及びAN推定タスクの3つのタスクを同時に解決するマルチタスク学習により生成されたものである。なお、同図のF1はモーラ単位での評価スコアであり、精度は文単位での評価スコアである。
【0078】
また、図6に示すのは、図5に示す推定モデルのいくつかを組み合わせたシステムによるIP、AP及びANの推定精度の評価スコアである。図6の(A)は、図5の(a)、(b)及び(c)のモデルを組み合わせてIP、AP及びANを推定するシステムである。図6の(B)は、図5の(c)、(d)及び(e)のモデルを組み合わせてIP、AP及びANを推定するシステムである。図6の(C)は、図5の(c)及び(f)のモデルを組み合わせてIP、AP及びANを推定するシステムである。すなわち、AP及びANの推定についてはマルチタスク学習を用い、IPについてはシングルタスク学習を用いたものである。そして、図6の(D)は、図5の(g)のモデルによりIP、AP及びANを推定するシステム、すなわち、本開示に係る推定モデルを用いたシステムである。
【0079】
図5から分かるように、シングルタスクのモデル(d)によるAP推定の文レベルでの評価スコアは90.77%であり、シングルタスクのモデル(e)によるAN推定の文レベルでの評価スコアは78.29%である。しかしながら、これらのモデルを用いたシステム(B)によるAP及びANを合わせた評価スコアは、図6に示すように75.36%であり、モデル(e)の評価スコア(78.29%)から2.93%も低下している。この低下は、シングルタスクのモデル(d)及び(e)の食い違いに起因するものであると考えられる。
【0080】
これに対し、本開示に係るモデル(g)によれば、図5から分かるように、AP推定の文レベルでの評価スコアは90.96%、AN推定の文レベルでの評価スコアは80.98%でいずれもシングルタスクのモデル(d)、(e)よりも良い結果である。また、本開示に係るシステム(D)によるAP及びANを合わせた評価スコアは、図6に示すように80.40%である。これは、シングルタスクのモデルを用いたシステム(B)よりも高いだけでなく、モデル(g)によるAN推定の評価スコア(80.98%)からの低下量も0.58%に抑えられている。
【0081】
このように、本開示に係るマルチタスク学習フレームワークによれば、複数のタスクを同時に最適化することで、全体としてアクセント推定精度の向上を図ることが可能である。すなわち、日本語テキストにおける、イントネーション句、アクセント句及びアクセント核の階層的言語構造をアクセント推定結果に反映し、日本語テキストのアクセント推定精度の向上を図ることができる。
【0082】
図7に示すのは、図6の各システムによる合成音声について、平均オピニオンスコア(MOS:Mean Opinion Score)を用いたリスニングテストの結果である。図7には、MOSを95%信頼区間とともに示してある。また、図7中の最下段に記載したリファレンスは、人間が手動で設定した韻律情報(IP、AP、AN)を用いて合成した音声についての評価である。なお、韻律の自然さを正確に判断してもらうために、評価者には、合成音声サンプルの元となるテキストを見せている。この結果から、マルチタスク学習による手法(システム(C)及び(D))は、シングルタスクによる手法(システム(A)及び(B))よりも有意に高い自然度を達成することが確認された。
【0083】
また、図8に示すのは、図7に示した結果について、成功した推定タスクの組合せごとに自然度(MOS値)を再計算した結果である。図8中のラベルは、テストセット内の各合成音声サンプルについて、どの推定タスクが成功したかを示している。例えば、「IP+AP」はIP及びAPの推定タスクが成功し、ANの推定タスクは失敗したアクセント推定結果を用いて合成された音声サンプルであり、すなわち、正しいIP及びAPと誤ったANの情報により合成された音声サンプルを示している。なお、図8中のNはサンプル数を示している。また、同図中の「*」が付いた区間は、マン-ホイットニーのU検定のp値が0.05以下の有意差を持ち、「*」が付いていない区間はp値が0.001以下の有意差を持つ。
【0084】
図8に示す結果から、以下のことが分かる。すなわち、推定が全タスクで成功した合成音声サンプル(IP+AP+AN)は、他と比べてMOS値が有意に高い。また、AN推定タスクが成功した合成音声サンプル(IP+AP+AN、AP+AN)は、他と比べてMOS値が有意に高い。さらに、IP推定タスク及びAP推定タスクが成功した合成音声サンプル(IP+AP)は、シングルタスク(IP、AP)だけを成功できた合成音声サンプルと比べてMOS値が有意に高い。以上から、AN推定タスクが合成音声の知覚品質に最も大きな影響を与えることが確認された。さらに、この結果から、できるだけ多くの推定タスクを成功させることができるモデルがTTSのフロントエンドとしてより適していることも示された。
【0085】
本開示に係る情報処理装置、情報処理方法及びプログラムは、日本語テキストのアクセントを推定するための情報処理装置、情報処理方法及びプログラムとして活用することができる。
【符号の説明】
【0086】
100 サーバ
110 通信部
111 送信部
112 受信部
120 記憶部
121 コーパスデータ記憶部
122 学習済みモデル記憶部
123 合成音声データ記憶部
130 制御部
131 データ取得部
132 音声合成部
140 入出力部
150 表示部
160 スピーカ
200 推定部
210 前処理部
220 エンコーダ
231 第1デコーダ
232 第2デコーダ
233 第3デコーダ
241 第1結合処理部
242 第2結合処理部
243 第3結合処理部
244 第4結合処理部
251 注意機構
252 LSTM
図1
図2
図3
図4
図5
図6
図7
図8