IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人 東京大学の特許一覧

特許7603948音声合成装置、音声合成方法及び音声合成プログラム
<>
  • 特許-音声合成装置、音声合成方法及び音声合成プログラム 図1
  • 特許-音声合成装置、音声合成方法及び音声合成プログラム 図2
  • 特許-音声合成装置、音声合成方法及び音声合成プログラム 図3A
  • 特許-音声合成装置、音声合成方法及び音声合成プログラム 図3B
  • 特許-音声合成装置、音声合成方法及び音声合成プログラム 図3C
  • 特許-音声合成装置、音声合成方法及び音声合成プログラム 図3D
  • 特許-音声合成装置、音声合成方法及び音声合成プログラム 図4
  • 特許-音声合成装置、音声合成方法及び音声合成プログラム 図5
  • 特許-音声合成装置、音声合成方法及び音声合成プログラム 図6
  • 特許-音声合成装置、音声合成方法及び音声合成プログラム 図7
  • 特許-音声合成装置、音声合成方法及び音声合成プログラム 図8
  • 特許-音声合成装置、音声合成方法及び音声合成プログラム 図9
  • 特許-音声合成装置、音声合成方法及び音声合成プログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-13
(45)【発行日】2024-12-23
(54)【発明の名称】音声合成装置、音声合成方法及び音声合成プログラム
(51)【国際特許分類】
   G10L 13/10 20130101AFI20241216BHJP
   G10L 13/00 20060101ALI20241216BHJP
【FI】
G10L13/10 114
G10L13/00 100B
【請求項の数】 8
(21)【出願番号】P 2023542446
(86)(22)【出願日】2022-08-18
(86)【国際出願番号】 JP2022031276
(87)【国際公開番号】W WO2023022206
(87)【国際公開日】2023-02-23
【審査請求日】2023-11-20
(31)【優先権主張番号】P 2021133713
(32)【優先日】2021-08-18
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(73)【特許権者】
【識別番号】504137912
【氏名又は名称】国立大学法人 東京大学
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】井島 勇祐
(72)【発明者】
【氏名】郡山 知樹
(72)【発明者】
【氏名】高道 慎之介
【審査官】山下 剛史
(56)【参考文献】
【文献】特開2005-321706(JP,A)
【文献】特開2021-99454(JP,A)
【文献】特開2005-249880(JP,A)
【文献】国際公開第2020/235696(WO,A1)
【文献】百武恭汰他,絵本読み聞かせ風音声合成のためのコンテキストラベル設計に関する実験的検討,電子情報通信学会技術研究報告,Vol.115,No.523,pp.255-260
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-13/10,25/30
(57)【特許請求の範囲】
【請求項1】
書籍に関するデータに含まれるテキストである発話対象に関する発話情報と、前記書籍に関する前記データに含まれる画像に関する画像情報と、前記発話対象に対応する音声データとを取得する取得部と、
前記取得部によって取得された発話情報、画像情報及び音声データに基づいて、画像に関連付けられたテキストを読み上げるための音声合成モデルを生成する生成部と
を備える音声合成装置。
【請求項2】
前記取得部は、前記画像情報として、前記書籍の特定のページに含まれ、かつ前記特定のページに含まれるテキストに関連付けられた画像に関する情報を取得する
請求項1に記載の音声合成装置。
【請求項3】
前記取得部は、前記音声データとして、前記書籍の特定のページに含まれ、かつ前記特定のページに含まれる画像に関連付けられたテキストを読み上げる音声のデータを取得する
請求項1に記載の音声合成装置。
【請求項4】
前記取得部は、前記発話対象のアクセント、品詞、音素の開始時間又は音素の終了時間のうちの少なくとも1つを示す前記発話情報を取得する
請求項1に記載の音声合成装置。
【請求項5】
前記発話情報を、前記発話対象の言語的な情報を示す言語ベクトルに変換する第1変換部と、
前記画像情報を、前記書籍に関する前記データに含まれる画像の視覚特徴を示す視覚特徴ベクトルに変換する第2変換部とをさらに備え、
前記生成部は、前記言語ベクトル及び前記視覚特徴ベクトルに関連付けられた前記音声データを含む学習データを使用して、前記音声合成モデルを生成する
請求項1に記載の音声合成装置。
【請求項6】
コンピュータが実行する音声合成方法であって、
書籍に関するデータに含まれるテキストである発話対象に関する発話情報と、前記書籍に関する前記データに含まれる画像に関する画像情報と、前記発話対象に対応する音声データとを取得する取得工程と、
前記取得工程によって取得された発話情報、画像情報及び音声データに基づいて、画像に関連付けられたテキストを読み上げるための音声合成モデルを生成する生成工程と
を含む音声合成方法。
【請求項7】
書籍に関するデータに含まれるテキストである発話対象に関する発話情報と、前記書籍に関する前記データに含まれる画像に関する画像情報と、前記発話対象に対応する音声データとを取得する取得手順と、
前記取得手順によって取得された発話情報、画像情報及び音声データに基づいて、画像に関連付けられたテキストを読み上げるための音声合成モデルを生成する生成手順と
をコンピュータに実行させる音声合成プログラム。
【請求項8】
書籍に関するデータに含まれるテキストである発話対象に関する発話情報を取得する第1取得部と、
画像に関する画像情報を取得する第2取得部であって、前記画像情報は、前記書籍に関する前記データに含まれる前記テキストに対応する、第2取得部と、
前記第1取得部によって取得された発話情報及び前記第2取得部によって取得された画像情報を、画像に関連付けられたテキストを読み上げるための音声合成モデルに入力することによって、前記発話対象に対応する合成音声を獲得する獲得部と
を備える音声合成装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音声合成装置、音声合成方法及び音声合成プログラムに関する。
【背景技術】
【0002】
DNN(Deep Neural Network)に基づく音声合成技術が、音声合成の分野で、近年、提案されている。DNNに基づく音声合成技術は、従来の手法で得られる合成音声よりも質の高い合成音声を生成することができる、ということが知られている(下記の非特許文献1および2を参照)。
【先行技術文献】
【非特許文献】
【0003】
【文献】Zen, Heiga, Andrew Senior, and Mike Schuster. "STATISTICAL PARAMETRIC SPEECH SYNTHESIS USING DEEP NEURAL NETWORKS." Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. IEEE, 2013.
【文献】Shen, Jonathan, et al. "NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS." 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記の先行技術では、画像を含む書籍を自然な合成音声で読み上げることが難しい場合がある。
【0005】
例えば、画像を含む書籍は、絵本である。絵本を読み上げるナレータによって提供された読み上げ音声と比較すると、上記の先行技術は、抑揚等の自然性に差がある。この差の要因としては、上記の先行技術が、絵本のテキストから得られる読みやアクセント等の、言語的な情報から合成音声を生成していること、が挙げられる。
【0006】
ナレータが絵本を読み上げる場合には、ナレータは、言語的な情報だけでなく、挿絵から得られる視覚的な情報(例えば、キャラクタや背景の描写)、長期的な文脈から推測されるキャラクタの心情等の、様々な情報を使って、発声している。
【0007】
そこで、本開示は、画像を含む書籍を自然な合成音声で読み上げることができる音声合成装置、音声合成方法及び音声合成プログラムを提案する。
【課題を解決するための手段】
【0008】
本開示の一態様では、音声合成装置は、第1の書籍に含まれるテキストである発話対象に関する発話情報と、前記第1の書籍に含まれる画像に関する画像情報と、前記発話対象に対応する音声データとを取得する取得部と、前記取得部によって取得された発話情報、画像情報及び音声データに基づいて、画像に関連付けられたテキストを含む第2の書籍を読み上げるための音声合成モデルを生成する生成部とを備える。
【発明の効果】
【0009】
本開示の1つまたは複数の実施形態に係る音声合成装置は、画像を含む書籍を自然な合成音声で読み上げることができる。
【図面の簡単な説明】
【0010】
図1図1は、音声合成のための環境の例のブロック図である。
図2図2は、本開示に係る音声合成モデルの構造の例を示す。
図3A図3Aは、本開示に係る音声合成処理の概要を示す。
図3B図3Bは、本開示に係る音声合成処理の概要を示す。
図3C図3Cは、本開示に係る音声合成処理の概要を示す。
図3D図3Dは、本開示に係る音声合成処理の概要を示す。
図4図4は、本開示に係る音声合成装置の構成の例のブロック図である。
図5図5は、本開示に係る発話情報の例を示す。
図6図6は、本開示に係る書籍情報の例を示す。
図7図7は、本開示に係る音声合成モデルの学習の例を示す。
図8図8は、本開示に係る音声合成の例を示す。
図9図9は、音声合成モデルを生成するための処理の例を示すフローチャートである。
図10図10は、コンピュータのハードウェア構成の例を示す。
【発明を実施するための形態】
【0011】
複数の実施形態を、図面を参照して、以下で詳細に説明する。なお、本発明は、これらの複数の実施形態によって限定されるものではない。様々な実施形態の複数の特徴は、これらの複数の特徴が互いに矛盾しないという条件で、様々なやり方で組み合わされ得る。。同一の要素は、同一の符号で示され、重複する説明は、省略される。
【0012】
〔1.音声合成のための環境〕
まず、図1を参照して、本開示に係る音声合成のための環境について説明する。
【0013】
図1は、音声合成のための環境の例である環境1のブロック図である。図1に示されるように、環境1は、音声合成装置100と、ネットワーク200と、ユーザ装置300とを含む。
【0014】
音声合成装置100は、1つまたは複数の音声合成処理を行う装置である。1つまたは複数の音声合成処理は、音声合成モデルを生成する処理や、生成された音声合成モデルを使用して合成音声を生成する処理を含む。本開示に係る音声合成処理の概要は、次節で説明される。
【0015】
音声合成装置100は、サーバ等のデータ処理装置である。音声合成装置100の構成の例は、4節で説明される。
【0016】
ネットワーク200は、例えば、LAN(Local Area Network)、WAN(Wide Area Network)、インターネット等のネットワークである。ネットワーク200は、音声合成装置100およびユーザ装置300を接続する。
【0017】
ユーザ装置300は、クライアント装置等のデータ処理装置である。ユーザが音声合成モデルを入手したい場合には、ユーザ装置300は、音声合成モデル用の学習データを、音声合成装置100に提供する。その後、生成された音声合成モデルが、音声合成装置100から、ユーザ装置300に提供される。
【0018】
また、ユーザが書籍(例えば、電子書籍)をオーディオブックに変えたい場合には、書籍に関するデータを、音声合成装置100に提供する。この場合、書籍を読み上げる合成音声が、音声合成装置100から、ユーザ装置300に提供される。
【0019】
〔2.音声合成モデルの構造〕
次に、図2を参照して、本開示に係る音声合成モデルの構造の例について説明する。
【0020】
図2は、本開示に係る音声合成モデルのモデル構造の例であるモデル構造10を示す。本開示に係る音声合成モデルは、例えば、ニューラルネットワークによって実装される。モデル構造10は、本開示に係る音声合成のためのニューラルネットワーク構造として示されている。
【0021】
ニューラルネットワークは、音声合成モデルを実装するために、従来から使用されている。従来の音声合成のためのニューラルネットワークは、1つの入力を有し、この1つの入力は、書籍に含まれるテキスト情報から得られる言語ベクトルである(上記の非特許文献2を参照)。
【0022】
それに対して、図2のモデル構造10は、2つの入力を有する。入力層11および視覚情報抽出層12が、従来の音声合成のためのニューラルネットワーク構造と、本開示に係る音声合成のためのニューラルネットワーク構造との大きな違いである。
【0023】
モデル構造10の第1の入力は、従来の音声合成のためのニューラルネットワーク構造と同様に、言語ベクトルである。図2の例では、言語ベクトルは、絵本13から抽出された発話情報をベクトル化することによって得られる。発話情報は、発話の対象の情報である。絵本13での発話の対象は、絵本13に含まれる文章である。
【0024】
モデル構造10の第2の入力は、従来の音声合成のためのニューラルネットワーク構造にはない、視覚特徴ベクトルである。図2の例では、視覚特徴ベクトルは、絵本13から抽出された挿絵画像情報14をベクトル化することによって得られる。挿絵画像情報14は、挿絵の画像の情報である。絵本13での挿絵の画像は、絵本13に含まれる絵である。
【0025】
視覚情報抽出層12の出力は、例えば、デコーダ層に入力される(実線の矢印)。視覚情報抽出層12の出力は、ニューラルネットワークの実装によっては、エンコーダ層に入力されてもよい(破線の矢印)。
【0026】
〔3.音声合成処理の概要〕
次に、図3A図3B図3Cおよび図3Dを参照して、本開示に係る音声合成処理の概要について説明する。本節で説明される音声合成処理は、音声合成のためのニューラルネットワークを生成する処理を含み、このニューラルネットワークは、図2を参照して上述したモデル構造10を有する。なお、この概要は、本発明や、以下の節で説明される複数の実施形態を限定することを意図するものではない。
【0027】
図3A図3B図3Cおよび図3Dは、本開示に係る音声合成処理の概要20を、ひとまとめにして示す。概要20は、8つのステップを含む。
【0028】
図3Aを参照すると、ステップS1では、図1の音声合成装置100は、絵本21の読み上げの音声信号22を取得する。
【0029】
ステップS2では、音声合成装置100は、音声信号22から、音声データ23を生成する。音声データ23は、音声信号22の音声パラメータ(例えば、基本周波数)や、スペクトルパラメータ(例えば、メルスペクトログラム)を含む。
【0030】
図3Bを参照すると、ステップS3では、音声合成装置100は、絵本21から発話情報24を抽出する。図3Bの例では、絵本21のあるページは、「おはようございます。」という文章を含む。したがって、発話情報24は、「おはようございます。」という文字列を含む。
【0031】
ステップS4では、音声合成装置100は、絵本21から挿絵画像情報25を抽出する。図3Bの例では、上記の文章を含むページは、太陽の絵を含む。したがって、挿絵画像情報25は、太陽の画像を含む。
【0032】
図3Cを参照すると、ステップS5では、音声合成装置100は、発話情報24および挿絵画像情報25をベクトル化する。図3Cの例では、音声合成装置100は、発話情報24を、言語ベクトル26に変換する。また、音声合成装置100は、挿絵画像情報25を、視覚特徴ベクトル27に変換する。
【0033】
ステップS6では、音声合成装置100は、音声合成のためのニューラルネットワークの学習を行う。音声合成装置100は、ステップS5で得られた言語ベクトル26および視覚特徴ベクトル27を、学習データの入力として使用する。また、音声合成装置100は、ステップS2で得られた音声データ23を、学習データの出力として使用する。その結果、音声合成装置100は、音声合成モデル28を生成する。
【0034】
図3Dを参照すると、ステップS7では、音声合成装置100は、音声合成の対象である絵本21aから、言語ベクトル26aおよび視覚特徴ベクトル27aを生成する。絵本21aは、絵本21とは異なる未知の絵本である。
【0035】
ステップS8では、音声合成装置100は、絵本21aを読み上げる合成音声を生成する。まず、音声合成装置100は、言語ベクトル26aおよび視覚特徴ベクトル27aを、音声合成モデル28に入力し、音声特徴量を取得する。そして、音声合成装置100は、音声特徴量から音声波形を生成することによって、合成音声を生成する。
【0036】
上述のように、音声合成装置100は、絵本等の書籍の音声合成において、挿絵画像情報25を活用する。従来の音声合成技術は、読みやアクセント等の言語的な情報を、音声合成のためのニューラルネットワークの入力として使用している。これに対し、音声合成装置100は、絵本等の書籍から得られる視覚的な情報も、音声合成のためのニューラルネットワークの入力として活用する。このため、音声合成装置100は、挿絵に含まれる情報も考慮して、合成音声を生成することができる。
【0037】
〔4.音声合成装置の構成〕
次に、図4を参照して、音声合成装置100の構成の例について説明する。
【0038】
図4は、本開示に係る音声合成装置の構成の例である音声合成装置100のブロック図である。図4に示されるように、音声合成装置100は、通信部110、制御部120および記憶部130とを含む。音声合成装置100は、音声合成装置100の管理者から入力を受け付ける入力部(例えば、キーボード、マウス)を含んでもよい。また、音声合成装置100は、音声合成装置100の管理者に情報を表示する出力部(例えば、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ)を含んでもよい。
【0039】
〔4-1.通信部110〕
通信部110は、例えば、NIC(Network Interface Card)によって実装される。通信部110は、有線または無線によりネットワーク200と接続される。通信部110は、ネットワーク200を介して、ユーザ装置300との間で、情報の送受信を行うことができる。
【0040】
〔4-2.制御部120〕
制御部120は、コントローラ(controller)である。制御部120は、RAM(Random Access Memory)を作業領域として使用し、音声合成装置100の記憶装置に記憶された各種プログラムを実行する1つまたは複数のプロセッサ(例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit))によって実装される。また、制御部120は、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)、GPGPU(General Purpose Graphic Processing Unit)等の、集積回路により実装されてもよい。
【0041】
図4に示されるように、制御部120は、音声データ取得部121、発話情報取得部122、書籍情報取得部123、ベクトル表現獲得部124、視覚特徴抽出部125、モデル学習部126および音声合成部127を含む。音声合成装置100の1つまたは複数のプロセッサは、音声合成装置100の1つまたは複数のメモリに記憶された命令を実行することによって、各制御部を実装することができる。各制御部によって行われるデータ処理は例であり、各制御部(例えば、モデル学習部)は、他の制御部(例えば、モデル学習部)に関連して説明されるデータ処理を行ってもよい。
【0042】
音声データ取得部121、発話情報取得部122および書籍情報取得部123は、「取得部」の複数の例である。ベクトル表現獲得部124は、「第1変換部」の一例である。視覚特徴抽出部125は、「第2変換部」の一例である。モデル学習部126は、「生成部」の一例である。
【0043】
〔4-2-1.音声データ取得部121〕
音声データ取得部121は、書籍での発話対象に対応する音声データを取得する。発話対象は、書籍に含まれるテキストである。書籍の例としては、絵本や紙芝居が挙げられる。例えば、発話の対象は、書籍の特定のページに含まれるテキストである。このテキストは、この特定のページに含まれる画像に関連付けられている。
【0044】
音声データは、音声合成モデルの学習に使用するためにあらかじめ収録された音声を含む。音声データは、後述する書籍情報に含まれるテキスト(すなわち、書籍に含まれるテキスト)を読み上げるナレータの発話を含む音声を保持する。音声データは、ナレータによって発せられた音声信号に対して信号処理を行うことによって得られる。音声データは、音声パラメータ(例えば、基本周波数等の音高パラメータ)や、スペクトルパラメータ(例えば、メルスペクトログラム、ケプストラム、メルケプストラム)を保持する。
【0045】
音声データ取得部121は、ユーザ装置300から、音声データを受信することができる。音声データ取得部121は、受信された音声データを、記憶部130に格納することができる。音声データ取得部121は、記憶部130から、音声データを取得することができる。
【0046】
〔4-2-2.発話情報取得部122〕
発話情報取得部122は、発話対象に関する発話情報を取得する。発話情報は、音声データ取得部121によって取得された音声データに対応する。発話情報は、後述する書籍情報に含まれるテキスト情報を含む。テキスト情報は、この書籍に含まれるテキストを示す。
【0047】
後述するように、発話情報は、発話対象のアクセント、品詞、音素の開始時間または音素の終了時間を示す情報を含み得る。
【0048】
発話情報は、音声データ中の各発話に対して付与された発音の情報を含む。この発話情報は、音声データ取得部121によって取得された音声データ中の各発話に付与されている。発話情報は、後述する書籍情報に含まれているテキスト情報を、少なくとも含み得る。
【0049】
音声データに付与される発話情報は、テキスト情報以外の情報を含み得る。例えば、発話情報は、アクセント情報(アクセント型、アクセント句長)、品詞情報、各音素の開始時間または各音素の終了時間の情報(音素セグメンテーション情報)を含んでもよい。この開始時間および終了時間は、各発話の始点が0[秒]である場合の経過時間である。
【0050】
図5は、本開示に係る発話情報の例である発話情報30を示す。図5に示されるように、発話情報30は、「おはよう」という文字列を含む。また、後述する書籍情報に含まれる挿絵番号が、各発話に付与される。図5の例では、発話「お」、発話「お」、発話「は」、発話「よ」および発話「う」は、挿絵番号「1」に対応する。各発話は、対応する挿絵番号に関連付けられる。
【0051】
挿絵番号は、後述する書籍情報に含まれ、発話情報と挿絵との対応を表す。番号等のユニークなID(identifier)が、各挿絵に付与される。
【0052】
図4に戻ると、発話情報取得部122は、ユーザ装置300から、発話情報を受信することができる。発話情報取得部122は、受信された発話情報を、記憶部130に格納することができる。発話情報取得部122は、記憶部130から、発話情報を取得することができる。
【0053】
〔4-2-3.書籍情報取得部123〕
書籍情報取得部123は、書籍に関する各種情報を取得する。書籍情報は、書籍に含まれるテキストを含む。また、書籍情報は、書籍に含まれる画像に関する画像情報を含む。
【0054】
図6は、本開示に係る書籍情報の例である書籍情報40を示す。図5に示されるように、テキスト情報および挿絵画像情報を含む。このテキスト情報は、上述の音声データを作成するのに必要とされる情報であり得る。テキスト情報は、例えば、絵本や紙芝居中の発話対象である文字列を示す。挿絵画像情報は、テキスト情報に対応する挿絵の画像を含む。
【0055】
図4に戻ると、書籍情報取得部123は、ユーザ装置300から、書籍情報を受信することができる。書籍情報取得部123は、受信された書籍情報を、記憶部130に格納することができる。書籍情報取得部123は、記憶部130から、書籍情報を取得することができる。
【0056】
〔4-2-4.ベクトル表現獲得部124〕
ベクトル表現獲得部124は、発話情報を、発話対象の言語的な情報を示す言語ベクトルに変換する。ベクトル表現獲得部124は、発話情報を、後述するモデル学習部126で使用可能な表現(数値表現)に変換することによって、言語ベクトルを獲得する。
【0057】
テキストの情報(文字)が、発話情報として使用される場合に、one-hot表現が、発話情報の言語ベクトルへの変換に使用される。one-hot表現のベクトルの次元数は、発話情報に含まれる文字の数Nである。入力文字に該当する次元の値は、「1」であり、入力文字に該当しない次元の値は、「0」である。一例として、第1の次元の値が「1」であり、かつ第1の次元以外の次元の値が「0」である場合に、one-hot表現のベクトルが、文字「あ」に対応してもよい。同様に、第2の次元の値が「1」であり、第2の次元以外の値が「0」である場合に、one-hot表現のベクトルが、文字「い」に対応してもよい。
【0058】
音素やアクセントが、発話情報として使用される場合に、ベクトル表現獲得部124は、上記の非特許文献1の場合と同様に、音素やアクセンを、数値ベクトルに変換する。文字が、発話情報として使用される場合には、ベクトル表現獲得部124は、発話情報に対してテキスト解析を適用する。ベクトル表現獲得部124は、テキスト解析から得られた音素やアクセント情報を使用することができる。このため、ベクトル表現獲得部124は、上記の非特許文献1と同様の方法で、音素やアクセントを、数値ベクトルに変換することができる。
【0059】
〔4-2-5.視覚特徴抽出部125〕
視覚特徴抽出部125は、書籍情報に含まれる挿絵画像情報から、視覚特徴を抽出することができる。視覚特徴抽出部125は、画像情報を、書籍に含まれる画像の視覚特徴を示す視覚特徴ベクトルに変換する。例えば、視覚特徴抽出部125は、書籍情報に含まれる挿絵画像情報を、後述するモデル学習部126で使用可能なベクトル表現に変換することによって、視覚特徴ベクトルを獲得する。
【0060】
視覚特徴抽出部125は、挿絵画像情報から、音声合成のためのニューラルネットワークの入力として使用される視覚特徴ベクトルを出力する。
【0061】
大量の画像データからあらかじめ学習された画像識別のためのニューラルネットワークが、挿絵画像情報から視覚特徴ベクトルへの変換に使用される。挿絵画像情報が視覚特徴ベクトルに変換される時には、視覚特徴抽出部125は、ニューラルネットワークに入力された挿絵画像情報から、順伝搬処理を実行する(「Hu, Jie, Li Shen, and Gang Sun. "Squeeze-and-Excitation Networks." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.」を参照)。
【0062】
視覚特徴抽出部125は、出力層の情報を最終的に獲得し、この出力層の情報を、視覚特徴ベクトルベクトルとして出力する。
【0063】
なお、出力される視覚特徴情報ベクトルは、出力層の情報以外の情報であってもよい。視覚特徴抽出部125は、任意の中間層(Bottleneck層)の出力を、視覚特徴情報ベクトルとして使用してもよい。視覚特徴抽出部125は、このような、あらかじめ学習された画像識別のためのニューラルネットワークを使用することによって、挿絵画像情報に含まれるキャラクタや背景等の情報を反映したベクトルを獲得することができる。
【0064】
〔4-2-6.モデル学習部126〕
モデル学習部126は、発話情報取得部122によって取得された発話情報と、書籍情報取得部123によって取得された画像情報と、音声データ取得部121によって取得された音声データとに基づいて、音声合成モデルを生成する。音声合成モデルを生成するために、モデル学習部126は、言語ベクトルおよび視覚特徴ベクトルに関連付けられた音声データを含む学習データを使用する。
【0065】
図7は、本開示に係る音声合成モデルの学習の例である学習50を示す。学習50では、モデル学習部126は、音声データ、発話情報および書籍情報に含まれる挿絵画像情報を使用して、音声合成モデル(例えば、音声合成のためのニューラルネットワーク)を学習する。学習50は、音声合成モデルを学習するために使用される各種データの流れを示す。
【0066】
図7に示されるように、モデル学習部126は、音声データと、ベクトル表現獲得部124で獲得された言語ベクトルと、視覚特徴抽出部125で獲得された視覚特徴ベクトルを使用して、言語ベクトルおよび視覚特徴ベクトルから音声パラメータを推定する音声合成のためのニューラルネットワークを学習する。モデル学習部126は、上記の非特許文献2と同様の学習アルゴリズムを使用することができる。
【0067】
モデル学習部126は、様々なニューラルネットワーク構造を使用することができる。例えば、モデル学習部126は、通常のMLP(Multilayer Perceptron)だけでなく、RNN(Recurrent Neural Network)、RNN-LSTM(Long Short Term Memory)、CNN(Convolutional Neural Network)、Transformer等のニューラルネットワークや、これらのニューラルネットワークの組み合わせを使用することができる。
【0068】
図4に戻ると、モデル学習部126は、生成された音声合成モデルを、記憶部130に格納することができる。
【0069】
上述のように、モデル学習部126は、従来の音声合成のためのニューラルネットワークで使用される言語ベクトルに加えて、視覚特徴抽出部125によって獲得された視覚特徴ベクトルを使用する。視覚情報ベクトルは、絵本等の書籍から抽出された挿絵画像情報から獲得されるものである。その結果、モデル学習部126は、挿絵画像情報に含まれるキャラクタの見た目、表情、または背景(例えば、風景、天気等)の情報を考慮して、音声合成のためのニューラルネットワークの学習を行うことができる。モデル学習部126によって生成された音声合成モデルは、自然な抑揚を持つ合成音声の生成を可能にする。
【0070】
〔4-2-7.音声合成部127〕
図4に戻ると、音声合成部127は、モデル学習部126によって生成された音声合成モデルを使用して、合成音声を生成する。
【0071】
例えば、音声合成部127は、記憶部130から、音声合成モデルを取得する。また、音声合成部127は、未知の書籍から、言語ベクトルおよび視覚特徴ベクトルを獲得する。そして、音声合成部127は、獲得された言語ベクトルおよび視覚特徴ベクトルを、音声合成モデルに入力し、音声特徴量を取得する。音声合成部127は、取得された音声特徴量から音声波形を生成することによって、合成音声を生成する。
【0072】
図8は、本開示に係る音声合成の例である音声合成60を示す。音声合成部127は、音声合成の対象である絵本や紙芝居に含まれるテキストと、この絵本や紙芝居に対応する挿絵画像情報から、合成音声を生成する。音声合成60と上記の非特許文献2のアルゴリズムとの違いは、音声合成部127は、音声合成モデルの入力に、言語ベクトル以外の情報である視覚特徴ベクトルを使用すること、である。視覚特徴ベクトルは、視覚特徴抽出部125から獲得される。音声合成60は、合成音声を生成するために使用される各種データの流れを示す。
【0073】
図8に示されるように、音声合成部127は、入力テキストにテキスト解析を適用し、発話情報に相当する情報を獲得する。ベクトル表現獲得部124は、獲得された発話情報を、言語ベクトルに変換する。視覚特徴抽出部125は、入力テキストに対応する挿絵画像情報を、視覚特徴ベクトルに変換する。音声合成部127は、言語ベクトルおよび視覚特徴ベクトルを、モデル学習部126によって生成された音声合成モデルに入力する。そして、音声特徴量が、順伝播により出力される。音声合成部127は、音声特徴量から音声波形を生成することによって、合成音声を獲得する。
【0074】
音声波形の生成の前に、音声合成部127は、MLPG(Maximum Likelihood Generation)アルゴリズムを使用して、時間方向に平滑化された音声パラメータ系列を得てもよい(「益子他,“動的特徴を用いたHMMに基づく音声合成”,信学論,vol.J79-D-II,no.12,pp.2184-2190,Dec. 1996」を参照)。音声波形を生成するために、音声合成部127は、信号処理により音声波形を生成する手法を使用してもよい(「今井他,“音声合成のためのメル対数スペクトル近似(MLSA)フィルタ”,電子情報通信学会論文誌 A Vol.J66-A No.2 pp.122-129, Feb. 1983.」を参照)。また、音声合成部127は、ニューラルネットワークによって音声波形を生成する手法を使用してもよい(「Oord, Aaron van den, et al. "WAVENET: A GENERATIVE MODEL FOR RAW AUDIO." arXiv preprint arXiv:1609.03499 (2016)」を参照)。
【0075】
〔4-3.記憶部130〕
図4に戻ると、記憶部130は、例えば、RAM、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実装される。記憶部130は、音声データ131、発話情報132、書籍情報133および音声合成モデル134を含む。音声データ131は、例えば、音声データ取得部121によって取得された音声データである。発話情報132は、例えば、発話情報取得部122によって取得された発話情報である。書籍情報133は、書籍情報取得部123によって取得された書籍情報である。音声合成モデル134は、例えば、モデル学習部126によって生成された音声合成モデルである。
【0076】
〔5.音声合成処理のフローチャート〕
次に、図9を参照して、本開示に係る音声合成処理の例のフローチャートについて説明する。音声合成処理の例は、音声合成モデルを生成するための処理を含む。音声合成モデルを生成するための処理は、例えば、図1の音声合成装置100によって行われる。
【0077】
図9は、音声合成モデルを生成するための処理の例である処理P100を示すフローチャートである。
【0078】
図9に示されるように、はじめに、音声合成装置100の発話情報取得部122は、書籍に含まれるテキストを取得する(ステップS101)。
【0079】
次いで、音声合成装置100の書籍情報取得部123は、書籍に含まれ、かつ取得されたテキストに関連付けられた画像を取得する(ステップS102)。
【0080】
次いで、音声合成装置100の音声データ取得部121は、発話情報取得部122によって取得されたテキストに対応する音声信号を取得する(ステップS103)。
【0081】
次いで、音声合成装置100のモデル学習部126は、発話情報取得部122によって取得されたテキスト、書籍情報取得部123によって取得された画像および音声データ取得部121音声信号に基づいて、画像に関連付けられたテキストを音声信号に変換するためのモデルを生成する(ステップS104)。例えば、生成されたモデルは、画像に関連付けられたテキストを、音声特徴量に変換することができる。音声合成装置100の音声合成部127は生成された音声特徴量を、音声信号に変換することができる。
【0082】
〔6.効果〕
上述のように、音声合成装置100は、絵本等の書籍が読み上げられる時のテキストから得られる言語的な情報だけでなく、書籍の挿絵から得られる視覚的な情報を活用する。その結果、音声合成装置100は、絵本等の書籍を自然に読み上げる合成音声を生成することができる。
【0083】
〔7.その他〕
自動的に行われる処理として述べられた処理の一部は、手動的に行われ得る。あるいは、手動的に行われる処理として述べられた処理の全部または一部は、公知の方法で、自動的に行われ得る。さらに、本明細書や図面中で示された処理の手順、具体的名称、各種のデータやパラメータを含む情報は、特に明記しない限り、任意に変更され得る。例えば、各図に示された各種情報は、図示された情報に限られない。
【0084】
図示された装置の構成要素は、装置の機能を、概念的に示すものである。構成要素は、必ずしも、図面に示されたように物理的に構成されているとは限らない。言い換えると、分散または統合された装置の具体的形態は、図面に示されたシステムおよび装置の形態に限られない。装置の全部または一部は、各種の負荷や使用状況に応じて、機能的または物理的に分散または統合され得る。
【0085】
〔8.ハードウェア構成〕
図10は、コンピュータのハードウェア構成の例であるコンピュータ1000を示す図である。本明細書で説明されたシステムや方法は、例えば、図10に示されたコンピュータ1000よって実装される。
【0086】
図10は、プログラムが実行されることにより、音声合成装置100が実装されるコンピュータの一例を示している。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
【0087】
メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
【0088】
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、音声合成装置100の各処理を規定するプログラムは、コンピュータ1000により実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、音声合成装置100における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
【0089】
ハードディスクドライブ1090は、音声合成処理のための音声合成プログラムを記憶することができる。また、音声合成プログラムは、プログラムプロダクトとして作成され得る。プログラムプロダクトは、実行された場合に、上述したような、1つまたは複数の方法を実行する。
【0090】
また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
【0091】
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN、WAN等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
【0092】
〔9.実施形態のまとめ〕
上述のように、本開示に係る音声合成装置100は、音声データ取得部121、発話情報取得部122、書籍情報取得部123およびモデル学習部126を含む。少なくとも1つの実施形態では、発話情報取得部122は、第1の書籍に含まれるテキストである発話対象に関する発話情報を取得し、書籍情報取得部123は、第1の書籍に含まれる画像に関する画像情報を取得し、音声データ取得部121は、発話対象に対応する音声データを取得する。少なくとも1つの実施形態では、モデル学習部126は、発話情報取得部122によって取得された発話情報と、書籍情報取得部123によって取得された画像情報と、音声データ取得部121によって取得された音声データとに基づいて、画像に関連付けられたテキストを含む第2の書籍を読み上げるための音声合成モデルを生成する。
【0093】
いくつかの実施形態では、書籍情報取得部123は、画像情報として、第1の書籍の特定のページに含まれ、かつ特定のページに含まれるテキストに関連付けられた画像に関する情報を取得する。
【0094】
いくつかの実施形態では、音声データ取得部121は、音声データとして、第1の書籍の特定のページに含まれ、かつ特定のページに含まれる画像に関連付けられたテキストを読み上げる音声のデータを取得する。
【0095】
いくつかの実施形態では、発話情報取得部122は、発話対象のアクセント、品詞、音素の開始時間又は音素の終了時間のうちの少なくとも1つを示す発話情報を取得する。
【0096】
上述のように、本開示に係る音声合成装置100は、ベクトル表現獲得部124および視覚特徴抽出部125を含む。少なくとも1つの実施形態では、ベクトル表現獲得部124は、発話情報を、発話対象の言語的な情報を示す言語ベクトルに変換する。少なくとも1つの実施形態では、視覚特徴抽出部125は、画像情報を、第1の書籍に含まれる画像の視覚特徴を示す視覚特徴ベクトルに変換する。いくつかの実施形態では、モデル学習部126は、言語ベクトル及び視覚特徴ベクトルに関連付けられた音声データを含む学習データを使用して、音声合成モデルを生成する。
【0097】
様々な実施形態を、図面を参照して、本明細書で詳細に説明したが、これらの複数の実施形態は例であり、本発明をこれらの複数の実施形態に限定することを意図するものではない。本明細書に記載された特徴は、当業者の知識に基づく様々な変形や改良を含む、様々な方法によって実現され得る。
【0098】
また、上述した「部(module、-er接尾辞、-or接尾辞)」は、ユニット、手段、回路などに読み替えることができる。例えば、通信部(communication module)、制御部(control module)および記憶部(storage module)は、それぞれ、通信ユニット、制御ユニットおよび記憶ユニットに読み替えることができる。また、制御部120内の各制御部(例えば、モデル学習部(model learner))も、モデル学習ユニットに読み替えることができる。
【符号の説明】
【0099】
1 環境
100 音声合成装置
110 通信部
120 制御部
121 音声データ取得部
122 発話情報取得部
123 書籍情報取得部
124 ベクトル表現獲得部
125 視覚特徴抽出部
126 モデル学習部
127 音声合成部
130 記憶部
131 音声データ
132 発話情報
133 書籍情報
134 音声合成モデル
200 ネットワーク
300 ユーザ装置
図1
図2
図3A
図3B
図3C
図3D
図4
図5
図6
図7
図8
図9
図10