(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-11-21
(45)【発行日】2022-11-30
(54)【発明の名称】音声合成方法、音声合成システムおよびプログラム
(51)【国際特許分類】
G10L 13/10 20130101AFI20221122BHJP
G10L 13/033 20130101ALI20221122BHJP
G10L 13/00 20060101ALI20221122BHJP
G10L 13/04 20130101ALI20221122BHJP
【FI】
G10L13/10 113Z
G10L13/033 102B
G10L13/00 100Y
G10L13/04 Z
(21)【出願番号】P 2020113896
(22)【出願日】2020-07-01
(62)【分割の表示】P 2017229042の分割
【原出願日】2017-11-29
【審査請求日】2020-11-18
(73)【特許権者】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110003177
【氏名又は名称】弁理士法人旺知国際特許事務所
(72)【発明者】
【氏名】大道 竜之介
【審査官】菊池 智紀
(56)【参考文献】
【文献】特開2004-246129(JP,A)
【文献】特開2019-101094(JP,A)
【文献】特開2001-134283(JP,A)
【文献】特開2008-292587(JP,A)
【文献】特開2017-097176(JP,A)
【文献】特開2008-268477(JP,A)
【文献】特開2011-013454(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-13/10
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
合成音声
の各音符について音韻
および第1発音期間を含む条件を指定する第1制御データを
利用して、時間軸上において前記各音符の前記音韻および前記第1発音期間を表す第1画像を
、表示装置に表示させ、
前記合成音声
の前記音韻に対応する
各音素
について音素記号および第2発音期間を指定する第2制御データを前記第1制御データから生成し、
前記第2制御データを
利用して、前記時間軸上において前記各音素の前記音素記号および前記第2発音期間を表す第2画像を
、前記表示装置に表示させ、
利用者からの第1指示に応じて前記第2制御データを変更し、
前記第1制御データと前記変更後の前記第2制御データとに応じて前記合成音声の音声信号を生成する、
コンピュータにより実現される音声合成方法。
【請求項2】
前記第1制御データと前記変更後の前記第2制御データとに応じて、前記合成音声に関する表情を指定する第3制御データを生成し、
前記第3制御データを表す第3画像を前記表示装置に表示させ、
前記利用者からの第2指示に応じて前記第3制御データを変更し、
前記音声信号の生成においては、前記第1制御データと前記変更後の前記第2制御データと前記変更後の前記第3制御データとに応じて前記音声信号を生成する
請求項1の音声合成方法。
【請求項3】
合成音声について音韻を含む条件を指定する第1制御データを表す第1画像を表示装置に表示させ、
前記合成音声について前記音韻に対応する音素の時系列を指定する第2制御データを前記第1制御データから生成し、
前記第2制御データを表す第2画像を前記表示装置に表示させ、
利用者からの第1指示に応じて前記第2制御データを変更し、
前記第1制御データと前記変更後の前記第2制御データとに応じて、前記合成音声に関する表情を指定する第3制御データを生成し、
前記第3制御データを表す第3画像を前記表示装置に表示させ、
前記利用者からの第2指示に応じて前記第3制御データを変更し、
前記第1制御データと前記変更後の前記第2制御データと前記変更後の前記第3制御データとに応じて、前記合成音声の周波数特性に関する合成データを生成し、
前記合成データを表す第4画像を前記表示装置に表示させ、
前記利用者からの第3指示に応じて前記合成データを変更し、
前記変更後の前記合成データに応じて前記合成音声の音声信号を生成する
コンピュータにより実現される音声合成方法。
【請求項4】
前記第2制御データの生成においては、前記第1制御データを入力に含む第1学習済モデルにより前記第2制御データを生成し、
前記第3制御データの生成においては、前記第1制御データと前記変更後の前記第2制御データとを入力に含む第2学習済モデルにより前記第3制御データを生成し、
前記合成データの生成においては、前記第1制御データと前記変更後の前記第2制御データと前記変更後の前記第3制御データとを入力に含む第3学習済モデルにより前記合成データを生成する
請求項3の音声合成方法。
【請求項5】
制御装置と記憶装置とを具備する音声合成システムであって、
前記制御装置は、前記記憶装置に記憶されたプログラムを実行することで、
合成音声
の各音符について音韻
および第1発音期間を含む条件を指定する第1制御データを
利用して、時間軸上において前記各音符の前記音韻および前記第1発音期間を表す第1画像を
、表示装置に表示させ、
前記合成音声
の前記音韻に対応する
各音素
について音素記号および第2発音期間を指定する第2制御データを前記第1制御データから生成し、
前記第2制御データを
利用して、前記時間軸上において前記各音素の前記音素記号および前記第2発音期間を表す第2画像を
、前記表示装置に表示させ、
利用者からの第1指示に応じて前記第2制御データを変更し、
前記第1制御データと前記変更後の前記第2制御データとに応じて前記合成音声の音声信号を生成する、
音声合成システム。
【請求項6】
前記制御装置は、
前記第1制御データと前記変更後の前記第2制御データとに応じて、前記合成音声に関する表情を指定する第3制御データを生成し、
前記第3制御データを表す第3画像を前記表示装置に表示させ、
前記利用者からの第2指示に応じて前記第3制御データを変更し、
前記音声信号の生成においては、前記第1制御データと前記変更後の前記第2制御データと前記変更後の前記第3制御データとに応じて前記音声信号を生成する
請求項
5の音声合成システム。
【請求項7】
制御装置と記憶装置とを具備する音声合成システムであって、
前記制御装置は、前記記憶装置に記憶されたプログラムを実行することで、
合成音声について音韻を含む条件を指定する第1制御データを表す第1画像を表示装置に表示させ、
前記合成音声について前記音韻に対応する音素の時系列を指定する第2制御データを前記第1制御データから生成し、
前記第2制御データを表す第2画像を前記表示装置に表示させ、
利用者からの第1指示に応じて前記第2制御データを変更し、
前記第1制御データと前記変更後の前記第2制御データとに応じて、前記合成音声に関する表情を指定する第3制御データを生成し、
前記第3制御データを表す第3画像を前記表示装置に表示させ、
前記利用者からの第2指示に応じて前記第3制御データを変更し、
前記第1制御データと前記変更後の前記第2制御データと前記変更後の前記第3制御データとに応じて、前記合成音声の周波数特性に関する合成データを生成し、
前記合成データを表す第4画像を前記表示装置に表示させ、
前記利用者からの第3指示に応じて前記合成データを変更し、
前記変更後の前記合成データに応じて前記合成音声の音声信号を生成する
音声合成システム。
【請求項8】
前記制御装置は、
前記第2制御データの生成において、前記第1制御データを入力に含む第1学習済モデルにより前記第2制御データを生成し、
前記第3制御データの生成において、前記第1制御データと前記変更後の前記第2制御データとを入力に含む第2学習済モデルにより前記第3制御データを生成し、
前記合成データの生成において、前記第1制御データと前記変更後の前記第2制御データと前記変更後の前記第3制御データとを入力に含む第3学習済モデルにより前記合成データを生成する
請求項
7の音声合成システム。
【請求項9】
合成音声
の各音符について音韻
および第1発音期間を含む条件を指定する第1制御データを
利用して、時間軸上において前記各音符の前記音韻および前記第1発音期間を表す第1画像を
、表示装置に表示させる処理と、
前記合成音声
の前記音韻に対応する
各音素
について音素記号および第2発音期間を指定する第2制御データを前記第1制御データから生成する処理と、
前記第2制御データを
利用して、前記時間軸上において前記各音素の前記音素記号および前記第2発音期間を表す第2画像を
、前記表示装置に表示させる処理と、
利用者からの第1指示に応じて前記第2制御データを変更する処理と、
前記第1制御データと前記変更後の前記第2制御データとに応じて前記合成音声の音声信号を生成する処理と
をコンピュータに実行させるプログラム。
【請求項10】
合成音声について音韻を含む条件を指定する第1制御データを表す第1画像を表示装置に表示させる処理と、
前記合成音声について前記音韻に対応する音素の時系列を指定する第2制御データを前記第1制御データから生成する処理と、
前記第2制御データを表す第2画像を前記表示装置に表示させる処理と、
利用者からの第1指示に応じて前記第2制御データを変更する処理と、
前記第1制御データと前記変更後の前記第2制御データとに応じて、前記合成音声に関する表情を指定する第3制御データを生成する処理と、
前記第3制御データを表す第3画像を前記表示装置に表示させる処理と、
前記利用者からの第2指示に応じて前記第3制御データを変更する処理と、
前記第1制御データと前記変更後の前記第2制御データと前記変更後の前記第3制御データとに応じて、前記合成音声の周波数特性に関する合成データを生成する処理と、
前記合成データを表す第4画像を前記表示装置に表示させる処理と、
前記利用者からの第3指示に応じて前記合成データを変更する処理と、
前記変更後の前記合成データに応じて前記合成音声の音声信号を生成する処理と
をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声を合成する技術に関する。
【背景技術】
【0002】
任意の音韻の音声を合成する各種の音声合成技術が従来から提案されている。例えば特許文献1には、利用者が編集画面に対して指示した音符列を発音した歌唱音声を合成する技術が開示されている。編集画面は、時間軸と音高軸とが設定されたピアノロール画面である。利用者は、楽曲を構成する音符毎に、音韻(発音文字)と音高と発音期間とを指定する。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、特許文献1の技術では、利用者は、音符毎に音韻と音高と発音期間とを指示できるに過ぎず、利用者の意図または嗜好を合成音声に精緻に反映させることは実際には容易ではない。以上の事情を考慮して、本発明の好適な態様は、利用者の意図または嗜好に沿った合成音声を生成することを目的とする。
【課題を解決するための手段】
【0005】
以上の課題を解決するために、本発明の好適な態様に係る音声合成方法は、音韻を指定する第1制御データを含む入力に応じた第2制御データを中間学習済モデルにより生成し、利用者からの第1指示に応じて前記第2制御データを変更し、前記第1制御データと前記変更後の前記第2制御データとを含む入力に応じて、合成音声の周波数特性に関する合成データを出力学習済モデルにより生成し、前記合成データに応じた音声信号を生成する。
【0006】
本発明の好適な態様に係るプログラムは、音韻を指定する第1制御データを含む入力に応じて第2制御データを中間学習済モデルにより生成する処理と、利用者からの第1指示に応じて前記第2制御データを変更する処理と、前記第1制御データと前記変更後の前記第2制御データとを含む入力に応じて、合成音声の周波数特性に関する合成データを出力学習済モデルにより生成する処理と、前記合成データに応じた音声信号を生成する処理とをコンピュータに実行させる。
【図面の簡単な説明】
【0007】
【
図1】本発明の第1実施形態に係る音声合成装置の構成を例示するブロック図である。
【
図2】音声合成装置の機能的な構成を例示するブロック図である。
【
図5】第2実施形態に係る音声合成装置の機能的な構成を例示するブロック図である。
【
図6】第2実施形態における音声合成処理のフローチャートである。
【発明を実施するための形態】
【0008】
<第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100の構成を例示するブロック図である。音声合成装置100は、任意の音韻の音声(以下「合成音声」という)を合成する。第1実施形態の音声合成装置100は、歌唱者が楽曲を仮想的に歌唱した音声を合成音声として合成する歌唱合成装置である。
図1に例示される通り、第1実施形態の音声合成装置100は、制御装置11と記憶装置12と操作装置13と表示装置14と放音装置15とを具備するコンピュータシステムで実現される。例えば携帯電話機もしくはスマートフォン等の可搬型の情報端末、またはパーソナルコンピュータ等の可搬型または据置型の情報端末が、音声合成装置100として好適に利用される。
【0009】
表示装置14は、例えば液晶表示パネルで構成され、制御装置11から指示された画像を表示する。操作装置13は、利用者からの指示を受付ける入力機器である。具体的には、利用者が操作可能な複数の操作子、または、表示装置14の表示面に対する接触を検知するタッチパネルが、操作装置13として好適に利用される。
【0010】
制御装置11は、例えばCPU(Central Processing Unit)等の処理回路であり、音声合成装置100を構成する各要素を統括的に制御する。第1実施形態の制御装置11は、合成音声の波形を表す時間領域の音声信号Vを生成する。放音装置15(例えばスピーカまたはヘッドホン)は、制御装置11が生成した音声信号Vが表す音声を再生する。なお、制御装置11が生成した音声信号Vをデジタルからアナログに変換するD/A変換器と、音声信号Vを増幅する増幅器とについては図示を便宜的に省略した。また、放音装置15を音声合成装置100に搭載した構成を
図1では例示したが、音声合成装置100とは別体の放音装置15を音声合成装置100に有線または無線で接続してもよい。
【0011】
記憶装置12は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成され、制御装置11が実行するプログラムと制御装置11が使用する各種のデータとを記憶する。なお、音声合成装置100とは別体の記憶装置12(例えばクラウドストレージ)を用意し、移動体通信網またはインターネット等の通信網を介して制御装置11が記憶装置12に対する書込および読出を実行してもよい。すなわち、記憶装置12を音声合成装置100から省略してもよい。
【0012】
記憶装置12は、楽曲の音楽的な特徴を表す制御データC0を記憶する。第1実施形態の制御データC0は、楽曲を構成する複数の音符の各々について音高と音韻と発音期間とを指定する楽曲データである。すなわち、制御データC0は、音楽レベルの制御のためのデータ(具体的には楽譜に相当するデータ)である。音高は、例えばMIDI(Musical Instrument Digital Interface)のノート番号である。音韻は、合成音声により発音される文字(すなわち楽曲の歌詞)である。具体的には、音韻は、MIDIのテキストイベントであり、音符毎に1個の音節が音韻として指定される。発音期間は、楽曲の1個の音符が発音される期間であり、例えば音符の開始点と、終了点または継続長とで指定される。なお、例えばMIDIのデュレーションデータにより発音期間を指定してもよい。また、第1実施形態の制御データC0は、楽曲の音楽的な表現を表す演奏記号を指定する。例えば、フォルテ(f),ピアノ(p),クレッシェンド,デクレッシェンド,スタッカート,テヌートまたはスラー等の演奏記号が制御データC0により指定される。
【0013】
図2は、制御装置11の機能的な構成を例示するブロック図である。
図2に例示される通り、制御装置11は、記憶装置12に記憶されたプログラムを実行することで、制御データC0に応じた音声信号Vを生成するための複数の機能(表示制御部21,編集処理部E0,学習済モデルM1,編集処理部E1,学習済モデルM2,編集処理部E2,学習済モデルM3,編集処理部E3および合成処理部22)を実現する。なお、複数の装置の集合(すなわちシステム)で制御装置11の機能を実現してもよいし、制御装置11の機能の一部または全部を専用の電子回路(例えば信号処理回路)で実現してもよい。
【0014】
表示制御部21は、表示装置14に画像を表示させる。第1実施形態の表示制御部21は、利用者が合成音声の調整を指示するために参照する編集画面を表示装置14に表示させる。
図3は、編集画面の模式図である。
図3に例示される通り、編集画面は、複数の編集領域A(A0~A3)と複数の操作部B(B0~B3)とを含む画像である。複数の操作部Bの各々は、利用者からの指示を受付ける操作子の画像である。また、複数の編集領域A(A0~A3)には共通の時間軸(横軸)が設定される。
【0015】
編集領域A0は、音楽レベルの制御データC0の内容を表す画像(いわゆるピアノロール画面)である。具体的には、編集領域A0には、制御データC0が指定する音符を表す音符画像(ノートバー)が、時間軸と音高軸とを含む座標平面に時系列に配置される。時間軸上における各音符画像の位置および表示長は、制御データC0が指定する発音期間に応じて設定され、音高軸上における音符画像の位置は、制御データC0が指定する音高に応じて設定される。音符画像の内部には、制御データC0が指定する音韻(具体的には書記素)が表示される。また、編集領域A0には、制御データC0が指定する演奏記号も表示される。例えば
図3では、クレッシェンド,フォルテおよびデクレッシェンドが演奏記号として例示されている。利用者は、操作装置13を操作することで、編集領域A0に対する編集指示Q0を付与することが可能である。編集指示Q0は、例えば、各音符の条件(発音期間、音高もしくは音韻)の変更の指示、または、演奏記号の変更(追加もしくは削除)の指示である。
【0016】
編集領域A1は、音素レベルの特徴、例えば、合成音声を構成する複数の音素(母音または子音)の時系列を表す画像である。具体的には、編集領域A1には、合成音声の複数の音素の各々について音素記号と発音期間とが表示される。利用者は、操作装置13を操作することで、編集領域A1に対する編集指示Q1を付与することが可能である。編集指示Q1は、例えば、各音素の音素記号の変更の指示、または、発音期間の変更(例えば移動もしくは伸縮)の指示である。
【0017】
編集領域A2は、発音レベルの特徴、例えば、合成音声に付与される音楽的な表情を表す画像である。具体的には、編集領域A2には、合成音声のうち音楽的な表情が付与される期間(以下「表情期間」という)と各表情期間における表情の種類(以下「表情種別」という)とが表示される。合成音声に付与される音楽的な表情としては、嗄声または気息音等の声質と、ビブラートまたはフォール等の発音技法とが例示される。利用者は、操作装置13を操作することで、編集領域A2に対する編集指示Q2を付与することが可能である。編集指示Q2は、例えば、各表情期間の変更(例えば移動もしくは伸縮)の指示、または、各表情期間における表情種別の変更の指示である。
【0018】
編集領域A3は、ボコーダレベルの特徴、例えば、合成音声の周波数特性の時間的な変化を表す画像である。具体的には、編集領域A3には、合成音声の基本周波数F0の時間的な変化を表す曲線が表示される。利用者は、操作装置13を操作することで、編集領域A3に対する編集指示Q3を付与することが可能である。編集指示Q3は、例えば基本周波数F0の時間的な変化の変更の指示である。
【0019】
図2の編集処理部E0は、編集領域A0に対する利用者からの編集指示Q0に応じて音楽レベルの制御データC0を変更する。具体的には、編集処理部E0は、制御データC0が指定する各音符の条件(発音期間、音高もしくは音韻)、または、制御データC0が指定する演奏記号を、編集指示Q0に応じて変更する。編集指示Q0が付与された場合には、編集処理部E0による変更後の制御データC0が、学習済モデルM1と学習済モデルM2と学習済モデルM3とに供給される。他方、編集指示Q0が付与されない場合には、記憶装置12に記憶された制御データC0が、学習済モデルM1と学習済モデルM2と学習済モデルM3とに供給される。
【0020】
学習済モデルM1は、音楽レベルの制御データC0に応じた音素レベルの制御データC1を出力する。制御データC1は、合成音声の音素に関するデータである。具体的には、制御データC1は、制御データC0が指定する音韻に対応した複数の音素の時系列を指定する。例えば、制御データC1は、合成音声を構成する複数の音素の各々について、音素記号(すなわち音素の種別)と発音期間とを指定する。各音素の発音期間は、例えば開始点と終了点または継続長とで指定される。
【0021】
第1実施形態の学習済モデルM1は、制御データC0と制御データC1とを対応させた複数の教師データを利用した機械学習(特に深層学習)により、制御データC0と制御データC1との関係を学習した統計的予測モデルである。例えば、制御データC0の入力に対して制御データC1を出力するニューラルネットワークが学習済モデルM1として好適に利用される。学習済モデルM1を規定する複数の係数K1が、機械学習により設定されて記憶装置12に記憶される。したがって、複数の教師データから抽出される傾向(制御データC0と制御データC1との関係)のもとで未知の制御データC0に対して統計的に妥当な制御データC1が学習済モデルM1から出力される。表示制御部21は、学習済モデルM1が生成する制御データC1に応じて編集領域A1を表示装置14に表示させる。すなわち、制御データC1が音素毎に指定する音素記号と発音期間とが編集領域A1に表示される。
【0022】
編集処理部E1は、学習済モデルM1が出力する音素レベルの制御データC1を、編集領域A1に対する利用者からの編集指示Q1に応じて変更する。具体的には、編集処理部E1は、制御データC1が音素毎に指定する音素記号または発音期間を、編集指示Q1に応じて変更する。表示制御部21は、編集領域A1を、変更後の制御データC1に応じた内容に更新する。編集指示Q1が付与された場合には、編集処理部E1による変更後の制御データC1が学習済モデルM2および学習済モデルM3に供給され、編集指示Q1が付与されない場合には、学習済モデルM1が出力した制御データC1が学習済モデルM2および学習済モデルM3に供給される。
【0023】
学習済モデルM2は、音楽レベルの制御データC0と音素レベルの制御データC1とを含む入力データD2に応じた発音レベルの制御データC2を出力する。制御データC2は、合成音声の音楽的な表情に関するデータである。具体的には、制御データC2は、時間軸上の1個以上の表情期間と各表情期間における表情種別とを指定する。各表情期間は、例えば開始点と終了点または継続長とで指定される。
【0024】
第1実施形態の学習済モデルM2は、入力データD2と制御データC2とを対応させた複数の教師データを利用した機械学習(特に深層学習)により、入力データD2と制御データC2との関係を学習した統計的予測モデルである。例えば入力データD2の入力に対して制御データC2を出力するニューラルネットワークが学習済モデルM2として好適に利用される。学習済モデルM2を規定する複数の係数K2が、機械学習により設定されて記憶装置12に記憶される。したがって、複数の教師データから抽出される傾向(入力データD2と制御データC2との関係)のもとで未知の入力データD2に対して統計的に妥当な制御データC2が学習済モデルM2から出力される。表示制御部21は、学習済モデルM2が生成する制御データC2に応じて編集領域A2を表示装置14に表示させる。すなわち、制御データC2が指定する表情期間と表情種別とが編集領域A2に表示される。
【0025】
編集処理部E2は、学習済モデルM2が出力する発音レベルの制御データC2を、編集領域A2に対する利用者からの編集指示Q2に応じて変更する。具体的には、編集処理部E2は、制御データC2が指定する表情期間または表情種別を、編集指示Q2に応じて変更する。表示制御部21は、編集領域A2を、変更後の制御データC2に応じた内容に更新する。編集指示Q2が付与された場合には、編集処理部E2による変更後の制御データC2が学習済モデルM3に供給され、編集指示Q2が付与されない場合には、学習済モデルM2が出力した制御データC2が学習済モデルM3に供給される。
【0026】
学習済モデルM3は、音楽レベルの制御データC0と音素レベルの制御データC1と発音レベルの制御データC2とを含む入力データD3に応じたボコーダレベルの制御データC3(合成データの例示)を出力する。制御データC3は、合成音声の周波数特性に関するデータである。例えば、制御データC3は、合成音声の基本周波数F0の時系列と、調波成分の包絡線の時系列と、非調波成分の包絡線の時系列とを指定する。調波成分の包絡線は、調波成分の強度スペクトル(振幅スペクトルまたはパワースペクトル)の概形を表す曲線である。調波成分は、基本周波数F0の基音成分と基本周波数F0の整数倍の周波数の複数の倍音成分とで構成される周期成分である。他方、非調波成分の包絡線は、非調波成分の強度スペクトルの概形を表す曲線である。非調波成分は、調波成分以外の非周期成分(残差成分)である。調波成分および非調波成分の包絡線は、例えば複数のメルケプストラム係数で表現される。
【0027】
第1実施形態の学習済モデルM3は、入力データD3と制御データC3とを対応させた複数の教師データを利用した機械学習(特に深層学習)により、入力データD3と制御データC3との関係を学習した統計的予測モデルである。例えば入力データD3の入力に対して制御データC3を出力するニューラルネットワークが学習済モデルM3として好適に利用される。学習済モデルM3を規定する複数の係数K3が、機械学習により設定されて記憶装置12に記憶される。したがって、複数の教師データから抽出される傾向(入力データD3と制御データC3との関係)のもとで未知の入力データD3に対して統計的に妥当な制御データC3が学習済モデルM3から出力される。表示制御部21は、学習済モデルM3が生成する制御データC3に応じて編集領域A3を表示装置14に表示させる。すなわち、制御データC3が指定する基本周波数F0の時系列が編集領域A3に表示される。
【0028】
編集処理部E3は、学習済モデルM3が出力するボコーダレベルの制御データC3を、編集領域A3に対する利用者からの編集指示Q3に応じて変更する。具体的には、編集処理部E3は、制御データC3が指定する基本周波数F0を、編集指示Q3に応じて変更する。表示制御部21は、編集領域A3を、変更後の制御データC3に応じた内容に更新する。編集指示Q3が付与された場合には、編集処理部E3による変更後の制御データC3が合成処理部22に供給され、編集指示Q3が付与されない場合には、学習済モデルM3が出力した制御データC3が合成処理部22に供給される。
【0029】
合成処理部22は、制御データC3に応じた音声信号Vを生成する。合成処理部22による音声信号Vの生成には公知の音声合成技術が任意に採用される。例えば、SMS(Spectral Model Synthesis)が音声信号Vの生成に好適に利用される。合成処理部22が生成した音声信号Vが放音装置15に供給されて音波として再生される。以上の説明から理解される通り、合成処理部22は、いわゆるボコーダに相当する。
【0030】
編集指示Q0に応じて編集処理部E0が音楽レベルの制御データC0を変更すると、利用者は、操作装置13を使用して
図3の操作部B0を操作する。操作部B0が操作されると、変更後の制御データC0について、学習済モデルM1による制御データC1の生成と、学習済モデルM2による制御データC2の生成と、学習済モデルM3による制御データC3の生成とが実行される。
【0031】
編集指示Q1に応じて編集処理部E1が音素レベルの制御データC1を変更すると、利用者は、操作装置13を使用して操作部B1を操作する。操作部B1が操作されると、変更後の制御データC1が学習済モデルM2および学習済モデルM3に供給され、学習済モデルM2による制御データC2の生成と学習済モデルM3による制御データC3の生成とが実行される。操作部B1が操作された場合には、学習済モデルM1による制御データC1の生成は実行されず、編集指示Q1を反映した制御データC1を利用して音声信号Vが生成される。
【0032】
編集指示Q2に応じて編集処理部E2が発音レベルの制御データC2を変更すると、利用者は、操作装置13を使用して操作部B2を操作する。操作部B2が操作されると、変更後の制御データC2が学習済モデルM3に供給され、学習済モデルM3による制御データC3の生成が実行される。操作部B2が操作された場合には、学習済モデルM1による制御データC1の生成と学習済モデルM2による制御データC2の生成とは実行されず、編集指示Q2を反映した制御データC2を利用して音声信号Vが生成される。
【0033】
図4は、制御装置11が音声信号Vを生成する処理(以下「音声合成処理」という)のフローチャートである。例えば音声合成装置100に対する利用者からの指示を契機として音声合成処理が実行される。例えば
図3の操作部B3(再生)が操作された場合に音声合成処理が実行される。
【0034】
音声合成処理を開始すると、編集処理部E0は、利用者からの編集指示Q0に応じて音楽レベルの制御データC0を変更する(Sa1)。編集指示Q0が付与されない場合には、制御データC0の変更は省略される。
【0035】
学習済モデルM1は、合成音声の音素に関する制御データC1を制御データC0に応じて生成する(Sa2)。編集処理部E1は、利用者からの編集指示Q1に応じて音素レベルの制御データC1を変更する(Sa3)。編集指示Q1が付与されない場合には、制御データC1の変更は省略される。
【0036】
学習済モデルM2は、制御データC0と制御データC1とを含む入力データD2に応じて、合成音声の音楽的な表情に関する制御データC2を生成する(Sa4)。編集処理部E2は、利用者からの編集指示Q2に応じて発音レベルの制御データC2を変更する(Sa5)。編集指示Q2が付与されない場合には、制御データC2の変更は省略される。
【0037】
学習済モデルM3は、制御データC0と制御データC1と制御データC2とを含む入力データD3に応じて、合成音声の周波数特性に関する制御データC3を生成する(Sa6)。編集処理部E3は、利用者からの編集指示Q3に応じてボコーダレベルの制御データC3を変更する(Sa7)。編集指示Q3が付与されない場合には、制御データC3の変更は省略される。合成処理部22は、制御データC3に応じた音声信号Vを生成する(Sa8)。
【0038】
以上に説明した通り、第1実施形態では、制御データC0から制御データC3を生成するまでの途中の段階で利用者からの指示(編集指示Q1または編集指示Q2)が反映されるから、利用者が制御データC0を編集できるだけの構成と比較して、利用者の意図または嗜好に沿った合成音声の音声信号Vを生成できるという利点がある。
【0039】
第1実施形態では特に、合成音声の音素に関する制御データC1が利用者からの編集指示Q1に応じて変更される。したがって、利用者の意図または嗜好に応じて音素が調整された合成音声の音声信号Vを生成できる。また、合成音声の表情に関する制御データC2が利用者からの編集指示Q2に応じて変更される。したがって、利用者の意図または嗜好に応じて音楽的な表情が調整された合成音声の音声信号を生成できる。また、利用者からの編集指示Q3に応じて制御データC3が変更される。したがって、利用者の意図または嗜好に応じて周波数特性が調整された合成音声の音声信号Vを生成できる。
【0040】
<第2実施形態>
本発明の第2実施形態を説明する。なお、以下に例示する各形態において作用または機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
【0041】
図5は、第2実施形態における制御装置11の機能的な構成を例示するブロック図である。
図5に例示される通り、第1実施形態で例示した学習済モデルM1と編集処理部E1と学習済モデルM2と編集処理部E2とが、第2実施形態では、学習済モデルM12と編集処理部E12とに置換される。編集処理部E0による編集後の制御データC0は、学習済モデルM12に供給される。
【0042】
学習済モデルM12は、音楽レベルの制御データC0に応じた音素・発音レベルの制御データC12を出力する。制御データC12は、合成音声の音素と音楽的な表情とに関するデータである。具体的には、制御データC12は、制御データC0が指定する音韻に対応した各音素の音素記号および発音期間と、合成音声に表情が付与される表情期間および表情種別とを指定する。すなわち、第2実施形態の制御データC12は、第1実施形態における制御データC1と制御データC2とを併合したデータである。
【0043】
第2実施形態の学習済モデルM12は、制御データC0と制御データC12とを対応させた複数の教師データを利用した機械学習(特に深層学習)により、制御データC0と制御データC12との関係を学習した統計的予測モデルである。例えば制御データC0の入力に対して制御データC12を出力するニューラルネットワークが学習済モデルM12として好適に利用される。学習済モデルM12を規定する複数の係数が、機械学習により設定されて記憶装置12に記憶される。したがって、複数の教師データから抽出される傾向(制御データC0と制御データC12との関係)のもとで未知の制御データC0に対して統計的に妥当な制御データC12が学習済モデルM12から出力される。表示制御部21は、学習済モデルM12が生成する制御データC12に応じて編集領域A1および編集領域A2を表示装置14に表示させる。
【0044】
編集処理部E12は、学習済モデルM12が出力する音素・発音レベルの制御データC12を、編集領域A1に対する利用者からの編集指示Q1、または、編集領域A2に対する利用者からの編集指示Q2に応じて変更する。具体的には、編集処理部E12は、制御データC12が音素毎に指定する音素記号および発音期間を編集指示Q1に応じて変更し、制御データC12が指定する表情期間および表情種別を編集指示Q2に応じて変更する。表示制御部21は、編集領域A1および編集領域A2を、変更後の制御データC12に応じた内容に更新する。編集指示Q1または編集指示Q2が付与された場合には、編集処理部E12による変更後の制御データC12が学習済モデルM3に供給され、編集指示Q1または編集指示Q2が付与されない場合には、学習済モデルM12が出力した制御データC12が学習済モデルM3に供給される。
【0045】
第2実施形態の学習済モデルM3は、音楽レベルの制御データC0と音素・発音レベルの制御データC12とを含む入力データD3に応じたボコーダレベルの制御データC3(合成データの例示)を出力する。学習済モデルM3が入力データD3の入力に対して制御データC3を出力する具体的な動作は第1実施形態と同様である。また、第1実施形態と同様に、編集処理部E3は、利用者からの編集指示Q3に応じて制御データC3を変更し、合成処理部22は、制御データC3に応じた音声信号Vを生成する。
【0046】
図6は、第2実施形態における音声合成処理のフローチャートである。例えば音声合成装置100に対する利用者からの指示を契機として音声合成処理が実行される。例えば
図3の操作部B3(再生)が操作された場合に音声合成処理が実行される。
【0047】
音声合成処理を開始すると、編集処理部E0は、利用者からの編集指示Q0に応じて音楽レベルの制御データC0を変更する(Sb1)。編集指示Q0が付与されない場合には、制御データC0の変更は省略される。
【0048】
学習済モデルM12は、合成音声の音素に関する制御データC12を制御データC0に応じて生成する(Sb2)。編集処理部E12は、利用者からの編集指示Q1または編集指示Q2に応じて音素・発音レベルの制御データC12を変更する(Sb3)。編集指示Q1または編集指示Q2が付与されない場合には、制御データC12の変更は省略される。
【0049】
学習済モデルM3は、制御データC0と制御データC12とを含む入力データD3に応じて、合成音声の周波数特性に関する制御データC3を生成する(Sb4)。編集処理部E3は、利用者からの編集指示Q3に応じてボコーダレベルの制御データC3を変更する(Sb5)。編集指示Q3が付与されない場合には、制御データC3の変更は省略される。合成処理部22は、制御データC3に応じた音声信号Vを生成する(Sb6)。
【0050】
第2実施形態では、制御データC0から制御データC3を生成するまでの途中の段階で利用者からの指示(編集指示Q1または編集指示Q2)が反映されるから、第1実施形態と同様に、利用者が制御データC0を編集できるだけの構成と比較して、利用者の意図または嗜好に沿った合成音声の音声信号Vを生成できる。第2実施形態では特に、合成音声の音素および表情に関する制御データC12が利用者からの編集指示Q1または編集指示Q2に応じて変更される。したがって、利用者の意図または嗜好に応じて音素または表情が調整された合成音声の音声信号Vを生成できるという利点もある。
【0051】
<変形例>
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。
【0052】
(1)例えば移動体通信網またはインターネット等の通信網を介して端末装置(例えば携帯電話機またはスマートフォン)と通信するサーバ装置により音声合成装置100を実現してもよい。具体的には、音声合成装置100は、端末装置から受信した制御データC0に対する音声合成処理(
図4または
図6)により音声信号Vを生成し、当該音声信号Vを端末装置に送信する。端末装置の放音装置15は、音声合成装置100から受信した音声信号Vが表す音声を再生する。なお、音声合成装置100の編集処理部E3がが生成した制御データC3を端末装置に送信し、端末装置に設置された合成処理部22が制御データC3から音声信号Vを生成してもよい。すなわち、合成処理部22は音声合成装置100から省略される。また、端末装置に搭載された編集処理部E0が生成した制御データC0を音声合成装置100に送信し、当該制御データC0に応じて生成した音声信号Vを音声合成装置100から端末装置に送信してもよい。すなわち、編集処理部E0は音声合成装置100から省略される。音声合成装置100をサーバ装置により実現した構成では、表示制御部21は、
図3の編集画面を端末装置の表示装置14に表示させる。
【0053】
(2)前述の各形態に係る音声合成装置100は、各形態での例示の通り、コンピュータ(具体的には制御装置11)とプログラムとの協働により実現される。前述の各形態に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされる。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を含む。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。また、プログラムの実行主体はCPUに限定されず、Tensor Processing UnitおよびNeural Engine等のニューラルネットワーク用のプロセッサ、または、信号処理用のDSP(Digital Signal Processor)がプログラムを実行してもよい。また、以上の例示から選択された複数種の主体が協働してプログラムを実行してもよい。
【0054】
(3)学習済モデルは、入力Aから出力Bを特定する演算を制御装置11に実行させるプログラム(例えば人工知能ソフトウェアを構成するプログラムモジュール)と、当該演算に適用される複数の係数との組合せで実現される。学習済モデルの複数の係数は、入力Aと出力Bとを対応させた複数の教師データを利用した事前の機械学習(特に深層学習)により最適化される。すなわち、学習済モデルは、入力Aと出力Bとの関係を学習した統計的モデルである。制御装置11は、学習済の複数の係数と所定の応答関数とを適用した演算を未知の入力Aに対して実行することで、複数の教師データから抽出される傾向(入力Aと出力Bとの関係)のもとで入力Aに対して統計的に妥当な出力Bを生成する。
【0055】
(4)以上に例示した形態から、例えば以下の構成が把握される。
【0056】
本発明の好適な態様(第1態様)に係る音声合成方法は、音韻を指定する第1制御データを含む入力に応じた第2制御データを中間学習済モデルにより生成し、利用者からの第1指示に応じて前記第2制御データを変更し、前記第1制御データと前記変更後の前記第2制御データとを含む入力に応じて、合成音声の周波数特性に関する合成データを出力学習済モデルにより生成し、前記合成データに応じた音声信号を生成する。以上の態様では、第1制御データから合成データを生成するまでの途中の段階で利用者からの第1指示が反映されるから、利用者が第1制御データを編集できるだけの構成と比較して、利用者の意図または嗜好に沿った合成音声を表す音声信号を生成できる。
【0057】
例えば第1実施形態における学習済モデルM1または学習済モデルM2、および、第2実施形態における学習済モデルM12が、第1態様における「中間学習済モデル」の好適例である。第1実施形態の学習済モデルM1を「中間学習済モデル」と解釈した場合、制御データC1が「第2制御データ」に相当し、編集指示Q1が「第1指示」に相当する。第1実施形態の学習済モデルM2を「中間学習済モデル」と解釈した場合、制御データC2が「第2制御データ」に相当し、編集指示Q2が「第1指示」に相当する。第2実施形態の学習済モデルM12を「中間学習済モデル」と解釈した場合、制御データC12が「第2制御データ」に相当し、編集指示Q1または編集指示Q2が「第1指示」に相当する。
【0058】
第1態様の好適例(第2態様)において、前記中間学習済モデルは、前記第1制御データを含む入力に応じて、前記合成音声の音素に関する前記第2制御データを生成する第1学習済モデルである。以上の態様では、合成音声の音素に関する第2制御データが利用者からの第1指示に応じて変更される。したがって、利用者の意図または嗜好に応じて音素が調整された合成音声の音声信号を生成できる。第2態様における「第1学習済モデル」の好適例は、例えば第1実施形態における「学習済モデルM1」である。
【0059】
第2態様の好適例(第3態様)において、前記第1制御データと前記変更後の第2制御データとを含む入力に応じて、前記合成音声の表情に関する第3制御データを第2学習済モデルにより生成し、利用者からの第2指示に応じて前記第3制御データを変更し、前記合成データの生成においては、前記第1制御データと前記変更後の前記第2制御データと前記変更後の第3制御データとを含む入力に応じて前記合成データを生成する。以上の態様では、合成音声の表情に関する第3制御データが利用者からの第2指示に応じて変更される。したがって、利用者の意図または嗜好に応じて表情が調整された合成音声の音声信号を生成できる。第3態様における「第2学習済モデル」の好適例は、例えば第1実施形態における学習済モデルM2であり、第3態様における「第3制御データ」の好適例は、例えば第1実施形態における制御データC2である。
【0060】
第1態様の好適例(第4態様)において、前記中間学習済モデルは、前記第1制御データを含む入力に応じて、前記合成音声の音素および表情に関する前記第2制御データを生成する学習済モデルである。以上の態様では、合成音声の音素および表情に関する第2制御データが利用者からの第1指示に応じて変更される。したがって、利用者の意図または嗜好に応じて音素および表情が調整された合成音声の音声信号を生成できる。第4態様における「中間学習済モデル」の好適例は、例えば第2実施形態における学習済モデルM12であり、第4態様における「第1指示」の好適例は、例えば第2実施形態における編集指示Q1または編集指示Q2である。
【0061】
第1態様から第4態様の何れかの好適例(第5態様)において、利用者からの第3指示に応じて前記合成データを変更し、前記音声信号の生成においては、前記変更後の合成データに応じて前記音声信号を生成する。以上の態様では、利用者からの第3指示に応じて合成データが変更される。したがって、利用者の意図または嗜好に応じて周波数特性が調整された合成音声の音声信号を生成できる。第5態様における「第3指示」の好適例は、例えば第1実施形態または第2実施形態における編集指示Q3である。
【0062】
本発明の好適な態様(第6態様)に係るプログラムは、音韻を指定する第1制御データを含む入力に応じて第2制御データを中間学習済モデルにより生成する処理と、利用者からの第1指示に応じて前記第2制御データを変更する処理と、前記第1制御データと前記変更後の前記第2制御データとを含む入力に応じて、合成音声の周波数特性に関する合成データを出力学習済モデルにより生成する処理と、前記合成データに応じた音声信号を生成する処理とをコンピュータに実行させる。以上の態様では、第1制御データから合成データを生成するまでの途中の段階で利用者からの第1指示が反映されるから、利用者が第1制御データを編集できるだけの構成と比較して、利用者の意図または嗜好に沿った合成音声を表す音声信号を生成できる。
【符号の説明】
【0063】
100…音声合成装置、11…制御装置、12…記憶装置、13…操作装置、14…表示装置、15…放音装置、21…表示制御部、22…合成処理部、E0,E1,E2,E3,E12…編集処理部、M1,M2,M3,M12…学習済モデル、Q0,Q1,Q2,Q3…編集指示、A0,A1,A2,A3…編集領域、B0,B1,B2,B3…操作部。