特許第6821970号(P6821970)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

<>
  • 特許6821970-音声合成装置および音声合成方法 図000002
  • 特許6821970-音声合成装置および音声合成方法 図000003
  • 特許6821970-音声合成装置および音声合成方法 図000004
  • 特許6821970-音声合成装置および音声合成方法 図000005
  • 特許6821970-音声合成装置および音声合成方法 図000006
  • 特許6821970-音声合成装置および音声合成方法 図000007
  • 特許6821970-音声合成装置および音声合成方法 図000008
  • 特許6821970-音声合成装置および音声合成方法 図000009
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6821970
(24)【登録日】2021年1月12日
(45)【発行日】2021年1月27日
(54)【発明の名称】音声合成装置および音声合成方法
(51)【国際特許分類】
   G10L 13/07 20130101AFI20210114BHJP
   G10L 13/10 20130101ALI20210114BHJP
   G10L 13/08 20130101ALI20210114BHJP
【FI】
   G10L13/07 C
   G10L13/10 112E
   G10L13/08 150Z
【請求項の数】9
【全頁数】15
(21)【出願番号】特願2016-129890(P2016-129890)
(22)【出願日】2016年6月30日
(65)【公開番号】特開2018-4870(P2018-4870A)
(43)【公開日】2018年1月11日
【審査請求日】2019年4月19日
(73)【特許権者】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】100125689
【弁理士】
【氏名又は名称】大林 章
(74)【代理人】
【識別番号】100128598
【弁理士】
【氏名又は名称】高田 聖一
(74)【代理人】
【識別番号】100121108
【弁理士】
【氏名又は名称】高橋 太朗
(72)【発明者】
【氏名】久湊 裕司
(72)【発明者】
【氏名】大道 竜之介
(72)【発明者】
【氏名】才野 慶二郎
(72)【発明者】
【氏名】ジョルディ ボナダ
(72)【発明者】
【氏名】メルレイン ブラアウ
【審査官】 大野 弘
(56)【参考文献】
【文献】 国際公開第2006/134736(WO,A1)
【文献】 特開2008−203543(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/07
G10L 13/08
G10L 13/10
(57)【特許請求の範囲】
【請求項1】
合成内容を指示する合成情報に応じた音声素片を順次に取得する素片取得部と、
前記合成情報に応じた統計スペクトル包絡を統計モデルにより生成する包絡生成部と、
前記素片取得部が取得した各音声素片を相互に接続した音声であって、前記包絡生成部が生成した統計スペクトル包絡に応じて当該各音声素片が調整された合成音声の音響信号を生成する音声合成部と
を具備する音声合成装置。
【請求項2】
前記音声合成部は、
前記素片取得部が取得した各音声素片の周波数スペクトルについて、相前後する各音声素片の接続部分において周波数スペクトルが連続的に遷移するように補間処理を実行する素片補間部と、
前記素片補間部による補間処理後の各周波数スペクトルを、前記包絡生成部が生成した統計スペクトル包絡に近付ける特性調整部と、
前記特性調整部による処理後の周波数スペクトルの時系列から前記音響信号を生成する波形合成部とを含む
請求項1の音声合成装置。
【請求項3】
前記素片補間部は、前記素片取得部が取得した各音声素片の素片スペクトル包絡について、相前後する各音声素片の接続部分において素片スペクトル包絡が連続的に遷移するように補間処理を実行し、
前記特性調整部は、前記素片補間部による補間処理後の素片スペクトル包絡と、前記包絡生成部が生成した統計スペクトル包絡とを可変の補間係数で補間した補間スペクトル包絡に近付くように、前記素片補間部による補間処理後の周波数スペクトルを調整する
請求項2の音声合成装置。
【請求項4】
前記音声合成部は、
前記素片取得部が取得した各音声素片の周波数スペクトルを、前記包絡生成部が生成した統計スペクトル包絡に近付ける特性調整部と、
前記特性調整部による処理後の各音声素片を接続することで前記音響信号を生成する素片接続部とを含む
請求項1の音声合成装置。
【請求項5】
前記特性調整部は、前記素片取得部が取得した音声素片の素片スペクトル包絡と、前記包絡生成部が生成した統計スペクトル包絡とを可変の補間係数で補間した補間スペクトル包絡に近付くように、当該音声素片の周波数スペクトルを調整する
請求項の音声合成装置。
【請求項6】
前記素片スペクトル包絡は、時間的な変動が緩慢である平滑成分と、前記平滑成分と比較して微細に変動する変動成分とを含み、
前記特性調整部は、前記統計スペクトル包絡と前記平滑成分との補間に前記変動成分を加算することで前記補間スペクトル包絡を算定する
請求項3または請求項5の音声合成装置。
【請求項7】
前記素片スペクトル包絡と前記統計スペクトル包絡とは、相異なる特徴量で表現される
請求項3または請求項5の音声合成装置。
【請求項8】
前記包絡生成部は、相異なる声質に対応する複数の統計モデルの何れかを選択的に利用して前記統計スペクトル包絡を生成する
請求項1から請求項の何れかの音声合成装置。
【請求項9】
コンピュータシステムが、
合成内容を指示する合成情報に応じた音声素片を順次に取得し、
前記合成情報に応じた統計スペクトル包絡を統計モデルにより生成し、
前記取得した各音声素片を相互に接続した音声であって、前記生成した統計スペクトル包絡に応じて当該各音声素片を調整した合成音声の音響信号を生成する
音声合成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声を合成する技術に関する。
【背景技術】
【0002】
任意の音韻(発音内容)の音声を合成する音声合成の技術が従来から提案されている。例えば特許文献1には、複数の音声素片のうち目標の音韻に応じて選択された音声素片を相互に接続することで合成音声を生成する素片接続型の音声合成が開示されている。また、特許文献2には、声道特性を表現するスペクトルパラメータの系列をHMM(Hidden Markov Model)により生成し、スペクトルパラメータに応じた周波数特性の合成フィルタにより励振信号を処理することで合成音声を生成する統計モデル型の音声合成が開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2007−240564号公報
【特許文献2】特開2002−268660号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、標準的な声質の音声だけでなく、例えば強目に発音した音声または穏やかに発音した音声など、多様な声質の音声を合成することが要求される。素片接続型の音声合成において多様な声質の音声を合成するためには、多数の音声素片の集合(音声合成用ライブラリ)を声質毎に個別に用意する必要がある。したがって、音声素片を保持するために充分な記憶容量が必要である。他方、統計モデル型の音声合成において統計モデルで推定されるスペクトルは、学習過程において多数のスペクトルを平均したスペクトルであり、素片接続型の音声素片と比較して時間分解能および周波数分解能が低い。したがって、高品質な合成音声の生成は困難である。以上の事情を考慮して、本発明は、音声合成に必要な記憶容量を削減しながら所望の声質の高品質な合成音声を生成することを目的とする。
【課題を解決するための手段】
【0005】
以上の課題を解決するために、本発明の好適な態様に係る音声合成装置は、合成内容を指示する合成情報に応じた音声素片を順次に取得する素片取得部と、合成情報に応じた統計スペクトル包絡を統計モデルにより生成する包絡生成部と、素片取得部が取得した各音声素片を相互に接続した音声であって、包絡生成部が生成した統計スペクトル包絡に応じて当該各音声素片が調整された合成音声の音響信号を生成する音声合成部とを具備する。以上の態様では、音声素片を相互に接続した音声であって統計モデルにより生成された統計スペクトル包絡に応じて各音声素片を調整した合成音声(例えば統計モデルでモデル化された声質に近い合成音声)の音響信号が生成される。したがって、声質毎に音声素片を用意する構成と比較して、所望の声質の合成音声を生成するために必要な記憶容量が削減される。また、音声素片を利用せずに統計モデルで合成音声を生成する構成と比較して、時間分解能または周波数分解能が高い音声素片を利用した高品位な合成音声を生成することが可能である。
【0006】
本発明の好適な態様において、音声合成部は、素片取得部が取得した各音声素片の周波数スペクトルを、包絡生成部が生成した統計スペクトル包絡に近付ける特性調整部と、特性調整部による処理後の各音声素片を接続することで音響信号を生成する素片接続部とを含む。
【0007】
本発明の好適な態様において、特性調整部は、素片取得部が取得した音声素片の素片スペクトル包絡と、包絡生成部が生成した統計スペクトル包絡とを可変の補間係数で補間した補間スペクトル包絡に近付くように、当該音声素片の周波数スペクトルを調整する。以上の態様では、素片スペクトル包絡と統計スペクトル包絡との補間に適用される補間係数(加重値)が可変に設定されるから、音声素片の周波数スペクトルを統計スペクトル包絡に近付ける度合(声質の調整の度合)を変化させることが可能である。
【0008】
本発明の好適な態様において、素片スペクトル包絡は、時間的な変動が緩慢である平滑成分と、平滑成分と比較して微細に変動する変動成分とを含み、特性調整部は、統計スペクトル包絡と平滑成分との補間に変動成分を加算することで補間スペクトル包絡を算定する。以上の態様では、統計スペクトル包絡と素片スペクトル包絡の平滑成分との補間に変動成分を加算することで補間スペクトル包絡が算定されるから、平滑成分と変動成分とを適切に含有する補間スペクトル包絡を算定することが可能である。
【0009】
本発明の好適な態様において、素片スペクトル包絡と統計スペクトル包絡とは、相異なる特徴量で表現される。素片スペクトル包絡の表現には、周波数軸方向のパラメータを含む特徴量が好適に採用される。具体的には、素片スペクトル包絡の平滑成分は、例えば線スペクトル対係数、EpR(Excitation plus Resonance)パラメータ、または複数の正規分布の加重和(すなわちガウス混合モデル)等の特徴量で好適に表現され、素片スペクトル包絡の変動成分は、例えば周波数毎の振幅値等の特徴量で表現される。他方、統計スペクトル包絡の表現には、例えば統計的な演算に好適な特徴量が採用される。具体的には、統計スペクトル包絡は、例えば低次ケプストラム係数または周波数毎の振幅値等の特徴量で表現される。以上の態様では、素片スペクトル包絡と統計スペクトル包絡とが相異なる特徴量で表現されるから、素片スペクトル包絡および統計スペクトル包絡の各々にとって適切な特徴量を利用できるという利点がある。
【0010】
本発明の好適な態様において、包絡生成部は、相異なる声質に対応する複数の統計モデルの何れかを選択的に利用して統計スペクトル包絡を生成する。以上の態様では、統計スペクトル包絡の生成に複数の統計モデルの何れかが選択的に利用されるから、1個の統計モデルのみを利用する構成と比較して多様な声質の合成音声を生成できるという利点がある。
【0011】
本発明の好適な態様に係る音声合成方法は、コンピュータシステムが、合成内容を指示する合成情報に応じた音声素片を順次に取得し、合成情報に応じた統計スペクトル包絡を統計モデルにより生成し、取得した各音声素片を相互に接続した音声であって、生成した統計スペクトル包絡に応じて当該各音声素片を調整した合成音声の音響信号を生成する。
【図面の簡単な説明】
【0012】
図1】第1実施形態における音声合成装置の構成図である。
図2】音声合成装置の動作の説明図である。
図3】音声合成装置の機能的な構成図である。
図4】特性調整処理のフローチャートである。
図5】音声合成処理のフローチャートである。
図6】第2実施形態における音声合成装置の機能的な構成図である。
図7】変形例における音声合成部の構成図である。
図8】変形例における音声合成部の構成図である。
【発明を実施するための形態】
【0013】
<第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100の構成図である。第1実施形態の音声合成装置100は、所望の音韻(発音内容)の音声を合成する信号処理装置であり、制御装置12と記憶装置14と入力装置16と放音装置18とを具備するコンピュータシステムで実現される。例えば携帯電話機またはスマートフォン等の可搬型の端末装置、あるいはパーソナルコンピュータ等の可搬型または据置型の端末装置が、音声合成装置100として利用され得る。第1実施形態の音声合成装置100は、特定の楽曲(以下「対象楽曲」という)を歌唱した音声の音響信号Vを生成する。なお、音声合成装置100は、単体の装置として実現されるほか、相互に別体で構成された複数の装置の集合(すなわちコンピュータシステム)でも実現される。
【0014】
制御装置12は、例えばCPU(Central Processing Unit)等の処理回路を含んで構成され、音声合成装置100の各要素を統括的に制御する。入力装置16は、利用者からの指示を受付ける操作機器である。例えば利用者が操作可能な操作子、または、表示装置(図示略)の表示面に対する接触を検知するタッチパネルが入力装置16として好適に利用される。放音装置18(例えばスピーカまたはヘッドホン)は、音声合成装置100が生成した音響信号Vに応じた音声を再生する。なお、音響信号Vをデジタルからアナログに変換するD/A変換器の図示は便宜的に省略した。
【0015】
記憶装置14は、制御装置12が実行するプログラムと制御装置12が使用する各種のデータとを記憶する。例えば半導体記録媒体または磁気記録媒体等の公知の記録媒体、あるいは複数種の記録媒体の組合せが、記憶装置14として任意に採用され得る。なお、音声合成装置100とは別体で記憶装置14(例えばクラウドストレージ)を設置し、移動通信網やインターネット等の通信網を介して制御装置12が記憶装置14に対する読出または書込を実行することも可能である。すなわち、記憶装置14は音声合成装置100から省略され得る。
【0016】
第1実施形態の記憶装置14は、図1に例示される通り、音声素片群Lと合成情報Dと統計モデルMとを記憶する。音声素片群Lは、特定の発声者(以下「対象発声者」という)が発音した音声から事前に収録された複数の音声素片PAの各々を表す素片データの集合(音声合成用ライブラリ)である。第1実施形態の各音声素片PAは、対象発声者が標準的な声質(以下「第1声質」という)で発音した音声から採取される。各音声素片PAは、例えば母音または子音等の音素単体、あるいは、複数の音素を連結した音素連鎖(例えばダイフォンまたはトライフォン)である。時間分解能または周波数分解能が充分に高い音声素片PAが音声素片群Lには収録される。
【0017】
任意の1個の音声素片PAの素片データは、図2に例示される通り、当該音声素片PAを時間軸上で区分した単位区間(フレーム)毎に、周波数スペクトルQAとスペクトル包絡(以下「素片スペクトル包絡」という)Xとを表す。周波数スペクトルQAは、例えば音声素片PAの複素スペクトル(またはその極形式表現)である。素片スペクトル包絡Xは、周波数スペクトルQAの概形を表す包絡線(エンベロープ)である。なお、周波数スペクトルQAから素片スペクトル包絡Xを算定することが可能であるから、素片スペクトル包絡Xを素片データに含ませない構成も原理的には採用し得る。しかし、周波数スペクトルQAから好適な素片スペクトル包絡Xを一意に算定することは必ずしも容易ではないから、実際には、周波数スペクトルQAとともに素片スペクトル包絡Xを素片データに含ませた構成が好適である。
【0018】
素片スペクトル包絡Xは、時間的な変動が緩慢である(あるいは殆ど変動しない)平滑成分X1と、平滑成分X1と比較して微細に変動する変動成分X2とを含有する。変動成分X1および変動成分X2は、例えば線スペクトル対係数または周波数毎の振幅値等の任意の特徴量で表現され得る。具体的には、例えば変動成分X1は線スペクトル対係数で好適に表現され、変動成分X2は、周波数毎の振幅値で好適に表現される。
【0019】
図1の合成情報Dは、音声合成装置100による合成内容を指示するデータである。具体的には、合成情報Dは、対象楽曲を構成する複数の音符の各々について音高DAと音韻DBとを指定する。音高DAは、例えばMIDI(Musical Instrument Digital Interface)のノート番号である。音韻DBは、合成音声による発音内容(すなわち対象楽曲の歌詞)であり、例えば書記素または音声記号で記述される。合成情報Dは、入力装置16に対する利用者からの指示に応じて生成および変更される。また、配信サーバ装置から通信網を介して配信された合成情報Dを記憶装置14に格納することも可能である。
【0020】
統計モデルMは、音声素片PAとは声質が異なる音声のスペクトル包絡(以下「統計スペクトル包絡」という)Yを合成情報Dに応じて統計的に推定するための数理モデルである。第1実施形態の統計モデルMは、合成情報Dに応じて区別される属性(コンテキスト)毎に遷移モデルを含むコンテキスト依存モデルである。遷移モデルは、複数の状態で記述されたHMM(Hidden Markov Model)である。遷移モデルの複数の状態の各々には、統計スペクトル包絡Yの生起確率の確率分布を規定する統計値(具体的には平均ベクトルおよび共分散行列)が設定される。各遷移モデルの状態毎の統計値が、統計モデルMとして記憶装置14に記憶される。遷移モデルの属性は、直前または直後の音素の種類(有声音/無声音,母音/子音,子音の種別)等の種々の条件に応じて区別される。
【0021】
統計モデルMは、対象発声者が発音した多数の音声のスペクトル包絡を学習データとして利用した機械学習で事前に生成される。例えば、統計モデルMのうち任意の1個の属性に対応する遷移モデルは、対象発声者が発音した多数の音声のうち当該属性に分類される音声のスペクトル包絡を学習データとした機械学習で生成される。統計モデルMの機械学習に学習データとして利用される音声は、音声素片PAの第1声質とは異なる声質(以下「第2声質」という)で対象発声者が発音した音声である。具体的には、第1声質と比較して対象発声者が強目に発音した音声、または第1声質と比較して対象発声者が穏やかに発音した音声が、統計モデルMの機械学習に利用される。すなわち、第2声質で発音された音声のスペクトル包絡の統計的な傾向が統計モデルMにより属性毎にモデル化される。したがって、第2声質の音声の統計スペクトル包絡Yが統計モデルMにより推定される。統計モデルMは、音声素片群Lと比較してデータ量が充分に小さい。なお、統計モデルMは、例えば標準的な第1声質の音声素片群Lに対する付加的なデータとして、音声素片群Lとは別個に提供される。
【0022】
図3は、第1実施形態における制御装置12の機能に着目した構成図である。図3に例示される通り、制御装置12は、記憶装置14に記憶されたプログラムを実行することで、合成情報Dに応じた合成音声の音響信号Vを生成するための複数の機能(素片取得部20,包絡生成部30,音声合成部40)を実現する。なお、制御装置12の機能を複数の装置で実現した構成、または、制御装置12の一部の機能を専用の電子回路が分担する構成も採用され得る。
【0023】
素片取得部20は、合成情報Dに応じた音声素片PBを順次に取得する。具体的には、素片取得部20は、合成情報Dが指定する音韻DBに対応する音声素片PAを、合成情報Dが指定する音高DAに調整することで音声素片PBを生成する。図3に例示される通り、第1実施形態の素片取得部20は、素片選択部22と素片加工部24とを含んで構成される。
【0024】
素片選択部22は、合成情報Dが音符毎に指定する音韻DBに対応した音声素片PAを記憶装置14の音声素片群Lから順次に選択する。なお、音高が相違する複数の音声素片PAを音声素片群Lに登録することも可能である。合成情報Dが指定する音韻DBに対応する相異なる音高の複数の音声素片PAのうち、合成情報Dが指定する音高DAに近い音高の音声素片PAを素片選択部22は選択する。
【0025】
素片加工部24は、素片選択部22が選択した音声素片PAの音高を、合成情報Dで指定される音高DAに調整する。音声素片PAの音高の調整には、例えば特許文献1に記載された技術が好適に利用される。具体的には、素片加工部24は、図2に例示される通り、音声素片PAの周波数スペクトルQAを周波数軸の方向に伸縮することで音高DAに調整し、調整後の周波数スペクトルのピークが素片スペクトル包絡Xの線上に位置するように強度を調整することで周波数スペクトルQBを生成する。したがって、素片取得部20が取得する音声素片PBは、周波数スペクトルQBと素片スペクトル包絡Xとで表現される。なお、素片加工部24が実行する処理の内容は音声素片PAの音高の調整に限定されない。例えば、相前後する各音声素片PAの間の補間を素片加工部24が実行することも可能である。
【0026】
図3の包絡生成部30は、合成情報Dに応じた統計スペクトル包絡Yを統計モデルMにより生成する。具体的には、包絡生成部30は、合成情報Dに応じた属性(コンテキスト)の遷移モデルを統計モデルMから順次に検索して相互に連結し、複数の遷移モデルの時系列から統計スペクトル包絡Yを単位期間毎に順次に生成する。すなわち、合成情報Dで指定される音韻DBを第2声質で発音した音声のスペクトル包絡が統計スペクトル包絡Yとして包絡生成部30により順次に生成される。
【0027】
なお、統計スペクトル包絡Yは、線スペクトル対係数または低次ケプストラム係数等の任意の種類の特徴量で表現され得る。低次ケプストラム係数は、信号のパワースペクトルの対数のフーリエ変換であるケプストラム係数のうち、声道等の調音器官の共鳴特性に由来する低次側の所定個の係数である。なお、統計スペクトル包絡Yを線スペクトル対係数で表現した場合、線スペクトル対係数の低次側から高次側にかけて係数値が順番に増加する関係を維持することが必要である。しかし、統計モデルMにより統計スペクトル包絡Yを生成する過程では、線スペクトル対係数の平均等の統計的な演算により以上の関係が崩れる可能性(統計スペクトル包絡Yを適正に表現できない可能性)がある。したがって、統計スペクトル包絡Yを表現する特徴量としては、線スペクトル対係数よりも低次ケプストラム係数が好適である。
【0028】
図3の音声合成部40は、素片取得部20が取得した音声素片PBと包絡生成部30が生成した統計スペクトル包絡Yとを利用して合成音声の音響信号Vを生成する。具体的には、音声合成部40は、各音声素片PBを相互に接続した音声であって、統計スペクトル包絡Yに応じて各音声素片PBが調整された合成音声を表す音響信号Vを生成する。図3に例示される通り、第1実施形態の音声合成部40は、特性調整部42と素片接続部44とを含んで構成される。
【0029】
特性調整部42は、素片取得部20が取得した各音声素片PBの周波数スペクトルQBを、包絡生成部30が生成した統計スペクトル包絡Yに近付けることで音声素片PCの周波数スペクトルQCを生成する。素片接続部44は、特性調整部42による調整後の各音声素片PCを相互に接続することで音響信号Vを生成する。具体的には、音声素片PCの周波数スペクトルQCを例えば短時間逆フーリエ変換等の演算で時間領域の信号に変換し、相前後する信号を相互に重複させたうえで加算することで音響信号Vが生成される。なお、音声素片PCの位相スペクトルとしては、例えば音声素片PAの位相スペクトル、または、最小位相条件により算定された位相スペクトルが好適に利用される。
【0030】
図4は、特性調整部42が音声素片PBの周波数スペクトルQBから音声素片PCの周波数スペクトルQCを生成する処理(以下「特性調整処理」という)SC1のフローチャートである。図4に例示される通り、特性調整部42は、係数αおよび係数βを設定する(SC11)。係数(補関係数の例示)αおよび係数βは、例えば入力装置16に対する利用者からの指示に応じて可変に設定される1以下の非負値(0≦α≦1,0≦β≦1)である。
【0031】
特性調整部42は、素片取得部20が取得した音声素片PBの素片スペクトル包絡Xと、包絡生成部30が生成した統計スペクトル包絡Yとを係数αにより補間することでスペクトル包絡(以下「補間スペクトル包絡」という)Zを生成する(SC12)。補間スペクトル包絡Zは、図2に例示される通り、素片スペクトル包絡Xと統計スペクトル包絡Yとの中間的な特性のスペクトル包絡である。具体的には、補間スペクトル包絡Zは、以下に例示する数式(1)および数式(2)で表現される。
Z=F(C) ……(1)
C=α・cY+(1−α)・cX1+β・cX2 ……(2)
数式(2)の記号cX1は、素片スペクトル包絡Xの平滑成分X1を表す特徴量であり、記号cX2は、素片スペクトル包絡Xの変動成分X2を表す特徴量である。また、記号cYは、統計スペクトル包絡Yを表す特徴量である。数式(2)では、特徴量cX1と特徴量cYとが同種の特徴量(例えば線スペクトル対係数)である場合を想定した。数式(1)の記号F(C)は、数式(2)で算定された特徴量Cをスペクトル包絡(すなわち周波数毎の数値の系列)に変換する変換関数である。
【0032】
数式(1)および数式(2)から理解される通り、特性調整部42は、統計スペクトル包絡Yと素片スペクトル包絡Xの平滑成分X1との補間(α・cY+(1−α)・cX1)に対して、素片スペクトル包絡Xの変動成分X2を係数βに応じた度合で加算することで、補間スペクトル包絡Zを算定する。数式(2)から理解される通り、係数αが大きいほど、統計スペクトル包絡Yを優勢に反映した補間スペクトル包絡Zが生成され、係数αが小さいほど、素片スペクトル包絡Xを優勢に反映した補間スペクトル包絡Zが生成される。すなわち、係数αが大きい(最大値1に近い)ほど、第2声質に近い合成音声の音響信号Vが生成され、係数αが小さい(最小値0に近い)ほど、第1声質に近い合成音声の音響信号Vが生成される。また、係数αが最大値1に設定された場合(C=cY+β・cX2)、合成情報Dが指定する音韻DBを第2声質で発音した合成音声の音響信号Vが生成される。他方、係数αが最小値0に設定された場合(C=cX1+β・cX2)、合成情報Dが指定する音韻DBを第1声質で発音した合成音声の音響信号Vが生成される。以上の説明から理解される通り、補間スペクトル包絡Zは、素片スペクトル包絡Xと統計スペクトル包絡Yとから生成され、第1声質および第2声質の一方を他方に近付けた音声のスペクトル包絡(すなわち、素片スペクトル包絡Xおよび統計スペクトル包絡Yの一方を他方に近付けたスペクトル包絡)に相当する。また、補間スペクトル包絡Zは、素片スペクトル包絡Xおよび統計スペクトル包絡Yの双方の特性を含むスペクトル包絡、または、素片スペクトル包絡Xおよび統計スペクトル包絡Yの双方の特性を結合したスペクトル包絡とも換言され得る。
【0033】
なお、前述の通り、素片スペクトル包絡Xの平滑成分X1と統計スペクトル包絡Yとを相異なる種類の特徴量で表現することも可能である。例えば、素片スペクトル包絡Xの平滑成分X1を表す特徴量cX1が線スペクトル対係数であり、統計スペクトル包絡Yを表す特徴量cYが低次ケプストラム係数である場合を想定すると、前述の数式(2)は以下の数式(2a)に置換される。
C=α・G(cY)+(1−α)・cX1+β・cX2 ……(2a)
数式(2a)の記号G(cY)は、低次ケプストラム係数である特徴量cYを、特徴量cX1と同種の線スペクトル対係数に変換するための変換関数である。
【0034】
特性調整部42は、素片取得部20が取得した各音声素片PBの周波数スペクトルQBを、以上の手順(SC11,SC12)で生成した補間スペクトル包絡Zに近付けることで、音声素片PCの周波数スペクトルQCを生成する(SC13)。具体的には、特性調整部42は、図2に例示される通り、周波数スペクトルQBの各ピークが補間スペクトル包絡Zの線上に位置するように周波数スペクトルQBの強度を調整することで周波数スペクトルQCを生成する。特性調整部42が音声素片PBから音声素片PCを生成する処理の具体例は以上の通りである。
【0035】
図5は、合成情報Dに応じた合成音声の音響信号Vを生成する処理(以下「音声合成処理」という)Sのフローチャートである。入力装置16に対する利用者からの操作で音声合成の開始が指示された場合に図5の音声合成処理Sが開始される。
【0036】
音声合成処理Sを開始すると、素片取得部20は、合成情報Dに応じた音声素片PBを順次に取得する(SA)。具体的には、素片選択部22は、合成情報Dが指定する音韻DBに対応した音声素片PAを音声素片群Lから選択する(SA1)。素片加工部24は、素片選択部22が選択した音声素片PAの音高を、合成情報Dで指定される音高DAに調整することで音声素片PBを生成する(SA2)。他方、包絡生成部30は、合成情報Dに応じた統計スペクトル包絡Yを統計モデルMにより生成する(SB)。なお、素片取得部20による音声素片PBの取得(SA)と包絡生成部30による統計スペクトル包絡Yの生成(SB)との順序は任意であり、統計スペクトル包絡Yの生成(SB)後に音声素片PBを取得(SA)することも可能である。
【0037】
音声合成部40は、素片取得部20が取得した音声素片PBと包絡生成部30が生成した統計スペクトル包絡Yとに応じた合成音声の音響信号Vを生成する(SC)。具体的には、特性調整部42は、図4に例示した特性調整処理SC1により、素片取得部20が取得した各音声素片PBの周波数スペクトルQBを統計スペクトル包絡Yに近付けた周波数スペクトルQCを生成する。素片接続部44は、特性調整部42による調整後の各音声素片PCを相互に接続することで音響信号Vを生成する(SC2)。音声合成部40(素片接続部44)が生成した音響信号Vは放音装置18に供給される。
【0038】
音声合成処理Sを終了すべき時点が到来するまで(SD:NO)、音声素片PBの取得(SA)と統計スペクトル包絡Yの生成(SB)と音響信号Vの生成(SC)とが反復される。例えば利用者が入力装置16に対する操作で音声合成処理Sの終了を指示した場合、または、対象楽曲の全体にわたり音声合成が完了した場合(SD:YES)に、音声合成処理Sは終了する。
【0039】
以上に例示した通り、第1実施形態では、音声素片PBを相互に接続した音声であって、統計モデルMにより生成された統計スペクトル包絡Yに応じて各音声素片PBを調整した合成音声の音響信号Vが生成される。すなわち、第2声質に近い合成音声を生成することが可能である。したがって、声質毎に音声素片PAを用意する構成と比較して、所望の声質の合成音声を生成するために必要な記憶装置14の記憶容量が削減される。また、統計モデルMにより合成音声を生成する構成と比較して、時間分解能または周波数分解能が高い音声素片PAを利用した高品位な合成音声を生成することが可能である。
【0040】
また、第1実施形態では、音声素片PBの素片スペクトル包絡Xと統計スペクトル包絡Yとを可変の係数αで補間した補間スペクトル包絡Zに近付くように、当該音声素片PBの周波数スペクトルQBが調整される。以上の構成では、素片スペクトル包絡Xと統計スペクトル包絡Yとの補間に適用される係数(加重値)αが可変に設定されるから、音声素片PBの周波数スペクトルQBを統計スペクトル包絡Yに近付ける度合(声質の調整の度合)を変化させることが可能である。
【0041】
第1実施形態では、素片スペクトル包絡Xは、時間的な変動が緩慢である平滑成分X1と、平滑成分X1と比較して微細に変動する変動成分X2とを含み、特性調整部42は、統計スペクトル包絡Yと平滑成分X1との補間に変動成分X2を加算することで補間スペクトル包絡Zを算定する。以上の態様では、統計スペクトル包絡Yと素片スペクトル包絡Xの平滑成分X1との補間に変動成分X2を加算することで補間スペクトル包絡Zが算定されるから、変動成分X2を適切に反映した補間スペクトル包絡Zを算定することが可能である。
【0042】
また、素片スペクトル包絡Xの平滑成分X1は線スペクトル対係数で表現され、素片スペクトル包絡Xの変動成分X2は周波数毎の振幅値で表現され、統計スペクトル包絡Yは低次ケプストラム係数で表現される。以上の態様では、素片スペクトル包絡Xと統計スペクトル包絡Yとが相異なる種類の特徴量で表現されるから、素片スペクトル包絡Xおよび統計スペクトル包絡Yの各々にとって適切な特徴量を利用できるという利点がある。例えば、統計スペクトル包絡Yを線スペクトル対係数で表現した構成では、統計モデルMを利用した統計スペクトル包絡Yの生成の過程において、線スペクトル対係数の低次側から高次側にかけて係数値が順番に増加するという関係が崩れる可能性がある。以上の事情を考慮すると、統計スペクトル包絡Yを低次ケプストラム係数で表現した構成は格別に好適である。
【0043】
<第2実施形態>
本発明の第2実施形態を説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
【0044】
図6は、第2実施形態の音声合成装置100の機能に着目した構成図である。図6に例示される通り、第2実施形態の音声合成装置100の記憶装置14は、第1実施形態と同様の音声素片群Lおよび合成情報Dのほか、対象発声者の相異なる第2声質に対応する複数(K個)の統計モデルM[1]〜M[K]を記憶する。例えば、対象発声者が強目に発音した音声の統計モデルと対象発声者が穏やかに発音した音声の統計モデルとを含む複数の統計モデルM[1]〜M[K]が記憶装置14に記憶される。任意の1個の統計モデルM[k](k=1〜K)は、相異なるK種類の第2声質のうち第k番目の第2声質で対象発声者が発音した音声を学習データとして利用した機械学習により事前に生成される。したがって、K種類の第2声質のうち第k番目の第2声質の音声の統計スペクトル包絡Yが統計モデルM[k]により推定される。K個の統計モデルM[1]〜M[K]の合計のデータ量は音声素片群Lのデータ量を下回る。
【0045】
第2実施形態の包絡生成部30は、記憶装置14に記憶されたK個の統計モデルM[1]〜M[K]の何れかを選択的に利用して統計スペクトル包絡Yを生成する。例えば、包絡生成部30は、入力装置16に対する操作で利用者が選択した第2声質の統計モデルM[k]を利用して統計スペクトル包絡Yを生成する。統計モデルM[k]を利用して包絡生成部30が統計スペクトル包絡Yを生成する動作は第1実施形態と同様である。また、素片取得部20が合成情報Dに応じた音声素片PBを取得する構成、および、素片取得部20が取得した音声素片PBと包絡生成部30が生成した統計スペクトル包絡Yとに応じて音声合成部40が音響信号Vを生成する構成も、第1実施形態と同様である。
【0046】
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、K個の統計モデルM[1]〜M[K]の何れかが統計スペクトル包絡Yの生成に選択的に利用されるから、1個の統計モデルMのみを利用する構成と比較して多様な声質の合成音声を生成できるという利点がある。第2実施形態では特に、入力装置16に対する操作で利用者が選択した第2声質の統計モデルM[k]が統計スペクトル包絡Yの生成に利用されるから、利用者の意図や嗜好に沿った声質の合成音声を生成できるという利点もある。
【0047】
<変形例>
以上に例示した各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
【0048】
(1)前述の各形態では、各音声素片PBの周波数スペクトルQBを統計スペクトル包絡Yに近付けてから時間領域で相互に接続したが、音声素片PBと統計スペクトル包絡Yとに応じた音響信号Vを生成するための構成および方法は以上の例示に限定されない。
【0049】
例えば、図7に例示された構成の音声合成部40を採用することも可能である。図7の音声合成部40は、素片接続部46と特性調整部48とを具備する。素片接続部46は、素片取得部20が取得した各音声素片PBを相互に接続することで音響信号V0を生成する。具体的には、素片接続部46は、音声素片PBの周波数スペクトルQBを時間領域の信号に変換し、相前後する信号を相互に加算することで音響信号V0を生成する。音響信号V0は、第1声質の合成音声を表す時間領域の信号である。図7の特性調整部48は、統計スペクトル包絡Yの周波数特性を時間領域で音響信号V0に付与することで音響信号Vを生成する。例えば、統計スペクトル包絡Yに応じて周波数特性(周波数毎の利得)が可変に設定されるフィルタが特性調整部48として好適に利用される。図7の音声合成部40を利用した構成でも、前述の各形態と同様に、第2声質の合成音声を表す音響信号Vが生成される。
【0050】
また、図8に例示された構成の音声合成部40を採用することも可能である。図8の音声合成部40は、素片補間部52と特性調整部54と波形合成部56とを具備する。素片補間部52は、素片取得部20が取得した各音声素片PBについて補間処理を実行する。具体的には、相前後する各音声素片PBの相互間において、周波数スペクトルQBの補間処理と素片スペクトル包絡Xの補間処理とが周波数領域で実行される。周波数スペクトルQBの補間処理は、相前後する2個の音声素片PBの接続部分において周波数スペクトルが連続的に遷移するように、2個の音声素片PBの間で周波数スペクトルQBを補間(例えばクロスフェード)する処理である。また、素片スペクトル包絡Xの補間処理は、相前後する2個の音声素片PBの接続部分においてスペクトル包絡が連続的に遷移するように、2個の音声素片PBの間で素片スペクトル包絡Xの平滑成分X1および変動成分X2の各々を補間(例えばクロスフェード)する処理である。素片補間部52は、相前後する各音声素片PBを周波数領域で相互に接続する処理とも換言され得る。
【0051】
図8の特性調整部54は、素片補間部52による補間処理後の各周波数スペクトルを統計スペクトル包絡Yに近付けることで周波数スペクトルQCを生成する。特性調整部54による周波数スペクトルQCの生成には、図4を参照して説明した特性調整処理SC1が好適に利用される。図8の波形合成部56は、特性調整部54が生成した複数の周波数スペクトルQCの時系列から時間領域の音響信号Vを生成する。
【0052】
以上の例示から理解される通り、音声合成部40は、素片取得部20が取得した各音声素片PBを相互に接続した音声であって統計スペクトル包絡Yに応じて当該各音声素片PBが調整された合成音声の音響信号Vを生成する要素として包括的に表現される。すなわち、
[A]統計スペクトル包絡Yに応じて音声素片PBを調整してから調整後の音声素片PCを時間領域で相互に接続する要素(図3)と、
[B]各音声素片PBを時間領域で相互に接続してから統計スペクトル包絡Yに応じた周波数特性を付与する要素(図7)と
[C]周波数領域で複数の音声素片PBを接続(具体的には補間)したうえで統計スペクトル包絡Yに応じて調整してから時間領域に変換する要素(図8)と、
が、音声合成部40には包含され得る。
【0053】
(2)前述の各形態では、音声素片PAの発声者と統計モデルMの学習用の音声の発声者とを同一人とした場合を例示したが、統計モデルMの学習用の音声として、音声素片PAの発声者とは別人の音声を利用することも可能である。また、前述の実施形態では、対象発声者の音声を学習データとして利用した機械学習で統計モデルMを生成したが、統計モデルMの生成方法は以上の例示に限定されない。例えば、対象発声者以外の発声者の音声のスペクトル包絡を学習データとした機械学習で生成された統計モデルを利用して、対象発声者の少数の学習データを利用した統計モデルを適応的に補正することで、対象発声者の統計モデルMを生成することも可能である。
【0054】
(3)前述の各形態では、属性毎に分類された対象発声者の音声のスペクトル包絡を学習データとする機械学習で統計モデルMを生成したが、統計モデルM以外の方法で統計スペクトル包絡Yを生成することも可能である。例えば、相異なる属性に対応する複数の統計スペクトル包絡Yを事前に記憶装置14に記憶させた構成(以下「変形構成」という)も採用され得る。任意の1個の属性の統計スペクトル包絡Yは、例えば、対象発声者が発音した多数の音声のうち当該属性に分類された複数の音声にわたるスペクトル包絡の平均である。包絡生成部30は、合成情報Dに応じた属性の統計スペクトル包絡Yを記憶装置14から順次に選択し、音声合成部40は、第1実施形態と同様に当該統計スペクトル包絡Yと音声素片PBとに応じた音響信号Vを生成する。変形構成によれば、統計モデルMを利用した統計スペクトル包絡Yの生成が不要である。他方、変形構成では、複数の音声にわたりスペクトル包絡が平均されるから、統計スペクトル包絡Yが、時間軸および周波数軸の方向に平滑化された特性となり得る。変形構成とは対照的に、前述の各形態では、統計モデルMを利用して統計スペクトル包絡Yが生成されるから、変形構成と比較して、時間軸および周波数軸の方向における微細な構造が維持された(すなわち平滑化が抑制された)統計スペクトル包絡Yを生成できるという利点がある。
【0055】
(4)前述の各形態では、合成情報Dが音符毎に音高DAと音韻DBとを指定する構成を例示したが、合成情報Dの内容は以上の例示に限定されない。例えば、音高DAおよび音韻DBに加えて音量(ベロシティ)を合成情報Dで指定することも可能である。素片加工部24は、素片選択部22が選択した音声素片PAの音量を、合成情報Dで指定される音量に調整する。また、音韻は共通するけれども音量は相違する複数の音声素片PAを音声素片群Lに収録し、合成情報Dが指定する音韻DBに対応する複数の音声素片PAのうち、合成情報Dが指定する音量に近い音量の音声素片PAを素片選択部22が選択することも可能である。
【0056】
(5)前述の各形態では、対象楽曲の全区間にわたり各音声素片PBを統計スペクトル包絡Yに応じて調整したが、統計スペクトル包絡Yを利用した音声素片PBの調整を、対象楽曲内の一部の区間(以下「調整区間」という)について選択的に実行することも可能である。調整区間は、例えば、対象楽曲のうち入力装置16に対する操作で利用者が指定した区間、または、対象楽曲のうち合成情報Dで始点および終点が指定された区間である。特性調整部(42,48,54)は、統計スペクトル包絡Yを利用した調整を選択区間内の各音声素片PBに対して実行する。調整区間以外の区間については、複数の音声素片PBを相互に連結した音響信号V(すなわち統計スペクトル包絡Yが反映されていない音響信号V)が音声合成部40から出力される。以上の構成によれば、調整区間外が第1声質で発音されて調整区間内は第2声質で発音される多様な合成音声の音響信号Vを生成することが可能である。
【0057】
なお、対象楽曲内の相異なる複数の調整区間の各々について、統計スペクトル包絡Yを利用した音声素片PBの調整を実行する構成も想定される。また、対象発声者の相異なる第2声質に対応する複数の統計モデルM[1]〜M[K]が記憶装置14に記憶された構成(例えば第2実施形態)では、対象楽曲内の調整区間毎に、音声素片PBの調整に適用される統計モデルM[k]を相違させることも可能である。複数の調整区間の各々の始点および終点と各調整区間に適用される統計モデルM[k]とは、例えば合成情報Dにより指定される。以上の構成によれば、調整区間毎に声質(例えば歌唱音声の表情)が変化する多様な合成音声の音響信号Vを生成できるという格別の利点がある。
【0058】
(6)素片スペクトル包絡Xおよび統計スペクトル包絡Yを表現する特徴量は前述の各形態での例示(線スペクトル対係数または低次ケプストラム係数)に限定されない。例えば、周波数毎の振幅値の系列により素片スペクトル包絡Xまたは統計スペクトル包絡Yは表現され得る。また、声帯の振動特性と調音器官の共鳴特性とを近似するEpR(Excitation plus Resonance)パラメータで素片スペクトル包絡Xまたは統計スペクトル包絡Yを表現することも可能である。なお、EpRパラメータについては、例えば特許第3711880号公報または特開2007−226174号公報に開示されている。あるいは、複数の正規分布の加重和(すなわちガウス混合モデル)で素片スペクトル包絡Xまたは統計スペクトル包絡Yを表現することも可能である。
【0059】
(7)移動体通信網またはインターネット等の通信網を介して端末装置(例えば携帯電話機またはスマートフォン)と通信するサーバ装置により音声合成装置100を実現することも可能である。例えば、音声合成装置100は、端末装置から受信した合成情報Dを適用した音声合成処理Sで音響信号Vを生成し、当該音響信号Vを要求元の端末装置に送信する。
【0060】
(8)前述の各形態で例示した音声合成装置100は、前述の通り、制御装置12とプログラムとの協働で実現され得る。前述の各形態で例示したプログラムは、合成内容を指示する合成情報Dに応じた音声素片PBを順次に取得する素片取得部20、合成情報Dに応じた統計スペクトル包絡Yを統計モデルMにより生成する包絡生成部30、および、素片取得部20が取得した各音声素片PBを相互に接続した音声であって、包絡生成部30が生成した統計スペクトル包絡Yに応じて当該各音声素片PBが調整された合成音声の音響信号Vを生成する音声合成部40、としてコンピュータ(例えば制御装置12)を機能させる。
【0061】
以上に例示したプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供することも可能である。
【0062】
(9)本発明の好適な態様は、前述の各形態に係る音声合成装置100の動作方法(音声合成方法)としても特定され得る。好適な態様に係る音声合成方法は、コンピュータシステム(単体または複数のコンピュータ)が、合成内容を指示する合成情報Dに応じた音声素片PBを順次に取得し、合成情報Dに応じた統計スペクトル包絡Yを統計モデルMにより生成し、取得した各音声素片PBを相互に接続した音声であって、統計スペクトル包絡Yに応じて当該各音声素片PBを調整した合成音声の音響信号Vを生成する。
【符号の説明】
【0063】
100…音声合成装置、12…制御装置、14…記憶装置、16…入力装置、18…放音装置、20…素片取得部、22…素片選択部、24…素片加工部、30…包絡生成部、40…音声合成部、42,48,54…特性調整部、44,46…素片接続部、L…音声素片群、D…合成情報、M…統計モデル。
図1
図2
図3
図4
図5
図6
図7
図8