(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023171108
(43)【公開日】2023-12-01
(54)【発明の名称】音声変換装置、音声変換方法、及びプログラム
(51)【国際特許分類】
G10L 21/007 20130101AFI20231124BHJP
【FI】
G10L21/007
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2022083351
(22)【出願日】2022-05-20
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(71)【出願人】
【識別番号】504137912
【氏名又は名称】国立大学法人 東京大学
(74)【代理人】
【識別番号】100147485
【弁理士】
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】100164471
【弁理士】
【氏名又は名称】岡野 大和
(74)【代理人】
【識別番号】100176728
【弁理士】
【氏名又は名称】北村 慎吾
(72)【発明者】
【氏名】井島 勇祐
(72)【発明者】
【氏名】齋藤 大輔
(57)【要約】
【課題】音声特徴量の動的特徴量のみを変化させることにより、話者性を保持したまま発声スキルのみを変換する。
【解決手段】音声変換装置(1)は、変換元話者の音声特徴量を、変換対象話者の音声特徴量へ変換する音声変換モデルを学習するモデル学習部(11)と、変換元話者の音声特徴量を学習済みの音声変換モデルへ入力して、変換対象話者の音声特徴量に変換する音声変換部(12)と、変換元話者の音声特徴量の動的特徴量と、変換対象話者の音声特徴量の動的特徴量とを用いて、変換元話者の音声特徴量を変換後音声特徴量に変換する動的特徴量変換部(13)と、変換後音声特徴量から音声波形を生成する音声波形生成部(14)と、を備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
話者の音声特徴量の動的特徴量を変換する音声変換装置であって、
変換元話者の音声特徴量を、変換対象話者の音声特徴量へ変換する音声変換モデルを学習するモデル学習部と、
前記変換元話者の音声特徴量を学習済みの音声変換モデルへ入力して、前記変換対象話者の音声特徴量に変換する音声変換部と、
前記変換元話者の音声特徴量の動的特徴量と、前記変換対象話者の音声特徴量の動的特徴量とを用いて、前記変換元話者の音声特徴量を変換後音声特徴量に変換する動的特徴量変換部と、
前記変換後音声特徴量から音声波形を生成する音声波形生成部と、
を備える音声変換装置。
【請求項2】
前記動的特徴量変換部は、前記変換元話者の音声特徴量の動的特徴量を、前記変換対象話者の音声特徴量の動的特徴量と差し替えることにより、前記変換後音声特徴量を生成する、請求項1に記載の音声変換装置。
【請求項3】
前記動的特徴量変換部は、前記変換元話者の音声特徴量の動的特徴量と、前記変換対象話者の音声特徴量の動的特徴量との重み付き和を音声フレームごとに求めることにより、変換後動的特徴量を生成し、前記変換後動的特徴量を用いて、前記変換元話者の音声特徴量を前記変換後音声特徴量に変換する、請求項1に記載の音声変換装置。
【請求項4】
前記モデル学習部は、複数の話者の音声特徴量と、各話者に付与された発声スキルとを入力して、任意に変換元話者に定めた1名の話者の音声特徴量を、変換対象話者に定めた他の複数の話者の音声特徴量にそれぞれ変換する複数の音声変換モデルを学習し、
前記音声変換部は、前記変換元話者の音声特徴量と、目標発声スキルとを学習済みの音声変換モデルへ入力して、前記変換元話者の音声特徴量を、前記目標発声スキルに合致する発声スキルを有する変換対象話者の音声特徴量に変換する、請求項1から3のいずれか1項に記載の音声変換装置。
【請求項5】
話者の音声特徴量の動的特徴量を変換する音声変換方法であって、
音声変換装置により、
変換元話者の音声特徴量を、変換対象話者の音声特徴量へ変換する音声変換モデルを学習するステップと、
前記変換元話者の音声特徴量を学習済みの音声変換モデルへ入力して、前記変換対象話者の音声特徴量に変換するステップと、
前記変換元話者の音声特徴量の動的特徴量と、前記変換対象話者の音声特徴量の動的特徴量とを用いて、前記変換元話者の音声特徴量を変換後音声特徴量に変換するステップと、
前記変換後音声特徴量から音声波形を生成するステップと、
を含む音声変換方法。
【請求項6】
コンピュータを、請求項1から4のいずれか1項に記載の音声変換装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、入力された話者の音声の発声スキルを変換する音声変換装置、音声変換方法及び、プログラムに関する。
【背景技術】
【0002】
従来、アナウンサー、声優等の発声の専門家と、それ以外の素人とでは、発声スキルが大きく異なる。本開示において、発声スキルとは、話者により発声される音声の聞き取りやすさを示す指標をいう。たとえば、駅の構内放送、建物の館内放送等において、素人が発声したアナウンスは、聞き取りづらい等の課題があるため、発声した音声の話者性を変えずに、発声スキルのみを変換する技術が必要とされている。本開示において、話者性とは、音声に含まれるスペクトルに代表される音響特徴、音高、発話リズム等に代表される韻律特徴を合わせて指す。
【0003】
図6は、従来の音声変換装置の構成例を示すブロック図である。従来、音声(声質)変換とは、入力された変換元話者の音声特徴量を、目標とする変換対象話者の音声特徴量へ変換する技術とされる。
図6に示すように、変換元話者の音声特徴量から変換対象話者の音声特徴量への変換は、音声変換アルゴリズムを用いて学習された音声変換モデルに、変換元話者の音声特徴量を入力することにより行われる。たとえば、非特許文献1には、ベクトル量子化を用いて任意の2名の話者間で音声を変換する音声変換アルゴリズムが記載されている。また、非特許文献2には、人工ニューラルネットワーク(ANN)を用いて任意の2名の話者間で音声を変換する音声変換アルゴリズムが記載されている。非特許文献1及び非特許文献2に開示されたアルゴリズムを用いる場合、2名の話者の音声はパラレルデータ(2名の話者が同一の発話を発声した音声をいう。)である必要がある。一方、非特許文献3には、2名の話者の音声がパラレルデータであることを必要としない音声を活用できる、VAE(バリエーショナル・オートエンコーダ)を用いた音声変換アルゴリズムが記載されている。
【0004】
つぎに、
図6に示すように、音声合成アルゴリズムを用いて、変換対象話者の音声特徴量から音声波形を生成する。非特許文献4には、メル対数スペクトル近似(MLSA(Mel-Log Spectrum Approximatation))フィルタを用いた音声合成アルゴリズムが記載されている。
【0005】
さらに、本開示で用い得るアルゴリズムとして、非特許文献5には、動的特徴を用いたパラメータ生成アルゴリズムが、非特許文献6には、重回帰混合正規分布モデルが記載されている。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】Abe, Masanobu, et al. “Voice conversion through vector quantization.” Journal of the Acoustical Society of Japan (E) 11.2 (1990): 71-76
【非特許文献2】Desai, Srinivas, et al. “Spectral mapping using artificial neural networks for voice conversion.” IEEE Transactions on Audio, Speech, and Language Processing 18.5 (2010): 954-964.
【非特許文献3】Hsu, Chin-Cheng, et al. “Voice conversion from non-parallel corpora using variational auto-encoder.” Signal and Information Processing Association Annual Summit and Conference (APSIPA), 2016 Asia-Pacific. IEEE, 2016.
【非特許文献4】今井聖、外2名、「音声合成のためのメル対数スペクトル近似(MLSA)フィルタ」、電子情報通信学会論文誌 A Vol.J66-A No.2 pp.122-129、 Feb. 1983.
【非特許文献5】益子貴史、外3名、「動的特徴を用いたHMMに基づく音声合成」、信学論、vol.J79-D-II、no.12、pp.2184-2190、Dec. 1996.
【非特許文献6】太田 久美、「重回帰混合正規分布モデルに基づく声質変換・制御法」、 奈良先端科学技術大学院大学修士論文、 2008.
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかし、非特許文献1又は非特許文献2に開示された音声変換アルゴリズムを用いた、従来の音声変換装置によると、変換元話者の話者性もが、変換対象話者の話者性に変換されてしまい、変換元話者の話者性を保持したまま発声スキルのみを変換することが出来ないという課題があった。
【0008】
そこで、本開示では、発声スキルを滑舌の良し悪しと捉え、素人の話者の音声の音声特徴量の時間的変動のみを、専門家のものへと変換することにより、発声スキルのみを変換する技術に着目した。
【0009】
かかる事情に鑑みてなされた本開示の目的は、音声特徴量の時間的変動(動的特徴量)のみを変換することにより、話者性を保持したまま発声スキルのみを変換する音声変換装置、音声変換方法、及びプログラムを提供することにある。
【課題を解決するための手段】
【0010】
上記課題を解決するため、本実施形態に係る音声変換装置は、話者の音声特徴量の動的特徴量を変換する音声変換装置であって、変換元話者の音声特徴量を、変換対象話者の音声特徴量へ変換する音声変換モデルを学習するモデル学習部と、前記変換元話者の音声特徴量を学習済みの音声変換モデルへ入力して、前記変換対象話者の音声特徴量に変換する音声変換部と、前記変換元話者の音声特徴量の動的特徴量と、前記変換対象話者の音声特徴量の動的特徴量とを用いて、前記変換元話者の音声特徴量を変換後音声特徴量に変換する動的特徴量変換部と、前記変換後音声特徴量から音声波形を生成する音声波形生成部と、を備える。
【0011】
上記課題を解決するため、本実施形態に係る音声変換方法は、話者の音声特徴量の動的特徴量を変換する音声変換方法であって、音声変換装置により、変換元話者の音声特徴量を、変換対象話者の音声特徴量へ変換する音声変換モデルを学習するステップと、前記変換元話者の音声特徴量を学習済みの音声変換モデルへ入力して、前記変換対象話者の音声特徴量に変換するステップと、前記変換元話者の音声特徴量の動的特徴量と、前記変換対象話者の音声特徴量の動的特徴量とを入力して、前記変換元話者の音声特徴量を変換後音声特徴量に変換するステップと、前記変換後音声特徴量から音声波形を生成するステップと、を含む。
【0012】
上記課題を解決するため、本実施形態に係るプログラムは、コンピュータを、上記音声変換装置として機能させる。
【発明の効果】
【0013】
本開示によれば、音声特徴量の時間変動(動的特徴量)のみを変換することにより、話者性を保持したまま発声スキルのみを変換することが可能となる。
【図面の簡単な説明】
【0014】
【
図1】第1の実施形態に係る音声変換装置の構成例を示すブロック図である。
【
図2】第1の実施形態に係る音声変換装置が実行する音声変換方法の一例を示すフローチャートである。
【
図3】第2の実施形態に係る音声変換装置の構成例を示すブロック図である。
【
図4】第2の実施形態に係る音声変換装置が実行する音声変換方法の一例を示すフローチャートである。
【
図5】音声変換装置として機能するコンピュータの概略構成を示すブロック図である。
【
図6】従来の音声変換装置の構成例を示すブロック図である。
【発明を実施するための形態】
【0015】
以下、本発明を実施するための形態が、図面を参照しながら詳細に説明される。本発明は、以下の実施形態に限定されるものではなく、その要旨の範囲内で種々変形して実施することができる。
【0016】
(第1の実施形態)
図1は、第1の実施形態に係る音声変換装置1の構成例を示すブロック図である。
図1に示すように、第1の実施形態に係る音声変換装置1は、モデル学習部11と、音声変換部12と、動的特徴量変換部13と、音声波形生成部14と、を備える。音声変換装置1は、話者の音声特徴量の動的特徴量を変換する。モデル学習部11、音声変換部12、動的特徴量変換部13及び音声波形生成部14により制御演算回路(コントローラ)が構成される。該制御演算回路は、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)等の専用のハードウェアによって構成されてもよいし、プロセッサによって構成されてもよいし、双方を含んで構成されてもよい。
【0017】
モデル学習部11は、予め音声記憶部15に保存されている変換元話者の音声特徴量を、変換対象話者の音声特徴量へ変換する音声変換モデルを学習する。モデル学習部11は、非特許文献1に記載されたベクトル量子化を用いた音声変換アルゴリズム、非特許文献2に記載された人工ニューラルネットワーク(ANN)を用いた音声変換アルゴリズム、又は非特許文献3に記載されたVAE(バリエーショナル・オートエンコーダ)を用いた音声変換アルゴリズムを、学習アルゴリズムとして用いてもよい。
【0018】
モデル学習部11が扱う音声は、音声信号に対してフーリエ変換、信号処理等を行った結果、得られる音声特徴量(音高パラメータ(基本周波数等)、スペクトルパラメータ(ケプストラム、メルケプストラム等))として音声記憶部15に保持されている。本開示では、フーリエ変換、信号処理等により得られた音声特徴量(一般的に静的特徴量ともいう。)は、静的特徴量のみではなく、各時刻における1フレーム(音声フレーム)前から1フレーム後への時間的変動を捉えた動的特徴量も含んでいるものとする。上述した非特許文献1又は非特許文献2に記載された音声変換アルゴリズムを使用する場合、音声はパラレルデータ(2名の話者が同一発話を発声した音声)である必要がある。また、上記のアルゴリズムを用いる場合は、各話者の音声はあらかじめDPマッチング(DTW; Dynamic Time Warping)等により、音声の時間情報の対応関係をとる必要がある。一方、非特許文献3に記載された音声変換アルゴリズムを使用する場合は、音声はパラレルデータである必要はなく、時間情報の対応付けも必要とされない。
【0019】
音声変換部12は、変換元話者の音声特徴量21を、モデル学習部11により生成された学習済みの音声変換モデル11aへ入力して、変換対象話者の音声特徴量22に変換する。
【0020】
動的特徴量変換部13は、変換元話者の音声特徴量21の動的特徴量と、変換対象話者の音声特徴量22の動的特徴量とを用いて、変換元話者の音声特徴量21を変換後音声特徴量23に変換する。
【0021】
動的特徴量変換部13は、変換元話者の音声特徴量21の動的特徴量を、変換対象話者の音声特徴量22の動的特徴量と差し替えて、変換対象話者の音声特徴量22の動的特徴量を、変換元話者の音声特徴量21の動的特徴量として取り扱うことにより、変換後の動的特徴量を生成してもよい。また、変換元話者の音声特徴量21の動的特徴量と、変換対象話者の音声特徴量22の動的特徴量との重み付き和を音声フレームごとに求めることにより、変換後動的特徴量を生成してもよい。後者の場合、変換元話者の音声特徴量21の動的特徴量と、変換対象話者の音声特徴量22の動的特徴量との重み付けにより、変換対象話者の発声スキルをどれだけ重視した変換を行うかを指定することができる。その後、たとえば非特許文献5に記載された動的特徴を用いたパラメータ生成アルゴリズム等により、変換元話者の音声特徴量21は、変換後動的特徴量を用いて、変換対象話者の音声特徴量22の動的特徴量を反映した変換後音声特徴量23に変換される。
【0022】
音声波形生成部14は、変換後音声特徴量23から音声波形24を生成する。音声波形生成部14は、非特許文献4に記載されたメル対数スペクトル近似(MLSA(Mel-Log Spectrum Approximatation))フィルタ等を用いた音声合成アルゴリズムを用いて、音声波形24を生成してもよい。
【0023】
音声記憶部15は、変換の対象となる2名の話者が発話した音声を音声特徴量として収録(保持)しており、音声学習部11の要求に応じ、音声特徴量を音声学習部11へ出力する。
【0024】
図2は、第1の実施形態に係る音声変換装置1が実行する音声変換方法の一例を示すフローチャートである。
【0025】
ステップS101では、モデル学習部11が、変換元話者の音声特徴量21を変換対象話者の音声特徴量22へ変換する音声変換モデル11aを学習する。
【0026】
ステップS102では、音声変換部12が、学習済みの音声変換モデル11aへ変換元話者の音声特徴量21を入力して、変換対象話者の音声特徴量22に変換する。
【0027】
ステップS103では、動的特徴量変換部13が、変換元話者の音声特徴量21の動的特徴量と、変換対象話者の音声特徴量22の動的特徴量とを用いて、変換元話者の音声特徴量21を変換後音声特徴量23に変換する。
【0028】
ステップS104では、音声波形生成部14が、変換後音声特徴量23から音声波形24を生成する。
【0029】
本実施形態に係る音声変換装置1は、非特許文献1~非特許文献3に記載された従来技術が、音声特徴量全体を変換するのとは異なり、音声特徴量の動的特徴量(時間変動)のみを変換対象とする。これにより、音声変換装置1によれば、音声の話者性を変更することなく、滑舌の良し悪し等、発声スキルのみを変換することが可能になる。また、変換元話者を発声の素人、変換対象話者をアナウンサー、声優等の発声の専門家とすることにより、素人(変換元話者)の発声スキルを専門家(変換対象話者)の発声スキルへと近づけることが可能になる。
【0030】
(第2の実施形態)
図3は、第2の実施形態に係る音声変換装置1′の構成例を示すブロック図である。
図3に示すように、第2の実施形態に係る音声変換装置1′は、モデル学習部11′と、音声変換部12′と、動的特徴量変換部13と、音声波形生成部14と、を備える。音声変換装置1′は、話者の音声特徴量の動的特徴量を変換する。本実施形態に係る音声変換装置1′は、第1の実施形態に係る音声変換装置1と比較して、モデル学習部11′と、音声変換部12′とが有する機能が異なるが、動的特徴量変換部13及び音声波形生成部14の機能は同じである。第1の実施形態と同一の構成については、第1の実施形態と同一の参照番号を付して適宜説明を省略する。モデル学習部11′、音声変換部12′、動的特徴量変換部13及び音声波形生成部14により制御演算回路(コントローラ)が構成される。該制御演算回路は、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)等の専用のハードウェアによって構成されてもよいし、プロセッサによって構成されてもよいし、双方を含んで構成されてもよい。
【0031】
モデル学習部11′は、複数の話者の音声特徴量と、各話者に付与された発声スキルとを入力して、任意に変換元話者に定めた1名の話者の音声特徴量を、変換対象話者に定めた他の複数の話者の音声特徴量にそれぞれ変換する複数の音声変換モデルを学習する。モデル学習部11′は、複数の音声変換モデルのうち、変換元話者に定めた1名の話者の音声特徴量21を、任意に定めた目標発声スキル25に合致する発声スキルを有する1名の変換対象話者の音声特徴量22に変換する一つの音声変換モデル11a′を保持する。たとえば、10名の話者が発話した音声の音声特徴量と、10名の話者のそれぞれに付与された発声スキルが入力される場合、モデル学習部11′は、任意に定めた1名の変換元話者の音声特徴量を、その他の9名の変換対象話者の音声特徴量に変換する9通りの音声変換モデルを学習し、次に該1名の変換元話者の音声特徴量21を、9名のうち別途任意に定めた目標発声スキル25に合致する発声スキルを有する1名の変換対象話者の音声特徴量22に変換する一つの音声変換モデル11a′のみを保持する。学習アルゴリズムは、非特許文献6に記載された重回帰混合正規分布モデルを用いてもよい。非特許文献6に記載された重回帰混合正規分布モデルでは、従来の音声変換の拡張として、任意の声質(太い声から細い声等)へと変換する技術を提案しているが、本実施例では、声質の代わりに発声スキルを付与して学習することにより、任意の発声スキルへの変換を行う。
【0032】
音声変換部12′は、変換元話者の音声特徴量21と、目標発声スキル25とをモデル学習部11′により学習済みの音声変換モデル11a′へ入力して、変換元話者の音声特徴量21を、目標発声スキル25に合致する発声スキルを有する変換対象話者の音声特徴量22に変換する。
【0033】
音声変換装置1′が備える動的特徴量変換部13及び音声波形生成部14は、第1の実施形態に係る音声変換装置1が備える動的特徴量変換部13及び音声波形生成部14と同一である。動的特徴量変換部13は、変換元話者の音声特徴量21の動的特徴量と、変換対象話者の音声特徴量22の動的特徴量とを用いて、変換元話者の音声特徴量21を変換後音声特徴量23に変換する。音声波形生成部14は、変換後音声特徴量23から音声波形24を生成する。
【0034】
音声記憶部15′は、第1の実施形態に係る音声記憶部15が2名の話者が発話した音声の音声特徴量を収録しているのに対し、複数の話者(たとえば、10名等より多くの話者)が発話した音声の音声特徴量と、各話者に付与された発声スキルを収録している。発声スキルは、評価者の聴取により各話者に付与された主観スコアを数値表現したもの(たとえば、1:スキルが著しく低い...5:スキルが著しく高い)を使用することが望ましい。音声記憶部15′は、変換の対象となる複数の話者が発話した音声の音声特徴量と、各話者に付与された発声スキルとを収録(保持)しており、音声学習部11′の要求に応じ、音声特徴量と発声スキルとを音声学習部11′へ出力する。
【0035】
図4は、第2の実施形態に係る音声変換装置1′が実行する音声変換方法の一例を示すフローチャートである。
【0036】
ステップS201では、モデル学習部11′が、変換元話者の音声特徴量21を、他の複数の変換対象話者の音声特徴量22へ変換する、複数の音声変換モデル11a′を学習する。さらに、モデル学習部11′は、変換元話者の音声特徴量21を、目標発声スキル25に合致した発声スキルを有する変換対象話者の音声特徴量22へ変換する一つの音声変換モデル11a′のみを保持する。
【0037】
ステップS202では、音声変換部12′が、学習済みの音声変換モデル11a′へ変換元話者の音声特徴量21と目標発声スキル25とを入力して、変換元話者の音声特徴量21を目標発声スキル25に合致する発声スキルを有する変換対象話者の音声特徴量22に変換する。
【0038】
ステップS203では、動的特徴量変換部13が、変換元話者の音声特徴量21の動的特徴量と、変換対象話者の音声特徴量22の動的特徴量とを用いて、変換元話者の音声特徴量21を変換後音声特徴量23に変換する。
【0039】
ステップS204では、音声波形生成部14が、変換後音声特徴量23から音声波形24を生成する。
【0040】
第1の実施形態に係る音声変換装置1によれば、発声スキルが高い話者を発声の専門家であると仮定して、一方の話者(発声の素人)の発声スキルを、もう一方の話者(発声の専門家)の発声スキルに変換する。しかし、実際には発声の素人の中にも発声スキルが高い話者もいれば、発声の専門家の中でもそれぞれの発声スキルは異なる。本開示に係る音声変換装置1′によれば、複数の話者の音声特徴量と、各話者に付与された発声スキルとを用いることにより、任意に定めた変換元話者の音声特徴量を、任意の目標発声スキルに合致する発声スキルを有する変換対象話者の音声特徴量へ変換することが可能となる。
【0041】
上記の音声変換装置1及び1′を機能させるために、プログラム命令を実行可能なコンピュータを用いることも可能である。
図5は、音声変換装置として機能するコンピュータの概略構成を示すブロック図である。ここで、音声変換装置1及び1′として機能するコンピュータは、汎用コンピュータ、専用コンピュータ、ワークステーション、PC(Personal Computer)、電子ノートパッド等であってもよい。プログラム命令は、必要なタスクを実行するためのプログラムコード、コードセグメント等であってもよい。
【0042】
図5に示すように、コンピュータ100は、プロセッサ110と、記憶部としてROM(Read Only Memory)120、RAM(Random Access Memory)130、及びストレージ140と、入力部150と、出力部160と、通信インターフェース(I/F)170と、を備える。各構成は、バス180を介して相互に通信可能に接続されている。
【0043】
ROM120は、各種プログラム及び各種データを保存する。RAM130は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ140は、HDD(Hard Disk Drive)又はSSD(Solid State Drive)により構成され、オペレーティングシステムを含む各種プログラム及び各種データを保存する。本開示では、ROM120又はストレージ140に、本開示に係るプログラムが保存されている。
【0044】
プロセッサ110は、具体的にはCPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)、SoC(System on a Chip)等であり、同種又は異種の複数のプロセッサにより構成されてもよい。プロセッサ110は、ROM120又はストレージ140からプログラムを読み出し、RAM130を作業領域としてプログラムを実行することで、上記各構成の制御及び各種の演算処理を行う。なお、これらの処理内容の少なくとも一部をハードウェアで実現することとしてもよい。
【0045】
プログラムは、音声変換装置1及び1′が読み取り可能な記録媒体に記録されていてもよい。このような記録媒体を用いれば、音声変換装置1及び1′にインストールすることが可能である。ここで、プログラムが記録された記録媒体は、非一過性(non-transitory)の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD-ROM、DVD-ROM、USB(Universal Serial Bus)メモリ等であってもよい。また、このプログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。
【0046】
上述の実施形態は代表的な例として説明したが、本開示の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形又は変更が可能である。たとえば、実施形態の構成図に記載の複数の構成ブロックを1つに組み合わせたり、あるいは1つの構成ブロックを分割したりすることが可能である。
【符号の説明】
【0047】
1, 1′ 音声変換装置
11, 11′ モデル学習部
11a,11a′ 音声変換モデル
12, 12′ 音声変換部
13 動的特徴量変換部
14 音声波形生成部
15, 15′ 音声記憶部
21 変換元話者の音声特徴量
22 変換対象話者の音声特徴量
23 変換後音声特徴量
24 音声波形
25 目標発声スキル
100 コンピュータ
110 プロセッサ
120 ROM
130 RAM
140 ストレージ
150 入力部
160 出力部
170 通信インターフェース(I/F)
180 バス