(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-08
(45)【発行日】2024-10-17
(54)【発明の名称】変換モデル学習装置、変換モデル生成方法、変換装置、変換方法およびプログラム
(51)【国際特許分類】
G10L 21/007 20130101AFI20241009BHJP
G10L 25/30 20130101ALI20241009BHJP
【FI】
G10L21/007
G10L25/30
(21)【出願番号】P 2023518551
(86)(22)【出願日】2021-05-06
(86)【国際出願番号】 JP2021017361
(87)【国際公開番号】W WO2022234615
(87)【国際公開日】2022-11-10
【審査請求日】2023-09-11
【新規性喪失の例外の表示】特許法第30条第2項適用 1.令和3年2月24日に日本音響学会2021年春季研究発表会論文集にて公開 2.令和3年2月25日に論文公開サイトarXivにて公開
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】110001634
【氏名又は名称】弁理士法人志賀国際特許事務所
(72)【発明者】
【氏名】金子 卓弘
(72)【発明者】
【氏名】亀岡 弘和
(72)【発明者】
【氏名】田中 宏
(72)【発明者】
【氏名】北条 伸克
【審査官】大野 弘
(56)【参考文献】
【文献】特開2019-101391(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/007
G10L 25/30
(57)【特許請求の範囲】
【請求項1】
一次音声信号の音響特徴量系列である一次特徴量系列の時間軸上の一部をマスクした欠損一次特徴量系列を生成するマスク部と、
前記欠損一次特徴量系列を機械学習モデルである変換モデルに入力することで、前記一次音声信号と対応する時間周波数構造を有する二次音声信号の音響特徴量系列である二次特徴量系列を模擬した模擬二次特徴量系列を生成する変換部と、
前記模擬二次特徴量系列の時間周波数構造と前記二次特徴量系列の時間周波数構造が近いほど高くなる学習基準値を算出する算出部と、
前記学習基準値に基づいて前記変換モデルのパラメータを更新する更新部と
を備える変換モデル学習装置。
【請求項2】
前記模擬二次特徴量系列を機械学習モデルである逆変換モデルに入力することで、前記一次音声信号の音響特徴量系列を再現した再現一次特徴量系列を生成する逆変換部を備え、
前記算出部は、前記再現一次特徴量系列と前記一次特徴量系列の類似度に基づいて前記学習基準値を算出する
請求項1に記載の変換モデル学習装置。
【請求項3】
前記逆変換モデルと前記変換モデルは同一の機械学習モデルであって、
前記変換モデルは、音響特徴量系列と音声の種類を示すパラメータを入力とし、前記パラメータが示す種類に係る音響特徴量系列を出力とするモデルであって、
前記変換部は、前記欠損一次特徴量系列と前記二次音声信号の種類を示すパラメータとを前記変換モデルに入力することで前記模擬二次特徴量系列を生成し、
前記逆変換部は、前記模擬二次特徴量系列と前記一次音声信号の種類を示すパラメータとを前記変換モデルに入力することで前記再現一次特徴量系列を生成する
請求項2に記載の変換モデル学習装置。
【請求項4】
前記変換モデルは、音響特徴量系列と音声の種類を示すパラメータを入力とし、前記パラメータが示す種類に係る音響特徴量系列を出力とするモデルであって、
前記変換部は、前記欠損一次特徴量系列と前記二次音声信号の種類を示すパラメータとを前記変換モデルに入力することで前記模擬二次特徴量系列を生成する
請求項1に記載の変換モデル学習装置。
【請求項5】
前記算出部は、前記模擬二次特徴量系列と前記二次音声信号の音響特徴量系列である二次特徴量系列の距離に基づいて前記学習基準値を算出する
請求項1に記載の変換モデル学習装置。
【請求項6】
前記変換モデルは、音響特徴量系列と前記音響特徴量系列のマスク情報とを入力とするモデルである
請求項1から請求項4の何れか1項に記載の変換モデル学習装置。
【請求項7】
コンピュータに、一次音声信号の音響特徴量系列である一次特徴量系列から前記一次音声信号と対応する時間周波数構造を有する二次音声信号の音響特徴量系列である二次特徴量系列を模擬した模擬二次特徴量系列を生成するための演算に用いられるパラメータを有する変換モデルを生成する変換モデル生成方法であって、
一次音声信号の音響特徴量系列である一次特徴量系列の時間軸上の一部をマスクした欠損一次特徴量系列を生成するステップと、
前記欠損一次特徴量系列を機械学習モデルである変換モデルに入力することで、前記一次音声信号と対応する時間周波数構造を有する二次音声信号の音響特徴量系列を模擬した模擬二次特徴量系列を生成するステップと、
前記模擬二次特徴量系列の時間周波数構造と前記二次特徴量系列の時間周波数構造が近いほど高くなる学習基準値を算出するステップと、
前記学習基準値に基づいて前記変換モデルのパラメータを更新することで学習済みの変換モデルを生成するステップと
を備える変換モデル生成方法。
【請求項8】
一次音声信号の音響特徴量系列である一次特徴量系列を取得する取得部と、
請求項7に記載の変換モデル生成方法によって生成された変換モデルに、前記一次特徴量系列を入力することで、前記一次音声信号と対応する時間周波数構造を有する二次音声信号の音響特徴量系列を模擬した模擬二次特徴量系列を生成する変換部と、
前記模擬二次特徴量系列を出力する出力部と
を備える変換装置。
【請求項9】
一次音声信号の音響特徴量系列である一次特徴量系列を取得するステップと、
請求項7に記載の変換モデル生成方法によって生成された変換モデルに、前記一次特徴量系列を入力することで、前記一次音声信号と対応する時間周波数構造を有する二次音声信号の音響特徴量系列を模擬した模擬二次特徴量系列を生成するステップと、
前記模擬二次特徴量系列を出力するステップと
を備える変換方法。
【請求項10】
コンピュータに、
一次音声信号の音響特徴量系列である一次特徴量系列の時間軸上の一部をマスクした欠損一次特徴量系列を生成するステップと、
前記欠損一次特徴量系列を機械学習モデルである変換モデルに入力することで、前記一次音声信号と対応する時間周波数構造を有する二次音声信号の音響特徴量系列である二次特徴量系列を模擬した模擬二次特徴量系列を生成するステップと、
前記模擬二次特徴量系列の時間周波数構造と前記二次特徴量系列の時間周波数構造が近いほど高くなる学習基準値を算出するステップと、
前記学習基準値に基づいて前記変換モデルのパラメータを更新するステップと
を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、変換モデル学習装置、変換モデル生成方法、変換装置、変換方法およびプログラムに関する。
【背景技術】
【0002】
入力された音声の言語情報を保持したまま非言語情報やパラ言語情報(話者性や発話様式など)を変換する声質変換技術が知られている。声質変換技術の一つとして、機械学習を用いることが提案されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2019-035902号公報
【文献】特開2019-144402号公報
【文献】特開2019-101391号公報
【文献】特開2020-140244号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
言語情報を保持したまま非言語情報やパラ言語情報を変換するためには、音声における時間周波数構造を忠実に再現することが求められる。時間周波数構造とは、音声信号に係る周波数ごとの強度の時間変化のパターンである。言語情報を保持する場合、母音および子音の並びを保持する必要がある。非言語情報やパラ言語情報が異なっていても母音および子音はそれぞれ特有の共鳴周波数を持つ。そのため、時間周波数構造を精度よく再現することで、言語情報を保持した声質変換を実現することができる。
【0005】
本発明の目的は、時間周波数構造を精度よく再現することができる変換モデル学習装置、変換モデル生成方法、変換装置、変換方法およびプログラムを提供することにある。
【課題を解決するための手段】
【0006】
本発明の一態様は、変換モデル学習装置であって、一次音声信号の音響特徴量系列である一次特徴量系列の時間軸上の一部をマスクした欠損一次特徴量系列を生成するマスク部と、前記欠損一次特徴量系列を機械学習モデルである変換モデルに入力することで、前記一次音声信号と対応する時間周波数構造を有する二次音声信号の音響特徴量系列である二次特徴量系列を模擬した模擬二次特徴量系列を生成する変換部と、前記模擬二次特徴量系列の時間周波数構造と前記二次特徴量系列の時間周波数構造が近いほど高くなる学習基準値を算出する算出部と、前記学習基準値に基づいて前記変換モデルのパラメータを更新する更新部とを備える。
【0007】
本発明の一態様は、変換モデル生成方法であって、一次音声信号の音響特徴量系列である一次特徴量系列の時間軸上の一部をマスクした欠損一次特徴量系列を生成するステップと、前記欠損一次特徴量系列を機械学習モデルである変換モデルに入力することで、前記一次音声信号と対応する時間周波数構造を有する二次音声信号の音響特徴量系列である二次特徴量系列を模擬した模擬二次特徴量系列を生成するステップと、前記模擬二次特徴量系列の時間周波数構造と前記二次特徴量系列の時間周波数構造が近いほど高くなる学習基準値を算出するステップと、前記学習基準値に基づいて前記変換モデルのパラメータを更新することで学習済みの変換モデルを生成するステップとを有する。
【0008】
本発明の一態様は、変換装置であって、一次音声信号の音響特徴量系列である一次特徴量系列を取得する取得部と、上記変換モデル生成方法によって生成された変換モデルに、前記一次特徴量系列を入力することで、前記一次音声信号と対応する時間周波数構造を有する二次音声信号の音響特徴量系列を模擬した模擬二次特徴量系列を生成する変換部と、前記模擬二次特徴量系列を出力する出力部とを備える。
【0009】
本発明の一態様は、変換方法であって、一次音声信号の音響特徴量系列である一次特徴量系列を取得するステップと、上記変換モデル生成方法によって生成された変換モデルに、前記一次特徴量系列を入力することで、前記一次音声信号と対応する時間周波数構造を有する二次音声信号の音響特徴量系列を模擬した模擬二次特徴量系列を生成するステップと、前記模擬二次特徴量系列を出力するステップとを備える。
【0010】
本発明の一態様は、プログラムであって、コンピュータに、一次音声信号の音響特徴量系列である一次特徴量系列の時間軸上の一部をマスクした欠損一次特徴量系列を生成するステップと、前記欠損一次特徴量系列を機械学習モデルである変換モデルに入力することで、前記一次音声信号と対応する時間周波数構造を有する二次音声信号の音響特徴量系列である二次特徴量系列を模擬した模擬二次特徴量系列を生成するステップと、前記模擬二次特徴量系列の時間周波数構造と前記二次特徴量系列の時間周波数構造が近いほど高くなる学習基準値を算出するステップと、前記学習基準値に基づいて前記変換モデルのパラメータを更新するステップとを実行させる。
【発明の効果】
【0011】
上記態様の少なくとも一つによれば、時間周波数構造を精度よく再現することができる。
【図面の簡単な説明】
【0012】
【
図1】第1の実施形態に係る音声変換システムの構成を示す図である。
【
図2】第1の実施形態に係る変換モデル学習装置の構成を示す概略ブロック図である。
【
図3】第1の実施形態に係る変換モデル学習装置の動作を示すフローチャートである。
【
図4】第1の実施形態に係る学習処理におけるデータの変遷を示す図である。
【
図5】第1の実施形態に係る音声変換装置の構成を示す概略ブロック図である。
【
図6】第1の実施形態に係る音声変換システムの実験結果を示す図である。
【
図7】少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
【発明を実施するための形態】
【0013】
以下、図面を参照しながら実施形態について詳しく説明する。
〈第1の実施形態〉
《音声変換システム1の構成》
図1は、第1の実施形態に係る音声変換システム1の構成を示す図である。音声変換システム1は、音声信号の入力を受け付け、入力された音声信号の言語情報を保持したまま非言語情報やパラ言語情報を変換した音声信号を生成する。言語情報とは、音声信号のうちテキストとして表現可能な情報が表れる成分をいう。パラ言語情報とは、話者の感情や態度など、音声信号のうち話者の心理的な情報が表れる成分をいう。非言語情報とは、話者の性別や年齢など、音声信号のうち話者の身体的な情報が表れる成分をいう。つまり、音声変換システム1は、入力された音声信号を、文言を同じくしつつニュアンスを異ならせた音声信号に変換することができる。
【0014】
音声変換システム1は、音声変換装置11と、変換モデル学習装置13とを備える。
音声変換装置11は、音声信号の入力を受け付け、非言語情報やパラ言語情報を変換した音声信号を出力する。例えば、音声変換装置11は、集音装置15から入力された音声信号を変換し、スピーカ17から出力する。音声変換装置11は、変換モデル学習装置13によって学習された機械学習モデルである変換モデルを用いて、音声信号の変換処理を行う。
変換モデル学習装置13は、音声信号を学習用データとして用いて変換モデルの学習を行う。このとき、変換モデル学習装置13は、学習用データである音声信号の時間軸上の一部をマスクしたものを変換モデルに入力し、マスク部分を補間した音声信号を出力させることで、非言語情報またはパラ言語情報の変換に加え、音声信号の時間周波数構造も学習させる。
【0015】
《変換モデル学習装置13の構成》
図2は、第1の実施形態に係る変換モデル学習装置13の構成を示す概略ブロック図である。第1の実施形態に係る変換モデル学習装置13は、ノンパラレルデータを学習用データとして変換モデルの学習を行う。パラレルデータとは、同一の文章を読み上げた、複数の(第1の実施形態においては2つの)異なる非言語情報またはパラ言語情報にそれぞれ対応する音声信号の組によって構成されるデータをいう。ノンパラレルデータとは、複数の(第一実施形態においては2つの)異なる非言語情報またはパラ言語情報にそれぞれ対応する音声信号によって構成されるデータをいう。
【0016】
第1の実施形態に係る変換モデル学習装置13は、学習用データ記憶部131、モデル記憶部132、特徴量取得部133、マスク部134、変換部135、第1識別部136、逆変換部137、第2識別部138、算出部139、更新部140を備える。
【0017】
学習用データ記憶部131は、ノンパラレルデータである複数の音声信号の音響特徴量系列を記憶する。音響特徴量系列とは、音声信号に係る特徴量の時系列である。音響特徴量系列の例としては、メルケプストラム係数系列、基本周波数系列、非周期性指標系列、スペクトログラム、メルスペクトログラム、音声信号波形などが挙げられる。音響特徴量系列は、特徴量数×時間の行列で表される。学習用データ記憶部131が記憶する複数の音響特徴量系列は、変換元の非言語情報およびパラ言語情報を有する音声信号のデータ群と、変換先の非言語情報およびパラ言語情報を有する音声信号のデータ群とを含む。例えば、男性Mによる音声信号を女性Fによる音声信号に変換したい場合、学習用データ記憶部131には、男性Mによる音声信号の音響特徴量系列と女性Fによる音声信号の音響特徴量系列とが記憶される。以下、変換元の非言語情報およびパラ言語情報を有する音声信号を一次音声信号と呼ぶ。また、変換先の非言語情報およびパラ言語情報を有する音声信号を二次音声信号と呼ぶ。また、一次音声信号の音響特徴量系列を一次特徴量系列xとよび、二次音声信号の音響特徴量系列を二次特徴量系列yとよぶ。
【0018】
モデル記憶部132は、変換モデルG、逆変換モデルF、一次識別モデルDXおよび二次識別モデルDYを記憶する。変換モデルG、逆変換モデルF、一次識別モデルDXおよび二次識別モデルDYは、いずれもニューラルネットワーク(例えば、畳み込みニューラルネットワーク)によって構成される。
変換モデルGは、一次特徴量系列と、当該音響特徴量系列の欠損箇所を示すマスク系列との組み合わせを入力とし、二次特徴量系列を模擬した音響特徴量系列を出力とする。
逆変換モデルFは、二次特徴量系列と、当該音響特徴量系列の欠損箇所を示すマスク系列との組み合わせを入力とし、一次特徴量系列を模擬した音響特徴量系列を出力とする。
一次識別モデルDXは、音声信号の音響特徴量系列を入力とし、入力された音響特徴量系列に係る音声信号が一次音声信号である確率または真の信号である度合を示す値を出力とする。例えば、一次識別モデルDXは、入力された音響特徴量系列に係る音声信号が一次音声信号を模擬した音声である確率が高いほど0に近い値を出力し、一次音声信号である確率が高いほど1に近い値を出力する。
二次識別モデルDYは、音声信号の音響特徴量系列を入力とし、入力された音響特徴量系列に係る音声信号が二次音声信号である確率を出力とする。
【0019】
変換モデルG、逆変換モデルF、一次識別モデルDXおよび二次識別モデルDYは、CycleGANを構成する。具体的には、変換モデルGと二次識別モデルDYの組み合わせ、逆変換モデルFと一次識別モデルDXの組み合わせが、それぞれ2つのGANを構成する。変換モデルGおよび逆変換モデルFは、Generatorである。一次識別モデルDXおよび二次識別モデルDYは、Discriminatorである。
【0020】
特徴量取得部133は、学習用データ記憶部131から学習に用いる音響特徴量系列を読み出す。
【0021】
マスク部134は、特徴量系列の時間軸上の一部をマスクした欠損特徴量系列を生成する。具体的には、マスク部134は、特徴量系列と同じサイズの行列であって、マスク領域を「0」、他の領域を「1」とするマスク系列mを生成する。マスク部134は、乱数に基づいてマスク領域を決定する。例えばマスク部134は、時間方向にランダムにマスク位置およびマスクサイズを決定し、次に周波数方向にランダムにマスク位置およびマスクサイズを決定する。なお、他の実施形態においては、マスク部134は、時間方向のマスク位置およびマスクサイズ、ならびに周波数方向のマスク位置およびマスクサイズの何れかを固定値としてもよい。また、マスク部134は、時間方向のマスクサイズを常に全時間としてもよいし、周波数方向のマスクサイズを常に全周波数としてもよい。またマスク部134は、マスクする箇所をポイント単位でランダムに決定してもよい。また、第1の実施形態ではマスク系列の要素の値は0または1の離散値であるが、マスク系列は元の特徴量系列内あるいは元の特徴量系列間の相対的な構造を何らかの形で欠損させられればよい。したがって、他の実施形態においては、マスク系列内の少なくとも1つの値が当該マスク系列内の他の値と異なる値である限り、マスク系列の値は任意の離散値または連続値でもよい。また、マスク部134は、それらの値をランダムに決定するようにしてもよい。
マスク系列の要素の値として連続値を用いる場合には、例えばマスク部134は、時間方向と周波数方向にランダムにマスク位置を決定し、次に当該マスク位置におけるマスク値を乱数によって決定する。マスク部134は、マスク位置として選ばれなかった時間周波数に対応するマスク系列の値を1とする。
上記のランダムにマスク位置を決定する操作や、マスク値を乱数によって決定する操作は、例えばマスク系列全体におけるマスク領域の割合や、マスク系列の値の平均値など、マスク系列に係る特徴量を指定して行われてもよい。マスク領域の割合やマスク系列の値の平均値、マスク位置、マスクサイズなど、マスクの特徴を表す情報を以下ではマスク情報と呼ぶ。
【0022】
マスク部134は、特徴量系列とマスク系列mの要素積を求めることで、欠損特徴量系列を生成する。以下、一次特徴量系列xをマスクした欠損特徴量系列を欠損一次特徴量系列x(hat)とよび、二次特徴量系列yをマスクした欠損特徴量系列を欠損二次特徴量系列y(hat)とよぶ。つまり、マスク部134は、以下の式(1)により欠損一次特徴量系列x(hat)を算出し、以下の式(2)により欠損二次特徴量系列y(hat)を算出する。なお、式(1)、(2)において白丸の演算子は、要素積を示す。
【0023】
【0024】
【0025】
変換部135は、欠損一次特徴量系列x(hat)とマスク系列mとをモデル記憶部132が記憶する変換モデルGに入力することで、二次音声信号の音響特徴量系列を模擬した音響特徴量系列を生成する。以下、二次音声信号の音響特徴量系列を模擬した音響特徴量系列を模擬二次特徴量系列y′とよぶ。つまり、変換部135は、以下の式(3)により模擬二次特徴量系列y′を算出する。
【0026】
【0027】
変換部135は、後述の模擬一次特徴量系列x′とすべての要素が「1」のマスク系列mとをモデル記憶部132が記憶する変換モデルGに入力することで、二次特徴量系列を再現した音響特徴量系列を生成する。以下、二次音声信号の音響特徴量系列を再現した音響特徴量系列を再現二次特徴量系列y″とよぶ。また、すべての要素が「1」のマスク系列mを1埋めマスク系列m′とよぶ。変換部135は、以下の式(4)により模擬二次特徴量系列y″を算出する。
【0028】
【0029】
第1識別部136は、二次特徴量系列yまたは変換部135が生成した模擬二次特徴量系列y′を二次識別モデルDYに入力することで、入力された特徴量系列が模擬二次特徴量系列である確率または真の信号である度合を示す値を算出する。
【0030】
逆変換部137は、欠損二次特徴量系列y(hat)とマスク系列mとをモデル記憶部132が記憶する逆変換モデルFに入力することで、一次音声信号の音響特徴量系列を模擬した模擬特徴量系列を生成する。以下、一次音声信号の音響特徴量系列を模擬した模擬特徴量系列を模擬一次特徴量系列x´とよぶ。つまり、逆変換部137は、以下の式(5)により模擬二次特徴量系列x′を算出する。
【0031】
【0032】
逆変換部137は、模擬二次特徴量系列y′と1埋めマスク系列m′とをモデル記憶部132が記憶する逆変換モデルFに入力することで、一次特徴量系列を再現した音響特徴量系列を生成する。以下、一次音声信号の音響特徴量系列を再現した音響特徴量系列を再現一次特徴量系列x″とよぶ。変換部135は、以下の式(6)により模擬一次特徴量系列x″を算出する。
【0033】
【0034】
第2識別部138は、一次特徴量系列xまたは逆変換部137が生成した模擬一次特徴量系列x′を一次識別モデルDXに入力することで、入力された特徴量系列が模擬一次特徴量系列である確率または真の信号である度合を示す値を算出する。
【0035】
算出部139は、変換モデルG、逆変換モデルF、一次識別モデルDX、二次識別モデルDYの学習に用いる学習基準(損失関数)を算出する。具体的には、算出部139は、敵対的学習基準および循環無矛盾性基準に基づいて学習基準を算出する。
敵対的学習基準とは、音響特徴量系列が本物であるか模擬特徴量系列であるかの判断の正確さを示す指標である。算出部139は、一次識別モデルDXによる模擬一次特徴量系列に対する判断の正確さを示す敵対的学習基準Lmadv
Y→Xと、二次識別モデルDYによる模擬二次特徴量系列に対する判断の正確さを示す敵対的学習基準Lmadv
X→Yとを算出する。
循環無矛盾性基準とは、入力に係る音響特徴量系列と、再現特徴量系列との相違を示す指標である。算出部139は、一次特徴量系列と再現一次特徴量系列との相違を示す循環無矛盾性基準Lmcyc
X→Y→Xと、二次特徴量系列と再現二次特徴量系列との相違を示す循環無矛盾性基準Lmcyc
Y→X→Yとを算出する。
算出部139は、以下の式(7)に示すように、敵対的学習基準Lmadv
Y→Xと、敵対的学習基準Lmadv
X→Yと、循環無矛盾性基準Lmcyc
X→Y→Xと、循環無矛盾性基準Lmcyc
Y→X→Yとの重み付き和を学習基準Lfullとして求める。式(7)においてλmcycは循環無矛盾性基準に対する重みである。
【0036】
【0037】
更新部140は、算出部139が算出した学習基準Lfullに基づいて変換モデルG、逆変換モデルF、一次識別モデルDX、二次識別モデルDYのパラメータを更新する。具体的には、更新部140は、一次識別モデルDXおよび二次識別モデルDYについて、学習基準Lfullが大きくなるようにパラメータを更新する。また更新部140は、変換モデルGおよび逆変換モデルFについて、学習基準Lfullが小さくなるようにパラメータを更新する。
【0038】
《指標値について》
ここで、算出部139が算出する指標値について説明する。
敵対的学習基準とは、音響特徴量系列が本物であるか模擬特徴量系列であるかの判断の正確さを示す指標である。一次特徴量系列に対する敵対的学習基準Lmadv
Y→Xおよび二次特徴量系列に対する敵対的学習基準Lmadv
X→Yは、それぞれ以下の式(8)、式(9)で表される。
【0039】
【0040】
【0041】
式(8)、(9)において、黒板太字体のEは、添え字に示す分布に対する期待値を示す(以降の式でも同様)。y~pY(y)は、学習用データ記憶部131が記憶する二次音声信号のデータ群Yから二次特徴量系列yをサンプリングすることを示す。同様に、x~pX(x)は、学習用データ記憶部131が記憶する一次音声信号のデータ群Xから一次特徴量系列xをサンプリングすることを示す。m~pM(m)は、マスク部134が生成され得るマスク系列の群から1つのマスク系列mを生成することを示す。なお、第1の実施形態では距離基準としてクロスエントロピーを用いるが、他の実施形態ではこれに限られず、L1ノルム、L2ノルム、ワッサーステイン距離などの他の距離基準を用いてもよい。
【0042】
敵対的学習基準Lmadv
Y→Xは、二次識別モデルDYが二次特徴量系列yを実音声と識別し、模擬二次特徴量系列y(hat)を合成音声と識別できている場合に大きい値を取る。敵対的学習基準Lmadv
X→Yは、一次識別モデルDXが一次特徴量系列xを実音声と識別し、模擬一次特徴量系列x(hat)を合成音声と識別できている場合に大きい値を取る。
【0043】
循環無矛盾性基準とは、入力に係る音響特徴量系列と、再現特徴量系列との相違を示す指標である。一次特徴量系列に対する循環無矛盾性基準Lmcyc
X→Y→Xおよび二次特徴量系列に対する循環無矛盾性基準Lmcyc
Y→X→Yは、それぞれ以下の式(10)、式(11)で表される。
【0044】
【0045】
【0046】
式(10)、(11)において||・||1は、L1ノルムを示す。循環無矛盾性基準Lmcyc
X→Y→Xは、一次特徴量系列xと再現一次特徴量系列x″の距離が小さい場合に小さい値を取る。循環無矛盾性基準Lmcyc
Y→X→Yは、二次特徴量系列yと再現二次特徴量系列y″の距離が小さい場合に小さい値を取る。
【0047】
《変換モデル学習装置13の動作》
図3は、第1の実施形態に係る変換モデル学習装置13の動作を示すフローチャートである。
図4は、第1の実施形態に係る学習処理におけるデータの変遷を示す図である。
変換モデル学習装置13が変換モデルの学習処理を開始すると、特徴量取得部133は、学習用データ記憶部131から一次特徴量系列xを1つずつ読み出し(ステップS1)、読み出した一次特徴量系列xそれぞれについて以下のステップS2からステップS7の処理を実行する。
【0048】
マスク部134は、ステップS1で読み出した一次特徴量系列xと同じサイズのマスク系列mを生成する(ステップS2)。次に、マスク部134は、一次特徴量系列xとマスク系列mの要素積を求めることで、欠損一次特徴量系列x(hat)を生成する(ステップS3)。
【0049】
変換部135は、ステップS3で生成した欠損一次特徴量系列x(hat)とステップS2で生成したマスク系列mとをモデル記憶部132が記憶する変換モデルGに入力することで、模擬二次特徴量系列y′を生成する(ステップS4)。次に、第1識別部136は、ステップS4で生成した模擬二次特徴量系列y′を二次識別モデルDYに入力することで、模擬二次特徴量系列が模擬二次特徴量系列y′である確率を算出する(ステップS5)。
【0050】
次に、逆変換部137は、ステップS4で生成した模擬二次特徴量系列y′と1埋めマスク系列m′とをモデル記憶部132が記憶する逆変換モデルFに入力することで、再現一次特徴量系列x″を生成する(ステップS6)。算出部139は、ステップS1で読み出した一次特徴量系列xとステップS6で生成した再現一次特徴量系列x″とのL1ノルムを求める(ステップS7)。
【0051】
また、第2識別部138は、ステップS1で読み出した一次特徴量系列xを一次識別モデルDXに入力することで、一次特徴量系列xが模擬一次特徴量系列x′である確率を算出する(ステップS8)。
【0052】
次に、特徴量取得部133は、学習用データ記憶部131から二次特徴量系列yを1つずつ読み出し(ステップS9)、読み出した二次特徴量系列yそれぞれについて以下のステップS10からステップS16の処理を実行する。
【0053】
マスク部134は、ステップS9で読み出した二次特徴量系列yと同じサイズのマスク系列mを生成する(ステップS10)。次に、マスク部134は、二次特徴量系列yとマスク系列mの要素積を求めることで、欠損二次特徴量系列y(hat)を生成する(ステップS11)。
【0054】
逆変換部137は、ステップS11で生成した欠損二次特徴量系列y(hat)とステップS10で生成したマスク系列mとをモデル記憶部132が記憶する逆変換モデルFに入力することで、模擬一次特徴量系列x′を生成する(ステップS12)。次に、第2識別部138は、ステップS12で生成した模擬一次特徴量系列x′を一次識別モデルDXに入力することで、模擬一次特徴量系列x′が模擬一次特徴量系列x′である確率または真の信号である度合を示す値を算出する(ステップS13)。
【0055】
次に、変換部135は、ステップS12で生成した模擬一次特徴量系列x′と1埋めマスク系列m′とをモデル記憶部132が記憶する変換モデルGに入力することで、再現二次特徴量系列y″を生成する(ステップS14)。算出部139は、ステップS9で読み出した二次特徴量系列yとステップS14で生成した再現二次特徴量系列y″とのL1ノルムを求める(ステップS15)。
【0056】
また、第1識別部136は、ステップS9で読み出した二次特徴量系列yを二次識別モデルDYに入力することで、二次特徴量系列yが模擬二次特徴量系列y′である確率または真の信号である度合を示す値を算出する(ステップS16)。
【0057】
次に、算出部139は、式(8)に基づいて、ステップS5で算出した確率とステップS16で算出した確率から敵対的学習基準Lmadv
X→Yを算出する。また算出部139は、式(9)に基づいて、ステップS8で算出した確率とステップS13で算出した確率から敵対的学習基準Lmadv
Y→Xを算出する(ステップS17)。また、算出部139は、式(10)に基づいて、ステップS7で算出したL1ノルムから循環無矛盾性基準Lmcyc
X→Y→Xを算出する。また算出部139は、式(11)に基づいて、ステップS15で算出したL1ノルムから循環無矛盾性基準Lmcyc
Y→X→Yを算出する(ステップS18)。
【0058】
算出部139は、式(7)に基づいて敵対的学習基準Lmadv
X→Y、敵対的学習基準Lmadv
Y→X、循環無矛盾性基準Lmcyc
X→Y→X、循環無矛盾性基準Lmcyc
Y→X→Yから学習基準Lfullを算出する(ステップS19)。更新部140は、ステップS19で算出した学習基準Lfullに基づいて変換モデルG、逆変換モデルF、一次識別モデルDX、二次識別モデルDYのパラメータを更新する(ステップS20)。
【0059】
更新部140は、ステップS1からステップS20によるパラメータの更新を、所定のエポック数だけ繰り返し実行したか否かを判定する(ステップS21)。繰り返しが所定のエポック数に満たない場合(ステップS21:NO)、変換モデル学習装置13はステップS1に処理を戻し、学習処理を繰り返し実行する。
【0060】
他方、繰り返しが所定のエポック数に達した場合(ステップS21:YES)、変換モデル学習装置13は学習処理を終了する。これにより、変換モデル学習装置13は、学習済みモデルである変換モデルを生成することができる。
【0061】
《音声変換装置11の構成》
図5は、第1の実施形態に係る音声変換装置11の構成を示す概略ブロック図である。
第1の実施形態に係る音声変換装置11は、モデル記憶部111、信号取得部112、特徴量算出部113、変換部114、信号生成部115、出力部116を備える。
【0062】
モデル記憶部111は、変換モデル学習装置13による学習済みの変換モデルGを記憶する。すなわち、変換モデルGは、一次特徴量系列xと、当該音響特徴量系列の欠損箇所を示すマスク系列mとの組み合わせを入力とし、模擬二次特徴量系列y′を出力とする。
【0063】
信号取得部112は、一次音声信号を取得する。例えば、信号取得部112は、記憶装置に記録された一次音声信号のデータを取得してもよいし、集音装置15から一次音声信号のデータを取得してもよい。
【0064】
特徴量算出部113は、信号取得部112が取得した一次音声信号から一次特徴量系列xを算出する。特徴量算出部113の例としては、特徴量抽出器や音声分析機が挙げられる。
【0065】
変換部114は、特徴量算出部113が算出した一次特徴量系列xと1埋めマスク系列m′とをモデル記憶部111が記憶する変換モデルGに入力することで、模擬二次特徴量系列y′を生成する。
【0066】
信号生成部115は、変換部114が生成した模擬二次特徴量系列y′を音声信号データに変換する。信号生成部115の例としては、学習済みのニューラルネットワークモデルやボコーダが挙げられる。
【0067】
出力部116は、信号生成部115が生成した音声信号データを出力する。出力部116は、例えば記憶装置に音声信号データを記録してもよいし、スピーカ17を介して音声信号データを再生してもよいし、ネットワークを介して音声信号データを送信してもよい。
【0068】
音声変換装置11は、上記構成により、入力された音声信号の言語情報を保持したまま非言語情報やパラ言語情報を変換した音声信号を生成することができる。
【0069】
《作用・効果》
このように、第1の実施形態に係る変換モデル学習装置13は、一次特徴量系列xの一部をマスクした欠損一次特徴量系列x(hat)を用いて変換モデルGを学習させる。このとき、音声変換システム1は、模擬二次特徴量系列y′の時間周波数構造と二次特徴量系列yの時間周波数構造が近いほど間接的に高くなる学習基準値である、循環無矛盾性基準Lmcyc
X→Y→Xを用いる。循環無矛盾性基準Lmcyc
X→Y→Xは、一次特徴量系列xと再現一次特徴量系列x″との差を小さくするための基準である。つまり、循環無矛盾性基準Lmcyc
X→Y→Xは、再現一次特徴量系列の時間周波数構造と一次特徴量系列の時間周波数構造が近いほど高くなる学習基準値である。再現一次特徴量系列の時間周波数構造が一次特徴量系列の時間周波数構造と近くなるためには、再現一次特徴量系列を生成するための模擬二次特徴量系列において、マスクされた部分を適切に補完し、一次特徴量系列xの時間周波数構造に対応する時間周波数構造を再現する必要がある。すなわち、模擬二次特徴量系列y′の時間周波数構造は、一次特徴量系列xと同じ言語情報を有する二次特徴量系列yの時間周波数構造を再現する必要がある。したがって、循環無矛盾性基準Lmcyc
X→Y→Xは、模擬二次特徴量系列y′の時間周波数構造と二次特徴量系列yの時間周波数構造が近いほど高くなる学習基準値であるといえる。
【0070】
第1の実施形態に係る変換モデル学習装置13は、欠損一次特徴量系列x(hat)を用いることで、学習過程において、非言語情報およびパラ言語情報の変換に加え、マスク部分を補間するようにパラメータが更新される。補間を行うためには、変換モデルGはマスク部分の周囲の情報からマスク部分を予測する必要がある。周囲の情報からマスク部分を予測するためには、音声の時間周波数構造を認識する必要がある。したがって、第1の実施形態に係る変換モデル学習装置13によれば、欠損一次特徴量系列x(hat)を補間できるように学習することで、学習過程で音声の時間周波数構造を獲得することができる。
【0071】
また、第1の実施形態に係る変換モデル学習装置13は、模擬二次特徴量系列y′を逆変換モデルFに入力することでえられた再現一次特徴量系列x″と一次特徴量系列xの類似度に基づいて学習を行う。これにより、変換モデル学習装置13は、ノンパラレルデータに基づいて変換モデルFを学習させることができる。
【0072】
《変形例》
なお、第1の実施形態に係る変換モデルGおよび逆変換モデルFは、音響特徴量系列とマスク系列とを入力とするが、これに限られない。例えば、他の実施形態に係る変換モデルGおよび逆変換モデルFは、マスク系列の代わりに、マスク情報を入力としてもよい。また、例えば、他の実施形態に係る変換モデルGおよび逆変換モデルFは、マスク系列を入力に含まず、音響特徴量系列のみの入力を受け付けるものであってもよい。この場合、変換モデルGおよび逆変換モデルFのネットワークの入力サイズは第1の実施形態の二分の一となる。
【0073】
また、第1の実施形態に係る変換モデル学習装置13は、式(7)に示す学習基準Lfullに基づいて学習を行うが、これに限られない。例えば、他の実施形態に係る変換モデル学習装置13は、循環無矛盾性基準Lmcyc
X→Y→Xに加えてまたは代えて、式(12)に示す恒等変換基準Lmid
X→Yを用いてもよい。恒等変換基準Lmid
X→Yは、二次特徴量系列yと欠損二次特徴量系列y(hat)を変換モデルGを用いて変換して得られる音響特徴量系列との変化が小さいほど小さい値となる。なお、恒等変換基準Lmid
X→Yの算出に当たって、変換モデルGへの入力は欠損二次特徴量系列y(hat)ではなく二次特徴量系列yであってもよい。恒等変換基準Lmid
X→Yは、模擬二次特徴量系列y′の時周波数構造と二次特徴量系列yの時周波数構造が近いほど高くなる学習基準値であるといえる。
【0074】
【0075】
また例えば、他の実施形態に係る変換モデル学習装置13は、循環無矛盾性基準Lmcyc
Y→X→Yに加えてまたは代えて、式(13)に示す恒等変換基準Lmid
Y→Xを用いてもよい。恒等変換基準Lmid
Y→Xは、一次特徴量系列xと欠損一次特徴量系列x(hat)を変換モデルFを用いて変換して得られる音響特徴量系列との変化が小さいほど小さい値となる。なお、恒等変換基準Lmid
Y→Xの算出に当たって、変換モデルFへの入力は欠損一次特徴量系列x(hat)ではなく一時特徴量系列xであってもよい。
【0076】
【0077】
また例えば、他の実施形態に係る変換モデル学習装置13は、敵対的学習基準Lmcyc
X→Yに加えてまたは代えて、式(14)に示す第2種敵対的学習基準Lmadv2
X→Y→Xを用いてもよい。第2種敵対的学習基準Lmadv2
X→Y→Xは、識別モデルが一次特徴量系列xを実音声と識別し、再現一次特徴量系列x″を合成音声と識別できている場合に大きい値を取る。なお、第2種敵対的学習基準Lmadv2
X→Y→Xの計算に用いる識別モデルは、一次識別モデルDXと同じものであってもよいし別個に学習されたものであってもよい。
【0078】
【0079】
また例えば、他の実施形態に係る変換モデル学習装置13は、敵対的学習基準Lmcyc
Y→Xに加えてまたは代えて、式(15)に示す第2種敵対的学習基準Lmadv2
Y→X→Yを用いてもよい。第2種敵対的学習基準Lmadv2
Y→X→Yは、識別モデルが二次特徴量系列yを実音声と識別し、再現二次特徴量系列y″を合成音声と識別できている場合に大きい値を取る。なお、第2種敵対的学習基準Lmadv2
Y→X→Yの計算に用いる識別モデルは、二次識別モデルDYと同じものであってもよいし別個に学習されたものであってもよい。
【0080】
【0081】
また、第1の実施形態に係る変換モデル学習装置13は、GANによって変換モデルGを学習させるが、これに限られない。例えば、他の実施形態に係る変換モデル学習装置13は、VAEのような任意の深層生成モデルによって変換モデルGを学習させてもよい。
【0082】
《実験結果》
第1の実施形態に係る音声変換システム1を用いた音声信号の変換の実験結果の一例を説明する。実験では、女性話者1(SF)、男性話者1(SM)、女性話者2(TF)および男性話者2(TM)に係る音声信号データが用いられた。
【0083】
実験では、音声変換システム1は話者性変換を行った。実験においてSFとSMとは一次音声信号として用いられた。実験においてTFとTMとは二次音声信号として用いられた。実験では、一次音声信号と二次音声信号との組それぞれについて実験が行われた。すなわち、実験ではSFとTFとの組、SMとTMとの組、SFとTMとの組、およびSMとTFとの組について話者性変換が行われた。
【0084】
実験では、各話者につき81文が学習データとして用いられ35文がテストデータとして用いられた。実験において、全音声信号のサンプリング周波数は22050Hzであった。学習データにおいて、変換元音声と変換目標音声との間に同一発話音声は存在しなかった。そのため、実験は、ノンパラレル設定での評価が可能な実験であった。
【0085】
実験では、各発話に対し、窓長が1024サンプルであってホップ長が256サンプルである短時間フーリエ変換の後、80次元のメルスペクトログラムを音響特徴量系列として抽出された。実験において、メルスペクトログラムから音声信号を生成する際は、ニューラルネットワークで構成された波形生成器が用いられた。
【0086】
変換モデルG、逆変換モデルF、一次識別モデルDxおよび二次識別モデルDyは、それぞれCNNによってモデル化された。より具体的には、変換器GおよびFは、以下の第1処理部から第7処理部までの7つの処理部を有するニューラルネットワークであった。第1処理部は、2D CNNによる入力処理部であって畳み込みブロック1つで構成される。なお2Dは、2次元を意味する。第2処理部は、2D CNNによるダウンサンプリング処理部であって畳み込みブロック2つで構成される。第3処理部は、2Dから1Dへの変換処理部であって畳み込みブロック1つで構成される。なお1Dは、1次元を意味する。
【0087】
第4処理部は、1D CNNによる差分変換処理部であって畳み込みブロック2つを含む差分変換ブロック6つで構成される。第5処理部は、1Dから2Dへの変換処理部であって畳み込みブロック1つで構成される。第6処理部は、2D CNNによるアップサンプリング処理部であって畳み込みブロック2つで構成される。第7処理部は、2D CNNによる出力処理部であって畳み込みブロック1つで構成される。
【0088】
実験において、参考文献1に記載のCycleGAN-VC2を比較例とした。比較例に係る学習では、敵対的学習基準、第2種敵対的学習基準、循環無矛盾性基準および恒等変換基準を組み合わせた学習基準が用いられた。
【0089】
参考文献1:T. Kaneko, H. Kameoka, K. Tanaka, and N. Hojo, “CycleGAN-VC2: Improved CycleGAN-Based Non-Parallel Voice Conversion,” in Proc. ICASSP, 2019.
【0090】
第1の実施形態に係る音声変換システム1と比較例に係る音声変換システムとの主な相違点は、マスク部134によるマスク処理を行うか否かにあった。すなわち、第1の実施形態に係る音声変換システム1は、学習時に欠損一次特徴量系列x(hat)から模擬二次特徴量系列y′を生成したのに対し、比較例に係る音声変換システムは、学習時に一次特徴量系列xから模擬二次特徴量系列y′を生成した。
【0091】
実験の評価は、メルケプストラム歪み(MCD)と、Kernel DeepSpeech Distance(KDHD)との2つの評価指標に基づいて行った。MCDは、メルケプストラム領域における一次特徴量系列xと模擬二次特徴量系列y′の類似度を示す。MCDの計算に当たっては、35次元のメルケプストラムを抽出した。KDSDは、一次特徴量系列xと模擬二次特徴量系列y′の最大平均不一致(MMD)を示す、KDSDは、先行研究において主観評価と高い相関を持つことが知られている指標である。MCDおよびKDSDは、ともに値が小さい方が性能がよいことを意味する。
【0092】
図6は、第1の実施形態に係る音声変換システム1の実験結果を示す図である。
図6において“SF-TF”は、SFとTFとの組を示す。
図6において“SM-TM”は、SMとTMとの組を示す。
図6において“SF-TM”は、SFとTMとの組を示す。
図6において“SF-TF”は、SMとTFとの組を示す。
【0093】
図6に示すように、実験では“SF-TF”、“SM-TM”、“SF-TM”、“SF-TF”の全てにおいて、MCDおよびKDSDのいずれの評価指標においても、第1の実施形態に係る音声変換システム1の方が比較例に係る音声変換システムより性能がよいことが示された。なお、第1の実施形態に係る変換モデルGおよび比較例に係る変換モデルのパラメータ数はいずれも約16Mであり、ほぼ変わりがなかった。つまり、第1の実施形態に係る音声変換システム1は、比較例に対してパラメータ数を増やすことなく性能を向上させることができることがわかった。
【0094】
〈第2の実施形態〉
第1の実施形態に係る音声変換システム1は、変換元の非言語情報およびパラ言語情報の種類と、変換先の非言語情報およびパラ言語情報の種類とが予め定められている。これに対し、第2の実施形態に係る音声変換システム1は、予め定められた複数の音声の種類から、変換元の音声の種類と変換先の音声の種類を任意に選択して音声変換を行う。
【0095】
第2の実施形態に係る音声変換システム1は、第1の実施形態に係る変換モデルGおよび逆変換モデルFに代えて、マルチ変換モデルGmultiを用いる。マルチ変換モデルGmultiは、変換元の音響特徴量系列と、音響特徴量系列の欠損箇所を示すマスク系列と、変換先の音声の種類を示すラベルとの組み合わせを入力とし、変換先の音声の種類を模擬した模擬音響特徴量系列を出力とする。変換先を示すラベルは、例えば話者ごとに付されたラベルや感情ごとに付されたラベルであってよい。マルチ変換モデルGmultiは、変換モデルGおよび逆変換モデルFを同一のモデルで実現したものであるといえる。
【0096】
また、第2の実施形態に係る音声変換システム1は、一次識別モデルDXおよび二次識別モデルDYに代えて、マルチ識別モデルDmultiを用いる。マルチ識別モデルDmultiは、音声信号の音響特徴量系列と識別対象の音声の種類を示すラベルとの組み合わせを入力とし、入力された音響特徴量系列に係る音声信号がラベルが示す非言語情報およびパラ言語情報を有する正しい音声信号である確率を出力とする。
マルチ変換モデルGmultiおよびマルチ識別モデルDmultiは、StarGANを構成する。
【0097】
第2の実施形態に係る変換モデル学習装置13の変換部135は、欠損一次特徴量系列x(hat)とマスク系列mと任意のラベルcYをマルチ変換モデルGmultiに入力することで、二次特徴量系列を再現した音響特徴量系列を生成する。第2の実施形態に係る逆変換部137は、模擬二次特徴量系列y′と1埋めマスク系列m′と一次特徴量系列xに係るラベルcXとをマルチ変換モデルGmultiに入力することで、再現一次特徴量系列x″を算出する。
【0098】
第2の実施形態に係る算出部139は、以下の式(16)により敵対的学習基準を算出する。また第2の実施形態に係る算出部139は、以下の式(17)により循環無矛盾性基準を算出する。
【0099】
【0100】
【0101】
これにより、第2の実施形態に係る変換モデル学習装置13は、複数の非言語情報およびパラ言語情報から、変換元と変換先を任意に選択して音声変換を行うようにマルチ変換モデルGmultiを学習させることができる。
【0102】
《変形例》
なお、第2の実施形態に係るマルチ識別モデルDmultiは、音響特徴量系列とラベルの組み合わせを入力とするが、これに限られない。例えば、他の実施形態に係るマルチ識別モデルDmultiは、ラベルを入力に含まないものであってよい。この場合に、変換モデル学習装置13は、音響特徴量の音声の種類を推定する推定モデルEを用いてよい。推定モデルEは、一次特徴量系列xが入力された場合に、複数のラベルcそれぞれについて当該一次特徴量系列xに対応するラベルである確率を出力するモデルである。この場合、推定モデルEによる一次特徴量系列xの推定結果が一次特徴量系列xに対応するラベルcxにおいて高い値を示すようなクラス学習基準Lclsを学習基準fullに含める。クラス学習基準Lclsは、実音声に対して以下の式(18)のように計算され、合成音声に対して以下の式(19)のように計算される。
【0103】
【0104】
【0105】
また、他の実施形態に係る変換モデル学習装置13は、恒等変換基準Lmidや第2種敵対的学習基準を用いてマルチ変換モデルGmultiおよびマルチ識別モデルDmultiの学習を行ってもよい。
また、当該変形例では、マルチ変換モデルGmultiが、変換対象の音声の種類を表すラベルのみを入力に用いる例を説明したが、同時に変換元の音声の種類を表すラベルも入力に用いても良い。また、同様に、当該変形例では、マルチ識別モデルDmultiが、変換対象の音声の種類を表すラベルのみを入力に用いる例を説明したが、同時に変換元の音声の種類を表すラベルも入力に用いても良い。
【0106】
また、第1の実施形態に係る変換モデル学習装置13は、GANによって変換モデルGを学習させるが、これに限られない。例えば、他の実施形態に係る変換モデル学習装置13は、VAEのような任意の深層生成モデルによって変換モデルGを学習させてもよい。
【0107】
なお、第2の実施形態に係る音声変換装置11は、マルチ変換モデルGmultiに変換先の音声の種類を示すラベルを入力する点以外は、第1の実施形態と同様の手順によって、音声信号の変換を行うことができる。
【0108】
〈第3の実施形態〉
第1の実施形態に係る音声変換システム1は、ノンパラレルデータに基づいて変換モデルGを学習させる。これに対し、第3の実施形態に係る音声変換システム1は、パラレルデータに基づいて変換モデルGを学習させる。
【0109】
第3の実施形態に係る学習用データ記憶部131は、パラレルデータとして複数の一次特徴量系列と二次特徴量系列のペアを記憶する。
第3の実施形態に係る算出部139は、式(7)の学習基準に代えて、以下の式(20)に示す回帰学習基準Lregを算出する。更新部140は、回帰学習基準Lregに基づいて変換モデルGのパラメータを更新する。
【0110】
【0111】
なお、パラレルデータとして与えられる一次特徴量系列xと二次特徴量系列yとは、互いに対応する時間周波数構造を有している。したがって、第3の実施形態では、模擬二次特徴量系列y′の時間周波数構造と二次特徴量系列yの時間周波数構造が近いほど高くなる回帰学習基準Lregを直接学習基準値として用いることができる。当該学習基準値を用いて学習することで、非言語情報およびパラ言語情報の変換に加え、マスク部分を補間するようにモデルのパラメータが更新される。。
第3の実施形態に係る変換モデル学習装置13は、逆変換モデルF、一次識別モデルDXおよび二次識別モデルDYを記憶しなくてよい。また、変換モデル学習装置13は、第1識別部136、逆変換部137、第2識別部138を備えなくてよい。
【0112】
なお、第3の実施形態に係る音声変換装置11は、第1の実施形態と同様の手順によって、音声信号の変換を行うことができる。
【0113】
《変形例》
なお、他の実施形態に係る音声変換システム1は、第2の実施形態のようなマルチ変換モデルGmultiについて、パラレルデータを用いた学習を行ってもよい。
【0114】
〈他の実施形態〉
以上、図面を参照して一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、様々な設計変更等をすることが可能である。すなわち、他の実施形態においては、上述の処理の順序が適宜変更されてもよい。また、一部の処理が並列に実行されてもよい。
上述した実施形態に係る音声変換システム1では、音声変換装置11と変換モデル学習装置13とが別個のコンピュータによって構成されるが、これに限られない。例えば、他の実施形態に係る音声変換システム1は、音声変換装置11と変換モデル学習装置13が同一のコンピュータによって構成されてもよい。
【0115】
〈コンピュータ構成〉
図7は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
コンピュータ20は、プロセッサ21、メインメモリ23、ストレージ25、インタフェース27を備える。
上述の音声変換装置11および変換モデル学習装置13は、コンピュータ20に実装される。そして、上述した各処理部の動作は、プログラムの形式でストレージ25に記憶されている。プロセッサ21は、プログラムをストレージ25から読み出してメインメモリ23に展開し、当該プログラムに従って上記処理を実行する。また、プロセッサ21は、プログラムに従って、上述した各記憶部に対応する記憶領域をメインメモリ23に確保する。プロセッサ21の例としては、CPU(Central Processing Unit)、GPU(Graphic Processing Unit)、マイクロプロセッサなどが挙げられる。
【0116】
プログラムは、コンピュータ20に発揮させる機能の一部を実現するためのものであってもよい。例えば、プログラムは、ストレージに既に記憶されている他のプログラムとの組み合わせ、または他の装置に実装された他のプログラムとの組み合わせによって機能を発揮させるものであってもよい。なお、他の実施形態においては、コンピュータ20は、上記構成に加えて、または上記構成に代えてPLD(Programmable Logic Device)などのカスタムLSI(Large Scale Integrated Circuit)を備えてもよい。PLDの例としては、PAL(Programmable Array Logic)、GAL(Generic Array Logic)、CPLD(Complex Programmable Logic Device)、FPGA(Field Programmable Gate Array)が挙げられる。この場合、プロセッサ21によって実現される機能の一部または全部が当該集積回路によって実現されてよい。このような集積回路も、プロセッサの一例に含まれる。
【0117】
ストレージ25の例としては、磁気ディスク、光磁気ディスク、光ディスク、半導体メモリ等が挙げられる。ストレージ25は、コンピュータ20のバスに直接接続された内部メディアであってもよいし、インタフェース27または通信回線を介してコンピュータ20に接続される外部メディアであってもよい。また、このプログラムが通信回線によってコンピュータ20に配信される場合、配信を受けたコンピュータ20が当該プログラムをメインメモリ23に展開し、上記処理を実行してもよい。少なくとも1つの実施形態において、ストレージ25は、一時的でない有形の記憶媒体である。
【0118】
また、当該プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、当該プログラムは、前述した機能をストレージ25に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【符号の説明】
【0119】
1…音声変換システム 11…音声変換装置 111…モデル記憶部 112…信号取得部 113…特徴量算出部 114…変換部 115…信号生成部 116…出力部 13…変換モデル学習装置 131…学習用データ記憶部 132…モデル記憶部 133…特徴量取得部 134…マスク部 135…変換部 136…第1識別部 137…逆変換部 138…第2識別部 139…算出部 140…更新部