(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-10-04
(45)【発行日】2023-10-13
(54)【発明の名称】音声処理装置及び音声処理プログラム
(51)【国際特許分類】
G10L 21/007 20130101AFI20231005BHJP
G10L 25/51 20130101ALI20231005BHJP
G10L 15/18 20130101ALN20231005BHJP
【FI】
G10L21/007
G10L25/51
G10L15/18 300H
(21)【出願番号】P 2019095103
(22)【出願日】2019-05-21
【審査請求日】2022-05-02
(73)【特許権者】
【識別番号】599115217
【氏名又は名称】株式会社 ディー・エヌ・エー
(74)【代理人】
【識別番号】110001210
【氏名又は名称】弁理士法人YKI国際特許事務所
(72)【発明者】
【氏名】橘 健太郎
(72)【発明者】
【氏名】齋藤 佑樹
(72)【発明者】
【氏名】阿久澤 圭
【審査官】上田 雄
(56)【参考文献】
【文献】国際公開第2008/150003(WO,A1)
【文献】米国特許出願公開第2018/0012613(US,A1)
【文献】佐藤邦彦,”多様な雑音に対して耐性のある声質変換システム”,情報処理学会 インタラクション2018 論文集[online],2018年03月02日
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-25/93
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
複数の話者の音声から抽出された音素事後確率又は音素を含むテスト発話情報と、所定の話者の音声から抽出された音素事後確率又は音素を含む所定発話情報と、の一致度を評価する発話情報評価手段
と、
前記発話情報評価手段から出力された前記一致度を示す情報のフィードバックを受けて、入力音声から音素事後確率又は音素を含む発話情報を抽出するように機械学習された抽出手段と、
を備え
、
前記テスト発話情報及び前記所定発話情報は前記抽出手段によって抽出されることを特徴とする音声処理装置。
【請求項2】
請求項1に記載の音声処理装置であって、
前記発話情報評価手段は、前記テスト発話情報及び前記所定発話情報を学習データとして前記テスト発話情報と前記所定発話情報との一致度を示す情報として第1の損失関数を出力するように機械学習されたことを特徴とする音声処理装置。
【請求項3】
請求項
1に記載の音声処理装置であって、
前記抽出手段は、前記入力音声から抽出される発話情報が前記所定発話情報に近づくように機械学習されたことを特徴とする音声処理装置。
【請求項4】
請求項
1又は
3に記載の音声処理装置であって、
前記抽出手段から出力された発話情報を音声データに変換する変換手段と、
前記変換手段において変換された音声データを音声として出力する音声出力手段と、
をさらに備えることを特徴とする音声処理装置。
【請求項5】
請求項
4に記載の音声処理装置であって、
前記変換手段は、前記抽出手段から出力された発話情報から変換された音声データが前記所定の話者の声質を有する音声データに近づくように機械学習されたことを特徴とする音声処理装置。
【請求項6】
請求項
4又は
5に記載の音声処理装置であって、
前記変換手段において変換された音声データと、前記所定の話者の音声データと、の一致度を評価する音声評価手段をさらに備えることを特徴とする音声処理装置。
【請求項7】
請求項
6に記載の音声処理装置であって、
前記音声評価手段は、前記変換手段において変換された音声データ及び前記所定の話者の音声の音声データを学習データとして前記変換手段において変換された音声データと前記所定の話者の音声データとの一致度を示す情報として第2の損失関数を出力するように機械学習されたことを特徴とする音声処理装置。
【請求項8】
請求項
6又は
7に記載の音声処理装置であって、
前記変換手段は、前記音声評価手段から出力された前記一致度を示す情報のフィードバックを受けて、前記抽出手段から出力された発話情報から変換された音声データが前記所定の話者の音質の音声データに近づくように機械学習されたことを特徴とする音声処理装置。
【請求項9】
コンピュータを、
複数の話者の音声から抽出された音素事後確率又は音素を含むテスト発話情報と、所定の話者の音声から抽出された音素事後確率又は音素を含む所定発話情報と、の一致度を評価する発話情報評価手段
と、
前記発話情報評価手段から出力された前記一致度を示す情報のフィードバックを受けて、入力音声から音素事後確率又は音素を含む発話情報を抽出するように機械学習された抽出手段と、
として機能させ
、
前記テスト発話情報及び前記所定発話情報は前記抽出手段によって抽出されることを特徴とする音声処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声処理装置及び音声処理プログラムに関する。
【背景技術】
【0002】
任意の話者が発声した音声を別の話者の声質を有する音声に変換する音声変換装置が開発されている。
【0003】
例えば、目標話者の音声信号と同一又は類似の発声内容の発音記号列にしたがって合成音を作成する。そして、目標話者の音声と作成された合成音から特徴パラメータを抽出し、両方の特徴パラメータを用いて合成音のスペクトル形状を目標となる話者音声のスペクトル形状に変換する関数を同定し、同定された関数を用いて入力音声の声質を変換する技術が開示されている(特許文献1)。
【0004】
また、機械学習を適用することによって任意の話者の声を目標話者の声質に変換する技術が開示されている(非特許文献1,2)。
【先行技術文献】
【特許文献】
【0005】
【非特許文献】
【0006】
【文献】L.Sun, et. al. "Phonetic Posterior for many-to-one voice conversion without parallel data training" in Proc. ICME, Seattle, USA, Jul. 2016.
【文献】Y.Saito, et. al. "Statistical parametric speech synthesis incorporating generative adversarial networks," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 26, no. 1. pp. 84-96, Jan. 2018.
【発明の概要】
【発明が解決しようとする課題】
【0007】
ところで、従来技術では、複数の話者が特定の単語を発音した際、話者によらず同じ発話情報(音声に含まれる各音素とその時間的長さ)が得られることを仮定している。しかしながら、実際には機械が抽出する発話情報は話者によって異なるので、同じ発話情報が得られるという仮定の下に音声変換を行った場合に得られる音声が異なるという問題があった。
【0008】
また、音声変換を行う使用者が発音記号を入力する技術では、話者の発音に応じてリアルタイムに音声変換を行うことができなかった。
【課題を解決するための手段】
【0009】
本発明の1つの態様は、複数の話者の音声から抽出された音素事後確率又は音素を含むテスト発話情報と、所定の話者の音声から抽出された音素事後確率又は音素を含む所定発話情報と、の一致度を評価する発話情報評価手段を備えることを特徴とする音声処理装置である。
【0010】
本発明の別の態様は、コンピュータを、複数の話者の音声から抽出された音素事後確率又は音素を含むテスト発話情報と、所定の話者の音声から抽出された音素事後確率又は音素を含む所定発話情報と、の一致度を評価する発話情報評価手段として機能させることを特徴とする音声処理プログラムである。
【0011】
ここで、前記発話情報評価手段は、前記テスト発話情報及び前記所定発話情報を学習データとして前記テスト発話情報と前記所定発話情報との一致度を示す情報として第1の損失関数を出力するように機械学習されたことが好適である。
【0012】
また、前記発話情報評価手段から出力された前記一致度を示す情報のフィードバックを受けて、入力音声から音素事後確率又は音素を含む発話情報を抽出するように機械学習された抽出手段をさらに備え、前記テスト発話情報及び前記所定発話情報は前記抽出手段によって抽出されることが好適である。
【0013】
また、前記抽出手段は、前記入力音声から抽出される発話情報が前記所定発話情報に近づくように機械学習されたことが好適である。
【0014】
また、前記抽出手段から出力された発話情報を音声データに変換する変換手段と、前記変換手段において変換された音声データを音声として出力する音声出力手段と、をさらに備えることが好適である。
【0015】
また、前記変換手段は、前記抽出手段から出力された発話情報から変換された音声データが前記所定の話者の声質を有する音声データに近づくように機械学習されたことが好適である。
【0016】
また、前記変換手段において変換された音声データと、前記所定の話者の音声データと、の一致度を評価する音声評価手段をさらに備えることが好適である。
【0017】
また、前記音声評価手段は、前記変換手段において変換された音声データ及び前記所定の話者の音声の音声データを学習データとして前記変換手段において変換された音声データと前記所定の話者の音声データとの一致度を示す情報として第2の損失関数を出力するように機械学習されたことが好適である。
【0018】
また、前記変換手段は、前記音声評価手段から出力された前記一致度を示す情報のフィードバックを受けて、前記抽出手段から出力された発話情報から変換された音声データが前記所定の話者の音質の音声データに近づくように機械学習されたことが好適である。
【0019】
本発明の別の態様は、入力音声から音素事後確率又は音素を含む発話情報を抽出する抽出手段と、前記抽出手段から出力された発話情報を音声データに変換する変換手段と、前記変換手段において変換された音声データを音声として出力する音声出力手段と、前記変換手段において変換された音声データと、所定の話者の声質の音声データと、の一致度を評価する音声評価手段と、を備え、前記変換手段は、前記音声評価手段から出力された前記一致度を示す情報のフィードバックを受けて、前記抽出手段から出力された発話情報から変換された音声データが前記所定の話者の音声データに近づくように機械学習されたことを特徴とする音声処理装置である。
【0020】
本発明の別の態様は、コンピュータを、入力音声から音素事後確率又は音素を含む発話情報を抽出する抽出手段と、前記抽出手段から出力された発話情報を音声データに変換する変換手段と、前記変換手段において変換された音声データを音声として出力する音声出力手段と、前記変換手段において変換された音声データと、所定の話者の声質の音声データと、の一致度を評価する音声評価手段と、として機能させ、前記変換手段は、前記音声評価手段から出力された前記一致度を示す情報のフィードバックを受けて、前記抽出手段から出力された発話情報から変換された音声データが前記所定の話者の音声データに近づくように機械学習されたことを特徴とする音声処理プログラムである。
【発明の効果】
【0021】
本発明によれば、任意の話者が発した音声を目標とする話者が発した音声の音質に適切に変換する音声処理装置及び音声処理プログラムを提供することができる。
【図面の簡単な説明】
【0022】
【
図1】本発明の実施の形態における音声処理装置の構成を示す図である。
【
図2】本発明の実施の形態における音声処理装置の構成を示す機能ブロック図である。
【
図3】本発明の実施の形態における発話情報の抽出例を示す図である。
【
図4】本発明の実施の形態における音声処理装置によって生成された音声の特徴を示す図である。
【発明を実施するための形態】
【0023】
本発明の実施の形態における音声処理装置100は、
図1に示すように、処理部10、記憶部12、入力部14、出力部16及び通信部18を含んで構成される。処理部10は、CPU等の演算処理を行う手段を含む。処理部10は、記憶部12に記憶されている音声処理プログラムを実行することによって、本実施の形態における音声変換処理に関する機能を実現する。記憶部12は、半導体メモリやメモリカード等の記憶手段を含む。記憶部12は、処理部10とアクセス可能に接続され、音声処理プログラム、その処理に必要な情報を記憶する。入力部14は、情報を入力する手段を含む。入力部14は、例えば、使用者からの情報の入力を受けるキーボード、タッチパネル、ボタン等を備える。また、入力部14は、任意の話者及び目標となる所定の話者の音声の入力を受ける音声入力手段を備える。音声入力手段は、例えば、マイク、増幅回路等を含む構成とすればよい。出力部16は、管理者から入力情報を受け付けるためのユーザインターフェース画面(UI)や処理結果を出力する手段を含む。出力部16は、例えば、画像を呈示するディスプレイを備える。また、出力部16は、音声処理装置100によって生成された合成音声を出力する音声出力手段を備える。音声出力手段は、例えば、スピーカ、増幅器等を含む構成とすればよい。通信部18は、ネットワーク102を介して、外部端末(図示しない)との情報の通信を行うインターフェースを含んで構成される。通信部18による通信は有線及び無線を問わない。なお、音声処理に供される音声情報は通信部18を介して外部端末から取得してもよい。
【0024】
本実施の形態では、複数の話者が発した音声を所定の話者(目標話者)の音声の音質に変換する音声処理を行う。
図2は、音声処理装置100の構成を示す機能ブロック図である。音声処理装置100は、音声分析部20、抽出部22、発話情報評価器24、パラメータ変換部26、話者照合識別部28及び音声生成部30として機能する。
【0025】
音声分析部20は、音声データを取得する処理を行う。すなわち、音声処理装置100の処理部10は、音声分析部20として機能する。音声データは、入力部14を構成するマイクを用いて話者の音声をデータに変換して取得すればよい。また、通信部18を介して、外部のコンピュータ等に予め記録されている音声データを受信するようにしてもよい。取得された音声データは、記憶部12に記憶される。
【0026】
音声データの取得処理は、任意の話者の発する音声及び目標話者の発する音声の両方について行われる。任意の話者からの音声と目標話者からの音声は、同一の内容(いわゆる、パラレルトレーニングデータ)である必要はない。ただし、任意の話者からの音声と目標話者からの音声が同一の内容(パラレルトレーニングデータ)である場合には音声変換の処理がより適切に行われる可能性が高くなる。
【0027】
また、音声分析部20は、さらに音声処理に必要な音声分析を行う。例えば、音声分析部20は、入力された音声の周波数特性に基づいて音声のケプストラム解析を行い、スペクトルの包絡線(声の太さ等を示す情報)及び微細構造・基本周波数(声の高さ、声のかすれ等を示す情報)を抽出した音声データを求める。
【0028】
抽出部22は、音声データから発話情報を抽出する処理を行う。すなわち、音声処理装置100の処理部10は、音声分析部20から出力された音声データから発話情報を抽出する処理を行うことによって抽出部22として機能する。ここで、発話情報は、音素事後確率(PPG:Phonetic PosteriorGrams)又は音素(Phoneme)を含む情報である。
【0029】
処理部10は、音声データから音素事後確率又は音素を抽出して出力する抽出部22となるように機械学習を行って抽出部22を構成する。より具体的には、時刻に応じて変化する時系列情報である音声データを入力データとして、
図3に例示するような当該音声データの音素事後確率又は音素を抽出して出力するように学習器を学習させる。
図3に示すように、音素事後確率は、時間フレーム毎の音素の確率を示す情報である。
【0030】
例えば、畳み込みニューラルネットワーク(CNN:Convolution Neural Network)を適用して入力音声データから音素事後確率又は音素を抽出して出力する抽出部22を構成する。畳み込みニューラルネットワークは、パーセプトロン同士を全結合させずに結合をうまく制限し、なおかつウェイト共有という手法を使うことで画像の畳み込みに相当するような処理をニューラルネットワークの枠組みの中で表現したものである。また、例えば、再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)を適用して入力音声データから音素事後確率又は音素を抽出して出力する抽出部22を構成してもよい。また、抽出部22には、さらにプーリング層(Pooling)等の他のニューラルネットワークを組み込んでもよい。畳み込みニューラルネットワーク、再帰型ニューラルネットワーク又はこれらの組み合わせに対して活性化関数を適用することが好適である。活性化関数としては、例えば、ReLU、シグモイド関数、ソフトマックス関数、多項式等を適用することができる。
【0031】
また、抽出部22は、後述する発話情報評価器24と組み合わされて敵対的生成ネットワーク(GANs:Generative Adversarial Networks)を構成することが好適である。すなわち、発話情報評価器24から出力された一致度を示す第1の損失関数(発話情報損失関数)のフィードバックを受けて、当該発話情報損失関数を入力データの1つとして当該発話情報損失関数が小さくなるように入力音声から音素事後確率又は音素を含む発話情報を抽出するように抽出部22の機械学習を行うことが好適である。敵対的生成ネットワークを適用することによって、教師なし学習によって抽出部22と発話情報評価器24とを構成することができる。
【0032】
発話情報評価器24は、抽出部22によって生成された発話情報(テスト発話情報)と目標話者からの音声から生成された発話情報(所定発話情報)とを比較して、抽出部22によって生成された発話情報が目標話者からの音声から生成された発話情報であるかを示す発話情報損失関数を出力する処理を行う。すなわち、音声処理装置100の処理部10は、抽出部22によって生成された発話情報と目標話者からの音声から生成された発話情報とを比較して、抽出部22によって生成された発話情報が目標話者からの音声から生成された発話情報であるかを示す発話情報損失関数を出力する処理を行うことによって発話情報評価器24として機能する。
【0033】
発話情報損失関数は、抽出部22によって生成された発話情報が目標話者からの音声から生成された発話情報のいずれかであるかを示す真偽値(例えば、目標話者の音声から生成された発話情報であれば1、目標話者の音声から生成された発話情報でなければ0)であってもよいし、抽出部22によって生成された発話情報が目標話者からの音声から生成された発話情報である確からしさを示す尤度値であってもよい。
【0034】
処理部10は、抽出部22によって生成された発話情報と目標話者からの音声から予め生成された発話情報とを入力データとして、抽出部22によって生成された発話情報が目標話者からの音声から生成された発話情報であるかを示す発話情報損失関数を出力するように機械学習を行って発話情報評価器24を構成する。具体的には、畳み込みニューラルネットワーク(Conv:Convolution Neural Network)を含んで構成することができる。畳み込みニューラルネットワーク層は、パーセプトロン同士を全結合させずに結合をうまく制限し、なおかつウェイト共有という手法を使うことで画像の畳み込みに相当するような処理をニューラルネットワークの枠組みの中で表現した層である。また、例えば、再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)を適用して発話情報評価器24を構成してもよい。また、発話情報評価器24には、さらにプーリング層(Pooling)等の他のニューラルネットワークを組み込んでもよい。畳み込みニューラルネットワーク、再帰型ニューラルネットワーク又はこれらの組み合わせに対して活性化関数を適用することが好適である。活性化関数としては、例えば、ReLU、シグモイド関数、ソフトマックス関数、多項式等を適用することができる。
【0035】
パラメータ変換部26は、抽出部22で生成された発話情報を入力データとして目標話者の音声データを生成する処理を行う。すなわち、音声処理装置100の処理部10は、抽出部22で生成された音素事後確率(PPG:Phonetic PosteriorGrams)又は音素(Phoneme)を含む発話情報から音声データを再構築する処理を行うことによってパラメータ変換部26として機能する。
【0036】
処理部10は、入力された発話情報に含まれる音素事後確率又は音素の時系列情報に基づいて目標話者の声質の音声データを生成するように機械学習を行ってパラメータ変換部26を構成する。例えば、畳み込みニューラルネットワーク(CNN:Convolution Neural Network)を適用して発話情報から目標話者の声質を有する音声の音声データを生成して出力するパラメータ変換部26を構成する。畳み込みニューラルネットワークは、パーセプトロン同士を全結合させずに結合をうまく制限し、なおかつウェイト共有という手法を使うことで画像の畳み込みに相当するような処理をニューラルネットワークの枠組みの中で表現したものである。また、例えば、再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)を適用してパラメータ変換部26を構成してもよい。また、パラメータ変換部26には、さらにプーリング層(Pooling)等の他のニューラルネットワークを組み込んでもよい。畳み込みニューラルネットワーク、再帰型ニューラルネットワーク又はこれらの組み合わせに対して活性化関数を適用することが好適である。活性化関数としては、例えば、ReLU、シグモイド関数、ソフトマックス関数、多項式等を適用することができる。
【0037】
また、パラメータ変換部26は、後述する話者照合識別部28と組み合わされて敵対的生成ネットワーク(GANs:Generative Adversarial Networks)を構成することが好適である。すなわち、話者照合識別部28から出力された一致度を示す第2の損失関数(音声損失関数)のフィードバックを受けて、当該音声損失関数を入力データの1つとして当該音声損失関数が小さくなるように音素事後確率又は音素の時系列情報に基づいて目標話者の声質の音声データを生成するようにパラメータ変換部26の機械学習を行うことが好適である。敵対的生成ネットワークを適用することによって、教師なし学習によってパラメータ変換部26と話者照合識別部28とを構成することができる。
【0038】
話者照合識別部28は、パラメータ変換部26によって生成された音声データと目標話者の音声から直接生成された音声データとを比較して、パラメータ変換部26によって生成された音声データが目標話者からの音声から生成された音声データであるかを示す音声損失関数を出力する処理を行う。すなわち、音声処理装置100の処理部10は、パラメータ変換部26によって生成された音声データと目標話者の音声から生成された音声データとを比較して、パラメータ変換部26によって生成された音声データが目標話者の音声データとの一致度を示す音声損失関数を出力する処理を行うことによって話者照合識別部28として機能する。
【0039】
音声損失関数は、パラメータ変換部26によって生成された音声データが目標話者の音声から生成された音声データであるか否かを示す真偽値(例えば、目標話者の音声データであれば1、目標話者の音声データでなければ0)であってもよいし、パラメータ変換部26によって生成された音声データが目標話者の音声データである確からしさを示す尤度値であってもよい。
【0040】
処理部10は、パラメータ変換部26によって生成された音声データと目標話者の音声から予め抽出された音声データとを入力データとして、パラメータ変換部26によって生成された音声データが目標話者の音声から抽出された音声データであるかを示す音声損失関数を出力するように機械学習を行って話者照合識別部28を構成する。具体的には、畳み込みニューラルネットワーク(Conv:Convolution Neural Network)を含んで構成することができる。畳み込みニューラルネットワーク層は、パーセプトロン同士を全結合させずに結合をうまく制限し、なおかつウェイト共有という手法を使うことで画像の畳み込みに相当するような処理をニューラルネットワークの枠組みの中で表現した層である。また、例えば、再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)を適用して話者照合識別部28を構成してもよい。また、話者照合識別部28には、さらにプーリング層(Pooling)等の他のニューラルネットワークを組み込んでもよい。畳み込みニューラルネットワーク、再帰型ニューラルネットワーク又はこれらの組み合わせに対して活性化関数を適用することが好適である。活性化関数としては、例えば、ReLU、シグモイド関数、ソフトマックス関数、多項式等を適用することができる。
【0041】
音声生成部30は、パラメータ変換部26によって生成された音声データを音声に変換して出力する。パラメータ変換部26は、話者照合識別部28との敵対的生成ネットワーク(GANs)によって抽出部22において抽出された発話情報を目標話者の声質の音声データに変換するように学習されているので、音声生成部30で生成される音声は目標話者の声質をもつ音声となる。
【0042】
図4は、自然音声、従来技術によって生成された音声及び本発明の実施の形態における音声処理装置100によって生成された音声のメルケプストラム係数の23次元と25次元の相関を示す。音声のメルケプストラム係数の23次元及び25次元は、音声の声質に大きな影響を及ぼす高音領域の特徴を表わすが、本発明の実施の形態における音声処理装置100によって生成された音声は、従来技術によって生成された音声に比べて自然音声に近い特徴を有している。
【0043】
以上のように、本実施の形態の音声処理装置100によれば、任意の話者が発した音声を目標とする話者が発した音声の音質に適切に変換する音声処理装置及び音声処理プログラムを提供することができる。
【符号の説明】
【0044】
10 処理部、12 記憶部、14 入力部、16 出力部、18 通信部、20 音声分析部、22 抽出部、24 発話情報評価器、26 パラメータ変換部、28 話者照合識別部、30 音声生成部、100 音声処理装置、102 ネットワーク。