(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-04
(45)【発行日】2023-12-12
(54)【発明の名称】なりすまし検出装置、なりすまし検出方法、及びプログラム
(51)【国際特許分類】
G10L 17/00 20130101AFI20231205BHJP
G10L 17/02 20130101ALI20231205BHJP
【FI】
G10L17/00 200C
G10L17/02
(21)【出願番号】P 2021576631
(86)(22)【出願日】2019-06-28
(86)【国際出願番号】 JP2019025893
(87)【国際公開番号】W WO2020261552
(87)【国際公開日】2020-12-30
【審査請求日】2021-12-23
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】110002044
【氏名又は名称】弁理士法人ブライタス
(72)【発明者】
【氏名】ワン チョンチョン
(72)【発明者】
【氏名】リー コン エイク
(72)【発明者】
【氏名】越仲 孝文
【審査官】中村 天真
(56)【参考文献】
【文献】米国特許出願公開第2018/0254046(US,A1)
【文献】米国特許出願公開第2016/0196343(US,A1)
【文献】LIU Meng et al., REPLAY ATTACK DETECTION USING MAGNITUDE AND PHASE INFORMATION WITH ATTENTION-BASED ADAPTIVE FILTERS,ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP),2019年04月17日,pp. 6201-6205
【文献】MUCKENHIRN Hannah et al.,Long-Term Spectral Statistics for Voice Presentation Attack Detection,IEEE/ACM Transactions on Audio, Speech,and Language Processing,Vol. 25,2017年08月23日,pp. 2098-2111
(58)【調査した分野】(Int.Cl.,DB名)
G10L 17/00-17/26
G06N 3/00-3/126
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
音声データからCQTスペクトログラム及びFFTスペクトログラムを抽出し、抽出した
前記CQTスペクトログラム及び前記FFTスペクトログラムを積み重ねることによって、これらを統合して、マルチチャネルスペクトログラムを生成する、マルチチャネルスペクトログラム生成手段と、
ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築された分類器に、生成された前記マルチチャネルスペクトログラムを適用して、生成された前記マルチチャネルスペクトログラムに対する評価を行い、生成された前記マルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する、評価手段と、
を備えている、ことを特徴とする、なりすまし検出装置。
【請求項2】
請求項1に記載のなりすまし検出装置であって、
前記マルチチャネルスペクトログラム生成手段に、サンプルとなる音声データから、マルチチャネルスペクトログラムを生成させ、そして、生成されたマルチチャネルスペクトログラムと、前記音声データに対応するラベルとを、訓練データとして用いて、分類器を構築する、分類器訓練手段を、
更に備えている、
ことを特徴とする、なりすまし検出装置。
【請求項3】
請求項1に記載のなりすまし検出装置であって、
前記マルチチャネルスペクトログラム生成手段が、前記マルチチャネルスペクトログラムを生成する前に、前記CQTスペクトログラム及び前記FFTスペクトログラムを同じサイズへとリサンプリングする、
ことを特徴とする、なりすまし検出装置。
【請求項4】
請求項1に記載のなりすまし検出装置であって、
前記マルチチャネルスペクトログラム生成手段が、前記マルチチャネルスペクトログラムを生成する前に、前記CQTスペクトログラム及び前記FFTスペクトログラムを同じサイズへとゼロ埋めする、
ことを特徴とする、なりすまし検出装置。
【請求項5】
(a)音声データからCQTスペクトログラム及びFFTスペクトログラムを抽出し、抽出した
前記CQTスペクトログラム及び前記FFTスペクトログラムを積み重ねることによって、これらを統合して、マルチチャネルスペクトログラムを生成する、ステップと、
(b)ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築された分類器に、生成された前記マルチチャネルスペクトログラムを適用して、生成された前記マルチチャネルスペクトログラムに対する評価を行い、生成された前記マルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する、ステップと、
を有する、ことを特徴とする、なりすまし検出方法。
【請求項6】
コンピュータに、
(a)音声データからCQTスペクトログラム及びFFTスペクトログラムを抽出し、抽出した
前記CQTスペクトログラム及び前記FFTスペクトログラムを積み重ねることによって、これらを統合して、マルチチャネルスペクトログラムを生成する、ステップと、
(b)ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築された分類器に、生成された前記マルチチャネルスペクトログラムを適用して、生成された前記マルチチャネルスペクトログラムに対する評価を行い、生成された前記マルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する、ステップと、
を実行させる、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声からなりすましを検出するための、なりすまし検出装置、なりすまし検出方法、及びこれらを実現するためのプログラムに関する。
【背景技術】
【0002】
話者認識では、人の声から人物を認識する。自動話者認識(ASV)は、個人認証において、フレキシブルなバイオメトリックソリューションを提供する。自動話者認識は、テレフォンバンキング及びコールセンタといった電話ベースのサービス、法医学、多くのマスマーケットにおける消費者向け製品において、適用される機会が増えている。
【0003】
但し、ASVテクノロジの適用可能性は、なりすましとして知られる意図的な迂回に対するレジレンスによる。他のバイオメトリック技術と同様に、ASVはなりすましに対して脆弱である。ASVに関わる、よく知られているなりすまし攻撃には、なりすまし、再生、テキスト読み上げ、音声合成、音声変換などがある(例えば非特許文献1参照)。詐欺師は、なりすまし攻撃を利用して、バイオメトリックテクノロジを用いて保護されたシステム又はサービスに侵入できる。
【0004】
従って、バイオメトリック認証におけるASVの有用性を保証するために、なりすまし防止テクノロジが必要となる。混合ガウスモデル(GMM: Gaussian Mixture Model)による定数Qケプストラム係数(CQCC:Constant Q Cepstral coefficient)機能は、ASVでのなりすまし検出のための標準システムである。近年、ディープニューラルネットワーク(DNN)、特に畳み込みニューラルネットワーク(CNN)と共に、CQCC機能が抽出される定数Q変換(CQT:constant Q transform)スペクトログラムを直接使用することによって、より高い精度が達成されている。
【先行技術文献】
【非特許文献】
【0005】
【文献】Galina Lavrentyeva, et al. “Audio replay attack detection with deep learning frameworks”, INTERSPEECH 2017, August 20-24, 2017.
【発明の概要】
【発明が解決しようとする課題】
【0006】
CQTは、時間領域信号x(n)を時間周波数領域に変換して、各周波数ビンの中心周波数が幾何学的に離れ、且つ、品質係数Q、すなわち各ウィンドウの帯域幅に対する中心周波数の比が一定に保たれるようにする。従って、CQTは低周波数ではより優れた周波数分解能を、高周波数ではより優れた時間分解能を有する。CQTは、人間の聴覚システムにおける解像度を反映しており、なりすましの検出に適していると考えられる。
【0007】
しかしながら、高解像度又は低解像度の設定では、特に、評価の条件が、訓練データと異なる場合に、誤認識が生じることがある。
【0008】
本発明の目的の一例は、上記問題を解決し、話者のなりすまし検出において、音声から得られる複数種類のスペクトログラムを用いて、誤認識の発生を抑制し得る、なりすまし検出装置、なりすまし検出方法、及びプログラムを提供することにある。
【課題を解決するための手段】
【0009】
上記目的を達成するため、本発明の一側面における、なりすまし検出装置は、
音声データから種類の異なる複数のスペクトログラムを抽出し、抽出した複数のスペクトログラムを統合して、マルチチャネルスペクトログラムを生成する、マルチチャネルスペクトログラム生成手段と、
ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築された分類器に、生成された前記マルチチャネルスペクトログラムを適用して、生成された前記マルチチャネルスペクトログラムに対する評価を行い、生成された前記マルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する、評価手段と、
を備えている、ことを特徴とする。
【0010】
上記目的を達成するため、本発明の一側面における、なりすまし検出方法は、
(a)音声データから種類の異なる複数のスペクトログラムを抽出し、抽出した複数のスペクトログラムを統合して、マルチチャネルスペクトログラムを生成する、ステップと、
(b)ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築された分類器に、生成された前記マルチチャネルスペクトログラムを適用して、生成された前記マルチチャネルスペクトログラムに対する評価を行い、生成された前記マルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する、ステップと、
を有する、ことを特徴とする。
【0011】
上記目的を達成するため、本発明の一側面における、プログラムは、
コンピュータに、
(a)音声データから種類の異なる複数のスペクトログラムを抽出し、抽出した複数のスペクトログラムを統合して、マルチチャネルスペクトログラムを生成する、ステップと、
(b)ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築された分類器に、生成された前記マルチチャネルスペクトログラムを適用して、生成された前記マルチチャネルスペクトログラムに対する評価を行い、生成された前記マルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する、ステップと、
を実行させる、
ことを特徴とする。
【発明の効果】
【0012】
以上のように本発明によれば、話者のなりすまし検出において、音声から得られる複数種類のスペクトログラムを用いて、誤認識の発生を抑制することができる。
【図面の簡単な説明】
【0013】
図面は、詳細な説明とともに、本発明のなりすまし検出方法の原理を説明するのに役立つ。図面は説明のためのものであり、技術の適用を制限するものではない。
【
図1】
図1は、本発明の実施の形態における、なりすまし検出装置の構成を概略的に示すブロック図である。
【
図2】
図2は、本発明の実施の形態における、なりすまし検出装置の詳細構成を示すブロック図である。
【
図3】
図3は、本発明の実施の形態における、マルチチャネルスペクトログラム生成部の一例を示すブロック図である。
【
図4】
図4は、本発明の実施の形態における、マルチチャネルスペクトログラム生成部の他の例を示すブロック図である。
【
図5】
図5は、本発明の実施の形態における、なりすまし検出装置の動作のフェーズを示す図であり、
図5(a)は訓練フェーズを示し、
図5(b)はなりすまし検出フェーズを示している。
【
図6】
図6は、本発明の実施の形態における、なりすまし検出装置の全体の動作の一例を示すフロー図である。
【
図7】
図7は、本発明の実施の形態における、なりすまし検出装置の訓練フェーズの特定の動作を示すフロー図である。
【
図8】
図8は、本発明の実施の形態における、なりすまし検出フェーズの特定の動作を示すフロー図である。
【
図9】
図9は、本発明の実施の形態における、マルチチャネルスペクトログラム生成部の動作の一例を示すフロー図である。
【
図10】
図10は、本発明の実施の形態における、マルチチャネルスペクトログラム生成部の動作の他の例を示すフロー図である。
【
図11】
図11は、本発明の実施の形態における、なりすまし検出装置を実現するコンピュータの一例を示すブロック図である。
【発明を実施するための形態】
【0014】
以下、本発明の各実施の形態について図面を参照しながら説明する。以下の詳細な説明は、本質的に例示に過ぎず、本発明または本発明の用途および使用を限定することを意図するものではない。更に、本発明の上述の背景又は以下の詳細な説明に提示されたいかなる理論によっても拘束されることを意図するものではない。
【0015】
(発明の概要)
本発明は、CQTと高速フーリエ変換(FFT)スペクトログラムとの融合をニューラルネットワークにおけるマルチチャネル入力として機能させて、互いに補完し、且つ、スプーフィング検出システムの頑健性を保証するようにすることである。
【0016】
本発明によれば、本発明のなりすまし検出装置、方法、およびプログラムは、なりすまし検出のための音声発話のより正確でロバストな表現を提供することができる。これは、本発明が、マルチチャネルスペクトログラムとしての複数のスペクトログラムの新しい融合を提供し、それによってDNNがすべてのスペクトログラムから有効な情報を自動的に学習することができるためである。
【0017】
(実施の形態)
以下、図面を参照しながら、本発明の実施の形態について詳細に説明する。
【0018】
[装置構成]
最初に、実施の形態における、なりすまし検出装置100の構成について
図1を用いて説明する。
図1は、本発明の実施の形態における、なりすまし検出装置の構成を概略的に示すブロック図である。
【0019】
図1に示すように、実施の形態における、なりすまし検出装置は、マルチチャネルスペクトログラム生成部10と、評価部40と、を備えている。マルチチャネルスペクトログラム生成部10は、音声データから種類の異なる複数のスペクトログラムを抽出する。また、マルチチャネルスペクトログラム生成部10は、種類の異なる複数のスペクトログラムを統合して、マルチチャネルスペクトログラムを生成する。
【0020】
評価部は、生成されたマルチチャネルスペクトログラムを分類器に適用することによって、生成されたマルチチャネルスペクトログラムに対する評価を行う。分類器は、ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築されている。評価部は、生成されたマルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する。
【0021】
このように、本実施の形態では、複数種類のスペクトログラムを統合して得られたマルチチャネルスペクトログラムが、分類器に適用されて評価が行われる。このため、本実施の形態によれば、話者認識でのなりすまし検出において、誤認識の発生が抑制される。
【0022】
続いて、
図2から
図4を用いて、実施の形態における、なりすまし検出装置の構成をより具体的に説明する。
図2は、本発明の実施の形態における、なりすまし検出装置の詳細構成を示すブロック図である。
【0023】
図2に示すように、本実施の形態では、なりすまし検出装置100は、上述したマルチチャネルスペクトログラム生成部10及び評価部40に加えて、分類器訓練部20と、記憶部30とを更に備えている。
【0024】
上述したように、マルチチャネルスペクトログラム生成部10は、入力された音声データ毎にマルチチャネルスペクトログラムを生成する。ここで、マルチチャネルスペクトログラム生成部10の構成について、
図3及び
図4を用いて詳細に説明する。
【0025】
図3は、本実施の形態に係るマルチチャネルスペクトログラム生成部の一例を示すブロック図である。
図3において、マルチチャネルスペクトログラム生成部10は、CQT抽出部11と、FFT抽出部12と、リサンプリング部13aと、リサンプリング部13bと、スペクトログラムスタッキング部14とを備えている。
【0026】
CQT抽出部11は、入力音声データから、CQTスペクトログラムを抽出する。FFT抽出部12は、入力音声データからFFTスペクトログラムを抽出する。同じ音声データのFFTスペクトログラムとCQTスペクトログラムとは、それらの抽出パラメータを制御することによって同じ数のフレーム(時間における次元と呼ばれる)を有する。
【0027】
FFTスペクトログラムとCQTスペクトログラムとの周波数の次元は、しばしば互いに異なっている。リサンプリング部13aは、周波数の次元が指定された数と同数となるように、CQTスペクトログラムをリサンプリングする。リサンプリング部13bは、周波数の次元が指定された数と同数となるようにFFTスペクトログラムをリサンプリングする。指定される数は、抽出されたCQTスペクトログラム又はFFTスペクトログラムのいずれかの周波数の次元と同数であっても良い。この場合、周波数の次元が指定された数と同数である、抽出済のスペクトログラムは、リサンプリング部を通過しない。スペクトログラムスタッキング部14は、リサンプリング部13a及び13bからの同じサイズのスペクトログラムを2チャンネルのスペクトログラムに重ねて出力する。
【0028】
図4は、本発明の実施の形態における、マルチチャネルスペクトログラム生成部の他の例を示すブロック図である。
図4において、マルチチャネルスペクトログラム生成部10は、CQT抽出部11と、FFT抽出部と、ゼロ埋め部15aと、ゼロ埋め部15bと、スペクトログラムスタッキング部14とを備えている。
【0029】
CQT抽出部11は、入力音声データからCQTスペクトログラムを抽出する。FFT抽出部12は、入力音声データから、FFTスペクトログラムを抽出する。FFTスペクトログラムとCQTスペクトログラムとは、それらの抽出パラメータを制御することによって同じ数のフレームを有する。
【0030】
FFTスペクトログラムとCQTスペクトログラムの周波数サンプルの数は、多くの場合、互いに異なっている。ゼロ埋め部15aは、周波数における次元が指定された数と同じになるように、CQTスペクトログラムにゼロ埋め、即ち、追加のゼロ要素の配置を行う。ゼロ埋め部15bは、周波数における次元が指定された数と同じになるように、FFTスペクトログラムにゼロ埋めを行う。指定された数は、抽出されたCQTスペクトログラム又はFFTスペクトログラムのいずれかの周波数における次元と同じであっても良い。その場合、周波数における次元が指定された数と同数である、抽出済のスペクトログラムは、ゼロ埋め部を通過しない。スペクトログラムスタッキング部14は、ゼロ埋め部15a及び15bからのリサンプリングされたスペクトログラムを2チャネルスペクトログラムに重ねて出力する。
【0031】
本実施の形態におけるなりすまし検出装置の動作には、訓練フェーズと、なりすまし検出フェーズとの2つフェーズがある。
図5は、本発明の実施の形態におけるなりすまし検出装置の動作のフェーズを示す図であり、
図5(a)は訓練フェーズを示し、
図5(b)はなりすまし検出フェーズを示している。
【0032】
図5に示すように、訓練フェーズでは、分類器訓練部20は、マルチチャネルスペクトログラム生成部10に、サンプルとなる音声データから、マルチチャネルスペクトログラムを生成させる。そして、分類器訓練部20は、生成されたマルチチャネルスペクトログラムと、元の音声データに対応するラベルとを、訓練データとして用いて、分類器を構築する。分類器訓練部20は、構築した分類器のパラメータを、記憶部30に格納する。詳細を以下に示す。
【0033】
図5(a)に示す訓練フェーズでは、
図2又は
図3に示すマルチチャネルスペクトログラム生成部10によってマルチチャネルスペクトログラムが生成された後、マルチチャネルスペクトログラムは、それらが対応する「本物」又は「なりすまし」のラベルと共に、訓練データとして、分類器訓練部20に入力される。分類器訓練部20は、分類器を訓練し、学習された分類器のパラメータを、記憶部30に格納する。例えば、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)は、分類器の1つである。分類器訓練部20は、記憶部30内のCNNのパラメータを計算する。
【0034】
CNN分類器の一例では、CNNは、1つの入力層、1つの出力層、および複数の隠れ層を有する。出力層は2つのノード、即ち、「本物」ノードと「なりすまし」ノードとを含む。このようなCNN分類器を訓練するために、分類器訓練部20は、マルチチャネルスペクトログラム生成部10からのマルチチャネルスペクトログラムを入力層に渡す。
【0035】
分類器訓練部20は、また、「本物」又は「なりすまし」のラベルを、CNNの出力層に渡す。ここで、「本物」及び「なりすまし」は、それぞれ、[0、1]及び[1、0]といった2次元ベクトルの形式で出力層に提示される。そして、分類器訓練部20は、CNNを訓練して、隠れ層のパラメータを取得し、それらを記憶部30に格納する。
【0036】
出力ノードの数は1に設定されていても良く、出力は訓練データが「なりすまし」であるかどうかを示す。この場合、「本物」と「なりすまし」とは、それぞれスカラー0と1として表される。
【0037】
図5(b)に示す、なりすまし検出フェーズにおいて、マルチチャネルスペクトログラム生成部10は、入力されたテスト音声データに対してマルチチャネルスペクトログラムを生成する。
図3及び
図4における、マルチチャネルスペクトログラム生成部10の2つの例は、訓練フェーズにおけるものと同じである。評価部40は、パラメータが記憶部30に格納されている訓練済の分類器に従って、マルチチャネルスペクトログラム生成部10からの、テスト音声データのマルチチャネルスペクトログラムを評価し、なりすましスコアを出力する。なりすましスコアは、予め設定された閾値と比較される。なりすましスコアが閾値より大きい場合、テストデータは「なりすまし」スピーチとして評価され、そうでない場合は「本物の」スピーチとして評価される。
【0038】
CNN分類器の例では、評価部40は、分類器の記憶部30から、CNNの隠れ層のパラメータを読み取る。評価部40は、マルチチャネルスペクトログラム生成部10からのマルチチャネルスペクトログラムを入力層に渡す。評価部40は、出力層における事後的な「なりすまし」ノードをスコアとして取得する。
【0039】
[装置動作]
図6から
図10を用いて、本発明の実施の形態におけるなりすまし検出装置100によって実行される処理について説明する。
図1~
図5は、必要に応じて、以下の説明で参照される。また、実施の形態では、なりすまし検出方法は、なりすまし検出装置を動作させることによって実行される。従って、なりすまし検出装置100によって実行される以下の動作の説明は、実施の形態におけるなりすまし検出方法の説明に代える。
【0040】
図6を用いて、本実施の形態におけるなりすまし検出装置100の動作の全体について説明する。
図6は、本発明の実施の形態における、なりすまし検出装置の全体の動作の一例を示すフロー図である。
図6に示すように、なりすまし検出装置100の全体の動作は、訓練フェーズ(ステップA01)の動作と、なりすまし検出フェーズ(ステップA02)の動作と、を含む。但し、これは一例であり、訓練の動作となりすまし検出の動作とは連続して実行されても良いし、時間間隔が挿入されていても良いし、更には、なりすまし検出の動作は、他の訓練の動作と一緒に実行されていても良い。
【0041】
まず、
図6に示すように、なりすまし検出装置100は、訓練フェーズを実行する。訓練フェーズにおいて、マルチチャネルスペクトログラム生成部10は、入力された音声データ毎に、マルチチャネルスペクトログラムを生成する。分類器訓練部20は、分類器を訓練し、分類器のパラメータを、分類器のパラメータのストレージである記憶部30に格納する(ステップA01)。
【0042】
次に、なりすまし検出装置100は、なりすまし検出フェーズを実行する。なりすまし検出フェーズにおいて、マルチチャネルスペクトログラム生成部10は、入力されたテスト音声データ毎に、マルチチャネルスペクトログラムを生成し、生成したマルチチャネルスペクトログラムを、評価部40に入力する(ステップA02)。
【0043】
図7を用いて、訓練フェーズについて具体的に説明する。
図7は、本発明の実施の形態における、なりすまし検出装置の訓練フェーズの特定の動作を示すフロー図である。
【0044】
まず、
図7に示すように、マルチチャネルスペクトログラム生成部10は、音声データを読み込む(ステップB01)。そして、マルチチャネルスペクトログラム生成部10は、入力された音声データから、マルチチャネルスペクトログラムを生成する(ステップB02)。
【0045】
次に、分類器訓練部20は、対応するラベル「本物/なりすまし」を読み込む(ステップB03)。分類器訓練部20は、分類器を訓練する(ステップB04)。最後に、分類器訓練部20は、訓練された分類器のパラメータを、記憶部30に格納する(ステップB05)。
【0046】
図8を用いて、なりすまし検出フェーズについて具体的に説明する。
図8は、本発明の実施の形態における、なりすまし検出フェーズの特定の動作を示すフロー図である。
【0047】
まず、評価部40は、訓練フェーズで記憶部30に格納されている、分類器のパラメータを読み込む(ステップC01)。次に、マルチチャネルスペクトログラム生成部10は、入力された音声データを読み込む(ステップC02)。そして、マルチチャネルスペクトログラム生成部10は、入力された音声データから、マルチチャネルスペクトログラムを生成する(ステップC03)。その後、評価部40は、なりすましスコアを取得する(ステップC04)。
【0048】
マルチチャネルスペクトログラム生成部10は、
図3及び
図4に示したように、2つの例を有する。それらの具体的な動作は、それぞれ
図9及び
図10のフロー図に示される。
【0049】
図9は、本発明の実施の形態における、マルチチャネルスペクトログラム生成部(
図3参照)の動作の一例を示すフロー図である。訓練フェーズとなりすまし検出フェーズとの両方の入力に対して、CQT抽出部11は、CQTスペクトログラムを抽出し(ステップD01)、FFT抽出部12は、FFTスペクトログラムを抽出する(ステップD02)。
【0050】
次に、リサンプリング部13aは、周波数における次元が指定された次元と同数となるように、CQTスペクトログラムをリサンプリングする(ステップD03)。次に、リサンプリング部13bは、周波数における次元が指定された次元と同数となるように、FFTスペクトログラムをリサンプリングする(ステップD04)。最後に、スペクトログラムスタッキング部14は、リサンプルしたCQTスペクトログラムとFFTスペクトログラムとを重ねる(ステップD05)。
【0051】
図10は、本発明の実施の形態における、マルチチャネルスペクトログラム生成部(
図4参照)の動作の他の例を示すフロー図である。訓練フェーズとなりすまし検出フェーズとの両方の入力に対して、CQT抽出部11は、CQTスペクトログラムを抽出し(ステップE01)、FFT抽出部12がFFTスペクトログラムを抽出する(ステップE02)。
【0052】
次に、ゼロ埋め部15aは、周波数における次元が指定された次元と同数となるように、CQTスペクトログラムにゼロ埋めを行う(ステップE03)。ゼロ埋め部15bは、周波数における次元が指定された次元と同数となるように、FFTスペクトログラムにゼロ埋めを行う(ステップE04)。最後に、スペクトログラムスタッキング部14は、ゼロ埋めされたCQTスペクトログラムとFFTスペクトログラムとを重ねる(ステップE05)。
【0053】
[実施の形態における効果]
本実施の形態では、種類の異なるスペクトログラム、例えば、FFT及びCQTが、互いに補完するように、マルチチャネル3次元スペクトログラムに融合される。本実施の形態によれば、人間の聴覚システムの解像度を反映するCQTの利点を得るだけでなく、堅牢性の欠如という問題を解決できる。従って、本実施の形態は、なりすまし検出のための音声発話のより正確でロバストな表現を提供することができる。
【0054】
[変形例]
本発明の他の例について、上記と同じブロック図(
図1及び
図2)とフロー図(
図6~
図8)を用いて説明する。本変形例では、マルチチャネルスペクトログラム生成部10は、種類の異なるスペクトログラムを、それらを積み重ねるのではなく、それらを連結し、これによってマルチチャネルスペクトログラムを生成する。また、本変形例では、FFT及びCQTなどの抽出されたスペクトログラムは、それらのサイズを変えることなく直接使用される。
【0055】
[プログラム]
実施の形態におけるプログラムは、コンピュータに、
図6に示すステップA01及びA02、
図7に示すステップB01~B05、そして
図8に示すステップC01~C04を実行させるプログラムであれば良い。本実施の形態におけるプログラムをコンピュータにインストールし、実行することによって、本実施の形態における、なりすまし検出装置100となりすまし検出方法とが実現される。この場合、コンピュータのプロセッサは、マルチチャネルスペクトログラム生成部10、分類器訓練部20、及び評価部40として機能し、処理を行なう。
【0056】
本実施の形態におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、マルチチャネルスペクトログラム生成部10、分類器訓練部20、及び評価部40のいずれかとして機能しても良い。
【0057】
[物理構成]
ここで、実施の形態におけるプログラムを実行することによって、なりすまし検出装置を実現するコンピュータについて
図11を用いて説明する。
図11は、本発明の実施の形態における、なりすまし検出装置を実現するコンピュータの一例を示すブロック図である。
【0058】
図11に示すように、コンピュータ110は、CPU(Central Processing Unit)111と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダ/ライタ116と、通信インターフェイス117とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。コンピュータ110は、CPU111に加えて、又はCPU111に代えて、GPU(Graphics Processing Unit)、又はFPGA(Field-Programmable Gate Array)を備えていても良い。
【0059】
CPU111は、記憶装置113に格納された、実施の形態におけるプログラム(コード群)をメインメモリ112に展開し、各コードを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。また、実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであっても良い。
【0060】
また、記憶装置113の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス114は、CPU111と、キーボード及びマウスといった入力機器118との間のデータ伝送を仲介する。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置119での表示を制御する。
【0061】
データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ110における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と、他のコンピュータとの間のデータ伝送を仲介する。
【0062】
また、記録媒体120の具体例としては、CF(Compact Flash(登録商標))及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記録媒体、又はCD-ROM(Compact Disk Read Only Memory)などの光学記録媒体が挙げられる。
【0063】
本実施の形態における、なりすまし検出装置100は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。更に、なりすまし検出装置100は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていてもよい。
【0064】
上述した実施の形態の一部又は全部は、以下に記載する(付記1)~(付記21)によって表現することができるが、以下の記載に限定されるものではない。
【0065】
(付記1)
音声データから種類の異なる複数のスペクトログラムを抽出し、抽出した複数のスペクトログラムを統合して、マルチチャネルスペクトログラムを生成する、マルチチャネルスペクトログラム生成手段と、
ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築された分類器に、生成された前記マルチチャネルスペクトログラムを適用して、生成された前記マルチチャネルスペクトログラムに対する評価を行い、生成された前記マルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する、評価手段と、
を備えている、ことを特徴とする、なりすまし検出装置。
【0066】
(付記2)
付記1に記載のなりすまし検出装置であって、
前記マルチチャネルスペクトログラム生成手段に、サンプルとなる音声データから、マルチチャネルスペクトログラムを生成させ、そして、生成されたマルチチャネルスペクトログラムと、前記音声データに対応するラベルとを、訓練データとして用いて、分類器を構築する、分類器訓練手段を、
更に備えている、
ことを特徴とする、なりすまし検出装置。
【0067】
(付記3)
付記1又は2に記載のなりすまし検出装置であって、
前記マルチチャネルスペクトログラム生成手段が、種類の異なるスペクトログラムを積み重ねることによって、これらを統合する、
ことを特徴とする、なりすまし検出装置。
【0068】
(付記4)
付記1又は2に記載のなりすまし検出装置であって、
前記マルチチャネルスペクトログラム生成手段が、種類の異なるスペクトログラムを連結することによって、これらを統合する、
ことを特徴とする、なりすまし検出装置。
【0069】
(付記5)
付記1から4のいずれかに記載のなりすまし検出装置であって、
前記マルチチャネルスペクトログラム生成手段が、前記マルチチャネルスペクトログラムを生成する前に、種類の異なるスペクトログラムを同じサイズへとリサンプリングする、
ことを特徴とする、なりすまし検出装置。
【0070】
(付記6)
付記1から4のいずれかに記載のなりすまし検出装置であって、
前記マルチチャネルスペクトログラム生成手段が、前記マルチチャネルスペクトログラムを生成する前に、種類の異なるスペクトログラムを同じサイズへとゼロ埋めする、
ことを特徴とする、なりすまし検出装置。
【0071】
(付記7)
付記1から6のいずれかに記載のなりすまし検出装置であって、
種類の異なるスペクトログラムは、FFTスペクトログラム、及びCQTスペクトログラムを含む、
ことを特徴とする、なりすまし検出装置。
【0072】
(付記8)
(a)音声データから種類の異なる複数のスペクトログラムを抽出し、抽出した複数のスペクトログラムを統合して、マルチチャネルスペクトログラムを生成する、ステップと、
(b)ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築された分類器に、生成された前記マルチチャネルスペクトログラムを適用して、生成された前記マルチチャネルスペクトログラムに対する評価を行い、生成された前記マルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する、ステップと、
を有する、ことを特徴とする、なりすまし検出方法。
【0073】
(付記9)
付記8に記載のなりすまし検出方法であって、
(c)マルチチャネルスペクトログラム生成手段に、サンプルとなる音声データから、マルチチャネルスペクトログラムを生成させ、そして、生成されたマルチチャネルスペクトログラムと、前記音声データに対応するラベルとを、訓練データとして用いて、分類器を構築する、ステップを更に有する、
ことを特徴とする、なりすまし検出方法。
【0074】
(付記10)
付記8又は9に記載のなりすまし検出方法であって、
前記(a)のステップにおいて、種類の異なるスペクトログラムを積み重ねることによって、これらを統合する、
ことを特徴とする、なりすまし検出方法。
【0075】
(付記11)
付記8又は9に記載のなりすまし検出方法であって、
前記(a)のステップにおいて、種類の異なるスペクトログラムを連結することによって、これらを統合する、
ことを特徴とする、なりすまし検出方法。
【0076】
(付記12)
付記8から11のいずれかに記載のなりすまし検出方法であって、
前記(a)のステップにおいて、前記マルチチャネルスペクトログラムを生成する前に、種類の異なるスペクトログラムを同じサイズへとリサンプリングする、
ことを特徴とする、なりすまし検出方法。
【0077】
(付記13)
付記8から11のいずれかに記載のなりすまし検出方法であって、
前記(a)のステップにおいて、前記マルチチャネルスペクトログラムを生成する前に、種類の異なるスペクトログラムを同じサイズへとゼロ埋めする、
ことを特徴とする、なりすまし検出方法。
【0078】
(付記14)
付記8から13のいずれかに記載のなりすまし検出方法であって、
前記(a)のステップにおいて、種類の異なるスペクトログラムは、FFTスペクトログラム、及びCQTスペクトログラムを含む、
ことを特徴とする、なりすまし検出方法。
【0079】
(付記15)
コンピュータに、
(a)音声データから種類の異なる複数のスペクトログラムを抽出し、抽出した複数のスペクトログラムを統合して、マルチチャネルスペクトログラムを生成する、ステップと、
(b)ラベル付きのマルチチャネルスペクトログラムを訓練データとして用いて構築された分類器に、生成された前記マルチチャネルスペクトログラムを適用して、生成された前記マルチチャネルスペクトログラムに対する評価を行い、生成された前記マルチチャネルスペクトログラムを「本物」または「なりすまし」のいずれかに分類する、ステップと、
を実行させる、プログラム。
【0080】
(付記16)
付記15に記載のプログラムであって、
前記コンピュータに、
(c)マルチチャネルスペクトログラム生成手段に、サンプルとなる音声データから、マルチチャネルスペクトログラムを生成させ、そして、生成されたマルチチャネルスペクトログラムと、前記音声データに対応するラベルとを、訓練データとして用いて、分類器を構築する、ステップを更に実行させる、
ことを特徴とする、プログラム。
【0081】
(付記17)
付記15又は16に記載のプログラムであって、
前記(a)のステップにおいて、種類の異なるスペクトログラムを積み重ねることによって、これらを統合する、
ことを特徴とする、プログラム。
【0082】
(付記18)
付記15又は16に記載のプログラムであって、
前記(a)のステップにおいて、種類の異なるスペクトログラムを連結することによって、これらを統合する、
ことを特徴とする、プログラム。
【0083】
(付記19)
付記15から18のいずれかに記載のプログラムであって、
前記(a)のステップにおいて、前記マルチチャネルスペクトログラムを生成する前に、種類の異なるスペクトログラムを同じサイズへとリサンプリングする、
ことを特徴とする、プログラム。
【0084】
(付記20)
付記15から18のいずれかに記載のプログラムであって、
前記(a)のステップにおいて、前記マルチチャネルスペクトログラムを生成する前に、種類の異なるスペクトログラムを同じサイズへとゼロ埋めする、
ことを特徴とする、プログラム。
【0085】
(付記21)
付記15から20のいずれかに記載のプログラムであって、
前記(a)のステップにおいて、種類の異なるスペクトログラムは、FFTスペクトログラム、及びCQTスペクトログラムを含む、
ことを特徴とする、プログラム。
【0086】
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【産業上の利用可能性】
【0087】
以上のように、本発明によれば、話者のなりすまし検出において、音声から得られる複数種類のスペクトログラムを用いて、誤認識の発生を抑制することができる。本発明は、話者認証といった分野において有用である。
【符号の説明】
【0088】
10 マルチチャネルスペクトログラム生成部
11 CQT抽出部
12 FFT抽出部
13a リサンプリング部
13b リサンプリング部
14 スペクトログラムスタッキング部
15a ゼロ埋め部
15b ゼロ埋め部
20 分類器訓練部
30 記憶部
40 評価部
100 なりすまし検出装置
110 コンピュータ
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
121 バス