IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

<>
  • 特許-音声処理装置、および音声認証システム 図1
  • 特許-音声処理装置、および音声認証システム 図2
  • 特許-音声処理装置、および音声認証システム 図3
  • 特許-音声処理装置、および音声認証システム 図4
  • 特許-音声処理装置、および音声認証システム 図5
  • 特許-音声処理装置、および音声認証システム 図6
  • 特許-音声処理装置、および音声認証システム 図7
  • 特許-音声処理装置、および音声認証システム 図8
  • 特許-音声処理装置、および音声認証システム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-05
(45)【発行日】2024-11-13
(54)【発明の名称】音声処理装置、および音声認証システム
(51)【国際特許分類】
   G10L 17/02 20130101AFI20241106BHJP
【FI】
G10L17/02
【請求項の数】 4
(21)【出願番号】P 2022545269
(86)(22)【出願日】2020-08-31
(86)【国際出願番号】 JP2020032952
(87)【国際公開番号】W WO2022044338
(87)【国際公開日】2022-03-03
【審査請求日】2023-01-18
【前置審査】
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100109313
【弁理士】
【氏名又は名称】机 昌彦
(74)【代理人】
【識別番号】100149618
【弁理士】
【氏名又は名称】北嶋 啓至
(72)【発明者】
【氏名】山本 仁
【審査官】中村 天真
(56)【参考文献】
【文献】特開2019-219574(JP,A)
【文献】特開平10-105191(JP,A)
【文献】特開2016-122110(JP,A)
【文献】特開平02-029100(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-25/93
H04R 1/00- 3/14
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
入力デバイスを用いて入力された音声データから抽出された音響特徴を表す音響ベクトル列に、前記入力デバイスの周波数特性を示す特性情報を表す特性ベクトルを結合して、統合特徴を算出する統合手段と、
前記統合特徴から、前記音声データの話者を識別するための話者識別用特徴を抽出する特徴抽出手段と
を備え
前記統合手段は、
前記音声データを周波数変換することによって、前記入力デバイスから入力された前記音声データの前記周波数特性を示す音響ベクトルの時系列である前記音響ベクトル列を得る音声変換手段と、
周波数ビンごとに、前記入力デバイスの感度の平均値を算出し、前記周波数ビンごとに算出した前記感度の平均値を、前記入力デバイスの前記周波数特性を示す前記特性ベクトルの要素とする特性ベクトル算出手段とを備え、
前記特性ベクトル算出手段は、話者の登録時および照合時にそれぞれ用いられる2つの入力デバイスについての2つの特性ベクトルを結合することによって、前記特性ベクトルを得る
音声処理装置。
【請求項2】
前記統合特徴は、前記音響ベクトル列と、前記特性ベクトルとが結合された特性-音響ベクトル列であり、
前記統合手段は、前記音響ベクトル列と前記特性ベクトルとを結合することによって、前記特性-音響ベクトル列を得る結合手段を備えた
ことを特徴とする請求項に記載の音声処理装置。
【請求項3】
前記特徴抽出手段は、前記統合特徴をDNN(Deep Neural Network)へ入力し、前記DNNの中間層から前記話者識別用特徴を得る
ことを特徴とする請求項1または2に記載の音声処理装置。
【請求項4】
請求項1からのいずれか1項に記載の音声処理装置と、
前記音声処理装置から出力される前記話者識別用特徴に基づいて、前記話者が登録済みの人物本人かどうかを確認する照合装置と
を備えた音声認証システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声処理装置、音声処理方法、記録媒体、および音声認証システムに関し、特に、入力デバイスを介して入力された音声データに基づいて、話者を照合する音声処理装置、音声処理方法、記録媒体、および音声認証システムに関する。
【背景技術】
【0002】
関連する技術では、第1の音声データに含まれる音声の特徴と、第2の音声データに含まれる音声の特徴とを比較することによって、話者を識別する。このような関連する技術は、音声認証による本人確認あるいは話者照合と呼ばれる。近年では、特に建設現場および工場など、遠隔での会話を要する業務において、話者照合が利用される場面は拡大している。
【0003】
特許文献1には、音声データを周波数分析することによって、時系列の特徴量を得て、得られた特徴量のパターンと、予め登録された特徴量のパターンとを比較することによって、話者照合を行うことが記載されている。
【0004】
特許文献2に記載の関連する技術では、スマートフォンが具備した通話用のマイクロフォンまたはヘッドセットマイクなどの入力デバイスを用いて入力された音声の特徴と、別の入力デバイスを用いて登録された音声の特徴とを照合する。例えば、事務所において、タブレットを用いて登録された音声の特徴と、現場において、ヘッドセットマイクから入力された音声の特徴とを照合する。
【先行技術文献】
【特許文献】
【0005】
【文献】特開平07-084594号公報
【文献】特開2016-075740号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
登録時に使用される入力デバイスと、照合時に使用される入力デバイスとが異なる場合、これらの入力デバイスの間で、感度を有する周波数の範囲が異なる。このような場合、登録時および照合時の両方で同一の入力デバイスが使用される場合と比較して、本人識別率が低下する。その結果、話者照合に失敗する可能性が高くなる。
【0007】
本発明は上記の課題に鑑みてなされたものであり、その目的は、入力デバイスによらず、高精度な話者照合を実現することにある。
【課題を解決するための手段】
【0008】
本発明の一態様に係わる音声処理装置は、入力デバイスを用いて入力された音声データと、前記入力デバイスの周波数特性とを統合する統合手段と、前記音声データと前記周波数特性とを統合することによって得られた統合特徴から、前記音声データの話者を識別するための話者識別用特徴を抽出する特徴抽出手段とを備えている。
【0009】
本発明の一態様に係わる音声処理方法は、入力デバイスを用いて入力された音声データと、前記入力デバイスの周波数特性とを統合し、前記音声データと前記周波数特性とを統合することによって得られた統合特徴から、前記音声データの話者を識別するための話者識別用特徴を抽出することを含む。
【0010】
本発明の一態様に係わる記録媒体は、入力デバイスを用いて入力された音声データと、前記入力デバイスの周波数特性とを統合する処理と、前記音声データと前記周波数特性とを統合することによって得られた統合特徴から、前記音声データの話者を識別するための話者識別用特徴を抽出する処理とをコンピュータに実行させるためのプログラムを格納している。
【0011】
本発明の一態様に係わる音声認証システムは、本発明の一態様に係わる音声処理装置と、前記音声処理装置から出力される話者識別用特徴に基づいて、前記話者が登録済みの人物本人かどうかを確認する照合装置とを備えている。
【発明の効果】
【0012】
本発明の一態様によれば、入力デバイスによらず、高精度な話者照合を実現できる。
【図面の簡単な説明】
【0013】
図1】すべての実施形態に共通する音声認証システムの構成を示すブロック図である。
図2】実施形態1に係わる音声処理装置の構成を示すブロック図である。
図3】入力デバイスについての感度の周波数依存性(周波数特性)の一例を示すグラフである。
図4】入力デバイスの周波数特性の一例から得られた特性ベクトルを示す。
図5】実施形態1に係わる特徴抽出部が、DNNによって、統合特徴から話者識別用特徴を得る流れを説明する図である。
図6】実施形態1に係わる音声処理装置の動作を示すフローチャートである。
図7】実施形態2に係わる音声処理装置の構成を示すブロック図である。
図8】実施形態2に係わる音声処理装置の動作を示すフローチャートである。
図9】実施形態1または実施形態2に係わる音声処理装置のハードウェア構成を示す図である。
【発明を実施するための形態】
【0014】
〔すべての実施形態に共通〕
まず、以下において説明する全ての実施形態に係わる共通して適用される音声認証システムの構成の一例を説明する。
【0015】
(音声認証システム1)
図1を参照して、音声認証システム1の構成の一例を説明する。図1は、音声認証システム1の構成の一例を示すブロック図である。
【0016】
図1に示すように、音声認証システム1は、音声処理装置100(200)および照合装置10を備えている。また、音声認証システム1は、1または複数の入力デバイスを備えていてもよい。音声処理装置100(200)は、音声処理装置100あるいは音声処理装置200である。
【0017】
音声処理装置100(200)が実行する処理及び動作については、後述する実施形態1、2において、詳細に説明する。音声処理装置100(200)は、ネットワーク上にあるDB(Data Base)から、あるいは音声処理装置100(200)と接続されたDBから、予め登録された話者(人物A)の音声データ(以下では、登録音声データと呼ぶ)を取得する。また、音声処理装置100(200)は、入力デバイスから、照合される対象(人物B)の音声データ(以下では、照合音声データと呼ぶ)を取得する。入力デバイスは、音声処理装置100(200)へ音声を入力するために用いられる。一例では、入力デバイスは、スマートフォンが具備した通話用のマイクロフォンまたはヘッドセットマイクである。
【0018】
音声処理装置100(200)は、登録音声データに基づいて、話者識別用特徴Aを生成する。また、音声処理装置100(200)は、照合音声データに基づいて、話者識別用特徴Bを生成する。話者識別用特徴Aは、DBに登録された登録音声データと、登録音声データの入力に用いられた入力デバイスの周波数特性とを統合することによって得られる。音響特徴は、登録音声データの特徴を定量的に表す数値である1または複数の特徴量(以下、第1のパラメータと呼ぶ場合がある)を要素とする特徴ベクトルである。デバイス特徴は、入力デバイスの特徴を定量的に表す数値である1または複数の特徴量(以下、第2のパラメータと呼ぶ場合がある)を要素とする特徴ベクトルである。話者識別用特徴Bは、入力デバイスを用いて入力された照合音声データと、照合音声データの入力に用いられた入力デバイスの周波数特性とを統合することによって得られる。
【0019】
以下の2ステップの処理を、音声データ(登録音声データまたは照合音声データ)と入力デバイスの周波数特性との「統合」と呼ぶ。以下では、登録音声データまたは照合音声データを、登録音声データ/照合音声データと記載する。第1ステップは、登録音声データ/照合音声データの周波数特性に関する音響特徴を抽出し、また、入力に用いた入力デバイスの感度の周波数特性に関するデバイス特徴を抽出することである。第2ステップは、音響特徴とデバイス特徴との両者を結合することである。結合とは、音響特徴を、その要素である第1のパラメータに分解し、またデバイス特徴を、その要素である第2のパラメータに分解し、第1のパラメータ及び第2のパラメータの両者を互いに独立した次元の要素として含む特徴ベクトルを生成することである。上述のように、第1のパラメータは、登録音声データ/照合音声データの周波数特性から抽出された特徴量である。第2パラメータは、登録音声データ/照合音声データの入力に用いた入力デバイスの感度の周波数特性から抽出された特徴量である。この場合、結合とは、音響特徴を構成する第1のパラメータであるn個の特徴量と、デバイス特徴を構成する第2のパラメータであるm個の特徴量とを要素とする(n+m)次元の特徴ベクトルを生成することである(n、mはそれぞれ整数とする)。
【0020】
これにより、登録音声データ/照合音声データの周波数特性、および、登録音声データ/照合音声データの入力に用いた入力デバイスの感度の周波数特性の両方に依存する一つの特徴(以下、統合特徴と呼ぶ)を得られる。統合特徴は、複数(上述の例ではn+m個)の特徴量を要素とする特徴ベクトルである。
【0021】
なお、後に説明する各実施形態における統合の意味は、ここで説明した意味と共通である。
【0022】
音響特徴は、登録音声データおよび照合音声データから抽出される。一方、デバイス特徴は、入力デバイスに関するデータ(一例では入力デバイスの感度の周波数特性を示すデータ)から抽出される。そして、音声処理装置100(200)は、照合装置10へ、話者識別用特徴Aおよび話者識別用特徴Bを送信する。
【0023】
照合装置10は、音声処理装置100(200)から、話者識別用特徴Aおよび話者識別用特徴Bを受信する。照合装置10は、音声処理装置100(200)から出力される話者識別用特徴Aおよび話者識別用特徴Bに基づいて、話者が登録済みの人物本人かどうかを確認する。より詳細には、照合装置10は、話者識別用特徴Aと話者識別用特徴Bとを照合し、本人確認結果を出力する。すなわち、照合装置10は、人物Aと人物Bとが同一人物か否かを示す情報を出力する。
【0024】
なお、音声認証システム1は、照合装置10が出力する本人確認結果に基づいて、オフィスへ入室するためのドアの電子錠を制御したり、情報端末を自動で起動またはログオンしたり、イントラネットワーク上の情報へのアクセスを許可する制御装置(制御機能)を備えていてもよい。
【0025】
音声認証システム1は、ネットワークサービスとして実現されてもよい。この場合、音声処理装置100(200)および照合装置10は、ネットワーク上にあって、1または複数の入力デバイスと無線ネットワークを介して通信可能であってよい。
【0026】
以下において、音声認証システム1が備えた音声処理装置100(200)の一具体例について説明する。なお、以下の説明で「音声データ」とは、「登録音声データ」および「照合音声データ」の両方を指す。
【0027】
〔実施形態1〕
図2図6を参照して、音声処理装置100に関し、実施形態1として説明する。
【0028】
(音声処理装置100)
図2を参照して、本実施形態1に係わる音声処理装置100の構成を説明する。図2は、音声処理装置100の構成を示すブロック図である。図2に示すように、音声処理装置100は、統合部110および特徴抽出部120を備えている。
【0029】
統合部110は、1または複数の入力デバイスを用いて入力された音声データと、入力デバイスの周波数特性とを統合する。統合部110は、統合手段の一例である。
【0030】
一例では、統合部110は、音声データ(図1における登録音声データまたは照合音声データ)、および、音声データの入力に用いられた入力デバイスを識別する情報を取得する。統合部110は、音声データから、音響特徴を抽出する。例えば、音響特徴は、MFCC(Mel-Frequency Cepstrum Coefficients)またはLPC(linear predictive coding)係数であってもよいし、パワースペクトルまたはスペクトル包絡であってもよい。あるいは、音響特徴は、音声データを周波数分析することによって得られる特徴量で構成された、任意の次元の特徴ベクトル(以下では、音響ベクトルと呼ぶ)であってよい。一例では、音響ベクトルは、音声データの周波数特性を示す。
【0031】
また、統合部110は、入力デバイスを識別する情報を用いて、DB(図1)から、入力デバイスに関するデータを取得する。具体的には、統合部110は、入力デバイスの感度の周波数依存性(周波数特性と呼ぶ)を示すデータを取得する。
【0032】
図3は、入力デバイスの周波数特性の一例を示すグラフである。図3に示すグラフでは、縦軸が感度(dB)であり、横軸が周波数(Hz)である。統合部110は、入力デバイスの周波数特性のデータから、デバイス特徴を抽出する。
【0033】
図4は、デバイス特徴の一例を示す。図4に示す一例では、デバイス特徴は、入力デバイスの感度の周波数特性を示す特性ベクトルF(デバイス特徴の一例)である。特性ベクトルFは、周波数ビンごとの周波数の一帯域(周波数ビンを含む所定の幅の帯域)における入力デバイスの感度(図3)を積分し、その積分値を帯域幅で割った平均値を、要素(f1, f2, f3, …, f32)として持っている。
【0034】
統合部110は、こうして得られた音響特徴と、デバイス特徴とを結合することによって、照合音声データに基づく統合特徴と、登録音声データに基づく統合特徴とを得る。音声認証システム1に関して説明したように、統合特徴とは、登録音声データ/照合音声データの周波数特性、および、登録音声データ/照合音声データの入力に用いた入力デバイスの感度の周波数特性の両方に依存する一つの特徴ベクトルである。上述したように、統合特徴は、登録音声データ/照合音声データの周波数特性に関する第1のパラメータと、登録音声データ/照合音声データの入力に用いた入力デバイスの感度の周波数特性に関する第2のパラメータとを含む。なお、統合の詳細に係わる処理および統合特徴の一例については、実施形態2で説明する。統合部110は、このようにして得られた統合特徴を、特徴抽出部120へ出力する。
【0035】
特徴抽出部120は、音声データと周波数特性とを統合することによって得られた統合特徴から、音声の話者を識別するための話者識別用特徴(話者識別用特徴AとB)を抽出する。特徴抽出部120は、特徴抽出手段の一例である。
【0036】
図5を参照して、特徴抽出部120が、統合特徴から、話者識別用特徴を抽出する処理の一例を説明する。図5に示すように、特徴抽出部120はDNN(Deep Neural Network:深層ニューラルネットワーク)を含んでいる。
【0037】
特徴抽出部120は、学習フェーズにおいて、訓練用データを入力し、任意の損失関数に基づいて、出力結果と正解データとが一致するように、DNNの各パラメータを更新する。正解データは、話者の正答を示すデータである。DNNは、話者識別用特徴を抽出するためのフェーズの前に、統合特徴に基づいて、話者を識別できるように、学習を完了している。
【0038】
特徴抽出部120は、学習済のDNNに統合特徴を入力する。特徴抽出部120のDNNは、入力された統合特徴を用いて、話者(たとえば人物Aまたは人物B)を識別する。また、特徴抽出部120は、学習済みのDNNが注目する話者識別用特徴を抽出する。
【0039】
具体的に、特徴抽出部120は、DNNの中間層から、話者を識別するために注目した話者識別用特徴を抽出する。言い換えると、特徴抽出部120は、音声データと周波数特性とを統合することによって得られた統合特徴と、DNNとを用いて、音声の話者を識別するための話者識別用特徴を抽出する。したがって、音響特徴とデバイス特徴とに基づいて、話者識別用特徴が取得されるので、話者識別用特徴は入力デバイスの周波数特性に依存しない。よって、照合装置10は、登録時と照合時とで、(周波数特性が)同じ入力デバイスが用いられたか、それとも(周波数特性が)異なる入力デバイスが用いられたかによらず、話者識別用特徴に基づいて、話者を識別することができる。
【0040】
(音声処理装置100の動作)
図6を参照して、本実施形態1に係わる音声処理装置100の動作を説明する。図6は、音声処理装置100の各部が実行する処理の流れを示すフローチャートである。
【0041】
図6に示すように、統合部110は、入力デバイスを用いて入力された音声データと、入力デバイスの周波数特性とを統合する(S1)。統合部110は、ステップS1の結果として得られた統合特徴のデータを、特徴抽出部120へ出力する。
【0042】
特徴抽出部120は、統合部110から、音声データと周波数特性とを統合することによって得られた統合特徴のデータを受信する。特徴抽出部120は、受信した統合特徴から、話者識別用特徴を抽出する(S2)。
【0043】
特徴抽出部120は、ステップS2の結果として得られた話者識別用特徴のデータを出力する。一例では、特徴抽出部120は、照合装置10(図1)へ、話者識別用特徴のデータを送信する。なお、上述したDNNの学習の際も、音声処理装置100は、ここで説明した手順に従い、話者識別用特徴のデータを得て、話者を識別する情報と紐づけた話者識別用特徴のデータを、訓練用データとして、図示しない訓練用DB(訓練用データベース)に格納する。上述したDNNは、訓練用DBに格納された訓練用データを用いて、話者を識別するための学習を行う。
【0044】
以上で、本実施形態1に係わる音声処理装置100の動作は終了する。
【0045】
(本実施形態の効果)
本実施形態の構成によれば、統合部110は、入力デバイスを用いて入力された音声データと、入力デバイスの周波数特性とを統合し、特徴抽出部120は、音声データと周波数特性とを統合することによって得られた統合特徴から、音声の話者を識別するための話者識別用特徴を抽出する。話者識別用特徴は、入力デバイスを用いて入力された音声の音響特徴に係わる情報だけでなく、入力デバイスの周波数特性に係わる情報も含んでいる。そのため、音声認証システム1の照合装置10は、登録時に音声の入力に用いられた入力デバイスと、照合時に音声の入力に用いられた入力デバイスとの同異によらず、話者識別用特徴に基づいて、高精度に話者照合することができる。
【0046】
ただし、登録時に音声の入力に用いられる入力デバイスは、照合時に音声の入力に用いられる入力デバイスと比較して、広帯域に感度を有することが望ましい。より具体的には、登録時に音声の入力に用いられる入力デバイスの使用帯域(感度を有する帯域)は、照合時に音声の入力に用いられる入力デバイスの使用帯域を包含しているとよい。
【0047】
〔実施形態2〕
図7図8を参照して、音声処理装置200に関し、実施形態2として説明する。
【0048】
(音声処理装置200)
図7を参照して、本実施形態2に係わる音声処理装置200の構成を説明する。図7は、音声処理装置200の構成を示すブロック図である。図7に示すように、音声処理装置200は、統合部210および特徴抽出部120を備えている。
【0049】
統合部210は、入力デバイスを用いて入力された音声データと、入力デバイスの周波数特性とを統合する。統合部210は、統合手段の一例である。図7に示すように、統合部210は、特性ベクトル算出部211、音声変換部212、および結合部213を備えている。
【0050】
特性ベクトル算出部211は、周波数ビンごとに、周波数の一帯域(周波数ビンを含む所定の幅の帯域)における入力デバイスの感度の平均値を算出し、周波数ビンごとに算出した平均値を、特性ベクトル(デバイス特徴の一例である)の要素とする。特性ベクトルは、入力デバイスに固有の周波数特性を示す。特性ベクトル算出部211は、特性ベクトル算出手段の一例である。
【0051】
一例では、統合部210の特性ベクトル算出部211は、DB(図1)あるいは図示しない入力部から、入力デバイスに関するデータを取得する。入力デバイスに関するデータは、入力デバイスを識別する情報、および、入力デバイスの感度を示すデータを含む。特性ベクトル算出部211は、入力デバイスの感度を示すデータから、周波数ビンごとに、周波数の一帯域(周波数ビンを含む所定の幅の帯域)における入力デバイスの感度の平均値を算出する。次に、特性ベクトル算出部211は、周波数ビンごとの感度の平均値を要素として持つ特性ベクトルを算出する。そして、特性ベクトル算出部211は、算出した特性ベクトルのデータを、結合部213へ送信する。
【0052】
音声変換部212は、音声データを、時間領域から周波数領域へ変換することによって、音響ベクトル列(音響特徴の一例である)を得る。ここで、音響ベクトル列は、所定の時間幅ごとの音響ベクトルの時系列を表す。音声変換部212は、音声変換手段の一例である。
【0053】
一例では、統合部210の音声変換部212は、入力デバイスから、照合音声データを受信し、また、DBから、登録音声データを取得する。音声変換部212は、高速フーリエ変換(FFT;fast Fourier transform)によって、音声データを、所定の時間幅ごとの振幅スペクトルデータに変換する。
【0054】
さらに、音声変換部212は、フィルタバンクを用いて、所定の時間幅ごとの振幅スペクトルデータを、所定の周波数帯域ごとに分割してもよい。
【0055】
音声変換部212は、所定の時間幅ごとの振幅スペクトルデータ(あるいはフィルタバンクを用いてそれを所定の周波数帯域ごとに分割したもの)から、複数の特徴量を得る。そして、音声変換部212は、取得した複数の特徴量で構成される音響ベクトルを生成する。一例では、特徴量は、所定の周波数の範囲ごとの音響の強度である。こうして、音声変換部212は、所定の時間幅ごとの音響ベクトルの時系列(以下では、音響ベクトル列と呼ぶ)を得る。そして、音声変換部212は、算出した音響ベクトル列のデータを、結合部213へ送信する。
【0056】
結合部213は、音響ベクトル列(音響特徴の一例である)と特性ベクトル(デバイス特徴の一例である)とを「結合」することによって、特性-音響ベクトル列(統合特徴の一例である)を得る。
【0057】
一例では、統合部210の結合部213は、特性ベクトル算出部211から、特性ベクトルのデータを受信する。また、結合部213は、音声変換部212から、音響ベクトル列のデータを受信する。
【0058】
そして、結合部213は、音響ベクトル列の各音響ベクトルの次元を拡張して、特性ベクトルの要素を、音響ベクトル列のそれぞれの次元を拡張した音響ベクトルの要素として追加する。
【0059】
結合部213は、このようにして得られた特性-音響ベクトル列のデータを、特徴抽出部120へ出力する。
【0060】
特徴抽出部120は、音響ベクトル列(音響特徴の一例である)と特性ベクトル(デバイス特徴の一例である)とを結合することによって得られた特性-音響ベクトル列(統合特徴の一例である)から、音声の話者を識別するための話者識別用特徴を抽出する。特徴抽出部120は、特徴抽出手段の一例である。
【0061】
一例では、特徴抽出部120は、統合部210の結合部213から、特性-音響ベクトル列のデータを受信する。特徴抽出部120は、学習済のDNN(図5)へ、特性-音響ベクトル列のデータを入力する。特徴抽出部120は、学習済のDNNの中間層から、特性-音響ベクトル列に基づく統合特徴を取得する。統合特徴は、特性-音響ベクトル列から抽出された特徴である。
【0062】
特徴抽出部120は、特性-音響ベクトル列に基づく統合特徴のデータを、照合装置10(図1)へ出力する。
【0063】
(変形例)
本変形例では、照合時に使用される入力デバイスと、登録時に使用される入力デバイスとがどちらも感度を持つ有効帯域の共通部分において、登録時の音響ベクトル(話者識別用特徴A)と、照合時の音響ベクトル(話者識別用特徴B)とを照合する。
【0064】
本変形例に係わる特性ベクトル算出部211は、入力デバイスAの感度の周波数特性を示す第1の特性ベクトルと、入力デバイスBの感度の周波数特性を示す第2の特性ベクトルとを合成(後述)することによって、第3の特性ベクトルを得る。
【0065】
本変形例に係わる特性ベクトル算出部211は、このようにして算出した第3の特性ベクトルのデータを、結合部213へ出力する。
【0066】
結合部213は、2つの特性ベクトルの合成により得られた第3の特性ベクトルを、登録時の音響ベクトル(話者識別用特徴Aの一例)、および、照合時の音響ベクトル(話者識別用特徴Bの一例)のそれぞれに乗算する。
【0067】
照合時に使用される入力デバイスおよび登録時に使用される入力デバイスの少なくとも一方が感度を持たない帯域では、第3の特性ベクトルの値がゼロである。そのため、第3の特性ベクトルを掛け合わされた音響ベクトルの値も、2つの入力デバイスが感度を有する有効帯域の共通部分以外では、値がゼロになる。
【0068】
このようにして、話者識別用特徴Aの有効帯域、および、話者識別用特徴Bの有効帯域は同じになる。これにより、照合装置10(図1)は、同じ有効帯域を持つ話者識別用特徴Aと話者識別用特徴Bとを照合することができる。
【0069】
本変形例における2つの特性ベクトルの合成について、より詳細に説明する。特性ベクトル算出部211は、第1の特性ベクトルのn番目の要素(fn)と、第2の特性ベクトルの対応する要素(gn)とを比較する。そして、特性ベクトル算出部211は、これらの2つの要素(fn,gn)のうち小さいほうを、第3の特性ベクトルの対応する要素とする。あるいは、特性ベクトル算出部211は、第1の特性ベクトルのn番目の要素(fn)と、第2の特性ベクトルの対応する要素(gn)との相乗平均√(fn×gn)を、第3の特性ベクトルのn番目の要素としてもよい。あるいはまた、特性ベクトル算出部211は、第1の特性ベクトルおよび第2の特性ベクトルを、図示しないDNNへ入力し、DNNの中間層から、第1の特性ベクトルおよび第2の特性ベクトルの両者の有効帯域の共通部分以外の成分に値0が重み付けられた第3の特性ベクトルを抽出してもよい。
【0070】
(音声処理装置200の動作)
図8を参照して、本実施形態2に係わる音声処理装置200の動作を説明する。図8は、音声処理装置200が実行する処理の流れを示すフローチャートである。
【0071】
図8に示すように、統合部210の特性ベクトル算出部211は、DB(図1)あるいは図示しない入力部から、入力デバイスに関するデータを取得する(S201)。入力デバイスに関するデータは、入力デバイスを識別する情報、および、入力デバイスの周波数特性(図3)を示すデータを含む。
【0072】
特性ベクトル算出部211は、入力デバイスの周波数特性を示すデータから、周波数ビンごとに、周波数の一帯域(周波数ビンを含む所定の幅の帯域)における入力デバイスの感度の平均値を算出する。特性ベクトル算出部211は、算出した周波数ビンごとの感度の平均値を要素として持つ特性ベクトルを算出する(S202)。そして、特性ベクトル算出部211は、算出した特性ベクトルのデータを、結合部213へ送信する。
【0073】
音声変換部212は、フィルタバンクを用いて、音声データを対象として周波数分析を実行し、所定の時間幅ごとの振幅スペクトルデータを得る。さらに、音声変換部212は、所定の時間幅ごとの振幅スペクトルデータから、上述した音響ベクトル列を算出する(S203)。そして、音声変換部212は、算出した音響ベクトル列のデータを、結合部213へ送信する。
【0074】
結合部213は、入力デバイスを用いて入力された音声データに基づく音響ベクトル列(音響特徴の一例である)と、入力デバイスの周波数特性に関する特性ベクトル(デバイス特徴の一例である)とを結合することによって、特性-音響ベクトル列(統合特徴の一例である)を算出する(S204)。結合部213は、このようにして得られた特性-音響ベクトル列のデータを、特徴抽出部120へ出力する。
【0075】
特徴抽出部120は、統合部210の結合部213から、特性-音響ベクトル列のデータを受信する。特徴抽出部120は、特性-音響ベクトル列から、話者識別用特徴を抽出する(S205)。具体的には、特徴抽出部120は、登録音声データに基づく特性-音響ベクトル列から、話者識別用特徴A(図1)を抽出し、照合音声データに基づく特性-音響ベクトル列から、話者識別用特徴B(図1)を抽出する。
【0076】
特徴抽出部120は、このようにして得られた話者識別用特徴のデータを出力する。一例では、特徴抽出部120は、照合装置10(図1)へ、話者識別用特徴のデータを送信する。
【0077】
以上で、本実施形態2に係わる音声処理装置200の動作は終了する。
【0078】
(本実施形態の効果)
本実施形態の構成によれば、統合部210は、入力デバイスを用いて入力された音声データと、入力デバイスの周波数特性とを統合し、特徴抽出部120は、音声データと周波数特性とを統合することによって得られた統合特徴から、音声の話者を識別するための話者識別用特徴を抽出する。話者識別用特徴は、入力デバイスを用いて入力された音声の音響特徴に係わる情報だけでなく、入力デバイスの周波数特性に係わる情報も含んでいる。そのため、音声認証システム1の照合装置10は登録時に音声の入力に用いられた入力デバイスと、照合時に音声の入力に用いられた入力デバイスとの同異によらず、話者識別用特徴に基づいて、高精度に話者照合することができる。
【0079】
より具体的には、統合部210は、周波数ビンごとに、入力デバイスの感度の平均値を算出し、周波数ビンごとに算出した平均値を、特性ベクトルの要素とする特性ベクトル算出部211を備えている。特性ベクトルは、入力デバイスの周波数特性を示す。
【0080】
また統合部210は、フィルタバンクを用いて、音声を時間領域から周波数領域へフーリエ変換することによって、音響ベクトル列を得る音声変換部212を備えている。統合部210は、音響ベクトル列と特性ベクトルとを結合することによって、特性-音響ベクトル列を得る結合部213を備えている。これにより、音響特徴である音響ベクトル列と、デバイス特徴である特性ベクトルとが結合された特性-音響ベクトル列を得ることができる。
【0081】
さらに、特徴抽出部120は、特性-音響ベクトル列に基づいて、話者識別用特徴を得ることができる。そのため、上述したように、音声認証システム1の照合装置10は、話者識別用特徴に基づいて、高精度に話者照合することができる。
【0082】
〔ハードウェア構成〕
前記実施形態1~2で説明した音声処理装置100、200の各構成要素は、機能単位のブロックを示している。これらの構成要素の一部又は全部は、例えば図9に示すような情報処理装置900により実現される。図9は、情報処理装置900のハードウェア構成の一例を示すブロック図である。
【0083】
図9に示すように、情報処理装置900は、一例として、以下のような構成を含む。
【0084】
・CPU(Central Processing Unit)901
・ROM(Read Only Memory)902
・RAM(Random Access Memory)903
・RAM903にロードされるプログラム904
・プログラム904を格納する記憶装置905
・記録媒体906の読み書きを行うドライブ装置907
・通信ネットワーク909と接続する通信インタフェース908
・データの入出力を行う入出力インタフェース910
・各構成要素を接続するバス911
前記実施形態1~2で説明した音声処理装置100、200の各構成要素は、これらの機能を実現するプログラム904をCPU901が読み込んで実行することで実現される。各構成要素の機能を実現するプログラム904は、例えば、予め記憶装置905やROM902に格納されており、必要に応じてCPU901がRAM903にロードして実行される。なお、プログラム904は、通信ネットワーク909を介してCPU901に供給されてもよいし、予め記録媒体906に格納されており、ドライブ装置907が当該プログラムを読み出してCPU901に供給してもよい。
【0085】
上記の構成によれば、前記実施形態1~2において説明した音声処理装置100、200が、ハードウェアとして実現される。したがって、前記実施形態1~2において説明した効果と同様の効果を奏することができる。
【産業上の利用可能性】
【0086】
本発明は、一例では、入力デバイスを用いて入力された音声のデータを分析することによって、本人確認を行う音声認証システムに利用することができる。
【符号の説明】
【0087】
1 音声認証システム
10 照合装置
100 音声処理装置
110 統合部
120 特徴抽出部
200 音声処理装置
210 統合部
211特性ベクトル算出部
212 音声変換部
図1
図2
図3
図4
図5
図6
図7
図8
図9