特許7582314 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 日本電気株式会社の特許一覧

特許7582314音声処理装置、および音声認証システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-11-05

(45)【発行日】2024-11-13

(54)【発明の名称】音声処理装置、および音声認証システム

(51)【国際特許分類】

G10L 17/02 20130101AFI20241106BHJP

【ＦＩ】

G10L17/02

【請求項の数】 4

(21)【出願番号】P 2022545269

(86)(22)【出願日】2020-08-31

(86)【国際出願番号】 JP2020032952

(87)【国際公開番号】W WO2022044338

(87)【国際公開日】2022-03-03

【審査請求日】2023-01-18

【前置審査】

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100109313

【弁理士】

【氏名又は名称】机昌彦

(74)【代理人】

【識別番号】100149618

【弁理士】

【氏名又は名称】北嶋啓至

(72)【発明者】

【氏名】山本仁

【審査官】中村天真

(56)【参考文献】

【文献】特開２０１９－２１９５７４（ＪＰ，Ａ）

【文献】特開平１０－１０５１９１（ＪＰ，Ａ）

【文献】特開２０１６－１２２１１０（ＪＰ，Ａ）

【文献】特開平０２－０２９１００（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１３／００－２５／９３

Ｈ０４Ｒ１／００－３／１４

ＩＥＥＥＸｐｌｏｒｅ

(57)【特許請求の範囲】

【請求項1】

入力デバイスを用いて入力された音声データから抽出された音響特徴を表す音響ベクトル列に、前記入力デバイスの周波数特性を示す特性情報を表す特性ベクトルを結合して、統合特徴を算出する統合手段と、
前記統合特徴から、前記音声データの話者を識別するための話者識別用特徴を抽出する特徴抽出手段と
を備え、
前記統合手段は、
前記音声データを周波数変換することによって、前記入力デバイスから入力された前記音声データの前記周波数特性を示す音響ベクトルの時系列である前記音響ベクトル列を得る音声変換手段と、
周波数ビンごとに、前記入力デバイスの感度の平均値を算出し、前記周波数ビンごとに算出した前記感度の平均値を、前記入力デバイスの前記周波数特性を示す前記特性ベクトルの要素とする特性ベクトル算出手段とを備え、
前記特性ベクトル算出手段は、話者の登録時および照合時にそれぞれ用いられる２つの入力デバイスについての２つの特性ベクトルを結合することによって、前記特性ベクトルを得る
音声処理装置。

【請求項2】

前記統合特徴は、前記音響ベクトル列と、前記特性ベクトルとが結合された特性－音響ベクトル列であり、
前記統合手段は、前記音響ベクトル列と前記特性ベクトルとを結合することによって、前記特性－音響ベクトル列を得る結合手段を備えた
ことを特徴とする請求項１に記載の音声処理装置。

【請求項3】

前記特徴抽出手段は、前記統合特徴をＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）へ入力し、前記ＤＮＮの中間層から前記話者識別用特徴を得る
ことを特徴とする請求項１または２に記載の音声処理装置。

【請求項4】

請求項１から３のいずれか１項に記載の音声処理装置と、
前記音声処理装置から出力される前記話者識別用特徴に基づいて、前記話者が登録済みの人物本人かどうかを確認する照合装置と
を備えた音声認証システム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声処理装置、音声処理方法、記録媒体、および音声認証システムに関し、特に、入力デバイスを介して入力された音声データに基づいて、話者を照合する音声処理装置、音声処理方法、記録媒体、および音声認証システムに関する。

【背景技術】

【0002】

関連する技術では、第１の音声データに含まれる音声の特徴と、第２の音声データに含まれる音声の特徴とを比較することによって、話者を識別する。このような関連する技術は、音声認証による本人確認あるいは話者照合と呼ばれる。近年では、特に建設現場および工場など、遠隔での会話を要する業務において、話者照合が利用される場面は拡大している。

【0003】

特許文献１には、音声データを周波数分析することによって、時系列の特徴量を得て、得られた特徴量のパターンと、予め登録された特徴量のパターンとを比較することによって、話者照合を行うことが記載されている。

【0004】

特許文献２に記載の関連する技術では、スマートフォンが具備した通話用のマイクロフォンまたはヘッドセットマイクなどの入力デバイスを用いて入力された音声の特徴と、別の入力デバイスを用いて登録された音声の特徴とを照合する。例えば、事務所において、タブレットを用いて登録された音声の特徴と、現場において、ヘッドセットマイクから入力された音声の特徴とを照合する。

【先行技術文献】

【特許文献】

【0005】

【文献】特開平０７－０８４５９４号公報

【文献】特開２０１６－０７５７４０号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

登録時に使用される入力デバイスと、照合時に使用される入力デバイスとが異なる場合、これらの入力デバイスの間で、感度を有する周波数の範囲が異なる。このような場合、登録時および照合時の両方で同一の入力デバイスが使用される場合と比較して、本人識別率が低下する。その結果、話者照合に失敗する可能性が高くなる。

【0007】

本発明は上記の課題に鑑みてなされたものであり、その目的は、入力デバイスによらず、高精度な話者照合を実現することにある。

【課題を解決するための手段】

【0008】

本発明の一態様に係わる音声処理装置は、入力デバイスを用いて入力された音声データと、前記入力デバイスの周波数特性とを統合する統合手段と、前記音声データと前記周波数特性とを統合することによって得られた統合特徴から、前記音声データの話者を識別するための話者識別用特徴を抽出する特徴抽出手段とを備えている。

【0009】

本発明の一態様に係わる音声処理方法は、入力デバイスを用いて入力された音声データと、前記入力デバイスの周波数特性とを統合し、前記音声データと前記周波数特性とを統合することによって得られた統合特徴から、前記音声データの話者を識別するための話者識別用特徴を抽出することを含む。

【0010】

本発明の一態様に係わる記録媒体は、入力デバイスを用いて入力された音声データと、前記入力デバイスの周波数特性とを統合する処理と、前記音声データと前記周波数特性とを統合することによって得られた統合特徴から、前記音声データの話者を識別するための話者識別用特徴を抽出する処理とをコンピュータに実行させるためのプログラムを格納している。

【0011】

本発明の一態様に係わる音声認証システムは、本発明の一態様に係わる音声処理装置と、前記音声処理装置から出力される話者識別用特徴に基づいて、前記話者が登録済みの人物本人かどうかを確認する照合装置とを備えている。

【発明の効果】

【0012】

本発明の一態様によれば、入力デバイスによらず、高精度な話者照合を実現できる。

【図面の簡単な説明】

【0013】

【図1】すべての実施形態に共通する音声認証システムの構成を示すブロック図である。

【図2】実施形態１に係わる音声処理装置の構成を示すブロック図である。

【図3】入力デバイスについての感度の周波数依存性（周波数特性）の一例を示すグラフである。

【図4】入力デバイスの周波数特性の一例から得られた特性ベクトルを示す。

【図5】実施形態１に係わる特徴抽出部が、ＤＮＮによって、統合特徴から話者識別用特徴を得る流れを説明する図である。

【図6】実施形態１に係わる音声処理装置の動作を示すフローチャートである。

【図7】実施形態２に係わる音声処理装置の構成を示すブロック図である。

【図8】実施形態２に係わる音声処理装置の動作を示すフローチャートである。

【図9】実施形態１または実施形態２に係わる音声処理装置のハードウェア構成を示す図である。

【発明を実施するための形態】

【0014】

〔すべての実施形態に共通〕
まず、以下において説明する全ての実施形態に係わる共通して適用される音声認証システムの構成の一例を説明する。

【0015】

（音声認証システム１）
図１を参照して、音声認証システム１の構成の一例を説明する。図１は、音声認証システム１の構成の一例を示すブロック図である。

【0016】

図１に示すように、音声認証システム１は、音声処理装置１００（２００）および照合装置１０を備えている。また、音声認証システム１は、１または複数の入力デバイスを備えていてもよい。音声処理装置１００（２００）は、音声処理装置１００あるいは音声処理装置２００である。

【0017】

音声処理装置１００（２００）が実行する処理及び動作については、後述する実施形態１、２において、詳細に説明する。音声処理装置１００（２００）は、ネットワーク上にあるＤＢ（Data Base）から、あるいは音声処理装置１００（２００）と接続されたＤＢから、予め登録された話者（人物Ａ）の音声データ（以下では、登録音声データと呼ぶ）を取得する。また、音声処理装置１００（２００）は、入力デバイスから、照合される対象（人物Ｂ）の音声データ（以下では、照合音声データと呼ぶ）を取得する。入力デバイスは、音声処理装置１００（２００）へ音声を入力するために用いられる。一例では、入力デバイスは、スマートフォンが具備した通話用のマイクロフォンまたはヘッドセットマイクである。

【0018】

音声処理装置１００（２００）は、登録音声データに基づいて、話者識別用特徴Ａを生成する。また、音声処理装置１００（２００）は、照合音声データに基づいて、話者識別用特徴Ｂを生成する。話者識別用特徴Ａは、ＤＢに登録された登録音声データと、登録音声データの入力に用いられた入力デバイスの周波数特性とを統合することによって得られる。音響特徴は、登録音声データの特徴を定量的に表す数値である１または複数の特徴量（以下、第１のパラメータと呼ぶ場合がある）を要素とする特徴ベクトルである。デバイス特徴は、入力デバイスの特徴を定量的に表す数値である１または複数の特徴量（以下、第２のパラメータと呼ぶ場合がある）を要素とする特徴ベクトルである。話者識別用特徴Ｂは、入力デバイスを用いて入力された照合音声データと、照合音声データの入力に用いられた入力デバイスの周波数特性とを統合することによって得られる。

【0019】

以下の２ステップの処理を、音声データ（登録音声データまたは照合音声データ）と入力デバイスの周波数特性との「統合」と呼ぶ。以下では、登録音声データまたは照合音声データを、登録音声データ／照合音声データと記載する。第１ステップは、登録音声データ／照合音声データの周波数特性に関する音響特徴を抽出し、また、入力に用いた入力デバイスの感度の周波数特性に関するデバイス特徴を抽出することである。第２ステップは、音響特徴とデバイス特徴との両者を結合することである。結合とは、音響特徴を、その要素である第１のパラメータに分解し、またデバイス特徴を、その要素である第２のパラメータに分解し、第１のパラメータ及び第２のパラメータの両者を互いに独立した次元の要素として含む特徴ベクトルを生成することである。上述のように、第１のパラメータは、登録音声データ／照合音声データの周波数特性から抽出された特徴量である。第２パラメータは、登録音声データ／照合音声データの入力に用いた入力デバイスの感度の周波数特性から抽出された特徴量である。この場合、結合とは、音響特徴を構成する第１のパラメータであるｎ個の特徴量と、デバイス特徴を構成する第２のパラメータであるｍ個の特徴量とを要素とする（ｎ＋ｍ）次元の特徴ベクトルを生成することである（ｎ、ｍはそれぞれ整数とする）。

【0020】

これにより、登録音声データ／照合音声データの周波数特性、および、登録音声データ／照合音声データの入力に用いた入力デバイスの感度の周波数特性の両方に依存する一つの特徴（以下、統合特徴と呼ぶ）を得られる。統合特徴は、複数（上述の例ではｎ＋ｍ個）の特徴量を要素とする特徴ベクトルである。

【0021】

なお、後に説明する各実施形態における統合の意味は、ここで説明した意味と共通である。

【0022】

音響特徴は、登録音声データおよび照合音声データから抽出される。一方、デバイス特徴は、入力デバイスに関するデータ（一例では入力デバイスの感度の周波数特性を示すデータ）から抽出される。そして、音声処理装置１００（２００）は、照合装置１０へ、話者識別用特徴Ａおよび話者識別用特徴Ｂを送信する。

【0023】

照合装置１０は、音声処理装置１００（２００）から、話者識別用特徴Ａおよび話者識別用特徴Ｂを受信する。照合装置１０は、音声処理装置１００（２００）から出力される話者識別用特徴Ａおよび話者識別用特徴Ｂに基づいて、話者が登録済みの人物本人かどうかを確認する。より詳細には、照合装置１０は、話者識別用特徴Ａと話者識別用特徴Ｂとを照合し、本人確認結果を出力する。すなわち、照合装置１０は、人物Ａと人物Ｂとが同一人物か否かを示す情報を出力する。

【0024】

なお、音声認証システム１は、照合装置１０が出力する本人確認結果に基づいて、オフィスへ入室するためのドアの電子錠を制御したり、情報端末を自動で起動またはログオンしたり、イントラネットワーク上の情報へのアクセスを許可する制御装置（制御機能）を備えていてもよい。

【0025】

音声認証システム１は、ネットワークサービスとして実現されてもよい。この場合、音声処理装置１００（２００）および照合装置１０は、ネットワーク上にあって、１または複数の入力デバイスと無線ネットワークを介して通信可能であってよい。

【0026】

以下において、音声認証システム１が備えた音声処理装置１００（２００）の一具体例について説明する。なお、以下の説明で「音声データ」とは、「登録音声データ」および「照合音声データ」の両方を指す。

【0027】

〔実施形態１〕
図２～図６を参照して、音声処理装置１００に関し、実施形態１として説明する。

【0028】

（音声処理装置１００）
図２を参照して、本実施形態１に係わる音声処理装置１００の構成を説明する。図２は、音声処理装置１００の構成を示すブロック図である。図２に示すように、音声処理装置１００は、統合部１１０および特徴抽出部１２０を備えている。

【0029】

統合部１１０は、１または複数の入力デバイスを用いて入力された音声データと、入力デバイスの周波数特性とを統合する。統合部１１０は、統合手段の一例である。

【0030】

一例では、統合部１１０は、音声データ（図１における登録音声データまたは照合音声データ）、および、音声データの入力に用いられた入力デバイスを識別する情報を取得する。統合部１１０は、音声データから、音響特徴を抽出する。例えば、音響特徴は、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficients）またはＬＰＣ（linear predictive coding）係数であってもよいし、パワースペクトルまたはスペクトル包絡であってもよい。あるいは、音響特徴は、音声データを周波数分析することによって得られる特徴量で構成された、任意の次元の特徴ベクトル（以下では、音響ベクトルと呼ぶ）であってよい。一例では、音響ベクトルは、音声データの周波数特性を示す。

【0031】

また、統合部１１０は、入力デバイスを識別する情報を用いて、ＤＢ（図１）から、入力デバイスに関するデータを取得する。具体的には、統合部１１０は、入力デバイスの感度の周波数依存性（周波数特性と呼ぶ）を示すデータを取得する。

【0032】

図３は、入力デバイスの周波数特性の一例を示すグラフである。図３に示すグラフでは、縦軸が感度（ｄＢ）であり、横軸が周波数（Ｈｚ）である。統合部１１０は、入力デバイスの周波数特性のデータから、デバイス特徴を抽出する。

【0033】

図４は、デバイス特徴の一例を示す。図４に示す一例では、デバイス特徴は、入力デバイスの感度の周波数特性を示す特性ベクトルＦ（デバイス特徴の一例）である。特性ベクトルＦは、周波数ビンごとの周波数の一帯域（周波数ビンを含む所定の幅の帯域）における入力デバイスの感度（図３）を積分し、その積分値を帯域幅で割った平均値を、要素（f1, f2, f3, …, f32）として持っている。

【0034】

統合部１１０は、こうして得られた音響特徴と、デバイス特徴とを結合することによって、照合音声データに基づく統合特徴と、登録音声データに基づく統合特徴とを得る。音声認証システム１に関して説明したように、統合特徴とは、登録音声データ／照合音声データの周波数特性、および、登録音声データ／照合音声データの入力に用いた入力デバイスの感度の周波数特性の両方に依存する一つの特徴ベクトルである。上述したように、統合特徴は、登録音声データ／照合音声データの周波数特性に関する第１のパラメータと、登録音声データ／照合音声データの入力に用いた入力デバイスの感度の周波数特性に関する第２のパラメータとを含む。なお、統合の詳細に係わる処理および統合特徴の一例については、実施形態２で説明する。統合部１１０は、このようにして得られた統合特徴を、特徴抽出部１２０へ出力する。

【0035】

特徴抽出部１２０は、音声データと周波数特性とを統合することによって得られた統合特徴から、音声の話者を識別するための話者識別用特徴（話者識別用特徴ＡとＢ）を抽出する。特徴抽出部１２０は、特徴抽出手段の一例である。

【0036】

図５を参照して、特徴抽出部１２０が、統合特徴から、話者識別用特徴を抽出する処理の一例を説明する。図５に示すように、特徴抽出部１２０はＤＮＮ（Deep Neural Network：深層ニューラルネットワーク）を含んでいる。

【0037】

特徴抽出部１２０は、学習フェーズにおいて、訓練用データを入力し、任意の損失関数に基づいて、出力結果と正解データとが一致するように、ＤＮＮの各パラメータを更新する。正解データは、話者の正答を示すデータである。ＤＮＮは、話者識別用特徴を抽出するためのフェーズの前に、統合特徴に基づいて、話者を識別できるように、学習を完了している。

【0038】

特徴抽出部１２０は、学習済のＤＮＮに統合特徴を入力する。特徴抽出部１２０のＤＮＮは、入力された統合特徴を用いて、話者（たとえば人物Ａまたは人物Ｂ）を識別する。また、特徴抽出部１２０は、学習済みのＤＮＮが注目する話者識別用特徴を抽出する。

【0039】

具体的に、特徴抽出部１２０は、ＤＮＮの中間層から、話者を識別するために注目した話者識別用特徴を抽出する。言い換えると、特徴抽出部１２０は、音声データと周波数特性とを統合することによって得られた統合特徴と、ＤＮＮとを用いて、音声の話者を識別するための話者識別用特徴を抽出する。したがって、音響特徴とデバイス特徴とに基づいて、話者識別用特徴が取得されるので、話者識別用特徴は入力デバイスの周波数特性に依存しない。よって、照合装置１０は、登録時と照合時とで、（周波数特性が）同じ入力デバイスが用いられたか、それとも（周波数特性が）異なる入力デバイスが用いられたかによらず、話者識別用特徴に基づいて、話者を識別することができる。

【0040】

（音声処理装置１００の動作）
図６を参照して、本実施形態１に係わる音声処理装置１００の動作を説明する。図６は、音声処理装置１００の各部が実行する処理の流れを示すフローチャートである。

【0041】

図６に示すように、統合部１１０は、入力デバイスを用いて入力された音声データと、入力デバイスの周波数特性とを統合する（Ｓ１）。統合部１１０は、ステップＳ１の結果として得られた統合特徴のデータを、特徴抽出部１２０へ出力する。

【0042】

特徴抽出部１２０は、統合部１１０から、音声データと周波数特性とを統合することによって得られた統合特徴のデータを受信する。特徴抽出部１２０は、受信した統合特徴から、話者識別用特徴を抽出する（Ｓ２）。

【0043】

特徴抽出部１２０は、ステップＳ２の結果として得られた話者識別用特徴のデータを出力する。一例では、特徴抽出部１２０は、照合装置１０（図１）へ、話者識別用特徴のデータを送信する。なお、上述したＤＮＮの学習の際も、音声処理装置１００は、ここで説明した手順に従い、話者識別用特徴のデータを得て、話者を識別する情報と紐づけた話者識別用特徴のデータを、訓練用データとして、図示しない訓練用ＤＢ（訓練用データベース）に格納する。上述したＤＮＮは、訓練用ＤＢに格納された訓練用データを用いて、話者を識別するための学習を行う。

【0044】

以上で、本実施形態１に係わる音声処理装置１００の動作は終了する。

【0045】

（本実施形態の効果）
本実施形態の構成によれば、統合部１１０は、入力デバイスを用いて入力された音声データと、入力デバイスの周波数特性とを統合し、特徴抽出部１２０は、音声データと周波数特性とを統合することによって得られた統合特徴から、音声の話者を識別するための話者識別用特徴を抽出する。話者識別用特徴は、入力デバイスを用いて入力された音声の音響特徴に係わる情報だけでなく、入力デバイスの周波数特性に係わる情報も含んでいる。そのため、音声認証システム１の照合装置１０は、登録時に音声の入力に用いられた入力デバイスと、照合時に音声の入力に用いられた入力デバイスとの同異によらず、話者識別用特徴に基づいて、高精度に話者照合することができる。

【0046】

ただし、登録時に音声の入力に用いられる入力デバイスは、照合時に音声の入力に用いられる入力デバイスと比較して、広帯域に感度を有することが望ましい。より具体的には、登録時に音声の入力に用いられる入力デバイスの使用帯域（感度を有する帯域）は、照合時に音声の入力に用いられる入力デバイスの使用帯域を包含しているとよい。

【0047】

〔実施形態２〕
図７～図８を参照して、音声処理装置２００に関し、実施形態２として説明する。

【0048】

（音声処理装置２００）
図７を参照して、本実施形態２に係わる音声処理装置２００の構成を説明する。図７は、音声処理装置２００の構成を示すブロック図である。図７に示すように、音声処理装置２００は、統合部２１０および特徴抽出部１２０を備えている。

【0049】

統合部２１０は、入力デバイスを用いて入力された音声データと、入力デバイスの周波数特性とを統合する。統合部２１０は、統合手段の一例である。図７に示すように、統合部２１０は、特性ベクトル算出部２１１、音声変換部２１２、および結合部２１３を備えている。

【0050】

特性ベクトル算出部２１１は、周波数ビンごとに、周波数の一帯域（周波数ビンを含む所定の幅の帯域）における入力デバイスの感度の平均値を算出し、周波数ビンごとに算出した平均値を、特性ベクトル（デバイス特徴の一例である）の要素とする。特性ベクトルは、入力デバイスに固有の周波数特性を示す。特性ベクトル算出部２１１は、特性ベクトル算出手段の一例である。

【0051】

一例では、統合部２１０の特性ベクトル算出部２１１は、ＤＢ（図１）あるいは図示しない入力部から、入力デバイスに関するデータを取得する。入力デバイスに関するデータは、入力デバイスを識別する情報、および、入力デバイスの感度を示すデータを含む。特性ベクトル算出部２１１は、入力デバイスの感度を示すデータから、周波数ビンごとに、周波数の一帯域（周波数ビンを含む所定の幅の帯域）における入力デバイスの感度の平均値を算出する。次に、特性ベクトル算出部２１１は、周波数ビンごとの感度の平均値を要素として持つ特性ベクトルを算出する。そして、特性ベクトル算出部２１１は、算出した特性ベクトルのデータを、結合部２１３へ送信する。

【0052】

音声変換部２１２は、音声データを、時間領域から周波数領域へ変換することによって、音響ベクトル列（音響特徴の一例である）を得る。ここで、音響ベクトル列は、所定の時間幅ごとの音響ベクトルの時系列を表す。音声変換部２１２は、音声変換手段の一例である。

【0053】

一例では、統合部２１０の音声変換部２１２は、入力デバイスから、照合音声データを受信し、また、ＤＢから、登録音声データを取得する。音声変換部２１２は、高速フーリエ変換（ＦＦＴ；fast Fourier transform）によって、音声データを、所定の時間幅ごとの振幅スペクトルデータに変換する。

【0054】

さらに、音声変換部２１２は、フィルタバンクを用いて、所定の時間幅ごとの振幅スペクトルデータを、所定の周波数帯域ごとに分割してもよい。

【0055】

音声変換部２１２は、所定の時間幅ごとの振幅スペクトルデータ（あるいはフィルタバンクを用いてそれを所定の周波数帯域ごとに分割したもの）から、複数の特徴量を得る。そして、音声変換部２１２は、取得した複数の特徴量で構成される音響ベクトルを生成する。一例では、特徴量は、所定の周波数の範囲ごとの音響の強度である。こうして、音声変換部２１２は、所定の時間幅ごとの音響ベクトルの時系列（以下では、音響ベクトル列と呼ぶ）を得る。そして、音声変換部２１２は、算出した音響ベクトル列のデータを、結合部２１３へ送信する。

【0056】

結合部２１３は、音響ベクトル列（音響特徴の一例である）と特性ベクトル（デバイス特徴の一例である）とを「結合」することによって、特性－音響ベクトル列（統合特徴の一例である）を得る。

【0057】

一例では、統合部２１０の結合部２１３は、特性ベクトル算出部２１１から、特性ベクトルのデータを受信する。また、結合部２１３は、音声変換部２１２から、音響ベクトル列のデータを受信する。

【0058】

そして、結合部２１３は、音響ベクトル列の各音響ベクトルの次元を拡張して、特性ベクトルの要素を、音響ベクトル列のそれぞれの次元を拡張した音響ベクトルの要素として追加する。

【0059】

結合部２１３は、このようにして得られた特性－音響ベクトル列のデータを、特徴抽出部１２０へ出力する。

【0060】

特徴抽出部１２０は、音響ベクトル列（音響特徴の一例である）と特性ベクトル（デバイス特徴の一例である）とを結合することによって得られた特性－音響ベクトル列（統合特徴の一例である）から、音声の話者を識別するための話者識別用特徴を抽出する。特徴抽出部１２０は、特徴抽出手段の一例である。

【0061】

一例では、特徴抽出部１２０は、統合部２１０の結合部２１３から、特性－音響ベクトル列のデータを受信する。特徴抽出部１２０は、学習済のＤＮＮ（図５）へ、特性－音響ベクトル列のデータを入力する。特徴抽出部１２０は、学習済のＤＮＮの中間層から、特性－音響ベクトル列に基づく統合特徴を取得する。統合特徴は、特性－音響ベクトル列から抽出された特徴である。

【0062】

特徴抽出部１２０は、特性－音響ベクトル列に基づく統合特徴のデータを、照合装置１０（図１）へ出力する。

【0063】

（変形例）
本変形例では、照合時に使用される入力デバイスと、登録時に使用される入力デバイスとがどちらも感度を持つ有効帯域の共通部分において、登録時の音響ベクトル（話者識別用特徴Ａ）と、照合時の音響ベクトル（話者識別用特徴Ｂ）とを照合する。

【0064】

本変形例に係わる特性ベクトル算出部２１１は、入力デバイスＡの感度の周波数特性を示す第１の特性ベクトルと、入力デバイスＢの感度の周波数特性を示す第２の特性ベクトルとを合成（後述）することによって、第３の特性ベクトルを得る。

【0065】

本変形例に係わる特性ベクトル算出部２１１は、このようにして算出した第３の特性ベクトルのデータを、結合部２１３へ出力する。

【0066】

結合部２１３は、２つの特性ベクトルの合成により得られた第３の特性ベクトルを、登録時の音響ベクトル（話者識別用特徴Ａの一例）、および、照合時の音響ベクトル（話者識別用特徴Ｂの一例）のそれぞれに乗算する。

【0067】

照合時に使用される入力デバイスおよび登録時に使用される入力デバイスの少なくとも一方が感度を持たない帯域では、第３の特性ベクトルの値がゼロである。そのため、第３の特性ベクトルを掛け合わされた音響ベクトルの値も、２つの入力デバイスが感度を有する有効帯域の共通部分以外では、値がゼロになる。

【0068】

このようにして、話者識別用特徴Ａの有効帯域、および、話者識別用特徴Ｂの有効帯域は同じになる。これにより、照合装置１０（図１）は、同じ有効帯域を持つ話者識別用特徴Ａと話者識別用特徴Ｂとを照合することができる。

【0069】

本変形例における２つの特性ベクトルの合成について、より詳細に説明する。特性ベクトル算出部２１１は、第１の特性ベクトルのｎ番目の要素（ｆｎ）と、第２の特性ベクトルの対応する要素（ｇｎ）とを比較する。そして、特性ベクトル算出部２１１は、これらの２つの要素（ｆｎ，ｇｎ）のうち小さいほうを、第３の特性ベクトルの対応する要素とする。あるいは、特性ベクトル算出部２１１は、第１の特性ベクトルのｎ番目の要素（ｆｎ）と、第２の特性ベクトルの対応する要素（ｇｎ）との相乗平均√（ｆｎ×ｇｎ）を、第３の特性ベクトルのｎ番目の要素としてもよい。あるいはまた、特性ベクトル算出部２１１は、第１の特性ベクトルおよび第２の特性ベクトルを、図示しないＤＮＮへ入力し、ＤＮＮの中間層から、第１の特性ベクトルおよび第２の特性ベクトルの両者の有効帯域の共通部分以外の成分に値０が重み付けられた第３の特性ベクトルを抽出してもよい。

【0070】

（音声処理装置２００の動作）
図８を参照して、本実施形態２に係わる音声処理装置２００の動作を説明する。図８は、音声処理装置２００が実行する処理の流れを示すフローチャートである。

【0071】

図８に示すように、統合部２１０の特性ベクトル算出部２１１は、ＤＢ（図１）あるいは図示しない入力部から、入力デバイスに関するデータを取得する（Ｓ２０１）。入力デバイスに関するデータは、入力デバイスを識別する情報、および、入力デバイスの周波数特性（図３）を示すデータを含む。

【0072】

特性ベクトル算出部２１１は、入力デバイスの周波数特性を示すデータから、周波数ビンごとに、周波数の一帯域（周波数ビンを含む所定の幅の帯域）における入力デバイスの感度の平均値を算出する。特性ベクトル算出部２１１は、算出した周波数ビンごとの感度の平均値を要素として持つ特性ベクトルを算出する（Ｓ２０２）。そして、特性ベクトル算出部２１１は、算出した特性ベクトルのデータを、結合部２１３へ送信する。

【0073】

音声変換部２１２は、フィルタバンクを用いて、音声データを対象として周波数分析を実行し、所定の時間幅ごとの振幅スペクトルデータを得る。さらに、音声変換部２１２は、所定の時間幅ごとの振幅スペクトルデータから、上述した音響ベクトル列を算出する（Ｓ２０３）。そして、音声変換部２１２は、算出した音響ベクトル列のデータを、結合部２１３へ送信する。

【0074】

結合部２１３は、入力デバイスを用いて入力された音声データに基づく音響ベクトル列（音響特徴の一例である）と、入力デバイスの周波数特性に関する特性ベクトル（デバイス特徴の一例である）とを結合することによって、特性－音響ベクトル列（統合特徴の一例である）を算出する（Ｓ２０４）。結合部２１３は、このようにして得られた特性－音響ベクトル列のデータを、特徴抽出部１２０へ出力する。

【0075】

特徴抽出部１２０は、統合部２１０の結合部２１３から、特性－音響ベクトル列のデータを受信する。特徴抽出部１２０は、特性－音響ベクトル列から、話者識別用特徴を抽出する（Ｓ２０５）。具体的には、特徴抽出部１２０は、登録音声データに基づく特性－音響ベクトル列から、話者識別用特徴Ａ（図１）を抽出し、照合音声データに基づく特性－音響ベクトル列から、話者識別用特徴Ｂ（図１）を抽出する。

【0076】

特徴抽出部１２０は、このようにして得られた話者識別用特徴のデータを出力する。一例では、特徴抽出部１２０は、照合装置１０（図１）へ、話者識別用特徴のデータを送信する。

【0077】

以上で、本実施形態２に係わる音声処理装置２００の動作は終了する。

【0078】

（本実施形態の効果）
本実施形態の構成によれば、統合部２１０は、入力デバイスを用いて入力された音声データと、入力デバイスの周波数特性とを統合し、特徴抽出部１２０は、音声データと周波数特性とを統合することによって得られた統合特徴から、音声の話者を識別するための話者識別用特徴を抽出する。話者識別用特徴は、入力デバイスを用いて入力された音声の音響特徴に係わる情報だけでなく、入力デバイスの周波数特性に係わる情報も含んでいる。そのため、音声認証システム１の照合装置１０は登録時に音声の入力に用いられた入力デバイスと、照合時に音声の入力に用いられた入力デバイスとの同異によらず、話者識別用特徴に基づいて、高精度に話者照合することができる。

【0079】

より具体的には、統合部２１０は、周波数ビンごとに、入力デバイスの感度の平均値を算出し、周波数ビンごとに算出した平均値を、特性ベクトルの要素とする特性ベクトル算出部２１１を備えている。特性ベクトルは、入力デバイスの周波数特性を示す。

【0080】

また統合部２１０は、フィルタバンクを用いて、音声を時間領域から周波数領域へフーリエ変換することによって、音響ベクトル列を得る音声変換部２１２を備えている。統合部２１０は、音響ベクトル列と特性ベクトルとを結合することによって、特性－音響ベクトル列を得る結合部２１３を備えている。これにより、音響特徴である音響ベクトル列と、デバイス特徴である特性ベクトルとが結合された特性－音響ベクトル列を得ることができる。

【0081】

さらに、特徴抽出部１２０は、特性－音響ベクトル列に基づいて、話者識別用特徴を得ることができる。そのため、上述したように、音声認証システム１の照合装置１０は、話者識別用特徴に基づいて、高精度に話者照合することができる。

【0082】

〔ハードウェア構成〕
前記実施形態１～２で説明した音声処理装置１００、２００の各構成要素は、機能単位のブロックを示している。これらの構成要素の一部又は全部は、例えば図９に示すような情報処理装置９００により実現される。図９は、情報処理装置９００のハードウェア構成の一例を示すブロック図である。

【0083】

図９に示すように、情報処理装置９００は、一例として、以下のような構成を含む。

【0084】

・ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９０１
・ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０２
・ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０３
・ＲＡＭ９０３にロードされるプログラム９０４
・プログラム９０４を格納する記憶装置９０５
・記録媒体９０６の読み書きを行うドライブ装置９０７
・通信ネットワーク９０９と接続する通信インタフェース９０８
・データの入出力を行う入出力インタフェース９１０
・各構成要素を接続するバス９１１
前記実施形態１～２で説明した音声処理装置１００、２００の各構成要素は、これらの機能を実現するプログラム９０４をＣＰＵ９０１が読み込んで実行することで実現される。各構成要素の機能を実現するプログラム９０４は、例えば、予め記憶装置９０５やＲＯＭ９０２に格納されており、必要に応じてＣＰＵ９０１がＲＡＭ９０３にロードして実行される。なお、プログラム９０４は、通信ネットワーク９０９を介してＣＰＵ９０１に供給されてもよいし、予め記録媒体９０６に格納されており、ドライブ装置９０７が当該プログラムを読み出してＣＰＵ９０１に供給してもよい。

【0085】

上記の構成によれば、前記実施形態１～２において説明した音声処理装置１００、２００が、ハードウェアとして実現される。したがって、前記実施形態１～２において説明した効果と同様の効果を奏することができる。

【産業上の利用可能性】

【0086】

本発明は、一例では、入力デバイスを用いて入力された音声のデータを分析することによって、本人確認を行う音声認証システムに利用することができる。

【符号の説明】

【0087】

１音声認証システム
１０照合装置
１００音声処理装置
１１０統合部
１２０特徴抽出部
２００音声処理装置
２１０統合部
２１１特性ベクトル算出部
２１２音声変換部

【図1】