7192982 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

7192982認識装置、認識方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-12-12

(45)【発行日】2022-12-20

(54)【発明の名称】認識装置、認識方法、およびプログラム

(51)【国際特許分類】

A61B 5/117 20160101AFI20221213BHJP

G10L 25/51 20130101ALI20221213BHJP

【ＦＩ】

A61B5/117

G10L25/51

【請求項の数】 12

(21)【出願番号】P 2021523087

(86)(22)【出願日】2018-10-29

(65)【公表番号】

(43)【公表日】2022-01-14

(86)【国際出願番号】 JP2018040183

(87)【国際公開番号】W WO2020089983

(87)【国際公開日】2020-05-07

【審査請求日】2021-04-26

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】110002044

【氏名又は名称】弁理士法人ブライタス

(72)【発明者】

【氏名】マハトシワンギ

(72)【発明者】

【氏名】荒川隆行

【審査官】▲高▼ 芳徳

(56)【参考文献】

【文献】国際公開第２０１７／０６９１１８（ＷＯ，Ａ１）

【文献】米国特許出願公開第２０１５／００９６３７９（ＵＳ，Ａ１）

【文献】MULLER,M. et al.，Signal Processing for Music Analysis，IEEE Journal of Selected Topics in Signal Processing，2011年10月，Vol.5, No.6，p.1088-1110

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ａ６１Ｂ５／１１７

Ｇ０６Ｆ２１／３２

Ｇ１０Ｌ２５／４８－２５／５１

(57)【特許請求の範囲】

【請求項1】

耳音響を認識することにより生体認証を行うための装置であって、
入力耳音響データを読み取り、入力耳音響データからイヤホンの共振効果を除去して、出力として正規化されたデータを生成する、特徴正規化器と、
前記正規化されたデータから音響特徴を抽出する、特徴抽出器と、
入力として前記音響特徴を読み取り、読み取った前記音響特徴をそれらに対応するクラスに分類する、分類器と、
を備え、
前記特徴正規化器が、入力耳音響データをキャプチャするために用いられるイヤホンのタイプに応じて、入力耳音響データを読み取り、イヤホンの音響共鳴が格納された辞書においてイヤホンの音響共鳴を検索し、検索したイヤホンの音響共鳴を、入力耳音響データから除去して、正規化した耳音響データを生成し、これを出力する、
ことを特徴とする認識装置。

【請求項2】

請求項１に記載の認識装置であって、
前記辞書における前記イヤホンの音響共鳴は、内部に前記イヤホンが取り付けられた中空管の音響応答をキャプチャし、中空管の音響応答からイヤホンの音響共鳴を分離することによって作成されている、
ことを特徴とする認識装置。

【請求項3】

請求項２に記載の認識装置であって、
前記イヤホンの音響共鳴は、キャプチャされた音響応答から、イヤホンに共通の信号成分と、個々のイヤホンに固有の信号成分と、を抽出するブラインド音源分離によって取得される、
ことを特徴とする認識装置。

【請求項4】

請求項３に記載の認識装置であって、
前記イヤホンの音響共鳴は、ブラインド音源分離技術として、非負行列因子分解を使用することによって取得される、
ことを特徴とする認識装置。

【請求項5】

コンピュータが耳音響を認識することにより生体認証を行うための方法であって、
（ａ）入力耳音響データを読み取り、入力耳音響データからイヤホンの共振効果を除去して、出力として正規化されたデータを生成する、ステップと、
（ｂ）前記正規化されたデータから音響特徴を抽出する、ステップと、
（ｃ）入力として前記音響特徴を読み取り、読み取った前記音響特徴をそれらに対応するクラスに分類する、ステップと、
を有し、
前記ステップ（ａ）において、入力耳音響データをキャプチャするために用いられるイヤホンのタイプに応じて、入力耳音響データを読み取り、イヤホンの音響共鳴が格納された辞書においてイヤホンの音響共鳴を検索し、検索したイヤホンの音響共鳴を、入力耳音響データから除去して、正規化した耳音響データを生成し、これを出力する、
ことを特徴とする認識方法。

【請求項6】

請求項５に記載の認識方法であって、
前記（ａ）のステップにおいて、前記辞書における前記イヤホンの音響共鳴は、内部に前記イヤホンが取り付けられた中空管の音響応答をキャプチャし、中空管の音響応答からイヤホンの音響共鳴を分離することによって作成されている、
ことを特徴とする認識方法。

【請求項7】

請求項６に記載の認識方法であって、
前記（ａ）のステップにおいて、前記イヤホンの音響共鳴は、キャプチャされた音響応答から、イヤホンに共通の信号成分と、個々のイヤホンに固有の信号成分と、を抽出するブラインド音源分離によって取得される、
ことを特徴とする認識方法。

【請求項8】

請求項７に記載の認識方法であって、
前記（ａ）のステップにおいて、前記イヤホンの音響共鳴は、ブラインド音源分離技術として、非負行列因子分解を使用することによって取得される、
ことを特徴とする認識方法。

【請求項9】

コンピュータによって耳音響を認識させて生体認証を行うためのプログラムであって、
前記コンピュータに、
（ａ）入力耳音響データを読み取り、入力耳音響データからイヤホンの共振効果を除去して、出力として正規化されたデータを生成する、ステップと、
（ｂ）前記正規化されたデータから音響特徴を抽出する、ステップと、
（ｃ）入力として前記音響特徴を読み取り、読み取った前記音響特徴をそれらに対応するクラスに分類する、ステップと、
を実行させ、
前記ステップ（ａ）において、入力耳音響データをキャプチャするために用いられるイヤホンのタイプに応じて、入力耳音響データを読み取り、イヤホンの音響共鳴が格納された辞書においてイヤホンの音響共鳴を検索し、検索したイヤホンの音響共鳴を、入力耳音響データから除去して、正規化した耳音響データを生成し、これを出力する、
プログラム。

【請求項10】

請求項９に記載のプログラムであって、
前記（ａ）のステップにおいて、前記辞書における前記イヤホンの音響共鳴は、内部に前記イヤホンが取り付けられた中空管の音響応答をキャプチャし、中空管の音響応答からイヤホンの音響共鳴を分離することによって作成されている、
ことを特徴とするプログラム。

【請求項11】

請求項１０に記載のプログラムであって、
前記（ａ）のステップにおいて、前記イヤホンの音響共鳴は、キャプチャされた音響応答から、イヤホンに共通の信号成分と、個々のイヤホンに固有の信号成分と、を抽出するブラインド音源分離によって取得される、
ことを特徴とするプログラム。

【請求項12】

請求項１１に記載のプログラムであって、
前記（ａ）のステップにおいて、前記イヤホンの音響共鳴は、ブラインド音源分離技術として、非負行列因子分解を使用することによって取得される、
ことを特徴とするプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、耳音響認識のための認識装置、認識方法に関し、更には、これらの装置または方法を実現するためのパタン認識プログラムに関する。

【背景技術】

【0002】

耳音響生体認証とは、外耳道の音響による人の生体認証を指します。耳介と外耳道との音響特性は、個人ごとに異なることが証明されており、個人を区別するための特徴として使用できます。

【0003】

個人の耳音響をキャプチャするために、プローブサウンド信号がイヤホンデバイスから個人の外耳道に送信され、エコー信号がイヤホンに内蔵されたマイクロフォンを介して記録されます。次に、プローブ信号とエコー信号とを使用して、認識のために個人の耳音響が抽出されます。耳音響生体認証における技術によれば、パタン認識システムは、キャプチャした耳音響を用いて人を認識します。

【0004】

パタン認識は、セキュリティ、監視、eコマースなどの日常的なアプリケーションだけでなく、農業、工学、科学などの技術的なアプリケーション、軍事及び国家安全保障などの注目を集める問題、といった様々な生活分野において広く利用されている。

【0005】

パタン認識システムのプロセスは、大きく２つのステップに分類できる。１つ目は入力信号の特徴を抽出するための特徴抽出であり、２つ目は抽出された特徴を入力信号に対応するクラス（クラス）に分類するための分類である。耳音響生体認証の場合、入力信号は、キャプチャされた耳音響であり、予測されたクラスは、認識されたユーザに対応するラベルである。

【0006】

パタン認識システムは、クラスに対応する特徴を学習し、学習した特徴を用いて、その分類器を訓練する。パタン認識を向上させるには、特徴は、クラスに関連した特性を持つべきである。また、特徴は、入力信号とノイズとの記録に使用されるチャネルのタイプなど、他の外部の特徴に依存しないようにするべきである。チャネルのタイプとノイズに依存すると、個人のクラス内変動が大きくなる。

【0007】

実世界のシナリオでは、個人の耳音響をキャプチャするために使用されるイヤホンのタイプは、度々、特徴抽出および分類プロセスのパフォーマンスに影響を与える。イヤホンの共振効果により、耳音響が損なわれ、そして、予測される特徴の特性は、イヤホンの性質に依存するため、満足できないものとなる。また、イヤホンの性質への依存は、異なる種類のイヤホンを使用してキャプチャされた個々の特徴間におけるミスマッチを生成し、その結果、認識パフォーマンスを低下させる。

【0008】

パタン認識装置において、上述した、予測される特徴の特性を維持するための１つのアプローチは、特徴正規化ブロックを適用して、イヤホンのタイプによって導かれる、特徴についての一般的な望ましくない変動を処理することである。上述の特徴正規化ブロックには、特徴を別の特徴空間に変換することにより、多次元の場合のクラス内分散又は共分散を、クラス間共分散と比較して可能な限り小さくすることが求められている。クラス内の変動を最小限に抑えるために、個人のキャプチャされた耳音響からイヤホンの共鳴効果を取り除くことが求められている。

【0009】

イヤホンによって生じる入力信号の歪みによる特徴空間のクラス内分散の増加及び／又はクラス間分散の減少の問題を処理するために、分類前に抽出された特徴に特徴正規化が適用される。正規化によれば、キャプチャされた個人の耳音響からイヤホンの共振効果が除去される。

【0010】

この方法の先行技術は、図８に示されるように、特許文献１に開示されている。図８は、先行技術のブロック図である。

【0011】

図８に示すように、特徴抽出器は、キャプチャされた耳音響データを入力（x）として読み取り、データから、Mel-frequency Cepstral Coefficients（MFCC）などの音響特徴を、（z）として抽出する。LDA / PLDAなどの分類器は、抽出された特徴を入力（z）として読み取り、それらのクラスラベル（l）を推定する。

【0012】

目的関数計算器は、入力特徴の元のラベル（o）と分類器によって推定されたクラスラベル（l）とを読み取る。目的関数計算器は、元のラベル（l）と推定されたクラスラベル（o）との間の分類誤差として、分類のコストを計算する。パラメータ更新器は、コスト関数が最小化するように分類器のパラメータを更新する。このプロセスは収束するまで続く。収束後、パラメータ更新器は、分類器のパラメータをストレージに格納する。

【0013】

テストフェーズでは、訓練データと同じイヤホンを使用して音響データがキャプチャされて、その音響特徴が生成されると仮定して、特徴抽出器は、入力テスト耳音響データを読み取る。次に、分類器は、ストレージから構造とパラメータとを読み取る。そして、分類器は、音響特徴を入力として読み取り、それらに対応するクラスを予測する。

【0014】

特許文献１は、複数の種類のイヤホンを使用してキャプチャされた個人の耳音響データの処理には限界があることを示している。特許文献１では、訓練データとテストデータとは同じ種類のイヤホンで取得されている必要がある。また、特許文献１は、キャプチャされた耳音響に対するイヤホンの共振の影響について処理していない。

【0015】

上述の方法では、キャプチャに使用されるイヤホンの性質が異なるため、個人のキャプチャされた耳音響に導入されたクラス内変動は処理されない。イヤホンが異なるために訓練データとテストデータとの間でドメインが一致していないので、結果、認識能力が低下し、ユーザに対して毎回同じイヤホンを使用することが課せられる。

【先行技術文献】

【特許文献】

【0016】

【文献】国際公開第２０１７／０６９１１８号

【発明の概要】

【発明が解決しようとする課題】

【0017】

次に、本発明の技術によって提供される技術的課題および解決策の要約を示す。

【0018】

クラス内の変動とノイズを処理するには、堅牢なパタン認識システムが非常に重要である。イヤホンの共振効果及びその他の要因による入力耳音響信号の歪みは、特徴空間のクラス間共分散に比べてクラス内共分散を大きくし、パタン認識の精度を低下させる。

【0019】

優れたパタン認識のために、特徴において重要となる特性の１つは、クラス間共分散に比べてクラス内共分散が小さいことである。特徴は、イヤホンの性質とその共振効果に依存するべきではない。

【0020】

耳音響データにおけるイヤホンの共振効果を処理するために、データをキャプチャするために使用されるイヤホンのラベルと種々のイヤホンの共振の辞書との助けを借りることで、音響データから共振効果を取り除くことが考えられる。

【0021】

しかしながら、特許文献１に開示された従来技術では、耳音響データをキャプチャするために用いられた様々なイヤホンによって導入されたクラス内変動は処理されていない。特許文献１に開示された技術では、テストと訓練とにおいて、同じイヤホンを使用することをユーザに課している。

【0022】

本発明の目的の一例は、上記の問題を解決し、音響データからイヤホンの共振効果を除去することができる、認識装置、認識方法、及びプログラムを提供することである。

【0023】

上記の実体に加えて、本発明が克服することができる他の自明で明確な問題は、詳細説明及び図面から明らかにされる。

【課題を解決するための手段】

【0024】

上記目的を達成するために、本発明の一面にかかる認識装置は、
入力耳音響データを読み取り、入力耳音響データからイヤホンの共振効果を除去して、出力として正規化されたデータを生成する、特徴正規化器と、
前記正規化されたデータから音響特徴を抽出する、特徴抽出器と、
入力として前記音響特徴を読み取り、読み取った前記音響特徴をそれらに対応するクラスに分類する、分類器と、
を備えている、ことを特徴とする。

【0025】

上記目的を達成するために、本発明の他の一面にかかる認識方法は、
（ａ）入力耳音響データを読み取り、入力耳音響データからイヤホンの共振効果を除去して、出力として正規化されたデータを生成する、ステップと、
（ｂ）前記正規化されたデータから音響特徴を抽出する、ステップと、
（ｃ）入力として前記音響特徴を読み取り、読み取った前記音響特徴をそれらに対応するクラスに分類する、ステップと、
を有する、ことを特徴とする。

【0026】

上記目的を達成するために、本発明の他の一面にかかるプログラムは、コンピュータによって耳音響を認識させるためのプログラムであって、
前記コンピュータに、
（ａ）入力耳音響データを読み取り、入力耳音響データからイヤホンの共振効果を除去して、出力として正規化されたデータを生成する、ステップと、
（ｂ）前記正規化されたデータから音響特徴を抽出する、ステップと、
（ｃ）入力として前記音響特徴を読み取り、読み取った前記音響特徴をそれらに対応するクラスに分類する、ステップと、
を実行させる、プログラム。

【発明の効果】

【0027】

本発明の効果は、以下のように、特徴の所望の特性を備えた、訓練済の特徴正規化ブロックが得られることである。
中空管の音響共鳴の性質を利用して、各種イヤホンの音響共鳴が収集される。
キャプチャされた個人の耳音響からイヤホンの音響共鳴が除かれるので、クラス内変動が低減され、耳音響特徴はより適切に表現される。
追加されたブロックにより、分類精度の向上が図られる。

【0028】

従って、本発明は、いくつかのステップと、１以上のこれらのステップと他のステップとの関係と、装置とで構成される。装置は、このようなステップに影響を与えるように適合された、構造、要素の組み合わせ、及び部品の配置の特徴を具体化する。全ては、以下の詳細な開示、即ち、図面の説明及び詳細な説明に例示される。本発明の範囲は、特許請求の範囲によって示される。

【図面の簡単な説明】

【0029】

図面は、詳細な説明とともに、本発明の方法の原理を説明するのに役立つ。図面は説明のためのものであり、技術の適用を制限するものではない。

【図1】図１は、本発明の実施形態の一例における認識装置の概略構成を示すブロック図である。

【図2】図２は、本発明の実施形態における認識装置の特定の構成を訓練段階とテスト段階に分けて示すブロック図である：正規化された耳音響データを使用する耳認識システムにおける分類器の訓練。

【図3】図３は、図２に示した特徴正規化器の２段階処理を示すブロック図である。最初のステップは、耳認識システムで使用するためのイヤホンの共振ディレクトリの準備のためのステップであり、２番目のステップは、認識に用いるブロックによって実行されるステップである。

【図4】図４は、本発明の実施の形態における認識装置によって実行される訓練段階の動作を示すフロー図である：正規化された耳音響データによる分類器の訓練。

【図5】図５は、本発明の実施形態における認識装置によって実行される試行段階での分類処理を示すフロー図である。図５は、訓練された分類器を使用した分類を示している。

【図6】図６は、本発明の実施形態における認識装置によって実行される試行段階での変換処理を示すフロー図である。図６は、特徴変換のための分類器における訓練済のマトリックスの使用による、識別可能な特徴の取得を示している。

【図7】図７は、本発明の実施形態における認識装置を実現するコンピュータの一例を示すブロック図である。

【図8】図８は、従来技術におけるブロック図である。これは、訓練及びテスト段階で使用されるイヤホンとして同じ種類を用いる必要がある、現在の最先端の耳音響認識システムである。

【発明を実施するための形態】

【0030】

（発明の原理）
次に、これらすべての問題の解決策の概要を示す。上記の技術的な問題を解決するために、全体的なアプローチをここに要約する。アプローチには、訓練段階とテスト段階との２つの段階がある。

【0031】

訓練段階では、特徴正規化ブロックが、訓練耳音響データを読み取り、イヤホンの共振効果を除去することにより、正規化データを出力として生成する。音響特徴抽出器は、正規化データを入力として読み取り、対応する音響特徴を抽出する。

【0032】

分類器は、抽出された特徴を入力として読み取り、それらのクラスラベルを推定する。目的関数計算器は、入力特徴の元のラベルと、分類器によって推定されたクラスラベルとを読み取る。目的関数計算器は、元のラベルと推定されたクラスラベルとの間の分類誤差として、分類のコストを計算する。

【0033】

パラメータ更新器は、コスト関数の最小化に従って分類器のパラメータを更新する。このプロセスは、収束するまで続く。収束後、パラメータ更新器は、分類器のパラメータをストレージに格納する。

【0034】

訓練段階では、特徴正規化ブロックは、与えられたテスト音響データを読み取り、正規化データを生成する。次に、特徴抽出器は、正規化データを入力として読み取り、対応する音響特徴を抽出する。これに続いて、分類器は、抽出された音響特徴を入力として読み取り、対応するクラスを予測する。

【0035】

特徴正規化ブロックは、２ステップの処理で構成されている。第１のステップでは、様々な種類のイヤホンの音響共鳴の辞書が用意される。この第１のステップは、耳音響認識システムでブロックを使用する前に実行される。

【0036】

このステップでは、第１に、収集器が、ホワイトノイズを送信することにより、マイク一体型イヤホンの助けを借りて、中空円筒管の音響応答を収集する。第２に、分離器は、中空管の記録された音響応答のそれぞれに対して音源分離を実行し、例えば、非負行列因子分解音源分離を行うための信号処理によって、捕捉された中空管の共鳴から、イヤホンの共鳴を分離する。第３に、ストレージは、イヤホンの種類をラベルとして、イヤホンの分離された音響共鳴を辞書に格納する。

【0037】

ブロックにおける２番目のステップでは、入力された耳音響特徴の正規化のための訓練段階及びテスト段階の両方がシステム上で実行される。このステップでは、共鳴除去器が、入力された耳音響データと、それをキャプチャするために使用されたイヤホンの種類とを読み取る。

【0038】

次に、第１のステップで用意された辞書から使用済みイヤホンの音響共鳴が検索される。その後、共鳴除去器は、入力データからイヤホンの共鳴を除去し、正規化されたデータを出力として提供する。共鳴除去器では、直接の減算技術又は幾つかの音源分離技術が、除去の目的ために使用される。

【0039】

（実施の形態）
以下、本発明の実施の形態の一例における、認識装置、認識方法、及びプログラムについて、図１から６を参照して詳細に説明する。実装について、完全に詳細に説明する。例示的な図面とともに、ここで提供される説明は、本発明を実施するための当業者に確固たるガイドを提供するためのものである。

【0040】

［装置構成］
最初に、実施の形態における認識装置の概略構成を説明する。図１は、本発明の実施の形態における認識装置の概略構成を示すブロック図である。

【0041】

図１に示す実施の形態における認識装置１００は、耳音響の認識のための装置である。図１に示されるように、認識装置１００は、特徴正規化器１０１と、特徴抽出器１０２と、分類器１０３とを備えている。

【0042】

特徴正規化器１０１は、入力耳音響データを読み取り、入力耳音響データからイヤホンの共振効果を除去して、出力として正規化されたデータを生成する。特徴抽出器１０２は、正規化されたデータから音響特徴を抽出する。分類器１０３は、入力として音響特徴を読み取り、読み取った音響特徴をそれらに対応するクラスに分類する。

【0043】

このように、認識装置１００では、イヤホンの共振効果が音響データから除去される。このため、パタン認識の精度を向上させることができる。

【0044】

次に、実施形態における認識装置１００の構成について、図２及び図３を参照して詳細に説明する。

【0045】

図２は、本発明の実施形態における認識装置の特定の構成を訓練段階とテスト段階に分けて示すブロック図である。

【0046】

図２に示すように、認識装置は、特徴正規化器１０１、特徴抽出器１０２、及び分類器１０３に加えて、分類誤差をコスト関数として計算する目的関数計算器１０４と、パラメータ更新器１０５と、分類器１０３の構造及びパラメータを格納するストレージ１０６とを、更に備えている。

【0047】

訓練段階では、特徴正規化器１０１は、キャプチャされた耳の音響データｘ及びデータのキャプチャに使用されたイヤホンのタイプｔを読み取る。次に、特徴正規化器１０１は、イヤホンｔの共振を検索し、それを、入力された耳音響特徴から除去し、耳音響データｙを生成し、これを出力する。

【0048】

特徴抽出器１０２は、正規化された音響データｙを入力として読み取り、音響特徴ｚを抽出し、これを出力する。分類器１０３は、抽出された音響特徴ｚを入力として受け取り、それら音響特徴ｚを、対応するクラスｏに分類する。分類器１０３は、サポートベクトルマシン、又はニューラルネットワーク等の任意の分類器であれば良い。

【0049】

目的関数計算器１０４は、入力特徴ｏの推定クラスとクラスｌの元のラベルとの間の分類誤差１０４２としてコスト１０４１を計算する。パラメータ更新器１０５は、コスト最小化に従って分類器のパラメータを更新する。このプロセスは、コスト関数を減らすことができなくなる収束まで続きます。収束後、パラメータ更新器１０５は、訓練された分類器のパラメータをストレージ１０６に格納する。

【0050】

試行段階では、特徴正規化器１０１は、入力テストデータｘ’を読み取り、正規化されたデータを出力ｙ’として生成する。特徴抽出器１０２は、正規化されたデータを入力として読み取り、対応する特徴を出力ｚ’として抽出する。分類器１０３は、ストレージ１０６から、格納されている自身の構造及びパラメータをストレージ１０６から読み出す。分類器１０３は、テスト音響特徴を入力として読み取り、そのクラスを予測し、出力ｏ’として出力する。

【0051】

図３は、図２に示した特徴正規化器１０１の２段階処理を示すブロック図である。図２に示すように、特徴正規化器１０１は、収集器１０１１と、ストレージ１０１２と、分離器１０１３と、ストレージ１０１４と、共鳴除去器１０１５とを備えている。特徴正規化器１０１は、２段階の処理を実行する。

【0052】

第１のステップでは、ストレージ１０１２、分離器１０１３、及びストレージ１０１４において、中空管の音響共鳴を収集する収集器１０１１を用いた共鳴ディレクトリの準備が行われる。第２のステップでは、共鳴除去器１０１５を用いて共鳴の除去が行われる。

【0053】

第１のステップでは、収集器１０１１は、ホワイトノイズを送信することにより、マイク一体型イヤホンの助けを借りて、中空円筒管の音響応答を収集し、それをストレージ１０１２に格納する。

【0054】

次に、分離器１０１３は、中空管の記録された音響応答のそれぞれに対して音源分離を実行して、例えば、非負行列因子分解音源分離（ＮＭＦ）のための信号処理によって、捕捉された中空管の共振から、イヤホンの共鳴を分離する。

【0055】

ＮＭＦは、入力キャプチャされた音響データのスペクトログラムを読み取り、音源分離を実行して、２つの音源に対応する、２つのスペクトログラムを生成して出力する。１つの音源は、全ての入力、即ち、中空管の空気共鳴において共通の音源であり、もう１つの音源は、イヤホンの音響共鳴である。イヤホンのこの分離された音響共鳴は、ストレージ１０１４において、ラベルとして、イヤホンの種類と共に、辞書に格納される。

【0056】

第２のステップでは、共鳴除去器１０１５は、入力された耳音響データと、それをキャプチャするために使用されるイヤホンの種類とを、読み取る。次に、共鳴除去器１０１５は、共鳴辞書を構成しているストレージ１０１４において、使用されたイヤホンの音響共鳴を検索する。

【0057】

その後、共鳴除去器１０１５は、得られたイヤホンの共鳴を入力データから除去し、正規化されたデータを出力として提供する。共鳴除去器では、直接の減算技術又は幾つかの音源分離技術が、除去の目的ために使用される。耳音響のスペクトログラムが入力として使用される。

【0058】

［装置動作］
次に、本実施の形態における認識装置１００によって実行される動作について、図４、図５（ａ）、及び図５（ｂ）を参照して説明する。また、本実施の形態では、認識方法は、認識装置を動作させることによって実施される。従って、認識装置１００によって実行される動作についての以下の説明は、本実施の形態の認識方法の説明に代える。

【0059】

最初に、図４を参照して、訓練段階について説明する。図４は、本発明の実施形態における認識装置によって実行される訓練段階の動作を示すフロー図である。

【0060】

訓練段階では、特徴正規化器１０１は、訓練耳音響データ及びデータをキャプチャするために使用されるイヤホンのタイプを読み取る（ステップＡ０１）。次に、特徴正規化器１０１は、イヤホンの共鳴効果を除去することにより、正規化されたデータを生成して、これを出力する（ステップＡ０２）。次に、特徴抽出器１０２は、正規化されたデータを入力として読み取り、対応する音響特徴を抽出する（ステップＡ０３）。

【0061】

次に、分類器１０３は、抽出された特徴を入力として読み取り、それらのクラスラベルを推定する（ステップＡ０４）。次に、目的関数計算器１０４は、入力特徴の元のラベルおよび分類器によって推定されたクラスラベルを読み取る。目的関数計算器１０４は、元のラベルと推定されたクラスラベルとの間の分類誤差として分類のコストを計算する（ステップＡ０５）。

【0062】

次に、パラメータ更新器１０５は、コスト関数の最小化に従って分類器１０３のパラメータを更新する（ステップＡ０６）。パラメータ更新器１０５は、分類器１０３のパラメータが収束するまで（ステップＡ０７）、ステップＡ０６を実行し続ける。収束後、パラメータ更新器１０５は、分類器１０３のパラメータをストレージ１０６に格納する（ステップＡ０８）。

【0063】

次に、図５及び図６を参照して、試行段階について説明する。これらの図は、実施形態における２種類の試行段階を示している。第１のフロー図である図５は、訓練された分類器を使用した耳音響データの分類を示している。図５は、本発明の実施形態における認識装置によって実行される試行段階での分類処理を示すフロー図である。

【0064】

図５に示すように、最初に、特徴正規化器１０１は、入力テストデータと、イヤホンの種類と、を読み取る（ステップＢ０１）。次に、特徴正規化器１０１は、共鳴辞書からイヤホンの音響共鳴を特定する（ステップＢ０２）。次に、特徴正規化器１０１は、入力音響データからイヤホンの共鳴を除去し、出力として正規化されたデータを生成する（ステップＢ０３）。

【0065】

次に、特徴抽出器１０２は、正規化されたデータを入力として読み取り、対応する特徴を抽出し、これを出力する（ステップＢ０４）。その後、分類器１０３は、格納されている自身の構造及びパラメータをストレージ１０６から読み出す。分類器１０３は、入力としてテスト音響特徴を読み取り、そのクラスを予測して出力する（ステップＢ０５）。

【0066】

第２のフロー図である図６は、訓練された分類器を使用した耳音響データからの識別可能な特徴の抽出を示している。図６は、本発明の実施形態における認識装置によって実行される試行段階での変換処理を示すフロー図である。

【0067】

図６に示すように、最初に、特徴正規化器１０１は、入力テストデータと、イヤホンの種類と、を読み取る（ステップＣ０１）。次に、特徴正規化器１０１は、共鳴辞書からイヤホンの音響共鳴を特定する（ステップＣ０２）。次に、特徴正規化器１０１は、入力音響データからイヤホンの共鳴を除去し、出力として正規化されたデータを生成する（ステップＣ０３）。

【0068】

次に、特徴抽出器１０２は、正規化されたデータを入力として読み取り、対応する特徴を抽出して、これを出力する（ステップＣ０４）。次に、分類器１０３は、格納されている自身の構造及びパラメータをストレージから読み出す。次に、分類器１０３は、入力としてテスト音響特徴を読み取り、その訓練された行列を使用して、読み取ったテスト音響特徴を識別可能な特徴に変換する（ステップＣ０５）。

【0069】

［プログラム］
実施の形態におけるプログラムは、コンピュータに、図４に示すステップＡ０１～Ａ０８、図５に示すステップＢ０１～Ｂ０５、及び図６に示すステップＣ０１～Ｃ０５を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールして実行することによって、実施の形態における認識装置１００及び認識方法を実現することができる。この場合、コンピュータのプロセッサは、特徴正規化器１０１、特徴抽出器１０２、分類器１０３、目的関数計算器１０４、及びパラメータ更新器１０５として機能し、処理を実行する。

【0070】

また、実施の形態におけるプログラムは、複数のコンピュータで構成されたコンピュータシステムによって実行されても良い。この場合、コンピュータが、それぞれ、特徴正規化器１０１、特徴抽出器１０２、分類器１０３、目的関数計算器１０４、及びパラメータ更新器１０５として機能し、処理を実行する。

【0071】

［物理構成］
ここで、実施の形態におけるプログラムを実行することによって、認識装置を実現するコンピュータについて図７を用いて説明する。図７は、本発明の実施の形態における認識装置を実現するコンピュータの一例を示すブロック図である。

【0072】

図７に示すように、コンピュータ１０は、ＣＰＵ（Central Processing Unit）１１と、メインメモリ１２と、記憶装置１３と、入力インターフェイス１４と、表示コントローラ１５と、データリーダ／ライタ１６と、通信インターフェイス１７とを備える。これらの各部は、バス２１を介して、互いにデータ通信可能に接続される。

【0073】

ＣＰＵ１１は、記憶装置１３に格納された、実施の形態におけるプログラム（コード）をメインメモリ１２に展開し、プログラムを所定順序で実行することにより、各種の演算を実施する。メインメモリ１２は、典型的には、ＤＲＡＭ（Dynamic Random Access Memory）等の揮発性の記憶装置である。実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体２０に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス１７を介して接続されたインターネット上で流通するものであっても良い。

【0074】

記憶装置１３の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス１４は、ＣＰＵ１１と、キーボード及びマウスといった入力機器１８との間のデータ伝送を仲介する。表示コントローラ１５は、ディスプレイ装置１９と接続され、ディスプレイ装置１９での表示を制御する。

【0075】

データリーダ／ライタ１６は、ＣＰＵ１１と記録媒体２０との間のデータ伝送を仲介し、記録媒体２０からのプログラムの読み出し、及びコンピュータ１０における処理結果の記録媒体２０への書き込みを実行する。通信インターフェイス１７は、ＣＰＵ１１と、他のコンピュータとの間のデータ伝送を仲介する。

【0076】

記録媒体２０の具体例としては、ＣＦ（Compact Flash（登録商標））及びＳＤ（Secure Digital）等の汎用的な半導体記憶デバイス、フレキシブルディスク（Flexible Disk）等の磁気記録媒体、又はＣＤ－ＲＯＭ（Compact Disk Read Only Memory）などの光学記録媒体が挙げられる。

【0077】

実施の形態における認識装置は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。更に、認識装置は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていてもよい。

【0078】

上述した実施の形態の一部又は全部は、以下に記載する（付記１）～（付記１５）によって表現することができるが、以下の記載に限定されるものではない。

【0079】

（付記１）
耳音響を認識するための装置であって、
入力耳音響データを読み取り、入力耳音響データからイヤホンの共振効果を除去して、出力として正規化されたデータを生成する、特徴正規化器と、
前記正規化されたデータから音響特徴を抽出する、特徴抽出器と、
入力として前記音響特徴を読み取り、読み取った前記音響特徴をそれらに対応するクラスに分類する、分類器と、
を備えている、
ことを特徴とする認識装置。

【0080】

（付記２）
付記１に記載の認識装置であって、
前記特徴正規化器が、入力耳音響データをキャプチャするために用いられるイヤホンのタイプに応じて、入力耳音響データを読み取り、イヤホンの音響共鳴の辞書においてイヤホンの耳音響共鳴を検索し、検索したイヤホンの音響共鳴を、入力耳音響データから除去して、正規化した耳音響データを生成し、これを出力する、
ことを特徴とする認識装置。

【0081】

（付記３）
付記２に記載の認識装置であって、
前記辞書における前記イヤホンの音響共鳴は、内部に前記イヤホンが取り付けられた中空管の音響応答をキャプチャし、中空管の音響応答からイヤホンの音響共鳴を分離することによって作成されている、
ことを特徴とする認識装置。

【0082】

（付記４）
付記３に記載の認識装置であって、
前記イヤホンの音響共鳴は、キャプチャされた音響応答から、イヤホンに共通の信号成分と、個々のイヤホンに固有の信号成分と、を抽出するブラインド音源分離によって取得される、
ことを特徴とする認識装置。

【0083】

（付記５）
付記４に記載の認識装置であって、
前記イヤホンの音響共鳴は、ブラインド音源分離技術として、非負行列因子分解を使用することによって取得される、
ことを特徴とする認識装置。

【0084】

（付記６）
耳音響を認識するための方法であって、
（ａ）入力耳音響データを読み取り、入力耳音響データからイヤホンの共振効果を除去して、出力として正規化されたデータを生成する、ステップと、
（ｂ）前記正規化されたデータから音響特徴を抽出する、ステップと、
（ｃ）入力として前記音響特徴を読み取り、読み取った前記音響特徴をそれらに対応するクラスに分類する、ステップと、
を有する、
ことを特徴とする認識方法。

【0085】

（付記７）
付記６に記載の認識方法であって、
前記ステップ（ａ）において、入力耳音響データをキャプチャするために用いられるイヤホンのタイプに応じて、入力耳音響データを読み取り、イヤホンの音響共鳴の辞書においてイヤホンの耳音響共鳴を検索し、検索したイヤホンの音響共鳴を、入力耳音響データから除去して、正規化した耳音響データを生成し、これを出力する、
ことを特徴とする認識方法。

【0086】

（付記８）
付記７に記載の認識方法であって、
前記（ａ）のステップにおいて、前記辞書における前記イヤホンの音響共鳴は、内部に前記イヤホンが取り付けられた中空管の音響応答をキャプチャし、中空管の音響応答からイヤホンの音響共鳴を分離することによって作成されている、
ことを特徴とする認識方法。

【0087】

（付記９）
付記８に記載の認識方法であって、
前記（ａ）のステップにおいて、前記イヤホンの音響共鳴は、キャプチャされた音響応答から、イヤホンに共通の信号成分と、個々のイヤホンに固有の信号成分と、を抽出するブラインド音源分離によって取得される、
ことを特徴とする認識方法。

【0088】

（付記１０）
付記９に記載の認識方法であって、
前記（ａ）のステップにおいて、前記イヤホンの音響共鳴は、ブラインド音源分離技術として、非負行列因子分解を使用することによって取得される、
ことを特徴とする認識方法。

【0089】

（付記１１）
コンピュータによって耳音響を認識させるためのプログラムであって、
前記コンピュータに、
（ａ）入力耳音響データを読み取り、入力耳音響データからイヤホンの共振効果を除去して、出力として正規化されたデータを生成する、ステップと、
（ｂ）前記正規化されたデータから音響特徴を抽出する、ステップと、
（ｃ）入力として前記音響特徴を読み取り、読み取った前記音響特徴をそれらに対応するクラスに分類する、ステップと、
を実行させる、プログラム。

【0090】

（付記１２）
付記１１に記載のプログラムであって、
前記ステップ（ａ）において、入力耳音響データをキャプチャするために用いられるイヤホンのタイプに応じて、入力耳音響データを読み取り、イヤホンの音響共鳴の辞書においてイヤホンの耳音響共鳴を検索し、検索したイヤホンの音響共鳴を、入力耳音響データから除去して、正規化した耳音響データを生成し、これを出力する、
ことを特徴とするプログラム。

【0091】

（付記１３）
付記１２に記載のプログラムであって、
前記（ａ）のステップにおいて、前記辞書における前記イヤホンの音響共鳴は、内部に前記イヤホンが取り付けられた中空管の音響応答をキャプチャし、中空管の音響応答からイヤホンの音響共鳴を分離することによって作成されている、
ことを特徴とするプログラム。

【0092】

（付記１４）
付記１３に記載のプログラムであって、
前記（ａ）のステップにおいて、前記イヤホンの音響共鳴は、キャプチャされた音響応答から、イヤホンに共通の信号成分と、個々のイヤホンに固有の信号成分と、を抽出するブラインド音源分離によって取得される、
ことを特徴とするプログラム。

【0093】

（付記１５）
付記１４に記載のプログラムであって、
前記（ａ）のステップにおいて、前記イヤホンの音響共鳴は、ブラインド音源分離技術として、非負行列因子分解を使用することによって取得される、
ことを特徴とするプログラム。

【0094】

最後のポイントとして、ここで説明および図示されているプロセス、技術、および方法論は、特定の装置に限定または関連していないことは明確である。コンポーネントの組み合わせを使用して実装できる。また、本明細書の指示に従って、様々なタイプの汎用装置を使用することもできる。本発明は、特定の例のセットを使用して説明されている。

【0095】

但し、これらは単なる例示であり、制限的なものではない。例えば、記載されたソフトウェアは、Ｃ＋＋、Ｊａｖａ、Ｐｙｔｈｏｎ、及びＰｅｒｌなどの多種多様な言語で実装される。更に、本発明の技術の他の実装は、当業者には明らかである。

【産業上の利用可能性】

【0096】

本発明によれば、音響データからイヤホンの共振効果を除去することが可能である。本発明は、耳音響の認識において有用である。

【符号の説明】

【0097】

１０コンピュータ
１１ＣＰＵ
１２メインメモリ
１３記憶装置
１４入力インターフェイス
１５表示コントローラ
１６データリーダ／ライタ
１７通信インターフェイス
１８入力機器
１９ディスプレイ装置
２０記録媒体
２１バス
１００認識装置
１０１特徴正規化器
１０２特徴抽出器
１０３分類器
１０４目的関数計算器
１０５パラメータ更新器
１０６ストレージ
１０１１収集器
１０１２ストレージ
１０１３分離器
１０１４ストレージ
１０１５共鳴除去器

【図1】