(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-12-12
(45)【発行日】2022-12-20
(54)【発明の名称】認識装置、認識方法、およびプログラム
(51)【国際特許分類】
A61B 5/117 20160101AFI20221213BHJP
G10L 25/51 20130101ALI20221213BHJP
【FI】
A61B5/117
G10L25/51
(21)【出願番号】P 2021523087
(86)(22)【出願日】2018-10-29
(86)【国際出願番号】 JP2018040183
(87)【国際公開番号】W WO2020089983
(87)【国際公開日】2020-05-07
【審査請求日】2021-04-26
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】110002044
【氏名又は名称】弁理士法人ブライタス
(72)【発明者】
【氏名】マハト シワンギ
(72)【発明者】
【氏名】荒川 隆行
【審査官】▲高▼ 芳徳
(56)【参考文献】
【文献】国際公開第2017/069118(WO,A1)
【文献】米国特許出願公開第2015/0096379(US,A1)
【文献】MULLER,M. et al.,Signal Processing for Music Analysis,IEEE Journal of Selected Topics in Signal Processing,2011年10月,Vol.5, No.6,p.1088-1110
(58)【調査した分野】(Int.Cl.,DB名)
A61B 5/117
G06F 21/32
G10L 25/48 - 25/51
(57)【特許請求の範囲】
【請求項1】
耳音響を認識することにより生体認証を行うための装置であって、
入力耳音響データを読み取り、入力耳音響データからイヤホンの共振効果を除去して、出力として正規化されたデータを生成する、特徴正規化器と、
前記正規化されたデータから音響特徴を抽出する、特徴抽出器と、
入力として前記音響特徴を読み取り、読み取った前記音響特徴をそれらに対応するクラスに分類する、分類器と、
を備え、
前記特徴正規化器が、入力耳音響データをキャプチャするために用いられるイヤホンのタイプに応じて、入力耳音響データを読み取り、イヤホンの音響共鳴が格納された辞書においてイヤホンの音響共鳴を検索し、検索したイヤホンの音響共鳴を、入力耳音響データから除去して、正規化した耳音響データを生成し、これを出力する、
ことを特徴とする認識装置。
【請求項2】
請求項1に記載の認識装置であって、
前記辞書における前記イヤホンの音響共鳴は、内部に前記イヤホンが取り付けられた中空管の音響応答をキャプチャし、中空管の音響応答からイヤホンの音響共鳴を分離することによって作成されている、
ことを特徴とする認識装置。
【請求項3】
請求項2に記載の認識装置であって、
前記イヤホンの音響共鳴は、キャプチャされた音響応答から、イヤホンに共通の信号成分と、個々のイヤホンに固有の信号成分と、を抽出するブラインド音源分離によって取得される、
ことを特徴とする認識装置。
【請求項4】
請求項3に記載の認識装置であって、
前記イヤホンの音響共鳴は、ブラインド音源分離技術として、非負行列因子分解を使用することによって取得される、
ことを特徴とする認識装置。
【請求項5】
コンピュータが耳音響を認識することにより生体認証を行うための方法であって、
(a)入力耳音響データを読み取り、入力耳音響データからイヤホンの共振効果を除去して、出力として正規化されたデータを生成する、ステップと、
(b)前記正規化されたデータから音響特徴を抽出する、ステップと、
(c)入力として前記音響特徴を読み取り、読み取った前記音響特徴をそれらに対応するクラスに分類する、ステップと、
を有し、
前記ステップ(a)において、入力耳音響データをキャプチャするために用いられるイヤホンのタイプに応じて、入力耳音響データを読み取り、イヤホンの音響共鳴が格納された辞書においてイヤホンの音響共鳴を検索し、検索したイヤホンの音響共鳴を、入力耳音響データから除去して、正規化した耳音響データを生成し、これを出力する、
ことを特徴とする認識方法。
【請求項6】
請求項5に記載の認識方法であって、
前記(a)のステップにおいて、前記辞書における前記イヤホンの音響共鳴は、内部に前記イヤホンが取り付けられた中空管の音響応答をキャプチャし、中空管の音響応答からイヤホンの音響共鳴を分離することによって作成されている、
ことを特徴とする認識方法。
【請求項7】
請求項6に記載の認識方法であって、
前記(a)のステップにおいて、前記イヤホンの音響共鳴は、キャプチャされた音響応答から、イヤホンに共通の信号成分と、個々のイヤホンに固有の信号成分と、を抽出するブラインド音源分離によって取得される、
ことを特徴とする認識方法。
【請求項8】
請求項7に記載の認識方法であって、
前記(a)のステップにおいて、前記イヤホンの音響共鳴は、ブラインド音源分離技術として、非負行列因子分解を使用することによって取得される、
ことを特徴とする認識方法。
【請求項9】
コンピュータによって耳音響を認識させて生体認証を行
うためのプログラムであって、
前記コンピュータに、
(a)入力耳音響データを読み取り、入力耳音響データからイヤホンの共振効果を除去して、出力として正規化されたデータを生成する、ステップと、
(b)前記正規化されたデータから音響特徴を抽出する、ステップと、
(c)入力として前記音響特徴を読み取り、読み取った前記音響特徴をそれらに対応するクラスに分類する、ステップと、
を実行させ、
前記ステップ(a)において、入力耳音響データをキャプチャするために用いられるイヤホンのタイプに応じて、入力耳音響データを読み取り、イヤホンの音響共鳴が格納された辞書においてイヤホンの音響共鳴を検索し、検索したイヤホンの音響共鳴を、入力耳音響デー
タから除去して、正規化した耳音響データを生成し、これを出力する、
プログラム。
【請求項10】
請求項9に記載のプログラムであって、
前記(a)のステップにおいて、前記辞書における前記イヤホンの音響共鳴は、内部に前記イヤホンが取り付けられた中空管の音響応答をキャプチャし、中空管の音響応答からイヤホンの音響共鳴を分離することによって作成されている、
ことを特徴とするプログラム。
【請求項11】
請求項10に記載のプログラムであって、
前記(a)のステップにおいて、前記イヤホンの音響共鳴は、キャプチャされた音響応答から、イヤホンに共通の信号成分と、個々のイヤホンに固有の信号成分と、を抽出するブラインド音源分離によって取得される、
ことを特徴とするプログラム。
【請求項12】
請求項11に記載のプログラムであって、
前記(a)のステップにおいて、前記イヤホンの音響共鳴は、ブラインド音源分離技術として、非負行列因子分解を使用することによって取得される、
ことを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、耳音響認識のための認識装置、認識方法に関し、更には、これらの装置または方法を実現するためのパタン認識プログラムに関する。
【背景技術】
【0002】
耳音響生体認証とは、外耳道の音響による人の生体認証を指します。耳介と外耳道との音響特性は、個人ごとに異なることが証明されており、個人を区別するための特徴として使用できます。
【0003】
個人の耳音響をキャプチャするために、プローブサウンド信号がイヤホンデバイスから個人の外耳道に送信され、エコー信号がイヤホンに内蔵されたマイクロフォンを介して記録されます。 次に、プローブ信号とエコー信号とを使用して、認識のために個人の耳音響が抽出されます。耳音響生体認証における技術によれば、パタン認識システムは、キャプチャした耳音響を用いて人を認識します。
【0004】
パタン認識は、セキュリティ、監視、eコマースなどの日常的なアプリケーションだけでなく、農業、工学、科学などの技術的なアプリケーション、軍事及び国家安全保障などの注目を集める問題、といった様々な生活分野において広く利用されている。
【0005】
パタン認識システムのプロセスは、大きく2つのステップに分類できる。1つ目は入力信号の特徴を抽出するための特徴抽出であり、2つ目は抽出された特徴を入力信号に対応するクラス(クラス)に分類するための分類である。耳音響生体認証の場合、入力信号は、キャプチャされた耳音響であり、予測されたクラスは、認識されたユーザに対応するラベルである。
【0006】
パタン認識システムは、クラスに対応する特徴を学習し、学習した特徴を用いて、その分類器を訓練する。パタン認識を向上させるには、特徴は、クラスに関連した特性を持つべきである。また、特徴は、入力信号とノイズとの記録に使用されるチャネルのタイプなど、他の外部の特徴に依存しないようにするべきである。チャネルのタイプとノイズに依存すると、個人のクラス内変動が大きくなる。
【0007】
実世界のシナリオでは、個人の耳音響をキャプチャするために使用されるイヤホンのタイプは、度々、特徴抽出および分類プロセスのパフォーマンスに影響を与える。イヤホンの共振効果により、耳音響が損なわれ、そして、予測される特徴の特性は、イヤホンの性質に依存するため、満足できないものとなる。また、イヤホンの性質への依存は、異なる種類のイヤホンを使用してキャプチャされた個々の特徴間におけるミスマッチを生成し、その結果、認識パフォーマンスを低下させる。
【0008】
パタン認識装置において、上述した、予測される特徴の特性を維持するための1つのアプローチは、特徴正規化ブロックを適用して、イヤホンのタイプによって導かれる、特徴についての一般的な望ましくない変動を処理することである。上述の特徴正規化ブロックには、特徴を別の特徴空間に変換することにより、多次元の場合のクラス内分散又は共分散を、クラス間共分散と比較して可能な限り小さくすることが求められている。クラス内の変動を最小限に抑えるために、個人のキャプチャされた耳音響からイヤホンの共鳴効果を取り除くことが求められている。
【0009】
イヤホンによって生じる入力信号の歪みによる特徴空間のクラス内分散の増加及び/又はクラス間分散の減少の問題を処理するために、分類前に抽出された特徴に特徴正規化が適用される。正規化によれば、キャプチャされた個人の耳音響からイヤホンの共振効果が除去される。
【0010】
この方法の先行技術は、
図8に示されるように、特許文献1に開示されている。
図8は、先行技術のブロック図である。
【0011】
図8に示すように、特徴抽出器は、キャプチャされた耳音響データを入力(x)として読み取り、データから、Mel-frequency Cepstral Coefficients(MFCC)などの音響特徴を、(z)として抽出する。LDA / PLDAなどの分類器は、抽出された特徴を入力(z)として読み取り、それらのクラスラベル(l)を推定する。
【0012】
目的関数計算器は、入力特徴の元のラベル(o)と分類器によって推定されたクラスラベル(l)とを読み取る。目的関数計算器は、 元のラベル(l)と推定されたクラスラベル(o)との間の分類誤差として、分類のコストを計算する。 パラメータ更新器は、コスト関数が最小化するように分類器のパラメータを更新する。このプロセスは収束するまで続く。収束後、パラメータ更新器は、分類器のパラメータをストレージに格納する。
【0013】
テストフェーズでは、訓練データと同じイヤホンを使用して音響データがキャプチャされて、その音響特徴が生成されると仮定して、特徴抽出器は、入力テスト耳音響データを読み取る。次に、分類器は、ストレージから構造とパラメータとを読み取る。そして、分類器は、音響特徴を入力として読み取り、それらに対応するクラスを予測する。
【0014】
特許文献1は、複数の種類のイヤホンを使用してキャプチャされた個人の耳音響データの処理には限界があることを示している。特許文献1では、訓練データとテストデータとは同じ種類のイヤホンで取得されている必要がある。また、特許文献1は、キャプチャされた耳音響に対するイヤホンの共振の影響について処理していない。
【0015】
上述の方法では、キャプチャに使用されるイヤホンの性質が異なるため、個人のキャプチャされた耳音響に導入されたクラス内変動は処理されない。イヤホンが異なるために訓練データとテストデータとの間でドメインが一致していないので、結果、認識能力が低下し、ユーザに対して毎回同じイヤホンを使用することが課せられる。
【先行技術文献】
【特許文献】
【0016】
【発明の概要】
【発明が解決しようとする課題】
【0017】
次に、本発明の技術によって提供される技術的課題および解決策の要約を示す。
【0018】
クラス内の変動とノイズを処理するには、堅牢なパタン認識システムが非常に重要である。イヤホンの共振効果及びその他の要因による入力耳音響信号の歪みは、特徴空間のクラス間共分散に比べてクラス内共分散を大きくし、パタン認識の精度を低下させる。
【0019】
優れたパタン認識のために、特徴において重要となる特性の1つは、クラス間共分散に比べてクラス内共分散が小さいことである。特徴は、イヤホンの性質とその共振効果に依存するべきではない。
【0020】
耳音響データにおけるイヤホンの共振効果を処理するために、データをキャプチャするために使用されるイヤホンのラベルと種々のイヤホンの共振の辞書との助けを借りることで、音響データから共振効果を取り除くことが考えられる。
【0021】
しかしながら、特許文献1に開示された従来技術では、耳音響データをキャプチャするために用いられた様々なイヤホンによって導入されたクラス内変動は処理されていない。特許文献1に開示された技術では、テストと訓練とにおいて、同じイヤホンを使用することをユーザに課している。
【0022】
本発明の目的の一例は、上記の問題を解決し、音響データからイヤホンの共振効果を除去することができる、認識装置、認識方法、及びプログラムを提供することである。
【0023】
上記の実体に加えて、本発明が克服することができる他の自明で明確な問題は、詳細説明及び図面から明らかにされる。
【課題を解決するための手段】
【0024】
上記目的を達成するために、本発明の一面にかかる認識装置は、
入力耳音響データを読み取り、入力耳音響データからイヤホンの共振効果を除去して、出力として正規化されたデータを生成する、特徴正規化器と、
前記正規化されたデータから音響特徴を抽出する、特徴抽出器と、
入力として前記音響特徴を読み取り、読み取った前記音響特徴をそれらに対応するクラスに分類する、分類器と、
を備えている、ことを特徴とする。
【0025】
上記目的を達成するために、本発明の他の一面にかかる認識方法は、
(a)入力耳音響データを読み取り、入力耳音響データからイヤホンの共振効果を除去して、出力として正規化されたデータを生成する、ステップと、
(b)前記正規化されたデータから音響特徴を抽出する、ステップと、
(c)入力として前記音響特徴を読み取り、読み取った前記音響特徴をそれらに対応するクラスに分類する、ステップと、
を有する、ことを特徴とする。
【0026】
上記目的を達成するために、本発明の他の一面にかかるプログラムは、コンピュータによって耳音響を認識させるためのプログラムであって、
前記コンピュータに、
(a)入力耳音響データを読み取り、入力耳音響データからイヤホンの共振効果を除去して、出力として正規化されたデータを生成する、ステップと、
(b)前記正規化されたデータから音響特徴を抽出する、ステップと、
(c)入力として前記音響特徴を読み取り、読み取った前記音響特徴をそれらに対応するクラスに分類する、ステップと、
を実行させる、プログラム。
【発明の効果】
【0027】
本発明の効果は、以下のように、特徴の所望の特性を備えた、訓練済の特徴正規化ブロックが得られることである。
中空管の音響共鳴の性質を利用して、各種イヤホンの音響共鳴が収集される。
キャプチャされた個人の耳音響からイヤホンの音響共鳴が除かれるので、クラス内変動が低減され、耳音響特徴はより適切に表現される。
追加されたブロックにより、分類精度の向上が図られる。
【0028】
従って、本発明は、いくつかのステップと、1以上のこれらのステップと他のステップとの関係と、装置とで構成される。装置は、このようなステップに影響を与えるように適合された、構造、要素の組み合わせ、及び部品の配置の特徴を具体化する。全ては、以下の詳細な開示、即ち、図面の説明及び詳細な説明に例示される。本発明の範囲は、特許請求の範囲によって示される。
【図面の簡単な説明】
【0029】
図面は、詳細な説明とともに、本発明の方法の原理を説明するのに役立つ。図面は説明のためのものであり、技術の適用を制限するものではない。
【
図1】
図1は、本発明の実施形態の一例における認識装置の概略構成を示すブロック図である。
【
図2】
図2は、本発明の実施形態における認識装置の特定の構成を訓練段階とテスト段階に分けて示すブロック図である:正規化された耳音響データを使用する耳認識システムにおける分類器の訓練。
【
図3】
図3は、
図2に示した特徴正規化器の2段階処理を示すブロック図である。最初のステップは、耳認識システムで使用するためのイヤホンの共振ディレクトリの準備のためのステップであり、2番目のステップは、認識に用いるブロックによって実行されるステップである。
【
図4】
図4は、本発明の実施の形態における認識装置によって実行される訓練段階の動作を示すフロー図である:正規化された耳音響データによる分類器の訓練。
【
図5】
図5は、本発明の実施形態における認識装置によって実行される試行段階での分類処理を示すフロー図である。
図5は、訓練された分類器を使用した分類を示している。
【
図6】
図6は、本発明の実施形態における認識装置によって実行される試行段階での変換処理を示すフロー図である。
図6は、特徴変換のための分類器における訓練済のマトリックスの使用による、識別可能な特徴の取得を示している。
【
図7】
図7は、本発明の実施形態における認識装置を実現するコンピュータの一例を示すブロック図である。
【
図8】
図8は、従来技術におけるブロック図である。これは、訓練及びテスト段階で使用されるイヤホンとして同じ種類を用いる必要がある、現在の最先端の耳音響認識システムである。
【発明を実施するための形態】
【0030】
(発明の原理)
次に、これらすべての問題の解決策の概要を示す。上記の技術的な問題を解決するために、全体的なアプローチをここに要約する。アプローチには、訓練段階とテスト段階との2つの段階がある。
【0031】
訓練段階では、特徴正規化ブロックが、訓練耳音響データを読み取り、イヤホンの共振効果を除去することにより、正規化データを出力として生成する。音響特徴抽出器は、正規化データを入力として読み取り、対応する音響特徴を抽出する。
【0032】
分類器は、抽出された特徴を入力として読み取り、それらのクラスラベルを推定する。目的関数計算器は、入力特徴の元のラベルと、分類器によって推定されたクラスラベルとを読み取る。目的関数計算器は、元のラベルと推定されたクラスラベルとの間の分類誤差として、分類のコストを計算する。
【0033】
パラメータ更新器は、コスト関数の最小化に従って分類器のパラメータを更新する。このプロセスは、収束するまで続く。収束後、パラメータ更新器は、分類器のパラメータをストレージに格納する。
【0034】
訓練段階では、特徴正規化ブロックは、与えられたテスト音響データを読み取り、正規化データを生成する。次に、特徴抽出器は、正規化データを入力として読み取り、対応する音響特徴を抽出する。これに続いて、分類器は、抽出された音響特徴を入力として読み取り、対応するクラスを予測する。
【0035】
特徴正規化ブロックは、2ステップの処理で構成されている。第1のステップでは、様々な種類のイヤホンの音響共鳴の辞書が用意される。この第1のステップは、耳音響認識システムでブロックを使用する前に実行される。
【0036】
このステップでは、第1に、収集器が、ホワイトノイズを送信することにより、マイク一体型イヤホンの助けを借りて、中空円筒管の音響応答を収集する。第2に、分離器は、中空管の記録された音響応答のそれぞれに対して音源分離を実行し、例えば、非負行列因子分解音源分離を行うための信号処理によって、捕捉された中空管の共鳴から、イヤホンの共鳴を分離する。第3に、ストレージは、イヤホンの種類をラベルとして、イヤホンの分離された音響共鳴を辞書に格納する。
【0037】
ブロックにおける2番目のステップでは、入力された耳音響特徴の正規化のための訓練段階及びテスト段階の両方がシステム上で実行される。このステップでは、共鳴除去器が、入力された耳音響データと、それをキャプチャするために使用されたイヤホンの種類とを読み取る。
【0038】
次に、第1のステップで用意された辞書から使用済みイヤホンの音響共鳴が検索される。その後、共鳴除去器は、入力データからイヤホンの共鳴を除去し、正規化されたデータを出力として提供する。共鳴除去器では、直接の減算技術又は幾つかの音源分離技術が、除去の目的ために使用される。
【0039】
(実施の形態)
以下、本発明の実施の形態の一例における、認識装置、認識方法、及びプログラムについて、
図1から6を参照して詳細に説明する。実装について、完全に詳細に説明する。例示的な図面とともに、ここで提供される説明は、本発明を実施するための当業者に確固たるガイドを提供するためのものである。
【0040】
[装置構成]
最初に、実施の形態における認識装置の概略構成を説明する。
図1は、本発明の実施の形態における認識装置の概略構成を示すブロック図である。
【0041】
図1に示す実施の形態における認識装置100は、耳音響の認識のための装置である。
図1に示されるように、認識装置100は、特徴正規化器101と、特徴抽出器102と、分類器103とを備えている。
【0042】
特徴正規化器101は、入力耳音響データを読み取り、入力耳音響データからイヤホンの共振効果を除去して、出力として正規化されたデータを生成する。特徴抽出器102は、正規化されたデータから音響特徴を抽出する。 分類器103は、入力として音響特徴を読み取り、読み取った音響特徴をそれらに対応するクラスに分類する。
【0043】
このように、認識装置100では、イヤホンの共振効果が音響データから除去される。 このため、パタン認識の精度を向上させることができる。
【0044】
次に、実施形態における認識装置100の構成について、
図2及び
図3を参照して詳細に説明する。
【0045】
図2は、本発明の実施形態における認識装置の特定の構成を訓練段階とテスト段階に分けて示すブロック図である。
【0046】
図2に示すように、認識装置は、特徴正規化器101、特徴抽出器102、及び分類器103に加えて、分類誤差をコスト関数として計算する目的関数計算器104と、パラメータ更新器105と、分類器103の構造及びパラメータを格納するストレージ106とを、更に備えている。
【0047】
訓練段階では、特徴正規化器101は、キャプチャされた耳の音響データx及びデータのキャプチャに使用されたイヤホンのタイプtを読み取る。次に、特徴正規化器101は、イヤホンtの共振を検索し、それを、入力された耳音響特徴から除去し、耳音響データyを生成し、これを出力する。
【0048】
特徴抽出器102は、正規化された音響データyを入力として読み取り、音響特徴zを抽出し、これを出力する。分類器103は、抽出された音響特徴zを入力として受け取り、それら音響特徴zを、対応するクラスoに分類する。分類器103は、サポートベクトルマシン、又はニューラルネットワーク等の任意の分類器であれば良い。
【0049】
目的関数計算器104は、入力特徴oの推定クラスとクラスlの元のラベルとの間の分類誤差1042としてコスト1041を計算する。パラメータ更新器105は、コスト最小化に従って分類器のパラメータを更新する。 このプロセスは、コスト関数を減らすことができなくなる収束まで続きます。 収束後、パラメータ更新器105は、訓練された分類器のパラメータをストレージ106に格納する。
【0050】
試行段階では、特徴正規化器101は、入力テストデータx’を読み取り、正規化されたデータを出力y’として生成する。特徴抽出器102は、正規化されたデータを入力として読み取り、対応する特徴を出力z’として抽出する。分類器103は、ストレージ106から、格納されている自身の構造及びパラメータをストレージ106から読み出す。分類器103は、テスト音響特徴を入力として読み取り、そのクラスを予測し、出力o’として出力する。
【0051】
図3は、
図2に示した特徴正規化器101の2段階処理を示すブロック図である。
図2に示すように、特徴正規化器101は、収集器1011と、ストレージ1012と、分離器1013と、ストレージ1014と、共鳴除去器1015とを備えている。特徴正規化器101は、2段階の処理を実行する。
【0052】
第1のステップでは、ストレージ1012、分離器1013、及びストレージ1014において、中空管の音響共鳴を収集する収集器1011を用いた共鳴ディレクトリの準備が行われる。第2のステップでは、共鳴除去器1015を用いて共鳴の除去が行われる。
【0053】
第1のステップでは、収集器1011は、ホワイトノイズを送信することにより、マイク一体型イヤホンの助けを借りて、中空円筒管の音響応答を収集し、それをストレージ1012に格納する。
【0054】
次に、分離器1013は、中空管の記録された音響応答のそれぞれに対して音源分離を実行して、例えば、非負行列因子分解音源分離(NMF)のための信号処理によって、捕捉された中空管の共振から、イヤホンの共鳴を分離する。
【0055】
NMFは、入力キャプチャされた音響データのスペクトログラムを読み取り、音源分離を実行して、2つの音源に対応する、2つのスペクトログラムを生成して出力する。1つの音源は、全ての入力、即ち、中空管の空気共鳴において共通の音源であり、もう1つの音源は、イヤホンの音響共鳴である。イヤホンのこの分離された音響共鳴は、ストレージ1014において、ラベルとして、イヤホンの種類と共に、辞書に格納される。
【0056】
第2のステップでは、共鳴除去器1015は、入力された耳音響データと、それをキャプチャするために使用されるイヤホンの種類とを、読み取る。次に、共鳴除去器1015は、共鳴辞書を構成しているストレージ1014において、使用されたイヤホンの音響共鳴を検索する。
【0057】
その後、共鳴除去器1015は、得られたイヤホンの共鳴を入力データから除去し、正規化されたデータを出力として提供する。共鳴除去器では、直接の減算技術又は幾つかの音源分離技術が、除去の目的ために使用される。耳音響のスペクトログラムが入力として使用される。
【0058】
[装置動作]
次に、本実施の形態における認識装置100によって実行される動作について、
図4、
図5(a)、及び
図5(b)を参照して説明する。また、本実施の形態では、認識方法は、認識装置を動作させることによって実施される。従って、認識装置100によって実行される動作についての以下の説明は、本実施の形態の認識方法の説明に代える。
【0059】
最初に、
図4を参照して、訓練段階について説明する。
図4は、本発明の実施形態における認識装置によって実行される訓練段階の動作を示すフロー図である。
【0060】
訓練段階では、特徴正規化器101は、訓練耳音響データ及びデータをキャプチャするために使用されるイヤホンのタイプを読み取る(ステップA01)。次に、特徴正規化器101は、イヤホンの共鳴効果を除去することにより、正規化されたデータを生成して、これを出力する(ステップA02)。次に、特徴抽出器102は、正規化されたデータを入力として読み取り、対応する音響特徴を抽出する(ステップA03)。
【0061】
次に、分類器103は、抽出された特徴を入力として読み取り、それらのクラスラベルを推定する(ステップA04)。次に、目的関数計算器104は、入力特徴の元のラベルおよび分類器によって推定されたクラスラベルを読み取る。目的関数計算器104は、元のラベルと推定されたクラスラベルとの間の分類誤差として分類のコストを計算する(ステップA05)。
【0062】
次に、パラメータ更新器105は、コスト関数の最小化に従って分類器103のパラメータを更新する(ステップA06)。パラメータ更新器105は、分類器103のパラメータが収束するまで(ステップA07)、ステップA06を実行し続ける。収束後、パラメータ更新器105は、分類器103のパラメータをストレージ106に格納する(ステップA08)。
【0063】
次に、
図5及び
図6を参照して、試行段階について説明する。これらの図は、実施形態における2種類の試行段階を示している。第1のフロー図である
図5は、訓練された分類器を使用した耳音響データの分類を示している。
図5は、本発明の実施形態における認識装置によって実行される試行段階での分類処理を示すフロー図である。
【0064】
図5に示すように、最初に、特徴正規化器101は、入力テストデータと、イヤホンの種類と、を読み取る(ステップB01)。次に、特徴正規化器101は、共鳴辞書からイヤホンの音響共鳴を特定する(ステップB02)。次に、特徴正規化器101は、入力音響データからイヤホンの共鳴を除去し、出力として正規化されたデータを生成する(ステップB03)。
【0065】
次に、特徴抽出器102は、正規化されたデータを入力として読み取り、対応する特徴を抽出し、これを出力する(ステップB04)。その後、分類器103は、格納されている自身の構造及びパラメータをストレージ106から読み出す。分類器103は、入力としてテスト音響特徴を読み取り、そのクラスを予測して出力する(ステップB05)。
【0066】
第2のフロー図である
図6は、訓練された分類器を使用した耳音響データからの識別可能な特徴の抽出を示している。
図6は、本発明の実施形態における認識装置によって実行される試行段階での変換処理を示すフロー図である。
【0067】
図6に示すように、最初に、特徴正規化器101は、入力テストデータと、イヤホンの種類と、を読み取る(ステップC01)。次に、特徴正規化器101は、共鳴辞書からイヤホンの音響共鳴を特定する(ステップC02)。次に、特徴正規化器101は、入力音響データからイヤホンの共鳴を除去し、出力として正規化されたデータを生成する(ステップC03)。
【0068】
次に、特徴抽出器102は、正規化されたデータを入力として読み取り、対応する特徴を抽出して、これを出力する(ステップC04)。次に、分類器103は、格納されている自身の構造及びパラメータをストレージから読み出す。次に、分類器103は、入力としてテスト音響特徴を読み取り、その訓練された行列を使用して、読み取ったテスト音響特徴を識別可能な特徴に変換する(ステップC05)。
【0069】
[プログラム]
実施の形態におけるプログラムは、コンピュータに、
図4に示すステップA01~A08、
図5に示すステップB01~B05、及び
図6に示すステップC01~C05を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールして実行することによって、実施の形態における認識装置100及び認識方法を実現することができる。この場合、コンピュータのプロセッサは、特徴正規化器101、特徴抽出器102、分類器103、目的関数計算器104、及びパラメータ更新器105として機能し、処理を実行する。
【0070】
また、実施の形態におけるプログラムは、複数のコンピュータで構成されたコンピュータシステムによって実行されても良い。この場合、コンピュータが、それぞれ、特徴正規化器101、特徴抽出器102、分類器103、目的関数計算器104、及びパラメータ更新器105として機能し、処理を実行する。
【0071】
[物理構成]
ここで、実施の形態におけるプログラムを実行することによって、認識装置を実現するコンピュータについて
図7を用いて説明する。
図7は、本発明の実施の形態における認識装置を実現するコンピュータの一例を示すブロック図である。
【0072】
図7に示すように、コンピュータ10は、CPU(Central Processing Unit)11と、メインメモリ12と、記憶装置13と、入力インターフェイス14と、表示コントローラ15と、データリーダ/ライタ16と、通信インターフェイス17とを備える。これらの各部は、バス21を介して、互いにデータ通信可能に接続される。
【0073】
CPU11は、記憶装置13に格納された、実施の形態におけるプログラム(コード)をメインメモリ12に展開し、プログラムを所定順序で実行することにより、各種の演算を実施する。メインメモリ12は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体20に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス17を介して接続されたインターネット上で流通するものであっても良い。
【0074】
記憶装置13の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス14は、CPU11と、キーボード及びマウスといった入力機器18との間のデータ伝送を仲介する。表示コントローラ15は、ディスプレイ装置19と接続され、ディスプレイ装置19での表示を制御する。
【0075】
データリーダ/ライタ16は、CPU11と記録媒体20との間のデータ伝送を仲介し、記録媒体20からのプログラムの読み出し、及びコンピュータ10における処理結果の記録媒体20への書き込みを実行する。通信インターフェイス17は、CPU11と、他のコンピュータとの間のデータ伝送を仲介する。
【0076】
記録媒体20の具体例としては、CF(Compact Flash(登録商標))及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記録媒体、又はCD-ROM(Compact Disk Read Only Memory)などの光学記録媒体が挙げられる。
【0077】
実施の形態における認識装置は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。更に、認識装置は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていてもよい。
【0078】
上述した実施の形態の一部又は全部は、以下に記載する(付記1)~(付記15)によって表現することができるが、以下の記載に限定されるものではない。
【0079】
(付記1)
耳音響を認識するための装置であって、
入力耳音響データを読み取り、入力耳音響データからイヤホンの共振効果を除去して、出力として正規化されたデータを生成する、特徴正規化器と、
前記正規化されたデータから音響特徴を抽出する、特徴抽出器と、
入力として前記音響特徴を読み取り、読み取った前記音響特徴をそれらに対応するクラスに分類する、分類器と、
を備えている、
ことを特徴とする認識装置。
【0080】
(付記2)
付記1に記載の認識装置であって、
前記特徴正規化器が、入力耳音響データをキャプチャするために用いられるイヤホンのタイプに応じて、入力耳音響データを読み取り、イヤホンの音響共鳴の辞書においてイヤホンの耳音響共鳴を検索し、検索したイヤホンの音響共鳴を、入力耳音響データから除去して、正規化した耳音響データを生成し、これを出力する、
ことを特徴とする認識装置。
【0081】
(付記3)
付記2に記載の認識装置であって、
前記辞書における前記イヤホンの音響共鳴は、内部に前記イヤホンが取り付けられた中空管の音響応答をキャプチャし、中空管の音響応答からイヤホンの音響共鳴を分離することによって作成されている、
ことを特徴とする認識装置。
【0082】
(付記4)
付記3に記載の認識装置であって、
前記イヤホンの音響共鳴は、キャプチャされた音響応答から、イヤホンに共通の信号成分と、個々のイヤホンに固有の信号成分と、を抽出するブラインド音源分離によって取得される、
ことを特徴とする認識装置。
【0083】
(付記5)
付記4に記載の認識装置であって、
前記イヤホンの音響共鳴は、ブラインド音源分離技術として、非負行列因子分解を使用することによって取得される、
ことを特徴とする認識装置。
【0084】
(付記6)
耳音響を認識するための方法であって、
(a)入力耳音響データを読み取り、入力耳音響データからイヤホンの共振効果を除去して、出力として正規化されたデータを生成する、ステップと、
(b)前記正規化されたデータから音響特徴を抽出する、ステップと、
(c)入力として前記音響特徴を読み取り、読み取った前記音響特徴をそれらに対応するクラスに分類する、ステップと、
を有する、
ことを特徴とする認識方法。
【0085】
(付記7)
付記6に記載の認識方法であって、
前記ステップ(a)において、入力耳音響データをキャプチャするために用いられるイヤホンのタイプに応じて、入力耳音響データを読み取り、イヤホンの音響共鳴の辞書においてイヤホンの耳音響共鳴を検索し、検索したイヤホンの音響共鳴を、入力耳音響データから除去して、正規化した耳音響データを生成し、これを出力する、
ことを特徴とする認識方法。
【0086】
(付記8)
付記7に記載の認識方法であって、
前記(a)のステップにおいて、前記辞書における前記イヤホンの音響共鳴は、内部に前記イヤホンが取り付けられた中空管の音響応答をキャプチャし、中空管の音響応答からイヤホンの音響共鳴を分離することによって作成されている、
ことを特徴とする認識方法。
【0087】
(付記9)
付記8に記載の認識方法であって、
前記(a)のステップにおいて、前記イヤホンの音響共鳴は、キャプチャされた音響応答から、イヤホンに共通の信号成分と、個々のイヤホンに固有の信号成分と、を抽出するブラインド音源分離によって取得される、
ことを特徴とする認識方法。
【0088】
(付記10)
付記9に記載の認識方法であって、
前記(a)のステップにおいて、前記イヤホンの音響共鳴は、ブラインド音源分離技術として、非負行列因子分解を使用することによって取得される、
ことを特徴とする認識方法。
【0089】
(付記11)
コンピュータによって耳音響を認識させるためのプログラムであって、
前記コンピュータに、
(a)入力耳音響データを読み取り、入力耳音響データからイヤホンの共振効果を除去して、出力として正規化されたデータを生成する、ステップと、
(b)前記正規化されたデータから音響特徴を抽出する、ステップと、
(c)入力として前記音響特徴を読み取り、読み取った前記音響特徴をそれらに対応するクラスに分類する、ステップと、
を実行させる、プログラム。
【0090】
(付記12)
付記11に記載のプログラムであって、
前記ステップ(a)において、入力耳音響データをキャプチャするために用いられるイヤホンのタイプに応じて、入力耳音響データを読み取り、イヤホンの音響共鳴の辞書においてイヤホンの耳音響共鳴を検索し、検索したイヤホンの音響共鳴を、入力耳音響データから除去して、正規化した耳音響データを生成し、これを出力する、
ことを特徴とするプログラム。
【0091】
(付記13)
付記12に記載のプログラムであって、
前記(a)のステップにおいて、前記辞書における前記イヤホンの音響共鳴は、内部に前記イヤホンが取り付けられた中空管の音響応答をキャプチャし、中空管の音響応答からイヤホンの音響共鳴を分離することによって作成されている、
ことを特徴とするプログラム。
【0092】
(付記14)
付記13に記載のプログラムであって、
前記(a)のステップにおいて、前記イヤホンの音響共鳴は、キャプチャされた音響応答から、イヤホンに共通の信号成分と、個々のイヤホンに固有の信号成分と、を抽出するブラインド音源分離によって取得される、
ことを特徴とするプログラム。
【0093】
(付記15)
付記14に記載のプログラムであって、
前記(a)のステップにおいて、前記イヤホンの音響共鳴は、ブラインド音源分離技術として、非負行列因子分解を使用することによって取得される、
ことを特徴とするプログラム。
【0094】
最後のポイントとして、ここで説明および図示されているプロセス、技術、および方法論は、特定の装置に限定または関連していないことは明確である。コンポーネントの組み合わせを使用して実装できる。また、本明細書の指示に従って、様々なタイプの汎用装置を使用することもできる。本発明は、特定の例のセットを使用して説明されている。
【0095】
但し、これらは単なる例示であり、制限的なものではない。 例えば、記載されたソフトウェアは、C++、Java、Python、及びPerlなどの多種多様な言語で実装される。更に、本発明の技術の他の実装は、当業者には明らかである。
【産業上の利用可能性】
【0096】
本発明によれば、音響データからイヤホンの共振効果を除去することが可能である。 本発明は、耳音響の認識において有用である。
【符号の説明】
【0097】
10 コンピュータ
11 CPU
12 メインメモリ
13 記憶装置
14 入力インターフェイス
15 表示コントローラ
16 データリーダ/ライタ
17 通信インターフェイス
18 入力機器
19 ディスプレイ装置
20 記録媒体
21 バス
100 認識装置
101 特徴正規化器
102 特徴抽出器
103 分類器
104 目的関数計算器
105 パラメータ更新器
106 ストレージ
1011 収集器
1012 ストレージ
1013 分離器
1014 ストレージ
1015 共鳴除去器