(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-22
(45)【発行日】2024-05-01
(54)【発明の名称】聴取機器を備えた聴取システムの作動方法
(51)【国際特許分類】
H04R 25/00 20060101AFI20240423BHJP
G10L 25/30 20130101ALI20240423BHJP
G10L 25/78 20130101ALI20240423BHJP
G10L 25/51 20130101ALI20240423BHJP
G10L 17/00 20130101ALI20240423BHJP
G10L 21/0216 20130101ALI20240423BHJP
【FI】
H04R25/00 L
H04R25/00 K
G10L25/30
G10L25/78
G10L25/51 400
G10L17/00 200C
G10L21/0216
【外国語出願】
(21)【出願番号】P 2021206534
(22)【出願日】2021-12-20
【審査請求日】2022-03-24
(31)【優先権主張番号】10 2020 216 439.8
(32)【優先日】2020-12-21
(33)【優先権主張国・地域又は機関】DE
(73)【特許権者】
【識別番号】508115093
【氏名又は名称】シバントス ピーティーイー リミテッド
(74)【代理人】
【識別番号】100094525
【氏名又は名称】土井 健二
(74)【代理人】
【識別番号】100094514
【氏名又は名称】林 恒徳
(72)【発明者】
【氏名】ホマヨウン カムカー パルシ
(72)【発明者】
【氏名】ローベルト カサンマッシェフ
【審査官】冨澤 直樹
(56)【参考文献】
【文献】米国特許出願公開第2020/0241834(US,A1)
【文献】米国特許出願公開第2020/0260198(US,A1)
【文献】特開2004-135068(JP,A)
【文献】特開2017-005356(JP,A)
【文献】特表2007-507119(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04R 25/00
G10L 25/30
G10L 25/78
G10L 25/51
G10L 17/00
G10L 21/0216
(57)【特許請求の範囲】
【請求項1】
聴取機器(2)を備えた聴取システム(1)の作動方法であって、
前記聴取機器(2)の少なくとも1つの電気音響入力変換器(12)によって、環境の音信号(14)から入力信号(16)を生成し、
信号処理によって前記入力信号(16)から出力信号(20)を生成し、且つ前記聴取機器(2)の電気音響出力変換器(22)によって、前記出力信号(20)から出力音信号(24)を生成し、
前記信号処理の少なくとも1つのサブプロセスのために、前記聴取機器(2)に実装されているディープニューラルネットワーク(30)を使用し、
環境状況を示す現在の聴取状況を特定するために、前記聴取機器(2)の信号処理装置(18)において前記入力信号(16)の暫定的な分析(56)を実行し、
前記サブプロセスにおいて実行する処理に依存して、前記ディープニューラルネットワーク(30)のトポロジーを確定し、及び、環境状況に依存して、前記ディープニューラルネットワーク(30)の個々のニューロン(32)間の重み(42)を選択する、方法。
【請求項2】
前記ディープニューラルネットワーク(30)の個々のニューロン(32)間の重み(42)を、前記聴取システムのユーザによるユーザ入力に依存して選択する、請求項1に記載の方法。
【請求項3】
前記信号処理の前記サブプロセスにおいて実行する処理として、前記信号処理に関連するパラメータを確定する、請求項1又は2に記載の方法。
【請求項4】
前記信号処理に関連するパラメータとして、以下の量、
音声アクティビティ、
ユーザ自身の音声アクティビティ、
音源の方向、
言語検出、
具体的な話者の検出、
聴取状況の分類、
ノイズ抑制に特徴的な量、及び、
指向性マイクロホンに特徴的な量、
のうちの少なくとも1つを使用する、請求項3に記載の方法。
【請求項5】
前記入力信号(16)に基づいて、音響環境状況を、及び/又は、前記入力信号(16)中のノイズ信号に特徴的なパラメータを決定し、
前記ディープニューラルネットワーク(30)の個々のニューロン(32)間の重み(42)を、前記音響環境状況に基づいて、又は、前記入力信号(16)中の前記ノイズ信号に特徴的な前記パラメータに基づいて選択する、請求項1~4のいずれか一項に記載の方法。
【請求項6】
前記聴取システム(1)の少なくとも1つのセンサ(62,64)に基づいて、前記聴取システム(1)のユーザの動き状態及び/又は場所に関する第1の情報を確定し、
前記ディープニューラルネットワーク(30)の個々のニューロン(32)間の重み(42)を、前記第1の情報に基づいて選択する、請求項1~5のいずれか一項に記載の方法。
【請求項7】
前記ディープニューラルネットワーク(30)の入力量(40)として、以下の量、
時間周波数領域における前記入力信号(16)のスペクトル成分(52)、
時間領域における前記入力信号(16)の信号成分、
前記時間周波数領域における前記入力信号(16)の周波数帯域的な信号レベル、
前記入力信号(16)の対応する分解の、大きさ成分及び/又は位相成分、及び、
前記入力信号(16)の対応する分解の、実数部及び/又は虚数部、
のうちの少なくとも1つを使用する、請求項1~6のいずれか一項に記載の方法。
【請求項8】
前記聴取機器(2)として、2つのローカル機器を有する両耳タイプの補聴器を使用し、
前記2つのローカル機器のそれぞれにディープニューラルネットワーク(30)を実装し、
前記2つのローカル機器の前記ディープニューラルネットワーク(30)において、前記信号処理に関連する異なるパラメータをそれぞれ確定する、請求項1~7のいずれか一項に記載の方法。
【請求項9】
聴取機器(2)を備えた聴取システム(1)であって、
前記聴取機器(2)は、
環境の音信号(14)から入力信号(16)を生成するための少なくとも1つの電気音響入力変換器(12)と、
前記入力信号(16)から出力信号(20)を生成するための信号処理装置(18)と、
前記出力信号(20)から出力音信号(24)を生成するための電気音響出力変換器(22)と、を有し、
前記聴取システム(1)は、前記聴取機器(2)に実装されたディープニューラルネットワーク(30)であって、前記入力信号(16)から前記出力信号(20)を生成するために前記信号処理装置(18)に実装された信号処理の、少なくとも1つのサブプロセスを実行するように構成されたディープニューラルネットワーク(30)をさらに備え、
前記聴取システム(1)は、環境状況を示す現在の聴取状況を特定するために、前記聴取機器(2)の前記信号処理装置(18)において前記入力信号(16)の暫定的な分析(56)を実行し、前記サブプロセスにおいて実行する処理に依存して、前記ディープニューラルネットワーク(30)のトポロジーを確定し、及び、環境状況に依存して、前記ディープニューラルネットワーク(30)の個々のニューロン(32)間の重み(42)を選択するように構成されている、聴取システム(1)。
【請求項10】
聴取機器(2)であって、
環境の音信号(14)から入力信号(16)を生成するための少なくとも1つの電気音響入力変換器(12)と、
前記入力信号(16)から出力信号(20)を生成するための信号処理装置(18)と、
前記出力信号(20)から出力音信号(24)を生成するための電気音響出力変換器(22)と、を備えた聴取機器(2)において、
前記入力信号(16)から前記出力信号(20)を生成するために前記信号処理装置(18)に実装された信号処理の、少なくとも1つのサブプロセスを実行するように構成されたディープニューラルネットワーク(30)をさらに備え、
前記聴取機器(2)は、環境状況を示す現在の聴取状況を特定するために、前記聴取機器(2)の前記信号処理装置(18)において前記入力信号(16)の暫定的な分析(56)を実行し、前記サブプロセスにおいて実行する処理に依存して、前記ディープニューラルネットワーク(30)のトポロジーを確定し、及び、環境状況に依存して、前記ディープニューラルネットワーク(30)の個々のニューロン(32)間の重み(42)を選択するように構成されている、聴取機器(2)。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、聴取機器を備えた聴取システムの作動方法に関する。その方法において、聴取機器の少なくとも1つの電気音響入力変換器によって環境の音信号から入力信号を生成し、信号処理によって入力信号から出力信号を生成し、また、好ましくは、聴取機器の電気音響出力変換器によって出力信号から出力音信号を生成する。
【背景技術】
【0002】
「聴取機器」という用語は、通常、対応する機器のユーザの聴覚に、又は、より一般的には聴覚中枢に、音信号を出力するために使用される機器を意味すると解される。特に、補聴器がこれに該当する。補聴器は、聴覚が低下した人がこの聴力低下に起因する聴力損失を少なくとも部分的に補うために使用される。そのために、通常、補聴器は、音響(環境)ノイズを検出して電気入力信号に変換するために、通常はマイクロホンの形態の少なくとも1つの電気音響入力変換器を有する。さらに、このような補聴器は、通常、信号処理装置を有している。この信号処理装置は、入力信号を妨害成分(例えば、雑音、環境の騒音など)について分析し、この妨害成分をフィルタリングし及び/又は減衰させ、残りの信号成分を有用信号(特に言語及び/又は音楽のような)として増幅するように構成されている。
【0003】
このようにして処理された入力信号を聴覚に出力するために、通常、補聴器は、例えばスピーカ(受話器又は「レシーバ」とも呼ばれる)の形態の電気音響出力変換器を含む。この変換器によって、処理された入力信号が出力音信号に変換され、補聴器装着者の聴覚に出力される。選択的に、補聴器は、電気的又は機械的な形態の出力信号を聴覚に出力するための蝸牛殻伝導又は骨伝導のレシーバを有する。
【0004】
ただし、「聴取機器」という用語には、ユーザ固有の音を聴覚中枢に出力することが多い、いわゆる耳鳴りマスカー、又は、例えばヘッドセット(以下、「ヘッドホン」)のような、アクティブノイズキャンセリング機能付きの及び機能なしのワイヤレスヘッドホン、いわゆる「ヒアラブル」など、音を出力するためのその他の機器も含まれる。
【0005】
特に補聴器の信号処理装置には、入力信号を信号処理するための機器固有の比較的複雑なアルゴリズムが格納されていることが多い。それぞれの補聴器を装着者に個別に適合させるために、これらのアルゴリズムは可変パラメータに基づいており、そのパラメータの限界値は、補聴器を装着者の聴力低下に適合させる際に、装着者に対して特別に設定される。
【0006】
その際、信号処理は、一般的な音響条件、特にいわゆる聴取状況に依存して、時には劇的に変化し得る。聴取状況は、通常、同一の音響特性を有する環境状況の代表的なものとして定義され、例えば、「静かな場所においての補聴器装着者と第2者との会話」、「環境の騒音における会話」、「自然の中における滞在」、「公共の場における滞在」などが挙げられ、これらの特徴に関する入力信号の分析に基づいて検出することができる。例えば、ユーザ自身の言語アクティビティ又は有用な信号源の方向の検出のような、補聴器における信号処理の個々のサブプロセス(Teilprozess)は、聴取状況に依存して様々に複雑になり、十分に高い確実性において結果を確定できるには、様々なリソースを必要とする。
【発明の概要】
【発明が解決しようとする課題】
【0007】
したがって、本発明の課題は、聴取機器の信号処理のために、少なくとも、信号処理に関連するパラメータ(Kenngroesse)の検出を、環境に依存して改善することにある。
【課題を解決するための手段】
【0008】
上記課題は、本発明によれば、聴取機器を備える聴取システムの運転方法であって、聴取機器の少なくとも1つの電気音響入力変換器によって環境の音信号から入力信号を生成し、信号処理によって入力信号から出力信号を生成し、聴取機器の電気音響出力変換器によって出力信号から出力音信号を生成する方法によって解決される。
【0009】
この場合、信号処理の少なくとも1つのサブプロセスのために、聴取機器に実装されているディープニューラルネットワークを使用し、サブプロセスにおいて実行する処理に依存して及び/又は環境状況に依存して及び/又は聴取システムのユーザによるユーザ入力に依存して、ディープニューラルネットワークのトポロジーを特に自動的に確定すること、及び/又は、ディープニューラルネットワークの個々のニューロン間の重みを特に自動的に選択することが提供される。有利な且つ部分的に発明性を有する実施形態は従属請求項及び以下の説明の対象である。
【0010】
聴取システムは、一方においては聴取機器のみによって構成され、他方においては聴取機器に加えて補助機器を含み、その補助機器は、特にデータ伝送のために聴取機器に接続可能である。その際、補助機器として、特にスマートホン、スマートウォッチ、又はタブレットPCが提供され得る。一般的には、聴取機器は、特に補聴器によって提供され得る。しかしながら、聴取機器は、ヘッドホン、ヘッドセット、いわゆる「ヒアラブル」、又は耳に装着する別の機器によっても提供することができ、その機器は上記したように構成される。特に、聴取システムのユーザは、その際、聴取機器のユーザでもある。
【0011】
電気音響入力変換器には、その際、特に、音信号から対応する電気信号を生成するように構成されたすべての変換器が含まれる。特に、入力信号が入力変換器によって生成される際に、例えば、線形プリ増幅、及び/又は、A/D変換の形態において、前処理を行うこともできる。対応して生成された入力信号は、その際、特にその電流及び/又は電圧の変動が、本質的に、空気の音圧変動を表す電気信号によって与えられる。
【0012】
対応して、電気音響出力変換器には、特に、電気信号から、その音圧の変動が電気信号の電流及び/又は電圧の変動を実質的に再現する、対応する音信号を生成するように構成されたすべての変換器が含まれる。
【0013】
出力信号を生成するための入力信号の信号処理は、対応する信号処理装置によって行われることが好ましく、その信号処理装置は、特に好ましくは聴取機器に配置されている。
【0014】
信号処理のサブプロセスには、特に、周波数帯域の分解を用いた、及び/又は、場合によっては、周波数帯域に依存した、及び/又は、時間及び/又はレベルに依存した増幅を用いた、及び/又は、(特に適応)フィルタなどを用いた、第1の中間信号の第2の中間信号へのすべての変換が含まれる。その際、第1の中間信号は、入力信号から導出される、又は入力信号自体によっても提供され得る(この場合、導出は通常のことである)。また、出力信号は、第2の中間信号から導出される、又は第2の中間信号自体によっても提供され得る(この場合、導出は通常のことである)。
【0015】
言い換えれば、信号処理のサブプロセスは、特に信号フロー内の信号成分の変化として解される。
【0016】
少なくとも1つのそのようなサブプロセスのために、ディープニューラルネットワーク(「Deep Neural Network,DNN)が使用される。その際、DNNは、一方においてサブプロセス自体を実行する、すなわち信号成分の対応する変化をもたらす、又は、しかしながら、サブプロセスのためのパラメータ及び/又は制御量を得るための処理を実行する、すなわち広義において、サブプロセスのための信号成分の分析を行うことができる。
【0017】
上記サブプロセスのためのそのような分析処理には、特に、入力信号から又はそれに由来する中間信号から、信号処理のパラメータ及び/又は制御量を得ること、例えば、信号対雑音比(「Signal to Noise Ratio」,SNR)の獲得、ユーザ自身の声又は一般的な言語アクティビティの検出、有用信号源又は妨害信号源の方向の検出、が含まれる。
【0018】
その際、DNNは、構造において、生物学的モデルとして脳に基づいている。そのため、DNNは、ニューロンを模倣した(そのため、DNNのニューロンとも呼ばれる)多数の結節点(いわゆるノード)と、シナプス(ニューロン間の接続部)を模倣した複数の接続部とを含む。
【0019】
DNNのトポロジーは、その際、様々な層(入力層及び出力層、その間に位置する、すなわち「ディープに位置する」層)にある個々のニューロンの配置と、個々のニューロン間の接続部の配置とである。その際、接続部は再帰的であり得る。すなわち、接続部は、出力層に近い層に位置するニューロンから入力層に近い層に位置するニューロンに達することもでき、又は、所定の接続部によって入力層と出力層との間の層全体をスキップすることによって、純粋な順方向伝搬(「フィードフォワード」)をもたらすこともできる。個々の層のニューロンの数、及び、層のそれぞれの多様さは、その際、設定されたタスクに対処するためのディープニューラルネットワークの能力にとって重要である。
【0020】
入力層のニューロンはそれぞれ、適切に処理された信号成分及び/又は他の入力量を、DNN外部から入力として受け取り、その信号は、ニューロンを介してDNNを経由して出力層に伝搬され、その出力層は、適切に処理された信号成分及び/又は分析結果を外部に出力する。
【0021】
その際、入力信号成分又は入力信号量は、特に、入力信号の又はそれに由来する中間信号のサンプル、入力信号(又は対応する中間信号)の周波数帯域チャネルのサンプル、時間周波数領域における適切な時間窓(通常、例えば128サンプル長のいわゆる「フレーム」)のスペクトル成分(「時間周波数ビン」)、又は、場合によっては、(それぞれのフレームのための)周波数帯域的なレベルである。
【0022】
その際、これらの入力量は、入力層に供給される。各層のニューロン間の接続部は、その際、入力量を出力層に伝達させるための重みを有している。いわゆる「パーセプトロン」においては、例えば、ある層の各ニューロンの入力は、対応して設定された重みによって重み付けされ、合計される。その際、次の層への当該ニューロンの出力(好ましくはブール値1として)は、上記の重み付けされた合計のための所定の活性化関数に従って行われる。他の実施形態においては、複数の分岐する接続部を有するニューロンに到着した信号は、実行する処理のために決定された重みに従って、当該ニューロンから分岐するニューロンに分配され得る。
【0023】
その際、出力層のニューロンに送られる出力信号の信号強度は、信号処理のサブプロセスの結果、又は、そのために行われる、信号分析の処理の結果を表している。出力層のニューロンは、その際、以下を表す。すなわち、可能なサンプル(DNNによる、例えばノイズ除去又は指向性マイクロホンへの、直接的な信号処理のための)、信号成分(場合によっては、信号成分の大きさ及び/又は位相成分、又は、信号成分の実数部及び/又は虚数部)、周波数帯におけるスペクトル成分、例えば角度範囲のような値範囲(実行する処理として有用信号源の方向を決定するための)又はブール値も、又は、例えば、具体的な話者(ユーザ又は対話者など)の音声アクティビティ又は言語アクティビティのための確率。
【0024】
その際、重みは学習段階において確定される。この確定は、特に、信号処理のサブプロセスにおいて所望の処理を、同一のトポロジーのDNNによって実行し、その際、DNNの結果を基準となる結果と比較し(例えば、言語検出の場合:信号部分に実際に言語があったのか)、結果内の誤差を次の反復ステップのために修正することによって、行われる。誤差が発生した場合における出力の対応する修正(「誤差逆伝搬法」)によって、その際、特に、意図した処理のための接続部の重みが調整される。それによって、特に、所望の処理のために「学習された」DNNが実装されており、その結果、同一のトポロジーのDNNを、重みの対応する伝送によって、学習された状態にすることができる。
【0025】
DNNがパーセプトロンとして実現されている場合、関連する活性化関数も、重みについて述べた方法において、すなわち、特に、サブプロセスにおいて実行する処理に依存して、又は環境状況に依存して、又は聴取システムのユーザによるユーザ入力に依存して、確定することができる。同様に、上記活性化関数は、好ましくは関連する重みとともに、学習段階において確定することができる。
【0026】
DNNのトポロジーは、信号処理のサブプロセスの枠内において実行する処理に依存して確定される。そのため、例えば、装着者自身の声の検出(「Own Voice Detection」、OVD)は、有用信号源の到来方向の検出(「Direction of Arrival」、DOA)とは異なるトポロジーを有するDNNによって実行することができる。
【0027】
しかしながら、特に、入力信号に基づいて環境状況を検出し、環境状況に基づいてトポロジーを確定することも可能である。その際、一方において、環境状況は音響環境によって特徴づけられ、それによって、標準化された聴取状況における区分が、対応する音響特徴に基づいて、DNNのトポロジーを確定する。他方において、環境状況は、場所(特に密閉された空間の内外)によって、また、聴取機器のユーザの動きによって、特徴付けられ得る。そのユーザの動きは、1つ以上の対応するセンサ(加速度センサ、GPSなど)によって確定可能である。
【0028】
また、DNNのトポロジーが確定された後の個々の重みは、同様に、実行する処理、及び/又は、環境状況、及び/又は、ユーザの入力に依存して選択することができる。その際、好ましくは、DNNに適用される、所定のトポロジーに対応する重みが、対応する環境状況(聴取状況及び/又はその他の環境)のために、聴取機器に、又は、利用可能な場合には、補助機器に保存されている。特に、重みが補助機器に保存されている場合には、その重みは、補助機器から聴取機器に伝送される。
【0029】
上記のトポロジーの、処理への及び/又は環境状況への適応によって、それぞれの状況において、要求及び事象に最適なトポロジーを選択又は確定することが可能となる。その結果、ただ未使用のままである可能性のある、又は単に計算上の冗長性につながる可能性のある、計算上の「オーバーヘッド」は、DNNに必要とされない。
【0030】
好ましくは、DNNのトポロジーを、サブプロセスにおいて実行する処理に依存して確定し、DNNの個々のニューロン間の重みを、環境状況に依存して選択する。これは、トポロジーを、実行する処理に最適に適合させることができるという利点があり、それによって、例えば、不必要に大きい、及び/又は、複雑なDNNを使用する必要がない。そのため、聴取機器へのDNNの実装のために、聴取機器にあるリソースを所望の処理に最適に使用することができる。さらに、信号処理のためにDNN処理のさらなる伝送の必要はなく、そのため、このサブプロセスは聴取機器のさらなる信号処理に直接統合することができる。さらに、例えば、外部条件の変化を、ひいては環境状況の変化を、トポロジーを変更した全く新しいDNNを実装することなく、DNNの重みを調整することによって考慮することができ、それは、置き換えの手間をさらに軽減することができる。DNNがパーセプトロンとして実装されている場合、活性化関数も重みと同一の依存性を有して選択することが好ましい。
【0031】
その際、DNNは聴取機器に実装されている。一方において、上記のDNNの使用は、少なくとも、聴取機器における信号処理のサブプロセスにとって有利である。なぜなら、DNNについて説明された条件の結果として、聴取機器において利用可能なリソースを、実行する処理のために最適に使用することができるからである。他方において、DNNを聴取機器に実装する場合、補助機器への信号成分の伝送が不要になり、それは、信号処理を高速化し、さらに、電池電力を節約する。
【0032】
さらに、DNNの個々のニューロン間の重みも、環境状況に(場合によってはサブプロセスにおいて実行する処理にも)依存して確定すると、ここでは有利になる。環境状況は、聴取機器自体において確定される。特に、複数のマイクロホンを有する聴取機器の場合、音響環境状況(いわゆる聴取状況)を確定することができる。その際、一般的な環境状況を、場合によっては、さらなる情報に基づいて決定することができる。そのさらなる情報は、他のセンサ(例えば、補聴器内にさらに配置可能な、加速度センサなどのような)によって取得される。補聴器の複数の入力信号に基づくこのような聴取状況の確定は、その際、聴取状況の検出のための指向性処理が可能であるため、特に正確であり、また特に、聴取状況の急激な変化にも素早く対応することができる(それはまた、適用される重みにも影響し得る)。さらに、聴取機器の入力信号(又は複数の入力信号)の分析に基づいて重みを決定する場合には、上記分析に、ひいてはDNNの重みに使用される信号成分が、DNNによって処理される信号成分と同じ場所において生成されるという事情を、有利に利用している。それによって、信号処理の高い空間的一貫性を実現することができる(例えば、いわゆる「空間キュー」に関して)。
【0033】
有利には、信号処理のサブプロセスにおいて実行する処理として、信号処理に関連するパラメータを確定する。好ましくは、その際、そのパラメータの確定にDNNを使用する。信号処理に関連するパラメータの確定において、特に、DNNによって実行される処理が、さらなる信号処理の少なくとも1つのサブプロセスにおいて制御量として使用されるスカラー又はベクトル値の量を確定することを含む。特に、DNNが実行する処理の結果として、出力信号に入るような直接的な信号成分は発生しない。正にこのようなパラメータ又は制御量の決定を、DNNが特に効率的に実行できる。
【0034】
好適にも、信号処理に関連するパラメータとして、以下の量、すなわち、音声アクティビティ、ユーザ自身の音声アクティビティ、音源の方向、言語検出、具体的な話者の検出、聴取状況の分類、ノイズ抑制に特徴的な量、及び、指向性マイクホンに特徴的な量、のうちの少なくとも1つを使用する。これは、特に、対応する処理が、音声アクティビティの検出(「Voice Activity Detection」,VAD)、OVD、DOA、具体的な話者の検出(すなわち識別)、聴取状況の分類、ノイズ抑制、指向性マイクロホン、を実行することを意味する。これらのパラメータは、聴取機器の信号処理において特に重要である。なぜなら、聴取機器の主な目的が、有用信号を妨害信号から際立たせることにあり、これは特に、例えば指向性マイクロホンのような指向性信号処理によって行うことができ、また、それに加えて、言語信号を可能な限り明瞭に再生することにある、ことによる。ノイズ抑制のための特徴的な量として、その際、一方において、信号対ノイズ比(「SNR」)を含め、他方において、特にノイズ抑制された信号の信号成分を含めることができる。指向性マイクロホンのための特徴的な量として、その際、一方において、指向性パラメータを含め、他方において、特に指向性信号の信号成分を含めることができる。
【0035】
有利には、入力信号に基づいて、好ましくは聴取機器内において、音響環境状況を、及び/又は、入力信号中のノイズ信号に特徴的なパラメータを決定し、DNNの個々のニューロン間の重みを、音響環境状況に基づいて、又は、入力信号中のノイズ信号に特徴的なパラメータに基づいて選択する。これは特に、入力信号に基づいて、好ましくは聴取機器内において、現在の聴取状況の、及び/又は、雑音背景の、そのレベルの、及び/又は、SNRの決定を行うこと、また、DNNの重みを、対応する依存性において、特にテーブル化された規準値から、選択することを含む。これは、DNNのトポロジーの規準が、DNNが実行する処理に依存している場合に、少ない計算複雑性において、変化した音響条件にDNNを迅速に適応させることができるため、特に有利である。DNNがパーセプトロンとして実装されている場合、活性化関数も重みと同一の依存性を有して選択することが望ましい。
【0036】
さらに有利に、聴取システムの少なくとも1つのセンサに基づいて、聴取システムのユーザの動き状態及び/又は場所に関する第1の情報を確定し、DNNの個々のニューロン間の重みを、第1の情報に基づいて選択する。その際、センサは、加速度センサ、又は、GPS信号を受信するように構成されたセンサによって提供され得る。特に、このようなGPS対応センサは、スマートホンなどの補助機器に配置することができる。上記のようにセンサ又は各センサによって確定される上記の情報に基づいて、特に、聴取システムが屋外において使用されているのか(その際、予想されるノイズレベルが高いのか低いのか、例えば、幹線道路か森林か)、又は、密閉された空間において使用されているのかについて、場所に関するメッセージを作成できる。さらに、温度センサは、場合によっては適切なGPS対応センサとの組み合わせにおいて、場所に関するメッセージを可能にする。
【0037】
好ましくは、DNNの入力量として、以下の量、すなわち、時間周波数領域における入力信号のスペクトル成分、時間領域における入力信号の信号成分、時間周波数領域における入力信号の周波数帯域的な信号レベル、入力信号の対応する分解の、大きさ成分及び/又は位相成分、及び、入力信号の対応する分解の、実数部及び/又は虚数部、のうちの少なくとも1つを使用する。スペクトル成分(「時間周波数ビン」)を、その際、高速フーリエ変換(FFT)などによって各フレームのサンプルを適宜、時間周波数領域に変換することによって、適切な時間窓(通常、例えば128サンプル長のフレームの)にわたって、時間周波数領域において把握することが好ましい。その際、連続する2つのフレームの間に、例えば16サンプルの時間的な送りが存在する(対応して、連続する2つのフレームは部分的にかなり重なり、上記の数値例においては128-16=112サンプルとなる)。
【0038】
この場合、時間領域における入力信号の信号成分として、特に、適切な時間窓の間の(例えば、1つ以上のフレームの間の)、入力信号のサンプル、又は、それから派生する中間信号のサンプル、又は、入力信号(又は対応する中間信号)の周波数帯域チャネルのサンプルが含まれる。時間周波数領域における入力信号の周波数帯域的信号レベルは、それぞれのフレーム又は同等の適切な時間窓について収集されることが好ましい。上記の入力量は、大幅な追加の手間なしに簡単な方法によって収集することができ、いずれにせよ、通常は、信号処理の少なくとも1つのサブプロセスにおいて生じる。
【0039】
有利には、聴取機器として、2つのローカル機器を有する両耳タイプの補聴器を使用し、2つのローカル機器のそれぞれにDNNを実装し、2つのローカル機器のDNNにおいて、信号処理に関連する異なるパラメータをそれぞれ確定する。これは、特に、例えば、ユーザが左耳に装着するローカル機器においては、DNNがVADを実行し、一方、ユーザが右耳に装着するローカル機器においては、DNNが有用信号のDOAを確定することを含む。異なるパラメータを確定することによって、個々の処理を2つのローカル機器に分割することができ、それによって、個々のローカル機器の計算リソースを過度に大きくする必要がない。
【0040】
本発明はさらに、聴取機器を備える聴取システムを挙げる。その聴取機器は、環境の音信号から入力信号を生成するための少なくとも1つの電気音響入力変換器と、入力信号から出力信号を生成するための信号処理装置と、出力信号から出力音信号を生成するための電気音響出力変換器と、を有する。聴取システムは、聴取機器に実装されたDNNであって、入力信号から出力信号を生成するために信号処理装置に実装された信号処理の、少なくとも1つのサブプロセスを実行するように構成されたDNNをさらに備え、聴取システムは、サブプロセスにおいて実行する処理に依存して及び/又は環境状況に依存して及び/又は聴取システムのユーザによるユーザ入力に依存して、DNNのトポロジーを決定するように、及び/又は、DNNの個々のニューロン間の重みを選択するように構成されている。特に、聴取機器の信号処理装置は、少なくとも1つの信号プロセッサを含む。DNNは、信号プロセッサに実装されることが好ましい。その際、聴取システムは、聴取機器のみから構成され得る。
【0041】
本発明による聴取システムは、本発明による方法の利点を共有している。本方法及びそのさらなる形態に示された利点は、その際、聴取システムにも転用され得る。特に、聴取システムは補助機器を備えており、その際、聴取機器と補助機器との間においてデータ接続を確立することができ、聴取機器の少なくともいくつかの機能を補助機器によって制御することができる。
【0042】
以下では、本発明の実施例を、図面を参照してより詳細に説明する。その際、それぞれの図面は概略的に示される。
【図面の簡単な説明】
【0043】
【
図1】補聴器とスマートホンとを有する聴取システムのブロック図である。
【
図2】
図1による補聴器内の信号処理のサブプロセスにおいて使用するためのDNNを示すブロック図である。
【
図3】
図1による聴取システムによる、
図2によるDNNの構造的及び動的特性の選択を示すブロック図である。
【発明を実施するための形態】
【0044】
全ての図において、対応する部品及び量にはそれぞれ同一の参照符号を付す。
【0045】
図1は、聴取機器2と補助機器4とを有する聴取システム1の概略的なブロック図である。聴取機器2は、本実施例においては、補聴器6として形成されており、その補聴器6は、特に片方の耳の聴力低下を補うために、所定の作動中において、詳細には図示されていないユーザによって装着される。補助機器4は、本実施例においては、スマートホン8として形成されているが、例えば、タブレットPC又はスマートウォッチ(いずれも図示せず)のような同等の形態も考えられる。その際、スマートホン8は、補聴器6とスマートホン8との間において双方向のデータ接続10を確立できるという意味において、また、例えば補聴器6の聴取プログラムのような、少なくとも一部の機能をスマートホン8によって制御可能という意味において、補聴器6と結びつけることができる。
【0046】
補聴器6は、本実施例においてはマイクロホンによって提供される電気音響入力変換器12を含む。この入力変換器12は、音信号14から入力信号16を生成するように構成されている。入力信号16は、少なくとも1つの信号プロセッサ(図示せず)を有する信号処理装置18に供給される。信号処理装置18においては、例えば、音信号14に含まれる有用信号が、同じく音信号14に含まれる妨害信号に対して強調されるように、入力信号16が処理される。さらに、信号処理装置18における信号処理の際には、好ましくは、例えば、信号成分の適切な周波数帯域的な強調又は抑制によって、また、場合によっては適切な圧縮によって、補聴器6の使用者の聴力低下も考慮に入れられる。信号処理装置18は、上記の入力信号16の処理によって生成された出力信号20を出力する。出力信号20は、本実施例においてはスピーカによって提供される電気音響出力変換器22によって出力音信号24に変換される。
【0047】
信号処理装置18において入力信号16から出力信号20が生成される際に、信号処理の様々なサブプロセスが行われる。これらのサブプロセスは、例えば、上記の信号成分の周波数帯域的な強調又は抑制によって提供されるが、一方において、例えば、有用信号成分を推定できるために、及び/又は、OVD又はVADによって言語として識別するために、対応する制御量を確定する。補聴器6が、入力信号16及びさらなる入力信号の、方向性のある信号処理を行うように構成されている場合、有用信号源の方向情報(DOA)も、このような制御量を形成することができる。そのさらなる入力信号は、さらなる入力変換器(図示せず)によって音信号14から生成されるものである。少なくとも1つのそのようなサブプロセスが、信号処理装置18の信号プロセッサ内において、DNNによって実行される。
【0048】
図2は、
図1による補聴器6の、信号処理のサブプロセスに使用されるDNN30の概略的なブロック図である。この場合、DNN30は、複数のノード、いわゆるニューロン32を有しており、この複数のニューロン32は、個々の層34において、互いに配置されている。また、異なる層34は、ニューロン32間の接続部36を介して接続されている。入力量40は、入力層38においてそれぞれのニューロン32に渡される。入力層38の各ニューロン32のために、当該入力量40の個々の信号強度に重み42が乗算される。その重み42は、隣接する層34の2つのニューロン32の間の接続部36にそれぞれ割り当てられ、それによって、次の層34にそれぞれ伝搬される。これは、特に、ニューロン32から分岐する接続部に割り当てられた重み42は、ニューロン32に到着した信号が後続の層のニューロン32にどのように分配されるかを決定することを意味する。同様の方法において、入力量40は、深層44(トポロジー構造を考慮せずに、単に概略的に、破線によって示された層及び接続部)を介して、出力層46までさらに伝搬される。それによって、DNN30の所定のトポロジーの場合には、DNN30を介した入力量40の伝達のダイナミクスは、それぞれの重み42によって決定される。出力層46の個々のニューロン32において出力された信号強度は、その際、DNN30によって実行された処理の結果を形成する。
【0049】
本実施例においては、(離散化された)時間領域における、入力信号16のそれぞれのフレーム50の個々のサンプル48が、入力量40として入力層38のニューロン32に渡される。しかしながら、これらの入力信号16のサンプル48の代わりに、入力信号16から導き出された信号の、同等の信号ベクトルも考えられる。例えば、場合によっては周波数帯域的に前処理された入力信号、及び/又は、音響的なフィードバックのために調整された入力信号など(図示せず)の信号ベクトルが考えられる。さらなる又は代替の入力量40として、入力信号16のそれぞれのフレーム50のスペクトル成分52が渡される。そのために、それぞれのフレームは、例えばFFTによって時間周波数領域に変換される(図示せず)。
【0050】
入力量40は、上記の方法において、重み42に従って、接続部36に沿って、DNN30の個々の層34を経て、出力層46のニューロン32まで伝搬される。そのニューロンにおいて、実行された処理の結果が、当該の信号強度を介して得られる。
【0051】
図3は、
図1による聴取システム1をブロック図において概略的に示しており、その際、
図2によるDNN30が補聴器6の信号処理装置18に実装されている。補聴器6は、
図3においては、単に概略的に示されている。出力信号20を生成するために補聴器6において入力信号16に適用される信号処理のサブプロセスの枠内において、DNN30によって、
図2に概略的に示されるように、具体的な処理(例えば、OVD、VAD、又はDOAの検出)が実行されることとなる。その際、信号処理装置18においてDNN30の実装のために利用可能なリソースを最適に使用可能とするために、DNN30の構造、すなわちDNN30のトポロジーは、実行する処理に調整される。これは特に、例えば、DOAの検出用とOVD用とにおいて、異なる構造的な特性(異なるトポロジー)を有するDNN30を使用できることを意味する(ただし、このような構造的な違いは必ずしも必要ではなく、さらに具体的な置き換えに依存可能である)。
【0052】
信号処理装置18におけるDNN30の実装は、一方においては、信号プロセッサ(詳細は図示せず)上において実施することができる。その信号プロセッサは、一方においては、汎用的に形成することができ、したがって、他のタスクのために提供及び構成することもでき、他方においては、異なるDNN30(異なるトポロジーを有する)の実装のために(例えば、いわゆるニューロモルフィックチップとして)特別に設計されたものである。特に、本実施例においては、特別のASICを使用することも可能である。
【0053】
信号処理装置18においては、入力信号16の暫定的な分析56が、信号フロー54の枠内において実施される。本実施例においては、特に、現在の聴取状況を確認する。現在の聴取状況のために、DNN30用の異なるトポロジー(そのトポロジーは、実行する異なる処理に割り当てられる)に対して、重み42の個々のセット60が補聴器6の不揮発性メモリ58に記憶されている。メモリ58から、DNN30用の重み42のセット60が信号処理装置18にロードされる。そのセット60は、実行する処理に応じて確定された、DNN30のトポロジーのために提供される。そのDNN30は、分析56において確定された聴取状況のDNNである。
【0054】
さらに、スマートホン8には、加速度センサ62とGPS対応センサ64とが配置されており、それらセンサは、一方においては聴取システム1のユーザの動きに関する情報を提供し、他方においては、ユーザがいる正確な場所に関する情報を提供する。さらに、適切なアプリケーション(詳説されず)を用いて、例えば、ユーザが聴取状況又は対応して割り当てられた聴取プログラムを選択するために、スマートホンにユーザ入力を行うことができる。データ接続10を介してスマートホン8から補聴器6に上記情報を伝送し、それに応じて補聴器6において評価することによって、上記情報と、場合によってはユーザの入力を追加的に使用して、DNN用の重み42のセット60を選択することができる。重み42は、スマートホン8の不揮発性メモリ(図示せず)に保存することもできる。その場合、補聴器6によって、データ接続10を介してスマートホン8に要求が送信され、この要求は、補聴器6に実装されるDNN30のトポロジーを少なくとも暗黙的にスマートホン8に通知するものである。その結果、DNN30の関連するトポロジーのための対応する重みのセットが、上記のセンサを用いて確定された環境状況のために、補聴器6に伝送される。
【0055】
DNN30用の重み42のセット60を確定するすべてのステップが、すなわち、特に入力信号16の生成、及び、入力信号16の暫定的な分析56が、補聴器6自体において行われることによって、スマートホン8は、補聴器6によって、特に単なる一種の「メモリ拡張」としても使用することができる。その場合、補聴器6内の信号処理装置18によって、DNN30用の重み42の必要なセット60が決定され、そして、対応する要求がスマートホン8に向けられる。スマートホン8は、これらの重み42(これらは、例えば、DNN30の異なるトポロジーのために確定された聴取状況に基づいてテーブル化されてもよい)を不揮発性メモリからロードして、補聴器6に伝送する。補聴器6において、重み42がDNN30に実装される。本実施例において説明する、
図3には個別に示されていないケースにおいては、そのため、特に、スマートホン8のセンサからの追加の情報は、重み42の選択には使用されない。
【0056】
入力量40はDNN30に渡され、その結果は再び、入力信号16から出力信号20が生成される信号フロー54に統合される。特に、補聴器6は、本実施例において、さらなる入力信号(図示せず)を有することもでき、この入力信号は、例えば、さらなる電気音響入力変換器(
図1参照)によって生成される。
【0057】
補聴器6にDNN30を実装する代替的な可能性は、信号処理装置18に実装されたDNN30用の重み42を、補聴器6において検出された、又はユーザに選択された聴取状況に基づいて、或いは、スマートホン8において収集されたセンサ信号に基づいて、選択することだけでない。DNN30のトポロジーも、さらに、分析56によって検出された、又は、スマートホン8でのユーザ入力によって選択された聴取状況によって、或いは、動き状態及び特定の場所にいる状態(Ubikation)(スマートホン8の加速度センサ62及びGPS対応センサ64に基づいて確定された)に基づいて、選択することができる。この場合においても、付属する重み42は、提供された情報又はユーザの入力に基づいて、また、さらなる信号流れに対して実行する処理に基づいて、選択される。
【0058】
以上、本発明を好ましい実施例によって詳細に説明したが、本発明は開示された実施例によって限定されるものではなく、当業者は、本発明の保護範囲から逸脱することなく、そこから他の変形例を導き出すことができる。
【符号の説明】
【0059】
1 聴取システム
2 聴取機器
4 補助機器
6 補聴器
8 スマートホン
10 (双方向)データ接続
12 入力変換器
14 音信号
16 入力信号
18 信号処理装置
20 出力信号
22 出力変換器
24 出力音信号
30 DNN(ディープニューラルネットワーク)
32 ニューロン
34 層
36 接続部
38 入力層
40 入力量
42 重み
44 深層
46 出力層
48 (入力信号の)サンプル
50 (入力信号の)フレーム
52 (1フレームの)スペクトル成分
54 信号フロー
56(暫定的な)分析
58 不揮発性メモリ
60 (重みの)セット
62 加速度センサ
64 GPS対応センサ