IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ クロマティック インコーポレイテッドの特許一覧

特表2025-501949ニューラルネットワーク補聴器のための方法、装置、およびシステム
<>
  • 特表-ニューラルネットワーク補聴器のための方法、装置、およびシステム 図1
  • 特表-ニューラルネットワーク補聴器のための方法、装置、およびシステム 図2
  • 特表-ニューラルネットワーク補聴器のための方法、装置、およびシステム 図3A
  • 特表-ニューラルネットワーク補聴器のための方法、装置、およびシステム 図3B
  • 特表-ニューラルネットワーク補聴器のための方法、装置、およびシステム 図4
  • 特表-ニューラルネットワーク補聴器のための方法、装置、およびシステム 図5A
  • 特表-ニューラルネットワーク補聴器のための方法、装置、およびシステム 図5B
  • 特表-ニューラルネットワーク補聴器のための方法、装置、およびシステム 図5C
  • 特表-ニューラルネットワーク補聴器のための方法、装置、およびシステム 図6
  • 特表-ニューラルネットワーク補聴器のための方法、装置、およびシステム 図7
  • 特表-ニューラルネットワーク補聴器のための方法、装置、およびシステム 図8
  • 特表-ニューラルネットワーク補聴器のための方法、装置、およびシステム 図9
  • 特表-ニューラルネットワーク補聴器のための方法、装置、およびシステム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2025-01-24
(54)【発明の名称】ニューラルネットワーク補聴器のための方法、装置、およびシステム
(51)【国際特許分類】
   G10L 21/0208 20130101AFI20250117BHJP
   G10L 25/30 20130101ALI20250117BHJP
   H04R 25/00 20060101ALI20250117BHJP
【FI】
G10L21/0208 100Z
G10L25/30
H04R25/00 M
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024539468
(86)(22)【出願日】2022-01-14
(85)【翻訳文提出日】2024-08-22
(86)【国際出願番号】 US2022012567
(87)【国際公開番号】W WO2023136835
(87)【国際公開日】2023-07-20
(81)【指定国・地域】
(71)【出願人】
【識別番号】524243365
【氏名又は名称】クロマティック インコーポレイテッド
【氏名又は名称原語表記】CHROMATIC INC.
【住所又は居所原語表記】379 West Broadway, New York, NY, U.S.A.
(74)【代理人】
【識別番号】110002952
【氏名又は名称】弁理士法人鷲田国際特許事務所
(72)【発明者】
【氏名】キャスパー アンドリュー
(72)【発明者】
【氏名】ロフチンスキー イゴール
(72)【発明者】
【氏名】モリス ニコラス
(72)【発明者】
【氏名】ド ジョンジュ マシュー
(72)【発明者】
【氏名】マコスキー ジョナサン
(72)【発明者】
【氏名】メイヤーズ フォース フィリップ
(57)【要約】
本開示は、一般に、聴覚装置に含まれるニューラルネットワークを介して音声を処理することにより、リアルタイムの会話におけるユーザの音声理解を改善する方法、システム、および装置に関する。聴覚装置は、ヘッドフォンまたは補聴器であってもよい。一実施形態において、本開示は、入来音声信号を改善する装置に関する。本装置は、入来信号を受信し、制御部出力信号を提供する制御部と、制御部と通信するニューラルネットワークエンジン(NNE)回路であって、制御部によって起動可能であり、制御部出力信号からNNE出力信号を生成するように構成される、ニューラルネットワークエンジン(NNE)回路と、デジタル信号処理(DSP)回路であって、制御部出力信号またはNNE回路出力信号のうちの1つまたは複数を受信し、それによって処理信号を生成する、デジタル信号処理(DSP)回路と、を備え、制御部は、予め定められたパラメータ、入来信号特性、およびNNE回路のフィードバックのうちの1つまたは複数の関数として、DSPまたはNNE回路のうちの1つを通る制御部出力信号の処理経路を決定する。
【選択図】図1
【特許請求の範囲】
【請求項1】
入来音声信号を改善する装置であって、
入来信号を受信し、制御部出力信号を提供する制御部と、
前記制御部と通信するニューラルネットワークエンジン(NNE)回路であって、前記制御部によって起動可能であり、前記制御部出力信号からNNE出力信号を生成するように構成された、NNE回路と、
デジタル信号処理(DSP)回路であって、前記制御部出力信号または前記NNE回路出力信号のうちの1つまたは複数を受信し、それによって処理信号を生成する、DSP回路と、
を備え、
前記制御部は、予め定められたパラメータ、入来信号の特性、およびNNE回路のフィードバックのうちの1つまたは複数の関数として、前記DSP回路または前記NNE回路のうちの1つを通る制御部出力信号の処理経路を決定する、
装置。
【請求項2】
前記予め定められたパラメータは、ユーザ定義特性およびユーザ非依存特性を備える、請求項1に記載の装置。
【請求項3】
前記ユーザ定義特性は、さらに、ユーザ信号対雑音比(U-SNR)閾値および自然話者特定情報のうちの1つまたは複数を備える、請求項2に記載の装置。
【請求項4】
前記ユーザ非依存特性は、利用可能な電力レベルとシステム信号対雑音比(S-SNR)閾値のうちの1つまたは複数を備える、請求項2に記載の装置。
【請求項5】
前記入来信号の特性は、検出可能な音声または検出可能な無音を備える、請求項1に記載の装置。
【請求項6】
前記制御部は、無音を検出すると、前記DSPまたは前記NNEの少なくとも一方を係合解除し、無音は、予め定められた閾値を下回る雑音レベルによって定義される、請求項5に記載の装置。
【請求項7】
前記NNE回路のフィードバックは、検出されたSNR値を備える、請求項1に記載の装置。
【請求項8】
前記NNE回路のフィードバックは、前記NNE回路における声検出の指示を備える、請求項1に記載の装置。
【請求項9】
前記制御部は、前記NNE回路に音声クリップを送信し、前記NNE回路のフィードバックを受信するように構成されている、請求項1に記載の装置。
【請求項10】
前記音声クリップは、前記入来信号の一部を定義し、前記制御部から断続的に送信される、請求項9に記載の装置。
【請求項11】
前記音声クリップは、予め定められた長さを有し、予め定められた間隔及びある頻度で送信され、送信の前記頻度は、前記NNE回路のフィードバック信号の関数として決定される、請求項9に記載の装置。
【請求項12】
制御部は、実質的にリアルタイムで制御部出力信号の処理経路を決定する、請求項1に記載の装置。
【請求項13】
前記制御部、DSP、およびNNEは、システムオンチップ(SOC)上に集積されている、請求項1に記載の装置。
【請求項14】
前記制御部、DSP、およびNNEは、人間の耳に装着されるように適合するように構成された補聴器に統合されている、請求項1に記載の装置。
【請求項15】
前記制御部出力信号を処理する能動的雑音相殺(ANC)回路をさらに備える、請求項1に記載の装置。
【請求項16】
入来音声信号の品質を改善する方法であって、
制御部で入来信号を受信し、制御部出力信号を提供することと、
ニューラルネットワークエンジン(NNE)出力信号およびNNEフィードバック信号を生成するために、NNEを起動し、前記制御部出力信号を処理することと、
前記制御部出力信号および前記NNE回路出力信号の1つまたは複数を受信し、処理信号を生成するために、デジタル信号処理(DSP)回路を起動することと、
を備え、
前記制御部は、予め定められたパラメータ、入来信号の特性、およびNNE回路のフィードバックのうちの1つまたは複数の関数として、前記DSP回路または前記NNE回路のうちの1つを通る前記制御部出力信号の処理経路を決定する、
方法。
【請求項17】
前記予め定められたパラメータは、ユーザ定義特性およびユーザ非依存特性を備える、請求項16に記載の方法。
【請求項18】
前記ユーザ定義特性は、ユーザ信号対雑音比(U-SNR)閾値および自然話者特定情報のうちの1つまたは複数をさらに備える、請求項17に記載の方法。
【請求項19】
前記ユーザ非依存特性は、利用可能な電力レベルおよびシステム信号対雑音比(S-SNR)閾値のうちの1つまたは複数をさらに備える、請求項17に記載の方法。
【請求項20】
前記入来信号の特性は、検出可能な音または検出可能な無音を備える、請求項16に記載の方法。
【請求項21】
前記制御部で無音を検出すると、前記DSPと前記NNEとを係合解除することをさらに備える、請求項20に記載の方法。
【請求項22】
SNR値を検出し、前記NNEが検出された前記SNR値を前記NNE回路のフィードバック信号として供給することをさらに備える、請求項16に記載の方法。
【請求項23】
前記NNEフィードバック信号は、前記NNEにおける音声検出の指示をさらに備える、請求項16に記載の方法。
【請求項24】
前記NNEフィードバック信号を受信する前に、前記制御部から前記NNEに音声クリップを送信することをさらに備える、請求項16に記載の方法。
【請求項25】
前記音声クリップは、入来信号の一部を定義し、間欠的に送信される、請求項24に記載の方法。
【請求項26】
前記音声クリップは、予め定められた長さを有し、予め定められた間隔およびある頻度で送信され、送信の前記頻度は、前記NNE回路のフィードバック信号の関数として決定される、請求項24に記載の方法。
【請求項27】
処理経路を前記制御部でリアルタイムに決定することをさらに備える、請求項16に記載の方法。
【請求項28】
前記制御部、DSP、およびNNEをシステムオンチップ(SOC)上に集積することをさらに備える、請求項16に記載の方法。
【請求項29】
前記制御部、DSP、およびNNEを、人間の耳に適合するように構成された補聴器に統合することをさらに備える、請求項16に記載の方法。
【請求項30】
前記NNE回路を介して前記制御部出力信号を処理するときに、能動的雑音相殺(ANC)回路を係合させることをさらに備える、請求項16に記載の方法。
【請求項31】
メモリ回路に結合されたプロセッサ回路を含む演算ハードウェアによって実行されると、前記演算ハードウェアに、
制御部で入来信号を受信し、制御部出力信号を提供することと、
NNE出力信号およびNNEフィードバック信号を生成するために、ニューラルネットワークエンジン(NNE)を起動し、前記制御部出力信号を処理することと、
前記制御部出力信号および前記NNE回路出力信号の1つまたは複数を受信し、処理信号を生成するために、デジタル信号処理(DSP)回路を起動することと、
を実行させる命令を備える、少なくとも1つの非一過性の機械可読媒体であって、
前記制御部は、予め定められたパラメータ、入来信号の特性、およびNNE回路のフィードバックのうちの1つまたは複数の関数として、前記DSP回路または前記NNE回路のうちの1つを通る前記制御部出力信号の処理経路を決定する、
非一過性の機械可読媒体。
【請求項32】
前記予め定められたパラメータは、ユーザ定義特性およびユーザ非依存特性を備える、請求項31に記載の媒体。
【請求項33】
前記ユーザ定義特性は、ユーザ信号対雑音比(U-SNR)閾値および自然話者特定情報のうちの1つまたは複数をさらに備える、請求項32に記載の媒体。
【請求項34】
前記ユーザ非依存特性は、利用可能な電力レベルとシステム信号対雑音比(S-SNR)閾値のうちの1つまたは複数をさらに備える、請求項32に記載の媒体。
【請求項35】
前記入来信号の特性は、検出可能な音声または検出可能な無音を備える、請求項31に記載の媒体。
【請求項36】
前記命令は、さらに、前記制御部において無音を検出したときに、前記演算ハードウェアに、前記DSPと前記NNEとを係合解除させる、請求項35に記載の媒体。
【請求項37】
前記命令は、さらに、前記演算ハードウェアに、SNR値および前記NNEを検出させ、検出された前記SNR値を前記NNE回路のフィードバック信号として提供させる、請求項31に記載の媒体。
【請求項38】
前記NNEフィードバック信号は、前記NNEにおける声検出の指示をさらに備える、請求項31に記載の媒体。
【請求項39】
前記命令は、前記NNEフィードバック信号を受信する前に、前記演算ハードウェアに前記制御部から前記NNEへ音声クリップをさらに送信させる、請求項31に記載の媒体。
【請求項40】
前記音声クリップは、入来信号の一部を定義し、断続的に送信される、請求項39に記載の媒体。
【請求項41】
前記音声クリップは、予め定められた長さを有し、予め定められた間隔およびある頻度で送信され、送信の前記頻度は、前記NNE回路のフィードバック信号の関数として決定される、請求項39に記載の媒体。
【請求項42】
前記命令は、前記演算ハードウェアに、さらに、処理経路を前記制御部でリアルタイムに決定させる、請求項31に記載の媒体。
【請求項43】
前記制御部、DSP、およびNNEは、人間の耳に適合するように構成された補聴器に統合される、請求項31に記載の媒体。
【請求項44】
入来音声信号を改善する聴覚システムであって、
1つまたは複数の入来音声信号を受信するフロントエンド受信部であって、前記入来音声信号の少なくとも1つは、複数の信号成分を有し、各信号成分は、それぞれの信号源に対応する、フロントエンド受信部と、
前記フロントエンド受信部と通信する制御部であって、前記フロントエンド受信部から入力信号を受信し、制御部出力信号を提供し、第1または第2の信号処理経路の少なくとも1つに選択的に前記出力信号を提供する、制御部と、
第1の信号処理経路の一部を定義するように前記制御部と通信するニューラルネットワークエンジン(NNE)回路であって、前記制御部によって起動可能であり、前記制御部出力信号からNNE出力信号を生成するように構成されている、NNE回路と、
前記第1および第2の信号処理経路の一部を形成するデジタル信号処理(DSP)回路であって、制御部出力信号または前記NNE回路出力信号のうちの1つまたは複数を受信して、それによって処理信号を生成する、DSP回路と、
を備え、
前記フロントエンド受信部、前記制御部、前記NNE回路、および前記DSP回路は、集積回路(IC)上に形成される、
聴覚システム。
【請求項45】
前記DSPからの出力信号を受信して可聴信号を形成するバックエンド受信部をさらに備える、請求項44に記載の聴覚システム。
【請求項46】
補聴器、ヘッドフォン、または顔装着メガネ(faceworn glasses)のうちの1つを定義し、前記可聴信号は、入来信号を受信した後32ミリ秒未満で形成される、請求項45に記載の聴覚システム。
【請求項47】
前記ICは、システムオンチップ(SOC)を備える、請求項44に記載の聴覚システム。
【請求項48】
前記SOCと電源を受容するハウジングをさらに備える、請求項47に記載の聴覚システム。
【請求項49】
前記制御部は、前記制御部出力信号の処理経路をNNE回路のフィードバックの関数として決定する、請求項44に記載の聴覚システム。
【請求項50】
前記制御部は、前記制御部出力信号の処理経路を、予め定められたパラメータ、入来信号の特性、およびNNE回路のフィードバックのうちの1つまたは複数の関数として決定する、請求項44に記載の聴覚システム。
【請求項51】
無線通信システムをさらに備える、請求項44に記載の聴覚システム。
【請求項52】
前記NNE回路は、前記入来信号の成分の相対音量を調整し、前記DSP回路は、周波数および時間変動利得を受信された前記信号に適用する、請求項44に記載の聴覚システム。
【請求項53】
前記入来信号の成分は、少なくとも発話および雑音をさらに備え、前記発話音量は雑音音量に対して増加される、請求項52に記載の聴覚システム。
【請求項54】
前記フロントエンド受信部は、前記制御部に入力信号を提供するように入来信号を処理し、前記入来信号は、発話成分および雑音成分のうちの1つまたは複数を含む、請求項44に記載の聴覚システム。
【請求項55】
前記NNE回路は、複数の成分を得るように前記フロントエンド受信部の前記入来信号に選択的に比率マスクを適用し、前記複数の成分の各々は、音声クラスに対応する、請求項52に記載の聴覚システム。
【請求項56】
前記NNE回路は、複数の信号成分を得るように前記制御部出力信号に複素比率マスクを選択的に適用するように構成され、前記複数の信号成分の各々は、音声クラス又は個々の話者に対応し、前記NNE回路は、前記複数の成分を出力信号に結合するようにさらに構成され、各成分の音量は、予め定められたユーザ制御の信号対雑音比に従って少なくとも1つの他の成分に対して調整される、請求項44に記載の聴覚システム。
【請求項57】
前記信号成分は、発話と雑音をさらに備え、前記出力信号は雑音音量に対して増加させた発話音量を備える、請求項56に記載の聴覚システム。
【請求項58】
前記信号成分は、ユーザの発話および複数の他の音源をさらに備え、前記出力信号は、他の音源に対して減少させたユーザの発話を備える、請求項56に記載の聴覚システム。
【請求項59】
前記NNE回路は、ユーザ制御のパラメータの関数として異なる音源のそれぞれの音量を設定するようにさらに構成される、請求項56に記載の聴覚システム。
【請求項60】
前記第2の信号処理経路は、前記NNEを通る信号処理を除外する、請求項44に記載の聴覚システム。
【請求項61】
前記NNE回路は、1つまたは複数の前記DSP機能を実施するようにさらに構成される、請求項44に記載の聴覚システム。
【請求項62】
入来音声信号の品質を改善する方法であって、
フロントエンド受信部において1つまたは複数の入来音声信号を受信することであって、前記入来音声信号の少なくとも1つは、複数の信号成分を有し、各信号成分は、それぞれの信号源に対応する、受信することと、
制御部において前記フロントエンド受信部から入力信号を受信し、制御部出力信号を提供することであって、前記制御部は、第1または第2の信号処理経路の少なくとも1つに前記出力信号を選択的に提供する、制御部出力信号を提供することと、
前記制御部によって起動可能なニューラルネットワークエンジン(NNE)回路において前記制御部出力信号からNNE出力信号を生成することであって、前記NNEは、前記第1の信号処理経路の少なくとも一部を定義する、生成することと、
デジタル信号処理(DSP)回路において、前記制御部出力信号または前記NNE回路出力信号から処理信号を生成することであって、前記DSPは、前記第1および第2の信号処理経路の少なくとも一部を定義する、生成することと、
を備え、
前記フロントエンド受信部、前記制御部、前記NNE回路、および前記DSP回路は、集積回路(IC)上に形成される、
方法。
【請求項63】
バックエンド受信部において前記処理信号から出力信号を形成することをさらに備える、請求項62に記載の方法。
【請求項64】
前記入来信号を受信した後32ミリ秒未満で前記出力信号を形成することをさらに備える、請求項63に記載の方法。
【請求項65】
前記聴覚システムは、補聴器、ヘッドフォン、または顔装着メガネ(faceworn glasses)のうちの1つを定義する、請求項63に記載の方法。
【請求項66】
前記ICは、システムオンチップ(SOC)を備える、請求項62に記載の方法。
【請求項67】
前記SOCおよび電源を受容するハウジングをさらに備える、請求項66に記載の方法。
【請求項68】
前記制御部出力信号の処理経路を、NNE回路のフィードバックの関数として決定することをさらに備える、請求項62に記載の方法。
【請求項69】
前記制御部出力信号の処理経路を、予め定められたパラメータ、入来信号の特性、およびNNE回路のフィードバックのうちの1つまたは複数の関数として決定することをさらに備える、請求項62に記載の方法。
【請求項70】
前記制御部に入力信号を提供するように、前記フロントエンド受信部において発話成分および雑音成分のうちの1つまたは複数を有する入来信号を処理することをさらに備える、請求項62に記載の方法。
【請求項71】
前記NNE回路は、複数の成分を得るように前記フロントエンド受信部の入来信号に選択的に比率マスクを適用し、前記複数の成分の各々が音声クラスに対応する、請求項70に記載の方法。
【請求項72】
複数の信号成分を得るように、前記NNE回路において前記制御部出力信号に複素比率マスクを適用することであって、前記複数の信号成分の各々が音声クラスまたは個々の話者に対応する、適用することと、前記NNE回路において前記複数の成分を出力信号に結合することと、をさらに備え、各成分の音量が、予め定められたユーザ制御の信号対雑音比に従って少なくとも1つの他の成分に対して調整される、請求項62に記載の方法システム。
【請求項73】
前記信号成分は、発話と雑音をさらに備え、前記出力信号は、雑音音量に対して増加させた発話音量を備える、請求項72に記載の方法。
【請求項74】
前記信号成分は、ユーザの発話と複数の他の音源とをさらに備え、前記出力信号は、他の音源に対して減少させたユーザの発話を備える、請求項72に記載の方法。
【請求項75】
前記NNE回路は、ユーザ制御のパラメータの関数として異なる音源のそれぞれの音量を設定するようにさらに構成される、請求項72に記載の方法。
【請求項76】
前記第1の信号処理経路を通る信号処理は、前記NNEを通る信号処理を除外する、請求項62に記載の方法。
【請求項77】
メモリ回路に結合されたプロセッサ回路を含む演算ハードウェアによって実行されると、前記演算ハードウェアに、
フロントエンド受信部で1つまたは複数の入来音声信号を受信することであって、前記入来音声信号の少なくとも1つは、複数の信号成分を有し、各信号成分は、それぞれの信号源に対応する、受信することと、
前記フロントエンド受信部から入力信号を受信し、制御部出力信号を提供することであって、前記制御部は、第1の信号処理経路または第2の信号処理経路の少なくとも1つに前記出力信号を選択的に提供する、制御部出力信号を提供することと、
前記制御部によって起動可能なニューラルネットワークエンジン(NNE)回路において、前記制御部出力信号からNNE出力信号を生成することであって、NNEは、前記第1の信号処理経路の少なくとも一部を定義する、生成することと、
デジタル信号処理(DSP)回路において、前記制御部出力信号または前記NNE回路出力信号から処理信号を生成することであって、前記DSPは、第1および第2の信号処理経路の少なくとも一部を定義する、生成することと、
を実行させる命令を備える、少なくとも1つの非一過性の機械可読媒体であって、
前記フロントエンド受信部、前記制御部、前記NNE回路、および前記DSP回路は、集積回路(IC)上に形成される、
少なくとも1つの非一過性の機械可読媒体。
【請求項78】
前記命令は、さらに、前記演算ハードウェアに、バックエンド受信部において前記処理信号から出力信号を形成させる、請求項77に記載の媒体。
【請求項79】
前記命令は、さらに、前記演算ハードウェアに、前記入来信号を受信してから32ミリ秒未満で前記出力信号を形成させる、請求項78に記載の媒体。
【請求項80】
前記聴覚システムは、補聴器、ヘッドフォン、または面体メガネ(facework glasses)のうちの1つを定義する、請求項78に記載の媒体。
【請求項81】
前記ICは、システムオンチップ(SOC)を備える、請求項77に記載の媒体。
【請求項82】
前記命令は、さらに、前記演算ハードウェアに、前記制御部出力信号の処理経路を、NNE回路のフィードバックの関数として決定させる、請求項77に記載の媒体。
【請求項83】
前記命令は、さらに、前記演算ハードウェアに、前記制御部出力信号の処理経路を、予め定められたパラメータ、入来信号の特性、およびNNE回路のフィードバックのうちの1つまたは複数の関数として決定させる、請求項77に記載の媒体。
【請求項84】
前記命令は、さらに、前記演算ハードウェアに、前記フロントエンド受信部において、発話成分および雑音成分のうちの1つまたは複数を有する入来信号を処理して、前記制御部に入来信号を提供させる、請求項77に記載の媒体。
【請求項85】
前記NNE回路は、前記フロントエンド受信部の入来信号に選択的に比率マスクを適用して複数の成分を得るように構成され、前記複数の成分の各々は、音声クラスに対応する、請求項84に記載の媒体。
【請求項86】
前記命令は、さらに、前記演算ハードウェアに、複数の信号成分を得るように前記NNE回路において前記制御部出力信号に複素比率マスクを適用させ、前記複数の信号成分の各々は、音声クラスまたは個々の話者に対応し、前記複数の成分を前記NNE回路において出力信号に結合し、各成分の音量は、予め定められたユーザ制御の信号対雑音比に従って少なくとも1つの他の成分に対して調整される、請求項77に記載の媒体。
【請求項87】
前記信号成分は、発話および雑音をさらに備え、前記出力信号は、雑音音量に対して増加させた発話音量を備える、請求項86に記載の媒体。
【請求項88】
前記信号成分は、ユーザの発話および複数の他の音源をさらに備え、前記出力信号は、他の音源に対して減少させたユーザの発話を備える、請求項84に記載の媒体。
【請求項89】
前記命令は、さらに、前記演算ハードウェアに、ユーザ制御のパラメータの関数として、異なる音源のそれぞれの音量を設定させる、請求項84に記載の媒体。
【請求項90】
前記第1の信号処理経路を通る信号処理は、前記NNEを通る信号処理を除外する、請求項77に記載の媒体。
【請求項91】
入来音声信号を改善する耳装着型の聴覚システムであって、
連続的に受信された信号サンプルを改善し、次いで、前記改善された信号サンプルに基づいて連続的な可聴信号を出力するように構成されたニューラルネットワークエンジン(NNE)回路を備える、聴覚システム。
【請求項92】
可聴信号は、受信された前記信号の受信から約32ミリ秒以下で生成される、請求項91に記載の聴覚システム。
【請求項93】
可聴信号は、受信された前記信号の受信から約10ミリ秒以下で生成される、請求項91に記載の聴覚システム。
【請求項94】
可聴信号は、入来音声信号の受信から約10~20ミリ秒、12~8ミリ秒、10~6ミリ秒、または8~3ミリ秒で生成される、請求項91に記載の聴覚システム。
【請求項95】
前記ニューラルネットワークは、1秒間に少なくとも10億回の演算を行う、請求項92に記載の聴覚システム。
【請求項96】
前記NNE回路は、約2ミリワット以下の関連消費電力で音声信号を処理するように構成されている、請求項95に記載の聴覚システム。
【請求項97】
前記NNE回路は、システムオンチップ(SOC)上に形成され、複数の精度レベルの信号処理動作を実行するための複数の非一過性の実行可能論理をさらに備える、請求項96に記載の聴覚システム。
【請求項98】
前記ニューラルネットワークは、各信号サンプルに対する複素比率マスクを推定し、望ましい信号成分を得ることにより、前記音声信号を改善する、請求項91に記載の聴覚システム。
【請求項99】
前記望ましい信号成分は発話である、請求項98に記載の聴覚システム。
【請求項100】
前記望ましい信号成分は、1つまたは複数の認識された話者である、請求項99に記載の聴覚システム。
【請求項101】
改善された音声信号は減少した背景雑音を示し、前記背景雑音はユーザ設定可能である、請求項98に記載の聴覚システム。
【請求項102】
背景雑音レベルを調整するために、前記聴覚システム上でアクセス可能な物理的制御スイッチをさらに備える、請求項101に記載の聴覚システム。
【請求項103】
背景雑音レベルを調整するために、補助装置を介してアクセス可能な論理制御スイッチをさらに備える、請求項101に記載の聴覚システム。
【請求項104】
入来音声信号を改善する耳装着型聴覚システムであって、
受信信号の可聴性を改善させ、改善された連続出力信号を提供するように構成された、ニューラルネットワークエンジン(NNE)回路と、
ユーザ入力に対応するように少なくとも1つのNNE回路構成を操作することにより、背景雑音を調整する制御ダイヤルと、
を備える、耳装着型聴覚システム。
【請求項105】
前記制御ダイヤルは、調整可能な物理的ダイヤルを備える、請求項104に記載の聴覚システム。
【請求項106】
前記制御ダイヤルは、前記連続出力信号の信号対雑音比(SNR)に影響を与える、請求項104に記載の聴覚システム。
【請求項107】
前記制御ダイヤルは、入来音声の雑音成分に排他的に影響を与える、請求項104に記載の聴覚システム。
【請求項108】
音声信号の可聴性を改善する装置であって、
1つまたは複数の入力音声信号を受信し、1つまたは複数の中間信号を出力するニューラルネットワークエンジン(NNE)回路であって、各中間信号は、1つまたは複数の音源に対応する音声信号をさらに備える、ニューラルネットワークエンジン(NNE)回路と、
前記1つまたは複数の中間信号を受信し、各中間信号に利得を割り当て、前記1つまたは複数の中間信号を再結合して新たな出力信号を形成するように構成されたサウンドミキサー回路と、
を備え、
前記1つまたは複数の中間信号に割り当てられる利得は、目標信号対雑音比(SNR)を達成するように設定され、前記SNRは、少なくとも1つのユーザ固有の基準および少なくとも1つのユーザ非依存基準の関数として決定される、
装置。
【請求項109】
前記ユーザ固有の基準は、特定の所望の信号音声クラスと雑音音声クラスの音量目標、または、所望の音声クラスとSNRの間の音量の所望の比率を備える、請求項108に記載の装置。
【請求項110】
前記所望の音声クラスの音量は、ユーザ制御される、請求項109に記載の装置。
【請求項111】
前記ニューラルネットワークが出力する前記中間信号の数および構成は、ユーザ固有の選択基準に従って設定可能である、請求項108に記載の装置。
【請求項112】
前記ユーザ固有の基準は、1つまたは複数の自然話者の所望の増幅をさらに備える、請求項109に記載の装置。
【請求項113】
前記ユーザ非依存基準は、最近受信され処理された入力音声信号の前記推定SNRをさらに備える、請求項109に記載の装置。
【請求項114】
前記ユーザ非依存基準は、前記ニューラルネットワークの前記推定誤差をさらに備える、請求項109に記載の装置。
【請求項115】
前記サウンドミキサー回路のステップは、前記ネットワークの予測誤差に基づいて、前記1つまたは複数の中間信号を再結合して新たな出力信号を形成する、請求項114に記載の装置。
【請求項116】
前記目標SNRは、前記ユーザの所望のSNRまたは前記ニューラルネットワークの前記推定誤差に基づく前記SNRのうち低い方として決定される、請求項108に記載の装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、概して、ニューラルネットワーク対応聴覚デバイスのための方法、装置、およびシステムに関する。いくつかの実施形態において、本開示は、ヘッドフォンまたは補聴器のような聴覚デバイスに含まれるニューラルネットワークを介して音声を処理することによって、リアルタイムの会話におけるユーザの発話の理解を改善する方法、システム、および装置を提供する。
【0002】
実世界の状況における人々の間の会話の容易さは、しばしば、背景雑音によって妨げられる。背景雑音が発話に対して大きい場合、発話は、背景雑音にかき消されてしまう。バー、レストラン、コンサートなどは、会話にとって一般的に困難な環境の一例である。特に困難な「信号対雑音」比では、健聴者も苦労するが、難聴者にとってこれらの環境は、特に困難である。
【0003】
難聴または聴覚障害は、音を聞き、認識し、理解することを困難にする。難聴は年齢に関係なく発生する可能性があり、生まれつきの欠陥、加齢、またはその他の原因による場合がある。最も一般的な難聴は感音性難聴である。感音性難聴は、内耳にある定位繊毛と呼ばれる小さな毛のような細胞、または聴神経そのものに障害が起こり、脳への神経信号の伝達が妨げられたり、弱まったりすることで起こる永続的な難聴である。感音性難聴は、通常、音量感受性(小さな音を聞き取る能力)と周波数選択性(騒音の中で明瞭な音を聞き分ける能力)の両方が損なわれる。この2つ目の障害は、騒音下での会話の明瞭性に特に深刻な影響を及ぼす。音声が聴力閾値をはるかに超えていても、難聴者は、健聴者に比べて、背景雑音がある中で会話についていく能力の低下を経験する。
【0004】
従来の補聴器は、音量感度の低下を補うために必要な増幅を行う。これは静かな環境では役に立つが、騒がしい環境では、難聴者が聞きたい音を選択的に聞き取ることが難しくなるため、増幅の効果は限定的である。従来の補聴器は、指向性マイクロフォン、ビームフォーミング技術、ポストフィルタなど、装用者の信号対雑音比を高めるために様々な技術を使用する。しかし、これらの方法はいずれも、話者の位置や異なる周波数帯域における信号の統計的特性など、しばしば正しくない仮定に依存しているため、特に効果的でない。その結果、難聴者は最新の補聴器を使っても、騒がしい環境での会話についていくのが未だ困難である。
【0005】
ニューラルネットワークは、音の意味論に基づいて音を異なるように扱う手段を提供する。このようなアルゴリズムは、音声と背景雑音をリアルタイムで分離するために使用できるが、ニューラルネットワークのような強力なアルゴリズムを信号経路に配置することは、これまで補聴器やヘッドフォンでは実現不可能と考えられてきた。補聴器は、そのようなアルゴリズムを計算するためのバッテリが限られており、そのようなアルゴリズムは、実世界で遭遇する様々な環境で十分に機能するのに苦労してきた。開示された実施形態は、従来の補聴器のこれらおよび他の欠陥に対処するものである。
【図面の簡単な説明】
【0006】
開示された実施形態は、同様の要素に同様の番号を付した以下の例示的かつ非限定的な実施形態に関連して説明される。
【0007】
図1図1は、本開示の一実施形態によるシステム図である。
図2図2は、本開示の一実施形態による例示的なフロントエンド受信部を概略的に示す。
図3A図3Aは、本開示の一実施形態による例示的なシステムの概略図である。
図3B図3Bは、発話音量、背景雑音レベル制御、およびモードスイッチを示す。
図4図4は、本開示の別の実施形態による信号処理システムを示す図である。
図5A図5Aは、ユーザ選好と、本開示の一実施形態による例示的なNNEによって適用される非線形利得との間の相互作用を示す図である。
図5B図5Bは、本開示の一実施形態に従って実施された例示的なNNE回路論理の説明図である。
図5C図5Cは、本開示の一実施形態によるNNE回路を係合するための例示的なアーキテクチャを概略的に示す図である。
図6図6は、本開示の一実施形態によるNNE回路の例示的な起動/非起動を示すフロー図である。
図7図7は、一実施形態によるSOCパッケージのブロック図である。
図8図8は、開示された原理に関連して使用され得る例示的な補助処理システムのブロック図である。
図9図9は、1つまたは複数の実施形態に従った機械学習ソフトウェアスタックの一般化された図である。
図10図10は、1つまたは複数の実施形態に従ったディープニューラルネットワークの訓練および展開を示す図である。
【発明を実施するための形態】
【0008】
以下の説明および例示的な実施形態は、様々な実施形態の徹底的な理解を提供するために記載されている。しかしながら、様々な実施形態は、特定の詳細がなくても実施され得る。他の例では、周知の方法、手順、構成要素、および回路は、ある実施形態を不明瞭にしないように詳細に説明されていない。さらに、実施形態の様々な態様は、集積半導体回路(「ハードウェア」)、1つまたは複数のプログラムに編成されたコンピュータ読み取り可能な命令(「ソフトウェア」)、またはハードウェアとソフトウェアとの何らかの組み合わせなど、様々な手段を用いて実施することができる。本開示の目的上、「論理」への言及は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの何らかの組合せのいずれかを意味するものとする。
【0009】
開示された実施形態は、一般に、ニューラルネットワークを使用した、補聴器やヘッドフォンなどの耳装着型システムにおける音声データの改善に関する。ニューラルネットワークベースの音声改善は、ビデオ会議や他の電気通信媒体のような他のアプリケーションでも展開されている。このようなアプリケーションの多くでは、これらのアルゴリズムは背景雑音を低減するために使用され、ユーザが対象となる音(通常はユーザに話しかけている人の発話)を聞き取りやすくする。ニューラルネットワークベースの音声改善は、ユーザが聞こうとしている人やものと同じ場所にいる対面用途には難しすぎると考えられてきた。
【0010】
対面コミュニケーションが実用的でないと考えられてきた主な理由の1つは、アルゴリズムが直面するタスクの複雑さである。ビデオ通信では、許容可能な待ち時間は比較的長く(>50ミリ秒)、話し手は通常マイクロフォンの近くにおり(マイクロフォンで受信される信号に比較的高い信号対雑音比(SNR)が生じる)、周囲の雑音は通常、対面シナリオ中に遭遇するものに限定され、はるかに寛容でない。
【0011】
人間の聴覚は、耳に装着するデバイスの信号処理によって生じる遅延に非常に敏感である。遅延が大きすぎると、元の音とイヤホンで再生された増幅された音の両方が異なる時間に耳に届くため、エコーのような知覚が生じる。また、遅延は、視覚的な合図(唇の動きなど)と関連する音の到着との間に断絶が生じるため、入来音の脳の処理を妨げる可能性がある。補聴器は、対面コミュニケーションのための耳装着型デバイスの主要な例のひとつである。このような機器の最適な待ち時間は10ミリ秒(ms)以下であるが、状況によっては32ミリ秒まで長くても許容される。
【0012】
このような対面シナリオでは、背景雑音の性質に高い変動性があり、SNRがはるかに低い信号も発生する。バー、レストラン、屋外会場などの社会的環境では、圧倒的な背景雑音の存在下で会話をする必要があることがよくある。同様に、一般的なタイプの環境では、通常の電話会議よりもはるかに多様性がある。したがって、このような状況に強いニューラルネットワークを作成するのはより困難である。
【0013】
ニューラルネットワークは、従来の補聴器とは根本的に異なる音声フィルタリング方法を提供する。主な違いは、聴覚アルゴリズムを実行する際のパワーと柔軟性である。従来のデジタル信号処理システムでは、聴覚方程式のパラメータを手動で調整する必要があった。ニューラルネットワークでは、最適なパラメータを訓練によって発見することができる。これは、ネットワークがパラメータを調整することによってタスクを解決することを学習し、徐々に性能を改善する計算プロセスである。人間が100個のパラメータを最適に調整できるのに対し、ニューラルネットワークは数百万個のパラメータを学習することができる。
【0014】
従来の聴覚デバイスにおけるデジタル信号処理は、通常、異なる周波数における信号の大きさを調整する一連のフィルタと利得(互換的に、重み)を適用する。従来の補聴器では、これらの利得は、特に、ユーザの失われた周波数感度を補正する。これらのアルゴリズムは通常、入来信号の位相を調整することはない。ニューラルネットワークは、時間領域と周波数領域の両方において優れた粒度で、入来信号の大きさと位相の両方に対するきめ細かい調整をロバストに生成する計算能力がある。
【0015】
ニューラルネットワークアルゴリズムを組み込むことに伴う課題は、計算コストである。ネットワークサイズとネットワーク性能の間には、深層学習の異なるドメインにわたって見られる、確立された正の相関関係がある。様々な音響環境をロバストに扱うために必要なきめ細かな応答を得るために、ニューラルネットワークは何千ものパラメータを持ち、1秒間に何百万、いや何十億もの演算を必要とする。実行可能なネットワークのサイズは、聴覚機器のプロセッサの計算能力によって制限される。補聴器は、装用者にとって快適で便利であるために、コンパクトで長時間の使用が可能でなければならない。補聴器は、複数の機器(例えば、補聴デバイスとスマート機器)にまたがるのではなく、1つの機器に統合されていることが理想的である。
【0016】
このようなニューラルネットワークアルゴリズムは、最適なユーザ体験をもたらす方法で組み込むことも困難である。補聴器が単一のソースから音を分離できるとしても、その動作が常に望ましいとは限らない。例えば、歩行者にとって周囲の音が重要な場合がある。発話の分離が第一の目的であっても、ある程度の周囲の騒音が望ましい場合がある。例えば、レストランにいる人は、発話だけを聞くと混乱したり不愉快に感じたりするため、少なくとも低レベルの環境音を通過させ、雰囲気が感じられるようにすることを好むかもしれない。このように、望ましいユーザ体験を実現するには、デバイスがニューラルネットワークのパワーを活用し、その出力をインテリジェントに使用する必要がある。
【0017】
良好なユーザ体験を作り出すためのもう1つの問題は、モデルの誤差に対処することである。十分に訓練された大規模なニューラルネットワークであっても、完璧に機能するわけではなく、特定の環境では、1つの音源と別の音源を区別できないことがある。このようなシナリオでは、ユーザに快適な聴覚体験を提供できるような方法で、デバイスが素直に失敗する必要がある。例として、大音量の車両によって中断された会話は、モデル誤差を考慮せずにモデル出力を再生すると、聴取者に意味不明の白色雑音を発生させる可能性がある。そのため、モデルの出力と性能を監視し、適切なユーザ体験を生み出すように動的に調整する解決策が必要である。
【0018】
本明細書で使用される補聴デバイスとは、一般に、補聴器、能動的耳保護装置、またはその他の音声処理装置を指し、これらは、使用者の聴覚能力を改善、増幅、および/または保護するように構成可能である。補聴器は、1つまたは2つのイヤーピースに実施することができる。このような装置は通常、ユーザの周囲から音響信号を受信し、音声信号に可能な修正を加えて対応する音声信号を生成し、修正された音声信号を可聴信号としてユーザに提供する。修正は、ユーザの各耳に対応する1つまたは両方の聴覚デバイスで実施することができる。ある実施形態では、聴覚デバイスは、イヤホン(個別またはペアとして)、ヘッドセット、またはユーザの外耳に可聴音響信号を提供するように適合され得る他の外部装置を含み得る。伝達される音響信号は、機械的振動を使用者の聴覚系に最適に伝達するように1つまたは複数の制御を介して微調整される場合がある。
【0019】
一実施形態において、本開示は、信号処理チェーンにおいてニューラルネットワークベースの音声改善を利用することができる補聴器に関する。本明細書で使用されるように、信号処理チェーン内のニューラルネットワークは、ニューラルネットワークが耳内補聴デバイスと統合されるシステムを備える。いくつかの実施形態では、聴覚装置は、特に、集積回路(IC)上の補助回路と統合されたニューラルネットワークを備える。ICはシステムオンチップ(SoC)を備えてもよい。
【0020】
いくつかの実施態様において、例示的なデバイスは、特に、すべての周囲音を増幅すること、入来音を発話までフィルタリングすること(背景雑音を除去すること)、入来音を1つまたは複数の対象話者までフィルタリングすること、ユーザの入力に応じてこれらのモードを切り替えること、ユーザの入力に応じて背景雑音の音量を調整すること、どのような種類の音を「雑音」とみなすかを変更すること、ユーザの聴覚プロファイル(周波数感度およびダイナミックレンジを備える)に適合するようにすべてのモードで補聴器の出力を調整すること、などを行うように構成される。
【0021】
一実施形態では、ニューラルネットワークが補聴器に組み込まれる。補聴器は、ニューラルネットワークの作業負荷を処理するように最適化された1つまたは複数のプロセッサを備えることができる。1つまたは複数のプロセッサは、デバイスの動作モードに基づいて選択的に係合させることができる。本発明のいくつかの実施形態は、ニューラルネットワークとデジタル信号プロセッサのうちの1つまたは複数を選択的に係合させることができるデュアルパス信号チェーンを導入することによって、これらの問題に対処する。二重信号処理経路を作成することにより、補聴器ユーザは、ニューラルネットワークの係合が必要かつ望ましい場合に、ニューラルネットワークベースの改善の利点を享受することができる。本開示のこれらおよび他の実施形態は、以下の例示的な実施形態に関連して議論される。
【0022】
図1は、本開示の一実施形態によるシステム図である。システム100は補聴器に実施されてもよい。例示的な実施形態では、システム100は、補聴デバイスの一方または両方のイヤーピースに実施される。システム100は、集積回路として実施されてもよい。システム100は、ICまたはSoCとして実施されてもよい。
【0023】
システム100は、入来信号110を受信し、出力信号190を提供する。入来信号110は、複数の音源から発せられる音響信号を備えてもよい。音響信号110を発する音響源は、周囲の雑音、人の声、警報音などを備えることができる。各音響源は、他の音源に対して異なる音量で音を発することがある。したがって、入来信号110は、異なる音量でシステム100に到達する異なる音の集合体である可能性がある。
【0024】
フロントエンド受信部120は、アナログ/デジタルコンバータ(ADC)を使用して、入来音響信号110をデジタル信号に変換するように構成された1つまたは複数のモジュールを備えてもよい。フロントエンド受信部120はまた、1つまたは複数のイヤホンで1つまたは複数のマイクロフォンから信号を受信することができる。ある実施形態では、1つのイヤホンで受信された信号は、信号処理に使用するために、近接場磁気誘導などの低遅延プロトコルを使用して他のイヤホンに送信される。フロントエンド受信部120の出力は、1つまたは複数の受信音声ストリームを表すデジタル信号125である。図1は、フロントエンド120および制御部130が別個の構成要素である例示的な実施形態を示すことに留意されたい。ある実施形態では、フロントエンド120を省略するために、フロントエンド120の1つまたは複数の機能を制御部130で実行してもよい。
【0025】
図1の実施形態では、NNE回路は、制御部130とDSP140との間に介在する。したがって、NNE回路150は直接信号処理経路にある。これは、当該信号経路が採用される場合、音声は、同じ音声が再生される前に、ニューラルネットワークを介して処理され、改善されることを意味する。これは、ダイレクトシグナルチェーンのパラメータを調整するために、ダイレクトシグナルチェーンの外部でニューラルネットワークが採用される方法とは対照的である。これらの方法は、ニューラルネットワークを介して処理された同じ音声ではなく、その後に受信される音声を改善するためにニューラルネットワーク出力を使用する。ある実施形態では、NNE回路は、フロントエンド受信部の入来信号に複素比率マスクを選択的に適用して、複数の成分を得るように構成され、複数の成分の各々は、音声クラスまたは個々の話者に対応し、NNE回路はさらに、これらの成分を出力信号に結合するように構成され、成分の音量は、ユーザ制御の信号対雑音比を得るように設定される。
【0026】
制御部130は、フロントエンド受信部120からデジタル信号125を受信する。制御部130は、特に、(a)ニューラルネットワークエンジン150またはDSPエンジン140による処理のために信号を準備するのに必要なデジタル信号処理操作を実行し、(b)複数の選択肢の中から処理チェーンの次のステップを決定するように構成された、1つまたは複数のプロセッサ回路(本明細書では、プロセッサ)、メモリ回路、および他の電子コンポーネントおよびソフトウェアコンポーネントを備えてもよい。本開示の一実施形態では、制御部130は、DSPユニット140およびニューラルネットワークエンジン(NNE)回路150の一方または両方を通じて信号処理を進めるかどうかを決定する決定論理を実行する。フロントエンド120は、入来信号を変換する1つまたは複数のプロセッサを備え、一方、制御部130は、本明細書で開示される例示的なタスクを実行する1つまたは複数のプロセッサを備え、これらの機能は、制御部130で組み合わされ実施される場合があることに留意されたい。
【0027】
DSP140は、一組のフィルタを入来音声成分に適用するように構成される場合がある。各フィルタは、所望の周波数範囲の入来信号を分離し、フィルタリングされた各信号に非線形で時間的に変化する利得を適用することができる。利得値は、ダイナミックレンジの圧縮を達成するように設定されてもよいし、定常的な背景雑音を特定するように設定されてもよい。DSP140は、次いで、フィルタリングされた信号と利得が適用された信号とを再結合して出力信号を提供してもよい。
【0028】
前述のように、一実施形態では、制御部は、DSP140およびNNE150の一方または両方による処理のために信号を準備するために、デジタル信号処理操作を実行する。NNE150およびDSP140は、時間周波数領域の信号(たとえば、信号110)を入力として受け入れてもよく、制御部130は、制御部に渡す前に、入来信号の短時間フーリエ変換(STFT)を行ってもよい。別の例では、制御部130は、異なるマイクロフォンで受信された信号のビームフォーミングを実行して、特定の方向から来る音声を改善することができる。
【0029】
ある実施形態では、制御部130は、受信した音声データを処理するための信号チェーンの次のステップを継続的に決定する。例えば、制御部130は、ユーザ制御の基準、ユーザ非依存基準、ユーザ臨床基準、加速度計データ、位置情報、保存データ、および信号対雑音比(SNR)などの音声環境を特徴付ける計算されたメトリックのうちの1つまたは複数に基づいて、NNE150を起動する。NNE150が起動されない場合、制御部130は、代わりに信号135をDSP140に直接渡す。いくつかの実施形態では、制御部130は、矢印135で示すように、NNE150とDSP140の両方に同時にデータを渡す場合がある。
【0030】
ユーザ制御の基準(互換的に、論理またはユーザ定義)は、ユーザのスマートフォン上のアプリケーションを介した動作モードの選択または(例えば、デバイスをタップすることによる)デバイス上の入力を備えるユーザ入力を備えてもよい。例えば、ユーザがレストランにいる場合、スマートフォン上で適切な選択を行うことにより、動作モードを雑音相殺/発話分離に変更することができる。また、ユーザ制御の基準は、ユーザがアプリケーション(アプリ)を通じて入力するか、デバイスが経時的に学習する、ユーザ定義の設定や選好のセットを備えてもよい。例えば、ユーザ制御の論理は、ユーザが聞く音に関するユーザ選好(例えば、新しい親は赤ちゃんの泣き声を常に増幅させたいかもしれないし、犬の飼い主は吠え声を常に増幅させたいかもしれない)、または背景雑音に対するユーザの一般的な許容範囲を備えてもよい。ユーザ臨床基準は、例えば、ユーザの一般的な難聴の度合いや、騒音下での発話を理解する能力など、臨床的に関連する聴覚プロファイルを備えてもよい。
【0031】
ユーザ制御の論理は、ユーザ非依存基準(または論理)に関連させて、またはそれとは別に使用することもできる。ユーザ非依存論理は、ユーザから独立した変数を考慮することができる。例えば、ユーザ非依存論理は、(予想されるNNE実行需要の関数として)補聴器の利用可能な電力レベル、時間帯、またはNNE動作の予想持続時間を考慮することができる。
【0032】
いくつかの実施形態では、デバイス内のセンサで捕捉された加速度データは、信号制御部の出力信号135をDSP140およびNNE150の一方または両方に向けるかどうかを決定する際に、制御部130を支援してもよい。動きまたは加速度の情報は、制御部130が、ユーザが動いているか座っているかを決定するための指針となる場合がある。加速度データは、他の情報と組み合わせて使用してもよいし、他のデータで上書きしてもよい。同様に、加速度を捕捉するセンサからのデータを、推論のための情報としてニューラルネットワークに提供してもよい。
【0033】
他の実施形態では、ユーザの位置は、DSP140およびNNE回路150の一方または両方を係合させるかどうかを決定するために、制御部130によって使用される場合がある。ある場所は、NNE回路150の起動を必要とする場合がある。たとえば、ユーザの場所が高い周囲雑音を示し(たとえば、ユーザが公園を散歩している、またはコンサートに出席している)、直接的な会話がない場合、制御部130はDSP140のみを起動することができる。一方、ユーザの位置が、ユーザが移動中であることを示唆し(たとえば、車や電車を利用)、他のインジケータが人間のコミュニケーションを示唆する場合、NNE回路150を動作させて、周囲の騒音よりも人間の声を増幅することができる。
【0034】
記憶されたデータも、制御部130が処理経路を決定する要因となり得る。記憶されたデータには、ユーザ固有の音、声、選好、またはコマンドの重要な特性が含まれる場合がある。システム100は、検出されると制御部の論理への入力として機能し得る音声を表すデータを記憶するための記憶回路132を任意に備えることができる。記憶回路132は、図示のようにローカルにあってもよいし、聴覚装置からリモートにあってもよい。記憶されたデータには、既知の会話相手のいわゆるボイスレジストリを含めることができる。ボイスレジストリは、ニューラルネットワークが特定の声を検出し、背景雑音から分離するために必要な情報を提供する場合がある。ボイスレジストリは、本明細書においてボイスシグネチャとして説明される、デバイス上にないニューラルネットワーク(すなわち、ラージNNE)によって計算された各々の登録された声の分類埋め込みを含んでもよく、デバイス上のニューラルネットワーク(すなわち、ローカルNNE)は、シグネチャに一致する発話を分離するための入力としてボイスシグネチャを受け入れるように構成されてもよい。
【0035】
音声シグネチャに加えて、システム100は、異なる話者がデバイスから異なる動作を引き出すように、記憶回路(レジストリ)132に各音声に対する異なるプリファレンスを記憶してもよい。NNE150は、その後、他の音声に対してどの声を増幅するかを決定するために、様々なアルゴリズムを実施することができる。
【0036】
制御部130は、アルゴリズム論理を実行して処理経路を選択することができる。制御部130は、検出されたSNRを考慮し、DSP140およびNNE150の一方または両方を係合させるべきかどうかを決定することができる。一実施形態では、制御部130は、検出されたSNR値を閾値と比較し、どの処理経路を開始するかを決定する。閾値は、経験的に決定されたもの、ユーザ非依存なもの、またはユーザが制御するもののうちの1つまたは複数とすることができる。制御部130はまた、上述したように、閾値を決定する際に他のユーザ選好やパラメータを考慮してもよい。
【0037】
別の実施形態では、制御部130は、後続の処理経路を決定するための入力として、入来音声を特徴付けるための特定のメトリクスを計算することができる。これらのメトリクスは、受信した音声信号に基づいて計算することができる。たとえば、制御部130は、無音期間がニューラルネットワーク改善を必要としないため、DSP140のみを係合させるべきであることを知って、無音期間を検出することができる。より複雑な例では、制御部130は、音声分離モードの処理経路を決定するために、音声アクティビティ検出器(VAD)134を備えることができる。いくつかの実施形態では、VADは、制御部内のはるかに小さい(すなわち、計算集約度がはるかに低い)ニューラルネットワークである可能性がある。
【0038】
例示的な実施形態では、制御部130は、その計算への入力として、矢印151で示すように、最近処理された音声に対するNNE150の出力を受信することができる。NNE150は、背景雑音の存在下で対象となる音声を分離するように構成される場合があり、SNRをロバストに推定するために必要な入力を提供する。制御部130は、この能力を利用して、入来信号のSNRが処理経路に影響を与えるのに十分高いか低いかを検出することができる。さらに別の例では、NNE150の出力を、よりロバストなVAD134の基礎として使用することができる。雑音の存在下での音声検出は計算集約的である。NNE150の出力を活用することにより、システム100は、最小限の計算オーバーヘッドでこのタスクを実施することができる。
【0039】
制御部130がNNE出力151を利用する場合、制御部130は、その後に受信される音声の信号経路に影響を与えるためにのみ出力151を利用することができる。所定の音声サンプルが制御部で受信されたとき、そのサンプルに対するNNE150の出力はまだ計算されていないため、そのサンプルに対する制御部の決定に影響を与えるために使用することはできない。しかし、1秒未満前の音声環境は現在の環境を予測できるため、以前に受信した音声のNNE出力を使用できる。
【0040】
NNE150が起動された場合、制御部でNNE出力151を使用しても、追加の計算コストは発生しない。ある実施形態では、制御部130は、NNE150が選択された信号経路でないモードでも、サポート計算のためにNNE150を起動させることができる。そのようなモードでは、入来音声信号は制御部130からDSP140に直接渡されるが、データ(すなわち、音声クリップ)は計算のためにNNE150にそれほど頻繁でない間隔で追加的に渡される。この計算により、周囲環境のSNRの推定値が提供されるか、または実質的にリアルタイムで雑音がある場合の発話が検出される。例示的な実施では、制御部130は、NNE150でのVAD134検出のために、1秒に1回、16msのデータウィンドウを送信することができる。いくつかの実施形態では、制御部130の代わりに、NNE150をVADに使用してもよい。別の実施形態では、制御部130は、有用な計算の推定確率の関数として、音声クリップの持続時間または音声クリップを通信する頻度を動的に調整してもよい。たとえば、最近の要求でSNRが大きく変動した場合、制御部130は、より頻繁な間隔で追加のNNE計算を要求することができる。
【0041】
NNE150は、制御部出力信号135を受信し、改善されたデジタル信号155を提供するための、1つまたは複数の実際の回路および仮想回路を備えてもよい。例示的な実施形態では、NNE150は、ニューラルネットワークアルゴリズム(NNモデル)を使用して、一組の中間信号を生成することによって信号を改善する。各中間信号は、元の信号を構成する1つまたは複数の元の音源の代表である。例えば、入来信号110は、2つの発話、警報、およびその他の背景雑音を備えてもよい。いくつかの実施形態では、NNE150上で実行されるNNモデルは、発話を表す第1の中間信号と、背景雑音を表す第2の第1の中間信号とを生成することができる。NNE150はまた、話者の一方を他方の話者から分離してもよい。NNE150は、雑音相殺モードが起動しているときでもユーザが警報を確実に聞き取れるように、警報を残りの背景雑音から分離してもよい。異なる状況は異なる中間信号を必要とする可能性があり、本発明の異なる実施形態は、着用者のニーズに最適な異なる能力を有する異なるニューラルネットワークを備える可能性がある。ある実施形態では、リモート(オフチップ)NNEは、ローカル(オンチップ)NNEの能力を増強することができる。
【0042】
図7~10に関連して後述するように、ニューラルネットワークは、人工ニューロンの場合には人工ニューラルネットワーク(ANN)またはシミュレーテッドニューラルネットワーク(SNN)と呼ばれ、計算へのいわゆるコネクショニスティックアプローチに基づく情報処理用の数学的または計算モデルを使用する、天然ニューロンまたは人工ニューロンの相互接続されたグループである。ほとんどの場合、ANNは適応システムであり、ネットワークを通って流れる外部または内部の情報に基づいてその構造を変化させる。ニューラルネットワークは、非線形統計データモデリングまたは意思決定ツールである。このようなシステムは、入力と出力間の複雑な関係をモデル化し、データのパターンを見つけるために使用されてもよい。人工ニューラルネットワークモデルの有用性は、観測結果から関数を推測し、それを利用できる点にある。これはモデルの訓練によって達成される。モデルは代表的なデータを入力として受け取り、与えられた関数を最適化するようにネットワーク内のパラメータの重みを繰り返し変更する。教師あり学習では、モデルはラベル付けされたデータセット上で動作し、教師なし学習では、モデルはラベル付けされていないデータ上で動作する。これらの方法は組み合わせて使用することができる。例示的なANNまたはNNEの説明を図10に示す。
【0043】
開示された原理のいくつかによれば、(ニューラルネットワークエンジンを介して実施されてもよい)ニューラルネットワークは、1つまたは複数の音源を分離するように訓練される。例示的な実施形態では、これは教師あり学習によって行われる。入力データとして、モデルは、一方が対象であり、他方が対象信号と他の信号の両方を備える混合である、音声クリップのペアを受信する。訓練データには、対象として背景雑音がない状態で話す話者のクリップが含まれ、その後、混合クリップを形成するために背景雑音の録音とクリップを合成的に混合することができる。訓練により、モデルはクリップのペアごとに複雑なマスクを生成することを学習し、このマスクを混合クリップに適用すると、平均して、損失関数によって測定される対象クリップに最も近似した音声が返される(訓練は、訓練用データセットにわたって損失を最小化することを目指す)。手元のタスクを表すさまざまな異なるクリップでうまく機能するモデルを考案することで、モデルは見たことのない音声データを汎化できる関数を学習する。話者の発話と背景雑音を備えるデータに適用すると、モデルは発話内容のみ、または少なくとも実質的に発話内容を備える信号を推定することができる。
【0044】
音声の対面処理に適したモデルを生成するために、モデルは、音声の小さなサンプルを表す入力に基づいて出力を生成するように訓練されてもよい。モデルは、音声を連続的に処理し、各サンプル(または音声クリップ)を受信して処理し、最新のサンプルの再生が終了する前に再生できるようにすることができる。
【0045】
一例として、このモデルは4msの音声サンプルで動作する。t=0で、プリプロセッサは、マイクロフォンからのデータの受信を開始する。t+4msで、サンプル全体を受信した制御部(たとえば、制御部130)が、処理のためにサンプルをNNE150に渡す。その後、NNEは、4msの音声サンプル(クリップ)の推定値を計算し、中間信号を信号チェーンの次のステップに渡す。残りの信号処理が完了すると、ユーザへの再生が開始される。t+8msで、NNE150は制御部130から次の4msのサンプルクリップを受信する。最初のサンプルの再生が完了する(再生開始から4ms後)までに、次の4msのサンプルクリップはギャップが生じないように再生準備が完了している。リカレントニューラルネットワークの場合、これは、後続のサンプルの計算が現在のサンプルからの更新された起動に依存するため、計算がサンプル長未満で完了しなければならないことを意味する。他のモデルアーキテクチャでは、(高い計算コストで)並列化によってこの制約を回避することができる。
【0046】
この例では、モデルは、4ミリ秒の音声クリップのサンプルで動作する。サンプル長は、様々なパラメータに応じて拡大または縮小することができる。例えば、サンプル長は1ms未満でも32msのデータでもよい。サンプル長が長ければ長いほど、モデルは応答を提供するために待たなければならなくなり、したがって、ユーザが経験する待ち時間がより長くなる。モデルが音声データを丸々1秒待つ場合、それは優れた背景雑音抑制を提供するかもしれないが、ユーザは耐え難い再生遅延を経験するかもしれない。いくつかの実施形態では、モデルはルックアヘッド機能を備えることができ、それにより、モデルは、処理する前に、より多くの音声を受信するために待機し、それにより、モデルが利用可能な情報を増加させる。上記の例を拡張すると、モデルは、最初の4msの音声を処理し始めるのを、(4msのルックアヘッドが与えられて)t+8msまで待つ場合があり、モデルのパフォーマンスは改善されうるが、追加のレイテンシが導入される。いくつかの実施形態では、ユーザにとって不快なエコーを防止するために、総レイテンシは32ミリ秒以下(または20ミリ秒以下)に維持される。
【0047】
ある実施形態では、聴覚システムは、入来音声信号の受信から約30-35ミリ秒、20-30ミリ秒、10-20ミリ秒、12-8ミリ秒、10-6ミリ秒、または8-3ミリ秒で可聴信号を生成するように構成されてもよい。
【0048】
開示される訓練方法には多くの変形例がある。例えば、複数のマイクロフォンからの複数の音声ストリームを取り込むようにモデルを訓練することができる。入力データは、時間領域または時間周波数領域であってもよい。損失関数は、信号の平均二乗誤差であってもよいし、複素理想比率マスクの平均二乗誤差であってもよい。入力データは、追加のセンサデータを含んでいてもよい。入力データは、ネットワークが特定の音声シグネチャに一致する音声を分離するように訓練され、入力データとしてシグネチャも受信する例のように、ニューラルネットワークの所望の対象に関する情報を含んでいてもよい。モデルはまた、各話者を個別に出力するように訓練することも、複数の話者を単一の信号で出力するように訓練することもできる。モデルの訓練対象は、(発話だけでなく)異なるSNRの音声であってもよい。また、教師なし技術によってモデルを訓練し、明確な対象のない音声を使用できるようにすることもできる。学習データは、合成的に生成してもよいし、実世界で同時期の音声ストリームを録音して生成してもよい。上記の変形例は、基本的な概念を説明するための例示であり、モデル訓練における潜在的な変形例を網羅するものではない。
【0049】
NNE150の1つの例示的な実施形態は、6つの層に編成された、約4000万ユニットのリカレントニューラルネットワークを含む。このネットワークは、音声データの8msクリップ(互換的にフレーム)を入力とし、内部でチップを短時間フーリエ変換で時間周波数表現に変換する。こうしてネットワークは、各周波数の位相と大きさを変更するために元の信号に適用できる複雑なマスクを生成することができる。その後、ネットワークは、明瞭な時間領域の音声信号を出力する。
【0050】
追加の実施形態では、NNE150は、13層に編成された約100万ユニットの畳み込みニューラルネットワークで構成される。最初の6層はエンコーダに対応し、入力は、ストライドされた1次元畳み込みを介して周波数軸に沿って徐々にダウンサンプリングされる。ゲーテッドリカレントユニット(GRU)層がボトルネック層で適用され、時間的コンテキストを集約する。デコーダは6層を含み、トランスポーズ畳み込みによってボトルネックからの入力を徐々にアップサンプリングする。このネットワークは、発話と雑音を備える時間領域の信号(リアルタイムでモデルに供給される8msのクリップに分割される)を入力として取り、対応する時間領域の明瞭な信号を出力する。
【0051】
次いで、NNE150は、中間信号を再結合して新しい信号を生成する。いくつかの実施形態では、信号は、対象となる音声を備える信号(または信号成分)のみを保持することによってSNRを最大化する方法で再結合される。例えば、修正された信号は、対象話者の声だけを含んでも良い。別の実施形態では、選好されるSNRを目標に再結合が行われ、選好は、ユーザベースの基準およびユーザ非依存の基準によって決定される。本明細書で使用される場合、SNRは、結合された信号における中間信号の電力の比率を指し、それぞれが元の信号における特定の音源の推定値であり、そのような推定値は近似値であることを認識する。
【0052】
ユーザベースの基準は、無線通信を介して補聴器に接続されたスマートフォン上のアプリケーションにおけるユーザ入力を備えてもよい。例えば、ユーザは、モデルの目標SNRに変換される望ましい背景雑音の量をスライド、またはダイヤルアップおよびダイヤルダウンする機能を有することができる。別の例では、ユーザが雑音相殺を選択したときに、所望のSNRがあらかじめ定められた値として既に知られているように、ユーザはアプリケーションの設定として記憶された、選好される背景雑音のレベルを持つことができる。別の実施形態では、SNRは臨床基準の関数として決定することができる。ここでは、SNRは、一定量の周囲雑音を保持しながら、ユーザの保存された聴覚プロファイルに基づいて、ユーザにとっての明瞭さと快適さを達成するように設定される。複数の中間信号(すなわち複数の話者)がある場合、上述の論理は、各対象が望ましいSNRを達成するように調整されるように拡張される。雑音が2つの間で一定である可能性があるという制約を考慮すると、同時期の2人の話者の最適なSNRは、異なる可能性がある。ユーザベースの基準(すなわち、ユーザ定義の基準またはユーザ制御の基準)については、図3Bに関連してさらに説明する。
【0053】
一旦処理されると、信号成分(すなわち、中間信号)は、各信号に適用されるべき増幅の程度(すなわち、利得)を選択することによって再結合される。利得を設定する際の課題は、利得をあまり変動させることなく、目標のSNRを実現する方法で音声を確実に混合することである。例えば、SNRが音声の4ミリ秒のサンプルごとに目標とされた場合、そのような短いサンプルにわたって測定される入来信号のSNRは非常に不安定であり、各信号に適用される利得は4ミリ秒ごとに劇的に変化する可能性があるため、結果は無意味なものになるであろう。したがって、NNE150は、SNRを決定するために、より遅い移動平均を考慮してもよく(別の言い方をすれば、より長い時間ウィンドウにわたって相対的な音量を評価してもよい)、背景雑音の音量の変化と話者の音量の変化とでは異なる反応を示してもよい。
【0054】
音声品質を最適化するために、ユーザ非依存の基準を使用することができる。ユーザ非依存の基準は、一般的に望ましいユーザ体験を達成することが知られているアルゴリズムを備えてもよい。例えば、パーソナライズされた設定がない場合、雑音相殺は、一般的に聴覚障害者の明瞭度の改善につながるSNRを目標とすることができる。例示的な実施形態では、SNRはNNモデルの性能に基づいて動的に設定することができる。
【0055】
中間信号の再結合におけるもう1つの重要なユーザ非依存性は、モデルの推定性能である。最もよく訓練されたモデルであっても、SNRが極端に低い場合(雑音が発話よりかなり大きい場合)には、雑音が発話信号を完全に隠してしまうため、正常な聴力を持つ人と同じように苦戦する。したがって、例示的な実施形態では、SNRの測定は、モデルが失敗しそうなときの指標として有用であり、必然的に意味不明な不自然に聞こえる推定発話を再生するのではなく、システムが素直に失敗することを可能にする。一実施形態では、モデルは単に何も再生しない。別の実施形態では、モデルはデフォルトで元の信号に戻すことができる。さらに別の実施形態では、モデルは、対象の推定値を元の信号と混合するか、または、もとの信号と発話推定値との差分である雑音推定値を、ある程度混合して戻してもよい。
【0056】
いくつかの実施形態では、ニューラルネットワークモデルは、再結合アルゴリズムへの入力として、その性能の他の尺度を使用することができる。ニューラルネットワークによって計算される特定の中間メトリクスは、モデルの信頼性の代理として機能する場合があり、これを活用してモデルの失敗の可能性を監視することができる。一実施形態では、ニューラルネットワークは、ガンベルソフトマックスを使用して対象信号の位相を推定することができ、閾値処理前の値は、モデル信頼度のフレームごとの尺度として使用することができる。プロセッサは、モデル出力の品質を測定するために特別に調整された他のアルゴリズムを備えることができる。いくつかの例は、PESQやSTOIなど、音声改善の研究で一般的に使用されるメトリクスであり、他の例は、単に明瞭な音声出力の品質を評価するために訓練された軽量ニューラルネットワークなど、この目的のために特別に開発されたものであってもよい。
【0057】
例示的な実施形態では、NNE150は、目標SNRを限界SNRと組み合わせ、ここで、目標SNRは、(ユーザがアプリ内の背景雑音および発話の所望のレベルを調整するなどの)ユーザの入力に基づいて生成され、限界SNRは、モデルが特定の推定された性能要件に適合しながら達成することができると推定する達成可能な最大SNRを表す。したがって、ユーザは、圧倒的な背景雑音が存在する場合に雑音除去パラメータを最大に設定し、背景雑音をゼロにすることを望むかもしれないが、入来SNRは、モデルにとって非常に取り扱い困難であるため、モデルは入来音声を正常に改善できないかもしれない。この場合、限界SNRは、入来SNRであると決定され、音声は変更されずに再生される。これは、意味不明の推定音声を再生するよりも望ましい場合がある)。
【0058】
NNE回路150は、処理デバイスまたはクラウドとの無線通信を介して更新することができる。好ましい実施形態では、ユーザのスマートフォン上のアプリケーションは、クラウドに接続し、(より良い性能のために再訓練された)更新されたモデルをダウンロードすることができ、その後、無線プロトコルを介してデバイスに送信することができる。別の実施形態では、モデルは、デバイスで音声を録音することによって収集されたユーザ固有のデータを使用して、スマートフォンで再訓練される。一度再訓練されると、更新されたモデルは補聴デバイスに送信される。
【0059】
ある実施形態では、NNE150は、補聴器と通信する遠隔デバイスで実行されてもよい。例えば、NNE150は、補聴器と通信するスマートデバイス(例えば、スマートフォン)で実行されてもよい。補聴器とスマートデバイスはBluetooth(登録商標) Low Energy(BTE)で通信してもよい。さらに別の実施形態では、NNE150の一部または全部は、補聴器と通信する補助デバイスで実行されてもよい。補助デバイスは、本明細書に開示された機械語アルゴリズムを実行可能な1つまたは複数のサーバーと通信可能な任意の装置を備えてもよい。
【0060】
DSP140は、入来周波数帯域にデジタル信号処理を適用するためのハードウェア、ソフトウェア、およびハードウェアとソフトウェアの組み合わせ(ファームウェア)を備える。ある実施形態では、DSP処理の重要な目的は、ユーザの難聴を考慮して、補聴器装用者にとって入来信号の可聴性と明瞭度を改善することである。従来、これは、特定の周波数における音量感度の低下、ダイナミックレンジの低下、および背景雑音に対する感度の上昇を補正することによって行われる。DSP140は、ダイナミックレンジの圧縮、増幅、および(異なる周波数帯域に差動増幅を適用する)周波数調整を達成するために、様々なデジタル信号処理アルゴリズムを実施することができる。デジタル信号処理は、これらの従来のアルゴリズムを備えてもよいし、背景雑音を低減するように構成された追加の処理機能(例えば、定常雑音低減アルゴリズム)を備えてもよい。いくつかの実施形態では、DSP140は、入来信号(例えば、制御部出力信号135または改善されたデジタル信号155)に予め定められた利得を適用することができる。適用される利得は、線形であっても非線形であってもよく、他の帯域に対して1つの周波数信号帯域の増幅を改善するように構成されてもよい。
【0061】
例示的な実施形態では、DSP140は、入来信号をフィルタバンクに通すことができる。フィルタバンクは、入来信号を異なる周波数帯域に分割し、利得を適用する。利得は、各周波数帯域または周波数のグループ化に対して線形であっても非線形であってもよい。周波数のグループはしばしばチャンネルと呼ばれる。好ましい実施形態では、フィルタの特定のパラメータ、特に利得は、ユーザ固有であり、最終信号が、ユーザがより難聴である周波数により大きな増幅を適用するように構成される。利得は、比較的大きな音よりも小さな音により大きな増幅を適用するように設定することができ、これにより信号のダイナミックレンジが圧縮される。この実施形態では、パラメータは、オーディオグラムを備えるがこれに限定されない、ユーザの聴覚プロファイルの関数として設定される。DSPプロセッサで適用されるパラメータを特定の個人に合わせて調整するプロセスは、アプリでの適合プロセスを通じて個人自身が行うか、無線接続によってデバイスに接続されたソフトウェアを介してデバイスをプログラムできる専門家が行うかのいずれかで行うことができる。
【0062】
別の実施形態では、フィルタおよび利得は、時間周波数領域で入来信号を分析することによって設定される。いくつかの実施形態では、信号はこの形式で受信されるので、DSP140においてSTFTは必要ないが、他の実施形態では、プロセッサは時間領域で信号を受信し、次いで、STFTを適用する。いくつかの実施形態では、異なる周波数帯域または周波数帯域のグループにアルゴリズムを適用して、それらの内容を分析し、それに応じて利得を設定することができる。一例として、このようなアルゴリズムを適用して、どの周波数に定常雑音が含まれているかを特定し、これらの周波数を減衰させて(低い利得を受信して)、再生される信号のSNRを改善することができる。周波数利得を異なる周波数帯域に適用した後、帯域を1つの信号に再結合することができる。
【0063】
DSP140の出力145は、バックエンド/出力プロセッサ160に向けられる。バックエンド処理回路160は、処理された信号帯域145を時間領域で可聴信号に変換するための1つまたは複数の回路を備えてもよい。一例として、バックエンドプロセッサ160は、増幅されたデジタル信号をアナログ信号に変換するデジタル/アナログ(DAC)変換器(図示せず)を備えてもよい。次いで、DACは、アナログ信号をドライバおよび1つまたは複数の振動板型スピーカ(図示せず)に送出し、処理され増幅された音をユーザに示すことができる。スピーカ(図示せず)は、出力音量を調整する手段をさらに備えてもよい。
【0064】
前述のように、DSP140は、制御部130またはNNE150のいずれかから信号データを受信することができる。これは、信号がNNE150を通過するか(対応する計算コストと関連する改善を受信する)、またはDSP140を直接通過する可能性があることを意味する。いずれの場合も、DSP140が係合する可能性がある。NNE150が係合する場合、信号処理チェーンのステップが増え、システムの消費電力と計算に必要な時間が増加する。追加の処理は、エンドユーザにとってさらなるレイテンシをもたらす可能性がある。
【0065】
1つの実施では、図1のシステム100はIC上に形成される。ICはSoCを定義してもよい。集積回路は、スピーカおよびスピーカ用ドライバをさらに含んでもよい。後者の実施形態では、集積回路100は、回路100とNNE150をサポートする1つまたは複数の外部デバイスとの間の通信を可能にするための1つまたは複数の通信回路を含んでいてもよい。そのような通信は、例えば、ブルートゥース(登録商標)(BT)およびブルートゥースローエナジー(BLE)または他の短距離無線技術範囲技術を含んでもよい。
【0066】
前述したように、信号経路にニューラルネットワークを配置することの主要な障害の1つは、そのような処理に利用可能なバッテリに対してニューラルネットワークを実行するために必要な電力消費である。したがって、本発明のある実施形態は、長いバッテリ寿命を維持しながら優れた性能を達成するために、ニューラルネットワーク回路においてミリワットあたりの動作で測定されるような高い効率を達成しなければならない。
【0067】
例示的な実施形態では、ランタイムをわずかに短くするか、バッテリのサイズを大きくすることによって、このバッテリの約10ミリワット時をニューラルネットワーク処理のために解放することができる。従来の再充電可能な補聴器やヘッドフォンに見られるバッテリは、約300ミリワット時の典型的な容量を持っている。ユーザが発話改善機能を使用し、活動的で社会的な生活を送るためには、理想的には10時間のニューラルネットワーク処理にアクセスできる必要があり、これは、ニューラルネットワーク回路が起動しているときに、1ミリワットの追加電力のみを消費することができることを意味する。そのため、1ミリワットあたり20~30億回の演算を行うチップ性能を達成すれば、ニューラルネットワークの演算予算は1秒あたり20~30億回となり、これは音声分離に十分である。他の実施形態では、総実行時間を少なくする(それにより、ニューラルネットワークにより多くのバッテリ予算を割り当てる)か、またはニューラルネットワークの実行時間を少なくする(それにより、ニューラルネットワークの1秒あたりの予算を増やす)ことにより、ニューラルネットワークにより大きな計算予算を割り当てることができる。
【0068】
効率的な信号処理を達成するために、DSP140およびNNE150は、それぞれのタスクに適合する異なるアーキテクチャを有するチップ上の別々のコアに配置されてもよい。例えば、ニューラルネットワーク回路は、8ビット(またはそれ以下)の算術論理ユニットを有する低精度数値処理用に構成されてもよい。また、効率的なデータ移動のために構成され、計算に必要なすべてのデータがSOC内に記憶されるようにしてもよい。いくつかの実施形態では、このニューラルネットワークコアは、ニューラルネットワークの実行に使用されるのと同じプロセッサを、24ビット演算などのより伝統的なDSP演算に使用できるように構成することもできる。したがって、いくつかの実施形態では、DSP140とNNE150を同じプロセッサで実行することができる。
【0069】
図2は、本開示の一実施形態による例示的なフロントエンド受信部200を概略的に示す。図2において、声と周囲雑音の組み合わせである可能性のある入来音は、マイクロフォン214および224で受信される。マイクロフォン214、224は、ユーザの頭の左側と右側にある別々のデバイスに対応し、それぞれ210と220として特定される入力音声を受信する。いくつかの実施形態では、各デバイスは複数のマイクロフォンを備える。マイクロフォン214、224は、受信した信号210、220をそれぞれADC218、228に導く。ADC218、228は、受信した時変信号210、220を対応するデジタル代表値219、229に変換する。デジタル化されると、信号219、229は、それぞれのデバイスの制御部130に渡される。いくつかの実施形態では、それらはさらに反対側のデバイスの制御部に渡され、両耳入力データの処理を可能にする。
【0070】
図3Aは、本開示の一実施形態による例示的なシステムの概略図である。具体的には、図3Aは、制御システムで実施され得る例示的な意思決定プロセスを示す。制御部300は、入来信号(例えば、110または125、図1)に対して特定の変換および計算を実行して、入来信号を処理に必要な形態にし、次の処理ステップを選択する信号プロセッサとして機能し得る。いくつかの実施形態では、制御部300は、ユーザの選択、選好、および電力消費を最適化するセレクタスイッチとして機能することができる。ある実施形態では、制御システム300は、ユーザ選好の音を増幅するために、ユーザ選好に基づいてより大きなNNEをいつ係合させるかを決定することができる。
【0071】
図3Aの制御システム300は、補聴器またはヘッドフォンで実行することができる。制御部は、ハードウェア、ソフトウェア、またはハードウェアとソフトウェアの組み合わせとして補聴器に統合されてもよい。制御システム300は、音声信号325を受信するプロセッサ回路330を備える。音声信号は、デジタル(例えば、125、図1)であってもよいし、時変信号(例えば、110、図1)であってもよい。信号が時変である場合、追加のADC(図示せず)が使用されてもよい。図1に関連して述べたように、デジタル音声信号は、1つまたは複数の音声信号および周囲雑音または背景雑音を含む複数の成分を備える場合がある。
【0072】
プロセッサ330は、ユーザ制御310からユーザ入力を受信することができる。ユーザ入力は、スマートフォンなどの補助デバイス(例えば、図3B参照)からシステムにダイヤルされるユーザ選好を備えてもよい。特定のユーザ選好は、異なる音の相対的な増幅に関する増幅パラメータまたは選好を提供してもよく、これによりSNRが決定される可能性がある。例えば、ユーザは他の環境音よりも音声の増幅を好むかもしれない。ユーザ選好は、ユーザのスマートフォンなどの補助デバイスでアプリによって実施されるグラフィックユーザインタフェース(GUI)を通じて取得されてもよい。ユーザ制御は、プロセス回路330に無線で配信されてもよい。ユーザ制御310は、モード選択312、指向性選択314、ソース選択316、および目標音量318を備えてもよい。これらの例示的な実施形態を、図3Bを参照して以下に説明する。
【0073】
例示的な一実施形態では、システム300は、いわゆるウェイクワードを受信して実施するためのモジュール(図示せず)を任意に含んでもよい。ウェイクワードは、話されたときにデバイスを起動するように指定された1つまたは複数の特別な言葉であってもよい。ウェイクワードは、ホットワードまたはトリガワードとしても知られている。プロセッサ330は、NNE350を起動するためにユーザによって利用され得る指定されたウェイクワードを有することができる。起動は、プロセッサ330および決定論理335を上書きし、入来音声をNNE350に向けることができる。これは矢印331で示される。
【0074】
決定論理335は別個に図示されているが、任意選択でプロセッサ回路330と統合されてもよい。決定論理335は、NNE350をいつ係合させるか、およびそのような係合の程度を決定する。決定論理335は、ユーザ、NNE、または両方の組み合わせによって提供される決定考慮を適用することができる。決定論理335は、利用可能なバッテリレベルを示す電力指示部305の入力を任意選択で考慮してもよい。決定論理335は、NNEの係合の程度を決定するためにそのような考慮を利用することもできる。決定論理335は、NNE350(またはその一部)、DSP340、またはその両方を係合させるかどうかを決定する。選択されると、DSP340は、入来信号325を無数の異なる周波数帯域にフィルタリングする。プロセッサ330および決定論理335は、NNE350をいつ係合させるかをまとめて決定してもよい。例えば、プロセッサ330は、ユーザ入力と組み合わせて独自の論理を使用し、受信周波数帯域325が背景雑音のみを備え、NNE350を係合させないと決定することができる。
【0075】
受信された周波数帯域は、400以上もの帯域を備えてもよい。次いで、DSP340は、各周波数帯域に異なる利得を割り当てる。利得は、線形でも非線形でもよい。一実施形態では、DSP340は各周波数に理想的な利得を設定し、雑音を大幅に除去する。
【0076】
図3Bは、本開示の一実施形態による例示的なグラフィックユーザインタフェース(GUI)を示す。GUIは、スマートデバイス上のアプリとして実施されてもよい。GUIは、ユーザ選好を補聴デバイスに伝えることを可能にする。発話音量および背景雑音は、ユーザが発話および雑音の増幅の選好をそれぞれ入力できるように構成されてもよい。指向性は、ユーザが、ユーザに対して1つの方向(通常は正面、ただし他の実施形態では、ユーザは、異なる方向を選択することが可能であってもよい)から来る雑音の相対的な音量を増加させることができる、追加の入力である。検出された話者により、ユーザは、(雑音として扱ってもよい他の音声と比較して)声を増幅する特定の話者を選択することができる。モード選択312は、ユーザがデバイスの動作モードを選択することを可能にする(会話モードの起動によって例示される)。いくつかの実施形態では、選択可能なモードは、会話モード、アンビエントモード、および自動モードを備えることができる。アンビエントモードが選択された場合、NNE150は係合解除されてもよい。声モードなどの他のモードは、雑音除去が所望されることを示してもよい。自動モードは、プロセッサ330が、ユーザ選好(例えば、ユーザが会話に関わってしており、背景雑音があるとき)に一致するように、NNE150をオンにするタイミングの最良の予測を行うべきであることを示すことができる。
【0077】
合計音量、発話音量、背景雑音、および指向性の各々は、ユーザの特定の選好を実施するために、ユーザのデバイス上にダイヤルまたはスライダを有することができる。1つまたは複数の音のカテゴリまたは音源に対応するために、追加の制御を含めることもできる。いくつかの実施形態では、デバイス上のダイヤルは、発話や背景雑音など、設定された音声クラスの音量制御として機能する。ダイヤルを回すことで、ニューラルネットワークの出力を再結合するためのユーザ定義のSNR目標を高くまたは低くすることができる。いくつかの実施形態では、一方のデバイスは周囲音量制御用のダイヤルを備え、他方のデバイスは背景雑音のレベルを変更するダイヤルを備えることができる。いくつかの実施形態では、単一のダイヤルは、開始SNRまたは入来音量に基づいて発話音量または雑音音量のいずれかを動的に調整することによってSNRを調整することができる。例えば、最初に出力信号の背景雑音の音量を漸減させることでSNRを増加させることができるが、背景雑音が完全になくなると、(発話信号は聴覚デバイスの周囲の耳に入ってくる音とまだ競合しているため)発話信号の音量を増加させることでSNRのさらなる改善を達成することができる。いくつかの実施形態では、物理ダイヤルは、異なる挙動を割り当てるために、スマートフォンアプリの設定で具体的に構成することができる。
【0078】
図3Bは、発話音量、背景雑音レベル制御、およびモードスイッチを示す。これらのパラメータは(他のパラメータと一緒に、または他のパラメータと組み合わせて)、ユーザの希望する雑音除去レベルを決定するために使用することができる。図3Aを参照すると、ユーザの希望する雑音除去レベルは、プロセッサ330を介してNNE350に伝達されてもよいし、NNE350(図示せず)に直接入来されてもよい。係合されると、NNE350は、異なる音源を特定し、それに応じて入来信号を分離することができる。ユーザ選好の雑音除去レベルが与えられると、次いで、NNE350は、対象音と雑音に適切な増幅利得を適用することができる。
【0079】
一実施形態では、ソース選択316により、ユーザは特定の音声を予め特定し、特定された音声を既知の個人と突き合わせることができる。ソース選択316は、任意選択で実施することができる。NNE350またはそのサブセットを実行して、ユーザがソース選択を実行できるようにしてもよい。入来周波数帯域を特定された個人と突き合わせると、システム300は、周囲の雑音から個人の声を分離し、増幅するステップを実施することができる。特定された声には、介護者、子供、および家族の声が含まれてもよい。警報または緊急サイレンを含む他の音も、ユーザによって、またはシステム300によって、容易に分離され選択的に増幅されるように特定され得る。一実施形態では、ソース選択316により、ユーザは、増幅(または非増幅)のために1つまたは複数の音のグループを特定することができる。
【0080】
図4は、本開示の別の実施形態による信号処理システムを示す。図4のシステムは、開示した原理による聴覚デバイスにおいて実施することができる。図4では、図2に関連して説明したように、異なるマイクロフォンからの入来信号を1つのデジタル信号に結合するフロントエンド受信部420が、受信部420とともに示されている。制御部システム430は、ユーザ制御434、SNR検出器432、および決定論理436を含む。
【0081】
決定論理436は、図3Aに関連して説明したように、DSP440およびNNE450の両方と通信する。図4において、NNE450は、矢印451によって示されるように、決定論理436に追加のフィードバックを提供する。いくつかの実施形態では、NNE450は、入来信号の推定SNRを測定し、これは、次いで、論理436への入力として機能することができる。SNRが極めて高い場合、NNE450はもはや必要ないかもしれない。声が検出されないほどSNRが例外的に低い場合、NNE450は役に立たない可能性がある。いくつかの実施形態では、NNE450に断続的にデータを送信することにより、電力を常時消費することなく音声信号の特性を測定する仕方が提供される。
【0082】
図4の例示的なNNE450は、ソース分離452、相対利得454、再結合器456、および性能監視458の例示的なモジュールを含む。起動されると、ソース分離452は、入来される音声信号をフレーム単位で受信する。音声は、時間領域または時間周波数領域で受信できる。例えば、フレームは、10、14、16または20ミリ秒の長さである。いくつかの実施形態では、フレームは1ミリ秒未満または30ミリ秒より長くてもよい。各フレームは、ニューラルネットワークを通して処理され、ニューラルネットワークは、1つまたは複数の音源を分離するために使用できる1つまたは複数の複雑なマスクを出力する。これらのマスクを適用することで、ソース分離モジュール452は、各フレームを音源までフィルタリングすることができる。雑音は、雑音用のマスクを生成するか、雑音が残りとなるように元の信号から他の分離されたソースをすべて減算することによって、見つけることができる。
【0083】
相対利得モジュールは、ユーザ制御434からユーザの聴覚的選好を受信し、音源分離452から受信した各フレームに1つまたは複数の相対利得を適用する。NNE450で異なる周波数帯域に適用される利得は、(DSP440で適用される利得と比較して)非線形であってもよい。この実施では、ソースおよびフレーム単位で異なる利得を適用することができる。
【0084】
図5Aは、ユーザ選好と、本開示の一実施形態による例示的なNNEによって適用される非線形利得との間の相互作用を示す。図5Aでは、デジタル化された信号500の形態で入来音がNNE510に向けられる。音源分離452は、例えばそれぞれの音源の関数として、入来音を異なるデータストリームに分割する。このデータは、次いで、矢印435で示されるように、ユーザ選好に基づいて異なる利得を適用する相対利得フィルタ454に異なる帯域として向けられる。ユーザ選好540は、様々な音源の最適な組み合わせ(または最適な重み)を決定する。次いで、再結合部456は、異なる重み付けをされた周波数帯域を結合して、結合信号580を形成する。
【0085】
再び図4を参照すると、NNE450は、さらなる処理のために、再結合された音声ストリームをDSP440に向ける。このようにして、一実施形態によれば、NNE450の構成要素は、音声信号と雑音信号を分離する理想的な比率マスクを推定し、特定された音声信号と雑音信号のそれぞれに差動利得を適用し、差動増幅された信号を1つのデータストリームに結合する。
【0086】
性能監視モジュール458は、任意に使用することができる。一実施形態では、性能監視モジュール458は、NNE450の出力信号を調べて、出力信号が聴覚要件基準内にあるかどうかを判定する。出力信号が要件を満たさない場合、性能監視モジュール458は、入来信号を直接DSP440に迂回させるように決定論理436に信号を送ることができる。これは矢印451で示されている。そうでなければ、矢印459で図示するように、NNE出力をDSP440に向けることができる。別の実施形態では、性能監視458は、相対利得454への入来として機能することができ、性能監視458がソース分離452の誤差を検出した場合に、雑音抑制の積極性を制限することができる。
【0087】
DSP440は、特に、入来信号を異なる周波数帯域に分離するフィルタバンク442と、それぞれの帯域に利得を適用する非線形利得フィルタ444とを備える。一実施態様では、各フィルタは、それぞれの異なる帯域内の雑音成分を特定し、雑音成分を相殺するために雑音相殺利得を適用する。
【0088】
能動的雑音相殺(ANC)425は、フロントエンド受信部420とバックエンド受信部460との間の信号経路に配置される。ANCは任意選択で使用することができる。ANC425は、補聴器のマイクロフォンからADC信号を受信し、信号を処理して信号対雑音比(SNR)を改善するように構成された処理回路を備えてもよい。雑音相殺には、従来のANC技術を使用することができる。ANC425への入力は、入来信号421、任意選択で制御部信号出力431、またはその両方であってもよい。ANCプロセスは、各ユニットに関連する雑音の不確定要素に対処するために、補聴器デバイスの各ユニットに実施されてもよい。本開示の一実施形態では、ANC425は、ユーザ制御入力434がなくても、もしくはDSPの係合またはNNEの係合がなくても、係合されたままであってもよい。ニューラルネットを通る音声処理のレイテンシとANCの低レイテンシ要件とを考慮すると、ANCは(発話成分と雑音成分の両方を含む)入来信号全体に適用され、次いで、処理が完了した後にシステムが発話を再生する。
【0089】
バックエンドプロセッサ460は、任意選択のプロセッサ回路462と同様に、スピーカ464を備える。スピーカ464は、処理されたデジタル信号を可聴信号に変換する従来の補聴器用スピーカを備えることができる。
【0090】
図5Bは、本開示の一実施形態に従って実施される例示的なNNE回路論理の説明図である。論理は、NNEエンジン回路550において実施され得る。受信された音声信号は、入力530として示されている。受信された音声信号は、ニューラルネットワーク(NN)モデル532に向けられる。NNモデル532は、開示された実施形態に従って、音源を分離する、またはSNRを改善する例示的なアルゴリズムを備えてもよい。NNモデル532は、ハードウェア、ソフトウェア、またはハードウェアとソフトウェアとの組み合わせを備えてもよい。NNモデル532は、例えば図3Bに関連して説明したように、ユーザ制御531の形でユーザ選好を受信する。NNモデル532の出力(NN出力信号533)は、性能測定ユニット534に向けられる。性能測定534は、ニューラルネットワークの性能を予測するため、または誤差を予測するために使用されるメトリックを実施する。これらの予測はさらに、再結合部536の入力として使用することができ、再結合部536は、モデルの出力を再結合して最終信号を形成する仕方を最適化しようとする。再結合部536は、ユーザ制御531から示されたユーザ選好と性能測定534の出力の両方を考慮に入れ、NNモデル532の出力を最適に再結合する。
【0091】
例示的な実施形態では、性能測定ユニット534は、連続するフレームで出力信号533を受信し、各フレームのSNRを決定する。次いで、測定ユニットは、モデル誤差を予測するために使用することができる、環境の平均SNRを推定する(モデル誤差は、一般に、より困難な入力SNRで増加するためである)。再結合部536はまた、ユーザ制御531からユーザ選好を受信する。ユーザ選好および推定SNRが与えられると、再結合部536は、次いで、信号533に適用されるべき相対利得のセットを決定し、利得値を再結合部536に伝達する。例示的な実施形態では、再結合部は、総誤差をある閾値以下に維持しながら、ユーザ選好に最も合うように利得を設定しようとする。
【0092】
再結合部536は、利得値をNN出力信号533に適用して、出力538信号を得る。一実施形態では、複数の利得値が再結合部536に伝達される。各利得値は中間信号に対応し、中間信号は音源に対応する。再結合部536は、各利得値を対応する中間信号に乗算し、その結果を結合して出力538を生成する。
【0093】
以下の実施例は、開示された原理の特定の非網羅的な実施例を示す。
【0094】
実施例1-信号533の平均SNR値は、発話を確実に分離できる閾値(可聴発話閾値)を下回っている。この例では、ユーザ選好やシステムの能力に関係なく、ニューラルネットワーク処理は効果がない。この場合、性能測定ユニット534は、入来信号が変更されないように利得を設定するか、またはバッテリ電力を保持するために、図1に示すように制御部130に信号を中継して、ニューラルネットワーク処理を一時的にオフにしてもよい。
【0095】
実施例2-信号533の平均SNR値は、可聴発話閾値を上回り、ユーザ選好が適用される。この実施例では、信号533のSNR値が可聴発話閾値を上回っているため、再結合部536は適切な利得を決定することができる。利得は、ユーザ選好および推定モデルの誤差の関数として決定されてもよい。次いで、性能測定ユニット534は、ユーザが望むSNRに最も近似する利得を決定する一方で、ユーザによって聞かれるモデルの誤差をある閾値未満に維持する。
【0096】
実施例3-信号533の平均SNR値は、可聴発話閾値以上であり、再結合部536は、ユーザ選好を認識している。再結合部536は、相対利得の異なるセットを推定して適用することを優先して、ユーザ選好を無視することができる。これは、異なる利得基準を適用することによって、より高品質の音が得られる可能性があることを理解しているためであってもよい。この実施例では、再結合部536は、ユーザのSNRの選好を超えても超えなくてもよい可聴出力信号538を提供するための独自の基準を代用する。このように、システムは、信号経路内のNNE回路と共に動作して、実世界環境における深層学習モデルの制限を素直に処理しながら、実質的にリアルタイムで可聴信号を提供する。
【0097】
図5Cは、本開示の一実施形態によるNNE回路を係合するための例示的なアーキテクチャを概略的に示す。図5Cのアーキテクチャは、NNE回路で実施されてもよい。図5Cにおいて、入来信号550は、NNモデル556で受信される。ユーザ制御552および目標ソース554の形態でのユーザ選好もNNモデル556に提供される。対象ソース654は、1つまたは複数の特定されたソース、例えば、予め特定され記憶された既知の話者の声またはユーザ自身の声を備えてもよい。
【0098】
ユーザ選好652を使用して、ユーザの理想SNR662を設定することもできる。理想SNR562は、ユーザの個人的選好および音声障害に対応する閾値SNR値を定義することができる。例えば、理想SNR562は、スマートフォンのユーザ制御で伝達されるバランスであるため、または単に、ユーザの聴覚プロファイルが、10dbが、その人が努力せずに依然として確実に発話についていくことができる最小SNRであるようなものであるため、10dbの出力SNRを目標とすることができる。
【0099】
NNモデル556は、性能測定ユニット558に信号を出力する。性能測定ユニットの一般的な説明は、図5Bに関連して提供されたので、ここでは繰り返さない。図5Cにおいて、性能測定ユニット558は、例えば、目標周波数帯域及び雑音帯域を含んでもよい中間信号560を特定する。再結合器590は、SNR最適化論理564を備えることができる。最適化論理564は、性能測定ユニット558からの出力と同様に、ユーザの理想SNR562を受信し、ユーザ選好(すなわち、理想SNR562)を適用するか逸脱するかを決定する。その結果、出力信号570を提供するために中間信号560にそれぞれ次いで適用される一組の利得値568が決定される。図5Cの例示的な実施形態では、再結合器590も最適化論理564を適用して利得値568を決定することに留意されたい。
【0100】
例示的な実施形態では、性能測定558は、限界SNRを出力する。限界SNRは、モデルの誤差によってもたらされる可聴歪みをある閾値以下に維持する出力SNRである。次いで、SNR最適化論理は、ユーザ選好に基づいて決定された理想SNRと限界SNRを比較し、2つのうち低い方を採用する。そして、この関数によって決定されたSNRを目標に利得が設定される。
【0101】
実施例4-この実施例では、ユーザ選好のSNR562に準拠するには、約10dbのSNRを有する出力信号を必要とする場合がある。SNR最適化論理564は、この値を利用可能なシステム帯域幅と比較して、出力信号570に-5dbの制限を課すことができる。次いで、利得値は-5dbのSNRに基づいて決定される。このように、SNR最適化論理564は、SNRリミッタとして機能する。
【0102】
このように、開示された特定の原理によれば、NNモデルは、予備的なSNR値を得るために、例えば、1秒に1回など、小さな音声フレームに対して実行されてもよい。音声フレームテストの頻度および期間は変更することができる。
【0103】
図6は、本開示の一実施形態によるNNE回路の例示的な起動/非起動を示すフロー図である。このようなフローは、図1の制御部130において実行されるであろう。一実施形態では、例示的なプロセスは、ユーザ体験を改善させながらシステムの電力消費を最小化することを目的とする。開示されるプロセスは、ハードウェア、ソフトウェア、またはハードウェアとソフトウェアとの組み合わせで実施されてもよい。開示されるプロセスは、本明細書に開示されるシステムの様々な部分で実施されてもよい。例えば、特定のステップは、フロントエンド受信部で実施されてもよく、他のステップは、制御部で実施されてもよく、さらに他のステップは、NNEおよびDSP回路で実施されてもよい。
【0104】
一実施形態では、システムは、NNE回路を継続的に起動させることなく、入来音を監視する。これは、より計算負荷の高いタスク(すなわち、消費電力の高い計算)が必要なときだけ実行されるように論理を階層化することによって実施してもよい。
【0105】
図6を参照すると、ステップ602で、システムは入来音を検出する。ステップ602は、比較的低い計算コストで制御部で実施することができる。ステップ602では、従来の音検出メカニズムを使用することができる。音が検出されると、システムは、検出された音が予め定められた閾値を超えているかどうかを決定する。これはステップ604に示されている。閾値を満たさない場合、システムはステップ602に戻り、入来音の検出を継続する。ステップ602と604とは、継続的に動作してもよいし、断続的に実行してもよい。これらのステップは、フロントエンド受信部またはシステム内の他の場所で実行してもよい。
【0106】
音検出は、補聴器の片側または両側で行うことができる。音検出は、低電力モードにおいて、音声フレームを不定期に分析することによって実施される場合がある。検出された音レベルが予め定められた閾値を超えた場合、ステップ606で、VADが起動されてもよい。ステップ608で、VADは、検出された発話が継続的であるかどうかを判定する。検出された発話が継続的でない場合、次いで、プロセスは、ステップ602に戻る。検出された音声が継続的である場合、次いで、ステップ610で、入来音声のサンプリング周波数を増加させてもよい。一度起動されると、論理は、入来音声のより頻繁なサンプリングを通じて、持続的な発話を検索することができる。
【0107】
ステップ612で、システムは、NNE回路を係合させて、入来音声信号をさらに処理する。NNE回路を係合させるとき、システムは、いくつかの競合する利益を考慮することができる。例えば、システムは、ユーザの入力、意味のあるSNRを提供するNNEの能力(すなわち、NNEの性能限界)、および電力の利用可能性を考慮することができる。ある実施形態では、継続的な発話が検出されると、次いで、全NNE回路が係合され、ユーザへの出力を依然として修正しないまま、入来される音声を分析してもよい。これにより、デバイスは、入来音声のSNRを分析し、NNEを起動することが好ましいかどうかを決定することができる。
【0108】
ステップ614において、NNEが起動されている場合、出力は、任意選択でユーザの設定に従って修正され、音声ストリームがユーザに配信される。さらに、NNEは、同じモデルの出力を使用して、入来音声ストリームまたは音声クリップのSNRを分析し、NNEが起動されたままであるべきかどうかを通知してもよい。
【0109】
ステップ618で、NNEからSNRフィードバックを受信した制御部は、SNRが、可聴発話を提供するためのNNEの制限を超えるかどうかを決定する。たとえば、入来音声のSNRが非常に高い場合(静かな部屋での会話)、NNEの処理は不要である。そのため、システムは、ユーザまたはデバイス自体(例えば、自動モードが選択されている場合)によって設定された閾値SNRレベルに注目する。SNRが十分に高く、NNEが完全に係合していても可聴発話を提供できない場合、上述したように、システムはフィルタリングを拒否することができる。NSRレベルがNNEの限界を超えない場合、次いで、アルゴリズムは、システムまたはユーザによって決定されたレベル(すなわち、目標SNRまたはNNEの限界SNRのうち低い方のレベルを選択する)で入来信号を処理することができる。このステップは、図6のステップ620として示されている。その後、プロセスは、ステップ602に戻ってもよい。
【0110】
図7は、例示的な実施形態によるSOCパッケージのブロック図を示す。図7において、SOC702は、1つまたは複数の中央処理装置(CPU)コア720、入出力(I/O)インタフェース740、およびメモリコントローラ742を含む。SOCパッケージ702の様々な構成要素は、他の図を参照して本明細書で説明するような相互接続またはバスに任意選択で結合されてもよい。また、SOCパッケージ702は、図1ー6の補聴器システムを参照して説明したような構成要素を含んでもよい。さらに、SOCパッケージ720の各構成要素は、例えば、図2または図3を参照して説明したような、1つまたは複数の他の構成要素を含んでもよい。一実施形態では、SOCパッケージ702(およびその構成要素)は、1つまたは複数の集積回路(IC)ダイ上に提供され、例えば、これらは単一の半導体デバイスにパッケージされる。単一の半導体デバイスは、補聴器、増幅システム、または人間の外耳道内で使用される聴覚デバイスとして使用されるように構成されてもよい。
【0111】
図7に示されるように、SOCパッケージ702は、メモリ制御部742を介してメモリ760に結合される。一実施形態では、メモリ760(またはその一部)は、SOCパッケージ702上に集積することができる。I/Oインタフェース740は、例えば、本明細書で論じるような相互接続および/またはバスを介して、1つまたは複数のI/Oデバイス770に結合されてもよい。I/Oデバイス770は、SOC702と通信する手段を含んでもよい。例示的な実施形態では、I/Oインタフェース740は、I/Oデバイス770と無線通信する。SOCパッケージ702は、例えば、図1および図4の実施形態を実施するためのハードウェア、ソフトウェアおよび論理を含んでよい。実施は、補助デバイス、例えばI/Oデバイス770と通信してもよい。I/Oデバイス770は、NNEにアクセスするための追加の通信機能、例えばセルラーまたはWiFiを備えてもよい。
【0112】
図8は、開示された原理に関連して使用され得る例示的な補助処理システム800のブロック図である。様々な実施形態において、システム800は、1つまたは複数のプロセッサ802および1つまたは複数のグラフィックスプロセッサ808を備え、シングルプロセッサデスクトップシステム、マルチプロセッサワークステーションシステム、または多数のプロセッサ802またはプロセッサコア807を有するサーバシステムであってもよい。一実施形態では、システム800は、モバイル、ハンドヘルド、または組み込みデバイスで使用するためのシステムオンチップ(SoCまたはSOC)集積回路内に組み込まれた処理プラットフォームである。
【0113】
システム800の実施形態は、サーバベースのスマートデバイスプラットフォームまたはインターネットにアクセス可能なオンラインサーバを含むか、またはその中に組み込むことができる。いくつかの実施形態では、システム800は、携帯電話、スマートフォン、タブレット演算デバイスまたはモバイルインターネットデバイスである。データ処理システム800はまた、スマートウォッチウェアラブルデバイス、スマートアイウェアデバイス(例えば、顔装着(faceworn)メガネ)、拡張現実デバイス、または仮想現実デバイスなどのウェアラブルデバイスとの結合を含んでもよく、またはウェアラブルデバイス内に統合されてもよい。いくつかの実施形態では、データ処理システム800は、1つまたは複数のプロセッサ802と、1つまたは複数のグラフィックプロセッサ808によって生成されるグラフィカルインタフェースとを有するテレビジョンまたはセットトップボックスデバイスである。
【0114】
いくつかの実施形態では、1つまたは複数のプロセッサ802は、それぞれ、実行されるとシステムおよびユーザソフトウェアの動作を実行する命令を処理するための1つまたは複数のプロセッサコア807を備える。いくつかの実施形態では、1つまたは複数のプロセッサコア807の各々は、特定の命令セット809を処理するように構成される。いくつかの実施形態では、命令セット809は、複雑命令セットコンピューティング(CISC)、縮小命令セットコンピューティング(RISC)、または超長命令ワード(VLIW)を介した演算を促進し得る。複数のプロセッサコア807は、各々、異なる命令セット809を処理してもよく、この命令セット809は、他の命令セットのエミュレーションを容易にする命令を含んでもよい。プロセッサコア807は、デジタル信号プロセッサ(DSP)などの他の処理デバイスを含んでもよい。
【0115】
いくつかの実施形態では、プロセッサ802は、キャッシュメモリ804を備える。アーキテクチャに応じて、プロセッサ802は、単一の内部キャッシュまたは複数レベルの内部キャッシュを有することができる。いくつかの実施形態では、キャッシュメモリは、プロセッサ802の様々なコンポーネント間で共有される。いくつかの実施形態では、プロセッサ802はまた、外部キャッシュ(例えば、レベル-3(L3)キャッシュまたはラストレベルキャッシュ(LLC))(図示せず)を使用し、これは、公知のキャッシュコヒーレンシ技術を使用してプロセッサコア807間で共有され得る。レジスタファイル806は、さらに、プロセッサ802に含まれ、異なるタイプのデータを記憶するための異なるタイプのレジスタ(例えば、整数レジスタ、浮動小数点レジスタ、ステータスレジスタ、および命令ポインタレジスタ)を含んでもよい。いくつかのレジスタは、汎用レジスタであってもよく、他のレジスタは、プロセッサ802の設計に固有であってもよい。
【0116】
いくつかの実施形態では、プロセッサ802は、プロセッサ802とシステム800内の他のコンポーネントとの間でアドレス、データ、または制御信号などの通信信号を伝送するために、プロセッサバス88に結合される。一実施形態では、システム800は、メモリコントローラハブ816および入出力(I/O)コントローラハブ830を含む、例示的な「ハブ」システムアーキテクチャを使用する。メモリコントローラハブ816は、メモリデバイスとシステム800の他の構成要素との間の通信を容易にし、一方、I/Oコントローラハブ(ICH)830は、ローカルI/Oバスを介してI/Oデバイスへの接続を提供する。一実施形態では、メモリコントローラハブ816の論理は、プロセッサ内に統合される。
【0117】
メモリデバイス820は、ダイナミックランダムアクセスメモリ(DRAM)デバイス、スタティックランダムアクセスメモリ(SRAM)デバイス、フラッシュメモリデバイス、相変化メモリデバイス、またはプロセスメモリとして機能するのに適した性能を有する他のメモリデバイスであってもよい。一実施形態では、メモリデバイス820は、1つまたは複数のプロセッサ802がアプリケーションまたはプロセスを実行するときに使用するためのデータ822および命令821を記憶するために、システム800のシステムメモリとして動作することができる。メモリコントローラハブ816は、オプションの外部グラフィックプロセッサ812とも結合し、グラフィックおよびメディア操作を実行するために、プロセッサ802内の1つまたは複数のグラフィックプロセッサ808と通信することができる。
【0118】
いくつかの実施形態では、ICH830は、周辺機器が高速I/Oバスを介してメモリデバイス820およびプロセッサ802に接続することを可能にする。I/O周辺機器には、音声コントローラ846、ファームウェアインタフェース828、無線送受信機826(例えば、Wi-Fi、ブルートゥース)、データ記憶デバイス824(例えば、ハードディスクドライブ、フラッシュメモリなど)、およびレガシ(例えば、パーソナルシステム2(PS/2))デバイスをシステムに結合するためのレガシI/Oコントローラ840が含まれるが、これらに限定されない。1つまたは複数のユニバーサルシリアルバス(USB)制御部842は、キーボードとマウス844の組み合わせなどの入力デバイスを接続する。ネットワークコントローラ834もICH830に接続することができる。いくつかの実施形態では、高性能ネットワークコントローラ(図示せず)がプロセッサバス88に結合される。異なる構成の他のタイプのデータ処理システムも使用できるため、図示のシステム800は例示的なものであり、限定的なものではないことが理解されよう。例えば、I/Oコントローラハブ830は、1つまたは複数のプロセッサ802内に統合されてもよく、あるいは、メモリコントローラハブ816およびI/Oコントローラハブ830は、外部グラフィックスプロセッサ812などの分離した外部グラフィックスプロセッサに統合されてもよい。
【0119】
図9は、機械学習ソフトウェアスタック900の一般化された図である。機械学習アプリケーション1102は、訓練データセットを使用してニューラルネットワークを訓練するように、または訓練されたディープニューラルネットワークを使用して、開示された原理に関連する機械知能を実施するように構成され得る。機械学習アプリケーション902は、ニューラルネットワークの訓練および推論機能、ならびに/または聴覚デバイスに展開する前にニューラルネットワークを訓練するために使用できる専用ソフトウェアを含んでもよい。機械学習アプリケーション902は、画像認識、マッピングおよびローカライゼーション、自律ナビゲーション、発話合成、医療用画像処理、または言語翻訳を備えるがこれらに限定されない、任意のタイプの機械知能を実施することができる。
【0120】
機械学習アプリケーション902のハードウェアアクセラレーションは、機械学習フレームワーク904を介して有効にすることができる。機械学習フレームワーク904は、機械学習プリミティブのライブラリを提供することができる。機械学習プリミティブは、機械学習アルゴリズムによって一般的に実行される基本操作である。機械学習フレームワーク904がなければ、機械学習アルゴリズムの開発者は、機械学習アルゴリズムに関連する主要な計算論理を作成して最適化し、新しい並列プロセッサが開発されるたびに計算論理を再最適化する必要がある。代わりに、機械学習アプリケーションは、機械学習フレームワーク904によって提供されるプリミティブを使用して必要な計算を実行するように構成することができる。例示的なプリミティブには、テンソル畳み込み、活性化関数、およびプーリングが含まれ、これらは、畳み込みニューラルネットワーク(CNN)を訓練する間に実行される計算操作である。また、機械学習フレームワーク904は、行列演算やベクトル演算など、多くの機械学習アルゴリズムによって実行される基本的な線形代数サブプログラムを実施するためのプリミティブを提供することもできる。
【0121】
機械学習フレームワーク904は、機械学習アプリケーション902から受信した入力データを処理し、コンピュータフレームワーク906への適切な入力を生成することができる。コンピュータフレームワーク906は、機械学習フレームワーク904がGPGPUハードウェア910のアーキテクチャを熟知していることを必要とせずに、機械学習フレームワーク904がGPGPUハードウェア910を介してハードウェアアクセラレーションを利用できるようにするために、GPGPUドライバ908に提供される基礎となる命令を抽象化することができる。さらに、演算フレームワーク1106は、GPGPUハードウェア910の様々なタイプおよび世代にわたって、機械学習フレームワーク904のハードウェアアクセラレーションを可能にすることができる。
【0122】
本明細書で説明する実施形態によって提供される演算アーキテクチャは、聴覚デバイス上での機械学習実施のためのニューラルネットワークの訓練および展開に特に適したタイプの並列処理を実行するように構成することができる。ニューラルネットワークは、グラフ関係を有する関数のネットワークとして一般化することができる。当技術分野で知られているように、機械学習で使用されるニューラルネットワークの実施には様々なタイプがある。ニューラルネットワークの例示的なタイプの1つは、前述のようにフィードフォワードネットワークである。
【0123】
第二の例示的なタイプのニューラルネットワークは、CNNである。CNNは、画像データなど、既知の格子状のトポロジーを有するデータを処理するための特殊なフィードフォワードニューラルネットワークである。従って、CNNは一般的に視覚および画像認識アプリケーションの計算に使用されるが、他のタイプのパターン認識、例えば推論、発話および言語処理にも使用される。CNN入力層のノードはフィルタ(網膜に見られる受容野にヒントを得た特徴検出器)の集合に編成され、フィルタの各集合の出力はネットワークの後続層のノードに伝搬される。CNNの計算には、各フィルタに畳み込み演算を適用して、そのフィルタの出力を生成することが含まれる。畳み込みとは、2つの関数によって実行される特殊な数学演算の一種で、2つの元の関数のうちの1つを修正した第3の関数を生成する。畳み込みネットワークの用語では、畳み込みの1つ目の関数は、入力と呼ばれ、2つ目の関数は、畳み込みカーネルと呼ばれる。出力は、特徴マップと呼ばれる。例えば、畳み込み層への入力は、入来画像の様々な色成分を定義するデータの多次元配列とすることができる。畳み込みカーネルは、パラメータの多次元配列とすることができ、パラメータはニューラルネットワークの訓練プロセスによって適合される。
【0124】
リカレントニューラルネットワーク(RNN)は、層間のフィードバック接続を含むフィードフォワードニューラルネットワークのファミリーである。RNNは、ニューラルネットワークの異なる部分にわたってパラメータデータを共有することによって、シーケンシャルデータのモデリングを可能にする。RNNのアーキテクチャにはサイクルが含まれる。サイクルは、RNNからの出力データの少なくとも一部が、シーケンス内の後続の入力を処理するためのフィードバックとして使用されるため、変数の現在値が将来の時点でそれ自体の値に与える影響を表す。この特徴により、RNNは、聴覚データが構成され得る可変的な性質のため、聴覚処理に特に有用となる。
【0125】
本明細書で説明する図面は、例示的なフィードフォワード、CNN、およびRNNネットワークを提示するとともに、これらのタイプのネットワークの各々をそれぞれ訓練および展開するための一般的なプロセスを説明する。これらの説明は、例示的であり、本明細書に記載される任意のある実施形態に関して非限定的であり、図示される概念は、一般に、ディープニューラルネットワークおよび機械学習技術に一般的に適用され得ることが理解されるであろう。
【0126】
上述した例示的なニューラルネットワークは、開示された原理の1つまたは複数を実施するために深層学習を実行するために使用することができる。深層学習は、ディープニューラルネットワークを使用する機械学習である。深層学習で使用されるディープニューラルネットワークは、単一の隠れ層のみを備える浅いニューラルネットワークとは対照的に、複数の隠れ層から構成される人工ニューラルネットワークである。より層の深いニューラルネットワークは一般に、訓練により多くの計算量を要する。しかし、ネットワークの隠れ層が増えることで、多段階のパターン認識が可能になり、浅い機械学習技術に比べて出力誤差が減少する結果となる。
【0127】
深層学習で使用されるディープニューラルネットワークは、典型的には、モデルに提供された特徴表現に基づいて演算(例えば、物体分類、雑音および/または音声認識など)を実行することができる数学的モデルを表すバックエンドネットワークに結合された特徴認識を実行するフロントエンドネットワークを備える。深層学習は、モデルのために手作業による特徴エンジニアリングを実行することを必要とせずに機械学習を実行することを可能にする。代わりに、ディープニューラルネットワークは、入力データ内の統計的構造または相関に基づいて特徴を学習することができる。学習された特徴は、検出された特徴を出力にマッピングすることができる数学的モデルに提供することができる。ネットワークによって使用される数学モデルは、一般に、実行される特定のタスクに特化され、異なるタスクの実行には、異なるモデルが使用される。
【0128】
ニューラルネットワークが構造化されると、学習モデルをネットワークに適用して、特定のタスクを実行するようにネットワークを訓練することができる。学習モデルは、ネットワークの出力誤差を低減するためにモデル内の重みを調整する方法を記述する。誤差のバックプロパゲーションは、ニューラルネットワークの学習によく使われる方法である。入力ベクトルは処理のためにネットワークに提示される。ネットワークの出力は、損失関数を使用して望ましい出力と比較され、出力層の各ニューロンについて誤差値が計算される。誤差値は、各ニューロンが元の出力への寄与を大まかに表す関連誤差値を持つまで、後方に伝搬される。そして、確率的勾配降下アルゴリズムなどのアルゴリズムを使用して、これらの誤差から学習し、ニューラルネットワークの重みを更新する。
【0129】
図10は、本開示の一実施形態によるディープニューラルネットワークの訓練および展開を示す。所与の聴覚ネットワークがタスクのために構造化されると、ニューラルネットワークは、訓練データセット1002を使用して訓練され得る。訓練プロセスのハードウェアアクセラレーションを可能にするために、様々な訓練フレームワークが開発されている。例えば、図9の機械学習フレームワーク904は、訓練フレームワーク1004として構成することができる。訓練フレームワーク1004は、未訓練ニューラルネット1006にフックすることができ、本明細書で説明する並列処理リソースを使用して未訓練ニューラルネットを訓練し、訓練済みニューラルネット1008を生成することができる。訓練プロセスを開始するために、初期重み(例えば、音源に対応する増幅利得)は、ランダムに、またはディープビリーフネットワークを使用した事前訓練によって選択することができる。その後、教師ありまたは教師なしのいずれかの仕方で訓練サイクルを実行する。
【0130】
教師あり学習は、訓練データセット1002が入力に対する所望の出力と対になった入力を備える場合、または訓練データセットが既知の出力を有する入力を含み、ニューラルネットワークの出力が手動でグレード付けされる場合など、訓練が媒介操作として実行される学習方法である。ネットワークは入力を処理し、結果の出力を期待される出力または望ましい出力のセットと比較する。次いで、誤差はシステムを通じて伝搬される。訓練フレームワーク1004は、調整して、未訓練のニューラルネットワーク1006を制御する重みを調整することができる。訓練フレームワーク1004は、未訓練のニューラルネットワーク1006が、既知の入力データに基づいて正しい答えを生成するのに適したモデルに向かってどの程度収束しているかを監視するツールを提供することができる。訓練プロセスは、聴覚ニューラルネットワークによって生成される出力を改良するために、ネットワークの重みが調整されるように繰り返し発生する。訓練プロセスは、ニューラルネットワークが、訓練済みニューラルネットワーク1208に関連する統計的に望ましい精度に達するまで継続することができる。この決定は、技術および聴覚の専門家によって行われてもよいし、機械レベルで実施されてもよい。訓練済みニューラルネットワーク1008は、その後、任意の数の機械学習操作を実施するために展開することができる。
【0131】
教師なし学習は、ネットワークがラベル付けされていないデータを使用してそれ自体を訓練しようとする例示的な学習方法である。したがって、教師なし学習の場合、訓練データセット1002は、関連する出力データのない入力データを含む。訓練されていないニューラルネットワーク1006は、ラベル付けされていない入力内のグループ化を学習することができ、個々の入力がデータセット全体にどのように関連するかを決定することができる。教師なし訓練は、自己組織化マップを生成するために使用することができ、自己組織化マップは、データの次元を減少させるのに有用な動作を実行することができる、訓練済みニューラルネットワーク1007の一種である。教師なし訓練はまた、異常検出を実行するために使用することもでき、これにより、データの通常のパターンから逸脱している入力データセット内のデータ点を特定することができる。
【0132】
教師あり学習と教師なし学習のバリエーションも採用することができる。半教師あり学習は、訓練データセット1002が同じ分布のラベル付きデータとラベルなしデータの混合を含む手法である。インクリメンタル学習は、教師あり学習の変形であり、モデルをさらに訓練するために入力データが継続的に使用される。インクリメンタル学習は、訓練されたニューラルネットワーク1008が、初期訓練中にネットワーク内に植え付けられた知識を忘れることなく、新しいデータ1012に適応することを可能にする。前述の訓練はすべて、聴覚の専門家、医師、技術者と共に実施することができる。
【0133】
教師あり、教師なしを問わず、特にディープニューラルネットワークの訓練プロセスは、単一の計算ノードでは計算量が多すぎる場合がある。単一の計算ノードを使用する代わりに、計算ノードの分散ネットワークを使用して、訓練プロセスを加速することができる。
【0134】
例1は、入来音声信号を改善する装置であって、入来信号を受信し、制御部出力信号を提供する制御部と、制御部と通信するニューラルネットワークエンジン(NNE)回路であって、制御部によって起動可能であり、制御部出力信号からNNE出力信号を生成するように構成された、NNE回路と、デジタル信号処理(DSP)回路であって、制御部出力信号またはNNE回路出力信号のうちの1つまたは複数を受信し、それによって処理信号を生成する、DSP回路と、を備え、制御部は、予め定められたパラメータ、入来信号の特性、およびNNE回路のフィードバックのうちの1つまたは複数の関数として、DSP回路またはNNE回路のうちの1つを通る制御部出力信号の処理経路を決定する、装置に向けられる。
【0135】
例2は、予め定められたパラメータが、ユーザ定義特性およびユーザ非依存特性を備える、例1の装置に向けられる。
【0136】
例3は、ユーザ定義特性が、さらに、ユーザ信号対雑音比(U-SNR)閾値および自然話者特定情報のうちの1つまたは複数を備える、例2の装置に向けられる。
【0137】
例4は、ユーザ非依存特性が、利用可能な電力レベルとシステム信号対雑音比(S-SNR)閾値のうちの1つまたは複数を備える、例2の装置に向けられる。
【0138】
例5は、入来信号の特性が、検出可能な音声または検出可能な無音を備える、例1の装置に向けられる。
【0139】
例6は、制御部が、無音を検出すると、DSPまたはNNEの少なくとも一方を係合解除し、無音は、予め定められた閾値を下回る雑音レベルによって定義される、例5の装置に向けられる。
【0140】
例7は、NNE回路のフィードバックが、検出されたSNR値を備える、例1の装置に向けられる。
【0141】
例8は、NNE回路のフィードバックが、NNE回路における声検出の指示を備える、例1の装置に向けられる。
【0142】
例9は、制御部が、NNE回路に音声クリップを送信し、NNE回路のフィードバックを受信するように構成されている、例1の装置に向けられる。
【0143】
例10は、音声クリップが、入来信号の一部を定義し、制御部から断続的に送信される、例9の装置に向けられる。
【0144】
例11は、音声クリップが、予め定められた長さを有し、予め定められた間隔及びある頻度で送信され、送信の頻度は、NNE回路のフィードバック信号の関数として決定される、例9の装置に向けられる。
【0145】
例12は、制御部が、実質的にリアルタイムで制御部出力信号の処理経路を決定する、例1の装置に向けられる。
【0146】
例13は、制御部、DSP、およびNNEが、システムオンチップ(SOC)上に集積されている、例1の装置に向けられる。
【0147】
例14は、制御部、DSP、およびNNEが、人間の耳に装着されるように適合するように構成された補聴器に統合されている、例1の装置に向けられる。
【0148】
例15は、制御部出力信号を処理する能動的雑音相殺(ANC)回路をさらに備える、例1の装置に向けられる。
【0149】
例16は、入来音声信号の品質を改善する方法であって、制御部で入来信号を受信し、制御部出力信号を提供することと、ニューラルネットワークエンジン(NNE)出力信号およびNNEフィードバック信号を生成するために、NNEを起動し、制御部出力信号を処理することと、制御部出力信号およびNNE回路出力信号の1つまたは複数を受信し、処理信号を生成するために、デジタル信号処理(DSP)回路を起動することと、を備え、制御部は、予め定められたパラメータ、入来信号の特性、およびNNE回路のフィードバックのうちの1つまたは複数の関数として、DSP回路またはNNE回路のうちの1つを通る制御部出力信号の処理経路を決定する、方法に向けられる。
【0150】
例17は、予め定められたパラメータが、ユーザ定義特性およびユーザ非依存特性を備える、例16の方法に向けられる。
【0151】
例18は、ユーザ定義特性が、ユーザ信号対雑音比(U-SNR)閾値および自然話者特定情報のうちの1つまたは複数をさらに備える、例17の方法に向けられる。
【0152】
例19は、ユーザ非依存特性が、利用可能な電力レベルおよびシステム信号対雑音比(S-SNR)閾値のうちの1つまたは複数をさらに備える、例17記載の方法に向けられる。
【0153】
例20は、入来信号の特性が、検出可能な音または検出可能な無音を備える、例16の方法に向けられる。
【0154】
例21は、制御部で無音を検出すると、DSPとNNEとを係合解除することをさらに備える、例20の方法に向けられる。
【0155】
例22は、SNR値を検出し、NNEが検出されたSNR値をNNE回路のフィードバック信号として供給することをさらに備える、例16の方法に向けられる。
【0156】
例23は、NNEフィードバック信号が、NNEにおける音声検出の指示をさらに備える、例16の方法に向けられる。
【0157】
例24は、NNEフィードバック信号を受信する前に、制御部からNNEに音声クリップを送信することをさらに備える、例16の方法に向けられる。
【0158】
例25は、音声クリップが、入来信号の一部を定義し、間欠的に送信される、例24の方法に向けられる。
【0159】
例26は、音声クリップが、予め定められた長さを有し、予め定められた間隔およびある頻度で送信され、送信の頻度は、NNE回路のフィードバック信号の関数として決定される、例24の方法に向けられる。
【0160】
例27は、処理経路を制御部でリアルタイムに決定することをさらに備える、例16の方法に向けられる。
【0161】
例28は、制御部、DSP、およびNNEをシステムオンチップ(SOC)上に集積することをさらに備える、例16の方法に向けられる。
【0162】
例29は、制御部、DSP、およびNNEを、人間の耳に適合するように構成された補聴器に統合することをさらに備える、例16の方法に向けられる。
【0163】
例30は、NNE回路を介して制御部出力信号を処理するときに、能動的雑音相殺(ANC)回路を係合させることをさらに備える、例16の方法に向けられる。
【0164】
例31は、メモリ回路に結合されたプロセッサ回路を含む演算ハードウェアによって実行されると、演算ハードウェアに、制御部で入来信号を受信し、制御部出力信号を提供することと、NNE出力信号およびNNEフィードバック信号を生成するために、ニューラルネットワークエンジン(NNE)を起動し、制御部出力信号を処理することと、制御部出力信号およびNNE回路出力信号の1つまたは複数を受信し、処理信号を生成するために、デジタル信号処理(DSP)回路を起動することと、を実行させる命令を備える、少なくとも1つの非一過性の機械可読媒体であって、制御部は、予め定められたパラメータ、入来信号の特性、およびNNE回路のフィードバックのうちの1つまたは複数の関数として、DSP回路またはNNE回路のうちの1つを通る制御部出力信号の処理経路を決定する、非一過性の機械可読媒体に向けられる。
【0165】
例32は、予め定められたパラメータが、ユーザ定義特性およびユーザ非依存特性を備える、例31の媒体に向けられる。
【0166】
例33は、ユーザ定義特性が、ユーザ信号対雑音比(U-SNR)閾値および自然話者特定情報のうちの1つまたは複数をさらに備える、例32の媒体に向けられる。
【0167】
例34は、ユーザ非依存特性が、利用可能な電力レベルとシステム信号対雑音比(S-SNR)閾値のうちの1つまたは複数をさらに備える、例32の媒体に向けられる。
【0168】
例35は、入来信号の特性が、検出可能な音声または検出可能な無音を備える、例31の媒体に向けられる。
【0169】
例36は、命令が、さらに、制御部において無音を検出したときに、演算ハードウェアに、DSPとNNEとを係合解除させる、例35の媒体に向けられる。
【0170】
例37は、命令が、さらに、演算ハードウェアに、SNR値およびNNEを検出させ、検出されたSNR値をNNE回路のフィードバック信号として提供させる、例31の媒体に向けられる。
【0171】
例38は、NNEフィードバック信号が、NNEにおける声検出の指示をさらに備える、例31の媒体に向けられる。
【0172】
例39は、命令が、NNEフィードバック信号を受信する前に、演算ハードウェアに制御部からNNEへ音声クリップをさらに送信させる、例31の媒体に向けられる。
【0173】
例40は、音声クリップが、入来信号の一部を定義し、断続的に送信される、例39の媒体に向けられる。
【0174】
例41は、音声クリップが、予め定められた長さを有し、予め定められた間隔およびある頻度で送信され、送信の頻度は、NNE回路のフィードバック信号の関数として決定される、例39の媒体に向けられる。
【0175】
例42は、命令が、演算ハードウェアに、さらに、処理経路を制御部でリアルタイムに決定させる、例31の媒体に向けられる。
【0176】
例43は、制御部、DSP、およびNNEが、人間の耳に適合するように構成された補聴器に統合される、例31記載の媒体に向けられる。
【0177】
例44は、入来音声信号を改善する聴覚システムであって、1つまたは複数の入来音声信号を受信するフロントエンド受信部であって、入来音声信号の少なくとも1つは、複数の信号成分を有し、各信号成分は、それぞれの信号源に対応する、フロントエンド受信部と、フロントエンド受信部と通信する制御部であって、フロントエンド受信部から入力信号を受信し、制御部出力信号を提供し、第1または第2の信号処理経路の少なくとも1つに選択的に出力信号を提供する、制御部と、第1の信号処理経路の一部を定義するように制御部と通信するニューラルネットワークエンジン(NNE)回路であって、制御部によって起動可能であり、制御部出力信号からNNE出力信号を生成するように構成されている、NNE回路と、第1および第2の信号処理経路の一部を形成するデジタル信号処理(DSP)回路であって、制御部出力信号またはNNE回路出力信号のうちの1つまたは複数を受信して、それによって処理信号を生成する、DSP回路と、を備え、フロントエンド受信部、制御部、NNE回路、およびDSP回路は、集積回路(IC)上に形成される、聴覚システムに向けられる。
【0178】
例45は、DSPからの出力信号を受信して可聴信号を形成するバックエンド受信部をさらに備える、例44の聴覚システムに向けられる。
【0179】
例46は、補聴器、ヘッドフォン、または顔装着メガネ(faceworn glasses)のうちの1つを定義し、可聴信号は、入来信号を受信した後32ミリ秒未満で形成される、例45の聴覚システムに向けられる。
【0180】
例47は、ICが、システムオンチップ(SOC)を備える、例44の聴覚システムに向けられる。
【0181】
例48は、SOCと電源を受容するハウジングをさらに備える、例47の聴覚システムに向けられる。
【0182】
例49は、制御部が、制御部出力信号の処理経路をNNE回路のフィードバックの関数として決定する、例44の聴覚システムに向けられる。
【0183】
例50は、制御部が、制御部出力信号の処理経路を、予め定められたパラメータ、入来信号の特性、およびNNE回路のフィードバックのうちの1つまたは複数の関数として決定する、例44の聴覚システムに向けられる。
【0184】
例51は、無線通信システムをさらに備える、例44の聴覚システムに向けられる。
【0185】
例52は、NNE回路が、入来信号の成分の相対音量を調整し、DSP回路は、周波数および時間変動利得を受信された信号に適用する、例44の聴覚システムに向けられる。
【0186】
例53は、入来信号の成分が、少なくとも発話および雑音をさらに備え、発話音量は雑音音量に対して増加される、例52の聴覚システムに向けられる。
【0187】
例54は、フロントエンド受信部が、制御部に入力信号を提供するように入来信号を処理し、入来信号は、発話成分および雑音成分のうちの1つまたは複数を含む、例44記載の聴覚システムに向けられる。
【0188】
例55は、NNE回路が、複数の成分を得るようにフロントエンド受信部の入来信号に選択的に比率マスクを適用し、複数の成分の各々は、音声クラスに対応する、例52の聴覚システムに向けられる。
【0189】
例56は、NNE回路が、複数の信号成分を得るように制御部出力信号に複素比率マスクを選択的に適用するように構成され、複数の信号成分の各々は、音声クラス又は個々の話者に対応し、NNE回路は、複数の成分を出力信号に結合するようにさらに構成され、各成分の音量は、予め定められたユーザ制御の信号対雑音比に従って少なくとも1つの他の成分に対して調整される、例44の聴覚システムに向けられる。
【0190】
例57は、信号成分が、発話と雑音をさらに備え、出力信号は雑音音量に対して増加させた発話音量を備える、例56の聴覚システムに向けられる。
【0191】
例58は、信号成分が、ユーザの発話および複数の他の音源をさらに備え、出力信号は、他の音源に対して減少させたユーザの発話を備える、例56の聴覚システムに向けられる。
【0192】
例59は、NNE回路が、ユーザ制御のパラメータの関数として異なる音源のそれぞれの音量を設定するようにさらに構成される、例56の聴覚システムに向けられる。
【0193】
例60は、第2の信号処理経路が、NNEを通る信号処理を除外する、例44の聴覚システムに向けられる。
【0194】
例61は、NNE回路が、1つまたは複数のDSP機能を実施するようにさらに構成される、例44の聴覚システムに向けられる。
【0195】
例62は、入来音声信号の品質を改善する方法であって、フロントエンド受信部において1つまたは複数の入来音声信号を受信することであって、入来音声信号の少なくとも1つは、複数の信号成分を有し、各信号成分は、それぞれの信号源に対応する、受信することと、制御部においてフロントエンド受信部から入力信号を受信し、制御部出力信号を提供することであって、制御部は、第1または第2の信号処理経路の少なくとも1つに出力信号を選択的に提供する、制御部出力信号を提供することと、制御部によって起動可能なニューラルネットワークエンジン(NNE)回路において制御部出力信号からNNE出力信号を生成することであって、NNEは、第1の信号処理経路の少なくとも一部を定義する、生成することと、デジタル信号処理(DSP)回路において、制御部出力信号またはNNE回路出力信号から処理信号を生成することであって、DSPは、第1および第2の信号処理経路の少なくとも一部を定義する、生成することと、を備え、フロントエンド受信部、制御部、NNE回路、およびDSP回路は、集積回路(IC)上に形成される、方法に向けられる。
【0196】
例63は、バックエンド受信部において処理信号から出力信号を形成することをさらに備える、例62の方法に向けられる。
【0197】
例64は、入来信号を受信した後32ミリ秒未満で出力信号を形成することをさらに備える、例63の方法に向けられる。
【0198】
例65は、聴覚システムが、補聴器、ヘッドフォン、または顔装着メガネ(faceworn glasses)のうちの1つを定義する、例63の方法に向けられる。
【0199】
例66は、ICが、システムオンチップ(SOC)を備える、例62の方法に向けられる。
【0200】
例67は、SOCおよび電源を受容するハウジングをさらに備える、例66の方法に向けられる。
【0201】
例68は、制御部出力信号の処理経路を、NNE回路のフィードバックの関数として決定することをさらに備える、例62の方法に向けられる。
【0202】
例69は、制御部出力信号の処理経路を、予め定められたパラメータ、入来信号の特性、およびNNE回路のフィードバックのうちの1つまたは複数の関数として決定することをさらに備える、例62の方法に向けられる。
【0203】
例70は、制御部に入力信号を提供するように、フロントエンド受信部において発話成分および雑音成分のうちの1つまたは複数を有する入来信号を処理することをさらに備える、例62の方法に向けられる。
【0204】
例71は、NNE回路が、複数の成分を得るようにフロントエンド受信部の入来信号に選択的に比率マスクを適用し、複数の成分の各々が音声クラスに対応する、例70の方法に向けられる。
【0205】
例72は、複数の信号成分を得るように、NNE回路において制御部出力信号に複素比率マスクを適用することであって、複数の信号成分の各々が音声クラスまたは個々の話者に対応する、適用することと、NNE回路において複数の成分を出力信号に結合することと、をさらに備え、各成分の音量が、予め定められたユーザ制御の信号対雑音比に従って少なくとも1つの他の成分に対して調整される、例62の方法システムに向けられる。
【0206】
例73は、信号成分が、発話と雑音をさらに備え、出力信号は、雑音音量に対して増加させた発話音量を備える、例72の方法に向けられる。
【0207】
例74は、信号成分が、ユーザの発話と複数の他の音源とをさらに備え、出力信号は、他の音源に対して減少させたユーザの発話を備える、例72の方法に向けられる。
【0208】
例75は、NNE回路が、ユーザ制御のパラメータの関数として異なる音源のそれぞれの音量を設定するようにさらに構成される、例72の方法に向けられる。
【0209】
例76は、第1の信号処理経路を通る信号処理が、NNEを通る信号処理を除外する、例62の方法に向けられる。
【0210】
例77は、メモリ回路に結合されたプロセッサ回路を含む演算ハードウェアによって実行されると、演算ハードウェアに、フロントエンド受信部で1つまたは複数の入来音声信号を受信することであって、入来音声信号の少なくとも1つは、複数の信号成分を有し、各信号成分は、それぞれの信号源に対応する、受信することと、フロントエンド受信部から入力信号を受信し、制御部出力信号を提供することであって、制御部は、第1の信号処理経路または第2の信号処理経路の少なくとも1つに出力信号を選択的に提供する、制御部出力信号を提供することと、制御部によって起動可能なニューラルネットワークエンジン(NNE)回路において、制御部出力信号からNNE出力信号を生成することであって、NNEは、第1の信号処理経路の少なくとも一部を定義する、生成することと、デジタル信号処理(DSP)回路において、制御部出力信号またはNNE回路出力信号から処理信号を生成することであって、DSPは、第1および第2の信号処理経路の少なくとも一部を定義する、生成することと、を実行させる命令を備える、少なくとも1つの非一過性の機械可読媒体であって、フロントエンド受信部、制御部、NNE回路、およびDSP回路は、集積回路(IC)上に形成される、少なくとも1つの非一過性の機械可読媒体に向けられる。
【0211】
例78は、命令が、さらに、演算ハードウェアに、バックエンド受信部において処理信号から出力信号を形成させる、例77の媒体に向けられる。
【0212】
例79は、命令が、さらに、演算ハードウェアに、入来信号を受信してから32ミリ秒未満で出力信号を形成させる、例78の媒体に向けられる。
【0213】
例80は、聴覚システムが、補聴器、ヘッドフォン、または面体メガネ(facework glasses)のうちの1つを定義する、例78の媒体に向けられる。
【0214】
例81は、ICが、システムオンチップ(SOC)を備える、例77の媒体に向けられる。
【0215】
例82は、命令が、さらに、演算ハードウェアに、制御部出力信号の処理経路を、NNE回路のフィードバックの関数として決定させる、例77の媒体に向けられる。
【0216】
例83は、命令が、さらに、演算ハードウェアに、制御部出力信号の処理経路を、予め定められたパラメータ、入来信号の特性、およびNNE回路のフィードバックのうちの1つまたは複数の関数として決定させる、例77の媒体に向けられる。
【0217】
例84は、命令が、さらに、演算ハードウェアに、フロントエンド受信部において、発話成分および雑音成分のうちの1つまたは複数を有する入来信号を処理し、制御部に入来信号を提供させる、例77の媒体に向けられる。
【0218】
例85は、NNE回路が、フロントエンド受信部の入来信号に選択的に比率マスクを適用し、複数の成分を得るように構成され、複数の成分の各々は、音声クラスに対応する、例84の媒体に向けられる。
【0219】
例86は、命令が、さらに、演算ハードウェアに、NNE回路において制御部出力信号に複素比率マスクを適用し、複数の信号成分を得させ、複数の信号成分の各々は、音声クラスまたは個々の話者に対応し、複数の成分をNNE回路において出力信号に結合し、各成分の音量は、予め定められたユーザ制御の信号対雑音比に従って少なくとも1つの他の成分に対して調整される、例77の媒体に向けられる。
【0220】
例87は、信号成分が、発話および雑音をさらに備え、出力信号は、雑音音量に対して増加させた発話音量を備える、例86の媒体に向けられる。
【0221】
例88は、信号成分が、ユーザの発話および複数の他の音源をさらに備え、出力信号は、他の音源に対して減少させたユーザの発話を備える、例84の媒体に向けられる。
【0222】
例89は、命令が、さらに、演算ハードウェアに、ユーザ制御のパラメータの関数として、異なる音源のそれぞれの音量を設定させる、例84の媒体に向けられる。
【0223】
例90は、第1の信号処理経路を通る信号処理が、NNEを通る信号処理を除外する、例77の媒体に向けられる。
【0224】
例91は、入来音声信号を改善する耳装着型の聴覚システムであって、連続的に受信された信号サンプルを改善し、次いで、改善された信号サンプルに基づいて連続的な可聴信号を出力するように構成されたニューラルネットワークエンジン(NNE)回路を備える、システムに向けられる。
【0225】
例92は、可聴信号が、受信された信号の受信から約32ミリ秒以下で生成される、例91の聴覚システムに向けられる。
【0226】
例93は、可聴信号が、受信された信号の受信から約10ミリ秒以下で生成される、例91の聴覚システムに向けられる。
【0227】
例94は、可聴信号が、入来音声信号の受信から約10~20ミリ秒、12~8ミリ秒、10~6ミリ秒、または8~3ミリ秒で生成される、例91の聴覚システムに向けられる。
【0228】
例95は、ニューラルネットワークが、1秒間に少なくとも10億回の演算を行う、例92の聴覚システムに向けられる。
【0229】
例96は、NNE回路が、約2ミリワット以下の関連消費電力で音声信号を処理するように構成されている、例95の聴覚システムに向けられる。
【0230】
例97は、NNE回路が、システムオンチップ(SOC)上に形成され、複数の精度レベルの信号処理動作を実行するための複数の非一過性の実行可能論理をさらに備える、例96記載の聴覚システムに向けられる。
【0231】
例98は、ニューラルネットワークが、各信号サンプルに対する複素比率マスクを推定し、望ましい信号成分を得ることにより、音声信号を改善する、例91の聴覚システムに向けられる。
【0232】
例99は、望ましい信号成分は発話である、例98の聴覚システムに向けられる。
【0233】
例100は、望ましい信号成分は、1つまたは複数の認識された話者である、例99の聴覚システムに向けられる。
【0234】
例101は、改善された音声信号は減少した背景雑音を示し、背景雑音はユーザ設定可能である、例98の聴覚システムに向けられる。
【0235】
例102は、背景雑音レベルを調整するために、聴覚システム上でアクセス可能な物理的制御スイッチをさらに備える、例101の聴覚システムに向けられる。
【0236】
例103は、背景雑音レベルを調整するために、補助装置を介してアクセス可能な論理制御スイッチをさらに備える、例101の聴覚システムに向けられる。
【0237】
例104は、入来音声信号を改善する耳装着型聴覚システムであって、受信信号の可聴性を改善させ、改善された連続出力信号を提供するように構成された、ニューラルネットワークエンジン(NNE)回路と、ユーザ入力に対応するように少なくとも1つのNNE回路構成を操作することにより、背景雑音を調整する制御ダイヤルと、を備える、耳装着型聴覚システムに向けられる。
【0238】
例105は、制御ダイヤルが、調整可能な物理的ダイヤルを備える、例104に記載の聴覚システムに向けられる。
【0239】
例106は、制御ダイヤルが、連続出力信号の信号対雑音比(SNR)に影響を与える、例104の聴覚システムに向けられる。
【0240】
例107は、制御ダイヤルが、入来音声の雑音成分に排他的に影響を与える、例104の聴覚システムに向けられる。
【0241】
例108は、音声信号の可聴性を改善する装置であって、1つまたは複数の入力音声信号を受信し、1つまたは複数の中間信号を出力するニューラルネットワークエンジン(NNE)回路であって、各中間信号は、1つまたは複数の音源に対応する音声信号をさらに備える、ニューラルネットワークエンジン(NNE)回路と、1つまたは複数の中間信号を受信し、各中間信号に利得を割り当て、1つまたは複数の中間信号を再結合して新たな出力信号を形成するように構成されたサウンドミキサー回路と、を備え、1つまたは複数の中間信号に割り当てられる利得は、目標信号対雑音比(SNR)を達成するように設定され、SNRは、少なくとも1つのユーザ固有の基準および少なくとも1つのユーザ非依存基準の関数として決定される、装置に向けられる。
【0242】
例109は、ユーザ固有の基準が、特定の所望の信号音声クラスと雑音音声クラスの音量目標、または、所望の音声クラスとSNRの間の音量の所望の比率を備える、例108の装置に向けられる。
【0243】
例110は、所望の音声クラスの音量が、ユーザ制御される、例109の装置に向けられる。
【0244】
例111は、ニューラルネットワークが出力する中間信号の数および構成が、ユーザ固有の選択基準に従って設定可能である、例108の装置に向けられる。
【0245】
例112は、ユーザ固有の基準が、1つまたは複数の自然話者の所望の増幅をさらに備える、例109の装置に向けられる。
【0246】
例113は、ユーザ非依存基準が、最近受信され処理された入力音声信号の推定SNRをさらに備える、例109の装置に向けられる。
【0247】
例114は、ユーザ非依存基準が、ニューラルネットワークの推定誤差をさらに備える、例109の装置に向けられる。
【0248】
例115は、サウンドミキサー回路のステップが、ネットワークの予測誤差に基づいて、1つまたは複数の中間信号を再結合して新たな出力信号を形成する、例114の装置に向けられる。
【0249】
例116は、目標SNRが、ユーザの所望のSNRまたはニューラルネットワークの推定誤差に基づくSNRのうち低い方として決定される、例108の装置に向けられる。
【0250】
様々な実施形態において、本明細書で議論される動作は、例えば、本明細書で説明される図を参照して、ハードウェア(例えば、論理回路)、ソフトウェア、ファームウェア、またはそれらの組合せとして実施されてもよく、これらは、コンピュータプログラム製品として提供されてもよく、例えば、本明細書で議論されるプロセスを実行するようにコンピュータをプログラムするために使用される命令(またはソフトウェア手順)を記憶した有形の(例えば、非一過性の)機械可読媒体またはコンピュータ可読媒体を備える。機械可読媒体は、本願図面に関連して議論されるもののような記憶装置を備え得る。
【0251】
さらに、このようなコンピュータ可読媒体は、コンピュータプログラム製品としてダウンロードされてもよく、この場合、プログラムは、通信リンク(例えば、バス、モデム、またはネットワーク接続)を介して搬送波または他の伝搬媒体で提供されるデータ信号によって、リモートコンピュータ(例えば、サーバ)から要求元のコンピュータ(例えば、クライアント)に転送されてもよい。
【0252】
本明細書における「一実施形態」または「実施形態」への言及は、実施形態に関連して説明される特定の特徴、構造、および/または特性が、少なくとも実施形態に含まれ得ることを意味する。本明細書の様々な場所で「一実施形態において」という表現が現れるが、すべてが同じ実施形態を指す場合もあれば、そうでない場合もある。
【0253】
また、本明細書および特許請求の範囲では、「結合された」および「接続された」という用語が、それらの派生語とともに使用され得る。いくつかの実施形態では、「接続された」は、2つ以上の要素が互いに物理的または電気的に直接接触していることを示すために使用され得る。「結合された」は、2つ以上の要素が直接物理的または電気的に接触していることを意味する場合がある。しかし、「結合された」は、2つ以上の要素が互いに直接接触していなくても、互いに協働するまたは相互作用することを意味する場合もある。
【0254】
このように、実施形態は、構造的特徴および/または方法論的行為に特有の言語で記載されてきたが、特許請求される主題は、記載された特定の特徴または行為に限定されない場合があることを理解されたい。むしろ、特定の特徴および行為は、特許請求された主題を実施するサンプルの形態として開示される。
図1
図2
図3A
図3B
図4
図5A
図5B
図5C
図6
図7
図8
図9
図10
【手続補正書】
【提出日】2024-09-09
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
入来音声信号を改善する装置であって、
前記入来音声信号を受信し、制御部出力信号を提供する制御部と、
前記制御部と通信するニューラルネットワークエンジン(NNE)回路であって、前記制御部によって起動可能であり、前記制御部出力信号からNNE出力信号を生成するように構成された、NNE回路と、
デジタル信号処理(DSP)回路であって、前記制御部出力信号および/または前記NNE回路出力信号を受信し、それによって処理信号を生成する、DSP回路と、
を備え、
前記制御部は、予め定められたパラメータ、入来信号の特性、およびNNE回路のフィードバックのうちの1つまたは複数の関数として、前記制御部が前記制御部出力信号を前記DSP回路および/または前記NNE回路に渡す前記制御部出力信号の処理経路を決定する、
装置。
【請求項2】
前記予め定められたパラメータは、ユーザ定義特性を備える、請求項1に記載の装置。
【請求項3】
前記ユーザ定義特性は、ユーザによる、前記ユーザのスマートフォン上のアプリを介した動作モードの選択を備える、請求項2に記載の装置。
【請求項4】
前記ユーザ定義特性は、ユーザによる前記装置上の入力を介した動作モードの選択を備える、請求項2に記載の装置。
【請求項5】
前記NNE回路は、
前記入来音声信号の連続的に受信された信号サンプルを改善し、次いで、改善された前記連続的に受信された信号サンプルに基づいて前記処理信号を連続的な可聴信号として出力するように構成された、請求項1に記載の装置
【請求項6】
前記連続的な可聴信号は、前記入来音声信号の受信から約32ミリ秒以下で生成されているか、
前記NNE回路は、1秒間に少なくとも10億回の演算を行うように構成されているか、
前記NNE回路は、約2ミリワット以下の関連消費電力で前記入来音声信号を処理するように構成されているか、の少なくとも1つである、請求項に記載の装置
【請求項7】
前記NNE回路は、受信された各信号サンプルに対する複素マスクを推定し、前記入来音声信号の信号成分を得ることにより、前記入来信号を改善するように構成された請求項5に記載の装置
【請求項8】
記信号成分は発話である、請求項7に記載の装置
【請求項9】
前記処理信号は減少した背景雑音のレベルを示し、前記背景雑音のレベルはユーザ設定可能である、請求項に記載の装置
【請求項10】
前記制御部は、前記制御部出力信号の処理経路を実質的にリアルタイムに決定する、請求項1から9のいずれか一項に記載の装置。
【請求項11】
前記制御部、DSP回路、およびNNE回路は、システムオンチップ(SOC)上に集積されている、請求項1に記載の装置。
【請求項12】
前記制御部、DSP回路、およびNNE回路は、人間の耳に装着されるように構成された補聴器に統合されている、請求項1から11のいずれか一項に記載の装置。
【請求項13】
前記DSP回路は、ダイナミックレンジの圧縮、増幅、および周波数の調整の1つまたは複数を実行するように構成されている、請求項1から12のいずれか一項に記載の装置。
【請求項14】
入来音声信号の品質を改善する方法であって、
制御部が、入来信号を受信し、制御部出力信号を提供することと、
前記制御部出力信号からニューラルネットワークエンジン(NNE)出力信号を生成するために、前記制御部が、NNE回路を起動することと、
前記制御部出力信号および前記NNE回路出力信号の1つまたは複数を受信し、処理信号を生成するために、前記制御部が、デジタル信号処理(DSP)回路を起動することと、
を備え、
前記制御部は、1つまたは複数の予め定められたパラメータ、入来信号の特性、およびNNE回路のフィードバックのうちの1つまたは複数の関数として、前記制御部が前記制御部出力信号を前記DSPおよび/または前記NNE回路に渡す前記制御部出力信号の処理経路を決定する、
方法。
【請求項15】
1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに請求項14に記載の方法を実行させる機械可読命令を備えるコンピュータプログラム。
【国際調査報告】