(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-10-20
(54)【発明の名称】機械学習ベースの自己発話除去
(51)【国際特許分類】
H04R 3/00 20060101AFI20231013BHJP
H04R 1/10 20060101ALI20231013BHJP
G10L 21/0208 20130101ALI20231013BHJP
【FI】
H04R3/00 310
H04R1/10 101
H04R1/10 104
G10L21/0208 100B
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023519114
(86)(22)【出願日】2021-09-13
(85)【翻訳文提出日】2023-03-24
(86)【国際出願番号】 US2021050039
(87)【国際公開番号】W WO2022066456
(87)【国際公開日】2022-03-31
(32)【優先日】2020-09-25
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】591009509
【氏名又は名称】ボーズ・コーポレーション
【氏名又は名称原語表記】BOSE CORPORATION
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】マルコ・スタメノヴィチ
(72)【発明者】
【氏名】アンドリュー・トッド・サビン
(72)【発明者】
【氏名】ヤーン・ドミトリ・アイヒフェルト
【テーマコード(参考)】
5D220
【Fターム(参考)】
5D220AA02
5D220AB01
(57)【要約】
本発明は、ユーザの発話成分と雑音成分とを含むオーディオ信号を受信することと、発話成分をフィルタリングするために固有ユーザベクトルを利用する自己発話フィルタを用いてオーディオ信号をフィルタリングすることであって、固有ユーザベクトルが、オフライン訓練セッション中のユーザの音声入力に基づいて決定され、ユーザの発話パターンの固有圧縮表現を表す、ことと、ユーザの発話成分がオーディオ信号から実質的に除去されているフィルタリング済みオーディオ信号を出力することと、を含むプロセスに関する。固有ユーザベクトルは、複数の話者からの音声入力を用いた機械学習によって得られる。
【特許請求の範囲】
【請求項1】
聴覚支援デバイスのためにユーザ発話を除去する方法であって、
オーディオ信号を受信することであって、前記オーディオ信号が、前記ユーザの発話成分及び雑音成分を含む、ことと、
前記発話成分をフィルタリングするために固有ユーザベクトルを利用する自己発話フィルタを用いて前記オーディオ信号をフィルタリングすることであって、前記固有ユーザベクトルが、前記ユーザの音声入力に基づいて決定される、ことと、
前記ユーザの前記発話成分が前記オーディオ信号から実質的に除去されているフィルタリング済みオーディオ信号を出力することと、を含む、方法。
【請求項2】
前記固有ユーザベクトルが、オフラインセッション中に決定され、前記ユーザの発話パターンの固有圧縮表現を含む、請求項1に記載の方法。
【請求項3】
前記固有圧縮表現が、dベクトル表現又はiベクトル表現の一方を含む、請求項2に記載の方法。
【請求項4】
前記自己発話フィルタが、方法に従ってオフラインで訓練される機械学習モデルを備え、前記方法が、
各々が一意のユーザに対応する固有ユーザベクトルのセットと、各一意のユーザについての関連付けられた混合オーディオ信号とを提供することであって、前記関連付けられた混合オーディオ信号の各々が、前記一意のユーザの発話成分と、対応する雑音成分とを含む、ことと、
前記機械学習モデルに、選択された固有ユーザベクトルと前記関連付けられた混合オーディオ信号とを入力することと、
前記選択された固有ユーザベクトルに基づいて、前記関連付けられた混合オーディオ信号から前記発話成分を除去するように前記機械学習モデルを訓練することと、
各固有ユーザベクトルに対して前記入力すること及び前記訓練することを繰り返すことと、を含む、請求項1に記載の方法。
【請求項5】
前記フィルタリング済みオーディオ信号を後処理して、強調されたフィルタリング済みオーディオ信号を生成することと、
音響信号を生成するために、前記強調されたフィルタリング済みオーディオ信号を電気音響変換器に出力することと、
を更に含む、請求項1に記載の方法。
【請求項6】
前記後処理が、発話強調、信号対雑音比(SNR)改善、ビーム形成、又は能動的雑音低減のうちの少なくとも1つを含む、請求項5に記載の方法。
【請求項7】
前記聴覚支援デバイスが、少なくとも1つのイヤフォンを有する頭部装着デバイスと、前記頭部装着デバイスと通信するアクセサリデバイスとを備える、請求項1に記載の方法。
【請求項8】
前記自己発話フィルタが、前記アクセサリデバイスに含まれる、請求項7に記載の方法。
【請求項9】
前記自己発話フィルタが、前記頭部装着デバイスに含まれる、請求項7に記載の方法。
【請求項10】
前記聴覚支援デバイスが、アクセサリデバイスと通信するインイヤマイクロフォンを有するイヤフォンを含む、請求項7に記載の方法。
【請求項11】
前記固有ユーザベクトルを決定するために使用される前記オフラインセッションが、複数の話者からの音声入力のデータベースを使用して訓練された機械学習モデルを備える発話特徴付けシステムを利用する、請求項1に記載の方法。
【請求項12】
システムであって、
メモリと、
前記メモリに結合され、方法に従って聴覚支援デバイスのためのユーザ発話を除去するように構成されたプロセッサとを備え、前記方法が、
オーディオ信号を受信することであって、前記オーディオ信号が、前記ユーザの発話成分及び雑音成分を含む、ことと、
前記発話成分をフィルタリングするために固有ユーザベクトルを利用する自己発話フィルタを用いて前記オーディオ信号をフィルタリングすることであって、前記固有ユーザベクトルが、前記ユーザの音声入力に基づいて決定される、ことと、
前記ユーザの前記発話成分が前記オーディオ信号から実質的に除去されているフィルタリング済みオーディオ信号を出力することと、を含む、システム。
【請求項13】
前記固有ユーザベクトルが、オフラインセッション中に決定され、前記ユーザの発話パターンの固有圧縮表現を含む、請求項12に記載のシステム。
【請求項14】
前記固有圧縮表現が、dベクトル表現又はiベクトル表現の一方を含む、請求項13に記載のシステム。
【請求項15】
前記自己発話フィルタが、方法に従ってオフラインで訓練される機械学習モデルを含み、前記方法が、
各々が一意のユーザに対応する固有ユーザベクトルのセットと、
前記一意のユーザの各々に対して関連付けられた混合オーディオ信号であって、各々が前記一意のユーザの発話成分及び対応する雑音成分を含む、関連付けられた混合オーディオ信号とを提供することと、
前記機械学習モデルに、選択された固有ユーザベクトルと前記関連付けられた混合オーディオ信号とを入力することと、
前記選択された固有ユーザベクトルに基づいて、前記関連付けられた混合オーディオ信号から前記発話成分を除去するように前記機械学習モデルを訓練することと、
各固有ユーザベクトルに対して前記入力すること及び前記訓練することを繰り返すこととを含む、請求項12に記載のシステム。
【請求項16】
前記フィルタリング済みオーディオ信号を後処理して、強調されたフィルタリング済みオーディオ信号を生成することと、
音響信号を生成するために、前記強調されたフィルタリング済みオーディオ信号を電気音響変換器に出力することと、
を更に含む、請求項12に記載のシステム。
【請求項17】
前記後処理が、発話強調、信号対雑音比(SNR)改善、ビーム形成、又は能動的雑音低減のうちの少なくとも1つを備える、請求項16に記載のシステム。
【請求項18】
前記聴覚支援デバイスは、少なくとも1つのイヤフォンを有する頭部装着デバイスと、前記頭部装着デバイスと通信するアクセサリデバイスとを備える、請求項12に記載のシステム。
【請求項19】
前記自己発話フィルタが、前記アクセサリデバイス又は前記頭部装着デバイスのうちの一方に含まれる、請求項18に記載のシステム。
【請求項20】
前記イヤフォンが、前記アクセサリデバイスと通信するインイヤマイクロフォンを含む、請求項18に記載のシステム。
【請求項21】
前記固有ユーザベクトルを決定するために使用される前記オフラインセッションが、複数の話者からの音声入力のデータベースを使用して訓練された機械学習モデルを備える発話特徴付けシステムを利用する、請求項12に記載のシステム。
【請求項22】
前記自己発話フィルタが、信号対雑音比(SNR)改善、ビーム形成、又は能動的雑音低減から成る群から選択される少なくとも1つのオーディオ処理向上を含む、請求項12に記載のシステム。
【請求項23】
システムであって、
メモリと、
前記メモリに結合され、方法を実行するように構成されたプロセッサとを備え、前記方法が、
オーディオ信号を受信することであって、前記オーディオ信号が、非デバイスユーザのターゲット発話成分と雑音成分とを含む、ことと、
前記ターゲット発話成分を実質的に通過させるために固有ユーザベクトルを利用するターゲット発話エンハンサを用いて前記オーディオ信号をフィルタリングすることであって、前記固有ユーザベクトルが、前記非デバイスユーザの音声入力に基づいて決定される、ことと、
前記ターゲット発話成分のみを実質的に含む発話強調オーディオ信号を出力することと、を含む、システム。
【発明の詳細な説明】
【技術分野】
【0001】
優先権の主張
本出願は、2020年9月25日に出願された米国特許出願第17/032,801号に対する優先権を主張し、この特許出願は、その全体が参照により本明細書に組み込まれる。
【0002】
本開示は、概して、ウェアラブル聴覚支援デバイスに関する。より詳細には、本開示は、ウェアラブル聴覚支援デバイスにおいてユーザの音声信号を除去するための機械学習ベースの手法に関する。
【背景技術】
【0003】
ウェアラブル聴覚支援デバイスは、ユーザの聴覚体験を大幅に改善することができる。例えば、そのようなデバイスは、典型的には、1つ以上のマイクロフォン及び増幅構成要素を採用し、ユーザに話している他者の音声などの所望の音声(単数又は複数)を増幅する。加えて、そのようなデバイスは、望ましくない環境雑音に対抗するために、能動的雑音低減(ANR)などの技術を採用し得る。ウェアラブル聴覚支援デバイスは、様々なフォームファクタ、例えば、ヘッドフォン、イヤバッド、オーディオ眼鏡などであり得るが、ユーザ自身の音声信号などの不要な音響信号を除去することは、様々な技術的課題を提示し続けている。
【発明の概要】
【0004】
下記で言及される全ての実施例及び特徴は、任意の技術的に可能な方式で組み合わせることができる。
【0005】
ユーザの発話を除去するウェアラブル聴覚支援デバイスを採用するシステム及びアプローチが開示される。いくつかの実装形態は、オーディオ信号を受信することであって、オーディオ信号がユーザの発話成分と雑音成分とを含む、ことと、発話成分をフィルタリングするために固有ユーザベクトルを利用する自己発話フィルタを用いてオーディオ信号をフィルタリングすることであって、固有ユーザベクトルが、ユーザの音声入力に基づいて決定される、ことと、ユーザの発話成分がオーディオ信号から実質的に除去されているフィルタリング済みオーディオ信号を出力することと、を含む。
【0006】
追加の特定の実装形態では、メモリと、メモリに結合され、方法に従って聴覚支援デバイスのためのユーザ発話を除去するように構成されたプロセッサとを含むシステムが提供され、本方法は、オーディオ信号を受信することであって、オーディオ信号がユーザの発話成分と雑音成分とを含む、ことと、発話成分をフィルタリングするために固有ユーザベクトルを利用する自己発話フィルタを用いてオーディオ信号をフィルタリングすることであって、固有ユーザベクトルが、ユーザの音声入力に基づいて決定される、ことと、ユーザの発話成分がオーディオ信号から実質的に除去されているフィルタリング済みオーディオ信号を出力することと、を含む。
【0007】
実装形態は、以下の特徴のうちの1つ、又はそれらの任意の組み合わせを含み得る。
【0008】
場合によっては、固有ユーザベクトルは、オフラインセッション中に決定され、ユーザの発話パターンの固有圧縮表現を含む。
【0009】
他の場合には、固有圧縮表現は、dベクトル表現又はiベクトル表現の一方を含む。
【0010】
いくつかの態様では、自己発話フィルタは、方法に従ってオフラインで訓練される機械学習モデルを含み、本方法は、各々が一意のユーザに対応する固有ユーザベクトルのセットと、一意のユーザの各々に対して関連付けられた混合オーディオ信号とを提供することであって、各関連付けられた混合オーディオ信号が、一意のユーザの発話成分と対応する雑音成分とを含む、ことと、機械学習モデルに、選択された固有ユーザベクトルと関連付けられた混合オーディオ信号とを入力することと、選択された固有ユーザベクトルに基づいて、関連付けられた混合オーディオ信号から発話成分を除去するように機械学習モデルを訓練することと、各固有ユーザベクトルについて入力することと訓練することとを繰り返すことと、を含む。
【0011】
特定の実装形態では、本方法は、フィルタリング済みオーディオ信号を後処理して、強調されたフィルタリング済みオーディオ信号を生成することと、音響信号を生成するために、強調されたフィルタリング済みオーディオ信号を電気音響変換器に出力することとを含む。
【0012】
場合によっては、後処理は、発話強調、信号対雑音比(SNR)改善、ビーム形成、又は能動的雑音低減のうちの少なくとも1つを含む。
【0013】
特定の態様では、聴覚支援デバイスは、少なくとも1つのイヤフォンを有する頭部装着デバイスと、頭部装着デバイスと通信するアクセサリデバイスとを含む。
【0014】
いくつかの実装形態では、自己発話フィルタは、アクセサリデバイス内に含まれる。
【0015】
特定の場合には、自己発話フィルタは、頭部装着デバイスに含まれる。
【0016】
いくつかの実装形態では、オフラインセッションが、複数の話者からの音声入力のデータベースを使用して訓練された機械学習モデルを含む発話特徴付けシステムを用いて、固有ユーザベクトルを決定するために使用される。
【0017】
いくつかの態様では、自己発話フィルタは、信号対雑音比(SNR)改善、ビーム形成、又は能動的雑音低減から成る群から選択される少なくとも1つのオーディオ処理向上を含む。
【0018】
他の態様では、オーディオ信号を受信することであって、オーディオ信号が、非デバイスユーザのターゲット発話成分と雑音成分とを含む、ことと、ターゲット発話成分を実質的に通過させるために固有ユーザベクトルを利用するターゲット発話エンハンサを用いてオーディオ信号をフィルタリングすることであって、固有ユーザベクトルが、非デバイスユーザの音声入力に基づいて決定される、ことと、ターゲット発話成分のみを実質的に含む発話強調オーディオ信号を出力することと、を含む方法を実行するシステムが提供される。
【0019】
本概要の項に記載される特徴を含む、本開示に記載される特徴の2つ以上は、本明細書に具体的に記載されていない実装形態を形成するために組み合わされ得る。
【0020】
1つ以上の実装形態の詳細が、添付図面及び以下の説明において記載される。他の特徴、目的、及び利点は、本説明及び図面から、並びに特許請求の範囲から明らかになるであろう。
【図面の簡単な説明】
【0021】
【
図1】様々な実装形態による、ウェアラブル聴覚支援デバイスのブロック図である。
【
図2】様々な実装形態による、自己発話除去を実装するための機械学習プラットフォームを示す。
【
図3】様々な実装形態による、自己発話除去を実行するための代替の機械学習プラットフォームを示す。
【
図4】様々な実装形態による、ターゲット発話強調を実行するための機械学習プラットフォームを示す。
【
図5】様々な実装形態による、ウェアラブル聴覚支援デバイスの一例を示す。
【0022】
様々な実装形態の図面は、必ずしも縮尺どおりではないことに留意されたい。図面は、本開示の典型的な態様のみを示すことを意図するものであり、したがって、実装形態の範囲を限定するものとみなされるべきではない。図面において、同様の番号付けは、図面間の同様の要素を表す。
【発明を実施するための形態】
【0023】
様々な実装形態は、ウェアラブル聴覚支援デバイスにおいてユーザ自身の音声を除去する(「自己発話除去」)ための解決策を説明する。一般に、聴覚支援デバイスを使用するとき、ユーザは、ユーザ自身の音声の増幅に悩まされる、又は他の形でいらいらさせられる可能性がある。しかしながら、他者の音声の増幅は可聴性にとって重要である。
【0024】
補聴器、オーディオ拡張現実システム、(例えば、電話又は他のデバイスから)ヘッドフォンにストリーミングする遠隔マイクロフォンを利用するシステムなどの聴覚支援デバイスでは、音は、2つの異なる経路を介して耳に送信される。第1の経路は「直接経路」であり、音はデバイス又はヘッドフォンの周りを進み、外耳道に直接入る。第2の「処理経路」では、オーディオは、聴覚支援デバイス又はヘッドフォンを通って進み、処理され、次いで、ドライバ(すなわち、静電変換器又はスピーカ)を通って外耳道に送達される。
【0025】
人間が消費するためにリアルタイムオーディオを処理するときの任意の聴覚支援デバイスの性能における重要な要因は、処理経路に沿って信号を処理するアルゴリズムによって生じる待ち時間である。待ち時間は、オーディオがデバイスに入ってから出るまでの間の遅延(通常、ミリ秒で測定される)として定義される。システムにおける過度の待ち時間は、アルゴリズムの知覚される品質、及びユーザ体験を著しく劣化させる可能性がある。
【0026】
システム全体の待ち時間が特定の閾値(例えば、5~20ミリ秒程度)を超える場合、ユーザを大いに困惑させ、悩ませるおそれがある。より正確には、この閾値は、処理経路における自身の音声の待ち時間に対する人間の感度によって決定される。しかしながら、ユーザ自身の音声が処理経路内に存在しない場合、ユーザは待ち時間をはるかに良好に許容することができ、全体のシステム待ち時間閾値は著しく(例えば、約80~150msまで)増加する。
【0027】
本開示は、機械学習ベースの処理を使用して、処理経路からユーザ自身の音声(すなわち、自己発話)を除去し、それによって、オーディオ処理のための待ち時間バジェットを効果的に増加させるための実装形態について説明する。
【0028】
聴覚支援デバイスに関して全般的に説明したが、本明細書に開示される解決策は、多種多様なウェアラブルオーディオデバイス、すなわち、ユーザの少なくとも一方の耳の近くでユーザによって少なくとも部分的に装着されて、少なくとも一方の耳に対して増幅されたオーディオを提供するように構造化されたデバイスに適用可能であることが意図される。他のそのような実装形態は、ヘッドフォン、双方向通信ヘッドセット、イヤフォン、イヤバッド、補聴器、オーディオ眼鏡、無線ヘッドセット(「イヤセット」としても知られる)、及びイヤプロテクタを含み得る。特定の実装形態の提示は、例の使用を通して理解を容易にするように意図されており、開示の範囲又は特許請求の範囲の適用範囲のいずれかを限定するものとして解釈されるべきではない。
【0029】
更に、本明細書に開示される解決策は、双方向オーディオ通信、一方向オーディオ通信(すなわち、別のデバイスによって電子的に提供されるオーディオの音響出力)、又は通信なしを提供するウェアラブルオーディオデバイスに適用可能である。更に、本明細書に開示されることは、他のデバイスに無線で接続される、電気的及び/又は光学的に導電性のケーブルを介して他のデバイスに接続される、又はいずれの他のデバイスにも接続されていないウェアラブルオーディオデバイスに適用可能である。これらの教示は、1つ若しくは2つのイヤピース付きヘッドフォン、オーバーヘッドヘッドフォン、ビハインドネックヘッドフォン、通信マイクロフォン(例えば、ブームマイクロフォン)付きヘッドセット、インイヤ若しくはビハインドイヤ補聴器、無線ヘッドセット(すなわち、イヤセット)、オーディオ眼鏡、単独イヤフォン若しくは一対のイヤフォンだけでなく、帽子、ヘルメット、衣服、又は1つ若しくは2つのイヤピースを組み込んでオーディオ通信及び/又は耳保護を可能にする任意の物理的構造を含むが、それらに限定されない、ユーザの片耳又は両耳のいずれかの近くに着用されるように構成された物理的構造を有するウェアラブルオーディオデバイスに適用可能である。
【0030】
例示的な実装形態では、処理済みオーディオは、任意の自然音又は人工音(又は音響信号)を含み得、マイクロフォンは、音を捕捉して電子信号に変換することが可能な1つ以上のマイクロフォンを含み得る。
【0031】
様々な実装形態では、本明細書で説明するウェアラブルオーディオデバイス(例えば、聴覚支援デバイス)は、場合によってはパススルーオーディオ及びダイナミックレンジ圧縮などの典型的な補聴器信号処理を介して処理されたオーディオを更に提供することに加えて、フィードバックベースのANR及びフィードフォワードベースのANRの一方又は両方を含み得る能動的雑音低減(ANR)機能を組み込むことができる。
【0032】
加えて、本明細書に開示される解決策は、多種多様なアクセサリデバイス、すなわち、ウェアラブルオーディオデバイスと通信し、オーディオ信号の処理を支援することができるデバイスに適用可能であることが意図される。例示的なアクセサリデバイスは、スマートフォン、モノのインターネット(IoT)デバイス、コンピューティングデバイス、専用電子機器、車両、コンピュータ化されたエージェント、携帯用ケース、充電ケース、スマートウォッチ、他のウェアラブルデバイスなどを含む。
【0033】
様々な実装形態では、ウェアラブルオーディオデバイス(例えば、聴覚支援デバイス)及びアクセサリデバイスは、例えば、Bluetooth(登録商標)又は他の無線プロトコルを使用して無線通信する。いくつかの実装形態では、ウェアラブルオーディオデバイス及びアクセサリデバイスは、互いに数メートル以内に存在する。
【0034】
図1は、機械学習(ML)ベースのアプローチを利用して、自己発話118が除去又は実質的に除去された処理済みオーディオ信号126を出力するウェアラブル聴覚支援デバイス100の例示的な実装形態を示す。図示されるように、デバイス100は、自己発話118と雑音120との混合を含む混合音響入力115を受信するように構成されたマイクロフォン114のセットを含む。雑音120は、一般に、自己発話118以外の全ての他の音響入力、例えば、他の発話、背景音声、環境音、音楽などを含む。マイクロフォン入力116は、マイクロフォン114から混合オーディオ信号を受信し、混合オーディオ信号128をオーディオ処理システム102に渡す。
【0035】
オーディオ処理システム102は、混合オーディオ信号128を処理するように構成された訓練済み機械学習(ML)モデルを含む自己発話フィルタ104を含む。より具体的には、自己発話フィルタ104は、例えば、ユーザの音声に基づいて登録プロセス(又は段階)122中に作成された固有ユーザベクトル112を使用して、ユーザの自己発話118を除去する。いくつかの実装形態では、ユーザの発話パターンの固有圧縮表現を含む固有ユーザベクトル112は、登録プロセス122中に決定される。他の実装形態では、固有ユーザベクトル112は、デバイス100によって計算することができる。固有ユーザベクトル112及び自己発話フィルタ104を生成するためのMLプロセスは、例えば
図2を参照して、本明細書で更に説明される。いったん混合オーディオ信号128が、ユーザ(すなわち、ウェアラブル聴覚支援デバイス100のユーザ)の自己発話を除去するために自己発話フィルタ104で処理されると、後処理アルゴリズム106は、例えば、発話強調、信号対雑音(SNR)改善、ビーム形成、能動的雑音低減などを提供することによって、フィルタリング済み信号を更に強調することができる。次いで、結果として生じる信号は、増幅器システム108によって増幅され、電気音響変換器124を介して出力される。
【0036】
図2は、デバイス100(
図1)と共に示されるものなど、自己発話フィルタ104を実装し、固有ユーザベクトル112を計算するために利用される機械学習ベースのプロセスの例示的な概要を示す。プロセスは、オフライン訓練段階、登録段階、及び推論段階を含む3つの段階で実装され得る。推論段階の実装が
図1に記載されており、デバイス100は、ユーザによるデバイス100の動作中にユーザの自己発話をフィルタリングする。登録段階は、例えば、新しいユーザがデバイス100を使用し始めるときに、1回限りの動作又は必要に応じた動作として実施することができる。様々な実装形態では、オフライン訓練段階は、他の段階、すなわち、発話特徴付けシステム103及び自己発話フィルタ104に必要とされる2つのMLベースのモデルを訓練することを担う。
【0037】
特定の実装形態では、発話特徴付けシステム103(第1のモデル)は、例えば、ニューラルネットワークなどを使用して、ユーザ発声データベース(DB)202及び関連する固有ユーザベクトルDB204を用いて訓練される。例えば、第1のモデルは、ユーザ発声/予想固有ユーザベクトル対を用いて訓練することができる。ユーザ発声は、固有ユーザベクトルを生成するために発話特徴付けシステム103に入力される。生成された固有ユーザベクトルは、固有ユーザベクトルDB204からの予想固有ユーザベクトルと比較することができ、その結果が、第1のモデルを調整するためにフィードバックされる。訓練は、モデルに入力されたユーザ発声データベース(DB)202からの各ユーザ発声が、その予想固有ユーザベクトルを確実に出力するまで継続することができる。訓練されると、結果として生じる発話特徴付けシステム103は、登録段階において使用されて、新しい(又は登録する)ユーザの発声を、新しいユーザに明示的に関連付けられる固有ユーザベクトル112にマッピングすることができる。固有ユーザベクトル112は、一般に、ユーザの発話パターンの固有圧縮表現からなる。固有圧縮表現は、例えば、dベクトル表現又はiベクトル表現を含み得る。当技術分野で容易に理解されるように、ユーザの音声サンプルに基づいてdベクトル及びiベクトルを抽出するための様々なアルゴリズムが存在する。
【0038】
同様にニューラルネットワークなどを使用してオフラインで訓練される自己発話フィルタ104(第2のモデル)は、人の固有ユーザベクトルを使用して、混合オーディオ信号(すなわち、自己発話118と雑音120の両方を含むオーディオ信号)から人の発話を除去するように訓練される。例えば、このモデルは、自己発話フィルタリング済み信号を取得するために、関連付けられた固有ユーザベクトルと共に混合オーディオ信号DB206から混合オーディオ信号を入力することによって訓練することができ、自己発話フィルタリング済み信号は、自己発話フィルタリング済み信号データベース208内の予想信号と比較することができる。結果をフィードバックして、第2のモデルを調節及び調整することができる。訓練されると、結果として生じる自己発話フィルタ104は、推論段階において(例えば、デバイス100上で)展開することができる。
【0039】
登録段階の間、ユーザは、例えば、予め定義された発声のセットを話す自身の短いオーディオクリップを記録するように指示される。これは、デバイス100自体、又は携帯電話若しくはコプロセッサなどのアクセサリデバイス上で行うことができる。記録がユーザの音声のみを含み、他の干渉するオーディオ又は発話を含まないことを確実にするために、システム又はガイダンスが利用されてもよい。例えば、ユーザは、静かな空間内で発声を行うように指示されてもよく、及び/又は結果として生じるオーディオクリップは、望ましくない雑音が存在しないことを確実にするために分析されることができる。次いで、記録された登録発声は、発話特徴付けシステム103(デバイス100自体上、コンパニオンデバイス上、クラウド内などのいずれか)を通過し、登録ユーザの固有ユーザベクトル112が抽出される。
【0040】
固有ユーザベクトル112が抽出されると、それは、例えば、デバイス100上にロード及び記憶され、推論段階を実行することができる。この段階の間、ユーザの自己発話212を含む混合オーディオは、まず、ユーザの固有ベクトル112と共に自己発話フィルタ104に送られて、処理経路からユーザ自身の音声を除去する。結果として生じる自己発話フィルタリング済みオーディオ214は、次いで、発話強調、SNR改善、ビーム形成、ANRなどの任意の下流後処理アルゴリズム106に渡される。最後に、自己発話フィルタリングされた強調オーディオ218は、ユーザの外耳道内で再生されるようにドライバに送信される。
【0041】
ユーザ自身の音声が推論段階中に処理経路から除去されているという事実により、ユーザは、自己発話を含むオーディオ信号を用いる場合よりもはるかに高い処理待ち時間を許容することができる。待ち時間に対するこの高い許容性は、アルゴリズム処理からだけでなくオーディオの無線送信からの待ち時間を累積する、より複雑な下流後処理アルゴリズム106、例えば、スマートフォン又は無線コプロセッサデバイスなどのアクセサリ上で実装されるアルゴリズムを可能にする。
【0042】
図3は、
図2の自己発話フィルタ104及び後処理アルゴリズム106が単一のシステム、すなわち自己発話フィルタ及び後処理システム105に組み合わされる代替の実施形態を示す。このようにして、発話強調、SNR改善、ビーム形成、ANRなどの処理向上が、単一のシステム又は機械学習訓練モデルによって対処される。
【0043】
図4は、同様の機械学習プラットフォームが、独立型として、又は本明細書で説明される自己発話フィルタリングプラットフォームに加えて、発話強調オーディオ215を提供するために利用される、更なる実装形態を示す。この場合、プラットフォームは、1人以上の非デバイスユーザからの発話(すなわち、ターゲット発話)を渡すように設計された固有ユーザベクトルを作成する。固有ユーザベクトル(すなわち、
図2の自己発話フィルタ104)に対応する発話を除去するようにモデルを訓練する代わりに、モデル、この場合はターゲット発話エンハンサ107は、非デバイスユーザのターゲット発話を保持するように訓練される。ターゲット発話エンハンサ107は、(ターゲット発話及び雑音を含む)混合オーディオ信号を関連する固有ユーザベクトルで処理して、ターゲット発話のみを含む発話強調オーディオ209を確実に生成することによって訓練される。発話特徴付けシステム103は、自己発話フィルタリングプラットフォームと同じように訓練される。
【0044】
したがって、デバイス101のユーザは、相手を発話特徴付けシステム103に登録し、相手の固有ユーザベクトル112をターゲット発話エンハンサ107にロードすることによって、その相手からの発話のみを聞くことを選択することができる。相手の発話、すなわちターゲット発話を含む混合オーディオ213がデバイス101に提示されると、ターゲット発話エンハンサ107は、実質的に相手の発話のみを含む発話強調オーディオ215を生成する。その後、処理済みの強調オーディオ219が、後処理アルゴリズム106から生成され得る。代替の実施形態では、後処理アルゴリズム106は、ターゲット発話エンハンサ107に組み込まれ得る。
【0045】
プロセスは、各々が固有ユーザベクトル112を生成する複数のユーザを登録することによって、発話が通過することを許可される複数のターゲットに対処するように拡張され得る。次に、複数の固有ユーザベクトル112をターゲット発話エンハンサ107に入力することができる。
【0046】
様々な実装形態に従って図示され記載されるデバイス100、101(
図1~
図4)は、ユーザの耳のうちの少なくとも一方の近傍にオーディオ出力を提供するためにユーザによって装着されるように構造化され得ると理解されたい。デバイス100、101は、ユーザの片耳のみにオーディオを提供するために単一のイヤピースを組み込んだ構成、ユーザの両耳にオーディオを提供するための一対のイヤピースを組み込んだ他の構成、ユーザの周囲の環境にオーディオを提供するために1つ以上のスタンドアロンスピーカを組み込んだ他の構成など、いくつかのフォームファクタのうちの任意の構成を有し得る。例示的なウェアラブルオーディオデバイスは、米国特許第10,194,259号(2018年2月28日に出願された「Directional Audio Selection」)に更に詳細に図示及び説明されており、その全体が参照により本明細書に組み込まれる。
【0047】
例示的な実装形態では、音響入力115(
図1)は、例えば自然音若しくは人工音(又は音響信号)を含む、ウェアラブル聴覚支援デバイスのユーザによって生成された音響信号を含む、任意の周囲音響信号を含み得る。マイクロフォン114は、音を捕捉して電子信号に変換することが可能な1つ以上のマイクロフォン(例えば、フィードフォワードマイクロフォン及び/又はフィードバックマイクロフォンを含む1つ以上のマイクロフォンアレイ)を含み得る。
【0048】
聴覚支援デバイスにおいてユーザの音声を除去することに関していくつかの例を本明細書で提供してきたが、他の手法、又は説明した手法の組み合わせを使用することができると理解されたい。
【0049】
図5は、ハウジング302内に収容された自己発話除去システムを含む例示的なウェアラブル聴覚支援デバイス300(一例ではフォームファクタ)の概略図である。例示的なウェアラブル聴覚支援デバイス300は、
図1~
図4を参照して図示及び説明したデバイス100、101に関して説明した構成要素及び機能の一部又は全部を含むことができることを理解されたい。自己発話除去システム及び/又はターゲット発話エンハンサは、ハウジング302内の種々の電子機器304のうちの1つであることができ、又はそれらのうちの1つ以上で実行することができる。特定の実施形態では、自己発話又は拡張アルゴリズムの一部又は全部は、ウェアラブル聴覚支援デバイス300と通信するように構成されたアクセサリ330に実装されてもよい。本実施例では、ウェアラブルオーディオデバイス300は、2つのイヤフォン(例えば、「イヤバッド」とも呼ばれるインイヤヘッドフォン)312、314を含むオーディオヘッドセットである。イヤフォン312、314は、ユーザの首に載置されるように構成されたハウジング302(例えば、ネックバンド)に繋がれているが、無線構成を含む他の構成も利用することができる。図示される各イヤフォン312、314は、1つ以上のプラスチック又は複合材料で形成されたケースを含むことができる本体316を含む。本体316は、ユーザの外耳道入口に挿入するためのノズル318と、ユーザのインイヤの静止位置にノズル318を保持するための支持部材320とを含むことができる。自己発話除去システムに加えて、制御ユニット302は、他の電子機器304、例えば、増幅器、バッテリ、ユーザ制御、音声活動検出(VAD)デバイスなどを含むことができる。
【0050】
いくつかの実装形態では、上記のように、別個のアクセサリ330は、例えばデバイス300と無線通信するための通信システム332を含むことができ、本明細書で説明する機能の一部又は全部、例えば自己発話フィルタ104、登録プロセス122、後処理アルゴリズム106などを提供するための遠隔処理334を含む。アクセサリ330は、多くの実施形態で実装することができる。一実施形態では、アクセサリ330は、スタンドアロンデバイスを含む。別の実施形態では、アクセサリ330は、通信システム332のためにスマートフォンハードウェアを使用しながら遠隔処理334を可能にするソフトウェアアプリケーションを利用するユーザ供給スマートフォンを含む。別の実施形態では、アクセサリ330は、デバイス300の充電ケース内に実装することができる。別の実施形態では、アクセサリ330は、コンパニオンマイクロフォンアクセサリ内に実装することができ、コンパニオンマイクロフォンアクセサリは、オフヘッドビーム形成及びビーム形成されたオーディオのデバイス300への無線ストリーミングなどの他の機能も実行する。また、同様に、アラウンドイヤヘッドフォン、オーディオ眼鏡、オープンイヤオーディオデバイスなどの他のウェアラブルデバイス形態も実装することができる。
【0051】
図1を参照すると、マイクロフォンのセット114は、インイヤマイクロフォンを含み得る。
図5を参照すると、そのようなインイヤマイクロフォンは、イヤフォン本体316内に、例えばノズル318内に一体化することができる。インイヤマイクロフォンはまた、フィードバック能動的雑音低減(ANR)及び通信のための音声ピックアップを実行するために使用することができ、これは他の電子機器304内で実行され得る。耳道内のユーザ自身の音声は、自身の音声の骨及び組織伝導に起因して、外耳道の外側に配置されたマイクロフォンから受信されるものとは実質的に異なる。
図2を参照すると、インイヤマイクロフォンは、セット114内の他のマイクロフォンと共に、混合オーディオ信号DB206、ユーザ登録発声210、及びユーザの自己発話212を含む混合オーディオに固有の特性を提供することができる。同時に、インイヤ及びアウトイヤマイクロフォンは、発話特徴付けシステム103により多くの情報を提供し、自己発話フィルタ104の性能を向上させる。
【0052】
様々な実装形態によれば、性能を向上させるためにユーザの自己発話をフィルタリングする聴覚支援デバイスが提供される。特に、固有ユーザベクトル112を利用する自己発話フィルタ104は、混合オーディオ信号からユーザの音声を除去する。
【0053】
記載されるシステムの機能のうちの1つ以上は、ハードウェア及び/又はソフトウェアとして実装され得、様々な構成要素は、任意の従来の手段(例えば、有線及び/又は無線接続)によって構成要素を接続する通信経路を含み得ることが理解される。例えば、1つ以上の不揮発性デバイス(例えば、フラッシュメモリデバイスなどの集中型又は分散型デバイス)は、1つ以上の記載されたデバイスのシステムのプログラム、アルゴリズム、及び/又はパラメータを記憶及び/又は実行することができる。また、本明細書に記載される機能性又はその部分、及びその様々な修正(以下「機能」)は、少なくとも部分的にコンピュータプログラム製品(例えば、1つ以上のデータ処理装置(例えば、プログラム可能プロセッサ、コンピュータ、複数のコンピュータ、及び/又はプログラム可能論理構成要素など)の動作による実行のための、又はその動作を制御するための、1つ以上の非一時的機械可読媒体などの情報担体において有形に具現化されたコンピュータプログラム)を介して実装され得る。
【0054】
コンピュータプログラムは、コンパイル型言語又はインタプリタ型言語を含む任意の形態のプログラム言語で書き得るが、それは、独立型プログラムとして、又はコンピューティング環境での使用に好適なモジュール、構成要素、サブルーチン若しくは他のユニットとして含む任意の形態で配設され得る。コンピュータプログラムは、1つのコンピュータ上で、若しくは1つの設置先における複数のコンピュータ上で実行されるように配設され得るか、又は複数の設置先にわたって配信されて、ネットワークによって相互接続され得る。
【0055】
機能の全部又は一部を実行することと関連付けられたアクションは、機能を実施するために1つ以上のコンピュータプログラムを実行する1つ以上のプログラム可能なプロセッサによって実施され得る。機能の全部又は一部は、特殊目的論理回路、例えば、FPGA(field programmable gate array、フィールドプログラマブルゲートアレイ)及び/又はASIC(application-specific integrated circuit、特定用途向け集積回路)として実装され得る。コンピュータプログラムの実行に好適なプロセッサとしては、例として、汎用マイクロプロセッサ及び特殊目的マイクロプロセッサの両方並びに任意の種類のデジタルコンピュータの任意の1つ以上のプロセッサが挙げられる。一般に、プロセッサは、読み出し専用メモリ、ランダムアクセスメモリ、又はそれらの両方から命令及びデータを受信し得る。コンピュータの構成要素は、命令を実行するためのプロセッサ並びに命令及びデータを記憶するための1つ以上のメモリデバイスを含む。
【0056】
本明細書で説明される実装形態は、入力信号を収集するためにマイクロフォンシステムを利用するが、任意のタイプのセンサ、例えば、加速度計、温度計、光学センサ、カメラなどが、入力信号を収集するためにマイクロフォンシステムとは別個に又はそれに加えて利用され得ることが理解されることに留意されたい。
【0057】
更に、本明細書に記載の機能の全て又は一部を実装することに関連付けられたアクションは、1つ以上のネットワーク化されたコンピューティングデバイスによって実行され得る。ネットワーク化コンピューティングデバイスは、ネットワーク、例えば、ローカルエリアネットワーク(local area network、LAN)、広域ネットワーク(wide area network、WAN)、パーソナルエリアネットワーク(personal area network、PAN)、インターネット接続デバイス、及び/又はネットワークなどの1つ以上の有線及び/又は無線ネットワーク、及び/又はクラウドベースのコンピューティング(例えば、クラウドベースのサーバ)を介して接続することができる。
【0058】
様々な実装形態では、「連結された」と記載される電子構成要素は、これらの電子構成要素が互いにデータを通信することができるように、従来の有線及び/又は無線手段を介してリンクさせることができる。更に、所与の構成要素内の下位構成要素は、従来の経路を介してリンクされていると考えることができるが、必ずしも図示されない。
【0059】
複数の実装形態を説明してきた。それにもかかわらず、本明細書に記載される本発明の概念の範囲から逸脱することなく追加の改変を行うことができ、したがって、他の実装形態も以下の特許請求の範囲の範疇にあることが理解される。
【符号の説明】
【0060】
100 ウェアラブル聴覚支援デバイス
102 オーディオ処理システム
103 発話特徴付けシステム
104 自己発話フィルタ
105 後処理システム
106 後処理アルゴリズム
107 ターゲット発話エンハンサ
108 増幅器システム
112 固有ユーザベクトル
112 固有ベクトル
114 マイクロフォン
115 混合音響入力
116 マイクロフォン入力
118 自己発話
120 雑音
122 登録プロセス
124 電気音響変換器
126 オーディオ信号
128 混合オーディオ信号
202 ユーザ発声データベース(DB)
208 信号データベース
209 発話強調オーディオ
210 ユーザ登録発声
212 自己発話
213 混合オーディオ
214 オーディオ
215 発話強調オーディオ
218 処理済み強調オーディオ
300 ウェアラブル聴覚支援デバイス
302 制御ユニット
304 電子機器
312、314 イヤフォン
316 本体
318 ノズル
320 支持部材
330 アクセサリ
332 通信システム
334 遠隔処理
【国際調査報告】