(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-05
(45)【発行日】2024-04-15
(54)【発明の名称】メディア補償パススルーデバイスにおける動的環境オーバレイ不安定性の検出と抑制
(51)【国際特許分類】
H04R 3/02 20060101AFI20240408BHJP
H04R 3/04 20060101ALI20240408BHJP
【FI】
H04R3/02
H04R3/04
(21)【出願番号】P 2021512774
(86)(22)【出願日】2019-09-09
(86)【国際出願番号】 US2019050241
(87)【国際公開番号】W WO2020051593
(87)【国際公開日】2020-03-12
【審査請求日】2022-07-20
(32)【優先日】2018-09-07
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2019-05-31
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ディキンズ,グレン エヌ.
(72)【発明者】
【氏名】ランドー,ジョシュア ブランドン
(72)【発明者】
【氏名】ジャスパー,アンディ
(72)【発明者】
【氏名】ブラウン,シー.フィリップ
(72)【発明者】
【氏名】ウィリアムズ,フィリップ
【審査官】菊池 智紀
(56)【参考文献】
【文献】特開2003-032780(JP,A)
【文献】国際公開第2017/218621(WO,A1)
【文献】浦威史 他,"ハウリング制御のための信号処理に関する研究",日本音響学会講演論文集-春I-,1999年03月10日,pp.457-458
(58)【調査した分野】(Int.Cl.,DB名)
H04R 3/00-3/14
(57)【特許請求の範囲】
【請求項1】
音声デバイスであって、
インタフェースシステムと、
少なくとも1つの
ヘッドホンマイクロホンを含むマイクロホンシステムと、
少なくとも1つの
ヘッドホンスピーカを含むスピーカシステムと、
制御システムであって、
前記インタフェースシステムを介して、メディアストリームに対応するメディア入力音声データを受信するステップと、
前記インタフェースシステムを介して、前記マイクロホンシステムからマイクロホン入力音声データを受信するステップと、
前記メディア入力音声データの複数の周波数帯域に対するメディア音声ゲインを決定するステップと、
前記マイクロホン入力音声データの複数の周波数帯域に対するマイクロホン音声ゲインを決定するステップと、
前記メディア入力音声データの前記複数の周波数帯域で前記メディア入力音声データに前記メディア音声ゲインを適用することによってメディア出力音声データを生成するステップと、
前記マイクロホン入力音声データの前記複数の周波数帯域で前記マイクロホン入力音声データに前記マイクロホン音声ゲインを適用することによってマイクロホン出力音声データを生成するステップと、
前記メディア出力音声データと、前記マイクロホン出力音声データとを混合して、混合音声データを生成する、ステップと、
前記混合音声データを前記スピーカシステムに提供するステップと、
のために構成されている制御システムと、を備え、
前記制御システムはさらに、
前記マイクロホン入力音声データの少なくとも
1つの周波数帯域に対して、前記マイクロホンシステムのうちの少なくとも1つの
ヘッドホンマイクロホンと、前記スピーカシステムのうちの少なくとも1つの
ヘッドホンスピーカとの間のフィードバックのリスクに対応するフィードバックリスク制御値を決定するステップと、
前記フィードバックリスク制御値に少なくとも部分的に基づいて、前記マイクロホン入力音声データの少なくとも
1つの周波数帯域に対して、前記マイクロホン音声ゲインを決定するステップと、
のために構成されており、
前記制御システムはさらに、
時間Tにおいて受信されるマイクロホン音声データの少なくとも一部に予測フィルタを適用して、時間T+Nに対する予測マイクロホン音声データを生成するステップと、
予測マイクロホン音声データ及び実際のマイクロホン音声データの複数のインスタンスに基づいて、現在フィードバックリスク傾向を決定するステップと、
前記現在フィードバックリスク傾向と先行するフィードバックリスク傾向との間の差分を決定するステップと、
前記現在フィードバックリスク傾向と前記先行するフィードバックリスク傾向との間の差分に少なくとも部分的に基づいて、前記フィードバックリスク制御値を決定するステップと、
のために構成されている、
音声デバイス。
【請求項2】
前記フィードバックリスク制御値を決定するステップは、
前記少なくとも1つの周波数帯域における前記マイクロホン入力音声データの振幅の増加を検出するステップを含み、
前記振幅の増加はフィードバックリスク閾値以上である、
請求項1記載の音声デバイス。
【請求項3】
前記フィードバックリスク制御値を決定するステップは、
フィードバック時間窓内での振幅の増加を検出するステップを含む、
請求項2記載の音声デバイス。
【請求項4】
前記フィードバックリスク制御値を決定するステップは、
音声デバイス取り外し表示を受信するステップと、
前記音声デバイス取り外し表示に少なくとも部分的に基づいて音声デバイス取り外しリスク値を決定するステップと、を含み、
前記音声デバイス取り外しリスク値は、前記音声デバイスがユーザの頭部から少なくとも部分的に取り外しされたか又は取り外しされるリスクに対応する、
請求項1乃至3いずれか1項記載の音声デバイス。
【請求項5】
前記音声デバイス取り外し表示は、
前記音声デバイスの加速度を示す慣性センサデータ、
前記音声デバイスの位置変更を示す慣性センサデータ、
前記音声デバイスとの接触を示すタッチセンサデータ、
前記音声デバイスとの起こり得る
接触を示す近接センサデータ、及び
前記音声デバイスの取り外しに対応するユーザ入力データ、
からなるファクタのリストから選択される1つ以上のファクタに少なくとも部分的に基づく、
請求項4記載の音声デバイス。
【請求項6】
前記音声デバイス取り外し表示は、
前記音声デバイスの左側
ヘッドホンスピーカによって再生される音声に対応する、前記音声デバイスの左側外部
ヘッドホンマイクロホンからのマイクロホン音声データ、
前記音声デバイスの右側
ヘッドホンスピーカによって再生される音声に対応する、前記音声デバイスの右側外部
ヘッドホンマイクロホンからのマイクロホン音声データ、
前記音声デバイスの右側
ヘッドホンスピーカによって再生される音声に対応する、前記音声デバイスの左側内部
ヘッドホンマイクロホンからのマイクロホン音声データ、
前記音声デバイスの左側
ヘッドホンスピーカによって再生される音声に対応する、前記音声デバイスの右側内部
ヘッドホンマイクロホンからのマイクロホン音声データ、
からなるファクタのリストから選択される1つ以上のファクタに少なくとも部分的に基づく、
請求項4記載の音声デバイス。
【請求項7】
前記フィードバックリスク制御値を決定するステップは、
不適切な位置決め表示を受信するステップと、
前記不適切な位置決め表示に少なくとも部分的に基づいて不適切な位置決めリスク値を決定するステップと、を含み、
前記不適切な位置決めリスク値は、前記音声デバイスがユーザの頭部に不適切に位置決めされるリスクと対応する、
請求項1乃至3いずれか1項記載の音声デバイス。
【請求項8】
前記不適切な位置決め表示は、
前記音声デバイスの左側
ヘッドホンスピーカによって再生される音声に対応する、前記音声デバイスの左側外部
ヘッドホンマイクロホンからのマイクロホン音声データ、
前記音声デバイスの右側
ヘッドホンスピーカによって再生される音声に対応する、前記音声デバイスの右側外部
ヘッドホンマイクロホンからのマイクロホン音声データ、
前記音声デバイスの右側
ヘッドホンスピーカによって再生される音声に対応する、前記音声デバイスの左側内部
ヘッドホンマイクロホンからのマイクロホン音声データ、
前記音声デバイスの左側
ヘッドホンスピーカによって再生される音声に対応する、前記音声デバイスの右側内部
ヘッドホンマイクロホンからのマイクロホン音声データ、
からなるファクタのリストから選択される1つ以上のファクタに少なくとも部分的に基づく、
請求項7記載の音声デバイス。
【請求項9】
前記制御システムはさらに、
前記時間T+Nに対する前記先行するマイクロホン音声データと前記時間T+Nに受信される実際のマイクロホン音声データとの間の最新の誤差を決定
するステップと、
前記最新の誤差に基づいて、前記時間T+Nに対する前記予測マイクロホン音声データも決定するステップと、
のために構成されている、
請求項1乃至8いずれか1項記載の音声デバイス。
【請求項10】
前記制御システムはさらに、
マイクロホン音声データをバッファ内に格納するステップと、
前記時間Tにおいて受信されるマイクロホン音声データ、及び、前記時間T+Nにおいて受信される前記マイクロホン音声データを受信するステップ
のために構成されている、
請求項1乃至9いずれか1項記載の音声デバイス。
【請求項11】
前記制御システムはさらに、
前記マイクロホン音声データをバッファに格納するステップの前に、前記マイクロホン音声データの前記複数の周波数帯域のうちの少なくとも1つをダウンサンプリングするステップ、
のために構成されている、
請求項10記載の音声デバイス。
【請求項12】
前記制御システムはさらに、
アンチエイリアシングフィルタを適用することなく、前記マイクロホン音声データの前記複数の周波数帯域のうちの少なくとも1つをダウンサンプリングするステップ、
のために構成されている、
請求項11記載の音声デバイス。
【請求項13】
Nは200ミリ秒以下である、
請求項1乃至12いずれか1項記載の音声デバイス。
【請求項14】
前記制御システムはさらに、
前記現在フィードバックリスク傾向と前記先行するフィードバックリスク傾向との間の差分を決定するステップの前に、前記予測マイクロホン音声データ及び前記実際のマイクロホン音声データを平滑化するステップと、
のために構成されている、
請求項1乃至12いずれか1項記載の音声デバイス。
【請求項15】
前記制御システムはさらに、
前記予測マイクロホン音声データのパワー及び前記実際のマイクロホン音声データのパワーを決定するステップのため、及び、
決定された前記予測
マイクロホン音声データのパワー、及び、決定された前記実際のマイクロホン音声データのパワーに少なくとも部分的に基づいて、前記現在フィードバックリスク傾向を決定するステップのため、
に構成されている、
請求項1乃至14いずれか1項記載の音声デバイス。
【請求項16】
前記制御システムはさらに、
前記現在フィードバックリスク傾向と、前記先行するフィードバックリスク傾向との間の差分に少なくとも部分的に基づいて、生のフィードバックリスクスコアを決定するステップのため、
減衰平滑化関数を前記生のフィードバックリスクスコアに適用して、平滑化されたフィードバックリスクスコアを生成する、ステップのため、及び
前記平滑化されたフィードバックリスクスコアに少なくとも部分的に基づいて、前記フィードバックリスク制御値を決定するステップのため、
に構成されている、
請求項1乃至15いずれか1項記載の音声デバイス。
【請求項17】
前記制御システムはさらに、
前記マイクロホン音声データをバッファに格納するステップの前に、重み付けファクタを前記マイクロホン音声データの1つ以上の周波数帯域に適用するステップ、及び
前記重み付けファクタを適用した後に、マイクロホン音声データの前記1つ以上の周波数帯域を合計するステップ、
のために構成されている、
請求項10乃至16いずれか1項記載の音声デバイス。
【請求項18】
前記重み付けファクタは、一部の周波数帯域に対しては1、他の周波数帯域に対してはゼロである、
請求項17記載の音声デバイス。
【請求項19】
前記制御システムはさらに、
前記マイクロホン音声データをバッファに格納するステップの前に、強調フィルタを前記マイクロホン音声データに適用するステップであって、前記強調フィルタは、1つ以上の周波数帯域内で1つ以上の周波数レンジを強調するように構成されている、ステップ、
のために構成されている、
請求項10乃至18いずれか1項記載の音声デバイス。
【請求項20】
前記マイクロホン音声ゲインを決定するステップは、
第1ゲイン値セットと第2ゲイン値セットとの間を補間するステップを含み、
前記補間は、前記フィードバックリスク制御値に少なくとも部分的に基づき、
前記第1ゲイン値セットは、前記マイクロホン入力音声データの前記複数の周波数帯域のうちの各周波数帯域に対する最小ゲイン値を含み、
前記第2ゲイン値セットは、前記マイクロホン入力音声データの前記複数の周波数帯域のうちの各周波数帯域に対する最大ゲイン値を含む、
請求項1乃至19いずれか1項記載の音声デバイス。
【請求項21】
前記音声デバイスはヘッドホン又はイヤーバッドを含む、
請求項1乃至20いずれか1項記載の音声デバイス。
【請求項22】
音声処理方法であって、
インタフェースシステムを介して、メディアストリームに対応するメディア入力音声データを受信するステップと、
前記インタフェースシステムを介して、
少なくとも1つのヘッドホンマイクロホンを含むマイクロホンシステムからマイクロホン入力音声データを受信するステップと、
制御システムを介して、前記メディア入力音声データの複数の周波数帯域に対するメディア音声ゲインを決定するステップと、
前記制御システムを介して、前記マイクロホン入力音声データの複数の周波数帯域に対するマイクロホン音声ゲインを決定するステップと、
前記制御システムを介して、前記メディア入力音声データの前記複数の周波数帯域で前記メディア入力音声データに前記メディア音声ゲインを適用することによってメディア出力音声データを生成するステップと、
前記制御システムを介して、前記マイクロホン入力音声データの前記複数の周波数帯域で前記マイクロホン入力音声データに前記マイクロホン音声ゲインを適用することによってマイクロホン出力音声データを生成するステップと、
前記制御システムを介して、前記メディア出力音声データと、前記マイクロホン出力音声データとを混合して、混合音声データを生成する、ステップと、
前記混合音声データを
少なくとも1つのヘッドホンスピーカを含むスピーカシステムに提供するステップと、
を含み、
前記音声処理方法はさらに、
前記制御システムを介して、前記マイクロホン入力音声データの少なくとも
1つの周波数帯域に対して、前記マイクロホンシステムのうちの少なくとも1つの
ヘッドホンマイクロホンと、前記スピーカシステムのうちの少なくとも1つの
ヘッドホンスピーカとの間のフィードバックのリスクに対応するフィードバックリスク制御値を決定するステップと、
前記制御システムを介して、前記マイクロホン入力音声データの少なくとも
1つの周波数帯に対して、前記フィードバックリスク制御値に少なくとも部分的に基づいて、前記マイクロホン音声ゲインを決定するステップと、
時間Tにおいて受信されるマイクロホン音声データの少なくとも一部に予測フィルタを適用して、時間T+Nに対する予測マイクロホン音声データを生成するステップと、
予測されるマイクロホン音声データ及び実際のマイクロホン音声データの複数のインスタンスに基づいて、現在フィードバックリスク傾向を決定するステップと、
前記現在フィードバックリスク傾向と先行するフィードバックリスク傾向との間の差分を決定するステップと、
前記現在フィードバックリスク傾向と前記先行するフィードバックリスク傾向との間の差分に少なくとも部分的に基づいて、前記フィードバックリスク制御値を決定するステップと、
を含む、音声処理方法。
【請求項23】
前記フィードバックリスク制御値を決定するステップは、
前記少なくとも1つの周波数帯域における前記マイクロホン入力音声データの振幅の増加を検出するステップを含み、
前記振幅の増加はフィードバックリスク閾値以上である、
請求項22記載の音声処理方法。
【請求項24】
前記フィードバックリスク制御値を決定するステップは、
フィードバック時間ウインドウ内での振幅の増加を検出するステップを含む、
請求項23記載の音声処理方法。
【請求項25】
ソフトウェアが格納された1つ以上の非一時的媒体であって、前記ソフトウェアは、請求項22乃至24のいずれか1項による音声処理方法を実行する1つ以上のデバイスを制御するための命令を含む、非一時的記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2019年5月31日に出願された米国仮出願第62/855,800号、及び、2018年9月7日に出願された米国仮出願第62/728,284号の優先権を主張するものであり、その全体を本明細書に参照援用する。
【0002】
技術分野
本開示は、音声データの処理に関する。特に、本開示は、メディアストリームに対応するメディア入力音声データ及び少なくとも1つのマイクロホンから入力されたマイクロホン音声データの処理に関する。
【背景技術】
【0003】
ヘッドホンやイヤホンなどの音声デバイスの使用は非常に一般的になっている。かかる音声デバイスは、少なくとも部分的に外部からの音を遮断することができる。一部のヘッドホンは、ヘッドホンスピーカと鼓膜との間に実質的に閉じたシステムを作ることができ、このシステムでは、外界からの音が大幅に減衰される。ヘッドホンやその他の音声デバイスを介して外界からの音を減衰させることには、歪みの除去、フラットなイコライゼーションの提供など、様々な潜在的な利点がある。しかしながら、かかる音声デバイスを装着すると、ユーザは、接近する車の音や友人の声の音など、聞くのに有利な音が外界から聞こえなくなることがある。
【発明の概要】
【0004】
本明細書で使用する、1つ又は複数の「ヘッドホン」という用語は、少なくとも1つのスピーカを耳の近くに配置するように構成されたイヤホンデバイスを指し、そのスピーカは、ヘッドホンを装着しているユーザの周囲に生じる音からの音響経路を少なくとも部分的に遮断する物理的形態(本明細書では「ヘッドホンデバイス」と称される)で取り付けられている。一部のヘッドホンユニットは、外界からの音を著しく減衰させるように構成されたイヤカップであってもよく、かかる音は本明細書では「環境」音と称され得る。本明細書で使用される「ヘッドホン」は、ヘッドホンユニット間のヘッドバンド又は他の物理的接続を含まないことがある。メディア補償パススルー(MCP)ヘッドホンは、ヘッドホンデバイスの外側に少なくとも1つのヘッドホンマイクロホンを含んでもよい。かかるヘッドホンマイクロホンは、本明細書では「環境」マイクロホンとも称され得る。かかるマイクロホンからの信号は、ヘッドホンユニットが着用時に環境音を著しく減衰させても、ユーザに環境音を提供することができるからである。MCPヘッドホンは、混合されると、環境マイクロホン信号がメディア信号の上で可聴になるように、マイクロホン信号とメディア信号の両方を処理するように構成され得る。
【0005】
環境マイクロホン信号及びMCPヘッドホンのメディア信号の適切なゲインを決定することは、困難であり得る。環境マイクロホン信号及びメディア信号の両方が、それらの信号レベルと周波数コンテンツを、時には急速に変化させることがある。環境マイクロホン信号の信号レベル及び/又は周波数内容の急激な変化は、外部マイクロホン及びヘッドホンスピーカとの間のフィードバック等の「環境オーバレイ不安定性」をもたらす可能性がある。
【0006】
いくつかの開示された実装は、環境オーバレイ不安定性を緩和するように設計されている。いくつかの実装形態では、本明細書に開示される装置は、インタフェースシステム、少なくとも1つのヘッドホンマイクロホンを含むヘッドホンマイクロホンシステム、少なくとも1つのヘッドホンスピーカを含むヘッドホンスピーカシステム、及び制御システムを含み得る。制御システムは、インタフェースシステムを介して、メディアストリームに対応するメディア入力音声データを受信するステップと、ヘッドホンマイクロホンシステムからのヘッドホンマイクロホン入力音声データを受信するステップと、のために構成され得る。制御システムは、メディア入力音声データの複数の周波数帯域のうちの少なくとも1つに対するメディア音声ゲインを決定するステップと、ヘッドホンマイクロホン入力音声データの複数の周波数帯域のうちの少なくとも1つに対するヘッドホンマイクロホン音声ゲインを決定するステップと、のために構成され得る。
【0007】
ヘッドホンマイクロホン音声ゲインを決定するステップは、ヘッドホンマイクロホンシステムの少なくとも1つの外部マイクロホンと少なくとも1つのヘッドホンスピーカとの間のヘッドホンフィードバックのリスクに対応する、複数の周波数帯域のうちの少なくとも1つについてのフィードバックリスク制御値を決定するステップを含み得る。ヘッドホンマイクロホン音声ゲインを決定するステップはまた、フィードバックリスク制御値に少なくとも部分的に基づいて、複数の周波数帯域のうちの少なくとも1つにおける実際の又は潜在的なヘッドホンフィードバックを緩和するヘッドホンマイクロホン音声ゲインを決定することを含み得る。
【0008】
制御システムは、複数の周波数帯域のうちの少なくとも1つでメディア入力音声データにメディア音声ゲインを適用することによってメディア出力音声データを生成するために構成されている。制御システムは、メディア出力音声データと、ヘッドホンマイクロホン出力音声データとを混合して、混合音声データを生成するため、及び混合音声データをヘッドホンスピーカシステムに提供するために構成されている。
【0009】
いくつかの開示された実装は潜在的な利点を有する。いくつかの実施例では、制御システムは、増大したフィードバックリスクを検出するように構成され得、最大ヘッドホンマイクロホン信号の低減を引き起こし得る。いくつかの実装では、環境オーバレイ不安定性は、一般に、1つ以上の特定の周波数帯域で発生し得る。周波数帯域は、特定の設計に依存する。制御システムが、1つ以上の周波数帯域の音声レベルが上昇し始めていると決定する場合、制御システムは、この状態がフィードバックリスクの表示であると決定することができる。いくつかの実装は、ヘッドホンがユーザの頭部から取り外されていること、又はユーザの頭部から間もなく取り外されることの検出された表示に少なくとも部分的に基づいて、フィードバックリスク制御値を決定することを含み得る。
【0010】
本明細書に記載されている主題の1つ以上の実装の詳細は、添付の図面及び以下の説明に記載されている。他の特徴、態様、及び利点は、明細書、図面、及び特許請求の範囲から明らかになる。以下の図の相対的な寸法は、縮尺通りに描かれない場合があることに留意されたい。
【図面の簡単な説明】
【0011】
【
図1】
図1は、ヘッドホンドライバから環境マイクロホンへのリーク応答の実施例を示すグラフである。
【
図2A】
図2Aは、MCPマイクロホンからの信号がブーストされ、その後ヘッドホンスピーカドライバにフィードバックされたときの、メディア補償パススルー(MCP)ヘッドホン応答の実施例を示す。
【
図3】
図3は、本開示の様々な態様を実施可能な装置の構成要素の実施例を示すブロック図である。
【
図4】
図4は、
図3に示すような装置によって実施することができる方法の一実施例を概説するフロー図である。
【
図5A】
図5Aは、いくつかの実施例によるMCPプロセスのブロックを含むブロック図である。
【
図5B】
図5Bは、
図5Aの入力コンプレッサブロックによって作成され得る伝達関数の一実施例を示す。
【
図5C】
図5Cは、
図5Aのメディア及びマイクロホンゲイン調整ブロックによって適用され得るダッキングゲインの一実施例を示す。
【
図6】
図6は、
図5Aのフィードバックリスク検出ブロックの詳細な実施例を示すブロック図である。
【0012】
様々な図面での同様の参照符号と名称は、同様の要素を示す。
【発明を実施するための形態】
【0013】
以下の説明は、本開示のいくつかの革新的な態様を説明する目的のための特定の実装、並びにこれらの革新的な態様が実装され得るコンテキストの実施例を対象としている。しかしながら、本明細書の教示は、様々な異なる方法で適用することができる。例えば、種々の実装が特定の適用及び環境に関して説明されるが、本明細書の教示は、他の既知の適用及び環境に広く適用可能である。さらに、上述の実装は、少なくとも部分的に、ハードウェア、ソフトウェア、ファームウェア、クラウドベースのシステムなどの、種々のデバイス及びシステムに実装され得る。したがって、本開示の教示は、図面及び/又は本明細書に記載される実装に限定されることを意図するものではなく、その代わりに、広範な適用可能性を有する。
【0014】
上述したように、ある程度の音響閉塞(sound occlusion)を提供する音声デバイスは、音声品質を制御する改善された能力等の様々な潜在的な利点を提供する。他の利点は、外界からの迷惑となる可能性のある、又は気を散らすような音の減衰を含む。しかしながら、かかる音声デバイスのユーザは、接近する車の音、カークラクション、公共のアナウンスメント等の、聞くことが有利である外界からの音を聞くことができない。
【0015】
したがって、1つ以上のタイプの音響閉塞管理が望ましい。本明細書に記載される種々の実装は、ユーザがヘッドホン、イヤホン、又は他のかかる音声デバイスを介して音声データのメディアストリームを聴いている間の音声閉塞管理を含む。本明細書で使用する「メディアストリーム」、「メディア信号」及び「メディア入力音声データ」という用語は、音楽、ポッドキャスト、ムービーサウンドトラックなどに対応する音声データ、並びに電話会話の一部として再生のために受信される音に対応する音声データを指すために使用することができる。イヤホン型実装等のいくつかの実装では、ユーザは、メディアストリームに対応する音声データを聴きながらも、外部の世界からかなりの音量を聴くことができる。しかし、一部の音声デバイス(ヘッドホン等)は、外界からの音を大幅に減衰させることができる。したがって、いくつかの実装は、ユーザにマイクロホンデータを提供することも含み得る。マイクロホンデータは、外界からの音を提供し得る。
【0016】
ヘッドホン等の音声デバイスの外部の音に対応するマイクロホン信号はメディア信号と混合され、ヘッドホンのスピーカを通して再生される場合、メディア信号は、しばしばマイクロホン信号をマスクキングし、ユーザに、外部音を聞き取れなく、又は分かりにくくする。したがって、混合された場合、マイクロホン信号がメディア信号の上で可聴であり(audible above)、処理されたマイクロホン信号とメディア信号の両方が知覚的に自然な音響(perceptually natural-sounding)のままであるように、マイクロホン信号とメディア信号の両方を処理することが望ましい。この効果を達成するために、「Media-Compensated Pass-Through and Mode-Switching(メディア補償パススルー及びモードスイッチング)」と題される国際公開第WO 2017/217621号に開示されているような知覚音量(perceptual loudness)及び部分的音量のモデルを検討することは有用である。
【0017】
いくつかの方法は、メディア入力音声データの複数の周波数帯域のうちの少なくとも1つの第1レベルを決定するステップ、及びマイクロホン入力音声データの複数の周波数帯域のうちの少なくとも1つの第2レベルを決定するステップを含む。かかる方法の中には、第1及び第2の複数の周波数帯域のうちの1つ以上のレベルを調整することによって、メディア出力音声データ及びマイクロホン出力音声データを生成することを含み得る。例えば、いくつかの方法は、メディア出力音声データの存在下でのマイクロホン出力音声データの知覚音量とマイクロホン入力音声データの知覚音量(perceived loudness)との間の第1差分が、メディア入力音声データの存在下でのマイクロホン入力音声データの知覚音量とマイクロホン入力音声データの知覚音量との間の第2差分より小さくなるように、レベルを調整することを含み得る。かかる方法は、メディア出力音声データと、マイクロホン出力音声データとを混合して、混合音声データを生成する、ステップを含み得る。いくつかの実施例は、ヘッドセット又はイヤホン等の音声デバイスのスピーカに混合音声データを提供するステップを含み得る。
【0018】
いくつかの実施態様では、調整するステップは、マイクロホン入力音声データの複数の周波数帯域のうちの1つ以上のレベルをブーストするステップのみを含み得る。しかしながら、いくつかの実施例では、調整するステップは、マイクロホン入力音声データの複数の周波数帯域のうちの1つ以上のレベルをブーストするステップと、メディア入力音声データの複数の複数の周波数帯域のうちの1つ以上のレベルを減衰させるステップとの両方を含み得る。いくつかの実施例において、メディア出力音声データの存在下でのマイクロホン出力音声データの知覚された大きさは、マイクロホン入力音声データの知覚された大きさと実質的に等しい。
いくつかの実施例によれば、
メディア及びマイクロホン出力音声データの合計音量は、メディア及びマイクロホン入力音声データの合計音量と、メディア及びマイクロホン出力音声データの合計音量との間の範囲であり得る。しかしながら、場合によっては、メディア及びマイクロホン出力音声データの合計音量は、メディア及びマイクロホン入力音声データの合計音量に実質的に等しいか、あるいはメディア及びマイクロホン出力音声データの合計音量に実質的に等しいことがある。
【0019】
いくつかの実装は、モードスイッチング表示を受信し(又は決定し)、少なくとも部分的に、モードスイッチング表示に基づいて、1つ以上のプロセスを修正することを含み得る。例えば、いくつかの実装は、少なくとも部分的に、モードスイッチング表示に基づいて、受信(receiving)、決定(determining)、生成(producing)、又は混合(mixing)プロセスのうちの少なくとも1つを変更することを含み得る。いくつかの例では、変更は、メディア出力音声データの音量に対して、マイクロホン出力音声データの相対的な音量を増加させることを含み得る。いくつかのかかる実施例によれば、マイクロホン出力音声データの相対的な音量を増加させることは、メディア入力音声データを抑制すること、又はメディアストリームを一時停止することを含み得る。いくつかのかかる実装は、1つ以上のタイプのパススルーモードを提供する。パススルーモードでは、メディア信号はボリュームが小さくなり、ユーザと他の人々(又は、マイクロホン信号によって示されるユーザの関心のある他の外部音声)との会話が、ユーザに提供される音声信号に混合される。いくつかの実施例では、メディア信号は一時的にサイレンシングされ得る。
【0020】
上記の方法は、国際公開第WO 2017/217621号に開示されている他の関連方法と共に、本明細書では、MCP (メディア補償パススルー)方法と称することができる。上述のように、いくつかのMCP方法は、ヘッドホンの外側又はその近傍に配置されたマイクロホン(ここでは、環境マイクロホン又はMCPマイクロホンと称され得る)からの音声を取り込み、環境マイクロホンからの信号を潜在的にブーストし、ヘッドホンスピーカを介して環境マイクロホン信号を再生することを含む。いくつかの実施態様では、ヘッドホンの設計及び物理的形状因子は、環境マイクロホンによってピックアップされるヘッドホンスピーカを通して再生される信号のある量を導く。この現象は、本明細書では「漏れ」又は「エコー」と称することができる。ヘッドホンが取り外されるとき、又は物体が環境マイクロホンの近くにあるとき(本明細書では「カッピング」と称することができる現象)に変化することがあり、一般的に悪化する。現在のリークパスのループゲインとMCPループ内の任意の処理の瞬間的なゲインの合計が1を超えると、環境オーバレイが不安定になる。
【0021】
図1は、ヘッドホンドライバから環境マイクロホンへのリーク応答の実施例を示すグラフである。
図1では、横軸は可聴周波数の対数目盛を表し、縦軸はリーク応答をデシベルで表す。
図1に示すように、リーク応答は周波数に大きく依存し、比較的小さな周波数範囲では20デシベルを超える変動があり、リーク応答は600Hz以下で急激に低下する。
【0022】
図2Aは、MCPマイクロホンからの信号がブーストされ、その後ヘッドホンスピーカドライバにフィードバックされたときのMCPヘッドホン応答の実施例を示す。これらの例では、環境マイクロホン信号は、少なくとも5.0dB及び9.6dBまでブーストされた。時間は横軸に、振幅は縦軸に表示される。
図2Bは、
図2Aに示された各実施例の周波数応答を示す。
【0023】
図1、2A及び2Bに示される実施例に基づいて、いくつかの結論を下すことができる。(5.0dB、8.0dB、9.0dBのゲインの例で示されているように)本質的に安定した状態から(9.2dBの利得の例で示されているように)壊滅的な状態への移行は、2dB未満で発生することがわかります。また、環境オーバレイ不安定性は、
図1に示されているリーク応答曲線の最大で生じることが分かる。これは、「環境オーバレイ不安定性周波数」と称され得る。いくつかの実装では、複数の潜在的な環境オーバレイ不安定性周波数が存在し得る。誤差のマージンは非常に小さく、環境オーバレイ不安定性は、完全なループ応答ピークが0dBを超えるとすぐにほぼ確実になる。
【0024】
これらの実施例では、電話機の内側又は外側の環境オーバレイ不安定性周波数において、メディア信号又は過剰信号が存在する必要はない。環境オーバレイ不安定性はループゲインの出現である。
【0025】
図2A及び2Bに示す例では、ゲインは固定されているので、トーンは指数関数的に増加する。上述したように、MCPヘッドホンの通常動作中のいくつかのMCP方法によれば、全体的な信号ゲインは、メディア信号と環境マイクロホンから受信される外部音に対応する信号との両方に依存する。ループゲインは、メディアが再生されるにつれて増加し得る。このゲインが高すぎると、環境オーバレイの不安定性が始まる可能性がある。しかしながら、外部環境マイク信号が増加するにつれて、外部音がメディアの上で聞こえる場合、いくつかのMCP方法は外部環境マイク信号ゲインを減少させる。従って、環境オーバレイ不安定性は、指数関数的に増大するのではなく、(少なくともある場合には)外部音がメディアの上で確実に聴取されるレベルで安定する傾向がある。
【0026】
図3は、本開示の様々な態様を実施可能な装置の構成要素の実施例を示すブロック図である。いくつかの実施態様では、デバイス300は、一対のヘッドホンユニットであり得るか、又はこれを含み得る。この例では、装置300は、インタフェースシステム305及び制御システム310を含む。インタフェースシステム305は、1つ以上のネットワークインタフェース及び/又は1つ以上の外部デバイスインタフェース(1つ以上のユニバーサルシリアルバスインタフェースなど)を含み得る。いくつかの例では、インタフェースシステム305は、
図3に示されるオプションのメモリシステム315などの、制御システム310とメモリシステムとの間の1つ以上のインタフェースを含み得る。しかしながら、制御システム310はメモリシステムを含み得る。
【0027】
制御システム310は、例えば、汎用のシングル又はマルチチッププロセッサ、デジタル信号プロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)若しくは他のプログラマブルロジックデバイス、個別ゲート若しくはトランジスタロジック、及び/又は個別ハードウェアコンポーネントを含み得る。いくつかの実装において、制御システム310は、少なくとも部分的に、本明細書に開示された方法を実行することができる。
【0028】
本明細書に記載された方法のいくつか又は全ては、非一時的媒体に記憶された命令(例えば、ソフトウェア)にしたがって、1つ以上のデバイスによって実施され得る。かかる非一時的媒体は、ランダムアクセスメモリ(RAM)デバイス、読出し専用メモリ(ROM)デバイスなどを含むが、これらに限定されず、本明細書に記載されたようなメモリデバイスを含み得る。非一時的媒体は、例えば、
図3に示す任意のメモリシステム315及び/又は制御システム310内に存在し得る。したがって、従って、本開示に記載された主題の種々の革新的な態様は、ソフトウェアを格納した非一時的媒体で実施することができる。ソフトウェアは、例えば、音声データを処理するために少なくとも1つのデバイスを制御するための命令を含み得る。ソフトウェアは、例えば、
図3の制御システム310等の制御システムの1つ以上のコンポーネントによって実行可能であり得る。
【0029】
この実施例では、装置300は、マイクロホンシステム320を含む。この例では、マイクロホンシステム320は、1つ以上のヘッドホンユニットの外部部分など、装置300の外部部分に属するか、又はその近くにある1つ以上のマイクロホンを含む。
【0030】
この実装によれば、装置300は、1つ以上のスピーカを有するスピーカシステム325を含む。いくつかの実施例では、スピーカシステム325の少なくとも一部は、一対のヘッドホンユニット内又はその上に存在してもよい。
【0031】
この実施例では、デバイス300は、1つ以上のセンサを有するオプションのセンサシステム330を含む。センサシステム330は、例えば、1つ以上の加速度計又はジャイロスコープを含み得る。センサシステム330及びインタフェースシステム305は、
図3では別個の要素として示されているが、いくつかの実施形態では、インタフェースシステム305は、センサシステム300の少なくとも一部を組み込んだユーザインタフェースシステムを含み得る。例えば、ユーザインタフェースシステムは、1つ以上のタッチ及び/又はジェスチャ検出センサシステム、1つ以上の慣性センサデバイスなどを含み得る。ユーザインタフェースシステムは、ユーザからの入力を受信するように構成され得る。
【0032】
いくつかの実装形態では、ユーザインタフェースシステムは、ユーザにフィードバックを提供するように構成されてもよい。いくつかの例によれば、ユーザインタフェースシステムは、モータ、バイブレータ等のような触覚フィードバックを提供するデバイスを含み得る。いくつかの実施態様では、マイクロホンシステム320、スピーカシステム325及び/又はセンサシステム330及び制御システム310の少なくとも一部は、異なるデバイス内に存在してもよい。例えば、制御システム310の少なくとも一部は、スマートホン、家庭娯楽システムのコンポーネントなど、装置300と通信するように構成されたデバイス内に属し得る。
【0033】
図4は、
図3に示されるような装置によって実施され得る方法の一実施例を概説するフロー図である。方法400のブロックは、本明細書に記載される他の方法と同様に、必ずしも示される順序で実施されるわけではない。さらに、そのような方法は、図示及び/又は記載されているよりも多い又は少ないブロックを含み得る。
【0034】
この例では、ブロック405は、メディアストリームに対応するメディア入力音声データを受信することを含む。ブロック405は、例えば、インタフェースシステム(
図3のインタフェースシステム305など)を介してメディア入力音声データを受信する制御システム(
図3の制御システム310など)を含み得る。
【0035】
この例によれば、ブロック410は、ヘッドホンマイクロホンシステムからヘッドホンマイクロホン入力音声データを受信することを含む。いくつかの実施例では、ヘッドホンマイクロホンシステムは、
図3を参照して上述したヘッドホンマイクロホンシステム320であり得る。
【0036】
この実施例では、ヘッドホンマイクロホンシステムは、少なくとも1つのヘッドホンマイクロホンを含む。この実施例によれば、(複数の)ヘッドホンマイクロホンは、少なくとも1つの外部ヘッドホンマイクロホンを含む。この実装では、ブロック415は、(例えば制御システムによって)メディア入力音声データの複数の周波数帯域のうちの少なくとも1つに対するメディア音声ゲインを決定することを含む。いくつかのかかる実施例では、ブロック415(又は方法400の別の部分)は、メディア入力音声データを時間ドメインから周波数ドメインに変換することを含み得る。また、方法400は、メディア入力信号を個別の周波数帯域(discrete frequency bands)に分解するフィルタバンクを適用することを含み得る。
【0037】
この実施例によれば、ブロック420は、(例えば、制御システムによって)ヘッドホンマイクロホン入力音声データの複数の周波数帯域のうちの少なくとも1つに対するヘッドホンマイクロホン音声ゲインを決定することを含む。したがって、方法400は、ヘッドホンマイクロホン入力信号を時間ドメインから周波数ドメインに変換し、ヘッドホンマイクロホン信号を周波数帯域に分解するフィルタバンクを適用することを含み得る。いくつかの実施例において、ブロック415及び420は、「Media-Compensated Pass-Through and Mode-Switching(メディア補償パススルー及びモードスイッチング)」と題する国際公開第2017/217621号公報に開示されているようなMCP方法を適用することを含み得る。
【0038】
この実施例によれば、ブロック420は、複数の周波数帯のうちの少なくとも1つに対するフィードバックリスク制御値を決定することを含む。この例では、フィードバックリスク制御値は、環境オーバレイ不安定性のリスクに対応し、特に、ヘッドホンマイクロホンシステムの少なくとも1つの外部マイクロホンとヘッドホンスピーカシステムの少なくとも1つのヘッドホンスピーカとの間のヘッドホンフィードバックのリスクに対応する。ヘッドホンスピーカシステムは、1つ又は複数のヘッドホンユニットに配置された1つ又は複数のヘッドホンスピーカを含み得る。
【0039】
この例では、ブロック420は、フィードバックリスク制御値に少なくとも部分的に基づいて、複数の周波数帯域のうちの少なくとも1つにおける実際の又は潜在的なヘッドホンフィードバックを緩和し得るヘッドホンマイクロホン音声ゲインを決定することを含む。種々の例を以下に記載する。
【0040】
この実装では、ブロック425は、ヘッドホンマイクロホン音声ゲインを複数の周波数帯域の少なくとも1つにおいてヘッドホンマイク入力音声データに適用することによって、ヘッドホンマイク出力音声データを生成することを含む。ここで、ブロック430は、メディア出力音声データと、ヘッドホンマイクロホン出力音声データとを混合して、混合音声データを生成することを含む。この実施態様によれば、ブロック435は、混合音声データをヘッドホンスピーカシステムに提供することを含む。ブロック425、430及び435は、制御システムによって実行されてもよい。
【0041】
いくつかの実施例では、ブロック420は、既知の環境オーバレイ不安定性周波数、例えば、特定のヘッドホン実装に関連することが知られている環境オーバレイ不安定性周波数を含む少なくとも1つの周波数帯域に対するフィードバックリスク制御値を決定することを含み得る。かかる周波数帯域は、本明細書では「フィードバック周波数帯域」と称され得る。
【0042】
いくつかのかかる実施例によれば、フィードバックリスク制御値を決定することは、フィードバック周波数帯域における振幅の増加を検出することを含むことができる。振幅の増加は、例えば、フィードバックリスク閾値以上であり得る。いくつかの実施例において、フィードバックリスク制御値を決定することは、フィードバックリスク時間ウィンドウ内の振幅の増加を検出することを含み得る。いくつかの実装によれば、フィードバックリスク制御値を決定することは、ヘッドホン取り外し表示を受信し、ヘッドホン取り外し表示に少なくとも部分的に基づいてヘッドホン取り外しリスク値を決定することを含み得る。ヘッドホン取り外しリスク値は、ヘッドホンスピーカシステム及びヘッドホンマイクロホンシステムを含むヘッドホンのセットが、ユーザの頭部から少なくとも部分的に取り外しされる、又は、間もなく取り外しされるリスクに対応し得る。
【0043】
いくつかの実装において、装置300が上述のセンサシステム330を含み、ヘッドホン取り外し表示(headphone removal indication)は、少なくとも部分的に、センサシステム330からの入力に基づき得る。例えば、ヘッドホン取り外し表示は、少なくとも部分的に、ヘッドホン加速度を示す慣性センサデータ、ヘッドホン位置変化を示す慣性センサデータ、ヘッドホンとの接触を示すタッチセンサデータ、及び/又はヘッドホンとの差し迫った接触の可能性を示す近接センサデータに基づくことができる。
【0044】
いくつかの実施例によれば、ヘッドホン取り外し表示は、少なくとも部分的に、ヘッドホンの取り外しに対応するユーザ入力データに基づくことができる。例えば、少なくとも1つのヘッドホンユニットは、ユーザがヘッドホンを取り外そうとしているときにユーザが相互作用し得るユーザインタフェース(例えば、タッチセンサ又はジェスチャセンサシステム、ボタンなど)を含み得る。
【0045】
いくつかの実装では、ヘッドホン取り外し表示は、少なくとも部分的に、1つ以上のヘッドホンマイクロホンからの入力に基づき得る。例えば、ユーザがヘッドホンを取り外すと、左側ヘッドホンユニットのスピーカによって再生された音声が、右側ヘッドホンユニットのマイクロホンによって検出され得る。あるいは又はされに、右側ヘッドホンユニットのスピーカによって再生された音声は、左側ヘッドホンユニットのマイクロホンによって検出され得る。マイクロホンは、内部又は外部マイクロホンであり得る。ヘッドホン制御システムは、ヘッドホンユニットのスピーカからの音声データが、少なくとも部分的に、他のヘッドホンユニットからのマイクロホンデータに対応すると決定することができる。いくつかのかかる実装によれば、ヘッドホン取り外し表示は、少なくとも部分的には、左側ヘッドホンスピーカによって再生される音声に対応する左側外部ヘッドホンマイクロホンデータ、右側ヘッドホンスピーカによって再生される音声に対応する右外部ヘッドホンマイクロホンデータ、右側ヘッドホンスピーカによって再生される音声に対応する左側内部ヘッドホンマイクロホンデータ、及び/又は左側ヘッドホンスピーカによって再生される音声に対応する右側内部ヘッドホンマイクロホンデータに基づくことができる。
【0046】
いくつかの実施例において、フィードバックリスク制御値を決定することは、不適切なヘッドホン位置表示を受信することを含み得る。いくつかのかかる実施例は、不適切なヘッドホン位置決め表示に少なくとも部分的に基づいて不適切なヘッドホン位置決めリスク値を決定することを含み得る。不適切なヘッドホン位置決めリスク値は、ヘッドホンスピーカシステム及びヘッドホンマイクシステムを含むヘッドホンのセットがユーザの頭部上に不適切に位置決めされるリスクと対応し得る。
【0047】
いくつかの実施例によれば、不適切なヘッドホン位置表示は、センサシステムからの入力、例えば、1つ以上のヘッドホンユニットの位置が変化したことを示す加速度計又はジャイロスコープからの入力に基づき得る。いくつかのかかる実施例において、不適切なヘッドホン位置決めリスク値は、センサデータによって示される変化の大きさ(例えば、加速度の大きさ)に対応し得る。
【0048】
あるいは又はさらに、不適切なヘッドホン位置決め表示は、少なくとも部分的に、左側ヘッドホンスピーカによって再生された音声に対応する左側外部ヘッドホンマイクデータ、右側ヘッドホンスピーカによって再生された音声に対応する右側外部ヘッドホンマイクデータ、右側ヘッドホンスピーカによって再生された音声に対応する左側内部ヘッドホンマイクデータ、及び/又は左側ヘッドホンスピーカによって再生された音声に対応する右側内部ヘッドホンマイクデータに基づき得る。
【0049】
図5Aは、いくつかの実施例によるメディア補償パススルー(MCP)プロセスのブロックを含むブロック図である。
図6は、
図5Aのフィードバックリスク検出ブロック520の詳細な実施例を示すブロック図である。本明細書に開示されている他の図と同様に、
図5及び
図6に示されている詳細は、図示の値、ブロックの数及びタイプなどを含むが、これらに限定されない。いくつかの実装では、
図5及び
図6のブロックは、例えば、
図3の制御システム310によって制御システムによって実装され得る。あるいは又はさらに、
図5及び
図6のブロックの少なくともいくつかは、1つ以上の非一時的媒体に格納されたソフトウェアによって実装され得る。ソフトウェアは、これらのブロックの記述された機能を実行するために1つ以上のデバイスを制御するための命令を含み得る。
【0050】
図5Aに示される例では、MCPシステム500は、環境マイクロホン信号505及びメディア入力信号510に対応する出力信号のレベルを決定し、これらの信号を混合し、出力信号を提供するように構成される。この実施例によれば、環境マイクロホン信号に適用されるゲインは、フィードバックリスク検出ブロック520からの入力にしたがって制御され得る。いくつかの実装によれば、四角501内の要素を除き、MCPシステム500は、「Media-Compensated Pass-Through and Mode-Switching(メディア補償パススルー及びモードスイッチング)」と題する国際公開第2017/217621号公報に開示されているように機能し得る。しかしながら、他の実施形態は、本明細書に記載されるフィードバックリスク検出及び軽減技術を他のMCP方法論に適用してもよい。
【0051】
この実施例では、環境マイクロホン信号505はフィルタバンク/パワー計算ブロック515aに供給され、メディア入力信号510はフィルタバンク/パワー計算ブロック515bに供給される。メディア入力信号510は、例えば、スマートホン、テレビ又は家庭娯楽システムの他のデバイスなどから受信され得る。この実施例では、環境マイクロホン信号505は、ヘッドホンの1つ以上の環境マイクロホンから受信される。環境マイクロホン信号505及びメディア入力信号510は、この実施例では32サンプルブロック内のフィルタバンク/パワー計算ブロック515a及び515bに供給されるが、他の実施例では、環境マイクロホン信号505及びメディア入力信号510は、異なるサンプル数を有するブロックを介して供給され得る。
【0052】
フィルタバンク/パワー計算ブロック515a及び515bは、時間ドメイン内の入力音声データを周波数ドメイン内の帯域音声データ(banded audio data)に変換するように構成される。この実施例では、フィルタバンク/パワー計算ブロック515a及び515bは、8つの周波数帯域において周波数領域の音声データを出力するように構成されているが、他の実施例では、フィルタバンク/パワー計算ブロック515a及び515bは、周波数領域の音声データをより少ない周波数帯域において出力するように構成され得る。いくつかの実施例によれば、フィルタバンク/パワー計算ブロック515a及び515bの各々は、28の二次セクションを介して実施される、四次ローパスフィルタ、四次ハイパスフィルタ、及び6つの八次バンドバスフィルタとして実施されてもよい。いくつかのかかる実施例は、参照により本明細書に組み込まれている、A. Favrot及びC. Fallerによる「Complementary N-Band IIR Filterbank Based on 2-Band Complementary Filters(2バンド相補フィルタに基づく相補NバンドIIRフィルタバンク )」 12th International Workshop on Acoustic Signal Enhancement (Tel-Aviv-Jaffa 2010)、に記載されている、フィルタバンク設計技術にしたがって実装される。
【0053】
この実施例によれば、フィルタバンク/パワー計算ブロック515aは、帯域周波数領域マイクロホン音声データ517aをフィードバックリスク検出ブロック520及びミキサブロック550に出力する。フィードバックリスク検出ブロック520は、例えば、
図4を参照して上述したように、フィードバックリスク制御値を決定するように構成することができる。
【0054】
ここで、フィルタバンク/パワー計算ブロック515aは、帯域化された周波数ドメインマイクロホン音声データ517aの書く周波数帯域におけるパワーを示す、帯域マイクロホンパワーデータ(banded microphone power data)519aを、平滑化/ローパスフィルタブロック530aに出力する。平滑化/ローパスフィルタブロック530aは、平滑化/ローパスフィルタリングされたマイクロホンパワーデータ532、532aを適応ノイズゲートブロック535に出力する。
【0055】
この実施例では、フィルタバンク/パワー計算ブロック515bは、帯域周波数ドメインメディア音声データ517bをミキサブロック550に出力し、帯域周波数ドメインメディア音声データ517bの各周波数帯域におけるパワーを示す帯域メディアパワーデータ519bを平滑化/ローパスフィルタブロック530bに出力する。平滑化/ローパスフィルタブロック530bは、適応ノイズゲートブロック535及びメディアダッキング/マイクロホンゲイン調整ブロック545に平滑化/ローパスフィルタメディアパワーデータ(smoothed/low-pass filtered media power data )534、532bを出力する。
【0056】
この実施例によれば、この例によれば、適応ノイズゲートブロック535は、マイクロホン信号が、ブーストされるべきではないバックグラウンドノイズ等の関心のないメディア又は何かに対して、レベルをブーストされるべき人間の声等のユーザの関心があり得る音声に対応するかどうか決定するように構成されている。いくつかの実装では、適応ノイズゲートブロック535は、「Media-Compensated Pass-Through and Mode-Switching(メディア補償パススルー及びモードスイッチング)」と題される国際公開第WO 2017/217621号に開示されているようなモードスイッチング方法及び/又はマイクロホン信号処理方法を適用することができる。
【0057】
いくつかの実施例において、適応ノイズゲートブロック535は、バックグラウンドノイズ信号と非ノイズ信号とを区別するように構成することができる。これは、MCPヘッドホンにおいて重要である。なぜならば、潜在的な関心のあるマイクロホン信号が処理されたのと同じようにバックグラウンドノイズが処理された場合、MCPヘッドホンは、バックグラウンドノイズ信号をメディア信号よりも高いレベルにブーストするからである。これは、非常に望ましくない効果である。
【0058】
いくつかの実装によれば、フィルタバンク/パワー計算ブロック515aは、マルチ帯域アルゴリズムを実装する。フィルタバンク/パワー計算ブロック515aは、いくつかの実施例では、フィルタバンク/パワー計算ブロック515aによって生成された各周波数帯域上で独立して動作し得る。いくつかのかかる実装では、適応ノイズゲートブロック535は、各周波数帯域に対して2つの出力値(537)を生成することができ、これはノイズ包絡線の推定値を記述することができる。各周波数帯域に対する2つの出力値(537)は、本明細書では、以下により詳細に説明されるように、「ノイズゲート開始」及び「ノイズゲート停止」と称され得る。かかる実装では、所与の帯域でノイズゲート停止より上のレベルに上昇するレベルを有するマイクロホン入力信号は、ノイズではない(換言すると、メディア信号レベルより上にブーストされるべき関心ある信号である)として扱うことができる。
【0059】
いくつかの実施例では、「波高率(crest factor)」は適応ノイズゲートブロック535への重要な入力である。波高率は、マイクロホン信号から導出される。いくつかの実施例によれば、波高率が低い場合、マイクロホン信号はノイズであると考えられる。いくつかのかかる実装では、マイクロホン信号において高い波高率が検出される場合、そのマイクロホン信号は関心のあるものであると考えられる。
【0060】
いくつかの実装によれば、各帯域に対する波高率は、フィルタバンク/パワー計算ブロック515aからの比較的短い時間間隔(例えば、20ms)にわたって平滑化された出力パワーと、同じ出力パワーの、比較的長い時間間隔(例えば、2秒)にわたって平滑化されたバージョンとの差として計算され得る。これらの時間間隔は単なる例である。他の実装は、平滑化された出力パワー及び/又は波高率を計算するために、より短い又はより長い時間間隔を使用し得る。いくつかのかかる実施例では、各帯域について計算された波高率は、その後上部4つの帯域について正規化される。これらの上部4つの帯域の波高率のいずれかが正で先行する帯域の波高率が低い場合は、先行する帯域の波高率が代わりに使用される。この技術は、周波数が高くなるにつれて波高率が増加するヒューという音(swishing sounds)がノイズゲートから「飛び出す(popping out)」ことを防止する。
【0061】
いくつかのの実施例において、適応ノイズゲートブロック535は、ノイズに「追従」するように構成され得る。そかかる実施例によれば、適応ノイズゲートブロック535は、計算された、マイクロホン信号の波高率によって導かれる(driven)2つの動作モードを有している場合がある。かかる実施例では、波高率が特定の閾値を下回った場合に第1動作モードが呼び出され得る。かかる場合、マイクロホン信号は、主にノイズとみなされる。第1動作モードの例では、ノイズゲートの底部(「ノイズゲート開始」)は、最小マイクロホンレベルをちょうど下回るように設定される。ノイズゲートの頂部(「ノイズゲート停止」)は、例えば、平均メディアレベルとノイズゲートの底部との中間に設定される。これにより、ノイズゲートからノイズが少しずれて飛び出るのを防ぎます。
【0062】
いくつかのかかる実施例によれば、波高率が特定の閾値を上回るときに、第2動作モードが呼び出され得る。かかる状況下では、いくつかの例において、マイクロホン信号は、関心あるものと考えられる(例えば、主にバックグラウンドノイズではない)。いくつかのかかる実施例では、「ミニマムフォロア」は、ノイズゲートの底部が関心部分の間に信号を追跡することを防止し得る。かかる実装によれば、ノイズゲートのトップは、遅い移動平均のマイクロホンレベルとボトムノイズゲートとの間の中間に設定され得る。それに応じてピークはブーストされ得る。かかる実装は、低SNRバックグラウンドの状況(例えば騒がしいカフェ)において、ゲートを通して比較的大きな音を許容し得る。かかる実装は、メディアレベルがバックグラウンドよりもいくらか(例えば、8~10db)大きい場合にのみ、滑らかな遷移を提供し得る。いくつかのかかる実装によれば、他の全ての状況において、ノイズゲートのトップは、高い波高率が検出されると、非常に低いレベルにスナップダウンする。
【0063】
したがって、適応ノイズゲートブロック535は、マイクロホン信号が関心のあり得る音に対応するか否かに関する決定に対応するコンプレッサパラメータ537を出力し得る。例えば、出力パラメータ537は、例えば前述のように、ノイズゲートのトップ及びボトムに基づいた帯域ごとの値であってもよい。
図5Aに示す例では、出力パラメータ537は入力コンプレッサブロック540に渡される。
【0064】
図5Aに示す実施例によれば、入力コンプレッサブロック540は、マイクロホンゲイン542を決定し、マイクロホンゲイン542をメディア及びマイクロホンゲイン調整ブロック545に出力する。いくつかのかかる実施例では、入力コンプレッサブロック540は、帯域毎の信号で動作する。いくつかのかかる実施例によれば、入力コンプレッサブロック540は、ノイズゲート値及びメディアレベルに基づく動的圧縮伝達関数を生成する。この圧縮伝達関数は、入力マイク信号に適用され得る。
【0065】
図5Bは、
図5Aの入力コンプレッサブロックによって作成され得る伝達関数の一実施例を示す。この実施例では、入力マイクロホンレベルが「ノイズゲート開始」レベル以上であれば、マイクロホンレベルがブーストされるが、この実施例では、それは-70dBである。入力マイクロホンレベル560と出力マイクロホンレベル565との垂直方向の分離によってマイクレベルがブーストされる程度が示される。この実施例では、「ノイズゲート停止」レベルと、最大信号対雑音比(SNR)レベルとの間で、マイクレベルが比較的小さくブーストされ、それ以上では入力マイクロホンレベルはブーストされない。いくつかのかかる実装では、結果として生じる帯域毎のゲインは、個々の帯域が誤って動作するのを防ぐために、近くの帯域のエネルギレベルにしたがって重み付けされる場合がある。これらのゲイン542は、メディア及びマイクロホンのゲイン調整ブロック545に渡される。
【0066】
メディア及びマイクロホンゲイン調整ブロック545は、ミキサブロック550に出力されるメディア及び環境マイクロホン音声データのゲイン値を決定する。例えば、いくつかの方法は、メディア出力音声データの存在下でのマイクロホン出力音声データの知覚音量とマイクロホン入力音声データの知覚音量との間の差分が、メディア入力音声データの存在下でのマイクロホン入力音声データの知覚音量とマイクロホン入力音声データの知覚音量との間の差分より小さくなるようにレベルを調整することを含み得る。いくつかの実施態様では、調整することは、マイクロホン入力音声データの複数の周波数帯域のうちの1つ以上のレベルをブーストすることのみを含み得る。しかしながら、いくつかの実施例では、調整することは、マイクロホン入力音声データの複数の周波数帯域のうちの1つ以上のレベルをブーストすること、メディア入力音声データの複数の複数の周波数帯域のうちの1つ以上のレベルを減衰させることの両方を含み得る。いくつかの実施例において、メディア出力音声データの存在下でのマイクロホン出力音声データの知覚された音量は、マイクロホン入力音声データの知覚された音量と実質的に等しい。いくつかの実施例によれば、メディア及びマイクロホン出力音声データの合計音量は、メディア及びマイクロホン入力音声データの合計音量と、メディア及びマイクロホン出力音声データの合計音量との間の範囲であり得る。しかしながら、場合によっては、メディア及びマイクロホン出力音声データの合計音量は、メディア及びマイクロホン入力音声データの合計音量に実質的に等しいか、あるいはメディア及びマイクロホン出力音声データの合計音量に実質的に等しいことがある。
【0067】
いくつかの実施例では、メディア及びマイクロホンゲイン調整ブロック545は、メディアダッカ又は減衰器を実装し得る。いくつかのかかる実施例によれば、メディア及びマイクロホンゲイン調整ブロック545は、圧縮されたマイクロホン信号にメディア信号を加えたものが、メディア信号のみよりも大きくならないようにするために必要な入力混合エネルギレベルを決定するように構成され得る。メディアダッカは、個々のフィルタバンク信号上で動作することができる。かかる実施例の1つによれば、総入力エネルギinput_energyは、
input_energy=|mic_in|+|media_in|
であり、マイクがブーストされた後のエネルギレベルは、
output_energy=|mic_out|+|media_in|
であり、メディア及びマイクロホンゲイン調整ブロック545は、例えば、以下のように、混合出力に適用されるダッキングゲインを計算するために、入出力エネルギの比を使用するように構成され得る:
mix_out=(mic_out+media_in)*input_energy/output_energy
【0068】
いくつかの実施例によれば、メディア及びマイクロホンゲイン調整ブロック545は、帯域ごとにダッキングゲインを適用するように構成され得る。
【0069】
図5Cは、
図5Aのメディア及びマイクロホンゲイン調整ブロックによって適用され得るダッキングゲインの一実施例を示す。
図5Cに示されるメディアレベル570bは、ダッキングゲインの効果を示す。
図5Bに示されるメディアレベル570aと
図5Cに示されるメディアレベル570bとを比較することによって、この実施例で適用されたメディアダッキングの量を見ることができる。
【0070】
この実施例によれば、ミキサブロック550がフィードバックマイクロホンゲインリミッタブロック525から受信し得る入力(例えば、マイクロホンゲイン制限527)にしたがうことを条件として、ミキサブロック550は、メディア及びマイクロホンゲイン調整ブロック545から受け取ったマイクロホン及びメディアゲインを、帯域周波数ドメインマイクロホン音声データ517a及び帯域周波数ドメインメディア音声データ517bに適用して、出力信号555を生成する。
【0071】
いくつかの実施例では、マイクロホンゲイン制限527は、フィードバックマイクロホンゲインリミッタブロック525がフィードバックリスク検出ブロック520から受け取るフィードバックリスク制御値522に基づき得る。いくつかの実施態様によれば、フィードバックマイクロホンゲイン制限ブロック525は、少なくとも部分的にフィードバックリスク制御値に基づいて、ゲイン値の第1セットとゲイン値の第2セットとの間を補間するように構成され得る。
【0072】
いくつかのかかる実装では、ゲイン値の第1セットは、複数の周波数帯域のうちの各周波数帯域に対する最小ゲイン値のセットであり得る。いくつかの実施例では、第2ゲイン値セットは、複数の周波数帯域のうちの各周波数帯域に対する最大ゲイン値を含み得る。いくつかの実装では、フィードバックのオンセットが検出されると、環境マイクロホン信号ゲインは、ゲイン値の第1セットに設定される。最大ゲイン値は、例えば、経験的観察に基づいて、フィードバックをトリガすることなく環境マイクロホン信号に安全に適用され得る最高レベルのゲインに対応するゲイン値のセットであり得る。いくつかの実施例によれば、マイクロホンゲイン制限527は、以下に説明されるフィードバックリスクスコア減衰平滑化プロセスにしたがって、最小ゲイン値から最大ゲイン値まで徐々に「解放(released)」され得る。
【0073】
図6は、フィードバックリスク検出ブロック520の詳細な実施例を示す。上述したように、フィードバックリスク検出器のいくつかの実装は、
図6に示されているよりも多くの又は少ないブロックを含み得る。この実施例によれば、フィルタバンク/パワー計算ブロック515aは、帯域周波数ドメインマイクロホン音声データ517aをフィードバックリスク検出ブロック520の帯域重み付けブロック(band weighting block)605に出力する。
【0074】
いくつかの例では、帯域重み付けブロック605は、1つ以上の環境オーバレイ不安定性周波数の事前知識に基づく重み付けファクタを適用するように構成されてもよい。各帯域に対する重み付けファクタは、例えば、テスト中のヘッドホンの観測された環境オーバレイ不安定性に基づいて選択され得る。重み付けファクタは、観察された不安定性のレベルと相関するように選択され得る。重み付けファクタは、1つ以上の環境オーバレイ不安定周波数に対応する1つ以上の周波数帯域のマイクロホン音声データを強調するように、及び/又は他の周波数帯域のマイクロホン音声データを強調しない(de-emphasize)ように設計され得る。1つの単純な例では、重み付けファクタは、周波数帯については単一の値(例えば、1)、強調されない周波数帯についてはゼロであってもよい。しかしながら、いくつかの例では、他のタイプの重み付けファクタが実装され得る。8つの周波数帯を含むいくつかの例において、各帯域に対する重みは、[0.1、0.3、0.6、0.8、1.0、.9、0.8、0.5]、[0.1、0.2、0.4、0.7、1.0、.9、0.7、0.4]、[0.15、0.35、0.55、0.85、1.0、1.0、0.85、0.55]、[0.05、0.15、0.35、0.65、.85、.9、0.65、0.4]、[0.1、0.2、0.45、0.7、0.9、0.9、0.7、0.45]、[0.1、0.35、0.6、0.8、1.0、0.8、0.6、0.35]、[0.0、0.25、0.5、0.75、1.0、1.0、0.75、0.5]、[0.05、0.3、0.55、0.8、1.0、1.0、0.8、0.55]、[0.0、0.20、0.4、0.65、0.9、1.0、0.65、0.4]、[0.1、0.3、0.6、0.85、1.0、1.0、0.85、0.6]又は[0.1、0.35、0.6、0.85、1.0、1.0、0.85、0.6]であり得る。
【0075】
この実施例では、重み付けされた帯域は加算ブロック610に加算され、重み付けされた帯域の合計は強調フィルタ615に提供される。強調フィルタ615は、1つ以上の環境オーバレイ不安定性周波数に対応する周波数帯域をさらに分離するように構成され得る。強調フィルタ615は、1つ以上の環境オーバレイ不安定性周波数に対応する(複数の)周波数帯域内の周波数の1つ以上の範囲を強調するように構成され得る。強調フィルタの(複数の)帯域幅は、不安定性を引き起こす周波数を含むように設計することができ、強調フィルタの大きさ(magnitude)は、不安定性の相対的なレベルに対応することができる。いくつかの例によれば、強調フィルタの帯域幅は、100Hz~400Hzの範囲であり得る。強調フィルタ615は、ピーキングフィルタであるか又はピーキングフィルタを含み得る。ピーキングフィルタは、1つ以上のピークを有し得る。各ピークは、不安定性を引き起こす周波数を目標とするように選択することができる。いくつかの例において、ピーキングフィルタは、ピーク当たり10dBの目標ゲインを有することができる。しかしながら、他の例は、より高い目標ゲイン又はより低い目標ゲインを有し得る。いくつかの例によれば、複数のピークを有するピーキングフィルタの中心周波数は、フィルタがオーバーラップするように互いに近接し得る。かかる場合には、いくつかの領域におけるピークゲインは、特定のピークに対する目標ゲインのゲインを超えることができ、例えば、10dBを超えることができる。いくつかの実施態様では、フィードバックリスク検出ブロック520は、帯域重み付けブロック605又は強調フィルタ615を含み得るが、両方を含んではならない。
【0076】
図6に示す実施形態では、フィードバックリスク検出ブロック520は、ヘッドホンマイクロホン音声データの複数の周波数帯域のうちの少なくとも1つをダウンサンプリングし、ダウンサンプリングされたヘッドホンマイクロホン音声データを生成するために、及び、ダウンサンプリングされたヘッドホンマイクロホン音声データをバッファ625に格納するために構成されている。この例では、ダウンサンプリングブロック620は、強調フィルタ615から出力されるフィルタリングされたヘッドホンマイクロホン音声データを受信し、フィルタリングされたヘッドホンマイクロホン音声データをダウンサンプリングして、ダウンストリーム処理の複雑さを低減する。いくつかの実施態様では、ダウンサンプリングブロック620は、フィルタリングされたヘッドホンマイクロホン音声データを係数4によってダウンサンプリングする。いくつかのかかる実装では、4でデシメートすることはダウンストリームのMIPSが16分の1に減少することを意味する。なぜなら、サンプル数が4分の1に低下し、フィルタ内のタップ数が4分の1に低下するためである。他の実装は、ダウンサンプリング量の減少又は増加を含み得る。
【0077】
いくつかの実施態様では、ダウンサンプリングブロック620は、アンチエイリアスフィルタを適用することなく、フィルタリングされたヘッドホンマイクロホン音声データをダウンサンプリングし得る。かかる実装は、計算効率を提供し得るが、いくつかの周波数特有の情報の損失を生じ得る。いくつかのかかる実施態様では、フィードバックリスク検出ブロック520は、(フィードバックリスク制御値で表される)ヘッドホンフィードバックのリスクを決定するために構成されるが、フィードバックリスクを引き起こしている特定の周波数帯域を決定するためには構成されない。しかしながら、アンチエイリアスフィルタが使用されないためにシステムが周波数をエイリアスするとしても、システムのいくつかの実装は、それにもかかわらず、特定の周波数で効果を探すように構成され得る。システムが別の周波数にエイリアスされたトーンを探している場合、システムは、例えば、エイリアスされた周波数に対応する周波数範囲におけるフィードバックリスクを検出するように構成され得る。例えば、特定のイヤーデバイスが周波数帯域1において環境オーバレイ不安定性を全く経験しない場合であっても、帯域N(より高い周波数帯域)から帯域1へのエイリアスがより高い周波数帯域から下がることがあるため、システムは、周波数帯域1において環境オーバレイ不安定性を探すように構成され得る。
図6に示す例によれば、ダウンサンプリングブロック620からダウンサンプリングされたヘッドホンマイクロホン音声データは、バッファ625の最新のサンプルとして提供される。
【0078】
いくつかの実施態様では、フィードバックリスク検出ブロック520は、ダウンサンプリングされたヘッドホンマイクロホン音声データの少なくとも一部に予測フィルタを適用して、予測ヘッドホンマイクロホン音声データを生成するように構成される。かかる実施例において、フィードバックリスク検出ブロック520は、バッファ625から時間Tにおいて受信されるダウンサンプリングされたヘッドホンマイクロホン音声データを読み出す(retrieving)ため、及び時間Tにおいて受信されたヘッドホンマイクロホン音声データに予測フィルタを適用して、時間T+Nに対する予測ヘッドホンマイクロホン音声データを生成するために構成され得る。
【0079】
いくつかの実施形態では、フィードバックリスク検出ブロック520は、バッファから時間T+Nにおいて受信されるダウンサンプリングされたヘッドホンマイクロホン音声データを読み出すため、及び時間T+Nに対する先行するヘッドホンマイクロホン音声データと、時間T+Nに受信される実際のダウンサンプリングされたヘッドホンマイクロホン音声データとの間のエラーを決定するために構成され得る。いくつかの実装では、Nは200ミリ秒以下である。
【0080】
図6に示される例では、予測フィルタ630は、バッファ625内の最も古いサンプル上で動作するように構成される。この実施態様によれば、予測フィルタ630は、最小二乗平均フィルタである。予測フィルタ630は、いくつかの例では、電流信号の前に100ミリ秒、150ミリ秒、200ミリ秒などを受信していてもよい、バッファ625内の最も古いサンプルに基づいて電流信号を推定するように構成される。
【0081】
図6に示される例では、予測フィルタ630は、現在信号(current signal)の予測Pを作成し、信号を誤差計算ブロック635に供給するように構成される。この実施例では、誤差計算ブロック635は、予測Pからバッファ625内の最新サンプルの値Yを減算することによって誤差Eを決定する。大きな誤差Eは、フィードバックリスクの表示であり得る。いくつかの実装では、誤差計算ブロック635は、予測P(例えば、最新の4つのサンプル)からバッファ625内の最新のサンプルのブロックに対応する値を減算することによって、誤差Eを決定し得る。この実施例によれば、予測フィルタ630は、バッファ内の最も古いサンプルのみならず、誤差計算ブロック635から受信した最新の誤差Eにも基づいて予測Pを決定する。
【0082】
いくつかの実施例によれば、フィードバックリスク検出ブロック520は、予測されるヘッドホンマイクロホン音声データ及び実際のダウンサンプリングされたヘッドホンマイクロホン音声データの複数のインスタンスに基づいて、現在フィードバックリスク傾向を決定するように構成され得る。いくつかのかかる実施例では、フィードバックリスク検出ブロック520は、現在フィードバックリスク傾向と先行するフィードバックリスク傾向との間の差分を決定するように構成され得る。フィードバックリスク制御値は、前記差分に基づく。
【0083】
いくつかのかかる実施例において、フィードバックリスク検出ブロック520は、差分を決定する前に、予測ヘッドホンマイクロホン音声データ及び実際のダウンサンプリングされたヘッドホンマイクロホン音声データを平滑化するように構成され得る。いくつかの実装では、フィードバックリスク検出ブロック520は、予測ヘッドホンマイクロホン音声データパワー及び実際のダウンサンプリングされたヘッドホンマイクロホン音声データパワーを決定するために構成され得る。現在のフィードバックリスク傾向及び先行するフィードバックリスク傾向は、少なくとも部分的に、予測ヘッドホンマイク音声データパワー及び実際のダウンサンプリングされたヘッドホンマイクロホン音声データパワーに基づき得る。いくつかのかかる実装によれば、フィードバックリスク検出ブロック520は、差分に少なくとも部分的に基づいて、生フィードバックリスクスコアを決定するために、及び、減衰平滑化関数を生フィードバックリスクスコアに適用して、平滑化されたフィードバックリスクスコアを生成するために構成され得る。フィードバックリスク制御値は、平滑化されたフィードバックリスクスコアに少なくとも部分的に基づき得る。
【0084】
図6に示す実施例では、予測フィルタ630は、予測信号Pの振幅をブロック640aに出力し、ブロック640aは、予測信号Pの振幅に基づいて予測信号Pのパワー(本明細書では、「予測ヘッドホンマイクロホン音声データパワー」とも称される)を決定するように構成される。この例では、ブロック640aは、予測ヘッドホンマイクロホン音声データパワーに平滑化フィルタを適用して、ブロック640aがブロック645に供給する、平滑化された予測ヘッドホンマイクロホン音声データパワー値を決定するように構成される。平滑化フィルタを適用することは、例えば、特定の実装に応じて、加重平均であってもなくてもよい、平均平滑化予測ヘッドホンマイクロホン音声データパワー値を計算することによって、例えば、予測信号Pの現在パワー値と最近計算されたパワー値の両方を使用して、平滑化された予測ヘッドホンマイクロホン音声データパワー値を決定する、ことを含み、
【0085】
図6に示される実施例において、ブロック640bは、バッファ625から読み出される実際のダウンサンプリングされたヘッドホンマイクロホン音声信号Xのパワーを決定するように構成される。いくつかの実施例において、ダウンサンプリングされたヘッドホンマイクロホン音声信号Xは、バッファ625内の最も古いサンプルの後のサンプル(換言すると、バッファ625が最も古いサンプルの後に受け取ったサンプル)であり得る。いくつかの例では、ダウンサンプリングされたヘッドホンマイクロホン音声信号Xは、バッファ625内の最も古いサンプルのブロックの後(例えば、最も古い4つ又は5つのサンプルのブロックの後)のサンプルであり得る。この例によれば、ブロック640bはまた、平滑化フィルタを実際のダウンサンプリングされたヘッドホンマイクロホン音声信号Xのパワーに適用して、ブロック640bがブロック645に提供する、平滑化された実際のダウンサンプリングされたヘッドホンマイクロホン音声信号パワー値を決定するように構成される。平滑化フィルタを適用することは、例えば、実際のダウンサンプリングされたヘッドホンマイクロホンオーディオ信号Xの現在パワー値と、最近計算されたパワー値の両方を使用して、例えば、特定の実装に応じて、加重平均であることも、そうでないこともあり得る、ダウンサンプリングされたヘッドホンマイクロホン音声信号パワー値の平均を計算することによって、平滑化された実際のダウンサンプリングされたヘッドホンマイクロホン音声信号パワー値を決定する、こと、を含む。
【0086】
ブロック645は、バッファ625内の最も古いサンプルに基づいて予測されたフィードバック傾向に対して、バッファ625内の最新のサンプルの現在の実際のフィードバック傾向を比較するように構成され得る。この実施例によれば、ブロック645は、ブロック640aからの入力をブロック640bからの対応する入力と比較するように構成される。この実装では、平滑化された予測ヘッドホンマイクロホン音声データパワー値を、対応する平滑化された実際のダウンサンプリングされたヘッドホンマイクロホン音声信号パワー値と比較することによって、ブロック645は、バッファ625内の最新のサンプルに基づいて予測されたフィードバックトレンドに対応するメトリックを、バッファ625内の最新のサンプルの現在の実際のフィードバックトレンドに対応するメトリックと比較するように構成される。いくつかの実施例によれば、ブロック645は、予測値を上回るマイクロホン信号の音調(tonality)のレベル(dB)を計算するように構成され得る。この計算されたレベルが十分に大きい場合(例えば、フィードバックリスクスコア計算ブロック655によって参照される開始値よりも大きい場合)、リスク値はゼロよりも高くなる(例えば、下記の式2を参照)。
【0087】
この例によれば、フィードバックリスクスコア計算ブロック655は、少なくとも部分的にブロック645からの入力に基づいて、生フィードバックリスクスコア657を決定する。いくつかの例によれば、フィードバックリスクスコア計算ブロック655は、ブロック650によって提供され得る1つ以上の調整可能なパラメータに少なくとも部分的に基づいて、生フィードバックリスクスコア657を決定する。
図6に示される例において、フィードバックリスクスコア計算ブロック655は、ブロック650を介して提供される調整可能なSensitivity、Onset、及びScaleパラメータに少なくとも部分的に基づいて、生フィードバックリスクスコア657を決定する。
【0088】
一実施例において、フィードバックリスクスコア計算ブロック655は、以下の方程式に従ってフィードバック値を最初に決定することによって、生フィードバックリスクスコア657を決定する:
F=10Log10((Psmooth)/(Xsmooth+Sensitivity)) 式(1)
【0089】
式(1)において、Fは、フィードバック値を表し、Psmoothは、(ブロック640aによって決定され得る)平滑化された予測ヘッドホンマイクロホン音声データパワー値を表し、Xsmoothは、(ブロック640bによって決定され得る)平滑化された実際のダウンサンプリングされたヘッドホンマイクロホン音声信号パワー値を表し、Sensitivityは、ブロック650を介して提供され得るパラメータを表す。この実施例では、Sensitivityは、例えばデシベルで測定され得るフィードバック認識のための閾値である。Sensitivityパラメータは、例えば、算出されたリスクがゼロでないリスク値を保証するほど十分に大きくない信号に対してゼロであるように、環境入力のレベルに下限/閾値を提供し得る。いくつかの例によれば、Sensitivityは、-40dBから-80dBの範囲、例えば、-55dB、-60dB又は-65dBであり得る。いくつかの実施例では、負のF値が相対的に大きいことは、フィードバックの可能性が相対的に高いことを示しているが、正の値はフィードバックのリスクがないことを示している。
【0090】
いくつかのかかる実施例によれば、フィードバックリスクスコア計算ブロック655は、フィードバック値に部分的に基づいた生フィードバックリスクスコア657を、例えば、以下の方程式にしたがって決定する:
スコア=分(最大(F ― Onset(0))、Scale)/Scale 式(2)
【0091】
式(2)において、スコアは、生フィードバックリスクスコア657を表し、Onset及びScaleは、ブロック650を介して提供され得るパラメータを表す。この実施例では、Onsetはフィードバック検出をトリガする最小(相対)レベルを表し、Scaleはオンセットを上回るフィードバックレベルの範囲を表す。いくつかの実施例において、Onsetは、-5dBから-15dBの範囲、例えば-8dB、-10dB又は-12dBの値を有し得る。いくつかの実施例によれば、Scaleは、0.0~1.0の値の範囲などの、値の範囲にマップし得る。いくつかの例では、Scaleは、2dB~6dBの範囲の値、例えば、3dB、4dB又は5dBを有することがある。
【0092】
図6に示す例では、ブロック660は、フィードバックリスクスコア計算ブロック655から生フィードバックリスクスコア657を受信し、平滑化関数を適用して、平滑化されたフィードバックリスクスコア522をフィードバックマイクロホンゲインリミッタブロック525に出力する。ブロック660は、例えば、ローパスフィルタを生フィードバックリスクスコア657に適用し得る。いくつかの実施例において、ブロック660は、例えば、フィードバックリスクの閾値レベルが検出された後に、減衰平滑化関数を生フィードバックリスクスコア657に適用し得る。減衰平滑化関数は、環境マイク信号があまり急激に増加しないように、環境マイク信号のゲインを制限し得る。
【0093】
いくつかの実装によれば、平滑化されたフィードバックリスクスコア522は、環境マイクロホン信号に対するゲイン値の最小セットとゲイン値の最大セットとの間を補間するために使用され得る。そのような実装では、平滑化されたフィードバックリスクスコア522を使用して、ゲイン値の最小セットとゲイン値の最大セットとの間で線形補間することができるが、他の実装では、補間は非線形であり得る。
【0094】
いくつかの実施例において、ブロック550は、以下の通りに減衰平滑化関数を適用し得る:
Smoothed Feedback Risk=max(0,max((Previous Feedback Risk Score-Feedback Risk Decay),Current Feedback Risk Score)) 式(3)
【0095】
式(3)において、Feedback Risk Decayは、フィードバックリスクスコアリリースの減衰係数を表す。いくつかの実施例において、Feedback Risk Decayは、0.000005~0.00002の範囲、例えば、0.00001であり得る。いくつかの実施例によれば、減衰平滑化は、サブサンプリングレート(例えば、サブサンプリング後に4)で、サンプル毎に行われ得る。かかる一実施例では、減衰係数0.00001は、最大リスクスコア(例えば1.0)から最小リスクスコア(例えば0.0)への減衰時間を意味し、Fs=48kHzでは(1/0.00001)/(Fs/4)=~8秒となる。
【0096】
本開示に記載された実装に対する種々の変更は、当業者には容易に明らかとなり得る。本明細書で定義される原則は、本開示の範囲から逸脱することなく、他の実施形態に適用され得る。したがって、特許請求の範囲は、本明細書に示されている実施形態に限定されることを意図するものではなく、本開示、原理及び本明細書に開示されている新たな特徴と一致する最も広い範囲に与えられるべきである。