IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー ラボラトリーズ ライセンシング コーポレイションの特許一覧 ▶ ドルビー・インターナショナル・アーベーの特許一覧

<>
  • 特表-適応ノイズ推定 図1
  • 特表-適応ノイズ推定 図2
  • 特表-適応ノイズ推定 図3
  • 特表-適応ノイズ推定 図4
  • 特表-適応ノイズ推定 図5
  • 特表-適応ノイズ推定 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-10-12
(54)【発明の名称】適応ノイズ推定
(51)【国際特許分類】
   G10L 21/0232 20130101AFI20231004BHJP
   G10L 25/84 20130101ALI20231004BHJP
【FI】
G10L21/0232
G10L25/84
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023518158
(86)(22)【出願日】2021-09-21
(85)【翻訳文提出日】2023-03-20
(86)【国際出願番号】 US2021051162
(87)【国際公開番号】W WO2022066590
(87)【国際公開日】2022-03-31
(31)【優先権主張番号】P202030960
(32)【優先日】2020-09-23
(33)【優先権主張国・地域又は機関】ES
(31)【優先権主張番号】63/120,253
(32)【優先日】2020-12-02
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/168,998
(32)【優先日】2021-03-31
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(71)【出願人】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】スカイーニ,ダヴィデ
(72)【発明者】
【氏名】イエー,チョンシン
(72)【発明者】
【氏名】チェンガーレ,ジュリオ
(72)【発明者】
【氏名】デ バーグ,マーク デイヴィッド
(57)【要約】
幾つかの実施形態では、方法は、少なくとも1つのプロセッサを使用して、オーディオ入力を音声セグメントと非音声セグメントに分割するステップと、前記少なくとも1つのプロセッサを使用して、各非音声セグメントのフレームごとに、前記非音声セグメントの時間変化するノイズスペクトルを推定するステップと、前記少なくとも1つのプロセッサを使用して、各音声セグメントのフレームごとに、前記音声セグメントの音声スペクトルを推定するステップと、各音声セグメントのフレームごとに、前記音声スペクトルの1つ以上の非音声周波数成分を識別するステップと、前記1つ以上の非音声周波数成分と複数の推定ノイズスペクトルの1つ以上の対応する周波数成分を比較するステップと、比較の結果に基づいて、前記複数の推定ノイズスペクトルから推定ノイズスペクトルを選択するステップと、を含む。
【特許請求の範囲】
【請求項1】
適応ノイズ推定の方法であって、
少なくとも1つのプロセッサを使用して、オーディオ入力を音声セグメントと非音声セグメントに分割するステップと、
前記少なくとも1つのプロセッサを使用して、各非音声セグメントのフレームごとに、前記非音声セグメントの時間変化するノイズスペクトルを推定するステップと、
前記少なくとも1つのプロセッサを使用して、各音声セグメントのフレームごとに、前記音声セグメントの音声スペクトルを推定するステップと、
各音声セグメントのフレームごとに、
前記音声スペクトルの1つ以上の非音声周波数成分を識別するステップと、
前記1つ以上の非音声周波数成分と複数の推定ノイズスペクトルの1つ以上の対応する周波数成分を比較するステップと、
比較の結果に基づいて、前記複数の推定ノイズスペクトルから推定ノイズスペクトルを選択するステップと、
を含む方法。
【請求項2】
前記複数の推定ノイズスペクトルが、過去の非音声セグメントに対する推定ノイズスペクトルと、将来の非音声セグメントに対する推定ノイズスペクトルを含む、請求項1に記載の方法。
【請求項3】
前記少なくとも1つのプロセッサを使用して、前記選択した推定ノイズスペクトルを使用して前記オーディオ入力のノイズを低減するステップ、を更に含む請求項1又は2に記載の方法。
【請求項4】
前記オーディオ入力の各フレームで音声の確率を取得し、該確率に基づいて音声を含むフレームを識別するステップを更に含む、請求項1~3のいずれかに記載の方法。
【請求項5】
前記時間変化するノイズスペクトルが、前記非音声セグメントのパワースペクトルの移動平均を計算し、現在の非音声セグメントと少なくとも1つの過去の非音声セグメントのパワースペクトルを平均することによって推定される、請求項1~4のいずれかに記載の方法。
【請求項6】
前記非音声セグメントの間、前記時間変化する推定ノイズスペクトルが、前記選択された推定ノイズスペクトルを使用して前記オーディオ入力のノイズを低減するように構成されたノイズ低減ユニットに供給される、請求項1~5のいずれかに記載の方法。
【請求項7】
音声セグメントごとに、前記音声セグメントの前の過去の推定ノイズスペクトル、前記音声セグメントの後の将来の推定ノイズスペクトル、及び現在の音声フレームが、前記現在の音声セグメントのノイズを表す可能性が最も高い推定ノイズスペクトルを決定するために使用される、請求項2~6のいずれかに記載の方法。
【請求項8】
前記現在の音声セグメントのノイズを表す可能性が最も高い推定ノイズスペクトルを決定することは、
前記音声セグメントの前後の過去及び将来の非音声セグメントの過去及び将来のノイズスペクトルから、各々、平均ノイズスペクトルを取得するステップと、
前記過去及び将来のノイズスペクトルの上限周波数を決定するステップと、
2つの上限周波数のうち最も低い周波数であるカットオフ周波数を決定するステップと、
前記音声スペクトルの周波数成分と前記ノイズスペクトルの周波数成分の間の距離メトリックを計算するステップと、
前記オーディオ入力の前記推定ノイズスペクトルとして、前記過去又は将来のノイズスペクトルのうち、前記カットオフ周波数までの最小距離メトリックを有するノイズスペクトルを選択するステップと、
をさらに含む、請求項7に記載の方法。
【請求項9】
前記距離メトリックが、音声セグメント内の音声フレームのセットにわたって平均化される、請求項8に記載の方法。
【請求項10】
音声成分がオーディオ信号の前記音声セグメント内で推定され、次に実際の音声成分から減算されて、推定非音声周波数成分として残差スペクトルを得る、請求項1~9のいずれか一項に記載の方法。
【請求項11】
命令を格納している非一時的コンピュータ可読記憶媒体であって、前記命令は、1つ以上のプロセッサにより実行されると、前記1つ以上のプロセッサに、請求項1~9のいずれか一項に記載の方法の動作を実行させる、非一時的コンピュータ可読記憶媒体。
【請求項12】
オーディオプロセッサであって、
オーディオ入力を音声セグメントと非音声セグメントに分割するように構成された分割ユニットと、
音声セグメントごとに音声スペクトルを、及び非音声セグメントごとに時間変化するノイズスペクトルを推定するように構成された平均化ユニットと、
類似性メトリックユニットであって、
前記音声スペクトルの1つ以上の非音声周波数成分を識別し、
前記1つ以上の非音声周波数成分を、複数の推定ノイズスペクトルの中の1つ以上の対応する周波数成分と比較し、
比較の結果に基づいて、前記複数の推定ノイズスペクトルから推定ノイズスペクトルを選択する、
よう構成される類似性メトリックユニットと、
を含むオーディオプロセッサ。
【請求項13】
前記複数の推定ノイズスペクトルが、過去の非音声セグメントに対する推定ノイズスペクトルと、将来の非音声セグメントに対する推定ノイズスペクトルを含む、請求項12に記載のオーディオプロセッサ。
【請求項14】
前記選択した推定ノイズスペクトルを使用して前記オーディオ入力のノイズを低減するよう構成されるノイズ低減ユニット、を更に含む請求項12又は13に記載のオーディオプロセッサ。
【請求項15】
前記非音声セグメントの間、前記ノイズ低減ユニットは、前記非音声セグメントを受信し、前記選択された推定ノイズスペクトルを使用して前記オーディオ入力のノイズを低減するように構成される、請求項13又は14に記載のオーディオプロセッサ。
【請求項16】
前記ノイズ低減ユニットは、前記オーディオ入力のスペクトルと前記選択された推定ノイズスペクトルを比較し、前記オーディオ入力のエネルギが前記ノイズスペクトルのエネルギに事前定義された閾値を加えたものよりも小さくなる周波数帯域にゲイン低減を適用することにより、前記選択された推定ノイズスペクトルを使用して前記オーディオ入力のノイズを低減するように構成される、請求項14又は15に記載のオーディオプロセッサ。
【請求項17】
音声活性検出器(VAD)は、前記オーディオ入力の各フレーム内の音声の確率を取得し、該確率に基づいて音声を含むフレームを識別するよう構成される、請求項12~16のいずれかに記載のオーディオプロセッサ。
【請求項18】
前記平均化ユニットが、前記非音声セグメントのパワースペクトルの移動平均を計算し、現在の非音声セグメントと少なくとも1つの過去の非音声セグメントのパワースペクトルを平均することによって、前記時間変化するノイズスペクトルを推定するよう構成される、請求項12~17のいずれかに記載のオーディオプロセッサ。
【請求項19】
音声セグメントごとに、前記類似性メトリックユニットは、前記音声セグメントの前の過去の推定ノイズスペクトル、前記音声セグメントの後の将来の推定ノイズスペクトル、及び現在の音声フレームに基づいて、現在の音声セグメントのノイズを表す可能性が最も高い推定ノイズスペクトルを決定するように構成される、請求項12~18のいずれかに記載のオーディオプロセッサ。
【請求項20】
前記類似性メトリックユニットは、
前記音声セグメントの前後の過去及び将来の非音声セグメントの過去及び将来のノイズスペクトルから、各々、平均ノイズスペクトルを取得し、
前記過去及び将来のノイズスペクトルの上限周波数を決定し、
2つの上限周波数のうち最も低い周波数であるカットオフ周波数を決定し、
前記音声スペクトルの周波数成分と前記ノイズスペクトルの周波数成分の間の距離メトリックの計算し、
前記オーディオ入力の前記推定ノイズスペクトルとして、前記過去又は将来のノイズスペクトルのうち、前記カットオフ周波数までの最小距離メトリックを有するノイズスペクトルを選択する、
ことにより前記現在の音声セグメントのノイズを表す可能性が最も高い推定ノイズスペクトルを決定するよう構成される、請求項19に記載のオーディオプロセッサ。
【請求項21】
前記類似性メトリックユニットは、音声セグメント内の音声フレームのセットにわたって前記距離メトリックを平均化するように構成される、請求項20に記載のオーディオプロセッサ。
【請求項22】
前記類似性メトリックユニットが、前記オーディオ入力の前記音声グメント内の1つ以上の音声成分を推定し、次に実際の音声成分から前記1つ以上の推定された音声成分を減算して、推定非音声周波数スペクトルとして残差スペクトルを取得するように構成されている、請求項12に記載のオーディオプロセッサ。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願の相互参照]
本願は、参照により全体がここに組み込まれる、2020年12月2日に出願した米国仮出願番号第63/120,253号、2021年3月31日に出願した米国仮出願番号第63/168,998号及び2020年9月23日に出願したスペイン特許出願番号第P202030960号、の優先権を主張する。
【0002】
[技術分野]
本開示は、概してオーディオ信号処理に関連し、特に、ノイズ低減に使用するためのオーディオ信号のノイズフロアの推定に関連する。
【背景技術】
【0003】
ノイズ推定は、オーディオ録音の定常状態のノイズを減らすために一般的に使用される。通常、ノイズ推定は、ノイズのみを含むオーディオ録音のセグメントにわたって各周波数帯域のエネルギを分析することによって得られる。しかしながら、一部のオーディオ録音では、定常状態のノイズは時間の経過とともに滑らかに及び/又は突然に変化する。このような突然の変化の例としては、背景環境ノイズが時間の経過とともに突然変化するオーディオ録音(例えば、部屋の中で扇風機のスイッチを入れたり切ったりする)や、異なる場所で録音された一連のインタビューを含むポッドキャストのように、各々が異なるノイズフロアを持つ異なるオーディオ録音を纏めて編集して得られたオーディオコンテンツなどがある。さらに、ノイズの変化は通常、非音声の十分に長いセグメントの間には発生しないため、オーディオ録音の初期段階でノイズの変化が検出及び推定されない場合がある。
【0004】
既存の方法の中には、ノイズのみを含むオーディオ録音のセグメントを使用して、ノイズフロアの単一の推定を実行するものもある。他の既存の方法では、単一の基礎となるノイズフロアに収束するオーディオ録音全体の分析を実行する。しかしながら、これらの方法の欠点は、ノイズレベルやスペクトルの変化に適応できないことである。他の既存の方法では、各周波数帯域のエネルギの最小エンベロープを推定し、(例えば、推定された最小エンベロープを適切な時定数で平滑化することによって)推定された最小エンベロープを時間に渡り追跡する。しかし、これらの既存の方法は、リアルタイムのオンラインオーディオ信号処理アーキテクチャで一般的に採用されており、オーディオ録音内のノイズの突然の変化に正確に反応することはできない。
【発明の概要】
【0005】
適応ノイズ推定のための実装が開示される。
【0006】
幾つかの実施形態では、適応ノイズ推定の方法は、
少なくとも1つのプロセッサを使用して、オーディオ入力を音声セグメントと非音声セグメントに分割するステップと、
前記少なくとも1つのプロセッサを使用して、各非音声セグメントのフレームごとに、前記非音声セグメントの時間変化するノイズスペクトルを推定するステップと、
前記少なくとも1つのプロセッサを使用して、各音声セグメントのフレームごとに、前記音声セグメントの音声スペクトルを推定するステップと、
各音声セグメントのフレームごとに、
前記音声スペクトルの1つ以上の非音声周波数成分を識別するステップと、
前記1つ以上の非音声周波数成分と複数の推定ノイズスペクトルの1つ以上の対応する周波数成分を比較するステップと、
比較の結果に基づいて、前記複数の推定ノイズスペクトルから推定ノイズスペクトルを選択するステップと、
を含む。実施形態では、前記方法は、前記少なくとも1つのプロセッサを使用して、前記選択した推定ノイズスペクトルを使用して前記オーディオ入力のノイズを低減するステップ、を更に含む。
【0007】
幾つかの実施形態では、前記方法は、前記オーディオ入力の各フレームで音声の確率を取得し、該確率に基づいて音声を含むフレームを識別するステップを更に含む。
【0008】
幾つかの実施形態では、前記時間変化するノイズスペクトルが、前記非音声セグメントのパワースペクトルの移動平均を計算し、現在の非音声セグメントと少なくとも1つの過去の非音声セグメントのパワースペクトルを平均することによって推定される。
【0009】
幾つかの実施形態では、前記非音声セグメントの間、前記時間変化する推定ノイズスペクトルが、前記選択された推定ノイズスペクトルを使用して前記オーディオ入力のノイズを低減するように構成されたノイズ低減ユニットに供給される。
【0010】
幾つかの実施形態では、音声セグメントごとに、前記音声セグメントの前の過去の推定ノイズスペクトル、前記音声セグメントの後の将来の推定ノイズスペクトル、及び現在の音声フレームが、前記現在の音声セグメントのノイズを表す可能性が最も高い推定ノイズスペクトルを決定するために使用される。
【0011】
幾つかの実施形態では、前記現在の音声セグメントのノイズを表す可能性が最も高い推定ノイズスペクトルを決定することは、
前記音声セグメントの前後の過去及び将来の非音声セグメントの過去及び将来のノイズスペクトルから、各々、平均ノイズスペクトルを取得するステップと、
前記過去及び将来のノイズスペクトルの上限周波数を決定するステップと、
2つの上限周波数のうち最も低い周波数であるカットオフ周波数を決定するステップと、
前記音声スペクトルの周波数成分と前記ノイズスペクトルの周波数成分の間の距離メトリックを計算するステップと、
前記オーディオ入力の前記推定ノイズスペクトルとして、前記過去又は将来のノイズスペクトルのうち、前記カットオフ周波数までの最小距離メトリックを有するノイズスペクトルを選択するステップと、
をさらに含む。
【0012】
幾つかの実施形態では、前記距離メトリックが、音声セグメント内の音声フレームのセットにわたって平均化される。
【0013】
幾つかの実施形態では、音声成分が前記オーディオ信号の前記音声セグメント内で推定され、次に実際の音声成分から減算されて、推定非音声周波数成分として残差スペクトルを得る。
【0014】
幾つかの実施形態では、オーディオプロセッサは、
オーディオ入力を重なり合うフレームのセグメントに分割するように構成される分割器と、
前記重なり合うフレームのセグメントを格納するよう構成される複数のバッファと、
各バッファに格納されたセグメントごとに、周波数スペクトルを計算するよう構成されるスペクトル分析ユニットと、
前記オーディオ入力の中の音声セグメントと非音声セグメントを検出するよう構成される音声活性検出器(voice activity detector (VAD))と、
前記VADの出力に結合され、前記VAD出力により識別された音声セグメントごとに音声スペクトルを、及び前記VAD出力により識別された非音声セグメントごとに時間変化するノイズスペクトルを計算するように構成された平均化ユニットと、
を含む。
【0015】
実施形態では、オーディオプロセッサは、
オーディオ入力の中の音声セグメントと非音声セグメントを検出するように構成されたVADと、
前記VADの出力に結合され、前記VAD出力によって識別される音声セグメントごとに音声スペクトルを、前記VAD出力によって識別される非音声セグメントごとにノイズスペクトルを取得するように構成された平均化ユニットと、
現在の音声スペクトルの1つ以上の周波数成分と各ノイズスペクトルの対応する1つ以上の周波数成分の間の類似性メトリックを計算し、前記類似性メトリックに基づいて前記ノイズスペクトルから1つのノイズスペクトルを選択するように構成された類似性メトリックユニットと、
選択されたノイズスペクトルを使用して前記オーディオ入力のノイズを低減するように構成されたノイズ低減ユニットと、
を含む。
【0016】
本願明細書に開示される他の実装は、システム、機器、及びコンピュータ可読媒体を対象とする。開示される実装の詳細は、添付の図面及び以下の説明において説明される。他の特徴、目的、及び利点は、説明、図面、及び請求項から明らかになる。
【0017】
本願明細書に開示される特定の実装は、以下の利点のうちの1つ以上を提供する。音声が存在する場合のオーディオ録音におけるノイズを適応的に推定する方法が開示される。実施形態では、適応的ノイズ推定は、オーディオ録音に対してオフラインで実行され、オーディオ録音の所与のフレームの前後の両方を見ることによってノイズ変化を推定する。従来の適応的ノイズ推定方法と比較した利点は、現在の音声セグメントの前後で計算された最良の利用可能な候補ノイズフロア推定の中から選択することによって、音声の下のノイズフロアが推定されることである。
【図面の簡単な説明】
【0018】
図中、装置、ユニット、命令ブロック、及びデータ要素のような概略的要素の特定の構成又は順序は、説明を簡単にするために示される。しかしながら、当業者により理解されるべきことに、当業者は、図中の概略的要素の特定の順序又は構成が、処理の特定の順序又はシーケンス、又は処理の分離が必要であることを意味しない。更に、図中の概略的要素の包含は、そのような要素が全部の実施形態で必要であること、又はそのような要素により表現された特徴が幾つかの実装の他の要素に含まれる又はそれに結合されないことを意味しない。
【0019】
更に、図中、実線又は破線又は矢印のような接続要素が2つ以上の他の概略的要素の間の又はその中の接続、関係、又は関連付けを説明するために使用される場合、任意のそのような接続要素が存在しないことは、接続、関係、又は関連付けが存在しないことを意味しない。言い換えると、要素間の幾つかの接続、関係、又は関連付けは、本開示を不明瞭にしないように、図中に示されない。更に、説明を容易にするために、単一の接続要素が、要素間の複数の接続、関係、又は関連付けを表すために使用される。例えば、接続要素が信号、データ、又は命令の通信を表す場合、そのような要素が1又は複数の信号パスが必要に応じて通信に影響することが、当業者により理解されるべきである。
【0020】
図1】幾つかの実施形態による、オーディオ波形、時間の経過に伴う音声活性、及びオーディオ波形の非音声セグメントを決定するために使用される閾値を示す2次元(2D)プロットである。
【0021】
図2】幾つかの実施形態による、時間の経過に伴う音声活性、オーディオ波形の非音声セグメント及び音声活性が閾値より低いノイズセグメントを決定するために使用される閾値の2Dプロットである。
【0022】
図3】幾つかの実施形態による、音声セグメントに対応する平均音声スペクトルと、音声セグメントの前後の非音声セグメントに対応する2つのノイズスペクトルを示している。
【0023】
図4】幾つかの実施形態による、適応ノイズ推定及びノイズ低減のためのシステムのブロック図である。
【0024】
図5】幾つかの実施形態による、ノイズフロア推定及びノイズ低減のための処理のフロー図である。
【0025】
図6】実施形態による、図1~5を参照して説明される機能及び処理を実装するシステムのブロック図である。
【0026】
種々の図面で使用される同じ参照符号は同様の要素を示す。
【発明を実施するための形態】
【0027】
以下の詳細な説明では、種々の記載される実施種形態の完全な理解を提供するために、多くの特定の詳細が説明される。種々の記載される実装がこれらの特定の詳細を有しないで実施されてよいことが、当業者に明らかである。他の例では、実施形態の態様を不必要に不明瞭にしないように、よく知られた方法、手順、コンポーネント、及び回路は詳細に説明されない。互いに独立に又は他の特徴との任意の組合せにより使用できる幾つかの特徴が以下に説明される。
【0028】
<命名法>
本願明細書で使用されるとき、用語「含む」及びその変形は、「含む(include)が、それに限定されない」を意味する広義の用語として解釈される。用語「又は」は、文脈上明確に示されない限り、「及び/又は」として解釈される。用語「に基づく」は、「少なくとも部分的に基づく」として解釈される。用語「1つの例示的な実装」及び「例示的な実装」は、「少なくとも1つの例示的な実装」として解釈されるべきである。用語「別の実装」は、「少なくとも1つの他の実装」として解釈されるべきである。用語「決定された」、「決定する」、又は「決定すること」は、取得する、受信する、計算する、算出する、推定する、予測する、又は導出すると解釈されるべきである。更に、以下の説明及び請求の範囲では、特に断りのない限り、本願明細書で使用される全ての技術的及び科学的用語は、本開示が属する分野の当業者により一般的に理解されるものと同じ意味を有する。
【0029】
<システム概要>
開示された実施形態は、音声活性検出(Voice Activity Detection (VAD))分類器を使用して、オーディオ入力を音声を含む音声セグメントと音声を含まない非音声セグメントに分割する。非音声セグメントでは、非音声セグメントの各フレームで、現在のフレーム周辺の時間領域の周波数あたりのエネルギを平均することによって、ノイズスペクトルが推定される。音声セグメントでは、音声セグメントの各フレームについて、音声スペクトル内の1つ以上の非音声周波数成分を識別することによって、時間的に前後の非音声領域の推定ノイズスペクトルが選択される。1つ以上の非音声周波数成分は、類似性メトリック(例えば、周波数成分間の距離)を使用して、前の非音声領域と次の非音声領域の推定ノイズスペクトル内の対応する1つ以上の周波数成分と比較される。
【0030】
図1は、実施形態による、オーディオ波形、時間の経過に伴う音声活性、及びオーディオ波形の非音声セグメントを決定するために使用される閾値を示す2次元(2D)プロットである。簡単のために、オーディオ波形の振幅値は図1には示されていない。横軸は時間単位(例えばミリ秒)である。音声を含むオーディオ録音を含むオーディオ入力(例えば、オーディオファイル)は、重なり合ったフレームに分割される。実施形態では、VADを使用して各フレーム内の音声の確率を取得し、その後、オーディオ入力を音声確率の閾値に基づいて音声セグメントと非音声セグメントに分割する。示されている例では、垂直軸はVAD値(音声が存在する確率)を表し、水平線で示される例示的なVAD閾値は約0.18である。図2は、図1に示されているノイズセグメントのクローズアップを示しており、VAD値はVAD閾値よりも低くなっている。
【0031】
オーディオ録音における音声及び非音声セグメントを検出するための任意の適切なVADアルゴリズムを使用することができ、これには、ゼロ交差率及びエネルギ測定、線形ベースのエネルギ検出、適応線形ベースのエネルギ検出、パターン認識及び統計的測定に基づくVADアルゴリズムを含むが、これらに限定されない。
【0032】
実施形態では、非音声セグメントのノイズスペクトルは、適応音声認識ノイズ推定(adaptive voice-aware noise estimation (AVANE))を使用して推定され、音声セグメント内の最も類似した堅牢なノイズ推定を推論する。AVANEは、非音声フレームのパワースペクトルの移動平均を計算し、各非音声フレームについて、現在の非音声フレームと1つ以上の過去の非音声フレームのパワーを平均することによって、非音声フレーム内のノイズのパワースペクトルを計算する。実施形態では、平均すべき過去のフレーム数は時定数によって決定される。算術移動平均、指数移動平均、平滑移動平均、加重移動平均など、任意の適切な移動平均アルゴリズムを使用できるが、これらに限定されない。
【0033】
AVANEは、2つの方法で使用される時間変化するノイズスペクトルを生成する。まず、非音声セグメント中に、時間変化する推定ノイズがノイズ低減システムに供給される(例えば、バッファごとに供給される)。次に、音声セグメント中に、現在の音声セグメントの前の最後のAVANE推定と現在の音声セグメントの後の第1AVANE推定が、現在の音声フレームとともに推定コンポーネントに供給される。推定コンポーネントは、現在の音声フレームでノイズを表す可能性が最も高いAVANE推定を決定する。
【0034】
AVANE推定の代替方法には、例えばDoblinger,G.(1995)で説明されているように、サブバンドでのスペクトル最小トラッキングが含まれる。サブバンドでのスペクトル最小トラッキングによる計算効率の高い音声強調。Proc.EUROSPEECH'95, Madrid, pp 1513-1516、又は例えばMartin,R.(2001)に記載されたような最適な平滑化及び最小統計に基づくノイズパワースペクトル密度推定。最適な平滑化と最小統計に基づくノイズパワースペクトル密度推定。IEEE Transactions on Speech and Audio Processing. 9(5)504-512。
【0035】
所与の音声セグメント内で、音声セグメントの基礎となるノイズスペクトルを推定するために2つの実施形態を提案する。第1実施形態では、音声成分を推定した後、実際の音声成分から減算して、ノイズ推定として残差スペクトルを得る。この実施形態は、背景ノイズの直接推定につながるため、AVANEとは関連も結合もしない。音声は高調波成分が支配的であると仮定し、まずピッチを推定し、高調波成分を特定する。正弦波モデルとそのパラメータ推定に基づいて、音声信号から高調波成分を減算し、残差信号を得る。この方法は、例えば、Stylianou, Y. (1996) Harmonic plus Noise Models for Speech combined with Statistical Methods for Speech and Speaker Modification, PhD Thesis, Telecom Parisに記述されている。もう1つの可能性は、基本周波数(fundamental frequency (F0))情報なしで、所与の短時間スペクトルの正弦波を特定して減算することである。この方法は、例えば、Yeh, C. (2008) Multiple Fundamental Frequency Estimation of Polyphonic Recordings. Ph.D. thesis, University Parisに記述されている。
【0036】
別の実施形態では、高調波成分は、例えば、Z.Zhang、K.Honda及びJ.Wei、「Retrieving Vocal-Tract Resonance and anti-Resonance From High-Pitched Vowels Using a Rahmonic Subtraction Technique」、ICASSP2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)、バルセロナ、スペイン、2020、pp.7359-7363、doi:10.1109/ICASSP40776.2020.9054741に記載されているように、ケプストラム領域で推定され、減衰する。
【0037】
AVANE法は、基になるノイズスペクトルが、音声セグメントの前の最後のAVANE又は音声セグメントの後の第1AVANEのいずれかに近いことを前提としている。この実施形態では、音声が支配的でないスペクトルのセグメント(例えば、高周波数)を特定し、主にノイズ成分があるスペクトルの非音声セグメントのみを考慮して、音声スペクトルとAVANEの間のスペクトル類似性指標(例えば、距離指標)を計算する。実施形態では、スペクトル類似性測定は、音声スペクトルとAVANEとの間の距離に基づいている。信号対ノイズ比(signal-to-noise (SNR))(音声のエネルギと音声の周波数帯域のノイズのエネルギとの比をデシベル単位で定義する)が正であると仮定すると、さらに制約を追加して、(AVANEと同じ長さの継続時間内の)関心領域の平均音声スペクトルが選択されるべきAVANEを超える場合にのみ、選択されたAVANEを受け入れることができる。
【0038】
高調波減算を使用してノイズスペクトルの推定を計算する実施形態では、スペクトル類似性測定は、音声スペクトルの非音声周波数領域に限定されず、スペクトル全体に拡張することも、高調波推定が有効である特定の音声周波数、例えば音声の最低周波数範囲、を超える周波数に限定することもできる。したがって、類似性指標は、音声セグメントからの高調波減算後の残差信号と、音声セグメントの前後のAVANE推定との間で計算される。
【0039】
実施形態では、オーディオフレームが与えられた場合、オーディオフレームのエネルギスペクトルが計算され、デシベルスケールに変換される。現在のオーディオフレームが音声フレーム(すなわち、音声セグメント内)の場合、音声セグメントの前後で以前に計算された平均ノイズスペクトル(dB)が、例えばストレージ(例えば、メモリ、ディスク)から取得される。図3は、幾つかの実施形態による、平均音声スペクトルと、音声セグメントの前後の非音声セグメントに対応する2つのノイズスペクトルを示している。
【0040】
これら2つのノイズスペクトルと現在の音声スペクトルが与えられると、ノイズスペクトルの上限周波数fcが計算され、2つの限度のうちの最低値が「カットオフ」周波数fcutoffとして保持される。次に、この例では音声スペクトルと2つのノイズスペクトルの差(「距離」)の絶対値の合計である類似性メトリックが、例えば音声スペクトルの半分からカットオフ周波数までのセグメントで計算される。(前に定義したように)最小距離のノイズスペクトルは、オーディオ録音のノイズスペクトルの現在の推定値として保持される。代替の実施形態では、距離指標を音声フレームのセットにわたって計算して平均化することができ、最小平均距離を与えるノイズスペクトルが、ノイズスペクトルの現在の推定値として選択される。
【0041】
audioframeがフレーム内のオーディオサンプルのベクトルであり、spectrumがaudioframeの高速フーリエ変換(Fast Fourier Transform (FFT))を使用して計算されたオーディオサンプルの周波数スペクトルであると仮定すると、
spectrum=fft(audioframe) [1]
【0042】
spectrumは次式によりdBスケールのspectrumdBに変換できる:
spectrumdB=20log10(abs(spectrum)) [2]
【0043】
現在のフレームがノイズフレームの場合、そのavg_spectrumdBは保持され、所与の長さ(例えば、5秒)のウィンドウで過去のスペクトルと平均化され、ここではavg_spectrumdBと表す。現在のフレームが音声フレームの場合、そのスペクトルは過去のノイズスペクトル及び将来のノイズスペクトルと比較される。以下、音声スペクトルをspeech_spectrumdB、過去及び将来のノイズスペクトルを各々past_spectrumdB及びfuture_spectrumdBと呼ぶ。
【0044】
幾つかの実施形態では、past_spectrumdB及びfuture_spectrumdBの各々の上限周波数fcは、以下により決定される:
1)第1周波数を選択する。第1周波数より上でfcが推定される。
2)第1周波数より上のノイズスペクトルを、指定された長さとオーバーラップ(例えば、50%)のブロックに分割する。
3)各ブロックで、対応するブロックの周波数が高くなる順に平均導関数を計算し、事前定義された負の値(例えば、-20dB)より小さい値を持つ第1導関数を見つける。
4)fcより前の小さな領域のノイズスペクトルの平均を計算し、fcより上のノイズスペクトルの値を平均ノイズスペクトルに置き換える。
ステップ(3)はノイズスペクトルの大幅な減衰と解釈され、対応するブロックの周波数が上限周波数と見なされることに注意する。
【0045】
決定された上限周波数fcと音声fを超える周波数のうちの低い方として、カットオフ周波数fcutoffが与えられると、現在の音声スペクトルとノイズスペクトルの間の距離は次のように計算される:
【数1】
【0046】
式[4]に示すように、f1とfcutoffの間の周波数範囲は、音声高調波がほとんど存在しないスペクトル領域を定義し、背景ノイズが支配的である。distance_pastとdistance_futureの間の最小値(argmin()によって与えられる)は、現在のスペクトルに近いノイズスペクトルを与え、ノイズ候補として選択される。このアプローチは、複数の候補ノイズスペクトルに拡張できる。
【0047】
高調波減算を使用して音声高調波を推定及び除去する実施形態では、式3a、3b、及び4で説明されている方法は、開始指数fを低い周波数指数、例えば音声の最低周波数又は残差推定が信頼できると考えられる最低周波数に置き換えることによって、音声周波数に拡張できる。
【0048】
ここで説明されている、音声が存在する場合のノイズを推定できる任意の方法(例えばAVANE法)が与えられた場合、推定されたスペクトルと2つの既知のノイズスペクトルの間の距離は、現在のフレームと隣接する非音声セグメントのAVANEから得られた推定を比較し、前述のように過去又は将来のノイズ推定のいずれかを選択することによって計算できる。
【0049】
図4は、実施形態による、適応ノイズ推定及びノイズ低減のためのシステム400のブロック図である。オーディオ入力(例えば、音声コンテンツを含むオーディオファイル)は、分割ユニット401によってフレームの重なり合うセグメントに分割され、結果として得られたセグメントは複数のバッファ402に格納され、例えば短時間フーリエ変換(short-time Fourier transform (STFT))ブロック403によってスペクトル405に変換される。音声活性検出(Voice Activity Detection (VAD))ブロック404は、与えられたオーディオフレームに音声が含まれる確率を計算する。スペクトル405とVAD出力(音声確率)は、平均化ユニット406に供給され、各音声フレームに対して、現在の音声スペクトルと複数のノイズスペクトル407を生成する。音声スペクトルと複数のノイズスペクトル407は、類似性メトリックユニット408に入力される。類似性メトリックユニット408は、ノイズ低減ブロック409がオーディオ入力のノイズを低減するために使用するノイズスペクトル410として、(例えば、式[3a、3b]の距離メトリックに基づいて)ノイズスペクトルの1つを選択する。
【0050】
幾つかの実施形態では、ノイズ低減ユニット409は、オーディオ入力のスペクトルと選択された推定ノイズスペクトル410を比較し、入力信号のエネルギがノイズスペクトルのエネルギに事前定義された閾値を加えたものよりも小さくなる周波数帯域にゲイン低減を適用することにより、選択されたノイズスペクトル410を使用してオーディオ入力のノイズを低減する。
【0051】
<他の実施形態>
更なる実施形態の以下の説明では、更なる実施形態と前述の実施形態との相違点に焦点を当てる。従って、以下の説明では、両方の実施形態に共通する特徴は省略するので、以下の説明で特に必要がない限り、前述の実施形態の特徴は、更なる実施形態でも実装可能であるか、少なくとも実装可能であると考えるべきである。
【0052】
幾つかの実施形態では、事前に計算された複数のノイズスペクトルが利用可能であり、
noise_spectrumi, ここで、i=1,..,N, [5]
また、類似性指標は、現在の音声スペクトルと複数のノイズスペクトルの距離(dBスケール)であり、次式で与えられる:
【数2】
【0053】
より小さい距離に対応するノイズスペクトルは、次のように選択される:
noise_spectrumK, ここで、K=argmin(distancei) [7]
【0054】
複数のノイズスペクトルは、例えば、複数のエンドポイントを持つ電話会議のように、オーディオ録音に見られる異なるノイズ条件が事前に知られ、測定されているアプリケーションにおいて、先験的に提供することができる。あるいは、複数のノイズスペクトルは、非音声フレームの複数のスペクトルに適用されるクラスタリングアルゴリズムによって決定することができる。クラスタリングアルゴリズムは、例えば、複数の非音声スペクトルベクトルに適用されるk平均クラスタリングアルゴリズム、又はその他の任意の適切なクラスタリングアルゴリズムとすることができる。
【0055】
<オンラインの実装>
上記のオフライン計算のための実施形態は、リアルタイム、オンライン、低遅延のシナリオに拡張することができる。この場合、現在の音声フレームの後の将来のノイズスペクトルは使用できないことに注意する。候補ノイズスペクトルが先験的に提供される場合、選択処理は利用可能な(格納された)ノイズスペクトルを使用してすべての音声フレームでオンラインで適用される。候補ノイズスペクトルが先験的に提供されない場合、ノイズスペクトルはオンラインで構築できる。例えば、第1非音声フレームから第1ノイズスペクトルが取得される。追加の非音声フレームが受信されると、それらのノイズスペクトルが計算され、以前に保持された各ノイズスペクトルからの距離が事前に定義された閾値よりも大きい場合は、追加のノイズスペクトルとして保持される。追加の非音声フレームが受信されると、それらのノイズスペクトルがクラスタリングアルゴリズム(例えばk平均クラスタリング)によって計算及びクラスタ化され、得られたクラスタが候補ノイズスペクトルとして使用される。十分な数の新しい非音声フレームが受信されるたびに、又は既存のクラスタに対して大きな非類似性を持つ非音声フレームが受信されるたびに、クラスタリングプロセスが繰り返され、精緻化される。
【0056】
<音楽の録音>
実施形態では、オーディオ録音は音声コンテンツの代わりに音楽(又は別のクラスの音声コンテンツ)を含む。この実施形態では、音声分類器VADを適切な音楽(又は別のクラス)分類器に置き換える。
【0057】
<音楽+音声録音>
実施形態では、オーディオ録音は音声と音楽の両方を含む。この実施形態では、音声と音楽の部分からノイズを除去するが、音楽信号を保存することが望ましい。この実施形態では、音声分類器は、マルチクラス分類器(例えば、音楽と音声の分類器)、又は音楽と音声の2つの別個の分類器に置き換えられる。分類器によって出力された音声と音楽の確率は、事前に定義された閾値と比較され、音声と音楽の確率の両方が事前に定義された閾値よりも小さい場合、フレームはノイズと見なされる。次に、前述の方法を適用して、音声領域に,任意で音楽領域にも適したノイズスペクトルを推定する。
【0058】
<例示的な処理>
図5は、実施形態による、ノイズフロア推定及びノイズ低減のための処理500のフロー図である。処理500は、図6に示す装置アーキテクチャを用いて実施できる。
【0059】
処理500は、オーディオ入力を音声セグメントと非音声セグメントに分割する(501)ことにより開始し、各非音声セグメントの各フレームについて、非音声セグメントの時間変化するノイズスペクトル(503)と音声セグメントの音声スペクトル(504)を推定する。
【0060】
処理500は、続いて、各音声セグメントの各フレームについて、音声スペクトルの1つ以上の非音声周波数成分を特定し(505)、1つ以上の非音声周波数成分を、複数の推定ノイズスペクトルの1つ以上の対応する周波数成分と比較し(506)、比較の結果に基づいて、複数の推定ノイズスペクトルから推定ノイズスペクトルを選択する(507)。
【0061】
幾つかの実施形態では、複数の推定ノイズスペクトルが、過去の非音声セグメントに対する推定ノイズスペクトルと、将来の非音声セグメントに対する推定ノイズスペクトルを含む。幾つかの実施形態では、複数の推定ノイズスペクトルは、非音声フレームの複数のノイズスペクトルに適用されるクラスタリングアルゴリズムによって決定することができる。クラスタリングアルゴリズムは、例えば、複数の非音声スペクトルベクトルに適用されるk平均クラスタリングアルゴリズム、又はその他の任意の適切なクラスタリングアルゴリズムとすることができる。
【0062】
幾つかの実施形態では、処理500は、続いて、選択された推定ノイズスペクトルを使用してオーディオ入力のノイズを低減することができる。
【0063】
<例示的なシステムアーキテクチャ>
図6は、実施形態による、図1~5を参照して説明される機能及び処理を実装する例示的なシステムのブロック図を示す。システム600には、スマートフォン、タブレットコンピュータ、ウェアラブルコンピュータ、車両コンピュータ、ゲームコンソール、サラウンドシステム、キオスクなど、オーディオを再生できる任意の装置が含まれるが、これらに限定されない。
【0064】
図示のように、システム600は、例えば読み出し専用メモリ(readonly memory (ROM))602に格納されたプログラム又は例えば記憶ユニット608からランダムアクセスメモリ(random access memory (RAM))603へとロードされたプログラムに従い種々の処理を実行できる中央処理ユニット(CPU)601を含む。RAM603には、必要に応じて、CPU601が種々の処理を実行するときに必要なデータも格納される。CPU601、ROM602、及びRAM603は、バス609を介して互いに接続される。入力/出力(I/O)インタフェース605は、バス604にも接続される。
【0065】
以下のコンポーネントは、I/Oインタフェース605に接続される。つまり、キーボード、マウス、等を含み得る入力ユニット606、液晶ディスプレイ(LCD)のようなディスプレイ及び1つ以上のスピーカを含み得る出力ユニット607、ハードディスク又は別の適切な記憶装置を含む記憶ユニット608、及びネットワークカード(例えば、有線又は無線)のようなネットワークインタフェースカードを含む通信ユニット609である。
【0066】
幾つかの実装では、入力ユニット606は、様々な形式(例えば、モノラル、ステレオ、空間、イマーシブ、その他の適切な形式)のオーディオ信号のキャプチャを可能にする、異なる位置(ホスト装置によって異なる)にある1つ以上のマイクを含む。
【0067】
幾つかの実装では、出力ユニット607は、様々な数のスピーカを持つシステムを含む。図6に示すように、出力ユニット607は、(ホスト装置の機能に応じて)様々な形式(例えば、モノラル、ステレオ、イマーシブ、バイノーラル、その他の適切な形式)のオーディオ信号をレンダリングすることができる。
【0068】
通信ユニット609は、他の装置と(例えば、ネットワークを介して)通信するよう構成される。ドライブ610も、必要に応じて、I/Oインタフェース605に接続される。磁気ディスク、光ディスク、磁気-光ディスク、フラッシュドライブ、又は別の適切な取り外し可能媒体のような取り外し可能媒体611は、ドライブ610に取り付けられ、その結果、それから読み出されたコンピュータプログラムは、必要に応じて、記憶ユニット608にインストールされる。当業者は、システム600が上述のコンポーネントを含むとして記載されるが、実際の適用では、これらのコンポーネントのうちの一部を追加し、除去し、及び/又は置換することが可能であること、及び全部のこれらの変更又は変形が全て本開示の範囲に包含されることを理解するだろう。
【0069】
本開示の例示的な実施形態によると、上述の処理は、コンピュータソフトウェアプログラムとして又はコンピュータ可読記憶媒体に実装されてよい。例えば、本開示の実施形態は、機械可読媒体上に有形に具現化されたコンピュータプログラムを含むコンピュータプログラムプロダクトを含む。該コンピュータプログラムは、方法を実行するためのプログラムコードを含む。そのような実施形態では、コンピュータプログラムは、図6に示されるように、ネットワークから通信ユニット609を介してダウンロードされ実装され、及び/又は取り外し可能媒体611からインストールされてよい。
【0070】
通常、本開示の種々の例示的な実施形態は、ハードウェア又は専用回路(例えば、制御回路)、ソフトウェア、ロジック、又はそれらの任意の組合せで実装されてよい。例えば、上述のユニットは、制御回路(例えば、図6の他のコンポーネントと組み合わせたCPU)により実行されてよい。従って、制御回路は、本開示で説明した動作を実行できる。幾つかの態様は、ハードウェアで実装されてよいが、他の態様は、制御部、マイクロプロセッサ、又は他のコンピューティング装置()例えば、制御回路)により実行されてよいファームウェア又はソフトウェア実装されてよい。本開示の例示的な実施形態の種々の態様は、ブロック図、フローチャート、又は幾つかの他の図式表現を用いて図示され説明されたが、本願明細書に記載されるブロック、機器、システム、技術、又は方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、専用回路又はロジック、汎用ハードウェア又は制御部又は他のコンピューティング装置、又はそれらの何らかの組合せで実装されてよいことが理解される。
【0071】
更に、フローチャートに示される種々のブロックは、方法のステップとして、及び/又はコンピュータプログラムコードの演算から生じる演算として、及び/又は関連する機能を実行するよう構成される複数の結合された論理回路素子として、考えられてよい。例えば、本開示の実施形態は、機械可読媒体上に有形に具現化されたコンピュータプログラムを含むコンピュータプログラムプロダクトを含む。該コンピュータプログラムは、上述のような方法を実行するよう構成されるプログラムコードを含む。
【0072】
本開示の文脈では、機械可読媒体は、命令実行システム、機器、又は装置により又はそれと関連して使用するためのプログラムを含む又は格納し得る任意の有形媒体であってよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってよい。機械可読媒体は、非有形であってよく、限定ではないが、電子、磁気、光、電磁気、赤外線、又は半導体システム、機器、又は装置、又はそれらの任意の適切な組合せを含んでよい。機械可読記憶媒体のより具体的な例は、1つ以上のワイヤ、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせを含んでよい。
【0073】
本開示の方法を実行するコンピュータプログラムコードは、1つ以上のプログラミング言語の任意の組合せで記述されてよい。これらのコンピュータプログラムコードは、汎用コンピュータ、専用コンピュータ、又は制御回路を有する他のプログラム可能なデータ処理機器のプロセッサに提供されてよい。その結果、該プログラムコードは、コンピュータ又は他のプログラム可能なデータ処理機器のプロセッサにより実行されると、フローチャート及び/又はブロック図の中で指定された機能/動作を実施させる。プログラムコードは、全体がコンピュータ上で、部分的にコンピュータ上で、独立型ソフトウェアパッケージとして、部分的にコンピュータ上で及び部分的にリモートコンピュータ上で若しくは全体的にリモートコンピュータ若しくはサーバで、又は1つ以上のリモートコンピュータ及び/又はサーバに渡り分散されて実行されてよい。
【0074】
<列挙される例示的な実施形態(Enumerated Example Embodiment (EEE))>
【0075】
本開示の実施形態は、以下にリストする列挙される実施形態(EEE)のうちの1つに関連することがある。
【0076】
(EEE1)オーディオプロセッサであって、
オーディオ入力を重なり合うフレームのセグメントに分割するように構成される分割器と、
前記重なり合うフレームのセグメントを格納するよう構成される複数のバッファと、
各バッファに格納されたセグメントごとに、周波数スペクトルを計算するよう構成されるスペクトル分析ユニットと、
前記オーディオ入力の中の音声セグメントと非音声セグメントを検出するよう構成される音声活性検出器(voice activity detector (VAD))と、
前記VADの出力に結合され、前記VAD出力により識別された音声セグメントごとに音声スペクトルを、及び前記VAD出力により識別された非音声セグメントごとに時間変化するノイズスペクトルを計算するように構成された平均化ユニットと、 現在の音声スペクトルと各ノイズスペクトルの中の1つ以上の周波数成分の間の類似性メトリックを計算し、前記類似性メトリックに基づき前記複数のノイズスペクトルから1つのノイズスペクトルを選択するよう構成される類似性メトリックユニットと、
前記選択されたノイズスペクトルを使用して、前記オーディオ入力のノイズを低減するよう構成されるノイズ低減ユニットと、
を含むオーディオプロセッサ。
【0077】
(EEE2)前記VADは、前記オーディオ入力の各フレーム内の音声の確率を取得し、該確率に基づいて音声を含むフレームを識別するよう構成される、EEE1に記載のオーディオプロセッサ。
【0078】
(EEE3)オーディオプロセッサであって、
オーディオ入力の中の音声セグメントと非音声セグメントを検出するように構成されたの音声活性検出器(VAD)と、
前記VADの出力に結合され、前記VAD出力によって識別される音声セグメントごとに音声スペクトルを、前記VAD出力によって識別される非音声セグメントごとにノイズスペクトルを取得するように構成された平均化ユニットと、
現在の音声スペクトルの1つ以上の周波数成分と各ノイズスペクトルの対応する1つ以上の周波数成分の間の類似性メトリックを計算し、前記類似性メトリックに基づいて前記ノイズスペクトルから1つのノイズスペクトルを選択するように構成された類似性メトリックユニットと、
選択されたノイズスペクトルを使用して前記オーディオ入力のノイズを低減するように構成されたノイズ低減ユニットと、
を含むオーディオプロセッサ。
【0079】
本願明細書は多数の特定の実装の詳細を含むが、これらは、請求され得るものの範囲に対する限定としてではなく、むしろ、特定の実装の特定の実装に固有の特徴の説明として考えられるべきである。別個の実施形態の文脈で本願明細書に記載された特定の特徴は、単一の実装形態において結合されて実装されてもよい。反対に、単一の実施形態の文脈で記載された種々の特徴は、複数の実施形態で別個に又は任意の適切な部分的組み合わせで実装されてもよい。更に、特徴は特定の組み合わせで動作するよう上述され、そのように初めに請求され得るが、請求される組み合わせからの1つ以上の特徴は、幾つかの場合には、組み合わせから切り離すことができ、請求される組み合わせは、部分的組み合わせ又は部分的組み合わせの変形に向けられてよい。図面に示された論理的フローは、望ましい結果を達成するために示された特定の順序又はシーケンシャルな順序を必要としない。更に、他のステップが設けられてよく、又はステップは記載されたフローから除去されてよく、記載されたシステムに他のコンポーネントが追加されてよく又は除去されてよい。したがって、他の実装は以下の特許請求の範囲の範囲内にある。
図1
図2
図3
図4
図5
図6
【国際調査報告】