特表2023-542927 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー　ラボラトリーズ　ライセンシング　コーポレイションの特許一覧 ▶ ドルビー・インターナショナル・アーベーの特許一覧

特表2023-542927適応ノイズ推定

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-10-12

(54)【発明の名称】適応ノイズ推定

(51)【国際特許分類】

G10L 21/0232 20130101AFI20231004BHJP

G10L 25/84 20130101ALI20231004BHJP

【ＦＩ】

G10L21/0232

G10L25/84

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023518158

(86)(22)【出願日】2021-09-21

(85)【翻訳文提出日】2023-03-20

(86)【国際出願番号】 US2021051162

(87)【国際公開番号】W WO2022066590

(87)【国際公開日】2022-03-31

(31)【優先権主張番号】P202030960

(32)【優先日】2020-09-23

(33)【優先権主張国・地域又は機関】ES

(31)【優先権主張番号】63/120,253

(32)【優先日】2020-12-02

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】63/168,998

(32)【優先日】2021-03-31

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】507236292

【氏名又は名称】ドルビーラボラトリーズライセンシングコーポレイション

(71)【出願人】

【識別番号】510185767

【氏名又は名称】ドルビー・インターナショナル・アーベー

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】スカイーニ，ダヴィデ

(72)【発明者】

【氏名】イエー，チョンシン

(72)【発明者】

【氏名】チェンガーレ，ジュリオ

(72)【発明者】

【氏名】デバーグ，マークデイヴィッド

(57)【要約】

幾つかの実施形態では、方法は、少なくとも１つのプロセッサを使用して、オーディオ入力を音声セグメントと非音声セグメントに分割するステップと、前記少なくとも１つのプロセッサを使用して、各非音声セグメントのフレームごとに、前記非音声セグメントの時間変化するノイズスペクトルを推定するステップと、前記少なくとも１つのプロセッサを使用して、各音声セグメントのフレームごとに、前記音声セグメントの音声スペクトルを推定するステップと、各音声セグメントのフレームごとに、前記音声スペクトルの１つ以上の非音声周波数成分を識別するステップと、前記１つ以上の非音声周波数成分と複数の推定ノイズスペクトルの１つ以上の対応する周波数成分を比較するステップと、比較の結果に基づいて、前記複数の推定ノイズスペクトルから推定ノイズスペクトルを選択するステップと、を含む。

【特許請求の範囲】

【請求項1】

適応ノイズ推定の方法であって、
少なくとも１つのプロセッサを使用して、オーディオ入力を音声セグメントと非音声セグメントに分割するステップと、
前記少なくとも１つのプロセッサを使用して、各非音声セグメントのフレームごとに、前記非音声セグメントの時間変化するノイズスペクトルを推定するステップと、
前記少なくとも１つのプロセッサを使用して、各音声セグメントのフレームごとに、前記音声セグメントの音声スペクトルを推定するステップと、
各音声セグメントのフレームごとに、
前記音声スペクトルの１つ以上の非音声周波数成分を識別するステップと、
前記１つ以上の非音声周波数成分と複数の推定ノイズスペクトルの１つ以上の対応する周波数成分を比較するステップと、
比較の結果に基づいて、前記複数の推定ノイズスペクトルから推定ノイズスペクトルを選択するステップと、
を含む方法。

【請求項2】

前記複数の推定ノイズスペクトルが、過去の非音声セグメントに対する推定ノイズスペクトルと、将来の非音声セグメントに対する推定ノイズスペクトルを含む、請求項１に記載の方法。

【請求項3】

前記少なくとも１つのプロセッサを使用して、前記選択した推定ノイズスペクトルを使用して前記オーディオ入力のノイズを低減するステップ、を更に含む請求項１又は２に記載の方法。

【請求項4】

前記オーディオ入力の各フレームで音声の確率を取得し、該確率に基づいて音声を含むフレームを識別するステップを更に含む、請求項１～３のいずれかに記載の方法。

【請求項5】

前記時間変化するノイズスペクトルが、前記非音声セグメントのパワースペクトルの移動平均を計算し、現在の非音声セグメントと少なくとも１つの過去の非音声セグメントのパワースペクトルを平均することによって推定される、請求項１～４のいずれかに記載の方法。

【請求項6】

前記非音声セグメントの間、前記時間変化する推定ノイズスペクトルが、前記選択された推定ノイズスペクトルを使用して前記オーディオ入力のノイズを低減するように構成されたノイズ低減ユニットに供給される、請求項１～５のいずれかに記載の方法。

【請求項7】

音声セグメントごとに、前記音声セグメントの前の過去の推定ノイズスペクトル、前記音声セグメントの後の将来の推定ノイズスペクトル、及び現在の音声フレームが、前記現在の音声セグメントのノイズを表す可能性が最も高い推定ノイズスペクトルを決定するために使用される、請求項２～６のいずれかに記載の方法。

【請求項8】

前記現在の音声セグメントのノイズを表す可能性が最も高い推定ノイズスペクトルを決定することは、
前記音声セグメントの前後の過去及び将来の非音声セグメントの過去及び将来のノイズスペクトルから、各々、平均ノイズスペクトルを取得するステップと、
前記過去及び将来のノイズスペクトルの上限周波数を決定するステップと、
２つの上限周波数のうち最も低い周波数であるカットオフ周波数を決定するステップと、
前記音声スペクトルの周波数成分と前記ノイズスペクトルの周波数成分の間の距離メトリックを計算するステップと、
前記オーディオ入力の前記推定ノイズスペクトルとして、前記過去又は将来のノイズスペクトルのうち、前記カットオフ周波数までの最小距離メトリックを有するノイズスペクトルを選択するステップと、
をさらに含む、請求項７に記載の方法。

【請求項9】

前記距離メトリックが、音声セグメント内の音声フレームのセットにわたって平均化される、請求項８に記載の方法。

【請求項10】

音声成分がオーディオ信号の前記音声セグメント内で推定され、次に実際の音声成分から減算されて、推定非音声周波数成分として残差スペクトルを得る、請求項１～９のいずれか一項に記載の方法。

【請求項11】

命令を格納している非一時的コンピュータ可読記憶媒体であって、前記命令は、１つ以上のプロセッサにより実行されると、前記１つ以上のプロセッサに、請求項１～９のいずれか一項に記載の方法の動作を実行させる、非一時的コンピュータ可読記憶媒体。

【請求項12】

オーディオプロセッサであって、
オーディオ入力を音声セグメントと非音声セグメントに分割するように構成された分割ユニットと、
音声セグメントごとに音声スペクトルを、及び非音声セグメントごとに時間変化するノイズスペクトルを推定するように構成された平均化ユニットと、
類似性メトリックユニットであって、
前記音声スペクトルの１つ以上の非音声周波数成分を識別し、
前記１つ以上の非音声周波数成分を、複数の推定ノイズスペクトルの中の１つ以上の対応する周波数成分と比較し、
比較の結果に基づいて、前記複数の推定ノイズスペクトルから推定ノイズスペクトルを選択する、
よう構成される類似性メトリックユニットと、
を含むオーディオプロセッサ。

【請求項13】

前記複数の推定ノイズスペクトルが、過去の非音声セグメントに対する推定ノイズスペクトルと、将来の非音声セグメントに対する推定ノイズスペクトルを含む、請求項１２に記載のオーディオプロセッサ。

【請求項14】

前記選択した推定ノイズスペクトルを使用して前記オーディオ入力のノイズを低減するよう構成されるノイズ低減ユニット、を更に含む請求項１２又は１３に記載のオーディオプロセッサ。

【請求項15】

前記非音声セグメントの間、前記ノイズ低減ユニットは、前記非音声セグメントを受信し、前記選択された推定ノイズスペクトルを使用して前記オーディオ入力のノイズを低減するように構成される、請求項１３又は１４に記載のオーディオプロセッサ。

【請求項16】

前記ノイズ低減ユニットは、前記オーディオ入力のスペクトルと前記選択された推定ノイズスペクトルを比較し、前記オーディオ入力のエネルギが前記ノイズスペクトルのエネルギに事前定義された閾値を加えたものよりも小さくなる周波数帯域にゲイン低減を適用することにより、前記選択された推定ノイズスペクトルを使用して前記オーディオ入力のノイズを低減するように構成される、請求項１４又は１５に記載のオーディオプロセッサ。

【請求項17】

音声活性検出器（VAD）は、前記オーディオ入力の各フレーム内の音声の確率を取得し、該確率に基づいて音声を含むフレームを識別するよう構成される、請求項１２～１６のいずれかに記載のオーディオプロセッサ。

【請求項18】

前記平均化ユニットが、前記非音声セグメントのパワースペクトルの移動平均を計算し、現在の非音声セグメントと少なくとも１つの過去の非音声セグメントのパワースペクトルを平均することによって、前記時間変化するノイズスペクトルを推定するよう構成される、請求項１２～１７のいずれかに記載のオーディオプロセッサ。

【請求項19】

音声セグメントごとに、前記類似性メトリックユニットは、前記音声セグメントの前の過去の推定ノイズスペクトル、前記音声セグメントの後の将来の推定ノイズスペクトル、及び現在の音声フレームに基づいて、現在の音声セグメントのノイズを表す可能性が最も高い推定ノイズスペクトルを決定するように構成される、請求項１２～１８のいずれかに記載のオーディオプロセッサ。

【請求項20】

前記類似性メトリックユニットは、
前記音声セグメントの前後の過去及び将来の非音声セグメントの過去及び将来のノイズスペクトルから、各々、平均ノイズスペクトルを取得し、
前記過去及び将来のノイズスペクトルの上限周波数を決定し、
２つの上限周波数のうち最も低い周波数であるカットオフ周波数を決定し、
前記音声スペクトルの周波数成分と前記ノイズスペクトルの周波数成分の間の距離メトリックの計算し、
前記オーディオ入力の前記推定ノイズスペクトルとして、前記過去又は将来のノイズスペクトルのうち、前記カットオフ周波数までの最小距離メトリックを有するノイズスペクトルを選択する、
ことにより前記現在の音声セグメントのノイズを表す可能性が最も高い推定ノイズスペクトルを決定するよう構成される、請求項１９に記載のオーディオプロセッサ。

【請求項21】

前記類似性メトリックユニットは、音声セグメント内の音声フレームのセットにわたって前記距離メトリックを平均化するように構成される、請求項２０に記載のオーディオプロセッサ。

【請求項22】

前記類似性メトリックユニットが、前記オーディオ入力の前記音声グメント内の１つ以上の音声成分を推定し、次に実際の音声成分から前記１つ以上の推定された音声成分を減算して、推定非音声周波数スペクトルとして残差スペクトルを取得するように構成されている、請求項１２に記載のオーディオプロセッサ。

【発明の詳細な説明】

【技術分野】

【0001】

［関連出願の相互参照］
本願は、参照により全体がここに組み込まれる、２０２０年１２月２日に出願した米国仮出願番号第６３/１２０,２５３号、２０２１年３月３１日に出願した米国仮出願番号第６３/１６８,９９８号及び２０２０年９月２３日に出願したスペイン特許出願番号第P２０２０３０９６０号、の優先権を主張する。

【0002】

［技術分野］
本開示は、概してオーディオ信号処理に関連し、特に、ノイズ低減に使用するためのオーディオ信号のノイズフロアの推定に関連する。

【背景技術】

【0003】

ノイズ推定は、オーディオ録音の定常状態のノイズを減らすために一般的に使用される。通常、ノイズ推定は、ノイズのみを含むオーディオ録音のセグメントにわたって各周波数帯域のエネルギを分析することによって得られる。しかしながら、一部のオーディオ録音では、定常状態のノイズは時間の経過とともに滑らかに及び／又は突然に変化する。このような突然の変化の例としては、背景環境ノイズが時間の経過とともに突然変化するオーディオ録音（例えば、部屋の中で扇風機のスイッチを入れたり切ったりする）や、異なる場所で録音された一連のインタビューを含むポッドキャストのように、各々が異なるノイズフロアを持つ異なるオーディオ録音を纏めて編集して得られたオーディオコンテンツなどがある。さらに、ノイズの変化は通常、非音声の十分に長いセグメントの間には発生しないため、オーディオ録音の初期段階でノイズの変化が検出及び推定されない場合がある。

【0004】

既存の方法の中には、ノイズのみを含むオーディオ録音のセグメントを使用して、ノイズフロアの単一の推定を実行するものもある。他の既存の方法では、単一の基礎となるノイズフロアに収束するオーディオ録音全体の分析を実行する。しかしながら、これらの方法の欠点は、ノイズレベルやスペクトルの変化に適応できないことである。他の既存の方法では、各周波数帯域のエネルギの最小エンベロープを推定し、（例えば、推定された最小エンベロープを適切な時定数で平滑化することによって）推定された最小エンベロープを時間に渡り追跡する。しかし、これらの既存の方法は、リアルタイムのオンラインオーディオ信号処理アーキテクチャで一般的に採用されており、オーディオ録音内のノイズの突然の変化に正確に反応することはできない。

【発明の概要】

【0005】

適応ノイズ推定のための実装が開示される。

【0006】

幾つかの実施形態では、適応ノイズ推定の方法は、
少なくとも１つのプロセッサを使用して、オーディオ入力を音声セグメントと非音声セグメントに分割するステップと、
前記少なくとも１つのプロセッサを使用して、各非音声セグメントのフレームごとに、前記非音声セグメントの時間変化するノイズスペクトルを推定するステップと、
前記少なくとも１つのプロセッサを使用して、各音声セグメントのフレームごとに、前記音声セグメントの音声スペクトルを推定するステップと、
各音声セグメントのフレームごとに、
前記音声スペクトルの１つ以上の非音声周波数成分を識別するステップと、
前記１つ以上の非音声周波数成分と複数の推定ノイズスペクトルの１つ以上の対応する周波数成分を比較するステップと、
比較の結果に基づいて、前記複数の推定ノイズスペクトルから推定ノイズスペクトルを選択するステップと、
を含む。実施形態では、前記方法は、前記少なくとも１つのプロセッサを使用して、前記選択した推定ノイズスペクトルを使用して前記オーディオ入力のノイズを低減するステップ、を更に含む。

【0007】

幾つかの実施形態では、前記方法は、前記オーディオ入力の各フレームで音声の確率を取得し、該確率に基づいて音声を含むフレームを識別するステップを更に含む。

【0008】

幾つかの実施形態では、前記時間変化するノイズスペクトルが、前記非音声セグメントのパワースペクトルの移動平均を計算し、現在の非音声セグメントと少なくとも１つの過去の非音声セグメントのパワースペクトルを平均することによって推定される。

【0009】

幾つかの実施形態では、前記非音声セグメントの間、前記時間変化する推定ノイズスペクトルが、前記選択された推定ノイズスペクトルを使用して前記オーディオ入力のノイズを低減するように構成されたノイズ低減ユニットに供給される。

【0010】

幾つかの実施形態では、音声セグメントごとに、前記音声セグメントの前の過去の推定ノイズスペクトル、前記音声セグメントの後の将来の推定ノイズスペクトル、及び現在の音声フレームが、前記現在の音声セグメントのノイズを表す可能性が最も高い推定ノイズスペクトルを決定するために使用される。

【0011】

幾つかの実施形態では、前記現在の音声セグメントのノイズを表す可能性が最も高い推定ノイズスペクトルを決定することは、
前記音声セグメントの前後の過去及び将来の非音声セグメントの過去及び将来のノイズスペクトルから、各々、平均ノイズスペクトルを取得するステップと、
前記過去及び将来のノイズスペクトルの上限周波数を決定するステップと、
２つの上限周波数のうち最も低い周波数であるカットオフ周波数を決定するステップと、
前記音声スペクトルの周波数成分と前記ノイズスペクトルの周波数成分の間の距離メトリックを計算するステップと、
前記オーディオ入力の前記推定ノイズスペクトルとして、前記過去又は将来のノイズスペクトルのうち、前記カットオフ周波数までの最小距離メトリックを有するノイズスペクトルを選択するステップと、
をさらに含む。

【0012】

幾つかの実施形態では、前記距離メトリックが、音声セグメント内の音声フレームのセットにわたって平均化される。

【0013】

幾つかの実施形態では、音声成分が前記オーディオ信号の前記音声セグメント内で推定され、次に実際の音声成分から減算されて、推定非音声周波数成分として残差スペクトルを得る。

【0014】

幾つかの実施形態では、オーディオプロセッサは、
オーディオ入力を重なり合うフレームのセグメントに分割するように構成される分割器と、
前記重なり合うフレームのセグメントを格納するよう構成される複数のバッファと、
各バッファに格納されたセグメントごとに、周波数スペクトルを計算するよう構成されるスペクトル分析ユニットと、
前記オーディオ入力の中の音声セグメントと非音声セグメントを検出するよう構成される音声活性検出器（voice activity detector （VAD））と、
前記VADの出力に結合され、前記VAD出力により識別された音声セグメントごとに音声スペクトルを、及び前記VAD出力により識別された非音声セグメントごとに時間変化するノイズスペクトルを計算するように構成された平均化ユニットと、
を含む。

【0015】

実施形態では、オーディオプロセッサは、
オーディオ入力の中の音声セグメントと非音声セグメントを検出するように構成されたVADと、
前記VADの出力に結合され、前記VAD出力によって識別される音声セグメントごとに音声スペクトルを、前記VAD出力によって識別される非音声セグメントごとにノイズスペクトルを取得するように構成された平均化ユニットと、
現在の音声スペクトルの１つ以上の周波数成分と各ノイズスペクトルの対応する１つ以上の周波数成分の間の類似性メトリックを計算し、前記類似性メトリックに基づいて前記ノイズスペクトルから１つのノイズスペクトルを選択するように構成された類似性メトリックユニットと、
選択されたノイズスペクトルを使用して前記オーディオ入力のノイズを低減するように構成されたノイズ低減ユニットと、
を含む。

【0016】

本願明細書に開示される他の実装は、システム、機器、及びコンピュータ可読媒体を対象とする。開示される実装の詳細は、添付の図面及び以下の説明において説明される。他の特徴、目的、及び利点は、説明、図面、及び請求項から明らかになる。

【0017】

本願明細書に開示される特定の実装は、以下の利点のうちの１つ以上を提供する。音声が存在する場合のオーディオ録音におけるノイズを適応的に推定する方法が開示される。実施形態では、適応的ノイズ推定は、オーディオ録音に対してオフラインで実行され、オーディオ録音の所与のフレームの前後の両方を見ることによってノイズ変化を推定する。従来の適応的ノイズ推定方法と比較した利点は、現在の音声セグメントの前後で計算された最良の利用可能な候補ノイズフロア推定の中から選択することによって、音声の下のノイズフロアが推定されることである。

【図面の簡単な説明】

【0018】

図中、装置、ユニット、命令ブロック、及びデータ要素のような概略的要素の特定の構成又は順序は、説明を簡単にするために示される。しかしながら、当業者により理解されるべきことに、当業者は、図中の概略的要素の特定の順序又は構成が、処理の特定の順序又はシーケンス、又は処理の分離が必要であることを意味しない。更に、図中の概略的要素の包含は、そのような要素が全部の実施形態で必要であること、又はそのような要素により表現された特徴が幾つかの実装の他の要素に含まれる又はそれに結合されないことを意味しない。

【0019】

更に、図中、実線又は破線又は矢印のような接続要素が２つ以上の他の概略的要素の間の又はその中の接続、関係、又は関連付けを説明するために使用される場合、任意のそのような接続要素が存在しないことは、接続、関係、又は関連付けが存在しないことを意味しない。言い換えると、要素間の幾つかの接続、関係、又は関連付けは、本開示を不明瞭にしないように、図中に示されない。更に、説明を容易にするために、単一の接続要素が、要素間の複数の接続、関係、又は関連付けを表すために使用される。例えば、接続要素が信号、データ、又は命令の通信を表す場合、そのような要素が１又は複数の信号パスが必要に応じて通信に影響することが、当業者により理解されるべきである。

【0020】

【図1】幾つかの実施形態による、オーディオ波形、時間の経過に伴う音声活性、及びオーディオ波形の非音声セグメントを決定するために使用される閾値を示す２次元（２D）プロットである。

【0021】

【図2】幾つかの実施形態による、時間の経過に伴う音声活性、オーディオ波形の非音声セグメント及び音声活性が閾値より低いノイズセグメントを決定するために使用される閾値の２Dプロットである。

【0022】

【図3】幾つかの実施形態による、音声セグメントに対応する平均音声スペクトルと、音声セグメントの前後の非音声セグメントに対応する２つのノイズスペクトルを示している。

【0023】

【図4】幾つかの実施形態による、適応ノイズ推定及びノイズ低減のためのシステムのブロック図である。

【0024】

【図5】幾つかの実施形態による、ノイズフロア推定及びノイズ低減のための処理のフロー図である。

【0025】

【図6】実施形態による、図１～５を参照して説明される機能及び処理を実装するシステムのブロック図である。

【0026】

種々の図面で使用される同じ参照符号は同様の要素を示す。

【発明を実施するための形態】

【0027】

以下の詳細な説明では、種々の記載される実施種形態の完全な理解を提供するために、多くの特定の詳細が説明される。種々の記載される実装がこれらの特定の詳細を有しないで実施されてよいことが、当業者に明らかである。他の例では、実施形態の態様を不必要に不明瞭にしないように、よく知られた方法、手順、コンポーネント、及び回路は詳細に説明されない。互いに独立に又は他の特徴との任意の組合せにより使用できる幾つかの特徴が以下に説明される。

【0028】

＜命名法＞
本願明細書で使用されるとき、用語「含む」及びその変形は、「含む（include）が、それに限定されない」を意味する広義の用語として解釈される。用語「又は」は、文脈上明確に示されない限り、「及び／又は」として解釈される。用語「に基づく」は、「少なくとも部分的に基づく」として解釈される。用語「１つの例示的な実装」及び「例示的な実装」は、「少なくとも１つの例示的な実装」として解釈されるべきである。用語「別の実装」は、「少なくとも１つの他の実装」として解釈されるべきである。用語「決定された」、「決定する」、又は「決定すること」は、取得する、受信する、計算する、算出する、推定する、予測する、又は導出すると解釈されるべきである。更に、以下の説明及び請求の範囲では、特に断りのない限り、本願明細書で使用される全ての技術的及び科学的用語は、本開示が属する分野の当業者により一般的に理解されるものと同じ意味を有する。

【0029】

＜システム概要＞
開示された実施形態は、音声活性検出（Voice Activity Detection （VAD））分類器を使用して、オーディオ入力を音声を含む音声セグメントと音声を含まない非音声セグメントに分割する。非音声セグメントでは、非音声セグメントの各フレームで、現在のフレーム周辺の時間領域の周波数あたりのエネルギを平均することによって、ノイズスペクトルが推定される。音声セグメントでは、音声セグメントの各フレームについて、音声スペクトル内の１つ以上の非音声周波数成分を識別することによって、時間的に前後の非音声領域の推定ノイズスペクトルが選択される。１つ以上の非音声周波数成分は、類似性メトリック（例えば、周波数成分間の距離）を使用して、前の非音声領域と次の非音声領域の推定ノイズスペクトル内の対応する１つ以上の周波数成分と比較される。

【0030】

図１は、実施形態による、オーディオ波形、時間の経過に伴う音声活性、及びオーディオ波形の非音声セグメントを決定するために使用される閾値を示す２次元（２D）プロットである。簡単のために、オーディオ波形の振幅値は図１には示されていない。横軸は時間単位（例えばミリ秒）である。音声を含むオーディオ録音を含むオーディオ入力（例えば、オーディオファイル）は、重なり合ったフレームに分割される。実施形態では、VADを使用して各フレーム内の音声の確率を取得し、その後、オーディオ入力を音声確率の閾値に基づいて音声セグメントと非音声セグメントに分割する。示されている例では、垂直軸はVAD値（音声が存在する確率）を表し、水平線で示される例示的なVAD閾値は約０．１８である。図２は、図１に示されているノイズセグメントのクローズアップを示しており、VAD値はVAD閾値よりも低くなっている。

【0031】

オーディオ録音における音声及び非音声セグメントを検出するための任意の適切なVADアルゴリズムを使用することができ、これには、ゼロ交差率及びエネルギ測定、線形ベースのエネルギ検出、適応線形ベースのエネルギ検出、パターン認識及び統計的測定に基づくVADアルゴリズムを含むが、これらに限定されない。

【0032】

実施形態では、非音声セグメントのノイズスペクトルは、適応音声認識ノイズ推定（adaptive voice-aware noise estimation （AVANE））を使用して推定され、音声セグメント内の最も類似した堅牢なノイズ推定を推論する。AVANEは、非音声フレームのパワースペクトルの移動平均を計算し、各非音声フレームについて、現在の非音声フレームと１つ以上の過去の非音声フレームのパワーを平均することによって、非音声フレーム内のノイズのパワースペクトルを計算する。実施形態では、平均すべき過去のフレーム数は時定数によって決定される。算術移動平均、指数移動平均、平滑移動平均、加重移動平均など、任意の適切な移動平均アルゴリズムを使用できるが、これらに限定されない。

【0033】

AVANEは、２つの方法で使用される時間変化するノイズスペクトルを生成する。まず、非音声セグメント中に、時間変化する推定ノイズがノイズ低減システムに供給される（例えば、バッファごとに供給される）。次に、音声セグメント中に、現在の音声セグメントの前の最後のAVANE推定と現在の音声セグメントの後の第１AVANE推定が、現在の音声フレームとともに推定コンポーネントに供給される。推定コンポーネントは、現在の音声フレームでノイズを表す可能性が最も高いAVANE推定を決定する。

【0034】

AVANE推定の代替方法には、例えばDoblinger,G．（１９９５）で説明されているように、サブバンドでのスペクトル最小トラッキングが含まれる。サブバンドでのスペクトル最小トラッキングによる計算効率の高い音声強調。Proc．EUROSPEECH'９５, Madrid, pp １５１３-１５１６、又は例えばMartin,R.（２００１）に記載されたような最適な平滑化及び最小統計に基づくノイズパワースペクトル密度推定。最適な平滑化と最小統計に基づくノイズパワースペクトル密度推定。IEEE Transactions on Speech and Audio Processing. ９（５）５０４-５１２。

【0035】

所与の音声セグメント内で、音声セグメントの基礎となるノイズスペクトルを推定するために２つの実施形態を提案する。第１実施形態では、音声成分を推定した後、実際の音声成分から減算して、ノイズ推定として残差スペクトルを得る。この実施形態は、背景ノイズの直接推定につながるため、AVANEとは関連も結合もしない。音声は高調波成分が支配的であると仮定し、まずピッチを推定し、高調波成分を特定する。正弦波モデルとそのパラメータ推定に基づいて、音声信号から高調波成分を減算し、残差信号を得る。この方法は、例えば、Stylianou, Y. （１９９６） Harmonic plus Noise Models for Speech combined with Statistical Methods for Speech and Speaker Modification, PhD Thesis, Telecom Parisに記述されている。もう１つの可能性は、基本周波数（fundamental frequency （F０））情報なしで、所与の短時間スペクトルの正弦波を特定して減算することである。この方法は、例えば、Yeh, C. （２００８） Multiple Fundamental Frequency Estimation of Polyphonic Recordings. Ph.D. thesis, University Parisに記述されている。

【0036】

別の実施形態では、高調波成分は、例えば、Z．Zhang、K．Honda及びJ．Wei、「Retrieving Vocal-Tract Resonance and anti-Resonance From High-Pitched Vowels Using a Rahmonic Subtraction Technique」、ICASSP２０２０-２０２０ IEEE International Conference on Acoustics, Speech and Signal Processing （ICASSP）、バルセロナ、スペイン、２０２０、pp．７３５９-７３６３、doi:１０．１１０９/ICASSP４０７７６．２０２０．９０５４７４１に記載されているように、ケプストラム領域で推定され、減衰する。

【0037】

AVANE法は、基になるノイズスペクトルが、音声セグメントの前の最後のAVANE又は音声セグメントの後の第１AVANEのいずれかに近いことを前提としている。この実施形態では、音声が支配的でないスペクトルのセグメント（例えば、高周波数）を特定し、主にノイズ成分があるスペクトルの非音声セグメントのみを考慮して、音声スペクトルとAVANEの間のスペクトル類似性指標（例えば、距離指標）を計算する。実施形態では、スペクトル類似性測定は、音声スペクトルとAVANEとの間の距離に基づいている。信号対ノイズ比（signal-to-noise （SNR））（音声のエネルギと音声の周波数帯域のノイズのエネルギとの比をデシベル単位で定義する）が正であると仮定すると、さらに制約を追加して、（AVANEと同じ長さの継続時間内の）関心領域の平均音声スペクトルが選択されるべきAVANEを超える場合にのみ、選択されたAVANEを受け入れることができる。

【0038】

高調波減算を使用してノイズスペクトルの推定を計算する実施形態では、スペクトル類似性測定は、音声スペクトルの非音声周波数領域に限定されず、スペクトル全体に拡張することも、高調波推定が有効である特定の音声周波数、例えば音声の最低周波数範囲、を超える周波数に限定することもできる。したがって、類似性指標は、音声セグメントからの高調波減算後の残差信号と、音声セグメントの前後のAVANE推定との間で計算される。

【0039】

実施形態では、オーディオフレームが与えられた場合、オーディオフレームのエネルギスペクトルが計算され、デシベルスケールに変換される。現在のオーディオフレームが音声フレーム（すなわち、音声セグメント内）の場合、音声セグメントの前後で以前に計算された平均ノイズスペクトル（dB）が、例えばストレージ（例えば、メモリ、ディスク）から取得される。図３は、幾つかの実施形態による、平均音声スペクトルと、音声セグメントの前後の非音声セグメントに対応する２つのノイズスペクトルを示している。

【0040】

これら２つのノイズスペクトルと現在の音声スペクトルが与えられると、ノイズスペクトルの上限周波数f_cが計算され、２つの限度のうちの最低値が「カットオフ」周波数f_cutoffとして保持される。次に、この例では音声スペクトルと２つのノイズスペクトルの差（「距離」）の絶対値の合計である類似性メトリックが、例えば音声スペクトルの半分からカットオフ周波数までのセグメントで計算される。（前に定義したように）最小距離のノイズスペクトルは、オーディオ録音のノイズスペクトルの現在の推定値として保持される。代替の実施形態では、距離指標を音声フレームのセットにわたって計算して平均化することができ、最小平均距離を与えるノイズスペクトルが、ノイズスペクトルの現在の推定値として選択される。

【0041】

audioframeがフレーム内のオーディオサンプルのベクトルであり、spectrumがaudioframeの高速フーリエ変換（Fast Fourier Transform （FFT））を使用して計算されたオーディオサンプルの周波数スペクトルであると仮定すると、
spectrum=fft（audioframe） [１]

【0042】

spectrumは次式によりdBスケールのspectrum_dBに変換できる：
spectrum_dB=２０log_１０（abs（spectrum）） [２]

【0043】

現在のフレームがノイズフレームの場合、そのavg_spectrum_dBは保持され、所与の長さ（例えば、５秒）のウィンドウで過去のスペクトルと平均化され、ここではavg_spectrum_dBと表す。現在のフレームが音声フレームの場合、そのスペクトルは過去のノイズスペクトル及び将来のノイズスペクトルと比較される。以下、音声スペクトルをspeech_spectrum_dB、過去及び将来のノイズスペクトルを各々past_spectrum_dB及びfuture_spectrum_dBと呼ぶ。

【0044】

幾つかの実施形態では、past_spectrum_dB及びfuture_spectrum_dBの各々の上限周波数f_cは、以下により決定される：
１）第１周波数を選択する。第１周波数より上でf_cが推定される。
２）第１周波数より上のノイズスペクトルを、指定された長さとオーバーラップ（例えば、５０％）のブロックに分割する。
３）各ブロックで、対応するブロックの周波数が高くなる順に平均導関数を計算し、事前定義された負の値（例えば、-２０dB）より小さい値を持つ第１導関数を見つける。
４）f_cより前の小さな領域のノイズスペクトルの平均を計算し、f_cより上のノイズスペクトルの値を平均ノイズスペクトルに置き換える。
ステップ（３）はノイズスペクトルの大幅な減衰と解釈され、対応するブロックの周波数が上限周波数と見なされることに注意する。

【0045】

決定された上限周波数f_cと音声f_１を超える周波数のうちの低い方として、カットオフ周波数f_cutoffが与えられると、現在の音声スペクトルとノイズスペクトルの間の距離は次のように計算される：

【数1】

【0046】

式[４]に示すように、f１とf_cutoffの間の周波数範囲は、音声高調波がほとんど存在しないスペクトル領域を定義し、背景ノイズが支配的である。distance_pastとdistance_futureの間の最小値（argmin（）によって与えられる）は、現在のスペクトルに近いノイズスペクトルを与え、ノイズ候補として選択される。このアプローチは、複数の候補ノイズスペクトルに拡張できる。

【0047】

高調波減算を使用して音声高調波を推定及び除去する実施形態では、式３a、３b、及び４で説明されている方法は、開始指数f_１を低い周波数指数、例えば音声の最低周波数又は残差推定が信頼できると考えられる最低周波数に置き換えることによって、音声周波数に拡張できる。

【0048】

ここで説明されている、音声が存在する場合のノイズを推定できる任意の方法（例えばAVANE法）が与えられた場合、推定されたスペクトルと２つの既知のノイズスペクトルの間の距離は、現在のフレームと隣接する非音声セグメントのAVANEから得られた推定を比較し、前述のように過去又は将来のノイズ推定のいずれかを選択することによって計算できる。

【0049】

図４は、実施形態による、適応ノイズ推定及びノイズ低減のためのシステム４００のブロック図である。オーディオ入力（例えば、音声コンテンツを含むオーディオファイル）は、分割ユニット４０１によってフレームの重なり合うセグメントに分割され、結果として得られたセグメントは複数のバッファ４０２に格納され、例えば短時間フーリエ変換（short-time Fourier transform （STFT））ブロック４０３によってスペクトル４０５に変換される。音声活性検出（Voice Activity Detection （VAD））ブロック４０４は、与えられたオーディオフレームに音声が含まれる確率を計算する。スペクトル４０５とVAD出力（音声確率）は、平均化ユニット４０６に供給され、各音声フレームに対して、現在の音声スペクトルと複数のノイズスペクトル４０７を生成する。音声スペクトルと複数のノイズスペクトル４０７は、類似性メトリックユニット４０８に入力される。類似性メトリックユニット４０８は、ノイズ低減ブロック４０９がオーディオ入力のノイズを低減するために使用するノイズスペクトル４１０として、（例えば、式[３a、３b]の距離メトリックに基づいて）ノイズスペクトルの１つを選択する。

【0050】

幾つかの実施形態では、ノイズ低減ユニット４０９は、オーディオ入力のスペクトルと選択された推定ノイズスペクトル４１０を比較し、入力信号のエネルギがノイズスペクトルのエネルギに事前定義された閾値を加えたものよりも小さくなる周波数帯域にゲイン低減を適用することにより、選択されたノイズスペクトル４１０を使用してオーディオ入力のノイズを低減する。

【0051】

＜他の実施形態＞
更なる実施形態の以下の説明では、更なる実施形態と前述の実施形態との相違点に焦点を当てる。従って、以下の説明では、両方の実施形態に共通する特徴は省略するので、以下の説明で特に必要がない限り、前述の実施形態の特徴は、更なる実施形態でも実装可能であるか、少なくとも実装可能であると考えるべきである。

【0052】

幾つかの実施形態では、事前に計算された複数のノイズスペクトルが利用可能であり、
noise_spectrum_i, ここで、i=１,..,N, [５]
また、類似性指標は、現在の音声スペクトルと複数のノイズスペクトルの距離（dBスケール）であり、次式で与えられる：

【数2】

【0053】

より小さい距離に対応するノイズスペクトルは、次のように選択される：
noise_spectrum_K, ここで、K=argmin（distance_i） [７]

【0054】

複数のノイズスペクトルは、例えば、複数のエンドポイントを持つ電話会議のように、オーディオ録音に見られる異なるノイズ条件が事前に知られ、測定されているアプリケーションにおいて、先験的に提供することができる。あるいは、複数のノイズスペクトルは、非音声フレームの複数のスペクトルに適用されるクラスタリングアルゴリズムによって決定することができる。クラスタリングアルゴリズムは、例えば、複数の非音声スペクトルベクトルに適用されるk平均クラスタリングアルゴリズム、又はその他の任意の適切なクラスタリングアルゴリズムとすることができる。

【0055】

＜オンラインの実装＞
上記のオフライン計算のための実施形態は、リアルタイム、オンライン、低遅延のシナリオに拡張することができる。この場合、現在の音声フレームの後の将来のノイズスペクトルは使用できないことに注意する。候補ノイズスペクトルが先験的に提供される場合、選択処理は利用可能な（格納された）ノイズスペクトルを使用してすべての音声フレームでオンラインで適用される。候補ノイズスペクトルが先験的に提供されない場合、ノイズスペクトルはオンラインで構築できる。例えば、第１非音声フレームから第１ノイズスペクトルが取得される。追加の非音声フレームが受信されると、それらのノイズスペクトルが計算され、以前に保持された各ノイズスペクトルからの距離が事前に定義された閾値よりも大きい場合は、追加のノイズスペクトルとして保持される。追加の非音声フレームが受信されると、それらのノイズスペクトルがクラスタリングアルゴリズム（例えばk平均クラスタリング）によって計算及びクラスタ化され、得られたクラスタが候補ノイズスペクトルとして使用される。十分な数の新しい非音声フレームが受信されるたびに、又は既存のクラスタに対して大きな非類似性を持つ非音声フレームが受信されるたびに、クラスタリングプロセスが繰り返され、精緻化される。

【0056】

＜音楽の録音＞
実施形態では、オーディオ録音は音声コンテンツの代わりに音楽（又は別のクラスの音声コンテンツ）を含む。この実施形態では、音声分類器VADを適切な音楽（又は別のクラス）分類器に置き換える。

【0057】

＜音楽＋音声録音＞
実施形態では、オーディオ録音は音声と音楽の両方を含む。この実施形態では、音声と音楽の部分からノイズを除去するが、音楽信号を保存することが望ましい。この実施形態では、音声分類器は、マルチクラス分類器（例えば、音楽と音声の分類器）、又は音楽と音声の２つの別個の分類器に置き換えられる。分類器によって出力された音声と音楽の確率は、事前に定義された閾値と比較され、音声と音楽の確率の両方が事前に定義された閾値よりも小さい場合、フレームはノイズと見なされる。次に、前述の方法を適用して、音声領域に,任意で音楽領域にも適したノイズスペクトルを推定する。

【0058】

＜例示的な処理＞
図５は、実施形態による、ノイズフロア推定及びノイズ低減のための処理５００のフロー図である。処理５００は、図６に示す装置アーキテクチャを用いて実施できる。

【0059】

処理５００は、オーディオ入力を音声セグメントと非音声セグメントに分割する（５０１）ことにより開始し、各非音声セグメントの各フレームについて、非音声セグメントの時間変化するノイズスペクトル（５０３）と音声セグメントの音声スペクトル（５０４）を推定する。

【0060】

処理５００は、続いて、各音声セグメントの各フレームについて、音声スペクトルの１つ以上の非音声周波数成分を特定し（５０５）、１つ以上の非音声周波数成分を、複数の推定ノイズスペクトルの１つ以上の対応する周波数成分と比較し（５０６）、比較の結果に基づいて、複数の推定ノイズスペクトルから推定ノイズスペクトルを選択する（５０７）。

【0061】

幾つかの実施形態では、複数の推定ノイズスペクトルが、過去の非音声セグメントに対する推定ノイズスペクトルと、将来の非音声セグメントに対する推定ノイズスペクトルを含む。幾つかの実施形態では、複数の推定ノイズスペクトルは、非音声フレームの複数のノイズスペクトルに適用されるクラスタリングアルゴリズムによって決定することができる。クラスタリングアルゴリズムは、例えば、複数の非音声スペクトルベクトルに適用されるk平均クラスタリングアルゴリズム、又はその他の任意の適切なクラスタリングアルゴリズムとすることができる。

【0062】

幾つかの実施形態では、処理５００は、続いて、選択された推定ノイズスペクトルを使用してオーディオ入力のノイズを低減することができる。

【0063】

＜例示的なシステムアーキテクチャ＞
図６は、実施形態による、図１～５を参照して説明される機能及び処理を実装する例示的なシステムのブロック図を示す。システム６００には、スマートフォン、タブレットコンピュータ、ウェアラブルコンピュータ、車両コンピュータ、ゲームコンソール、サラウンドシステム、キオスクなど、オーディオを再生できる任意の装置が含まれるが、これらに限定されない。

【0064】

図示のように、システム６００は、例えば読み出し専用メモリ（readonly memory （ROM））６０２に格納されたプログラム又は例えば記憶ユニット６０８からランダムアクセスメモリ（random access memory （RAM））６０３へとロードされたプログラムに従い種々の処理を実行できる中央処理ユニット（CPU）６０１を含む。RAM６０３には、必要に応じて、CPU６０１が種々の処理を実行するときに必要なデータも格納される。CPU６０１、ROM６０２、及びRAM６０３は、バス６０９を介して互いに接続される。入力／出力（I/O）インタフェース６０５は、バス６０４にも接続される。

【0065】

以下のコンポーネントは、I/Oインタフェース６０５に接続される。つまり、キーボード、マウス、等を含み得る入力ユニット６０６、液晶ディスプレイ（LCD）のようなディスプレイ及び１つ以上のスピーカを含み得る出力ユニット６０７、ハードディスク又は別の適切な記憶装置を含む記憶ユニット６０８、及びネットワークカード（例えば、有線又は無線）のようなネットワークインタフェースカードを含む通信ユニット６０９である。

【0066】

幾つかの実装では、入力ユニット６０６は、様々な形式（例えば、モノラル、ステレオ、空間、イマーシブ、その他の適切な形式）のオーディオ信号のキャプチャを可能にする、異なる位置（ホスト装置によって異なる）にある１つ以上のマイクを含む。

【0067】

幾つかの実装では、出力ユニット６０７は、様々な数のスピーカを持つシステムを含む。図６に示すように、出力ユニット６０７は、（ホスト装置の機能に応じて）様々な形式（例えば、モノラル、ステレオ、イマーシブ、バイノーラル、その他の適切な形式）のオーディオ信号をレンダリングすることができる。

【0068】

通信ユニット６０９は、他の装置と（例えば、ネットワークを介して）通信するよう構成される。ドライブ６１０も、必要に応じて、I/Oインタフェース６０５に接続される。磁気ディスク、光ディスク、磁気－光ディスク、フラッシュドライブ、又は別の適切な取り外し可能媒体のような取り外し可能媒体６１１は、ドライブ６１０に取り付けられ、その結果、それから読み出されたコンピュータプログラムは、必要に応じて、記憶ユニット６０８にインストールされる。当業者は、システム６００が上述のコンポーネントを含むとして記載されるが、実際の適用では、これらのコンポーネントのうちの一部を追加し、除去し、及び／又は置換することが可能であること、及び全部のこれらの変更又は変形が全て本開示の範囲に包含されることを理解するだろう。

【0069】

本開示の例示的な実施形態によると、上述の処理は、コンピュータソフトウェアプログラムとして又はコンピュータ可読記憶媒体に実装されてよい。例えば、本開示の実施形態は、機械可読媒体上に有形に具現化されたコンピュータプログラムを含むコンピュータプログラムプロダクトを含む。該コンピュータプログラムは、方法を実行するためのプログラムコードを含む。そのような実施形態では、コンピュータプログラムは、図６に示されるように、ネットワークから通信ユニット６０９を介してダウンロードされ実装され、及び／又は取り外し可能媒体６１１からインストールされてよい。

【0070】

通常、本開示の種々の例示的な実施形態は、ハードウェア又は専用回路（例えば、制御回路）、ソフトウェア、ロジック、又はそれらの任意の組合せで実装されてよい。例えば、上述のユニットは、制御回路（例えば、図６の他のコンポーネントと組み合わせたCPU）により実行されてよい。従って、制御回路は、本開示で説明した動作を実行できる。幾つかの態様は、ハードウェアで実装されてよいが、他の態様は、制御部、マイクロプロセッサ、又は他のコンピューティング装置（）例えば、制御回路）により実行されてよいファームウェア又はソフトウェア実装されてよい。本開示の例示的な実施形態の種々の態様は、ブロック図、フローチャート、又は幾つかの他の図式表現を用いて図示され説明されたが、本願明細書に記載されるブロック、機器、システム、技術、又は方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、専用回路又はロジック、汎用ハードウェア又は制御部又は他のコンピューティング装置、又はそれらの何らかの組合せで実装されてよいことが理解される。

【0071】

更に、フローチャートに示される種々のブロックは、方法のステップとして、及び／又はコンピュータプログラムコードの演算から生じる演算として、及び／又は関連する機能を実行するよう構成される複数の結合された論理回路素子として、考えられてよい。例えば、本開示の実施形態は、機械可読媒体上に有形に具現化されたコンピュータプログラムを含むコンピュータプログラムプロダクトを含む。該コンピュータプログラムは、上述のような方法を実行するよう構成されるプログラムコードを含む。

【0072】

本開示の文脈では、機械可読媒体は、命令実行システム、機器、又は装置により又はそれと関連して使用するためのプログラムを含む又は格納し得る任意の有形媒体であってよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってよい。機械可読媒体は、非有形であってよく、限定ではないが、電子、磁気、光、電磁気、赤外線、又は半導体システム、機器、又は装置、又はそれらの任意の適切な組合せを含んでよい。機械可読記憶媒体のより具体的な例は、１つ以上のワイヤ、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（RAM）、読み出し専用メモリ（ROM）、消去可能なプログラマブル読み出し専用メモリ（EPROM又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ（CD-ROM）、光記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせを含んでよい。

【0073】

本開示の方法を実行するコンピュータプログラムコードは、１つ以上のプログラミング言語の任意の組合せで記述されてよい。これらのコンピュータプログラムコードは、汎用コンピュータ、専用コンピュータ、又は制御回路を有する他のプログラム可能なデータ処理機器のプロセッサに提供されてよい。その結果、該プログラムコードは、コンピュータ又は他のプログラム可能なデータ処理機器のプロセッサにより実行されると、フローチャート及び／又はブロック図の中で指定された機能／動作を実施させる。プログラムコードは、全体がコンピュータ上で、部分的にコンピュータ上で、独立型ソフトウェアパッケージとして、部分的にコンピュータ上で及び部分的にリモートコンピュータ上で若しくは全体的にリモートコンピュータ若しくはサーバで、又は１つ以上のリモートコンピュータ及び／又はサーバに渡り分散されて実行されてよい。

【0074】

＜列挙される例示的な実施形態（Enumerated Example Embodiment （EEE））＞

【0075】

本開示の実施形態は、以下にリストする列挙される実施形態（EEE）のうちの１つに関連することがある。

【0076】

（EEE１）オーディオプロセッサであって、
オーディオ入力を重なり合うフレームのセグメントに分割するように構成される分割器と、
前記重なり合うフレームのセグメントを格納するよう構成される複数のバッファと、
各バッファに格納されたセグメントごとに、周波数スペクトルを計算するよう構成されるスペクトル分析ユニットと、
前記オーディオ入力の中の音声セグメントと非音声セグメントを検出するよう構成される音声活性検出器（voice activity detector （VAD））と、
前記VADの出力に結合され、前記VAD出力により識別された音声セグメントごとに音声スペクトルを、及び前記VAD出力により識別された非音声セグメントごとに時間変化するノイズスペクトルを計算するように構成された平均化ユニットと、現在の音声スペクトルと各ノイズスペクトルの中の１つ以上の周波数成分の間の類似性メトリックを計算し、前記類似性メトリックに基づき前記複数のノイズスペクトルから１つのノイズスペクトルを選択するよう構成される類似性メトリックユニットと、
前記選択されたノイズスペクトルを使用して、前記オーディオ入力のノイズを低減するよう構成されるノイズ低減ユニットと、
を含むオーディオプロセッサ。

【0077】

（EEE２）前記VADは、前記オーディオ入力の各フレーム内の音声の確率を取得し、該確率に基づいて音声を含むフレームを識別するよう構成される、EEE１に記載のオーディオプロセッサ。

【0078】

（EEE３）オーディオプロセッサであって、
オーディオ入力の中の音声セグメントと非音声セグメントを検出するように構成されたの音声活性検出器（VAD）と、
前記VADの出力に結合され、前記VAD出力によって識別される音声セグメントごとに音声スペクトルを、前記VAD出力によって識別される非音声セグメントごとにノイズスペクトルを取得するように構成された平均化ユニットと、
現在の音声スペクトルの１つ以上の周波数成分と各ノイズスペクトルの対応する１つ以上の周波数成分の間の類似性メトリックを計算し、前記類似性メトリックに基づいて前記ノイズスペクトルから１つのノイズスペクトルを選択するように構成された類似性メトリックユニットと、
選択されたノイズスペクトルを使用して前記オーディオ入力のノイズを低減するように構成されたノイズ低減ユニットと、
を含むオーディオプロセッサ。

【0079】

本願明細書は多数の特定の実装の詳細を含むが、これらは、請求され得るものの範囲に対する限定としてではなく、むしろ、特定の実装の特定の実装に固有の特徴の説明として考えられるべきである。別個の実施形態の文脈で本願明細書に記載された特定の特徴は、単一の実装形態において結合されて実装されてもよい。反対に、単一の実施形態の文脈で記載された種々の特徴は、複数の実施形態で別個に又は任意の適切な部分的組み合わせで実装されてもよい。更に、特徴は特定の組み合わせで動作するよう上述され、そのように初めに請求され得るが、請求される組み合わせからの１つ以上の特徴は、幾つかの場合には、組み合わせから切り離すことができ、請求される組み合わせは、部分的組み合わせ又は部分的組み合わせの変形に向けられてよい。図面に示された論理的フローは、望ましい結果を達成するために示された特定の順序又はシーケンシャルな順序を必要としない。更に、他のステップが設けられてよく、又はステップは記載されたフローから除去されてよく、記載されたシステムに他のコンポーネントが追加されてよく又は除去されてよい。したがって、他の実装は以下の特許請求の範囲の範囲内にある。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版