特許6703525 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インターデジタル　シーイー　パテント　ホールディングスの特許一覧

特許6703525音源を強調するための方法及び機器

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6703525

(24)【登録日】2020年5月12日

(45)【発行日】2020年6月3日

(54)【発明の名称】音源を強調するための方法及び機器

(51)【国際特許分類】

G10L 21/028 20130101AFI20200525BHJP

G10L 25/51 20130101ALI20200525BHJP

H04R 3/00 20060101ALI20200525BHJP

H04R 1/40 20060101ALI20200525BHJP

【ＦＩ】

G10L21/028 B

G10L25/51 400

H04R3/00 320

H04R1/40 320

【請求項の数】15

【全頁数】17

(21)【出願番号】特願2017-512383(P2017-512383)

(86)(22)【出願日】2015年8月25日

(65)【公表番号】特表2017-530396(P2017-530396A)

(43)【公表日】2017年10月12日

(86)【国際出願番号】EP2015069417

(87)【国際公開番号】WO2016034454

(87)【国際公開日】20160310

【審査請求日】2018年8月22日

(31)【優先権主張番号】14306365.9

(32)【優先日】2014年9月5日

(33)【優先権主張国】EP

(31)【優先権主張番号】14306947.4

(32)【優先日】2014年12月4日

(33)【優先権主張国】EP

(73)【特許権者】

【識別番号】518341334

【氏名又は名称】インターデジタルシーイーパテントホールディングス

(74)【代理人】

【識別番号】100079108

【弁理士】

【氏名又は名称】稲葉良幸

(74)【代理人】

【識別番号】100109346

【弁理士】

【氏名又は名称】大貫敏史

(74)【代理人】

【識別番号】100117189

【弁理士】

【氏名又は名称】江口昭彦

(74)【代理人】

【識別番号】100134120

【弁理士】

【氏名又は名称】内藤和彦

(74)【代理人】

【識別番号】100108213

【弁理士】

【氏名又は名称】阿部豊隆

(72)【発明者】

【氏名】ドン，クアンカーンゴク

(72)【発明者】

【氏名】ベーセット，ピエール

(72)【発明者】

【氏名】ザブレ，エリック

(72)【発明者】

【氏名】カードランバット，ミッシェル

【審査官】大野弘

(56)【参考文献】

【文献】特開２０１１−１２３３７０（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ２１／０２８

Ｇ１０Ｌ２５／５１

Ｈ０４Ｒ１／４０

Ｈ０４Ｒ３／００

(57)【特許請求の範囲】

【請求項1】

オーディオ処理機器において実行される方法であって、前記方法が、
少なくとも２つの出力を生成するために、少なくとも２つのオーディオ入力からの入力信号の混合であるオーディオ信号を処理することであって、各出力が、異なる空間方向を指し示すビーム形成器を用いることによって生成される、ことと、
第１の空間方向の第１の強調された信号を生成することであって、前記第１の空間方向は、前記少なくとも２つの生成された出力のうちの第１の出力を生成するために用いられるビーム形成器により指し示された空間方向であり、前記第１の強調された信号は、前記生成された第１の出力が前記生成された少なくとも２つの出力の間で支配的な出力である場合、前記入力信号の線形結合である基準信号に基づいて生成され、前記生成された第１の出力が前記支配的な出力以外である場合、前記生成された第１の出力に基づいて生成される、生成することと、を含む方法。

【請求項2】

前記オーディオ信号に対して音源定位を実行することを含む、請求項１に記載の方法。

【請求項3】

少なくとも２つの前記ビーム形成器により指し示された前記異なる空間方向のうちの少なくとも１つは、前記音源定位を考慮する、請求項２に記載の方法。

【請求項4】

前記第１の強調された信号は、前記生成された第１の出力が前記支配的な出力以外である場合、第１の係数によって重み付けされた前記生成された第１の出力に基づいて生成される、請求項１〜３のいずれか一項に記載の方法。

【請求項5】

少なくとも１つの前記ビーム形成器は、前記オーディオ処理機器のカメラが面する方向である空間方向を有する、請求項１〜４のいずれか一項に記載の方法。

【請求項6】

１つの第１の結合された信号及び１つの第２の結合された信号を提供し、且つ前記第１及び第２の結合された信号を出力するために、前記第１の強調された信号を、前記少なくとも２つの入力信号のうちの１つの第１の入力信号と、１つの第２の入力信号にそれぞれ結合することを更に含む、請求項１〜５のいずれか一項に記載の方法。

【請求項7】

機器であって、前記機器が、少なくとも２つのビーム形成器と、少なくとも１つのプロセッサとを備え、
前記少なくとも１つのプロセッサは、
少なくとも２つの出力を生成するために少なくとも２つのオーディオ入力からの入力信号の混合であるオーディオ信号を処理し、各出力が、異なる空間方向を指し示すビーム形成器の１つを用いることによって生成され、
第１の空間方向の第１の強調された信号であって、前記第１の空間方向は、前記生成された少なくとも２つの出力のうちの第１の出力を生成するために用いられるビーム形成器により指し示された空間方向であり、前記第１の強調された信号は、前記生成された第１の出力が前記生成された少なくとも２つの出力の間で支配的な出力である場合、前記入力信号の線形結合である基準信号に基づいて生成され、前記生成された第１の出力が前記支配的な出力以外である場合、前記生成された第１の出力に基づいて生成される、第１の強調された信号を生成するように構成される、機器。

【請求項8】

前記オーディオ信号に対して音源定位を実行するように構成された音源定位モジュールを備える、請求項７に記載の機器。

【請求項9】

少なくとも２つの前記ビーム形成器により指し示された前記異なる空間方向のうちの少なくとも１つは、前記音源定位を考慮する、請求項８に記載の機器。

【請求項10】

前記プロセッサは、前記生成された第１の出力が前記支配的な出力以外である場合、第１の係数によって重み付けされた前記生成された第１の出力に基づいて、前記第１の強調された信号を生成するように構成されている、請求項７〜９のいずれか一項に記載の機器。

【請求項11】

少なくとも１つの前記ビーム形成器は、前記機器のカメラが面する方向である空間方向を有する、請求項７〜１０のいずれか一項に記載の機器。

【請求項12】

前記オーディオ入力を含むオーディオキャプチャ装置を含む、請求項７〜１１のいずれか一項に記載の機器。

【請求項13】

１つの第１の結合された信号及び１つの第２の結合された信号を提供し、且つ前記第１及び第２の結合された信号を出力するために、前記プロセッサが、前記第１の強調された信号を、前記少なくとも２つの入力信号のうちの１つの第１の入力信号と、１つの第２の入力信号にそれぞれ結合するように構成されている、請求項７〜１２のいずれか一項に記載の機器。

【請求項14】

コンピュータに方法を実行させるための命令を記憶したコンピュータ可読記憶媒体であって、前記方法が、
少なくとも２つの出力を生成するために、少なくとも２つのオーディオ入力からの入力信号の混合であるオーディオ信号を処理することであって、各出力が、異なる空間方向を指し示すビーム形成器を用いることによって生成される、ことと、
第１の空間方向の第１の強調された信号を生成することであって、前記第１の空間方向は、前記少なくとも２つの生成された出力のうちの第１の出力を生成するために用いられるビーム形成器により指し示された空間方向であり、前記第１の強調された信号は、前記生成された第１の出力が前記生成された少なくとも２つの出力の間で支配的な出力である場合、前記入力信号の線形結合である基準信号に基づいて生成され、前記生成された第１の出力が前記支配的な出力以外である場合、前記生成された第１の出力に基づいて生成される、生成することと、を含むコンピュータ可読記憶媒体。

【請求項15】

前記結合することは、ユーザインターフェースから提供される比率に従って、前記第１の強調された信号に前記第１の入力信号を混合することと、前記第２の入力信号に前記第１の強調された信号を混合することとを含む、請求項６に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

（技術分野）
本発明は、音源を強調するための方法及び機器に関し、特にノイズの多い録音から音源を強調するための方法及び機器に関する。

【背景技術】

【0002】

（背景）
録音に際しては、通常、リスナーが興味のある音源を認識したりその音源に集中するのを妨げる幾つかの音源が混合している（例えば、目標スピーチ又は音楽、環境ノイズ及び他のスピーチからの干渉）。ノイズの多い録音から興味のある音源を分離しそこに集中する機能は、限定するものではないが、オーディオ／ビデオ会議、音声認識、補聴器及びオーディオズームなどの用途において求められている。

【発明の概要】

【課題を解決するための手段】

【0003】

（概要）
本原理の実施形態に従って、以下に述べられるように、オーディオ信号を処理するための方法であって、オーディオ信号が、少なくとも第１のオーディオ源からの第１の信号及び第２のオーディオ源からの第２の信号の混合であり、方法が、第１の方向を指し示す第１のビーム形成器を用いて、オーディオ信号を処理して第１の出力を生成することであって、第１の方向が、第１のオーディオ源に対応する、ことと、第２の方向を指し示す第２のビーム形成器を用いて、オーディオ信号を処理して第２の出力を生成することであって、第２の方向が、第２のオーディオ源に対応する、ことと、強調第１の出力及び第２の出力を処理して、強調された第１の信号を生成することと、を含む方法が提示される。本原理の別の実施形態によれば、これらのステップを実行するための機器もまた提示される。

【0004】

本原理の実施形態に従って、以下に述べられるように、オーディオ信号を処理するための方法であって、オーディオ信号が、少なくとも第１のオーディオ源からの第１の信号及び第２のオーディオ源からの第２の信号の混合であり、方法が、第１の方向を指し示す第１のビーム形成器を用いて、オーディオ信号を処理して第１の出力を生成することであって、第１の方向が、第１のオーディオ源に対応する、ことと、第２の方向を指し示す第２のビーム形成器を用いて、オーディオ信号を処理して第２の出力を生成することであって、第２の方向が、第２のオーディオ源に対応する、ことと、第１の出力と第２の出力との間で第１の出力が支配的であると決定することと、強調第１の出力及び第２の出力を処理して、強調された第１の信号を生成すること、を含み、第１の出力が支配的であると決定された場合に、強調された第１の信号を生成する処理が、基準信号に基づき、第１の出力が支配的であると決定されない場合に、強調された第１の信号を生成する処理が、第１の係数によって重み付けされた第１の出力に基づく方法が提示される。本原理の別の実施形態によれば、これらのステップを実行するための機器もまた提示される。

【0005】

本原理の実施形態に従って、オーディオ信号を処理するための命令を自らに記憶したコンピュータ可読記憶媒体であって、オーディオ信号が、上記の方法に従って少なくとも第１のオーディオ源からの第１の信号及び第２のオーディオ源からの第２の信号からの混合であるコンピュータ可読記憶媒体が提示される。

【図面の簡単な説明】

【0006】

【図1】目標音源を強調する例示的なオーディオシステムを示す。

【図2】本原理の実施形態に従って、例示的なオーディオ強調システムを示す。

【図3】本原理の実施形態に従って、オーディオ強調を実行するための例示的な方法を示す。

【図4】本原理の実施形態に従って、例示的なオーディオ強調システムを示す。

【図5】本原理の実施形態に従って、３つのビーム形成器を備えた例示的なオーディオズームシステムを示す。

【図6】本原理の実施形態に従って、５つのビーム形成器を備えた例示的なオーディオズームシステムを示す。

【図7】本原理の実施形態に従って、オーディオプロセッサを使用できる例示的なシステムのブロック図を示す。

【発明を実施するための形態】

【0007】

（詳細な説明）
図１は、目標音源を強調する例示的なオーディオシステムを示す。オーディオキャプチャ装置（１０５）、例えば携帯電話は、ノイズの多い録音（例えば、方向θ_１の男性からのスピーチ、方向θ_２で音楽を再生するスピーカ、背景からのノイズ、及び方向θ_ｋで音楽を奏でる楽器の混合であり、ここでθ_１、θ_２、．．．又はθ_ｋは、マイクロホンアレイに対する音源の空間方向を表す）を表す。ユーザの要求、例えば男性のスピーチに集中するというユーザインターフェースからの要求に基づいて、オーディオ強調モジュール１１０は、要求された音源用の強調を実行し、強調された信号を出力する。オーディオ強調モジュール１１０が、オーディオキャプチャ装置１０５とは別個の装置に位置してもよいし、又は、オーディオキャプチャ装置１０５のモジュールとして組み込まれてもよいことに留意されたい。

【0008】

ノイズの多い録音から目標オーディオ源を強調するために用いることができるアプローチが存在する。例えば、オーディオ源分離は、複数の音源をそれらの混合から分離する強力な手法として知られてきた。分離手法は、例えば高い残響を伴うか又は音源の数が未知でセンサの数を超える挑戦的な事例において、依然として改善を必要とする。また、分離手法は、限られた処理能力を用いる実時間アプリケーションには現在は適していない。

【0009】

ビーム形成として知られている別のアプローチは、目標音源を強調するために、目標音源の方向を指し示す空間ビームを用いる。ビーム形成は、拡散ノイズの更なる抑制のためのポストフィルタリング手法と共に用いられることが多い。ビーム形成の１つの利点は、計算要件が、少数のマイクロホンを用いるので高価ではなく、従って実時間アプリケーションに適しているということである。しかしながら、マイクロホンの数が少ない（例えば現在のモバイル装置に関して２つ又は３つのマイクロホン）場合に、生成されたビームパターンは狭くないため、背景ノイズ及び望ましくない音源からの干渉を抑制しにくい。幾つかの既存の研究はまた、モバイル装置において認識及びスピーチ強調を満たすために、ビーム形成をスペクトル減算と結合することを提案した。これらの研究において、目標音源方向は、通常、周知であると仮定され、考慮されるヌルビーム形成は、残響効果に堅牢ではない可能性がある。更にスペクトル減算ステップはまた、出力信号にアーチファクトを加える可能性がある。

【0010】

本原理は、ノイズの多い録音から音源を強調するための方法及びシステムに関する。本原理の新規の態様に従って、我々の提案する方法は、幾つかの信号処理手法、例えば、限定するものではないが、音源定位、ビーム形成、及び空間における異なる音源方向を指し示す幾つかのビーム形成器の出力に基づく後処理を用い、それらは、どんな目標音源も効率的に強調させ得る。一般に、強調は、目標音源からの信号の質を改善することになろう。我々の提案する方法は、軽い演算負荷を有し、且つ限定するものではないが、限られた処理能力を備えたモバイル装置においてさえ、音声会議及びオーディオズームなどの実時間アプリケーションにおいて用いることができる。本原理の別の新規な態様によれば、プログレッシブオーディオズーム（０％〜１００％）が、強調された音源に基づいて実行され得る。

【0011】

図２は、本原理の実施形態による例示的なオーディオ強調システム２００を示す。システム２００は、オーディオ録音を入力として受け取り、強調された信号を出力として供給する。オーディオ強調を実行するために、システム２００は、音源定位モジュール２１０（任意選択）、複数のビーム形成器（２２０、２３０、２４０）及びポストプロセッサ２５０を含む幾つかの信号処理モジュールを用いる。下記において、我々は、各信号処理ブロックを更に詳細に説明する。

【0012】

（音源定位）
オーディオ録音が与えられると、支配的な音源の方向が未知の場合に、音源定位アルゴリズム、例えば位相変換を伴う一般化相互相関（ＧＣＣ−ＰＨＡＴ）を用いて、それらの方向（到着方向ＤｏＡの別名でも知られる）を推定することができる。その結果、異なる音源θ_１、θ_２、．．．、θ_ｋのＤｏＡを決定することができ、ここでＫは、支配的な音源の総数である。ＤｏＡが前もって周知の場合、例えば我々がビデオを捕捉するために或る方向にスマートフォンを向ける場合に、我々は、興味のある音源が、マイクロホンアレイの真正面にあることを知っており（θ_１＝９０度）、我々は、ＤｏＡを検出するために音源定位機能を実行する必要がないか、又は我々は、支配的な干渉源のＤｏＡを検出するためにだけに音源定位を実行する。

【0013】

（ビーム形成）
支配的な音源のＤｏＡが与えられると、ビーム形成は、他の方向からの信号を抑制しながら、空間における特定の音源方向を強調する強力な手法として用いることができる。一実施形態において、我々は、強調支配的な音源の様々な方向を指し示す幾つかのビーム形成器を用いて、対応する音源を強調する。観察される時間領域混合信号ｘ（ｔ）の短時間フーリエ変換（ＳＴＦＴ）係数（時間−周波数領域における信号）をｘ（ｎ，ｆ）によって表示するようにし、ここでｎが、時間フレームインデックスであり、ｆが、周波数ビンインデックスである。（方向θｊにおける音源を強調する）ｊ番目のビーム形成器の出力は、

【数1】

として計算することができ、この式で、ｗ_ｊ（ｎ，ｆ）は、ビーム形成器ｊの目標方向を指し示すステアリングベクトルから導き出された重みベクトルであり、Ｈは、ベクトル共役転置を示す。ｗ_ｊ（ｎ，ｆ）は、異なるタイプのビーム形成器用に異なる方法で、例えば、最小分散無歪み応答（ＭＶＤＲ）、ロバストＭＶＤＲ、遅延加算（ＤＳ）及び一般化サイドローブキャンセラ（ＧＳＣ）を用いて計算されてもよい。

【0014】

（後処理）
ビーム形成器の出力は、通常、干渉を分離するには十分に良好ではなく、この出力に後処理を直接適用することは、強い信号歪みにつながる可能性がある。１つの理由は、強調された音源が、（１）ビーム形成における非線形信号処理、及び（２）支配的な音源の方向を推定する際におけるエラーに起因する大量の音楽ノイズ（アーチファクト）を通常含むことである。ＤｏＡエラーが大きな位相差を引き起こす可能性があるので、上記理由により、高周波におけるより多くの信号歪みにつながる可能性がある。従って、我々は、幾つかのビーム形成器の出力に後処理を適用することを提案する。一実施形態において、後処理は、基準信号ｘ_Ｉ及びビーム形成器の出力に基づくことができ、ここで基準信号は、入力マイクロホン、例えばスマートフォンにおける目標音源に面するマイクロホン、スマートフォンにおけるカメラの隣のマイクロホン、又はブルートゥース（登録商標）ヘッドホンにおける口に近いマイクロホンの１つとすることができる。基準信号はまた、複数のマイクロホン信号から生成されたより複雑な信号、例えば複数のマイクロホン信号の線形結合とすることができる。加えて、時間周波数マスキング（及び任意選択的なスペクトル減算）を用いて、強調された信号を生成することができる。

【0015】

一実施形態において、強調された信号は、例えば音源ｊ用に

【数2】

として生成され、この式で、ｘ_Ｉ（ｎ，ｆ）は、基準信号のＳＴＦＴ係数であり、α及びβは、同調定数であり、一例においてα＝１、１．２又は１．５であり、β＝０．０５−０．３である。α及びβの特性値は、アプリケーションに基づいて適合されてもよい。式（２）における１つの根本的な仮定は、音源が、時間周波数領域においてほとんど重複されないということであり、従って、音源ｊが、時間周波数ポイント（ｎ，ｆ）において支配的である（即ち、ビーム形成器ｊの出力が、全ての他のビーム形成器の出力より大きい）場合に、基準信号は、目標音源の優れた近似として考えることができる。従って、我々は、強調された信号を基準信号ｘ_Ｉ（ｎ，ｆ）として設定して、ｓ_ｊ（ｎ，ｆ）に含まれるような、ビーム形成によって引き起こされた歪み（アーチファクト）を低減することができる。さもなければ、我々は、信号が、ノイズか又はノイズ及び目標音源の混合であると仮定し、我々は、

【数3】

を小さな値β＊ｓ_ｊ（ｎ，ｆ）に設定することによって、ノイズか又はノイズ及び目標音源の混合を抑制することを選択してもよい。

【0016】

別の実施形態において、後処理はまた、スペクトル減算のノイズ抑制方法を用いることができる。数学的に、それは、次のように示すことができる。

【数4】

この式で、位相（ｘ_Ｉ（ｎ，ｆ））は、信号のｘ_Ｉ（ｎ，ｆ）の位相情報を示し、

【数5】

は、連続的に更新できる音源ｊに影響するノイズの周波数依存スペクトルパワーである。一実施形態において、フレームがノイズフレームとして検出された場合に、ノイズレベルは、そのフレームの信号レベルに設定することができるか、又はそれは、前のノイズ値を考慮する忘却係数によって滑らかに更新することができる。

【0017】

別の実施形態において、よりロバストなビーム形成器を得るために、後処理は、ビーム形成器の出力に対して「クリーニング」を実行する。これは、次のように、フィルタで適応的に行うことができる。

【数6】

この式で、β_ｊ係数は、時間周波数信号対干渉比として見なすことができる量

【数7】

に依存する。例えば、我々は、「ソフト」後処理「クリーニング」を行うために、次のようにβを設定することができる。

【数8】

この式で、εは、小さな定数であり、例えばε＝１である。従って、｜ｓ_ｊ（ｎ，ｆ）｜は、全ての他の｜ｓ_ｉ（ｎ，ｆ）｜よりはるかに大きい場合、クリーニングされた出力は、

【数9】

であり、ｓ_ｊ（ｎ，ｆ）が、他のｓ_ｉ（ｎ，ｆ）よりはるかに小さい場合、クリーニングされた出力は、

【数10】

である。

【0018】

我々はまた、「ハード」（２進）クリーニングを行うために、βを次のように設定することができる。

【数11】

【0019】

β_ｊはまた、｜ｓ_ｊ（ｎ，ｆ）｜と｜ｓ_ｉ（ｎ，ｆ）｜、ｉ≠ｊとの間のレベル差に従って、その値を調整することによって、中間（即ち「ソフト」クリーニングと「ハード」クリーニングとの間）方法で設定することができる。

【0020】

上記のこれらの手法（「ソフト」／「ハード」／中間クリーニング）はまた、ｓ_ｊ（ｎ，ｆ）の代わりにｘ_Ｉ（ｎ，ｆ）のフィルタリングに拡張することができる。

【数12】

この場合に、β係数が、やはり、ビーム形成を利用するために（オリジナルのマイクロホン信号の代わりに）ビーム形成器の出力ｓ_ｊ（ｎ，ｆ）を用いて計算されることに留意されたい。

【0021】

上記の手法用に、我々はまた、強調された信号における定時の誤検出又はグリッチを回避するために、メモリ効果を追加することができる。例えば、我々は、後処理の決定において示された量を平均する、例えば

【数13】

を次の合計

【数14】

に置き換えてもよい。この式で、Ｍは、決定用に考慮されるフレームの数である。

【0022】

加えて、上記のような信号強調後に、他のポストフィルタリング手法を用いて、拡散背景ノイズを更に抑制することができる。

【0023】

下記において、表記法を簡単にするために、我々は、式（２）、（４）及び（７）に示されているような方法をビン分離と呼び、式（３）のような方法をスペクトル減算と呼ぶ。

【0024】

図３は、本原理の実施形態に従って、オーディオ強調を実行するための例示的な方法３００を示す。方法３００は、ステップ３０５で開始する。ステップ３１０において、方法は、初期化を実行し、例えば、音源定位アルゴリズムを用いて支配的な音源の方向を決定することが必要かどうかを決定する。必要な場合に、方法は、音源定位用のアルゴリズムを選択し、そのパラメータを設定する。方法はまた、例えばユーザ構成に基づいて、どのビーム形成アルゴリズムを用いるか、又はビーム形成器の数を決定してもよい。

【0025】

ステップ３２０において、音源定位を用いて、支配的な音源の方向を決定する。支配的な音源の方向が周知の場合に、ステップ３２０は、省くことができることに留意されたい。ステップ３３０において、それは、複数のビーム形成器を用いる。各ビーム形成器は、強調異なる方向を指し示し、対応する音源を強調する。各ビーム形成器用の方向は、音源定位から決定されてもよい。目標音源の方向が周知の場合に、我々はまた、３６０°視野における方向をサンプリングしてもよい。例えば、目標音源の方向が、９０°であると周知の場合に、我々は、９０°、０°及び１８０°を用いて、３６０°視野をサンプリングすることができる。例えば、限定するものではないが、最小分散無歪み応答（ＭＶＤＲ）、ロバストＭＶＤＲ、遅延加算（ＤＳ）及び一般化サイドローブキャンセラ（ＧＳＣ）等の異なる方法をビーム形成用に用いることができる。ステップ３４０において、それは、ビーム形成器の出力に対して後処理を実行する。後処理は、式（２）〜（７）に示されているようなアルゴリズムに基づいてもよく、且つまたスペクトル減算及び／又は他のポストフィルタリング手法と共に実行することができる。

【0026】

図４は、本原理の実施形態に従ってオーディオ強調を利用できる例示的なシステム４００のブロック図を示す。マイクロホンアレイ４１０は、処理される必要のあるノイズの多い録音を録音する。マイクロホンは、１つ又は複数のスピーカ又は装置からのオーディオを録音してもよい。ノイズの多い録音はまた、予め録音され、記憶媒体に記憶されてもよい。音源定位モジュール４２０は、任意選択である。音源定位モジュール４２０が用いられる場合に、音源定位モジュール４２０を用いて、支配的な音源の方向を決定することができる。ビーム形成モジュール４３０は、異なる方向を指し示す複数のビーム形成を適用する。ビーム形成器の出力に基づいて、ポストプロセッサ４４０は、例えば、式（２）〜（７）に示されている方法の１つを用いて、後処理を実行する。後処理の後、強調された音源は、スピーカ４５０によって再生することができる。出力音はまた、記憶媒体に記憶されるか、又は通信チャネルを通して受信機に送信されてもよい。

【0027】

図４に示される様々なモジュールは、１つの装置に実現されるか、又は幾つかの装置にわたって分散されてもよい。例えば、全てのモジュールは、限定するものではないが、タブレット又は携帯電話に含まれてもよい。別の例において、音源定位モジュール４２０、ビーム形成モジュール４３０及びポストプロセッサ４４０は、他のモジュールとは別個に、コンピュータ又はクラウドに置かれてもよい。更に別の実施形態において、マイクロホンアレイ４１０又はスピーカ４５０は、スタンドアロンモジュールとすることができる。

【0028】

図５は、本原理を用いることができる例示的なオーディオズームシステム５００を示す。オーディオズームアプリケーションにおいて、ユーザは、空間におけるただ１つの音源方向にのみ興味があってもよい。例えば、ユーザが、特定の方向にモバイル装置を向ける場合に、モバイル装置が指し示す特定の方向は、目標音源のＤｏＡであると仮定することができる。オーディオビデオキャプチャの例において、ＤｏＡ方向は、カメラが面する方向であると仮定することができる。次に、干渉物は、（オーディオキャプチャ装置の側部及び背後にある）範囲外音源である。従って、オーディオズームアプリケーションでは通常、ＤｏＡ方向がオーディオキャプチャ装置から推測できるので、音源定位は、任意選択とすることができる。

【0029】

一実施形態において、主なビーム形成器は、目標方向θを指し示すように設定され、一方で（ことにより）幾つかの他のビーム形成器は、後処理中にユーザのためにより多くのノイズ及び干渉を捕捉するために、他の非目標方向（例えば、θ−９０°、θ−４５°、θ＋４５°、θ＋９０°）を指し示している。

【0030】

オーディオシステム５００は、４つのマイクロホンｍ_１〜ｍ_４（５１０、５１２、５１４、５１６）を用いる。各マイクロホンからの信号は、例えばＦＦＴモジュール（５２０、５２２、５２４、５２６）を用いて、時間領域から時間周波数領域に変換される。ビーム形成器５３０、５３２及び５３４は、時間周波数信号に基づいてビーム形成を実行する。一例において、ビーム形成器５３０、５３２及び５３４は、方向０°、９０°、１８０°をそれぞれ指し示し、音場（３６０°）をサンプリングしてもよい。ポストプロセッサ５４０は、例えば、式（２）〜（７）に示されている方法の１つを用い、ビーム形成器５３０、５３２及び５３４の出力に基づいて後処理を実行する。基準信号がポストプロセッサ用に使用される場合に、ポストプロセッサ５４０は、基準信号としてマイクロホン（例えばｍ_４）からの信号を用いてもよい。

【0031】

ポストプロセッサ５４０の出力は、例えば、ＩＦＦＴモジュール５５０を用いて、時間周波数領域から時間領域に逆に変換される。例えば、ユーザインターフェースを通してユーザ要求によって提供されるオーディオズーム係数α（０〜１の値を備えた）に基づいて、ミキサ５６０及び５７０は、右出力及び左出力をそれぞれ生成する。

【0032】

オーディオズームの出力は、ズーム係数αに従って、ＩＦＦＴモジュール５５０からの強調された出力と、左及び右マイクロホン信号（ｍ_１及びｍ_４）との線形混合である。出力は、出力左及び出力右を備えたステレオである。ステレオ効果を維持するために、α最大値は、１未満（例えば０．９）であるべきである。

【0033】

周波数及びスペクトル減算は、式（２）〜（７）に示されている方法に加えて、ポストプロセッサにおいて用いることができる。心理音響周波数マスクは、ビン分離出力から計算することができる。原理は、心理音響マスクの外側のレベルを有する周波数ビンが、スペクトル減算の出力を生成するためには用いられないということである。

【0034】

図６は、本原理を用いることができる別の例示的なオーディオズームシステム６００を示す。システム６００において、５つのビーム形成器が、３つの代わりに用いられる。特に、ビーム形成器は、方向０°、４５°、９０°、１３５°及び１８０°をそれぞれ指し示す。

【0035】

オーディオシステム６００はまた、４つのマイクロホンｍ_１〜ｍ_４（６１０、６１２、６１４、６１６）を用いる。各マイクロホンからの信号は、例えば、ＦＦＴモジュール（６２０、６２２、６２４、６２６）を用いて、時間領域から時間周波数領域に変換される。ビーム形成器６３０、６３２、６３４、６３６及び６３８は、時間周波数信号に基づいてビーム形成を実行し、それらは、方向０°、４５°、９０°、１３５°及び１８０°をそれぞれ指し示す。ポストプロセッサ６４０は、例えば、式（２）〜（７）に示されている方法の１つを用い、ビーム形成器６３０、６３２、６３４、６３６及び６３８の出力に基づいて後処理を実行する。基準信号が、ポストプロセッサ用に用いられる場合に、ポストプロセッサ５４０は、マイクロホン（例えばｍ_３）からの信号を基準信号として用いてもよい。ポストプロセッサ６４０の出力は、例えば、ＩＦＦＴモジュール６６０を用いて、時間周波数領域から逆に時間領域に変換される。オーディオズーム係数に基づいて、ミキサ６７０は、出力を生成する。

【0036】

どちらか一方の後処理手法の主観的品質は、マイクロホンの数と共に変化する。一実施形態において、２つのマイクロホンだけを用いた場合には、ビン分離だけが好ましく、一方で４つのマイクロホンを用いた場合には、ビン分離及びスペクトル減算が好ましい。

【0037】

本原理は、複数のマイクロホンが存在する場合に、適用することができる。システム５００及び６００において、我々は、信号が、４つのマイクロホンからであると仮定する。２つのマイクロホンだけが存在する場合に、平均値（ｍ_１＋ｍ_２）／２は、必要ならばスペクトル減算を用い、後処理においてｍ_３として用いることができる。ここで基準信号が、目標音源に近い１つのマイクロホンからのもの又はマイクロホン信号の平均値とし得ることに留意されたい。例えば、３つのマイクロホンが存在する場合に、スペクトル減算用の基準信号は、（ｍ_１＋ｍ_２＋ｍ_３）／３、又はｍ_３が興味のある音源に面する場合に、直接ｍ_３とすることができる。

【0038】

一般に、本実施形態は、強調幾つかの方向におけるビーム形成の出力を用いて、目標方向におけるビーム形成を強調する。幾つかの方向においてビーム形成を実行することによって、我々は、複数の方向で音場（３６０°）をサンプリングし、次に、ビーム形成器の出力を後処理して、目標方向からの信号を「クリーニング」することができる。

【0039】

オーディオズームシステム、例えばシステム５００又は６００はまた、音声会議に使用することができ、異なる場所からの話者のスピーチを強調することができ、複数の方向を指し示す複数のビーム形成器の使用は、十分に適用可能である。音声会議において、録音装置の位置は、固定される（例えば、固定位置でテーブルに置かれる）ことが多く、一方で異なる話者は、任意の場所に位置する。音源定位及びトラッキング（例えば、動いている話者を追跡するための）を用いて、ビーム形成器をこれらの音源に向ける前に、音源の位置を学習することができる。音源定位及びビーム形成の精度を改善するために、残響効果を低減するように、残響除去手法を用いて、入力混合信号を前処理することができる。

【0040】

図７は、本原理を用いることができるオーディオシステム７００を示す。システム７００への入力は、オーディオストリーム（例えばｍｐ３ファイル）、オーディオビジュアルストリーム（例えばｍｐ４ファイル）又は異なる入力からの信号とすることができる。入力はまた、記憶装置からのものとしてもいいし、又は通信チャネルから受信してもよい。オーディオ信号が圧縮される場合に、それは、強調させられる前に復号される。オーディオプロセッサ７２０は、例えば方法３００又はシステム５００若しくは６００を用いて、オーディオ強調を実行する。オーディオズーム用の要求は、ビデオズーム用の要求とは別個としてもいいし、又はそこに含まれてもよい。

【0041】

ユーザインターフェース７４０からのユーザ要求に基づいて、システム７００は、オーディオズーム係数を受信してもよく、オーディオズーム係数により、マイクロホン信号及び強調された信号の混合比を制御することができる。一実施形態において、また、後処理後に残るノイズ量を制御するように、オーディオズーム係数を用いて、β_ｊの重み付け値を調整することができる。続いて、オーディオプロセッサ７２０は、強調されたオーディオ信号及びマイクロホン信号を混合して、出力を生成してもよい。出力モジュール７３０は、オーディオを再生するか、記憶するか、又は受信機に送信してもよい。

【0042】

本明細書で説明される実装は、例えば方法若しくはプロセス、機器、ソフトウェアプログラム、データストリーム又は信号において実施されてもよい。たとえ実装の単一形態の文脈でのみ説明されても（例えば、方法としてのみ説明される）、説明される特徴の実装はまた、他の形態（例えば機器又はプログラム）で実行されてもよい。機器は、例えば適切なハードウェア、ソフトウェア及びファームウェアで実現されてもよい。方法は、例えばコンピュータ、マイクロプロセッサ、集積回路又はプログラマブル論理装置を含む一般的な処理装置を指す、例えばプロセッサなどの機器で実行されてもよい。プロセッサはまた、例えばコンピュータ、携帯電話、ポータブル／携帯情報端末（「ＰＤＡ」）、エンドユーザ間の通信を容易にする他の装置などの通信装置を含む。

【0043】

本原理の「一実施形態」、「実施形態」、「一実装」又は「実装」と同様に、それらの他の変形に対する言及は、実施形態に関連して説明された特定の機構、構造、特徴などが、本原理の少なくとも１つの実施形態に含まれることを意味する。従って、本明細書の全体を通して様々な場所に現れる句「一実施形態」、「実施形態において」、「一実装において」又は「実装において」と同様に、どんな他の変形も、必ずしも全て同じ実施形態を指すわけではない。

【0044】

加えて、本出願又はその特許請求の範囲は、様々な情報の「決定すること」に言及してもよい。情報を決定することは、例えば、情報の推定、情報の計算、情報の予測又はメモリからの情報の検索の１つ又は複数を含んでもよい。

【0045】

更に、本出願又はその特許請求の範囲は、様々な情報に「アクセスすること」に言及してもよい。情報のアクセスは、例えば、情報の受信、情報の検索（例えばメモリから）、情報の記憶、情報の処理、情報の送信、情報の移動、情報のコピー、情報の削除、情報の計算、情報の決定、情報の予測又は情報の推定の１つ又は複数を含んでもよい。

【0046】

加えて、本出願又はその特許請求の範囲は、様々な情報を「受信すること」に言及してもよい。受信は、アクセス同様に、幅広い用語であるように意図されている。情報の受信は、例えば、情報のアクセス又は情報の検索（例えばメモリから）の１つ又は複数を含んでもよい。更に、受信は、典型的には、情報の記憶、情報の処理、情報の送信、情報の移動、情報のコピー、情報の削除、情報の計算、情報の決定、情報の予測又は情報の推定など、動作中に何らかの方法で含まれる。

【0047】

当業者には明らかなように、実装は、例えば記憶又は送信され得る情報を伝えるようにフォーマットされた様々な信号を生成してもよい。情報は、例えば、方法を実行するための命令、又は説明された実装の１つによって生成されたデータを含んでもよい。例えば、信号は、説明された実施形態のビット列を伝えるようにフォーマットされてもよい。かかる信号は、例えば電磁波（例えば、スペクトルの無線周波数部分を用いる）又はベースバンド信号としてフォーマットされてもよい。フォーマットは、例えば、データストリームの符号化及び符号化されたデータストリームでキャリアを変調することを含んでもよい。信号が伝える情報は、例えばアナログ又はデジタル情報であってもよい。信号は、周知のように、様々な異なる有線又は無線リンクを通して送信されてもよい。信号は、プロセッサ可読媒体に記憶されてもよい。
［付記１］
オーディオ信号を処理するための方法であって、前記オーディオ信号が、少なくとも第１のオーディオ源からの第１の信号及び第２のオーディオ源からの第２の信号の混合であり、前記方法が、
第１の方向を指し示す第１のビーム形成器を用いて、前記オーディオ信号を処理して第１の出力を生成すること（３３０）であって、前記第１の方向が、前記第１のオーディオ源に対応する、ことと、
第２の方向を指し示す第２のビーム形成器を用いて、前記オーディオ信号を処理して第２の出力を生成すること（３３０）であって、前記第２の方向が、前記第２のオーディオ源に対応する、ことと、
前記第１の出力及び前記第２の出力を処理して、強調された第１の信号を生成すること（３４０）と、
を含む方法。
［付記２］
前記オーディオ信号に対して音源定位を実行して、前記第１の方向及び前記第２の方向を決定すること（３２０）を更に含む、付記１に記載の方法。
［付記３］
前記第１の出力と前記第２の出力との間で前記第１の出力が支配的であると決定することを更に含む、付記１に記載の方法。
［付記４］
前記第１の出力が支配的であると決定された場合に、前記強調された第１の信号を生成する前記処理が、基準信号に基づく、付記３に記載の方法。
［付記５］
前記第１の出力が支配的であると決定されない場合に、前記強調された第１の信号を生成する前記処理が、第１の係数によって重み付けされた前記第１の出力に基づく、付記３に記載の方法。
［付記６］
前記第１の出力が支配的であると前記決定することが、
第３の方向を指し示す第３のビーム形成器を用いて、前記オーディオ信号を処理して第３の出力を生成することであって、前記第３の方向が第３のオーディオ源に対応し、前記混合が、前記第３のオーディオ源からの第３の信号を含む、ことと、
前記第２の出力及び前記第３の出力の最大値を決定することと、
前記第１の出力及び前記最大値に応じて、前記第１の出力が支配的であると決定することと、
を含む、付記３に記載の方法。
［付記７］
前記第１の出力及び前記第２の出力に応じた比率を決定することであって、前記強調された第１の信号を生成する処理が、前記比率に応じて実行されることを更に含む、付記１に記載の方法。
［付記８］
前記第１の出力及び前記比率に応じて、前記強調された第１の信号を生成することと、
基準信号及び前記比率に応じて、前記強調された第１の信号を生成することと、
の１つを更に含む、付記７に記載の方法。
［付記９］
前記第１の信号を処理するための要求を受信することと、
前記強調された第１の信号及び前記第２の信号を結合して、出力オーディオを供給することと、
を更に含む、付記１に記載の方法。
［付記１０］
オーディオ信号を処理するための機器（２００、４００、５００、６００、７００）であって、前記オーディオ信号が、少なくとも第１のオーディオ源からの第１の信号及び第２のオーディオ源からの第２の信号の混合であり、前記機器が、
第１の方向を指し示し、且つ前記オーディオ信号を処理して第１の出力を生成するように構成された第１のビーム形成器（２２０、４３０、５３０、６３０）であって、前記第１の方向が、前記第１のオーディオ源に対応する、第１のビーム形成器（２２０、４３０、５３０、６３０）と、
第２の方向を指し示し、且つ前記オーディオ信号を処理して第２の出力を生成するように構成された第２のビーム形成器（２３０、４３０、５３２、６３２）であって、前記第２の方向が、前記第２のオーディオ源に対応する、第２のビーム形成器（２３０、４３０、５３２、６３２）と、
前記第１の出力及び前記第２の出力に応じて、強調された第１の信号を生成するように構成されたプロセッサ（２５０、４４０、５４０、６４０）と、
を備える機器（２００、４００、５００、６００、７００）。
［付記１１］
前記オーディオ信号に対して音源定位を実行して、前記第１の方向及び前記第２の方向を決定するように構成された音源定位モジュール（２１０、４２０）を更に備える、付記１０に記載の機器。
［付記１２］
前記プロセッサが、前記第１の出力と前記第２の出力との間で前記第１の出力が支配的であると決定するように更に構成される、付記１０に記載の機器。
［付記１３］
前記第１の出力が支配的であると決定された場合に、前記プロセッサが、基準信号に基づいて前記強調された第１の信号を生成するように構成される、付記１２に記載の機器。
［付記１４］
前記第１の出力が支配的であると決定されない場合に、前記プロセッサが、第１の係数によって重み付けされた前記第１の出力に基づいて、前記強調された第１の信号を生成するように構成される、付記１２に記載の機器。
［付記１５］
付記１〜９のいずれか一項に従って、オーディオ信号を処理するための命令を記憶したコンピュータ可読記憶媒体であって、前記オーディオ信号が、少なくとも第１のオーディオ源からの第１の信号及び第２のオーディオ源からの第２の信号の混合である、コンピュータ可読記憶媒体。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

特許第6703525号(P6703525)IP Force 特許公報掲載プロジェクト 2022.1.31 β版