特許第6703525号(P6703525)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ インターデジタル シーイー パテント ホールディングスの特許一覧

<>
  • 特許6703525-音源を強調するための方法及び機器 図000016
  • 特許6703525-音源を強調するための方法及び機器 図000017
  • 特許6703525-音源を強調するための方法及び機器 図000018
  • 特許6703525-音源を強調するための方法及び機器 図000019
  • 特許6703525-音源を強調するための方法及び機器 図000020
  • 特許6703525-音源を強調するための方法及び機器 図000021
  • 特許6703525-音源を強調するための方法及び機器 図000022
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6703525
(24)【登録日】2020年5月12日
(45)【発行日】2020年6月3日
(54)【発明の名称】音源を強調するための方法及び機器
(51)【国際特許分類】
   G10L 21/028 20130101AFI20200525BHJP
   G10L 25/51 20130101ALI20200525BHJP
   H04R 3/00 20060101ALI20200525BHJP
   H04R 1/40 20060101ALI20200525BHJP
【FI】
   G10L21/028 B
   G10L25/51 400
   H04R3/00 320
   H04R1/40 320
【請求項の数】15
【全頁数】17
(21)【出願番号】特願2017-512383(P2017-512383)
(86)(22)【出願日】2015年8月25日
(65)【公表番号】特表2017-530396(P2017-530396A)
(43)【公表日】2017年10月12日
(86)【国際出願番号】EP2015069417
(87)【国際公開番号】WO2016034454
(87)【国際公開日】20160310
【審査請求日】2018年8月22日
(31)【優先権主張番号】14306365.9
(32)【優先日】2014年9月5日
(33)【優先権主張国】EP
(31)【優先権主張番号】14306947.4
(32)【優先日】2014年12月4日
(33)【優先権主張国】EP
(73)【特許権者】
【識別番号】518341334
【氏名又は名称】インターデジタル シーイー パテント ホールディングス
(74)【代理人】
【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【弁理士】
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【弁理士】
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【弁理士】
【氏名又は名称】内藤 和彦
(74)【代理人】
【識別番号】100108213
【弁理士】
【氏名又は名称】阿部 豊隆
(72)【発明者】
【氏名】ドン,クアン カーン ゴク
(72)【発明者】
【氏名】ベーセット,ピエール
(72)【発明者】
【氏名】ザブレ,エリック
(72)【発明者】
【氏名】カードランバット,ミッシェル
【審査官】 大野 弘
(56)【参考文献】
【文献】 特開2011−123370(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/028
G10L 25/51
H04R 1/40
H04R 3/00
(57)【特許請求の範囲】
【請求項1】
オーディオ処理機器において実行される方法であって、前記方法が、
少なくとも2つの出力を生成するために、少なくとも2つのオーディオ入力からの入力信号の混合であるオーディオ信号を処理することであって、各出力が、異なる空間方向を指し示すビーム形成器を用いることによって生成される、ことと
第1の空間方向の第1の強調された信号を生成することであって、前記第1の空間方向は、前記少なくとも2つの生成された出力のうちの第1の出力を生成するために用いられるビーム形成器により指し示された空間方向であり、前記第1の強調された信号は、前記生成された第1の出力が前記生成された少なくとも2つの出力の間で支配的な出力である場合、前記入力信号の線形結合である基準信号に基づいて生成され、前記生成された第1の出力が前記支配的な出力以外である場合、前記生成された第1の出力に基づいて生成される、生成することと、を含む方法。
【請求項2】
前記オーディオ信号に対して音源定位を実行することを含む、請求項1に記載の方法。
【請求項3】
少なくとも2つの前記ビーム形成器により指し示された前記異なる空間方向のうちの少なくとも1つは、前記音源定位を考慮する、請求項2に記載の方法。
【請求項4】
前記第の強調された信号前記生成された第1の出力が前記支配的な出力以外である場合、第1の係数によって重み付けされた前記生成された第1の出力に基づいて生成される、請求項1〜3のいずれか一項に記載の方法。
【請求項5】
少なくとも1つの前記ビーム形成器は、前記オーディオ処理機器のカメラが面する方向である空間方向を有する、請求項1〜4のいずれか一項に記載の方法。
【請求項6】
1つの第1の結合された信号及び1つの第2の結合された信号を提供し、且つ前記第1及び第2の結合された信号を出力するために、前記第1の強調された信号を、前記少なくとも2つの入力信号のうちの1つの第1の入力信号と、1つの第2の入力信号にそれぞれ結合することを更に含む、請求項1〜のいずれか一項に記載の方法。
【請求項7】
器であって、前記機器が、少なくとも2つのビーム形成器と、少なくとも1つのプロセッサとを備え、
前記少なくとも1つのプロセッサは、
少なくとも2つの出力を生成するために少なくとも2つのオーディオ入力からの入力信号の混合であるオーディオ信号を処理し、各出力が、異なる空間方向を指し示すビーム形成器の1つを用いることによって生成され
第1の空間方向の第1の強調された信号であって、前記第1の空間方向は、前記生成された少なくとも2つの出力のうちの第1の出力を生成するために用いられるビーム形成器により指し示された空間方向であり、前記第1の強調された信号は、前記生成された第1の出力が前記生成された少なくとも2つの出力の間で支配的な出力である場合、前記入力信号の線形結合である基準信号に基づいて生成され、前記生成された第1の出力が前記支配的な出力以外である場合、前記生成された第1の出力に基づいて生成される、第1の強調された信号を生成するように構成され、機器。
【請求項8】
前記オーディオ信号に対して音源定位を実行するように構成された音源定位モジュールを備える、請求項に記載の機器。
【請求項9】
少なくとも2つの前記ビーム形成器により指し示された前記異なる空間方向のうちの少なくとも1つは、前記音源定位を考慮する、請求項に記載の機器。
【請求項10】
前記プロセッサ前記生成された第1の出力が前記支配的な出力以外である場合、第1の係数によって重み付けされた前記生成された第1の出力に基づいて、前記第の強調された信号を生成するように構成されている、請求項のいずれか一項に記載の機器。
【請求項11】
少なくとも1つの前記ビーム形成器は、前記機器のカメラが面する方向である空間方向を有する、請求項10のいずれか一項に記載の機器。
【請求項12】
前記オーディオ入力を含むオーディオキャプチャ装置を含む、請求項11のいずれか一項に記載の機器。
【請求項13】
1つの第1の結合された信号及び1つの第2の結合された信号を提供し、且つ前記第1及び第2の結合された信号を出力するために、前記プロセッサが、前記第1の強調された信号を、前記少なくとも2つの入力信号のうちの1つの第1の入力信号と、1つの第2の入力信号にそれぞれ結合するように構成されている、請求項12のいずれか一項に記載の機器。
【請求項14】
コンピュータに方法を実行させるための命令を記憶したコンピュータ可読記憶媒体であって、前方法が、
少なくとも2つの出力を生成するために、少なくとも2つのオーディオ入力からの入力信号の混合であるオーディオ信号を処理することであって、各出力が、異なる空間方向を指し示すビーム形成器を用いることによって生成される、ことと、
第1の空間方向の第1の強調された信号を生成することであって、前記第1の空間方向は、前記少なくとも2つの生成された出力のうちの第1の出力を生成するために用いられるビーム形成器により指し示された空間方向であり、前記第1の強調された信号は、前記生成された第1の出力が前記生成された少なくとも2つの出力の間で支配的な出力である場合、前記入力信号の線形結合である基準信号に基づいて生成され、前記生成された第1の出力が前記支配的な出力以外である場合、前記生成された第1の出力に基づいて生成される、生成することと、を含むコンピュータ可読記憶媒体。
【請求項15】
前記結合することは、ユーザインターフェースから提供される比率に従って、前記第1の強調された信号に前記第1の入力信号を混合することと、前記第2の入力信号に前記第1の強調された信号を混合することとを含む、請求項6に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
(技術分野)
本発明は、音源を強調するための方法及び機器に関し、特にノイズの多い録音から音源を強調するための方法及び機器に関する。
【背景技術】
【0002】
(背景)
録音に際しては、通常、リスナーが興味のある音源を認識したりその音源に集中するのを妨げる幾つかの音源が混合している(例えば、目標スピーチ又は音楽、環境ノイズ及び他のスピーチからの干渉)。ノイズの多い録音から興味のある音源を分離しそこに集中する機能は、限定するものではないが、オーディオ/ビデオ会議、音声認識、補聴器及びオーディオズームなどの用途において求められている。
【発明の概要】
【課題を解決するための手段】
【0003】
(概要)
本原理の実施形態に従って、以下に述べられるように、オーディオ信号を処理するための方法であって、オーディオ信号が、少なくとも第1のオーディオ源からの第1の信号及び第2のオーディオ源からの第2の信号の混合であり、方法が、第1の方向を指し示す第1のビーム形成器を用いて、オーディオ信号を処理して第1の出力を生成することであって、第1の方向が、第1のオーディオ源に対応する、ことと、第2の方向を指し示す第2のビーム形成器を用いて、オーディオ信号を処理して第2の出力を生成することであって、第2の方向が、第2のオーディオ源に対応する、ことと、強調第1の出力及び第2の出力を処理して、強調された第1の信号を生成することと、を含む方法が提示される。本原理の別の実施形態によれば、これらのステップを実行するための機器もまた提示される。
【0004】
本原理の実施形態に従って、以下に述べられるように、オーディオ信号を処理するための方法であって、オーディオ信号が、少なくとも第1のオーディオ源からの第1の信号及び第2のオーディオ源からの第2の信号の混合であり、方法が、第1の方向を指し示す第1のビーム形成器を用いて、オーディオ信号を処理して第1の出力を生成することであって、第1の方向が、第1のオーディオ源に対応する、ことと、第2の方向を指し示す第2のビーム形成器を用いて、オーディオ信号を処理して第2の出力を生成することであって、第2の方向が、第2のオーディオ源に対応する、ことと、第1の出力と第2の出力との間で第1の出力が支配的であると決定することと、強調第1の出力及び第2の出力を処理して、強調された第1の信号を生成すること、を含み、第1の出力が支配的であると決定された場合に、強調された第1の信号を生成する処理が、基準信号に基づき、第1の出力が支配的であると決定されない場合に、強調された第1の信号を生成する処理が、第1の係数によって重み付けされた第1の出力に基づく方法が提示される。本原理の別の実施形態によれば、これらのステップを実行するための機器もまた提示される。
【0005】
本原理の実施形態に従って、オーディオ信号を処理するための命令を自らに記憶したコンピュータ可読記憶媒体であって、オーディオ信号が、上記の方法に従って少なくとも第1のオーディオ源からの第1の信号及び第2のオーディオ源からの第2の信号からの混合であるコンピュータ可読記憶媒体が提示される。
【図面の簡単な説明】
【0006】
図1】目標音源を強調する例示的なオーディオシステムを示す。
図2】本原理の実施形態に従って、例示的なオーディオ強調システムを示す。
図3】本原理の実施形態に従って、オーディオ強調を実行するための例示的な方法を示す。
図4】本原理の実施形態に従って、例示的なオーディオ強調システムを示す。
図5】本原理の実施形態に従って、3つのビーム形成器を備えた例示的なオーディオズームシステムを示す。
図6】本原理の実施形態に従って、5つのビーム形成器を備えた例示的なオーディオズームシステムを示す。
図7】本原理の実施形態に従って、オーディオプロセッサを使用できる例示的なシステムのブロック図を示す。
【発明を実施するための形態】
【0007】
(詳細な説明)
図1は、目標音源を強調する例示的なオーディオシステムを示す。オーディオキャプチャ装置(105)、例えば携帯電話は、ノイズの多い録音(例えば、方向θの男性からのスピーチ、方向θで音楽を再生するスピーカ、背景からのノイズ、及び方向θで音楽を奏でる楽器の混合であり、ここでθ、θ、...又はθは、マイクロホンアレイに対する音源の空間方向を表す)を表す。ユーザの要求、例えば男性のスピーチに集中するというユーザインターフェースからの要求に基づいて、オーディオ強調モジュール110は、要求された音源用の強調を実行し、強調された信号を出力する。オーディオ強調モジュール110が、オーディオキャプチャ装置105とは別個の装置に位置してもよいし、又は、オーディオキャプチャ装置105のモジュールとして組み込まれてもよいことに留意されたい。
【0008】
ノイズの多い録音から目標オーディオ源を強調するために用いることができるアプローチが存在する。例えば、オーディオ源分離は、複数の音源をそれらの混合から分離する強力な手法として知られてきた。分離手法は、例えば高い残響を伴うか又は音源の数が未知でセンサの数を超える挑戦的な事例において、依然として改善を必要とする。また、分離手法は、限られた処理能力を用いる実時間アプリケーションには現在は適していない。
【0009】
ビーム形成として知られている別のアプローチは、目標音源を強調するために、目標音源の方向を指し示す空間ビームを用いる。ビーム形成は、拡散ノイズの更なる抑制のためのポストフィルタリング手法と共に用いられることが多い。ビーム形成の1つの利点は、計算要件が、少数のマイクロホンを用いるので高価ではなく、従って実時間アプリケーションに適しているということである。しかしながら、マイクロホンの数が少ない(例えば現在のモバイル装置に関して2つ又は3つのマイクロホン)場合に、生成されたビームパターンは狭くないため、背景ノイズ及び望ましくない音源からの干渉を抑制しにくい。幾つかの既存の研究はまた、モバイル装置において認識及びスピーチ強調を満たすために、ビーム形成をスペクトル減算と結合することを提案した。これらの研究において、目標音源方向は、通常、周知であると仮定され、考慮されるヌルビーム形成は、残響効果に堅牢ではない可能性がある。更にスペクトル減算ステップはまた、出力信号にアーチファクトを加える可能性がある。
【0010】
本原理は、ノイズの多い録音から音源を強調するための方法及びシステムに関する。本原理の新規の態様に従って、我々の提案する方法は、幾つかの信号処理手法、例えば、限定するものではないが、音源定位、ビーム形成、及び空間における異なる音源方向を指し示す幾つかのビーム形成器の出力に基づく後処理を用い、それらは、どんな目標音源も効率的に強調させ得る。一般に、強調は、目標音源からの信号の質を改善することになろう。我々の提案する方法は、軽い演算負荷を有し、且つ限定するものではないが、限られた処理能力を備えたモバイル装置においてさえ、音声会議及びオーディオズームなどの実時間アプリケーションにおいて用いることができる。本原理の別の新規な態様によれば、プログレッシブオーディオズーム(0%〜100%)が、強調された音源に基づいて実行され得る。
【0011】
図2は、本原理の実施形態による例示的なオーディオ強調システム200を示す。システム200は、オーディオ録音を入力として受け取り、強調された信号を出力として供給する。オーディオ強調を実行するために、システム200は、音源定位モジュール210(任意選択)、複数のビーム形成器(220、230、240)及びポストプロセッサ250を含む幾つかの信号処理モジュールを用いる。下記において、我々は、各信号処理ブロックを更に詳細に説明する。
【0012】
(音源定位)
オーディオ録音が与えられると、支配的な音源の方向が未知の場合に、音源定位アルゴリズム、例えば位相変換を伴う一般化相互相関(GCC−PHAT)を用いて、それらの方向(到着方向DoAの別名でも知られる)を推定することができる。その結果、異なる音源θ、θ、...、θのDoAを決定することができ、ここでKは、支配的な音源の総数である。DoAが前もって周知の場合、例えば我々がビデオを捕捉するために或る方向にスマートフォンを向ける場合に、我々は、興味のある音源が、マイクロホンアレイの真正面にあることを知っており(θ=90度)、我々は、DoAを検出するために音源定位機能を実行する必要がないか、又は我々は、支配的な干渉源のDoAを検出するためにだけに音源定位を実行する。
【0013】
(ビーム形成)
支配的な音源のDoAが与えられると、ビーム形成は、他の方向からの信号を抑制しながら、空間における特定の音源方向を強調する強力な手法として用いることができる。一実施形態において、我々は、強調支配的な音源の様々な方向を指し示す幾つかのビーム形成器を用いて、対応する音源を強調する。観察される時間領域混合信号x(t)の短時間フーリエ変換(STFT)係数(時間−周波数領域における信号)をx(n,f)によって表示するようにし、ここでnが、時間フレームインデックスであり、fが、周波数ビンインデックスである。(方向θjにおける音源を強調する)j番目のビーム形成器の出力は、
【数1】

として計算することができ、この式で、w(n,f)は、ビーム形成器jの目標方向を指し示すステアリングベクトルから導き出された重みベクトルであり、Hは、ベクトル共役転置を示す。w(n,f)は、異なるタイプのビーム形成器用に異なる方法で、例えば、最小分散無歪み応答(MVDR)、ロバストMVDR、遅延加算(DS)及び一般化サイドローブキャンセラ(GSC)を用いて計算されてもよい。
【0014】
(後処理)
ビーム形成器の出力は、通常、干渉を分離するには十分に良好ではなく、この出力に後処理を直接適用することは、強い信号歪みにつながる可能性がある。1つの理由は、強調された音源が、(1)ビーム形成における非線形信号処理、及び(2)支配的な音源の方向を推定する際におけるエラーに起因する大量の音楽ノイズ(アーチファクト)を通常含むことである。DoAエラーが大きな位相差を引き起こす可能性があるので、上記理由により、高周波におけるより多くの信号歪みにつながる可能性がある。従って、我々は、幾つかのビーム形成器の出力に後処理を適用することを提案する。一実施形態において、後処理は、基準信号x及びビーム形成器の出力に基づくことができ、ここで基準信号は、入力マイクロホン、例えばスマートフォンにおける目標音源に面するマイクロホン、スマートフォンにおけるカメラの隣のマイクロホン、又はブルートゥース(登録商標)ヘッドホンにおける口に近いマイクロホンの1つとすることができる。基準信号はまた、複数のマイクロホン信号から生成されたより複雑な信号、例えば複数のマイクロホン信号の線形結合とすることができる。加えて、時間周波数マスキング(及び任意選択的なスペクトル減算)を用いて、強調された信号を生成することができる。
【0015】
一実施形態において、強調された信号は、例えば音源j用に
【数2】

として生成され、この式で、x(n,f)は、基準信号のSTFT係数であり、α及びβは、同調定数であり、一例においてα=1、1.2又は1.5であり、β=0.05−0.3である。α及びβの特性値は、アプリケーションに基づいて適合されてもよい。式(2)における1つの根本的な仮定は、音源が、時間周波数領域においてほとんど重複されないということであり、従って、音源jが、時間周波数ポイント(n,f)において支配的である(即ち、ビーム形成器jの出力が、全ての他のビーム形成器の出力より大きい)場合に、基準信号は、目標音源の優れた近似として考えることができる。従って、我々は、強調された信号を基準信号x(n,f)として設定して、s(n,f)に含まれるような、ビーム形成によって引き起こされた歪み(アーチファクト)を低減することができる。さもなければ、我々は、信号が、ノイズか又はノイズ及び目標音源の混合であると仮定し、我々は、
【数3】

を小さな値β*s(n,f)に設定することによって、ノイズか又はノイズ及び目標音源の混合を抑制することを選択してもよい。
【0016】
別の実施形態において、後処理はまた、スペクトル減算のノイズ抑制方法を用いることができる。数学的に、それは、次のように示すことができる。
【数4】

この式で、位相(x(n,f))は、信号のx(n,f)の位相情報を示し、
【数5】

は、連続的に更新できる音源jに影響するノイズの周波数依存スペクトルパワーである。一実施形態において、フレームがノイズフレームとして検出された場合に、ノイズレベルは、そのフレームの信号レベルに設定することができるか、又はそれは、前のノイズ値を考慮する忘却係数によって滑らかに更新することができる。
【0017】
別の実施形態において、よりロバストなビーム形成器を得るために、後処理は、ビーム形成器の出力に対して「クリーニング」を実行する。これは、次のように、フィルタで適応的に行うことができる。
【数6】

この式で、β係数は、時間周波数信号対干渉比として見なすことができる量
【数7】

に依存する。例えば、我々は、「ソフト」後処理「クリーニング」を行うために、次のようにβを設定することができる。
【数8】

この式で、εは、小さな定数であり、例えばε=1である。従って、|s(n,f)|は、全ての他の|s(n,f)|よりはるかに大きい場合、クリーニングされた出力は、
【数9】

であり、s(n,f)が、他のs(n,f)よりはるかに小さい場合、クリーニングされた出力は、
【数10】

である。
【0018】
我々はまた、「ハード」(2進)クリーニングを行うために、βを次のように設定することができる。
【数11】
【0019】
βはまた、|s(n,f)|と|s(n,f)|、i≠jとの間のレベル差に従って、その値を調整することによって、中間(即ち「ソフト」クリーニングと「ハード」クリーニングとの間)方法で設定することができる。
【0020】
上記のこれらの手法(「ソフト」/「ハード」/中間クリーニング)はまた、s(n,f)の代わりにx(n,f)のフィルタリングに拡張することができる。
【数12】

この場合に、β係数が、やはり、ビーム形成を利用するために(オリジナルのマイクロホン信号の代わりに)ビーム形成器の出力s(n,f)を用いて計算されることに留意されたい。
【0021】
上記の手法用に、我々はまた、強調された信号における定時の誤検出又はグリッチを回避するために、メモリ効果を追加することができる。例えば、我々は、後処理の決定において示された量を平均する、例えば
【数13】

を次の合計
【数14】

に置き換えてもよい。この式で、Mは、決定用に考慮されるフレームの数である。
【0022】
加えて、上記のような信号強調後に、他のポストフィルタリング手法を用いて、拡散背景ノイズを更に抑制することができる。
【0023】
下記において、表記法を簡単にするために、我々は、式(2)、(4)及び(7)に示されているような方法をビン分離と呼び、式(3)のような方法をスペクトル減算と呼ぶ。
【0024】
図3は、本原理の実施形態に従って、オーディオ強調を実行するための例示的な方法300を示す。方法300は、ステップ305で開始する。ステップ310において、方法は、初期化を実行し、例えば、音源定位アルゴリズムを用いて支配的な音源の方向を決定することが必要かどうかを決定する。必要な場合に、方法は、音源定位用のアルゴリズムを選択し、そのパラメータを設定する。方法はまた、例えばユーザ構成に基づいて、どのビーム形成アルゴリズムを用いるか、又はビーム形成器の数を決定してもよい。
【0025】
ステップ320において、音源定位を用いて、支配的な音源の方向を決定する。支配的な音源の方向が周知の場合に、ステップ320は、省くことができることに留意されたい。ステップ330において、それは、複数のビーム形成器を用いる。各ビーム形成器は、強調異なる方向を指し示し、対応する音源を強調する。各ビーム形成器用の方向は、音源定位から決定されてもよい。目標音源の方向が周知の場合に、我々はまた、360°視野における方向をサンプリングしてもよい。例えば、目標音源の方向が、90°であると周知の場合に、我々は、90°、0°及び180°を用いて、360°視野をサンプリングすることができる。例えば、限定するものではないが、最小分散無歪み応答(MVDR)、ロバストMVDR、遅延加算(DS)及び一般化サイドローブキャンセラ(GSC)等の異なる方法をビーム形成用に用いることができる。ステップ340において、それは、ビーム形成器の出力に対して後処理を実行する。後処理は、式(2)〜(7)に示されているようなアルゴリズムに基づいてもよく、且つまたスペクトル減算及び/又は他のポストフィルタリング手法と共に実行することができる。
【0026】
図4は、本原理の実施形態に従ってオーディオ強調を利用できる例示的なシステム400のブロック図を示す。マイクロホンアレイ410は、処理される必要のあるノイズの多い録音を録音する。マイクロホンは、1つ又は複数のスピーカ又は装置からのオーディオを録音してもよい。ノイズの多い録音はまた、予め録音され、記憶媒体に記憶されてもよい。音源定位モジュール420は、任意選択である。音源定位モジュール420が用いられる場合に、音源定位モジュール420を用いて、支配的な音源の方向を決定することができる。ビーム形成モジュール430は、異なる方向を指し示す複数のビーム形成を適用する。ビーム形成器の出力に基づいて、ポストプロセッサ440は、例えば、式(2)〜(7)に示されている方法の1つを用いて、後処理を実行する。後処理の後、強調された音源は、スピーカ450によって再生することができる。出力音はまた、記憶媒体に記憶されるか、又は通信チャネルを通して受信機に送信されてもよい。
【0027】
図4に示される様々なモジュールは、1つの装置に実現されるか、又は幾つかの装置にわたって分散されてもよい。例えば、全てのモジュールは、限定するものではないが、タブレット又は携帯電話に含まれてもよい。別の例において、音源定位モジュール420、ビーム形成モジュール430及びポストプロセッサ440は、他のモジュールとは別個に、コンピュータ又はクラウドに置かれてもよい。更に別の実施形態において、マイクロホンアレイ410又はスピーカ450は、スタンドアロンモジュールとすることができる。
【0028】
図5は、本原理を用いることができる例示的なオーディオズームシステム500を示す。オーディオズームアプリケーションにおいて、ユーザは、空間におけるただ1つの音源方向にのみ興味があってもよい。例えば、ユーザが、特定の方向にモバイル装置を向ける場合に、モバイル装置が指し示す特定の方向は、目標音源のDoAであると仮定することができる。オーディオビデオキャプチャの例において、DoA方向は、カメラが面する方向であると仮定することができる。次に、干渉物は、(オーディオキャプチャ装置の側部及び背後にある)範囲外音源である。従って、オーディオズームアプリケーションでは通常、DoA方向がオーディオキャプチャ装置から推測できるので、音源定位は、任意選択とすることができる。
【0029】
一実施形態において、主なビーム形成器は、目標方向θを指し示すように設定され、一方で(ことにより)幾つかの他のビーム形成器は、後処理中にユーザのためにより多くのノイズ及び干渉を捕捉するために、他の非目標方向(例えば、θ−90°、θ−45°、θ+45°、θ+90°)を指し示している。
【0030】
オーディオシステム500は、4つのマイクロホンm〜m(510、512、514、516)を用いる。各マイクロホンからの信号は、例えばFFTモジュール(520、522、524、526)を用いて、時間領域から時間周波数領域に変換される。ビーム形成器530、532及び534は、時間周波数信号に基づいてビーム形成を実行する。一例において、ビーム形成器530、532及び534は、方向0°、90°、180°をそれぞれ指し示し、音場(360°)をサンプリングしてもよい。ポストプロセッサ540は、例えば、式(2)〜(7)に示されている方法の1つを用い、ビーム形成器530、532及び534の出力に基づいて後処理を実行する。基準信号がポストプロセッサ用に使用される場合に、ポストプロセッサ540は、基準信号としてマイクロホン(例えばm)からの信号を用いてもよい。
【0031】
ポストプロセッサ540の出力は、例えば、IFFTモジュール550を用いて、時間周波数領域から時間領域に逆に変換される。例えば、ユーザインターフェースを通してユーザ要求によって提供されるオーディオズーム係数α(0〜1の値を備えた)に基づいて、ミキサ560及び570は、右出力及び左出力をそれぞれ生成する。
【0032】
オーディオズームの出力は、ズーム係数αに従って、IFFTモジュール550からの強調された出力と、左及び右マイクロホン信号(m及びm)との線形混合である。出力は、出力左及び出力右を備えたステレオである。ステレオ効果を維持するために、α最大値は、1未満(例えば0.9)であるべきである。
【0033】
周波数及びスペクトル減算は、式(2)〜(7)に示されている方法に加えて、ポストプロセッサにおいて用いることができる。心理音響周波数マスクは、ビン分離出力から計算することができる。原理は、心理音響マスクの外側のレベルを有する周波数ビンが、スペクトル減算の出力を生成するためには用いられないということである。
【0034】
図6は、本原理を用いることができる別の例示的なオーディオズームシステム600を示す。システム600において、5つのビーム形成器が、3つの代わりに用いられる。特に、ビーム形成器は、方向0°、45°、90°、135°及び180°をそれぞれ指し示す。
【0035】
オーディオシステム600はまた、4つのマイクロホンm〜m(610、612、614、616)を用いる。各マイクロホンからの信号は、例えば、FFTモジュール(620、622、624、626)を用いて、時間領域から時間周波数領域に変換される。ビーム形成器630、632、634、636及び638は、時間周波数信号に基づいてビーム形成を実行し、それらは、方向0°、45°、90°、135°及び180°をそれぞれ指し示す。ポストプロセッサ640は、例えば、式(2)〜(7)に示されている方法の1つを用い、ビーム形成器630、632、634、636及び638の出力に基づいて後処理を実行する。基準信号が、ポストプロセッサ用に用いられる場合に、ポストプロセッサ540は、マイクロホン(例えばm)からの信号を基準信号として用いてもよい。ポストプロセッサ640の出力は、例えば、IFFTモジュール660を用いて、時間周波数領域から逆に時間領域に変換される。オーディオズーム係数に基づいて、ミキサ670は、出力を生成する。
【0036】
どちらか一方の後処理手法の主観的品質は、マイクロホンの数と共に変化する。一実施形態において、2つのマイクロホンだけを用いた場合には、ビン分離だけが好ましく、一方で4つのマイクロホンを用いた場合には、ビン分離及びスペクトル減算が好ましい。
【0037】
本原理は、複数のマイクロホンが存在する場合に、適用することができる。システム500及び600において、我々は、信号が、4つのマイクロホンからであると仮定する。2つのマイクロホンだけが存在する場合に、平均値(m+m)/2は、必要ならばスペクトル減算を用い、後処理においてmとして用いることができる。ここで基準信号が、目標音源に近い1つのマイクロホンからのもの又はマイクロホン信号の平均値とし得ることに留意されたい。例えば、3つのマイクロホンが存在する場合に、スペクトル減算用の基準信号は、(m+m+m)/3、又はmが興味のある音源に面する場合に、直接mとすることができる。
【0038】
一般に、本実施形態は、強調幾つかの方向におけるビーム形成の出力を用いて、目標方向におけるビーム形成を強調する。幾つかの方向においてビーム形成を実行することによって、我々は、複数の方向で音場(360°)をサンプリングし、次に、ビーム形成器の出力を後処理して、目標方向からの信号を「クリーニング」することができる。
【0039】
オーディオズームシステム、例えばシステム500又は600はまた、音声会議に使用することができ、異なる場所からの話者のスピーチを強調することができ、複数の方向を指し示す複数のビーム形成器の使用は、十分に適用可能である。音声会議において、録音装置の位置は、固定される(例えば、固定位置でテーブルに置かれる)ことが多く、一方で異なる話者は、任意の場所に位置する。音源定位及びトラッキング(例えば、動いている話者を追跡するための)を用いて、ビーム形成器をこれらの音源に向ける前に、音源の位置を学習することができる。音源定位及びビーム形成の精度を改善するために、残響効果を低減するように、残響除去手法を用いて、入力混合信号を前処理することができる。
【0040】
図7は、本原理を用いることができるオーディオシステム700を示す。システム700への入力は、オーディオストリーム(例えばmp3ファイル)、オーディオビジュアルストリーム(例えばmp4ファイル)又は異なる入力からの信号とすることができる。入力はまた、記憶装置からのものとしてもいいし、又は通信チャネルから受信してもよい。オーディオ信号が圧縮される場合に、それは、強調させられる前に復号される。オーディオプロセッサ720は、例えば方法300又はシステム500若しくは600を用いて、オーディオ強調を実行する。オーディオズーム用の要求は、ビデオズーム用の要求とは別個としてもいいし、又はそこに含まれてもよい。
【0041】
ユーザインターフェース740からのユーザ要求に基づいて、システム700は、オーディオズーム係数を受信してもよく、オーディオズーム係数により、マイクロホン信号及び強調された信号の混合比を制御することができる。一実施形態において、また、後処理後に残るノイズ量を制御するように、オーディオズーム係数を用いて、βの重み付け値を調整することができる。続いて、オーディオプロセッサ720は、強調されたオーディオ信号及びマイクロホン信号を混合して、出力を生成してもよい。出力モジュール730は、オーディオを再生するか、記憶するか、又は受信機に送信してもよい。
【0042】
本明細書で説明される実装は、例えば方法若しくはプロセス、機器、ソフトウェアプログラム、データストリーム又は信号において実施されてもよい。たとえ実装の単一形態の文脈でのみ説明されても(例えば、方法としてのみ説明される)、説明される特徴の実装はまた、他の形態(例えば機器又はプログラム)で実行されてもよい。機器は、例えば適切なハードウェア、ソフトウェア及びファームウェアで実現されてもよい。方法は、例えばコンピュータ、マイクロプロセッサ、集積回路又はプログラマブル論理装置を含む一般的な処理装置を指す、例えばプロセッサなどの機器で実行されてもよい。プロセッサはまた、例えばコンピュータ、携帯電話、ポータブル/携帯情報端末(「PDA」)、エンドユーザ間の通信を容易にする他の装置などの通信装置を含む。
【0043】
本原理の「一実施形態」、「実施形態」、「一実装」又は「実装」と同様に、それらの他の変形に対する言及は、実施形態に関連して説明された特定の機構、構造、特徴などが、本原理の少なくとも1つの実施形態に含まれることを意味する。従って、本明細書の全体を通して様々な場所に現れる句「一実施形態」、「実施形態において」、「一実装において」又は「実装において」と同様に、どんな他の変形も、必ずしも全て同じ実施形態を指すわけではない。
【0044】
加えて、本出願又はその特許請求の範囲は、様々な情報の「決定すること」に言及してもよい。情報を決定することは、例えば、情報の推定、情報の計算、情報の予測又はメモリからの情報の検索の1つ又は複数を含んでもよい。
【0045】
更に、本出願又はその特許請求の範囲は、様々な情報に「アクセスすること」に言及してもよい。情報のアクセスは、例えば、情報の受信、情報の検索(例えばメモリから)、情報の記憶、情報の処理、情報の送信、情報の移動、情報のコピー、情報の削除、情報の計算、情報の決定、情報の予測又は情報の推定の1つ又は複数を含んでもよい。
【0046】
加えて、本出願又はその特許請求の範囲は、様々な情報を「受信すること」に言及してもよい。受信は、アクセス同様に、幅広い用語であるように意図されている。情報の受信は、例えば、情報のアクセス又は情報の検索(例えばメモリから)の1つ又は複数を含んでもよい。更に、受信は、典型的には、情報の記憶、情報の処理、情報の送信、情報の移動、情報のコピー、情報の削除、情報の計算、情報の決定、情報の予測又は情報の推定など、動作中に何らかの方法で含まれる。
【0047】
当業者には明らかなように、実装は、例えば記憶又は送信され得る情報を伝えるようにフォーマットされた様々な信号を生成してもよい。情報は、例えば、方法を実行するための命令、又は説明された実装の1つによって生成されたデータを含んでもよい。例えば、信号は、説明された実施形態のビット列を伝えるようにフォーマットされてもよい。かかる信号は、例えば電磁波(例えば、スペクトルの無線周波数部分を用いる)又はベースバンド信号としてフォーマットされてもよい。フォーマットは、例えば、データストリームの符号化及び符号化されたデータストリームでキャリアを変調することを含んでもよい。信号が伝える情報は、例えばアナログ又はデジタル情報であってもよい。信号は、周知のように、様々な異なる有線又は無線リンクを通して送信されてもよい。信号は、プロセッサ可読媒体に記憶されてもよい。
[付記1]
オーディオ信号を処理するための方法であって、前記オーディオ信号が、少なくとも第1のオーディオ源からの第1の信号及び第2のオーディオ源からの第2の信号の混合であり、前記方法が、
第1の方向を指し示す第1のビーム形成器を用いて、前記オーディオ信号を処理して第1の出力を生成すること(330)であって、前記第1の方向が、前記第1のオーディオ源に対応する、ことと、
第2の方向を指し示す第2のビーム形成器を用いて、前記オーディオ信号を処理して第2の出力を生成すること(330)であって、前記第2の方向が、前記第2のオーディオ源に対応する、ことと、
前記第1の出力及び前記第2の出力を処理して、強調された第1の信号を生成すること(340)と、
を含む方法。
[付記2]
前記オーディオ信号に対して音源定位を実行して、前記第1の方向及び前記第2の方向を決定すること(320)を更に含む、付記1に記載の方法。
[付記3]
前記第1の出力と前記第2の出力との間で前記第1の出力が支配的であると決定することを更に含む、付記1に記載の方法。
[付記4]
前記第1の出力が支配的であると決定された場合に、前記強調された第1の信号を生成する前記処理が、基準信号に基づく、付記3に記載の方法。
[付記5]
前記第1の出力が支配的であると決定されない場合に、前記強調された第1の信号を生成する前記処理が、第1の係数によって重み付けされた前記第1の出力に基づく、付記3に記載の方法。
[付記6]
前記第1の出力が支配的であると前記決定することが、
第3の方向を指し示す第3のビーム形成器を用いて、前記オーディオ信号を処理して第3の出力を生成することであって、前記第3の方向が第3のオーディオ源に対応し、前記混合が、前記第3のオーディオ源からの第3の信号を含む、ことと、
前記第2の出力及び前記第3の出力の最大値を決定することと、
前記第1の出力及び前記最大値に応じて、前記第1の出力が支配的であると決定することと、
を含む、付記3に記載の方法。
[付記7]
前記第1の出力及び前記第2の出力に応じた比率を決定することであって、前記強調された第1の信号を生成する処理が、前記比率に応じて実行されることを更に含む、付記1に記載の方法。
[付記8]
前記第1の出力及び前記比率に応じて、前記強調された第1の信号を生成することと、
基準信号及び前記比率に応じて、前記強調された第1の信号を生成することと、
の1つを更に含む、付記7に記載の方法。
[付記9]
前記第1の信号を処理するための要求を受信することと、
前記強調された第1の信号及び前記第2の信号を結合して、出力オーディオを供給することと、
を更に含む、付記1に記載の方法。
[付記10]
オーディオ信号を処理するための機器(200、400、500、600、700)であって、前記オーディオ信号が、少なくとも第1のオーディオ源からの第1の信号及び第2のオーディオ源からの第2の信号の混合であり、前記機器が、
第1の方向を指し示し、且つ前記オーディオ信号を処理して第1の出力を生成するように構成された第1のビーム形成器(220、430、530、630)であって、前記第1の方向が、前記第1のオーディオ源に対応する、第1のビーム形成器(220、430、530、630)と、
第2の方向を指し示し、且つ前記オーディオ信号を処理して第2の出力を生成するように構成された第2のビーム形成器(230、430、532、632)であって、前記第2の方向が、前記第2のオーディオ源に対応する、第2のビーム形成器(230、430、532、632)と、
前記第1の出力及び前記第2の出力に応じて、強調された第1の信号を生成するように構成されたプロセッサ(250、440、540、640)と、
を備える機器(200、400、500、600、700)。
[付記11]
前記オーディオ信号に対して音源定位を実行して、前記第1の方向及び前記第2の方向を決定するように構成された音源定位モジュール(210、420)を更に備える、付記10に記載の機器。
[付記12]
前記プロセッサが、前記第1の出力と前記第2の出力との間で前記第1の出力が支配的であると決定するように更に構成される、付記10に記載の機器。
[付記13]
前記第1の出力が支配的であると決定された場合に、前記プロセッサが、基準信号に基づいて前記強調された第1の信号を生成するように構成される、付記12に記載の機器。
[付記14]
前記第1の出力が支配的であると決定されない場合に、前記プロセッサが、第1の係数によって重み付けされた前記第1の出力に基づいて、前記強調された第1の信号を生成するように構成される、付記12に記載の機器。
[付記15]
付記1〜9のいずれか一項に従って、オーディオ信号を処理するための命令を記憶したコンピュータ可読記憶媒体であって、前記オーディオ信号が、少なくとも第1のオーディオ源からの第1の信号及び第2のオーディオ源からの第2の信号の混合である、コンピュータ可読記憶媒体。
図1
図2
図3
図4
図5
図6
図7