(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2025-01-09
(54)【発明の名称】音源位置取得方法
(51)【国際特許分類】
G01S 15/08 20060101AFI20241226BHJP
G10L 25/51 20130101ALI20241226BHJP
G10L 25/06 20130101ALI20241226BHJP
H04R 1/40 20060101ALI20241226BHJP
H04R 3/00 20060101ALI20241226BHJP
G01S 1/76 20060101ALI20241226BHJP
【FI】
G01S15/08
G10L25/51 400
G10L25/06
H04R1/40 320
H04R3/00 320
G01S1/76
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024537176
(86)(22)【出願日】2022-12-21
(85)【翻訳文提出日】2024-08-16
(86)【国際出願番号】 EP2022087370
(87)【国際公開番号】W WO2023118382
(87)【国際公開日】2023-06-29
(32)【優先日】2021-12-22
(33)【優先権主張国・地域又は機関】DK
(81)【指定国・地域】
(71)【出願人】
【識別番号】520443686
【氏名又は名称】ノモノ エーエス
【氏名又は名称原語表記】NOMONO AS
【住所又は居所原語表記】Mellomila 56, 7018 Trondheim, Norway
(74)【代理人】
【識別番号】110002952
【氏名又は名称】弁理士法人鷲田国際特許事務所
(72)【発明者】
【氏名】ソルヴァング オウダン
【テーマコード(参考)】
5D220
5J083
【Fターム(参考)】
5D220BA06
5D220BC05
5J083AD01
5J083AD04
5J083AE08
5J083BE08
5J083CA02
5J083CA10
(57)【要約】
本発明は、専用の基準点に対する音源の位置を求める方法に関する。時間的に同期した第1の音声信号と複数の第2の音声信号が録音される。位置は、第1の音声信号と複数の第2の音声信号の少なくとも1つとの周波数領域における相関によって導出される相関信号に推定されたフィルタを適用することによって求めることができる。少なくとも1つのフィルタ済みの相関信号において、時間領域において専用の閾値を超える2つのタイミング値が導出される。すると、専用の基準点と音源との間の距離は、それぞれ取得された第1のタイミング値と第2のタイミング値に基づく。
【選択図】
図3
【特許請求の範囲】
【請求項1】
専用の基準点に対する音源の位置を取得する方法であって、
- 音源で録音される第1の音声信号を取得することと、
- それぞれが専用の基準点に対する既知の位置関係で録音された複数の第2の音声信号を取得することであって、前記第1の音声信号と前記複数の第2の音声信号は時間的に同期している、取得することと、
- 前記第1の音声信号について、
- 時間-周波数領域において、前記第1の音声信号のそれぞれの周波数ビンの信号対雑音比に作用するフィルタを推定することと、
- 前記第1の音声信号と前記複数の第2の音声信号の少なくとも1つを前記周波数領域で相関させ、少なくとも1つの相関信号を取得することと、
- 前記少なくとも1つの相関信号に前記フィルタを適用し、少なくとも1つのフィルタ済みの相関信号を取得することと、
- 前記少なくとも1つのフィルタ済みの相関信号において、前記時間領域で専用の閾値を超える第1のタイミング値を取得することと、
- 前記第1のタイミング値に基づいて、前記少なくとも1つのフィルタ済みの相関信号における閾値に対応する第2のタイミング値を取得することと、
- それぞれの取得された第1のタイミング値と前記第2のタイミング値に基づいて、前記専用の基準点と前記音源との間の距離を推定することと、
を備える方法。
【請求項2】
- 前記専用の基準点に対して既知の位置関係で録音された少なくとも2つのフィルタ済みの相関信号に対して、
- 前記少なくとも2つのフィルタ済みの相関音声信号を特定の時間期間を中心として切り詰めることと、
- 切り詰められたフィルタ済みの相関音声信号のペアの間のクロス相関を取得することと、
- 取得された前記クロス相関を球状空間に投影することによって、前記フィルタ済みの第1の音声信号の到来角を取得することと、
をさらに備える、請求項1に記載の方法。
【請求項3】
専用の基準点に対する音源の角度を取得するための方法であって、
- 1つ以上の音源で録音された第1の音声信号を取得することと、
- それぞれが専用の基準点に対する既知の位置関係で録音された複数の第2の音声信号を取得することであって、前記第1の音声信号と前記複数の第2の音声信号は、時間的に同期している、取得することと、
- 前記第1の音声信号について、
- 時間-周波数領域において、前記第1の音声信号の1つのそれぞれの周波数ビンにおいて信号対雑音比に作用するフィルタを推定することと、
- 前記第1の音声信号と前記複数の第2の音声信号の少なくとも2つを前記周波数領域で相関させて、少なくとも2つの相関信号を取得することと、
- 前記相関信号に前記フィルタを適用して、少なくとも2つのフィルタ済みの相関信号を取得することと、
- 少なくとも前記第1の音声信号による環境からの反射を除去するように選択された特定の時間期間を中心として、前記少なくとも2つのフィルタ済みの相関音声信号を切り詰めることと、
- 前記複数の第2の音声信号の、切り詰められたフィルタ済みの相関音声信号のペアの間のクロス相関を取得することと、
- 取得された前記クロス相関を球状空間に投影することにより、フィルタ済みの前記第1の音声信号の到来角を取得することと、
を備える方法。
【請求項4】
前記特定の時間期間は、前記複数の第2の音声信号の位置の間の最大タイムオブフライトに比例する、請求項2または3に記載の方法。
【請求項5】
前記フィルタ済みの相関音声信号を切り詰めることは、
- 複数の前記フィルタ済みの相関音声信号をアップサンプリングすること、または、
- 前記切り詰められたフィルタ済みの相関音声信号をアップサンプリングすること、
を備える、請求項2から4のいずれか一項に記載の方法。
【請求項6】
前記クロス相関を取得することは、
- 前記切り詰められたフィルタ済みの相関音声信号のそれぞれに、ステアリングレスポンスを適用すること、
を備える、請求項2から4のいずれか一項に記載の方法。
【請求項7】
前記第1の音声信号を相関させることは、
- 前記第1の音声信号および前記複数の第2の音声信号をアップサンプリングすること、または、
- 前記少なくとも2つの相関信号をアップサンプリングすること、
を備える、請求項1に記載の方法。
【請求項8】
前記第1の音声信号のフィルタを推定することは、スペクトルマスクを推定することを備える、請求項1から7のいずれか一項に記載の方法。
【請求項9】
前記スペクトルマスクのフィルタを推定することは、
- 前のタイムスライスに応じて、それぞれのタイムスライス(k)に対する雑音に基づいて信号対雑音比(SNR)を決定することと、
- 前記信号対雑音比が予め決められた閾値を超えない場合、所与の周波数に対する前記スペクトルマスクのパラメータを0に設定することと、
- 前記信号対雑音比が前記予め決められた閾値を超える場合、所与の周波数に対する前記スペクトルマスクのパラメータを1に設定することと、
を備える、請求項8に記載の方法。
【請求項10】
前記第1の音声信号を前記複数の第2の音声信号の少なくとも1つと相関させ、前記相関された信号に前記フィルタを適用することは、
- 前記第1の音声信号に対して、および、前記複数の第2の音声信号の前記少なくとも1つに対して、短時間フーリエ変換(STFT)を行い、それぞれのスペクトログラムを取得することと、
- 前記それぞれのスペクトログラム上でクロススペクトルを取得することと、
- 取得された前記クロススペクトルに前記フィルタを適用することと、
- 逆短時間フーリエ変換(ISTFT)を実行し、前記フィルタ済みの第1の音声信号を取得することと、
を備える、請求項1から9のいずれか一項に記載の方法。
【請求項11】
前記第1の音声信号のそれぞれの周波数ビンにおける前記信号対雑音比に作用するフィルタを推定することは、
- 1つ以上の第1の録音された音声信号から導出されるパワースペクトルのそれぞれの時間スライス(k)について、パワースペクトルを平滑化するための分位フィルタ、特にメディアンフィルタを適用することと、
- それぞれのタイムスライス(k)について、前のタイムスライスに応じて雑音を推定することと、
- 所与の周波数について、前記信号対雑音比が予め定めされた閾値を超えるかどうかを評価し、それに応じて前記周波数に対する前記フィルタのパラメータを1または0に設定することと、
を備える、請求項1から10のいずれか一項に記載の方法。
【請求項12】
前記第1の音声信号のそれぞれの周波数ビンにおける前記信号対雑音比に作用するフィルタを推定することは、雑音除去処理からの残留信号を雑音の推定値として適用することを備え、前記雑音除去処理は、任意選択で機械学習に基づくことができる、
請求項1から11のいずれか一項に記載の方法。
【請求項13】
少なくとも2つの第1の音声信号について、
- 時間-周波数領域において、前記2つの第1の音声信号のうちの一方の音声信号のそれぞれの周波数ビンにおける前記信号対雑音比に作用するフィルタを推定することと、
- 前記2つの第1の音声信号のうちの1つ目の音声信号と前記2つの第1の音声信号のうちの2つ目の音声信号とを周波数領域で相関させ、相関信号に推定された前記フィルタを適用することと、
- 前記相関信号の間の時間差を評価することと、
- 前記時間差の前記評価に基づいて、前記2つの第1の音声信号のうちの1つを1つ以上の前記第1の音声信号として選択することと、
をさらに備える、請求項1から12のいずれか一項に記載の方法。
【請求項14】
前記相関させることは、
- 2つの第1の音声信号の短時間フーリエ変換(STFT)を実行し、それぞれのスペクトログラムを取得することと、
- 前記それぞれのスペクトログラム上でクロススペクトルを取得することと、
- 取得されたクロススペクトルに前記フィルタを適用することと、
- 逆短時間フーリエ変換(ISTFT)を実行し、フィルタ済みの相関を取られた第1の音声信号を取得することと、
を備える、請求項13に記載の方法。
【請求項15】
前記複数の第2の音声信号は、4つの音声の音声信号を備え、これら4つの音声信号のうちの2つは、15cmの最大空間距離で録音される、請求項1から14のいずれか一項に記載の方法。
【請求項16】
- 気温の情報、特に複数の第2の音源の近傍の気温の情報を取得することと、
- 取得された前記気温の情報に応じて前記距離を推定することと、
をさらに備える、請求項1から15のいずれか一項に記載の方法。
【請求項17】
- 前記専用の基準点と1つ以上の前記音源との間の推定距離を、カルマンフィルタまたはパーティクルフィルタに供給すること、
をさらに備える、請求項1から16のいずれか一項に記載の方法。
【請求項18】
- 1つ以上のプロセッサと、
- 前記1つ以上のプロセッサに結合され、前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに請求項1から17のいずれか一項に記載の方法を実行させる命令を備えるメモリと、
を備える、コンピュータシステム。
【請求項19】
請求項1から17のいずれか一項に記載の方法を実行するためのコンピュータ実行可能命令を備える、非一過性のコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2021年12月22日付デンマーク国出願PA202170662の優先権を主張するものであり、その開示内容は参照によりその全体が本明細書に組み込まれる。
【0002】
本発明は、専用の基準点に対する音源の位置を取得する方法に関する。また、本発明は、コンピュータシステムおよび非一過性のコンピュータ読み取り可能な記憶媒体に関する。
【背景技術】
【0003】
アンビソニックスやドルビーアトモスのような音場または空間オーディオシステムやフォーマットは、与えられたサウンドシーンに関連するエンコードされたサウンド情報を提供する。このようなアプローチによって、サウンドシーン内の音源に位置情報を割り当てることができる。このような技術は、録音されたサウンドにゲームオブジェクトの位置情報が付与されるコンピュータゲームや、大規模なオーケストラやスポーツイベントなどのイベントのライブキャプチャでもすでに知られている。その結果、考えられる用途の数は、膨大であり、例えばスポーツイベントに参加しているような印象を与えることによる上記の没入効果から仮想現実や拡張現実の体験まで多岐にわたる。
【0004】
多くの場合、このような用途のための音の録音は、空間オーディオマイクを使用すること自体が困難である。これらは空間上の特定の地点から生の音場情報を捉えるのに便利であるが、ビームフォーミング技術に基づいているため技術的な制約もあり、一般的に高価なものとされている。例えば、マイクから大きく離れた位置にいる人の音質は低下する可能性がある。また、より雑音または残響が多い状況で、或いは、複数の人が話している場合、等化やその他の処理技術を目的とした個々の音源の特定および分離は、困難である。
【0005】
一方、オーディオコンテンツ制作者も、録音品質の向上や、リスナーの没入感を高める付加的な音響効果のために、空間オーディオ情報の利用を含む高品質オーディオの必要性を認識している。その結果、高レベルの空間オーディオマイクの利益および利点を達成する、より低コストの解決策が必要とされている。この解決策は、ハードウェアに関係なく動作し、さまざまなシナリオで柔軟に使用できるものでなければならない。
【発明の概要】
【課題を解決するための手段】
【0006】
提案された原理を持つ本開示は、上述のいくつかの利益および利点を達成する方法を提供する。本発明者は、専用の基準点に対する音源の距離と角度の両方で正確な位置の決定を提供する方法を発見した。提案された方法は、使用されるハードウェアにほとんど依存せず、異なる品質レベルに拡張可能である。さらに、本方法はオフライン処理とリアルタイム処理を可能にする。その結果、提案された方法は、ポッドキャスト、映画、ライブまたはその他のイベント、オーディオおよび電話会議、バーチャルリアリティ、ビデオゲームアプリケーションなどのためのサウンドキャプチャおよび処理を含むが、これらに限定されない様々な用途に含めることができる。
【0007】
一態様において、本発明者らは、専用の基準点に対する音源の位置を決定する方法を提案する。これに関して、「位置」という表現には、音源から専用の基準点までの距離、基準点を通る1軸または2軸に基づく角度、またはそれらの組み合わせが含まれる。この方法は、音源で録音された第1の音声信号を取得する。同様に、複数の第2の音声信号が、専用の基準点に対して既知の関係にある位置で録音される。第1の音声信号と複数の第2の音声信号は時間的に同期している。
【0008】
通常、第一の音声信号は音源の近傍で録音されると仮定される。これは、音源と専用の基準点との間の距離に比べ、距離が比較的小さいことを意味する。しかしながら、「音源で」という用語は、非常に限定された意味で理解されるべきものではない。むしろ、この表現は、実際の音源とマイクとの間の特定の距離を含み、許容するものとする。同様に、複数の第2の音声信号は、基準点までの距離と角度が既知である異なる位置で録音される。時間的な同期は、以降のステップで提案される方法にとって重要である。このような時間的な同期は、録音された音声信号に共通のタイムベースを提供することで、実現できる場合もある。他のいくつかの例では、録音された音声信号は、例えば、第1の音声信号と複数の第2の音声信号に含まれ録音される専用の開始信号を適時に相関させることによって、時間ベースを提供するために使用することができる。
【0009】
ここで、時間-周波数領域における第1の音声信号のそれぞれの周波数ビンにおける信号対雑音比に作用するフィルタが第1の音声信号に対して推定される。次に、第1の音声信号を複数の第2の音声信号の少なくとも1つと周波数領域で相関させ、少なくとも1つの相関信号を取得する。場合によっては、第1の音声信号は複数の第2の音声信号のそれぞれと相関され、複数の相関信号を取得する。
【0010】
事前に推定されたフィルタが少なくとも1つの相関信号に適用され、少なくとも1つのフィルタ済みの相関信号が取得される。
【0011】
次のステップでは、専用の基準点と音源との間の距離を推定することができる。この目的のために、時間領域において専用の閾値を超える少なくとも1つのフィルタ済みの相関信号における第1のタイミング値が取得される。また、第1のタイミング値に基づいて、少なくとも1つのフィルタ済みの相関信号における閾値に対応する第2のタイミング値が取得される。
【0012】
専用の基準点と音源の間の距離は、それぞれ取得された第1のタイミング値と第2のタイミング値に基づいて導出される。前のステップで、フィルタ済みの相関信号が1つ以上導出された場合、(例えば、誤差マージンなどを含む平均値を計算することにより)距離の決定を改善することが可能な複数の距離を取得することができる。
【0013】
代替的または追加的に、専用の基準点を通る軸に対する音源の角度を計算することもできる。この目的のために、少なくとも2つのフィルタ済みの相関信号と、複数の第2の音声信号を提供するマイクの位置に関する任意選択の先験的推定値または知識が利用される。上述のフィルタを適用し、フィルタ済みの第1の信号を周波数領域で複数の第2の音声信号のうちの少なくとも2つと相関させ、少なくとも2つの相関音声信号を得た後の後続のステップでは、少なくとも2つのフィルタ済みの相関音声信号は、特定の時間期間を中心として切り詰められる。次に、切り詰められたフィルタ済みの相関音声信号のペアの間のクロス相関が取得される。フィルタ済みの第1の音声信号の到来角は、複数の第2の音声信号を提供するマイクの位置の先験的推定値または知識に基づいて、取得されたクロス相関を球状空間に投影することによって導出される。
【0014】
提案される手法では、距離と角度を互いに独立して取得することが可能である。2つの異なる信号の相関は、録音され保存された音声信号に対してオフラインで行うことができ、また必要に応じてリアルタイムで行うこともできるため、この方法を様々な用途に使用することができる。さらに、ゆっくりと動く音源を導き出すだけでなく、第1と第2の音声信号を交換することも可能である。異なる第1の音声信号を相関させることで、提案された方法の精度をさらに向上させることができる。本方法は音の反射に対してロバストであり、閉空間での録音セッションに有用である。
【0015】
物質を伝わる音の速度は、物質の温度に依存する。正確な測定のために、特に複数の第2音源の近傍の気温が測定される。このような測定は、録音セッション中の温度変化を補正するために定期的に繰り返すことができる。距離は、導出された気温に応じて推定される。
【0016】
ある実施例では、上記の特定の時間期間は、複数の第2の音声信号の2つの異なる位置の間のタイムオブフライトに比例する。特定の時間期間によって定義されるウィンドウは、部屋の壁や他の大きな物体によって引き起こされる音の反射がクロス相関ステップ中に省かれることを保証する。これはまた、複数の第2の音声信号の異なる2つの位置間の距離を録音セッションの環境に応じて調整できることを意味し、それによって提案される方法の柔軟性がさらに向上する。
【0017】
ある実施例では、フィルタ済みの相関音声信号を切り詰めるステップは、アップサンプリングのステップを含む。アップサンプリングは、複数のフィルタ済みの相関音声信号に対して、または切り詰められたフィルタ済みの相関音声信号に対して実行することができる。このステップにより、時間分解能がより細かくなり、距離と角度の決定の両方においてより高い分解能が得られる。角度の決定に関しては、切り詰められたフィルタ済みの相関音声信号のそれぞれにステアレスポンスを適用することで、クロス相関を取得することができる。
【0018】
(特定の位置に関連付けられた)第2の音声信号のペアのクロス相関(SRP-PHATではPHAT)が最大となる位置は、それらの位置の間の到達時間差に対応する。到達時間差は、第2の音声信号が録音された位置に関する知識を利用して、入射角に対応付けることができる。したがって、クロス相関は、時間領域の代わりに球状空間に投影することができる。これは、用途に適した到来角を決定するために、適切な第2の位置(またはそれぞれの関連する第2の音声信号)のペアの集合に対して、すべてのフィルタ済みの、切り詰められたクロス相関の推定値に対して実行される。例えば、音源が水平面内にしかない場合、この平面を張る位置の集合を使用すれば十分であり、他の集合は使用せず、これにより計算の複雑さが低減される。投影された推定値は単純に合計され、最大値の探索が行われる。最大値の位置は到着角度に対応する。
【0019】
他の実施例では、第1の音声信号のフィルタを推定するステップは、スペクトルマスクを推定することからなる。このようなスペクトルマスクのフィルタに対して、信号対雑音比(SNR)は、前のタイムスライスに対応するそれぞれのタイムスライスの雑音に基づいて決定することができる。スペクトルマスクのパラメータは、信号対雑音比が所与の周波数に対して予め定められた閾値を超えない場合、0に設定される。同様に、スペクトルマスクのパラメータは、信号対雑音比があらかじめ定められた閾値を超える場合、所定の周波数に対して1に設定される。他のいくつかの実施例では、第1の音声信号のそれぞれの周波数ビンにおける信号対雑音比に作用するフィルタを推定することは、1つ以上の第1の録音済み音声信号から取得されるパワースペクトルのそれぞれの時間スライスのパワースペクトルを平滑化するための分位フィルタ、特にメディアンフィルタを適用するステップを備える。次に、前のタイムスライスに応じて、それぞれのタイムスライスの雑音を推定する。前のアプローチと同様に、所定の周波数に対する信号対雑音比が、あらかじめ決められた閾値を超えるかどうかが評価される。その結果、当該周波数のフィルタパラメータは、それに応じて1または0に設定される。他のいくつかの実施例では、第1の音声信号のそれぞれの周波数ビンにおける信号対雑音比に作用するフィルタを推定することは、雑音除去処理からの残留信号を雑音推定値として適用するステップを備える。雑音除去処理は機械学習に基づくことができる。これまでのアプローチと同様に、所与の周波数に対する信号対雑音比が予め定められた閾値を超えるかどうかが評価される。その結果、当該周波数に対するフィルタパラメータは、それに応じて1または0に設定される。
【0020】
さらに、いくつかの実施例は、第1の音声信号と複数の第2の音声信号の少なくとも1つを相関させるステップに関する。短時間フーリエ変換(STFT)を第1の音声信号と複数の第2の音声信号の少なくとも1つに適用し、それぞれのスペクトログラムを取得する。次に、それぞれのスペクトログラムのクロススペクトルを取得し、前に取得したフィルタをクロススペクトルに適用する。相関が取られたフィルタ済みのスペクトログラムは、逆短時間フーリエ変換(ISTFT)を実行することにより、時間領域に変換される。これにより、フィルタ済みの相関を取られた第1の音声信号が取得される。
【0021】
他の実施例は、2つの異なる位置で録音された音の遅延に関する。どちらの位置も、それぞれの位置で録音された第1の音声信号と関連している。提案される方法では、2つ以上の第1の音声信号に関連付けられた位置の間の距離を計算する簡単なツールが提供される。これは、(第1の音声信号を録音する)2つ以上のマイクの間のクロストークの可能性を推定するだけでなく、位置の推定を行う後処理に使用できるマイクの間の相対距離に関する情報も提供するので、有用である。その結果、このアプローチは、2つ(またはそれ以上)の第1の音声信号が録音された位置から離れた音源の情報を取得するために使用することができる。
【0022】
ある実施例では、時間-周波数領域において、2つの第1の音声信号の一方のそれぞれの周波数ビンにおける信号対雑音比に作用するフィルタが推定される。この処理は、2つの異なるフィルタが推定されるように、両方の第1の音声信号に対して行われる。次に、2つの第1の音声信号のうちの1つ目の音声信号を、周波数領域において2つの第1の音声信号のうちの2つ目の音声信号と相関させ、2つの音声信号のうちの1つ目の音声信号に関連付けられた推定フィルタを適用する。この処理は、2つの第1の音声信号のうちの2つ目の音声信号とその各フィルタで繰り返されてもよい。相関信号間の時間差が評価される。この時間差は、第1の音声信号の一方におけるクロストークの可能性に関する情報を提供する。その結果、時間差の評価に基づく2つの第1の音声信号のうちの1つが、1つ以上の第1の音声信号として選択され、さらなる処理に使用され得る。
【0023】
上記の相関させるステップは、いくつかの実施例においては、スペクトログラムを取得するために、それぞれの2つの第1の音声信号に対して実行される短時間フーリエ変換(STFT)を含むことができる。それぞれのスペクトログラムからクロススペクトルが導出され、取得されたクロススペクトルに前記フィルタが適用される。最終的にフィルタ済みの相関を取られた第1の音声信号を取得するために、逆短時間フーリエ変換(ISTFT)が実行され、フィルタ済みの第1の音声信号が取得される。
【0024】
第2の音声信号を録音するマイクを専用の位置に配置することは、有用である。例えば、複数の第2の音声信号は4つの音声の音声信号を備えてもよく、これら4つの音声信号のうち2つの音声信号は最大空間距離15cmで録音される。この距離は、通常、同じ音源の直接音と反射音が同時に誤って録音されるのを避けるのに十分小さく、一方、過剰なアップサンプリングを採用することなく、第2の音声信号を第1の音声信号とクロス相関させる際に十分な差を提供するのに十分大きい。
【0025】
いくつかのさらなる態様は、移動音源の特定および処理に関する。移動音源は、ドップラーシフトによってSTFTに影響を与えるため、このような音源の特定は困難な場合がある。さらに、推定雑音が移動音源として特定されたり、異なる位置にある2つ以上の音源として特定されたりすることがある。このため、専用の基準点と1つ以上の音源との間の推定距離は、カルマンフィルタ(または推定雑音が非ガウス型である場合はパーティクルフィルタ)に供給されてもよい。
【0026】
いくつかのさらなる実施例では、1つ以上のプロセッサとメモリとを備えるコンピュータシステムが提供される。メモリは、1つ以上のプロセッサに結合され、1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに上記提案された方法およびその様々なステップを実行させる命令を備える。同様に、先行する請求項のいずれかに係る方法を実行するためのコンピュータ実行可能命令を備える非一過性のコンピュータ可読記憶媒体を提供することができる。
【図面の簡単な説明】
【0027】
提案された原理に従ったさらなる態様および実施形態は、添付図面に関連して詳細に説明される様々な実施形態および実施例に関連して明らかになるであろう。
【0028】
【
図1】
図1は、音源の位置を決定するためのいくつかの処理ステップを示す、提案された方法の実施形態を示す。
【
図2】
図2は、フィルタ済みの相関信号を取得するためにスペクトルマスクを適用した周波数重み付け位相変換のステップを示す。
【
図3】
図3は、より複雑な音場シナリオを録音するために複数のマイクを使用した録音環境を例示する図である。
【
図4】
図4は、提案された原理のいくつかの態様に従った方法の処理フローを示す。
【発明を実施するための形態】
【0029】
以下の実施形態および実施例は、提案された原理による異なる態様およびそれらの組み合わせを開示している。実施形態および実施例は、必ずしも縮尺通りではない。同様に、個々の態様を強調するために、異なる要素を拡大または縮小して表示することもできる。図面に示した実施形態および実施例の個々の態様は、本発明による原理と矛盾することなく、これ以上説明することなく互いに組み合わせることができることは言うまでもない。いくつかの態様は、通常の構造または形態を示す。しかしながら、実際には、本発明の思想に矛盾することなく、理想的な形態からのわずかな相違や逸脱が生じ得ることに留意すべきである。
【0030】
さらに、個々の図や態様は、必ずしも正しい大きさで示されているわけではなく、個々の要素間の比率が本質的に正しい必要もない。いくつかの側面は、拡大表示することで強調されている。しかし、「上」、「上」「下」、「下」「大きい」、「小さい」などの用語は、図中の要素に関して正しく表現されている。従って、このような要素間の関係を図面に基づいて推測することは可能である。
【0031】
図3は、提案される原理に従った方法を用いた用途を示す。このシナリオは、シーンの音場を取得するために複数の音声信号を録音する典型的な録音セッションに対応する。本実施例では、自然人の発話録音を使用しているが、本方法および原理は、本明細書で開示する音声処理や自然人の位置の特定に限定されないことを理解されたい。むしろ、基準点に対する任意の専用の音源の位置の特定に使用できる。このシーンは、P1,P2として描かれた2つの音源を含み、この音源は、本実施形態では、少なくとも部分的に密閉された空間で会話をしている2人のそれぞれの人である。それぞれの人は、それぞれの身体に近接した位置に、それぞれマイクM1,M2を保持している。従って、マイクM1,M2はそれぞれの音源の位置にあることが連想できる。複数の第2のマイクM3,M4は位置B1に配置されている。位置B1は、基準点としても定義される。従って、人P1,P2は、それぞれ基準点B1に対して特定の距離と角度をもって配置され、また互いに間隔をおいて配置される。一方の側には壁Wがあり、それぞれの音源P1,P2の発話時に反射が発生する。
【0032】
マイクM1,M2,M3,M4は、互いに時間的に同期している、即ち、このシナリオにおける音の録音が共通の時間ベースを使用してなされる。会話を録音する際、マイクM1は、人P1の発話を録音し、若干の遅延を伴って人P2の発話も録音する。同様に、音速と人P1の基準点B1からの距離により、マイクM3,M4は、人P1,P2の発話を若干の遅延を伴って録音する。距離によって遅延は異なるが、いずれにせよ、音源からマイクM3,M4の一方への直接経路を、直接音と呼ぶ。
【0033】
ここで、単一の音源P1のみがあるものと仮定すると、直接音を使用して距離を、即ち、直接音を使用して基準点B1までの距離を、簡易に、即ち、マイクM1によって録音された音声信号とマイクM3,M4の1つによって録音された音声信号との間の時間遅延を測定し、音速を乗ずることによって、計算することができる。
【0034】
音速は温度に依存するため、温度センサT1がマイクM3,M4の近傍に配置され、気温を測定し、温度変化の影響を補正する。上記のシナリオは非常に簡易であり、現実のシナリオには適していない。例えば、壁Wが発話の一部を反射すると、それがマイクM1によって録音されるが、若干遅れてマイクM3,M4によっても録音される。マイクM4も発話を録音する。シナリオによっては、反射音は進行中の発話と重畳される。起こり得る構成的干渉やその他の影響により、間接的な反射音の録音は、直接音よりも高いレベルを備えることが起こり得る。さらに複雑なシナリオでは、2つ目の音源も同時に音声信号を提供するため、いくつかは、音源P1,P2から発生し、いくつかは、壁面反射音である、複数の異なる音声信号の重畳がもたらされる。
【0035】
本願は、それぞれの音源の基準点に対する位置を特定し、位置決めすることが可能になるような仕方で、録音された信号を処理することを目的とする。
【0036】
特定の位置情報を音源に関連付けるという問題に対処する別の用途は、バーチャルリアリティ(VR)アプリケーションの用途にある。このような用途には通常、仮想環境内の複数のオブジェクトを含む360°立体映像信号が含まれ、そのうちのいくつかは音に対応するオブジェクトに関連付けられている。
【0037】
これらの(視覚および音声の両方の)オブジェクトは、例えば双眼ヘッドフォンやステレオヘッドフォンをそれぞれ介してユーザに提示される。双眼ヘッドフォンは、(例えばIMU/加速度計を使用して)ユーザの頭の位置と向きを追跡できるため、ヘッドフォンとイヤホンにそれぞれ再生される映像と音声を適宜調整して、仮想現実の錯覚を維持することができる。例えば、ある瞬間には、360°の映像信号の一部のみがユーザに表示され、これは仮想環境におけるユーザの現在の視野に対応する。ユーザが動いたり頭を回転させたりすると、ユーザに表示される360°信号の一部が変化し、その動きによって仮想世界におけるユーザの視界がどのように変化するかを反映する。同様に、ユーザが動くと、仮想シーン内の異なる位置から発せられる音には、左右のヘッドフォンチャンネルの適応フィルタリングが適用され、耳と人間の頭部との間の空間的オフセットや上半身の散乱に起因する、実生活で発生する音の周波数依存の位相と振幅の変化をシミュレートすることができる。
【0038】
VR作品の中には、コンピュータで生成された画像と、予め録音されたまたは合成された音のみで構成されているものもある。しかし、360°の視野を録音できるカメラと、音場を捉える複数のマイクを使用して、「実写」のVR録画を制作することがますます一般的になってきている。マイクから録音された音は、提案された原理に従った方法で処理され、映像信号と整列され、上述のようにヘッドフォンやイヤホンで再生可能なVR録音が生成される。
【0039】
特定の位置情報を音源に関連付けるという問題に対処する別の用途は、次世代オーディオ(NGA)の用途にある。このような用途は、通常、位置などのメタデータを持つ音声オブジェクトを含む。
【0040】
これらの(視覚と音声の両方の)オブジェクトは、例えばバイノーラルレンダリングのヘッドトラックステレオヘッドフォンを介してユーザに提示される。このようなヘッドフォンは、双眼ヘッドセットとして、(例えばIMU/加速度計を使用して)ユーザの頭の向きを追跡することができるため、ヘッドフォンに再生される音声は、音声に没入しているような錯覚を維持するために適宜調整することができる。例えば、ユーザが頭を動かしたり回転させたりすると、仮想シーン内の異なる位置から発せられる音、またはこの技術革新を使用して録音されたシーンは、左右のヘッドフォンチャンネルの適応フィルタリングを受け、耳と人間の頭の間の空間的オフセットや上半身の散乱に起因する、実生活で発生する音の周波数依存の位相と振幅の変化をシミュレートすることができる。
【0041】
次に、提案された原理に従った方法の様々なブロックを示す
図1を参照する。簡単のため、本方法は前述の
図3のシナリオを用いて説明される。本方法は、予め録音された音声信号の後処理に適しているが、例えば、オーディオ会議やライブイベントなど間の、リアルタイム音声信号の後処理にも適している。本方法は、ブロックBM1,BM2に、それぞれ1つ以上の第1の音声信号および複数の第2の音声信号を提供することから始まる。録音された音声信号は、好ましくは、同じサンプル周波数を含む同じデジタル分解能(例えば、96kHzで14bit)を備える。異なる分解能やサンプリング周波数が使用される場合、様々な音声信号を再サンプリングして同じ分解能やサンプリング周波数の信号を取得することが望ましい。
【0042】
要素3’,R1,30A,31を含む画像の上部は、2つ以上の第1の音声信号、すなわち、位置が決定されるべきマイクによって録音される音声信号である音声信号の間で起こり得るクロストークの特定に関係する。前述したように、ブロックBM1では、反射音だけでなく直接音も2つのマイクによって録音される。2つ以上のマイクのいずれが実際にそれぞれの音源に位置するかを決定するために、2つのマイクによって録音された信号は、フィルタ処理され、クロス相関の時間差を取得するためにクロス相関処理される。
【0043】
この目的のために、両信号は周波数重み付き位相変換を用いて処理される。最初のステップでは、それぞれの信号を周波数領域に変換し、STFTを使用して時間-周波数スペクトルを取得する。スペクトルマスクのフィルタは、まず、lをマイクからの音声信号、kを音声信号のそれぞれのフレームとして、滑らかなパワースペクトルS(l,k)を生成することによってスペクトルから導出される。それぞれの周波数ビンに対して、1次フィルタが前のフレームに基づいて現在のフレームの雑音n(l,k)を推定する。全体の雑音n(l,k)は次式で与えられる。
n(l,k)=(1-α) log(S(l,k))+(n(l,k-1))α
ここで、αは、S(l,k)<log(n(l,k-1))に依存して異なる。したがって、フィルタマスクは、SNRがある閾値以上の場合に1となり、そうでない場合は0となる。結果は、2つの第1の信号のそれぞれに関連付けられた、異なるフィルタマスクとなる。次のステップでは、第1の信号の2つのペアをクロス相関させ、クロス相関の結果を正規化することにより、クロススペクトルが生成される。次に、それぞれの推定フィルタが正規化されたクロススペクトルに適用され、逆STFTが実行されて、フィルタ済みの相関信号が取得される(符号31参照)。この際、Rxyのクロススペクトルには(信号xの)フィルタFxを使用し、Ryxのクロススペクトルには(信号yの)フィルタFyを使用することに注意すべきである。フィルタ済みの相関信号は、第1の音声信号を録音している両方のマイクにおける直接音の符号付き時間差または遅延を推定するために使用される。ブロック31で示される符号、すなわちdt>0またはdt<0は、どちらのマイクが実際の音源に近いかという情報を提供する。その結果、このマイク(および音声信号)は、それぞれの音源および対応するフィルタマスクに関連付けられる。
【0044】
それぞれの音源に対する音声信号の関連付けが定義されている場合、すなわち、1つの第1の信号だけが録音される場合、上述のステップは省略することができる。
図3に戻ると、下部に図示されたブロック3、R2から35は、基準点までの距離と角度を推定する様々なステップを説明する。ブロックBM3には、基準点に対して位置が固定された1つ以上の第2のマイクによって録音された複数の第2の音声信号が含まれる。第2のマイクのそれぞれの位置は、後で角度を取得することができるように若干異なるが、壁からの反射などの影響が判定され、フィルタされることができる程度に近い。本実施例では、4つの異なる第2の音声信号が存在し、それぞれ異なる第2のマイクで録音されている。ここでの処理は、2つ以上の第1の音声信号の処理で説明したのと同様である。ただし、ブロック3では、第1の音声信号(距離と角度が決定される音声信号)は、ここでは4つの第2の音声信号の少なくとも1つとクロス相関される。ブロック3は、第2の音声信号のそれぞれに実行され、全体として4つのフィルタ済みのクロス相関信号が提供されることができる。例えば、符号R2を参照されたい。
【0045】
図2は、例示的な実施形態における周波数重み付き位相変換を示す。2つの入力信号は、SFTFを使用して周波数領域に変換され、それからクロススペクトルが導出される。スペクトルを正規化した後、前に推定されたフィルタ(この場合、第1の音声信号に関連するスペクトルマスクのフィルタ)が適用される。その結果は、逆SFTFを用いて時間領域に変換される。
【0046】
ブロック30Bと30Aの時間遅延は、まず周波数重み付けされたPHATの信号が無相関であった場合にピークが有する最大値を特定することによって推定される。この目的のために、雑音の分散は、sigma=mean(mask)/framesizeで与えられ、雑音の最大値は、sqrt(sigma*2*ln(framesize))で導出される。次に、周波数重み付けされたPHATの中で、この最大値を超える最初の値(いくらかのヘッドルームのためのスケールを含むことが可能)を探索し、その最初の値に近い局所的な最大値を再探索する。最大値の位置は、直接音のタイムオブフライト(n_max/サンプリング周波数)に対応する。次に、距離は、音速の温度依存性を考慮した音速を乗じたタイムオブフライトによって与えられる。ブロック30Bの処理は、クロススペクトルのそれぞれについて繰り返される。ブロック31では、タイムオブフライトの推定値の集合の平均を用いて、様々な結果がさらに処理される。次に、ブロック33でこの推定値から距離が差し引かれる。
【0047】
音源と基準点の間の角度を取得するために、ブロックR3、30C、および34から36が使用される。室内反射の影響を避けるため、ブロックR2では、第1のフィルタ済みの相関信号のFW-PHATの結果を切り詰めるために窓関数が使用される。
図R2に示されるように、窓関数は第2のマイクの間の距離に依存する幅を備える。第2の音声信号を録音する第2のマイクはわずかに離れているため、音源とそれぞれの第2のマイク間の推定距離も変化する可能性がある。第1のフィルタ済みの相関信号を切り詰めるための窓関数の幅は、第2のマイク間のタイムオブフライトの最大値に実質的に比例する。ここで切り詰められたフィルタ済みの相関信号の集合は、アップサンプリングされ、時間分解能が向上し、角度がより正確に推定される。続いて、アップサンプリングされた切り詰められた第1の信号のペアの間のクロス相関が計算される。その結果、合計6つの結果を受け取ることになる(4つの切り詰められた信号が6つの異なるペアをもたらす)。
【0048】
アップサンプリングされた切り詰められた第1の信号のペアのクロス相関の最大値の位置は、それぞれの第2のマイクへの第1の信号の到達時間差に対応する。到達時間差は、第2のマイクの基準点に対する位置に関する知識を利用して入射角にマッピングされる。つまり、クロス相関を時間領域ではなく球状空間領域に投影することができる。ブロック34のアプローチは、SRP-PHATアプローチにおけるステアードレスポンスステップと同様であり、6組のクロス相関がPHATに対応する。投影された推定値は単純に合計され、ブロック35で最大値の探索が行われる。最大値の位置は、到来角に対応する。
【0049】
図4は、提案された原理に従って距離と角度を決定する方法の処理フローを示している。この方法は、リアルタイム処理だけでなく、音場を形成する複数の以前に録音された音声信号を処理するオフライン処理にも適している。
【0050】
この方法は、ステップS1において、基準点までの距離と角度を決定する必要がある音源で録音された第1の音声信号を取得することを含む。複数の第2の音声信号は、基準点の近傍か、少なくとも基準点に対して既知の位置または場所において録音される。第1の音声信号と複数の第2の音声信号は、時間的に同期している。このような時間的な同期は、録音セッション中にすべての音声信号を共通の時間ベースに対して参照することで達成できる。
【0051】
その後、ステップS3において、様々な信号が任意選択で前処理される。例えば、録音された音声信号に対して雑音除去や等化を行い、後続の処理ステップでの結果を改善することができる。ただし、信号のタイミングを乱さないように注意する必要がある。また、いくつかの実施例においては、前処理ステップS3の間に、録音声信号の位相情報を保持する方法を適用することも有効である。さらに、第1の音声信号とそれぞれの第2の音声信号に対してSTFTが実行される。
【0052】
本実施例では、単一の音源に関連する単一の第1の音声信号のみが存在する。第1の音声信号は、ステップS4でフィルタ、特にスペクトルマスクのフィルタを推定することによって処理される。このフィルタは、時間領域における第1の音声信号のそれぞれの周波数の信号対雑音比に作用する。結果として得られるスペクトルマスクは、それぞれの周波数ビンに対して「1」と「0」の集合を含む。
【0053】
ステップS5では、第1の音声信号を複数の第2の音声信号の少なくとも1つと周波数領域で相関させ、少なくとも1つの相関信号が取得される。このステップS5を繰り返して、第1の音声信号とそれぞれの第2の音声信号とをクロス相関させることができる。クロス相関は、ステップS4で推定されたフィルタを適用する前に正規化され、1つ以上のフィルタ済みの相関信号が取得される。
【0054】
ここまでは、距離や角度を決定するステップは、同様である。
【0055】
ここで、基準点と音源との間の距離の決定と、ステップS6からステップS8とを続ける。ステップS6は、少なくとも1つのフィルタ済みの相関信号において、時間領域において専用の閾値を超える第1のタイミング値を取得することを含む。次に、ステップS7において、第1のタイミング値に基づいて、少なくとも1つのフィルタ済みの相関信号における閾値に対応する第2のタイミング値を取得する。ステップS6及びS7の両方は、PHAT信号(すなわち、フィルタ済みの相関信号)における最大値の前述された探索を使用してもよい。専用の基準点と音源との間の距離は、ステップS8においてそれぞれ取得された第1のタイミング値および第2のタイミング値に基づく。さらに、空気の温度を考慮することもできる。予め録音された信号の場合、この情報は記憶され、音速に影響する温度の影響を補正するためにS9で使用される。
【0056】
音源の基準点からの角度を導出および推定するために、ステップS10からS13が実行される。この目的のために、ステップS5を複数回実行し、第1の音声信号とそれぞれの第2の音声信号のクロス相関を取得する。ステップS10では、PHAT信号に窓関数を適用することによって、クロス相関したPHAT信号を切り詰める。窓関数は、第2の音源の間の最大タイムオブフライトに比例する幅を伴い、タイムオブフライトに対応するピークを中心とする。ステップS10で切り詰め窓を適用することで、物体への音の反射やその他の間接的な音経路に起因する信号の部分が除去される。
【0057】
次に、切り詰められた相関信号のペアが選択され、ステップ11で選択されたペアにクロス相関が適用される。2つの第2の音源を伴う最も単純な形態において、ステップS11のクロス相関が選択される単一のペアがある。複数の第2の音源が録音されるより複雑なシナリオでは、いくつかのペアを選択することができる。一般に、選択されるペアの数が多いほど、起こりうる揺らぎや統計誤差が互いに相殺される可能性があるため、より正確な判定が提供されると考えることができる。したがって、ステップ11の結果は、1つ以上のクロス相関信号である。これらの信号はステップS12でアップサンプリングされ、角度の決定の精度に影響を与えるより細かいタイミング分解能を提供する。
【0058】
ステップS11およびS12におけるクロス相関信号は、それぞれ、以前の切り詰めのため、通常、1つの関連性のみを有する1つ以上の極大値を備える。切り詰められた相関信号のペアのクロス相関(またはSRP-PHATではPHAT)のこの最大値の位置は、複数の第2の音声信号を録音するマイク要素の間の到達時間差に対応する。
【0059】
到達時間差は、第2の音声信号を録音するマイクの位置に関する知識を利用して、入射角にマッピングすることができる。つまり、時間領域ではなく、球状空間にクロス相関を投影することができる。この投影は、すべての第2のペアのすべてのクロス相関の推定値に対して行われる。投影された推定値は単純に合計され、最大値の探索が行われる。最大値の位置は、到来角に対応する。
【0060】
さらに1つの態様は、時間に亘って動いている音声信号の処理に関する。例えば、複数の第1のマイクが存在する場合、現在活動中の話者とそれに関連する第1のマイクを特定するための活動中の話者の検出アルゴリズムを使用することができる。動いている音声信号に対しては、動的モデルとカルマンフィルタリングを用いて、異なる時間における音源の位置を推定することができる。カルマンフィルタは、システムの推定状態と推定値の分散または不確実性を追跡する。推定値は、状態遷移モデルと測定値を用いて更新される。
【手続補正書】
【提出日】2024-08-20
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
専用の基準点に対する音源の位置を取得する方法であって、
- 音源で録音される第1の音声信号を取得することと、
- それぞれが専用の基準点に対する既知の位置関係で録音された複数の第2の音声信号を取得することであって、前記第1の音声信号と前記複数の第2の音声信号は時間的に同期している、取得することと、
- 前記第1の音声信号について、
- 時間-周波数領域において、前記第1の音声信号のそれぞれの周波数ビンの信号対雑音比に作用するフィルタを推定することと、
- 前記第1の音声信号と前記複数の第2の音声信号の少なくとも1つを前記周波数領域で相関させ、少なくとも1つの相関信号を取得することと、
- 前記少なくとも1つの相関信号に前記フィルタを適用し、少なくとも1つのフィルタ済みの相関信号を取得することと、
- 前記少なくとも1つのフィルタ済みの相関信号において、前記時間領域で専用の閾値を超える第1のタイミング値を取得することと、
- 前記第1のタイミング値に基づいて、前記少なくとも1つのフィルタ済みの相関信号における閾値に対応する第2のタイミング値を取得することと、
- それぞれの取得された第1のタイミング値と前記第2のタイミング値に基づいて、前記専用の基準点と前記音源との間の距離を推定することと、
を備える方法。
【請求項2】
- 前記専用の基準点に対して既知の位置関係で録音された少なくとも2つのフィルタ済みの相関信号に対して、
- 前記少なくとも2つのフィルタ済みの相関音声信号を特定の時間期間を中心として切り詰めることと、
- 切り詰められたフィルタ済みの相関音声信号のペアの間のクロス相関を取得することと、
- 取得された前記クロス相関を球状空間に投影することによって、前記フィルタ済みの第1の音声信号の到来角を取得することと、
をさらに備える、請求項1に記載の方法。
【請求項3】
専用の基準点に対する音源の角度を取得するための方法であって、
- 1つ以上の音源で録音された第1の音声信号を取得することと、
- それぞれが専用の基準点に対する既知の位置関係で録音された複数の第2の音声信号を取得することであって、前記第1の音声信号と前記複数の第2の音声信号は、時間的に同期している、取得することと、
- 前記第1の音声信号について、
- 時間-周波数領域において、前記第1の音声信号の1つのそれぞれの周波数ビンにおいて信号対雑音比に作用するフィルタを推定することと、
- 前記第1の音声信号と前記複数の第2の音声信号の少なくとも2つを前記周波数領域で相関させて、少なくとも2つの相関信号を取得することと、
- 前記相関信号に前記フィルタを適用して、少なくとも2つのフィルタ済みの相関信号を取得することと、
- 少なくとも前記第1の音声信号による環境からの反射を除去するように選択された特定の時間期間を中心として、前記少なくとも2つのフィルタ済みの相関音声信号を切り詰めることと、
- 前記複数の第2の音声信号の、切り詰められたフィルタ済みの相関音声信号のペアの間のクロス相関を取得することと、
- 取得された前記クロス相関を球状空間に投影することにより、フィルタ済みの前記第1の音声信号の到来角を取得することと、
を備える方法。
【請求項4】
前記特定の時間期間は、前記複数の第2の音声信号の位置の間の最大タイムオブフライトに比例する、請求項2または3に記載の方法。
【請求項5】
前記フィルタ済みの相関音声信号を切り詰めることは、
- 複数の前記フィルタ済みの相関音声信号をアップサンプリングすること、または、
- 前記切り詰められたフィルタ済みの相関音声信号をアップサンプリングすること、
を備える、請求項2
または3の一項に記載の方法。
【請求項6】
前記クロス相関を取得することは、
- 前記切り詰められたフィルタ済みの相関音声信号のそれぞれに、ステアリングレスポンスを適用すること、
を備える、請求項2
または3の一項に記載の方法。
【請求項7】
前記第1の音声信号を相関させることは、
- 前記第1の音声信号および前記複数の第2の音声信号をアップサンプリングすること、または、
- 前記少なくとも2つの相関信号をアップサンプリングすること、
を備える、請求項1に記載の方法。
【請求項8】
前記第1の音声信号のフィルタを推定することは、スペクトルマスクを推定することを備える、請求項1
または3の一項に記載の方法。
【請求項9】
前記スペクトルマスクのフィルタを推定することは、
- 前のタイムスライスに応じて、それぞれのタイムスライス(k)に対する雑音に基づいて信号対雑音比(SNR)を決定することと、
- 前記信号対雑音比が予め決められた閾値を超えない場合、所与の周波数に対する前記スペクトルマスクのパラメータを0に設定することと、
- 前記信号対雑音比が前記予め決められた閾値を超える場合、所与の周波数に対する前記スペクトルマスクのパラメータを1に設定することと、
を備える、請求項8に記載の方法。
【請求項10】
前記第1の音声信号を前記複数の第2の音声信号の少なくとも1つと相関させ、前記相関された信号に前記フィルタを適用することは、
- 前記第1の音声信号に対して、および、前記複数の第2の音声信号の前記少なくとも1つに対して、短時間フーリエ変換(STFT)を行い、それぞれのスペクトログラムを取得することと、
- 前記それぞれのスペクトログラム上でクロススペクトルを取得することと、
- 取得された前記クロススペクトルに前記フィルタを適用することと、
- 逆短時間フーリエ変換(ISTFT)を実行し、前記フィルタ済みの第1の音声信号を取得することと、
を備える、請求項1
または3の一項に記載の方法。
【請求項11】
前記第1の音声信号のそれぞれの周波数ビンにおける前記信号対雑音比に作用するフィルタを推定することは、
- 1つ以上の第1の録音された音声信号から導出されるパワースペクトルのそれぞれの時間スライス(k)について、パワースペクトルを平滑化するための分位フィルタ、特にメディアンフィルタを適用することと、
- それぞれのタイムスライス(k)について、前のタイムスライスに応じて雑音を推定することと、
- 所与の周波数について、前記信号対雑音比が予め定めされた閾値を超えるかどうかを評価し、それに応じて前記周波数に対する前記フィルタのパラメータを1または0に設定することと、
を備える、請求項1
または3の一項に記載の方法。
【請求項12】
前記第1の音声信号のそれぞれの周波数ビンにおける前記信号対雑音比に作用するフィルタを推定することは、雑音除去処理からの残留信号を雑音の推定値として適用することを備え、前記雑音除去処理は、任意選択で機械学習に基づくことができる、
請求項1
または3の一項に記載の方法。
【請求項13】
少なくとも2つの第1の音声信号について、
- 時間-周波数領域において、前記2つの第1の音声信号のうちの一方の音声信号のそれぞれの周波数ビンにおける前記信号対雑音比に作用するフィルタを推定することと、
- 前記2つの第1の音声信号のうちの1つ目の音声信号と前記2つの第1の音声信号のうちの2つ目の音声信号とを周波数領域で相関させ、相関信号に推定された前記フィルタを適用することと、
- 前記相関信号の間の時間差を評価することと、
- 前記時間差の前記評価に基づいて、前記2つの第1の音声信号のうちの1つを1つ以上の前記第1の音声信号として選択することと、
をさらに備える、請求項1
または3の一項に記載の方法。
【請求項14】
前記相関させることは、
- 2つの第1の音声信号の短時間フーリエ変換(STFT)を実行し、それぞれのスペクトログラムを取得することと、
- 前記それぞれのスペクトログラム上でクロススペクトルを取得することと、
- 取得されたクロススペクトルに前記フィルタを適用することと、
- 逆短時間フーリエ変換(ISTFT)を実行し、フィルタ済みの相関を取られた第1の音声信号を取得することと、
を備える、請求項13に記載の方法。
【請求項15】
前記複数の第2の音声信号は、4つの音声の音声信号を備え、これら4つの音声信号のうちの2つは、15cmの最大空間距離で録音される、請求項1
または3の一項に記載の方法。
【請求項16】
- 気温の情報、特に複数の第2の音源の近傍の気温の情報を取得することと、
- 取得された前記気温の情報に応じて前記距離を推定することと、
をさらに備える、請求項1
または3の一項に記載の方法。
【請求項17】
- 前記専用の基準点と1つ以上の前記音源との間の推定距離を、カルマンフィルタまたはパーティクルフィルタに供給すること、
をさらに備える、請求項1
または3の一項に記載の方法。
【請求項18】
- 1つ以上のプロセッサと、
- 前記1つ以上のプロセッサに結合され、前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに請求項1
または3の一項に記載の方法を実行させる命令を備えるメモリと、
を備える、コンピュータシステム。
【請求項19】
請求項1
または3の一項に記載の方法を実行するためのコンピュータ実行可能命令を備える、非一過性のコンピュータ可読記憶媒体。
【国際調査報告】