(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-10-23
(54)【発明の名称】バイノーラル記録を処理するための方法及びデバイス
(51)【国際特許分類】
G10L 21/0208 20130101AFI20231016BHJP
【FI】
G10L21/0208 100Z
G10L21/0208 100A
【審査請求】有
【予備審査請求】有
(21)【出願番号】P 2023516696
(86)(22)【出願日】2021-09-15
(85)【翻訳文提出日】2023-05-11
(86)【国際出願番号】 US2021050534
(87)【国際公開番号】W WO2022060891
(87)【国際公開日】2022-03-24
(32)【優先日】2020-09-15
(33)【優先権主張国・地域又は機関】ES
(32)【優先日】2020-11-24
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-04-21
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(71)【出願人】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】シュワーン,ジーウエイ
(72)【発明者】
【氏名】マー,ユエンシーン
(72)【発明者】
【氏名】リュー,ヤン
(72)【発明者】
【氏名】ヤーン,ズーユイ
(72)【発明者】
【氏名】センガルレ,ギウリオ
(57)【要約】
本発明は、バイノーラル記録デバイスによって取得された入力バイノーラルオーディオ信号を表す第1のオーディオ信号及び第2のオーディオ信号を処理するための方法及びデバイスに関する。本発明は更に、スピーカシステム上でバイノーラルオーディオ信号をレンダリングするための方法に関する。バイノーラル信号を処理するための方法は、第1のオーディオ信号からオーディオ情報を抽出するステップと、第1のオーディオ信号中のノイズを低減するための帯域利得を計算するステップと、第1の出力オーディオ信号を提供するために、動的スケーリング係数に従って帯域利得を第1のオーディオ信号のそれぞれの周波数帯域に適用するステップとを含む。ここで、動的スケーリング係数は、0と1との間の値を有し、第1のオーディオ信号の品質劣化を低減するように選択される。
【特許請求の範囲】
【請求項1】
バイノーラル記録デバイスによって取得された入力バイノーラルオーディオ信号を表す第1のオーディオ信号及び第2のオーディオ信号を処理するための方法であって、
前記第1のオーディオ信号からオーディオ情報を抽出するステップであって、前記オーディオ情報は、前記第1のオーディオ信号を表す複数の周波数帯域を含む、ステップと、
前記第1のオーディオ信号の各周波数帯域について、前記第1のオーディオ信号中のノイズを低減するための帯域利得を計算するステップと、
動的スケーリング係数に従って前記帯域利得を前記第1のオーディオ信号のそれぞれの周波数帯域に適用して、第1の出力オーディオ信号を提供するステップであって、
前記動的スケーリング係数は、0と1との間の値を有し、0の値は全帯域利得が適用されることを示し、1の値は帯域利得が適用されないことを示し、
前記動的スケーリング係数は、前記第1のオーディオ信号の品質劣化を低減するように前記オーディオ情報に基づく、
ステップと、
前記第2のオーディオ信号に基づいて第2の出力オーディオ信号を提供するステップと、
前記第1の出力オーディオ信号及び前記第2の出力オーディオ信号に基づいてバイノーラル出力オーディオ信号を決定するステップと
を含む方法。
【請求項2】
前記第2のオーディオ信号に基づいて第2の出力オーディオ信号を提供するステップは、前記第1のオーディオ信号を処理する前記ステップに対応する別個の処理ステップを含む、請求項1に記載の方法。
【請求項3】
前記第1の出力オーディオ信号を提供するステップは、
前記帯域利得を前記第1のオーディオ信号のそれぞれの周波数帯域に適用することによって、ノイズ低減されたオーディオ信号を計算するステップと、
前記動的スケーリング係数に等しい混合比で、前記第1のオーディオ信号の各周波数帯域を前記ノイズ低減されたオーディオ信号の対応する周波数帯域と混合して、前記第1の出力オーディオ信号を提供するステップと
を含む、請求項1又は2に記載の方法。
【請求項4】
前記第1の出力オーディオ信号を提供するステップは、
各帯域について、k+(1-k)Bgainとして動的帯域利得を計算するステップであって、kは前記動的スケーリング係数であり、Bgainは前記計算された帯域利得である、ステップと、
第1のオーディオ信号の各帯域に対して前記動的帯域利得を適用して、前記第1の出力オーディオ信号を提供するステップと
を含む、請求項1又は2に記載の方法。
【請求項5】
各周波数帯域についての前記動的スケーリング係数は、前記第1のオーディオ信号の現在の時間フレーム及び前の時間フレームの対応する周波数帯域に関連付けられた前記帯域利得に基づく、請求項1から4のいずれか一項に記載の方法。
【請求項6】
各動的スケーリング係数は、所定の閾値利得を超える前記現在の時間フレーム及び前記前の時間フレームの帯域利得に基づく、請求項5に記載の方法。
【請求項7】
前記第1のオーディオ信号の各周波数帯域について、音声アクティビティ検出(VAD)確率を計算するステップを更に含み、
各動的スケーリング係数は、VAD確率が所定のVAD確率閾値を超える前記現在の時間フレーム及び前記前の時間フレームの帯域利得に基づく、
請求項5又は6に記載の方法。
【請求項8】
前記動的スケーリング係数は、帯域利得の加重和に基づき、前記加重和は、前の時間フレームからの帯域利得を含み、前記方法は、
前記現在の時間フレームの前記帯域利得が所定の閾値利得を超えると決定するステップと、
前記現在のフレームに関連する前記帯域利得が前記所定の閾値利得を超える場合には、
現在の加重和を、前記現在の時間フレームの前記帯域利得と、前の時間フレームからの帯域利得を含む加重和との加重和として計算するステップと
を更に含む、請求項5から7のいずれか一項に記載の方法。
【請求項9】
前記動的スケーリング係数は、1-Gとして決定され、Gは、前の時間フレームの周波数帯域からの帯域利得を少なくとも含む帯域利得の加重和である、請求項5から8のいずれか一項に記載の方法。
【請求項10】
各周波数帯域についての前記動的スケーリング係数を決定するステップは、オフラインで実行され、各動的スケーリング係数は、前記第1のオーディオ信号の全ての時間フレームの対応する周波数帯域に関連付けられた前記帯域利得に基づく、請求項1から4のいずれか一項に記載の方法。
【請求項11】
前記第1のオーディオ信号の各周波数帯域について、VAD確率を計算するステップと、
全てのフレームからの前記平均帯域利得に基づいて、前記第1のオーディオ信号の各周波数帯域についての動的スケーリング係数を決定するステップであって、前記帯域利得は所定の閾値利得を超え、前記VAD確率は所定の確率閾値を超える、ステップと
を更に含む、請求項10に記載の方法。
【請求項12】
前記2つのオーディオ信号は、左チャネルオーディオ信号及び右チャネルオーディオ信号であり、前記方法は、
前記第1のオーディオ信号を中間チャネルオーディオ信号として推定するステップであって、前記中間信号は前記左信号と前記右信号との和から計算される、ステップと、
前記第2のオーディオ信号をサイドチャネルオーディオ信号として推定するステップであって、前記サイド信号は、前記左信号と前記右信号との間の差から計算される、ステップと、
前記中間出力信号とサイド出力信号との和として左出力オーディオ信号を推定すること、及び
前記中間出力信号とサイド出力信号との差として右出力オーディオ信号を推定すること
によって、前記バイノーラル出力オーディオ信号を決定するステップと
を更に含む、請求項1から11のいずれか一項に記載の方法。
【請求項13】
追加の記録デバイスからの追加のオーディオ信号を処理するステップを更に含み、前記方法は、
前記追加のオーディオ信号を前記バイノーラルオーディオ信号と同期させるステップと、
前記追加のオーディオ信号に基づいて追加の出力オーディオ信号を提供するステップと
を更に含む、請求項1から12のいずれか一項に記載の方法。
【請求項14】
骨振動センサによって取得された骨振動センサ信号を処理するステップを更に含み、前記方法は、
前記骨振動センサ信号を前記バイノーラルオーディオ信号と同期させるステップと、
前記骨振動センサ信号に基づいて前記追加のオーディオ信号の利得を制御するステップと
を更に含む、請求項13に記載の方法。
【請求項15】
前記バイノーラル記録デバイスの骨振動センサによって取得された骨振動センサ信号を処理するステップを更に含み、前記方法は、
前記骨振動センサ信号を前記バイノーラルオーディオ信号と同期させるステップと、
前記追加のオーディオ信号のVAD確率を抽出するステップと、
前記VAD確率及び前記骨振動センサ信号に基づいて、検出された音声の発生源を決定するステップと、
前記発生源が、前記骨振動センサを有する前記バイノーラル記録デバイスの前記装着者である場合、第1のオーディオ処理スキームを用いて前記追加のオーディオ信号を処理するステップと、
前記発生源が、前記骨振動センサを有する前記バイノーラル記録デバイスの前記装着者以外である場合、第2のオーディオ処理スキームを用いて前記追加のオーディオ信号を処理するステップと
を更に含む、請求項13に記載の方法。
【請求項16】
前記第1のオーディオ処理スキーム及び前記第2のオーディオ処理スキームは、異なる形態のノイズ低減を実装する、請求項15に記載の方法。
【請求項17】
前記第1のオーディオ処理スキーム及び前記第2のオーディオ処理スキームは、前記追加のオーディオ信号に対して異なる信号利得を実装する、請求項15又は16に記載の方法。
【請求項18】
前記オーディオ情報は、
前記第1のオーディオ信号の前記SNR、
前記第1のオーディオ信号の前記基本周波数、
前記第1のオーディオ信号の前記VAD確率、
骨振動センサによって取得された骨振動センサ信号、
骨振動センサによって取得された骨振動センサ信号から抽出された基本周波数、及び
骨振動センサによって取得された骨振動センサ信号から抽出されたVAD確率、
のうちの1つ又は複数を更に含む、請求項1から17のいずれか一項に記載の方法。
【請求項19】
前記骨振動センサ信号から抽出された前記VAD確率に基づいて、前記第1のオーディオ信号の利得を制御するステップ
を更に含む、請求項18に記載の方法。
【請求項20】
前記第1のオーディオ信号の各周波数帯域についての帯域利得を計算するステップは、トレーニングされたニューラルネットワークを用いて前記オーディオ情報から前記帯域利得を予測するステップを含む、請求項1から19のいずれか一項に記載の方法。
【請求項21】
コンピュータ上で実行されたときに、請求項1から20のいずれか一項に記載の方法を実行するためのコンピュータプログラムコードを含むコンピュータプログラム製品。
【請求項22】
バイノーラル記録デバイスによって取得された入力バイノーラルオーディオ信号を表す第1のオーディオ信号及び第2のオーディオ信号及び追加の記録デバイスからの追加のオーディオ信号を処理するための方法であって、
前記追加のオーディオ信号を前記バイノーラルオーディオ信号と同期させるステップと、
前記バイノーラル記録デバイスの骨振動センサによって取得された骨振動センサ信号を受信するステップと、
前記骨振動センサ信号を前記バイノーラルオーディオ信号と同期させるステップと、
前記追加のオーディオ信号のVAD確率を抽出するステップと、
前記VAD確率及び前記骨振動センサ信号に基づいて、検出された音声の発生源を決定するステップと、
前記発生源が、前記骨振動センサを有する前記バイノーラル記録デバイスの前記装着者である場合、第1のオーディオ処理スキームを用いて前記追加のオーディオ信号を処理するステップと、
前記発生源が、前記骨振動センサを有する前記バイノーラル記録デバイスの前記装着者以外である場合、第2のオーディオ処理スキームを用いて前記追加のオーディオ信号を処理するステップと、
前記処理された追加のオーディオ信号に基づいて追加の出力オーディオ信号を提供するステップと、
前記第1のオーディオ信号及び第2のオーディオ信号に基づいて第1の出力オーディオ信号及び第2の出力オーディオ信号を提供するステップと、
前記第1の出力オーディオ信号及び前記第2の出力オーディオ信号に基づいてバイノーラル出力オーディオ信号を決定するステップと
を含む方法。
【請求項23】
前記第1のオーディオ処理スキーム及び前記第2のオーディオ処理スキームは、異なる形態のノイズ低減を実装する、請求項22に記載の方法。
【請求項24】
前記第1のオーディオ処理スキーム及び前記第2のオーディオ処理スキームは、前記追加のオーディオ信号に対して異なる信号利得を実装する、請求項22又は23に記載の方法。
【請求項25】
オーディオ処理デバイスであって、
バイノーラル記録デバイスによって取得された入力バイノーラルオーディオ信号を受信する受信機であって、前記入力バイノーラルオーディオ信号は、第1のオーディオ信号及び第2のオーディオ信号を含む、受信機と、
前記受信機から前記第1のオーディオ信号を受信し、前記第1のオーディオ信号からオーディオ情報を抽出するように構成された抽出ユニットであって、前記オーディオ情報は、前記第1のオーディオ信号を表す複数の周波数帯域を含む、抽出ユニットと、
前記オーディオ情報を受信し、前記第1のオーディオ信号の各周波数帯域について、前記第1のオーディオ信号中のノイズを低減するための帯域利得を計算するように構成された処理デバイスと、
動的スケーリング係数に従って前記帯域利得を前記第1のオーディオ信号のそれぞれの周波数帯域に適用して、第1の出力オーディオ信号を提供するように構成された適用ユニットであって、前記動的スケーリング係数は、0と1との間の値を有し、0の値は全帯域利得が適用されることを示し、1の値は帯域利得が適用されないことを示し、前記動的スケーリング係数は、前記第1のオーディオ信号の品質劣化を低減するように前記オーディオ情報に基づく、適用ユニットと、
前記第2のオーディオ信号に基づいて第2の出力オーディオ信号を提供するように構成された追加の処理モジュールと、
前記第1の出力オーディオ信号及び前記第2の出力オーディオ信号に基づいてバイノーラル出力オーディオ信号を決定するように構成された出力段と
を備えるオーディオ処理デバイス。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、バイノーラルオーディオ信号(binaural audio signal)を処理するための方法及びデバイスに関する。
【背景技術】
【0002】
ユーザ生成コンテンツ(UGC)及びプロフェッショナル生成コンテンツ(PGC)の両方の分野では、オーディオをキャプチャするためにバイノーラルキャプチャデバイスが使用されることが多い。バイノーラルオーディオは、例えば、ユーザが装着する一対のイヤホンの差し込み部(earbud)に各々設けられている一対のマイクロフォンによって記録される。従って、バイノーラルキャプチャデバイスは、バイノーラルキャプチャデバイスを装着しているユーザのそれぞれの耳で音をキャプチャする。従って、バイノーラルキャプチャデバイスは、一般に、ユーザの音又はユーザによって知覚されるオーディオをキャプチャするのに長けている。従って、バイノーラルキャプチャデバイスは、多くの場合、ポッドキャスト、インタビュー又は会議を記録するために使用される。
【0003】
バイノーラルキャプチャデバイスの欠点は、バイノーラルキャプチャデバイスが環境ノイズに対して非常に敏感であり、キャプチャされたバイノーラル信号がレンダリングされるときに再生体験が不十分になることである。
【0004】
バイノーラルキャプチャデバイスの別の欠点は、バイノーラルキャプチャデバイスを装着しているユーザの音声以外の関心のある音源(audio sources of interest)が、非常に低い信号強度、高いノイズ及び高い残響で拾われる(pick up)ことである。その結果、キャプチャされたバイノーラルオーディオ信号において特徴となる他の関心のある音源の明瞭度が低下する。
【0005】
これらの欠点を回避するために、以前のソリューションでは、実行するのが計算上面倒である複雑なオーディオ処理アルゴリズムが使用されており、複雑なオーディオ処理を実装することが困難である低レイテンシ通信又はUGCに対して、これらのソリューションの実現を特に困難にしている。
【発明の概要】
【0006】
従って、上記に基づいて、本発明の目的は、バイノーラルオーディオ信号のより効率的な処理のための方法及びデバイスを、処理されたバイノーラルオーディオ信号をレンダリングするための方法とともに提供することである。
【0007】
本発明の第1の態様によれば、入力バイノーラルオーディオ信号を表す第1のオーディオ信号及び第2のオーディオ信号を処理するための方法が提供される。バイノーラルオーディオ信号は、バイノーラル記録デバイスによって取得される。方法は、第1のオーディオ信号からオーディオ情報を抽出するステップであって、オーディオ情報は、第1のオーディオ信号を表す複数の周波数帯域を少なくとも含む、ステップと、各周波数帯域について、第1のオーディオ信号中のノイズを低減するための帯域利得を計算するステップとを含む。更に、方法は、動的スケーリング係数に従って帯域利得を第1のオーディオ信号のそれぞれの周波数帯域に適用して、第1の出力オーディオ信号を提供するステップを含む。動的スケーリング係数は、0と1との間の値を有し、0の値は帯域利得が適用されないことを示し、1の値は全帯域利得が修正なしに適用されることを示す。動的スケーリング係数は、第1のオーディオ信号の品質劣化を低減するように選択され、方法は、以下を含む:
第2のオーディオ信号に基づいて第2の出力オーディオ信号を提供するステップ及び第1の出力オーディオ信号及び第2の出力オーディオ信号に基づいてバイノーラル出力オーディオ信号を決定するステップ。
【0008】
第1の態様による本発明は、周波数帯域の帯域利得を動的にスケーリングすることによって、出力オーディオ信号の品質劣化が低下し得るという理解に少なくとも部分的に基づく。ノイズ低減帯域利得を計算するために採用されるノイズ低減方法のタイプにかかわらず、帯域利得が適用されたオーディオ信号には、ノイズ低減処理によって導入された望ましくないオーディオアーチファクトが含まれる。これらのオーディオアーチファクトを軽減するために、動的スケーリング係数に従って帯域利得を動的に適用する。静的又は所定のスケーリング係数では、オーディオアーチファクトが出現するほど高い程度まで又はノイズ低減が抑制されるほど低い程度まで帯域利得を実装することによって可能なオーディオ信号の大部分について品質劣化を低減することができない。動的スケーリング係数の選択は、特定のオーディオ信号が処理された後に調整された動的(非静的)スケーリング係数の使用が可能になるように、オーディオ信号のオーディオ情報及び/又は帯域利得に基づき得る。
【0009】
いくつかの実装形態では、各周波数帯域についての動的スケーリング係数は、第1のオーディオ信号の現在の時間フレーム及び前の時間フレームの対応する周波数帯域に関連付けられた帯域利得に基づく。
【0010】
時間フレームとは、第1のオーディオ信号の部分的な時間セグメントを意味する。従って、現在の時間フレーム及び前の時間フレームの各周波数帯域についての帯域利得を分析することによって、動的スケーリング係数は、処理されている現在の第1のオーディオ信号に対して動的に調整される。これにより、動的スケーリング係数は、品質劣化が低減された第1の出力オーディオ信号を提供するように最適化される。
【0011】
いくつかの実装形態では、方法は、追加の記録デバイスからの追加のオーディオ信号を処理するステップを更に含む。これは、追加のオーディオ信号をバイノーラルオーディオ信号と同期させ、追加のオーディオ信号に基づいて追加の出力オーディオ信号を提供することによって達成される。
【0012】
追加の記録デバイスは、少なくともモノオーディオ信号を記録することが可能な任意のデバイスであり得る。追加の記録デバイスは、例えば、ユーザのスマートフォンであり得る。追加のオーディオ信号により、バイノーラル記録デバイスを装着しているユーザからの音声又は第2の関心のある音源からの音声が強化され得る。バイノーラル記録デバイスは、周囲からのノイズ及び残響を拾う傾向があるので、バイノーラル記録デバイスを装着しているユーザ以外の関心のある音源、例えば、ユーザと会話しているインタビュー対象者からのオーディオを記録するのには適していない。この目的を達成するために、追加のオーディオ信号を記録する追加の記録デバイスが、第2の関心のある音源からのオーディオを記録するためのマイクロフォンとして採用され、使用され得る。追加のオーディオ信号はバイノーラル信号と同期され、同期された追加のオーディオ信号と組み合わされたバイノーラル信号は、例えば、より明瞭なダイアログ再生を容易にすることができる。
【0013】
いくつかの実装形態は、バイノーラル記録デバイスの骨振動センサによって取得された骨振動センサ信号を処理するステップを更に含む。骨振動センサ信号をバイノーラルオーディオ信号と同期させ、追加のオーディオ信号のVAD確率を抽出することによって、VAD確率及び骨振動センサ信号に基づいて、検出された音声の発生源(source)が決定され得る。発生源が、骨振動センサを有するバイノーラル記録デバイスの装着者である場合、追加のオーディオ信号は、第1のオーディオ処理スキームを用いて処理される。発生源が、骨振動センサを有するバイノーラル記録デバイスの装着者以外である場合、追加のオーディオ信号は、第2のオーディオ処理スキームを用いて処理される。異なる処理スキームを使用して追加のオーディオ信号を処理することで、検出された音声の発生源に応じて、利得レベル及び/又はノイズ低減処理を適応的に切り替えることが可能になり得る。オーディオ処理スキームのこの適応的な切り替えは、上記で説明された動的処理と組み合わされてもよいし、他の一般的な形態のオーディオ処理及び/又はノイズ低減方法で実装されてもよい。
【0014】
例えば、本発明の第2の態様として、第1のオーディオ信号及び第2のオーディオ信号並びに追加のオーディオ信号を処理するための方法が提供され、第1のオーディオ信号及び第2のオーディオ信号は、バイノーラル記録デバイスによって取得された入力バイノーラルオーディオ信号を表し、追加のオーディオ信号は、追加の記録デバイスによって記録される。方法は、追加のオーディオ信号をバイノーラルオーディオ信号と同期させるステップと、バイノーラル記録デバイスの骨振動センサによって取得された骨振動センサ信号を受信するステップと、また、骨振動センサ信号をバイノーラルオーディオ信号と同期させるステップとを含む。更に、方法は、追加のオーディオ信号のVAD確率を抽出するステップと、VAD確率及び骨振動センサ信号に基づいて、検出された音声の発生源を決定するステップとを含む。発生源が、骨振動センサを有するバイノーラル記録デバイスの装着者である場合、追加のオーディオ信号は、第1のオーディオ処理スキームを用いて処理される。発生源が、骨振動センサを有するバイノーラル記録デバイスの装着者以外である場合、追加のオーディオ信号は、第2のオーディオ処理スキームを用いて処理される。追加的に、追加の出力オーディオ信号は、処理された追加のオーディオ信号に基づいて提供され、第1の出力オーディオ信号及び第2の出力オーディオ信号は、バイノーラル出力オーディオ信号が決定される第1のオーディオ信号及び第2のオーディオ信号に基づいて提供される。
【0015】
第1の出力オーディオ信号及び第2の出力オーディオ信号を提供することは、本発明の一態様に従って第1のオーディオ信号及び第2のオーディオ信号に対してオーディオ処理を実行すること、並びに/又はノイズキャンセル及び/若しくはイコライゼーションといった他の形態のオーディオ処理を実行することを含み得る。
【0016】
本発明の第3の態様によれば、オーディオ処理デバイスが提供される。オーディオ処理デバイスは、第1のオーディオ信号及び第2のオーディオ信号を含む入力バイノーラルオーディオ信号を受信するように構成された受信機と、受信機から第1のオーディオ信号を受信し、第1のオーディオ信号からオーディオ情報を抽出するように構成された抽出ユニットとを備える。オーディオ情報は、第1のオーディオ信号の周波数コンテンツの一部を表す複数の周波数帯域を少なくとも含む。オーディオ処理デバイスは、オーディオ情報を受信し、第1のオーディオ信号の各周波数帯域について、帯域利得を計算するように構成された処理デバイスを更に備え、計算された帯域利得は、第1のオーディオ信号中のノイズを低減する。オーディオ処理デバイスの適用ユニットは、動的スケーリング係数に従って帯域利得を第1のオーディオ信号のそれぞれの周波数帯域に適用して、第1の出力オーディオ信号を提供するように構成される。動的スケーリング係数は、0と1との間の値を有し、0の値は帯域利得が適用されないことを示し、1の値は全帯域利得が修正なしに適用されることを示す。動的スケーリング係数は、そうでなければノイズ低減帯域利得によって導入された第1のオーディオ信号の品質劣化を低減するように選択される。オーディオ処理デバイスにおいて、追加の処理モジュールは、第2のオーディオ信号に基づいて第2の出力オーディオ信号を提供するように構成され、出力段は、第1の出力オーディオ信号及び第2の出力オーディオ信号に基づいてバイノーラル出力オーディオ信号を決定するように構成される。
【0017】
第2又は第3の態様による本発明は、第1の態様による本発明と同じ又は同等の実施形態及び利点を特徴とする。更に、処理方法に関して説明される任意の機能は、処理デバイスにおいて特徴とされる対応する構成要素又はコンピュータプログラム製品においてそのような機能を実行するための対応するコードを有し得る。
【図面の簡単な説明】
【0018】
第1又は第2の態様による本発明の実施形態を示す添付の図面を参照して、本発明をより詳細に説明する。
【
図1】例示的なバイノーラル記録デバイス及び追加の記録デバイスを示す。
【
図2】いくつかの実装形態によるバイノーラル処理デバイスを示す。
【
図3】本発明の実装形態による、第1のオーディオ信号及び第2のオーディオ信号を処理するための方法を示すフローチャートである。
【
図4a】動的スケーリング係数に従って帯域利得を適用するための代替方法を示すフローチャートである。
【
図4b】動的スケーリング係数に従って帯域利得を適用するための別の代替方法を示すフローチャートである。
【
図5】オーディオ信号を表す一連の時間フレームの周波数帯域を示す。
【
図6】いくつかの実装形態による、サイド及び中間信号推定及び処理を示すフローチャートである。
【
図7】本発明の一態様によるレンダリング方法を説明するフローチャートである。
【発明を実施するための形態】
【0019】
図1は、バイノーラル記録デバイス1を装着しているユーザ4を示す。バイノーラル記録デバイス1は、ヘッドセットのそれぞれのイヤピース内にオプションで設けられた2つのワイヤード(図示せず)又はワイヤレスのマイクロフォン対2a、2bを備え得る。バイノーラル記録デバイス1は、2つのオーディオ信号、例えば、それぞれのイヤピース内の左マイクロフォン2a及び右マイクロフォン2bから発せられる左オーディオ信号及び右オーディオ信号を含むバイノーラルオーディオ信号を記録する。いくつかの実装形態では、追加の記録デバイス31が追加のオーディオ信号を記録し、及び/又は骨振動センサ11が骨振動信号を記録する。例えば、追加の記録デバイス31は、ユーザデバイス3(例えば、スマートフォン、タブレット又はラップトップ)内に設けられたマイクロフォンであってもよく、骨振動センサ11は、バイノーラル記録デバイス1の一体化された部分として設けられてもよいし(例えば、図示のようにイヤピース内に一体化される)、外部に設けられてもよい(図示せず)。追加の記録デバイス31は、ユーザ4と会話している第2の人物といった第2の関心のある音源を記録し得る。代替的に、追加の記録デバイス31は、ユーザ4の音声を記録してもよい。
【0020】
骨振動センサ11からの骨振動センサ信号は、バイノーラル記録デバイス1を装着しているユーザ4が話しているか否かを示し得、及び/又は、骨振動センサ信号は、オーディオを抽出するために使用され得る。更に、骨振動センサ信号は、強化されたオーディオ情報を抽出するために、第1のオーディオ信号及び/又は第2のオーディオ信号と併せて使用され得る。
【0021】
バイノーラル記録デバイス1によって記録された第1のオーディオ信号及び第2のオーディオ信号は、ユーザデバイス3にオプションで設けられたバイノーラル処理デバイス32によって時間的に同期され得、追加のオーディオ信号及び/又は骨振動センサ信号は、バイノーラル処理デバイス32によってバイノーラルオーディオ信号と同期され得る。いくつかの実装形態では、追加のオーディオ信号及び/又は骨振動センサ信号は、ソフトウェアの実装を使用してバイノーラル処理デバイス32によって時間的に同期される。例えば、バイノーラルオーディオ信号と追加のオーディオ信号及び/又は骨振動センサ信号との間の同期は、処理デバイスが信号間の最大相関を特徴とする信号間の遅延を求めることによって達成される。代替的に、バイノーラルオーディオ信号並びに追加のオーディオ信号及び/又は骨振動センサ信号の一部を表す各記録されたデータブロック又は時間フレームは、タイムスタンプに関連付けられ、信号は、各ブロックのタイムスタンプを比較することによって同期される。
【0022】
信号時間同期に加えて、以下で説明される任意のオーディオ処理がバイノーラル処理デバイス32によって実行されてもよい。バイノーラル処理デバイス32は、その全体又は一部がバイノーラル記録デバイス1及びバイノーラル記録デバイス1とワイヤード又はワイヤレス(例えば、Bluetooth(登録商標))通信するユーザデバイス3に設けられ得る。例えば、ユーザデバイス3のバイノーラル処理デバイス32は、バイノーラル記録デバイス1、任意の骨振動センサ11及び任意の追加の記録デバイス31からの全てのオーディオ信号を受信し、同期させ、処理し得る。
【0023】
更に
図2を参照すると、いくつかの実装形態によるバイノーラル処理デバイス32が示されている。バイノーラル処理デバイス32は、バイノーラル記録デバイス1によって記録された2つのオーディオ信号、例えば、左オーディオ信号L及び右オーディオ信号Rを含むバイノーラルオーディオ信号を受信するように構成される。同期モジュール321において、2つのオーディオ信号L、Rが同期される。いくつかの実装形態では、同期モジュール321は、バイノーラル記録デバイス1に統合され、任意の骨振動信号及び/又は追加のオーディオ信号との同期などの更なる処理ステップは、ユーザデバイス3によって実行される。
【0024】
同期モジュール321は、同期されたオーディオ信号をオプションの変換モジュール322に出力する。オプションの変換モジュール322は、同期されたオーディオ信号L、Rのオーディオ情報及び/又は代替表現を抽出し得る。オーディオ信号の代替表現(A1及びB1と呼ばれる)は、それぞれの処理モジュール323a、323bに提供される。各処理モジュール323a、323bは、オーディオ信号表現A1、B1のノイズ低減を含むオーディオ処理を実行するように構成される。いくつかの実装形態では、処理モジュール323a、323bは、以下で説明される第1の処理シーケンス及び第2の処理シーケンスと同等の処理を実行する。
【0025】
信号処理モジュール323a、323bによって出力された処理されたオーディオ信号A2、B2は、オプションの変換モジュール322において受信されたオーディオ信号に対応する処理されたオーディオ信号PL、PRを再生するように逆変換を実行する逆変換モジュール324に提供される。いくつかの実装形態では、変換モジュール322及び逆変換モジュール324は使用されず、バイノーラル記録デバイスの2つのオーディオ信号L、Rは、それらの元のフォーマットで処理される。
【0026】
出力段325は、第1の出力オーディオ信号PL及び第2の出力オーディオ信号PRを、2つの出力オーディオ信号を表すバイノーラル出力オーディオ信号に組み合わせる。
【0027】
いくつかの実装形態では、バイノーラル処理デバイス32は、第1の処理モジュール323a及び/又は第2の処理モジュール323bにおいて骨振動センサ信号BVを考慮する。更に、バイノーラル処理デバイス32は、追加のオーディオ信号を受信し、追加のオーディオ信号を同期させて、オプションで変換し、追加のオーディオ信号が、第1のオーディオ信号A1及び第2のオーディオ信号B1の代替表現のうちの少なくとも1つにおいて表現されるようにするように更に構成され得る。代替的に、第1の処理モジュール323a及び第2の処理モジュール323bに加えて第3の処理モジュールを追加して、追加のオーディオ信号を処理し、この追加のオーディオ信号を、処理された追加のオーディオ信号を表すサイド情報を有するバイノーラル出力オーディオ信号を生成する出力段325に出力する。
【0028】
図3は、いくつかの実装形態による方法を示すフローチャートである。S1において、第1のオーディオ信号A1及び第2のオーディオ信号B1によって表される入力バイノーラルオーディオ信号が受信される。第1のオーディオ信号及び第2のオーディオ信号は、同期された左オーディオ信号及び右オーディオ信号又はサイドオーディオ信号及び中間オーディオ信号などの代替表現であり得る。第1のオーディオ信号A1は、第1の処理シーケンスS2aに渡され、第2のオーディオ信号B1は、第2の処理シーケンスS2bに渡される。
【0029】
S21において、第1のオーディオ信号A1からオーディオ情報が抽出される。オーディオ情報は、少なくとも複数の周波数帯域の表現を含み、各周波数帯域は、第1のオーディオ信号A1の周波数コンテンツの一部を表す。更に、第1のオーディオ信号A1からオーディオ情報を抽出することは、第1のオーディオ信号A1を記述する音響パラメータを抽出することを含み得る。
【0030】
S21においてオーディオ情報を抽出することは、最初に、第1のオーディオ信号A1を周波数スペクトル情報に分解することを含み得る。周波数スペクトル情報は、フーリエスペクトル又はフィルタバンク(QMFなど)といった、連続的又は離散的な周波数スペクトルによって表され得る。周波数スペクトル情報は、複数のビンによって表され得、各ビンは、複数のビンが周波数スペクトル情報の離散的なサンプルを表すような値を含む。
【0031】
第2に、第1のオーディオ信号A1は、複数の周波数帯域に分割され得、これは、複数の周波数帯域を形成するように、周波数スペクトル情報を表すビンを別々に又は重複してグループ化することを伴い得る。
【0032】
周波数スペクトル情報は、オーディオ情報中に含まれるべきメル周波数ケプストラム係数(MFCC:Mel Frequency Cepstral Coefficients)又はバーク周波数ケプストラム係数(BFCC:Bark Frequency Cepstral Coefficients)といった帯域特徴を抽出するために使用され得る。第1のオーディオ信号A1の帯域調和性特徴、発話(speech)の基本周波数(F0)、音声アクティビティ検出(VAD)確率及び信号対ノイズ比(SNR)は、第1のオーディオ信号A1及び/又は第1のオーディオ信号A1の周波数スペクトル情報のいずれかを分析することによって抽出され得る。従って、オーディオ情報は、第1のオーディオ信号A1の各帯域の帯域調和性特徴、基本周波数、VAD確率及びSNRのうちの1つ又は複数を含み得る。
【0033】
S21において抽出されたオーディオ情報からの第1のオーディオ信号A1を表す周波数帯域に少なくとも基づいて、S22において、各周波数帯域についての帯域利得BGainが計算される。帯域利得BGainは、第1のオーディオ信号A1のノイズを低減するために計算される。いくつかの実装形態では、帯域利得BGainを計算することは、トレーニングされたニューラルネットワークを用いてオーディオ情報から帯域利得BGainを予測することを含む。ニューラルネットワークは、ディープニューラルネットワークであり得、それぞれが複数のノードを有する複数のニューラルネットワーク層を含み得る。ニューラルネットワークは、全結合ニューラルネットワーク、リカレントニューラルネットワーク、畳み込みニューラルネットワーク又はそれらの組合せであり得る。ウィナーフィルタ(Wiener Filter)をニューラルネットワークと組み合わせて、帯域利得の最終予測を提供し得る。第1のオーディオ信号A1の一部を表す周波数帯域が少なくとも与えられると、ニューラルネットワークは、ノイズを低減するための関連する帯域利得BGainを予測するようにトレーニングされる。いくつかの実装形態では、ニューラルネットワーク(又は別個のニューラルネットワーク)は、第1のオーディオ信号の周波数情報の一部を表す周波数帯域が少なくとも与えられると、VAD確率も予測するように更にトレーニングされる。
【0034】
S23において、S22の帯域利得BGainが、S24からの動的スケーリング係数kに従って第1のオーディオ信号A1に適用されて、品質劣化が低減された第1のオーディオ出力信号A2を形成する。ここにおいて、動的スケーリング係数kは、品質劣化を低減するためにS22において計算された帯域利得BGainに基づいてS24において選択される。品質劣化を低減するように動的スケーリング係数kを選択することによって、各周波数帯域についての計算された帯域利得BGainが、品質劣化が低減された第1の出力オーディオ信号A2を提供するために第1のオーディオ信号A1に適用される前に動的スケーリング係数kに従って調整され得る。動的スケーリング係数kは、0と1との間の値を有し、計算された帯域利得がどの程度適用されるかを示す。いくつかの実装形態では、各周波数帯域についての動的スケーリング係数kは、第1のオーディオ信号A1、オーディオ情報の少なくとも一部及び各周波数帯域の計算された帯域利得BGainのうちの少なくとも1つに基づく。
【0035】
バイノーラルオーディオ信号の第2のオーディオ信号B1から、第2の処理シーケンスS2bにおいて第2のオーディオ信号B1を処理することによって、第2の出力オーディオ信号B2が提供される。例えば、第2の処理シーケンスS2bは、第2のオーディオ信号B1の別個の処理(例えば、ノイズ低減処理を含む)を実行して、第2の出力オーディオ信号B2を形成することを含み得る。第2のオーディオ信号B1の別個の処理は、第1の処理シーケンスS1aにおける第1のオーディオ信号A1の処理と同等であってもよく、ステップS21、S22、S23及びS24に対応するステップを含み得る。
【0036】
いくつかの実装形態では、それぞれの処理シーケンスS2a、S2bにおける第1のオーディオ信号A1及び第2のオーディオ信号B1の処理は、例えば、モノチャネルノイズ低減モデルを適用するように結合される。モノチャネルノイズ低減モデルでは、各オーディオ信号A1、B1について、ノイズ低減帯域利得BGainのそれぞれのセットが、これらの帯域利得BGainが単一の共通セットへと低減される前に、計算されることを意味する。帯域利得の共通セットは、全てのオーディオ信号A1、B1にわたる各帯域について、最大、最小又は平均帯域利得として決定され得る。言い換えると、各オーディオ信号A1、B1についての計算された帯域利得BGainは、最初に、BGains(i,b)と表記される帯域利得のマトリックスで表され得、i=1:オーディオ信号の数であり、b=1:帯域の数である。従って、BGains(i,b)の各行は、信号の全ての帯域利得を含み、各列は、各オーディオ信号の所与の帯域についての帯域利得を含む。モノチャネルノイズ低減マトリックスでは、各列を単一の値にマージすることによって、例えば、各列の最大値を見つけることによって、帯域利得の単一の行が抽出される。次いで、帯域利得の同じ単一の行が、全てのオーディオ信号の後続の処理に使用される。
【0037】
S3において、第1の出力オーディオ信号A2及び第2の出力オーディオ信号B2は、品質劣化が低減されたバイノーラル出力信号に組み合わされる。
【0038】
図3は、第1のオーディオ信号A1の処理において骨振動センサ信号BVが使用されるいくつかの実装形態による方法を更に示す。骨振動センサからの記録された信号は、環境ノイズに対してよりロバストであり、骨振動センサ信号は、追加のオーディオ情報及び/又は強化されたオーディオ情報及び/又は強化された帯域利得を抽出するために使用され得る。
【0039】
いくつかの実装形態では、骨振動センサ信号BVは、各時間フレーム若しくは各時間フレームの各周波数帯域についてのVAD確率を抽出するために又は第1のオーディオ信号A1及び骨振動センサ信号BVから抽出された拡張VAD確率(enhanced VAD probability)を提供するために使用される。S21及びS22において、周波数スペクトル情報、帯域利得、音声基本周波数、SNR及びVAD確率のうちの少なくとも1つを抽出するために、骨振動センサ信号BVのみが使用され得るか、又は骨振動センサ信号BVと第1のオーディオ信号A1が使用され得る。
【0040】
骨振動センサ信号BVは、バイノーラルオーディオ信号の第1のオーディオ信号A1及び第2のオーディオ信号を補完する別個の記録を構築し得る。例えば、骨振動センサ信号BVは、追加のオーディオ信号として扱われ、バイノーラルオーディオ信号に追加されるか、又は別個の出力信号として提供され得る。
【0041】
強化された第1のオーディオ信号は、骨振動センサ信号BVと第1のオーディオ信号A1の両方における情報から取得され得る。強化された第1のオーディオ信号から、強化されたオーディオ情報(周波数コンテンツのより正確な表現など)がS21において抽出され得、そこから、強化された帯域利得がS22において計算され得る。いくつかの実装形態では、S22における帯域利得及び/又はVAD確率の予測のために、オーディオ情報に加えて骨振動センサ信号BVがニューラルネットワークに提供される。
【0042】
同様に、骨振動センサ信号BVが提供され、第2の処理シーケンスS2bにおける第2のオーディオ信号B2の処理において考慮され得る。
【0043】
図4aは、S23aにおいて動的スケーリング係数kに従って帯域利得BGainがそれぞれの周波数帯域にどのように適用されるかを示すフローチャートである。S22において計算された帯域利得BGainは、第1のオーディオ信号A1とともに提供され、S231において、計算された帯域利得が第1のオーディオ信号A1に適用されて、ノイズ低減された第1のオーディオ信号NA1を形成する。ノイズ低減された第1のオーディオ信号NA1は、S231において帯域利得を適用することによって導入された望ましくないオーディオアーチファクトを示し得る。S24において、品質劣化を低減するための動的スケーリング係数kが、以下で説明されるように選択又は計算される。S232において、ノイズ低減された第1のオーディオ信号NA1は、動的スケーリング係数kに従って帯域利得を適用するために、S24において選択された動的スケーリング係数kに対応する混合比で(元の)第1のオーディオ信号A1と混合される。従って、第1の出力オーディオ信号A2は、第1のオーディオ信号A1、ノイズ低減された第1のオーディオ信号NA1及び動的スケーリング係数kから、次のように求められる:
【数1】
混合は、それぞれの動的スケーリング係数kを用いて第1のオーディオ信号A1の各周波数帯域について実行され得る。2つ以上の周波数帯域の動的スケーリング係数kが同じであってもよい。動的スケーリング係数kに等しい混合比で、ノイズ低減された第1のオーディオ信号NA1を第1のオーディオ信号A1と混合した後、品質劣化が低下した第1の出力オーディオ信号A2が得られる。
【0044】
図4bは、動的スケーリング係数kに従って帯域利得BGainを適用するための代替方法を示す。S23bにおいて、S22からの第1のオーディオ信号A1についての計算された帯域利得、S24からの選択された動的スケーリング係数k及び第1のオーディオ信号A1が利用可能である。動的スケーリング係数kは、S22において予測された帯域利得がどの程度適用されるべきかを示し、それにより、第1の出力オーディオ信号は、第1のオーディオ信号A1と、帯域利得BGainsが適用された第1のオーディオ信号A1との加重和(weighted sum)である。すなわち、第1の出力オーディオ信号A2は、次のように計算され得る:
【数2】
は、動的帯域利得と呼ばれる。従って、動的帯域利得を計算して第1のオーディオ信号A1に適用すれば十分であるので、ノイズ低減された第1のオーディオ信号を計算し、ノイズ低減された第1のオーディオ信号と第1のオーディオ信号A1との混合を実行する必要はない。ここにおいて、各周波数帯域についての動的帯域利得は、動的スケーリング係数k及び各周波数帯域からの計算された帯域利得BGainから抽出される。動的帯域利得を第1のオーディオ信号A1に適用すると、第1の出力オーディオ信号A2は、低下した品質劣化で形成される。
【0045】
図5は、オーディオ信号、例えば、第1のオーディオ信号の時間フレーム表現を示す。オーディオ信号は、列によって表される複数のフレーム101、102、103、104に分割され、各時間フレームは、行によって表される複数の周波数帯域を含む。特定の周波数帯域100について、計算された帯域利得(線形単位)は、前のフレーム101、102、103については0.4、0.6、0.7と示され、現在のフレーム104については0.8として示される。
【0046】
計算された帯域利得に基づいて動的スケーリング係数kを決定するための方法が提供される。例えば、動的スケーリング係数kは、オーディオ信号の現在の(n+1)時間フレーム104及び前の(n,n-1,n-2)時間フレーム101、102、103について計算された帯域利得に基づく。いくつかの実装形態では、現在のフレーム104(n+1)の特定の周波数帯域100についての動的スケーリング係数kは、利得の加重和G(n+1)から決定され、加重和G(n+1)は、次のように計算される:
【数3】
ここで、aは、現在のフレーム104の計算された帯域利得BGain(n+1)が現在のフレーム104についての利得の加重和G(n+1)をどの程度修正することになるかを指示する定数である。定数aは、0と1との間であり、好ましくは、aは、0.9と1の間、例えば、a=0.99又はa=0.9999である。定数aは、1-εであってもよく、ここで、εは10
-1と10
-6との間である。Gの初期値は1に設定され得る。他の例では、Gの初期値は、1と0.6との間、例えば、0.8である。前のフレーム101、102、103の対応する処理は、G(n)の値に影響を与え、それによって、現在のフレーム104についてのG(n+1)の最終値に影響を与え得ることが理解される。動的スケーリング係数kは、G(n+1)に線形に比例し得、例えば、現在のフレーム104についての動的スケーリング係数kは、次のように計算され得る:
【数4】
【0047】
いくつかの実装形態では、現在のフレーム104についての動的スケーリング係数kは、所定の閾値利得T
Gainを超える前のフレーム101、102、103の帯域利得のみの影響を受け得る。所定の閾値利得T
Gainは、0.3と0.7との間、好ましくは、(線形単位で)約0.5であり得る。これは、計算された帯域利得BGainが所定の閾値利得T
Gainを超えることにのみ応答して、利得の加重和Gを更新することによって達成され得る。従って、現在のフレーム104についての利得の加重和G(n+1)は、次式によって与えられる:
【数5】
G(n)は、閾値利得T
Gainを超える前のフレーム101、102、103の影響を受ける。
【0048】
一例として、TGain=0.5である場合、第1のフレーム101の周波数帯域100の計算された帯域利得は、0.4<TGainであるため、所定の閾値利得TGainを超えないと決定される。次いで、利得の加重和Gの初期値が1の場合、第1の時間フレーム101の周波数帯域100についての動的スケーリング係数kは、上記に従って、例えば、k=1-Gであるため、0であり得る。その結果、第1の処理されたフレーム101の帯域100は、第1の(ノイズ低減されたオーディオ)オーディオ信号の計算された帯域100に等しくなる。後続の時間フレーム102、103、104はそれぞれ、1未満でありつつ所定の閾値利得TGainを超える計算された帯域利得を特徴とするので、各後続のフレーム102、103、104の処理は、より低い値のGを取得し、それに応答して、より大きい動的スケーリング係数kを取得することを含み、これは、適用された帯域利得が、計算された帯域利得から逸脱し始め、フレーム102、103、104の帯域100についての元のオーディオ信号に近づくことを意味する。
【0049】
図5の行によって表される各周波数帯域は、現在の時間フレーム104及び前の時間フレーム101、102、103の個々の周波数帯域の帯域利得を記述する帯域利得のそれぞれの加重和Gに関連付けられることが理解される。
【0050】
更に、現在のフレーム104の計算された帯域利得BGain(n+1)が所定の閾値利得TGainを超え、計算された帯域利得BGain(n+1)もまた(線形単位で)1を超えることに応答して、計算された帯域BGain(n+1)は、帯域利得の加重和G(n+1)を更新する前に、所定の最大数値に設定され得る。所定の最大値は、(線形単位で)1であり得、これは、結果として得られる動的混合比kが0~1の範囲内に留まることが保証されることを意味する。
【0051】
オフライン処理の場合、全ての時間フレーム101、102、103、104(
図5の列によって表される)の各周波数帯域についての動的スケーリング係数kは、各周波数帯域についての所定の閾値利得T
Gainを超える全ての計算された帯域利得BGainを平均して、帯域利得の加重和G又は動的スケーリング係数kが計算される平均帯域利得を形成することによって決定され得る。
【0052】
いくつかの実装形態では、動的スケーリング係数は、各時間フレーム101、102、103、104の各周波数帯域のVAD確率に更に基づき得る。所定の閾値利得TGainが帯域利得の加重和Gを更新するための基準であることに加えて、VAD確率は、更なる基準を定義し得る。この目的のために、動的スケーリング係数kを決定することは、現在のフレーム104の周波数帯域100についてのVAD確率が所定のVAD確率閾値TVADを超えるかどうかを決定することを更に含み得、所定のVAD確率閾値TVADは、0.4(40%)~0.6(60%)、好ましくは、約0.5(50%)である。従って、動的スケーリング係数kが現在のフレーム104について決定されるとき、オーディオ信号が音声を表す可能性が高い前のフレーム101、102、103及び現在のフレーム104の帯域利得BGainのみが考慮される。
【0053】
現在の時間フレーム104及び前の時間フレーム101、102、103の各帯域についての帯域利得及びオプションでVAD確率を考慮することによって、動的スケーリング係数kは、オーディオ信号の各フレーム(及び各帯域)が、利用可能な情報を与えられると、品質劣化を低下させるために適切な帯域利得BGainを適用させるように、オンライン処理中に更新され得る。従って、処理されるオーディオ信号にかかわらず、動的スケーリング係数は、各追加の処理された時間フレーム101、102、103、104について、品質劣化を低下させるのに適した値に迅速に近づき得る。
【0054】
オフライン処理の場合、オーディオ信号の全てのフレーム101、102、103、104における周波数帯域100の帯域利得及びオプションでオーディオ情報が分析されて、オーディオ信号の全てのフレームについての帯域利得の適用を指示するために各周波数帯域についての動的スケーリング係数kを決定し得る。全ての時間フレームの各周波数帯域についての動的スケーリング係数は、各周波数帯域についての所定の確率閾値TVAD及び所定の閾値利得TGainを超える全ての計算された帯域利得BGainを平均して、帯域利得の加重和Gを形成することによって決定され得る。
【0055】
図4によって示される更なる例では、現在のフレーム104についての特定の周波数帯域100の帯域利得は、0.8(線形単位)として計算されるが、前の3つのフレーム101、102、103についての対応する計算された帯域利得は、時間が増加する順にそれぞれ0.4、0.6、0.7(線形単位)である。所定の閾値利得T
Gainが0.5である状況では、フレーム102、103、104の帯域利得は、帯域利得の加重和G、及び、現在のフレーム104についての結果として得られる動的スケーリング係数kに影響を与えるであろう。前のフレーム103が処理されたとき、フレーム102の帯域利得は、帯域利得の加重和Gに影響を与えたが、閾値利得T
Gainを下回っているフレーム101の帯域利得は、無視された。フレーム101、102、103、104の各帯域について計算されたVAD確率により、現在のフレーム104についての動的スケーリング係数kの選択に影響を与えるフレームの選択は異なる場合がある。例えば、前のフレーム103が確率閾値T
VADを下回るVAD確率を有する場合、フレーム102及び104のみが、現在のフレーム104についての動的スケーリング係数kの選択に影響を与え得、フレーム102は、低すぎる帯域利得により無視され、フレーム103は、低すぎるVAD確率により無視される。
【0056】
図6は、いくつかの実装形態による、S1において受信されたバイノーラルオーディオ信号を処理するための方法を示す。バイノーラルオーディオ信号のオーディオ信号は、左オーディオ信号L及び右オーディオ信号Rであるか、又は少なくとも代替表現から左オーディオ信号L及び右オーディオ信号Rに変換され、S12に提供される(オプションで、後述するようにS11を介してS12に提供される)。
【0057】
左オーディオ信号L及び右オーディオ信号Rは、S12において組み合わされて、左オーディオ信号L及び右オーディオ信号Rの代替表現である中間オーディオ信号M及びサイドオーディオ信号Sを形成する。中間オーディオ信号Mは、左オーディオ信号Lと右オーディオ信号Rとの和によって推定される。例えば、中間オーディオ信号Mは、次のように推定され得る:
【数6】
【0058】
同様に、サイドオーディオ信号Sは、左オーディオ信号Lと右オーディオ信号Rとの間の差によって推定され得る。例えば、サイドオーディオ信号Sは、次のように推定され得る:
【数7】
【0059】
推定された中間オーディオ信号M及びサイドオーディオ信号Sの各々又は1つは、第1のオーディオ信号及び/又は第2のオーディオ信号を構成し、本開示の説明された実装形態に従って処理され得る。例えば、サイドオーディオ信号S及び中間オーディオ信号Mの両方が、
図3からの処理シーケンスS2a及びS2bで別々に処理され得る。サイドオーディオ信号Sのオーディオ処理は、中間オーディオ信号Mのオーディオ処理と異なっていてもよい。一実装形態では、S2aにおけるサイドオーディオ信号Sの処理では、S2bにおける中間オーディオ信号Mの処理と比較して、より積極的なノイズ低減が使用される。記録されたノイズのより大きな部分がサイドオーディオ信号Sに存在すると仮定されるので、サイドオーディオ信号S中のノイズをより多く低減することで、処理されたサイドオーディオ信号PS及び処理された中間オーディオ信号PMが再結合されて処理されたバイノーラルオーディオ信号を形成するときに、信号品質を向上させる。
【0060】
元の左オーディオ信号L及び右オーディオ信号Rの処理されたバージョン、すなわち、処理された左オーディオ信号PL及び処理された右オーディオ信号PRを再現する(recreate)ために、処理されたサイドオーディオ信号PS及び処理された中間オーディオ信号PMは、S28において、和及び差として再結合され、それぞれ、処理された左オーディオ信号PL及び処理された右オーディオ信号PRを形成し得る。例えば、処理された左オーディオ信号PLは、次のように推定され得る:
【数8】
ここにおいて、処理された右オーディオ信号PRは、次のように推定され得る:
【数9】
【0061】
いくつかの実装形態では、S4において、追加の記録デバイスからの追加のオーディオ信号が受信される。追加のオーディオ信号は、バイノーラルオーディオ信号に同期され、第1のオーディオ信号及び第2のオーディオ信号に対して、別々に処理され得るか、又は結合様式で処理され得る(例えば、モノチャネルノイズ低減モデルを提供するために第1のオーディオ信号及び第2のオーディオ信号と一緒に考慮される)。例えば、追加のオーディオ信号の処理は、第1の処理シーケンスS2a及び第2の処理シーケンスS2bにおける第1のオーディオ信号及び第2のオーディオ信号の処理と同等であり得る。処理された追加のオーディオ信号PAは、S28において抽出されたバイノーラル出力オーディオ信号におけるサイド情報として提供され得る。
【0062】
代替的に、追加のオーディオ信号は、S11において、バイノーラルオーディオ信号の左オーディオ信号L及び右オーディオ信号Rと同期され、混合される。追加のオーディオ信号Aの混合は、左オーディオ信号L及び右オーディオ信号Rのそれぞれに対して同じ所定の混合比で実行され得る。例えば、追加のオーディオ信号Aの混合比は、左オーディオ信号Lと混合する場合0.3であり、右オーディオ信号Rと混合する場合0.3である。追加のオーディオ信号Aが発話を含む可能性が高いと(例えば、VAD確率を計算することによって)決定された場合、所定の混合比は、例えば、追加のオーディオ信号Aの結果として得られる混合比が、左オーディオ信号Lと混合する場合0.7であり、右オーディオ信号Rと混合する場合0.7となるように、混合利得を適用することによって増加され得る。追加のオーディオ信号Aは、左オーディオ信号L及び右オーディオ信号Rとの混合の前に、前処理、例えば、ノイズ低減又はVAD確率抽出を受け得る。S3において得られた結果として得られたバイノーラル出力オーディオ信号は、追加の記録デバイスによってキャプチャされた第2の関心のある音源からのオーディオのより正確な再現を容易にし得る。
【0063】
いくつかの実装形態では、バイノーラル記録デバイス及び追加の記録デバイスの周波数応答が得られる。周波数応答は、各周波数帯域について各デバイスによってキャプチャされたエネルギーを表す尺度を記録することによって取得され得る。例えば、イコライゼーション曲線(equalization curve)で表され得る、各デバイスに関連付けられたイコライゼーション情報(equalization information)の周波数応答を比較することによって、イコライゼーション情報が計算され、バイノーラルオーディオ信号(第1のオーディオ信号及び第2のオーディオ信号の各々)及び追加のオーディオ信号のうちの少なくとも1つに適用され得る。例えば、イコライゼーション情報は、バイノーラル記録デバイスによってキャプチャされた帯域ごとのエネルギーを追加の記録デバイスによってキャプチャされた帯域ごとのエネルギーと比較することによって抽出される帯域ごとの利得を含み得る。
【0064】
バイノーラル記録デバイス及び追加の記録デバイスは、異なる周波数応答を特徴とし得るので、イコライゼーション曲線といったイコライゼーション情報の適用は、バイノーラル記録デバイス及び追加の記録デバイスの調性が一致するようにする。その結果、各記録によってキャプチャされた音源の混合がより均質になり、記録デバイスによってキャプチャされる音源の明瞭度を向上させる。
【0065】
いくつかの実装形態では、S11における、S4からの追加のオーディオ信号とバイノーラルオーディオ信号との混合利得及び/又はバイノーラルオーディオ信号の混合利得は、VAD確率に基づいて調整される。例えば、追加のオーディオ信号についてのVAD確率が抽出され得、追加のオーディオ信号が発話を含む可能性が高いことをVAD確率が示す場合、S11においてバイノーラルオーディオ信号L、Rと混合するときに、1より大きい線形の混合利得を追加のオーディオ信号に適用して、例えば、追加の記録デバイスに近いインタビュー対象者の発話をブーストし得る。更に、中間オーディオ信号について抽出されたVAD確率が、中間オーディオ信号Mが発話を含む可能性が高いことを示す場合、S28において、1より大きい線形の利得を中間オーディオ信号Mに適用して、例えば、バイノーラル記録デバイスを装着しているユーザの発話をブーストし得る。
【0066】
バイノーラルオーディオ信号の処理において又はバイノーラルオーディオ信号及び追加のオーディオ信号の処理において、骨振動センサ信号BVが考慮され得る。各処理シーケンスS2a、S2bは、上記に従って骨振動センサ信号BVを受信し得る。
【0067】
代替的又は追加的に、骨振動センサ信号BVは、S11におけるバイノーラルオーディオ信号と追加の信号Aとの混合をステアリングするためのVAD確率又は拡張VAD確率を確立するために使用されてもよい。例えば、バイノーラル記録デバイスのユーザが話している可能性が低いことを骨振動センサ信号BVが示す場合、S11において、1よりも大きい線形の混合利得を適用して、追加のオーディオ信号Aをブーストし得る。いくつかの実装形態では、骨振動センサ信号BVから推定されたVADは、発話が、バイノーラル記録デバイスを装着しているユーザから発せられているのか、又は第2の関心のある音源から発せられているのかを決定するために使用される。例えば、骨振動センサがバイノーラル記録デバイスのユーザによって装着され、骨振動オーディオ信号BVから抽出されたVAD確率が、音声オーディオが存在する可能性が高いことを示す場合、バイノーラル記録デバイスを装着しているユーザが話していると決定される。骨振動オーディオ信号BVから抽出されたVAD確率が、音声オーディオが存在する可能性が低いことを示す場合、バイノーラル記録デバイスを装着しているユーザが話していないと決定され得る。ユーザが話していないと決定されたことに応答して、追加のオーディオ信号及び/又はサイドオーディオ信号Sは、インタビュー対象者が話している場合など、周囲からの任意のオーディオを強化するためにブーストされる。ユーザが話していると決定されたことに応答して、中間オーディオ信号は、ユーザの音声を強化するためにブーストされる。
【0068】
左オーディオ信号L及び右オーディオ信号Rに対して同じ混合比で追加のオーディオ信号を混合する代わりに、中間オーディオ信号Mが、追加のオーディオ信号から単独で又は主に抽出され得、サイドオーディオ信号が、左オーディオ信号L及び右オーディオ信号Rから単独で又は主に抽出される。
【0069】
いくつかの実装形態では、バイノーラル記録デバイスの骨振動センサから発せられる骨振動センサ信号は、検出された音声の発生源を決定するために、追加のオーディオ信号の抽出されたVAD確率とともに使用される。例えば、追加のオーディオ信号のVADは高いが、骨振動センサ信号が振動をほとんど又は全く示さない場合、検出された音声の発生源はバイノーラル記録デバイスの装着者ではないと確定され得る。代替的に、追加のオーディオ信号のVAD確率が高く、骨振動センサ信号が発話に関連付けられた骨振動を示す場合、検出された音声の発生源はバイノーラル記録デバイスの装着者であると確定され得る。
【0070】
この目的のために、検出された音声の確定された発生源に応じて、異なるノイズ低減方法が、バイノーラルオーディオ信号及び/又は追加のオーディオ信号に採用され得る。例えば、音声が追加の記録デバイスの装着者から発せられる場合、バイノーラル記録デバイスの装着者と追加の記録デバイスとの間のチャネルによって追加されるノイズを抑制するのに特化した第1のノイズ低減技術が採用され得る。音声が別の関心のある音源からから発せられる場合、別のノイズ低減技術が、別の関心のある音源と追加の記録デバイスとの間のチャネルのノイズを低減するのにより適している。
【0071】
追加的又は代替的に、検出された音声の発生源に応じて、バイノーラルオーディオ信号及び追加のオーディオ信号の相対利得がそれに応じて変調され得る。例えば、音声が別の関心のある音源から発せられていることが確定された場合、バイノーラルオーディオに対する追加のオーディオ信号の利得を増加させる。音声がバイノーラルオーディオ信号の装着者から発せられていることが確定された場合、バイノーラルオーディオに対する追加のオーディオ信号の利得を低下させる。
【0072】
図7は、いくつかの実装形態によるレンダリング方法を説明するフローチャートを示す。ヘッドホンを通じてバイノーラルオーディオ信号を再生することに加えて、スピーカシステム(例えば、HiFiシステム又はサラウンドサウンドシステム)において又はポータブルデバイスにおいて複数のスピーカを使用することは別の一般的な選択肢である。ポータブルデバイスは、例えば、2つの上部スピーカ及び2つの下部スピーカといった4つの独立したスピーカを有するタブレットであり得、各スピーカは、個々の電力増幅器を介して供給される。この目的のために、バイノーラルオーディオ信号を少なくとも4つのスピーカにレンダリングするためのレンダリング方法が提供される。
【0073】
いくつかの実装形態では、バイノーラルオーディオ信号は、処理された左オーディオ信号PL及び処理された右オーディオ信号PRといった一対のオーディオ信号を含む。バイノーラルオーディオ信号のレンダリングは、S205で得られたパンニング情報(panning information)及びS210で得られたクロストークキャンセル情報をバイノーラルオーディオ信号に適用するという2つのカスケードされた手順に基づいており、一般に、Nチャネルスピーカシステム上でバイノーラル信号をレンダリングするように拡張され得る。ここで、Nは、4以上の自然数であり、スピーカシステムの少なくとも2つのスピーカは、左右のスピーカ対を形成する。Nチャネルレンダリング信号Sは、次のように求められ得る:
【数10】
ここで、Mは、次元N×2のパンニング情報を表すパンニングマトリックス(panning matrix)であり、Xは、サイズN×Nのクロストークキャンセルマトリックスである。パンニングマトリックスは、スピーカにパンニングされるべき振幅比を示し、いくつかの実装形態では、パンニング情報は、少なくとも1つの左右のスピーカ対のための中心パンニング(パンニングマトリックスMにおける等しい行エントリ)を示す。従って、バイノーラルオーディオ信号は、Nチャネルスピーカ上でレンダリングされ得る。
【0074】
S201において、バイノーラルオーディオ信号が得られ、S205において、スピーカシステムの少なくとも1つの左右のスピーカ対についての中心パンニングを示すパンニング情報(例えば、パンニングマトリックスM)が生成される。
【0075】
いくつかの実装形態では、S201で得られた(処理された左オーディオ信号PL及び処理された右オーディオ信号PRである)2つのオーディオ信号をもつバイノーラルオーディオ信号に加えて、S202において、(追加の記録デバイスによって記録された追加のオーディオ信号Aから発せられる)処理された追加のオーディオ信号PAが得られる。Nチャネルレンダリング信号Sは、S220において、次のように求められ得る:
【数11】
ここで、M
1は、バイノーラルオーディオ信号のためのパンニングマトリックス(次元N×2)であり、M
2は、処理された追加のオーディオ信号のためのパンニングマトリックス(次元N×1)である。パンニングマトリックスM
1によって表されるパンニング情報及びパンニングマトリックスM
2によって表されるパンニング情報は、個別に設定され得、例えば、M
1は、少なくとも1つのスピーカ対のための中心パンニングを示し得、M
2は、全てのスピーカに対するパンニングを示す。例えば、4つのスピーカを有するタブレットでは、M
1は、(周囲オーディオを提供するために)スピーカの一番上の対に対するパンニングを示し得、M
2は、(第2の関心のある音源からクリアなオーディオを提供するために)4つ全てのスピーカに対するパンニングを示す。従って、タブレットのユーザには、バイノーラル記録デバイス及び追加の記録デバイスから発せられるより理解しやすい発話が提供され得る。
【0076】
パラメータg1及びg2は、追加のオーディオ信号に対するバイノーラルオーディオ信号の信号電力レベルを設定する、バイノーラルオーディオ信号及び追加のオーディオ信号のそれぞれの混合係数を示す。
【0077】
クロストークキャンセルマトリックスX1は、バイノーラルオーディオ信号がレンダリングされる少なくとも1つのスピーカ対についてのクロストークキャンセル情報を表す。
【0078】
上記によれば、処理された追加のオーディオ信号を伴うバイノーラルオーディオ信号は、バイノーラル記録デバイスを装着しているユーザ及び第2の関心のある音源(例えば、追加の記録デバイスの近くにいるインタビュー対象者)の音声をより明確に再現するために、Nチャネルスピーカシステムにレンダリングされ得る。
【0079】
従って、スピーカシステムは、第2の関心のある音源からのオーディオを強化するために、追加のオーディオ信号を伴うバイノーラルオーディオ信号をレンダリングし得る。追加のオーディオ信号を全てのスピーカにパンニングすることによって、追加のオーディオ信号が明瞭に知覚され、バイノーラル信号は、周囲オーディオ効果を提供するために少なくとも1つのスピーカ対上でレンダリングされる。
【0080】
一実施形態では、システムは、1つ又は複数のコンピュータプロセッサと、命令を記憶する非一時的コンピュータ可読媒体とを備え、命令は、1つ又は複数のプロセッサによって実行されると、1つ又は複数のプロセッサに、前述の方法クレームのいずれか1つの動作を実行させる。
【0081】
一実施形態では、非一時的コンピュータ可読媒体は、1つ又は複数のコンピュータプロセッサによって実行されると、1つ又は複数のプロセッサに、前述の方法クレームのいずれか1つの動作を実行させる命令を記憶する。
【0082】
本開示の例示的な実施形態によれば、上記で説明したプロセスは、コンピュータソフトウェアプログラムとして又はコンピュータ可読記憶媒体上で実装され得る。例えば、本開示の実施形態は、機械可読媒体上に有形に具現化されたコンピュータプログラムを含むコンピュータプログラム製品を含み、コンピュータプログラムは、方法を実行するためのプログラムコードを含む。このような実施形態では、コンピュータプログラムは、通信ユニットを介してネットワークからダウンロードされてマウントされ得、及び/又はリムーバブル媒体からインストールされ得る。
【0083】
一般に、本開示の様々な例示的な実施形態は、ハードウェア又は専用回路(例えば、制御回路)、ソフトウェア、ロジック又はそれらの任意の組合せで実装され得る。例えば、上述したユニットは、制御回路(例えば、他の構成要素と組み合わせたCPU)によって実行され得、従って、制御回路は、本開示で説明したアクションを実行している可能性がある。いくつかの態様はハードウェアで実装され得るが、他の態様は、コントローラ、マイクロプロセッサ又は他のコンピューティングデバイス(例えば、制御回路)によって実行され得るファームウェア又はソフトウェアで実装され得る。本開示の例示的な実施形態の様々な態様は、ブロック図、フローチャートとして又は何らかの他の図的記述を使用して例示及び説明されるが、本明細書で説明されるブロック、装置、システム、技法又は方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、専用回路若しくはロジック、汎用ハードウェア若しくはコントローラ若しくは他のコンピューティングデバイス又はそれらの何らかの組合せで実装され得ることが理解されよう。
【0084】
追加的に、フローチャートに示された様々なブロックは、方法ステップとして、及び/又はコンピュータプログラムコードの動作の結果得られた動作として、及び/又は関連する機能(複数可)を実行するように構築された複数の結合された論理回路要素として見なされ得る。例えば、本開示の実施形態は、機械可読媒体上に有形に具現化されたコンピュータプログラムを含むコンピュータプログラム製品を含み、コンピュータプログラムは、上記で説明した方法を実行するように構成されたプログラムコードを含む。
【0085】
本開示の文脈では、機械可読媒体は、命令実行システム、装置若しくはデバイスによって又はそれに関連して使用するためのプログラムを包含又は記憶し得る任意の有形媒体であり得る。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であり得る。機械可読媒体は、非一時的であってもよく、電子、磁気、光学、電磁気、赤外線、若しくは半導体のシステム、装置、若しくはデバイス又は上記の任意の適切な組合せを含み得るが、これらに限定されない。機械可読記憶媒体のより具体的な例には、1つ又は複数のワイヤを有する電気接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、消去可能プログラマブル読取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読取り専用メモリ(CD-ROM)、光記憶デバイス、磁気記憶デバイス又は上記の任意の適切な組合せが含まれるであろう。
【0086】
本開示の方法を実行するためのコンピュータプログラムコードは、1つ又は複数のプログラミング言語の任意の組合せで書かれ得る。これらのコンピュータプログラムコードは、汎用コンピュータ、専用コンピュータ又は制御回路を有する他のプログラマブルデータ処理装置のプロセッサに提供され得、その結果、プログラムコードは、コンピュータ又は他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャート及び/又はブロック図で指定された機能/動作を実装させる。プログラムコードは、完全にコンピュータ上で、部分的にコンピュータ上で、独立型ソフトウェアパッケージとして、部分的にコンピュータ上及び部分的に遠隔コンピュータ上で又は完全に遠隔コンピュータ若しくはサーバ上で又は1つ又は複数の遠隔コンピュータ及び/若しくはサーバを経由して分散されて、実行され得る。
【0087】
本文書は多くの特定の実装形態の詳細を含んでいるが、これらは、特許請求され得るものの範囲に対する限定として解釈されるべきではなく、むしろ、特定の実施形態に固有であり得る特徴の説明として解釈されるべきである。別々の実施形態の文脈で本明細書に記載されている特定の特徴は、単一の実施形態において組み合わせて実装することも可能である。逆に、単一の実施形態の文脈で説明される様々な特徴は、複数の実施形態で別々に又は任意の適切な部分組合せで実施することも可能である。更に、特徴は、特定の組合せで作用するものとして上記で説明され、最初にそのように請求されることさえあるが、請求される組合せからの1つ又は複数の特徴は、場合によっては、その組合せから削除することができ、請求される組合せは、部分組合せ又は部分組合せの変形形態を対象とし得る。図に示された論理フローは、所望の結果を達成するために、示された特定の順序又は連続的な順序を必要としない。加えて、他のステップが提供されてもよいし、ステップが、説明されるフローから排除されてもよく、他の構成要素が、説明されるシステムに追加されてよいし、そこから除去されてもよい。従って、他の実装形態は、以下の特許請求の範囲内にある。
【手続補正書】
【提出日】2022-11-22
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
バイノーラル記録デバイスによって取得された入力バイノーラルオーディオ信号を表す第1のオーディオ信号及び第2のオーディオ信号を処理するための方法であって、
前記第1のオーディオ信号からオーディオ情報を抽出するステップであって、前記オーディオ情報は、前記第1のオーディオ信号を表す複数の周波数帯域を含む、ステップと、
前記第1のオーディオ信号の各周波数帯域について、前記第1のオーディオ信号中のノイズを低減するための帯域利得を計算するステップと、
前記第1のオーディオ信号の各周波数帯域について、音声アクティビティ検出(VAD)確率を計算するステップと、
それぞれの動的スケーリング係数に従って前記帯域利得を前記第1のオーディオ信号のそれぞれの周波数帯域に適用して、第1の出力オーディオ信号を提供するステップであって、
前記動的スケーリング係数は、0と1との間の値を有し、0の値は全帯域利得が適用されることを示し、1の値は帯域利得が適用されないことを示し、
前記動的スケーリング係数は、
各周波数帯域について、VAD確率が所定のVAD確率閾値を超える前記第1のオーディオ信号の現在の時間フレームおよび前の時間フレームの対応する周波数帯域に関連付けられた前記帯域利得に基づく、
ステップと、
前記第2のオーディオ信号
のノイズ低減処理を実行して第2の出力オーディオ信号を
得るステップと、
前記第1の出力オーディオ信号及び前記第2の出力オーディオ信号に基づいてバイノーラル出力オーディオ信号を決定するステップと
を含む方法。
【請求項2】
前記第2のオーディオ信号
の前記ノイズ低減処理は、前記第1のオーディオ信号を処理する前記ステップに対応する別個の処理ステップを含む、請求項1に記載の方法。
【請求項3】
前記第1の出力オーディオ信号を提供するステップは、
前記帯域利得を前記第1のオーディオ信号のそれぞれの周波数帯域に適用することによって、ノイズ低減されたオーディオ信号を計算するステップと、
前記動的スケーリング係数に等しい混合比で、前記第1のオーディオ信号の各周波数帯域を前記ノイズ低減されたオーディオ信号の対応する周波数帯域と混合して、前記第1の出力オーディオ信号を提供するステップと
を含む、請求項1又は2に記載の方法。
【請求項4】
前記第1の出力オーディオ信号を提供するステップは、
各帯域について、k+(1-k)Bgainとして動的帯域利得を計算するステップであって、kは前記動的スケーリング係数であり、Bgainは前記計算された帯域利得である、ステップと、
第1のオーディオ信号の各帯域に対して前記動的帯域利得を適用して、前記第1の出力オーディオ信号を提供するステップと
を含む、請求項1又は2に記載の方法。
【請求項5】
各
周波数帯域の前記動的スケーリング係数は、所定の閾値利得を超える前記現在の時間フレーム及び前記前の時間フレームの
対応する周波数帯域の帯域利得に基づく、請求項
1から4のいずれか一項に記載の方法。
【請求項6】
前記動的スケーリング係数は、帯域利得の加重和に基づき、前記加重和は、前の時間フレームからの帯域利得を含み、前記方法は、
前記現在の時間フレームの
特定の周波数帯域の前記帯域利得が所定の閾値利得を超えると決定するステップと、
前記現在のフレーム
の前記特定の周波数帯域に関連
付けられた前記帯域利得が前記所定の閾値利得を超える場合には、
現在の加重和を、前記現在の時間フレームの前記帯域利得と、前の時間フレームからの帯域利得を含む加重和との加重和として計算するステップと
、
前記現在のフレームの前記特定の周波数帯域に関連付けられた前記帯域利得が所定の閾値利得を下回る場合には、
前記現在の加重和を、前の時間フレームからの帯域利得を含む加重和として計算するステップと
を更に含む、請求項
1から
5のいずれか一項に記載の方法。
【請求項7】
前記動的スケーリング係数は、1-Gとして決定され、Gは、前の時間フレームの周波数帯域からの帯域利得を少なくとも含む帯域利得の加重和である、請求項
1から
6のいずれか一項に記載の方法。
【請求項8】
各周波数帯域についての前記動的スケーリング係数を決定するステップは、オフラインで実行され、各動的スケーリング係数は、前記第1のオーディオ信号の全ての時間フレームの対応する周波数帯域に関連付けられた前記帯域利得に基づく、請求項1から
7のいずれか一項に記載の方法。
【請求項9】
全てのフレームからの前記平均帯域利得に基づいて、前記第1のオーディオ信号の各周波数帯域についての動的スケーリング係数を決定するステップであって、前記帯域利得は所定の閾値利得を超え、前記VAD確率は所定の確率閾値を超える、ステップと
を更に含む、請求項
8に記載の方法。
【請求項10】
前記2つのオーディオ信号は、左チャネルオーディオ信号及び右チャネルオーディオ信号であり、前記方法は、
前記第1のオーディオ信号を中間チャネルオーディオ信号として推定するステップであって、前記中間信号は前記左信号と前記右信号との和から計算される、ステップと、
前記第2のオーディオ信号をサイドチャネルオーディオ信号として推定するステップであって、前記サイド信号は、前記左信号と前記右信号との間の差から計算される、ステップと、
前記中間出力信号とサイド出力信号との和として左出力オーディオ信号を推定すること、及び
前記中間出力信号とサイド出力信号との差として右出力オーディオ信号を推定すること
によって、前記バイノーラル出力オーディオ信号を決定するステップと
を更に含む、請求項1から
9のいずれか一項に記載の方法。
【請求項11】
追加の記録デバイスからの追加のオーディオ信号を処理するステップを更に含み、
前記第1のオーディオ信号及び前記第2のオーディオ信号は、左及び右オーディオ信号であり、前記方法は、
前記追加のオーディオ信号を前記バイノーラルオーディオ信号と同期させるステップと、
前記追加のオーディオ信号
を前記左及び右オーディオ信号と混合するステップと
を更に含む、請求項1から
10のいずれか一項に記載の方法。
【請求項12】
骨振動センサによって取得された骨振動センサ信号を処理するステップを更に含み、前記方法は、
前記骨振動センサ信号を前記バイノーラルオーディオ信号と同期させるステップと、
前記骨振動センサ信号に基づいて前記追加のオーディオ信号の利得を制御するステップと
を更に含む、請求項
11に記載の方法。
【請求項13】
前記バイノーラル記録デバイスの骨振動センサによって取得された骨振動センサ信号を処理するステップを更に含み、前記方法は、
前記骨振動センサ信号を前記バイノーラルオーディオ信号と同期させるステップと、
前記追加のオーディオ信号のVAD確率を抽出するステップと、
前記VAD確率及び前記骨振動センサ信号に基づいて、検出された音声の発生源を決定するステップと、
前記発生源が、前記骨振動センサを有する前記バイノーラル記録デバイスの前記装着者である場合、
前記バイノーラル記録デバイスの前記装着者と前記追加の記録デバイスとの間の前記チャネルの前記ノイズを抑制するのに適合された第1のオーディオ処理スキームを用いて前記追加のオーディオ信号を処理するステップと、
前記発生源が、前記骨振動センサを有する前記バイノーラル記録デバイスの前記装着者以外である場合、前記
別の発生源と前記追加の記録デバイスとの間の前記チャネルの前記ノイズを抑制するのに適合された第2のオーディオ処理スキームを用いて前記追加のオーディオ信号を処理するステップと
を更に含む、請求項
12に記載の方法。
【請求項14】
前記第1のオーディオ処理スキーム及び前記第2のオーディオ処理スキームは、前記追加のオーディオ信号に対して異なる信号利得を実装する、請求項
13に記載の方法。
【請求項15】
前記オーディオ情報は、
前記第1のオーディオ信号の前記SNR、
前記第1のオーディオ信号の前記基本周波数、
前記第1のオーディオ信号の前記VAD確率、
骨振動センサによって取得された骨振動センサ信号、
骨振動センサによって取得された骨振動センサ信号から抽出された基本周波数、及び
骨振動センサによって取得された骨振動センサ信号から抽出されたVAD確率、
のうちの1つ又は複数を更に含む、請求項1から
14のいずれか一項に記載の方法。
【請求項16】
前記骨振動センサ信号から抽出された前記VAD確率に基づいて、前記第1のオーディオ信号の利得を制御するステップ
を更に含む、請求項
15に記載の方法。
【請求項17】
前記第1のオーディオ信号の各周波数帯域についての帯域利得を計算するステップは、トレーニングされたニューラルネットワークを用いて前記オーディオ情報から前記帯域利得を予測するステップを含む、請求項1から
16のいずれか一項に記載の方法。
【請求項18】
コンピュータ上で実行されたときに、請求項1から
17のいずれか一項に記載の方法を実行するためのコンピュータプログラムコードを含むコンピュータプログラム製品。
【請求項19】
バイノーラル記録デバイスによって取得された入力バイノーラルオーディオ信号を表す第1のオーディオ信号及び第2のオーディオ信号及び追加の記録デバイスからの追加のオーディオ信号を処理するための方法であって
、前記第1の及び第2の入力及び出力オーディオ信号は、それぞれ、左及び右入力及び出力オーディオ信号であり、前記方法は、
前記追加のオーディオ信号を前記バイノーラルオーディオ信号と同期させるステップと、
前記バイノーラル記録デバイスの骨振動センサによって取得された骨振動センサ信号を受信するステップと、
前記骨振動センサ信号を前記バイノーラルオーディオ信号と同期させるステップと、
前記追加のオーディオ信号のVAD確率を抽出するステップと、
前記VAD確率及び前記骨振動センサ信号に基づいて、検出された音声の発生源を決定するステップと、
前記発生源が、前記骨振動センサを有する前記バイノーラル記録デバイスの前記装着者である場合、
前記バイノーラルオーディオ信号に対して前記追加のオーディオ信号
の利得を
低下させるステップと、
前記発生源が、前記骨振動センサを有する前記バイノーラル記録デバイスの前記装着者以外である場合、
前記バイノーラルオーディオ信号に対して前記追加のオーディオ信号
の利得を
増加させるステップと、
前記処理された追加のオーディオ信号に基づいて追加の出力オーディオ信号を提供するステップと、
前記追加の出力オーディオ信号を前記左及び右オーディオ信号と混合して、バイノーラルオーディオ信号を形成する左及び右出力オーディオ信号を得るステップと
を含む方法。
【請求項20】
オーディオ処理デバイスであって、
バイノーラル記録デバイスによって取得された入力バイノーラルオーディオ信号を受信する受信機であって、前記入力バイノーラルオーディオ信号は、第1のオーディオ信号及び第2のオーディオ信号を含む、受信機と、
前記受信機から前記第1のオーディオ信号を受信し、前記第1のオーディオ信号からオーディオ情報を抽出するように構成された抽出ユニットであって、前記オーディオ情報は、前記第1のオーディオ信号を表す複数の周波数帯域を含む、抽出ユニットと、
前記オーディオ情報を受信し、前記第1のオーディオ信号の各周波数帯域について、前記第1のオーディオ信号中のノイズを低減するための帯域利得
と音声アクティビティ検出(VAD)確率とを計算するように構成された処理デバイスと、
動的スケーリング係数に従って前記帯域利得を前記第1のオーディオ信号のそれぞれの周波数帯域に適用して、第1の出力オーディオ信号を提供するように構成された適用ユニットであって、前記動的スケーリング係数は、0と1との間の値を有し、0の値は全帯域利得が適用されることを示し、1の値は帯域利得が適用されないことを示し、前記動的スケーリング係数は、
各周波数帯域について、VAD確率が所定のVAD確率閾値を超える前記第1のオーディオ信号の現在の時間フレームおよび前の時間フレームの対応する周波数帯域に関連付けられた前記帯域利得に基づく、適用ユニットと、
前記第2のオーディオ信号
のノイズ低減処理を実行して第2の出力オーディオ信号を
得るように構成された追加の処理モジュールと、
前記第1の出力オーディオ信号及び前記第2の出力オーディオ信号に基づいてバイノーラル出力オーディオ信号を決定するように構成された出力段と
を備えるオーディオ処理デバイス。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0007
【補正方法】変更
【補正の内容】
【0007】
本発明の第1の態様によれば、請求項1に従って、入力バイノーラルオーディオ信号を表す第1のオーディオ信号及び第2のオーディオ信号を処理するための方法が提供される。本発明の第1の態様の方法は、請求項1に記載されている通りである。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0016
【補正方法】変更
【補正の内容】
【0016】
本発明の第3の態様によれば、請求項20に従って、オーディオ処理デバイスが提供される。
【国際調査報告】