(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-09-12
(45)【発行日】2025-09-24
(54)【発明の名称】信号処理装置、及び、信号処理方法
(51)【国際特許分類】
G10L 19/008 20130101AFI20250916BHJP
【FI】
G10L19/008 100
(21)【出願番号】P 2022575083
(86)(22)【出願日】2021-10-15
(86)【国際出願番号】 JP2021038178
(87)【国際公開番号】W WO2022153632
(87)【国際公開日】2022-07-21
【審査請求日】2024-07-18
(32)【優先日】2021-01-18
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-01-25
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】P 2021078567
(32)【優先日】2021-05-06
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】514136668
【氏名又は名称】パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
【氏名又は名称原語表記】Panasonic Intellectual Property Corporation of America
(74)【代理人】
【識別番号】110002952
【氏名又は名称】弁理士法人鷲田国際特許事務所
(72)【発明者】
【氏名】原田 旭
(72)【発明者】
【氏名】江原 宏幸
【審査官】菊池 智紀
(56)【参考文献】
【文献】特開2020-060788(JP,A)
【文献】特表2015-518176(JP,A)
【文献】米国特許出願公開第2013/0301835(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00-19/26
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
ステレオ信号のチャネル間時間差の時間変化を検出する検出回路と、
前記チャネル間時間差の時間変化に基づいて、チャネル間相関関数を平滑化する度合いを制御する制御回路と、
具備
し、
前記検出回路は、前記ステレオ信号の第1の帯域についてのチャネル間位相差の第1の分散と、前記ステレオ信号の第2の帯域についてのチャネル間位相差の第2の分散とに基づいて、前記チャネル間時間差の時間変化を検出し、
前記制御回路は、前記第1の分散と前記第2の分散とが所定の条件を満たす場合に前記ステレオ信号の音源が単一で移動していると判断し、前記平滑化の度合いを、前記条件を満たさない場合の前記平滑化の度合いよりも弱める、
信号処理装置。
【請求項2】
前記平滑化の度合いを制御された前記チャネル間相関関数に基づいて、前記チャネル間時間差を推定する推定回路を更に備えた、
請求項1に記載の信号処理装置。
【請求項3】
前記前記平滑化の度合いを弱めることは、前記平滑化を実行しないことを含む、
請求項
1に記載の信号処理装置。
【請求項4】
前記第2の帯域は、前記第1の帯域よりも高い帯域であり、前記条件は、前記第1の分散が第1閾値よりも小さく、かつ、前記第1の分散に対する前記第2の分散の比が第2閾値よりも大きい場合である、
請求項
1に記載の信号処理装置。
【請求項5】
前記検出回路は、前
記チャネル間位相差を-πから+πの範囲で正規化した場合の+π及び-πにそれぞれ相当するチャネル間位相差の情報を、前記チャネル間時間差の時間変化の検出に用いない、
請求項1に記載の信号処理装置。
【請求項6】
前記検出回路は、前
記チャネル間位相差の一階差分の平均値に基づいて、前記チャネル間時間差の時間変化の検出に用いるチャネル間位相差の一階差分を選択する、
請求項1に記載の信号処理装置。
【請求項7】
信号処理装置は、
ステレオ信号のチャネル間時間差の時間変化を検出し、
前記チャネル間時間差の時間変化に基づいて、チャネル間相関関数を平滑化する度合いを制御
し、
前記ステレオ信号の第1の帯域についてのチャネル間位相差の第1の分散と、前記ステレオ信号の第2の帯域についてのチャネル間位相差の第2の分散とに基づいて、前記チャネル間時間差の時間変化を検出し、
前記第1の分散と前記第2の分散とが所定の条件を満たす場合に前記ステレオ信号の音源が単一で移動していると判断し、前記平滑化の度合いを、前記条件を満たさない場合の前記平滑化の度合いよりも弱める、
信号処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、信号処理装置、及び、信号処理方法に関する。
【背景技術】
【0002】
例えば、ステレオ音声音響信号(以下、ステレオ信号とも呼ぶ)に対する符号化技術がある(例えば、特許文献1を参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【0004】
しかしながら、音源が移動する場合のステレオ信号の符号化方法について検討の余地がある。
【0005】
本開示の非限定的な実施例は、音源が移動する場合のステレオ信号の符号化性能を向上できる信号処理装置、及び、信号処理方法の提供に資する。
【0006】
本開示の一実施例に係る信号処理装置は、ステレオ信号のチャネル間時間差の時間変化を検出する検出回路と、前記チャネル間時間差の時間変化に基づいて、チャネル間相関関数を平滑化する度合いを制御する制御回路と、を具備する。
【0007】
なお、これらの包括的または具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、または、記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
【0008】
本開示の一実施例によれば、音源が移動する場合のステレオ信号の符号化性能を向上できる。
【0009】
本開示の一実施例における更なる利点および効果は、明細書および図面から明らかにされる。かかる利点および/または効果は、いくつかの実施形態並びに明細書および図面に記載された特徴によってそれぞれ提供されるが、1つまたはそれ以上の同一の特徴を得るために必ずしも全てが提供される必要はない。
【図面の簡単な説明】
【0010】
【
図1】音声音響信号の伝送システムの構成例を示す図
【
図2】ITD(inter-channel time difference)推定部の構成例を示すブロック図
【
図5】単一音源移動検出部の構成例を示すブロック図
【発明を実施するための形態】
【0011】
以下、本開示の実施の形態について図面を参照して詳細に説明する。
【0012】
ステレオ信号の符号化の一つに、例えば、バイノーラルキュー符号化(BCC:Binaural Cue Coding)がある。バイノーラルキュー符号化では、例えば、Lチャネル(Left channel又はL-ch)及びRチャネル(Right channel又はR-ch)を含むステレオ信号に対する、チャネル間レベル差(ILD:inter-channel level difference)、チャネル間相関関数(ICC:inter-channel cross correlation)、及び、チャネル間時間差(ITD:inter-channel time difference)といったバイノーラルキューによってステレオ信号がパラメータ化される。
【0013】
例えば、ステレオ信号のチャネル間時間差(ITD)は、LチャネルとRチャネルとの間の音が到達する時間差に関するパラメータである。例えば、ITDは、ステレオ信号に含まれるチャネル信号のペアの高速フーリエ変換(FFT:Fast Fourier Transform)スペクトルに基づいて決定される周波数領域のチャネル間相関関数(ICC)を逆高速フーリエ変換(IFFT:Inverse Fast Fourier Transform)した時間領域のICCのピーク位置に対するタイムラグに基づいて推定されてよい。
【0014】
ITDの推定精度の向上、又は、安定した推定の実現のために、例えば、スペクトル平坦度(SFM:Spectral Flatness Measurement)に基づいて、ICCに対するフレーム間の平滑化処理を適用する方法がある(例えば、特許文献1を参照)。例えば、入力信号の調性(tonality)又は周期性が強いほど、SFMは低くなる。例えば、特許文献1では、符号化装置において、入力信号がより強い調性を有する場合(例えば、SFMがより低い場合)、ICCに対してより強い平滑化処理が適用される。換言すると、入力信号がより強い調性を有する場合、現フレームにおいて、過去のフレームのICCデータが反映されやすくなる。これにより、タイムラグに対応する時間領域のICCのピーク位置の判定精度を向上でき、ITDの推定精度を向上できる。
【0015】
ここで、例えば、ステレオ信号の音源の動き(例えば、移動)によって実際のITDが変化する場合でも、適用される平滑化処理が強いほど、推定されるITD(例えば、時間領域におけるICCのピーク位置)は、フレーム間の平滑化によって変化しにくい。よって、例えば、平滑化処理の適用によって、移動する音源の追跡の精度(換言すると、ITDの推定精度)が低下する可能性がある。
【0016】
本開示の一実施例では、ステレオ信号の音源が移動する場合にITDの推定精度を向上させ、符号化性能を向上させる方法について説明する。
【0017】
[音声音響信号の伝送システムの構成例]
図1は、音声信号又は音響信号(例えば、音声音響信号と呼ぶ)の伝送システムの構成例を示す図である。
【0018】
図1に示す伝送システムは、例えば、符号化装置、及び、復号装置を備えてよい。
【0019】
[符号化装置の構成例]
符号化装置は、例えば、マイクなどの入力デバイス装置(図示せず)、A/D変換装置(図示せず)、及び、エンコーダを備えてよい。
【0020】
入力デバイス装置は、例えば、入力される音声音響信号(アナログ信号)をA/D変換装置に出力する。A/D変換装置は、例えば、入力されるアナログ信号をデジタル信号に変換し、エンコーダに出力する。なお、符号化装置において、入力デバイス装置及びA/D変換装置の少なくとも一つは、ステレオ信号を扱うために複数(例えば、2つ)備えてもよい。
【0021】
エンコーダは、例えば、信号を時間領域から周波数領域の信号に変換する変換部(例えば、FFT部)と、ステレオ情報抽出部と、ダウンミックス部と、符号化部とを備えてよい(図示せず)。
【0022】
変換部は、例えば、エンコーダに入力されるステレオ信号(例えば、Lチャネル信号及びRチャネル信号)をチャネル毎に時間領域から周波数領域のデータ(例えば,FFTスペクトル)に変換し、ステレオ情報抽出部及びダウンミックス部へ出力する。
【0023】
ステレオ情報抽出部は、例えば、各チャネルのFFTスペクトルに基づいて、ステレオ情報を抽出してよい。一例として、ステレオ情報抽出部は、ILD、ICC及びITDといったバイノーラルキューによってステレオ信号をパラメータ化し、ダウンミックス部及び符号化部へ出力してよい。例えば、ステレオ情報抽出部は、ITDをパラメータ化するITD推定部10(例えば、信号処理装置に対応)を備えてよい。ITD推定部10は、例えば、チャネル間時間差(ITD)を推定する。なお、ITD推定部10におけるITDの推定方法の例については後述する。
【0024】
ダウンミックス部は、例えば、変換部から出力される各チャネルのFFTスペクトルと、ステレオ情報抽出部から出力されるバイノーラルキューのパラメータ(例えば、推定ITDを含む)とに基づいてダウンミックス処理を行い、Mid信号(例えば、M信号とも呼ぶ)及びSide信号(例えば、S信号とも呼ぶ)を生成してよい。例えば、LチャネルのFFTスペクトルを操作したデータを「L’」と定義すると、ダウンミックス部は、M=(L’+R)/2及びS=(L’-R)/2となるダウンミックスを行い、M信号及びS信号を符号化部へ出力してよい。ここで、MはMid信号、SはSide信号、RはRチャネルのFFTスペクトルを示す。
【0025】
なお、上記ダウンミックス部の処理は、Rチャネルを基準にLチャネルのFFTスペクトルを操作する例について説明したが、これに限らず、例えば、Lチャネルを基準にRチャネルのFFTスペクトルが操作されてもよい。
【0026】
符号化部は、例えば、ダウンミックス部から出力されるM信号とS信号、及び、ステレオ情報抽出部から出力されるバイノーラルキューのパラメータ(例えば、推定ITDを含む)をそれぞれ符号化し、符号化データを出力する。なお、符号化部は、上述したコーデックに限定されず、例えば、Moving Picture Experts Group(MPEG)、3rd Generation Partnership Project(3GPP)又はInternational Telecommunication Union Telecommunication Standardization Sector(ITU-T)といった標準化された種々の音声音響コーデックを備えてもよい。
【0027】
符号化装置は、エンコーダの符号化部から出力される符号化データを,通信網又は記憶媒体(図示せず)を介して、復号装置に送信する。
【0028】
[復号装置の構成例]
復号装置は、例えば、デコーダ、D/A変換装置(図示せず)、及び、スピーカなどの出力デバイス装置(図示せず)を備えてよい。復号装置は、例えば、通信網又は記憶媒体(図示せず)を介して符号化データを受信し、デコーダに入力する。
【0029】
デコーダは、例えば、復号部、アップミックス部、ステレオ情報合成部、及び、信号を周波数領域から時間領域に変換する変換部(例えば、IFFT部)を備えてよい(図示せず)。
【0030】
例えば、デコーダに入力される符号化データは、復号部に入力される。復号部は、入力される符号化データを、符号化装置側で使用されたコーデックを用いて復号し、例えば、M信号とS信号、及び、バイノーラルキューのパラメータをアップミックス部及びステレオ情報合成部へ出力する。復号部は、例えば、MPEG、3GPP、又はITU-Tといった標準化された種々の音声音響コーデックを備えてもよい。
【0031】
アップミックス部は、例えば、復号部から出力されるM信号及びS信号に基づいて、アップミックス処理を行ってよい。例えば、アップミックス部は、L’=M+S,R=M-Sとなるアップミックス処理を行い、FFTスペクトルのL’信号及びR信号をステレオ情報合成部へ出力する。
【0032】
ステレオ情報合成部は、例えば、復号部から出力されるバイノーラルキューのパラメータ(推定ITDを含む)、及び、アップミックス部から出力されるFFTスペクトルのL’信号を用いて、符号化装置(例えば、ステレオ情報抽出部)と逆の操作を行い、FFTスペクトルのL信号を変換部へ出力してよい。
【0033】
変換部は、例えば、FFTスペクトルのL信号及びR信号を、時間領域のLチャネル及びRチャネルのデジタル信号にチャネル毎に変換して、デジタル信号をデコーダの出力信号として出力する。
【0034】
D/A変換装置は、例えば、デコーダから出力されるデジタル信号を音声音響信号(アナログ信号)に変換し、出力デバイス装置に出力する。
【0035】
出力デバイス装置は、D/A変換装置から出力されるアナログ信号を、例えば、スピーカから出力する。なお、復号装置は、ステレオ信号を扱うために、D/A変換装置及び出力デバイス装置の少なくとも一つを複数(例えば2つ)備えてもよい。
【0036】
[ITD推定部の構成例]
次に、ITD推定部10の構成例について説明する。
図2は、ITD推定部10の構成例を示すブロック図である。また、
図3は、
図2に示すITD推定部10の動作例を示すフローチャートである。
【0037】
図2に示すITD推定部10は、例えば、FFT部11、ICC決定部12、SFM決定部13、平滑化処理部14、IFFT部15及びITD検出部16を備えてよい。
【0038】
FFT部11には、例えば、時間領域のステレオ信号(例えば、Lチャネル及びRチャネル)が1チャネルずつ独立して入力されてよい。FFT部11は、例えば、時間領域のチャネル信号を周波数領域信号(以下、FFTスペクトルと呼ぶ)に変換する(例えば、
図3のS11)。FFT部11は、FFTスペクトルに関する情報をICC決定部12及びSFM決定部13へ出力する。なお、時間領域信号から周波数領域信号へ変換する方法は、FFTに限定されず、他の方法でもよい。
【0039】
ICC決定部12は、FFT部11から出力される各チャネルのFFTスペクトルに基づいて、チャネル間相関関数(ICC)を決定(例えば、計算)する(例えば、
図3のS12)。ICC決定部12は、決定したICCに関する情報を平滑化処理部14へ出力する。
【0040】
SFM決定部13は、FFT部11から出力される各チャネルのFFTスペクトルに基づいて、スペクトル平坦度(SFM)を決定(例えば、計算)する(例えば、
図3のS13)。SFM決定部13は、決定したSFMに関する情報を平滑化処理部14へ出力する。
【0041】
平滑化処理部14は、例えば、SFM決定部13から出力されるSFMを平滑化係数に設定して、ICC決定部12から出力されるICCのフレーム間の平滑化処理を行う(例えば、
図3のS14)。例えば、SFM(又は、平滑化係数)が低いほど、平滑化の度合い(又は、強度)はより強くてよい。平滑化処理部14は、平滑化処理後のICCに関する情報をIFFT部15へ出力する。
【0042】
IFFT部15は、例えば、平滑化処理部14において平滑化されたICCを周波数領域から時間領域の信号へ変換する。IFFT部15は、時間領域のICCに関する情報をITD検出部16へ出力する。なお、周波数領域信号から時間領域信号へ変換する方法は、IFFTに限定されず、他の方法でもよい。
【0043】
ITD検出部16(例えば、推定回路に対応)は、例えば、IFFT部15から出力される時間領域のICCに基づいて、ITDを検出(又は、推定)する(例えば、
図3のS15)。
【0044】
図2に示すITD推定部10では、例えば、調性の強いステレオ信号ほど(例えば、SFMがより低くいほど)、平滑化の度合いが強いため、上述したように、音源が移動する場合におけるITDの推定精度が低減する可能性がある。以下では、一例として、単一の音源が移動する場合でもITDの推定精度を向上する方法について説明する。
【0045】
図4は、本実施の形態に係るITD推定部10aの構成例を示すブロック図である。
【0046】
図4に示すITD推定部10aは、例えば、
図2に示すITD推定部10の構成と比較して、単一音源移動検出部50が追加される。例えば、
図4に示すITD推定部10aにおいて、単一音源移動検出部50と異なる構成部は、
図2と同様でよい。
【0047】
単一音源移動検出部50(例えば、検出回路及び制御回路に対応)は、例えば、FFT部11から出力される、各チャネルのFFTスペクトルに基づいて、ステレオ信号の単一音源の移動(換言すると、ステレオ信号のITDの時間変化)を検出する機能と、平滑化処理部14の平滑化処理における平滑化の制御(例えば、ICCを平滑化する度合いの制御)を行う機能と、を有してよい。
【0048】
単一音源移動検出部50は、例えば、単一音源の移動、例えば、ステレオ信号のITDの時間変化を検出し、単一音源の移動の検出結果に基づいて平滑化を制御してよい。
【0049】
図5は、単一音源移動検出部50の構成例を示すブロック図である。
【0050】
図5に示す単一音源移動検出部50は、例えば、IPD決定部51、データ選択部52-1、データ選択部52-2、一階差分決定部53-1、53-2、分散決定部54-1、54-2、及び、平滑化制御部55を備えてよい。
【0051】
IPD決定部51は、例えば、FFT部11から出力されるLチャネル及びRチャネルそれぞれのFFTスペクトル(例えば、FFT位相スペクトル)に基づいて、チャネル間位相差(IPD又はIPDスペクトルと呼ぶ)を決定(例えば、計算)する。IPD決定部51は、例えば、周波数binそれぞれのIPDスペクトルを決定してよい。IPD決定部51は、IPDに関する情報をデータ選択部52-1及びデータ選択部52-2に出力する。
【0052】
ここで、IPDは、例えば、ステレオ信号の2つのチャネルの位相スペクトル間の差として定義されてよい。例えば、チャネル間時間差(ITD)が1サンプル/フレーム程度(例えば、32kHzサンプリング、1フレーム20msの場合、毎フレーム0.03125msずつ増加または減少する場合)で変化するように、単一音源が移動する場合、IPDスペクトルにおいて、線形形状(例えば、のこぎり形状を含む)が低周波数帯域に現れ、高周波数帯域に現れない傾向がある。換言すると、IPDスペクトルにおいて、線形形状が低周波数帯域に現れ、高周波数帯域に現れない音源は、単一で移動している可能性が高い。
【0053】
図6は、IPDスペクトルの一例を示す図である。
図6において、縦軸はIPDスペクトルの位相を示し、横軸はIPDスペクトルの周波数binを示す。
【0054】
なお、
図6に示すIPDスペクトルは、例えば、-π~+πの範囲に正規化され、-π~+πの範囲においてラップアラウンド(又は、折り返し)される。ここで、例えば、高い周波数帯域ほど、IPD(例えば、
図6におけるIPDの傾き)は大きくなる傾向がある。また、例えば、音源が移動している場合(例えば、ITDが時間変化している場合)には、IPDの値がぶれやすくなる。このため、
図6に示すように、IPDスペクトルの低周波数帯域には、明確な線形形状(例えば、のこぎり形状)の成分が現れやすく、IPDスペクトルの高周波数帯域には、前述したラップアラウンドが高頻度で発生しやすく、雑音性の成分が現れやすい。換言すると、例えば、
図6に示すように、明確な線形形状は、IPDスペクトルの低周波数帯域に現れやすく、IPDスペクトルの高周波数帯域に現れにくい(または、部分的に線形形状が現れることを含む)ことが分かる。
【0055】
以上より、単一音源移動検出部50は、例えば、低周波数帯域、及び、高周波数帯域のそれぞれにおけるIPDスペクトルの形状に基づいて、単一音源の移動、換言すると、ITDの時間変化を検出してよい。例えば、単一音源移動検出部50は、低周波数帯域及び高周波数帯域のそれぞれについて位相スペクトルに線形形状(例えば、
図6に示すスペクトル形状)が現れるか否かを検出(又は、特定)することにより、単一音源が移動するケース(例えば、単一音源がゆっくり移動するケース)であるか否かを判定してよい。
【0056】
例えば、単一音源移動検出部50は、ステレオ信号の低周波数帯域についてのIPD(例えば、IPDスペクトルの一階差分)の分散と、ステレオ信号の高周波数帯域についてのIPD(例えば、IPDスペクトルの一階差分)の分散とに基づいて、単一音源の移動(例えば、ITDの時間変化)を検出してよい。
【0057】
図5において、例えば、データ選択部52-1、一階差分決定部53-1及び分散決定部54-1は、低周波数帯域のIPDスペクトル(又は、IPDデータ)に対応する処理を行う構成部であり、データ選択部52-2、一階差分決定部53-2及び分散決定部54-2は、高周波数帯域のIPDスペクトル(又は、IPDデータ)に対応する処理を行う構成部である。
【0058】
データ選択部52-1は、例えば、IPD決定部51から出力される信号のうち、低周波数帯域のIPDデータから、後段の一階差分決定部53-1に出力するデータを選択する。例えば、単一音源移動検出部50は、IPDデータ(位相)を-πから+πの範囲で正規化した場合の+π及び-πにそれぞれ相当するIPDの情報を、単一音源の移動(又は、ITDの時間変化)の検出に用いなくてよい。例えば、データ選択部52-1は、-0.75πから+0.75πの範囲のIPDデータを選択してよい。換言すると、データ選択部52-1は、
図6に示すように、IPDスペクトルにおけるラップアラウンド(折り返し)部分に対応するIPDデータを、単一音源の移動検出に用いるIPDデータから除去してよい。データ選択部52-1は、選択したデータを一階差分決定部53-1に出力する。
【0059】
一階差分決定部53-1は、例えば、データ選択部52-1において選択された低周波数帯域のIPDデータの一階差分(例えば、隣り合う周波数binのIPDデータ間の差)を決定(例えば、計算)し、一階差分に関する情報を分散決定部54-1に出力する。なお、一階差分決定部53-1において決定(又は検出)する差分は、一階差分に限定されない。例えば、IPDデータの微分によってIPDデータ間の傾きが検出されてもよい。この点は、後述する一階差分決定部53-2についても同様である。
【0060】
分散決定部54-1は、例えば、一階差分決定部53-1から出力される低周波数帯域の一階差分の分散を決定(例えば、計算)し、低周波数帯域の一階差分の分散に関する情報を平滑化制御部55に出力する。
【0061】
データ選択部52-2は、データ選択部52-1と同様に、例えば、IPD決定部51から出力される信号のうち、高周波数帯域のIPDデータから、後段の一階差分決定部53-2に出力するデータを選択する。データ選択部52-2は、選択したデータを一階差分決定部53-2に出力する。
【0062】
一階差分決定部53-2は、一階差分決定部53-1と同様に、例えば、データ選択部52-2において選択された高周波数帯域のIPDデータの一階差分を決定(例えば、計算)し、一階差分に関する情報を分散決定部54-2に出力する。
【0063】
分散決定部54-2は、分散決定部54-1と同様に、例えば、一階差分決定部53-2から出力される高周波数帯域の一階差分の分散を決定(例えば、計算)し、高周波数帯域の一階差分の分散に関する情報を平滑化制御部55に出力する。
【0064】
ここで、分散決定部54-1及び分散決定部54-2は、例えば、データ選択部52-1及びデータ選択部52-2から出力されるIPDデータを間引いてよい。例えば、IPD[k](kは、データ選択部52-1及びデータ選択部52-2から出力される順にIPDに付与した番号)のうち、k=1,3,5,・・・,2m-1又はk=2,4,6,・・・,2mのように1つ飛ばしにIPDを間引いてもよいし、あるいは、2つ飛ばしにIPDを間引いてもよい。分散決定部54-1及び分散決定部54-1は、例えば、間引き後のIPDデータに基づいて分散を決定してよい。IPDデータの間引きにより、分散決定部54-1及び分散決定部54-2における演算量を低減できる。なお、IPDデータの間引き方法は、上述した1つ飛ばし又は2つ飛ばしの間引きに限定されず、他の方法でもよい。また、例えば、分散決定部54-1及び分散決定部54-2は、低周波数帯域及び高周波数帯域の少なくとも一方の中心付近の規定の帯域(例えば、100Hz幅又は200Hz幅)における分散を計算してもよい。
【0065】
平滑化制御部55は、例えば、分散決定部54-1から出力される低周波数帯域の一階差分の分散、分散決定部54-2から出力される高周波数帯域の一階差分の分散、及び、SFM決定部13から出力されるSFMに基づいて、平滑化係数を決定(例えば、計算)する。平滑化制御部55は、決定した平滑化係数に関する情報を平滑化処理部14に出力する。
【0066】
例えば、特許文献1では、平滑化係数(例えば、「alpha」と表す)にSFMが設定される。本実施の形態では、例えば、平滑化係数alphaは、以下の式(1)に基づいて計算されてよい。
alpha = Max(SFM, 1-VL/VH) (1)
【0067】
ここで、関数Max(A, B)は、AとBとの間でより大きい方の値を出力する関数である。また、VLは、分散決定部54-1によって決定された低周波数帯域の分散を示し、VHは、分散決定部54-2によって決定された高周波数帯域の分散を示す。
【0068】
例えば、
図6に示すように、低周波数帯域に線形形状が現れ、高周波数帯域に線形形状が現れない音源(例えば、単一移動する音源)の場合、低周波数帯域の分散VLは低く、高周波数帯域の分散VHは高くなる傾向がある。この場合、式(1)において、1-VL/VHの値は高くなりやすく(例えば、より1に近い値になり)、alphaの値は1に近い値になりやすい。
【0069】
ここで、alpha=1の場合は、平滑化処理を適用しない場合に相当する。よって、平滑化制御部55は、例えば、単一音源の移動(例えば、
図6に示すようなIPDスペクトルの形状)を検出した場合の平滑化の度合い(又は、強度)を、単一音源の移動を検出しない場合の平滑化の度合いよりも弱める。
【0070】
これにより、例えば、音源が単一移動する場合には、平滑化処理部14における平滑化処理が弱められる、換言すると、過去フレームのICCの影響が低減される。そのため、ITD検出部16は、単一音源の移動によるICCの瞬時的な変化を反映したITDを推定できる。よって、ITD推定部10aは、単一音源が移動する場合でも、ITDの推定精度を向上できる。
【0071】
または、平滑化制御部55は、例えば、IPDスペクトルの一階差分の分散と閾値との比較に基づいて、平滑化係数alphaを決定してもよい。換言すると、平滑化制御部55は、例えば、IPDスペクトルの一階差分の分散と閾値との比較に基づいて、単一音源の移動を検出し、単一音源の移動の検出結果に基づいて、平滑化係数alphaを決定してよい。
【0072】
例えば、平滑化制御部55は、低周波数帯域の分散VLと高周波数帯域の分散VHとが所定の条件を満たす場合にステレオ信号の音源が単一で移動している(又は、ITDが時間変化している)と判断し、平滑化の度合いを、条件を満たさない場合の平滑化の度合いよりも弱めてよい。なお、平滑化の度合いを弱めることは、例えば、平滑化を実行しないことを含んでもよい。
【0073】
例えば、平滑化制御部55は、規定区間(例えば、連続する5フレーム)において、VL < Th1かつVH/VL > Th2の条件を満たす場合に平滑化係数alpha=1を設定し、規定区間においてVL < Th1、かつ、VH/VL > Th2の条件を満たさない場合に平滑化係数alpha=SFMを設定してもよい。
【0074】
ここで、例えば、
図6に示すIPDスペクトルの形状のケースでは、低周波数帯のIPDスペクトル(例えば、線形形状)の一階差分の分散VLは小さく、高周波数帯のIPDスペクトルの一階差分の分散VHは大きくなる傾向にあるので、分散VLが閾値Th1よりも小さく(VL < Th1)、かつ、分散VLに対する分散VHの比が閾値Th2よりも大きい(VH/VL > Th2)という条件を満たしやすい。よって、規定区間において、VL < Th1かつVH/VL > Th2の条件を満たす場合には、平滑化制御部55は、単一音源の移動を検出したと判断し、平滑化係数alpha=1、すなわち、平滑化を実行しないことを決定してよい。これにより、ITD推定部10aは、単一音源が移動する場合でも、ITDの推定精度を向上できる。
【0075】
その一方で、規定区間において、VL < Th1かつVH/VL > Th2の条件を満たさない場合、平滑化制御部55は、単一音源の移動を検出しないと判断し、平滑化係数alpha=SFMとして、平滑化の実行を決定してよい。また、平滑化制御部55は、alphaが一度alpha=1に設定された後、VL<Th1及びVH/VL>Th2の何れか一方の条件を規定区間(例えば、連続する5フレーム)において満たさない場合、例えば、単一音源の移動が完了したと判断し、alpha=SFMに設定(又は、再設定、切り替え)してよい。これにより、例えば、ITD推定部10aは、音源が移動しない場合には、調性の強い信号に対して、ICCの平滑化によりITDの推定精度を向上できる。
【0076】
なお、上述した条件のうち、VH/VL > Th2の代わりに、VL/VH < Th3(例えば、Th3=1/Th2)が適用されてもよい。ここで、Th1及びTh2は閾値であり、例えば,Th1は2.25に設定され、Th2は1.50に設定されてよい。なお、Th1及びTh2の設定値は、これらに限定されず、他の値でもよい。
【0077】
また、ここでは、一例として、1フレーム=20msを想定し、規定区間が5フレーム(例えば、100ms)の場合について説明した。この場合、上述した閾値による判定処理における平滑化係数alphaの切り替えは、最短で100ms毎に可能である。これにより、平滑化制御部55は、規定区間に亘るIPDスペクトルの形状に基づいて単一音源の移動を判断するので、例えば、ある位相差を持つ周期性の強い単一音源が移動していない場合に規定区間内の一部のフレームにおいてラップアラウンドによってVHが大きくなることによって音源の移動を検出するといった単一音源の移動の検出判断を誤り得る場合でも、平滑化処理(例えば、平滑化係数alpha)の誤った切り替えの発生を抑制できる。なお、規定区間は100ms(又は、5フレーム)に限定されず、他の値でもよい。例えば、規定区間は、ステレオ符号化システムにおけるモードの切り替え周期に応じて決定されてもよい。
【0078】
平滑化処理部14は、単一音源移動検出部50から出力される平滑化係数alphaを用いて、ICC決定部12から出力されるICCに平滑化処理を行ってよい。例えば、平滑化処理は、次式(2)に基づいて実行されてよい。
ICCsmooth(t)[n] = (1-alpha)*ICCsmooth(t-1)[n]+alpha*ICC[n] (2)
【0079】
ここで、ICCsmooth(t)[n]は、時間t(又は、t番目のフレーム)において平滑化されるICCのn番目の要素を示し、alphaは平滑化制御部55において決定される平滑化係数を示し、ICC[n]は、現在の時間(又は現在のフレーム)のICCのn番目の要素を示す。
【0080】
そして、ITD検出部16は、例えば、平滑化の度合いを制御されたICCに基づいて、ITDを推定してよい。
【0081】
図7は、本実施の形態に係るITD推定処理の動作例を示すフローチャートである。なお、
図7に示すS11~S15の処理は、
図3に示すS11~S15の処理と同様である。
【0082】
図7において、ITD推定部10aは、例えば、ステレオ信号のLチャネル及びRチャネルのそれぞれのFFTスペクトルに基づいて、IPDスペクトルを計算する(S51)。
【0083】
ITD推定部10aは、例えば、IPDスペクトルに基づいて、一階差分を計算する(S52)。また、ITD推定部10aは、例えば、IPDスペクトルの一階差分に基づいて、低周波数帯域の一階差分の分散(例えば、VL)、及び、高周波数帯域の一階差分の分散(例えば、VH)を計算する(S53)。
【0084】
ITD推定部10aは、例えば、規定区間(例えば、連続する5フレーム)においてVL < Th1かつVH/VL > Th2の条件を満たすか否かを判断する(S54)。
【0085】
条件を満たす場合(S54:Yes)、ITD推定部10aは、ICCに対する平滑化を行わない(例えば、alpha=1の設定)、又は、ICCに対して弱平滑化(例えば、式(1)に基づくalphaの設定)を行う(S55)。その一方で、条件を満たさない場合(S54:No)、例えば、単一音源が移動する可能性が低い場合、ITD推定部10aは、SFMに基づいてICCを平滑化する(S14)。
【0086】
このように、本実施の形態によれば、ITD推定部10aは、単一音源移動検出部50を備え、ステレオ信号の単一音源の移動(ITDの時間変化)を検出する。ITD推定部10aは、例えば、ステレオ信号の単一音源の移動に関する情報(例えば、検出結果)に基づいて、ICCの複数のフレーム(区間)における平滑化を制御する。
【0087】
これにより、ITD推定部10aは、例えば、単一音源が移動する場合のITDの時間変化に対するロバスト性を向上できる。換言すると、ITD推定部10aは、例えば、移動する音源の追跡の精度(例えば、ITDの時間的追従性)を向上できる。よって、本実施の形態によれば、ステレオ信号の単一音源が移動する場合でも、ITDの推定精度を向上させ、符号化性能を向上できる。
【0088】
(実施の形態2)
本実施の形態に係るITD推定部10aは、例えば、単一音源移動検出部60の構成が実施の形態1と異なり、他の構成は、実施の形態1の構成と同様でよい。
【0089】
図8は、本実施の形態に係る単一音源移動検出部60の構成例を示すブロック図である。
図8に示す単一音源移動検出部60は、単一音源移動検出部50と同様の構成に加え、データ選択部61-1、及び、データ選択部61-2を備える。
【0090】
データ選択部61-1は、例えば、一階差分決定部53-1と分散決定部54-1との間に備えられてよい。データ選択部61-1は、例えば、低周波数帯域の一階差分から外れ値を除去して、データを選択してよい。
【0091】
外れ値の除去は、例えば、データ選択部61-1において選択されるデータ(例えば、IPDスペクトルの一階差分)の上限値及び下限値の設定(換言すると、境界の設定)により実現されてよい。例えば、データの上限値はDmean+π/2に設定され、データの下限値はDmean-π/2に設定されてよい。ここで、Dmeanは一階差分の平均値を示す。
【0092】
データ選択部61-2は、データ選択部61-1と同様に、例えば、一階差分決定部53-2と分散決定部54-2との間に備えられてよい。データ選択部61-2は、例えば、高周波数帯域の一階差分から外れ値を除去して、データを選択してよい。
【0093】
このように、単一音源移動検出部60は、例えば、IPDスペクトル(例えば、上述した例では、-0.75π~+0.75πの範囲)の一階差分の平均値Dmeanに基づいて、単一音源の移動(例えば、ITDの時間変化)の検出に用いる一階差分データを選択する。
【0094】
このデータ選択(又は、外れ値の除去)により、例えば、IPDスペクトルの一階差分(例えば、周波数領域におけるIPDの傾き成分)の精度を向上できるので、ITD推定部10aにおいて、単一音源が移動する場合のIPDスペクトルの形状の判定精度(例えば、単一音源の移動の検出精度)を向上できる。これにより、本実施の形態によれば、例えば、実施の形態1と比較して、ITDの推定精度を向上でき、符号化性能を向上できる。
【0095】
なお、本実施の形態において、単一音源移動検出部60は、例えば、データ選択部61-1及びデータ選択部61-2における一階差分のデータ選択の適用の有無を切り替えてもよい。
【0096】
以上、本開示の実施の形態について説明した。
【0097】
[平滑化制御の変形例]
例えば、平滑化制御は、SFM(又は、調性に関する情報)に基づいて行われてもよい。
【0098】
図9は、変形例に係るITD推定部10bの構成例を示すブロック図である。
図9に示すITD推定部10bは、例えば、実施の形態1に係るITD推定部10aの構成に加え、判定部71を備えてよい。なお、ITD推定部10bは、実施の形態1の単一音源移動検出部50を備えてもよく、実施の形態2の単一音源移動検出部60を備えてもよい。
【0099】
図9において、判定部71は、例えば、SFM決定部13から入力されるSFMに関する情報に基づいて、単一音源移動検出部50による平滑化制御(例えば、平滑化係数alphaの決定)を行うか否かを判定してよい。
【0100】
ここで、調性の弱いステレオ信号ほど、SFMは高くなる傾向があり、SFMによってICCが平滑化されにくい。このため、調性の弱いステレオ信号の場合のようにSFMが高い場合(例えば、SFMが閾値以上の場合)には、調性の強いステレオ信号の場合のようにSFMが低い場合(例えば、SFMが閾値未満の場合)と比較して、単一音源移動検出部50の平滑化制御によるITDの推定精度の向上効果は低い可能性がある。
【0101】
そこで、判定部71は、例えば、SFMが閾値以上の場合、単一音源移動検出部50による平滑化制御を実行しないことを決定してよい。この場合、単一音源移動検出部50は、例えば、SFM決定部13から出力されるSFMを平滑化係数に設定してよい(例えば、alpha=SMF)。
【0102】
その一方で、判定部71は、例えば、SFMが閾値未満の場合、単一音源移動検出部50による平滑化制御の実行を決定してよい。この場合、単一音源移動検出部50は、例えば、実施の形態1と同様に、単一音源の移動の検出に基づくICCの平滑化制御(例えば、平滑化係数alphaの決定)を行ってもよい。
【0103】
このように、SFMに基づく平滑化制御により、例えば、ステレオ信号の調性に応じて、単一音源の移動の検出に基づく平滑化制御の適用の有無(換言すると、平滑化制御をバイパスするか否か)を切り替えられる。したがって、例えば、平滑化制御の簡素化あるいは効率化を図ることができる。
【0104】
[低周波数帯域及び高周波数帯域の設定について]
例えば、単一音源が移動している場合には、IPDスペクトル(位相)のラップアラウンドが高周波において頻繁に発生する傾向がある。
【0105】
例えば、単一音源の移動を検出する際の低周波数帯域及び高周波数帯域の設定として、低周波数帯域及び高周波数帯域の双方に、ラップアラウンドが発生しやすい周波数帯と比較して低い周波数が選択されてよい。
【0106】
例えば、0~8kHzが低周波数帯域に設定され、8kHz~16kHzが高周波数帯域に設定されてよい。また、低周波数帯及び高周波数帯域のそれぞれの他の設定例として、0~2kHz及び2kHz~4kHz、0~3kHz及び3kHz~6kHz、又は、0~4kHz及び4kHz~8kHzでもよい。
【0107】
なお、低周波数帯及び高周波数帯域の設定は、これらの例に限定されず、他の設定値でもよい。
【0108】
また、例えば、低周波数帯と高周波数帯とには、それぞれ離れた周波数帯が設定されてもよく、一部が重複する周波数帯が設定されてもよく、それぞれの帯域幅が異なってもよい。
【0109】
また、例えば、低周波数帯域及び高周波数帯域の少なくとも一つの周波数帯域に関する設定(例えば、周波数位置及び帯域幅の少なくとも一つ)は可変でもよい。例えば、周波数帯域の設定は、ステレオ信号(例えば、音声信号又は音響信号)の種類、音源の位置、又は、信号における支配的な周波数帯域といった分析結果に基づいて決定(又は、変更)されてもよい。または、例えば、周波数帯域の設定は、IPDスペクトルの一階差分の平均値に基づいて決定されてもよい。
【0110】
以上、低周波数帯域及び高周波数帯域の設定の例について説明した。
【0111】
また、上述した各実施の形態では、ITD推定部10aは、チャネル間位相差(IPD)に基づいて、ステレオ信号の単一音源の移動を検出する場合について説明したが、ステレオ信号の単一音源の移動を検出する方法はこれに限定されず、他の方法によって単一音源の移動が検出されてもよい。
【0112】
以上、図面を参照しながら各種の実施形態について説明したが、本開示はかかる例に限定されないことは言うまでもない。また、上述した各実施の形態における各構成要素を任意に組み合わせてもよい。
【0113】
また、上述した実施の形態における「・・・部」という表記は、「・・・回路(circuitry)」、「・・・デバイス」、「・・・ユニット」、又は、「・・・モジュール」といった他の表記に置換されてもよい。
【0114】
本開示はソフトウェア、ハードウェア、又は、ハードウェアと連携したソフトウェアで実現することが可能である。上記実施の形態の説明に用いた各機能ブロックは、部分的に又は全体的に、集積回路であるLSIとして実現され、上記実施の形態で説明した各プロセスは、部分的に又は全体的に、一つのLSI又はLSIの組み合わせによって制御されてもよい。LSIは個々のチップから構成されてもよいし、機能ブロックの一部または全てを含むように一つのチップから構成されてもよい。LSIはデータの入力と出力を備えてもよい。LSIは、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
【0115】
集積回路化の手法はLSIに限るものではなく、専用回路、汎用プロセッサ又は専用プロセッサで実現してもよい。また、LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。本開示は、デジタル処理又はアナログ処理として実現されてもよい。
【0116】
さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
【0117】
本開示は、通信機能を持つあらゆる種類の装置、デバイス、システム(通信装置と総称)において実施可能である。通信装置は無線送受信機(トランシーバー)と処理/制御回路を含んでもよい。無線送受信機は受信部と送信部、またはそれらを機能として、含んでもよい。無線送受信機(送信部、受信部)は、RF(Radio Frequency)モジュールと1または複数のアンテナを含んでもよい。RFモジュールは、増幅器、RF変調器/復調器、またはそれらに類するものを含んでもよい。通信装置の、非限定的な例としては、電話機(携帯電話、スマートフォン等)、タブレット、パーソナル・コンピューター(PC)(ラップトップ、デスクトップ、ノートブック等)、カメラ(デジタル・スチル/ビデオ・カメラ等)、デジタル・プレーヤー(デジタル・オーディオ/ビデオ・プレーヤー等)、着用可能なデバイス(ウェアラブル・カメラ、スマートウオッチ、トラッキングデバイス等)、ゲーム・コンソール、デジタル・ブック・リーダー、テレヘルス・テレメディシン(遠隔ヘルスケア・メディシン処方)デバイス、通信機能付きの乗り物又は移動輸送機関(自動車、飛行機、船等)、及び上述の各種装置の組み合わせがあげられる。
【0118】
通信装置は、持ち運び可能又は移動可能なものに限定されず、持ち運びできない又は固定されている、あらゆる種類の装置、デバイス、システム、例えば、スマート・ホーム・デバイス(家電機器、照明機器、スマートメーター又は計測機器、コントロール・パネル等)、自動販売機、その他IoT(Internet of Things)ネットワーク上に存在し得るあらゆる「モノ(Things)」をも含む。
【0119】
通信には、セルラーシステム、無線LAN(Local Area Network)システム、通信衛星システム等によるデータ通信に加え、これらの組み合わせによるデータ通信も含まれる。
【0120】
また、通信装置には、本開示に記載される通信機能を実行する通信デバイスに接続又は連結される、コントローラやセンサー等のデバイスも含まれる。例えば、通信装置の通信機能を実行する通信デバイスが使用する制御信号やデータ信号を生成するような、コントローラやセンサーが含まれる。
【0121】
また、通信装置には、上記の非限定的な各種装置と通信を行う、あるいはこれら各種装置を制御する、インフラストラクチャ設備、例えば、基地局、アクセスポイント、その他あらゆる装置、デバイス、システムが含まれる。
【0122】
本開示の一実施例に係る信号処理装置は、ステレオ信号のチャネル間時間差の時間変化を検出する検出回路と、前記チャネル間時間差の時間変化に基づいて、チャネル間相関関数を平滑化する度合いを制御する制御回路と、具備する。
【0123】
本開示の一実施例において、前記平滑化の度合いを制御された前記チャネル間相関関数に基づいて、前記チャネル間時間差を推定する推定回路を更に備える。
【0124】
本開示の一実施例において、前記検出回路は、前記ステレオ信号の第1の帯域についてのチャネル間位相差の第1の分散と、前記ステレオ信号の第2の帯域についてのチャネル間位相差の第2の分散とに基づいて、前記チャネル間時間差の時間変化を検出する。
【0125】
本開示の一実施例において、前記制御回路は、前記第1の分散と前記第2の分散とが所定の条件を満たす場合に前記ステレオ信号の音源が単一で移動していると判断し、前記平滑化の度合いを、前記条件を満たさない場合の前記平滑化の度合いよりも弱める。
【0126】
本開示の一実施例において、前記前記平滑化の度合いを弱めることは、前記平滑化を実行しないことを含む。
【0127】
本開示の一実施例において、前記第2の帯域は、前記第1の帯域よりも高い帯域であり、前記条件は、前記第1の分散が第1閾値よりも小さく、かつ、前記第1の分散に対する前記第2の分散の比が第2閾値よりも大きい場合である。
【0128】
本開示の一実施例において、前記検出回路は、前記ステレオ信号のチャネル間位相差を-πから+πの範囲で正規化した場合の+π及び-πにそれぞれ相当するチャネル間位相差の情報を、前記チャネル間時間差の時間変化の検出に用いない。
【0129】
本開示の一実施例において、前記検出回路は、前記ステレオ信号のチャネル間位相差の一階差分の平均値に基づいて、前記チャネル間時間差の時間変化の検出に用いるチャネル間位相差の一階差分を選択する。
【0130】
本開示の一実施例に係る信号処理方法において、信号処理装置は、ステレオ信号のチャネル間時間差の時間変化を検出し、前記チャネル間時間差の時間変化に基づいて、チャネル間相関関数を平滑化する度合いを制御する。
【0131】
2021年1月18日出願の63/138,648の米国仮出願の開示内容、2021年1月25日出願の63/141,198の米国仮出願の開示内容、及び、2021年5月6日出願の特願2021-078567の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
【産業上の利用可能性】
【0132】
本開示の一実施例は、符号化システム等に有用である。
【符号の説明】
【0133】
10,10a,10b ITD推定部
11 FFT部
12 ICC決定部
13 SFM決定部
14 平滑化処理部
15 IFFT部
16 ITD検出部
50,60 単一音源移動検出部
51 IPD決定部
52,61 データ選択部
53 一階差分決定部
54 分散決定部
55 平滑化制御部
71 判定部