特許第6858836号(P6858836)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ テレフオンアクチーボラゲット エル エム エリクソン(パブル)の特許一覧

特許6858836チャネル間時間差パラメータの安定性を増加させるための方法および装置
<>
  • 特許6858836-チャネル間時間差パラメータの安定性を増加させるための方法および装置 図000024
  • 特許6858836-チャネル間時間差パラメータの安定性を増加させるための方法および装置 図000025
  • 特許6858836-チャネル間時間差パラメータの安定性を増加させるための方法および装置 図000026
  • 特許6858836-チャネル間時間差パラメータの安定性を増加させるための方法および装置 図000027
  • 特許6858836-チャネル間時間差パラメータの安定性を増加させるための方法および装置 図000028
  • 特許6858836-チャネル間時間差パラメータの安定性を増加させるための方法および装置 図000029
  • 特許6858836-チャネル間時間差パラメータの安定性を増加させるための方法および装置 図000030
  • 特許6858836-チャネル間時間差パラメータの安定性を増加させるための方法および装置 図000031
  • 特許6858836-チャネル間時間差パラメータの安定性を増加させるための方法および装置 図000032
  • 特許6858836-チャネル間時間差パラメータの安定性を増加させるための方法および装置 図000033
  • 特許6858836-チャネル間時間差パラメータの安定性を増加させるための方法および装置 図000034
  • 特許6858836-チャネル間時間差パラメータの安定性を増加させるための方法および装置 図000035
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6858836
(24)【登録日】2021年3月26日
(45)【発行日】2021年4月14日
(54)【発明の名称】チャネル間時間差パラメータの安定性を増加させるための方法および装置
(51)【国際特許分類】
   H04S 7/00 20060101AFI20210405BHJP
   G10L 19/008 20130101ALI20210405BHJP
   H04S 5/00 20060101ALI20210405BHJP
【FI】
   H04S7/00 300
   G10L19/008 100
   H04S5/00 500
【請求項の数】11
【外国語出願】
【全頁数】17
(21)【出願番号】特願2019-236198(P2019-236198)
(22)【出願日】2019年12月26日
(62)【分割の表示】特願2018-546695(P2018-546695)の分割
【原出願日】2017年3月8日
(65)【公開番号】特開2020-65283(P2020-65283A)
(43)【公開日】2020年4月23日
【審査請求日】2020年2月21日
(31)【優先権主張番号】62/305,683
(32)【優先日】2016年3月9日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】598036300
【氏名又は名称】テレフオンアクチーボラゲット エルエム エリクソン(パブル)
(74)【代理人】
【識別番号】100109726
【弁理士】
【氏名又は名称】園田 吉隆
(74)【代理人】
【識別番号】100161470
【弁理士】
【氏名又は名称】冨樫 義孝
(74)【代理人】
【識別番号】100194294
【弁理士】
【氏名又は名称】石岡 利康
(74)【代理人】
【識別番号】100194320
【弁理士】
【氏名又は名称】藤井 亮
(72)【発明者】
【氏名】ノーベル, エリク
(72)【発明者】
【氏名】ヤンソン トフゴード, トマス
【審査官】 齊田 寛史
(56)【参考文献】
【文献】 国際公開第2010/084756(WO,A1)
【文献】 特表2015−518176(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04S 7/00
G10L 19/008
H04S 5/00
(57)【特許請求の範囲】
【請求項1】
チャネル間時間差(ICTD)パラメータのための適応型ヒステリシスを決定するための方法であって、前記方法は、
CTDパラメータの安定性の長期推定値を取得するためにチャネル間相関(ICC)測度をフィルタリングすること(421)と、
信頼できるICTD推定値が取得され得ないとき、前に取得された信頼できるICTD推定値が使用されるステリシス期間を決定する(437)ために、前記安定性推定値(ICCLPを使用すること(433)と、
信頼できるICTD推定値がヒステリシス期間内に取得されない場合、ICTDを0に設定すること(439)と
を備える、方法。
【請求項2】
前記ヒステリシス期間が適応型である、請求項1に記載の方法。
【請求項3】
ICCLPを減少させるためにフレーム数を増加することが適用されるように、前記ヒステリシス期間が前記安定性の推定値に基づいている、請求項2に記載の方法。
【請求項4】
前記ヒステリシス期間NHOは、
として決定され、
HOmax、cおよびdは、所定の定数であり、ICCLP(m)は、フレームmについてのローパスフィルタ後のチャネル間相関である、
請求項1から3のいずれか一項に記載の方法。
【請求項5】
パラメトリックオーディオコーディングにおけるチャネル間時間差(ICTD)パラメータのための適応型ヒステリシスを決定するための装置(700)であって、前記装置が、
ICTDパラメータの安定性の長期推定値を取得するためにチャネル間相関(ICC)測度をフィルタリングするための手段(705、805)と、
信頼できるICTD推定値が取得され得ないとき、前に取得された信頼できるICTD推定値が使用されるヒステリシス期間を決定するために、前記安定性の推定値を使用するための手段(705、809)と、
信頼できるICTD推定値がヒステリシス期間内に取得されない場合、ICTDを0に設定するための手段(705、809)と、
を備える装置。
【請求項6】
前記ヒステリシス期間が適応型である、請求項5に記載の装置。
【請求項7】
ICCLPを減少させるために、フレーム数を増加することが適用されるように、前記ヒステリシス期間が前記安定性の推定値に基づいている、請求項6に記載の装置。
【請求項8】
前記ヒステリシス期間NHOは、
として決定され、
HOmax、cおよびdは、所定の定数であり、ICCLP(m)は、フレームmについてのローパスフィルタ後のチャネル間相関である、
請求項5から7のいずれか一項に記載の装置。
【請求項9】
更に、前記チャネル間相関測度、前記ICTD推定値及び前記ICTD推定値の有効性の指示を取得するための入力(701)を備える、
請求項5から8のいずれか一項に記載の装置。
【請求項10】
請求項5から9のいずれか一項に記載の装置を備える、マルチチャネルオーディオエンコーダ。
【請求項11】
少なくとも1つのプロセッサ上で実行されたとき、前記少なくとも1つのプロセッサに請求項1から4のいずれか一項に記載の方法を実行させる命令を備える、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、空間オーディオまたはステレオ信号のパラメトリックコーディングに関する。
【背景技術】
【0002】
空間オーディオまたは3Dオーディオは、様々な種類のマルチチャネルオーディオ信号を表示する一般定式化である。キャプチャ方法およびレンダリング方法に応じて、オーディオシーンが空間オーディオフォーマットによって表される。キャプチャ方法(マイクロフォン)によって規定される典型的な空間オーディオフォーマットは、たとえば、ステレオ、バイノーラル、アンビソニックなどとして表示される。空間オーディオレンダリングシステム(ヘッドフォンまたはラウドスピーカー)は、ステレオ(左および右チャネル2.0)またはより高度のマルチチャネルオーディオ信号(2.1、5.1、7.1など)を用いて空間オーディオシーンをレンダリングすることが可能である。
【0003】
そのようなオーディオ信号の送信および操作のための最近の技術は、エンドユーザがより高い空間品質をもつ向上されたオーディオ体感を有することを可能にし、しばしば、より良い了解度ならびに拡張現実を生じる。MPEGサラウンドまたはMPEG−H 3Dオーディオなど、空間オーディオコーディング技法は、インターネットを介したストリーミングなど、データレート制約アプリケーションに適合する、空間オーディオ信号のコンパクトな表現を生成する。しかしながら、空間オーディオ信号の送信は、データレート制約が強いときに制限され、したがって、空間オーディオ再生を向上させるために、復号されたオーディオチャネルの後処理も使用される。通常使用される技法は、たとえば、復号されたモノまたはステレオ信号をマルチチャネルオーディオ(5.1チャネルまたはそれ以上)にブラインドでアップミックスすることが可能である。
【0004】
空間オーディオシーンを効率的にレンダリングするために、空間オーディオコーディングおよび処理技術は、マルチチャネルオーディオ信号の空間特性を利用する。特に、空間オーディオキャプチャのチャネル間の時間差およびレベル差が、空間中の方向性音の我々の知覚を特徴づける両耳間キューを近似するために使用される。チャネル間時間差およびレベル差は、聴覚システムが検出することが可能であるもの(すなわち耳入口における両耳間時間差およびレベル差)の近似であるにすぎないので、知覚的側面からチャネル間時間差が関連することが極めて重要である。チャネル間時間差およびレベル差は、マルチチャネルオーディオ信号の方向成分をモデル化するために通常使用され、両耳間相互相関(IACC:inter−channel cross−correletion)をモデル化するチャネル間相互相関が、オーディオ画像の幅を特徴づけるために使用される。とりわけ、より低い周波数について、チャネル間位相差(ICPD)を用いてステレオ画像がモデル化されることもある。
【0005】
空間聴覚について関連するバイノーラルキューは、両耳間レベル差(ILD)、両耳間時間差(ITD)および両耳間コヒーレンスまたは相関(ICまたはIACC)と呼ばれることに留意されたい。一般的なマルチチャネル信号を考慮するとき、チャネルに関係する対応するキューは、チャネル間レベル差(ICLD)、チャネル間時間差(ICTD)およびチャネル間コヒーレンスまたは相関(ICC)である。以下の説明では、「チャネル間相互相関」、「チャネル間相関」および「チャネル間コヒーレンス」という用語は互換的に使用される。空間オーディオ処理は、大部分が、キャプチャされたオーディオチャネル上で動作するので、「C」は除外されることがあり、オーディオチャネルを指すとき、ITD、ILDおよびICという用語もしばしば使用される。図1は、これらのパラメータの説明を与える。図1では、5.1サラウンドシステム(5ディスクリート+1低周波数効果)を用いた空間オーディオ再生が示されている。ICTD、ICLDおよびICCなど、チャネル間パラメータは、空間中の音の人間の知覚をモデル化するITD、ILDおよびIACCを近似するために、オーディオチャネルから抽出される。
【0006】
図2では、パラメトリック空間オーディオ分析を採用する典型的なセットアップが示されている。図2は、パラメトリックステレオコーダ200の基本ブロック図を例示する。ステレオ信号ペアがステレオエンコーダ201に入力される。パラメータ抽出202がダウンミックスプロセスを助け、ここで、ダウンミキサ204が、モノエンコーダ206を用いて符号化されるべき2つの入力チャネルのシングルチャネル表現を準備する。すなわち、ステレオチャネルは、モノ信号207にダウンミックスされ、モノ信号207は、符号化され、空間画像を記述する符号化されたパラメータ205とともにデコーダ203に送信される。たいてい、ステレオパラメータのうちのいくつかは、等価矩形帯域幅(ERB:equivalent rectangular bandwidth)スケールなど、知覚周波数スケール上のスペクトルサブバンドにおいて表される。デコーダは、復号されたモノ信号と送信されたパラメータとに基づいてステレオ合成を実施する。すなわち、デコーダは、モノデコーダ210を使用してシングルチャネルを再構成し、パラメトリック表現を使用してステレオチャネルを合成する。復号されたモノ信号と受信された符号化されたパラメータとは、パラメータを復号し、復号されたパラメータを使用してステレオチャネルを合成し、合成ステレオ信号ペアを出力する、パラメトリック合成ユニット212またはプロセスに入力される。
【0007】
符号化されたパラメータは、人間の聴覚システムのために空間オーディオをレンダリングするために使用されるので、チャネル間パラメータが、最大化された知覚品質のために知覚考慮事項を用いて抽出され、符号化されることが重要である。
【発明の概要】
【0008】
ステレオおよびマルチチャネルオーディオ信号は、とりわけ、環境が雑音が多いかまたは残響があるとき、あるいは混合物の様々なオーディオ成分が時間および周波数において重複するとき、すなわち雑音が多い音声、音楽に重なった音声(speech over music)または同時話者など、モデル化することが困難な複合信号である。
【0009】
ICTDパラメータ推定が信頼できなくなるとき、オーディオシーンのパラメトリック表現は、不安定になり、不十分な空間レンダリング品質を与える。また、ICTD補償がダウンミックス段の一部としてしばしば行われるので、不安定な推定値は、符号化されるべき難しいおよび複雑なダウンミックス信号を与えることになる。
【0010】
実施形態の目的は、ICTDパラメータの安定性を増加させ、それにより、モノコーデックによって符号化されたダウンミックス信号とデコーダ中の空間オーディオレンダリングにおける知覚安定性の両方を改善することである。
【0011】
一態様によれば、少なくとも2つのチャネルを備えるマルチチャネルオーディオ入力信号が受信される、パラメトリックオーディオコーディングにおけるチャネル間時間差(ICTD)パラメータの安定性を増加させるための方法が提供される。本方法は、オーディオフレームmについてのICTD推定値(ICTDest(m))と、前記ICTD推定値の安定性推定値とを取得することと、取得されたICTD推定値(ICTDest(m))が有効であるかどうかを決定することとを備える。ICTDest(m)が有効と見られず、決定された十分な数の有効なICTD推定値が先行フレームにおいて見つかった場合、安定性推定値を使用してハングオーバ時間が決定される。ハングオーバ時間中に、前に取得された有効なICTDパラメータ(ICTD(m−1))が、出力パラメータ(ICTD(m))として選択される。有効なICTDest(m)がハングオーバ時間中に見つからない場合、出力パラメータ(ICTD(m))が0に設定される。
【0012】
別の態様によれば、パラメトリックオーディオコーディングのための装置が提供される。本装置は、少なくとも2つのチャネルを備えるマルチチャネルオーディオ入力信号を受信することと、オーディオフレームmについてのICTD推定値(ICTDest(m))を取得することとを行うように設定される。本装置は、取得されたICTD推定値(ICTDest(m))が有効であるかどうかを決定することと、前記ICTD推定値の安定性推定値を取得することとを行うように設定される。本装置は、ICTDest(m)が有効と見られず、決定された十分な数の有効なICTD推定値が先行フレームにおいて見つかった場合、安定性推定値を使用してハングオーバ時間を決定することと、ハングオーバ時間中に、前に取得された有効なICTDパラメータ(ICTD(m−1))を、出力パラメータ(ICTD(m))として選択することと、有効なICTDest(m)がハングオーバ時間中に見つからない場合、出力パラメータ(ICTD(m))を0に設定することとを行うようにさらに設定される。
【0013】
別の態様によれば、コンピュータプログラムが提供される。本コンピュータプログラムは、少なくとも1つのプロセッサ上で実行されたとき、少なくとも1つのプロセッサに、オーディオフレームmについてのICTD推定値(ICTDest(m))と、前記ICTD推定値の安定性推定値とを取得することと、取得されたICTD推定値(ICTDest(m))が有効であるかどうかを決定することとを実行させる命令を備える。ICTDest(m)が有効と見られず、決定された十分な数の有効なICTD推定値が先行フレームにおいて見つかった場合、安定性推定値を使用してハングオーバ時間を決定することと、ハングオーバ時間中に、前に取得された有効なICTDパラメータ(ICTD(m−1))を、出力パラメータ(ICTD(m))として選択することと、有効なICTDest(m)がハングオーバ時間中に見つからない場合、出力パラメータ(ICTD(m))を0に設定することと。
【0014】
別の態様によれば、方法は、ICC測度を平均化することによって、ICTDパラメータの安定性の長期推定値を取得することと、信頼できるICTD推定値が取得され得ないとき、前に取得された信頼できるICTD推定値が使用されるとき、ヒステリシス期間、またはハングオーバ時間を決定するために、この安定性推定値を使用することとを備える。信頼できるICTD推定値がヒステリシス期間内に取得されない場合、ICTDは0に設定される。
【0015】
本発明の例示的な実施形態のより完全な理解のために、次に、添付の図面とともに、以下の説明が参照される。
【図面の簡単な説明】
【0016】
図1】5.1サラウンドシステムを用いた空間オーディオ再生を例示する図である。
図2】パラメトリックステレオコーダの基本ブロック図である。
図3】純粋な遅延状況を例示する図である。
図4a】一実施形態による、ICTD/ICC処理のフローチャート図である。
図4b】一実施形態による、関連するICTDest(m)の分岐におけるICTD/ICC処理のフローチャート図である。
図4c】一実施形態による、関連しないICTDest(m)の分岐におけるICTD/ICC処理のフローチャート図である。
図5】一実施形態による、ハングオーバフレームの数を決定するためのマッピング関数を示す図である。
図6】一実施形態による、ITDハングオーバ論理がどのように適用されるかの一例を例示する図である。
図7】パラメータヒステリシスユニットの一例を例示する図である。
図8】パラメータヒステリシスユニットの別の例示的な図である。
図9】本明細書で説明される方法を実装するための装置を例示する図である。
図10】一実施形態による、パラメータヒステリシスユニットを例示する図である。
【発明を実施するための形態】
【0017】
本発明の例示的な実施形態およびそれの潜在的な利点は、図面の図1図10を参照することによって理解される。
【0018】
ICTDを推定することの従来のパラメトリック手法は、2つの波形x[n]とy[n]との間の類似度の測度である相互相関関数(CCF:cross−correlation function)rxyに依拠し、概して、時間領域において次のように規定される。
xy[n,τ]=E[x[n]y[n+τ]]、 (1)
ここで、τはタイムラグパラメータであり、E[・]は期待値演算子である。長さNの信号フレームの場合、相互相関は、典型的に次のように推定される。
【0019】
ICCは、従来、以下のように、信号エネルギーによって正規化されたCCFの最大値として取得される。
【0020】
ICCに対応するタイムラグτは、チャネルxとチャネルyとの間のICTDとして決定される。x[n]とy[n]とが信号フレームの外部で0であると仮定することによって、相互相関関数は、次のように、(離散周波数インデックスkをもつ)周波数スペクトルX[k]およびY[k]の相互スペクトルの関数として等価的に表現され得る。
xy[τ]=DFT−1(X[k]Y[k]) (4)
ここで、X[k]は時間領域信号x[n]の離散フーリエ変換(DFT)、すなわち、
であり、DFT−1(・)またはIDFT(・)は逆離散フーリエ変換を表示する。Y[k]はy(n)のDFTの複素共役である。
【0021】
y[n]が純粋にx[n]の遅延したバージョンである場合、相互相関関数は、以下によって与えられる。
ここで、*は畳み込みを表示し、δ(τ−τ)はクロネッカーデルタ関数であり、すなわち、τにおいて1に等しく、他の場合、0に等しい。これは、xとyとの間の相互相関関数が、x[n]についての自己相関関数との畳み込みによって拡散されたデルタ関数であることを意味する。
【0022】
いくつかの遅延成分をもつ信号フレーム、たとえばいくつかの話者の場合、信号間に存在する各遅延においてピークがあることになり、相互相関は以下になる。
xy[τ]=rxx[τ]*Σδ(τ−τ) (7)
【0023】
デルタ関数は、次いで、互いに拡散され、信号フレーム内のいくつかの遅延を識別することを困難にし得る。しかしながら、この拡散を有しない一般化相互相関(GCC:generalized cross−correlation)関数がある。GCCは、概して、次のように規定される。
ここで、ψ[k]は周波数重み付けである。とりわけ、空間オーディオの場合、位相変換(PHAT:phase transform)が、低雑音環境における反響のためのそれのロバストネスにより利用されている。
位相変換は、基本的に各周波数係数の絶対値であり、すなわち
【0024】
この重み付けは、それにより、各成分のパワーが等しくなるように相互スペクトルを白色化する。信号x[n]およびy[n]中の純粋な遅延および無相関雑音を用いて、位相変換されたGCC(GCC−PHAT)は、ちょうどクロネッカーデルタ関数δ(τ−τ)になり、すなわち
【0025】
図3は、純粋な遅延状況を例示する。上部プロットでは、純粋な遅延だけ異なるにすぎない2つの信号間の相互相関の例示が示されている。中間プロットは、2つの信号の相互相関関数(CCF)を示す。相互相関関数は、デルタ関数δ(τ−τ)との畳み込みによって変位させられたソースの自己相関に対応する。下部プロットは、純粋な遅延状況についてのデルタ関数をもたらす、入力信号のGCC−PHATを示す。
【0026】
本方法は、ICCの長期推定値に依存するハングオーバ期間とも呼ばれる適応型ハングオーバ時間に基づく。本方法の一実施形態では、ICTDパラメータの安定性の長期推定値が、ICC測度を平均化することによって取得される。信頼できる推定値が取得され得ないとき、前に取得された信頼できる推定値が使用される、ヒステリシス期間、またはハングオーバ時間を決定するために、安定性推定値が使用される。信頼できる推定値がヒステリシス期間内に取得されない場合、ICTDは0に設定される。
【0027】
2つまたはそれ以上のオーディオチャネルからなるオーディオ入力のための空間表現パラメータを取得するために指定されるシステムを考慮すること。各チャネルは、時間フレームmにセグメント化される。マルチチャネル手法の場合、空間パラメータが、典型的に、チャネルペアのために取得され、ステレオセットアップの場合、このペアは、単に左および右チャネルである。以下、空間パラメータは、単一のチャネルペアx[n,m]およびy[n,m]のための空間パラメータに焦点が当てられ、ここで、nはサンプル番号を表示し、mはフレーム番号を表示する。
【0028】
相互相関測度とICTD推定値とが、各フレームmについて取得される。現在フレームのためのICC(m)およびICTDest(m)が取得された後、ICTDest(m)が有効である、すなわち関連する/有用である/信頼できるか否かの判定が行われる。
【0029】
ICTDが有効と見られる場合、ICCのピークエンベロープの推定値を取得するために、ICCがフィルタ処理される。出力ICTDパラメータICTD(m)が、有効な推定値ICTDest(m)に設定される。以下では、「ICTD測度」、「ICTDパラメータ」および「ICTD値」という用語は、ICTD(m)のために互換的に使用される。さらに、ハングオーバカウンタNHOが、無ハングオーバ状態を指示するために0に設定される。
【0030】
ICTDが有効と見られない場合、十分な数の有効なICTD測定値が先行フレームにおいて見つかったかどうか、すなわちICTD_count=ICTD_maxcountであるかどうかが決定される。十分な数の有効なICTD測定値が先行フレームにおいて見つかった場合、ヒステリシス期間、またはハングオーバ時間が計算される。ICTDcount<ICTDmaxcountである場合、不十分な数の連続するICTD推定値が過去のフレームにおいて登録されたか、または現在状態がハングオーバ状態である。次いで、現在状態がハングオーバ状態であるかどうかが決定される。現在状態がハングオーバ状態でない場合、ICTD(m)は0に設定される。現在状態がハングオーバ状態である場合、前のICTD値が選択されることになる、すなわちICTD(m)=ICTD(m−1)。
【0031】
ICTD/ICC処理の概略的なステップが図4aに例示されている。内部状態/メモリが、この方法を容易にするために維持され得る。最初に、ブロック401において、ICCの長期推定値(ICCLP(m))が0に初期化される。カウンタNHOは、使用されるべきハングオーバフレームの数を追跡し、カウンタICTDcountは、連続的に観測される有効なICTD値の数を維持するために使用される。両方のカウンタは、0に初期化され得る。離散フレームカウンタを用いた実現は、適応型ヒステリシスを実装するための単なる一例であることに留意されたい。たとえば、実数値カウンタ、浮動小数点カウンタまたは小数時間カウンタも使用され得、適応型増分/減分も小数値を仮定し得る。
【0032】
図4aに例示されているように、処理ステップが各フレームmについて繰り返される。フレームmの入力波形信号x[n,m]およびy[n,m]が与えられれば、ブロック403において、相互相関測度が取得される。この実施形態では、位相変換を用いた一般化相互相関
が使用される。
【0033】
正規化された相互相関関数のピークなど、他の測度も使用され得る、すなわち
【0034】
さらに、ブロック405において、ICTD推定値(ICTDest(m))が取得される。好ましくは、ICCおよびICTDのための推定値は、最小量の計算力を消費するために同じ相互相関方法を使用して取得されることになる。相互相関を最大化するτが、ICTD推定値として選択され得る。ここで、GCC PHATが使用される。
【0035】
典型的には、τのための探索範囲は、表される必要があるICTDの範囲に限定されることになるが、相関算出のために使用されるオーディオフレームの長さおよび/またはDFTの長さによっても制限される(式(5)中のN参照)。これは、オーディオフレーム長およびDFT解析ウィンドウが、表される必要がある最長時間差τmaxに適応するのに十分に長い必要があることを意味し、これは、N>2τmaxであることを意味する。一例として、1.5メートルのマイクロフォンのペア間の距離を表す能力について、音速が340m/sであることを仮定し、32000個のサンプル/秒のサンプルレートを使用すると、探索範囲は、[−τmax,τmax]であることになり、ここで、
【0036】
現在フレームのためのICC(m)およびICTDest(m)が取得された後、ブロック407において、ICTDest(m)が有効であるか否かの判定が行われる。これは、ICC(m)>ICCthres(m)が、ICTDが有効であることを意味するような、相互相関関数、たとえば、
またはrxy[τ,m]に基づいて、相互相関関数の相対ピーク振幅をしきい値ICCthres(m)と比較することによって行われ得る。
Valid(ICTDest(m))=ICC(m)>ICCthres(m) (15)
【0037】
そのようなしきい値は、たとえば、相互相関関数の標準偏差推定値を乗算された定数Cthresによって形成され得、ここで、好適な値はCthres=5であり得る。
【0038】
別の方法は、探索範囲をソートし、たとえば定数を乗算された95パーセンタイルにおける値を使用することである。
ここで、sort()は入力ベクトルを昇順でソートする関数である。
【0039】
ICTDが有効と見られる場合、図4bで概説される、ブロック409のステップが行われる。最初に、ブロック421において、ICCのピークエンベロープの推定値を取得するために、ICCがフィルタ処理される。これは、フィルタ係数(忘却/更新ファクタ)が、最後のフィルタ処理されたICC値に対する現在のICC値に依存する、1次IIRフィルタを使用して行われ得る。
【0040】
α∈[0,1]が相対的に高く設定され(たとえばα=0.9)、α∈[0,1]が相対的に低く設定される(たとえばα=0.1)場合、フィルタ処理演算は、信号のエンベロープを形成するICCのピーク値に追従する傾向がある。動機づけは、ICCが低レベルに低下した状況になったとき、(ただ、低いICCへの遷移における最後の少数の値を指示するのではなく)最後の最高ICCの推定値を有することである。カウンタICTD_countは、連続する有効なICTDの数を追跡するために増分される。次いで、ブロック423においてICTD_maxcountが超えられたと決定された場合、またはシステムが現在ICTDハングオーバ状態にあり、およびNHO>0である場合、ブロック425において、ICTD_countはICTD_maxcountに設定される。前者の基準は、カウンタが、限られた精度の整数においてラップアラウンドすることを防ぐためにある。後者の基準は、有効なICTDがハングオーバ期間中に見つかったというイベントをキャプチャすることになる。ICTD_countをICTD_maxcountに設定することは、新しいハングオーバ期間をトリガすることになり、これは、この場合望ましいことがある。最終的に、ブロック427において、出力ICTD測度ICTD(m)は、有効な推定値ICTDest(m)に設定される。また、ハングオーバカウンタNHOは、現在状態がハングオーバ状態でないことを指示するために0に設定される。
【0041】
ICTDが有効と見られない場合、図4cにおいて概説される、ブロック411のステップが実施されることになる。十分な数の有効なICTD測定値が先行フレームにおいて見つかり、これがブロック431において決定された場合、ブロック433において、ヒステリシス期間、またはハングオーバ時間が計算される。この例示的な実施形態では、十分な数の有効なICTD測定値は、ICTD_count=ICTD_maxcountであるときに達せられる。ここで、ICTD_maxcount=2であり、これは、2つの連続する有効なICTD測定値が、ハングオーバ論理をトリガするのに十分であることを意味する。3、4または5など、より高いICTD_maxcountも可能であることになる。これは、有効なICTD測定値のより長いシーケンスが取得されたときのみ、使用されるべきハングオーバ論理をさらに制限することになる。
【0042】
ハングオーバ時間NHOは、適応型であり、ICCに依存し、したがって、最近のICC推定値が低かった(低いICCLP(m)に対応する)場合、ハングオーバ時間は長くなるべきであり、その逆も同様である。すなわち、ICCLP(m):=ICCLP(m−1)および
ここで、定数NHOmax、cおよびdは、たとえば、
に設定され得、
は、最も近い整数に切り詰める/切り捨てる床関数を表示する。max()関数およびmin()関数は両方とも、2つの引数をとり、それぞれ、最大引数および最小引数を返す。この関数の例示が、図5において参照され得る。図5は、信頼できるICTDが抽出され得ないときのフレームのためにサンプリングされる、ローパスフィルタ処理されたチャネル間相関ICCLP(m)を前提とする、ハングオーバフレームNHOの数を決定する、マッピング関数NHO=g(ICCLP(m))を例示する。図5に例示されているように、これは、ICCLP(m)<bの場合、NHOmax=6のハングオーバフレームを割り当て、ICCLP(m)>aの場合、0個のハングオーバフレームを割り当てる、線形減少関数である。b<ICCLP(m)<aの場合、ICCLP(m)を減少させるために増加する数のフレームを用いてハングオーバが適用される。点線は、床/切り捨て演算なしの関数を表す。aのための好適な値はa=0.6であると見られたが、たとえば、範囲[0.5,1)が考慮され得る。対応して、bの場合、好適な値はb=0.3であると見られたが、範囲(0,a)が考慮され得る。
【0043】
概して、相関を示す任意のパラメータ、すなわちチャネル間のコヒーレンスまたは類似度が、制御パラメータICC(m)として使用され得るが、式(22)において説明されたマッピング関数は、低/高相関事例について好適な数のハングオーバフレームを与えるように適応されなければならない。実験的に、低相関状況は、約3〜8個のフレームのハングオーバを与えるべきであり、高相関事例は、0個のフレームのハングオーバを与えるべきである。
【0044】
ICTDcount<ICTDmaxcountである場合、これは、不十分な数の連続するICTD推定値が過去のフレームにおいて登録されたこと、または現在状態がハングオーバ状態であることのいずれかを意味する。ブロック435において、NHO>0であるかどうかが決定される。NHO=0である場合、ブロック439において、ICTD(m)は0に設定される。一方、NHO>0である場合、現在状態はハングオーバ状態であり、ブロック437において、前のICTD値が選択されることになり、すなわちICTD(m)=ICTD(m−1)である。この場合、ハングオーバカウンタも減分され、NHO:=NHO−1である。(代入演算子「:=」は、NHOの古い値が新しい値を用いて上書きされることを示すために使用される。)最終的に、ブロック440において、ICTD_countおよびICCLP(m)が0に設定される。
【0045】
図6は、ITDハングオーバ論理が、雑音が多い音声セグメントおよび後続するクリーンな音声セグメント上でどのように適用されるかを例示する。雑音が多い音声セグメントは、ICTD推定値がもはや有効でないとき、ITDハングオーバフレームをトリガする。クリーンな音声セグメントではハングオーバフレームは追加されない。上部プロットは、オーディオ入力チャネル、この場合ステレオ録音の左および右を示す。第2のプロットは、例示的なファイルのICC(m)およびICCLP(m)を示し、下部プロットは、ITDハングオーバカウンタNHOを示す。低相関について、ファイルの始まりにおける雑音が多い音声セグメント中に、ITDハングオーバフレームをトリガするが、クリーンな音声セグメントは、ハングオーバフレームをトリガしないことがわかる。
【0046】
ここで説明される方法は、マイクロプロセッサにおいてまたはコンピュータ上に実装され得る。方法はまた、図7に示されているように、パラメータヒステリシス/ハングオーバ論理ユニット中のハードウェアにおいて実装され得る。図7は、入力パラメータとしてICTDest(m)、ICC(m)およびValid(ICTDest(m))をとるパラメータヒステリシスユニット700を示す。説明される方法に従って適応パラメータヒステリシスユニット705によって入力パラメータを処理した後、最終パラメータは、ICTDest(m)が有効であるか否かの判定である。出力パラメータは、選択されたICTD(m)である。パラメータヒステリシスユニットの入力701が、図2に示されているパラメータ抽出ユニット202に通信可能に結合され得、パラメータヒステリシスユニットの出力703が、図2に示されているパラメータエンコーダ208に通信可能に結合され得る。代替的に、パラメータヒステリシスユニットは、図2に示されているパラメータ抽出ユニット202中に備えられ得る。
【0047】
図8は、パラメータヒステリシスユニット、またはハングオーバ論理ユニット700をより詳細に説明する。入力パラメータICTDest(m)、ICC(m)、およびValid(ICTDest(m))は、好ましくは、相関推定器801によって実施される、同じ相互相関分析rxy(τ)、たとえば
から、それぞれ、ICTD推定器802、ICC推定器804およびICTD検証機806によって生成される。ただし、ICTD推定から分離されたICC測度を有することの利益があり得る。さらに、説明された方法は、ICTDパラメータが有効である(すなわち信頼できる)かどうかを判定する一定の方法を暗示せず、パラメータの有効性についての2値(はい/いいえ)判定を示す任意の測度を用いて実装され得る。さらに図8では、ICC推定値は、好ましくはICCのピークに追従するように調整された、ICCの長期推定値を形成するように、ICCフィルタ805によってフィルタ処理される。ICTDカウンタ807は、連続する有効なICTD推定値の数ICTD_count、ならびにハングオーバ状態におけるハングオーバフレームの数NHOを追跡する。ICTDメモリ803は、ヒステリシスユニットから最後に出力されたICTD判定を思い出す。最終的に、ICTDセレクタ809は、入力ICCLP(m)、ICTD_countおよびNHOをとり、ICTDest(m)、ICTD(m−1)または0のいずれかをICTDパラメータICTD(m)として選択する。
【0048】
図9は、図4a〜図4cに例示されている方法を実施する装置の一例を示す。装置900は、プロセッサ910、たとえば中央処理ユニット(CPU)と、命令、たとえばコンピュータプログラム930を記憶するためのメモリの形態のコンピュータプログラム製品920とを備え、命令は、メモリから取り出され、プロセッサ910によって実行されるとき、装置900に、本適応パラメータヒステリシス処理の実施形態と関係があるプロセスを実施させる。プロセッサ910は、メモリ920に通信可能に結合される。装置は、入力パラメータを受信するための入力ノードと、処理されたパラメータを出力するための出力ノードとをさらに備え得る。入力ノードと出力ノードの両方は、プロセッサ910に通信可能に結合される。
【0049】
例として、ソフトウェアまたはコンピュータプログラム930は、通常、コンピュータ可読媒体、好ましくは不揮発性コンピュータ可読記憶媒体上で担持されるかまたはその上に記憶される、コンピュータプログラム製品として実現され得る。コンピュータ可読媒体は、限定はしないが、読取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、コンパクトディスク(CD)、デジタル多用途ディスク(DVD)、ブルーレイディスク、ユニバーサルシリアルバス(USB)メモリ、ハードディスクドライブ(HDD)ストレージデバイス、フラッシュメモリ、磁気テープ、または他の従来のメモリデバイスを含む、1つまたは複数のリムーバブルまたは非リムーバブルメモリデバイスを含み得る。
【0050】
図10は、図7および図8に例示されているパラメータヒステリシスユニットを備えるデバイス1000を示す。デバイスは、エンコーダ、たとえば、オーディオエンコーダであり得る。入力信号は、ステレオまたはマルチチャネルオーディオ信号である。出力信号は、空間画像を記述する符号化されたパラメータをもつ符号化されたモノ信号である。デバイスは、出力信号をオーディオデコーダに送信するための送信機(図示せず)をさらに備え得る。デバイスは、図2に示されているように、ダウンミキサおよびパラメータ抽出ユニット/モジュール、ならびにモノエンコーダおよびパラメータエンコーダをさらに備え得る。
【0051】
一実施形態では、デバイスは、相互相関測度とICTD推定値とを取得するための取得ユニットと、ICTDest(m)が有効であるか否かを判定するための判定ユニットとを備える。デバイスは、ICCのピークエンベロープの推定値を取得するための取得ユニットと、十分な数の有効なICTD測定値が先行するフレームにおいて見つかったかどうかを決定することと、現在状態がハングオーバ状態であるかどうかを決定することとを行うための決定ユニットとをさらに備える。デバイスは、ICTD測度を出力するための出力ユニットをさらに備える。
【0052】
本発明の実施形態によれば、パラメトリックオーディオコーディングにおけるチャネル間時間差(ICTD)パラメータの安定性を増加させるための方法は、少なくとも2つのチャネルを備えるマルチチャネルオーディオ入力信号を受信することを備える。
オーディオフレームmについてのICTD推定値(ICTDest(m))を取得することと、取得されたICTD推定値(ICTDest(m))が有効であるかどうかを決定することと、前記ICTD推定値の安定性推定値を取得することと。ICTDest(m)が有効と見られず、決定された十分な数の有効なICTD推定値が先行フレームにおいて見つかった場合、安定性推定値を使用してハングオーバ時間を決定することと、ハングオーバ時間中に、前に取得された有効なICTDパラメータ(ICTD(m−1))を、出力パラメータ(ICTD(m))として選択することと、有効なICTDest(m)がハングオーバ時間中に見つからない場合、出力パラメータ(ICTD(m))を0に設定することと。
【0053】
一実施形態では、安定性推定値は、オーディオフレームmについてのチャネルペア間のチャネル間相関(ICC)測度である。
【0054】
一実施形態では、安定性推定値は、ローパスフィルタ処理されたチャネル間相関(ICCLP(m))である。
【0055】
一実施形態では、安定性推定値は、ICC測度(ICC(m))を平均化することによって計算される。
【0056】
一実施形態では、ハングオーバ時間は適応型である。たとえば、ICCLP(m)を減少させるために増加する数のフレームを用いてハングオーバが適用される。
【0057】
一実施形態では、位相変換を用いた一般化相互相関が、フレームmについてのICC測度を取得するために使用される。
【0058】
一実施形態では、チャネル間相関測度(ICC(m))がしきい値ICCthres(m)よりも大きい場合、ICTDest(m)が有効であると決定される。
【0059】
たとえば、取得されたICTD推定値(ICTDest(m))の有効性が、相互相関関数に基づいて、相互相関関数の相対ピーク振幅をしきい値(ICCthres(m))と比較することによって決定される。ICCthres(m)は、フレームmについての相互相関値の順序セット中の所定の位置における相互相関の値を乗算された定数によって形成され得る。
【0060】
一実施形態では、有効なICTD推定値の十分な数は2である。
【0061】
本発明の実施形態は、ソフトウェア、ハードウェア、アプリケーション論理またはソフトウェア、ハードウェアおよびアプリケーション論理の組合せで実装され得る。ソフトウェア、アプリケーション論理および/またはハードウェアは、メモリ、マイクロプロセッサまたは中央処理ユニット上に存在し得る。所望される場合、ソフトウェア、アプリケーション論理および/またはハードウェアの一部は、ホストデバイス上またはホストのメモリ、マイクロプロセッサまたは中央処理ユニット上に存在し得る。例示的な一実施形態では、アプリケーション論理、ソフトウェアまたは命令セットは、様々な従来のコンピュータ可読媒体のうちのいずれか1つ上に維持される。
【0062】
略語
ICC チャネル間相関
IC 両耳間コヒーレンス、同じく、IACC 両耳間相互相関のための
ICTD チャネル間時間差
ITD 両耳間時間差
ICLD チャネル間レベル差
ILD 両耳間レベル差
ICPD チャネル間位相差
IPD 両耳間位相差
図1
図2
図3
図4a
図4b
図4c
図5
図6
図7
図8
図9
図10