(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022078172
(43)【公開日】2022-05-24
(54)【発明の名称】アップミキシングバイノーラル化を用いたステレオ信号からバイノーラル信号を生成する方法及びそのための装置
(51)【国際特許分類】
H04S 7/00 20060101AFI20220517BHJP
【FI】
H04S7/00 300
【審査請求】有
【請求項の数】16
【出願形態】OL
(21)【出願番号】P 2022030964
(22)【出願日】2022-03-01
(62)【分割の表示】P 2020155423の分割
【原出願日】2020-09-16
(31)【優先権主張番号】10-2019-0113428
(32)【優先日】2019-09-16
(33)【優先権主張国・地域又は機関】KR
(31)【優先権主張番号】10-2019-0123839
(32)【優先日】2019-10-07
(33)【優先権主張国・地域又は機関】KR
(71)【出願人】
【識別番号】518449353
【氏名又は名称】ガウディオ・ラボ・インコーポレイテッド
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】サンペ・チョン
(72)【発明者】
【氏名】ビョンジュン・アン
(72)【発明者】
【氏名】ジェスン・チェ
(72)【発明者】
【氏名】ヒョンオ・オ
(72)【発明者】
【氏名】ジョンフン・ソ
(72)【発明者】
【氏名】テギュ・イ
(57)【要約】 (修正有)
【課題】アップミキシングとバイノーラルレンダリングが効率よく結合されたoverlap-and-addを提供する。
【解決手段】方法は、仮想スピーカーレイアウトを受信するステップと、複数の仮想スピーカーの信号の夫々について周波数領域上で同側信号を取得するステップと、複数の仮想スピーカーの信号の夫々について周波数領域上で反側信号を取得するステップと、ミキシングされた同側信号を取得するステップと、複数のミキシングされた反側信号を取得するステップと、ミキシングされた同側信号を変換することによって時間領域上で同側信号を取得するステップと、複数のミキシングされた反側信号を変換することによって時間領域上で複数の反側信号を取得するステップと、時間領域上での同側信号及び時間領域上での複数の反側信号に基づいてバイノーラル信号を取得するステップと、を備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
オーディオ信号処理方法において、
ステレオ信号を受信するステップ;
前記ステレオ信号を周波数領域上の信号に変換するステップ;
前記周波数領域上の信号を、前記周波数領域上の信号の各チャンネル間相関度(correlation)及び各チャンネル間エネルギー割合(Inter-Channel Level Difference、ICLD)に基づいて第1信号と第2信号とに分離するステップ、
前記第1信号は前記周波数領域上の信号の正面成分を含み、前記第2信号は前記周波数領域上の信号の側面成分を含み;
第1同側フィルタ係数に基づいて前記第1信号をレンダリングし、前記周波数領域上の信号に対する正面同側信号を生成するステップ、
前記第1同側フィルタ係数は第1のHRIR(Head Related Impulse Response)の同側応答信号に基づいて生成され;
第2同側フィルタ係数に基づいて前記第2信号をレンダリングし、前記周波数領域上の信号に対する側面同側信号を生成するステップ、
前記第2同側フィルタ係数は第2のHRIRの同側応答信号に基づいて生成され;
反側フィルタ係数に基づいて前記第2信号をレンダリングし、前記周波数領域上の信号に対する側面反側信号を生成するステップ、
前記反側フィルタ係数は前記第2のHRIRの反側応答信号に基づいて生成され;
前記正面同側信号及び前記側面同側信号をミキシングして生成された同側信号及び前記側面反側信号を時間領域上の信号である時間領域同側信号及び時間領域反側信号に各々変換するステップ;及び
前記時間領域同側信号及び前記時間領域反側信号をミキシングしてバイノーラル信号を生成するステップ;を含み、
前記バイノーラル信号は前記時間領域反側信号に両耳時間差(Interaural Time Delay、ITD)を考慮して生成され、
前記第1同側フィルタ係数、前記第2同側フィルタ係数、及び前記反側フィルタ係数は実数値であることを特徴とする、オーディオ信号処理方法。
【請求項2】
前記第1信号の左チャンネル信号と前記第2信号の左チャンネル信号との合は、前記ステレオ信号の左チャンネル信号と同一であることを特徴とする、請求項1に記載のオーディオ信号処理方法。
【請求項3】
前記第1信号の右チャンネル信号と前記第2信号の右チャンネル信号との合は、前記ステレオ信号の右チャンネル信号と同一であることを特徴とする、請求項1に記載のオーディオ信号処理方法。
【請求項4】
前記第1信号の左チャンネル信号のエネルギーと前記第1信号の右チャンネル信号のエネルギーは互いに同一であることを特徴とする、請求項1に記載のオーディオ信号処理方法。
【請求項5】
前記HRIRの同側特性はITDを考慮したHRIRの反側特性が適用されることを特徴とする、請求項1に記載のオーディオ信号処理方法。
【請求項6】
前記ITDは1ms以下であることを特徴とする、請求項1に記載のオーディオ信号処理方法。
【請求項7】
前記第1信号の左チャンネル信号の位相と前記正面同側信号の左チャンネル信号の位相は同一であり、
前記第1信号の右チャンネル信号の位相と前記正面同側信号の右チャンネル信号の位相は同一であり、
前記第2信号の左チャンネル信号の位相、前記側面同側信号の左-側面信号の位相、及び前記側面反側信号の左-側面信号の位相は同一であり、
前記第2信号の右チャンネル信号の位相、前記側面同側信号の右-側面信号の位相、前記側面反側信号の右-側面信号の位相は同一であることを特徴とする、請求項1に記載のオーディオ信号処理方法。
【請求項8】
前記正面同側信号及び前記側面同側信号をミキシングして生成された同側信号及び前記側面反側信号を時間領域上の信号である時間領域同側信号及び時間領域反側信号に各々変換するステップは、
前記正面同側信号及び前記側面同側信号を左、右チャンネル別に各々ミキシングして生成された左-同側信号及び右-同側信号の各々を時間領域上の信号である時間領域左-同側信号及び時間領域右-同側信号に変換するステップ;
前記側面反側信号を左、右チャンネル別に各々時間領域上の信号である左-側面反側信号及び右-側面反側信号に変換するステップ;であり、
前記バイノーラル信号は、前記時間領域左-同側信号及び時間領域左-側面反側信号をミキシングし、前記時間領域右-同側信号及び時間領域右-側面反側信号をミキシングして生成されることを特徴とする、請求項1に記載のオーディオ信号処理方法。
【請求項9】
オーディオ信号処理装置において、
ステレオ信号を受信する入力端;及び
レンダラーを含むプロセッサを含み、
前記プロセッサは、
前記ステレオ信号を周波数領域上の信号に変換し、
前記周波数領域上の信号を、前記周波数領域上の信号の各チャンネル間相関度(correlation)及び各チャンネル間エネルギー割合(Inter-Channel Level Difference、ICLD)に基づいて第1信号と第2信号に分離し、
前記第1信号は、前記周波数領域上の信号の正面成分を含み、前記第2信号は、前記周波数領域上の信号の側面成分を含み、
第1同側フィルタ係数に基づいて前記第1信号をレンダリングし、前記周波数領域上の信号に対する正面同側信号を生成し、
前記第1同側フィルタ係数は第1のHRIR(Head Related Impulse Response)の同側応答信号に基づいて生成され、
第2同側フィルタ係数に基づいて前記第2信号をレンダリングし、前記周波数領域上の信号に対する側面同側信号を生成し、
前記第2同側フィルタ係数は第2のHRIRの同側応答信号に基づいて生成され、
反側フィルタ係数に基づいて前記第2信号をレンダリングし、前記周波数領域上の信号に対する側面反側信号を生成し、
前記反側フィルタ係数は前記第2のHRIRの反側応答信号に基づいて生成され、
前記正面同側信号及び前記側面同側信号をミキシングして生成された同側信号及び前記側面反側信号を時間領域上の信号である時間領域同側信号及び時間領域反側信号に各々変換し、
前記時間領域同側信号及び前記時間領域反側信号をミキシングしてバイノーラル信号を生成し、
前記バイノーラル信号は前記時間領域反側信号に両耳時間差(Interaural Time Delay、ITD)を考慮して生成され、
前記第1同側フィルタ係数、前記第2同側フィルタ係数、及び前記反側フィルタ係数は実数値であることを特徴とする、オーディオ信号処理装置。
【請求項10】
前記第1信号の左チャンネル信号と前記第2信号の左チャンネル信号との合は前記ステレオ信号の左チャンネル信号と同一であることを特徴とする、請求項9に記載のオーディオ信号処理装置。
【請求項11】
前記第1信号の右チャンネル信号と前記第2信号の右チャンネル信号との合は前記ステレオ信号の右チャンネル信号と同一であることを特徴とする、請求項9に記載のオーディオ信号処理装置。
【請求項12】
前記第1信号の左チャンネル信号のエネルギーと前記第1信号の右チャンネル信号のエネルギーは互いに同一であることを特徴とする、請求項9に記載のオーディオ信号処理装置。
【請求項13】
前記HRIRの同側特性はITDを考慮したHRIRの反側特性が適用されることを特徴とする、請求項9に記載のオーディオ信号処理装置。
【請求項14】
前記ITDは1ms以下であることを特徴とする、請求項9に記載のオーディオ信号処理装置。
【請求項15】
前記第1信号の左チャンネル信号の位相と前記正面同側信号の左チャンネル信号位相は同一であり、
前記第1信号の右チャンネル信号の位相と前記正面同側信号の右チャンネル信号の位相は同一であり、
前記第2信号の左チャンネル信号の位相、前記側面同側信号の左-側面信号の位相、及び前記側面反側信号の左-側面信号の位相は同一であり、
前記第2信号の右チャンネル信号の位相、前記側面同側信号の右-側面信号の位相、前記側面反側信号の右-側面信号の位相は同一であることを特徴とする、請求項9に記載のオーディオ信号処理装置。
【請求項16】
前記プロセッサが、前記正面同側信号及び前記側面同側信号をミキシングして生成された同側信号及び前記側面反側信号を時間領域上の信号である時間領域同側信号及び時間領域反側信号に各々変換することは、
前記正面同側信号及び前記側面同側信号を左、右チャンネル別に各々ミキシングして生成された左-同側信号及び右-同側信号の各々を時間領域上の信号である時間領域左-同側信号及び時間領域右-同側信号に変換し、
前記側面反側信号を左、右チャンネル別に各々時間領域上の信号である左-側面反側信号及び右-側面反側信号に変換するのであり、
前記バイノーラル信号は、前記時間領域左-同側信号及び時間領域左-側面反側信号をミキシングし、前記時間領域右-同側信号及び時間領域右-側面反側信号をミキシングして生成されることを特徴とする、請求項9に記載のオーディオ信号処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明はオーディオ信号を効果的に転送及び再生するための信号処理方法及び装置に関し、より詳しくは、放送、ストリーミングなどのオーディオが含まれたメディアサービスを用いるユーザに一層空間感の高いオーディオ信号を提供するためのオーディオ信号処理方法及び装置に関する。
【背景技術】
【0002】
5.1チャンネルのような多チャンネルオーディオフォーマットが登場した以後、多チャンネルオーディオ信号を通じてより実感がわき、現場感のある音響を提供するコンテンツはメディア市場の主流媒体として認識される。既に劇場では既存の5.1チャンネル基盤サウンドシステムを超えて客体を活用したDolby Atmoのような形態のコンテンツ及び再現システムが多く見られて、家電の場合にも既存のディスク形態であるDVDやBluray Discにある多チャンネルコンテンツをホームシアターのような機器で充実に再現することを超えて、サウンドバー(Sound bar)やUHD TVのように機器上の制限されたフォームファクタ(Form Factor)に原本の多チャンネルコンテンツの音響を提供する仮想の3Dレンダリングを通じて、より実感がわき、現場感のある音響を提供することをその主要差別点とする。
【0003】
それにも拘わらず、コンテンツが消費される最も主流の機器はスマートフォン、タブレットのような個人用装置(Personal Device)であり、その場合、大部分ステレオフォーマットで伝達されてイヤホン、ヘッドホンなどを通じて出力されるが、このような場合、充分の実感音響を提供することが難しくなる。これを克服するためにアップミキサー(Upmixer)とバイノーラルレンダラー(Binaural Renderer)を使用することができる。
【0004】
アップミキシング(Upmixing)の場合、信号に対する分析を通じて合成する構造を主に使用するようになるが、完全復元(Perfect Reconstruction)を保証するウィンドウイング(Windowing)と時間-周波数変換(Time Frequency Transform)に基盤したOverlap-and-Addプロセシング構造を有する。
【0005】
バイノーラルレンダリング(Binaural Rendering)の場合、与えられた仮想チャンネルの頭部関連インパルス応答(Head Related Impulse Response、HRIR)を畳み込み(Convolution)する方式により具現されるが、相対的に多い演算量を必要としてゼロ-パディング(Zero-padding)の以後、時間-周波数変換した信号を周波数領域で掛ける構造を有し、とても長いHRIRを必要とする場合にはブロック畳み込み(Block Convolution)を取ることもある。
【0006】
前記アップミキシングとバイノーラルレンダリングは全て周波数領域でなされるが、2つの周波数領域はその特性が異なる。アップミキシングの周波数領域での信号の変化は一般的に位相(Phase)変化がないことが特徴である。位相の変化は分析ウィンドウ(Analysis Window)と合成ウィンドウ(Synthesis Window)による完全復元仮定が崩れるためである。バイノーラルレンダリングの周波数領域では位相の変化を含む循環畳み込み(Circular Convolution)領域や、畳み込みを行うための信号とHRIRにゼロ-パディングされているので、循環畳み込みによるエイリアシング(Aliasing)が発生してはならない制約条件がある。アップミキシングによる入力信号の変化はゼロ-パディング領域を保証しないためである。
【0007】
2つのプロセシングを直列(Serial)的な構造で結合する場合には、アップミキシングのための時間-周波数変換が全て含まれなければならないので、非常に高い演算量を必要とする。したがって、2つの構造を全て反映させることができ、演算量の面で最適化した技法が必要である。
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明は、アップミキシングとバイノーラルレンダリングが効率よく結合されたoverlap-and-addを提供するための目的を有している。
【0009】
本発明は、正面音像定位時に発生するコムフィルタリング(Comb Filtering)のようなカラレーションアーティファクト(Coloration Artifact)を減らすために同側レンダリング(Ipsilateral Rendering)使用方法を提供するための目的を有している。
【課題を解決するための手段】
【0010】
本明細書は、オーディオ信号処理方法を提供する。
【0011】
具体的に、オーディオ信号処理方法において、ステレオ信号を受信するステップ;前記ステレオ信号を周波数領域上の信号に変換するステップ;前記周波数領域上の信号を、前記周波数領域上の信号の各チャンネル間相関度(correlation)及び各チャンネル間エネルギー割合(Inter-Channel Level Difference、ICLD)に基づいて第1信号と第2信号とに分離するステップ、前記第1信号は前記周波数領域上の信号の正面成分を含み、前記第2信号は前記周波数領域上の信号の側面成分を含み;第1同側フィルタ係数に基づいて前記第1信号をレンダリングし、前記周波数領域上の信号に対する正面同側信号を生成するステップ、前記第1同側フィルタ係数は第1のHRIR(Head Related Impulse Response)の同側応答信号に基づいて生成され;第2同側フィルタ係数に基づいて前記第2信号をレンダリングし、前記周波数領域上の信号に対する側面同側信号を生成するステップ、前記第2同側フィルタ係数は第2のHRIRの同側応答信号に基づいて生成され;反側フィルタ係数に基づいて前記第2信号をレンダリングし、前記周波数領域上の信号に対する側面反側信号を生成するステップ、前記反側フィルタ係数は前記第2のHRIRの反側応答信号に基づいて生成され;前記正面同側信号及び前記側面同側信号をミキシングして生成された同側信号及び前記側面反側信号を時間領域上の信号である時間領域同側信号及び時間領域反側信号に各々変換するステップ;及び前記時間領域同側信号及び前記時間領域反側信号をミキシングしてバイノーラル信号を生成するステップ;を含み、前記バイノーラル信号は前記時間領域反側信号に両耳時間差(Interaural Time Delay、ITD)を考慮して生成され、前記第1同側フィルタ係数、前記第2同側フィルタ係数、及び前記反側フィルタ係数は実数値であることを特徴とする。
【0012】
また、本明細書において、オーディオ信号処理装置において、ステレオ信号を受信する入力端;及びレンダラーを含むプロセッサを含み、前記プロセッサは、前記ステレオ信号を周波数領域上の信号に変換し、前記周波数領域上の信号を、前記周波数領域上の信号の各チャンネル間相関度(correlation)及び各チャンネル間エネルギー割合(Inter-Channel Level Difference、ICLD)に基づいて第1信号と第2信号とに分離し、前記第1信号は前記周波数領域上の信号の正面成分を含み、前記第2信号は前記周波数領域上の信号の側面成分を含み、第1同側フィルタ係数に基づいて前記第1信号をレンダリングし、前記周波数領域上の信号に対する正面同側信号を生成し、前記第1同側フィルタ係数は第1のHRIR(Head Related Impulse Response)の同側応答信号に基づいて生成され、第2同側フィルタ係数に基づいて前記第2信号をレンダリングし、前記周波数領域上の信号に対する側面同側信号を生成し、前記第2同側フィルタ係数は第2のHRIRの同側応答信号に基づいて生成され、反側フィルタ係数に基づいて前記第2信号をレンダリングし、前記周波数領域上の信号に対する側面反側信号を生成し、前記反側フィルタ係数は前記第2のHRIRの反側応答信号に基づいて生成され、前記正面同側信号及び前記側面同側信号をミキシングして生成された同側信号及び前記側面反側信号を時間領域上の信号である時間領域同側信号及び時間領域反側信号に各々変換し、前記時間領域同側信号及び前記時間領域反側信号をミキシングしてバイノーラル信号を生成し、前記バイノーラル信号は前記時間領域反側信号に両耳時間差(Interaural Time Delay、ITD)を考慮して生成され、前記第1同側フィルタ係数、前記第2同側フィルタ係数、及び前記反側フィルタ係数は実数値であることを特徴とする。
【0013】
また、本明細書において、前記正面同側信号及び前記側面同側信号をミキシングして生成された同側信号及び前記側面反側信号を時間領域上の信号である時間領域同側信号及び時間領域反側信号に各々変換するステップは、前記正面同側信号及び前記側面同側信号を左、右チャンネル別に各々ミキシングして生成された左-同側信号及び右-同側信号の各々を時間領域上の信号である時間領域左-同側信号及び時間領域右-同側信号に変換するステップ;前記側面反側信号を左、右チャンネル別に各々時間領域上の信号である左-側面反側信号及び右-側面反側信号に変換するステップ;であり、前記バイノーラル信号は、前記時間領域左-同側信号及び時間領域左-側面反側信号をミキシングし、前記時間領域右-同側信号及び時間領域右-側面反側信号をミキシングして生成されることを特徴とする。
【0014】
また、本明細書において、前記第1信号の左チャンネル信号と前記第2信号の左チャンネル信号との合は前記ステレオ信号の左チャンネル信号と同一であることを特徴とする。
【0015】
また、本明細書において、前記第1信号の右チャンネル信号と前記第2信号の右チャンネル信号との合は前記ステレオ信号の右チャンネル信号と同一であることを特徴とする。
【0016】
また、本明細書において、前記第1信号の左チャンネル信号のエネルギーと前記第1信号の右チャンネル信号のエネルギーは互いに同一であることを特徴とする。
【0017】
また、本明細書において、前記HRIRの同側特性はITDを考慮したHRIRの反側特性が適用されることを特徴とする。
【0018】
また、本明細書において、前記ITDは1ms以下であることを特徴とする。
【0019】
また、本明細書において、前記第1信号の左チャンネル信号の位相と前記正面同側信号の左チャンネル信号位相は同一であり、前記第1信号の右チャンネル信号の位相と前記正面同側信号の右チャンネル信号位相は同一であり、前記第2信号の左チャンネル信号の位相、前記側面同側信号の左-側面信号の位相、及び前記側面反側信号の左-側面信号の位相は同一であり、前記第2信号の右チャンネル信号の位相、前記側面同側信号の右-側面信号の位相、前記側面反側信号の右-側面信号の位相は同一であることを特徴とする。
【発明の効果】
【0020】
本発明は、ステレオ音源に基づいてアップミキシングとバイノーラル化(Binauralization)を通じて空間感が向上した音響を提供する。
【図面の簡単な説明】
【0021】
【
図1】本発明の一実施形態に従うアップミックスバイノーラル信号生成のための装置ブロック図を示す図面である。
【
図2】本発明の一実施形態に従うアップミックスバイノーラル信号生成のための装置の周波数変換部を示す図面である。
【
図3】本発明の一実施形態に従う完全復元を提供するサイン窓(Sine Window)を示す図面である。
【
図4】本発明の一実施形態に従うアップミックスバイノーラル信号生成のための装置のアップミキシング部を示す図面である。
【
図5】本発明の一実施形態に従う軟判定(Soft Decision)関数を示す図面である。
【
図6】本発明の一実施形態に従うアップミックスバイノーラル信号生成のための装置のレンダリング部を示す図面である。
【
図7】本発明の一実施形態に従うアップミックスバイノーラル信号生成のための装置の時間変換及びミキシング部を示す図面である。
【
図8】本発明の一実施形態に従うアップミックスバイノーラル信号生成アルゴリズムを使用した空間音響改善のためのアルゴリズムを示す図面である。
【
図9】本発明の一実施形態に従うサーバ-クライアント構造のための簡素化したアップミックスバイノーラル信号生成アルゴリズムを示す図面である。
【
図10】本発明の一実施形態に従う、周波数領域上のオーディオ信号に対してバイノーラル化を遂行する方法を示す図面である。
【
図11】本発明の一実施形態に従う複数個の周波数領域上のオーディオ入力信号に対してバイノーラル化を遂行する方法を示す図面である。
【
図12】本発明の一実施形態に従う入力信号をバイノーラル化する方法を示す図面である。
【
図13】本発明の一実施形態である乱信号円錐域を示す図面である。
【
図14】本発明の一実施形態に従う複数個の入力信号に対するバイノーラル化方法を示す図面である。
【
図15】本発明の一実施形態に従う仮想入力信号が乱信号円錐域に位置する場合を示す図面である。
【
図16】本発明の一実施形態に従う仮想入力信号をバイノーラル化する方法を示す図面である。
【
図17】本発明の一実施形態に従うアップミキサーを示す図面である。
【
図18】本発明の一実施形態に従う対称的なレイアウト構成を示す図面である。
【
図19】本発明の一実施形態に従う入力信号をバイノーラル化する方法を示す図面である。
【
図20】本発明の一実施形態に従うユーザのヘッドオリエンテーションに対応したインタラクティブバイノーラル化が遂行される方法を示す図面である。
【
図21】本発明の一実施形態に従う両耳間極座標系(Interaural Polar Coordinate、IPC)上で乱信号円錐域から構成された仮想スピーカーレイアウトを示す図面である。
【
図22】本発明の一実施形態に従う仮想スピーカーへのパンニング方法を示す図面である。
【
図23】本発明の一実施形態に従う仮想スピーカーへのパンニング方法を示す図面である。
【
図24】本発明の一実施形態に従う仮想スピーカーへのパンニングのための球形ビュー(Spherical View)を示す図面である。
【
図25】本発明の一実施形態に従う仮想スピーカーへのパンニングのための左側ビュー(Left View)を示す図面である。
【
図26】本発明の一実施形態に従うバイノーラル信号生成のためのフローチャートを示す図面である。
【発明を実施するための形態】
【0022】
本明細書で使われる用語は本発明での機能を考慮し、かつできる限り現在広く使われる一般的な用語を選択したが、これは当分野に従事する技術者の意図、慣例、または新たな技術の出現などによって変わることがある。また、特定の場合は出願人が任意に選定した用語もあり、その場合、該当する発明の説明の部分でその意味を記載する。したがって、本明細書で使われる用語は、単純な用語の名称でない、その用語が有する実質的な意味と本明細書の全般に亘る内容に基づいて解釈されなければならないことを明らかにしようとする。
【0023】
アップミックスバイノーラル信号生成アルゴリズム
図1は、本発明の一実施形態に従うアップミックスバイノーラル信号生成のための装置ブロック図を示す図面である。
【0024】
図1を参考してアップミックスバイノーラル(Upmix Binaural)信号生成アルゴリズムについて説明する。具体的に、アップミックスバイノーラル信号生成のための装置は、周波数変換部110、アップミキシング(upmixing)部120、レンダリング部130、時間変換及びミキシング部140を含んで構成できる。アップミックスバイノーラル信号生成のための装置は、入力信号101を入力にして、出力信号106であるバイノーラル信号を生成して出力することができる。この際、入力信号101はステレオ信号でありえる。周波数変換部110は、入力信号101の分析のために時間領域上の入力信号を周波数領域上の信号に変換することができる。アップミキシング部120は、コヒーレンス分析(Coherence Analysis)を通じて入力信号101の周波数別チャンネル間のクロス-相関度(Cross-Correlation)と入力信号101の左(left)チャンネルと右(right)チャンネルとの間のエネルギー割合であるICLD (Inter-Channel Level Difference)に基づいて入力信号101を正面信号成分である第1信号と側面信号成分である第2信号とに分離することができる。レンダリング部130は、分離された信号に対応する頭部伝達関数(Head Related Transfer Function、HRTF)に基づいたフィルタリングを遂行することができる。そして、レンダリング部130は同側ステレオ両耳信号(Ipsilateral Stereo Binaural Signal)と反側ステレオ両耳信号(Contralateral Stereo Binaural Signal)を生成することができる。時間変換及びミキシング部140は、同側ステレオ両耳信号と反側ステレオ両耳信号を時間領域上の信号に変換することができる。時間変換及びミキシング部140は変換された時間領域上の反側両耳信号成分にサンプルディレイを与えた後、同側両耳信号成分とミキシングしてアップミックスされた両耳信号(Upmixed Binaural Signal)を合成することができる。この際、前記サンプルディレイは両耳間時間ディレイ(Interaural Time Delay、ITD)でありえる。
【0025】
具体的に、周波数変換部110と時間変換及びミキシング部140(時間変換部分)は完全復元(Perfect Reconstruction)を提供するための分析窓(Analysis Window)と合成窓(Synthesis Window)の対(pair)からなる構造を有することができる。例えば、サイン窓(Sine Window)が分析窓と合成窓に使われることができる。また、信号の変換のために、短時間フーリエ変換(Short-Time Fourier Transform、STFT)と逆短時間フーリエ変換(Inverse Short-Time Fourier Transform、ISTFT)の対が使われることができる。時間領域上の信号が周波数変換部110を通じて周波数領域上の信号に変換できる。アップミキシングとレンダリング(Rendering)は周波数領域上で遂行できる。アップミキシングとレンダリングが遂行された信号は時間変換及びミキシング部140を通じて時間領域上の信号にまた変換できる。
【0026】
アップミキシング部120は、入力信号101の周波数別左/右信号のコヒーレンスを抽出することができる。また、アップミキシング部120は、入力信号101のICLDに基づいて全体的なフロント-リア割合(Front-Rear Ratio)を決定することができる。また、アップミキシング部120はフロント-リア割合によって入力信号101(例:ステレオ信号)は正面ステレオ(Frontal Stereo)チャンネル成分である第1信号102とリアステレオ(Rear Stereo)チャンネル成分である第2信号104に分離することができる。本明細書ではリア(rear)と側面を混用して記述することができる。例えば、リアステレオチャンネル成分などは側面ステレオチャンネル成分などと同一の意味でありえる。
【0027】
レンダリング部130は、正面ステレオチャンネル成分である第1信号102に既に設定された正面空間フィルタ利得(Frontal Spatial Filter Gain)を適用して正面バイノーラル信号(Frontal Binaural Signal)を生成することができる。また、レンダリング部130はリアステレオチャンネル成分である第2信号104に既に設定されたリア空間フィルタ利得(Rear Spatial Filter Gain)を適用してリアバイノーラル信号(Rear Binaural Signal)を生成することができる。例えば、レンダリング部130は正面を0度にする時、30度方位角(Azimuth)に該当する頭部関連インパルス応答(Head Related Impulse Response、HRIR)の同側(Ipsilateral)成分に基づいて正面空間フィルタ利得を生成することができる。また、レンダリング部130は側面である90度方位角に該当するHRIRの同側、反側(Contralateral)成分に基づいてリア空間フィルタ利得を生成することができる。
【0028】
正面空間フィルタ利得は信号の音像を前に定位させることができ、リア空間フィルタ利得は信号左/右の幅を広げることができる効果がある。また、正面空間フィルタ利得及びリア空間フィルタ利得は位相成分のない利得(Gain)形態に構成できる。正面空間フィルタ利得は同側成分のみで定義され、リア空間フィルタ利得は同側と反側(Contralateral)成分全てに基づいて定義できる。
【0029】
レンダリング部130で生成される正面バイノーラル信号とリアバイノーラル信号の同側信号はミキシングされて最終同側ステレオ両耳信号(Ipsilateral Stereo Binaural Signal)105として出力できる。リアバイノーラル信号の反側信号は反側ステレオ両耳信号(Contralateral Stereo Binaural Signal)103として出力できる。
【0030】
時間変換及びミキシング部140は、同側ステレオ両耳信号105と反側ステレオ両耳信号104を特定変換技法(例:逆短時間フーリエ変換)を使用して同側ステレオ両耳信号105及び反側ステレオ両耳信号104の各々を時間領域上の信号に変換することができる。そして、時間変換及びミキシング部140は変換された時間領域上の各々の信号に合成ウィンドウイング(Synthesis Windowing)を適用して時間領域上の同側両耳信号と時間領域上の反側両耳信号を生成することができる。そして、時間変換及びミキシング部140は生成された時間領域上の反側両耳信号にディレイを与えた後、同側両耳信号と共に同一の出力バッファにOverlap-and-Add形態にミキシングして格納することができる。この際、前記ディレイは両耳間時間ディレイでありえる。そして、時間変換及びミキシング部140は出力信号106を出力する。この際、出力信号106はアップミキシングされた両耳信号でありえる。
【0031】
図2は、本発明の一実施形態に従うアップミックスバイノーラル信号生成のための装置の周波数変換部を示す図面である。
【0032】
図2は、
図1を通じて説明したバイノーラル信号生成のための装置の周波数変換部110を具体的に示す図面である。以下、
図2を通じて周波数変換部110に対して具体的に説明する。
【0033】
まず、バッファリング部210は、時間領域上のステレオ信号であるx_time(201)を受信する。この際、x_time(201)は
図1の入力信号101でありえる。バッファリング部210はx_time(201)からフレームプロセシング(Frame Processing)のためのステレオフレームバッファ(Frame Buffer)(x_frame、202)を数式1により計算することができる。以下、本明細書でのインデックスL、Rは左側信号と右側信号を示す。数式1のL、Rは各々ステレオ信号の左側信号と右側信号を示す。数式1のlはフレームインデックスを示す。数式1のNHはフレーム長さの半分を示す。例えば、1024サンプルが1つのフレームの場合、NHは512に設定される。
【0034】
【0035】
数式1によって、x_frame[l]はl番目のフレームステレオ信号として定義され、1/2オーバーラップ(Overlap)を有することができる。
【0036】
分析窓220では、長さがフレーム信号の長さであるNFであり、完全復元(Perfect Reconstruction)を提供する窓形態に既設定されたウィンド(wind)をフレーム信号(x_frame、202)に掛けて数式2のようにxw_frame(203)を計算することができる。
【0037】
【0038】
図3は、本発明の一実施形態に従う完全復元を提供するサイン窓(Sine Window)を示す図面である。具体的に、
図3は前記既設定されたwindの一例で、NFが1024の時のサイン窓を示す。
【0039】
時間-周波数変換部230は、数式2を通じて計算されたxw_frame[l]に時間-周波数変換を遂行して周波数領域信号を獲得することができる。具体的に、時間-周波数変換部230は、数式3のようにxw_frame[l]に時間-周波数変換を遂行して周波数領域信号であるXW_freq(204)を獲得することができる。数式3のDFT{}は離散フーリエ変換(Discrete Fourier Transform、DFT)を意味する。DFTは時間-周波数変換の一実施形態であって、時間-周波数変換のためにDFTだけでなく、フィルタバンク(Filter bank)や他の変換技法が使われることができる。
【0040】
【0041】
図4は、本発明の一実施形態に従うアップミックスバイノーラル信号生成のための装置のアップミキシング部を示す図面である。
【0042】
アップミキシング部120は、数式3を通じて計算された周波数信号のバンド別またはビン(bin)別エネルギーを計算することができる。具体的に、アップミキシング部120は、数式3を通じて計算された周波数信号の左/右信号の積を用いて前記周波数信号のバンド別またはビン別エネルギーであるX_Nrgを数式4のように計算することができる。
【0043】
【0044】
この際、conj(x)はxの共役複素数を出力する関数でありえる。
数式4を通じて計算されたX_Nrgはl番目のフレーム自体に対するパラメータである。したがって、アップミキシング部120は、時間領域でコヒーレンス計算のための加重時間平均(Weighted Time Average)値であるX_SNrgを計算することができる。具体的に、アップミキシング部120は単極モデル(One-pole model)を通じて0~1の間の値として定義されたgammaを活用した数式5を通じてX_SNrgを計算することができる。
【0045】
【0046】
相関度分析部410は、X_SNrgを用いてコヒーレンス基盤の正規化された相関度(Normalized Correlation)であるX_Corr(401)を数式6のように計算することができる。
【0047】
【0048】
Abs(x)はxの絶対値を出力する関数であり、sqrt(x)はxの自乗根を出力する関数である。
【0049】
X_Corr[l][k]はl番目のフレーム信号でk番目のビンの左/右信号の周波数成分に対する相関度を示す。この際、X_Corr[l][k]は左/右同一の信号成分が多いほど1に近づき、左/右信号が異なる場合には0に近づく形態を有する。
【0050】
分離係数計算部420は該当X_Corr(401)から周波数成分のパンニング有無を決定するマスキング(Masking)関数(X_Mask、402)を数式7のように計算することができる。
【0051】
【0052】
数式7のGate{}関数は判定(Decision)を遂行することができるマッピング関数である。
【0053】
図5は、本発明の一実施形態に従う軟判定(Soft Decision)関数を示す図面である。具体的に、
図5は0.75をしきい値(Threshold)に使用する軟判定関数の一例を示す図面である。
【0054】
フレームサイズ(Frame Size)が固定されたシステムの場合、相対的に低周波成分の正規化されたクロス相関度(Normalized Cross Correlation)が高周波成分の正規化されたクロス相関度より高い値を有する確率が高い。したがって、Gate関数は周波数インデックスkに対する関数として定義できる。結果的に、X_Mask[l][k]はl番目のフレームのk番目の周波数成分の左、右のステレオ信号の方向性(Directional)またはアンビエント(Ambient)程度を区分する。
【0055】
分離係数計算部420ではコヒーレンスに基づいたX_Mask(402)により方向性に判別される信号は正面信号に、アンビエントに判別される信号は側面に対応する信号にレンダリングすることができる。この際、分離係数計算部420が方向性に該当する信号を全て正面信号にレンダリングした場合、左右パンニングされた信号の音像が狭く形成されることがある。例えば、左/右パンニング程度が0.9:0.1程度に左側にたくさん偏った信号も側面信号でない正面信号にレンダリングできる。したがって、方向性に判別される信号の左/右成分がどの一側に偏った場合、一部の成分は側面信号にレンダリングされる必要がある。したがって、分離係数計算部420は、方向性成分の正面信号レンダリング成分を0.1:0.1に割り当てて、リア(Rear)信号レンダリング成分割合は0.8:0に割り当てできるようにPG_Front(403)を数式8または数式9のように抽出することができる。
【0056】
【0057】
【0058】
X_Mask(402)とPG_Front(403)が決定されれば、信号分離部430は入力信号であるXW_freq(204)を正面ステレオ信号であるX_Sep1(404)と側面ステレオ信号であるX_Sep2(405)に分離することができる。この際、XW_freq(204)を正面ステレオ信号であるX_Sep1(404)と側面ステレオ信号であるX_Sep2(405)に分離するために信号分離部430は数式10を用いることができる。
【0059】
【0060】
言い換えると、X_Sep1(404)とX_Sep(405)は相関度分析と周波数信号(XW_freq、204)の左/右エネルギー割合に基づいて分離できる。この際、分離された信号(X_Sep1(404)、X_Sep2(405))の合は入力信号(XW_freq、204)と同一でありえる。X_Sep1(404)の左チャンネル信号とX_Sep2(405)の左チャンネル信号との合は周波数信号(XW_freq、204)の左チャンネル信号と同一でありえる。また、X_Sep1(404)の右チャンネル信号とX_Sep2(405)の右チャンネル信号との合は周波数信号(XW_freq、204)の右チャンネル信号と同一でありえる。X_Sep1(404)の左チャンネル信号のエネルギーはX_Sep1(404)の右チャンネル信号のエネルギーと同一でありえる。
【0061】
図6は、本発明の一実施形態に従うアップミックスバイノーラル信号生成のための装置のレンダリング部を示す図面である。
【0062】
図6を参考すると、レンダリング部130では分離された正面ステレオ(Frontal Stereo)信号X_Sep1(404)と側面ステレオ信号X_Sep2(405)の入力を受けてバイノーラルレンダリング(Binaural Rendering)された同側信号Y_Ipsi(604)と反側信号Y_Contra(605)を出力することができる。
【0063】
正面ステレオ信号であるX_Sep1(404)は、左/右信号に類似の成分を含んでいるので、一般的なHRIRをフィルタリングする場合、同一成分が同側成分と反側成分が全て混ざることがある。したがって、ITDに従うコムフィルタリング(Comb Filtering)が発生することがある。ここに、第1レンダラー610は正面ステレオ信号に対する同側レンダリング611を遂行することができる。言い換えると、第1レンダラー610はHRIRで提供する同側スペクトル(Spectral)特性のみ反映して正面イメージ(Frontal Image)を生成する方法を使用し、反側に該当する成分は生成しないことがある。第1レンダラー610は、数式11に従って正面同側信号Y1_Ipsi(601)を生成することができる。数式11のH1_IpsiはHRIRで提供する同側スペクトル(Spectral)特性のみ反映したフィルタであって、言い換えると、正面チャンネル位置のHRIRを基準に生成された同側フィルタを意味する。一方、ITDによるコムフィルタリングは音色を変化させるか、または音像を正面に定位するために使われることができる。したがって、H1_IpsiはHRIRの同側成分と反側成分が全て反映されたものでありえる。この際、HRIRの反側成分はITDが反映されたものでありえ、H11_IpsiはITDによるコムフィルタリング特性を有することができる。
【0064】
【0065】
側面ステレオ信号であるX_Sep2(405)は、左/右信号に類似の成分を含んでいないので、一般的なHRIRをフィルタリングしても、同一成分が同側成分と反側成分が全て混ざる現象が発生しない。したがって、ITDに従うコムフィルタリングによる音質劣化が発生しない。ここに、第2レンダラー620は側面ステレオ信号に対する同側レンダリング621、反側レンダリング622を遂行することができる。言い換えると、第2レンダラー620はHRIR特性を有する同側-反側フィルタリングを各々遂行して数式12によって側面同側信号Y2_Ipsi(602)と側面反側信号Y2_Contra(603)を生成することができる。数式12のH2_Ipsiは側面チャンネル位置のHRIRを基準に生成された同側フィルタを意味し、H2_Contraは側面チャンネル位置のHRIRを基準に生成された反側フィルタを意味する。
【0066】
正面同側信号Y1_Ipsi(601)、側面同側信号Y2_Ipsi(602)、側面反側信号Y2_Contra(603)の各々は左/右側信号を各々含むことができる。この際、H1_Ipsiも左/右側の各々のフィルタでありえ、正面同側信号Y1_Ipsi(602)の左側信号にはH1_Ipsi左側フィルタが適用され、正面同側信号Y1_Ipsi(602)の右側信号にはH1_Ipsi右側フィルタが適用できる。側面同側信号Y2_Ipsi(602)とH2_Ipsi、側面反側信号Y2_Contra(603)とH2_Contraも同様である。
【0067】
【0068】
同側ミキシング部640は、Y1_Ipsi(601)とY2_Ipsi(602)をミキシングして最終バイノーラル同側信号(Y_Ipsi、604)を生成することができる。同側ミキシング部640は、Y1_Ipsi(601)とY2_Ipsi(602)を左、右チャンネル別に各々ミキシングして最終バイノーラル同側信号(Y_Ipsi、604)を左、右チャンネル別に各々生成することができる。この際、
図4に示されたX_Sep1(404)とX_Sep2(405)の周波数別位相(Phase)は互いに同一の形態である。したがって、H1_IpsiとH2_Ipsiとの間の位相差が存在する場合、コムフィルタリングのようなアーティファクト(Artifact)が発生する問題点がありえる。しかしながら、本発明の一実施形態によれば、H1_IpsiとH2_Ipsiを全て実数として定義され、したがって、前記コムフィルタリングのような問題を解決することができる。
【0069】
また、本発明のバイノーラル信号を生成する全体システムフローの一例である‘分析ウィンドウイング(Analysis Windowing)→時間/周波数変換(Time/Frequency Transform)→プロセシング(Processing)→周波数/時間変換(Frequency/Time Transform)→合成ウィンドウイング(Synthesis Windowing)’のOverlap and add構造では、プロセシング領域(Processing Domain)上で複素数フィルタリングが遂行されれば、位相変化によるエイリアシング(Aliasing)により完全復元仮定が破られることがある。したがって、本発明のレンダリング部130で使われるH1_Ipsi、H2_Ipsi、H2_Contraは全て実数で構成できる。したがって、レンダリング前信号とレンダリング後信号は位相が相異せず、同一でありえる。具体的に、レンダリング前信号の左チャンネルに対する位相とレンダリング後信号の左チャンネルに対する位相は同一でありえる。同様に、レンダリング前信号の右チャンネルに対する位相とレンダリング後信号の右チャンネルに対する位相は同一でありえる。レンダリング部130は、数式13を用いてY_Ipsi(604)とY_Contra(605)を周波数領域上の信号に計算/生成することができる。Y_Ipsi(604)とY_Contra(605)は、各々左、右チャンネル別にミキシングされて生成ができる。最終バイノーラル反側信号(Y_Contra、605)は側面反側信号Y2_Contra(603)値と同一でありえる。
【0070】
【0071】
図7は、本発明の一実施形態に従うアップミックスバイノーラル信号生成のための装置の時間変換及びミキシング部を示す図面である。
【0072】
図7を参考にすると、
図6のレンダリング部130で計算/生成されたY_Ipsi(604)とY_Contra(605)は時間変換及びミキシング部140を通じて時間領域上の信号に変換される。そして、時間変換及びミキシング部140は最終アップミックスされたバイノーラル信号であるy_time(703)を生成することができる。
【0073】
周波数-時間変換部710は周波数領域上の信号であるY_Ipsi(604)とY_Contra(605)を逆離散フーリエ変換(Inverse Discrete Fourier Transform、IDFT)や合成フィルタバンク(Synthesis Filterbank)を通じて時間領域上の信号に変換することができる。周波数-時間変換部710は、合成窓720を適用して数式14に従うyw_Ipsi_time(701)とyw_Contra_time(702)を生成することができる。
【0074】
【0075】
yw_Ipsi_time(701)とyw_Contra_time(702)を用いて最終バイノーラルレンダリング信号(y_time、703)を数式15のように生成することができる。数式15を見ると、時間変換及びミキシング部140はyw_Contra_time(702)信号に側面バイノーラルレンダリングのためのディレイであるITD、即ち、両耳時間差をDだけ与えることができる(730)。例えば、ITDは1ms(millisecond)以下の値を有することができる。そして、時間変換及びミキシング部140のミキシング部740はOverlap-and-add方式を通じて最終バイノーラル信号(y_time、703)を生成することができる。最終バイノーラル信号(y_time、703)は左、右チャンネルに各々生成できる。
【0076】
【0077】
アップミックスバイノーラル信号生成を使用した空間音響改善アルゴリズム
図8は、本発明の一実施形態に従うアップミックスバイノーラル信号生成アルゴリズムを使用した空間音響改善のためのアルゴリズムを示す図面である。
【0078】
図8に示されたアップミックスバイノーラル(Upmix Binaural)信号生成部は、アップミックスの以後、バイノーラルフィルタリングを通じて直接音に対するバイノーラル信号を合成することができる。Reverb信号生成部(Reverberator)は、残響成分を生成することができる。ミキシング部は、直接音と残響成分をミキシングすることができる。Dynamic Range Controllerは、直接音と残響成分をミキシングした信号の小さい音を選択的に増幅させることができる。Limiterは増幅した信号がクリッピング(Clipping)が発生しないように安定した信号を合成して出力することができる。Reverb信号生成部で残響成分を生成するために既存のアルゴリズムを使用することができる。例えば、既存のアルゴリズムに複数個のDelay-GainとAll-passgaが結合された形態の残響器(Reverberator)がありえる。
【0079】
サーバ-クライアント構造のための簡素化されたアップミックスバイノーラル信号生成アルゴリズム
図9は、本発明の一実施形態に従うサーバ-クライアント構造のための簡素化されたアップミックスバイノーラル信号生成アルゴリズムを示す図面である。
【0080】
図9は、入力信号に従って第1レンダリング部の効果または第2レンダリング部の効果のうちの1つに二進決定を行ってレンダリングを遂行する簡略化されたシステム構成に対する図面である。第1レンダリング部で遂行される第1レンダリング方式は入力信号に左/右ミキシングされた信号が多く存在して正面レンダリングを遂行する場合に使われることができる。第2レンダリング部で遂行される第2レンダリング方式は、入力信号に左/右ミキシングされた信号が少なくて側面レンダリングを遂行する場合に使われることができる。信号タイプ決定部は、第1レンダリング方式及び第2レンダリング方式のうち、どの方式を用いるかを判断することができる。この際、判断は周波数変換無しで入力信号全体に対する相関度(Correlation)分析を通じて可能である。このような相関度分析は相関度分析部(図示せず)で遂行できる。
【0081】
合/差信号生成部では、入力信号(x_time)に対する合信号(x_sum)と差信号(x_diff)を数式16のように生成することができる。信号タイプ決定部では、数式17のように合/差信号に基づいてレンダリング信号(第1レンダリング方式(TYPE_1)を使用することか、第2レンダリング方式(TYPE_2)を使用することか否か)を決定することができる。
【0082】
【0083】
【0084】
入力信号の左/右信号成分が行き渡っている場合には、コムフィルタリング現象が発生する確率が高い。したがって、信号タイプ決定部は、数式17のように反側成分がなく、同側成分のみ反映する第1レンダリング方式を選択することができる。一方、信号タイプ決定部は、入力信号の左側または右側成分のうち、どの一側の音の比重が大きい場合には、反側成分を積極的に活用する第2レンダリング方式を選択することができる。例えば、数式17を見ると、入力信号の左/右信号が類似するほど分子のx_diffは0に近づいて、したがって、ratioTypeは0に近づく。即ち、数式17によれば、ratioTypeが0.22より小さい場合、信号タイプ決定部は、同側成分のみ反映する第1レンダリング方式を意味するTYPE_1を選択することができる。反対に、ratioTypeが0.22より等しいか大きければ、信号タイプ決定部は、第2レンダリング方式を選択することができる。
【0085】
周波数信号入力に対するバイノーラル化(Binauralization)方法
オーディオの音場のような後処理(Post Processing)とオーディオ信号の転送のためのコーデックのような方式では周波数領域上のオーディオ信号の分析及び応用がなされる。したがって、最終再生端でない周波数領域上の信号はオーディオ信号の分析及び応用の中間結果物に活用できる。また、周波数領域上の信号はバイノーラル化のための入力信号に活用できる。
【0086】
図10は、本発明の一実施形態に従う周波数領域上のオーディオ信号に対してバイノーラル化を遂行する方法を示す図面である。
【0087】
周波数領域上の信号は循環畳み込み(circular convolution)を仮定し、ゼロパディングした時間領域上の信号を周波数領域上の信号に変換したものでないことがある。したがって、この際、周波数領域上の信号は畳み込みが可能な構造でない。したがって、周波数領域上の信号は時間領域に変換される。この際、前述したフィルタバンクまたは周波数-時間変換(例:IDFT)が使われることができる。 そして、変換された時間領域上の信号に合成窓及びOverlap-and-Addなどのプロセシングが適用できる。そして、合成窓及びOverlap-and-Addなどのプロセシングが適用された信号にゼロパディング(Zero Padding)が適用されることができ、時間-周波数変換(例:DFT)を通じて周波数領域上の信号に変換できる。以後、変換された周波数領域上の信号には各々同側/反側成分別にDFTを活用した畳み込みが適用されることができ、各々周波数-時間変換及びOverlap-and-Addプロセシングが適用できる。
図10を見ると、周波数領域上の1つの入力信号をバイノーラル化するためには4回の変換過程が必要である。
【0088】
図11は、本発明の一実施形態に従う複数個の周波数領域上のオーディオ入力信号に対してバイノーラル化を遂行する方法を示す図面である。
【0089】
図11は、
図10で説明したバイノーラル化を遂行する方法をN個の入力信号に拡張して一般化する方法に対する図面である。
【0090】
図11を見ると、入力信号がN個の場合、N個のバイノーラル化された信号は周波数領域上でミキシングできる。したがって、N個の入力信号がバイノーラル化される時、周波数-時間変換過程が減ることができるという効果がある。例えば、
図11によれば、N個の入力信号をバイノーラル化するに当たって、N*2+2回の変換が必要である。一方、
図10に従って入力信号のバイノーラル化過程をN回遂行する場合、N*4回の変換が必要である。即ち、
図11の方法を利用すれば、
図10の方法を用いた場合に比べて(N-1)*2回の変換過程が減少できる。
【0091】
図12は、本発明の一実施形態に従う入力信号をバイノーラル化する方法を示す図面である。
【0092】
図12は、周波数入力信号と、周波数入力信号と対応する仮想音源の位置、及び両耳への伝達関数であるHRIR(Head Related Impulse Response)が存在する時、入力信号をバイノーラル化する方法に対する一例を示す。
図12を見ると、仮想音源の位置が特定位置を基準に左側に存在する場合、同側ゲインA_Iと反側ゲインA_Cは数式18のように計算できる。同側ゲインA_Iは左側HRIRのサイズ(Amplitude)であり、反側ゲインA_Cは右側HRIRのサイズで計算できる。そして、計算されたA_IとA_Cは周波数入力信号X[k]と掛けられて、数式18のように周波数領域上の同側信号であるY_I[k]と周波数領域上の反側信号であるY_C[k]が計算できる。
【0093】
【0094】
【0095】
数式18で計算された周波数領域上の信号であるY_I[k]とY_C[k]は周波数-時間変換を通じて数式19のように時間領域上の信号に変換される。また、必要によって変換された時間領域上の信号に合成窓とOverlap and Add過程が適用できる。この場合、同側信号と反側信号はITDが反映されない信号に生成できる。したがって、
図12のように前記反側信号にはITDが強制的に反映できる。
【0096】
【0097】
仮想音源が特定位置を基準に右側に存在する場合、同側ゲインと反側の計算のために数式18の代わりに数式20が使われることができる。即ち、同側と反側の左右出力マッピングのみに変化があるのである。仮想音源が特定位置を基準に中央に存在する場合、前述した仮想音源が左側に存在する場合や右側に存在する場合に使われた方法全て適用できる。仮想音源が特定位置を基準に中央に存在する場合、ITDは0でありえる。
図12を見ると、仮想音源が中央にある場合、即ちHRIR_LeftとHRIR_Rightが互いに同一の場合には仮想音源が左側/右側に存在する場合対比周波数-時間変換過程がもう一度減少できる。
【0098】
以下、本明細書ではITDの具体的な値を計算する方法について説明する。ITDの具体的な値を計算する方法に、HRIRの両耳位相差(Interaural Phase Difference)を分析する方法、仮想音源の位置情報を活用する方法などが存在する。具体的に、本発明の一実施形態である仮想音源の位置情報を活用してITD値を計算し、付与する方法について説明する。
【0099】
図13は、本発明の一実施形態である乱信号円錐域を示す図面である。
【0100】
乱信号円錐域(Cone of Confusion、CoC)は両耳時間差が同一な円周として定義できる。乱信号円錐域は、
図13の実線で示す部分であり、乱信号円錐域に存在する音源がバイノーラルレンダリングされる場合、同一なITDが適用できる。
【0101】
バイノーラルキュー(Binaural Cue)である両耳レベル差(Interaural Level Difference)は周波数領域上で同側ゲインと反側ゲインを掛ける過程を通じて具現できる。ITDは時間領域上でバッファをディレイしながら付与できる。
図10の一実施形態ではバイノーラル信号生成のために4回の変換が必要であったが、
図12の一実施形態では、1回または2回の変換のみ必要であるので、演算量が減少する効果がある。
【0102】
図14は、本発明の一実施形態に従う複数個の入力信号に対するバイノーラル化方法を示す図面である。
【0103】
図14は、
図12で説明したバイノーラル化を遂行する方法をN個の入力信号に拡張して一般化する方法に対する図面である。即ち、
図14は複数個の音源が存在する時を例示した図面である。
図14を見ると、N個の周波数入力信号と、周波数入力信号と対応する仮想音源の位置、及び両耳への伝達関数であるHRIR(Head Related Impulse Response)が存在する時、左同側ミキサーと右同側ミキサーを使用して時間ディレイ(Time Delay)のない同側信号を周波数領域でミキシングした後、プロセシングする構造を有する。
図11の場合、N*2+2回の変換が必要であったが、
図14に従う場合、N個の入力に対して必要な変換回数は最大N+2回となって、変換回数が半分程度減少する効果がある。
【0104】
図15は、本発明の一実施形態に従う仮想入力信号が乱信号円錐域に位置する場合を示す図面である。
【0105】
具体的に、
図15は仮想音源の位置が乱信号円錐域に位置した場合、仮想音源をバイノーラル化する方法に対する図面である。
図15のように仮想音源の位置が乱信号円錐域に位置する場合、反側信号に対する周波数-時間変換は1つに縛られて進行できる。例えば、
図15のように、1つの乱信号円錐域に3個のスピーカーが位置するようにして総15個の仮想入力信号をバイノーラル化する場合、バイノーラル信号生成のための装置は6回の周波数変換だけでも仮想入力信号をバイノーラル化することができる。したがって、前述した
図11の場合、15個のスピーカー(仮想音源)が存在する場合、32回(N*2+1=15*2+2)の変換が必要であったが、
図15の場合、
図16に従って6回の変換によりバイノーラル信号を生成することができるので、変換回数が約80%位減少する効果がある。
【0106】
図16は、本発明の一実施形態に従う仮想入力信号をバイノーラル化する方法を示す図面である。
【0107】
図16を見ると、
図15の1乃至3位置に存在するスピーカーの仮想音源の反側信号に対する変換は3回でない1回だけ遂行できる。4乃至6位置に存在するスピーカーの仮想音源、10乃至12位置に存在するスピーカーの仮想音源、13乃至15位置に存在するスピーカーの仮想音源も同様である。
【0108】
本発明の一実施形態によれば、バイノーラル信号生成のための装置が仮想音源のバイノーラル化を遂行するに当たって、同側成分は全て同相(In-Phase)形態にミキシングできる。一般に、バイノーラル化に使われるHRIRの時間差によって周波数干渉によるトーン(Tone)変化が発生して音質劣化が発生することがある。しかしながら、本発明の一実施形態で適用される同側ゲインA_Iは同側HRIRの周波数サイズ(Amplitude)のみを扱っている。したがって、同側ゲインA_Iが適用された信号の位相は信号本来の位相を維持することができる。したがって、音の方向によって同側成分の到着時間(Arrival Time)が他の特性を有する一般的なHRIRとは異なり、方向別同側成分の到着時間差を全て除去して均一になる効果がある。即ち、1つの信号が複数個のチャンネルに分配される場合、一般的なHRIRを使用する時に発生する到着時間に従うカラーレーション(Coloration)が除去される効果がある。
【0109】
図17乃至
図19は、前述したバイノーラル化をアップミキシングに応用する一実施形態を示す図面である。
【0110】
図17は、本発明の一実施形態に従うアップミキサーを示す図面である。
【0111】
図17は、5チャンネルの入力信号を正面4チャンネルと後面4チャンネルに変形して総8チャンネル信号を生成するアップミキサーの一例を示す。
図17の入力信号のインデックスであるC、L、R、LS、RSは5.1チャンネル信号のCenter、Left、Right、Left Surround、Right Surroundを示す。入力信号がアップミックスされる場合、アップミックスアーティファクト(Upmix Artifact)を減らすために残響器(Reverberator)が使われる。
【0112】
図18は、本発明の一実施形態に従う対称的なレイアウト構成を示す図面である。
【0113】
前述した方法を通じてアップミックスされた信号は、
図18に示すように、X_F1は正面、X_B1は後面、X_F2[l][L]とX_B2[l][L]は左側、X_F2[l][R]とX_B2[L][R]は右側に位置する対称的な(Symmetric)仮想のレイアウトで構成できる。
【0114】
図19は、本発明の一実施形態に従う入力信号をバイノーラル化する方法を示す図面である。
【0115】
図19は、
図18のように対称的な仮想のレイアウトに対応する信号をバイノーラル化する方法に対する一例である。
【0116】
図18に従うX_F1、X_B1に対応する4個の位置(X_F1[l][L]、XF1[l][R]、X_B1[l][L]、X_B1[l][R])は全てD_1Cに該当する同一のITDを有することができる。
図18に従うX_F2、X_B2による4個の位置(X_F2[l][L]、XF2[l][R]、X_B2[l][L]、X_B2[l][R])は全てD_2Cに該当する同一のITDを有することができる。例えば、ITDは1ms以下の値を有することができる。
【0117】
図19を見ると、周波数信号(例:
図17の1乃至15位置に存在するスピーカーの仮想音源)に仮想チャンネルのHRIRを基盤に計算された同側ゲインと反側ゲインが適用できる。左同側ミキサーと右同側ミキサーで全ての同側周波数信号がミキシングできる。反側周波数信号はX_F1とX_B1の対、X_F2とX_B2の対のようにITDが同一の信号同士左反側ミキサーと右反側ミキサーによりミキシングされる。以後、ミキシングされた信号は周波数-時間変換を通じて時間領域上の信号に変換できる。変換された信号に合成窓とoverlap and addプロセシングが適用され、最終的に反側時間信号にD_1CとD_2Cが適用されて出力信号y_timeが生成できる。
図19によれば、バイノーラル信号生成のために6回の変換が適用される。これは
図11に示された方法を使用した場合、18回の変換が必要なもの対比3分の1の変換(即ち、6回の変換)を通じて類似のレンダリングが可能であるという効果がある。
【0118】
周波数信号入力に対するインタラクティブバイノーラル化(Interactive Binauralization)方法
仮想現実のためのヘッドマウンテッドディスプレイ(Head Mounted Display、HMD)の他にも、最近のヘッドホン(Headphone)機器(以下、ユーザ機器)はジャイロ(Gyro)のようなセンサーを活用してユーザのヘッドオリエンテーション(Head Orientation)に対する情報を提供することができる。この際、ヘッドオリエンテーションに対する情報は、ヨー(Yaw)、ピッチ(Pitch)、ロール(Roll)、またはアップベクトル(Up vector)と前方ベクトル(Forward Vector)の形態に計算されるインターフェースに提供できる。このような機器はユーザのヘッドオリエンテーションによって音源の相対的な位置を計算して前記音源のバイノーラル化を遂行することができる。これを通じて前記機器はユーザと相互作用(Interactivitiness)して向上した没入感(Immersiveness)を提供することができる
【0119】
図20は、本発明の一実施形態に従うユーザのヘッドオリエンテーションに対応したインタラクティブバイノーラル化が遂行される方法を示す図面である。
【0120】
図20を参考すると、ユーザ機器がユーザのヘッドオリエンテーションに対応したインタラクティブバイノーラル化を遂行する過程の一例は以下の通りである。
【0121】
i)ユーザ機器のアップミキサーは、一般ステレオ音源(入力音源)、ヘッドオリエンテーション、仮想スピーカーレイアウト、及び仮想スピーカーのHRIRの入力を受けることができる。
【0122】
ii)ユーザ機器のアップミキサーは、一般ステレオ音源の入力を受けて
図4を通じて説明したアップミキシング過程を通じてNチャンネル周波数信号を抽出することができる。そして、ユーザ機器は抽出したNチャンネル周波数信号をN個の客体周波数信号として定義することができる。また、Nチャンネルレイアウトは客体位置に対応して提供できる。
【0123】
iii)ユーザ機器は、N個の客体位置とユーザのヘッドオリエンテーション情報からN個のユーザ中心の相対的客体位置を計算することができる。カルテシアン座標(Cartesian Coordinate)で、x、y、zとして定義されたn番目の客体位置ベクトルP_nはユーザのヨー(yaw)、ピッチ(pitch)、ロール(roll)に基盤した回転変換行列(Rotation Matrix)M_rotとの内積を通じてカルテシアン座標上での相対的客体位置P_rot_nに変換できる。
【0124】
iv)ユーザ機器のミキシング行列生成部は、計算されたN個の相対的客体位置を基盤に、各々の客体周波数信号L個の仮想スピーカーで構成された仮想スピーカーレイアウト上でパンニング(Panning)係数を求めてLxN次元のミキシング行列(Mixing Matrix)であるMを生成することができる。
【0125】
v)ユーザ機器のPannerはN個の客体信号にLxM次元のミキシング行列を掛けてL個の仮想スピーカー信号を生成することができる。
【0126】
vi)ユーザ機器のバイノーラル化器(Binauralizer)は仮想スピーカー信号、仮想スピーカーレイアウト、仮想スピーカーのHRIRを使用して
図14を通じて説明したバイノーラル化を遂行することができる。
【0127】
iv)に定義されたパンニング係数を計算する方法は、正規化(Normalization)方式に従って一定パワーパンニング(Constant Power Panning)または一定ゲインパンニング(Constant Gain Panning)のような方法が使われることができる。また、任意のレイアウトを定義するという点でベクトル基盤振幅パンニング(Vector Base Amplitude Panning)のような方法も使われることができる。
【0128】
本発明の一実施形態で最終の出力が物理的なラウドスピーカーに連結されるのでない、バイノーラル化がなされるという点を考慮して、レイアウト構成はバイノーラル化に最適化されるように構成できる。
【0129】
図21は、本発明の一実施形態に従う両耳間極座標系(Interaural Polar Coordinate、IPC)上で乱信号円錐域で構成された仮想スピーカーレイアウトを示す図面である。
【0130】
図21によれば、仮想スピーカーレイアウトはCoC_1~CoC_5の5個の乱信号円錐域で構成された総15個の仮想スピーカーを含むことができる。仮想のレイアウトは、総5個の乱信号円錐域で構成された総15個のスピーカーと左側端及び右側端のスピーカーを含んで総17個のスピーカーで構成できる。この際、仮想スピーカーへのパンニングは後述する2回のステップを通じて遂行できる。
【0131】
本発明の一実施形態に、仮想スピーカーレイアウトは乱信号円錐域上に存在し、3個以上の乱信号円錐域で構成できる。この際、3個以上の乱信号円錐域のうちのいずれかは中央平面(Median Plane)上に位置することができる。
【0132】
1つの乱信号円錐域には同一のIPC方位角を有する複数個の仮想スピーカーが存在することができる。一方、方位角が+90度、-90度の場合、1つの乱信号円錐域は1つの仮想スピーカーだけでも構成が可能である。
【0133】
図22は、本発明の一実施形態に従う仮想スピーカーへのパンニング方法を示す図面である。
【0134】
図22を参考して仮想スピーカーへのパンニング方法について説明する。
【0135】
仮想スピーカーへのパンニング方法の第1のステップは、
図22のようなIPC上での方位角(Azimuth)情報を活用して1、4、7、10、13、16、17に該当する7個の仮想スピーカー上に2次元パンニングを遂行するものである。即ち、客体Aは1と16にパンニングし、Bは4と7にパンニングする。具体的なパンニング方法には、一定パワーパンニング、一定ゲインパンニングなどの方法が使用可能である。また、数式21のようにsin、cosの加重値(weighting)をゲインに正規化される形態の方法が使われることができる。数式21は、
図22の客体Aをパンニングする方法の一例である。数式21のaxi_xはxの方位角を意味するものであって、例えば、数式21のazi_aはAの方位角を意味する。
【0136】
【0137】
客体Aは1と16の間に存在するので、16番目の客体の位置ベクトルP_16が計算される。また、AはCoC1に存在するので、P_CoC1が計算される。
【0138】
図23は、本発明の一実施形態に従う仮想スピーカーへのパンニング方法を示す図面である。
【0139】
仮想スピーカーへのパンニング方法の第2のステップは、各々の乱信号円錐に位置する仮想スピーカーを使用してIPC仰角(Elevation)に対する定位を遂行するものである。
【0140】
図23を参考すると、CoC_1に位置するAの成分は1番スピーカーと7番スピーカーの間に位置するので、数式22のようにパンニングできる。数式22のele_xはxの仰角を意味するものであって、例えば、数式22のele_aはAの仰角を意味する。
【0141】
【0142】
数式21及び数式22を通じて計算されたパンニングゲインP_1、P_7、P_16を活用して客体Aは定位できる。
【0143】
図24は、本発明の一実施形態に従う仮想スピーカーへのパンニングのための球形ビュー(Spherical View)を示す図面である。
【0144】
図25は、本発明の一実施形態に従う仮想スピーカーへのパンニングのための左側ビュー(Left View)を示す図面である。
【0145】
以下、
図24、
図25を参考して、仮想スピーカーへのパンニング方法を一般化して説明する。
【0146】
前述したミキシング行列は後述する方法により生成できる。
【0147】
a)N個のスピーカー信号を出力するためのシステムのミキシング行列を生成するためのミキシング行列生成部は、IPC上での方位角と仰角azi_aとele_aに位置する客体信号をC個の乱信号円錐域で構成されたN個のスピーカーレイアウトに定位して仮想スピーカーへのパンニングを遂行した後、ミキシング行列を生成することができる。
【0148】
b)仮想スピーカーへのパンニングのために方位角情報を活用した方位角パンニング(Azimuth Panning)と乱信号円錐に位置する仮想スピーカーを使用してIPC仰角(Elevation)に対する定位のための仰角パンニング(Elevation Panning)が遂行できる。方位角パンニングは乱信号円錐域パンニング(Cone-of-Confusion Panning)にして記述できる。
【0149】
b-i)方位角パンニング
ミキシング行列生成部は、C個の乱信号円錐域のうち、azi_aの左側、右側に最も隣接した2つの乱信号円錐域を選択することができる。そして、ミキシング行列生成部は、選択された2つの乱信号円錐域の左側乱信号円錐域CoC_LeftのIPC方位角azi_CoC_Leftと右側乱信号円錐域CoC_RightのIPC方位角azi_CoC_Rightを基準に乱信号円錐域間のパンニングゲインP_CoC_LeftとP_CoC_Rightを数式23のように計算することができる。パンニングゲインP_CoC_LeftとP_CoC_Rightの合は1でありえる。方位角パンニングは水平パンニングにして記述できる。
【0150】
【0151】
b-ii)仰角パンニング
ミキシング行列生成部は、CoC_Leftの上に存在する仮想スピーカーのうち、ele_aの時計方向、時計反回り方向に最も隣接した2つの仮想スピーカーCW、CCWを選択することができる。そして、ミキシング行列生成部は、CWのIPC仰角であるele_CoC_LeftとCCWのIPC仰角であるele_CoC_Left_CCWの間に定位するパンニングゲインP_CoC_Left_CWとP_CoC_Left_CCWを数式24のように計算することができる。また、ミキシング行列部は、これと同一の方法を使用してP_CoC_Right_CWとP_CoC_Right_CCWを数式25のように計算することができる。パンニングゲインP_CoC_Right_CWとP_CoC_Right_CCWの合は1でありえる。仰角パンニングは垂直パンニングにして記述できる。
【0152】
【0153】
【0154】
ミキシング行列生成部は、前述した過程を通じて生成されたP_CoC_Left_CW、P_CoC_Right_CW、P_CoC_Left_CCW、P_CoC_Right_CCWに対応するスピーカーのインデックスを各々a、b、c、dとする時、入力客体Aに対する最終パンニングゲインP[a][A]を数式26のように計算することができる。
【0155】
【0156】
また、ミキシング行列生成部は前述したa)、b)の過程を繰り返してN個の客体をL個の仮想チャンネルスピーカーに定位させる全体ミキシング行列Mを数式27のように生成することができる。
【0157】
【0158】
ミキシング行列が計算されれば、PannerはN個の入力信号X[1~N]とミキシング行列Mを活用してL個の仮想スピーカー信号Sを数式28のように生成することができる。数式28のdot関数は内積を意味する。
【0159】
【0160】
ユーザ機器(例:ヘッドホン)は、出力信号仮想スピーカーレイアウトと、これに対応するHRIR、及び仮想スピーカー入力信号Sをバイノーラル化して出力することができる。この際、バイノーラル化は
図14を参考して説明したバイノーラル化方法が使われることができる。
【0161】
本明細書で説明したミキシング行列を計算し、音像を定位させる方法とバイノーラル化する方法との結合に対してまた説明すると、次の通りである。
【0162】
i)数式23のように客体音源のIPC上の方位角により乱信号円錐域対が決定できる。この際、水平補間(Interpolation)割合はP_CoC_Left、P_CoC_Rightの割合で定義できる。
【0163】
ii)数式24と数式25のように、IPC上の仰角を用いて客体音源と隣接した2つの仮想スピーカーの垂直補間割合はP_CoC_Right_CW(または、P_CoC_Left_CW)、P_CoC_Right_CCW(または、P_CoC_Left_CCW)と定義できる。
【0164】
そして、iii)4個の仮想音源(客体音源と隣接した4個の仮想スピーカー)のパンニングが数式26のように水平補間割合と垂直補間割合を通じて計算される。
【0165】
iv)バイノーラルレンダリングは1つの入力客体(例:音源)に対するパンニング係数と4個の仮想音源のHRIRを掛けて遂行できる。これは、補間されたHRIR(Interpolated HRIR)を合成した後、補間されたHRIRを客体音源に掛けてバイノーラル化することと同一でありえる。この際、補間されたHRIRは数式26を通じて計算された4個の仮想音源に対するパンニングゲインを各々の仮想音源に対応するHRIRに適用して生成できる。
【0166】
補間係数を計算する前記数式23、数式24、数式25は、一般的なラウドスピーカパンニングで使用するパワー正規化(Power Normalization)でないゲイン正規化(Gain Normalization)特性を有する特徴がある。バイノーラル化により信号がまたミキシングされる場合、同一の乱信号円錐域に位置するIPC仰角対応垂直成分仮想チャンネル信号は同相(In-phase)で加えられる特性を有する。したがって、補強干渉のみ起こることを考慮してゲイン正規化が遂行できる。乱信号円錐域の他のIPC方位角対応水平信号の場合にも、信号が大きい方向である同側成分は全て同相で加えられる特性を有する。したがって、ゲイン正規化が遂行できる。
【0167】
図26は、本発明の一実施形態に従うバイノーラル信号生成のためのフローチャートを示す図面である。
【0168】
図26は、
図1乃至
図25を通じて前述した一実施形態に従うバイノーラル信号を生成するための方法に対するものである。
【0169】
バイノーラル信号生成のために、バイノーラル信号生成装置は、ステレオ信号を受信し、前記ステレオ信号を周波数領域上の信号に変換することができる(S2610、S2620)。
【0170】
バイノーラル信号生成装置は、前記周波数領域上の信号を、前記周波数領域上の信号の各チャンネル間相関度(correlation)及び各チャンネル間エネルギー割合(Inter-Channel Level Difference、ICLD)に基づいて第1信号と第2信号に分離することができる(S2630)。
【0171】
この際、前記第1信号は前記周波数領域上の信号の正面成分を含み、前記第2信号は前記周波数領域上の信号の側面成分を含むことができる。
【0172】
バイノーラル信号生成装置は、第1同側フィルタ係数に基づいて前記第1信号をレンダリングし、前記周波数領域上の信号に対する正面同側信号を生成することができる(S2640)。前記第1同側フィルタ係数は第1のHRIR(Head Related Impulse Response)の同側応答信号に基づいて生成できる。
【0173】
バイノーラル信号生成装置は、第2同側フィルタ係数に基づいて前記第2信号をレンダリングし、前記周波数領域上の信号に対する側面同側信号を生成することができる(S2650)。前記第2同側フィルタ係数は第2のHRIRの同側応答信号に基づいて生成できる。
【0174】
バイノーラル信号生成装置は、反側フィルタ係数に基づいて前記第2信号をレンダリングし、前記周波数領域上の信号に対する側面反側信号を生成することができる(S2660)。前記反側フィルタ係数は前記第2のHRIRの反側応答信号に基づいて生成できる。
【0175】
バイノーラル信号生成装置は、前記正面同側信号及び前記側面同側信号をミキシングして生成された同側信号及び前記側面反側信号を時間領域上の信号である時間領域同側信号及び時間領域反側信号に各々変換することができる(S2670)。
【0176】
バイノーラル信号生成装置は、前記時間領域同側信号及び前記時間領域反側信号をミキシングしてバイノーラル信号を生成することができる(S2680)。
【0177】
前記バイノーラル信号は、前記時間領域反側信号に両耳時間差(Interaural Time Delay、ITD)を考慮して生成できる。
【0178】
前記第1同側フィルタ係数、前記第2同側フィルタ係数、及び前記反側フィルタ係数は実数値でありえる。
【0179】
前記第1信号の左チャンネル信号と前記第2信号の左チャンネル信号の合は前記ステレオ信号の左チャンネル信号と同一でありえる。
【0180】
前記第1信号の右チャンネル信号と前記第2信号の右チャンネル信号の合は前記ステレオ信号の右チャンネル信号と同一でありえる。
【0181】
前記第1信号の左チャンネル信号のエネルギーと前記第1信号の右チャンネル信号のエネルギーは互いに同一でありえる。
【0182】
前記HRIRの同側特性は、ITDを考慮したHRIRの反側特性が適用できる。
【0183】
前記ITDは1ms以下でありえる。
【0184】
前記第1信号の左チャンネル信号の位相と前記正面同側信号の左チャンネル信号の位相は同一でありえる。前記第1信号の右チャンネル信号の位相と前記正面同側信号の右チャンネル信号の位相は同一でありえる。また、前記第2信号の左チャンネル信号の位相、前記側面同側信号の左-側面信号の位相、及び前記側面反側信号の左-側面信号の位相は同一でありえる。前記第2信号の右チャンネル信号の位相、前記側面同側信号の右-側面信号の位相、前記側面反側信号の右-側面信号の位相は同一でありえる。
【0185】
ステップS2670は、前記正面同側信号及び前記側面同側信号を左、右チャンネル別に各々ミキシングして生成された左-同側信号及び右-同側信号の各々を時間領域上の信号である時間領域左-同側信号及び時間領域右-同側信号に変換するステップ;前記側面反側信号を左、右チャンネル別に各々時間領域上の信号である左-側面反側信号及び右-側面反側信号に変換するステップ;でありえる。
【0186】
この際、前記バイノーラル信号は、前記時間領域左-同側信号及び時間領域左-側面反側信号をミキシングし、前記時間領域右-同側信号及び時間領域右-側面反側信号をミキシングして生成できる。
【0187】
バイノーラル信号生成装置は、前述したバイノーラル信号生成方法を遂行するためにステレオ信号を受信する入力端及びレンダラーを含むプロセッサを含んで構成できる。
【0188】
以上、本発明を具体的な実施形態を通じて説明したが、当業者であれば、本発明の趣旨及び範囲を逸脱することなく修正、変更することができる。即ち、本発明はオーディオ信号に対するバイノーラルレンダリングの実施形態に対して説明したが、本発明はオーディオ信号だけでなく、ビデオ信号を含む多様なマルチメディア信号にも同一に適用及び拡張可能である。したがって、本発明の詳細な説明及び実施形態から本発明が属する技術分野に属する者が容易に類推することができることは本発明の権利範囲に属することと解釈される。
【0189】
前述した本発明の実施形態は多様な手段を通じて具現できる。例えば、本発明の実施形態はハードウェア、ファームウエア(firmware)、ソフトウェア、またはそれらの結合などにより具現できる。
【0190】
ハードウェアによる具現の場合、本発明の実施形態に従う方法は1つまたはその以上のASICs(Application Specific Integrated Circuits)、DSPs(Digital Signal Processors)、DSPDs(Digital Signal Processing Devices)、PLDs(Programmable Logic Devices)、FPGAs(Field Programmable Gate Arrays)、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサなどにより具現できる。
【0191】
ファームウエアやソフトウェアによる具現の場合、本発明の実施形態に従う方法は以上で説明された機能または動作を遂行するモジュール、手続き、または関数などの形態に具現できる。ソフトウェアコードは、メモリに格納されてプロセッサにより駆動できる。前記メモリはプロセッサの内部または外部に位置することができ、既に公知された多様な手段によりプロセッサとデータのやり取りをすることができる。
【0192】
一部の実施形態はコンピュータにより実行されるプログラムモジュールのようなコンピュータにより実行可能な命令語を含む記録媒体の形態にも具現できる。コンピュータ読取可能媒体はコンピュータによりアクセスできる任意の可用媒体でありえ、揮発性及び不揮発性媒体、分離型及び非分離型媒体を全て含む。また、コンピュータ読取可能媒体は、コンピュータ格納媒体及び通信媒体を全て含むことができる。コンピュータ格納媒体は、コンピュータ読取可能命令語、データ構造、プログラムモジュール、またはその他のデータのような情報の格納のための任意の方法または技術で具現された揮発性及び不揮発性、分離型及び非分離型媒体を全て含む。通信媒体は、典型的にコンピュータ読取可能命令語、データ構造またはプログラムモジュールのような変調されたデータ信号のその他のデータ、またはその他の転送メカニズムを含み、任意の情報伝達媒体を含む。
【0193】
前述した本発明の説明は例示のためのものであり、本発明が属する技術分野の通常の知識を有する者は本発明の技術的思想や必須な特徴を変更せず、他の具体的な形態に容易に変形可能であるということを理解することができる。したがって、以上で記述した実施形態は全ての面で例示的なものであり、限定的でないものとして解釈しなければならない。例えば、単一型として説明されている各構成要素は分散されて実施されることもでき、同様に、分散されたものとして説明されている構成要素も結合された形態に実施できる。
【手続補正書】
【提出日】2022-03-01
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
オーディオ信号処理方法であって、
仮想スピーカーレイアウトを受信するステップであって、前記仮想スピーカーレイアウトが複数の仮想スピーカーを備え、前記仮想スピーカーレイアウトが複数の乱信号円錐域(CoC)からなる、ステップと、
前記複数の仮想スピーカーの信号のそれぞれについて周波数領域上で同側信号を取得するステップと、
前記複数の仮想スピーカーの信号のそれぞれについて前記周波数領域上で反側信号を取得するステップと、
前記周波数領域上で前記同側信号をミキシングすることによって、ミキシングされた同側信号を取得するステップと、
前記周波数領域上で前記反側信号の中の同じCoCに位置する仮想スピーカーの反側信号をミキシングすることによって、複数のミキシングされた反側信号を取得するステップと、
前記ミキシングされた同側信号を変換することによって時間領域上で同側信号を取得するステップと、
前記複数のミキシングされた反側信号を変換することによって前記時間領域上で複数の反側信号を取得するステップと、
前記時間領域上での前記同側信号および前記時間領域上での前記複数の反側信号に基づいてバイノーラル信号を取得するステップと
を備える、方法。
【請求項2】
前記同じCoCに位置する前記仮想スピーカーの前記反側信号のそれぞれの両耳時間差(ITD)が等しい、請求項1に記載の方法。
【請求項3】
前記周波数領域上での前記同側信号が、前記周波数領域上での前記同側信号のそれぞれについての頭部伝達関数(HRTF)の振幅特性に基づいて取得される、請求項1に記載の方法。
【請求項4】
前記周波数領域上での前記反側信号が、前記周波数領域上での前記反側信号のそれぞれについての頭部伝達関数(HRTF)の振幅特性に基づいて取得される、請求項1に記載の方法。
【請求項5】
前記複数のCoCの数が少なくとも3である、請求項1に記載の方法。
【請求項6】
前記複数のCoCの数の1つが中央平面上に位置する、請求項5に記載の方法。
【請求項7】
前記ITDが1ミリ秒(ms)より小さい、請求項2に記載の方法。
【請求項8】
前記周波数領域上での前記同側信号および前記周波数領域上での前記反側信号が、それぞれ、位相で独立して取得される、請求項1に記載の方法。
【請求項9】
オーディオ信号処理装置であって、
オーディオ信号を受信するように構成される入力端と、
レンダラーを含むプロセッサであって、
仮想スピーカーレイアウトを受信することであって、前記仮想スピーカーレイアウトが複数の仮想スピーカーを備え、前記仮想スピーカーレイアウトが複数の乱信号円錐域(CoC)からなる、受信することと、
前記複数の仮想スピーカーの信号のそれぞれについて周波数領域上で同側信号を取得することと、
前記複数の仮想スピーカーの信号のそれぞれについて前記周波数領域上で反側信号を取得することと、
前記周波数領域上で前記同側信号をミキシングすることによって、ミキシングされた同側信号を取得することと、
前記周波数領域上で前記反側信号の中の同じCoCに位置する仮想スピーカーの反側信号をミキシングすることによって、複数のミキシングされた反側信号を取得することと、
前記ミキシングされた同側信号を変換することによって時間領域上で同側信号を取得することと、
前記複数のミキシングされた反側信号を変換することによって前記時間領域上で複数の反側信号を取得することと、
前記時間領域上での前記同側信号および前記時間領域上での前記複数の反側信号に基づいてバイノーラル信号を取得することと
を行うように構成される、プロセッサと、
を備える、装置。
【請求項10】
前記同じCoCに位置する前記仮想スピーカーの前記反側信号のそれぞれの両耳時間差(ITD)が等しい、請求項9に記載の装置。
【請求項11】
前記周波数領域上での前記同側信号が、前記周波数領域上での前記同側信号のそれぞれについての頭部伝達関数(HRTF)の振幅特性に基づいて取得される、請求項9に記載の装置。
【請求項12】
前記周波数領域上での前記反側信号が、前記周波数領域上での前記反側信号のそれぞれについての頭部伝達関数(HRTF)の振幅特性に基づいて取得される、請求項9に記載の装置。
【請求項13】
前記複数のCoCの数が少なくとも3である、請求項9に記載の装置。
【請求項14】
前記複数のCoCの数の1つが中央平面上に位置する、請求項13に記載の装置。
【請求項15】
前記ITDが1ミリ秒(ms)より小さい、請求項10に記載の装置。
【請求項16】
前記周波数領域上での前記同側信号および前記周波数領域上での前記反側信号が、それぞれ、位相で独立して取得される、請求項9に記載の装置。