特開2022-78172 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ガウディ・オーディオ・ラボ・インコーポレイテッドの特許一覧

特開2022-78172アップミキシングバイノーラル化を用いたステレオ信号からバイノーラル信号を生成する方法及びそのための装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022078172

(43)【公開日】2022-05-24

(54)【発明の名称】アップミキシングバイノーラル化を用いたステレオ信号からバイノーラル信号を生成する方法及びそのための装置

(51)【国際特許分類】

H04S 7/00 20060101AFI20220517BHJP

【ＦＩ】

H04S7/00 300

【審査請求】有

【請求項の数】16

【出願形態】ＯＬ

(21)【出願番号】P 2022030964

(22)【出願日】2022-03-01

(62)【分割の表示】P 2020155423の分割

【原出願日】2020-09-16

(31)【優先権主張番号】10-2019-0113428

(32)【優先日】2019-09-16

(33)【優先権主張国・地域又は機関】KR

(31)【優先権主張番号】10-2019-0123839

(32)【優先日】2019-10-07

(33)【優先権主張国・地域又は機関】KR

(71)【出願人】

【識別番号】518449353

【氏名又は名称】ガウディオ・ラボ・インコーポレイテッド

(74)【代理人】

【識別番号】100108453

【弁理士】

【氏名又は名称】村山靖彦

(74)【代理人】

【識別番号】100110364

【弁理士】

【氏名又は名称】実広信哉

(74)【代理人】

【識別番号】100133400

【弁理士】

【氏名又は名称】阿部達彦

(72)【発明者】

【氏名】サンペ・チョン

(72)【発明者】

【氏名】ビョンジュン・アン

(72)【発明者】

【氏名】ジェスン・チェ

(72)【発明者】

【氏名】ヒョンオ・オ

(72)【発明者】

【氏名】ジョンフン・ソ

(72)【発明者】

【氏名】テギュ・イ

(57)【要約】（修正有）

【課題】アップミキシングとバイノーラルレンダリングが効率よく結合されたｏｖｅｒｌａｐ－ａｎｄ－ａｄｄを提供する。
【解決手段】方法は、仮想スピーカーレイアウトを受信するステップと、複数の仮想スピーカーの信号の夫々について周波数領域上で同側信号を取得するステップと、複数の仮想スピーカーの信号の夫々について周波数領域上で反側信号を取得するステップと、ミキシングされた同側信号を取得するステップと、複数のミキシングされた反側信号を取得するステップと、ミキシングされた同側信号を変換することによって時間領域上で同側信号を取得するステップと、複数のミキシングされた反側信号を変換することによって時間領域上で複数の反側信号を取得するステップと、時間領域上での同側信号及び時間領域上での複数の反側信号に基づいてバイノーラル信号を取得するステップと、を備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

オーディオ信号処理方法において、
ステレオ信号を受信するステップ；
前記ステレオ信号を周波数領域上の信号に変換するステップ；
前記周波数領域上の信号を、前記周波数領域上の信号の各チャンネル間相関度（correlation）及び各チャンネル間エネルギー割合（Inter-Channel Level Difference、ＩＣＬＤ）に基づいて第１信号と第２信号とに分離するステップ、
前記第１信号は前記周波数領域上の信号の正面成分を含み、前記第２信号は前記周波数領域上の信号の側面成分を含み；
第１同側フィルタ係数に基づいて前記第１信号をレンダリングし、前記周波数領域上の信号に対する正面同側信号を生成するステップ、
前記第１同側フィルタ係数は第１のＨＲＩＲ（Head Related Impulse Response）の同側応答信号に基づいて生成され；
第２同側フィルタ係数に基づいて前記第２信号をレンダリングし、前記周波数領域上の信号に対する側面同側信号を生成するステップ、
前記第２同側フィルタ係数は第２のＨＲＩＲの同側応答信号に基づいて生成され；
反側フィルタ係数に基づいて前記第２信号をレンダリングし、前記周波数領域上の信号に対する側面反側信号を生成するステップ、
前記反側フィルタ係数は前記第２のＨＲＩＲの反側応答信号に基づいて生成され；
前記正面同側信号及び前記側面同側信号をミキシングして生成された同側信号及び前記側面反側信号を時間領域上の信号である時間領域同側信号及び時間領域反側信号に各々変換するステップ；及び
前記時間領域同側信号及び前記時間領域反側信号をミキシングしてバイノーラル信号を生成するステップ；を含み、
前記バイノーラル信号は前記時間領域反側信号に両耳時間差（Interaural Time Delay、ＩＴＤ）を考慮して生成され、
前記第１同側フィルタ係数、前記第２同側フィルタ係数、及び前記反側フィルタ係数は実数値であることを特徴とする、オーディオ信号処理方法。

【請求項2】

前記第１信号の左チャンネル信号と前記第２信号の左チャンネル信号との合は、前記ステレオ信号の左チャンネル信号と同一であることを特徴とする、請求項１に記載のオーディオ信号処理方法。

【請求項3】

前記第１信号の右チャンネル信号と前記第２信号の右チャンネル信号との合は、前記ステレオ信号の右チャンネル信号と同一であることを特徴とする、請求項１に記載のオーディオ信号処理方法。

【請求項4】

前記第１信号の左チャンネル信号のエネルギーと前記第１信号の右チャンネル信号のエネルギーは互いに同一であることを特徴とする、請求項１に記載のオーディオ信号処理方法。

【請求項5】

前記ＨＲＩＲの同側特性はＩＴＤを考慮したＨＲＩＲの反側特性が適用されることを特徴とする、請求項１に記載のオーディオ信号処理方法。

【請求項6】

前記ＩＴＤは１ｍｓ以下であることを特徴とする、請求項１に記載のオーディオ信号処理方法。

【請求項7】

前記第１信号の左チャンネル信号の位相と前記正面同側信号の左チャンネル信号の位相は同一であり、
前記第１信号の右チャンネル信号の位相と前記正面同側信号の右チャンネル信号の位相は同一であり、
前記第２信号の左チャンネル信号の位相、前記側面同側信号の左－側面信号の位相、及び前記側面反側信号の左－側面信号の位相は同一であり、
前記第２信号の右チャンネル信号の位相、前記側面同側信号の右－側面信号の位相、前記側面反側信号の右－側面信号の位相は同一であることを特徴とする、請求項１に記載のオーディオ信号処理方法。

【請求項8】

前記正面同側信号及び前記側面同側信号をミキシングして生成された同側信号及び前記側面反側信号を時間領域上の信号である時間領域同側信号及び時間領域反側信号に各々変換するステップは、
前記正面同側信号及び前記側面同側信号を左、右チャンネル別に各々ミキシングして生成された左－同側信号及び右－同側信号の各々を時間領域上の信号である時間領域左－同側信号及び時間領域右－同側信号に変換するステップ；
前記側面反側信号を左、右チャンネル別に各々時間領域上の信号である左－側面反側信号及び右－側面反側信号に変換するステップ；であり、
前記バイノーラル信号は、前記時間領域左－同側信号及び時間領域左－側面反側信号をミキシングし、前記時間領域右－同側信号及び時間領域右－側面反側信号をミキシングして生成されることを特徴とする、請求項１に記載のオーディオ信号処理方法。

【請求項9】

オーディオ信号処理装置において、
ステレオ信号を受信する入力端；及び
レンダラーを含むプロセッサを含み、
前記プロセッサは、
前記ステレオ信号を周波数領域上の信号に変換し、
前記周波数領域上の信号を、前記周波数領域上の信号の各チャンネル間相関度（correlation）及び各チャンネル間エネルギー割合（Inter-Channel Level Difference、ＩＣＬＤ）に基づいて第１信号と第２信号に分離し、
前記第１信号は、前記周波数領域上の信号の正面成分を含み、前記第２信号は、前記周波数領域上の信号の側面成分を含み、
第１同側フィルタ係数に基づいて前記第１信号をレンダリングし、前記周波数領域上の信号に対する正面同側信号を生成し、
前記第１同側フィルタ係数は第１のＨＲＩＲ（Head Related Impulse Response）の同側応答信号に基づいて生成され、
第２同側フィルタ係数に基づいて前記第２信号をレンダリングし、前記周波数領域上の信号に対する側面同側信号を生成し、
前記第２同側フィルタ係数は第２のＨＲＩＲの同側応答信号に基づいて生成され、
反側フィルタ係数に基づいて前記第２信号をレンダリングし、前記周波数領域上の信号に対する側面反側信号を生成し、
前記反側フィルタ係数は前記第２のＨＲＩＲの反側応答信号に基づいて生成され、
前記正面同側信号及び前記側面同側信号をミキシングして生成された同側信号及び前記側面反側信号を時間領域上の信号である時間領域同側信号及び時間領域反側信号に各々変換し、
前記時間領域同側信号及び前記時間領域反側信号をミキシングしてバイノーラル信号を生成し、
前記バイノーラル信号は前記時間領域反側信号に両耳時間差（Interaural Time Delay、ＩＴＤ）を考慮して生成され、
前記第１同側フィルタ係数、前記第２同側フィルタ係数、及び前記反側フィルタ係数は実数値であることを特徴とする、オーディオ信号処理装置。

【請求項10】

前記第１信号の左チャンネル信号と前記第２信号の左チャンネル信号との合は前記ステレオ信号の左チャンネル信号と同一であることを特徴とする、請求項９に記載のオーディオ信号処理装置。

【請求項11】

前記第１信号の右チャンネル信号と前記第２信号の右チャンネル信号との合は前記ステレオ信号の右チャンネル信号と同一であることを特徴とする、請求項９に記載のオーディオ信号処理装置。

【請求項12】

前記第１信号の左チャンネル信号のエネルギーと前記第１信号の右チャンネル信号のエネルギーは互いに同一であることを特徴とする、請求項９に記載のオーディオ信号処理装置。

【請求項13】

前記ＨＲＩＲの同側特性はＩＴＤを考慮したＨＲＩＲの反側特性が適用されることを特徴とする、請求項９に記載のオーディオ信号処理装置。

【請求項14】

前記ＩＴＤは１ｍｓ以下であることを特徴とする、請求項９に記載のオーディオ信号処理装置。

【請求項15】

前記第１信号の左チャンネル信号の位相と前記正面同側信号の左チャンネル信号位相は同一であり、
前記第１信号の右チャンネル信号の位相と前記正面同側信号の右チャンネル信号の位相は同一であり、
前記第２信号の左チャンネル信号の位相、前記側面同側信号の左－側面信号の位相、及び前記側面反側信号の左－側面信号の位相は同一であり、
前記第２信号の右チャンネル信号の位相、前記側面同側信号の右－側面信号の位相、前記側面反側信号の右－側面信号の位相は同一であることを特徴とする、請求項９に記載のオーディオ信号処理装置。

【請求項16】

前記プロセッサが、前記正面同側信号及び前記側面同側信号をミキシングして生成された同側信号及び前記側面反側信号を時間領域上の信号である時間領域同側信号及び時間領域反側信号に各々変換することは、
前記正面同側信号及び前記側面同側信号を左、右チャンネル別に各々ミキシングして生成された左－同側信号及び右－同側信号の各々を時間領域上の信号である時間領域左－同側信号及び時間領域右－同側信号に変換し、
前記側面反側信号を左、右チャンネル別に各々時間領域上の信号である左－側面反側信号及び右－側面反側信号に変換するのであり、
前記バイノーラル信号は、前記時間領域左－同側信号及び時間領域左－側面反側信号をミキシングし、前記時間領域右－同側信号及び時間領域右－側面反側信号をミキシングして生成されることを特徴とする、請求項９に記載のオーディオ信号処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明はオーディオ信号を効果的に転送及び再生するための信号処理方法及び装置に関し、より詳しくは、放送、ストリーミングなどのオーディオが含まれたメディアサービスを用いるユーザに一層空間感の高いオーディオ信号を提供するためのオーディオ信号処理方法及び装置に関する。

【背景技術】

【0002】

５．１チャンネルのような多チャンネルオーディオフォーマットが登場した以後、多チャンネルオーディオ信号を通じてより実感がわき、現場感のある音響を提供するコンテンツはメディア市場の主流媒体として認識される。既に劇場では既存の５．１チャンネル基盤サウンドシステムを超えて客体を活用したDolby Atmoのような形態のコンテンツ及び再現システムが多く見られて、家電の場合にも既存のディスク形態であるＤＶＤやBluray Discにある多チャンネルコンテンツをホームシアターのような機器で充実に再現することを超えて、サウンドバー（Sound bar）やＵＨＤＴＶのように機器上の制限されたフォームファクタ（Form Factor）に原本の多チャンネルコンテンツの音響を提供する仮想の３Ｄレンダリングを通じて、より実感がわき、現場感のある音響を提供することをその主要差別点とする。

【0003】

それにも拘わらず、コンテンツが消費される最も主流の機器はスマートフォン、タブレットのような個人用装置（Personal Device）であり、その場合、大部分ステレオフォーマットで伝達されてイヤホン、ヘッドホンなどを通じて出力されるが、このような場合、充分の実感音響を提供することが難しくなる。これを克服するためにアップミキサー（Upmixer）とバイノーラルレンダラー（Binaural Renderer）を使用することができる。

【0004】

アップミキシング（Upmixing）の場合、信号に対する分析を通じて合成する構造を主に使用するようになるが、完全復元（Perfect Reconstruction）を保証するウィンドウイング（Windowing）と時間－周波数変換（Time Frequency Transform）に基盤したOverlap-and-Addプロセシング構造を有する。

【0005】

バイノーラルレンダリング（Binaural Rendering）の場合、与えられた仮想チャンネルの頭部関連インパルス応答（Head Related Impulse Response、ＨＲＩＲ）を畳み込み（Convolution）する方式により具現されるが、相対的に多い演算量を必要としてゼロ－パディング（Zero-padding）の以後、時間－周波数変換した信号を周波数領域で掛ける構造を有し、とても長いＨＲＩＲを必要とする場合にはブロック畳み込み（Block Convolution）を取ることもある。

【0006】

前記アップミキシングとバイノーラルレンダリングは全て周波数領域でなされるが、２つの周波数領域はその特性が異なる。アップミキシングの周波数領域での信号の変化は一般的に位相（Phase）変化がないことが特徴である。位相の変化は分析ウィンドウ（Analysis Window）と合成ウィンドウ（Synthesis Window）による完全復元仮定が崩れるためである。バイノーラルレンダリングの周波数領域では位相の変化を含む循環畳み込み（Circular Convolution）領域や、畳み込みを行うための信号とＨＲＩＲにゼロ－パディングされているので、循環畳み込みによるエイリアシング（Aliasing）が発生してはならない制約条件がある。アップミキシングによる入力信号の変化はゼロ－パディング領域を保証しないためである。

【0007】

２つのプロセシングを直列（Serial）的な構造で結合する場合には、アップミキシングのための時間－周波数変換が全て含まれなければならないので、非常に高い演算量を必要とする。したがって、２つの構造を全て反映させることができ、演算量の面で最適化した技法が必要である。

【発明の概要】

【発明が解決しようとする課題】

【0008】

本発明は、アップミキシングとバイノーラルレンダリングが効率よく結合されたoverlap-and-addを提供するための目的を有している。

【0009】

本発明は、正面音像定位時に発生するコムフィルタリング（Comb Filtering）のようなカラレーションアーティファクト（Coloration Artifact）を減らすために同側レンダリング（Ipsilateral Rendering）使用方法を提供するための目的を有している。

【課題を解決するための手段】

【0010】

本明細書は、オーディオ信号処理方法を提供する。

【0011】

具体的に、オーディオ信号処理方法において、ステレオ信号を受信するステップ；前記ステレオ信号を周波数領域上の信号に変換するステップ；前記周波数領域上の信号を、前記周波数領域上の信号の各チャンネル間相関度（correlation）及び各チャンネル間エネルギー割合（Inter-Channel Level Difference、ＩＣＬＤ）に基づいて第１信号と第２信号とに分離するステップ、前記第１信号は前記周波数領域上の信号の正面成分を含み、前記第２信号は前記周波数領域上の信号の側面成分を含み；第１同側フィルタ係数に基づいて前記第１信号をレンダリングし、前記周波数領域上の信号に対する正面同側信号を生成するステップ、前記第１同側フィルタ係数は第１のＨＲＩＲ（Head Related Impulse Response）の同側応答信号に基づいて生成され；第２同側フィルタ係数に基づいて前記第２信号をレンダリングし、前記周波数領域上の信号に対する側面同側信号を生成するステップ、前記第２同側フィルタ係数は第２のＨＲＩＲの同側応答信号に基づいて生成され；反側フィルタ係数に基づいて前記第２信号をレンダリングし、前記周波数領域上の信号に対する側面反側信号を生成するステップ、前記反側フィルタ係数は前記第２のＨＲＩＲの反側応答信号に基づいて生成され；前記正面同側信号及び前記側面同側信号をミキシングして生成された同側信号及び前記側面反側信号を時間領域上の信号である時間領域同側信号及び時間領域反側信号に各々変換するステップ；及び前記時間領域同側信号及び前記時間領域反側信号をミキシングしてバイノーラル信号を生成するステップ；を含み、前記バイノーラル信号は前記時間領域反側信号に両耳時間差（Interaural Time Delay、ＩＴＤ）を考慮して生成され、前記第１同側フィルタ係数、前記第２同側フィルタ係数、及び前記反側フィルタ係数は実数値であることを特徴とする。

【0012】

また、本明細書において、オーディオ信号処理装置において、ステレオ信号を受信する入力端；及びレンダラーを含むプロセッサを含み、前記プロセッサは、前記ステレオ信号を周波数領域上の信号に変換し、前記周波数領域上の信号を、前記周波数領域上の信号の各チャンネル間相関度（correlation）及び各チャンネル間エネルギー割合（Inter-Channel Level Difference、ＩＣＬＤ）に基づいて第１信号と第２信号とに分離し、前記第１信号は前記周波数領域上の信号の正面成分を含み、前記第２信号は前記周波数領域上の信号の側面成分を含み、第１同側フィルタ係数に基づいて前記第１信号をレンダリングし、前記周波数領域上の信号に対する正面同側信号を生成し、前記第１同側フィルタ係数は第１のＨＲＩＲ（Head Related Impulse Response）の同側応答信号に基づいて生成され、第２同側フィルタ係数に基づいて前記第２信号をレンダリングし、前記周波数領域上の信号に対する側面同側信号を生成し、前記第２同側フィルタ係数は第２のＨＲＩＲの同側応答信号に基づいて生成され、反側フィルタ係数に基づいて前記第２信号をレンダリングし、前記周波数領域上の信号に対する側面反側信号を生成し、前記反側フィルタ係数は前記第２のＨＲＩＲの反側応答信号に基づいて生成され、前記正面同側信号及び前記側面同側信号をミキシングして生成された同側信号及び前記側面反側信号を時間領域上の信号である時間領域同側信号及び時間領域反側信号に各々変換し、前記時間領域同側信号及び前記時間領域反側信号をミキシングしてバイノーラル信号を生成し、前記バイノーラル信号は前記時間領域反側信号に両耳時間差（Interaural Time Delay、ＩＴＤ）を考慮して生成され、前記第１同側フィルタ係数、前記第２同側フィルタ係数、及び前記反側フィルタ係数は実数値であることを特徴とする。

【0013】

また、本明細書において、前記正面同側信号及び前記側面同側信号をミキシングして生成された同側信号及び前記側面反側信号を時間領域上の信号である時間領域同側信号及び時間領域反側信号に各々変換するステップは、前記正面同側信号及び前記側面同側信号を左、右チャンネル別に各々ミキシングして生成された左－同側信号及び右－同側信号の各々を時間領域上の信号である時間領域左－同側信号及び時間領域右－同側信号に変換するステップ；前記側面反側信号を左、右チャンネル別に各々時間領域上の信号である左－側面反側信号及び右－側面反側信号に変換するステップ；であり、前記バイノーラル信号は、前記時間領域左－同側信号及び時間領域左－側面反側信号をミキシングし、前記時間領域右－同側信号及び時間領域右－側面反側信号をミキシングして生成されることを特徴とする。

【0014】

また、本明細書において、前記第１信号の左チャンネル信号と前記第２信号の左チャンネル信号との合は前記ステレオ信号の左チャンネル信号と同一であることを特徴とする。

【0015】

また、本明細書において、前記第１信号の右チャンネル信号と前記第２信号の右チャンネル信号との合は前記ステレオ信号の右チャンネル信号と同一であることを特徴とする。

【0016】

また、本明細書において、前記第１信号の左チャンネル信号のエネルギーと前記第１信号の右チャンネル信号のエネルギーは互いに同一であることを特徴とする。

【0017】

また、本明細書において、前記ＨＲＩＲの同側特性はＩＴＤを考慮したＨＲＩＲの反側特性が適用されることを特徴とする。

【0018】

また、本明細書において、前記ＩＴＤは１ｍｓ以下であることを特徴とする。

【0019】

また、本明細書において、前記第１信号の左チャンネル信号の位相と前記正面同側信号の左チャンネル信号位相は同一であり、前記第１信号の右チャンネル信号の位相と前記正面同側信号の右チャンネル信号位相は同一であり、前記第２信号の左チャンネル信号の位相、前記側面同側信号の左－側面信号の位相、及び前記側面反側信号の左－側面信号の位相は同一であり、前記第２信号の右チャンネル信号の位相、前記側面同側信号の右－側面信号の位相、前記側面反側信号の右－側面信号の位相は同一であることを特徴とする。

【発明の効果】

【0020】

本発明は、ステレオ音源に基づいてアップミキシングとバイノーラル化（Binauralization）を通じて空間感が向上した音響を提供する。

【図面の簡単な説明】

【0021】

【図1】本発明の一実施形態に従うアップミックスバイノーラル信号生成のための装置ブロック図を示す図面である。

【図2】本発明の一実施形態に従うアップミックスバイノーラル信号生成のための装置の周波数変換部を示す図面である。

【図3】本発明の一実施形態に従う完全復元を提供するサイン窓（Sine Window）を示す図面である。

【図4】本発明の一実施形態に従うアップミックスバイノーラル信号生成のための装置のアップミキシング部を示す図面である。

【図5】本発明の一実施形態に従う軟判定（Soft Decision）関数を示す図面である。

【図6】本発明の一実施形態に従うアップミックスバイノーラル信号生成のための装置のレンダリング部を示す図面である。

【図7】本発明の一実施形態に従うアップミックスバイノーラル信号生成のための装置の時間変換及びミキシング部を示す図面である。

【図8】本発明の一実施形態に従うアップミックスバイノーラル信号生成アルゴリズムを使用した空間音響改善のためのアルゴリズムを示す図面である。

【図9】本発明の一実施形態に従うサーバ－クライアント構造のための簡素化したアップミックスバイノーラル信号生成アルゴリズムを示す図面である。

【図10】本発明の一実施形態に従う、周波数領域上のオーディオ信号に対してバイノーラル化を遂行する方法を示す図面である。

【図11】本発明の一実施形態に従う複数個の周波数領域上のオーディオ入力信号に対してバイノーラル化を遂行する方法を示す図面である。

【図12】本発明の一実施形態に従う入力信号をバイノーラル化する方法を示す図面である。

【図13】本発明の一実施形態である乱信号円錐域を示す図面である。

【図14】本発明の一実施形態に従う複数個の入力信号に対するバイノーラル化方法を示す図面である。

【図15】本発明の一実施形態に従う仮想入力信号が乱信号円錐域に位置する場合を示す図面である。

【図16】本発明の一実施形態に従う仮想入力信号をバイノーラル化する方法を示す図面である。

【図17】本発明の一実施形態に従うアップミキサーを示す図面である。

【図18】本発明の一実施形態に従う対称的なレイアウト構成を示す図面である。

【図19】本発明の一実施形態に従う入力信号をバイノーラル化する方法を示す図面である。

【図20】本発明の一実施形態に従うユーザのヘッドオリエンテーションに対応したインタラクティブバイノーラル化が遂行される方法を示す図面である。

【図21】本発明の一実施形態に従う両耳間極座標系（Interaural Polar Coordinate、ＩＰＣ）上で乱信号円錐域から構成された仮想スピーカーレイアウトを示す図面である。

【図22】本発明の一実施形態に従う仮想スピーカーへのパンニング方法を示す図面である。

【図23】本発明の一実施形態に従う仮想スピーカーへのパンニング方法を示す図面である。

【図24】本発明の一実施形態に従う仮想スピーカーへのパンニングのための球形ビュー（Spherical View）を示す図面である。

【図25】本発明の一実施形態に従う仮想スピーカーへのパンニングのための左側ビュー（Left View）を示す図面である。

【図26】本発明の一実施形態に従うバイノーラル信号生成のためのフローチャートを示す図面である。

【発明を実施するための形態】

【0022】

本明細書で使われる用語は本発明での機能を考慮し、かつできる限り現在広く使われる一般的な用語を選択したが、これは当分野に従事する技術者の意図、慣例、または新たな技術の出現などによって変わることがある。また、特定の場合は出願人が任意に選定した用語もあり、その場合、該当する発明の説明の部分でその意味を記載する。したがって、本明細書で使われる用語は、単純な用語の名称でない、その用語が有する実質的な意味と本明細書の全般に亘る内容に基づいて解釈されなければならないことを明らかにしようとする。

【0023】

アップミックスバイノーラル信号生成アルゴリズム
図１は、本発明の一実施形態に従うアップミックスバイノーラル信号生成のための装置ブロック図を示す図面である。

【0024】

図１を参考してアップミックスバイノーラル（Upmix Binaural）信号生成アルゴリズムについて説明する。具体的に、アップミックスバイノーラル信号生成のための装置は、周波数変換部１１０、アップミキシング（upmixing）部１２０、レンダリング部１３０、時間変換及びミキシング部１４０を含んで構成できる。アップミックスバイノーラル信号生成のための装置は、入力信号１０１を入力にして、出力信号１０６であるバイノーラル信号を生成して出力することができる。この際、入力信号１０１はステレオ信号でありえる。周波数変換部１１０は、入力信号１０１の分析のために時間領域上の入力信号を周波数領域上の信号に変換することができる。アップミキシング部１２０は、コヒーレンス分析（Coherence Analysis）を通じて入力信号１０１の周波数別チャンネル間のクロス－相関度（Cross-Correlation）と入力信号１０１の左（left）チャンネルと右（right）チャンネルとの間のエネルギー割合であるＩＣＬＤ（Inter-Channel Level Difference）に基づいて入力信号１０１を正面信号成分である第１信号と側面信号成分である第２信号とに分離することができる。レンダリング部１３０は、分離された信号に対応する頭部伝達関数（Head Related Transfer Function、ＨＲＴＦ）に基づいたフィルタリングを遂行することができる。そして、レンダリング部１３０は同側ステレオ両耳信号（Ipsilateral Stereo Binaural Signal）と反側ステレオ両耳信号（Contralateral Stereo Binaural Signal）を生成することができる。時間変換及びミキシング部１４０は、同側ステレオ両耳信号と反側ステレオ両耳信号を時間領域上の信号に変換することができる。時間変換及びミキシング部１４０は変換された時間領域上の反側両耳信号成分にサンプルディレイを与えた後、同側両耳信号成分とミキシングしてアップミックスされた両耳信号（Upmixed Binaural Signal）を合成することができる。この際、前記サンプルディレイは両耳間時間ディレイ（Interaural Time Delay、ＩＴＤ）でありえる。

【0025】

具体的に、周波数変換部１１０と時間変換及びミキシング部１４０（時間変換部分）は完全復元（Perfect Reconstruction）を提供するための分析窓（Analysis Window）と合成窓（Synthesis Window）の対（pair）からなる構造を有することができる。例えば、サイン窓（Sine Window）が分析窓と合成窓に使われることができる。また、信号の変換のために、短時間フーリエ変換（Short-Time Fourier Transform、ＳＴＦＴ）と逆短時間フーリエ変換（Inverse Short-Time Fourier Transform、ＩＳＴＦＴ）の対が使われることができる。時間領域上の信号が周波数変換部１１０を通じて周波数領域上の信号に変換できる。アップミキシングとレンダリング（Rendering）は周波数領域上で遂行できる。アップミキシングとレンダリングが遂行された信号は時間変換及びミキシング部１４０を通じて時間領域上の信号にまた変換できる。

【0026】

アップミキシング部１２０は、入力信号１０１の周波数別左／右信号のコヒーレンスを抽出することができる。また、アップミキシング部１２０は、入力信号１０１のＩＣＬＤに基づいて全体的なフロント－リア割合（Front-Rear Ratio）を決定することができる。また、アップミキシング部１２０はフロント－リア割合によって入力信号１０１（例：ステレオ信号）は正面ステレオ（Frontal Stereo）チャンネル成分である第１信号１０２とリアステレオ（Rear Stereo）チャンネル成分である第２信号１０４に分離することができる。本明細書ではリア（rear）と側面を混用して記述することができる。例えば、リアステレオチャンネル成分などは側面ステレオチャンネル成分などと同一の意味でありえる。

【0027】

レンダリング部１３０は、正面ステレオチャンネル成分である第１信号１０２に既に設定された正面空間フィルタ利得（Frontal Spatial Filter Gain）を適用して正面バイノーラル信号（Frontal Binaural Signal）を生成することができる。また、レンダリング部１３０はリアステレオチャンネル成分である第２信号１０４に既に設定されたリア空間フィルタ利得（Rear Spatial Filter Gain）を適用してリアバイノーラル信号（Rear Binaural Signal）を生成することができる。例えば、レンダリング部１３０は正面を０度にする時、３０度方位角（Azimuth）に該当する頭部関連インパルス応答（Head Related Impulse Response、ＨＲＩＲ）の同側（Ipsilateral）成分に基づいて正面空間フィルタ利得を生成することができる。また、レンダリング部１３０は側面である９０度方位角に該当するＨＲＩＲの同側、反側（Contralateral）成分に基づいてリア空間フィルタ利得を生成することができる。

【0028】

正面空間フィルタ利得は信号の音像を前に定位させることができ、リア空間フィルタ利得は信号左／右の幅を広げることができる効果がある。また、正面空間フィルタ利得及びリア空間フィルタ利得は位相成分のない利得（Gain）形態に構成できる。正面空間フィルタ利得は同側成分のみで定義され、リア空間フィルタ利得は同側と反側（Contralateral）成分全てに基づいて定義できる。

【0029】

レンダリング部１３０で生成される正面バイノーラル信号とリアバイノーラル信号の同側信号はミキシングされて最終同側ステレオ両耳信号（Ipsilateral Stereo Binaural Signal）１０５として出力できる。リアバイノーラル信号の反側信号は反側ステレオ両耳信号（Contralateral Stereo Binaural Signal）１０３として出力できる。

【0030】

時間変換及びミキシング部１４０は、同側ステレオ両耳信号１０５と反側ステレオ両耳信号１０４を特定変換技法（例：逆短時間フーリエ変換）を使用して同側ステレオ両耳信号１０５及び反側ステレオ両耳信号１０４の各々を時間領域上の信号に変換することができる。そして、時間変換及びミキシング部１４０は変換された時間領域上の各々の信号に合成ウィンドウイング（Synthesis Windowing）を適用して時間領域上の同側両耳信号と時間領域上の反側両耳信号を生成することができる。そして、時間変換及びミキシング部１４０は生成された時間領域上の反側両耳信号にディレイを与えた後、同側両耳信号と共に同一の出力バッファにOverlap-and-Add形態にミキシングして格納することができる。この際、前記ディレイは両耳間時間ディレイでありえる。そして、時間変換及びミキシング部１４０は出力信号１０６を出力する。この際、出力信号１０６はアップミキシングされた両耳信号でありえる。

【0031】

図２は、本発明の一実施形態に従うアップミックスバイノーラル信号生成のための装置の周波数変換部を示す図面である。

【0032】

図２は、図１を通じて説明したバイノーラル信号生成のための装置の周波数変換部１１０を具体的に示す図面である。以下、図２を通じて周波数変換部１１０に対して具体的に説明する。

【0033】

まず、バッファリング部２１０は、時間領域上のステレオ信号であるｘ＿ｔｉｍｅ（２０１）を受信する。この際、ｘ＿ｔｉｍｅ（２０１）は図１の入力信号１０１でありえる。バッファリング部２１０はｘ＿ｔｉｍｅ（２０１）からフレームプロセシング（Frame Processing）のためのステレオフレームバッファ（Frame Buffer）（ｘ＿ｆｒａｍｅ、２０２）を数式１により計算することができる。以下、本明細書でのインデックスＬ、Ｒは左側信号と右側信号を示す。数式１のＬ、Ｒは各々ステレオ信号の左側信号と右側信号を示す。数式１のｌはフレームインデックスを示す。数式１のＮＨはフレーム長さの半分を示す。例えば、１０２４サンプルが１つのフレームの場合、ＮＨは５１２に設定される。

【0034】

【数1】

【0035】

数式１によって、ｘ＿ｆｒａｍｅ［ｌ］はｌ番目のフレームステレオ信号として定義され、１／２オーバーラップ（Overlap）を有することができる。

【0036】

分析窓２２０では、長さがフレーム信号の長さであるＮＦであり、完全復元（Perfect Reconstruction）を提供する窓形態に既設定されたウィンド（wind）をフレーム信号（ｘ＿ｆｒａｍｅ、２０２）に掛けて数式２のようにｘｗ＿ｆｒａｍｅ（２０３）を計算することができる。

【0037】

【数2】

【0038】

図３は、本発明の一実施形態に従う完全復元を提供するサイン窓（Sine Window）を示す図面である。具体的に、図３は前記既設定されたwindの一例で、ＮＦが１０２４の時のサイン窓を示す。

【0039】

時間－周波数変換部２３０は、数式２を通じて計算されたｘｗ＿ｆｒａｍｅ［ｌ］に時間－周波数変換を遂行して周波数領域信号を獲得することができる。具体的に、時間－周波数変換部２３０は、数式３のようにｘｗ＿ｆｒａｍｅ［ｌ］に時間－周波数変換を遂行して周波数領域信号であるＸＷ＿ｆｒｅｑ（２０４）を獲得することができる。数式３のＤＦＴ｛｝は離散フーリエ変換（Discrete Fourier Transform、ＤＦＴ）を意味する。ＤＦＴは時間－周波数変換の一実施形態であって、時間－周波数変換のためにＤＦＴだけでなく、フィルタバンク（Filter bank）や他の変換技法が使われることができる。

【0040】

【数3】

【0041】

図４は、本発明の一実施形態に従うアップミックスバイノーラル信号生成のための装置のアップミキシング部を示す図面である。

【0042】

アップミキシング部１２０は、数式３を通じて計算された周波数信号のバンド別またはビン（bin）別エネルギーを計算することができる。具体的に、アップミキシング部１２０は、数式３を通じて計算された周波数信号の左／右信号の積を用いて前記周波数信号のバンド別またはビン別エネルギーであるＸ＿Ｎｒｇを数式４のように計算することができる。

【0043】

【数4】

【0044】

この際、ｃｏｎｊ（ｘ）はｘの共役複素数を出力する関数でありえる。
数式４を通じて計算されたＸ＿Ｎｒｇはｌ番目のフレーム自体に対するパラメータである。したがって、アップミキシング部１２０は、時間領域でコヒーレンス計算のための加重時間平均（Weighted Time Average）値であるＸ＿ＳＮｒｇを計算することができる。具体的に、アップミキシング部１２０は単極モデル（One-pole model）を通じて０～１の間の値として定義されたgammaを活用した数式５を通じてＸ＿ＳＮｒｇを計算することができる。

【0045】

【数5】

【0046】

相関度分析部４１０は、Ｘ＿ＳＮｒｇを用いてコヒーレンス基盤の正規化された相関度（Normalized Correlation）であるＸ＿Ｃｏｒｒ（４０１）を数式６のように計算することができる。

【0047】

【数6】

【0048】

Ａｂｓ（ｘ）はｘの絶対値を出力する関数であり、ｓｑｒｔ（ｘ）はｘの自乗根を出力する関数である。

【0049】

Ｘ＿Ｃｏｒｒ［ｌ］［ｋ］はｌ番目のフレーム信号でｋ番目のビンの左／右信号の周波数成分に対する相関度を示す。この際、Ｘ＿Ｃｏｒｒ［ｌ］［ｋ］は左／右同一の信号成分が多いほど１に近づき、左／右信号が異なる場合には０に近づく形態を有する。

【0050】

分離係数計算部４２０は該当Ｘ＿Ｃｏｒｒ（４０１）から周波数成分のパンニング有無を決定するマスキング（Masking）関数（Ｘ＿Ｍａｓｋ、４０２）を数式７のように計算することができる。

【0051】

【数7】

【0052】

数式７のＧａｔｅ｛｝関数は判定（Decision）を遂行することができるマッピング関数である。

【0053】

図５は、本発明の一実施形態に従う軟判定（Soft Decision）関数を示す図面である。具体的に、図５は０．７５をしきい値（Threshold）に使用する軟判定関数の一例を示す図面である。

【0054】

フレームサイズ（Frame Size）が固定されたシステムの場合、相対的に低周波成分の正規化されたクロス相関度（Normalized Cross Correlation）が高周波成分の正規化されたクロス相関度より高い値を有する確率が高い。したがって、Ｇａｔｅ関数は周波数インデックスｋに対する関数として定義できる。結果的に、Ｘ＿Ｍａｓｋ［ｌ］［ｋ］はｌ番目のフレームのｋ番目の周波数成分の左、右のステレオ信号の方向性（Directional）またはアンビエント（Ambient）程度を区分する。

【0055】

分離係数計算部４２０ではコヒーレンスに基づいたＸ＿Ｍａｓｋ（４０２）により方向性に判別される信号は正面信号に、アンビエントに判別される信号は側面に対応する信号にレンダリングすることができる。この際、分離係数計算部４２０が方向性に該当する信号を全て正面信号にレンダリングした場合、左右パンニングされた信号の音像が狭く形成されることがある。例えば、左／右パンニング程度が０．９：０．１程度に左側にたくさん偏った信号も側面信号でない正面信号にレンダリングできる。したがって、方向性に判別される信号の左／右成分がどの一側に偏った場合、一部の成分は側面信号にレンダリングされる必要がある。したがって、分離係数計算部４２０は、方向性成分の正面信号レンダリング成分を０．１：０．１に割り当てて、リア（Rear）信号レンダリング成分割合は０．８：０に割り当てできるようにＰＧ＿Ｆｒｏｎｔ（４０３）を数式８または数式９のように抽出することができる。

【0056】

【数8】

【0057】

【数9】

【0058】

Ｘ＿Ｍａｓｋ（４０２）とＰＧ＿Ｆｒｏｎｔ（４０３）が決定されれば、信号分離部４３０は入力信号であるＸＷ＿ｆｒｅｑ（２０４）を正面ステレオ信号であるＸ＿Ｓｅｐ１（４０４）と側面ステレオ信号であるＸ＿Ｓｅｐ２（４０５）に分離することができる。この際、ＸＷ＿ｆｒｅｑ（２０４）を正面ステレオ信号であるＸ＿Ｓｅｐ１（４０４）と側面ステレオ信号であるＸ＿Ｓｅｐ２（４０５）に分離するために信号分離部４３０は数式１０を用いることができる。

【0059】

【数10】

【0060】

言い換えると、Ｘ＿Ｓｅｐ１（４０４）とＸ＿Ｓｅｐ（４０５）は相関度分析と周波数信号（ＸＷ＿ｆｒｅｑ、２０４）の左／右エネルギー割合に基づいて分離できる。この際、分離された信号（Ｘ＿Ｓｅｐ１（４０４）、Ｘ＿Ｓｅｐ２（４０５））の合は入力信号（ＸＷ＿ｆｒｅｑ、２０４）と同一でありえる。Ｘ＿Ｓｅｐ１（４０４）の左チャンネル信号とＸ＿Ｓｅｐ２（４０５）の左チャンネル信号との合は周波数信号（ＸＷ＿ｆｒｅｑ、２０４）の左チャンネル信号と同一でありえる。また、Ｘ＿Ｓｅｐ１（４０４）の右チャンネル信号とＸ＿Ｓｅｐ２（４０５）の右チャンネル信号との合は周波数信号（ＸＷ＿ｆｒｅｑ、２０４）の右チャンネル信号と同一でありえる。Ｘ＿Ｓｅｐ１（４０４）の左チャンネル信号のエネルギーはＸ＿Ｓｅｐ１（４０４）の右チャンネル信号のエネルギーと同一でありえる。

【0061】

図６は、本発明の一実施形態に従うアップミックスバイノーラル信号生成のための装置のレンダリング部を示す図面である。

【0062】

図６を参考すると、レンダリング部１３０では分離された正面ステレオ（Frontal Stereo）信号Ｘ＿Ｓｅｐ１（４０４）と側面ステレオ信号Ｘ＿Ｓｅｐ２（４０５）の入力を受けてバイノーラルレンダリング（Binaural Rendering）された同側信号Ｙ＿Ｉｐｓｉ（６０４）と反側信号Ｙ＿Ｃｏｎｔｒａ（６０５）を出力することができる。

【0063】

正面ステレオ信号であるＸ＿Ｓｅｐ１（４０４）は、左／右信号に類似の成分を含んでいるので、一般的なＨＲＩＲをフィルタリングする場合、同一成分が同側成分と反側成分が全て混ざることがある。したがって、ＩＴＤに従うコムフィルタリング（Comb Filtering）が発生することがある。ここに、第１レンダラー６１０は正面ステレオ信号に対する同側レンダリング６１１を遂行することができる。言い換えると、第１レンダラー６１０はＨＲＩＲで提供する同側スペクトル（Spectral）特性のみ反映して正面イメージ（Frontal Image）を生成する方法を使用し、反側に該当する成分は生成しないことがある。第１レンダラー６１０は、数式１１に従って正面同側信号Ｙ１＿Ｉｐｓｉ（６０１）を生成することができる。数式１１のＨ１＿ＩｐｓｉはＨＲＩＲで提供する同側スペクトル（Spectral）特性のみ反映したフィルタであって、言い換えると、正面チャンネル位置のＨＲＩＲを基準に生成された同側フィルタを意味する。一方、ＩＴＤによるコムフィルタリングは音色を変化させるか、または音像を正面に定位するために使われることができる。したがって、Ｈ１＿ＩｐｓｉはＨＲＩＲの同側成分と反側成分が全て反映されたものでありえる。この際、ＨＲＩＲの反側成分はＩＴＤが反映されたものでありえ、Ｈ１１＿ＩｐｓｉはＩＴＤによるコムフィルタリング特性を有することができる。

【0064】

【数11】

【0065】

側面ステレオ信号であるＸ＿Ｓｅｐ２（４０５）は、左／右信号に類似の成分を含んでいないので、一般的なＨＲＩＲをフィルタリングしても、同一成分が同側成分と反側成分が全て混ざる現象が発生しない。したがって、ＩＴＤに従うコムフィルタリングによる音質劣化が発生しない。ここに、第２レンダラー６２０は側面ステレオ信号に対する同側レンダリング６２１、反側レンダリング６２２を遂行することができる。言い換えると、第２レンダラー６２０はＨＲＩＲ特性を有する同側－反側フィルタリングを各々遂行して数式１２によって側面同側信号Ｙ２＿Ｉｐｓｉ（６０２）と側面反側信号Ｙ２＿Ｃｏｎｔｒａ（６０３）を生成することができる。数式１２のＨ２＿Ｉｐｓｉは側面チャンネル位置のＨＲＩＲを基準に生成された同側フィルタを意味し、Ｈ２＿Ｃｏｎｔｒａは側面チャンネル位置のＨＲＩＲを基準に生成された反側フィルタを意味する。

【0066】

正面同側信号Ｙ１＿Ｉｐｓｉ（６０１）、側面同側信号Ｙ２＿Ｉｐｓｉ（６０２）、側面反側信号Ｙ２＿Ｃｏｎｔｒａ（６０３）の各々は左／右側信号を各々含むことができる。この際、Ｈ１＿Ｉｐｓｉも左／右側の各々のフィルタでありえ、正面同側信号Ｙ１＿Ｉｐｓｉ（６０２）の左側信号にはＨ１＿Ｉｐｓｉ左側フィルタが適用され、正面同側信号Ｙ１＿Ｉｐｓｉ（６０２）の右側信号にはＨ１＿Ｉｐｓｉ右側フィルタが適用できる。側面同側信号Ｙ２＿Ｉｐｓｉ（６０２）とＨ２＿Ｉｐｓｉ、側面反側信号Ｙ２＿Ｃｏｎｔｒａ（６０３）とＨ２＿Ｃｏｎｔｒａも同様である。

【0067】

【数12】

【0068】

同側ミキシング部６４０は、Ｙ１＿Ｉｐｓｉ（６０１）とＹ２＿Ｉｐｓｉ（６０２）をミキシングして最終バイノーラル同側信号（Ｙ＿Ｉｐｓｉ、６０４）を生成することができる。同側ミキシング部６４０は、Ｙ１＿Ｉｐｓｉ（６０１）とＹ２＿Ｉｐｓｉ（６０２）を左、右チャンネル別に各々ミキシングして最終バイノーラル同側信号（Ｙ＿Ｉｐｓｉ、６０４）を左、右チャンネル別に各々生成することができる。この際、図４に示されたＸ＿Ｓｅｐ１（４０４）とＸ＿Ｓｅｐ２（４０５）の周波数別位相（Phase）は互いに同一の形態である。したがって、Ｈ１＿ＩｐｓｉとＨ２＿Ｉｐｓｉとの間の位相差が存在する場合、コムフィルタリングのようなアーティファクト（Artifact）が発生する問題点がありえる。しかしながら、本発明の一実施形態によれば、Ｈ１＿ＩｐｓｉとＨ２＿Ｉｐｓｉを全て実数として定義され、したがって、前記コムフィルタリングのような問題を解決することができる。

【0069】

また、本発明のバイノーラル信号を生成する全体システムフローの一例である‘分析ウィンドウイング（Analysis Windowing）→時間／周波数変換（Time／Frequency Transform）→プロセシング（Processing）→周波数／時間変換（Frequency／Time Transform）→合成ウィンドウイング（Synthesis Windowing）’のOverlap and add構造では、プロセシング領域（Processing Domain）上で複素数フィルタリングが遂行されれば、位相変化によるエイリアシング（Aliasing）により完全復元仮定が破られることがある。したがって、本発明のレンダリング部１３０で使われるＨ１＿Ｉｐｓｉ、Ｈ２＿Ｉｐｓｉ、Ｈ２＿Ｃｏｎｔｒａは全て実数で構成できる。したがって、レンダリング前信号とレンダリング後信号は位相が相異せず、同一でありえる。具体的に、レンダリング前信号の左チャンネルに対する位相とレンダリング後信号の左チャンネルに対する位相は同一でありえる。同様に、レンダリング前信号の右チャンネルに対する位相とレンダリング後信号の右チャンネルに対する位相は同一でありえる。レンダリング部１３０は、数式１３を用いてＹ＿Ｉｐｓｉ（６０４）とＹ＿Ｃｏｎｔｒａ（６０５）を周波数領域上の信号に計算／生成することができる。Ｙ＿Ｉｐｓｉ（６０４）とＹ＿Ｃｏｎｔｒａ（６０５）は、各々左、右チャンネル別にミキシングされて生成ができる。最終バイノーラル反側信号（Ｙ＿Ｃｏｎｔｒａ、６０５）は側面反側信号Ｙ２＿Ｃｏｎｔｒａ（６０３）値と同一でありえる。

【0070】

【数13】

【0071】

図７は、本発明の一実施形態に従うアップミックスバイノーラル信号生成のための装置の時間変換及びミキシング部を示す図面である。

【0072】

図７を参考にすると、図６のレンダリング部１３０で計算／生成されたＹ＿Ｉｐｓｉ（６０４）とＹ＿Ｃｏｎｔｒａ（６０５）は時間変換及びミキシング部１４０を通じて時間領域上の信号に変換される。そして、時間変換及びミキシング部１４０は最終アップミックスされたバイノーラル信号であるｙ＿ｔｉｍｅ（７０３）を生成することができる。

【0073】

周波数－時間変換部７１０は周波数領域上の信号であるＹ＿Ｉｐｓｉ（６０４）とＹ＿Ｃｏｎｔｒａ（６０５）を逆離散フーリエ変換（Inverse Discrete Fourier Transform、ＩＤＦＴ）や合成フィルタバンク（Synthesis Filterbank）を通じて時間領域上の信号に変換することができる。周波数－時間変換部７１０は、合成窓７２０を適用して数式１４に従うｙｗ＿Ｉｐｓｉ＿ｔｉｍｅ（７０１）とｙｗ＿Ｃｏｎｔｒａ＿ｔｉｍｅ（７０２）を生成することができる。

【0074】

【数14】

【0075】

ｙｗ＿Ｉｐｓｉ＿ｔｉｍｅ（７０１）とｙｗ＿Ｃｏｎｔｒａ＿ｔｉｍｅ（７０２）を用いて最終バイノーラルレンダリング信号（ｙ＿ｔｉｍｅ、７０３）を数式１５のように生成することができる。数式１５を見ると、時間変換及びミキシング部１４０はｙｗ＿Ｃｏｎｔｒａ＿ｔｉｍｅ（７０２）信号に側面バイノーラルレンダリングのためのディレイであるＩＴＤ、即ち、両耳時間差をＤだけ与えることができる（７３０）。例えば、ＩＴＤは１ｍｓ（millisecond）以下の値を有することができる。そして、時間変換及びミキシング部１４０のミキシング部７４０はOverlap-and-add方式を通じて最終バイノーラル信号（ｙ＿ｔｉｍｅ、７０３）を生成することができる。最終バイノーラル信号（ｙ＿ｔｉｍｅ、７０３）は左、右チャンネルに各々生成できる。

【0076】

【数15】

【0077】

アップミックスバイノーラル信号生成を使用した空間音響改善アルゴリズム
図８は、本発明の一実施形態に従うアップミックスバイノーラル信号生成アルゴリズムを使用した空間音響改善のためのアルゴリズムを示す図面である。

【0078】

図８に示されたアップミックスバイノーラル（Upmix Binaural）信号生成部は、アップミックスの以後、バイノーラルフィルタリングを通じて直接音に対するバイノーラル信号を合成することができる。Reverb信号生成部（Reverberator）は、残響成分を生成することができる。ミキシング部は、直接音と残響成分をミキシングすることができる。Dynamic Range Controllerは、直接音と残響成分をミキシングした信号の小さい音を選択的に増幅させることができる。Limiterは増幅した信号がクリッピング（Clipping）が発生しないように安定した信号を合成して出力することができる。Reverb信号生成部で残響成分を生成するために既存のアルゴリズムを使用することができる。例えば、既存のアルゴリズムに複数個のDelay-GainとAll-passgaが結合された形態の残響器（Reverberator）がありえる。

【0079】

サーバ－クライアント構造のための簡素化されたアップミックスバイノーラル信号生成アルゴリズム
図９は、本発明の一実施形態に従うサーバ－クライアント構造のための簡素化されたアップミックスバイノーラル信号生成アルゴリズムを示す図面である。

【0080】

図９は、入力信号に従って第１レンダリング部の効果または第２レンダリング部の効果のうちの１つに二進決定を行ってレンダリングを遂行する簡略化されたシステム構成に対する図面である。第１レンダリング部で遂行される第１レンダリング方式は入力信号に左／右ミキシングされた信号が多く存在して正面レンダリングを遂行する場合に使われることができる。第２レンダリング部で遂行される第２レンダリング方式は、入力信号に左／右ミキシングされた信号が少なくて側面レンダリングを遂行する場合に使われることができる。信号タイプ決定部は、第１レンダリング方式及び第２レンダリング方式のうち、どの方式を用いるかを判断することができる。この際、判断は周波数変換無しで入力信号全体に対する相関度（Correlation）分析を通じて可能である。このような相関度分析は相関度分析部（図示せず）で遂行できる。

【0081】

合／差信号生成部では、入力信号（ｘ＿ｔｉｍｅ）に対する合信号（ｘ＿ｓｕｍ）と差信号（ｘ＿ｄｉｆｆ）を数式１６のように生成することができる。信号タイプ決定部では、数式１７のように合／差信号に基づいてレンダリング信号（第１レンダリング方式（ＴＹＰＥ＿１）を使用することか、第２レンダリング方式（ＴＹＰＥ＿２）を使用することか否か）を決定することができる。

【0082】

【数16】

【0083】

【数17】

【0084】

入力信号の左／右信号成分が行き渡っている場合には、コムフィルタリング現象が発生する確率が高い。したがって、信号タイプ決定部は、数式１７のように反側成分がなく、同側成分のみ反映する第１レンダリング方式を選択することができる。一方、信号タイプ決定部は、入力信号の左側または右側成分のうち、どの一側の音の比重が大きい場合には、反側成分を積極的に活用する第２レンダリング方式を選択することができる。例えば、数式１７を見ると、入力信号の左／右信号が類似するほど分子のｘ＿ｄｉｆｆは０に近づいて、したがって、ratioTypeは０に近づく。即ち、数式１７によれば、ratioTypeが０．２２より小さい場合、信号タイプ決定部は、同側成分のみ反映する第１レンダリング方式を意味するＴＹＰＥ＿１を選択することができる。反対に、ratioTypeが０．２２より等しいか大きければ、信号タイプ決定部は、第２レンダリング方式を選択することができる。

【0085】

周波数信号入力に対するバイノーラル化（Binauralization）方法
オーディオの音場のような後処理（Post Processing）とオーディオ信号の転送のためのコーデックのような方式では周波数領域上のオーディオ信号の分析及び応用がなされる。したがって、最終再生端でない周波数領域上の信号はオーディオ信号の分析及び応用の中間結果物に活用できる。また、周波数領域上の信号はバイノーラル化のための入力信号に活用できる。

【0086】

図１０は、本発明の一実施形態に従う周波数領域上のオーディオ信号に対してバイノーラル化を遂行する方法を示す図面である。

【0087】

周波数領域上の信号は循環畳み込み（circular convolution）を仮定し、ゼロパディングした時間領域上の信号を周波数領域上の信号に変換したものでないことがある。したがって、この際、周波数領域上の信号は畳み込みが可能な構造でない。したがって、周波数領域上の信号は時間領域に変換される。この際、前述したフィルタバンクまたは周波数－時間変換（例：ＩＤＦＴ）が使われることができる。そして、変換された時間領域上の信号に合成窓及びOverlap-and-Addなどのプロセシングが適用できる。そして、合成窓及びOverlap-and-Addなどのプロセシングが適用された信号にゼロパディング（Zero Padding）が適用されることができ、時間－周波数変換（例：ＤＦＴ）を通じて周波数領域上の信号に変換できる。以後、変換された周波数領域上の信号には各々同側／反側成分別にＤＦＴを活用した畳み込みが適用されることができ、各々周波数－時間変換及びOverlap-and-Addプロセシングが適用できる。図１０を見ると、周波数領域上の１つの入力信号をバイノーラル化するためには４回の変換過程が必要である。

【0088】

図１１は、本発明の一実施形態に従う複数個の周波数領域上のオーディオ入力信号に対してバイノーラル化を遂行する方法を示す図面である。

【0089】

図１１は、図１０で説明したバイノーラル化を遂行する方法をＮ個の入力信号に拡張して一般化する方法に対する図面である。

【0090】

図１１を見ると、入力信号がＮ個の場合、Ｎ個のバイノーラル化された信号は周波数領域上でミキシングできる。したがって、Ｎ個の入力信号がバイノーラル化される時、周波数－時間変換過程が減ることができるという効果がある。例えば、図１１によれば、Ｎ個の入力信号をバイノーラル化するに当たって、Ｎ*２＋２回の変換が必要である。一方、図１０に従って入力信号のバイノーラル化過程をＮ回遂行する場合、Ｎ*４回の変換が必要である。即ち、図１１の方法を利用すれば、図１０の方法を用いた場合に比べて（Ｎ－１）*２回の変換過程が減少できる。

【0091】

図１２は、本発明の一実施形態に従う入力信号をバイノーラル化する方法を示す図面である。

【0092】

図１２は、周波数入力信号と、周波数入力信号と対応する仮想音源の位置、及び両耳への伝達関数であるＨＲＩＲ（Head Related Impulse Response）が存在する時、入力信号をバイノーラル化する方法に対する一例を示す。図１２を見ると、仮想音源の位置が特定位置を基準に左側に存在する場合、同側ゲインＡ＿Ｉと反側ゲインＡ＿Ｃは数式１８のように計算できる。同側ゲインＡ＿Ｉは左側ＨＲＩＲのサイズ（Amplitude）であり、反側ゲインＡ＿Ｃは右側ＨＲＩＲのサイズで計算できる。そして、計算されたＡ＿ＩとＡ＿Ｃは周波数入力信号Ｘ［ｋ］と掛けられて、数式１８のように周波数領域上の同側信号であるＹ＿Ｉ［ｋ］と周波数領域上の反側信号であるＹ＿Ｃ［ｋ］が計算できる。

【0093】

【数18】

【0094】

【数19】

【0095】

数式１８で計算された周波数領域上の信号であるＹ＿Ｉ［ｋ］とＹ＿Ｃ［ｋ］は周波数－時間変換を通じて数式１９のように時間領域上の信号に変換される。また、必要によって変換された時間領域上の信号に合成窓とOverlap and Add過程が適用できる。この場合、同側信号と反側信号はＩＴＤが反映されない信号に生成できる。したがって、図１２のように前記反側信号にはＩＴＤが強制的に反映できる。

【0096】

【数20】

【0097】

仮想音源が特定位置を基準に右側に存在する場合、同側ゲインと反側の計算のために数式１８の代わりに数式２０が使われることができる。即ち、同側と反側の左右出力マッピングのみに変化があるのである。仮想音源が特定位置を基準に中央に存在する場合、前述した仮想音源が左側に存在する場合や右側に存在する場合に使われた方法全て適用できる。仮想音源が特定位置を基準に中央に存在する場合、ＩＴＤは０でありえる。図１２を見ると、仮想音源が中央にある場合、即ちＨＲＩＲ＿ＬｅｆｔとＨＲＩＲ＿Ｒｉｇｈｔが互いに同一の場合には仮想音源が左側／右側に存在する場合対比周波数－時間変換過程がもう一度減少できる。

【0098】

以下、本明細書ではＩＴＤの具体的な値を計算する方法について説明する。ＩＴＤの具体的な値を計算する方法に、ＨＲＩＲの両耳位相差（Interaural Phase Difference）を分析する方法、仮想音源の位置情報を活用する方法などが存在する。具体的に、本発明の一実施形態である仮想音源の位置情報を活用してＩＴＤ値を計算し、付与する方法について説明する。

【0099】

図１３は、本発明の一実施形態である乱信号円錐域を示す図面である。

【0100】

乱信号円錐域（Cone of Confusion、ＣｏＣ）は両耳時間差が同一な円周として定義できる。乱信号円錐域は、図１３の実線で示す部分であり、乱信号円錐域に存在する音源がバイノーラルレンダリングされる場合、同一なＩＴＤが適用できる。

【0101】

バイノーラルキュー（Binaural Cue）である両耳レベル差（Interaural Level Difference）は周波数領域上で同側ゲインと反側ゲインを掛ける過程を通じて具現できる。ＩＴＤは時間領域上でバッファをディレイしながら付与できる。図１０の一実施形態ではバイノーラル信号生成のために４回の変換が必要であったが、図１２の一実施形態では、１回または２回の変換のみ必要であるので、演算量が減少する効果がある。

【0102】

図１４は、本発明の一実施形態に従う複数個の入力信号に対するバイノーラル化方法を示す図面である。

【0103】

図１４は、図１２で説明したバイノーラル化を遂行する方法をＮ個の入力信号に拡張して一般化する方法に対する図面である。即ち、図１４は複数個の音源が存在する時を例示した図面である。図１４を見ると、Ｎ個の周波数入力信号と、周波数入力信号と対応する仮想音源の位置、及び両耳への伝達関数であるＨＲＩＲ（Head Related Impulse Response）が存在する時、左同側ミキサーと右同側ミキサーを使用して時間ディレイ（Time Delay）のない同側信号を周波数領域でミキシングした後、プロセシングする構造を有する。図１１の場合、Ｎ*２＋２回の変換が必要であったが、図１４に従う場合、Ｎ個の入力に対して必要な変換回数は最大Ｎ＋２回となって、変換回数が半分程度減少する効果がある。

【0104】

図１５は、本発明の一実施形態に従う仮想入力信号が乱信号円錐域に位置する場合を示す図面である。

【0105】

具体的に、図１５は仮想音源の位置が乱信号円錐域に位置した場合、仮想音源をバイノーラル化する方法に対する図面である。図１５のように仮想音源の位置が乱信号円錐域に位置する場合、反側信号に対する周波数－時間変換は１つに縛られて進行できる。例えば、図１５のように、１つの乱信号円錐域に３個のスピーカーが位置するようにして総１５個の仮想入力信号をバイノーラル化する場合、バイノーラル信号生成のための装置は６回の周波数変換だけでも仮想入力信号をバイノーラル化することができる。したがって、前述した図１１の場合、１５個のスピーカー（仮想音源）が存在する場合、３２回（Ｎ*２＋１＝１５*２＋２）の変換が必要であったが、図１５の場合、図１６に従って６回の変換によりバイノーラル信号を生成することができるので、変換回数が約８０％位減少する効果がある。

【0106】

図１６は、本発明の一実施形態に従う仮想入力信号をバイノーラル化する方法を示す図面である。

【0107】

図１６を見ると、図１５の１乃至３位置に存在するスピーカーの仮想音源の反側信号に対する変換は３回でない１回だけ遂行できる。４乃至６位置に存在するスピーカーの仮想音源、１０乃至１２位置に存在するスピーカーの仮想音源、１３乃至１５位置に存在するスピーカーの仮想音源も同様である。

【0108】

本発明の一実施形態によれば、バイノーラル信号生成のための装置が仮想音源のバイノーラル化を遂行するに当たって、同側成分は全て同相（In-Phase）形態にミキシングできる。一般に、バイノーラル化に使われるＨＲＩＲの時間差によって周波数干渉によるトーン（Tone）変化が発生して音質劣化が発生することがある。しかしながら、本発明の一実施形態で適用される同側ゲインＡ＿Ｉは同側ＨＲＩＲの周波数サイズ（Amplitude）のみを扱っている。したがって、同側ゲインＡ＿Ｉが適用された信号の位相は信号本来の位相を維持することができる。したがって、音の方向によって同側成分の到着時間（Arrival Time）が他の特性を有する一般的なＨＲＩＲとは異なり、方向別同側成分の到着時間差を全て除去して均一になる効果がある。即ち、１つの信号が複数個のチャンネルに分配される場合、一般的なＨＲＩＲを使用する時に発生する到着時間に従うカラーレーション（Coloration）が除去される効果がある。

【0109】

図１７乃至図１９は、前述したバイノーラル化をアップミキシングに応用する一実施形態を示す図面である。

【0110】

図１７は、本発明の一実施形態に従うアップミキサーを示す図面である。

【0111】

図１７は、５チャンネルの入力信号を正面４チャンネルと後面４チャンネルに変形して総８チャンネル信号を生成するアップミキサーの一例を示す。図１７の入力信号のインデックスであるＣ、Ｌ、Ｒ、ＬＳ、ＲＳは５．１チャンネル信号のCenter、Left、Right、Left Surround、Right Surroundを示す。入力信号がアップミックスされる場合、アップミックスアーティファクト（Upmix Artifact）を減らすために残響器（Reverberator）が使われる。

【0112】

図１８は、本発明の一実施形態に従う対称的なレイアウト構成を示す図面である。

【0113】

前述した方法を通じてアップミックスされた信号は、図１８に示すように、Ｘ＿Ｆ１は正面、Ｘ＿Ｂ１は後面、Ｘ＿Ｆ２［ｌ］［Ｌ］とＸ＿Ｂ２［ｌ］［Ｌ］は左側、Ｘ＿Ｆ２［ｌ］［Ｒ］とＸ＿Ｂ２［Ｌ］［Ｒ］は右側に位置する対称的な（Symmetric）仮想のレイアウトで構成できる。

【0114】

図１９は、本発明の一実施形態に従う入力信号をバイノーラル化する方法を示す図面である。

【0115】

図１９は、図１８のように対称的な仮想のレイアウトに対応する信号をバイノーラル化する方法に対する一例である。

【0116】

図１８に従うＸ＿Ｆ１、Ｘ＿Ｂ１に対応する４個の位置（Ｘ＿Ｆ１［ｌ］［Ｌ］、ＸＦ１［ｌ］［Ｒ］、Ｘ＿Ｂ１［ｌ］［Ｌ］、Ｘ＿Ｂ１［ｌ］［Ｒ］）は全てＤ＿１Ｃに該当する同一のＩＴＤを有することができる。図１８に従うＸ＿Ｆ２、Ｘ＿Ｂ２による４個の位置（Ｘ＿Ｆ２［ｌ］［Ｌ］、ＸＦ２［ｌ］［Ｒ］、Ｘ＿Ｂ２［ｌ］［Ｌ］、Ｘ＿Ｂ２［ｌ］［Ｒ］）は全てＤ＿２Ｃに該当する同一のＩＴＤを有することができる。例えば、ＩＴＤは１ｍｓ以下の値を有することができる。

【0117】

図１９を見ると、周波数信号（例：図１７の１乃至１５位置に存在するスピーカーの仮想音源）に仮想チャンネルのＨＲＩＲを基盤に計算された同側ゲインと反側ゲインが適用できる。左同側ミキサーと右同側ミキサーで全ての同側周波数信号がミキシングできる。反側周波数信号はＸ＿Ｆ１とＸ＿Ｂ１の対、Ｘ＿Ｆ２とＸ＿Ｂ２の対のようにＩＴＤが同一の信号同士左反側ミキサーと右反側ミキサーによりミキシングされる。以後、ミキシングされた信号は周波数－時間変換を通じて時間領域上の信号に変換できる。変換された信号に合成窓とoverlap and addプロセシングが適用され、最終的に反側時間信号にＤ＿１ＣとＤ＿２Ｃが適用されて出力信号ｙ＿ｔｉｍｅが生成できる。図１９によれば、バイノーラル信号生成のために６回の変換が適用される。これは図１１に示された方法を使用した場合、１８回の変換が必要なもの対比３分の１の変換（即ち、６回の変換）を通じて類似のレンダリングが可能であるという効果がある。

【0118】

周波数信号入力に対するインタラクティブバイノーラル化（Interactive Binauralization）方法
仮想現実のためのヘッドマウンテッドディスプレイ（Head Mounted Display、ＨＭＤ）の他にも、最近のヘッドホン（Headphone）機器（以下、ユーザ機器）はジャイロ（Gyro）のようなセンサーを活用してユーザのヘッドオリエンテーション（Head Orientation）に対する情報を提供することができる。この際、ヘッドオリエンテーションに対する情報は、ヨー（Yaw）、ピッチ（Pitch）、ロール（Roll）、またはアップベクトル（Up vector）と前方ベクトル（Forward Vector）の形態に計算されるインターフェースに提供できる。このような機器はユーザのヘッドオリエンテーションによって音源の相対的な位置を計算して前記音源のバイノーラル化を遂行することができる。これを通じて前記機器はユーザと相互作用（Interactivitiness）して向上した没入感（Immersiveness）を提供することができる

【0119】

図２０は、本発明の一実施形態に従うユーザのヘッドオリエンテーションに対応したインタラクティブバイノーラル化が遂行される方法を示す図面である。

【0120】

図２０を参考すると、ユーザ機器がユーザのヘッドオリエンテーションに対応したインタラクティブバイノーラル化を遂行する過程の一例は以下の通りである。

【0121】

i）ユーザ機器のアップミキサーは、一般ステレオ音源（入力音源）、ヘッドオリエンテーション、仮想スピーカーレイアウト、及び仮想スピーカーのＨＲＩＲの入力を受けることができる。

【0122】

ii）ユーザ機器のアップミキサーは、一般ステレオ音源の入力を受けて図４を通じて説明したアップミキシング過程を通じてＮチャンネル周波数信号を抽出することができる。そして、ユーザ機器は抽出したＮチャンネル周波数信号をＮ個の客体周波数信号として定義することができる。また、Ｎチャンネルレイアウトは客体位置に対応して提供できる。

【0123】

iii）ユーザ機器は、Ｎ個の客体位置とユーザのヘッドオリエンテーション情報からＮ個のユーザ中心の相対的客体位置を計算することができる。カルテシアン座標（Cartesian Coordinate）で、ｘ、ｙ、ｚとして定義されたｎ番目の客体位置ベクトルＰ＿ｎはユーザのヨー（yaw）、ピッチ（pitch）、ロール（roll）に基盤した回転変換行列（Rotation Matrix）Ｍ＿ｒｏｔとの内積を通じてカルテシアン座標上での相対的客体位置Ｐ＿ｒｏｔ＿ｎに変換できる。

【0124】

iv）ユーザ機器のミキシング行列生成部は、計算されたＮ個の相対的客体位置を基盤に、各々の客体周波数信号Ｌ個の仮想スピーカーで構成された仮想スピーカーレイアウト上でパンニング（Panning）係数を求めてＬｘＮ次元のミキシング行列（Mixing Matrix）であるＭを生成することができる。

【0125】

v）ユーザ機器のPannerはＮ個の客体信号にＬｘＭ次元のミキシング行列を掛けてＬ個の仮想スピーカー信号を生成することができる。

【0126】

vi）ユーザ機器のバイノーラル化器（Binauralizer）は仮想スピーカー信号、仮想スピーカーレイアウト、仮想スピーカーのＨＲＩＲを使用して図１４を通じて説明したバイノーラル化を遂行することができる。

【0127】

iv）に定義されたパンニング係数を計算する方法は、正規化（Normalization）方式に従って一定パワーパンニング（Constant Power Panning）または一定ゲインパンニング（Constant Gain Panning）のような方法が使われることができる。また、任意のレイアウトを定義するという点でベクトル基盤振幅パンニング（Vector Base Amplitude Panning）のような方法も使われることができる。

【0128】

本発明の一実施形態で最終の出力が物理的なラウドスピーカーに連結されるのでない、バイノーラル化がなされるという点を考慮して、レイアウト構成はバイノーラル化に最適化されるように構成できる。

【0129】

図２１は、本発明の一実施形態に従う両耳間極座標系（Interaural Polar Coordinate、ＩＰＣ）上で乱信号円錐域で構成された仮想スピーカーレイアウトを示す図面である。

【0130】

図２１によれば、仮想スピーカーレイアウトはＣｏＣ＿1～ＣｏＣ＿５の５個の乱信号円錐域で構成された総１５個の仮想スピーカーを含むことができる。仮想のレイアウトは、総５個の乱信号円錐域で構成された総１５個のスピーカーと左側端及び右側端のスピーカーを含んで総１７個のスピーカーで構成できる。この際、仮想スピーカーへのパンニングは後述する２回のステップを通じて遂行できる。

【0131】

本発明の一実施形態に、仮想スピーカーレイアウトは乱信号円錐域上に存在し、３個以上の乱信号円錐域で構成できる。この際、３個以上の乱信号円錐域のうちのいずれかは中央平面（Median Plane）上に位置することができる。

【0132】

１つの乱信号円錐域には同一のＩＰＣ方位角を有する複数個の仮想スピーカーが存在することができる。一方、方位角が＋９０度、－９０度の場合、１つの乱信号円錐域は１つの仮想スピーカーだけでも構成が可能である。

【0133】

図２２は、本発明の一実施形態に従う仮想スピーカーへのパンニング方法を示す図面である。

【0134】

図２２を参考して仮想スピーカーへのパンニング方法について説明する。

【0135】

仮想スピーカーへのパンニング方法の第１のステップは、図２２のようなＩＰＣ上での方位角（Azimuth）情報を活用して１、４、７、１０、１３、１６、１７に該当する７個の仮想スピーカー上に２次元パンニングを遂行するものである。即ち、客体Ａは１と１６にパンニングし、Ｂは４と７にパンニングする。具体的なパンニング方法には、一定パワーパンニング、一定ゲインパンニングなどの方法が使用可能である。また、数式２１のようにｓｉｎ、ｃｏｓの加重値（weighting）をゲインに正規化される形態の方法が使われることができる。数式２１は、図２２の客体Ａをパンニングする方法の一例である。数式２１のａｘｉ＿ｘはｘの方位角を意味するものであって、例えば、数式２１のａｚｉ＿ａはＡの方位角を意味する。

【0136】

【数21】

【0137】

客体Ａは１と１６の間に存在するので、１６番目の客体の位置ベクトルＰ＿１６が計算される。また、ＡはＣｏＣ１に存在するので、Ｐ＿ＣｏＣ１が計算される。

【0138】

図２３は、本発明の一実施形態に従う仮想スピーカーへのパンニング方法を示す図面である。

【0139】

仮想スピーカーへのパンニング方法の第２のステップは、各々の乱信号円錐に位置する仮想スピーカーを使用してＩＰＣ仰角（Elevation）に対する定位を遂行するものである。

【0140】

図２３を参考すると、ＣｏＣ＿１に位置するＡの成分は１番スピーカーと７番スピーカーの間に位置するので、数式２２のようにパンニングできる。数式２２のｅｌｅ＿ｘはｘの仰角を意味するものであって、例えば、数式２２のｅｌｅ＿ａはＡの仰角を意味する。

【0141】

【数22】

【0142】

数式２１及び数式２２を通じて計算されたパンニングゲインＰ＿1、Ｐ＿７、Ｐ＿１６を活用して客体Ａは定位できる。

【0143】

図２４は、本発明の一実施形態に従う仮想スピーカーへのパンニングのための球形ビュー（Spherical View）を示す図面である。

【0144】

図２５は、本発明の一実施形態に従う仮想スピーカーへのパンニングのための左側ビュー（Left View）を示す図面である。

【0145】

以下、図２４、図２５を参考して、仮想スピーカーへのパンニング方法を一般化して説明する。

【0146】

前述したミキシング行列は後述する方法により生成できる。

【0147】

ａ）Ｎ個のスピーカー信号を出力するためのシステムのミキシング行列を生成するためのミキシング行列生成部は、ＩＰＣ上での方位角と仰角ａｚｉ＿ａとｅｌｅ＿ａに位置する客体信号をＣ個の乱信号円錐域で構成されたＮ個のスピーカーレイアウトに定位して仮想スピーカーへのパンニングを遂行した後、ミキシング行列を生成することができる。

【0148】

ｂ）仮想スピーカーへのパンニングのために方位角情報を活用した方位角パンニング（Azimuth Panning）と乱信号円錐に位置する仮想スピーカーを使用してＩＰＣ仰角（Elevation）に対する定位のための仰角パンニング（Elevation Panning）が遂行できる。方位角パンニングは乱信号円錐域パンニング（Cone-of-Confusion Panning）にして記述できる。

【0149】

ｂ－ｉ）方位角パンニング
ミキシング行列生成部は、Ｃ個の乱信号円錐域のうち、ａｚｉ＿ａの左側、右側に最も隣接した２つの乱信号円錐域を選択することができる。そして、ミキシング行列生成部は、選択された２つの乱信号円錐域の左側乱信号円錐域ＣｏＣ＿ＬｅｆｔのＩＰＣ方位角ａｚｉ＿ＣｏＣ＿Ｌｅｆｔと右側乱信号円錐域ＣｏＣ＿ＲｉｇｈｔのＩＰＣ方位角ａｚｉ＿ＣｏＣ＿Ｒｉｇｈｔを基準に乱信号円錐域間のパンニングゲインＰ＿ＣｏＣ＿ＬｅｆｔとＰ＿ＣｏＣ＿Ｒｉｇｈｔを数式２３のように計算することができる。パンニングゲインＰ＿ＣｏＣ＿ＬｅｆｔとＰ＿ＣｏＣ＿Ｒｉｇｈｔの合は１でありえる。方位角パンニングは水平パンニングにして記述できる。

【0150】

【数23】

【0151】

ｂ－ｉｉ）仰角パンニング
ミキシング行列生成部は、ＣｏＣ＿Ｌｅｆｔの上に存在する仮想スピーカーのうち、ｅｌｅ＿ａの時計方向、時計反回り方向に最も隣接した２つの仮想スピーカーＣＷ、ＣＣＷを選択することができる。そして、ミキシング行列生成部は、ＣＷのＩＰＣ仰角であるｅｌｅ＿ＣｏＣ＿ＬｅｆｔとＣＣＷのＩＰＣ仰角であるｅｌｅ＿ＣｏＣ＿Ｌｅｆｔ＿ＣＣＷの間に定位するパンニングゲインＰ＿ＣｏＣ＿Ｌｅｆｔ＿ＣＷとＰ＿ＣｏＣ＿Ｌｅｆｔ＿ＣＣＷを数式２４のように計算することができる。また、ミキシング行列部は、これと同一の方法を使用してＰ＿ＣｏＣ＿Ｒｉｇｈｔ＿ＣＷとＰ＿ＣｏＣ＿Ｒｉｇｈｔ＿ＣＣＷを数式２５のように計算することができる。パンニングゲインＰ＿ＣｏＣ＿Ｒｉｇｈｔ＿ＣＷとＰ＿ＣｏＣ＿Ｒｉｇｈｔ＿ＣＣＷの合は１でありえる。仰角パンニングは垂直パンニングにして記述できる。

【0152】

【数24】

【0153】

【数25】

【0154】

ミキシング行列生成部は、前述した過程を通じて生成されたＰ＿ＣｏＣ＿Ｌｅｆｔ＿ＣＷ、Ｐ＿ＣｏＣ＿Ｒｉｇｈｔ＿ＣＷ、Ｐ＿ＣｏＣ＿Ｌｅｆｔ＿ＣＣＷ、Ｐ＿ＣｏＣ＿Ｒｉｇｈｔ＿ＣＣＷに対応するスピーカーのインデックスを各々ａ、ｂ、ｃ、ｄとする時、入力客体Ａに対する最終パンニングゲインＰ［ａ］［Ａ］を数式２６のように計算することができる。

【0155】

【数26】

【0156】

また、ミキシング行列生成部は前述したａ）、ｂ）の過程を繰り返してＮ個の客体をＬ個の仮想チャンネルスピーカーに定位させる全体ミキシング行列Ｍを数式２７のように生成することができる。

【0157】

【数27】

【0158】

ミキシング行列が計算されれば、PannerはＮ個の入力信号Ｘ［１～Ｎ］とミキシング行列Ｍを活用してＬ個の仮想スピーカー信号Ｓを数式２８のように生成することができる。数式２８のdot関数は内積を意味する。

【0159】

【数28】

【0160】

ユーザ機器（例：ヘッドホン）は、出力信号仮想スピーカーレイアウトと、これに対応するＨＲＩＲ、及び仮想スピーカー入力信号Ｓをバイノーラル化して出力することができる。この際、バイノーラル化は図１４を参考して説明したバイノーラル化方法が使われることができる。

【0161】

本明細書で説明したミキシング行列を計算し、音像を定位させる方法とバイノーラル化する方法との結合に対してまた説明すると、次の通りである。

【0162】

i）数式２３のように客体音源のＩＰＣ上の方位角により乱信号円錐域対が決定できる。この際、水平補間（Interpolation）割合はＰ＿ＣｏＣ＿Ｌｅｆｔ、Ｐ＿ＣｏＣ＿Ｒｉｇｈｔの割合で定義できる。

【0163】

ii）数式２４と数式２５のように、ＩＰＣ上の仰角を用いて客体音源と隣接した２つの仮想スピーカーの垂直補間割合はＰ＿ＣｏＣ＿Ｒｉｇｈｔ＿ＣＷ（または、Ｐ＿ＣｏＣ＿Ｌｅｆｔ＿ＣＷ）、Ｐ＿ＣｏＣ＿Ｒｉｇｈｔ＿ＣＣＷ（または、Ｐ＿ＣｏＣ＿Ｌｅｆｔ＿ＣＣＷ）と定義できる。

【0164】

そして、iii）４個の仮想音源（客体音源と隣接した４個の仮想スピーカー）のパンニングが数式２６のように水平補間割合と垂直補間割合を通じて計算される。

【0165】

iv）バイノーラルレンダリングは１つの入力客体（例：音源）に対するパンニング係数と４個の仮想音源のＨＲＩＲを掛けて遂行できる。これは、補間されたＨＲＩＲ（Interpolated HRIR）を合成した後、補間されたＨＲＩＲを客体音源に掛けてバイノーラル化することと同一でありえる。この際、補間されたＨＲＩＲは数式２６を通じて計算された４個の仮想音源に対するパンニングゲインを各々の仮想音源に対応するＨＲＩＲに適用して生成できる。

【0166】

補間係数を計算する前記数式２３、数式２４、数式２５は、一般的なラウドスピーカパンニングで使用するパワー正規化（Power Normalization）でないゲイン正規化（Gain Normalization）特性を有する特徴がある。バイノーラル化により信号がまたミキシングされる場合、同一の乱信号円錐域に位置するＩＰＣ仰角対応垂直成分仮想チャンネル信号は同相（In-phase）で加えられる特性を有する。したがって、補強干渉のみ起こることを考慮してゲイン正規化が遂行できる。乱信号円錐域の他のＩＰＣ方位角対応水平信号の場合にも、信号が大きい方向である同側成分は全て同相で加えられる特性を有する。したがって、ゲイン正規化が遂行できる。

【0167】

図２６は、本発明の一実施形態に従うバイノーラル信号生成のためのフローチャートを示す図面である。

【0168】

図２６は、図１乃至図２５を通じて前述した一実施形態に従うバイノーラル信号を生成するための方法に対するものである。

【0169】

バイノーラル信号生成のために、バイノーラル信号生成装置は、ステレオ信号を受信し、前記ステレオ信号を周波数領域上の信号に変換することができる（Ｓ２６１０、Ｓ２６２０）。

【0170】

バイノーラル信号生成装置は、前記周波数領域上の信号を、前記周波数領域上の信号の各チャンネル間相関度（correlation）及び各チャンネル間エネルギー割合（Inter-Channel Level Difference、ＩＣＬＤ）に基づいて第１信号と第２信号に分離することができる（Ｓ２６３０）。

【0171】

この際、前記第１信号は前記周波数領域上の信号の正面成分を含み、前記第２信号は前記周波数領域上の信号の側面成分を含むことができる。

【0172】

バイノーラル信号生成装置は、第１同側フィルタ係数に基づいて前記第１信号をレンダリングし、前記周波数領域上の信号に対する正面同側信号を生成することができる（Ｓ２６４０）。前記第１同側フィルタ係数は第１のＨＲＩＲ（Head Related Impulse Response）の同側応答信号に基づいて生成できる。

【0173】

バイノーラル信号生成装置は、第２同側フィルタ係数に基づいて前記第２信号をレンダリングし、前記周波数領域上の信号に対する側面同側信号を生成することができる（Ｓ２６５０）。前記第２同側フィルタ係数は第２のＨＲＩＲの同側応答信号に基づいて生成できる。

【0174】

バイノーラル信号生成装置は、反側フィルタ係数に基づいて前記第２信号をレンダリングし、前記周波数領域上の信号に対する側面反側信号を生成することができる（Ｓ２６６０）。前記反側フィルタ係数は前記第２のＨＲＩＲの反側応答信号に基づいて生成できる。

【0175】

バイノーラル信号生成装置は、前記正面同側信号及び前記側面同側信号をミキシングして生成された同側信号及び前記側面反側信号を時間領域上の信号である時間領域同側信号及び時間領域反側信号に各々変換することができる（Ｓ２６７０）。

【0176】

バイノーラル信号生成装置は、前記時間領域同側信号及び前記時間領域反側信号をミキシングしてバイノーラル信号を生成することができる（Ｓ２６８０）。

【0177】

前記バイノーラル信号は、前記時間領域反側信号に両耳時間差（Interaural Time Delay、ＩＴＤ）を考慮して生成できる。

【0178】

前記第１同側フィルタ係数、前記第２同側フィルタ係数、及び前記反側フィルタ係数は実数値でありえる。

【0179】

前記第１信号の左チャンネル信号と前記第２信号の左チャンネル信号の合は前記ステレオ信号の左チャンネル信号と同一でありえる。

【0180】

前記第１信号の右チャンネル信号と前記第２信号の右チャンネル信号の合は前記ステレオ信号の右チャンネル信号と同一でありえる。

【0181】

前記第１信号の左チャンネル信号のエネルギーと前記第１信号の右チャンネル信号のエネルギーは互いに同一でありえる。

【0182】

前記ＨＲＩＲの同側特性は、ＩＴＤを考慮したＨＲＩＲの反側特性が適用できる。

【0183】

前記ＩＴＤは１ｍｓ以下でありえる。

【0184】

前記第１信号の左チャンネル信号の位相と前記正面同側信号の左チャンネル信号の位相は同一でありえる。前記第１信号の右チャンネル信号の位相と前記正面同側信号の右チャンネル信号の位相は同一でありえる。また、前記第２信号の左チャンネル信号の位相、前記側面同側信号の左－側面信号の位相、及び前記側面反側信号の左－側面信号の位相は同一でありえる。前記第２信号の右チャンネル信号の位相、前記側面同側信号の右－側面信号の位相、前記側面反側信号の右－側面信号の位相は同一でありえる。

【0185】

ステップＳ２６７０は、前記正面同側信号及び前記側面同側信号を左、右チャンネル別に各々ミキシングして生成された左－同側信号及び右－同側信号の各々を時間領域上の信号である時間領域左－同側信号及び時間領域右－同側信号に変換するステップ；前記側面反側信号を左、右チャンネル別に各々時間領域上の信号である左－側面反側信号及び右－側面反側信号に変換するステップ；でありえる。

【0186】

この際、前記バイノーラル信号は、前記時間領域左－同側信号及び時間領域左－側面反側信号をミキシングし、前記時間領域右－同側信号及び時間領域右－側面反側信号をミキシングして生成できる。

【0187】

バイノーラル信号生成装置は、前述したバイノーラル信号生成方法を遂行するためにステレオ信号を受信する入力端及びレンダラーを含むプロセッサを含んで構成できる。

【0188】

以上、本発明を具体的な実施形態を通じて説明したが、当業者であれば、本発明の趣旨及び範囲を逸脱することなく修正、変更することができる。即ち、本発明はオーディオ信号に対するバイノーラルレンダリングの実施形態に対して説明したが、本発明はオーディオ信号だけでなく、ビデオ信号を含む多様なマルチメディア信号にも同一に適用及び拡張可能である。したがって、本発明の詳細な説明及び実施形態から本発明が属する技術分野に属する者が容易に類推することができることは本発明の権利範囲に属することと解釈される。

【0189】

前述した本発明の実施形態は多様な手段を通じて具現できる。例えば、本発明の実施形態はハードウェア、ファームウエア（firmware）、ソフトウェア、またはそれらの結合などにより具現できる。

【0190】

ハードウェアによる具現の場合、本発明の実施形態に従う方法は１つまたはその以上のＡＳＩＣｓ（Application Specific Integrated Circuits）、ＤＳＰｓ（Digital Signal Processors）、ＤＳＰＤｓ（Digital Signal Processing Devices）、ＰＬＤｓ（Programmable Logic Devices）、ＦＰＧＡｓ（Field Programmable Gate Arrays）、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサなどにより具現できる。

【0191】

ファームウエアやソフトウェアによる具現の場合、本発明の実施形態に従う方法は以上で説明された機能または動作を遂行するモジュール、手続き、または関数などの形態に具現できる。ソフトウェアコードは、メモリに格納されてプロセッサにより駆動できる。前記メモリはプロセッサの内部または外部に位置することができ、既に公知された多様な手段によりプロセッサとデータのやり取りをすることができる。

【0192】

一部の実施形態はコンピュータにより実行されるプログラムモジュールのようなコンピュータにより実行可能な命令語を含む記録媒体の形態にも具現できる。コンピュータ読取可能媒体はコンピュータによりアクセスできる任意の可用媒体でありえ、揮発性及び不揮発性媒体、分離型及び非分離型媒体を全て含む。また、コンピュータ読取可能媒体は、コンピュータ格納媒体及び通信媒体を全て含むことができる。コンピュータ格納媒体は、コンピュータ読取可能命令語、データ構造、プログラムモジュール、またはその他のデータのような情報の格納のための任意の方法または技術で具現された揮発性及び不揮発性、分離型及び非分離型媒体を全て含む。通信媒体は、典型的にコンピュータ読取可能命令語、データ構造またはプログラムモジュールのような変調されたデータ信号のその他のデータ、またはその他の転送メカニズムを含み、任意の情報伝達媒体を含む。

【0193】

前述した本発明の説明は例示のためのものであり、本発明が属する技術分野の通常の知識を有する者は本発明の技術的思想や必須な特徴を変更せず、他の具体的な形態に容易に変形可能であるということを理解することができる。したがって、以上で記述した実施形態は全ての面で例示的なものであり、限定的でないものとして解釈しなければならない。例えば、単一型として説明されている各構成要素は分散されて実施されることもでき、同様に、分散されたものとして説明されている構成要素も結合された形態に実施できる。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【図10】

【図11】

【図12】

【図13】

【図14】

【図15】

【図16】

【図17】

【図18】

【図19】

【図20】

【図21】

【図22】

【図23】

【図24】

【図25】

【図26】

【手続補正書】

【提出日】2022-03-01

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

オーディオ信号処理方法であって、
仮想スピーカーレイアウトを受信するステップであって、前記仮想スピーカーレイアウトが複数の仮想スピーカーを備え、前記仮想スピーカーレイアウトが複数の乱信号円錐域（ＣｏＣ）からなる、ステップと、
前記複数の仮想スピーカーの信号のそれぞれについて周波数領域上で同側信号を取得するステップと、
前記複数の仮想スピーカーの信号のそれぞれについて前記周波数領域上で反側信号を取得するステップと、
前記周波数領域上で前記同側信号をミキシングすることによって、ミキシングされた同側信号を取得するステップと、
前記周波数領域上で前記反側信号の中の同じＣｏＣに位置する仮想スピーカーの反側信号をミキシングすることによって、複数のミキシングされた反側信号を取得するステップと、
前記ミキシングされた同側信号を変換することによって時間領域上で同側信号を取得するステップと、
前記複数のミキシングされた反側信号を変換することによって前記時間領域上で複数の反側信号を取得するステップと、
前記時間領域上での前記同側信号および前記時間領域上での前記複数の反側信号に基づいてバイノーラル信号を取得するステップと
を備える、方法。

【請求項2】

前記同じＣｏＣに位置する前記仮想スピーカーの前記反側信号のそれぞれの両耳時間差（ＩＴＤ）が等しい、請求項１に記載の方法。

【請求項3】

前記周波数領域上での前記同側信号が、前記周波数領域上での前記同側信号のそれぞれについての頭部伝達関数（ＨＲＴＦ）の振幅特性に基づいて取得される、請求項１に記載の方法。

【請求項4】

前記周波数領域上での前記反側信号が、前記周波数領域上での前記反側信号のそれぞれについての頭部伝達関数（ＨＲＴＦ）の振幅特性に基づいて取得される、請求項１に記載の方法。

【請求項5】

前記複数のＣｏＣの数が少なくとも３である、請求項１に記載の方法。

【請求項6】

前記複数のＣｏＣの数の１つが中央平面上に位置する、請求項５に記載の方法。

【請求項7】

前記ＩＴＤが１ミリ秒（ｍｓ）より小さい、請求項２に記載の方法。

【請求項8】

前記周波数領域上での前記同側信号および前記周波数領域上での前記反側信号が、それぞれ、位相で独立して取得される、請求項１に記載の方法。

【請求項9】

オーディオ信号処理装置であって、
オーディオ信号を受信するように構成される入力端と、
レンダラーを含むプロセッサであって、
仮想スピーカーレイアウトを受信することであって、前記仮想スピーカーレイアウトが複数の仮想スピーカーを備え、前記仮想スピーカーレイアウトが複数の乱信号円錐域（ＣｏＣ）からなる、受信することと、
前記複数の仮想スピーカーの信号のそれぞれについて周波数領域上で同側信号を取得することと、
前記複数の仮想スピーカーの信号のそれぞれについて前記周波数領域上で反側信号を取得することと、
前記周波数領域上で前記同側信号をミキシングすることによって、ミキシングされた同側信号を取得することと、
前記周波数領域上で前記反側信号の中の同じＣｏＣに位置する仮想スピーカーの反側信号をミキシングすることによって、複数のミキシングされた反側信号を取得することと、
前記ミキシングされた同側信号を変換することによって時間領域上で同側信号を取得することと、
前記複数のミキシングされた反側信号を変換することによって前記時間領域上で複数の反側信号を取得することと、
前記時間領域上での前記同側信号および前記時間領域上での前記複数の反側信号に基づいてバイノーラル信号を取得することと
を行うように構成される、プロセッサと、
を備える、装置。

【請求項10】

前記同じＣｏＣに位置する前記仮想スピーカーの前記反側信号のそれぞれの両耳時間差（ＩＴＤ）が等しい、請求項９に記載の装置。

【請求項11】

前記周波数領域上での前記同側信号が、前記周波数領域上での前記同側信号のそれぞれについての頭部伝達関数（ＨＲＴＦ）の振幅特性に基づいて取得される、請求項９に記載の装置。

【請求項12】

前記周波数領域上での前記反側信号が、前記周波数領域上での前記反側信号のそれぞれについての頭部伝達関数（ＨＲＴＦ）の振幅特性に基づいて取得される、請求項９に記載の装置。

【請求項13】

前記複数のＣｏＣの数が少なくとも３である、請求項９に記載の装置。

【請求項14】

前記複数のＣｏＣの数の１つが中央平面上に位置する、請求項１３に記載の装置。

【請求項15】

前記ＩＴＤが１ミリ秒（ｍｓ）より小さい、請求項１０に記載の装置。

【請求項16】

前記周波数領域上での前記同側信号および前記周波数領域上での前記反側信号が、それぞれ、位相で独立して取得される、請求項９に記載の装置。

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版