(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022160599
(43)【公開日】2022-10-19
(54)【発明の名称】音響処理装置および方法、並びにプログラム
(51)【国際特許分類】
H04S 7/00 20060101AFI20221012BHJP
【FI】
H04S7/00 300
【審査請求】有
【請求項の数】3
【出願形態】OL
(21)【出願番号】P 2022126036
(22)【出願日】2022-08-08
(62)【分割の表示】P 2021109908の分割
【原出願日】2014-04-11
(31)【優先権主張番号】P 2013094268
(32)【優先日】2013-04-26
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】100121131
【弁理士】
【氏名又は名称】西川 孝
(74)【代理人】
【識別番号】100082131
【弁理士】
【氏名又は名称】稲本 義雄
(74)【代理人】
【識別番号】100168686
【弁理士】
【氏名又は名称】三浦 勇介
(72)【発明者】
【氏名】山本 優樹
(72)【発明者】
【氏名】知念 徹
(72)【発明者】
【氏名】史 潤宇
(72)【発明者】
【氏名】畠中 光行
(57)【要約】
【課題】音像の定位をより安定させることができるようにする。
【解決手段】目標音像位置を囲む4つのスピーカを頂点とする球面上の四角形の辺のうち、下側に位置する辺上に仮想スピーカがあるものとされる。そして、仮想スピーカと、右上および左上の2つのスピーカとから3次元VBAPにより、目標音像位置に音像を定位させるための右上および左上の2つのスピーカと仮想スピーカの各ゲインが算出される。さらに、右下および左下のスピーカについて2次元VBAPが行なわれ、仮想スピーカに音像を定位させるための、右下および左下のスピーカのゲインが算出され、それらのゲインに仮想スピーカのゲインが乗算されたものが、目標音像位置に音像を定位させるための右下および左下のスピーカのゲインとされる。本技術は、音声処理装置に適用することができる。
【選択図】
図7
【特許請求の範囲】
【請求項1】
オーディオオブジェクト信号と、前記オーディオオブジェクト信号のメタデータを取得する取得部と、
音像定位位置近傍に位置する複数の音声出力部のゲイン係数を、少なくとも前記複数の音声出力部のうちの2個または3個の組み合わせに関する複数の音声出力部と前記音像定位位置の位置関係に基づいて計算する計算部と、
前記複数の音声出力部の前記ゲイン係数を出力する出力部と
を備える音響処理装置。
【請求項2】
音響処理装置が、
オーディオオブジェクト信号と、前記オーディオオブジェクト信号のメタデータを取得し、
音像定位位置近傍に位置する複数の音声出力部のゲイン係数を、少なくとも前記複数の音声出力部のうちの2個または3個の組み合わせに関する複数の音声出力部と前記音像定位位置の位置関係に基づいて計算し、
前記複数の音声出力部の前記ゲイン係数を出力する
音響処理方法。
【請求項3】
オーディオオブジェクト信号と、前記オーディオオブジェクト信号のメタデータを取得し、
音像定位位置近傍に位置する複数の音声出力部のゲイン係数を、少なくとも前記複数の音声出力部のうちの2個または3個の組み合わせに関する複数の音声出力部と前記音像定位位置の位置関係に基づいて計算し、
前記複数の音声出力部の前記ゲイン係数を出力する
ステップを含む処理をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本技術は、音響処理装置および方法、並びにプログラムに関し、特に、音像の定位をより安定させることができるようにした音響処理装置および方法、並びにプログラムに関する。
【背景技術】
【0002】
従来、複数のスピーカを用いて音像の定位を制御する技術として、VBAP(Vector Base Amplitude Pannning)が知られている(例えば、非特許文献1参照)。
【0003】
VBAPでは、目標となる音像の定位位置が、その定位位置の周囲にある2つまたは3つのスピーカの方向を向くベクトルの線形和で表現される。そして、その線形和において各ベクトルに乗算されている係数が、各スピーカから出力される音声のゲインとして用いられてゲイン調整が行なわれ、目標となる位置に音像が定位するようになされる。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Ville Pulkki, “Virtual Sound Source Positioning Using Vector Base Amplitude Panning”, Journal of AES, vol.45, no.6, pp.456-466, 1997
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上述した技術では、目標とする位置に音像を定位させることはできるが、その定位位置によっては、音像の定位が不安定となってしまうことがあった。
【0006】
例えば、3つのスピーカを用いてVBAPを行なう3次元VBAPでは、目標とする音像の定位位置によっては、3つのスピーカのうち、2つのスピーカのみから音声が出力され、残りの1つのスピーカからは音声が出力されないように制御される場合がある。
【0007】
そのような場合、音声を聴いているときにユーザが移動すると、その移動方向とは異なる方向に音像が移動し、音像の定位が不安定であると知覚されてしまうことがある。このように音像の定位が不安定となると、最適な視聴位置であるスイートスポットの範囲が狭くなってしまう。
【0008】
本技術は、このような状況に鑑みてなされたものであり、音像の定位をより安定させることができるようにするものである。
【課題を解決するための手段】
【0009】
本技術の一側面の音響処理装置は、オーディオオブジェクト信号と、前記オーディオオブジェクト信号のメタデータを取得する取得部と、音像定位位置近傍に位置する複数の音声出力部のゲイン係数を、少なくとも前記複数の音声出力部のうちの2個または3個の組み合わせに関する複数の音声出力部と前記音像定位位置の位置関係に基づいて計算する計算部と、前記複数の音声出力部の前記ゲイン係数を出力する出力部とを備える。
【0010】
本技術の一側面の音響処理方法またはプログラムは、オーディオオブジェクト信号と、前記オーディオオブジェクト信号のメタデータを取得し、音像定位位置近傍に位置する複数の音声出力部のゲイン係数を、少なくとも前記複数の音声出力部のうちの2個または3個の組み合わせに関する複数の音声出力部と前記音像定位位置の位置関係に基づいて計算し、前記複数の音声出力部の前記ゲイン係数を出力するステップを含む。
【0011】
本技術の一側面においては、オーディオオブジェクト信号と、前記オーディオオブジェクト信号のメタデータが取得され、音像定位位置近傍に位置する複数の音声出力部のゲイン係数が、少なくとも前記複数の音声出力部のうちの2個または3個の組み合わせに関する複数の音声出力部と前記音像定位位置の位置関係に基づいて計算され、前記複数の音声出力部の前記ゲイン係数が出力される。
【発明の効果】
【0012】
本技術の一側面によれば、音像の定位をより安定させることができる。
【図面の簡単な説明】
【0013】
【
図4】4つのスピーカが配置されている場合におけるゲイン算出方法について説明する図である。
【
図6】本技術を適用した場合における音像の移動について説明する図である。
【
図7】本技術によるゲインの算出について説明する図である。
【
図8】本技術によるゲインの算出について説明する図である。
【
図11】音像定位制御処理を説明するフローチャートである。
【
図12】スピーカのゲインの他の算出方法について説明する図である。
【
図13】ゲイン算出部の他の構成例を示す図である。
【
図14】音像定位制御処理を説明するフローチャートである。
【
図15】スピーカのゲインの算出方法について説明する図である。
【発明を実施するための形態】
【0014】
以下、図面を参照して、本技術を適用した実施の形態について説明する。
【0015】
〈第1の実施の形態〉
〈本技術の概要について〉
まず、
図1乃至
図8を参照して、本技術の概要について説明する。なお、
図1乃至
図8において、対応する部分には同一の符号を付してあり、その説明は適宜省略する。
【0016】
例えば、
図1に示すように、音声付の動画像や楽曲などのコンテンツを視聴するユーザU11が、2つのスピーカSP1およびスピーカSP2から出力される2チャンネルの音声をコンテンツの音声として聴いているとする。
【0017】
このような場合に、各チャンネルの音声を出力する2つのスピーカSP1とスピーカSP2の位置情報を用いて、仮想音源VSP1の位置に音像を定位させることを考える。
【0018】
例えば、ユーザU11の頭部の位置を原点Oとし、図中、縦方向および横方向をx軸方向およびy軸方向とする2次元座標系における仮想音源VSP1の位置を、原点Oを始点とするベクトルPにより表すこととする。
【0019】
ベクトルPは2次元のベクトルであるため、原点Oを始点とし、それぞれスピーカSP1およびスピーカSP2の位置の方向を向くベクトルL1およびベクトルL2の線形和によってベクトルPを表すことができる。すなわち、ベクトルPは、ベクトルL1およびベクトルL2を用いて次式(1)により表すことができる。
【0020】
【0021】
式(1)においてベクトルL1およびベクトルL2に乗算されている係数g1および係数g2を算出し、これらの係数g1および係数g2を、スピーカSP1およびスピーカSP2のそれぞれから出力する音声のゲインとすれば、仮想音源VSP1の位置に音像を定位させることができる。すなわち、ベクトルPにより示される位置に音像を定位させることができる。
【0022】
このようにして、2つのスピーカSP1とスピーカSP2の位置情報を用いて係数g1および係数g2を求め、音像の定位位置を制御する手法は、2次元VBAPと呼ばれている。
【0023】
図1の例では、スピーカSP1とスピーカSP2を結ぶ円弧AR11上の任意の位置に音像を定位させることができる。ここで、円弧AR11は、原点Oを中心とし、スピーカSP1およびスピーカSP2の各位置を通る円の一部分である。
【0024】
なお、ベクトルPは2次元ベクトルであるので、ベクトルL1とベクトルL2のなす角度が0度より大きく、180度未満である場合、ゲインとされる係数g1および係数g2は一意に求まる。これらの係数g1および係数g2の算出方法については、上述した非特許文献1に詳細に記載されている。
【0025】
これに対して、3チャンネルの音声を再生しようとする場合には、例えば
図2に示すように、音声を出力するスピーカの数は3つになる。
【0026】
図2の例では、3つのスピーカSP1、スピーカSP2、およびスピーカSP3から各チャンネルの音声が出力される。
【0027】
このような場合においても、スピーカSP1乃至スピーカSP3から出力される各チャンネルの音声のゲイン、つまりゲインとして求める係数が3つになるだけで、考え方は上述した2次元VBAPと同様である。
【0028】
すなわち、仮想音源VSP2の位置に音像を定位させようとする場合に、ユーザU11の頭部の位置を原点Oとする3次元座標系において、仮想音源VSP2の位置を、原点Oを始点とする3次元のベクトルPにより表すこととする。
【0029】
また、原点Oを始点とし、各スピーカSP1乃至スピーカSP3の位置の方向を向く3次元のベクトルをベクトルL1乃至ベクトルL3とすると、ベクトルPは次式(2)に示すように、ベクトルL1乃至ベクトルL3の線形和によって表すことができる。
【0030】
【0031】
式(2)においてベクトルL1乃至ベクトルL3に乗算されている係数g1乃至係数g3を算出し、これらの係数g1乃至係数g3を、スピーカSP1乃至スピーカSP3のそれぞれから出力する音声のゲインとすれば、仮想音源VSP2の位置に音像を定位させることができる。
【0032】
このようにして、3つのスピーカSP1乃至スピーカSP3の位置情報を用いて係数g1乃至係数g3を求め、音像の定位位置を制御する手法は、3次元VBAPと呼ばれている。
【0033】
図2の例では、スピーカSP1、スピーカSP2、およびスピーカSP3の位置を含む球面上の三角形の領域TR11内の任意の位置に音像を定位させることができる。ここで、領域TR11は、原点Oを中心とし、スピーカSP1乃至スピーカSP3の各位置を含む球の表面上の領域であって、スピーカSP1乃至スピーカSP3により囲まれる球面上の三角形の領域である。
【0034】
このような3次元VBAPを用いれば、空間上の任意の位置に音像を定位させることができるようになる。
【0035】
例えば
図3に示すように、音声を出力させるスピーカの数を増やして、
図2に示した三角形の領域TR11に相当する領域を空間上に複数設ければ、それらの領域上の任意の位置に音像を定位させることができる。
【0036】
図3に示す例では、5つのスピーカSP1乃至スピーカSP5が配置されており、それらのスピーカSP1乃至スピーカSP5から各チャンネルの音声が出力される。ここで、スピーカSP1乃至スピーカSP5は、ユーザU11の頭部の位置にある原点Oを中心とする球面上に配置されている。
【0037】
この場合、原点Oを始点とし、各スピーカSP1乃至スピーカSP5の位置の方向を向く3次元のベクトルをベクトルL1乃至ベクトルL5として、上述した式(2)を解く計算と同様の計算を行い、各スピーカから出力される音声のゲインを求めればよい。
【0038】
ここで、原点Oを中心とする球面上の領域のうち、スピーカSP1、スピーカSP4、およびスピーカSP5により囲まれる三角形の領域を領域TR21とする。同様に、原点Oを中心とする球面上の領域のうち、スピーカSP3、スピーカSP4、およびスピーカSP5により囲まれる三角形の領域を領域TR22とし、スピーカSP2、スピーカSP3、およびスピーカSP5により囲まれる三角形の領域を領域TR23とする。
【0039】
これらの領域TR21乃至領域TR23は、
図2に示した領域TR11に対応する領域である。いま、音像を定位させたい位置を示す3次元のベクトルをベクトルPとすると、
図3の例では、ベクトルPは領域TR21上の位置を示している。
【0040】
そこで、この例ではスピーカSP1、スピーカSP4、およびスピーカSP5の位置を示すベクトルL1、ベクトルL4、およびベクトルL5が用いられて式(2)を解く計算と同様の計算が行なわれ、スピーカSP1、スピーカSP4、およびスピーカSP5の各スピーカから出力される音声のゲインが算出される。また、この場合、他のスピーカSP2およびスピーカSP3から出力される音声のゲインは0とされる。つまり、これらのスピーカSP2およびスピーカSP3からは、音声は出力されない。
【0041】
このように空間上に5つのスピーカSP1乃至スピーカSP5を配置すれば、領域TR21乃至領域TR23からなる領域上の任意の位置に音像を定位させることが可能となる。
【0042】
ところで、
図4に示すように空間上に4つのスピーカSP1乃至スピーカSP4が配置されており、それらのスピーカSP1乃至スピーカSP4の中心位置にある仮想音源VSP3の位置に音像を定位させるとする。
【0043】
図4の例では、スピーカSP1乃至スピーカSP4は、図示せぬ原点Oを中心とする球の表面に配置されており、その表面上の領域であって、スピーカSP1乃至スピーカSP3により囲まれる三角形の領域が領域TR31となっている。また、原点Oを中心とする球の表面上の領域であって、スピーカSP2乃至スピーカSP4により囲まれる三角形の領域が領域TR32となっている。
【0044】
そして、仮想音源VSP3は、領域TR31の右下側の辺上に位置している。また、仮想音源VSP3は、領域TR32の左上側の辺上にも位置している。
【0045】
したがって、この場合、スピーカSP1乃至スピーカSP3について3次元VBAPを行なうか、またはスピーカSP2乃至スピーカSP4について3次元VBAPを行なえばよいことになる。何れの場合にしても3次元VBAPの計算結果は同じとなり、2つのスピーカSP2およびスピーカSP3のみから音声が出力され、残りのスピーカSP1およびスピーカSP4からは音声が出力されないようなゲインが求まる。
【0046】
3次元VBAPでは、音像を定位させようとする位置が、3つのスピーカを結ぶ球面上の三角形の領域の境界線上、つまり球面上の三角形の辺上にある場合、その辺の両端に位置する2つのスピーカからのみ音声が出力されることになる。
【0047】
このように2つのスピーカSP2およびスピーカSP3のみから音声が出力される場合に、例えば
図5に示すように、最適な視聴位置であるスイートスポットにいるユーザU11が、矢印A11に示すように図中、左側に移動したとする。
【0048】
すると、ユーザU11の頭部はスピーカSP3に近付くため、このスピーカSP3から出力されている音声がより大きく聴こえるようになるので、ユーザU11には、矢印A12に示すように仮想音源VSP3、つまり音像が図中、左下に移動したように知覚される。
【0049】
3次元VBAPでは、
図5に示すように2つのスピーカのみから音声が出力される場合には、ユーザU11がスイートスポットから少し移動するだけで、ユーザU11の移動方向に対して垂直な方向に音像が移動してしまう。そのような場合、ユーザU11は自身の移動方向とは異なる方向に音像が移動したように知覚されるので違和感が生じてしまう。つまり、ユーザU11にとって音像の定位が不安定であると知覚されてしまい、スイートスポットの範囲が狭くなってしまう。
【0050】
そこで、本技術では、上述したVBAPとは異なり、3つより多い数のスピーカ、つまり4以上のスピーカから音声を出力させることにより、音像の定位をより安定させ、これによりスイートスポットの範囲がより広くなるようにする。
【0051】
なお、音声を出力させるスピーカの数は4以上であればいくつでもよいが、以下では4つのスピーカから音声を出力させる場合を例として説明を続ける。
【0052】
例えば
図4に示した例と同様に、4つのスピーカSP1乃至スピーカSP4の中心位置にある仮想音源VSP3の位置に音像を定位させるとする。
【0053】
そのような場合、本技術では2つまたは3つのスピーカが選択されて1つの組み合わせとされ、互いに異なる複数の組み合わせについてVBAPが行なわれて、4つのスピーカSP1乃至スピーカSP4から出力される音声のゲインが算出される。
【0054】
したがって、本技術では、例えば
図6に示すように4つの全てのスピーカSP1乃至スピーカSP4から音声が出力されることになる。
【0055】
そのような場合には
図6中、矢印A21に示すようにユーザU11がスイートスポットから図中、左方向に移動しても仮想音源VSP3の位置、つまり音像の定位位置は矢印A22に示すように図中、左方向に移動するだけである。すなわち、
図5に示した例のように、音像が下方向、つまりユーザU11の移動方向と垂直な方向に移動することはなく、ユーザU11の移動方向と同じ方向にのみ移動する。
【0056】
これは、ユーザU11が左方向に移動すると、スピーカSP3に近付くことになるが、そのスピーカSP3の上側にはスピーカSP1も位置しているからである。この場合、ユーザU11の耳には、ユーザU11から見て左上側からも左下側からも音声が到達するので、音像が図中、下方向に移動したと知覚されにくくなる。
【0057】
そのため、従来のVBAP手法と比較して、より音像の定位を安定させることができ、その結果、スイートスポットの範囲を拡大させることができる。
【0058】
次に、本技術による音像定位の制御について、より具体的に説明する。
【0059】
本技術では、音像を定位させようとする位置を示すベクトルを、3次元座標系の図示せぬ原点Oを始点とするベクトルPとして、次式(3)によりベクトルPを表現する。
【0060】
【0061】
なお、式(3)において、ベクトルL1乃至ベクトルL4は、音像の定位位置近傍にあり、その音像定位位置を囲むように配置されたスピーカSP1乃至スピーカSP4の位置の方向を向く3次元のベクトルを示している。また、g1乃至g4は、これから求めようとする、スピーカSP1乃至スピーカSP4から出力させる各チャンネルの音声のゲインとなる係数を示している。
【0062】
式(3)においては、ベクトルPが4つのベクトルL1乃至ベクトルL4の線形和によって表されている。ここで、ベクトルPは3次元ベクトルであるため、4つの係数g1乃至係数g4は一意に求まらない。
【0063】
そこで、本技術では、以下の方法により、ゲインとなる各係数g1乃至係数g4が算出される。
【0064】
いま、
図4に示した4つのスピーカSP1乃至スピーカSP4に囲まれる球面上の四角形の中心位置、つまり仮想音源VSP3の位置に音像を定位させるとする。
【0065】
ここでは、まず、スピーカSP1乃至スピーカSP4を頂点とする球面上の四角形の任意の1つの辺を選択し、その辺上に仮想的なスピーカ(以下、仮想スピーカと称する)があるものと仮定する。
【0066】
例えば、
図7に示すように、スピーカSP1乃至スピーカSP4を頂点とする球面上の四角形のうち、図中、左下と右下に位置するスピーカSP3とスピーカSP4を結ぶ辺が選択されたとする。そして、例えば仮想音源VSP3の位置から、スピーカSP3とスピーカSP4を結ぶ辺におろした垂線の交点位置に、仮想スピーカVSP’があるものとされる。
【0067】
続いて、この仮想スピーカVSP’と、図中、左上および右上にあるスピーカSP1およびスピーカSP2との合計3つのスピーカについて、3次元VBAPが行なわれる。すなわち、上述した式(2)と同様の式を解くことにより、スピーカSP1、スピーカSP2、および仮想スピーカVSP’のそれぞれから出力される音声のゲインとなる係数g1、係数g2、および係数g’が求められる。
【0068】
図7では、原点Oを始点とする3つのベクトル、すなわちスピーカSP1の方向を向くベクトルL
1、スピーカSP2の方向を向くベクトルL
2、および仮想スピーカVSP’の方向を向くベクトルL’の線形和によりベクトルPが表される。すなわち、P=g
1L
1+g
2L
2+g’L’とされる。
【0069】
ここで、仮想音源VSP3の位置に音像を定位させるためには、仮想スピーカVSP’からゲインg’で音声が出力されねばならないが、仮想スピーカVSP’は実在しない。そこで、本技術では、
図8に示すように仮想スピーカVSP’が位置する四角形の辺の両端に位置する2つのスピーカSP3およびスピーカSP4を用いて、仮想スピーカVSP’の位置に音像を定位させることにより、仮想スピーカVSP’が実現される。
【0070】
具体的には、仮想スピーカVSP’が位置する球面上の辺の、その両端に位置する2つのスピーカSP3およびスピーカSP4について、2次元VBAPが行なわれる。すなわち、上述した式(1)と同様の式を解くことにより、スピーカSP3およびスピーカSP4のそれぞれから出力される音声のゲインとなる係数g3’および係数g4’が算出される。
【0071】
図8の例では、仮想スピーカVSP’の方向を向くベクトルL’が、スピーカSP3の方向を向くベクトルL
3、およびスピーカSP4の方向を向くベクトルL
4の線形和により表される。つまり、L’=g
3’L
3+g
4’L
4とされる。
【0072】
そして、求められた係数g3’に係数g’を乗算して得られる値g’g3’が、スピーカSP3から出力させる音声のゲインとされ、係数g4’に係数g’を乗算して得られる値g’g4’が、スピーカSP4から出力させる音声のゲインとされる。これにより、スピーカSP3とスピーカSP4によって、ゲインg’で音声を出力する仮想スピーカVSP’が実現されることになる。
【0073】
なお、ここで、ゲイン値とされるg’g3’の値が、上述した式(3)における係数g3の値となり、ゲイン値とされるg’g4’の値が、上述した式(3)における係数g4の値となる。
【0074】
以上のようにして得られた0ではない値g1、g2、g’g3’、およびg’g4’を、スピーカSP1乃至スピーカSP4から出力される各チャンネルの音声のゲインとすれば、4つのスピーカから音声を出力させて、目標とする位置に音像を定位させることができる。
【0075】
このように4つのスピーカから音声を出力させて音像を定位させれば、従来のVBAP手法で音像を定位させるよりも、音像の定位をより安定させることができ、これによりスイートスポットの範囲を拡大させることができる。
【0076】
〈音声処理装置の構成例〉
次に、以上において説明した本技術を適用した具体的な実施の形態について説明する。
図9は、本技術を適用した音声処理装置の一実施の形態の構成例を示す図である。
【0077】
音声処理装置11は、外部から供給されたモノラルの音声信号に対してチャンネルごとのゲイン調整を行なうことで、Nチャンネル(但し、N≧5)の音声信号を生成し、N個の各チャンネルに対応するスピーカ12-1乃至スピーカ12-Nに音声信号を供給する。
【0078】
スピーカ12-1乃至スピーカ12-Nは、音声処理装置11から供給された音声信号に基づいて、各チャンネルの音声を出力する。すなわち、スピーカ12-1乃至スピーカ12-Nは、各チャンネルの音声を出力する音源となる音声出力部である。なお、以下、スピーカ12-1乃至スピーカ12-Nを特に区別する必要のない場合、単にスピーカ12とも称することとする。なお、
図9では、スピーカ12が音声処理装置11に含まれていない構成とされているが、スピーカ12が音声処理装置11に含まれるようにしてもよい。また、音声処理装置11を構成する各部とスピーカ12を、例えばいくつかの装置に分けて設ける等して、音声処理装置11の各部とスピーカ12からなる音声処理システムとするようにしてもよい。
【0079】
スピーカ12は、コンテンツ等を視聴するときにユーザが位置すると想定される位置(以下、単にユーザの位置とも称する)を囲むように配置されている。例えば、各スピーカ12は、ユーザの位置を中心とする球の表面上の位置に配置されている。換言すれば、各スピーカ12は、ユーザから等距離の位置に配置される。また、音声処理装置11からスピーカ12への音声信号の供給は有線により行なわれてもよいし、無線により行なわれてもよい。
【0080】
音声処理装置11は、スピーカ選択部21、ゲイン算出部22、ゲイン決定部23、ゲイン出力部24、およびゲイン調整部25から構成される。
【0081】
音声処理装置11には、例えば移動物体などのオブジェクトに取り付けられたマイクロホンにより収音された音声の音声信号と、そのオブジェクトの位置情報とが供給される。
【0082】
スピーカ選択部21は、外部から供給されたオブジェクトの位置情報に基づいて、スピーカ12が配置されている空間上において、オブジェクトから発せられる音声の音像を定位させるべき位置(以下、目標音像位置とも称する)を特定し、その特定結果をゲイン算出部22に供給する。
【0083】
また、スピーカ選択部21は、目標音像位置に基づいて、N個のスピーカ12のなかから、音声を出力させるべき4つのスピーカ12を処理対象のスピーカ12として選択し、その選択結果を示す選択情報をゲイン算出部22、ゲイン決定部23、およびゲイン出力部24に供給する。
【0084】
ゲイン算出部22は、スピーカ選択部21から供給された選択情報と、目標音像位置とに基づいて、処理対象のスピーカ12のゲインを算出し、ゲイン出力部24に供給する。ゲイン決定部23は、スピーカ選択部21から供給された選択情報に基づいて、処理対象とされていないスピーカ12のゲインを決定し、ゲイン出力部24に供給する。例えば、処理対象ではないスピーカ12のゲインは「0」とされる。つまり、処理対象ではないスピーカ12からはオブジェクトの音声が出力されないように制御される。
【0085】
ゲイン出力部24は、ゲイン算出部22およびゲイン決定部23から供給されたN個のゲインをゲイン調整部25に供給する。このとき、ゲイン出力部24は、スピーカ選択部21から供給された選択情報に基づいて、ゲイン算出部22およびゲイン決定部23から供給されたN個の各ゲインのゲイン調整部25内での供給先を定める。
【0086】
ゲイン調整部25は、ゲイン出力部24から供給された各ゲインに基づいて、外部から供給されたオブジェクトの音声信号に対するゲイン調整を行なって、その結果得られたN個の各チャンネルの音声信号をスピーカ12に供給して音声を出力させる。
【0087】
ゲイン調整部25は、増幅部31-1乃至増幅部31-Nを備えている。増幅部31-1乃至増幅部31-Nは、ゲイン出力部24から供給されたゲインに基づいて、外部から供給された音声信号のゲイン調整を行い、その結果得られた音声信号をスピーカ12-1乃至スピーカ12-Nに供給する。
【0088】
なお、以下、増幅部31-1乃至増幅部31-Nを個々に区別する必要がない場合、単に増幅部31とも称する。
【0089】
〈ゲイン算出部の構成例〉
また、
図9に示したゲイン算出部22は、例えば
図10に示すように構成される。
【0090】
図10に示すゲイン算出部22は、仮想スピーカ位置決定部61、3次元ゲイン算出部62、2次元ゲイン算出部63、乗算部64、および乗算部65から構成される。
【0091】
仮想スピーカ位置決定部61は、スピーカ選択部21から供給された目標音像位置を示す情報および選択情報に基づいて仮想スピーカの位置を決定する。仮想スピーカ位置決定部61は、目標音像位置を示す情報、選択情報、および仮想スピーカの位置を示す情報を3次元ゲイン算出部62に供給するとともに、選択情報および仮想スピーカの位置を示す情報を2次元ゲイン算出部63に供給する。
【0092】
3次元ゲイン算出部62は、仮想スピーカ位置決定部61から供給された各情報に基づいて、処理対象のスピーカ12のうちの2つのスピーカ12と、仮想スピーカとについて、3次元VBAPを行なう。そして、3次元ゲイン算出部62は、3次元VBAPにより得られた2つのスピーカ12のゲインをゲイン出力部24に供給するとともに、仮想スピーカのゲインを乗算部64および乗算部65に供給する。
【0093】
2次元ゲイン算出部63は、仮想スピーカ位置決定部61から供給された各情報に基づいて、処理対象のスピーカ12のうちの2つのスピーカ12について2次元VBAPを行い、その結果得られたスピーカ12のゲインを乗算部64および乗算部65に供給する。
【0094】
乗算部64は、2次元ゲイン算出部63から供給されたゲインに、3次元ゲイン算出部62から供給されたゲインを乗算して最終的なスピーカ12のゲインとし、ゲイン出力部24に供給する。乗算部65は、2次元ゲイン算出部63から供給されたゲインに、3次元ゲイン算出部62から供給されたゲインを乗算して最終的なスピーカ12のゲインとし、ゲイン出力部24に供給する。
【0095】
〈音像定位制御処理の説明〉
ところで、音声処理装置11にオブジェクトの位置情報と音声信号が供給され、オブジェクトの音声の出力が指示されると、音声処理装置11は音像定位制御処理を開始して、オブジェクトの音声を出力させ、その音像を適切な位置に定位させる。
【0096】
以下、
図11のフローチャートを参照して、音声処理装置11による音像定位制御処理について説明する。
【0097】
ステップS11において、スピーカ選択部21は、外部から供給されたオブジェクトの位置情報に基づいて処理対象とするスピーカ12を選択する。
【0098】
具体的には、例えばスピーカ選択部21は、オブジェクトの位置情報に基づいて目標音像位置を特定し、N個のスピーカ12のうち、目標音像位置近傍にあり、かつ目標音像位置を囲むように配置されている4つのスピーカ12を処理対象のスピーカ12とする。
【0099】
例えば、
図7に示した仮想音源VSP3の位置が目標音像位置とされた場合、仮想音源VSP3を囲む4つのスピーカSP1乃至スピーカSP4に対応するスピーカ12が処理対象のスピーカ12として選択される。
【0100】
スピーカ選択部21は、目標音像位置を示す情報を仮想スピーカ位置決定部61に供給するとともに、処理対象の4つのスピーカ12を示す選択情報を仮想スピーカ位置決定部61、ゲイン決定部23、およびゲイン出力部24に供給する。
【0101】
ステップS12において、仮想スピーカ位置決定部61は、スピーカ選択部21から供給された目標音像位置を示す情報および選択情報に基づいて仮想スピーカの位置を決定する。例えば、
図7に示した例と同様に、処理対象のスピーカ12のうちのユーザからみて左下および右下に位置するスピーカ12を結ぶ球面上の辺と、目標音像位置からその辺におろした垂線との交点の位置が、仮想スピーカの位置とされる。
【0102】
仮想スピーカの位置が決定されると、仮想スピーカ位置決定部61は、目標音像位置を示す情報、選択情報、および仮想スピーカの位置を示す情報を3次元ゲイン算出部62に供給するとともに、選択情報および仮想スピーカの位置を示す情報を2次元ゲイン算出部63に供給する。
【0103】
なお、仮想スピーカの位置は、処理対象とされた4つのスピーカ12を各頂点とする、球面上の四角形の辺上の位置であれば、どの位置とされてもよい。また、処理対象とされるスピーカ12が5以上である場合でも、それらのスピーカ12を各頂点とする球面上の多角形の辺上の任意の位置を仮想スピーカの位置とすればよい。
【0104】
ステップS13において3次元ゲイン算出部62は、仮想スピーカ位置決定部61から供給された目標音像位置を示す情報、選択情報、および仮想スピーカの位置を示す情報に基づいて、仮想スピーカと、処理対象の2つのスピーカ12とについてゲインを算出する。
【0105】
具体的には3次元ゲイン算出部62は、目標音像位置を示す3次元ベクトルをベクトルPとするとともに、仮想スピーカを向く3次元ベクトルをベクトルL’とする。また、3次元ゲイン算出部62は、処理対象となっているスピーカ12のうち、
図7に示したスピーカSP1と同じ位置関係にあるスピーカ12を向くベクトルをベクトルL
1とし、スピーカSP2と同じ位置関係にあるスピーカ12を向くベクトルをベクトルL
2とする。
【0106】
そして、3次元ゲイン算出部62は、ベクトルPをベクトルL’、ベクトルL1、およびベクトルL2の線形和で表す式を求め、その式を解くことにより、ベクトルL’、ベクトルL1、およびベクトルL2の係数g’、係数g1、および係数g2をゲインとして算出する。すなわち、上述した式(2)を解く演算と同様の演算が行なわれる。
【0107】
3次元ゲイン算出部62は、計算の結果得られたスピーカSP1およびスピーカSP2と同じ位置関係にあるスピーカ12の係数g1および係数g2を、それらのスピーカ12から出力する音声のゲインとしてゲイン出力部24に供給する。
【0108】
また、3次元ゲイン算出部62は、計算の結果得られた仮想スピーカの係数g’を、仮想スピーカから出力する音声のゲインとして乗算部64および乗算部65に供給する。
【0109】
ステップS14において、2次元ゲイン算出部63は、仮想スピーカ位置決定部61から供給された選択情報、および仮想スピーカの位置を示す情報に基づいて、処理対象の2つのスピーカ12についてゲインを算出する。
【0110】
具体的には2次元ゲイン算出部63は、仮想スピーカの位置を示す3次元ベクトルをベクトルL’とする。また、2次元ゲイン算出部63は、処理対象となっているスピーカ12のうち、
図8に示したスピーカSP3と同じ位置関係にあるスピーカ12を向くベクトルをベクトルL
3とし、スピーカSP4と同じ位置関係にあるスピーカ12を向くベクトルをベクトルL
4とする。
【0111】
そして、2次元ゲイン算出部63はベクトルL’を、ベクトルL3、およびベクトルL4の線形和で表す式を求め、その式を解くことにより、ベクトルL3およびベクトルL4の係数g3’および係数g4’をゲインとして算出する。すなわち、上述した式(1)を解く演算と同様の演算が行なわれる。
【0112】
2次元ゲイン算出部63は、計算の結果得られたスピーカSP3およびスピーカSP4と同じ位置関係にあるスピーカ12の係数g3’および係数g4’を、それらのスピーカ12から出力する音声のゲインとして乗算部64および乗算部65に供給する。
【0113】
ステップS15において、乗算部64および乗算部65は、2次元ゲイン算出部63から供給されたゲインg3’およびゲインg4’に対して、3次元ゲイン算出部62から供給された仮想スピーカのゲインg’を乗算し、ゲイン出力部24に供給する。
【0114】
したがって、処理対象となっている4つのスピーカ12のうち、
図8のスピーカSP3と同じ位置関係にあるスピーカ12の最終的なゲインとしてg
3=g’g
3’がゲイン出力部24に供給されることになる。同様に、処理対象となっている4つのスピーカ12のうち、
図8のスピーカSP4と同じ位置関係にあるスピーカ12の最終的なゲインとしてg
4=g’g
4’がゲイン出力部24に供給される。
【0115】
ステップS16において、ゲイン決定部23は、スピーカ選択部21から供給された選択情報に基づいて、処理対象とされていないスピーカ12のゲインを決定し、ゲイン出力部24に供給する。例えば、処理対象ではない全てのスピーカ12のゲインは「0」とされる。
【0116】
ゲイン出力部24にゲイン算出部22からのゲインg1、ゲインg2、ゲインg’g3’、およびゲインg’g4’と、ゲイン決定部23からのゲイン「0」とが供給されると、ゲイン出力部24は、スピーカ選択部21からの選択情報に基づいて、それらのゲインをゲイン調整部25の増幅部31に供給する。
【0117】
具体的には、ゲイン出力部24は、処理対象の各スピーカ12、つまり
図7のスピーカSP1乃至スピーカSP4のそれぞれに対応するスピーカ12に対して音声信号を供給する増幅部31に、ゲインg
1、ゲインg
2、ゲインg’g
3’、およびゲインg’g
4’を供給する。例えば、スピーカSP1に対応するスピーカ12がスピーカ12-1である場合、ゲイン出力部24は、ゲインg
1を増幅部31-1に供給する。
【0118】
また、ゲイン出力部24は、処理対象ではないスピーカ12に音声信号を供給する増幅部31に対して、ゲイン決定部23から供給されたゲイン「0」を供給する。
【0119】
ステップS17において、ゲイン調整部25の増幅部31は、ゲイン出力部24から供給されたゲインに基づいて、外部から供給されたオブジェクトの音声信号のゲイン調整を行い、その結果得られた音声信号をスピーカ12に供給し、音声を出力させる。
【0120】
各スピーカ12は、増幅部31から供給された音声信号に基づいて音声を出力する。より詳細には、処理対象とされた4つのスピーカ12のみから音声が出力される。これにより、目標とする位置に音像を定位させることができる。スピーカ12から音声が出力されると、音像定位制御処理は終了する。
【0121】
以上のようにして、音声処理装置11は、オブジェクトの位置情報から処理対象とする4つのスピーカ12を選択し、それらのスピーカ12と仮想スピーカのうちの2つまたは3つのスピーカの組み合わせについてVBAPを行なう。そして、音声処理装置11は、複数の異なる組み合わせについてVBAPを行なうことで得られた、処理対象の各スピーカ12のゲインに基づいて音声信号のゲイン調整を行なう。
【0122】
これにより、目標とする音像位置の周囲に位置する4つのスピーカ12から音声が出力されるようになり、音像の定位をより安定させることができるようになる。その結果、スイートスポットの範囲をより拡大させることができる。
【0123】
〈第2の実施の形態〉
〈ゲインの算出について〉
なお、以上においては、仮想スピーカを含む5つのスピーカのうちの2または3のスピーカを選択して1つのスピーカの組み合わせとし、複数の組み合わせについてVBAPを行なうことで、処理対象のスピーカ12のゲインを算出する例について説明した。しかし、本技術では、仮想スピーカを定めずに、処理対象の4つのスピーカ12から複数の組み合わせを選択し、それらの組み合わせごとにVBAPを行なうことでもゲインを算出することが可能である。
【0124】
そのような場合、例えば
図12に示すように、目標音像位置によってVBAPを行なうべき回数が変化する。なお、
図12において
図7における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
【0125】
例えば、仮想音源の位置、つまり目標音像位置が矢印Q11に示す位置にある場合、矢印Q11に示す位置は、球面上のスピーカSP1、スピーカSP2、およびスピーカSP4により囲まれる三角形の領域内にある。そのため、スピーカSP1、スピーカSP2、およびスピーカSP4からなるスピーカの組(以下、第1組とも称する)について、3次元VBAPを行なえば、スピーカSP1、スピーカSP2、およびスピーカSP4の3つのスピーカから出力される音声のゲインが求まる。
【0126】
一方で、矢印Q11に示す位置は、球面上のスピーカSP2、スピーカSP3、およびスピーカSP4により囲まれる三角形の領域内の位置でもある。そのため、スピーカSP2、スピーカSP3、およびスピーカSP4からなるスピーカの組(以下、第2組とも称する)について、3次元VBAPを行なえば、スピーカSP2、スピーカSP3、およびスピーカSP4の3つのスピーカから出力される音声のゲインが求まる。
【0127】
ここで、第1組と第2組において、それぞれ用いられなかったスピーカのゲインを「0」とすれば、この例では、第1組と第2組とで、4つのスピーカSP1乃至スピーカSP4の各ゲインとして、合計2通りのゲインが得られる。
【0128】
そこで、各スピーカについて、第1組と第2組で得られたスピーカのゲインの和がゲイン和として求められる。例えば、第1組について得られたスピーカSP1のゲインがg1(1)であり、第2組について得られたスピーカSP1のゲインがg1(2)であれば、スピーカSP1のゲイン和gs1は、ゲイン和gs1=g1(1)+g1(2)となる。
【0129】
ここで、第2組の組み合わせにはスピーカSP1が含まれていないのでg1(2)は0となるが、第1組のスピーカの組み合わせにはスピーカSP1が含まれているのでg1(1)は0ではない値となり、結局、スピーカSP1のゲイン和gs1は0にはならない。このことは、他のスピーカSP2乃至スピーカSP4のゲイン和についても同様である。
【0130】
このようにして各スピーカのゲイン和が求まると、それらのゲイン和の二乗和で、各スピーカのゲイン和を正規化して得られた値を、それらのスピーカの最終的なゲイン、より詳細にはスピーカから出力される音声のゲインとすればよい。
【0131】
このようにして各スピーカSP1乃至スピーカSP4のゲインを求めれば、必ず0ではないゲインが得られるので、4つのスピーカSP1乃至スピーカSP4のそれぞれから音声を出力させて、所望の位置に音像を定位させることができる。
【0132】
なお、以下、第m組(但し、1≦m≦4)について得られた、スピーカSPk(但し、1≦k≦4)のゲインをgk(m)と表すこととする。また、スピーカSPk(但し、1≦k≦4)のゲイン和をgskと表すこととする。
【0133】
さらに、矢印Q12に示す位置、つまり球面上において、スピーカSP2およびスピーカSP3を結ぶ線と、スピーカSP1およびスピーカSP4を結ぶ線との交点位置に目標音像位置がある場合、3つのスピーカの組み合わせは4通りとなる。
【0134】
すなわち、スピーカSP1、スピーカSP2、およびスピーカSP3の組み合わせ(以下、第1組と称する)と、スピーカSP1、スピーカSP2、およびスピーカSP4の組み合わせ(以下、第2組と称する)とが考えられる。また、その他に、スピーカSP1、スピーカSP3、およびスピーカSP4の組み合わせ(以下、第3組と称する)と、スピーカSP2、スピーカSP3、およびスピーカSP4の組み合わせ(以下、第4組と称する)とが考えられる。
【0135】
この場合には、第1組から第4組までの各組み合わせについて、それぞれ3次元VBAPを行なって、各スピーカのゲインを求めればよい。そして、同じスピーカについて求まった4つのゲインの和をゲイン和とし、スピーカごとに求めた4つのゲイン和の二乗和で、各スピーカのゲイン和を正規化して得られる値を、それらのスピーカの最終的なゲインとすればよい。
【0136】
なお、目標音像位置が矢印Q12に示す位置にある場合、スピーカSP1乃至スピーカSP4からなる球面上の四角形が長方形等である場合には、例えば第1組と第4組とで、3次元VBAPとして同じ計算結果が得られる。そのため、このような場合には、第1組と第2組など、適切な2通りの組み合わせについて3次元VBAPを行なえば、各スピーカのゲインを得ることができる。しかし、スピーカSP1乃至スピーカSP4からなる球面上の四角形が長方形等ではない、非対称な四角形である場合には、4つの各組み合わせについて3次元VBAPを行なう必要がある。
【0137】
〈ゲイン算出部の構成例〉
以上において説明したように、仮想スピーカを定めずに、処理対象の4つのスピーカ12から複数の組み合わせを選択し、それらの組み合わせごとにVBAPを行なってゲインを算出する場合、
図9に示したゲイン算出部22は、例えば
図13に示すように構成される。
【0138】
図13に示すゲイン算出部22は、選択部91、3次元ゲイン算出部92-1、3次元ゲイン算出部92-2、3次元ゲイン算出部92-3、3次元ゲイン算出部92-4、および加算部93から構成される。
【0139】
選択部91は、スピーカ選択部21から供給された目標音像位置を示す情報および選択情報に基づいて、処理対象とされた4つのスピーカ12のなかから、目標音像位置を囲む3つのスピーカ12の組み合わせを決定する。選択部91は、スピーカ12の組み合わせを示す情報と、目標音像位置を示す情報とを3次元ゲイン算出部92-1乃至3次元ゲイン算出部92-4に供給する。
【0140】
3次元ゲイン算出部92-1乃至3次元ゲイン算出部92-4は、選択部91から供給されたスピーカ12の組み合わせを示す情報と、目標音像位置を示す情報とに基づいて3次元VBAPを行い、その結果得られた各スピーカ12のゲインを加算部93に供給する。なお、以下、3次元ゲイン算出部92-1乃至3次元ゲイン算出部92-4を特に区別する必要のない場合、単に3次元ゲイン算出部92とも称する。
【0141】
加算部93は、3次元ゲイン算出部92-1乃至3次元ゲイン算出部92-4から供給された処理対象の各スピーカ12のゲインに基づいてゲイン和を求め、さらにそれらのゲイン和を正規化することで処理対象の各スピーカ12の最終的なゲインを算出し、ゲイン出力部24に供給する。
【0142】
〈音像定位制御処理の説明〉
次に、
図14のフローチャートを参照して、ゲイン算出部22が
図13に示す構成とされる場合に行なわれる音像定位制御処理について説明する。
【0143】
なお、ステップS41の処理は、
図11のステップS11の処理と同様であるので、その説明は省略する。
【0144】
ステップS42において、選択部91は、スピーカ選択部21から供給された目標音像位置を示す情報および選択情報に基づいてスピーカ12の組み合わせを決定し、スピーカ12の組み合わせを示す情報と目標音像位置を示す情報を3次元ゲイン算出部92に供給する。
【0145】
例えば目標音像位置が、
図12に示した矢印Q11に示す位置にある場合、スピーカSP1、スピーカSP2、およびスピーカSP4に対応する3つのスピーカ12からなるスピーカ12の組み合わせ(第1組)が決定される。また、スピーカSP2、スピーカSP3、およびスピーカSP4に対応する3つのスピーカ12からなるスピーカ12の組み合わせ(第2組)が決定される。
【0146】
この場合、例えば選択部91は、第1組のスピーカ12の組み合わせを示す情報と、目標音像位置を示す情報とを3次元ゲイン算出部92-1に供給し、第2組のスピーカ12の組み合わせを示す情報と、目標音像位置を示す情報とを3次元ゲイン算出部92-2に供給する。また、この場合には、3次元ゲイン算出部92-3と3次元ゲイン算出部92-4には、スピーカ12の組み合わせを示す情報等は供給されず、3次元ゲイン算出部92-3と3次元ゲイン算出部92-4では、3次元VBAPの計算も行なわれない。
【0147】
ステップS43において、3次元ゲイン算出部92は、選択部91から供給されたスピーカ12の組み合わせを示す情報と、目標音像位置を示す情報とに基づいて、スピーカ12の組み合わせについて処理対象の各スピーカ12のゲインを算出し、加算部93に供給する。
【0148】
具体的には、3次元ゲイン算出部92は、スピーカ12の組み合わせを示す情報により示される3つのスピーカ12について、上述した
図11のステップS13と同様の処理を行なって、各スピーカ12のゲインを求める。すなわち、上述した式(2)を解く演算と同様の演算が行なわれる。また、処理対象の4つのスピーカ12のうち、スピーカ12の組み合わせを示す情報により示される3つのスピーカ12ではない、残りの1つのスピーカ12のゲインは「0」とされる。
【0149】
例えば、ステップS42において第1組と第2組との2通りの組み合わせが求められた場合、3次元ゲイン算出部92-1では第1組について3次元VBAPにより各スピーカ12のゲインが算出される。また、3次元ゲイン算出部92-2では第2組について3次元VBAPにより各スピーカ12のゲインが算出される。
【0150】
具体的には、第1組として
図12に示したスピーカSP1、スピーカSP2、およびスピーカSP4に対応する3つのスピーカ12からなるスピーカ12の組み合わせが決定されたとする。この場合、3次元ゲイン算出部92-1では、スピーカSP1に対応するスピーカ12のゲインg
1(1)、スピーカSP2に対応するスピーカ12のゲインg
2(1)、およびスピーカSP4に対応するスピーカ12のゲインg
4(1)が算出される。また、スピーカSP3に対応するスピーカ12のゲインg
3(1)は「0」とされる。
【0151】
ステップS44において、加算部93は、3次元ゲイン算出部92から供給された各スピーカ12のゲインに基づいて、処理対象のスピーカ12の最終的なゲインを算出し、ゲイン出力部24に供給する。
【0152】
例えば、加算部93は、3次元ゲイン算出部92から供給されたスピーカSP1に対応するスピーカ12のゲインg1(1)、ゲインg1(2)、ゲインg1(3)、およびゲインg1(4)の和を求めることで、そのスピーカ12のゲイン和gs1を算出する。同様にして、加算部93は、スピーカSP2に対応するスピーカ12のゲイン和gs2、スピーカSP3に対応するスピーカ12のゲイン和gs3、およびスピーカSP4に対応するスピーカ12のゲイン和gs4も算出する。
【0153】
そして、加算部93は、スピーカSP1に対応するスピーカ12のゲイン和gs1を、ゲイン和gs1乃至ゲイン和gs4の二乗和で正規化することにより、スピーカSP1に対応するスピーカ12の最終的なゲインg1(係数g1)を求める。また加算部93は、同様の計算によりスピーカSP2乃至スピーカSP4に対応するスピーカ12の最終的なゲインg2乃至ゲインg4も求める。
【0154】
こうのようにして処理対象のスピーカ12のゲインが求められると、その後、ステップS45およびステップS46の処理が行なわれて、音像定位制御処理は終了するが、これらの処理は
図11のステップS16およびステップS17の処理と同様であるので、その説明は省略する。
【0155】
以上のようにして、音声処理装置11は、オブジェクトの位置情報から処理対象とする4つのスピーカ12を選択し、それらのスピーカ12のうちの3つのスピーカ12からなるスピーカ12の組み合わせについてVBAPを行なう。そして、音声処理装置11は、複数の異なる組み合わせについてVBAPを行なうことで得られた同じスピーカ12のゲインの和を求めることで、処理対象の各スピーカ12の最終的なゲインを求め、音声信号のゲイン調整を行なう。
【0156】
これにより、目標とする音像位置の周囲に位置する4つのスピーカ12から音声が出力されるようになり、音像の定位をより安定させることができるようになる。その結果、スイートスポットの範囲をより拡大させることができる。
【0157】
なお、この実施の形態では、目標音像位置を囲む4つのスピーカ12が処理対象のスピーカ12とされる例について説明したが、処理対象とされるスピーカ12の数は4以上であればよい。
【0158】
例えば、5つのスピーカ12が処理対象のスピーカ12として選択される場合には、それらの5つのスピーカ12のうち、目標音像位置を囲む任意の3つのスピーカ12からなるスピーカ12の組が、1つの組み合わせとして選択される。
【0159】
具体的には、
図15に示すように5つのスピーカSP1乃至スピーカSP5に対応するスピーカ12が処理対象のスピーカ12として選択され、目標音像位置が矢印Q21に示す位置とされたとする。
【0160】
この場合、第1組として、スピーカSP1、スピーカSP2、およびスピーカSP3からなる組み合わせが選択され、第2組として、スピーカSP1、スピーカSP2、およびスピーカSP4からなる組み合わせが選択される。また、第3組として、スピーカSP1、スピーカSP2、およびスピーカSP5からなる組み合わせが選択される。
【0161】
そして、これらの第1組乃至第3組について、各スピーカのゲインが求められ、各スピーカのゲイン和から、最終的なゲインが算出される。つまり、第1組乃至第3組について、
図14のステップS43の処理が行なわれ、その後、ステップS44乃至ステップS46の処理が行なわれる。
【0162】
このように、5以上のスピーカ12を処理対象のスピーカ12として選択する場合においても、処理対象とする全てのスピーカ12から音声を出力させて音像を定位させることができる。
【0163】
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどが含まれる。
【0164】
図16は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
【0165】
コンピュータにおいて、CPU801,ROM802,RAM803は、バス804により相互に接続されている。
【0166】
バス804には、さらに、入出力インターフェース805が接続されている。入出力インターフェース805には、入力部806、出力部807、記録部808、通信部809、及びドライブ810が接続されている。
【0167】
入力部806は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部807は、ディスプレイ、スピーカなどよりなる。記録部808は、ハードディスクや不揮発性のメモリなどよりなる。通信部809は、ネットワークインターフェースなどよりなる。ドライブ810は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア811を駆動する。
【0168】
以上のように構成されるコンピュータでは、CPU801が、例えば、記録部808に記録されているプログラムを、入出力インターフェース805及びバス804を介して、RAM803にロードして実行することにより、上述した一連の処理が行われる。
【0169】
コンピュータ(CPU801)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア811に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
【0170】
コンピュータでは、プログラムは、リムーバブルメディア811をドライブ810に装着することにより、入出力インターフェース805を介して、記録部808にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部809で受信し、記録部808にインストールすることができる。その他、プログラムは、ROM802や記録部808に、あらかじめインストールしておくことができる。
【0171】
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
【0172】
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
【0173】
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
【0174】
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
【0175】
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
【0176】
さらに、本技術は、以下の構成とすることも可能である。
【0177】
[1]
目標とする音像定位位置近傍に位置する4以上の音声出力部のうちの2または3の前記音声出力部の組み合わせについて、互いに異なる複数の前記組み合わせごとに、前記音声出力部の位置関係に基づいて前記音声出力部から出力させる音声のゲインを算出することで、前記音像定位位置に音像を定位させるための、前記4以上の前記音声出力部から出力させる音声の出力ゲインを求めるゲイン算出部と、
前記出力ゲインに基づいて、前記音声出力部から出力させる音声のゲイン調整を行なうゲイン調整部と
を備える音声処理装置。
[2]
少なくとも4以上の前記出力ゲインの値が0でない値とされる
[1]に記載の音声処理装置。
[3]
前記ゲイン算出部は、
仮想的な音声出力部および2つの前記音声出力部と、前記音像定位位置との位置関係に基づいて、前記仮想的な音声出力部および前記2つの前記音声出力部の前記出力ゲインを算出する第1のゲイン算出部と、
前記2つの前記音声出力部とは異なる他の2つの前記音声出力部と、前記仮想的な音声出力部との位置関係に基づいて、前記仮想的な音声出力部の位置に音像を定位させるための前記他の2つの前記音声出力部のゲインを算出する第2のゲイン算出部と、
前記他の2つの前記音声出力部のゲインと、前記仮想的な音声出力部の前記出力ゲインとに基づいて、前記他の2つの前記音声出力部の前記出力ゲインを算出する演算部と
を備える
[1]または[2]に記載の音声処理装置。
[4]
前記演算部は、前記他の2つの前記音声出力部のゲインに前記仮想的な音声出力部の前記出力ゲインを乗算することにより、前記他の2つの前記音声出力部の前記出力ゲインを算出する
[3]に記載の音声処理装置。
[5]
前記仮想的な音声出力部の位置は、前記4以上の前記音声出力部を頂点とする多角形の辺上に位置するように定められる
[3]または[4]に記載の音声処理装置。
[6]
前記ゲイン算出部は、
3つの前記音声出力部と、前記音像定位位置との位置関係に基づいて、前記3つの前記音声出力部の前記出力ゲインを算出する仮ゲイン算出部と、
互いに異なる前記組み合わせについて前記出力ゲインを算出する複数の前記仮ゲイン算出部により算出された前記出力ゲインに基づいて、前記音声出力部の最終的な前記出力ゲインを算出する演算部と
を備える
[1]または[2]に記載の音声処理装置。
[7]
前記演算部は、同じ前記音声出力部について求められた前記出力ゲインの和を求めることで、前記音声出力部の最終的な前記出力ゲインを算出する
[6]に記載の音声処理装置。
【符号の説明】
【0178】
11 音声処理装置, 12-1乃至12-N,12 スピーカ, 21 スピーカ選択部, 22 ゲイン算出部, 25 ゲイン調整部, 61 仮想スピーカ位置決定部, 62 3次元ゲイン算出部, 63 2次元ゲイン算出部, 64 乗算部, 65 乗算部, 91 選択部, 92-1乃至92-4,92 3次元ゲイン算出部, 93 加算部