(58)【調査した分野】(Int.Cl.,DB名)
【背景技術】
【0002】
近年、全天球カメラが普及したことを背景として、ユーザが見渡している映像に対応した音を仮想的に生成するための研究が盛んにおこなわれている。その一つに、全天球映像音声視聴システムがある(非特許文献1)。全天球映像とは、全天球カメラで撮影した映像のことである。これにより、ユーザはあたかも撮影した場にいるかのような映像を視ることが可能となる。
【0003】
全天球映像音声視聴システムでは、複数の領域(具体的には、特定の角度幅で区切った領域)において推定した局所音源信号群にHRTF(Head−Related Transfer Function)を畳み込むことにより、ユーザが見渡している映像に対応するバイノーラル音を生成・出力することができる。このシステムでは、ユーザがジャイロセンサ付きのHMD(Head Mounted Display)を装着することで、頭部方向をリアルタイムに取得する。そして、取得した頭部方向に応じて各局所音源信号に畳み込むHRTFを切り替えることで、ユーザが見渡している映像に対応したバイノーラル音をリアルタイムに生成する。生成したバイノーラル音はイヤホンやヘッドホンを用いて聴取される。
【0004】
なお、HMDは1枚のフレネルレンズとスマートホンを組み合わせて構成されるような簡単なものでもよい。スマートホンを用いて構成することにより、ネットワークで配信されるコンテンツの視聴が容易に可能となる。
【0005】
以下では、全天球映像音声視聴システムにおける音の生成(全天球映像に対応したバイノーラル音の生成システム)について説明する。
【0006】
K個(Kは1以上の整数)の音源が存在する音場に、M本(Mは1以上の整数)のマイクロホンで構成されたアレイを設置して観測することを想定する。k番目(1≦k≦K)の音源信号をS
k,ω,τ、m番目(1≦m≦M)の観測信号をX
m,ω,τ、その間の伝達特性をA
m,k,ωとするとき、観測信号群x
ω,τは次式でモデル化される。
【0007】
【数1】
【0008】
ここで、ω、τはそれぞれ周波数のインデックス、フレーム時間のインデックスを表す。また、
【0009】
【数2】
であり、Tは転置、N
m,ω,τはm番目の観測信号に含まれる背景雑音を表す。
【0010】
ユーザが見渡している映像に対応したバイノーラル音b
ω,τ=[B
ω,τ(Left),B
ω,τ(Right)]
T の生成について説明する。フレーム時間τにおけるユーザの頭部方向(極座標表現)をΨ
τ=[Ψ
τ(Hor),Ψ
τ(Ver)]
Tと表す。音源の指向性や背景雑音を無視できると仮定したとき、ユーザの頭部方向と各音源の間のHRTFを各音源信号に畳み込むことで、ユーザが見渡している映像に対応したバイノーラル音b
ω,τを出力できる。その様子を
図1に示す。
【0011】
【数3】
【0012】
ここで、H
k,Ψτ,ω(Left)、H
k,Ψτ,ω(Right)は、k番目の音源とユーザの左耳間のHRTF、k番目の音源とユーザの右耳間のHRTFをそれぞれ表す。
【0013】
近接した音源の位置の違いに対してHRTFが劇的に変化しないことを考慮すると、局所的な領域内にある音源群を1つの音源信号(以下、局所音源信号という)と見なしてもユーザの音像定位に大きな影響を及ぼさないと考えられる。そこで、全天球映像音声視聴システムでは、個々の音源信号を抽出するのではなく、方向Θ
j=[Θ
j(Hor),Θ
j(Ver)]
T(j=1,…,L) を主軸とした角度幅を持つL個の領域(以下、簡単のため、局所領域Θ
jともいう)群における局所音源信号群を推定する方向別収音する方式を採用する。その様子を
図2に示す。例えば、
図2の局所音源信号Z
Θ3,ω,τと
図1の3番目の音源信号S
3,ω,τ、4番目の音源信号S
4,ω,τが対応していることを示している。なお、方向別収音の具体的な方法については後述する。
【0014】
方向Θ
j=[Θ
j(Hor),Θ
j(Ver)]
Tを主軸とした角度幅を持つ領域とその他領域から到来した音源群を分離し、局所音源信号Z
Θj,ω,τ(j=1,…,L)が推定されたと仮定すると、ユーザが見渡している映像に対応したバイノーラル音b
ω,τは、次式で仮想的に生成される。
【0015】
【数4】
【0016】
ここで、H
Θj,Ψτ,ω(Left)、H
Θj,Ψτ,ω(Right)は、j番目の領域の主軸方向とユーザの左耳間のHRTF、j番目の領域の主軸方向とユーザの右耳間のHRTFをそれぞれ表す。なお、音場の残響時間、頭部や両耳の物理構造の個人性、音源と受聴者の間の距離に応じてHRTFが変化することは一般的に知られているが、ここでは、これらの影響を無視できると仮定し、H
Θj,Ψτ,ω(Left)、H
Θj,Ψτ,ω(Right)を簡略化して表すこととした。この簡略化したH
Θj,Ψτ,ω(Left)、H
Θj,Ψτ,ω(Right)は、あらかじめHATS(Head and Torso Simulators)を低残響下に設置し、スピーカを離散的に配置して収録したデータベースから最も近い方向のHRTFを選択することで得られる。
【0017】
音源信号群s
ω,τからバイノーラル音b
ω,τを生成するための全体的な処理フローを
図3に示す。
図3における再合成処理が式(9)、式(10)を用いたバイノーラル音の生成に対応する。その際、HMDにより取得されたユーザの頭部方向が入力される(
図3におけるユーザコントロールが対応する)。
【0018】
次に、観測信号群x
ω,τから局所音源信号群z
ω,τ=[Z
Θ1,ω,τ,…,Z
ΘL,ω,τ]
Tを収音する方向別収音について説明する。全天球映像音声視聴システムでは、局所PSD(Power Spectral Density)推定に基づく音源強調方式による方向別収音を用いる。
【0019】
ここで、全天球映像音声視聴システムにおいて音源別収音でなく、方向別収音を用いる理由を説明する。ユーザが見渡している映像に対応するように分離した信号群を定位操作し再合成するという用途では、近接した位置にある音源群を無理に分離する必要性はないと考えられる。これは、音源群と受聴者の間のHRTFの特性が大きく変わらないため、受聴者の音像定位に対して大きな影響を及ぼさないからである。むしろ、音源が時々刻々と移動する状況を想定するならば、できるだけ均一に区切られた領域群に対応する局所音源信号群を生成できる方が好ましいからである。
【0020】
観測信号群x
ω,τにビームフォーミングを適用する、あるいはショットガンマイクのような超指向性のマイクロホンを用いて受音する等の手段により方向Θ
jを主軸とした領域から到来した音をプリエンハンスした信号をY
Θj,ω,τ(j=1,…,L)とする。また、プリエンハンスした信号群をy
ω,τ=[Y
Θ1,ω,τ,…,Y
ΘL,ω,τ]
Tと表す。プリエンハンスした信号群y
ω,τを生成する処理が
図3における指向性形成処理である。
【0021】
音源信号が互いに無相関であると仮定すると、Y
Θj,ω,τのPSDφ
YΘj,ωは次式でモデル化される。
【0022】
【数5】
【0023】
ここで、<・>は期待値演算、D
Θj,k,ωはk番目の音源に対するj番目のビームフォーミング/受音の平均的な感度、φ
Sk,ωはk番目の音源のPSDを表す。
【0024】
式(11)の関係が局所音源信号群z
ω,τとプリエンハンスされた信号群y
ω,τの関係についても成り立つと仮定すると、φ
YΘj,ωは次式で近似して表される。
【0025】
【数6】
【0026】
ここで、D
Θj,Θi,ωは方向Θ
iを主軸とした領域に対するj番目のビームフォーミング/受音の平均的な感度、φ
SΘi,ωはi番目の局所音源信号のPSD(局所PSD)を表す。L個のφ
SΘi,ωとφ
YΘj,ωの関係は次式でモデル化される。
【0027】
【数7】
【0028】
L個の局所PSDφ
SΘi,ωを推定するために、式(13)の逆問題を解く。ここでは、雑音抑圧性能を高めるために、フレーム毎に局所PSDを推定することとすると、逆問題は次式で定式化される。
【0029】
【数8】
【0030】
なお、実用上の課題としてスパース性を仮定できる局所領域の数L、D
ω-1の安定性を制御する課題が生じる。D
ωの要素はすべて正の数であるため、D
ωの特異値の条件によっては安定に解が求まらないこともある。したがって、マニュアルで安定化計算の調整をする必要がある。例えば、以下のように対角項に所定の値を加算する操作を行い、調整すればよい。
【0031】
【数9】
【0032】
ここで、εは安定化係数であり、値が大きいほど安定な逆行列計算を可能にする。
【0033】
観測信号に干渉雑音のみが混在している場合には、式(14)で算出したΦ^
S,ω,τから目的音のPSD及び雑音のPSDを求めればよい。なお、目的音のPSD、雑音のPSDは音源強調のフィルタを生成する際に必要となる。
【0034】
しかし、実際には式(1)のように非干渉性(あるいは拡散性)の背景雑音が観測信号に存在する。そのような場合には、干渉性雑音のPSDと背景雑音のPSDを別々に推定した方が精度の高い音源強調のフィルタを生成できると考えられる。干渉性雑音のPSDと背景雑音のPSDを別々に推定するための一方法を以下で説明する。
【0035】
まず、式(14)で算出したΦ^
S,ω,τから背景雑音のPSDを取り除く。背景雑音は目的音、干渉雑音とは無相関であると仮定できるので、パワースペクトル領域での加算性を仮定しても近似的には成り立つと考えられる。i番目の方向Θ
iの局所領域にある音源群を目的音とする。そのとき、局所PSDφ
SΘi,ω,τからその中に存在する背景雑音のPSDφ
BNTΘi,ω,τを減算する。これにより、推定された目的音のPSD(背景雑音の影響を除去済み)φ
TSΘi,ω,τが求まる。
【0036】
【数10】
【0037】
もし、目的音のPSDφ
TSΘi,ω,τが0より小さいときには0にする。また、式(16)の背景雑音のPSDφ
BNTΘi,ω,τを計算するために背景雑音が時間的な定常性が強い(つまり、時間に応じて劇的に変化しない)ことを仮定し、再帰的な更新アルゴリズムにより、φ
SΘi,ω,τを時間平滑化処理することで突発性の成分を除去すると、式(17)が得られる。
【0038】
【数11】
【0039】
ここで、β
ωは時間平滑化のための定数である。例えば、150ms程度で忘却するように設定すればよい。φ
−SΘi,ω,τの区間Τにおける最低値を保持することで、目的音領域(i番目の方向Θ
iの局所領域)の背景雑音のPSDφ
BNTΘi,ω,τを推定することができる。
【0040】
【数12】
【0041】
同様に、目的音領域(i番目の方向Θ
iの局所領域)以外の領域にある干渉性雑音群のPSDφ
ISΘi,ω,τを推定するために目的音と同様に背景雑音のPSDφ
BNIΘi,ω,τを減算する。
【0042】
【数13】
【0043】
ここで、α
1,ωはコンテンツに応じて最適値が変わる重み係数である。また、干渉性雑音群のPSDφ
ISΘi,ω,τについても0より小さいときには0にフロアリングする。式(19)にある背景雑音のPSDφ
BNIΘi,ω,τは以下のように計算する。
【0044】
【数14】
【0045】
j番目の局所音源信号Z
Θj,ω,τを推定するためのウィーナーフィルタG
Θj,ω,τを生成する。
【0046】
【数15】
ここで、α
2,ω、α
3,ωは重み係数である。
【0047】
式(22)を用いて計算した後のウィーナーフィルタG
Θj,ω,τを以下のように整形する。
【0048】
【数16】
【0049】
ここで、α
4,ωは重み係数である。この後、α
5,ω(0≦α
5,ω<1)を用いて、α
5,ω≦G
Θj,ω,τ≦1となるようにG
Θj,ω,τのフロアリング処理を行う。局所音源信号Z
Θj,ω,τは次式で算出される。
【0050】
【数17】
【0051】
プリエンハンスした信号群y
ω,τをウィーナーフィルタリングすることにより局所音源信号群z
ω,τを生成する処理が
図3における方向別収音処理である。
【0052】
最後に、全天球映像音声視聴システムにおけるバイノーラル音の生成処理を実行するバイノーラル音生成システム900について説明する。
図4は、バイノーラル音生成システム900の構成を示すブロック図である。
図4に示すようにバイノーラル音生成システム900は、収音装置905と、再合成装置955を含む。収音装置905は、M本のマイクロホン910−1〜910−Mと、M個の周波数領域変換部920−1〜920−Mと、L個のビームフォーミング部930−1〜930−Lと、局所PSD推定部940と、ウィーナーフィルタリング部950を含む。再合成装置955は、HRTF畳み込み部960を含む。
【0053】
時間領域観測信号群から局所音源信号群を生成する処理(音源分離処理)を実行するのが、収音装置905である。マイクロホン910−1〜910−Mは、K個の音源が存在する音場の音声を収音し、時間領域観測信号を生成する。周波数領域変換部920−1〜920−Mは、それぞれ時間領域観測信号を観測信号X
m,ω,τ(1≦m≦M)に変換する。
【0054】
ビームフォーミング部930−1〜930−Lは、M個の観測信号(観測信号群)からプリエンハンスした信号Y
Θj,ω,τ(j=1,…,L)を生成する。なお、マイクロホン910−1〜910−Mの代わりに、L=Mとして、L個の指向性マイクを用いて収音するのでもよい。この場合、指向性マイクを用いて収音した信号をプリエンハンスした信号Y
Θj,ω,τ(j=1,…,L)としてよいので、ビームフォーミング部930−1〜930−Lが不要になる。
【0055】
局所PSD推定部940は、プリエンハンスした信号Y
Θj,ω,τ(j=1,…,L)を用いて目的音のPSD、干渉雑音のPSD、背景雑音のPSDを生成する。具体的には、式(14)、式(16)、式(19)、式(18)を用いて、目的音のPSD、干渉雑音のPSD、背景雑音のPSDを生成する。
【0056】
ウィーナーフィルタリング部950は、目的音のPSD、干渉雑音のPSD、背景雑音のPSDを用いてL個のウィーナーフィルタを生成し、プリエンハンスした信号Y
Θj,ω,τ(j=1,…,L)にウィーナーフィルタG
Θj,ω,τ(j=1,…,L)を適用し、局所音源信号Z
Θj,ω,τ(j=1,…,L)を生成する。具体的には、式(22)、式(23)、式(24)を用いて局所音源信号Z
Θj,ω,τを生成する。
【0057】
局所音源信号群からバイノーラル音を生成する処理(再合成処理)を実行するのが、再合成装置955である。HRTF畳み込み部960は、局所音源信号Z
Θj,ω,τ(j=1,…,L)からバイノーラル音b
ω,τを生成する。具体的には、式(9)、式(10)を用いて受聴用のバイノーラル信号である受聴信号(左)と受聴信号(右)を生成する。
【0058】
なお、インターネットのようなネットワークに収音装置905と再合成装置955を接続してバイノーラル音生成システム900を構成することもできる。この場合、収音装置905、再合成装置955はネットワークによる通信に必要は手段を具備する必要があるのはいうまでもない。また、伝送に適するよう、局所音源信号群を符号化する符号化部、局所音源信号群を符号化した符号化データを復号する復号部をそれぞれ収音装置905、再合成装置955に備えるようにしてもよい。
【0059】
全天球映像音声視聴システムでは音源分離処理をしたうえでバイノーラル音を生成するため、観測信号を生成するマイクロホンの配置やマイクロホンアレイの形状について特に制限はなかった。一方、観測信号を生成するマイクロホンを特殊な形状のマイクロホンアレイに配置し収音することにより、観測信号からバイノーラル音を直接得るようなバイノーラル録音に関する研究も進められている。通常、バイノーラル録音では、HATSやダミーヘッドのような耳介つきのマイクロホンを用いて録音する。これに対し、非特許文献2では、耳介を精巧にモデル化することなく、固定方向を撮像した映像に対するバイノーラル音を簡易録音する方法を提案している。非特許文献2では、球状のマイクロホンアレイに、半球状の窪みを設け、そこにマイクロホンを設置するという簡素な構成を用いても、音を定位するための手がかりになり得るような周波数−空間特性パターンを得られることを確認している。
【発明を実施するための形態】
【0066】
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【0067】
非特許文献2は、精巧な耳介のモデルの代わりに、球状をしたマイクロホンアレイに設けた半球状の窪みにマイクロホンを設置するだけで音源定位に有用な情報が受音信号に含まれることを実験的に示している。そこで、この簡単な立体形状に設けた窪みにマイクロホンを設置するという簡易な方法を全方位収音に拡張し、当該収音信号から全天球映像に対応したバイノーラル音を仮想的に生成する方法について説明する。
【0068】
以下、
図5〜
図6を参照してバイノーラル音生成装置400について説明する。
図5は、バイノーラル音生成装置400の構成を示すブロック図である。
図6は、バイノーラル音生成装置400の動作を示すフローチャートである。
図5に示すようにバイノーラル音生成装置400は、マイクロホンアレイ410と、補間合成部420を含む。マイクロホンアレイ410は所定の位置に窪みがある所定の立体形状をしており、その窪みにM本のマイクロホン910−1〜910−Mが設置される。
【0069】
マイクロホンアレイ410は、K個の音源が存在する音場の音声を収音し、M個の時間領域の観測信号を生成する(S410)。マイクロホンアレイ410の立体形状の一例は、球体、円柱である。また、厳密な球体・円柱ではなく、球体・円柱に近い形状であってもよい。全天球映像を視る際首を左右に振り回すことを考えると、一般に立体形状を上から見た形状が典型的には円のように点対称な図形、対称性を持つ図形の方がよい。
【0070】
また、これらの立体形状の側面を90度間隔で窪ませることにより、窪みが構成される。この窪みは耳介を簡易にモデル化したものである。この窪みの形状は半球状といった単純な形状でよい。また、窪みは90度間隔に制限されるものではない。人間の耳の配置が上から見て左右対称であることを考慮して、マイクロホンの左右ペア(180度間隔のペア)を左右対称に側面に設置できるのであれば、例えば、60度、30度といった角度間隔(一般に、nを2以上の整数として、180/n度間隔)のようにどのような角度で窪みをつけてもよい。なお、90度間隔よりも狭めたほうが収音性能はよくなる。また、マイクロホンを左右ペアとして左右対称に設置できるのであれば、窪みを設置する間隔は厳密に180/n度間隔のように均一の間隔でなくてもよい。
【0071】
首を左右に振る動作と人間の耳の配置を考慮すると、上から見て対称な立体形状に、マイクロホンの左右ペアを左右対称に設置するのが最も収音性能がよくなる。各窪みに1本のマイクロホンを設置することとすると、90度、60度、30度のときそれぞれ、4本、6本、12本のマイクロホンが設置されることになる。ただし、補間合成により受聴用の仮想バイノーラル音を生成することができるので、必ずしも左右ペアとなる2本のマイクロホンを左右対称に設置するのでなくてもよい。例えば、90度間隔で設けた4つの窪みのうち、3つの窪みについて各1本のマイクロホンを設置する構成としてもよい。また、残り1つについては実際には窪みになっていなくてもよい。
【0072】
前後の顔の向き(耳の向き)を考慮して、各窪みに2本のマイクロホンを設置するようにしてもよい(
図7(C)参照)。このように設置することにより、より高音質のバイノーラル音が再合成できるようになる。
【0073】
さらに、首を上下に振る動作を考慮すると、立体形状の上面や下面にマイクロホンを設置するのがよい。なお、上面や下面にマイクロホンを設置する場合は、窪みは不要である。耳介をモデル化する必要がないからである。このように仰角方向にもマイクロホンを設置することでも、より高音質のバイノーラル音が再合成できるようになる。
【0074】
このような窪みを備えた立体形状の例を
図7、
図8に示す。
図7(A)、
図8(A)はマイクロホンアレイの立体形状を上・下から見た図である。
図7(B)、
図8(B)はマイクロホンアレイの立体形状を正面(背面)・横から見た図である。
図7(C)、
図8(C)は窪みの形状、マイクロホンを設置する受音位置を示した図である。
図7(A)〜(C)、
図8(A)〜(C)における破線の半円あるいは実線の円が窪みを、小さい黒点が受音位置を示している。受音位置は、非特許文献2の
図1の左図のように水平面上で前後、左右等に30度ずらしてもよい。
図8(D)は
図8(A)、(B)で示す立体形状の上面・下面の形状がどのように生成されるのか示したものである。
図8(D)の実線部が立体形状の上面・下面の形状である。
【0075】
図7、
図8からわかるように上から見ても横から見ても上下、左右に対称性のある図形になっていることがわかる。また、マイクロホンアレイの立体形状は円柱や球体を組み合わせて構成されていることもわかる。
図7、
図8の立体形状は直径12cmの円柱がベースとなっているが、この立体形状が頭部形状を模擬することを考慮すると、直径16cm程度の球体に近い方がよい。なお、立体形状を上から見た形状の幅(円の場合は直径に相当するもの)の上限は、伝達遅延を考慮すると、25cm程度である。また、下限については、マイクロホンアレイを小型化することを考慮すると、5cm程度となる。つまり、幅は、5cm以上25cm以下にするとよい。
【0076】
図7(C)、
図8(C)をみればわかるように各窪みには、2本のマイクロホンが設置されている。これは、先述の通り、前後の顔の向きに応じてバイノーラル音を生成するためである。
【0077】
また、水平方向の定位だけでなく、仰角方向の定位を付与するために立体形状の上面・下面にマイクロホンを設置してもよい。上面あるいは下面に1本のマイクロホンを設置するだけでもよい。もちろん、上面・下面にそれぞれ1本のマイクロホンを設置するのでもよい。
図7、
図8の立体形状では上面・下面に各3本のマイクロホンが設置されている。耳介を模擬する必要がないため、上面・下面にマイクロホンを設置する場合、窪みは必要ないのは先述の通りである。
【0078】
なお、全天球映像生成用カメラは例えば
図9に示すようにマイクロホンアレイ410に内蔵されていてもいいし、マイクロホンアレイ410とは別の場所に設置してあってもよい。
【0079】
補間合成部420は、M個の時間領域の観測信号x
m,t(1≦m≦M)を補間合成し、受聴用の仮想信号である時間領域のバイノーラル音b
t(Left)、b
t(Right)を生成する(S420)。具体的には、式(25)、式(26)を用いて補間合成を行う。
【0081】
ここで、w
m,Ψτ(Left)、w
m,Ψτ(Right)は、 頭部方向Ψτ やマイクインデックスmによって変わる重み係数である。
【0082】
以下、
図10〜13を参照して補間に用いる重み係数の設計について説明する。ここでは、水平方向に90 度ごとに4箇所の窪みがあり、上面・下面に各1本のマイクロホンが設置されているマイクロホンアレイ410を用いて説明する。マイクロホンアレイ410は計10本のマイクロホンを用いて受音することになる。
【0083】
図10は、マイクロホンの設置位置(受音位置)をマイクインデックスm(以下、Mic(m)と表す)を用いて示した図である。
図10に示すように、Mic(1)とMic(2)がある窪み(図中の太線の半円) 方向を本マイクロホンアレイの正面(Azimuth=0°)とする。また、窪み中央を通る水平面を基準水平面(Elevation=0°)とする。なお、上面・下面に設置する各1本のマイクロホンはMic(10)とMic(13)に設置されるものとする。つまり、Mic(9)、Mic(11)、Mic(12)、Mic(14)にはマイクロホンを設置しない。
【0084】
図11に、水平面におけるマイクロホンの選択の様子を示す。目が向いている方向(矢印で示す方向)が、ユーザの頭部方向に対応する。なお、Mic(1)〜Mic(8)の位置は変わらないものとする。例えば、上段の一番左の図では、目が0°の方向を向いており、このときMic(4)、Mic(7)を用いて観測されることになる。
【0085】
図12に、水平面(横の動き)における各マイクの重み係数のグラフを示す。グラフに従い、各マイクロホンの重み係数を設定する。例えば、Mic(1)のグラフ(左上のグラフ)を見ると、−180°〜−90°では重み係数(グラフのWeight)が0から1に単調増大し、−90°〜0°では重み係数が1から0に単調減少、0°〜180°では重み係数がゼロになるように設定されることがわかる。
【0086】
図13に、水平方向と仰角方向の重み係数(上下のマイクで受音した信号を重みづけ加算に用いる重み)のグラフを示す。水平方向と同様にグラフに従い、各重み係数を設定する。三つのグラフをあわせてみると、−90°〜90°において水平方向(Horizontal Signal)の重み係数、Mic(10)とMic(13)の仰角方向(Vertical Signal)の重み係数の和が1になるように設定されることがわかる。
【0087】
なお、水平方向の重み係数(
図12)、上下の定位感付与のための仰角方向の重み係数(
図13)は厳格に設計する必要はない。あくまで頭部方向に応じて対応関係のとれる重み係数に設定されていればよい。
【0088】
水平方向の重み係数と仰角方向の重み係数を用いて補間合成する方法について説明する。まず、頭部方向の水平角にある8本のマイクロホンで受音した信号をあらかじめ設定した重み係数に応じて合成する。次に、頭部方向の仰角に応じて先ほど合成した信号と上下方向にある2本のマイクロホンで受音した信号を重みづけ加算し、最終的な仮想バイノーラル音を得る。
【0089】
頭部方向がΨτであるときのm番目のマイクロホンに対する重みw
m,Ψτ(Left)、w
m,Ψτ(Right)は上述のように計算できるので、音源分離処理を行うことなく、仮想的なバイノーラル音を生成することができる。
【0090】
本実施形態では、マイクロホンアレイ410を用いてMチャネルの信号を観測し、補間合成部420でミックスダウン(補間合成)することで仮想的なバイノーラル音を生成する。これにより、バイノーラル音生成システム900で採用した音源強調法に存在する、収録対象の音の種類に対して最適値が変わるような潜在パラメータ群の調整作業を不要とすることができる。
【0091】
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
【0092】
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
【0093】
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
【0094】
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0095】
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
【0096】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0097】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0098】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0099】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。