【実施例1】
【0019】
図1に、この発明のトランスオーラルシステム100の機能構成例を示す。3個以上のスピーカ1〜6と、撮像部10と、顔姿勢解析部20と、スピーカ選択部30と、バイノーラル処理部95と、クロストーク処理部96と、D/A変換器97と、アンプ98と、スピーカ駆動部40を具備する。バイノーラル処理部95と、クロストーク処理部96と、D/A変換器97と、アンプ98と、は参照符号から分かるように従来のトランスオーラルシステム900と同じものである。なお、
図1のスピーカ1〜6の配置は、受聴者の頭部を中心として平面的に見たものである。
【0020】
3個以上のスピーカ1〜6は、受聴者の頭部中心から等距離の位置に、放音側を受聴者に向けて配置される。この例では、受聴者を中心として中心角度60度毎の等距離の位置に、6個のスピーカ1〜6が配置されている。ステレオ再生においては、2つのスピーカと受聴者を正三角形の頂点に配置することが原則(例えば、参考文献「究極のサウンドを楽しむオーディオ入門マニュアル」、成美堂出版、1998年、p139)である。この実施例では受聴者を取り囲むように6個のスピーカ1〜6が配置されている。なお、スピーカ1〜6の鉛直方向の位置は、同一平面上に無くても良い。スピーカと受聴者間の伝達特性を測定した際の位置と一致していれば良い。スピーカと受聴者との距離は、スピーカの出力する音圧レベルに依存する。その距離は、概ね50cm〜5m程度の範囲である。
【0021】
トランスオーラルシステム100としての最小の数のスピーカは、
図1中に実線で示すように受聴者の正面に配置される2個のスピーカ1と6と、例えば、受聴者の左側方に配置されるスピーカ2の3個のスピーカで構成される。3個目のスピーカは、受聴者の右側方のスピーカ5であっても良い。スピーカの数が減ると、受聴者の姿勢の変化に対応できる範囲が狭くなる。
【0022】
撮像部10は、受聴者の顔画像を撮影して顔画像情報を出力する。撮像部10は、例えば、ディジタルカメラを1秒間に16回(16Hz)撮影した顔画像を出力する。撮像部10は、デジタルビデオカメラであっても良い。また、3Dステレオカメラを用いても良い。
【0023】
顔姿勢解析部20は、その顔画像情報から受聴者の顔の姿勢を解析して顔姿勢情報を出力する。受聴者の顔の姿勢を解析する技術は数多く検討されており、この実施例ではその何れの技術を用いても良い。例えば、予め顔の方向を変えた画像を複数撮影しておき、その画像との一致具合を判定することで、顔姿勢情報を出力するようにしても良い。
図2に、その手法に基づく顔姿勢解析部20の機能構成例を示す。顔姿勢解析部20は、顔姿勢判定部21と、顔姿勢データ記憶部22と、を具備する。顔姿勢データ記憶部22には、受聴者の顔の方向を水平方向に一周した場合の所定の角度毎の顔の画像が予め記憶されている。顔姿勢判定部21は、撮像部10から入力される現在の顔画像情報と、顔姿勢データ記憶部22に記憶されている顔の方向が既知の記憶画像と比較して、現在の顔画像情報に一番近い顔の方向を、顔姿勢情報として出力する。または、画像データを比較するのでは無く、顔のパーツの検出や、笑顔検出等で知られているように、顔画像データをパターン認識して顔の方向を、直接計算で求めるようにしても良い。顔姿勢情報は、例えば、受聴者の顔の向きを表す角度で与えられる。
【0024】
スピーカ選択部30は、顔姿勢情報を入力として、当該顔姿勢情報に対応させて3個以上のスピーカの中から隣り合う一組のスピーカを選択するスピーカ選択情報を出力する。
図3に、スピーカ選択情報の一例を示す。左側の列の角度αは、受聴者の顔の向きを表す角度である。右側のスピーカの列中のR・Lの表記は、バイノーラル信号のチャネルを表す。
【0025】
角度αは、スピーカ1と6の中心に受聴者の顔を向けたときの角度をα=0°、時計方向に正(+)の角度、反時計方向に負(−)の角度、と定義する。角度α=0°の場合は、スピーカ1から左(L)チャネルのバイノーラル信号、スピーカ6から右(R)チャネルのバイノーラル信号が出力される。スピーカ選択部30は、顔姿勢情報(角度α)を入力としたエンコーダー(encoder)である。
【0026】
受聴者の顔が水平方向に+60度回転(α=60°)したと仮定すると、受聴者の左耳孔がスピーカ1から見て左耳の耳介の影に隠れる。そうすると、クロストーク処理部96のフィルタリング処理の動作が不安定になるので、その場合、スピーカ1からの放音は遮断(×)され、スピーカ6から左(L)チャネルのバイノーラル信号、スピーカ5から右(R)チャネルのバイノーラル信号が出力されるようにスピーカが選択される。この結果、受聴者の両耳孔は、スピーカ6と5から見て受聴者の耳介に隠れることが無い。したがって、クロストーク処理部96のフィルタリング処理の動作が安定して動作する。
【0027】
更に、受聴者の顔が水平方向に+60度回転したα=+120°の場合は、スピーカ5から左(L)チャネル、スピーカ4から右(R)チャネルのバイノーラル信号が出力されるようにスピーカが選択される。顔姿勢情報に対応させて3個以上のスピーカ1〜6の中から隣り合う一組のスピーカが選択することで、受聴者が大きく顔の方向を変えても、その運動に影響されない絶対位置を有する音像を自然に提供することが可能になる。
【0028】
なお、
図3に示すように、0度と−360度、+60度と−300度、+120度と−240度、+180度と−180度、+240度と−120度、+300度と−60度、におけるスピーカの組み合わせは同じ一組である。このように受聴者を中心として60度の中心角度毎に6個のスピーカを配置した場合は、受聴者の顔の向きが360度、一周しても自然な音像を提供することが可能である。例えば、スピーカを6と1と2の3個とした場合は、受聴者の左右の耳孔が、スピーカから見て耳介の影にならない+60度〜−60度の範囲で自然な音像を提供することができる。
【0029】
バイノーラル処理部95は、音声信号と顔姿勢情報とスピーカ選択情報とを入力として、当該スピーカ選択情報に基づく一組のスピーカの右側のスピーカから受聴者の右耳までの頭部伝達関数と左側のスピーカから左耳までの頭部伝達関数を、音声信号に畳み込んで右チャネルと左チャネルのバイノーラル信号を出力する。バイノーラル処理部95は、顔姿勢情報に対応する複数の頭部伝達関数を記憶している。その数は、例えば、顔姿勢データ記憶部22に記憶された角度の数分である。または、顔姿勢情報が、例えば、1度ごとと、バイノーラル処理部95が記憶した角度よりも細かい場合は、既存の補間技術を用いて補間して頭部伝達関数を求めるようにしても良い。角度情報が一致する頭部伝達関数が用意されていない場合は、その方向の最も近い両側の頭部伝達関数の重み平均値を計算して用いる。この頭部伝達関数を補間して求める考えは、クロストーク処理部96における伝達関数にも適用できる。
【0030】
クロストーク処理部96は、バイノーラル信号と顔姿勢情報とスピーカ選択情報を入力として、当該スピーカ選択情報に基づく一組のスピーカから受聴者の右耳までの伝達関数と左耳までの伝達関数を用いて、左右2チャネルのバイノーラル信号から空間クロストーク成分を除去した左右2チャネルのスピーカ駆動信号を生成する。クロストーク処理部96は、スピーカ選択情報に基づく一組のスピーカから受聴者の右耳と左耳までの伝達関数を用いて、左右2チャネルのバイノーラル信号から空間クロストーク成分を除去するフィルタリング処理を行う。スピーカ選択情報に対応した2個のそれぞれのスピーカから受聴者の右耳と左耳までの伝達関数は、予めクロストーク処理部96に記憶されている。空間クロストーク成分を除去するフィルタリング処理そのものは、従来のトランスオーラルシステム900と同じである。
【0031】
スピーカ駆動部40は、スピーカ選択情報とスピーカ駆動信号を入力として、スピーカ選択情報に基づく一組のスピーカに、スピーカ駆動信号を出力する。スピーカ駆動部40は、
図3に示した左右2チャネルのバイノーラル信号を各スピーカ1〜6に振り分ける動作を行う。
【0032】
図4に、より具体的なスピーカ選択部40の機能構成例を示す。スピーカ選択部40は、スピーカ1〜6にそれぞれ接続される一対のリレー41〜46で構成される。一対のリレー41は、アンプ98で増幅された右(R)チャネルのバイノーラル信号と左(L)チャネルのバイノーラル信号とが、それぞれ一端に接続され、その他端にはスピーカ1が共に接続されるリレー41
Rと41
Lとを備える。一対のリレー42〜46もそれぞれスピーカ2〜6に接続され、その構成は一対のリレー41と同じである。
【0033】
リレー41
Lとリレー46
Rの制御端子には、スピーカ選択部30の0(−360)出力端子が接続されている。スピーカ選択部30の0(−360)出力端子は、顔姿勢解析部20が出力する顔姿勢情報が表す顔の向きを表す角度αが、−60°<α<60°の範囲で“1”(論理レベル1)となる選択信号を出力する。0(−360)出力端子の選択信号が“1”になると、リレー41
Lとリレー46
Rとが導通状態となり、スピーカ1に左(L)チャネルのバイノーラル信号が供給され、スピーカ6に右(R)チャネルのバイノーラル信号が供給される。他のスピーカ2〜5へのバイノーラル信号の供給は遮断される。
【0034】
スピーカ選択部30の300(−60)出力端子は、リレー41
Rとリレー42
Lの制御端子に接続される。300(−60)出力端子は、角度αが、−120°<α≦−60°の範囲で“1”となるので、スピーカ1に右(R)チャネルのバイノーラル信号、スピーカ2に左(L)チャネルのバイノーラル信号が供給される。
【0035】
表1に、角度αの角度範囲と、右(R)チャネルと左(L)チャネルのバイノーラル信号が供給されるスピーカ番号との関係を示す。
【0036】
【表1】
【0037】
表1に示すように、顔姿勢情報(角度α)に対応させてバイノーラル信号を供給するスピーカを選択することで、受聴者の顔の向きが360度、一周しても受聴者の耳孔が耳介の影になら無いので自然な音像を提供することが可能になる。
【0038】
トランスオーラルシステム100は、撮像部10で撮影した受聴者の顔画像から顔姿勢情報を求める第一の特徴と、その顔姿勢情報に基づいて3個以上のスピーカの中から2個のスピーカを選択する第二の特徴を有するものである。本願発明のトランスオーラルシステムは、第二の特徴のみを有する構成も考えられる。その構成のトランスオーラルシステム200を次に説明する。
【実施例2】
【0039】
図5に、この発明のトランスオーラルシステム200の機能構成例を示す。トランスオーラルシステム200は、トランスオーラルシステム100の撮像部10と顔姿勢解析部20に代えて、入力部50を備える点で異なる。他の機能部の構成は、基本的に同じ考えで実現できる。
【0040】
入力部50は、外部から入力される受聴者の顔方向情報又は受聴者の両耳とスピーカとの相対的な位置情報を表す頭部位置情報を、バイノーラル処理部95とクロストーク処理部96とスピーカ選択部30に出力する。受聴者の顔方向情報又は受聴者の両耳とスピーカとの相対的な位置情報を表す頭部位置情報は、上記した顔姿勢情報と同じ意味を持つ信号である。
【0041】
例えば、トランスオーラルシステム200の利用者が、受聴者の顔を目視で判断してスピーカに対する受聴者の頭部位置情報を、入力部50に手入力しても良い。スピーカ選択部30は、その頭部位置情報に基づいて一組のスピーカの選択を行うように構成しておく。バイノーラル処理部95とクロストーク処理部96も、頭部位置情報に基づいて頭部伝達関数と伝達関数を選択するように構成しておく。そうすることで、トランスオーラルシステム100と同様に、受聴者が大きく顔の方向を変えてもその運動に影響されない絶対位置を有する音像を自然に提供することが可能である。
【0042】
なお、バイノーラル処理部95に入力される音声信号はディジタル信号の例で説明を行ったが、音声信号はアナログ信号でも良い。その場合、バイノーラル処理とクロストーク処理は、顔姿勢情報に対応した複数のアナログフィルタで実現される。音声信号がアナログ信号で与えられる場合は、D/A変換器97は不要である。また、バイノーラル信号の出力レベルが大きい場合には、アンプ98も不要である。このように、D/A変換器97とアンプ98は、本願発明を特徴付けるものではない。
【0043】
なお、顔姿勢情報に基づいて一組のスピーカを選択するスピーカ選択部30を、独立して具備する機能構成例で説明を行ったが、スピーカ選択部30の機能を、バイノーラル処理部95とクロストーク処理部96とスピーカ駆動部40にそれぞれに持たせても良い。その場合は、スピーカ選択部30は不要である。このように、本願発明のトランスオーラルシステムは、上記した実施例の構成に限定されるものではない。
トランスオーラルシステム100,200は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるように構成してもよい。
【0044】
その場合、その処理内容を記述したプログラムは、コンピュータで読み取り可能な任意の記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリがある。より具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0045】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0046】
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェアとして実現することとしてもよい。