(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-05
(45)【発行日】2024-11-13
(54)【発明の名称】音信号処理方法および音信号処理装置
(51)【国際特許分類】
H04R 3/00 20060101AFI20241106BHJP
H04S 7/00 20060101ALI20241106BHJP
G10L 15/04 20130101ALI20241106BHJP
G10L 21/028 20130101ALI20241106BHJP
G10L 25/84 20130101ALI20241106BHJP
【FI】
H04R3/00
H04S7/00 300
G10L15/04 300C
G10L21/028 B
G10L25/84
(21)【出願番号】P 2020151211
(22)【出願日】2020-09-09
【審査請求日】2023-07-21
(73)【特許権者】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110000970
【氏名又は名称】弁理士法人 楓国際特許事務所
(72)【発明者】
【氏名】奥村 啓
【審査官】松崎 孝大
(56)【参考文献】
【文献】特開2007-067858(JP,A)
【文献】特開2017-184174(JP,A)
【文献】特開2018-121225(JP,A)
【文献】国際公開第2014/034555(WO,A1)
【文献】国際公開第2017/209196(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04R 3/00
H04S 7/00
G10L 15/04
G10L 21/028
G10L 25/84
(57)【特許請求の範囲】
【請求項1】
音信号を取得し、
前記音信号の種別を判定し、
複数の仮想スピーカを設定して、
判定した前記音信号の種別が第1の種別の時に、前記複数の仮想スピーカのうちいずれか1つの仮想スピーカに音像定位をさせる定位処理を施した第1音信号を生成し、
判定した前記音信号の種別が第2の種別の時に、前記複数の仮想スピーカのうち2以上の仮想スピーカに分散して音像定位させる分散処理を施した第2音信号を生成し、
前記第1音信号と前記第2音信号を加算して加算信号を生成し、
前記加算信号を複数の実在のスピーカに出力する、
音信号処理方法。
【請求項2】
前記音信号は、複数のチャンネルを含み、
チャンネル毎に前記種別を判定する、
請求項1に記載の音信号処理方法。
【請求項3】
前記音信号が前記第1の種別および前記第2の種別の両方の音源を含む場合、前記第1の種別の音信号および前記第2の種別の音信号に音源分離し、
分離したそれぞれの音信号から前記第1音信号および前記第2音信号を生成する、
請求項1に記載の音信号処理方法。
【請求項4】
前記音信号に対して音声認識処理を行ない、
前記音声認識処理で音声を認識した場合に前記音信号の種別が前記第1の種別と判定し、
前記音声認識処理で音声を認識できない場合に前記音信号の種別が前記第2の種別と判定する、
請求項1乃至請求項3のいずれか1項に記載の音信号処理方法。
【請求項5】
前記定位処理は、定位させる位置がある実在のスピーカに一致する場合に、その実在のスピーカ単独に前記第1音信号を出力する処理を含む、
請求項1乃至請求項4のいずれか1項に記載の音信号処理方法。
【請求項6】
ユーザから位置情報を受け付けて、
前記定位処理は、受け付けた前記位置情報の位置に前記第1音信号を定位させる、
請求項1乃至請求項5のいずれか1項に記載の音信号処理方法。
【請求項7】
前記定位処理は、パニング処理とエフェクト処理により前記仮想スピーカを実現する、
請求項1乃至請求項6のいずれか1項に記載の音信号処理方法。
【請求項8】
ユーザから座席位置の指定情報を受け付けて、
前記座席位置の指定情報に基づいて前記パニング処理および前記エフェクト処理の内容を変更する、
請求項7に記載の音信号処理方法。
【請求項9】
前記エフェクト処理は、ディレイ、イコライザ、またはリバーブを含む、
請求項7または請求項8に記載の音信号処理方法。
【請求項10】
前記分散処理は前記第2音信号の出力タイミングの調整を含む、
請求項1乃至請求項9のいずれか1項に記載の音信号処理方法。
【請求項11】
音信号を取得する取得部と、
前記音信号の種別を判定する判定部と、
複数の仮想スピーカを設定する設定部と、
判定した前記音信号の種別が第1の種別の時に、前記複数の仮想スピーカのうちいずれか1つの仮想スピーカに音像定位をさせる定位処理を施した第1音信号を生成し、
判定した前記音信号の種別が第2の種別の時に、前記複数の仮想スピーカのうち2以上の仮想スピーカに分散して音像定位させる分散処理を施した第2音信号を生成し、
前記第1音信号と前記第2音信号を加算して加算信号を生成し、
前記加算信号を複数の実在のスピーカに出力する、信号処理部と、
を備えた音信号処理装置。
【請求項12】
前記音信号は、複数のチャンネルを含み、
前記判定部は、チャンネル毎に前記種別を判定する、
請求項11に記載の音信号処理装置。
【請求項13】
前記音信号が前記第1の種別および前記第2の種別の両方の音源を含む場合、前記第1の種別の音信号および前記第2の種別の音信号に音源分離する音源分離部を備え、
分離したそれぞれの音信号から前記第1音信号および前記第2音信号を生成する、
請求項11に記載の音信号処理装置。
【請求項14】
前記音信号に対して音声認識処理を行なう音声認識処理部を備え、
前記判定部は、
前記音声認識処理で音声を認識した場合に前記音信号の種別が前記第1の種別と判定し、
前記音声認識処理で音声を認識できない場合に前記音信号の種別が前記第2の種別と判定する、
請求項11乃至請求項13のいずれか1項に記載の音信号処理装置。
【請求項15】
前記定位処理は、定位させる位置がある実在のスピーカに一致する場合に、その実在のスピーカ単独に前記第1音信号を出力する処理を含む、
請求項11乃至請求項14のいずれか1項に記載の音信号処理装置。
【請求項16】
ユーザから位置情報を受け付ける位置情報受付部を備え、
前記定位処理は、受け付けた前記位置情報の位置に前記第1音信号を定位させる、
請求項11乃至請求項15のいずれか1項に記載の音信号処理装置。
【請求項17】
前記定位処理は、パニング処理とエフェクト処理により前記仮想スピーカを実現する、
請求項11乃至請求項16のいずれか1項に記載の音信号処理装置。
【請求項18】
ユーザから座席位置の指定情報を受け付ける座席指定受付部を備え、
前記信号処理部は、前記座席位置の指定情報に基づいて前記パニング処理および前記エフェクト処理の内容を変更する、
請求項17に記載の音信号処理装置。
【請求項19】
前記エフェクト処理は、ディレイ、イコライザ、またはリバーブを含む、
請求項17または請求項18に記載の音信号処理装置。
【請求項20】
前記分散処理は前記第2音信号の出力タイミングの調整を含む、
請求項11乃至請求項19のいずれか1項に記載の音信号処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、音信号を処理する音信号処理方法および音信号処理装置に関する。
【背景技術】
【0002】
特許文献1には、パブリックビューイング等の会場において、スピーカから再生される音が暗騒音等の雑音によりマスクされるのを補償するため、補償音を出力する補償スピーカを備えた音響信号補償装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
会場にスピーカ等の機材を多数設置すれば、音質が向上し、臨場感が向上する。しかし、機材の数を増やすと配線の手間、電源の確保、および人手の確保等が必要になる。
【0005】
そこで、この発明は、少ない機材でも臨場感を向上させることができる音信号処理方法および音信号処理装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
音信号処理方法は、音信号を取得し、前記音信号の種別を判定し、複数の仮想スピーカを設定して、判定した前記音信号の種別が第1の種別の時に、前記複数の仮想スピーカのうちいずれか1つの仮想スピーカに音像定位をさせる定位処理を施した第1音信号を生成し、判定した前記音信号の種別が第2の種別の時に、前記複数の仮想スピーカのうち2以上の仮想スピーカに分散して音像定位させる分散処理を施した第2音信号を生成し、前記第1音信号と前記第2音信号を加算して加算信号を生成し、前記加算信号を複数の実在のスピーカに出力する。
【発明の効果】
【0007】
利用者は、少ない機材でも臨場感を向上させることができる。
【図面の簡単な説明】
【0008】
【
図1】音信号処理システム1の構成を示すブロック図である。
【
図2】複数のスピーカ14A~スピーカ14Gの設置態様を示す平面概略図である。
【
図4】ミキサ11の機能的構成を示すブロック図である。
【
図5】ミキサ11の動作を示すフローチャートである。
【
図6】仮想スピーカを示したライブハウス70の平面概略図である。
【
図7】第1音信号および第2音信号の出力態様を模式化した平面図である。
【
図8】情報処理端末13を使用する各リスナの視聴環境を模式的に示した平面図である。
【
図9】情報処理端末13を使用する各リスナの視聴環境を模式的に示した平面図である。
【
図10】情報処理端末13を使用する各リスナの視聴環境を模式的に示した平面図である。
【発明を実施するための形態】
【0009】
図1は、音信号処理システム1の構成を示すブロック図である。音信号処理システム1は、ミキサ11、複数の情報処理端末13、および複数のスピーカ14A~スピーカ14Gを備えている。
【0010】
ミキサ11および複数の情報処理端末13は、それぞれ別の場所に設置されている。ミキサ11および複数の情報処理端末13は、インターネットを介して接続されている。
【0011】
ミキサ11は、複数のスピーカ14~スピーカ14Gに接続されている。ミキサ11および複数のスピーカ14A~スピーカ14Gは、ネットワークケーブルまたはオーディオケーブルを介して接続されている。
【0012】
ミキサ11は、本発明の音信号処理装置の一例である。ミキサ11は、インターネットを介して複数の情報処理端末13から音信号を受信し、パニング処理およびエフェクト処理を行ない、複数のスピーカ14A~スピーカ14Gに音信号を供給する。
【0013】
図2は、複数のスピーカ14A~スピーカ14Gの設置態様を示す平面概略図である。複数のスピーカ14A~スピーカ14Gは、ライブハウス70の壁面に沿って設置されている。この例のライブハウス70は、平面視して矩形状である。ライブハウス70の前方にはステージ50が配置されている。ステージ50では、演者が歌唱あるいは演奏等のパフォーマンスを行なう。
【0014】
スピーカ14Aは、ステージ50の左側に設置され、スピーカ14Bは、ステージ50の右側に設置されている。スピーカ14Cは、ライブハウス70の前後中央の左側、スピーカ14Dは、ライブハウス70の前後中央の右側に設置されている。スピーカ14Eはライブハウス70の後方左側に設置され、スピーカ14Fは、ライブハウス70の後方の左右中央に設置され、スピーカ14Gは、ライブハウス70の後方の右側に設置されている。
【0015】
スピーカ14Fの前には、リスナL1が居る。リスナL1は、演者のパフォーマンスを視聴し、演者に対して声援、拍手、または呼びかけ等を行なう。音信号処理システム1は、スピーカ14A~スピーカ14Gを介して他のリスナの声援、拍手、または呼びかけ等の音をライブハウス70内に出力する。他のリスナの声援、拍手、または呼びかけ等の音は、情報処理端末13からミキサ11に入力される。情報処理端末13は、パーソナルコンピュータ(PC)、タブレット型コンピュータ、またはスマートフォン等の携帯型の情報処理装置である。情報処理端末13のユーザは、ライブハウス70の歌唱あるいは演奏等のパフォーマンスを遠隔で視聴するリスナとなる。情報処理端末13は、不図示のマイクを介して、それぞれのリスナの声援、拍手、または呼びかけ等の音を取得する。あるいは、情報処理端末13は、表示器(不図示)に「声援」、「拍手」、「呼びかけ」、および「ざわめき」等のアイコン画像を表示し、リスナからこれらアイコン画像に対する選択操作を受け付けてもよい。情報処理端末13は、これらアイコン画像に対する選択操作を受け付けると、それぞれのアイコン画像に対応する音信号を生成し、リスナの声援、拍手、または呼びかけ等の音として取得してもよい。
【0016】
情報処理端末13は、インターネットを介してミキサ11にそれぞれのリスナの声援、拍手、または呼びかけ等の音を送信する。ミキサ11は、それぞれのリスナの声援、拍手、または呼びかけ等の音を受信する。ミキサ11は、受信した音にパニング処理およびエフェクト処理を行ない、複数のスピーカ14A~スピーカ14Gに音信号を分配する。これにより、音信号処理システム1は、ライブハウス70に多数のリスナの声援、拍手、または呼びかけ等の音を届けることができる。
【0017】
以下、ミキサ11の構成および動作について詳細に説明する。
図3は、ミキサ11のハードウェア構成を示すブロック図である。
図4は、ミキサ11の機能的構成を示すブロック図である。
図5は、ミキサ11の動作を示すフローチャートである。
【0018】
ミキサ11は、表示器101、ユーザI/F(インタフェース)102、オーディオI/O(Input/Output)103、信号処理部(DSP)104、ネットワークI/F105、CPU106、フラッシュメモリ107、およびRAM108を備えている。これら構成は、バス171を介して接続されている。
【0019】
CPU106は、ミキサ11の動作を制御する制御部である。CPU106は、記憶媒体であるフラッシュメモリ107に記憶された所定のプログラムをRAM108に読み出して実行することにより各種の動作を行なう。
【0020】
なお、CPU106が読み出すプログラムは、自装置内のフラッシュメモリ107に記憶されている必要はない。例えば、プログラムは、サーバ等の外部装置の記憶媒体に記憶されていてもよい。この場合、CPU106は、該サーバから都度プログラムをRAM108に読み出して実行すればよい。
【0021】
信号処理部104は、各種信号処理を行なうためのDSPから構成される。信号処理部104は、ネットワークI/F105を介して情報処理端末13からリスナの声援、拍手、または呼びかけ等に係る音信号を受信する。
【0022】
信号処理部104は、受信した音信号に、パニング処理およびエフェクト処理を行なう。信号処理部104は、信号処理後の音信号を、オーディオI/O103を介して、スピーカ14A~スピーカ14Gに出力する。
【0023】
図4に示すように、CPU106および信号処理部104は、機能的に、取得部301、判定部302、設定部303、定位処理部304、分散処理部305、および加算部306を備えている。
【0024】
取得部301は、複数の情報処理端末13のそれぞれからリスナの声援、拍手、または呼びかけ等に係る音信号を取得する(S11)。その後、判定部302は、音信号の種別を判定する(S12)。
【0025】
音信号の種別は、第1の種別または第2の種別を含む。第1の種別は、リスナ各自の「がんばれー」等の声援、演者の個人名の呼びかけ、または「ブラボー」等の感嘆詞等を含む。すなわち、第1の種別は、聴衆に埋もれずに個別のリスナの声として認識できる音である。第2の種別は、個別のリスナの声として認識できない、多くのリスナが同時に発する音であり、例えば拍手、合唱、または「わー」等の歓声、ざわめき等を含む。
【0026】
判定部302は、例えば音声認識処理により、上記の様な「がんばれー」、「ブラボー」等の音声を認識した場合に、当該音信号を第1の種別であると判定する。判定部302は、音声を認識しない音信号を第2の種別と判定する。
【0027】
判定部302は、第1の種別と判定した音信号を定位処理部304に出力し、第2の種別と判定した音信号を分散処理部305に出力する。定位処理部304および分散処理部305は、複数の仮想スピーカを設定する(S13)。
【0028】
図6は、仮想スピーカを示したライブハウス70の平面概略図である。
図6に示す様に、定位処理部304および分散処理部305は、複数の仮想スピーカ14N1~仮想スピーカ14N16を設定する。定位処理部304および分散処理部305は、ライブハウスの所定の位置(例えばステージ50の中央)を原点とした2次元または3次元直交座標で、スピーカ14A~スピーカ14G、仮想スピーカ14N1~仮想スピーカ14N16の位置を管理する。スピーカ14A~スピーカ14Gは、実在のスピーカである。そのため、スピーカ14A~スピーカ14Gの座標は、予めフラッシュメモリ107(または不図示のサーバ等)に記憶されている。定位処理部304および分散処理部305は、
図6に示す様に、ライブハウス70の全体に仮想スピーカ14N1~仮想スピーカ14N16を万遍なく配置する。また、
図6の例では、定位処理部304および分散処理部305は、ライブハウス70の外側の位置にも仮想スピーカ14N16を設定している。
【0029】
なお、仮想スピーカの設定処理(S13)は、音信号の種別の判定処理(S12)の後に行なう必要はない。仮想スピーカの設定処理(S13)は、音信号の取得処理(S11)または音信号の種別の判定処理(S12)の前に予め行なってもよい。
【0030】
その後、定位処理部304は、定位処理を行って第1音信号を生成し、分散処理部305は、分散処理を行って第2音信号を生成する(S14)。
【0031】
定位処理は、仮想スピーカ14N1~仮想スピーカ14N16のうちいずれか1つの位置に音像を定位させる処理である。ただし、音像を定位させる位置は、仮想スピーカ14N1~仮想スピーカ14N16に限らない。定位処理部304は、音像を定位させる位置がスピーカ14A~スピーカ14Gの位置に一致する場合、スピーカ14A~スピーカ14Gのいずれか1つに音信号を出力する。
【0032】
なお、第1の種別の音信号の定位位置は、ランダムに設定してもよいが、ミキサ11は、リスナから位置情報を受け付ける位置情報受付部を備えていてもよい。リスナは、情報処理端末13を操作して、自身の音声の定位位置を指定する。例えば、情報処理端末13は、ライブハウス70の平面図または斜視図等を模した画像を表示し、利用者から定位位置を受け付ける。情報処理端末13は、受け付けた定位位置に対応する位置情報(座標)をミキサ11に送信する。ミキサ11の定位処理部304は、情報処理端末13から受信した位置情報に対応する座標に仮想スピーカを設定し、設定した仮想スピーカの位置に音像を定位させる処理を行う。
【0033】
定位処理部304は、仮想スピーカ14N1~仮想スピーカ14N16の位置に音像を定位させるために、パニング処理またはエフェクト処理を行う。
【0034】
パニング処理は、スピーカ14A~スピーカ14Gのうち複数のスピーカに同じ音信号を供給し、かつ供給する音信号の音量を制御することで、仮想スピーカの位置に音像をファントム定位させる処理である。例えば、スピーカ14Aおよびスピーカ14Cに同じ音量の同じ音信号を供給すれば、スピーカ14Aおよびスピーカ14Cを結ぶ直線上の中央の位置に、仮想スピーカを設置した様に音像定位する。つまり、パニング処理は、仮想スピーカの位置に近いスピーカに供給する音信号の音量を大きくし、仮想スピーカの位置から遠いスピーカに供給する音信号の音量を小さくする処理である。なお、
図6においては、同一平面上に複数の仮想スピーカ14N1~仮想スピーカ14N16を設定している。ただし、定位処理部304は、異なる高さに設置された複数のスピーカに対して同じ音信号を供給することで、3次元座標上の任意の位置の仮想スピーカに音像を定位させることもできる。
【0035】
また、エフェクト処理は、例えばディレイを付与する処理を含む。実在のスピーカ14A~スピーカ14Gに供給する音信号にディレイを付与すれば、聴者は、実在のスピーカよりも遠い位置に音像を知覚する。したがって、定位処理部304は、音信号にディレイを付与することで、実在のスピーカ14A~スピーカ14Gよりも遠い位置に設定した仮想スピーカに音像を定位させることができる。
【0036】
また、エフェクト処理は、リバーブを付与する処理を含んでいてもよい。音信号にリバーブを付与すれば、聴者は、実在のスピーカの位置よりも遠い位置に音像を知覚する。したがって、定位処理部304は、音信号にリバーブを付与することで、実在のスピーカ14A~スピーカ14Gよりも遠い位置に設定した仮想スピーカに音像を定位させることができる。
【0037】
また、エフェクト処理は、イコライザにより周波数特性を付与する処理を含んでいてもよい。聴者は、両耳の音量差および時間差だけでなく、周波数特性の差によっても音像を知覚する。したがって、定位処理部304は、目的の仮想スピーカの位置から目的の聴取位置(例えばステージ50の中央)に至る伝達特性に応じた周波数特性を付与することでも、設定した仮想スピーカの位置に音像を定位させることができる。
【0038】
一方、分散処理は、仮想スピーカ14N1~仮想スピーカ14N16のうち複数に分散して音像を定位させる処理である。分散処理部305も、音像を定位させる位置が実在のスピーカ14A~スピーカ14Gの位置に一致する場合、スピーカ14A~スピーカ14Gのいずれか1つに音信号を出力する。
【0039】
分散処理部305は、仮想スピーカ14N1~仮想スピーカ14N16の複数の位置に音像を定位させるために、パニング処理またはエフェクト処理を行う。個々の音像を仮想スピーカ14N1~仮想スピーカ14N16のいずれかの位置に定位させる方法は、定位処理部304と同じである。分散処理部305は、複数の仮想スピーカに分散して音像を定位させることで、拍手、合唱、歓声、またはざわめき等の音を再現する。
【0040】
なお、上述では、リバーブを付与することで、実在のスピーカ14A~スピーカ14Gよりも遠い位置に設定した仮想スピーカに音像を定位させる例を示した。ただし、リバーブは、聴者に音の空間的な拡がりを知覚させることができる。そのため、分散処理部305は、複数の仮想スピーカに音像を定位させる処理に加えて、さらにリバーブ等の空間的な拡がりを知覚させる処理を行ってもよい。
【0041】
また、分散処理部305は、スピーカ14A~スピーカ14Gに出力する音信号の出力タイミングを調整し、複数の実在のスピーカから出力される音の聴者への到達タイミングをずらすことが好ましい。これにより、分散処理部305は、さらに音を分散することができ、空間的な拡がりを与えることができる。
【0042】
加算部306は、以上の様にして定位処理された第1音信号および分散処理された第2音信号を加算する(S15)。加算処理は、スピーカ毎の加算演算器により行われる。加算部306は、第1音信号および第2音信号を加算した加算信号を、それぞれの複数の実在のスピーカに出力する(S16)。
【0043】
以上の様にして、第1音信号は、仮想スピーカ14N1~仮想スピーカ14N16のいずれか1つを音源として聴者に到達する。第2音信号は、複数の仮想スピーカ14N1~仮想スピーカ14N16から分散して聴者に到達する。
図7は、第1音信号および第2音信号の出力態様を模式化した平面図である。
図7に示す様に、「ブラボー」等の音声は、特定の仮想スピーカから出力される。
図7の例では、客席前方中央の仮想スピーカ14N3、各席後方左右の仮想スピーカ14N9、仮想スピーカ14N12、およびライブハウス70よりも外側の後方の仮想スピーカ14N16から「ブラボー」等の音声が出力される。拍手および「わー」等の歓声は、複数の仮想スピーカから出力される。
【0044】
これにより、ステージ50の演者は、リスナL1以外の場所からもリスナの声や拍手、歓声等を聴くことができ、臨場感溢れた環境下でライブパフォーマンスを行うことができる。また、ライブハウス70に居るリスナL1も、同じ空間内で多数のリスナの声や拍手、歓声等を聴くことができ、臨場感溢れた環境下でライブパフォーマンスを視聴することができる。
【0045】
特に、本実施形態の音信号処理方法は、実在のスピーカ14A~スピーカ14Gよりも多数の仮想スピーカ14N1~仮想スピーカ14N16からリスナの声や拍手、歓声等を発することができる。したがって、本実施形態の音信号処理方法は、少ない機材でも様々な位置からリスナの声や拍手、歓声等を出力することができ、臨場感を向上させることができる。また、本実施形態の音信号処理方法は、仮想スピーカの位置を実在の会場の空間よりも外側の位置に設定することで、実在の空間よりもさらに大きな会場の環境を模して、リスナの声や拍手、歓声等を出力することができる。
【0046】
上記実施形態では、ライブハウス70における臨場感を向上させる例を示した。しかし、本実施形態の音信号処理方法は、情報処理端末13を使用する遠隔地の各リスナの臨場感を向上させることもできる。
【0047】
図8、
図9および
図10は、情報処理端末13を使用する各リスナの視聴環境を模式的に示した平面図である。この例では、スピーカ14FL、スピーカ14FR、スピーカ14C、スピーカ14SL、およびスピーカ14SRが居室75の壁面に沿って設置されている。この例の居室75は、平面視して矩形状である。居室75の前方には表示器55が配置されている。リスナL2は、居室の中央に居る。リスナL2は、表示器55に表示される演者のパフォーマンスを視る。
【0048】
スピーカ14FLは、表示器55の左側に設置され、スピーカ14Cは、表示器55の前に設置され、スピーカ14FRは、表示器55の右側に設置されている。スピーカ14SLは居室75の後方左側に設置され、スピーカ14SRは、居室75の後方の右側に設置されている。
【0049】
情報処理端末13は、演者のパフォーマンスに係る映像および音を取得する。例えば、
図2の例では、ミキサ11は、演者の演奏音または歌唱音等の音を取得し、情報処理端末13に送信する。
【0050】
情報処理端末13は、ミキサ11と同様に、取得した音にパニング処理およびエフェクト処理等の信号処理を施して、信号処理後の音信号を、スピーカ14FL、スピーカ14FR、スピーカ14C、スピーカ14SL、およびスピーカ14SRに出力する。スピーカ14FL、スピーカ14FR、スピーカ14C、スピーカ14SL、およびスピーカ14SRは、演者のパフォーマンスに係る音を出力する。
【0051】
さらに、情報処理端末13は、他の情報処理端末13から他のリスナの声援、拍手、または呼びかけ等に係る音信号を取得する。情報処理端末13は、ミキサ11と同様に、音信号の種別を判定し、定位処理または分散処理を行う。
【0052】
これにより、
図9に示す様に、リスナL2は、居室75においても、ライブハウス70の中央に居て多数の観客とともに演者のパフォーマンスを視聴しているような臨場感を得ることができる。
【0053】
情報処理端末13は、リスナから座席位置の指定情報を受け付ける座席指定受付部を備えていてもよい。この場合、情報処理端末13は、座席位置の指定情報に基づいてパニング処理およびエフェクト処理の内容を変更する。例えば、リスナがステージ50のすぐ前の座席位置を指定すれば、情報処理端末13は、
図10に示す様に、リスナL2をステージ50のすぐ前の位置に設定して、複数の仮想スピーカを設定し、他のリスナの声援、拍手、または呼びかけ等に係る音信号の定位処理および分散処理を行う。これにより、リスナL2は、ステージ50のすぐ前に居るような臨場感を得ることができる。
【0054】
音信号処理システムの提供者は、ステージ前の座席位置、ステージ横の座席位置、ライブハウスの中央の座席位置、あるいは後方の座席位置、等のチケットを提供する。情報処理端末13のユーザは、これらの座席位置のうちいずれかの座席位置のチケットを購入する。ユーザは、例えば、高額で臨場感の高いステージ前の座席位置を選んだり、低額の後方座席位置を選んだりすることができる。情報処理端末13は、ユーザの選んだ座席位置に応じてパニング処理およびエフェクト処理の内容を変更する。これにより、ユーザは、自身の購入した座席位置に居てパフォーマンスを視聴するような臨場感を得ることができる。また、音信号処理方法の提供者は、実在の空間でイベントを提供している状態と同等のビジネスを行うことができる。
【0055】
さらに、本実施形態の音信号処理方法では、複数のユーザが同じ座席位置を指定しても良い。例えば、複数のユーザがそれぞれステージ50のすぐ前の座席位置を指定してもよい。この場合、それぞれのユーザの情報処理端末13は、ステージ50のすぐ前の座席位置に居るような臨場感を与える。これにより、1つの座席に対して、複数のリスナが同じ臨場感で演者のパフォーマンスを視聴することができる。したがって、音信号処理方法の提供者は、実在の空間の観客収容可能数を超えたサービスを提供することができる。
【0056】
本実施形態の説明は、すべての点で例示であって、制限的なものではない。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲には、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【0057】
例えば、上記実施形態では、音信号に対して音声認識処理を行ない、音声認識処理で音声を認識した場合に音信号の種別が前記第1の種別と判定し、音声認識処理で音声を認識できない場合に音信号の種別が前記第2の種別と判定した。しかし、音信号は、複数のチャンネルを含み、チャンネル毎に第1の種別か第2の種別かを示す付加情報(メタデータ)を含んでいてもよい。例えば、情報処理端末13がリスナから「声援」、「拍手」、「呼びかけ」、「ざわめき」等の選択操作を受け付けて対応する音信号を生成する場合、情報処理端末13は、選択された音に対応するチャンネルの音信号を生成し、付加情報を添付して、ミキサ11に音信号を送信する。この場合、ミキサ11の判定部302は、チャンネル毎に、付加情報に基づいて音信号の種別を判定する。
【0058】
また、音信号は、第1の種別および第2の種別の両方の音源を含んでいてもよい。この場合、ミキサ11(または情報処理端末13)は、第1の種別の音信号および第2の種別の音信号を音源分離する。定位処理部304および分散処理部305は、分離したそれぞれの音信号から第1音信号および第2音信号を生成する。音源分離の手法は、どの様なものであってもよい。例えば、上述の様に、第1の種別は特定のリスナの発話音である。そのため、判定部302は、発話音を目的音として、他の音をノイズ音として消去するノイズリダクションの処理を用いて、第1の種別の音信号を分離する。
【符号の説明】
【0059】
1…音信号処理システム
11…ミキサ
13…情報処理端末
14A~14G…スピーカ
14FL,14FR,14C,14SL,14SR…スピーカ
14N1~14N16…仮想スピーカ
50…ステージ
55…表示器
70…ライブハウス
75…居室
101…表示器
102…ユーザI/F
103…オーディオI/O
104…信号処理部
105…ネットワークI/F
106…CPU
107…フラッシュメモリ
108…RAM
171…バス
301…取得部
302…判定部
303…設定部
304…定位処理部
305…分散処理部
306…加算部