特許7388358 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ソニー株式会社の特許一覧

特許7388358情報処理装置、情報処理方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-11-20

(45)【発行日】2023-11-29

(54)【発明の名称】情報処理装置、情報処理方法及びプログラム

(51)【国際特許分類】

G10K 15/00 20060101AFI20231121BHJP

H04R 3/00 20060101ALI20231121BHJP

【ＦＩ】

G10K15/00 K

H04R3/00 310

【請求項の数】 14

(21)【出願番号】P 2020538212

(86)(22)【出願日】2019-06-28

(86)【国際出願番号】 JP2019025920

(87)【国際公開番号】W WO2020039748

(87)【国際公開日】2020-02-27

【審査請求日】2022-05-16

(31)【優先権主張番号】P 2018157657

(32)【優先日】2018-08-24

(33)【優先権主張国・地域又は機関】JP

(73)【特許権者】

【識別番号】000002185

【氏名又は名称】ソニーグループ株式会社

(74)【代理人】

【識別番号】100082762

【弁理士】

【氏名又は名称】杉浦正知

(74)【代理人】

【識別番号】100123973

【弁理士】

【氏名又は名称】杉浦拓真

(72)【発明者】

【氏名】村田直毅

(72)【発明者】

【氏名】光藤祐基

【審査官】冨澤直樹

(56)【参考文献】

【文献】特開２０１５－１８８１７９（ＪＰ，Ａ）

【文献】特開２００６－１２１１２５（ＪＰ，Ａ）

【文献】特開平０７－１０７６００（ＪＰ，Ａ）

【文献】米国特許出願公開第２００９／０１８２５６４（ＵＳ，Ａ１）

【文献】特開２０１５－１５２６８０（ＪＰ，Ａ）

【文献】大谷真，音場の可聴化，電子情報通信学会技術研究報告Ｖｏｌ．１１４Ｎｏ．３５８，日本，一般社団法人電子情報通信学会，2014年12月05日，第114巻、第358号，pp.89-96

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｋ１５／００

Ｈ０４Ｒ１／４０

Ｈ０４Ｒ３／００

(57)【特許請求の範囲】

【請求項1】

複数のスピーカから構成され、前記複数のスピーカの出力により波面合成するスピーカアレイと、
前記波面合成で形成される波面の波の様子の視覚情報、又は、前記波面合成で前記スピーカアレイの近傍以外に形成される仮想音像の位置情報に基づく視覚情報を、前記スピーカアレイによって音が再生される空間に投影する提示部と
を有する情報処理装置。

【請求項2】

前記波面合成で形成される波面の波の様子の視覚情報は、波面の波の映像である
請求項１に記載の情報処理装置。

【請求項3】

前記波面の波の映像は、音源に含まれるメタデータに基づいて生成された、複数の波面の波の画像により生成される
請求項２に記載の情報処理装置。

【請求項4】

前記波面の波の映像は、音源に含まれる音データに基づいて生成された、複数の波面の波の画像により生成される
請求項２に記載の情報処理装置。

【請求項5】

前記波面の波の画像に対して補正処理を行う補正処理部を有する
請求項４に記載の情報処理装置。

【請求項6】

前記波面の波の映像は、所定のフレーム単位で生成された波面の波の映像を繋ぎ合わせることにより生成される
請求項２に記載の情報処理装置。

【請求項7】

前記フレーム単位で生成された波面の波の映像は、当該フレーム単位で生成された複数の波面の波の画像をスロー再生することにより生成される
請求項６に記載の情報処理装置。

【請求項8】

前記波面の波の映像は、所定のフレーム単位で生成された波面の波の映像を重み付け加算した映像を繋ぎ合わせることにより生成される
請求項６に記載の情報処理装置。

【請求項9】

前記仮想音像の位置情報は、当該仮想音像の位置若しくは当該仮想音像と前記スピーカアレイとの距離であり、
前記提示部は、前記仮想音像の位置に対応する視覚情報若しくは前記仮想音像と前記スピーカアレイとの距離に応じた視覚情報を提示する
請求項１に記載の情報処理装置。

【請求項10】

前記提示部は、前記スピーカアレイの音の放射方向に対して、上方、下方及び空間における少なくとも１つの所定位置に、前記視覚情報を提示する
請求項９に記載の情報処理装置。

【請求項11】

前記提示部は、プロジェクション表示又は所定の発光素子を発光させることにより前記視覚情報を提示する
請求項９に記載の情報処理装置。

【請求項12】

前記音源が入力される入力部を有する
請求項１に記載の情報処理装置。

【請求項13】

複数のスピーカから構成されるスピーカアレイが、当該複数のスピーカの出力により波面合成を行い、
提示部が、前記波面合成で形成される波面の波の様子の視覚情報、又は、前記波面合成で前記スピーカアレイの近傍以外に形成される仮想音像の位置情報に基づく視覚情報を、前記スピーカアレイによって音が再生される空間に投影する
情報処理方法。

【請求項14】

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、情報処理装置、情報処理方法及びプログラムに関する。

【背景技術】

【0002】

音響システムで設定された仮想音像をディスプレイに表示する装置が記載されている（例えば、特許文献１、２を参照のこと。）。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１３－０５１６８６号公報

【0004】

【文献】特開２０１１－２５９２９８号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、特許文献１、２に記載の技術では、ディスプレイや３次元映像表示装置に仮想音像を表示するため、ユーザに与えることが可能な視覚効果にも限界がある。

【0006】

本開示は、受聴者（ユーザ）に対してより臨場感等に優れた音響的な視覚効果を提示することができる情報処理装置、情報処理方法及びプログラムを提供することを目的の一つとする。

【課題を解決するための手段】

【0007】

本開示は、例えば、
複数のスピーカから構成され、複数のスピーカの出力により波面合成するスピーカアレイと、
波面合成で形成される波面の波の様子の視覚情報、又は、波面合成でスピーカアレイの近傍以外に形成される仮想音像の位置情報に基づく視覚情報を、スピーカアレイによって音が再生される空間に投影する提示部と
を有する情報処理装置である。

【0008】

本開示は、例えば、
複数のスピーカから構成されるスピーカアレイが、当該複数のスピーカの出力により波面合成を行い、
提示部が、波面合成で形成される波面の波の様子の視覚情報、又は、波面合成でスピーカアレイの近傍以外に形成される仮想音像の位置情報に基づく視覚情報を、スピーカアレイによって音が再生される空間に投影する
情報処理方法である。

【0009】

【図面の簡単な説明】

【0010】

【図1】図１Ａ及び図１Ｂは、波面合成技術を実現する情報処理装置において行われる処理を説明する際に参照される図である。

【図2】図２Ａ～図２Ｃは、波面合成技術を説明する際に参照される図である。

【図3】図３は、波面合成技術により得られる受聴者の体験例を説明するための図である。

【図4】図４は、実施の形態の概要を説明するための図である。

【図5】図５は、第１実施の形態に係る情報処理装置の構成例を示すブロック図である。

【図6】図６Ａ及び図６Ｂは、第２実施の形態の概要を説明する際に参照される図である。

【図7】図７は、第２実施の形態に係る情報処理装置の構成例を示すブロック図である。

【図8】図８は、波面画像の一例を示す図である。

【図9】図９は、音データをフレーム分割する処理を説明する際に参照される図である。

【図10】図１０は、連続する波面画像の一例およびフレーム単位の波面映像の一例を示す図である。

【図11】図１１は、フレーム単位の波面映像を生成する方法の一例を説明するための図である。

【図12】図１２は、フェード処理の一例を説明するための図である。

【図13】図１３は、第３の実施の形態に係る情報処理装置の構成例を示すブロック図である。

【図14】図１４は、波面画像の一例を示す図である。

【発明を実施するための形態】

【0011】

以下、本開示の実施の形態等について図面を参照しながら説明する。なお、説明は以下の順序で行う。
＜波面合成技術について＞
＜第１の実施の形態＞
＜第２の実施の形態＞
＜第３の実施の形態＞
＜変形例＞
以下に説明する実施の形態等は本開示の好適な具体例であり、本開示の内容がこれらの実施の形態等に限定されるものではない。

【0012】

＜波面合成技術について＞
始めに、本技術の理解を容易とするために、波面合成技術と称される音響技術（以下、波面合成システムとも称する）について説明する。近年、多チャンネルのスピーカから構成されるスピーカアレイを用いて、新たな音響体験を可能にする波面合成技術が注目されている。係る波面合成技術は、スピーカアレイの各々のスピーカの振幅と位相とを制御することにより、空間内の音の波面を物理的に制御する技術である。

【0013】

図１Ａ及び図１Ｂを参照して、波面合成技術を実現する情報処理装置において行われる処理を概略的に説明する。音源データが情報処理装置に入力される。音源メタデータは、音データそのものと、音データの再生位置等が記述されたメタデータとを含む。このような音源データは、オブジェクトオーディオとも称され、音源に対応するオブジェクト毎（例えば、楽器や動物毎）に規定されている。音源データが入力された情報処理装置は、再生信号を計算する。情報処理装置は、例えば、音源データに含まれる再生位置とスピーカアレイの位置とをリアルタイムに比較し、個々のオブジェクトの音データをどのスピーカから、どれだけの振幅、位相等に基づいて再生するかを計算することで、スピーカを駆動するためのスピーカ信号を得る。得られたスピーカ信号が、対応するスピーカから再生される。スピーカから再生される音により合成音場が形成され、波面合成による音の再生が行われる。

【0014】

波面合成技術によって可能になる音響体験の１つに、受聴者がスピーカから飛び出す仮想音像を知覚できることが挙げられる。ここで、図２Ａに示すように、スピーカより前（受聴者寄り）から音が聞こえるようにしたい場合を考える。通常、多チャンネルのスピーカを用いた音響システムの一例であるサラウンドシステムにおいては、スピーカから鳴る音を聞いた受聴者は当然そのスピーカの位置から音が鳴っていると感じる。また、図２Ｂに示すように、２チャンネルのスピーカを用いたステレオ再生では、音の波面が干渉し、まばらな音場になる。なお、図２Ｂにおける色の濃淡は音圧の違いを示しており、色が濃いほど音圧レベルが大きくなっていることを示している。他の図についても同様である。

【0015】

しかしながら、波面合成技術によれば、各スピーカから出される音の信号の振幅と位相とが適切に制御されることにより、スピーカの前方に音の出る物体（仮想的な音像である仮想音像）があるような波面を物理的に生成することができる。このため、図２Ｃに示すように、受聴者はあたかもスピーカより前方から音が鳴っていると知覚する。なお、波面合成技術によれば、スピーカの後方に仮想音像を配置することも可能である。

【0016】

係る現象は、一般に「スピーカの前方に仮想音像が定位する」等と表現される。実際のスピーカ位置と異なる位置から飛び出すような仮想音像を配置する技術は、波面合成技術によって可能になる体験の一つであり、このような新たな音響体験はアート作品やアミューズメント施設のアトラクションの体験可能性等を拡げるものと考えられる。例えば、図３に模式的に示すように、複数の受聴者Ｌの周囲を囲むように、多チャンネルスピーカを有するスピーカアレイＳＰＡ１～ＳＰＡ４を配置する。スピーカアレイＳＰＡ１～ＳＰＡ４の個々のスピーカから出される音の信号の振幅と位相とをリアルタイムに制御することにより、受聴者Ｌに対して様々な方向から音が聞こえるように、適切な箇所に仮想音像ＶＳを定位させることができる。

【0017】

波面合成技術は、物理的には何も存在しない空間内の領域に、あたかもそこに音の出る物体があるかのような音響空間の生成を可能にするため、音のホログラフィ等とも呼ばれる。波面合成技術によって体験者は何も無いはずの空間に何かがあるという実在感と臨場感を得ることが可能となる。波面合成技術による音の再生と共に、視覚効果を付与すれば、波面合成技術により得られる実在感等の体験を更に拡張することができると考えられる。例えば、仮想音像の位置をライトアップするという効果によって、受聴者は仮想音像の定位感をより得ることができる。また、波面合成技術は多数のスピーカを使うことで、１つのスピーカからは生じ得ない音の波の様子を視覚的に再現することで（可視化することで）、受聴者は聴覚と視覚両方を使って仮想音像を把握することができる。

【0018】

音の波を可視化するという視覚効果は、受聴者の体験を拡張するだけではなく、波面合成システムを導入、設置する際にも有用であることが考えられる。音の波の可視化により、システムの設置者は波面合成システムがどのような波面を生成しようとしているかを認識でき、キャリブレーションなどの設置に関する作業の補助となる。

【0019】

これらの点に鑑みてなされた本技術の実施の形態等について、以下、詳細に説明する。

【0020】

＜第１の実施の形態＞
［概要］
次に、第１の実施の形態について説明する。始めに、図４を参照して、実施の形態の概要について説明する。なお、以下に説明する実施の形態の概要は、第２、第３の実施の形態にも適用することができる。

【0021】

図４に示すように、ある空間にスピーカアレイＳＰＡが配置されている。スピーカアレイＳＰＡの前方（音の放射方向）には、受聴者Ｌが存在している。スピーカアレイＳＰＡから、波面合成技術に基づく音の再生がなされ、例えば、スピーカアレイＳＰＡの前方（受聴者Ｌ寄りの方向）に仮想音像ＶＳが定位している。

【0022】

図４に示す空間の上方には、例えば、プロジェクション表示を行うプロジェクション装置ＰＲが設けられている。プロジェクション装置ＰＲは、例えば、波面合成で形成される波面の波の映像を床にプロジェクション表示することにより、受聴者Ｌに当該映像を提示する。受聴者Ｌは、床に表示される波面の波の映像を視ることが可能となる。更に、スピーカアレイＳＰＡから再生される音（例えば、音楽）と相俟って、上述した今までに体験したことがないような臨場感等を得ることができる。なお、波の映像とは、２次元状に広がる山谷を含む映像である。また、映像における波は、音圧分布に応じた着色、濃淡等がなされて表示されても良い。例えば、音圧が大きい箇所は赤で表示され、音圧が小さくなるにつれ、黄色、青となるように表示されても良い。また、例えば、音圧が大きい箇所は濃く表示され、音圧が小さくなるにつれ、薄くなるように表示されても良い。

【0023】

［情報処理装置の構成例］
次に、第１の実施の形態に係る情報処理装置（情報処理装置１）の構成例について説明する。図５は、情報処理装置１の構成例を示すブロック図である。情報処理装置１は、入力部１１、スピーカ信号計算部１２、視覚効果計算部１３、視覚情報提示部１４及びスピーカアレイＳＰＡを有している。

【0024】

入力部１１は、外部の機器との間に設けられているインターフェースである。入力部１１を介して、音源データが入力される。入力部１１に対しては、インターネット、ＬＡＮ(Local Area Network)等のネットワークを介して音源データが入力されても良いし、半導体メモリ、光ディスク等の記録メディアを介して音源データが入力されても良い。

【0025】

第１の実施の形態では、オブジェクト毎の音源位置等が記述されたメタデータとオブジェクト毎の音データとを含む音源データが入力部１１に入力されることを想定している。

【0026】

スピーカ信号計算部１２は、音源データに含まれるメタデータの内容に基づいて、スピーカアレイＳＰＡを構成する個々のスピーカＳＰうち音データを再生するスピーカＳＰや当該スピーカＳＰで再生される音データの振幅、位相等を計算し決定する。即ち、スピーカ信号計算部１２は、オブジェクトオーディオレンダラーとして機能する。スピーカ信号計算部１２は、計算したスピーカ信号を適宜、デジタル信号からアナログ信号に変換した後、スピーカアレイＳＰＡに供給する。スピーカ信号により、対応するスピーカＳＰが駆動され、オブジェクトの音データに対応する音が波面合成技術によりスピーカアレイＳＰＡから再生される。

【0027】

視覚効果計算部１３は、波面合成技術に基づく視覚効果を与えるための各種の計算を行う。第１の実施の形態では、入力部１１から視覚効果計算部１３に対して音源データが供給される。視覚効果計算部１３は、音源データを解析し、オブジェクト毎の音像位置、即ち、仮想音像に対応する位置の箇所を提示するための制御情報を生成する。そして、視覚効果計算部１３は、制御情報を視覚情報提示部１４に供給する。

【0028】

視覚情報提示部１４は、視覚効果計算部１３から供給される制御情報に応じて、波面合成でスピーカアレイＳＰＡの近傍以外に形成される仮想音像の位置情報に基づく視覚情報を提示する。ここで、視覚情報とは、視覚的に認識可能な情報である。また、スピーカアレイＳＰＡの近傍とは、スピーカアレイＳＰＡそのもの又はスピーカアレイＳＰＡと仮想音像との距離が所定以下の範囲を意味する。視覚情報提示部１４は、プロジェクション表示を行う装置でも良いし、複数のＬＥＤ(Light Emitting Diode)及び当該ＬＥＤの発光を制御する制御回路を有する装置でも良いし、ディスプレイ装置でも良い。

【0029】

スピーカアレイＳＰＡは、複数のスピーカＳＰ（ＳＰ₁、ＳＰ₂・・ＳＰ_n、ＳＰ_n+1）から構成され、複数のスピーカＳＰの出力により波面合成する。なお、個々のスピーカを区別する必要がない場合は、スピーカＳＰと適宜、称する。スピーカＳＰの個数は、任意の個数（例えば、５００個程度）を設定することができる。

【0030】

［情報処理装置の動作例］
次に、情報処理装置１の動作例について説明する。情報処理装置１の入力部１１に音源データが供給される。音源データが、スピーカ信号計算部１２及び視覚効果計算部１３のそれぞれに供給される。スピーカ信号計算部１２は、音源データに基づいて、スピーカアレイＳＰＡで再生されるスピーカ信号を計算する。スピーカ信号がスピーカアレイＳＰＡに供給され、スピーカアレイＳＰＡからスピーカ信号が再生される。これにより、音源データに含まれるメタデータで規定された３次元的な位置に仮想音像が定位する。

【0031】

一方、入力部１１から視覚効果計算部１３に対して音源データが供給される。視覚効果計算部１３は、音源データのメタデータを解析することにより仮想音像の位置を判別し、仮想音像に対応する位置の箇所を提示するための制御情報を生成する。そして、視覚効果計算部１３は、制御情報を視覚情報提示部１４に供給する。第１の実施の形態に係る視覚情報提示部１４は、波面合成でスピーカアレイＳＰＡの近傍以外に形成される仮想音像の位置情報に基づく映像を提示する。

【0032】

ここで「仮想音像の位置情報に基づく」とは、仮想音像の位置若しくは仮想音像とスピーカアレイＳＰＡとの距離を基づくことを意味する。従って、仮想音像の位置情報に基づく視覚情報を提示することにより得られる視覚効果は、例えば、下記の視覚効果とは区別される。
・視覚効果が固定されているもの。即ち、仮想音像の位置や仮想音像とスピーカアレイＳＰＡとの距離にかかわらず同じ視覚効果を提示することは、本実施の形態により得られる視覚効果とは区別される。
・仮想音像とスピーカアレイＳＰＡとの距離が０でないのにもかかわらず、距離が０として視覚効果を提示すること。具体的には、スピーカアレイＳＰＡそのものを仮想音像の位置として光らせることは、距離を０にして提示していることになるから、本実施の形態により得られる視覚効果とは区別される。

【0033】

なお、仮想音像とスピーカアレイＳＰＡとの間の距離は、例えば、以下のようにして算出することができる。以下に例示する計算は、例えば、視覚効果計算部１３により行われる。例えば、本実施の形態のように、情報処理装置１にメタデータが入力される場合には、スピーカアレイＳＰＡとメタデータに記述される仮想音像の３次元的な位置データとから、仮想音像とスピーカアレイＳＰＡとの間の距離が算出される。なお、具体的な距離の内容は適宜、規定することができる。例えば、仮想音像の位置から一番近いスピーカアレイＳＰＡ上の点までを仮想音像とスピーカアレイＳＰＡとの間の距離としても良いし、スピーカアレイＳＰＡ上の特定の箇所（例えば、複数のスピーカＳＰが直線状に延在するスピーカアレイＳＰＡの中央）と仮想音像との間の距離を仮想音像とスピーカアレイＳＰＡとの間の距離としても良い。

【0034】

また、情報処理装置１にメタデータが入力されない場合であっても、仮想音像とスピーカアレイＳＰＡとの間の距離を推定することは可能である。以下、その方法の一例について説明する。

【0035】

仮想音像を配置可能な空間内の点に、複数の点を配置する。この点を

とする。

【0036】

上述したそれぞれの点に仮想音像を配置したときの、スピーカアレイＳＰＡの幾何配置から計算される波面合成フィルタを

とする。なお、kは周波数のインデックスであり、Qはスピーカ数を表す。

【0037】

ここで、スピーカＳＰの駆動信号（スピーカ信号）を

としたときに、以下の最適化問題を解き、

そして、

を求める。(x(1),x(2)・・・x(K)の集合をXと表記する。)

【0038】

ここで、

は、ベクトルX(k)のl番目の要素である。λは、適当に設定するパラメータである。この最適化問題は、例えばM-FOCUSSアルゴリズムを用いて解くことができる。M-FOCUSSアルゴリズムの詳細は「S. F. Cotter、 B. D. Rao、 K. Engan & K. Kreutz-Delgado、 "Sparse solutions to linear inverse problems with multiple measurement vectors"、 IEEE Transactions on Signal Processing、 53(7)、 2477-2488、 2005。」に開示されている。

【0039】

ここで、

として、P_lを大きい順に並べた時、P_lの大きいlに対応するp_l（空間内の点）が、仮想音像の位置である。仮想音像が複数あると考えられる場合は、P_lを大きい順にいくつか取ってくることによって、複数の仮想音像の位置を推定できる。仮想音像の位置とスピーカアレイＳＰＡの幾何配置とから、仮想音像とスピーカアレイＳＰＡとの間の距離を算出することができる。

【0040】

［視覚情報の例］
本実施の形態に係る視覚情報提示部１４により受聴者Ｌに提示される視覚情報の例について説明する。以下に例示する映像が受聴者Ｌに提示されることにより、仮想音像の位置をライトアップ等するという視覚効果を実現することができる。なお、以下に説明する例に対応する構成（ＬＥＤ等）を視覚情報提示部１４は有する。

【0041】

視覚情報は、スピーカアレイＳＰＡの音の放射方向に対して、上方（例えば、天井）、下方（例えば、床）及び空間（例えば、天井と床との間）における少なくとも一つの所定位置に提示される。以下、具体例について説明する。

【0042】

例えば、床及び天井に発光素子の一例であるＬＥＤ等のライトを２次元状に配設する。仮想音像の位置に該当するライトを点灯させることで視覚情報を提示する。

【0043】

例えば、床及び天井にＬＥＤ等のライトを２次元状に配設する。仮想音像とスピーカアレイＳＰＡとの距離に応じて点灯するライトの位置を変化させることで視覚情報を提示する。

【0044】

例えば、床と天井の両方にＬＥＤ等のライトを配設し、仮想音像の位置や仮想音像とスピーカアレイＳＰＡとの距離に応じてライトの点灯位置と光量を変化させることで視覚情報を提示する。具体的には、仮想音像の位置が空間上にある場合に、その上下方向に位置するライトを点灯させる。この際、仮想音像の位置が上寄りの場合は、上側のライトの輝度を大きくし、下側のライトの輝度を小さくしても良い。反対に、仮想音像の位置が下寄りの場合は、上側のライトの輝度を小さくし、下側のライトの輝度を大きくしても良い。これにより、空間上にある仮想音像の位置を受聴者Ｌが認識し易くなる。

【0045】

例えば、ＬＥＤを複数有する紐状の物体を用意し、複数の当該物体を天井から垂らす。そして、仮想音像の位置や仮想音像とスピーカアレイとの距離に応じて特定のＬＥＤを点灯させることで視覚情報を提示する。これにより、空間上の存在する仮想音像の位置を提示することが可能となる。

【0046】

例えば、仮想音像の位置や仮想音像とスピーカアレイＳＰＡとの距離に応じて、床若しくは天井の両方に何らかの物体をプロジェクタにより投影表示することで視覚情報を提示する。

【0047】

例えば、視覚情報提示部１４の制御により高さが変わるユニット（例えば、球状の物体）を配設する。仮想音像の位置もしくは仮想音像とスピーカアレイＳＰＡとの距離に応じてユニットの高さを高低させることにより視覚情報を提示する。ユニットは発光しても良いし、発光しなくても良い。

【0048】

例えば、床及び天井の少なくとも一方にレーザ光を出射する装置を複数、配設する。そして、仮想音像の位置もしくは仮想音像とスピーカアレイＳＰＡとの距離に応じて、所定の装置からレーザ光を出射することで視覚情報を提示する。

【0049】

なお、波面合成技術による仮想音像の位置は、リアルタイムに変化し得る。従って、提示される視覚情報の位置も、リアルタイムに変化し得る。また、再生されるコンテンツによっては、複数のオブジェクト（楽器毎や動物毎）を含む場合がある。この場合には、オブジェクト毎の仮想音像等に基づく視覚情報を提示するようにしても良い。オブジェクト毎の仮想音像等に基づく視覚情報を、色や表示内容等を変化させることにより区別可能に提示しても良い。

【0050】

以上説明した第１の実施の形態によれば、仮想音像の位置や仮想音像とスピーカアレイとの距離に応じた提示がなされるので、受聴者に対して臨場感ある体験を提供することができると共に、新しい音響体験を創出することが可能となる。

【0051】

＜第２の実施の形態＞
次に、第２の実施の形態について説明する。なお、第１の実施の形態で説明した事項は、特に断らない限り第２の実施の形態に適用することができる。また、第１の実施の形態で説明した構成と同一又は同質の構成については、重複した説明を適宜、省略する。

【0052】

［概要］
始めに、図６を参照して、第２の実施の形態の概要について説明する。本実施の形態では、Ｌ個の音源（オブジェクト）が存在することを考える。例えば、図６Ａに示すように、音源としてトランペット及びギターを考える。勿論、音源は、楽器の音に限らず、自然音、動物の鳴き声等何でも良い。音源の各時刻での音源位置をr_l(t)、各音源の信号をs_l(t)とする。音源位置を示すメタデータ及び各音源の音データは、各音源の音源データに含まれている。

【0053】

そして、図６Ｂに示すように、各音源の音源データに基づいて、波面の波の様子を示す波面画像を生成する。例えば、生成した波面画像を連続的に再生することにより波面映像を生成し、係る波面映像を、波面合成で形成される波面の波の様子の視覚情報として受聴者Ｌに提示する。

【0054】

［情報処理装置の構成例］
次に、第２の実施の形態に係る情報処理装置（情報処理装置１Ａ）の構成例について説明する。図７は、情報処理装置１Ａの構成例を示すブロック図である。情報処理装置１Ａは、入力部１１、スピーカ信号計算部１２、視覚情報提示部１４、スピーカアレイＳＰＡの他に、視覚効果計算部１３Ａを有している。

【0055】

入力部１１、スピーカ信号計算部１２、視覚情報提示部１４及びスピーカアレイＳＰＡについては、第１の実施の形態で説明してあるため重複した説明を省略する。なお、第２の実施の形態では、入力部１１に各音源の音源データが入力される場合を想定している。

【0056】

（視覚効果計算部）
情報処理装置１Ａにおける視覚効果計算部１３Ａについて説明する。視覚効果計算部１３Ａは、波面画像生成部１３１及び変換部１３２を有している。波面画像生成部１３１は、音源のメタデータに基づいて、波面画像を生成する。変換部１３２は、波面画像生成部１３１が生成した波面画像を使用して波面映像を生成する。なお、変換部１３２は、波面映像を再生するための制御情報も生成する。変換部１３２は、波面映像及び制御情報を視覚情報提示部１４に出力する。視覚情報提示部１４は、制御情報に従って、プロジェクション表示等により波面映像を再生する。

【0057】

波面画像生成部１３１により行われる波面画像の生成方法の一例について説明する。各音源のメタデータ{r_l(t),s_l(t)}が得られるとき、メタデータから生成される空間内の音圧分布P(r,t)は、以下の数式１により計算することができる。

【0058】

【数1】

【0059】

なお、波面合成システムは全ての周波数帯域の音波を再現できないことが知られている。特に、高い周波数帯域においては、空間エイリアシングが生じ、実際に生成される波面は所望の波面とは全く異なったものになる。そこで、本実施の形態では、周波数のしきい値f_thrを設け、それ以下の周波数帯域の音波のみの波面画像を生成する。数式１では、

が、周波数のしきい値f_thrで帯域制限された音源の信号となる。

【0060】

上述した数式１で得られる情報は、空間上の音圧分布であるので、音圧の値若しくは値の範囲をカラーマップ表示（着色表示）等することによって、波面画像を得ることができる。このように、各音源のメタデータから、各時刻においてシステムによって生成される波面画像を得ることができる。

【0061】

図８は、波面画像の一例を示す図である。図８に示される波面画像は、音源のメタデータから生成した空間内の音圧分布をカラーマップ表示した画像である。図８に示される波面画像の仮想音像の位置は[0、-0.2、0]ｍであり、音源信号は1000Ｈｚの正弦波である。スピーカＳＰの数は16個であり、スピーカＳＰの素子間隔は0.2mである。仮想音像の位置に近いほど、色が濃くなっている。

【0062】

［情報処理装置の動作例］
次に、第２の実施の形態に係る情報処理装置１Ａの動作例について説明する。情報処理装置１Ａの入力部１１に音源データが供給される。音源データが、スピーカ信号計算部１２及び視覚効果計算部１３のそれぞれに供給される。スピーカ信号計算部１２は、音源データに基づいて、スピーカアレイＳＰＡで再生されるスピーカ信号を計算する。スピーカ信号がスピーカアレイＳＰＡに供給され、スピーカアレイＳＰＡからスピーカ信号が再生される。これにより、音源データに含まれるメタデータで規定された３次元的な位置に仮想音像が定位する。

【0063】

一方、入力部１１から視覚効果計算部１３Ａに対して音源データが供給される。視覚効果計算部１３Ａの波面画像生成部１３１は、音源データを解析し波面画像を生成する。波面画像生成部１３１は、生成した波面画像を変換部１３２に供給する。変換部１３２は、例えば、波面画像を繋ぎ合わせることにより波面映像を生成する。そして、変換部１３２は、生成した波面画像を視覚情報提示部１４に供給する。

【0064】

視覚情報提示部１４により波面映像が受聴者Ｌに提示される。例えば、視覚情報の一例である波面映像が床及び天井の少なくとも一方にプロジェクション表示される。なお、波面映像、より具体的には、音圧分布に対応してなされる提示は、着色、色の濃淡、これらの組合わせ、振動の強弱等、適宜な方法を採用することができる。

【0065】

以上の第２の実施の形態によれば、音の波を可視化することができる。また、受聴者が、音の再生空間に居る実在感、臨場感を向上させることができる。

【0066】

［第２の実施の形態の変形例］
第２の実施の形態の変形例について説明する。上述したように、音源データに基づいて各時刻における波面画像を生成することができる。生成された波面画像を連続的に再生することにより、波面映像を生成することができる。しかしながら、波面画像を連続的に再生したのみの波面映像は、受聴者にとって認識しづらくなる映像となる虞がある。この理由は、音の波面が空気中を伝わる速度はおおよそ340 [m/s]であり、人間が視覚的に波面を認識するには速すぎるからである。

【0067】

そこで、一例として、以下に説明する処理が行われても良い。始めに、図９に模式的に示すように、各音源の音データをフレーム分割する。各フレームの長さは、適宜な値とすることができるが、本例では、200ｍｓに設定している。フレームの長さをT[s]とする。

【0068】

図１０は、連続する波面画像の一例を示す図である。また、図１０は、フレーム単位の波面映像の一例を示す図である。図１０に示すように、フレーム単位で波面映像が生成される。なお、図１０では図示が煩雑になることを防止するために、フレーム単位で生成される波面映像が１個の波面画像で示されているが、フレーム単位で生成される波面映像は、複数（例えば、10枚）の波面画像により構成される。

【0069】

フレーム単位の波面映像を生成する方法の一例について説明する。図１１に示すように、１フレーム内に、例えば1024サンプルの音データが含まれる例を考える。１サンプルの音データに対応する波面画像を生成することが可能であることから、本例では、1024枚の波面画像が生成される。１フレーム内の映像を、再生時に受聴者Ｌが認識しやすい程度の逓倍率でもって逓倍した映像が生成される。例えば、1024枚の波面画像のうち、最初の10枚の波面画像を使用し（逓倍率、約1/100倍（10／1024倍））、当該10枚の波面画像により１フレーム単位の波面映像を構成する。１フレーム単位の波面映像が再生される。実際には1024枚ある波面画像のうち10枚の波面画像を再生していることからスロー再生がなされている。なお、逓倍率は、適宜な値とすることができる。１フレーム単位の波面映像の長さを、2T[s]とする。

【0070】

更に、受聴者Ｌに知覚し易く、且つ、滑らかに繋がった波面映像とするために、本実施の形態では、フェード処理を行う。図１２に示すように、nフレームにおける波面映像に重み付け係数w(t)を乗じ、(n＋1)フレームにおける波面映像に重み付け係数v(t)を乗じ、それぞれを加算することにより合成映像を生成する。生成された合成映像が視覚情報として受聴者Ｌに提示される。

【0071】

合成映像を生成する処理についてより具体的に説明する。例えば、q番目のフレームの映像をVq(t)(0≦t<2T)とする。この時、合成映像を

として再生する。
上述した合成映像を視覚情報として受聴者Ｌに提示することにより、受聴者Ｌが認識しやすいように波面映像を提示することができる。

【0072】

＜第３の実施の形態＞
次に、第３の実施の形態について説明する。なお、第１、第２の実施の形態で説明した事項は、特に断らない限り第３の実施の形態に適用することができる。また、第１、第２の実施の形態で説明した構成と同一又は同質の構成については、重複した説明を適宜、省略する。

【0073】

［情報処理装置の構成例］
図１３は、第３の実施の形態に係る情報処理装置（情報処理装置１Ｂ）の構成例を示すブロック図である。情報処理装置１Ｂは、入力部１１、スピーカ信号計算部１２、視覚情報提示部１４、スピーカアレイＳＰＡの他に、視覚効果計算部１３Ｂを有している。情報処理装置１Ｂでは、スピーカ信号計算部１２により計算されたスピーカ信号が視覚効果計算部１３Ｂに入力されるように構成されている。

【0074】

入力部１１、スピーカ信号計算部１２、視覚情報提示部１４及びスピーカアレイＳＰＡについては、第１の実施の形態で説明してあるため重複した説明を省略する。

【0075】

視覚効果計算部１３Ｂは、波面画像生成部１３５及び変換部１３６を有している。第３の実施の形態では、波面画像生成部１３５の機能が波面画像生成部１３１の機能と異なっている。第３の実施の形態では、入力部１１にメタデータが入力されない場合、即ち音データのみが入力される場合を想定している。メタデータが得られない状況としては、波面合成システムがそもそもメタデータを使用しない場合（マイクロホンアレイの信号を直接スピーカ信号に変換する場合など）や、波面合成システムがブラックボックス化されており外部から当該メタデータにアクセスすることができない場合が考えられる。

【0076】

波面画像生成部１３５は、スピーカ信号計算部１２により計算されたスピーカ信号に基づいて波面画像を生成する。当該生成処理の一例について説明する。

【0077】

各スピーカの駆動信号を、x_n(t)として、その駆動信号を周波数のしきい値f_thrで帯域制限した信号を

とする。

【0078】

空間内の音圧分布P(r,t)は、以下の数式２により計算することができる。

【0079】

【数2】

【0080】

数式２により、各時刻の各スピーカＳＰに対する駆動信号に基づいて、各時刻の音圧分布を示す波面画像を得ることができる。

【0081】

図１４は、スピーカＳＰの駆動信号から生成した空間内の音圧分布をカラーマップ表示した波面画像の一例を示している。図示の例では、仮想音源の位置が[0、-0.2、0]mであり、音源信号は1000Hzの正弦波である。スピーカＳＰの数は16個であり、スピーカＳＰの素子間隔は0.2mである。仮想音像の位置に近いほど、色が濃くなっている。

【0082】

他の構成の動作は、第２の実施の形態における情報処理装置１Ａと同様である。概略的に説明すれば、波面画像生成部１３１が生成した波面画像に基づいて、変換部１３６が波面映像を生成する。視覚情報提示部１４が波面映像を提示する処理を行う。

【0083】

なお、第２の実施の形態で説明した図８と図１４とは、仮想音源の位置及び音源信号が同一であるのにも関わらず、生成される波面画像がやや異なっている。具体的には、図１４では、湾曲した弓状に、波面が正しく再現されていない箇所が生じている。スピーカ信号から波面画像を生成する場合、スピーカ信号計算部１２の計算誤差やスピーカＳＰの数（素子数）等により正しく波面を生成できる領域が変化する。図１４に示す例では、スピーカアレイＳＰＡの中央前方の領域（座標[0、-1.0、0]m付近）であれば正しい波面が生成されるが、所定のスピーカＳＰに近い領域（例えば座標 [-1.5、-0.25、0]m付近）では正しい波面が生成されない。

【0084】

このような場合は、周辺の音圧分布を参照して、正しく再現されていない箇所の音圧を補間する補正処理がなされても良い。補正処理として、他の公知の処理が適用されても良い。視覚効果計算部１３Ａ、１３Ｂが、係る補正処理を行う補正処理部を有する構成でも良い。

【0085】

また、波面合成システムの用途に応じて、補正処理を行うか否かが選択できるようにしても良い。例えば、波面合成システムによる音圧分布の概略をシステムの利用者が確認したい場合には、それほど正確な音圧分布が再現される必要は無い。従って、補正処理が行われないようにしても良い。一方で、受聴者Ｌに音圧分布を視覚的に提示するエンタテインメント的に波面合成システムが利用される場合には、正確な音圧分布が再現されることが好ましい。このような場合は、補正処理が行われる。

【0086】

以上説明した第３の実施の形態によれば、スピーカＳＰの駆動信号しか得られない場合であっても当該スピーカＳＰの駆動信号に基づいて、波面画像を生成することができる。そして、波面画像に基づく波面映像を提示することが可能となる。例えば、球場等において音を多チャンネルのマイクロホン等を使用して集音し、音データを得る。得られた音データに基づいて、スピーカ信号計算部１２がスピーカ信号を計算する。スピーカ信号に基づく波面映像を提示することで、球場等における音圧分布がどのような分布であるのかを提示することも可能となる。この場合の音圧分布は、ネットワークを介して伝送され、球場とは遠隔された場所に配置されるディスプレイに表示されても良いし、放映中の野球中継等に重畳されて表示されても良い。

【0087】

＜変形例＞
以上、本開示の複数の実施の形態について具体的に説明したが、本開示の内容は上述した実施の形態に限定されるものではなく、本開示の技術的思想に基づく各種の変形が可能である。以下、変形例について説明する。

【0088】

上述した第２、第３の実施の形態において、第１の実施の形態と同様の処理、即ち、仮想音像の位置情報に基づく視覚情報が提示されるようにしても良い。

【0089】

上述した実施の形態において、音源データに含まれるメタデータに他の情報が記述されても良い。例えば、音データが平面波の場合に、メタデータに平面波の方向が記述されても良い。

【0090】

上述した実施の形態における処理で得られた視覚情報は、記憶されても良いし、それ自体がネットワーク等を介して伝送されても良い。例えば、ライブ映像と共に視覚情報が記録メディアに記録され、ライブ映像の再生と共に視覚情報が提示されるようにしても良い。

【0091】

本開示は、装置、方法、プログラム、システム等により実現することもできる。例えば、上述した実施の形態で説明した機能を行うプログラムをダウンロード可能とし、実施の形態で説明した機能を有しない装置が当該プログラムをダウンロードしてインストールすることにより、当該装置において実施の形態で説明した制御を行うことが可能となる。本開示は、このようなプログラムを配布するサーバにより実現することも可能である。また、各実施の形態、変形例で説明した事項は、適宜組み合わせることが可能である。また、本明細書で例示された効果により本開示の内容が限定して解釈されるものではない。

【0092】

本開示は、以下の構成も採ることができる。
（１）
複数のスピーカから構成され、前記複数のスピーカの出力により波面合成するスピーカアレイと、
前記波面合成で形成される波面の波の様子の視覚情報を提示する、又は、前記波面合成で前記スピーカアレイの近傍以外に形成される仮想音像の位置情報に基づく視覚情報を提示する提示部と
を有する情報処理装置。
（２）
前記波面合成で形成される波面の波の様子の視覚情報は、波面の波の映像である
（１）に記載の情報処理装置。
（３）
前記波面の波の映像は、音源に含まれるメタデータに基づいて生成された、複数の波面の波の画像により生成される
（２）に記載の情報処理装置。
（４）
前記波面の波の映像は、音源に含まれる音データに基づいて生成された、複数の波面の波の画像により生成される
（２）に記載の情報処理装置。
（５）
前記波面の波の画像に対して補正処理を行う補正処理部を有する
（４）に記載の情報処理装置。
（６）
前記波面の波の映像は、所定のフレーム単位で生成された波面の波の映像を繋ぎ合わせることにより生成される
（２）から（５）までの何れかに記載の情報処理装置。
（７）
前記フレーム単位で生成された波面の波の映像は、当該フレーム単位で生成された複数の波面の波の画像をスロー再生することにより生成される
（６）に記載の情報処理装置。
（８）
前記波面の波の映像は、所定のフレーム単位で生成された波面の波の映像を重み付け加算した映像を繋ぎ合わせることにより生成される
（６）又は（７）に記載の情報処理装置。
（９）
前記仮想音像の位置情報は、当該仮想音像の位置若しくは当該仮想音像と前記スピーカアレイとの距離であり、
前記提示部は、前記仮想音像の位置に対応する視覚情報若しくは前記仮想音像と前記スピーカアレイとの距離に応じた視覚情報を提示する
（１）から（９）までの何れかに記載の情報処理装置。
（１０）
前記提示部は、前記スピーカアレイの音の放射方向に対して、上方、下方及び空間における少なくとも１つの所定位置に、前記視覚情報を提示する
（９）に記載の情報処理装置。
（１１）
前記提示部は、プロジェクション表示又は所定の発光素子を発光させることにより前記視覚情報を提示する
（９）に記載の情報処理装置。
（１２）
前記音源が入力される入力部を有する
（１）から（１１）までの何れかに記載の情報処理装置。
（１３）
複数のスピーカから構成されるスピーカアレイが、当該複数のスピーカの出力により波面合成を行い、
提示部が、前記波面合成で形成される波面の波の様子の視覚情報を提示する、又は、前記波面合成で前記スピーカアレイの近傍以外に形成される仮想音像の位置情報に基づく視覚情報を提示する
情報処理方法。
（１４）
複数のスピーカから構成されるスピーカアレイが、当該複数のスピーカの出力により波面合成を行い、
提示部が、前記波面合成で形成される波面の波の様子の視覚情報を提示する、又は、前記波面合成で前記スピーカアレイの近傍以外に形成される仮想音像の位置情報に基づく視覚情報を提示する
情報処理方法をコンピュータに実行させるプログラム。

【符号の説明】

【0093】

１，１Ａ，１Ｂ・・・情報処理装置、１１・・・入力部、１２・・・スピーカ信号計算部、１３，１３Ａ，１３Ｂ・・・視覚効果計算部、１４・・・視覚情報提示部、１３１，１３５・・・波面画像生成部、１３２，１３６・・・変換部、ＳＰ・・・スピーカ、ＳＰＡ・・・スピーカアレイ

【図1】