IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧

特許7567776音響処理装置、音響処理方法、および音響処理プログラム
<>
  • 特許-音響処理装置、音響処理方法、および音響処理プログラム 図1
  • 特許-音響処理装置、音響処理方法、および音響処理プログラム 図2
  • 特許-音響処理装置、音響処理方法、および音響処理プログラム 図3
  • 特許-音響処理装置、音響処理方法、および音響処理プログラム 図4
  • 特許-音響処理装置、音響処理方法、および音響処理プログラム 図5
  • 特許-音響処理装置、音響処理方法、および音響処理プログラム 図6
  • 特許-音響処理装置、音響処理方法、および音響処理プログラム 図7
  • 特許-音響処理装置、音響処理方法、および音響処理プログラム 図8
  • 特許-音響処理装置、音響処理方法、および音響処理プログラム 図9
  • 特許-音響処理装置、音響処理方法、および音響処理プログラム 図10
  • 特許-音響処理装置、音響処理方法、および音響処理プログラム 図11
  • 特許-音響処理装置、音響処理方法、および音響処理プログラム 図12
  • 特許-音響処理装置、音響処理方法、および音響処理プログラム 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-07
(45)【発行日】2024-10-16
(54)【発明の名称】音響処理装置、音響処理方法、および音響処理プログラム
(51)【国際特許分類】
   H04S 7/00 20060101AFI20241008BHJP
【FI】
H04S7/00 300
H04S7/00 340
【請求項の数】 18
(21)【出願番号】P 2021507164
(86)(22)【出願日】2020-03-03
(86)【国際出願番号】 JP2020008997
(87)【国際公開番号】W WO2020189263
(87)【国際公開日】2020-09-24
【審査請求日】2023-02-20
(31)【優先権主張番号】P 2019051931
(32)【優先日】2019-03-19
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】中川 亨
(72)【発明者】
【氏名】沖本 越
【審査官】川▲崎▼ 博章
(56)【参考文献】
【文献】米国特許第09396588(US,B1)
【文献】国際公開第2018/110269(WO,A1)
【文献】特開2017-175458(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04S 7/00
(57)【特許請求の範囲】
【請求項1】
音響コンテンツを聴くユーザに見られる場所に関する場所情報を取得する取得部と、
前記場所における音響に関する音響情報を記憶する記憶部と、
前記音響情報に基づいて前記音響コンテンツの音響特性を前記場所に応じた音響特性に変換して音場再生させる処理部と
を有し、
前記取得部は、
前記ユーザによって撮像された居場所の画像を取得し、
前記処理部は、
前記居場所の画像から前記居場所の音響特性を予測し、前記音響コンテンツの音響特性を予測した音響特性に変換して音場再生させる
音響処理装置。
【請求項2】
前記記憶部は、
前記場所の仮想現実全天球映像を記憶し、
前記処理部は、
前記音響コンテンツの音場再生中に前記仮想現実全天球映像をユーザに視認させる
請求項1に記載の音響処理装置。
【請求項3】
前記記憶部は、
前記場所において前記音響コンテンツに対応する映像コンテンツが表示されるスクリーンと、前記スクリーンの周囲環境の画像とを含む前記仮想現実全天球映像を記憶し、
前記処理部は、
前記仮想現実全天球映像中の前記スクリーンに前記映像コンテンツを表示させる
請求項2に記載の音響処理装置。
【請求項4】
前記記憶部は、
前記場所において前記音響コンテンツに対応する映像コンテンツが表示される4面のスクリーンを含む前記仮想現実全天球映像を記憶し、
前記処理部は、
前記仮想現実全天球映像中の前記4面のスクリーンのうちの1面のスクリーンに前記映像コンテンツを表示させ、他の3面のスクリーンに前記場所の周囲環境の画像を表示させる
請求項2に記載の音響処理装置。
【請求項5】
前記処理部は、
前記居場所の画像から予測する前記居場所の空間の広さに基づいて前記空間の音響特性を予測する
請求項に記載の音響処理装置。
【請求項6】
前記処理部は、
前記空間における残響特性および反響特性を予測する
請求項に記載の音響処理装置。
【請求項7】
前記処理部は、
前記居場所の画像から予測する前記居場所の空間の広さに応じて配置する前記音響コンテンツの出音位置の数および出音特性を変更する
請求項に記載の音響処理装置。
【請求項8】
前記処理部は、
前記ユーザによって前記居場所の画像から前記ユーザの視野中心を含む所定領域が選択される場合、前記所定領域を囲むように前記音響コンテンツの出音位置を配置する
請求項に記載の音響処理装置。
【請求項9】
音響コンテンツを聴くユーザに見られる場所に関する場所情報を取得する取得部と、
前記場所における音響に関する音響情報を記憶する記憶部と、
前記音響情報に基づいて前記音響コンテンツの音響特性を前記場所に応じた音響特性に変換して音場再生させる処理部と
を有し、
前記取得部は、
前記ユーザによって過去に撮像された画像から選択された画像または通信ネットワークを介して前記ユーザによって閲覧された画像を取得し、
前記処理部は、
前記画像に写る場所の音響特性を予測し、前記音響コンテンツの音響特性を予測した音響特性に変換して音場再生させる
響処理装置。
【請求項10】
音響コンテンツを聴くユーザに見られる場所に関する場所情報を取得する取得部と、
前記場所における音響に関する音響情報を記憶する記憶部と、
前記音響情報に基づいて前記音響コンテンツの音響特性を前記場所に応じた音響特性に変換して音場再生させる処理部と
を有し、
前記取得部は、
GPS(Global Positioning System)によって測位される前記ユーザの位置情報を取得し、
前記処理部は、
前記ユーザの位置情報から前記ユーザの居場所を予測し、前記音響コンテンツの音響特性を予測した居場所の音響特性に変換して音場再生させる
響処理装置。
【請求項11】
前記音響コンテンツのクリエータへ前記音響コンテンツと、前記音響コンテンツが音場再生される場所の前記仮想現実全天球映像および前記音響情報とを提供する提供部
をさらに備え、
前記取得部は、
前記クリエータによって変更された前記音響情報を取得し、
前記記憶部は、
前記クリエータへ提供された前記音響コンテンツおよび前記音響コンテンツが音場再生される場所の前記仮想現実全天球映像と、前記クリエータによって変更された前記音響情報とを対応付けて記憶する
請求項2に記載の音響処理装置。
【請求項12】
前記記憶部は、
前記場所において測定された音響に基づいて生成された前記音響情報を記憶する
請求項1に記載の音響処理装置。
【請求項13】
前記記憶部は、
前記ユーザの頭部伝達関数を記憶し、
前記処理部は、
前記ユーザ毎に、前記ユーザの頭部伝達関数を適用して前記音響コンテンツの音響特性を変換する
請求項1に記載の音響処理装置。
【請求項14】
前記記憶部は、
前記ユーザに装着されたイヤマイクロホンによって録音された音響に基づいて導出された前記頭部伝達関数を記憶する
請求項13に記載の音響処理装置。
【請求項15】
前記記憶部は、
前記ユーザに装着されたイヤマイクロホンによって録音され、音波特性が前記ユーザに依存する時間の音響と、人形に装着されたイヤマイクロホンによって録音され、音波特性が前記場所に依存する時間の音響とに基づいて導出された前記頭部伝達関数を記憶する
請求項13に記載の音響処理装置。
【請求項16】
前記記憶部は、
前記ユーザの耳の画像に基づいて導出される前記頭部伝達関数を記憶する
請求項13に記載の音響処理装置。
【請求項17】
コンピュータが実行する音響処理方法であって、
音響コンテンツを聴くユーザに見られる場所に関する場所情報を取得する取得工程と、
前記場所における音響に関する音響情報を記憶する記憶工程と、
前記音響情報に基づいて前記音響コンテンツの音響特性を前記場所に応じた音響特性に変換して音場再生させる処理工程と
を含み、
前記取得工程は、
前記ユーザによって撮像された居場所の画像を取得し、
前記処理工程は、
前記居場所の画像から前記居場所の音響特性を予測し、前記音響コンテンツの音響特性を予測した音響特性に変換して音場再生させる
ことを含む音響処理方法。
【請求項18】
音響コンテンツを聴くユーザに見られる場所に関する場所情報を取得する取得手順と、
前記場所における音響に関する音響情報を記憶する記憶手順と、
前記音響情報に基づいて前記音響コンテンツの音響特性を前記場所に応じた音響特性に変換して音場再生させる処理手順と
をコンピュータに実行させ
前記取得手順は、
前記ユーザによって撮像された居場所の画像を取得し、
前記処理手順は、
前記居場所の画像から前記居場所の音響特性を予測し、前記音響コンテンツの音響特性を予測した音響特性に変換して音場再生させる
音響処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音響処理装置、音響処理方法、および音響処理プログラムに関する。
【背景技術】
【0002】
複数のマイクロホンで集音した音場の信号から波面合成法を用いて生成する駆動信号によってスピーカを駆動し、仮想的に集音場所の音場を再現する音場集音生成装置がある(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2015-171111号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、音場を再現するだけでは、音響の聞き手に十分な臨場感を与えることができない場合がある。そこで、本開示では、音響の聞き手に与える臨場感を高めることができる音響処理装置、音響処理方法、および音響処理プログラムを提案する。
【課題を解決するための手段】
【0005】
本開示に係る音響処理装置は、取得部と、記憶部と、処理部とを有する。取得部は、音響コンテンツを聴くユーザに見られる場所に関する場所情報を取得する。記憶部は、前記場所における音響に関する音響情報を記憶する。処理部は、前記音響情報に基づいて前記音響コンテンツの音響特性を前記場所に応じた音響特性に変換して音場再生させる。
【図面の簡単な説明】
【0006】
図1】本開示に係る音響処理装置による音響処理の概要を示す説明図である。
図2】本開示に係る音響処理装置の構成の一例を示すブロック図である。
図3】本開示に係るVR全天球映像の作成方法の説明図である。
図4】本開示に係る音響情報の一例を示す説明図である。
図5】本開示に係るHRTFの計測方法の説明図である。
図6】本開示に係るHRTFの計測方法の説明図である。
図7】本開示に係る音響処理装置の動作例の説明図である。
図8】本開示に係る音響処理装置の動作例の説明図である。
図9】本開示に係る音響処理装置の動作例の説明図である。
図10】本開示に係る音響処理装置の動作例の説明図である。
図11】本開示に係る音響処理装置の制御部が実行する処理の一例を示すフローチャートである。
図12】本開示に係る音響処理装置の制御部が実行する処理の一例を示すフローチャートである。
図13】本開示に係る音響処理装置の制御部が実行する処理の一例を示すフローチャートである。
【発明を実施するための形態】
【0007】
以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
【0008】
(1.音響処理の概要)
図1は、本開示に係る音響処理装置1による音響処理の概要を示す説明図である。音響処理装置1は、例えば、映画、音楽ライブ、楽曲のプロモーションビデオ、テレビ番組、および楽曲等の音響コンテンツの音響特性を録音場所の音響特性に変換することによって録音場所の音場を再現した状態で音場再生させる装置である。
【0009】
ここで、音響処理装置1は、録音場所の音場を再現するだけでは、音響コンテンツの聞き手に十分な臨場感を与えることができない場合がある。具体的には、音響処理装置1は、音響コンテンツの音響特性が測定された測定場所と、音響コンテンツの再生場所とが一致している場合には、聞き手にまるでその場にいるかのような臨場感を与えることができるが、そうでない場合には臨場感が半減する。
【0010】
例えば、音響処理装置1は、自宅で映画を視聴するユーザへ映画館の残響特性や反響特性等を再現した音響特性に変換した映画の音響コンテンツを提供しても、ユーザの居場所が自宅であるため、映画館にいるかのような感覚をユーザに与えることは困難である。
【0011】
そこで、音響処理装置1は、例えば、仮想現実(以下、VR:Virtual Realityと記載する)等の技術を利用して、音響コンテンツの音響情報が測定された測定場所を再現した上で、測定場所の音響特性を再現した音響コンテンツを音場再生させる。
【0012】
例えば、図1に示すように、音響処理装置1は、予め映画の映像コンテンツD1と、映画の音響コンテンツD2と、映画館の音響情報D3とに加えて、映画館内のVR全天球映像D4を記憶する(ステップS01)。映画館の音響情報D3には、映画館内の音響特性に関する種々のパラメータが含まれる。
【0013】
そして、音響処理装置1は、例えば、ユーザUが携帯するスマートフォン等のユーザ端末11から映画のコンテンツの提供要求を取得した場合に、ユーザUのユーザ端末11へ映画の映像コンテンツD1と、映画の音響コンテンツD2とを送信して提供する。
【0014】
このとき、音響処理装置1は、映画館の音響情報D3に基づいて、映画の音響コンテンツD2の音響特性を映画館の音響特性に変換し、さらに、映画館内のVR全天球映像D4と共にユーザ端末11へ提供する(ステップS02)。
【0015】
映画館のVR全天球映像D4には、映画館に設置されたスクリーンの画像と、観客席や映画館の壁および天井等が含まれるスクリーンの周囲環境の画像とが含まれている。音響処理装置1は、映画の映像コンテンツD1に対して、映画館内のVR全天球映像D4におけるスクリーンの位置を映画の映像コンテンツD1の表示位置とすることを示す情報を付加してユーザ端末11へ提供する。
【0016】
これにより、音響処理装置1は、例えば、ユーザUが装着するヘッドマウントディスプレイ12に映画館内のVR全天球映像D4を表示させ、VR全天球映像D4内のスクリーンに映画の映像コンテンツD1を表示させることができる(ステップS03)。
【0017】
同時に、音響処理装置1は、例えば、ユーザUが装着するイヤホン13によって、音響特性を映画館内の音響特性に変換した映像コンテンツD1の音響コンテンツD2を音場再生することができる(ステップS04)。
【0018】
このように、音響処理装置1は、スクリーンに映し出される映画の映像コンテンツD1だけではなく、映画館の客席や壁および天井等といったスクリーンの周囲環境までユーザUに視認させながら、音響コンテンツD2をユーザUに聞かせることができる。
【0019】
これにより、音響処理装置1は、例えば、自宅で映画の映像コンテンツを視聴するユーザUに対して、まるで映画館で映画を見ているかのような臨場感を与えることができる。ここでは、映画館内のVR全天球映像D4をヘッドマウントディスプレイ12に表示させたが、音響処理装置1は、映画館内のVR全天球映像D4に代えて、映画館内を再現した3DCG(Dimensional Computer Graphics)映像を表示させてもよい。なお、図1を参照して説明した音響処理装置1の動作は一例である。音響処理装置1の他の動作例については、図7図10を参照して後述する。
【0020】
(2.音響処理装置の構成)
次に、図2を参照し、音響処理装置1の構成の一例について説明する。図2は、本開示に係る音響処理装置1の構成の一例を示すブロック図である。図2に示すように、音響処理装置1は、通信部2と、記憶部3と、制御部4とを備える。
【0021】
通信部2は、例えば、NIC(Network Interface Card)等によって実現される。通信部2は、例えば、インターネット等の通信ネットワークNを介して有線又は無線によって、ユーザ端末11、音響情報作成装置100、およびクリエータ端末101と情報通信可能に接続される。
【0022】
音響情報作成装置100は、後述する音響情報34を作成する装置である。また、クリエータ端末101は、音響処理装置1によってユーザUに提供される音響コンテンツ32を作成するクリエータが使用する端末装置である。
【0023】
記憶部3は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。かかる記憶部3は、映像コンテンツ31、音響コンテンツ32、VR映像情報33、および音響情報34等を記憶する。
【0024】
映像コンテンツ31は、映画、音楽ライブ、楽曲のプロモーションビデオ、およびテレビ番組等の複数の映像データであり、音響処理装置1によってユーザ端末11へ提供されるコンテンツデータである。
【0025】
音響コンテンツ32は、映画、音楽ライブ、楽曲のプロモーションビデオ、テレビ番組、および楽曲等の複数の音声データであり、音響処理装置1によってユーザ端末11へ提供されるコンテンツデータである。
【0026】
VR映像情報33は、種々の場所で撮像された複数のVR全天球映像を含む。ここで、図3を参照し、VR全天球映像の作成方法の一例について説明する。図3は、本開示に係るVR全天球映像の作成方法の説明図である。
【0027】
図3に示すように、VR全天球映像を作成する場合には、音響コンテンツ32が再生される各場所に、360°カメラ102を設置し、360°カメラ102によって、その場所の前後上下左右全方位の画像を撮像することによって、VR全天球映像Vrを撮像する。
【0028】
これにより、例えば、映画館に360°カメラ102を設置して撮像を行うことにより、図1に示した映画館のスクリーンと、映画館の客席や壁および天井等といったスクリーンの周囲環境の画像とを含むVR全天球映像Vrを作成することができる。
【0029】
なお、図1に示す例では、1面のスクリーンが設置される映画館を例に挙げたが、本開示では、正面、左右両側面、および底面の4面スクリーンがある映画館のVR全天球映像Vrを作成することもできる。
【0030】
かかる場合、音響処理装置1は、4面のスクリーンのうち、正面の1面のスクリーンに映像コンテンツ31を表示させ、他の3面のスクリーンに映画館の周囲環境を表示させる。これによっても、音響処理装置1は、ユーザに与える臨場感を向上させることができる。
【0031】
図2へ戻り、音響情報34について説明する。音響情報34は、音響コンテンツ32が音場再生される各場所における音響に関する複数の情報を含む。ここで、図4を参照し、音響情報34の一例について説明する。図4は、本開示に係る音響情報34の一例を示す説明図である。
【0032】
図4に示すように、音響情報34は、音響処理装置1によって映像コンテンツ31や音響コンテンツ32を提供するユーザ毎に設けられる。音響情報34は、ユーザIDと、ユーザの頭部伝達関数(以下、HRTF:Head Related Transfer Functionと記載する)と、場所と、VR映像と、音響パラメータとが対応付けられた情報である。
【0033】
ユーザIDは、各ユーザを識別するための識別情報である。HRTFは、音源からユーザの耳への音の届き方を数学的に表した各ユーザ固有の関数情報である。ここで、図5および図6を参照し、HRTFの計測方法について説明する。
【0034】
図5および図6は、本開示に係るHRTFの計測方法の説明図である。例えば、図1を参照して説明した映画館の音響情報D3に含まれるHRTFを計測する場合、図5に示すように、ユーザUに映画館Mtの客席でイヤマイクロホン14を装着してもらい、映画館のスピーカSPから試験信号Tsを出音させる。
【0035】
そして、音響情報作成装置100は、ユーザUの左耳に装着されたイヤマイクロホン14によって集音された音声信号SLと、ユーザUの右耳に装着されたイヤマイクロホン14によって集音された音声信号SRとを取得する。
【0036】
そして、音響情報作成装置100は、取得した2つの音声信号SL,SRの時間的なズレ、信号レベル(強度)のズレ、響きの違い等に基づいて、ユーザUのHRTFを導出する。このように、音響情報作成装置100は、ユーザUによって聞かれる試験信号Tsを実測することによって、ユーザUの正確なHRTFを導出することができる。
【0037】
なお、HRTFは、ユーザUが試験信号Tsを聴く場所(環境)によって異なる。このため、例えば、ユーザが音響コンテンツ32を聴きながら見たい場所の映像が複数ある場合には、ユーザに各場所に来てもらい、HRTFを計測して導出する必要があり、かかる作業はユーザにとって負担となる。
【0038】
このため、音響情報作成装置100は、ユーザUの負担を軽減しつつ、複数の場所でのユーザUのHRTFを導出することもできる。例えば、図6に示すように、ユーザUの耳に装着されたイヤマイクロホン14によって集音される音声信号は、始めの所定時間部分に音波特性がユーザUに依存する時間があり、それ以降に音波特性が場所に依存する時間がある。
【0039】
このため、音響情報作成装置100は、例えば、1箇所の場所へユーザUに来てもらい、イヤマイクロホン14によって試験信号Tsを集音し、ユーザUに依存する時間の部分の音声信号波形を取得する。その後、音響情報作成装置100は、イヤマイクロホン14を装着させたダミー人形DMをユーザUが望む複数の場所に設置して、音波特性が場所に依存する時間の部分の音声信号波形を取得する。
【0040】
そして、音響情報作成装置100は、ユーザUに依存する時間の部分の音声信号波形と、複数の場所でダミー人形を使用して取得した場所に依存する時間の部分の音声信号波形とを合成し、合成信号に基づいて、各場所におけるユーザUのHRTFを導出する。
【0041】
これにより、音響情報作成装置100は、実測する場合に比べて精度が若干下がるが、ユーザUの負担を軽減しつつ、ユーザUが望む複数の場所におけるユーザUのHRTFを導出することができる。
【0042】
また、音響情報作成装置100は、例えば、ユーザUに自身の耳の写真を撮像して画像データを送信してもらい、耳の画像データに基づいてユーザUのHRTFを推定して導出することもできる。かかる場合、音響情報作成装置100は、耳の映像を含む画像データが入力された場合に、その耳に対応するHRTFを出力するように機械学習された学習モデルを使用して、ユーザUのHRTFを導出する。
【0043】
これにより、音響情報作成装置100は、ユーザUにHRTFを測定する場所へ来てもらわなくても、ユーザのHRTFを推定して導出することができるので、HRTFの計測に要するユーザUの負担をさらに軽減することができる。
【0044】
図3へ戻り、音響情報34の説明を続ける。音響情報34に含まれる場所は、事前に登録されたユーザUが音響コンテンツ32を聴きながら見たい場所を識別するための識別情報である。VR映像は、音響情報34に含まれる場所に対応するVR全天球映像を識別するための識別情報である。
【0045】
音響パラメータは、各場所における複数の出音位置毎に、残響時間等の残響特性や、音波の反射係数等の反響特性を示す数値が対応付けられる。音響情報作成装置100は、各場所で実際の音響を測定し、収集した音響に基づいて音響パラメータを導出する。これにより、音響情報作成装置100は、実際の場所に即した正確な音響パラメータを導出することができる。なお、図4では、各項目のデータを「A01」や「B01」のように概念的に記載しているが、実際には、各項目のデータには、各項目に対応した具体的なデータが記憶される。
【0046】
音響情報作成装置100は、作成した音響情報34を音響処理装置1へ送信する。音響処理装置1は、音響情報作成装置100から受信する音響情報34を記憶部3に記憶させる。なお、ここでは、音響情報作成装置100が音響情報34を作成する場合について説明したが、音響処理装置1が音響情報作成装置100と同様の機能および構成を備え、自装置によって音響情報34を作成して記憶部3に記憶させる構成であってもよい。
【0047】
図2へ戻り、制御部4について説明する。制御部4は、例えば、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)、入出力ポートなどを有するマイクロコンピュータや各種の回路を含む。
【0048】
制御部4は、CPUがROMに記憶された各種プログラム(実施形態に係る音響処理プログラムの一例に相当)を、RAMを作業領域として使用して実行することにより機能する取得部41と、処理部42、と提供部43とを備える。
【0049】
なお、制御部4が備える取得部41、処理部42、提供部43は、それぞれ一部または全部がASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等のハードウェアで構成されてもよい。
【0050】
取得部41、処理部42、提供部43は、それぞれ以下に説明する情報処理の作用を実現または実行する。なお、制御部4の内部構成は、図2に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
【0051】
取得部41は、例えば、ユーザUから映像コンテンツ31および音響コンテンツ32の提供要求を取得する。また、取得部41は、ユーザUから映像コンテンツ31および音響コンテンツ32の提供要求を取得した場合に、音響コンテンツ32を聴くユーザによって見られる場所に関する情報をユーザ端末11から取得する。
【0052】
例えば、取得部41は、ユーザ端末11から映画の映像コンテンツD1および映画の音響コンテンツD2の提供要求を取得し、ユーザ端末11から場所情報として映画館を示す情報を取得した場合、ユーザ端末11から取得した情報を処理部42へ出力する。
【0053】
処理部42は、ユーザ端末11から取得された情報が取得部41から入力された場合に、音響情報34に基づいて、音響コンテンツ32の音響特性をユーザ端末11から取得された場所情報に対応する場所に応じた音響特性に変換して提供部43へ出力する。
【0054】
このとき、処理部42は、ユーザU毎に、ユーザUのHRTFを適用して、音響コンテンツ32の音響特性を変換する。これにより、処理部42は、ユーザUにとって最適な音響特性となるように、音響コンテンツ32の音響特性を変換することができる。処理部42は、音響特性変換後の音響コンテンツ32と合わせて、ユーザ端末11から取得された情報を提供部43へ出力する。
【0055】
提供部43は、処理部42から入力される音響コンテンツ32と、場所情報に対応する場所のVR全天球映像と、ユーザによって提供要求された映像コンテンツ31とをユーザ端末11へ送信する。
【0056】
これにより、音響処理装置1は、例えば、図1に示したように、スクリーンに映し出される映画の映像コンテンツD1だけではなく、映画館の客席や壁および天井等といったスクリーンの周囲環境までユーザUに視認させることができる。
【0057】
そして、音響処理装置1は、同時に、映画館の音響特性に変換した映画の音響コンテンツD2をユーザに聴かせることができる。したがって、音響処理装置1は、例えば、自宅で映画の映像コンテンツを視聴するユーザUに対して、まるで映画館で映画を見ているかのような臨場感を与えることができる。
【0058】
なお、ここまでは、取得部41がユーザ端末11から映像コンテンツ31および音響コンテンツ32の提供要求を取得する場合について説明したが、取得部41は、ユーザ端末11から音響コンテンツ32の提供要求と合わせて、ユーザUの居場所の画像を取得する場合がある。
【0059】
かかる場合、処理部42は、ユーザUの居場所に応じて音響コンテンツ32の音響特性を変換し、変換後の音響コンテンツ32を提供部43によってユーザ端末11へ送信し、ユーザ端末11によって音場再生させる。かかる音響処理装置1の動作例については、図7および図8を参照して後述する。
【0060】
また、取得部41は、音響コンテンツ32を作成したクリエータから音響コンテンツ32の音響情報34、および音響コンテンツ32が音場再生される場所のVR全天球映像の提供要求を取得する場合がある。かかる場合の音響処理装置1の動作例については、図10を参照して後述する。
【0061】
(3.音響処理装置の動作例)
次に、図7図10を参照し、音響処理装置1の動作例について説明する。図7図10は、本開示に係る音響処理装置1の動作例の説明図である。
【0062】
図7に示すように、音響処理装置1の取得部41は、例えば、ユーザUが車両C内に居るときに、ユーザ端末11によって撮像された居場所(ここでは、車両Cの車室内)が撮像された画像Pic1と、音響コンテンツ32の提供要求とを取得する場合がある。
【0063】
かかる場合、音響処理装置1は、居場所の画像Pic1から居場所の音響特性を予測し、音響コンテンツ32の音響特性を予測した音響特性に変換してユーザ端末11によって音場再生させる。例えば、音響処理装置1の処理部42は、画像Pic1を画像認識することによって、ユーザUの居場所を車両Cの車室内の空間と判定する。
【0064】
その後、処理部42は、画像Pic1から車室内の前後方向の長さL、横方向の長さW、および高さ方向の長さHを推定して車室内の空間の広さを予測し、車室内の空間の広さに基づいて、車室内の空間の反響特性および残響特性等の音響特性を予測する。
【0065】
続いて、処理部42は、音響コンテンツ32の音響特性を予測した音響特性に変換し、例えば、車室内の前方中央位置に仮想スピーカSpCを配置し、中央から左右にそれぞれ30°離れた位置に仮想スピーカSpL,SpRを配置する。
【0066】
そして、処理部42は、3つの仮想スピーカPcC,SpL,SpRから出音されているように聞こえるように、音響コンテンツ32の音響特性を変換して、提供部43へ出力し、提供部43によってユーザ端末11へ音響コンテンツ32を送信させる。
【0067】
これにより、音響処理装置1は、例えば、ユーザUがイヤホンで音響コンテンツ32を聴く場合に、高音質なカーオーディオで音響コンテンツ32を聴いているかのような、臨場感をユーザUに与えることができる。
【0068】
また、図8に示すように、取得部41は、ユーザUが自宅のリビングルームにいるときに、ユーザUによって居場所が撮像された画像Pic2と、映像コンテンツ31および音響コンテンツ32の提供要求とを取得する場合がある。
【0069】
また、このとき、取得部41は、例えば、ユーザUによって、画像Pic2からユーザUの視野中心を含む所定領域A(ここでは、テレビTvを囲む領域)が選択されたことを示す情報を取得する場合がある。
【0070】
かかる場合、処理部42は、所定領域Aを囲むように、音響コンテンツ32の出音位置となる仮想スピーカSp1,Sp2,Sp3,Sp4,Sp5,Sp6を配置する。そして、処理部42は、仮想スピーカSp1,Sp2,Sp3,Sp4,Sp5,Sp6から出音されているように聞こえるように、音響コンテンツ32の音響特性を変換して、提供部43へ出力する。
【0071】
提供部43は、ユーザUによって提供要求された映像コンテンツ31と、処理部42によって音響特性が変換された音響コンテンツ32とをユーザ端末11へ送信し、映像コンテンツ31の表示および音響コンテンツ32の音場再生を行わせる。
【0072】
これにより、音響処理装置1は、ユーザUがイヤホンで音響コンテンツ32を聴く場合に、テレビTvで映像コンテンツ31を表示中に、高音質なオーディオ装置で音響コンテンツ32を聴いているかのような、臨場感をユーザUに与えることができる。
【0073】
また、このとき、例えば、図9に示すように、ユーザUがテレビTvでアニメーションの作品Vdを視聴している場合がある。かかる場合、音響処理装置1は、作品Vdに登場するキャラクタの拡張現実(AR:Augmented Reality)画像Ca,Cc,CdをヘッドマウントディスプレイCbによって、ユーザの周囲に表示させることもできる。これにより、音響処理装置1は、ユーザUに与える臨場感をさらに向上させることができる。
【0074】
なお、ここでは、ユーザUによって撮像された画像からユーザの居場所を予測したが、これは一例である。取得部41は、例えば、ユーザ端末11が備えるGPS(Global Positioning System)によって測位されるユーザUの位置情報を取得することもできる。
【0075】
この場合、処理部42は、取得部によって取得されるユーザの位置情報からユーザの居場所を予測し、音響コンテンツ32の音響特性を予測した居場所の音響特性に変換して音場再生させる。これにより、処理部42は、音響コンテンツ32の音響特性を、GPSによって測位されたユーザUの正確な居場所に応じた音響特性に変換することができる。
【0076】
また、取得部41は、ユーザ端末11からユーザUによって過去に撮像された画像から選択された画像、または通信ネットワークNを介してユーザUによって閲覧された画像を取得することもできる。
【0077】
この場合、処理部42は、取得部41によって取得された画像に写る場所の音響特性を予測し、音響コンテンツの音響特性を予測した音響特性に変換して音場再生させる。これにより、音響処理装置1は、例えば、ユーザUが過去に訪れた思い出の場所や、過去に閲覧した画像に写るお気に入りの場所で音響コンテンツ32を聴いているかのような臨場感をユーザUに与えることができる。
【0078】
また、処理部42は、画像から予測するユーザUが居る場所の空間の広さに応じて、音響コンテンツ32の出音位置となる仮想スピーカを配置する数、および仮想スピーカの出音特性を変更する。例えば、処理部42は、予測する空間の広さが広くなるほど、配置する仮想スピーカの数を増加させる。
【0079】
また、処理部42は、予測する空間の広さがさらに広くなる場合には、例えば、サラウンドスピーカのように、360°の方向から音響コンテンツ32が聴こえるような出音特性の仮想スピーカを配置する。これにより、音響処理装置1は、ユーザ端末11によってユーザUの居場所の広さに応じた最適な音場再生を行わせることができる。
【0080】
また、取得部41は、例えば、音響コンテンツ32を作成したクリエータから音響コンテンツ32の音響情報34、および音響コンテンツ32が音場再生される場所のVR全天球映像の提供要求を取得する場合がある。
【0081】
かかる場合、図10に示すように、音響処理装置1の処理部42は、提供部43によってクリエータ端末101へ提供要求された音響コンテンツ32、音響情報34、およびVR映像情報33をクリエータCRが使用するクリエータ端末101へ送信させる。
【0082】
これにより、クリエータCRは、例えば、VR映像情報33に含まれる映画館のVR全天球映像Vrを見ながら、自身の作成意図に基づいて音響情報34を変更することができる。例えば、クリエータCRは、現状では、映画館のスクリーンの両脇に仮想スピーカSpが配置されているように聞こえる音響情報34を、スクリーンの両脇から更に離れた位置に仮想スピーカSpが配置されているように聞こえる音響情報34に変更することができる。
【0083】
さらに、クリエータCRは、例えば、スクリーンの上に新たな仮想スピーカSpUが配置され、スクリーンの下に新たな仮想スピーカSpDが配置されているように聞こえる音響情報34に変更することができる。このとき、クリエータCRは、自身のHRTFを適用した音響コンテンツ32を聴いて音響情報34を変更する。
【0084】
そして、クリエータCRは、変更した音響情報34aと、音響コンテンツ32aと、VR映像情報33とをクリエータ端末101から音響処理装置1へ送信する。音響処理装置1は、クリエータ端末101から受信する音響情報34aと、音響コンテンツ32aと、VR映像情報33とを記憶部3に記憶させる。
【0085】
これにより、音響処理装置1は、次回、音響コンテンツ32aをユーザUへ提供する場合に、クリエータCRの作成意図が反映された音響特性で音響コンテンツ32aを音場再生させることができる。このとき、音響処理装置1は、ユーザUのHRTFを適用した音響コンテンツ32aをユーザUへ提供することによって、ユーザUにとって最適な音響特性の音響コンテンツ32aを音場再生させることができる。
【0086】
(4.音響処理装置が実行する処理)
次に、図11図13を参照し、音響処理装置1の制御部4が実行する処理の一例について説明する。図11図13は、本開示に係る音響処理装置1の制御部4が実行する処理の一例を示すフローチャートである。
【0087】
音響処理装置1の制御部4は、ユーザ端末11のユーザUから音響および映像を含むコンテンツの提供要求を取得した場合に、図11に示す処理を実行する。具体的には、制御部4は、ユーザUからコンテンツの提供要求を取得すると、まず、ユーザUからユーザUが所望するコンテンツおよび場所情報を取得する(ステップS101)。
【0088】
続いて、制御部4は、ユーザが所望するコンテンツに対応する音響コンテンツの音響特性を場所情報に対応する音響特性に応じた音響特性に変換する(ステップS102)。その後、制御部4は、ユーザUへ映像コンテンツと、音響特性を変換した音響コンテンツと、音響コンテンツおよび映像コンテンツが再生されるときにユーザUに視認させるVR全天球映像を提供して音場再生させ(ステップS103)、処理を終了する。
【0089】
また、制御部4は、ユーザから音響コンテンツの提供要求と、ユーザによって撮像さえたユーザの居場所が写った画像とを取得した場合に、図12に示す処理を実行する。具体的には、制御部4は、ユーザUからコンテンツの提供要求と撮像画像とを取得すると、まず、撮像画像に写る空間の音響特性を予測する(ステップS201)。
【0090】
続いて、制御部4は、ユーザUが所望するコンテンツに対応する音響コンテンツの音響特性をステップS201で予測した空間の音響特性に変換する(ステップS202)。その後、制御部4は、ユーザUへ音響特性を変換した音響コンテンツを提供して音場再生させ(ステップS203)、処理を終了する。
【0091】
また、制御部4は、ユーザによって撮像画像における所定領域Aが選択されている場合には、所定領域Aを囲むように音響コンテンツの出音位置を配置する処理を行って、ユーザUへ音響コンテンツを提供する。
【0092】
このとき、制御部4は、ユーザによって選択される所定領域Aの広さに応じて、配置する音響コンテンツの出音位置の数および出音特性を変更して、ユーザUへ音響コンテンツを提供する。
【0093】
なお、制御部4は、ユーザUから音響および映像を含むコンテンツの提供要求と、ユーザの居場所が写った撮像画像を取得した場合にも、撮像画像に写る空間の音響特性を予測し、予測した音響特性に変換した音響コンテンツをユーザUへ提供することができる。
【0094】
また、制御部4は、例えば、音響コンテンツのクリエータCRから音響コンテンツの音響情報と、音響コンテンツを音場再生する場所の提供要求を取得した場合に、図13に示す処理を実行する。
【0095】
具体的には、制御部4は、クリエータCRから音響情報と場所の提供要求を取得した場合に、まず、クリエータCRへ音響情報と、音響情報に対応する音響コンテンツが音場再生される場所のVR全天球映像を提供する(ステップS301)。
【0096】
続いて、制御部4は、クリエータCRから変更された音響情報を取得したか否かを判定する(ステップS302)。そして、制御部4は、クリエータCRから音響情報を取得していないと判定した場合(ステップS302,No)、音響情報を取得するまでステップS302の判定処理を繰り返す。
【0097】
そして、制御部4は、クリエータCRから音響情報を取得したと判定した場合(ステップS302,Yes)、取得した音響特性と、クリエータCRへ提供したVR全天球映像とを対応付けて記憶し(ステップS303)、処理を終了する。
【0098】
なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
【0099】
なお、本技術は以下のような構成も取ることができる。
(1)
音響コンテンツを聴くユーザに見られる場所に関する場所情報を取得する取得部と、
前記場所における音響に関する音響情報を記憶する記憶部と、
前記音響情報に基づいて前記音響コンテンツの音響特性を前記場所に応じた音響特性に変換して音場再生させる処理部と
を有する音響処理装置。
(2)
前記記憶部は、
前記場所の仮想現実全天球映像を記憶し、
前記処理部は、
前記音響コンテンツの音場再生中に前記仮想現実全天球映像をユーザに視認させる
前記(1)に記載の音響処理装置。
(3)
前記記憶部は、
前記場所において前記音響コンテンツに対応する映像コンテンツが表示されるスクリーンと、前記スクリーンの周囲環境の画像とを含む前記仮想現実全天球映像を記憶し、
前記処理部は、
前記仮想現実全天球映像中の前記スクリーンに前記映像コンテンツを表示させる
前記(2)に記載の音響処理装置。
(4)
前記記憶部は、
前記場所において前記音響コンテンツに対応する映像コンテンツが表示される4面のスクリーンを含む前記仮想現実全天球映像を記憶し、
前記処理部は、
前記仮想現実全天球映像中の前記4面のスクリーンのうちの1面のスクリーンに前記映像コンテンツを表示させ、他の3面のスクリーンに前記場所の周囲環境の画像を表示させる
前記(2)に記載の音響処理装置。
(5)
前記取得部は、
前記ユーザによって撮像された居場所の画像を取得し、
前記処理部は、
前記居場所の画像から前記居場所の音響特性を予測し、前記音響コンテンツの音響特性を予測した音響特性に変換して音場再生させる
前記(1)に記載の音響処理装置。
(6)
前記処理部は、
前記居場所の画像から予測する前記居場所の空間の広さに基づいて前記空間の音響特性を予測する
前記(5)に記載の音響処理装置。
(7)
前記処理部は、
前記空間における残響特性および反響特性を予測する
前記(6)に記載の音響処理装置。
(8)
前記処理部は、
前記居場所の画像から予測する前記居場所の空間の広さに応じて配置する前記音響コンテンツの出音位置の数および出音特性を変更する
前記(6)に記載の音響処理装置。
(9)
前記処理部は、
前記ユーザによって前記居場所の画像から前記ユーザの視野中心を含む所定領域が選択される場合、前記所定領域を囲むように前記音響コンテンツの出音位置を配置する
前記(5)~(8)のいずれかに記載の音響処理装置。
(10)
前記取得部は、
前記ユーザによって過去に撮像された画像から選択された画像または通信ネットワークを介して前記ユーザによって閲覧された画像を取得し、
前記処理部は、
前記画像に写る場所の音響特性を予測し、前記音響コンテンツの音響特性を予測した音響特性に変換して音場再生させる
前記(1)に記載の音響処理装置。
(11)
前記取得部は、
GPS(Global Positioning System)によって測位される前記ユーザの位置情報を取得し、
前記処理部は、
前記ユーザの位置情報から前記ユーザの居場所を予測し、前記音響コンテンツの音響特性を予測した居場所の音響特性に変換して音場再生させる
前記(1)に記載の音響処理装置。
(12)
前記音響コンテンツのクリエータへ前記音響コンテンツと、前記音響コンテンツが音場再生される場所の前記仮想現実全天球映像および前記音響情報とを提供する提供部
をさらに備え、
前記取得部は、
前記クリエータによって変更された前記音響情報を取得し、
前記記憶部は、
前記クリエータへ提供された前記音響コンテンツおよび前記音響コンテンツが音場再生される場所の仮想現実全天球映像と、前記クリエータによって変更された前記音響情報とを対応つけて記憶する
前記(2)に記載の音響処理装置。
(13)
前記記憶部は、
前記場所において測定された音響に基づいて生成された前記音響情報を記憶する
前記(1)~(12)のいずれかに記載の音響処理装置。
(14)
前記記憶部は、
前記ユーザの頭部伝達関数を記憶し、
前記処理部は、
前記ユーザ毎に、前記ユーザの頭部伝達関数を適用して前記音響コンテンツの音響特性を変換する
前記(1)~(13)のいずれかに記載の音響処理装置。
(15)
前記記憶部は、
前記ユーザに装着されたイヤマイクロホンによって録音された音響に基づいて導出された前記頭部伝達関数を記憶する
前記(14)に記載の音響処理装置。
(16)
前記記憶部は、
前記ユーザに装着されたイヤマイクロホンによって録音され、音波特性が前記ユーザに依存する時間の音響と、人形に装着されたイヤマイクロホンによって録音され、音波特性が前記場所に依存する時間の音響とに基づいて導出された前記頭部伝達関数を記憶する
前記(14)に記載の音響処理装置。
(17)
前記記憶部は、
前記ユーザの耳の画像に基づいて導出される前記頭部伝達関数を記憶する
前記(14)に記載の音響処理装置。
(18)
コンピュータが実行する音響処理方法であって、
音響コンテンツを聴くユーザに見られる場所に関する場所情報を取得する取得工程と、
前記場所における音響に関する音響情報を記憶する記憶工程と、
前記音響情報に基づいて前記音響コンテンツの音響特性を前記場所に応じた音響特性に変換して音場再生させる処理工程と
を含む音響処理方法。
(19)
音響コンテンツを聴くユーザに見られる場所に関する場所情報を取得する取得手順と、
前記場所における音響に関する音響情報を記憶する記憶手順と、
前記音響情報に基づいて前記音響コンテンツの音響特性を前記場所に応じた音響特性に変換して音場再生させる処理手順と
をコンピュータに実行させる音響処理プログラム。
【符号の説明】
【0100】
1 音響処理装置
2 通信部
3 記憶部
31 映像コンテンツ
32 音響コンテンツ
33 VR映像情報
34 音響情報
4 制御部
41 取得部
42 処理部
43 提供部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13