(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-05
(45)【発行日】2024-08-14
(54)【発明の名称】オーディオシステム、オーディオ再生装置、サーバー装置、オーディオ再生方法及びオーディオ再生プログラム
(51)【国際特許分類】
H04S 7/00 20060101AFI20240806BHJP
【FI】
H04S7/00 300
(21)【出願番号】P 2020567412
(86)(22)【出願日】2019-12-11
(86)【国際出願番号】 JP2019048428
(87)【国際公開番号】W WO2020153027
(87)【国際公開日】2020-07-30
【審査請求日】2022-10-17
(31)【優先権主張番号】P 2019009921
(32)【優先日】2019-01-24
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】100082762
【氏名又は名称】杉浦 正知
(74)【代理人】
【識別番号】100123973
【氏名又は名称】杉浦 拓真
(72)【発明者】
【氏名】本間 弘幸
(72)【発明者】
【氏名】知念 徹
(72)【発明者】
【氏名】及川 芳明
【審査官】鈴木 圭一郎
(56)【参考文献】
【文献】特開2010-245946(JP,A)
【文献】特開2017-034350(JP,A)
【文献】特開2014-099797(JP,A)
【文献】特開2011-223549(JP,A)
【文献】特開2013-168924(JP,A)
【文献】特開2014-131140(JP,A)
【文献】特開2017-143468(JP,A)
【文献】特開2003-125499(JP,A)
【文献】特開2006-115442(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04S 3/00-7/00
H04R 3/00-3/14
(57)【特許請求の範囲】
【請求項1】
入力される画像データに基づいて顔データを検出する顔データ検出部と、
前記顔データ検出部から出力された顔データに対応する音響係数を出力する音響係数取得部と、
前記音響係数取得部が出力した前記音響係数に基づく音響処理を、オーディオ信号に施す音響係数適用部と、を備え、
前記音響係数取得部は、入力された顔データに対応する個人が登録されていない場合、前記入力された顔データの分析結果に基づき、前記音響係数を出力する
オーディオシステム。
【請求項2】
入力される画像データに基づいて顔データを検出する顔データ検出部と、
前記顔データ検出部から出力された顔データに対応する音響係数を出力する音響係数取得部と、
前記音響係数取得部が出力した前記音響係数に基づく音響処理を、オーディオ信号に施す音響係数適用部と、を備え、
前記音響係数取得部は、複数の前記音響係数を出力し、
前記音響係数取得部は、入力された顔データに対応する個人が登録されていた場合、当該個人に対応する前記音響係数と、少なくとも1つの候補となる前記音響係数とを出力する
オーディオシステム。
【請求項3】
前記音響係数は、頭部伝達関数である
請求項1又は2に記載のオーディオシステム。
【請求項4】
前記音響係数取得部は、前記入力された顔データに対応する個人が登録されていた場合、当該個人に対応する音響係数を、前記音響係数として出力する
請求項1に記載のオーディオシステム。
【請求項5】
前記音響係数取得部は、前記入力された顔データに対応する個人が登録されていない場合、複数の候補となる前記音響係数を出力する
請求項2に記載のオーディオシステム。
【請求項6】
前記音響係数取得部は、前記顔データ検出部が複数の顔データを検出した場合、広い聴取範囲の前記音響係数を出力する
請求項1から5までの何れかに記載のオーディオシステム。
【請求項7】
前記音響係数取得部は、前記検出した顔データの位置に基づき、前記広い聴取範囲の前記音響係数を出力する
請求項6に記載のオーディオシステム。
のオーディオシステム。
【請求項8】
入力される画像データに基づいて顔データを検出する顔データ検出部と、
前記検出した顔データに対応する音響係数に基づく音響処理を、オーディオ信号に施す音響係数適用部と、
前記検出した顔データをサーバー装置に送信する送信部と、
前記検出した顔データに対応する前記音響係数を受信する受信部と、を備え
前記音響係数は、前記顔データに対応する個人が登録されていない場合に出力される、前記顔データの分析結果に基づく音響係数、又は、前記顔データに対応する個人が登録されていた場合に出力される、当該個人に対応する前記音響係数及び少なくとも1つの候補となる前記音響係数である
オーディオ再生装置。
【請求項9】
オーディオ再生装置から送信された顔データを受信する受信部と、
受信した前記顔データに対応する音響係数を出力する音響係数取得部と、
前記音響係数取得部で出力された前記音響係数を、前記オーディオ再生装置に送信する送信部と、を備え、
前記音響係数取得部は、前記顔データに対応する個人が登録されていない場合、入力された顔データの分析結果に基づき、前記音響係数を出力する
サーバー装置。
【請求項10】
オーディオ再生装置から送信された顔データを受信する受信部と、
受信した前記顔データに対応する音響係数を出力する音響係数取得部と、
前記音響係数取得部で出力された前記音響係数を、前記オーディオ再生装置に送信する送信部と、を備え、
前記音響係数取得部は、複数の前記音響係数を出力し、
前記音響係数取得部は、入力された顔データに対応する個人が登録されていた場合、当該個人に対応する前記音響係数と、少なくとも1つの候補となる前記音響係数とを出力する
サーバー装置。
【請求項11】
顔データ検出部が、入力される画像データに基づいて顔データを検出し、
音響係数適用部が、前記検出した顔データに対応する音響係数に基づく音響処理を、オーディオ信号に施し、
前記音響係数は、前記顔データに対応する個人が登録されていない場合に出力される、前記顔データの分析結果に基づく前記音響係数、又は、前記顔データに対応する個人が登録されていた場合に出力される、当該個人に対応する前記音響係数及び少なくとも1つの候補となる前記音響係数である
オーディオ再生方法。
【請求項12】
顔データ検出部が、入力される画像データに基づいて顔データを検出し、
音響係数適用部が、前記検出した顔データに対応する音響係数に基づく音響処理を、オーディオ信号に施し、
前記音響係数は、前記顔データに対応する個人が登録されていない場合に出力される、前記顔データの分析結果に基づく前記音響係数、又は、前記顔データに対応する個人が登録されていた場合に出力される、当該個人に対応する音響係数及び少なくとも1つの候補となる前記音響係数である
オーディオ再生方法をコンピュータに実行させるオーディオ再生プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、オーディオシステム、オーディオ再生装置、サーバー装置、オーディオ再生方法及びオーディオ再生プログラムに関する。
【背景技術】
【0002】
現在、複数のスピーカを使用して、所望の音場を再現する技法が知られている。このような音場再現の技法により、立体的な音響空間を実現することが可能となる。特許文献1には、頭部伝達関数を使用し、所望の音響効果を達成できる音響制御装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
このような分野では、ユーザーに好適な音場を実現することが望まれている。本開示は、ユーザーに好適な音場を実現するオーディオシステム、オーディオ再生装置、サーバー装置、オーディオ再生方法及びオーディオ再生プログラムを提供することを目的の一つとする。
【課題を解決するための手段】
【0005】
本開示は、例えば、
入力される画像データに基づいて顔データを検出する顔データ検出部と、
顔データ検出部から出力された顔データに対応する音響係数を出力する音響係数取得部と、
音響係数取得部が出力した音響係数に基づく音響処理を、オーディオ信号に施す音響係数適用部と、を備え、
音響係数取得部は、入力された顔データに対応する個人が登録されていない場合、入力された顔データの分析結果に基づき、音響係数を出力する
オーディオシステムである。
本開示は、例えば、
入力される画像データに基づいて顔データを検出する顔データ検出部と、
顔データ検出部から出力された顔データに対応する音響係数を出力する音響係数取得部と、
音響係数取得部が出力した音響係数に基づく音響処理を、オーディオ信号に施す音響係数適用部と、を備え、
音響係数取得部は、複数の音響係数を出力し、
音響係数取得部は、入力された顔データに対応する個人が登録されていた場合、当該個人に対応する音響係数と、少なくとも1つの候補となる音響係数とを出力する
オーディオシステムである。
【0006】
本開示は、例えば、
入力される画像データに基づいて顔データを検出する顔データ検出部と、
検出した顔データに対応する音響係数に基づく音響処理を、オーディオ信号に施す音響係数適用部と、
検出した顔データをサーバー装置に送信する送信部と、
検出した顔データに対応する音響係数を受信する受信部と、を備え
音響係数は、顔データに対応する個人が登録されていない場合に出力される、顔データの分析結果に基づく音響係数、又は、顔データに対応する個人が登録されていた場合に出力される、当該個人に対応する音響係数及び少なくとも1つの候補となる音響係数である
オーディオ再生装置である。
【0007】
本開示は、例えば、
オーディオ再生装置から送信された顔データを受信する受信部と、
受信した顔データに対応する音響係数を出力する音響係数取得部と、
音響係数取得部で出力された音響係数を、オーディオ再生装置に送信する送信部と、を備え、
音響係数取得部は、顔データに対応する個人が登録されていない場合、入力された顔データの分析結果に基づき、音響係数を出力する
サーバー装置である。
本開示は、例えば、
オーディオ再生装置から送信された顔データを受信する受信部と、
受信した顔データに対応する音響係数を出力する音響係数取得部と、
音響係数取得部で出力された音響係数を、オーディオ再生装置に送信する送信部と、を備え、
音響係数取得部は、複数の音響係数を出力し、
音響係数取得部は、入力された顔データに対応する個人が登録されていた場合、当該個人に対応する音響係数と、少なくとも1つの候補となる音響係数とを出力する
サーバー装置である。
【0008】
本開示は、例えば、
顔データ検出部が、入力される画像データに基づいて顔データを検出し、
音響係数適用部が、検出した顔データに対応する音響係数に基づく音響処理を、オーディオ信号に施し、
音響係数は、顔データに対応する個人が登録されていない場合に出力される、顔データの分析結果に基づく音響係数、又は、顔データに対応する個人が登録されていた場合に出力される、当該個人に対応する音響係数及び少なくとも1つの候補となる音響係数である
オーディオ再生方法である。
【0009】
本開示は、例えば、
顔データ検出部が、入力される画像データに基づいて顔データを検出し、
音響係数適用部が、検出した顔データに対応する音響係数に基づく音響処理を、オーディオ信号に施し、
音響係数は、顔データに対応する個人が登録されていない場合に出力される、顔データの分析結果に基づく音響係数、又は、顔データに対応する個人が登録されていた場合に出力される、当該個人に対応する音響係数及び少なくとも1つの候補となる音響係数である
オーディオ再生方法をコンピュータに実行させるオーディオ再生プログラムである。
【図面の簡単な説明】
【0010】
【
図1】
図1は、一般的な再生装置の構成を示すブロック図である。
【
図2】
図2は、パニング処理の一種である3次元VBAPを説明するための図である。
【
図3】
図3は、本実施形態に係るオーディオシステムを示すブロック図である。
【
図4】
図4は、本実施形態に係る個人化音響係数設定処理を示すフロー図である。
【
図5】
図5は、本実施形態に係る個人化音響係数取得処理を示すフロー図である。
【
図6】
図6は、本実施形態に係る個人化音響係数再計算処理を表すフロー図である。
【
図7】
図7は、テスト信号情報の表示の様子を示す図である。
【発明を実施するための形態】
【0011】
以下、本開示の実施形態等について図面を参照しながら説明する。なお、説明は以下の順序で行う。
<1.一般技術の説明>
<2.一実施形態>
以下に説明する実施形態等は本開示の好適な具体例であり、本開示の内容がこれらの実施形態に限定されるものではない。
【0012】
<1.一般技術の説明>
映画やゲーム等でオブジェクトオーディオ技術が使われ、オブジェクトオーディオを扱える符号化方式も開発されている。例えば、国際標準規格であるMPEG規格などが知られている。
【0013】
このような符号化方式では、従来の2チャネルステレオ方式や5.1チャネル等のマルチチャンネルステレオ方式とともに、移動する音源等を独立したオーディオオブジェクトとして扱い、オーディオオブジェクトの信号データとともにオブジェクトの位置情報をメタデータとして符号化することができる。このようにすることで、スピーカの数、配置が異なる様々な視聴環境で再生が行え、また、従来の符号化方式では困難だった特定の音源を再生時に加工(例えば、音量の調整や、エフェクトの追加など)することが容易に可能となっている。
【0014】
図1には、一般的な再生装置100の構成を示すブロック図が示されている。再生装置100は、コアデコード処理部101、レンダリング処理部102、頭部伝達関数処理部103を備えて構成されている。コアデコード処理部101は、外部から入力される入力ビットストリームを復号し、オーディオオブジェクト信号と、オブジェクト位置情報等を含むメタデータを出力する。ここで、オブジェクトとは、再生されるオーディオ信号を構成する1乃至複数の音源であって、オーディオオブジェクト信号は、音源から発せられるオーディオ信号に相当し、オブジェクト位置情報は、音源となるオブジェクトの位置に相当する。
【0015】
レンダリング処理部102は、デコードされたオーディオオブジェクト信号と、オブジェクト位置情報に基づいて、仮想空間中に配置されたスピーカにレンダリング処理を行い、仮想空間における音場を再現した仮想スピーカ信号を出力する。頭部伝達関数処理部103は、仮想スピーカ信号に対し、一般的な頭部伝達関数を適用し、ヘッドフォンもしくはスピーカ再生のためのオーディオ信号を出力する。
【0016】
ここで、レンダリング処理部102では、3次元VBAP(Vector Based Amplitude Panning)と呼ばれる方式が用いられることが知られている。これは一般的にパニングと呼ばれるレンダリング手法の1つで、視聴位置を原点とする球表面上に存在するスピーカのうち、同じく球表面上に存在するオーディオオブジェクトに最も近い3個のスピーカに対しゲインを分配することでレンダリングを行う方式である。
【0017】
図2は、3次元VBAPを説明するための図である。視聴位置U11を原点Oとし、三次元空間中の球表面にあるオーディオオブジェクトVSP2から音を出力することを考えてみる。オーディオオブジェクトVSP2の位置を、原点O(視聴位置U11)を始点とするベクトルPとすると、ベクトルPは、オーディオオブジェクトVSP2と同じ球表面にあるスピーカSP1、SP2、SP3に対しゲインを分配することで表すことができる。したがって、ベクトルPは、各スピーカSP1、SP2、SP3の位置を表すベクトルL1、L2、及びL3を用いて式(1)のように表すことができる。
P=g1*L1+g2*L2+g3*L3 (1)
ここで、それぞれg1、g2、及びg3は、スピーカSP1、SP2、及びSP3に対するゲインを表し、g123=[g1 g2 g3]、L123=[L1 L2 L3]とすると、式(1)は、以下の式(2)で表すことができる。
g123=P
TL123
-1 (2)
【0018】
このようにして求めたゲインを用いて、オーディオオブジェクト信号を各スピーカSP1、SP2、SP3に分配することで、レンダリングを行うことができる。スピーカSP1、SP2、SP3の配置は固定されており既知の情報であるため、逆行列L123-1は事前に求めておくことができ、比較的平易な計算量で処理を行うことができる。
【0019】
このようなパニング方式ではスピーカを空間中に多数配置することで空間解像度を高めることができる。しかし、映画館とは異なり一般の家庭では多数のスピーカを空間内に配置することは困難な場合が多い。このような場合に、頭部伝達関数を利用したトランスオーラル処理によって、空間中に配置した多数の仮想スピーカの再生信号を、実空間上に配置した少数のスピーカで聴覚近似的に再現できることが知られている。
【0020】
一方で、トランスオーラル処理に用いられる頭部伝達関数は、頭部や耳の形状によって大きく変化する。従って、現在市場に存在するトランスオーラル処理やヘッドフォン用のバイノーラル処理に用いられる頭部伝達関数は、人間の平均的な顔形状を持つダミーヘッドの耳穴にマイクロフォンを挿入しインパルス応答を測定することによって作成されている。しかしながら、実際には、個人毎に異なる顔、耳等の形状、配置によって左右されるため、平均的な頭部伝達関数では不十分であり、音場を忠実に再生することは困難であった。
【0021】
本実施形態に係るオーディオシステムは、このような状況に鑑みてなされたものであり、カメラによって取得された画像から顔認識技術を用いて顔データを取得し、取得した顔データに対応する個人化頭部伝達関数を使用することで、各個人に応じて、音場を忠実に再現することを一つの目的とするものである。以下に、本実施形態に係るオーディオシステムの各種実施形態を説明する。
【0022】
<2.一実施形態>
図3は、本実施形態に係るオーディオシステムを示すブロック図である。オーディオシステムは、オーディオ信号を出力する再生装置300と、サーバー装置200とを有して構成される。再生装置300とサーバー装置200とは、インターネット等、各種通信回線を介して通信接続されている。まず、再生装置300のオーディオ再生機能について説明する。
【0023】
再生装置300におけるオーディオ再生機能は、コアデコード処理部301、レンダリング処理部302、音響係数適用部303で実現される。コアデコード処理部301は、
図1で説明したコアデコード処理部101と同様の機能を有し、入力される入力ビットストリームをデコードし、オーディオオブジェクト信号と、オブジェクト位置情報(メタ情報)を出力する。レンダリング処理部302は、
図1で説明したレンダリング処理部102と同様の機能を有する。レンダリング処理部302では、例えば、先に説明したVBAPのようなパニング処理を実行し、仮想スピーカ信号を出力する。音響係数適用部303は、入力される仮想スピーカ信号に各種音響係数を適用することで、オーディオ信号を出力する。
【0024】
次に、音響係数適用部303で適用する各種音響係数を取得する方法について説明する。本実施形態の再生装置300は、聴取するユーザーを撮影した画像データを取得することが可能となっている。画像データは、再生装置300に通信接続された各種情報機器、例えば、テレビ、スマートスピーカ、パソコン等から取得することが可能である。これら情報機器にはカメラが搭載されており、再生装置300で再生されるオーディオ信号を聴取するユーザーの様子を撮像することが可能となっている。なお、再生装置300にカメラを搭載した情報機器を通信接続することに代え、再生装置300にカメラを直接、通信接続し、画像データを取得する形態を採用してもよい。
【0025】
また、本実施形態の再生装置300には、各種情報を表示するための表示装置を接続することが可能となっている。再生装置300は、各種情報を表示することで、ユーザーに音響係数を選択させることが可能となっている。また、再生装置300には、音響係数を選択させるための入力装置も接続される。入力装置としては、リモコン装置、キーボード、マウスといった形態以外に、ユーザーが所持するスマートフォンを通信接続して使用することも可能である。
【0026】
次に、再生装置300で使用される個人化音響係数を得る方法について、
図4のフローチャートを用いて説明を行う。
図4は、再生装置300で事項される個人化音響係数設定処理を示すフロー図である。
【0027】
再生装置300で事項される個人化音響係数設定処理では、まず、顔データ検出部304に画像データが入力され(S11)、顔データ検出部304は、画像データに基づいて顔認識処理を実行する(S12)。顔データ検出部304は、認識結果に基づいて顔データを検出、出力する。顔認識処理については一般的に用いられている技術を適用することができる。なお、顔データは、画像データから抽出した顔部分であってもよいし、顔の輪郭や目耳鼻の位置、大きさといった顔の特徴量等、各種形態を採用することができる。また、顔データには、聴取空間におけるユーザーの位置、あるいは向いている方向を含めることとしてもよい。
【0028】
認識結果としての顔データはサーバー装置200へ送信される(S13)。これは顔データ送信部305によって行われる。サーバー装置200への送信に関して、物理的には有線無線に限らずあらゆる媒体を用いることができる。また、論理的なフォーマットはロスレスな圧縮及び非圧縮フォーマットの他、サーバー装置200上の多数の顔データから照合可能な程度の軽度な非可逆圧縮手法も用いることが可能である。
【0029】
ここで、サーバー装置200上において受信された顔データから個人化音響係数を出力する手法については別途後述し、ここではサーバー装置200から個人化音響係数が送信されたものとして説明を続ける。再生装置300では、サーバー装置200から1つ以上の音響係数を受信したか否かを確認する(S14)。これは個人化音響係数受信部306によって行われる。顔データを送信してから一定期間の間に個人化音響係数が受信できない場合は、タイムアウトして個人化音響係数設定処理を終了する。
【0030】
一方、サーバー装置200から個人化音響係数が受信された場合(S14:Yes)、ユーザーは、受信した個人化音響係数を選択することが可能となっている。この処理は個人化音響係数選択部307によって実行される。ユーザーの選択は、再生装置300に接続された入力装置によって行われる。本実施形態では、サーバー装置200は、デフォルトの個人化音響係数に加え、少なくとも1つの個人化音響係数の候補を送信する。したがって、ユーザーは、デフォルトの個人化音響係数を使用するか、個人化音響係数の候補を使用するかを選択することが可能となっている。ユーザーが個人化音響係数を選択する場合(S15:Yes)、再生装置300は、テスト信号を再生(S16)するとともに、テスト信号情報を表示装置に表示させる(S17)。ユーザーは、個人化音響係数を切り替えながら、テスト信号を再生し、スピーカから出力されるオーディオ信号を聴取する。
【0031】
図7は、表示装置上に表示されたテスト信号情報の一例である。画像表示部308は、表示装置に対し、テスト信号情報に基づく映像を表示させる。本実施形態では、原点Oを中心として、位置情報に基づいて移動音源Aを表示させる。その際、再生装置300は、ユーザーの視聴位置を原点Oとして、移動音源Aの位置情報に定位するようにテスト信号に基づくオーディオ信号を出力する。ここで、ユーザーはX軸正の方向を向いているとする。その際、音響係数適用部303には、受信した個人化音響係数が使用される。ユーザーは、表示装置に表示される移動音源Aの位置と、自身が聞いている音(特に定位)を拠り所とし、個人化音響係数が適切か否かを決定する。
図7には矢印で移動音源Aの軌跡を示している。図から分かるように、この例では、移動音源Aは、原点Oの周りを周回しながら上昇する軌跡を取っている。この場合、ユーザーは、自己の周りを周回しながら上昇する音の定位を聴取することになる。
【0032】
本実施形態では、デフォルトの個人化音響係数と、少なくとも1つの個人化音響係数の候補を使用することで、ユーザーに好適な個人化音響係数を選択させることを可能としている。ユーザーは入力装置を使用して、候補となる個人化音響係数を適宜選択し、適切な個人化音響係数を決定する(S18)。一方、個人化音響係数を選択しない場合(S15:No)には、受信したデフォルトの個人化音響係数が使用される(S18)。個人化音響係数の選択結果は、サーバー装置200に送信される(S19)。そして、再生装置300は、決定した個人化音響係数を音響係数適用部303に設定する(S20)。
【0033】
以上が再生装置300で実行される個人化音響係数設定処理の内容である。本実施形態では、送信した顔データに対応して、サーバー装置200から受信した個人化音響係数を使用することで、顔データに適した個人化音響係数で音場を再現し、音場を忠実に再生することが可能となっている。また、ユーザーに対しても個人化音響係数を選択させることによって、更に好適な個人化音響係数を使用することが可能となる。そして、ユーザーの決定結果をサーバー装置200側に送信することで、サーバー装置200側では、決定結果を使用して学習処理を行い、さらに精度の高い個人化音響係数を提供することが可能となる。
【0034】
次に、サーバー装置200側の処理について、
図5及び
図6のフローチャートを用いて説明を行う。
図5は、サーバー装置200で実行される個人化音響係数取得処理を示すフロー図である。サーバー装置200は、再生装置300から送信された顔データを受信することで、個人化音響係数取得処理を開始する。ここで、本実施形態の個人化音響係数には、頭部伝達関数を使用している。顔データに基づく各種個人の特徴量に応じた頭部伝達関数を使用することで、各個人に好適な音場を再現することが可能となっている。なお、顔データの受信、及び、個人化音響係数の送信は、個人化音響係数取得部201によって実行される。個人化音響係数取得処理が開始されると、受信した顔データが記憶部204内に存在するか否かが判定される(S21)。
【0035】
顔データが存在しない場合(S21:No)には、頭部伝達関数を用いないダウンミックス処理と等価な係数を個人化音響係数として送信する(S22)。なお、ここでいうダウンミックス処理とは、例えば、ステレオからモノラルへ変換する場合に、ステレオの各チャネルに0.5を乗じて加算しモノラル信号を得るような処理を意味している。個人化音響係数を送信した(S22)後、個人化音響係数取得処理を終了する。
【0036】
一方、顔データが存在する場合(S21:Yes)、顔データが複数存在するかどうかの判定が行われる(S23)。ここで顔データが複数存在するとは、再生装置300を使用して聴取を行うユーザーが複数人居るということと等価である。顔データが複数存在する場合(S23:Yes)、S24の処理においてリスニングエリアの広い一般化された頭部伝達関数を用いた係数を個人化音響係数として送信する(S24)。なお、リスニングエリアを広げる処理は、既存の技術を用いることができる。また、ここで一般化された頭部伝達関数とは、一般的な人の顔や耳の形状を模擬したダミーヘッドと呼ばれる模型の耳穴にマイクロフォンを挿入して測定して得られるものを意味する。個人化音響係数を送信した(S24)後、個人化音響係数取得処理を終了する。なお、顔データにそれぞれのユーザーの位置情報が含まれる場合、全てのユーザーの位置をリスニングエリアとして設定し、個人化音響係数として決定することが可能である。
【0037】
次に、顔データが複数存在しなかった場合(S23:No)、サーバー装置200は、記憶部204内に登録された顔データが存在するかどうかの判定を行う(S25)。具体的には、個人化音響係数取得部201が記憶部204にアクセスし、入力された顔データが登録済みか判定を行う。顔データが存在する場合(S25:Yes)、顔データと紐付けられた個人化音響係数をデフォルトの個人化音響係数として送信する。また、本実施形態では、デフォルトの個人化音響係数とともに、少なくとも1つの個人化音響係数の候補を送信する。したがって、再生装置300に対しては、デフォルトの個人化音響係数を含め、複数の個人化音響係数が送信される(S26)。ここで、候補となる個人化音響係数は、デフォルトの個人化音響係数とは、異なる個人化音響係数であって、受信した顔データに基づいて決定される、あるいは、デフォルトの個人化音響係数を調整する等の手法で決定される。
【0038】
一方、顔データが記憶部204に存在しなかった場合(S25:No)、入力された顔データを分析することで、複数の個人化音響係数を決定して送信する(S27)。顔データの分析手法としては、機械学習によって得られた学習係数を持つニューラルネットワークに対して、顔データを入力し、複数の個人化音響係数の候補を尤度順に送信すること等が考えられる。再生装置300では、尤度順の最も高い個人化音響係数がデフォルトとして設定される。なお、この未知の顔データに対する個人化音響係数の取得は、S26において、登録された個人化音響係数以外の候補を送信する際にも用いられる。
【0039】
次に、
図6のフローチャートを用いて個人化音響係数再計算処理について説明を行う。個人化音響係数再計算処理は、サーバー装置200で行われる処理であり、再生装置300から送信された個人化音響係数の選択結果に基づいて実行される処理である。サーバー装置200は、再生装置300から送信された個人化音響係数の選択結果を受信する(S31)。この処理は、
図3の個人化音響係数選択結果受信部202において行われる。
【0040】
図4で説明した個人化音響係数設定処理において、サーバー装置200は、顔データとともに選択結果を受信する。サーバー装置200は、個人化音響係数設定処理で受信した個人化音響係数と顔データのペアを記憶部204に記録する(S32)。その後、記憶部204に記憶している個人化音響係数と顔データのペアを使用して学習処理を実行する(S33)。ここで、学習処理は、顔データに基づく個人化音響係数の決定アルゴリズムを更新する機械学習処理であり、機械学習処理としては、ディープニューラルネットワークにとして知られるCNN(Convolution Neural Network)や、RNN(Recurrent Neural Network)など、既存の手法を適用できる。更新された個人化音響係数の決定アルゴリズムは、
図5で説明した個人化音響係数の候補を作成する際に使用される。
【0041】
以上、個人化音響係数再計算処理では、顔データに基づき個人化音響係数を複数送信し、ユーザーに選択させることで、ユーザーに好適な個人化音響係数を使用することが可能となっている。更に、選択結果に基づき、顔データと個人化音響係数の関係を学習することで、より好適な個人化音響係数を提供することが可能となっている。
【0042】
なお、本実施形態では、デフォルトの個人化音響係数と、候補となる個人化音響係数を送信しているが、このような形態に代え、以下に説明する形態を採用することもできる。この形態では、サーバー装置200は、デフォルトの個人化音響係数のみを送信する。再生装置300側では、ユーザーは、入力装置を使用して、受信したデフォルトの個人化音響係数を調整することが可能となっている。個人化音響係数設定処理では、調整された結果を選択結果として、サーバー装置200に送信する。サーバー装置200では、選択結果と顔データのペアに基づき、学習処理を実行することで、個人化音響係数の決定アルゴリズムを決定する。なお、この個人化音響係数の調整は、前述した複数の個人化音響係数の中からの選択と併用することも可能である。
【0043】
本開示の少なくとも実施形態によれば、聴取するユーザーの顔データに応じた音響係数をオーディオ信号に適用することで、ユーザーに好適な音場を形成することが可能である。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれの効果であっても良い。また、例示された効果により本開示の内容が限定して解釈されるものではない。
【0044】
本開示は、装置、方法、プログラム、システム等により実現することもできる。例えば、上述した実施形態で説明した機能を行うプログラムをダウンロード可能とし、実施形態で説明した機能を有しない装置が当該プログラムをダウンロードすることにより、当該装置において実施形態で説明した制御を行うことが可能となる。本開示は、このようなプログラムを配布するサーバーにより実現することも可能である。また、各実施形態、変形例で説明した事項は、適宜組み合わせることが可能である。
【0045】
本開示は、以下の構成も採ることができる。
(1)
入力される画像データに基づいて顔データを検出する顔データ検出部と、
前記顔データ検出部から出力された顔データに対応する音響係数を出力する音響係数取得部と、
前記音響係数取得部で取得した音響係数に基づく音響処理を、オーディオ信号に施す音響係数適用部と、を備える
オーディオシステム。
(2)
前記音響係数は、頭部伝達関数である
(1)に記載のオーディオシステム。
(3)
前記音響係数取得部は、入力された顔データに対応する個人が登録されていた場合、当該個人に対応する音響係数を、音響係数として出力する
(1)または(2)に記載のオーディオシステム。
(4)
前記音響係数取得部は、入力された顔データに対応する個人が登録されていない場合、入力された顔データの分析結果に基づき、音響係数を出力する
(1)から(3)の何れか1つに記載のオーディオシステム。
(5)
前記音響係数取得部は、複数の音響係数を出力する
(1)から(4)の何れか1つに記載のオーディオシステム。
(6)
前記音響係数取得部は、入力された顔データに対応する個人が登録されていた場合、当該個人に対応する音響係数と、少なくとも1つの候補となる音響係数を出力する
(5)に記載のオーディオシステム。
(7)
前記音響係数取得部は、入力された顔データに対応する個人が登録されていない場合、複数の候補となる音響係数を出力する
(5)または(6)に記載のオーディオシステム。
(8)
前記音響係数取得部は、前記顔データ検出部が複数の顔データを検出した場合、広い聴取範囲の音響係数を出力する
(1)から(7)の何れか1つに記載のオーディオシステム。
(9)
前記音響係数取得部は、検出した顔データの位置に基づき、前記広い聴取範囲の音響係数を出力する
(8)に記載のオーディオシステム。
(10)
出力された複数の音響係数をユーザーが選択可能な選択部と、
前記選択部における選択結果と、前記音響係数取得部で使用した顔データに基づいて、学習処理を実行する音響係数再計算部を備える
(5)から(9)の何れか1つに記載のオーディオシステム。
(11)
出力された複数の音響係数をユーザーが選択可能な選択部と、
位置情報に基づき、オブジェクトを表示する画像表示部と、を備え、
前記音響係数適用部は、表示されるオブジェクトの位置情報に基づいて、音像定位されオーディオ信号を出力する
(5)から(10)の何れか1つに記載のオーディオシステム。
(12)
入力される画像データに基づいて顔データを検出する顔データ検出部と、
顔データに対応する音響係数に基づく音響処理を、オーディオ信号に施す音響係数適用部と、を備える
オーディオ再生装置。
(13)
検出した顔データをサーバー装置に送信する送信部と、
顔データに対応する音響係数を受信する受信部を備えた
(12)に記載のオーディオ再生装置。
(14)
オーディオ再生装置から送信された顔データを受信する受信部と、
受信した顔データに対応する音響係数を出力する音響係数取得部と、
音響係数取得部で出力された音響係数を、前記オーディオ再生装置に送信する
サーバー装置。
(15)
入力される画像データに基づいて顔データを検出する顔データ検出処理と、
顔データに対応する音響係数に基づく音響処理を、オーディオ信号に施す音響係数適用処理と、を行う
オーディオ再生方法。
(16)
入力される画像データに基づいて顔データを検出する顔データ検出処理と、
顔データに対応する音響係数に基づく音響処理を、オーディオ信号に施す音響係数適用処理と、を情報処理装置に実行させる
オーディオ再生プログラム。
【符号の説明】
【0046】
100:再生装置
101:コアデコード処理部
102:レンダリング処理部
103:頭部伝達関数処理部
200:サーバー装置
201:個人化音響係数取得部
202:個人化音響係数選択結果受信部
204:記憶部
300:再生装置
301:コアデコード処理部
302:レンダリング処理部
303:音響係数適用部
304:顔データ検出部
305:顔データ送信部
306:個人化音響係数受信部
307:個人化音響係数選択部
308:画像表示部