(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024057795
(43)【公開日】2024-04-25
(54)【発明の名称】音処理方法、音処理装置、および音処理プログラム
(51)【国際特許分類】
H04S 7/00 20060101AFI20240418BHJP
【FI】
H04S7/00 310
【審査請求】未請求
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2022164700
(22)【出願日】2022-10-13
(71)【出願人】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110000970
【氏名又は名称】弁理士法人 楓国際特許事務所
(72)【発明者】
【氏名】石川 克己
(72)【発明者】
【氏名】白木原 太
(72)【発明者】
【氏名】納戸 健太郎
(72)【発明者】
【氏名】井芹 大智
(72)【発明者】
【氏名】大谷 明央
(72)【発明者】
【氏名】森川 直
【テーマコード(参考)】
5D162
【Fターム(参考)】
5D162AA07
5D162CB07
5D162CD01
5D162DA01
5D162EG02
(57)【要約】
【課題】利用者が最適な響きの体験を得ることができる音処理方法を提供する。
【解決手段】音処理方法は、音源の音信号および前記音源の位置情報を含む音情報を受信し、前記音源の直接音の音像を、前記音源の位置情報に基づいて定位させる第1定位処理を前記音源の音信号に施し、前記音源の間接音の音像を、前記音源の位置情報に基づいて定位させる第2定位処理を前記音源の音信号に施し、前記音源または空間に関する条件を受け付けて、前記条件に基づいて、オブジェクトベース処理またはチャンネルベース処理のいずれかを選択して、前記第2定位処理を施す。
【選択図】
図2
【特許請求の範囲】
【請求項1】
音源の音信号および前記音源の位置情報を含む音情報を受信し、
前記音源の直接音の音像を、前記音源の位置情報に基づいて定位させる第1定位処理を前記音源の音信号に施し、
前記音源の間接音の音像を、前記音源の位置情報に基づいて定位させる第2定位処理を前記音源の音信号に施し、
前記音源または空間に関する条件を受け付けて、
前記条件に基づいて、オブジェクトベース処理またはチャンネルベース処理のいずれかを選択して、前記第2定位処理を施す、
音処理方法。
【請求項2】
前記条件は、前記音源または前記空間の重要度を含み、
前記重要度の高さに応じて、前記オブジェクトベース処理または前記チャンネルベース処理を選択する、
請求項1に記載の音処理方法。
【請求項3】
前記条件は、前記音源の種別、音質、音量、または前記位置情報に基づく前記音源と受聴点との位置関係、のいずれかを含む、
請求項1または請求項2に記載の音処理方法。
【請求項4】
前記条件は、前記空間の種別、または壁面と受聴点との位置関係、のいずれかを含む、
請求項1または請求項2に記載の音処理方法。
【請求項5】
さらに、前記第2定位処理を施す機器の処理能力に関する条件を受け付け、
前記処理能力に基づいて、前記オブジェクトベース処理または前記チャンネルベース処理を選択する、
請求項1または請求項2に記載の音処理方法。
【請求項6】
前記処理能力に関する条件は、前記機器の処理負荷に応じて変化する、
請求項5に記載の音処理方法。
【請求項7】
前記音情報は、複数の音源の音信号と、それぞれの位置情報と、前記複数の音源のグループ情報と、を含み、
同じグループに属する複数の音源は、同一の条件が設定される、
請求項1または請求項2に記載の音処理方法。
【請求項8】
音源の音信号および前記音源の位置情報を含む音情報を受信し、
前記音源の直接音の音像を、前記音源の位置情報に基づいて定位させる第1定位処理を前記音源の音信号に施し、
前記音源の間接音の音像を、前記音源の位置情報に基づいて定位させる第2定位処理を前記音源の音信号に施し、
前記音源または空間に関する条件を受け付けて、
前記条件に基づいて、オブジェクトベース処理またはチャンネルベース処理のいずれかを選択して、前記第2定位処理を施す、
処理を実行するプロセッサを備える音処理装置。
【請求項9】
前記条件は、前記音源または前記空間の重要度を含み、
前記プロセッサは、前記重要度の高さに応じて、前記オブジェクトベース処理または前記チャンネルベース処理を選択する、
請求項8に記載の音処理装置。
【請求項10】
前記条件は、前記音源の種別、音質、音量、または前記位置情報に基づく前記音源と受聴点との位置関係、のいずれかを含む、
請求項8または請求項9に記載の音処理装置。
【請求項11】
前記条件は、前記空間の種別、または壁面と受聴点との位置関係、のいずれかを含む、
請求項8または請求項9に記載の音処理装置。
【請求項12】
前記プロセッサは、さらに、前記第2定位処理を施す機器の処理能力に関する条件を受け付け、
前記処理能力に基づいて、前記オブジェクトベース処理または前記チャンネルベース処理を選択する、
請求項8または請求項9に記載の音処理装置。
【請求項13】
前記処理能力に関する条件は、前記機器の処理負荷に応じて変化する、
請求項12に記載の音処理装置。
【請求項14】
前記音情報は、複数の音源の音信号と、それぞれの位置情報と、前記複数の音源のグループ情報と、を含み、
同じグループに属する複数の音源は、同一の条件が設定される、
請求項8または請求項9に記載の音処理装置。
【請求項15】
音源の音信号および前記音源の位置情報を含む音情報を受信し、
前記音源の直接音の音像を、前記音源の位置情報に基づいて定位させる第1定位処理を前記音源の音信号に施し、
前記音源の間接音の音像を、前記音源の位置情報に基づいて定位させる第2定位処理を前記音源の音信号に施し、
前記音源または空間に関する条件を受け付けて、
前記条件に基づいて、オブジェクトベース処理またはチャンネルベース処理のいずれかを選択して、前記第2定位処理を施す、
処理をコンピュータに実行させる音処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の一実施形態は、音処理方法、音処理装置、および音処理プログラムに関する。
【背景技術】
【0002】
特許文献1には、チャンネルベースの音をスピーカから出力させ、オブジェクトベースの音をヘッドフォンから出力させる情報処理装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
先行技術文献に開示された情報処理装置は、直接音の定位に関する処理を行うものであって、室内の反射音等の間接音の定位に関する処理を行うものではない。
【0005】
ヘッドフォンで音源の音を聴く場合、所定の空間の響きを再現するために間接音の音像を定位させることが重要である。しかし、間接音の数が多くなると、演算量が膨大になり、適切な間接音の音像定位処理ができない。したがって、利用者は、最適な響きの体験を得ることができない。
【0006】
本発明の一実施形態は、適切な間接音の音像定位処理を実現し、利用者が最適な響きの体験を得ることができる音処理方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の一実施形態に係る音処理方法は、音源の音信号および前記音源の位置情報を含む音情報を受信し、前記音源の直接音の音像を、前記音源の位置情報に基づいて定位させる第1定位処理を前記音源の音信号に施し、前記音源の間接音の音像を、前記音源の位置情報に基づいて定位させる第2定位処理を前記音源の音信号に施し、前記音源または空間に関する条件を受け付けて、前記条件に基づいて、オブジェクトベース処理またはチャンネルベース処理のいずれかを選択して、前記第2定位処理を施す。
【発明の効果】
【0008】
本発明の一実施形態によれば、適切な間接音の音像定位処理を実現し、利用者が最適な響きの体験を得ることができる。
【図面の簡単な説明】
【0009】
【
図1】音処理装置1の構成を示すブロック図である。
【
図2】プロセッサ12の機能的構成を示すブロック図である。
【
図3】プロセッサ12により実行される音処理方法の動作を示すフローチャートである。
【
図4】コンテンツの作成者がコンテンツの作成時に利用するツールの画面(GUI)の一例を示す図である。
【
図5】音源と受聴者の位置関係を示す模式図である。
【
図6】音源と受聴者の位置関係を示す模式図である。
【発明を実施するための形態】
【0010】
図1は、音処理装置1の構成を示すブロック図である。音処理装置1は、PC(パーソナルコンピュータ)、スマートフォン、セットトップボックス、あるいはオーディオレシーバ等の情報処理装置により実現される。音処理装置1は、ヘッドフォン20に接続される。
【0011】
音処理装置1は、サーバ等のコンテンツ配信装置からコンテンツに係る音情報を受信し、該音情報を再生する。コンテンツは、音楽、演劇、ミュージカル、講演会、朗読会、あるいはゲーム等の音情報を含む。音処理装置1は、これら音情報に含まれる音源の直接音、および当該コンテンツに関わる空間の響き(間接音)を再生する。
【0012】
音処理装置1は、通信部11、プロセッサ12、RAM13、フラッシュメモリ14、表示器15、ユーザI/F16、およびオーディオI/F17を備えている。
【0013】
通信部11は、例えばBluetooth(登録商標)またはWi-Fi(登録商標)等の無線通信機能、あるいはUSBまたはLAN等の有線通信機能を有する。
【0014】
表示器15は、LCDやOLED等からなる。表示器15は、プロセッサ12の出力した映像を表示する。コンテンツ配信装置から配信されるコンテンツが映像情報を含む場合、プロセッサ12は、該映像情報を再生し、コンテンツに係る映像を表示器15に表示する。
【0015】
ユーザI/F16は、操作部の一例である。ユーザI/F16は、マウス、キーボード、あるいはタッチパネル等からなる。ユーザI/F16は、利用者の操作を受け付ける。なお、タッチパネルは、表示器15に積層されていてもよい。
【0016】
オーディオI/F17は、例えばBluetooth(登録商標)またはWi-Fi(登録商標)等の無線通信機能、あるいはアナログオーディオ端子またはデジタルオーディオ端子等を有し、音響機器を接続する。本実施形態では、音処理装置1は、ヘッドフォン20を接続し、ヘッドフォン20に音信号を出力する。
【0017】
プロセッサ12は、CPU、DSP、またはSoC(System on a Chip)等からなる。プロセッサ12は、記憶媒体であるフラッシュメモリ14からプログラムを読み出し、RAM13に一時記憶することで、種々の動作を行う。なお、プログラムは、フラッシュメモリ14に記憶している必要はない。プロセッサ12は、例えば、サーバ等の他装置から必要な場合にダウンロードしてRAM13に一時記憶してもよい。
【0018】
図2は、プロセッサ12の機能的構成を示すブロック図である。
図3は、プロセッサ12により実行される音処理方法の動作を示すフローチャートである。プロセッサ12は、フラッシュメモリ14から読み出したプログラムにより、機能的に
図2に示す構成を実現する。
【0019】
プロセッサ12は、機能的に、受信部120および信号処理部110を有する。信号処理部110は、条件受付部150、選択部151、第1定位処理部121、および第2定位処理部122を有する。第1定位処理部121は、オブジェクトベース処理部171を有する。第2定位処理部122は、チャンネルベース処理部191およびオブジェクトベース処理部192を有する。
【0020】
受信部120は、通信部11を介して、サーバ等のコンテンツ配信装置からコンテンツに係る音情報を受信する(S11)。音情報は、音源の音信号および音源の位置情報を含む。音源とは、コンテンツを構成する歌唱音、話者の声、演奏音、効果音、あるいは環境音等を意味する。
【0021】
本実施形態の音情報は、オブジェクトベース方式に対応する。オブジェクトベース方式とは、音源毎に独立して音信号および位置情報を格納する方式である。これに対してチャンネルベース方式とは、音源毎の音信号を予め混合して1または複数のチャンネルの音信号に格納する方式である。
【0022】
受信部120は、受信した音情報から音源毎の音信号および位置情報を取り出す。そして、条件受付部150は、音源または空間に関する条件を受け付ける(S12)。
【0023】
音源に関する条件とは、音源の属性、音源の静的特性、または音源の動的特性である。音源の属性とは、例えば音源の種別(歌唱音、話者の声、演奏音、効果音、あるいは環境音等)または音源の重要度に関する情報である。音源の静的特性とは、例えば音源の音量または周波数特性に関する情報である。音源の動的特性とは、例えば音源の位置と受聴点の位置との距離、または音源の移動量に関する情報である。
【0024】
空間の条件とは、空間の属性、空間の静的特性、または空間の動的特性である。空間の属性とは、空間の種別(ルーム、ホール、スタジアム、スタジオ、あるいはチャーチ等)または空間の重要度に関する情報である。空間の静的特性とは、空間の響きの数(反射音の数)に関する情報である。空間の動的特性とは、空間を構成する壁面の位置と受聴点の位置との距離に関する情報である。
【0025】
以上の様な音源または空間に関する条件は、コンテンツを再生する音処理装置1において、ユーザI/F16を介して音処理装置1のユーザから受け付けてもよい。あるいは、コンテンツの作成者は、コンテンツの作成時に所定のツールを用いて、音源毎あるいは空間毎に条件を指定してもよい。
【0026】
図4は、コンテンツの作成者がコンテンツの作成時に利用するツールの画面(GUI)の一例を示す図である。
図4に示すツールのGUIでは、コンテンツ作成者は、音源毎に、種別および重要度を設定することができる。この様な設定は、コンテンツ毎に行う場合もあるし、コンテンツ内のシーン毎に行う場合もある。また、
図4に示すツールのGUIでは、コンテンツ作成者は、空間毎に、種別および重要度を設定することができる。設定した音源または空間の種別および重要度に関する情報は、コンテンツの音情報に格納され、音処理装置1等の再生装置に配信される。条件受付部150は、コンテンツの音情報に格納されている音源または空間の種別および重要度に関する情報を取り出して、音源または空間に関する条件を受け付ける。
【0027】
次に、選択部151は、条件受付部150で受け付けた条件に基づいて、間接音に施す定位処理について、オブジェクトベース処理またはチャンネルベース処理のいずれかを選択する(S13)。本実施形態では一例として、選択部151は、コンテンツの音情報に含まれる、音源の重要度に基づいてオブジェクトベース処理またはチャンネルベース処理のいずれかを選択する。
【0028】
その後、プロセッサ12は、音源毎の位置情報に基づいて、音源の直接音の音像をオブジェクトベース処理で定位させる第1定位処理と、音源の間接音の音像をオブジェクトベース処理またはチャンネルベース処理のいずれかで定位させる第2定位処理と、を音源の音信号に施す(S14)。ただし、第1定位処理は、チャンネルベース処理で行ってもよい。
【0029】
オブジェクトベース処理は、例えばHRTF(Head Related Transfer Function)に基づく処理である。HRTFは、音源の位置から受聴者の右耳および左耳に至る伝達関数を表す。
【0030】
図5は、ある空間R1における受聴者50と音源51の位置関係を示す模式図である。本実施形態では一例として平面視した2次元の空間R1を示すが、空間は2次元でも3次元でもよい。音源51の位置情報は、空間R1内の所定の位置を基準とした2次元または3次元の座標、または受聴者50の位置を基準とした2次元または3次元の座標で表される。また、音源51の位置情報は、コンテンツの再生開始時からの経過時間に応じた時系列の2次元または3次元の座標で表される。音源は、再生開始から終了まで位置変化のない音源もあるし、演者の様に時系列に沿って位置変化する音源もある。
【0031】
空間R1の情報は、例えばライブハウスやコンサートホール等の所定の会場に対応する3次元空間の形状を示す情報であり、ある位置を原点とした3次元の座標で表される。空間情報は、実在のコンサートホール等の会場の3DCADデータに基づく座標情報であってもよいし、ある架空の会場の論理的な座標情報(0~1で正規化された情報)であってもよい。なお、空間の位置情報は、ワールド座標およびローカル座標を含んでいてもよい。例えばゲームのコンテンツでは、仮想的なワールド空間内に複数のローカル空間が存在する。
【0032】
空間の情報および受聴者の位置は、予めコンテンツの作成者が上記GUI等のツールで指定してもよいし、音処理装置1の利用者がユーザI/F16を介して指定してもよい。ゲームのコンテンツでは、利用者がユーザI/F16を介して仮想的なワールド空間内のキャラクタのオブジェクト(受聴者の位置)を移動させる。
【0033】
図5の例では、歌唱者の音源51の位置は、受聴者50から見て正面から所定距離離れている。第1定位処理部121のオブジェクトベース処理部171は、歌唱者の音源51に対応する音信号に、受聴者50の正面の所定距離離れた位置に定位する様なHRTFを畳み込むバイノーラル処理を行う。より具体的には、オブジェクトベース処理部171は、音源51の音信号に対して、音源51の位置から受聴者50の右耳に至るHRTFを畳み込むことでRチャンネルの音信号を生成する。また、オブジェクトベース処理部171は、音源51の音信号に対して、音源51の位置から受聴者50の左耳に至るHRTFを畳み込むことでLチャンネルの音信号を生成する。これらLチャンネルおよびRチャンネルの音信号がオーディオI/F17を介してヘッドフォン20に出力される。音処理装置1の利用者は、ヘッドフォン20でLチャンネルおよびRチャンネルの音を聴く。
【0034】
これにより、音処理装置1の利用者は、空間R1内の受聴者50の位置に居て、自身の正面に歌唱者が居て、音源51に対応する歌唱音を聴いている様に知覚することができる。
【0035】
第2定位処理部122は、歌唱者の音源51の間接音の音像をオブジェクトベース処理またはチャンネルベース処理のいずれかで定位させる第2定位処理を行う。
図5は、間接音の音像として、オブジェクトベース処理により、空間R1の壁面で6つの反射音53V1~53V6を定位させる例を示す。
【0036】
選択部151がオブジェクトベース処理を選択した場合、オブジェクトベース処理部192は、反射音53V1~53V6の位置に基づいて、歌唱者の音源51の音信号に対し、HRTFを畳み込む処理を行う。オブジェクトベース処理部192は、例えば音源の位置、3DCADデータ等に基づく会場の壁面の位置、および受聴点の位置に基づいて、受聴点から見た反射音の位置を計算し、当該反射音の位置に音像を定位させるHRTFを音源の音信号に畳み込む。すなわちこの場合、オブジェクトベース処理部192は、6つのHRTFの畳み込み処理を行う。なお、反射音53V1~53V6の位置は、例えばある会場(例えば実際のライブ会場)で複数のマイクを用いてインパルス応答を測定することで取得してもよい。
【0037】
これにより、音処理装置1の利用者は、空間R1における音源51の響きを明瞭に知覚することできる。
【0038】
一方で、反射音の数が多くなるほど演算量は増大する。
図5の例では説明のために6つの反射音を定位させる場合を示したが、実際の空間における反射音の数は、数十あるいは数百になる場合もある。
【0039】
そこで、本実施形態の音処理装置1は、選択部151において音源または空間に関する条件に基づいて、オブジェクトベース処理またはチャンネルベース処理のいずれかを選択する。本実施形態の例では、選択部151は、音源の重要度または空間の重要度に基づいて、オブジェクトベース処理またはチャンネルベース処理のいずれかを選択する。例えば、選択部151は、所定の閾値(例えば重要度6)以上の音源または空間についてオブジェクトベース処理を選択する。例えば
図4の例では、選択部151は、重要度10(ボーカル)および重要度6(ギター)の音源について、オブジェクトベース処理を選択する。あるいは、選択部151は、
図4に示す重要度10(教会)、重要度8(ホール)、重要度6(ルーム)の空間が指定された場合に、オブジェクトベース処理を選択する。上述した様に、空間の情報は、予めコンテンツの作成者が指定する場合もあるし、音処理装置1の利用者がユーザI/F16を介して指定する場合もある。例えば予めコンテンツの作成者が教会の空間を指定した場合でも、音処理装置1の利用者が重要度2のスタジオの空間を指定した場合、選択部151は、重要度が閾値未満であると判断してチャンネルベース処理を選択してもよい。あるいは、コンテンツがゲーム等の複数の空間を含む場合に、利用者がユーザI/F16を介して仮想的なワールド空間内のキャラクタのオブジェクト(受聴者の位置)を、ある空間(例えば教会)から別のある空間(例えばスタジオ)に移動させた場合、選択部151は、オブジェクトベース処理を選択した状態から、チャンネルベース処理を選択した状態に変更する。
【0040】
チャンネルベース処理は、複数の反射音に係る音信号を、所定のレベル比で複数チャンネル(本実施形態ではLチャンネルおよびRチャンネル)に分配する処理である。チャンネルベース処理部191は、反射音の位置情報および受聴点の位置に基づいて、反射音の到来方向を計算する。そして、チャンネルベース処理部191は、到来方向に基づくレベル比で、音源の音信号をLチャンネルおよびRチャンネルに分配する。例えば、LチャンネルおよびRチャンネルに同じレベルで分配すれば、利用者は左右の中心に音源の定位感を得る。Rチャンネルの音信号のレベルが大きいほど利用者は右方向に音源の定位感を得る。Lチャンネルの音信号のレベルが大きいほど利用者は左方向に音源の定位感を得る。
【0041】
また、チャンネルベース処理部191は、反射音の位置情報および受聴点の位置に基づいて、受聴点と反射音の位置との距離を計算してもよい。チャンネルベース処理部191は、計算した距離に基づく遅延を音源の音信号に分配付与してもよい。遅延量が大きいほど利用者は遠い位置に音源の定位感を得る。遅延量が小さいほど利用者は近い位置に音源の定位感を得る。このように、チャンネルベース処理部191は、遅延を付与することで、距離感を与えてもよい。
【0042】
なお、音処理装置1は、チャンネルベース処理においても、LチャンネルおよびRチャンネルに分配した後の音信号に、それぞれHRTFを畳み込む処理を行ってもよい。
図6は、音源と受聴者の位置関係を示す模式図である。この場合のHRTFは、例えば、受聴者50の前方、左側に存在するLチャンネルスピーカ53Lおよび右側に存在するRチャンネルスピーカ53Rの位置に音像が定位する様な伝達関数に対応する。これにより、ヘッドフォン20で反射音を聴いている利用者は、頭内から離れた前方、左側および右側に仮想的に存在するスピーカからLチャンネルおよびRチャンネルの音が再生されている様に知覚できる。チャンネルベース処理部191は、この様な仮想的なスピーカから音が再生されている様に知覚する状態において上記の遅延を付与することで、利用者に反射音との距離感を強く感じさせることができ、間接音の定位感を向上させることができる。
【0043】
また、この例のチャンネル数は2つであるが、チャンネル数は2つに限らない。例えば、チャンネルは、受聴者の後方のサラウンドチャンネル、あるいは高さ方向のハイトチャンネルを含んでいてもよい。チャンネルベース処理部191は、サラウンドチャンネルあるいはハイトチャンネルに音信号を分配してもよい。チャンネルベース処理部191は、分配した後の音信号に、それぞれHRTFを畳み込む処理を行ってもよい。この場合のHRTFは、サラウンドチャンネルあるいはハイトチャンネルに対応するスピーカの位置に音像が定位する様な伝達関数に対応する。これにより、ヘッドフォン20で反射音を聴いている利用者は、頭内から離れた後方または上方に仮想的に存在するスピーカから音が再生されている様に知覚することもできる。
【0044】
チャンネルベース処理では、複数の反射音をLチャンネルおよびRチャンネルの音信号に分配する処理であり、オブジェクトベース処理のように複雑なフィルタ処理を多数行うことがない。上記の様なLチャンネルスピーカ53LおよびRチャンネルスピーカ53Rの位置に音像が定位する様なHRTFを畳み込む処理を行っても、例えば10個の反射音をLチャンネルおよびRチャンネルに分配すれば、HRTFを畳み込む処理の負荷は1/10に低下する。したがって、チャンネルベース処理では、反射音の数が膨大になった場合でもオブジェクトベース処理に比べて演算量を著しく抑えることができる。
【0045】
そして、上記の例では、コンテンツの作成者は、音源毎または空間毎に間接音の重要性を考えて、音源毎または空間毎に重要度を設定している。例えば歌唱音やセリフ等の声に関する音源は、受聴者の注目度が高くなる傾向があるため、間接音の重要性も高くなる。そこで、コンテンツの作成者は、歌唱音やセリフ等の声に関する音源に高い重要度を設定する。一方で、声以外の音源(特にベースのような低音の楽器の音)は、受聴者の注目度が低くなる傾向があるため、間接音の重要性も低くなる。そこで、コンテンツの作成者は、声以外の音源に低い重要度を設定する。
【0046】
あるいは、例えばホールや教会等の様に特徴的で響きの多い空間は、間接音の重要性が高くなる。そこで、コンテンツの作成者は、ホールや教会等の特徴的で響きの多い空間に高い重要度を設定する。一方で、スタジオ等の響きの少ない空間は、間接音の重要性も低くなる。そこで、コンテンツの作成者は、スタジオ等の響きの少ない空間に低い重要度を設定する。
【0047】
あるいは、コンテンツの作成者が意図的に響きを聴かせたい音源または空間に対して、意図的に高い重要度を設定する場合もある。
【0048】
本実施形態の音処理装置1は、この様な重要度の高い音源(
図4の例ではボーカルおよびギターの音源)または重要度の高い空間(
図4の例ではルーム、ホール、および教会)についてオブジェクトベース処理を選択し、重要度の低い音源(
図4の例ではベースおよびドラムの音源)または重要度の低い空間(
図4の例ではスタジアムおよびスタジオ)についてチャンネルベース処理を選択することで、演算量を抑えながらも利用者に対して最適な響きの体験を提供することができる。
【0049】
(変形例1)
変形例1に係る音処理装置1は、音源の種別に基づいてオブジェクトベース処理またはチャンネルベース処理のいずれかを選択する。音源の種別は、例えば
図4に示した様にコンテンツの作成者が指定する。あるいは、音処理装置1が音信号を解析して音源の種別を判定してもよい。
【0050】
変形例1では、選択部151は、音源の種別に基づいてオブジェクトベース処理またはチャンネルベース処理のいずれかを選択する。
【0051】
例えば、選択部151は、歌唱音あるいはセリフ音等の声に関わる種別の音源である場合に、オブジェクトベース処理を選択する。また、選択部151は、声以外の種別の音源である場合にチャンネルベース処理を選択する。
【0052】
また、選択部151は、効果音に関わる種別の音源である場合に、オブジェクトベース処理を選択する。また、選択部151は、環境音に関わる種別の音源である場合にチャンネルベース処理を選択する。
【0053】
これにより、音処理装置1の利用者は、注目度の高い種別の音源の響きを知覚し易くなる。また、注目度の低い種別の音源はチャンネルベース処理により演算量を著しく抑えることができる。したがって、変形例1の音処理装置1は、演算量を抑えながらも利用者に対して最適な響きの体験を提供することができる。
【0054】
(変形例2)
変形例2では、選択部151は、空間の種別に基づいてオブジェクトベース処理またはチャンネルベース処理のいずれかを選択する。空間の種別は、
図4に示したように予めコンテンツの作成者がGUI等のツールで指定してもよいし、音処理装置1の利用者がユーザI/F16を介して指定してもよい。例えば、音処理装置1の利用者は、あるコンサートのコンテンツを聴いている場合に、会場の種別をホールからルームに変更したり、教会に変更したりして、異なる響きを体感することができる。
【0055】
選択部151は、指定された空間の種別に基づいてオブジェクトベース処理またはチャンネルベース処理のいずれかを選択する。例えば、選択部151は、教会あるいはホール等の特徴的で響きの多い種別の空間である場合に、オブジェクトベース処理を選択する。また、選択部151は、スタジオ等の響きの少ない種別の空間である場合にチャンネルベース処理を選択する。
【0056】
これにより、特徴的で響きの多い種別の空間に関わるコンテンツを再生する場合、音処理装置1の利用者は、該空間の響きを知覚し易くなり、該空間をよりリアルに体感することができる。また、響きの少ない種別の空間に関わるコンテンツを再生する場合には演算量を著しく抑えることができる。したがって、変形例2の音処理装置1は、演算量を抑えながらも利用者に対して最適な響きの体験を提供することができる。
【0057】
(変形例3)
変形例3では、選択部151は、音源の静的特性に基づいてオブジェクトベース処理またはチャンネルベース処理のいずれかを選択する。
【0058】
音源の静的特性とは、例えば音源の音量または音質(周波数特性)に関する情報である。選択部151は、音量の大きい(例えば所定値以上のレベルを有する)音源である場合に、オブジェクトベース処理を選択する。また、選択部151は、音量の小さい(例えば所定値未満のレベルを有する)音源である場合にチャンネルベース処理を選択する。
【0059】
また、受聴者は、高周波数帯域の音について方向感を強く感じることができる。そこで、選択部151は、高周波数帯域に高いレベルを有する(例えば1kHz以上の帯域のパワーが所定値以上である)音源である場合に、オブジェクトベース処理を選択する。選択部151は、高周波数帯域に低いレベルを有する(例えば1kHz以上の帯域のパワーが所定値未満である)音源である場合に、チャンネルベース処理を選択する。
【0060】
これにより、音処理装置1の利用者は、注目度の高くなる特性を有する音源の響きを明瞭に知覚することできる。また、注目度の低くなる特性を有する音源はチャンネルベース処理により演算量を著しく抑えることができる。したがって、変形例3の音処理装置1は、演算量を抑えながらも利用者に対して最適な響きの体験を提供することができる。
【0061】
(変形例4)
変形例4では、選択部151は、音源の動的特性に基づいてオブジェクトベース処理またはチャンネルベース処理のいずれかを選択する。
【0062】
音源の動的特性とは、例えば音源の位置と受聴点の位置との距離、または音源の移動量に関する情報である。受聴点に近い、あるいは移動量の大きい音源は受聴者の注目度が高くなる。
【0063】
選択部151は、例えば音源に近い(音源の位置と受聴点の位置との距離が所定値以下になる)音源である場合に、オブジェクトベース処理を選択する。選択部151は、音源から遠い(音源の位置と受聴点の位置との距離が所定値より大きい)音源である場合に、チャンネルベース処理を選択する。
【0064】
また、選択部151は、例えば移動量の多い(単位時間あたりの移動量が所定値以上となる)音源である場合に、オブジェクトベース処理を選択する。選択部151は、例えば移動量の少ない(単位時間あたりの移動量が所定値未満となる)音源である場合に、チャンネルベース処理を選択する。
【0065】
これにより、音処理装置1の利用者は、注目度の高い音源の響きを明瞭に知覚することできる。また、注目度の低くなる音源はチャンネルベース処理により演算量を著しく抑えることができる。したがって、変形例4の音処理装置1は、演算量を抑えながらも利用者に対して最適な響きの体験を提供することができる。
【0066】
(変形例5)
変形例5では、選択部151は、空間の静的特性に基づいてオブジェクトベース処理またはチャンネルベース処理のいずれかを選択する。
【0067】
空間の静的特性とは、空間の響きの数(反射音の数)に関する情報である。反射音の数は、例えば空間を構成する壁面の反射率によって定まる。壁面の反射率が高い場合、反射音の数は多くなる。壁面の反射率が低い場合、反射音の数は少なくなる。選択部151は、反射音の多い(壁面の反射率が所定以上となる)空間である場合に、オブジェクトベース処理を選択する。選択部151は、例えば反射音の少ない(壁面の反射率が所定値未満となる)空間である場合に、チャンネルベース処理を選択する。
【0068】
これにより、反射音の多い空間に関わるコンテンツを再生する場合、音処理装置1の利用者は、該空間の響きを知覚し易くなり、該空間をよりリアルに体感することができる。また、反射音の少ない空間に関わるコンテンツを再生する場合には演算量を著しく抑えることができる。したがって、変形例5の音処理装置1は、演算量を抑えながらも利用者に対して最適な響きの体験を提供することができる。
【0069】
(変形例6)
変形例6では、選択部151は、空間の動的特性に基づいてオブジェクトベース処理またはチャンネルベース処理のいずれかを選択する。
【0070】
空間の動的特性とは、空間を構成する壁面の位置と受聴点の位置との距離に関する情報である。選択部151は、例えば受聴点と壁面の位置が近い(受聴点の位置と壁面の位置との距離が所定値以下になる)場合に、オブジェクトベース処理を選択する。選択部151は、受聴点と壁面の位置が遠い(受聴点の位置と壁面の位置との距離が所定値より大きい)である場合に、チャンネルベース処理を選択する。
【0071】
これにより、受聴者は、壁面に近く、反射音に注目しやすい状況の場合により響きを知覚し易くなり、空間の響きを明瞭に知覚することできる。また、壁面から遠く、反射音の注目度が低くなる場合に演算量が著しく抑制される。したがって、変形例6の音処理装置1は、演算量を抑えながらも利用者に対して最適な響きの体験を提供することができる。
【0072】
(変形例7)
変形例7の音処理装置1は、第2定位処理を施す機器の処理能力に関する条件を受け付け、該処理能力に基づいて、オブジェクトベース処理またはチャンネルベース処理を選択する。
【0073】
処理能力は、例えば、プロセッサのコア数、スレッド数、クロック周波数、キャッシュ容量、バス速度、あるいは使用率等である。選択部151は、例えばプロセッサのコア数、スレッド数、クロック周波数、キャッシュ容量、およびバス速度が所定値以上である場合に、オブジェクトベース処理を選択する。選択部151は、プロセッサのコア数、スレッド数、クロック周波数、キャッシュ容量、およびバス速度が所定値未満である場合に、チャンネルベース処理を選択する。
【0074】
選択部151は、プロセッサの使用率が所定値以下である場合に、オブジェクトベース処理を選択してもよい。選択部151は、プロセッサの使用率が所定値より高い場合に、チャンネルベース処理を選択してもよい。プロセッサの使用率は、機器の処理負荷に応じて変化する。この場合、選択部151は、プロセッサの処理負荷に応じてオブジェクトベース処理またはチャンネルベース処理の選択を動的に切り替える。なお、オブジェクトベース処理とチャンネルベース処理を切り替える閾値は、音処理装置1の利用者が指定してもよい。利用者は、例えば省電力を重視したい場合には、閾値を低い値に指定する。
【0075】
これにより、変形例7の音処理装置1は、演算量を抑えながらも利用者に対して最適な響きの体験を提供することができる。
【0076】
(変形例8)
音情報は、複数の音源のグループ情報を含んでいてもよい。コンテンツの作成者は、コンテンツの作成時に所定のツールを用いて、複数の音源をあるグループに指定する。コンテンツの作成者は、例えばあるキャラクタのセリフの音源と、当該キャラクタの装着している物の音、足音、当該キャラクタに付随する効果音等を同じグループに指定する。同じグループに指定された複数の音源は、同一の条件が設定される。
【0077】
選択部151は、例えば声に関わる種別の音源である場合、あるいは重要度の高い音源である場合に、当該音源と同じグループに属する全ての音源について、オブジェクトベース処理を選択する。
【0078】
これにより、注目度の高い音源に付随する効果音には全てオブジェクトベース処理が適用される。したがって、変形例8の音処理装置1は、演算量を抑えながらも利用者に対してより違和感の無い、最適な響きの体験を提供することができる。
【0079】
本実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲は、特許請求の範囲と均等の範囲を含む。
【符号の説明】
【0080】
1 :音処理装置
11 :通信部
12 :プロセッサ
13 :RAM
14 :フラッシュメモリ
15 :表示器
16 :ユーザI/F
17 :オーディオI/F
20 :ヘッドフォン
50 :受聴者
51 :音源
53L :Lチャンネルスピーカ
53R :Rチャンネルスピーカ
53V1 :反射音
110 :信号処理部
120 :受信部
121 :第1定位処理部
122 :第2定位処理部
150 :条件受付部
151 :選択部
171 :オブジェクトベース処理部
191 :チャンネルベース処理部
192 :オブジェクトベース処理部