IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

<>
  • 特許-音声処理装置およびプログラム 図1
  • 特許-音声処理装置およびプログラム 図2
  • 特許-音声処理装置およびプログラム 図3
  • 特許-音声処理装置およびプログラム 図4
  • 特許-音声処理装置およびプログラム 図5
  • 特許-音声処理装置およびプログラム 図6
  • 特許-音声処理装置およびプログラム 図7
  • 特許-音声処理装置およびプログラム 図8
  • 特許-音声処理装置およびプログラム 図9
  • 特許-音声処理装置およびプログラム 図10
  • 特許-音声処理装置およびプログラム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-04
(45)【発行日】2024-07-12
(54)【発明の名称】音声処理装置およびプログラム
(51)【国際特許分類】
   H04S 7/00 20060101AFI20240705BHJP
【FI】
H04S7/00 320
【請求項の数】 11
(21)【出願番号】P 2020148410
(22)【出願日】2020-09-03
(65)【公開番号】P2022042806
(43)【公開日】2022-03-15
【審査請求日】2023-08-04
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100141139
【弁理士】
【氏名又は名称】及川 周
(74)【代理人】
【識別番号】100171446
【弁理士】
【氏名又は名称】高田 尚幸
(74)【代理人】
【識別番号】100114937
【弁理士】
【氏名又は名称】松本 裕幸
(74)【代理人】
【識別番号】100171930
【弁理士】
【氏名又は名称】木下 郁一郎
(72)【発明者】
【氏名】北島 周
(72)【発明者】
【氏名】伊藤 敦郎
(72)【発明者】
【氏名】松井 健太郎
【審査官】大野 弘
(56)【参考文献】
【文献】特表2017-511048(JP,A)
【文献】特表2019-525571(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04S 7/00
(57)【特許請求の範囲】
【請求項1】
所定のマスキングモデルを用いて、複数の音源の音声信号のレベルから、音源ごとに他の音源に対するマスキング量を定めるマスキング量決定部と、
音源ごとの音源位置を示す音源位置情報を取得し、
聴取位置からの距離がより大きい音源の音声信号のレベルが、前記距離がより小さい音源の音声信号に対して相対的に低減するように、前記マスキング量に基づいて少なくともいずれかの音源の補正量を定める補正量決定部と、
前記補正量に基づいて当該補正量に係る音源の音声信号のレベルを補正する補正部と、 音源ごとの音声信号から前記音源位置情報で示される当該音源の音源位置に音を知覚させるための再生信号を生成するレンダリング部と、
を備える音声処理装置。
【請求項2】
前記聴取位置を示す聴取位置情報を取得し、前記聴取位置情報が示す聴取位置からの距離がより小さい音源をマスカー、または前記距離より大きい音源をマスキーとして判定する距離関係判定部を備える
請求項1に記載の音声処理装置。
【請求項3】
前記補正量決定部は、
前記距離の音源間の差が小さいほど、前記補正量として前記距離がより小さい音源に対するマスキングの補償量が大きくなるように定める
請求項1または請求項2に記載の音声処理装置。
【請求項4】
前記補正量決定部は、
前記距離の音源間の差が小さいほど、前記補正量として前記距離がより大きい音源に対するマスキングの強調量が大きくなるように定める
請求項1から請求項3のいずれか一項に記載の音声処理装置。
【請求項5】
前記補正量決定部は、
所定の時間幅を有するフレームごとに、前記レベルの変化量を算出し、
前記変化量が大きいほど、前記補正量をより低減する
請求項1から請求項4のいずれか一項に記載の音声処理装置。
【請求項6】
前記補正量決定部は、
所定の時間幅を有するフレームごとに、前記補正量を算出し、
前記レベルに基づいて音源ごとに音が提示されたか否かを判定し、
第1の音源よりも遅く第2の音源の音声の提示が開始されるとき、前記第1の音源または前記第2の音源に対する補正量をより低減する
請求項1から請求項4のいずれか一項に記載の音声処理装置。
【請求項7】
前記マスキング量決定部は、
音源ごとの音声信号のレベルを、前記距離に応じて調整し、
調整した前記音声信号のレベルに基づいて前記マスキング量を定める
請求項1から請求項6のいずれか一項に記載の音声処理装置。
【請求項8】
前記マスキング量決定部は、
音源ごとの音声信号のレベルに、当該音源の音源位置から前記聴取位置までの伝達関数を作用して前記レベルを調整する
請求項7に記載の音声処理装置。
【請求項9】
前記補正量決定部は、
前記聴取位置から複数の音源それぞれの音源方向間の角度が大きいほど、当該複数の音源の少なくともいずれかの音源の前記補正量が小さくなるように定める
請求項1から請求項8のいずれか一項に記載の音声処理装置。
【請求項10】
前記補正量決定部は、
所定の時間幅を有するフレームごとに補正量を算出し、
現フレームまでの所定数のフレームを含む期間における前記補正量の移動平均値を定める
請求項1から請求項8のいずれか一項に記載の音声処理装置。
【請求項11】
コンピュータに、
請求項1から請求項10のいずれか一項に記載の音声処理装置として
機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声処理装置およびプログラム、例えば、立体音響再生技術に関する。
【背景技術】
【0002】
拡張現実(AR:Augmented Reality)や仮想現実(VR:Virtual Reality)、高精細映像など高い臨場感をもたらすコンテンツの需要が高まっている。これに伴い、立体音響技術が普及しつつある。立体音響技術は、聴取者に対して立体的に知覚させる音情報を提示または制御するための技術的手段である。立体音響を実現する音響再生システムとして、22.2チャンネル音響、5.1チャンネル音響などのマルチチャンネル音響、バイノーラル技術、波面合成技術などが代表的な方式として提案されていた。そのうち、バイノーラル技術と波面合成技術は、聴覚的または物理的に知覚目標とする音源に基づく音場を厳密に再現することを目指す手法である。
【0003】
バイノーラル方式は、特許文献1に記載されているように音源から聴取者の左右各耳までの頭部伝達関数(HRTF:Head Related Transfer Function)を音源信号に畳み込んで左右各チャンネルの再生信号を生成する手法である。聴取者は、再生信号に基づいて提示される音を受聴することで、目標とする音源の位置を知覚することができる。
波面合成方式は、所定の領域内の音場が目標とする位置に設置された音源からの音場と極力一致するように音波の波面を合成する音響再生方式である。波面を合成するために、キルヒホッフ・ヘルムホルツ(Kirchhoff-Helmholtz)積分方程式が用いられる。聴取者は、所定の領域に提示される音を受聴することで、音源の位置を知覚することができる。
これらの音響再生方式によれば、原理上は音空間において任意の音源位置への音像定位を実現させることができるはずである。しかしながら、目標とする空間的知覚を実現することは未だに課題として残される。これは、再生に係る音源の配置などの物理的な制約や、バイノーラル方式に用いる頭部伝達関数の測定誤差などにより、目標とする知覚をもたらすための音場を再現することが困難なことが一因である。また、人間の聴覚における空間知覚特性も必ずしも鋭敏かつ再現性が高いとは限らない。
【0004】
他方、位置が異なる複数の音源から受聴者の両耳に到来する音は、それぞれの音源の方向や距離に基づく物理的特性を有する。人間には、これらの物理的特性の違いを手掛かりとして個々の音源の音源を識別する能力を備える。かかる能力を利用した音声処理技術も提案されていた。例えば、特許文献2には、マルチチャンネル感知オーディオ入力のサブバンドパワー推定値、雑音基準のサブバンドパワー推定値に基づいて再生オーディオ信号入力の周波数サブバンドの利得を増加させて了解度を向上させる方法について記載されている。特許文献3には、使用者の位置方向に応じて所定の周波数を有する第1音成分と、より高い周波数を有する第2音成分を別々の出力先に振り分ける音処理方法について記載されている。これらの手法は、いずれも2つの音の物理的特性の違いに基づいてマスキングの影響を低減する手法であり、個々の音源が提示対象とする対象音と雑音である場合に対象音の了解度を向上させることを目的とする。
【先行技術文献】
【特許文献】
【0005】
【文献】特開平10-174200号公報
【文献】特許第5456778号公報
【文献】特許第4126026号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、対象音が複数の場合までは、個々の音の聴感に対して十分に考慮されていなかった。例えば、特許文献2、3に記載の手法では、個々の対象音を区別せずに一律に処理を行う。そのため、個々の対象音をそのまま重畳して再生しても、受聴者は個々の対象音を明確に識別できないことがあった。
【0007】
また、人間の聴覚による空間知覚能力は、視覚による空間知覚能力よりも劣ることが知られている。仮に、厳密に実空間において再生された音の音場を立体音響技術により再現できたとしても、聴取者に対して意図通りの音空間を知覚させることができるとは限らない。とりわけ、聴覚における空間知覚のうち距離知覚に関しては、方位角方向(水平方向)や仰角方向(垂直方向)よりもあいまいになりがちである。たとえ、距離が異なる音源から到来する音の音場を厳密に再現できたとしても、聴取者はその音源の距離を正しく識別することができない可能性が高い。この点は、視覚によれば映像に表された複数の対象物の相対的な距離の違いを比較的に容易に知覚されうる点とは大きく異なる。例えば、複数の対象物の相対的な大きさの違いや、前方に表される対象物に対して後方に表される対象物の遮蔽の有無やその度合いが時間経過に応じて変動することが個々の知覚に対する手掛かりとなる。
【0008】
本発明は上記の点に鑑みてなされたものであり、受聴者に対して複数の音に対する距離知覚の識別性を向上することができる音声処理装置、音声処理方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明は上記の課題を解決するためになされたものであり、[1]本発明の一態様は、所定のマスキングモデルを用いて、複数の音源の音声信号のレベルから、音源ごとに他の音源に対するマスキング量を定めるマスキング量決定部と、音源ごとの音源位置を示す音源位置情報を取得し、聴取位置からの距離がより大きい音源の音声信号のレベルが、前記距離がより小さい音源の音声信号に対して相対的に低減するように、前記マスキング量に基づいて少なくともいずれかの音源の補正量を定める補正量決定部と、前記補正量に基づいて当該補正量に係る音源の音声信号のレベルを補正する補正部と、音源ごとの音声信号から前記音源位置情報で示される当該音源の音源位置に音を知覚させるための再生信号を生成するレンダリング部と、を備える音声処理装置である。
[1]の構成によれば、音源間のマスキング量に基づいて、複数の音源の音声信号のレベルが、聴取位置からの距離が大きい音源ほど相対的に低減する。音源間の距離の違いによる音の明瞭度の違いが自然に強調されるので、複数の音源に対する距離知覚の識別性を向上することができる。
【0010】
[2]本発明の一態様は、上述の音声処理装置であって、前記聴取位置を示す聴取位置情報を取得し、前記聴取位置情報が示す聴取位置からの距離がより小さい音源をマスカー、または前記距離より大きい音源をマスキーとして判定する距離関係判定部を備えてもよい。
[2]の構成によれば、時間経過に伴い変化する聴取位置に応じて、複数の音源間の距離関係を判定することができる。そのため、聴取者の移動等による聴取位置の変化に応じた距離関係に基づいて、複数の音源に対する距離知覚を強調することできる。
【0011】
[3]本発明の一態様は、上述の音声処理装置であって、前記補正量決定部は、前記距離の音源間の差が小さいほど、前記補正量として前記距離がより小さい音源に対するマスキングの補償量が大きくなるように定めてもよい。
[3]の構成によれば、音源間の距離の差が小さいほど、マスキングの補償量を大きくすることで、聴取位置からの距離がより小さい音源に対するマスキングの影響が軽減されるので、聴取位置に近接した音源からの音が明瞭に知覚され、他の音源との距離知覚の差異を強調することができる。
【0012】
[4]本発明の一態様は、上述の音声処理装置であって、前記補正量決定部は、前記距離の音源間の差が小さいほど、前記補正量として前記距離がより大きい音源に対するマスキングの強調量が大きくなるように定めてもよい。
[4]の構成によれば、音源間の距離の差が小さいほど、マスキングの強調量を大きくすることで、聴取位置からの距離がより大きい音源に対するマスキングの影響が強調されるので、聴取位置から遠い音源からの音の明瞭度が低下させ、他の音源との距離知覚の差異を強調することができる。
【0013】
[5]本発明の一態様は、上述の音声処理装置であって、前記補正量決定部は、所定の時間幅を有するフレームごとに、前記レベルの変化量を算出し、前記変化量が大きいほど、前記補正量をより低減してもよい。
[5]の構成によれば、レベルの変化が著しいほど、マスキングに基づく補正量が低減される。変化量が大きい区間に対しては、補正による聴感に対する影響が緩和されるため、自然な知覚を損ねずに維持することができる。
【0014】
[6]本発明の一態様は、上述の音声処理装置であって、前記補正量決定部は、所定の時間幅を有するフレームごとに、前記補正量を算出し、前記レベルに基づいて音源ごとに音が提示されたか否かを判定し、第1の音源よりも遅く第2の音源の音声の提示が開始されるとき、前記第1の音源または前記第2の音源に対する補正量をより低減してもよい。
[6]の構成によれば、後発的に第2の音源から音が提示されることになる場合、音の提示開始時における補正量が低減する。新たな音の提示開始時における敏感な聴感に対する影響が緩和されるため、自然な知覚を損ねずに維持することができる。
【0015】
[7]本発明の一態様は、上述の音声処理装置であって、前記マスキング量決定部は、音源ごとの音声信号のレベルを、前記距離に応じて調整し、調整した前記音声信号のレベルに基づいて前記マスキング量を定めてもよい。
[7]の構成によれば、聴取位置からの距離に対応した音声信号のレベルに基づくマスキング量に基づいて補正量が定まる。そのため、音源ごとの聴取位置からの距離の差異に応じて音源間の知覚の差異を自然に強調することができる。
【0016】
[8]本発明の一態様は、上述の音声処理装置であって、前記マスキング量決定部は、
音源ごとの音声信号のレベルに、当該音源の音源位置から前記聴取位置までの伝達関数を作用して前記レベルを調整してもよい。
[8]の構成によれば、音源ごとの音源位置から聴取位置までの音の伝達関数に基づいて音声に対応した音声信号のレベルに基づくマスキング量に基づいて補正量が定まる。そのため、音源ごとの聴取位置からの音の伝達特性の差異に応じて音源間の知覚の差異を自然に強調することができる。
【0017】
[9]本発明の一態様は、上述の音声処理装置であって、前記補正量決定部は、前記聴取位置から複数の音源それぞれの音源方向間の角度が大きいほど、当該複数の音源の少なくともいずれかの音源の前記補正量が小さくなるように定めてもよい。
[9]の構成によれば、聴取位置からの複数の音源のそれぞれの音源方向が異なるほど補正量が小さくなるように定まる。音源方向の差異により複数の音源が識別され、補正による聴感に対する影響を低減することができる。
【0018】
[10]本発明の一態様は、上述の音声処理装置であって、前記補正量決定部は、所定の時間幅を有するフレームごとに補正量を算出し、現フレームまでの所定数のフレームを含む期間における前記補正量の移動平均値を定めてもよい。
[10]の構成によれば、フレームごとの補正量の変化が緩和されるため、補正量の急激な変化に対する聴感に対する影響を緩和することができる。
【0019】
[11]本発明の一態様は、コンピュータに、[1]から[10]のいずれかの音声処理装置として機能させるためのプログラムであってもよい。
[11]の構成によれば、コンピュータの制御により音源間のマスキング量に基づいて、複数の音源の音声信号のレベルが、聴取位置からの距離が大きい音源ほど相対的に低減することができる。音源間の距離の違いによる音の明瞭度の違いが自然に強調されるので、複数の音源に対する距離知覚の識別性を向上することができる。
【発明の効果】
【0020】
本発明によれば、受聴者に対して複数の音に対する距離知覚の識別性を向上することができる。
【図面の簡単な説明】
【0021】
図1】本実施形態に係る音声処理システムの構成を示す概略ブロック図である。
図2】音源の距離関係の例を示す図である。
図3】継時マスキングに係るマスキング量の例を示す図である。
図4】音源ごとのマスキング量の一例を示す図である。
図5】マスキング強調量の設定例を示す図である。
図6】音源ごとのマスキング量の他の例を示す図である。
図7】マスキング補償量の設定例を示す図である。
図8】音声の立ち上がりの例を示す図である。
図9】音源の提示開始時刻の例を示す図である。
図10】音源の位置関係の例を示す図である。
図11】音源の位置関係の他の例を示す図である。
【発明を実施するための形態】
【0022】
以下、図面を参照しながら本発明の実施形態について説明する。
図1は、本実施形態に係る音声処理システム1の構成を示す概略ブロック図である。
音声処理システム1は、音声処理装置10と再生部20を含んで構成される。
音声処理装置10は、複数の音源のそれぞれについて、音声信号と音源位置情報を関連付けて取得する。音声処理装置10は、音源ごとに取得された音声信号に対して、その音源に関する音源位置情報で示される音源位置へのレンダリング(rendering)を行う。本願では、レンダリングとは、その音源位置に音像(sound image)を定位(localization)させるための再生信号を生成する処理を指す。定位とは、ある位置または方向に知覚させることを意味し、必ずしも現実にその位置または方向に音源が存在するとは限らない。本願ではスピーカ、ヘッドホンなどレンダリングにより音波を発生する機器を実音源と呼ぶことにより、個々の音声信号に係る物体としての音源と区別する。
【0023】
音声処理装置10は、個々の音源の音声信号について、所定のマスキングモデルを用いて他の音源に対するマスキング量を定める。音声処理装置10は、少なくともいずれかの音源について定めたマスキング量に基づいて、聴取位置からの距離がより大きい音源の音声信号の強度が、聴取位置からの距離がより小さい音源の音声信号よりも相対的に低減するように、当該音源の音声信号の補正量を定める。音声処理装置10は、定めた補正量に基づいて当該音源の音声信号のレベルを補正し、レベルを補正した音源の音声信号に対して、取得された音源位置情報で示される音源位置へのレンダリングを行う。
【0024】
再生部20は、音声処理装置10から入力される再生信号に基づいて、所定の再生方式を用いて音を再生する。再生部20は、複数の実音源を備える。再生方式がバイノーラル方式である場合には、再生部20は、実音源として2チャンネルのステレオヘッドホンまたはイヤホンを備える。再生方式がマルチチャンネル音響である場合には、再生部20は、その方式で規定された位置に配置された、所定の個数(例えば、4~24個)のスピーカを実音源として備える。再生方式が波面合成法である場合には、再生部20は、二次元平面または三次元空間内に配置された多数(例えば、10~100個)のスピーカを実音源として備える。
【0025】
次に、本実施形態に係る音声処理装置10の機能構成例について説明する。
音声処理装置10は、入力部110、距離関係判定部120、周波数分析部125、マスキング量決定部130、補正量決定部140、補正部150およびレンダリング部160を備える。補正量決定部140は、強調量決定部142および補償量決定部144を備える。
【0026】
入力部110には、複数の音源のそれぞれについて、音源位置情報と音声信号を関連付けたセットが入力される。音源位置情報は、例えば、メタ情報の一部として音声信号に付加される。音源位置情報は、所定のデータ多重化方式(例えば、MMT:MPEG Media Transport方式)に従って関連する音声信号と並列に多重化された多重化データから分離された情報であってもよい。音源位置情報は、所定のマークアップ言語(例えば、HTML(Hyper Text Mark-up Language)、XML(Extensible Mark-up language)など)で記述されたハイパーテキストから抽出された情報要素として、音声信号と関連付けて記述された情報であってもよい。入力部110は、音源ごとの音源位置情報を距離関係判定部120に出力し、音声信号を周波数分析部125に出力する。入力部110は、入出力インタフェース、放送または通信で伝送された多重化信号の分離回路のいずれの形態で実現されてもよい。
【0027】
距離関係判定部120は、入力部110から入力される音源ごとの音源位置情報が示す音源位置を特定し、聴取位置から特定した音源位置の聴取位置への距離を用いて、音源間の距離関係を判定する。距離関係判定部120は、音源間の距離関係、即ち、音源ごとに他の音源との距離の大小関係を示す距離関係情報を補正量決定部140に出力する。
ここで、距離関係判定部120は、聴取位置からの距離がより大きい音源を、距離がより小さい他の音源によるマスキング(Masking)の影響を受けるマスキー(Maskee)と判定し、その距離がより小さい他の音源をマスカー(Masker)として判定する。つまり、距離関係判定部120は、相対的に距離がより小さい音源を、距離がより大きい他の音源に対してマスキングの影響をもたらすマスカーと判定し、その距離がより大きい他の音源をマスキーとして判定する。ここで、距離がより小さい音源、距離がより大きい音源を、それぞれマスカー、マスキーと呼ぶのは、聴取位置からの距離が大きい音は、伝搬による減衰のために、より距離が小さい音によってかき消されがちなためである。距離関係判定部120により判定されるマスカー、マスキーは、それぞれ近接音源、遠隔音源と言い換えられてもよい。
【0028】
一般に、マスキングは、ある音が他の音の提示により聞こえなくなる現象を意味する。一般に、マスキングが生じるとき、マスキングが生じないときよりも、マスキーとする音源が提示する音(以下、マスキー音)に対して知覚される音量(ラウドネス)が低下する。本来、複数の音源から音が同時に提示される場合、どの音がマスカーとなり、またはマスキーとなるかは、聴取者の主観的な判断に依存する。即ち、聴取者が聴取対象として関心を有する音(例えば、音声、音楽、など)がマスキーとなり、聴取対象として関心を有しない音(例えば、騒音、など)がマスカーとなる。距離関係判定部120は、聴取位置から音源位置までの距離に基づいて、便宜的にマスカーとマスキーの関係を定めている。
【0029】
次に、距離関係の判定例について説明する。図2は、聴取者Lsの位置である聴取位置に対して右前方の同一方向に2個の音源A、Bが設置され、聴取位置から音源Aまでの距離dよりも聴取位置から音源Bまでの距離dの方が大きい場合を例示している。この場合、距離関係判定部120は、距離dがより小さく、聴取者Lsに対してより前方に設置された音源Aをマスカーとして判定する。他方、距離関係判定部120は、距離dがより大きく、聴取者Lsに対してより後方に設置された音源Bをマスキーとして判定する。
【0030】
なお、音源位置情報に示される音源位置が聴取位置を原点とする相対的な位置を示す場合には、聴取位置が距離関係判定部120に明示的に設定されなくてもよい。
また、音源の数が3以上となる場合には、距離関係判定部120は、聴取位置からの距離が最も小さい音源をマスカーとして定め、その他の音源をマスキーとして定めてもよい。
【0031】
図1に戻り、周波数分析部125には、入力部110から音源ごとの音声信号が入力される。周波数分析部125は、入力された時間領域の音声信号に対して、所定の時間長(例えば、10ms~100ms)を有するフレームごとにフーリエ変換を行い、周波数領域の変換係数を生成する。個々の変換係数は、周波数ごとのレベルと位相を示す複素数となる。周波数分析部125は、音源ごとに生成した各周波数の変換係数を示す周波数分析情報をマスキング量決定部130と補正部150に出力する。
【0032】
マスキング量決定部130には、周波数分析部125から音源ごとの音声信号に対応する周波数分析情報が入力される。マスキング量決定部130は、予め自部に設定された所定のマスキングモデルに基づいて音源ごとに他の音源に対するマスキング量を定める。マスキングモデルは、あるレベルを有する音源の周波数(以下、マスカー周波数)ごとに、他の音源の周波数(以下、マスキー周波数)ごとの相対的な検出レベルを示すデータである。マスキングモデルとして、例えば、騒音レベルの測定方法の国際標準規格であるISO532Bに規定のマスキングチャートが利用可能である。マスキング量は、処理対象の対象音源がマスカーとなったとき、他の音源が聴取できるレベル(検出レベル)に相当する。マスカー周波数のマスカー、マスキー周波数のマスキーとは、必ずしも距離関係判定部120で判定されるマスカー、マスキーをそれぞれ指すものとは限らない。つまり、本願では、マスキング量は、ある音源からの音の提示中に、他の音源から提示される音を聴覚上知覚可能とする検出レベルを示す。
【0033】
マスキングモデルは、各マスカー周波数について、マスキー周波数ごとの検出レベルを示す対応表を示すデータ型式を有していてもよいし、そのマスキー周波数と検出レベルとの対応関係を示す所定の計算式のパラメータを有していてもよい。マスキング量決定部130は、ある音源に対して入力される周波数分析情報の周波数をマスカー周波数とする周波数成分ごとに、マスキングモデルを用いて個々のマスキー周波数に対する検出レベルを特定し、特定した検出レベルを周波数成分間で合成することで、そのマスキー周波数に係る他の音源に対するマスキング量を定めることができる。より具体的には、マスキング量決定部130は、マスキングモデルを用い、マスカー周波数に対応する個々のマスキー周波数の検出レベルと、マスカー周波数に相当する周波数の変換係数で示されるレベル(重み係数)との乗算値のマスカー周波数を跨ぐ総和である重み付け加算値を、それぞれマスキー周波数ごとのマスキング量として定める。マスキング量決定部130は、音源ごとに定めた他の音源に対するマスキング量を補正量決定部140に出力する。
【0034】
次に、マスキング量の例について説明する。図4(a)、(b)は、それぞれ音源A、Bから提示される音がレベルL、Lの周波数f、fの純音である場合のマスキング量の例を示す。この例では、レベルLは、レベルLよりも高く、周波数fは、周波数fよりも低い。図4において、縦軸、横軸は、それぞれ周波数f、マスキング量(レベル)を示す。マスキング量は、それぞれの音源が有する成分の周波数において最大となり、その周波数よりも離れるに従って減少する。
【0035】
図4(a)に示す例では、周波数fにおいてマスキング量が最大となり、周波数fにおけるマスキング量は、周波数fの周囲の周波数fにおけるマスキング量よりも特異的に大きい。周波数fが周波数fよりも低くなるほど、または、周波数fが周波数fよりも高くなるほど、マスキング量が減少する。このことは、マスカーと周波数成分が類似するマスキーほど、マスキングの影響を強く受けやすいことを示す。同様な傾向は、図4(b)にも認められる。なお、純音は単一の周波数成分しか有しない。図4(a)、(b)に示すマスキング量は、マスキングモデルで示されるマスカー周波数がそれぞれf、fである場合のマスキー周波数ごとの検出レベルに相似する。
【0036】
なお、図4(c)は、音源A、Bからの音が同時に提示される場合、マスカーとなる音源Aに対するマスキーとなる音源Bの周波数fにおけるマスキング量Mを示す。この場合には、マスキング量Mが、音源Bから提示される音のレベルLよりも小さいため、その音は聴取可能である。但し、音源Aによるマスキングの影響を受けるために聴感上の音の大きさ(ラウドネス)が低下し、音源Bから提示される音の明瞭度が低下する。
【0037】
図1に戻り、補正量決定部140には、入力部110から音源ごとの音源位置情報と、距離関係判定部120から音源間の距離関係情報と、マスキング量決定部130から音源ごとのマスキング量が入力される。
補正量決定部140は、距離関係情報に基づいてマスキーとする音源とマスカーとする音源を特定する。そして、補正量決定部140は、マスキーとする音源の音声信号のレベルが、マスカーとする他の音源の音声信号のレベルに対して相対的に低減するように、マスカーとマスキーの一方または両方の音源に対するマスキング補正量を定める。マスキング補正量は、マスキングの影響を補正するための音声信号のレベルに対する補正量である。以下の説明では、マスキング補正量を単に補正量と呼ぶことがある。補正量は、周波数ごとに与えられるマスキング量に基づいて周波数ごとに定まる。補正量決定部140は、定めた補正量を補正部150に出力する。
【0038】
補正量決定部140は、強調量決定部142と補償量決定部144を備える。
強調量決定部142は、マスキーとする音源に対して、マスカーとする音源によるマスキング量に基づいてマスキング強調量を定める。マスキング強調量は、補正量の一種であり、マスキングの影響を強調する度合いに相当する。以下の説明では、マスキング強調量を単に強調量と呼ぶことがある。強調量決定部142は、マスキー音に対するマスキングの影響を強調するように、マスカーとする音源のマスキーとする音源に対するマスキング量を基準として強調量を定める。また、マスキングの影響は、マスキーとする音源と、マスカーとする音源とが近接するほど大きく、両音源が離間するほど小さくなる傾向がある。そこで、強調量決定部142は、入力部110から入力される音源位置情報を参照し、聴取位置からマスカーとする音源までの距離と、聴取位置からマスキーとする音源までの距離との差が小さいほど、強調量を大きくし、その距離の差が大きいほど、強調量を小さくするように定めてもよい。
【0039】
図4(c)に示す例では、音源Aからの音の提示により、音源Bから提示される音のラウドネスが、音源Aからの音の提示がない場合よりも相対的に低下する。マスキングは、このラウドネスの低下として表れる。マスキング量Mは、音源Aによる音源Bに対するマスキングの度合いを定量的に示す。このとき、強調量決定部142は、マスキングを強調する強調量をマスカーとする音源による周波数ごとのマスキング量Mに基づいて定める。そして、強調量決定部142は、聴取位置から音源A、Bのそれぞれまでの距離d、dの差(以下、距離差(d-d))が小さいほど強調量を大きくし、距離差(d-d)が大きいほど強調量を小さくする。
【0040】
図5は、強調量決定部142が、距離差(d-d)が十分に大きいとき、音源Bに対する強調量eを0と定め、距離差(d-d)が0となるとき、音源Bに対する強調量eを、その最大値である最大強調量Eと定める場合を例示する。強調量決定部142には、最大強調量Eとして、マスキング量Mのε倍(εは、0より大きく、1よりも小さい所定の実数)と予め設定しておく。強調量決定部142は、距離差(d-d)の増加に応じて、単調に減少するように所定の関数を用いて強調量eを定めてもよい。強調量決定部142は、例えば、距離差(d-d)が0よりも大きく所定の限界値d’以下となる場合には、式(1)に示す関数を用いて強調量eを定めることができる。限界値d’として、距離差(d-d)がこれ以上であれば十分に大きいとみなすことができる距離差を予め設定させておく。強調量決定部142は、距離差(d-d)が限界値d’よりも大きい場合には強調量eを0と定める。限界値d’は、例えば、5~20mである。
【0041】
【数1】
【0042】
強調量決定部142は、強調量eのマスキング量Mに対する倍率、即ち、強調率εをマスキーとする音源の聴取位置からの距離に応じて変化させてもよい。強調量決定部142は、マスキーとする音源の距離が小さいほど強調率εを大きくし、距離が大きいほど、強調率εを小さくしてもよい。例えば、強調量決定部142は、距離dが1m以内であるとき音源Bに対する強調率εを1.1εとし、距離dが1mより大きく3mよりも小さいとき音源Bに対する強調率εを1.0εとし、距離dが3mより大きいとき音源Bに対する強調率εを0.9εとする。εは、0より大きく、1/1.1より小さい予め定めた実数である。これにより、聴取位置からの距離が小さいマスキーとする音源ほど、マスカーとする音源との距離差による強調量eに対する依存性を大きくすることができる。
【0043】
図1に戻り、補償量決定部144は、マスカーとする音源に対して、マスキーとする音源によるマスキング量に基づいて、マスキング補償量を定める。上記のように、本願ではマスカー、マスキーとは、音源間の距離関係を示すため、本来のマスカー、マスキーの意味とは異なることがある。マスキング補償量は、補正量の一種であり、マスキングの影響を補償する度合いに相当する。マスキングの影響を補償することは、マスキーとする音源のマスカーとする音源に対するマスキングの影響を低減または解消することに相当する。補償量決定部144は、マスキーとする音源のマスカーとする音源に対するマスキング量を基準としてマスキング補償量を定める。理想的にはマスキングの影響があたかも生じなかったかのように、マスカー音に対する明瞭度を向上させるように、マスキング補償量が定まる。以下の説明では、マスキング補償量を単に補償量と呼ぶことがある。なお、上記のように、マスキングの影響は、マスキーとする音源と、マスカーとする音源とが近接するほど大きく、両音源が離間するほど小さくなる傾向がある。ここで、補償量決定部144は、入力部110から入力される音源位置情報を参照し、聴取位置からマスカーとする音源までの距離と、聴取位置からマスキーとする音源までの距離との差が小さいほど、補償量を大きくし、その距離の差が大きいほど、補償量を小さくするように定めてもよい。
【0044】
次に、図6図7を用いてマスカー音に対する補償の例について説明する。図6(a)、(b)は、それぞれ音源A’、B’が、それぞれマスカー、マスキーであり、レベルL’、L’の周波数f、fの純音である場合のマスキング量の例を示す。この例では、レベルL’は、レベルL’よりも低く、周波数fは、周波数fよりも低い。補償量決定部144は、マスキー音によるマスキングの影響としての聴感上の音量の大きさの低下を補償するように、入力されるマスキング量を基準としてマスカー音に対する音量が増加するように補償量を定める。
【0045】
図6(c)に示す例では、音源B’からの音の提示により、音源A’から提示される音のラウドネスが、音源A’からの音の提示がない場合よりも相対的に低下する。音源B’による音源A’に対するマスキングがこのラウドネスの低下として生ずる。このとき、マスキングの度合いはマスキング量M’として定量化される。補償量決定部144は、マスキングの影響を補償するための補償量をマスキーとする音源による周波数ごとのマスキング量M’に基づいて定める。これにより、マスカーに対する補償量がマスキーに対する強調量と対応付けられる。
【0046】
補償量決定部144は、聴取位置から音源A’、B’のそれぞれまでの距離dA’、dB’の差が小さいほど補償量を大きくし、距離dA’、dB’の差が大きいほど補償量を小さくするように定める。図7は、補償量決定部144が、距離差(dB’-dA’)が十分に大きいとき、音源B’に対する補償量cを0と定め、距離差(dB’-dA’)が0となるとき、音源A’に対する補償量cを、その最大値である最大補償量Cと定める場合を例示する。補償量決定部144には、最大補償量Cとして、マスキング量Mのε’倍(ε’は、0より大きく、1よりも小さい所定の実数)と予め設定しておく。補償量決定部144は、距離差(dB’-dA’)の増加に応じて、単調に減少するように所定の関数を用いて補償量cを定めてもよい。補償量決定部144は、例えば、距離差(dB’-dA’)が0よりも大きく限界値d’以下である場合には、式(2)に示す関数を用いて補償量cを定めることができる。補償量決定部144は、距離差(dB’-dA’)が限界値d’よりも大きい場合には、補償量cを0と定めることができる。
【0047】
【数2】
【0048】
補償量決定部144は、補償量cのマスキング量M’に対する倍率、即ち、補償率ε’をマスカーとする音源の聴取位置からの距離に応じて変化させてもよい。補償量決定部144は、マスカーとする音源の距離が小さいほど補償率ε’を大きくし、距離が大きいほど、補償率を小さくしてもよい。例えば、補償量決定部144は、距離dB’が1m以内であるとき音源B’に対する補償率ε’を1.1ε’とし、距離dB’が1mより大きく3mよりも小さいとき音源B’に対する補償率ε’を1.0ε’とし、距離dB’が3mより大きいとき音源B’に対する補償率ε’を0.9ε’とする。ε’は、0より大きく、1/1.1より小さい予め定めた実数である。これにより、聴取位置からの距離が小さいマスカーとする音源ほど、マスキーとする音源との距離差による補償量cに対する依存性を大きくすることができる。
【0049】
図1に戻り、補正部150には、補正量決定部140から音源ごとの補正量が入力され、入力部110から音源ごとの周波数分析情報が入力される。補正部150は、周波数ごとの補正量を用いて、周波数分析情報で示される当該音源ならびに当該周波数のレベルを補正する処理を周波数および音源ごとに行う。補正量が強調量を示す場合には、つまり、その音源がマスキーである場合には、補正量決定部140は、その強調量をもって、その周波数の変換係数で示されるレベルを減算する。これにより、マスキー音のレベルが低下するので明瞭度が低下する。補正量が補償量を示す場合には、つまり、その音源がマスカーである場合には、補正量決定部140は、その強調量をもってその周波数の変換係数で示されるレベルを加算する。これにより、マスカー音のレベルが増加するので明瞭度が向上する。補正部150は、音源ごとに各周波数についてレベルを補正した変換係数に対してフーリエ逆変換を行い、補正音声信号としてレベル補正後の音声信号を生成する。補正部150は、音源ごとの補正信号をレンダリング部160に出力する。
なお、補正量が定められていない音源に対しては、補正部150は、レベルの補正を行わずに、変換係数に対してフーリエ逆変換を行って得られた補正音声信号を出力してもよいし、入力部110から入力される音声信号をレンダリング部160に出力してもよい。
【0050】
レンダリング部160には、入力部110から音源ごとに音源位置情報が入力され、補正部150から音源ごとに補正音源信号が入力される。レンダリング部160は、再生方式音源ごとの音声信号に対して、その音源に関する音源位置情報で示される音源位置へのレンダリングを行い、音源別再生信号を生成する。レンダリング部160は、音源ごとの音源別再生信号を音源間で加算(合成)して再生信号を生成し、生成した再生信号を再生部20に出力する。
【0051】
レンダリング部160は、音源別再生信号として、再生部20で採用されている再生方式に従って、その音源位置への音像定位を実現するための音声信号を生成する。音源別再生信号のチャンネル数は、その再生方式で要求されるチャンネル数となる。例えば、再生部20が再生方式としてバイノーラル方式を用いる場合には、レンダリング部160は、自部に予め設定されたレンダリングデータを用いて、ある音源の音源位置情報で示される音源位置から聴取位置における左右の各耳までのHRTFを定める。レンダリングデータには、聴取位置を基準とする相対的な聴取位置ごとの左右各耳のHRTF、または、そのHRTFを定めるためのパラメータが設定されていればよい。レンダリング部160は、左右各耳について定めたHRTFをそれぞれ、その音源の補正音源信号に対して畳み込み演算を行い、左右各チャネルの音源別再生信号を生成する。
【0052】
再生方式としてマルチチャンネル音響が採用されている場合には、レンダリング部160は、レンダリングデータを用いて、ある音源の音源位置情報で示される音源位置であって、所定の聴取位置を基準とする相対的な音源位置に対応する、チャンネルごとの音声信号の分配比を定める。レンダリングデータには、個々のチャンネルに対応するスピーカの所定の配置のもとでの、相対的な音源位置ごとのチャンネルごとの分配比、または、その分配比を定めるためのパラメータが設定されていればよい。レンダリング部160は、その音源の音声信号のレベルにチャンネルごとに定めた分配比を乗じて、そのチャンネルの音源別再生信号を生成する。
【0053】
再生方式として波面合成法が採用されている場合には、レンダリング部160は、レンダリングデータを用いて、ある音源の音源位置情報で示される音源位置であって、所定の聴取位置を基準とする相対的な音源位置に対応する、チャンネルごとの音声信号の分配比と遅延量を定める。レンダリングデータには、個々のチャンネルに対応する実音源の所定の配置のもとでの、相対的な音源位置ごとのチャンネルごとの分配比と遅延量、または、その分配比と遅延量を定めるためのパラメータが設置されていればよい。分配比と遅延量のセットは、音源位置から個々の実音源の位置を通過して伝搬する音の伝搬により生じる波面を仮定し、その波面が実音源を通過するときに検出されるレベルと時刻の第1のセットと、聴取位置に到来するときに検出されるレベルと時刻の第2のセットを実測、音響伝搬モデルに基づく計算、または音場シミュレーションにより予め定めておいてもよい。チャンネルごとの分配比と遅延量のセットは、それぞれ対応する実音源ごとに取得された第1のセットと第2のセットにより定まる。レンダリング部160は、その音源の音声信号のレベルにチャンネルごとに定めた分配比を乗じ、さらに定めた遅延量で遅延させて、そのチャンネルの音源別再生信号を生成する。
【0054】
(変形例)
次に、本実施形態の変形例について説明する。
上記の説明では、音源位置情報が聴取位置を基準とする相対的な音源位置を示す場合、または、距離関係判定部120に予め所定の聴取位置が設定されている場合を例にしたが、これには限られない。距離関係判定部120には、入力部110を経由して、または、自部に直接、聴取位置が入力されてもよい。聴取位置情報は、聴取者の位置を検出する検出部(例えば、位置センサ)から入力されてもよい。検出部は、例えば、聴取者の頭部に装着されたヘッドホン、ディスプレイなどのウェアラブル機器に備わるものであってもよい。距離関係判定部120は、聴取者の移動に伴って変化する聴取位置を基準とする各音源の音源位置までの距離から、音源間の距離関係を判定することができる。即ち、距離関係判定部120は、聴取位置情報が示す聴取位置からの距離がより小さい音源をマスカー、その距離より大きい音源をマスキーとして判定する。これにより、聴取位置の変化に応じた音源位置への音像定位と、音源間の知覚の差異の強調とを両立することができる。また、本実施形態に係る音声処理システム1を、AR/VRコンテンツの要素とする音声の再生に応用することで興趣を増すことができる。
【0055】
マスキング量決定部130には、マスキングモデルとして、予め所定の周波数帯域(例えば、1/3オクターブ、1/12オクターブなど)ごとにラウドネスとマスキング量の対応関係を示すマスキング量変換データと、周波数帯域と音声信号のレベルとラウドネスとの対応関係を示すラウドネス変換データを設定しておいてもよい。ラウドネスとは、音が知覚される大きさを示す感覚量であり、物理的には同じレベルであっても周波数によりラウドネスが異なりうる。マスキング量決定部130には、さらに入力部110から入力される音源ごとの音源位置情報が示す音源位置から聴取位置までの周波数帯域ごとの減衰率を定める。マスキング量決定部130は、周波数帯域ごとに、その周波数帯域に属する周波数ごとの変換係数で示されるレベルを周波数帯域内で合成して基本周波数帯域別レベルを定める。マスキング量決定部130は、周波数帯域ごとの基本周波数帯域別レベルに減衰率を乗じて周波数帯域別レベルを定める。そして、マスキング量決定部130は、ラウドネス変換データを用いて、定めた周波数帯域別レベルに対応するマスキング量を、その周波数帯域に属する各周波数のマスキング量として定めることができる。
【0056】
マスキング量決定部130は、例えば、音源位置から聴取位置までの距離に反比例する減衰量を定めてもよい。また、マスキング量決定部130には、予め音源位置を基準とする相対的な聴取位置と伝達関数との対応関係を示す伝達関数データを設定しておいてもよい。伝達関数は、実測、音響伝搬モデルによる計算または音場シミュレーションのいずれの手法により取得したデータであってもよい。マスキング量決定部130は、伝達関数データを用いて、減衰率に代えて周波数ごとの伝達関数を定め、定めた伝達関数を作用、つまり、その伝達関数を変換係数に乗じて得られる乗算値で示されるレベルを周波数帯域内で合成して周波数帯域別レベルを定めてもよい。
マスキング量変換データ、ラウドネス変換データ、伝達関数データおよび伝達関数のデータ型式は、対応表であってもよいし、それぞれの対応関係を示す計算式に係るパラメータであってもよい。
【0057】
上記の手法では、主に複数の音源からの音が同時に提示されている場合を前提としたが、マスキング量決定部130は、継時マスキングを考慮してマスキング量を定めてもよい。継時マスキングとは、マスカーが提示されている時間(マスカー提示時間)の直前または直後に提示されるマスキーが知覚されなくなる現象である。ここで、マスキング量決定部130は、音源ごとの音声信号に基づいて音の提示の有無を、そのレベルが所定の判定閾値を超えるか否かに基づいて判定する。
【0058】
マスキング量決定部130は、マスカーと判定した音源から音が提示されない状態から提示が開始されるとき、または、マスカーと判定した音源から音が提示されている状態から提示が終了するとき、図3に例示されるようにマスキーに対するマスキング量を定めることができる。ここで、マスキング量決定部130は、提示開始時刻tよりも前の時刻tに対する指数関数eα(t-t1)に比例して増加し、提示開始時刻tにおいて上述の手法で算出したマスキング量と等しくなるように、マスキング量を定める。他方、マスキング量決定部130は、提示終了時刻tにおいて上述の手法で算出したマスキング量と等しく、提示終了時刻tよりも後の時刻tに対する指数関数e-β(t-t2)に比例して減少するように、マスキーに対するマスキング量を定める。なお、α、βとして、それぞれ0より大きい所定の実数をマスキング量決定部130に予め設定しておく。これにより、現実にマスキーと判定された音が提示されていなくても、その直前または直後に提示される場合でも、マスカーによるマスキングの影響が補正される。
【0059】
音声処理装置10は、音声信号と音源位置情報から補正量(つまり、強調量、補償量の一方または両方)を算出するまでの処理を、フレームごとに繰り返して、補正量を更新する処理を行ってもよい。一般に、音声信号のレベル、周波数特性、音源間の位置関係は、時間経過に応じて時々刻々と変化することがある。その場合には、時間変化に応じた補正量を定めることが望ましい。
そこで、補正量決定部140は、個々の音源の音声信号のレベルの変化量を検出し、検出した変化量が大きいほど、上記の手法を用いて補正量を小さくする処理を行ってもよい。これは、音声の立ち上がりに対する補正の影響を低減するためである。音声の立ち上がりは音の方向や距離の知覚に対する影響が、他の部位よりも強い。そのため、補正量を小さくすることで、方向や距離の知覚に対する妨害を回避または低減することができる。
【0060】
補正量決定部140は、変化量の指標の例としてレベル変動指数λ/Δを算出してもよい。図8に示す例では、Δは、音源Aにおける音声(以下、音声A)の発生から一定の立ち上がりレベルλに達するまでの立ち上がり時間である。一定の立ち上がりレベルλのもとでは、立ち上がり時間Δが小さいほど立ち上がりが急峻であり、一定の立ち上がり時間Δのもとでは、立ち上がりレベルλが大きいほどレベル変化が著しい。この例では、音声Aのレベルは、観測期間Ow2の後半において立ち上がりレベルλに達した後は、観測期間Ow4の半ばにかけて、ほぼ一定となる。しかし、現実の音声信号のレベルの時間変動が複雑であるため、音声の立ち上がりを判別し、立ち上がり時間Δ、立ち上がりレベルλを確実に定めることが困難となりがちである。
【0061】
そこで、補正量決定部140は、現時点までの所定の時間幅(例えば、0.3~3s)を有する観測期間において、その時間幅をさらに細分化した時間幅(例えば、10~100ms)を有するフレームごとに、音声信号の平均レベルを算出する。観測期間、フレームは、それぞれ観測窓、ブロックとも呼ばれる。補正量決定部140は、観測期間における平均レベルが最大、最小となるフレームをそれぞれレベル最大フレーム、レベル最小フレームとして定める。補正量決定部140は、レベル最小フレームからレベル最大フレームまでの時間差を立ち上がり時間Δ、レベル最小フレームでの平均レベルとレベル最大フレームでの平均レベルとの差を立ち上がりレベルλとして定める。そして、補正量決定部140は、立ち上がりレベルλを立ち上がり時間Δで除算してレベル変動指数を算出することができる。
【0062】
複数の音源間では、音が提示される提示開始時刻、つまり立ち上がり時刻が異なる場合が起こりうる。図9に示す例では、音源A、Bからの音(音声A、B)の提示開始時刻は、それぞれ観測期間Ow2、Ow3に属し、音声Bの提示開始時刻の方が遅くなる。このような場合には、音声Bの提示開始により、音源A、Bがそれぞれマスカー、マスキーとして、はじめて判断される。そのため、音声Bの提示が開始される観測期間Ow3から音声Aに対する補償が開始される。音声Aの音量や音色が補償前から急に変化することで、聴取者に対して違和感を与えるおそれがある。
【0063】
そこで、補正量決定部140は、音源ごとの音声信号を取得し、フレームごとに取得した音声信号のレベルを定め、定めたレベルが所定の検出閾値未満となる状態から、所定の検出閾値以上となる状態になるか否かに基づいて、音声の提示が開始されたか否かを判定する。新たに提示が開始される音声Bの提示開始時刻が属するフレームから所定期間内においては、補正量決定部140は、上記の手法で定めた補正量を、所定の減衰量で低減してもよい。補正部150は、低減した補正量を用いて、該当する音源の音声信号のレベルを補正する。図9に示す例に基づき、補正量決定部140は、マスカーとする音声Aに対する観測期間Ow3内の各フレームにおける補償量を減衰させ、より後の観測期間Ow4、Ow5における補償量を減衰させなくてもよい。補正量決定部140は、マスキーとする音声Bに対する強調量についても、補償量と同様に、観測期間Ow3内の各フレームにおける補償量を減衰させ、より後のフレームにおいて補償量を減衰させなくてもよい。
なお、補正量決定部140は、新たに提示が開示される提示開示時刻からの経過時間が長くなるほど、減衰量を小さくしてもよい。これにより、補正量の変動が緩やかになるため、補正量の変動に伴う音量や音色の急な変化が緩和される。ひいては、聴取者に対する違和感がさらに緩和する。
【0064】
上記の説明では、主に聴取位置からの複数の音源それぞれの音源方向が同一となる場合を例にしたが、複数の音源それぞれの音源方向が異なりうる。複数の音源間で音源方向が異なるほどマスキングの影響が小さくなるが、上記の手法でマスキングの強調またはマスキングに対する補償を行うと、音色の変化等の聴感上の影響が顕著に生じてしまうことがある。そこで、補正量決定部140は、上記のように音源方向が同一と仮定して定めた一方の音源の補正量に対して、他方の音源の音源方向と一方の音源の音源方向との差分に相当する開き角が大きいほど、小さくなるように、その一方の音源の補正量を調整してもよい。補正部150は、調整後の補正量を用いて、該当する一方の音源の音声信号のレベルを補正する。
【0065】
図10に示す例では、聴取位置からの距離がdとなる音源Aへの方向と、聴取位置からの距離がdとなる音源Bへの方向との間の角度が開き角θに相当する。開き角θの値域は、0[rad]以上、π[rad]以下となる。補正量決定部140は、音源方向が同一と仮定して定めた強調量eに対して、その値域内で開き角θの増加に応じて単調に減少する関数を乗じて調整後の強調量eθを算出してもよい。式(3)に示す例では、開き角θが0[rad]であるとき調整後の強調量eθはeとなり、開き角θがπ[rad]であるとき調整後の強調量eθは0となる。補正量決定部140は、音源方向が同一と仮定して定めた補償量cに対しても、強調量eと同様に、開き角θが大きくなるほど、小さくなるように調整後の補償量cθを定めてもよい。補正量決定部140は、例えば、式(4)に示す関係を用いて、音源方向が同一と仮定して定めた補償量cと開き角θに基づいて調整後の補償量cθを定めることができる。
【0066】
【数3】
【0067】
【数4】
【0068】
図10は、音源A、Bの位置がいずれも聴取位置に対して前方に配置されている場合を例にするが、複数の音源のそれぞれの音源位置が聴取位置の前方と後方のいずれにも分布する場合も起こりうる。聴取位置の前方とは、聴取位置の左右方向よりも正面に近い方向であり、聴取位置の後方とは、聴取位置の左右方向よりも背面に近い方向である。その場合には、補正量決定部140は、聴取位置の前方と後方のいずれか一方に配置された音源位置から、前後対称な位置を補正位置として補正し、聴取位置から補正位置までの方向を補正後の音源方向として定めてもよい。そして、補正量決定部140は、補正後の音源方向の音源間の角度を開き角θとして定める。
【0069】
図11に示す例では、音源A、Bがそれぞれ聴取位置の右前方、左後方に配置されている。聴取位置を通る直線Lの方向は左右方向であり、正面方向、背面方向に対してそれぞれ直交する。そこで、補正量決定部140は、音源Bの音源位置を、直線Lに対して線対称な位置を補正位置B’として定め、聴取位置から補正位置B’までの方向を補正後の音源Bの方向として定める。補正量決定部140は、聴取位置から音源Aの音源位置までの方向と、補正後の音源Bの方向とのなす角度を開き角θとして定める。そして、補正量決定部140は、定めた開き角θを補正量の算出に用いる。
【0070】
これにより、複数の音源が聴取位置の前方と後方のいずれに分布する場合でも、それぞれの音源について聴取位置の前方と後方のいずれかに分布するように、音源方向が補正され、補正後の音源方向間の角度が補正量の算出に用いられる。一般に人間の聴覚において、前後方向の知覚は不確実なため、左右方向が同一で前後に分布した音源間のマスキングが生じがちである。補正後の音源方向に基づいて、個々の音源方向の左右方向に注目して定めた開き角θを補正量の算出に用いることで、マスキングの影響をより的確に補正することができる。但し、この音源位置の補正は、開き角θの設定を目的とするものであり、音源別再生信号の生成を目的とするものではない。即ち、補正量決定部140が音源位置を補正する場合であっても、レンダリング部160は、補正前の音源位置に基づき、その音源の音源別再生信号を生成する。
【0071】
なお、上記の説明では、補正量決定部140が、主に所定の時間幅を有する単一のフレームごと、または所定の帯域ごとに複数の音源間のマスキング関係を考慮して、各音源の補正量を定める場合を例にしたがこれには限られない。補正量決定部140は、最新のフレームである現フレームに限らず、現フレームまでの所定の複数のフレームの期間内のマスキング量に対する移動平均値に基づいて、現フレームに対する補正量(即ち、強調量、補償量の一方または双方)を定めてもよい。マスキング量は、マスカーとする音源、マスキーとする音源それぞれの音声信号のレベルに基づくため、急激なレベル変動による聴覚に対する影響を緩和することができる。また、補正量決定部140は、補正量の算出対象とする対象帯域に限らず、対象帯域から所定範囲内の帯域内のマスキング量に対する移動平均値に基づいて、対象帯域に対する補正量を定めてもよい。移動平均値は、単純平均値であってもよいし、加重平均値であってもよい。加重平均値は、周波数やレベルごとの聴感上の強度を示すラウドネスに対する寄与度を考慮した聴覚重み付けを行って得られた重み付き平均値であってもよい。これにより、急激な周波数特性の変動による聴覚に対する影響を緩和することができる。
【0072】
以上に説明したように、本実施形態に係る音声処理装置10は、所定のマスキングモデルを用いて、複数の音源の音声信号のレベルから、音源ごとに他の音源に対するマスキング量を定めるマスキング量決定部130を備える。音声処理装置10は、音源ごとの音源位置を示す音源位置情報を取得し、聴取位置からの距離がより大きい音源の音声信号のレベルが、聴取位置からの距離がより小さい音源の音声信号に対して相対的に低減するように、マスキング量に基づいて少なくともいずれかの音源の補正量を定める補正量決定部140を備える。音声処理装置10は、定めた補正量に基づいて当該補正量に係る音源の音声信号のレベルを補正する補正部150と、音源ごとの音声信号から音源位置情報で示される当該音源の音源位置に音を知覚させるための再生信号を生成するレンダリング部160と、を備える。
この構成によれば、音源間のマスキング量に基づいて、複数の音源の音声信号のレベルが、聴取位置からの距離が大きい音源ほど相対的に低減する。音源間の距離の違いによる音の明瞭度の違いが自然に強調されるので、複数の音源に対する距離知覚を強調することができる。
【0073】
また、音声処理装置10は、聴取位置を示す聴取位置情報を取得し、聴取位置情報が示す聴取位置からの距離がより小さい音源をマスカー、または距離より大きい音源をマスキーとして判定する距離関係判定部120を備えてもよい。
この構成によれば、時間経過に伴い変化する聴取位置に応じて、複数の音源間の距離関係を判定することができる。そのため、聴取者の移動等による聴取位置の変化に応じた距離関係に基づいて、複数の音源に対する距離知覚の識別性を向上することができる。
【0074】
また、補正量決定部140は、複数の音源間の距離の差が小さいほど、補正量として聴取位置からの距離がより小さい音源に対するマスキングの補償量が大きくなるように定めてもよい。
この構成によれば、音源間の距離の差が小さいほど、マスキングの補償量を大きくすることで、聴取位置からの距離がより小さい音源に対するマスキングの影響が軽減されるので、聴取位置に近接した音源からの音が明瞭に知覚され、他の音源との距離知覚の差異を強調することができる。
【0075】
また、補正量決定部140は、複数の音源間の距離の音源間の差が小さいほど、補正量として聴取位置からの距離がより大きい音源に対するマスキングの強調量が大きくなるように定めてもよい。
この構成によれば、音源間の距離の差が小さいほど、マスキングの補償量を大きくすることで、距離がより小さい音源に対するマスキングの影響が強調されるので、聴取位置から遠い音源からの音の明瞭度を低下させ、他の音源との距離知覚の差異を強調することができる。
【0076】
また、補正量決定部140は、所定の時間幅を有するフレームごとに、音源ごとの音声信号のレベルの変化量を算出し、変化量が大きいほど、補正量をより低減してもよい。
この構成によれば、レベルの変化が著しいほど、マスキングに基づく補正量が低減される。変化量が大きい区間に対しては、補正による聴感に対する影響が緩和されるため、自然な知覚を損ねずに維持することができる。
【0077】
補正量決定部140は、所定の時間幅を有するフレームごとに、補正量を算出し、音源ごとの音声信号のレベルに基づいて音源ごとに音が提示されたか否かを判定し、第1の音源よりも遅く第2の音源の音声の提示が開始されるとき、第1の音源または第2の音源に対する補正量をより低減してもよい。
この構成によれば、後発的に第2の音源から音が提示されることになる場合、音の提示開始時における補正量が低減する。新たな音の提示開始時における敏感な聴感に対する影響が緩和されるため、自然な知覚を損ねずに維持することができる。
【0078】
マスキング量決定部130は、音源ごとの音声信号のレベルを、聴取位置からの距離に応じて調整し、調整した音声信号のレベルに基づいてマスキング量を定めてもよい。
この構成によれば、聴取位置からの距離に対応した音声信号のレベルに基づくマスキング量に基づいて補正量が定まる。そのため、音源ごとの聴取位置からの距離の差異に応じて音源間の知覚の差異を自然に強調することができる。
【0079】
マスキング量決定部130は、音源ごとの音声信号のレベルに、当該音源の音源位置から聴取位置までの伝達関数を作用して音声信号のレベルを調整してもよい。
この構成によれば、音源ごとの音源位置から聴取位置までの音の伝達関数に基づいて音声に対応した音声信号のレベルに基づくマスキング量に基づいて補正量が定まる。そのため、音源ごとの聴取位置からの音の伝達特性の差異に応じて音源間の知覚の差異を自然に強調することができる。
【0080】
補正量決定部140は、聴取位置から複数の音源それぞれの音源方向間の角度が大きいほど、当該複数の音源の少なくともいずれかの音源の補正量が小さくなるように定めてもよい。
この構成によれば、聴取位置からの複数の音源それぞれの音源方向が異なるほど補正量が小さくなるように定まる。音源方向の差異により複数の音源が識別され、補正による聴感に対する影響を低減することができる。
【0081】
補正量決定部140は、所定の時間幅を有するフレームごとに補正量を算出し、現フレームまでの所定数のフレームを含む期間における補正量の移動平均値を定める。
この構成によれば、フレームごとの補正量の変化が緩和されるため、補正量の急激な変化に対する聴感に対する影響を緩和することができる。
【0082】
以上、図面を参照してこの発明の実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
【0083】
例えば、音声処理装置10は、再生部20の構成を備え、単一の装置として構成されてもよい。
補正量決定部140では、強調量決定部142と補償量決定部144のいずれか一方が省略され、他方を備えてもよい。
強調量e、補償量cが、それぞれマスキーとする音源と、マスカーとする音源との距離差に対する線形関数である場合を例にしたが、これには限らない。強調量e、補償量cは、それぞれ音源間の距離差の増加に応じて単調に減少する非線形関数(例えば、シグモイド関数、反比例関数など)であってもよい。
調整後の補償量cθ、調整後の強調量eθが、それぞれ開き角θに対する線形関数である場合を例にしたが、これには限らない。調整後の補償量cθ、調整後の強調量eθは、それぞれ開き角θの増加に応じて単調に減少する非線形関数(例えば、シグモイド関数、余弦関数など)であってもよい。
【0084】
なお、上述した音声処理装置10の一部、例えば、入力部110、距離関係判定部120、周波数分析部125、マスキング量決定部130、補正量決定部140、補正部150およびレンダリング部160の一部または全部をコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、音声処理装置10に内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、上述した実施形態における音声処理装置10の一部、または全部をLSI(Large Scale Integration)等の集積回路として実現してもよい。音声処理装置10の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
【符号の説明】
【0085】
1…音声処理システム、10…音声処理装置、20…再生部、110…入力部、120…距離関係判定部、125…周波数分析部、130…マスキング量決定部、140…補正量決定部、142…強調量決定部、144…補償量決定部、150…補正部、160…レンダリング部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11