IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー株式会社の特許一覧

特開2023-165864音声処理装置および方法、並びにプログラム
<>
  • 特開-音声処理装置および方法、並びにプログラム 図1
  • 特開-音声処理装置および方法、並びにプログラム 図2
  • 特開-音声処理装置および方法、並びにプログラム 図3
  • 特開-音声処理装置および方法、並びにプログラム 図4
  • 特開-音声処理装置および方法、並びにプログラム 図5
  • 特開-音声処理装置および方法、並びにプログラム 図6
  • 特開-音声処理装置および方法、並びにプログラム 図7
  • 特開-音声処理装置および方法、並びにプログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023165864
(43)【公開日】2023-11-17
(54)【発明の名称】音声処理装置および方法、並びにプログラム
(51)【国際特許分類】
   H04S 7/00 20060101AFI20231110BHJP
   H04R 3/00 20060101ALI20231110BHJP
【FI】
H04S7/00 340
H04R3/00 310
【審査請求】有
【請求項の数】3
【出願形態】OL
(21)【出願番号】P 2023163452
(22)【出願日】2023-09-26
(62)【分割の表示】P 2022002944の分割
【原出願日】2015-01-06
(31)【優先権主張番号】P 2014005656
(32)【優先日】2014-01-16
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】100121131
【弁理士】
【氏名又は名称】西川 孝
(74)【代理人】
【識別番号】100082131
【弁理士】
【氏名又は名称】稲本 義雄
(74)【代理人】
【識別番号】100168686
【弁理士】
【氏名又は名称】三浦 勇介
(72)【発明者】
【氏名】辻 実
(72)【発明者】
【氏名】知念 徹
(57)【要約】
【課題】より自由度の高いオーディオ再生を実現することができるようにする。
【解決手段】入力部は、音源であるオブジェクトの音声の想定聴取位置の入力を受け付けて、想定聴取位置を示す想定聴取位置情報を出力する。位置情報補正部は、想定聴取位置情報に基づいて、各オブジェクトの位置情報を補正して補正位置情報とする。ゲイン/周波数特性補正部は、位置情報と補正位置情報に基づいて、オブジェクトの波形信号のゲイン補正と周波数特性補正を行う。さらに、空間音響特性付加部は、オブジェクトの位置情報および想定聴取位置情報に基づいて、ゲイン補正および周波数特性補正が施された波形信号に空間音響特性を付加する。本技術は、音声処理装置に適用することができる。
【選択図】図1
【特許請求の範囲】
【請求項1】
音源からの音声を聴取する標準聴取位置を基準とする前記音源の位置を示す位置情報と、前記標準聴取位置とは異なる、前記音源からの音声を聴取する聴取位置を示す聴取位置情報とに基づいて、前記聴取位置を基準とする前記音源の位置を示す補正位置情報を算出する位置情報補正部と、
前記音源の波形信号と前記補正位置情報とに基づいて、前記聴取位置において聴取される前記音源からの音声を再現する再生信号を3次元VBAPを用いて生成する生成部と、
前記生成部により生成された3以上の前記再生信号にBRIRを用いた畳み込み処理を行って、前記3以上の前記再生信号を2チャンネルの信号に変換する処理部と
を備え、
前記2チャンネルの信号の出力先はヘッドフォンである
音声処理装置。
【請求項2】
音声処理装置が、
音源からの音声を聴取する標準聴取位置を基準とする前記音源の位置を示す位置情報と、前記標準聴取位置とは異なる、前記音源からの音声を聴取する聴取位置を示す聴取位置情報とに基づいて、前記聴取位置を基準とする前記音源の位置を示す補正位置情報を算出し、
前記音源の波形信号と前記補正位置情報とに基づいて、前記聴取位置において聴取される前記音源からの音声を再現する再生信号を3次元VBAPを用いて生成し、
生成された3以上の前記再生信号にBRIRを用いた畳み込み処理を行って、前記3以上の前記再生信号を2チャンネルの信号に変換し、
前記2チャンネルの信号の出力先はヘッドフォンである
音声処理方法。
【請求項3】
音源からの音声を聴取する標準聴取位置を基準とする前記音源の位置を示す位置情報と、前記標準聴取位置とは異なる、前記音源からの音声を聴取する聴取位置を示す聴取位置情報とに基づいて、前記聴取位置を基準とする前記音源の位置を示す補正位置情報を算出し、
前記音源の波形信号と前記補正位置情報とに基づいて、前記聴取位置において聴取される前記音源からの音声を再現する再生信号を3次元VBAPを用いて生成し、
生成された3以上の前記再生信号にBRIRを用いた畳み込み処理を行って、前記3以上の前記再生信号を2チャンネルの信号に変換する
ステップを含む処理をコンピュータに実行させ、
前記2チャンネルの信号の出力先はヘッドフォンである
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本技術は音声処理装置および方法、並びにプログラムに関し、特に、より自由度の高いオーディオ再生を実現することができるようにした音声処理装置および方法、並びにプログラムに関する。
【背景技術】
【0002】
一般的にCD(Compact Disc)やDVD(Digital Versatile Disc)、ネットワーク配信オーディオなどのオーディオコンテンツは、チャンネルベースオーディオで実現されている。
【0003】
チャンネルベースオーディオのコンテンツは、コンテンツの制作者が歌声や楽器の演奏音など、複数ある音源を2チャンネルや5.1チャンネル(以下、チャンネルをchとも記すこととする)に適度にミックスしたものである。ユーザは、それを2chや5.1chのスピーカシステムで再生したり、ヘッドフォンで再生したりしている。
【0004】
しかしながら、ユーザのスピーカ配置などは千差万別であり、必ずしもコンテンツ制作者が意図した音の定位が再現されているとは限らない。
【0005】
一方、近年オブジェクトベースのオーディオ技術が注目されている。オブジェクトベースオーディオでは、オブジェクトの音声の波形信号と、基準となる聴取点からの相対位置により示されるオブジェクトの定位情報等を示すメタデータとに基づいて、再生するシステムにあわせてレンダリングされた信号が再生される。したがってオブジェクトベースオーディオには、比較的、コンテンツ制作者の意図通りに音の定位が再現されるという特長がある。
【0006】
例えばオブジェクトベースオーディオでは、VBAP(Vector Base Amplitude Pannning)などの技術が利用されて、各オブジェクトの波形信号から、再生側の各スピーカに対応するチャンネルの再生信号が生成される(例えば、非特許文献1参照)。
【0007】
VBAPでは、目標となる音像の定位位置が、その定位位置の周囲にある2つまたは3つのスピーカの方向を向くベクトルの線形和で表現される。そして、その線形和において各ベクトルに乗算されている係数が、各スピーカから出力される波形信号のゲインとして用いられてゲイン調整が行なわれ、目標となる位置に音像が定位するようになされる。
【先行技術文献】
【非特許文献】
【0008】
【非特許文献1】Ville Pulkki, “Virtual Sound Source Positioning Using Vector Base Amplitude Panning”, Journal of AES, vol.45, no.6, pp.456-466, 1997
【発明の概要】
【発明が解決しようとする課題】
【0009】
ところで、上述したチャンネルベースオーディオやオブジェクトベースオーディオでは、何れの場合においても音の定位はコンテンツ制作者によって決定されており、ユーザは提供されたコンテンツの音声をそのまま聴くことしかできない。例えば、コンテンツの再生側においては、ライブハウスで後席から前席に移動するように想定して聴取点を変化させた場合の音の聴こえ方を再現することなどができなかった。
【0010】
このように上述した技術では、十分に高い自由度でオーディオ再生が実現できているとはいえなかった。
【0011】
本技術は、このような状況に鑑みてなされたものであり、より自由度の高いオーディオ再生を実現することができるようにするものである。
【課題を解決するための手段】
【0012】
本技術の一側面の音声処理装置は、音源からの音声を聴取する標準聴取位置を基準とする前記音源の位置を示す位置情報と、前記標準聴取位置とは異なる、前記音源からの音声を聴取する聴取位置を示す聴取位置情報とに基づいて、前記聴取位置を基準とする前記音源の位置を示す補正位置情報を算出する位置情報補正部と、前記音源の波形信号と前記補正位置情報とに基づいて、前記聴取位置において聴取される前記音源からの音声を再現する再生信号を3次元VBAPを用いて生成する生成部と、前記生成部により生成された3以上の前記再生信号にBRIRを用いた畳み込み処理を行って、前記3以上の前記再生信号を2チャンネルの信号に変換する処理部とを備え、前記2チャンネルの信号の出力先はヘッドフォンである。
【0013】
本技術の一側面の音声処理方法またはプログラムは、音源からの音声を聴取する標準聴取位置を基準とする前記音源の位置を示す位置情報と、前記標準聴取位置とは異なる、前記音源からの音声を聴取する聴取位置を示す聴取位置情報とに基づいて、前記聴取位置を基準とする前記音源の位置を示す補正位置情報を算出し、前記音源の波形信号と前記補正位置情報とに基づいて、前記聴取位置において聴取される前記音源からの音声を再現する再生信号を3次元VBAPを用いて生成し、生成された3以上の前記再生信号にBRIRを用いた畳み込み処理を行って、前記3以上の前記再生信号を2チャンネルの信号に変換するステップを含み、前記2チャンネルの信号の出力先はヘッドフォンである。
【0014】
本技術の一側面においては、音源からの音声を聴取する標準聴取位置を基準とする前記音源の位置を示す位置情報と、前記標準聴取位置とは異なる、前記音源からの音声を聴取する聴取位置を示す聴取位置情報とに基づいて、前記聴取位置を基準とする前記音源の位置を示す補正位置情報が算出され、前記音源の波形信号と前記補正位置情報とに基づいて、前記聴取位置において聴取される前記音源からの音声を再現する再生信号が3次元VBAPが用いられて生成され、生成された3以上の前記再生信号にBRIRを用いた畳み込み処理が行われて、前記3以上の前記再生信号が2チャンネルの信号に変換される。また、前記2チャンネルの信号の出力先はヘッドフォンとされる。
【発明の効果】
【0015】
本技術の一側面によれば、より自由度の高いオーディオ再生を実現することができる。
【0016】
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。
【図面の簡単な説明】
【0017】
図1】音声処理装置の構成を示す図である。
図2】想定聴取位置と補正位置情報について説明する図である。
図3】周波数特性補正時の周波数特性を示す図である。
図4】VBAPについて説明する図である。
図5】再生信号生成処理を説明するフローチャートである。
図6】音声処理装置の構成を示す図である。
図7】再生信号生成処理を説明するフローチャートである。
図8】コンピュータの構成例を示す図である。
【発明を実施するための形態】
【0018】
以下、図面を参照して、本技術を適用した実施の形態について説明する。
【0019】
〈第1の実施の形態〉
〈音声処理装置の構成例〉
本技術は、再生側において、音源であるオブジェクトの音声の波形信号から、任意の聴取位置で聴取される音声を再現する技術に関するものである。
【0020】
図1は、本技術を適用した音声処理装置の一実施の形態の構成例を示す図である。
【0021】
音声処理装置11は、入力部21、位置情報補正部22、ゲイン/周波数特性補正部23、空間音響特性付加部24、レンダラ処理部25、および畳み込み処理部26を有している。
【0022】
この音声処理装置11には、再生対象となるコンテンツのオーディオ情報として、複数の各オブジェクトの波形信号と、それらの波形信号のメタデータとが供給される。
【0023】
ここで、オブジェクトの波形信号は、音源であるオブジェクトから発せられる音声を再生するためのオーディオ信号である。
【0024】
また、ここではオブジェクトの波形信号のメタデータは、オブジェクトの位置、すなわちオブジェクトの音声の定位位置を示す位置情報とされる。この位置情報は、所定の基準点を標準聴取位置として、その標準聴取位置からのオブジェクトの相対位置を示す情報である。
【0025】
オブジェクトの位置情報は、例えば球座標、すなわち標準聴取位置を中心とした球面上の位置に対する方位角、仰角、および半径で表されるようにしてもよいし、標準聴取位置を原点とする直交座標系の座標で表されるようにしてもよい。
【0026】
以下では、各オブジェクトの位置情報が球座標で表される場合を例として説明する。具体的には、n番目(但し、n=1,2,3,…)のオブジェクトOBnの位置情報が、標準聴取位置を中心とした球面上のオブジェクトOBnに対する方位角An、仰角En、および半径Rnで表されるものとする。なお、方位角Anおよび仰角Enの単位は例えば度とされ、半径Rnの単位は例えばメートルとされる。
【0027】
また、以下ではオブジェクトOBnの位置情報を(An,En,Rn)とも記すこととする。さらに、n番目のオブジェクトOBnの波形信号をWn[t]とも記すこととする。
【0028】
したがって、例えば1番目のオブジェクトOB1の波形信号および位置情報は、W1[t]および(A1,E1,R1)と表され、2番目のオブジェクトOB2の波形信号および位置情報は、W2[t]および(A2,E2,R2)と表される。以下では、説明を簡単にするため、音声処理装置11には、2つのオブジェクトOB1およびオブジェクトOB2についての波形信号と位置情報が供給されるものとして説明を続ける。
【0029】
入力部21はマウスやボタン、タッチパネルなどからなり、ユーザにより操作されると、その操作に応じた信号を出力する。例えば入力部21は、ユーザによる想定聴取位置の入力を受け付け、ユーザにより入力された想定聴取位置を示す想定聴取位置情報を位置情報補正部22および空間音響特性付加部24に供給する。
【0030】
ここで、想定聴取位置は、再現したい仮想の音場における、コンテンツを構成する音声の聴取位置である。したがって、想定聴取位置は、予め定められた標準聴取位置を変更(補正)したときの変更後の位置を示しているということができる。
【0031】
位置情報補正部22は、入力部21から供給された想定聴取位置情報に基づいて、外部から供給された各オブジェクトの位置情報を補正し、その結果得られた補正位置情報をゲイン/周波数特性補正部23およびレンダラ処理部25に供給する。補正位置情報は、想定聴取位置からみたオブジェクトの位置、つまりオブジェクトの音声の定位位置を示す情報である。
【0032】
ゲイン/周波数特性補正部23は、位置情報補正部22から供給された補正位置情報と、外部から供給された位置情報とに基づいて、外部から供給されたオブジェクトの波形信号のゲイン補正および周波数特性補正を行い、その結果得られた波形信号を空間音響特性付加部24に供給する。
【0033】
空間音響特性付加部24は、入力部21から供給された想定聴取位置情報と、外部から供給されたオブジェクトの位置情報とに基づいて、ゲイン/周波数特性補正部23から供給された波形信号に空間音響特性を付加し、レンダラ処理部25に供給する。
【0034】
レンダラ処理部25は、位置情報補正部22から供給された補正位置情報に基づいて、空間音響特性付加部24から供給された波形信号に対するマッピング処理を行い、2以上であるM個のチャンネルの再生信号を生成する。すなわち、各オブジェクトの波形信号から、Mチャンネルの再生信号が生成される。レンダラ処理部25は、生成されたMチャンネルの再生信号を畳み込み処理部26に供給する。
【0035】
このようにして得られたMチャンネルの再生信号は、仮想的なM個のスピーカ(Mチャンネルのスピーカ)で再生することで、再現したい仮想の音場の想定聴取位置において聴取される、各オブジェクトから出力された音声を再現するオーディオ信号である。
【0036】
畳み込み処理部26は、レンダラ処理部25から供給されたMチャンネルの再生信号に対する畳み込み処理を行い、2チャンネルの再生信号を生成して出力する。すなわち、この例ではコンテンツの再生側のスピーカは2つとされており、畳み込み処理部26では、それらのスピーカで再生される再生信号が生成され、出力される。
【0037】
〈再生信号の生成について〉
次に、図1に示した音声処理装置11によって生成される再生信号について、より詳細に説明する。
【0038】
上述したように、ここでは音声処理装置11に2つのオブジェクトOB1およびオブジェクトOB2についての波形信号と位置情報が供給される例について説明する。
【0039】
コンテンツを再生しようとする場合、ユーザは入力部21を操作して、レンダリング時に各オブジェクトの音声の定位の基準点となる想定聴取位置を入力する。
【0040】
ここでは想定聴取位置として、標準聴取位置からの左右方向の移動距離Xおよび前後方向の移動距離Yが入力されることとし、想定聴取位置情報を(X,Y)と表すこととする。なお、移動距離Xおよび移動距離Yの単位は例えばメートルなどとされる。
【0041】
具体的には標準聴取位置を原点Oとし、水平方向をx軸方向およびy軸方向とし、高さ方向をz軸方向とするxyz座標系における、標準聴取位置から想定聴取位置までのx軸方向の距離Xと、標準聴取位置から想定聴取位置までのy軸方向の距離Yとがユーザにより入力される。そして、入力された距離Xおよび距離Yにより示される標準聴取位置からの相対的な位置を示す情報が、想定聴取位置情報(X,Y)とされる。なお、xyz座標系は直交座標系である。
【0042】
また、ここでは説明を簡単にするため、想定聴取位置がxy平面上にある場合を例として説明するが、ユーザが想定聴取位置のz軸方向の高さを指定することができるようにしてもよい。そのような場合、ユーザにより標準聴取位置から想定聴取位置までのx軸方向の距離X、y軸方向の距離Y、およびz軸方向の距離Zが指定され、想定聴取位置情報(X,Y,Z)とされる。また、以上においてはユーザにより想定聴取位置が入力されると説明したが、想定聴取位置情報が外部から取得されるようにしてもよいし、予めユーザ等により設定されているようにしてもよい。
【0043】
このようにして想定聴取位置情報(X,Y)が得られると、次に位置情報補正部22において、想定聴取位置を基準とする各オブジェクトの位置を示す補正位置情報が算出される。
【0044】
例えば図2に示すように、所定のオブジェクトOB11について波形信号と位置情報が供給され、ユーザにより想定聴取位置LP11が指定されたとする。なお、図2において、図中、横方向、奥行き方向、および縦方向は、それぞれx軸方向、y軸方向、およびz軸方向を示している。
【0045】
この例では、xyz座標系の原点Oが標準聴取位置とされている。ここで、オブジェクトOB11がn番目のオブジェクトであるとすると、標準聴取位置からみたオブジェクトOB11の位置を示す位置情報は(An,En,Rn)とされる。
【0046】
すなわち、位置情報(An,En,Rn)の方位角Anは、原点OおよびオブジェクトOB11を結ぶ直線と、y軸とがxy平面上においてなす角度を示している。また、位置情報(An,En,Rn)の仰角Enは、原点OおよびオブジェクトOB11を結ぶ直線と、xy平面とのなす角度を示しており、位置情報(An,En,Rn)の半径Rnは、原点OからオブジェクトOB11までの距離を示している。
【0047】
いま、想定聴取位置LP11を示す想定聴取位置情報として、原点Oから想定聴取位置LP11までのx軸方向の距離Xとy軸方向の距離Yとが入力されたとする。
【0048】
そのような場合、位置情報補正部22は想定聴取位置情報(X,Y)と、位置情報(An,En,Rn)とに基づいて、想定聴取位置LP11からみたオブジェクトOB11の位置、つまり想定聴取位置LP11を基準とするオブジェクトOB11の位置を示す補正位置情報(An’,En’,Rn’)を算出する。
【0049】
なお、補正位置情報(An’,En’,Rn’)におけるAn’、En’、およびRn’は、それぞれ位置情報(An,En,Rn)のAn、En、およびRnに対応する方位角、仰角、および半径を示している。
【0050】
具体的には、例えば1番目のオブジェクトOB1については、位置情報補正部22は、そのオブジェクトOB1の位置情報(A1,E1,R1)と、想定聴取位置情報(X,Y)とに基づいて、次式(1)乃至式(3)を計算して補正位置情報(A1’,E1’,R1’)を算出する。
【0051】
【数1】
【数2】
【数3】
【0052】
すなわち、式(1)により方位角A1’が算出され、式(2)により仰角E1’が算出され、式(3)により半径R1’が算出される。
【0053】
同様に、位置情報補正部22は2番目のオブジェクトOB2について、そのオブジェクトOB2の位置情報(A2,E2,R2)と、想定聴取位置情報(X,Y)とに基づいて、次式(4)乃至式(6)を計算して補正位置情報(A2’,E2’,R2’)を算出する。
【0054】
【数4】
【数5】
【数6】
【0055】
すなわち、式(4)により方位角A2’が算出され、式(5)により仰角E2’が算出され、式(6)により半径R2’が算出される。
【0056】
続いて、ゲイン/周波数特性補正部23では、想定聴取位置に対する各オブジェクトの位置を示す補正位置情報と、標準聴取位置に対する各オブジェクトの位置を示す位置情報とに基づいて、オブジェクトの波形信号のゲイン補正や周波数特性補正が行われる。
【0057】
例えばゲイン/周波数特性補正部23は、オブジェクトOB1とオブジェクトOB2について、補正位置情報の半径R1’および半径R2’と、位置情報の半径R1および半径R2とを用いて次式(7)および式(8)を計算し、各オブジェクトのゲイン補正量G1およびゲイン補正量G2を決定する。
【0058】
【数7】
【数8】
【0059】
すなわち、式(7)によりオブジェクトOB1の波形信号W1[t]のゲイン補正量G1が求められ、式(8)によりオブジェクトOB2の波形信号W2[t]のゲイン補正量G2が求められる。この例では、補正位置情報により示される半径と、位置情報により示される半径との比がゲイン補正量とされており、このゲイン補正量によりオブジェクトから想定聴取位置までの距離に応じた音量補正が行われる。
【0060】
さらにゲイン/周波数特性補正部23は、次式(9)および式(10)を計算することにより、各オブジェクトの波形信号に対して、補正位置情報により示される半径に応じた周波数特性補正と、ゲイン補正量によるゲイン補正を施す。
【0061】
【数9】
【数10】
【0062】
すなわち、式(9)の計算により、オブジェクトOB1の波形信号W1[t]に対する周波数特性補正とゲイン補正が行われ、波形信号W1’[t]が得られる。同様に、式(10)の計算により、オブジェクトOB2の波形信号W2[t]に対する周波数特性補正とゲイン補正が行われ、波形信号W2’[t]が得られる。この例では、フィルタ処理によって、波形信号に対する周波数特性の補正が実現されている。
【0063】
なお、式(9)および式(10)において、hl(但し、l=0,1,…,L)は、フィルタ処理のために各時刻の波形信号Wn[t-l](但し、n=1,2)に乗算される係数を示している。
【0064】
ここで、例えばL=2とし、各係数h0、h1、およびh2を次式(11)乃至式(13)に示すものとすれば、オブジェクトから想定聴取位置までの距離に応じて、再現したい仮想の音場(仮想的なオーディオ再生空間)の壁や天井によって、オブジェクトからの音声の高域成分が減衰する特性を再現することができる。
【0065】
【数11】
【数12】
【数13】
【0066】
なお、式(12)において、RnはオブジェクトOBn(但し、n=1,2)の位置情報(An,En,Rn)により示される半径Rnを示しており、Rn’はオブジェクトOBn(但し、n=1,2)の補正位置情報(An’,En’,Rn’)により示される半径Rn’を示している。
【0067】
このように式(11)乃至式(13)に示される係数を用いて式(9)や式(10)の計算を行うことで、図3に示す周波数特性のフィルタ処理が行われることになる。なお、図3において、横軸は正規化周波数を示しており、縦軸は振幅、すなわち波形信号の減衰量を示している。
【0068】
図3では、直線C11はRn’≦Rnである場合の周波数特性を示している。この場合、オブジェクトから想定聴取位置までの距離は、オブジェクトから標準聴取位置までの距離以下である。つまり、標準聴取位置よりも想定聴取位置の方がオブジェクトにより近い位置にあるか、または標準聴取位置と想定聴取位置がオブジェクトから同じ距離の位置にある。したがって、このような場合には、波形信号の各周波数成分は特に減衰されない。
【0069】
また、曲線C12はRn’=Rn+5である場合の周波数特性を示している。この場合、標準聴取位置よりも想定聴取位置の方が、オブジェクトからわずかに離れた位置にあるので、波形信号の高域成分がわずかに減衰する。
【0070】
さらに、曲線C13はRn’≧Rn+10である場合の周波数特性を示している。この場合、標準聴取位置と比べて想定聴取位置の方が、オブジェクトから大きく離れた位置にあるので、波形信号の高域成分が大幅に減衰する。
【0071】
このようにオブジェクトから想定聴取位置までの距離に応じてゲイン補正と周波数特性補正を行い、オブジェクトの波形信号の高域成分を減衰させることで、ユーザの聴取位置の変更に伴う周波数特性や音量の変化を再現することができる。
【0072】
ゲイン/周波数特性補正部23においてゲイン補正と周波数特性補正が行われて、各オブジェクトの波形信号Wn’[t]が得られると、さらに空間音響特性付加部24において、波形信号Wn’[t]に対して空間音響特性が付加される。例えば空間音響特性として、初期反射や残響特性などが波形信号に付加される。
【0073】
具体的には、波形信号に対して初期反射と残響特性を付加する場合、マルチタップディレイ処理、コムフィルタ処理、およびオールパスフィルタ処理を組み合わせることで、それらの初期反射と残響特性の付加を実現することができる。
【0074】
すなわち、空間音響特性付加部24は、オブジェクトの位置情報と想定聴取位置情報とから定まる遅延量およびゲイン量に基づいて、波形信号に対するマルチタップディレイ処理を施し、その結果得られた信号をもとの波形信号に加算することで、波形信号に初期反射を付加する。
【0075】
また、空間音響特性付加部24は、オブジェクトの位置情報と想定聴取位置情報とから定まる遅延量およびゲイン量に基づいて、波形信号に対するコムフィルタ処理を施す。そして、さらに空間音響特性付加部24は、コムフィルタ処理された波形信号に対して、オブジェクトの位置情報と想定聴取位置情報とから定まる遅延量およびゲイン量に基づいてオールパスフィルタ処理を施すことで、残響特性を付加するための信号を得る。
【0076】
最後に、空間音響特性付加部24は初期反射が付加された波形信号と、残響特性を付加するための信号とを加算することで、初期反射と残響特性が付加された波形信号を得て、レンダラ処理部25に出力する。
【0077】
このように、オブジェクトの位置情報と想定聴取位置情報に対して定まるパラメータを用いて、波形信号に空間音響特性を付加することで、ユーザの聴取位置の変更に伴う空間音響の変化を再現することができる。
【0078】
なお、これらのマルチタップディレイ処理や、コムフィルタ処理、オールパスフィルタ処理などで用いられる、遅延量やゲイン量などのパラメータは、予めオブジェクトの位置情報と想定聴取位置情報の組み合わせごとにテーブルで保持されているようにしてもよい。
【0079】
そのような場合、例えば空間音響特性付加部24は、各想定聴取位置について、位置情報により示される位置ごとに遅延量等のパラメータセットが対応付けられているテーブルを予め保持している。そして、空間音響特性付加部24は、オブジェクトの位置情報と想定聴取位置情報とから定まるパラメータセットをテーブルから読み出し、それらのパラメータを用いて波形信号に空間音響特性を付加する。
【0080】
なお、空間音響特性の付加に用いるパラメータセットは、テーブルとして保持されるようにしてもよいし、関数などで保持されるようにしてもよい。例えば関数によりパラメータが求められる場合、空間音響特性付加部24は、予め保持している関数に位置情報と想定聴取位置情報を代入し、空間音響特性の付加に用いる各パラメータを算出する。
【0081】
以上のようにして各オブジェクトについて、空間音響特性が付加された波形信号が得られると、レンダラ処理部25において、それらの波形信号に対するM個の各チャンネルへのマッピング処理が行われ、Mチャンネルの再生信号が生成される。つまりレンダリングが行われる。
【0082】
具体的には、例えばレンダラ処理部25はオブジェクトごとに、補正位置情報に基づいて、VBAPによりM個の各チャンネルについてオブジェクトの波形信号のゲイン量を求める。そして、レンダラ処理部25は、チャンネルごとに、VBAPで求めたゲイン量が乗算された各オブジェクトの波形信号を加算する処理を行うことで、各チャンネルの再生信号を生成する。
【0083】
ここで、図4を参照してVBAPについて説明する。
【0084】
例えば図4に示すように、ユーザU11が3つのスピーカSP1乃至スピーカSP3から出力される3チャンネルの音声を聴いているとする。この例では、ユーザU11の頭部の位置が想定聴取位置に相当する位置LP21となる。
【0085】
また、スピーカSP1乃至スピーカSP3により囲まれる球面上の三角形TR11はメッシュと呼ばれており、VBAPでは、このメッシュ内の任意の位置に音像を定位させることができる。
【0086】
いま、各チャンネルの音声を出力する3つのスピーカSP1乃至スピーカSP3の位置を示す情報を用いて、音像位置VSP1に音像を定位させることを考える。ここで、音像位置VSP1は1つのオブジェクトOBnの位置、より詳細には、補正位置情報(An’,En’,Rn’)により示されるオブジェクトOBnの位置に対応する。
【0087】
例えばユーザU11の頭部の位置、つまり位置LP21を原点とする3次元座標系において、音像位置VSP1を、位置LP21(原点)を始点とする3次元のベクトルpにより表すこととする。
【0088】
また、位置LP21(原点)を始点とし、各スピーカSP1乃至スピーカSP3の位置の方向を向く3次元のベクトルをベクトルl1乃至ベクトルl3とすると、ベクトルpは次式(14)に示すように、ベクトルl1乃至ベクトルl3の線形和によって表すことができる。
【0089】
【数14】
【0090】
式(14)においてベクトルl1乃至ベクトルl3に乗算されている係数g1乃至係数g3を算出し、これらの係数g1乃至係数g3を、スピーカSP1乃至スピーカSP3のそれぞれから出力する音声のゲイン量、つまり波形信号のゲイン量とすれば、音像位置VSP1に音像を定位させることができる。
【0091】
具体的には、3つのスピーカSP1乃至スピーカSP3からなる三角形状のメッシュの逆行列L123 -1と、オブジェクトOBnの位置を示すベクトルpとに基づいて、次式(15)を計算することで、ゲイン量となる係数g1乃至係数g3を得ることができる。
【0092】
【数15】
【0093】
なお、式(15)において、ベクトルpの要素であるRn’sinAn’ cosEn’、Rn’cosAn’ cosEn’、およびRn’sinEn’は音像位置VSP1、すなわちオブジェクトOBnの位置を示すx’y’z’座標系上のx’座標、y’座標、およびz’座標を示している。
【0094】
このx’y’z’座標系は、例えばx’軸、y’軸、およびz’軸が、図2に示したxyz座標系のx軸、y軸、およびz軸と平行であり、かつ想定聴取位置に相当する位置を原点とする直交座標系とされる。また、ベクトルpの各要素は、オブジェクトOBnの位置を示す補正位置情報(An’,En’,Rn’)から求めることができる。
【0095】
また、式(15)においてl11、l12、およびl13は、メッシュを構成する1つ目のスピーカへ向くベクトルl1をx’軸、y’軸、およびz’軸の成分に分解した場合におけるx’成分、y’成分、およびz’成分の値であり、1つ目のスピーカのx’座標、y’座標、およびz’座標に相当する。
【0096】
同様にl21、l22、およびl23は、メッシュを構成する2つ目のスピーカへ向くベクトルl2をx’軸、y’軸、およびz’軸の成分に分解した場合におけるx’成分、y’成分、およびz’成分の値である。また、l31、l32、およびl33は、メッシュを構成する3つ目のスピーカへ向くベクトルl3をx’軸、y’軸、およびz’軸の成分に分解した場合におけるx’成分、y’成分、およびz’成分の値である。
【0097】
このようにして、3つのスピーカSP1乃至スピーカSP3の位置関係を利用して係数g1乃至係数g3を求め、音像の定位位置を制御する手法は、特に3次元VBAPと呼ばれている。この場合、再生信号のチャンネル数Mは3以上となる。
【0098】
なお、レンダラ処理部25では、Mチャンネルの再生信号が生成されるので、各チャンネルに対応する仮想的なスピーカの個数はM個となる。この場合、各オブジェクトOBnについて、M個のスピーカのそれぞれに対応するM個のチャンネルごとに波形信号のゲイン量が算出されることになる。
【0099】
この例では、仮想のM個のスピーカからなる複数のメッシュが、仮想的なオーディオ再生空間に配置されている。そして、オブジェクトOBnが含まれるメッシュを構成する3つのスピーカに対応する3つのチャンネルのゲイン量は、上述した式(15)により求まる値とされる。一方、残りのM-3個の各スピーカに対応する、M-3個の各チャンネルのゲイン量は0とされる。
【0100】
以上のようにしてレンダラ処理部25は、Mチャンネルの再生信号を生成すると、得られた再生信号を畳み込み処理部26に供給する。
【0101】
このようにして得られたMチャンネルの再生信号によれば、所望の想定聴取位置での各オブジェクトの音声の聴こえ方をより現実的に再現することができる。なお、ここではVBAPによりMチャンネルの再生信号を生成する例について説明したが、Mチャンネルの再生信号は、他のどのような手法によって生成されるようにしてもよい。
【0102】
Mチャンネルの再生信号は、Mチャンネルのスピーカシステムで音声を再生するための信号であり、音声処理装置11では、さらにこのMチャンネルの再生信号が、2チャンネルの再生信号へと変換されて出力される。すなわち、Mチャンネルの再生信号が、2チャンネルの再生信号へとダウンミックスされる。
【0103】
例えば畳み込み処理部26は、レンダラ処理部25から供給されたMチャンネルの再生信号に対する畳み込み処理として、BRIR(Binaural Room Impulse Response)処理を行うことで、2チャンネルの再生信号を生成し、出力する。
【0104】
なお、再生信号に対する畳み込み処理は、BRIR処理に限らず、2チャンネルの再生信号を得ることができる処理であれば、どのような処理であってもよい。
【0105】
また、2チャンネルの再生信号の出力先がヘッドフォンである場合、予め様々なオブジェクトの位置から想定聴取位置に対するインパルス応答をテーブルで持っておくようにすることもできる。そのような場合、オブジェクトの位置から想定聴取位置に対応するインパルス応答を用いて、BRIR処理により各オブジェクトの波形信号を合成することで、各オブジェクトから出力される、所望の想定聴取位置での音声の聴こえ方を再現することができる。
【0106】
しかしながら、この方法のためには、かなり多数のポイント(位置)に対応するインパルス応答を持たなければならない。また、オブジェクトの数が増えると、その数分のBRIR処理を行わなければならず、処理負荷が大きくなる。
【0107】
そこで、音声処理装置11では、レンダラ処理部25により仮想のMチャンネルのスピーカにマッピング処理された再生信号(波形信号)が、その仮想のMチャンネルのスピーカからユーザ(聴取者)の両耳に対するインパルス応答を用いたBRIR処理により2チャンネルの再生信号にダウンミックスされる。この場合、Mチャンネルの各スピーカから聴取者の両耳へのインパルス応答しか持つ必要がなく、また、多数のオブジェクトがあるときでもBRIR処理はMチャンネル分となるので、処理負荷を抑えることができる。
【0108】
〈再生信号生成処理の説明〉
続いて、以上において説明した音声処理装置11の処理の流れについて説明する。すなわち、以下、図5のフローチャートを参照して、音声処理装置11による再生信号生成処理について説明する。
【0109】
ステップS11において、入力部21は想定聴取位置の入力を受け付ける。入力部21は、ユーザが入力部21を操作して想定聴取位置を入力すると、その想定聴取位置を示す想定聴取位置情報を位置情報補正部22および空間音響特性付加部24に供給する。
【0110】
ステップS12において、位置情報補正部22は、入力部21から供給された想定聴取位置情報と、外部から供給された各オブジェクトの位置情報とに基づいて補正位置情報(An’,En’,Rn’)を算出し、ゲイン/周波数特性補正部23およびレンダラ処理部25に供給する。例えば、上述した式(1)乃至式(3)や式(4)乃至式(6)が計算されて、各オブジェクトの補正位置情報が算出される。
【0111】
ステップS13において、ゲイン/周波数特性補正部23は、位置情報補正部22から供給された補正位置情報と、外部から供給された位置情報とに基づいて、外部から供給されたオブジェクトの波形信号のゲイン補正および周波数特性補正を行う。
【0112】
例えば、上述した式(9)や式(10)が計算されて、各オブジェクトの波形信号Wn’[t]が求められる。ゲイン/周波数特性補正部23は、得られた各オブジェクトの波形信号Wn’[t]を空間音響特性付加部24に供給する。
【0113】
ステップS14において、空間音響特性付加部24は、入力部21から供給された想定聴取位置情報と、外部から供給されたオブジェクトの位置情報とに基づいて、ゲイン/周波数特性補正部23から供給された波形信号に空間音響特性を付加し、レンダラ処理部25に供給する。例えば、空間音響特性として初期反射や残響特性などが波形信号に付加される。
【0114】
ステップS15において、レンダラ処理部25は、位置情報補正部22から供給された補正位置情報に基づいて、空間音響特性付加部24から供給された波形信号に対するマッピング処理を行うことで、Mチャンネルの再生信号を生成し、畳み込み処理部26に供給する。例えばステップS15の処理では、VBAPにより再生信号が生成されるが、その他、どのような手法でMチャンネルの再生信号が生成されるようにしてもよい。
【0115】
ステップS16において、畳み込み処理部26は、レンダラ処理部25から供給されたMチャンネルの再生信号に対する畳み込み処理を行うことで、2チャンネルの再生信号を生成し、出力する。例えば畳み込み処理として、上述したBRIR処理が行われる。
【0116】
2チャンネルの再生信号が生成されて出力されると、再生信号生成処理は終了する。
【0117】
以上のようにして音声処理装置11は、想定聴取位置情報に基づいて補正位置情報を算出するとともに、得られた補正位置情報や想定聴取位置情報に基づいて、各オブジェクトの波形信号のゲイン補正や周波数特性補正を行ったり、空間音響特性を付加したりする。
【0118】
これにより、各オブジェクト位置から出力された音声の任意の想定聴取位置での聴こえ方をリアルに再現することができる。したがって、ユーザはコンテンツの再生時に自身の嗜好に合わせて、自由に音声の聴取位置を指定することができるようになり、より自由度の高いオーディオ再生を実現することができる。
【0119】
〈第2の実施の形態〉
〈音声処理装置の構成例〉
なお、以上においては、ユーザが任意の想定聴取位置を指定することができる例について説明したが、聴取位置だけでなく各オブジェクトの位置も任意の位置に変更(修正)することができるようにしてもよい。
【0120】
そのような場合、音声処理装置11は、例えば図6に示すように構成される。なお、図6において、図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
【0121】
図6に示す音声処理装置11は、図1における場合と同様に、入力部21、位置情報補正部22、ゲイン/周波数特性補正部23、空間音響特性付加部24、レンダラ処理部25、および畳み込み処理部26を有している。
【0122】
但し、図6に示す音声処理装置11では、ユーザにより入力部21が操作され、想定聴取位置に加えて、さらに各オブジェクトの修正後(変更後)の位置を示す修正位置が入力される。入力部21は、ユーザにより入力された各オブジェクトの修正位置を示す修正位置情報を、位置情報補正部22および空間音響特性付加部24に供給する。
【0123】
例えば修正位置情報は、位置情報と同様に、標準聴取位置からみた修正後のオブジェクトOBnの方位角An、仰角En、および半径Rnからなる情報とされる。なお、修正位置情報は、修正前(変更前)のオブジェクトの位置に対する、修正後(変更後)のオブジェクトの相対的な位置を示す情報とされてもよい。
【0124】
また、位置情報補正部22は、入力部21から供給された想定聴取位置情報および修正位置情報に基づいて補正位置情報を算出し、ゲイン/周波数特性補正部23およびレンダラ処理部25に供給する。なお、例えば修正位置情報が、もとのオブジェクト位置からみた相対的な位置を示す情報とされる場合には、想定聴取位置情報、位置情報、および修正位置情報に基づいて、補正位置情報が算出される。
【0125】
空間音響特性付加部24は、入力部21から供給された想定聴取位置情報および修正位置情報に基づいて、ゲイン/周波数特性補正部23から供給された波形信号に空間音響特性を付加し、レンダラ処理部25に供給する。
【0126】
例えば、図1に示した音声処理装置11の空間音響特性付加部24では、各想定聴取位置情報について、位置情報により示される位置ごとにパラメータセットが対応付けられているテーブルを予め保持していると説明した。
【0127】
これに対して、図6に示す音声処理装置11の空間音響特性付加部24は、例えば各想定聴取位置情報について、修正位置情報により示される位置ごとにパラメータセットが対応付けられているテーブルを予め保持している。そして、空間音響特性付加部24は、各オブジェクトについて、入力部21から供給された想定聴取位置情報と修正位置情報から定まるパラメータセットをテーブルから読み出し、それらのパラメータを用いてマルチタップディレイ処理や、コムフィルタ処理、オールパスフィルタ処理などを行い、波形信号に空間音響特性を付加する。
【0128】
〈再生信号生成処理の説明〉
次に図7のフローチャートを参照して、図6に示す音声処理装置11による再生信号生成処理について説明する。なお、ステップS41の処理は、図5のステップS11の処理と同様であるので、その説明は省略する。
【0129】
ステップS42において、入力部21は各オブジェクトの修正位置の入力を受け付ける。入力部21は、ユーザが入力部21を操作してオブジェクトごとに修正位置を入力すると、それらの修正位置を示す修正位置情報を、位置情報補正部22および空間音響特性付加部24に供給する。
【0130】
ステップS43において、位置情報補正部22は、入力部21から供給された想定聴取位置情報および修正位置情報に基づいて補正位置情報(An’,En’,Rn’)を算出し、ゲイン/周波数特性補正部23およびレンダラ処理部25に供給する。
【0131】
この場合、例えば上述した式(1)乃至式(3)において、位置情報の方位角、仰角、および半径が、修正位置情報の方位角、仰角、および半径に置き換えられて計算が行われ、補正位置情報が算出される。また、式(4)乃至式(6)においても、位置情報が修正位置情報に置き換えられて計算が行われる。
【0132】
修正位置情報が算出されると、その後、ステップS44の処理が行われるが、ステップS44の処理は図5のステップS13の処理と同様であるので、その説明は省略する。
【0133】
ステップS45において、空間音響特性付加部24は、入力部21から供給された想定聴取位置情報および修正位置情報に基づいて、ゲイン/周波数特性補正部23から供給された波形信号に空間音響特性を付加し、レンダラ処理部25に供給する。
【0134】
波形信号に空間音響特性が付加されると、その後、ステップS46およびステップS47の処理が行われて再生信号生成処理は終了するが、これらの処理は図5のステップS15およびステップS16の処理と同様であるので、その説明は省略する。
【0135】
以上のようにして音声処理装置11は、想定聴取位置情報および修正位置情報に基づいて補正位置情報を算出するとともに、得られた補正位置情報や想定聴取位置情報、修正位置情報に基づいて、各オブジェクトの波形信号のゲイン補正や周波数特性補正を行ったり、空間音響特性を付加したりする。
【0136】
これにより、任意のオブジェクト位置から出力された音声の任意の想定聴取位置での聴こえ方をリアルに再現することができる。したがって、ユーザはコンテンツの再生時に自身の嗜好に合わせて、自由に音声の聴取位置を指定することができるだけでなく、各オブジェクトの位置も自由に指定することができるようになり、より自由度の高いオーディオ再生を実現することができる。
【0137】
例えば音声処理装置11によれば、ユーザが歌声や楽器の演奏音などの構成や配置を変更させた場合の音の聴こえ方を再現することができる。したがって、ユーザはオブジェクトに対応する楽器や歌声等の構成や配置を自由に移動させ、自身の嗜好に合った音源配置や構成とした楽曲や音を楽しむことができる。
【0138】
また、図6に示す音声処理装置11においても、図1に示した音声処理装置11の場合と同様に、一旦、Mチャンネルの再生信号を生成し、その再生信号を2チャンネルの再生信号に変換(ダウンミックス)することで、処理負荷を抑えることができる。
【0139】
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどが含まれる。
【0140】
図8は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
【0141】
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
【0142】
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
【0143】
入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア511を駆動する。
【0144】
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
【0145】
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
【0146】
コンピュータでは、プログラムは、リムーバブルメディア511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
【0147】
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
【0148】
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
【0149】
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
【0150】
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
【0151】
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
【0152】
また、本明細書中に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
【0153】
さらに、本技術は、以下の構成とすることも可能である。
【0154】
(1)
音源の位置を示す位置情報と、前記音源からの音声を聴取する聴取位置を示す聴取位置情報とに基づいて、前記聴取位置を基準とする前記音源の位置を示す補正位置情報を算出する位置情報補正部と、
前記音源の波形信号と前記補正位置情報とに基づいて、前記聴取位置において聴取される前記音源からの音声を再現する再生信号を生成する生成部と
を備える音声処理装置。
(2)
前記位置情報補正部は、前記音源の修正後の位置を示す修正位置情報と、前記聴取位置情報とに基づいて前記補正位置情報を算出する
(1)に記載の音声処理装置。
(3)
前記音源から前記聴取位置までの距離に応じて、前記波形信号にゲイン補正または周波数特性補正の少なくとも何れかを行う補正部をさらに備える
(1)または(2)に記載の音声処理装置。
(4)
前記聴取位置情報と前記修正位置情報とに基づいて、前記波形信号に空間音響特性を付加する空間音響特性付加部をさらに備える
(2)に記載の音声処理装置。
(5)
前記空間音響特性付加部は、前記空間音響特性として、初期反射または残響特性の少なくとも何れかを前記波形信号に付加する
(4)に記載の音声処理装置。
(6)
前記聴取位置情報と前記位置情報とに基づいて、前記波形信号に空間音響特性を付加する空間音響特性付加部をさらに備える
(1)に記載の音声処理装置。
(7)
前記生成部により生成された2以上のチャンネルの前記再生信号に畳み込み処理を行って、2チャンネルの前記再生信号を生成する畳み込み処理部をさらに備える
(1)乃至(6)の何れか一項に記載の音声処理装置。
(8)
音源の位置を示す位置情報と、前記音源からの音声を聴取する聴取位置を示す聴取位置情報とに基づいて、前記聴取位置を基準とする前記音源の位置を示す補正位置情報を算出し、
前記音源の波形信号と前記補正位置情報とに基づいて、前記聴取位置において聴取される前記音源からの音声を再現する再生信号を生成する
ステップを含む音声処理方法。
(9)
音源の位置を示す位置情報と、前記音源からの音声を聴取する聴取位置を示す聴取位置情報とに基づいて、前記聴取位置を基準とする前記音源の位置を示す補正位置情報を算出し、
前記音源の波形信号と前記補正位置情報とに基づいて、前記聴取位置において聴取される前記音源からの音声を再現する再生信号を生成する
ステップを含む処理をコンピュータに実行させるプログラム。
【符号の説明】
【0155】
11 音声処理装置, 21 入力部, 22 位置情報補正部, 23 ゲイン/周波数特性補正部, 24 空間音響特性付加部, 25 レンダラ処理部, 26 畳み込み処理部
図1
図2
図3
図4
図5
図6
図7
図8