(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022188646
(43)【公開日】2022-12-21
(54)【発明の名称】音響メタデータ処理装置及びプログラム
(51)【国際特許分類】
G10L 19/008 20130101AFI20221214BHJP
【FI】
G10L19/008 200
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2021096858
(22)【出願日】2021-06-09
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100147485
【弁理士】
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】230118913
【弁護士】
【氏名又は名称】杉村 光嗣
(74)【代理人】
【識別番号】100161148
【弁理士】
【氏名又は名称】福尾 誠
(72)【発明者】
【氏名】久保 弘樹
(72)【発明者】
【氏名】大出 訓史
(57)【要約】
【課題】オブジェクトベース音響において、音響メタデータの記述を変換し、時間に応じた音声オブジェクトの再生位置の変化に複数の解釈が生じないようにする。
【解決手段】音響メタデータ処理装置1は、当該時刻の音響メタデータと当該時刻前までの音響メタデータについて、音声オブジェクトの再生位置を比較し、当該時刻の音響メタデータを分割するか否かの分割判定を行う分割判定部11と、分割判定に基づき、当該時刻の音響メタデータを時間方向に分割するか、又は当該時刻の音響メタデータを分割しないで当該時刻前までの音響メタデータに追加する音響メタデータ変換部12と、を備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
オブジェクトベース音響おいて、音声オブジェクトの再生位置が記述された音響メタデータを変換する音響メタデータ処理装置であって、
当該時刻の音響メタデータと当該時刻前までの音響メタデータについて、音声オブジェクトの再生位置を比較し、当該時刻の音響メタデータを分割するか否かの分割判定を行う分割判定部と、
前記分割判定に基づき、当該時刻の音響メタデータを時間方向に分割するか、又は当該時刻の音響メタデータを分割しないで当該時刻前までの音響メタデータに追加する音響メタデータ変換部と、
を備える音響メタデータ処理装置。
【請求項2】
前記分割判定部は、当該時刻の音響メタデータの再生位置と、当該時刻前までの音響メタデータの再生位置との差分から、前記音声オブジェクトの移動方向を判断する、請求項1に記載の音響メタデータ処理装置。
【請求項3】
前記分割判定部は、当該時刻の音響メタデータの再生位置の変化率と、当該時刻前までの音響メタデータの再生位置の変化率との差分から、前記音声オブジェクトの移動方向を判断する、請求項1又は2に記載の音響メタデータ処理装置。
【請求項4】
前記分割判定部は、当該時刻の音響メタデータの再生位置と、当該時刻前までの音響メタデータの再生位置から求めた当該時刻の予測再生位置との差分から、前記音声オブジェクトの移動方向を判断する、請求項1から3のいずれか一項に記載の音響メタデータ処理装置。
【請求項5】
前記分割判定部は、当該時刻の予測再生位置をラグランジュの補間公式を用いて求める、請求項4に記載の音響メタデータ処理装置。
【請求項6】
前記音響メタデータ変換部は、音声オブジェクトの再生位置が不連続に変化する場合に、音響メタデータを時系列に分割し、持続時間0秒の音響メタデータ、又は不連続点を初期値とする音響メタデータを挿入する、請求項1から5のいずれか一項に記載の音響メタデータ処理装置。
【請求項7】
コンピュータを、請求項1から6のいずれか一項に記載の音響メタデータ処理装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オブジェクトベース音響における音響メタデータを変換する音響メタデータ処理装置及びプログラムに関する。
【背景技術】
【0002】
オブジェクトベース音響とは、音声オブジェクトと音響メタデータを記録・伝送して、再生環境に応じた形式でコンテンツを再生(レンダリング)する音響方式である。立体音響の再生に用いる方式として映画業界を中心に普及が進んでいるが、近年では世界各国でオブジェクトベース音響を次世代放送に用いようとする動きも出てきており、例えば放送方式にATSC3.0を採用しているアメリカや韓国では、音声符号化方式にAC-4あるいはMPEG-H 3DAを用いて放送システムへの導入を始めている。
【0003】
ITU-Rは、国際標準の番組制作用音響メタデータとして音響定義モデル(Audio Definition Model:ADM)を規定している(例えば、非特許文献1参照)。ADMはXML(Extensible Markup Language)で記述され、番組音声を構成する音声オブジェクトの組み合わせなどが記述されたContent部と、スピーカ配置・音声オブジェクトの再生位置・ゲインなどが記述されたFormat部からなる。オブジェクトベース音響のコンテンツを制作する際、Format部のメタデータ、特に時間的に値が変化する音声オブジェクトの再生位置やゲインを人が手動で記述するのは、その労力から現実的ではない。実際には音声卓や音声編集ソフトウェアといった制作設備が、音声エンジニアが当該設備を操作し調節した再生位置・ゲインなどのパラメータを読み取り、自動的にメタデータの記述を生成することが想定される。
【0004】
オブジェクトベース音響を放送やストリーミングサービスなどで使用する場合には、受信を始めた任意の時刻から再生を開始できるよう、音響メタデータを繰り返し伝送する必要がある.そのため、ADMの時系列表現形式(Serial ADM:S-ADM)(例えば、非特許文献2参照)や、S-ADMを音声信号と同期させ、既存の音声デジタルインタフェースを用いて出力する伝送方式(SMPTE ST 2116:2019)がそれぞれ国際標準化されている。S-ADMはコンテンツを通して変化しないContent部のメタデータに加え、当該時間における再生信号の生成に必要なFormat部のメタデータが含まれる。音声卓などのライブプロダクションで使用する制作設備が自動的に生成した音響メタデータは、このS-ADMの形式で出力されることが想定される。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】ITU-R, Rec. ITU-R BS.2076-2, ”Audio definition model”, 2019
【非特許文献2】ITU-R, Rec. ITU-R BS.2125-0, “A serial representation of the Audio Definition Model”, 2019
【発明の概要】
【発明が解決しようとする課題】
【0006】
ADMにおいて、再生位置が変化する音声オブジェクトなど、一つ一つの音声チャンネルはaudioChannelFormatという記述子を用いて記述される。具体的な再生位置やゲインなどのパラメータの変化は、audioChannelFormatを時間方向にさらに複数のaudioBlockFormatという音声ブロック(以下、単に「ブロック」と称する。)に分割することで表現される。audioBlockFormatにはそのブロックの開始時刻と時間長に関する情報、及びその時間における再生位置(方位角、仰角、距離など)やゲインなどの各パラメータが記述され、パラメータが変化するごとに新しいaudioBlockFormatが追加される。ただし再生位置に関しては、各ブロックで規定されているパラメータは各ブロックの終了時点でのパラメータとなっており、前ブロックと比較し再生位置に変化がある場合には、基本的には前ブロックのパラメータから当該ブロックのパラメータに向けて、当該ブロックの時間長をかけて線形に変化していると補完して解釈される。
【0007】
ADMにおいて方位角は、聴取者を上から見て聴取者正面方向を0度とし、反時計回りを正、時計回りを負の値として記述する。ここで、聴取者の真後ろは±180度と不連続に値が変化する方向となっている。
図10(a)に示すように、音声エンジニアが、ある音声オブジェクトの再生位置を、聴取者の真後ろを通過して移動するよう音声卓などの制作設備を操作したとする。この場合、自動的に生成されたメタデータのaudioBlockFormatにおいて、当該音声オブジェクトの再生位置は、パラメータの取得方法によっては方位角±180度の前後、例えば
図10(b)に示すように、前ブロックでは+170度、当該ブロックでは-170度と記述されうる。しかしこの場合、生成されたメタデータを読み込んだオブジェクトベース音響の再生装置(レンダラー)は機械的に再生位置の差分を計算し、+170度から0度を通り-170度へと逆方向に移動すると解釈することが考えられる。このように、方位角の不連続点近傍に関するメタデータの記述によっては、当該音声オブジェクトの再生位置の移動方向に複数の解釈が生じ、レンダラーが制作意図と異なる再生信号を生成するおそれがある。
【0008】
かかる事情を鑑みてなされた本発明の目的は、オブジェクトベース音響において、音声オブジェクトの再生位置を時間に応じて変化させるような音響メタデータの記述を変換し、再生位置の変化に関する複数の解釈が生じない音響メタデータを生成する音響メタデータ処理装置及びプログラムを提供することにある。
【課題を解決するための手段】
【0009】
上記課題を解決するため、本発明に係る音響メタデータ処理装置は、オブジェクトベース音響おいて、音声オブジェクトの再生位置が記述された音響メタデータを変換する音響メタデータ処理装置であって、当該時刻の音響メタデータと当該時刻前までの音響メタデータについて、音声オブジェクトの再生位置を比較し、当該時刻の音響メタデータを分割するか否かの分割判定を行う分割判定部と、前記分割判定に基づき、当該時刻の音響メタデータを時間方向に分割するか、又は当該時刻の音響メタデータを分割しないで当該時刻前までの音響メタデータに追加する音響メタデータ変換部と、を備える。
【0010】
さらに、本発明に係る音響メタデータ処理装置において、前記分割判定部は、当該時刻の音響メタデータの再生位置と、当該時刻前までの音響メタデータの再生位置との差分から、前記音声オブジェクトの移動方向を判断してもよい。
【0011】
さらに、本発明に係る音響メタデータ処理装置において、前記分割判定部は、当該時刻の音響メタデータの再生位置の変化率と、当該時刻前までの音響メタデータの再生位置の変化率との差分から、前記音声オブジェクトの移動方向を判断してもよい。
【0012】
さらに、本発明に係る音響メタデータ処理装置において、前記分割判定部は、当該時刻の音響メタデータの再生位置と、当該時刻前までの音響メタデータの再生位置から求めた当該時刻の予測再生位置との差分から、前記音声オブジェクトの移動方向を判断してもよい。
【0013】
さらに、本発明に係る音響メタデータ処理装置において、前記分割判定部は、当該時刻の予測再生位置をラグランジュの補間公式を用いて求めてもよい。
【0014】
さらに、本発明に係る音響メタデータ処理装置において、前記音響メタデータ変換部は、音声オブジェクトの再生位置が不連続に変化する場合に、音響メタデータを時系列に分割し、持続時間0秒の音響メタデータ、又は不連続点を初期値とする音響メタデータを挿入してもよい。
【0015】
また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを、上記音響メタデータ処理装置として機能させる。
【発明の効果】
【0016】
本発明によれば、オブジェクトベース音響において、再生位置の変化に関する複数の解釈が生じない音響メタデータを生成することができ、レンダラーが制作意図と異なる再生信号を生成することを防止することができる。
【図面の簡単な説明】
【0017】
【
図1】一実施形態に係る音響メタデータ処理装置の構成例を示すブロック図である。
【
図2】一実施形態に係る音響メタデータ処理装置における処理手順例を示すフローチャートである。
【
図3】ブロック変換時の主要なパラメータの設定例を示す表である。
【
図4】実施例1として音声オブジェクトが反時計回りに徐々に加速しながら移動する例を示す図である。
【
図5】実施例1において変換前後のADMのaudioBlockFormatを示す図である。
【
図6】実施例2として実施例1よりも速い加速度で、音声オブジェクトが反時計回りに徐々に加速しながら移動する例を示す図である。
【
図7】実施例2において変換前後のADMのaudioBlockFormatを示す図である。
【
図8】実施例3として音声オブジェクトが徐々に加速しながら、左右に反復して移動する例を示す。
【
図9】実施例3において変換前後のADMのaudioBlockFormatを示す図である。
【
図10】音声オブジェクトの再生位置が180度を通過する例を示す図である。
【
図11】
図10において音響メタデータを分割する例を示す図である。
【発明を実施するための形態】
【0018】
以下、図面を参照しながら本発明の実施形態について詳細に説明する。
【0019】
図1は、一実施形態に係る音響メタデータ処理装置の構成例を示すブロック図である。
図1に示す音響メタデータ処理装置1は、分割判定部11と、音響メタデータ変換部12と、音響メタデータ記憶部13と、を備える。音響メタデータ処理装置1は、音響メタデータ記憶部13に記憶されたメタデータを任意の時点で処理済みのADMとして出力する音響メタデータ出力部を備えていてもよい。なお、本実施形態では、音響メタデータ処理装置1は音響メタデータとしてADMを用いているが、これに限定されるものではない。例えば、S-ADMに対しても同様の処理を行うことが可能である。
【0020】
音響メタデータ処理装置1は、オブジェクトベース音響において、音声オブジェクトの再生位置を時間に応じて変化させる音響メタデータの記述を変換することにより、再生位置の変化に関する複数の解釈が生じない音響メタデータを生成する装置である。本明細書において、「変換」とは、以下に詳細に説明する「分割」と「追加」の両方を含む概念である。
【0021】
音響メタデータ処理装置1は、ADMに含まれる変換前のaudioBlockFormatに対して1ブロックずつ、音響メタデータ記憶部13に記憶していた処理済み(音響メタデータ変換部12による変換後)のメタデータと比較し、その結果をもって処理中のaudioBlockFormatを変換して新しいメタデータを生成する。音響メタデータ処理装置1は、生成したメタデータを音響メタデータ記憶部13に逐次記憶しており、任意の時点で処理済みのADMを出力することができる。
【0022】
分割判定部11は、ある当該時刻の音響メタデータ(新たに入力したADM)と当該時刻前までの音響メタデータ(変換処理済みの、音響メタデータ記憶部13に記憶されたADM)について、音声オブジェクトの再生位置を比較し、当該時刻の音響メタデータを分割するか否かの分割判定を行う。分割判定部11は、判定結果を示す判定情報を音響メタデータ変換部12に出力する。
【0023】
音響メタデータ変換部12は、分割判定部11から入力した判定情報に基づき、当該時刻の音響メタデータを時間方向に分割してから当該時刻前までの音響メタデータに追加するか、又は当該時刻の音響メタデータを分割しないでそのまま当該時刻前までの音響メタデータに追加する。そして、音響メタデータ変換部12は、変換した音響メタデータを音響メタデータ記憶部13に出力する。
【0024】
図2は、音響メタデータ処理装置1の処理手順の一例を示すフローチャートである。
【0025】
ステップS11では、分割判定部11により、まだ比較を行っていないブロックのうち、最も若番の(時刻が最も早い)ブロックから比較処理を開始する。
【0026】
ステップS12では、分割判定部11により、当該ブロックが、当該audioChannelFormatの第1ブロックであるか否かを判定する。当該ブロックがaudioChannelFormatの第1ブロックである場合には(ステップS12-Yes)、当該ブロックで記述されている再生位置が当該音声オブジェクトの再生位置の初期値であるため、分割不要と判断して処理をステップS19に進める。当該ブロックがaudioChannelFormatの第1ブロック以外である場合には(ステップS12-No)、処理をステップS13に進める。
【0027】
ステップS13では、分割判定部11により、当該ブロックと前ブロックの再生位置の方位角の差分が180度以上であるか否かを計算する。記述された方位角の差分が180度未満である場合には(ステップS13-No)、前述のような再生位置の変化する方向に複数の解釈は考えにくいため、分割不要と判断して処理をステップS19に進める。前ブロックとの方位角の差分が180度以上である場合には(ステップS13-Yes)、処理をステップS14に進める。
【0028】
ただし、音声卓などの制作設備が再生位置のパラメータを取得する周期が、音声オブジェクトの再生位置の移動速度に対して低いなどの特殊な状況では、記述された方位角の差分が180度を下回る場合であっても、制作時とは異なる方向に移動していると解釈される可能性がある。こういった条件に備え、差分が180度を超えているかどうかの比較処理を行わず、すべてのブロックを後述の評価関数の計算に進めてもよい。その場合は破線で囲まれたステップS13の処理を省略する。なお、全てのブロックで評価関数の計算を行う場合は、第1ブロックを除くすべてのブロックで評価関数を計算することになるため、音響メタデータ処理装置1の処理量は多くなると考えられる。
【0029】
ステップS14では、分割判定部11により、ステップS15における評価指標の計算に使用するブロックを決定する。
【0030】
ステップS15では、分割判定部11により、前ブロックまでの再生位置と、当該ブロックの再生位置とを比較し、評価指標を計算する。具体的な計算方法については後述する。
【0031】
ステップS16では、分割判定部11により、評価指標の値から音声オブジェクトの移動方向を判断し、方位角0度又は方位角180度を通過するか否かを判定する。方位角180度について正負はどちらでもかまわない。ステップS16で方位角0度を通過すると判定した場合には処理をステップS17に進め、方位角180度を通過すると判定した場合には処理をステップS18に進める。また、ステップS13の処理を省略した場合に、ステップS16で方位角0度及び方位角180度を通過しないと判定した場合には処理をステップS19に進める。
【0032】
ステップS17では、音響メタデータ変換部12により、当該ブロックを方位角0度の点を通過する時刻で分割する。方位角0度を通過する場合には、基本的にはそのまま分割せずに記述されたメタデータを読み込んだレンダラーは0度を通って移動するような音声信号を生成することが予想されるが、前ブロックとの再生位置の差分が180度を超えている場合などには、当該音声オブジェクトの移動方向を明示するために方位角0度の点を通過する時刻で分割してもよい。方位角0度での分割を行わない場合は、一点鎖線で囲まれたステップS17の処理を省略する。
【0033】
方位角0度の地点で分割する場合、当該ブロックの傾きをもとに、方位角0度を通過する時刻を求め、当該ブロックをブロック開始時刻から方位角0度の通過時刻までと、方位角0度の通過時刻からブロック終了時刻までのブロックに分割する。分割する時刻については、下記の式で計算する。ここで、tdividedは当該ブロックを分割する時刻であり、tnは当該ブロックの開始時刻であり、dnは当該ブロック及び前ブロックの持続時間である。
【0034】
【0035】
図3は、ブロック変換時の、主要なパラメータ(audioBlockFormatID,rtime,duration,position,jumpPosition,interpolationLength)の設定例を示す表である。
【0036】
ステップS17では、具体的には
図3に示す※2の設定で当該ブロックを分割する。すなわち、分割した前半のブロック(以下、「前半ブロック」という。)のaudioBlockFormatIDは、音響メタデータ記憶部13に記憶済みの変換後メタデータのIDをインクリメントした値とする。分割した後半のブロック(以下、「後半ブロック」という。)のaudioBlockFormatIDは、前半ブロックのaudioBlockFormatIDからさらにインクリメントした値とする。
【0037】
ステップS18では、音響メタデータ変換部12により、当該ブロックを方位角180度の点を通過する時刻で分割する。例えば、
図10(a)で示すように方位角180度を超える移動では、方位角の差分は180度以上となる(ステップS13-Yes)。そして、ステップS16では方位角180度を通過すると判断されるため、ステップS18において、
図11に示すように当該ブロックを分割する。
【0038】
音響メタデータ変換部12は、当該ブロックの傾きをもとに、方位角180度を通過する時刻を求め、当該ブロックをブロック開始時刻から方位角180度の通過時刻までの前半ブロックと、方位角180度の通過時刻からブロック終了時刻までの後半ブロックに分割し、さらに前半ブロックと後半ブロックの間に、持続時間0秒で、記述されている再生位置に瞬時に移動することを示すブロック(以下、「挿入ブロック」と称する。)を挿入する。分割する時刻については、下記の式で計算する。ここで、tdividedは当該ブロックを分割する時刻であり、tnは当該ブロックの開始時刻であり、dnは当該ブロック及び前ブロックの持続時間である。
【0039】
【0040】
ステップS18では、具体的には
図3に示す※3の設定で当該ブロックを分割する。すなわち、前半ブロックの再生位置position(前半ブロックの終了時点でのパラメータ)は、前ブロックの再生位置θ
n-1≧0度の場合は+180度とし、前ブロックの再生位置θ
n-1<0度の場合は-180度とする。また、挿入ブロックの再生位置positionは、前半ブロックの再生位置positionが+180度ならば-180度とし、前半ブロックの再生位置positionが-180度ならば+180度とし、記述されている再生位置に瞬時に移動することを示すjumpPosition=1を記述する。前半ブロックのaudioBlockFormatIDは、音響メタデータ記憶部13に記憶済みの変換後メタデータのIDをインクリメントした値とする。挿入ブロックのaudioBlockFormatIDは、前半ブロックのaudioBlockFormatIDからさらにインクリメントした値とする。後半ブロックのaudioBlockFormatIDは、挿入ブロックのaudioBlockFormatIDからさらにインクリメントした値とする。
【0041】
ここで、音響メタデータ処理装置1の出力がS-ADMであり、かつ分割点がS-ADMのフレームの開始点と一致する場合などは、挿入ブロックに代わり初期化ブロックを挿入してもよい。初期化ブロックとはS-ADMでのみ使用可能な、当該ブロックの開始時点でのパラメータが記述された、durationを持たない特殊なブロックである。初期化ブロックのaudioBlockFormatIDは下8桁が00000000で固定となっているため、初期化ブロックを用いる場合は、後半ブロックのaudioBlockFormatIDは前半ブロックのaudioBlockFormatIDからインクリメントした値とする。このように、音響メタデータ変換部12は、音声オブジェクトの再生位置が不連続に変化する場合に、音響メタデータを時系列に分割し、持続時間0秒の音響メタデータ(挿入ブロック)、又は不連続点を初期値とする音響メタデータ(初期化ブロック)を挿入する。
【0042】
ステップS19では、音響メタデータ変換部12により、当該ブロックが当該audioChannelFormatの第1ブロックである場合には、当該ブロックを変換後ブロックの第1ブロックとしてそのまま記録する。当該ブロックが当該audioChannelFormatの第1ブロック以外である場合には、既に音響メタデータ記憶部13に記憶済みの変換後メタデータの後に当該ブロックをそのまま追加する。ただし、当該ブロック以前のブロックは分割されている可能性もあるため、audioBlockFormatIDに関してのみ音響メタデータ記憶部13に記憶済みの変換後メタデータのIDをインクリメントした値に書き換える。すなわち、
図3に示す※1の設定で当該ブロックを追加する。
【0043】
ステップS20では、このブロックの分割判定処理及び変換処理を、受信した全てのブロックに対して行ったか否かを判定し、全てのブロックの処理が完了するまで、ステップS11からステップS19の処理を繰り返し行う。音響メタデータ変換部12は、変換したADMを音響メタデータ記憶部13に、1ブロックを処理するごとに出力してもよい。また、音響メタデータ処理装置1がS-ADMを受信する場合には、変換したADMをS-ADMの1フレームごとに出力してもよいし、S-ADMの受信が終了した時点で出力してもよい。
【0044】
次に、ステップS15の評価指標の計算、及びステップS16の移動方向の判断について、複数の具体例を示す。
【0045】
<第1の評価指標>
第1の例では、分割判定部11は、前ブロックの再生位置から当該ブロックの再生位置への変化量(すなわち、当該時刻の音響メタデータの再生位置と、当該時刻前までの音響メタデータの再生位置との差分)を第1の評価指標として、方位角180度を通過すると解釈した場合及び方位角0度を通過すると解釈した場合についてそれぞれ算出する。例えば、分割判定部11は、下記の式により第1の評価指標を算出する。
【0046】
【0047】
ここで、a180は方位角180度を通過すると解釈した場合の評価指標であり、a0は方位角0度を通過すると解釈した場合における評価指標である。θn及びθn-1は、当該ブロック及び前ブロックの再生位置における方位角である。分割判定部11は、a180及びa0のうち、小さい方を音声オブジェクトの移動方向として採用する。すなわち、a180の方が小さければ方位角180度を通過すると判断し、a0の方が小さければ方位角0度を通過すると判断する。
【0048】
<第2の評価指標>
第2の例では、分割判定部11は、当該ブロックの再生位置の変化率(方位角傾きの変化量)と前ブロックの再生位置の変化率との差分(すなわち、当該時刻の音響メタデータの再生位置の変化率と、当該時刻前までの音響メタデータの再生位置の変化率との差分)を第2の評価指標として、方位角180度を通過すると解釈した場合及び方位角0度を通過すると解釈した場合についてそれぞれ算出する。例えば、分割判定部11は、下記の式により第2の評価指標を算出する。
【0049】
【0050】
ここで、b180は方位角180度を通過すると解釈した場合の評価指標であり、b0は方位角0度を通過すると解釈した場合の評価指標である。θn-2は、前々ブロックの再生位置における方位角である。dn及びdn-1は、当該ブロック及び前ブロックの持続時間である。分割判定部11は、b180及びb0のうち、小さい方を音声オブジェクトの移動方向として採用する。すなわち、b180の方が小さければ方位角180度を通過すると判断し、b0の方が小さければ方位角0度を通過すると判断する。
【0051】
<第3の評価指標>
第3の例では、分割判定部11は、当該ブロックの直前の数ブロックの再生位置の変化を多項式からなる曲線として表現し、その曲線をもとに外挿された当該ブロックの再生位置の予測値と、実際に記述された当該ブロックの再生位置との差分(すなわち、当該時刻の音響メタデータの再生位置と、当該時刻前までの音響メタデータの再生位置から求めた当該時刻の予測再生位置との差分)を第3の評価指標として、方位角180度を通過すると解釈した場合及び方位角0度を通過すると解釈した場合についてそれぞれ算出する。
【0052】
数点の測定値を通過する曲線の算出方法は複数存在するが、それらは等間隔で値が取得されていることを前提とした手法が少なくない。しかし規格化されているADMは、その再生位置の変化を多数の点の集合として表現するのではなく、ある再生位置と次の再生位置の間を結ぶ線分で表現する、図面等で言うところの「ドローイング方式」が採用されており、audioBlockFormatの時間長、すなわち再生位置が記述されている時間間隔は一定とは限らない。また、以前より音声編集ソフトウェアなどには、音声エンジニアによって操作された音声信号の再生位置の変化を何らかの方法で記録する、いわゆるオートメーション機能が実装されているが、この再生位置を記録する点も等間隔ではないことが多く、将来的にこういった音声編集ソフトウェアのオートメーションに記録されたメタデータをADMとして出力することが可能となった場合でも、そのaudioBlockFormatの時間長はブロックによって異なることが想定される。
【0053】
そこで、ラグランジュの補間公式や、最小二乗法などの不等間隔格子においても利用可能な手法で曲線を計算することが望ましい。例えば、3次のラグランジュの補間公式を用いることにより、当該ブロックの再生位置(予測値)は下記の式で求められる。
【0054】
【0055】
ここで、θpは当該ブロックの再生位置(予測値)である。dn…dn-3は、当該ブロック、前ブロック、前々ブロック、前前々ブロックの持続時間である。θn-1…θn-3は、前ブロック、前々ブロック、前前々ブロックの再生位置である。例えば、分割判定部11は、下記の式により第3の評価指標を算出する。
【0056】
【0057】
ここで、c180は方位角180度を通過すると解釈した場合の評価指標であり、c0は方位角0度を通過すると解釈した場合の評価指標である。分割判定部11は、c180及びc0のうち、小さい方を音声オブジェクトの移動方向として採用する。すなわち、c180の方が小さければ方位角180度を通過すると判断し、c0の方が小さければ方位角0度を通過すると判断する。
【0058】
ラグランジュの補間公式や最小二乗法といった多項式による補間手法はいずれも、その次数を上げすぎると値に細かい振動が生じるルンゲ現象を招き、かえって精度が悪くなることが知られている。音声オブジェクトの再生位置に関する音響メタデータを制作設備が自動的に生成する場合でも、元となる音声オブジェクトの移動は音声エンジニアによる制作設備の操作によって表現されていることを考えると、微小な時間で細かく再生位置を振動させるような操作はコンテンツの演出上考え難い。そこで、分割判定部11は、一般に曲線の補間に多く用いられる2次か3次の補間を行えば十分と考えられる。
【0059】
<第4の評価指標>
上述した第1から第3の評価指標のうち、第1の評価指標は最も計算が簡易である。また、audioBlockFormatがごく短い時間長で定期的に記録される(例えば、映像信号と同周期)ような場合には、実用上第1の評価指標で判断しても多くの場合は十分と考えられる。一方、第2及び第3の評価指標は、当該ブロックの直前の数ブロックの情報も利用しているため、制作設備が再生位置に関するパラメータを取得する頻度が低かったり、audioBlockFormatの時間長が不等間隔であったりする場合には、制作者の意図と異なる方向を移動方向として誤採用する率を低減することができる。
【0060】
そこで、第4の例では、分割判定部11は、さまざまな条件下でも処理を共通化するため、第1から第3の評価指標を正規化した上で重み付け加算した評価値を第4の評価指標として、方位角180度を通過すると解釈した場合及び方位角0度を通過すると解釈した場合についてそれぞれ算出する。例えば、分割判定部11は、下記の式により第4の評価指標を算出する。
【0061】
【0062】
ここで、w180は方位角180度を通過すると解釈した場合の評価指標であり、w0は方位角0度を通過すると解釈した場合の評価指標である。α,β,γは、それぞれ第1から第3の評価指標の重み付け係数である。評価値の高い方を移動方向として採用する。分割判定部11は、w180及びw0のうち、大きい方を音声オブジェクトの移動方向として採用する。すなわち、w180の方が大きければ方位角180度を通過すると判断し、w0の方が大きければ方位角0度を通過すると判断する。
【0063】
第1の評価指標の算出には、当該ブロックの他に前ブロックの再生位置が必要となる。第2の評価指標の算出には、当該ブロックの他に前ブロック及び前々ブロックの再生位置が必要となる。第3の評価指標の算出でも、当該ブロックの他に複数の直前ブロックの再生位置が必要となる。当該ブロック以前のブロックがない場合、あるいはブロックは存在するものの再生位置に変化がない場合は、用いる評価指標に制限を付けてもよい。例えば当該ブロックの前に前ブロックしか存在しない場合、前ブロックのみを用いて判断できるよう、式(7)の重み付け係数をα=1,β=0,γ=0などとする。ここで、移動方向の判断の必要があるブロックごとに、計算に利用できるブロックの数(当該ブロックの前に存在する、再生位置に変化のあるブロックの数)に応じて、都度重み付けを変えてもよい。例えば、直前1ブロックを使用できる場合はα=1,β=0,γ=0とし、次のブロックの処理で直前2ブロックを使用できる場合はα=1,β=1,γ=0とする。
【0064】
同様に、当該ブロックに記述された再生位置に瞬間的に移動させるjumpPositionの記述がある場合には、前ブロック以前の再生位置の推移からその移動方向を判断することはできないため、重み付け係数をα=1,β=0,γ=0として物理的に再生位置が近くなる方を移動方向として採用することが考えられる。
【0065】
また、前ブロックまでに、方位角±180度を超える移動が含まれていた場合には、方位角±180度を超える前、あるいは超えた後のブロックに対して適切に±360度を加算することで、方位角±180度を超える前のブロックも使用することが可能であるが、計算の場合分けが煩雑となるため、方位角±180度を超えたブロック以降のみを使うように重み付けを設定してもよい。前述のように、audioBlockFormatが当該音声オブジェクトの動きに対して十分に短い時間長の周期で記録される場合には、実用上第1の評価指標、すなわち前ブロックだけで判断しても多くの場合は十分と考えられる。
【0066】
次に、音響メタデータ処理装置1により変換処理されたADMの具体例について、以下に実施例1から実施例4として説明する。以降、入力されたADMと記録されるADMではaudioBlockFormatを一意に特定するaudioBlockFormatIDが異なるため、入力されたADMのaudioBlockFormatIDを変換元AB_xxxxyyyy_zzzzzzzz、記録されるADMでは変換先AB_xxxxyyyy_zzzzzzzzと記述する。
【0067】
(実施例1)
実施例1として、
図4(a)に、音声オブジェクトが反時計回りに徐々に加速しながら移動する例を示す。ここで、音声オブジェクトの移動方向を判断する指標には第1の評価指標を用いる。
図4(b)は音響メタデータを分割しない場合に生じ得る動作を示しており、
図4(c)は意図した動作となるように音響メタデータを分割した例を示している。
【0068】
図5に、変換前後のADMのaudioBlockFormatを示す。音響メタデータ処理装置1に、
図5のようにAB_00030001_00000001~AB_00030001_00000005までのaudioBlockFormatを含むADMが入力された場合、最も若番であるAB_00030001_00000001のブロックから処理が行われる。
【0069】
まず分割判定部11において、当該ブロック(変換元AB_00030001_00000001)は第1ブロックであるため、分割の必要はないと判断される。よって音響メタデータ変換部12では当該ブロック(変換元AB_00030001_00000001)をそのまま変換後ブロックの第1ブロック(変換先AB_00030001_00000001)として記録する。
【0070】
次のブロック(変換元AB_00030001_00000002)については、分割判定部11において、当該ブロック(変換元AB_00030001_00000002)と前ブロック(変換先AB_00030001_00000001)の再生位置の方位角の差分が180度以上あるかどうかを計算する。記述された方位角の差分は5度であり180度を下回っているため、変換の必要はないと判断される。音響メタデータ変換部12では、当該ブロック(変換元AB_00030001_00000002)を既に記憶済みの変換後メタデータ(ここでは、変換先AB_00030001_00000001)の後に、IDをインクリメントした上で追加する(変換先AB_00030001_00000002)。
【0071】
次のブロック(変換元AB_00030001_00000003)、及びその次のブロック(変換元AB_00030001_00000004)についても変換元AB_00030001_00000002と同様に分割を行わずに追加する(変換先AB_00030001_00000003、変換先AB_00030001_00000004)。
【0072】
変換元AB_00030001_00000005のブロックについては、分割判定部11の比較処理において、方位角に関するその再生位置の変化が|(-160度)-100度|=260度であり180度より大きくなっているため、その音声オブジェクトの移動方向を判断するための評価指標を計算する。
【0073】
第1の評価指標では、再生位置変化の大きさから移動方向を判断する。前ブロック(変換先AB_00030001_00000004)の再生位置が0度よりも大きいため、第1の評価指標は以下の式で求まる。よって、分割判定部11は、変化量の小さい方位角180度を通過する移動であると判断する。
【0074】
【0075】
音響メタデータ変換部12は、分割判定部11の判定結果に従い、方位角180度を通過する点で分割を行う。前ブロック(変換先AB_00030001_00000004)の再生位置が0度よりも大きいため、分割する時刻は下記の式により求まる。
【0076】
【0077】
そのため、
図5に示すように、音響メタデータ変換部12は、当該ブロック(変換元AB_00030001_00000005)を、t
dividedまでの長さの前半ブロック、持続時間0秒の挿入ブロック、及びt
dividedから元々の当該ブロックの持続時間経過時刻までの後半ブロックに3分割する。再生位置はそれぞれ、+180度、-180度、元々の当該ブロックの再生位置(-160度)とする。また、audioBlockFormatIDは、前ブロック(変換先AB_00030001_00000004)のIDからインクリメントし、それぞれ変換先AB_00030001_00000005、変換先AB_00030001_00000006、変換先AB_00030001_00000007となる。当該ブロックの処理を終了した時点で、入力した全てのブロックを処理し終わったため、音響メタデータ処理装置1は処理を終了する。
【0078】
(実施例2)
実施例2として、
図6(a)に、実施例1よりも速い加速度で、音声オブジェクトが反時計回りに徐々に加速しながら移動する例を示す。ここで、音声オブジェクトの移動方向を判断する指標には第2の評価指標を用いる。
図6(b)は音響メタデータを分割しない場合に生じ得る動作を示しており、
図6(c)は意図した動作となるように音響メタデータを分割した例を示している。
【0079】
図7に、変換前後のADMのaudioBlockFormatを示す。AB_00030001_00000001~AB_00030001_00000004までのaudioBlockFormatに対しては、実施例1と同様に分割せずに処理する(変換先AB_00030001_00000001~AB_00030001_00000004)。
【0080】
変換元AB_00030001_00000005のブロックについては、分割判定部11の比較処理において、方位角に関するその再生位置の変化が|(-90度)-90度|=180度となっているため、その音声オブジェクトの移動方向を判断するための評価指標を計算する。
【0081】
第2の評価指標では、再生位置変化の傾きの大きさから移動方向を判断する。前ブロック(変換先AB_00030001_00000004)の再生位置が0度よりも大きいため、下記の式により求まる。よって、分割判定部11は、傾きの変化量の小さい方位角180度を通過する移動であると判断する。
【0082】
【0083】
音響メタデータ変換部12は、分割判定部11の判定結果に従い、方位角180度を通過する点で分割を行う。前ブロック(変換先AB_00030001_00000004)の再生位置が0度よりも大きいため、分割する時刻は下記の式により求まる。
【0084】
【0085】
そのため、
図7に示すように、音響メタデータ変換部12は、当該ブロック(変換元AB_00030001_00000005)を、t
dividedまでの長さの前半ブロック、持続時間0秒の挿入ブロック、及びt
dividedから元々の当該ブロックの持続時間経過時刻までの後半ブロックに3分割する。再生位置はそれぞれ、+180度,-180度、元々の当該ブロックの再生位置(-90度)とする。また、audioBlockFormatIDは、前ブロック(変換先AB_00030001_00000004)のIDからインクリメントし、それぞれ変換先AB_00030001_00000005、変換先AB_00030001_00000006、変換先AB_00030001_00000007となる。当該ブロックの処理を終了した時点で、入力した全てのブロックを処理し終わったため、音響メタデータ処理装置1は処理を終了する。
【0086】
実施例2では、再生位置の変化の大きさはいずれの移動方向でも180度と等しく、第1の評価指標では移動方向を判断できない。第2の評価指標は前ブロックだけではなく前々ブロックの再生位置も計算に含まれるため、再生位置の移動の傾向を考慮に入れていることになり、第1の評価指標よりも適切な判断を行える場合がある。しかし、実施例1や実施例2のように、一定の周期で再生位置を記録したaudioBlockFormatを生成するシステムの場合、エンジニアによる制作設備の操作との誤差を小さくするためには、想定される音声オブジェクトの移動速度に対して十分短い周期でaudioBlockFormatが生成されることが望ましい。実施例2では第2の評価指標を用いることで移動方向を判断したが、本来であればaudioBlockFormatが2秒よりも短い周期で記録されるべきであり、その場合は第1の評価指標を用いて十分判断可能と考えられる。
【0087】
(実施例3)
実施例3として、
図8(a)に、音声オブジェクトが徐々に加速しながら、左右に反復して移動する例を示す。ここで、音声オブジェクトの移動方向を判断する指標には第3の評価指標を用い、曲線の計算方法は3次のラグランジュの補間公式を用いる。
図8(b)は音響メタデータを分割しない場合に生じ得る動作を示しており、
図8(c)は意図した動作となるように音響メタデータを分割した例を示している。
【0088】
図9に、変換前後のADMのaudioBlockFormatを示す。AB_00030001_00000001~AB_00030001_00000004までのaudioBlockFormatに対しては実施例1と同様に分割せずに処理する(変換先AB_00030001_00000001~AB_00030001_00000004)。
【0089】
変換元AB_00030001_00000005のブロックについては、分割判定部11の比較処理において、方位角に関するその再生位置の変化が|(-90度)-100度|=190度と180度より大きくなっているため、その音声オブジェクトの移動方向を判断するための評価指標を下記の式により計算する。その結果、分割判定部11は、予測値とのずれの小さい方位角0度を通過する移動であると判断する。
【0090】
【0091】
当該ブロックは方位角0度を通過し、かつ前ブロックとの再生位置の差分が180度を超えているなどと大きいため、音響メタデータ変換部12は分割判定部11の判定結果に従い、方位角0度を通過する点で分割を行う。分割する時刻は下記の式により求まる。
【0092】
【0093】
そのため、
図9に示すように、音響メタデータ変換部12は、当該ブロック(変換元AB_00030001_00000005)を、t
dividedまでの長さの前半ブロック、及びt
dividedから元々の当該ブロックの持続時間経過時刻までの後半ブロックに2分割する。再生位置はそれぞれ、0度、元々の当該ブロックの再生位置(-90度)とする。また、audioBlockFormatIDは、前ブロック(変換先AB_00030001_00000004)のIDからインクリメントし、それぞれ変換先AB_00030001_00000005、変換先AB_00030001_00000006となる。当該ブロックの処理を終了した時点で、入力した全てのブロックを処理し終わったため、音響メタデータ処理装置1は処理を終了する。
【0094】
(実施例4)
実施例4として、実施例3と同様に、
図8(a)のように、音声オブジェクトが徐々に加速しながら、左右に反復して移動する例を示す。ここで、音声オブジェクトの移動方向を判断する指標には第4の評価指標を用い、そのうち第3の評価指標にあたる曲線の計算方法は3次のラグランジュの補間公式を用いる。また、分割判定部11は方位角の差分が180度を超えているかどうかの比較処理を行わず、すべてのブロックに対し評価関数の計算を行う例を示す。
【0095】
変換前後のADMのaudioBlockFormatは、実施例3と同じく
図9のようになる。まず分割判定部11は、変換元AB_00030001_00000001は第1ブロックであるため、分割の必要はないと判断する。よって音響メタデータ変換部12は、当該ブロック(変換元AB_00030001_00000001)をそのまま変換後ブロックの第1ブロック(変換先AB_00030001_00000001)として記録する。
【0096】
次のブロック(変換元AB_00030001_00000002)について、分割判定部11は、当該ブロック(変換元AB_00030001_00000002)と前ブロック(変換先AB_00030001_00000001)の再生位置の方位角の差分が180度以上あるか否かの計算を行わず、評価指標の計算を行う。現時点では指標の計算に用いることが可能なブロックは前ブロック(変換先AB_00030001_00000001)のみであるため、第4の評価指標の重み付けをα=1,β=0,γ=0とする。この場合、次式のように計算される。
【0097】
【0098】
よって、分割判定部11は、音声オブジェクトが180度を通過せず、0度から時計回りに-5度に移動すると判断する。当該ブロック(変換元AB_00030001_00000002)の間には0度も180度も通らないため、当該ブロック(変換元AB_00030001_00000002)は分割の必要性はないと判断し。前ブロック(変換先AB_00030001_00000001)の後に、IDをインクリメントした上で追加する(変換先AB_00030001_00000002)。
【0099】
次のブロック(変換元AB_00030001_00000003)について、分割判定部11が評価指標の計算を行うにあたり、指標の計算に用いることが可能なブロックは2ブロック(変換先AB_00030001_00000001、変換先AB_00030001_00000002)存在するため、第4の評価指標の重み付けをα=1,β=1,γ=0とする。前ブロック(変換先AB_00030001_00000002)の再生位置<0度であるため、次式のように計算される。
【0100】
【0101】
よって、分割判定部11は、音声オブジェクトが180度を通過せず、-5度から反時計回りに105度に移動すると判断する。当該ブロック(変換元AB_00030001_00000003)は0度を通過するが、その差分は180度を下回っているため、0度となる点で分割する必要ない。よって当該ブロック(変換元AB_00030001_00000003)を、前ブロック(変換先AB_00030001_00000002)のIDからインクリメントし、変換先AB_00030001_00000003として追加する。
【0102】
次のブロック(変換元AB_00030001_00000004)について、分割判定部11が評価指標の計算を行うにあたり、指標の計算に用いることが可能なブロックは3ブロック(変換先AB_00030001_00000001、変換先AB_00030001_00000002、変換先AB_00030001_00000003)存在する。第3の評価指標において、曲線の計算方法であるラグランジュの補間公式の次数を3次に設定している場合、計算には4ブロックが必要なため、当該ブロック(変換元AB_00030001_00000004)では第3の評価指標を用いることができない。評価指標の計算を柔軟にするため、次数を2次で計算してもよいが、実施例4では次数を3でのみ計算する例を説明する。第3の評価指標を用いることができないため、第4の評価指標の重み付けをα=1,β=1,γ=0とする。前ブロック(変換先AB_00030001_00000004)の再生位置≧0度であるため、次式のように計算される。
【0103】
【0104】
よって、分割判定部11は、音声オブジェクトが方位角180度の点を通過せず、105度から時計回りに100度に移動すると判断する。当該ブロック(変換元AB_00030001_00000004)は0度も180度も通らないため分割の必要性はないと判断され、前ブロック(変換先AB_00030001_00000003)の後に、IDをインクリメントした上で追加される(変換先AB_00030001_00000004)。
【0105】
次のブロック(変換元AB_00030001_00000005)について、分割判定部11が評価指標の計算を行うにあたり、指標の計算に用いることが可能なブロックは4ブロック(変換先AB_00030001_00000001~AB_00030001_00000004)存在する。すべての評価指標を用いることが可能であるため、第4の評価指標の重み付けをα=1,β=1,γ=1とする。前ブロック(変換先AB_00030001_00000004)の再生位置≧0度であるため、次式のように計算される。
【0106】
【0107】
よって、分割判定部11は、音声オブジェクトが180度を通過せず、100度から時計回りに-90度に移動すると判断する。
【0108】
当該ブロックは方位角0度を通過し、かつ前ブロックとの再生位置の差分が180度を超えているなどと大きいため、音響メタデータ変換部12は、分割判定部11の判定結果に従い、方位角0度を通過する点で分割を行う。分割する処理は実施例3と同様に行う。当該ブロックの処理を終了した時点で、入力した全てのブロックを処理し終わったため、音響メタデータ処理装置1は処理を終了する。
【0109】
(プログラム)
なお、上述した音響メタデータ処理装置1として機能させるために、プログラム命令を実行可能なコンピュータを用いることも可能である。ここで、コンピュータは、汎用コンピュータ、専用コンピュータ、ワークステーション、PC(Personal Computer)、電子ノートパッドなどであってもよい。プログラム命令は、必要なタスクを実行するためのプログラムコード、コードセグメントなどであってもよい。
【0110】
コンピュータは、プロセッサと、記憶部と、入力部と、出力部と、通信インターフェースとを備える。プロセッサは、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)、SoC(System on a Chip)などであり、同種又は異種の複数のプロセッサにより構成されてもよい。プロセッサは、記憶部からプログラムを読み出して実行することで、上記各構成の制御及び各種の演算処理を行う。なお、これらの処理内容の少なくとも一部をハードウェアで実現することとしてもよい。入力部は、ユーザの入力操作を受け付けてユーザの操作に基づく情報を取得する入力インターフェースであり、ポインティングデバイス、キーボード、マウスなどである。出力部は、情報を出力する出力インターフェースであり、ディスプレイ、スピーカなどである。通信インターフェースは、外部の装置と通信するためのインターフェースである。
【0111】
プログラムは、コンピュータが読み取り可能な記録媒体に記録されていてもよい。このような記録媒体を用いれば、プログラムをコンピュータにインストールすることが可能である。ここで、プログラムが記録された記録媒体は、非一過性(non-transitory)の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD-ROM、DVD-ROM、USB(Universal Serial Bus)メモリなどであってもよい。また、このプログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。
【0112】
このように、本発明によれば、オブジェクトベース音響において、制作設備が自動的に生成した、音声オブジェクトの再生位置を時間に応じて変化させるような音響メタデータの記述を変換し、その再生位置に関する記述を適切に分割することができる。そのため、再生位置の変化に関する複数の解釈が生じない音響メタデータを生成することができ、レンダラーが制作意図と異なる再生信号を生成することを防止することが可能となる。
【0113】
また、音響メタデータ処理装置1は当該時間のaudioBlockFormat及び直前の数ブロックのaudioBlockFormatに記述された再生位置をもとに変換を行うため、S-ADMに本発明を適用することで新しいメタデータの逐次変換も可能である。このように、本発明を適用することで、ライブプロダクションのシステムで前段の音声卓から入力されたS-ADMを変換して後段のレンダラーの間にS-ADMとして出力するといったオンラインの変換と、番組の開始から終了までのメタデータが記述されたADMを含む音声ファイルを変換したADMを含んだ音声ファイルとして記録し直すといったオフラインでの変換のいずれも可能であることは、当業者には明らかである。
【0114】
上述の実施形態は代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを1つに組み合わせたり、あるいは1つの構成ブロックを分割したりすることが可能である。
【符号の説明】
【0115】
1 音響メタデータ処理装置
11 分割判定部
12 音響メタデータ変換部
13 音響メタデータ記憶部