(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-20
(45)【発行日】2024-02-29
(54)【発明の名称】オーディオオーサリング装置、オーディオレンダリング装置、送信装置、受信装置、及び方法
(51)【国際特許分類】
H04S 3/00 20060101AFI20240221BHJP
G10L 19/00 20130101ALI20240221BHJP
G10L 19/008 20130101ALN20240221BHJP
【FI】
H04S3/00
G10L19/00 312Z
G10L19/00 330B
G10L19/008
(21)【出願番号】P 2020010038
(22)【出願日】2020-01-24
【審査請求日】2022-12-26
(31)【優先権主張番号】P 2019011632
(32)【優先日】2019-01-25
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100147485
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】230118913
【氏名又は名称】杉村 光嗣
(74)【代理人】
【識別番号】100161148
【氏名又は名称】福尾 誠
(74)【代理人】
【識別番号】100185225
【氏名又は名称】齋藤 恭一
(72)【発明者】
【氏名】杉本 岳大
(72)【発明者】
【氏名】久保 弘樹
(72)【発明者】
【氏名】大出 訓史
(72)【発明者】
【氏名】北島 周
(72)【発明者】
【氏名】小野 一穂
(72)【発明者】
【氏名】伊藤 敦郎
(72)【発明者】
【氏名】小森 智康
【審査官】中嶋 樹理
(56)【参考文献】
【文献】特開2016-072891(JP,A)
【文献】特開2014-204317(JP,A)
【文献】国際公開第2016/203994(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04S 3/00
G10L 19/00
G10L 19/008
(57)【特許請求の範囲】
【請求項1】
マルチチャンネルのオーディオ信号と、各オーディオ信号の再生位置を示す再生位置メタデータと、前記再生位置メタデータに基づくレンダリングができない場合に各オーディオ信号のレンダリング位置の優先順位を示す優先レンダリング位置メタデータとが入力され、
前記マルチチャンネルのオーディオ信号に前記再生位置メタデータと前記優先レンダリング位置メタデータとを関連付けるメタデータ関連付け部を備え
、
前記優先レンダリング位置メタデータは、再生空間を分割した領域ごとの属性値を用いて前記優先順位を設定することを特徴とする、オーディオオーサリング装置。
【請求項2】
請求項
1に記載のオーディオオーサリング装置において、前記優先レンダリング位置メタデータは、複数のオーディオ信号をグループ化し
、第1のオーディオ信号の優先レンダリング位置と第2のオーディオ信号の優先レンダリング位置とを関連付けて設定可能なことを特徴とする、オーディオオーサリング装置。
【請求項3】
請求項1
又は2に記載のオーディオオーサリング装置と、符号化装置とを備えた送信装置であって、
前記符号化装置は、
前記オーディオオーサリング装置の出力を前記オーディオ信号と前記再生位置メタデータと前記優先レンダリング位置メタデータとに分離する分離部と、
前記オーディオ信号と前記再生位置メタデータと前記優先レンダリング位置メタデータをそれぞれ符号化する符号化部と、を備え、
符号化された前記オーディオ信号と符号化された前記再生位置メタデータ及び前記優先レンダリング位置メタデータとを多重化して又は関連付けて伝送することを特徴とする、送信装置。
【請求項4】
マルチチャンネルのオーディオ信号と、各オーディオ信号の再生位置を示す再生位置メタデータと、前記再生位置メタデータに基づくレンダリングができない場合に各オーディオ信号のレンダリング位置の優先順位を示す優先レンダリング位置メタデータとに基づいて、レンダリングを行うオーディオレンダリング装置であって、
前記オーディオ信号ごとに、前記再生位置メタデータと再生環境のレンダリングエリアメタデータに基づき、前記再生位置メタデータに基づくレンダリングの可否を判定するレンダリング可否判定部と、
前記レンダリング可否判定部の否決を受けて、前記優先レンダリング位置メタデータと前記レンダリングエリアメタデータから前記オーディオ信号の新たなレンダリング位置を決定するレンダリング位置決定部
であって、前記優先レンダリング位置メタデータは、再生空間を分割した領域ごとの属性値を用いて前記優先順位を設定するデータである、レンダリング位置決定部と、
前記再生位置メタデータを前記新たなレンダリング位置に置換する再生位置メタデータ置換部と、
前記オーディオ信号を、前記再生位置メタデータ又は置換済みの再生位置メタデータに基づいてレンダリングするレンダリング部と、
を備えることを特徴とする、オーディオレンダリング装置。
【請求項5】
復号装置と、請求項
4に記載のオーディオレンダリング装置とを備えた受信装置であって、
前記復号装置は、
受信した信号を、符号化された前記オーディオ信号と符号化された前記再生位置メタデータと符号化された前記優先レンダリング位置メタデータとに分離する分離部と、
符号化された前記オーディオ信号と符号化された前記再生位置メタデータと符号化された前記優先レンダリング位置メタデータをそれぞれ復号する復号部とを備え、
復号された前記マルチチャンネルのオーディオ信号と前記再生位置メタデータと前記優先レンダリング位置メタデータとを、前記オーディオレンダリング装置に出力することを特徴とする、受信装置。
【請求項6】
マルチチャンネルのオーディオ信号に対して、各オーディオ信号の再生位置を示す再生位置メタデータと、前記再生位置メタデータに基づくレンダリングができない場合に各オーディオ信号のレンダリング位置の優先順位を示す優先レンダリング位置メタデータとを生成し、
前記マルチチャンネルのオーディオ信号に前記再生位置メタデータと前記優先レンダリング位置メタデータとを関連付け
、
前記優先レンダリング位置メタデータは、再生空間を分割した領域ごとの属性値を用いて前記優先順位を設定することを特徴とする、マルチチャンネルのオーディオ信号をオーサリングする方法。
【請求項7】
マルチチャンネルのオーディオ信号と、各オーディオ信号の再生位置を示す再生位置メタデータと、前記再生位置メタデータに基づくレンダリングができない場合に各オーディオ信号のレンダリング位置の優先順位を示す優先レンダリング位置メタデータとに基づいて、マルチチャンネルのオーディオ信号をレンダリングする方法であって、
前記オーディオ信号ごとに、前記再生位置メタデータと再生環境のレンダリングエリアメタデータに基づき、前記再生位置メタデータに基づくレンダリングの可否を判定し、
レンダリングの前記判定の否決を受けて、前記優先レンダリング位置メタデータと前記レンダリングエリアメタデータから前記オーディオ信号の新たなレンダリング位置を決定し、
前記オーディオ信号を、前記再生位置メタデータ又は前記新たなレンダリング位置に基づいてレンダリング
し、
前記優先レンダリング位置メタデータは、再生空間を分割した領域ごとの属性値を用いて前記優先順位を設定するデータであることを特徴とする、マルチチャンネルのオーディオ信号をレンダリングする方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオオーサリング装置、オーディオレンダリング装置、送信装置、受信装置、及び方法に関し、特に、マルチチャンネルのオーディオ信号(音声信号、音響信号)について、メタデータを用いてオーディオ信号をオーサリングし、また、各再生装置のレンダリング性能に合わせてオーディオ信号をレンダリングする技術に関する。なお、本発明において、マルチチャンネルとは、5.1ch(channel)以上のチャンネルを有するオーディオ信号を意味する。
【背景技術】
【0002】
近年、多数の音響チャンネルを用いることにより、三次元音響のような高い臨場感の音響再生を実現する音響システムが提案されている。例えば、5.1chサラウンドのような音響システムによるホームシアターシステムが、家庭用として登場している。また、2018年12月に放送が開始されたスーパーハイビジョン(SHV)放送においては、22.2chというマルチチャンネルの音響システムが採用されている。
【0003】
図15に、22.2chのチャンネル配置[非特許文献1]を示す。22.2chは、上層に、TpFL,TpFR,TpFC,TpC,TpBL,TpBR,TpSiL,TpSiR,TpBCの9個のスピーカ(チャンネル)を備え、中層に、FL,FR,FC,BL,BR,FLc,FRc,BC,SiL,SiRの10個のスピーカを備え、さらに、下層に、BtFC,BtFL,BtFRの3個のスピーカと、LFE1及びLFE2の重低音専用サブウーファーを備えている。
【0004】
また、
図16に、5.1.2chのチャンネル配置[非特許文献2]を示す。5.1.2chは、上層に、LtfとRtfの2つのスピーカ(チャンネル)を備え、中層に、C,L,R,LS,RSの5個のスピーカと、LFEの重低音専用サブウーファーを備えている。
【0005】
22.2ch音響などのマルチチャンネル音響システムは、番組制作時と同じスピーカ配置の環境で聴取することで制作意図を正確に再現できる。しかしながら、22.2ch音響以外にも7.1.4ch、5.1.2chなど様々な音声フォーマットが市場に混在する中、家庭に全ての音声フォーマットを再生可能なオーディオ環境を構築することは非現実的である。そこで、各家庭でのスピーカ配置に応じてマルチチャンネル音響をレンダリングして再生する方法が考案・運用されてきた[特許文献1-3]。
【0006】
従来のレンダリングは、所定の手続き(処理)に従って、マルチチャンネルのオーディオ信号を、設置されているスピーカの数に合わせて変換するものであり、ダウンミックスのようなチャンネル数を少なくする変換を容易に行うことができる。このレンダリング手法により、例えば、22.2chのオーディオ信号を、家庭内の5.1.2chの音響システム環境で簡易に再現することができる。
【先行技術文献】
【特許文献】
【0007】
【文献】特許6239145号公報
【文献】特許6412931号公報
【文献】特許6123016号公報
【非特許文献】
【0008】
【文献】ARIB STD-B59、「三次元マルチチャンネル音響方式スタジオ規格」2.0版、(2016年)
【文献】ISO/IEC 23008-3:2015、“Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio”、(2015年)
【文献】ARIB STD-B32、「デジタル放送における映像符号化、音声符号化及び多重化方式」3.11版、(2018年)
【文献】Rec. ITU-R BS.2076、"Audio Definition Model"、(2015年)
【文献】V. Plukki、J. Audio Eng. Soc. 、(1997年)、vol.45 no.6、pp.456-466
【発明の概要】
【発明が解決しようとする課題】
【0009】
これまでのレンダリング手法は、番組内容や制作意図とは関係なく、予め統一的に定められた手続きによって一様にマルチチャネル音響をレンダリングするものである。しかし、番組内容と無関係にマルチチャンネル音響を変換する手法では、時として制作者の意図に反したレンダリングになる。特にマルチチャンネル音響において、各オーディオ信号の空間における再生位置・相対関係は番組デザインの根幹に関わる重要なファクターであり、従来のレンダリング手法では制作意図を大きく歪める可能性がある。
【0010】
例えば、上層チャンネルが前後感を演出するために使用されている22.2ch番組(例えば、前方から後方へ通過する飛行物体の音響)を、上層チャネルが前方にのみ配置された再生環境(例えば5.1.2ch)で再生する場合に、22.2ch番組の上層チャンネルをすべて5.1.2chの前方の上層チャンネルから再生すると、番組の制作意図を全く無視した再生音場になってしまう。
【0011】
既存の音声符号化方式[非特許文献2,3]においては、ダウンミックス係数を送出することで、制作者の意図通りのレンダリングを受信装置でおこなうための枠組みが存在する。しかしこの手法では、想定されるあらゆる音声フォーマットへのダウンミックス係数を送出する必要があり、実用的ではない。同様に、サイマル放送による複数の音声フォーマットへの対応にも、伝送容量の制約による限界があり、現実的ではない。また、同様の課題はオブジェクトベース音響においても存在する。
【0012】
すなわち、再生されるべき位置情報を明示的/暗示的に関わらず付与されたオーディオ信号に関して、再生環境の制約によってその位置情報に基づくレンダリングが自明でない場合に、制作者の意図を汲んだレンダリングを実現するための仕組みが必要とされている。
【0013】
従って、上記のような問題点に鑑みてなされた本発明の目的は、番組制作時のオーディオ環境と異なる再生環境であっても、番組制作者の意図を歪めることなく最適なレンダリングが可能になるような、オーディオオーサリング装置、オーディオレンダリング装置、送信装置、受信装置、及び方法を提供することにある。
【課題を解決するための手段】
【0014】
上記課題を解決するために本発明に係るオーディオオーサリング装置は、マルチチャンネルのオーディオ信号と、各オーディオ信号の再生位置を示す再生位置メタデータと、前記再生位置メタデータに基づくレンダリングができない場合に各オーディオ信号のレンダリング位置の優先順位を示す優先レンダリング位置メタデータとが入力され、前記マルチチャンネルのオーディオ信号に前記再生位置メタデータと前記優先レンダリング位置メタデータとを関連付けるメタデータ関連付け部を備え、前記優先レンダリング位置メタデータは、再生空間を分割した領域ごとの属性値を用いて前記優先順位を設定することを特徴とする。
【0016】
また、前記優先レンダリング位置メタデータは、複数のオーディオ信号をグループ化し、第1のオーディオ信号の優先レンダリング位置と第2のオーディオ信号の優先レンダリング位置とを関連付けて設定可能なことが望ましい。
【0017】
上記課題を解決するために本発明に係る送信装置は、上記のオーディオオーサリング装置と、符号化装置とを備えた送信装置であって、前記符号化装置は、前記オーディオオーサリング装置の出力を前記オーディオ信号と前記再生位置メタデータと前記優先レンダリング位置メタデータとに分離する分離部と、前記オーディオ信号と前記再生位置メタデータと前記優先レンダリング位置メタデータをそれぞれ符号化する符号化部と、を備え、符号化された前記オーディオ信号と符号化された前記再生位置メタデータ及び前記優先レンダリング位置メタデータとを多重化して又は関連付けて伝送することを特徴とする。
【0018】
上記課題を解決するために本発明に係るオーディオレンダリング装置は、マルチチャンネルのオーディオ信号と、各オーディオ信号の再生位置を示す再生位置メタデータと、前記再生位置メタデータに基づくレンダリングができない場合に各オーディオ信号のレンダリング位置の優先順位を示す優先レンダリング位置メタデータとに基づいて、レンダリングを行うオーディオレンダリング装置であって、前記オーディオ信号ごとに、前記再生位置メタデータと再生環境のレンダリングエリアメタデータに基づき、前記再生位置メタデータに基づくレンダリングの可否を判定するレンダリング可否判定部と、前記レンダリング可否判定部の否決を受けて、前記優先レンダリング位置メタデータと前記レンダリングエリアメタデータから前記オーディオ信号の新たなレンダリング位置を決定するレンダリング位置決定部であって、前記優先レンダリング位置メタデータは、再生空間を分割した領域ごとの属性値を用いて前記優先順位を設定するデータである、レンダリング位置決定部と、前記再生位置メタデータを前記新たなレンダリング位置に置換する再生位置メタデータ置換部と、前記オーディオ信号を、前記再生位置メタデータ又は置換済みの再生位置メタデータに基づいてレンダリングするレンダリング部と、を備えることを特徴とする。
【0019】
上記課題を解決するために本発明に係る受信装置は、復号装置と、上記のオーディオレンダリング装置とを備えた受信装置であって、前記復号装置は、受信した信号を、符号化された前記オーディオ信号と符号化された前記再生位置メタデータと符号化された前記優先レンダリング位置メタデータとに分離する分離部と、符号化された前記オーディオ信号と符号化された前記再生位置メタデータと符号化された前記優先レンダリング位置メタデータをそれぞれ復号する復号部とを備え、復号された前記マルチチャンネルのオーディオ信号と前記再生位置メタデータと前記優先レンダリング位置メタデータとを、前記オーディオレンダリング装置に出力することを特徴とする。
【0020】
上記課題を解決するために本発明に係るマルチチャンネルのオーディオ信号をオーサリングする方法は、マルチチャンネルのオーディオ信号に対して、各オーディオ信号の再生位置を示す再生位置メタデータと、前記再生位置メタデータに基づくレンダリングができない場合に各オーディオ信号のレンダリング位置の優先順位を示す優先レンダリング位置メタデータとを生成し、前記マルチチャンネルのオーディオ信号に前記再生位置メタデータと前記優先レンダリング位置メタデータとを関連付け、前記優先レンダリング位置メタデータは、再生空間を分割した領域ごとの属性値を用いて前記優先順位を設定することを特徴とする。
【0021】
上記課題を解決するために本発明に係るマルチチャンネルのオーディオ信号をレンダリングする方法は、マルチチャンネルのオーディオ信号と、各オーディオ信号の再生位置を示す再生位置メタデータと、前記再生位置メタデータに基づくレンダリングができない場合に各オーディオ信号のレンダリング位置の優先順位を示す優先レンダリング位置メタデータとに基づいて、マルチチャンネルのオーディオ信号をレンダリングする方法であって、前記オーディオ信号ごとに、前記再生位置メタデータと再生環境のレンダリングエリアメタデータに基づき、前記再生位置メタデータに基づくレンダリングの可否を判定し、レンダリングの前記判定の否決を受けて、前記優先レンダリング位置メタデータと前記レンダリングエリアメタデータから前記オーディオ信号の新たなレンダリング位置を決定し、前記オーディオ信号を、前記再生位置メタデータ又は前記新たなレンダリング位置に基づいてレンダリングし、前記優先レンダリング位置メタデータは、再生空間を分割した領域ごとの属性値を用いて前記優先順位を設定するデータであることを特徴とする。
【発明の効果】
【0022】
本発明におけるオーディオオーサリング装置、送信装置、及び方法によれば、再生環境の制約を考慮することなく、自由な番組制作・演出が可能になる。
【0023】
また、本発明におけるオーディオレンダリング装置、受信装置、及び方法によれば、番組制作時の音声フォーマットと異なる再生環境であっても、番組制作者の意図に沿ったレンダリングが可能になり、あらゆる再生環境において聴取者が番組の演出意図を享受できる。
【図面の簡単な説明】
【0024】
【
図1】本発明のオーディオオーサリング装置のブロック図の一例である。
【
図2】22.2ch音響方式の各チャンネルの割当てを示す図である。
【
図3】オブジェクトベース音響における再生位置メタデータの設定方法の一例を示す図である。
【
図4】本発明の送信装置のブロック図の一例である。
【
図5】本発明のオーディオレンダリング装置のブロック図の一例である。
【
図6】本発明の受信装置のブロック図の一例である。
【
図7】優先レンダリング位置メタデータを用いて、再生位置を決定する一例を示す図である。
【
図8】優先レンダリング位置メタデータを用いて、再生位置を決定する別の例を示す図である。
【
図9】オーディオレンダリングのフローチャートの一例である。
【
図10】優先レンダリング位置メタデータのビットストリームシンタックスの例である。
【
図11】左右方向の属性値のインデックスの例を示す図である。
【
図12】前後方向の属性値のインデックスの例を示す図である。
【
図13】上下方向の属性値のインデックスの例を示す図である。
【
図14】グルーピングされる属性のインデックスの例を示す図である。
【
図15】22.2chのチャンネル配置を示す図である。
【
図16】5.1.2chのチャンネル配置を示す図である。
【発明を実施するための形態】
【0025】
オーサリングされたオーディオ信号として22.2ch音響、再生環境として5.1.2chを例に取り、以下、本発明の実施の形態について説明する。なお、以下の説明において、「オーディオ信号」は、「マルチチャンネルオーディオ信号」のように複数のチャンネルを含むオーディオ信号全体を意味する場合と、「各オーディオ信号」のように個々のチャンネルを意味する場合とがある。
【0026】
22.2chと5.1.2chのチャンネル配置は、それぞれ
図15、
図16示すとおりである。チャンネル位置を極座標表示した場合の各層の仰角・俯角については各種規格によって異なる値が用いられるが、本発明において数値の差が問題になることはないため、ここでは上層を+30°、中層を0°、下層を-30°としておく。
【0027】
図1に、本発明のオーディオオーサリング装置のブロック図の一例を示す。本実施形態では、22.2chのオーディオ信号をオーサリングする装置を例として説明するが、オーディオ信号は22.2chに限られず、任意のマルチチャンネルのオーディオ信号であってよく、また、オブジェクトベースのオーディオ信号であってもよい。オーディオオーサリング装置10には、22.2chオーディオ信号、22.2chオーディオ信号の各チャンネル(24個)の再生位置メタデータ、22.2chオーディオ信号の各チャンネルの優先レンダリング位置メタデータが入力される。
【0028】
オーディオオーサリング装置10は、メタデータ関連付け部11を備えている。メタデータ関連付け部11は、オーディオ信号と各メタデータを関連付ける。関連付けの手段としては、オーディオ信号に直接メタデータを重畳してもよいし、メタデータのみを別信号・別ファイルとして一括管理[非特許文献4]してもよい。その後、メタデータ関連付け部11は、オーディオオーサリング装置10の出力として、オーサリングされた(一まとまりの信号として構成された)22.2chオーディオ信号を出力する。
【0029】
本発明のオーディオオーサリング装置10から出力された信号は、各チャンネルのオーディオ信号に再生位置の情報が関連付けられたマルチチャンネルオーディオ信号となる。
【0030】
次に、各メタデータについて説明する。再生位置メタデータとは、オーディオ信号の再生されるべき位置に関するメタデータのことであり、各チャンネルの理想的な再生位置(空間座標)の情報を示すメタデータである。これは、番組制作時のオーディオ環境におけるマイクロホン、スピーカ、又は音源の位置情報等に基づいて設定することができる。また、規格等で設定されていてもよい。なお、再生位置メタデータは、必ずしも、具体的な再生位置の記述である必要はなく、所定の規格等に基づき、各チャンネルの再生位置を特定し得る情報であれば、どのような形態であってもよい。例えば、22.2chの規格を前提として、22.2chオーディオ信号の並び順をもって再生位置メタデータに代替することができる。
【0031】
図2に、22.2ch音響方式の各チャンネルの割当てを示す。一般にチャンネルベース音響においては、再生位置メタデータ(スピーカ設置範囲)は、
図2[非特許文献1の表2-1]で規定された22.2ch音響のように、方位角と仰角の組み合わせで表現される。
【0032】
また、
図3に、オブジェクトベース音響における再生位置メタデータの設定方法の一例を示す。オブジェクトベース音響においては、再生位置メタデータは、
図3[非特許文献2のTable 68及びFigure 22]に記載されるように方位角と仰角、場合によっては距離も含めた組み合わせで表現される。
【0033】
次に、優先レンダリング位置メタデータに関して詳述する。優先レンダリング位置メタデータは、再生空間において、再生位置メタデータに応じて実音源または仮想音源としてレンダリングする方法が明示的に存在しない場合のための、各オーディオ信号のレンダリング位置の優先順位を示すメタデータである。すなわち、再生位置メタデータに基づく適切なレンダリングができない場合に、各オーディオ信号について許容可能な代替的な再生位置を指示するメタデータである。
【0034】
本実施形態では、優先レンダリング位置メタデータは、任意に再生空間を分割した領域ごとの属性値を用いて設定するものとする。ここでは、極座標系に則って設定するが、直交座標系であっても同様の属性値の設定は可能である。
【0035】
水平面内における左右方向の属性値は、例えば方位角φの範囲によって、次のように規定する。
l: 左、left 15°≦φ≦165°
c: 中央、center -15°<φ<15°
r: 右、right -165°≦φ≦-15°
【0036】
なお、ここでの角度範囲及び属性区分の設定は単なる一例であり、例えば、左右方向の属性区分を、左、中左、中央、中右、右の5つに区分してもよい。これらの区分・属性値は、オーサリング側とレンダリング側で共通の設定とすることにより、適宜規定することができる。
【0037】
水平面内における前後方向の属性値は、例えば方位角φの範囲によって、次のように規定する。
f: 前、front -60°<φ<60°
s: 横、side 60°≦φ≦120°、-120°≦φ≦-60°
b: 後、back 120°<φ≦180°、-180°≦φ<-120°
【0038】
空間の上下方向の属性値は、例えば仰角θの範囲(ただし、θ=0°の方向は極座標系の水平面方向とする)によって、次のように規定することができる。
T: 天頂、top 60°<θ≦90°
U: 上層、upper 30°≦θ≦60°
M: 中層、middle -30°<θ<30°
B: 下層、bottom -60°≦θ≦-30°
【0039】
このルールに従って22.2ch音響のTpBL(再生位置:φ=135°,θ=30°)の属性値を表すと、左右、前後、上下それぞれに対応する属性値は、l,b,Uとなる。
【0040】
一例として、TpBLのレンダリング時の優先レンダリング位置を、属性別・優先順位別に次のように設定するものとする。
左右方向: (1)左 (2)中央
前後方向: (1)後 (2)横 (3)前
上下方向: (1)上層 (2)中層 (3)下層
【0041】
上記優先レンダリング位置を属性値で記述すると、
[l/c,b/s/f,U/M/B]
となる。本実施形態では、優先レンダリング位置メタデータを、上記のように属性値で、優先順に/で区切って記述することとする。なお、属性値の記述順は、ここでは左右、前後、上下としたが、異なる順序としてもよく、また、どの要素の属性値であるかを示すフラグを併用してもよい。
【0042】
制約条件が存在しない場合の全属性値として*を用いることもできる。
[l/c,b/s/f,*]
上記のように記述した場合、上下方向に関してはどの層にレンダリングしても構わないことを示し、上下方向の情報はレンダリング時の制約条件に含める必要がないことを意味する。また、l/cの制約条件は、l,cどちらへのレンダリングも不可能な場合、当該オーディオ信号は不再生(ミュート)になることを示す。一方、l/*と記述した場合は、lへのレンダリングが不可能な場合にはその他のどの位置(c又はr)にレンダリングしても構わないことを意味する。
【0043】
さらに、レンダリング禁止位置を¬(not sign)で指定することもできる。例えば、下層にレンダリングさせない場合、
[l/c,b/s,¬B]
とすることでレンダリング禁止位置を指定できる。なお、全属性値及び禁止位置を示す記号は上記のものに限らず、適宜設定することができる。
【0044】
優先レンダリング位置メタデータの別の使い方として、
(1)左・後・上層 (2)左・後・中層
のように、左右方向、前後方向、上下方向を組み合わせて優先レンダリング位置を指示する場合、次のように表示することができる。
[(lbU)/(lbM)]
この場合、lbUが示すレンダリング位置である[左・後・上層]へのレンダリングが最優先され、その次にlbMが示す[左・後・中層]へのレンダリングが選択されることを示す。また、全属性値*を用いると、
[(lb*)/(***)]
のように[左・後]にレンダリングできない場合はどこにレンダリングしても構わない、という優先レンダリング位置の設定も可能になる。
【0045】
前述の優先レンダリング位置メタデータを組み合わせて[¬(lbU)]のように記述すると、[左・後・上層]へのレンダリングを禁止することができる。
【0046】
グループ化した複数のオーディオ信号が、全てそのメタデータに基づいてレンダリング可能な場合にのみレンダリングするためのグループフラグを用いることもできる。ここでグループフラグをg()とし、TpFL(再生位置:φ=45°,θ=30°)とTpBL(再生位置:φ=135°,θ=30°)に関する優先レンダリング位置がグループ化されている場合について説明する。当該チャンネルの優先レンダリング位置をそれぞれ
TpFL: [l,f,g(U/M)]
TpBL: [l,b,g(U/M)]
とすると、上下方向の制約条件のg(U/M)は、TpFLとTpBLの両チャンネルが、上層(U)(優先度1)または中層(M)(優先度2)に同時にレンダリングできる場合のみレンダリングすることを示す。このグループ化の例は、両者が同じ高さで再生されることが重要であるときに用いられる。
【0047】
このグループ化された優先レンダリング位置メタデータに基づいてレンダリングを行う場合は、22.2chのTpFLは再生位置メタデータに合わせて5.1.2chのLtfにレンダリングできるが、22.2chのTpBLを再生位置メタデータに合わせてレンダリングできるエリアが5.1.2chにないため(なぜなら、[l,b,U]に対応するレンダリングエリアを実現するスピーカは、5.1.2chに存在しない)、優先度1のg(U)の条件をTpFL、TpBLが同時に満たすことができない。したがって、TpFL、TpBLともに優先度2の中層(M)でレンダリングすることになる。
【0048】
図4に、本発明の送信装置のブロック図の一例を示す。本発明の送信装置100は、オーディオオーサリング装置10と符号化装置20を組み合わせた構成を備えている。オーディオオーサリング装置10の構成は、
図1に示したものと同じである。符号化装置20は、分離部21と、各データの符号化部22~24と、多重化部25とを備えている。なお、この実施形態では、22.2chのオーディオ信号を処理するものとするが、他のマルチチャンネル音響方式や、オブジェクトベース音響等にも適用可能であることは言うまでもない。
【0049】
オーディオオーサリング装置10には、22.2chオーディオ信号、22.2chオーディオ信号の各チャンネル(24個)の再生位置メタデータ、22.2chオーディオ信号の各チャンネルの優先レンダリング位置メタデータが入力され、オーサリングされた22.2chオーディオ信号を、符号化装置20に出力する。
【0050】
分離部21は、入力された、オーサリングされた22.2chオーディオ信号を、再生位置メタデータ、優先レンダリング位置メタデータ、22.2chオーディオ信号に分離する。
【0051】
メタデータ符号化部22は、再生位置メタデータを符号化する。また、メタデータ符号化部23は、優先レンダリング位置メタデータを符号化する。そして、オーディオ信号符号化部24は、22.2chオーディオ信号を所定の符号化方式で符号化する。
【0052】
次に、多重化部25は、符号化された再生位置メタデータ、符号化された優先レンダリング位置メタデータ、符号化された22.2chオーディオ信号を多重化し、ビットストリームとして出力する。
【0053】
符号化された再生位置メタデータ及び符号化された優先レンダリング位置メタデータの形式としては、MPEG(Moving Picture Experts Group)-4 AAC(Advanced Audio Coding)、MPEG-D USAC(Unified Speech and Audio Coding)で規定されたDSE(Data Stream Element)[非特許文献3]、またはMPEG-H 3D Audio[非特許文献2]で規定されたMAE(Metadata Audio Element)等に適合した形式が想定されるが、この方法に限定するものではない。
【0054】
また、本実施形態では、送信装置100は多重化されたビットストリームを出力しているが、符号化されたメタデータは必ずしも符号化されたオーディオ信号に重畳または多重化して取り扱う必要はなく、オーディオ信号とメタデータを異なる経路(例えば放送波とインターネット)で伝送することも可能である。すなわち、符号化されたメタデータは符号化されたオーディオ信号に関連付けされて伝送すればよい。なお、本実施形態では、オーディオオーサリング装置10と符号化装置20を組み合わせて送信装置100を構成することを前提に説明したが、送信装置100に入力された再生位置メタデータ、優先レンダリング位置メタデータ、及び22.2chオーディオ信号をオーサリングすることなく、それぞれを直接符号化し、多重化又は関連付けして出力することも可能である。
【0055】
ここで、オーディオオーサリング方法についてまとめる。
【0056】
各オーディオ信号の再生されるべき位置(一般には極座標として)を示したメタデータを生成する。なお、チャンネルベース音響の場合は、オーディオ信号の並び順をもってメタデータに代替することもある。再生空間において、再生位置メタデータに応じた実音源または仮想音源としてレンダリングする方法が明示的に存在しない場合のために、各オーディオ信号のレンダリング位置の優先順位を示すメタデータを生成する。そして、各オーディオ信号と各メタデータを関連付ける。関連付けは、オーディオ信号に直接メタデータを重畳してもよいし、メタデータのみを一括して管理してもよい。
【0057】
次に、
図5に、本発明のオーディオレンダリング装置のブロック図の一例を示す。オーディオレンダリング装置30は、オーディオ再生装置が有する一機能として位置付けることもできる。本発明のオーディオレンダリング装置30は、符号化されて伝送されたオーディオ信号を処理することに限られず、オーディオ信号作成環境で生成されたオーディオ信号とメタデータを直接入力し、レンダリング処理を行うことも想定している。
【0058】
オーディオレンダリング装置30は、レンダリング可否判定部31、レンダリング位置決定部32、再生位置メタデータ置換部33、及びレンダリング部34を備えており、再生位置メタデータ、優先レンダリング位置メタデータ、22.2chオーディオ信号が入力される。これらのデータ及び信号は、オーディオ信号をオーサリングする際に用いたデータ及び信号に等しい。また、オーディオレンダリング装置30には、再生環境におけるレンダリング可能なエリアを示したレンダリングエリアメタデータが、予め入力されているものとする。なお、この実施形態では、22.2chのオーディオ信号を処理するものとするが、他のマルチチャンネル音響方式や、オブジェクトベース音響等にも適用可能である。
【0059】
レンダリング可否判定部31は、再生位置メタデータとレンダリングエリアメタデータに基づいて、各オーディオ信号(例えば、22.2chのオーディオ信号それぞれ)に関してレンダリングの可否(再生位置メタデータの指定する位置で信号再生が可能か否か)を判定する。なお、レンダリング可否の判定は、オーディオレンダリング装置30の仕様及び/又は性能に依存し、必ずしもスピーカがレンダリングエリアに存在することが条件とはならない。レンダリング可と判定された場合(safe)、再生位置メタデータは、レンダリング部34に出力される。また、レンダリング不可と判定された場合(fail)、レンダリング不可の情報が、レンダリング位置決定部32に出力される。
【0060】
レンダリング位置決定部32は、優先レンダリング位置メタデータとレンダリングエリアメタデータに基づいて新たなレンダリング位置を決定する。優先レンダリング位置メタデータの優先順序に従って、順次、再生位置の可能性を調べ、再生可能なレンダリング位置を決定する。決定した新たなレンダリング位置は、再生位置メタデータ置換部33に出力される。グループフラグが存在する場合は、グループ化された複数のオーディオ信号に対するレンダリング位置決定を並行しておこなう。
【0061】
再生位置メタデータ置換部33は、レンダリング位置決定部32で決定した新たなレンダリング位置に基づいて、元の再生位置メタデータを置換する。置換済みの再生位置メタデータは、レンダリング部34に出力される。
【0062】
レンダリング部34は、再生位置メタデータ又は置換済みの再生位置メタデータ(新たなレンダリング位置)とオーディオ信号が入力され、レンダリングの処理を行う。具体的には、予め組み込まれたレンダリング則(例えば、VBAP(Vector Base Amplitude Panning)[非特許文献5]や各オーディオ信号を直接スピーカに割り当てる方法など)に従って、再生位置メタデータの情報、又は再生位置メタデータ置換部33で置換された新たな再生位置メタデータに従ってレンダリング先スピーカを決定し、分配するオーディオ信号のレベルや位相・周波数特性等を決定する。そして、レンダリングされたオーディオ信号を、再生デバイスであるスピーカ40(401~40n)に出力する。
【0063】
なお、上記オーディオレンダリング装置30では、再生位置メタデータ置換部33で元の再生位置メタデータを新たなレンダリング位置に置換したが、この置換処理を省略して、レンダリング位置決定部32で決定した新たなレンダリング位置を直接レンダリング部34に入力し、新たなレンダリング位置に基づいてレンダリングを行ってもよい。
【0064】
図6に、本発明の受信装置のブロック図の一例を示す。本発明の受信装置200は、復号装置50とオーディオレンダリング装置30を組み合わせた構成を備えている。オーディオレンダリング装置30の構成は、
図5に示したとおりである。復号装置50は、分離部51と、各データの復号部52~54を備えている。受信装置200は、送信側から、符号化されたオーディオ信号と符号化されたメタデータを含むビットストリームを受信する。
【0065】
復号装置50の分離部51は、入力されたビットストリームを、符号化された再生位置メタデータ、符号化された優先レンダリング位置メタデータ、符号化された22.2chオーディオ信号に分離する。なお、この実施形態では、22.2chのオーディオ信号を処理するものとするが、他のマルチチャンネル音響方式や、オブジェクトベース音響等であってもよい。
【0066】
メタデータ復号部52は、符号化された再生位置メタデータを復号処理し、再生位置メタデータを生成する。また、メタデータ復号部53は、符号化された優先レンダリング位置メタデータを復号処理し、優先レンダリング位置メタデータを生成する。そして、オーディオ信号復号部54は、所定の復号処理により22.2chオーディオ信号を生成する。復号された再生位置メタデータ、優先レンダリング位置メタデータ、22.2chオーディオ信号は、オーディオレンダリング装置30に出力される。
【0067】
オーディオレンダリング装置30の構成及び処理内容は、
図5で説明したとおりであり、入力された再生位置メタデータ、優先レンダリング位置メタデータ、及び22.2chオーディオ信号と、別途入力されるレンダリングエリアメタデータとに基づいて、レンダリングされたオーディオ信号を、再生デバイスであるスピーカ40(40
1~40
n)に出力する。
【0068】
なお、本発明は、送信装置100と受信装置200との組み合わせによる運用が想定されるが、符号化装置20及び復号装置50を除いた、前述のオーディオオーサリング装置10とオーディオレンダリング装置30の組み合わせでも運用可能である。
【0069】
次に、優先レンダリング位置メタデータを用いて、再生位置を置換する処理について、具体的に例を用いて説明する。
【0070】
(例1)
図7に、優先レンダリング位置メタデータを用いて、再生位置を決定する一例を示す。ここでは、22.2chのBC(再生位置φ=180°,θ=0°)を、5.1.2chの再生環境にレンダリングする場合を考える。
【0071】
図7には、22.2chのBCチャンネル(ハッチング表示されたスピーカ)と、5.1.2chの中層のレンダリングエリア及び再生スピーカの関係が図示されている。BCの優先レンダリング位置は[c,b/f,M]であるとする。
図7のレンダリングエリア(グレーで示された領域)内にBCの再生位置(φ=180°,θ=0°)が存在しないため、優先度1のbはスキップされ、優先度2のfが採用されることになる。その結果、[c,f,M]に対応するレンダリングエリア内で適切なレンダリング先として、Cスピーカ(○印)が選択される。
【0072】
(例2)
22.2chのBtFL(再生位置φ=45°,θ=-30°)を、優先レンダリング位置[l,f,B]で5.1.2chにレンダリングする場合を考える。この場合、再生環境に下層のスピーカがないため、レンダリング可否判定部31はレンダリング不可と判定する。さらにレンダリング位置決定部32も優先レンダリング位置メタデータに基づいてレンダリング不可と判定し、BtFLのオーディオ信号は不再生(ミュート)になる。
【0073】
(例3)
22.2chのTpFL(再生位置φ=45°,θ=30°)とTpBL(再生位置φ=135°,θ=30°)をレンダリングする場合を考える。どちらのチャンネルも左及び上層にレンダリングすることを優先させるなら、TpFLの優先レンダリング位置メタデータを[l,*,U]、TpBLの優先レンダリング位置メタデータを[l,*,U]と記述することになる。この条件で5.1.2chへレンダリングする場合、TpFL、TpBLは共にLtfへレンダリングされる。
【0074】
(例4)
図8に、優先レンダリング位置メタデータを用いて、再生位置を決定する別の例を示す。ここでは、22.2chを5.1.2chの再生環境にレンダリングする際に、22.2chのTpSiL(再生位置φ=90°,θ=30°)とTpBL(再生位置φ=135°,θ=30°)の前後関係を維持したまま同一の層にレンダリングしたい場合を考える。
【0075】
図8には、TpSiL,TpBLチャンネル(ハッチング表示されたスピーカ)と、5.1.2chの上層と中層のレンダリングエリア及び再生スピーカの関係が図示されている。本例では再生環境で実際に設置された5.1.2chのLSとRSは90°と-90°であったと仮定している。TpSiLの優先レンダリング位置メタデータを[l,g
1(s/f),g
2(U/M)]、TpBLの優先レンダリング位置メタデータを[l,g
1(b/s),g
2(U/M)]とする。
【0076】
図8の左の5.1.2chの上層においてはレンダリングエリアにTpSiL及びTpBLが含まれず、レンダリング不可である。次にg
2 に従って中層でのレンダリングを検討する。g
1に従ったレンダリングを検討するとTpSiLのg
1(s)はLSにレンダリング可能だが、TpBLのg
1(b)がレンダリング不可である。そこでg
1における第2の優先順位に従ってTpSiLをg
1(f)、TpBLをg
1(s)の条件でレンダリングすることを考えると、それぞれLとLSのスピーカ(○印)から再生でき、レンダリング可能である。
【0077】
このように、5.1.2chのように上層の後方にチャンネルを持たない音声フォーマットにおいて、前後情報の縮減を防ぐことができる。また、前と横にしかレンダリングエリアがない再生環境においては、前述の優先レンダリング位置メタデータによってTpSiLを前、TpBLを横にレンダリングできることになり、元の22.2ch時の前後情報を維持することができる。
【0078】
なお、ここでは、22.2chの信号を5.1.2chで再生する例を説明したが、例示した22.2ch及び5.1.2ch以外のマルチチャンネル音響方式や、複数のオーディオ信号を扱うオブジェクトベース音響等にも適用可能である。
【0079】
図9は、オーディオレンダリングのフローチャートの一例である。オーディオレンダリングは、以下のステップ1~9を行う。
【0080】
ステップ1(S1):オーディオ信号を取得する。
【0081】
ステップ2(S2):再生位置メタデータを取得する。
【0082】
ステップ3(S3):再生環境におけるレンダリングエリアメタデータを取得する。なお、ステップ1~3は、どのような順で行ってもよい。
【0083】
ステップ4(S4):各データを取得した後、レンダリングエリアメタデータと再生位置メタデータとを対比し、再生位置メタデータに従ってレンダリングが可能かどうか判定する。なお、この判定はチャンネルごとに行う。レンダリング可能な場合はステップ8に進み、レンダリング不可の場合はステップ5に進む。
【0084】
ステップ5(S5):優先レンダリング位置メタデータを取得する。
【0085】
ステップ6(S6):レンダリングエリアメタデータと優先レンダリング位置メタデータとを対比し、優先レンダリング位置メタデータに従ってレンダリング可能かどうか判定する。なお、この判定はチャンネルがグループ化されている場合はグループごとに行う。レンダリング可能な場合は、新たなレンダリング位置を決定してステップ8に進み、レンダリング不可の場合はステップ7に進む。
【0086】
ステップ7(S7):優先レンダリング位置メタデータを用いてもレンダリング不可の場合は、当該オーディオ信号は不再生とし、処理を終了する。
【0087】
ステップ8(S8):再生位置メタデータ又は新たなレンダリング位置に基づいてオーディオ信号をレンダリングし、レンダリング先のスピーカを決定する。
【0088】
ステップ9(S9):決定されたスピーカに基づき、所定のレンダリング手法により各オーディオ信号の位相・音量調整等を行い、レンダリングを行う。その後、処理を終了する。
【0089】
図9のフローチャートに基づいて、オーディオレンダリング方法についてまとめる。
【0090】
オーディオ信号ごとに、再生位置メタデータと各再生装置固有のレンダリングエリアメタデータに基づき、再生位置メタデータに基づくレンダリングの可否を判定する。レンダリング可否判定の否決を受けて、優先レンダリング位置メタデータとレンダリングエリアメタデータから新たなレンダリング位置を決定する。再生位置メタデータ又は新たなレンダリング位置に基づいてオーディオ信号をレンダリングし、再生デバイスに出力する。
【0091】
図10は、優先レンダリング位置メタデータのビットストリームシンタックスの例である。この例では、優先レンダリング位置メタデータを扱うシンタックスとしてrendering_priority()を規定する。
【0092】
シンタックスの記述内容について説明する。
【0093】
rendering_priority_statusは優先レンダリング位置メタデータの有無を示すフラグであり、“0”で無、“1"で有を示す。“0"の場合は、後続の一連のsyntaxは無効となる。
rendering_priority_typeは、優先レンダリングの記述形式を示しており、“0”で属性値ごとの記述、“1”でレンダリングエリアごとの記述を表す。
num_component_lrは、水平面内における左右方向の属性値の数、num_component_fbは、水平面内における前後方向の属性値の数、num_component_ubは、空間における上下方向の属性値の数を格納する。
component_lr_indexは水平面内における左右方向の属性値のインデックスを格納し、例えば
図11のように関連付ける。
component_fb_indexは水平面内における前後方向の属性値のインデックスを格納し、例えば
図12のように関連付ける。
component_ub_indexは空間における上下方向の属性値のインデックスを格納し、例えば
図13のように関連付ける。
group_statusは優先レンダリング位置メタデータにおけるグルーピングの有無を示すフラグであり、“0”で無、“1”で有を示す。“0”の場合は、グルーピングに係るsyntaxは無効となる。
num_groupは当該オーディオ信号の優先レンダリング位置メタデータのうち、グルーピングされるメタデータの数を示す。
group_classは当該オーディオ信号の優先レンダリング位置メタデータ内のグループの通し番号を示す。
group_component_indexはグルーピングされる属性のインデックスを示し、例えば
図14のように関連付けられる。
group_component_rankはグルーピングされる属性値の優先順位を示す。
num_areaは優先レンダリング位置メタデータに記述されるレンダリングエリアの個数を示す。
area_lr_indexはレンダリングエリアにおける左右方向の属性値の優先順位ごとのインデックスを格納し、例えば
図11と同様に関連づける。
area_fb_indexはレンダリングエリアにおける前後方向の属性値の優先順位ごとのインデックスを格納し、例えば
図12と同様に関連づける。
area_ub_indexはレンダリングエリアにおける上下方向の属性値の優先順位ごとのインデックスを格納し、例えば
図13と同様に関連づける。
【0094】
上記のようなシンタックスを利用して、優先レンダリング位置メタデータを記述することができる。
【0095】
なお、上述したオーディオオーサリング装置10、オーディオレンダリング装置30、送信装置100及び受信装置200として機能させるためにコンピュータを好適に用いることができ、そのようなコンピュータは、各装置の各機能を実現する処理内容を記述したプログラムを該コンピュータの記憶部に格納しておき、該コンピュータのCPUによってこのプログラムを読み出して実行させることで実現することができる。なお、このプログラムは、コンピュータ読取り可能な記録媒体に記録可能である。
【0096】
上述の実施形態は代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。例えば、実施形態に記載の複数の構成ブロックを1つに組み合わせたり、あるいは1つの構成ブロックを分割したりすることが可能である。
【符号の説明】
【0097】
10 オーディオオーサリング装置
11 メタデータ関連付け部
20 符号化装置
21 分離部
22,23 メタデータ符号化部
24 オーディオ信号符号化部
25 多重化部
30 オーディオレンダリング装置
31 レンダリング可否判定部
32 レンダリング位置決定部
33 再生位置メタデータ置換部
34 レンダリング部
40 スピーカ
50 復号装置
51 分離部
52,53 メタデータ復号部
54 オーディオ信号復号部
100 送信装置
200 受信装置