(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022191490
(43)【公開日】2022-12-27
(54)【発明の名称】送信装置、送信方法、受信装置および受信方法
(51)【国際特許分類】
G10L 19/008 20130101AFI20221220BHJP
G10L 19/00 20130101ALI20221220BHJP
【FI】
G10L19/008 200
G10L19/00 330B
G10L19/00 330A
【審査請求】有
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022171013
(22)【出願日】2022-10-25
(62)【分割の表示】P 2021104300の分割
【原出願日】2016-06-13
(31)【優先権主張番号】P 2015122292
(32)【優先日】2015-06-17
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】100093241
【弁理士】
【氏名又は名称】宮田 正昭
(74)【代理人】
【識別番号】100101801
【弁理士】
【氏名又は名称】山田 英治
(74)【代理人】
【識別番号】100095496
【弁理士】
【氏名又は名称】佐々木 榮二
(74)【代理人】
【識別番号】100086531
【弁理士】
【氏名又は名称】澤田 俊夫
(74)【代理人】
【識別番号】110000763
【氏名又は名称】特許業務法人大同特許事務所
(72)【発明者】
【氏名】塚越 郁夫
(72)【発明者】
【氏名】知念 徹
(57)【要約】
【課題】受信側でオブジェクトコンテントの音圧調整を良好に行い得るようにする。
【解決手段】所定数のオブジェクトコンテントの符号化データを持つオーディオストリームを生成し、このオーディオストリームを含む所定フォーマットのコンテナを送信する。オーディオストリームのレイヤおよび/またはコンテナのレイヤに、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報を挿入する。受信側では、この情報に基づいて、許容範囲内で各オブジェクトコンテントの音圧の増減処理をする。
【選択図】
図10
【特許請求の範囲】
【請求項1】
所定数のオブジェクトコンテントの符号化データを持つオーディオストリームを生成するオーディオエンコード部と、
上記オーディオストリームを含む所定フォーマットのコンテナを送信する送信部と、
上記オーディオストリームのレイヤおよび/または上記コンテナのレイヤに、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報を挿入する情報挿入部を備える
送信装置。
【請求項2】
上記所定数のオブジェクトコンテントのそれぞれは所定数のコンテントグループのいずれかに属し、
上記情報挿入部は、上記オーディオストリームのレイヤおよび/または上記コンテナのレイヤに、各コンテントグループに対する音圧の増減の許容範囲を示す情報を挿入する
請求項1に記載の送信装置。
【請求項3】
上記オーディオストリームの符号化方式は、MPEG-H 3D Audioであり、
上記情報挿入部は、オーディオフレームに、上記各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報を持つエクステンションエレメントを含める
請求項1に記載の送信装置。
【請求項4】
上記各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報には、複数のファクタータイプのうちのいずれを適用するかを示すファクタータイプ情報が付加される
請求項1に記載の送信装置。
【請求項5】
所定数のオブジェクトコンテントの符号化データを持つオーディオストリームを生成するオーディオエンコードステップと、
送信部により、上記オーディオストリームを含む所定フォーマットのコンテナを送信する送信ステップと、
上記オーディオストリームのレイヤおよび/または上記コンテナのレイヤに、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報を挿入する情報挿入ステップを有する
送信方法。
【請求項6】
所定数のオブジェクトコンテントの符号化データを持つオーディオストリームを含む所定フォーマットのコンテナを受信する受信部と、
ユーザ選択に係るオブジェクトコンテントに対する音圧増減を行う音圧増減処理を制御する制御部を備える
受信装置。
【請求項7】
上記オーディオストリームのレイヤおよび/または上記コンテナのレイヤに、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報が挿入されており、
上記制御部は、上記オーディオストリームのレイヤおよび/または上記コンテナのレイヤから各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報を抽出する情報抽出処理をさらに制御し、
上記音圧増減処理では、上記抽出された情報に基づいてユーザ選択に係るオブジェクトコンテントに対する音圧増減を行う
請求項6に記載の受信装置。
【請求項8】
上記音圧増減処理では、
上記ユーザ選択に係るオブジェクトコンテントに対して音圧を増加するとき他のオブジェクトコンテントに対して音圧を減少し、上記ユーザ選択に係るオブジェクトコンテントに対して音圧を減少するとき他のオブジェクトコンテントに対して音圧を増加する
請求項6に記載の受信装置。
【請求項9】
上記制御部は、上記音圧増減処理で音圧増減されるオブジェクトコンテントの音圧状態を示すユーザインタフェース画面を表示する表示処理をさらに制御する
請求項6に記載の受信装置。
【請求項10】
受信部により、所定数のオブジェクトコンテントの符号化データを持つオーディオストリームを含む所定フォーマットのコンテナを受信する受信ステップと、
ユーザ選択に係るオブジェクトコンテントに対する音圧増減を行う音圧増減処理ステップを有する
受信方法。
【発明の詳細な説明】
【技術分野】
【0001】
本技術は、送信装置、送信方法、受信装置および受信方法に関し、特に、所定数のオブジェクトコンテントの符号化データを持つオーディオストリームを送信する送信装置等に関する。
【背景技術】
【0002】
従来、立体(3D)音響技術として、符号化サンプルデータをメタデータに基づいて任意の位置に存在するスピーカにマッピングさせてレンダリングする技術が提案されている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
5.1チャネル、7.1チャネルなどのチャネル符号化データと共に、符号化サンプルデータおよびメタデータからなる種々のタイプのオブジェクトコンテントの符号化データを送信し、受信側において臨場感を高めた音響再生を可能とすることが考えられる。例えば、ダイアログ・ランゲージなどのオブジェクトコンテントは、背景音や視聴環境によっては聞き取り難い場合がある。
【0005】
本技術の目的は、受信側でオブジェクトコンテントの音圧調整を良好に行い得るようにすることにある。
【課題を解決するための手段】
【0006】
本技術の概念は、
所定数のオブジェクトコンテントの符号化データを持つオーディオストリームを生成するオーディオエンコード部と、
上記オーディオストリームを含む所定フォーマットのコンテナを送信する送信部と、
上記オーディオストリームのレイヤおよび/または上記コンテナのレイヤに、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報を挿入する情報挿入部を備える
送信装置にある。
【0007】
本技術において、オーディオエンコード部により、所定数のオブジェクトコンテントの符号化データを持つオーディオストリームが生成される。情報挿入部により、オーディオストリームのレイヤおよび/またはコンテナのレイヤに、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報が挿入される。
【0008】
例えば、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報は、音圧の上限値および下限値の情報である。また、例えば、オーディオストリームの符号化方式は、MPEG-H 3D Audioであり、情報挿入部は、オーディオフレームに、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報を持つエクステンションエレメントを含める、ようにされてもよい。
【0009】
このように本技術においては、オーディオストリームのレイヤおよび/またはコンテナのレイヤに、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報が挿入される。そのため、受信側では、この挿入情報を用いることで、各オブジェクトコンテントの音圧の増減の調整を許容範囲内で行うことが容易となる。
【0010】
なお、本技術において、例えば、所定数のオブジェクトコンテントのそれぞれは所定数のコンテントグループのいずれかに属し、情報挿入部は、オーディオストリームのレイヤおよび/またはコンテナのレイヤに、各コンテントグループに対する音圧の増減の許容範囲を示す情報を挿入する、ようにされてもよい。この場合、音圧の増減の許容範囲を示す情報をコンテントグループの数だけ送ればよく、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報を効率的に送信することが可能となる。
【0011】
また、本技術において、例えば、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報には、複数のファクタータイプのうちのいずれを適用するかを示すファクタータイプ情報が付加される、ようにされてもよい。この場合、オブジェクトコンテントごとに、適切なファクタータイプの適用が可能となる。
【0012】
また、本技術の他の概念は、
所定数のオブジェクトコンテントの符号化データを持つオーディオストリームを含む所定フォーマットのコンテナを受信する受信部と、
ユーザ選択に係るオブジェクトコンテントに対する音圧増減を行う音圧増減処理を制御する制御部を備える
受信装置にある。
【0013】
本技術において受信部により、所定数のオブジェクトコンテントの符号化データを持つオーディオストリームを含む所定フォーマットのコンテナが受信される。制御部により、ユーザ選択に係るオブジェクトコンテントに対する音圧増減を行う音圧増減処理が制御される。
【0014】
このように本技術においては、ユーザ選択に係るオブジェクトコンテントに対する音圧増減の処理が行われる。そのため、例えば、所定のオブジェクトコンテントの音圧を増加させ、その他のオブジェクトコンテントの音圧を減少させるということも可能となり、所定数のオブジェクトコンテントの音圧の調整を効果的に行うことが可能となる。
【0015】
なお、本技術において、例えば、オーディオストリームのレイヤおよび/またはコンテナのレイヤに、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報が挿入されており、制御部は、オーディオストリームのレイヤおよび/またはコンテナのレイヤから各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報を抽出する情報抽出処理をさらに制御し、音圧増減処理では、抽出された情報に基づいてユーザの選択に係るオブジェクトコンテントに対する音圧増減を行う、ようにされてもよい。この場合、各オブジェクトコンテントの音圧の調整を許容範囲内で行うことが容易となる。
【0016】
また、本技術において、例えば、音圧増減処理では、ユーザ選択に係るオブジェクトコンテントに対して音圧を増加するとき他のオブジェクトコンテントに対して音圧を減少し、ユーザ選択に係るオブジェクトコンテントに対して音圧を減少するとき他のオブジェクトコンテントに対して音圧を増加する、ようにされてもよい。この場合、ユーザに操作手間を取らせることなく、オブジェクトコンテント全体の音圧を一定に保つことが可能となる。
【0017】
また、本技術において、例えば、制御部は、音圧増減処理で音圧増減されるオブジェクトコンテントの音圧状態を示すユーザインタフェース画面を表示する表示処理をさらに制御する、ようにされてもよい。この場合、ユーザは、各オブジェクトコンテントの音圧状態を容易に確認でき、音圧設定を容易に行い得る。
【発明の効果】
【0018】
本技術によれば、受信側でオブジェクトコンテントの音圧調整を良好に行い得る。なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
【図面の簡単な説明】
【0019】
【
図1】実施の形態としての送受信システムの構成例を示すブロック図である。
【
図2】MPEG-H 3D Audioの伝送データの構成例を示す図である。
【
図3】MPEG-H 3D Audioの伝送データにおけるオーディオフレームの構造例を示す図である。
【
図4】エクステンションエレメントのタイプ(ExElementType)と、その値(Value)との対応関係を示す図である。
【
図5】各コンテントグループに対する音圧の増減の許容範囲を示す情報をエクステンションエレメントとして含むコンテント・エンハンスメント・フレームの構造例を示す図である。
【
図6】コンテント・エンハンスメント・フレームの構造例における主要な情報の内容を示す図である。
【
図7】音圧の増減の許容範囲を示す情報が示す音圧の値(ファクター値)の一例を示す図である。
【
図8】オーディオ・コンテント・エンハンスメント・デスクリプタの構造例を示す図である。
【
図9】サービス送信機が備えるストリーム生成部の構成例を示すブロック図である。
【
図10】トランスポートストリームTSの構造例を示す図である。
【
図11】サービス受信機の構成例を示すブロック図である。
【
図12】オーディオデコード部の構成例を示すブロック図である。
【
図13】各ブジェクトコンテントの現在の音圧状態示すユーザインタフェース画面の一例を示す図である。
【
図14】ユーザの単位操作に対応した、オブジェクトエンハンサにおける音圧の増減処理の一例を示すフローチャートである。
【
図15】オブジェクトコンテントの音圧調整例とどの効果を説明するための図である。
【
図16】音圧の増減の許容範囲を示す情報が示す音圧の値(ファクター値)の他の例を示す図である。
【
図17】各コンテントグループに対する音圧の増減の許容範囲を示す情報をエクステンションエレメントとして含むコンテント・エンハンスメント・フレームの他の構造例を示す図である。
【
図18】コンテント・エンハンスメント・フレームの構造例における主要な情報の内容を示す図である。
【
図19】オーディオ・コンテント・エンハンスメント・デスクリプタの他の構造例を示す図である。
【
図20】ユーザの単位操作に対応した、オブジェクトエンハンサにおける音圧の増減処理の他の例を示すフローチャートである。
【
図21】MMTストリームの構造例を示す図である。
【発明を実施するための形態】
【0020】
以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明を以下の順序で行う。
1.実施の形態
2.変形例
【0021】
<1.実施の形態>
[送受信システムの構成例]
図1は、実施の形態としての送受信システム10の構成例を示している。この送受信システム10は、サービス送信機100とサービス受信機200により構成されている。サービス送信機100は、トランスポートストリームTSを、放送波あるいはネットのパケットに載せて送信する。
【0022】
トランスポートストリームTSは、オーディオストリーム、あるいは、ビデオストリームとオーディオストリームを有している。オーディオストリームは、チャネル符号化データと共に、所定数のオブジェクトコンテントの符号化データ(オブジェクト符号化データ)を持っている。この実施の形態において、オーディオストリームの符号化方式は、MPEG-H 3D Audioとされる。
【0023】
サービス送信機100は、オーディオストリームのレイヤおよび/またはコンテナとしてのトランスポートストリームTSのレイヤに、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報(上限値、下限値の情報)を挿入する。例えば、所定数のオブジェクトコンテントのそれぞれは所定数のコンテントグループのいずれかに属し、サービス送信機200は、オーディオストリームのレイヤおよび/またはコンテナのレイヤに、各コンテントグループに対する音圧の増減の許容範囲を示す情報を挿入する。
【0024】
図2は、MPEG-H 3D Audioの伝送データの構成例を示している。この構成例では、1つのチャネル符号化データと6つのオブジェクト符号化データとからなっている。1つのチャネル符号化データは、5.1チャネルのチャネル符号化データ(CD)であり、SCE1,CPE1.1,CPE1.2,LFE1の各符号化サンプルデータからなっている。
【0025】
6つのオブジェクト符号化データのうち、最初の3つのオブジェクト符号化データは、ダイアログ・ランゲージ・オブジェクトのコンテントグループの符号化データ(DOD)に属している。この3つのオブジェクト符号化データは、第1、第2、第3の言語のそれぞれに対応したダイアログ・ランゲージ・オブジェクト(Object for dialog language)の符号化データである。
【0026】
この第1、第2、第3の言語に対応したダイアログ・ランゲージ・オブジェクトの符号化データは、それぞれ、符号化サンプルデータSCE2,SCE3,SCE4と、それを任意の位置に存在するスピーカにマッピングさせてレンダリングするためのメタデータ(Object metadata)とからなっている。
【0027】
また、6つのオブジェクト符号化データのうち、残りの3つのオブジェクト符号化データは、サウンド・エフェクト・オブジェクトのコンテントグループの符号化データ(SEO)に属している。この3つのオブジェクト符号化データは、第1、第2、第3の効果音のそれぞれに対応したサウンド・エフェクト・オブジェクト(Object for sound effect)の符号化データである。
【0028】
この第1、第2、第3の効果音に対応したサウンド・エフェクト・オブジェクトの符号化データは、それぞれ、符号化サンプルデータSCE5,SCE6,SCE7と、それを任意の位置に存在するスピーカにマッピングさせてレンダリングするためのメタデータ(Object metadata)とからなっている。
【0029】
符号化データは、種類別にグループ(Group)という概念で区別される。この構成例では、5.1チャネルのチャネル符号化データはグループ1(Group 1)とされる。また、第1、第2、第3の言語に対応したダイアログ・ランゲージ・オブジェクトの符号化データは、それぞれ、グループ2(Group 2)、グループ3(Group 3)、グループ4(Group 4)とされる。また、第1、第2、第3の効果音に対応したサウンド・エフェクト・オブジェクトの符号化データは、それぞれ、グループ5(Group 5)、グループ6(Group 6)、グループ7(Group 7)とされる。
【0030】
また、受信側においてグループ間で選択できるものはスイッチグループ(SW Group)に登録されて符号化される。この構成例では、ダイアログ・ランゲージ・オブジェクトのコンテントグループに属するグループ2、グループ3、グループ4はスイッチグループ1(SW Group 1)とされる。また、サウンド・エフェクト・オブジェクトのコンテントグループに属するグループ5、グループ6、グループ7はスイッチグループ2(SW Group 2)とされる。
【0031】
図3は、MPEG-H 3D Audioの伝送データにおけるオーディオフレームの構造例を示している。このオーディオフレームは、複数のMPEGオーディオストリームパケット(mpeg Audio Stream Packet)からなっている。各MPEGオーディオストリームパケットは、ヘッダ(Header)とペイロード(Payload)により構成されている。
【0032】
ヘッダは、パケットタイプ(Packet Type)、パケットラベル(Packet Label)、パケットレングス(Packet Length)などの情報を持つ。ペイロードには、ヘッダのパケットタイプで定義された情報が配置される。このペイロード情報には、同期スタートコードに相当する“SYNC”と、3Dオーディオの伝送データの実際のデータである“Frame”と、この“Frame”の構成を示す“Config”が存在する。
【0033】
“Frame”には、3Dオーディオの伝送データを構成するチャネル符号化データとオブジェクト符号化データが含まれる。ここで、チャネル符号化データは、SCE(Single Channel Element)、CPE(Channel Pair Element)、LFE(Low Frequency Element)などの符号化サンプルデータで構成される。また、オブジェクト符号化データは、SCE(Single Channel Element)の符号化サンプルデータと、それを任意の位置に存在するスピーカにマッピングさせてレンダリングするためのメタデータにより構成される。このメタデータは、エクステンションエレメント(Ext_element)として含まれる。
【0034】
この実施の形態では、エクステンションエレメント(Ext_element)として、各コンテントグループに対する音圧の増減の許容範囲を示す情報を持つエレメント(Ext_content_enhancement)を新たに定義する。これに伴って、“Config”に、そのエレメントの構成情報(content_enhancement config)を新たに定義する。
【0035】
図4は、エクステンションエレメント(Ext_element)のタイプ(ExElementType)と、その値(Value)との対応関係を示している。例えば、128を、新たに、“ID_EXT_ELE_content_enhancement”のタイプの値として定義する。
【0036】
図5は、各コンテントグループに対する音圧の増減の許容範囲を示す情報をエクステンションエレメントとして含むコンテント・エンハンスメント・フレーム(Content_Enhancement_frame())の構造例(syntax)を示している。
図6は、その構成例における主要な情報の内容(semantics)を示している。
【0037】
「num_of_content_groups」の8ビットフィールドは、コンテントグループの数を示す。このコンテントグループの数だけ、「content_group_id」の8ビットフィールド、「content_type」の8ビットフィールド、「content_enhancement_plus_factor」の8ビットフィールドおよび「content_enhancement_minus_factor」の8ビットフィールドが、繰り返し存在する。
【0038】
「content_group_id」フィールドは、コンテントグループのID(識別)を示す。「content_type」のフィールドは、コンテントグループのタイプを示す。例えば、“0”は「dialog language」を示し、“1”は「sound effect」を示し、“2”は「BGM」を示し、“3”は「spoken subtitles」を示す。
【0039】
「content_enhancement_plus_factor」のフィールドは、音圧の増減における上限値を示す。例えば、
図7のテーブルに示すように、“0x00”は1(0dB)、“0x01”は1.4(+3dB)、・・・、“0xFF”はinfinite(+infinit dB)を示す。「content_enhancement_minus_factor」のフィールドは、音圧の増減における下限値を示す。例えば、
図7のテーブルに示すように、“0x00”は1(0dB)、“0x01”は0.7(-3dB)、・・・、“0xFF”は0.00(-infinit dB)を示す。なお、
図7のテーブルは、サービス受信機200において共有されている。
【0040】
また、この実施の形態では、各コンテントグループに対する音圧の増減の許容範囲を示す情報を持つオーディオ・コンテント・エンハンスメント・デスクリプタ(Audio_Content_Enhancement descriptor)を新規定義する。そして、このデスクリプタを、プログラムマップテーブル(PMT:Program Map Table)の配下に存在するオーディオエレメンタリストリームループ内に挿入する。
【0041】
図8は、オーディオ・コンテント・エンハンスメント・デスクリプタの構造例(Syntax)を示している。「descriptor_tag」の8ビットフィールドは、デスクリプタタイプを示す。ここでは、オーディオ・コンテント・エンハンスメント・デスクリプタであることを示す。「descriptor_length」の8ビットフィールドは、デスクリプタの長さ(サイズ)を示し、デスクリプタの長さとして、以降のバイト数を示す。
【0042】
「num_of_content_groups」の8ビットフィールドは、コンテントグループの数を示す。このコンテントグループの数だけ、「content_group_id」の8ビットフィールド、「content_type」の8ビットフィールド、「content_enhancement_plus_factor」の8ビットフィールドおよび「content_enhancement_minus_factor」の8ビットフィールドが、繰り返し存在する。なお、各フィールドの情報の内容については、上述のコンテント・エンハンスメント・フレーム(
図5参照)で説明したと同様である。
【0043】
図1に戻って、サービス受信機200は、サービス送信機100から放送波あるいはネットのパケットに載せて送られてくるトランスポートストリームTSを受信する。このトランスポートストリームTSは、ビデオストリームの他に、オーディオストリームを有している。オーディオストリームは、3Dオーディオの伝送データを構成する、チャネル符号化データと、所定数のオブジェクトコンテントの符号化データ(オブジェクト符号化データ)を持っている。
【0044】
オーディオストリームのレイヤおよび/またはコンテナとしてのトランスポートストリームTSのレイヤに、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報が挿入されている。例えば、所定数のコンテントグループに対する音圧の増減の許容範囲を示す情報を挿入されている。ここで、1つのコンテントグループには、1つまたは複数のオブジェクトコンテントが属している。
【0045】
サービス受信機200は、ビデオストリームにデコード処理を施してビデオデータを得る。また、サービス受信機200は、オーディオストリームにデコード処理を施して3Dオーディオのオーディオデータを得る。
【0046】
サービス受信機200は、ユーザ選択に係るオブジェクトコンテントに対する音圧増減を処理する。このとき、サービス受信機200は、オーディオストリームのレイヤおよび/またはコンテナとしてのトランスポートストリームTSのレイヤに挿入されている各オブジェクトコンテントに対する音圧の増減の許容範囲に基づいて、音圧の増減の範囲を制限する。
【0047】
[サービス送信機のストリーム生成部]
図9は、サービス送信機100が備えるストリーム生成部110の構成例を示している。このストリーム生成部110は、制御部111と、ビデオエンコーダ112と、オーディオエンコーダ113と、マルチプレクサ114を有している。
【0048】
ビデオエンコーダ112は、ビデオデータSVを入力し、このビデオデータSVに対して符号化を施し、ビデオストリーム(ビデオエレメンタリストリーム)を生成する。オーディオエンコーダ113は、オーディオデータSAとして、チャネルデータと共に、所定数のコンテントグループのオブジェクトデータを入力する。各コンテントグループには、1つまたは複数のオブジェクトコンテントが属している。
【0049】
オーディオエンコーダ113は、オーディオデータSAに対して符号化を施して3Dオーディオの伝送データを得、この3Dオーディオの伝送データを含むオーディオストリーム(オーディオエレメンタリストリーム)を生成する。3Dオーディオの伝送データには、チャネル符号化データと共に、所定数のコンテントグループのオブジェクト符号化データが含まれる。
【0050】
例えば、
図2の構成例に示すように、チャネル符号化データ(CD)と、ダイアログ・ランゲージ・オブジェクトのコンテントグループの符号化データ(DOD)と、サウンド・エフェクト・オブジェクトのコンテントグループの符号化データ(SEO)が含まれる。
【0051】
オーディオエンコーダ113は、制御部111による制御のもと、オーディオストリームに、各コンテントグループに対する音圧の増減の許容範囲を示す情報を挿入する。この実施の形態では、オーディオフレームに、エクステンションエレメント(Ext_element)として、各コンテントグループに対する音圧の増減の許容範囲を示す情報を持つ新規定義するエレメント(Ext_content_enhancement)を挿入する(
図3、
図5参照)。
【0052】
マルチプレクサ114は、ビデオエンコーダ112から出力されるビデオストリームおよびオーディオエンコーダ113から出力される所定数のオーディオストリームを、それぞれ、PESパケット化し、さらにトランスポートパケット化して多重し、多重化ストリームとしてのトランスポートストリームTSを得る。
【0053】
マルチプレクサ114は、制御部111の制御のもと、コンテナとしてのトランスポートストリームTSに、各コンテントグループに対する音圧の増減の許容範囲を示す情報を挿入する。この実施の形態では、PMTの配下に存在するオーディオエレメンタリストリームループ内に、各コンテントグループに対する音圧の増減の許容範囲を示す情報を持つ新規定義するオーディオ・コンテント・エンハンスメント・デスクリプタ(Audio_Content_Enhancement descriptor)を挿入する(
図8参照)。
【0054】
図9に示すストリーム生成部110の動作を簡単に説明する。ビデオデータは、ビデオエンコーダ112に供給される。このビデオエンコーダ112では、ビデオデータSVに対して符号化が施され、符号化ビデオデータを含むビデオストリームが生成される。このビデオストリームは、マルチプレクサ114に供給される。
【0055】
オーディオデータSAは、オーディオエンコーダ113に供給される。このオーディオデータSAには、チャネルデータと共に、所定数のコンテントグループのオブジェクトデータが含まれる。ここで、各コンテントグループには、1つまたは複数のオブジェクトコンテントが属している。
【0056】
オーディオエンコーダ113では、オーディオデータSAに対して符号化が施されて3Dオーディオの伝送データが得られる。この3Dオーディオの伝送データには、チャネル符号化データと共に、所定数のコンテントグループのオブジェクト符号化データが含まれる。そして、オーディオエンコーダ113では、この3Dオーディオの伝送データを含むオーディオストリームが生成される。
【0057】
このとき、オーディオエンコーダ113では、制御部111による制御のもと、オーディオストリームに、各コンテントグループに対する音圧の増減の許容範囲を示す情報が挿入される。すなわち、オーディオフレームに、エクステンションエレメント(Ext_element)として、各コンテントグループに対する音圧の増減の許容範囲を示す情報を持つ新規定義するエレメント(Ext_content_enhancement)が挿入される(
図3、
図5参照)。
【0058】
ビデオエンコーダ112で生成されたビデオストリームは、マルチプレクサ114に供給される。また、オーディオエンコーダ113で生成されたオーディオストリームは、マルチプレクサ114に供給される。マルチプレクサ114では、各エンコーダから供給されるストリームがPESパケット化され、さらにトランスポートパケット化されて多重され、多重化ストリームとしてのトランスポートストリームTSが得られる。
【0059】
このとき、マルチプレクサ114では、制御部111の制御のもと、コンテナとしてのトランスポートストリームTSに、各コンテントグループに対する音圧の増減の許容範囲を示す情報が挿入される。すなわち、PMTの配下に存在するオーディオエレメンタリストリームループ内に、各コンテントグループに対する音圧の増減の許容範囲を示す情報を持つ新規定義するオーディオ・コンテント・エンハンスメント・デスクリプタ(Audio_Content_Enhancement descriptor)が挿入される(
図8参照)。
【0060】
[トランスポートストリームTSの構成]
図10は、トランスポートストリームTSの構造例を示している。この構造例では、PID1で識別されるビデオストリームのPESパケット「video PES」が存在すると共に、PID2で識別されるオーディオストリームのPESパケット「audio PES」が存在する。PESパケットは、PESヘッダ(PES_header)とPESペイロード(PES_payload)からなっている。PESヘッダには、DTS,PTSのタイムスタンプが挿入されている。
【0061】
オーディオストリームのPESパケットのPESペイロードにはオーディオストリーム(Audio coded stream)が挿入される。このオーディオストリームのオーディオフレームに、各コンテントグループに対する音圧の増減の許容範囲を示す情報を持つコンテント・エンハンスメント・フレーム(Content_Enhancement_frame())が挿入される。
【0062】
また、トランスポートストリームTSには、PSI(Program Specific Information)として、PMT(Program Map Table)が含まれている。PSIは、トランスポートストリームに含まれる各エレメンタリストリームがどのプログラムに属しているかを記した情報である。PMTには、プログラム全体に関連する情報を記述するプログラム・ループ(Program loop)が存在する。
【0063】
また、PMTには、各エレメンタリストリームに関連した情報を持つエレメンタリストリームループが存在する。この構成例では、ビデオストリームに対応したビデオエレメンタリストリームループ(video ES loop)が存在すると共に、オーディオストリームに対応したオーディオエレメンタリストリームループ(audio ES loop)が存在する
【0064】
ビデオエレメンタリストリームループ(video ES loop)には、ビデオストリームに対応して、ストリームタイプ、PID(パケット識別子)等の情報が配置されると共に、そのビデオストリームに関連する情報を記述するデスクリプタも配置される。このビデオストリームの「Stream_type」の値は「0x24」に設定され、PID情報は、上述したようにビデオストリームのPESパケット「video PES」に付与されるPID1を示すものとされる。デスクリプタの一つして、HEVC デスクリプタが配置される。
【0065】
また、オーディオエレメンタリストリームループ(audio ES loop)には、オーディオストリームに対応して、ストリームタイプ、PID(パケット識別子)等の情報が配置されると共に、そのオーディオストリームに関連する情報を記述するデスクリプタも配置される。このオーディオストリームの「Stream_type」の値は「0x2C」に設定され、PID情報は、上述したようにオーディオストリームのPESパケット「audio PES」に付与されるPID2を示すものとされる。デスクリプタの一つして、各コンテントグループに対する音圧の増減の許容範囲を示す情報を持つオーディオ・コンテント・エンハンスメント・デスクリプタ(Audio_Content_Enhancement descriptor)が配置される。
【0066】
[サービス受信機の構成例]
図11は、サービス受信機200の構成例を示している。このサービス受信機200は、受信部201と、デマルチプレクサ202と、ビデオデコード部203と、映像処理回路204と、パネル駆動回路205と、表示パネル206を有している。また、このサービス受信機200は、オーディオデコード部214と、音声出力回路215と、スピーカシステム216を有している。また、このサービス受信機200は、CPU221と、フラッシュROM222と、DRAM223と、内部バス224と、リモコン受信部225と、リモコン送信機226を有している。
【0067】
CPU221は、サービス受信機200の各部の動作を制御する。フラッシュROM222は、制御ソフトウェアの格納およびデータの保管を行う。DRAM223は、CPU221のワークエリアを構成する。CPU221は、フラッシュROM222から読み出したソフトウェアやデータをDRAM223上に展開してソフトウェアを起動させ、サービス受信機200の各部を制御する。
【0068】
リモコン受信部225は、リモコン送信機226から送信されたリモートコントロール信号(リモコンコード)を受信し、CPU221に供給する。CPU221は、このリモコンコードに基づいて、サービス受信機200の各部を制御する。CPU221、フラッシュROM222およびDRAM223は、内部バス224に接続されている。
【0069】
受信部201は、サービス送信機100から放送波あるいはネットのパケットに載せて送られてくるトランスポートストリームTSを受信する。このトランスポートストリームTSは、ビデオストリームの他に、オーディオストリームを有している。オーディオストリームは、3Dオーディオの伝送データを構成する、チャネル符号化データと、所定数のオブジェクトコンテントの符号化データ(オブジェクト符号化データ)を持っている。
【0070】
オーディオストリームのレイヤおよび/またはコンテナとしてのトランスポートストリームTSのレイヤに、所定数のコンテントグループに対する音圧の増減の許容範囲を示す情報が挿入されている。なお、1つのコンテントグループに、1つまたは複数のオブジェクトコンテントが属している。
【0071】
ここで、オーディオフレームに、エクステンションエレメント(Ext_element)として、各コンテントグループに対する音圧の増減の許容範囲を示す情報を持つ新規定義するエレメント(Ext_content_enhancement)が挿入されている(
図3、
図5参照)。また、PMTの配下に存在するオーディオエレメンタリストリームループ内に、各コンテントグループに対する音圧の増減の許容範囲を示す情報を持つ新規定義するオーディオ・コンテント・エンハンスメント・デスクリプタ(Audio_Content_Enhancement descriptor)が挿入されている(
図8参照)。
【0072】
デマルチプレクサ202は、トランスポートストリームTSからビデオストリームを抽出し、ビデオデコード部203に送る。ビデオデコード部203は、ビデオストリームに対してデコード処理を行って非圧縮のビデオデータを得る。
【0073】
映像処理回路204は、ビデオデコード部203で得られたビデオデータに対してスケーリング処理、画質調整処理などを行って、表示用のビデオデータを得る。パネル駆動回路205は、映像処理回路204で得られる表示用の画像データに基づいて、表示パネル206を駆動する。表示パネル206は、例えば、LCD(Liquid Crystal Display)、有機ELディスプレイ(organic electroluminescence display)などで構成されている。
【0074】
また、デマルチプレクサ202は、トランスポートストリームTSからデスクリプタ情報などの各種情報を抽出し、CPU221に送る。この各種情報には、上述した各コンテントグループに対する音圧の増減の許容範囲を示す情報を持つオーディオ・コンテント・エンハンスメント・デスクリプタも含まれる。CPU221は、このデスクリプタにより、各コンテントグループに対する音圧の増減の許容範囲(上限値、下限値)を認識できる。
【0075】
また、デマルチプレクサ202は、トランスポートストリームTSからオーディオストリームを抽出し、オーディオデコード部214に送る。オーディオデコード部214は、オーディオストリームに対してデコード処理を行って、スピーカシステム216を構成する各スピーカを駆動するためのオーディデータを得る。
【0076】
この場合、オーディオデコード部214は、オーディオストリームに含まれる所定数のオブジェクトコンテントの符号化データのうち、スイッチグループを構成する複数のオブジェクトコンテントの符号化データに関しては、CPU221の制御のもと、ユーザ選択に係るいずれか1つのオブジェクトコンテントの符号化データのみをデコード対象とする。
【0077】
また、オーディオデコード部214は、オーディオストリームに挿入されている各種情報を抽出し、CPU221に送信する。この各種情報には、上述した各コンテントグループに対する音圧の増減の許容範囲を示す情報を持つエレメントも含まれる。CPU221は、このエレメントにより、各コンテントグループに対する音圧の増減の許容範囲(上限値、下限値)を認識できる。
【0078】
また、オーディオデコード部214は、CPU221の制御のもと、ユーザ選択に係るオブジェクトコンテントに対する音圧増減を処理する。このとき、オーディオストリームのレイヤおよび/またはコンテナとしてのトランスポートストリームTSのレイヤに挿入されている各オブジェクトコンテントに対する音圧の増減の許容範囲(上限値、下限値)に基づいて、音圧の増減の範囲を制限する。このオーディオデコード部214の詳細については、後述する。
【0079】
音声出力処理回路215は、オーディオデコード部214で得られた各スピーカを駆動するためのオーディオデータに対して、D/A変換や増幅等の必要な処理を行って、スピーカシステム216に供給する。スピーカシステム216は、複数チャネル、例えば2チャネル、5.1チャネル、7.1チャネル、22.2チャネルなどの複数のスピーカを備える。
【0080】
「オーディオデコード部の構成例」
図12は、オーディオデコード部214の構成例を示している。オーディオデコード部214は、デコーダ231と、オブジェクトエンハンサ232と、オブジェクトレンダラ233と、ミキサ234を有している。
【0081】
デコーダ231は、デマルチプレクサ202で抽出されたオーディオストリームに対してデコード処理を行って、チャネルデータと共に、所定数のオブジェクトコンテントのオブジェクトデータを得る。このデコーダ213は、
図9のストリーム生成部110のオーディオエンコーダ113とほぼ逆の処理をする。なお、スイッチグループを構成する複数のオブジェクトコンテントに関しては、CPU221の制御のもと、ユーザ選択に係るいずれか1つのオブジェクトコンテントのオブジェクトデータのみを得る。
【0082】
また、デコーダ231は、オーディオストリームに挿入されている各種情報を抽出し、CPU221に送信する。この各種情報には、各コンテントグループに対する音圧の増減の許容範囲を示す情報を持つエレメントも含まれる。CPU221は、このエレメントにより、各コンテントグループに対する音圧の増減の許容範囲(上限値、下限値)を認識できる。
【0083】
オブジェクトエンハンサ232は、デコーダ231で得られた所定数のオブジェクトデータにうち、ユーザ選択に係るオブジェクトコンテントに対して音圧増減の処理をする。音圧の増減処理時には、ユーザ操作に応じて、CPU221からオブジェクトエンハンサ232に、音圧の増減処理をすべき対象のオブジェクコンテントを示すターゲットコンテント(target_content)と、増加であるか減少であるかを示すコマンド(command)が与えられると共に、当該ターゲットコンテントに対する音圧の増減の許容範囲(上限値、下限値)が与えられる。
【0084】
オブジェクトエンハンサ232は、ユーザの単位操作毎に、ターゲットコンテント(target_content)のオブジェクトコンテントの音圧を、コマンド(command)が示す方向(増加、または減少)に、所定の幅だけ変化させる。この場合、既に、音圧が許容範囲(上限値、下限値)で示される限界値にあるときは、音圧は変化させずにそのままとする。
【0085】
また、オブジェクトエンハンサ232は、音圧の変化幅(所定の幅)を、例えば、
図7のテーブルを参照して行う。例えば、現在の状態が1(0dB)にあって、ユーザの単位操作が増加である場合には、1.4(+3dB)の状態に変化させる。また、例えば、現在の状態が1.4(+3dB)にあって、ユーザの単位操作が増加である場合には、1.9(+6dB)の状態に変化させる。
【0086】
また、例えば、現在の状態が1(0dB)にあって、ユーザの単位操作が減少である場合には、0.7(-3dB)の状態に変化させる。また、例えば、現在の状態が0.7(-3dB)にあって、ユーザの単位操作が増加である場合には、0.5(-6dB)の状態に変化させる。
【0087】
また、オブジェクトエンハンサ232は、音圧の増減処理時には、各オブジェクトデータの音圧状態を示す情報を、CPU221に送る。CPU221は、この情報に基づいて、表示部、例えば表示パネル206に、各オブジェクトコンテントの現在の音圧状態を示すユーザインタフェース画面を表示し、ユーザの音圧設定の便に供するようにされる。
【0088】
図13は、音圧状態示すユーザインタフェース画面の一例を示している。この例では、オブジェクトコンテントとして、ダイアログ・ランゲージ・オブジェクト(DOD)とサウンド・エフェクト・オブジェクト(SEO)の2つが存在する場合を示している(
図2参照)。ハッチングを付して示すマーク部分で現在の音圧状態が示される。なお、「plus_i」は上限値を示し、「minus_i」は下限値を示している。
【0089】
図14のフローチャートは、ユーザの単位操作に対応した、オブジェクトエンハンサ232における音圧の増減処理の一例を示している。オブジェクトエンハンサ232は、ステップST1において、処理を開始する。その後、オブジェクトエンハンサ232は、ステップST2の処理に移る。
【0090】
このステップST2において、オブジェクトエンハンサ232は、コマンド(command)は増加命令であるか否かを判断する。増加命令であるとき、オブジェクトエンハンサ232は、ステップST3の処理に移る。このステップST3において、オブジェクトエンハンサ232は、ターゲットコンテント(target_content)のオブジェクトコンテントの音圧を、上限値にないときには、所定幅だけ増加させる。オブジェクトエンハンサ232は、ステップST3の処理の後、ステップST4において、処理を終了する。
【0091】
また、ステップST2で増加命令でないとき、すなわち減少命令であるとき、オブジェクトエンハンサ232は、ステップST5の処理に移る。このステップST5において、オブジェクトエンハンサ232は、ターゲットコンテント(target_content)のオブジェクトコンテントの音圧を、下限値にないときには、所定幅だけ減少させる。オブジェクトエンハンサ232は、ステップST5の処理の後、ステップST4において、処理を終了する。
【0092】
図12に戻って、オブジェクトレンダラ233は、オブジェクトエンハンサ232を通じて得られた所定数のオブジェクトコンテントのオブジェクトデータに対してレンダリング処理を施して、所定数のオブジェクトコンテントのチャネルデータを得る。ここで、オブジェクトデータは、オブジェクト音源のオーディオデータと、このオブジェクト音源の位置情報から構成されている。オブジェクトレンダラ233は、オブジェクト音源のオーディオデータをオブジェクト音源の位置情報に基づいて任意のスピーカ位置にマッピングすることで、チャネルデータを得る。
【0093】
ミキサ234は、デコーダ231で得られたチャネルデータに、オブジェクトレンダラ233で得られた各オブジェクトコンテントのチャネルデータを合成し、スピーカシステム216を構成する各スピーカを駆動するためのオーディデータ(チャネルデータ)を得る。
【0094】
図11に示すサービス受信機200の動作を簡単に説明する。受信部201では、サービス送信機100から放送波あるいはネットのパケットに載せて送られてくるトランスポートストリームTSが受信される。このトランスポートストリームTSは、ビデオストリームの他に、オーディオストリームを有している。
【0095】
オーディオストリームは、3Dオーディオの伝送データを構成する、チャネル符号化データと、所定数のオブジェクトコンテントの符号化データ(オブジェクト符号化データ)を持っている。この所定数のオブジェクトコンテントのそれぞれは所定数のコンテントグループのいずれかに属している。つまり、1つのコンテントグループに、1つまたは複数のオブジェクトコンテントが属している。
【0096】
このトランスポートストリームTSは、デマルチプレクサ202に供給される。デマルチプレクサ202では、トランスポートストリームTSからビデオストリームが抽出され、ビデオデコード部203に供給される。ビデオデコード部203では、ビデオストリームに対してデコード処理が施されて、非圧縮のビデオデータが得られる。このビデオデータは、映像処理回路204に供給される。
【0097】
映像処理回路204では、ビデオデータに対してスケーリング処理、画質調整処理などが行われて、表示用のビデオデータが得られる。この表示用のビデオデータはパネル駆動回路205に供給される。パネル駆動回路205では、表示用のビデオデータに基づいて、表示パネル206を駆動することが行われる。これにより、表示パネル206には、表示用のビデオデータに対応した画像が表示される。
【0098】
また、デマルチプレクサ202では、トランスポートストリームTSからデスクリプタ情報などの各種情報が抽出され、CPU221に送られる。この各種情報には、各コンテントグループに対する音圧の増減の許容範囲を示す情報を持つオーディオ・コンテント・エンハンスメント・デスクリプタも含まれる。CPU221では、このデスクリプタにより、各コンテントグループに対する音圧の増減の許容範囲(上限値、下限値)が認識される。
【0099】
また、デマルチプレクサ202では、トランスポートストリームTSからオーディオストリームが抽出され、オーディオデコード部214に送られる。オーディオデコード部214では、オーディオストリームに対してデコード処理が施されて、スピーカシステム216を構成する各スピーカを駆動するためのオーディデータが得られる。
【0100】
この場合、オーディオデコード部214では、オーディオストリームに含まれる所定数のオブジェクトコンテントの符号化データのうち、スイッチグループを構成する複数のオブジェクトコンテントの符号化データに関しては、CPU221の制御のもと、ユーザ選択に係るいずれか1つのオブジェクトコンテントの符号化データのみがデコード対象とされる。
【0101】
また、オーディオデコード部214では、オーディオストリームに挿入されている各種情報が抽出され、CPU221に送信される。この各種情報には、上述した各コンテントグループに対する音圧の増減の許容範囲を示す情報を持つエレメントも含まれる。CPU221では、このエレメントにより、各コンテントグループに対する音圧の増減の許容範囲(上限値、下限値)が認識される。
【0102】
また、オーディオデコード部214では、CPU221の制御のもと、ユーザ選択に係るオブジェクトコンテントに対する音圧増減の処理が行われる。このとき、オーディオデコード部214では、各オブジェクトコンテントに対する音圧の増減の許容範囲(上限値、下限値)に基づいて、音圧の増減の範囲が制限される。
【0103】
すなわち、この場合、ユーザ操作に応じて、CPU221からオーディオデコード部214に、音圧の増減処理をすべき対象のオブジェクコンテントを示すターゲットコンテント(target_content)と、増加であるか減少であるかを示すコマンド(command)が与えられると共に、当該ターゲットコンテントに対する音圧の増減の許容範囲(上限値、下限値)が与えられる。
【0104】
そして、オーディオデコード部214では、ユーザの単位操作毎に、ターゲットコンテント(target_content)のコンテントグループに属するオブジェクトデータの音圧が、コマンド(command)が示す方向(増加、または減少)に、所定の幅だけ変化させられる。この場合、既に、音圧が許容範囲(上限値、下限値)で示される限界値にあるときは、音圧は変化させずにそのままとされる。
【0105】
オーディオデコード部214で得られた各スピーカを駆動するためのオーディオデータは、音声出力処理回路215に供給される。音声出力処理回路215では、このオーディオデータに対して、D/A変換や増幅等の必要な処理が行われる。そして、処理後のオーディオデータはスピーカシステム216に供給される。これにより、スピーカシステム216からは表示パネル206の表示画像に対応した音響出力が得られる。
【0106】
上述したように、
図1に示す送受信システム10において、サービス受信機200は、ユーザ選択に係るオブジェクトコンテントに対する音圧増減の処理をする。そのため、例えば、所定のオブジェクトコンテントの音圧を増加させ、その他のオブジェクトコンテントの音圧を減少させるということも可能となり、所定数のオブジェクトコンテントの音圧の調整を効果的に行うことが可能となる。
【0107】
図15(a)はダイアログ・ランゲージのオブジェクトコンテントのオーディオデータの波形を概略的に示し、
図15(b)はその他のオブジェクトコンテントのオーディオデータの波形を概略的に示している。
図15(c)は、それらのオーディオデータをまとめた場合の波形を概略的に示している。この場合、ダイアログ・ランゲージのオーディオデータの波形の振幅よりその他の複数のオブジェクトコンテントのオーディオデータの波形の振幅が大きくなることから、ダイアログ・ランゲージの音は、その他のオブジェクトコンテントの音でマスキングされ、非常に聞き取り難いものとなる。
【0108】
図15(d)は音圧を増加させたダイアログ・ランゲージのオブジェクトコンテントのオーディオデータの波形を概略的に示し、
図15(e)は音圧を減少させたその他のオブジェクトコンテントのオーディオデータの波形を概略的に示している。
図15(f)は、それらのオーディオデータをまとめた場合の波形を概略的に示している。
【0109】
この場合、ダイアログ・ランゲージのオーディオデータの波形の振幅はその他の複数のオブジェクトコンテントのオーディオデータの波形の振幅より大きくなることから、ダイアログ・ランゲージの音は、その他のオブジェクトコンテントの音でマスキングされることなく、聞き取りやすくなる。また、この場合、ダイアログ・ランゲージのオブジェクトコンテントの音圧は増加されるが、その他のオブジェクトコンテントの音圧は減少されるので、オブジェクトコンテントの全体の音圧を一定に保たれる。
【0110】
また、
図1に示す送受信システム10において、サービス送信機100は、オーディオストリームのレイヤおよび/またはコンテナとしてのトランスポートストリームTSのレイヤに、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報を挿入する。そのため、受信側では、この挿入情報を用いることで、各オブジェクトコンテントの音圧の増減の調整を許容範囲内で行うことが容易となる。
【0111】
また、
図1に示す送受信システム10において、サービス送信機100は、オーディオストリームのレイヤおよび/またはコンテナとしてのトランスポートストリームTSに、所定数のオブジェクトコンテントが属する各コンテントグループに対する音圧の増減の許容範囲を示す情報を挿入する。そのため、音圧の増減の許容範囲を示す情報をコンテントグループの数だけ送ればよく、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報を効率的に送信することが可能となる。
【0112】
<2.変形例>
なお、上述実施の形態においては、各オブジェクトコンテント、従って各コンテントグループに対する音圧の増減の許容範囲を示す情報のファクタータイプが1つである例を示した(
図7参照)。しかし、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報のファクタータイプを複数のタイプから選択可能とすることも考えられる。
【0113】
図16は、各コンテントグループに対する音圧の増減の許容範囲を示す情報のファクタータイプを複数のタイプから選択可能とする場合におけるテーブルの一例を示している。この例は、ファクタータイプが、「factor_1」、「factor_2」の2つである場合の例である。
【0114】
この場合、受信側では、「factor_1」が指定されたコンテントグループに関しては、テーブルの「factor_1」の部分が参照されて、音圧の上限値、下限値が認識され、また、音圧の増減調整における変化幅も認識される。また、同様に、受信側では、「factor_2」が指定されたコンテントグループに関しては、テーブルの「factor_2」の部分が参照されて、音圧の上限値、下限値が認識され、また、音圧の増減調整における変化幅も認識される。
【0115】
例えば、「content_enhancement_plus_factor」が“0x02”で同じであっても、「factor_1」が指定されている場合には上限値は1.9(+6dB)と認識され、「factor_2」が指定されている場合には上限値は3.9(+12dB)と認識される。また、1(0dB)の状態から増加命令があった場合、「factor_1」が指定されている場合には1.4(+3dB)の状態に変化させられ、「factor_2」が指定されている場合には1.9(+6dB)の状態に変化させられる。また、いずれのファクターである場合にも、指定値が“0x00”である場合は、上限値、あるいは下限値とも0dBであり、この場合は対象のコンテントグループに関しては音圧の変更ができないことを意味する。
【0116】
図17は、各コンテントグループに対する音圧の増減の許容範囲を示す情報のファクタータイプを複数のタイプから選択可能とする場合におけるコンテント・エンハンスメント・フレーム(Content_Enhancement_frame())の構造例(syntax)を示している。
図18は、その構成例における主要な情報の内容(semantics)を示している。
【0117】
「num_of_content_groups」の8ビットフィールドは、コンテントグループの数を示す。このコンテントグループの数だけ、「content_group_id」の8ビットフィールド、「content_type」の8ビットフィールド、「factor_type」の8ビットフィールド、「content_enhancement_plus_factor」の8ビットフィールドおよび「content_enhancement_minus_factor」の8ビットフィールドが、繰り返し存在する。
【0118】
「content_group_id」フィールドは、コンテントグループのID(識別)を示す。「content_type」のフィールドは、コンテントグループのタイプを示す。例えば、“0”は「dialog language」を示し、“1”は「sound effect」を示し、“2”は「BGM」を示し、“3”は「spoken subtitles」を示す。「factor_type」のフィールドは、適用ファクタータイプを示す。例えば、“0”は「factor_1」を示し、“1”は「factor_2」を示す。
【0119】
「content_enhancement_plus_factor」のフィールドは、音圧の増減における上限値を示す。例えば、
図16のテーブルに示すように、適用ファクタータイプが「factor_1」である場合には“0x00”は1(0dB)、“0x01”は1.4(+3dB)、・・・、“0xFF”はinfinite(+infinit dB)を示し、適用ファクタータイプが「factor_2」である場合には“0x00”は1(0dB)、“0x01”は1.9(+6dB)、・・・、“0x7F”はinfinite(+infinit dB)を示す。
【0120】
「content_enhancement_minus_factor」のフィールドは、音圧の増減における下限値を示す。例えば、
図16のテーブルに示すように、適用ファクタータイプが「factor_1」である場合には“0x00”は1(0dB)、“0x01”は0.7(-3dB)、・・・、“0xFF”は0.00(-infinit dB)を示し、適用ファクタータイプが「factor_2」である場合には0x00”は1(0dB)、“0x01”は0.5(-6dB)、・・・、“0x7F”は0.00(-infinit dB)を示す。
【0121】
図19は、各コンテントグループに対する音圧の増減の許容範囲を示す情報のファクタータイプを複数のタイプから選択可能とする場合におけるオーディオ・コンテント・エンハンスメント・デスクリプタ(Audio_Content_Enhancement descriptor)の構造例(syntax)を示している。
【0122】
「descriptor_tag」の8ビットフィールドは、デスクリプタタイプを示す。ここでは、オーディオ・コンテント・エンハンスメント・デスクリプタであることを示す。「descriptor_length」の8ビットフィールドは、デスクリプタの長さ(サイズ)を示し、デスクリプタの長さとして、以降のバイト数を示す。
【0123】
「num_of_content_groups」の8ビットフィールドは、コンテントグループの数を示す。このコンテントグループの数だけ、「content_group_id」の8ビットフィールド、「content_type」の8ビットフィールド、「factor_type」の8ビットフィールド、「content_enhancement_plus_factor」の8ビットフィールドおよび「content_enhancement_minus_factor」の8ビットフィールドが、繰り返し存在する。なお、各フィールドの情報の内容については、上述のコンテント・エンハンスメント・フレーム(
図17参照)で説明したと同様である。
【0124】
また、上述実施の形態においては、サービス受信機200においては、ユーザ選択に係るターゲットコンテント(target_content)のオブジェクトコンテントの音圧を、コマンド(command)が示す方向(増加、または減少)に、所定幅だけ変化させる例を示した。しかし、ターゲットコンテント(target_content)のオブジェクトコンテントの音圧の増減処理をする際に、自動的に、その他のオブジェクトコンテントの音圧を逆方向に増減処理することも考えられる。
【0125】
このようにすることで、例えば、
図15(d),(e)の処理を、ユーザは、ダイアログ・ランゲージのオブジェクトコンテントの増加操作を行うことだけで、サービス受信機200において実行させることが可能となる。
【0126】
図20のフローチャートは、その場合における、ユーザの単位操作に対応した、オブジェクトエンハンサ232(
図12参照)における音圧の増減処理の一例を示している。オブジェクトエンハンサ232は、ステップST11において、処理を開始する。その後、オブジェクトエンハンサ232は、ステップST12の処理に移る。
【0127】
このステップST12において、オブジェクトエンハンサ232は、コマンド(command)は増加命令であるか否かを判断する。増加命令であるとき、オブジェクトエンハンサ232は、ステップST13の処理に移る。このステップST13において、オブジェクトエンハンサ232は、ターゲットコンテント(target_content)のオブジェクトコンテントの音圧を、上限値にないときには、所定幅だけ増加させる。
【0128】
次に、オブジェクトエンハンサ232は、ステップST14において、オブジェクトコンテントの全体の音圧を一定に保つために、ターゲットコンテント(target_content)でない他のオブジェクトコンテントの音圧を減少させる。この場合、上述のターゲットコンテント(target_content)のオブジェクトコンテントの音圧の増加に見合う分だけ減少させる。この場合、音圧減少に係る他のオブジェクトコンテントは1つまたは複数のいずれかとされる。オブジェクトエンハンサ232は、ステップST14の処理の後、ステップST15において、処理を終了する。
【0129】
また、ステップST12で増加命令でないとき、すなわち減少命令であるとき、オブジェクトエンハンサ232は、ステップST16の処理に移る。このステップST16において、オブジェクトエンハンサ232は、ターゲットコンテント(target_content)のオブジェクトコンテントの音圧を、下限値にないときには、所定幅だけ減少させる。
【0130】
次に、オブジェクトエンハンサ232は、ステップST17において、オブジェクトコンテントの全体の音圧を一定に保つために、ターゲットコンテント(target_content)でない他のオブジェクトコンテントの音圧を増加させる。この場合、上述のターゲットコンテント(target_content)のオブジェクトコンテントの音圧の増加に見合う分だけ減少させる。この場合、音圧減少に係る他のオブジェクトコンテントは1つまたは複数のいずれかとされる。オブジェクトエンハンサ232は、ステップST17の処理の後、ステップST15において、処理を終了する。
【0131】
なお、上述実施の形態においては、オーディオストリームのレイヤおよびコンテナとしてのトランスポートストリームTSのレイヤの双方に、各コンテントグループに対する音圧の増減の許容範囲を示す情報を挿入する例を示した。しかし、この情報を、オーディオストリームのレイヤのみ、あるいはコンテナとしてのトランスポートストリームTSのレイヤのみに挿入することも考えられる。
【0132】
また、上述実施の形態においては、コンテナがトランスポートストリーム(MPEG-2 TS)である例を示した。しかし、本技術は、MP4やそれ以外のフォーマットのコンテナで配信されるシステムにも同様に適用できる。例えば、MPEG-DASHベースのストリーム配信システム、あるいは、MMT(MPEG Media Transport)構造伝送ストリームを扱う送受信システムなどである。
【0133】
図21は、MMTストリームの構造例を示している。MMTストリームには、ビデオ、オーディオ等の各アセットのMMTパケットが存在する。この構造例では、ID1で識別されるビデオのアセットのMMTパケットと共に、ID2で識別されるオーディオのアセットのMMTパケットが存在する。
【0134】
オーディオのアセット(オーディオストリーム)のオーディオフレームに、各コンテントグループに対する音圧の増減の許容範囲を示す情報を持つコンテント・エンハンスメント・フレーム(Content_Enhancement_frame())が挿入される。
【0135】
また、MMTストリームには、PA(Packet Access)メッセージパケットなどのメッセージパケットが存在する。PAメッセージパケットには、MMT・パケット・テーブル(MMT Package Table)などのテーブルが含まれている。MPテーブルには、アセット毎の情報が含まれている。オーディオのアセット(オーディオストリーム)に対応して、各コンテントグループに対する音圧の増減の許容範囲を示す情報を持つオーディオ・コンテント・エンハンスメント・デスクリプタ(Audio_Content_Enhancement descriptor)が配置される。
【0136】
なお、本技術は、以下のような構成もとることができる。
(1)所定数のオブジェクトコンテントの符号化データを持つオーディオストリームを生成するオーディオエンコード部と、
上記オーディオストリームを含む所定フォーマットのコンテナを送信する送信部と、
上記オーディオストリームのレイヤおよび/または上記コンテナのレイヤに、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報を挿入する情報挿入部を備える
送信装置。
(2)上記所定数のオブジェクトコンテントのそれぞれは所定数のコンテントグループのいずれかに属し、
上記情報挿入部は、上記オーディオストリームのレイヤおよび/または上記コンテナのレイヤに、各コンテントグループに対する音圧の増減の許容範囲を示す情報を挿入する
前記(1)に記載の送信装置。
(3)上記オーディオストリームの符号化方式は、MPEG-H 3D Audioであり、
上記情報挿入部は、オーディオフレームに、上記各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報を持つエクステンションエレメントを含める
前記(1)または(2)に記載の送信装置。
(4)上記各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報には、複数のファクターのいずれかを示すファクター選択情報が付加される
前記(1)から(3)のいずれかに記載の送信装置。
(5)所定数のオブジェクトコンテントの符号化データを持つオーディオストリームを生成するオーディオエンコードステップと、
送信部により、上記オーディオストリームを含む所定フォーマットのコンテナを送信する送信ステップと、
上記オーディオストリームのレイヤおよび/または上記コンテナのレイヤに、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報を挿入する情報挿入ステップを有する
送信方法。
(6)所定数のオブジェクトコンテントの符号化データを持つオーディオストリームを含む所定フォーマットのコンテナを受信する受信部と、
ユーザ選択に係るオブジェクトコンテントに対する音圧増減の処理を行う処理部を備える
受信装置。
(7)上記オーディオストリームのレイヤおよび/または上記コンテナのレイヤに、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報が挿入されており、
上記オーディオストリームのレイヤおよび/または上記コンテナのレイヤから、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報を抽出する情報抽出部をさらに備え、
上記処理部は、上記抽出された情報に基づいてユーザ選択に係るオブジェクトコンテントに対する音圧増減を処理する
前記(6)に記載の受信装置。
(8)上記処理部は、
上記ユーザ選択に係るオブジェクトコンテントに対して音圧を増加するとき他のオブジェクトコンテントに対して音圧を減少し、上記ユーザ選択に係るオブジェクトコンテントに対して音圧を減少するとき他のオブジェクトコンテントに対して音圧を増加する
前記(6)または(7)に記載の受信装置。
(9)上記処理部で音圧増減処理されるオブジェクトコンテントの音圧状態を示すUI画面を表示する表示制御部をさらに備える
前記(6)から(8)のいずれかに記載の受信装置。
(10)受信部により、所定数のオブジェクトコンテントの符号化データを持つオーディオストリームを含む所定フォーマットのコンテナを受信する受信ステップと、
ユーザ選択に係るオブジェクトコンテントに対する音圧増減を処理する処理ステップを有する
受信方法。
【0137】
本技術の主な特徴は、オーディオストリームのレイヤおよび/またはコンテナのレイヤに、各オブジェクトコンテントに対する音圧の増減の許容範囲を示す情報を挿入することで、受信側において各オブジェクトコンテントの音圧の増減の調整を許容範囲内で適切に行い得るようにしたことである(
図9、
図10参照)。
【符号の説明】
【0138】
10・・・送受信システム
100・・・サービス送信機
110・・・ストリーム生成部
111・・・制御部
112・・・ビデオエンコーダ
113・・・オーディオエンコーダ
114・・・マルチプレクサ
200・・・サービス受信機
201・・・受信部
202・・・デマルチプレクサ
203・・・ビデオデコード部
204・・・映像処理回路
205・・・パネル駆動回路
206・・・表示パネル
214・・・オーディオデコード部
215・・・音声出力処理回路
216・・・スピーカシステム
221・・・CPU
222・・・フラッシュROM
223・・・DRAM
224・・・内部バス
225・・・リモコン受信部
226・・・リモコン送信機
231・・・デコーダ
232・・・オブジェクトエンハンサ
233・・・オブジェクトレンダラ
234・・・ミキサ