(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-29
(45)【発行日】2024-08-06
(54)【発明の名称】送信装置および送信方法
(51)【国際特許分類】
G10L 19/00 20130101AFI20240730BHJP
G10L 19/008 20130101ALI20240730BHJP
【FI】
G10L19/00 330B
G10L19/00 312E
G10L19/008 100
G10L19/008 200
(21)【出願番号】P 2022212624
(22)【出願日】2022-12-28
(62)【分割の表示】P 2021064035の分割
【原出願日】2016-04-08
【審査請求日】2023-01-13
(31)【優先権主張番号】P 2015089863
(32)【優先日】2015-04-24
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】100093241
【氏名又は名称】宮田 正昭
(74)【代理人】
【識別番号】100101801
【氏名又は名称】山田 英治
(74)【代理人】
【識別番号】100095496
【氏名又は名称】佐々木 榮二
(74)【代理人】
【識別番号】100086531
【氏名又は名称】澤田 俊夫
(74)【代理人】
【識別番号】110000763
【氏名又は名称】弁理士法人大同特許事務所
(72)【発明者】
【氏名】塚越 郁夫
【審査官】山下 剛史
(56)【参考文献】
【文献】特開2014-222853(JP,A)
【文献】特開2014-13400(JP,A)
【文献】特表2008-511848(JP,A)
【文献】米国特許出願公開第2010/0112974(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00-19/26
(57)【特許請求の範囲】
【請求項1】
複数のグループの符号化データを含む所定数のオーディオストリームを生成するオーディオエンコード部と、
上記所定数のオーディオストリームを有する所定フォーマットのコンテナを送信する送信部と、
上記コンテ
ナまたはオーディオストリームに、
受信側において上記複数のグループのうちデコードすべき
と決定されたグループを特定
し、該特定されたグループの符号化データのみを選択的にデコードするコマンドを発生するためのコマンド情報を挿入する情報挿入部を備え
、
上記オーディオエンコード部は、上記所定数のオーディオストリームのうち、少なくとも上記デコードすべきと常に決定されるグループの符号化データを含む一つのオーディオストリームに、上記受信側において発生される上記コマンドを挿入するためのコマンド挿入領域を設ける
送信装置。
【請求項2】
上記コマンド情報は、コマンドとグループの対応関係を示す情報
を含む
請求項1に記載の送信装置。
【請求項3】
上記所定数のオーディオストリームは、一つのメインストリームと所定数のサブストリーム、あるいは一つのメインストリームからなり、
上記オーディオエンコード部は、上記メインストリームに、上記コマンド挿入領域を設ける
請求項1に記載の送信装置。
【請求項4】
上記
メインストリームは、少なくともチャネル符号化データを、上記デコードすべきと常に決定されるグループの符号化データとして含む
請求項3に記載の送信装置。
【請求項5】
複数のグループの符号化データを含む所定数のオーディオストリームを生成するオーディオエンコードステップと、
上記所定数のオーディオストリームを有する所定フォーマットのコンテナを送信する送信ステップと、
上記コンテ
ナまたはオーディオストリームに、
受信側において上記複数のグループのうちデコードすべき
と決定されたグループを特定
し、該特定されたグループの符号化データのみを選択的にデコードするコマンドを発生するためのコマンド情報を挿入する情報挿入ステップを有
し、
上記オーディオエンコードステップでは、上記所定数のオーディオストリームのうち、少なくとも上記デコードすべきと常に決定されるグループの符号化データを含む一つのオーディオストリームに、上記受信側において発生される上記コマンドを挿入するためのコマンド挿入領域を設ける
送信方法。
【発明の詳細な説明】
【技術分野】
【0001】
本技術は、送信装置および送信方法に関する。
【背景技術】
【0002】
従来、立体(3D)音響技術として、符号化サンプルデータをメタデータに基づいて任意の位置に存在するスピーカにマッピングさせてレンダリングする技術が提案されている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
5.1チャネル、7.1チャネルなどのチャネル符号化データと共に、符号化サンプルデータおよびメタデータからなるオブジェクト符号化データを送信し、受信側において臨場感を高めた音響再生を可能とすることが考えられる。
【0005】
本技術の目的は、複数種類のオーディデータを送信する場合にあって受信側の処理負荷を軽減することにある。
【課題を解決するための手段】
【0006】
本技術の概念は、
複数のグループの符号化データを含む所定数のオーディオストリームを生成するオーディオエンコード部と、
上記所定数のオーディオストリームを有する所定フォーマットのコンテナを送信する送信部と、
上記コンテナおよび/またはオーディオストリームに、上記複数のグループのうちデコードすべきグループを特定するコマンドを発生するためのコマンド情報を挿入する情報挿入部を備える
送信装置にある。
【0007】
本技術において、オーディオエンコード部により、複数のグループの符号化データを含む所定数、つまり一つまたは複数のオーディオストリームが生成される。送信部により、所定数のオーディオストリームを有する所定フォーマットのコンテナが送信される。例えば、コンテナは、デジタル放送規格で採用されているトランスポートストリーム(MPEG-2 TS)であってもよい。また、例えば、コンテナは、インターネットの配信などで用いられるMP4、あるいはそれ以外のフォーマットのコンテナであってもよい。
【0008】
情報挿入部により、コンテナおよび/またはオーディオストリームに、複数のグループのうちデコードすべきグループを特定するコマンドを発生するためのコマンド情報が挿入される。例えば、コマンド情報は、コマンドとグループの対応関係を示す情報、あるいはコマンドと所定数のグループの組み合わせからなるプリセットグループの対応関係を示す情報である、ようにされてもよい。
【0009】
このように本技術においては、コンテナおよび/またはオーディオストリームに、複数のグループのうちデコードすべきグループを特定するコマンドを発生するためのコマンド情報が挿入される。そのため、受信側においては、このコマンド情報を参照することで、デコードすべきグループを特定するコマンドの発生処理が容易となる。
【0010】
なお、本技術において、例えば、所定数のオーディオストリームは、メインストリームと所定数のサブストリーム、あるいはメインストリームのみからなり、情報挿入部は、コマンド情報を、メインストリームおよび/またはこのメインストリームに対応したコンテナ位置に挿入する、ようにされてもよい。このようにコマンド情報がメインストリーム等に挿入されることで、受信側ではコマンド情報の取得を容易に行い得る。
【0011】
また、本技術において、例えば、オーディオエンコード部は、複数のオーディオストリームのうち少なくとも一つのオーディオストリームに、デコードすべきグループを特定するコマンドを受信側で挿入するためのコマンド挿入領域を設ける、ようにされてもよい。このようにコマンド挿入領域が予め設けられることで、受信側でオーディオストリームにコマンドを挿入する処理が容易となる。
【0012】
また、本技術の他の概念は、
複数のグループの符号化データを含む所定数のオーディオストリームを生成するオーディオエンコード部と、
上記所定数のオーディオストリームを有する所定フォーマットのコンテナを送信する送信部を備え、
上記オーディオエンコード部は、
上記所定数のオーディオストリームのうち少なくとも一つのオーディオストリームに、デコードすべきグループを特定するためのコマンドを受信側で挿入するためのコマンド挿入領域を設ける
送信装置にある。
【0013】
本技術において、オーディオエンコード部により、複数のグループの符号化データを含む所定数、つまり一つまたは複数のオーディオストリームが生成される。送信部により、所定数のオーディオストリームを有する所定フォーマットのコンテナが送信される。例えば、コンテナは、デジタル放送規格で採用されているトランスポートストリーム(MPEG-2 TS)であってもよい。また、例えば、コンテナは、インターネットの配信などで用いられるMP4、あるいはそれ以外のフォーマットのコンテナであってもよい。
【0014】
オーディオエンコード部では、所定数のオーディオストリームのうち少なくとも一つのオーディオストリームに、デコードすべきグループを特定するためのコマンドを受信側で挿入するためのコマンド挿入領域が設けられる。例えば、所定数のオーディオストリームは、メインストリームと所定数のサブストリーム、あるいはメインストリームのみからなり、オーディオエンコード部は、メインストリームに、コマンド挿入領域を設ける、ようにされてもよい。
【0015】
このように本技術においては、所定数のオーディオストリームのうち少なくとも一つのオーディオストリームに、デコードすべきグループを特定するためのコマンドを受信側で挿入するためのコマンド挿入領域が設けられる。そのため、受信側でオーディオストリームにコマンドを挿入する場合にこのコマンド挿入領域を利用でき、コマンド挿入処理が容易となる。
【0016】
また、本技術の他の概念は、
複数のグループの符号化データを含む所定数のオーディオストリームを有する所定フォーマットのコンテナを受信する受信部と、
上記所定数のオーディオストリームからデコードすべきグループを含む全てのオーディオストリームを取り出し、該取り出された全てのオーディオストリームを統合した一つのオーディオストリームを得るストリーム取得部と、
上記一つのオーディオストリームに含まれる所定数のグループのうちデコードすべきグループを特定するためのコマンドを発生するコマンド発生部と、
上記ストリーム取得部で取得された一つのオーディオストリームに、上記コマンド発生部で発生されたコマンドを挿入するコマンド挿入部と、
上記コマンドが挿入された一つのオーディオストリームを入力し、該一つのオーディオストリームに含まれる所定数のグループのうち上記コマンドで特定されるグループの符号化データにデコード処理を施すオーディオデコード部を備える
受信装置にある。
【0017】
本技術において、受信部により、複数のグループの符号化データを含む所定数のオーディオストリームを有する所定フォーマットのコンテナが受信される。ストリーム取得部により、所定数のオーディオストリームからデコードすべきグループを含む全てのオーディオストリームが取り出され、この取り出された全てのオーディオストリームを統合した一つのオーディオストリームが得られる。この場合、所定数のオーディオストリームが一つのオーディオストリームであるときには、このオーディオストリームがそのまま得られる。
【0018】
コマンド発生部により、一つのオーディオストリームに含まれる所定数のグループのうちデコードすべきグループを特定するためのコマンドが発生される。例えば、コマンド発生部は、ユーザのユーザインタフェース画面上における選択操作に応じたコマンドを発生する、ようにされてもよい。これにより、ユーザは、所望のグループをデコードすべきグループとして選択することが容易に可能となる。
【0019】
コマンド挿入部により、ストリーム取得部で取得された一つのオーディオストリームに、コマンド発生部で発生されたコマンドが挿入される。オーディオデコード部により、一つのオーディオストリームに含まれる所定数のグループのうち、コマンドで特定されるグループの符号化データにデコード処理が施される。
【0020】
このように本技術においては、オーディオストリームにデコードすべきグループを特定するためのコマンドが挿入されてオーディオデコード部に送られる。そのため、オーディオデコード部では、デコードすべきグループの符号化画像データのみを選択的にデコードすることが可能となる。また、この場合、オーディオデコード部にグループの選択処理を行わせるものであり、効率的な処理が可能となる。
【0021】
なお、本技術において、例えば、受信部で受信されたオーディオストリームおよび/またはコンテナに、複数のグループのうちデコードすべきグループを特定するコマンドを発生するためのコマンド情報が挿入されており、コマンド発生部は、コマンド情報を参照してコマンドを発生する、ようにされてもよい。この場合、コマンド情報を参照してコマンドを発生するものであり、デコードすべきグループを特定するコマンドの発生処理が容易となる。
【0022】
また、本技術において、例えば、受信部で受信された所定数のオーディオストリームのうち少なくとも一つのオーディオストリームに、デコードすべきグループを特定するためのコマンドを挿入するためのコマンド挿入領域が設けられており、ストリーム取得部で取得された一つのオーディオストリームは、コマンド挿入領域を有し、コマンド挿入部は、一つのオーディオストリームのコマンド挿入領域にコマンドを挿入する、ようにされてもよい。この場合、予め設けられているコマンド挿入領域にコマンドを挿入するものであり、コマンドを挿入する処理が容易となる。
【発明の効果】
【0023】
本技術によれば、複数種類のオーディデータを送信する場合にあって受信側の処理負荷を軽減することが可能となる。なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
【図面の簡単な説明】
【0024】
【
図1】実施の形態としての送受信システムの構成例を示すブロック図である。
【
図2】3Dオーディオの伝送データにおけるオーディオフレームの構造を示す図である。
【
図3】3Dオーディオの伝送データの構成例を示す図である。
【
図4】各グループの符号化データによる音場再現の一例を概略的に示す図である。
【
図5】3Dオーディオの伝送データを1ストリームで送信する場合および複数ストリームで送信する場合におけるオーディオフレームの構成例を概略的に示す図である。
【
図6】3ストリームで送信する場合におけるグループとストリームの対応関係などを示す図である。
【
図7】コマンド(コマンド識別子:CommandID)とグループ、プリセットグループとの対応関係の一例を示す図である。
【
図8】3Dオーディオの伝送データの他の構成例を示す図である。
【
図9】3ストリームで送信する場合におけるグループとストリームの対応関係などを示す図である。
【
図10】コマンド(コマンド識別子:CommandID)とグループ、プリセットグループとの対応関係の一例を示す図である。
【
図11】ユーザが選択操作を行うためのUI(User Interface)画面の一例を示す図である。
【
図12】サービス送信機が備えるストリーム生成部の構成例を示すブロック図である。
【
図13】3Dオーディオ・ストリーム・コンフィグ・デスクリプタの構造例を示す図(1/2)である。
【
図14】3Dオーディオ・ストリーム・コンフィグ・デスクリプタの構造例を示す図(2/2)である。
【
図15】3Dオーディオ・ストリーム・コンフィグ・デスクリプタの構造例における主要な情報の内容を示す図である。
【
図16】3Dオーディオ・ストリームID・デスクリプタの構造例と、その構造例における主要な情報の内容を示す図である。
【
図17】3Dオーディオ・コマンド・デスクリプタの構造例と、その構造例における主要な情報の内容を示す図である。
【
図18】3Dオーディオの伝送データを3ストリームで送信する場合におけるトランスポートストリームTSの構成例を示す図である。
【
図19】3Dオーディオの伝送データを1ストリームで送信する場合におけるトランスポートストリームTSの構成例を示す図である。
【
図20】サービス受信機の構成例を示すブロック図である。
【
図21】受信オーディオストリームの一例を示す図である。
【
図22】受信オーディオストリームが1ストリームである場合におけるデコード対象の選択処理例を説明するための図である。
【
図23】受信オーディオストリームが3ストリームである場合におけるデコード対象の選択処理例を説明するための図(1/2)である。
【
図24】受信オーディオストリームが3ストリームである場合におけるデコード対象の選択処理例を説明するための図(2/2)である。
【
図25】3Dオーディオデコーダの構成例を示すブロック図である。
【発明を実施するための形態】
【0025】
以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明を以下の順序で行う。
1.実施の形態
2.変形例
【0026】
<1.実施の形態>
[送受信システムの構成例]
図1は、実施の形態としての送受信システム10の構成例を示している。この送受信システム10は、サービス送信機100とサービス受信機200により構成されている。サービス送信機100は、トランスポートストリームTSを、放送波あるいはネットのパケットに載せて送信する。このトランスポートストリームTSは、ビデオストリームと、複数のグループの符号化データを含む所定数、つまり一つまたは複数のオーディオストリームを有している。
【0027】
図2は、この実施の形態で取り扱う3Dオーディオの伝送データにおけるオーディオフレームの構造例を示している。このオーディオフレームは、複数のMPEGオーディオストリームパケット(mpeg Audio Stream Packet)からなっている。各MPEGオーディオストリームパケットは、ヘッダ(Header)とペイロード(Payload)により構成されている。
【0028】
ヘッダは、パケットタイプ(Packet Type)、パケットラベル(Packet Label)、パケットレングス(Packet Length)などの情報を持つ。ペイロードには、ヘッダのパケットタイプで定義された情報が配置される。このペイロード情報には、同期スタートコードに相当する“SYNC”と、3Dオーディオの伝送データの実際のデータである“Frame”と、この“Frame”の構成を示す“Config”が存在する。
【0029】
“Frame”には、3Dオーディオの伝送データを構成するチャネル符号化データとオブジェクト符号化データが含まれる。ここで、チャネル符号化データは、SCE(Single Channel Element)、CPE(Channel Pair Element)、LFE(Low Frequency Element)などの符号化サンプルデータで構成される。また、オブジェクト符号化データは、SCE(Single Channel Element)の符号化サンプルデータと、それを任意の位置に存在するスピーカにマッピングさせてレンダリングするためのメタデータにより構成される。このメタデータは、エクステンションエレメント(Ext_element)として含まれる。
【0030】
図3は、3Dオーディオの伝送データの構成例を示している。この構成例では、1つのチャネル符号化データと4つのオブジェクト符号化データとからなっている。1つのチャネル符号化データは、5.1チャネルのチャネル符号化データ(CD)である。
【0031】
4つのオブジェクト符号化データは、イマーシブオーディオオブジェクト(IAO:Immersive audio object)、スピーチダイアログオブジェクト(SDO:Speech Dialog object)、サウンドオブジェクト(SUO:Sound object)およびオーディオデスクリプションオブジェクト(ADO:Audio Description object)の符号化データである。
【0032】
イマーシブオーディオオブジェクト符号化データは、イマーシブサウンドのためのオブジェクト符号化データである。スピーチダイアログオブジェクト符号化データは、スピーチランゲージのためのオブジェクト符号化データである。この構成例では、第1、第2の言語のそれぞれに対応したスピーチダイアログオブジェクト符号化データが存在する。
【0033】
サウンドオブジェクト符号化データは、サウンドのためのオブジェクト符号化データである。この例では、第1、第2のタイプのそれぞれに対応したサウンドオブジェクト符号化データが存在する。オーディオデスクリプションオブジェクト符号化データは、オーディオデスクリプションのためのオブジェクト符号化データである。この例では、第1、第2のデスクリプションのそれぞれに対応したオーディオデスクリプションオブジェクト符号化データが存在する。
【0034】
符号化データは、種類別にグループ(Group)という概念で区別される。この構成例では、5.1チャネルのチャネル符号化データはグループ1(Group 1)とされ、イマーシブオーディオオブジェクト符号化データはグループ2(Group 2)とされ、第1の言語に係るスピーチダイアログオブジェクト符号化データはグループ3(Group 3)とされ、第2の言語に係るスピーチダイアログオブジェクト符号化データはグループ6(Group 6)とされている。
【0035】
また、この構成例では、第1のタイプに係るサウンドオブジェクト符号化データはグループ4(Group 4)とされ、第2のタイプに係るサウンドオブジェクト符号化データはグループ5(Group 5)とされ、第1のデスクリプションに係るオーディオデスクリプションオブジェクト符号化データはグループ7(Group 7)とされ、第2のデスクリプションに係るオーディオデスクリプションオブジェクト符号化データはグループ8(Group 8)とされる。
【0036】
また、受信側においてグループ間で選択できるものはスイッチグループ(SW Group)に登録されて符号化される。この構成例では、グループ3とグループ6はスイッチグループ1(SW Group 1)とされ、グループ4とグループ5はスイッチグループ2(SW Group 2)とされ、グループ7とグループ8はスイッチグループ3(SW Group 3)とされる。
【0037】
また、グループを束ねてプリセットグループ(preset Group)とされ、ユースケースに応じた再生が可能とされる。この構成例では、グループ1、グループ2、グループ3、グループ4、グループ5およびグループ6が束ねられてプリセットグループ1(preset Group 1)とされ、グループ1、グループ2、グループ3、グループ6、グループ7およびグループ8が束ねられてプリセットグループ2(preset Group 2)とされている。
【0038】
ここで、プリセットグループ1およびプリセットグループ2は、チューブ1(Tube 1)に含まれている。なお、プリセットグループの選択においては、各チューブ(Tube)の中から一つが選択される。
【0039】
図4は、各グループの符号化データによる音場再現の一例を概略的に示している。グループ1のチャネル符号化データにより、シーン状況全般を反映するサウンドが再現される。このサウンドのみがチャネルデータとして対象のスピーカ(SP)位置に対して符号化されている。その他の音声・サウンドは、オブジェクトオーディオとして符号化され、符号化時にはスピーカ位置を特定せずに、視聴環境のスピーカ位置に依存してレンダリングされ、レンダリングされたオーディオがミキシングされて最終的に各スピーカから出力される。
【0040】
グループ2のイマーシブオーディオオブジェクト符号化データにより、シーンの盛り上がりを演出する効果音が再現される。グループ3の第1のランゲージに係るスピーチダイアログオブジェクト符号化データにより、会話音声1が再現される。グループ6の第2のランゲージに係るスピーチダイアログオブジェクト符号化データにより、会話音声2が再現される。
【0041】
第1のタイプに係るサウンドオブジェクト符号化データにより、環境BGM1(background music 1)が再現される。第2のタイプに係るサウンドオブジェクト符号化データにより、環境BGM2(background music 2)が再現される。第1のデスクリプションに係るオーディオデスクリプションオブジェクト符号化データにより、ナレーション1が再現される。第2のデスクリプションに係るオーディオデスクリプションオブジェクト符号化データにより、ナレーション2が再現される。
【0042】
図1に戻って、サービス送信機100は、上述したように複数のグループの符号化データを含む3Dオーディオの伝送データを、1ストリーム、あるいは複数ストリーム(Multiple stream)で送信する。
【0043】
図5(a)は、
図3の3Dオーディオの伝送データの構成例において、1ストリーム(メインストリーム)で送信する場合におけるオーディオフレームの構成例を概略的に示している。この場合、この1ストリームに、“SYNC”および“Config”と共に、チャネル符号化データ(CD)と、イマーシブオーディオオブジェクト符号化データ(IAO)、スピーチダイアログオブジェクト符号化データ(SDO)、サウンドオブジェクト符号化データ(SUO)およびオーディオデスクリプションオブジェクト符号化データ(ADO)が含まれる。
【0044】
図5(b)は、
図3の3Dオーディオの伝送データの構成例において、マルチストリーム、ここでは3ストリームで送信する場合におけるオーディオフレームの構成例を概略的に示している。この場合、メインストリームに、“SYNC”および“Config”と共に、チャネル符号化データ(CD)とイマーシブオーディオオブジェクト符号化データ(IAO)が含まれる。
【0045】
サブストリーム(オグジャリストリーム)1に、“SYNC”および“Config”と共に、スピーチダイアログオブジェクト符号化データ(SDO)およびサウンドオブジェクト符号化データ(SUO)が含まれる。サブストリーム(オグジャリストリーム)2に、“SYNC”および“Config”と共に、スピーチダイアログオブジェクト符号化データ(SDO)およびオーディオデスクリプションオブジェクト符号化データ(ADO)が含まれる。
【0046】
この場合、
図3に示すように、例えば、メインストリームにグループ1,2が含まれ、サブストリーム1にグループ3,4,5が含まれ、サブストリーム2にグループ6,7,8が含まれる。
【0047】
図6は、3ストリームで送信する場合におけるグループとストリームの対応関係などを示している。ここで、グループID(group ID)は、グループを識別するための識別子である。アトリビュート(attribute)は、各グループの符号化データの属性を示している。スイッチグループID(switch Group ID)は、スイッチンググループを識別するための識別子である。プリセットグループID(preset Group ID)は、プリセットグループを識別するための識別子である。ストリームID(Stream ID)は、ストリームを識別するための識別子である。カインド(Kind)は、各グループのコンテンツの種類を示している。
【0048】
図示の対応関係は、グループ1に属する符号化データは、チャネル符号化データであって、スイッチグループを構成しておらず、ストリーム1(メインストリーム)に含まれている、ことを示している。また、図示の対応関係は、グループ2に属する符号化データは、イマーシブオーディオオブジェクト符号化データであって、スイッチグループを構成しておらず、ストリーム1(メインストリーム)に含まれている、ことを示している。
【0049】
また、図示の対応関係は、グループ3に属する符号化データは、第1のランゲージに係るスピーチダイアログオブジェクト符号化データであって、スイッチグループ1を構成しており、ストリーム2(サブストリーム1)に含まれている、ことを示している。また、図示の対応関係は、グループ4に属する符号化データは、第1のタイプに係るサウンドオブジェクト符号化データであって、スイッチグループ2を構成しており、ストリーム2(サブストリーム1)に含まれている、ことを示している。
【0050】
また、図示の対応関係は、グループ5に属する符号化データは、第2のタイプに係るサウンドオブジェクト符号化データであって、スイッチグループ2を構成しており、ストリーム2(サブストリーム1)に含まれている、ことを示している。また、図示の対応関係は、グループ6に属する符号化データは、第2のランゲージに係るスピーチダイアログオブジェクト符号化データであって、スイッチグループ1を構成しており、ストリーム3(サブストリーム2)に含まれている、ことを示している。
【0051】
また、図示の対応関係は、グループ7に属する符号化データは、第1のデスクリプションに係るオーディオデスクリプションオブジェクト符号化データであって、スイッチグループ3を構成しており、ストリーム3(サブストリーム2)に含まれている、ことを示している。また、図示の対応関係は、グループ8に属する符号化データは、第2のデスクリプションに係るオーディオデスクリプションオブジェクト符号化データであって、スイッチグループ3を構成しており、ストリーム3(サブストリーム2)に含まれている、ことを示している。
【0052】
また、図示の対応関係は、プリセットグループ1は、グループ1、グループ2、グループ3、グループ4、グループ5およびグループ6を含む、ことを示している。さらに、図示の対応関係は、プリセットグループ2は、グループ1、グループ2、グループ3、グループ6、グループ7およびグループ8を含む、ことを示している。
【0053】
なお、1ストリームで送信する場合、全てのグループの符号化データがストリーム1(メインストリーム)に含まれることから、
図6における「Stream ID」は全て“1”となる。
【0054】
図1に戻って、サービス送信機100は、コンテナ(トランスポートストリームTS)に、3Dオーディオの伝送データ構成情報、つまり「groupID」と、「attribute」、「switchGroupID」、「presetGroupID」、「StreamID」などとの対応関係(
図6参照)を示す情報を挿入する。また、サービス受信機100は、コンテナに、複数のグループのうちデコードすべきグループを特定するコマンドを発生するためのコマンド情報を挿入する。このコマンド情報は、コマンドとグループの対応関係を示す情報、コマンドとプリセットグループの対応関係を示す情報などである。
【0055】
図7は、コマンド(コマンド識別子:CommandID)とグループ、プリセットグループとの対応関係の一例を示している。コマンドの“1”~“18”の部分は、コマンドとそのコマンドが示すデコード対象とすべきグループ(グループ群)との対応関係を示している。例えば、コマンド“7”は、グループ1,2,3,4,8をデコード対象とすべきことを示す。また、コマンド“19”、“20”の部分は、コマンドとそのコマンドが示すデコード対象とすべきプリセットグループとの対応関係を示している。例えば、コマンド“19”は、プリセットグループ1をデコード対象とすべきことを示す。
【0056】
サービス送信機100は、伝送データ構成情報およびコマンド情報を、例えば、プログラムマップテーブル(PMT:Program Map Table)の配下に存在するメインストリームに対応したオーディオエレメンタリストリームループ内に挿入する。この場合、サービス送信機100は、伝送データ構成情報およびコマンド情報の挿入を、このメインストリームに対応したオーディオエレメンタリストリームループ内に、3Dオーディオ・ストリーム・コンフィグ・デスクリプタ(3Daudio_stream_config_descriptor)を挿入することで行う。勿論、伝送データ構成情報およびコマンド情報を、サブストリームに対応したオーディオエレメンタリストリームループ内にさらに挿入することも可能である。
【0057】
また、サービス送信機100は、コンテナに、所定数のオーディオストリームのそれぞれのストリーム識別子を示すストリーム識別子情報を、例えば、プログラムマップテーブル(PMT:Program Map Table)の配下に存在する所定数のオーディオストリームのそれぞれに対応したオーディオエレメンタリストリームループ内に挿入する。この場合、サービス送信機100は、ストリーム識別子情報の挿入を、各オーディオストリームに対応したオーディオエレメンタリストリームループ内に、3Dオーディオ・ストリームID・デスクリプタ(3Daudio_streamID_descriptor)を挿入することで行う。
【0058】
また、サービス送信機100は、オーディオストリームに、伝送データ構成情報およびコマンド情報を挿入する。サービス送信機100は、伝送データ構成情報およびコマンド情報を、例えば、メインストリームのPESパケットのPESペイロードに挿入する。勿論、伝送データ構成情報およびコマンド情報を、サブストリームPESパケットのPESペイロードにさらに挿入することも可能である。
【0059】
サービス送信機100は、伝送データ構成情報およびコマンド情報の挿入を、
図5(a),(b)に示すように、“SYNC”と“Config”の間に、デスクリプタ情報“Desc”として、3Dオーディオ・ストリーム・コンフィグ・デスクリプタ(3Daudio_stream_config_descriptor)を挿入することで行う。
【0060】
なお、この実施の形態においては、コンテナおよびオーディオストリームの双方に、上述したように伝送データ構成情報およびコマンド情報を挿入する例を示したが、コンテナのみ、あるいはオーディオストリームのみに各情報を挿入することも考えられる。
【0061】
また、サービス送信機100は、所定数のオーディオストリームのうち少なくとも一つのオーディオストリームに、デコードすべきグループを特定するためのコマンド(コマンド識別子:CommandID)を受信側で挿入するためのコマンド挿入領域を設ける。サービス送信機100は、コマンド挿入領域を、例えば、メインストリームのPESパケットのPESペイロードに挿入する。
【0062】
サービス送信機100は、コマンド挿入領域を設けることを、
図5(a),(b)に示すように、“SYNC”と“Config”の間に、デスクリプタ情報“Desc”として、3Dオーディオ・コマンド・デスクリプタ(3Daudio_command_descriptor)を挿入することで行う。
【0063】
図8は、3Dオーディオの伝送データの他の構成例を示している。この構成例では、
図3の3Dオーディオの伝送データの構成例と比べて、プリセットグループの設定が異なっている。その他は同じである。
【0064】
すなわち、この構成例では、グループ1、グループ2およびグループ3が束ねられてプリセットグループ1(preset Group 1)とされ、グループ1、グループ2およびグループ6が束ねられてプリセットグループ2(preset Group 2)とされている。そして、これらのプリセットグループ1およびプリセットグループ2は、チューブ1(Tube 1)に含まれている。
【0065】
また、グループ4およびグループ5が束ねられてプリセットグループ3(preset Group 3)とされ、グループ7およびグループ8が束ねられてプリセットグループ4(preset Group 4)とされている。そして、これらのプリセットグループ3およびプリセットグループ4は、チューブ2(Tube 2)に含まれている。
【0066】
図9は、
図8の3Dオーディオの伝送データの構成例に対応した、3ストリームで送信する場合におけるグループとストリームの対応関係などを示している。プリセットグループID(preset Group ID)の項目部分を除き、
図6と同である。なお、1ストリームで送信する場合、全てのグループの符号化データがストリーム1(メインストリーム)に含まれることから、
図9における「Stream ID」は全て“1”となる。
【0067】
図10は、
図8の3Dオーディオの伝送データの構成例に対応した、コマンド(コマンド識別子:CommandID)とグループ、プリセットグループとの対応関係の一例を示している。プリセットグループとの対応関係部分を除き、
図7と同である。
【0068】
すなわち、コマンド“19”~“24”の部分は、コマンドとそのコマンドが示すデコード対象とすべきプリセットグループとの対応関係を示している。例えば、コマンド“19”は、プリセットグループ1をデコード対象とすべきことを示す。また、例えば、コマンド“21”は、プリセットグループ1およびプリセットグループ3をデコード対象とすべきことを示す。
【0069】
図1に戻って、サービス受信機200は、サービス送信機100から放送波あるいはネットのパケットに載せて送られてくるトランスポートストリームTSを受信する。このトランスポートストリームTSは、上述したように、ビデオストリームの他に、3Dオーディオの伝送データを構成する複数のグループの符号化データを含む所定数のオーディオストリームを有している。コンテナおよび/またはオーディオストリームに、伝送データ構成情報およびコマンド情報が挿入されている。
【0070】
サービス受信機200は、伝送データ構成情報とユーザ選択操作、さらにはシステムの処理機能などに基づいて、デコードすべきグループを決定する。この際、サービス受信機200は、伝送データ構成情報に基づいて、ユーザが選択操作を行うためのUI(User Interface)画面を表示する。ユーザは、このUI画面上で選択操作を行う。
【0071】
図11は、
図3、
図8に示す3Dオーディオの伝送データの構成例に対応したUI画面の一例を示している。ユーザは、グループ1で区別されるチャネル符号化データで再現される「シーン状況全般を反映するサウンド」に関してはユーザ選択不能とされ、グループ1は、デコードすべきグループとして決定される。また、グループ2で区別されるイマーシブオーディオオブジェクト符号化データで再現される「シーンの盛り上がりを演出する効果音」に関してもユーザ選択不能とされ、グループ1は、デコードすべきグループとして決定される。
【0072】
また、グループ3で区別される第1のランゲージに係るスピーチダイアログオブジェクト符号化データで再現される「会話音声1(第1言語)」と、グループ6で区別される第2のランゲージに係るスピーチダイアログオブジェクト符号化データで再現される「会話音声2(第2言語)」に関してはユーザ選択が可能とされる。ユーザが会話音声1の選択操作を行った場合にはグループ3はデコードすべきグループとして決定され、一方、ユーザが会話音声2の選択操作を行った場合にはグループ6はデコードすべきグループとして決定される。
【0073】
また、グループ4で区別される第1のタイプに係るサウンドオブジェクト符号化データで再現される「環境BGM1」と、グループ5で区別される第2のタイプに係るサウンドオブジェクト符号化データで再現される「環境BGM2」に関してはユーザ選択が可能とされる。この場合、「環境BGMなし」も選択肢とされる。
【0074】
ユーザが環境BGM1の選択操作を行った場合にはグループ4はデコードすべきグループとして決定され、一方、ユーザが環境BGM2の選択操作を行った場合にはグループ5はデコードすべきグループとして決定される。また、ユーザが環境BGMなしの選択操作を行った場合には、グループ4,5のいずれもデコードすべきグループとして決定されない。
【0075】
また、グループ7で区別される第1のデスクリプションに係るオーディオデスクリプションオブジェクト符号化データで再現される「ナレーション1」と、グループ8で区別される第2のデスクリプションに係るオーディオデスクリプションオブジェクト符号化データで再現される「ナレーション2」関してはユーザ選択が可能とされる。この場合、「ナレーションなし」も選択肢とされる。
【0076】
ユーザがナレーション1の選択操作を行った場合にはグループ7はデコードすべきグループとして決定され、一方、ユーザがナレーション2の選択操作を行った場合にはグループ8はデコードすべきグループとして決定される。また、ユーザがナレーションなしの選択操作を行った場合には、グループ7,8のいずれもデコードすべきグループとして決定されない。
【0077】
サービス受信機200は、受信された所定数のオーディオストリームから、デコードすべきと決定されたグループを含む全てのオーディオストリームを取り出して統合し、一つのオーディオストリームを取得する。この場合、所定数のオーディオストリームが一つであるときには、このオーディオストリームをそのまま一つのオーディオストリームとなる。
【0078】
受信された所定数のオーディオストリームのうち少なくとも一つのオーディオストリームに、デコードすべきグループを特定するためのコマンド(コマンド識別子:CommandID)を受信側で挿入するためのコマンド挿入領域を設けられている。そのため、この一つのオーディオストリームには、コマンド挿入領域が存在する。
【0079】
サービス受信機200は、この一つのオーディオストリームに、上述したように決定されたデコードすべきグループを特定するためのコマンドを挿入する。この場合、サービス受信機200は、コマンド挿入領域にコマンドを挿入する。
【0080】
サービス受信機200は、挿入すべきコマンドを、例えば、コマンド情報(
図7、
図10参照)を参照して発生する。例えば、デコードすべきグループがグループ1,2,3,4,8であるときには、「CommandID」=“7”を挿入する。なお、サービス受信機200は、挿入すべきコマンドを、コマンド情報に含まれるコマンドを使用せずに、あるいはコマンド情報に含まれるコマンドと共に、コマンドを別途個別に発生させて使用することも可能とされる。
【0081】
サービス受信機200は、コマンドが挿入された一つのオーディオストリームをオーディオデコーダに送って、この一つのオーディオストリームに含まれる所定数のグループのうちコマンドで特定されたデコードすべきグループの符号化データにデコード処理を施し、3Dオーディオのオーディオ出力を得る。
【0082】
[サービス送信機のストリーム生成部]
図12は、サービス送信機100が備えるストリーム生成部110の構成例を示している。このストリーム生成部110は、ビデオエンコーダ112と、オーディオエンコーダ113と、マルチプレクサ114を有している。ここでは、オーディオの伝送データが、
図3、
図8に示すように、1つの符号化チャネルデータと4つのオブジェクト符号化データとからなる例とする。
【0083】
ビデオエンコーダ112は、ビデオデータSVを入力し、このビデオデータSVに対して符号化を施し、ビデオストリーム(ビデオエレメンタリストリーム)を生成する。オーディオエンコーダ113は、オーディオデータSAとして、チャネルデータと共に、イマーシブオーディオ、スピーチダイアログ、サウンドオブジェクトおよびオーディオデスクリプションオブジェクトのオブジェクトデータを入力する。
【0084】
オーディオエンコーダ113は、オーディオデータSAに対して符号化を施し、3Dオーディオの伝送データを得る。この3Dオーディオの伝送データには、
図3、
図8に示すように、チャネル符号化データ(CD)と、イマーシブオーディオオブジェクト符号化データ(IAO)と、スピーチダイアログオブジェクト符号化データ(SDO)と、サウンドオブジェクト符号化データ(SUO)と、オーディオデスクリプションオブジェクト符号化データ(ADO)が含まれる。
【0085】
オーディオエンコーダ113は、複数のグループ、ここでは8つのグループの符号化データ含む1つまたは複数のオーディオストリーム(オーディオエレメンタリストリーム)を生成する(
図5(a),(b)参照)。このとき、オーディオエンコーダ113は、所定数のオーディオストリームのうち少なくとも1つ以上のオーディオストリーム、例えばメインストリームに、伝送データ構成情報およびコマンド情報を挿入し、さらに、コマンド挿入領域を設ける。
【0086】
具体的には、オーディオエンコーダ113は、“SYNC”と“Config”の間に、デスクリプタ情報(“Desc”)として、伝送データ構成情報およびコマンド情報を含む3Dオーディオ・ストリーム・コンフィグ・デスクリプタ(3Daudio_stream_config_descriptor)を挿入し、さらに、コマンド挿入領域を構成する3Dオーディオ・コマンド・デスクリプタ(3Daudio_command_descriptor)を挿入する。
【0087】
マルチプレクサ114は、ビデオエンコーダ112から出力されるビデオストリームおよびオーディオエンコーダ113から出力される所定数のオーディオストリームを、それぞれ、PESパケット化し、さらにトランスポートパケット化して多重し、多重化ストリームとしてのトランスポートストリームTSを得る。
【0088】
このとき、マルチプレクサ114は、コンテナとしてのトランスポートストリームTSに、伝送データ構成情報およびコマンド情報を挿入する。具体的には、マルチプレクサ114は、所定数のオーディオストリームのうち少なくとも1つ以上のオーディオストリーム、例えばメインストリームに対応したオーディオエレメンタリストリームループ内に、3Dオーディオ・ストリーム・コンフィグ・デスクリプタ(3Daudio_stream_config_descriptor)を挿入する。
【0089】
また、マルチプレクサ114は、コンテナとしてのトランスポートストリームTSに、所定数のオーディオストリームのそれぞれのストリーム識別子を示すストリーム識別子情報を挿入する。具体的には、マルチプレクサ114は、所定数のオーディオストリームのそれぞれに対応したオーディオエレメンタリストリームループ内に、3Dオーディオ・ストリームID・デスクリプタ(3Daudio_streamID_descriptor)を挿入する。
【0090】
図12に示すストリーム生成部110の動作を簡単に説明する。ビデオデータは、ビデオエンコーダ112に供給される。このビデオエンコーダ112では、ビデオデータSVに対して符号化が施され、符号化ビデオデータを含むビデオストリームが生成される。このビデオストリームは、マルチプレクサ114に供給される。
【0091】
オーディオデータSAは、オーディオエンコーダ113に供給される。このオーディオデータSAには、チャネルデータと、イマーシブオーディオ、スピーチダイアログ、サウンドオブジェクトおよびオーディオデスクリプションオブジェクトのオブジェクトデータが含まれる。オーディオエンコーダ113では、オーディオデータSAに対して符号化が施され、3Dオーディオの伝送データが得られる。
【0092】
この3Dオーディオの伝送データには、チャネル符号化データ(CD)の他に、イマーシブオーディオオブジェクト符号化データ(IAO)と、スピーチダイアログオブジェクト符号化データ(SDO)と、サウンドオブジェクト符号化データ(SUO)と、オーディオデスクリプションオブジェクト符号化データ(ADO)が含まれる(
図3、
図8参照)。このオーディオエンコーダ113では、8つのグループの符号化データ含む1つまたは複数のオーディオストリームが生成される(
図5(a),(b)参照)。
【0093】
このとき、オーディオエンコーダ113では、“SYNC”と“Config”の間に、デスクリプタ情報(“Desc”)として、伝送データ構成情報およびコマンド情報を含む3Dオーディオ・ストリーム・コンフィグ・デスクリプタ(3Daudio_stream_config_descriptor)が挿入され、さらに、コマンド挿入領域を構成する3Dオーディオ・コマンド・デスクリプタ(3Daudio_command_descriptor)が挿入される。
【0094】
ビデオエンコーダ112で生成されたビデオストリームは、マルチプレクサ114に供給される。また、オーディオエンコーダ113で生成されたオーディオストリームは、マルチプレクサ114に供給される。マルチプレクサ114では、各エンコーダから供給されるストリームがPESパケット化され、さらにトランスポートパケット化されて多重され、多重化ストリームとしてのトランスポートストリームTSが得られる。
【0095】
また、マルチプレクサ114では、例えばメインストリームに対応したオーディオエレメンタリストリームループ内に、伝送データ構成情報およびコマンド情報を含む3Dオーディオ・ストリーム・コンフィグ・デスクリプタ(3Daudio_stream_config_descriptor)が挿入される。また、このマルチプレクサ114では、所定数のオーディオストリームのそれぞれに対応したオーディオエレメンタリストリームループ内に、ストリーム識別子情報を含む3Dオーディオ・ストリームID・デスクリプタ(3Daudio_streamID_descriptor)が挿入される。
【0096】
[3Dオーディオ・ストリーム・コンフィグ・デスクリプタの構造]
図13、
図14は、3Dオーディオ・ストリーム・コンフィグ・デスクリプタ(3Daudio_stream_config_descriptor)の構造例(Syntax)を示している。また、
図15は、その構造例における主要な情報の内容(Semantics)を示している。
【0097】
「descriptor_tag」の8ビットフィールドは、デスクリプタタイプを示す。ここでは、3Dオーディオ・ストリーム・コンフィグ・デスクリプタであることを示す。「descriptor_length」の8ビットフィールドは、デスクリプタの長さ(サイズ)を示し、デスクリプタの長さとして、以降のバイト数を示す。
【0098】
「NumOfGroups, N」の8ビットフィールドは、グループの数Nを示す。「NumOfPresetGroups, P」の8ビットフィールドは、プリセットグループの数Pを示す。「NumOfCommand; Q」の8ビットフィールドは、コマンドの数Qを示す。グループの数Nだけ、「groupID」の8ビットフィールド、「attribute_of_groupID」の8ビットフィールド、「SwitchGroupID」の8ビットフィールド、「audio_streamID」の8ビットフィールドおよび「content_kind」の8ビットフィールドが、繰り返し存在する。
【0099】
「groupID」のフィールドは、グループの識別子を示す。「attribute_of_groupID」のフィールドは、該当グループの符号化データの属性を示す。「SwitchGroupID」のフィールドは、該当グループがどのスイッチグループに属すかを示す識別子である。“0”は、いずれのスイッチグループにも属さないことを示す。“0”以外は、属するスイッチグループを示す。「content_Kind」の8ビットフィールドは、グループのコンテンツの種類を示す。「audio_streamID」は、該当グループが含まれるオーディオストリームを示す識別子である。
【0100】
また、プリセットグループの数Pだけ、「presetGroupID」の8ビットフィールドおよび「NumOfGroups_in_preset, R」の8ビットフィールドが、繰り返し存在する。「presetGroupID」のフィールドは、グループをプリセットした束を示す識別子である。「NumOfGroups_in_preset, R」のフィールドは、プリセットグループに属するグループの数Rを示す。そして、プリセットグループ毎に、それに属するグループの数Rだけ、「groupID」の8ビットフィールドが繰り返し存在し、プリセットグループに属する全てのグループが示される。
【0101】
また、コマンドの数Qだけ、「CommandID」の8ビットフィールド、「selection_type」の1ビットフィールドが繰り返し存在する。「CommandID」のフィールドは、コマンド識別子であり、デコード対象を示す。「selection_type」は、コマンド指定のタイプを示す。“1”は直接グループを指定することを示し、“0”はプリセットグループを指定することで間接的にグループを指定することを示す。
【0102】
「selection_type」が“0”であるとき、つまりデコード対象としてプリセットグループを指定するとき、コマンド毎に、「Max_NumOfPresetGroups_in_command; W」の8ビットフィールドが存在する。このフィールドは、一つのコマンドに含まれるプリセットグループの数Wを示す。ここで、W≦“NumOfTubePresetGroup”の関係になる。なお、“NumOfTubePresetGroup”は、プリセットグループのチューブ(束:Tube)の数を示すもので、同時指定され得るプリセットグループの数に対応する。全てのプリセットグループは、このチューブのいずれかに属することを前提とする。「presetGroupID」の8ビットフィールドを繰り返し配置することで、デコード対象として指定される全てのプリセットグループが示される。
【0103】
また、「selection_type」が“1”であるとき、つまりデコード対象として直接グループを指定するとき、コマンド毎に、「Max_NumOfGroups_in_command; S」の8ビットフィールドが存在する。このフィールドは、一つのコマンドに含まれるグループの数Sを示す。そして、グループの数Sだけ、「groupID」の8ビットフィールドが繰り返し存在し、デコード対象として指定される全てのグループが示される。
【0104】
[3Dオーディオ・ストリームID・デスクリプタの構造]
図16(a)は、3Dオーディオ・ストリームID・デスクリプタ(3Daudio_streamID_descriptor)の構造例(Syntax)を示している。また、
図16(b)は、その構造例における主要な情報の内容(Semantics)を示している。
【0105】
「descriptor_tag」の8ビットフィールドは、デスクリプタタイプを示す。ここでは、3Dオーディオ・ストリームID・デスクリプタであることを示す。「descriptor_length」の8ビットフィールドは、デスクリプタの長さ(サイズ)を示し、デスクリプタの長さとして、以降のバイト数を示す。「audio_streamID」の8ビットフィールドは、オーディオストリームの識別子を示す。
【0106】
[3Dオーディオ・コマンド・デスクリプタの構造]
図17(a)は、3Dオーディオ・コマンド・デスクリプタ(3Daudio_command_descriptor)の構造例(Syntax)を示している。また、
図17(b)は、その構造例における主要な情報の内容(Semantics)を示している。
【0107】
「descriptor_tag」の8ビットフィールドは、デスクリプタタイプを示す。ここでは、3Dオーディオ・コマンド・デスクリプタであることを示す。「descriptor_length」の8ビットフィールドは、デスクリプタの長さ(サイズ)を示し、デスクリプタの長さとして、以降のバイト数を示す。「NumOfCommands, N」の8ビットフィールドは、コマンドの数Nを示す。そして、コマンドの数Nだけ、「CommandID」の8ビットフィールドが繰り返し存在する。
【0108】
なお、サービス送信機100がオーディオストリームに当該3Dオーディオ・コマンド・デスクリプタを挿入する段階では、受信側におけるコマンドの最大挿入数が考慮されて“N”の値が決定されると共に、「CommandID」のフィールドには無効な値、例えばオール0が挿入される。
【0109】
[トランスポートストリームTSの構成]
図18は、3Dオーディオの伝送データをメインストリーム、サブストリーム1、サブストリーム2の3ストリームで送信する場合におけるトランスポートストリームTSの構成例を示している(
図3、
図5(b)参照)。この構成例では、PID1で識別されるビデオストリームのPESパケット「video PES」が存在する。また、この構成例では、PID100,PID200,PID300でそれぞれ識別される3つのオーディオストリームのPESパケット「audio PES」が存在する。PESパケットは、PESヘッダ(PES_header)とPESペイロード(PES_payload)からなっている。
【0110】
PID100で識別されるオーディオストリーム(メインストリーム)のPESパケットのPESペイロード内には、グループ1として区別されるチャネル符号化データ(CD)と、グループ2として区別されるイマーシブオーディオオブジェクト符号化データ(IAO)が含まれる。そして、このPESペイロード内には、3Dオーディオ・ストリーム・コンフィグ・デスクリプタ(3Daudio_stream_config_descriptor)と3Dオーディオ・コマンド・デスクリプタ(3Daudio_command_descriptor)のデスクリプタ情報“Desc”(
図5(b)参照)が挿入される。
【0111】
また、PID200で識別されるオーディオストリーム(サブストリーム1)のPESパケットのPESペイロード内には、グループ3として区別されるスピーチダイアログオブジェクト符号化データ(SDO)と、グループ4,5として区別されるサウンドオブジェクト符号化データ(SUO)が含まれる。また、PID300で識別されるオーディオストリーム(サブストリーム2)のPESパケットのPESパケットのPESペイロード内には、グループ6として区別されるスピーチダイアログオブジェクト符号化データ(SDO)と、グループ7,8として区別されるオーディオデスクリプションオブジェクト符号化データ(ADO)が含まれる。
【0112】
また、トランスポートストリームTSには、PSI(Program Specific Information)として、PMT(Program Map Table)が含まれている。PSIは、トランスポートストリームに含まれる各エレメンタリストリームがどのプログラムに属しているかを記した情報である。PMTには、プログラム全体に関連する情報を記述するプログラム・ループ(Program loop)が存在する。
【0113】
また、PMTには、各エレメンタリストリームに関連した情報を持つエレメンタリストリームループが存在する。この構成例では、ビデオストリームに対応したビデオエレメンタリストリームループ(video ES loop)が存在すると共に、3つのオーディオストリームに対応したオーディオエレメンタリストリームループ(audio ES loop)が存在する
【0114】
ビデオエレメンタリストリームループ(video ES loop)には、ビデオストリームに対応して、ストリームタイプ、PID(パケット識別子)等の情報が配置されると共に、そのビデオストリームに関連する情報を記述するデスクリプタも配置される。このビデオストリームの「Stream_type」の値は「0x24」に設定され、PID情報は、上述したようにビデオストリームのPESパケット「video PES」に付与されるPID1を示すものとされる。
【0115】
各オーディオエレメンタリストリームループ(audio ES loop)には、オーディオストリームに対応して、ストリームタイプ、PID(パケット識別子)等の情報が配置されると共に、そのオーディオストリームに関連する情報を記述するデスクリプタも配置される。メインストリームの「Stream_type」の値は「0x2C」に設定され、PID情報は、上述したようにメインストリームのPESパケット「audio PES」に付与されるPID100を示すものとされる。
【0116】
また、サブストリーム1の「Stream_type」の値は「0x2D」に設定され、PID情報は、上述したようにサブストリーム1のPESパケット「audio PES」に付与されるPID200を示すものとされる。また、サブストリーム2の「Stream_type」の値は「0x2D」に設定され、PID情報は、上述したようにサブストリーム2のPESパケット「audio PES」に付与されるPID300を示すものとされる。
【0117】
メインストリームに対応したオーディオエレメンタリストリームループ(audio ES loop)に、3Dオーディオ・ストリーム・コンフィグ・デスクリプタ(3Daudio_stream_config_descriptor)と3Dオーディオ・ストリームID・デスクリプタ(3Daudio_streamID_descriptor)が配置される。また、サブストリーム1,2に対応したオーディオエレメンタリストリームループ(audio ES loop)に、3Dオーディオ・ストリームID・デスクリプタが配置される。
【0118】
図19は、3Dオーディオの伝送データをメインストリームの1ストリームで送信する場合におけるトランスポートストリームTSの構成例を示している(
図3、
図5(a)参照)。この構成例では、PID1で識別されるビデオストリームのPESパケット「video PES」が存在する。また、この構成例では、PID100で識別される1つのオーディオストリームのPESパケット「audio PES」が存在する。PESパケットは、PESヘッダ(PES_header)とPESペイロード(PES_payload)からなっている。
【0119】
PID100で識別されるオーディオストリーム(メインストリーム)のPESパケットのPESペイロード内には、グループ1として区別されるチャネル符号化データ(CD)と、グループ2として区別されるイマーシブオーディオオブジェクト符号化データ(IAO)と、グループ3,6として区別されるスピーチダイアログオブジェクト符号化データ(SDO)と、グループ4,5として区別されるサウンドオブジェクト符号化データ(SUO)と、グループ7,8として区別されるオーディオデスクリプションオブジェクト符号化データ(ADO)が含まれる。このPESペイロード内には、3Dオーディオ・ストリーム・コンフィグ・デスクリプタと3Dオーディオ・コマンド・デスクリプタのデスクリプタ情報“Desc”(
図5(a)参照)が挿入される。
【0120】
また、PMTには、各エレメンタリストリームに関連した情報を持つエレメンタリストリームループが存在する。この構成例では、ビデオストリームに対応したビデオエレメンタリストリームループ(video ES loop)が存在すると共に、1つのオーディオストリームに対応したオーディオエレメンタリストリームループ(audio ES loop)が存在する
【0121】
ビデオエレメンタリストリームループ(video ES loop)には、ビデオストリームに対応して、ストリームタイプ、PID(パケット識別子)等の情報が配置されると共に、そのビデオストリームに関連する情報を記述するデスクリプタも配置される。このビデオストリームの「Stream_type」の値は「0x24」に設定され、PID情報は、上述したようにビデオストリームのPESパケット「video PES」に付与されるPID1を示すものとされる。
【0122】
オーディオエレメンタリストリームループ(audio ES loop)には、オーディオストリーム(メインストリーム)に対応して、ストリームタイプ、PID(パケット識別子)等の情報が配置されると共に、そのオーディオストリームに関連する情報を記述するデスクリプタも配置される。このオーディオストリームの「Stream_type」の値は「0x2C」に設定され、PID情報は、上述したようにメインストリームのPESパケット「audio PES」に付与されるPID100を示すものとされる。このオーディオエレメンタリストリームループ(audio ES loop)に、3Dオーディオ・ストリーム・コンフィグ・デスクリプタと3Dオーディオ・ストリームID・デスクリプタが配置される。
【0123】
[サービス受信機の構成例]
図20は、サービス受信機200の構成例を示している。このサービス受信機200は、受信部201と、デマルチプレクサ202と、ビデオデコーダ203と、映像処理回路204と、パネル駆動回路205と、表示パネル206を有している。また、このサービス受信機200は、多重化バッファ211-1~211-Nと、コンバイナ212と、コマンド挿入部213と、3Dオーディオデコーダ214と、音声出力処理回路215と、スピーカシステム216を有している。また、このサービス受信機200は、CPU221と、フラッシュROM222と、DRAM223と、内部バス224と、リモコン受信部225と、リモコン送信機226を有している。
【0124】
CPU221は、サービス受信機200の各部の動作を制御する。フラッシュROM222は、制御ソフトウェアの格納およびデータの保管を行う。DRAM223は、CPU221のワークエリアを構成する。CPU221は、フラッシュROM222から読み出したソフトウェアやデータをDRAM223上に展開してソフトウェアを起動させ、サービス受信機200の各部を制御する。
【0125】
リモコン受信部225は、リモコン送信機226から送信されたリモートコントロール信号(リモコンコード)を受信し、CPU221に供給する。CPU221は、このリモコンコードに基づいて、サービス受信機200の各部を制御する。CPU221、フラッシュROM222およびDRAM223は、内部バス224に接続されている。
【0126】
受信部201は、サービス送信機100から放送波あるいはネットのパケットに載せて送られてくるトランスポートストリームTSを受信する。このトランスポートストリームTSは、ビデオストリームの他に、3Dオーディオの伝送データを構成する複数のグループの符号化データを含む所定数のオーディオストリームを有している。
【0127】
図21は、受信されるオーディオストリームの一例を示している。
図21(a)は、1ストリーム(メインストリーム)の例を示している。このメインストリームは、識別子PID100で識別される。このメインストリームには、“SYNC”および“Config”と共に、チャネル符号化データ(CD)、イマーシブオーディオオブジェクト符号化データ(IAO)、スピーチダイアログオブジェクト符号化データ(SDO)、サウンドオブジェクト符号化データ(SUO)およびオーディオデスクリプションオブジェクト符号化データ(ADO)が含まれている(
図3参照)。
【0128】
また、“SYNC”と“Config”の間に、デスクリプタ情報(“Desc”)として、伝送データ構成情報およびコマンド情報を含む3Dオーディオ・ストリーム・コンフィグ・デスクリプタ(
図13、
図14参照)と、コマンド情報を含む3Dオーディオ・コマンド・デスクリプタ(
図17(a)参照)が挿入されている。
【0129】
図21(b)は、マルチストリーム、ここでは3ストリームの例を示している。PID100で識別されるメインストリームに、“SYNC”および“Config”と共に、チャネル符号化データ(CD)およびイマーシブオーディオオブジェクト符号化データ(IAO)が含まれている(
図3参照)。
【0130】
また、PID200で識別されるサブストリーム1に、“SYNC”および“Config”と共に、スピーチダイアログオブジェクト符号化データ(SDO)およびサウンドオブジェクト符号化データ(SUO)が含まれている(
図3参照)。また、PID300で識別されるサブストリーム2に、“SYNC”および“Config”と共に、スピーチダイアログオブジェクト符号化データ(SDO)およびオーディオデスクリプションオブジェクト符号化データ(ADO)が含まれている(
図3参照)。
【0131】
メインストリームには、“SYNC”と“Config”の間に、デスクリプタ情報(“Desc”)として、伝送データ構成情報およびコマンド情報を含む3Dオーディオ・ストリーム・コンフィグ・デスクリプタ(
図13、
図14参照)と、コマンド情報を含む3Dオーディオ・コマンド・デスクリプタ(
図17(a)参照)が挿入されている。
【0132】
デマルチプレクサ202は、トランスポートストリームTSからビデオストリームのパケットを抽出し、ビデオデコーダ203に送る。ビデオデコーダ203は、デマルチプレクサ202で抽出されたビデオのパケットからビデオストリームを再構成し、デコード処理を行って非圧縮のビデオデータを得る。
【0133】
映像処理回路204は、ビデオデコーダ203で得られたビデオデータに対してスケーリング処理、画質調整処理などを行って、表示用のビデオデータを得る。パネル駆動回路205は、映像処理回路204で得られる表示用の画像データに基づいて、表示パネル206を駆動する。表示パネル206は、例えば、LCD(Liquid Crystal Display)、有機ELディスプレイ(organic electroluminescence display)などで構成されている。
【0134】
また、デマルチプレクサ202は、トランスポートストリームTSからデスクリプタ情報などの各種情報を抽出し、CPU221に送る。この各種情報には、上述した3Dオーディオ・ストリーム・コンフィグ・デスクリプタや3Dオーディオ・ストリームID・デスクリプタの情報も含まれる(
図18、
図19参照)。
【0135】
CPU221は、3Dオーディオ・ストリーム・コンフィグ・デスクリプタの情報から、伝送データ構成(
図3、
図8参照)と共に、コマンドとグループ・プリセットグループとの対応関係(
図7、
図10参照)を認識する。また、CPU221は、3Dオーディオ・ストリームID・デスクリプタの情報から、各グループがどのオーディオストリームに含まれているかを認識する。
【0136】
CPU221は、伝送データ構成情報と、ユーザ選択操作、さらにはシステムの処理機能に基づいて、デコードすべきグループを決定し、そのグループを特定するためのコマンド(コマンド識別子:CommandID)を発生する。この場合、CPU221は、伝送データ構成情報に基づいて、ユーザが選択操作を行うためのUI(User Interface)画面を表示する(
図11参照)。ユーザは、このUI画面上で選択操作を行う。
【0137】
また、デマルチプレクサ202は、CPU221の制御のもと、トランスポートストリームTSが有する所定数のオーディオストリームから、デコードすべきと決定されたグループを含む全てのオーディオストリームを、PIDフィルタで選択的に取り出す。なお、所定数のオーディオストリームが1ストリームである場合(
図21(a)参照)、そのオーディオストリームは必ず取り出される。また、所定数のオーディオストリームがマルチストリームである場合(
図21(b)参照)、チャネル符号化データ(CD)が含まれるメインストリームは必ず取り出される。
【0138】
多重化バッファ211-1~211-Nは、それぞれ、デマルチプレクサ202で取り出される各オーディオストリームを取り込む。ここで、多重化バッファ211-1~211-Nの個数Nとしては必要十分な個数とされるが、実際の動作では、デマルチプレクサ202で取り出されるオーディオストリームの数だけ用いられることになる。
【0139】
コンバイナ212は、多重化バッファ211-1~211-Nのうちデマルチプレクサ202で取り出される各オーディオストリームがそれぞれ取り込まれた多重化バッファから、オーディオフレーム毎に、オーディオストリームを読み出して統合して一つのオーディオストリームを得る。この場合、デマルチプレクサ202で取り出されるオーディオストリームが一つであるときには、このオーディオストリームをそのまま一つのオーディオストリームとする。
【0140】
この一つのオーディオストリームには、1ストリーム(メインストリーム)(
図21(a)参照)、あるいはマルチストリームのメインストリーム(
図21(b)参照)と同様に、“SYNC”と“Config”の間に、デスクリプタ情報(“Desc”)として、伝送データ構成情報およびコマンド情報を含む3Dオーディオ・ストリーム・コンフィグ・デスクリプタと、コマンド挿入領域を構成する3Dオーディオ・コマンド・デスクリプタが挿入されている。
【0141】
コマンド挿入部213は、CPU221で発生された、デコードすべきと決定されたグループを特定するためのコマンドを、コンバイナ212で得られた一つのオーディオストリームのコマンド挿入領域に挿入、つまり3Dオーディオ・コマンド・デスクリプタに記述する。
【0142】
CPU221は、デコードすべきと決定されたグループを特定するためのコマンドとして、コマンド情報に含まれるコマンドを発生するか、あるいは、コマンド情報に含まれるコマンドと共に別途個別のコマンドを発生するか、あるいは別途個別のコマンドのみを発生する。
【0143】
例えば、
図3に示す3Dオーディオの伝送データの構成例において、CPU221で、グループ1,2,3,4がデコードすべきグループとして決定された場合を考える。最初に、受信オーディオストリームが1ストリームである場合(
図21(a)参照)におけるデコード対象の選択処理例を説明する。
【0144】
この場合、
図22(a)に示すように、コマンド挿入部213には、受信オーディオストリームであるメインストリームがそのまま供給される。このメインストリームには、グループ1~8の全ての符号化データが含まれている。この場合、CPU221は、
図22(b)に示すように、例えば、コマンド(コマンド識別子:CommandID)として、グループ1,2,3,4をデコード対象として指定する“13” (
図7参照)を一つだけ発生する。
【0145】
あるいは、CPU221は、
図22(b)に示すように、例えば、コマンド(コマンド識別子:CommandID)として、プリセットグループ1をデコード対象として指定する“19” (
図7参照)と、スイッチグループ1はグループ3をデコード対象として指定する個別コマンド“A”と、スイッチグループ2はグループ4をデコード対象として指定する個別コマンド“B”を発生する。
【0146】
そして、コマンド挿入部213は、
図22(c)に示すように、CPU221で発生されたコマンド(コマンド識別子:CommandID)を、3Dオーディオデコーダ214に供給される1つのオーディオストリームのコマンド挿入領域に挿入する。これにより、3Dオーディオデコーダ214には、1つのオーディオストリームに含まれるグループ1~8のうち、デコー対象のグループがグループ1,2,3,4であることが通知される。
【0147】
次に、受信オーディオストリームがマルチストリーム、ここでは3ストリームである場合(
図21(b)参照)におけるデコード対象の選択処理例を説明する。
図23は、デマルチプレクサ202におけるストリーム取り出し処理を示している。デマルチプレクサ202は、CPU221からのストリーム選択信号「Stream select」で取り出し対象として指定されているストリームを取り出す。
【0148】
この場合、メインストリームはグループ1,2が含まれているのでCPU221により取り出し対象として指定され、デマルチプレクサ202ではこのメインストリームが取り出される。また、サブストリーム1はグループ3,4が含まれているのでCPU221により取り出し対象として指定され、デマルチプレクサ202ではこのサブストリーム1も取り出される。
【0149】
コマンド挿入部213には、
図24(a)に示すように、デマルチプレクサ202で取り出されたメインストリームおよびサブストリーム1を統合して得られた一つのオーディオストリームが供給される。この場合、CPU221は、
図24(b)に示すように、例えば、コマンド(コマンド識別子:CommandID)として、グループ1,2,3,4をデコード対象として指定する“13” (
図7参照)を一つだけ発生する。あるいは、CPU221は、
図24(b)に示すように、例えば、スイッチグループ2はグループ4をデコード対象として指定する個別コマンド“B”を発生する。
【0150】
そして、コマンド挿入部213は、
図24(c)に示すように、CPU221で発生されたコマンド(コマンド識別子:CommandID)を、3Dオーディオデコーダ214に供給される1つのオーディオストリームのコマンド挿入領域に挿入する。これにより、3Dオーディオデコーダ214には、1つのオーディオストリームに含まれるグループ1~5のうち、デコー対象のグループがグループ1,2,3,4であることが通知される。
【0151】
図20に戻って、3Dオーディオデコーダ214は、コマンド挿入部213を介して供給される一つのオーディオストリームに含まれる複数のグループの符号化データのうち、挿入されているコマンドによってデコード対象として指定されているグループの符号化データに対してデコード処理を施し、各スピーカを駆動するためのオーディオデータを得る。
【0152】
この場合、3Dオーディオデコーダ214は、チャネル符号化データをデコードするときは、スピーカシステム216のスピーカ構成へのダウンミックスやアップミックスの処理を行って、各スピーカを駆動するためのオーディオデータを得る。また、3Dオーディオデコーダ214は、オブジェクト符号化データをデコードするときは、オブジェクト情報(メタデータ)に基づきスピーカレンダリング(各スピーカへのミキシング割合)を計算し、その計算結果に応じて、オブジェクトのオーディオデータを、各スピーカを駆動するためのオーディオデータにミキシングする。
【0153】
音声出力処理回路215は、3Dオーディオデコーダ214で得られた各スピーカを駆動するためのオーディオデータに対して、D/A変換や増幅等の必要な処理を行って、スピーカシステム216に供給する。スピーカシステム216は、複数チャネル、例えば2チャネル、5.1チャネル、7.1チャネル、22.2チャネルなどの複数のスピーカを備える。
【0154】
図25は、3Dオーディオデコーダ214の構成例を示している。3Dオーディオデコーダ214は、オーディオトランスポート(Audio transport)解析部214aと、コンフィグ(Config)処理部214bと、フレーム(Frame)選択部214cと、フレーム(Frame)デコード部214dと、レンダリング/ミキシング(Rendering /Mixing)部214eを有している。
【0155】
オーディオトランスポート解析部214aは、オーディオストリームのパケット解析を行ってデスクリプタのパケットを抜き出し、さらにコマンド解析を行ってデコード対象のグループの情報を得る。コンフィグ処理部214bは、コンフィグ(Config)パケットで供給されるオーディオ・シーン・インフォ(AudioSceneInfo)の情報、つまりグループID(GroupID)、スイッチグループID(SwitchGroupID)、プリセットグループID(PresetGroupID)などと照合して、デコード対象となるフレームの選択を行って、フレームデコード部214dに通知する。
【0156】
フレームデコード部214dは、デコード対象のフレームの符号化データに対してデコード処理を行う。レンダリング/ミキシング部214eは、フレームデコード部214dで得られるデコード出力を用いてレンダリング・ミキシングなどの処理を行って、各スピーカを駆動するためのオーディオデータ(非圧縮オーディオ)を得る。
【0157】
図20に示すサービス受信機200の動作を簡単に説明する。受信部201では、サービス送信機100から放送波あるいはネットのパケットに載せて送られてくるトランスポートストリームTSが受信される。このトランスポートストリームTSは、ビデオストリームの他に、3Dオーディオの伝送データを構成する複数のグループの符号化データを含む所定数のオーディオストリームを有している。このトランスポートストリームTSは、デマルチプレクサ202に供給される。
【0158】
デマルチプレクサ202では、トランスポートストリームTSからビデオストリームのパケットが抽出され、ビデオデコーダ203に供給される。ビデオデコーダ203では、デマルチプレクサ202で抽出されたビデオのパケットからビデオストリームが再構成され、デコード処理が行われて、非圧縮のビデオデータが得られる。このビデオデータは、映像処理回路204に供給される。
【0159】
映像処理回路204では、ビデオデコーダ203で得られたビデオデータに対してスケーリング処理、画質調整処理などが行われて、表示用のビデオデータが得られる。この表示用のビデオデータはパネル駆動回路205に供給される。パネル駆動回路205では、表示用のビデオデータに基づいて、表示パネル206を駆動することが行われる。これにより、表示パネル206には、表示用のビデオデータに対応した画像が表示される。
【0160】
また、デマルチプレクサ202では、トランスポートストリームTSからデスクリプタ情報などの各種情報が抽出され、CPU221に送られる。この各種情報には、データ構成情報およびコマンド情報が含まれる3Dオーディオ・ストリーム・コンフィグ・デスクリプタ、ストリーム識別子情報が含まれる3Dオーディオ・ストリームID・デスクリプタの情報も含まれる(
図18、
図19参照)。
【0161】
CPU221では、3Dオーディオ・ストリーム・コンフィグ・デスクリプタの情報から、伝送データ構成(
図3、
図8参照)と共に、コマンドとグループ・プリセットグループとの対応関係(
図7、
図10参照)が認識される。また、CPU221では、3Dオーディオ・ストリームID・デスクリプタの情報から、各グループがどのオーディオストリームに含まれているかが認識される。
【0162】
CPU221では、伝送データ構成情報と、ユーザ選択操作、さらにはシステムの処理機能などに基づいて、デコードすべきグループが決定され、そのグループを特定するためのコマンド(コマンド識別子:CommandID)が発生される。この場合、CPU221の制御により、例えば、表示パネル206に、ユーザが選択操作を行うためのUI(User Interface)画面が表示される(
図11参照)。
【0163】
また、デマルチプレクサ202では、CPU221の制御のもと、トランスポートストリームTSが有する所定数のオーディオストリームから、デコードすべきと決定されたグループを含む全てのオーディオストリームが、PIDフィルタで選択的に取り出される。この場合、CPU221からデマルチプレクサ202に、ストリーム選択信号「Stream select」が供給され、取り出し対象のストリームが指定される。
【0164】
デマルチプレクサ202で取り出されたオーディオストリームは、多重化バッファ211-1~211-Nのうち対応する多重化バッファに取り込まれる。コンバイナ212では、オーディオストリームが取り込まれた各多重化バッファから、オーディオフレーム毎に、オーディオストリームが読み出され、一つのオーディオストリームに統合される。この一つのオーディオストリームは、コマンド挿入部213に供給される。
【0165】
コマンド挿入部213では、CPU221で発生された、デコードすべきと決定されたグループを特定するためのコマンドが、コンバイナ212で得られた一つのオーディオストリームのコマンド挿入領域に挿入される。この場合、コンバイナ212で得られた一つのオーディオストリームに挿入されている3Dオーディオ・コマンド・デスクリプタに、コマンド(コマンド識別子:CommandID)が記述される。
【0166】
コマンド挿入がされた一つのオーディオストリームは、3Dオーディオデコーダ214に供給される。この3Dオーディオデコーダ214では、この一つのオーディオストリームに含まれる複数のグループの符号化データのうち、挿入されているコマンドによってデコード対象として指定されているグループの符号化データに対してデコード処理が施され、各スピーカを駆動するためのオーディオデータが得られる。
【0167】
この各スピーカを駆動するためのオーディオデータは、音声処理回路215に供給される。音声出力処理回路215では、このオーディオデータに対して、D/A変換や増幅等の必要な処理が行われる。そして、処理後のオーディオデータはスピーカシステム216に供給される。これにより、スピーカシステム216からは表示パネル206の表示画像に対応した音響出力が得られる。
【0168】
上述したように、
図1に示す送受信システム10において、サービス送信機100は、コンテナ(トランスポートストリームTS)に、複数のグループのうちデコードすべきグループを特定するコマンドを発生するためのコマンド情報を挿入する。そのため、受信側においては、このコマンド情報を参照することで、デコードすべきグループを特定するコマンドの発生処理が容易となる。
【0169】
また、
図1に示す送受信システム10において、サービス送信機100は、所定数のオーディオストリームのうち少なくとも一つのオーディオストリームに、デコードすべきグループを特定するためのコマンドを受信側で挿入するためのコマンド挿入領域を設ける。そのため、受信側でオーディオストリームにコマンドを挿入する場合にこのコマンド挿入領域を利用でき、コマンド挿入処理が容易となる。
【0170】
また、
図1に示す送受信システム10において、サービス受信機200は、オーディオストリームにデコードすべきグループを特定するためのコマンドを挿入して3Dオーディオデコーダ214に送る。そのため、3Dオーディオデコーダ214では、デコードすべきグループの符号化画像データのみを選択的にデコードすることが可能となる。
【0171】
この場合、コンバイナ212にグループの選択処理を行わせるものではなく、効率的な処理が可能となる。つまり、オーディオフレーム(Audio Frame)よりも中に入り込んで、グループ情報やグループ間の境界を見つける処理は、3Dオーディオデコーダ214に任せる方が効率的に行える。
【0172】
<2.変形例>
なお、上述実施の形態において、伝送データ構成情報およびコマンド情報を含む3Dオーディオ・ストリーム・コンフィグ・デスクリプタをコンテナ(トランスポートストリームTS)の他に、オーディオストリームにも挿入して送信する例を示したが、いずれか一方のみに挿入して送信することも考えられる。
【0173】
また、上述実施の形態においては、オーディオストリームにコマンド挿入領域を挿入して送信する例を示した。しかし、これに限定されるものではなく、受信側でコマンド挿入領域を設けてコマンドを挿入することも考えられる。
【0174】
また、上述実施の形態においては、複数のグループの符号化データに、チャネル符号化データおよびオブジェクト符号化データの双方が含まれる例を示した(
図3、
図8参照)。しかし、本技術は、複数のグループの符号化データに、チャネル符号化データのみ、あるいはオブジェクト符号化データのみが含まれる場合にも同様に適用できる。
【0175】
また、上述実施の形態においては、コンテナがトランスポートストリーム(MPEG-2 TS)である例を示した。しかし、本技術は、MP4やそれ以外のフォーマットのコンテナで配信されるシステムにも同様に適用できる。例えば、MPEG-DASHベースのストリーム配信システム、あるいは、MMT(MPEG Media Transport)構造伝送ストリームを扱う送受信システムなどである。
【0176】
なお、本技術は、以下のような構成もとることができる。
(1)複数のグループの符号化データを含む所定数のオーディオストリームを生成するオーディオエンコード部と、
上記所定数のオーディオストリームを有する所定フォーマットのコンテナを送信する送信部と、
上記コンテナおよび/またはオーディオストリームに、上記複数のグループのうちデコードすべきグループを特定するコマンドを発生するためのコマンド情報を挿入する情報挿入部を備える
送信装置。
(2)上記コマンド情報は、コマンドとグループの対応関係を示す情報、あるいはコマンドと所定数のグループの組み合わせからなるプリセットグループの対応関係を示す情報である
前記(1)に記載の送信装置。
(3)上記所定数のオーディオストリームは、メインストリームと所定数のサブストリーム、あるいはメインストリームのみからなり、
上記情報挿入部は、
上記コマンド情報を、上記メインストリームおよび/または該メインストリームに対応したコンテナ位置に挿入する
前記(1)または(2)に記載の送信装置。
(4)上記オーディオエンコード部は、
上記複数のオーディオストリームのうち少なくとも一つのオーディオストリームに、デコードすべきグループを特定するコマンドを受信側で挿入するためのコマンド挿入領域を設ける
前記(1)から(3)のいずれかに記載の送信装置。
(5)複数のグループの符号化データを含む所定数のオーディオストリームを生成するオーディオエンコードステップと、
送信部により、上記所定数のオーディオストリームを有する所定フォーマットのコンテナを送信する送信ステップと、
上記コンテナおよび/またはオーディオストリームに、上記複数のグループのうちデコードすべきグループを特定するコマンドを発生するためのコマンド情報を挿入する情報挿入ステップを有する
送信方法。
(6)複数のグループの符号化データを含む所定数のオーディオストリームを生成するオーディオエンコード部と、
上記所定数のオーディオストリームを有する所定フォーマットのコンテナを送信する送信部を備え、
上記オーディオエンコード部は、
上記所定数のオーディオストリームのうち少なくとも一つのオーディオストリームに、デコードすべきグループを特定するためのコマンドを受信側で挿入するためのコマンド挿入領域を設ける
送信装置。
(7)上記所定数のオーディオストリームは、メインストリームと所定数のサブストリーム、あるいはメインストリームのみからなり、
上記オーディオエンコード部は、
上記メインストリームに、上記コマンド挿入領域を設ける
前記6に記載の送信装置。
(8)複数のグループの符号化データを含む所定数のオーディオストリームを生成するオーディオエンコードステップと、
送信部により、上記所定数のオーディオストリームを有する所定フォーマットのコンテナを送信する送信ステップを有し、
上記オーディオエンコードステップでは、
上記所定数のオーディオストリームのうち少なくとも一つのオーディオストリームに、デコードすべきグループを特定するためのコマンドを受信側で挿入するためのコマンド挿入領域を設ける
送信方法。
(9)複数のグループの符号化データを含む所定数のオーディオストリームを有する所定フォーマットのコンテナを受信する受信部と、
上記所定数のオーディオストリームからデコードすべきグループを含む全てのオーディオストリームを取り出し、該取り出された全てのオーディオストリームを統合した一つのオーディオストリームを得るストリーム取得部と、
上記一つのオーディオストリームに含まれる所定数のグループのうちデコードすべきグループを特定するためのコマンドを発生するコマンド発生部と、
上記ストリーム取得部で取得された一つのオーディオストリームに、上記コマンド発生部で発生されたコマンドを挿入するコマンド挿入部と、
上記コマンドが挿入された一つのオーディオストリームを入力し、該一つのオーディオストリームに含まれる所定数のグループのうち上記コマンドで特定されるグループの符号化データにデコード処理を施すオーディオデコード部を備える
受信装置。
(10)上記コマンド発生部は、
ユーザのユーザインタフェース画面上における選択操作に応じたコマンドを発生する
前記(9)に記載の受信装置。
(11)上記受信部で受信されたオーディオストリームおよび/またはコンテナに、上記複数のグループのうちデコードすべきグループを特定するコマンドを発生するためのコマンド情報が挿入されており、
上記コマンド発生部は、上記コマンド情報を参照してコマンドを発生する
前記(9)または(10)に記載の受信装置。
(12)上記受信部で受信された所定数のオーディオストリームのうち少なくとも一つのオーディオストリームに、デコードすべきグループを特定するためのコマンドを挿入するためのコマンド挿入領域が設けられており、
上記ストリーム取得部で取得された一つのオーディオストリームは、上記コマンド挿入領域を有し、
上記コマンド挿入部は、
上記一つのオーディオストリームの上記コマンド挿入領域に上記コマンドを挿入する
前記(9)から(11)のいずれかに記載の受信装置。
(13)受信部により、複数のグループの符号化データを含む所定数のオーディオストリームを有する所定フォーマットのコンテナを受信する受信ステップと、
上記所定数のオーディオストリームからデコードすべきグループを含む全てのオーディオストリームを取り出し、該取り出された全てのオーディオストリームを統合した一つのオーディオストリームを得るストリーム取得ステップと、
上記一つのオーディオストリームに含まれる所定数のグループのうちデコードすべきグループを特定するためのコマンドを発生するコマンド発生ステップと、
上記ストリーム取得ステップで取得された一つのオーディオストリームに、上記コマンド発生ステップで発生されたコマンドを挿入するコマンド挿入部と、
上記コマンドが挿入された一つのオーディオストリームを入力し、該一つのオーディオストリームに含まれる所定数のグループのうち上記コマンドで特定されるグループの符号化データにデコード処理を施すオーディオデコードステップを有する
受信方法。
【0177】
本技術の主な特徴は、コンテナおよび/またはオーディオストリームに、複数のグループのうちデコードすべきグループを特定するコマンドを発生するためのコマンド情報を挿入することで、受信側におけるデコードすべきグループを特定するコマンドの発生処理を容易としたことである(
図18、
図19参照)。また、本技術の主な特徴は、所定数のオーディオストリームのうち少なくとも一つのオーディオストリームに、デコードすべきグループを特定するためのコマンドを受信側で挿入するためのコマンド挿入領域を設けることで、受信側におけるコマンド挿入処理を容易としたことである(
図5参照)。また、本技術の主な特徴は、オーディオストリームにデコードすべきグループを特定するためのコマンドを挿入して3Dオーディオデコーダに送る構成としたことで、受信側のグループ選択処理の効率化を図ったことである(
図20、
図25参照)。
【符号の説明】
【0178】
10・・・送受信システム
100・・・サービス送信機
110・・・ストリーム生成部
112・・・ビデオエンコーダ
113・・・オーディオエンコーダ
114・・・マルチプレクサ
200・・・サービス受信機
201・・・受信部
202・・・デマルチプレクサ
203・・・ビデオデコーダ
204・・・映像処理回路
205・・・パネル駆動回路
206・・・表示パネル
211-1~211-N・・・多重化バッファ
212・・・コンバイナ
213・・・コマンド挿入部
214・・・3Dオーディオデコーダ
214a・・・オーディオトランスポート解析部
214b・・・コンフィグ処理部
214c・・・フレーム選択部
214d・・・フレームデコード部
214e・・・レンダリング/ミキシング部
215・・・音声出力処理回路
216・・・スピーカシステム
221・・・CPU
222・・・フラッシュROM
223・・・DRAM
224・・・内部バス
225・・・リモコン受信部
226・・・リモコン送信機