【文献】
Advanced video coding for generic audiovisual services,Recommendation ITU−T H.264,H.264(01/2012),ITU−T,2012年1月,pp.399−400[G.7.3.1.1 NAL unit header SVC extension syntax],410−412[G.7.4.1.1 NAL unit header SVC extension semantics]
(58)【調査した分野】(Int.Cl.,DB名)
動画像データを構成する各ピクチャの画像データを被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように階層符号化し、それぞれに所属階層を識別するための階層識別情報が付加された、各階層のピクチャの符号化画像データを持つビデオストリームを生成する画像符号化部と、
上記ビデオストリームを含むと共に、該ビデオストリームに対応して、最下位の階層のピクチャのフレーム周波数情報および上記複数の階層の数を示す階層数情報を持つデスクリプタを含むトランスポートストリームを送信する送信部を備える
送信装置。
画像符号化部が、動画像データを構成する各ピクチャの画像データを被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように階層符号化し、それぞれに所属階層を識別するための階層識別情報が付加された、各階層のピクチャの符号化画像データを持つビデオストリームを生成する画像符号化ステップと、
送信部が、上記ビデオストリームを含むと共に、該ビデオストリームに対応して、最下位の階層のピクチャのフレーム周波数情報および上記複数の階層の数を示す階層数情報を持つデスクリプタを含むトランスポートストリームを送信する送信ステップを有する
送信方法。
動画像データを構成する各ピクチャの画像データを被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように階層符号化されて生成された、それぞれに所属階層を識別するための階層識別情報が付加された、各階層のピクチャの符号化画像データを持つビデオストリームを含むと共に、該ビデオストリームに対応して、最下位の階層のピクチャのフレーム周波数情報および上記複数の階層の数を示す階層数情報を持つデスクリプタを含むトランスポートストリームを受信する受信部と、
上記デスクリプタが持つ情報に基づいて、上記ビデオストリームから選択的に所定階層以下の階層のピクチャの符号化画像データを取り出して復号化する処理部を備える
受信装置。
受信部が、動画像データを構成する各ピクチャの画像データを被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように階層符号化されて生成された、それぞれに所属階層を識別するための階層識別情報が付加された、各階層のピクチャの符号化画像データを持つビデオストリームを含むと共に、該ビデオストリームに対応して、最下位の階層のピクチャのフレーム周波数情報および上記複数の階層の数を示す階層数情報を持つデスクリプタを含むトランスポートストリームを受信する受信ステップと、
処理部が、上記デスクリプタが持つ情報に基づいて、上記ビデオストリームから選択的に所定階層以下の階層のピクチャの符号化画像データを取り出して復号化する処理ステップを有する
受信方法。
【発明を実施するための形態】
【0027】
以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明は以下の順序で行う。
1.実施の形態
2.変形例
【0028】
<1.実施の形態>
[TV送受信システム]
図1は、実施の形態としてのTV(Television)送受信システム10の構成例を示している。このTV送受信システム10は、TV送信機100と、TV受信機200を有する構成とされている。
【0029】
TV送信機100は、コンテナとしてのトランスポートストリームTSを放送波に載せて送信する。このトランスポートストリームTSには、動画像データを構成する各ピクチャの画像データが複数の階層に分類され、各階層の画像データの符号化データを持つ単一のビデオストリームが含まれる。この場合、例えば、H.264/AVCなどの符号化が施され、被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように符号化される。
【0030】
この場合、最下位の階層を除き、各階層の所属ピクチャが、下位の全ての階層の所属ピクチャと同数であり、かつ、下位の全ての階層の所属ピクチャの時間的中央に位置するように、動画像データを構成する各ピクチャの画像データが複数の階層に分類される。このような分類では、階層を1つ上げる毎にフレーム周波数が2倍となるので、受信側では、最下位の階層のピクチャのフレーム周波数情報のみで、各階層におけるフレーム周波数を容易に認識可能となる。
【0031】
符号化された各階層の画像データに、ピクチャ毎に、所属階層を識別するための階層識別情報が付加される。この実施の形態においては、各ピクチャのNALユニット(nal_unit)のヘッダ部分に、階層識別情報(temporal_id)が配置される。このように階層識別情報が付加されることで、受信側では、所定階層以下の階層の符号化画像データを選択的に取り出すことを良好に行うことができる。
【0032】
トランスポートストリームTSに、最下位の階層のピクチャのフレーム周波数情報および複数の階層の数を示す階層数情報が挿入される。これらの情報は、トランスポートレイヤあるいはビデオレイヤに挿入される。例えば、これらの情報は、プログラム・マップ・テーブル(PMT:Program Map Table)の配下のビデオエレメンタリ・ループの配下の記述子に挿入される。また、例えば、これらの情報は、アクセスユニットの“SEIs”の部分にSEIメッセージとして挿入される。このようにフレーム周波数情報および階層数情報が挿入されることで、受信側では、これらの情報を容易に取得することが可能となる。
【0033】
TV受信機200は、TV送信機100から放送波に載せて送られてくる上述のトランスポートストリームTSを受信する。TV受信機200は、このトランスポートストリームTSに含まれるビデオストリームから選択的に所定階層以下の階層の符号化画像データを取り出して符号化し、各ピクチャの画像データを取得して、画像再生を行う。この場合、復号化された各ピクチャの画像データによる画像再生速度は、所定階層のピクチャのフレーム周波数に合致するように調整される。
【0034】
トランスポートストリームTSに、上述したように、最下位の階層のピクチャのフレーム周波数情報および複数の階層の数を示す階層数情報が挿入されている。TV受信機200では、これらの情報と自己の復号能力に基づいて、復号化階層が制御され、また、画像再生速度が制御される。
【0035】
[TV送信機の構成例]
図2は、TV送信機100の構成例を示している。このTV送信機100は、源動画データ供給部101と、復号装置102と、階層分類部103と、画像符号化部104と、音声符号化部105と、多重化部106と、付加情報発生部107と、変調/送信アンテナ部108を有している。
【0036】
源動画データ供給部101は、例えばHDD(Hard Disk Drive)等に業務用に適切な圧縮形式で格納されて源動画データ(画像データ、音声データ)を取り出し、復号装置102に供給する。復号装置102は、源動画データを復号し、非圧縮画像データおよび非圧縮音声データを出力する。
【0037】
階層分類部103は、非圧縮画像データを構成する各ピクチャの画像データを複数の階層に分類する。例えば、図示のように、第1階層、第2階層、第3階層の3階層に分類する。ここで、階層分類部103は、最下位の階層を除き、各階層の所属ピクチャが、下位の全ての階層の所属ピクチャと同数であり、かつ、下位の全ての階層の所属ピクチャの時間的中央に位置するように、分類する。
【0038】
画像符号化部104は、分類された各階層の画像データを符号化し、符号化された各階層の画像データを持つビデオストリーム(ビデオエレメンタリストリーム)を生成する。ここで、画像符号化部104は、例えば、H.264/AVCなどの符号化を行って、被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように、符号化する。
【0039】
図3は、階層分類および画像符号化の一例を示している。この例は、各ピクチャの画像データを第1階層から第3階層までの3階層に分類する例である。この例において、Iピクチャ(Intra picture)およびPピクチャ(Predictive picture)は第1階層に所属するようにされる。Iピクチャは他ピクチャを参照せず、またPピクチャはIピクチャまたはPピクチャしか参照しない。そのため、第1階層は、第1階層ピクチャだけで復号可能となる。
【0040】
また、第1階層の各ピクチャの時間的中央位置にBピクチャ(Bi-directional predictive picture)が配置され、それらは第2階層に所属するようにされる。この第2階層のBピクチャは、第2階層および/または第1階層の合成階層所属のピクチャしか参照しないように符号化される。
【0041】
この例においては、この第2階層のBピクチャは、第1階層のIピクチャおよびPピクチャのみを参照するようにされている。そのため、第2階層は、第1、第2の合成階層だけで復号可能となる。また、第1階層のみ復号した場合に比べて、第1、第2の合成階層を復号した場合は、フレーム周波数は2倍となる。
【0042】
また、第1、第2の合成階層の各ピクチャの時間的中央位置にBピクチャが配置され、それらは第3階層に所属するようにされる。この第3階層のBピクチャは、第3階層および/または第1、第2の合成階層所属のピクチャのみ参照するようにされている。そのため、第3階層は、第1〜第3の合成階層だけで復号可能となる。また、第1、第2の合成階層のみ復号した場合に比べて、第1〜第3の合成階層を復号した場合は、フレーム周波数は2倍となる。
【0043】
図3において、破線は、ピクチャの参照関係を示している。第1階層のPピクチャは、直前のIピクチャまたはPピクチャのみを参照している。第2階層のBピクチャは、第1階層の直前および直後のIピクチャまたはPピクチャのみを参照している。第3階層のBピクチャは、第1、第2の合成階層の直前および直後のIピクチャ、PピクチャまたはBピクチャのみを参照している。
【0044】
画像符号化部104は、符号化された各階層の画像データに、ピクチャ毎に、所属階層を識別するための階層識別情報を付加する。すなわち、画像符号化部104は、各ピクチャのNALユニット(nal_unit)のヘッダ部分に、階層識別情報(temporal_id)を配置する。
【0045】
図4は、階層識別情報(temporal_id)の配置位置を表している。すなわち、階層識別情報(temporal_id)は、例えば、NALユニットヘッダのSVC拡張(Header svc extension )に配置される。そして、
図3に示すように、第1階層所属ピクチャには「temporal_id=0」が割り当てられ、第2階層所属ピクチャには「temporal_id=1」が割り当てられ、第3階層所属ピクチャには「temporal_id=2」が割り当てられる。
【0046】
図3の例において、第1階層のみのフレーム周波数が30fpsのとき、第1、第2の合成階層のフレーム周波数は60fpsとなり、第1〜第3の合成階層のフレーム周波数は120fpsとなる。また、図示されていないが、以下同様に第4階層、第5階層と構築することが可能である。
【0047】
図2に戻って、音声符号化部105は、非圧縮音声データに対して、MPEG−2 Audio、AAC等の符号化を施し、オーディオストリーム(オーディオエレメンタリストリーム)を生成する。多重化部106は、
画像符号化部104および
音声符号化部105から出力される各エレメンタリストリームを多重化する。そして、多重化部106は、伝送データとしてのトランスポートストリームTSを出力する。
【0048】
付加情報発生部107は、最下位の階層のピクチャのフレーム周波数情報および複数の階層の数を示す階層数情報を発生し、多重化部106に送る。多重化部106は、これらの情報を、トランスポートレイヤに挿入する。例えば、多重化部106は、プログラム・マップ・テーブル(PMT)の“ES_info_length”直下のデスクリプタ(descriptor)ループに、
図5に示すように、フレーム周波数情報および階層数情報が記述された、新規定義のFPSデスクリプタ(fps_descriptor)を配置する。このデスクリプタループは、各エレメンタリストリーム(elementary_stream)の性質情報を記述する場所である。FPSデスクリプタは、その中に含まれるデスクリプタの1つとされる。
【0049】
図6は、FPSデスクリプタの構造例(Syntax)を示している。「descriptor_tag」の8ビットフィールドは、このデスクリプタの種類を示し、ここでは、FPSデスクリプタであることを示すようにされる。例えば、現在使われていない“0xf0”が割り当てられる。「descriptor_length」の8ビットフィールドは、直後のバイト長を示し、ここでは、“0x02”となる。
【0050】
「base」の8ビットフィールドは、最下位の階層のピクチャのフレーム周波数情報、つまり第1階層のフレーム周波数情報を表し、例えば、
図3に示す例のように30fpsの場合は、30を示す“0x1e”となる。「max」の8ビットフィールドは、複数の階層の数を示す階層数情報を表し、例えば、
図3に示す例のように第3階層まである場合は、3を示す“0x03”となる。
【0051】
このように、送信側(符号化側)でFPSデスクリプタを追加することで、受信側(復号側)でのフレーム間引き再生が容易となる。すなわち、このFPSデスクリプタの記述内容から、第1階層のみで30fps、第1、第2の合成階層で60fps、第1〜第3の合成階層で120fpsであることが解る。例えば、受信側の復号能力が最大60fpsまでだった場合、この情報から第1、第2の合成階層まで復号可能なことが解る。そして、「temporal_id=0」および「temporal_id=1」のピクチャを復号すればよいことが解る。また、復号したピクチャは、60fpsで再生すればよいことが解る。
【0052】
なお、フレーム周波数情報および階層数情報を、ビデオのレイヤ、例えば、アクセスユニットの“SEIs”の部分にSEIメッセージとして挿入することも考えられる。この場合、付加情報発生部107は、これらの情報を、破線図示するように、画像符号化部104に送る。画像符号化部104は、
図7(b)に示すように、「base」および「max」の各情報を持つFPSインフォ(fps_info)を、アクセスユニットの“SEIs”の部分に、「fps_info SEI message」として、挿入する。
【0053】
このようにSEIメッセージを利用する場合、多重化部106は、そのSEIメッセージの有無を識別する識別情報を、トランスポートレイヤに挿入する。例えば、多重化部106は、プログラム・マップ・テーブル(PMT)の“ES_info_length”直下のデスクリプタ(descriptor)ループに、
図7(a)に示すように、新規定義のFPSエグジストデスクリプタ(fps_exit_descriptor)を配置する。
【0054】
「descriptor_tag」の8ビットフィールドは、このデスクリプタの種類を示し、ここでは、FPSエグジストデスクリプタであることを示すようにされる。例えば、現在使われていない“0xf2”が割り当てられる。「descriptor_length」の8ビットフィールドは、直後のバイト長を示し、ここでは、“0x01”となる。「fps_exit」の8ビットフィールドは、FPSインフォ(fps_info)が挿入されたSEIメッセージの有無を示す。例えば、「fps_exit = 0」はそのSEIメッセージが無いことを示し、「fps_exit = 1」はそのSEIメッセージがあることを示す。
【0055】
このように、送信側(符号化側)でFPSエグジストデスクリプタを追加することで、受信側(復号側)では、フレーム周波数情報および階層数情報を持つFPSインフォ(fps_info)が挿入されたSEIメッセージの有無が解る。受信側(復号側)は、FPSエグジストデスクリプタがSEIメッセージの存在を示す場合、fps_infoを抽出し、その中の「base」と「max」の値から、自分が復号すべき「temporal_id」を持つピクチャを知ることができる。これに基づき、受信側(復号側)は、所望の「temporal_id」のピクチャを復号する。
【0056】
図2に戻って、変調/送信アンテナ部108は、トランスポートストリームTSを、QPSK/OFDM等の放送に適した変調方式で変調する。そして、この変調/送信アンテナ部108は、RF変調信号を送信アンテナから送信する。
【0057】
図2に示すTV送信機100の動作を説明する。源動画データ供給部101から復号装置102に、業務用に適切な圧縮形式で格納されて源動画データ(画像データ、音声データ)が、供給される。復号装置102では、源動画データが復号され、非圧縮画像データおよび非圧縮音声データが得られる。
【0058】
復号装置102で得られた非圧縮画像データは、階層分類部103に供給される。階層分類部103では、非圧縮画像データを構成する各ピクチャの画像データが複数の階層に分類される。この場合、最下位の階層を除き、各階層の所属ピクチャが、下位の全ての階層の所属ピクチャと同数であり、かつ、下位の全ての階層の所属ピクチャの時間的中央に位置するように、分類される(
図3参照)。
【0059】
このように階層分類された各階層の画像データは画像符号化部104に供給される。画像符号化部104では、分類された各階層の画像でデータが符号化され、符号化された各階層の画像データを持つビデオストリーム(ビデオエレメンタリストリーム)が生成される。この場合、例えば、H.264/AVCなどの符号化が行われ、被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように、符号化される。
【0060】
この場合、画像符号化部104では、符号化された各階層の画像データに、ピクチャ毎に、所属階層を識別するための階層識別情報が付加される。すなわち、画像符号化部104では、各ピクチャのNALユニット(nal_unit)のヘッダ部分に、階層識別情報(temporal_id)が配置される(
図4参照)。
【0061】
また、復号装置102で得られた非圧縮音声データは、音声符号化部105に供給される。この音声符号化部105では、非圧縮音声データに対して、MPEG−2 Audio、AAC等の符号化が施され、オーディオストリーム(オーディオエレメンタリストリーム)が生成される。
【0062】
画像符号化部104で生成されたビデオストリームと、音声符号化部105で生成されたオーディオストリームは、多重化部106に供給される。多重化部106では、各エレメンタリストリームが多重化され、伝送データとしてのトランスポートストリームTSが得られる。この多重化部106では、最下位の階層のピクチャのフレーム周波数情報および複数の階層の数を示す階層数情報が発生され、トランスポートレイヤ(コンテナのレイヤ)に挿入される。例えば、多重化部106では、プログラム・マップ・テーブル(PMT)の“ES_info_length”直下のデスクリプタループに、フレーム周波数情報および階層数情報が記述されたFPSデスクリプタ(fps_descriptor)が配置される(
図5、
図6参照)。
【0063】
なお、フレーム周波数情報および階層数情報が、ビデオのレイヤ、例えば、アクセスユニットの“SEIs”の部分にSEIメッセージとして挿入されることもある。この場合、各情報を持つFPSインフォ(fps_info)が、アクセスユニットの“SEIs”の部分に、「fps_info SEI message」として、挿入される(
図7(b)参照)。そして、この場合、そのSEIメッセージの有無を識別する識別情報が、トランスポートレイヤ(コンテナのレイヤ)に挿入する。例えば、多重化部106では、プログラム・マップ・テーブル(PMT)の“ES_info_length”直下のデスクリプタ(descriptor)ループに、FPSエグジストデスクリプタ(fps_exit_descriptor)が配置される(
図7(a)参照)。
【0064】
多重化部106で生成されたトランスポートストリームTSは、変調/送信アンテナ部108に送られる。この変調/送信アンテナ部108では、トランスポートストリームTSが、QPSK/OFDM等の放送に適した変調方式で変調されて、RF変調信号が生成される。そして、変調/送信アンテナ部108では、このRF変調信号を送信アンテナから送信することが行われる。
【0065】
[TV受信機の構成例]
図8は、TV受信機200の構成例を示している。このTV受信機200は、受信アンテナ/復調部201と、多重分離部202と、制御部203と、画像復号化部204と、再生速度調整部205と、画像表示部206と、音声復号化部207と、音声出力部208を有している。
【0066】
受信アンテナ/復調部201は、受信アンテナで受信されたRF変調信号を復調し、トランスポートストリームTSを取得する。多重分離部202は、トランスポートストリームTSから、ビデオストリームおよびオーディオストリームをそれぞれ抽出する。このビデオストリームには、動画像データを構成する各ピクチャの画像データが複数の階層に分類され、被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように符号化された画像データを持っている。
【0067】
また、この多重分離部202は、トランスポートストリームTSのトランスポートレイヤ(コンテナのレイヤ)に挿入されている種々の情報を抽出して、制御部203に送る。この際、プログラム・マップ・テーブル(PMT)の“ES_info_length”直下のデスクリプタループに配置されているFPSデスクリプタ(fps_descriptor)も抽出される。このFPSデスクリプタには、最下位の階層のピクチャのフレーム周波数情報および複数の階層の数を示す階層数情報が記述されている。
【0068】
あるいは、フレーム周波数情報および階層数情報が、ビデオのレイヤ、例えば、アクセスユニットの“SEIs”の部分にSEIメッセージとして挿入されている場合、プログラム・マップ・テーブル(PMT)の“ES_info_length”直下のデスクリプタループに配置されているFPSエグジストデスクリプタ(fps_exit_descriptor)が抽出されることもある。
【0069】
画像復号化部204は、多重分離部202で分離されたビデオストリームから選択的に所定階層以下の階層の符号化画像データを取り出して復号化し、各ピクチャの画像データを得る。この際、画像復号化部204は、各ピクチャのNALユニットのヘッダ部分に配置されている階層識別情報(temporal_id)に基づいて、所望の階層のピクチャの符号化画像データを取り出して復号化する。再生速度調整部205は、復号化された各ピクチャの画像データによる画像再生速度を、所定階層のピクチャのフレーム周波数に合致するように調整する。すなわち、再生速度調整部205は、復号化された各ピクチャの画像データを、所定階層のピクチャのフレーム周波数(フレームレート)に合わせて順次出力する。
【0070】
制御部203は、TV受信部200の各部の動作を制御する。制御部203は、画像復号化部204に対しては、復号化対象となる所定階層以下の階層を特定する復号階層情報を送って、復号化階層の制御を行う。また、制御部203は、再生速度調整部205に対しては、所定階層のピクチャのフレーム周波数に対応した再生速度情報、例えば同期信号を送って、画像再生速度の制御を行う。
【0071】
制御部203は、フレーム周波数情報および階層数情報と、自己の復号能力に基づいて、画像復号化部204における復号化階層を制御し、再生速度調整部205における画像再生速度を制御する。例えば、FPSデスクリプタ(fps_descriptor)が、
図6に示すような記述内容である場合を考える。
【0072】
この場合、制御部203は、第1階層のみで30fps、第1、第2の合成階層で60fps、第1〜第3の合成階層で120fpsであることが解る。そして、自己の復号能力が最大60fpsまでだった場合、この情報から第1、第2の合成階層まで復号可能なことが解る。そして、「temporal_id=0」および「temporal_id=1のピクチャを復号すればよいことが解る。また、復号したピクチャは、60fpsで再生すればよいことが解る。
【0073】
画像表示部206は、LCD(Liquid Crystal Display)等のディスプレイにより構成されている。この画像表示部206は、再生速度調整部205から出力される各ピクチャの画像データによる画像を表示する。音声復号化部207は、多重分離部202で分離されたオーディオストリームに対して復号化を施して、画像復号化部204で得られる画像データに対応した音声データを得る。音声出力部208は、アンプ、スピーカなどにより構成されている。この音声出力部208は、音声復号化部207から出力される音声データによる音声を出力する。
【0074】
図8に示すTV受信機200の動作を説明する。受信アンテナ/復調部201では、受信アンテナで受信されたRF変調信号が復調され、トランスポートストリームTSが取得される。このトランスポートストリームTSは、多重分離部202に供給される。この多重分離部202では、トランスポートストリームTSから、ビデオストリームおよびオーディオストリームがそれぞれ抽出される。ここで、ビデオストリームは、動画像データを構成する各ピクチャの画像データが複数の階層に分類され、被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように符号化された画像データを持っている。
【0075】
また、多重分離部202では、トランスポートストリームTSのトランスポートレイヤ(コンテナのレイヤ)に挿入されている種々の情報が抽出されて、制御部203に送られる。この際、プログラム・マップ・テーブル(PMT)の“ES_info_length”直下のデスクリプタループに配置されているFPSデスクリプタ(fps_descriptor)も抽出される。このFPSデスクリプタには、最下位の階層のピクチャのフレーム周波数情報および複数の階層の数を示す階層数情報が記述されている。
【0076】
あるいは、フレーム周波数情報および階層数情報が、ビデオのレイヤ、例えば、アクセスユニットの“SEIs”の部分にSEIメッセージとして挿入されている場合、プログラム・マップ・テーブル(PMT)の“ES_info_length”直下のデスクリプタループに配置されているFPSエグジストデスクリプタ(fps_exit_descriptor)が抽出されることもある。
【0077】
制御部203では、フレーム周波数情報および階層数情報と、自己の復号能力に基づいて、どの階層まで復号可能であるかの判定が行われる。そして、この制御部203により、画像復号化部204における復号化階層が制御され、再生速度調整部205における画像再生速度が制御される。
【0078】
多重分離部202で分離されたビデオストリームは画像復号化部204に供給される。この画像復号化部204では、制御部203の制御のもと、ビデオストリームから選択的に所定階層以下の階層の符号化画像データが取り出されて復号化され、各ピクチャの画像データが順次得られる。このように復号化された各ピクチャの画像データは再生速度調整部205に供給される。
【0079】
再生速度調整部205では、各ピクチャの画像データによる画像再生速度が、制御部203の制御のもと、所定階層のピクチャのフレーム周波数に合致するように調整される。すなわち、再生速度調整部205からは、各ピクチャの画像データが、所定階層のピクチャのフレーム周波数(フレームレート)に合わせて順次出力される。この画像データは、画像表示部206に供給され、所定階層以下の各ピクチャの画像データによる画像が表示される。
【0080】
また、多重分離部202で分離されたオーディオストリームは音声復号化部207に供給される。この音声復号化部207では、オーディオストリームに対して復号化が施されて、画像復号化部204で得られる画像データに対応した音声データが得られる。この音声データは、音声出力部208に供給され、表示画像に対応した音声が出力される。
【0081】
図9のフローチャートは、
図2に示すTV送信機100において、PMTの配下にFPSデスクリプタ(fps_descriptor)が配置される場合の送信処理手順の一例を示している。なお、
図2に示すTV送信機100において、画像符号化部104では、上述したように、符号化された各階層のピクチャの画像データを持つ単一のビデオストリームが生成されるものである。
【0082】
まず、TV送信機100は、ステップST1において、送信処理を開始する。そして、TV送信機100は、ステップST2において、源動画データを復号して、非圧縮の画像データと音声データを生成する。
【0083】
次に、TV送信機100は、ステップST3において、各ピクチャの画像データを複数の階層に分類する。この場合、1ピクチャ(フレーム)おきに2つに分けて一方を第3階層とする。また、もう一方を更に1ピクチャ(フレーム)おきに2つに分けて、一方を第2階層とし、残りを第1階層とする。
【0084】
次に、TV送信機100は、ステップST4において、階層分類された各ピクチャの画像データを符号化する。この場合、第1階層を符号化する。この場合、第1階層内でのみ参照可能とする。また、第2階層を符号化する。この場合、第1階層および第2階層内で参照可能とする。また、第3階層を符号化する。この場合、第1階層から第3階層内で参照可能とする。ここで、TV送信機100は、各ピクチャのNALユニット(nal_unit)のヘッダ部分に階層識別情報(temporal_id)を配置する。
【0085】
次に、TV送信機100は、ステップST5において、音声データを符号化する。そして、TV受信機100は、ステップST6において、FPSデスクリプタ(fps_descriptor)と、それを含むPMTを生成する。
【0086】
次に、TV送信機100は、ステップST7において、符号化された画像データ、音声データおよびPMTをトランスポートストリームTSに多重化する。そして、TV送信機100は、ステップST8において、トランスポートストリームTSを変調して送信する。その後、TV送信機100は、ステップST9において、処理を終了する。
【0087】
図10のフローチャートは、
図8に示すTV受信機200において、PMTの“ES_info_length”直下のデスクリプタループにFPSデスクリプタ(fps_descriptor)が配置されている場合の受信処理手順の一例を示している。この受信処理手順は、上述の
図9のフローチャートに示した送信処理手順に対応したものである。
【0088】
まず、TV受信機200は、ステップST11において、受信処理を開始する。そして、TV受信機200は、ステップST12において、RF変調信号(放送信号)を受信して復調し、トランスポートストリームTSを得る。
【0089】
次に、TV受信機200は、ステップST13において、トランスポートストリームTSから画像データ、音声データおよびPMTを抽出する。そして、TV受信機200は、ステップS14において、PMTからFPSデスクリプタ(fps_descriptor)を抽出し、自己の復号能力と比較して、復号すべき階層を決定する。
【0090】
次に、TV受信機200は、ステップST15において、ステップST14で決定した階層のピクチャの画像データを復号化する。そして、FPSデスクリプタ(fps_descriptor)の内容から、適切な再生速度で再生する。そして、TV受信機200は、ステップST16において、音声データを復号化して再生する。その後、TV受信機200は、ステップST17において、処理を終了する。
【0091】
図11のフローチャートは、
図2に示すTV送信機100において、FPSインフォ(fps_info)のSEIメッセージを付加する場合の送信処理手順の一例を示している。なお、
図2に示すTV送信機100において、画像符号化部104では、上述したように、符号化された各階層の画像データを持つ単一のビデオストリームが生成されるものである。
【0092】
まず、TV送信機100は、ステップST21において、送信処理を開始する。そして、TV送信機100は、ステップST22において、源動画データを復号して、非圧縮の画像データと音声データを生成する。
【0093】
次に、TV送信機100は、ステップST23において、各ピクチャの画像データを複数の階層に分類する。この場合、1ピクチャ(フレーム)おきに2つに分けて一方を第3階層とする。また、もう一方を更に1ピクチャ(フレーム)おきに2つに分けて、一方を第2階層とし、残りを第1階層とする。
【0094】
次に、TV送信機100は、ステップST24において、階層分類された各ピクチャの画像データを符号化する。この場合、第1階層を符号化する。この場合、第1階層内でのみ参照可能とする。また、第2階層を符号化する。この場合、第1階層および第2階層内で参照可能とする。また、第3階層を符号化する。この場合、第1階層から第3階層内で参照可能とする。ここで、TV送信機100は、各ピクチャのNALユニット(nal_unit)のヘッダ部分に階層識別情報(temporal_id)を配置する。また、TV送信機100は、FPSインフォ(fps_info)のSEIメッセージを付加する。
【0095】
次に、TV送信機100は、ステップST25において、音声データを符号化する。そして、TV受信機100は、ステップST26において、FPSエグジストデスクリプタ(fps_exist_descriptor)と、それを含むPMTを生成する。
【0096】
次に、TV送信機100は、ステップST27において、符号化された画像データ、音声データおよびPMTをトランスポートストリームTSに多重化する。そして、TV送信機100は、ステップST28において、トランスポートストリームTSを変調して送信する。その後、TV送信機100は、ステップST29において、処理を終了する。
【0097】
図12のフローチャートは、
図8に示すTV受信機200において、FPSインフォ(fps_info)のSEIメッセージが付加されている場合の受信処理手順の一例を示している。この受信処理手順は、上述の
図11のフローチャートに示した送信処理手順に対応したものである。
【0098】
まず、TV受信機200は、ステップST31において、受信処理を開始する。そして、TV受信機200は、ステップST32において、RF変調信号(放送信号)を受信して復調し、トランスポートストリームTSを得る。
【0099】
次に、TV受信機200は、ステップST33において、トランスポートストリームTSから画像データ、音声データおよびPMTを抽出する。TV受信機200は、ステップS34において、PMTからFPSエグジストデスクリプタ(fps_exit_descriptor)を抽出し、「fps_exit」を見る。そして、TV受信機200は、ステップST35において、「fps_exit = 1」であるか否かを判断する。
【0100】
「fps_exit = 1」であるとき、TV受信機200は、ステップST36において、SEIメッセージとして付加されているFPSインフォ(fps_info)を抽出して、自己の復号能力と比較して、復号すべき階層を決定する。TV受信機200は、ステップST37において、ステップST36で決定した階層のピクチャの画像データを復号化する。そして、FPSインフォ(fps_info)の内容から、適切な再生速度で再生する。そして、TV受信機200は、ステップST38において、音声データを復号化して再生する。その後、TV受信機200は、ステップST39において、処理を終了する。
【0101】
また、ステップST35で「fps_exit = 0」であるとき、TV受信機200は、ステップST40において、画像データを通常復号して再生する。そして、TV受信機200は、ステップST38において、音声データを復号化して再生する。その後、TV受信機200は、ステップST39において、処理を終了する。
【0102】
以上説明したように、
図1に示すTV送受信システム10において、動画像データを構成する各ピクチャの画像データが複数の階層に分類されて符号化された各階層の画像データを持つビデオストリームが送信されるものである。そのため、送信側においては、1個の番組または1個のファイルを送信するだけで、多様なフレーム周波数に対応したサービスを提供でき、運営コストの削減が可能となる。
【0103】
一方、受信側では、選択的に、所定階層以下の階層の符号化画像データを取り出して復号化でき、自己の再生能力に適したフレーム周波数で再生が可能となり、受信機の普及促進に効果的となる。ここで、被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように符号化されており、受信機では、所定階層よりも上位の階層の復号化を行うことが必要なく、自己の再生能力を効果的に使用可能となる。
【0104】
また、
図1に示すTV送受信システム10において、画像符号化部104は、符号化された各階層の画像データを持つ単一のビデオストリームを生成し、符号化された各階層の画像データに、ピクチャ毎に、所属階層を識別するための階層識別情報(temporal_id)を付加するものである。そのため、受信側では、階層識別情報に基づいて、所定階層以下の階層の符号化画像データを選択的に取り出すことを良好に行うことができる。
【0105】
また、
図1に示すTV送受信システム10において、階層分類部103は、最下位の階層を除き、各階層の所属ピクチャが、下位の全ての階層の所属ピクチャと同数であり、かつ、この下位の全ての階層の所属ピクチャの時間的中央に位置するように、動画像データを構成する各ピクチャの画像データを複数の階層に分類するものである。そのため、階層を1つ上げる毎にフレーム周波数が2倍となるので、受信側では、最下位の階層のピクチャのフレーム周波数情報のみで、各階層におけるフレーム周波数を容易に認識可能となる。
【0106】
また、
図1に示すTV送受信システム10において、コンテナのレイヤ(トランスポートレイヤ)あるいはビデオレイヤに最下位の階層のピクチャのフレーム周波数情報および複数の階層の数を示す階層数情報を挿入するものである。そのため、受信側では、最下位の階層のピクチャのフレーム周波数情報および複数の階層の数を示す階層数情報を、容易に取得可能となる。
【0107】
<2.変形例>
[別PIDの例]
なお、上述実施の形態においては、画像符号化部104では、符号化された各階層の画像データを持つ単一のビデオストリームが生成される例、つまり同一PIDの例を示した。しかし、画像符号化部104において、複数の階層のそれぞれの画像データを持つ複数のビデオストリームが生成されるようにすることも考えられる。
【0108】
この場合、
図13に示すように、各階層を別のPIDにより振り分けることになる。ビデオ層の階層化によって分離された各階層のNALユニットをトランスポートストリームパケットに多重化するときに、それぞれ別PIDが割り当てられる。上述の実施の形態のように、同一PIDに全ての階層を乗せる場合と比較して、以下のような違いがある。
【0109】
・「同一PIDの場合」
(a)受信側(復号側)では、1個のPIDのTSパケットのみ取得する。
(b)nalヘッダを解析して、「temporal_id」を検出し、必要な「temporal_id」を持つnalユニットのみを復号する。
・「別PIDの場合」
(a)受信側(復号側)では、必要な複数のPIDのTSパケットを取得する。
(b)取得したPIDのTSパケット内のnalユニット全てを復号する。「temporal_id」は、有っても無くてもよい。
【0110】
別PIDの場合は、PMTの“program_info_length”直下のデスクリプタループに、例えば、ストラクチャデスクリプタ(structure_descriptor)が配置される。
図14は、ストラクチャデスクリプタの構造例(Syntax)を示している。「descriptor_tag」の8ビットフィールドは、このデスクリプタの種類を示し、ここでは、ストラクチャデスクリプタであることを示すようにされる。例えば、現在使われていない“0xf1”が割り当てられる。「descriptor_length」の8ビットフィールドは、直後のバイト長を示す。
【0111】
「base」の8ビットフィールドは、最下位の階層のピクチャのフレーム周波数情報、つまり第1階層のフレーム周波数情報を表し、例えば、
図13に示す例のように30fpsの場合は、30を示す“0x1e”となる。「max」の8ビットフィールドは、複数の階層の数を示す階層数情報を表し、例えば、
図13に示す例のように第3階層まである場合は、3を示す“0x03”となる。
【0112】
forループ内には、各階層に割り当てられたPID(layer_PID)が全て記述される。記述順は、例えば第1階層から順とされる。復号側では、「base」の値と列記されたPIDから、どのPIDのTSパケットを取得すれば良いかがわかる。
【0113】
また、別PIDで
図15(b)に示すFPSインフォ(fps_info)のSEIメッセージを使用することも考えられる。この場合、
図15(a)に示すストラクチャデスクリプタ(structure_descriptor)が、“program_info_length”直下のデスクリプタループに配置される。受信側(復号側)では、このストラクチャデスクリプタのforループの最初に記述されている第1階層のPIDのTSパケットを取得し、その中のSEIメッセージであるFPSインフォ(fps_info)を抽出する。その「base」の値から復号すべき階層を判断し、このストラクチャデスクリプタの「layer_PID」から取得すべきTSパケットのPIDを検出して所望のTSパケットを取得して復号する。
【0114】
図16のフローチャートは、TV送信機100が各階層の画像データを別PIDで符号化し、かつPMTの配下にFPSデスクリプタ(structure_descriptor)を配置するように構成された場合の送信処理手順の一例を示している。
【0115】
まず、TV送信機100は、ステップST51において、送信処理を開始する。そして、TV送信機100は、ステップST52において、源動画データを復号して、非圧縮の画像データと音声データを生成する。
【0116】
次に、TV送信機100は、ステップST53において、各ピクチャの画像データを複数の階層に分類する。この場合、1ピクチャ(フレーム)おきに2つに分けて一方を第3階層とする。また、もう一方を更に1ピクチャ(フレーム)おきに2つに分けて、一方を第2階層とし、残りを第1階層とする。
【0117】
次に、TV送信機100は、ステップST54において、階層分類された各ピクチャの画像データを符号化する。第1階層を符号化する。この場合、第1階層内でのみ参照可能とする。また、第2階層を符号化する。この場合、第1階層および第2階層内で参照可能とする。また、第3階層を符号化する。この場合、第1階層から第3階層内で参照可能とする。
【0118】
次に、TV送信機100は、ステップST55において、音声データを符号化する。そして、TV受信機100は、ステップST56において、ストラクチャデスクリプタ(structure_descriptor)と、それを含むPMTを生成する。
【0119】
次に、TV送信機100は、ステップST57において、符号化された画像データ、音声データおよびPMTをトランスポートストリームTSに多重化する。そして、TV送信機100は、画像データを、階層毎に、別のPIDに多重化する。そして、TV送信機100は、ステップST58において、トランスポートストリームTSを変調して送信する。その後、TV送信機100は、ステップST59において、処理を終了する。
【0120】
図17のフローチャートは、
図8に示すTV受信機200において、各階層の画像データが別PIDで符号化され、かつPMTの配下にストラクチャデスクリプタ(structure_descriptor)が配置されている場合の受信処理手順の一例を示している。この受信処理手順は、上述の
図16のフローチャートに示した送信処理手順に対応したものである。
【0121】
まず、TV受信機200は、ステップST61において、受信処理を開始する。そして、TV受信機200は、ステップST62において、RF変調信号(放送信号)を受信して復調し、トランスポートストリームTSを得る。
【0122】
次に、TV受信機200は、ステップST63において、トランスポートストリームTSから画像データ、音声データおよびPMTを抽出する。そして、TV受信機200は、ステップS64において、PMTからストラクチャデスクリプタ(structure_descriptor)を抽出し、自己の復号能力と比較して、復号すべき階層を決定する。
【0123】
次に、TV受信機200は、ステップST65において、ステップST64で決定した階層のピクチャの画像データを各PIDのTSパケットから復号化する。そして、ストラクチャデスクリプタ(structure_descriptor)の内容から、適切な再生速度で再生する。そして、TV受信機200は、ステップST66において、音声データを復号化して再生する。その後、TV受信機200は、ステップST67において、処理を終了する。
【0124】
図18のフローチャートは、TV送信機100が各階層の画像データを別PIDで符号化し、FPSインフォ(fps_info)のSEIメッセージを付加する場合の送信処理手順の一例を示している。
【0125】
まず、TV送信機100は、ステップST71において、送信処理を開始する。そして、TV送信機100は、ステップST72において、源動画データを復号して、非圧縮の画像データと音声データを生成する。
【0126】
次に、TV送信機100は、ステップST73において、各ピクチャの画像データを複数の階層に分類する。この場合、1ピクチャ(フレーム)おきに2つに分けて一方を第3階層とする。また、もう一方を更に1ピクチャ(フレーム)おきに2つに分けて、一方を第2階層とし、残りを第1階層とする。
【0127】
次に、TV送信機100は、ステップST74において、階層分類された各ピクチャの画像データを符号化する。第1階層を符号化する。この場合、第1階層内でのみ参照可能とする。また、第2階層を符号化する。この場合、第1階層および第2階層内で参照可能とする。また、第3階層を符号化する。この場合、第1階層から第3階層内で参照可能とする。ここで、TV送信機100は、FPSインフォ(fps_info)のSEIメッセージを付加する。
【0128】
次に、TV送信機100は、ステップST75において、音声データを符号化する。そして、TV受信機100は、ステップST76において、ストラクチャデスクリプタ(structure_descriptor)と、それを含むPMTを生成する。
【0129】
次に、TV送信機100は、ステップST77において、符号化された画像データ、音声データおよびPMTをトランスポートストリームTSに多重化する。そして、TV送信機100は、画像データを、階層毎に、別のPIDに多重化する。そして、TV送信機100は、ステップST78において、トランスポートストリームTSを変調して送信する。その後、TV送信機100は、ステップST79において、処理を終了する。
【0130】
図19のフローチャートは、
図8に示すTV受信機200において、各階層の画像データが別PIDで符号化され、かつFPSインフォ(fps_info)のSEIメッセージが付加されている場合の受信処理手順の一例を示している。この受信処理手順は、上述の
図18のフローチャートに示した送信処理手順に対応したものである。
【0131】
まず、TV受信機200は、ステップST81において、受信処理を開始する。そして、TV受信機200は、ステップST82において、RF変調信号(放送信号)を受信して復調し、トランスポートストリームTSを得る。
【0132】
次に、TV受信機200は、ステップST83において、トランスポートストリームTSから画像データ、音声データおよびPMTを抽出する。TV受信機200は、ステップS84において、PMTからストラクチャデスクリプタ(structure_descriptor)を抽出する。そして、TV受信機200は、ステップST85において、ストラクチャデスクリプタが有ったか否かを判断する。
【0133】
ストラクチャデスクリプタがあるとき、TV受信機200は、ステップST86において、SEIメッセージとして付加されているFPSインフォ(fps_info)を抽出して、自己の復号能力と比較して、復号すべき階層を決定する。TV受信機200は、ステップST77において、ステップST76で決定した階層のピクチャの画像データを各PIDのTSパケットから復号化する。そして、FPSインフォ(fps_info)の内容から、適切な再生速度で再生する。そして、TV受信機200は、ステップST88において、音声データを復号化して再生する。その後、TV受信機200は、ステップST89において、処理を終了する。
【0134】
また、ステップST85でストラクチャデスクリプタがないとき、TV受信機200は、ステップST90において、画像データを通常復号して再生する。そして、TV受信機200は、ステップST88において、音声データを復号化して再生する。その後、TV受信機200は、ステップST89において、処理を終了する。
【0135】
図20は、(a)同一PID(PES)、かつPMTに構造記述、(b)同一PID(PES)、かつSEIに構造記述、(c)別PID(PES)、かつPMTに構造記述、(d)別PID(PES)、かつSEIに構造記述の、上述した4つの方法における付加情報を比較して示している。
【0136】
[階層分類および画像符号化の他の例]
また、上述実施の形態においては、最下位の階層を除き、各階層の所属ピクチャが、下位の全ての階層の所属ピクチャと同数であり、かつ、この下位の全ての階層の所属ピクチャの時間的中央に位置するように、動画像データを構成する各ピクチャの画像データを複数の階層に分類する例を示した。しかし、分類の仕方は、この例に限定されるものではない。例えば、以下のような分類の仕方も可能である。
【0137】
「他の例1」
図21(a)は、階層分類および画像符号化の他の例を示している。この例は、各ピクチャの画像データを第1階層および第2階層の2階層に分類する例である。この例において、IピクチャおよびPピクチャは第1階層に所属するようにされる。Iピクチャは他ピクチャを参照せず、またPピクチャはIピクチャまたはPピクチャしか参照しない。そのため、第1階層は、第1階層ピクチャだけで復号可能となる。
【0138】
また、第1階層の各ピクチャの間に時間的に等間隔に2個のBピクチャが配置され、それらは第2階層に所属するようにされる。この第2階層のBピクチャは、第2階層および/または第1階層の所属ピクチャしか参照しないように符号化される。そのため、第2階層は、第1、第2の合成階層だけで復号可能となる。また、第1階層のみ復号した場合に比べて、第1、第2の合成階層を復号した場合は、フレーム周波数は3倍となる。そのため、図示のように、第1階層のみのフレーム周波数が40fpsのとき、第1、第2の合成階層のフレーム周波数は120fpsとなる。
【0139】
この例においても、符号化された各階層の画像データに、ピクチャ毎に、所属階層を識別するための階層識別情報が付加される。すなわち、各ピクチャのNALユニット(nal_unit)のヘッダ部分に、階層識別情報(temporal_id)が配置される。この例において、第1階層所属ピクチャには「temporal_id=0」が割り当てられ、第2階層所属ピクチャには「temporal_id=1」が割り当てられている。
【0140】
図21(b)は、
図21(a)に示すような階層分類および画像符号化が行われる場合におけるFPSデスクリプタ(fps_descriptor)の構造例(Syntax)を示している。「descriptor_tag」の8ビットフィールドは、このデスクリプタの種類を示し、ここでは、FPSデスクリプタであることを示すようにされる。例えば、現在使われていない“0xf0”が割り当てられる。「descriptor_length」の8ビットフィールドは、直後のバイト長を示す。
【0141】
「base」の8ビットフィールドは、最下位の階層のピクチャのフレーム周波数情報、つまり第1階層のフレーム周波数情報を表し、この例においては、40を示す“0x28”となっている。「max」の8ビットフィールドは、複数の階層の数を示す階層数情報を表し、この例においては、2を示す“0x02”となっている。また、forループ内には、第2階層以降のそれぞれの階層までの合成階層におけるフレーム周波数が、第1階層のフレーム周波数に対して何倍であるかが全て記述される。この例においては、第2階層に関して“0x03”とされ、3倍であることが記述されている。
【0142】
「他の例2」
図22(a)も、階層分類および画像符号化の他の例を示している。この例は、各ピクチャの画像データを第1階層および第2階層の2階層に分類する例である。この例において、IピクチャおよびPピクチャは第1階層に所属するようにされる。Iピクチャは他ピクチャを参照せず、またPピクチャはIピクチャまたはPピクチャしか参照しない。そのため、第1階層は、第1階層ピクチャだけで復号可能となる。
【0143】
また、第1階層の各ピクチャの間に時間的に等間隔に4個のBピクチャが配置され、それらは第2階層に所属するようにされる。この第2階層のBピクチャは、第2階層および/または第1階層の所属のピクチャしか参照しないように符号化される。そのため、第2階層は、第1、第2の合成階層だけで復号可能となる。また、第1階層のみ復号した場合に比べて、第1、第2の合成階層を復号した場合は、フレーム周波数は5倍となる。そのため、図示のように、第1階層のみのフレーム周波数が24fpsのとき、第1、第2の合成階層のフレーム周波数は120fpsとなる。
【0144】
この例においても、符号化された各階層の画像データに、ピクチャ毎に、所属階層を識別するための階層識別情報が付加される。すなわち、各ピクチャのNALユニット(nal_unit)のヘッダ部分に、階層識別情報(temporal_id)が配置される。この例において、第1階層所属ピクチャには「temporal_id=0」が割り当てられ、第2階層所属ピクチャには「temporal_id=1」が割り当てられている。
【0145】
図22(b)は、
図22(a)に示すような階層分類および画像符号化が行われる場合におけるFPSデスクリプタ(fps_descriptor)の構造例(Syntax)を示している。「descriptor_tag」の8ビットフィールドは、このデスクリプタの種類を示し、ここでは、FPSデスクリプタであることを示すようにされる。例えば、現在使われていない“0xf0”が割り当てられる。「descriptor_length」の8ビットフィールドは、直後のバイト長を示す。
【0146】
「base」の8ビットフィールドは、最下位の階層のピクチャのフレーム周波数情報、つまり第1階層のフレーム周波数情報を表し、この例においては、24を示す“0x18”となっている。「max」の8ビットフィールドは、複数の階層の数を示す階層数情報を表し、この例においては、2を示す“0x02”となっている。また、forループ内には、第2階層以降のそれぞれの階層までの合成階層におけるフレーム周波数が、第1階層のフレーム周波数に対して何倍であるかが全て記述される。この例においては、第2階層に関して“0x05”とされ、5倍であることが記述されている。
【0147】
「他の例3」
図23(a)も、階層分類および画像符号化の他の例を示している。この例は、各ピクチャの画像データを第1階層から第4階層までの4階層に分類する例である。この例において、IピクチャおよびPピクチャは第1階層に所属するようにされる。Iピクチャは他ピクチャを参照せず、またPピクチャはIピクチャまたはPピクチャしか参照しない。そのため、第1階層は、第1階層ピクチャだけで復号可能となる。
【0148】
また、第1階層の各ピクチャの時間的中央位置にBピクチャが配置され、それらは第2階層に所属するようにされる。この第2階層のBピクチャは、第2階層および/または第1階層の合成階層所属のピクチャしか参照しないように符号化される。そのため、第2階層は、第1、第2の合成階層だけで復号可能となる。また、第1階層のみ復号した場合に比べて、第1、第2の合成階層を復号した場合は、フレーム周波数は2倍となる。そのため、図示のように、第1階層のみのフレーム周波数が12fpsのとき、第1、第2の合成階層のフレーム周波数は24fpsとなる。
【0149】
また、第1階層の各ピクチャの間に時間的に等間隔に4個のBピクチャが配置され、それらは第3階層に所属するようにされる。この第3階層のBピクチャは、第3階層および/または第2階層以下の階層の所属ピクチャしか参照しないように符号化される。そのため、第3階層は、第1から第3の合成階層だけで復号可能となる。また、第1階層のみ復号した場合に比べて、第1から第3の合成階層を復号した場合は、フレーム周波数は5倍となる。また、第1、第2の合成階層のフレーム周波数に対しては、2.5倍のフレーム周波数となる。そのため、図示のように、第1階層のみのフレーム周波数が12fpsのとき、第1から第3の合成階層のフレーム周波数は60fpsとなる。
【0150】
また、第1階層、第3階層の各ピクチャの間の時間的中央位置にBピクチャが配置され、それらは第4階層に所属するようにされる。ただし、一部は第2階層のピクチャと同じなので、欠けている。この第4階層のBピクチャは、第4階層および/または第3階層以下の階層の所属ピクチャしか参照しないように符号化される。そのため、第4階層は、第1から第4の合成階層だけで復号可能となる。また、第1階層のみ復号した場合に比べて、第1から第4の合成階層を復号した場合は、フレーム周波数は10倍となる。そのため、図示のように、第1階層のみのフレーム周波数が12fpsのとき、第1から第4の合成階層のフレーム周波数は120fpsとなる。
【0151】
この例においても、符号化された各階層の画像データに、ピクチャ毎に、所属階層を識別するための階層識別情報が付加される。すなわち、各ピクチャのNALユニット(nal_unit)のヘッダ部分に、階層識別情報(temporal_id)が配置される。この例において、第1階層所属ピクチャには「temporal_id=0」が割り当てられ、第2階層所属ピクチャには「temporal_id=1」が割り当てられ、第3階層所属ピクチャには「temporal_id=2」が割り当てられ、第4階層所属ピクチャには「temporal_id=3」が割り当てられている。
【0152】
図23(b)は、
図23(a)に示すような階層分類および画像符号化が行われる場合におけるFPSデスクリプタ(fps_descriptor)の構造例(Syntax)を示している。「descriptor_tag」の8ビットフィールドは、このデスクリプタの種類を示し、ここでは、FPSデスクリプタであることを示すようにされる。例えば、現在使われていない“0xf0”が割り当てられる。「descriptor_length」の8ビットフィールドは、直後のバイト長を示す。
【0153】
「base」の8ビットフィールドは、最下位の階層のピクチャのフレーム周波数情報、つまり第1階層のフレーム周波数情報を表し、この例においては、12を示す“0x0C”となっている。「max」の8ビットフィールドは、複数の階層の数を示す階層数情報を表し、この例においては、4を示す“0x04”となっている。また、forループ内には、第2階層以降のそれぞれの階層までの合成階層におけるフレーム周波数が、第1階層のフレーム周波数に対して何倍であるかが全て記述される。この例においては、第2階層に関して“0x03”とされ、2倍であることが記述されている。また、第3階層に関して“0x05”とされ、5倍であることが記述されている。さらに、第4階層に関して“0x0a”とされ、10倍であることが記述されている。
【0154】
[その他]
また、上述実施の形態においては、TV送信機100とTV受信機200からなるTV送受信システム10を示したが、本技術を適用し得るTV送受信システムの構成は、これに限定されるものではない。例えば、受信機200の部分が、例えば、(HDMI(High-Definition Multimedia Interface)などのデジタルインタフェースで接続されたセットトップボックスおよびモニタの構成などであってもよい。
【0155】
また、上述実施の形態においては、コンテナがトランスポートストリーム(MPEG−2 TS)である例を示した。しかし、本技術は、インターネット等のネットワークを利用して受信端末に配信される構成のシステムにも同様に適用できる。インターネットの配信では、MP4やそれ以外のフォーマットのコンテナで配信されることが多い。つまり、コンテナとしては、デジタル放送規格で採用されているトランスポートストリーム(MPEG−2 TS)、インターネット配信で使用されているMP4などの種々のフォーマットのコンテナが該当する。
【0156】
また、本技術は、以下のような構成を取ることもできる。
(1)動画像データを構成する各ピクチャの画像データを複数の階層に分類する階層分類部と、
上記分類された各階層の画像データを符号化し、該符号化された各階層の画像データを持つビデオストリームを生成する画像符号化部と、
上記生成されたビデオストリームを含む所定フォーマットのコンテナを送信する送信部とを備え、
上記画像符号化部は、
被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように符号化する
送信装置。
(2)上記画像符号化部は、
上記符号化された各階層の画像データを持つ単一のビデオストリームを生成し、
上記符号化された各階層の画像データに、ピクチャ毎に、所属階層を識別するための階層識別情報を付加する
前記(1)に記載の送信装置。
(3)上記階層分類部は、
最下位の階層を除き、各階層の所属ピクチャが、下位の全ての階層の所属ピクチャと同数であり、かつ、上記下位の全ての階層の所属ピクチャの時間的中央に位置するように、上記動画像データを構成する各ピクチャの画像データを複数の階層に分類する
前記(1)または(2)に記載の送信装置。
(4)上記コンテナに最下位の階層のピクチャのフレーム周波数情報および上記複数の階層の数を示す階層数情報を挿入する情報挿入部をさらに備える
前記(1)から(3)のいずれかに記載の送信装置。
(5)上記情報挿入部は、
上記各情報を、コンテナのレイヤ、あるいはビデオのレイヤに挿入する
前記(4)に記載の送信装置。
(6)上記情報挿入部は、
上記各情報を上記ビデオのレイヤに挿入するとき、上記コンテナのレイヤに、上記ビデオのレイヤに上記各情報の挿入が有るか否かを識別する識別情報をさらに挿入する
前記(5)に記載の送信装置。
(7)上記画像符号化部は、
上記符号化された複数の階層のそれぞれの画像データを持つ複数のビデオストリームを生成する
前記(1)に記載の送信装置。
(8)上記コンテナのレイヤに、各階層のビデオストリームを識別するためのストリーム識別情報を挿入する識別情報挿入部をさらに備える
前記(7)に記載の送信装置。
(9)動画像データを構成する各ピクチャの画像データを複数の階層に分類するステップと、
上記分類された各階層の画像データを、被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように符号化し、該符号化された各階層の画像データを持つビデオストリームを生成するステップと、
上記生成されたビデオストリームを含む所定フォーマットのコンテナを送信するステップとを備える
送信方法。
(10)動画像データを構成する各ピクチャの画像データを複数の階層に分類する階層分類部と、
上記分類された各階層の画像データを符号化し、該符号化された各階層の画像データを持つビデオストリームを生成する画像符号化部と、
上記生成されたビデオストリームを含む所定フォーマットのコンテナを送信する送信部とを備え、
上記画像符号化部は、
上記符号化された各階層の画像データを持つ単一のビデオストリームを生成し、
上記符号化された各階層の画像データに、ピクチャ毎に、所属階層を識別するための階層識別情報を付加する
送信装置。
(11)動画像データを構成する各ピクチャの画像データを複数の階層に分類する階層分類部と、
上記分類された各階層の画像データを符号化し、該符号化された各階層の画像データを持つビデオストリームを生成する画像符号化部とを備え、
上記画像符号化部は、
被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように符号化する
符号化装置。
(12)上記画像符号化部は、
上記符号化された各階層の画像データを持つ単一のビデオストリームを生成し、
上記符号化された各階層の画像データに、ピクチャ毎に、所属階層を識別するための階層識別情報を付加する
請求項11に記載の符号化装置。
(13)動画像データを構成する各ピクチャの画像データが複数の階層に分類され、被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように符号化された画像データを持つビデオストリームを含む所定フォーマットのコンテナを受信する受信部と、
上記受信されたコンテナに含まれる上記ビデオストリームから選択的に所定階層以下の階層の符号化画像データを取り出して復号化し、各ピクチャの画像データを得る画像復号化部と、
上記復号化された各ピクチャの画像データによる画像再生速度を上記所定階層のピクチャのフレーム周波数に合致するように調整する再生速度調整部とを備える
受信装置。
(14)上記コンテナには、最下位の階層のピクチャのフレーム周波数情報および上記複数の階層の数を示す階層数情報が挿入されており、
上記コンテナに挿入されている各情報と自己の復号能力に基づいて、上記画像復号化部における復号化階層を制御し、上記再生速度調整部における画像再生速度を制御する制御部をさらに備える
前記(13)に記載の受信装置。
(15)上記コンテナには、上記符号化された各階層の画像データを持つ単一の上記ビデオストリームが含まれ、
上記符号化された各階層の画像データには、ピクチャ毎に、所属階層を識別するための階層識別情報が付加されており、
上記画像復号化部は、
上記階層識別情報に基づいて、上記単一のビデオストリームから選択的に上記所定階層以下の階層の符号化画像データを取り出して復号化する
前記(13)に記載の受信装置。
(16)上記コンテナには、上記符号化された複数の階層のそれぞれの画像データを持つ複数のビデオストリームが含まれ、
上記コンテナのレイヤには、各階層のビデオストリームを識別するためのストリーム識別情報が挿入されており、
上記画像符号化部は、
上記ストリーム識別情報に基づいて、選択的に、上記所定階層以下の階層のビデオストリームから符号化画像データを取り出して復号化する
前記(13)に記載の受信装置。
(17)動画像データを構成する各ピクチャの画像データが複数の階層に分類され、被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように符号化された画像データを持つビデオストリームを含む所定フォーマットのコンテナを受信するステップと、
上記受信されたコンテナに含まれる上記ビデオストリームから選択的に所定階層以下の階層の符号化画像データを取り出して符号化し、各ピクチャの画像データを得るステップと、
上記復号化された各ピクチャの画像データによる画像再生速度を上記所定階層のピクチャのフレーム周波数に調整するステップとを備える
受信方法。
(18)動画像データを構成する各ピクチャの画像データが複数の階層に分類され、被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように符号化された画像データを持つビデオストリームから選択的に所定階層以下の階層の符号化画像データを取り出して符号化し、各ピクチャの画像データを得る画像復号化部と、
上記復号化された各ピクチャの画像データによる画像再生速度を上記所定階層のピクチャのフレーム周波数に調整する再生速度調整部とを備える
復号化装置。
【0157】
本技術の主な特徴は、動画像データを構成する各ピクチャの画像データが複数の階層に分類し、各階層の画像データを、被参照ピクチャが自己階層および/または自己階層よりも下位の階層に所属するように符号化し、符号化された各階層の画像データを持つビデオストリームを所定フォーマットのコンテナで送信することで、高フレーム周波数のサービスを容易に実現可能としたことである(
図2、
図3参照)。