【文献】
地上デジタルテレビジョン放送運用規定 技術資料 ARIB TR-B14 4.9版(第一分冊)(2/2),日本,一般社団法人 電波産業会,2012年 7月 3日,p.3-44 - 3-46,[online], [検索日:平成25年11月15日], インターネット, <URL: http://www.arib.or.jp/english/html/overview/doc/4-TR-B14v4_9-1p3-2.pdf>
(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0026】
以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明は以下の順序で行う。
1.実施の形態
2.変形例
【0027】
<1.実施の形態>
[画像送受信システム]
図1は、実施の形態としての画像送受信システム10の構成例を示している。この画像送受信システム10は、放送局100および受信機200により構成されている。放送局100は、コンテナとしてのトランスポートストリームTSを放送波に載せて送信する。
【0028】
トランスポートストリームTSは、符号化画像データを含むビデオストリームを有している。送信画像データには、種々の画像サービスに対応したものが含まれる。画像サービスとしては、例えば、有効画素数が1920×1080であるHD画像サービスの他に、有効画素数が水平、垂直にそれぞれ2倍、4倍である4K、8K等の空間的な超高解像度画像のサービス(超高精細サービス)が考えられる。また、画像サービスとしては、例えば、フレーム周波数が30Hzである画像サービスの他に、フレーム周波数が60Hz、120Hz等の時間的な超高解像度画像のサービス(超高精細サービス)が考えられる。
【0029】
超高精細サービスの画像データに関しては、スケーラブル符号化して送信される場合と、スケーラブル符号化されずに送信される場合とがある。スケーラブル符号化されることで、後方互換性(backward compatible)が保証され、超高精細サービスに対応していない受信機においても、自身の表示能力に合った解像度の画像データを容易に取得可能となる。
【0030】
超高精細サービスの画像データを送信する場合、ビデオストリームに、画像データの空間的および/または時間的な解像度のダウンスケーリングのための補助情報が挿入される。この補助情報は、例えば、ビデオストリームのピクチャヘッダまたはシーケンスヘッダのユーザデータ領域などに挿入される。
【0031】
例えば、空間的な解像度のダウンスケーリングのための補助情報としては、符号化画像データに含まれる動きベクトルの精度制限を示す情報とされる。例えば、通常の動きベクトルの精度制限が1/4ピクセル精度であるとき、受信機側における空間的な解像度のダウンスケーリングの処理負荷を軽減するために動きベクトルの精度制限が1/2ピクセル精度あるいは1ピクセル精度などとされる。
【0032】
また、時間的な解像度のダウンスケーリングのための補助情報としては、時間解像度を所定の比率でダウンスケーリングする際に選択すべきピクチャを識別する情報とされる。例えば、この情報により、1つおきのピクチャ(フレーム)に対応して1/2にダウンスケーリングする際に選択すべきピクチャであることが示される。また、例えば、この情報により、3つおきのピクチャ(フレーム)に対応して1/4にダウンスケーリングする際に選択すべきピクチャであることが示される。
【0033】
上述したように補助情報が挿入されることで、超高精細サービスの画像データがスケーラブル符号化されずに送信される場合に、この超高精細サービスに対応していない受信機において自身の表示能力に合った解像度の画像データの取得を容易に行い得るようになる。この補助情報の詳細については、後述する。
【0034】
また、トランスポートストリームTSのレイヤに、補助情報がビデオストリームに挿入されていることを示す識別情報が挿入される。例えば、この識別情報は、トランスポートストリームTSに含まれるプログラム・マップ・テーブル(PMT:Program Map Table)のビデオエレメンタリ・ループ(Video ES loop)の配下に挿入される。この識別情報により、受信側では、ビデオストリームをデコードしなくても、このビデオストリームに補助情報が挿入されていることを知ることができ、補助情報の抽出を適切に行うことが可能となる。
【0035】
このダウンスケーリング情報には、ビデオストリームに含まれる画像データの空間的および/または時間的な解像度情報が付加されることがある。この場合、受信側では、ビデオストリームをデコードすることなく、画像データの空間的および/または時間的な解像度を把握することが可能となる。このダウンスケーリング情報の詳細については、後述する。
【0036】
また、トランスポートストリームTSのレイヤに、ビデオストリームによる超高精細サービスを少なくとも番組単位で識別できるように識別情報が挿入される。例えば、この実施の形態において、トランスポートストリームTSのレイヤに、ビデオストリームに含まれる画像データの空間的および/または時間的な解像度情報が挿入される。例えば、この解像度情報は、トランスポートストリームTSに含まれるイベント・インフォメーション・テーブル(EIT:Event Information Table)の配下に挿入される。この解像度情報(識別情報)により、ビデオストリームをデコードすることなく、画像データの空間的および/または時間的な解像度を把握することが可能となる。
【0037】
この解像度情報には、ビデオストリームに、画像データの空間的および/または時間的な解像度に対応していない低能力デコーダのためのサポートがされているか否かを識別する識別情報が付加されている。この場合、受信側では、ビデオストリームに低能力デコーダのためのサポート、例えば、空間的および/または時間的な解像度のダウンスケーリングのための補助情報の挿入など、がされているか否かを容易に判断できる。この解像度情報の詳細については、後述する。
【0038】
受信機200は、放送局100から放送波に載せて送られてくるトランスポートストリームTSを受信する。このトランスポートストリームTSは、符号化画像データを含むビデオストリームを有している。受信機200は、ビデオストリームのデコード処理を行って、表示画像データを取得する。
【0039】
受信機200は、超高精細サービスの画像データがスケーラブル符号化されずに送られてくる場合であって、自身がその超高精細サービスに対応していない場合には、符号化画像データに対して、補助情報に基づいて、空間的および/または時間的な解像度のダウンスケーリング処理を施して、所望の解像度の表示画像データを得る。この場合、受信画像データの解像度とダウンスケーリングの可能比率により、ダウンスケーリング処理が制御される。
【0040】
例えば、受信画像データの解像度とダウンスケーリングの可能比率によっては、所望の解像度の表示画像データを得ることができない場合も想定されるが、その場合には、ダウンスケーリング処理は行われない。また、ダウンスケーリングの可能比率が複数ある場合、受信画像データの解像度に応じて、ダウンスケーリングの比率が選択されて、所望の解像度の表示画像データを得ることが行われる。
【0041】
[解像度のダウンスケーリング処理]
受信機200で行われるダウンスケーリング処理について説明する。最初に、空間的な解像度のダウンスケーリング処理を説明する。例えば、受信画像データが、
図2(a)に示すような、8Kの画像データである場合を考える。例えば、表示能力が4Kの受信機200においては、空間的な解像度を水平、垂直とも1/2にするダウンスケーリング処理が施され、
図2(b)に示すような、4Kの画像データを得ることが行われる。また、例えば、表示能力がHDの受信機200においては、空間的な解像度を水平、垂直とも1/4にするダウンスケーリング処理が施され、
図2(c)に示すような、HDの画像データを得ることが行われる。
【0042】
図3は、受信機200のデコーダの構成例を示している。受信された符号化画像データVeはエントロピー復号化部353aでエントロピー復号化処理が行われ、逆量子化部353bで逆量子化処理が行われる。さらに、逆量子化処理後のデータは、空間・周波数逆変換部353cで、空間・周波数の逆変換処理が施されて、データD(n)が得られる。
【0043】
この場合、空間・周波数の逆変換処理は、N*Nの符号化ブロック毎に、ダウンスケーリングの比率に応じた領域の周波数成分のみに適用され(
図4(a)のハッチング領域参照)、データD(n)として、ダウンスケーリングされた画像データが得られる。なお、この
図4の例は、ダウンスケーリングの比率が1/2である場合を示している。
【0044】
フレームバッファ353dに記録されている1フレーム前の画像データ(
図4(b)参照)から、符号化ブロック毎に、動きベクトルMVに応じた領域の画素データが読み出され、補間フィルタ353eに供給されて補間演算され、補間後の予測ブロックが生成される(
図4(c)参照)。そして、加算器353fにおいて、データD(n)に、補間フィルタ353eで生成された補間後の予測ブロックが加算され(
図4(d)参照)、ダウンスケーリングされた現在フレームの画像データVd(n)が得られる。
【0045】
ここで、符号化画像データVeに付加されている動きベクトルMVの画素精度をPとする。空間・周波数逆変換部353cで、例えば1/2に縮小デコードすると、画素精度はオリジナルの精度Pに比べて、1/2となり精度は荒くなる。オリジナルの動きベクトルMVの画素精度Pで動き補償をさせるためには、フレームバッファ353dの画像データを、Pの精度に適合するように補間する必要がある。
【0046】
例えば、オリジナルの動きベクトルMVが1/4ピクセル精度でエンコードされる場合、縮小デコードされてフレームバッファ353dに記憶された画像データを動き補償する際の精度は、その画像データの画素精度が1/2に縮小されているので、オリジナルの動きベクトルMVの精度で動き補償をさせるためには、フレームバッファ353dの画像データを、1/(1/4*1/2)に補間する必要がある。
【0047】
そのため、動きベクトルMVの精度に制限を設けない場合には、補間フィルタ演算の対象となる予測画素範囲が大きく、補間フィルタのタップ数が多くなり、演算負荷が大きくなる。これに対して、動きベクトルMVの精度に制限を設ける場合には、補間フィルタ演算の対象となる予測画素範囲が小さく、補間フィルタのタップ数が少なくなり、演算負荷が小さくなる。
【0048】
図5は、動きベクトルMVの精度に制限を設けない場合、例えば、動きベクトルMV1の精度が1/4ピクセル(quarter pixel)精度である場合を示している。この場合、隣接し合う予測画素同士から補間画素を求めるのに、MV1の精度をカバーするだけのフェーズ数に対応するフィルタ演算が必要となる。低域通過フィルタによる補間演算を行う際、一定以上の通過域を確保し、カットオフ周波数近辺を急峻にするためには、補間フィルタのフィルタタップ数は多くなり、それに伴い、対象となる予測画素数が多くなる。
【0049】
図6は、動きベクトルMVの精度に制限を設ける場合、例えば、動きベクトルMV2の精度が1/2ピクセル(half pixel)精度である場合を示している。この場合、隣接し合う予測画素同士から補間画素を求めるのに、MV2の精度をカバーするだけのフェーズ数に対応するフィルタ演算が必要となる。MV2の精度はMV1の精度よりも粗いので、フェーズ数は少なくなる。この場合、上述の制限を設けない場合と比べて、同等の通過を確保するのに、補間フィルタのタップ数は少なくて済み、対象となる予測画素数も少なくて済む。
【0050】
このことから、本実施の形態では、送信側において、動きベクトルMVは、適宜、上述の動きベクトルMV2のように精度制限を設けてエンコードすることが行われる。その場合、本実施の形態においては、動きベクトルMVの精度制限の情報が、ビデオストリームに補助情報として挿入される。受信機200は、空間的な解像度のダウンスケーリング処理を行う際に、この補助情報から動きベクトルMVの精度制限を認識して、その精度制限に合った補間処理を行うことができ、処理負荷の軽減を図ることができる。
【0051】
次に、時間的な解像度のダウンスケーリング処理を説明する。例えば、受信画像データが、
図7(a)に示すような、120fpsの画像データである場合を考える。ビデオストリームに補助情報として、ハーフ・ピクチャレート・フラグ(Half picture rate flag)と、クォーター・ピクチャレート・フラグ(Quarter picture rate flag)とが挿入されている。
【0052】
ハーフ・ピクチャレート・フラグは、1ピクチャ(フレーム)おきに、“1”となる。つまり、このハーフ・ピクチャレート・フラグにより、時間解像度を1/2にダウンスケーリングする際に選択すべきピクチャを識別できる。また、クォーター・ピクチャレート・フラグは、2ピクチャ(フレーム)おきに、“1”となる。つまり、クォーター・ピクチャレート・フラグにより、時間解像度を1/4にダウンスケーリングする際に選択すべきピクチャを識別できる。
【0053】
例えば、表示能力が60fpsの受信機200においては、ハーフ・ピクチャレート・フラグに基づいて、
図7(b)に示すように、1つおきのピクチャのみが取り出されてデコードされ、60fpsの画像データを得ることが行われる。また、例えば、表示能力が30fpsの受信機200においては、クォーター・ピクチャレート・フラグに基づいて、
図7(c)に示すように、3つおきのピクチャのみが取り出されてデコードされ、30fpsの画像データを得ることが行われる。
【0054】
「送信データ生成部の構成例」
図8は、放送局100において、上述したトランスポートストリームTSを生成する送信データ生成部110の構成例を示している。この送信データ生成部110は、画像データ出力部111と、ビデオエンコーダ112と、音声データ出力部115と、オーディオエンコーダ116と、マルチプレクサ117を有している。
【0055】
画像データ出力部111は、種々の画像サービスに対応した画像データを出力する。画像サービスとしては、有効画素数が1920×1080であるHD画像サービス、有効画素数が水平、垂直にそれぞれ2倍、4倍である4K、8K等の空間的な超高解像度画像のサービス(超高精細サービス)などがある。また、画像サービスとしては、例えば、フレーム周波数が30Hzである画像サービス、フレーム周波数が60Hz、120Hz等の時間的な超高解像度画像のサービス(超高精細サービス)などがある。この画像データ出力部111は、例えば、被写体を撮像して画像データを出力するカメラ、あるいは記憶媒体から画像データを読み出して出力する画像データ読み出し部などにより構成される。
【0056】
ビデオエンコーダ112は、画像データ出力部111から出力される画像データに対して、例えば、MPEG4−AVC(MVC)、MPEG2video、あるいはHEVCなどの符号化を施して、符号化画像データを得る。また、このビデオエンコーダ112は、後段に備えるストリームフォーマッタ(図示せず)により、この符号化画像データを含むビデオストリーム(ビデオエレメンタリストリーム)を生成する。
【0057】
この場合、例えば、超高精細サービスの画像データに関しては、後方互換性(backward compatible)を保証するためにスケーラブル符号化される場合もあるが、スケーラブル符号化されない場合もある。スケーラブル符号化されない場合、ビデオエンコーダ112は、この超高精細サービスに対応していない受信機の便宜のため、空間的および/または時間的な解像度のダウンスケーリングのための補助情報を、ビデオストリームに挿入する。
【0058】
音声データ出力部115は、画像データに対応した音声データを出力する。この音声データ出力部115は、例えば、マイクロホン、あるいは記憶媒体から音声データを読み出して出力する音声データ読み出し部などにより構成される。オーディオエンコーダ116は、音声データ出力部115から出力される音声データに対して、MPEG−2 Audio、AAC等の符号化を施し、オーディオストリーム(オーディオエレメンタリストリーム)を生成する。
【0059】
マルチプレクサ117は、ビデオエンコーダ112、グラフィクスエンコーダ114およびオーディオエンコーダ116で生成された各エレメンタリストリームをパケット化して多重し、トランスポートストリームTSを生成する。この場合、それぞれのPES(Packetized Elementary Stream)のヘッダには、受信側における同期再生のために、PTS(Presentation Time Stamp)が挿入される。
【0060】
マルチプレクサ117は、超高精細サービスの画像データをスケーラブル符号化しないで送信する場合、トランスポートストリームTSのレイヤに、空間的および/または時間的に可能な比率の解像度のダウンスケーリングを示すダウンスケーリング情報を挿入する。例えば、このダウンスケーリング情報は、トランスポートストリームTSに含まれるプログラム・マップ・テーブル(PMT:Program Map Table)のビデオエレメンタリ・ループ(Video ES loop)の配下に挿入される。
【0061】
また、マルチプレクサ117は、トランスポートストリームTSのレイヤに、ビデオストリームによる超高精細サービスを少なくとも番組単位で識別できるように識別情報を挿入する。例えば、この実施の形態において、マルチプレクサ117は、トランスポートストリームTSのレイヤに、ビデオストリームに含まれる画像データの空間的および/または時間的な解像度情報を挿入する。例えば、この解像度情報は、トランスポートストリームTSに含まれるイベント・インフォメーション・テーブル(EIT:Event Information Table)の配下に挿入される。
【0062】
図8に示す送信データ生成部110の動作を簡単に説明する。画像データ出力部111から出力される種々の画像サービスに対応した画像データは、ビデオエンコーダ112に供給される。このビデオエンコーダ112では、その画像データに対して、例えば、MPEG4−AVC(MVC)、MPEG2video、あるいはHEVCなどの符号化が施され、符号化画像データを含むビデオストリーム(ビデオエレメンタリストリーム)が生成される。このビデオストリームは、マルチプレクサ117に供給される。
【0063】
この場合、例えば、超高精細サービスの画像データに関しては、後方互換性(backward compatible)を保証するためにスケーラブル符号化される場合もあるが、スケーラブル符号化されない場合もある。スケーラブル符号化されない場合、ビデオエンコーダ112では、この超高精細サービスに対応していない受信機の便宜のため、空間的および/または時間的な解像度のダウンスケーリングのための補助情報を、ビデオストリームに挿入することが行われる。
【0064】
音声データ出力部115から出力される画像データに対応した音声データは、オーディオエンコーダ116に供給される。このオーディオエンコーダ116では、その音声データに対して、MPEG−2 Audio、AAC等の符号化が施され、オーディオストリーム(オーディオエレメンタリストリーム)が生成される。このオーディオストリームは、マルチプレクサ117に供給される。
【0065】
マルチプレクサ117では、各エンコーダから供給されるエレメンタリストリームがパケット化されて多重され、トランスポートストリームTSが生成される。この場合、それぞれのPESヘッダには、受信側における同期再生のために、PTSが挿入される。また、マルチプレクサ117では、PMTのビデオエレメンタリ・ループ(Video ES loop)の配下に、空間的および/または時間的に可能な比率の解像度のダウンスケーリングを示すダウンスケーリング情報が挿入される。また、マルチプレクサ117では、EITの配下に、ビデオストリームに含まれる画像データの空間的および/または時間的な解像度情報が挿入される。
【0066】
[補助情報、識別情報、解像度情報の構造とTS構成]
上述したように、ビデオストリームに、画像データの空間的および/または時間的な解像度のダウンスケーリングのための補助情報が挿入される。例えば、符号化方式がMPEG4−AVCである場合、または、HEVCのような、NALパケットなどの符号化構造が似通っている符号化方式である場合、この補助情報は、アクセスユニット(AU)の“SEIs”の部分に、SEIメッセージとして挿入される。
【0067】
この場合、補助情報としての動きベクトルMVの精度制限を示す情報は、SEIメッセージ(downscaling_spatial SEI message)として挿入される。また、補助情報としての時間解像度を所定の比率でダウンスケーリングする際に選択すべきピクチャを示す情報は、SEIメッセージ(picture_temporal_pickup SEI message)として挿入される。
図9(a)は、GOP(Group Of Pictures)の先頭のアクセスユニットを示しており、
図9(b)は、GOPの先頭以外のアクセスユニットを示している。SEIメッセージは、画素データが符号化されているスライス(slices)よりもビットストリーム上、早い位置に符号化されるので、受信機はSEIの内容を識別することで、それ以下のデコード処理を決定することが可能となる。
【0068】
図10(a)は、「downscaling_spatial SEI message」の構造例(Syntax)を示している。「uuid_iso_iec_11578」は、“ISO/IEC 11578:1996 AnnexA.”で示されるUUID値をもつ。「user_data_payload_byte」のフィールドに、「userdata_for_downscaling_spatial()」が挿入される。
図10(b)は、「userdata_for_downscaling_spatial()」の構造例(Syntax)を示している。この中に、「constrained_to_half_pixel_MV_flag」のフラグと、「constrained_to_integer_pixel_MV_flag」のフラグとが含まれている。「userdata_id」は、符号なし16ビットで示される識別子である。
【0069】
「constrained_to_half_pixel_MV_flag」のフラグは、
図11に示すように、“1”であるとき、動きベクトルMVの精度が1/2ピクセル精度に制限されていることを示す。また、「constrained_to_integer_pixel_MV_flag」のフラグは、
図11に示すように、“1”であるとき、動きベクトルMVの精度が整数ピクセル精度に制限されていることを示す。
【0070】
図12(a)は、「picture_temporal_pickup SEI message」の構造例(Syntax)を示している。「uuid_iso_iec_11578」は、“ISO/IEC 11578:1996 AnnexA.”で示されるUUID値をもつ。「user_data_payload_byte」のフィールドに、「userdata_for_picture_temporal()」が挿入される。
図12(b)は、「userdata_for_picture_temporal()」の構造例(Syntax)を示している。この中に、「half picture rate flag」のフラグと、「quarter picture rate flag」のフラグとが含まれている。「userdata_id」は、符号なし16ビットで示される識別子である。
【0071】
「half picture rate flag」のフラグは、
図13に示すように、“1”であるとき、時間解像度が1/2の表示能力を持つデコーダで取り出してデコードすべきピクチャであることを示す。また、「quarter picture rate flag」のフラグは、
図13に示すように、“1”であるとき、時間解像度が1/4の表示能力を持つデコーダで取り出してデコードすべきピクチャであることを示す。
【0072】
また、上述したように、例えば、トランスポートストリームTSのプログラム・マップ・テーブル(PMT)のビデオエレメンタリ・ループ(Video ES loop)の配下に、ビデオストリームに、上述した画像データの空間的および/または時間的な解像度のダウンスケーリングのための補助情報が挿入されていることを示す識別情報が挿入される。
【0073】
図14は、この識別情報としてのダウンスケーリング・デスクリプタ(downscaling_descriptor)の構造例(Syntax)を示している。また、
図15は、このダウンスケーリング・デスクリプタ(downscaling_descriptor)の変形構造例(Syntax)を示している。
図16は、それらの構造例における主要な情報の内容(Semantics)を示している。
【0074】
「downscaling_descriptor_tag」の8ビットフィールドは、デスクリプタタイプを示し、ここでは、ダウンスケーリング・デスクリプタであることを示す。「downscaling_descriptor_length」の8ビットフィールドは、デスクリプタの長さ(サイズ)を示し、デスクリプタの長さとして以降のバイト数を示す。
【0075】
「downscaling_type」の2ビットフィールドは、ダウンスケーリング・タイプを示す。例えば、“01”は、時間的な解像度のダウンスケーリングを示し、 “10”は空間的な解像度のダウンスケーリングを示し、“11”は時間的および空間的な解像度のダウンスケーリングを示す。
【0076】
「downscaling_type」が“01”,“11”であるとき、「temporal_downscaling_factor」の2ビットフィールドが有効なものとなる。この2ビットフィールドは、時間的な解像度のダウンスケーリングで可能な比率(ダウンスケール)を示す。例えば、“00”はダウンスケーリングが不可能であることを示す。また、“01”は1/2の比率のダウンスケーリングが可能であることを示す。“10”は1/4の比率のダウンスケーリングが可能であることを示すが、併せて1/2の比率のダウンスケーリングも可能であることを示す。なお、「temporal_downscaling_factor」が“01”,“10”であることは、ビデオストリームに時間的な解像度のダウンスケーリングのための補助情報が挿入されていることも示す。
【0077】
また、「downscaling_type」が“10”,“11”であるとき、「spatial_downscaling_factor」の2ビットフィールドが有効なものとなる。この2ビットフィールドは、空間的な解像度のダウンスケーリングで可能な比率(ダウンスケール)を示す。例えば、“00”はダウンスケーリングが不可能であることを示す。また、“01”は水平、垂直に1/2の比率のダウンスケーリングが可能であることを示す。“10”は水平、垂直に1/4の比率のダウンスケーリングが可能であることを示すが、併せて1/2の比率のダウンスケーリングも可能であることを示す。なお、「spatial_downscaling_factor」が“01”,“10”であることは、ビデオストリームに空間的な解像度のダウンスケーリングのための補助情報が挿入されていることも示す。
【0078】
「spatial resolution class type」の3ビットフィールドは、送信画像データの空間的な解像度のクラスタイプを示す。例えば、“001”は、1920×1080、つまりHD解像度であることを示す。また、例えば、“010”は、3840×2160、つまり4K解像度であることを示す。また、例えば、“011”は、7680×4320、つまり8K解像度であることを示す。
【0079】
「temporal resolution class type」の3ビットフィールドは、送信画像データの時間的な解像度のクラスタイプを示す。例えば、“001”は、24Hz,25Hz,29.97Hz,30Hzなどを示し、“010”は50Hz,59.94Hz,60Hzなどを示し、“011”は100Hz,120Hzなどを示し、“100”は200Hz,240Hzなどを示す。
【0080】
また、上述したように、例えば、トランスポートストリームTSのイベント・インフォメーション・テーブル(EIT)の配下に、ビデオストリームに含まれる画像データの空間的および/または時間的な解像度情報が挿入される。
図17は、この解像度情報としてのスーパーハイリゾルーション・デスクリプタ(Super High resolution descriptor)の構造例(Syntax)を示している。また、
図18は、その構造例における主要な情報の内容(Semantics)を示している。
【0081】
「Spatial resolution class type」の3ビットフィールドは、送信画像データの空間的な解像度のクラスタイプを示す。例えば、“001”は、1920×1080、つまりHD解像度であることを示す。また、例えば、“010”は、3840×2160、つまり4K解像度であることを示す。また、例えば、“011”は、7680×4320、つまり8K解像度であることを示す。
【0082】
「Temporal resolution class type」の3ビットフィールドは、送信画像データの時間的な解像度のクラスタイプを示す。例えば、“001”は、24Hz,25Hz,29.97Hz,30Hzなどを示し、“010”は50Hz,59.94Hz,60Hzなどを示し、“011”は100Hz,120Hzなどを示し、“100”は200Hz,240Hzなどを示す。
【0083】
「Backward_compatible_type」の2ビットフィールドは、送信画像データに関して、後方互換性(Backward compatible)が保証されているか否かを示す。例えば、“00”は後方互換性が保証されていないことを示す。“01”は空間的な解像度についての後方互換性が保証されていることを示す。この場合、送信画像データは、例えば、空間的な解像度に関してスケーラブル符号化がされている。“10”は時間的な解像度についての後方互換性が保証されていることを示す。この場合、送信画像データは、例えば、時間的な解像度に関してスケーラブル符号化がされている。
【0084】
「lower_capable_decoder_support_flag」のフラグ情報は、送信画像データの空間的および/または時間的な解像度に対応していない低能力デコーダのためのサポートがされているか否かを示す。例えば、“0”はサポートされていないことを示す。“1”はサポートされていることを示す。例えば、上述したように、ビデオストリームに画像データの空間的および/または時間的な解像度のダウンスケーリングのための補助情報が挿入される場合には、このフラグ情報は“1”となる。
【0085】
図19は、トランスポートストリームTSの構成例を示している。トランスポートストリームTSには、ビデオエレメンタリストリームのPESパケット「PID1:video PES1」と、オーディオエレメンタリストリームのPESパケット「PID2:Audio PES1」が含まれている。このビデオエレメンタリストリームに、画像データの空間的および/または時間的な解像度のダウンスケーリングのための補助情報がSEIメッセージとして挿入されている。
【0086】
この場合、補助情報としての動きベクトルMVの精度制限を示す情報は、SEIメッセージ(downscaling_spatial SEI message)(
図10参照)として挿入される。また、補助情報としての時間解像度を所定の比率でダウンスケーリングする際に選択すべきピクチャを示す情報は、SEIメッセージ(picture_temporal_pickup SEI message)(
図12参照)として挿入される。
【0087】
また、トランスポートストリームTSには、PSI(Program Specific Information)として、PMT(Program Map Table)が含まれている。このPSIは、トランスポートストリームに含まれる各エレメンタリストリームがどのプログラムに属しているかを記した情報である。また、トランスポートストリームTSには、イベント(番組)単位の管理を行うSI(Serviced Information)としてのEIT(Event Information Table)が含まれている。
【0088】
PMTには、各エレメンタリストリームに関連した情報を持つエレメンタリ・ループが存在する。この構成例では、ビデオエレメンタリ・ループ(Video ES loop)が存在する。このビデオエレメンタリ・ループには、上述の1つのビデオエレメンタリストリームに対応して、ストリームタイプ、パケット識別子(PID)等の情報が配置されると共に、そのビデオエレメンタリストリームに関連する情報を記述するデスクリプタも配置される。
【0089】
このPMTのビデオエレメンタリ・ループ(Video ES loop)の配下に、ダウンスケーリング・デスクリプタ(downscaling_descriptor)(
図14参照)が挿入されている。このデスクリプタは、上述したように、ビデオストリームに画像データの空間的および/または時間的な解像度のダウンスケーリングのための補助情報が挿入されていることを示すものである。
【0090】
また、EITの配下に、スーパーハイリゾルーション・デスクリプタ(Super High resolution descriptor)(
図17参照)。このデスクリプタは、上述したように、ビデオストリームによる超高精細サービスを少なくとも番組単位で識別するための識別情報を構成している。具体的には、このデスクリプタは、送信画像データの空間的および/または時間的な解像度情報が含まれている。
【0091】
「受信機の構成例」
図20は、受信機200の構成例を示している。この受信機200は、CPU201と、フラッシュROM202と、DRAM203と、内部バス204と、リモートコントロール受信部(RC受信部)205と、リモートコントロール送信機(RC送信機)206を有している。
【0092】
また、この受信機200は、アンテナ端子211と、デジタルチューナ212と、トランスポートストリームバッファ(TSバッファ)213と、デマルチプレクサ214を有している。また、この受信機200は、コーデッドバッファ215と、ビデオデコーダ216と、デコーデッドバッファ217と、ビデオRAM218と、コーデッドバッファ241と、オーディオデコーダ242と、チャネルミキシング部243を有している。
【0093】
CPU201は、受信機200の各部の動作を制御する。フラッシュROM202は、制御ソフトウェアの格納およびデータの保管を行う。DRAM203は、CPU201のワークエリアを構成する。CPU201は、フラッシュROM202から読み出したソフトウェアやデータをDRAM203上に展開してソフトウェアを起動させ、受信機200の各部を制御する。RC受信部205は、RC送信機206から送信されたリモーコントロール信号(リモコンコード)を受信し、CPU201に供給する。CPU201は、このリモコンコードに基づいて、受信機200の各部を制御する。CPU201、フラッシュROM202およびDRAM203は、内部バス204により相互に接続されている。
【0094】
アンテナ端子211は、受信アンテナ(図示せず)で受信されたテレビ放送信号を入力する端子である。デジタルチューナ212は、アンテナ端子211に入力されたテレビ放送信号を処理して、ユーザの選択チャネルに対応した所定のトランスポートストリームTSを出力する。トランスポートストリームバッファ(TSバッファ)213は、デジタルチューナ212から出力されたトランスポートストリームTSを一時的に蓄積する。このトランスポートストリームTSには、ビデオエレメンタリストリームと、オーディオエレメンタリストリームが含まれている。
【0095】
デマルチプレクサ214は、TSバッファ213に一時的に蓄積されたトランスポートストリームTSから、ビデオおよびオーディオの各ストリーム(エレメンタリストリーム)を抽出する。また、デマルチプレクサ214は、このトランスポートストリームTSから、上述のダウンスケーリング・デスクリプタ(downscaling_descriptor)と、スーパーハイリゾルーション・デスクリプタ(Super High resolution descriptor)とを抽出し、CPU201に送る。
【0096】
CPU201は、スーパーハイリゾルーション・デスクリプタから、受信画像データの空間的および時間的な解像度情報、さらに受信画像データに後方互換性(Backward Compatible)があるか否かの情報、受信画像データに低能力デコーダのためのサポートがされているか否かの情報などを把握できる。また、CPU201は、ダウンスケーリング・デスクリプタから、ビデオストリームに空間的および/または時間的な解像度のダウンスケーリング処理のための補助情報が挿入されているか否かの情報、さらには、空間的および/または時間的な解像度のダウンスケーリングにおいて可能な比率の情報などを把握できる。
【0097】
CPU201は、これらの把握情報に基づいて、受信機200におけるデコード等の処理を制御する。例えば、自身の表示能力が対応できない超高精細サービスの画像データが受信されている場合に、それがスケーラブル符号化されていないとき、CPU201は、ビデオストリームに挿入されている補助情報に基づいて、空間的および/または時間的な解像度のダウンスケーリング処理を行わせ、所望の解像度の表示画像データが得られるように、制御する。
【0098】
コーデッドバッファ215は、デマルチプレクサ214で抽出されるビデオエレメンタリストリームを一時的に蓄積する。ビデオデコーダ216は、CPU201の制御のもと、コーデッドバッファ215に記憶されているビデオストリームに対してデコード処理を行って、表示画像データを得る。なお、受信画像データの内容によっては、空間的および/または時間的な解像度のダウンスケーリング処理も不可能であり、自身の表示能力にあった解像度の表示画像データを得ることができない場合もある。
【0099】
また、ビデオデコーダ216は、ビデオストリームに挿入されているSEIメッセージを抽出し、CPU201に送る。このSEIメッセージには、「downscaling_spatial SEI message」、「picture_temporal_pickup SEI message」も含まれる。CPU201は、ビデオデコーダ216で空間的および/または時間的な解像度のダウンスケーリング処理が行われる場合には、このSEIメッセージに含まれる補助情報に基づいて処理を行わせる。
【0100】
すなわち、空間的な解像度のダウンスケーリング処理を行わせる場合には、「downscaling_spatial SEI message」のSEIメッセージに含まれる動きベクトルMVの精度制限情報に基づいてダウンスケーリング処理を行わせて、処理負荷を軽減させる。一方、時間的な解像度のダウンスケーリング処理を行わせる場合には、「picture_temporal_pickup SEI message」のSEIメッセージに含まれる比率に応じた選択ピクチャ情報に基づいてダウンスケーリング処理を行わせて、処理負荷を軽減させる。
【0101】
デコーデッドバッファ217は、ビデオデコーダ216で得られた表示画像データを一時的に蓄積する。ビデオRAM218は、デコーデッドバッファ217に記憶されている表示画像データを取り込み、適宜なタイミングでディスプレイに出力する。
【0102】
コーデッドバッファ241は、デマルチプレクサ214で抽出されるオーディオストリームを一時的に蓄積する。オーディオデコーダ242は、コーデッドバッファ241に記憶されているオーディオスストリームの復号化処理を行って、復号化された音声データを得る。チャネルミキシング部243は、オーディオデコーダ242で得られる音声データに対して、例えば5.1chサラウンド等を実現するための各チャネルの音声データを得て、スピーカに供給する。
【0103】
受信機200の動作を説明する。アンテナ端子211に入力されたテレビ放送信号はデジタルチューナ212に供給される。このデジタルチューナ212では、テレビ放送信号が処理されて、ユーザの選択チャネルに対応した所定のトランスポートストリームTSが出力される。このトランスポートストリームTSは、TSバッファ213に一時的に蓄積される。このトランスポートストリームTSには、ビデオエレメンタリストリームと、オーディオエレメンタリストリームが含まれている。
【0104】
デマルチプレクサ214では、TSバッファ213に一時的に蓄積されたトランスポートストリームTSから、ビデオおよびオーディオの各ストリーム(エレメンタリストリーム)が抽出される。また、デマルチプレクサ214では、このトランスポートストリームTSから、ダウンスケーリング・デスクリプタ(downscaling_descriptor)と、スーパーハイリゾルーション・デスクリプタ(Super High resolution descriptor)とが抽出され、CPU201に送られる。CPU201では、これらのデスクリプタに含まれる情報に基づいて、受信機200におけるデコード等の処理を制御することが行われる。
【0105】
デマルチプレクサ214で抽出されるビデオストリームは、コーデッドバッファ215に供給されて一時的に蓄積される。ビデオデコーダ216では、CPU201の制御のもと、コーデッドバッファ215に記憶されているビデオストリームに対してデコード処理が行われ、自身の表示能力に合った表示画像データが得られる。
【0106】
この場合、ビデオデコーダ216では、基本ビデオストリームに挿入されている「downscaling_spatial SEI message」、「picture_temporal_pickup SEI message」なども含むSEIメッセージが抽出され、CPU201に送られる。CPU201では、ビデオデコーダ216で空間的および/または時間的な解像度のダウンスケーリング処理が行われる場合には、このSEIメッセージに含まれる補助情報に基づいて処理を行わせる。
【0107】
ビデオデコーダ216で得られた表示画像データはデコーデッドバッファ217に一時的に蓄積される。その後、ビデオRAM218では、適宜なタイミングで、デコーデッドバッファ217に記憶されている表示画像データが取り込まれ、ディスプレイに出力される。これにより、ディスプレイに画像表示が行われる
【0108】
また、デマルチプレクサ214で抽出されるオーディオストリームは、コーデッドバッファ241に供給されて一時的に蓄積される。オーディオデコーダ242では、コーデッドバッファ241に記憶されているオーディオストリームの復号化処理が行われて、復号化された音声データが得られ。この音声データはチャネルミキシング部243に供給される。チャネルミキシング部243では、音声データに対して、例えば5.1chサラウンド等を実現するための各チャネルの音声データが生成される。この音声データは例えばスピーカに供給され、画像表示に合わせた音声出力がなされる。
【0109】
上述したように、
図1に示す画像送受信システム10においては、ビデオストリームに、画像データの空間的および/または時間的な解像度のダウンスケーリングのための補助情報が挿入されて送信されるものである。そのため、超高精細サービスの画像データがスケーラブル符号化されずに送信される場合、この超高精細サービスに対応していない受信機200において、自身の表示能力に合った解像度の画像データの取得を容易に行うことができる。
【0110】
<2.変形例>
なお、上述実施の形態においては、コンテナがトランスポートストリーム(MPEG−2 TS)である例を示した。しかし、本技術は、インターネット等のネットワークを利用して受信端末に配信される構成のシステムにも同様に適用できる。インターネットの配信では、MP4やそれ以外のフォーマットのコンテナで配信されることが多い。つまり、コンテナとしては、デジタル放送規格で採用されているトランスポートストリーム(MPEG−2 TS)、インターネット配信で使用されているMP4などの種々のフォーマットのコンテナが該当する。
【0111】
また、本技術は、以下のような構成を取ることもできる。
(1)符号化画像データを含むビデオストリームを有する所定フォーマットのコンテナを送信する送信部と、
上記ビデオストリームに、上記画像データの空間的および/または時間的な解像度のダウンスケーリングのための補助情報を挿入する補助情報挿入部とを備える
送信装置。
(2)上記補助情報は、上記符号化画像データに含まれる動きベクトルの精度制限を示す情報である
前記(1)に記載の送信装置。
(3)上記補助情報は、時間解像度を所定の比率でダウンスケーリングする際に選択すべきピクチャを識別する情報である
前記(1)または(2)に記載の送信装置。
(4)上記コンテナのレイヤに、上記補助情報が上記ビデオストリームに挿入されていることを示す識別情報を挿入する識別情報挿入部をさらに備える
前記(1)から(3)いずれかに記載の送信装置。
(5)上記識別情報には、空間的および/または時間的な解像度のダウンスケーリングにおいて可能な比率を示すダウンスケーリング情報が付加されている
前記(4)に記載の送信装置。
(6)上記識別情報には、上記ビデオストリームに含まれる画像データの空間的および/または時間的な解像度情報が付加されている
前記(4)または(5)に記載の送信装置。
(7)上記コンテナはトランスポートストリームであり、
上記識別情報挿入部は、上記識別情報を、上記トランスポートストリームに含まれるプログラム・マップ・テーブルのビデオエレメンタリ・ループの配下の記述子に挿入する
前記(4)から(6)のいずれかに記載の送信装置。
(8)上記コンテナのレイヤに、上記ビデオストリームに含まれる画像データの空間的および/または時間的な解像度情報を挿入する解像度情報挿入部をさらに備える
前記(1)から(7)のいずれかに記載の送信装置。
(9)上記解像度情報には、
上記ビデオストリームに、上記画像データの空間的および/または時間的な解像度に対応していない低能力デコーダのためのサポートがされているか否かを識別する識別情報が付加されている
前記(8)に記載の送信装置。
(10)上記コンテナはトランスポートストリームであり、
上記解像度情報挿入部は、上記解像度情報を、上記トランスポートストリームに含まれるイベント・インフォメーション・テーブルの配下の記述子に挿入する
前記(8)または(9)に記載の送信装置。
(11)符号化画像データを含むビデオストリームを有する所定フォーマットのコンテナを送信するステップと、
上記ビデオストリームに、上記画像データの空間的および/または時間的な解像度のダウンスケーリングのための補助情報を挿入するステップとを備える
送信方法。
(12)符号化画像データを含むビデオストリームを有する所定フォーマットのコンテナを送信する送信部と、
上記コンテナのレイヤに、上記ビデオストリームによる超高精細サービスを少なくとも番組単位で識別できるように識別情報を挿入する識別情報挿入部とを備える
送信装置。
(13)上記識別情報には、上記画像データの空間的および/または時間的な解像度情報が含まれる
前記(12)に記載の送信装置。
(14)上記識別情報には、
上記ビデオストリームに、上記画像データの空間的および/または時間的な解像度に対応していない低能力デコーダのためのサポートがされているか否かを示すサポート情報が付加されている
前記(12)または(13)に記載の送信装置。
(15)上記コンテナはトランスポートストリームであり、
上記識別情報挿入部は、上記識別情報を、上記トランスポートストリームに含まれるイベント・インフォメーション・テーブルの配下の記述子に挿入する
前記(12)から(14)のいずれかに記載の送信装置。
(16)画像データを含むビデオストリームを有する所定フォーマットのコンテナを送信するステップと、
上記コンテナのレイヤに、上記ビデオストリームによる超高精細サービスを少なくとも番組単位で識別できるように識別情報を挿入するステップとを備える
送信方法。
(17)符号化画像データを含むビデオストリームを受信する受信部と、
上記ビデオストリームには、上記画像データの空間的および/または時間的な解像度のダウンスケーリングのための補助情報が挿入されており、
上記符号化画像データに対して、上記補助情報に基づいて空間的および/または時間的な解像度のダウンスケーリング処理を施して所望の解像度の表示画像データを得る処理部をさらに備える
受信装置。
(18)上記受信部は、上記ビデオストリームを含む所定フォーマットのコンテナを受信し、
上記コンテナのレイヤに、空間的および/または時間的な解像度のダウンスケーリングにおいて可能な比率を示すダウンスケーリング情報が挿入されており、
上記処理部は、上記ダウンスケーリング情報に基づいて、上記表示画像データを得るための上記ダウンスケーリング処理を制御する
前記(17)に記載の受信装置。
(19)上記受信部は、上記ビデオストリームを含む所定フォーマットのコンテナを受信し、
上記コンテナのレイヤに、上記ビデオストリームに含まれる画像データの空間的および/または時間的な解像度情報が挿入されており、
上記処理部は、上記解像度情報に基づいて、上記表示画像データを得るための上記ダウンスケーリング処理を制御する
前記(17)または(18)に記載の受信装置。
(20)符号化画像データを含み、該画像データの空間的および/または時間的な解像度のダウンスケーリングのための補助情報が挿入されているビデオストリームを受信するステップと、
上記符号化画像データに対して、上記補助情報に基づいて空間的および/または時間的な解像度のダウンスケーリング処理を施して所望の解像度の表示画像データを得るステップとを備える
受信方法。
【0112】
本技術の主な特徴は、ビデオストリームに画像データの空間的および/または時間的な解像度のダウンスケーリングのための補助情報(SEIメッセージ)を挿入して送信することで、受信側におけるダウンスケーリング処理の負荷軽減を可能にしたことである(
図19参照)。また、本技術の主な特徴は、コンテナ(トランスポートストリーム)のレイヤに、ビデオストリームによる超高精細サービスを少なくとも番組単位で識別できるように識別情報を挿入することで、受信側において、ビデオストリームをデコードすることなく、超高精細サービスの識別を可能にしたことである(
図19参照)。