(81)【指定国】
AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,ST,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IR,IS,JP,KE,KG,KN,KP,KR,KZ,LA,LC,LK,LR,LS,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SA,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT,TZ,UA,UG,US
ビデオストリーミング技術を提供する。本発明の第1の観点によれば、ビデオストリームは、ビデオコンテンツの符号化バージョンからのコピーによって階層データストリームの1又は複数の層のセットを形成し、階層データストリームとして形成される。このとき、少なくとも1つのビデオは、層間予測により階層データストリームの所定層の画像の少なくとも一部において合成される。本発明の第2の観点によれば、層間予測は、置換画像を挿入することによって、新たに含まれたビデオの欠落した被参照画像を置換するために用いられ、又は、新たに含まれたビデオにおける動き補償予測により欠落した画像を参照する部分は、層間予測により置換される。本発明の第3の観点によれば、ビデオストリームの非出力部分からの時間予測によるコピーによってビデオコンテンツの構成を合成する出力画像は、ビデオストリーム内において符号化順序ではなく表示順序で配置されるように、ビデオストリームに挿入される。
1又は複数のビデオ(16)を含むビデオコンテンツ(14)の符号化バージョン(12)からビデオストリーム(20)を生成するためのビデオストリーミング装置(10)であって、前記符号化バージョン(12)は前記ビデオ(16)のそれぞれについて前記ビデオ(16)が符号化された部分(18)を有し、
前記符号化バージョン(12)のコピーによって、階層データストリームにおける1又は複数の層のセット(26)を形成する手段と、
前記セット(26)の少なくとも一部からの層間予測によって、前記階層データストリームの所定層の画像の少なくとも一部における少なくとも1つの前記ビデオ(16)の構成を合成する手段とによって、
前記ビデオストリーム(20)を前記階層データストリームとして形成するように構成された、ビデオストリーミング装置(10)。
前記生成部(104)は、前記階層データストリームにおいて、前記所定時点の前の表示時点に関する新たなビデオ(116)の任意の画像を前記符号化バージョン(112)にしたがった時間予測により参照する、前記新たなビデオの各部分を、前記基準層の対応する部分からの層間予測を用いた符号化によって、置換するように構成された
請求項10に記載のビデオストリーミング装置(100)。
少なくとも1つのビデオが、前記所定時点の前及び後の前記サブセット(121)の構成にしたがって位置が変更されて、前記所定時点の前及び後の前記サブセット(121)に含まれ、
前記生成部(104)は、前記所定時点の後の表示時点に関する前記ビデオの参照画像が参照する、前記所定時点の前の表示時点に関する前記ビデオの被参照画像を、前記置換画像の領域、又は、前記ビデオの被参照画像からの時間予測により適用されかつ符号化された別の置換画像の領域に置換することで、前記ビデオの位置の変更を実現するように構成された
請求項10〜23のいずれか1項に記載のビデオストリーミング装置(100)。
前記所定層は、前記コピー上位層のセットとは別の層であり、かつ、前記コピー上位層のセットよりも上側の層であるか、或いは、前記コピー上位層のセットの中で最も上の層である
請求項25に記載のビデオストリーミング装置(100)。
前記生成部(104)は、前記コピー上位層のそれぞれが前記サブセット(121)の1つのみと関連するように前記コピー上位層のセットを生成し、かつ、前記所定時点の前及び後で前記サブセット(121)のビデオの数が一定に維持されるように構成された
請求項25又は26に記載のビデオストリーミング装置(100)。
前記生成部(104)は、前記所定時点の前及び後に前記サブセット(121)の構成要素となるビデオについて、前記サブセット(121)の任意のビデオと、前記コピー上位層のセットとの関連性を、前記所定時点の前及び後において維持するように構成された
請求項10〜27のいずれか1項に記載のビデオストリーミング装置(100)。
ビデオコンテンツ(214)の符号化バージョン(212)からビデオストリーム(220)を生成するためのビデオストリーミング装置(200)であって、前記符号化バージョン(212)は、少なくとも1つのビデオ(216)のそれぞれについて、画像の符号化順序が表示時間順序と異なるように前記ビデオ(216)が時間予測により符号化された部分(218)を有し、
前記符号化バージョン(212)のコピーによって、前記ビデオストリーム(220)の非出力部分を形成する手段と、
時間予測による前記非出力部分のコピーによって出力画像を前記ビデオストリーム(220)に挿入することで、前記ビデオ(216)の構成を合成する手段とによって、
前記ビデオストリーム(220)を形成するように構成され、
前記出力画像が前記ビデオストリーム(220)において表示時間順序で配列されるよう、前記出力画像を前記ビデオストリーム(220)に挿入するように構成された、ビデオストリーミング装置(200)。
1又は複数のビデオ(16)を含むビデオコンテンツ(14)の符号化バージョン(12)から生成されたビデオストリーム(20)であって、前記符号化バージョン(12)は前記ビデオ(16)のそれぞれについて前記ビデオ(16)が符号化された部分(18)を有し、
前記符号化バージョン(12)のコピーによって形成された1又は複数の層のセット(26)と、
前記セット(26)の少なくとも一部からの層間予測によって前記ビデオ(16)の構成が合成された部分を有する所定層と、
を備えた階層データストリームであるビデオストリーム(20)。
ビデオコンテンツ(214)の符号化バージョン(212)から生成されたビデオストリーム(220)であって、前記符号化バージョン(212)は、少なくとも1つのビデオ(216)のそれぞれについて、画像の符号化順序が表示時間順序と異なるように前記ビデオ(216)が時間予測により符号化された部分(218)を有し、
前記符号化バージョン(212)のコピーによって形成された前記ビデオストリーム(220)の非出力部分と、
前記ビデオ(216)の構成を合成するように、前記ビデオストリームに挿入された、時間予測により前記非出力部分をコピーする出力画像とを備え、
前記出力画像が表示時間順序で配列されるように前記ビデオストリーム(220)に挿入された、ビデオストリーム(220)。
TMVPの最も上の層に使用しないものとして示されない前記複数の層の画像のそれぞれに対して、前記複数の層の画像において符号化順序で判断された、TMVPの最も上の層に使用せずに符号化された前記ビデオストリームの次の画像がどの程度離れているかを示す、第3シグナリングをさらに備えた
請求項49又は50に記載のビデオストリーム。
1又は複数のビデオ(16)を含むビデオコンテンツ(14)の符号化バージョン(12)からビデオストリーム(20)を生成するためのビデオストリーミング方法であって、前記符号化バージョン(12)は前記ビデオ(16)のそれぞれについて前記ビデオ(16)が符号化された部分(18)を有し、
前記符号化バージョン(12)のコピーによって、階層データストリームにおける1又は複数の層のセット(26)を形成する形成ステップと、
前記セット(26)の少なくとも一部からの層間予測によって、前記階層データストリームの所定層の画像の少なくとも一部における少なくとも1つの前記ビデオ(16)の構成を合成する合成ステップとによって、
前記ビデオストリーム(20)を前記階層データストリームとして形成するビデオストリーミング方法。
ビデオコンテンツ(214)の符号化バージョン(212)からビデオストリーム(220)を生成するためのビデオストリーミング方法であって、前記符号化バージョン(212)は、少なくとも1つのビデオ(216)のそれぞれについて、画像の符号化順序が表示時間順序と異なるように前記ビデオ(216)が時間予測により符号化された部分(218)を有し、
前記符号化バージョン(212)のコピーによって、前記ビデオストリーム(220)の非出力部分を形成する形成ステップと、
時間予測により前記非出力部分をコピーする出力画像を前記ビデオストリーム(220)に挿入することで、前記ビデオ(16)の構成を合成する合成ステップとによって、
前記ビデオストリーム(220)を形成し、
前記出力画像が前記ビデオストリーム(220)において表示時間順序で配列されるよう、前記出力画像を前記ビデオストリーム(220)に挿入する、ビデオストリーミング方法。
コンピュータ上で動作する際に、請求項53〜55のいずれか1項に記載のビデオストリーミング方法を実行するためのプログラムコードを有する、コンピュータプログラム。
【発明を実施するための形態】
【0019】
図1は、本発明の第1の観点の一実施形態に係るビデオストリーミング装置を示す。
図1は、ビデオストリーミング装置10がビデオコンテンツ14の符号化バージョン12を受信する状況を示す。
図1では、ビデオコンテンツ14によって2つのビデオ16
1,16
2が伝送されるが、ビデオコンテンツ14によって伝送されるビデオが1又は3以上の場合にも、ビデオストリーミング装置10の有利な機能が発揮される。符号化バージョン12は、各ビデオ16
1,16
2について、ビデオ16
1,16
2が符号化される部分181,182を含む。
図1は、符号化バージョン12がビデオ16
1,16
2ごとに1つのビデオデータストリーム(即ち、ビデオ16
1,16
2ごとに個別のストリーム)から構成される場合を示しているが、これに限定されない。以下、ビデオ16の数は、変数Iを用いて示されている。さらに、符号16,18のインデックスは、
図1において個々のビデオを区別するために使用されており、
図2以降の図にもこの概念が適用される。ただし、以下の説明で特に断りのない限り、ある図で使用されている指数は、他の図で使用されている指数とは関係ない。さらに、
図1は、ビデオ16
1が部分18
1に階層的に符号化される場合を示しているが、以下に述べる当該ビデオストリーミング装置10の機能による利点は、ビデオコンテンツ14内に階層化・符号化されたビデオがない場合にも得られる。
【0020】
以下により詳細に説明するように、ビデオストリーミング装置10は、ビデオストリーム20が階層データストリームとなるように、符号化バージョン12からビデオストリーム20を形成するように構成されている。したがって、ビデオストリーム20は、複数の層L#を含む。これら層L#は、例えば下層Liが別の層Lj(i<j)に対する層間予測を形成するような(即ち、層Ljが、層Liの共通部分からの層間予測を用いて符号化されるような)階層を有してよい。
【0021】
図1のビデオストリーミング装置10は、以下により詳細に説明するように、ビデオストリーミング装置10の各機能を担う複数のモジュールを含む。ビデオストリーミング装置10は、特に、コピー形成部22及び合成部24を備えている。本明細書の最後に記載のとおり、ビデオストリーミング装置10は、例えばハードウェア、プログラマブルハードウェア又はソフトウェアで実施されてよい。したがって、コピー形成部22及び合成部24は、例えば、コンピュータプログラムの異なる部分、プログラマブルハードウェアの異なる部分、又は、集積回路の異なる部分を示すものであってよい。
【0022】
コピー形成部22は、ビデオコンテンツ14の符号化バージョン12をコピーすることによって、階層データストリーム20の1又は複数の層L0〜L2のセット26を形成する。つまり、コピー形成部22は、符号化ドメイン又は圧縮ドメイン内に(即ち、符号化ドメイン又は圧縮ドメインから離れることなく)、セット26を形成する。つまり、コピー形成部22は、ビデオのセット26をピクセル領域に復号することによって、遠回りをしない。さらに換言すると、階層データストリームの1又は複数の層のセットの形成は、圧縮ドメイン又は符号化ドメインのビデオコンテンツの符号化バージョンをコピーすることによって実現される。
【0023】
例えば、動き補償予測及び予測残差の符号化を用いて、ビデオ16
1,16
2がそれぞれ部分18
1,18
2に符号化された場合を仮定する。この場合、コピー形成部22は、符号化バージョン12からの動き補償予測パラメータ及び残差データ(即ち、各部分18
1,18
2)から、損失なく(即ち、いかなる再量子化も伴わずに)、階層データストリーム20のセット26の層に単にコピーする。これと同様のことが、例えば部分181に含まれる層間予測パラメータにも適用され、ビデオ161の下層からの上層への層間予測について説明する。コピー形成部22は、部分18
1,18
2のエントロピー圧縮フォーマットを維持するようにして、セット26の層のコピーを実行することもできる。つまり、コピー形成部22は、圧縮ドメイン内の部分18
1,18
2で、圧縮ビットドメインからのエントロピー復号化によって部分18
1,18
2のシンタックスドメインに移行することなく、動作できる。したがって、ビデオ16
1,16
2の画像間の層間予測の依存性は、ビデオストリーム20内に維持される。換言すると、コピー形成部22は、例えば、ビデオコンテンツ14のビデオ16
1,16
2を、同じ層間予測の依存性(即ち、時間予測と、もしあれば層間予測と)を用いて符号化するように、セット26の層を形成する。しかしながら、コピー形成部22は、符号化バージョン12からビデオストリーム20のセット26を形成する際に、部分18
1,18にエントロピー符号化されない、よりハイレベルのシンタックスの要素(例えば、各画像の層インデックスを記述又は定義するハイレベルシンタックスの要素や、層間予測により参照される画像の層インデックス等)を、変更してよい。
【0024】
合成部24は、実際のビデオ合成を実行する。合成部24は、
図1の場合、ビデオコンテンツ14の構成(即ち、ビデオ16
1,16
2の構成)を合成する。合成部24は、1又は複数の層のセットの少なくとも一部からの層間予測によって、階層データストリームの所定層の画像の少なくとも一部において、合成を行う。このことを説明するため、
図1では、ビデオ16
1の画像とビデオ16
2の画像とを、互いに異なるハッチング及びハッチングなしで区別している。合成部24が層間予測によって合成を行う上記部分は、コピー形成部22によってコピーされたビデオストリーム20の各層の部分と区別されるよう、クロスハッチングで示している。
【0025】
図1には、合成を実行し、クロスハッチング部分を位置決めするための、実質的に2つの代替手段が示されている。しかしながら、本発明は、
図1に示した代替手段に限定されず、他の代替手段も同様に評価することができる。
【0026】
代替手段28によれば、層間予測によって合成が実行される部分は、セット26内の層とは別の層L3の画像によって形成され、セット26内の層よりも上の層を形成し、従属性の観点から、セット26に対する層間符号化を用いて上位層を符号化することができるが、その逆は不可能である。換言すると、代替手段28によれば、セット26内の層からの予測によって合成が少なくとも部分的に実行される所定層は、セット26とは別の、セット26内の層よりも上にある。所定層L3の全ての画像は、セット26内の層からの層間予測によって合成することができる。この場合、クロスハッチング部分は、
図1に示す層L3の画像全体を空間的に包囲する。或いは、層L3の画像のサブ部分のみを、層間予測を使用してセット26内の層から予測してよい。層L3の画像の残りの部分は、例えば層間予測や時間予測を用いて、合成部24により他の手段によって合成することができる。例えば、背景は、合成部24によってこのように追加されてもよい。しかしながら、
図1は、所定層L3の画像が2つに水平に細分され、そのうちの一方が、ビデオ16
1の上層を伝送する層L2からの層間予測を用いて符号化され、他方が、ビデオ16
2を伝送する階層データストリーム20の層L0からの層間予測を用いて符号化される、ビデオ16
1,16
2の構成の例を示す。
【0027】
図1に示す代替手段30によれば、セット26の層からの層間予測を使用して合成部24によって合成が実行される部分は、セット26の最上層(
図1の場合、層L2)内にある。つまり、代替手段30の場合、層間予測によって合成が実行されるビデオストリーム20の層は、セット26の一部であり、合成が層間予測によって実行される部分は、セット26の最上層(即ち、層L2)の画像の空間サブ領域であって、層L2の画像の他の領域は、コピー形成部22による符号化バージョン12のコピーによって得られる。代替手段28の場合には、セット26の全ての層が層間予測による合成に利用可能である一方、代替手段30の場合は、層間予測による合成は単にセット26の下層(
図1の場合、層L0,L1)となる。層L2の画像の他の領域は、代替手段30にしたがって、合成部24により他の方法で(即ち、符号化バージョン12のコピーによって、或いは、従属する層L1又は層L0からの層間予測によって)は合成できないが、層間予測及び/又は時間予測を用いて例えば背景に構成を提供できる。
【0028】
ビデオ構成を合成する際の低い複雑度と高い自由度を説明するため、
図2では、実際のビデオ構成が別の層(
図1及び
図2の例では層L3)内で伝送される代替手段28の、ある時点における階層データストリーム20の画像の時点が示されている。
図2は、3つの領域から構成される層L3の画像を示し、領域32a,32bは、矢印34で示すような層間予測を用いて合成される。したがって、これらの部分は、代替手段28の場合に、
図1のクロスハッチング部分を形成する。領域32aは、層L2の画像のサブ領域36から層間予測される。領域32a,36のサイズは、サンプル、ペル又はピクセルの単位で測定した場合、互いに同じであってよい。しがたって、領域32aの場合、層間予測はアップサンプリングを含まない。
図2の例によれば、領域32bは、層L0の画像の各サブ領域38からの層間予測を用いて符号化される。ここでは、サンプルで測定された領域32bのサイズが領域38よりも大きい。したがって、アップサンプリングプロセスが層L0からの層間予測領域32bに含まれることが示されている。領域32a,32bは、合成部24によって層L3の画像の領域40に充填されるように、例示的に示されている。領域40は、先行する層L3の画像内にある対応する領域又は共通する領域に基づいてイントラ符号化又は時間予測を用いて、合成され得る。
【0029】
図2から明らかなように、
図1の合成部24は、例えば一種の背景コンテンツを表す領域32a,32b,40の位置、数、サイズ又は形状を容易に変更することができ、必要に応じてこれを中止することができる。領域32a,32bの位置及び輪郭を決める際、合成部24は、ビデオストリーム20の基礎となるコーデックによって許容されるブロックグリッドと同じものに単に一致するように制限されてもよい。対応する領域36,38の位置決めについても、変更及び/又は自由に選択することができる。つまり、領域36,38は、
図2に示すように、層L2及び層L0の全ての画像を含むことができる(即ち、層間予測の被参照画像は、全ての画像である)。一方、参照領域32aと参照領域32bとの間の位置ずれ及び被参照領域36と被参照領域38との間の位置ずれをそれぞれ補償するため、ビデオストリーミング装置10又は合成部24は、ビデオストリーム20内で、被参照領域(例えば、被参照画像のピクセル単位(即ち、層L3の現在の画像によって参照される層の画像)の位置に対する参照領域の位置のオフセットを示すオフセットパラメータを信号で送信してよい。領域32a内の位置を、層L3の画像の画素において層L3の画像の左上隅から測定して、ベクトル(x,y)と表し、オフセットパラメータがオフセットpを示してよい。その結果、領域36内の層L2のような被参照層の画像内での共通の位置(X,Y)が、層間予測のためのソースとして用いられるように、当該画像の左上隅から測定して、(q
x・x+p
x,q
y・y+p
y)となる。
【数1】
オフセットパラメータは、最上層以外の層(即ち、
図1における層L0〜L2)の各々に対し、信号pを送信してよい。
【数2】
【数3】
【数4】
【0030】
図3は、
図2と一直線上にある組成物の例を示しているが、今回は
図1の代替手段30である。最上層(ここでは層2)の画像は、3つの領域に区分されるように、合成される。領域42は、符号化バージョン12の部分181からコピーされる。領域42は、ビデオ16
1の画像全体の内容を含むことができる。しかし、クロッピングアウトも実行できる可能性がある。この場合、例えば、ビデオ16
1の画像は、切り出し可能に既に符号化されている。例えば、ビデオ16
1の上層の画像は、タイルの部分181に符号化されてよい。これらのタイルの1つ又はサブセットは、ビデオストリーム20(階層データストリーム)の層L2の領域42に入れられてよい。領域44は、
図2の領域40と同様に、イントラ符号化及び/又は時間予測によって合成部24によって合成されてもよい。領域46は、
図1のクロスハッチング部分を形成し、層L0の対応する領域48からの層間予測によって合成される。この場合においても、合成部24又はビデオストリーミング装置10は、層L0の画像のサブ領域48にある画像コンテンツを層L2の画像の領域46に正しく挿入する一方で、ビデオ16
2をビデオストリーム20(階層データストリーム)の層L0に符号化する際に用いられる動きベクトルが維持されるように、オフセットパラメータを使用してよい。
【0031】
図1及び
図2に示す代替手段30によれば、
図1及び
図3に示すように、合成部24は、層L2の画像がビデオストリーム20に符号化される経路(符号化経路又は復号化経路)を修正しなければならない場合がある。換言すると、合成部24は、コピーされた領域42が上述した符号化順序又は復号化順序にしたがって分割されないように、層L2の画像を合成してよい。換言すると、合成部24は、符号化順序又は復号化順序が、コピーされた領域42を、連続して、かつ、対応する画像コンテンツが符号化バージョン12の対応する部分181に符号化される符号化順序又は復号化順序と一致するように、層L2の画像を符号化しなければならない場合がある。この場合、コピー形成部22は、圧縮ドメイン又は符号化ドメインにおける上述のコピーによって、領域42を埋めることができる。合成部24は、コピーされた領域42の輪郭を、タイル境界と整列させることによって、上記事項を実現できる。タイルは、ビデオストリーム20(データストリーム)に符号化された画像の部分を、別々に(かつ、最も重要なことには連続的に)示す。画像の第1タイル、第2タイル、の順に、ビデオストリーム20に符号化される。したがって、画像をタイルに構成することにより、画像が符号化又は復号化において横断される符号化順序又は復号化順序を調整することが可能になる。
【0032】
しかしながら、
図3の場合であっても、例えば
図3に例示された構成を、ビデオストリーミング装置10又は合成部24によって変更してよい。
図1及び
図2に示す代替手段28,30にしたがって、合成部は、
図2及び
図3に示すように、重み付けされた予測によって、下層から導出された層間予測の画像コンテンツのブレンド、オーバーレイ、フェードイン又はフェードアウトを実行可能である。
【0033】
図1〜
図3に係る上述した実施形態に伴う利点を説明するため、ビデオ会議への適用例について以下に説明する。これにより、本願明細書の冒頭部分に記載の概念に沿った利点を明らかにする。例えば、
図4は、
図23〜
図26を参照して上述したビデオ会議タスクに、
図1〜
図3を参照して上述した概念を適用した場合に得られる、ビデオストリーム20(階層データストリーム)を示す。つまり、3つのビデオビットストリームは、ビデオコンテンツの符号化バージョン(当該符号化バージョンを基に合成が行なわれる。)を形成する。話し手のビットストリームには2つの層が存在し(
図4の大きなブロック)、他のビットストリームには1つの層が存在する(
図25と同様)。
【0034】
一例として、
図1〜
図4を参照して上述した実施形態は、例えばSHVCで提供される、拡張スケーラビリティ又はRoIスケーラビリティの概念を用いてよい。異なる参照層がシグナリングされ、画像における異なる領域を異なる参照層にマッピングするためにオフセットを追加できる。この概念は、オフセットパラメータの説明で参照した
図2及び
図3に示されている。SHVCにおいて、例えば、オフセットパラメータは、スケールド参照層オフセット及び参照領域オフセットと称される。例えば、
図4を参照されたい。ここでは、簡略化のため、3人の参加者の1人に対応する基準層L0は変更されていない。
図4では、各参加者に関するビデオが異なる層に割り当てられている。参加者1にはlayer#id=0(層L0)が割り当てられ、参加者2にはlayer#id=1(層L1)が割り当てられ、参加者3にはlayer#id=2(層L2)が割り当てられる。追加の層は、合成が行われる層、即ち所定層である。
図4の場合、この追加の層はlayer#id=3(層L3)である。ビデオコンテンツ14の符号化バージョン12の対応する部分からの残りの入力データ(即ち、参加者2のそれぞれの入力ビデオの上位層の残差データ及び/又は予測データ)は、この層に挿入される。この層L3では、合成も行われる。合成は、上述したMLCPの概念(即ち、階層化構成画像の概念)を用いる。この概念は、潜在的にスケーラブルな多数の入力ビデオビットストリームと、単一の出力スケーラブルビデオビットストリーム(即ち、階層データストリーム)を生成するための圧縮ドメインと、を処理する。圧縮ドメインは、単一のスケーラブルデコーダに供給されたときに、複数の入力ビデオビットストリームを生成する。
【0035】
上述のオフセットパラメータは、ビデオストリーム20のハイレベルシンタックスに含まれてもよい。例えば、画像パラメータセット(PPS)は、ビデオストリーミング装置又はその合成部によって、階層化出力データストリーム(ビデオストリーム20)の最上層(所定層)に対して生成されてよい。PPSは、オフセットパラメータ(例えば、スケールド参照層オフセット及び被参照領域オフセット)を含む。後者は構成のレイアウトに対応する。換言すると、多くのスケールド参照層オフセット及び潜在的に参照される被参照領域オフセットは、入力ビデオ16(
図4の場合には参加者)として含まれ、例えば各参加者に対応する又は各参加者を示す最上層の出力画像における領域を示す。
図5は、参加者のうちの2人に対して例示的に使用される
図4の遠隔会議の適用例に対し、スケーラブルオフセット(オフセットパラメータ)を使用することによる効果を示す。層L3及び層L2を介してビデオが伝達される参加者にとって、出力画像の左端の領域は、空間スケーラビリティを用いた予測(層間予測)のために層L2の画像を使用する。しかし、層L3の画像の右側部分は、
図1及び
図2に示す合成部によって提供される概念を用いる。つまり、層間予測により、層L0内の画像のコンテンツを直接コピーする。このような直接的なコピースライスは、一定のゼロ動きベクトルを有する大きな予測ブロックから構成されてよい。当該予測ブロックは、各PPS内の特定の参照層オフセット及び参照領域オフセットと組み合わせて、層L0の画像における意図された領域のサンプルを指示する。
図5に示すように、これは、被参照領域オフセットを含むことによって(例えば、ビットストリーム内のビットレートの大部分を必要とする画像の部分(関心のある領域を示す部分)を選択すること、又は、何らかの外部のシグナリング手段によって決定され得る画像の部分を選択することによって)、最も重要な部分を強調するコンテンツのサブ領域のみのコピーであってもよい。上述の実施形態では、元のコンテンツの一部が事実上「切り取られ得る」(即ち、全参加者の構成が、通常のスティッチングの解像度と一致しない、決定された解像度に適合することができる)ため、完成した画像が継ぎ合わされ、レイアウト構成が柔軟である。
【0036】
SHVCを用いる前に説明した実施形態の場合、例えば、基準層が0よりも大きい層ID(即ち、
図5の層L1と層L2)である参加者のビデオの画像に関するスライスは、SHVCのためのそれぞれのスライスヘッダの拡張がスライスヘッダに含まれるように、変更されてよい。下層からの層間予測は、これらは独立しているため(即ち、これらはそれぞれの入力ストリーム内の独立した基準層あるため)、これらの層に適用又は使用されない。
【0037】
レイアウトが変更されると(即ち、レイアウトが変化するたびに)、新しいPPSが参照層オフセット及び被参照領域オフセット(即ち、オフセットパラメータ)と共に挿入され、新しいレイアウト構成に一致するように更新される。参加者数と同数の、各参加者の基準層に対応する参照層ごとの、スケールオフセットが存在する。或いは、
図4に示すものと比較して、より多くの層を有するより複雑な構造が使用される場合、より多くの層は、有効な層識別子(SHVC内のnuh#layer#idシンタックス要素)を割り当てることを除いて、さらなる変更なしに維持される。
【0038】
上述の実施形態は、全ての入力層を維持し、かつ、nuh#layer#idの異なる値を有する非出力層(下層)を分離することを可能とし、MLCPにおける入力残差データ及び/又は予測データを回避できる点において、順応性がある。しかしながら、MLCPだけを用いて、最上層における合成を実行している(即ち、MLCPは、最上層を含む、下層の出力層の画像コンテンツをコピーするダイレクトコピースライスからのみ構成されている)。このことは、代替手段28として前述されている。
【0039】
ビデオ(
図4及び
図5の場合には参加者)のMLCP(
図4及び
図5の例では低解像度基準層)に含まれていない階層化出力データストリーム(ビデオストリーム20)における全ての層は、いつでも、時間予測を用いることができる。MLCP層(即ち、所定層)に含まれる、レイアウト変更時の位置ずれによって行われる、入力画像の残差データ及び/又は予測データに対して、時間予測は許可されない。レイアウトの変更によって影響を受けるMLCP領域では、層間予測のみが許可される。
図6は、入力画像の残差データ及び/又は予測データを有するMLCPが用いられる、典型的なレイアウト変更を示す。
図6には、MLCPの下層及び緑色領域において時間予測が中断されない様子が示されている。これにより、MLCPを使用しない場合に比べ、圧縮効率が非常に優れたものとなる。
【0040】
図6の例において、MLCPは、最高解像度で示される話し手に関するビデオの最上層の入力層の残差データ及び/又は予測データを含むことに留意されたい。したがって、この例では、MLCPは、より高い解像度のビデオの復号を可能とする話し手の追加の情報を含むスライスと、層間予測ごとの聞き手の低解像度ビデオ層のサンプル値を継承するダイレクトコピースライスとを有し得る。これは、符号30に関して上述した代替手段である。ここで、層の数は、代替手段28に比べて少なくなる。
【0041】
したがって、事実上、代替手段28又は代替手段30を選択することは設計上の選択である。代替手段28では、全ての層がMLCPから独立して保持され、入力データストリームの残差データ及び/又は予測データが、ビデオストリーム20の所定層又は最上層のMLCPに含まれない。このことは、代替手段30には当てはまらない。代替手段28によれば、MLCPは、層間予測を介して下層から再構成されたサンプルデータを使用するダイレクトコピースライスから、独立して構築される。各スケーラブル入力ビデオビットストリームの層は、適切なnuh#layer#idを書き込むことを除いて、それぞれの層の数に関係なく、変更されないまま維持される。MLCPスライス(即ち、ダイレクトコピースライス)の全ては、第1のCUが追加の(入力)残差データなしで層間予測を使用し、次のCUがスキップモードとして符号化される。つまり、MLCPスライスの全ては、残差符号化をスキップし、予測モード(即ち、層間予測)をコピーする。代替手段28において、時間ドメインにおける予測は、セット26内の全ての入力層に関して、何ら制約を受けることなく利用することができる。
【0042】
上記のMLCPの概念は、損失の状況下で、さらに使用することができる。話し手の最上層(出力層)が失われたと仮定すると、出力層の利用不可能なコンテンツを生成する(潜在的に下層のスケーリングを行う)ダイレクトコピースライスを導入することができる。このような導入は、コピースライスのMVが元の失われたスライスのMVとは完全に異なるため、TVMPが使用された場合、後続の画像に重大な影響を及ぼし得る。したがって、最上層の置換された参加者に対応するさらなるスライスは、「TMVPランダムアクセス」(TMVP予測をリセットする画像)が生じるまで、さらなるコピースライスによって削除され、置換される必要がある。
【0043】
以下、上述した実施形態に関するビットストリーム制約及びプロパティについて、いくつかの説明を行う。
【0044】
特に、上述したように、MLCPは、入力ビデオの実際の構成が達成される階層化出力データストリーム(ビデオストリーム20)の最上層又は出力層(所定層)の画像を示す。出力データストリームを表現するためにSHVCを使用する上記の特定の実施形態を実施する場合、MLCPは、代替手段30の場合は入力ビットストリームEL画像から合成され、或いは、コピースライスから生成される、SHVC EL画像である。本明細書において、コピースライスとは、下層のソース画像からの層間予測を介して、同じ時点で下層の画像内容を(完全に又は部分的に)コピーする(及び潜在的に再サンプリングする)スライスを意味する。入力ビットストリームEL内で時間的インター予測が使用される場合、上述のようなMLCPの作成のための2つの方法を用いることができる。全ての入力ビットストリームの層が出力ビットストリーム20の個々の層に入れられ、MLCPがコピースライスのみから生成されることで、代替手段28によって余分な所定層が形成されると、入力ビットストリームELの画像(即ち、層26の画像)内で時間予測を使用することは、特定の制約を課さない。しかしながら、MLCPが入力ビットストリームのEL画像のスライスデータを含み、これらのスライスが時間的インター予測を実行する他のケース30では、これらの画像は以下に説明するようにスイッチング制約を満たす必要がある。以下は、[Sanchez, Y., et al. "Low complexity cloud-video-mixing using HEVC." Consumer Communications and Networking Conference (CCNC), 2014 IEEE 11th. IEEE, 2014.]に詳述されている、入力ビットストリーム18としてのHEVC符号化ビットストリームの制約の短い要約であるが、階層化の場合にも適用される。
1)MV(動きベクトル)制約: 動きベクトルは、画像境界外のサンプル、又は、サブペルサンプル位置(エンコーダ側で呼び出されたサブペル補間フィルタカーネルが画像境界と重なる位置)を、指してはならない。
2)予測単位: 画像内の右端の予測単位は、時間動きベクトル予測(TMVP)候補に対応する動きベクトル予測候補、又は、存在しないTMVP候補の位置にある空間動きベクトル候補を、使用してはならない。
3)インループフィルタ: スライスセグメント(及び、存在する場合はタイル境界線)は、デブロッキングやSAOフィルタ等のループ内フィルタと、交差してはならない。
【0045】
適切なスケールド参照層オフセット及び参照領域オフセットのパラメータを用いた切替(又は、チューンイン、話し手の変更)時のMLCP及びその参照に対するPPSの挿入は、MLCPビットストリームのさらなる特徴である。当該オフセットパラメータは、現在のMLCPレイアウト、階層、及び、画像次元を反映する必要がある。
【0046】
図7に、
図1の代替手段30による結果として得られるビデオストリーム20を示す。ビデオストリーム20は、いくつかの層L#(ここでは、例として4つの層L0〜L3)を含むが、層L#の数は、1より大きい他の任意の数でもよい。ここで、下層(層L0〜L2)は、入力ビデオ14の符号化バージョン12からコピーされた動きベクトル70のような予測パラメータと、ビデオコンテンツの符号化バージョンからコピーされた予測残差を記述する残差データ72と、を含む。代替手段30に関する
図7の実施形態によれば、最上層も、これらのタイプの情報(即ち、動きベクトル70及び残差データ72のような、入力ビデオ14の符号化バージョン12からコピーされた予測パラメータ)を含む。さらに、
図7のビデオストリーム20は、MLCPで構成される所定層L3又は最上層L3の画像が下層L0〜L2の画像に対してどのように計測及び位置づけされるかを説明するため、下層(ここでは層L0〜L2)の各層についてのオフセットパラメータ74を含む。なお、階層データストリーム(ビデオストリーム20)は、最上層又は所定層(層L3)に対し、層間予測パラメータ76を含む。層間予測パラメータ76は、コピーされた予測パラメータ70及び残差データ72、下層(層L0〜L2)からの画像コンテンツによって符号化される層L3の画像の領域に空間的に追加するという構図を合成的に生成する。
図7の場合、層数N(ここではN=4)は、I個の入力ビデオが符号化バージョン12に符号化される層の数n=iの合計に対応する(即ち、N=Σ
in
i)。特に、階層データストリーム(ビデオストリーム20)の各層L#は、1つの入力ビデオi(0<i<i+1)に関連付けられている。また、各入力ビデオiのいくつかの層のうちの1つの層に適用可能であれば、階層データストリーム(ビデオストリーム20)の層L#と全対象の入力ビデオの層との間のマッピングに関連付けられている。下層(層0〜n−1)は、同一の入力ビデオに属する1又は複数の層のグループの単なる単位で、層間予測を介して相互にリンクされる。最上層又は所定層LNは、ここでは、入力ビデオの1つの最上層に対応する。
図7に示すように、階層データストリーム(ビデオストリーム20)は、上サイド情報78をさらに含んでよく、上サイド情報78のオプション内容については以下に説明する。
【0047】
図8は、代替手段28にしたがって得られた階層データストリーム(ビデオストリーム20)のコンテンツを示す。この例では、層L4(最上層)を除いて、コンテンツは
図7に示されたものと略一致する。
図8において、層L4(最上層)は、コピーされた予測パラメータ70又はコピーされた残差72をそれぞれ含まない。ビデオコンテンツ14の符号化バージョン12の各部分から予測パラメータ70と残差72をコピーして得られた下層(層L0〜L3)に加えて、最上層(層L4)が追加される。そのため、各入力ビデオiの層数n
iに対する階層データストリーム(ビデオストリーム20)の層数N(ここで、0<i<I+1)は、Σ
in
i+1となる。
【0048】
なお、
図7及び
図8を参照して階層データストリーム(ビデオストリーム20)の層数と入力ビデオ14の層数との関係について述べたが、階層データストリーム(ビデオストリーム20)の層数Nは、
図7及び
図8に示すものよりも小さくてもよい。入力ビデオのいくつかは、例えば空間的に継ぎ合わされてよい。これにより、階層データストリームの層数が低減される。
【0049】
換言すると、ビデオストリームは、複数の層と、シグナリング(TMVPで、最上層(即ち、ビデオストリームの最高層)で使用されない、又は、ビデオストリームのいずれの層でも使用されない、ビデオストリームの階層化画像を示すシグナリング)とを含む。動き補償時間予測を用いずに符号化されたビデオストリームの階層化画像を示すビデオストリームは、上記シグナリングに加えて、さらなるシグナリングを含んでよい。さらに、ビデオストリームは、シグナリングに加えて、ビデオストリームの各階層化画像を示すさらに別のシグナリング、又は、ビデオストリームの階層化画像において符号化順序で測定され、時間的動きベクトル予測なしで符号化されたビデオストリームの次の階層化画像がどの程度離れているかについて、(上記のように各層内で)TMVPなしで符号化されると示されていない少なくとも1つのシグナリングを含んでよい。ビデオストリームは、本明細書の実施形態のいずれかによる合成ビデオストリームであってもよい。
【0050】
図7及び
図8に関して説明したように、ビデオストリーム20(階層データストリーム)は、ハイレベルのサイド情報78を含むように、ビデオストリーミング装置10によって生成されてもよい。サイド情報78は、例えば、ビデオストリーム20の層の関連性を、入力ビデオ16(ビデオのいくつかがビデオコンテンツ14の符号化バージョン12の各部分18に階層状に符号化されている場合は、入力ビデオ16の層)に通知してよい。追加的又は代替的に、ハイレベルのサイド情報78は、貴重な情報(ビデオコンテンツ14の構成の現在のレイアウトに関する情報、即ち、ビデオストリーム20の所定層にあるMLCPの現在のレイアウトに関する情報)を提供する、ハイレベルシグナリングを含んでよい。即ち、ハイレベルのサイド情報78は、ビデオストリーム20の1又は複数の出力層における、どの話し手、入力ビデオ又はグループが、ビデオストリーム20の最上層(所定層)の画像(MLCP)のどの領域に関連しているかを、通知できる。これに加えて又は代えて、ハイレベルのサイド情報78は、受信者が制御される話し手又はレイアウトの変更を制御するために、入力ビデオ16又は話し手がビデオストリーム20内のどの解像度又は品質で利用可能であるかに関する情報を含むことができる。ハイレベルのサイド情報78によって追加的又は代替的に含めることができる、他の貴重な情報は、上述の「TMVPランダムアクセス」問題に関係するものであってよい。これについて、
図9を参照して説明する。
【0051】
図9では、ビデオコンテンツ14の符号化バージョン12のそれぞれの部分18
iに符号化された1つの例示的な入力ビデオ16
iを、階層的に示す(即ち、2つの層n
i=2を含むものとして示す)。入力ビデオ16
iのレイヤインデックスと、ビデオストリーミング装置10のコピー形成部22によってビデオ16
iの層がビデオストリーム20(階層化出力データストリーム)の層L#に階層化されている層のレイヤインデックスとを区別するために、入力ビデオ16
iの層をl#で示している。部分18
iに符号化されたビデオ16
iの画像は、「p
i,l,t」と示される(ここで、「i」はビデオ16
iを示し、「l」は入力ビデオの層(例えばl0又はl1)を示し、「t」は画像の時点を示す)。入力ビデオ16
iの最上層(ここでは層l1)の画像が時間予測及び層間予測により部分18
iに符号化され、時間動き予測(TMVP)も使用されると仮定すると、1つの画像p
i,l,t1に対する動き補償予測データは、画像p
i,l,t2(ここで、1=n
i−1:
図9における上層)の動き補償予測パラメータから時間的に予測される。
【0052】
例えばビデオ16iを伝送する階層化された入力データストリームの部分18iは、ハイレベルのサイド情報80を用いて、TMVPが使用されていない最上層l1の画像を示してよい。
図1のビデオストリーミング装置10は、サイド情報80を好適に使用してよい。ビデオストリーミング装置10への部分18iの送信中に、画像p
i,l,t3に関する部分18iのデータが失われることを推察されたい。画像p
i,l,t2は画像p
i,l,t3に基づいてTMVPを使用するが、サイド情報80は、画像p
i,l,t1がTMVPを使用しないことを通知する。層l1がビデオ16iの最上層であるとき、その画像コンテンツは、ビデオストリーム20の最上層のクロスハッチング部分に対する代替手段28又は代替手段30にしたがった層間予測コピーにより、或いは、層l1がコピー形成部22によって代替手段30にしたがって直接的にビデオストリーム20の最も上の出力層に階層化され、ビデオストリーム20のコンテンツの構成に関与する。合成部24が画像p
i,l,t3の損失を補償することは比較的容易な作業であり、合成部24は代わりに合成のために下層の画像p
i,0,t3を使用することができる。即ち、画像p
i,l,t3の画像コンテンツがコピー形成部22によって直接的に符号化され又は合成部24による層間予測によって符号化された各領域は、層間予測による下層の画像p
i,0,t3のコピーに置き換えられる。ここで、ビデオストリーミング装置10は、サイド情報80を検査し、画像p
i,l,t2がTMVPを使用すること(即ち、TMVPを使用しないものとして示されないこと)を認識する。しかしながら、画像p
i,l,t3の動きベクトル予測パラメータが失われ、画像p
i,l,t3の内容に対して単に「置換」されるため、合成部24は、画像p
i,l,t2に関しても、下層に基づく合成を置換する(即ち、置換物として合成のための画像p
i,0,t2を使用する)。しかし、サイド情報80が画像p
i,l,t1がTMVPを使用しないことを示すため、合成部24は、画像p
i,l,t1における入力ビデオ16iの最上層に基づく合成を置換することを、停止してよい(即ち、構成の合成において直接的に画像コンテンツを用いてよい)。
【0053】
さらに、サイド情報80は、TMVPを使用していないと示されていない各画像p
i,l=1,tに対し、層l1内のいくつの画像が、最上層又は任意の層においてTMVPを使用しない層llの次の画像から分離されているかを示す。このようにして、ビデオストリーミング装置10は、置換プロセスをより容易に計画してよい。例えば、通信サービスでは、サイド情報80があることで、ビットレートで安価なTMVPリセット画像をその後すぐに期待できるため、通信エンドポイントが他のエンドポイントにビットレートに応じた高価なIDR画像を送信することを要求しないようにできる(即ち、完全な予測ツールチェーンをリセットできる)。
【0054】
次に、ビデオストリーミング装置10は、サイド情報78に埋め込まれたサイド情報80を、ビデオストリーム20にコピーしてよい。ビデオストリーム20を受信するデコーダは、ビデオストリーム20内のサイド情報80に基づいて、ビデオストリーム20を復号化する復号プロセスで置換手順を拡張できる。
【0055】
或いは、サイド情報80は、ビデオストリーミング装置10によって生成された部分18iに含まれないため、ビデオストリーム20のハイレベルのサイド情報78に含まれる。
【0056】
サイド情報80は、SEIメッセージの形式で存在してもよい。SEIメッセージは、TMVPリセットがいつ発生するかを示してよい。さらなるSEIメッセージは、コピースライスが元のELスライスの代わりに参照される最上層で使用されるときにさらに復号化され得る画像の数を示してよい。これにより、多くの画像にランダムアクセスが生じない場合に、最上層ELのコンテンツがコピースライスによって置換される。
【0057】
図10は、ビデオストリーミング装置10が、ビデオストリーム20(出力階層ビデオデータストリーム)によって表される構成に組み込まれる新しいビデオに対処できることを示している。
図10には、ビデオストリーミング装置10が、Jビデオの符号化された表現を受信することが示されている。各ビデオは、n
j個(0>n
j,0<j<j+1)の層を含む。しかし、構成を合成する際に、ビデオストリーミング装置10は、構成の生成に関与するビデオのセット又はサブセットを変更する。例えば、
図10は、所定時点Tにおいて、参加するビデオが変化することを示している。時点Tの前は、例示的なビデオ「J−1」「j」「1」が、
図1〜
図9を参照して上述した技術にしたがって、階層データストリーム(ビデオストリーム20)の形成に関与する。一方、時点Tの後は、ビデオ「J−1」「k(≠j)」「1」が、階層データストリーム(ビデオストリーム20)の形成に関与する。例えば、ビデオ会議リーダー等のオペレータは、ビデオjに関連する聞き手から、ビデオkに関連する別の聞き手に切り替えることを決定する。この場合、ビデオストリーミング装置10は、ビデオkがイントラ符号化されている(即ち、時間予測を使用しない)オペレータのコマンドの受信から、次の機会に参加ビデオのサブセット内の新たに含まれたビデオkへのオペレータのコマンドを実行するように構成されてよい。この手段によって、ビデオストリーミング装置10は、ビデオ「J−1」「j」「1」を含む構成からビデオ「J−1」「k」「1」を含む構成にシームレスに切り替えることができる。
【0058】
あるビデオコンテンツの構成の合成に関するビデオのサブセットに新たなビデオを含める問題は、本明細書において続いて例示される態様の主題である。以下の説明において、この問題は、あるアプリケーション(即ち、複数のビデオに亘るパノラマビューから時間的に変化する部分を示す合成ビデオストリームのストリーミングに関するアプリケーション)を一般化して例示している。しかしながら、以下の実施形態は、
図1〜
図10のビデオストリーミング装置10が実際にイントラ符号化されたランダムアクセスの状況又は時点が存在しない時点で、参加ビデオのサブセットを変更可能とすることに、適している。以下の実施形態は、表示時間順に連続する画像の参照を単に形成するイントラ符号化画像が存在しないオープンGOP構造を用いて符号化された1以上のビデオにビデオ合成を適用する場合にも、適用可能である。むしろ、以下に説明するように、オープンGOP構造において、このようなイントラ符号化は、表示の時間順序で前の画像と後の画像との両方の時間予測の参照として機能する。以下に説明する実施形態は、1組の参加ビデオから、構成の合成に参加する別の1組のビデオに、シームレスに移行する可能性のみを形成する。
【0059】
上記問題をより詳細に説明するため、階層化パノラマストリーミングについて簡単に述べる。パノラマビデオは、従来の2Dビデオサービスで使用されていたよりも大きな視野角(例えば360度まで)のビデオコンテンツを記述する。このようなコンテンツ又はその関連部分を、ブラウザ、ビデオウォール又はヘッドマウントディスプレイ等のエンドポイントに転送することは、確立されたトランスポートスキーム及びシステムにとって、帯域幅及び待ち時間の点で、課題である。エンターテインメント、ゲーム又は監視に適用する場合、ビデオコンテンツの伝送がなされる環境条件がさらに狭まる(例えば、ライブ・ストリーミング)。
【0060】
大規模なパノラマストリーミングサービスの場合、スケーラビリティのため、メディアの必要なユーザ単位の処理を最小限に抑えることが不可欠である。このため、HEVC(非特許文献1参照)におけるタイルベースのストリーミングの概念と、関連する圧縮ドメイン処理のための異なるアプローチが確立された。例えば、パノラマビデオの送信領域及び/又は表示領域に応じた各ユーザのビデオライブエンコーディングの代わりに、余剰リソースが非常に少ない適切に符号化されたHEVCビデオタイルの中から、圧縮されたドメイン内で同等のビデオを継ぎ合わすことができる。特許文献1に記載のさらなる技術では、関心領域の変更(RoIスイッチング)を効率的に(即ち、追加のビデオコンテンツを伝送して)実行できる。つまり、以前は見えなかったパノラマビデオ領域が、ライブサービスのレイテンシ制約の下で、ユーザーエクスペリエンスを容易に妨げ得る。
【0061】
このようなシステムでは、低解像度パノラマと高解像度パノラマとの同時放送を用いたアプローチが以前から使用されており、レイテンシと帯域幅の要求に対処するために非常に価値があることが知られている([Grunheit, C., et. al. "Efficient representation and interactive streaming of high-resolution panoramic views.", Image Processing. 2002. Proceedings. 2002 International Conference on. Vol. 3. IEEE, 2002]参照)。したがって、SHVC等のスケーラブルビデオコーデックは、当該技術分野で利益をもたらすことが期待されている。
【0062】
以下に述べる実施形態は、以下に説明するように生成された参照画像の概念を階層化ビデオコーデックに導入し、帯域幅又はレイテンシに関してRoIスイッチングのより効率的な処理を可能にする。特許文献1では、タイルベースのパノラマストリーミングが使用される場合、RoIスイッチングポイントのビットレート増加を低減するため、生成された参照画像(GRP)の概念が単一層のパノラマストリーミングのコンテキストで導入される。
図11は、GRPの原理(即ち、通常の参照画像のコンテンツの置換を実行する画像)を示している。後続の画像は、以前に受信されたタイル(ビデオ領域)の時間予測を用いることができ、また、ストリーミング切替点での合成ビデオ又はスティッチドビデオ(破線ブロック)における空間的な置換がなされる。GRPは、参照にのみ用いられ、出力されない。
【0063】
したがって、GRPを使用することにより、全ての置換されたタイルの完全なイントラ画像を送信する必要がなくなり、いくつかのタイルに対して時間予測を用いることができる。つまり、RoI変更の前に既に存在する画像コンテンツに関連するが、異なる位置において、必要となる伝送ビットレートが低減する。
【0064】
したがって、以下に述べる実施形態は、とりわけ、パノラマストリーミングのための解決策を提供する。以下の実施形態は、スケーラブルビデオ技術又は階層化ビデオ技術を用いる。特に、これらの実施形態は、オープンGOP構造が使用される場合の解決法も提供する。オープンGOP構造は、例えば、ストリームのより高い圧縮効率を可能にする一方([A. Fujibayashi, TK Tan (NTT DOCOMO), "Random access support for HEVC", JCTVC-D234, 4th JCT-VC Meeting, Daegu, January 2011.]参照)、中間ストリームデコードアクセス(即ち、ランダムアクセス)を提供する。
図12は、オープンGOPの可能な符号化(GOP)構造を示す。
図12において、ビデオの画像は、左から右へ、表示時間順に示されている。矢印は、時間予測を示す。他の図と同様、
図12において、矢印は、参照シンク又は参照元の継承(即ち、時間予測を使用して予測された画像)から、時間予測によって参照される画像へ向けて、指示している。サービスのチューンイン又は参加の典型的なイベント(即ち、
図12のビデオのデコードの開始)は、ランダムアクセスと呼ばれ、
図12では「切替点」として例示的に示される。
図12から分かるように、ランダムアクセスイベントが第2のCRA画像(
図12の右側の画像)で発生すると、それに先行する全ての画像が、CRA及び前の画像(
図12にPで示す画像)に依存するが、表示時間順で、復号されない又は表示されないスキップされる画像となる。このようなアプローチは、非常に効率的であることが示されており、同じ機能のためにIDRを使用し、過去の予測を絶つクローズドGOP構造と比較して、より高い圧縮効率を提供する。新しいチャネルへのチューニングインのように途中で復号化を再開する場合、このようなアプローチは非常に有用であるが、アダプティブストリーミング又はインタラクティブストリーミングのコンテキストで切替が実行される場合、画像のスキップは有効な手段ではない。このような切替イベント(即ち、表示された関心領域(RoI)の変化)が起こるたびに、切替イベントを通してずらされても、連続したビデオが切替イベントを通して表示されなければならないので、画像を破棄する技術を使用することは許容されない。
【0065】
図13は、GRPを用いたタイルベースのストリーミングが考慮されるパノラマストリーミングにおける、オープンGOPの効果を示す。基準層(層L0)が、層L1内の選択されたタイルによって形成されるRoIの参照として使用されるパノラマビデオ全体のサムネイル表現に対応する場合、スケーラブルビデオが考慮される。
図13に示すように、層L1の図形が4つのタイルに水平に細分されている場合、GRPは元のタイルの最上層(
図13の層L1)において左にシフトする。特許文献1で説明されているとおり、ハッチングで示されている右端のタイルは、前の被参照フレーム又は他の無意味なコンテンツの画像境界の拡張を含むことになる。この破損した領域は、クロスハッチングで示されている表示時間順序(RASL)画像の次の画像に追加された新しいタイルの意味のある参照として、使用不可能である。したがって、クロスハッチングで示されている右端のタイルに対するRAP機能性を有するクローズドGOP表現が必要であり、スティッチングを実行するには、全てのタイルにクローズドGOP構造を用いる必要があり、符号化の効率が低下してしまう。オープンGOP構造が用いられる場合、後続のRASL画像(右から2番目)のクロスハッチングで示す画像領域は、更なる破損コンテンツ又は復号ドリフトに通じる
図13の通常のクロスハッチングで示すボックスで表される参照として、破損領域を使用する。この問題を解決し、オープンGOPスイッチングを可能にするため、後述の実施形態では、
図13において規則的に斜線で示したものを例えばスライスを用いた層間予測によって導出できるリザーバとして、基準層を使用する。ダイレクトコピースライスは、上述したように、層間予測を介して、下層における画像のコンテンツの直接コピーである。このようなダイレクトコピースライスは、下層画像の意図された領域のサンプルを示す、所定の静的動きベクトルを有する大きな予測ブロックから構成されてもよい。
【0066】
図14は、ビデオストリーミング装置100を示す。ビデオストリーミング装置100は、入力部102及び生成部104を含む。実施に関しては、
図1について示した注釈が、
図14についても有効である。つまり、
図14のビデオストリーミング装置100は、ハードウェア、プログラマブルハードウェア又はソフトウェアで実施されてよい。例えば、入力部102は、その機能を実現するコンピュータプログラムの一部を表す生成部104とのソフトウェアインタフェースを形成してよい。或いは、入力部102は、ソフトウェア、プログラマブルハードウェア又は特定用途向け集積回路として実装されたモジュール104を有する、1又は複数のビデオ入力部であってもよい。
【0067】
入力部102は、ビデオコンテンツ114の符号化バージョン112を受信する。符号化バージョン112は、ビデオ116
1〜116
Nのコレクション又はセットを基準品質で符号化した第1部分114
1と、ビデオ116
1〜116
Nを高品質で符号化した第2部分114
2とを含む。高品質とは、例えば、基準品質に比べ、ピクセル数で測定された解像度が高いことをいう。ビデオ116
1〜116
Nは、第1部分114
1からの層間予測を用いて又は用いずに、第2部分114
2に符号化できる。
【0068】
図1の説明と同様に、第2部分114
2は、ビデオ116
1〜116
Nごとの1つのビデオデータストリーム118
1〜118
Nから構成されてよい。第1部分114
1は、ビデオデータストリーム119を含んでよい。ビデオデータストリーム119は、
図14に例示的に示すように、空間的に継ぎ合わされる。具体的には、
図14には、ビデオ116
1〜116
Nがそれぞれパノラマビューの各部分に関連する状況(即ち、それぞれパノラマビューの一部をキャプチャーするビデオが共通のシーンに属する状況)が示されている。つまり、ビデオ116
1〜116
Nは、これらのビデオが共通のパノラマシーンの水平に分配された部分のシーケンスをキャプチャーするというような、本質的に空間的な相互関係を有してよい。
【0069】
生成部104は、高品質のビデオ116
1〜116
Nの適切なサブセットの構成を表すビデオストリーム120を生成する。
図14に示すように、適切なサブセット121は、例えば、一定の基数であってよい(即ち、ビデオ116
1〜116
Nの定数n<N(ここで、nは、パノラマビューの連続する部分を形成するように互いに隣接するパノラマビューの各部分に関連するビデオの数)を有してよい)。例えば、ビデオ116
1〜116
Nのインデックスは、各ビデオによってキャプチャーされたパノラマビューの部分の順序と一致する。サブセット121は、ビデオ116
1,116
2,...,116
Nのシーケンスにおける連続するサブシーケンスをカバーする。しかしながら、ビデオ116
1〜116
Nが、例えばビデオ会議通話における異なる参加者に関するビデオのように、その中で定義された空間関係を有することができないことを、想起すべきである。
【0070】
生成部104は、第1部分114
1のコピーによって導出された基準層L0と、ビデオの適切なサブセット121に関連する第2部分114
2の一部分のコピーによって導出された1又は複数の上位層(
図14では1つの層L1)と、を備えた階層データストリームとして、ビデオストリーム120を生成するように構成されている。例えば、第2部分114
2は、適切なサブセット121のビデオが符号化されたビデオデータストリーム118
1〜118
Nから構成される。つまり、生成部104は、ビデオのサブセット121をビデオストリーム120の1又は複数の上位層に階層化するように、圧縮ドメイン又は符号化ドメインで動作する。原理的には、サブセット121内のビデオの数は、経時的に変化してよい。サブセット121内のビデオの数は、常に、1つ、又は、1よりも大きくてよい。適切なサブセット121の構成を示すようにビデオストリーム120を合成する場合、生成部104は、
図1のビデオストリーミング装置と同様に動作してよい。つまり、復号又は圧縮された領域のサブセット121のビデオを、追加の最上層を費やすか、或いは、上位層における最高層をMLCPドメインとして(即ち、適切なサブセット121の構成が合成される所定層として)再利用することによって、ビデオストリーム120の上位層を生成する。或いは、生成部104は、サブセット121のビデオを、
図14に示すように、上位層L1の画像(即ち、1つの上位層)に空間的に階層化する。例えば、生成部104は、上位層L1の画像をタイルに空間的に細分することで、適切なサブセット121内のビデオの符号化表現118の大部分がビデオストリーム120の上位層L1に単にコピーされ、適切なサブセット121の構成になるように、上位層L1の画像にわたった符号化順序をステアリングする。
【0071】
図14の生成部104は、適切なサブセット121の変化を支持する(即ち、
図14において適切なサブセット121を示す中括弧の外側の矢印で示すように、適切なサブセット121の時間変化を支持する)。具体的には、生成部104は、所定時点における適切なサブセット121の変化を支持す。これにより、適切なサブセット121は、所定時点の前の適切なサブセット124に含まれない新たなビデオを含む。例えば、
図14を参照すると、時点Tは、ビデオ11が適切なサブセット121によって新たに含まれる時点を示す。ビデオ11は、時点Tより前の適切なサブセット121には含まれない。
【0072】
上述したように、新たに含まれるビデオ又は新たに関与するビデオにおける問題は、時間予測で必要とされるビデオの被参照画像(即ち、時間的な符号順序において、新たに含まれたビデオの未送信画像の前に位置する画像)が欠落していることにある。ビデオ116
1〜116
Nを符号化するためにオープンGOP構造が使用される場合、このような被参照画像の欠落が避けられないことさえある。
【0073】
したがって、この問題を解決するため、生成部104は、以下の2つの方法のうちの1つによって、上述の適切なサブセット121の変化を支持する。
【0074】
図14のビデオストリーム20を示す
図15Aを参照して、生成部104が動作する第1の代替手段について説明する。ビデオストリーム20は、基準層L0に加え、1つの上位層L1を含むように、生成部104によって生成される。ビデオの適切なサブセットは、空間的に継ぎ合わされた状態で、上位層内で伝送される。つまり、ビデオの適切なサブセットは、上位層L1の画像の空間的な部分に階層化される。
図15Aは、表示時間順序で上位層及び基準層における6つの連続する画像を含むビデオストリーム120の合成ビデオの時間間隔を示す。
図15Aにおいて、ビデオ116は、上述のように
図15Aの実施形態の利点がオープンGOP構造に限定されないとしても、オープンGOP構造を用いて符号化されたものと仮定される。全ての入力ビデオ116は、同じオープンGOP構造を用いて符号化されたと仮定される。表示時間順序において、示された時間間隔は、画像RASL1,CRA1,B1,P1,RASL2,CRa2を含む。CRA#画像は、イントラ符号化される。画像RASL#は、画像CRA#及び画像P#を時間予測によって参照し、各画像RASL#は、符号化順序に関する限り、参照される画像CRAでその位置を切り替える。画像B#はまた、時間予測により画像CRA及び画像Pを参照するが、ビデオストリーム20の符号化順序に関する限りは、被参照画像Pとのそれらの位置を切り替える。
図15Aでは、ビデオの適切なサブセットの変化が、時点Tにおいて変化する(即ち、画像P1とRASL2との間の表示時間順序にしたがって変化する)ものと仮定されている。時点Tのビデオ7〜10が出力データストリーム20の上位層L1の合成に関与する前に、適切なサブセットは時点Tの後のビデオ8〜11を含む。構成変更時点である時点Tまでに、生成部は、圧縮ドメイン又は符号化ドメインにおいて(即ち、符号化バージョン12のコピーによって)上位層L1の画像のそれぞれの空間タイルにビデオ7〜10を単純に階層化する。各ビデオ7〜10は、表示時間順序において、切替時点Tよりも前に、これらの画像内でその位置を保持する。したがって、符号化バージョン112からコピーされた動きベクトルパラメータが正確に適用される。ビデオは、上位層の画像内で空間的に継ぎ合わされる。適切なサブセット内のいくつかの層をビデオストリーム20に階層化する他の方法も実現可能であり、適切なサブセット内のビデオの数が1つであってもよい。しかし、この実施形態は、パノラマシーンのRoIを変更するのに使用できるが、ビデオのうちの3つ(即ち、ビデオ8〜10)は参加ビデオ内(即ち、適切なサブセット121内)に留まる一方、ビデオ7はもはやサブセットのメンバーではなくなり、ビデオ11はサブセットに新たに含まれる。画像CRA2に関する限りは、画像CRA2内のビデオ8〜10の画像コンテンツを符号化する際に動き予測が適用されないため、時点Tの後に上位層L1の画像にビデオ8〜10が示される位置の空間的シフトは問題ではない。しかしながら、合成部24は、ビデオ8〜10の場合には、基準層からの層間予測をも用いて、基準層の画像に対する画像CRA2内におけるビデオ8〜10が位置する領域間の空間的アラインメントを行うため、オフセットパラメータを調整してよい。上位層L1のCRA2におけるビデオ11の新たに含まれた画像は、そのイントラ符号化(即ち、非時間コーディング)のために圧縮ドメイン又は符号化ドメインに残ったまま、直接コピーによって実行されてもよい。画像RASL2で状況が変化する。画像RASL2は、切替時点Tの後の表示時間順序にも属し、時間予測の被参照画像として画像P1だけでなく画像CRA2をも有する。画像CRA2,RASL2においては、画像間で構図が変化するので、問題とならない。しかし、画像P1,RASL2においては、問題となる。ここで、ビデオ8,9,10は、画像P1,RASL2の両方に存在するが、空間的に変位した位置にある。ビデオ11は、画像RASL2に存在するが、画像P1には存在しない。生成部104は、位置ずれを考慮して、画像GRPをビデオストリーム20に挿入するが、画像GRPは出力されない(ビデオストリーム20には表示されない)画像である。画像RASL2は、むしろ、単に被参照画像として機能する。特に、画像GRPは、画像RASL2の被参照画像が関係している限り、画像P1を後者の役割に置換する。換言すると、
図15Aにおいて実線で描かれた曲線状の各矢印の交差によって示されるように、生成部104は、画像RASL2が画像P1の代わりに画像GRPを被参照画像として使用するようにビデオストリーム20を調整する。画像GRPは、生成部104によって、置換された被参照画像P1の対応する領域(ビデオ8〜10が時点Tよりも前に位置する領域)からの時間的コピーによって(即ち、時間予測によって)、上位層L1の画像内で、時点Tの後にビデオ8〜10が位置する領域に、合成される又は埋められる。時点Tの後のビデオ8〜10の領域に関し、画像GRPの合成又は充填は、切替時点Tの前から後までのビデオ8〜10の領域の並進シフトだけが符号化されることになるため、比較的低いビット消費で実現可能である。
【0075】
RASL2内のビデオ11の位置に対応する
図15Aのクロスハッチングで示されたGRPの残りの領域を埋める作業は、次のようにして生成部104によって解決される。特に、生成部104は、基準層L0の画像(即ち、パノラマ画像)の対応する部分からの層間予測を用いた符号化によって、この領域を埋める。このため、合成部24は、例えば、
図15AにGRP’で示された対応するGRP基準層画像を基準層L0に挿入し、当該画像のコンテンツからの常にゼロの動きベクトルフィールドを使用する時間予測を用いて、この画像GRP’基準層画像はP1に対応し、ビデオ11に対応するGRP’の部分からの層間予測を用いて、層L1のGRPのクロスハッチングされた領域をコピーする又は埋める。その結果、クロスハッチングされた領域内の画像GRPの内容に基づいて時間予測により符号化された画像RASL2におけるビデオ11に対応する領域が、現在、対応する部分を介して少なくともこのコンテンツの良好な近似を有する時点Tにおける構図の変化によりビデオストリーム20には存在しない、ビデオ11の以前に指定された参照画像の時点に対応する基準層の画像内のビデオ11に転送される。
【0076】
図15Aにおいて、生成部104は、
図15Aに示される画像GRPを2つの画像GRPに分割するように構成できることに留意されたい。2つの画像GRPの一方は、クロスハッチング領域を符号化せずに残してビデオ8〜10の領域シフトを実行し、ビデオ8〜10を伝送する画像RASL2の符号化された領域として機能する。2つの画像GRPの他方は、ビデオ8〜10の新たな位置に関する領域である限りは、「ドントケア」の方式で充填されるが、クロスハッチング領域(即ち、切替時点Tの後に上位層L1の画像にビデオ11が示される領域)に関する限りは、上述した基準層に基づく層間予測を用いて埋められて、ビデオ11を伝送する画像RASL2の符号化された領域に対する参照画像の役割を担う。
【0077】
換言すると、
図15Aの例にしたがって動作する
図14の生成部104の場合、生成部104は、出力階層データストリーム(ビデオストリーム120)の上位層L1の画像を、固定数s(<N;例えばs=4)の領域又はタイルに細分する。当該領域又はタイルに、ビデオ116
1〜116
Nにおける固定数sのビデオの時間変化する適切なサブセット121が階層化される。上記タイルは、圧縮ドメイン又は符号化ドメインで、即ちコード変換されずに、生成部104によって埋められる。これは、
図2〜
図4を参照して上述したように(つまり、少なくとも予測パラメータ及び残差データに関しては、ビデオストリーム120の上位層にサブセット121のビデオを略そのまま記述するスライスを、ビデオストリーム120の上位層L1に適用することによって)、行うことができる。これにより、ビデオストリーム120の上位層における出力画像の上記のsタイルが記述される(
図15Aの実線参照)。同様に、生成部104は、圧縮ドメイン又は符号化ドメインに残すことによって、ビデオストリーム120の基準層L0を形成する。これにより、例えば、予測パラメータ及び残差データが、ビデオストリーム120の基準層L0に単純にコピーされる。生成部104は、切替時点Tごとに、階層化画像(即ち、関連する基準層の画像GRP’を有する上位層の画像GRP)をビデオストリーム20に挿入する。これら画像のうち、少なくとも上位層の画像GRPは、非出力タイプである。画像GRPでは、新たに含まれたビデオの位置に対応する領域又はタイル(
図15Aの例では、ビデオ11)が、合成的に埋められる。この目的のため、生成部104は、切替時点Tに先立って存在する新たに含まれたビデオの参照画像のコンテンツをこのタイルにコピーする。したがって、切替時点に後続する新たに含まれたビデオの画像によって参照される。生成部104は、画像GRP,GRP’が、ビデオストリーム120によって実際には含まれていない元の参照画像のために、新たに含まれたビデオの参照画像によって参照されるように、画像GRP,GRP’をビデオストリーム120に挿入する。別の画像GRP,GRP’又はこれら画像の残りのタイルは、時点Tに新たなビデオを導入又は含ませるため、或いは、時点Tに亘って連続的に含まれる複数のビデオと上位層L1の画像のタイルとの関連性を空間的に再配置又は変更するため、生成部104によって使用される。具体的には、上記目的のため、生成部104は、時間予測を用いて、ビデオストリーム120の上位層L1の画像内のタイルを並進的にシフトする。ここで、時点Tに亘って連続的に含まれる複数のビデオは、ビデオとタイルとの別の関連性によって配置され、連続的に含まれるビデオの参照画像としての役割において上位層L1の画像と置換される。基準層のコピーは、GRP’を使用した迂回を介して、上述のように実行される。GRP’は、ビデオのコレクションのコピーを基準品質で提供する。新たに含まれたビデオの対応する部分は、新たに含まれたビデオに関連付けられたタイルにおけるGRP内の層間予測によりコピーされる。
【0078】
つまり、上記代替手段によると、生成部104は、ビデオストリーム120が階層データストリームとなるように、高品質のビデオ116の適切なサブセット121の構成を表すビデオストリーム120を生成する。このとき、生成部104は、ビデオコンテンツ114の符号化バージョン112の第1部分1141のコピーによって、階層データストリームの1又は複数の基準層L0を形成し、ビデオの適切なサブセットに関連するビデオコンテンツ114の符号化バージョン112の第2部分1142の一部を、1又は複数の上位層L1に分割する。生成部104は、所定時点においける適切なサブセット121の変化を支持する。これにより、適切なサブセット121は、所定時点の前には適切なサブセット121に含まれないビデオ116を新たに含む。生成部104は、フリッカフリーの方法で(即ち、新たに含まれたビデオの欠落した画像のコンテンツのため、画像損失や構成内のブランクが生じることなしに)、適切なサブセットの変更を実現することができる。
図14の代替手段において、生成部104は、P1のような新たに含まれたビデオの参照画像を、非出力画像に置換する。ここで、参照画像は、以下の2つの条件を満たす。
1)各参照画像は、1又は複数の上位層L1にコピーされた符号化バージョンの第2部分の部分に含まれない。これは、P1が符号化順序で切替時点T1よりも前にあり、コピー元によりビデオストリームに転送されないことから、P1に該当する。
2)各参照画像は、動き予測により、1又は複数の上位層L1にコピーされた符号化バージョンの第2部分の部分に含まれる新たに含まれたビデオの任意の画像により参照される画像である。これは、P1が、例えば、符号化順序で切替時点の下流に位置すると共にコピー元によりビデオストリームに挿入されるRASL2によって参照されることから、P1に該当する。上記置換は、非出力画像を階層ビデオストリームに挿入し、参照画像(ここではRASL2)の時間予測をリダイレクトして、非出力画像を参照し、基準層に基づいて層間予測を介して非出力画像を参照画像の近似物で埋めることで、実現される。
【0079】
図14の生成部104の機能に対する別の実施形態を説明する前に、以下の点に留意されたい。つまり、
図14のビデオストリーミング装置100に関する上述の説明では、生成部104が、ビデオストリーム120の基準層内で、常に基準品質でN個のビデオの完全なセットのコレクションを伝送するが、これに限定されない。例えば、N個のビデオ116のコンテンツは、タイルの単位で基準品質の基準層の画像に符号化されてよい。生成部104は、基準層を介して伝送されるこのコレクションが、いずれの場合においても、上述したパノラマビューの例にしたがって適切なサブセット121に現在含まれているビデオの直近のビデオのような、適切なサブセット121によって新たに含まれる可能性のあるビデオの基準品質を表すタイルを含むように構成されてよい。いずれの場合においても、当該コレクションは、ビデオ116が対応する部分118への層間予測を用いて符号化されている場合には、現在適切なサブセット121内にあるビデオの基準品質の画像を含む。
【0080】
図16に、生成部104がビデオの適切なサブセット121をビデオストリーム120に(即ち、ビデオストリーム120内のビデオ毎に1つの上位層L1〜L4に)階層化する別の代替手段を用いる場合を示す。切替時点Tにおいて、生成部104は上記画像GRP,GRP’を挿入する。具体的には、適切なサブセット121のビデオと上位層L1〜L4(即ち、ビデオストリーム120の対応する層ID)のビデオとの関連性は、例えば、これらのビデオについて同じものが残るように(即ち、時点Tの前後でセット121のメンバーであるビデオである限り、時点Tに亘ってビデオを維持するように)、生成部104によって選択されてよい。新たに含まれたビデオ(
図16の例では「11」)は、残りの上位層L1と関連するように別のビデオを開始する。つまり、時点Tの前にはビデオ7が層L1に割り当てられているが、時点Tの後にはビデオ11が層L1に割り当てられる。ビデオ11の各欠落参照画像について、GRP画像が、生成部104によって層L1に挿入される。このGRP画像は、
図16にクロスハッチングで示されており、層間予測を介して(即ち、基準層L0にGPP’画像を挿入することによって)生成部104によって埋められ、次にGRP画像が参照画像の内容の近似物をコピーする。層L1内のGRP画像は、時間予測によって置換される。GRP画像へのコピーは、ゼロベクトルの一定の動きベクトルフィールドを用いて行われる。層間予測は、層L0と層L1との間の各オフセットパラメータを介して制御される。これにより、層間予測を介して、例えば、アップサンプリングを用いて、置換された参照画像の低解像度のコンテンツをGRP画像にコピーする。また、生成部104は、層L2〜L4にGRP画像を挿入してもよい。この場合、層L1〜L4に挿入されたGRP画像の全てを、時点Tの後に層L1〜L4に関連するビデオ(ビデオ8〜11)の実際の参照画像のそれぞれと置換してよい。しかしながら、層L2〜L4にGRP画像を挿入せずに、元の符号化バージョン12にしたがって層L2〜L4に参照画像を残してもよい。実際の合成は、層L5内の画像をビデオストリーム120に追加することによって、生成部104により実現される。層L5内の画像は、高品質のビデオの適切なサブセット121の実際の構成を、適切なサブセット121に含まれるビデオを伝送する層L1〜L4からの層間予測を用いて、符号化したものである。上記目的を実現するため、生成部104は、層L5と層L1〜L4との間の空間オフセット及び相対スケーリングを調整する各オフセットパラメータを、ビデオストリーム120において調整してよい。
【0081】
或いは、生成部104は、追加の層L5内の構成に対して
図1の代替手段28を用いる代わりに、
図1の代替手段30を用いて、適切なサブセット121内でビデオを伝送する層のうちの最上層において、実際の合成を実行してよい。
【0082】
以上の説明では特に述べていないが、
図14〜
図16の切替時点Tは、新たに含まれたビデオの画像の表示時間順序と符号化順序とが異なるにもかかわらず、新たに含まれたビデオの各画像の、切替時点Tの前に新たに含まれたビデオの部分(圧縮ドメイン又は符号化ドメインでビデオストリーム120にコピーされていない部分)又は切替時点Tの後に新たに含まれたビデオの部分(ビデオストリーム120にコピーされた部分)に対する関連性が、符号化順序及び表示時間順序の両方に関して等しくなるような時点である。ビデオストリーミング装置100は、例えば、オペレータや何らかの外部エンティティから生じるサブセット121の変更に対するインバウンド要求が、次の時点で行われるよう(即ち、そのような状況が生じる次の時点まで延期されるよう)スケジューリングして、当該要求を処理するように構成されてもよい。ビデオストリーミング装置100は、サブセット121の変更に対するインバウンド要求が、表示時間順序と符号化順序とに差がある場合はこれらの時間間隔が順序タイプに依存する各時点の前後に画像を導かないだけでなく、非時間的に符号化された画像も符号化順序で画像CRA2についての
図15Aの時点Tのような時点の直ぐ後に続くような、次の時点で行われるよう(即ち、次の時点まで延期されるよう)スケジューリングして、当該要求を処理するように構成されてもよい。しかしならが、これに限定されず、別の切替時点が選択されてもよい。後者の場合、切替時点Tの後に新たに含まれたビデオの部分(ビデオストリーム120にコピーされた部分)が符号化順序又は表示時間順序により選択されてよい。符号化順序が選択された場合、符号化順序において切替時点Tの後に新たに含まれたビデオの部分(ビデオストリーム120にコピーされた部分)は、新たに含まれたビデオに関連する符号化バージョンの連続部分に亘って延在する。つまり、上述の実施形態によれば、コピー形成部は、サブセットの変化ごとに1回だけ、新たに含まれたビデオに切り替える。
【0083】
図15A及び
図16の場合、GRPを用いて置換された画像は、P1(即ち、表示時間順序において切替時点Tの直前の画像。表示時間順序において切替時点Tの前の最後の画像)である。当該置換は、例えば
図15AのRASL2のように、コピーされた部分に含まれる別の画像に対する参照画像の役割に関するものであった。しかしながら、これに限定されず、出力及び参照画像の役割に関して置換を行ってもよい。置換された画像P1は、生成部104により、ビデオストリーム120において非出力画像としてマークされ得る。画像GRP,GRP’が挿入されて出力画像としてマークされ、P1の以前の表示時点において再生中の画像P1のコンテンツが置換される。画像GRPはまた、P1の代わりにRASL2によって参照される。時点Tの後に続く画像の参照画像としての役割と、出力の点とにおいて、P1を置換することが、
図15Bに示されている。
図15Bでは、
図15Aとは異なりGRP,GRP’を実線・P1を破線でを示しており、P1の以前の表示時間をGRP,GRP’に関連付けている。これに対応して、
図16も変更してよい。この手段によって、効果的な切替時点は、
図15Bに曲線矢印で示すように、効果的にプリシフトされる。挿入及び符号化に関するコストは実質的に同じである。つまり、置換画像GRPは、非出力画像ではない。むしろ、置換画像GRPは、出力画像である。置換又は参照された画像P1(即ち、RASL2によって参照される画像P1)は、非出力画像(即ち、再生中にスキップされる画像)としてマークされる。後者は、表示時間順序におけるP1とTとの間の画像の参照画像(
図15A及び
図16におけるB1)として機能してよい。複数の画像が、
図15Bに示された方法で、時点TごとにP1/GRPのように扱われることにより、複数の画像の時点によりTをプリシフトできることに言及すべきである。ビデオ116のGOP構造に応じて、1又は複数の非出力置換画像と、1又は複数の出力置換画像とが、切替時点Tごとに存在することもある。
【0084】
以上、生成部104の機能として、出力データストリーム(ビデオストリーム120)に挿入された非出力画像の領域を埋めること、切替時点Tの前に基準層の基準に基づき層間予測により参照画像を置換及び/又は再配置すること、を説明した。しかしながら、代替手段において、生成部104は、基準層からの層間予測を用いた部分を符号化することにより、所定時点の前に新たに含まれたビデオの参照画像(新たに含まれたビデオの各部分又は画像)を時間予測を介して参照する、新たに含まれたビデオの画像の各部分を、置換してよい。例えば、
図15Aにおいて、生成部104は、層L1のGRP画像のクロスハッチング領域を近似する代わりに、層L1の画像RASL2内のビデオ11に対応するタイルのコンテンツを直接的に近似してよい(即ち、新たに含まれたビデオの画像が、符号化バージョン12内の各ビデオ11のコピーによって埋められている場合に、GRPが置換すべき参照画像を参照したものであってよい)。同様に、生成部104は、
図16の画像GRP,GRP’を挿入せず、基準層の基準に基づき直接的に、層間予測を用いて層L1のビデオ11の画像コンテンツ(RASL2画像)の充填又は近似を行ってよい。
【0085】
つまり、第2の代替手段によれば、生成部104は、ビデオストリーム120が階層化されるように、高品質のビデオ116の適切なサブセット121の構成を表すビデオストリーム120を生成する。生成部104は、ビデオコンテンツ114の符号化バージョン112の第1部分1141のコピーにより、階層データストリームの1又は複数の基準層L0を形成し、かつ、ビデオの適切なサブセットに関連するビデオコンテンツ114の符号化バージョン112の第2部分1142の一部を1又は複数の上位層L1にコピーすることによって、階層データストリームの1又は複数の上位層L1を形成する。生成部104は、所定時点においける適切なサブセット121の変化を支持する。これにより、適切なサブセット121は、所定時点の前には適切なサブセット121に含まれないビデオ116を新たに含む。生成部104は、フリッカフリーの方法で(即ち、新たに含まれたビデオの欠落した画像のコンテンツのため、画像損失や構成内のブランクが生じることなしに)、適切なサブセットの変更を実現することができる。このことは、第2の代替手段に係る生成部104によって、以下の条件を満たす新たに含まれたビデオの部分が置換されることで、実現される。
1)符号化バージョンの第2部分の、1又は複数の上位層L1にコピーされた部分によって構成される部分これは、RASL2に該当する。
2)符号化バージョンの第2部分の、1又は複数の上位層L1にコピーされた部分に含まれない、新たに含まれたビデオの参照画像を時間予測により参照する部分これは、P1を参照するRASL2に該当する。P1は、符号化順序で切替時点Tの前にあり、コピー元によってコピーされないので、ビデオストリーム120には存在しない。置換は、オンザフライで実行されてもよい。即ち、コピー形成部は、合成部が後に置換する部分のコピーを実行しなくてよい。むしろ、置換と非コピーとで、コピー形成部が事前にこれら部分のコピーをスキップするようにしてもよい。置換は、上述のように基準層からの層間予測を介して得られた置換部分の近似値によって近似された部分を置換することによって行われる。
【0086】
これ以上詳細には規定しないが、Tにおける切替は、例えば、ユーザがコンピュータゲームをプレイしている間のユーザ入力によってトリガされてもよい。
【0087】
図14〜16を参照して第2実施形態を説明した後、
図17に再び利点が示されている。
図17には、
図13に関して上述した問題への解決策が示されている。特に、
図14の概念を適用すると、
図17は、ダイレクトコピースライスをGRPと組み合わせて、階層生成基準画像(MLGRP)を形成することを示している。これは、MLGRPがGRP情報(即ち、RoI切替イベント(画面移動)を補償するための移動情報)を含むいくつかのタイルからなることを意味する。タイルの情報がソース画像に適用された境界拡張手順から生じるサンプルのみからなるタイルの場合、GRPコンテンツを用いる代わりに、下層(例えば、サムネイル)へのコピー又は参照からなる(この下層の正しい領域からサンプル値を継承する)MLGRPスライスが含まれてよい。この領域は、おそらくサンプルのコピーに対応するだけでなく、例えばビデオストリーム120のPPSに定義されたスケールド参照層オフセット及び被参照領域オフセットによって定義される再サンプリングプロセスを必要としてよい。得られた層L1のMLGRP画像領域は、RASL画像による参照として用いることができる。RASL画像によって参照として用いられるMLGRPの品質によって、符号化効率が顕著に向上するにもかかわらず、次のイントラ符号化画像が生じるまで、顕著な又はわずかな復号化のドリフトは持続しない。
【0088】
MLGRPは、RoI切替時においてのみビットストリームに挿入され、後続の画像による参照のためにのみ挿入される。即ち、MLGRPはデコーダによって出力されない。
【0089】
MLGRPのビットストリームの制約と性質に関する限り、以下の点に注意されたい。
【0090】
MLGRPは、入力ビットストリームEL画像及び/又はダイレクトコピースライスから合成されたSHVCEL画像である。本明細書において、コピースライスとは、下層のソース画像からの層間予測を介して、同じ時点で下層の画像内容を(完全に又は部分的に)コピーする(及び潜在的に再サンプリングする)スライスを意味する。
【0091】
MLGRPに含まれるスライスは、時間動きベクトル予測(TMVP)を実行するための参照として用いられなくてもよい。さらに、入力EL画像スライスは、以下に述べるように、スティッチングの制約を満たす必要があってよい。以下は、[Sanchez, Y., et al. "Low complexity cloud-video-mixing using HEVC." Consumer Communications and Networking Conference (CCNC), 2014 IEEE 11th. IEEE, 2014.]で詳述されている、HEVC符号化ビットストリームの制約の短い要約であるが、階層化の場合にも適用される。
1)MV制約: 動きベクトルは、画像境界外のサンプル、又は、サブペルサンプル位置(エンコーダ側で呼び出されたサブペル補間フィルタカーネルが画像境界と重なる位置)を、指してはならない。
2)予測単位: 画像内の右端の予測単位は、時間動きベクトル予測(TMVP)候補に対応する動きベクトル予測候補、又は、存在しないTMVP候補の位置にある空間動きベクトル候補を、使用してはならない
3)インループフィルタ: スライスセグメント(及び、存在する場合はタイル境界線)は、デブロッキングやSAOフィルタ等のループ内フィルタと、交差してはならない。
4)スライスとタイル間のインループフィルタが必要であってアクティブ化されている場合、1)のMV制約は、MVが、画像境界外のサンプル、或いは、スライス又はサブペルサンプル位置にわたってインループフィルタの影響を受けるサンプル位置(エンコーダ側で呼び出されたサブペル補間フィルタカーネルが、画像境界、又は、スライスにわたってインループフィルタの影響を受けるサンプルと重複する。)を指さないよう、さらに制限される。
【0092】
適切なスケールド参照層オフセット及び参照領域オフセットのパラメータを用いたRoI切替(又は、チューンイン、又は、話し手の変更)時のMLGRP及びその参照のためのPPSの挿入は、MLGRPビットストリームのさらなる特徴であり得る。パラメータは、現在のタイルのレイアウト、層の階層化及び画像のディメンションを反映してよい。
【0093】
ビットストリーム内でシグナリングされるべき貴重な情報(例えば、SEIメッセージ)としては、MLGRPの挿入の通知がある。この情報は、復号化後のフィルタレベルを高めるため(例えば、視覚的品質への影響を最小限に抑えるため)、高度なデコーダによって使用される。
【0094】
以上を要約すると、
図14〜
図17には、ビデオの適切なサブセットをビデオストリーム120における1又は複数の上位層に、圧縮ドメイン又は符号化ドメインで階層化すること、及び、ビデオコレクションからの圧縮ドメイン又は符号化ドメインで導出された基準層に1又は複数の上位層を加えることにより、新たに含まれるビデオのために適切なサブセットの意味合いを変更することなく、複数のビデオの時変サブセットの構成を表すビデオストリームを構成することが示されている。基準層における基準品質でのビデオのコレクションは、常に全てのビデオにおいて実行される必要はない。むしろ、このコレクションは、すぐに適切なサブセットのメンバーになり得る基準品質のビデオを含んでよい。階層データストリーム(ビデオストリーム120)の基準層で伝送されるビデオのコレクションの時間変動は、上述した適切なサブセットによって新たに含まれたビデオに関して生じるものと同様の「欠落参照」の問題として、扱いが容易であり、或いは、基準層が視聴者に表示されるべき階層データストリーム120の実際のビデオコンテンツを表さないので、基準層に関しては問題ではない。このことは、ビデオストリーム120の基準層に示されるビデオのコレクションが、ビデオストリーム120の上位層内の適切なサブセット121の切替時点において、当該サブセット121の新たに含まれたビデオの欠落した参照画像のコンテンツの近似を有する場合に、該当する。
【0095】
図14は、オプションとして、ビデオストリーム120が、生成部104によって追加された追加のサイド情報又はシグナリング180であって、そのようなパノラマビューセットを伝送するビデオコンテンツ114の場合にサブセット121により現在カバーされているパノラマビューの連続部分を示す追加のサイド情報又はシグナリング180を、含むことができることを示す。各ビデオは、パノラマビューの各部分に関連付けられる。これら各部分は、図示のとおり一次元的に、又は、二次元的に、並んで分布されてよい。適切なサブセット121は、パノラマビューの連続部分をカバーするように、互いに隣接するパノラマビューの各部分に関連するビデオを含む。パノラマビューは、所定時点の前から所定時点の後に亘って移動される。シグナリング180は、例えばパノラマビューの各部分の単位(即ち、ビデオの単位等)で、パノラマビュー内の連続部分の位置を示してよい。興味深いことに、シグナリング180は、基準層からの層間予測を制御するオフセットパラメータ(上述のパラメータp,o
TL,o
BR)内に存在することに加えて、ビデオストリーム120内に存在してもよい。符号化バージョン120の第1部分114
1が、全てのビデオ116
1...116Nの画像を符号化してフルパノラマビューを示すパノラマ画像を生じるように空間的に継ぎ合わされた場合、シグナリング180は、同様であるが、より容易に、サブセット121によってカバーされるパノラマビューの連続部分の位置へのアクセスを許可する。しかしながら、上述したように、ビデオコンテンツの符号化バージョンの第1部分は、ビデオ〜116
Nの時間変化するコレクション(即ち、全ての基準層のビデオの適切なサブセットを含む基準品質のビデオのコレクション)を符号化したものであり、また、少なくとも被参照画像の前方に被参照画像のコンテンツを含むように、所定時点よりも十分に先に存在する時間から新しく含まれたビデオを少なくとも含むものであってよい。後者の場合、シグナリング180は、パノラマビューの連続部分の位置に関する知識を得るための前提条件となり得る。
【0096】
上述したように、生成部104は、新たに含まれたビデオに関する問題に対処するための手段として、基準層リザーバ(即ち、ビデオ116のコレクション又はセット)を使用する上述の代替手段の1つ又は両方を用いることができる。1つ目の手段は、ビデオストリーム120に階層化画像を挿入することである。これらの階層化画像は、上記の説明ではMLGRPと呼ばれ、階層化された非出力画像MLGRPに置換される、参照画像の時点と一致する時点のビデオのコレクションを基準品質でコピーするための基準層の画像と、切替時点の前の表示時間に属するために失われた新たに含まれたビデオの参照画像のコンテンツの基準品質の近似物を層間予測によりコピーするための上位層の画像とを含む。或いは、切替時点Tよりも前の時点に属しているために欠落している参照画像を参照する新たに含まれたビデオの画像は、生成部104による、時間的に整列された基準層の画像のビデオコレクションコンテンツからの直接的な層間予測を介したコピーによって、置換又は合成されてよい。生成部104は、例えば、両方の概念を用いてよい。例えば、
図15A、
図15B及び
図16を参照されたい。上述したように、図中にクロスハッチングで示された挿入された非出力画像GRPは、基準層の基準に基づいて構成されたものである。ここで、ビデオ11の画像RASL2は、時間予測用の参照基準である。しかし当然のことながら、クロスハッチングで示された画像に対する基準層によって導出された画像コンテンツは、単に実際の参照画像の近似物として近似された代替物に過ぎない。したがって、ビデオの時間予測された画像の連鎖が、参照画像の近似物の順方向の動き補償された符号化された変更をパスする限り、ドリフトが生じる。この場合、生成部104は、MLGRPを用いて間欠的に参照画像を置換すること、又は、新たに含まれたビデオの時間予測による画像に関して随時に新たに含まれたビデオ自体の時間予測による画像を置換することによって、時間予測の長い連鎖を回避してよい。つまり、生成部104は、新たに含まれたビデオの任意の参照画像(符号化バージョンの第2部分における1又は複数の上位層L1にコピーされる部分に含まれない画像)に時間予測の連鎖を介して依存する、新たに含まれたビデオの時間的に予測された画像に関する置換を、間欠的に繰り返してよい。例えば、符号化バージョンの第2部分における1又は複数の上位層L1にコピーされる部分に含まれ、且つ、符号化バージョンの第2部分における1又は複数の上位層L1にコピーされる部分に含まれない新たに含まれれたビデオの任意の参照画像に時間予測の連鎖を介して依存する、新たに含まれたビデオの1又は複数の被参照画像に対して、新たに含まれたビデオの画像による時間予測を上記1又は複数の被参照画像にリダイレクトし、上記1又は複数の被参照画像の代わりに非出力画像を参照するようにし、基準層の基準により層間予測を介して1又は複数の参照画像の近似物で非出力画像を埋めるようにして、階層化ビデオストリームにさらなる非出力画像を挿入してもよい。或いは、符号化バージョンの第2部分における1又は複数の上位層L1にコピーされる部分に含まれ、且つ、符号化バージョンの第2部分における1又は複数の上位層L1にコピーされる部分に含まれない新たに含まれたビデオの参照画像を時間予測の連鎖を介して参照する、新たに含まれたビデオのさらなる部分は、基準層からの層間予測を介して置換された部分の近似によって直接的に置換されてもよい。
【0097】
本発明の第3の観点に係る実施形態について以下に説明する前に、
図14〜
図17の実施形態の説明に限定されず、基準層の数は、複数であってもよいことに留意されたい。例えば、ビデオ116
1〜116
Nの基準品質の表示は、現在基準層内で伝送されているビデオのコレクション内の各ビデオにつき1つの層又は各ビデオにつき少なくとも1つの基準層において、基準層内において別々の層に伝送されてよい。
【0098】
以下に述べる実施形態によれば、合成ビデオストリームは、出力データストリームに1又は複数のビデオのリザーバを提供し、出力画像により散在されたデータストリームの非出力画像が形成されるようにリザーバをデータストリーム内で時間的に階層化することによって、1又は複数のビデオに基づいてビデオコンテンツを構成するように生成される。出力画像は、時間予測により、データストリームの非出力画像を介して伝送されるビデオコンテンツに基づいて、ビデオ構成を形成する画像である。非出力画像は、ビデオの再生時に出力されない画像としてデコーダによりマークされた画像であって、ビデオストリームの後続の画像によって参照できるようになる画像である。ここで問題となるのは、画像の符号化順序が表示時間順序とは異なる構造を用いて符号化された構成を基にしたビデオを使用する場合に、各出力画像のリザーバを形成する非出力画像の直後に合成する出力画像を単に配置すると、以下に詳述するように、合成ビデオデータストリームを復号しようとするデコーダのバッファ容量に対する要求が増大する。この問題は、以下の実施形態により解決される。
【0099】
第3の観点に係る実施形態について、先ず、ビデオビットストリーム挿入について簡単に説明する。[Skupin, R., et al. "Compressed Domain Video Compositing with HEVC", Picture Coding Symposium (PCS), 2015 IEEE 31th. IEEE, 2015.]に記載されている圧縮ドメイン内の所定のビデオビットストリームの混合技術は、完全な(又は部分的な)復号化及び符号化のサイクル、即ち符号化を行う必要なしに、複数の圧縮ビデオソースの合成を可能にする。このような技術を適用することができる多くの使用事例が存在する(例えば、ピクチャ・イン・ピクチャ、広告挿入、グラフィカル・ユーザー・インターフェース又は他の有用な情報のオーバーレイ)。バスケットボールのような実際のスポーツシーンが示されるスポーツ番組のビデオの画像の上部又は下部に、ニュースティッカーが重ね合わされた場合を想像してみる。[Skupin, R., et al. "Compressed Domain Video Compositing with HEVC", Picture Coding Symposium (PCS), 2015 IEEE 31th. IEEE, 2015.]に記載の方法では、軽量シンタックス変更操作のみを用いて、n個の入力ビデオビットストリームを共通の出力ビデオビットストリームに(空間的又は時間的に)混合し、復号化画像の各コンテンツのデコーダ出力を抑制し、さらに、所謂合成画像(CP)を(デコーダ出力用の)共通出力ビットストリームに出力する。画像CPは、画像間予測を用いて、n個の入力ビデオビットストリームの画像(即ち、画像CPの関連する抑制画像)から構成を生成する。所定の符号化ビデオビットストリームへの符号化画像の挿入を必要とする他の方法があり、後述する実施形態はピクチャバッファ要件の最小化に関連する。しかしながら、以下では、後述する実施形態の有利な態様を説明するため、[Skupin, R., et al. "Compressed Domain Video Compositing with HEVC", Picture Coding Symposium (PCS), 2015 IEEE 31th. IEEE, ]2015.に詳述された方法を一例として用いる。
【0100】
理解されるように、共通出力ビットストリームは、n個の入力ビデオストリームによって導入されたビデオデータの復号に加えて、画像CPを復号するための追加の計算資源を提供しなければならない、ターゲットビデオデコーダに対してより高い計算需要をもたらす。非特許文献1に記載のHEVC(及び、他のビデオコーデック規格)のレベルの定義は、いくつかの共通動作点(画像解像度、フレームレート、ビットレート、ピクチャバッファメモリ)に対応するように設計されているため、上記した方法がビデオデコーダに課す可能性のあるコンピュータの計算上の複雑さを抑制することが重要である。
【0101】
後述の実施形態によって対処される複雑さの負担は、デコーダに合成画像を格納することによって引き起こされるピクチャバッファメモリ要求の増加である。後述の実施形態の背景にある思想は、入力ビットストリームの画像の符号化順序(ビットストリーム順序又は予測構造)に関係なく、出力順序で、共通出力ビットストリームに構成又は出力画像を挿入し、共通出力ビットストリームの非出力画像に階層化することにある。合成画像のそのような位置決めは、デコーダ側で出力される前に合成画像を保持するのに必要な付加的な画像メモリを低減させる。
【0102】
一例として、
図18に示す予測構造を用いる。ここで、2つの単一予測フレーム(P)は、出力順に先行する画像(即ち、イントラ符号化フレーム(I))のみを用いて情報を予測する。これにより、ビットストリームの順序で画像を符号化して出力した後の出力のためにピクチャバッファメモリ内に画像を保持しなくとも、符号化順序がデコーダの出力順序に類似することになる。
【0103】
このような符号化構造が上記の混合方法のn個の入力ビットストリームで使用される場合、関連する抑制画像の直後に画像CPを挿入することにより、復号化直後に画像CPを出力することができる(即ち、n個の入力ビットストリームのみを含むビットストリームに比べ、単一の追加のピクチャバッファが必要とされるだけとなる)。1つの入力ビットストリーム(n=1)を用いて得られたビットストリームが、
図19に示されている。ここで、ハッチングされたボックスはCP(出力画像)を示し、ハッチングされていない入力ビットストリーム画像(非出力画像)はビデオデコーダによる出力から抑制された画像である。
【0104】
復号化の構造が一般的な符号化効率を高めるためにより複雑になると、例えば、
図20に示すフレーム(B)を介して、符号化順序と出力順序とが異なることとなり、出力前の参照として用いる画像を格納するピクチャバッファが多く必要となる(
図20では、各ボックスの左上隅に符号化順序を示す)。
【0105】
したがって、以前と同じように(合成に使用されるビットストリーム内の関連する抑制画像の直後に)ビットストリームにCPを追加すると、CPが他の画像の参照として用いられないにもかかわらず、出力前にCPのいくつかをビデオデコーダに格納する必要が生じる。この問題を回避するため、後述の実施形態は、n個の混合入力ビデオビットストリームと比較してピクチャバッファ要求の増加を低減できるよう、画像を挿入するように構成されている。これは、入力ビットストリームの予測構造に関係なく、出力順序でCPをビットストリームに追加することによって、達成することができる。
図21は、単一の入力ビデオビットストリーム(n=1)が階層的双予測構造を用いて得られる共通出力ビデオビットストリームを示す。
【0106】
図22には、本発明の第3の観点に係るビデオストリーミング装置200が、少なくとも1つのビデオ216
1,216
2,...,216
N(
図22では、N=3)を含むビデオコンテンツ214の符号化バージョン212を受信する状況が示されている。符号化バージョン212は、各ビデオ216
iについて、時間予測を用いてビデオ216
iが符号化される部分218iを含む。ビデオ216
iの画像間の時間予測依存性が、
図22において、参照シンク(即ち、時間予測を使用して現在符号化されている画像)から、参照源又は参照画像(これら参照画像から上記時間予測符号化画像が予測される。)まで延びる、曲線状の矢印で示されている。
図22の符号化順序を示す矢印は、ビデオ216
1〜216
3の画像が画像の表示時間順序と異なる符号化順序で示されていることを示している。これは各ビデオ216
iに該当する。特に
図22は、3つの画像を包むビデオ216
iの時間間隔を示す。
図22において、ビデオ216
1の画像はA、ビデオ216
2の画像はB、ビデオ216
3の画像はCで示されている。大文字の直後の数字は、各ビデオ216
iからの時間間隔における3つの画像を区別するものである。符号化順序では、画像は、A1、A2、A3等の符号にしたがう。表示時間順序では、画像の順序が異なり、画像A3は画像A1と画像A2との間に配置される。
図22は、全てのビデオ216
iが同じ時間的相互依存構造を有する例(即ち、画像の符号化順序と表示時間順序との差が全てのビデオ216iにおいて真であると想定する例)を示している。さらに、
図22のビデオストリーミング装置200の有利な態様は、ビデオコンテンツ214内のビデオ216
iの数(N)が1である場合にも有効であることに留意されたい。一般に、Nは任意の数でよい。ビデオ216
iが使用している上記GOP構造は、オープンGOP構造又はクローズドGOP構造であってよい。部分218
iは、
図1〜
図14を参照して上述した実施形態の説明と同様、符号化バージョン212を形成する個々のデータストリームであってよい。ビデオ216
iは、説明を容易にするため単層ビデオとして示されているが、多層ビデオであってもよいし、或いは、単層ビデオ及び多層ビデオの混合であってもよい。
【0107】
ビデオストリーミング装置200は、内部に、コピー形成部222及び合成部224を含む。実施可能性に関しては、
図1について上述した記述が成立する。つまり、ビデオストリーミング装置200は、ハードウェア、プログラマブルハードウェア又はソフトウェアを用いて実装され、それに応じてモジュール222,224が実装される。
【0108】
ビデオストリーミング装置は、符号化バージョン212のうちのビデオストリーム220を生成するように構成される。コピー形成部222は、ビデオストリーム220の非出力部分を形成する。合成部224は、非出力部分からの時間予測によって少なくとも部分的に導出された出力画像をビデオストリーム220に挿入することで、ビデオコンテンツ214の実際の構成を合成する。これにより、ビデオストリーミング装置200は、
図18〜
図21に関して動機付けされたように動作する。つまり、出力画像が、ビデオストリーム220に挿入され、表示時間順序でビデオストリーム220に配置される。
【0109】
図22は、コピー形成部222と合成部224との間の協働に係る3つの代替手段を示す。しかしながら、
図22においてローマ数字I〜IIIを用いて区別される3つの代替手段が、
図22のビデオストリーミング装置200に基づく有利な概念に係るサブセットの形成方法を示すものに過ぎないことは、明らかである。
【0110】
図22に示される全ての代替手段によれば、非出力タイプ(即ち、ビデオストリーム220の非出力部分の一部)であるビデオストリーム220のアクセスユニット又は画像は、実線で示されるA1〜C3の画像コンテンツを含むものである。合成部224に由来する(即ち、ビデオストリーム220の非出力部分の非出力画像間に散在している、ビデオストリーム220に挿入される)非出力画像は、「CP#」で示されている。挿入された出力画像は、点線のA1〜B3で示すコピーされた画像部分を用いて図示されている状況で非出力画像のいずれかを時間予測によりコピーするコピー画像を下位層又は下層に含む階層化出力画像となる場合がある。
図22に示すI〜IIIの代替手段においては、ビデオストリーム220の生成の可能性として、ビデオストリーム220の画像が、「符号化順序」と示された矢印で図示されるように、符号化順序にしたがって順序づけられている。
【0111】
代替手段Iにしたがい、コピー形成部222は、
図15Aに示されている階層化出力データストリームの上位層の形成と同様、ビデオストリーム220の画像が空間的に細分された各タイル上にビデオ216
iを階層化することによって、ビデオストリーム220の非出力部分(即ち、ビデオストリーム220の非出力画像)を形成する。つまり、代替手段Iにしたがい、ビデオストリーム220の画像は、例えばN個のタイルに空間的に細分される。各タイルは、N個のビデオ216
1〜216
N(
図22において、N=3)の1つに関連付けられる。タイルの細分化のために、符号化順序は、タイルに応じて(タイルとビデオとが1対1の関係にあるため、ビデオに応じて)ビデオストリーム220の画像を横断する。したがって、コピー形成部222は、圧縮ドメイン又は符号化ドメイン内の非出力画像のタイルを埋めることができる。この点の詳細については、
図1〜
図14等を参照して上述しており、コピー形成部222においても該当する。ビデオストリーム220内において、ビデオ216
iの画像のコンテンツによって埋められた画像は、非出力画像として示される。
【0112】
合成部224は、代替手段Iによると、これらの空間的に継ぎ合わされた非出画像(即ち、入力ビデオ216
iの画像のコンテンツを空間的に継ぎ合わせて構成された画像)と、出力画像との間の、散在の原因となる。これらの出力画像は、出力されたビデオストリーム220を介して伝送されるビデオコンテンツの実際の構成を合成する。このために、合成部224は、非出力画像からの時間予測を用いて少なくとも部分的にこれら出力画像を符号化する。
図22に示す実施形態によれば、各出力画像CP#は、非出力画像のうちの1つを一時的な参照画像の基準として排他的に使用する。したがって、
図22の「CP」の後の数字は、各出力画像CP#のコンテンツ(コンテンツA#,B#,C#)から時間予測により少なくとも部分的に生成又は合成される非出力画像を示す。合成部224は、例えば、ブロックの全部又は隣接するクラスタが非出力画像A1〜C1の各部分を並進コピーするブロックを用いて、画像又は出力画像CP1を符号化してよい。画像CP1の他のブロックは、イントラ予測を用いて又は予測を用いずに、合成部224によって符号化されてよい。ビットレートを節約するため、いくつかのブロックをスキップモードで(これにより、残差データを符号化する必要なしに、空間的に隣接するブロックからの時間予測のための動きベクトルを採用し)、符号化してもよい。このことは、上記別の2つの実施形態において記載されており、当該2つの実施形態以外の実施形態においても該当する。このようにして、合成部224はまた、出力画像CP2,CP3をビデオストリーム220に挿入する。しかしながら、これらの出力画像の順序は、表示時間順序にしたがって選択される。つまり、出力画像は、CP1,CP3,CP2の順で、ビデオストリーム220内で順序付けされる。これらの画像は、出力画像CPxの参照された非出力画像xがそれぞれビデオストリーム220内の符号化順序にしがたい出力画像CPxに先行するように、ビデオストリーム220に挿入される。このことは、
図22に示されている。
【0113】
図22に示す他の2つの選択手段により、コピー形成部222が、非出力画像の空間的に隣接するタイルにこれらビデオを階層化する以外の方法で、ビデオ216
iをビデオストリーム220の非出力部分に階層化できることは明らかである。例えば、コピー形成部222は、代わりに、時間的な階層化を用いてよい。代替手段IIにしたがい、コピー形成部222は、例えば、A1、B1、C1、A2、B2、C3、A3、B3、C3...の順で入力ビデオの画像をビデオストリーム220に階層化する。つまり、N個の入力ビデオの画像は、ビデオストリーム220の非出力画像のシーケンスにコピーされ、符号化順序で入力ビデオの次の画像を、ビデオストリーム220の非出力画像の後続のサブシーケンスにおいて分配する。サブシーケンスは、インターリーブされずに、コピー形成部222により埋められる。しかしながら、コピー形成部222は、入力ビデオの画像をビデオストリーム220の非出力画像に階層化する際に、各ビデオの画像間の時間予測の相互依存性が維持されるように注意する。コピー形成部222は、圧縮ドメイン又は符号化ドメイン内の非出力画像を埋めてよい。合成部は、1つのアクセスユニット又はピクチャカウントに属する非出力画像のシーケンス(「A1、B1、C1」「A2、B2、C2」「A3、B3、C3」のいずれか)の間に、出力画像を挿入する。当該挿入及び生成は、代替手段Iと同様に行われる。つまり、挿入は、CP1,CP3,CP2の表示時間順序にしたがい出力画像がビデオストリーム220内で順序付けされるように行われる。さらに、各出力画像は、ビデオストリーム220内で、符号化順序にしたがって、非出力画像の各サブシーケンスに続く。当該各サブシーケンスから、各出力画像が、時間予測に関する限り、時間的に排他的に予測される。
【0114】
代替手段IIIは、コピー形成部222が、入力ビデオ216
iをビデオストリーム220の異なる層L0〜L2に(合成部224が階層化された出力画像の間に挿入する、階層化された非出力画像に)階層化してもよいことを示す。例えば、層L0は複数のビデオのうちの1つに関連付けられ、層L1は複数のビデオのうちの上記1つのビデオとは別のビデオに関連付けられる。
図22におけるビデオストリーム220の最上層以外の層(層L0,L1)において、出力階層化画像は、時間予測(ゼロの動きベクトル)を用いて、関連する非出力階層化画像のコンテンツをコピーする。
図22におけるビデオストリーム220の最上層L2は、出力階層化画像内に、実際の合成されたビデオ構成(即ち、出力画像CP#)を保持する。後者(実際の合成されたビデオ構成(即ち、出力画像CP#))は、例えば、階層化出力画像の下層の時間的に予測又はコピーされたコンテンツの層間予測と、関連する階層化非出力画像からの時間予測又はコピーとの、両方を用いる合成部224によって、生成される。例えば、合成部224は、階層化出力画像の下層の画像からの時間予測又はコピーを用いて画像CP2内の合成ビデオコンテンツを生成する。これにより、画像B2,A2のコンテンツを継承し、画像数「3」に関する階層化非出力画像の上層からの時間予測を用いて、画像C2のコンテンツを継承する。
【0115】
本発明のいくつかの観点は装置として記載されているが、本発明の観点は、対応する方法として記載できることは明白である。ブロック又はデバイスが、方法に係るステップに対応する。同様に、方法のステップとして記載された態様を、対応する装置の対応するブロック、要素、特徴として表すこともできる。方法ステップの一部又は全部は、ハードウェア装置(例えば、マイクロプロセッサ、プログラマブルコンピュータ又は電子回路)によって(又は、ハードウェア装置を用いて)実行されてよい。最も重要な方法ステップのうちの1又は複数を、装置によって実行してよい。
【0116】
実施の際の要求に応じて、本発明の実施形態はハードウェア内又はソフトウェア内で実施可能である。本発明は、各方法が実行されるようにプログラマブルコンピュータシステムと協働する又は協働可能な電子的に読み取り可能な制御信号が格納されたデジタル記憶媒体(フロッピーディスク(登録商標)、DVD(登録商標)、ブルーレイ(登録商標)、CD(登録商標)、ROM、PROM、EPROM、EEPROM、フラッシュメモリ等)を用いて実行することができる。よって、デジタル記録媒体はコンピュータで読み取り可能であってもよい。
【0117】
本発明によるいくつかの実施形態は、プログラマブルコンピュータシステムと協働して、本明細書に記載の方法の1つが実行されるように、電子的に読み取り可能な制御信号を有するデータキャリアを備える。
【0118】
一般的に、本発明の実施形態は、プログラムコードを有するコンピュータプログラムとして実施可能である。プログラムコードは、コンピュータプログラムがコンピュータ上で実行される際に、本明細書の方法の1つが実行されるように動作する。プログラムコードは、例えば、機械可読なキャリアに記録されてよい。
【0119】
他の実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムがインストールされた、コンピュータを備えている。
【0120】
換言すると、本発明の方法の一実施形態は、コンピュータ上で実行される際に、本明細書の方法の1つを実行するプログラムコードを含むコンピュータプログラムである。
【0121】
本発明の方法の別の実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを記録したデータキャリア(デジタル記録媒体又はコンピュータ読み取り可能な媒体)である。データキャリア、デジタル記憶媒体又は記録された媒体は、典型的には、有形及び/又は非一過性である。
【0122】
本発明の方法の別の実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを表すデータストリーム又は信号列である。上記データストリーム又は信号列は、例えば、インターネット等のデータ通信接続を通じて伝送可能に構成されてよい。
【0123】
さらなる実施形態は、本明細書に記載の方法のうちの1つを実行するように構成され又は適用された、処理手段(例えばコンピュータ又はプログラマブル論理装置)を含む。
【0124】
他の実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムがインストールされた、コンピュータを有する。
【0125】
本発明のさらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを受信機に(例えば、電子的に又は光学的に)転送するように構成された、装置又はシステムを含む。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイス等であってよい。ビデオストリーミング装置又はシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを備えてよい。
【0126】
実施形態によっては、プログラマブル論理装置(例えば、フィールドプログラマブルゲートアレイ)が、本明細書に記載の方法のいくつか又は全ての機能を実行するために用いられてよい。実施形態によっては、フィールドプログラマブルゲートアレイは、本明細書の方法の1つを実行するためのマイクロプロセッサと協働してよい。一般に、これらの方法は、好ましくは、任意のハードウェア装置によって実行される。
【0127】
本明細書に記載の装置は、ハードウェア装置を用いて、又はコンピュータを用いて、又はハードウェア装置とコンピュータとの組み合わせを用いて、実装することができる。
【0128】
本明細書に記載の方法は、ハードウェア装置を用いて、又はコンピュータを用いて、又はハードウェア装置とコンピュータとの組み合わせを用いて、実行されてよい。
【0129】
上述した実施形態は、本発明の原理を説明するものにすぎない。本明細書に記載の構成の修正及び変形並びにその詳細は、当業者にとって明らかであることが理解されよう。したがって、本発明は、特許請求の範囲に記載された範囲のみに限定されず、本明細書の実施形態の説明に示された特定の構成には限定されない。