IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特許7085416多視点映像符号化装置およびそのプログラム、ならびに、多視点映像復号装置およびそのプログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-06-08
(45)【発行日】2022-06-16
(54)【発明の名称】多視点映像符号化装置およびそのプログラム、ならびに、多視点映像復号装置およびそのプログラム
(51)【国際特許分類】
   H04N 19/597 20140101AFI20220609BHJP
   H04N 19/31 20140101ALI20220609BHJP
   H04N 19/59 20140101ALI20220609BHJP
   H04N 19/70 20140101ALI20220609BHJP
【FI】
H04N19/597
H04N19/31
H04N19/59
H04N19/70
【請求項の数】 7
(21)【出願番号】P 2018118447
(22)【出願日】2018-06-22
(65)【公開番号】P2019220902
(43)【公開日】2019-12-26
【審査請求日】2021-05-12
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】110001807
【氏名又は名称】特許業務法人磯野国際特許商標事務所
(72)【発明者】
【氏名】原 一宏
(72)【発明者】
【氏名】片山 美和
(72)【発明者】
【氏名】河北 真宏
(72)【発明者】
【氏名】三科 智之
(72)【発明者】
【氏名】菊池 宏
(72)【発明者】
【氏名】藤井 俊彰
【審査官】鉢呂 健
(56)【参考文献】
【文献】TECH, Gerhard et al.,3D/MV-HEVC HLS: Flexible layer clustering for extending the supported number of layers,Joint Collaborative Team on 3D Video Coding Extensions of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 5th Meeting: Vienna, AT, 27 July - 2 Aug. 2013, [JCT3V-E0224],JCT3V-E0224 (version 1),ITU-T,2013年07月20日,<URL:http://phenix.it-sudparis.eu/jct2/doc_end_user/documents/5_Vienna/wg11/JCT3V-E0224-v1.zip>: JCT3V-E0224_v1.doc.doc: pp. 1-9
(58)【調査した分野】(Int.Cl.,DB名)
H04N 19/00-19/98
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
視点位置の異なる視点画像で構成される多視点画像の時系列である多視点映像を符号化する多視点映像符号化装置であって、
前記多視点画像を時系列に入力する多視点画像入力手段と、
前記多視点画像を構成する前記視点画像のうちで予め定めた規則で特定される視点画像の奥行きを、当該視点画像に隣接する視点の視点画像との視差により奥行画像として生成する奥行画像生成手段と、
前記奥行画像生成手段で生成された奥行画像と当該奥行画像に対応する視点画像とをNALユニット構造で区切って符号化データを生成する符号化手段と、を備え、
前記規則は、前記視点画像をグループ化し、グループ内でどの視点画像を符号化対象とするかを示すものであって、
前記符号化手段は、前記規則を特定する予め定めた値を、H.265/HEVCにおけるNALユニット構造のNALヘッダのTemporalIdの領域に設定するとともに、前記符号化対象の視点画像のグループを示す識別子を前記NALヘッダのnuh_layer_idの領域に設定することを特徴とする多視点映像符号化装置。
【請求項2】
前記NALヘッダのnuh_layer_idの領域を7ビットで構成することを特徴とする請求項1に記載の多視点映像符号化装置。
【請求項3】
前記規則は、さらに、フレームごとにグループ内の符号化対象の位置を切り替える規則を含んでいることを特徴とする請求項1または請求項2に記載の多視点映像符号化装置。
【請求項4】
請求項1または請求項2に記載の多視点映像符号化装置で生成された符号化データを復号する多視点映像復号装置であって、
前記符号化データに含まれるNALヘッダのnuh_layer_idの領域で特定される符号化された視点画像のグループと、前記NALヘッダのTemporalIdの領域で特定される前記グループ内において符号化された視点画像の位置とにより、符号化された視点画像と当該視点画像に対応する奥行画像とを復号する復号手段と、
符号化されていない視点位置の視点画像を、前記復号手段で復号された前記視点位置に同時点で隣接する視点画像および奥行画像に基づいて内挿する視点内挿手段と、
前記視点内挿手段で内挿された多視点画像を時系列に出力する多視点画像出力手段と、
を備えることを特徴とする多視点映像復号装置。
【請求項5】
請求項3に記載の多視点映像符号化装置で生成された符号化データを復号する多視点映像復号装置であって、
前記符号化データに含まれるNALヘッダのnuh_layer_idの領域で特定される符号化された視点画像のグループと、前記NALヘッダのTemporalIdの領域で特定される前記グループ内において符号化された視点画像の位置とにより、符号化された視点画像と当該視点画像に対応する奥行画像とを復号する復号手段と、
符号化されていない視点位置の視点画像を、前記復号手段で復号された前記視点位置に同時点で隣接する視点画像および奥行画像と、時系列に隣接する視点画像とに基づいて内挿する視点内挿手段と、
前記視点内挿手段で内挿された多視点画像を、フレームごとに出力する多視点画像出力手段と、
を備えることを特徴とする多視点映像復号装置。
【請求項6】
コンピュータを、請求項1から請求項3のいずれか一項に記載の多視点映像符号化装置として機能させるための多視点映像符号化プログラム。
【請求項7】
コンピュータを、請求項4または請求項5に記載の多視点映像復号装置として機能させるための多視点映像復号プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、多視点映像を符号化/復号する多視点映像符号化装置およびそのプログラム、ならびに、多視点映像復号装置およびそのプログラムに関する。
【背景技術】
【0002】
一般に、任意の視点で自由に立体像を視認することが可能な立体像表示方式の一つとして、平面上に配列された凸レンズ群あるいはピンホール群を利用したインテグラルフォトグラフィ(Integral Photography:以下IP)方式が知られている。
【0003】
このIP方式について、図21を参照して、凸レンズ群を利用した例で説明する。
IP方式は、図21(a)に示すように、撮影装置(立体カメラ)3によって、平面上に2次元配列された複数の要素レンズ(凸レンズ)からなるレンズアレイ(凸レンズ群)30を介して、被写体Oから出た光を撮影する。このとき、要素レンズの焦点距離fだけ離間した撮像素子の撮影面31において、要素レンズのレンズ間隔で、複数の要素画像e(要素画像群)が撮影されることになる。
そして、IP方式は、図21(b)に示すように、撮影時と同じ配置のレンズアレイ40を介して、表示装置(立体ディスプレイ)4の表示デバイスの表示面41に撮影装置3で撮影した複数の要素画像e(要素画像群)を表示する。このとき、撮影時の被写体空間と同様の光線が再生され、観察者Mは、被写体Oを立体像Tとして視認することができる。
この撮影装置3は、多視点カメラで構成することもできる。多視点カメラを構成する複数のカメラを水平方向および垂直方向に配置した場合、多視点カメラで撮影した多視点画像群から要素画像を生成する。また、レンズサイズの大きいレンズアレイを用いることで、一台の多視点カメラから複数の視点画像(多視点画像)を取得することができる。そのため、レンズアレイを用いた複数台の多視点カメラで撮影した多視点映像群から要素画像を生成してもよい。この場合、サイズの大きいレンズを通して取得される要素画像は、それぞれの多視点カメラで撮影した多視点画像群と考えることもできる。
【0004】
従来、このようなIP方式の要素画像群を符号化して伝送する手法が開示されている。
例えば、要素画像群を、要素画像ごとに同じ位置にある画素を集めることで、視点位置の異なる複数の視点画像(以下、多視点画像)に変換し、符号化する手法が開示されている(例えば、特許文献1参照)。
さらに、要素画像群を効率よく符号化する手法が開示されている。
例えば、多視点画像から、視点画像の奥行きを示す奥行画像を生成し、一部の奥行画像と対応する視点画像とを符号化して伝送し、復号側で、復号した視点画像と奥行画像とから間引かれた視点画像を合成する手法が開示されている(例えば、特許文献2参照)。
【0005】
この手法は、図22に示すように、予め定めた一部の視点画像とそれに対応する奥行画像とを符号化する。そして、この手法は、復号側で、符号化されていない視点画像を、周辺の視点画像と奥行画像とを用いて内挿処理を行うことで生成する。これによって、この手法は、伝送する符号化データを削減することができる。
【0006】
また、現在、国際標準化組織ISO(International Organization for Standardization)/IEC JTC(International Electrotechnical Commission Japan Technical Committee)において、時系列の多視点画像を動画として符号化する技術として、H.265/HEVC(High Efficiency video coding)を拡張したより一層高効率な符号化方式の検討や多視点映像符号化の標準化作業が行われている。
【0007】
このH.265/HEVCでは、符号化データとなるビットストリームの構成中、フレーム画像に相当するピクチャを複数のNAL(Network Abstraction Layer)ユニットで構成している。図23にNALユニットの構造を示す。
従来の3D-HEVCは、2バイトで構成されるNALヘッダに含まれる6ビットのnuh_layer_idで多視点映像の視点を特定する。すなわち、従来の3D-HEVCは、nuh_layer_idの“0”~“62”(63は不使用)の値によって、63視点までを1フレームの画像として符号化することが可能である。
【0008】
このように、従来手法は、IP方式の要素画像群を伝送する場合、図24に示すような処理を行う。すなわち、従来手法は、まず、要素画像群Eiを多視点画像に変換する(S101)。そして、従来手法は、視点画像の奥行きを推定するとともに視点画像を間引く(S102)。そして、従来手法は、順次生成される最大63視点の多視点画像を多視点映像として符号化し(S103)、伝送する。
【0009】
また、従来手法は、伝送された符号化済みの多視点映像を復号する(S104)。そして、従来手法は、間引かれた視点画像を奥行画像と隣接する視点画像とにより内挿処理することで多視点画像を生成する(S105)。そして、従来手法は、多視点画像を要素画像群Eoに変換する(S106)。
【先行技術文献】
【非特許文献】
【0010】
【文献】特開2013-251663号公報
【文献】特開2010-200188号公報
【発明の概要】
【発明が解決しようとする課題】
【0011】
従来手法のように、符号化側で視点数を間引いて復号側でその間引いた視点画像を合成する場合、撮影する対象や撮影装置から被写体までの距離によって画質が変わる。例えば、撮影する対象が複雑な構造である場合や撮影装置から被写体までの距離が近い場合、視点画像間の視差が大きいことやオクルージョンが発生するため、合成した画像の精度が落ちてしまう。
この場合、隣接する要素レンズとのレンズ間距離や多視点カメラのカメラ間の距離を短くすることで、視点画像間の視差を小さくし、合成画像の精度を高めることができる。
【0012】
しかし、従来手法では、NALヘッダに含まれるnuh_layer_id(図23参照)のビット数の制限によって、多視点映像を符号化する際に、視点位置を63視点までしか指定できない。また、IP方式では、携帯電話などのモバイル端末の画面表示を回転した際の立体視に対応するために水平視差に加えて垂直視差も含んだ多視点画像が必要となる。
このように、多視点映像の符号化には、さらなる視点数の増加が望まれている。
【0013】
本発明は、このような問題に鑑みてなされたものであり、NALヘッダのバイト数を増加させることなく視点数を増加させて、多視点映像を符号化/復号することが可能な多視点映像符号化装置およびそのプログラム、ならびに、多視点映像復号装置およびそのプログラムを提供することを課題とする。
【課題を解決するための手段】
【0014】
前記課題を解決するため、本発明に係る多視点映像符号化装置は、視点位置の異なる視点画像で構成される多視点画像の時系列である多視点映像を符号化する多視点映像符号化装置であって、多視点画像入力手段と、奥行画像生成手段と、符号化手段と、を備える構成とした。
【0015】
かかる構成において、多視点映像符号化装置は、多視点画像入力手段によって、多視点画像を時系列に入力する。なお、レンズサイズの大きいレンズアレイを用いた複数台の多視点カメラで撮影した多視点映像群や、レンズアレイを構成するレンズを通して得られる要素画像を多視点画像としてもよい。
そして、多視点映像符号化装置は、奥行画像生成手段によって、多視点画像を構成する視点画像のうちで予め定めた規則で特定される視点画像の奥行きを、当該視点画像に隣接する視点の視点画像との視差により奥行画像として生成する。この規則は、視点画像をグループ化し、当該グループ内でどの視点画像を符号化対象とするかを示すものである。
【0016】
そして、多視点映像符号化装置は、符号化手段によって、奥行画像生成手段で生成された奥行画像と当該奥行画像に対応する視点画像とをNALユニット構造で区切って符号化データを生成する。ここで、符号化手段は、規則を特定する予め定めた値を、H.265/HEVCにおけるNALユニット構造のNALヘッダのTemporalIdの領域に設定するとともに、符号化対象の視点画像のグループを示す識別子をNALヘッダのnuh_layer_idの領域に設定する。
これによって、多視点映像符号化装置は、nuh_layer_idの領域とTemporalIdの領域とを用いて視点位置を特定することができるため、従来のNALヘッダのnuh_layer_idの制限を超えて、視点数を増加させることができる。
なお、多視点映像符号化装置は、コンピュータを、前記した各手段として機能させるためのプログラムで動作させることができる。
【0017】
また、前記課題を解決するため、本発明に係る多視点映像復号装置は、多視点映像符号化装置で生成された符号化データを復号する多視点映像復号装置であって、復号手段と、視点内挿手段と、多視点画像出力手段と、を備える構成とした。
【0018】
かかる構成において、多視点映像復号装置は、復号手段によって、符号化データに含まれるNALヘッダのnuh_layer_idの領域で特定される符号化された視点画像のグループと、NALヘッダのTemporalIdの領域で特定されるグループ内において符号化された視点画像の位置とにより、符号化された視点画像と当該視点画像に対応する奥行画像とを復号する。
そして、多視点映像復号装置は、視点内挿手段によって、符号化されていない視点位置の視点画像を、復号手段で復号された当該視点位置に同時点で隣接する視点画像および奥行画像に基づいて内挿する。これによって、符号化されていない視点画像が再生されることになる。
【0019】
そして、多視点映像復号装置は、多視点画像出力手段によって、視点内挿手段で内挿された多視点画像を時系列に出力する。これによって、多視点映像が復号されることになる。
なお、多視点映像復号装置は、コンピュータを、前記した各手段として機能させるためのプログラムで動作させることができる。
【発明の効果】
【0020】
本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、NALヘッダのTemporalIdの領域を利用して、視点数を増加させることができる。また、本発明によれば、NALヘッダのバイト数を増やすことなく、視点数を増加させるため、符号化効率を高めることができる。
これによって、本発明は、視点数を増やすことで、視点間の距離を短くすることができ、視点画像間の視差を小さくして、視点内挿を行う多視点映像の精度を高めることができる。
【図面の簡単な説明】
【0021】
図1】本発明の実施形態に係る多視点映像符号化装置の構成を示すブロック図である。
図2】多視点画像の構成を説明するための説明図である。
図3】多視点画像のビューのおよびサブビューの構成を説明するための説明図である。
図4】対象バンクの値を“0”とした時の符号化対象を説明するための図である。
図5】対象バンクの値を“1”とした時の符号化対象を説明するための図である。
図6】対象バンクの値を“2”とした時の符号化対象を説明するための図である。
図7】対象バンクの値を“3”とした時の符号化対象を説明するための図である。
図8】本発明におけるNALユニットの構造を説明するためのデータ構造図である。
図9】本発明におけるNALユニットの他の構造を説明するためのデータ構造図である。
図10】本発明の実施形態に係る多視点映像符号化装置の動作を示すフローチャートである。
図11】本発明の実施形態に係る多視点映像復号装置の構成を示すブロック図である。
図12】視点内挿手段における内挿処理の一例を説明するための説明図である。
図13】本発明の実施形態に係る多視点映像復号装置の動作を示すフローチャートである。
図14】符号化規則の変形例を説明するための説明図である。
図15】2つの視点画像をスウィーピング処理する際の視点画像の切り替えを空間的に示す図である。
図16】2つの視点画像をスウィーピング処理する際の視点画像の切り替えを時系列に示す図である。
図17】1つの視点画像をスウィーピング処理する際の視点画像の切り替えを空間的に示す図である。
図18】1つの視点画像をスウィーピング処理する際の視点画像の切り替えを時系列に示す図である。
図19】スウィーピング処理する際の視点内挿手段における内挿処理の一例を説明するための説明図である。
図20】H.265/HEVCの時間スケーラビリティ機能を説明するための説明図である。
図21】従来のIP方式を説明するための説明図であって、(a)は要素画像の撮影時、(b)は立体像の表示時を示す。
図22】従来の多視点映像を符号化する対象を説明するための説明図である。
図23】従来のNALユニットの構造を説明するためのデータ構造図である。
図24】従来の多視点映像の符号化/復号の動作を説明するための説明図である。
【発明を実施するための形態】
【0022】
以下、本発明の実施形態について図面を参照して説明する。
〔多視点映像符号化装置の構成〕
図1を参照して、本発明の実施形態に係る多視点映像符号化装置1の構成について説明する。
多視点映像符号化装置1は、多視点画像の時系列データである多視点映像を符号化するものである。
多視点画像は、IP方式の撮影装置で撮影した要素画像群を構成する複数の要素画像であってもよいし、複数のカメラを水平方向および垂直方向に配置した多視点カメラで撮影した複数の視点画像であってもよい。以下、要素画像についても視点画像と呼ぶこととする。
【0023】
ここで、図2図3を参照して、多視点映像符号化装置1内部で処理する多視点画像の構造について説明する。
多視点映像符号化装置1は、図2に示すように、水平方向2個×垂直方向2個のサブビュー(Sub-view)を1つのビュー(View)として、多視点画像をグループ化して扱う。ここで、サブビューは、それぞれ視点画像である。
すなわち、多視点映像符号化装置1は、多視点画像を、4個のサブビュー(Sub-view)で構成されるビュー(View)を水平方向m個(mは2以上の整数)、垂直方向n個(nは2以上の整数)に配列した構成(View0,0~Viewm-1,n-1)として符号化する。
【0024】
また、多視点映像符号化装置1は、それぞれのビュー(View)を、図3に示すように、固有の識別子(ViewId)で識別し、ビュー内のサブビューも、それぞれの配置位置に応じた識別子(0~3)で識別する。
図1に戻って、多視点映像符号化装置1の構成について説明する。
【0025】
図1に示すように、多視点映像符号化装置1は、符号化規則記憶手段10と、多視点画像入力手段11と、奥行画像生成手段12と、符号化手段13と、を備える。
【0026】
符号化規則記憶手段10は、多視点映像の符号化の対象となる視点画像を予め定めた規則を記憶するものである。
例えば、符号化規則記憶手段10は、ビュー構造、対象ビュー、対象バンクを予め記憶する。
【0027】
「ビュー構造」は、多視点画像のビューの構造を定義するものである。例えば、ここでは、多視点画像が水平方向にm個、垂直方向にn個のビュー(4つの視点画像)で構成されていることを示している。
【0028】
「対象ビュー」は、符号化の対象となるビュー(グループ)を示すものである。例えば、対象ビューは、予め符号化の対象とするビューの識別子(ViewId;図3参照)である。
「対象バンク」は、符号化の対象となるビュー内で、実際に符号化を行う対象となるサブビューを示すものである。ここでは、サブビューを予め定めたバンク(ブロック)単位で符号化の対象とするか否かを示す。
【0029】
ここで、図4図7を参照して、1つのビュー(4視点画像)を対象として、対象バンクの値と符号化対象の視点画像との関係について説明する。
図4図7において、横軸はフレーム順序(POC:Picture of Count)を示し、縦軸は符号化対象のサブビュー(Sub-View;視点画像)の識別子を示す。
【0030】
図4に示すように、対象バンクの値を“0”とした場合、規則として、識別子が“0”のサブビューのみを符号化対象とする。
また、図5に示ように、対象バンクの値を“1”とした場合、規則として、識別子が“0”と“1”の2つのサブビューを符号化対象とする。
また、図6に示すように、対象バンクの値を“2”とした場合、規則として、識別子が“0”~“2”の3つのサブビューを符号化対象とする。
また、図7に示すように、対象バンクの値を“3”とした場合、規則として、識別子が“0”~“3”の4つのサブビューを符号化対象とする。この場合、すべてのサブビューが符号化対象となる。
【0031】
このように、「対象ビュー」と「対象バンク」との組み合わせによって、符号化対象のサブビュー(視点画像)の数を調整することができる。また、対象バンクの値によって、対象ビュー内における符号化対象のバリエーションを変えることができる。
図1に戻って、多視点映像符号化装置1の構成について説明する。
【0032】
多視点画像入力手段11は、外部から、多視点映像を、フレーム(多視点画像)単位(時系列)で入力するものである。多視点画像入力手段11は、時系列に入力される多視点画像を奥行画像生成手段12に出力する。
【0033】
奥行画像生成手段12は、符号化対象の視点画像に対して、視点の奥行きを示す奥行画像を生成するものである。奥行画像生成手段12は、符号化規則記憶手段10に記憶されている規則である対象ビューおよび対象バンクを参照して、符号化対象の視点画像を選択する。そして、奥行画像生成手段12は、選択した視点画像に対して、隣接する視点画像との視差を画素ごとに奥行きとして算出して奥行画像を生成する。なお、視点画像同士の視点距離は予め設定されているものとする。この奥行画像の生成手法は、特許文献2等の一般的な手法を用いればよいため、ここでは、詳細な説明を省略する。
奥行画像生成手段12は、符号化対象の視点画像とそれに対応して生成した奥行画像とを、フレーム単位で、ビューおよびサブビューの識別子とともに、符号化手段13に出力する。
【0034】
符号化手段13は、奥行画像生成手段12で生成された奥行画像と、それに対応する視点画像とを、符号化するものである。符号化手段13は、H.265/HEVCから符号化効率を高め、拡張した多視点映像符号化で視点画像および奥行画像を符号化する。
この符号化手段13は、図8に示すように、NALユニットNUの構成で、符号化データを生成する。符号化手段13は、図8に示すNALユニットNUを、ビューの識別子ごとに生成する。NALユニットNUのうち、ViewId(6ビット)とViewBank(2ビット)以外の構成は、従来のH.265/HEVCのNALユニットの構成と同じである。
すなわち、符号化手段13は、NALヘッダ以外の情報については、従来のH.265/HEVCの符号化ビットストリームと同じ構造で符号化データを生成し、フレームの順番を示すPOC(Picture of Count)を、スライスヘッダ情報に設定する。
【0035】
符号化手段13は、図8に示すように、NALヘッダの6ビットのViewIdの領域に、ビューの識別子を設定するとともに、2ビットのViewBankの領域に、符号化規則記憶手段10に記憶されている対象バンクの値を設定する。
また、符号化手段13は、奥行画像生成手段12から出力される視点画像および奥行画像を、同じビューの識別子(ViewId)の対象バンクで特定されるサブビューの識別子の順に符号化し、NALユニットNUのペイロード領域(RBSP)に配置する。
このように、符号化手段13は、符号化規則記憶手段10に設定されている規則に対応した視点画像とその奥行画像のみを符号化した符号化データ(ビットストリーム)を生成する。
【0036】
これによって、多視点映像符号化装置1は、6ビットのViewIdと2ビットのVewBankとによって、視点位置を、従来の63視点に対して、255視点(従来と同様にnuh_layer_id=ViewId=63を不使用とした場合)まで拡張することができる。
【0037】
なお、図8に示すように、H.265/HEVCのNALヘッダの「nuh_temporal_id_plus1」の領域は、未使用の1ビットと、「TemporalId(ここではViewBank)」の2ビットで構成されている。
そこで、図9に示すように、ViewIdを7ビットで構成しても構わない。これによって、視点数を511視点まで拡張することができる。
【0038】
以上説明したように多視点映像符号化装置1を構成することで、多視点映像符号化装置1は、NALユニットNUのバイト数を増加させることなく、視点数を増加させて多視点映像を符号化することができる。
なお、多視点映像符号化装置1は、コンピュータを、前記した各手段として機能させるためのプログラム(多視点映像符号化プログラム)で動作させることができる。
【0039】
〔多視点映像符号化装置の動作〕
次に、図10を参照(構成については適宜図1参照)して、本発明の実施形態に係る多視点映像符号化装置1の動作について説明する。
【0040】
ステップS1において、多視点画像入力手段11は、外部から、多視点映像として、フレーム単位で複数の視点画像を入力する。
ステップS2において、奥行画像生成手段12は、符号化規則記憶手段10に記憶されている規則である対象ビューおよび対象バンクを参照して、ステップS1で入力した視点画像のうちで、符号化対象の視点画像を選択する。
すなわち、奥行画像生成手段12は、符号化規則記憶手段10に記憶されている対象ビューにより、符号化対象の4つの視点画像を選択する。そして、奥行画像生成手段12は、符号化規則記憶手段10に記憶されている対象バンクにより、符号化対象の4つの視点画像の中で実際に符号化するサブビュー(視点画像)を選択する。
【0041】
ステップS3において、奥行画像生成手段12は、ステップS2で選択された視点画像に対して、隣接する視点画像との視差により奥行画像を生成する。
ステップS4において、符号化手段13は、ステップS3で生成された視点画像および奥行画像を符号化する。
このとき、符号化手段13は、符号化対象のビューの識別子ごとにNALユニットを生成し、NALヘッダのViewIdの領域に、ビューの識別子を設定するとともに、ViewBankの領域に、符号化規則記憶手段10に記憶されている対象バンクの値を設定する。
【0042】
ステップS5において、符号化手段13は、ステップS4で生成した符号化データ(ビットストリーム)を出力する。なお、図示は省略するが、フレーム(多視点画像)内で符号化対象の視点画像が存在する限り、多視点映像符号化装置1は、ステップS2~S5の動作を繰り返す。
そして、多視点映像の全フレームについて、まだ、符号化が完了していない場合、すなわち、多視点映像の入力が終了していない場合(ステップS6でNo)、多視点映像符号化装置1は、ステップS1に戻って動作を継続する。
一方、多視点映像の全フレームについて、符号化が完了した場合、すなわち、多視点映像の入力が終了した場合(ステップS6でYes)、多視点映像符号化装置1は、動作を終了する。
【0043】
〔多視点映像復号装置の構成〕
次に、図11を参照して、本発明の実施形態に係る多視点映像復号装置2の構成について説明する。
多視点映像復号装置2は、多視点画像の時系列データである多視点映像を符号化した符号化データを復号するものである。なお、符号化データは、多視点映像符号化装置1(図1参照)で符号化されたデータである。
【0044】
図11に示すように、多視点映像復号装置2は、復号規則記憶手段20と、復号手段21と、視点内挿手段22と、多視点画像出力手段23と、を備える。
【0045】
復号規則記憶手段20は、多視点映像を復号するための視点画像の配置を特定するための規則を予め記憶するものである。
復号規則記憶手段20は、ビュー構造、対象バンクを予め記憶する。
【0046】
「ビュー構造」は、多視点画像のビューの構造を定義するものである。このビュー構造には、符号化規則記憶手段10(図1参照)のビュー構造と同じ値を設定しておく。
「対象バンク」は、復号の対象となるビュー(4視点画像)内で、実際に復号する対象となるサブビューを示すものである。ここでは、サブビューを予め定めたバンク(ブロック)単位で復号の対象とするか否かを示す。なお、この対象バンクは、符号化規則記憶手段10(図1参照)の対象バンクと同じ定義とする。
【0047】
復号手段21は、復号規則記憶手段20に記憶されている規則に基づいて、符号化データをフレームごとに復号し、視点画像および奥行画像を生成するものである。復号手段21は、H.265/HEVCで視点画像および奥行画像を復号する。
ただし、復号手段21は、復号する視点画像および奥行画像の視点位置を、符号化データに含まれるNALヘッダと、復号規則記憶手段20に記憶されている規則に基づいて特定する。
【0048】
具体的には、復号手段21は、NALヘッダ内のViewId(図8参照)を抽出して、NALユニットに含まれる4視点画像の位置を特定する。例えば、ViewId=1であれば、NALユニットのデータはView0,1図2図3参照)の符号化データであると特定する。
また、復号手段21は、NALヘッダ内のViewBank(図8参照)を抽出して、NALユニットに含まれるサブビューの位置を特定する。例えば、ViewBank=1であれば、NALユニットのデータはサブビュー(Sub-view)0,1(図3参照)の2視点の符号化データであると特定する。
【0049】
復号手段21は、NALユニットのペイロード(RBSP)に含まれている符号化データを、特定した視点位置の視点画像および奥行画像に順次復号する。
復号手段21は、復号した視点画像および奥行画像を、視点位置と対応付けて、フレームごとに視点内挿手段22に出力する。
【0050】
視点内挿手段22は、復号手段21でフレームごとに復号された視点位置における視点画像および奥行画像から、符号化されていない視点位置の視点画像を内挿により生成するものである。
なお、視点内挿手段22における内挿処理は、一般的な手法を用いればよい。例えば、視点内挿手段22は、符号化されていない視点位置に同時点で隣接する視点画像を、それに対応する奥行画像で特定される奥行きの視差だけ画素ごとにシフトする。そして、視点内挿手段22は、複数の隣接する視点画像を奥行画像に応じてシフトした画像を、加算平均することで、符号化されていない視点位置の視点画像を生成する。
視点内挿手段22は、復号手段21で復号された視点画像と、自身が生成した視点画像とを、視点位置に対応付けて、フレームごとに、多視点画像出力手段23に出力する。
【0051】
ここで、図12を参照して、視点内挿手段22における内挿処理の一例について説明する。図12は、フレーム(F1,F2,F3,F4,…)ごとに、復号手段21で復号された視点画像を示す。なお、図11中、斜めパターンを付した実線の四角形は、復号手段21で復号された視点画像を示し、破線の四角形は、欠損している視点画像(符号化されていない視点画像)を示す。また、図12において、奥行画像については記載を省略している。
ここで、例えば、NALヘッダのViewBank(図8参照)が“1”で、サブビュー(Sub-view)0,1(図3参照)が復号された場合、図12に示すように、水平方向および垂直方向それぞれ交互に視点画像が復号される。
【0052】
視点内挿手段22は、例えば、復号されてない視点画像Vについては、同時点で隣接する視点画像V,V,V,Vを、それぞれの奥行画像の奥行きに応じてシフトさせ、画素ごとに加算平均することで生成する。なお、隣接した視点画像のよって埋めることができなかったオクルージョンが発生する画素については、隣接する画素の値で埋める等の処理を行う。
図11に戻って、多視点映像復号装置2の構成について説明する。
【0053】
多視点画像出力手段23は、視点内挿手段22で、符号化されていない視点画像が内挿されたすべての視点画像を、フレームごとに出力するものである。
この多視点画像出力手段23は、例えば、それぞれの視点画像を要素画像として表示するIP方式の表示装置に、多視点画像をフレームごとに出力する。そして、IP方式の表示装置は、これらの多視点画像を要素画像群に変換する。これによって、IP方式の表示装置の観視者は、立体像を視認することができる。
【0054】
以上説明したように多視点映像復号装置2を構成することで、多視点映像復号装置2は、NALユニットNUのバイト数を増加させることなく、視点数を増加させて多視点映像を復号することができる。
なお、多視点映像復号装置2は、コンピュータを、前記した各手段として機能させるためのプログラム(多視点映像復号プログラム)で動作させることができる。
【0055】
〔多視点映像復号装置の動作〕
次に、図13を参照(構成については適宜図11参照)して、本発明の実施形態に係る多視点映像復号装置2の動作について説明する。
ステップS10において、復号手段21は、符号化データのフレームの順番を示すPOCごとに、NALヘッダから、ViewIdおよびViewBankを抽出する。
ステップS11において、復号手段21は、ステップS10で抽出したViewIdおよびViewBankにより、NALユニットに含まれる視点画像および奥行画像の視点位置を特定するとともに、視点画像および奥行画像を復号する。
ステップS12において、視点内挿手段22は、ステップS11で復号された視点位置における視点画像および奥行画像から、符号化されていない視点位置の視点画像を内挿により生成する。
【0056】
ステップS13において、多視点画像出力手段23は、ステップS12で内挿されたすべての多視点画像を、多視点映像の1フレーム分のデータとして出力する。
そして、符号化データの復号がまだ完了していない場合(ステップS14でNo)、多視点映像復号装置2は、ステップS10に戻って動作を継続する。
一方、符号化データの復号がすべて完了した場合(ステップS14でYes)、多視点映像復号装置2は、動作を終了する。
【0057】
〔変形例〕
以上、本発明の実施形態に係る多視点映像符号化装置1および多視点映像復号装置2の構成および動作について説明したが、本発明は、この実施形態に限定されるものではない。
例えば、ここでは、符号化規則記憶手段10および復号規則記憶手段20に記憶する対象バンクとして、その値(0~3)によって、符号化対象となるサブビュー(視点画像)の1以上の組み合わせを全フレームに亘って特定する構成とした。
しかし、対象バンクの値によって、フレームごとに規則的に符号化対象となるサブビューを変化させることとしてもよい。
【0058】
例えば、図14に示すように、対象バンクの値として、2つの値“0”および“1”を定義する。
そして、対象バンクの値“0”をとした場合、規則として、フレームの順番が奇数のフレーム(奇数フレーム)については、識別子が“0”と“1”の2つのサブビューを符号化対象とする。また、フレームの順番が偶数のフレーム(偶数フレーム)については、識別子が“2”と“3”の2つのサブビューを符号化対象とする。
また、対象バンクの値を“1”とした場合、規則として、フレームの順番に応じて、識別子が“0”,“1”,“2”,“3”,“0”,…のサブビューを順次切り替えて符号化対象とする。
【0059】
ここで、図15図18を参照して、変形例の符号化対象の切り替えについて説明する。図15図17は、多視点画像を平面視して、符号化対象の視点画像に斜線パターンを付した図である。図16図18は、横軸にフレーム順序(POC)を示し、縦軸に符号化対象のサブビュー(Sub-View;視点画像)の識別子を示した図である。なお、図15図18において、視点画像に対応する奥行画像は記載を省略している。
【0060】
図15図16に示すように、対象バンクの値を“0”とした場合、符号化対象は、識別子が“0”と“1”のサブビューと、識別子が“2”と“3”のサブビューとが、フレームごとに交互に符号化対象となる。
また、図17図18に示すように、対象バンクの値を“1”とした場合、符号化対象は、識別子が“0”,“1”,“2”,“3”の順番で、サブビューが、フレームごとに符号化対象となる。
このように、符号化対象を変化(スウィーピング)させることで、符号化されていない視点画像は、時間的、空間的に近接した位置の実際に撮影した視点画像から復号することが可能になる。
【0061】
ここで、図19を参照して、対象バンクの値を“0”とし、符号化対象を、識別子が“0”と“1”のサブビューと、識別子が“2”と“3”のサブビューとで、フレームごとに交互に符号化対象とした場合の視点内挿手段22(図11参照)における内挿処理の一例について説明する。図19は、フレーム(F1,F2,F3,F4,…)ごとに、復号手段21(図11参照)で復号された視点画像を示す。なお、図19中、斜めパターンを付した実線の四角形は、復号手段21で復号された視点画像を示し、破線の四角形は、欠損している視点画像(符号化されていない視点画像)を示す。また、図19において、奥行画像については記載を省略している。
【0062】
図19に示すように、例えば、フレームF2の視点画像Vは、空間的に隣接する視点画像V,V,V,V以外に、時間的に隣接する視点画像V,Vが存在することになる。
そこで、視点内挿手段22は、復号されてない視点画像Vについては、同時点で隣接する視点画像V,V,V,Vを、それぞれの奥行画像の奥行きに応じてシフトさせるとともに、オクルージョンが発生する画素については、例えば、視点画像V,Vの動きベクトルに応じて対応する画素の値を補間する。
これによって、多視点映像符号化装置1および多視点映像復号装置2は、視点画像を復号する精度を高めることができる。
【0063】
また、ここでは、図8に示すように、H.265/HEVCのNALヘッダのTemporalIdを、ViewBankとして利用した。
従来のH.265/HEVCは、TemporalIdを用いて、時間スケーラビリティ機能を実現している。例えば、図20に示すように、フレームを他のフレームから予測する機能を有している。図20中、フレーム間の矢印は、予測の参照関係を示している。例えば、フレーム番号“1”のフレームは、フレーム番号“0”,“1”を参照して予測することができることを示している。この場合、TemporalId=2が指定された場合、復号装置は、フレーム番号“0”,“2”,“4”,“6”,“8”を復号する。
このように、従来のH.265/HEVCは、TemporalIdは、フレームごとに異なる値を設定している。一方、本発明に係る多視点映像符号化装置1および多視点映像復号装置2は、TemporalId、すなわち、ViewBankを一定の値として用いている。
【0064】
そこで、多視点映像復号装置2は、符号化データを復号する前段階として、図示を省略したスケーラブル判定手段を備えて、NALヘッダのTemporalIdがフレームごとに変化するか否かを検出することとしてもよい。
そして、TemporalIdが変化しない場合、多視点映像復号装置2は、TemporalIdをViewBankとして、前記した復号動作を行うこととする。
一方、TemporalIdが変化しない場合、多視点映像復号装置2は、従来のH.265/HEVCと同様の復号動作を行うこととする。
これによって、多視点映像復号装置2は、従来のH.265/HEVCと互換性をもって、復号動作を行うことができる。
【符号の説明】
【0065】
1 多視点映像符号化装置
10 符号化規則記憶手段
11 多視点画像入力手段
12 奥行画像生成手段
13 符号化手段
2 多視点映像復号装置
20 復号規則記憶手段
21 復号手段
22 視点内挿手段
23 多視点画像出力手段
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24