IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人名古屋大学の特許一覧

<>
  • 特許-符号化装置、符号化方法及びプログラム 図1
  • 特許-符号化装置、符号化方法及びプログラム 図2
  • 特許-符号化装置、符号化方法及びプログラム 図3
  • 特許-符号化装置、符号化方法及びプログラム 図4
  • 特許-符号化装置、符号化方法及びプログラム 図5
  • 特許-符号化装置、符号化方法及びプログラム 図6
  • 特許-符号化装置、符号化方法及びプログラム 図7
  • 特許-符号化装置、符号化方法及びプログラム 図8
  • 特許-符号化装置、符号化方法及びプログラム 図9
  • 特許-符号化装置、符号化方法及びプログラム 図10
  • 特許-符号化装置、符号化方法及びプログラム 図11
  • 特許-符号化装置、符号化方法及びプログラム 図12
  • 特許-符号化装置、符号化方法及びプログラム 図13
  • 特許-符号化装置、符号化方法及びプログラム 図14
  • 特許-符号化装置、符号化方法及びプログラム 図15
  • 特許-符号化装置、符号化方法及びプログラム 図16
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-09-13
(45)【発行日】2023-09-22
(54)【発明の名称】符号化装置、符号化方法及びプログラム
(51)【国際特許分類】
   H04N 19/597 20140101AFI20230914BHJP
   H04N 19/587 20140101ALI20230914BHJP
【FI】
H04N19/597
H04N19/587
【請求項の数】 5
(21)【出願番号】P 2020085157
(22)【出願日】2020-05-14
(65)【公開番号】P2021180417
(43)【公開日】2021-11-18
【審査請求日】2022-07-28
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(73)【特許権者】
【識別番号】504139662
【氏名又は名称】国立大学法人東海国立大学機構
(74)【代理人】
【識別番号】110001634
【氏名又は名称】弁理士法人志賀国際特許事務所
(72)【発明者】
【氏名】坂東 幸浩
(72)【発明者】
【氏名】宮澤 健人
(72)【発明者】
【氏名】高村 誠之
(72)【発明者】
【氏名】木全 英明
(72)【発明者】
【氏名】藤井 俊彰
(72)【発明者】
【氏名】▲高▼橋 桂太
(72)【発明者】
【氏名】今枝 滉太
【審査官】岩井 健二
(56)【参考文献】
【文献】特開2020-167479(JP,A)
【文献】特開平10-023408(JP,A)
【文献】今枝滉太,高橋桂太,藤井俊彰,基底画像と映像符号化手法を用いた光線空間の符号化,PCSJ/IMPS2020,2020年11月17日,P2-C-3,pp.1-2
【文献】今枝滉太 他,HEVCを用いた光線空間符号化への巡回セールスマン問題の適用と性能評価,電子情報通信学会技術研究報告,一般社団法人電子情報通信学会,2019年06月24日,Vol.119,No.51,pp.33-38
【文献】Kota Imaeda,et al.,LF-TSP: Traveling salesman problem for HEVC-based light-field coding,IEEE Visual Communications and Image Processing (VCIP),IEEE,2019年,pp.1-4
(58)【調査した分野】(Int.Cl.,DB名)
H04N 19/00 - 19/98
(57)【特許請求の範囲】
【請求項1】
学習段階において入力された多視点画像である第1の入力多視点画像を低次元化するように学習された重みを用いて、符号化段階において入力された多視点画像である第2の入力多視点画像を低次元化することによって、低次元化された前記第2の入力多視点画像である基礎画像群を生成する符号化部と、
前記基礎画像群において隣接する基礎画像の間の差を距離と見做し、前記基礎画像群における前記距離の総和を短くするように前記基礎画像群を並び替えることによって、並び替えられた前記基礎画像群である並替画像群を生成する並替部と、
前記並替画像群を符号化する符号化復号部と
を備える符号化装置。
【請求項2】
前記並替部は、巡回セールスマン問題の解法を用いて前記基礎画像群を並び替える、
請求項1に記載の符号化装置。
【請求項3】
符号化された前記並替画像群の復号結果である復号画像群を取得し、前記第2の入力多視点画像を前記復号画像群から復元することによって、復元された前記第2の入力多視点画像である復元多視点画像を生成する復元部を更に備え、
前記符号化復号部は、符号化された前記並替画像群の前記復号結果を前記復元部に出力する、
請求項1又は請求項2に記載の符号化装置。
【請求項4】
符号化装置が実行する符号化方法であって、
学習段階において入力された多視点画像である第1の入力多視点画像を低次元化するように学習された重みを用いて、符号化段階において入力された多視点画像である第2の入力多視点画像を低次元化することによって、低次元化された前記第2の入力多視点画像である基礎画像群を生成するステップと、
前記基礎画像群において隣接する基礎画像の間の差を距離と見做し、前記基礎画像群における前記距離の総和を短くするように前記基礎画像群を並び替えることによって、並び替えられた前記基礎画像群である並替画像群を生成するステップと、
前記並替画像群を符号化するステップと
を含む符号化方法。
【請求項5】
請求項1から請求項3のいずれか一項に記載の符号化装置としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、符号化装置、符号化方法及びプログラムに関する。
【背景技術】
【0002】
多視点画像を用いて光線空間(ライトフィールド)が表される場合がある。多視点画像を構成する複数の視点画像は、行列状に配置された複数のマイクロレンズを有するカメラが被写体を複数方向から撮影することによって得られる。非特許文献1では、オートエンコーダの符号化部が、多視点画像の低次元化及び並べ替えを実行する。並べ替えられた多視点画像(潜在表現)は、時系列の画像群と見做されて、HEVC(Hight Efficiency Video Coding)等の動画像符号化規格に基づいて符号化される。
【先行技術文献】
【非特許文献】
【0003】
【文献】今枝滉太 外2名、「オートエンコーダを用いた光線空間圧縮に適した潜在表現の生成」、PCSJ/IMPS予稿集、2019年11月18日、pp.140-141
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、符号化された多視点画像の圧縮率を高くすることができない場合がある。上記事情に鑑み、本発明は、光線空間を表す多視点画像の圧縮率を向上させることが可能である符号化装置、符号化方法及びプログラムを提供することを目的としている。
【課題を解決するための手段】
【0005】
本発明の一態様は、学習段階において入力された多視点画像である第1の入力多視点画像を低次元化するように学習された重みを用いて、符号化段階において入力された多視点画像である第2の入力多視点画像を低次元化することによって、低次元化された前記第2の入力多視点画像である基礎画像群を生成する符号化部と、前記基礎画像群において隣接する基礎画像の間の差を距離と見做し、前記基礎画像群における前記距離の総和を短くするように前記基礎画像群を並び替えることによって、並び替えられた前記基礎画像群である並替画像群を生成する並替部と、前記並替画像群を符号化する符号化復号部とを備える符号化装置である。
【0006】
本発明の一態様は、上記に記載の符号化装置が実行する符号化方法であって、学習段階において入力された多視点画像である第1の入力多視点画像を低次元化するように学習された重みを用いて、符号化段階において入力された多視点画像である第2の入力多視点画像を低次元化することによって、低次元化された前記第2の入力多視点画像である基礎画像群を生成するステップと、前記基礎画像群において隣接する基礎画像の間の差を距離と見做し、前記基礎画像群における前記距離の総和を短くするように前記基礎画像群を並び替えることによって、並び替えられた前記基礎画像群である並替画像群を生成するステップと、前記並替画像群を符号化するステップとを含む符号化方法である。
【0007】
本発明の一態様は、上記に記載の符号化装置としてコンピュータを機能させるためのプログラムである。
【発明の効果】
【0008】
本発明により、光線空間を表す多視点画像の圧縮率を向上させることが可能である。
【図面の簡単な説明】
【0009】
図1】実施形態における、符号化装置の構成例を示す図である。
図2】実施形態における、オートエンコーダの学習処理の例を示す図である。
図3】実施形態における、並替処理の例を示す図である。
図4】実施形態における、巡回セールスマン問題の解法の例を示す図である。
図5】実施形態における、復号画像群を並替画像群から生成する処理の例を示す図である。
図6】実施形態における、復元多視点画像を復号画像群から生成する処理の例を示す図である。
図7】実施形態における、符号化装置の動作例を示すフローチャートである。
図8】実施形態における、符号化部が用いる重み「Wn,m」の例を示す図である。
図9】実施形態における、並替部が用いる重みの例を示す図である。
図10】実施形態における、復元装置が用いる重み「~Wm,n」の例を示す図である。
図11】実施形態における、潜在変数の個数(ノード数)ごとのレート歪み特性の例を示す図である。
図12】実施形態における、並替処理が実行された場合のレート歪み特性と、並替処理が実行されない場合のレート歪み特性との例を示す図である。
図13】実施形態における、多視点画像を構成する複数の視点画像の配列順の第1例(Raster)を示す図である。
図14】実施形態における、多視点画像を構成する複数の視点画像の配列順の第2例(Circular)を示す図である。
図15】実施形態における、画像データセットの画像データごとのレート歪み特性との例を示す図である。
図16】実施形態における、符号化装置のハードウェア構成例を示す図である。
【発明を実施するための形態】
【0010】
本発明の実施形態について、図面を参照して詳細に説明する。
以下では、数式又は関数(以下「数式等」という。)において文字の上に付されている記号は、文字の前に記載される。例えば、数式等において文字の上に付されている記号「^」は、以下では文字「x」の前に「^x」のように記載される。例えば、数式等において文字の上に付されている記号「-」は、以下では文字「x」の前に「(-)x」のように記載される。
【0011】
図1は、実施形態における、符号化装置1の構成例を示す図である。符号化装置1は、多視点画像を符号化する装置である。多視点画像は、光線空間(ライトフィールド)を表す。符号化装置に入力される多視点画像(以下「入力多視点画像」という。)を構成する複数の視点画像は、行列状に配置された複数のマイクロレンズを有するカメラ(不図示)が被写体(不図示)を複数方向(多視点)から撮影することによって得られる。
【0012】
符号化装置1は、機械学習の手法(オートエンコーダ)を用いて、入力多視点画像100の低次元化を実行する。入力多視点画像100の低次元化とは、例えば、入力多視点画像100を構成する複数の視点画像の枚数(フレーム数)を削減することである。例えば、M枚の入力多視点画像100が、N(<M)枚の低次元化された入力多視点画像(以下「基礎画像群」という。)に削減される。
【0013】
符号化装置1は、基礎画像群101の並べ替えを実行する。多視点画像を構成する複数の視点画像は、HEVC等の動画像符号化規格に基づいて符号化される場合、時系列の画像群と見做される。このため、基礎画像群101は、符号化に適するように並べ替えられる。すなわち、基礎画像群101は、時系列で滑らかに変化するように並べ替えられる。並べ替えられた基礎画像群(以下「並替画像群」という。)(潜在表現)は、動画像符号化規格に基づいて符号化される。
【0014】
符号化装置1は、合成装置2と、符号化並替装置3と、符号化復号装置4(符号化復号部)と、復元装置5(復元部)とを備える。以下では、合成装置2は、一例としてオートエンコーダである。合成装置2は、符号化部20と、復号部21とを備える。符号化並替装置3は、符号化部20と、並替部30とを備える。以下、合成装置が重みを学習する段階を「学習段階」という。
【0015】
学習段階において、符号化部20「ΦL→B」は、学習対象の入力多視点画像100「L:L(u,v)」を取得する。ここで、「u」は、入力多視点画像100の視点画像における水平座標を表す。「v」は、入力多視点画像100の視点画像における垂直座標を表す。符号化部20は、機械学習の手法を用いて、入力多視点画像100を低次元化するように重み「Wn,m」を学習する。符号化部20は、重み「Wn,m」を用いて入力多視点画像100を低次元化することによって、基礎画像群101「B:B(u,v)」を生成する。学習段階において、符号化部20は、基礎画像群101を復号部21に出力する。
【0016】
学習段階において、復号部21「Φ L→B」は、機械学習の手法を用いて、低次元化された入力多視点画像100を高次元化するように重み「W m,n」を学習する。すなわち、復号部21は、機械学習の手法を用いて、低次元化された入力多視点画像100を復号するように重み「W m,n」を学習する。復号部21は、基礎画像群101を取得する。復号部21は、重み「W m,n」を用いて基礎画像群101を高次元化することによって、復号多視点画像102「(-)L:(-)L(u,v)」を生成する。復号部21は、復号多視点画像102を所定の外部装置(不図示)に出力する。
【0017】
学習段階よりも後の符号化段階において、符号化部20は、符号化対象の入力多視点画像100「L:L(u,v)」を取得する。符号化部20は、重み「Wn,m」を用いて入力多視点画像100を低次元化することによって、基礎画像群101を生成する。符号化段階において、符号化部20は、基礎画像群101を並替部30に出力する。
【0018】
符号化段階において、並替部30は、基礎画像群101を符号化部20から取得する。並替部30は、光線空間を表す基礎画像群101において隣接する基礎画像「F」の間の差(例えば、画素値の差)を距離と見做す。並替部30は、基礎画像群101における距離の総和を短くするように基礎画像群101を並び替えることによって、並替画像群103「F:F(u,v)」を生成する。並替部30が基礎画像群101を並び替える手法は、特定の手法に限定されない。
【0019】
以下では、一例として、並替部30は、基礎画像群101における距離の総和を短くする巡回セールスマン問題(Light Fields - Traveling Salesman Problem : LF-TSP)の解法を用いて基礎画像群101を並び替えることによって、並替画像群103「F:F(u,v)」を生成する。巡回セールスマン問題とは、複数の都市における各都市を1回ずつ通過する最短経路を導出するという組み合わせ最適問題である。並替部30は、入力多視点画像100における各視点画像を各都市と見做して、巡回セールスマン問題を解く。巡回セールスマン問題の解法として、例えば、貪欲法、2-opt法(逐次改善法)が知られている。並替部30は、並替画像群103(潜在表現)を符号化復号装置4「ΦF→^F」に出力する。
【0020】
符号化段階において、符号化復号装置4は、並替画像群103を並替部30から取得する。符号化復号装置4は、HEVC等の動画像符号化規格に基づいて、並替画像群103を符号化する。符号化復号装置4は、符号化された並替画像群103を復号する。符号化復号装置4は、符号化された並替画像群103の復号結果である復号画像群104「^F:^F(u,v)」を、復元装置5に出力する。
【0021】
符号化段階において、復元装置5「ΦF→L」は、復号画像群104を符号化復号装置4から取得する。復元装置5は、符号化対象の入力多視点画像100を復号画像群104から復元することによって、復元された入力多視点画像である復元多視点画像105を生成する。すなわち、復元装置5は、復号画像群104に重み「~Wm,n」を乗算することによって、復元多視点画像105を生成する。重み「~Wm,n」は、並替部30が実行した並替処理と符号化部20が実行した符号化処理との逆処理として、予め定められる。復元装置5は、復元多視点画像105を所定の外部装置(不図示)に出力する。
【0022】
なお、符号化復号装置4は、並替画像群103の符号化結果である圧縮データ106を、所定の外部装置(不図示)に出力してもよい。圧縮データ106は、HEVC等の動画像符号化規格に基づいて符号化された並替画像群103のビットストリーム「BS」と、復元に用いられる重み「~Wm,n」とを含む。
【0023】
次に、符号化装置1の各機能部の詳細を説明する。
図2は、実施形態における、オートエンコーダの学習処理の例を示す図である。学習段階において、符号化部20は、重み「Wn,m」を用いて、基礎画像群101を入力多視点画像100「L:L(u,v)」から生成する。基礎画像群101「B:B(u,v)」は、式(1)のように表される。
【0024】
【数1】
【0025】
学習段階において、符号化部20は、基礎画像群101を復号部21に出力する。復号部21は、機械学習の手法を用いて、低次元化された入力多視点画像100を復号するように重み「W m,n」を学習する。復号部21は、重み「W m,n」を用いて基礎画像群101を高次元化することによって、復号多視点画像102「(-)L:(-)L(u,v)」を生成する。
【0026】
図3は、実施形態における、並替処理の例を示す図である。符号化段階において、符号化部20は、基礎画像群101を並替部30に出力する。並替部30は、基礎画像群101を並び替えることによって、並替画像群103「F:F(u,v)」を生成する。
【0027】
図4は、実施形態における、巡回セールスマン問題の解法の例を示す図である。並替部30は、基礎画像群101における、基礎画像「F」と基礎画像「Fn-1」との間の距離「Distance」の総和である長さ(経路長)「Length」を短くする巡回セールスマン問題の解法(LF-TSP)を用いて、基礎画像群101を並び替える。距離「Distance」の総和である長さ(経路長)「Length」は、式(2)のように表される。
【0028】
【数2】
【0029】
図5は、実施形態における、復号画像群104を並替画像群103から生成する処理の例を示す図である。符号化復号装置4は、HEVC等の動画像符号化規格に基づいて、並替画像群103を符号化する。符号化復号装置4は、符号化された並替画像群103を復号することによって、復号画像群104「^F:^F(u,v)」を生成する。
【0030】
図6は、実施形態における、復元多視点画像105を復号画像群104から生成する処理の例を示す図である。復元装置5は、復号画像群104に重み「~Wm,n」を乗算することによって、復元多視点画像105を生成する。
【0031】
次に、符号化装置1の動作例を説明する。
図7は、実施形態における、符号化装置1の動作例を示すフローチャートである。学習段階において、符号化部20は、学習対象の入力多視点画像100(第1の入力多視点画像)を低次元化するように重み「Wn,m」を学習する(ステップS101)。符号化段階において、符号化部20は、符号化対象の入力多視点画像100(第2の入力多視点画像)を重み「Wn,m」を用いて低次元化することによって、基礎画像群101「B:B(u,v)」を生成する(ステップS102)。
【0032】
並替部30は、巡回セールスマン問題の解法(LF-TSP)を用いて基礎画像群101を並び替えることによって、並替画像群103「F:F(u,v)」を生成する(ステップS103)。符号化復号装置4は、HEVC等の動画像符号化規格に基づいて、並替画像群103を符号化する(ステップS104)。符号化復号装置4は、符号化された並替画像群103を復号することによって、復号画像群104を生成する(ステップS105)。復元装置5は、重み「~Wm,n」を用いて、復号画像群104に対して復元処理を実行することによって、復元多視点画像105を生成する。すなわち、復元装置5は、入力多視点画像100を復号画像群104から復元することによって、復元多視点画像105を生成する(ステップS106)。
【0033】
機械学習の学習条件の一例を以下に示す。
(1)並替画像群103のノード数(並替画像の枚数)「N」:128、64、32
(2)並替画像群103(潜在表現)の最初のフレーム:多視点画像における中央の視点画像
(3)合成装置2におけるエポック数:3000
(4)復元装置5におけるエポック数:500
(5)バッチサイズ(Batch size):16384(全画素数=271250)
(6)機械学習の最適化手法:Adam
(7)視点画像を構成する各画素の重みの値:正値に限定
(8)視点画像を構成する各画素の重みの値の初期分布:正規分布
(9)データセット(Lytro Pleno datasets):「自転車群(Bikes)」、「友達(Friends)」、「花畑(Flowers)」、「石群(Stones)」
・視点画像の解像度「625×434」
・視点画像の枚数(視点の数)「193」
・グレースケール
(10)動画像符号化規格:HEVC(HM16.2,Random Access)
(11)巡回セールスマン問題の解法:ICIP(International Conference on Image Processing)手法
【0034】
図8は、実施形態における、符号化部20が用いる重み「Wn,m」の例を示す図である。「m」は、0以上「M-1」以下の整数を表す。「M」は、入力多視点画像の枚数を表す。「n」は、0以上「N-1」以下の整数を表す。「N」は、基礎画像群(潜在表現)を構成する基礎画像の枚数(潜在変数の個数)を表す。したがって、「N」は、並替画像群を構成する並替画像の枚数を表す。学習段階よりも後の符号化段階において、符号化部20「ΦL→B」は、符号化対象の入力多視点画像100に重み「Wn,m」を乗算することによって、基礎画像群101を生成する。
【0035】
図9は、実施形態における、並替部30が用いる重みの例を示す図である。並替部30「ΦB→F」は、基礎画像群101に重み「Wn,n」を乗算することによって、並替画像群103を生成する。
【0036】
図10は、実施形態における、復元装置5が用いる重み「~Wm,n」の例を示す図である。復元装置5は、復号画像群104に重み「~Wm,n」を乗算することによって、復元多視点画像105を生成する。
【0037】
図11は、実施形態における、潜在変数の個数(ノード数)ごとのレート歪み特性の例を示す図である。横軸は、画素当たりのビット数を表す。縦軸は、ピーク信号対雑音比(Peak signal-to-noise ratio : PSNR)を表す。図11では、潜在変数の個数(ノード数)「N」が大きいほど、ピーク信号対雑音比が高くなる傾向がある。
【0038】
図12は、実施形態における、並替処理が実行された場合のレート歪み特性と、並替処理が実行されない場合のレート歪み特性との例を示す図である。横軸は、画素当たりのビット数を表す。縦軸は、ピーク信号対雑音比(PSNR)を表す。図12では、基礎画像群の並替処理が実行された場合「並替 有」におけるピーク信号対雑音比は、基礎画像群の並替処理が実行されない場合「並替 無」におけるピーク信号対雑音比と比較して高い。
【0039】
図13は、実施形態における、多視点画像を構成する複数の視点画像の配列順(巡回順)の第1例「ラスタ」(Raster)を示す図である。各視点画像に記載の番号は、視点画像の配列順(巡回順)を表す。
【0040】
図14は、実施形態における、多視点画像を構成する複数の視点画像の配列順(巡回順)の第2例「円形」(Circular)を示す図である。各視点画像に記載の番号は、視点画像の配列順(巡回順)を表す。
【0041】
図15は、実施形態における、画像データセット(Lytro Pleno datasets)の画像データごとのレート歪み特性との例を示す図である。各グラフの横軸は、各画像データの画素当たりのビット数を表す。各グラフの縦軸は、各画像データのピーク信号対雑音比(PSNR)を表す。図15において、「ラスタ」は、図13に示された入力多視点画像の配列順を示す。「円形」は、図14に示された入力多視点画像の配列順を示す。図15において、「LF-TSP」は、入力多視点画像が低次元化されることなく、「LF-TSP」を用いて並べ替えられた入力多視点画像の配列順を示す。「提案手法」は、符号化装置1が実行する低次元化及び並べ替えの手法を示す。画像データセットの全ての画像データにおいて、「提案手法」におけるピーク信号対雑音比は、他の手法におけるピーク信号対雑音比と比較して高い。
【0042】
以上のように、符号化部20は、学習段階において入力された多視点画像である第1の入力多視点画像100を低次元化するように学習された重みを用いて、符号化段階において入力された多視点画像である第2の入力多視点画像100を低次元化することによって、基礎画像群101を生成する。並替部30は、基礎画像群101において隣接する基礎画像の間の差を距離と見做す。並替部30は、基礎画像群101における距離の総和を短くするように基礎画像群101を並び替えることによって、並替画像群103を生成する。例えば、並替部30は、基礎画像群101における距離の総和を短くする巡回セールスマン問題の解法(例えば、LF-TSP)を用いて基礎画像群101を並び替えることによって、並替画像群103を生成する。符号化復号装置4(符号化復号部)は、並替画像群103を符号化する。
【0043】
このように、符号化部20は、第2の入力多視点画像100を低次元化することによって、基礎画像群101を生成する。並替部30は、巡回セールスマン問題の手法を用いて基礎画像群101を並び替える。すなわち、符号化装置1は、並替画像群(潜在表現)の品質を向上させるという問題と、動画像符号化において時系列で滑らかに変化する並替画像群を生成するという問題とを分けて解く。並替画像群の品質を向上させるとは、復号に使用されない基礎画像(潜在変数)の枚数(ノード数)を少なくすることである。これによって、光線空間を表す多視点画像の圧縮率を向上させることが可能である。
【0044】
このように、学習段階において、合成装置2(オートエンコーダ)は、機械学習の手法を用いて、入力多視点画像100を符号化及び復号する。ここで、符号化部20は、入力多視点画像100を低次元化するように、学習段階において重み「Wn,m」を学習する。符号化部20は、入力多視点画像100を低次元化する(入力多視点画像100の重み付け和を導出する)ことによって、基礎画像群101を生成する。復号部21は、入力多視点画像100を低次元化するように、学習段階において重み「W n,m」を学習する。
【0045】
動画像符号化規格におけるインター予測を用いる符号化では、動画像を構成する時系列のフレームの変化が滑らかであるほど符号化効率が向上することが知られている。HEVC等の動画像符号化規格が用いられる符号化段階において、入力多視点画像100を構成する複数の視点画像は、動画像の時系列のフレームであると見做される。並替部30は、符号化復号装置4における符号化(インター予測を用いる符号化)に適するように基礎画像群101を並び替えることによって、並替画像群103を生成する。並替画像群103は、巡回セールスマン問題の最適化手法(例えば、LF-TSP)を用いて、基礎画像群101を並び替える。符号化復号装置4は、HEVC等の動画像符号化規格に基づいて、並替画像群103を符号化する。
【0046】
非特許文献1のオートエンコーダにおいて、符号化部の学習と復号部の学習とは同時に実行されている。この復号部が復号に用いない基礎画像(潜在変数)が、基礎画像群(潜在表現)に多く存在する。このため非特許文献1では、光線空間を表す多視点画像の圧縮率を向上させることができない場合がある。これに対して、符号化装置1は、基礎画像群(潜在表現)のうちで復号に用いられない基礎画像(潜在変数)の個数を少なくするので、光線空間を表す多視点画像の圧縮率を向上させることが可能である。
【0047】
また非特許文献1では、動画像符号化規格におけるインター予測に適するように基礎画像(潜在変数)が配列されない場合がある。これに対して、符号化装置1は、インター予測に適するように基礎画像(潜在変数)を並び替える。すなわち、符号化装置1は、インター予測に適した潜在表現を生成する。これによって、符号化装置1は、光線空間を表す多視点画像の圧縮率を向上させることが可能である。
【0048】
図16は、実施形態における、符号化装置1のハードウェア構成例を示す図である。符号化装置1の各機能部のうちの一部又は全部は、CPU(Central Processing Unit)等のプロセッサ200が、不揮発性の記録媒体(非一時的な記録媒体)を有する記憶部300に記憶されたプログラムを実行することにより、ソフトウェアとして実現される。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM(Read Only Memory)、CD-ROM(Compact Disc Read Only Memory)等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置などの非一時的な記録媒体である。通信部400は、符号化装置1による処理結果を外部装置(不図示)に送信する。通信部400は、通信回線を経由してプログラムを受信してもよい。表示部500は、符号化装置1による処理結果を表示する。表示部500は、例えば、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイである。
【0049】
符号化装置1の各機能部のうちの一部又は全部は、例えば、LSI(Large Scale Integration circuit)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)又はFPGA(Field Programmable Gate Array)等を用いた電子回路(electronic circuit又はcircuitry)を含むハードウェアを用いて実現されてもよい。
【0050】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【産業上の利用可能性】
【0051】
本発明は、光線空間を表す多視点画像を圧縮及び復元する装置に適用可能である。
【符号の説明】
【0052】
1…符号化装置、2…合成装置、3…符号化並替装置、4…符号化復号装置、5…復元装置、20…符号化部、21…復号部、30…並替部、100…入力多視点画像、101…基礎画像群、102…復号多視点画像、103…並替画像群、104…復号画像群、105…復元多視点画像、106…圧縮データ、200…プロセッサ、300…記憶部、400…通信部、500…表示部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16