(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023062831
(43)【公開日】2023-05-09
(54)【発明の名称】符号化装置、符号化方法及びプログラム
(51)【国際特許分類】
H04N 19/597 20140101AFI20230427BHJP
H04N 19/192 20140101ALI20230427BHJP
【FI】
H04N19/597
H04N19/192
【審査請求】未請求
【請求項の数】4
【出願形態】OL
(21)【出願番号】P 2021172958
(22)【出願日】2021-10-22
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 発行日 2021年1月1日 刊行物 『ITE Transactions on Media technology and applications』Volume 9 Issue 1 Pages 86-94 一般社団法人映像情報メディア学会 発行(Web公開アドレス:https://www.jstage.jst.go.jp/browse/mta/9/1/_contents/-char/en )(DOI:https://doi.org/10.3169/mta.9.86 )
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(71)【出願人】
【識別番号】504139662
【氏名又は名称】国立大学法人東海国立大学機構
(74)【代理人】
【識別番号】110001634
【氏名又は名称】弁理士法人志賀国際特許事務所
(72)【発明者】
【氏名】坂東 幸浩
(72)【発明者】
【氏名】高村 誠之
(72)【発明者】
【氏名】藤井 俊彰
(72)【発明者】
【氏名】▲高▼橋 桂太
(72)【発明者】
【氏名】都竹 千尋
(72)【発明者】
【氏名】今枝 滉太
【テーマコード(参考)】
5C159
【Fターム(参考)】
5C159LA09
5C159MA05
5C159PP03
5C159TA03
5C159TB04
5C159TC02
5C159TD05
5C159TD17
5C159UA02
5C159UA05
(57)【要約】
【課題】光線空間を表す多視点画像の圧縮率を向上させることが可能である符号化装置、符号化方法及びプログラムを提供する。
【解決手段】符号化装置は、学習段階において入力された多視点画像である第1の入力多視点画像を低次元化するように学習された第1の重みを用いて、符号化段階において入力された多視点画像である第2の入力多視点画像を低次元化することによって、低次元化された第2の入力多視点画像である基礎画像群を生成する符号化部と、学習段階において、低次元化された第1の入力多視点画像の復号に用いられる第2の重みを学習する復号部とを備える。符号化部は、学習段階において、第1の入力多視点画像が入力される第1の入力層と第1の入力層に部分結合する中間層と第1の入力層に部分結合する第1の出力層とを有する第1のニューラルネットワークを用いて、第1の重みを学習する。
【選択図】
図16
【特許請求の範囲】
【請求項1】
学習段階において入力された多視点画像である第1の入力多視点画像を低次元化するように学習された第1の重みを用いて、符号化段階において入力された多視点画像である第2の入力多視点画像を低次元化することによって、低次元化された前記第2の入力多視点画像である基礎画像群を生成する符号化部と、
前記基礎画像群において隣接する基礎画像の間の差を距離と見做し、前記基礎画像群における前記距離の総和を短くするように前記基礎画像群を並び替えることによって、並び替えられた前記基礎画像群である並替画像群を生成する並替部と、
前記並替画像群を符号化する符号化復号部と、
前記学習段階において、低次元化された前記第1の入力多視点画像の復号に用いられる第2の重みを学習する復号部と
を備え、
前記符号化部は、前記学習段階において、前記第1の入力多視点画像が入力される第1の入力層と前記第1の入力層に部分結合する中間層と前記第1の入力層に部分結合する第1の出力層とを有する第1のニューラルネットワークを用いて、前記第1の重みを学習する、
符号化装置。
【請求項2】
符号化された前記並替画像群の復号結果である復号画像群を取得し、第3の重みを用いて、前記第2の入力多視点画像を前記復号画像群から復元することによって、復元された前記第2の入力多視点画像である復元多視点画像を生成する復元部を更に備え、
前記符号化復号部は、符号化された前記並替画像群の前記復号結果を前記復元部に出力し、
前記復元部は、前記学習段階において、前記復号結果が入力される第2の入力層と前記第2の入力層に部分結合する第2の出力層とを有する第2のニューラルネットワークを用いて、前記第3の重みを学習する、
請求項1に記載の符号化装置。
【請求項3】
符号化装置が実行する符号化方法であって、
学習段階において入力された多視点画像である第1の入力多視点画像を低次元化するように学習された第1の重みを用いて、符号化段階において入力された多視点画像である第2の入力多視点画像を低次元化することによって、低次元化された前記第2の入力多視点画像である基礎画像群を生成するステップと、
前記基礎画像群において隣接する基礎画像の間の差を距離と見做し、前記基礎画像群における前記距離の総和を短くするように前記基礎画像群を並び替えることによって、並び替えられた前記基礎画像群である並替画像群を生成するステップと、
前記並替画像群を符号化するステップと、
前記学習段階において、低次元化された前記第1の入力多視点画像の復号に用いられる第2の重みを学習するステップと
を含み、
符号化装置は、前記学習段階において、前記第1の入力多視点画像が入力される第1の入力層と前記第1の入力層に部分結合する中間層と前記第1の入力層に部分結合する第1の出力層とを有する第1のニューラルネットワークを用いて、前記第1の重みを学習する、
符号化方法。
【請求項4】
請求項1又は請求項2に記載の符号化装置としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、符号化装置、符号化方法及びプログラムに関する。
【背景技術】
【0002】
多視点画像を用いて光線空間(ライトフィールド)が表される場合がある。多視点画像を構成する複数の視点画像は、行列状に配置された複数のマイクロレンズを有するカメラが被写体を複数方向から撮影することによって得られる。非特許文献1では、オートエンコーダの符号化部が、多視点画像の低次元化及び並べ替えを実行する。並べ替えられた多視点画像(潜在表現)は、時系列の画像群と見做されて、HEVC(Hight Efficiency Video Coding)等の動画像符号化規格に基づいて符号化される。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】今枝滉太 外2名、「オートエンコーダを用いた光線空間圧縮に適した潜在表現の生成」、PCSJ/IMPS予稿集、2019年11月18日、pp.140-141
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、符号化された多視点画像の圧縮率を高くすることができない場合がある。上記事情に鑑み、本発明は、光線空間を表す多視点画像の圧縮率を向上させることが可能である符号化装置、符号化方法及びプログラムを提供することを目的としている。
【課題を解決するための手段】
【0005】
本発明の一態様は、学習段階において入力された多視点画像である第1の入力多視点画像を低次元化するように学習された第1の重みを用いて、符号化段階において入力された多視点画像である第2の入力多視点画像を低次元化することによって、低次元化された前記第2の入力多視点画像である基礎画像群を生成する符号化部と、前記基礎画像群において隣接する基礎画像の間の差を距離と見做し、前記基礎画像群における前記距離の総和を短くするように前記基礎画像群を並び替えることによって、並び替えられた前記基礎画像群である並替画像群を生成する並替部と、前記並替画像群を符号化する符号化復号部と、前記学習段階において、低次元化された前記第1の入力多視点画像の復号に用いられる第2の重みを学習する復号部とを備え、前記符号化部は、前記学習段階において、前記第1の入力多視点画像が入力される第1の入力層と前記第1の入力層に部分結合する中間層と前記第1の入力層に部分結合する第1の出力層とを有する第1のニューラルネットワークを用いて、前記第1の重みを学習する、符号化装置である。
【0006】
本発明の一態様は、上記に記載の符号化装置が実行する符号化方法であって、符号化装置が実行する符号化方法であって、学習段階において入力された多視点画像である第1の入力多視点画像を低次元化するように学習された第1の重みを用いて、符号化段階において入力された多視点画像である第2の入力多視点画像を低次元化することによって、低次元化された前記第2の入力多視点画像である基礎画像群を生成するステップと、前記基礎画像群において隣接する基礎画像の間の差を距離と見做し、前記基礎画像群における前記距離の総和を短くするように前記基礎画像群を並び替えることによって、並び替えられた前記基礎画像群である並替画像群を生成するステップと、前記並替画像群を符号化するステップと、前記学習段階において、低次元化された前記第1の入力多視点画像の復号に用いられる第2の重みを学習するステップとを含み、符号化装置は、前記学習段階において、前記第1の入力多視点画像が入力される第1の入力層と前記第1の入力層に部分結合する中間層と前記第1の入力層に部分結合する第1の出力層とを有する第1のニューラルネットワークを用いて、前記第1の重みを学習する、符号化方法である。
【0007】
本発明の一態様は、上記に記載の符号化装置としてコンピュータを機能させるためのプログラムである。
【発明の効果】
【0008】
本発明により、光線空間を表す多視点画像の圧縮率を向上させることが可能である。
【図面の簡単な説明】
【0009】
【
図1】第1実施形態における、符号化装置の構成例を示す図である。
【
図2】第1実施形態における、オートエンコーダの学習処理の例を示す図である。
【
図3】第1実施形態における、並替処理の例を示す図である。
【
図4】第1実施形態における、巡回セールスマン問題の解法の例を示す図である。
【
図5】第1実施形態における、復号画像群を並替画像群から生成する処理の例を示す図である。
【
図6】第1実施形態における、復元多視点画像を復号画像群から生成する処理の例を示す図である。
【
図7】第1実施形態における、符号化装置の動作例を示すフローチャートである。
【
図8】第1実施形態における、符号化部が用いる重み「W
n,m」の例を示す図である。
【
図9】第1実施形態における、並替部が用いる重みの例を示す図である。
【
図10】第1実施形態における、復元装置が用いる重み「~W
m,n」の例を示す図である。
【
図11】第1実施形態における、潜在変数の個数(ノード数)ごとのレート歪み特性の例を示す図である。
【
図12】第1実施形態における、並替処理が実行された場合のレート歪み特性と、並替処理が実行されない場合のレート歪み特性との例を示す図である。
【
図13】第1実施形態における、多視点画像を構成する複数の視点画像の配列順の第1例(Raster)を示す図である。
【
図14】第1実施形態における、多視点画像を構成する複数の視点画像の配列順の第2例(Circular)を示す図である。
【
図15】第1実施形態における、画像データセットの画像データごとのレート歪み特性との例を示す図である。
【
図16】第2実施形態における、オートエンコーダの学習処理の例を示す図である。
【
図17】第2実施形態における、復元多視点画像を復号画像群から生成する処理の例を示す図である。
【
図18】各実施形態における、符号化装置のハードウェア構成例を示す図である。
【発明を実施するための形態】
【0010】
本発明の実施形態について、図面を参照して詳細に説明する。
以下では、数式又は関数(以下「数式等」という。)において文字の上に付されている記号は、文字の前に記載される。例えば、数式等において文字の上に付されている記号「^」は、以下では文字「x」の前に「^x」のように記載される。例えば、数式等において文字の上に付されている記号「-」は、以下では文字「x」の前に「(-)x」のように記載される。
【0011】
(第1実施形態)
図1は、第1実施形態における、符号化装置1の構成例を示す図である。符号化装置1は、多視点画像を符号化する装置である。多視点画像は、光線空間(ライトフィールド)を表す。符号化装置に入力される多視点画像(以下「入力多視点画像」という。)を構成する複数の視点画像は、行列状に配置された複数のマイクロレンズを有するカメラ(不図示)が被写体(不図示)を複数方向(多視点)から撮影することによって得られる。
【0012】
符号化装置1は、機械学習の手法(オートエンコーダ)を用いて、入力多視点画像100の低次元化を実行する。入力多視点画像100の低次元化とは、例えば、入力多視点画像100を構成する複数の視点画像の枚数(フレーム数)を削減することである。例えば、M枚の入力多視点画像100が、N(<M)枚の低次元化された入力多視点画像(以下「基礎画像群」という。)に削減される。
【0013】
符号化装置1は、基礎画像群101の並べ替えを実行する。多視点画像を構成する複数の視点画像は、HEVC等の動画像符号化規格に基づいて符号化される場合、時系列の画像群と見做される。このため、基礎画像群101は、符号化に適するように並べ替えられる。すなわち、基礎画像群101は、時系列で滑らかに変化するように並べ替えられる。並べ替えられた基礎画像群(以下「並替画像群」という。)(潜在表現)は、動画像符号化規格に基づいて符号化される。
【0014】
符号化装置1は、合成装置2と、符号化並替装置3と、符号化復号装置4(符号化復号部)と、復元装置5(復元部)とを備える。以下では、合成装置2は、一例としてオートエンコーダである。合成装置2は、符号化部20と、復号部21とを備える。符号化並替装置3は、符号化部20と、並替部30とを備える。以下、合成装置が重みを学習する段階を「学習段階」という。
【0015】
学習段階において、符号化部20「ΦL→B」は、学習対象の入力多視点画像100「L:Lm(u,v)」を取得する。ここで、「u」は、入力多視点画像100の視点画像における水平座標を表す。「v」は、入力多視点画像100の視点画像における垂直座標を表す。符号化部20は、機械学習の手法を用いて、入力多視点画像100を低次元化するように重み「Wn,m」を学習する。符号化部20は、重み「Wn,m」を用いて入力多視点画像100を低次元化することによって、基礎画像群101「B:Bn(u,v)」を生成する。学習段階において、符号化部20は、基礎画像群101を復号部21に出力する。
【0016】
学習段階において、復号部21「Φ*
L→B」は、機械学習の手法を用いて、低次元化された入力多視点画像100を高次元化するように重み「W*
m,n」を学習する。すなわち、復号部21は、機械学習の手法を用いて、低次元化された入力多視点画像100を復号するように重み「W*
m,n」を学習する。復号部21は、基礎画像群101を取得する。復号部21は、重み「W*
m,n」を用いて基礎画像群101を高次元化することによって、復号多視点画像102「(-)L:(-)Lm(u,v)」を生成する。復号部21は、復号多視点画像102を所定の外部装置(不図示)に出力する。
【0017】
学習段階よりも後の符号化段階において、符号化部20は、符号化対象の入力多視点画像100「L:Lm(u,v)」を取得する。符号化部20は、重み「Wn,m」を用いて入力多視点画像100を低次元化することによって、基礎画像群101を生成する。符号化段階において、符号化部20は、基礎画像群101を並替部30に出力する。
【0018】
符号化段階において、並替部30は、基礎画像群101を符号化部20から取得する。並替部30は、光線空間を表す基礎画像群101において隣接する基礎画像「Fn」の間の差(例えば、画素値の差)を距離と見做す。並替部30は、基礎画像群101における距離の総和を短くするように基礎画像群101を並び替えることによって、並替画像群103「F:Fn(u,v)」を生成する。並替部30が基礎画像群101を並び替える手法は、特定の手法に限定されない。
【0019】
以下では、一例として、並替部30は、基礎画像群101における距離の総和を短くする巡回セールスマン問題(Light Fields - Traveling Salesman Problem : LF-TSP)の解法を用いて基礎画像群101を並び替えることによって、並替画像群103「F:Fn(u,v)」を生成する。巡回セールスマン問題とは、複数の都市における各都市を1回ずつ通過する最短経路を導出するという組み合わせ最適問題である。並替部30は、入力多視点画像100における各視点画像を各都市と見做して、巡回セールスマン問題を解く。巡回セールスマン問題の解法として、例えば、貪欲法、2-opt法(逐次改善法)が知られている。並替部30は、並替画像群103(潜在表現)を符号化復号装置4「ΦF→^F」に出力する。
【0020】
符号化段階において、符号化復号装置4は、並替画像群103を並替部30から取得する。符号化復号装置4は、HEVC等の動画像符号化規格に基づいて、並替画像群103を符号化する。符号化復号装置4は、符号化された並替画像群103を復号する。符号化復号装置4は、符号化された並替画像群103の復号結果である復号画像群104「^F:^Fn(u,v)」を、復元装置5に出力する。
【0021】
符号化段階において、復元装置5「ΦF→L」は、復号画像群104を符号化復号装置4から取得する。復元装置5は、符号化対象の入力多視点画像100を復号画像群104から復元することによって、復元された入力多視点画像である復元多視点画像105を生成する。すなわち、復元装置5は、復号画像群104に重み「~Wm,n」を乗算することによって、復元多視点画像105を生成する。重み「~Wm,n」は、並替部30が実行した並替処理と符号化部20が実行した符号化処理との逆処理として、予め定められる。復元装置5は、復元多視点画像105を所定の外部装置(不図示)に出力する。
【0022】
なお、符号化復号装置4は、並替画像群103の符号化結果である圧縮データ106を、所定の外部装置(不図示)に出力してもよい。圧縮データ106は、HEVC等の動画像符号化規格に基づいて符号化された並替画像群103のビットストリーム「BS」と、復元に用いられる重み「~Wm,n」とを含む。
【0023】
次に、符号化装置1の各機能部の詳細を説明する。
図2は、第1実施形態における、オートエンコーダの学習処理の例を示す図である。学習段階において、符号化部20は、重み「W
n,m」を用いて、基礎画像群101を入力多視点画像100「L:L
m(u,v)」から生成する。基礎画像群101「B:B
n(u,v)」は、式(1)のように表される。
【0024】
【0025】
学習段階において、符号化部20は、基礎画像群101を復号部21に出力する。復号部21は、機械学習の手法を用いて、低次元化された入力多視点画像100を復号するように重み「W*
m,n」を学習する。復号部21は、重み「W*
m,n」を用いて基礎画像群101を高次元化することによって、復号多視点画像102「(-)L:(-)Lm(u,v)」を生成する。
【0026】
図3は、第1実施形態における、並替処理の例を示す図である。符号化段階において、符号化部20は、基礎画像群101を並替部30に出力する。並替部30は、基礎画像群101を並び替えることによって、並替画像群103「F:F
n(u,v)」を生成する。
【0027】
図4は、第1実施形態における、巡回セールスマン問題の解法の例を示す図である。並替部30は、基礎画像群101における、基礎画像「F
n」と基礎画像「F
n-1」との間の距離「Distance」の総和である長さ(経路長)「Length」を短くする巡回セールスマン問題の解法(LF-TSP)を用いて、基礎画像群101を並び替える。距離「Distance」の総和である長さ(経路長)「Length」は、式(2)のように表される。
【0028】
【0029】
図5は、第1実施形態における、復号画像群104を並替画像群103から生成する処理の例を示す図である。符号化復号装置4は、HEVC等の動画像符号化規格に基づいて、並替画像群103を符号化する。符号化復号装置4は、符号化された並替画像群103を復号することによって、復号画像群104「^F:^F
n(u,v)」を生成する。
【0030】
図6は、第1実施形態における、復元多視点画像105を復号画像群104から生成する処理の例を示す図である。復元装置5は、復号画像群104に重み「~W
m,n」を乗算することによって、復元多視点画像105を生成する。
【0031】
次に、符号化装置1の動作例を説明する。
図7は、第1実施形態における、符号化装置1の動作例を示すフローチャートである。学習段階において、符号化部20は、学習対象の入力多視点画像100(第1の入力多視点画像)を低次元化するように重み「W
n,m」を学習する(ステップS101)。符号化段階において、符号化部20は、符号化対象の入力多視点画像100(第2の入力多視点画像)を重み「W
n,m」を用いて低次元化することによって、基礎画像群101「B:B
n(u,v)」を生成する(ステップS102)。
【0032】
並替部30は、巡回セールスマン問題の解法(LF-TSP)を用いて基礎画像群101を並び替えることによって、並替画像群103「F:Fn(u,v)」を生成する(ステップS103)。符号化復号装置4は、HEVC等の動画像符号化規格に基づいて、並替画像群103を符号化する(ステップS104)。符号化復号装置4は、符号化された並替画像群103を復号することによって、復号画像群104を生成する(ステップS105)。復元装置5は、重み「~Wm,n」を用いて、復号画像群104に対して復元処理を実行することによって、復元多視点画像105を生成する。すなわち、復元装置5は、入力多視点画像100を復号画像群104から復元することによって、復元多視点画像105を生成する(ステップS106)。
【0033】
機械学習の学習条件の一例を以下に示す。
(1)並替画像群103のノード数(並替画像の枚数)「N」:128、64、32
(2)並替画像群103(潜在表現)の最初のフレーム:多視点画像における中央の視点画像
(3)合成装置2におけるエポック数:3000
(4)復元装置5におけるエポック数:500
(5)バッチサイズ(Batch size):16384(全画素数=271250)
(6)機械学習の最適化手法:Adam
(7)視点画像を構成する各画素の重みの値:正値に限定
(8)視点画像を構成する各画素の重みの値の初期分布:正規分布
(9)データセット(Lytro Pleno datasets):「自転車群(Bikes)」、「友達(Friends)」、「花畑(Flowers)」、「石群(Stones)」
・視点画像の解像度「625×434」
・視点画像の枚数(視点の数)「193」
・グレースケール
(10)動画像符号化規格:HEVC(HM16.2,Random Access)
(11)巡回セールスマン問題の解法:ICIP(International Conference on Image Processing)手法
【0034】
図8は、第1実施形態における、符号化部20が用いる重み「W
n,m」の例を示す図である。「m」は、0以上「M-1」以下の整数を表す。「M」は、入力多視点画像の枚数を表す。「n」は、0以上「N-1」以下の整数を表す。「N」は、基礎画像群(潜在表現)を構成する基礎画像の枚数(潜在変数の個数)を表す。したがって、「N」は、並替画像群を構成する並替画像の枚数を表す。学習段階よりも後の符号化段階において、符号化部20「Φ
L→B」は、符号化対象の入力多視点画像100に重み「W
n,m」を乗算することによって、基礎画像群101を生成する。
【0035】
図9は、第1実施形態における、並替部30が用いる重みの例を示す図である。並替部30「Φ
B→F」は、基礎画像群101に重み「W
n,n」を乗算することによって、並替画像群103を生成する。
【0036】
図10は、第1実施形態における、復元装置5が用いる重み「~W
m,n」の例を示す図である。復元装置5は、復号画像群104に重み「~W
m,n」を乗算することによって、復元多視点画像105を生成する。
【0037】
図11は、第1実施形態における、潜在変数の個数(ノード数)ごとのレート歪み特性の例を示す図である。横軸は、画素当たりのビット数を表す。縦軸は、ピーク信号対雑音比(Peak signal-to-noise ratio : PSNR)を表す。
図11では、潜在変数の個数(ノード数)「N」が大きいほど、ピーク信号対雑音比が高くなる傾向がある。
【0038】
図12は、第1実施形態における、並替処理が実行された場合のレート歪み特性と、並替処理が実行されない場合のレート歪み特性との例を示す図である。横軸は、画素当たりのビット数を表す。縦軸は、ピーク信号対雑音比(PSNR)を表す。
図12では、基礎画像群の並替処理が実行された場合「並替 有」におけるピーク信号対雑音比は、基礎画像群の並替処理が実行されない場合「並替 無」におけるピーク信号対雑音比と比較して高い。
【0039】
図13は、第1実施形態における、多視点画像を構成する複数の視点画像の配列順(巡回順)の第1例「ラスタ」(Raster)を示す図である。各視点画像に記載の番号は、視点画像の配列順(巡回順)を表す。
【0040】
図14は、第1実施形態における、多視点画像を構成する複数の視点画像の配列順(巡回順)の第2例「円形」(Circular)を示す図である。各視点画像に記載の番号は、視点画像の配列順(巡回順)を表す。
【0041】
図15は、第1実施形態における、画像データセット(Lytro Pleno datasets)の画像データごとのレート歪み特性との例を示す図である。各グラフの横軸は、各画像データの画素当たりのビット数を表す。各グラフの縦軸は、各画像データのピーク信号対雑音比(PSNR)を表す。
図15において、「ラスタ」は、
図13に示された入力多視点画像の配列順を示す。「円形」は、
図14に示された入力多視点画像の配列順を示す。
図15において、「LF-TSP」は、入力多視点画像が低次元化されることなく、「LF-TSP」を用いて並べ替えられた入力多視点画像の配列順を示す。「提案手法」は、符号化装置1が実行する低次元化及び並べ替えの手法を示す。画像データセットの全ての画像データにおいて、「提案手法」におけるピーク信号対雑音比は、他の手法におけるピーク信号対雑音比と比較して高い。
【0042】
以上のように、符号化部20は、学習段階において入力された多視点画像である第1の入力多視点画像100を低次元化するように学習された重み「Wn,m」を用いて、符号化段階において入力された多視点画像である第2の入力多視点画像100を低次元化することによって、基礎画像群101を生成する。並替部30は、基礎画像群101において隣接する基礎画像の間の差を距離と見做す。並替部30は、基礎画像群101における距離の総和を短くするように基礎画像群101を並び替えることによって、並替画像群103を生成する。例えば、並替部30は、基礎画像群101における距離の総和を短くする巡回セールスマン問題の解法(例えば、LF-TSP)を用いて基礎画像群101を並び替えることによって、並替画像群103を生成する。符号化復号装置4(符号化復号部)は、並替画像群103を符号化する。
【0043】
このように、符号化部20は、第2の入力多視点画像100を低次元化することによって、基礎画像群101を生成する。並替部30は、巡回セールスマン問題の手法を用いて基礎画像群101を並び替える。すなわち、符号化装置1は、並替画像群(潜在表現)の品質を向上させるという問題と、動画像符号化において時系列で滑らかに変化する並替画像群を生成するという問題とを分けて解く。並替画像群の品質を向上させるとは、復号に使用されない基礎画像(潜在変数)の枚数(ノード数)を少なくすることである。これによって、光線空間を表す多視点画像の圧縮率を向上させることが可能である。
【0044】
このように、学習段階において、合成装置2(オートエンコーダ)は、機械学習の手法を用いて、入力多視点画像100を符号化及び復号する。ここで、符号化部20は、入力多視点画像100を低次元化するように、学習段階において重み「Wn,m」を学習する。符号化部20は、入力多視点画像100を低次元化する(入力多視点画像100の重み付け和を導出する)ことによって、基礎画像群101を生成する。復号部21は、入力多視点画像100を低次元化するように、学習段階において重み「W*
n,m」を学習する。
【0045】
動画像符号化規格におけるインター予測を用いる符号化では、動画像を構成する時系列のフレームの変化が滑らかであるほど符号化効率が向上することが知られている。HEVC等の動画像符号化規格が用いられる符号化段階において、入力多視点画像100を構成する複数の視点画像は、動画像の時系列のフレームであると見做される。並替部30は、符号化復号装置4における符号化(インター予測を用いる符号化)に適するように基礎画像群101を並び替えることによって、並替画像群103を生成する。並替画像群103は、巡回セールスマン問題の最適化手法(例えば、LF-TSP)を用いて、基礎画像群101を並び替える。符号化復号装置4は、HEVC等の動画像符号化規格に基づいて、並替画像群103を符号化する。
【0046】
非特許文献1のオートエンコーダにおいて、符号化部の学習と復号部の学習とは同時に実行されている。この復号部が復号に用いない基礎画像(潜在変数)が、基礎画像群(潜在表現)に多く存在する。このため非特許文献1では、光線空間を表す多視点画像の圧縮率を向上させることができない場合がある。これに対して、符号化装置1は、基礎画像群(潜在表現)のうちで復号に用いられない基礎画像(潜在変数)の個数を少なくするので、光線空間を表す多視点画像の圧縮率を向上させることが可能である。
【0047】
また非特許文献1では、動画像符号化規格におけるインター予測に適するように基礎画像(潜在変数)が配列されない場合がある。これに対して、符号化装置1は、インター予測に適するように基礎画像(潜在変数)を並び替える。すなわち、符号化装置1は、インター予測に適した潜在表現を生成する。これによって、符号化装置1は、光線空間を表す多視点画像の圧縮率を向上させることが可能である。
【0048】
(第2実施形態)
第2実施形態では、基礎画像群101(基底画像群)の生成に用いられるニューラルネットワーク(オートエンコーダ)の入力層と中間層との間の結合が部分結合である点と、そのニューラルネットワーク(オートエンコーダ)の出力層と中間層との間の結合が部分結合である点とが、第1実施形態との差分である。また、第2実施形態では、復元多視点画像105の生成に用いられるニューラルネットワークの結合が部分結合である点が、第1実施形態との差分である。第2実施形態では、第1実施形態との差分を中心に説明する。
【0049】
入力多視点画像100「L」の符号化が最適化されるためには、同一のビットレートにおける入力多視点画像100「L」と復元多視点画像105「^L」とついて、入力多視点画像100「L」と復元多視点画像105「^L」との間の二乗誤差「||L-^L||2」の最小化「min」が必要である。二乗誤差の最小化は、式(3)のように表される。
【0050】
【0051】
ここで、「ΦL→B」は、入力多視点画像100から基礎画像群101への写像を表す。すなわち、「ΦL→B」は、符号化部20のニューラルネットワーク(重み「Wn,m」)を表す。「ΦB→F」は、基礎画像群101から復号多視点画像102への写像を表す。「ΦF→^F」は、並替画像群103から復号画像群104への写像(HEVC等の符号化及び復号)を表す。「Φ^F→^L」は、復号画像群104から復元多視点画像105への写像を表す。すなわち、「Φ^F→^L」は、復元装置5のニューラルネットワーク(重み「~Wn,m」)を表す。全ての写像が同時に最適化されることは困難であるため、各写像が個別に最適化される。
【0052】
図16は、第2実施形態における、オートエンコーダの学習処理の例を示す図である。学習段階において、符号化部20は、重み「W
n,m」を用いて、基礎画像群101を入力多視点画像100「L:L
m(u,v)」から生成する。基礎画像群101「B:B
n(u,v)」は、上記の式(1)のように表される。
【0053】
学習段階において、符号化部20は、基礎画像群101を復号部21に出力する。復号部21は、機械学習の手法を用いて、低次元化された入力多視点画像100を復号するように重み「W*
m,n」を学習する。復号部21は、重み「W*
m,n」を用いて基礎画像群101を高次元化することによって、復号多視点画像102「(-)L:(-)Lm(u,v)」を生成する。復号多視点画像102は、式(4)のように表される。
【0054】
【0055】
図16に示された合成装置2では、入力層(入力多視点画像100)と、中間層(基礎画像群101)と、出力層(復号多視点画像102)との3層のニューラルネットワークを用いて、画像の符号化が最適化される。ここで、
図16に示された合成装置2では、入力層(入力多視点画像100)と中間層(基礎画像群101)との間の結合は、部分結合である。同様に中間層(基礎画像群101)と出力層(復号多視点画像102)との間の結合は、部分結合である。学習対象の入力多視点画像100「L:L
m(u,v)」と復号多視点画像102「(-)L:(-)L
m(u,v)」とが一致するように、全画素のうちの一部の画素について、オートエンコーダの学習処理が実行される。このように、ニューラルネットワークが簡略化されているので、学習効率が向上する。
【0056】
なお、第1実施形態における
図2に示された合成装置2では、入力層(入力多視点画像100)と、中間層(基礎画像群101)と、出力層(復号多視点画像102)との3層のニューラルネットワークを用いて、入力多視点画像100の符号化が最適化される。ここで、
図2に示された合成装置2では、入力層(入力多視点画像100)と中間層(基礎画像群101)との間の結合は、全結合である。同様に、中間層(基礎画像群101)と出力層(復号多視点画像102)との間の結合は、全結合である。全画素について、学習対象の入力多視点画像100「L:L
m(u,v)」と復号多視点画像102「(-)L:(-)L
m(u,v)」とが一致するように、オートエンコーダの学習処理が実行される。第1実施形態では、ニューラルネットワークが簡略化されていないので、第2実施形態における学習効率と比較して、学習効率は向上しない。
【0057】
図17は、第2実施形態における、復元多視点画像を復号画像群から生成する処理の例を示す図である。復元装置5は、復号画像群104に重み「~W
m,n」を乗算することによって、復元多視点画像105を生成する。重み「~W
m,n」は、並替部30が実行した並替処理と符号化部20が実行した符号化処理との逆処理として、学習段階において定められる。復元多視点画像105「^L
m(u,v)」は、式(5)のように表される。
【0058】
【0059】
図17に示された復元装置5では、入力層(復号画像群104)と、出力層(復元多視点画像105)との2層のニューラルネットワークを用いて、多視点画像への復元が最適化される。ここで、
図17に示された復元装置5では、入力層(復号画像群104)と出力層(復元多視点画像105)との間の結合は、部分結合である。全画素のうちの一部の画素について、学習対象の入力多視点画像100「L:L
m(u,v)」と復元多視点画像105「^L:^L
m(u,v)」とが一致するように、復元装置5のニューラルネットワークの学習処理が実行される。このように、ニューラルネットワークが簡略化されているので、学習効率が向上する。
【0060】
なお、第1実施形態における
図6に示された復元装置5では、入力層(復号画像群104)と、出力層(復元多視点画像105)との2層のニューラルネットワークを用いて、多視点画像への復元が最適化される。ここで、
図6に示された復元装置5では、入力層(復号画像群104)と出力層(復元多視点画像105)との間の結合は、全結合である。学習対象の入力多視点画像100「L:L
m(u,v)」と復元多視点画像105「^L:^L
m(u,v)」とが一致するように、全画素について、復元装置5のニューラルネットワークの学習処理が実行される。第1実施形態では、ニューラルネットワークが簡略化されていないので、第2実施形態における学習効率と比較して、学習効率は向上しない。
【0061】
以上のように、合成装置2における第1のニューラルネットワークは、入力多視点画像100(第1の入力多視点画像)が入力される第1の入力層「L0,L1,…,LM-1」と、第1の入力層に部分結合する中間層「B0,B1,…,BN-1」と、第1の入力層に部分結合する第1の出力層「(-)L0,(-)L1,…,(-)LM-1」とを有する。符号化部20は、学習段階において、第1のニューラルネットワークを用いて、第1の重み「Wn,m」を学習する。復号部21は、学習段階において、低次元化された入力多視点画像100(第1の入力多視点画像)の復号に用いられる第2の重み「W*
m,n」を学習する。このように、ニューラルネットワークが簡略化されているので、学習効率が向上する。
【0062】
符号化部20は、第1の入力多視点画像100を低次元化するように学習された第1の重み「Wn,m」を用いて、符号化段階において入力された多視点画像である入力多視点画像100(第2の入力多視点画像)を低次元化する。これによって、符号化部20は、低次元化された入力多視点画像100である基礎画像群101を生成する。並替部30は、基礎画像群101において隣接する基礎画像の間の差を距離と見做す。並替部30は、基礎画像群101における距離の総和を短くするように基礎画像群101を並び替えることによって、並替画像群103を生成する。符号化復号装置4(符号化復号部)は、並替画像群103を符号化する。
【0063】
これによって、学習効率を向上させた上で、光線空間を表す多視点画像の圧縮率を向上させることが可能である。
【0064】
復元装置5(復元部)における第2のニューラルネットワークは、復号結果が入力される第2の入力層「F0,F1,…,FN-1」と、第2の入力層に部分結合する第2の出力層「^L0,^L1,…,^LM-1」とを有する。復元装置5は、学習段階において、第2のニューラルネットワークを用いて、第3の重み「~Wm,n」を学習する。このように、ニューラルネットワークが簡略化されているので、学習効率が向上する。
【0065】
復元装置5は、符号化された並替画像群103の復号結果である復号画像群104を取得する。復元装置5は、第3の重みを用いて、符号化段階において入力された多視点画像である入力多視点画像100(第2の入力多視点画像)を復号画像群から復元する。これによって、復元装置5は、復元された第2の入力多視点画像である復元多視点画像105を生成する。符号化復号装置4(符号化復号部)は、符号化された並替画像群103の復号結果を、復元装置5に出力する。
【0066】
これによって、学習効率を向上させた上で、光線空間を表す多視点画像の圧縮率を向上させることが可能である。
【0067】
図18は、各実施形態における、符号化装置1のハードウェア構成例を示す図である。符号化装置1の各機能部のうちの一部又は全部は、CPU(Central Processing Unit)等のプロセッサ200が、不揮発性の記録媒体(非一時的な記録媒体)を有する記憶部300に記憶されたプログラムを実行することにより、ソフトウェアとして実現される。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM(Read Only Memory)、CD-ROM(Compact Disc Read Only Memory)等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置などの非一時的な記録媒体である。通信部400は、符号化装置1による処理結果を外部装置(不図示)に送信する。通信部400は、通信回線を経由してプログラムを受信してもよい。表示部500は、符号化装置1による処理結果を表示する。表示部500は、例えば、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイである。
【0068】
符号化装置1の各機能部のうちの一部又は全部は、例えば、LSI(Large Scale Integrated circuit)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)又はFPGA(Field Programmable Gate Array)等を用いた電子回路(electronic circuit又はcircuitry)を含むハードウェアを用いて実現されてもよい。
【0069】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【産業上の利用可能性】
【0070】
本発明は、光線空間を表す多視点画像を圧縮及び復元する装置に適用可能である。
【符号の説明】
【0071】
1…符号化装置、2…合成装置、3…符号化並替装置、4…符号化復号装置、5…復元装置、20…符号化部、21…復号部、30…並替部、100…入力多視点画像、101…基礎画像群、102…復号多視点画像、103…並替画像群、104…復号画像群、105…復元多視点画像、106…圧縮データ、200…プロセッサ、300…記憶部、400…通信部、500…表示部