特許7349106 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人名古屋大学の特許一覧

特許7349106符号化装置、符号化方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-09-13

(45)【発行日】2023-09-22

(54)【発明の名称】符号化装置、符号化方法及びプログラム

(51)【国際特許分類】

H04N 19/597 20140101AFI20230914BHJP

H04N 19/587 20140101ALI20230914BHJP

【ＦＩ】

H04N19/597

H04N19/587

【請求項の数】 5

(21)【出願番号】P 2020085157

(22)【出願日】2020-05-14

(65)【公開番号】P2021180417

(43)【公開日】2021-11-18

【審査請求日】2022-07-28

(73)【特許権者】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(73)【特許権者】

【識別番号】504139662

【氏名又は名称】国立大学法人東海国立大学機構

(74)【代理人】

【識別番号】110001634

【氏名又は名称】弁理士法人志賀国際特許事務所

(72)【発明者】

【氏名】坂東幸浩

(72)【発明者】

【氏名】宮澤健人

(72)【発明者】

【氏名】高村誠之

(72)【発明者】

【氏名】木全英明

(72)【発明者】

【氏名】藤井俊彰

(72)【発明者】

【氏名】▲高▼橋桂太

(72)【発明者】

【氏名】今枝滉太

【審査官】岩井健二

(56)【参考文献】

【文献】特開２０２０－１６７４７９（ＪＰ，Ａ）

【文献】特開平１０－０２３４０８（ＪＰ，Ａ）

【文献】今枝滉太，高橋桂太，藤井俊彰，基底画像と映像符号化手法を用いた光線空間の符号化，ＰＣＳＪ／ＩＭＰＳ２０２０，2020年11月17日，Ｐ２－Ｃ－３，pp.1-2

【文献】今枝滉太他，ＨＥＶＣを用いた光線空間符号化への巡回セールスマン問題の適用と性能評価，電子情報通信学会技術研究報告，一般社団法人電子情報通信学会，2019年06月24日，Ｖｏｌ．１１９，Ｎｏ．５１，pp.33-38

【文献】Kota Imaeda，et al.，LF-TSP: Traveling salesman problem for HEVC-based light-field coding，IEEE Visual Communications and Image Processing (VCIP)，IEEE，2019年，pp.1-4

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｎ１９／００－１９／９８

(57)【特許請求の範囲】

【請求項1】

学習段階において入力された多視点画像である第１の入力多視点画像を低次元化するように学習された重みを用いて、符号化段階において入力された多視点画像である第２の入力多視点画像を低次元化することによって、低次元化された前記第２の入力多視点画像である基礎画像群を生成する符号化部と、
前記基礎画像群において隣接する基礎画像の間の差を距離と見做し、前記基礎画像群における前記距離の総和を短くするように前記基礎画像群を並び替えることによって、並び替えられた前記基礎画像群である並替画像群を生成する並替部と、
前記並替画像群を符号化する符号化復号部と
を備える符号化装置。

【請求項2】

前記並替部は、巡回セールスマン問題の解法を用いて前記基礎画像群を並び替える、
請求項１に記載の符号化装置。

【請求項3】

符号化された前記並替画像群の復号結果である復号画像群を取得し、前記第２の入力多視点画像を前記復号画像群から復元することによって、復元された前記第２の入力多視点画像である復元多視点画像を生成する復元部を更に備え、
前記符号化復号部は、符号化された前記並替画像群の前記復号結果を前記復元部に出力する、
請求項１又は請求項２に記載の符号化装置。

【請求項4】

符号化装置が実行する符号化方法であって、
学習段階において入力された多視点画像である第１の入力多視点画像を低次元化するように学習された重みを用いて、符号化段階において入力された多視点画像である第２の入力多視点画像を低次元化することによって、低次元化された前記第２の入力多視点画像である基礎画像群を生成するステップと、
前記基礎画像群において隣接する基礎画像の間の差を距離と見做し、前記基礎画像群における前記距離の総和を短くするように前記基礎画像群を並び替えることによって、並び替えられた前記基礎画像群である並替画像群を生成するステップと、
前記並替画像群を符号化するステップと
を含む符号化方法。

【請求項5】

請求項１から請求項３のいずれか一項に記載の符号化装置としてコンピュータを機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、符号化装置、符号化方法及びプログラムに関する。

【背景技術】

【0002】

多視点画像を用いて光線空間（ライトフィールド）が表される場合がある。多視点画像を構成する複数の視点画像は、行列状に配置された複数のマイクロレンズを有するカメラが被写体を複数方向から撮影することによって得られる。非特許文献１では、オートエンコーダの符号化部が、多視点画像の低次元化及び並べ替えを実行する。並べ替えられた多視点画像（潜在表現）は、時系列の画像群と見做されて、ＨＥＶＣ（Hight Efficiency Video Coding）等の動画像符号化規格に基づいて符号化される。

【先行技術文献】

【非特許文献】

【0003】

【文献】今枝滉太外２名、「オートエンコーダを用いた光線空間圧縮に適した潜在表現の生成」、ＰＣＳＪ／ＩＭＰＳ予稿集、２０１９年１１月１８日、ｐｐ.１４０－１４１

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、符号化された多視点画像の圧縮率を高くすることができない場合がある。上記事情に鑑み、本発明は、光線空間を表す多視点画像の圧縮率を向上させることが可能である符号化装置、符号化方法及びプログラムを提供することを目的としている。

【課題を解決するための手段】

【0005】

本発明の一態様は、学習段階において入力された多視点画像である第１の入力多視点画像を低次元化するように学習された重みを用いて、符号化段階において入力された多視点画像である第２の入力多視点画像を低次元化することによって、低次元化された前記第２の入力多視点画像である基礎画像群を生成する符号化部と、前記基礎画像群において隣接する基礎画像の間の差を距離と見做し、前記基礎画像群における前記距離の総和を短くするように前記基礎画像群を並び替えることによって、並び替えられた前記基礎画像群である並替画像群を生成する並替部と、前記並替画像群を符号化する符号化復号部とを備える符号化装置である。

【0006】

本発明の一態様は、上記に記載の符号化装置が実行する符号化方法であって、学習段階において入力された多視点画像である第１の入力多視点画像を低次元化するように学習された重みを用いて、符号化段階において入力された多視点画像である第２の入力多視点画像を低次元化することによって、低次元化された前記第２の入力多視点画像である基礎画像群を生成するステップと、前記基礎画像群において隣接する基礎画像の間の差を距離と見做し、前記基礎画像群における前記距離の総和を短くするように前記基礎画像群を並び替えることによって、並び替えられた前記基礎画像群である並替画像群を生成するステップと、前記並替画像群を符号化するステップとを含む符号化方法である。

【0007】

本発明の一態様は、上記に記載の符号化装置としてコンピュータを機能させるためのプログラムである。

【発明の効果】

【0008】

本発明により、光線空間を表す多視点画像の圧縮率を向上させることが可能である。

【図面の簡単な説明】

【0009】

【図1】実施形態における、符号化装置の構成例を示す図である。

【図2】実施形態における、オートエンコーダの学習処理の例を示す図である。

【図3】実施形態における、並替処理の例を示す図である。

【図4】実施形態における、巡回セールスマン問題の解法の例を示す図である。

【図5】実施形態における、復号画像群を並替画像群から生成する処理の例を示す図である。

【図6】実施形態における、復元多視点画像を復号画像群から生成する処理の例を示す図である。

【図7】実施形態における、符号化装置の動作例を示すフローチャートである。

【図8】実施形態における、符号化部が用いる重み「Ｗ_ｎ，ｍ」の例を示す図である。

【図9】実施形態における、並替部が用いる重みの例を示す図である。

【図10】実施形態における、復元装置が用いる重み「～Ｗ_ｍ，ｎ」の例を示す図である。

【図11】実施形態における、潜在変数の個数（ノード数）ごとのレート歪み特性の例を示す図である。

【図12】実施形態における、並替処理が実行された場合のレート歪み特性と、並替処理が実行されない場合のレート歪み特性との例を示す図である。

【図13】実施形態における、多視点画像を構成する複数の視点画像の配列順の第１例（Raster）を示す図である。

【図14】実施形態における、多視点画像を構成する複数の視点画像の配列順の第２例（Circular）を示す図である。

【図15】実施形態における、画像データセットの画像データごとのレート歪み特性との例を示す図である。

【図16】実施形態における、符号化装置のハードウェア構成例を示す図である。

【発明を実施するための形態】

【0010】

本発明の実施形態について、図面を参照して詳細に説明する。
以下では、数式又は関数（以下「数式等」という。）において文字の上に付されている記号は、文字の前に記載される。例えば、数式等において文字の上に付されている記号「＾」は、以下では文字「ｘ」の前に「＾ｘ」のように記載される。例えば、数式等において文字の上に付されている記号「－」は、以下では文字「ｘ」の前に「（－）ｘ」のように記載される。

【0011】

図１は、実施形態における、符号化装置１の構成例を示す図である。符号化装置１は、多視点画像を符号化する装置である。多視点画像は、光線空間（ライトフィールド）を表す。符号化装置に入力される多視点画像（以下「入力多視点画像」という。）を構成する複数の視点画像は、行列状に配置された複数のマイクロレンズを有するカメラ（不図示）が被写体（不図示）を複数方向（多視点）から撮影することによって得られる。

【0012】

符号化装置１は、機械学習の手法（オートエンコーダ）を用いて、入力多視点画像１００の低次元化を実行する。入力多視点画像１００の低次元化とは、例えば、入力多視点画像１００を構成する複数の視点画像の枚数（フレーム数）を削減することである。例えば、Ｍ枚の入力多視点画像１００が、Ｎ（＜Ｍ）枚の低次元化された入力多視点画像（以下「基礎画像群」という。）に削減される。

【0013】

符号化装置１は、基礎画像群１０１の並べ替えを実行する。多視点画像を構成する複数の視点画像は、ＨＥＶＣ等の動画像符号化規格に基づいて符号化される場合、時系列の画像群と見做される。このため、基礎画像群１０１は、符号化に適するように並べ替えられる。すなわち、基礎画像群１０１は、時系列で滑らかに変化するように並べ替えられる。並べ替えられた基礎画像群（以下「並替画像群」という。）（潜在表現）は、動画像符号化規格に基づいて符号化される。

【0014】

符号化装置１は、合成装置２と、符号化並替装置３と、符号化復号装置４（符号化復号部）と、復元装置５（復元部）とを備える。以下では、合成装置２は、一例としてオートエンコーダである。合成装置２は、符号化部２０と、復号部２１とを備える。符号化並替装置３は、符号化部２０と、並替部３０とを備える。以下、合成装置が重みを学習する段階を「学習段階」という。

【0015】

学習段階において、符号化部２０「Φ_Ｌ→Ｂ」は、学習対象の入力多視点画像１００「Ｌ：Ｌ_ｍ（ｕ，ｖ）」を取得する。ここで、「ｕ」は、入力多視点画像１００の視点画像における水平座標を表す。「ｖ」は、入力多視点画像１００の視点画像における垂直座標を表す。符号化部２０は、機械学習の手法を用いて、入力多視点画像１００を低次元化するように重み「Ｗ_ｎ，ｍ」を学習する。符号化部２０は、重み「Ｗ_ｎ，ｍ」を用いて入力多視点画像１００を低次元化することによって、基礎画像群１０１「Ｂ：Ｂ_ｎ（ｕ，ｖ）」を生成する。学習段階において、符号化部２０は、基礎画像群１０１を復号部２１に出力する。

【0016】

学習段階において、復号部２１「Φ^＊ _Ｌ→Ｂ」は、機械学習の手法を用いて、低次元化された入力多視点画像１００を高次元化するように重み「Ｗ^＊ _ｍ，ｎ」を学習する。すなわち、復号部２１は、機械学習の手法を用いて、低次元化された入力多視点画像１００を復号するように重み「Ｗ^＊ _ｍ，ｎ」を学習する。復号部２１は、基礎画像群１０１を取得する。復号部２１は、重み「Ｗ^＊ _ｍ，ｎ」を用いて基礎画像群１０１を高次元化することによって、復号多視点画像１０２「（－）Ｌ：（－）Ｌ_ｍ（ｕ，ｖ）」を生成する。復号部２１は、復号多視点画像１０２を所定の外部装置（不図示）に出力する。

【0017】

学習段階よりも後の符号化段階において、符号化部２０は、符号化対象の入力多視点画像１００「Ｌ：Ｌ_ｍ（ｕ，ｖ）」を取得する。符号化部２０は、重み「Ｗ_ｎ，ｍ」を用いて入力多視点画像１００を低次元化することによって、基礎画像群１０１を生成する。符号化段階において、符号化部２０は、基礎画像群１０１を並替部３０に出力する。

【0018】

符号化段階において、並替部３０は、基礎画像群１０１を符号化部２０から取得する。並替部３０は、光線空間を表す基礎画像群１０１において隣接する基礎画像「Ｆ_ｎ」の間の差（例えば、画素値の差）を距離と見做す。並替部３０は、基礎画像群１０１における距離の総和を短くするように基礎画像群１０１を並び替えることによって、並替画像群１０３「Ｆ：Ｆ_ｎ（ｕ，ｖ）」を生成する。並替部３０が基礎画像群１０１を並び替える手法は、特定の手法に限定されない。

【0019】

以下では、一例として、並替部３０は、基礎画像群１０１における距離の総和を短くする巡回セールスマン問題（Light Fields - Traveling Salesman Problem : LF-TSP）の解法を用いて基礎画像群１０１を並び替えることによって、並替画像群１０３「Ｆ：Ｆ_ｎ（ｕ，ｖ）」を生成する。巡回セールスマン問題とは、複数の都市における各都市を１回ずつ通過する最短経路を導出するという組み合わせ最適問題である。並替部３０は、入力多視点画像１００における各視点画像を各都市と見做して、巡回セールスマン問題を解く。巡回セールスマン問題の解法として、例えば、貪欲法、２－ｏｐｔ法（逐次改善法）が知られている。並替部３０は、並替画像群１０３（潜在表現）を符号化復号装置４「Φ_Ｆ→＾Ｆ」に出力する。

【0020】

符号化段階において、符号化復号装置４は、並替画像群１０３を並替部３０から取得する。符号化復号装置４は、ＨＥＶＣ等の動画像符号化規格に基づいて、並替画像群１０３を符号化する。符号化復号装置４は、符号化された並替画像群１０３を復号する。符号化復号装置４は、符号化された並替画像群１０３の復号結果である復号画像群１０４「＾Ｆ：＾Ｆ_ｎ（ｕ，ｖ）」を、復元装置５に出力する。

【0021】

符号化段階において、復元装置５「Φ_Ｆ→Ｌ」は、復号画像群１０４を符号化復号装置４から取得する。復元装置５は、符号化対象の入力多視点画像１００を復号画像群１０４から復元することによって、復元された入力多視点画像である復元多視点画像１０５を生成する。すなわち、復元装置５は、復号画像群１０４に重み「～Ｗ_ｍ，ｎ」を乗算することによって、復元多視点画像１０５を生成する。重み「～Ｗ_ｍ，ｎ」は、並替部３０が実行した並替処理と符号化部２０が実行した符号化処理との逆処理として、予め定められる。復元装置５は、復元多視点画像１０５を所定の外部装置（不図示）に出力する。

【0022】

なお、符号化復号装置４は、並替画像群１０３の符号化結果である圧縮データ１０６を、所定の外部装置（不図示）に出力してもよい。圧縮データ１０６は、ＨＥＶＣ等の動画像符号化規格に基づいて符号化された並替画像群１０３のビットストリーム「ＢＳ」と、復元に用いられる重み「～Ｗ_ｍ，ｎ」とを含む。

【0023】

次に、符号化装置１の各機能部の詳細を説明する。
図２は、実施形態における、オートエンコーダの学習処理の例を示す図である。学習段階において、符号化部２０は、重み「Ｗ_ｎ，ｍ」を用いて、基礎画像群１０１を入力多視点画像１００「Ｌ：Ｌ_ｍ（ｕ，ｖ）」から生成する。基礎画像群１０１「Ｂ：Ｂ_ｎ（ｕ，ｖ）」は、式（１）のように表される。

【0024】

【数1】

【0025】

学習段階において、符号化部２０は、基礎画像群１０１を復号部２１に出力する。復号部２１は、機械学習の手法を用いて、低次元化された入力多視点画像１００を復号するように重み「Ｗ^＊ _ｍ，ｎ」を学習する。復号部２１は、重み「Ｗ^＊ _ｍ，ｎ」を用いて基礎画像群１０１を高次元化することによって、復号多視点画像１０２「（－）Ｌ：（－）Ｌ_ｍ（ｕ，ｖ）」を生成する。

【0026】

図３は、実施形態における、並替処理の例を示す図である。符号化段階において、符号化部２０は、基礎画像群１０１を並替部３０に出力する。並替部３０は、基礎画像群１０１を並び替えることによって、並替画像群１０３「Ｆ：Ｆ_ｎ（ｕ，ｖ）」を生成する。

【0027】

図４は、実施形態における、巡回セールスマン問題の解法の例を示す図である。並替部３０は、基礎画像群１０１における、基礎画像「Ｆ_ｎ」と基礎画像「Ｆ_ｎ－１」との間の距離「Ｄｉｓｔａｎｃｅ」の総和である長さ（経路長）「Ｌｅｎｇｔｈ」を短くする巡回セールスマン問題の解法（ＬＦ－ＴＳＰ）を用いて、基礎画像群１０１を並び替える。距離「Ｄｉｓｔａｎｃｅ」の総和である長さ（経路長）「Ｌｅｎｇｔｈ」は、式（２）のように表される。

【0028】

【数2】

【0029】

図５は、実施形態における、復号画像群１０４を並替画像群１０３から生成する処理の例を示す図である。符号化復号装置４は、ＨＥＶＣ等の動画像符号化規格に基づいて、並替画像群１０３を符号化する。符号化復号装置４は、符号化された並替画像群１０３を復号することによって、復号画像群１０４「＾Ｆ：＾Ｆ_ｎ（ｕ，ｖ）」を生成する。

【0030】

図６は、実施形態における、復元多視点画像１０５を復号画像群１０４から生成する処理の例を示す図である。復元装置５は、復号画像群１０４に重み「～Ｗ_ｍ，ｎ」を乗算することによって、復元多視点画像１０５を生成する。

【0031】

次に、符号化装置１の動作例を説明する。
図７は、実施形態における、符号化装置１の動作例を示すフローチャートである。学習段階において、符号化部２０は、学習対象の入力多視点画像１００（第１の入力多視点画像）を低次元化するように重み「Ｗ_ｎ，ｍ」を学習する（ステップＳ１０１）。符号化段階において、符号化部２０は、符号化対象の入力多視点画像１００（第２の入力多視点画像）を重み「Ｗ_ｎ，ｍ」を用いて低次元化することによって、基礎画像群１０１「Ｂ：Ｂ_ｎ（ｕ，ｖ）」を生成する（ステップＳ１０２）。

【0032】

並替部３０は、巡回セールスマン問題の解法（ＬＦ－ＴＳＰ）を用いて基礎画像群１０１を並び替えることによって、並替画像群１０３「Ｆ：Ｆ_ｎ（ｕ，ｖ）」を生成する（ステップＳ１０３）。符号化復号装置４は、ＨＥＶＣ等の動画像符号化規格に基づいて、並替画像群１０３を符号化する（ステップＳ１０４）。符号化復号装置４は、符号化された並替画像群１０３を復号することによって、復号画像群１０４を生成する（ステップＳ１０５）。復元装置５は、重み「～Ｗ_ｍ，ｎ」を用いて、復号画像群１０４に対して復元処理を実行することによって、復元多視点画像１０５を生成する。すなわち、復元装置５は、入力多視点画像１００を復号画像群１０４から復元することによって、復元多視点画像１０５を生成する（ステップＳ１０６）。

【0033】

機械学習の学習条件の一例を以下に示す。
（１）並替画像群１０３のノード数（並替画像の枚数）「Ｎ」：１２８、６４、３２
（２）並替画像群１０３（潜在表現）の最初のフレーム：多視点画像における中央の視点画像
（３）合成装置２におけるエポック数：３０００
（４）復元装置５におけるエポック数：５００
（５）バッチサイズ（Batch size）：１６３８４（全画素数＝２７１２５０）
（６）機械学習の最適化手法：Ａｄａｍ
（７）視点画像を構成する各画素の重みの値：正値に限定
（８）視点画像を構成する各画素の重みの値の初期分布：正規分布
（９）データセット（Lytro Pleno datasets）：「自転車群（Bikes）」、「友達（Friends）」、「花畑（Flowers）」、「石群（Stones）」
・視点画像の解像度「６２５×４３４」
・視点画像の枚数（視点の数）「１９３」
・グレースケール
（１０）動画像符号化規格：ＨＥＶＣ（ＨＭ１６．２，ＲａｎｄｏｍＡｃｃｅｓｓ）
（１１）巡回セールスマン問題の解法：ＩＣＩＰ（International Conference on Image Processing）手法

【0034】

図８は、実施形態における、符号化部２０が用いる重み「Ｗ_ｎ，ｍ」の例を示す図である。「ｍ」は、０以上「Ｍ－１」以下の整数を表す。「Ｍ」は、入力多視点画像の枚数を表す。「ｎ」は、０以上「Ｎ－１」以下の整数を表す。「Ｎ」は、基礎画像群（潜在表現）を構成する基礎画像の枚数（潜在変数の個数）を表す。したがって、「Ｎ」は、並替画像群を構成する並替画像の枚数を表す。学習段階よりも後の符号化段階において、符号化部２０「Φ_Ｌ→Ｂ」は、符号化対象の入力多視点画像１００に重み「Ｗ_ｎ，ｍ」を乗算することによって、基礎画像群１０１を生成する。

【0035】

図９は、実施形態における、並替部３０が用いる重みの例を示す図である。並替部３０「Φ_Ｂ→Ｆ」は、基礎画像群１０１に重み「Ｗ_ｎ，ｎ」を乗算することによって、並替画像群１０３を生成する。

【0036】

図１０は、実施形態における、復元装置５が用いる重み「～Ｗ_ｍ，ｎ」の例を示す図である。復元装置５は、復号画像群１０４に重み「～Ｗ_ｍ，ｎ」を乗算することによって、復元多視点画像１０５を生成する。

【0037】

図１１は、実施形態における、潜在変数の個数（ノード数）ごとのレート歪み特性の例を示す図である。横軸は、画素当たりのビット数を表す。縦軸は、ピーク信号対雑音比（Peak signal-to-noise ratio : PSNR）を表す。図１１では、潜在変数の個数（ノード数）「Ｎ」が大きいほど、ピーク信号対雑音比が高くなる傾向がある。

【0038】

図１２は、実施形態における、並替処理が実行された場合のレート歪み特性と、並替処理が実行されない場合のレート歪み特性との例を示す図である。横軸は、画素当たりのビット数を表す。縦軸は、ピーク信号対雑音比（PSNR）を表す。図１２では、基礎画像群の並替処理が実行された場合「並替有」におけるピーク信号対雑音比は、基礎画像群の並替処理が実行されない場合「並替無」におけるピーク信号対雑音比と比較して高い。

【0039】

図１３は、実施形態における、多視点画像を構成する複数の視点画像の配列順（巡回順）の第１例「ラスタ」（Raster）を示す図である。各視点画像に記載の番号は、視点画像の配列順（巡回順）を表す。

【0040】

図１４は、実施形態における、多視点画像を構成する複数の視点画像の配列順（巡回順）の第２例「円形」（Circular）を示す図である。各視点画像に記載の番号は、視点画像の配列順（巡回順）を表す。

【0041】

図１５は、実施形態における、画像データセット（Lytro Pleno datasets）の画像データごとのレート歪み特性との例を示す図である。各グラフの横軸は、各画像データの画素当たりのビット数を表す。各グラフの縦軸は、各画像データのピーク信号対雑音比（PSNR）を表す。図１５において、「ラスタ」は、図１３に示された入力多視点画像の配列順を示す。「円形」は、図１４に示された入力多視点画像の配列順を示す。図１５において、「ＬＦ－ＴＳＰ」は、入力多視点画像が低次元化されることなく、「ＬＦ－ＴＳＰ」を用いて並べ替えられた入力多視点画像の配列順を示す。「提案手法」は、符号化装置１が実行する低次元化及び並べ替えの手法を示す。画像データセットの全ての画像データにおいて、「提案手法」におけるピーク信号対雑音比は、他の手法におけるピーク信号対雑音比と比較して高い。

【0042】

以上のように、符号化部２０は、学習段階において入力された多視点画像である第１の入力多視点画像１００を低次元化するように学習された重みを用いて、符号化段階において入力された多視点画像である第２の入力多視点画像１００を低次元化することによって、基礎画像群１０１を生成する。並替部３０は、基礎画像群１０１において隣接する基礎画像の間の差を距離と見做す。並替部３０は、基礎画像群１０１における距離の総和を短くするように基礎画像群１０１を並び替えることによって、並替画像群１０３を生成する。例えば、並替部３０は、基礎画像群１０１における距離の総和を短くする巡回セールスマン問題の解法（例えば、ＬＦ－ＴＳＰ）を用いて基礎画像群１０１を並び替えることによって、並替画像群１０３を生成する。符号化復号装置４（符号化復号部）は、並替画像群１０３を符号化する。

【0043】

このように、符号化部２０は、第２の入力多視点画像１００を低次元化することによって、基礎画像群１０１を生成する。並替部３０は、巡回セールスマン問題の手法を用いて基礎画像群１０１を並び替える。すなわち、符号化装置１は、並替画像群（潜在表現）の品質を向上させるという問題と、動画像符号化において時系列で滑らかに変化する並替画像群を生成するという問題とを分けて解く。並替画像群の品質を向上させるとは、復号に使用されない基礎画像（潜在変数）の枚数（ノード数）を少なくすることである。これによって、光線空間を表す多視点画像の圧縮率を向上させることが可能である。

【0044】

このように、学習段階において、合成装置２（オートエンコーダ）は、機械学習の手法を用いて、入力多視点画像１００を符号化及び復号する。ここで、符号化部２０は、入力多視点画像１００を低次元化するように、学習段階において重み「Ｗ_ｎ，ｍ」を学習する。符号化部２０は、入力多視点画像１００を低次元化する（入力多視点画像１００の重み付け和を導出する）ことによって、基礎画像群１０１を生成する。復号部２１は、入力多視点画像１００を低次元化するように、学習段階において重み「Ｗ^＊ _ｎ，ｍ」を学習する。

【0045】

動画像符号化規格におけるインター予測を用いる符号化では、動画像を構成する時系列のフレームの変化が滑らかであるほど符号化効率が向上することが知られている。ＨＥＶＣ等の動画像符号化規格が用いられる符号化段階において、入力多視点画像１００を構成する複数の視点画像は、動画像の時系列のフレームであると見做される。並替部３０は、符号化復号装置４における符号化（インター予測を用いる符号化）に適するように基礎画像群１０１を並び替えることによって、並替画像群１０３を生成する。並替画像群１０３は、巡回セールスマン問題の最適化手法（例えば、ＬＦ－ＴＳＰ）を用いて、基礎画像群１０１を並び替える。符号化復号装置４は、ＨＥＶＣ等の動画像符号化規格に基づいて、並替画像群１０３を符号化する。

【0046】

非特許文献１のオートエンコーダにおいて、符号化部の学習と復号部の学習とは同時に実行されている。この復号部が復号に用いない基礎画像（潜在変数）が、基礎画像群（潜在表現）に多く存在する。このため非特許文献１では、光線空間を表す多視点画像の圧縮率を向上させることができない場合がある。これに対して、符号化装置１は、基礎画像群（潜在表現）のうちで復号に用いられない基礎画像（潜在変数）の個数を少なくするので、光線空間を表す多視点画像の圧縮率を向上させることが可能である。

【0047】

また非特許文献１では、動画像符号化規格におけるインター予測に適するように基礎画像（潜在変数）が配列されない場合がある。これに対して、符号化装置１は、インター予測に適するように基礎画像（潜在変数）を並び替える。すなわち、符号化装置１は、インター予測に適した潜在表現を生成する。これによって、符号化装置１は、光線空間を表す多視点画像の圧縮率を向上させることが可能である。

【0048】

図１６は、実施形態における、符号化装置１のハードウェア構成例を示す図である。符号化装置１の各機能部のうちの一部又は全部は、ＣＰＵ（Central Processing Unit）等のプロセッサ２００が、不揮発性の記録媒体（非一時的な記録媒体）を有する記憶部３００に記憶されたプログラムを実行することにより、ソフトウェアとして実現される。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ（Read Only Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置などの非一時的な記録媒体である。通信部４００は、符号化装置１による処理結果を外部装置（不図示）に送信する。通信部４００は、通信回線を経由してプログラムを受信してもよい。表示部５００は、符号化装置１による処理結果を表示する。表示部５００は、例えば、液晶ディスプレイ、有機ＥＬ（Electro Luminescence）ディスプレイである。

【0049】

符号化装置１の各機能部のうちの一部又は全部は、例えば、ＬＳＩ（Large Scale Integration circuit）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）又はＦＰＧＡ（Field Programmable Gate Array）等を用いた電子回路（electronic circuit又はcircuitry）を含むハードウェアを用いて実現されてもよい。

【0050】

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

【産業上の利用可能性】

【0051】

本発明は、光線空間を表す多視点画像を圧縮及び復元する装置に適用可能である。

【符号の説明】

【0052】

１…符号化装置、２…合成装置、３…符号化並替装置、４…符号化復号装置、５…復元装置、２０…符号化部、２１…復号部、３０…並替部、１００…入力多視点画像、１０１…基礎画像群、１０２…復号多視点画像、１０３…並替画像群、１０４…復号画像群、１０５…復元多視点画像、１０６…圧縮データ、２００…プロセッサ、３００…記憶部、４００…通信部、５００…表示部

【図1】