特開2023-62831 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人名古屋大学の特許一覧

特開2023-62831符号化装置、符号化方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023062831

(43)【公開日】2023-05-09

(54)【発明の名称】符号化装置、符号化方法及びプログラム

(51)【国際特許分類】

H04N 19/597 20140101AFI20230427BHJP

H04N 19/192 20140101ALI20230427BHJP

【ＦＩ】

H04N19/597

H04N19/192

【審査請求】未請求

【請求項の数】4

【出願形態】ＯＬ

(21)【出願番号】P 2021172958

(22)【出願日】2021-10-22

【新規性喪失の例外の表示】特許法第３０条第２項適用申請有り発行日２０２１年１月１日刊行物『ＩＴＥＴｒａｎｓａｃｔｉｏｎｓｏｎＭｅｄｉａｔｅｃｈｎｏｌｏｇｙａｎｄａｐｐｌｉｃａｔｉｏｎｓ』Ｖｏｌｕｍｅ９Ｉｓｓｕｅ１Ｐａｇｅｓ８６－９４一般社団法人映像情報メディア学会発行（Ｗｅｂ公開アドレス：ｈｔｔｐｓ：／／ｗｗｗ．ｊｓｔａｇｅ．ｊｓｔ．ｇｏ．ｊｐ／ｂｒｏｗｓｅ／ｍｔａ／９／１／＿ｃｏｎｔｅｎｔｓ／－ｃｈａｒ／ｅｎ）（ＤＯＩ：ｈｔｔｐｓ：／／ｄｏｉ．ｏｒｇ／１０．３１６９／ｍｔａ．９．８６）

(71)【出願人】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(71)【出願人】

【識別番号】504139662

【氏名又は名称】国立大学法人東海国立大学機構

(74)【代理人】

【識別番号】110001634

【氏名又は名称】弁理士法人志賀国際特許事務所

(72)【発明者】

【氏名】坂東幸浩

(72)【発明者】

【氏名】高村誠之

(72)【発明者】

【氏名】藤井俊彰

(72)【発明者】

【氏名】▲高▼橋桂太

(72)【発明者】

【氏名】都竹千尋

(72)【発明者】

【氏名】今枝滉太

【テーマコード（参考）】

5C159

【Ｆターム（参考）】

5C159LA09

5C159MA05

5C159PP03

5C159TA03

5C159TB04

5C159TC02

5C159TD05

5C159TD17

5C159UA02

5C159UA05

(57)【要約】

【課題】光線空間を表す多視点画像の圧縮率を向上させることが可能である符号化装置、符号化方法及びプログラムを提供する。
【解決手段】符号化装置は、学習段階において入力された多視点画像である第１の入力多視点画像を低次元化するように学習された第１の重みを用いて、符号化段階において入力された多視点画像である第２の入力多視点画像を低次元化することによって、低次元化された第２の入力多視点画像である基礎画像群を生成する符号化部と、学習段階において、低次元化された第１の入力多視点画像の復号に用いられる第２の重みを学習する復号部とを備える。符号化部は、学習段階において、第１の入力多視点画像が入力される第１の入力層と第１の入力層に部分結合する中間層と第１の入力層に部分結合する第１の出力層とを有する第１のニューラルネットワークを用いて、第１の重みを学習する。
【選択図】図１６

【特許請求の範囲】

【請求項1】

学習段階において入力された多視点画像である第１の入力多視点画像を低次元化するように学習された第１の重みを用いて、符号化段階において入力された多視点画像である第２の入力多視点画像を低次元化することによって、低次元化された前記第２の入力多視点画像である基礎画像群を生成する符号化部と、
前記基礎画像群において隣接する基礎画像の間の差を距離と見做し、前記基礎画像群における前記距離の総和を短くするように前記基礎画像群を並び替えることによって、並び替えられた前記基礎画像群である並替画像群を生成する並替部と、
前記並替画像群を符号化する符号化復号部と、
前記学習段階において、低次元化された前記第１の入力多視点画像の復号に用いられる第２の重みを学習する復号部と
を備え、
前記符号化部は、前記学習段階において、前記第１の入力多視点画像が入力される第１の入力層と前記第１の入力層に部分結合する中間層と前記第１の入力層に部分結合する第１の出力層とを有する第１のニューラルネットワークを用いて、前記第１の重みを学習する、
符号化装置。

【請求項2】

符号化された前記並替画像群の復号結果である復号画像群を取得し、第３の重みを用いて、前記第２の入力多視点画像を前記復号画像群から復元することによって、復元された前記第２の入力多視点画像である復元多視点画像を生成する復元部を更に備え、
前記符号化復号部は、符号化された前記並替画像群の前記復号結果を前記復元部に出力し、
前記復元部は、前記学習段階において、前記復号結果が入力される第２の入力層と前記第２の入力層に部分結合する第２の出力層とを有する第２のニューラルネットワークを用いて、前記第３の重みを学習する、
請求項１に記載の符号化装置。

【請求項3】

符号化装置が実行する符号化方法であって、
学習段階において入力された多視点画像である第１の入力多視点画像を低次元化するように学習された第１の重みを用いて、符号化段階において入力された多視点画像である第２の入力多視点画像を低次元化することによって、低次元化された前記第２の入力多視点画像である基礎画像群を生成するステップと、
前記基礎画像群において隣接する基礎画像の間の差を距離と見做し、前記基礎画像群における前記距離の総和を短くするように前記基礎画像群を並び替えることによって、並び替えられた前記基礎画像群である並替画像群を生成するステップと、
前記並替画像群を符号化するステップと、
前記学習段階において、低次元化された前記第１の入力多視点画像の復号に用いられる第２の重みを学習するステップと
を含み、
符号化装置は、前記学習段階において、前記第１の入力多視点画像が入力される第１の入力層と前記第１の入力層に部分結合する中間層と前記第１の入力層に部分結合する第１の出力層とを有する第１のニューラルネットワークを用いて、前記第１の重みを学習する、
符号化方法。

【請求項4】

請求項１又は請求項２に記載の符号化装置としてコンピュータを機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、符号化装置、符号化方法及びプログラムに関する。

【背景技術】

【0002】

多視点画像を用いて光線空間（ライトフィールド）が表される場合がある。多視点画像を構成する複数の視点画像は、行列状に配置された複数のマイクロレンズを有するカメラが被写体を複数方向から撮影することによって得られる。非特許文献１では、オートエンコーダの符号化部が、多視点画像の低次元化及び並べ替えを実行する。並べ替えられた多視点画像（潜在表現）は、時系列の画像群と見做されて、ＨＥＶＣ（Hight Efficiency Video Coding）等の動画像符号化規格に基づいて符号化される。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】今枝滉太外２名、「オートエンコーダを用いた光線空間圧縮に適した潜在表現の生成」、ＰＣＳＪ／ＩＭＰＳ予稿集、２０１９年１１月１８日、ｐｐ.１４０－１４１

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、符号化された多視点画像の圧縮率を高くすることができない場合がある。上記事情に鑑み、本発明は、光線空間を表す多視点画像の圧縮率を向上させることが可能である符号化装置、符号化方法及びプログラムを提供することを目的としている。

【課題を解決するための手段】

【0005】

本発明の一態様は、学習段階において入力された多視点画像である第１の入力多視点画像を低次元化するように学習された第１の重みを用いて、符号化段階において入力された多視点画像である第２の入力多視点画像を低次元化することによって、低次元化された前記第２の入力多視点画像である基礎画像群を生成する符号化部と、前記基礎画像群において隣接する基礎画像の間の差を距離と見做し、前記基礎画像群における前記距離の総和を短くするように前記基礎画像群を並び替えることによって、並び替えられた前記基礎画像群である並替画像群を生成する並替部と、前記並替画像群を符号化する符号化復号部と、前記学習段階において、低次元化された前記第１の入力多視点画像の復号に用いられる第２の重みを学習する復号部とを備え、前記符号化部は、前記学習段階において、前記第１の入力多視点画像が入力される第１の入力層と前記第１の入力層に部分結合する中間層と前記第１の入力層に部分結合する第１の出力層とを有する第１のニューラルネットワークを用いて、前記第１の重みを学習する、符号化装置である。

【0006】

本発明の一態様は、上記に記載の符号化装置が実行する符号化方法であって、符号化装置が実行する符号化方法であって、学習段階において入力された多視点画像である第１の入力多視点画像を低次元化するように学習された第１の重みを用いて、符号化段階において入力された多視点画像である第２の入力多視点画像を低次元化することによって、低次元化された前記第２の入力多視点画像である基礎画像群を生成するステップと、前記基礎画像群において隣接する基礎画像の間の差を距離と見做し、前記基礎画像群における前記距離の総和を短くするように前記基礎画像群を並び替えることによって、並び替えられた前記基礎画像群である並替画像群を生成するステップと、前記並替画像群を符号化するステップと、前記学習段階において、低次元化された前記第１の入力多視点画像の復号に用いられる第２の重みを学習するステップとを含み、符号化装置は、前記学習段階において、前記第１の入力多視点画像が入力される第１の入力層と前記第１の入力層に部分結合する中間層と前記第１の入力層に部分結合する第１の出力層とを有する第１のニューラルネットワークを用いて、前記第１の重みを学習する、符号化方法である。

【0007】

本発明の一態様は、上記に記載の符号化装置としてコンピュータを機能させるためのプログラムである。

【発明の効果】

【0008】

本発明により、光線空間を表す多視点画像の圧縮率を向上させることが可能である。

【図面の簡単な説明】

【0009】

【図1】第１実施形態における、符号化装置の構成例を示す図である。

【図2】第１実施形態における、オートエンコーダの学習処理の例を示す図である。

【図3】第１実施形態における、並替処理の例を示す図である。

【図4】第１実施形態における、巡回セールスマン問題の解法の例を示す図である。

【図5】第１実施形態における、復号画像群を並替画像群から生成する処理の例を示す図である。

【図6】第１実施形態における、復元多視点画像を復号画像群から生成する処理の例を示す図である。

【図7】第１実施形態における、符号化装置の動作例を示すフローチャートである。

【図8】第１実施形態における、符号化部が用いる重み「Ｗ_ｎ，ｍ」の例を示す図である。

【図9】第１実施形態における、並替部が用いる重みの例を示す図である。

【図10】第１実施形態における、復元装置が用いる重み「～Ｗ_ｍ，ｎ」の例を示す図である。

【図11】第１実施形態における、潜在変数の個数（ノード数）ごとのレート歪み特性の例を示す図である。

【図12】第１実施形態における、並替処理が実行された場合のレート歪み特性と、並替処理が実行されない場合のレート歪み特性との例を示す図である。

【図13】第１実施形態における、多視点画像を構成する複数の視点画像の配列順の第１例（Raster）を示す図である。

【図14】第１実施形態における、多視点画像を構成する複数の視点画像の配列順の第２例（Circular）を示す図である。

【図15】第１実施形態における、画像データセットの画像データごとのレート歪み特性との例を示す図である。

【図16】第２実施形態における、オートエンコーダの学習処理の例を示す図である。

【図17】第２実施形態における、復元多視点画像を復号画像群から生成する処理の例を示す図である。

【図18】各実施形態における、符号化装置のハードウェア構成例を示す図である。

【発明を実施するための形態】

【0010】

本発明の実施形態について、図面を参照して詳細に説明する。
以下では、数式又は関数（以下「数式等」という。）において文字の上に付されている記号は、文字の前に記載される。例えば、数式等において文字の上に付されている記号「＾」は、以下では文字「ｘ」の前に「＾ｘ」のように記載される。例えば、数式等において文字の上に付されている記号「－」は、以下では文字「ｘ」の前に「（－）ｘ」のように記載される。

【0011】

（第１実施形態）
図１は、第１実施形態における、符号化装置１の構成例を示す図である。符号化装置１は、多視点画像を符号化する装置である。多視点画像は、光線空間（ライトフィールド）を表す。符号化装置に入力される多視点画像（以下「入力多視点画像」という。）を構成する複数の視点画像は、行列状に配置された複数のマイクロレンズを有するカメラ（不図示）が被写体（不図示）を複数方向（多視点）から撮影することによって得られる。

【0012】

符号化装置１は、機械学習の手法（オートエンコーダ）を用いて、入力多視点画像１００の低次元化を実行する。入力多視点画像１００の低次元化とは、例えば、入力多視点画像１００を構成する複数の視点画像の枚数（フレーム数）を削減することである。例えば、Ｍ枚の入力多視点画像１００が、Ｎ（＜Ｍ）枚の低次元化された入力多視点画像（以下「基礎画像群」という。）に削減される。

【0013】

符号化装置１は、基礎画像群１０１の並べ替えを実行する。多視点画像を構成する複数の視点画像は、ＨＥＶＣ等の動画像符号化規格に基づいて符号化される場合、時系列の画像群と見做される。このため、基礎画像群１０１は、符号化に適するように並べ替えられる。すなわち、基礎画像群１０１は、時系列で滑らかに変化するように並べ替えられる。並べ替えられた基礎画像群（以下「並替画像群」という。）（潜在表現）は、動画像符号化規格に基づいて符号化される。

【0014】

符号化装置１は、合成装置２と、符号化並替装置３と、符号化復号装置４（符号化復号部）と、復元装置５（復元部）とを備える。以下では、合成装置２は、一例としてオートエンコーダである。合成装置２は、符号化部２０と、復号部２１とを備える。符号化並替装置３は、符号化部２０と、並替部３０とを備える。以下、合成装置が重みを学習する段階を「学習段階」という。

【0015】

学習段階において、符号化部２０「Φ_Ｌ→Ｂ」は、学習対象の入力多視点画像１００「Ｌ：Ｌ_ｍ（ｕ，ｖ）」を取得する。ここで、「ｕ」は、入力多視点画像１００の視点画像における水平座標を表す。「ｖ」は、入力多視点画像１００の視点画像における垂直座標を表す。符号化部２０は、機械学習の手法を用いて、入力多視点画像１００を低次元化するように重み「Ｗ_ｎ，ｍ」を学習する。符号化部２０は、重み「Ｗ_ｎ，ｍ」を用いて入力多視点画像１００を低次元化することによって、基礎画像群１０１「Ｂ：Ｂ_ｎ（ｕ，ｖ）」を生成する。学習段階において、符号化部２０は、基礎画像群１０１を復号部２１に出力する。

【0016】

学習段階において、復号部２１「Φ^＊ _Ｌ→Ｂ」は、機械学習の手法を用いて、低次元化された入力多視点画像１００を高次元化するように重み「Ｗ^＊ _ｍ，ｎ」を学習する。すなわち、復号部２１は、機械学習の手法を用いて、低次元化された入力多視点画像１００を復号するように重み「Ｗ^＊ _ｍ，ｎ」を学習する。復号部２１は、基礎画像群１０１を取得する。復号部２１は、重み「Ｗ^＊ _ｍ，ｎ」を用いて基礎画像群１０１を高次元化することによって、復号多視点画像１０２「（－）Ｌ：（－）Ｌ_ｍ（ｕ，ｖ）」を生成する。復号部２１は、復号多視点画像１０２を所定の外部装置（不図示）に出力する。

【0017】

学習段階よりも後の符号化段階において、符号化部２０は、符号化対象の入力多視点画像１００「Ｌ：Ｌ_ｍ（ｕ，ｖ）」を取得する。符号化部２０は、重み「Ｗ_ｎ，ｍ」を用いて入力多視点画像１００を低次元化することによって、基礎画像群１０１を生成する。符号化段階において、符号化部２０は、基礎画像群１０１を並替部３０に出力する。

【0018】

符号化段階において、並替部３０は、基礎画像群１０１を符号化部２０から取得する。並替部３０は、光線空間を表す基礎画像群１０１において隣接する基礎画像「Ｆ_ｎ」の間の差（例えば、画素値の差）を距離と見做す。並替部３０は、基礎画像群１０１における距離の総和を短くするように基礎画像群１０１を並び替えることによって、並替画像群１０３「Ｆ：Ｆ_ｎ（ｕ，ｖ）」を生成する。並替部３０が基礎画像群１０１を並び替える手法は、特定の手法に限定されない。

【0019】

以下では、一例として、並替部３０は、基礎画像群１０１における距離の総和を短くする巡回セールスマン問題（Light Fields - Traveling Salesman Problem : LF-TSP）の解法を用いて基礎画像群１０１を並び替えることによって、並替画像群１０３「Ｆ：Ｆ_ｎ（ｕ，ｖ）」を生成する。巡回セールスマン問題とは、複数の都市における各都市を１回ずつ通過する最短経路を導出するという組み合わせ最適問題である。並替部３０は、入力多視点画像１００における各視点画像を各都市と見做して、巡回セールスマン問題を解く。巡回セールスマン問題の解法として、例えば、貪欲法、２－ｏｐｔ法（逐次改善法）が知られている。並替部３０は、並替画像群１０３（潜在表現）を符号化復号装置４「Φ_Ｆ→＾Ｆ」に出力する。

【0020】

符号化段階において、符号化復号装置４は、並替画像群１０３を並替部３０から取得する。符号化復号装置４は、ＨＥＶＣ等の動画像符号化規格に基づいて、並替画像群１０３を符号化する。符号化復号装置４は、符号化された並替画像群１０３を復号する。符号化復号装置４は、符号化された並替画像群１０３の復号結果である復号画像群１０４「＾Ｆ：＾Ｆ_ｎ（ｕ，ｖ）」を、復元装置５に出力する。

【0021】

符号化段階において、復元装置５「Φ_Ｆ→Ｌ」は、復号画像群１０４を符号化復号装置４から取得する。復元装置５は、符号化対象の入力多視点画像１００を復号画像群１０４から復元することによって、復元された入力多視点画像である復元多視点画像１０５を生成する。すなわち、復元装置５は、復号画像群１０４に重み「～Ｗ_ｍ，ｎ」を乗算することによって、復元多視点画像１０５を生成する。重み「～Ｗ_ｍ，ｎ」は、並替部３０が実行した並替処理と符号化部２０が実行した符号化処理との逆処理として、予め定められる。復元装置５は、復元多視点画像１０５を所定の外部装置（不図示）に出力する。

【0022】

なお、符号化復号装置４は、並替画像群１０３の符号化結果である圧縮データ１０６を、所定の外部装置（不図示）に出力してもよい。圧縮データ１０６は、ＨＥＶＣ等の動画像符号化規格に基づいて符号化された並替画像群１０３のビットストリーム「ＢＳ」と、復元に用いられる重み「～Ｗ_ｍ，ｎ」とを含む。

【0023】

次に、符号化装置１の各機能部の詳細を説明する。
図２は、第１実施形態における、オートエンコーダの学習処理の例を示す図である。学習段階において、符号化部２０は、重み「Ｗ_ｎ，ｍ」を用いて、基礎画像群１０１を入力多視点画像１００「Ｌ：Ｌ_ｍ（ｕ，ｖ）」から生成する。基礎画像群１０１「Ｂ：Ｂ_ｎ（ｕ，ｖ）」は、式（１）のように表される。

【0024】

【数1】

【0025】

学習段階において、符号化部２０は、基礎画像群１０１を復号部２１に出力する。復号部２１は、機械学習の手法を用いて、低次元化された入力多視点画像１００を復号するように重み「Ｗ^＊ _ｍ，ｎ」を学習する。復号部２１は、重み「Ｗ^＊ _ｍ，ｎ」を用いて基礎画像群１０１を高次元化することによって、復号多視点画像１０２「（－）Ｌ：（－）Ｌ_ｍ（ｕ，ｖ）」を生成する。

【0026】

図３は、第１実施形態における、並替処理の例を示す図である。符号化段階において、符号化部２０は、基礎画像群１０１を並替部３０に出力する。並替部３０は、基礎画像群１０１を並び替えることによって、並替画像群１０３「Ｆ：Ｆ_ｎ（ｕ，ｖ）」を生成する。

【0027】

図４は、第１実施形態における、巡回セールスマン問題の解法の例を示す図である。並替部３０は、基礎画像群１０１における、基礎画像「Ｆ_ｎ」と基礎画像「Ｆ_ｎ－１」との間の距離「Ｄｉｓｔａｎｃｅ」の総和である長さ（経路長）「Ｌｅｎｇｔｈ」を短くする巡回セールスマン問題の解法（ＬＦ－ＴＳＰ）を用いて、基礎画像群１０１を並び替える。距離「Ｄｉｓｔａｎｃｅ」の総和である長さ（経路長）「Ｌｅｎｇｔｈ」は、式（２）のように表される。

【0028】

【数2】

【0029】

図５は、第１実施形態における、復号画像群１０４を並替画像群１０３から生成する処理の例を示す図である。符号化復号装置４は、ＨＥＶＣ等の動画像符号化規格に基づいて、並替画像群１０３を符号化する。符号化復号装置４は、符号化された並替画像群１０３を復号することによって、復号画像群１０４「＾Ｆ：＾Ｆ_ｎ（ｕ，ｖ）」を生成する。

【0030】

図６は、第１実施形態における、復元多視点画像１０５を復号画像群１０４から生成する処理の例を示す図である。復元装置５は、復号画像群１０４に重み「～Ｗ_ｍ，ｎ」を乗算することによって、復元多視点画像１０５を生成する。

【0031】

次に、符号化装置１の動作例を説明する。
図７は、第１実施形態における、符号化装置１の動作例を示すフローチャートである。学習段階において、符号化部２０は、学習対象の入力多視点画像１００（第１の入力多視点画像）を低次元化するように重み「Ｗ_ｎ，ｍ」を学習する（ステップＳ１０１）。符号化段階において、符号化部２０は、符号化対象の入力多視点画像１００（第２の入力多視点画像）を重み「Ｗ_ｎ，ｍ」を用いて低次元化することによって、基礎画像群１０１「Ｂ：Ｂ_ｎ（ｕ，ｖ）」を生成する（ステップＳ１０２）。

【0032】

並替部３０は、巡回セールスマン問題の解法（ＬＦ－ＴＳＰ）を用いて基礎画像群１０１を並び替えることによって、並替画像群１０３「Ｆ：Ｆ_ｎ（ｕ，ｖ）」を生成する（ステップＳ１０３）。符号化復号装置４は、ＨＥＶＣ等の動画像符号化規格に基づいて、並替画像群１０３を符号化する（ステップＳ１０４）。符号化復号装置４は、符号化された並替画像群１０３を復号することによって、復号画像群１０４を生成する（ステップＳ１０５）。復元装置５は、重み「～Ｗ_ｍ，ｎ」を用いて、復号画像群１０４に対して復元処理を実行することによって、復元多視点画像１０５を生成する。すなわち、復元装置５は、入力多視点画像１００を復号画像群１０４から復元することによって、復元多視点画像１０５を生成する（ステップＳ１０６）。

【0033】

機械学習の学習条件の一例を以下に示す。
（１）並替画像群１０３のノード数（並替画像の枚数）「Ｎ」：１２８、６４、３２
（２）並替画像群１０３（潜在表現）の最初のフレーム：多視点画像における中央の視点画像
（３）合成装置２におけるエポック数：３０００
（４）復元装置５におけるエポック数：５００
（５）バッチサイズ（Batch size）：１６３８４（全画素数＝２７１２５０）
（６）機械学習の最適化手法：Ａｄａｍ
（７）視点画像を構成する各画素の重みの値：正値に限定
（８）視点画像を構成する各画素の重みの値の初期分布：正規分布
（９）データセット（Lytro Pleno datasets）：「自転車群（Bikes）」、「友達（Friends）」、「花畑（Flowers）」、「石群（Stones）」
・視点画像の解像度「６２５×４３４」
・視点画像の枚数（視点の数）「１９３」
・グレースケール
（１０）動画像符号化規格：ＨＥＶＣ（ＨＭ１６．２，ＲａｎｄｏｍＡｃｃｅｓｓ）
（１１）巡回セールスマン問題の解法：ＩＣＩＰ（International Conference on Image Processing）手法

【0034】

図８は、第１実施形態における、符号化部２０が用いる重み「Ｗ_ｎ，ｍ」の例を示す図である。「ｍ」は、０以上「Ｍ－１」以下の整数を表す。「Ｍ」は、入力多視点画像の枚数を表す。「ｎ」は、０以上「Ｎ－１」以下の整数を表す。「Ｎ」は、基礎画像群（潜在表現）を構成する基礎画像の枚数（潜在変数の個数）を表す。したがって、「Ｎ」は、並替画像群を構成する並替画像の枚数を表す。学習段階よりも後の符号化段階において、符号化部２０「Φ_Ｌ→Ｂ」は、符号化対象の入力多視点画像１００に重み「Ｗ_ｎ，ｍ」を乗算することによって、基礎画像群１０１を生成する。

【0035】

図９は、第１実施形態における、並替部３０が用いる重みの例を示す図である。並替部３０「Φ_Ｂ→Ｆ」は、基礎画像群１０１に重み「Ｗ_ｎ，ｎ」を乗算することによって、並替画像群１０３を生成する。

【0036】

図１０は、第１実施形態における、復元装置５が用いる重み「～Ｗ_ｍ，ｎ」の例を示す図である。復元装置５は、復号画像群１０４に重み「～Ｗ_ｍ，ｎ」を乗算することによって、復元多視点画像１０５を生成する。

【0037】

図１１は、第１実施形態における、潜在変数の個数（ノード数）ごとのレート歪み特性の例を示す図である。横軸は、画素当たりのビット数を表す。縦軸は、ピーク信号対雑音比（Peak signal-to-noise ratio : PSNR）を表す。図１１では、潜在変数の個数（ノード数）「Ｎ」が大きいほど、ピーク信号対雑音比が高くなる傾向がある。

【0038】

図１２は、第１実施形態における、並替処理が実行された場合のレート歪み特性と、並替処理が実行されない場合のレート歪み特性との例を示す図である。横軸は、画素当たりのビット数を表す。縦軸は、ピーク信号対雑音比（PSNR）を表す。図１２では、基礎画像群の並替処理が実行された場合「並替有」におけるピーク信号対雑音比は、基礎画像群の並替処理が実行されない場合「並替無」におけるピーク信号対雑音比と比較して高い。

【0039】

図１３は、第１実施形態における、多視点画像を構成する複数の視点画像の配列順（巡回順）の第１例「ラスタ」（Raster）を示す図である。各視点画像に記載の番号は、視点画像の配列順（巡回順）を表す。

【0040】

図１４は、第１実施形態における、多視点画像を構成する複数の視点画像の配列順（巡回順）の第２例「円形」（Circular）を示す図である。各視点画像に記載の番号は、視点画像の配列順（巡回順）を表す。

【0041】

図１５は、第１実施形態における、画像データセット（Lytro Pleno datasets）の画像データごとのレート歪み特性との例を示す図である。各グラフの横軸は、各画像データの画素当たりのビット数を表す。各グラフの縦軸は、各画像データのピーク信号対雑音比（PSNR）を表す。図１５において、「ラスタ」は、図１３に示された入力多視点画像の配列順を示す。「円形」は、図１４に示された入力多視点画像の配列順を示す。図１５において、「ＬＦ－ＴＳＰ」は、入力多視点画像が低次元化されることなく、「ＬＦ－ＴＳＰ」を用いて並べ替えられた入力多視点画像の配列順を示す。「提案手法」は、符号化装置１が実行する低次元化及び並べ替えの手法を示す。画像データセットの全ての画像データにおいて、「提案手法」におけるピーク信号対雑音比は、他の手法におけるピーク信号対雑音比と比較して高い。

【0042】

以上のように、符号化部２０は、学習段階において入力された多視点画像である第１の入力多視点画像１００を低次元化するように学習された重み「Ｗ_ｎ，ｍ」を用いて、符号化段階において入力された多視点画像である第２の入力多視点画像１００を低次元化することによって、基礎画像群１０１を生成する。並替部３０は、基礎画像群１０１において隣接する基礎画像の間の差を距離と見做す。並替部３０は、基礎画像群１０１における距離の総和を短くするように基礎画像群１０１を並び替えることによって、並替画像群１０３を生成する。例えば、並替部３０は、基礎画像群１０１における距離の総和を短くする巡回セールスマン問題の解法（例えば、ＬＦ－ＴＳＰ）を用いて基礎画像群１０１を並び替えることによって、並替画像群１０３を生成する。符号化復号装置４（符号化復号部）は、並替画像群１０３を符号化する。

【0043】

このように、符号化部２０は、第２の入力多視点画像１００を低次元化することによって、基礎画像群１０１を生成する。並替部３０は、巡回セールスマン問題の手法を用いて基礎画像群１０１を並び替える。すなわち、符号化装置１は、並替画像群（潜在表現）の品質を向上させるという問題と、動画像符号化において時系列で滑らかに変化する並替画像群を生成するという問題とを分けて解く。並替画像群の品質を向上させるとは、復号に使用されない基礎画像（潜在変数）の枚数（ノード数）を少なくすることである。これによって、光線空間を表す多視点画像の圧縮率を向上させることが可能である。

【0044】

このように、学習段階において、合成装置２（オートエンコーダ）は、機械学習の手法を用いて、入力多視点画像１００を符号化及び復号する。ここで、符号化部２０は、入力多視点画像１００を低次元化するように、学習段階において重み「Ｗ_ｎ，ｍ」を学習する。符号化部２０は、入力多視点画像１００を低次元化する（入力多視点画像１００の重み付け和を導出する）ことによって、基礎画像群１０１を生成する。復号部２１は、入力多視点画像１００を低次元化するように、学習段階において重み「Ｗ^＊ _ｎ，ｍ」を学習する。

【0045】

動画像符号化規格におけるインター予測を用いる符号化では、動画像を構成する時系列のフレームの変化が滑らかであるほど符号化効率が向上することが知られている。ＨＥＶＣ等の動画像符号化規格が用いられる符号化段階において、入力多視点画像１００を構成する複数の視点画像は、動画像の時系列のフレームであると見做される。並替部３０は、符号化復号装置４における符号化（インター予測を用いる符号化）に適するように基礎画像群１０１を並び替えることによって、並替画像群１０３を生成する。並替画像群１０３は、巡回セールスマン問題の最適化手法（例えば、ＬＦ－ＴＳＰ）を用いて、基礎画像群１０１を並び替える。符号化復号装置４は、ＨＥＶＣ等の動画像符号化規格に基づいて、並替画像群１０３を符号化する。

【0046】

非特許文献１のオートエンコーダにおいて、符号化部の学習と復号部の学習とは同時に実行されている。この復号部が復号に用いない基礎画像（潜在変数）が、基礎画像群（潜在表現）に多く存在する。このため非特許文献１では、光線空間を表す多視点画像の圧縮率を向上させることができない場合がある。これに対して、符号化装置１は、基礎画像群（潜在表現）のうちで復号に用いられない基礎画像（潜在変数）の個数を少なくするので、光線空間を表す多視点画像の圧縮率を向上させることが可能である。

【0047】

また非特許文献１では、動画像符号化規格におけるインター予測に適するように基礎画像（潜在変数）が配列されない場合がある。これに対して、符号化装置１は、インター予測に適するように基礎画像（潜在変数）を並び替える。すなわち、符号化装置１は、インター予測に適した潜在表現を生成する。これによって、符号化装置１は、光線空間を表す多視点画像の圧縮率を向上させることが可能である。

【0048】

（第２実施形態）
第２実施形態では、基礎画像群１０１（基底画像群）の生成に用いられるニューラルネットワーク（オートエンコーダ）の入力層と中間層との間の結合が部分結合である点と、そのニューラルネットワーク（オートエンコーダ）の出力層と中間層との間の結合が部分結合である点とが、第１実施形態との差分である。また、第２実施形態では、復元多視点画像１０５の生成に用いられるニューラルネットワークの結合が部分結合である点が、第１実施形態との差分である。第２実施形態では、第１実施形態との差分を中心に説明する。

【0049】

入力多視点画像１００「Ｌ」の符号化が最適化されるためには、同一のビットレートにおける入力多視点画像１００「Ｌ」と復元多視点画像１０５「＾Ｌ」とついて、入力多視点画像１００「Ｌ」と復元多視点画像１０５「＾Ｌ」との間の二乗誤差「||Ｌ－＾Ｌ||^２」の最小化「ｍｉｎ」が必要である。二乗誤差の最小化は、式（３）のように表される。

【0050】

【数3】

【0051】

ここで、「Φ_Ｌ→Ｂ」は、入力多視点画像１００から基礎画像群１０１への写像を表す。すなわち、「Φ_Ｌ→Ｂ」は、符号化部２０のニューラルネットワーク（重み「Ｗ_ｎ，ｍ」）を表す。「Φ_Ｂ→Ｆ」は、基礎画像群１０１から復号多視点画像１０２への写像を表す。「Φ_Ｆ→＾Ｆ」は、並替画像群１０３から復号画像群１０４への写像（ＨＥＶＣ等の符号化及び復号）を表す。「Φ_{＾Ｆ→＾Ｌ}」は、復号画像群１０４から復元多視点画像１０５への写像を表す。すなわち、「Φ_{＾Ｆ→＾Ｌ}」は、復元装置５のニューラルネットワーク（重み「～Ｗ_ｎ，ｍ」）を表す。全ての写像が同時に最適化されることは困難であるため、各写像が個別に最適化される。

【0052】

図１６は、第２実施形態における、オートエンコーダの学習処理の例を示す図である。学習段階において、符号化部２０は、重み「Ｗ_ｎ，ｍ」を用いて、基礎画像群１０１を入力多視点画像１００「Ｌ：Ｌ_ｍ（ｕ，ｖ）」から生成する。基礎画像群１０１「Ｂ：Ｂ_ｎ（ｕ，ｖ）」は、上記の式（１）のように表される。

【0053】

【0054】

【数4】

【0055】

図１６に示された合成装置２では、入力層（入力多視点画像１００）と、中間層（基礎画像群１０１）と、出力層（復号多視点画像１０２）との３層のニューラルネットワークを用いて、画像の符号化が最適化される。ここで、図１６に示された合成装置２では、入力層（入力多視点画像１００）と中間層（基礎画像群１０１）との間の結合は、部分結合である。同様に中間層（基礎画像群１０１）と出力層（復号多視点画像１０２）との間の結合は、部分結合である。学習対象の入力多視点画像１００「Ｌ：Ｌ_ｍ（ｕ，ｖ）」と復号多視点画像１０２「（－）Ｌ：（－）Ｌ_ｍ（ｕ，ｖ）」とが一致するように、全画素のうちの一部の画素について、オートエンコーダの学習処理が実行される。このように、ニューラルネットワークが簡略化されているので、学習効率が向上する。

【0056】

なお、第１実施形態における図２に示された合成装置２では、入力層（入力多視点画像１００）と、中間層（基礎画像群１０１）と、出力層（復号多視点画像１０２）との３層のニューラルネットワークを用いて、入力多視点画像１００の符号化が最適化される。ここで、図２に示された合成装置２では、入力層（入力多視点画像１００）と中間層（基礎画像群１０１）との間の結合は、全結合である。同様に、中間層（基礎画像群１０１）と出力層（復号多視点画像１０２）との間の結合は、全結合である。全画素について、学習対象の入力多視点画像１００「Ｌ：Ｌ_ｍ（ｕ，ｖ）」と復号多視点画像１０２「（－）Ｌ：（－）Ｌ_ｍ（ｕ，ｖ）」とが一致するように、オートエンコーダの学習処理が実行される。第１実施形態では、ニューラルネットワークが簡略化されていないので、第２実施形態における学習効率と比較して、学習効率は向上しない。

【0057】

図１７は、第２実施形態における、復元多視点画像を復号画像群から生成する処理の例を示す図である。復元装置５は、復号画像群１０４に重み「～Ｗ_ｍ，ｎ」を乗算することによって、復元多視点画像１０５を生成する。重み「～Ｗ_ｍ，ｎ」は、並替部３０が実行した並替処理と符号化部２０が実行した符号化処理との逆処理として、学習段階において定められる。復元多視点画像１０５「＾Ｌ_ｍ（ｕ，ｖ）」は、式（５）のように表される。

【0058】

【数5】

【0059】

図１７に示された復元装置５では、入力層（復号画像群１０４）と、出力層（復元多視点画像１０５）との２層のニューラルネットワークを用いて、多視点画像への復元が最適化される。ここで、図１７に示された復元装置５では、入力層（復号画像群１０４）と出力層（復元多視点画像１０５）との間の結合は、部分結合である。全画素のうちの一部の画素について、学習対象の入力多視点画像１００「Ｌ：Ｌ_ｍ（ｕ，ｖ）」と復元多視点画像１０５「＾Ｌ：＾Ｌ_ｍ（ｕ，ｖ）」とが一致するように、復元装置５のニューラルネットワークの学習処理が実行される。このように、ニューラルネットワークが簡略化されているので、学習効率が向上する。

【0060】

なお、第１実施形態における図６に示された復元装置５では、入力層（復号画像群１０４）と、出力層（復元多視点画像１０５）との２層のニューラルネットワークを用いて、多視点画像への復元が最適化される。ここで、図６に示された復元装置５では、入力層（復号画像群１０４）と出力層（復元多視点画像１０５）との間の結合は、全結合である。学習対象の入力多視点画像１００「Ｌ：Ｌ_ｍ（ｕ，ｖ）」と復元多視点画像１０５「＾Ｌ：＾Ｌ_ｍ（ｕ，ｖ）」とが一致するように、全画素について、復元装置５のニューラルネットワークの学習処理が実行される。第１実施形態では、ニューラルネットワークが簡略化されていないので、第２実施形態における学習効率と比較して、学習効率は向上しない。

【0061】

以上のように、合成装置２における第１のニューラルネットワークは、入力多視点画像１００（第１の入力多視点画像）が入力される第１の入力層「Ｌ_０，Ｌ_１，…，Ｌ_Ｍ－１」と、第１の入力層に部分結合する中間層「Ｂ_０，Ｂ_１，…，Ｂ_Ｎ－１」と、第１の入力層に部分結合する第１の出力層「（－）Ｌ_０，（－）Ｌ_１，…，（－）Ｌ_Ｍ－１」とを有する。符号化部２０は、学習段階において、第１のニューラルネットワークを用いて、第１の重み「Ｗ_ｎ，ｍ」を学習する。復号部２１は、学習段階において、低次元化された入力多視点画像１００（第１の入力多視点画像）の復号に用いられる第２の重み「Ｗ^＊ _ｍ，ｎ」を学習する。このように、ニューラルネットワークが簡略化されているので、学習効率が向上する。

【0062】

符号化部２０は、第１の入力多視点画像１００を低次元化するように学習された第１の重み「Ｗ_ｎ，ｍ」を用いて、符号化段階において入力された多視点画像である入力多視点画像１００（第２の入力多視点画像）を低次元化する。これによって、符号化部２０は、低次元化された入力多視点画像１００である基礎画像群１０１を生成する。並替部３０は、基礎画像群１０１において隣接する基礎画像の間の差を距離と見做す。並替部３０は、基礎画像群１０１における距離の総和を短くするように基礎画像群１０１を並び替えることによって、並替画像群１０３を生成する。符号化復号装置４（符号化復号部）は、並替画像群１０３を符号化する。

【0063】

これによって、学習効率を向上させた上で、光線空間を表す多視点画像の圧縮率を向上させることが可能である。

【0064】

復元装置５（復元部）における第２のニューラルネットワークは、復号結果が入力される第２の入力層「Ｆ_０，Ｆ_１，…，Ｆ_Ｎ－１」と、第２の入力層に部分結合する第２の出力層「＾Ｌ_０，＾Ｌ_１，…，＾Ｌ_Ｍ－１」とを有する。復元装置５は、学習段階において、第２のニューラルネットワークを用いて、第３の重み「～Ｗ_ｍ，ｎ」を学習する。このように、ニューラルネットワークが簡略化されているので、学習効率が向上する。

【0065】

復元装置５は、符号化された並替画像群１０３の復号結果である復号画像群１０４を取得する。復元装置５は、第３の重みを用いて、符号化段階において入力された多視点画像である入力多視点画像１００（第２の入力多視点画像）を復号画像群から復元する。これによって、復元装置５は、復元された第２の入力多視点画像である復元多視点画像１０５を生成する。符号化復号装置４（符号化復号部）は、符号化された並替画像群１０３の復号結果を、復元装置５に出力する。

【0066】

これによって、学習効率を向上させた上で、光線空間を表す多視点画像の圧縮率を向上させることが可能である。

【0067】

図１８は、各実施形態における、符号化装置１のハードウェア構成例を示す図である。符号化装置１の各機能部のうちの一部又は全部は、ＣＰＵ（Central Processing Unit）等のプロセッサ２００が、不揮発性の記録媒体（非一時的な記録媒体）を有する記憶部３００に記憶されたプログラムを実行することにより、ソフトウェアとして実現される。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ（Read Only Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置などの非一時的な記録媒体である。通信部４００は、符号化装置１による処理結果を外部装置（不図示）に送信する。通信部４００は、通信回線を経由してプログラムを受信してもよい。表示部５００は、符号化装置１による処理結果を表示する。表示部５００は、例えば、液晶ディスプレイ、有機ＥＬ（Electro Luminescence）ディスプレイである。

【0068】

符号化装置１の各機能部のうちの一部又は全部は、例えば、ＬＳＩ（Large Scale Integrated circuit）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）又はＦＰＧＡ（Field Programmable Gate Array）等を用いた電子回路（electronic circuit又はcircuitry）を含むハードウェアを用いて実現されてもよい。

【0069】

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

【産業上の利用可能性】

【0070】

本発明は、光線空間を表す多視点画像を圧縮及び復元する装置に適用可能である。

【符号の説明】

【0071】

１…符号化装置、２…合成装置、３…符号化並替装置、４…符号化復号装置、５…復元装置、２０…符号化部、２１…復号部、３０…並替部、１００…入力多視点画像、１０１…基礎画像群、１０２…復号多視点画像、１０３…並替画像群、１０４…復号画像群、１０５…復元多視点画像、１０６…圧縮データ、２００…プロセッサ、３００…記憶部、４００…通信部、５００…表示部

【図1】