IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社デンソーアイティーラボラトリの特許一覧

特開2022-20138画像処理装置、画像処理方法、画像処理プログラム
<>
  • 特開-画像処理装置、画像処理方法、画像処理プログラム 図1
  • 特開-画像処理装置、画像処理方法、画像処理プログラム 図2
  • 特開-画像処理装置、画像処理方法、画像処理プログラム 図3
  • 特開-画像処理装置、画像処理方法、画像処理プログラム 図4
  • 特開-画像処理装置、画像処理方法、画像処理プログラム 図5
  • 特開-画像処理装置、画像処理方法、画像処理プログラム 図6
  • 特開-画像処理装置、画像処理方法、画像処理プログラム 図7
  • 特開-画像処理装置、画像処理方法、画像処理プログラム 図8
  • 特開-画像処理装置、画像処理方法、画像処理プログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022020138
(43)【公開日】2022-02-01
(54)【発明の名称】画像処理装置、画像処理方法、画像処理プログラム
(51)【国際特許分類】
   G06N 20/00 20190101AFI20220125BHJP
   G06T 7/00 20170101ALI20220125BHJP
【FI】
G06N20/00
G06T7/00 350B
【審査請求】未請求
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2020123468
(22)【出願日】2020-07-20
(71)【出願人】
【識別番号】502324066
【氏名又は名称】株式会社デンソーアイティーラボラトリ
(74)【代理人】
【識別番号】100106149
【弁理士】
【氏名又は名称】矢作 和行
(74)【代理人】
【識別番号】100121991
【弁理士】
【氏名又は名称】野々部 泰平
(74)【代理人】
【識別番号】100145595
【弁理士】
【氏名又は名称】久保 貴則
(72)【発明者】
【氏名】吉田 悠一
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096JA03
5L096JA11
5L096KA04
5L096KA07
(57)【要約】
【課題】高圧縮性と高復元性とを両立させる画像処理装置の提供。
【解決手段】画像データXを処理する画像処理装置1は、画像データXをエンコーダモデルへ入力することにより、画像データXの偏りを特徴づける潜在表現データを、画像データXと潜在表現データとの1:1制約下において生成するエンコーダ部100と、潜在表現データを量子化することにより、量子化データを生成する量子化部110と、量子化データに関する情報エントロピーを取得するエントロピー取得部130と、情報エントロピーを最小化するように、エンコーダモデルを学習する学習部160とを、備える。
【選択図】図2
【特許請求の範囲】
【請求項1】
画像データ(X)を処理する画像処理装置(1)であって、
前記画像データをエンコーダモデル(M)へ入力することにより、前記画像データの偏りを特徴づける潜在表現データ(Z)を、前記画像データと前記潜在表現データとの1:1制約下において生成するエンコーダ部(100)と、
前記潜在表現データを量子化することにより、量子化データ(Z^)を生成する量子化部(110)と、
前記量子化データに関する情報エントロピー(L)を取得するエントロピー取得部(130)と、
前記情報エントロピーを最小化するように、前記エンコーダモデルを学習する学習部(160)とを、備える画像処理装置。
【請求項2】
前記エンコーダモデルは、直交行列表現される重み行列(W)を、パラメータとして含み、
前記エンコーダ部は、前記画像データをベクトル表現した画像ベクトルに前記重み行列を乗算することにより、当該画像ベクトルを前記潜在表現データへ変換する請求項1に記載の画像処理装置。
【請求項3】
前記量子化部は、量子化テーブル(T)に基づくことにより前記潜在表現データを前記量子化データへ変換し、
前記学習部は、前記量子化データと前記潜在表現データとの差分である量子化誤差(Δ)を最小化するように、前記量子化テーブルを学習する請求項1又は2に記載の画像処理装置。
【請求項4】
前記量子化データをデコーダモデル(M)へ入力することにより、前記量子化データを前記画像データに復号するデコーダ部(120)を、さらに備える請求項1~3のいずれか一項に記載の画像処理装置。
【請求項5】
前記学習部は、復号された前記画像データと元の前記画像データとの差分である再構成誤差(δ)を最小化するように、前記デコーダモデルを学習する請求項4に記載の画像処理装置。
【請求項6】
画像データ(X)を処理する画像処理方法であって、
前記画像データをエンコーダモデル(M)へ入力することにより、前記画像データの偏りを特徴づける潜在表現データ(Z)を、前記画像データと前記潜在表現データとの1:1制約下において生成するエンコード工程(S101)と、
前記潜在表現データを量子化することにより、量子化データ(Z^)を生成する量子化工程(S102)と、
前記量子化データに関する情報エントロピー(L)を取得するエントロピー取得工程(S104)と、
前記情報エントロピーを最小化するように、前記エンコーダモデルを学習する学習工程(S107)とを、含む画像処理方法。
【請求項7】
前記エンコーダモデルは、直交行列表現される重み行列(W)を、パラメータとして含み、
前記エンコード工程は、前記画像データをベクトル表現した画像ベクトルに前記重み行列を乗算することにより、当該画像ベクトルを前記潜在表現データへ変換する請求項6に記載の画像処理方法。
【請求項8】
前記量子化工程は、量子化テーブル(T)に基づくことにより前記潜在表現データを前記量子化データへ変換し、
前記学習工程は、前記量子化データと前記潜在表現データとの差分である量子化誤差(Δ)を最小化するように、前記量子化テーブルを学習する請求項6又は7に記載の画像処理方法。
【請求項9】
前記量子化データをデコーダモデル(M)へ入力することにより、前記量子化データを前記画像データに復号するデコード工程(S103)を、さらに含む請求項6~8のいずれか一項に記載の画像処理方法。
【請求項10】
前記学習工程は、復号された前記画像データと元の前記画像データとの差分である再構成誤差(δ)を最小化するように、前記デコーダモデルを学習する請求項9に記載の画像処理方法。
【請求項11】
画像データ(X)を処理するためにプロセッサに実行させる命令を含む画像処理プログラムであって、
前記命令は、
前記画像データをエンコーダモデル(M)へ入力させることにより、前記画像データの偏りを特徴づける潜在表現データ(Z)を、前記画像データと前記潜在表現データとの1:1制約下において生成させるエンコード工程(S101)と、
前記潜在表現データを量子化させることにより、量子化データ(Z^)を生成させる量子化工程(S102)と、
前記量子化データに関する情報エントロピー(L)を取得させるエントロピー取得工程(S104)と、
前記情報エントロピーを最小化させるように、前記エンコーダモデルを学習させる学習工程(S107)とを、含む画像処理プログラム。
【請求項12】
前記エンコーダモデルは、直交行列表現される重み行列(W)を、パラメータとして含み、
前記エンコード工程は、前記画像データをベクトル表現した画像ベクトルに前記重み行列を乗算させることにより、当該画像ベクトルを前記潜在表現データへ変換させる請求項11に記載の画像処理プログラム。
【請求項13】
前記量子化工程は、量子化テーブル(T)に基づくことにより前記潜在表現データを前記量子化データへ変換させ、
前記学習工程は、前記量子化データと前記潜在表現データとの差分である量子化誤差(Δ)を最小化させるように、前記量子化テーブルを学習させる請求項11又は12に記載の画像処理プログラム。
【請求項14】
前記量子化データをデコーダモデル(M)へ入力させることにより、前記量子化データを前記画像データに復号させるデコード工程(S103)を、さらに含む請求項11~13のいずれか一項に記載の画像処理プログラム。
【請求項15】
前記学習工程は、復号された前記画像データと元の前記画像データとの差分である再構成誤差(δ)を最小化させるように、前記デコーダモデルを学習させる請求項14に記載の画像処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、画像処理技術に関する。
【背景技術】
【0002】
従来、車両の自動運転又は生産設備での外観検査等における画像処理技術では、機械学習が活用されるようになってきている。こうした画像処理技術での機械学習において、学習性能の向上及び評価に重要な因子の一つが、機器学習に必要な画像データの数である。例えば生産設備での外観検査の場合、正常と異常とを含む多種類の画像データセットを用いて学習を行なった方が当然、豊富な異常を検出可能となる。これは、学習モデルの評価時にも、同様のことが言える。加えて、ニューラルネットワーク等の学習モデルでは、演算能力の向上に伴ってパラメータの数が増大傾向にあることで、機器学習に必要な画像データの数も増大傾向にある。
【0003】
画像処理技術では、このような技術動向の影響を受けて、画像データを管理する管理コストの増大が、顕在化してきている。一般的に画像は、PNG又はJPEG等の如き画像圧縮アルゴリズムを利用して圧縮される.この場合に、機械学習に必要な画像データを記憶するデータベースのサイズは、当該学習データの数に応じて線形に増加する。そのため、データベースの圧縮が急務となっているのである。
【0004】
そこで近年、機械学習の中でも特に深層学習を活用して画像データを圧縮する手法が、盛んに研究されるようになっている。そうした研究手法の多くは、深層学習の概念を利用して画像データを次元の低い潜在空間へと写像し、当該潜在空間中のベクトルを圧縮した結果として出力している。この場合の深層学習時には、大きな圧縮効果により高効率での記憶が可能となるように、潜在空間へ写像するための学習モデルを、画像データを使って学習することになる(例えば非特許文献1)。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】Agustsson, E., Mentzer, F., Tschannen, M., Cavigelli,L., Timofte, R., Benini, L. and Gool, L. V.: Soft-to-Hard Vector Quantization for End-to-End Learning Compressible Representations, Advances in Neural Information Processing Systems 30 (Guyon, I., Luxburg, U. V., Bengio, S., Wallach, H., Fergus, R., Vishwanathan, S. and Garnett, R., eds.), Curran Associates, Inc., pp. 1141-1151 (2017).
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、深層学習による画像データの圧縮手法には、大きな課題がある。それは、学習データとして含まれない画像データを圧縮した場合の、挙動である。具体的には、この手法で圧縮してしまうと、画像データの復号時に予期しない結果を生む懸念がある。その結果とは例えば、人の顔が写る画像データを圧縮するように学習モデルを学習した場合、当該圧縮後に復号された画像データに写るのは、人の顔ではあるものの、よく見ると、元の画像データとは別人の顔が復元されてしまうのである。
【0007】
これは深層学習による圧縮手法では、圧縮率を高めるために元の画像データを次元の低い潜在空間へと写像していることに、起因する。そのため、潜在空間によっては特徴を捉え切れない未学習の画像データが入力されると、予期しない結果を生む可能性が高くなる。さらに深層学習による圧縮手法では、潜在空間自体の次元が過度に低いと、学習データと似た構図乃至は同一種類のターゲットが写る画像データであっても、潜在空間に写像した画像データと元の画像データとが1対1には対応しない。このことによっても、元の画像データにおける特徴が大きく喪失してしまう問題は、起こり得るのである。
【0008】
本開示の課題は、高圧縮性と高復元性とを両立させる画像処理装置を、提供することにある。本開示の別の課題は、高圧縮性と高復元性とを両立させる画像処理方法を、提供することにある。本開示のさらに別の課題は、高圧縮性と高復元性とを両立させる画像処理プログラムを、提供することにある。
【課題を解決するための手段】
【0009】
以下、課題を解決するための本開示の技術的手段について、説明する。尚、特許請求の範囲及び本欄に記載された括弧内の符号は、後に詳述する実施形態に記載された具体的手段との対応関係を示すものであり、本開示の技術的範囲を限定するものではない。
【0010】
本開示の第一態様は、
画像データ(X)を処理する画像処理装置(1)であって、
画像データをエンコーダモデル(M)へ入力することにより、画像データの偏りを特徴づける潜在表現データ(Z)を、画像データと潜在表現データとの1:1制約下において生成するエンコーダ部(100)と、
潜在表現データを量子化することにより、量子化データ(Z^)を生成する量子化部(110)と、
量子化データに関する情報エントロピー(L)を取得するエントロピー取得部(130)と、
情報エントロピーを最小化するように、エンコーダモデルを学習する学習部(160)とを、備える。
【0011】
本開示の第二態様は、
画像データ(X)を処理する画像処理方法であって、
画像データをエンコーダモデル(M)へ入力することにより、画像データの偏りを特徴づける潜在表現データ(Z)を、画像データと潜在表現データとの1:1制約下において生成するエンコード工程(S101)と、
潜在表現データを量子化することにより、量子化データ(Z^)を生成する量子化工程(S102)と、
量子化データに関する情報エントロピー(L)を取得するエントロピー取得工程(S104)と、
情報エントロピーを最小化するように、エンコーダモデルを学習する学習工程(S107)とを、含む。
【0012】
本開示の第三態様は、
画像データ(X)を処理するためにプロセッサに実行させる命令を含む画像処理プログラムであって、
命令は、
画像データをエンコーダモデル(M)へ入力させることにより、画像データの偏りを特徴づける潜在表現データ(Z)を、画像データと潜在表現データとの1:1制約下において生成させるエンコード工程(S101)と、
潜在表現データを量子化させることにより、量子化データ(Z^)を生成させる量子化工程(S102)と、
量子化データに関する情報エントロピー(L)を取得させるエントロピー取得工程(S104)と、
情報エントロピーを最小化させるように、エンコーダモデルを学習させる学習工程(S107)とを、含む。
【0013】
本開示の第一~第三態様によると、画像データのエンコーダモデルへの入力により、画像データの偏りを特徴づける潜在表現データが、それら画像データと潜在表現データとの1:1制約下において生成される。その結果、画像データの潜在空間への写像となる潜在表現データには、可逆性が担保され得る。故に、潜在表現データから量子化データへの量子化に伴う圧縮では特徴喪失の抑制された画像データを、復号に際して復元することができる。しかも第一~第三態様によると、そうした量子化データに関する情報エントロピーを最小化するように、エンコーダモデルが学習されるので、当該学習済モデルを通して写像された潜在表現データは、量子化に伴って圧縮され易くなる。これらのことから、高圧縮性と高復元性とを両立させることが可能である。
【図面の簡単な説明】
【0014】
図1】一実施形態による画像処理装置の全体構成を示すブロック図である。
図2】一実施形態による画像処理装置の詳細構成を示すブロック図である。
図3】一実施形態によるエンコーダ部を説明するための模式図である。
図4】一実施形態による量子化部を説明するための模式図である。
図5】一実施形態によるデコーダ部を説明するための模式図である。
図6】一実施形態による画像処理装置のうち学習部のさらに詳細構成を示すブロク図である。
図7】一実施形態による画像処理方法を示すフローチャートである。
図8】変形例による画像処理装置の詳細構成を示すブロック図である。
図9】変形例による画像処理方法を示すフローチャートである。
【発明を実施するための形態】
【0015】
以下、一実施形態を図面に基づき説明する。
【0016】
図1に示す一実施形態の画像処理装置1は、撮像装置2と共に、例えば車両又は生産設備等に設置される。撮像装置2は、例えば車両の外界領域又は生産設備の外観検査領域等である対象領域を、撮影する。撮像装置2は、撮影した対象領域の写る画像データXを、生成して出力する。
【0017】
画像処理装置1は、少なくとも一つの専用コンピュータを含んで構成される。画像処理装置1を構成する専用コンピュータは、メモリ10とプロセッサ12とを、少なくとも一つずつ備えている。メモリ10は、コンピュータにより読み取り可能なプログラム又はデータ等を非一時的に記憶する、例えば半導体メモリ、磁気媒体、及び光学媒体等のうち、少なくとも一種類の非遷移的実体的記憶媒体(non-transitory tangible storage medium)である。プロセッサ12は、例えばCPU(Central Processing Unit)、GPU(Graphics Processing Unit)、及びRISC(Reduced Instruction Set Computer)-CPU等のうち、少なくとも一種類をコアとして含む。
【0018】
プロセッサ12は、メモリ10に記憶された画像処理プログラムに含まれる複数の命令を、実行する。これにより画像処理装置1は、撮像装置2から出力された画像データXを処理するための機能ブロックとして、複数の機能部を構築する。このように画像処理装置1では、メモリ10に記憶された画像処理プログラムが複数命令をプロセッサ12に実行させることで、複数機能部が構築される。画像処理装置1において構築される複数機能部には、図2に示すように、エンコーダ部100、量子化部110、デコーダ部120、エントロピー取得部130、量子化誤差取得部140、再構成誤差取得部150、及び学習部160が含まれる。
【0019】
エンコーダ部100は、図3に示すように画像データXをエンコーダモデルMへ入力することで、潜在表現データZを生成する。具体的にエンコーダ部100は、撮像装置2から出力されてメモリ10のデータベース領域に記憶されている画像データXを、取得する。エンコーダ部100では、潜在空間への写像元となる画像データXとしての画素毎の輝度値を、ベクトルにより表現した画像ベクトルが、エンコーダモデルMへと入力される。一方でエンコーダ部100では、画像データXの潜在空間への写像となる潜在表現データZとして、画像データXの偏りを特徴づける当該潜在空間の潜在表現ベクトルが、エンコーダモデルMを通して出力される。これら画像データXと潜在表現データZとはいずれも、同一次元数Dの実数によりベクトル表現される。
【0020】
図3に示すエンコーダモデルMは、例えばディープニューラルネットワーク等を主体に構成された、深層学習モデルである。エンコーダモデルMは、画像データXを潜在表現データZとの1:1制約下において生成するように、例えばLeakyReLU又はSigmoid等の活性化関数Fを、全結合層と共に用いて構築される。即ちエンコーダモデルMは、Z=F(X)且つX=F -1(Z)の可逆性を、画像データXと潜在表現データZとの間に与える。こうした1:1の可逆性制約を与えるためにエンコーダモデルMは、逆行列の存在する正定値行列の中でも特に、D行D列の直交行列によって表現される重み行列Wを、活性化関数Fのパラメータとして含む。そこでエンコーダ部100は、エンコーダモデルMへ入力された画像データXの画像ベクトルに重み行列Wを乗算する活性化関数Fを通して、当該画像ベクトルを潜在表現データZへと変換する。
【0021】
図2に示す量子化部110は、エンコーダ部100による潜在表現データZを量子化することで、量子化データZ^を生成する。具体的に量子化部110では、図4に示すような量子化テーブルTに基づくことで、潜在表現データZが量子化データZ^へと変換される。この量子化テーブルTは、J個のセントロイドC=(C,…,C)を、パラメータとして含む。そこで量子化部110は、潜在表現データZをM組且つ各組次元数D/MのサブベクトルZ’へと分割し、次の式1によるソフト割当処理を当該サブベクトルZ’毎に実行する。ここで式1のsoftmax演算子は、次元数Jのソフト割当結果である量子化用割当データφ(Z’)に関して、L1ノルム|| ||が次の式2を満たすように演算する、活性化関数を表す。式1の|| ||は、サブベクトルZ’とj番目のセントロイド値Cjとの差のL2ノルムである。式1のσは、ソフト割当の硬度を表す、0より大きなパラメータである。
【数1】
【数2】
【0022】
量子化部110は、こうした量子化用割当データφ(Z’)とセントロイドCとを用いた次の式3により、潜在表現データZのサブベクトルZ’毎に対するソフト量子化結果Q(Z’)を演算する。ここで式3のCjは、セントロイドCを構成するJ個の値のうち、j番目の値を表す。式3のφj(Z’)は、量子化用割当データφ(Z’)を構成するJ個のデータ値のうち、j番目の値を表す。
【数3】
【0023】
量子化部110はさらに、各組のサブベクトルZ’に対するソフト量子化結果Q(Z’)を用いた式4により、潜在表現データZ自体に対するソフト量子化結果としての量子化データZ^を演算する。これにより量子化データZ^は、潜在表現データZと同一次元数Dの実数によりベクトル表現される。ここで式4のconcat演算子は、複数のベクトルを一つのベクトルに結合するように演算する、結合関数を表す。式4のZ’(1),…,Z’(M)は、M組それぞれのサブベクトルZ’を表す。
【数4】
【0024】
このような量子化部110では、量子化データZ^よりも低次元となる量子化用割当データφ(Z’)が、メモリ10のデータベース領域に記憶される。これによりメモリ10には、画像データXよりも圧縮された量子化用割当データφ(Z’)が、量子化部110の機能により記憶される。
【0025】
図2に示すデコーダ部120は、量子化部110による量子化データZ^を図5に示すようにデコーダモデルMへ入力することで、同データZ^を画像データXに復号する。具体的にデコーダ部120は、量子化データZ^としてベクトル表現された量子化ベクトルが、デコーダモデルMへと入力される。また一方でデコーダ部120では、元の画像データX(以下、元画像データXとも言う)を復元した復号画像データX^が、出力される。
【0026】
ここでデコーダ部120のデコーダモデルMは、例えばディープニューラルネットワーク等を主体に構成された、深層学習モデルである。デコーダモデルMは、パラメータとして含んだD行D列の重み行列Wに対するL2正則化の制約下において、次元数Dの復号画像データX^を生成するように、例えばSigmoid等の活性化関数Fを、エンコーダモデルMと同等な全結合層と共に用いて構築される。
【0027】
図2に示すエントロピー取得部130は、量子化部110による量子化データZ^に関しての情報エントロピーLを、取得する。具体的にエントロピー取得部130は、学習データとなるN個の潜在表現データZから推定して正規化したヒストグラムpと、量子化部110による量子化用割当データφ(Z’)から推定したヒストグラムqに基づき、情報エントロピーLを演算する。このときヒストグラムqは、次の式5により表されることから、情報エントロピーLは、次の式6を用いて演算される。ここで式5,6のZ’ (m)は、N個の潜在表現データZに関するM組のサブベクトルZ’のうち、n番目のデータZに関するm組目のサブベクトルZ’を表す。
【数5】
【数6】
【0028】
量子化誤差取得部140は、量子化部110による量子化データZ^と、エンコーダ部100による潜在表現データZとの、差分を量子化誤差Δとして取得する。具体的に量子化誤差取得部140は、次の式7により量子化誤差Δを演算する。
【数7】
【0029】
再構成誤差取得部150は、デコーダ部120による復号画像データX^と、メモリ10のデータベース領域において対応する元画像データXとの、差分を再構成誤差δとして取得する。具体的に再構成誤差取得部150は、量子化部110による量子化を伴わないと仮定した場合の再構成誤差δを、次の式8により演算する。
【数8】
【0030】
学習部160は、エンコーダ部100のエンコーダモデルMと量子化部110の量子化テーブルTとデコーダ部120のデコーダモデルMとを、学習する。そのために学習部160は、図6に示すモデル学習部161、テーブル学習部162、及び全体学習部163の三層のサブ機能ブロックにより、三段階の学習を実行する。
【0031】
モデル学習部161は、再構成誤差取得部150による再構成誤差δを含んだコスト関数Lを、次の式9により定義する。そこでモデル学習部161は、このコスト関数Lの最適化として、量子化を伴わない場合の再構成誤差δを最小化するように、エンコーダモデルMの重み行列WとデコーダモデルMの重み行列Wとを学習する。ここで式9のX^は、学習データとなるN個の復号画像データX^のうち、n番目のデータX^を表す。式9のXは、学習データとなるN個の元画像データXのうち、n番目のデータXを表す。これらのことから式9のδは、n番目のデータX^,X間での再構成誤差δを意味する。式9のwは、エンコーダモデルMの重み行列WとデコーダモデルMの重み行列Wとを結合してベクトル化した、ベクトル変数である。式9のλ,γは、ハイパーパラメータである。
【数9】
【0032】
ここで特に式9のR(W)は、エンコーダモデルMの全結合層において可逆性を担保するため、次の式10により表される直交正則化を同モデルMの重み行列Wに対して適用するように演算される、サブコスト関数となる。ここで式10の|| ||は、フロベニウスノルムである。式10のIは、D行D列の単位行列である。式10のW は、重み行列Wの転置行列である。
【数10】
【0033】
テーブル学習部162は、量子化誤差取得部140による量子化誤差Δを含んだコスト関数Lを、次の式11により定義する。そこでテーブル学習部162は、このコスト関数Lの最適化として、エンコーダモデルMの重み行列Wをモデル学習部161での学習値に固定且つ硬度σを定数とした場合の量子化誤差Δを最小化するように、量子化テーブルTのセントロイドCを学習する。このときテーブル学習部162は、量子化を伴う学習のため、例えばStraight Through Estimator等を用いる。ここで式11のZ^は、学習データとなるN個の量子化データZ^のうち、n番目のデータZ^を表す。式11のZは、学習データとなるN個の潜在表現データZのうち、n番目のデータZを表す。これらのことから式11のΔは、n番目のデータZ^,Z間での量子化誤差Δを意味する。
【数11】
【0034】
全体学習部163は、エントロピー取得部130による情報エントロピーLとテーブル学習部162によるコスト関数Lとを線形結合したコスト関数Lを、次の式12により定義する。そこで全体学習部163は、このコスト関数Lの最適化として、量子化を伴う場合の再構成誤差δと情報エントロピーLとを最小化するように、エンコーダモデルMの重み行列WとデコーダモデルMの重み行列Wと量子化テーブルTのセントロイドCとを再度学習する。このとき全体学習部163は、量子化を伴う学習のため、例えばStraight Through Estimator等を用いる。ここで式12のβは、ハイパーパラメータである。
【数12】
【0035】
ここまで説明した各機能部100,110,120,130,140,150,160の共同により、画像処理装置1が画像データXを処理する画像処理方法のフローを、図7に従って以下に説明する。尚、本フローにおける各「S」は、画像処理プログラムに含まれた複数命令によって実行される複数ステップを、それぞれ意味する。
【0036】
S101においてエンコーダ部100は、撮像装置2により生成されたN個の画像データXをそれぞれ個別にエンコーダモデルMへ入力することで、N個の潜在表現データZを生成する。
【0037】
S102において量子化部110は、S101により生成されたN個の潜在表現データZをそれぞれ個別に量子化することで、N個の量子化データZ^を生成する。このとき量子化部110は、各量子化データZ^に個別に対応する量子化用割当データφ(Z’)を、メモリ10に記憶する。
【0038】
S103においてデコーダ部120は、S102により生成されたN個の量子化データZ^をそれぞれ個別にデコーダモデルMへ入力することで、それら各データZ^から個別に復号された復号画像データX^を生成する。
【0039】
S104においてエントロピー取得部130は、S102により生成されたN個の量子化データZ^に関する情報エントロピーLを、取得する。S105において量子化誤差取得部140は、S102により生成されたN個の量子化データZ^と、S101により生成されたN個の潜在表現データZとの、それぞれの差分である量子化誤差Δを取得する。S106において再構成誤差取得部150は、S103により生成されたN個の復号画像データX^と、対応するN個の元画像データXとの、それぞれの差分である再構成誤差δを取得する。尚、これらS104,105,S106の実行順については、図7に示す順から任意に入れ替えられてもよいし、少なくとも一つずつが実質同時であってもよい。
【0040】
S107において学習部160は、各モデルM,M及び量子化テーブルTを学習する。このときモデル学習部161は、S106により取得の再構成誤差δを最小化するように、各モデルM,Mを学習する。続いてテーブル学習部162は、S102により取得の量子化誤差Δを最小化するように、量子化テーブルTを学習する。さらに全体学習部163は、S104により取得の情報エントロピーLと、S106により取得の再構成誤差δとを、共に最小化するように、各モデルM,M及び量子化テーブルTを学習する。
【0041】
このように本実施形態では、S101がエンコード工程に相当し、S102が量子化工程に相当し、S103がデコード工程に相当する。また本実施形態では、S104がエントロピー取得工程に相当し、S107が学習工程に相当する。
【0042】
(作用効果)
以上説明した本実施形態の作用効果を、以下に説明する。
【0043】
本実施形態によると、画像データXのエンコーダモデルMへの入力により、画像データXの偏りを特徴づける潜在表現データZが、それら画像データXと潜在表現データZとの1:1制約下において生成される。その結果、画像データXの潜在空間への写像となる潜在表現データZには、可逆性が担保され得る。故に、潜在表現データZから量子化データZ^への量子化に伴う圧縮では特徴喪失の抑制される画像データを、復号に際して復元することができる。しかも本実施形態によると、そうした量子化データZ^に関する情報エントロピーLを最小化するように、エンコーダモデルMが学習されるので、当該学習済のモデルMを通して写像された潜在表現データZは、当該学習後の量子化により圧縮され易くなる。これらのことから、高圧縮性と高復元性とを両立させることが可能である。
【0044】
本実施形態によると、画像データXをベクトル表現した画像ベクトルには、直交行列表現される重み行列Wが乗算されることで、当該画像ベクトルが潜在表現データZへと変換される。これにより、画像データXの潜在空間への写像となる潜在表現データZには、シンプルな重み付き演算によって1:1制約が付与されることで、可逆性が担保され得る。故に、高復元性に必要な写像演算処理を、高速化することが可能となる。
【0045】
本実施形態によると、潜在表現データZの量子化データZ^への変換に利用される量子化テーブルTは、量子化データZ^と潜在表現データZとの差分である、量子化誤差Δを最小化するように学習される。これによれば、学習済の量子化テーブルTに基づく量子化データZ^には、量子化誤差Δに起因する特徴喪失等の量子化不良が生じ難くなる。故に、高圧縮性と共に両立する高復元性の信頼度を、高めることが可能となる。
【0046】
本実施形態によると、量子化データZ^のデコーダモデルMへの入力により、同データZ^が画像データXへと復号される。これによれば、潜在表現データZから量子化データZ^への量子化に伴う高圧縮化に拘らず、特徴の復元性が高い画像データXを、デコーダモデルMを通して適正に復号することが可能となる。
【0047】
本実施形態によると、量子化データZ^から画像データXへの復号に利用されるデコーダモデルMは、復号された画像データXとなる復号画像データX^と、元の画像データXとの差分である、再構成誤差δを最小化するように学習される。これによれば、学習済のデーコーダモデルMを通して復元された画像データXには、再構成誤差δに起因する特徴喪失等の復原不良が生じ難くなる。故に、高圧縮性と共に両立する高復元性の信頼度を、高めることが可能となる。
【0048】
(他の実施形態)
以上、一実施形態について説明したが、本開示は、当該実施形態に限定して解釈されるものではなく、本開示の要旨を逸脱しない範囲内において種々の実施形態に適用することができる。
【0049】
変形例において画像処理装置1を構成する専用コンピュータは、例えば車両又は生産設備等との間において通信可能な、少なくとも一つの外部センターコンピュータであってもよい。変形例において画像処理装置1を構成する専用コンピュータは、デジタル回路及びアナログ回路のうち、少なくとも一方をプロセッサとして含んでいてもよい。ここでデジタル回路とは、例えばASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)、SOC(System on a Chip)、PGA(Programmable Gate Array)、及びCPLD(Complex Programmable Logic Device)等のうち、少なくとも一種類である。またこうしたデジタル回路は、プログラムを格納したメモリを、有していてもよい。
【0050】
図8,9に示すように変形例では、デコーダ部120及びそれによるS103が省かれていてもよい。この変形例では、再構成誤差取得部150及びそれによるS106において、再構成誤差δを演算する式8のwを構成する重み行列Wが、D行D列の単位行列に置換されるとよい。
【符号の説明】
【0051】
1:画像処理装置、100:エンコーダ部、110:量子化部、120:デコーダ部、130:エントロピー取得部、140:量子化誤差取得部、150:再構成誤差取得部、160:学習部、161:モデル学習部、162:テーブル学習部、163:全体学習部、C:セントロイド、L:情報エントロピー、M:デコーダモデル、M:エンコーダモデル、T:量子化テーブル、W,W:重み行列、X:画像データ・元画像データ、X^:復号画像データ、Z:潜在表現データ、Z^:量子化データ、Δ:量子化誤差、δ:再構成誤差
図1
図2
図3
図4
図5
図6
図7
図8
図9