IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社朋栄の特許一覧

特開2022-178145畳み込みニューラルネットワークを用いた自動特徴抽出による深層カラーマッチング処理方法と特徴抽出可視化方法とその装置
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022178145
(43)【公開日】2022-12-02
(54)【発明の名称】畳み込みニューラルネットワークを用いた自動特徴抽出による深層カラーマッチング処理方法と特徴抽出可視化方法とその装置
(51)【国際特許分類】
   H04N 1/60 20060101AFI20221125BHJP
   G06T 7/00 20170101ALI20221125BHJP
【FI】
H04N1/60
G06T7/00 350C
【審査請求】未請求
【請求項の数】16
【出願形態】OL
(21)【出願番号】P 2021084715
(22)【出願日】2021-05-19
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.TENSORFLOW
(71)【出願人】
【識別番号】391040320
【氏名又は名称】株式会社朋栄
(74)【代理人】
【識別番号】100148851
【弁理士】
【氏名又は名称】鎌田 和弘
(72)【発明者】
【氏名】松永 力
【テーマコード(参考)】
5C079
5L096
【Fターム(参考)】
5C079HB01
5C079LB01
5C079MA13
5C079NA03
5C079NA13
5C079PA05
5L096EA39
5L096FA25
5L096FA32
5L096GA40
5L096HA11
5L096KA04
(57)【要約】      (修正有)
【課題】異なる視点から撮影された画像間のカラーマッチングを効率的に遂行する方法及び装置を提供する。
【解決手段】畳み込みニューラルネットワーク(CNN)を用いたカラーマッチング処理方法は、参照画像と色補正対象画像とに対して高次元空間の特徴ベクトルを事前に学習により獲得する工程と、抽出した特徴ベクトルに対して全結合層回帰処理により色補正パラメータを推定する工程と、RGB色空間におけるアフィン変換、射影変換、疑似射影変換、双線形変換または2次多項式変換を色変換ネットワークとして組み込み、全処理が画像を入出力とする学習結果に基づいて色補正パラメータによる入力画像への色補正処理を遂行する工程と、疑似多視点画像による学習結果からネットワークの予測能力を評価するとともに、CNN特徴マップの重み付け平均から成る回帰活性化マップによりネットワークにおけるカラーマッチングの判断根拠を可視化する工程とを有する。
【選択図】図7
【特許請求の範囲】
【請求項1】
同一シーンを異なる視点から撮影した画像間のカラーマッチングを行う深層カラーマッチング処理方法において、
基準となる参照画像と前記参照画像に色を合わせる入力画像とに対して、畳み込みニューラルネットワーク(CNN)により、各々の画像特徴を事前に学習により自動的に獲得する工程と、
前記CNNにより抽出した高次元空間の特徴ベクトルに対して、全結合層回帰処理により、色補正パラメータを推定する工程と、
3次元RGB色空間におけるアフィン変換または射影変換または疑似射影変換または双線形変換または2次多項式変換を色変換ネットワークとして組み込み、全処理が画像を入出力とするEnd-to-Endでの学習結果に基づいて、前記色補正パラメータによる前記入力画像への色補正処理を遂行する工程と、
疑似多視点画像による学習結果から、ネットワークの予測能力を評価するとともに、CNN特徴マップの重み付け平均から成る回帰活性化マップにより、ネットワーク(AI)におけるカラーマッチングの判断根拠の可視化を行う工程とを有する
ことを特徴とする深層カラーマッチング処理方法。
【請求項2】
請求項1に記載の深層カラーマッチング処理方法において、
深層学習による色補正の自動化を行う
ことを特徴とする深層カラーマッチング処理方法。
【請求項3】
請求項1または請求項2に記載の深層カラーマッチング処理方法において、
前記同一シーンを異なる視点から撮影した画像は、多視点映像または3D映像のための画像である
ことを特徴とする深層カラーマッチング処理方法。
【請求項4】
請求項1乃至請求項3のいずれか一項に記載の深層カラーマッチング処理方法において、
カラーチャートのような複数色からなる参照板を用いない
ことを特徴とする深層カラーマッチング処理方法。
【請求項5】
請求項1乃至請求項4のいずれか一項に記載の深層カラーマッチング処理方法において、
前記色補正処理は、画像を直接入力するフィードフォワード型の1パス処理である
ことを特徴とする深層カラーマッチング処理方法。
【請求項6】
請求項1乃至請求項5のいずれか一項に記載の深層カラーマッチング処理方法において、
前記同一シーンを異なる視点から撮影した画像間の幾何学的な位置合わせは行わない
ことを特徴とする深層カラーマッチング処理方法。
【請求項7】
請求項1乃至請求項6のいずれか一項に記載の深層カラーマッチング処理方法において、
前記入力画像に対する明示的な特徴抽出処理は行わない
ことを特徴とする深層カラーマッチング処理方法。
【請求項8】
請求項1乃至請求項7のいずれか一項に記載の深層カラーマッチング処理方法において、
前記カラーマッチングの判断根拠の可視化を行う工程は、
畳み込み層ネットワークの特徴マップ出力の重み付け平均から成る全結合層回帰ネットワークのカラーマッチング処理結果の判断根拠を回帰活性化マップにより可視化するものである
ことを特徴とする深層カラーマッチング処理方法。
【請求項9】
同一シーンを異なる視点から撮影した画像間のカラーマッチングを行う深層カラーマッチング処理装置において、
基準となる参照画像と前記参照画像に色を合わせる入力画像とに対して、畳み込みニューラルネットワーク(CNN)により、各々の画像特徴を事前に学習により自動的に獲得する画像特徴事前学習部と、
前記CNNにより抽出した高次元空間の特徴ベクトルに対して、全結合層回帰処理により、色補正パラメータを推定する色補正パラメータ推定部と、
3次元RGB色空間におけるアフィン変換または射影変換または疑似射影変換または双線形変換または2次多項式変換を色変換ネットワークとして組み込み、全処理が画像を入出力とするEnd-to-Endでの学習結果に基づいて、前記色補正パラメータによる前記入力画像への色補正処理を遂行する色補正処理部と、
疑似多視点画像による学習結果から、ネットワークの予測能力を評価するとともに、CNN特徴マップの重み付け平均から成る回帰活性化マップにより、ネットワーク(AI)におけるカラーマッチングの判断根拠の可視化を行うカラーマッチング判断根拠可視化遂行部とを有する
ことを特徴とする深層カラーマッチング処理装置。
【請求項10】
請求項9に記載の深層カラーマッチング処理装置において、
前記装置は、深層学習による色補正の自動化を行う
ことを特徴とする深層カラーマッチング処理装置。
【請求項11】
請求項9または請求項10に記載の深層カラーマッチング処理装置において、
前記同一シーンを異なる視点から撮影した画像は、多視点映像または3D映像のための画像である
ことを特徴とする深層カラーマッチング処理装置。
【請求項12】
請求項9乃至請求項11のいずれか一項に記載の深層カラーマッチング処理装置において、
カラーチャートのような複数色からなる参照板を用いない
ことを特徴とする深層カラーマッチング処理装置。
【請求項13】
請求項9乃至請求項12のいずれか一項に記載の深層カラーマッチング処理装置において、
前記色補正処理部は、画像を直接入力するフィードフォワード型の1パス処理を遂行する
ことを特徴とする深層カラーマッチング処理装置。
【請求項14】
請求項9乃至請求項13のいずれか一項に記載の深層カラーマッチング処理装置において、
前記装置は、前記同一シーンを異なる視点から撮影した画像間の幾何学的な位置合わせは行わない
ことを特徴とする深層カラーマッチング処理装置。
【請求項15】
請求項9乃至請求項14のいずれか一項に記載の深層カラーマッチング処理装置において、
前記装置は、前記入力画像に対する明示的な特徴抽出処理は行わない
ことを特徴とする深層カラーマッチング処理装置。
【請求項16】
請求項9乃至請求項15のいずれか一項に記載の深層カラーマッチング処理装置において、
前記カラーマッチング判断根拠可視化遂行部は、
畳み込み層ネットワークの特徴マップ出力の重み付け平均から成る全結合層回帰ネットワークのカラーマッチング処理結果の判断根拠を回帰活性化マップにより可視化する処理を遂行する
ことを特徴とする深層カラーマッチング処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像機器全般、典型的には、映像制作に用いられる同一シーンを撮影する複数カメラ間の色調整作業を伴う業務用映像機器等における、畳み込みニューラルネットワークを用いた自動特徴抽出による深層(典型的にはディープラーニングを行うAIによる)カラーマッチング処理方法と特徴抽出可視化方法とその装置等に関する。
【背景技術】
【0002】
色域変換やハイダイナミックレンジ(HDR)変換を含む色補正処理、あるいはカラーグレーディング(Color grading)と呼ばれている処理は映像制作の基本である。参照板(カラーチャート[非特許文献1]を用いたカメラの色調整は、色校正(カラーキャリブレーション)として、異なる機種のカメラ間の色合わせは、カラーマッチングとして知られている([非特許文献2][非特許文献3][非特許文献4]、[図1]参照)。しかし、実際の色補正を行う場面では、カラーチャートを設置して、色校正することが難しい場合もあるだろう。そこで、本発明では、カラーチャートを用いずに、撮影したシーン画像間でカラーマッチングを行うことを考える([図2]参照)。
【0003】
SIFT作用素([非特許文献5][特許文献1]参照)により特徴点の抽出を行い、その点のRGB値を用いて色補正を行った研究がある([非特許文献6][非特許文献7][非特許文献8]、[図3]に[非特許文献9]に記載のORB(Oriented FAST and Rotated BRIEF)による特徴点マッチング画像例を示す)。その他、画像特徴点の抽出処理としては、[非特許文献10][特許文献2]等が挙げられる。
【0004】
しかし、画像中の特徴点は、“画素値”データとしては適切ではない。なぜなら、物体におけるコーナー、エッジ等の特徴点の“画素値”は背景の影響を受ける。画像圧縮によるノイズの影響も受けやすい。色補正のためには、できるだけ平坦な領域における“画素値”をデータとして用いることが望ましい([図4]参照)。
【0005】
図4は、RGB画素値の3次元プロット例を示す図であり、図4(a)が画像中の赤枠(図中(1)として示している)、緑枠(図中(2)として示している)内のRGB画素値を3次元プロットし、図4(b)が正規化RGB[0,1]領域に、画素値とそれぞれの誤差の楕円体(信頼区間95%)を表示する図であり、特徴点を含む赤枠領域内には、異なる色が含まれており、RGB画素値の誤差の楕円体が大きいことがわかる一方で、緑枠内のRGB画素値はほぼ均一であり、RGB画素値の誤差の楕円体も小さく、このような領域における“画素値”をデータとして用いることが望ましい。
【0006】
本発明者ら[非特許文献11]は、3D映像を撮影する2台のカメラ間のカラーマッチングを行うために、カラーチャートを用いずに、左右2枚の画像間のRGB毎のヒストグラムをマッチングした。Reinhardら[非特許文献12]は、画像間の見た目の色を揃えるために、画像をLMS色空間に変換して、それらの平均値・標準偏差値を揃える処理を行った。いずれの場合も、色補正のモデルは、RGB/LMS毎の1次元アフィン変換である。その後、本発明者は画素値ヒストグラムマッチングを1次元から、2次元色差色空間、3次元RGB色空間に拡張して、ヒストグラムを画像と見なすことにより、Lucas-Kanadeアルゴリズム[非特許文献13][非特許文献14]を適用してカラーマッチングを行った[非特許文献15]。
【0007】
図5]は、画像の1次元輝度ヒストグラム、2次元色差値ヒストグラム、1次元RGBヒストグラム、そして、3次元RGBヒストグラムである。1次元輝度、1次元RGBヒストグラムのビン数(区間数)はいずれも64であり、2次元色差ヒストグラムは、64×64=4096、3次元ヒストグラムは9×9×9=729である。さらに、画素値の3次元RGBヒストグラムから、ヒストグラム各区間内の画素値の平均値によるヒストグラム点データを計算して、ICPアルゴリズム[非特許文献16]を重み反復最小二乗法[非特許文献17]によりロバスト化することにより、画像間のヒストグラム点群の対応付けを行い、統計的最適化の理論[非特許文献18][非特許文献17]に基づく最適推定と幾何学的モデル選択[非特許文献18][非特許文献19]により過当てはめを回避した[非特許文献20]。
【0008】
図5に示す画像のヒストグラム例において、図5(a)が原画像を示し、図5(b)が1次元輝度ヒストグラムを示し、図5(c)が2次元色差ヒストグラム(3次元プロット)を示し、図5(d)が2次元色差ヒストグラムの画像表示(255以上は255にクリップした)を示し、図5(e)が1次元RGBヒストグラムを示し、図5(f)が3次元RGBヒストグラム(ImageJ, An open platform for scientific imageanalysis, https://imagej.net/Welcome による表示)を示している。
【0009】
また、図6は、RGB画素値ヒストグラム点データの3次元プロット例である。図6(a)はカラー画像例であり、図6(b)はカラー画像(a)中の全画素のヒストグラム点データを示しており、ヒストグラムのビン数(区間数)を、32×32×32として、各ビン中に含まれる画素値の平均値を表示している。ただし、ヒストグラムビン中の画素数が10以下のものは表示していない。また、図6(c)は、図6(b)のヒストグラム点データの表面化を示すものであり、GR(緑赤)平面に直交する法線ベクトルの正方向、すなわち、原点からB(青)軸の正方向を見て、最も手前にあるヒストグラム点データを抽出するものである。
【先行技術文献】
【特許文献】
【0010】
【特許文献1】US6,711,293Bl,David G.Lowe,METHOD AND APPARATUS FOR IDENTIFYING SCALE INVARIANT FEATURES IN AN IMAGE AND USE OF SAME FOR LOCATING AN OBJECT IN AN IMAGE,Date Df Patent:Mar.23,2004
【特許文献2】US2009/0238460Al,Ryuji Funayama,Hiromichi Yanagihara,Luc Van Gool,Tinne Tuytelaars,Herbert Bay,ROBUST INTEREST POINT DETECTOR AND DESCRIPTOR,Date of Patent:Sep.24,2009
【非特許文献】
【0011】
【非特許文献1】C.S.McCamy,H.Marcus,and J.G.Davidson, A color-rendition chart,Journal of Applied Photographic Engineering,2-3(Summer 1976),95-99.http://www.xrite.com/
【非特許文献2】松永力,趙延軍,和田雅徳,カラーチャートを用いた複数の再撮モニタとカメラの最適色補正,第16回画像センシングシンポジウム(SSII2010)講演論文集,横浜(パシフィコ横浜),2010年6月.
【非特許文献3】松永力,3次元幾何学変換と幾何学的モデル選択による最適カラーマッチング/カラーキャリブレーション,第23回画像センシングシンポジウム(SSII2017)講演論文集,横浜(パシフィコ横浜),2017年6月.
【非特許文献4】松永力,最適レベル補正と幾何学的モデル選択による高精度色補正:画像処理パイプラインの構築を目指して,ViEW2017ビジョン技術の実利用ワークショップ講演論文集,横浜(パシフィコ横浜),2017年12月.
【非特許文献5】D.Lowe,Distinctive image features from scale-invariant keypoints,International Journal of Computer Vision, 60-2 (January 2004), 91-110.
【非特許文献6】Q.Wang,X.Sun,and Z.Wang,A robust algorithm for color correction between two stereo images,Proceedings of the 9th Asian conference on Computer Vision-Volume Part II (ACCV'09), Xi'an, China, September 2009, pp. 405-416.
【非特許文献7】S.A.Fezza,M.C.Larabi,and K.M.Faraoun,Feature-based color correction of multiview video for coding and rendering enhancement,IEEE Transactions on Circuits and Systems for Video Technology,24-9(September 2014),1486-1498.
【非特許文献8】H.Zeng,K.-K.Ma,C.Wang,and C.Cai,SIFT-flow-based color correction for multi-view video,Image Communication,36-C (August 2015),53-62.
【非特許文献9】G.Bradski,K.Konolige,V.Rabaud,and E.Rublee,ORB:An efficient alternative to SIFT or SURF,2011 IEEE International Conference on Computer Vision (ICCV),Barcelona,Spain,November 6-13,2011,pp.2564-2571.
【非特許文献10】C.Harris and M. Stephens,A combined corner and edge detector,Proceedings of the 4th ALVEYvision conference,University of Manchester. England,September 1988.pp.147―151.
【非特許文献11】松永力、趙延軍、和田雅徳、3D映像のための自動色補正,第17回画像センシングシンポジウム(SSII2011)講演論文集、横浜(パシフィコ横浜),2011年6月.
【非特許文献12】E.Reinhard,M.Ashikhmin,B.Gooch,and P.Shirley,Color transfer between images,IEEE Transactions on Computer Graphics and Applications,21-5(2001), 34-41.
【非特許文献13】B.D.Lucas and T.Kanade,An iterative image registration technique with an application to stereo vision,Proceedings of the 7th International Joint Conference on Artificial Intelligence-Volume 2 (IJCAI'81),Vancouver,BC,Canada,August 1981,pp.674-679.
【非特許文献14】S.Baker and I.Matthews,Lucas-Kanade 20 years on:A unifying framework,International Journal of Computer Vision,56-3(2004),221-255.
【非特許文献15】松永力、Lucas-Kanadeヒストグラムマッチングによる対応点を用いない自動色補正、第25回画像センシングシンポジウム(SSII2019)講演論文集,横浜(パシフィコ横浜),2019年6月.
【非特許文献16】P.J.Besl and N.D.McKay,A method for registration of 3-D shapes,IEEE Transactions on Pattern Analysis and Machine Intelligence,14-2(February 1992),239-256
【非特許文献17】金谷健一,菅谷保之,金澤靖,「3次元コンピュータビジョン計算ハンドブック」,森北出版,2016年10月.
【非特許文献18】K.Kanatani,Statistical Optimization for Geometric Computation:Theory and Practice,Elsevier Science, Amsterdam,The Netherlands,April 1996,reprinted Dover Publications,New York,NY,USA,July 2005.
【非特許文献19】K. Kanatani,Uncertainty modeling and model selection for geometric inference,IEEE Transactions on Pattern Analysis and Machine Intelligence,26-10 (2004),1307-1319.
【非特許文献20】松永力,3次元RGBヒストグラム点群マッチングによる自動色補正,ViEW2020ビジョン技術の実利用ワークショップ講演論文集,2020年12月.
【非特許文献21】Y.Lecun,L.Bottou,Y.Bengio,and P.Haffner,Gradient-based learning applied to document recognition,Proceedings of the IEEE,86-11 (November 1998),2278-2324.
【非特許文献22】A.Krizhevsky,I.Sutskever,and G.E.Hinton,ImageNet classification with deep convolutional neural networks,Proceedings of the 25th International Conference on Neural Information Processing Systems-Volume 1 (NIPS'12),Lake Tahoe,NV,USA,2012,pp.1097-1105.
【非特許文献23】K.Simonyan and A.Zisserman,Very deep convolutional networks for large-scale image recognition,3rd International Conference on Learning Representations,ICLR2015,San Diego,CA,USA,May 7-9,2015.
【非特許文献24】G.Ciaparrone,F.L.Sanchez,S.Tabik,L.Troiano,R.Tagliaferri,and F.Herrera,Deep learning in video multi-object tracking:A survey,Neurocomputing,381-14 (March 2020),61-88.
【非特許文献25】A.Gordon,H.Li,R.Jonschkowski,and A.Angelova,Depth from videos in the wild:Unsupervised monocular depth learning from unknown cameras,Proceedings of the IEEE/CVF International Conference on Computer Vision aCCV).Seoul.Korea.October 27-November 2.2019.dd.8976-8985.
【非特許文献26】Y.Wang and J.M.Solomon,Deep closest point:Learning representations for point cloud registration,Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV),Seoul,Korea,Dctober 27-November 2,2019,pp.3522-3531.
【非特許文献27】L.A.Gatys,A.S.Ecker,and M.Bethge,Image style transfer using convolutional neural networks,2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),Las Vegas,NV,USA,2016,pp.2414-02423.
【非特許文献28】Z.Cheng,Q.Yang,and B.Sheng,Deep colorization,Proceedings of the IEEE International Conference on Computer Vision (ICCV),Santiago,Chile,December 7-13,2015,pp.415-423.
【非特許文献29】Z.Lou,T.Gevers,N.Hu,and M.P.Lucassen.Color constancy by deep learning,Proceedings of the British Machine Vision Conference (BMVC),Swansea,UK,September 7-10,2015,pp.76.1-76.12.
【非特許文献30】J.Bromley,I.Guyon,Y LeCun,E.Sackinger,and R.Shah,Signature verification using a "Siamese" time delay neural network,Proceedings of the 6th International Conference on Neural Information Processin Systems (NIPS'93),San Francisco,CA,USA,1993,pp.737-744.
【非特許文献31】V Nair and G.E.Hinton,Rectified linear units improve restricted Boltzmann machines,Proceedings of the 27th International Conference on Machine Learning (ICML10),Haifa,Israel,June 21-24,2010,pp.807-814.
【非特許文献32】M.Lin,Q.Chen,and S.Yan,Network in network,2nd International Conference on Learning Representations,ICLR2014,Banff,AB,Canada,April 14-16,2014.
【非特許文献33】A.L.Maas,A.Y Hannun,and A.Y Ng,Rectifier nonlinearities improve neural network acoustic models,Proceedings of 30th International Conference on Machine Learning (ICML2013),Atlanta,GA,USA,June 16-21,2013,pp.3-9.
【非特許文献34】N.Srivastava,G.Hinton,A.Krizhevsky,I.Sutskever,and R.Salakhutdinov,Dropout:A simple way to prevent neural networks from overfitting,Journal of Machine Learning Research,15-1 (2014),1929-1958.
【非特許文献35】G.Adiv,Determining three-dimensional motion and structure from optical flow generated by several movine obiects.IEEE Transactions on Pattern Analvsis and Machine Intelligence.7-4 (19851.384-401.
【非特許文献36】松永力,広色域映像のための最適色域マッピング,第22回画像センシングシンポジウム(SSII2016)講演論文集,横浜(パシフィコ横浜),2016年6月.
【非特許文献37】K.Kanatani and C.Matsunaga,Computing internally constrained motion of 3-D sensor data for motion interpretation,Pattern Recognition,46-6 (2013-6),1700-1709.
【非特許文献38】D.P.Kingma and J.L.Ba,Adam:A method for stochastic optimization,3rd International Conference on Learning Representations,ICLR2015,San Diego,CA,USA,May 7-9,2015.
【非特許文献39】J.Biemond,R.L.Lagendijk,and R.M.Mersereau,Iterative methods for image deblurring,Proceedings of the IEEE,78-5 (May 1990),856-883.
【非特許文献40】J.Springenberg,A.Dosovitskiy,T.Brox,and M.Riedmiller,Striving for simplicity:The all convolutional net,3rd International Conference on Learning Representations,ICLR2015,San Diego,CA,USA,May 7-9,2015.
【非特許文献41】B.Zhou,A.Khosla,A.Lapedriza,A.Oliva,and A.Torralba,Learning deep features for discriminative localization,2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),Las Vegas,NV,USA,2016,pp.2921-2929,
【非特許文献42】R.R.Selvaraju,M.Cogswell,A.Das,R.Vedantam,D.Parikh,and D.Batra,Grad-cam:Visual explanations from deep networks via gradient-based localization.Proceedings of the IEEE International Conference on Computer Vision (ICCV),Venice,Italy,October 22-29,2017,pp.618-626.
【発明の概要】
【発明が解決しようとする課題】
【0012】
上記した従来方法は、いずれも画像特徴点や画素値ヒストグラム特徴と言った何らかの明示的(言い換えると、人工的なまたは人の取り決めに従うところの)な特微量によるカラーマッチングであると言える。画像間の特徴点の対応付けや、カメラの動き、画像中の局所移動物体によるオクルージョン(隠れ)、ガマット誤差によるアウトライア(外れ)データの影響を回避するための最適化等、何らかの反復や探索の処理を伴うものであった。
【0013】
一方、近年画像から何らの特微量を抽出することなく、特徴量を学習により自動的に獲得する“深層学習(Deep learning)”による方法が大いに注目されている。当初、画像中の物体の認識・識別として注目されたが([非特許文献21][非特許文献22][非特許文献23])、その後、画像中の物体の位置の追跡[非特許文献24]、SLAM[非特許文献25]、3次元点群の位置合わせ[非特許文献26]等のパラメータ推定を伴う、所謂“回帰処理”への適用へも広がっている。深層学習によるカラー画像処理としては、スタイル変換[非特許文献27]、白黒カラー画像変換[非特許文献28]、色恒常性[非特許文献29]等が挙げられる。
【課題を解決するための手段】
【0014】
本発明では、同一シーンを異なる視点から撮影した画像間のカラーマッチングを目的として、深層学習による色補正の自動化を行う。基準となる参照画像と参照画像に色を合わせる入力画像に対して、畳み込みニューラルネットワーク(CNN)により、各々の画像特徴を学習により自動的に獲得する。CNNにより抽出した高次元空間の特徴ベクトルに対して、全結合層回帰処理により、色補正パラメータを推定する。色補正処理は、3次元RGB色空間におけるアフィン/射影/疑似射影/双線形/2次多項式変換を色変換ネットワークとして組み込み、画像入出力によるEnd-to-Endでの学習を行う。疑似多視点画像による学習結果から、ネットワークの予測能力を評価するとともに、CNN特徴マップの重み付け平均から成る回帰活性化マップにより、ネットワーク(AI)におけるカラーマッチングの判断根拠の可視化を行う。好ましくは、評価・確認・可視化までの提案を行う。
【発明の効果】
【0015】
同一シーンを異なる視点から撮影した画像間のカラーマッチングを自動化することができる。畳み込みニューラルネットワーク(CNN)により、画像特徴を事前の学習により自動的に獲得した高次元空間における特徴ベクトルに対するマッチングを行うことから、画像間の幾何学的な位置合わせを行わないだけでなく、何らの明示的な特徴抽出処理が不要となり、効率化が図れる。色補正処理は、画像を直接入力するフィードフォワード型の1パス処理であり、処理の高速化が図れる。
【図面の簡単な説明】
【0016】
図1】参照板(カラーチャート)を撮影して、複数カメラ間の色合わせを行う態様を説明する図である。
図2】カラーチャートを用いずに、同一シーンを異なる視点から撮影した画像間でのカラーマッチング(色合わせ)を説明する図である。
図3】ORB作用素(Oriented FAST and Rotated BRIEF)により抽出した特徴点をマッチングした例を説明する図である。
図4】RGB画素値の3次元プロット例を説明する図であり、(a)が画像中の上枠(1)、下枠(2)内のRGB画素値を3次元プロットする位置を示し、(b)が正規化RGB[0,1]領域に、画素値とそれぞれの誤差の楕円体(信頼区間95%)を表示しており、特徴点を含む上枠(1)領域内には、異なる色が含まれており、RGB画素値の誤差の楕円体が大きいことが示される一方、下枠(2)内のRGB画素値はほぼ均一であり、RGB画素値の誤差の楕円体も小さく、このような領域における“画素値”をデータとして用いることが望ましいことを示す図である。
図5】画像のヒストグラム例を示す図であり、(a)が原画像であり、(b)が1次元輝度ヒストグラムであり、(c)が2次元色差ヒストグラム(3次元プロット)を示しており、(d)が2次元色差ヒストグラムの画像表示(255以上は255にクリップ)を説明する図であり、(e)は1次元RGBヒストグラムを示す図であり、(f)が3次元RGBヒストグラム(ImageJ,An open platform for scientific imageanalysis, https://imagei.net/Welcomeによる表示)を説明する図である。
図6】RGB画素値ヒストグラム点データの3次元プロット例を説明する図であり、(a)はカラー画像例を示し、(b)はカラー画像(a)中の全画素のヒストグラム点データを示す図であって、ヒストグラムのビン数(区間数)を、32×32×32として、各ビン中に含まれる画素値の平均値を表示しているものであるところ、ヒストグラムビン中の画素数が10以下のものは表示していないものであり、(c)は(b)のヒストグラム点データの表面化を説明する図であって、GR(緑赤)平面に直交する法線ベクトルの正方向、すなわち原点からB(青)軸の正方向を見て、最も手前にあるヒストグラム点データを抽出することを説明する図である。
図7】カラーマッチングを行うネットワークの概略ブロック図である。
図8】3次元RGB色空間の幾何学変換モデルを纏めて示す図表であり、丸括弧内は変換モデルの自由度である。
図9】カラーマッチングネットワークの詳細なブロック図である。
図10】畳み込み層の概念図を説明する図である。
図11】2×2周辺画素値の最大値を出力するMax Pooling層の概念図を示すものであり、画像サイズは水平垂直ともに半分のサイズになる。
図12】活性化関数のグラフを説明する図であり、Leaky ReLUにおけるα=0.1としている。
図13】全結合層の概念図を示すものであり、14×14×256chの畳み込み層からの出力をGlobal Average Pooling層により平均化した参照画像、入力画像のそれぞれの256次元ベクトルを結合(Concatenate)した512次元ベクトルを全結合層への入力ベクトルとして、図13においては中間層は3層、出力層のノード数(出力ベクトルの次元数,すなわち色補正パラメータ数に相当)は色変換ネットワーク(CTN)における色変換モデルにより、12/15/21/30である。
図14】3次元アフィン変換の部分モデル群の包含関係を説明する図であり、[非特許文献37]から引用しているものである。
図15】3次元幾何学変換として並進変換から射影変換まで立方体を変換した場合の模式図であり、(a)が並進変換、(b)が剛体変換、(c)が相似変換、(d)がアフィン変換、(e)が射影変換を説明している。
図16】色変換ネットワーク(CTN)によるテスト用画像の予測結果を説明する図であり、恒等変換を除くすべての色変換による入力画像(Iin)の平均ISNR(All(w/o identity))、入力画像(Iin)とその真の教師画像との間のCPSNRinが30dB以下の場合の平均ISNR(CPSNRin<30dB)の結果である。真の教師画像とは、理想的なまたはベストな出力画像(output)であって、求めるべき答えともいうべき出力である。
図17】カラーマッチング画像例(1)を説明する図であり、上段左から順に参照画像(Iref)、色変換を受けた入力画像(Iin)とその原画像(真の教師画像)であり、下段左から順にカラーマッチングネットワークによる予測処理(色補正結果)の1パス処理結果、反復処理結果(反復回数2回目)、そして,反復回数(ite)に対する入力画像とその真の教師画像との間の差分二乗画像のCPSNR[dB]のグラフである。
図18】回帰活性化マッピング(RAM)例(1)を示す図であり、上段左から順に参照画像(Iref)とその回帰活性化マップ、それらの合成画像を示しており、下段は左から順に入力画像(Iin)の場合を示すものである。
図19】カラーマッチング画像例(2)を説明する図であって、上段左から順に参照画像(Iref)、色変換を受けた入力画像(Iin)とその原画像(真の教師画像)であり、下段左から順にカラーマッチングネットワークによる予測処理(色補正結果)の1パス処理結果、反復処理結果(反復回数2回目)、そして、反復回数(ite)に対する入力画像とその真の教師画像との間の差分二乗画像のCPSNR[dB]のグラフである。
図20】回帰活性化マッピング(RAM)例(2)を説明する図であって、上段左から順に参照画像(Iref)とその回帰活性化マップ、それらの合成画像を示しており、下段は左から順に入力画像(Iin)の場合を説明している図である。
図21】カラーマッチング画像例(3)を説明する図であり、上段左から順に参照画像(Iref)、色変換を受けた入力画像(Iin)とその原画像(真の教師画像)であり、下段左から順にカラーマッチングネットワークによる予測処理(色補正結果)の1パス処理結果、反復処理結果(反復回数2回目)、そして、反復回数(ite)に対する入力画像とその真の教師画像との間の差分二乗画像のCPSNR[dB]のグラフを説明しているものである。
図22】回帰活性化マッピング(RAM)例(3)を説明している図であって、上段左から順に参照画像(Iref)とその回帰活性化マップ、それらの合成画像を示しており、下段は左から順に入力画像(Iin)の場合を示している図である。
図23】カラーマッチング画像例(4)を説明している図であって、上段左から順に参照画像(Iref)、色変換を受けた入力画像(Iin)とその原画像(真の教師画像)を示すものであり、下段左から順にカラーマッチングネットワークによる予測処理(色補正結果)の1パス処理結果、反復処理結果(反復回数2回目)、そして、反復回数(ite)に対する入力画像とその真の教師画像との間の差分二乗画像のCPSNR[dB]のグラフを示すものである。
図24】回帰活性化マッピング(RAM)例(4)を示す図であって、上段左から順に参照画像(Iref)とその回帰活性化マップ、それらの合成画像を示しており、下段は左から順に入力画像(Iin)の場合を説明している図である。
図25】カラーマッチング画像例(5)を説明している図であり、上段左から順に参照画像(Iref)、色変換を受けた入力画像(Iin)とその原画像(真の教師画像)を示すものであり、下段は左から順にカラーマッチングネットワークによる予測処理(色補正結果)の1パス処理結果、反復処理結果(反復回数2回目)、そして、反復回数(ite)に対する入力画像とその真の教師画像との間の差分二乗画像のCPSNR[dB]のグラフを示すものである。
図26】回帰活性化マッピング(RAM)例を説明している図であり、上段左から順に参照画像(Iref)とその回帰活性化マップ、それらの合成画像であって、下段は左から順に入力画像(Iin)の場合を示すものである。
【発明を実施するための形態】
【0017】
同一シーンを異なる視点から撮影した画像間のカラーマッチングを目的として、深層学習による色補正の自動化を行うことを提案する。基準となる参照画像と参照画像に色を合わせる入力画像に対して、畳み込みニューラルネットワーク(CNN)により、各々の画像特徴を学習により自動的に獲得する。CNNにより抽出した高次元空間の特徴ベクトルに対して、全結合層回帰処理により、色補正パラメータを推定する。色補正処理は、3次元RGB色空間におけるアフィン/射影/疑似射影/双線形/2次多項式変換を色変換ネットワークとして組み込み、画像入出力によるEnd-to-Endでの学習を行う。何らの前処理や画像間の幾何学的な位置合わせを行わないだけでなく、SIFT作用素等による画像特徴点、ヒストグラム特徴等の明示的な特微量の抽出も不要である。疑似多視点画像による学習結果から、ネットワークの予測能力を評価するとともに、CNN特徴マップの重み付け平均から或る回帰活性化マップにより、ネットワークにおけるカラーマッチングの判断根拠の可視化を行うことを提案する。
【0018】
また、このような方法や装置を構成・構築するための新規な特徴的技術思想として、
・同一シーンを異なる視点から撮影した画像間のカラーマッチングにおいて、畳み込みニューラルネットワークから計算される高次元空間における特徴ベクトルをマッチングさせることにより自動化を行う。
・畳み込みニューラルネットワークから計算される画像の高次元空間における特徴ベクトルに対して、全結合層回帰処理により、色補正パラメータの推定を行う。
・入力画像の色補正処理には、3次元RGB色空間におけるアフィン/射影/疑似射影/双線形/2次多項式変換を計算する色変換ネットワーク(Color Transformer Networks,CTN)を組み込んで用いる。
・すべての処理は、画像を入出力とする事前のEnd-to-End学習の結果に基づいて行われ、学習処理自体の効率化も図られる。
・すべての処理は、畳み込みニューラルネットワークから計算される高次元空間における特徴ベクトルのマッチングであり、画像間の幾何学的な位置合わせを行わないだけでなく、SIFT作用素等の画像特徴点、画素値ヒストグラム特徴量等の何らの明示的な特徴抽出処理を必要としない。
・畳み込み層ネットワークの特徴マップ出力の重み付け平均から成る全結合層回帰ネットワークのカラーマッチング処理結果の判断根拠を回帰活性化マップにより可視化する。
などを挙げることができる。
【0019】
また、本発明の実施にあたり重要な要素技術としては、
・基準となる参照画像と参照画像に色合わせをする入力画像の2つの画像を入力するシャム(ツイン)ネットワーク構成の畳み込み層、
・各畳み込み層の出力部に配置した非線形活性化関数ReLU、
・畳み込み層の結果の特徴マップにおける近傍画素値の最大値を出力することにより画素を間引くMax Pooling層、
・最終的な畳み込み層の結果の特徴マップ毎のすべての画素値の平均値を出力するGlobal Average Pooling層、
・参照画像のGlobal Average Pooling 層の結果と入力画像のGlobal Average Pooling層の結果を結合する結合層、
・参照画像と入力画像の結合層の結果を処理して、入力画像のための色補正パラメータを推定するための全結合層による回帰ネットワーク、
・全結合層回帰ネットワークにおける各全結合層の出力部に配置した非線形活性化関数Leaky ReLU、
・全結合層回帰ネットワークにおける各全結合層の非線形活性化関数の出力部に配置したDropout 層、
・全結合層回帰ネットワークにより推定された入力画像の色補正パラメータを受けて、入力画像を色補正処理する色変換ネットワーク(Color Transformer Networks,CTN)、
・色補正処理を行った色変換ネットワークの出力を[0,1]クリップするクリップ処理、
・学習処理に用いる訓練用画像、検証用画像、テスト用画像とその生成方法、
・畳み込み層ネットワークの特徴マップ出力の重み付け平均から成る全結合層回帰ネットワークの回帰活性化マップとその生成方法、
等が挙げられる。
【0020】
実現方法としては、ベースバンドビデオ信号を処理するハードウェア装置により実現することも可能であるし、MXF(Material Exchange Format)ファイルを処理するソフトウェアおよびそれを実行するコンピュータをベースとした装置により実現することも可能であるし、MXFファイルをベースバンドビデオ信号に変換、あるいは逆変換する装置を用いれば、いかなる構成による実現も可能である。カメラ映像を動画像圧縮したもの、あるいはMXFファイルをIP(インターネット・プロトコル)伝送して、クラウド上で処理を行うことも可能である。IP伝送された圧縮映像をベースバンドビデオ信号に復号して、色補正処理を行った結果を再び圧縮してストリーム配信する等、様々なシステム形態への展開が考えられる。特に、訓練用画像を用いた事前の学習処理をクラウドサーバー上で行った結果の学習済みネットワークモデルを実際の色補正処理を行うエッジデバイス側へ転送すれば、クラウドサーバー/エッジデバイス双方のバランスを考慮した最適な色補正処理システムが構築できる。
【0021】
また、更には、異なる視点から同一シーンを撮影した画像間において、カラーマッチングネットワークにより推定した色補正パラメータを用いて、3次元ルックアップテーブル(3DLUT)を生成すれば、ソフトウェア/ハードウェアのいずれも色補正処理の更なる高速化が図れる。カラーマッチングネットワーク自体はフィードフォワード型の1パス処理であるが、この処理出力を入力に戻すリカレント構成とすることにより、さらなる高精度な色補正処理結果が得られることが期待される。リカレント構成による反復処理結果の内容を3DLUTに合成してまとめることにより、1パス処理化も可能であり、高精度かつ高速な処理が期待される。高解像度な画像の場合、画像を縮小処理したサムネイル画像にて推定した色補正パラメータを元の解像度の画像に用いれば、いかなる解像度の画像にも対応することが可能となる。縮小したサムネイル画像をクラウドサーバーに転送して、クラウドサーバーにて推定した色補正パラメータの結果を実際に色補正を行うエッジデバイスへ転送しても良い。
【0022】
[カラーマッチングネットワーク]
図7]はカラーマッチングを行うネットワークの概略ブロック図である。基準となる参照画像Irefに入力画像Iinの色を合わせる。(典型的には、IrefにはAカメラ映像を入力して、IinにはをBカメラ映像を入力してBカメラ映像をAカメラ映像にマッチングさせるものとする)参照画像、入力画像をそれぞれ特徴抽出のための畳み込みニューラルネットワーク(Base CNN)に入力する。特徴抽出のためのCNNは、いずれも画像サイズを224×224×3chとした[0,1]正規化したRGBカラー画像を入力する。畳み込み層の重みは、すべて3×3としたシャム(ツイン)ネットワーク[非特許文献30]構成であり、参照画像と入力画像のための重みは共有されている。畳み込み層における活性化関数はすべてReLU[非特許文献31]とした。
【0023】
シャム(ツイン)ネットワーク構成のCNNから抽出された参照画像と入力画像の画像特徴は、最終的に14×14×256chの特徴マップとなり、それらをGlobal Average Pooling(GAP)層[非特許文献32]により各256次元ベクトル(256次元の特徴ベクトル)としたものを結合(Concatenate)した512次元ベクトルを全結合層による回帰ネットワーク(Fully Connected Regressor)に入力して、色補正パラメータを推定する。推定された色補正パラメータは入力画像を色補正する“色変換ネットワーク(Color Transformer Networks,CTN)”に入力されて色補正処理がなされる。CTNの出力は[0,1]クリップ処理(Clip)されて、最終的な色補正画像Ioutとして出力される。全結合層における活性化関数はReLUではなく、Leaky ReLU[非特許文献33]を用いることにより、学習の停滞を回避した。また、過学習を回避するためにGAP層の前段と全結合層には、Dropout層[非特許文献34]を挿入した。[図9]にカラーマッチングネットワークの詳細なブロック図を示す。
【0024】
図9は、カラーマッチングネットワークの詳細ブロック図であり、Keras(https://keras.io/)+TensorFlow(https://www.tensorflow.org/)におけるplot_modelコマンドにより生成しており、図9(a)が特徴抽出畳み込みネットワークを示し、各ブロック中のinput,outputにおける、例えば(None,28,28,256)は、それぞれ、(B,H,W,C)に相当するものであり、Bはバッチサイズ、Hは画像の垂直サイズ、Wは画像の水平サイズ、Cは画像のチャネルサイズ(特徴マップ数)を示すものである。また、図9(b)は畳み込みネットワークのシャム(ツイン)ネットワーク構成(赤枠)+全結合層回帰+アフィン色変換ネットワーク(青枠)を示している。
【0025】
[3次元幾何学変換による色補正]
[3次元射影変換]
【0026】
【数1】
【0027】
[3次元疑似射影変換]
3次元射影変換の式[数3]の分母分子に1-(h41r+h42g+h43b)を掛けて、パラメータ同士の積を0とする近似を行うと、
【0028】
【数2】
【0029】
カメラの内部では、“リニアマトリクス処理”と呼ばれるRGB混合処理が行われているが、これは、3次元アフィン変換により一般化される。アフィン変換による色変換の結果、“ガマット誤差[非特許文献36]”が生じる可能性がある。ガマット誤差が生じた場合、出力をクリップして色空間内に収めると、色変換パラメータとその逆変換である色補正パラメータの関係は厳密には成立しなくなる。
【0030】
カラーマッチングのためには、アフィン変換よりも高い自由度を持つ色補正モデルが必要である[非特許文献3]、[非特許文献4]。3次元アフィン変換の自由度(すなわちパラメータ)は12である。そこで、本発明では、アフィン変換よりも自由度の高い3次元射影変換、疑似射影変換、双線形変換、2次多項式変換による色補正も用いる(2次多項式変換は[非特許文献3]、[非特許文献4]参照)。[図8]は、3次元RGB色空間の幾何学変換モデルを纏めて示す図表であり、丸括弧内は変換モデルの自由度である。
【0031】
カラーマッチングネットワークには、全結合層回帰ネットワークにより推定された入力画像の色補正パラメータを受けて、入力画像を色補正処理する色変換ネットワーク(Color Transformer Networks,CTN)として組み込まれる。
【0032】
[畳み込み層]
【0033】
【数3】
【0034】
図10は、畳み込み層の概念図を説明する図である。
【0035】
[Max Pooling層]
畳み込み層を何段か接続した後、Max Pooling層により、例えば、2×2周辺画素値の最大値を出力することにより、画素を間引いた縮小画像とする。[図11]は、2×2周辺画素値の最大値を出力するMax Pooling層の概念図を示すものであり、画像サイズは水平垂直ともに半分のサイズになる。
【0036】
非線形活性化関数は、各畳み込み層の出力部にはReLUを配置し、全結合層回帰ネットワークにおける各全結合層の出力部にはLeaky ReLUを配置する。図12は、活性化関数のグラフを説明する図であり、Leaky ReLUにおけるα=0.1としている。
【0037】
[全結合層]
【0038】
【数4】
【0039】
図13に示す全結合層の概念図において、14×14×256chの畳み込み層からの出力をGlobal Average Pooling層により平均化した参照画像、入力画像のそれぞれの256次元ベクトルを結合(Concatenate)した512次元ベクトルを全結合層への入力ベクトルとして、図13においては中間層は3層、出力層のノード数(出力ベクトルの次元数,すなわち色補正パラメータ数に相当)は色変換ネットワーク(CTN)における色変換モデルにより、12/15/21/30である。
【0040】
[Dropout層]
Dropout層は与えられた確率で、ランダムに入力要素をゼロにするものであり、これによって、訓練用画像データに過剰に適合すること(“過学習”)を抑制する。全結合層の入力層、中間層の各層の後に挿入した。
【0041】
[画像シミュレーション]
[訓練用画像の生成]
擬似多視点画像とは、同一画像を幾何学変換することにより生成したものであり、画像中央矩形領域を参照画像として、その4頂点の画素座標に正規乱数を加えて平面射影変換を計算する。そして、計算した射影変換により生成した変換画像の中央矩形領域を切り出したものを真の教師画像として、色変換したものを訓練用画像として用いる。
【0042】
遠方のシーンをズームにより撮影する場合には、平面と見なせるため、平面射影変換により近似ができて、擬似的な多視点画像による評価は十分実用的である。色変換には、次の[数5]に示す9通りの場合の変換を考える。
【0043】
【数5】
【0044】
これら3次元アフィン変換の部分モデル群の包含関係を[図14]に示す。[図15]は、3次元幾何学変換として、並進変換から射影変換まで、立方体を変換した場合の模式図である。
【0045】
例えば、相似変換は次のように定義する。平均0、標準偏差5×10-2の正規乱数により生成した3×3行列を単位行列に加算する。そのような行列をアフィン変換行列における左上3×3行列として、極分解により、直交行列と半正値対称行列の積に分解して、直交行列を回転行列Rとする。スケールsを平均1、標準偏差1×10-2の正規乱数、並進ベクトルtを平均0、標準偏差5×10-2の正規乱数により生成して、最終的な相似変換とする。学習におけるRGB画素値は[0,1]正規化されている。ただし、色変換画像における総画素数に対するガマット誤差画素数の割合が20%以下になるように選ぶものとする。
【0046】
[損失関数と最適化]
【0047】
【数6】
【0048】
訓練用画像とは異なるランダムに20枚選んだ基準となる原画像から、訓練用画像と同様にして、1枚に付き200枚の色変換画像を生成した合計4,000枚を検証用画像として、学習率等のハイパーパラメータの調整に用いた。
【0049】
さらに、訓練用画像、検証用画像とは異なるテスト用画像4,000枚による評価損失(平均二乗誤差)が最小となる結果を最良のモデルとして選んだ。
【0050】
[結果]
【0051】
【数7】
【0052】
図16は、色変換ネットワーク(CTN)によるテスト用画像の予測結果を説明する図であり、恒等変換を除くすべての色変換による入力画像(Iin)の平均ISNR(All(w/o identity))、入力画像(Iin)とその真の教師画像との間のCPSNRinが30dB以下の場合の平均ISNR(CPSNRin<30dB)の結果である。真の教師画像とは、理想的なまたはベストな出力画像(output)であって、求めるべき答えともいうべき出力である。
【0053】
図17は、カラーマッチング画像例(1)を説明する図であり、上段左から順に参照画像(Iref)、色変換を受けた入力画像(Iin)とその原画像(真の教師画像)であり、下段左から順にカラーマッチングネットワークによる予測処理(色補正結果)の1パス処理結果、反復処理結果(反復回数2回目)、そして,反復回数(ite)に対する入力画像とその真の教師画像との間の差分二乗画像のCPSNR[dB]のグラフである。
【0054】
図16に示す結果は、同じ訓練用画像を用いたCTNモデル毎の6回の学習における入力画像とその真の教師画像との間のCPSNRが30dB以下の場合の平均ISNRが最良の結果を選んだ。All(w/o identity)の結果は、いずれのCTNのモデルも平均ISNRは3dB程度であるが、CPSNRin<30dBは、10dBを越える結果のものもあり、疑似射影変換モデルが最良であった。アフィン変換とその部分モデル群による色変換のため、ガマット誤差の影響から、アフィン変換による色補正結果は最も低かった。入力画像とその真の教師画像との間のCPSNRが30dB以上の場合、すなわち、色の変化が小さい場合には、ISNRがほぼ変わらないか、僅かに負値を取る場合があるため、平均ISNRが減少している。
【0055】
また、図17は、カラーマッチングネットワークによる予測処理結果の画像例である。上段左から参照画像(Iref)、色変換を受けた入力画像(Iin)とその原画像(真の教師画像)であり、下段左からカラーマッチングネットワークによる予測処理(色補正結果)の1パス処理結果、反復処理結果(反復回数2回目)、そして、反復回数(ite)に対する入力画像とその真の教師画像との間の差分二乗画像のCPSNR[dB]のグラフである。CTNモデルには疑似射影変換のネットワークモデルを用いた。反復処理を行う場合の反復回数は2回程度で十分である。それ以上反復すると過学習により、逆に悪くなる傾向が見られた。
【0056】
また、図18は、回帰活性化マッピング(RAM)例(1)を示す図であり、上段左から順に参照画像(Iref)とその回帰活性化マップ、それらの合成画像を示しており、下段は左から順に入力画像(Iin)の場合を示すものである。
【0057】
[CNNは画像のどこを見て色を合わせているのか?]
【0058】
【数8】
【0059】
また、図19は、カラーマッチング画像例(2)を説明する図であって、上段左から順に参照画像(Iref)、色変換を受けた入力画像(Iin)とその原画像(真の教師画像)であり、下段左から順にカラーマッチングネットワークによる予測処理(色補正結果)の1パス処理結果、反復処理結果(反復回数2回目)、そして、反復回数(ite)に対する入力画像とその真の教師画像との間の差分二乗画像のCPSNR[dB]のグラフである。
【0060】
また、図20は、回帰活性化マッピング(RAM)例(2)を説明する図であって、上段左から順に参照画像(Iref)とその回帰活性化マップ、それらの合成画像を示しており、下段は左から順に入力画像(Iin)の場合を説明している図である。
【0061】
また、図21は、カラーマッチング画像例(3)を説明する図であり、上段左から順に参照画像(Iref)、色変換を受けた入力画像(Iin)とその原画像(真の教師画像)であり、下段左から順にカラーマッチングネットワークによる予測処理(色補正結果)の1パス処理結果、反復処理結果(反復回数2回目)、そして、反復回数(ite)に対する入力画像とその真の教師画像との間の差分二乗画像のCPSNR[dB]のグラフを説明しているものである。
【0062】
また、図22は、回帰活性化マッピング(RAM)例(3)を説明している図であって、上段左から順に参照画像(Iref)とその回帰活性化マップ、それらの合成画像を示しており、下段は左から順に入力画像(Iin)の場合を示している図である。
【0063】
また、図23は、カラーマッチング画像例(4)を説明している図であって、上段左から順に参照画像(Iref)、色変換を受けた入力画像(Iin)とその原画像(真の教師画像)を示すものであり、下段左から順にカラーマッチングネットワークによる予測処理(色補正結果)の1パス処理結果、反復処理結果(反復回数2回目)、そして、反復回数(ite)に対する入力画像とその真の教師画像との間の差分二乗画像のCPSNR[dB]のグラフを示すものである。
【0064】
また、図24は、回帰活性化マッピング(RAM)例(4)を示す図であって、上段左から順に参照画像(Iref)とその回帰活性化マップ、それらの合成画像を示しており、下段は左から順に入力画像(Iin)の場合を説明している図である。
【0065】
また、図25は、カラーマッチング画像例(5)を説明している図であり、上段左から順に参照画像(Iref)、色変換を受けた入力画像(Iin)とその原画像(真の教師画像)を示すものであり、下段は左から順にカラーマッチングネットワークによる予測処理(色補正結果)の1パス処理結果、反復処理結果(反復回数2回目)、そして、反復回数(ite)に対する入力画像とその真の教師画像との間の差分二乗画像のCPSNR[dB]のグラフを示すものである。
【0066】
また、図26は、回帰活性化マッピング(RAM)例を説明している図であり、上段左から順に参照画像(Iref)とその回帰活性化マップ、それらの合成画像であって、下段は左から順に入力画像(Iin)の場合を示すものである。
【0067】
上述の実施形態で説明した開示内容は、その具体的な説明実例に限定されるものではなく、本発明の技術思想の範囲内において、当業者の知り得る公知技術または周知技術を適宜適用して、または/およびアレンジして、利用することが可能である。
【産業上の利用可能性】
【0068】
本発明は、映像機器全般、特に、映像制作に用いられる色調整作業を伴う業務用映像機器や各種カメラやテレビ受像機・映像録画再生機等における様々な映像機器等にも好適である。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24
図25
図26