(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-02-25
(45)【発行日】2025-03-05
(54)【発明の名称】カラー画像補完方法及びニューラルネットワーク学習方法
(51)【国際特許分類】
H04N 23/10 20230101AFI20250226BHJP
G06T 1/40 20060101ALI20250226BHJP
G06N 3/09 20230101ALI20250226BHJP
H04N 23/60 20230101ALI20250226BHJP
H04N 25/10 20230101ALI20250226BHJP
【FI】
H04N23/10
G06T1/40
G06N3/09
H04N23/60 500
H04N25/10
(21)【出願番号】P 2022510634
(86)(22)【出願日】2021-03-24
(86)【国際出願番号】 JP2021012428
(87)【国際公開番号】W WO2021193779
(87)【国際公開日】2021-09-30
【審査請求日】2024-02-15
(32)【優先日】2020-03-27
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】514315159
【氏名又は名称】株式会社ソシオネクスト
(74)【代理人】
【識別番号】100189430
【氏名又は名称】吉川 修一
(74)【代理人】
【識別番号】100190805
【氏名又は名称】傍島 正朗
(72)【発明者】
【氏名】笹川 幸宏
【審査官】小野 博之
(56)【参考文献】
【文献】特開2018-207497(JP,A)
【文献】特開2007-233833(JP,A)
【文献】特開2020-030681(JP,A)
【文献】特開2020-042367(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 5/222-5/257
5/30-5/33
9/01-9/11
23/00
23/10
23/11
23/12-23/17
23/20-23/30
23/40-23/76
23/90-23/959
25/00
25/10-25/17
25/20-25/79
G06T 1/40
G06N 3/09
(57)【特許請求の範囲】
【請求項1】
画像情報が欠落した箇所である欠落部分を含む、被認識対象物のカラー画像を取得するカラー画像取得ステップと、
前記被認識対象物の赤外線画像を取得し、処理用赤外線画像を生成する赤外線画像取得ステップと、
前記カラー画像における前記欠落部分を特定する欠落部分特定ステップと、
前記カラー画像に対して、前記欠落部分特定ステップで特定された前記欠落部分を補完する補完ステップとを含み、
前記欠落部分特定ステップでは、前記カラー画像における前記欠落部分を示すマップデータであるマスクを生成するマスク生成部により、前記カラー画像取得ステップで取得された前記カラー画像から、前記カラー画像の彩度及び/又は輝度が低い領域ほど大きくなる第1の重みを算出し、前記赤外線画像取得ステップで取得された前記赤外線画像に対して前記カラー画像取得ステップで取得された前記カラー画像のコントラスト及び/又はシャープネスが低い領域の値が大きくなる第2の重みを算出し、算出した第1の重み及び算出した第2の重みの加重和を用いて、欠落部分を示すマップを生成し、
前記赤外線画像取得ステップでは、前記赤外線画像の高周波成分を抽出した画像を前記処理用赤外線画像として生成し、
前記補完ステップでは、学習用カラー画像と前記学習用カラー画像に対応する学習用赤外線画像から高周波成分を抜き出した学習用処理用赤外線画像と学習用欠落部分情報とを用い、前記学習用カラー画像と前記学習用欠落部分情報とから生成した学習用欠落部分ありカラー画像と前記学習用処理用赤外線画像とから、元の前記学習用カラー画像を推論するように学習させた推論エンジンを使用して、前記欠落部分を補完するものであって、
前記カラー画像取得ステップで取得された前記カラー画像に対して、前記マスク生成部で生成された前記マスクを用いて、マスク処理を施すマスク演算部により、マスク済みカラー画像を生成し、前記マスク演算部で生成された前記マスク済みカラー画像と、前記処理用赤外線画像とを結合部により結合して前記推論エンジンの入力層に出力し、前記推論エンジンが、前記欠落部分を含む前記マスク済みカラー画像から、前記欠落部分がカラー画像で補完された補完後カラー画像を生成する、
カラー画像補完方法。
【請求項2】
画像情報が欠落した箇所である欠落部分を含む、被認識対象物のカラー画像を取得するカラー画像取得ステップと、
前記被認識対象物の赤外線画像を取得し、処理用赤外線画像を生成する赤外線画像取得ステップと、
前記カラー画像における前記欠落部分を特定する欠落部分特定ステップと、
前記カラー画像に対して、前記欠落部分特定ステップで特定された前記欠落部分を補完する補完ステップとを含み、
前記欠落部分特定ステップでは、前記カラー画像における前記欠落部分を示すマップデータであるマスクを生成するマスク生成部により、前記カラー画像取得ステップで取得された前記カラー画像から、前記カラー画像の彩度及び/又は輝度が低い領域ほど大きくなる第1の重みを算出し、前記赤外線画像取得ステップで取得された前記赤外線画像に対して前記カラー画像取得ステップで取得された前記カラー画像のコントラスト及び/又はシャープネスが低い領域の値が大きくなる第2の重みを算出し、算出した第1の重み及び算出した第2の重みの加重和を用いて、欠落部分を示すマップを生成し、
前記赤外線画像取得ステップでは、前記赤外線画像をそのまま前記処理用赤外線画像として生成し、
前記補完ステップでは、学習用カラー画像と前記学習用カラー画像に対応する学習用赤外線画像と学習用欠落部分情報とを用い、前記学習用カラー画像と前記学習用欠落部分情報とから生成した学習用欠落部分ありカラー画像と前記学習用赤外線画像とから、元の前記学習用カラー画像を推論するように学習させた推論エンジンを使用して、前記欠落部分を補完するものであって、
前記カラー画像取得ステップで取得された前記カラー画像に対して、前記マスク生成部で生成された前記マスクを用いて、マスク処理を施すマスク演算部により、マスク済みカラー画像を生成し、前記マスク演算部で生成された前記マスク済みカラー画像と、前記処理用赤外線画像とを結合部により結合して、前記推論エンジンの入力層に出力し、前記推論エンジンが、前記欠落部分を含む前記マスク済みカラー画像から、前記欠落部分がカラー画像で補完された補完後カラー画像を生成する、
カラー画像補完方法。
【請求項3】
画像情報が欠落した箇所である欠落部分を含む、被認識対象物の
欠落ありカラー画像から、前記欠落部分を補完した前記被認識対象物の
欠落なしカラー画像を推論するニューラルネットワーク学習方法であって、
前記被認識対象物の
欠落なしカラー画像を準備するカラー画像準備ステップと、
前記被認識対象物の処理用赤外線画像を準備する赤外線画像準備ステップと、
前記欠落部分を示す欠落部分情報を準備する欠落部分情報準備ステップと、
前記
欠落なしカラー画像を前記欠落部分情報でマスクすることによって、前記欠落部分を含むカラー画像であるマスク済カラー画像を準備するマスク済カラー画像準備ステップと、
前記マスク済カラー画像、前記処理用赤外線画像及び前記欠落部分情報を前記ニューラルネットワークに入力し、前記カラー画像準備ステップで準備した前記
欠落なしカラー画像を教師データとして、前記ニューラルネットワークを学習させる学習ステップとを含む、
ニューラルネットワーク学習方法。
【請求項4】
前記赤外線画像準備ステップでは、前記被認識対象物を赤外線カメラで撮影することによって、前記処理用赤外線画像を準備する、
請求項
3記載のニューラルネットワーク学習方法。
【請求項5】
前記赤外線画像準備ステップでは、前記
欠落なしカラー画像からグレースケール画像を生成し、さらに前記グレースケール画像の高周波成分を抽出することによって、前記処理用赤外線画像を生成する、
請求項
3記載のニューラルネットワーク学習方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、カラー画像補完方法及びニューラルネットワーク学習方法に関し、カラー画像の欠落部分を補完する画像処理に関する。
【背景技術】
【0002】
車両のドライバに起因する交通事故を防ぐために、ドライバの状況、体調などを監視し、ドライバに気づき及び警告を促すシステムが考案されている。例えば、車内カメラでドライバの視線検出を行い、居眠り検出を行っている。ところが、一般的なカメラより得られるカラー画像を用いたシステムでは、対向車のヘッドライトの影響や、ドライバがサングラスを着用していること等により、カラー画像に欠落分が発生し、そのために、ドライバの視線を確認できない場合がある。
【0003】
そこで、従来、カメラで得られたカラー画像の欠落部分を補完する技術が提案されている(例えば、非特許文献1~3参照)。
【0004】
非特許文献1、2では、同一対象物に対する撮影で得られたカラー画像と赤外線画像のコントラスト等の特徴を比較して重みパラメータを生成し、その重みパラメータを用いカラー画像と赤外線画像とを合成することでエッジ成分やコントラストの画像補正を行っている。
【0005】
また、非特許文献3では、カラー画像に対して意図的にノイズ(つまり、マスク)を導入し、ノイズが導入されたカラー画像から元のカラー画像を復元するように機械学習させた推論エンジンを用いることで、カラー画像における欠落部分を周囲の情報から補完している。
【0006】
なお、本明細書において、カラー画像とは、赤色、青色及び緑色の画素をもつイメージセンサで得られる画像であり、RGB画像とも呼ばれる。また、赤外線画像とは、赤外線に感応する画素をもつイメージセンサで得られる画像であり、Ir画像とも呼ばれる。欠落部分とは、画像情報が欠落した箇所である。また、本明細書では、「機械学習」を、単に「学習」ともいう。
【先行技術文献】
【非特許文献】
【0007】
【文献】Xiaopeng Zhang, et.al., “Enhancing photographs with Near Infra-Red images”, 2008 IEEE Conference on Computer Vision and Pattern Recognition (https://ieeexplore.ieee.org/document/4587825)
【文献】Ahmed Elliethy, et.al., “Fast near infrared fusion-based adaptive enhancement of visible images”, 2017 IEEE Global Conference on Signal and Information Processing (GlobalSIP) (https://ieeexplore.ieee.org/document/8308623)
【文献】Guilin Liu, et.al., “Image Inpainting for Irregular Holes Using Partial Convolutions”, ECCV 2018 (https://rd.springer.com/chapter/10.1007/978-3-030-01252-6_6)
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、非特許文献1、2の技術では、カラー画像の欠落部分に対して、単に、赤外線画像を用いて補完するために、赤外線画像から得られない色情報については補完されない。そのために、ドライバのサングラスで隠れた部分が補完されても、目の充血具合、ドライバの顔色(酒気帯びの有無)等までは、判別できないという問題がある。
【0009】
また、非特許文献3の技術では、学習で得られた知識を元に、カラー画像における欠落部分の周囲の画像情報から欠落部分を補完するために、完全に隠れた箇所を補完した場合には、全く別の画像になってしまう。そのために、ドライバのサングラスで完全に隠れた両眼を補完した場合には、別人の両眼に補完されてしまう。
【0010】
そこで、本開示は、従来よりも高い精度でカラー画像の欠落部分を補完できるカラー画像補完方法及びニューラルネットワーク学習方法を提供することを目的とする。
【課題を解決するための手段】
【0011】
上記目的を達成するために、本開示の一形態に係るカラー画像補完方法は、画像情報が欠落した箇所である欠落部分を含む、被認識対象物のカラー画像を取得するカラー画像取得ステップと、前記被認識対象物の赤外線画像を取得し、処理用赤外線画像を生成する赤外線画像取得ステップと、前記カラー画像における前記欠落部分を特定する欠落部分特定ステップと、前記カラー画像に対して、前記欠落部分特定ステップで特定された前記欠落部分を補完する補完ステップとを含み、前記補完ステップでは、前記欠落部分に対応する前記処理用赤外線画像の情報を用いて、前記欠落部分をカラー画像で補完する。
【0012】
上記目的を達成するために、本開示の一形態に係るニューラルネットワーク学習方法は、画像情報が欠落した箇所である欠落部分を含む、被認識対象物のカラー画像から、前記欠落部分を補完した前記被認識対象物のカラー画像を推論するニューラルネットワーク学習方法であって、前記被認識対象物のカラー画像を準備するカラー画像準備ステップと、前記被認識対象物の処理用赤外線画像を準備する赤外線画像準備ステップと、前記欠落部分を示す欠落部分情報を準備する欠落部分情報準備ステップと、前記カラー画像を前記欠落部分情報でマスクすることによって、前記欠落部分を含むカラー画像であるマスク済カラー画像を準備するマスク済カラー画像準備ステップと、前記マスク済カラー画像、前記処理用赤外線画像及び前記欠落部分情報を前記ニューラルネットワークに入力し、前記カラー画像準備ステップで準備した前記カラー画像を教師データとして、前記ニューラルネットワークを学習させる学習ステップとを含む。
【発明の効果】
【0013】
本開示によれば、従来よりも高い精度でカラー画像の欠落部分を補完できるカラー画像補完方法及びニューラルネットワーク学習方法が提供される。
【図面の簡単な説明】
【0014】
【
図1】
図1は、実施の形態に係るカラー画像補完装置の構成を示すブロック図である。
【
図2】
図2は、実施の形態に係るカラー画像補完装置の動作を示すフローチャートである。
【
図3】
図3は、実施の形態に係るカラー画像補完装置が備える推論エンジンを学習させるニューラルネットワーク学習装置の構成を示すブロック図である。
【
図4】
図4は、実施の形態に係るニューラルネットワーク学習装置の動作を示すフローチャートである。
【
図5】
図5は、実験において、推論エンジンの学習に用いた、同一の被認識対象物についてのカラー画像(
図5の(a))及び疑似赤外線画像としてのグレースケール画像(
図5の(b))の例を示す図である。
【
図6】
図6は、実験において、
図5に示される画像を用いた学習を終えたカラー画像補完装置による補完例を示す図ある。
【
図7】
図7は、比較例に係るカラー画像補完方法による補完例を示す図である。
【
図8】
図8は、実施の形態の第1変形例に係るニューラルネットワーク学習装置の構成を示すブロック図である。
【
図9】
図9は、実施の形態の第2変形例に係るニューラルネットワーク学習装置の構成を示すブロック図である。
【発明を実施するための形態】
【0015】
以下、本開示の実施の形態について、図面を用いて詳細に説明する。なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示す。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序等は、一例であり、本開示を限定する主旨ではない。また、各図は、必ずしも厳密に図示したものではない。各図において、実質的に同一の構成については同一の符号を付し、重複する説明は省略又は簡略化する。
【0016】
図1は、実施の形態に係るカラー画像補完装置10の構成を示すブロック図である。カラー画像補完装置10は、欠落部分を含む被認識対象物のカラー画像における欠落部分をカラー画像で補完する装置であり、カラー画像取得部11、赤外線画像取得部12、マスク生成部13、マスク演算部14、フィルタ部15、結合部16、及び、推論エンジン20を備える。なお、カラー画像補完装置10は、典型的には、プロセッサによって実行されるプログラムによって実現される。そのプログラムは、コンピュータ読み取り可能なDVD等の非一時的な記録媒体に格納され得る。
【0017】
カラー画像取得部11は、欠落部分を含む被認識対象物についてのカラー画像を取得する。例えば、カラー画像取得部11は、RGBイメージセンサをもつカメラから、あるいは、ハードディスク等の補助記憶装置から、カラー画像を取得する。なお、欠落部分は、画像情報が欠落した箇所であり、異物(例えば、被写体を覆うサングラスやレンズに付着した埃)の映り込み、露出ムラに伴う白飛びや黒つぶれ、RGBイメージセンサの一部の欠陥により所望の画像が得られない部分等を含む。
【0018】
赤外線画像取得部12は、カラー画像取得部11が取得したカラー画像における被認識対象物と同一の被認識対象物についての赤外線画像を取得する。例えば、カラー画像取得部11は、Irイメージセンサをもつカメラから、あるいは、ハードディスク等の補助記憶装置から、赤外線画像を取得する。なお、赤外線画像には、例えば、サングラスで隠れた目の輪郭等、カラー画像では得られない情報が含まれる。
【0019】
マスク生成部13は、カラー画像取得部11で取得されたカラー画像、及び、赤外線画像取得部12で取得された赤外線画像から、カラー画像における欠落部分を示すマップデータであるマスクを生成する。このとき、マスク生成部13は、カラー画像の彩度及び輝度の少なくとも一方、及び、カラー画像に対する赤外線のコントラスト及びシャープネスの少なくとも一方を考慮してマスクを生成する。
【0020】
より詳しくは、マスク生成部13は、下記式1に示されるように、カラー画像取得部11で取得されたカラー画像から、彩度と輝度が低い領域ほど大きくなる重みWを算出する。
【0021】
【0022】
ここで、s(x)、v(x)は、それぞれ、カラー画像の座標xにおける彩度及び輝度であり、ps(s(x))、pv(v(x))は、それぞれ、彩度及び輝度のヒストグラムから得られる頻度である。
【0023】
そして、マスク生成部13は、下記式2に示されるように、赤外線画像取得部12で取得された赤外線画像に対してカラー画像取得部11で取得されたカラー画像のコントラスト及びシャープネスが低い領域の値が大きくなる重みFを算出する。
【0024】
【0025】
ここで、INIR(x)は、赤外線画像の座標xにおける輝度である。IRGB_Y(x)=v(x)である。
【0026】
そして、マスク生成部13は、上記式1で算出した重みW及び上記式2で算出した重みFから、下記式3のように、それらの加重和そのもの、あるいは、下記式4のように、加重和が一定値以上になったときに有効である(つまり、欠落部分である)ことを示すマップMを生成する。
【0027】
【0028】
【0029】
マスク演算部14は、カラー画像取得部11で取得されたカラー画像に対して、マスク生成部13で生成されたマスクを用いて、マスク処理を施すことで、マスク済みカラー画像を生成する。マスク済みカラー画像は、例えば、マスクされた欠落部分の画素値がゼロ(黒色)であり、欠落部分以外の画素値が元のカラー画像のままであるカラー画像である。
【0030】
フィルタ部15は、赤外線画像取得部12で取得された赤外線画像に対して、高周波成分を抽出し、抽出した高周波成分の画像を、処理用赤外線画像として生成する。赤外線画像の高周波成分を抽出するのは、カラー画像との相関が高い情報を取得するためである。フィルタ部15は、具体的には、事前の設定に応じて、LoG(Laplacian Of Gaussian)フィルタと呼ばれる、ガウシアンフィルタとラプラシアンフィルタとを組み合わせたフィルタ処理、あるいは、DoG(Difference Of Gaussian)フィルタと呼ばれる標準偏差σの値が異なる2つガウシアンフィルタ画像の差分画像(DoG画像)を作成するフィルタ処理を施す。なお、LoGフィルタでは、ガウシアンフィルタで画像を平滑化してノイズを低減した後、ラプラシアンフィルタで輪郭を取り出す。ラプラシアンフィルタは二次微分の働きをするため、ノイズが強調されやすいという特徴がある。一方、DoGフィルタでは、LoGフィルタと処理が似ているが、計算量が小さいという特徴があり、LoGフィルタの代わりに用いられる。
【0031】
結合部16は、マスク演算部14で生成されたマスク済みカラー画像と、フィルタ部15で生成された処理用赤外線画像とを結合する。具体的には、結合部16は、マスク済みカラー画像と処理用赤外線画像とを結合して、推論エンジン20の入力層の構成に合うデータ構造をもつ画像を出力する。
【0032】
推論エンジン20は、欠落部分を含むマスク済みカラー画像から、欠落部分がカラー画像で補完されたカラー画像(補完後カラー画像)を出力するように学習された学習モデルである。具体的には、推論エンジン20は、U-Netと呼ばれるU字型の畳み込みニューラルネットワーク(つまり、深層学習モデル)であり、下向き畳み込み層21a~21g、上向き畳み込み層22a~22h、マージ層23a~23cで構成される。下向き畳み込み層21a~21gでは、畳み込みとプーリングとが行われ、深い層ほど画像の特徴が局所的で画像のサイズが小さくなる。一方、上向き畳み込み層22a~22hでは、畳み込みとアップサンプリングとが行われ、特徴を保持したまま画像のサイズが大きく復元される。マージ層23a~23cでは、サイズが同じ画像を深い層から段階的にマージする。なお、畳み込みにおいては、「Partial Convolution」と呼ばれる手法により、欠落部分の情報を伝えながら畳み込みが行われる(非特許文献3参照)。
【0033】
図2は、以上のように構成された本実施の形態に係るカラー画像補完装置10の動作(つまり、カラー画像補完方法)を示すフローチャートである。
【0034】
まず、カラー画像取得部11は、欠落部分を含む被認識対象物のカラー画像を取得する(カラー画像取得ステップS10)。
【0035】
次に、カラー画像補完装置10は、赤外線画像取得部12によって、カラー画像における被認識対象物と同一の被認識対象物の赤外線画像を取得し、取得された赤外線画像に対して、フィルタ部15によって、LoGフィルタあるいはDoGフィルタを用いて、高周波成分を抽出し、抽出した高周波成分の画像を、処理用赤外線画像として生成する(赤外線画像取得ステップS11)。なお、この赤外線画像取得ステップS11では、フィルタ部15をバイパスさせることで、赤外線画像取得部12によって取得された赤外線画像をそのまま処理用赤外線画像として生成してもよい。また、赤外線画像取得ステップS11は、カラー画像取得ステップS10よりも先であってもよいし、カラー画像取得ステップS10と並行して行われてもよい。
【0036】
次に、マスク生成部13は、カラー画像取得部11で取得されたカラー画像における欠落部分を特定する(欠落部分特定ステップS12)。具体的には、マスク生成部13は、カラー画像取得部11で取得されたカラー画像、及び、赤外線画像取得部12で取得された赤外線画像から、カラー画像における欠落部分を示すマップデータであるマスクを生成する。このとき、マスク生成部13は、カラー画像取得部11で取得されたカラー画像から、彩度と輝度が低い領域ほど大きくなる重みWを算出し、赤外線画像取得部12で取得された赤外線画像に対してカラー画像取得部11で取得されたカラー画像のコントラスト及びシャープネスが低い領域の値が大きくなる重みFを算出し、算出した重みW及び算出した重みFの加重和を用いて、上記式3又は式4のように、欠落部分を示すマップMを生成する。
【0037】
そして、カラー画像補完装置10は、マスク演算部14、結合部16、及び、推論エンジン20を用いて、カラー画像取得部11で取得されたカラー画像に対して、欠落部分に対応する処理用赤外線画像の情報を用いて、欠落部分特定ステップS12で特定された欠落部分を補完する(補完ステップS13)。具体的には、まず、マスク演算部14は、カラー画像取得部11で取得されたカラー画像に対して、マスク生成部13で生成されたマスクを用いて、マスク処理を施すことで、マスク済みカラー画像を生成する。そして、結合部16は、マスク演算部14で生成されたマスク済みカラー画像と、フィルタ部15で生成された処理用赤外線画像とを結合する。さらに、推論エンジン20は、欠落部分を含むマスク済みカラー画像から、欠落部分がカラー画像で補完されたカラー画像(つまり、補完後カラー画像)を生成する。
【0038】
最後に、推論エンジン20は、生成した補完後カラー画像を出力する(出力ステップS14)。
【0039】
以上のように、本実施の形態に係るカラー画像補完方法は、画像情報が欠落した箇所である欠落部分を含む、被認識対象物のカラー画像を取得するカラー画像取得ステップS10と、同じ被認識対象物の赤外線画像を取得し、処理用赤外線画像を生成する赤外線画像取得ステップS11と、取得されたカラー画像における欠落部分を特定する欠落部分特定ステップS12と、取得されたカラー画像に対して、欠落部分特定ステップS12で特定された欠落部分を補完する補完ステップS13とを含み、補完ステップS13では、欠落部分に対応する処理用赤外線画像の情報を用いて、欠落部分をカラー画像で補完する。なおステップS13では欠落部分を示す情報を用いるが、ステップS12で特定された欠落部分を示す情報を使用しても良い。
【0040】
これにより、可視光画像では得られない情報を得ることができる赤外線画像を用いて、カラー画像の欠落部分がカラー画像で正しく復元される。よって、非特許文献1、2の技術と異なり、例えば、ドライバのサングラスで隠れた部分がカラー画像で補完され、目の充血具合、ドライバの顔色(酒気帯びの有無)等まで判別され得る。また、非特許文献3の技術と異なり、欠落部分に対応する赤外線画像も用いられるので、完全に隠れた箇所が全く別の画像で補完されてしまうという不具合が回避される。よって、従来よりも高い精度でカラー画像の欠落部分を補完できるカラー画像補完方法が実現される。
【0041】
ここで、赤外線画像取得ステップS11では、赤外線画像の高周波成分を抽出した画像を処理用赤外線画像として生成する。これにより、欠落部分の補完のために赤外線画像そのものではなく、赤外線画像の高周波成分が用いられるので、カラー画像を生成するのに用いられる可視光と、赤外線画像を生成するのに用いられる近赤外光の反射特性が異なることに起因する画像上の特徴差が緩和され、欠落部分が高い復元力で補完される。
【0042】
また、欠落部分特定ステップS12では、カラー画像の彩度及び輝度の少なくとも一方、及び、カラー画像に対する赤外線画像のコントラスト及びシャープネスの少なくとも一方を考慮して、欠落部分を特定する。これにより、カラー画像と赤外線画像の両方の特性を用いて欠落部分が特定されるので、周囲と異なって画像情報が欠落した箇所が高い精度で特定される。
【0043】
次に、上記実施の形態における推論エンジン20の学習方法(つまり、ニューラルネットワーク学習方法)について、説明する。
【0044】
図3は、上記実施の形態に係るカラー画像補完装置10が備える推論エンジン20を学習させるニューラルネットワーク学習装置30の構成を示すブロック図である。ここには、学習の対象となる推論エンジン20も併せて図示されている。
【0045】
ニューラルネットワーク学習装置30は、推論エンジン20を学習させる装置であり、上記実施の形態に係るカラー画像補完装置10が備えるカラー画像取得部11、赤外線画像取得部12、マスク演算部14、フィルタ部15、及び、結合部16に加えて、学習用マスク生成部31、輝度生成部32、選択部33、及び、ロス計算部34を備える。
【0046】
カラー画像取得部11は、学習用の入力データとして、被認識対象物のカラー画像を取得する。例えば、カラー画像取得部11は、ハードディスク等の補助記憶装置から、学習用のカラー画像を取得する。なお、この学習用のカラー画像は、欠落部分を含まない、被認識対象物のカラー画像であり、例えば、サングラスをかけないドライバを通常の環境下においてカメラで撮影して得られるカラー画像である。カラー画像取得部11で取得されたカラー画像は、マスク演算部14、輝度生成部32、及び、ロス計算部34に出力される。
【0047】
学習用マスク生成部31は、欠落部分を生成するために用いられるマスク、つまり、欠落部分を示す欠落部分情報を生成する。例えば、学習用マスク生成部31は、カラー画像取得部11で取得されるカラー画像を全体とし、その全体における、ひとまとまりの部分領域をランダムに生成し、生成した部分領域を欠落部分として示すマスクを、欠落部分情報として生成する。
【0048】
マスク演算部14は、カラー画像取得部11で取得されたカラー画像に対して、学習用マスク生成部31で生成された欠落部分情報でマスクすることによって、欠落部分を含むカラー画像であるマスク済カラー画像を生成する。
【0049】
輝度生成部32は、カラー画像取得部11で取得されたカラー画像からグレースケール画像を生成する。具体的には、輝度生成部32は、カラー画像取得部11で取得されたカラー画像における輝度成分だけを抽出することで、グレースケール画像を生成する。このグレースケール画像は、赤外線画像の準備が困難な場合に、赤外線画像に代わるもの(つまり、疑似赤外線画像)として、利用される。
【0050】
赤外線画像取得部12は、カラー画像における被認識対象物と同一の被認識対象物についての赤外線画像を取得する。例えば、カラー画像取得部11は、ハードディスク等の補助記憶装置から、被認識対象物の赤外線画像を取得する。
【0051】
選択部33は、事前の設定に応じて、輝度生成部32で生成されたグレースケール画像、及び、赤外線画像取得部12で取得された赤外線画像のいずれかを選択してフィルタ部15に出力する。例えば、選択部33は、赤外線画像取得部12で取得された赤外線画像が補助記憶装置に格納されていない場合には、輝度生成部32で生成されたグレースケール画像を選択し、一方、赤外線画像取得部12で取得された赤外線画像が補助記憶装置に格納されている場合には、その赤外線画像を選択する。選択部33は、赤外線画像、及び、それに代わるグレースケール画像のいずれを用いても推論エンジン20の学習を可能にするために、設けられている。
【0052】
フィルタ部15は、選択部33から出力されてきたグレースケール画像又は赤外線画像に対して、高周波成分を抽出し、抽出した高周波成分の画像を、処理用赤外線画像として生成する。具体的には、フィルタ部15は、事前の設定に応じて、選択部33から出力されてきたグレースケール画像又は赤外線画像に対して、LoGフィルタ、あるいは、DoGフィルタによるフィルタ処理を施し、得られた画像を、処理用赤外線画像として出力する。
【0053】
結合部16は、マスク演算部14で生成されたマスク済みカラー画像と、フィルタ部15で生成された処理用赤外線画像とを結合する。具体的には、結合部16は、マスク済みカラー画像と処理用赤外線画像とを結合して、推論エンジン20の入力層の構成に合うデータ構造をもつ画像を出力し、推論エンジン20に入力させる。
【0054】
ロス計算部34は、カラー画像取得部11で取得されたカラー画像を教師データとし、推論エンジン20に対して、教師あり学習を行わせる。具体的には、ロス計算部34は、推論エンジン20が出力する補完後のカラー画像が、カラー画像取得部11で取得されたカラー画像に近くなるように、逆伝搬法、確率的勾配降下法等によって、推論エンジン20のモデルパラメータを調整する。
【0055】
図4は、以上のように構成された本実施の形態に係るニューラルネットワーク学習装置30の動作(つまり、ニューラルネットワーク学習方法)を示すフローチャートである。
【0056】
まず、カラー画像取得部11は、学習用の入力データとして、被認識対象物のカラー画像を準備する(カラー画像準備ステップS20)。例えば、カラー画像取得部11は、ハードディスク等の補助記憶装置から、学習用のカラー画像を取得することによって準備する。準備されるカラー画像は、欠落部分を含まない、被認識対象物のカラー画像である。
【0057】
次に、ニューラルネットワーク学習装置30は、輝度生成部32、赤外線画像取得部12、及び、選択部33を用いて、学習用のカラー画像における被認識対象物と同一の被認識対象物の処理用赤外線画像を準備する(赤外線画像準備ステップS21)。より詳しくは、輝度生成部32は、カラー画像取得部11で取得されたカラー画像からグレースケール画像を生成する。一方、赤外線画像取得部12は、被認識対象物の赤外線画像を取得する。そして、選択部33は、事前の設定に応じて、輝度生成部32で生成されたグレースケール画像、及び、赤外線画像取得部12で取得された赤外線画像のいずれかを選択してフィルタ部15に出力する。さらに、フィルタ部15は、選択部33から出力されてきたグレースケール画像又は赤外線画像に対して、LoGフィルタあるいはDoGフィルタによるフィルタ処理を施すことで高周波成分を抽出し、抽出した高周波成分の画像を、処理用赤外線画像として準備する。
【0058】
そして、学習用マスク生成部31は、欠落部分を生成するために用いられるマスク、つまり、欠落部分を示す欠落部分情報を準備する(欠落部分情報準備ステップS22)。欠落部分情報は、例えば、カラー画像取得部11で取得されるカラー画像を全体とし、その全体における、ひとまとまりの部分領域を欠落部分として示すマスク情報である。
【0059】
次に、マスク演算部14は、カラー画像取得部11で取得されたカラー画像に対して、学習用マスク生成部31で生成された欠落部分情報でマスクすることによって、欠落部分を含むカラー画像であるマスク済カラー画像を準備する(マスク済カラー画像準備ステップS23)。
【0060】
そして、ニューラルネットワーク学習装置30は、マスク済カラー画像準備ステップS23で準備されたマスク済カラー画像、赤外線画像準備ステップS21で準備された処理用赤外線画像、及び、欠落部分情報準備ステップS22で準備された欠落部分情報を推論エンジン20に入力し、カラー画像準備ステップS20で準備したカラー画像を教師データとして、推論エンジン20を学習させる(学習ステップS24)。より詳しくは、結合部16は、マスク演算部14で生成されたマスク済みカラー画像と、フィルタ部15で生成された処理用赤外線画像とを結合することで、推論エンジン20の入力層の構成に合うデータ構造をもつ画像を生成し、生成した画像と、学習用マスク生成部31で生成された欠落部分情報とを、推論エンジン20に入力する。そして、ロス計算部34は、カラー画像取得部11で取得されたカラー画像を教師データとし、推論エンジン20が出力する補完後のカラー画像が教師データに近くなるように、推論エンジン20のモデルパラメータを調整する。
【0061】
以上の手順によって、ニューラルネットワーク学習装置30により、推論エンジン20の学習が行われる。
【0062】
次に、実施の形態に係るカラー画像補完装置10の動作について行った実験を説明する。
図5は、実験において、推論エンジン20の学習に用いた、同一の被認識対象物についてのカラー画像(
図5の(a))及び疑似赤外線画像としてのグレースケール画像(
図5の(b))の例を示す図である。なお、
図5に示される画像は、図示の都合上、実際に用いられた画像が白黒画像に簡素化された模式図である。後述する
図6、
図7についても同様である。実験の学習時では、選択部33に入力される赤外線画像及び疑似赤外線画像としてのグレースケール画像のうち、疑似赤外線画像としてのグレースケール画像だけを用いた。
【0063】
図6は、実験において、
図5に示される画像を用いた学習を終えたカラー画像補完装置10による補完例を示す図ある。より詳しくは、
図6の(a)は、カラー画像補完装置10に入力された、欠落部分を含むカラー画像の例を示す。欠落部分は、人の顔におけるサングラスの領域である。
図6の(b)は、カラー画像補完装置10が出力した補完後カラー画像を示す。
図6の(b)に示される補完後カラー画像では、欠落部分がカラー画像で、かつ、真の画像に近い画像で、復元されている。
【0064】
図7は、非特許文献3に開示された手法(つまり、赤外線画像を用いることなくカラー画像だけを用いてカラー画像の欠落部分を補完する手法)による比較例に係るカラー画像補完方法による補完例を示す図ある。より詳しくは、
図7の(a)は、比較例に係るカラー画像補完方法において、入力された、欠落部分を含むカラー画像の例を示し、
図6の(a)に示されるものと同じである。
図7の(b)は、比較例に係るカラー画像補完方法において、出力された補完後カラー画像を示す。
図7の(b)に示される補完後カラー画像では、
図6の(b)と比較して分かるように、欠落部分が粗い画像で復元され、正しく復元されていない。
【0065】
以上のように、本実施の形態に係るカラー画像補完方法は、画像情報が欠落した箇所である欠落部分を含む、被認識対象物のカラー画像を取得するカラー画像取得ステップS10と、同じ被認識対象物の赤外線画像を取得し、処理用赤外線画像を生成する赤外線画像取得ステップS11と、取得されたカラー画像における欠落部分を特定する欠落部分特定ステップS12と、取得されたカラー画像に対して、欠落部分特定ステップS12で特定された欠落部分を補完する補完ステップS13とを含み、補完ステップS13では、欠落部分に対応する処理用赤外線画像の情報を用いて、欠落部分をカラー画像で補完する。ここで、赤外線画像取得ステップS11では、一例として、赤外線画像をそのまま処理用赤外線画像として生成し、補完ステップS13では、学習用カラー画像と学習用カラー画像に対応する学習用赤外線画像と学習用欠落部分情報とを用い、学習用カラー画像と学習用欠落部分情報とから生成した学習用欠落部分ありカラー画像と学習用赤外線画像とから、元の学習用カラー画像を推論するように学習させた推論エンジン20を使用して、欠落部分を補完する。
【0066】
こにより、学習用欠落部分ありカラー画像と学習用赤外線画像とから、元の学習用カラー画像を推論するように学習させた推論エンジン20が使用されるので、欠落部分を含むカラー画像から、欠落部分がカラー画像で補完されたカラー画像が復元される。
【0067】
また、補完ステップS13では、学習用カラー画像と学習用カラー画像に対応する学習用赤外線画像から高周波成分を抜き出した学習用処理用赤外線画像と学習用欠落部分情報とを用い、学習用カラー画像と学習用欠落部分情報とから生成した学習用欠落部分ありカラー画像と学習用処理用赤外線画像とから、元の学習用カラー画像を推論するように学習させた推論エンジンを使用して、欠落部分を補完してもよい。
【0068】
これにより、学習用処理用赤外線画像は、学習用赤外線画像から高周波成分を抜き出した画像であるので、カラー画像を生成するのに用いられる可視光と、赤外線画像を生成するのに用いられる近赤外光の反射特性が異なることに起因する画像上の特徴差が緩和され、欠落部分が高い復元力で補完される。
【0069】
また、本実施の形態に係るニューラルネットワーク学習方法は、画像情報が欠落した箇所である欠落部分を含む、被認識対象物のカラー画像から、欠落部分を補完した被認識対象物のカラー画像を推論するニューラルネットワーク(つまり、推論エンジン20)の学習方法であって、被認識対象物のカラー画像を準備するカラー画像準備ステップS20と、被認識対象物の処理用赤外線画像を準備する赤外線画像準備ステップS21と、欠落部分を示す欠落部分情報を準備する欠落部分情報準備ステップS22と、カラー画像を欠落部分情報でマスクすることによって、欠落部分を含むカラー画像であるマスク済カラー画像を準備するマスク済カラー画像準備ステップS23と、マスク済カラー画像、処理用赤外線画像及び欠落部分情報をニューラルネットワークに入力し、カラー画像準備ステップS20で準備したカラー画像を教師データとして、ニューラルネットワークを学習させる学習ステップS24とを含む。
【0070】
これにより、欠落部分を含むカラー画像から、欠落部分がカラー画像で補完されたカラー画像を復元するニューラルネットワーク(つまり、推論エンジン20)を学習させることができる。よって、このように学習されたニューラルネットワーク(つまり、推論エンジン20)を用いたカラー画像補完装置10により、非特許文献1、2の技術と異なり、欠落部分がカラー画像で補完されるので、例えば、ドライバのサングラスで隠れた部分がカラー画像で補完され、目の充血具合、ドライバの顔色(酒気帯びの有無)等まで判別され得る。また、非特許文献3の技術と異なり、欠落部分に対応する赤外線画像も用いられるので、完全に隠れた箇所が全く別の画像で補完されてしまうという不具合が回避される。よって、従来よりも高い精度でカラー画像の欠落部分を補完できるカラー画像補完装置10が実現される。
【0071】
ここで、赤外線画像準備ステップS21では、被認識対象物を赤外線カメラで撮影することによって、処理用赤外線画像を準備してもよい。これにより、例えば、サングラスで隠れた目の輪郭等の可視光画像では得られない情報を得ることができる赤外線画像が用いられるので、カラー画像の欠落部分をカラー画像で正しく復元できるニューラルネットワーク(つまり、推論エンジン20)を得ることができる。
【0072】
また、赤外線画像準備ステップS21では、カラー画像からグレースケール画像を生成し、さらにグレースケール画像の高周波成分を抽出することによって、処理用赤外線画像を生成してもよい。これにより、赤外線画像の準備が困難な場合であっても、赤外線画像に代わる疑似赤外線画像としてグレースケール画像を用いてニューラルネットワーク(つまり、推論エンジン20)を適切に学習させることができる。
【0073】
なお、上記実施の形態に係るニューラルネットワーク学習装置30は、赤外線画像及び疑似赤外線画像を選択的に用いる構成(輝度生成部32、赤外線画像取得部12、及び、選択部33)を備えたが、これらに代えて、輝度生成部32だけを備え、常に疑似赤外線画像を用いる構成であってもよいし、これらに代えて、赤外線画像取得部12だけを備え、常に赤外線画像を用いる構成であってもよい。
【0074】
図8は、
図3に示されるニューラルネットワーク学習装置30における輝度生成部32、赤外線画像取得部12、及び、選択部33に代えて、輝度生成部32だけを備える、実施の形態の第1変形例に係るニューラルネットワーク学習装置30aの構成を示すブロック図である。このニューラルネットワーク学習装置30aであっても、疑似赤外線画像を用いて推論エンジン20を適切に学習させることができる。上記実験における学習では、このようなニューラルネットワーク学習装置30aで学習を行っている。
【0075】
図9は、
図3に示されるニューラルネットワーク学習装置30における輝度生成部32、赤外線画像取得部12、及び、選択部33に代えて、赤外線画像取得部12だけを備える、実施の形態の第2変形例に係るニューラルネットワーク学習装置30bの構成を示すブロック図である。このニューラルネットワーク学習装置30bであっても、赤外線画像を用いて適切に推論エンジン20を学習させることができる。
【0076】
以上、本開示のカラー画像補完方法及びニューラルネットワーク学習方法について、実施の形態及び変形例に基づいて説明したが、本開示は、これらの実施の形態及び変形例に限定されるものではない。本開示の主旨を逸脱しない限り、当業者が思いつく各種変形を実施の形態及び変形例に施したものや、実施の形態及び変形例における一部の構成要素を組み合わせて構築される別の形態も、本開示に含まれる。
【0077】
例えば、上記実施の形態では、カラー画像補完装置10及びニューラルネットワーク学習装置30は、フィルタ部15を備えたが、必ずしも、フィルタ部15を備える必要はない。フィルタ部15は、カラー画像を生成するのに用いられる可視光と、赤外線画像を生成するのに用いられる近赤外光の反射特性が異なることに起因する画像上の特徴差を緩和するためのものであり、カメラでカラー画像及び赤外線画像を取得する環境によっては、これらの特徴差が小さいケースもあり得る、つまり、必要性が低いケースもあり得るからである。
【0078】
また、上記実施の形態では、マスク生成部13は、カラー画像取得部11で取得されたカラー画像の彩度及び輝度、及び、赤外線画像取得部12で取得された赤外線画像のコントラスト及びシャープネスを用いて、マスクを生成したが、これに限られず、カラー画像の彩度及び輝度の少なくとも一方、及び、カラー画像に対する赤外線画像のコントラスト及びシャープネスの少なくとも一方を用いてマスクを生成してもよい。被認識対象物の色、カメラでカラー画像及び赤外線画像を取得する環境によっては、カラー画像の彩度及び輝度の一方、及び、カラー画像に対する赤外線画像のコントラスト及びシャープネスの一方を用いることで、カラー画像における欠落部分を正確に示すマスクを生成できるケースがあり得るからである。
【0079】
また、上記実施の形態では、カラー画像補完装置10は、典型的には、プロセッサによって実行されるプログラムによって実現されたが、これに限られず、電子回路等のハードウェアで実現されてもよい。例えば、推論エンジン20は、Field Programmable Gate Arrayで実現されてもよい。
【産業上の利用可能性】
【0080】
本開示に係るカラー画像補完方法及びニューラルネットワーク学習方法は、従来よりも高い精度でカラー画像の欠落部分を補完できるカラー画像補完装置として、例えば、ドライバのサングラスで隠れた部分を補完して、目の充血具合、ドライバの顔色等を判別する安全運転維持システムとして、利用できる。
【符号の説明】
【0081】
10 カラー画像補完装置
11 カラー画像取得部
12 赤外線画像取得部
13 マスク生成部
14 マスク演算部
15 フィルタ部
16 結合部
20 推論エンジン
21a~21g 下向き畳み込み層
22a~22h 上向き畳み込み層
23a~23c マージ層
30、30a、30b ニューラルネットワーク学習装置
31 学習用マスク生成部
32 輝度生成部
33 選択部
34 ロス計算部