(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024115086
(43)【公開日】2024-08-26
(54)【発明の名称】自動ハイパースペクトラム学習システム
(51)【国際特許分類】
H04N 23/60 20230101AFI20240819BHJP
G06T 1/40 20060101ALI20240819BHJP
G06T 3/4053 20240101ALI20240819BHJP
【FI】
H04N23/60 500
G06T1/40
G06T3/40 730
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2023020561
(22)【出願日】2023-02-14
(71)【出願人】
【識別番号】518386575
【氏名又は名称】株式会社Archaic
(71)【出願人】
【識別番号】516253776
【氏名又は名称】株式会社ファンリード
(74)【代理人】
【識別番号】100098497
【弁理士】
【氏名又は名称】片寄 恭三
(72)【発明者】
【氏名】横山 淳
(72)【発明者】
【氏名】岸 耕一
【テーマコード(参考)】
5B057
5C122
【Fターム(参考)】
5B057CA01
5B057CA08
5B057CB01
5B057CB08
5B057CC01
5B057DC39
5B057DC40
5C122DA12
5C122DA13
5C122DA19
5C122DA30
5C122EA55
5C122EA59
5C122FB16
5C122FC01
5C122FC02
5C122FH11
5C122GE23
5C122HA48
5C122HA66
5C122HA88
5C122HB01
(57)【要約】
【課題】 分解能が高いカメラで撮像した画像データを分解能が低いカメラで撮像した画像データの学習に利用する学習システムを提供する。
【解決手段】 本発明の学習・予測システム100は、同一の対象物Sを撮像するためのRGBカメラ110およびハイパースペクトルカメラ120と、RGBカメラ110で撮像された画像データを入力し、ハイパースペクトルカメラ120で撮像された画像データを教師データとして、DNN(ディープニューラルネットワーク)を用いてRGB画像データの学習を行うAI部130とを含む。学習・予測システム100は、予測時、RGBカメラ110で撮像された画像データをDNNに入力し、ハイパースペクトルカメラ120で撮像されたならば得られたであろう特徴を含むRGB画像でデータを出力する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
分解能が高いカメラを用いた学習システムが実行する学習方法であって、
同一の対象物を分解能が低いカメラおよび分解能が高いカメラで撮像するステップと、
分解能が高いカメラで撮像した画像データを教師データとして、分解能が低いカメラで撮像された画像データの学習を行うステップと、
を含む学習方法。
【請求項2】
学習方法はさらに、分解能が高い画像データを前処理することにより教師データを抽出するステップを含み、
前記学習を行うステップは、抽出された教師データにより分解能が低い画像データの学習を行う、請求項1に記載の学習方法。
【請求項3】
前記学習を行うステップは、分解能が低い画像データを入力とし、分解能が高い画像データを教師データとするDNNにより学習を行う、請求項1に記載の学習方法。
【請求項4】
前記抽出するステップは、分解能が高い画像データから特定の波長の画像データを教師データとして抽出する、請求項2に記載の学習方法。
【請求項5】
前記教師データは、対象物の材質、形状、大きさまたは品質を表す画像データである、請求項4に記載の学習方法。
【請求項6】
分解能が低いカメラは、RGBカメラまたは可視光カメラであり、分解能が高いカメラは、ハイパースペクトルカメラである、請求項1に記載の学習方法。
【請求項7】
分解能が高いカメラを用いた学習システムであって、
同一の対象物を分解能が低いカメラおよび分解能が高いカメラで撮像する撮像手段と、
分解能が高いカメラで撮像した画像データを教師データとして、分解能が低いカメラで撮像された画像データの学習を行う学習手段と、
を含む学習システム。
【請求項8】
学習システムはさらに、分解能が高い画像データから教師データを抽出する抽出手段を含み、
前記学習手段は、前記抽出手段によって抽出された教師データにより分解能が低い画像データの学習を行う、請求項7に記載の学習システム。
【請求項9】
前記学習手段は、分解能が低い画像データを入力とし、分解能が高い画像データを教師データとするDNNを含む、請求項7に記載の学習システム。
【請求項10】
前記抽出手段は、分解能が高い画像データから特定の波長の画像データを教師データとして抽出する、請求項8に記載の学習システム。
【請求項11】
前記教師データは、対象物の材質、形状、大きさまたは品質を表す画像データである、請求項10に記載の学習システム。
【請求項12】
分解能が低いカメラは、RGBカメラまたは可視光カメラであり、分解能が高いカメラは、ハイパースペクトルカメラである、請求項7に記載の学習システム。
【請求項13】
学習システムはさらに、
前記学習手段にRGBカメラで撮像したRGB画像データを入力し、ハイパースペクトルカメラで撮像したときの特徴を含むRGB画像データを出力する出力手段を含む、請求項7に記載の学習システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ハイパースペクトルカメラ等の多バンド(波長)または多チャンネルの分解能が高いカメラを利用した学習システムに関し、特に、ハイパースペクトルカメラで撮像された画像データを教師データとして、可視光またはRGBのカメラのような分解能が低いカメラで撮像された画像データの学習を行う学習システムおよび学習システムを利用した予測システムに関する。
【背景技術】
【0002】
カメラやセンサを利用した物体の認識または分類が行われている。例えば、特許文献1の顔認証装置は、高階調カメラと低階調カメラを用いて人物の顔画像を異なる方向から取得し、高階調の入力画像から顔領域を検出し、低階調の入力画像から顔領域を検出し、高階調から得られた顔領域の画像および低階調から得られた顔領域の画像から評価値の最も高いものを選択し、顔照合処理を行い、照明変動にロバストな顔認証方法を提供している。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
一般に、顔認証等に用いられるデジタルカメラは、RGBカメラであり、RGBカメラは、可視光域の赤(Red)、緑(Green)、青(Blue)の3つのバンド(波長)の光を電気信号に変換し、RGBの3つの画像データを生成する。RGBの画像データによって生成された画像は、人間の視覚情報に近いイメージを提供することができる。
【0005】
RGBカメラは、CMOSセンサあるいはCCD等の撮像素子を含み、撮像素子で電気信号に変換されたRGBの画像データは、例えば、24ビットデータから構成される(R/G/B=8ビット)。CMOSセンサ等の画素数を増やすことで、4K画像のような高解像度の画像データを得ることができる。
【0006】
RGBの画像データの解像度を高めることで、画像データをディスプレイに表示させたとき、撮像された物体の細部を視認することができるが、物体の形状、材質、撮像条件(例えば、明るさや撮影方向など)によっては、物体の細部を明瞭に視認することができない場合がある。例えば、物体の検査工程において、RGBの画像データによって生成された画像から物体の表面の細かな傷や溝などを明瞭に視認することができないと、物体の良品/不良品の判定を正確に行うことができなくなってしまう。
【0007】
一方、多バンド(波長)または多チャンネルの分解能が高いハイパースペクトルカメラを用いれば、RGBの画像データから明瞭に視認することができないような傷などの特徴であっても、明瞭に視認することが可能になる。しかし、ハイパースペクトルカメラは非常に高価であり、ハイパースペクトルカメラを用いて全ての検査を行うことは現実的ではない。
【0008】
本発明は、このような従来の課題を解決するものであり、多バンド(波長)または多チャンネルの分解能が高いカメラで撮像した画像データを可視光またはRGBカメラのような分解能が低いカメラで撮像した画像データの学習に利用する学習システムおよびこれを利用した予測システムを提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明に係る学習方法は、分解能が高いカメラを用いた学習システムが実行するものであって、同一の対象物を分解能が低いカメラおよび分解能が高いカメラで撮像するステップと、分解能が高いカメラで撮像した画像データを教師データとして、分解能が低いカメラで撮像された画像データの学習を行うステップと、を含む。
【0010】
ある態様では、学習方法はさらに、分解能が高い画像データを前処理することにより教師データを抽出するステップを含み、前記学習を行うステップは、抽出された教師データにより分解能が低い画像データの学習を行う。ある態様では、前記学習を行うステップは、分解能が低い画像データを入力とし、分解能が高い画像データを教師データとするDNNにより学習を行う。ある態様では、前記抽出するステップは、分解能が高い画像データから特定の波長の画像データを教師データとして抽出する。ある態様では、前記教師データは、対象物の材質、形状、大きさまたは品質を表す画像データである。ある態様では、分解能が低いカメラは、RGBカメラまたは可視光カメラであり、分解能が高いカメラは、ハイパースペクトルカメラである。
【0011】
本発明に係る分解能が高いカメラを用いた学習システムは、同一の対象物を分解能が低いカメラおよび分解能が高いカメラで撮像する撮像手段と、分解能が高いカメラで撮像した画像データを教師データとして、分解能が低いカメラで撮像された画像データの学習を行う学習手段と、を含む。
【0012】
ある態様では、学習システムはさらに、分解能が高い画像データから教師データを抽出する抽出手段を含み、前記学習手段は、前記抽出手段によって抽出された教師データにより分解能が低い画像データの学習を行う。ある態様では、前記学習手段は、分解能が低い画像データを入力とし、分解能が高い画像データを教師データとするDNNを含む。ある態様では、前記抽出手段は、分解能が高い画像データから特定の波長の画像データを教師データとして抽出する。ある態様では、前記教師データは、対象物の材質、形状、大きさまたは品質を表す画像データである。ある態様では、分解能が低いカメラは、RGBカメラまたは可視光カメラであり、分解能が高いカメラは、ハイパースペクトルカメラである。ある態様では、学習システムはさらに、前記学習手段にRGBカメラで撮像したRGB画像データを入力し、ハイパースペクトルカメラで撮像したときの特徴を含むRGB画像データを出力する出力手段を含む。
【発明の効果】
【0013】
本発明によれば、多バンド(波長)または多チャンネルの分解能が高いカメラで撮像した画像データを教師データとしてRGBカメラ等の分解能が低いカメラで撮像した画像データの学習に用いることで、分解能が高いカメラを使用することなく分解能が高いカメラで撮像したならば得られたであろう特徴をもつ画像データを得ることができる。これにより、物体の予測または検査におけるコストを低減させることができる。
【図面の簡単な説明】
【0014】
【
図1】本発明の実施例に係る学習・予測システムの全体構成を示すブロック図である。
【
図2】RGBカメラで撮像された画像データと、ハイパースペクトルカメラで撮像された画像データとの一例を示す図である。
【
図3】本発明の実施例によるAI部の動作を説明する図である。
【
図4】本発明の実施例に係る学習・予測システムの動作フローを示す図である。
【
図5】本発明の他の実施例に係る学習・予測システムの構成を示すブロック図である。
【発明を実施するための形態】
【0015】
本発明の学習・予測システムは、多バンド(波長)または多チャンネルの分解能が高いカメラとしてハイパースペクトルカメラで撮像された画像データを教師データとして、RGBカメラのような分解能が低いカメラで撮像された画像データを、例えばDNN(ディープニューラルネットワーク)により学習させることを1つの特徴とする。そして、学習させたDNNを用いて、RGBカメラで撮像した画像データからハイパースペクトルカメラで撮像された特徴をもつRGB画像を生成する。
【0016】
本発明の学習・予測システムは、種々の用途に適用することができ、例えば、物体の材質、形状、サイズ、品質などの認識や検出を行う物体認識システムまたは物体検出システムなどに適用することができる。
【0017】
ハイパースペクトルカメラは、例えば、可視光から赤外光の範囲で数百波長(数百バンド)で数nmの刻みで対象物を測定(撮影)し、測定された画像データから生成された画像は、RGBカメラの3バンドの画像データから生成された画像と比較して、非常に高い分解能を有する。言い換えれば、RGBカメラで撮像された画像の各画素は、R、G、Bの3つの波長によって表されるが、ハイパースペクトルカメラで撮影された画像の各画素は、例えば、数百の波長によって表される。それ故、ハイパースペクトルカメラで撮像された画像は、分解能が高く、RGB画像からは視認することが難しいような対象物の特徴を映し出すことが可能である。その一方、ハイパースペクトルカメラは、RGBカメラと比較して非常に高価である。
【0018】
好ましい態様では、本発明の学習・予測システムは、ハイパースペクトルカメラの画像データを教師データとして、DNNにRGBカメラの画像データを学習させておく。そして、対象物の予測時または測定時に、学習されたDNNを用いて、RGBカメラで撮像された画像データをDNNに入力し、ハイパースペクトルカメラで撮像されたときの特徴をもつRGB画像データを出力し、ハイパースペクトルカメラで撮像したならば得られたであろう対象物の特徴の予測を可能にする。これにより、非常に高価なハイパースペクトルカメラを常に使用することなく、学習されたDNNを用いてハイパースペクトルカメラで撮像されたときの特徴をもつRGB画像データを得ることができる。
【実施例0019】
次に、本発明の実施例について図面を参照して説明する。
図1は、本発明の実施例に係る学習・予測システムの構成を示すブロック図であり、
図1(A)は、学習時の構成を示し、
図1(B)は、予測時の構成を示す。
【0020】
本実施例の学習・予測システム100は、
図1(A)に示すように、被写体としての対象物Sを撮像するRGBカメラ110と、同一の対象物Sを撮像するハイパースペクトルカメラ120と、RGBカメラ110で撮像されたRGB画像データを入力し、ハイパースペクトルカメラ120で撮像された画像データを教師データとし、RGB画像データの学習を行うAI(人口知能)部130とを含んで構成される。
【0021】
RGBカメラ110は、例えば、RGBのカラーフィルターを介して入力された3つの波長の光を、CMOSセンサやCCDによって電気信号に変換し、
図2(A)に示すように、3つの波長のRGBの画像データを生成する。1つの画素は、例えば、24ビットデータから構成され(R=G=B=8ビット)、この場合、1つの画素は、256×256×256の色で表現可能である。CMOSセンサやCCDの画素数を増やすことで、RGB画像データ4K画像のように、より高解像度にすることができる。
【0022】
一方、ハイパースペクトルカメラ120は、例えば、可視光から赤外光の範囲内で、数百のバンド(波長)で物体を撮影(測定)する。波長の分光方式は、特に限定されないが、例えば、反射型グレーティング、波長可変フィルターなどを用いることができる。ハイパースペクトルカメラ120で撮像された画像データは、例えば、
図2(B)に示すように、450nmから1700nmの撮像範囲内で、5nm毎に250波長のバンドから構成され、この場合、1つの画素は、例えば、2Kビット(8×250)から構成される。例えば、物体の特徴がRGBの波長によって表すことが難しくても、数百の波長の光であれば、その特徴をより鮮明に表すことが可能になる。
【0023】
AI部130は、RGBカメラ110で撮像されたRGB画像データを入力とし、かつハイパースペクトルカメラ120で撮像されたハイパースペクトル画像データを教師データとし、例えば、DNN(ディープニューラルネットワーク)を用いてRGB画像データの機械学習を行う。
【0024】
図3(A)に、DNNの構成例を示す。DNNは、入力層、複数の中間層および出力層を含む。入力層は、RGBカメラ110で撮像されたRGB画像データを入力する。入力層のサイズは、RGBカメラ110の画素数に応じて決定するようにしてもよい。また、RGB画像データ(フレーム)の中から、ウインドウを動かすことで、ウインドウに含まれる画像領域を選択し、選択した画像領域の画像データを入力するようにしてもよい。これにより、高解像度のRGB画像データに対応した効率的な処理を行う。
【0025】
複数の中間層は、RGB画像データの特徴を抽出するための演算処理を行い、出力層は、中間層によって抽出された特徴を持つ画像データを出力する。
【0026】
DNNは、出力層から出力された特徴が抽出された画像データと、教師データであるハイパースペクトルカメラ120で特徴が撮像された画像データとを比較し、両者の乖離(差分)がある場合には、差分が減るように、DNNの各層間の重み(パラメータ)を修正または調整する。DNNは、大量のRGB画像データと教師データとを用いて機械学習を行う。
【0027】
RGBカメラ110とハイパースペクトルカメラ120は、同一の対象物Sを撮像しており、両者の画像データには強い相関関係がある。但し、RGB画像データは、ハイパースペクトル画像データよりも分解能が低いため、ハイパースペクトル画像が対象物Sの特徴を映し出すことができても、RGB画像から対象物Sの特徴を映し出すことが難しい場合がある。例えば、金属の表面を撮像した場合に、RGB画像では、表面の微小な溝や傷などを3つの波長によって映し出すことができないが、ハイパースペクトル画像では、そのような溝や傷などを多数の波長によって映し出すことができる。
【0028】
DNNは、RGB画像データに含まれる、視覚によって識別することが難しいような潜在的な情報またはその特徴を抽出し、抽出した特徴をハイパースペクトルカメラ120で撮像された画像データの特徴と一致するように、重み(パラメータ)を調整する。このような学習処理を繰り返すことで、RGB画像データに含まれる潜在的な特徴がハイパースペクトル画像データの特徴に関連付けされる。なお、RGB画像データの解像度を高くすればするほど(画素数を大きくすればするほど)、RGB画像データに含まれる潜在的な特徴が多くなり、ハイパースペクトル画像データの特徴との数が高まるので、学習精度がより向上する。
【0029】
また、AI部130は、DNN以外の学習方法を用いることも可能であり、例えば畳み込みニューラルネットワークによりRGB画像データを学習させてもよい。畳み込みニューラルネットワークでは、畳み込み層とプーリング層とを含み、画像データの特徴を抽出する。
【0030】
次に、本実施例の学習・予測システム100の予測時の構成について説明する。
図1(B)に示すように、学習・予測システム100は、RGBカメラ110によって予測すべき物体Pを撮像し、撮像したRGB画像データをAI部130に提供する。AI部130は、RGB画像データを入力し、ハイパースペクトル画像の特徴を含む画像データを出力部140から出力する。
【0031】
図3(B)に、予測時のAI部130のDNNを示す。DNNは、予測すべき物体Pを撮像したRGB画像データを入力層に入力し、中間層において学習した重み(パラメータ)に基づき演算を行い、出力層にハイパースペクトルカメラ画像の特徴を含む画像を生成し、ハイパースペクトル画像の特徴をもつRGB画像データを出力部140に出力する。
【0032】
出力部140は、例えば、ハイパースペクトル画像の特徴を持つRGB画像データをディスプレイに表示し、ユーザーは、ディスプレイに表示されたハイパースペクトル画像の特徴をもつRGB画像データから、学習されていなRGB画像データからは視認することができなかった、物体Pの特徴(例えば、材質、形状、大きさ、傷などの表面状態)などを視認することができる。
【0033】
なお、上記の例では、学習されたDNNにRGB画像データを入力する例を示したが、DNNが2値画像データまたはグレイスケール画像データを学習している場合には、学習されたDNNに2値画像データまたはグレイスケール画像データを入力し、出力部140からハイパースペクトル画像の特徴をもつ2値画像データまたはグレイスケール画像データを出力するようにしてもよい。
【0034】
次に、本実施例の学習・予測システム100の学習時と予測時の動作フローを
図4(A)、(B)に示す。学習・予測システム100は、学習時、RGBカメラとハイパースペクトルカメラで同一の対象物を撮影し(S100)、ハイパースペクトルカメラで撮像された画像データを教師データとし、RGBカメラで撮像された画像データを入力とし、DNNを自動で機械学習する(S110)。なお、全エリアのRGB画像データをDNNに入力するのではなく、例えば、予め決められた特定のエリアのみのRGB画像データをDNNに入力するようにしてもよい。この場合、ハイパースペクトルカメラで撮像された画像データは、特定のエリアに対応する画像データが教師データになる。DNNの出力層の画像データと教師データとの誤差がなくなるか、一定以下になったら、機械学習を終了し、DNNの学習データがメモリ等に格納される(S120)。
【0035】
次に、学習されたDNNを用いた物体の予測を行うとき、RGBカメラで物体を撮影し(S200)、RGBカメラで撮像した画像データをDNNの入力層に入力する。DNNは、学習結果に基づき、ハイパースペクトルカメラで撮像したならば得られたであろう特徴をもつRGB画像データを出力層に生成し、ハイパースペクトル画像の特徴をもつRGB画像データを出力部140に出力する(S210)。ユーザーは、出力部140に出力されたハイパースペクトル画像の特徴をもつRGB画像データをから物体Pの特徴を視認することができる。
【0036】
このように、本実施例によれば、非常に高価なハイパースペクトルカメラを使用することなく学習されたDNNを使用して、RGB画像データから、ハイパースペクトルカメラで撮像したならば得られたであろう特徴を含むRGB画像を生成させ、これを物体の特徴の予測に利用することができる。
【0037】
次に、本発明の第2の実施例について説明する。第1の実施例では、ハイパースペクトルカメラ120で撮像された画像データをそのまま教師データにしたが、第2の実施例では、学習・システム100Aがハイパースペクトルカメラ120で撮像された画像データから教師データを抽出する前処理部200を含む。前処理部200は、特に限定されないが、例えば、画像フィルター、センサ、演算処理部などを含むことができ、DNNの学習に必要な教師データの精度を高め、物体の予測精度を向上させる。また、前処理部200は、教師データを圧縮することでAI部130の処理の効率化を図る。
【0038】
ある態様では、前処理部200は、ハイパースペクトル画像をフーリエ変換等の圧縮処理を施し、これを教師データとしてもよい。別な態様では、前処理部200は、対象物Sの種類または材質毎に教師データを分類し、分類したものを教師データとするようにしてもよい。さらに別な態様では、前処理部200は、ハイパースペクトル画像の特定の波長のみを抽出し、これを教師データとしてもよい。さらに別な態様では、前処理部200は、ハイパースペクトル画像の特定のエリアを抽出し、これを教師データとするようにしてもうよい。
【0039】
本実施例の学習・予測システム100は、ハードウエア資源およびソフトウエア資源を用いて構成される。例えば、CPU、ALU等を含む中央処理ユニット、演算処理ユニット、メモリユニット、入出力ユニット、撮像ユニット、ディスプレイユニット、通信ユニット、ユーザーインターフェースユニット等を含むコンピュータ装置または電子装置を用いて構成される。また、学習・予測システム100は、1つまたは複数のコンピュータ装置または電子装置をネットワークにより接続されたシステムであってもよい。
【0040】
ある実施態様では、メモリユニットは、半導体記憶装置、ハードディスク記憶装置などを含み、密予測に使用するための種々のデータ、プログラム、ソフトウエアアプリケーションを格納する。入出力ユニットは、ユーザー入力デバイス(キーボード、音声入力、タッチパネルなど)、ディスプレイ、音声出力装置などを含む。通信ユニットは、有線または無線通信手段を介してネットワークや外部機器との通信を行うための機能を備える。通信ユニットは、例えば、ネットワークに接続されたサーバからデータをダウンロードしたり、サーバにデータをアップロードしたり、あるいは、ネットワークに接続された撮像カメラ、センサなどからデータを取得する。演算処理ユニットは、例えば、画像データを処理するための画像処理プロセッサやDSPなどを含む。中央処置ユニットは、メモリユニットに格納されたプログラムまたはソフトウエアアプリケーションを実行し、密予測を制御する。
【0041】
上記実施例では、多波長または多バンドカメラとして、ハイパースペクトルカメラを例示したが、これに限らず、多波長または多バンドカメラは、RGBカメラまたは可視光カメラよりもバンド数が多く、ハイパースペクトルカメラよりもバンド数が少ないマルチスペクトルカメラであってもよい。
【0042】
さらに本実施例の学習・予測システムは、次のような検査や判定にも適用することが可能である。例えば、金属や液体などの材料判定、食品への異物混入の検出、外観検査、ヘリコプターやドローンなどから高度に撮影した画像で撮影地域の植生を計測する植生判定などである。
【0043】
以上、本発明の好ましい実施の形態について詳述したが、本発明は、特定の実施形態に限定されるものではなく、特許請求の範囲に記載された発明の要旨の範囲において、種々の変形、変更が可能である。