(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-29
(45)【発行日】2024-08-06
(54)【発明の名称】機械学習装置及び遠赤外線撮像装置
(51)【国際特許分類】
H04N 7/18 20060101AFI20240730BHJP
G06T 1/00 20060101ALI20240730BHJP
【FI】
H04N7/18 N
G06T1/00 510
(21)【出願番号】P 2020142706
(22)【出願日】2020-08-26
【審査請求日】2023-03-31
(73)【特許権者】
【識別番号】308036402
【氏名又は名称】株式会社JVCケンウッド
(74)【代理人】
【識別番号】100105924
【氏名又は名称】森下 賢樹
(72)【発明者】
【氏名】木田 晋吾
(72)【発明者】
【氏名】竹原 英樹
(72)【発明者】
【氏名】楊 尹誠
【審査官】秦野 孝一郎
(56)【参考文献】
【文献】特開2019-046276(JP,A)
【文献】国際公開第2020/158217(WO,A1)
【文献】特許第6742554(JP,B2)
【文献】特許第6663524(JP,B2)
【文献】国際公開第2019/176235(WO,A1)
【文献】国際公開第2020/115981(WO,A1)
【文献】特開2019-118043(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 7/18
G06T 1/00
(57)【特許請求の範囲】
【請求項1】
遠赤外線画像を取得する遠赤外線画像取得部と、
前記取得された遠赤外線画像を可視光画像に変換する画像変換部と、
可視光画像を教師データとして学習された第1の可視光画像学習済みモデルを記憶する可視光画像学習済みモデル記憶部と、
前記変換された可視光画像を教師データとして用いて前記第1の可視光画像学習済みモデルを転移学習させて、第2の可視光画像学習済みモデルを生成する転移学習部と
、
複数の第1の可視光画像学習済みモデルの内、前記変換された可視光画像を各第1の可視光画像学習済みモデルに入力した場合の中間出力と、各第1の可視光画像学習済みモデルの教師データとして用いられた可視光画像を各第1の可視光画像学習済みモデルに入力した場合の中間出力との差分が最小である第1の可視光画像学習済みモデルを選択し、選択された第1の可視光画像学習済みモデルを可視光画像学習済みモデル記憶部に保存する学習済みモデル選択部とを含むことを特徴とする機械学習装置。
【請求項2】
前記画像変換部は、遠赤外線画像と可視光画像を教師データとして機械学習し、遠赤外線画像から可視光画像を生成する生成モデルを生成する生成部を含み、前記取得された遠赤外線画像を前記生成モデルに入力して可視光画像に変換することを特徴とする請求項1に記載の機械学習装置。
【請求項3】
前記生成部は、遠赤外線画像と前記第1の可視光画像学習済みモデルの教師データとして用いられた可視光画像を教師データとして敵対的生成ネットワークで機械学習し、遠赤外線画像から可視光画像を生成する前記生成モデルを生成することを特徴とする請求項
2に記載の機械学習装置。
【請求項4】
遠赤外線画像を取得する遠赤外線画像取得部と、
前記取得された遠赤外線画像を可視光画像に変換する画像変換部と、
遠赤外線画像を可視光画像に変換した画像を教師データとして用いて第1の可視光画像学習済みモデルを転移学習させて生成された第2の可視光画像学習済みモデルを用いて、前記変換された可視光画像から物体を検出する物体検出部と
、
複数の第1の可視光画像学習済みモデルの内、前記変換された可視光画像を各第1の可視光画像学習済みモデルに入力した場合の中間出力と、各第1の可視光画像学習済みモデルの教師データとして用いられた可視光画像を各第1の可視光画像学習済みモデルに入力した場合の中間出力との差分が最小である第1の可視光画像学習済みモデルを選択する学習済みモデル選択部とを含むことを特徴とする遠赤外線撮像装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、転移学習技術に関する。
【背景技術】
【0002】
可視光がない夜間では、可視光カメラの代わりに赤外線カメラを用いて物体を撮影し、遠赤外線画像から人物など特定の物体を検出することになるが、遠赤外線画像に適した汎用の物体検出の学習済みモデルは入手が困難である。そこで、RGB画像を用いた汎用の物体検出の学習済みモデルに対して、赤外線画像を教師データとして学習し直す転移学習が行われている。
【0003】
特許文献1には、RGB映像とそれに対応する発話内容を教師データとして学習された学習済みのRGB映像モデルに対して、赤外線画像とそれに対応する発話内容を教師データとして用いて、転移学習を行い、赤外線映像モデルを生成する学習装置が開示されている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
RGB画像を用いた物体検出モデルに対して、遠赤外線画像を教師データとした転移学習を行うと、転移学習時に色情報が損失するため、転移学習後の物体検出モデルの推論の認識率が低くなるという問題があった。
【0006】
本発明はこうした状況に鑑みてなされたものであり、その目的は、推論精度の高い転移学習技術を提供することにある。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明のある態様の機械学習装置は、遠赤外線画像を取得する遠赤外線画像取得部と、前記取得された遠赤外線画像を可視光画像に変換する画像変換部と、可視光画像を教師データとして学習された第1の可視光画像学習済みモデルを記憶する可視光画像学習済みモデル記憶部と、前記変換された可視光画像を教師データとして用いて前記第1の可視光画像学習済みモデルを転移学習させて、第2の可視光画像学習済みモデルを生成する転移学習部とを含む。
【0008】
本発明の別の態様は、遠赤外線撮像装置である。この装置は、遠赤外線画像を取得する遠赤外線画像取得部と、前記取得された遠赤外線画像を可視光画像に変換する画像変換部と、遠赤外線画像を可視光画像に変換した画像を教師データとして用いて第1の可視光画像学習済みモデルを転移学習させて生成された第2の可視光画像学習済みモデルを用いて、前記変換された可視光画像から物体を検出する物体検出部とを含む。
【0009】
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。
【発明の効果】
【0010】
本発明によれば、推論精度の高い転移学習技術を提供することができる。
【図面の簡単な説明】
【0011】
【
図1】実施の形態に係る機械学習装置の構成図である。
【
図2】実施の形態に係る遠赤外線撮像装置の構成図である。
【
図3】別の実施の形態に係る機械学習装置の構成図である。
【
図4】さらに別の実施の形態に係る機械学習装置の構成図である。
【
図5】
図1の機械学習装置による転移学習手順を説明するフローチャートである。
【
図6】
図2の遠赤外線撮像装置による物体検出手順を説明するフローチャートである。
【発明を実施するための形態】
【0012】
図1は、実施の形態に係る機械学習装置100の構成図である。機械学習装置100は、遠赤外線画像取得部10、画像変換部20、転移学習部30、可視光画像学習済みモデル記憶部40、および遠赤外線可視光化画像学習済みモデル記憶部50を含む。
【0013】
遠赤外線画像取得部10は、遠赤外線撮像装置により撮影された遠赤外線画像を取得し、画像変換部20に供給する。
【0014】
画像変換部20は、遠赤外線画像と可視光画像を教師データとして機械学習された画像変換モデルにもとづいて遠赤外線画像を可視光画像に変換する。
【0015】
画像変換部20は、遠赤外線画像と可視光画像を教師データとして機械学習し、遠赤外線画像から可視光画像を生成する生成モデルを生成する生成部を含み、取得された遠赤外線画像を生成モデルに入力して可視光画像に変換する。
【0016】
機械学習の一例として、敵対的生成ネットワーク(GAN(Generative Adversarial Networks))を用いる。敵対的生成ネットワークでは、生成器(Generator)と識別器(Discriminator)という二つのニューラルネットワークが互いに敵対的な学習を行う。敵対的生成ネットワークを用いて画像から画像への変換を学習する方法として、CycleGANと呼ばれる手法と、Pix2Pixと呼ばれる手法がある。Pix2Pixでは、訓練データセットとして与える変換前後の画像が1対1に対応するペアとなっている必要があるが、CycleGANでは厳密なペアではない画像の組み合わせを訓練データセットとして用いて学習することができる。
【0017】
可視光画像学習済みモデル記憶部40は、可視光画像を教師データとして学習された物体検出用の第1の可視光画像学習済みモデルを記憶する。
【0018】
転移学習部30は、画像変換部20により変換された可視光画像を教師データとして用いて第1の可視光画像学習済みモデルを転移学習させて、第2の可視光画像学習済みモデルを生成する。
【0019】
転移学習では、第1の可視光画像学習済みモデルのニューラルネットワークに新たな層を追加して、遠赤外線画像から変換された可視光画像を教師データとして学習することにより、第2の可視光画像学習済みモデルのニューラルネットワークを生成する。
【0020】
遠赤外線可視光化画像学習済みモデル記憶部50は、転移学習後の第2の可視光画像学習済みモデルを記憶する。
【0021】
遠赤外線画像を可視光画像に変換した画像を教師データとするため、色情報を損失することなく、第1の可視光画像学習済みモデルを第2の可視光画像学習済みモデルに転移させることができる。
【0022】
第1の可視光画像学習済みモデルは、可視光画像を教師データとして学習された物体検出モデルであるため、遠赤外線画像を教師データとして再学習するより、遠赤外線画像から変換された可視光画像を教師データとして再学習する方が学習済みモデルとの親和性が高く、転移学習後の第2の可視光画像学習済みモデルは物体検出の精度がより高くなる。
【0023】
図2は、実施の形態に係る遠赤外線撮像装置200の構成図である。遠赤外線撮像装置200は、遠赤外線可視光化画像学習済みモデル記憶部50、遠赤外線画像取得部60、画像変換部70、物体検出部80、および検出結果表示部90を含む。遠赤外線可視光化画像学習済みモデル記憶部50は、
図1の遠赤外線可視光化画像学習済みモデル記憶部50の構成と同じであり、転移学習部30により生成された第2の可視光画像学習済みモデルが格納されている。
【0024】
遠赤外線画像取得部60は、遠赤外線撮像装置により撮影された遠赤外線画像を取得し、画像変換部70に供給する。
【0025】
画像変換部70は、遠赤外線画像と可視光画像を教師データとして機械学習された画像変換モデルにもとづいて遠赤外線画像を可視光画像に変換する。画像変換部70は、
図1の画像変換部20の構成と同じである。
【0026】
物体検出部80は、遠赤外線可視光化画像学習済みモデル記憶部50に記憶された第2の可視光画像学習済みモデルを用いて、変換された可視光画像から物体を検出する。
【0027】
ここで、第2の可視光画像学習済みモデルは、遠赤外線画像を可視光画像に変換した画像を教師データとして用いて第1の可視光画像学習済みモデルを転移学習させて生成された物体検出モデルである。転移学習後の第2の可視光画像学習済みモデルを用いることにより、遠赤外線画像を変換した可視光画像から物体を検出する際の認識精度が向上する。
【0028】
検出結果表示部90は、変換後の可視光画像または変換前の遠赤外線画像において、検出された物体を枠で囲むなどにより検出結果を表示する。
【0029】
図3は、別の実施の形態に係る機械学習装置100の構成図である。
図3の機械学習装置100は学習済みモデル選択部15を含む点が
図1の機械学習装置100とは異なる。ここでは、
図1の機械学習装置100と異なる構成について説明し、
図1の機械学習装置100と同じ構成については適宜説明を省略する。
【0030】
学習済みモデル選択部15は、複数の第1の可視光画像学習済みモデルの内、画像変換部20により変換された可視光画像から物体検出するのに最も適した第1の可視光画像学習済みモデルを選択し、選択された第1の可視光画像学習済みモデルを可視光画像学習済みモデル記憶部40に保存する。
【0031】
最適な第1の可視光画像学習済みモデルを選択する方法をより具体的に説明する。複数の第1の可視光画像学習済みモデルとして学習済みモデルA、B、Cの3つがあり、学習済みモデルA、B、Cの教師データとして用いられた可視光画像を教師データA、B、Cとする。画像変換部20により変換された可視光画像を教師データXとする。教師データXに対する教師データA、B、Cの類似度を算出し、学習済みモデルA、B、Cの内、類似度が最も高い学習済みモデルを最適な第1の可視光画像学習済みモデルとして選択する。
【0032】
学習済みモデルA、B、Cに教師データA、B、Cを入力した場合の中間出力であるニューラルネットワークの後段の中間層の特徴量A’、B’、C’と、学習済みモデルA、B、Cに教師データXを入力した場合の中間出力であるニューラルネットワークの後段の中間層の特徴量XA’、XB’、XC’との差分から教師データの類似度を算出する。差分が小さいほど類似度は高い。学習済みモデルA、B、Cの内、差分が最小である学習済みモデルを最適な第1の可視光画像学習済みモデルとして選択する。
【0033】
転移学習部30は、最適な第1の可視光画像学習済みモデルを可視光画像学習済みモデル記憶部40から読み出して、画像変換部20により変換された可視光画像を教師データとして用いて最適な第1の可視光画像学習済みモデルを転移学習させて、第2の可視光画像学習済みモデルを生成する。
【0034】
転移学習は、学習済みモデルの重みや係数などのパラメータをそのまま活用するため、教師データの類似度が高い学習済みモデルを選択して転移学習することにより、推論精度を向上させることができる。
【0035】
図4は、さらに別の実施の形態に係る機械学習装置100の構成図である。
図4の画像変換部20の構成と動作が
図1の機械学習装置100の画像変換部20とは異なり、それ以外の構成は
図1の機械学習装置100と同じであるから重複する説明は適宜省略する。
【0036】
画像変換部20の生成部は、遠赤外線画像取得部10により取得された遠赤外線画像と、可視光画像学習済みモデル記憶部40に記憶された第1の可視光画像学習済みモデルの教師データとして用いられた可視光画像とを教師データとして用いて生成モデルを機械学習により生成する。画像変換部20は、第1の可視光画像学習済みモデルで使用した可視光画像を教師データとして用いて生成された生成モデルを用いて、遠赤外線画像を可視光画像に変換する。
【0037】
遠赤外線画像取得部10により取得された遠赤外線画像と第1の可視光画像学習済みモデルの教師データとして用いられた可視光画像とは1対1に対応するペアではない。そのため、機械学習として敵対的生成ネットワークを利用する場合は、厳密なペアではない画像の組み合わせを訓練データセットとして用いて学習することのできるCycleGANを用いる必要がある。
【0038】
物体検出用の第1の可視光画像学習済みモデルの教師データとして用いられた可視光画像を画像変換部20による生成モデルの機械学習に用いることにより、画像変換部20により遠赤外線画像から変換される可視光画像が物体検出モデルに適したものになる。
【0039】
画像変換部20の生成部は、遠赤外線画像と可視光画像を教師データとして敵対的生成ネットワークで機械学習し、遠赤外線画像から可視光画像を生成する生成モデルを生成する。この可視光画像として、転移学習部30による転移学習で用いる第1の可視光画像学習済みモデルの教師データとして用いられた可視光画像を教師データYとして用いる。これにより画像変換部20により遠赤外線画像から変換された可視光画像Zは教師データYの特徴を反映したものとなり、可視光画像Zは、後段の転移学習部30の入力として有効な教師データZとなる。
【0040】
転移学習は、学習済みモデルの重みや係数などのパラメータをそのまま活用するため、教師データYと教師データZの相関性が高ければ、転移学習済みモデルを高精度化することができ、推論精度を向上させることができる。
【0041】
図5は、機械学習装置100によって、第1の可視光画像学習済みモデルを転移学習させて、第2の可視光画像学習済みモデルを生成する手順を説明するフローチャートである。
【0042】
遠赤外線カメラにより撮影された夜間赤外線画像を取得する(S10)。
【0043】
夜間遠赤外線画像と昼間可視光画像を教師データとして機械学習された生成モデルを用いて、取得された夜間遠赤外線画像を昼間可視光画像に変換する(S20)。
【0044】
変換された昼間可視光画像を教師データとして用いて、物体検出用の第1の可視光画像学習済みモデルを転移学習させて、第2の可視光画像学習済みモデルを生成する(S30)。
【0045】
図6は、遠赤外線撮像装置200によって、第1の可視光画像学習済みモデルを転移学習させて生成された第2の可視光画像学習済みモデルを用いて、可視光画像から物体を検出する手順を説明するフローチャートである。
【0046】
遠赤外線撮像装置200により撮影された夜間遠赤外線画像を取得する(S50)。
【0047】
夜間遠赤外線画像と昼間可視光画像を教師データとして機械学習された生成モデルを用いて、取得された夜間遠赤外線画像を昼間可視光画像に変換する(S60)。
【0048】
第1の可視光画像学習済みモデルを転移学習させて生成された第2の可視光画像学習済みモデルを用いて、変換された昼間可視光画像から物体を検出する(S70)。
【0049】
変換後の昼間可視光画像において、検出された物体を枠で囲むなどにより強調表示する(S80)。変換前の夜間遠赤外線画像において、検出された物体を枠で囲んで強調表示してもよい。
【0050】
以上説明した機械学習装置100および遠赤外線撮像装置200の各種の処理は、CPUやメモリ等のハードウェアを用いた装置として実現することができるのは勿論のこと、ROM(リード・オンリ・メモリ)やフラッシュメモリ等に記憶されているファームウェアや、コンピュータ等のソフトウェアによっても実現することができる。そのファームウェアプログラム、ソフトウェアプログラムをコンピュータ等で読み取り可能な記録媒体に記録して提供することも、有線あるいは無線のネットワークを通してサーバと送受信することも、地上波あるいは衛星ディジタル放送のデータ放送として送受信することも可能である。
【0051】
以上述べたように、汎用の学習済み物体検出モデルは、可視光画像を教師データとして学習されているため、転移学習時に遠赤外線画像のような白黒画像を教師データとして用いて再学習すると、色情報の欠如のため、学習済みモデルにおいて色情報を反映していたパラメータがうまく適応されず、推論精度が低下する。それに対して、本発明の実施の形態によれば、遠赤外線画像を可視光画像に変換してから、可視光画像を教師データとして学習済みの汎用の物体検出モデルを転移学習させるため、学習済みモデルにおいて色情報を反映していたパラメータが損なわれることなく、変換後の可視光画像で再学習されるため、推論精度が向上する。
【0052】
物体検出モデルは、遠赤外線画像よりも可視光画像の場合に検出精度が高い。また、汎用の学習済み物体検出モデルを利用する場合、可視光画像用の学習済み物体検出モデルは一般に公開されており入手しやすいが、遠赤外線画像用の学習済みモデルは入手困難である。本発明の実施の形態によれば、遠赤外線画像から変換された可視光画像を教師データとして汎用の可視光画像用の学習済み物体検出モデルを転移学習させるため、遠赤外線画像から変換された可視光画像において、画像の色情報を用いて人物や物体をより高い精度で検出することができる。
【0053】
以上、本発明を実施の形態をもとに説明した。実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
【符号の説明】
【0054】
10 遠赤外線画像取得部、 15 学習済みモデル選択部、 20 画像変換部、 30 転移学習部、 40 可視光画像学習済みモデル記憶部、 50 遠赤外線可視光化画像学習済みモデル記憶部、 60 遠赤外線画像取得部、 70 画像変換部、 80 物体検出部、 90 検出結果表示部、 100 機械学習装置、 200 遠赤外線撮像装置。