(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023114477
(43)【公開日】2023-08-18
(54)【発明の名称】複数の撮影条件下における認識対象物のマルチモーダル画像を用いた画像認識学習システム、画像認識学習方法および画像認識学習プログラム
(51)【国際特許分類】
G06V 10/80 20220101AFI20230810BHJP
G06T 7/00 20170101ALI20230810BHJP
G06F 16/53 20190101ALI20230810BHJP
G06N 20/00 20190101ALI20230810BHJP
【FI】
G06V10/80
G06T7/00 350B
G06F16/53
G06N20/00 130
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022016781
(22)【出願日】2022-02-06
(71)【出願人】
【識別番号】501170080
【氏名又は名称】株式会社創発システム研究所
(74)【代理人】
【識別番号】100134669
【弁理士】
【氏名又は名称】永井 道彰
(72)【発明者】
【氏名】鷲見 和彦
(72)【発明者】
【氏名】小島 大輝
(72)【発明者】
【氏名】松本 卓也
(72)【発明者】
【氏名】尾代 達哉
【テーマコード(参考)】
5B175
5L096
【Fターム(参考)】
5B175DA02
5B175FA01
5B175FB04
5B175HB03
5L096BA04
5L096BA06
5L096CA04
5L096CA05
5L096JA11
5L096KA04
(57)【要約】 (修正有)
【課題】第1及び第2のモダリティを利用して認識対象物の学習モデルを構築する画像認識学習システム、方法及びプログラムを提供する。
【解決手段】画像認識学習システム100は、第1のモダリティ及び第2のモダリティで撮影されたマルチモーダル画像データを入力するマルチモーダル画像データ入力部110、マルチモーダル画像データをマルチモーダル画像空間へ投影する投影処理機能を備えたマルチモーダル空間投影処理部120、第1のモダリティの画像データをマルチモーダル画像空間に投影し、正解ラベル付けを行って学習させる正解学習処理部130、第2のモダリティの画像データをマルチモーダル画像空間に投影し、学習結果の群と似通った特徴量を持つ群に疑似ラベル付けを行って疑似学習させる疑似学習処理部140及び疑似学習結果の群を、マルチモーダル画像空間に再投影し、正解学習結果を拡張する拡張学習を行う拡張学習処理部150を備える。
【選択図】
図1
【特許請求の範囲】
【請求項1】
複数の撮影条件下における認識対象物のマルチモーダル画像データを用いて、前記認識対象物の特徴量の変化が大きい第1のモダリティと、前記認識対象物の特徴量の変化が小さい第2のモダリティを利用して学習することにより前記認識対象物の画像認識精度を向上する画像認識学習システムであって、
前記第1のモダリティで撮影された画像データおよび前記第2のモダリティで撮影された前記マルチモーダル画像データを入力するマルチモーダル画像データ入力部と、
前記複数の撮影条件の条件軸と、画像の特徴量の特徴量軸で形成されるマルチモーダル画像空間を管理するマルチモーダル画像空間管理機能と、入力された前記マルチモーダル画像データを前記マルチモーダル画像空間へ投影する投影処理機能を備えたマルチモーダル空間投影処理部と、
前記第1のモダリティで撮影された画像データを前記マルチモーダル空間投影処理部により前記マルチモーダル画像空間に投影し、正解ラベル付けを行って学習させる前記第1のモダリティ下の正解学習処理部と、
前記第2のモダリティで撮影された画像データを前記マルチモーダル空間投影処理部により前記マルチモーダル画像空間に投影し、前記正解学習処理部による前記学習結果の群と似通った特徴量を持つ群に疑似ラベル付けを行って疑似学習させる前記第2のモダリティ下の疑似学習処理部と、
前記疑似学習処理部の前記第2のモダリティ下の疑似学習結果の群を、前記マルチモーダル空間投影処理部により前記マルチモーダル画像空間に再投影し、当該投影結果をもとにして前記第1のモダリティ下の正解学習結果を拡張する拡張学習を行う拡張学習処理部を備えたことを特徴とするマルチモーダル画像を用いた画像認識学習システム。
【請求項2】
前記正解学習処理部による前記第1のモダリティ下の前記正解学習処理と、前記疑似学習処理部による前記第2のモダリティ下の疑似学習処理と、前記拡張学習処理部による前記拡張学習処理を再帰的に繰り返して拡張学習モデルを構築することを特徴とする請求項1に記載のマルチモーダル画像を用いた画像認識学習システム。
【請求項3】
前記マルチモーダル画像の複数の前記撮影条件が3以上あり、前記第1のモダリティと前記第2のモダリティの2つに加え、前記マルチモーダル画像データが他のモダリティ下での撮影画像データもセットとして備えたものであり、
前記マルチモーダル空間投影処理部の前記マルチモーダル画像空間管理機能が、3つ以上の条件軸と、画像の特徴量の特徴量軸を備えたマルチモーダル画像空間を管理し、前記正解学習処理部と前記疑似学習処理部と前記拡張学習処理部が、前記第1のモダリティと前記第2のモダリティの2つに加え、前記他のモダリティも取り扱うことができることを特徴とする請求項1または2に記載のマルチモーダル画像を用いた画像認識学習システム。
【請求項4】
前記認識対象物が走行車両であり、
前記第1のモダリティが照明条件であり、
前記第2のモダリティが気象条件であり、
前記マルチモーダル画像が、可視光画像と赤外線画像のセットであることを特徴とする請求項1または2に記載のマルチモーダル画像を用いた画像認識学習システム。
【請求項5】
前記可視光画像を撮影するカメラ、および前記赤外線画像を撮影する赤外線カメラの設置箇所が走行路に沿って複数個所あり、それぞれの撮影箇所に応じて構築された前記学習モデルを備えた車両追跡部を備え、
それぞれの撮影箇所における前記可視光画像または前記赤外線画像中から検知した前記走行車両画像をもとに、前記車両追跡部により前記走行車両を追跡してゆくことを特徴とする請求項4に記載のマルチモーダル画像を用いた画像認識学習システム。
【請求項6】
前記認識対象物が生物の患部であり、
前記第1のモダリティが、可視光吸収条件、超音波反射条件、X線吸収条件、またはMRI反応条件のいずれかであり、前記第2のモダリティが前記第1のモダリティとは異なる残りの条件のいずれかであり、
前記マルチモーダル画像が、可視光画像、超音波画像、X線画像、またはMRI画像のうち、前記第1のモダリティおよび前記第2のモダリティに相当する画像のセットであることを特徴とする請求項1から3のいずれかに記載のマルチモーダル画像を用いた画像認識学習システム。
【請求項7】
複数の撮影条件下における認識対象物のマルチモーダル画像データを用いて、前記認識対象物の特徴量の変化が大きい第1のモダリティと、前記認識対象物の特徴量の変化が小さい第2のモダリティを利用して学習することにより前記認識対象物の画像認識精度を向上する画像認識学習方法であって、
前記マルチモーダル画像データを入力するマルチモーダル画像データ入力処理と、
前記複数の撮影条件の条件軸と、画像の特徴量の特徴量軸で形成されるマルチモーダル画像空間を管理するマルチモーダル画像空間管理機能と、前記マルチモーダル画像データから前記第1のモダリティで撮影された画像データおよび前記第2のモダリティで撮影された画像データをそれぞれ前記マルチモーダル画像空間へ投影する投影処理機能を備えたマルチモーダル空間投影処理と、
前記第1のモダリティで撮影された画像データを前記マルチモーダル空間投影処理により前記マルチモーダル画像空間に投影し、前記特徴量が似通っている群に正解ラベル付けを行って学習させる前記第1のモダリティ下の正解学習処理と、
前記第2のモダリティで撮影された画像データを前記マルチモーダル空間投影処理により前記マルチモーダル画像空間に投影し、前記正解学習処理による前記学習結果の群と似通った特徴量を持つ群に疑似ラベル付けを行って疑似学習させる前記第2のモダリティ下の疑似学習処理と、
前記疑似学習処理の前記第2のモダリティ下の疑似学習結果の群を、前記マルチモーダル空間投影処理により前記マルチモーダル画像空間に再投影し、当該投影結果をもとにして前記第1のモダリティ下の正解学習結果を拡張する拡張学習処理を備えたことを特徴とするマルチモーダル画像を用いた画像認識学習方法。
【請求項8】
コンピュータで読み取り可能な保存媒体に保存されたコンピュータプログラムであって、 前記コンピュータプログラムは、複数の撮影条件下における認識対象物のマルチモーダル画像を用いて、前記認識対象物の特徴量の変化が大きい第1のモダリティと、前記認識対象物の特徴量の変化が小さい第2のモダリティを利用して学習することにより前記認識対象物の画像認識精度を向上する画像認識学習プログラムであって、前記画像認識プログラムは1つ以上のプロセッサーに以下の複数段階の処理ステップを実行させるための命令を含み、前記処理ステップは、 前記マルチモーダル画像データを入力するマルチモーダル画像データ入力処理ステップと、
前記複数の撮影条件の条件軸と、画像の特徴量の特徴量軸で形成されるマルチモーダル画像空間を管理するマルチモーダル画像空間管理機能と、前記マルチモーダル画像データから前記第1のモダリティで撮影された画像データおよび前記第2のモダリティで撮影された画像データをそれぞれ前記マルチモーダル画像空間へ投影する投影処理機能を備えたマルチモーダル空間投影処理ステップと、
前記第1のモダリティで撮影された画像データを前記マルチモーダル空間投影処理ステップにより前記マルチモーダル画像空間に投影し、前記特徴量が似通っている群に正解ラベル付けを行って学習させる前記第1のモダリティ下の正解学習処理ステップと、
前記第2のモダリティで撮影された画像データを前記マルチモーダル空間投影処理ステップにより前記マルチモーダル画像空間に投影し、前記正解学習処理ステップによる前記学習結果の群と似通った特徴量を持つ群に疑似ラベル付けを行って疑似学習させる前記第2のモダリティ下の疑似学習処理ステップと、
前記疑似学習処理ステップの前記第2のモダリティ下の疑似学習結果の群を、前記マルチモーダル空間投影処理ステップにより前記マルチモーダル画像空間に再投影し、当該投影結果をもとにして前記第1のモダリティ下の正解学習結果を拡張する拡張学習処理ステップを備えたことを特徴とするマルチモーダル画像を用いた画像認識学習プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の撮影条件下における認識対象物のマルチモーダル画像を用いて、認識対象物の画像認識精度を向上する画像認識学習システム、画像認識学習方法および画像認識学習プログラムに関する。
例えば、認識対象物としては、道路を通行する車両、人体の患部などがある。
【背景技術】
【0002】
近年、いわゆるAI(人工知能)が発展しつつあり、カメラなどの撮影画像に写り込んだ認識対象物を検知する画像認識処理も自動化されつつある。AIを用いた自動処理ではあらかじめ機械学習を行ってAI学習モデルを作成する必要である。画像認識を行うためのAIモデルを生成するためには、認識処理物が写り込んだ画像を学習データとして与えて機械学習が行われる。例えば、教師あり学習では、学習データとして、画像データと、その画像に対応する『正解ラベル』がセットで用いられる。
しかし、通常、画像データにあらかじめ正解ラベルが付いていることはない。そのため、機械学習に供する画像データに正解ラベルを付与することが必要となる。
【0003】
AIの機械学習に用いる画像データに対するラベル付け作業では、その画像に何が写っているかを示す情報を正解ラベルを逐一付与する作業が必要となっていた。つまり、従来技術では、一般には人海戦術により画像内の物体を検出するための機械学習に用いる画像データに対するラベル付け作業を行い、与える画像のどの部分にどんな物体が写っているのかを示す情報を『正解ラベル』として付与する。
【0004】
従来技術では、このラベル付け作業は自動化することが困難であり、一般的には人手で行わざるを得なかった。精度の高いAIモデルを生成するには大量の学習データが必要である。そのため、人による膨大な作業工数が必要とされるという問題があった。
【0005】
特許文献1(特開2017-224184号公報)には、ラベル付け作業を支援する技術が開示されている。この特許文献1において、機械学習制御部は、訓練データまたはテストデータとして選択された画像のうち、ラベル付け作業が未実施の画像を、任意の順序でいずれか一枚ずつ表示装置に表示させる。次に、機械学習制御部は、ユーザが入力装置を介して入力した上記画像を説明するテキストデータまたは数値データを受け取り、このデータを上記画像の教師データフィールドに記録する。ここで、属性特徴量が同一の画像については、機械学習制御部が同一の画像の教師データフィールドに同一のデータを記録する。これにより、ユーザによるラベル付け作業回数を低減することができるとされている。
【0006】
例えば、特許文献2には、学習部と予測部を用いて省力化する技術が開示されている。正解ラベルが付与された学習データを用いた機械学習により生成する学習部と、予測モデルを用いて与えられた候補データにおける前記予測事項を予測する予測部と、候補データに対して予測された予測事項に基づき、候補データに付与する正解ラベルの候補である疑似ラベルを候補データに付与し、候補データに対する正解ラベルとして疑似ラベルが妥当か否かを作業者が逐一決定し、疑似ラベルが正解ラベルとして妥当と決定された候補データとその疑似ラベルとを、学習データに登録するラベル処理部と、予測モデルを用いて予測事項を予測した結果が所定の条件を満たすまで、学習部、予測部、およびラベル処理部に処理を繰り返させる学習管理部を有した構成となっている。
【0007】
【特許文献1】特開2017-224184号公報
【特許文献2】特開2021-089491号公報
【発明の開示】
【発明が解決しようとする課題】
【0008】
しかし、上記従来のラベル付け作業処理技術には、改善すべき問題がある。
特許文献1の技術によれば、特徴量が同一の画像については、機械学習制御部が同一の画像の教師データフィールドに同一のデータを記録するので、特徴量が同一の画像は一度付与した正解データが候補として再利用でき、ユーザによるラベル付け作業回数を低減することができ、人手で行う作業が省力化されている。
しかし、特許文献1の技術では常に人手で確認しつつ正解ラベルを付与してゆく必要があり、認識対象物を撮影した画像が均質に同一条件で撮影されたものばかりであれば、機械的に有力な候補が作業者に提示され、それから選択するだけで良く正解ラベル付けが省力化されるが、実際には認識対象物を撮影した画像が均質に同一条件で撮影されたものばかりとは限らない。つまり、この特許文献1の技術で大きく省力化できるものは認識対象物を撮影した画像が均質に同一条件で撮影されたものばかりが用意された場合に限られてしまう。この特許文献1の技術を用いて作成されたAIモデルは適用範囲、適用条件が相当狭いものとなってしまう。また、人手で一枚一枚の画像を確認して正解ラベルを付与しなければならない点は変わらない。
【0009】
特許文献2の技術は、疑似ラベルという概念を用いて、入力された画像データに対して正解ラベルを付与する前に疑似ラベルを機械的に試行付与して自動処理を進める点において、特許文献1の技術より進歩していることは評価できる。
しかし、予測部を用いるとされているおり、この予測部が予測モデルを必要とすると考えられ、精度良い予測部をあらかじめ用意することは容易ではない。人手によって疑似ラベルが正解ラベルとして妥当か否かの二者択一の判定を経てラベル付け作業を進めるので、人手が大きく必要である点は変わらない。
また、機械学習を行う学習部と予測モデルを用いた予測部が相互に機能しあうためには、認識対象物を撮影した画像が均質に同一条件で撮影されたものばかりであればある程度期待できるが、実際には認識対象物を撮影した画像が均質に同一条件で撮影されたものばかりとは限らない。つまり、この特許文献2の技術で大きく省力化できるものは、やはり認識対象物を撮影した画像が均質に同一条件で撮影されたものばかりが用意された場合に限られてしまう。この特許文献2の技術を用いて作成されたAIモデルは適用範囲、適用条件が相当狭いものとなってしまう。
【0010】
例えば、道路を通行する車両の撮影環境や撮影条件は、照明条件と気象条件で影響を受け、可視画像では特に照明条件で大きく影響を受けるものとなり、晴れの昼間の可視画像や、車両メーカーから提供される外観の静止画像だけを用いた機械学習では明らかに不十分であり、そのような機械学習のみしか行っていないAIモデルでは実運用上では適用できない。つまり、晴天、曇天、雨天、夜間など多様な条件でも学習する必要がある。
上記した従来技術の特許文献1,2の技術による機械学習を適用すると、晴天、曇天、雨天、夜間などの条件ごとに学習が必要となり、条件の数だけ掛け算的に学習数を増やさざるを得ない。
【0011】
同様に、例えば、人体の患部であれば、撮影画像が使用する撮像機械により撮影条件が大きく影響を受けるものとなり、患部をカメラで撮影した可視画像、患部に超音波を当ててその反射波を画像化した超音波画像、患部にX線を当ててその透過波を撮影して画像化したX線画像やCT画像、患部に核磁気共鳴を起こし、その放射波を撮影して画像化したMRI画像など、多様であり、ある画像の機械学習のみしか行っていないAIモデルでは適用範囲が限定的である。
上記した従来技術の特許文献1,2の技術による機械学習を適用すると、可視画像、超音波画像、X線画像、CT画像、MRI画像などの条件ごとに学習が必要となり、条件の数だけ掛け算的に学習数を増やさざるを得ない。
【0012】
上記問題を解決するため、本発明は、モダリティに注目し、複数の撮影条件下におけるマルチモーダル画像を学習に用いて、認識対象物の特徴量の変化が大きい第1のモダリティと、認識対象物の特徴量の変化が小さい第2のモダリティを利用してマルチモーダル画像を用いた機械学習を行うことにより認識対象物の画像認識精度を向上する学習モデルを構築するシステム、方法、プログラムを提供するものである。
【課題を解決するための手段】
【0013】
上記目的を達成するため、本発明のマルチモーダル画像を用いた画像認識学習システムは、複数の撮影条件下における認識対象物のマルチモーダル画像データを入力するマルチモーダル画像データ入力部と、
前記複数の撮影条件の条件軸と、画像の特徴量の特徴量軸で形成されるマルチモーダル画像空間を管理するマルチモーダル画像空間管理機能と、前記マルチモーダル画像データから前記第1のモダリティで撮影された画像データおよび前記第2のモダリティで撮影された画像データをそれぞれ前記マルチモーダル画像空間へ投影する投影処理機能を備えたマルチモーダル空間投影処理部と、
前記第1のモダリティで撮影された画像データを前記マルチモーダル空間投影処理部により前記マルチモーダル画像空間に投影し、前記特徴量が似通っている群に正解ラベル付けを行って学習させる前記第1のモダリティ下の正解学習処理部と、
前記第2のモダリティで撮影された画像データを前記マルチモーダル空間投影処理部により前記マルチモーダル画像空間に投影し、前記正解学習処理部による前記学習結果の群と似通った特徴量を持つ群に疑似ラベル付けを行って疑似学習させる前記第2のモダリティ下の疑似学習処理部と、
前記疑似学習処理部の前記第2のモダリティ下の疑似学習結果の群を、前記マルチモーダル空間投影処理部により前記マルチモーダル画像空間に再投影し、当該投影結果をもとにして前記第1のモダリティ下の正解学習結果を拡張する拡張学習処理部を備えたことを特徴とするマルチモーダル画像を用いた画像認識学習システムである。
【0014】
上記構成により、本発明は、複数の撮影条件下における認識対象物のマルチモーダル画像を用いて、マルチモーダル画像空間上での第1のモダリティ下での「正解学習」と、その正解学習から特徴量の似通った群を集め、第2のモダリティ下でのその正解学習群に似通った特徴の類似群に疑似ラベルをつける「疑似学習」と、その疑似学習の結果を再度第1のモダリティ下でまとめる「拡張学習」を行うことにより、初期の第1のモダリティ下での「正解学習」では正解ラベルの付いていない画像データにも第2のモダリティ空間上での類似群をまとめる「疑似学習」ができ、「正解学習」を拡張して「拡張学習」ができ、精度良いAIモデルを構築することができ、認識対象物の画像認識精度を向上することができる。
【0015】
上記構成において、前記正解学習処理部による前記第1のモダリティ下の前記正解学習処理と、前記疑似学習処理部による前記第2のモダリティ下の疑似学習処理と、前記拡張学習処理部による前記拡張学習処理を再帰的に繰り返して前記学習モデルを構築することが好ましい。
上記構成により、マルチモーダル画像空間上での第1のモダリティ下の「正解学習」→第1のモダリティ下の「正解学習」から群を形成 →第2のモダリティ下での類似群をまとめる「疑似学習」→第1のモダリティ下での「正解学習」を拡張した「拡張学習」の流れを増やしてゆくことにより、精度良いAIモデルを構築することができる。
【0016】
複数のモダリティは相互補完的な情報を有するケースがあり、複数の撮影条件下における認識対象物のマルチモーダル画像を用いれば、一方のモダリティでは撮影条件の変化によるテクスチャの変化が大きく特徴量の変化も大きい場合、他方のモダリティでは撮影条件の変化によるテクスチャの変化が小さく特徴量の変化も小さい場合は、後者のモダリティで学習させた結果を補完的に利用することにより前者のモダリティにおける疑似ラベル付けが可能となる。
【0017】
具体的な適用対象としては、例えば、認識対象物を走行車両とし、第1のモダリティが照明条件であり、第2のモダリティが気象条件であり、マルチモーダル画像が、可視光画像と赤外線画像のセットとする。
可視光画像は照明条件の変化でテクスチャの変化が大きく特徴量の変化も大きいが、天候条件の変化でテクスチャの変化が小さく特徴量の変化も小さい。逆に、赤外線画像は照明条件の変化でテクスチャの変化が小さく特徴量の変化も小さいが、天候条件の変化でテクスチャの変化が大きく特徴量の変化も大きい。このように相互補完の関係性が利用でき、正解学習をもとに疑似学習が効率的に実行でき、疑似学習をもとに拡張学習ができる。
【0018】
その他に、具体的な適用対象としては、例えば、認識対象物を生物の患部とし、第1のモダリティが、可視光吸収条件、超音波反射条件、X線吸収条件、またはMRI反応条件のいずれかであり、第2のモダリティがその第1のモダリティとは異なる残りの条件のいずれかとする例がある。患部の特性により可視光吸収条件、超音波反射条件、X線吸収条件、またはMRI反応条件が異なり、第1のモダリティと第2のモダリティをうまく選択することにより効率的な機械学習を行うことができる。
【0019】
さらに応用として、マルチモーダル画像の複数の撮影条件が3以上あり、第1のモダリティと第2のモダリティの2つに加え、第3のモダリティ、第4のモダリティなど多次元化することができ、マルチモーダル画像データがそれら多次元のモダリティ下での撮影画像データもセットとして備えたものとすることもできる。この場合、マルチモーダル空間投影処理部のマルチモーダル画像空間管理機能が、3つ以上の条件軸と、画像の特徴量の特徴量軸を備えたマルチモーダル画像空間を管理し、正解学習処理部と疑似学習処理部と拡張学習処理部が、第1のモダリティと第2のモダリティの2つに加え、他のモダリティも取り扱うものとして、多次元化した処理を実行する。
【0020】
次に、応用としては、画像中の認識対象物の認識を時系列に行って認識対象物の追跡処理も実行できる。例えば、認識対象物を走行車両とする場合は、カメラで撮影した可視光画像および赤外線カメラで撮影した赤外線画像の撮影箇所が複数個所あれば、それぞれの撮影箇所に応じて学習モデルが構築されておれば、追跡システムの構築も可能である。つまり、それぞれの撮影箇所における可視光画像または赤外線画像中から検知した走行車両画像をもとに走行車両を追跡してゆく車両追跡部を備えれば良い。
【0021】
本発明のマルチモーダル画像を用いた画像認識学習方法は、
複数の撮影条件下における認識対象物のマルチモーダル画像を入力するマルチモーダル画像入力処理と、
前記複数の撮影条件の条件軸と、画像の特徴量の特徴量軸で形成されるマルチモーダル画像空間を管理するマルチモーダル画像空間管理機能と、前記マルチモーダル画像データから前記第1のモダリティで撮影された画像データおよび前記第2のモダリティで撮影された画像データをそれぞれ前記マルチモーダル画像空間へ投影する投影処理機能を備えたマルチモーダル空間投影処理と、
前記第1のモダリティで撮影された画像データを前記マルチモーダル空間投影処理により前記マルチモーダル画像空間に投影し、前記特徴量が似通っている群に正解ラベル付けを行って学習させる前記第1のモダリティ下の正解学習処理と、
前記第2のモダリティで撮影された画像データを前記マルチモーダル空間投影処理により前記マルチモーダル画像空間に投影し、前記正解学習処理による前記学習結果の群と似通った特徴量を持つ群に疑似ラベル付けを行って疑似学習させる前記第2のモダリティ下の疑似学習処理と、
前記疑似学習処理の前記第2のモダリティ下の疑似学習結果の群を、前記マルチモーダル空間投影処理により前記マルチモーダル画像空間に再投影し、当該投影結果をもとにして前記第1のモダリティ下の正解学習結果を拡張する拡張学習処理を備えたものである。
【0022】
なお、上記処理ステップをコンピュータプログラムとして記述し、コンピュータで読み取り可能な保存媒体に保存して提供することも可能である。
【図面の簡単な説明】
【0023】
【
図1】実施例1にかかる画像認識学習システム100の基本構成例を簡単に説明した図である。
【
図2】マルチモーダル画像空間投影処理部120の「マルチモーダル画像空間管理機能」のマルチモーダル画像空間の概念と、「投影処理機能」により認識対象物のマルチモーダル画像がプロットされる概念を簡単に示している図である。
【
図3】疑似学習処理部140による疑似学習の概念を簡単に示した図である。
【
図4】拡張学習処理部150による拡張学習による拡張された認識対象群をもとに拡張学習モデルが形成される概念を簡単に示す図である。
【
図5】マルチモーダル空間投影処理部120のキャリブレーション機能123によるキャリブレーション処理の実例について簡単に示す図である。
【
図6】正解学習モデルDAの構築例を示した図である。
【
図7】疑似学習モデルDBの構築例を示す図である。
【
図8】拡張学習モデルDA(+)の構築例を示す図である。
【
図9】昼間のテスト画像や夜間のテスト画像など幾つかの代表的パターンのものを入力し、正解学習モデルDAを用いて認識対象物をAI検出させた結果を示す図である。
【
図10】同じテスト画像を用いて、拡張学習モデルDA(+)により認識対象物をAI検出させた結果を示す図である。
【
図11】車両追跡システム200を簡単に示す図である。
【
図12】カメラ装置220から得られた或るカメラ撮影画像において検出した車両ごとに認識した結果を示す図である。
【発明を実施するための最良の形態】
【0024】
以下、図面を参照しつつ、本発明の画像認識学習システムの実施例を説明する。ただし、本発明の範囲は以下の実施例に示した具体的な用途、形状、個数などには限定されないことは言うまでもない。
【実施例0025】
実施例1として、本発明のマルチモーダル画像を用いた画像認識学習システムの基本構成例を示す。
図1は、実施例1にかかる画像認識学習システム100の基本構成例を簡単に説明した図である。
図1に示すように、画像認識学習システム100は、マルチモーダル画像データ入力部110、マルチモーダル画像空間投影処理部120、正解学習処理部130、疑似学習処理部140、拡張学習処理部150、学習モデル格納部160を備えた構成となっている。
専用システムとして、上記した構成要素が、マイクロプログラムが組み込まれたハードウェアで提供されても良いし、また、専用システムではなく汎用のコンピュータ資源として、CPU、GPU、メモリ、記憶装置、プログラムなどを備え、上記した構成要素が、CPU、GPU、メモリ、記憶装置、プログラムの連動により構成されるものでも良い。
【0026】
マルチモーダル画像データとは、複数の撮影条件下における認識対象物の画像データである。例えば、昼間晴天、昼間曇天、昼間雨天など異なる気象条件下にてカメラで撮影した「可視光画像」、夜間晴天で照明下、夜間雨天で照明下など赤外線カメラにて撮影した「赤外線画像」がある。同じ認識対象物についてこれら複数の撮影条件下における画像セットがマルチモーダル画像データとなる。
なお、病院やクリニック内で撮影された患部の「可視光画像」、「超音波画像」、「X線画像」、「MRI画像」がある。同じ認識対象物(患部)についてこれら複数の撮影条件下における画像セットがマルチモーダル画像データとなる。
【0027】
次に、以下、各構成要素を説明する。
マルチモーダル画像データ入力部110は、認識対象物のマルチモーダル画像データを入力する部分である。
ここでは、一例として認識対象物が走行車両の例とする。マルチモーダル画像データは昼間晴天、昼間曇天、昼間雨天など異なる気象条件下にてカメラで撮影した「可視光画像」、夜間晴天で照明下、夜間雨天で照明下など赤外線カメラにて撮影した「赤外線画像」の画像セットとする。
【0028】
マルチモーダル画像空間投影処理部120は、マルチモーダル画像空間を管理する「マルチモーダル画像空間管理機能」121を備えている。さらに、マルチモーダル画像空間投影処理部120は、マルチモーダル画像データから第1のモダリティで撮影された画像データおよび第2のモダリティで撮影された画像データをそれぞれマルチモーダル画像空間へ投影する「投影処理機能」122も備えている。さらに、異なる撮影環境下で異なる撮像装置で撮影されたマルチモーダル画像データをマルチモーダル画像空間で統合的に投影するために「キャリブレーション機能」123も備えている。
【0029】
ここで、マルチモーダル画像空間とは、複数の条件の軸と、特徴量の軸で張られた空間である。つまり、或る認識対象物のマルチモーダル画像のうちの第1のモダリティ画像は、複数の撮影条件下のある条件で撮影された画像であり、それらの撮影条件を満たすものとして条件の軸においてプロットされる。
また、撮影画像は写り具合に応じて特徴量を持っている。例えばフーリエ変換やラフィン変換した数値が特徴量として計算され、特徴量の軸においてもプロットされる。
つまり、マルチモーダル画像データは、マルチモーダル画像空間投影処理部120が「マルチモーダル画像空間管理機能」121により管理しているマルチモーダル画像空間、つまり、複数の条件の軸と、特徴量の軸で張られた空間の対応点に「投影処理機能」によりマルチモーダル画像データ入力部110から入力されたマルチモーダル画像データをプロットする。
【0030】
ここで、マルチモーダル画像空間投影処理部120が異なる撮影条件で異なる撮像装置で撮影された各モダリティの画像セットであるため、各モダリティの画像を統合的に扱うための機械的な撮影条件の差異(撮影角度の違い、撮影距離の違いなど)の調整機能、つまり、キャリブレーション機能123が必要である。
キャリブレーション機能123による各モダリティの画像に混入する機械的な撮影条件の差異を調整しておかないと、同じ認識対象物でありながら、或るモダリティ下の撮影画像と、別のモダリティ下の撮影画像との間で機械的な差異が混入してしまう。例えば、可視光カメラである撮影軸である撮影距離で撮影条件が設定されて撮影した可視光画像中での認識対象物のエッジ形状と、赤外線カメラである撮影軸である撮影距離で撮影条件が設定されて撮影した赤外線画像中での認識対象物のエッジ形状とは、撮影条件が物理的には同じではないため、かならず機械的な誤差が生じてしまう。たとえ可視光カメラと赤外線カメラを所定位置に並べて撮影しても、道路に対する撮影軸が両者間で同一ではないため、かならず機械的な誤差が混入する。その機械的誤差を除去、つまりキャリブレーションしておけば認識精度が向上する。
【0031】
キャリブレーション機能123は、以下の手順でキャリブレーションを実行する。例えば、モダリティごとに同じ背景を撮影した画像を用意する。例えば、照明条件が昼間の可視光画像(RGB画像)の背景画像と、夜間の赤外線画像(IR画像)の背景画像を用意する。両者をスーパーインポーズすると背景画像が完全には重なり合わずに少しずれる。そのずれは撮影軸の偏移に由来している。そこで、そのずれがゼロになるように画像全体を補整すれば良い。例えばホモグラフィ変換を利用することができる。両者の背景画像が正確に対応するようにホモグラフィ変換行列[H]を求める。このホモグラフィ変換行列[H]を用いて画像変換を行うことにより可視光画像と赤外線画像間のキャリブレーションができる。
このキャリブレーションの具体例は後述する。
【0032】
続いて、マルチモーダル画像空間投影処理部120の「マルチモーダル画像空間管理機能」121により管理されているマルチモーダル画像空間の概念と、「投影処理機能」122により認識対象物のマルチモーダル画像がプロットされる概念を説明する。
図2は、マルチモーダル画像空間投影処理部120の「マルチモーダル画像空間管理機能」121により管理されているマルチモーダル画像空間の概念と、「投影処理機能」122により認識対象物のマルチモーダル画像がプロットされる概念を簡単に示している図である。
図2の例では、撮影条件1の第1の条件軸と、撮影条件2の第2の条件軸と、画像データごとに計算された特徴量の特徴量軸の3つの軸により張られた空間が概念的に図示されている。
図2(b)に示したように、マルチモーダル画像空間投影処理部120は、この複数の条件の軸と、特徴量の軸で張られたマルチモーダル画像空間を管理し、投影処理機能により、与えられた当該認識対象物のマルチモーダル画像のうちの第1のモダリティ下においてマルチモーダル画像空間にプロットする処理を実行する。
【0033】
ここに、
図2の例では、
図2(b)において、プロットされたマルチモーダル画像が×印で図示されている。なお、初期のプロットではこのように一群のものばかりのプロットではなく、プロットが散らばっていると考えられるが、ここでは説明の便宜上、
図2(b)のプロットでは×印で図示されたマルチモーダル画像が似通った一群を形成しているものとする。
【0034】
以下、正解学習処理部130、疑似学習処理部140、拡張学習処理部150について順を追って説明する。
まず、正解学習処理部130は、マルチモーダル画像空間投影処理部120によってマルチモーダル画像空間に投影された結果を受け、マルチモーダル画像データの第1のモダリティにおける認識対象物の画像データを、正解ラベル付けを行って学習させるものである。この初期学習は作業者が確認しながら行うことが好ましい。
この正解学習処理部130の学習結果を利用すると以下のことが可能となる。例えば、複数の認識対象物のマルチモーダル画像の第1のモダリティ下のプロット結果から、似通ってまとまっている複数の認識対象物を第1のモダリティ下の1つの群として扱うことが可能となる。
つまり、正解学習処理部130とマルチモーダル画像空間投影処理部120により、正解学習をさせ、第1のモダリティ下で似通っている複数の認識対象物の一群の画像データをもとに「正解学習モデル」を形成することが可能となる。
図2(c)では、この一群としてのまとまりを概念的に楕円で囲んでいる。ここに、正解学習処理部130により第1のモダリティ下で似通っている複数の一群の認識対象物の画像データをもとに正解学習させ、正解学習モデルDAを構築することができる。作成した正解学習モデルDAを一旦学習モデル格納部160に保持させる。
【0035】
この時点での学習結果では次のことが言える。この正解学習処理部130による正解学習の結果、正解学習モデルDAが得られるが、この正解学習モデルDAは、学習に供したマルチモーダル画像と同じ条件で撮影された新規入力画像に対しては高い精度で認識対象物を検出することができる学習モデルであるが、この第1のモダリティは条件1(例えば照明条件)の変化による特徴量の変化が大きいため、学習に供したマルチモーダル画像データの撮影条件(昼間撮影)とは異なる撮影条件(夜間撮影)で撮影された新規入力画像に対しては認識対象物の検出精度が低下する学習モデルとなっている。
【0036】
次に、疑似学習処理部140は、マルチモーダル画像データ入力部110から入力されたマルチモーダル画像データから、マルチモーダル画像空間投影処理部120によるマルチモーダル画像空間への投影結果を受け、第2のモダリティ下での疑似学習を行う。つまり、第1のモダリティ下での正解学習処理部130による学習結果で得た一群の認識対象物群の画像データと、第2のモダリティ下で似通った特徴量を持つ複数の認識対象物の一群の画像データをもとに疑似ラベル付けを行って疑似学習させ、「疑似正解学習モデル」を形成する。
【0037】
図3は、疑似学習処理部140による疑似学習の概念を簡単に示した図である。
まず、
図3(a)は、
図2(c)で正解学習処理部130により作成された正解学習モデルに反映されている認識対象群の画像データの投影結果が示されているが、ここで、
図3(b)に示すように、第2の条件に注目して、第2のモダリティ下で似通った特徴量を持つ一群の認識対象群の画像データを群としてまとめる。
この結果、まだ疑似扱いではあるものの、第2のモダリティ下で似通った特徴量を持つ認識対象群が得られ、それをもとに疑似学習モデルDBを構築する。作成した疑似学習モデルDBを一旦学習モデル格納部160に保持させる。
【0038】
上記の疑似学習処理は以下のように記述できる。まず、正解学習モデルDAに第1のモダリティ(A)の画像Xiを入力して検出座標biを得る(数1)。
【数1】
(ここでiはデータのインデックス、lはクラスレベルを表している。)
次に、マルチモーダル画像空間投影処理部120により、検出座標bを対応する第2モダリティ(B)のマルチモーダル画像空間に投影する(数2)。
【数2】
(ここでiはデータのインデックス、Hはキャリブレーションのホモグラフィ変換行列、^は同次座標を表している。)
このようにして得られたb^iBと画像の組からなるデータを学習に用いることで、第2のモダリティ(B)における疑似学習モデルDBを作成する。
【0039】
次に、拡張学習処理部150は、疑似学習処理部140の第2のモダリティ下の疑似学習結果の群を、マルチモーダル空間投影処理部120によりマルチモーダル画像空間に再投影し、当該投影結果をもとにして第1のモダリティ下の正解学習結果を拡張するものである。
ここでは、拡張された正解学習結果を拡張学習結果と呼び、拡張学習処理部150は、それらのマルチモーダル画像空間での第1のモダリティ下で似通った特徴量を持つ一群の認識対象群を拡張し、それら画像データをもとに拡張学習モデルを構築する。作成した拡張学習モデルを学習モデル格納部160に保持させる。
【0040】
図4は、拡張学習処理部150による拡張学習による拡張された認識対象群をもとに拡張学習モデルが形成される概念を簡単に示す図である。
まず、
図4(a)は、
図3(b)で疑似学習処理部140により作成された疑似学習モデルに反映されている一群の認識対象物群(疑似認識対象群)の投影結果が示されているが、ここで、
図4(b)に示すように、第1の条件に注目して、第1のモダリティ下で似通った特徴量を持つものであるかどうかを確認し、認識対象群を拡張して拡張認識対象群をまとめる。
この結果、疑似扱いであった第2のモダリティ下で似通った特徴量を持つ「疑似認識対象群」が、第1のモダリティ下でも似通った特徴量を持つものとして拡張された拡張認識対象群としてオーソライズされ、それら画像データをもとに拡張学習モデルが構築される。
【0041】
上記の拡張学習処理は以下のように記述できる。前提として第2のモダリティ(B)の画像データは、条件1が変化してもテクスチャがあまり変化しないという特徴があるということであったので、疑似学習モデルDBは条件1の領域の画像データに対しても画像検出を行うことができる。そこで、疑似学習モデルDBに、疑似学習においてラベル付けした撮影条件(夜間赤外線撮影)とは異なる条件1(可視光撮影)の撮影条件で撮影した第2のモダリティ(B)の画像XiBを入力して検出座標b’iBを得る(数3)。
【数3】
(ここでiはデータのインデックス、lはクラスレベルを表している。)
【0042】
次に、得られた検出座標b’iBを、マルチモーダル画像空間投影処理部120によって、逆ホモグラフィ行列[H-1]を用いて対応するモダリティAの画像b
primeiAに投影することにより、正解学習モデルDAのラベル付きデータには含まれない条件1の領域のモダリティAの画像に対して拡張することができる(数4)。
【数4】
(ここでiはデータのインデックス、Hはキャリブレーションのホモグラフィ変換行列、ハット^は同次座標を表している。)
このようにして得られたb^iAを正解学習モデルDAの画像データの学習結果に用いることで、第1のモダリティ(A)における拡張正解学習モデルDA(+)を構築する。
【0043】
なお、上記流れは、正解学習処理部130による第1のモダリティ下のマルチモーダル画像データを用いた「正解学習群」の形成 → 疑似学習処理部140による第2のモダリティ下の「疑似学習群」の形成 → 拡張学習処理部150による第1のモダリティ下の「拡張学習群」の形成という一連の処理を、多数のマルチモーダル画像データを用いて、多数回再帰的に繰り返していけば、学習が進み、充実した学習モデルを早期に構築できる。
【0044】
なお、上記の例では、第1の条件軸と第2の条件軸という第1のモダリティと第2のモダリティに注目したマルチモーダル画像データのプロットによる学習例であったが、その考えを多次元的に拡張することができる。つまり、複数の撮影条件が3以上あり、第1のモダリティと第2のモダリティの2つに加え、マルチモーダル画像データが他のモダリティ下での撮影画像データもセットとして備えたものであれば多次元的に拡張できる。
つまり、マルチモーダル空間投影処理部120のマルチモーダル画像空間管理機能121が、3つ以上の条件軸と、画像の特徴量の特徴量軸を備えたマルチモーダル画像空間を管理し、投影処理機能122がマルチモーダル画像データをその3つ以上の条件軸と画像の特徴量の特徴量軸を備えたマルチモーダル画像空間へプロットし、正解学習処理部130と疑似学習処理部140と拡張学習処理部150が、投影結果をもとに「正解学習」「疑似学習」「拡張学習」を行ない、「正解学習モデルDA」「疑似学習モデルDB」「拡張学習モデルDA(+)」の作成を行うことができる。
【0045】
以上が本発明のマルチモーダル画像を用いた画像認識学習システム100の基本構成における各構成要素の説明である。
以下、実際のマルチモーダル画像を用いて、本発明の画像認識学習システム100の処理の実例を示す。
以下の実例において、認識対象物は走行車両とした。第1のモダリティが照明条件であり、第2のモダリティが気象条件とした。入力されるマルチモーダル画像としては可視光カメラによる可視光画像と赤外線カメラによる赤外線画像のセットとした。
【0046】
[ステップ1:キャリブレーション]
図5は、マルチモーダル空間投影処理部120のキャリブレーション機能123によるキャリブレーション処理の実例について簡単に示す図である。
図5(a)はある撮影箇所に設置した可視光カメラで撮影した可視光画像である。
図5(b)は同じ撮影箇所に設置した赤外線カメラで撮影した赤外線画像である。いずれも夜間晴天の画像が例となっている。
図5(a)の可視光画像、
図5(b)の赤外線画像ともに、画像中に複数のドットが打たれているが、それらドットは道路上の同一箇所を示したものとなっている。つまり、
図5(a)の可視光画像中のドットで表示されている箇所と同一箇所が
図5(b)の赤外線画像中でどの位置に表示されているかが対応付けられる。両者をスーパーインポーズするとドットが完全には重なり合わずに少しずれている。そのずれは撮影軸の偏移に由来している。そこで、そのずれがゼロになるように画像全体を補整する。ここではホモグラフィ変換を利用する。この
図5(a)と
図5(b)のドットの対応が正確に一致するようにホモグラフィ変換行列を求める。このホモグラフィ変換行列[H]を用いて画像変換を行うことにより可視光画像と赤外線画像間のキャリブレーションができる。つまり、「マルチモーダル画像空間管理機能」121が管理するマルチモーダル画像空間における各モダリティでの撮影画像間のキャリブレーションが完了する。
【0047】
[ステップ2:正解学習モデルDAの構築]
マルチモーダル画像データ入力部110からマルチモーダル画像データを入力する。入力されたマルチモーダル画像データ数は1,000個とする。入力画像データのうち第1のモダリティ(A)の画像データを「投影処理機能」122によりマルチモーダル画像空間にプロットする。
図6は正解学習モデルDAの構築例を示した図である。
図6では第1のモダリティ(A)の画像データ例は1例のみであるが示されている。照明条件が昼間晴天で可視光画像である。
今、第1のモダリティ(A)の画像データ数1,000個、写り込んだ車両数1877台であり、後部エッジをラベルとして手作業で1877個のラベル付与を行った。
正解学習モデルDAを構築した。
【0048】
[ステップ3:疑似学習モデルDBの構築]
次に、マルチモーダル画像データ入力部110から入力されたマルチモーダル画像データ1,000個のうち、第2のモダリティ(B)の画像データを「投影処理機能」122によりマルチモーダル画像空間にプロットする。
図7は、疑似学習モデルDBの構築例を示す図である。
図7には1例のみであるが第2のモダリティ(B)の画像データ例が示されている。照明条件が昼間晴天で赤外線画像である。
今、第2のモダリティ(B)の画像データ数1,000個、写り込んだ車両数1893台であり、後部エッジをラベルとして手作業で1893個の疑似ラベル付与を行った。
疑似学習モデルDBを構築した。
【0049】
[ステップ4:拡張学習モデルDA(+)の構築]
次に、ステップ3で供された第2のモダリティ(B)の画像データを「投影処理機能」122により再度マルチモーダル画像空間にプロットし、第1のモダリティ(A)下で学習結果を拡張する。
図8は、拡張学習モデルDA(+)の構築例を示す図である。
図8には1例のみであるが画像データ例が示されている。照明条件が夜間晴天で可視光画像である。
今、ステップ3で用いた第2のモダリティ(B)の写り込んだ1893個の疑似ラベル付の画像データをもとに拡張学習を行った。
拡張学習モデルDA(+)を構築した。
【0050】
[評価]
以下、正解学習モデルDAと、拡張学習モデルDA(+)の認識対象物の検出精度を比較して評価を行った。
なお、認識対象物のエッジ検出アルゴリズムには、YOLOv5を利用した。学習率は1e-2、weight decayを5e-4、エポックを100に設定し、SGD Optimizerでモデルを学習させた。モデルのパラメータはMS COCOで事前学習したyolov5Xで初期化した条件で行った。
【0051】
図9は、テスト画像として、昼間のテスト画像(可視光撮影画像)や、夜間のテスト画像(可視光撮影画像)など幾つかの代表的パターンのものを入力して、正解学習モデルDAを用いて認識対象物をAI検出させた結果を示す図である。
図9に示すように、正解学習モデルDAでは、夜間のテスト画像では1台も正確な検出ができておらず、これは正解学習モデルDAの学習データとは照明条件が大きく異なること(昼間と夜間)が理由であると考えられる。一方、昼間のテスト画像では夜間のテスト画像に比べて比較的検出できていることが分かる。
【0052】
図10は、同じテスト画像を用いて、拡張学習モデルDA(+)により認識対象物をAI検出させた結果を示す図である。
図10に示すように、拡張学習モデルDA(+)では、夜間のテスト画像でも殆どの車両が認識対象物として検出できていることが確認できた。また、昼間のテスト画像においても、
図9の結果と比べても同等以上の精度で車両が認識対象物として検出できていることが確認できる。
結果として、本発明で生成した疑似ラベル付きデータを追加して疑似学習を経て拡張学習を行うことで、大幅な検出精度の向上を達成できた。
【0053】
次に、テスト画像の数を増やして、定量的な分析を行った。
正解学習モデルDAを用いた場合は、結果としては、昼間撮影のテストデータに対する車両の認識対象物の検出精度は、0.358であり、夜間撮影のテストデータに対する車両の認識対象物の検出精度は、0.109であった。
一方、拡張学習モデルDA(+)を用いた場合は、結果としては、昼間撮影のテストデータに対する車両の認識対象物の検出精度は、0.612であり、夜間撮影のテストデータに対する車両の認識対象物の検出精度は、0.667であった。
【0054】
この定量的な分析結果においては、拡張学習モデルDA(+)は、正解学習モデルDAよりも、夜間撮影のテストデータに対する車両の認識対象物の検出精度は大きく向上し(0.109→0.667)、昼間撮影のテストデータに対する車両の認識対象物の検出精度も十分向上している(0.358→0.612)ことが分かった。
以上、実施例1にかかる本発明のマルチモーダル画像を用いた画像認識学習システムは優れた学習モデルを構築できることが分かる。
車両追跡部240は、実施例1で示した画像認識学習システム100を用いて、各々の撮影装置220の撮影箇所のマルチモーダル画像を基に学習して構築された拡張学習モデルDA(+)がすでに搭載されている。
車両追跡部240は、画像認識した認識対象物のエッジ形状を追跡してゆくが、追跡処理は、追跡アルゴリズムとしてテンプレートマッチングを利用した。テンプレートマッチングは、入力の探索画像と、追跡対象のテンプレート画像の類似度を計算し、最も類似度が高い領域を追跡結果とする手法である。比較手法には、(数5)で計算される照明変化にロバストなNormalized Cross Correlation(NCC) を使用する。テンプレートとして拡張学習モデルDA(+)で検出した車両の後部領域画像、検出したフレーム番号と検出順番を使用することができる。
このように、実施例2にかかる車両追跡システム200は、マルチモーダル画像を用いた画像認識学習システム100で得た拡張学習モデルを装備して、道路に設置したカメラ装置220で撮影したカメラ撮影画像を解析し、映り込んでいる車両を認識しながら追跡することができる。