(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-09-16
(45)【発行日】2022-09-28
(54)【発明の名称】情報処理装置、移動体及び学習装置
(51)【国際特許分類】
G06T 7/70 20170101AFI20220920BHJP
【FI】
G06T7/70 A
(21)【出願番号】P 2021501466
(86)(22)【出願日】2019-02-27
(86)【国際出願番号】 JP2019007653
(87)【国際公開番号】W WO2020174623
(87)【国際公開日】2020-09-03
【審査請求日】2021-02-24
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成30年度、国立研究開発法人新エネルギー・産業技術総合開発機構、「人工知能技術適用によるスマート社会の実現/空間の移動分野/空間移動時のAI融合高精度物体認識システムの研究開発」に係る委託研究、産業技術力強化法第19条の適用を受ける特許出願
【前置審査】
(73)【特許権者】
【識別番号】000000376
【氏名又は名称】オリンパス株式会社
(73)【特許権者】
【識別番号】504137912
【氏名又は名称】国立大学法人 東京大学
(74)【代理人】
【識別番号】100104710
【氏名又は名称】竹腰 昇
(74)【代理人】
【識別番号】100124682
【氏名又は名称】黒田 泰
(74)【代理人】
【識別番号】100090479
【氏名又は名称】井上 一
(74)【代理人】
【識別番号】100166523
【氏名又は名称】西河 宏晃
(72)【発明者】
【氏名】岡澤 淳郎
(72)【発明者】
【氏名】高畑 智之
(72)【発明者】
【氏名】原田 達也
【審査官】片岡 利延
(56)【参考文献】
【文献】特開2017-220923(JP,A)
【文献】特開2017-191470(JP,A)
【文献】国際公開第2018/235777(WO,A1)
【文献】高畑智之, 下山勲,防滴性のある可視光・遠赤外光同軸撮影システム,第36回日本ロボット学会学術講演会,2018年09月04日
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/70
(57)【特許請求の範囲】
【請求項1】
第1対象物と、前記第1対象物に比べて可視光を透過する第2対象物とを含む複数の対象物を前記可視光によって撮像した第1検出用画像と、前記複数の対象物を赤外光によって撮像した第2検出用画像を取得する取得部と、
処理部と、
学習済モデルを記憶する記憶部と、
を含み、
前記処理部は、
前記第1検出用画像に含まれる複数の画素の相対度合いを示す第1特徴量を求め、
前記第2検出用画像に含まれる複数の画素の相対度合いを示す第2特徴量を求め、
前記第1特徴量と前記第2特徴量の差分に対応する特徴量を第3特徴量として算出し、
前記第3特徴量に基づいて、前記第1検出用画像及び前記第2検出用画像の少なくとも一方における前記第2対象物の位置を検出
し、
前記第1検出用画像と前記第2検出用画像を合成した画像に基づいて、若しくは、前記第1特徴量と前記第2特徴量とを足し合わせることで、前記第1対象物の特徴を表す第4特徴量を求め、
前記第3特徴量及び前記第4特徴量に基づいて、前記第1対象物の位置と前記第2対象物の位置の両方を区別して検出し、
前記学習済モデルは、
前記複数の対象物を前記可視光によって撮像した第1学習用画像と、前記複数の対象物を前記赤外光によって撮像した第2学習用画像と、前記第1学習用画像及び前記第2学習用画像の少なくとも一方における前記第1対象物の位置情報及び前記第2対象物の位置情報と、を対応付けたデータセットに基づいて機械学習されており、
前記処理部は、
前記第1検出用画像と、前記第2検出用画像と、前記学習済モデルとに基づいて、前記第1検出用画像及び前記第2検出用画像の少なくとも一方において、前記第1対象物の位置と前記第2対象物の位置の両方を区別して検出することを特徴とする情報処理装置。
【請求項2】
請求項1に記載の情報処理装置において、
前記第1特徴量は、前記第1検出用画像のコントラストを表す情報であり、
前記第2特徴量は、前記第2検出用画像のコントラストを表す情報であり、
前記処理部は、
前記第1検出用画像のコントラストと前記第2検出用画像のコントラストの差分に対応する前記第3特徴量に基づいて、前記第1検出用画像及び前記第2検出用画像の少なくとも一方における前記第2対象物の位置を検出することを特徴とする情報処理装置。
【請求項3】
請求項
1又は2に記載の情報処理装置において、
前記第1特徴量は、前記第1検出用画像に対して、第1フィルターを用いた畳み込み演算を行うことによって求められる第1特徴マップであり、
前記第2特徴量は、前記第2検出用画像に対して、第2フィルターを用いた畳み込み演算を行うことによって求められる第2特徴マップであることを特徴とする情報処理装置。
【請求項4】
請求項
3に記載の情報処理装置において、
前記第1フィルター及び前記第2フィルターは、前記機械学習によってフィルター特性が設定されていることを特徴とする情報処理装置。
【請求項5】
請求項
1乃至4のいずれか一項に記載の情報処理装置において、
前記第4特徴量は、前記第1検出用画像と前記第2検出用画像に対して、第4フィルターを用いた畳み込み演算を行うことによって求められる第4特徴マップであることを特徴とする情報処理装置。
【請求項6】
第1対象物と、前記第1対象物に比べて可視光を透過する第2対象物とを含む複数の対象物を前記可視光によって撮像した第1検出用画像と、前記複数の対象物を赤外光によって撮像した第2検出用画像を取得する取得部と、
処理部と、
学習済モデルを記憶する記憶部と、
を含み、
前記処理部は、
前記第1検出用画像に含まれる複数の画素の相対度合いを示す第1特徴量を求め、
前記第2検出用画像に含まれる複数の画素の相対度合いを示す第2特徴量を求め、
前記第1特徴量と前記第2特徴量の差分に対応する特徴量を第3特徴量として算出し、
前記第3特徴量に基づいて、前記第1検出用画像及び前記第2検出用画像の少なくとも一方における前記第2対象物の位置を検出
し、
前記学習済モデルは、
前記複数の対象物を前記可視光によって撮像した第1学習用画像と、前記複数の対象物を前記赤外光によって撮像した第2学習用画像と、前記第1学習用画像及び前記第2学習用画像の少なくとも一方における前記第2対象物の位置情報と、を対応付けたデータセットに基づいて機械学習されており、
前記処理部は、
前記第1検出用画像と、前記第2検出用画像と、前記学習済モデルとに基づいて、前記第1検出用画像及び前記第2検出用画像の少なくとも一方において、前記第2対象物の位置を検出し、
前記第1特徴量は、前記第1検出用画像に対して、第1フィルターを用いた畳み込み演算を行うことによって求められる第1特徴マップであり、
前記第2特徴量は、前記第2検出用画像に対して、第2フィルターを用いた畳み込み演算を行うことによって求められる第2特徴マップであり、
前記第1フィルター及び前記第2フィルターは、前記機械学習によってフィルター特性が設定されていることを特徴とする情報処理装置。
【請求項7】
第1対象物と、前記第1対象物に比べて可視光を透過する第2対象物とを含む複数の対象物を前記可視光によって撮像した第1検出用画像と、前記複数の対象物を赤外光によって撮像した第2検出用画像を取得する取得部と、
処理部と、
学習済モデルを記憶する記憶部と、
を含み、
前記処理部は、
前記第1検出用画像に基づいて第1特徴量を求め、
前記第2検出用画像に基づいて第2特徴量を求め、
前記第1特徴量及び前記第2特徴量に基づいて、前記第1検出用画像及び前記第2検出用画像に撮像された前記複数の対象物について前記可視光の透過度合いを表す透過スコアを算出し、
前記第1検出用画像と前記第2検出用画像とを合成した画像に基づいて、若しくは、前記第1特徴量と前記第2特徴量とを足し合わせることで、前記第1検出用画像及び前記第2検出用画像に撮像された前記複数の対象物の形状を示す形状スコアを算出し、
前記透過スコアと前記形状スコアに基づいて、前記第1検出用画像及び前記第2検出用画像の少なくとも一方における、前記第1対象物の位置と前記第2対象物の位置の両方を区別して検出
し、
前記学習済モデルは、
前記複数の対象物を前記可視光によって撮像した第1学習用画像と、前記複数の対象物を前記赤外光によって撮像した第2学習用画像と、前記第1学習用画像及び前記第2学習用画像の少なくとも一方における前記第1対象物の位置情報及び前記第2対象物の位置情報と、を対応付けたデータセットに基づいて機械学習されており、
前記処理部は、
前記第1検出用画像と、前記第2検出用画像と、前記学習済モデルとに基づいて、前記形状スコア及び前記透過スコアを算出し、前記透過スコアと前記形状スコアに基づいて、前記第1対象物の位置と前記第2対象物の位置の両方を区別して検出することを特徴とする情報処理装置。
【請求項8】
請求項
1乃至7のいずれか一項に記載の情報処理装置において、
第1光軸を用いて前記複数の対象物を前記可視光によって撮像し、且つ、前記第1光軸に対応する軸である第2光軸を用いて前記複数の対象物を前記赤外光によって撮像する撮像部をさらに含み、
前記取得部は、
前記撮像部による撮像に基づいて、前記第1検出用画像及び前記第2検出用画像を取得することを特徴とする情報処理装置。
【請求項9】
請求項
7に記載の情報処理装置において、
前記第1特徴量は、前記第1検出用画像に含まれる複数の画素の相対度合いを示す情報であり、
前記第2特徴量は、前記第2検出用画像に含まれる複数の画素の相対度合いを示す情報であり、
前記処理部は、
前記第1特徴量と前記第2特徴量との差分を求めることで、前記第1検出用画像及び前記第2検出用画像に撮像された前記複数の対象物について前記可視光の透過度合いを表す透過スコアを算出することを特徴とする情報処理装置。
【請求項10】
請求項
9に記載の情報処理装置において、
前記第1特徴量は、前記第1検出用画像のコントラストを表す情報であり、
前記第2特徴量は、前記第2検出用画像のコントラストを表す情報あることを特徴とする情報処理装置。
【請求項11】
請求項1、2、
9又は
10のいずれか一項に記載の情報処理装置において、
前記第1特徴量は、前記第1検出用画像に特徴抽出フィルターを適用することで抽出した画像の特徴であり、
前記第2特徴量は、前記第2検出用画像に特徴抽出フィルターを適用することで抽出した画像の特徴であることを特徴とする情報処理装置。
【請求項12】
請求項1、2、
9、10又は
11のいずれか一項に記載の情報処理装置において、
前記第1特徴量は、前記第1検出用画像に反映された前記複数の対象物の画像上の特徴を示す画像特徴量であり、
前記第2特徴量は、前記第2検出用画像に反映された前記複数の対象物の画像上の特徴を示す画像特徴量であることを特徴とする情報処理装置。
【請求項13】
第1対象物と、前記第1対象物に比べて可視光を透過する第2対象物とを含む複数の対象物を前記可視光によって撮像した第1検出用画像と、前記複数の対象物を赤外光によって撮像した第2検出用画像を取得する取得部と、
処理部と、
学習済モデルを記憶する記憶部と、
を含み、
前記処理部は、
前記第1検出用画像に基づいて第1特徴量を求め、
前記第2検出用画像に基づいて第2特徴量を求め、
前記第1特徴量及び前記第2特徴量に基づいて、前記第1検出用画像及び前記第2検出用画像に撮像された前記複数の対象物について前記可視光の透過度合いを表す透過スコアを算出し、
前記第1検出用画像及び前記第2検出用画像に基づいて、前記第1検出用画像及び前記第2検出用画像に撮像された前記複数の対象物の形状を示す形状スコアを算出し、
前記透過スコアと前記形状スコアに基づいて、前記第1検出用画像及び前記第2検出用画像の少なくとも一方における、前記第1対象物の位置と前記第2対象物の位置の両方を区別して検出し、
前記学習済モデルは、
前記複数の対象物を前記可視光によって撮像した第1学習用画像と、前記複数の対象物を前記赤外光によって撮像した第2学習用画像と、前記第1学習用画像及び前記第2学習用画像の少なくとも一方における前記第1対象物の位置情報及び前記第2対象物の位置情報と、を対応付けたデータセットに基づいて機械学習されており、
前記処理部は、
前記第1検出用画像と、前記第2検出用画像と、前記学習済モデルとに基づいて、前記形状スコア及び前記透過スコアを算出し、前記透過スコアと前記形状スコアに基づいて、前記第1対象物の位置と前記第2対象物の位置の両方を区別して検出することを特徴とする情報処理装置。
【請求項14】
請求項1乃至
13のいずれか一項に記載の情報処理装置を含むことを特徴とする移動体。
【請求項15】
第1対象物と、前記第1対象物に比べて可視光を透過する第2対象物とを含む複数の対象物を前記可視光によって撮像した可視光画像と、前記複数の対象物を赤外光によって撮像した赤外光画像と、前記可視光画像及び前記赤外光画像の少なくとも一方における前記第2対象物の位置情報と、を対応付けたデータセットを取得する取得部と、
前記データセットに基づいて、前記可視光画像及び前記赤外光画像の少なくとも一方において、前記第2対象物の位置を検出する条件を機械学習する学習部と、
を含
み、
前記データセットは、
前記可視光画像と、前記赤外光画像と、前記第2対象物の前記位置情報と、前記可視光画像及び前記赤外光画像の少なくとも一方における前記第1対象物の位置情報と、を対応付けたデータセットであり、
前記学習部は、
前記データセットに基づいて、前記可視光画像及び前記赤外光画像の少なくとも一方において、前記第1対象物の位置と前記第2対象物の位置の両方を区別して検出する条件を機械学習することを特徴とする学習装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、移動体及び学習装置等に関する。
【背景技術】
【0002】
従来、撮像画像に基づいて、当該撮像画像に含まれる物体の認識処理を行う手法が広く知られている。例えば自律移動する車両やロボット等において、衝突回避等の移動制御を実現するために物体認識が行われる。可視光を透過するガラス等の物体を認識することも重要となるが、可視光画像にはガラスの特徴が十分に現れない。
【0003】
これに対して特許文献1及び特許文献2には、赤外光を用いて撮像された画像に基づいて、ガラス等の透明物体を検出する手法が開示されている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2007-76378号公報
【文献】特開2010-146094号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1においては、周囲がすべて直線エッジで構成された領域をガラス面と判断している。また特許文献2においては、赤外光画像の輝度値、領域の面積、輝度値の分散等に基づいてガラスか否かを判断する。しかし、可視光を反射する物体にも、赤外光画像における画像特徴がガラスと類似する物体がある。そのため、可視光画像の画像特徴のみ、或いは赤外光画像の画像特徴のみで、可視光を透過する物体を含む物体認識を行うことは困難であった。
【0006】
本開示のいくつかの態様によれば、可視光を透過する物体が撮像対象に含まれる場合において、精度よく物体認識を行う情報処理装置、移動体及び学習装置等を提供できる。
【課題を解決するための手段】
【0007】
本開示の一態様は、第1対象物と、前記第1対象物に比べて可視光を透過する第2対象物とを含む複数の対象物を前記可視光によって撮像した第1検出用画像と、前記複数の対象物を赤外光によって撮像した第2検出用画像を取得する取得部と、処理部とを含み、前記処理部は、前記第1検出用画像に基づいて第1特徴量を求め、前記第2検出用画像に基づいて第2特徴量を求め、前記第1特徴量と前記第2特徴量の差分に対応する特徴量を第3特徴量として算出し、前記第3特徴量に基づいて、前記第1検出用画像及び前記第2検出用画像の少なくとも一方における前記第2対象物の位置を検出する情報処理装置に関係する。
【0008】
本開示の他の態様は、第1対象物と、前記第1対象物に比べて可視光を透過する第2対象物とを含む複数の対象物を前記可視光によって撮像した第1検出用画像と、前記複数の対象物を赤外光によって撮像した第2検出用画像を取得する取得部と、処理部とを含み、前記処理部は、前記第1検出用画像に基づいて第1特徴量を求め、前記第2検出用画像に基づいて第2特徴量を求め、前記第1特徴量及び前記第2特徴量に基づいて、前記第1検出用画像及び前記第2検出用画像に撮像された前記複数の対象物について前記可視光の透過度合いを表す透過スコアを算出し、前記第1検出用画像及び前記第2検出用画像に基づいて、前記第1検出用画像及び前記第2検出用画像に撮像された前記複数の対象物の形状を示す形状スコアを算出し、前記透過スコアと前記形状スコアに基づいて、前記第1検出用画像及び前記第2検出用画像の少なくとも一方における、前記第1対象物の位置と前記第2対象物の位置の両方を区別して検出する情報処理装置に関係する。
【0009】
本開示の他の態様は、上記のいずれかに記載の情報処理装置を含む移動体に関係する。
【0010】
本開示の他の態様は、第1対象物と、前記第1対象物に比べて可視光を透過する第2対象物とを含む複数の対象物を前記可視光によって撮像した可視光画像と、前記複数の対象物を赤外光によって撮像した赤外光画像と、前記可視光画像及び前記赤外光画像の少なくとも一方における前記第2対象物の位置情報と、を対応付けたデータセットを取得する取得部と、前記データセットに基づいて、前記可視光画像及び前記赤外光画像の少なくとも一方において、前記第2対象物の位置を検出する条件を機械学習する学習部と、を含む学習装置に関係する。
【図面の簡単な説明】
【0011】
【
図5】
図5(A)、
図5(B)は透明物体であるガラス扉の開閉を示す模式図。
【
図6】可視光画像、赤外光画像、第1~第3特徴量の例。
【
図7】可視光画像、赤外光画像、第1~第3特徴量の例。
【
図8】第1の実施形態の処理を説明するフローチャート。
【
図9】
図9(A)~
図9(C)は情報処理装置を含む移動体の例。
【
図11】第2の実施形態の処理を説明するフローチャート。
【
図13】ニューラルネットワークを説明する模式図。
【
図14】第3の実施形態にかかる処理を説明する模式図。
【
図18】第4の実施形態にかかる処理を説明する模式図。
【発明を実施するための形態】
【0012】
以下、本実施形態について説明する。なお、以下に説明する本実施形態は、請求の範囲に記載された本開示の内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本開示の必須構成要件であるとは限らない。
【0013】
1.第1の実施形態
上述したように、可視光を透過するガラス等の物体を検出する手法が種々開示されている。以下、可視光を透過する物体を透明物体と表記し、可視光を透過しない物体を可視物体と表記する。可視光とは、人の目で見ることが可能な光であり、例えば約380nm~約800nm程度の波長帯域の光である。透明物体は可視光を透過するため、可視光画像に基づく位置検出が難しい。可視光画像とは、可視光を用いて撮像された画像である。
【0014】
特許文献1や特許文献2は、透明物体であるガラスが赤外光を吸収するという特性に着目し、赤外光画像に基づいてガラスを検出する手法を開示している。赤外光とは、可視光よりも波長が長い光であり、赤外光画像とは赤外光を用いて撮像された画像である。
【0015】
特許文献1においては、周囲がすべて直線エッジで構成された領域をガラス面と判断している。しかし、周囲がすべて直線エッジで構成された物体は、ガラスに限らず多く存在するため、それらの物体とガラスを適切に区別することが難しい。周囲がすべて直線エッジで構成された物体としては、額縁、PC(Personal Computer)等のディスプレイ、印刷物等が考えられる。例えば、画面表示がされていないディスプレイは、周囲が直線エッジで構成され、且つ、内部のコントラストが非常に低くなる。赤外光画像におけるガラスの画像特徴とディスプレイの画像特徴が類似するため、ガラスの適切な検出が困難である。
【0016】
また特許文献2においては、赤外光画像の輝度値と、領域の面積、分散でガラスか否かを判断する。しかし、ガラス以外にも同様の輝度値、面積、分散等の特徴を有する物体が存在する。例えばガラスと同等の大きさであって、画面表示がされていないディスプレイを、ガラスと区別することが難しい。以上のように、可視光画像の画像特徴のみ、或いは赤外光画像の画像特徴のみで、透明物体の位置検出を行うことは困難であった。
【0017】
図1は本実施形態の情報処理装置100の構成例を示す図である。情報処理装置100は、撮像部10と、取得部110と、処理部120と、記憶部130を含む。撮像部10及び取得部110については、
図2及び
図3を用いて後述する。処理部120については、
図4を用いて後述する。記憶部130は、処理部120等のワーク領域となるもので、その機能はRAM(Random Access Memory)等のメモリーやHDD(Hard Disk Drive)などによって実現できる。なお、情報処理装置100は
図1の構成に限定されず、これらの一部の構成要素を省略したり、他の構成要素を追加するなどの種々の変形実施が可能である。例えば、情報処理装置100から撮像部10を省略してもよい。この場合、情報処理装置100は、外部の撮像装置から後述する可視光画像及び赤外光画像を取得する処理を行う。
【0018】
図2は、撮像部10及び取得部110の構成例を示す図である。撮像部10は、波長分離ミラー(ダイクロイックミラー)11と、第1光学系12と、第1撮像素子13と、第2光学系14と、第2撮像素子15を含む。波長分離ミラー11は、所定の波長帯域の光を反射し、異なる波長帯域の光を透過する光学素子である。例えば波長分離ミラー11は、可視光を反射し、赤外光を透過する。波長分離ミラー11を用いることによって、光軸AXに沿った対象物(被写体)からの光が2つの方向に分離される。
【0019】
波長分離ミラー11によって反射された可視光は、第1光学系12を経由して第1撮像素子13に入射する。
図2においては、第1光学系12としてレンズを例示したが、第1光学系は、絞りやメカシャッター等の不図示の構成を含んでもよい。第1撮像素子13は、CCD(Charge Coupled Device)、CMOS(Complementary metal-oxide semiconductor)等の光電変換素子を含み、可視光を光電変化した結果である可視光画像信号を出力する。ここでの可視光画像信号はアナログ信号である。第1撮像素子13は、例えば広く知られたベイヤ配列のカラーフィルターを備えた撮像素子である。ただし、第1撮像素子13は、補色型等の他のカラーフィルターを用いた素子であってもよいし、異なる方式の撮像素子であってもよい。
【0020】
また波長分離ミラー11を透過した赤外光は、第2光学系14を経由して第2撮像素子15に入射する。第2光学系14についても、レンズに加えて、絞りやメカシャッター等の不図示の構成を含んでもよい。第2撮像素子15は、マイクロボロメータ、InSb(Indium Antimonide)等の光電変換素子を含み、赤外光を光電変化した結果である赤外光画像信号を出力する。ここでの赤外光画像信号はアナログ信号である。
【0021】
取得部110は、第1A/D変換回路111と、第2A/D変換回路112を含む。第1A/D変換回路111は、第1撮像素子13からの可視光画像信号に対するA/D変換処理を行い、デジタルデータである可視光画像データを出力する。可視光画像データは、例えばRGBの3チャンネルの画像データである。第2A/D変換回路112は、第2撮像素子15からの赤外光画像信号に対するA/D変換処理を行い、デジタルデータである赤外光画像データを出力する。赤外光画像データは、例えば1チャンネルの画像データである。以下、デジタルデータである可視光画像データ及び赤外光画像データを、単に可視光画像、赤外光画像と表記する。
【0022】
図3は、撮像部10及び取得部110の他の構成例を示す図である。撮像部10は、第3光学系16と、撮像素子17を含む。第3光学系は、レンズに加えて、絞りやメカシャッター等の不図示の構成を含んでもよい。撮像素子17は、可視光を受光する第1撮像素子13-2と、赤外光を受光する第2撮像素子15-2が光軸AXに沿った方向において積層された積層型の撮像素子である。
【0023】
図3の例においては、第3光学系16に相対的に近い第2撮像素子15-2において、赤外光の撮像が行われる。第2撮像素子15-2は、赤外光画像信号を取得部110に出力する。また第3光学系16から相対的に遠い第1撮像素子13-2において、可視光の撮像が行われる。第1撮像素子13-2は、可視光画像信号を取得部110に出力する。なお、撮像対象の波長帯域が異なる複数の撮像素子を、光軸方向において積層する手法については広く知られているため、詳細な説明は省略する。
【0024】
取得部110は、
図2と同様に、第1A/D変換回路111と、第2A/D変換回路112を含む。第1A/D変換回路111は、第1撮像素子13-2からの可視光画像信号に対するA/D変換処理を行い、デジタルデータである可視光画像データを出力する。第2A/D変換回路112は、第2撮像素子15-2からの赤外光画像信号に対するA/D変換処理を行い、デジタルデータである赤外光画像データを出力する。
【0025】
なお、取得部110は
図2及び
図3に示した構成に限定されない。例えば取得部110は、可視光画像信号及び赤外光画像信号に対する増幅処理を行うアナログアンプ回路を含んでもよい。取得部110は、増幅処理後の画像信号に対するA/D変換処理を行う。また、アナログアンプ回路は取得部110に設けられるのではなく、撮像部10側に設けられてもよい。また、
図2においては取得部110においてA/D変換を行う例を示したが、撮像部10においてA/D変換が行われてもよい。この場合、撮像部10は、デジタルデータである可視光画像及び赤外光画像を出力する。取得部110は、撮像部10からのデジタルデータを取得するためのインターフェースである。
【0026】
以上のように、撮像部10は、第1光軸を用いて対象物を可視光によって撮像し、且つ、第1光軸に対応する軸である第2光軸を用いて当該対象物を赤外光によって撮像する。ここでの対象物は、後述するように第1対象物と、第1対象物に比べて可視光を透過する第2対象物を含む複数の対象物である。具体的には、第1対象物とは可視光を反射する可視物体であり、第2対象物とは可視光を透過する透明物体である。第1光軸と第2光軸とは、狭義には
図2及び
図3の光軸AXに示した同一の軸である。撮像部10は情報処理装置100に含まれてもよい。取得部110は、撮像部10による撮像に基づいて、第1検出用画像及び第2検出用画像を取得する。第1検出用画像とは可視光画像であり、第2検出用画像とは赤外光画像である。
【0027】
このように、撮像部10は、可視光と赤外光の両方において、同一の対象物を同軸で撮像可能である。そのため、可視光画像における透明物体の位置と、赤外光画像における透明物体の位置とを容易に対応付けることが可能である。例えば、可視光画像と赤外光画像とが、画角及び画素数が等しい画像である場合、所与の対象物は、可視光画像と赤外光画像の同じ位置の画素に撮像される。画素の位置とは、基準画素に対して横方向に何画素目、縦方向に何画素目かを表す情報である。よって同じ位置の画素の情報を対応付けることによって、可視光画像と赤外光画像の両方の情報を用いた処理を適切に実行できる。例えば後述するように、第1検出用画像に基づく第1特徴量と、第2検出用画像に基づく第2特徴量を用いて、透明物体である第2対象物の位置検出を適切に行うことが可能である。なお、撮像部10は、可視光画像と赤外光画像の間で対象物の位置の対応づけが可能な構成であればよく、上記の構成には限定されない。例えば、第1光軸と第2光軸は略等しい軸であればよく、厳密に一致する必要はない。また、可視光画像の画素数と赤外光画像の画素数は同じである必要はない。
【0028】
図4は、処理部120の構成例を示す図である。処理部120は、第1特徴量抽出部121と、第2特徴量抽出部122と、第3特徴量抽出部123と、位置検出部124を含む。なお、本実施形態の処理部120は、下記のハードウェアによって構成される。ハードウェアは、デジタル信号を処理する回路及びアナログ信号を処理する回路の少なくとも一方を含むことができる。例えば、ハードウェアは、回路基板に実装された1又は複数の回路装置や、1又は複数の回路素子で構成することができる。1又は複数の回路装置は例えばIC等である。1又は複数の回路素子は例えば抵抗、キャパシター等である。
【0029】
また処理部120は、下記のプロセッサーによって実現されてもよい。本実施形態の情報処理装置100は、情報を記憶するメモリーと、メモリーに記憶された情報に基づいて動作するプロセッサーと、を含む。情報は、例えばプログラムと各種のデータ等である。プロセッサーは、ハードウェアを含む。プロセッサーは、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)等、各種のプロセッサーを用いることが可能である。メモリーは、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)などの半導体メモリーであってもよいし、レジスターであってもよいし、ハードディスク装置等の磁気記憶装置であってもよいし、光学ディスク装置等の光学式記憶装置であってもよい。例えば、メモリーはコンピューターによって読み取り可能な命令を格納しており、当該命令がプロセッサーによって実行されることで、情報処理装置100の各部の機能が処理として実現されることになる。ここでの命令は、プログラムを構成する命令セットの命令でもよいし、プロセッサーのハードウェア回路に対して動作を指示する命令であってもよい。
【0030】
第1特徴量抽出部121は、取得部110の第1A/D変換回路111から、可視光画像である第1検出用画像を取得する。第2特徴量抽出部122は、取得部110の第2A/D変換回路112から、赤外光画像である第2検出用画像を取得する。なお、可視光画像及び赤外光画像は、取得部110から処理部120へ直接送信されるものに限定されない。例えば取得部110は、取得した可視光画像と赤外光画像を記憶部130に書き込む処理を行い、処理部120は、記憶部130に記憶された可視光画像及び赤外光画像を読み出す処理を行ってもよい。
【0031】
第1特徴量抽出部121は、第1検出用画像(可視光画像)の特徴量を第1特徴量として抽出する。第2特徴量抽出部122は、第2検出用画像(赤外光画像)の特徴量を第2特徴量として抽出する。第1特徴量及び第2特徴量は、輝度、コントラスト等の種々の特徴量を用いることが可能である。例えば第1特徴量は、可視光画像に対してエッジ抽出フィルターを適用した結果であるエッジ情報である。第2特徴量は、赤外光画像に対してエッジ抽出フィルターを適用した結果であるエッジ情報である。エッジ抽出フィルターは、例えばラプラシアンフィルター等のハイパスフィルターである。
【0032】
ここで、可視光を透過する物体である透明物体と、可視光を透過しない物体である可視物体について、可視光画像及び赤外光画像における傾向を検討する。透明物体は、可視光が透過するため、可視光画像において特徴が現れにくい。即ち、第1特徴量には透明物体の特徴が反映されにくい。また、透明物体は赤外光を吸収するため、赤外光画像には特徴が現れる。即ち、第2特徴量には透明物体の特徴が反映されやすい。これに対して、可視物体は、可視光と赤外光のいずれも透過度合いが小さい。そのため、可視物体は、可視光画像と赤外光画像の両方に特徴が現れる。即ち、第1特徴量と第2特徴量の両方に、可視物体の特徴が反映される。
【0033】
以上の点を考慮し、第3特徴量抽出部123は、第1特徴量と第2特徴量の差分を第3特徴量として算出する。第1特徴量と第2特徴量の差分を取ることによって、透明物体の特徴を表す情報が強調される。具体的には、赤外光画像に基づく第2特徴量が強調される。一方、第1特徴量と第2特徴量の両方に含まれる可視物体の特徴は、差分演算によってキャンセルされる。そのため、第3特徴量には透明物体の特徴量が支配的に現れる。
【0034】
位置検出部124は、第3特徴量に基づいて、可視光画像及び赤外光画像の少なくとも一方における透明物体の位置情報を検出した後、検出結果を出力する。例えば第3特徴量がエッジを表す情報である場合、位置検出部124は、透明物体のエッジの位置を表す情報、或いはエッジによって囲まれる領域の位置を表す情報を、位置情報として出力する。
【0035】
なお可視光画像と赤外光画像とで、光軸、画角、画素数等の条件が等しい場合、可視光画像における透明物体の位置と、赤外光画像における透明物体の位置とは等価である。また、光軸等に差があったとしても、本実施形態では可視光画像における所与の対象物の位置と、赤外光画像における当該対象物の位置とが対応づけ可能であることを想定している。そのため、可視光画像及び赤外光画像の一方における透明物体の位置情報に基づいて、他方における透明物体の位置情報を特定することが可能である。位置検出部124は、可視光画像及び赤外光画像の両方における位置情報を求めてもよいし、いずれか一方における透明物体の位置情報を求めてもよい。
【0036】
図5(A)、
図5(B)は、透明物体の一例であるガラス扉を示す図である。
図5(A)はカラス扉が閉まった状態を表し、
図5(B)はガラス扉が開いた状態を表す。
図5(A)、
図5(B)に示す例においては、A1に示す矩形状の領域内に、A2及びA3に示す2枚のガラスが配置される。2枚のガラスのうち、A2に示すガラスが水平方向に移動することによって、ガラス扉が開閉される。
図5(A)に示す閉状態においては、A1の領域のほぼ全域にA1とA2の2枚のガラスが配置される。
図5(B)に示す開状態においては、A1の左方領域にはガラスが存在せず、右方領域にガラスが2枚重複した状態となる。なお、A1以外の領域は例えば建造物の壁面等であり、ここでは説明を簡略化するため、凹凸がなく、色味の変化も少ない一様な物体であると考える。
【0037】
図6は、ガラス扉が閉まった状態における可視光画像と赤外光画像の例、及び第1~第3特徴量の例を示す図である。
図6のB1が可視光画像の例であり、B2が赤外光画像の例である。
【0038】
可視光はガラスを透過するため、可視光画像は、ガラスが存在する領域において、ガラスよりも奥にある対象物が撮像される。奥とは具体的には撮像部10との距離がガラスよりも遠い側の空間を表す。
図6のB1に示す例においては、ガラスの奥に存在する可視物体であるB11~B13が撮像される。
【0039】
B3は、B1の可視光画像に対して、エッジ抽出フィルター等を適用することによって取得される第1特徴量の例である。上述したように、ガラス以外の領域には例えば建造物の壁面が撮像され、ガラスが存在する領域にはB11~B13等のガラスよりも奥にある物体が撮像される。ガラスとそれ以外の領域とで撮像される物体が異なるため、境界においてエッジが検出される。結果として、ガラス領域の境界において、第1特徴量の値が大きくなる(B31)。また、ガラスが存在する領域の内部においては、B11~B13等のガラスの奥に存在する物体に起因するエッジが検出されるため、第1特徴量の値はある程度大きくなる(B32)。
【0040】
また、赤外光はガラスによって吸収されるため、B2に示す赤外光画像においては、ガラスが存在する領域は輝度値が小さく、且つ、ローコントラストな領域として撮像される。また、ガラスよりも奥に物体が存在したとしても、当該物体は赤外光画像には撮像されない。
【0041】
B4は、B2の赤外光画像に対して、エッジ抽出フィルター等を適用することによって取得される第2特徴量の例である。ガラス以外の領域と、ガラスが存在する領域とで輝度値に差が出るため、ガラス領域の境界において、第2特徴量の値が大きくなる(B41)。また、ガラスが存在する領域は、上述したようにローコントラストであるため、第2特徴量の値は非常に小さい(B42)。
【0042】
B5は、第1特徴量と第2特徴量の差分である第3特徴量の例である。差分をとることによって、ガラスに対応する領域であるB51において第3特徴量の値が大きくなる。一方、それ以外の領域においては、可視光画像と赤外光画像とで同様の特徴が検出されるため、差分によって得られる第3特徴量の値は小さくなる。例えば、ガラス領域と可視物体の境界においては、第1特徴量と第2特徴量の両方においてエッジが検出されるため、当該エッジはキャンセルされる。また、ガラス領域以外の可視物体は、第1特徴量と第2特徴量が同様の傾向を示すため、やはり値がキャンセルされる。なお、
図6においては、可視物体がローコントラストである例を示したが、可視物体が何らかのエッジを有する場合であっても、差分によって特徴がキャンセルされる点は同様である。
【0043】
図6に示した例においては、位置検出部124は、第3特徴量の値が所与の閾値よりも大きい画素を、透明物体に対応する画素であると特定する。例えば位置検出部124は、第3特徴量の値が所与の閾値よりも大きい画素を連結した領域に基づいて、透明物体に対応する位置、形状を判定する。位置検出部124は、検出した透明物体の位置情報を、記憶部130に記憶する。或いは、情報処理装置100は不図示の表示部を含み、位置検出部124は、検出した透明物体の位置情報を提示するための画像データを、表示部に出力してもよい。ここでの画像データは、例えば可視光画像に対して、透明物体の位置を表す情報が付加された情報である。
【0044】
また本実施形態の手法は、ガラス扉の開閉の判断に用いることが可能である。
図7は、ガラス扉が開いた状態における可視光画像と赤外光画像の例、及び第1~第3特徴量の例を示す図である。
図7のC1が可視光画像の例であり、C2が赤外光画像の例である。C3~C5が第1~第3特徴量の例である。
【0045】
ガラス扉が開いた状態においては、ガラス扉の左方領域はガラスが存在しない開口となる。ガラス扉よりも奥に存在する対象物から照射される赤外光は、ガラスに吸収されることなく、撮像部10に到達可能である。そのため、可視光画像においてC11、C12が撮像されるだけでなく、赤外光画像においても、同じ対象物(C21、C22)が撮像される。一方、ガラスの存在する右方領域については閉状態と同様であり、可視光画像では奥の対象物(C13)が撮像されるのに対して、赤外光画像では当該対象物が撮像されない。
【0046】
結果として、ガラスの存在しない左方領域においては、第1特徴量と第2特徴量の両方の値が大きくなり、差分によってキャンセルされる(C31,C41,C51)。一方、ガラスの存在する右方領域においては、第1特徴量は奥の物体の特徴を反映し、且つ、第2特徴量はローコントラストとなるため、差分によって第3特徴量の値が大きくなる(C32,C42,C52)。
【0047】
従来手法は、可視光画像及び赤外光画像に基づいて、物体の形状やテクスチャ等の特徴を求め、当該特徴からガラスを判断する手法である。そのため、ローコントラストな四角い枠であれば、その他の対象物と分別が難しい。しかし本実施形態の手法は、
図6及び
図7を用いて説明したとおり、赤外光はガラスを撮像し、可視光はガラスを透過することによって奥の対象物を撮像する、という波長帯域に応じた撮像対象の違いを利用する。透明物体が存在する領域においては、別の対象物を撮像しているため、形状やテクスチャが同じであっても、特徴の違いが大きくなる。一方、透明物体でない領域においては、同一の対象物を撮像している為、特徴の違いは大きくならない。本実施形態の手法は、第1特徴量と第2特徴量の差分に対応する第3特徴量を用いることによって、従来手法に比べて透明物体を精度よく検出することが可能になる。また
図6及び
図7を用いて上述したとおり、透明物体の有無だけではなく、位置や形状を検出することが可能である。また、
図7を用いて上述したとおり、透明物体が移動した結果、開口となった領域を透明物体であると誤検出することを抑制できるため、可動式の透明物体の検出、具体的にはガラス扉等の開閉を判断することも可能である。
【0048】
図8は、本実施形態の処理を説明するフローチャートである。この処理が開始されると、取得部110は、第1検出用画像である可視光画像と、第2検出用画像である赤外光画像を取得する(S101、S102)。例えば処理部120は、撮像部10及び取得部110の制御を行う。次に処理部120は、可視光画像に基づく第1特徴量の抽出、及び赤外光画像に基づく第2特徴量の抽出を行う(S103,S104)。S103及びS104の処理は、例えば上述したようにエッジ抽出フィルターを用いたフィルター処理である。ただし
図6及び
図7を用いて上述したとおり、本実施形態の手法は、撮像対象の物体が同じであるか否かに基づいて、透明物体を検出する。そのため、第1特徴量及び第2特徴量は撮像対象となる物体の特徴を反映する情報であればよく、エッジに限定されるものではない。
【0049】
次に処理部120は、第1特徴量と第2特徴量の差分を演算することによって、第3特徴量を抽出する(S105)。処理部120は、第3特徴量に基づいて透明物体の位置検出を行う(S106)。S106の処理は、例えば上述したように、第3特徴量の値と所与の閾値との比較処理である。
【0050】
以上のように、本実施形態の情報処理装置100は、取得部110と、処理部120を含む。取得部110は、第1対象物と、第1対象物に比べて可視光を透過する第2対象物とを含む複数の対象物を可視光によって撮像した第1検出用画像と、複数の対象物を赤外光によって撮像した第2検出用画像を取得する。処理部120は、第1検出用画像に基づいて第1特徴量を求め、第2検出用画像に基づいて第2特徴量を求め、第1特徴量と第2特徴量の差分に対応する特徴量を第3特徴量として算出する。処理部120は、第3特徴量に基づいて、第1検出用画像及び第2検出用画像の少なくとも一方における第2対象物の位置を検出する。
【0051】
以上では、第3特徴量が、第1特徴量と第2特徴量の差分そのものである例を説明した。ただし、第3特徴量は、差分に対応する演算、即ち、第1特徴量と第2特徴量の両方に含まれる特徴をキャンセル可能な演算によって求められる特徴量であればよく、具体的な演算は差分そのものに限定されない。例えば、第2特徴量の一方の符号を反転し加算する処理は、差分に対応する演算に含まれる。また第3特徴量抽出部123は、第1特徴量に第1係数を乗算し、第2特徴量に第2係数を乗算し、2つの乗算結果を加算することによって第3特徴量を求めてもよい。また第3特徴量抽出部123は、第1特徴量と第2特徴量の比率、或いはそれに準ずる情報を、差分に対応する特徴量として求めてもよい。この場合、位置検出部124は、比率である第3特徴量が、1から所定閾値以上乖離する画素を、透明物体であると判定する。
【0052】
本実施形態の手法によれば、可視光画像と赤外光画像からそれぞれ特徴量を求め、それらの差分に基づく特徴量を用いて透明物体を検出する。このようにすれば、可視光画像における可視物体の特徴、可視光画像における透明物体の特徴、赤外光画像における可視物体の特徴、赤外光画像における透明物体の特徴をそれぞれ考慮した、精度の高い透明物体の位置検出が可能になる。
【0053】
また第1特徴量は、第1検出用画像のコントラストを表す情報であり、第2特徴量は、第2検出用画像のコントラストを表す情報である。そして処理部120は、第1検出用画像のコントラストと第2検出用画像のコントラストの差分に対応する第3特徴量に基づいて、第1検出用画像及び第2検出用画像の少なくとも一方における第2対象物の位置を検出する。
【0054】
このようにすれば、コントラストを特徴量として用いることによって、透明物体の位置検出を行うことが可能になる。なおここでのコントラストは、所与の画素と、当該画素の近傍の画素との画素値の相違度合いを表す情報である。例えば上述したエッジは、画素値の変化が急峻な領域を表す情報であるため、コントラストを表す情報に含まれる。ただし、コントラストを求める画像処理は種々知られており、本実施形態においてはそれらを広く適用可能である。例えばコントラストは、所定領域における画素値の最大値と最小値の差分に基づく情報であってもよい。或いは、コントラストを表す情報は、ローコントラストである領域において値が大きくなるような情報であってもよい。
【0055】
また本実施形態の手法は、上記の情報処理装置100を含む移動体に適用できる。情報処理装置100は、自動車、飛行機、バイク、自転車、ロボット、或いは船舶等の種々の移動体に組み込むことができる。移動体は、例えばエンジンやモーター等の駆動機構、ハンドルや舵等の操舵機構、各種の電子機器を備えて、地上や空や海上を移動する機器・装置である。移動体は、例えば情報処理装置100と、移動体の移動制御を行う制御装置30とを含む。
図9(A)~
図9(C)は、本実施形態にかかる移動体の例を示す図である。なお
図9(A)~
図9(C)においては、撮像部10が情報処理装置100の外部に設けられる例を示している。
【0056】
図9(A)に示す例においては、移動体は、例えば自律走行を行う車椅子20である。車椅子20は、撮像部10と、情報処理装置100と、制御装置30とを含む。なお
図9(A)においては情報処理装置100と制御装置30が一体として設けられる例を示したが、これらは別体として設けられてもよい。
【0057】
情報処理装置100は、上述した処理を行うことによって、透明物体の位置情報を検出する。制御装置30は、位置検出部124が検出した位置情報を、情報処理装置100から取得する。そして制御装置30は、取得した透明物体の位置情報に基づいて、車椅子20と透明物体との衝突を抑制するための駆動部の制御を行う。ここでの駆動部は、例えば車輪21を回転させるためのモーターである。なお障害物との衝突を回避するための移動体制御については種々の手法が知られているため、詳細な説明は省略する。
【0058】
また移動体は
図9(B)に示すロボットであってもよい。ロボット40は、頭部に設けられる撮像部10と、本体部41に内蔵される情報処理装置100及び制御装置30と、アーム43と、ハンド45と、車輪47とを含む。制御装置30は、位置検出部124が検出した透明物体の位置情報に基づいて、ロボット40と透明物体との衝突を抑制するための駆動部の制御を行う。例えば、制御装置30は、透明物体の位置情報に基づいて、当該透明物体に衝突しないようなハンド45の移動経路を生成する処理、当該移動経路に沿ったハンド45の移動を実現し且つアーム43が透明物体に衝突しないアーム姿勢の生成処理、及び生成された情報に基づいて駆動部を制御する処理等を行う。ここでの駆動部は、アーム43、ハンド45を駆動するためのモーターである。また駆動部は車輪47を駆動するためのモーターを含み、制御装置30は、ロボット40と透明物体との衝突を抑制するための、車輪駆動制御を行ってもよい。なお、
図9(B)においてはアームを有するロボットを例示したが、本実施形態の手法は種々の態様のロボットに適用可能である。
【0059】
また移動体は
図9(C)に示す自動車60であってもよい。自動車60は、撮像部10と、情報処理装置100と、制御装置30を含む。撮像部10は、例えばドライレコーダー等と併用可能な車載カメラである。制御装置30は、位置検出部124が検出した透明物体の位置に基づいて、自動運転のための種々の制御処理を行う。制御装置30は、例えば個々の車輪61のブレーキを制御する。また制御装置30は、透明物体の検出結果を、表示部63に表示する制御を行ってもよい。
【0060】
2.第2の実施形態
図10は、第2の実施形態における処理部120の構成例を示す図である。処理部120は、
図4に示した構成に加えて、第4特徴量を算出する第4特徴量抽出部125をさらに含む。
【0061】
第3特徴量抽出部123は、第1の実施形態と同様に、第1特徴量と第2特徴量の差分を算出することによって、透明物体に支配的な第3特徴量を算出する。第3特徴量を用いることによって、透明物体の位置を精度よく検出することが可能になる。
【0062】
第4特徴量抽出部125は、第1検出用画像(可視光画像)と第2検出用画像(赤外光画像)を合成した画像である第3検出用画像を用いて、可視物体の特徴量を第4特徴量として検出する。第3検出用画像とは、例えば各画素について、可視光画像の画素値と赤外光画像の画素値を合成した画像である。具体的には第4特徴量抽出部125は、赤色光に対応するR画像の画素値と、緑色光に対応するG画像の画素値と、青色光に対応するB画像の画素値と、赤外光画像の画素値と、の平均値を画素ごとに求めることによって、第3検出用画像を生成する。ここでの平均は単純平均であってもよいし加重平均であってもよい。例えば第4特徴量抽出部125は、RGBの3つの画像に基づいて、輝度画像信号Yを求め、当該輝度画像信号と赤外光画像とを合成してもよい。
【0063】
第4特徴量抽出部125は、例えば第3検出用画像に対してエッジ抽出フィルターを用いたフィルター処理を行うことによって第4特徴量を求める。ただし第4特徴量はエッジに限定されず、種々の変形実施が可能である。また、第4特徴量抽出部125は、第3検出用画像を用いて第4特徴量を算出するだけでなく、可視光画像と赤外光画像から個別に抽出した特徴量を足し合わせることによって、第4特徴量を求めてもよい。
【0064】
位置検出部124は、第3特徴量に基づいて透明物体の位置検出を行い、第4特徴量に基づいて可視物体の位置検出を行う。これにより、位置検出部124は、透明物体と可視物体の両方を区別して位置検出を行う。或いは、位置検出部124は、第3特徴量と第4特徴量を合わせて用いることによって、可視物体と透明物体の両方を区別して位置検出を行ってもよい。
【0065】
図11は、本実施形態の処理を説明するフローチャートである。
図11のS201~S205については、
図8のS101~S105と同様であり、処理部120は、第1特徴量と第2特徴量に基づいて第3特徴量を求める。また処理部120は、可視光画像と赤外光画像に基づいて、第4特徴量を抽出する(S206)。例えば処理部120は、上述したように、可視光画像と赤外光画像を合成することによって第3検出用画像を求め、当該第3検出用画像から第4特徴量を抽出する。
【0066】
次に処理部120は、第3特徴量と第4特徴量に基づいて透明物体の位置検出及び可視物体の位置検出を行う(S207)。S207の処理は、例えば第3特徴量の値と所与の閾値との比較処理による透明物体の検出処理、及び、第4特徴量の値と他の閾値との比較処理による可視物体の検出処理を含む。
【0067】
以上のように、本実施形態の処理部120は、第1検出用画像及び第2検出用画像に基づいて、第1対象物の特徴を表す第4特徴量を求める。そして処理部120は、第3特徴量及び第4特徴量に基づいて、第1対象物の位置と第2対象物の位置の両方を区別して検出する。このようにすれば、画像内に可視物体と透明物体とが混在する場合にも、画像内の各物体の位置を適切に検出することが可能になる。また、暗いシーンでは可視光による特徴量が乏しいため、可視光画像のみを用いた場合、可視物体の検出精度が低下するおそれがある。その点、本実施形態の手法では、第4特徴量の抽出に可視光画像と赤外光画像の両方を用いるため、暗いシーンであっても可視物体を精度よく検出することが可能になる。
【0068】
3.第3の実施形態
第2の実施形態において、位置検出に用いる第3特徴量及び第4特徴量を求めるためには、エッジ抽出フィルター等の特性をあらかじめ設定しておく必要がある。一例としては、可視物体や透明物体の特徴が適切に抽出されるようなフィルター特性をユーザーが手動で設定する。ただし、特徴量抽出処理を含む位置検出処理に機械学習を適用してもよい。
【0069】
本実施形態の情報処理装置100は、学習済モデルを記憶する記憶部130を含む。学習済モデルは、第1学習用画像と、第2学習用画像と、第1対象物の位置情報及び第2対象物の位置情報と、を対応付けたデータセットに基づいて機械学習されている。第1学習用画像とは、第1対象物(可視物体)と第2対象物(透明物体)を含む複数の対象物を可視光によって撮像した可視光画像である。第2学習用画像とは、上記複数の対象物を赤外光によって撮像した赤外光画像である。処理部120は、第1検出用画像と、第2検出用画像と、学習済モデルとに基づいて、第1検出用画像及び第2検出用画像の少なくとも一方において、第1対象物の位置と第2対象物の位置の両方を区別して検出する。
【0070】
このように機械学習を用いることによって、可視物体及び透明物体の位置を精度よく検出することが可能になる。以下、学習処理、及び学習済モデルを用いた推論処理について説明する。なお、以下ではニューラルネットワークを用いた機械学習について説明するが、本実施形態の手法はこれに限定されない。本実施形態においては、例えばSVM(support vector machine)等の他のモデルを用いた機械学習が行われてもよいし、ニューラルネットワークやSVM等の種々の手法を発展させた手法を用いた機械学習が行われてもよい。
【0071】
3.1 学習処理
図12は、本実施形態の学習装置200の構成例を示す図である。学習装置200は、学習に用いられる訓練データを取得する取得部210と、当該訓練データに基づいて機械学習を行う学習部220を含む。
【0072】
取得部210は、例えば訓練データを他の装置から取得する通信インターフェースである。或いは取得部210は、学習装置200が保持する訓練データを取得してもよい。例えば、学習装置200は不図示の記憶部を含み、取得部210は当該記憶部から訓練データを読み出すためのインターフェースである。本実施形態における学習は、例えば教師あり学習である。教師あり学習における訓練データは、入力データと正解ラベルとを対応付けたデータセットである。
【0073】
学習部220は、取得部210が取得した訓練データに基づく機械学習を行い、学習済モデルを生成する。なお、本実施形態の学習部220は、情報処理装置100の処理部120と同様に、デジタル信号を処理する回路及びアナログ信号を処理する回路の少なくとも一方を含むハードウェアによって構成される。例えば、ハードウェアは、回路基板に実装された1又は複数の回路装置や、1又は複数の回路素子で構成することができる。また学習装置200はプロセッサーとメモリーを含み、学習部220は、CPU、GPU、DSP等の各種のプロセッサーによって実現されてもよい。メモリーは、半導体メモリーであってもよいし、レジスターであってもよいし、磁気記憶装置であってもよいし、光学式記憶装置であってもよい。
【0074】
より具体的には、取得部210は、第1対象物と、第1対象物に比べて可視光を透過する第2対象物とを含む複数の対象物を可視光によって撮像した可視光画像と、複数の対象物を赤外光によって撮像した赤外光画像と、可視光画像及び赤外光画像の少なくとも一方における第1対象物及び第2対象物の位置情報と、を対応付けたデータセットを取得する。学習部220は、当該データセットに基づいて、可視光画像及び赤外光画像の少なくとも一方において、第1対象物を検出する条件、及び第2対象物の位置を検出する条件を機械学習する。
【0075】
このような機械学習を行うことによって、可視物体と透明物体の位置を精度よく検出することが可能になる。例えば第2の実施形態においては、第1特徴量、第2特徴量及び第4特徴量を抽出するためのフィルター特性をユーザーが手動で設定する必要がある。そのため、可視物体や透明物体の特徴を効率的に抽出可能なフィルターを多数設定することが難しい。その点、機械学習を用いることによって、多数のフィルター特性を自動的に設定することが可能である。そのため、第2の実施形態に比べて、可視物体及び透明物体の位置を精度よく検出することが可能になる。
【0076】
図13は、ニューラルネットワークを説明する模式図である。ニューラルネットワークは、データが入力される入力層と、入力層からの出力に基づいて演算を行う中間層と、中間層からの出力に基づいてデータを出力する出力層を有する。
図13においては、中間層が2層であるネットワークを例示するが、中間層は1層であってもよいし、3層以上であってもよい。また各層に含まれるノード(ニューロン)の数は
図13の例に限定されず、種々の変形実施が可能である。なお精度を考慮すれば、本実施形態の学習は多層のニューラルネットワークを用いた深層学習(ディープラーニング)を用いることが望ましい。ここでの多層とは、狭義には4層以上である。
【0077】
図13に示すとおり、所与の層に含まれるノードは、隣接する層のノードと結合される。各結合には重みが設定されている。例えば、所与の層に含まれる各ノードが、次の層の全てのノードと接続される全結合のニューラルネットワークを用いる場合、当該2つの層の間の重みは、所与の層に含まれるノード数と、次の層に含まれるノード数とを乗算した値の集合となる。各ノードは、前段のノードの出力と重みを乗算し、乗算結果の合計値を求める。さらに各ノードは、合計値に対してバイアスを加算し、加算結果に活性化関数を適用することによって当該ノードの出力を求める。活性化関数としては、ReLU関数が知られている。ただし、活性化関数は種々の関数を利用可能であることが知られており、シグモイド関数を用いてもよいし、ReLU関数を改良した関数を用いてもよいし、他の関数を用いてもよい。
【0078】
以上の処理を、入力層から出力層へ向けて順次実行することによって、ニューラルネットワークの出力が求められる。ニューラルネットにおける学習は、適切な重み(バイアスを含む)を決定する処理である。具体的な学習手法として、誤差逆伝播法等の種々の手法が知られており、本実施形態においてはそれらを広く適用可能である。なお誤差逆伝播法については公知であるため、詳細な説明は省略する。
【0079】
ただし、ニューラルネットワークは
図13に示した構成に限定されない。例えば、学習処理及び推論処理において、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)が用いられてもよい。CNNは、例えば畳み込み演算を行う畳み込み層とプーリング層を含む。畳み込み層は、フィルター処理を行う層である。プーリング層は、縦方向、横方向のサイズを縮小するプーリング演算を行う層である。CNNの畳み込み層における重みは、フィルターのパラメータである。即ち、CNNにおける学習とは、畳み込み演算に用いるフィルター特性の学習を含む。
【0080】
図14は、本実施形態におけるニューラルネットワークの構成を示す模式図である。
図14のD1は、3チャンネルの可視光画像を入力として受け付け、畳み込み演算を含む処理を行うことによって、第1特徴量を求めるブロックである。第1特徴量は、例えば可視光画像に対して、256通りのフィルター処理を行うことによって求められた、256チャンネルの第1特徴マップである。なお特徴マップのチャンネル数は256に限定されず、種々の変形実施が可能である。
【0081】
D2は、1チャンネルの赤外光画像を入力として受け付け、畳み込み演算を含む処理を行うことによって、第2特徴量を求めるブロックである。第2特徴量は、例えば256チャンネルの第2特徴マップである。
【0082】
D3は、第1特徴マップと第2特徴マップの差分を求める処理を行うことによって、第3特徴量を求めるブロックである。第3特徴量は、例えば第1特徴マップのi(iは1以上256以下の整数)チャンネル目の特徴マップの各画素値から、第2特徴マップのiチャンネル目の特徴マップの各画素値を減算する処理を、チャンネルごと行うことによって取得される256チャンネルの第3特徴マップである。
【0083】
D4は、3チャンネルの可視光画像及び1チャンネルの赤外光画像を合わせた4チャンネルの画像を入力として受け取り、畳み込み演算を含む処理を行うことによって、第4特徴量を求めるブロックである。第4特徴量は、例えば256チャンネルの第4特徴マップである。
【0084】
なお
図14においては、D1,D2,D4の各ブロックが、1つの畳み込み層と1つのプーリング層を含む例を示した。しかし畳み込み層及びプーリング層の少なくとも一方を2層以上に増やしてもよい。また
図14においては省略されているが、D1,D2,D4の各ブロックにおいて、例えば畳み込み演算の結果に対して活性化関数を適用する演算処理が行われる。
【0085】
D5は、第3特徴マップと第4特徴マップを合わせた512チャンネルの特徴マップに基づいて、可視物体と透明物体の位置検出を行うブロックである。
図14においては、512チャンネルの特徴マップに対して、畳み込み層、プーリング層、アップサンプリング層、畳み込み層、ソフトマックス層による演算を行う例を示したが、具体的な構成については種々の変形実施が可能である。アップサンプリング層は、縦方向及び横方向のサイズを拡大する層であり、逆プーリング層と言い換えてもよい。ソフトマックス層とは、公知のソフトマックス関数による演算を行う層である。
【0086】
例えば可視物体と、透明物体と、その他の物体とを分類する場合、ソフトマックス層の出力は3チャンネルの画像データである。各チャンネルの画像データは、例えば入力である可視光画像及び赤外光画像と同じ画素数の画像である。第1チャンネルの各画素は、当該画素が可視物体である確率を表す0以上1以下の数値データである。第2チャンネルの各画素は、当該画素が透明物体である確率を表す0以上1以下の数値データである。第3チャンネルの各画素は、当該画素がその他の物体である確率を表す0以上1以下の数値データである。本実施形態におけるニューラルネットワークの出力は、上記3チャンネルの画像データである。或いはニューラルネットワークの出力は、各画素について、最も確率が高い物体を表すラベルと、その確率が対応付けられた画像データであってもよい。例えばラベルは(0,1,2)の3通りであり、0が可視物体、1が透明物体、2がその他の物体である。例えばある画素において、可視物体である確率が0.3、透明物体である確率が0.5、その他の物体である確率が0.2となった場合、出力データにおける当該画素には、透明物体を表す“1”というラベルと、0.5という確率が割り当てられる。なお、ここでは3つの物体を分類する例を示したが、分類数はこれに限定されない。例えば処理部120は、可視物体をさらに人と道路等に分類する等、4種類以上の物体を分類してもよい。
【0087】
本実施形態における訓練データは、同軸で撮像された可視光画像及び赤外光画像と、当該画像に対応付けられた位置情報である。位置情報は、例えば各画素について、(0,1,2)のいずれかのラベルが付与された情報である。上述したように、ここでのラベルは、0が可視物体、1が透明物体、2がその他の物体を表す。
【0088】
学習処理においては、まずニューラルネットワークに入力データを入力し、そのときの重みを用いて順方向の演算を行うことによって、出力データを取得する。本実施形態においては、入力データは、3チャンネルの可視光画像、1チャンネルの赤外光画像、3チャンネルの可視光画像及び1チャンネルの赤外光画像を合わせた4チャンネルの画像、の3つである。順方向の演算によって求められる出力データは、例えば上述したソフトマックス層の出力であり、1つの画素について、可視物体である確率p0、透明物体である確率p1、その他の物体である確率p2(p0~p2はそれぞれ0以上1以下、且つp0+p1+p2=1を満たす数)の3つが対応付けられた3チャンネルのデータである。
【0089】
学習部220は、求められた出力データと、正解ラベルとに基づいて誤差関数(損失関数)を演算する。正解ラベルが0である場合、当該画素は可視物体であるため、可視物体である確率p0は1となり、透明物体である確率p1及びその他の物体である確率p2は0となるべきである。よって学習部220は、1とp0の相違度を誤差関数として算出し、誤差が小さくなる方向に重みを更新する。なお誤差関数は種々の形式が知られており、本実施形態においてはそれらを広く適用可能である。また重みの更新は例えば誤差逆伝播法を用いて行われるが、他の手法を用いてもよい。また学習部220は、0とp1の相違度、及び0とp2の相違度に基づいて誤差関数を演算し、重みを更新してもよい。
【0090】
以上が1組のデータセットに基づく学習処理の概要である。学習処理においては、多数のデータセットを用意しておき、上記処理を繰り返すことによって、適切な重みを学習する。例えば、学習段階において
図9(A)~
図9(C)に示した移動体を移動させることによって、可視光画像と赤外光画像が取得されてもよい。可視光画像及び赤外光画像に対して、ユーザーが正解ラベルである位置情報を付加することによって、訓練データが取得される。この場合、
図12に示した学習装置200は、情報処理装置100と一体として構成されてもよい。或いは、学習装置200は移動体とは別体として設けられ、移動体から可視光画像及び赤外光画像を取得することによって学習処理を行ってもよい。或いは、学習段階においては、移動体自体を用いずに、撮像部10と同様の構成の撮像装置を用いて可視光画像と赤外光画像が取得されてもよい。
【0091】
図15は、学習装置200における処理を説明するフローチャートである。この処理が開始されると、学習装置200の取得部210は、可視光画像である第1学習用画像と、赤外光である第2学習用画像を取得する(S301,S302)。また取得部210は、第1学習用画像と第2学習用画像に対応する位置情報を取得する(S303)。位置情報は、例えば上述したように、ユーザーによって付与された情報である。
【0092】
次に学習部220は、取得した訓練データに基づいて学習処理を行う(S304)。S304の処理は、例えば1組のデータセットに基づいて、順方向の演算、誤差関数の算出、誤差関数に基づく重みの更新、の各処理を1回行う処理である。次に学習部220は、機械学習を終了するか否かを判定する(S305)。例えば学習部220は、取得した多数のデータセットを、訓練データと検証データに分けておく。そして学習部220は、訓練データに基づいて学習処理を行うことによって取得された学習済モデルに対して、検証データを用いた処理を行うことによって精度を判定する。検証データは、正解ラベルである位置情報が対応付けられているため、学習部220は、学習済モデルに基づいて検出された位置情報が正解であるか否かを判定可能である。学習部220は、検証データに対する正解率が所定閾値以上である場合に、学習を終了すると判定し(S305でYes)、処理を終了する。或いは、学習部220は、S304に示す処理を所定回数実行した場合に、学習を終了すると判定してもよい。
【0093】
以上のように、本実施形態における第1特徴量は、第1検出用画像に対して、第1フィルターを用いた畳み込み演算を行うことによって求められる第1特徴マップである。第2特徴量は、第2検出用画像に対して、第2フィルターを用いた畳み込み演算を行うことによって求められる第2特徴マップである。第1フィルターとは、
図14のD11に示す畳み込み層における演算に用いられるフィルター群であり、第2フィルターとは、
図14のD21に示す畳み込み層における演算に用いられるフィルター群である。このように、可視光画像と赤外光画像に対して、それぞれ異なる空間フィルターを用いて畳み込み演算を行うことによって第1特徴量と第2特徴量が求められる。そのため、可視光画像に含まれる特徴と、赤外光画像に含まれる特徴を適切に抽出することが可能になる。
【0094】
また、第1フィルター及び第2フィルターは、機械学習によってフィルター特性が設定されている。このように、フィルター特性を機械学習を用いて設定することによって、可視光画像と赤外光画像に含まれる各物体の特徴を適切に抽出することが可能になる。例えば、
図14に示したように256チャンネル等の多様な特徴を抽出することも可能であるため、特徴量に基づく位置検出処理の精度が向上する。
【0095】
また、第4特徴量は、第1検出用画像と第2検出用画像に対して、第4フィルターを用いた畳み込み演算を行うことによって求められる第4特徴マップである。このように、可視光画像と赤外光画像の両方を入力とした畳み込み演算を行うことによって、第4特徴量が求めることが可能になる。また、第4フィルターは、機械学習によってフィルター特性が設定されている。
【0096】
また以上では、可視物体と透明物体の両方を区別して検出する場合において、機械学習を適用する手法を説明した。ただし第1の実施形態と同様に、透明物体の位置検出を行う手法に機械学習を用いることも妨げられない。
【0097】
この場合、学習装置200の取得部210は、第1対象物と第2対象物とを含む複数の対象物を可視光によって撮像した可視光画像と、複数の対象物を赤外光によって撮像した赤外光画像と、可視光画像及び赤外光画像の少なくとも一方における第2対象物の位置情報と、を対応付けたデータセットを取得する。学習部220は、データセットに基づいて、可視光画像及び赤外光画像の少なくとも一方において、第2対象物の位置を検出する条件を機械学習する。このようにすれば、透明物体の位置検出を精度よく行うことが可能になる。
【0098】
3.2 推論処理
本実施形態における情報処理装置100の構成例は、
図1と同様である。ただし、記憶部130は、学習部220における学習処理の結果である学習済モデルを記憶する。
【0099】
図16は、情報処理装置100における推論処理を説明するフローチャートである。この処理が開始されると、取得部110は、可視光画像である第1検出用画像と、赤外光画像である第2検出用画像を取得する(S401,S402)。そして処理部120は、記憶部130に記憶された学習済モデルからの指令に従って動作することによって、可視光画像及び赤外光画像における、可視物体及び透明物体の位置を検出する処理を行う(S403)。具体的には、処理部120は、可視光画像単体、赤外光画像単体、可視光画像と赤外光画像の両方、の3通りのデータを入力データとするニューラルネットワーク演算を行う。
【0100】
このようにすれば、可視物体及び透明物体の位置情報を、学習済モデルに基づいて推定することが可能になる。多数の訓練データを用いて機械学習を行うことによって、学習済モデルを用いた処理を高い精度で実行することが可能になる。
【0101】
なお学習済モデルは、人工知能ソフトウェアの一部であるプログラムモジュールとして利用される。処理部120は、記憶部130に記憶された学習済モデルからの指令に従って、入力である可視光画像と赤外光画像における可視物体の位置情報及び透明物体の位置情報を表すデータを出力する。
【0102】
なお、学習済モデルに従った処理部120おける演算、即ち、入力データに基づいて出力データを出力するための演算は、ソフトウェアによって実行されてもよいし、ハードウェアによって実行されてもよい。換言すれば、CNNにおける畳み込み演算等は、ソフトウェア的に実行されてもよい。或いは上記演算は、FPGA(field-programmable gate array)等の回路装置によって実行されてもよい。また、上記演算は、ソフトウェアとハードウェアの組み合わせによって実行されてもよい。このように、記憶部130に記憶された学習済モデルからの指令に従った処理部120の動作は、種々の態様によって実現可能である。
【0103】
4.第4の実施形態
図17は、第4の実施形態における処理部120の構成例を示す図である。情報処理装置100の処理部120は、第2の実施形態における第3特徴量抽出部123、第4特徴量抽出部125に代えて、それぞれ透過スコア算出部126、形状スコア算出部127を含む。
【0104】
透過スコア算出部126は、第1特徴量と第2特徴量に基づいて、可視光画像及び赤外光画像における各対象物について、対象物の可視光が透過する度合いを示す透過スコアを算出する。例えば、ガラス等の透明物体は、可視光は透過し、赤外光は吸収するため、第1特徴量には特徴量が現れにくく、主に第2特徴量に特徴量が現れる。したがって、透過スコアを第1特徴量と第2特徴量の差分で算出する場合、透明物体の透過スコアは可視物体に対して高くなる。ただし、本実施形態における透過スコアは、可視光の透過度合いを表す情報であればよく、第1特徴量と第2特徴量の差分に対応する情報に限定されない。
【0105】
形状スコア算出部127は、第1検出用画像と第2検出用画像を合成した第3検出用画像に基づいて、第1検出用画像および第2検出用画像における各対象物について、対象物の形状を示す形状スコアを算出する。第3検出用画像は、例えば第1検出用画像と第2検出用画像の輝度を各画素について足し合わせて生成される。第3検出用画像は、撮影シーンの明暗に対するロバスト性が高く、形状に関する情報を安定して取得することができる。その反面、可視光画像と赤外光画像の輝度を合成しているため、可視光の透過度合いに関する情報は失われている。したがって、形状スコア算出部は、可視光の透過度合いに依存しない対象物の形状のみを示す形状スコアを算出する。
【0106】
位置検出部124は、透過スコアと形状スコアに基づいて、透明物体と可視物体の両方を区別して位置検出を行う。例えば位置検出部124は、透過スコアが比較的高い値であり、且つ、形状スコアが透明物体に対応する所定形状を示す値である場合は、当該対象物を透明物体と判定する。
【0107】
このように本実施形態の情報処理装置100の処理部120は、第1特徴量及び第2特徴量に基づいて、第1検出用画像及び第2検出用画像に撮像された複数の対象物について可視光の透過度合いを表す透過スコアを算出する。また処理部120は、第1検出用画像及び第2検出用画像に基づいて、第1検出用画像及び第2検出用画像に撮像された複数の対象物の形状を示す形状スコアを算出する。そして処理部120は、透過スコアと形状スコアに基づいて、第1検出用画像及び第2検出用画像の少なくとも一方における、第1対象物の位置と第2対象物の位置の両方を区別して検出する。このように、第1特徴量と第2特徴量と個別に求めることによって透過スコアを算出し、且つ、可視光画像と赤外光画像の両方を用いて形状スコアを算出する。適切な入力に基づいて各スコアを算出できるため、可視物体及び透過物体を精度よく検出することが可能になる。
【0108】
また、透過スコアと形状スコアを算出する手法に、機械学習を適用してもよい。この場合、情報処理装置100の記憶部130は、学習済モデルを記憶する。学習済モデルは、複数の対象物を可視光によって撮像した第1学習用画像と、複数の対象物を赤外光によって撮像した第2学習用画像と、第1学習用画像及び第2学習用画像の少なくとも一方における第1対象物の位置情報及び第2対象物の位置情報と、を対応付けたデータセットに基づいて機械学習されている。処理部120は、第1検出用画像と、第2検出用画像と、学習済モデルとに基づいて、形状スコア及び透過スコアを算出した後、透過スコアと形状スコアに基づいて、第1対象物の位置と第2対象物の位置の両方を区別して検出する。
【0109】
図18は、本実施形態におけるニューラルネットワークの構成を示す模式図である。
図18のE1及びE2は、
図14のD1及びD2と同様である。E3は、第1特徴マップと第2特徴マップに基づいて、透過スコアを求めるブロックである。本実施形態においては、第1特徴量と第2特徴量を対象とした演算は、差分に基づく演算に限定されない。例えば、それぞれ256チャンネルの特徴マップである第1特徴マップと第2特徴マップを結合した512チャンネルの特徴マップに対して、畳み込み演算を行うことによって透過スコアが算出される。またここでの演算は畳み込み層を用いた演算に限定されず、例えば全結合層による演算等が用いられてもよいし、他の演算が用いられてもよい。このようにすれば、第1特徴量と第2特徴量に基づく透過スコアの演算についても、学習処理の対象とすることが可能になる。換言すれば、透過スコアを求める演算の内容が機械学習によって最適化されるため、第3特徴量とは異なり、透過スコアは差分に対応する特徴量に限定されない。
【0110】
E4は、3チャンネルの可視光画像及び1チャンネルの赤外光画像を合わせた4チャンネルの画像を入力として受け取り、畳み込み演算を含む処理を行うことによって、形状スコアを求めるブロックである。E4の構成は、
図14のD4と同様である。
【0111】
E5は、形状スコアと透過スコアに基づいて、可視物体と透明物体の位置検出を行うブロックである。
図18においては、
図14のD5と同様に、畳み込み層、プーリング層、アップサンプリング層、畳み込み層、ソフトマックス層による演算を行う例を示したが、具体的な構成については種々の変形実施が可能である。
【0112】
具体的な学習処理については第3の実施形態と同様である。即ち、学習部220は、可視光画像と、赤外光画像と、位置情報とを対応付けたデータセットに基づいて、フィルター特性等の重みを更新する処理を行う。なお、機械学習を行う場合、E3の出力が透過度合いを表す情報であり、E4の出力が形状を表す情報であることをユーザーが明示的に指定するわけではない。ただし、E4においては可視光画像と赤外光画像の両方を合わせた処理が行われるため、ロバスト性が高い形状認識が可能な反面、透過度合いに関する情報が失われる。一方、E3においては、第1特徴量と第2特徴量を個別に処理することが可能であり、透過度合いに関する情報が残っている。即ち、透明物体の位置検出精度を向上させようとする機械学習を行った場合、E1~E3における重みは、適切な透過スコアを出力するための値となり、E4における重みは、適切な形状スコアを出力するための値となることが期待される。換言すれば、3通りの入力を行い、各入力に対して独立に処理を行った後に、処理結果を合成する
図18の構成を用いることによって、形状スコア及び透過スコアに基づいて対象物の位置検出を行う学習済モデルを構築することが可能である。
【0113】
図19は、透過スコア算出処理を説明する模式図である。
図19のF1が可視光画像であり、F11が透明物体が存在する領域を表し、F12が透明物体の奥に存在する可視物体を表す。F2は赤外光画像であり、F21に示す透明物体が撮像され、F12に対応する可視物体は撮像されない。
【0114】
F3は、可視光画像のうちのF13に対応する領域の画素値を表す。可視光画像において、F13は、可視物体であるF12と背景の境界である。ここでは背景が明るいため、左及び中央の列において画素値が小さくなり、右の列で画素値が大きくなる。なお
図19及び後述する
図20における画素値は、-1から+1の範囲となるように正規化された値を示している。F3の領域に対して、F5に示す特性を有するフィルターを適用した演算を行うことによって、ある程度大きいスコア値F7が出力される。F5は、学習の結果として特性が設定されたフィルターのうちの1つであり、例えば縦エッジを抽出するフィルターである。
【0115】
F4は、赤外光画像のうちのF23に対応する領域の画素値を表す。赤外光画像において、F23は透明物体に対応するため、ローコントラストとなる。具体的には、F4の全域において画素値が同程度となる。そのため、F6に示す特性を有するフィルターを適用した演算を行うことによって、ある程度絶対値が大きく、負の値となるスコア値F8が出力される。F6は、学習の結果として特性が設定されたフィルターのうちの1つであり、例えば平坦領域を抽出するフィルターである。
【0116】
図19の例においては、処理部120は、F7からF8を減算することによって、透過スコアを求めることが可能である。ただし、本実施形態の手法では第1特徴量と第2特徴量とをどのように用いて透過スコアを求めるかについても、機械学習の対象となる。そのため、設定されたフィルター特性に合わせて柔軟な処理によって透過スコアを算出することが可能である。
【0117】
図20は、形状スコア算出処理を説明する模式図である。
図20のG1が可視光画像であり、G11が可視物体を表す。G2は赤外光画像であり、G11と同様の可視物体G21が撮像される。
【0118】
G3は、可視光画像のうちのG12に対応する領域の画素値を表す。可視光画像において、G12は、可視物体であるG11と背景の境界である。ここでは背景が明るいため、左及び中央の列において画素値が小さくなり、右の列で画素値が大きくなる。そのため、G5に示す特性を有するフィルターを適用した演算を行うことによって、ある程度大きいスコア値G7が出力される。G5は、学習の結果として特性が設定されたフィルターのうちの1つであり、例えば縦エッジを抽出するフィルターである。
【0119】
G4は、赤外光画像のうちのG22に対応する領域の画素値を表す。赤外光画像において、G22は、可視物体であるG21と、背景との境界である。赤外光画像においては、人等の可視物体は熱源となるため、背景領域に比べて明るく撮像される。そのため、左及び中央の列において画素値が大きくなり、右の列で画素値が小さくなる。そのため、G6に示す特性を有するフィルターを適用した演算を行うことによって、ある程度大きいスコア値G8が出力される。G6は、学習の結果として特性が設定されたフィルターのうちの1つであり、例えば縦エッジを抽出するフィルターである。なおG5とG6は、勾配方向が異なる。
【0120】
形状スコアは4チャンネルの画像に対する畳み込み演算によって求められる。例えば、形状スコアは、G7とG8を加算した結果を含む特徴マップである。
図20の例であれば、物体のエッジに対応する領域において値が大きくなる情報が形状スコアとして算出される。
【0121】
なお、上記のように本実施形態について詳細に説明したが、本実施形態の新規事項および効果から実体的に逸脱しない多くの変形が可能であることは当業者には容易に理解できるであろう。従って、このような変形例はすべて本開示の範囲に含まれるものとする。例えば、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。また本実施形態及び変形例の全ての組み合わせも、本開示の範囲に含まれる。また情報処理装置、学習装置、移動体等の構成及び動作等も、本実施形態で説明したものに限定されず、種々の変形実施が可能である。
【符号の説明】
【0122】
AX…光軸、10…撮像部、11…波長分離ミラー、12…第1光学系、13,13-2…第1撮像素子、14…第2光学系、15,15-2…第2撮像素子、16…第3光学系、17…撮像素子、20…車椅子、21…車輪、30…制御装置、40…ロボット、41…本体部、43…アーム、45…ハンド、47…車輪、60…自動車、61…車輪、63…表示部、100…情報処理装置、110…取得部、111…第1A/D変換回路、112…第2A/D変換回路、120…処理部、121…第1特徴量抽出部、122…第2特徴量抽出部、123…第3特徴量抽出部、124…位置検出部、125…第4特徴量抽出部、126…透過スコア算出部、127…形状スコア算出部、130…記憶部、200…学習装置、210…取得部、220…学習部