(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-21
(45)【発行日】2024-11-29
(54)【発明の名称】物体分類方法、車両制御方法、情報表示方法、および物体分類装置
(51)【国際特許分類】
G06T 7/00 20170101AFI20241122BHJP
【FI】
G06T7/00 350B
(21)【出願番号】P 2023147063
(22)【出願日】2023-09-11
(62)【分割の表示】P 2020552992の分割
【原出願日】2019-09-24
【審査請求日】2023-09-11
(31)【優先権主張番号】P 2018194149
(32)【優先日】2018-10-15
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】314012076
【氏名又は名称】パナソニックIPマネジメント株式会社
(74)【代理人】
【識別番号】100101683
【氏名又は名称】奥田 誠司
(74)【代理人】
【識別番号】100155000
【氏名又は名称】喜多 修市
(74)【代理人】
【識別番号】100188813
【氏名又は名称】川喜田 徹
(74)【代理人】
【識別番号】100202197
【氏名又は名称】村瀬 成康
(74)【代理人】
【識別番号】100202142
【氏名又は名称】北 倫子
(74)【代理人】
【識別番号】100218981
【氏名又は名称】武田 寛之
(72)【発明者】
【氏名】安藤 貴真
【審査官】鈴木 圭一郎
(56)【参考文献】
【文献】特開2018-096834(JP,A)
【文献】特開2016-156801(JP,A)
【文献】米国特許出願公開第2017/0163901(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
物体の特徴を示す特徴情報を含む画像の画像データを取得することと、
前記特徴情報に基づき、前記画像に含まれる前記物体を分類することと、
を含み、
前記画像データは、
イメージセンサと、
前記イメージセンサに入射する光の光路に配置されたフィルタアレイであって、前記光路に交差する面に沿って2次元的に配列された透光性の複数のフィルタを含み、前記複数のフィルタは、光透過率の波長依存性が互いに異なる2つ以上のフィルタを含み、前記2つ以上のフィルタの各々の光透過率は、複数の波長域において極大値を有する、フィルタアレイと、
を備える第1の撮像装置によって前記画像を撮像することにより取得さ
れ、
前記特徴情報は、前記画像データを基に前記複数の波長域の各々の画像を再構成することなく、前記画像データから抽出される、
物体分類方法。
【請求項2】
前記物体を分類することは、機械学習アルゴリズムによって学習された分類モデルを前記画像データに適用することにより行われ、
前記分類モデルは、各々が、学習用画像データと、前記学習用画像データが示す学習用画像に含まれる前記物体を識別するラベルデータとを含む複数の第1の訓練データセットによって予め学習されている、
請求項1に記載の物体分類方法。
【請求項3】
前記複数の第1の訓練データセットに含まれる複数の学習用画像データは、前記第1の撮像装置とは異なる第2の撮像装置によって生成された学習用画像データを含む、
請求項2に記載の物体分類方法。
【請求項4】
前記第2の撮像装置は、前記第1の撮像装置における前記フィルタアレイと同等の特性を有するフィルタアレイを備える、
請求項3に記載の物体分類方法。
【請求項5】
前記物体が分類された後、前記画像データと、前記物体を識別する第2のラベルデータとを含む第2の訓練データセットによって、前記分類モデルがさらに学習されることをさらに含む、
請求項2から4のいずれかに記載の物体分類方法。
【請求項6】
前記複数の第1の訓練データセットに含まれる複数の学習用画像データにおける前記物体の前記学習用画像内での位置は、前記複数の学習用画像データにおいて互いに異なる、請求項2から4のいずれかに記載の物体分類方法。
【請求項7】
前記学習用画像データは、前記物体が前記学習用画像内で所定の範囲以上を占めた状態で撮像されることによって取得される、
請求項2から4のいずれかに記載の物体分類方法。
【請求項8】
前記画像データを取得することは、ディスプレイを含む撮像装置を用いて行われ、
前記画像データが取得される前に、前記画像の中で前記物体が位置すべきエリアまたは前記物体が占めるべき範囲をユーザに知らせるための補助表示を前記ディスプレイに表示させることをさらに含む、
請求項1から4のいずれかに記載の物体分類方法。
【請求項9】
前記複数のフィルタは、光透過率の波長依存性が互いに異なり、
前記複数のフィルタの各々の光透過率は、複数の波長域において極大値を有する、
請求項1から4のいずれかに記載の物体分類方法。
【請求項10】
請求項1から4のいずれかに記載の物体分類方法を用いた車両制御方法であって、
前記第1の撮像装置は、車両に取り付けられ、
前記物体を分類することの結果に基づいて、前記車両の動作を制御することを含む、
車両制御方法。
【請求項11】
請求項1から4のいずれかに記載の物体分類方法を用いた情報表示方法であって、
前記物体を分類することの結果に基づいて、前記物体の名称および前記物体の説明からなる群から選択される少なくとも1つを示すデータをデータベースから取得することと、
前記物体の名称および前記物体の説明からなる群から選択される前記少なくとも1つをディスプレイに表示することと、
を含む、
情報表示方法。
【請求項12】
物体の特徴を示す特徴情報を含む画像の画像データを生成するイメージセンサと、
前記イメージセンサに入射する光の光路に配置されたフィルタアレイであって、前記光路に交差する面に沿って2次元的に配列された透光性の複数のフィルタを含み、前記複数のフィルタは、光透過率の波長依存性が互いに異なる2つ以上のフィルタを含み、前記2つ以上のフィルタの各々の光透過率は、複数の波長域において極大値を有する、フィルタアレイと、
前記特徴情報に基づき、前記画像に含まれる前記物体を分類する信号処理回路と、
を備
え、
前記特徴情報は、前記画像データを基に前記複数の波長域の各々の画像を再構成することなく、前記画像データから抽出される、
物体分類装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、物体分類方法、車両制御方法、情報表示方法、および物体分類装置に関する。
【背景技術】
【0002】
機械学習を用いた物体認識では、一般に、学習データとして、モノクロ画像またはRGB画像が活用される。一方、RGB画像よりも多くの波長の情報を含むマルチスペクトル画像を利用して物体認識を行う試みも検討されている。
【0003】
特許文献1は、マルチスペクトル画像を取得するセンサとして、異なる波長域の光を通過させる複数のフィルタが空間的にモザイク状に配置されたスペクトルカメラを開示している。特許文献2は、画像内の免疫細胞の認識精度を高めるために、複数の画像チャネルについて免疫細胞の画像を畳み込みニューラルネットワークによって学習する方法を開示している。特許文献3は、マルチスペクトル画像またはハイパー分光画像を訓練データとする機械学習の方法を開示している。
【先行技術文献】
【特許文献】
【0004】
【文献】特表2015-501432号公報
【文献】国際公開第2015/177268号
【文献】米国特許出願公開第2017/0076438号明細書
【発明の概要】
【発明が解決しようとする課題】
【0005】
本開示は、符号化された画像データから、高精度の物体認識を可能にする新規な物体認識方法を提供する。
【課題を解決するための手段】
【0006】
本開示の一態様に係る物体認識方法は、物体の特徴を示す特徴情報を含む画像の画像データを取得することと、前記特徴情報に基づき、前記画像に含まれる前記物体を認識することと、を含む。前記画像データは、イメージセンサと、前記イメージセンサに入射する光の光路に配置されたフィルタアレイであって、前記光路に交差する面に沿って2次元的に配列された透光性の複数のフィルタを含み、前記複数のフィルタは、光透過率の波長依存性が互いに異なる2つ以上のフィルタを含み、前記2つ以上のフィルタの各々の光透過率は、複数の波長域において極大値を有する、フィルタアレイと、を備える第1の撮像装置によって前記画像を撮像することにより取得される。
【発明の効果】
【0007】
本開示によれば、高精度の物体認識が可能になる。
【図面の簡単な説明】
【0008】
【
図1】
図1は、本開示の例示的な実施形態における物体認識装置の例を模式的に示す図である。
【
図2A】
図2Aは、フィルタアレイの例を模式的に示す図である。
【
図2B】
図2Bは、対象波長域に含まれる複数の波長域のそれぞれの光の透過率の空間分布の一例を示す図である。
【
図2C】
図2Cは、
図2Aに示すフィルタアレイにおける領域A1の分光透過率の例を示す図である。
【
図2D】
図2Dは、
図2Aに示すフィルタアレイにおける領域A2の分光透過率の例を示す図である。
【
図3A】
図3Aは、フィルタアレイの2次元分布の例を模式的に示す図である。
【
図3B】
図3Bは、フィルタアレイの2次元分布の他の例を模式的に示す図である。
【
図4A】
図4Aは、例示的な実施形態における物体認識装置を用いた物体認識方法の例を示すフローチャートである。
【
図4B】
図4Bは、分類モデルの生成処理の例を示すフローチャートである。
【
図4C】
図4Cは、例示的な実施形態における複数の訓練データセットの例を模式的に示す図である。
【
図4D】
図4Dは、物体の認識結果を分類モデルにフィードバックする例を模式的に示す図である。
【
図4E】
図4Eは、例示的な実施形態における物体認識装置を用いた物体認識方法の他の例を示すフローチャートである。
【
図5A】
図5Aは、物体認識の推奨領域を表示して、撮像を補助する機能を模式的に示す図である。
【
図5B】
図5Bは、ズーム機能を有する光学系による物体の拡大を模式的に示す図である。
【
図5C】
図5Cは、フィルタアレイの変形例を模式的に示す図である。
【
図6A】
図6Aは、例示的な実施形態における物体認識装置の適用例を模式的に示す図である。
【
図6B】
図6Bは、例示的な実施形態における物体認識装置の他の適用例を模式的に示す図である。
【
図6C】
図6Cは、例示的な実施形態における物体認識装置の他の適用例を模式的に示す図である。
【
図7】
図7は、例示的な実施形態における物体認識装置を用いた車両制御の例を模式的に示す図である。
【
図8】
図8は、例示的な実施形態における物体認識装置の例を模式的に示す図である。
【発明を実施するための形態】
【0009】
本開示の実施形態を説明する前に、本開示の基礎となった知見を説明する。
【0010】
従来のRGB画像を用いた物体認識では、その認識能力に限界があった。例えば、実物と、その看板またはポスターとを区別することができない場合がある。これは、一般に、実物から反射される光のR、G、Bの各成分の量と、その看板またはポスターから反射される光のR、G、Bの各成分の量との差が小さいことに起因する。実物と、その看板またはポスターとを区別するために、例えば、多波長のスペクトルデータを利用することが考えられる。これにより、物体の素材の違いに起因するスペクトルデータの微細な差違を検出することが可能になり得る。
【0011】
従来のハイパースペクトルカメラでは、例えば特許文献1に開示されているように、透過波長域の異なる複数の波長フィルタが2次元的に配置される。動画撮影のようにシングルショットで1フレームの画像が取得される場合、波長域の数と空間解像度とがトレードオフの関係になる。すなわち、多波長画像を取得するために、透過波長域の異なる多くのフィルタを空間的に分散させて配置すると、波長域ごとに取得される画像の空間解像度は低くなる。したがって、物体の認識精度が向上することを期待してハイパースペクトル画像を物体認識に利用したとしても、実際には、低い空間解像度のため、認識精度が低下する可能性がある。
【0012】
イメージセンサの画素数を増やすことによって波長分解能および解像度の両方を向上させることも考えられる。この場合、空間の2次元データに多波長のデータを加えた大容量の3次元データが扱われる。このような大きいサイズのデータに機械学習を適用する場合、前処理、学習、通信、およびデータの保管に多くの時間またはリソースが費やされる。
【0013】
本発明者は、以上の検討に基づき、以下の項目に記載の物体認識方法に想到した。
【0014】
[項目1]
第1の項目に係る物体認識方法は、物体の特徴を示す特徴情報を含む画像の画像データを取得することと、前記特徴情報に基づき、前記画像に含まれる前記物体を認識することと、を含む。前記画像データは、イメージセンサと、前記イメージセンサに入射する光の光路に配置されたフィルタアレイであって、前記光路に交差する面に沿って2次元的に配列された透光性の複数のフィルタを含み、前記複数のフィルタは、光透過率の波長依存性が互いに異なる2つ以上のフィルタを含み、前記2つ以上のフィルタの各々の光透過率は、複数の波長域において極大値を有する、フィルタアレイと、を備える第1の撮像装置によって前記画像を撮像することにより取得される。
【0015】
[項目2]
第1の項目に係る物体認識方法において、前記物体を認識することは、機械学習アルゴリズムによって学習された分類モデルを前記画像データに適用することにより行われ、前記分類モデルは、各々が、学習用画像データと、前記学習用画像データが示す学習用画像に含まれる前記物体を識別するラベルデータとを含む複数の第1の訓練データセットによって予め学習されていてもよい。
【0016】
[項目3]
第2の項目に係る物体認識方法において、前記複数の第1の訓練データセットに含まれる複数の学習用画像データは、前記第1の撮像装置とは異なる第2の撮像装置によって生成された学習用画像データを含んでいてもよい。
【0017】
[項目4]
第3の項目に係る物体認識方法において、前記第2の撮像装置は、前記第1の撮像装置における前記フィルタアレイと同等の特性を有するフィルタアレイを備えていてもよい。
【0018】
[項目5]
第2から第4の項目のいずれかに係る物体認識方法は、前記物体が認識された後、前記画像データと、前記物体を識別する第2のラベルデータとを含む第2の訓練データセットによって、前記分類モデルがさらに学習されることをさらに含んでいてもよい。
【0019】
[項目6]
第2から第5の項目のいずれかに係る物体認識方法において、前記複数の第1の訓練データセットに含まれる複数の学習用画像データにおける前記物体の前記学習用画像内での位置は、前記複数の学習用画像データにおいて互いに異なっていてもよい。
【0020】
[項目7]
第2から第6の項目のいずれかに係る物体認識方法において、前記学習用画像データは、前記物体が前記学習用画像内で所定の範囲以上を占めた状態で撮像されることによって取得されていてもよい。
【0021】
[項目8]
第1から第7の項目のいずれかに係る物体認識方法において、前記画像データを取得することは、ディスプレイを含む撮像装置を用いて行われ、前記物体認識方法は、前記画像データが取得される前に、前記画像の中で前記物体が位置すべきエリアまたは前記物体が占めるべき範囲をユーザに知らせるための補助表示を前記ディスプレイに表示させることをさらに含んでいてもよい。
【0022】
[項目9]
第1から第8の項目のいずれかに係る物体認識方法において、前記複数のフィルタは、光透過率の波長依存性が互いに異なり、前記複数のフィルタの各々の光透過率は、複数の波長域において極大値を有していてもよい。
【0023】
[項目10]
第10の項目に係る車両制御方法は、第1から第9の項目のいずれかに係る物体認識方法を用いた車両制御方法であって、前記第1の撮像装置は、車両に取り付けられ、前記物体を認識することの結果に基づいて、前記車両の動作を制御することを含む。
【0024】
[項目11]
第11の項目に係る情報表示方法は、第1から第9の項目のいずれかに係る物体認識方法を用いた情報表示方法であって、前記物体を認識することの結果に基づいて、前記物体の名称および前記物体の説明からなる群から選択される少なくとも1つを示すデータをデータベースから取得することと、前記物体の名称および前記物体の説明からなる群から選択される前記少なくとも1つをディスプレイに表示することと、を含む。
【0025】
[項目12]
第12の項目に係る物体認識方法は、物体の特徴を示す特徴情報を含む画像の画像データを取得することと、前記特徴情報に基づき、前記画像に含まれる前記物体を認識することと、を含む。前記画像データは、イメージセンサと、互いに異なる波長域の光を発する複数の光源を含む光源アレイと、を備える第1の撮像装置によって、前記複数の光源の一部を発光させた状態で前記画像を撮像する動作を、前記複数の光源の前記一部に含まれる光源の組み合わせを変えながら、複数回に亘って繰り返すことにより取得される。
【0026】
[項目13]
第12の項目に係る物体認識方法において、前記物体を認識することは、機械学習アルゴリズムによって学習された分類モデルを前記画像データに適用することにより行われ、前記分類モデルは、各々が、学習用画像データと、前記学習用画像データが示す学習用画像に含まれる前記物体を識別するラベルデータとを含む複数の第1の訓練データセットによって予め学習されていてもよい。
【0027】
[項目14]
第13の項目に係る物体認識方法において、前記複数の第1の訓練データセットに含まれる複数の学習用画像データは、前記第1の撮像装置とは異なる第2の撮像装置によって生成された学習用画像データを含んでいてもよい。
【0028】
[項目15]
第14の項目に係る物体認識方法において、前記第2の撮像装置は、前記第1の撮像装置における前記光源アレイと同等の特性を有する光源アレイを備えていてもよい。
【0029】
[項目16]
第13から第15の項目のいずれかに係る物体認識方法は、前記物体が認識された後、前記画像データと、前記物体を識別する第2のラベルデータとを含む第2の訓練データセットによって、前記分類モデルがさらに学習されることをさらに含んでいてもよい。
【0030】
[項目17]
第13から第16の項目のいずれかに係る物体認識方法において、前記複数の第1の訓練データセットに含まれる複数の学習用画像データにおける前記物体の前記学習用画像内での位置は、前記複数の学習用画像データにおいて互いに異なっていてもよい。
【0031】
[項目18]
第13から第17の項目のいずれかに係る物体認識方法において、前記学習用画像データは、前記物体が前記学習用画像内で所定の範囲以上を占めた状態で撮像されることによって取得されてもよい。
【0032】
[項目19]
第12から第18の項目のいずれかに係る物体認識方法において、前記画像データを取得することは、ディスプレイを含む撮像装置を用いて行われ、前記物体認識方法は、前記画像データが取得される前に、前記画像の中で前記物体が位置すべきエリアまたは前記物体が占めるべき範囲をユーザに知らせるための補助表示を前記ディスプレイに表示させることをさらに含んでいてもよい。
【0033】
[項目20]
第20の項目に係る車両制御方法は、第12から第19の項目のいずれかに係る物体認識方法を用いた車両制御方法であって、前記第1の撮像装置は、車両に取り付けられ、前記物体を認識することの結果に基づいて、前記車両の動作を制御することを含む。
【0034】
[項目21]
第21の項目に係る情報表示方法は、第12から第19の項目のいずれかに係る物体認識方法を用いた情報表示方法であって、前記物体を認識することの結果に基づいて、前記物体の名称および前記物体の説明からなる群から選択される少なくとも1つを示すデータをデータベースから取得することと、前記物体の名称および前記物体の説明からなる群から選択される前記少なくとも1つをディスプレイに表示することと、を含む。
【0035】
[項目22]
第22の項目に係る物体認識装置は、物体の特徴を示す特徴情報を含む画像の画像データを生成するイメージセンサと、前記イメージセンサに入射する光の光路に配置されたフィルタアレイであって、前記光路に交差する面に沿って2次元的に配列された透光性の複数のフィルタを含み、前記複数のフィルタは、光透過率の波長依存性が互いに異なる2つ以上のフィルタを含み、前記2つ以上のフィルタの各々の光透過率は、複数の波長域において極大値を有する、フィルタアレイと、前記特徴情報に基づき、前記画像に含まれる前記物体を認識する信号処理回路と、を備える。
【0036】
[項目23]
第23の項目に係る物体認識装置は、物体を含む画像の画像信号を生成するイメージセンサと、互いに異なる波長域の光を発する複数の光源を含む光源アレイと、前記イメージセンサおよび前記複数の光源を制御する制御回路であって、前記複数の光源の一部を発光させた状態で前記イメージセンサに撮像させる動作を、前記複数の光源の前記一部に含まれる光源の組み合わせを変えながら、複数回に亘って繰り返す制御回路と、前記イメージセンサによって前記複数回の撮像ごとに生成された前記画像信号から構成される画像データに含まれる、前記物体の特徴を示す特徴情報に基づき、前記画像に含まれる前記物体を認識する信号処理回路と、を備える。
【0037】
[項目24]
第24の項目に係る物体認識装置は、メモリと、信号処理回路と、を備える。前記信号処理回路は、複数の画素を含む画像の2次元画像データであって、前記複数の画素の各々のデータに複数の波長域の情報が多重化され、且つ前記複数の画素の各々の輝度分布が符号化されたマルチ/ハイパースペクトル画像データである2次元画像データを受け付け、前記2次元画像データに含まれる特徴情報に基づき、前記2次元画像データが示すシーンに含まれる物体を認識する。
【0038】
[項目25]
第24の項目に係る物体認識装置において、前記特徴情報は、前記2次元画像データを基に前記複数の波長域の各々の画像を再構成することなく、前記2次元画像データから抽出されてもよい。
【0039】
[項目26]
第24の項目に係る物体認識装置は、前記2次元画像データを取得する撮像装置をさらに備えていてもよい。
【0040】
[項目27]
第26の項目に係る物体認識装置において、前記2次元画像データは、前記物体が前記撮像装置の撮像領域における所定の範囲以上を占めた状態で撮像されることによって取得されてもよい。
【0041】
[項目28]
第27の項目に係る物体認識装置は、前記撮像装置によって前記2次元画像データが取得される前に、前記撮像装置によって撮像される画像の中で前記物体が位置すべきエリアまたは前記物体が占めるべき範囲をユーザに知らせるための補助表示を表示するディスプレイをさらに備えていてもよい。
【0042】
[項目29]
第26の項目に係る物体認識装置において、前記撮像装置は、イメージセンサと、前記イメージセンサに入射する光の光路に配置されたフィルタアレイであって、前記光路に交差する面に沿って2次元的に配列された透光性の複数のフィルタを含み、前記複数のフィルタは、光透過率の波長依存性が互いに異なる2つ以上のフィルタを含み、前記2つ以上のフィルタの各々の光透過率は、複数の波長域において極大値を有する、フィルタアレイと、を含んでいてもよい。
【0043】
[項目30]
第29の項目に係る物体認識装置において、前記複数のフィルタは、周期的に配置される複数の部分集合を含んでいてもよい。
【0044】
以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
【0045】
本開示において、回路、ユニット、装置、部材又は部の全部又は一部、又はブロック図の機能ブロックの全部又は一部は、半導体装置、半導体集積回路(IC)、又はLSI(large scale integration)を含む一つ又は複数の電子回路によって実行されてもよい。LSI又はICは、一つのチップに集積されてもよいし、複数のチップを組み合わせて構成されてもよい。例えば、記憶素子以外の機能ブロックは、一つのチップに集積されてもよい。ここでは、LSIまたはICと呼んでいるが、集積の度合いによって呼び方が変わり、システムLSI、VLSI(very large scale integration)、若しくはULSI(ultra large scale integration)と呼ばれるものであってもよい。LSIの製造後にプログラムされる、Field Programmable Gate Array(FPGA)、又はLSI内部の接合関係の再構成又はLSI内部の回路区画のセットアップができるreconfigurable logic deviceも同じ目的で使うことができる。
【0046】
さらに、回路、ユニット、装置、部材又は部の全部又は一部の機能又は操作は、ソフトウエア処理によって実行することが可能である。この場合、ソフトウエアは一つ又は複数のROM、光学ディスク、ハードディスクドライブなどの非一時的記録媒体に記録され、ソフトウエアが処理装置(processor)によって実行されたときに、そのソフトウエアで特定された機能が処理装置(processor)および周辺装置によって実行される。システム又は装置は、ソフトウエアが記録されている一つ又は複数の非一時的記録媒体、処理装置(processor)、及び必要とされるハードウエアデバイス、例えばインターフェース、を備えていても良い。
【0047】
以下、本開示の実施形態を、図面を参照しながら説明する。
【0048】
(実施形態1)
図1は、本開示の例示的な実施形態1における物体認識装置300の例を模式的に示す図である。
図1は、一例として、キノコが撮影される状況を示している。撮影される物体70は、どのような物でもよい。実施形態1における物体認識装置300は、撮像装置150と、信号処理回路200と、ディスプレイ400と、メモリ500とを備える。撮像装置150は、光学系40と、フィルタアレイ100Cと、イメージセンサ60とを備える。物体認識装置300は、例えばスマートフォンまたはタブレットコンピュータなどのコンピュータであり得る。これらのコンピュータに搭載されたカメラが撮像装置150として機能してもよい。
【0049】
フィルタアレイ100Cは、イメージセンサ60に入射する光の光路に配置されている。本実施形態では、フィルタアレイ100Cは、イメージセンサ60に対向する位置に配置されている。フィルタアレイ100Cは、他の位置に配置されていてもよい。物体70からの光の像は、フィルタアレイ100Cによって符号化される。ここで「符号化」とは、フィルタアレイ100Cに入射する光を、その光の波長および位置に依存する減衰率で減衰させることにより、像を変調させることを意味する。このようにして変調された像に基づいて生成された画像データを、「符号化された画像データ」と称する。フィルタアレイ100Cの構成および符号化の詳細については、後述する。
【0050】
イメージセンサ60は、撮像面に2次元に配列された複数の画素である複数の光検出セルを有するモノクロタイプの撮像素子であり得る。イメージセンサ60は、例えばCCD(Charge-Coupled Device)センサ、CMOS(Complementary Metal Oxide Semiconductor)センサ、赤外線アレイセンサ、テラヘルツアレイセンサ、またはミリ波アレイセンサであり得る。光検出セルは、例えばフォトダイオードを含む。イメージセンサ60は、必ずしもモノクロタイプの撮像素子である必要はない。例えば、R/G/B、R/G/B/IR、またはR/G/B/Wのフィルタを有するカラータイプの撮像素子を用いてもよい。イメージセンサ60は、可視の波長範囲に限らず、X線、紫外、近赤外、中赤外、遠赤外、マイクロ波・電波の波長範囲に検出感度を有していてもよい。
【0051】
イメージセンサ60は、フィルタアレイ100Cを通過した光の光路に配置されている。イメージセンサ60は、フィルタアレイ100Cを通過した光を受けて画像信号を生成する。イメージセンサ60における各光検出セルは、受けた光の量に応じた光電変換信号を出力する。複数の光検出セルから出力された複数の光電変換信号により、画像信号が生成される。
図1は、当該画像信号、すなわち符号化された画像データによって構成される撮像画像120の例を模式的に示している。
【0052】
光学系40は、少なくとも1つのレンズを含む。
図1に示す例では、光学系40は1つのレンズとして描かれているが、複数のレンズの組み合わせによって構成されていてもよい。光学系40は、後述するようにズーム機能を有していてもよい。光学系40は、物体70からの光の像を、フィルタアレイ100C上に結像させる。
【0053】
信号処理回路200は、イメージセンサ60から出力された画像信号を処理する回路である。信号処理回路200は、例えば中央演算処理装置(CPU)および画像処理用演算プロセッサ(GPU)とコンピュータプログラムとの組み合わせによって実現され得る。そのようなコンピュータプログラムは、例えばメモリなどの記録媒体に格納され、CPUまたはGPUなどのプロセッサがそのプログラムを実行することにより、後述する認識処理を実行できる。信号処理回路200は、デジタルシグナルプロセッサ(DSP)、またはフィールドプログラマブルゲートアレイ(FPGA)等のプログラマブルロジックデバイス(PLD)であってもよい。信号処理回路200は、インターネットなどのネットワークを介して撮像装置150またはスマートフォン等の機器に接続されたサーバコンピュータが有していてもよい。
【0054】
信号処理回路200は、符号化された画像データから、物体70を認識する。物体70の認識には、例えば公知の機械学習アルゴリズムによって学習されたモデルが用いられ得る。物体認識方法の詳細については、後述する。
【0055】
ディスプレイ400は、認識した物体70に関連付けられた情報を表示する。ディスプレイ400は、例えば、スマートフォンまたはタブレットコンピュータのディスプレイであり得る。ディスプレイ400は、パーソナルコンピュータなどに接続されたディスプレイ、またはラップトップコンピュータに内蔵されたディスプレイであってもよい。
【0056】
次に、フィルタアレイ100Cの構成および符号化の詳細を説明する。
【0057】
図2Aは、フィルタアレイ100Cの例を模式的に示す図である。フィルタアレイ100Cは、2次元に配列された複数の領域を有する。本明細書では、当該領域を、「セル」と称することがある。各領域には、個別に設定された分光透過率を有するフィルタが配置されている。ここで、「分光透過率」とは、波長依存性を有する光透過率を意味する。分光透過率は、入射光の波長をλとして、関数T(λ)で表される。分光透過率T(λ)は、0以上1以下の値を取り得る。このように、フィルタアレイ100Cは、光路に交差する面に沿って2次元に配列された複数のフィルタを含む。
【0058】
図2Aに示す例では、フィルタアレイ100Cは、6行8列に配列された48個の矩形領域を有している。実際の用途では、これよりも多くの領域が設けられ得る。その数は、例えばイメージセンサなどの一般的な撮像素子の画素数と同程度であり得る。当該画素数は、例えば数十万から数千万である。ある例では、フィルタアレイ100Cは、撮像素子の直上に配置され、各領域が撮像素子の1つの画素に対応するように配置され得る。各領域は、例えば、撮像素子の1つまたは複数の画素に対向する。
【0059】
図2Bは、対象波長域に含まれる複数の波長域W1、W2、・・・、Wiのそれぞれの光の透過率の空間分布の一例を示す図である。
図2Bに示す例では、各領域の濃淡の違いは、透過率の違いを表している。淡い領域ほど透過率が高く、濃い領域ほど透過率が低い。
図2Bに示すように、波長域によって光透過率の空間分布が異なっている。
【0060】
図2Cおよび
図2Dは、それぞれ、
図2Aに示すフィルタアレイ100Cの複数の領域に含まれる領域A1および領域A2の分光透過率の例を示す図である。領域A1の分光透過率と領域A2の分光透過率とは、互いに異なっている。このように、フィルタアレイ100Cの分光透過率は、領域によって異なる。ただし、必ずしもすべての領域の分光透過率が異なっている必要はない。フィルタアレイ100Cにおける複数の領域の少なくとも2つの領域の分光透過率は、互いに異なる。すなわち、フィルタアレイ100Cは、分光透過率が互いに異なる2つ以上のフィルタを含む。当該2つ以上のフィルタの各々の分光透過率は、複数の波長域において極大値を有し、他の複数の波長域において極小値を有する。
【0061】
ここで本開示における「極大値」および「極小値」の意義を説明する。着目するフィルタの分光透過率の最大値が1、最小値が0になるように正規化されたとき、0.5を超え、且つ隣接する極小値との差が0.2以上であるものを、本開示における「極大値」であると定義する。同様に、上記の正規化を行ったとき、0.5未満、且つ隣接する極大値との差が0.2以上であるものを、本開示における「極小値」であると定義する。フィルタアレイ100Cにおける複数のフィルタのすべての分光透過率が互いに異なっていてもよい。この場合、各フィルタの分光透過率は、複数の波長域において極大値を有し、他の複数の波長域において極小値を有し得る。ある例では、フィルタアレイ100Cに含まれる複数のフィルタの分光透過率のパターンの数は、対象波長域に含まれる波長域の数iと同じか、それ以上であり得る。典型的には、フィルタアレイ100Cは、半数以上のフィルタの分光透過率が異なるように設計され得る。
【0062】
フィルタアレイ100Cは、入射光を領域ごとに、波長に関して離散的な複数の強度のピークを有する光に変調し、これらの多波長の光を重畳して出力する。これにより、フィルタアレイ100Cを通過した光の像は、符号化される。
【0063】
各領域の分光透過率の波長方向の分解能は、所望の波長域の帯域幅程度に設定され得る。言い換えれば、分光透過率の曲線において1つの極大値を含む波長範囲のうち、当該極大値に最も近接する極小値と当該極大値との平均値以上の値をとる範囲の幅は、所望の波長域の帯域幅程度に設定され得る。この場合、分光透過率を、例えばフーリエ変換によって周波数成分に分解すれば、その波長域に相当する周波数成分の値が相対的に大きくなる。
【0064】
フィルタアレイ100Cは、典型的には、
図2Aに示すように、格子状に区分けされた複数の領域に相当する複数のセルに分割される。これらのセルが、互いに異なる分光透過率を有する。フィルタアレイ100Cの各領域の光透過率の波長分布および空間分布は、例えばランダム分布または準ランダム分布であり得る。
【0065】
ランダム分布および準ランダム分布の考え方は次の通りである。まず、フィルタアレイ100Cにおける各領域は、光透過率に応じて、例えば0から1の値を有するベクトル要素と考えることができる。ここで、透過率が0の場合、ベクトル要素の値は0であり、透過率が1の場合、ベクトル要素の値は1である。言い換えると、行方向または列方向に一列に並んだ領域の集合を0から1の値を有する多次元のベクトルと考えることができる。したがって、フィルタアレイ100Cは、多次元ベクトルを列方向または行方向に複数備えていると言える。このとき、ランダム分布とは、任意の2つの多次元ベクトルが独立である、すなわち平行でないことを意味する。また、準ランダム分布とは、一部の多次元ベクトル間で独立でない構成が含まれることを意味する。したがって、ランダム分布および準ランダム分布においては、複数の領域に含まれる1つの行または列に並んだ領域の集合に属する各領域での第1の波長域の光の透過率の値を要素とするベクトルと、他の行または列に並んだ領域の集合に属する各領域における第1の波長域の光の透過率の値を要素とするベクトルとは、互いに独立である。第1の波長域とは異なる第2の波長域についても同様に、複数の領域に含まれる1つの行または列に並んだ領域の集合に属する各領域における第2の波長域の光の透過率の値を要素とするベクトルと、他の行または列に並んだ領域の集合に属する各領域における第2の波長域の光の透過率の値を要素とするベクトルとは、互いに独立である。
【0066】
フィルタアレイ100Cをイメージセンサ60の近傍あるいは直上に配置する場合、フィルタアレイ100Cにおける複数の領域の相互の間隔であるセルピッチは、イメージセンサ60の画素ピッチと略一致させてもよい。このようにすれば、フィルタアレイ100Cから出射した符号化された光の像の解像度が、画素の解像度と略一致する。フィルタアレイ100Cをイメージセンサ60から離して配置する場合には、その距離に応じてセルピッチを細かくしてもよい。
【0067】
図2Aから
図2Dに示す例では、各領域の透過率が0以上1以下の任意の値をとり得るグレースケールの透過率分布を想定した。しかし、必ずしもグレースケールの透過率分布にする必要はない。例えば、各領域の透過率が略0または略1のいずれかの値を取り得るバイナリ-スケールの透過率分布を採用してもよい。バイナリ-スケールの透過率分布では、各領域は、対象波長域に含まれる複数の波長域のうちの少なくとも2つの波長域の光の大部分を透過させ、残りの波長域の光の大部分を透過させない。ここで「大部分」とは、概ね80%以上を指す。
【0068】
全セルのうちの一部、例えば半分のセルを、透明領域に置き換えてもよい。そのような透明領域は、対象波長域に含まれるすべての波長域W1から波長域Wiの光を同程度の高い透過率で透過させる。当該高い透過率は、例えば0.8以上である。そのような構成では、複数の透明領域は、例えば市松状に配置され得る。すなわち、フィルタアレイ100Cにおける複数の領域の2つの配列方向において、光透過率が波長によって異なる領域と、透明領域とが交互に配列され得る。
図2Aに示す例では、2つの配列方向は、横方向および縦方向である。市松状に配置された透明領域を透過する成分を抽出することにより、1つのカメラでモノクロ画像を同時に取得することができる。
【0069】
フィルタアレイ100Cは、多層膜、有機材料、回折格子構造、金属を含む微細構造からなる群から選択される少なくとも1つから構成され得る。多層膜の場合は、例えば、誘電多層膜または金属膜を含む多層膜が用いられる。このとき、各セルにおいて、多層膜の厚さ、材料、および積層順序の少なくとも1つは、異なるように設計され得る。これにより、各セルにおいて、異なる分光特性を実現することができる。また、多層膜により、シャープな立ち上がりまたは立ち下がりを有する分光特性を実現することができる。有機材料を用いる場合は、各セルにおいて、異なる顔料または染料により、または異種材料の積層により、異なる分光特性を実現することができる。回折格子構造の場合は、各セルにおいて、異なる回折ピッチまたは深さの回折構造を設けることにより、異なる分光特性を実現することができる。金属を含む微細構造の場合は、プラズモン効果による分光により、異なる分光特性を実現することができる。
【0070】
フィルタアレイ100Cは、イメージセンサ60の近傍または直上に配置されている。ここで「近傍」とは、光学系40からの光の像がある程度鮮明な状態でフィルタアレイ100Cの面上に形成される程度に近接していることを意味する。「直上」とは、ほとんど隙間が生じない程両者が近接していることを意味する。フィルタアレイ100Cおよびイメージセンサ60は一体化されていてもよい。フィルタアレイ100Cは、光透過率の空間分布を有するマスクである。フィルタアレイ100Cは、入射した光の強度を変調させて通過させる。
【0071】
図3Aおよび
図3Bは、フィルタアレイ100Cの2次元分布の例を模式的に示す図である。
【0072】
図3Aに示すように、フィルタアレイ100Cは、2値マスクによって構成されてもよい。黒部は遮光を表し、白部は透過を表す。白部を通過する光は100%透過し、黒部を通過する光は100%遮光される。マスクの透過率の2次元分布は、ランダム分布または準ランダム分布であり得る。マスクの透過率の2次元分布は、必ずしも完全なランダムである必要はない。フィルタアレイ100Cによる符号化は、各波長の画像それぞれを区別するために行われるからである。また、黒部と白部との比率は1:1である必要はない。例えば、白部:黒部=1:9であってもよい。
図3Bに示すように、フィルタアレイ100Cは、グレースケールの透過率分布を有するマスクであってもよい。
【0073】
図3Aおよび
図3Bに示すように、フィルタアレイ100Cは、波長域W1、W2、・・・、Wiごとに異なる透過率の空間分布を有する。波長域それぞれの透過率の空間分布は、平行移動させたとしても一致しない。
【0074】
イメージセンサ60は、2次元の画素を有するモノクロタイプの撮像素子であり得る。しかし、イメージセンサ60は、必ずしもモノクロタイプの撮像素子によって構成される必要はない。イメージセンサ60には、例えば、R/G/B、R/G/B/IR、R/G/B/Wのフィルタを有するカラータイプの撮像素子を用いてもよい。カラータイプの撮像素子により、波長に関する情報量を増やすことができる。これにより、フィルタアレイ100Cの特性を補完することが可能であり、フィルタ設計が容易になる。
【0075】
次に、本実施形態の物体認識装置300によって撮像画像120を示す画像データを取得する過程を説明する。物体70からの光の像は、光学系40によって結像され、イメージセンサ60の直前に設置されたフィルタアレイ100Cによって符号化される。その結果、波長域ごとに異なる符号化情報を有する像が、互いに重なり合って、多重像としてイメージセンサ60上に結像される。これにより、撮像画像120が得られる。このとき、プリズムなどの分光素子を使用しないため、像の空間的なシフトは発生しない。これにより、多重像であっても高い空間解像度を維持することができる。その結果、物体認識の精度を高めることが可能になる。
【0076】
物体認識装置300の一部に帯域通過フィルタを設置することにより、波長域を限定してもよい。物体70の波長範囲がある程度既知の場合、波長域を限定することにより、識別範囲も限定することができる。その結果、物体の高い認識精度を実現することができる。
【0077】
次に、本実施形態における物体認識装置300を用いた物体認識方法を説明する。
【0078】
図4Aは、本実施形態における物体認識装置300を用いた物体認識方法の例を示すフローチャートである。この物体認識方法は、信号処理回路200によって実行される。信号処理回路200は、メモリ500に格納されたコンピュータプログラムを実行することにより、
図4Aに示すステップS101からS104の処理を実行する。
【0079】
まず、ユーザは、物体70を、物体認識装置300が備える撮像装置150によって撮像する。これにより、符号化された撮像画像120が得られる。
【0080】
ステップS101において、信号処理回路200は、撮像装置150によって生成された画像データを取得する。当該画像データは、符号化された撮像画像120を示す。
【0081】
ステップS102において、信号処理回路200は、取得した画像データの前処理を行う。前処理は、認識精度を高めるために行われる。前処理は、例えば、領域抽出、ノイズ除去のための平滑化処理、および特徴抽出などの処理を含み得る。前処理は、不要であれば省略されてもよい。
【0082】
ステップS103において、信号処理回路200は、学習済みの分類モデルを画像データに適用して、前処理された画像データが示すシーンに含まれる物体70を特定する。分類モデルは、例えば公知の機械学習アルゴリズムによって予め学習されている。分類モデルの詳細については、後述する。
【0083】
ステップS104において、信号処理回路200は、物体70に関連付けられた情報を出力する。信号処理回路200は、例えば、物体70の名称および/または詳細情報などの情報を、ディスプレイ400に出力する。ディスプレイ400は、当該情報を示す画像を表示する。当該情報は、画像に限らず、例えば音声によって提示されてもよい。
【0084】
次に、物体認識方法に用いられる分類モデルを説明する。
【0085】
図4Bは、分類モデルの生成処理の例を示すフローチャートである。
【0086】
ステップS201において、信号処理回路200は、複数の訓練データセットを収集する。複数の訓練データセットの各々は、学習用画像データと、ラベルデータとを含む。ラベルデータは、学習用画像データが示すシーンに含まれる物体70を識別する情報である。学習用画像データは、前述の画像データと同様の方法で符号化された画像データである。複数の訓練データセットに含まれる複数の学習用画像データは、本実施形態における撮像装置150、または他の撮像装置によって生成された学習用画像データを含み得る。複数の訓練データセットの詳細については後述する。
【0087】
ステップS202において、信号処理回路200は、各訓練データに含まれる学習用画像データについて、前処理を行う。前処理については、前述した通りである。
【0088】
ステップS203において、信号処理回路200は、複数の訓練データセットから、機械学習によって分類モデルを生成する。機械学習には、例えば、ディープラーニング、サポートベクターマシン、決定木、遺伝的プログラミング、またはベイジアンネットワークなどのアルゴリズムが用いられ得る。ディープラーニングが利用される場合、例えば畳み込みニューラルネットワーク(CNN)またはリカレントニューラルネットワーク(RNN)などのアルゴリズムが用いられ得る。
【0089】
本実施形態では、機械学習によって訓練されたモデルを利用することにより、符号化画像データから、直接的にシーン内の物体に関する情報を得ることができる。同様のことを従来技術で行うためには、多くの演算が必要であった。例えば、符号化画像データから、圧縮センシングなどの方法で各波長域の画像データを再構築し、それらの画像データから、物体を特定する必要があった。これに対し、本実施形態では、符号化画像データから各波長域の画像データを再構築する必要がない。したがって、当該再構成の処理に費やされる時間または計算リソースを節約することができる。
【0090】
図4Cは、本実施形態における複数の訓練データセットの例を模式的に示す図である。
図4Cに示す例では、各訓練データセットは、1つ以上のキノコを示す符号化画像データと、そのキノコが食用キノコか毒キノコかを示すラベルデータとを含む。このように、各訓練データセットについて、符号化画像データと、正解ラベルを示すラベルデータとが、1:1で対応している。正解ラベルは、例えば、物体70の名称、特性、「おいしい」もしくは「まずい」などの官能評価、または「良い」もしくは「悪い」などの判定を示す情報であり得る。一般に、複数の訓練データセットは多いほど、学習の精度を高めることができる。ここで、複数の訓練データセットに含まれる複数の学習用画像データにおける物体70の画像内での位置は、学習用画像データによって異なっていてもよい。符号化情報は、画素ごとに異なる。したがって、画像内での物体70の位置が異なる学習用画像データが多いほど、分類モデルによる物体認識の精度を高めることができる。
【0091】
本実施形態における物体認識装置300では、分類モデルは、ユーザが利用する前に、信号処理回路200に組み込まれている。他の方法としては、撮像画像120を示す符号化画像データを、ネットワークまたはクラウド経由で、別途外部に準備された分類システムに送信してもよい。当該分類システムでは、例えばスーパーコンピュータによる高速処理が可能である。これにより、ユーザ側の端末の処理速度が脆弱であっても、ネットワークにさえ接続可能であれば、物体70の認識結果を、高速にユーザに提供することができる。
【0092】
図4AにおけるステップS101で取得される画像データと、
図4BにおけるステップS201で取得される学習用画像データは、例えば同等の特性を有するフィルタアレイによって符号化され得る。その場合、物体70の認識精度を高くすることができる。ここで、同等の特性を有するフィルタアレイは、厳密に同じ特性を有している必要はなく、一部のフィルタにおいて分光透過特性が異なっていてもよい。例えば、全体の数%から数十%程度のフィルタの特性が異なっていてもよい。学習用画像データを他の撮像装置によって生成する場合、当該他の撮像装置は、撮像装置150に含まれるフィルタアレイ100Cと同等の特性を有するフィルタアレイを備え得る。
【0093】
物体70の認識結果を、分類モデルにフィードバックしてもよい。それにより、分類モデルをさらに訓練することができる。
【0094】
図4Dは、物体70の認識結果を分類モデルにフィードバックする例を模式的に示す図である。
図4Dに示す例では、前処理が行われた符号化画像データに、学習された分類モデルを適用して、分類結果が出力される。すると、その結果がデータセットに追加され、そのデータセットを用いてさらに機械学習が行われる。これにより、モデルがさらに訓練され、予測精度を向上させることができる。
【0095】
図4Eは、認識結果を分類モデルにフィードバックする場合の動作をより詳細に示すフローチャートである。
【0096】
図4Eに示すステップS301からステップS304は、それぞれ
図4Aに示すステップS101からステップS104と同じである。その後、ステップS305からS307が実行される。
【0097】
ステップS305では、信号処理回路200は、ステップS301において取得した画像データと、ステップS303において認識した物体70を示すラベルデータとを含む新たな訓練データセットを生成する。
【0098】
ステップS306では、信号処理回路200は、新たな複数の訓練データセットによって、分類モデルをさらに学習させる。この学習処理は、
図4Bに示すステップS202およびステップS203に示される学習処理と同様である。
【0099】
ステップS307では、信号処理回路200は、物体70の認識を続けるかどうかを判定する。判定がYesの場合、信号処理回路200は、再びステップS301の処理を実行する。判定がNoの場合、信号処理回路200は、物体70の認識を終了する。
【0100】
このように、物体70の認識結果を分類モデルにフィードバックすることにより、分類モデルの認識精度を向上させることができる。さらに、ユーザに適した分類モデルの作成も可能になる。
【0101】
分類システムが別途提供されている場合、ユーザは、物体70の認識結果を含むデータセットを、フィードバックのために、ネットワーク経由で分類システムに送信してもよい。当該データセットは、撮像によって生成された撮像画像120を示すデータ、またはそれを前処理したデータと、分類モデルによる認識結果またはユーザの知見に基づく正解ラベルを示すラベルデータとを含み得る。フィードバックのために当該データセットを送信したユーザには、分類システムの提供者から、報酬またはポイントなどのインセンティブが与えられてもよい。ユーザが撮影した撮像画像120のアクセス許可、または自動送信の可否の認証が、送信前に、例えば画面ポップアップによってディスプレイ400に表示されてもよい。
【0102】
フィルタアレイ100Cは、1つの画素に1つの波長情報ではなく、1つの画素に複数の波長情報を多重化させることが可能である。撮像画像120は、多重化された2次元情報を含む。当該2次元情報は、空間および波長について、例えばランダムに符号化されたスペクトル情報である。フィルタアレイ100Cとして固定のパターンを使用した場合、機械学習によって符号化のパターンが学習される。これにより、2次元の入力データではあるものの、実質的に3次元(すなわち、位置2次元および波長1次元)の情報が物体認識に活用される。
【0103】
本実施形態における画像データは、波長情報が多重化されたデータであることから、従来の空間解像度を犠牲にするハイパースペクトル画像に比べて、1波長あたりの空間解像度を高めることが可能である。さらに、本実施形態における物体認識装置300は、シングルショットで1フレームの画像データを取得することが可能である。これにより、従来の解像度が高いスキャン方式のハイパースペクトル撮像方式に比べて、動いている物体、または手振れに強い物体認識が可能である。
【0104】
従来のハイパースペクトル画像の撮像では、1波長当たりの検出感度が低いという課題があった。例えば、40波長に分解する場合、分解しない場合と比較して、光量が1画素あたり40分の1に減少してしまう。これに対し、本実施形態における方法では、
図3Aおよび
図3Bに例示するように、入射光量のうちの例えば50%程度の光量が、イメージセンサ60によって検出される。これにより、従来のハイパースペクトル画像に比べて1画素当たりの検出光量が高くなる。その結果、画像のSN比が増加する。
【0105】
次に、本実施形態における物体認識方法を実装した撮像装置による他の機能の例を説明する。
【0106】
図5Aは、物体認識の推奨領域を表示してカメラによる撮像を補助する機能を模式的に示す図である。物体70がイメージセンサ60上に極端に小さく、または極端に大きく結像されると、結像された物体70の画像と、学習時に認識した訓練データセットの画像との間に差異が生じ、認識精度が低下する。フィルタアレイ100Cは、例えば画素ごとに含まれる波長情報が異なる。このため、物体70がイメージセンサ60の撮像領域の一部のみでしか検出されないと、波長情報に偏りが生じる。波長情報の偏りを防ぐために、物体70は、イメージセンサ60の撮像領域において、なるべく広く撮影され得る。また、物体70の像がイメージセンサ60の撮像領域からはみ出した状態で撮影されると、物体70の空間解像度の情報に欠落が生じる。したがって、物体認識の推奨領域は、イメージセンサ60の撮像領域よりもやや内側である。
図5Aに示す例では、物体認識の推奨領域を示す補助表示400aが、ディスプレイ400に表示される。
図5Aにおいて、ディスプレイ400の全領域が、イメージセンサ60の撮像領域に対応している。例えば、撮像領域の横幅または縦幅の60%から98%の領域が、物体認識の推奨領域としてディスプレイ400上に表示され得る。物体認識の推奨領域は、撮影領域の横幅または縦幅の70%から95%の領域、または80%から90%の領域であってもよい。このように、撮像装置150によって画像データが取得される前に、補助表示400aがディスプレイ400に表示されてもよい。補助表示400aは、撮像されるシーンの中で物体70が位置すべきエリアまたは物体70が占めるべき範囲をユーザに知らせる。同様に、複数の訓練データセットに含まれる複数の学習用画像データの各々は、物体70が画像内で所定の範囲以上を占めた状態で撮像されることによって取得され得る。
【0107】
図5Bは、ズーム機能を有する光学系によって物体70が拡大される様子を模式的に示す図である。
図5Bの左部分に示す例では、拡大前の物体70がディスプレイ400に表示され、
図5Bの右部分に示す例では、拡大後の物体70がディスプレイ400に表示されている。このように、ズーム機能を有する光学系40により、イメージセンサ60上に広く物体70を結像させることができる。
【0108】
図5Cは、フィルタアレイ100Cの変形例を模式的に示す図である。
図5Cに示す例では、複数の領域(A1、A2、・・・)の集まりによって構成された領域群AAが、周期的に配置されている。当該複数の領域は、互いに異なる分光特性を有する。周期的とは、領域群AAが、分光特性を維持したまま、縦方向および/または横方向に2回以上繰り返されることを意味する。
図5Cに示すフィルタアレイ100Cにより、波長情報の空間的な偏りを防ぐことができる。さらに、物体認識の学習において、
図5Cに示すフィルタアレイ100Cの全体ではなく、周期構造の部分集合である領域群AAのみによって学習してもよい。これにより、学習時間の短縮を図ることができる。空間において同一の分光特性のフィルタを周期的に配置することにより、撮像領域の全体ではなく一部分に物体が撮像される場合であっても、物体認識が可能になる。
【0109】
フィルタアレイ100Cによって符号化された画像は、例えばランダムに多重化された波長情報を含み得る。このため、当該画像は、ユーザにとっては見づらい。そこで、物体認識装置300は、ユーザへの表示用に通常のカメラを別途備えてもよい。すなわち、物体認識装置300は、撮像装置150と、通常のカメラとの双眼構成を備えていてもよい。これにより、ユーザには、符号化されていない可視のモノクロ画像をディスプレイ400上に表示することができる。その結果、ユーザは、物体70とイメージセンサ60の撮像領域との位置関係を把握しやすくなる。
【0110】
物体認識装置300は、画像内の物体70の輪郭を抽出する機能を有していてもよい。輪郭を抽出することにより、物体70の周りの不要な背景を除去することができる。不要な背景が除去された画像データを、学習用画像データとして使用してもよい。その場合、認識精度をさらに高めることが可能になる。物体認識装置300は、輪郭の認識結果をディスプレイ400に表示し、ユーザが輪郭を微調整できる機能を有していてもよい。
【0111】
図6Aから
図6Cは、本実施形態における物体認識装置300の適用例を模式的に示す図である。
【0112】
図6Aの部分(a)は、植物の種別の判別への適用例を示す。
図6Aの部分(b)は、食品の名称の表示への適用例を示す。
図6Aの部分(c)は、鉱物資源の分析への適用例を示す。
図6Aの部分(d)は、昆虫の種類の特定への適用例を示す。その他にも、本実施形態における物体認識装置300は、例えば、顔認証などのセキュリティー認証・ロック解除、または人物検出などの用途に有効である。通常のモノクロ画像またはRGB画像の場合、人の目では一見すると物体を誤認識する可能性がある。これに対し、本実施形態のように多波長情報が加わることにより、物体の認識精度を高めることが可能になる。
【0113】
図6Bは、本実施形態における物体認識方法を実装したスマートフォンに、物体70の詳細な情報が表示される例を示している。この例では、物体認識装置300は、スマートフォンに搭載されている。スマートフォンを物体70にかざすだけで、物体70が何であるかを特定し、その結果に基づいてネットワーク経由で、データベースから物体70の名称およびその説明情報を収集して表示することができる。このように、スマートフォンなどの携帯情報機器を「画像検索百科事典」として活用することが可能である。「画像検索百科事典」には、完全な識別が難しい場合、複数の候補を、可能性が高い順に提示してもよい。このように、物体70の認識結果に基づいて、物体70の名称および説明情報を示すデータをデータベースから取得し、その名称および/または説明情報をディスプレイ400に表示してもよい。
【0114】
図6Cは、街中に存在する複数の物体が、スマートフォンによって認識される例を示している。当該スマートフォンには、物体認識装置300が搭載されている。物体70が製造ラインの検査物のように特定されている場合、検査装置は、物体70に応じた特定波長の情報のみを取得する。一方、街中での利用のように物体70のターゲットが特定されない状況下では、本実施形態における物体認識装置300のように多波長情報を取得することが有効である。物体認識装置300は、使用例に応じてスマートフォンのディスプレイ400側に配置してもよいし、ディスプレイ400の反対側の面に配置してもよい。
【0115】
その他にも、本実施形態における物体認識方法は、地図アプリ、自動運転、またはカーナビゲーションなどの、人工知能(AI)による認識が行われ得る幅広い分野に応用することが可能である。前述のように、物体認識装置は、例えばスマートフォン、タブレット、またはヘッドマウントディスプレイ装置などのポータブル機器にも搭載され得る。カメラによって撮影可能であれば、人、顔、または動物などの生体も物体70になり得る。
【0116】
信号処理回路200に入力される画像データが示す撮像画像120は、多重符号化画像である。このため、撮像画像120は、一見何が写っているか判別が困難である。しかし、撮像画像120には、物体70の特徴を示す情報である特徴情報が含まれている。したがって、AIは、撮像画像120から直接物体70を認識することができる。これにより、比較的多くの時間を費やす画像の再構成の演算処理も不要である。
【0117】
(実施形態2)
実施形態2による物体認識装置300は、自動運転のためのセンシングデバイスに適用される。以下、実施形態1と同様の内容についての詳細な説明は省略し、実施形態1と異なる点を中心に説明する。
【0118】
図7は、本実施形態における物体認識装置300を用いた車両制御の例を模式的に示す図である。車両に搭載された物体認識装置300により、車両外の環境をセンシングして、物体認識装置300の視野内に入る車両周辺の1つ以上の物体70を認識することができる。車両周辺の物体70には、例えば、対向車、並行車、駐車車両、歩行者、自転車、道、車線、白線、歩道、縁石、溝、標識、信号、電柱、店舗、植木、障害物、または落下物が含まれ得る。
【0119】
物体認識装置300は、実施形態1におけるものと同様の撮像装置を備える。撮像装置は、所定のフレームレートで、動画像の画像データを生成する。当該画像データは、車両周辺の物体70からの光がフィルタアレイ100Cを通過して多重符号化された撮像画像120を示す。信号処理回路200は、当該画像データを取得し、当該画像データから視野内の1つ以上の物体70を抽出し、抽出した物体70の各々が何であるかを推定し、各物体70をラベル化する。物体70の認識結果に基づいて、信号処理回路200は、例えば、周囲環境を理解し、危険を判断し、または目標走行の軌跡420を表示することができる。周囲環境、危険情報、および目標走行の軌跡420などのデータは、車体のステアリングまたはトランスミッションなどの車載機器の制御に用いられ得る。これにより、自動走行が可能になり得る。物体認識ラベル、または進行経路などの認識結果は、運転手が把握できるように、
図7に示すように、車両内に設置されたディスプレイ400に表示されてもよい。このように、本実施形態における車両制御方法は、撮像装置150が取り付けられた車両の動作を、物体70の認識結果に基づいて制御することを含む。
【0120】
従来のRGBまたはモノクロ画像を用いた物体認識では、写真と実物との区別が難しい。このため、例えば看板またはポスターの写真と、実物とを誤認識する場合があった。しかし、物体認識装置300では、多波長情報を利用することにより、看板の塗料と、実物の車とのスペクトル分布の差異を考慮することができる。これにより、認識精度を向上させることが可能である。さらに、物体認識装置300では、多波長情報が重畳された2次元データが取得される。これにより、従来の3次元のハイパースペクトルデータに比べ、データ量が小さい。その結果、データの読み込みおよび転送に要する時間、および機械学習の処理時間を短縮することができる。
【0121】
また、写真と実物との誤認識以外にも、カメラ画像では物体が偶発的に別のものに見えてしまう場合がある。
図7に示す例では、街路樹が、その成長度合い、または見る角度によっては人の形状に見えてしまう。このため、形状に基づく従来の物体認識では、
図7に示す街路樹が、人として誤認識されてしまうことがあった。この場合、自動運転の環境下では、人が飛び出したと誤認識することにより、車体の減速、または急ブレーキが指示され得る。その結果、事故が誘発されかねない。例えば高速道路では、誤認識によって車体が突然停止することは、あってはならない。このような環境下においても、物体認識装置300は、多波長情報を活用することにより、従来の物体認識に比べて認識精度を高めることが可能である。
【0122】
物体認識装置300は、ミリ波レーダー、レーザーレンジファインダー(Lidar)、またはGPSなどの各種センサと組み合わせて使用され得る。これにより、認識精度をさらに向上させることができる。例えば、予め記録された道路地図の情報に連動させることにより、目標走行の軌跡の生成精度を向上させることができる。
【0123】
(実施形態3)
実施形態3では、本実施形態1とは異なり、フィルタアレイ100Cの代わりに、発光波長域の異なる複数の光源を用いることにより、符号化された画像データが取得される。以下、実施形態1と同様の内容についての詳細な説明を省略し、実施形態1とは異なる点を中心に説明する。
【0124】
図8は、本実施形態における物体認識装置300の例を模式的に示す図である。本実施形態における物体認識装置300は、撮像装置150と、信号処理回路200と、ディスプレイ400と、メモリ500とを備える。撮像装置150は、光学系40と、イメージセンサ60と、光源アレイ100Lと、制御回路250とを備える。
【0125】
光源アレイ100Lは、各々が異なる波長域の光を発する複数の光源を含む。制御回路250は、イメージセンサ60、および光源アレイ100Lに含まれる複数の光源を制御する。制御回路250は、複数の光源の一部または全部を発光させた状態でイメージセンサ60に撮像させる動作を、発光させる光源の組み合わせを変えながら、複数回に亘って繰り返す。これにより、光源アレイ100Lから、撮像ごとに、互いに異なる分光特性の光が出射される。発光させる光源の組み合わせには、まったく同じ組み合せは含まれない。ただし、複数の組み合わせのうち、2つ以上の組み合わせにおいて、一部の光源が重複していてもよい。したがって、撮影時間T1、T2、T3、・・・、Tmの各撮影においてそれぞれ得られる撮像画像120G1、120G2、120G3、・・・、120Gmは、異なる強度分布を有する。本実施形態では、信号処理回路200に入力される画像データは、撮像装置150におけるイメージセンサ60によって複数回の撮像ごとに生成された画像信号の集合である。
【0126】
制御回路250は、各光源を点灯または消灯の2値に変化させるだけでなく、各光源の光量を調整してもよい。そのような調整を行った場合も、異なる波長情報を有する複数の画像信号を得ることができる。各光源は、例えば、LED、LD、レーザ、蛍光灯、水銀灯、ハロゲンランプ、メタルハライドランプ、またはキセノンランプであり得るが、それらに限定されない。また、テラヘルツオーダーの波長域の光を出射させる場合、光源は、フェムト秒レーザなどの超高速ファイバレーザが使用され得る。
【0127】
信号処理回路200は、画像データに含まれる撮像画像120G1、120G2、120G3、・・・、120Gmのすべて、またはそれらのうちのいずれかを用いて物体70の学習および分類を行う。
【0128】
制御回路250は、空間的に一様な照度分布の光に限らず、例えば空間的にランダムな強度分布の光を光源アレイ100Lに出射させてもよい。複数の光源から出射される光は、波長ごとに異なる2次元の照度分布を有していてもよい。
図8に示すように、光源アレイ100Lから物体70に向けて出射され、光学系40を通過した光の像は、イメージセンサ60上に結像される。この場合、イメージセンサ60の画素ごとに、または複数画素ごとに入射する光は、
図2に示す例と同様に、異なる複数の分光ピークを含むスペクトル特性を有する。これにより、本実施形態1と同様に、シングルショットでの物体認識が可能になる。
【0129】
実施形態1と同様に、複数の訓練データセットに含まれる複数の学習用画像データは、撮像装置150、または他の撮像装置によって生成された学習用画像データを含む。学習用画像データを他の撮像装置によって生成するときは、当該他の撮像装置は、撮像装置150に含まれる光源アレイ100Lと同等の特性を有する光源アレイを備え得る。認識対象の画像データと、各学習用画像データとが、同等の特性を有する光源アレイによって符号化されている場合、高い物体70の認識精度が得られる。
【0130】
本開示における物体認識方法は、各画素に複数の波長情報が多重化された画像データを取得することと、機械学習アルゴリズムによって学習された分類モデルを、複数の波長情報が多重化された画像データに適用することにより、画像データが示すシーンに含まれる物体を認識することと、を含む。また、本開示における物体認識方法は、複数の波長情報が多重化された画像データを用いて分類モデル学習強化することを含む。各画素に複数の波長情報が多重化された画像データを得る手段は、前述の実施形態に記載された撮像装置に限定されない。
【0131】
本開示は、信号処理回路200が実行する動作を規定するプログラムおよび方法も含む。
【産業上の利用可能性】
【0132】
本開示における物体認識装置は、測定の際に対象物を高精度に識別する測定機器に利用され得る。物体認識装置は、例えば、植物・食品・生物の種別識別、道案内・ナビゲーション、鉱物探査、生体・医療・美容向けセンシング、食品の異物・残留農薬検査システム、リモートセンシングシステム、および自動運転などの車載センシングシステムにも応用できる。
【符号の説明】
【0133】
40 光学系
60 イメージセンサ
70 物体
100C フィルタアレイ
100L 光源アレイ
120 撮像画像
200 信号処理回路
250 制御回路
300 物体認識装置
400 ディスプレイ
400a 補助表示
420 目標走行の軌跡
500 メモリ