(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-05
(45)【発行日】2024-11-13
(54)【発明の名称】情報処理装置、情報処理方法および情報処理プログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20241106BHJP
G06V 10/82 20220101ALI20241106BHJP
H04N 23/743 20230101ALI20241106BHJP
H04N 23/60 20230101ALI20241106BHJP
【FI】
G06T7/00 350C
G06V10/82
H04N23/743
H04N23/60
(21)【出願番号】P 2022511953
(86)(22)【出願日】2021-03-22
(86)【国際出願番号】 JP2021011645
(87)【国際公開番号】W WO2021200330
(87)【国際公開日】2021-10-07
【審査請求日】2024-03-11
(31)【優先権主張番号】P 2020064086
(32)【優先日】2020-03-31
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000002185
【氏名又は名称】ソニーグループ株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】青木 卓
(72)【発明者】
【氏名】佐藤 竜太
(72)【発明者】
【氏名】日永田 佑介
【審査官】山田 辰美
(56)【参考文献】
【文献】国際公開第2019/135270(WO,A1)
【文献】国際公開第2013/191193(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06V 10/82
H04N 23/743
H04N 23/60
(57)【特許請求の範囲】
【請求項1】
画素によって構成される撮像情報が分割された分割領域毎に、サンプリング画素を取得するための画素位置を設定する設定部と、
前記サンプリング画素により構成されるサンプリング画像の特徴量を算出する算出部と、
前記サンプリング画像の前記特徴量に基づき認識処理を行い、認識処理結果を出力する認識部と、
を備え、
前記設定部は、
前記撮像情報のうち、第1の撮像情報と、時系列で該第1の撮像情報の次に取得される第2の撮像情報と、で異なる前記画素位置を設定する、
情報処理装置。
【請求項2】
前記認識部は、
前記第1の撮像情報に設定された前記サンプリング画素と、前記第2の撮像情報に設定された前記サンプリング画素と、を用いたRNN(Recurrent Neural Network)により機械学習処理を実行し、該機械学習処理の結果に基づき前記認識処理を行う、
請求項1に記載の情報処理装置。
【請求項3】
前記設定部は、
前記画素位置を、前記撮像情報の取得に応じて前記分割領域内を一定の周期で巡回するように設定する、
請求項1に記載の情報処理装置。
【請求項4】
前記設定部は、
前記画素位置を、前記撮像情報の取得に応じて前記分割領域内に対して任意に設定する、
請求項1に記載の情報処理装置。
【請求項5】
前記設定部は、
前記画素位置を、外部からの指示に基づき、前記撮像情報の取得に応じて前記分割領域内に設定する、
請求項1に記載の情報処理装置。
【請求項6】
前記設定部は、
前記画素位置として、前記分割領域に含まれる全ての画素位置を、時系列上で連なる複数の前記撮像情報を跨いで設定する、
請求項1に記載の情報処理装置。
【請求項7】
前記設定部は、
前記画素位置として、前記撮像情報に含まれる全ての画素位置を、時系列上で連なる複数の前記撮像情報を跨いで設定する、
請求項1に記載の情報処理装置。
【請求項8】
前記算出部が算出した前記特徴量を蓄積する蓄積部をさらに備え、
前記認識部は、
前記蓄積部に蓄積された前記特徴量の少なくとも一部に基づき前記認識処理を行い前記認識処理結果を出力する、
請求項1に記載の情報処理装置。
【請求項9】
前記認識部は、
前記蓄積部に蓄積された複数の前記特徴量を統合した特徴量に基づき前記認識処理を行う、
請求項8に記載の情報処理装置。
【請求項10】
前記認識部は、
前記撮像情報の取得に応じて前記算出部により算出された前記特徴量を、該取得の直前までに前記蓄積部に蓄積された特徴量の少なくとも一部の特徴量と統合し、統合された特徴量に基づき前記認識処理を行う、
請求項8に記載の情報処理装置。
【請求項11】
前記認識部は、
前記蓄積部に蓄積された前記特徴量のうち、所定の条件に応じて選択された特徴量に基づき前記認識処理を行う、
請求項8に記載の情報処理装置。
【請求項12】
前記認識部は、
前記蓄積部に蓄積された前記特徴量のうち、時系列で新しい特徴量に基づき前記認識処理を行う、
請求項11に記載の情報処理装置。
【請求項13】
前記認識部は、
前記蓄積部に蓄積された前記特徴量のうち、所定の条件に対応する特徴量を破棄する、
請求項8に記載の情報処理装置。
【請求項14】
前記認識部は、
前記分割領域それぞれの前記画素位置に対応する前記画素毎の教師データに基づき、前記サンプリング画像の前記特徴量に対する前記認識処理を行う、
請求項1に記載の情報処理装置。
【請求項15】
前記設定部は、
前記認識部による前記認識処理に応じて、該認識処理を行った前記サンプリング画像を構成する前記画素位置が設定された第1のパターンとは異なる第2のパターンで、前記特徴量を算出するための前記画素位置を設定する、
請求項1に記載の情報処理装置。
【請求項16】
前記設定部は、
前記第1の撮像情報を取得する際の露出条件と、前記第2の撮像情報を取得する際の露出条件と、を異ならせる、
請求項1に記載の情報処理装置。
【請求項17】
プロセッサにより実行される、
画素によって構成される撮像情報が分割された分割領域毎に、サンプリング画素を取得するための画素位置を設定する設定ステップと、
前記サンプリング画素により構成されるサンプリング画像の特徴量を算出する算出ステップと、
前記サンプリング画像の前記特徴量に基づき認識処理を行い、認識処理結果を出力する認識ステップと、
を有し、
前記設定ステップは、
前記撮像情報のうち、第1の撮像情報と、時系列で該第1の撮像情報の次に取得される第2の撮像情報と、で異なる前記画素位置を設定する、
情報処理方法。
【請求項18】
画素によって構成される撮像情報が分割された分割領域毎に、サンプリング画素を取得するための画素位置を設定する設定ステップと、
前記サンプリング画素により構成されるサンプリング画像の特徴量を算出する算出ステップと、
前記サンプリング画像の前記特徴量に基づき認識処理を行い、認識処理結果を出力する認識ステップと、
をコンピュータに実行させ、
前記設定ステップは、
前記撮像情報のうち、第1の撮像情報と、時系列で該第1の撮像情報の次に取得される第2の撮像情報と、で異なる前記画素位置を設定する、
ための情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、情報処理方法および情報処理プログラムに関する。
【背景技術】
【0002】
近年、デジタルスチルカメラ、デジタルビデオカメラ、多機能型携帯電話機(スマートフォン)などに搭載される小型カメラなどの撮像装置の高解像度化に伴い、撮像画像に含まれる所定の対象物を認識する画像認識機能を搭載する情報処理装置が開発されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
画像認識機能において、より高解像度の撮像画像を用いることで、対象物の検出性能を向上させることが可能である。しかしながら、従来の技術では、高解像度の撮像画像を用いた画像認識は、画像認識処理に係る計算量が多くなり、撮像画像に対する認識処理の同時性を向上させることが困難であった。
【0005】
本開示は、撮像画像を用いた認識処理の特性を向上させることが可能な情報処理装置、情報処理方法および情報処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本開示に係る情報処理装置は、画素によって構成される撮像情報が分割された分割領域毎に、サンプリング画素を取得するための画素位置を設定する設定部と、サンプリング画素により構成されるサンプリング画像の特徴量を算出する算出部と、サンプリング画像の特徴量に基づき認識処理を行い、認識処理結果を出力する認識部と、を備え、設定部は、撮像情報のうち、第1の撮像情報と、時系列で第1の撮像情報の次に取得される第2の撮像情報と、で異なる画素位置を設定する。
【図面の簡単な説明】
【0007】
【
図1】各実施形態に適用な情報処理装置の基本的な構成例を示すブロック図である。
【
図2A】DNNによる認識処理の例を概略的に示す図である。
【
図2B】DNNによる認識処理の例を概略的に示す図である。
【
図3A】時系列の情報を用いた場合の、DNNによる識別処理の第1の例を概略的に示す図である。
【
図3B】時系列の情報を用いた場合の、DNNによる識別処理の第1の例を概略的に示す図である。
【
図4A】時系列の情報を用いた場合の、DNNによる識別処理の第2の例を概略的に示す図である。
【
図4B】時系列の情報を用いた場合の、DNNによる識別処理の第2の例を概略的に示す図である。
【
図5】各実施形態に適用可能な情報処理装置としての撮像装置のハードウェア構成例を概略的に示すブロック図である。
【
図6A】撮像部を2層構造の積層型CISにより生成した例を示す図である。
【
図6B】撮像部1200を3層構造の積層型CISにより生成した例を示す図である。
【
図7】各実施形態に適用可能な撮像部の一例の構成を示すブロック図である。
【
図8A】認識処理に用いる画像の解像度について説明するための図である。
【
図8B】認識処理に用いる画像の解像度について説明するための図である。
【
図9】本開示の第1の実施形態に係る情報処理装置の一例の構成を示すブロック図である。
【
図10】第1の実施形態に係る認識処理を説明するための模式図である。
【
図11】第1の実施形態に係るサンプリング処理を説明するための模式図である。
【
図12A】第1の実施形態に係る認識処理について、より具体的に説明するための図である。
【
図12B】第1の実施形態に係る認識処理について、より具体的に説明するための図である。
【
図12C】第1の実施形態に係る認識処理について、より具体的に説明するための図である。
【
図12D】第1の実施形態に係る認識処理について、より具体的に説明するための図である。
【
図12E】第1の実施形態に係る認識処理について、より具体的に説明するための図である。
【
図13A】第1の実施形態に係る認識処理におけるサブサンプリング処理について説明するための模式図である。
【
図13B】第1の実施形態に係る認識処理におけるサブサンプリング処理について説明するための模式図である。
【
図14】第1の実施形態に係る読み出しおよび認識処理の制御の例を示す一例のタイムチャートである。
【
図15】第1の実施形態に係る前処理部および認識部のより詳細な機能を説明するための一例の機能ブロック図である。
【
図16】既存技術による計算量の削減方法の第1の例を説明するための模式図である。
【
図17】既存技術による計算量の削減方法の第2の例を説明するための模式図である。
【
図18】1/N×1/N縮小と、1/N×1/Nクロップと、第1の実施形態に係る認識処理と、を元画像をそのまま用いた認識処理と比較した例を示す模式図である。
【
図19A】既存技術による縮小画像を用いた認識処理を概略的に示す図である。
【
図19B】第1の実施形態に係る認識処理を概略的に示す図である。
【
図20】既存技術による、撮像画像の画像データを縮小せずに用いた場合の読み出しおよび認識処理の制御を示す一例のタイムチャートである。
【
図21】既存技術による、「1/N×1/N縮小」の場合の読み出しおよび認識処理の制御を示す一例のタイムチャートである。
【
図22】第1の実施形態に係る認識結果の遅延と、既存技術による認識結果の遅延と、について説明するための模式図である。
【
図23A】認識処理と車両の制動との関係について概略的に説明するための模式図である。
【
図23B】認識処理と車両の制動との関係について概略的に説明するための模式図である。
【
図24】第1の実施形態に係る認識処理による、既存技術の認識処理に対する改善例について説明するための図である。
【
図25A】第1の実施形態に係る認識処理の効果的な適用場面の第1の例を示す模式図である。
【
図25B】第1の実施形態に係る認識処理の効果的な適用場面の第2の例を示す模式図である。
【
図26A】分割領域の画素を行および列方向にそれぞれ1つおきに間引いて選択したサンプリング画素によりサブサンプリングを行う例を示す模式図である。
【
図26B】分割領域の画素を行および列方向にそれぞれ3つおきに間引いて選択したサンプリング画素によりサブサンプリングを行う例を示す模式図である。
【
図27】第1の実施形態の第4の変形例によるサブサンプリングを説明するための模式図である。
【
図28】第1の実施形態の第5の変形例によるサブサンプリングを説明するための模式図である。
【
図29】第1の実施形態の第6の変形例による露出制御の例を示す模式図である。
【
図30】第2の実施形態に係る情報処理装置の一例の構成を示すブロック図である。
【
図31】第2の実施形態に係る読み出しおよび認識処理の制御を示す一例のタイムチャートである。
【
図32】第2の実施形態の第1の応用例を説明するための模式図である。
【
図33】第2の実施形態の第2の応用例を説明するための模式図である。
【
図34】第2の実施形態の第3の応用例を説明するための模式図である。
【
図35】第3の実施形態に係る情報処理装置の一例の構成を示すブロック図である。
【
図36】第4の実施形態に係る認識処理におけるサブサンプリング処理について説明するための模式図である。
【
図37】第1の実施形態およびその各変形例、第2の実施形態、第3の実施形態、ならびに、第4の実施形態に係る情報処理装置を使用する使用例を示す図である。
【
図38】車両制御システムの概略的な構成の一例を示すブロック図である。
【
図39】車外情報検出部及び撮像部の設置位置の一例を示す説明図である。
【発明を実施するための形態】
【0008】
以下、本開示の実施形態について、図面に基づいて詳細に説明する。なお、以下の実施形態において、同一の部位には同一の符号を付することにより、重複する説明を省略する。
【0009】
以下、本開示の実施形態について、下記の順序に従って説明する。
1.各実施形態に適用可能な技術
1-0.各実施形態に適用可能な認識処理の概略
1-1.各実施形態に適用可能なハードウェア構成
1-1-1.各実施形態に適用可能な撮像部の構成例
1-1-2.撮像画像の解像度について
2.第1の実施形態
2-1.第1の実施形態に係る構成
2-1-1.第1の実施形態に適用可能な構成の概略
2-1-2.第1の実施形態に係る認識処理の例
2-1-3.第1の実施形態に係るサブサンプリング処理について
2-1-4.第1の実施形態に係るより具体的な構成例
2-2.第1の実施形態による効果
2-2-1.既存技術の概略
2-2-2.本開示による技術と既存技術との比較
2-2-2-1.認識結果の比較
2-2-2-2.認識処理制御の比較
2-2-2-3.認識処理の遅延の比較
2-2-2-4.第1の実施形態に係る認識処理による改善例
2-2-2-5.第1の実施形態に係る認識処理の効果的な適用場面
2-3.第1の実施形態の変形例
2-3-1.第1の変形例
2-3-2.第2の変形例
2-3-3.第3の変形例
2-3-4.第4の変形例
2-3-5.第5の変形例
2-3-6.第6の変形例
2-3-7.第7の変形例
3.第2の実施形態
3-1.第2の実施形態に係る構成例
3-2.第2の実施形態の応用例
3-2-1.第1の応用例
3-2-2.第2の応用例
3-2-3.第3の応用例
4.第3の実施形態
5.第4の実施形態
6.第5の実施形態
6-1.本開示の技術の適用例
6-2.移動体への適用例
【0010】
[1.各実施形態に適用可能な技術]
先ず、理解を容易とするために、各実施形態に適用可能な技術について、概略的に説明する。
【0011】
(1-0.各実施形態に適用可能な認識処理の概略)
図1は、各実施形態に適用な情報処理装置の基本的な構成例を示すブロック図である。
図1において、情報処理装置1aは、センサ部10aと、認識処理部20aと、を含む。図示は省略するが、センサ部10aは、撮像手段(カメラ)と、撮像手段を制御する撮像制御部と、を含む。
【0012】
センサ部10aは、撮像制御部の制御に従い撮像を行い、撮像により取得された撮像画像の画像データを認識処理部20aに供給する。認識処理部20aは、DNN(Deep Neural Network)を用いて、画像データに対する認識処理を行う。より具体的には、認識処理部20aは、機械学習により所定の教師データを用いて予め学習された認識モデルを含み、センサ部10aから供給された画像データに対して、当該認識モデルに基づきDNNを用いた認識処理を施す。認識処理部20aは、認識処理による認識結果を、例えば情報処理装置1aの外部に出力する。
【0013】
図2Aおよび
図2Bは、DNNによる認識処理の例を概略的に示す図である。この例では、
図2Aに示されるように、1つの画像をDNNに入力する。DNNにおいて、入力された画像に対して認識処理が行われ、認識結果が出力される。
【0014】
図2Bを用いて、
図2Aの処理をより詳細に説明する。
図2Bに示されるように、DNNは、特徴抽出処理と、認識処理とを実行する。DNNにおいて、入力された画像に対して特徴抽出処理により特徴量を抽出する。この特徴抽出処理は、例えばDNNのうちCNN(Convolutional Neural Network)を用いて行われる。また、DNNにおいて、抽出された特徴量に対して認識処理を実行し、認識結果を得る。
【0015】
DNNにおいて、時系列の情報を用いて認識処理を実行することができる。
図3Aおよび
図3Bは、時系列の情報を用いた場合の、DNNによる識別処理の第1の例を概略的に示す図である。この
図3Aおよび
図3Bの例では、時系列上の、固定数の過去情報を用いて、DNNによる識別処理を行う。
図3Aの例では、時間Tの画像[T]と、時間Tより前の時間T-1の画像[T-1]と、時間T-1より前の時間T-2の画像[T-2]と、をDNNに入力する。DNNにおいて、入力された各画像[T]、[T-1]および[T-2]に対して識別処理を実行し、時間Tにおける認識結果[T]を得る。
【0016】
図3Bは、
図3Aの処理をより詳細に説明するための図である。
図3Bに示されるように、DNNにおいて、入力された画像[T]、[T-1]および[T-2]それぞれに対して、上述の
図2Bを用いて説明した特徴抽出処理を1対1に実行し、画像[T]、[T-1]および[T-2]にそれぞれ対応する特徴量を抽出する。DNNでは、これら画像[T]、[T-1]および[T-2]に基づき得られた各特徴量を統合し、統合された特徴量に対して識別処理を実行し、時間Tにおける認識結果[T]を得る。画像[T]、[T-1]および[T-2]に基づき得られた各特徴量は、認識処理に用いる、統合された特徴量を得るための中間データであるといえる。
【0017】
図4Aおよび
図4Bは、時系列の情報を用いた場合の、DNNによる識別処理の第2の例を概略的に示す図である。
図4Aの例では、内部状態が時間T-1の状態に更新されたDNNに対して時間Tの画像[T]を入力し、時間Tにおける認識結果[T]を得ている。
【0018】
図4Bは、
図4Aの処理をより詳細に説明するための図である。
図4Bに示されるように、DNNにおいて、入力された時間Tの画像[T]に対して上述の
図2Bを用いて説明した特徴抽出処理を実行し、画像[T]に対応する特徴量を抽出する。DNNにおいて、時間Tより前の画像により内部状態が更新され、更新された内部状態に係る特徴量が保存されている。この保存された内部情報に係る特徴量と、画像[T]における特徴量とを統合し、統合された特徴量に対して識別処理を実行する。この場合、保存された内部情報に係る特徴量、および、画像[T]における特徴量のそれぞれは、認識処理に用いる、統合された特徴量を得るための中間データであるといえる。
【0019】
この
図4Aおよび
図4Bに示す識別処理は、例えば直前の認識結果を用いて内部状態が更新されたDNNを用いて実行されるもので、再帰的な処理となる。このように、再帰的な処理を行うDNNをRNN(Recurrent Neural Network)と呼ぶ。RNNによる識別処理は、一般的には動画像認識などに用いられ、例えば時系列で更新されるフレーム画像によりDNNの内部状態を順次に更新することで、識別精度を向上させることが可能である。
【0020】
(1-1.各実施形態に適用可能なハードウェア構成)
図5は、各実施形態に適用可能な情報処理装置のハードウェア構成例を概略的に示すブロック図である。
図5において、情報処理装置1は、それぞれバス1210を介して互いに通信可能に接続された、撮像部1200と、メモリ1202と、DSP(Digital Signal Processor)1203と、インタフェース(I/F)1204と、CPU(Central Processing Unit)1205と、ROM(Read Only Memory)1206と、RAM(Random Access Memory)1207と、を含む。情報処理装置1は、さらに、ユーザ操作を受け付ける入力デバイスと、ユーザに対して情報を表示するための表示デバイスと、データを不揮発に記憶するストレージ装置と、を含むことができる。
【0021】
CPU1205は、ROM1206に予め記憶されるプログラムに従い、RAM1207をワークメモリとして用いて動作し、この情報処理装置1の全体の動作を制御する。インタフェース1204は、有線あるいは無線通信により、当該情報処理装置1の外部と通信を行う。例えば、情報処理装置1が車載用途として用いられる場合、情報処理装置1は、当該情報処理装置1が搭載される車両の制動制御系などと、インタフェース1204を介して通信を行うことができる。
【0022】
撮像部1200は、所定のフレーム周期で動画像の撮像を行い、フレーム画像を構成するための画素データを出力する。より具体的には、撮像部1200は、それぞれ受光した光を光電変換により電気信号である画素信号に変換する複数の光電変換素子と、各光電変換素子を駆動する駆動回路とを含む。撮像部1200において、複数の光電変換素子は、行列状の配列で配置され、画素アレイを構成する。
【0023】
例えば
図1のセンサ部10aは、撮像部1200を含み、撮像部1200から1フレーム周期内で出力された画素データを、1フレーム分の画像データとして出力する。
【0024】
ここで、光電変換素子のそれぞれは画像データにおける画素に対応し、画素アレイ部は、行×列の画素数として例えば1920画素×1080画素に対応する数の光電変換素子が行列状の配列で配置される。なお、この1920画素×1080画素に対応する数の光電変換素子による画素信号により1フレームの画像が形成される。
【0025】
光学部1201は、レンズやオートフォーカス機構などを含み、レンズに入射された光を撮像部1200が有する画素アレイ部に照射させる。撮像部1200は、光学部1201を介して画素アレイ部に照射された光に応じて、光電変換素子毎の画素信号を生成する。撮像部1200は、アナログ信号である画素信号をディジタル信号である画素データに変換して出力する。撮像部1200から出力された画素データは、メモリ1202に格納される。メモリ1202は、例えばフレームメモリであって、少なくとも1フレーム分の画素データを格納可能とされている。
【0026】
DSP1203は、メモリ1202に格納された画素データに対して所定の画像処理を施す。また、DSP1203は、予め学習された認識モデルを含み、メモリ1202に格納された画像データに対して、当該認識モデルに基づき、上述したDNNを用いた認識処理を行う。DSP1203による認識処理の結果である認識結果は、例えばDSP1203が備えるメモリや、RAM1207に一時的に記憶され、インタフェース1204から外部に出力される。これに限らず、情報処理装置1がストレージ装置を備える場合、認識結果を当該ストレージ装置に格納してもよい。
【0027】
これに限らず、DSP1203の機能をCPU1205により実現してもよい。また、DSP1203の代わりにGPU(Graphics Processing Unit)を用いてもよい。
【0028】
撮像部1200は、撮像部1200に含まれる各部がCMOS(Complementary Metal Oxide Semiconductor)を用いて一体的に形成されたCMOSイメージセンサ(CIS)を適用することができる。撮像部1200は、1つの基板上に形成することができる。これに限らず、撮像部1200を、複数の半導体チップが積層され一体的に形成された積層型CISとしてもよい。なお、撮像部1200は、この例に限らず、赤外光による撮像を行う赤外光センサなど、他の種類の光センサであってもよい。
【0029】
一例として、撮像部1200を半導体チップを2層に積層した2層構造の積層型CISにより形成することができる。
図6Aは、撮像部1200を2層構造の積層型CISにより形成した例を示す図である。
図6Aの構造では、第1層の半導体チップに画素部2020aを形成し、第2層の半導体チップにメモリ+ロジック部2020bを形成している。画素部2020aは、少なくとも撮像部1200における画素アレイ部を含む。メモリ+ロジック部2020bは、例えば、画素アレイ部を駆動するための駆動回路を含む。メモリ+ロジック部2020bに、さらに、メモリ1202を含ませることもできる。
【0030】
図6Aの右側に示されるように、第1層の半導体チップと、第2層の半導体チップとを電気的に接触させつつ貼り合わせることで、撮像部1200を1つの固体撮像素子として構成する。
【0031】
別の例として、撮像部1200を、半導体チップを3層に積層した3層構造により形成することができる。
図6Bは、撮像部1200を3層構造の積層型CISにより形成した例を示す図である。
図6Bの構造では、第1層の半導体チップに画素部2020aを形成し、第2層の半導体チップにメモリ部2020cを形成し、第3層の半導体チップにロジック部2020dを形成している。この場合、ロジック部2020dは、例えば画素アレイ部を駆動するための駆動回路を含む。また、メモリ部2020cは、フレームメモリやメモリ1202を含むことができる。
【0032】
図6Bの右側に示されるように、第1層の半導体チップと、第2層の半導体チップと、第3層の半導体チップとを電気的に接触させつつ貼り合わせることで、撮像部1200を1つの固体撮像素子として構成する。
【0033】
なお、
図6Aおよび
図6Bの構成において、メモリ+ロジック部2020bに、
図5に示したDSP1203、インタフェース1204、CPU1205、ROM1206およびRAM1207に相当する構成を含ませることも可能である。
【0034】
(1-1-1.各実施形態に適用可能な撮像部の構成例)
図7は、各実施形態に適用可能な撮像部1200の一例の構成を示すブロック図である。
図7において、撮像部1200は、画素アレイ部1001と、垂直走査部1002と、AD(Analog to Digital)変換部1003と、画素信号線1006と、垂直信号線VSLと、制御部1100と、信号処理部1101と、を含む。なお、
図7において、制御部1100および信号処理部1101は、例えば
図5に示したCPU1205およびDSP1203にて実現することもできる。
【0035】
画素アレイ部1001は、それぞれ受光した光に対して光電変換を行う、例えばフォトダイオードによる光電変換素子と、光電変換素子から電荷の読み出しを行う回路と、を含む複数の画素回路1000を含む。画素アレイ部1001において、複数の画素回路1000は、水平方向(行方向)および垂直方向(列方向)に行列状の配列で配置される。画素アレイ部1001において、画素回路1000の行方向の並びをラインと呼ぶ。例えば、1920画素×1080ラインで1フレームの画像が形成される場合、画素アレイ部1001は、少なくとも1920個の画素回路1000が含まれるラインを、少なくとも1080ライン、含む。フレームに含まれる画素回路1000から読み出された画素信号により、1フレームの画像(画像データ)が形成される。
【0036】
また、画素アレイ部1001には、各画素回路1000の行および列に対し、行毎に画素信号線1006が接続され、列毎に垂直信号線VSLが接続される。画素信号線1006の画素アレイ部1001と接続されない端部は、垂直走査部1002に接続される。垂直走査部1002は、後述する制御部1100の制御に従い、画素から画素信号を読み出す際の駆動パルスなどの制御信号を、画素信号線1006を介して画素アレイ部1001へ伝送する。垂直信号線VSLの画素アレイ部1001と接続されない端部は、AD変換部1003に接続される。画素から読み出された画素信号は、垂直信号線VSLを介してAD変換部1003に伝送される。
【0037】
画素回路1000からの画素信号の読み出し制御について、概略的に説明する。画素回路1000からの画素信号の読み出しは、露出により光電変換素子に蓄積された電荷を浮遊拡散層(FD;Floating Diffusion)に転送し、浮遊拡散層において転送された電荷を電圧に変換することで行う。浮遊拡散層において電荷が変換された電圧は、画素信号としてアンプを介して垂直信号線VSLに出力される。
【0038】
より具体的には、画素回路1000において、露出中は、光電変換素子と浮遊拡散層との間をオフ(開)状態として、光電変換素子において、光電変換により入射された光に応じて生成された電荷を蓄積させる。露出終了後、画素信号線1006を介して供給される選択信号に応じて浮遊拡散層と垂直信号線VSLとを接続する。さらに、画素信号線1006を介して供給されるリセットパルスに応じて浮遊拡散層を電源電圧VDDまたは黒レベル電圧の供給線と短期間において接続し、浮遊拡散層をリセットする。垂直信号線VSLには、浮遊拡散層のリセットレベルの電圧(電圧Aとする)が出力される。その後、画素信号線1006を介して供給される転送パルスにより光電変換素子と浮遊拡散層との間をオン(閉)状態として、光電変換素子に蓄積された電荷を浮遊拡散層に転送する。垂直信号線VSLに対して、浮遊拡散層の電荷量に応じた電圧(電圧Bとする)が出力される。
【0039】
AD変換部1003は、垂直信号線VSL毎に設けられたAD変換器1007と、参照信号生成部1004と、水平走査部1005と、を含む。AD変換器1007は、画素アレイ部1001の各列(カラム)に対してAD変換処理を行うカラムAD変換器である。AD変換器1007は、垂直信号線VSLを介して画素回路1000から供給された画素信号に対してAD変換処理を施し、ノイズ低減を行う相関二重サンプリング(CDS:Correlated Double Sampling)処理のための2つのディジタル値(電圧Aおよび電圧Bにそれぞれ対応する値)を生成する。
【0040】
AD変換器1007は、生成した2つのディジタル値を信号処理部1101に供給する。信号処理部1101は、AD変換器1007から供給される2つのディジタル値に基づきCDS処理を行い、ディジタル信号による画素信号である画素データを生成する。
【0041】
参照信号生成部1004は、制御部1100から入力される制御信号に基づき、各AD変換器1007が画素信号を2つのディジタル値に変換するために用いるランプ信号を参照信号として生成する。ランプ信号は、レベル(電圧値)が時間に対して一定の傾きで低下する信号、または、レベルが階段状に低下する信号である。参照信号生成部1004は、生成したランプ信号を、各AD変換器1007に供給する。参照信号生成部1004は、例えばDAC(Digital to Analog Converter)などを用いて構成される。
【0042】
参照信号生成部1004から、所定の傾斜に従い階段状に電圧が降下するランプ信号が供給されると、カウンタによりクロック信号に従いカウントが開始される。コンパレータは、垂直信号線VSLから供給される画素信号の電圧と、ランプ信号の電圧とを比較して、ランプ信号の電圧が画素信号の電圧を跨いだタイミングでカウンタによるカウントを停止させる。AD変換器1007は、カウントが停止された時間のカウント値に応じた値を出力することで、アナログ信号による画素信号を、ディジタル値に変換する。
【0043】
AD変換器1007は、生成した2つのディジタル値を信号処理部1101に供給する。信号処理部1101は、AD変換器1007から供給される2つのディジタル値に基づきCDS処理を行い、ディジタル信号による画素信号(画素データ)を生成する。信号処理部1101により生成された画素データは、図示されないフレームメモリに格納され、1フレーム分の画素データが当該フレームメモリに格納されると、1フレームの画像データとして撮像部1200から出力される。
【0044】
水平走査部1005は、制御部1100の制御の下、各AD変換器1007を所定の順番で選択する選択走査を行うことによって、各AD変換器1007が一時的に保持している各ディジタル値を信号処理部1101へ順次出力させる。水平走査部1005は、例えばシフトレジスタやアドレスデコーダなどを用いて構成される。
【0045】
制御部1100は、センサ制御部11から供給される撮像制御信号に従い、垂直走査部1002、AD変換部1003、参照信号生成部1004および水平走査部1005などの駆動制御を行う。制御部1100は、垂直走査部1002、AD変換部1003、参照信号生成部1004および水平走査部1005の動作の基準となる各種の駆動信号を生成する。制御部1100は、例えば、撮像制御信号に含まれる垂直同期信号または外部トリガ信号と、水平同期信号とに基づき、垂直走査部1002が画素信号線1006を介して各画素回路1000に供給するための制御信号を生成する。制御部1100は、生成した制御信号を垂直走査部1002に供給する。
【0046】
また、制御部1100は、例えば、CPU1205から供給される撮像制御信号に含まれる、アナログゲインを示す情報をAD変換部1003に渡す。AD変換部1003は、このアナログゲインを示す情報に応じて、AD変換部1003に含まれる各AD変換器1007に垂直信号線VSLを介して入力される画素信号のゲインを制御する。
【0047】
垂直走査部1002は、制御部1100から供給される制御信号に基づき、画素アレイ部1001の選択された画素行の画素信号線1006に駆動パルスを含む各種信号を、ライン毎に各画素回路1000に供給し、各画素回路1000から、画素信号を垂直信号線VSLに出力させる。垂直走査部1002は、例えばシフトレジスタやアドレスデコーダなどを用いて構成される。また、垂直走査部1002は、制御部1100から供給される露出を示す情報に応じて、各画素回路1000における露出を制御する。
【0048】
このように構成された撮像部1200は、AD変換器1007が列毎に配置されたカラムAD方式のCMOS(Complementary Metal Oxide Semiconductor)イメージセンサである。
【0049】
(1-1-2.撮像画像の解像度について)
次に、
図8Aおよび
図8Bを用いて、認識処理に用いる画像の解像度について説明する。
図8Aおよび
図8Bは、同一の撮像範囲を、それぞれ低解像度の撮像装置、および、高解像度の撮像装置を用いて撮像した場合の撮像画像30aおよび30bの例を模式的に示す図である。
図8Aおよび
図8Bに示される撮像範囲は、中央部に、撮像装置からある程度離れた位置に「人」が含まれる。認識処理により、この対象物としての「人」を認識する場合について考える。
【0050】
図8Aの低解像度の例では、撮像画像30aに含まれる「人」の認識が困難であり、認識処理による「人」の認識性能が極めて低いものとなる。一方、
図8Bの高解像度の例では、撮像画像30bに含まれる「人」の認識が容易であり、認識された「人」が認識結果40として得られており、
図8Aの低解像度の例と比較して、認識性能が高いものとなっている。
【0051】
一方で、高解像度の画像に対する認識処理は、低解像度の画像に対する認識処理と比較して計算量が多くなり、処理に時間を要する。そのため、認識結果と撮像画像との同時性を高めることが困難となる。これに対して、低解像度の画像に対する認識処理は、計算量が少なくて済むため、短時間で処理が可能であり、撮像画像との同時性を比較的容易に高めることが可能である。
【0052】
一例として、車載の撮像装置において撮像された撮像画像に基づき認識処理を行う場合を考える。この場合、遠方の対象物(例えば対向車線を自車の進行方向と逆方向に走行する対向車)を高い同時性で認識する必要があるため、低解像度の画像に対する認識処理を行うとが考えられる。しかしながら、
図8Aを用いて説明したように、低解像度の撮像画像を用いた場合は、遠方の対象物の認識が困難である。また、高解像度の撮像画像を用いた場合は、遠方の対象物の認識は比較的容易となるが、撮像画像に対する同時性を高めることが困難であり、危急の事態に対応できない可能性がある。
【0053】
本開示の各実施形態では、遠方の対象物を容易且つ高速に認識可能とするために、高解像度の撮像画像を所定の規則に従ったサブサンプリングにより間引きした画素によるサンプリング画像に対して認識処理を行う。次のフレームで取得された撮像画像に対し、直前の撮像画像に対するサブサンプリングとは異なる画素のサンプリングを行い、サンプリングした画素によるサンプリング画像に対して認識処理を行う。
【0054】
この、第1の撮像画像に対して時系列で次に取得される第2の撮像画像において、第1の撮像画像とは異なる画素をサンプリングしたサンプリング画像に対して認識処理を行う動作を、フレーム単位で繰り返し実行する。これにより、高解像度の撮像画像を用いつつ、高速に認識結果を取得することが可能となる。また、認識処理を行う際に抽出した特徴量を、順次、次のサンプリング画像に対する認識処理において抽出される特徴量に対して統合していくことで、より高精度の認識結果を取得できる。
【0055】
[2.第1の実施形態]
次に、本開示の第1の実施形態について説明する。
【0056】
(2-1.第1の実施形態に係る構成)
(2-1-1.第1の実施形態に適用可能な構成の概略)
図9は、本開示の第1の実施形態に係る情報処理装置の一例の構成を示すブロック図である。
図9において、情報処理装置1bは、センサ部10bと、認識処理部20bと、を含む。図示は省略するが、センサ部10bは、
図1を用いて説明したセンサ部10aと同様に、撮像手段(カメラ)と、撮像手段を制御する撮像制御部と、を含む。撮像手段は、高解像度(例えば1920画素×1080画素)で撮像を行うものとする。センサ部10bは、撮像手段により撮像された撮像画像の画像データを認識処理部20bに供給する。
【0057】
認識処理部20bは、前処理部210と認識部220とを含む。センサ部10bから認識処理部20bに供給された画像データは、前処理部210に入力される。前処理部210は、入力された画像データに対して、所定の規則に従い画素を間引いてサブサンプリングを行う。画像データがサブサンプリングされたサンプリング画像は、認識部220に入力される。
【0058】
認識部220は、
図1の認識処理部20aと同様に、DNNを用いて、画像データに対する認識処理を行う。より具体的には、認識処理部20aは、機械学習により所定の教師データを用いて予め学習された認識モデルを含み、センサ部10aから供給された画像データに対して、当該認識モデルに基づきDNNを用いた認識処理を施す。このとき、教師データとしては、前処理部210と同様にしてサブサンプリングされたサンプリング画像を用いる。
【0059】
認識部220は、認識処理による認識結果を、例えば情報処理装置1bの外部に出力する。
【0060】
(2-1-2.第1の実施形態に係る認識処理の例)
図10は、第1の実施形態に係る認識処理を説明するための模式図である。画像データ32は、センサ部10bで撮像された撮像画像による1フレームの画像データを概略的に示している。画像データ32は、行列状に配列された複数の画素300を含む。画像データ32は、認識処理部20bにおいて、前処理部210に入力される。前処理部210は、画像データ32に対して、所定の規則に従った間引きによりサブサンプリングを行う(ステップS10)。
【0061】
サブサンプリングされたサンプリング画素によるサンプリング画像は、認識部220に入力される。認識部220は、DNNにより、入力されたサンプリング画像の特徴量を抽出する(ステップS11)。ここでは、認識部220は、DNNのうちCNNを用いて特徴量の抽出を行う。
【0062】
認識部220は、ステップS11で抽出された特徴量を、図示されない蓄積部(例えばRAM1207)に格納する。このとき、認識部220は、例えば直前のフレームにおいて抽出された特徴量が既に蓄積部に格納されている場合、メモリに格納されている特徴量を再帰的に用いて、抽出した特徴量と統合する(ステップS12)。認識部220は、直前のフレームまでにおいて抽出された特徴量を蓄積部に格納し、蓄積、統合する。すなわち、このステップS12での処理は、DNNのうちRNNを用いた処理に相当する。
【0063】
認識部220は、ステップS12で蓄積、統合された特徴量に基づき認識処理を実行する(ステップS13)。
【0064】
ここで、ステップS10における前処理部210によるサブサンプリング処理について、より詳細に説明する。
図11は、第1の実施形態に係るサンプリング処理を説明するための模式図である。
図11において、セクション(a)は、画像データ32の例を模式的に示している。上述したように、画像データ32は、行列状に配列された複数の画素300を含む。前処理部210は、画像データ32を、2以上の画素300を含む分割領域35に分割する。
図11の例では、分割領域35は、サイズが4画素×4画素の領域とされ、16個の画素300を含む。
【0065】
前処理部210は、この分割領域35に対して、分割領域35に含まれる各画素300からサブサンプリングによるサンプリング画素を選択するための画素位置を設定する。また、前処理部210は、フレーム毎に異なる画素位置を、サンプリング画素を選択するための画素位置として設定する。
【0066】
図11のセクション(b)は、あるフレームにおいて、分割領域35に対して設定される画素位置の例を示している。この例では、分割領域35において、行および列方向それぞれについて画素300を1つおきに選択するように画素位置を設定し、設定された各画素位置の画素300sa
1、300sa
2、300sa
3および300sa
4を、サンプリング画素として選択している。このように、前処理部210は、分割領域35を単位としてサブサンプリングを行う。
【0067】
前処理部210は、あるフレームにおいてサンプリング画素として選択された各画素300sa
1~300sa
4からなる画像を、サンプリング画素からなるサンプリング画像として生成する。
図11のセクション(c)は、
図11のセクション(b)にてサンプリング画素として選択された各画素300sa
1~300sa
4から生成されるサンプリング画像36の例を示している。前処理部210は、このサンプリング画像36を認識部220に入力する。認識部220は、このサンプリング画像36に対して認識処理を実行する。
【0068】
図12A~
図12Eを用いて、第1の実施形態に係る認識処理について、より具体的に説明する。上述したように、前処理部210は、フレーム毎に異なる画素位置を、サンプリング画素を選択する画素位置として設定する。認識部220は、フレーム毎に、設定された各画素位置の各画素300からなるサンプリング画像に基づき認識処理を行う。
図12A~
図12Eは、センサ部10bにより時系列で順次に撮像されたフレーム#1~#5それぞれの画像データ32a~32d、32a’に対する各認識処理を示している。
【0069】
なお、
図12A~
図12Eそれぞれにおいて、画像データ32a~32d、32a’による画像には、それぞれ人による対象物41および42が含まれている。対象物41は、センサ部10bに対して比較的近距離(中距離とする)に位置している。一方、対象物42は、センサ部10bに対して、当該中距離より遠方の距離(遠距離とする)に位置しており、画像中のサイズが対象物41より小さい。
【0070】
図12Aのセクション(a)において、前処理部210は、フレーム#1の画像データ32aの各分割領域35に対し、例えば左上隅の画素位置を基点としたサブサンプリングを行う。より具体的には、前処理部210は、画像データ32aの各分割領域35において、左上隅の画素位置を基点として行および列方向にそれぞれ1つおきに選択した各画素300を、それぞれサンプリング画素である画素300sa
1~300sa
4として選択するサブサンプリングを行う(ステップS10a)。
【0071】
前処理部210は、セクション(b)に示されるように、このサブサンプリングされた各画素300sa1~300sa4により、第1の位相のサンプリング画像36φ1を生成する。生成されたサンプリング画像36φ1は、認識部220に入力される。
【0072】
認識部220は、入力されたサンプリング画像36φ1の特徴量50aを、DNNを用いて抽出する(ステップS11)。認識部220は、ステップS11で抽出された特徴量50aを、蓄積部に格納、蓄積する(ステップS12)。認識部220は、蓄積部に既に特徴量が蓄積されている場合、特徴量50aを蓄積部に蓄積すると共に、既に蓄積されている特徴量と統合することができる。
図12Aのセクション(b)に、ステップS12の処理として空の蓄積部に対して最初の特徴量50aが格納された様子が示されている。
【0073】
認識部220は、蓄積部に蓄積された特徴量50aに基づき認識処理を実行する(ステップS13)。
図12Aの例では、セクション(b)にステップS13として示されるように、中距離に位置する対象物41が認識され認識結果60として得られている。一方、遠距離に位置する対象物42は、認識されていない。
【0074】
図12Bのセクション(a)において、前処理部210は、フレーム#2の画像データ32bの各分割領域35に対し、
図12Aに示したフレーム#1の画像データ32aの各分割領域35に対して設定された画素位置に対して1画素分水平方向にずらした各画素位置を、それぞれサンプリング画素の画素位置として設定するサブサンプリングを行う(ステップS10b)。すなわち、このステップS10bで選択される各サンプリング画素は、
図12AにおいてステップS10aで選択された各サンプリング画素の画素位置に対し、図中で右にそれぞれ隣接する画素位置における各画素300である。
【0075】
前処理部210は、セクション(b)に示されるように、ステップS10bでサブサンプリングされた各サンプリング画素により、第2の位相のサンプリング画像36φ2を生成する。生成されたサンプリング画像36φ2は、認識部220に入力される。
【0076】
認識部220は、入力されたサンプリング画像36φ2の特徴量50bを、DNNを用いて抽出する(ステップS11)。認識部220は、ステップS11で抽出された特徴量50bを、蓄積部に格納、蓄積する(ステップS12)。この例では、セクション(b)にステップS12として示されるように、蓄積部に対し、第1の位相のサンプリング画像36φ1から抽出された特徴量50aが既に蓄積されている。そのため、認識部220は、特徴量50bを蓄積部に蓄積すると共に、特徴量50bを、蓄積されている特徴量50aと統合する。
【0077】
認識部220は、特徴量50aと特徴量50bとが統合された特徴量に基づき認識処理を実行する(ステップS13)。
図12Bの例では、セクション(b)にステップS13として示されるように、中距離に位置する対象物41が認識され認識結果60として得られているが、遠距離に位置する対象物42は、この時点では認識されていない。
【0078】
図12Cのセクション(a)において、前処理部210は、フレーム#3の画像データ32cの各分割領域35に対し、
図12Aに示したフレーム#1の画像データ32aの各分割領域35に対して設定された画素位置に対して位置を1画素分、列方向にずらした画素位置を、各サンプリング画素の画素位置として設定するサブサンプリングを行う(ステップS10c)。すなわち、このステップS10cで選択される各サンプリング画素は、
図12AにおいてステップS10aで選択された各サンプリング画像の画素位置に対して、図中で下にそれぞれ隣接する画素位置における各画素300である。
【0079】
前処理部210は、セクション(b)に示されるように、ステップS10cでサブサンプリングされた各サンプリングにより、第3の位相のサンプリング画像36φ3を生成する。生成されたサンプリング画像36φ3は、認識部220に入力される。
【0080】
認識部220は、入力されたサンプリング画像36φ3の特徴量50cを、DNNを用いて抽出する(ステップS11)。認識部220は、ステップS11で抽出された特徴量50cを、蓄積部に格納、蓄積する(ステップS12)。この例では、セクション(b)にステップS12として示されるように、蓄積部に対し、第1および第2の位相のサンプリング画像36φ1および36φ2からそれぞれ抽出された特徴量50aおよび50bが既に蓄積されている。そのため、認識部220は、特徴量50cを蓄積部に蓄積すると共に、特徴量50cを、蓄積されている特徴量50aおよび50bと統合する。
【0081】
認識部220は、特徴量50aおよび50bと、特徴量50cとが統合された特徴量に基づき認識処理を実行する(ステップS13)。
図12Cの例では、セクション(b)にステップS13として示されるように、中距離に位置する対象物41が認識され認識結果60として得られているが、遠距離に位置する対象物42は、この時点では認識されていない。
【0082】
図12Dのセクション(a)において、前処理部210は、フレーム#4の画像データ32dの各分割領域35に対し、
図12Cに示したフレーム#3の画像データ32cの各分割領域35に対して設定された画素位置に対して1画素分水平方向にずらした各画素位置を、それぞれサンプリング画素の画素位置として設定するサブサンプリングを行う(ステップS10d)。すなわち、このステップS10dで選択される各サンプリング画素は、
図12CにおいてステップS10cで選択された各サンプリング画像の画素位置に対し、図中で右にそれぞれ隣接する画素位置における各画素300である。
【0083】
前処理部210は、セクション(b)に示されるように、ステップS10dでサブサンプリングされた各サンプリングにより、第4の位相のサンプリング画像36φ4を生成する。生成されたサンプリング画像36φ4は、認識部220に入力される。
【0084】
認識部220は、入力されたサンプリング画像36φ4の特徴量50dを、DNNを用いて抽出する(ステップS11)。認識部220は、ステップS11で抽出された特徴量50dを、蓄積部に格納、蓄積する(ステップS12)。この例では、セクション(b)にステップS12として示されるように、蓄積部に対し、第1~第3の位相のサンプリング画像36φ1~36φ3からそれぞれ抽出された各特徴量50a~50cが既に蓄積されている。そのため、認識部220は、特徴量50dを蓄積部に蓄積すると共に、特徴量50dを、蓄積されている特徴量50a~50cと統合する。
【0085】
認識部220は、特徴量50a~50cと、特徴量50dとが統合された特徴量に基づき認識処理を実行する(ステップS13)。
図12Dの例では、セクション(b)にステップS13として示されるように、中距離に位置する対象物41が認識され認識結果60として得られ、遠距離に位置する対象物42がさらに認識され認識結果61として得られている。
【0086】
図12A~
図12Dの処理により、各分割領域35に含まれる16個の画素300の画素位置全てが、サンプリング画素の画素位置として選択されたことになる。これは、換言すれば、前処理部210は、1フレームに含まれる全ての画素300の画素位置を、サンプリング画素の画素位置として選択する。この、各分割領域35あるいは1フレームに対して最初にサンプリング画素の画素位置を選択した時点から、各分割領域35あるいは1フレームに含まれる全ての画素300の画素位置がサンプリング画素の画素位置として選択されるまでの期間を、1周期とする。すなわち、前処理部210は、各分割領域35の各画素位置を一定の周期で巡回して、当該分割領域35内の全ての画素位置を、サンプリング画素を取得するための画素位置として設定する。
【0087】
1周期分のサブサンプリングおよび認識処理が終了すると、次の1周期分のサブサンプリングおよび認識処理が開始される。
【0088】
すなわち、
図12Eのセクション(a)において、前処理部210は、フレーム#1’の画像データ32a’の各分割領域35に対し、
図12Aの例と同様にして、左上隅の画素位置を基点としたサブサンプリングを行う(ステップS10a’)。前処理部210は、セクション(b)に示されるように、ステップS10a’でサブサンプリングされた各サンプリングにより、第1の位相のサンプリング画像36φ1’を生成する。生成されたサンプリング画像36φ1’は、認識部220に入力される。
【0089】
認識部220は、入力されたサンプリング画像36φ1’の特徴量50a’を、DNNを用いて抽出する(ステップS11)。認識部220は、ステップS11で抽出された特徴量50a’を、蓄積部に格納、蓄積する(ステップS12)。この例では、セクション(b)にステップS12として示されるように、蓄積部に対し、直前の周期において第1~第4の位相のサンプリング画像36φ1~36φ4からそれぞれ抽出された各特徴量50a~50dが既に蓄積されている。そのため、認識部220は、特徴量50a’を蓄積部に蓄積すると共に、特徴量50a’を、蓄積されている特徴量50a~50dと統合する。
【0090】
これに限らず、認識部220は、サンプリング画素の画素位置選択の周期毎に蓄積部をリセットするようにしてもよい。蓄積部のリセットは、例えば、蓄積部に蓄積された1周期分の特徴量50a~50dを、蓄積部から削除することで可能である。
【0091】
また、認識部220は、蓄積部に対して、常に一定量の特徴量を蓄積するようにもできる。例えば、認識部220は、蓄積部に対して1周期分の特徴量、すなわち、4フレーム分の特徴量を蓄積する。この場合、認識部220は、新たな特徴量50a’が抽出されると、蓄積部に蓄積される特徴量50a~50dのうち、例えば最も古い特徴量50dを削除し、新たな特徴量50a’を蓄積部に格納し、蓄積する。認識部220は、特徴量50dを削除されて残った特徴量50a~50cと、新たな特徴量50a’と、を統合した蓄積量に基づき認識処理を実行する。
【0092】
認識部220は、蓄積部にすでに蓄積されている特徴量50a~50dと、新たに抽出された特徴量50a’とが統合された特徴量に基づき認識処理を実行する(ステップS13)。
図12Eの例では、セクション(b)にステップS13として示されるように、中距離に位置する対象物41が認識され認識結果60として得られ、遠距離に位置する対象物42がさらに認識され認識結果61として得られている。
【0093】
ここで、サンプリング画像36は、元の画像データ32から画素を間引きした間引き画像である。
図11の例では、サンプリング画像36は、画像データ32を行および列方向にそれぞれ1/2に縮小した画像データであって、画素数が元の画像データ32の1/4の縮小画像である。したがって、認識部220は、サンプリング画像36に対する認識処理を、元の画像データ32に含まれる画素300を全て用いた認識処理に対して高速に実行できる。
【0094】
また、サンプリング画像36を生成するためにサンプリング画素として設定する画素300の画素位置を、分割領域35内でフレーム毎に1画素分ずつずらして選択している。そのため、フレーム毎に1画素分ずつ位相がずれたサンプリング画像36を得ることができる。またこのとき、分割領域35に含まれる全ての画素300の画素位置が、サンプリング画素として設定する画素300の画素位置として選択されるようにする。
【0095】
このようにサンプリング画像36を生成する画素300の画素位置を選択し、各サンプリング画像36から算出された特徴量を蓄積、統合する。これにより、画像データ32に含まれる全ての画素位置の画素300を、認識処理に関与させることができ、例えば遠方の対象物も容易に認識可能にできる。
【0096】
なお、上述では、サンプリング画素を選択するための画素位置を、前処理部210が所定の規則に従い設定するように説明したが、これはこの例に限定されない。例えば、前処理部210は、認識処理部20bの外部、あるいは、当該認識処理部20bが含まれる情報処理装置1bの外部からの指示に応じて、サンプリング画素を選択するための画素位置を設定してもよい。
【0097】
(2-1-3.第1の実施形態に係るサブサンプリング処理について)
次に、第1の実施形態に係る認識処理におけるサブサンプリング処理について、より具体的に説明する。
図13Aおよび
図13Bは、第1の実施形態に係る認識処理におけるサブサンプリング処理について説明するための模式図である。ここでは、説明のため、
図13Aのセクション(b)に示されるように、分割領域35を2画素×2画素の領域としている。各分割領域35において、左上の画素位置を原点の座標[0,0]とし、右上、左下および右下の画素位置を、それぞれ座標[1,0][0,1]および[1,1]とする。また、画素300のサンプリングは、各分割領域35において、右下の画素位置[1,1]を基点として、座標[1,1]、[1,0]、[0,1]、[0,0]の順に行うものとする。
【0098】
図13Aのセクション(a)において、図の下から上に向けて、時間の経過を表す。
図13Aの例では、上述した
図12A~
図12Eと対応し、画像データ32aが最も新しい時間Tの画像[T]であり、以降、画像データ32b、画像データ32c、画像データ32dの順に、時間T-1、T-2、T-3と、1フレームずつ古い画像データ32による画像[T-1]、画像[T-2]、画像[T-3]となっている。
【0099】
前処理部210は、時間T-3において、画像データ32aについて、各分割領域35の座標[1,1]の画素300をサンプリング画素として選択し(ステップS10a)、認識部220は、選択されたサンプリング画素によるサンプリング画像36φ1の特徴量を抽出する(ステップS11)。認識部220は、サンプリング画像36φ1から抽出された特徴量50aを、例えばそれ以前の所定期間に抽出された特徴量と統合し(ステップS12)、統合された特徴量に基づき認識処理を行う(ステップS13)。
【0100】
ここで、例えば、上述した画像データ32aの各分割領域35におけるサブサンプリング処理(ステップS10a)により、画像データ32aを均一に間引いたサンプリング画像36φ1を得ることができる。このサンプリング画像36φ1からステップS11により抽出された特徴量50aを用いて、画像データ32aの全体に対する認識処理を実行することができる。この、画像データ32からサブサンプリングにより選択したサンプリング画素によるサンプリング画像に対する認識処理により、画像データ32に対する認識処理を完結させることが可能である。
【0101】
この、画像データ32からサンプリング画像を生成し、生成されたサンプリング画像から特徴量を抽出し、抽出された特徴量に基づき認識処理を行う一連の処理を、1単位の処理と呼ぶ。
図13Aの例では、例えばステップS10aのサブサンプリング処理と、当該サブサンプリング処理により生成されるサンプリング画像36φ1に対するステップS11による特徴量抽出処理と、ステップS12による特徴量の統合処理と、ステップS13による認識処理と、が、1単位の処理に含まれる。認識部220は、この1単位の処理毎に、間引きされた画像データ32に対する認識処理を実行できる(ステップS13)。
【0102】
以降、同様にして、認識処理部20bは、フレーム周期で順次に更新される各画像データ32b、32cおよび32dについて、上述した1単位の処理をそれぞれ実行し、認識処理を実行する。このとき、ステップS12の特徴量の統合処理、および、ステップS13の認識処理は、各単位の処理において共通とすることができる。
【0103】
上述の、画像データ32a~32dそれぞれに対して1単位の処理が行われることで、各分割領域35に含まれる各画素位置に対するサンプリング画素の選択が一巡する。
図13Bは、この各分割領域35に含まれる各画素位置に対するサンプリング画素の選択の一巡後の、次の1単位の処理について示している。すなわち、各画像データ32a、32b、32cおよび32dに対する1単位の処理が一巡すると、認識処理部20bに入力される次のフレームの画像データ32a’に対する1単位分の処理が実行される。
【0104】
この例では、最も古い画像データ32dに基づき抽出された特徴量50dを破棄し、新たな画像データ32a’から特徴量50a’を抽出する。すなわち、前処理部210は、画像データ32a’の各分割領域35の座標[1,1]の各画素300をサンプリング画素として選択し、サンプリング画像36φ1を生成する。認識部220は、この画像データ32a’から選択されたサンプリング画像36φ1から特徴量50a’を抽出する。認識部220は、この特徴量50a’と、直前までに抽出された特徴量50a、50bおよび50cと、を統合し、統合した特徴量に基づき認識処理を行う。この場合、認識部220は、新たに取得された画像データ32a’についてのみ、特徴量の抽出処理を行えばよい。
【0105】
このように、第1の実施形態に係る認識処理は、認識処理部20bにおいて、同一の処理系において1単位分の処理を実行することで行っている。より具体的には、認識処理部20bは、1単位分の処理として、画像データ32に対するサブサンプリング処理および特徴量抽出処理による処理系をフレーム毎に繰り返し、この繰り返しにより抽出された特徴量を統合し、認識処理を行っている。
【0106】
また、認識処理部20bは、画像データ32に含まれる全画素300の画素位置を含むサブサンプリング処理を、サンプリング画素を選択する画素位置を周期的にずらしながら行っている。さらに、認識処理部20bは、ステップS11で各フレームの画像データ32から選択されたサンプリング画素によるサンプリング画像から抽出した、中間データとしての特徴量を統合して認識処理を行っている。
【0107】
このように構成された第1の実施形態に係る認識処理は、1単位分の処理で完結可能な処理系とされているため、認識結果をより迅速に得ることができる。また、1単位で画像データ32の全体からサンプリング画素を選択するため、1単位の処理で広範囲の認識結果を確認できる。さらに、複数の画像データ32に基づく中間データ(特徴量)を統合するため、複数の単位に跨ることで取得される、より詳細な認識結果を取得可能である。
【0108】
すなわち、第1の実施形態に係る情報処理装置1bを用いることで、認識結果の同時性の向上と、撮像画像の解像度を活用した認識結果の取得とを両立させることが可能となり、撮像画像を用いた認識処理の特性を向上させることができる。
【0109】
(2-1-4.第1の実施形態に係るより具体的な構成例)
次に、第1の実施形態に係る認識処理を実現するためのより具体的な構成例について説明する。
図14は、第1の実施形態に係る読み出しおよび認識処理の制御を示す一例のタイムチャートである。
図14において、撮像周期はフレーム周期であって、例えば50[ms](20[fps(frame per second)])である。また、ここでは、画素アレイ部1001に行列状の配列で配置される画素回路1000からの読み出しを、ローリングシャッタ方式によりライン順次で行う。ここで、
図14において、右方向に時間の経過を表し、上から下に向けてライン位置を表す。
【0110】
例えばフレーム#1の撮像処理において、各ラインで所定時間の露光が行われ、露光の終了後、各画素回路1000から画素信号が垂直信号線VSLを介してAD変換部1003へ転送され、AD変換部1003において、各AD変換器1007により、転送されたアナログ方式の画素信号がデジタル信号である画素データに変換される。全てのラインについて、画素信号の画素データへの変換が行われると、フレーム#1の画素データによる画像データ32aが前処理部210に入力される。前処理部210は、入力された画像データ32aに対して上述したようなサブサンプリング処理(図中「SS」として示す)を施して、分割領域35毎に選択されたサンプリング画素の画素位置から画素300を取得し、サンプリング画像36φ1を生成する(ステップS10a)。
【0111】
前処理部210は、サンプリング画像36φ1を認識部220に渡す。このとき前処理部210から認識部220に渡されるサンプリング画像36φ1は、サブサンプリング処理により間引きされ画像データ32aに対して画素数が削減された画像である。認識部220は、このサンプリング画像36φ1に対して、認識処理を実行する。ここでは、認識処理として、特徴量抽出処理(ステップS11)、特徴量統合処理(ステップS12)および認識処理(ステップS13)を含んでいるものとして示している。このステップS11~ステップS13の処理は、例えば1フレームの期間内に行われる。サンプリング画像36φ1に基づく認識結果φ1は、認識処理部20bの外部に出力される。
【0112】
上述のフレーム#1に対する処理と並行して、次のフレーム#2に対する処理が実行される。フレーム#2の画素データからなる画像データ32bが前処理部210に入力される。前処理部210は、入力された画像データ32bに対して、画像データ32aとは異なる位相でサブサンプリング処理を施して、サンプリング画像36φ2を生成する。
【0113】
前処理部210は、サブサンプリングにより画像データ32bより画素数が削減されたサンプリング画像36φ2を認識部220に渡す。認識部220は、このサンプリング画像36φ2に対して、1フレームの期間内に認識処理を実行する。
【0114】
このとき、認識部220は、サンプリング画像36φ2から抽出した特徴量50bと、画像データ32aに対する特徴量抽出処理により抽出された特徴量50aとを、ステップS12で特徴量統合処理により統合する。認識部220は、この統合された特徴量を用いて、認識処理を実行する。この認識処理による認識結果φ2は、認識処理部20bの外部に出力される。
【0115】
以降、同様にして、前処理部210は、次のフレーム#3について、直前のフレーム#2の画像データ32bに対する処理と並行して、サブサンプリング処理を実行し、認識部220は、サブサンプリング処理により生成されたサンプリング画像36φ3から特徴量50cを抽出する。認識部220は、画像データ32aおよび32bそれぞれから抽出された特徴量50aおよび50bが統合された特徴量と、抽出した特徴量50cと、をさらに統合し、統合された特徴量に基づき認識処理を実行する。認識部220は、この認識処理により得られた認識結果φ3を、外部に出力する。
【0116】
認識処理部20bは、次のフレーム#4についても、同様にして、直前のフレーム#3の画像データ32cに対する処理と並行して、サブサンプリング処理、特徴量抽出処理を行い、特徴量50dを取得する。認識処理部20bは、認識部220により、画像データ32a~32cそれぞれから抽出された特徴量50a~50cが統合された特徴量と、抽出した特徴量50dと、をさらに統合し、統合された特徴量に基づき認識処理を実行する。認識部220は、この認識処理により得られた認識結果φ4を、外部に出力する。
【0117】
ここで、
図14において、垂直方向の矢印、すなわち、各画像データ32a~32d、各ステップS10a~ステップS10dから各認識処理、および、各認識処理による各認識結果φ1~φ4の出力を示す矢印は、その太さが情報量を概略的に示している。
【0118】
より具体的には、
図14の例では、ステップS10a~ステップS10dの処理のために前処理部210に入力される各画像データ32a~32dのデータ量に対して、前処理部210からステップS10a~ステップS10dの処理によりサブサンプリングされて認識部220に渡されるサンプリング画像36φ1~φ4の方がデータ量が少ない。
【0119】
一方、各画像データ32a~32dに基づく認識処理による各認識結果φ1~φ4の情報量は、認識処理を重ねる毎に多くなり、得られる認識結果が、認識処理毎により詳細となっていくことを示している。これは、認識処理毎に、直前までにサンプリング画像の位相をずらしつつ取得した特徴量と、直前のサンプリング画像に対してさらに位相をずらして新たに取得された特徴量と、を統合した特徴量を用いているためである。
【0120】
次に、第1の実施形態に係る前処理部210および認識部220のより詳細な機能について説明する。
図15は、第1の実施形態に係る前処理部210および認識部220のより詳細な機能を説明するための一例の機能ブロック図である。
図15において、前処理部210は、読出部211と、利用領域取得部212と、を含む。また、認識部220は、特徴量算出部221と、特徴量蓄積制御部222と、特徴量蓄積部223と、利用領域決定部224と、を含む。
【0121】
これら読出部211、利用領域取得部212、特徴量算出部221、特徴量蓄積制御部222、特徴量蓄積部223および利用領域決定部224は、例えばCPU1205上で動作する情報処理プログラムにより実現される。この情報処理プログラムは、ROM1206に予め記憶させておくことができる。これに限らず、情報処理プログラムは、インタフェース1204を介して外部から供給し、ROM1206に書き込むこともできる。
【0122】
さらに、読出部211、利用領域取得部212、特徴量算出部221、特徴量蓄積制御部222、特徴量蓄積部223および利用領域決定部224は、情報処理プログラムに従い、CPU1205およびDSP1203がそれぞれ動作することで実現されてもよい。さらにまた、読出部211、利用領域取得部212、特徴量算出部221、特徴量蓄積制御部222、特徴量蓄積部223および利用領域決定部224の一部または全部を、互いに協働して動作するハードウェア回路により構成してもよい。
【0123】
前処理部210において、読出部211は、センサ部10bから画像データ32を読み出す。読出部211は、センサ部10bから読み出した画像データ32を利用領域取得部212に渡す。利用領域取得部212は、読出部211から渡された画像データ32に対して、後述する利用領域決定部224から渡された利用領域を示す情報に従いサブサンプリング処理を施し、サンプリング画素を抽出する。利用領域取得部212は、抽出したサンプリング画素により位相φxのサンプリング画像36φxを生成する。
【0124】
利用領域取得部212は、生成したサンプリング画像36φxを認識部220に渡す。認識部220において、渡されたサンプリング画像36φxは、特徴量算出部221に渡される。
【0125】
認識部220において、特徴量算出部221は、渡されたサンプリング画像36φxに基づき特徴量を算出する。すなわち、特徴量算出部221は、サンプリング画素により構成されるサンプリング画像36φxの特徴量を算出する算出部として機能する。これに限らず、特徴量算出部221は、例えば読出部211から露出やアナログゲインを設定するための情報を取得し、取得したこれらの情報をさらに用いて特徴量を算出してもよい。特徴量算出部221は、算出した特徴量を、特徴量蓄積制御部222に渡す。
【0126】
特徴量蓄積制御部222は、特徴量算出部221から渡された特徴量を、特徴量蓄積部223に蓄積する。このとき、特徴量蓄積制御部222は、既に特徴量蓄積部223に蓄積された過去の特徴量と、特徴量算出部221から渡された特徴量とを統合し、統合された特徴量を生成することができる。また、特徴量蓄積制御部222は、特徴量蓄積部223が例えば初期化され特徴量が存在しない場合、特徴量算出部221から渡された特徴量を、最初の特徴量として、特徴量蓄積部223に蓄積する。
【0127】
また、特徴量蓄積制御部222は、特徴量蓄積部223に蓄積された特徴量のうち、所定の条件を満たす特徴量を削除することができる。特徴量蓄積制御部222は、特徴量を削除するための条件として、時間情報、外部指示、露出条件などを適用することができる。
【0128】
例えば、特徴量蓄積制御部222は、特徴量を削除するための条件として時間情報を適用する場合、特徴量蓄積部223に蓄積された特徴量のうち、直前の1周期分のサブサンプリングにおける最初のサブサンプリングによるサンプリング画像に基づく特徴量を削除することができる。
【0129】
また、特徴量蓄積制御部222は、撮像部1200が自動露出設定機能を備えている場合、所定以上の露出の変化を検出した場合に、撮像画像のシーンが変わったと判定して、特徴量蓄積部223に直前までに蓄積された特徴量を削除するようにできる。さらに、特徴量蓄積制御部222は、例えば外部からの指示に応じて、特徴量蓄積部223に蓄積された全ての特徴量を削除し、特徴量蓄積部223を初期化することもできる。
【0130】
なお、特徴量蓄積制御部222が特徴量蓄積部223に蓄積された特徴量を削除するための条件は、上述の各条件に限定されない。
【0131】
特徴量蓄積制御部222は、特徴量蓄積部223に蓄積された特徴量、あるいは、特徴量蓄積部223に蓄積された特徴量と、特徴量算出部221から渡された特徴量とを統合した特徴量を、利用領域決定部224および認識処理実行部225に渡す。認識処理実行部225は、特徴量蓄積制御部222から渡された特徴量に基づき認識処理を実行する。認識処理実行部225は、認識処理により物体検出、人検出、顔検出などを行う。認識処理実行部225は、認識処理により得られた認識結果を、認識処理部20bの外部に出力する。
【0132】
ここで、特徴量蓄積制御部222は、所定の条件を満たす場合に、特徴量蓄積部223に蓄積された特徴量を利用領域決定部224および認識処理実行部225に渡すようにできる。例えば、特徴量蓄積制御部222は、特徴量を利用領域決定部224および認識処理実行部225に渡すための条件として、時間情報、外部指示、露出条件などを適用することができる。
【0133】
例えば、特徴量蓄積制御部222は、特徴量を蓄積するための条件として時間情報を適用する場合、新たに特徴量蓄積制御部222に渡された特徴量と、特徴量蓄積部223に既に蓄積されている特徴量とを統合し、統合された特徴量を、利用領域決定部224および認識処理実行部225に渡すようにできる。
【0134】
また、特徴量蓄積制御部222は、撮像部1200が自動露出設定機能を備えている場合、所定以上の露出の変化を検出した場合に、撮像画像のシーンが変わったと判定して、新たに特徴量蓄積制御部222に渡された特徴量のみを、利用領域決定部224および認識処理実行部225に渡すようにできる。このとき、特徴量蓄積制御部222は、上述したように、特徴量蓄積部223に既に蓄積されている特徴量を削除することができる。さらに、特徴量蓄積制御部222は、例えば外部からの指示に応じて、新たに渡された特徴量と、特徴量蓄積部223に既に蓄積されている1以上の特徴量とのうち、外部からの指示に応じた特徴量を選択して利用領域決定部224および認識処理実行部225に渡すようにもできる。
【0135】
なお、特徴量蓄積制御部222が利用領域決定部224および認識処理実行部225に特徴量を渡すための条件は、上述の各条件に限定されない。
【0136】
利用領域決定部224は、読出部211により読み出された画像データ32からサンプリング画素として画素データを読み出すための画素位置を決定する。利用領域決定部224は、例えば予め定められたパターンおよびタイミングに従い、画素位置を決定する。これに限らず、利用領域決定部224は、特徴量蓄積制御部222から渡された特徴量に基づき、画素位置を決定することもできる。利用領域決定部224は、決定された画素位置を示す情報を、利用領域情報として前処理部210に渡し、利用領域取得部212に入力される。
【0137】
利用領域取得部212は、上述したように、読出部211から渡された画像データ32に対して、利用領域決定部224から渡された利用領域を示す情報に従いサブサンプリング処理を施す。すなわち、上述した利用領域取得部212あるいは前処理部210、および、利用領域決定部224は、画像データ32すなわち画素により構成される撮像情報が分割された分割領域35に対してサンプリング画素を設定する設定部として機能する。
【0138】
(2-2.第1の実施形態による効果)
次に、第1の実施形態に係る認識処理の効果について、既存技術と対比させながら説明する。
【0139】
(2-2-1.既存技術の概略)
ここで、撮像画像に基づく認識処理を行う情報処理装置を車載用途に用いる場合について考える。この場合、遠方の対象を認識する要望があり、カメラの画角、設置位置、認識対象および車両の移動速度などを考慮すると、解像度としては1920画素×1080画素、あるいはそれ以上(例えば4K解像度の4096画素×2160画素)が要求される場合がある。一方で、認識処理を行う認識器においては、処理速度に限界があり、高解像度の画像をそのまま処理することは困難である。解像度が例えば数100画素×数100画素であれば、撮像画像に追随した認識処理が可能となることが考えられるが、この場合には、
図8Aおよび
図8Bを用いて説明したように、遠方の対象を認識することが困難となる可能性がある。
【0140】
そのため、従来から、認識処理のための計算量を削減する方法が提案されている。
図16および
図17を用いて、従来技術による認識処理の計算量の削減方法の例について説明する。
【0141】
図16は、既存技術による計算量の削減方法の第1の例を説明するための模式図である。この第1の例は、例えば撮像画像である元画像320の行および列方向のサイズをそれぞれ1/N(Nは2以上の整数)に縮小して縮小画像321を生成する例である。元画像320の縮小は、例えば、行および列方向それぞれについて、画素を所定数おきに間引くことで行うことができる。例えば、画素を1個おきに間引く場合、N=2となり、縮小画像321の画素数は、元画像320の1/N×1/N=1/N
2=1/4となる。単純な比較では、縮小画像321の認識処理に係る計算量は、元画像320の認識処理に係る計算量の1/N
2となる。一方、この第1の例では、縮小画像321の解像度は、元画像320の解像度の1/N
2となる。以下、この第1の例を、「1/N×1/N縮小」と呼ぶ。
【0142】
図17は、既存技術による計算量の削減方法の第2の例を説明するための模式図である。この第2の例は、元画像320をN分割したそれぞれの分割領域毎にクロップする例である。
図17の例では、N=2とし、元画像320を4分割したそれぞれの分割領域に従いクロップしている。クロップされた各クロップ画像322#1、322#2、322#3および322#4は、それぞれサイズが元画像320の1/N
2すなわち1/4となる。クロップ画像303#1~303#4のそれぞれは、解像度が元画像320の解像度と同一であり、認識処理に係る計算量は、単純な比較では、元画像320の1/N
2となる。以下、この第2の例を、「1/N×1/Nクロップ」と呼ぶ。
【0143】
(2-2-2.本開示による技術と既存技術との比較)
(2-2-2-1.認識結果の比較)
次に、本開示による技術と、既存技術とを比較し、本開示に係る技術の効果について説明する。
図18は、上述した、「1/N×1/N縮小」と、「1/N×1/Nクロップ」と、第1の実施形態に係る認識処理と、の評価の例を示す模式図である。
図18において、各列は、左から「1/N×1/N縮小」、「1/N×1/Nクロップ」、第1の実施形態に係る認識処理(1/N×1/N位相ずらしサブサンプル+情報統合)をそれぞれ表している。また、
図18において、「○(丸印)」は、有利と考えられる評価結果であることを示し、「×(バツ印)」は、不利と考えられる評価結果であることを示している。
【0144】
また、
図18において、各行は、上から「距離」、「画角」、「見切れ」、「レイテンシ」、「フレームレート」、「バス幅」をそれぞれ表している。これらのうち、「距離」は、認識可能な距離を示す。「画角」は、認識処理対象の画像に対する画角を示す。「見切れ」は、認識対象の画像に含まれる対象物が当該画像の端で切れているか否かを示す。「レイテンシ」は、撮像画像(元画像320)に対する認識結果の遅延を示す。「フレームレート」は、認識結果の更新周期を示す。また、「バス幅」は、撮像部1200が撮像画像を出力するためのバス幅を示す。ここで、「バス幅」については、元画像320による認識処理に対してバス幅が減少しない場合に、「×(バツ印)」としている。
【0145】
「1/N×1/N縮小」について説明する。「距離」については、「×」となっている。これは、「1/N×1/N縮小」は、行および列方向それぞれについて画素数が1/Nとされているためである。一方、「画角」および「見切れ」については、元画像320の全体を間引いて用いているため、「○」となっている。また、「レイテンシ」および「フレームレート」については、元画像320に対して画素数を減少させており、高速処理が可能であるため、「○」となっている。
【0146】
第1の実施形態に係る方法である「1/N×1/N位相ずらしサブサンプル+情報統合」について説明する。「距離」については、位相の1周期分の認識処理が行われた場合に元画像320と同等となり、「○」となる。「画角」および「見切れ」については、元画像320の全体を用いるため、「○」となっている。また、「レイテンシ」および「フレームレート」については、各位相で認識結果を出力可能であるため、「○」となっている。
【0147】
「1/N×1/Nクロップ」について説明する。「距離」については、クロップ画像#1~#4それぞれの解像度が元画像320と同等であるため、「○」となっている。一方、「画角」については、元画像320の全画角を見るためにはN2フレームを要するため、1フレーム当たりでは1/N倍となり、「×」となっている。「見切れ」については、各クロップ画像#1~#4は、元画像320を分割したものであるため、分割位置において見切れが発生する恐れがあり、「×」となっている。「レイテンシ」については、「画角」と同様に、元画像320の全画角を見るためにはN2フレームを要し、「×」となっている。また、「フレームレート」についても、元画像320の全画角を見るためにはN2フレームを要するため、1/N2倍となり、「×」となっている。
【0148】
なお、「バス幅」については、何れにおいても、撮像部1200から元画像320の解像度で撮像画像が出力されるため、「×」となっている。
【0149】
図18に示した評価例において、既存技術において好ましい評価結果が得られている方法である「1/N×1/N縮小」と、第1の実施形態に係る方法である「1/N×1/N位相ずらしサブサンプル+情報統合」とを比較する。
【0150】
図19Aは、既存技術の「1/N×1/N縮小」による認識処理を概略的に示す図である。また、
図19Bは、第1の実施形態に係る、「1/N×1/N位相ずらしサブサンプル+情報統合」による認識処理を概略的に示す図である。なお、
図19Aおよび後述する
図19Bにおいて、図の左から右に向けて時間の経過を表すものとする。また、
図19Aおよび
図19Bにおいて、認識処理の対象となる撮像画像(元画像320)は、共通であるものとする。
【0151】
ここでは、
図19Aに示す「1/N×1/N縮小」では、元画像320(図示しない)に対して、行および列方向にそれぞれ1画素ずつ間引くことで、1/2×1/2=1/4の縮小画像321a、321b、321cおよび321dを生成するものとする。また、
図19Bに示す「1/N×1/N位相ずらしサブサンプル+情報統合」でも同様に、元画像320の各分割領域35に対して、行および列方向にそれぞれ1画素ずつ間引くサブサンプリングを行う。
【0152】
したがって、1フレームにおける解像度は、
図19Aに示す「1/N×1/N縮小」の場合と、
図19Bに示す「1/N×1/N位相ずらしサブサンプル+情報統合」の場合と、で同一となる。
図19Bの例では、さらに、サンプリングする画素位置(画素の位相)をフレーム毎に1画素分ずつずらす。
【0153】
先ず、「1/N×1/N縮小」の場合について説明する。
図19Aにおいて、あるフレームタイミングにおいて撮像画像から縮小画像321aが生成され、この縮小画像321aに対して例えばCNNを用いて特徴量の抽出処理が行われる。そして、抽出された特徴量に基づき認識処理が実行される。
図19Aの例では、縮小画像321aに対する認識処理により、それぞれ人が認識された認識結果62および63が得られている。
【0154】
次のフレームタイミングにおいて撮像画像から縮小画像321bが生成される。この縮小画像321bから抽出された特徴量に基づく認識処理により、縮小画像321aの場合と同様に、認識結果62および63が得られている。その次のフレームタイミングの縮小画像321c、さらに次のフレームタイミングの縮小画像321dについても同様に、抽出された特徴量に基づく認識処理により、それぞれ認識結果62および63が得られている。このように、「1/N×1/N縮小」の場合、縮小画像321a、321b、…の解像度に応じた距離までの対象物しか認識できない。
【0155】
次に、「1/N×1/N位相ずらしサブサンプル+情報統合」の場合について説明する。
図19Bにおいて、あるフレームタイミングにおいて、撮像画像に対して第1の位相でサブサンプリングが行われ、第1の位相のサンプリング画像36φ1が生成される。このサンプリング画像36φ1のサイズは、上述した縮小画像321aのサイズと同一となる。このサンプリング画像36φ1に対して、
図19Aの例と同様にして例えばCNNを用いて特徴量の抽出処理が行われ、特徴量が抽出される。そして、抽出された特徴量に基づき認識処理が実行される。
図19Bの例では、サンプリング画像36φ1に対する認識処理により、
図19Aの場合と同様に、それぞれ人が認識された認識結果62および63が得られている。
【0156】
次のフレームタイミングにおいて、撮像画像から、サンプリング画像36φ1に対して1画素分の位相がずれた、第2の位相のサンプリング画像36φ2が生成される。このサンプリング画像36φ2から抽出された特徴量に基づき、認識処理が行われる。
【0157】
このとき、サンプリング画像36φ2から抽出された特徴量と、直前の認識処理において用いられた、サンプリング画像36φ1から抽出された特徴量と、が統合された特徴量に基づき認識処理が行われる。これにより、サンプリング画像36φ1に基づく認識結果62および63に加え、これら認識結果62および63として認識された人より遠方の人が認識された認識結果64が得られている。
【0158】
その次のフレームタイミングのサンプリング画像36φ3についても、直前の認識処理において用いられた特徴量に、サンプリング画像36φ3に基づく特徴量が統合され、上述の認識結果64として認識された人よりさらに遠方の人が認識された認識結果65が得られている。さらに次のフレームタイミングのサンプリング画像36φ4についても同様に、直前の認識処理において用いられた特徴量に、サンプリング画像36φ4に基づく特徴量が統合され、上述の認識結果65として認識された人よりさらに遠方の人が認識された認識結果66が得られている。
【0159】
このように、第1の実施形態では、それぞれサブサンプリングされた複数フレームのサンプリング画像36φ1~36φ4に基づく各特徴量をフレーム毎に順次に統合し、統合された特徴量に基づき認識処理を行っている。そのため、例えば当該サンプリング画像36φ1~36φ4を生成した各フレームの画像が時間的に連続性を有する場合、当該サンプリング画像36φ1~36φ4から抽出された各特徴量を統合した特徴量は、サブサンプリングを行わない1つの撮像画像から抽出された特徴量に相当すると考えることができる。
【0160】
したがって、第1の実施形態に係る認識処理によれば、カメラ(撮像部1200)の解像度をフルに活用して遠方の対象物を認識することが可能である。また、フレーム毎に認識処理を行い認識結果を得ることができるため、画像上で大きな対象物を短時間で認識できる。画像上で小さな対象物は、例えばN2フレーム遅延して認識されるが、このような対象物は遠方にあることが予測されるため、認識結果の多少の遅延は許容することが可能である。
【0161】
(2-2-2-2.認識処理制御の比較)
次に、既存技術による認識処理の制御について説明し、
図14を用いて説明した、第1の実施形態に係る読み出しおよび認識処理の制御と比較する。
図20は、既存技術による、撮像画像の画像データ32を縮小せずに用いた場合の読み出しおよび認識処理の制御を示す一例のタイムチャートである。
図20の各部の意味は、上述した
図14と同等なので、ここでの説明を省略する。
【0162】
図20の例では、フレーム#1の撮像画像に基づく画像データ32aに対する認識処理(ステップS20)に、4フレーム分の時間を要している。縮小していない画像データ32aを用いて認識処理を行っているので、例えば遠方の対象物を認識可能である。一方で、認識処理を行うCPU1205やDSP1203(
図5参照)などにおける処理量の制約により、画像データ32aに基づく認識結果の、当該画像データ32aに対する遅延が発生する。
【0163】
また、縮小していない画像データ32aに対する認識処理は、多くの時間を要するため、認識結果の更新間隔が長くなり、認識結果に対するフレームレートが低下する。さらに、縮小していない画像データ32aに基づき認識処理を行う場合、例えば当該画像データ32aのために、大きなメモリ容量を確保する必要がある。さらにまた、
図20において、画像データ32aに対する認識処理を行っている間、フレーム#1に続くフレーム#2~#4の撮像画像に対する認識処理を実行できず、フレーム#2~#4の撮像処理が無駄になってしまう。
【0164】
図21は、既存技術による、「1/N×1/N縮小」の場合の読み出しおよび認識処理の制御を示す一例のタイムチャートである。
図21の各部の意味は、上述した
図14と同等なので、ここでの説明を省略する。
【0165】
図21の例では、例えばフレーム#1の撮像画像に基づく画像データ32aを間引きなどにより縮小し(ステップS30)、縮小された縮小画像による画像データに対して認識処理を行い、認識結果#aを得る(ステップS31)。認識処理を、縮小画像による画像データに対して行うため、上述した縮小していない画像データ32aに対して認識処理を行う場合に比べて、より短時間に認識結果を更新することができる。例えば、縮小画像を、画像データ32aの行および列方向にそれぞれ1画素おきに間引いた場合、
図14を用いて説明した、第1の実施形態に係る認識処理、すなわち、「1/N×1/N位相ずらしサブサンプル+情報統合」による認識処理と同等の時間で、認識処理を実行できる。
【0166】
一方で、画像データ32aを間引いて縮小した縮小画像に基づき認識処理を行っているため、画像データ32aの解像度を活用できず、遠方の対象物の認識が困難である。これは、フレーム#2、#3および#4それぞれの画像データ32b、32cおよび32dの各認識結果#b、認識結果#cおよび認識結果#dについても同様である。
【0167】
これに対して、
図14を用いて説明した第1の実施形態に係る認識処理では、認識処理などのタイミングは、
図21に示す「1/N×1/N縮小」の場合と同等である。しかしながら、
図14の例では、認識処理における中間データである特徴量を、次のフレームの画像データから抽出された特徴量と統合して、当該画像データに対する認識処理を行う。さらに、画像データに対するサブサンプリングは、フレーム毎に位相をずらして行われる。
【0168】
そのため、カメラ(撮像部1200)の解像度をフルに活用して遠方の対象物を認識することが可能である。また、フレーム毎に認識処理を行い認識結果を得ることができるため、画像上で大きな対象物を短時間で認識できる。撮像画像の解像度をフルに用いることで認識が可能となる、例えば画像上で小さな対象物は、例えばN2フレーム遅延して認識されるが、このような対象物は遠方にあることが予測されるため、認識結果の多少の遅延は許容することが可能である。
【0169】
(2-2-2-3.認識処理の遅延の比較)
次に、既存技術による認識処理の遅延と、第1の実施形態に係る認識処理の遅延と、について説明する。
図22は、第1の実施形態に係る認識結果の遅延と、既存技術による認識結果の遅延と、について説明するための模式図である。
【0170】
図22において、左から右へ向けて時間が経過することを示している。また、上段のセクション(a)は、撮像部1200により撮像された撮像画像310
1~310
9を模式的に示している。中段のセクション(b)は、第1の実施形態に係る認識処理における、位相ずらしサブサンプリングによる認識結果の例を模式的に示している。下段のセクション(c)は、既存技術による、撮像画像の解像度をそのまま用いた場合の認識結果の例を模式的に示している。また、セクション(b)における各画像311
1、311
2および311
3、ならびに、セクション(c)における各画像312
1、312
2および312
3は、それぞれの時間における撮像画像を模した画像を示している。
【0171】
なお、ここでは、セクション(c)の既存技術として、遠方の対象物の認識を考慮して、間引きなどを行わない、撮像画像の解像度をそのまま用いて認識処理を行う例を適用する。また、撮像画像のフレームレートは、例えば20[fps]以上であるものとする。
【0172】
図22のセクション(a)に示される各撮像画像310
1、310
2、…、310
9、…は、車載されたカメラ(撮像部1200)により撮像されたものとしている。このとき、当該カメラが搭載される車両は、前方に向けて移動している。なお、
図22のセクション(a)では、説明のため、各撮像画像310
1~310
9が、1秒を4等分した時間(0.25[s(second)])を単位として、それぞれ時間t
1、t
2、…、t
9に取得されたものとしている。
【0173】
図22のセクション(a)において、各撮像画像310
1、310
2、…、310
9、…には、遠方に人である対象物43が含まれている。また、撮像画像310
5~310
7では、対象物43に加えて、人である対象物44がさらに含まれる。対象物44は、撮像画像310
5において、車両45の陰から突然現れ、撮像画像310
6、310
7、…とカメラが搭載される車両(自車とする)の方向に向けて進んで来ている。自車側では、この対象物44を迅速に認識することが求められる。
【0174】
図22の例では、セクション(b)に示す位相ずらしサブサンプリングによる認識処理は、20[fps]のフレームレートで、すなわち、0.05[S]毎に更新されるものとしている。これに対して、セクション(c)に示す既存技術では、認識処理が2[fps]のフレームレートで、すなわち、0.5[s]毎に更新されるものとしている。
【0175】
撮像画像3101に含まれる対象物43は、セクション(b)に示す位相ずらしサブサンプリングによる認識処理では、画像3111に示されるように、撮像画像3101の取得タイミングの時間t1から0.05[s]遅延した時間t11において、対象物43が認識された認識結果70が得られている。サブサンプリングによる認識処理では、この後も、0.05[s]間隔で認識結果が更新される。
【0176】
一方、当該対象物43は、セクション(c)に示す撮像画像の解像度を用いた認識処理では、画像3121に示されるように、時間t1から0.5[s]遅延した時間t20において、撮像画像3101に基づく認識結果70が得られている。撮像画像の解像度を用いた認識処理では、次に認識結果が更新されるのは、時間t20から0.5[s]が経過した時間t21となる。
【0177】
次に、人である対象物44が車両45の陰から現れる、撮像画像3105について考える。この場合、セクション(b)に示す位相ずらしサブサンプリングによる認識処理では、画像3112に示されるように、撮像画像3105が取得された時間t5から0.05[s]後の時間t12に、対象物44が認識された認識結果71が得られている。さらに、位相ずらしサブサンプリングによる認識処理では、0.05[s]毎に認識結果が更新され、時間t12から0.5[s]後の時間t13では、画像3113に示されるように、自車に向けて進む対象物44が認識結果72として得られている。
【0178】
これに対して、セクション(c)に示す撮像画像の解像度を用いた認識処理では、対象物44は、撮像画像3105が取得された時間t5から0.5[s]後の時間t22に認識され、対象物44に対応する認識結果71が得られることになる。すなわち、撮像画像の解像度を用いた認識処理では、対象物44が、位相ずらしサブサンプリングによる認識処理に比べて0.45[s]遅延して、認識される。
【0179】
また、セクション(c)に示す撮像画像の解像度を用いた認識処理では、時間t20から時間t22の間において、認識結果の更新が時間t21における1回しか行われず、対象物44の状態を高い同時性で確認することが極めて困難である。
【0180】
図23Aおよび
図23Bを用いて、認識処理と車両の制動との関係について、概略的に説明する。なお、
図23Aおよび
図23Bにおいて、左側の図は撮像画像(あるいは自車のフロントからの光景)を、右側の図は、認識処理による認識結果を含む画像をそれぞれ模式的に示している。また、
図23Aにおいて、
図22を参照し、上段は時間t
5、下段は時間t
7の状態にそれぞれ対応する。
【0181】
図23Aは、撮像画像の解像度を用いた認識処理の場合の例を示す図である。
図22を参照し、時間t
5では、撮像画像310
5において車両45の陰から人である対象物44が出現している。ここで、時間t
5における自車(撮像部1200)から対象物44までの距離を、距離Aとする。ここで、距離Aは、減速やブレーキングといった自車の制動により、自車が対象物44に接触あるいは衝突する事態を回避可能な距離であるものとする。
【0182】
撮像画像の解像度を用いた認識処理では、この時間t
5(=時間t
22)において、遅延により0.5[s]前の時間t
3の撮像画像310
3に基づく認識結果が得られることになる。撮像画像310
3には、対象物43が含まれ、対象物44が含まれないため、
図23A上段の画像312
2に示されるように、対象物43に対する認識結果70のみが得られている。
【0183】
時間t7では、対象物44が自車に対して至近の距離Bまで接近している。ここで、距離Bは、減速やブレーキングといった自車の制動を行っても、自車が対象物44に接触あるいは衝突する可能性が極めて高い距離であるものとする。例えば自車の速度を30[km/h]とした場合、0.5[s]で4.2[m]ほど移動する。対象物44の移動速度を無視すると、距離Bは、距離Aに対して4.2[m]ほど接近した距離となる。
【0184】
撮像画像の解像度を用いた認識処理では、時間t
7において、遅延分の0.5[s]前の時間t
5の撮像画像310
5を用いた認識結果が得られている。すなわち、時間t
7では、
図23A下段の右側の画像312
3に示されるように、距離Aにおける対象物44の認識結果71が得られることになり、減速やブレーキングといった制動が間に合わない可能性が高い。
【0185】
図23Bは、位相ずらしサブサンプリングによる認識処理の場合の例を示す図である。この場合、
図22を参照し、時間t
22において、遅延により0.05[s]前の時間t
5の撮像画像310
5に基づく認識結果が得られることになる。この場合、認識処理により、
図23Bの右側の画像311
2に示されるように、撮像画像310
5に含まれる対象物44に対応する認識結果71が得られる。時間t
22では、対象物44が自車に対して距離Aよりやや近い距離A’まで接近している。
【0186】
上述と同様に、自車の速度を30[km/h]とした場合、0.05[s]で移動する距離は40[cm]ほどとなる。したがって、対象物44の移動速度を無視すると、距離A’は、距離Aに対して40[cm]ほど接近した距離となる。この場合、減速やブレーキングといった自車の制動により、自車が対象物44に接触あるいは衝突する事態を回避可能である。
【0187】
このように、第1の実施形態に係る認識処理(位相ずらしサブサンプリングによる認識処理)を用いることで、対象物をより早く認識することが可能となり、例えば車両の制動による回避動作をより確実に実行可能となる。
【0188】
(2-2-2-4.第1の実施形態に係る認識処理による改善例)
次に、第1の実施形態に係る認識処理による、既存技術の認識処理に対する改善例について、
図24を用いて説明する。
図24において、各列は、左から、既存技術である「1/4縮小」、既存技術である「縮小なし」、第1の実施形態に係る認識処理である「位相ずらしサブサンプリング」をそれぞれ表している。また、
図24に示される各数値は、説明のための一例の数値であり、これらの値に限られるものではない。
【0189】
なお、「1/4縮小」は、
図16を用いて説明した「1/N×1/N縮小」と対応する。「縮小なし」は、上述の「撮像画像の解像度を用いた認識処理」に対応する。また、「位相ずらしサブサンプリング」は、分割領域35のサイズを8画素×8画素とし、行および列それぞれの方向に対する3画素おきの間引きにより、分割領域35から4画素をサンプリング画素として選択するサブサンプリングを行うものとする。
【0190】
また、
図24において、各行は、上から「カメラ解像度」、「バス幅」、「CNN解像度」、「最長認識距離」、「レイテンシ」、「フレームレート」および「空走距離」をそれぞれ表している。これらのうち、「カメラ解像度」は、撮像部1200による撮像画像の解像度であり、
図24の例では、「1/4縮小」、「縮小なし」および「位相ずらしサブサンプリング」の何れでも1920画素×1080画素とされている。また、「バス幅」は、撮像部1200が撮像画像を出力するためのバス幅を示し、
図24の例では、「1/4縮小」、「縮小なし」および「位相ずらしサブサンプリング」の何れでも120[MBps(Mega byte per second)]とされている。
【0191】
「CNN解像度」は、認識部220においてCNNを用いて特徴量を抽出する際の解像度である。
図24の例では、「縮小なし」においてカメラ解像度と同等の1920画素×1080画素とされ、「1/4縮小」では、行列それぞれにおいてその1/4の、480画素×270画素とされている。すなわち、「縮小なし」は、「1/4縮小」の16倍(=4×4)のCNN解像度を有する。
【0192】
一方、「位相ずらしサブサンプリング」では、行および列それぞれの方向に3画素おきの間引きを行うため、「CNN解像度」は、「カメラ解像度」の1/4の480画素×270画素の解像度とされる。ここで、第1の実施形態では、1周期で、8画素×8画素のサイズを有する分割領域35の全ての画素位置を、サンプリング画素の画素位置として選択する。そのため、1周期のサブサンプリングが完了した場合のCNN解像度は、480画素×270画素×4×4の、1920画素×1080画素相当となる。
【0193】
「最長認識距離」は、対象物を認識可能な、撮像部1200から対象物までの最長の距離である。
図24の例では、「1/4縮小」では20[m]、「縮小なし」および「位相ずらしサブサンプリング」ではそれぞれ80[m]とされている。「位相ずらしサブサンプリング」の場合、1周期のサブサンプリングが完了した場合において、「縮小なし」と同等の80[m]となる。
【0194】
「レイテンシ」は、撮像画像に対する認識結果の遅延を示し、「1/4縮小」では50[ms]、「縮小なし」では「1/4縮小」の16倍(=4×4)の800[ms]となっている。一方、「位相ずらしサブサンプリング」では、1回分のサブサンプリングにおいて50[ms]、1周期分のサブサンプリングが完了した場合において、「縮小なし」と同等の800[ms]となる。なお、「位相ずらしサブサンプリング」において、記号「@(アットマーク)」の後ろは、最長認識距離を示している。これによれば、1回分のサブサンプリングでは、レイテンシが50[ms]と小さい一方で、最長認識距離が20[m]と短くなる。また、1周期分のサブサンプリングが完了した場合では、最長認識距離が80[m]に延長される。
【0195】
「フレームレート」は、認識結果の更新周期を示し、
図24の例では、「1/4縮小」および「位相ずらしサブサンプリング」では20[fps]、「縮小なし」では1.25[fps]とされている。なお、「位相ずらしサブサンプリング」のフレームレートの20[fps]は、1回分のサブサンプリングのフレームレートである。
【0196】
「空走距離」は、自車を例えば停止させるべき対象物が出現してから、実際に自車を停止させるブレーキングなどの制動が実行されるまでに走行する距離である。より具体的には、「空走距離」は、対象物が出現した時点から、出現した当該対象物を認識処理により認識し、認識結果に応じて自車の制動が開始されるまでに自車が走行した距離である。ここでは、自車の走行速度を50[km/h]として空走距離を求めている。「空走距離」を求めるためには、上述した「レイテンシ」の値を考慮する必要がある。
【0197】
「空走距離」は、「1/4縮小」では0.7[m]、「縮小なし」では11[m]となっている。「レイテンシ」は、上述したように、「縮小なし」は、「1/4縮小」の16倍となっている。そのため、「空走距離」も、0.7[m]の略16倍の11[m]となっている。また、「1/4縮小」では、空走距離が短い一方で、最長認識距離が20[m]とされており、20[m]を超える距離の対象物の認識が困難である。また、「縮小なし」は、80[m]までの距離の対象物の認識が可能である一方で、空走距離が11[m]と長い。「縮小なし」の場合、例えば20[m]までの近距離の対象物に対しても、空走距離は11[m]であり、対象物に対する接触や衝突の回避が困難となるおそれがある。
【0198】
これに対して、「位相ずらしサブサンプリング」では、1周期のサブサンプリングの最初の1回で、20[m]までの距離の対象物を50[ms]のレイテンシで認識できる。そのため、20[m]までの距離の対象物については、「空走距離」は、「1/4縮小」の場合と同等の0.7[m]となる。また、20[m]を超え80[m]までの距離の対象物については、「空走距離」は、「縮小なし」の場合と同等の11[m]となる。
【0199】
「最長認識距離(歩行者)」は、歩行者などの、認識された際に車両の制動が必要な場合の、最長の認識距離を示している。この「最長認識距離(歩行者)」は、上述した「最長認識距離」から「空走距離」を差し引いた値となり、「1/4縮小」では略19[m]、「縮小なし」および「位相ずらしサブサンプリング」ではそれぞれ略69[m]となる。
【0200】
このように、第1の実施形態に係る認識処理方法である「位相ずらしサブサンプリング」では、近距離での空走距離を抑えつつ、遠距離の対象物の認識も可能となる点で、既存技術の認識処理方法に対して劇的な改善が見られる。したがって、第1の実施形態に係る認識処理では、遠距離の対象物が認識可能であると共に、近距離における空走距離が0.7[m]と短く、近距離の対象物に対する接触や衝突の回避が容易である。
【0201】
(2-2-2-5.第1の実施形態に係る認識処理の効果的な適用場面)
次に、第1の実施形態に係る認識処理の効果的な適用場面について、
図25Aおよび
図25Bを用いて説明する。なお、
図25Aの状態400~402、および、
図25Bの状態403~405は、それぞれ、道路上を自車である車両410(以下、自車410と記述する)が走行している様子を、時系列順に示している。自車410は、第1の実施形態に係る認識処理を実行可能な情報処理装置1bが搭載され、当該情報処理装置1bによる認識結果に基づき、制動制御系などを制御可能とされている。
【0202】
図25Aは、第1の実施形態に係る認識処理の効果的な適用場面の第1の例を示す模式図である。
図25Aにおいて、状態400を参照し、前進走行する自車410の前方に、他の車両411aが停車し、車両411aの自車410に対して陰となる部分に人412aが存在している。また、自車410が走行する走行車線の対向車線を、さらに他の車両411bが走行している。
【0203】
状態401は、状態400から所定時間経過後に、車両411bが車線420をはみ出して自車410の走行車線に進入した状態を模式的に示している。この状態402において、自車410に搭載された情報処理装置1bは、遠距離の車両411bを対象物として認識することが可能である。そのため、情報処理装置1bは、この車線420をはみ出した車両411bを認識し、認識結果に応じて自車410を制御し、自車410に車両411bを回避させる回避動作を取らせることが可能である。
【0204】
状態402は、状態400から所定時間経過後に、人412aが車両411aの陰から急に出現した場合を模式的に示している。この状態402において、自車410に搭載された情報処理装置1bは、近距離の人412aを、対象物として短いレイテンシで認識することが可能である。そのため、情報処理装置1bは、この人412aを認識し、認識結果に応じて自車410を制御する動作を、短い空走距離で開始することができ、人412aとの接触や衝突を回避することが可能となる。
【0205】
図25Bは、第1の実施形態に係る認識処理の効果的な適用場面の第2の例を示す模式図である。
図25Bにおいて、状態403を参照し、前進走行する自車410の前方の道路外の領域に壁などの遮蔽物413が存在し、その遮蔽物413の自車410に対して陰となる部分に人412bが存在している。また、自車410が走行する走行車線の前方の遠距離に、人412cが存在している。
【0206】
状態404は、自車410の情報処理装置1bにおいて、人412cが認識された状態を模式的に示している。情報処理装置1bは、遠距離の対象物を認識可能である。そのため、自車410の進行方向の遠方の人412cが認識された場合に、緩やかな減速を行うように、自車410を制御することが可能である。
【0207】
状態405は、状態403から所定時間経過後に、遮蔽物413の陰から人412bが急に出現した様子を模式的に示している。この状態405において、自車410に搭載された情報処理装置1bは、近距離の人412bを、対象物として短いレイテンシで認識することが可能である。そのため、情報処理装置1bは、この人412bを認識し、認識結果に応じて自車410を制御する動作を、短い空走距離で開始することができ、人412bとの接触や衝突を回避することが可能となる。
【0208】
(2-3.第1の実施形態の変形例)
次に、第1の実施形態の変形例について説明する。
【0209】
(2-3-1.第1の変形例)
先ず、第1の実施形態の第1の変形例について説明する。第1の実施形態の第1の変形例は、サブサンプリングによるサンプリングの空間的な間隔を、認識の対象物や認識処理を行う状況などに応じて変更する例である。
図26Aおよび
図26Bは、サンプリング間隔の異なる分割領域35および35’の例を示す模式図である。
【0210】
図26Aは、分割領域35に含まれる画素300を、行および列方向にそれぞれ1つおきに間引いて選択した4つの画素300sa
1、300sa
2、300sa
3および300sa
4をサンプリング画素とした例を示す模式図である。この場合、サンプリング間隔は2画素となる。なお、
図26Aの例では、分割領域35のサイズを4画素×4画素としている。
【0211】
図26Bは、分割領域35に含まれる画素300を、行および列方向にそれぞれ3つおきに間引いて選択した4つの画素300sa
1、300sa
2、300sa
3および300sa
4をサンプリング画素とした例を示す模式図である。この場合、サンプリング間隔は4画素となる。なお、
図26Bの例では、分割領域35のサイズを8画素×8画素としている。
【0212】
図26Bの例のように、サンプリング間隔を例えば
図26Aの例に対して広げると、1回のサブサンプリングで少ない数のサンプリング画素が選択され、レイテンシが小さくなる。この場合、例えば1回目のサブサンプリングによる認識処理で認識可能な距離が短くなると共に、サンプリング画像の解像度が低いため画像上で大きなサイズの対象物の認識に適している。
【0213】
一方、
図26Aのように、サンプリング間隔を例えば
図26Bの例に対して狭めると、1回のサブサンプリングで多くのサンプリング画素が選択され、レイテンシが大きくなる。この場合、例えば1回目のサブサンプリングによる認識処理で認識可能な距離が長くなると共に、サンプリング画像の解像度が
図26Bの例に対して高いため、画像上で小さなサイズの対象物の認識に適している。
【0214】
例えば、第1の実施形態の第1の変形例に係る情報処理装置1bを車載用途として用いる場合、当該情報処理装置1bを搭載した車両が高速走行中は、より遠距離の対象物の認識が重要となる。そのため、前処理部210は、例えば
図26Aのようにサンプリング間隔を狭め、認識部220は、より高解像度のサンプリング画像を用いて認識処理を行う。一方、当該車両が例えば市街地などを走行中は、レイテンシが重要となる。そのため、前処理部210は、例えば
図26Bのようにサンプリング間隔を広げ、認識部220は、低解像度のサンプリング画像を用いて認識処理を行う。
【0215】
例えば、情報処理装置1bは、現在位置を示す位置情報を取得し、取得された位置情報と、現在位置に対応するマップ情報とに基づき、現在位置が市街地であるか否かを判断できる。情報処理装置1bは、例えば、SLAM(Simultaneous Localization And Mapping)やGNSS(Global Navigation Satellite System)を用いて現在位置を推定するように構成することができる。また、情報処理装置1bがインタフェース1204を介して車両から走行速度を示す情報を取得する。情報処理装置1bにおいて、例えば前処理部210は、これら現在位置情報と走行速度情報とに基づき、サンプリング間隔を設定することができる。サンプリング間隔は、これらの情報に基づき動的に設定することが可能である。
【0216】
なお、これに限らず、前処理部210および認識部220に供給するクロック周波数の制御や、撮像画像において認識処理の対象とする認識領域を狭める、といった方法により、認識処理の速度や認識可能な距離の調整を行うことも考えられる。例えば市街地を高速走行中は、遠距離および近距離それぞれの認識結果が必要となる。このような場合に、クロック周波数を上げる、認識領域を狭める、など制御を行う。
【0217】
このように、第1の実施形態の第1の変形例では、サブサンプリングによる認識処理と、通常の認識処理とを適宜に切り替えることで、認識結果をより安定的に得ることができる。また、通常の認識処理に交えてサブサンプリングによる認識処理が実行されるため、認識部220の負荷が軽減され、消費電力を抑制することが可能である。
【0218】
(2-3-2.第2の変形例)
次に、第1の実施形態の第2の変形例について説明する。第1の実施形態の第2の変形例は、認識処理のレイテンシに応じて外部の装置を制御する例である。一例として、第1の実施形態の第2の変形例に係る情報処理装置1bを車載用途として用いる場合に、認識処理のレイテンシに応じて、当該情報処理装置1bが搭載される車両の速度(車速)を制御する。例えば、上述した
図26Aのようにサンプリング画素が選択された場合、画像上で小さなサイズの対象物の認識に適している一方で、レイテンシが大きくなる。
【0219】
例えばスクールゾーンでは、画像上で小さなサイズの対象物としての子供が多い。そこで、第1の実施形態の第2の変形例に係る情報処理装置1bは、例えば位置情報に基づき現在位置がスクールゾーンであるとされた場合に、より解像度が高い
図26Aのサンプリング画素によるサブサンプリングを選択する。この
図26Aのサンプリング画素によるサブサンプリングは、レイテンシが大きいため、情報処理装置1bは、当該情報処理装置1bが搭載される車両の車速を制限する。
【0220】
(2-3-3.第3の変形例)
次に、第1の実施形態の第3の変形例について説明する。第1の実施形態の第3の変形例は、上述した第1の実施形態に係るサブサンプリングによる認識処理(以下、サブサンプリングによる認識処理と呼ぶ)と、サブサンプリングを行わない通常の認識処理と、を切り替えて実行する例である。ここで、通常の認識処理は、撮像画像に対するサブサンプリングおよび縮小を行わず、撮像画像の全ての画素を用いた認識処理をいう。
【0221】
例えば、サブサンプリングによる認識処理に対して、一定時間毎に通常の認識処理を行うことができる。これにより、例えばサブサンプリングによる認識処理を検証することが可能である。また例えば、緊急時に、サブサンプリングによる認識処理から通常の認識処理へと切り替えることができる。これにより、認識処理の安定性を向上させることができる。
【0222】
ここで、サブサンプリングによる認識処理から通常の認識処理へと切り替えた際には、例えばレイテンシが大きくなるため認識結果の速報性が低下する。そのため、通常の認識処理に切り替える際に、前処理部210および認識部220に供給するクロックの周波数を上げるようにすると好ましい。
【0223】
さらに、認識処理による認識結果の信頼度に応じてサブサンプリングによる認識処理と通常の認識処理とを切り替えることができる。例えば、認識部220は、サブサンプリングによる認識処理を行っている場合に、当該認識処理による認識結果の信頼度を取得する。認識部220は、この信頼度が例えば所定値未満の場合に、前処理部210に対して、サブサンプリングによる認識処理から通常の認識処理への切り替えを指示する。前処理部210は、この指示に応じて、撮像画像に対するサブサンプリングを停止し、撮像画像の全画素を認識部220に渡すようにする。認識部220は、前処理部210から渡された撮像画像の全画素に基づき通常の認識処理を実行する。
【0224】
認識部220は、このようしてサブサンプリングによる認識処理から切り替えられた通常の認識処理において、当該認識処理による認識結果の信頼度を取得する。認識部220は、この信頼度が例えば所定値以上の場合に、前処理部210に対して、通常の認識処理からサブサンプリングによる認識処理への切り替えを指示する。前処理部210は、この指示に応じて、撮像画像に対するサブサンプリングを行い、選択されたサンプリング画素を認識部220に渡す。認識部220は、前処理部210から渡されたサンプリング画素に基づきサブサンプリングによる認識処理を実行する。
【0225】
このように、第1の実施形態の第3の変形例では、認識処理による認識結果の信頼度に応じてサブサンプリングによる認識処理と、通常の認識処理とを切り替えることで、認識結果をより安定的に得ることができる。また、認識結果の信頼度が高い場合には、サブサンプリングによる認識処理が実行されるため、認識部220の負荷が軽減され、消費電力を抑制することが可能である。
【0226】
(2-3-4.第4の変形例)
次に、第1の実施形態の第4の変形例について説明する。第1の実施形態の第4の変形例は、撮像画像において任意に選択した画素位置の画素300を、サブサンプリングによるサンプリング画素として用いる。
【0227】
図27は、第1の実施形態の第4の変形例によるサブサンプリングを説明するための模式図である。
図27に示されるように、第1の実施形態の第4の変形例では、前処理部210は、各フレームの撮像画像である元画像320Rn
1、320Rn
2、…、320Rn
nのnフレームを1周期として、各フレームに対し、任意に選択した複数の画素位置によるパターンR#m_1、R#m_2、…、R#m_nを設定する。一例として、前処理部210は、フレームに含まれる全画素数をs、1周期のフレーム数をnとした場合、それぞれ(s/n)個の画素位置を含むパターンR#m_1、R#m_2、…、R#m_nを設定する。
【0228】
ここで、任意に選択した複数の画素位置は、例えば、離散的および非周期的な複数の画素位置を含む。例えば、前処理部210は、疑似乱数を用いて、当該複数の画素位置を選択することができる。また、選択される画素位置は、フレーム毎に異ならせることが好ましいが、一部の画素位置がフレーム間で重複してもよい。
【0229】
認識部220は、元画像320Rn1、320Rn2、…、320Rnnのそれぞれから、各パターンR#m_1、R#m_2、…、R#m_nに含まれる画素位置の画素300をサンプリング画素として選択し、選択されたサンプリング画素に基づき認識処理を実行する。
【0230】
第1の実施形態の第4の変形例では、このように、元画像320Rn1、320Rn2、…、320Rnnのそれぞれから、任意に選択され、且つ、フレーム毎に異なる複数の画素位置によるパターンR#m_1、R#m_2、…、R#m_nに従い選択されたサンプリング画素に基づき、認識処理を行っている。そのため、例えば行および列それぞれの方向に1つおき、3つおきなど周期的に選択した画素位置の画素300をサンプリング画素として用いる場合に比べて、サンプリングのアーティフィクトを減少させることが可能である。
【0231】
例えば、第1の実施形態の第4の変形例に係る認識処理によれば、フリッカといった時間的な周期パターンに対する誤認識や未認識の発生を抑制できる。また、当該認識処理によれば、空間的な周期パターン(柵や網目状の構造物など)に対する誤認識や未認識の抑制も可能である。
【0232】
なお、上述では、例えば、元画像320Rn1、320Rn2、…、320Rnnそれぞれにおいて、画像の全体を対象として任意に設定した画素位置に従いサンプリング画素を選択しているが、これはこの例に限定されない。例えば、元画像320を分割した分割領域35内において任意に設定した画素位置に従いサンプリング画素を選択してもよい。
【0233】
(2-3-5.第5の変形例)
次に、第1の実施形態に係る第5の変形例について説明する。第1の実施形態の第5の変形例は、認識処理を行うためのサンプリング画素の画素位置の構成を、認識結果に応じて変更する例である。
【0234】
図28は、第1の実施形態の第5の変形例によるサブサンプリングを説明するための模式図である。
図28において、元画像320φ1、320φ2、320φ3および320φ4は、それぞれ行および列それぞれの方向に所定画素数おきに画素位置が選択された、サブサンプリングの1周期分の画像を模式的に示している。認識部220は、これら元画像320φ1、320φ2、320φ3および320φ4からそれぞれ選択されたサンプリング画素に基づき認識処理を実行する。
【0235】
認識部220は、元画像320φ1、320φ2、320φ3および320φ4に対する認識結果に基づき、撮像画像に対して注目領域を設定する。一例として、認識部220は、低い信頼度で対象物が認識された認識結果を得た場合、撮像画像において、当該対象物を含む所定範囲の領域を、注目領域として設定する。前処理部210は、この注目領域に対して、サンプリング画素の画素位置を設定する。
図28の例では、元画像320φ1、320φ2、320φ3および320φ4に対して注目領域が設定された各画像320Pt
1、320Pt
2、320Pt
3および320Pt
4それぞれに対し、サンプリング画素の画素位置Ptφ1、Ptφ2、Ptφ3およびPtφ4が設定されている。
【0236】
このとき、前処理部210は、間引きを行わず注目領域内の画素位置全てをサンプリング画素の画素位置として設定することができる。これに限らず、前処理部210は、注目領域に対して、元画像320φ1~320φ4に設定したサンプリング画素のサンプリング間隔より狭いサンプリング間隔で、サンプリング画素の画素位置を設定してもよい。さらに、前処理部210は、注目領域に対して、元画像320φ1~320φ4に設定したサンプリング画素のサンプリング間隔と同等のサンプリング間隔で、サンプリング画素の画素位置を設定してもよい。
【0237】
このように、第1の実施形態の第5の変形例では、元画像320φ1~320φ4に対する認識結果に基づき撮像画像に対して設定された注目領域に対して、サンプリング画素の画素位置を設定している。そのため、認識部220の負荷が軽減され、消費電力を抑制することが可能である。また、注目領域に対してより狭いサンプリング間隔でサンプリング画素の画素位置を設定することで、より高精度の認識結果を、より高速に取得することが可能となる。
【0238】
(2-3-6.第6の変形例)
次に、第1の実施形態の第6の変形例について説明する。第1の実施形態の第6の変形例は、1周期のサブサンプリングのそれぞれの位相において、撮像部1200による露出を制御する例である。
【0239】
図29は、第1の実施形態の第6の変形例による露出制御の例を示す模式図である。この例では、分割領域35(図示しない)を4画素×4画素のサイズとし、各分割領域35において、行および列それぞれの方向に1画素おきに間引きしたサブサンプリングを行うものとする。
図29のセクション(a)、(b)、(c)および(d)は、それぞれ第1位相のサブサンプリングを行う元画像320Expφ1、第2の位相のサブサンプリングを行う元画像320Expφ2、第3の位相のサブサンプリングを行う元画像320Expφ4、および、第4の位相のサブサンプリングを行う元画像320Expφ4、をそれぞれ示している。
【0240】
ここで、前処理部210は、各元画像320Expφ1、320Expφ2、320Expφ3および320Expφ4に対して、順次、直前の元画像よりも短い露出時間を設定する。このように、1周期分のサブサンプリングにおいて、各元画像320Expφ1、320Expφ2、320Expφ3および320Expφ4に対して異なる露出時間を設定することで、輝度に対するダイナミックレンジを広げることができる。
【0241】
(2-3-7.第7の変形例)
次に、第1の実施形態の第7の変形例について説明する。第1の実施形態の第7の変形例は、1周期のサブサンプリングのそれぞれの位相において、撮像部1200による画素信号に対するアナログゲインを制御する例である。例えば、前処理部210は、互いに位相の異なるサブサンプリングを行う各元画像320の画素信号を画素アレイ部1001から読み出す際に、サブサンプリングの位相毎に異なるアナログゲインを撮像部1200に設定する。
【0242】
撮像部1200において、制御部1100は、設定されたアナログゲインを示す情報をAD変換部1003に渡す。AD変換部1003は、このアナログゲインを示す情報に応じて、AD変換部1003に含まれる各AD変換器1007に垂直信号線VSLを介して入力される画素信号のゲインを制御する。
【0243】
このように、1周期分のサブサンプリングにおいて、サブサンプリングの位相が互いに異なる各元画像320に対して異なるアナログゲインを設定することで、輝度に対するダイナミックレンジを広げることができる。
【0244】
なお、上述した第1の実施形態の第6の変形例と、この第1の実施形態の第7の変形例とでは、元画像320の輝度の制御を、露出時間とアナログゲインとの何れで行うかが異なる。ここで、輝度の制御を露出時間により行う場合、露出時間を長くすると、高輝度に元画像320を取得できると共に、取得された元画像320のノイズを抑制することが可能である。一方で、露出時間を長く取ることで、元画像320におけるブラーが多くなる。
【0245】
これに対して、輝度の制御をアナログゲインにより行う場合、アナログゲインを上げて明るい元画像320を取得する場合でも、元画像320におけるブラーは、変化しない。一方で、アナログゲインを上げると、高輝度の元画像320が取得できるが、ノイズが増加する。
【0246】
したがって、第1の実施形態の第6の変形例と、第1の実施形態の第7の変形例とは、目的に応じて使い分けると好ましい。例えば、動的なシーンに対する認識処理を行う場合には、高輝度の元画像320を得るために、アナログゲインを上げ、ブラーの発生を抑える。また、静的なシーンに対する認識処理を行う場合には、高輝度の元画像320を得るために、露出時間を長くし、ノイズの発生を抑える。
【0247】
[3.第2の実施形態]
次に、本開示の第2の実施形態について説明する。本開示の第2の実施形態は、画素アレイ部1001を含むセンサ部10bと、認識部220と、前処理部210に相当する構成と、を層構造のCISに一体的に組み込んだ例である。
【0248】
(3-1.第2の実施形態に係る構成例)
図30は、第2の実施形態に係る情報処理装置の一例の構成を示すブロック図である。
図30において、情報処理装置1cは、センサ部10cと、認識部220と、を含む。また、センサ部10cは、画素アレイ部1001と、読出制御部230と、を含む。読出制御部230は、例えば、第1の実施形態で説明した前処理部210に対応する機能と、撮像部1200における制御部1100の機能と、を含む。
【0249】
なお、
図30において、
図5を用いて説明した構成のうち、垂直走査部1002、AD変換部1003および信号処理部1101は、画素アレイ部1001に含まれるものとして説明を行う。
【0250】
読出制御部230は、画素アレイ部1001に対して、画素信号を読み出す画素回路1000を指定する制御信号を供給する。例えば、読出制御部230は、画素アレイ部1001に対して、画素信号を読み出すラインを指定することができる。これに限らず、読出制御部230は、画素アレイ部1001に対して、画素回路1000単位で、画素信号を読み出す画素回路1000を指定することもできる。このとき、読出制御部230は、画素アレイ部1001に対して、第1の実施形態で説明した、位相ずらしサブサンプリングによるサンプリング画素の画素位置に対応する画素回路1000を指定することができる。
【0251】
画素アレイ部1001は、指定された画素回路1000から読み出した画素信号をデジタル方式の画素データに変換し、この画素データを読出制御部230に渡す。読出制御部230は、画素アレイ部1001から渡された、1フレーム分の画素データを、画像データとして認識部220に渡す。この画像データは、位相ずらしサブサンプリングによるサンプリング画像である。認識部220は、渡された画像データに対して認識処理を実行する。
【0252】
第2の実施形態では、情報処理装置1cを、
図6Aを用いて説明した、半導体チップを2層に積層した2層構造の積層型CISにより構成することができる。
図6Aを参照し、第1層の半導体チップに画素部2020aを形成し、第2層の半導体チップにメモリ+ロジック部2020bを形成している。画素部2020aは、少なくとも情報処理装置1cにおけるセンサ部10cを含む。メモリ+ロジック部2020bは、例えば、画素アレイ部1001を駆動するための駆動回路を含むと共に、読出制御部230と、認識部220と、を含む。メモリ+ロジック部2020bに、フレームメモリをさらに含ませることができる。
【0253】
別の例として、情報処理装置1cを、
図6Bを用いて説明した、半導体チップを3層に積層した3層構造の積層型CISにより構成することができる。この場合、第1層の半導体チップに上述の画素部2020aを形成し、第2層の半導体チップに例えばフレームメモリを含むメモリ部2020cを形成し、第3層の半導体チップに上述のメモリ+ロジック部2020bに対応するロジック部2020dを形成している。この場合、ロジック部2020dは、例えば画素アレイ部を駆動するための駆動回路と、読出制御部230と、認識部220と、を含む。また、メモリ部2020cは、フレームメモリやメモリ1202を含むことができる。
【0254】
次に、第2の実施形態に係る認識処理を実現するためのより具体的な構成例について説明する。
図31は、第2の実施形態に係る読み出しおよび認識処理の制御を示す一例のタイムチャートである。
図31の各部の意味は、上述した
図14と同等なので、ここでの説明を省略する。
【0255】
また、以下では、
図11のセクション(b)を用いて説明したように、サブサンプリングの単位となる分割領域35を、4画素×4画素からなる領域とし、行および列それぞれの方向に1画素おきに間引きをしてサンプリング画素を選択するものとする。さらに、フレーム#1の撮像画像は、第1の位相によるサブサンプリングの対象とされ、フレーム#2の撮像画像は、第2の位相によるサブサンプリングの対象とされ、フレーム#3の撮像画像は、第3の位相によるサブサンプリングの対象とされ、フレーム#4の撮像画像は、第4の位相によるサブサンプリングの対象とされる。
【0256】
第2の実施形態では、読出制御部230は、各フレーム#1~#4の撮像処理において、サンプリング画素が含まれるラインを選択的に読み出す。例えば、フレーム#1では分割領域35の左上画素を基点としてサンプリング画素を選択し、フレーム#2では分割領域35の左上画素に隣接する画素を基点としてサンプリング画素を選択している。換言すれば、フレーム上端のラインを第1ラインとした場合、フレーム#1および#2では、奇数番目のラインを選択的に読み出し、フレーム#3および#4では、偶数番目のラインを選択的に読み出す。
【0257】
例えばフレーム#1において、読出制御部230は、読み出した各ラインの画素データから、サンプリング画素の画素データを選択し、選択された画素データによりサンプリング画像36φ1を生成する(ステップS10a)。読出制御部230は、生成したサンプリング画像36φ1を認識部220に渡す。認識部220は、読出制御部230から渡されたサンプリング画像36φ1に基づき認識処理を実行し(ステップS11、ステップS12、ステップS13)、認識結果φ1を出力する。
【0258】
以降、フレーム#2、#3および#4においても同様にして、読出制御部230は、読み出した各ラインの画素データから選択したサンプリング画素によりサンプリング画像36φ2、36φ3および36φ4を生成する(ステップS10b、ステップS10cおよびステップS10d)。認識部220は、読出制御部230により生成されたサンプリング画像36φ2、36φ3および36φ4に基づき認識処理を実行し(ステップS11、ステップS12、ステップS13)、認識結果φ2、認識結果φ3および認識結果φ4を出力する。
【0259】
また、認識部220は、第1の実施形態と同様にして、認識処理によりサンプリング画像36φ1~36φ4からそれぞれ抽出した特徴量を順次に統合する。認識部220は、統合された特徴量を用いて、サンプリング画像36φ1~36φ4に基づく認識結果φ1~φ4をそれぞれ出力する。すなわち、各フレーム#1~#4に基づく認識処理による各認識結果φ1~φ4の情報量は、認識処理を重ねる毎に多くなり、得られる認識結果が、認識処理毎により詳細となっていく。
【0260】
このように、第2の実施形態では、センサ部10cにおいてサブサンプリング処理を行っている。そのため、画素アレイ部1001に含まれる全画素回路1000からの読み出しを行う必要が無い。したがって、認識処理の遅延を、上述した第1の実施形態に対してさらに短縮することが可能である。また、全画素回路1000からサンプリング画素を含むラインの画素回路1000を選択的に読み出すため、画素アレイ部1001からの画素信号の読み出し量を低減でき、バス幅を削減することが可能である。
【0261】
また、第2の実施形態では、画素アレイ部1001においてライン間引きにより各画素回路1000の読み出しを行っている。そのため、ローリングシャッタによる撮像画像の歪みを低減することができる。また、画素アレイ部1001における撮像時の消費電力を低減させることが可能である。さらに、サブサンプリングにより間引きされたラインにおいて、例えば露出などの撮像条件を、サブサンプリングにより読み出しを行うラインに対して変更して撮像を行うことも可能である。
【0262】
(3-2.第2の実施形態の応用例)
次に、第2の実施形態の認識処理の応用例について説明する。
【0263】
(3-2-1.第1の応用例)
第1の応用例は、4K解像度画像などよる高解像度の撮像画像に対する認識処理への応用である。
図32は、第2の実施形態の第1の応用例を説明するための模式図である。4K解像度画像は、
図32の左側に1920画素×1080画素の画像(HD画像と呼ぶ)を、右側に4096画素×2160画素の4K解像度画像を、それぞれ模式的に示している。4K解像度画像は、HD画像に対して行および列それぞれの方向に2倍の画素数を有し、画素数がHD画像の4倍とされる。
【0264】
第2の実施形態では、センサ部10cの内部において、画素アレイ部1001からの画素信号の読み出し時にサブサンプリング処理の少なくとも一部を行うため、1フレームにおいて扱うデータ量が少なくて済む。また、認識部220は、サブサンプリング処理による各サンプリング画像に基づき、フレーム毎に認識処理を実行する。そのため、撮像画像に対して高い同時性で認識結果を得ることが可能である。さらに、認識部220は、フレーム間で特徴量を順次に統合するため、4K解像度画像を有効に活用した、より高精度の認識結果を得ることが可能である。
【0265】
(3-2-2.第2の応用例)
第2の応用例は、サブサンプリングにより低解像度化されたサンプリング画像に対する認識処理への応用である。ここでは、第2の応用例として、UI(User Interface)と、そのUIによるUX(User Experience)の向上について説明する。
図33は、第2の実施形態の第2の応用例を説明するための模式図である。
図33の左側は、既存技術のうち、撮像画像を縮小せずに用いる例によるUI、右側は第2の実施形態に係るUIをそれぞれ模式的に示している。なお、上述もしたが、第2の実施形態に係る認識処理では、特徴量をフレーム毎に順次に統合することで、撮像画像を縮小せずに用いて認識処理を行った場合と同等の解像度で、認識結果を得ることが可能である。
【0266】
既存技術によれば、
図20を用いて説明したように、あるフレームの認識結果を得るために、複数フレーム分の時間を要する。そのため、認識結果が複数フレーム毎に更新されることになる。これは、フレーム間における操作が困難であることを意味し、UXとしては好ましくないと考えられる。これに対して、第2の実施形態では、サブサンプリングされたサンプリング画像に基づき、低解像度ではあるが、認識結果をフレーム毎に更新することが可能である。したがって、フレーム間における操作が容易であり、UXとして好ましいと考えられる。これにより、第2の実施形態に係る認識処理に係るUIのUXを、撮像画像を縮小せずに用いる既存技術によるUIに対して向上させることが可能である。
【0267】
なお、この第2の応用例は、第2の実施形態のみならず、上述した第1の実施形態およびその各変形例にも適用可能なものである。
【0268】
(3-2-3.第3の応用例)
第3の応用例は、データ転送および消費電力の低減に対する応用例である。
図34は、第2の実施形態の第3の応用例を説明するための模式図である。
図34のセクション(a)は、既存技術のうち、撮像画像を縮小せずに用いる認識処理を行う情報処理装置1c’の構成例を模式的に示している。セクション(b)は、第2の実施形態に係る情報処理装置1cの構成例を模式的に示している。なお、これら情報処理装置1cおよび1c’は、同一サイズの撮像画像を認識処理の対象としているものとする。
【0269】
なお、ここでは、第2の実施形態に係る情報処理装置1cにおいては、
図11のセクション(b)を用いて説明したように、サブサンプリングの単位となる分割領域35を、4画素×4画素からなる領域とし、行および列それぞれの方向に1画素おきに間引きをしてサンプリング画素を選択するものとする。さらに、フレーム#1~#4の各撮像画像は、それぞれ第1の位相、第2の位相、第3の位相および第4の位相によるサブサンプリングの対象とされる。
【0270】
図34のセクション(a)に示す、撮像画像を縮小せずに用いる情報処理装置1c’の例では、1フレームの撮像画像に対する認識処理において、センサ部10c’から認識部220に対して、1フレームに含まれる全ての画素データが転送される。
【0271】
一方、
図34のセクション(b)に示す、第2の実施形態に係る情報処理装置1cでは、1フレームの撮像画像に対する認識処理において、1フレームに対して間引きして選択された画素位置の画素データのみが転送される。例えば、
図11のセクション(b)に示す、分割領域35を4画素×4画素のサイズとし、この分割領域35に対し、行および列それぞれの方向に1画素おきに間引きするサブサンプリングを行う場合、1フレーム当たりに転送される画素データは、セクション(a)の場合の1/4となる。
【0272】
このように、第2の実施形態に係る情報処理装置1cでは、撮像画像を縮小せずに認識処理に用いる情報処理装置1c’と比較して、センサ部10cから認識部220に転送される画素データ量が少なくて済み、バス幅を削減できると共に、認識部220のフレーム当たりの処理量が削減され、低消費電力化が可能となる。
【0273】
一方、第2の実施形態に係る情報処理装置1cに対して、例えば
図34のセクション(a)に示す撮像画像を縮小せずに用いる情報処理装置1c’と同等の電力を供給可能な場合、
図34のセクション(c)に示されるように、複数の情報処理装置1cを並列的に動作させることが可能となる。
【0274】
[4.第3の実施形態]
次に、本開示の第3の実施形態について説明する。第3の実施形態は、上述した第2の実施形態に係る情報処理装置1cにおける、センサ部10cと認識部220とを分離した例である。
【0275】
図35は、第3の実施形態に係る情報処理装置の一例の構成を示すブロック図である。
図35において、情報処理装置1dは、センサ部10dと、認識処理部20dと、を含む、センサ部10dは、画素アレイ部1001と、読出制御部230と、を含む。また、認識処理部20dは、認識部220を含む。
【0276】
ここで、センサ部10dは、例えば、
図6Aを用いて説明した、半導体チップを2層に積層した2層構造の積層型CISにより形成する。
図6Aを参照し、第1層の半導体チップに画素部2020aを形成し、第2層の半導体チップにメモリ+ロジック部2020bを形成している。画素部2020aは、少なくともセンサ部10dにおける画素アレイ部1001を含む。メモリ+ロジック部2020bは、例えば、画素アレイ部1001を駆動するための駆動回路と、読出制御部230とを含む。メモリ+ロジック部2020bに、フレームメモリをさらに含ませることができる。
【0277】
センサ部10dは、サンプリング画像の画像データを読出制御部230から出力し、センサ部10dとは異なるハードウェアに含まれる認識処理部20dに供給する。認識処理部20dは、センサ部10dから供給された画像データを認識部220に入力する。認識部220は、入力された画像データに基づき認識処理を実行し、認識結果を外部に出力する。
【0278】
別の例として、センサ部10dを、
図6Bを用いて説明した、半導体チップを3層に積層した3層構造の積層型CISにより形成することができる。この場合、第1層の半導体チップに上述の画素部2020aを形成し、第2層の半導体チップに例えばフレームメモリを含むメモリ部2020cを形成し、第3層の半導体チップに上述のメモリ+ロジック部2020bに対応するロジック部2020bを形成している。この場合、ロジック部2020bは、例えば画素アレイ部1001を駆動するための駆動回路と、読出制御部230とを含む。また、メモリ部2020cは、フレームメモリやメモリ1202を含むことができる。
【0279】
このように、認識処理部20d(認識部220)をセンサ部10dとは別のハードウェアにより構成することで、認識部220の構成、例えば認識モデルなどの変更が容易とすることができる。
【0280】
また、センサ部10dにおいて、サブサンプリングされたサンプリング画像に基づき認識処理が行われるため、撮像画像による画像データ32をそのまま用いて認識処理を行う場合と比較して、認識処理の負荷を軽減することができる。そのため、例えば認識処理部20dにおいて、処理能力の低いCPU、DSP、あるいはGPUを用いることができ、情報処理装置1dのコストを削減することが可能となる。
【0281】
[5.第4の実施形態]
次に、本開示の第4の実施形態について説明する。上述した第1の実施形態~第3の実施形態では、1つの画像データ32に対して1回のサブサンプリングを行うように説明したが、これはこの例に限定されない。第4の実施形態は、1つの画像データ32に対して複数回のサブサンプリングを行う例である。
【0282】
なお、第3の実施形態では、上述した第1の実施形態およびその各変形例による情報処理装置1b、第2の実施形態による情報処理装置1cおよび第3の実施形態による情報処理装置1dの何れも適用可能である。以下では、第4の実施形態に対して、
図9に示した情報処理装置1bを適用したものとして説明を行う。
【0283】
図36は、第4の実施形態に係る認識処理におけるサブサンプリング処理について説明するための模式図である。ここでは、説明のため、
図36のセクション(b)に示すように、上述した
図13Aのセクション(b)と同様にしてサブサンプリングを行うものとする。すなわち、2画素×2画素の領域とした各分割領域35において、左上の画素位置を原点の座標[0,0]とし、右上、左下および右下の画素位置を、それぞれ座標[1,0][0,1]および[1,1]とする。
【0284】
また、画素300のサンプリングは、各分割領域35において、右下の画素位置[1,1]を基点として、座標[1,1]、[1,0]、[0,1]、[0,0]の順に行う。また、各座標[1,1]、[1,0]、[0,1]、[0,0]を基点とするサブサンプリングにより取得されたサンプリング画素によるサンプリング画像を、それぞれ位相[1,1]のサンプリング画像、位相[1,0]のサンプリング画像、位相[0,1]のサンプリング画像、位相[0,0]のサンプリング画像、などと呼ぶ。
【0285】
図36のセクション(a)において、画像データ32aが最も新しい時間Tの画像[T]であり、画像データ32bは、画像データ32aの直前のフレームの、時間T-1における画像[T-1]である。以下、各時間における画像を、時間Tにおける画像[T](画像データ32a)で代表させて説明を行う。
【0286】
前処理部210は、1つの画像データ32aに対して、位置を周期的にずらしながらサブサンプリングを実行する(ステップS10a~ステップS10d)。例えば、前処理部210は、画像データ32aが取得されてから次の画像データが取得されるまでの1フレーム期間の間に、座標[1,1]、[1,0][0,1]および[0,0]を基点とするサブサンプリングを順次、実行し、位相[1,1]のサンプリング画像、位相[1,0]のサンプリング画像、位相[0,1]のサンプリング画像、位相[0,0]のサンプリング画像、をそれぞれ取得する。
【0287】
認識部220は、位相[1,1]のサンプリング画像、位相[1,0]のサンプリング画像、位相[0,1]のサンプリング画像、位相[0,0]のサンプリング画像のそれぞれに対して特徴量抽出を行い(ステップS11)、特徴量50a、50b、50cおよび50dを抽出する。
【0288】
認識部220は、画像データ32aから抽出された各特徴量50a、50b、50cおよび50dの統合処理を行い(ステップS12)、各特徴量50a、50b、50cおよび50dが統合された特徴量に基づき認識処理を行う(ステップS13)。
【0289】
このように、1つの画像データ32aに対して位相をずらしてサブサンプリングした各位相のサンプリング画像に対して特徴量抽出処理を行うことで、統合された特徴量に基づく認識処理を、より高速に実行することができる。
【0290】
ここで、上述では、2画素×2画素を含む分割領域35において、全ての位相[1,1]、[1,0][0,1]および[0,0]に対するサブサンプリングを行うことで、1枚の画像データ32aの全体に対する認識処理を行っている。これはこの例に限定されず、各位相[1,1]、[1,0][0,1]および[0,0]のうち特定の位相について選択的にサブサンプリングを行ってもよい。
【0291】
例えば、各位相[1,1]、[1,0][0,1]および[0,0]のうち、対角に位置する位相[1,1]および[0,0]のみに対してサブさんグリングを行い、取得された位相[1,1]および[0,0]の各サンプリング画像の特徴量をそれぞれ抽出して認識処理を行う。これにより、特徴量抽出および人初期処理の処理量を低減させることができ、認識処理部20bにおける消費電力を抑制することができる。
【0292】
また、例えば、各位相[1,1]、[1,0][0,1]および[0,0]のうち1つ(例えば位相[1,1])についてサブサンプリングを行って得られた特徴量に基づき認識処理を行った結果を、速報結果として出力することができる。この場合、速報結果を出力した後、他の位相(例えば[1,0][0,1]および[0,0])に対するサブサンプリングを実行し、各[1,1]、[1,0][0,1]および[0,0]による特徴量を統合した特徴量に基づき認識処理を行い、認識結果を出力する。
【0293】
またこの場合において、速報結果にて十分な認識結果が得られれば、後段の処理(他の位相によるサブサンプリング、特徴量抽出など)を省略することも可能である。この場合には、速報結果の出力後に即座に次の画像データに対する処理を開始することができ、よりフレームレートを高速化することが可能となる。
【0294】
[6.第5の実施形態]
(6-1.本開示の技術の適用例)
次に、第5の実施形態として、本開示に係る、第1の実施形態およびその各変形例、第2の実施形態、第3の実施形態、ならびに、第4の実施形態に係る情報処理装置1b、1cおよび1dの適用例について説明する。
図37は、第1の実施形態およびその各変形例、第2の実施形態、第3の実施形態、ならびに、第4の実施形態に係る情報処理装置1b、1cおよび1dを使用する使用例を示す図である。なお、以下では、特に区別する必要のない場合、情報処理装置1b、1cおよび1dを情報処理装置1bで代表させて説明を行う。
【0295】
上述した情報処理装置1aは、例えば、以下のように、可視光や、赤外光、紫外光、X線等の光をセンシングしセンシング結果に基づき認識処理を行う様々なケースに使用することができる。
【0296】
・ディジタルカメラや、カメラ機能付きの携帯機器等の、鑑賞の用に供される画像を撮影する装置。
・自動停止等の安全運転や、運転者の状態の認識等のために、自動車の前方や後方、周囲、車内等を撮影する車載用センサ、走行車両や道路を監視する監視カメラ、車両間等の測距を行う測距センサ等の、交通の用に供される装置。
・ユーザのジェスチャを撮影して、そのジェスチャに従った機器操作を行うために、TVや、冷蔵庫、エアーコンディショナ等の家電に供される装置。
・内視鏡や、赤外光の受光による血管撮影を行う装置等の、医療やヘルスケアの用に供される装置。
・防犯用途の監視カメラや、人物認証用途のカメラ等の、セキュリティの用に供される装置。
・肌を撮影する肌測定器や、頭皮を撮影するマイクロスコープ等の、美容の用に供される装置。
・スポーツ用途等向けのアクションカメラやウェアラブルカメラ等の、スポーツの用に供される装置。
・畑や作物の状態を監視するためのカメラ等の、農業の用に供される装置。
【0297】
(6-2.移動体への適用例)
本開示に係る技術(本技術)は、様々な製品へ応用することができる。例えば、本開示に係る技術は、自動車、電気自動車、ハイブリッド電気自動車、自動二輪車、自転車、パーソナルモビリティ、飛行機、ドローン、船舶、ロボット等のいずれかの種類の移動体に搭載される装置として実現されてもよい。
【0298】
図38は、本開示に係る技術が適用され得る移動体制御システムの一例である車両制御システムの概略的な構成例を示すブロック図である。
【0299】
車両制御システム12000は、通信ネットワーク12001を介して接続された複数の電子制御ユニットを備える。
図38に示した例では、車両制御システム12000は、駆動系制御ユニット12010、ボディ系制御ユニット12020、車外情報検出ユニット12030、車内情報検出ユニット12040、及び統合制御ユニット12050を備える。また、統合制御ユニット12050の機能構成として、マイクロコンピュータ12051、音声画像出力部12052、及び車載ネットワークI/F(interface)12053が図示されている。
【0300】
駆動系制御ユニット12010は、各種プログラムにしたがって車両の駆動系に関連する装置の動作を制御する。例えば、駆動系制御ユニット12010は、内燃機関又は駆動用モータ等の車両の駆動力を発生させるための駆動力発生装置、駆動力を車輪に伝達するための駆動力伝達機構、車両の舵角を調節するステアリング機構、及び、車両の制動力を発生させる制動装置等の制御装置として機能する。
【0301】
ボディ系制御ユニット12020は、各種プログラムにしたがって車体に装備された各種装置の動作を制御する。例えば、ボディ系制御ユニット12020は、キーレスエントリシステム、スマートキーシステム、パワーウィンドウ装置、あるいは、ヘッドランプ、バックランプ、ブレーキランプ、ウィンカー又はフォグランプ等の各種ランプの制御装置として機能する。この場合、ボディ系制御ユニット12020には、鍵を代替する携帯機から発信される電波又は各種スイッチの信号が入力され得る。ボディ系制御ユニット12020は、これらの電波又は信号の入力を受け付け、車両のドアロック装置、パワーウィンドウ装置、ランプ等を制御する。
【0302】
車外情報検出ユニット12030は、車両制御システム12000を搭載した車両の外部の情報を検出する。例えば、車外情報検出ユニット12030には、撮像部12031が接続される。車外情報検出ユニット12030は、撮像部12031に車外の画像を撮像させるとともに、撮像された画像を受信する。車外情報検出ユニット12030は、受信した画像に基づいて、人、車、障害物、標識又は路面上の文字等の物体検出処理又は距離検出処理を行ってもよい。
【0303】
撮像部12031は、光を受光し、その光の受光量に応じた電気信号を出力する光センサである。撮像部12031は、電気信号を画像として出力することもできるし、測距の情報として出力することもできる。また、撮像部12031が受光する光は、可視光であっても良いし、赤外線等の非可視光であっても良い。
【0304】
車内情報検出ユニット12040は、車内の情報を検出する。車内情報検出ユニット12040には、例えば、運転者の状態を検出する運転者状態検出部12041が接続される。運転者状態検出部12041は、例えば運転者を撮像するカメラを含み、車内情報検出ユニット12040は、運転者状態検出部12041から入力される検出情報に基づいて、運転者の疲労度合い又は集中度合いを算出してもよいし、運転者が居眠りをしていないかを判別してもよい。
【0305】
マイクロコンピュータ12051は、車外情報検出ユニット12030又は車内情報検出ユニット12040で取得される車内外の情報に基づいて、駆動力発生装置、ステアリング機構又は制動装置の制御目標値を演算し、駆動系制御ユニット12010に対して制御指令を出力することができる。例えば、マイクロコンピュータ12051は、車両の衝突回避あるいは衝撃緩和、車間距離に基づく追従走行、車速維持走行、車両の衝突警告、又は車両のレーン逸脱警告等を含むADAS(Advanced Driver Assistance System)の機能実現を目的とした協調制御を行うことができる。
【0306】
また、マイクロコンピュータ12051は、車外情報検出ユニット12030又は車内情報検出ユニット12040で取得される車両の周囲の情報に基づいて駆動力発生装置、ステアリング機構又は制動装置等を制御することにより、運転者の操作に拠らずに自律的に走行する自動運転等を目的とした協調制御を行うことができる。
【0307】
また、マイクロコンピュータ12051は、車外情報検出ユニット12030で取得される車外の情報に基づいて、ボディ系制御ユニット12020に対して制御指令を出力することができる。例えば、マイクロコンピュータ12051は、車外情報検出ユニット12030で検知した先行車又は対向車の位置に応じてヘッドランプを制御し、ハイビームをロービームに切り替える等の防眩を図ることを目的とした協調制御を行うことができる。
【0308】
音声画像出力部12052は、車両の搭乗者又は車外に対して、視覚的又は聴覚的に情報を通知することが可能な出力装置へ音声及び画像のうちの少なくとも一方の出力信号を送信する。
図38の例では、出力装置として、オーディオスピーカ12061、表示部12062及びインストルメントパネル12063が例示されている。表示部12062は、例えば、オンボードディスプレイ及びヘッドアップディスプレイの少なくとも一つを含んでいてもよい。
【0309】
図39は、撮像部12031の設置位置の例を示す図である。
【0310】
図39では、車両12100は、撮像部12031として、撮像部12101,12102,12103,12104,12105を有する。
【0311】
撮像部12101,12102,12103,12104,12105は、例えば、車両12100のフロントノーズ、サイドミラー、リアバンパ、バックドア及び車室内のフロントガラスの上部等の位置に設けられる。フロントノーズに備えられる撮像部12101及び車室内のフロントガラスの上部に備えられる撮像部12105は、主として車両12100の前方の画像を取得する。サイドミラーに備えられる撮像部12102,12103は、主として車両12100の側方の画像を取得する。リアバンパ又はバックドアに備えられる撮像部12104は、主として車両12100の後方の画像を取得する。撮像部12101及び12105で取得される前方の画像は、主として先行車両又は、歩行者、障害物、信号機、交通標識又は車線等の検出に用いられる。
【0312】
なお、
図39には、撮像部12101ないし12104の撮影範囲の一例が示されている。撮像範囲12111は、フロントノーズに設けられた撮像部12101の撮像範囲を示し、撮像範囲12112,12113は、それぞれサイドミラーに設けられた撮像部12102,12103の撮像範囲を示し、撮像範囲12114は、リアバンパ又はバックドアに設けられた撮像部12104の撮像範囲を示す。例えば、撮像部12101ないし12104で撮像された画像データが重ね合わせられることにより、車両12100を上方から見た俯瞰画像が得られる。
【0313】
撮像部12101ないし12104の少なくとも1つは、距離情報を取得する機能を有していてもよい。例えば、撮像部12101ないし12104の少なくとも1つは、複数の撮像素子からなるステレオカメラであってもよいし、位相差検出用の画素を有する撮像素子であってもよい。
【0314】
例えば、マイクロコンピュータ12051は、撮像部12101ないし12104から得られた距離情報を基に、撮像範囲12111ないし12114内における各立体物までの距離と、この距離の時間的変化(車両12100に対する相対速度)を求めることにより、特に車両12100の進行路上にある最も近い立体物で、車両12100と略同じ方向に所定の速度(例えば、0km/h以上)で走行する立体物を先行車として抽出することができる。さらに、マイクロコンピュータ12051は、先行車の手前に予め確保すべき車間距離を設定し、自動ブレーキ制御(追従停止制御も含む)や自動加速制御(追従発進制御も含む)等を行うことができる。このように運転者の操作に拠らずに自律的に走行する自動運転等を目的とした協調制御を行うことができる。
【0315】
例えば、マイクロコンピュータ12051は、撮像部12101ないし12104から得られた距離情報を元に、立体物に関する立体物データを、2輪車、普通車両、大型車両、歩行者、電柱等その他の立体物に分類して抽出し、障害物の自動回避に用いることができる。例えば、マイクロコンピュータ12051は、車両12100の周辺の障害物を、車両12100のドライバが視認可能な障害物と視認困難な障害物とに識別する。そして、マイクロコンピュータ12051は、各障害物との衝突の危険度を示す衝突リスクを判断し、衝突リスクが設定値以上で衝突可能性がある状況であるときには、オーディオスピーカ12061や表示部12062を介してドライバに警報を出力することや、駆動系制御ユニット12010を介して強制減速や回避操舵を行うことで、衝突回避のための運転支援を行うことができる。
【0316】
撮像部12101ないし12104の少なくとも1つは、赤外線を検出する赤外線カメラであってもよい。例えば、マイクロコンピュータ12051は、撮像部12101ないし12104の撮像画像中に歩行者が存在するか否かを判定することで歩行者を認識することができる。かかる歩行者の認識は、例えば赤外線カメラとしての撮像部12101ないし12104の撮像画像における特徴点を抽出する手順と、物体の輪郭を示す一連の特徴点にパターンマッチング処理を行って歩行者か否かを判別する手順によって行われる。マイクロコンピュータ12051が、撮像部12101ないし12104の撮像画像中に歩行者が存在すると判定し、歩行者を認識すると、音声画像出力部12052は、当該認識された歩行者に強調のための方形輪郭線を重畳表示するように、表示部12062を制御する。また、音声画像出力部12052は、歩行者を示すアイコン等を所望の位置に表示するように表示部12062を制御してもよい。
【0317】
以上、本開示に係る技術が適用され得る車両制御システムの一例について説明した。本開示に係る技術は、以上説明した構成のうち、撮像部12031および車外情報検出ユニット12030に適用され得る。具体的には、例えば、情報処理装置1bのセンサ部10bを撮像部12031に適用し、認識処理部20bを車外情報検出ユニット12030に適用する。認識処理部20bから出力された認識結果は、例えば通信ネットワーク12001を介して統合制御ユニット12050に渡される。
【0318】
このように、本開示に係る技術を撮像部12031および車外情報検出ユニット12030に適用することで、近距離の対象物の認識と、遠距離の対象物の認識とをそれぞれ実行できると共に、近距離の対象物の認識を高い同時性で行うことが可能となるため、より確実な運転支援が可能となる。
【0319】
なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
【0320】
なお、本技術は以下のような構成も取ることができる。
(1)
画素によって構成される撮像情報が分割された分割領域毎に、サンプリング画素を取得するための画素位置を設定する設定部と、
前記サンプリング画素により構成されるサンプリング画像の特徴量を算出する算出部と、
前記サンプリング画像の前記特徴量に基づき認識処理を行い、認識処理結果を出力する認識部と、
を備え、
前記設定部は、
前記撮像情報のうち、第1の撮像情報と、時系列で該第1の撮像情報の次に取得される第2の撮像情報と、で異なる前記画素位置を設定する、
情報処理装置。
(2)
前記認識部は、
前記第1の撮像情報に設定された前記サンプリング画素と、前記第2の撮像情報に設定された前記サンプリング画素と、を用いたRNN(Recurrent Neural Network)により機械学習処理を実行し、該機械学習処理の結果に基づき前記認識処理を行う、
前記(1)に記載の情報処理装置。
(3)
前記設定部は、
前記画素位置を、前記撮像情報の取得に応じて前記分割領域内を一定の周期で巡回するように設定する、
前記(1)または(2)に記載の情報処理装置。
(4)
前記設定部は、
前記画素位置を、前記撮像情報の取得に応じて前記分割領域内に対して任意に設定する、
前記(1)または(2)に記載の情報処理装置。
(5)
前記設定部は、
前記画素位置を、外部からの指示に基づき、前記撮像情報の取得に応じて前記分割領域内に設定する、
前記(1)または(2)に記載の情報処理装置。
(6)
前記設定部は、
前記画素位置として、前記分割領域に含まれる全ての画素位置を、時系列上で連なる複数の前記撮像情報を跨いで設定する、
前記(1)乃至(5)の何れかに記載の情報処理装置。
(7)
前記設定部は、
前記画素位置として、前記撮像情報に含まれる全ての画素位置を、時系列上で連なる複数の前記撮像情報を跨いで設定する、
前記(1)乃至(6)の何れかに記載の情報処理装置。
(8)
前記算出部が算出した前記特徴量を蓄積する蓄積部をさらに備え、
前記認識部は、
前記蓄積部に蓄積された前記特徴量の少なくとも一部に基づき前記認識処理を行い前記認識処理結果を出力する、
前記(1)乃至(7)の何れかに記載の情報処理装置。
(9)
前記認識部は、
前記蓄積部に蓄積された複数の前記特徴量を統合した特徴量に基づき前記認識処理を行う、
前記(8)に記載の情報処理装置。
(10)
前記認識部は、
前記撮像情報の取得に応じて前記算出部により算出された前記特徴量を、該取得の直前までに前記蓄積部に蓄積された特徴量の少なくとも一部の特徴量と統合し、統合された特徴量に基づき前記認識処理を行う、
前記(8)に記載の情報処理装置。
(11)
前記認識部は、
前記蓄積部に蓄積された前記特徴量のうち、所定の条件に応じて選択された特徴量に基づき前記認識処理を行う、
前記(8)乃至(10)の何れかに記載の情報処理装置。
(12)
前記認識部は、
前記蓄積部に蓄積された前記特徴量のうち、時系列で新しい特徴量に基づき前記認識処理を行う、
前記(11)に記載の情報処理装置。
(13)
前記認識部は、
前記蓄積部に蓄積された前記特徴量のうち、所定の条件に対応する特徴量を破棄する、
前記(8)乃至(12)の何れかに記載の情報処理装置。
(14)
前記認識部は、
前記分割領域それぞれの前記画素位置に対応する前記画素毎の教師データに基づき、前記サンプリング画像の前記特徴量に対する前記認識処理を行う、
前記(1)乃至(13)の何れかに記載の情報処理装置。
(15)
前記設定部は、
前記認識部による前記認識処理に応じて、該認識処理を行った前記サンプリング画像を構成する前記画素位置が設定された第1のパターンとは異なる第2のパターンで、前記特徴量を算出するための前記画素位置を設定する、
前記(1)乃至(14)の何れかに記載の情報処理装置。
(16)
前記設定部は、
前記第1の撮像情報を取得する際の露出条件と、前記第2の撮像情報を取得する際の露出条件と、を異ならせる、
前記(1)乃至(15)の何れかに記載の情報処理装置。
(17)
プロセッサにより実行される、
画素によって構成される撮像情報が分割された分割領域毎に、サンプリング画素を取得するための画素位置を設定する設定ステップと、
前記サンプリング画素により構成されるサンプリング画像の特徴量を算出する算出ステップと、
前記サンプリング画像の前記特徴量に基づき認識処理を行い、認識処理結果を出力する認識ステップと、
を有し、
前記設定ステップは、
前記撮像情報のうち、第1の撮像情報と、時系列で該第1の撮像情報の次に取得される第2の撮像情報と、で異なる前記画素位置を設定する、
情報処理方法。
(18)
画素によって構成される撮像情報が分割された分割領域毎に、サンプリング画素を取得するための画素位置を設定する設定ステップと、
前記サンプリング画素により構成されるサンプリング画像の特徴量を算出する算出ステップと、
前記サンプリング画像の前記特徴量に基づき認識処理を行い、認識処理結果を出力する認識ステップと、
をコンピュータに実行させ、
前記設定ステップは、
前記撮像情報のうち、第1の撮像情報と、時系列で該第1の撮像情報の次に取得される第2の撮像情報と、で異なる前記画素位置を設定する、
ための情報処理プログラム。
【符号の説明】
【0321】
1a,1b,1c,1d 情報処理装置
10a,10b,10c,10d センサ部
20a,20b,20d 認識処理部
30a,30b 撮像画像
32,32a,32a’,32b,32c,32d 画像データ
35,35’ 分割領域
36,36φ1,36φ1’,36φ2,36φ3,36φ4,36φx サンプリング画像
40,60,61,62,63,64,65,66,70,71 認識結果
41,42,43,44 対象物
50a,50a’,50b,50c,50d 特徴量
210 前処理部
211 読出部
212 利用領域取得部
220 認識部
221 特徴量算出部
222 特徴量蓄積制御部
223 特徴量蓄積部
224 利用領域決定部
225 認識処理実行部
230 読出制御部
300 画素
3101,3102,3103,3104,3105,3106,3107,3108,3109 撮像画像
320,320Expφ1,320Expφ2,320Expφ3,320Expφ4,320Rn1,320Rn2,320Rnn,320φ1,320φ2,320φ3,320φ4 元画像
321,321a,321b,321c,321d 縮小画像
1000 画素回路
1001 画素アレイ部
1200 撮像部
1202 メモリ
1203 DSP
1205 CPU