IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エージェント ビデオ インテリジェンス リミテッドの特許一覧

特許7255819映像ストリームからの物体検出において用いるためのシステム及び方法
<>
  • 特許-映像ストリームからの物体検出において用いるためのシステム及び方法 図1
  • 特許-映像ストリームからの物体検出において用いるためのシステム及び方法 図2
  • 特許-映像ストリームからの物体検出において用いるためのシステム及び方法 図3
  • 特許-映像ストリームからの物体検出において用いるためのシステム及び方法 図4
  • 特許-映像ストリームからの物体検出において用いるためのシステム及び方法 図5A
  • 特許-映像ストリームからの物体検出において用いるためのシステム及び方法 図5B
  • 特許-映像ストリームからの物体検出において用いるためのシステム及び方法 図6A
  • 特許-映像ストリームからの物体検出において用いるためのシステム及び方法 図6B
  • 特許-映像ストリームからの物体検出において用いるためのシステム及び方法 図6C
  • 特許-映像ストリームからの物体検出において用いるためのシステム及び方法 図6D
  • 特許-映像ストリームからの物体検出において用いるためのシステム及び方法 図6E
  • 特許-映像ストリームからの物体検出において用いるためのシステム及び方法 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-04-03
(45)【発行日】2023-04-11
(54)【発明の名称】映像ストリームからの物体検出において用いるためのシステム及び方法
(51)【国際特許分類】
   G06T 7/11 20170101AFI20230404BHJP
【FI】
G06T7/11
【請求項の数】 12
(21)【出願番号】P 2021523133
(86)(22)【出願日】2019-07-03
(65)【公表番号】
(43)【公表日】2021-11-18
(86)【国際出願番号】 IL2019050736
(87)【国際公開番号】W WO2020008459
(87)【国際公開日】2020-01-09
【審査請求日】2022-06-29
(31)【優先権主張番号】260438
(32)【優先日】2018-07-05
(33)【優先権主張国・地域又は機関】IL
【早期審査対象出願】
(73)【特許権者】
【識別番号】521005797
【氏名又は名称】エージェント ビデオ インテリジェンス リミテッド
【氏名又は名称原語表記】AGENT VIDEO INTELLIGENCE LTD.
(74)【代理人】
【識別番号】110001302
【氏名又は名称】弁理士法人北青山インターナショナル
(72)【発明者】
【氏名】アシャニ,ズヴィカ
【審査官】片岡 利延
(56)【参考文献】
【文献】特開2017-107407(JP,A)
【文献】特開2012-234494(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/11
(57)【特許請求の範囲】
【請求項1】
画像データストリームの処理に用いるための方法において、
関心領域を示す画像データ断片の少なくとも1つのシーケンスを備える入力データを提供することと、
1つ以上の前景ピクセル領域を検出するために1つ以上の画像フレームを処理することと、
隣接する前景ピクセルを収集し、且つ、前記関心領域内の1つ以上の疑わしい前景物体に関連付けられる1つ以上のブロブを特定することと、
前記ブロブのクラスターを備える対応画像部分を形成する隣接ブロブをクラスター化することと、
1つ以上のブロブを選択し、且つ、1つ以上の疑わしい前景物体を示す画像部分を生成し、並びに、1つ以上の前景物体及び対応する1つ以上の物体分類を検出するために前記1つ以上の画像部分を処理することと、
前記画像データストリームの1つ以上のフレーム画像において検出される1つ以上の物体に対する分類確率を備える出力データを生成することと、
を含み、
前景ピクセル領域の全てを共にカバーする幾つかの画像部分の総数が、所定の画像領域閾値を超えないことで、計算の複雑さを低減して物体検出を可能にすることを特徴とする方法。
【請求項2】
請求項1に記載の方法において、前記物体分類を検出するために前記1つ以上の画像部分を処理することは、前記1つ以上の検出された物体に対する物体位置及び分類データを提供するために、画像部分内の物体を検出することが可能な1つ以上の物体検出技術を利用することを含むことを特徴とする方法。
【請求項3】
請求項2に記載の方法において、前記1つ以上の検出された物体に対する物体分類データを提供するために、画像部分内の物体を検出するためのニューラルネットワーク処理トポロジーを利用することを更に含むことを特徴とする方法。
【請求項4】
請求項1に記載の方法において、前記画像データストリームは、関心領域の所定の視野を有する前記関心領域の連続映像の1つ以上のシーケンスを備えることを特徴とする方法。
【請求項5】
請求項1に記載の方法において、前記1つ以上の前景ピクセル領域の検出は、少なくとも2つの連続する画像フレーム間のピクセル変動を特定するために前記少なくとも2つの連続する画像フレームを処理することを含むことを特徴とする方法。
【請求項6】
請求項1に記載の方法において、前記1つ以上の前景ピクセル領域の検出は、選択された画像フレームと、1つ以上の前のフレームに従って特定される背景モデルとの間の関係を特定することを含むことを特徴とする方法。
【請求項7】
コンピュータソフトウェアであって、1つ以上のプロセッサによって実行される場合に、前記プロセッサに画像データストリームを含む入力データを処理させて、それによって、
関心領域の連続する画像フレーム断片の少なくとも1つのシーケンスを備える入力データを受信し、
1つ以上の前景ピクセル領域を検出するために1つ以上の画像フレームを処理し、
隣接する前景ピクセルを収集し、且つ、前記関心領域内の1つ以上の疑わしい前景物体に関連付けられる1つ以上のブロブを特定し、
前記ブロブのクラスターを備える対応画像部分を形成する隣接ブロブをクラスター化し、
1つ以上のブロブのクラスターを選択し、且つ、1つ以上の疑わしい前景物体を示す画像部分を生成し、並びに、1つ以上の前景物体及び対応する1つ以上の物体分類を検出するために前記1つ以上の画像部分を処理し、
前記画像データストリームの1つ以上のフレーム画像において検出される1つ以上の物体に対する分類確率を備える出力データを生成し、
前景ピクセル領域の全てを共にカバーする幾つかの画像部分の総数が、所定の画像領域閾値を超えないことで、計算の複雑さを低減して物体検出を可能にする、
コンピュータ読取可能コードを備えるコンピュータ読取可能媒体に埋め込まれるコンピュータソフトウェア。
【請求項8】
物体検出の場合に用いるシステムにおいて、前記システムは、通信モジュール、ストレージユニット、及び処理ユーティリティを備え、連続する画像フレームの少なくとも1つのシーケンスを備える画像データストリームを備える入力データを処理するために構成され、前記処理ユーティリティは、
前記画像データストリームの1つ以上のフレームを受信し、及び、1つ以上のフレームを処理して1つ以上の前景ピクセル領域を特定し、
隣接する前景ピクセルを収集するために前記1つ以上の前景ピクセル領域を処理し、且つ、1つ以上の疑わしい前景物体に関連付けられる1つ以上のブロブを特定し、
1つ以上のブロブに関するデータを収集し、隣接ブロブをクラスター化して、前記ブロブのクラスターを備える対応画像部分を形成し、1つ以上のブロブのクラスターを選択し、且つ、1つ以上の疑わしい前景物体を示す画像部分を生成し、
前記画像部分内の物体を検出するために前記1つ以上の画像部分を処理し、且つ、1つ以上の検出された物体の位置及び分類を備える対応物体データを特定するように構成された少なくとも1つのプロセッサを備え、
前記少なくとも1つのプロセッサは、それによって、前記画像データストリームの1つ以上のフレーム画像において検出される1つ以上の物体に対する分類確率を備える出力データを生成し、
前記隣接ブロブをクラスター化することは、前景ピクセル領域の全てを共にカバーする画像部分の総数を特定することを備え、前記総数は、所定の画像領域閾値を超えないことを特徴とするシステム。
【請求項9】
請求項8に記載のシステムにおいて、前記画像部分内の物体を検出することは、1つ以上の検出された物体に対する物体分類データを提供するために画像部分内の物体を検出することが可能な1つ以上の物体検出技術を利用するために構成される1つ以上のニューラルネットワークを動作させることを備えることを特徴とするシステム。
【請求項10】
請求項8に記載のシステムにおいて、前記画像データストリームは、関心領域の所定の視野を有する前記関心領域の連続映像の1つ以上のシーケンスを備えることを特徴とするシステム。
【請求項11】
請求項8に記載のシステムにおいて、前記1つ以上の前景ピクセル領域を特定することは、前記連続する画像フレーム間のピクセル変動を特定するために少なくとも2つの連続する画像フレームを処理することを備えることを特徴とするシステム。
【請求項12】
請求項8に記載のシステムにおいて、前記1つ以上の前景ピクセル領域を特定することは、1つ以上の画像フレーム間のピクセル変動を特定するために前記1つ以上の画像フレーム及び前記ストレージユニットに格納された背景モデルデータを処理することを備えることを特徴とするシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、入力画像データにおける物体検出に関し、特に高解像度映像データにおける物体検出に関する。
【背景技術】
【0002】
映像分析は、所望の情報に対する映像データの自動分析を可能にする処理技術に関している。映像分析の重要な役割は、映像データ内の事象又は物体の分類及び1つ以上の選択した関心パラメータに基づく物体又は事象の検出に関している。
【0003】
映像分析技術は、小売店における顧客の活動を分析するために用いられてもよく、製品配置の良好な理解につながる。映像分析の追加の用途は、セキュリティカメラ、交通管制、小売管理、及び人又は物体の行動に関するデータが必要とされるその他の用途に関連付けられてもよい。
【0004】
画像データ内の物体の検出及び分類には様々な技法がある。かかる技術は、1つ以上の画像内の物体を識別するための選択されたコンピューティングアルゴリズム及びトポロジーを利用し、検出された物体を特定の確率まで分類するよう動作する。最近開発された深層学習技術及び深層畳み込みネットワークにより、物体検出用途における大幅な進歩が可能になる。これらの技法は、画像から物体を区別するため且つ検出された物体に対するクラス確率を特定するために、訓練されたニューラルネットワークを利用している。
【発明の概要】
【0005】
映像処理及び分析における最大の課題の幾つかは、計算効率に関している。映像品質の向上に伴い、より高いフレームレートと解像度との間で、略リアルタイムの処理を提供するニーズがより多く求められている。4Kの解像度を有する映像データが現在では標準となっており、8K以上を含むより高い画像解像度が通常のフォーマットになりつつある。これには、必要な処理サイクル数が画像内のピクセル数に略比例して増加するため、物体検出のためにより大きな処理能力が必要となる。
【0006】
本発明は、画像データストリーム、特に映像データにおける効率的な物体検出を可能にする新規の技術を利用している。発明の技術は、画像データストリームの異なるフレームにおける前景ピクセルの検出を利用し、関連する物体の出現に対する確率が高い選択された画像部分を特定する。これにより、選択した画像部分に関する物体検出を実行して、処理した各画像フレーム内の様々な物体を検出し、物体分類確率データを提供することが可能となる。これにより、物体検出のために処理される画像の面積が削減され、入力データの特定の画像解像度に対する処理を高速化することが可能となる。
【0007】
より詳細には、本技術は、概して画像フレーム(例えば、映像データを形成し、本明細書中で画像データ断片とも称する)の少なくとも1つのシーケンスの形態で入力データを処理するために動作し、ここで画像フレームの各シーケンスは、選択した情景(関心領域)を示す。物体検出を提供するために、本技術は、画像データ断片(画像フレーム)の少なくとも一部を処理するために動作してもよく、例えば、技術は、全てのフレームに対して、又はそれらの間で選択された時間差を有するフレームに対して処理(例えば、1秒間に2つのフレームに対する処理)を適用してもよい。処理は、1つ以上の前景ピクセル領域の検出、対応するフレーム内の疑わしい物体に関連付けられる1つ以上のブロブを形成するようピクセル領域の収集を含む。更に、1つ以上のブロブが選択され、技術は、選択されたブロブを含むフレームのクロッピングされた領域である、対応する1つ以上の画像部分を生成する。これにより、物体検出処理が適用される入力データのフレームよりも小さい1つ以上の画像部分が提供される。従って、技術は、このように、画像内の1つ以上の物体を識別し、検出された物体の分類確率を提供してもよい。出力データは、分類確率を示すテキストと共に検出された物体を示す、対応する画像上のマーキングレイヤの形態で生成されてもよい。
【0008】
物体検出処理は、一般に、前景抽出等の単純なタスクと比較して、より複雑な処理を含む可能性があることに留意すべきである。より詳細には、幾つかの実施形態において、前景抽出は、2つの連続する画像の一方を他方から減算することによって単純に実行され、差が前景ピクセルとして選択した閾値を超えるピクセルをマークしてもよい。これは、物体検出処理が、通常、より複雑(最大で数桁)である一方で、より高い処理能力(処理サイクル等)を必要とする。従って、技術は、関連する物体が出現する可能性がある画像領域の初期検出を利用する処理におけるデータ量の低減により、より複雑な物体検出処理タスクのためにピクセル領域の量を低減することを可能にする。
【0009】
従って、広い態様によれば、本発明は、画像データストリームの処理に用いるための方法を提供し、方法は、関心領域を示す画像データ断片の少なくとも1つのシーケンスを備える入力データを提供することと、1つ以上の前景ピクセル領域を検出するために1つ以上の画像フレームを処理することと、隣接する前景ピクセルを収集し、且つ、関心領域内の1つ以上の疑わしい前景物体に関連付けられる1つ以上のブロブを特定することと、1つ以上のブロブを選択し、且つ、1つ以上の疑わしい前景物体を示す画像部分を生成し、並びに、1つ以上の前景物体及び対応する1つ以上の物体分類を検出するために前記1つ以上の画像部分を処理することと、前記画像データストリームの1つ以上のフレーム画像において検出される1つ以上の物体に対する分類確率を備える出力データを生成することと、を含む。
【0010】
幾つかの実施形態によれば、1つ以上のブロブを選択することは、1つ以上のブロブに関するデータを収集し、且つ、前記ブロブのクラスターを備える対応画像部分を形成する隣接ブロブをクラスター化することを含んでいてもよい。隣接ブロブをクラスター化することは、前景ピクセル領域の全てを共にカバーする幾つかの画像部分が所定の画像領域閾値を超えないことを低減するよう用いられてもよい。
【0011】
幾つかの実施形態によれば、前記物体分類を検出するために前記1つ以上の画像部分を処理することは、1つ以上の検出された物体に対する物体位置及び分類データを提供するために、画像部分内の物体を検出することが可能な1つ以上の物体検出技術を利用することを含んでいてもよい。方法は、1つ以上の検出された物体に対する物体分類データを提供するために、画像部分内の物体を検出するためのニューラルネットワーク処理トポロジーを利用することを更に含んでいてもよい。
【0012】
幾つかの実施形態によれば、前記画像データストリームは、関心領域の所定の視野を有する関心領域の連続映像の1つ以上のシーケンスを備える。
【0013】
幾つかの実施形態によれば、前記1つ以上の前景ピクセル領域の検出は、連続する画像フレーム間のピクセル変動を特定するために少なくとも2つの連続する画像フレームを処理することを含む。
【0014】
幾つかの実施形態によれば、前記1つ以上の前景ピクセル領域の検出は、選択された画像フレームと、1つ以上の前のフレームに従って特定される背景モデルとの間の関係を特定することを含む。
【0015】
他の1つの広い態様によれば、本発明は、ソフトウェア製品であって、1つ以上のプロセッサによって実行される場合に、プロセッサに入力データを処理させて、それによって、関心領域の連続する画像フレーム断片の少なくとも1つのシーケンスを備える入力データを受信し、1つ以上の前景ピクセル領域を検出するために1つ以上の画像フレームを処理し、隣接する前景ピクセルを収集し、且つ、関心領域内の1つ以上の疑わしい前景物体に関連付けられる1つ以上のブロブを特定し、1つ以上のブロブを選択し、且つ、1つ以上の疑わしい前景物体を示す画像部分を生成し、並びに、1つ以上の前景物体及び対応する1つ以上の物体分類を検出するために前記1つ以上の画像部分を処理し、前記画像データストリームの1つ以上のフレーム画像において検出される1つ以上の物体に対する分類確率を備える出力データを生成する、コンピュータ読取可能コードを備えるコンピュータ読取可能媒体に埋め込まれるソフトウェア製品を提供する。
【0016】
更に別の広い態様によれば、本発明は、物体検出の場合に用いるシステムであって、システムは、通信モジュール、ストレージユニット、及び処理ユーティリティを備え、連続する画像フレームの少なくとも1つのシーケンスを備える画像データストリームを備える入力データを処理するために構成され、前記処理ユーティリティは、前記画像データストリームの1つ以上のフレームを受信するため、及び、1つ以上の前景ピクセル領域を特定するために構成される前景抽出モジュールと、前景ピクセル領域に関するデータを受信するため、及び、隣接する前景ピクセルを収集し、且つ、1つ以上の疑わしい前景物体に関連付けられる1つ以上のブロブを特定するために構成されるブロブ生成モジュールと、1つ以上のブロブを選択し、且つ、1つ以上の疑わしい前景物体を示す画像部分を生成するために構成される画像クロッピングモジュールと、1つ以上の画像部分を受信するため、及び、前記画像部分内の検出物体に対する1つ以上の画像部分を処理し、且つ、1つ以上の検出された物体の位置及び分類を備える対応物体データを特定するために構成される物体検出モジュールと、を備える少なくとも1つのプロセッサを備え、前記少なくとも1つのプロセッサは、それによって、前記画像データストリームの1つ以上のフレーム画像において検出される1つ以上の物体に対する分類確率を備える出力データを生成する、システムを提供する。
【0017】
幾つかの実施形態によれば、画像クロッピングモジュールは、1つ以上のブロブに関するデータを収集し、且つ、前記ブロブのクラスターを備える対応画像部分を形成する隣接ブロブをクラスター化するために構成されてもよい。
【0018】
幾つかの実施形態によれば、画像クロッピングモジュールは、隣接ブロブをクラスター化して、前景ピクセル領域の全てを共にカバーする幾つかの画像部分が所定の画像領域閾値を超えないことを提供するために構成されてもよい。
【0019】
幾つかの実施形態によれば、物体検出モジュールは、1つ以上の検出された物体に対する物体分類データを提供するために画像部分内の物体を検出することが可能な1つ以上の物体検出技術を利用するために構成される1つ以上のニューラルネットワークモジュールを備えていてもよい。
【0020】
幾つかの実施形態によれば、画像データストリームは、関心領域の所定の視野を有する関心領域の連続映像の1つ以上のシーケンスを備えていてもよい。
【0021】
幾つかの実施形態によれば、前景抽出モジュールは、連続する画像フレーム間のピクセル変動を特定するために少なくとも2つの連続する画像フレームを処理するために構成されてもよい。
【0022】
幾つかの実施形態によれば、前景抽出モジュールは、前記1つ以上の画像フレーム間のピクセル変動を特定するために1つ以上の画像フレーム及び前記ストレージユニットに格納された背景モデルデータを処理するために構成されてもよい。
【0023】
また、発明によるシステムは、適切にプログラムされたコンピュータであってもよいと理解されたい。同様に、発明は、発明の方法を実行するためにコンピュータによって読取可能であるコンピュータプログラムを意図している。発明は、更に、発明の方法を実行するために機械によって実行可能な命令のプログラムを明白に具現化する機械読取可能メモリを意図している。
【0024】
更に別の広い態様によれば、本発明は、画像データストリームの処理に用いるための方法を実行するよう、機械によって実行可能な命令のプログラムを具現化する機械によって読取可能なプログラムストレージデバイスであって、方法は、
関心領域を示す画像データ断片の少なくとも1つのシーケンスを備える入力データを提供することと、
1つ以上の前景ピクセル領域を検出するために1つ以上の画像フレームを処理することと、
隣接する前景ピクセルを収集し、且つ、関心領域内の1つ以上の疑わしい前景物体に関連付けられる1つ以上のブロブを特定することと、
1つ以上のブロブを選択し、且つ、1つ以上の疑わしい前景物体を示す画像部分を生成し、並びに、1つ以上の前景物体及び対応する1つ以上の物体分類を検出するために前記1つ以上の画像部分を処理することと、
前記画像データストリームの1つ以上のフレーム画像において検出される1つ以上の物体に対する分類確率を備える出力データを生成することと、を含む、
プログラムストレージデバイスを提供する。
【0025】
追加の実施形態によれば、本発明は、画像データストリームの処理に用いるためにその内部で具現化されるコンピュータ読取可能プログラムコードを有するコンピュータ使用可能媒体を備えるコンピュータプログラム製品であって、
コンピュータに、関心領域を示す画像データ断片の少なくとも1つのシーケンスを備える入力データを提供させるためのコンピュータ読取可能プログラムコードと、
コンピュータに、1つ以上の前景ピクセル領域を検出するために1つ以上の画像フレームを処理させるためのコンピュータ読取可能プログラムコードと、
コンピュータに、隣接する前景ピクセルを収集させ、且つ、関心領域内の1つ以上の疑わしい前景物体に関連付けられる1つ以上のブロブを特定させるためのコンピュータ読取可能プログラムコードと、
コンピュータに、1つ以上のブロブを選択させ、且つ、1つ以上の疑わしい前景物体を示す画像部分を生成させ、並びに、1つ以上の前景物体及び対応する1つ以上の物体分類を検出するために前記1つ以上の画像部分を処理させるためのコンピュータ読取可能プログラムコードと、
コンピュータに、前記画像データストリームの1つ以上のフレーム画像において検出される1つ以上の物体に対する分類確率を備える出力データを生成させるためのコンピュータ読取可能プログラムコードと、を備える、
コンピュータプログラム製品を提供する。
【0026】
上に示したプログラムコード及びコンピュータ読取可能命令は、上に示したように、本文書全体を通して、画像データストリームの処理に用いるための方法に関連付けられる選択された1つ以上の操作を実施してもよいことに留意されたい。
【0027】
この文書中で開示される主題をより良く理解し、それがどのように実際に行われてもよいかを例示するために、実施形態を、非限定的な実施例のみを用いて、添付図面を参照してここで説明する。
【図面の簡単な説明】
【0028】
図1図1は、発明の幾つかの実施形態による物体検出のための画像データ断片の処理を示す。
図2図2は、発明の幾つかの実施形態による物体検出のためのシステムを略図で示す。
図3図3は、本発明の幾つかの実施形態による、選択された情景を撮影し、技術を例示するために用いられるフレームを示す。
図4図4は、図3に示される画像及び対応する背景モデルに基づいて特定される前景ピクセルマップを示す。
図5図5A及び5Bは、画像データにおいて検出ブロブに関連付けられる画像部分を例示し、図5Aは、選択した閾値を超える検出ブロブの画像部分を示し、図5Bは、発明の幾つかの実施形態による処理を簡略化するためのブロブの収集後の画像部分を示す。
図6図6A-6Eは、図5Bに示すような疑わしい物体の画像部分を示す。
図7図7は、検出され、分類された物体を示す情景の画像及び追加データレイヤを含む出力画像データを例示する。
【発明を実施するための形態】
【0029】
本発明は、計算複雑性の低減により、画像データストリーム、例えば映像データにおける物体検出を可能にする新規の技術を提供する。これにより、高解像度映像データに関するリアルタイム又は略リアルタイムの物体検出が可能になり、様々な物体の位置及びその分類に関する極めて価値の高い情報を提供することが可能になる。
【0030】
図1を参照して、入力画像データストリームにおける物体検出のための本技術を説明するフロー図を示す。示すように、本技術は、画像データ断片の1つ以上のシーケンス(例えば、映像入力)1010の形態における入力データを提供又は受信することを含んでいる。一般に、リアルタイム(又は略リアルタイム)で操作される場合、キャプチャデータのフレーム1020を示す各画像データ断片は、対応する時間に受信されてもよい一方で、技術はフレームの処理のために操作され、追加のフレームがカメラによってキャプチャされて映像を形成する。画像フレームを処理する場合、本技術は、フレーム内の初期前景抽出1030を利用する。より詳細には、前景抽出は、現在のフレームと、前のフレームとの比較、又はアクセス可能なストレージユーティリティ内に格納される別個に生成された背景フレームとの比較を利用して、物体の移動を示すピクセル領域を特定してもよい。前景抽出は画像の低下させた解像度を利用して特定されてもよく、即ち、物体の動きは、通常、画像内に1画素を超えるものを含むと仮定して、前景抽出の目的のために、4、9、16、又は25画素毎に1つが用いられてもよいことに留意されたい。近傍の前景ピクセルは、フレーム内の可能性のある物体に関連付けられるブロブ1040を形成するために収集される。これらのブロブは、関連する物体が現れる可能性があり、従って、物体検出処理が集中すべきであるのが好ましいフレームの領域を表している。
【0031】
一般に、ブロブは、任意の数の前景ピクセルの収集に基づいて検出されてもよい。しかし、情景の大きさ及び視野によっては、小さなブロブは、葉又は枝の動き等のような関連する物体に関係のない様々な動きに関連付けられる可能性がある。従って、選択した閾値よりも小さい大きさに関連付けられたブロブは、更なる処理から除外され、環境ノイズとしてマークされる可能性がある。環境ノイズデータは、必要に応じて、完全性及び分析のために保存されてもよいことに留意されたい。
【0032】
検出された前景ブロブに基づいて可能性のある物体を処理するために、技術は、それぞれが可能性のある物体の1つ以上のブロブを取り囲む1つ以上の画像部分への画像フレームのクロッピング1050を利用する。一般に、技術は、以下で更に説明するように、選択された数の画像部分を可能にしてもよい。従って、ブロブの数が画像部分の選択数よりも多い場合、近傍のブロブを共に収集して、2つ以上の可能性のある物体に関連付けられる画像部分を形成してもよい。この段階において、物体検出処理技術は、その内部の可能性のある物体の存在、位置、及びクラスを特定するために、異なる画像部分に対して操作される1060。更に、適切な出力データは、例えば、恐らくクラスと必要に応じて追加データとを含む、検出された物体に対する境界ボックスの形で提供される1070。
【0033】
これに関連して、本発明の技術は、少なくとも1つのプロセッサ、ストレージ/メモリユーティリティ、及び入力/出力モジュールを有するコンピュータシステムを用いて操作されてもよい。コンピュータシステムは、1つ以上のカメラユニットによって送信され、関心領域を示す入力画像データ断片に応答してもよい。本発明の幾つかの実施形態によるシステム100を略図で示す図2を参照する。システム100は、例えば、1つ以上のプロセッサ、ストレージユニット600、並びに入力及び出力通信モジュール210及び220をそれぞれ含む、処理ユーティリティ500を含む。システム100は、選択された1つ以上の関心領域の画像ストリーム(例えば、映像データ)を提供する1つ以上のカメラユニット150に接続可能である。一般に、システム100は、リアルタイム又は略リアルタイムで、即ち2秒未満の僅かな遅延で画像データストリームを処理するために構成されてもよいか、又は格納した画像データストリームを処理するために動作してもよい。
【0034】
処理ユーティリティ500は、通常、本技術の対応する処理タスクを実行するよう構成される幾つかのソフトウェア又はハードウェアモジュールを含んでいてもよい。より詳細には、処理ユーティリティ500は、前景抽出モジュール510、ブロブ生成モジュール520、画像クロッピングモジュール530、及び物体検出モジュール540を含んでいてもよい。処理ユーティリティ500はまた、場合によっては、中間処理タスクのために構成される1つ以上の追加モジュールを含んでいてもよい。
【0035】
通常、システム100は、リアルタイム処理のために、収集した画像データをフレーム毎に受信してもよい。従って、入力画像データ、即ちキャプチャしたフレームを受信すると、前景抽出モジュール510は、フレーム内の1つ以上の前景ピクセル領域を特定するために構成されている。前景抽出モジュールは、異なるフレーム間の変動を示すピクセル領域を特定するために、ストレージユニット600内に格納された前のフレーム又は選択された背景フレーム/モデルを取得してもよい。より詳細には、連続するフレーム間の差を特定することにより、フレーム間を移動する物体に関連付けられるピクセル領域は、ゼロ以外の差を提供して、前景抽出モジュール510が、異なるフレーム間の選択された閾値より大きい差を示すピクセルに基づいてバイナリ前景ピクセルマップを特定することを可能にしている。かかる前景ピクセルマップは、領域又は関心の中で移動している可能性のある物体に指標を提供し、それは適切に識別及び分類するよう物体検出技術を用いて検出されるべきであるのが好ましい。
【0036】
かかる前景抽出技術は、一般に、関連するフレーム間を移動している物体に関連付けられた領域を識別し、信号機で停止している車等の現在静止している物体に関連付けられた領域を無視する可能性があることに留意すべきである。しかし、かかる静止物体はより早い時間に現在の場所に到着したため、その時点で検出されている。以下で更に説明するように、本技術は、検出した物体に関するデータをストレージユニット600に格納し、物体が移動しない場合、追加処理を必要とせずに、物体及び対応する画像領域に関する物体分類を維持することを利用してもよい。
【0037】
前景抽出モジュール510は、検出した前景ピクセル領域に関するデータをブロブ生成モジュール520に送信するよう構成される。ブロブ生成モジュール520は、前景ピクセルのブロブを生成するために隣接する前景ピクセルを収集するために動作してもよい。一般に、かかるブロブは、前景ピクセルの集合から形成されているものとして、画像データ内の可能性のある物体の指標として用いられる。ブロブ生成モジュール520は、画像データ内に現れるような様々な物体の大きさに従って選択されてもよい所定の閾値よりも小さいブロブを除去又は無視してもよい。追加として又は代替として、ブロブ生成モジュール520は、2つ以上の可能性のある物体に関連付けられるブロブのクラスターを形成する前景ピクセルのクラスターを共に収集してもよい。これは、本明細書中に以下で説明するような画像クロッピングのためのブロブの収集の代替例として、ブロブの総数を維持するために、又は高感度を必要とし、高い前景ノイズに悩まされる可能性がある構成において用いられてもよい。ブロブ生成モジュールは更に、対応する画像部分を生成するために、検出したブロブに関するデータを画像クロッピングモジュール530に送信する。
【0038】
画像クロッピングモジュール530は、ブロブ生成モジュール520によって検出された1つ以上のブロブに関連付けられる1つ以上の画像部分を生成するために動作する。画像部分は、概して、処理中のフレームのクロッピングされた領域であり、検出される可能性のある1つ以上の物体の画像データを提供する。通常、画像クロッピングモジュールは、所定の閾値を超えない幾つかの画像部分、例えば、最大10個、又は最大7個、又は最大5個の画像部分を生成するために構成される。これは、ブロブの総数を維持するためにブロブを共にクラスター化するためのブロブ生成モジュール520の動作に関連付けられてもよい。従って、幾つかの構成において、画像クロッピングモジュール530は、近傍のブロブを収集して対応する共通画像部分を形成するか、又はブロブ生成モジュール520によって収集されたブロブのクラスターに関連付けられる画像部分を生成してもよい。
【0039】
より詳細には、ブロブの数が画像部分に対する閾値よりも大きい場合、ブロブ生成モジュール520、画像クロッピングモジュール530、又はその両方は、フレーム内で比較的近い2つ以上のブロブを、共通画像部分内の共通ブロブクラスターに収集してもよい。かかる画像部分は、可能性のある物体に関連付けられる2つ以上のブロブを効果的に表している。
【0040】
この目的を達成するために、物体検出モジュール540は、物体検出処理のために1つ以上の画像部分を受信するために構成される。物体検出モジュール540は、1つ以上のニューラルネットワーク処理モジュール、又は当該技術分野において公知のような物体検出及び分類のための画像データを処理することができる他の処理アーキテクチャを含んでいてもよい。
【0041】
一般に、関心領域から取られる典型的な情景に対して、画像部分の総ピクセル数は、画像フレーム内の総ピクセル数の1%~50%を占めてもよい。混雑した街路又は渋滞等のような、関心領域が大量の移動物体に関する幾つかの場合において、画像部分の総面積はフレームの50%を超えることがある。従って、処理ユーティリティは、場合によっては、マークした画像部分の面積比を特定してもよい。面積比が簡略化された計算のために所定の比を超えると特定された場合、処理ユーティリティは、前景抽出、ブロブ生成、及び画像クロッピングを省略し、処理を簡略化するために通常は解像度を低下させて、フレーム全体に物体検出処理を行うよう指示してもよい。
【0042】
更に、短期的な前景抽出、即ち、2つ以上の連続する画像フレーム間の変動に基づいて前景ピクセル領域を特定することにより、静止物体が無視される可能性がある。例えば、赤信号で停止している車両は、約1分以上動かない場合がある。この時間内に、車両は前景物体としてそれ以上処理されることはない。しかし、関心領域内を移動する物体を検出し、分類する場合、このデータは、ある一定時間に移動がない場合において、物体の位置に対して保持されてもよい。従って、検出され、分類された車両が移動を停止した場合でも、システムの出力表現データは、追加処理を行わずに、物体分類によってその最後の位置をマークしてもよい。これは、動かない物体は静止しており、その分類及び位置は変わらないという仮定に基づいている。
【0043】
本発明の幾つかの実施形態による、選択された中間処理動作に関連付けられる画像を示す図3~7を参照する。図3は、関心領域から得た画像フレームを示している。画像処理を簡略化するために、本技術は、一般に、白黒カラーでの画像データを利用してもよいが、カラー画像処理も用いてもよい(より計算量が多くなるかもしれないが)。図4は、図3に示す現在のフレームと、前のフレームに基づいて生成された背景モデル(背景フレーム)との差に従って特定される前景ピクセルマップを示している。従って、フレーム内の動きに関連付けられるピクセル領域のみが前景ピクセルとしてマークされている。このマップにおいて、前景ピクセルは暗い背景の上に白でマークされている。図5A及び5Bは、前景マップから特定された主要ブロブに関連付けられる画像領域を示している。図5Aは、特定された画像部分を示し、図5Bは、近傍ブロブを共通画像部分に収集することによって選択された収集画像部分を示す。図6A~6Eは、検出すべき可能性のある物体に関連付けられるクロッピングされた画像部分を示し、図7は、オーバーレイされた物体分類データを有する出力画像を例示している。本技術は、図6A~6Eに例示する異なる画像部分に適用される物体検出処理を利用して、これらの画像部分において検出された物体の位置及び分類を示す出力データを提供する。異なる物体を検出した後、関連する物体ラベルを変換して、フレーム全体に対する位置を示し、図7に例示するような出力表示を提供してもよい。
【0044】
図5Aにおいて、隣接する前景ピクセルは、共にグループ化されて、可能性のある物体に関連付けられるブロブを形成している。一般に、本技術は、所定の閾値(検出要件及びフレーム寸法に従って特定される)よりも小さいブロブの除去を利用してもよい。処理を更に最適化するために、本技術は、図5Bに例示するように近傍のブロブを収集してもよく、ここで図5Aの右上隅にある2つのマークしたブロブは、図5Bにおける共通画像部分に収集される。この集合は、処理するための画像部分の数を制限するよう提供されている。
【0045】
図5Bにおいてマークした画像部分は、1つ以上の物体検出処理技術を利用する更なる処理のために選択される。図6A~6Eは、選択された画像部分を示し、ここで各画像部分は、検出された前景ブロブに従って特定される1つ以上の可能性のある物体を含んでいる。通常、物体検出処理は、例えば、適切に訓練されたニューラルネットワークトポロジー又は任意の他の技術を含む、任意の公知の適切な技術を用いてもよい。この実施例において、物体検出は、64×64ピクセルの解像度で画像内の物体(人、車両)の検出及び分類のために訓練されたSSDネットワークアーキテクチャを利用している。選択された画像部分のみを処理し、概してフレーム面積の1%~50%を占めることによって、本技術は、物体検出処理を簡略化し、高解像度画像に対しても高速物体検出を提供することを可能にしている。上記のように、2つ以上のフレーム間で動いていない物体は、前景抽出において検出されない可能性があり、従って、追加処理を必要としない(物体ラベルは依然として出力データに表示される可能性がある)。
【0046】
より詳細には、本実施例において、物体検出のために処理されるピクセルの総数は、5×64×64=20480、即ち、それぞれ64×64の解像度における5つの画像部分である。画像データ全体に対する従来の物体検出処理は、例えば、1280×720の解像度の場合は1280×720=921600ピクセル、又はより高い解像度においてより高い数の処理を必要とする。従って、本技術は、処理速度において約45倍の改善を提供する可能性があり、一般に、本技術は、総ピクセル数の1%~50%の処理を可能にする。実際、本技術は、前景抽出及びブロブ収集等の追加の処理動作を必要とするが、これらの処理動作は比較的簡単である。一般に、本技術は、処理速度において10~20の係数で物体検出速度を向上させる可能性がある。
【0047】
例示的な出力フレームを図7に示し、検出された物体をマークし、対応する分類に関するデータを提供する追加の情報レイヤを有する元の入力画像データを示す。この実施例において、検出処理は、74%、82%、84%の分類確率を有する3人の人物と、99%の分類確率を有する1台の車両とを識別した。フレーム内で人間の眼に見える追加の車両は、これらの車両が前と現在のフレームとの間で動かなかったため、マークされておらず、従って、この処理段階において前景データとしてマークされていない。示したように、これらの物体は、静止物体が再度動くまでマークされない可能性がある選択された制限時間まで、前のフレームにおける検出を考慮してマークされる可能性がある。
【0048】
本技術は、可能性のある物体の検出のために収集されたフレームの前処理を提供し、可能性のある物体のみの検出及び分類のために物体検出技術を利用することに留意すべきであり、本明細書中に説明している。これにより、物体検出のために処理されるピクセルの総数を減らすことが可能となり、処理の複雑さを軽減しながら、高解像度映像データのリアルタイム処理が可能となる。
図1
図2
図3
図4
図5A
図5B
図6A
図6B
図6C
図6D
図6E
図7