IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アビジロン コーポレイションの特許一覧

特許7026062機械学習によってオブジェクト分類器を訓練するためのシステム及び方法
<>
  • 特許-機械学習によってオブジェクト分類器を訓練するためのシステム及び方法 図1A
  • 特許-機械学習によってオブジェクト分類器を訓練するためのシステム及び方法 図1B
  • 特許-機械学習によってオブジェクト分類器を訓練するためのシステム及び方法 図1C
  • 特許-機械学習によってオブジェクト分類器を訓練するためのシステム及び方法 図2
  • 特許-機械学習によってオブジェクト分類器を訓練するためのシステム及び方法 図3A
  • 特許-機械学習によってオブジェクト分類器を訓練するためのシステム及び方法 図3B
  • 特許-機械学習によってオブジェクト分類器を訓練するためのシステム及び方法 図4
  • 特許-機械学習によってオブジェクト分類器を訓練するためのシステム及び方法 図5
  • 特許-機械学習によってオブジェクト分類器を訓練するためのシステム及び方法 図6
  • 特許-機械学習によってオブジェクト分類器を訓練するためのシステム及び方法 図7A
  • 特許-機械学習によってオブジェクト分類器を訓練するためのシステム及び方法 図7B
  • 特許-機械学習によってオブジェクト分類器を訓練するためのシステム及び方法 図8
  • 特許-機械学習によってオブジェクト分類器を訓練するためのシステム及び方法 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-02-16
(45)【発行日】2022-02-25
(54)【発明の名称】機械学習によってオブジェクト分類器を訓練するためのシステム及び方法
(51)【国際特許分類】
   G06T 7/00 20170101AFI20220217BHJP
   G06T 7/194 20170101ALI20220217BHJP
【FI】
G06T7/00 350B
G06T7/194
【請求項の数】 17
(21)【出願番号】P 2018568468
(86)(22)【出願日】2017-03-14
(65)【公表番号】
(43)【公表日】2019-05-16
(86)【国際出願番号】 CA2017050334
(87)【国際公開番号】W WO2017156628
(87)【国際公開日】2017-09-21
【審査請求日】2020-03-05
(31)【優先権主張番号】62/309,777
(32)【優先日】2016-03-17
(33)【優先権主張国・地域又は機関】US
【前置審査】
(73)【特許権者】
【識別番号】511210637
【氏名又は名称】アビジロン コーポレイション
(74)【代理人】
【識別番号】100207837
【弁理士】
【氏名又は名称】小松原 寿美
(72)【発明者】
【氏名】シュリバスタバ アシシュ
【審査官】真木 健彦
(56)【参考文献】
【文献】特開2015-187759(JP,A)
【文献】特開2011-059810(JP,A)
【文献】特開2011-060221(JP,A)
【文献】米国特許出願公開第2015/0054824(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06T 1/00
H04N 7/18
H04N 5/222 - 5/257
G06N 3/00
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
コンピュータ履行型のオブジェクト分類器を訓練するための方法であって、
ビデオキャプチャデバイスの視野内のシーンのサブ領域内に最前面の視覚的オブジェクトを検出するステップと、
前記シーンの前記サブ領域の背景モデルを決定するステップであって、任意の最前面の視覚的オブジェクトが前記サブ領域から欠けている場合、前記背景モデルは前記サブ領域を表す、ステップと、
前記サブ領域の前記背景モデルを第1の否定的な訓練例として使用するコンピュータ履行型の機械学習によって、基礎オブジェクト分類器を第1のオブジェクト分類器に訓練するステップと、
前記第1のオブジェクト分類器は、現在のシーンに対して特に訓練され、前記現在のシーンが新しいシーンに変わることに際して、前記現在のシーンに特有の訓練無しに、前記基礎オブジェクト分類器に完全に戻すステップと、
前記新しいシーンからの背景モデルを使用した機械学習によって、前記基礎オブジェクト分類器を第2のオブジェクト分類器に訓練するステップと、
を備える、方法。
【請求項2】
請求項1に記載の方法であって、
前記基礎オブジェクト分類器を第2のオブジェクト分類器に訓練する前記ステップは、最前面の視覚的オブジェクトおよび前記新しいシーンからの前記背景モデルを肯定的な訓練例として使用するコンピュータ履行型の機械学習によって、前記オブジェクト分類器を訓練するステップを含む、方法。
【請求項3】
請求項1又は請求項2に記載の方法であって、
前記シーンの前記サブ領域の前記背景モデルを決定するステップは、
捕捉された履歴的画像フレームを選択するステップであって、この選択は、任意の最前面のオブジェクトが、前記シーンの前記サブ領域に対応する前記履歴的画像フレームのサブ領域から欠けている場合に当てはまる、ステップと、
前記履歴的画像フレームから、前記シーンの前記サブ領域に対応する前記サブ領域を取り入れるステップであって、前記取り入れられた画像フレームは、前記シーンの前記サブ領域の前記背景モデルである、ステップと、
を備える、方法。
【請求項4】
請求項1又は請求項2に記載の方法であって、
前記シーンの前記サブ領域の前記背景モデルを決定するステップは、
複数の履歴的画像フレームの各々の中で、任意の最前面のオブジェクトが無い1つ以上のサブ領域を決定するステップと、
前記シーン全体を表す完全な背景画像を形成するために、前記複数の履歴的画像フレームから1つ以上のサブ領域を集計するステップと、
前記完全な背景画像から、前記シーンの前記サブ領域に対応するサブ領域を取り入れるステップであって、前記取り入れられた完全な背景画像は、前記シーンの前記サブ領域の前記背景モデルである、ステップと、
を備える、方法。
【請求項5】
請求項4に記載の方法であって、
前記複数の履歴的画像フレームから前記1つ以上のサブ領域を集計するステップは、シーン全体を表す画像を形成するために、前記1つ以上のサブ領域を縫い合わせるステップを備える、方法。
【請求項6】
請求項1から請求項5のいずれか一項に記載の方法であって、
前記オブジェクト分類器は、管理された学習を部分的に使用して準備され、
前記管理された学習は、
ラベル付けされた訓練例を入力すること、前記訓練例は、部類に属するものとして、または最前面の視覚的オブジェクトを含まないものとして人間のユーザによってラベル付けされ、
前記ラベル付けされた訓練例を使用して、前記オブジェクト分類器を訓練すること、を含む、方法。
【請求項7】
請求項1から請求項6のいずれか一項に記載の方法であって、
前記コンピュータ履行型の機械学習は、畳み込みニューラルネットワークである、方法。
【請求項8】
請求項1から請求項7のいずれか一項に記載の方法であって、
前記現在のシーンが新しいシーンに変わったかどうかの判定は、前記サブ領域の前記背景モデル第1の否定的な訓練例として使用するコンピュータ履行型の機械学習によって、基礎オブジェクト分類器を第1のオブジェクト分類器に訓練する前記ステップの後に行われる、方法。
【請求項9】
請求項1から請求項8の方法の1つに従って訓練される、コンピュータ履行型のオブジェクト分類器。
【請求項10】
コンピュータ履行型のオブジェクト分類器を訓練するためのシステムであって、
プロセッサと、
前記プロセッサによって実行される場合、前記システムが動作を実行することを引き起こすプログラム命令を格納するコンピュータ可読な格納デバイスであって、該動作は、
ビデオキャプチャデバイスの視野内のシーンのサブ領域内に最前面の視覚的オブジェクトを検出するステップと、
前記シーンの前記サブ領域の背景モデルを決定するステップであって、前記背景モデルは、任意の最前面の視覚的オブジェクトが前記サブ領域から欠けている場合、前記サブ領域を表す、ステップと、
前記サブ領域の前記背景モデルを第1の否定的な訓練例として使用するコンピュータ履行型の機械学習によって、基礎オブジェクト分類器を第1のオブジェクト分類器に訓練するステップと、
前記第1のオブジェクト分類器は、現在のシーンに対して特に訓練され、前記現在のシーンが新しいシーンに変わることに際して、前記現在のシーンに特有な訓練無しに、前記基礎オブジェクト分類器に完全に戻すステップと、
前記新しいシーンからの背景モデルを使用した機械学習によって、前記基礎オブジェクト分類器を第2のオブジェクト分類器に訓練するステップと、
を備える、コンピュータ可読な格納デバイスと、
を備える、システム。
【請求項11】
請求項10に記載のシステムであって、
前記基礎オブジェクト分類器を第2のオブジェクト分類器に訓練する前記ステップは、最前面の視覚的オブジェクトおよび前記新しいシーンからの前記背景モデルを肯定的な訓練例として使用するコンピュータ履行型の機械学習によって、前記オブジェクト分類器を訓練するステップを更に備える、システム。
【請求項12】
請求項10又は請求項11に記載のシステムであって、
前記シーンの前記サブ領域の前記背景モデルを決定するステップは、
捕捉された履歴的画像フレームを選択するステップであって、この選択は、任意の最前面のオブジェクトが、前記シーンの前記サブ領域に対応する前記履歴的画像フレームから欠けている場合に当てはまる、ステップと、
前記履歴的画像フレームから、前記シーンの前記サブ領域に対応する前記サブ領域を取り入れるステップであって、前記取り入れられた画像は、前記シーンの前記サブ領域の前記背景モデルである、ステップと、
を備える、システム。
【請求項13】
請求項10又は請求項11に記載のシステムであって、
前記シーンの前記サブ領域の前記背景モデルを決定するステップは、
複数の履歴的画像フレームの各々の中で、任意の最前面のオブジェクトが無い1つ以上のサブ領域を決定するステップと、
シーン全体を表す完全な背景画像を形成するために、前記複数の履歴的画像フレームから前記1つ以上のサブ領域を集計するステップと、
前記完全な背景画像から、前記シーンの前記サブ領域に対応するサブ領域を取り入れるステップであって、前記取り入れられた完全な背景画像は、前記シーンの前記サブ領域の前記背景モデルである、ステップと、
を備える、システム。
【請求項14】
請求項13に記載のシステムであって、
前記複数の履歴的画像フレームから前記1つ以上のサブ領域を集計するステップは、前記シーン全体を表す画像を形成するために、前記1つ以上のサブ領域を縫い合わせるステップを備える、システム。
【請求項15】
請求項10から請求項14のいずれか一項に記載のシステムであって、
前記オブジェクト分類器は、管理された学習を部分的に使用して準備され、
前記管理された学習は、
ラベル付けされた訓練例を入力すること、前記訓練例は、部類に属するものとして、または最前面の視覚的オブジェクトを含まないものとして人間のユーザによってラベル付けされ、
前記ラベル付けされた訓練例を使用して、前記オブジェクト分類器を訓練すること、を含む、システム。
【請求項16】
請求項10から請求項15のいずれか一項に記載のシステムであって、
前記コンピュータ履行型の機械学習は、畳み込みニューラルネットワークである、システム。
【請求項17】
請求項10から請求項16のいずれか一項に記載のシステムであって、
前記現在のシーンが新しいシーンに変わったかどうかの判定は、前記サブ領域の前記背景モデル第1の否定的な訓練例として使用するコンピュータ履行型の機械学習によって、基礎オブジェクト分類器を第1のオブジェクト分類器に訓練する前記ステップの後に行われる、システム。
【発明の詳細な説明】
【技術分野】
【0001】
本主題は、視覚的オブジェクトの分類に関し、且つ、特に、検出された最前面の視覚的オブジェクトの背景モデルを否定的な訓練例として使用したコンピュータ履行型のオブジェクト分類器を訓練することに関する。
【背景技術】
【0002】
コンピュータ履行型の視覚的オブジェクト分類(オブジェクト認識とも呼ばれる)は、カメラによって捕捉された静止画又は動画の中で見つけられる実在のオブジェクトの視覚的表現を分類することに関する。視覚的オブジェクト分類を実施することによって、静止画又は動画の中で見つけられる各視覚的オブジェクトは、そのタイプ(例えば、人間、車両、動物)に従って分類される。
【0003】
自動化されたセキュリティシステム及び監視システムは、通常、画像データを収集するために、ビデオカメラ若しくは他の画像捕捉デバイス、又はセンサを使用する。最も簡単なシステムでは、画像データによって表される画像は、同時に起こるセキュリティ要員による選別にために表示される、及び/又は、セキュリティ違反後の事後参照のために記録される。それらのシステムでは、関心のある視覚的オブジェクトを検出すると共に分類するタスクが、人間の観察者によって実施される。システム自体が、部分的に又は完全に、のいずれかでオブジェクトの検出及び分類を実施できる場合、著しい進歩が起こる。
【0004】
通常の監視システムでは、例えば、周囲を移動する人間、車両、動物などのようなオブジェクトを検出することに、人は関心があるであろう。異なるオブジェクトは、異なる脅威、又は異なるレベルの警報を引き起こす可能性がある。例えば、シーンの中の動物は普通のことかもしれないが、しかし、シーンの中の人間又は車両は警報の原因となるかもしれず、且つ、セキュリティ警備員の即時の注意を要求するかもしれない。カメラによって捕捉された画像データによって表される画像の中のオブジェクトの、自動化されたコンピュータ履行型の検出及び分類は、画像データの記録改善はもちろんのこと、セキュリティ要員の選別の仕事を著しく促進することが可能である。
【発明の概要】
【0005】
本明細書で説明される実施形態は、一態様において、コンピュータ履行型のオブジェクト分類器を訓練するための方法を提供する。その方法は、あるシーンのサブ領域内に最前面の視覚的オブジェクトを検出するステップと、そのシーンのサブ領域の背景モデルを決定するステップと、サブ領域の背景モデルを否定的な訓練例として使用したコンピュータ履行型の機械学習によってオブジェクト分類器を訓練するステップとを含み、ここで背景モデルは、任意の最前面の視覚的オブジェクトがサブ領域から欠けている場合に、サブ領域を表す。
【0006】
本明細書で説明される実施形態は、別の一形態において、コンピュータ履行型のオブジェクト分類器を提供する。そのシステムは、プロセッサと、プログラム命令を格納するコンピュータ可読な格納デバイスとを含み、ここで該プログラム命令は、プロセッサによって実行される場合、システムが動作を実行することを引き起こす。該動作は、シーンのサブ領域内に最前面の視覚的オブジェクトを検出するステップと、該シーンのサブ領域の背景モデルを決定するステップと、サブ領域の背景モデルを否定的な訓練例として使用したコンピュータ履行型の機械学習によってオブジェクト分類器を訓練するステップとを含み、ここで背景モデルは、任意の最前面の視覚的オブジェクトがサブ領域から欠けている場合に、サブ領域を表す。
【0007】
幾つかの実施例によれば、方法及び/又はシステムは、検出された最前面の視覚的オブジェクトを肯定的な訓練例として使用した機械学習によって、オブジェクト分類器を訓練するステップを更に含む。
【0008】
幾つかの実施例によれば、シーンのサブ領域の背景モデルを決定するステップは、任意の最前面のオブジェクトが該シーンのサブ領域に対応する履歴的画像フレームのサブ領域から欠けている場合、捕捉された履歴的画像フレームを選択するステップと、履歴的画像フレームから該シーンのサブ領域に対応するサブ領域を取り入れるステップとを含み、ここで取り入れられた画像フレームは、該シーンのサブ領域の背景モデルである。
【0009】
幾つかの実施例によれば、シーンのサブ領域の背景モデルを決定するステップは、複数の履歴的画像フレームの各々の中で、任意の最前面のオブジェクトが無い1つ以上のサブ領域を決定するステップと、シーン全体を表す完全な背景画像を形成するために、複数の履歴的画像フレームから1つ以上のサブ領域を集計するステップと、完全な背景画像から該シーンのサブ領域に対応するサブ領域を取り入れるステップとを含み、ここで取り入れられた完全な背景画像は、該シーンのサブ領域の背景モデルである。
【0010】
幾つかの実施例によれば、複数の履歴的画像フレームから1つ以上のサブ領域を集計するステップは、シーン全体を表す画像を形成するために、1つ以上のサブ領域を縫い合わせるステップを備える。
【0011】
幾つかの実施例によれば、オブジェクト分類器は、特に現在のシーンに対して訓練される。
【0012】
幾つかの実施例によれば、現在のシーンが新しいシーンに変わることに際して、現在のシーンに特有の訓練無しに、オブジェクト分類器に逆戻りし、且つ、新しいシーンからの背景モデルを使用した機械学習によって、オブジェクト分類器を訓練する。
【0013】
幾つかの実施例によれば、オブジェクト分類器は、管理された学習を部分的に使用して準備される。
【0014】
幾つかの実施例によれば、コンピュータ履行型の機械学習は、畳み込みニューラルネットワーク、サポートベクトルマシン、デシジョンツリー、ランダムフォレスト、及びカスケード分類器から選択される。
【0015】
幾つかの実施例によれば、方法及び/又はシステムは、誤分類されたシーンのサブ領域を否定的な訓練例として使用したコンピュータ履行型の機械学習によって、オブジェクトを訓練するステップを更に含む。
【図面の簡単な説明】
【0016】
詳細な説明には、次の図を参照する。
【0017】
図1A】一実施例による、映像捕捉及び再生システムの接続されたデバイスのブロック図を例示したものである。
【0018】
図1B】一実施例による、映像捕捉及び再生システムの一セットの動作モジュールのブロック図を例示したものである。
【0019】
図1C】一実施例による、1つのデバイス内で履行される一セットの動作モジュールのブロック図を例示したものである。
【0020】
図2】画像データに対して映像解析を実施するための方法の、一実施例のフローチャート図を例示したものである。
【0021】
図3A】一実施例による、映像解析モジュールの一セットの動作サブモジュールのブロック図を例示したものである。
【0022】
図3B】一実施例による、オブジェクト分類モジュールの複数のオブジェクト分類器を例示したものである。
【0023】
図4】基礎分類器の更なる訓練のための、当技術分野で知られた方法のフローチャートを例示したものである。
【0024】
図5】一実施例による、基礎分類器の更なる訓練のための、改善されたコンピュータ履行型の方法のフローチャートを例示したものである。
【0025】
図6A】検出された最前面の視覚的オブジェクト及びそれの対応する背景モデルを有するシーンのサブ領域である。
図6B】検出された最前面の視覚的オブジェクト及びそれの対応する背景モデルを有するシーンのサブ領域である。
図6C】検出された最前面の視覚的オブジェクト及びそれの対応する背景モデルを有するシーンのサブ領域である。
図6D】検出された最前面の視覚的オブジェクト及びそれの対応する背景モデルを有するシーンのサブ領域である。
図6E】検出された最前面の視覚的オブジェクト及びそれの対応する背景モデルを有するシーンのサブ領域である。
図6F】検出された最前面の視覚的オブジェクト及びそれの対応する背景モデルを有するシーンのサブ領域である。
【0026】
図7A】シーンの例を表す、第1の完全な履歴的画像フレームである。
【0027】
図7B】シーンの例を表す、第2の完全な履歴的画像フレームである。
【0028】
図8】代替的な実施例による、基礎分類器の更なる訓練のための、改善されたコンピュータ履行型の方法のフローチャートを例示したものである。
【0029】
図9】一実施例による、基礎分類器のシーンに特有の訓練のための、改善されたコンピュータ履行型の方法のフローチャートを例示したものである。
【0030】
例示したものを簡単且つ明快にするために、図に示された要素は、必ずしも寸法通りに描かれていない、ということは正しく認識されるであろう。例えば、要素の幾つかの寸法は、明快さのために、他の要素に対して誇張されているかもしれない。更に、適切と考えられる場合には、参照符号は、対応する要素又は類似要素を指し示すために、図面間で繰り返されるかもしれない。
【発明を実施するための形態】
【0031】
本明細書で説明される模範的な実施形態の完全な理解を提供するために、多くの具体的な詳細が明らかにされる。しかしながら、本明細書で説明される実施形態は、これらの特定の詳細が無くても実行される可能性がある、ということは当業者によって理解されるであろう。他の事例において、良く知られた方法、手続き、及び構成部品は、本明細書で説明される実施形態を不明瞭にしないように、詳細には説明されていない。更に、この説明は、いかなる方法においても、本明細書で説明される実施形態の範囲を制限するものと考えられるべきではなく、むしろ本明細書で説明される様々な実施形態の履行を単に説明するものと考えられるべきである。
【0032】
「頂部」、「底部」、「上方へ」、「下方へ」、「垂直に」、及び「横方向に」のような方向性の用語は、以下の説明では相対的な参照を提供する目的のためだけに使用され、且つ、どれだけの数の品目が、使用中に位置付けられるべきか、又は、組み立て品の中で取り付けられるべきか、若しくは周囲に対して取り付けられるべきか、ということに関して、いかなる制限の提案も意図するものではない。
【0033】
「態様」、「実施形態(複数可)」、「該実施形態(複数可)」、「1つ以上の実施形態」、「幾つかの実施形態」、「ある実施形態」、「一実施形態」、「別の実施形態」などのような用語は、特記しない限り、開示された発明の1つ以上の(しかし全てではない)実施形態を意味する。実施形態を説明する際に、「別の実施形態」又は「別の態様」を参照することは、特記しない限り、参照された実施形態が、別の実施形態に関して相互に排他的である(例えば、1つの実施形態が、参照される実施形態に先んじて説明される)、ということを意味しない。
【0034】
「含む」、「備える」、及びそれらの変形は、特記しない限り、「含む」ことを意味するが、しかし、これに限定されない。
【0035】
「複数」という用語は、特記しない限り、「2つ以上」を意味する。「本明細書における」という用語は、特記しない限り、「本出願において、参照によって組み込まれるかもしれない任意のものを含む」、ということを意味する。
【0036】
「たとえば(e.g.)」などの用語は、「例えば(for example)」を意味し、従って、それが説明する用語又は句を限定しない。
【0037】
「それぞれの(respective)」などの用語は、「個別に考えると(taken indivisually)」、ということを意味する。従って、もし2つ以上の物が「それぞれの」特性を有する場合、その時は、そのような物は、それ自身の特性を有し、且つ、これらの特性は、互いに異なり得るが、しかし、互いに異なっている必要はない。例えば、「2つのマシンの各々はそれぞれの機能を有する」という句は、第1のそのようなマシンは1つの機能を有し、且つ第2のそのようなマシンは、同様に1つの機能を有する、ということを意味する。第1のマシンの機能は、第2のマシンの機能と同じであってもよく、又は第2のマシンの機能と同じでなくてもよい。
【0038】
「a」又は「an」という言葉は、請求項及び/又は明細書の中で「備える(comprising)」又は「含む(including)」という用語と合わせて使用される場合、「1つの」ということを意味するかもしれず、しかし、それはまた、その内容が明確に別のことを指示しない限り、「1つ以上の」、「少なくとも1つの」、及び「1つ又はそれ以上の」という意味と矛盾しない。同様に、「別の」という言葉は、その内容が明確に別のことを指示しない限り、少なくとも第2の又はそれ以上のということを意味するかもしれない。
【0039】
本明細書で使用される「結合された」、「結合する」、又は「接続された」という用語は、それらの用語が使用される文脈に依存して、幾つかの異なる意味を有することが可能である。例えば、結合された、結合する、又は接続されたという用語は、機械的な含意又は電気的な含意を有することが可能である。例えば、本明細書で使用される、結合された、結合する、又は接続されたという用語は、2つの要素又はデバイスが、互いに対して直接接続される、又は互いに対して接続される、ということを指し示すことが可能であり、その場合の接続は、特別な文脈に依存して、電気的要素、電気的信号、又は機械的要素を介して、1つ以上の中間要素又はデバイスを通して行われる。
【0040】
本音明細書における「画像データ」は、映像捕捉デバイスによって産出されたデータのことを指し、且つ、それは、映像捕捉デバイスによって捕捉された画像を表す。画像データは、複数の連続した画像フレームを含んでもよく、該複数の連続した画像フレームは、映像捕捉デバイスによって捕捉された映像を協力して形成する。各画像フレームは、画素のマトリックスによって表してもよく、各画素は、画素の画像値を有する。例えば、画素の画像値は、グレースケールに関する(例えば、0から255までの)数値であってもよく、又は、カラー化された画像に対する複数の数値であってもよい。画像データにおける画素の画像値を表すために使用される色空間の例は、RGB、YUV、CYKM、YCBCR4:2:2、及びYCBCR4:2:0の画像を含む。本明細書で使用される「画像データ」は、映像捕捉デバイスによって産出された「生の」画像データのことを指し得る、及び/又は、ある形の処理を受けた画像データのことを指し得る、ということは理解されるであろう。
【0041】
「最前面の視覚的オブジェクト」とは、映像捕捉デバイスによって捕捉された画像フレームの中で見つけられた実在のオブジェクト(例えば、人、動物、車両)の視覚表現のことを指す。最前面の視覚的オブジェクトは、映像監視のような様々な目的に対して関心のあるオブジェクトである。例えば、あるシーンにおける最前面の視覚的オブジェクトは、存在している人間又は車両のような事象を表してもよい。最前面の視覚的オブジェクトは、移動オブジェクトであってもよく、又は以前の移動オブジェクトであってもよい。最前面の視覚的オブジェクトは、背景オブジェクトと区別されるが、ここで背景オブジェクトとは、あるシーンの背景の中で見つけられるオブジェクトであり、且つ、関心がないものである。
【0042】
「現在の画像フレーム」とは、本明細書で説明される様々なシステム及び方法の中で現在解析されている映像の、複数の連続した画像フレームの中の画像フレームのことを指す。現在の画像フレームの画像データは、現在の画像フレームの中で、及び/又は現在の画像に先立つ複数の画像フレームの中で、捕捉されたオブジェクトに関する情報を生成するために解析される。
【0043】
現在の画像フレームの「以前の画像フレーム」又は「履歴的画像フレーム」とは、映像の複数の連続した画像フレームの中で、現在の画像フレームの前に生じた画像フレームのことを指す。例えば、以前の画像フレームは、現在の画像フレームに直接先立つ画像フレームであってもよい。代わりに、以前の画像フレームは、複数の連続した画像フレームよりも時間的に早い画像であってもよく、しかし、現在の画像フレームに関連するように、現在の画像フレームに十分に近いものである。
【0044】
本明細書における「処理画像データ」又はその変形物とは、画像データに対して実施される、1つ以上のコンピュータ履行型の機能のことを指す。例えば、処理画像データは、画像処理動作を含んでもよく、ここで該画像処理動作は、以下に限定されないが、映像データを解析する、管理する、圧縮する、符号化する、格納する、送信する、及び/又は再生することを含む。画像データを解析することは、画像フレームのエリアを分割すると共に、視覚的オブジェクトを検出すること、画像データによって表される捕捉されたシーンの中に位置する視覚的オブジェクトを追跡すること、及び/又は該視覚的オブジェクトを分類することを含む。画像の処理は、修正された画像データが、圧縮された画像データ(例えば、品質が低下したもの)及び/又は再符号化された画像データのようなものとして、産出されることの原因になるかもしれない。画像データの処理はまた、出力されるべき画像の中に、捕捉された画像データ又は視覚的オブジェクトに関する付加的情報をもたらすかもしれない。例えば、そのような付加的情報は、一般にメタデータとして理解される。メタデータはまた、画像フレームの中で、検出された視覚的オブジェクトの周りに境界ボックスを描くことのような、画像データの更なる処理のために使用してもよい。
【0045】
(例えば、用語又は句が同義語であるという明確な陳述の故に)2つ以上の用語又は句が同義語である場合、1つのそのような用語/句の事例は、別のそのような事例が異なる意味を持たなければならない、ということを意味しない。例えば、陳述が、「含む(including)」の意味が「含むが、しかし~に限定されない」と同義語であるとする場合、「含むが、しかし~に限定されない」という句の単なる使用は、「含む」という用語が「含むが、しかし~に限定されない」以外の何かを意味することを、意味するものではない。
【0046】
名称(本出願の最初のページの初めに明記される)及び要約(本出願の最後に明記される)のいずれについても、開示された発明の範囲を制限するものとは、決して考えるべきではない。要約はこの出願に含まれているが、それは単に、150ワードを超えない要約が、37C.F.R.セクション1.72(b)の下で、又は他の管轄区における同様な法律の下で要求されているからである。本出願の名称及び、本出願において提供されるセクションの見出しは、便利さのためだけのものであり、且つ、本開示を制限するものとは、決して考えるべきではない。
【0047】
本出願では、数多くの実施形態が説明され、且つ、例証的な目的のためだけに提示される。説明された実施形態は、いかなる意味においても限定的ではなく、且つ、限定的であることを意図するものではない。本開示の態様は、本開示から容易に明らかなように、数多くの実施形態に広く適用可能である。当業者であれば、開示された態様が、構造的修正及び論理的修正のような、様々な修正及び変更と共に実行される可能性がある、ということを認識するであろう。開示された態様の特定の特徴は、1つ以上の特定の実施形態及び/又は図面を参照して説明されるかもしれないが、そのような特徴は、特記しない限り、1つ以上の特定の実施形態又は図面(実施形態はこれらの図面を参照して説明される)の中での使用に限定されない、ということは理解されるべきである。
【0048】
本出願において説明される方法ステップ又は製品要素の実施形態は、どれも本質的ではなく、又は、同一の広がりを持つものではない。このことは、この明細書の中でそのように明白に述べられる場合、又は請求項において明白に列挙される場合を除いて、当てはまる。
【0049】
本明細書で説明される様々な実施例は、方法、システム、又はコンピュータプログラム製品として具体化してもよい、ということは当業者によって正しく認識されるであろう。従って、様々な実施例は、完全にハードウェアの実施形態の形、完全にソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコードなど)の形、又は、本明細書では全てが一般に「回路」、「モジュール」、若しくは「システム」と呼ばれる、ソフトウェア態様とハードウェア態様を結合する実施形態の形を取ってもよい。更に、様々な実施例は、媒体の中に具体化されたコンピュータ使用可能なプログラムコードを有する、コンピュータ使用可能な格納媒体上のコンピュータプログラム製品の形を取ってもよい。
【0050】
任意の適切なコンピュータ使用可能な媒体又はコンピュータ可読な媒体を利用してもよい。コンピュータ使用可能な媒体又はコンピュータ可読な媒体は、例えば、以下に限定されるものではないが、電子的システム、磁気的システム、光学的性ステム、電磁気的システム、赤外システム、若しくは半導体システム、装置、デバイス、又は伝達媒体であってもよい。この文書の文脈において、コンピュータ使用可能な媒体又はコンピュータ可読な媒体は、任意の媒体であってもよく、ここで該任意の媒体は、命令実行システム、装置、若しくはデバイスによる使用を目的として、又は、命令実行システム、装置、若しくはデバイスと関連した使用を目的として、プログラムを含む、格納する、通信する、伝達する、又は輸送することが可能である。
【0051】
様々な実施例の動作を実行するためのコンピュータプログラムコードは、Java、Smalltalk、C++、Pythonなどのような、目的指向のプログラミング言語で書いてもよい。しかしながら、様々な実施例の動作を実行するためのコンピュータプログラムコードはまた、「C」プログラミング言語又は同様なプログラミング言語のような、従来の手続的プログラミング言語で書いてもよい。プログラムコードは、完全にコンピュータ上で実行してもよく、スタンドアロン・ソフトウェア・パッケージのように、部分的にコンピュータ上で実行してもよく、部分的にコンピュータ上で、且つ部分的に遠隔コンピュータ上で実行してもよく、又は、完全に遠隔コンピュータ上で若しくはサーバ上で実行してもよい。後者のシナリオにおいては、遠隔コンピュータは、ローカルエリアネットワーク(LAN)若しくはワイドエリアネットワーク(WAN)を通してコンピュータに接続してもよく、又は、接続は、(例えば、インターネット・サービス・プロバイダを使用したインターネットを通して)外部コンピュータに対して行ってもよい。
【0052】
本発明の実施形態によるフローチャート図解、及び/又は方法のブロック図、装置(システム)並びにコンピュータプログラム製品を参照しながら、様々な実施例が以下で説明される。フローチャート図解及び/又はブロック図の各ブロック、並びにフローチャート図解及び/又はブロック図におけるブロックの組み合わせは、コンピュータプログラム命令によって履行することが可能である、ということは理解されるであろう。これらのコンピュータプログラム命令は、汎用コンピュータ、特定用途コンピュータ、又はマシンを産出すための他のプログラマブルデータ処理装置に提供してもよく、その結果として、コンピュータのプロセッサ又は他のプログラマブルデータ処置装置を介して実行される命令は、フローチャート及び/又はブロック図のブロック(複数可)において指定された機能/行為を履行するための手段を創出する。
【0053】
これらのコンピュータプログラム命令はまた、特定のやり方で機能するようにコンピュータ又は他のプログラマブルデータ処理装置に指示することが可能なコンピュータ可読なメモリに格納してもよく、その結果として、コンピュータ可読なメモリに格納された命令は、フローチャート及び/又はブロック図のブロック(複数可)において指定された機能/行為を履行する命令を含む製造項目を産出する。
【0054】
コンピュータプログラム命令はまた、コンピュータ上又は他のプログラマブルデータ処理装置上にロードしてもよいが、これは、コンピュータ履行型のプロセスを産出するべく、一連の動作ステップがコンピュータ上又は他のプログラマブル装置上で実施されることをもたらすためであり、その結果として、コンピュータ上又は他のプログラマブル装置上で実行される命令は、フローチャート及び/又はブロック図のブロック(複数可)において指定された機能/行為を履行するためのステップを提供する。
【0055】
さて図1Aを参照すると、そこには、一実施例による映像捕捉及び再生システム100の接続されたデバイスのブロック図が例示されている。例えば、映像捕捉及び再生システム100は、映像監視システムとして使用してもよい。映像捕捉及び再生システム100は、本明細書で説明されるプロセス及び機能を実施するハードウェア及びソフトウェアを含む。
【0056】
映像捕捉及び再生システム100は、複数の画像を捕捉すると共に、複数の捕捉された画像を表す画像データを産出するように動作可能である、少なくとも1つの映像捕捉デバイス108を含む。
【0057】
各映像捕捉デバイス108は、複数の画像を捕捉するための、少なくとも1つのセンサ116を含む。映像捕捉デバイス108は、デジタルビデオカメラであってもよく、且つ画像センサ116は、捕捉された光をデジタルデータとして出力してもよい。例えば、画像センサ116は、CMOS、NMOS、又はCCDであってもよい。
【0058】
少なくとも1つの画像センサ116は、1つ以上の周波数範囲にある光を捕捉するように動作可能であってもよい。例えば、少なくとも1つの画像センサ116は、可視光周波数範囲に実質的に対応する範囲にある光を捕捉するように動作可能であってもよい。他の例において、少なくとも1つの画像センサ116は、赤外範囲及び/又は紫外範囲にあるような、可視光範囲の外にある光を捕捉するように動作可能であってもよい。他の例において、映像捕捉デバイス108は、異なる周波数範囲にある光を捕捉するように動作可能である、2つ以上のセンサを含むマルチセンサカメラであってもよい。
【0059】
少なくとも1つの映像捕捉デバイス108は、専用のカメラを含んでもよい。本明細書における専用カメラは、その主な特徴が画像又は映像を捕捉することであるカメラのことを指す、ということは理解されるであろう。幾つかの実施例において、専用カメラは、捕捉された画像又は映像に関連付けられた機能を実施してもよく、ここで該機能とは、以下に限定されるわけではないが、該専用カメラによって、又は別の映像捕捉デバイス108によって産出された画像データを処理することのようなものである。例えば、専用カメラは監視カメラであってもよく、ここで監視カメラは、パン・チルト・ズームカメラ、ドームカメラ、天井カメラ、ボックスカメラ、及び弾丸カメラの任意の1つのようなものである。
【0060】
加えて、又は代わりに、少なくとも1つの映像捕捉デバイス108は、組み込み型カメラを含んでもよい。本明細書における組み込み型カメラは、デバイス内に組み込まれ、且つ、捕捉される画像又は映像と関連しない機能を実施するように動作するカメラのことを指す、ということは理解されるであろう。例えば、組み込み型カメラは、ラップトップ、タブレット、ドローンデバイス、スマートフォン、ビデオゲーム機又はビデオゲームコントローラの任意の1つの上に見つけられるカメラであってもよい。
【0061】
各映像捕捉デバイス108は、1つ以上のプロセッサ124と、該プロセッサに結合された1つ以上のデバイス132と、1つ以上のネットワークインターフェースとを含む。メモリデバイスは、プログラム命令の実行の間に使用されるローカルメモリ(例えば、ランダムアクセスメモリ及びキャッシュメモリ)を含むことが可能である。プロセッサは、コンピュータプログラム命令(例えば、オペレーティングシステム及び/又はアプリケーションプログラム)を実行するが、ここでコンピュータプログラム命令は、メモリデバイスに格納することが可能である。
【0062】
様々な実施形態において、プロセッサ124は、1つ以上の回路ユニットを有する任意の処理回路によって実行してもよく、ここで該処理ユニットは、デジタル信号プロセッサ(DSP)、グラフィック処理ユニット(GPU)が組み込まれたプロセッサなど、及び、これらの任意の組み合わせを含む。ここで該任意の組み合わせとは、おそらくは重複して動作することを含めて、独立に動作するもの、又は並行して動作するものの組み合わせである。そのような処理回路は、1つ以上の集積回路(IC)によって履行してもよく、これは、モノリシック集積回路(MIC)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲートアレイ(FPGA)など、又はこれらの任意の組み合わせによって履行されることを含む。加えて、又は代わりに、そのような処理回路は、例えば、プログラマブル論理コントローラ(PLC)として履行してもよい。プロセッサは、デジタルデータのようなメモリを格納するための回路構成を含んでもよく、且つ、メモリ回路を備えるか、又は、例えば、メモリ回路と有線で通信してもよい。
【0063】
様々な実施例において、プロセッサ回路と結合されたメモリデバイス132は、データ及びコンピュータプログラム命令を格納するように動作可能である。通常、メモリデバイスは、全てがデジタル電子集積回路である、若しくはデジタル電子集積回路の一部である、又は、複数のデジタル電子集積回路から形成される。メモリデバイスは、例えば、読み出し専用メモリ(ROM)、プログラマブル読み出し専用メモリ(PROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM)、電気的に消去可能なプログラマブル読み出し専用メモリ(EEPROM)、フラッシュメモリ、1つ以上のフラッシュドライブ、ユニバーサルシリアルバス(USB)接続されたメモリユニット、磁気記憶装置、光記憶装置、光磁気記憶装置など、又はこれらの任意の組み合わせとして履行してもよい。メモリデバイスは、揮発性メモリ、不揮発性メモリ、ダイナミックメモリなど、又はこれらの任意の組み合わせとして、メモリを格納するように動作可能であってもよい。
【0064】
様々な実施例において、画像捕捉デバイス108の複数の構成部品は、システム内のチップ(SOC)上で協力して履行してもよい。例えば、プロセッサ124、メモリデバイス132、及びネットワークインターフェースは、SOC内で履行してもよい。更に、このように履行される場合、汎用のプロセッサ及び、GPU及びDSPの1つ以上は、SOC内で協力して履行してもよい。
【0065】
図1Aに関して続けると、少なくとも1つの映像捕捉デバイス108の各々は、ネットワーク140に接続される。各映像捕捉デバイス108は、自身が捕捉する画像を表す画像データを出力すると共に、ネットワークを通して該画像データを送信するように動作可能である。
【0066】
ネットワーク140は、データの受信及び送信を提供する任意の通信ネットワークであってもよい、ということは理解されるであろう。例えば、ネットワーク140は、ローカルエリアネットワーク、外部ネットワーク(例えば、WAN、インターネット)、又はこれらの組み合わせであってもよい。他の例において、ネットワーク140は、クラウドネットワークを含んでもよい。
【0067】
幾つかの例において、映像捕捉及び再生システム100は、処理機器148を含む。処理機器148は、映像捕捉デバイス108によって出力された画像データを処理するように動作可能である。処理機器148はまた、1つ以上のプロセッサと、プロセッサに結合された1つ以上のメモリデバイスとを含む。処理機器148はまた、1つ以上のネットワークインターフェースを含んでもよい。
【0068】
例えば、例示されるように、処理機器148は、映像捕捉デバイス108に接続される。処理機器148は、ネットワーク140に更に接続してもよい。
【0069】
一実施例によれば、図1Aに例示されるように、映像捕捉及び再生システム100は、少なくとも1つのワークステーション156(例えば、サーバ)を含み、ワークステーション156の各々は、1つ以上のプロセッサを有する。少なくとも1つのワークステーション156はまた、格納メモリを含んでもよい。ワークステーション156は、少なくとも1つの映像捕捉デバイス108から画像データを受信し、且つ、該画像データの処理を実施する。ワークステーション156は、画像捕捉デバイス108の1つ以上を管理するためのコマンド、及び/又は制御するためのコマンドを更に送ってもよい。ワークステーション156は、映像捕捉デバイス108から、生の画像データを受信してもよい。代わりに、又は加えて、ワークステーション156は、映像捕捉デバイス108における、及び又は処理機器148における処理のような、幾つかの中間処理を既に受けた画像データを受信してもよい。ワークステーション156はまた、画像データからメタデータを受信し、且つ、画像データの更なる処理を実施してもよい。
【0070】
図1Aには単一のワークステーション156が例示されているが、ワークステーションは、複数のワークステーションの集合体として履行してもよい、ということは理解されるであろう。
【0071】
映像捕捉及び再生システム100は、ネットワーク140に接続された少なくとも1つのクライアントデバイス164を更に含む。クライアントデバイス164は、映像捕捉及び再生システム100と対話するように、一人以上のユーザによって使用される。従って、クライアントデバイス164は、少なくとも1つの表示デバイス、及び少なくとも1つのユーザ入力デバイス(例えば、マウス、キーボード、タッチスクリーン)を含む。クライアントデバイス164は、その表示デバイス上に、情報を表示し、ユーザ入力を受信し、且つ映像を再生するためのユーザインターフェースを表示するように動作可能である。例えば、クライアントデバイスは、パーソナルコンピュータ、ラップトップ、タブレット、携帯情報端末(PDA)、携帯電話、スマートフォン、ゲーム用デバイス、及び他のモバイル機器の任意の1つであってもよい。
【0072】
クライアントデバイス164は、ネットワーク140を通して画像データを受信するように動作可能であり、且つ、受信された画像データを再生するように更に動作可能である。クライアントデバイス164はまた、画像データを処理するための機能性を有してもよい。例えば、クライアントデバイス164の処理機能は、受信された画像データを再生するための能力に関連した処理に限定してもよい。他の例において、画像処置機能性は、ワークステーション156と1つ以上のクライアントデバイス164との間で共有してもよい。
【0073】
幾つかの例において、画像捕捉及び再生システム100は、ワークステーション156無しで履行してもよい。従って、画像処理機能性は、完全に1つ以上の映像捕捉デバイス108上で実施してもよい。代わりに、画像処理機能性は、映像捕捉デバイス108、処理機器148、及びクライアントデバイス164の2つ以上の間で共有してもよい。
【0074】
さて図1Bを参照すると、そこには、一実施例による、映像捕捉及び再生システム100の動作モジュールのセット200のブロック図が例示されている。動作モジュールは、図1Aに例示されるように、映像捕捉及び再生システム100のデバイスの1つ以上のデバイス上で、ハードウェアにおいて、ソフトウェアにおいて、又はその両方において履行してもよい。
【0075】
動作モジュールのセット200は、少なくとも1つの映像捕捉モジュール208を含む。例えば、各映像捕捉デバイス108は、映像捕捉モジュール208を履行してもよい。映像捕捉モジュール208は、画像を捕捉するための映像捕捉デバイス108の1つ以上の構成部品(例えば、センサ116など)を制御するように動作可能である。
【0076】
動作モジュールのセット200は、画像データ処理モジュールのサブセット216を含む。例えば、例示されるように、画像データ処理モジュールのサブセット216は、映像解析モジュール224及び映像管理モジュール232を含む。
【0077】
映像解析モジュール224は、画像データを受信し、且つ、画像又は映像によって表されるシーンの中で見つけられる捕捉された画像又は映像の、及び/又はオブジェクトの、特質又は特性を決定するために、画像データを解析する。行われた決定に基づいて、映像解析モジュール224は、決定についての情報を提供するメタデータを更に出力してもよい。映像解析モジュール224によって行われた決定の例は、最前面/背景の分割、オブジェクト検出、オブジェクト追跡、オブジェクト分類、仮想わな、異常検出、顔検出、顔認識、ナンバープレート認識、「残された」オブジェクトを識別すること、オブジェクトを監視すること(例えば、盗みからの保護のために)、及びビジネスインテリジェンスの1つ以上を含んでもよい。しかしながら、当分野で知られた他の映像解析機能もまた、映像解析モジュール224によって履行してもよい、ということは理解されるであろう。
【0078】
映像管理モジュール232は、画像データを受信し、且つ、映像の送信、再生、及び/又は格納に関連する画像データに対して処理機能を実施する。例えば、映像管理モジュール232は、バンド幅要求及び/又は容量に応じて画像データの送信を許可するように、画像データを処理することが可能である。映像管理モジュール232はまた、映像を再生するであろうクライアントデバイス164の再生能力に応じて、画像データを処理してもよい。ここで再生能力とは、クライアントデバイス164の表示装置の処理力及び/又は解像度のようなものである。映像管理モジュール232はまた、画像データを格納するための、映像捕捉及び再生システム100内の格納容量に応じて、画像データを処理してもよい。
【0079】
幾つかの実施例によれば、映像処理モジュールのサブセット216は、映像解析モジュール224及び映像管理モジュール232の中の1つだけを含んでもよい、ということは理解されるであろう。
【0080】
動作モジュールのセット200は、格納モジュールのサブセット240を更に含む。例えば、例示されるように、格納モジュールのサブセット240は、映像格納モジュール248及びメタデータ格納モジュール256を含む。映像格納モジュール248は画像データを格納するが、該画像データは、映像管理モジュールによって処理される画像データであってもよい。メタデータ格納モジュール256は、映像解析モジュール224から出力される情報データを格納する。
【0081】
映像格納モジュール248及びメタデータ格納モジュール256は別々のモジュールとして例示されているが、それらは同じハードウェア格納デバイス内で履行してもよく、それによって、論理ルールが、格納されたメタデータから格納された映像を分離するように履行される、ということは理解されるであろう。他の実施例において、映像格納モジュール248及び/又はメタデータ格納モジュール256は、複数のハードウェア格納デバイス内で履行してもよく、ここで該複数のハードウェア格納デバイスにおいては、分散された格納方式を履行してもよい。
【0082】
動作モジュールのセットは、少なくとも1つの映像再生モジュール264を更に含むが、ここで映像再生モジュール264は、画像データを受信すると共に、映像として画像データを再生するように動作可能である。例えば、映像再生モジュール264は、クライアントデバイス164上で履行してもよい。
【0083】
セット200の動作モジュールは、画像捕捉デバイス108、処理機器148、ワークステーション156、及びクライアントデバイス164の1つ以上の上で履行してもよい。幾つかの実施例において、動作モジュールは、完全に単一のデバイス上で履行してもよい。例えば、映像解析モジュール224は、完全にワークステーション156上で履行してもよい。同様に、映像管理モジュール232は、完全にワークステーション156上で履行してもよい。
【0084】
他の実施例において、セット200の動作モジュールの幾つかの機能性は、部分的に第1のデバイス上で履行してもよく、その一方で、動作モジュールの他の機能性は、第2のデバイス上で履行してもよい。例えば、映像解析機能性は、映像捕捉デバイス108、処理機器148、及びワークステーション156の1つ以上の間で分割してもよい。同様に、映像管理機能性は、映像捕捉デバイス108、処理機器148、及びワークステーション156の1つ以上の間で分割してもよい。
【0085】
さて図1Cを参照すると、そこには、1つの特別な実施例による映像捕捉及び再生システム100の動作モジュールのセット200のブロック図が例示されており、そこでは、映像解析モジュール224、映像管理モジュール232、及び格納デバイス240が、完全に1つ以上の画像捕捉デバイス108上で履行される。従って、映像捕捉及び再生システム100は、ワークステーション156及び/又は処理機器148を要求しない。
【0086】
画像データ処理モジュールのサブセットが、映像捕捉及び再生システム100の単一のデバイス上で、又は様々なデバイス上で履行されることが可能となることによって、システム100を構築する上での融通自在性が可能になる、ということは正しく認識されるであろう。
【0087】
例えば、ある一定の機能性を有する特定のデバイスを使用する場合、別のデバイスがそれらの機能性を欠いている状態で、該特定のデバイスを選択してもよい。このことは、異なる関係者(例えば、製造業者)からのデバイスを統合する場合に、又は現存する映像捕捉及び再生システムを追加導入する場合に有用である。
【0088】
さて図2を参照すると、そこには、映像捕捉デバイス108によって捕捉された映像の1つ以上の画像フレーム上に対して映像解析を実施するための方法272の実施例のフローチャート図が例示されている。映像解析は、映像において捕捉されたシーンの中で見つけられる捕捉された画像又は映像の、及び/又は視覚的オブジェクトの、特質又は特性を決定するために、映像解析モジュール224によって実施してもよい。
【0089】
300では、映像の少なくとも1つの画像フレームが、最前面エリアと背景エリアとに分割される。分割は、シーンの静止エリアから、捕捉されたシーンの中の移動オブジェクト(又は以前の移動オブジェクト)に対応する画像フレームのエリアを分離する。
【0090】
302では、画像フレームによって表されるシーンの中の1つ以上の最前面の視覚的オブジェクトが、300の分割に基づいて検出される。例えば、任意の別々の隣接した最前面エリア又は「ブロッブ」は、シーンの中の最前面の視覚的オブジェクトとして識別してもよい。例えば、ある一定のサイズ(例えば、画素の数)よりも大きな、隣接した最前面エリアだけが、シーンの中の最前面の視覚的オブジェクトとして識別される。
【0091】
検出された1つ以上の最前面エリアに関連して、メタデータを更に生成してもよい。メタデータは、画像フレーム内の最前面の視覚的オブジェクトの場所を定義してもよい。例えば、検出された最前面の視覚的オブジェクトの輪郭を描く境界ボックスを生成するために(例えば、映像を符号化する場合、又は映像を再生する場合)、メタデータの場所を更に使用してもよい。
【0092】
検出された1つ以上の最前面の視覚的オブジェクトの各々を視覚的に識別するために、視覚的指標を画像フレームに付加してもよい。視覚的指標は、画像フレーム内の1つ以上の最前面の視覚的オブジェクトの各々を取り囲む境界ボックスであってもよい。
【0093】
様々な実施例によれば、映像解析は、捕捉されたシーンの中のオブジェクトを検出することで終了してもよい。
【0094】
他の実施例において、映像解析は、304において、302で検出された最前面の可視オブジェクトを分類することを更に含んでもよい。例えば、最前面の視覚的オブジェクトを分類するために、パターン認識を実行してもよい。最前面の視覚的オブジェクトは、人、自動車、又は動物のような部類によって分類してもよい。加えて、又は代わりに、視覚的オブジェクトは、視覚的オブジェクトの移動及び移動の方向のようなアクションによって分類してもよい。色、サイズ、向きなどのような、他の分類指標を決定してもよい。より特殊な例において、視覚的オブジェクトを分類することは、顔検出及び、ナンバープレートのようなテキストを認識することに基づいて、人を識別することを含んでもよい。視覚的分類は、共同所有される米国特許第8,934,709号で説明されるシステム及び方法に従って実施してもよい。ここで米国特許第8,934,709号は、参照によってその全体が本明細書に組み込まれる。
【0095】
映像解析は、306において、事象が起こったかどうかを、及び事象のタイプを検出することを更に含んでもよい。事象を検出することは、1つ以上の予め定義されたルールによって、1つ以上の最前面の視覚的オブジェクトの分類を比較することに基づいてもよい。事象は、異常検出又はビジネスインテリジェンスにおける事象であってもよく、ここで異常検出又はビジネスインテリジェンスとは、映像わなが誘発されたかどうか、1つのエリアに存在する人の数、シーンの中のオブジェクトが残されたかどうか、又はシーンの中のオブジェクトが除去されたかどうか、のようなものである。
【0096】
さて図3Aを参照すると、そこには、一実施形態による、映像解析モジュールの動作サブモジュールのセット400のブロック図が例示されている。映像解析モジュール400は、様々なタスクを実施するための、多くのモジュールを含む。例えば、映像解析モジュール400は、映像捕捉デバイス108の視野の中に現れるオブジェクトを検出するための、オブジェクト検出モジュール404を含む。オブジェクト検出モジュール404は、例えば、移動検出及びブロッブ検出のような、任意の既知のオブジェクト検出を使用してもよい。オブジェクト検出モジュール404は、「時空信号において関心のあるオブジェクトを検出するための方法及びシステム」と題する、共通所有の米国特許第7,627,171号において説明されるシステムを含み、且つその検出方法を使用してもよい。ここで米国特許第7,627,171号の内容全体は、参照によって本明細書に組み込まれる。
【0097】
映像解析モジュール400はまた、オブジェクト検出モジュール404に接続されたオブジェクト追跡モジュール408を含んでもよい。オブジェクト追跡モジュール408は、オブジェクト検出モジュール404によって検出されるオブジェクトの事例を時間的に関連させるように動作可能である。オブジェクト追跡モジュール408は、「追跡、索引付け、及び検索のためのオブジェクトマッチング」と題する、共通所有の米国特許第8,224,029号において説明されるシステムを含み、且つその方法を使用してもよい。ここで米国特許第8,224,029号の内容全体は、参照により本明細書に組み込まれる。オブジェクト追跡モジュール408は、自身が追跡する視覚的オブジェクトに対応するメタデータを生成する。メタデータは、オブジェクトの外見又は他の特徴を表す視覚的オブジェクトの署名に対応してもよい。メタデータは、格納のために、メタデータ・データベース256に送信してもよい。
【0098】
映像解析モジュール400はまた、オブジェクト追跡モジュール408に接続された一時的なオブジェクト分類モジュール412を含む。一時的なオブジェクト分類モジュール412は、時間とともにオブジェクトの外見を考慮することによって、そのタイプ(例えば、人間、車両、動物)に従ってオブジェクトを分類するように動作可能である。換言すれば、オブジェクト追跡モジュール408は、多数のフレームに対してオブジェクトを追跡し、且つ一時的なオブジェクト分類モジュール412は、多数のフレームにおけるその外見に基づいて、オブジェクトのタイプを決定する。例えば、人の歩き方の歩様解析は、人を分類するのに有用であり得るし、又は、人の脚の解析は、自転車に乗る人を分類するのに有用であり得る。一時的なオブジェクト分類モジュール412は、オブジェクトの軌跡に関する情報(例えば、軌跡が滑らかであるか、又は混沌としているかどうか、オブジェクトが動いているか、又は静止しているかどうか)と、多数のフレームわたって平均化された、オブジェクト分類モジュール416(以下で詳細に説明される)によって行われる分類の信頼度とを組み合わせてもよい。例えば、オブジェクト分類モジュール416によって決定された分類の信頼値は、オブジェクトの軌跡の滑らかさに基づいて調節してもよい。一時的なオブジェクト分類モジュール412は、視覚的オブジェクトがオブジェクト分類モジュールによって分類されるまで、オブジェクトを未知の分類に割り当ててもよい。ここで該オブジェクト分類モジュールとは、十分な回数及び所定数の統計が集められたものである。オブジェクトを分類する上で、一時的なオブジェクト分類モジュール412はまた、どれだけ長くオブジェクトが視野の中にいるか、ということを考慮してもよい。一時的なオブジェクト分類モジュールは、上で説明された情報に基づいて、オブジェクトの部類についての最終決定を行う。一時的なオブジェクト分類モジュール412はまた、オブジェクトの部類を変更するために、履歴的アプローチを使用してもよい。より具体的には、オブジェクトの分類を未知の部類から確かな部類へ遷移させるために、閾値を設定してもよく、且つその閾値は、反対の遷移(例えば、人間から未知への)に対する閾値より大きくてもよい。一時的なオブジェクト分類モジュール412は、オブジェクトの部類に関連するメタデータを生成してもよく、且つそのメタデータは、メタデータ・データベース256に格納してもよい。一時的なオブジェクト分類モジュール412は、オブジェクト分類モジュール416によって行われた分類を集計してもよい。
【0099】
映像解析モジュール400はまた、好ましくは、オブジェクト検出モジュール404に直接又は間接に接続されたオブジェクト分類モジュール416を含む。一時的なオブジェクト分類モジュール412とは対照的に、オブジェクト分類モジュール416は、オブジェクトの単一の事例(例えば、単一の画像)に基づいて、視覚的オブジェクトのタイプを決定してもよい。オブジェクト分類モジュール416への入力は、好ましくは、画像フレームのサブ領域であり、関心のある視覚的オブジェクトは、画像フレーム全体というよりは、該サブ領域の中に位置する。画像フレームのサブ領域をオブジェクト分類モジュール416に入力する利点は、分類のためには、シーン全体が解析される必要はなく、それによって、より少ない処理能力が要求される、ということである。オブジェクト分類モジュール416の複雑さを更に簡単化するために、明らかな分類を捕らえるための発見手法に基づくモジュールのような、他の予備的なモジュールを含むことも可能である。
【0100】
代替的な配列において、オブジェクト分類がオブジェクト追跡の前に起こるように、オブジェクト分類モジュール416は、オブジェクト検出モジュール404の後で、しかもオブジェクト追跡モジュール408の前に配置される。別の代替的配列において、オブジェクト検出モジュール404、オブジェクト追跡モジュール408、一時的なオブジェクト分類モジュール412、及びオブジェクト分類モジュール416は、上の参照において説明されたように、相互に関連付けられる。
【0101】
オブジェクト分類モジュール416は、図3Bのブロック図に描かれるように、多くのオブジェクト分類器を含む。例えば、オブジェクト分類モジュール416は、検出されたオブジェクトの画像が完全な人体に対応するかどうかを決定する完全な人体分類器424と、検出されたオブジェクトの画像が人間の胴体に対応するかどうかを決定する人間胴体分類器428と、検出されたオブジェクトの画像が車両に対応するかどうかを決定する車両分類器432とを含んでもよい。オブジェクト分類モジュール416は、任意の数の異なる分類器を含んでもよく、且つ、以下でより詳細に説明されるように、カメラシステムが配備され、且つ機能している場合でさえも、ユーザはオブジェクト分類モジュール416に対して、オブジェクトの新しい分類を創出してもよい。換言すれば、オブジェクト分類モジュール416は、現場での訓練が可能である。
【0102】
オブジェクト分類器は、オブジェクトの特徴(例えば、外見の特性)に基づいて、オブジェクトを分類するように動作可能である。例えば、完全な人体分類器424は、オブジェクトの特徴に対応するデータ(即ち、入力パターンX)を受信し、且つ、オブジェクトが完全な人体に対応するか否かを決定する。オブジェクト分類モジュール416がオブジェクトを分類した後で、オブジェクトの分類及びオブジェクトの特徴を表すメタデータを、メタデータ・データベース256に格納してもよい。
【0103】
オブジェクト分類モジュール416によって使用され得る特徴は、今からより詳細に説明されるであろう。以下で説明される訓練アルゴリズムは、一セットの特徴F={f1,f2,・・・,fn}から一サブセットの特徴F={fk1,fk2,・・・,fkm}を選択する。入力パターンXは、Fの要素で構成される。Fの要素は、オブジェクトの画像領域Rの何らかの変形として見てもよい。従って、Xは以下の形を取ってもよい。
【0104】
オブジェクトの特徴f1,f2,・・・,fmは、以下に限定されるものではないが、アスペクト比、意図、縁の向き、及び正規化された彩度のような、多くの外見的特性に対応してもよい。その上、f1,f2,・・・,fmは、外見的特性の特性ベクトルを表してもよく(例えば、ヒストグラムであり、該ヒストグラムにおいては、ヒストグラム容器は、ベクトル成分に対応する)、且つ、オブジェクトの部類(例えば、タイプ)を決定するために、1つ以上のオブジェクト分類器によって使用してもよい。例えば、オブジェクトの縁の向きのヒストグラムは、オブジェクトの画像の異なる領域(例えば、サブウィンドウ)に対して構成してもよい。換言すれば、オブジェクトの画像は、サブウィンドウに分割してもよく、且つ、サブウィンドウの各画素に対して計算してもよい。画素の縁の向きは、(例えば、複数の方向におけるガウシアン微分フィルタを用いた)操縦可能なフィルタを使用して引き出してもよい。操縦可能なフィルタを使用することによって、支配的な方向をサブウィンドウの画素に割り当てることが可能であり、且つ、方向のヒストグラムをサブウィンドウに対して構成することが可能になる。例えば、ある与えられた画素に対して、操縦可能なフィルタは、複数の応答を生成するために、複数の方向において使用してもよく、且つ最大の方向性微分応答に対応する方向は、画素の方向として割り当てられる。
【0105】
オブジェクト分類器の1つに対する分類の問題は、一般に分類器関数Γ(X)によって定義してもよく、分類器関数Γ(X)においては、入力パターンXによって表される視覚的オブジェクトは、Γ(X)>0の場合にはオブジェクト部類のメンバとして表され、又は、Γ(X)<0の場合にはオブジェクト部類の非メンバとして表される。一般に、分類器関数Γ(X)は、一セットのパラメータによってパラメータ表示され、且つ入力パターンは、上で説明された特徴で構成される。関心のあるオブジェクト部類に対して、特定の分類器Γc(X)が訓練される。図3Aのオブジェクト分類モジュール416によって表される多部類分類モデルは、以下のように、数学的に定義してもよい。

ここでωは、オブジェクト部類、且つΩは、全てのオブジェクト部類のセットを表す。
【0106】
ある与えられた視覚的オブジェクト部類に対する分類器関数R(X)は、ルール(例えば、視覚的オブジェクトのサイズ及びアスペクト比)を定義することによって構築してもよい。分類器関数は、訓練データを用いた機械学習を適用することによって、更に訓練してもよい。当技術分野で既知であるように、分類器を訓練することは、その分類器のルールを更に改良するべく探求することであり、その結果として、分類器は、ある与えられた視覚的オブジェクトをより正確に分類するであろう。訓練データは、肯定的な訓練例及び/又は否定的な訓練例を含んでもよい。肯定的な訓練例とは、オブジェクトの特定の部類に属すると確認された視覚的オブジェクトの事例のことを指す。肯定的な訓練例は、分類器を訓練して、そのルールを改良するのに役立ち、その結果として、ある与えられた視覚的オブジェクトは、その肯定的な訓練例の部類に入るものとして、より正確に肯定的に分類される。否定的な訓練例とは、オブジェクトの特定の部類に属さない視覚的オブジェクト又は他の視覚的表現の事例のことを指す。否定的な訓練例は、分類器によって、オブジェクトの特定の部類に属するとして誤分類された視覚的オブジェクトの例であってもよい。否定的な訓練例は、分類器を訓練するのに役立つ。
【0107】
オブジェクト分類器を訓練するための機械学習は、以下に限定されるものではないが、畳み込みニューラルネットワーク、サポートベクトルマシン、デシジョンツリー、ランダムフォレスト、及びカスケード分類器のような、当技術分野で既知である任意の適切な機械学習技術であってもよい。
【0108】
オブジェクト分類器の訓練は、管理してもよい。管理された訓練において、肯定的な訓練例及び/又は否定的な訓練例は、人間のユーザによって確認されてきた。例えば、大きなバッチの画像の中で、一人以上の人間のユーザが、個々に検査し、且つ、部類(例えば、人、車両、動物)に属する視覚的オブジェクトを表すものとして、又は視覚的オブジェクトを含まないものとして、各画像にラベルを付ける。
【0109】
オブジェクト分類器の訓練はまた、管理しなくてもよい。管理されない訓練においては、オブジェクト検出モジュール404によって検出されるオブジェクトのような、1つ以上の視覚的オブジェクトを最初に分類するために、基礎分類器が使用される。視覚的オブジェクト及び、基礎分類器によって決定された分類の結果(例えば、視覚的オブジェクトが特定のオブジェクト部類に属するという肯定的な決定)は、基礎分類器の更なる訓練のための肯定的な訓練例として使用される。オブジェクトが検出されなかった画像データはまた、オブジェクト分類器を訓練するための否定的な訓練例として使用してもよい。管理されない訓練において、肯定的な訓練例として、又は否定的な訓練例として使用される画像データは、人間のユーザによって検査されない。
【0110】
本明細書における基礎分類器は、ルールの定義を通して構成された、及び/又はある程度のオブジェクト分類を実施するための機械学習の適用による訓練を通して構成されたオブジェクト分類器を指すが、しかし該オブジェクト分類器は、コンピュータ履行型の視覚的機械語を使用した、なお更なる訓練を通して最適化することが可能である。
【0111】
さて図4を参照すると、そこには、基礎分類器の更なる訓練のための方法500のフローチャートが例示されている。方法500は、単一の基礎分類器の訓練のために例示されているが、方法500は、複数の基礎分類器を平行して訓練するために適用してもよい、ということは理解されるであろう。例えば、本明細書の別の個所で説明されるように、オブジェクト分類モジュール416は、複数のオブジェクト分類器を含んでもよく、各分類器は、視覚的オブジェクトが特定のタイプの部類に属するかどうかを決定するように動作可能である。従って、オブジェクト分類モジュール416の複数のオブジェクト分類器は、それに提供される訓練例に基づいて、まとめて訓練してもよい。例えば、特定の部類の最前面の視覚的オブジェクトである訓練例は、同じ部類に関連する分類器のための肯定的な訓練例として使用してもよい。
【0112】
504では、基礎分類器が提供される。基礎分類器は、視覚的な訓練例を使用した機械学習の適用を通して更に訓練され得る、任意の分類器であってもよい。
【0113】
508では、1つ以上の訓練例を受信してもよい。訓練例は、肯定的な訓練例、及び/又は否定的な訓練例であってもよく、これらの訓練例は、自動的に準備してもよく、又は管理された条件下で準備してもよい。
【0114】
512では、基礎分類器は、入力として508で受信された訓練例を使用した機械学習を基礎分類器に適用することによって、更に訓練される。
【0115】
幾つかの実施形態において、ステップ508及びステップ512は、基礎分類器の更新が反復プロセスに追随するように繰り返される、ということは理解されるであろう。即ち、第1バッチの複数の訓練例は、第1の反復において、機械学習によって基礎分類器を訓練するために適用してもよい。第2バッチの複数の訓練例は、続いて起こる第2の反復において、機械学習によって分類器の更なる訓練のために更に適用してもよい。
【0116】
516では、ステップ508及びステップ512の後で訓練された基礎分類器は、最前面の視覚的オブジェクトの分類のために、現場において配備される。
【0117】
幾つかの例において、ステップ508及びステップ512からの基礎分類器の訓練は、516において、訓練された分類器の配備に先立って実行してもよい。
【0118】
他の例において、ステップ508及びステップ512での基礎分類器の訓練は、オブジェクト分類器が現場で既に配備されている間に実施してもよい。訓練例は、そのデバイスが現場で配備されている場合、映像捕捉デバイスの視野の中に存在する実世界のオブジェクトの視覚的表現であってもよい。例えば、基礎分類器は、最初に配備され、且つ、配備の間に、現場508から検出された最前面の視覚的オブジェクトから、徐々に訓練してもよい。
【0119】
訓練例として使用される視覚的オブジェクトは、管理された方法(例えば、人間のユーザによって視覚的に検査される)において、又は管理されない方法(例えば、コンピュータ履行型のオブジェクト分類器によって分類される)において、ある部類に属するものとして識別してもよい。
【0120】
さて図5を参照すると、そこには、一実施例による、基礎分類器の更なる訓練のための、改善されたコンピュータ履行型の方法540のフローチャートが例示されている。方法540は単一の基礎分類器の訓練のために例示されているが、方法540はまた、複数の基礎分類器を平行して訓練するために適用してもよい、ということは理解されるであろう。例えば、本明細書の別の箇所で説明されるように、オブジェクト分類モジュール416は、複数のオブジェクト分類器を含んでもよく、各分類器は、視覚的オブジェクトが特定の部類に属するかどうかを決定するように動作可能である。従って、オブジェクト分類モジュール416の複数のオブジェクト分類器は、それに提供される訓練例に基づいて、まとめて訓練してもよい。例えば、特定の部類の視覚的オブジェクトである訓練例は、同じ部類に関連する分類器に対する肯定的な訓練例として使用してもよい。
【0121】
504では、基礎分類器が提供される。基礎分類器は、視覚的オブジェクトの訓練例を使用した機械学習の適用を通して、更に最適化することが可能である。
【0122】
544では、最前面の視覚的オブジェクトが、シーンを表す画像データ内で検出される。本明細書におけるシーンとは、ある時間間隔にわたって映像捕捉デバイスの視野内で捕捉される視覚的表現のことを指す。映像捕捉デバイスは、その視野が変更されないままであるように、この時間間隔にわたって静止している。従って、その時間間隔にわたって捕捉されるシーンもまた変更されないままであるが、しかしそのシーン内のオブジェクト(例えば、人間、車両、他のオブジェクト)は、その時間間隔にわたって変化していてもよい。シーンの視覚的表現は、その時間間隔にわたって映像捕捉デバイスによって生成される画像データの画像フレームであってもよい。
【0123】
最前面の視覚的オブジェクトはまた、人間のオペレータによって、又はコンピュータ履行モジュールによって、特定の部類に属するものとして肯定的に分類してもよい。検出される最前面の視覚的オブジェクトは、シーンのサブ領域内に位置する。例えば、シーンのサブ領域は、検出される最前面の視覚的オブジェクトが位置する画像データの画像フレームの一部分に対応してもよい。例えば、シーンのサブ領域は、画像フレームのサブ領域に対応してもよく、ここで該サブ領域は、検出された最前面の視覚的オブジェクトを視覚的に識別するためのオブジェクト検出モジュール404によって描かれた境界ボックスによって境界が定められる。
【0124】
548では、検出された視覚的オブジェクトの背景モデルが決定される。背景モデルは、シーン又はシーンのサブ領域の視覚的表現であるが、しかし、その場合、任意の最前面の視覚的オブジェクトは、シーン又はサブ領域から欠けている。検出された最前面の視覚的オブジェクトの背景モデルは、検出される最前面の視覚的オブジェクトが位置するシーンのサブ領域の背景モデルである。
【0125】
例えば、544で検出された最前面の視覚的オブジェクトが人間であり、且つシーンのサブ領域が部屋のあるエリアに対応する場合、そのサブ領域の背景モデルは、その人間又は任意の他の人間が存在しない状態での、該部屋のそのエリアを表す。
【0126】
例えば、544で検出された最前面の視覚的オブジェクトが車両であり、且つそのシーンのサブ領域が、該車両が位置する駐車場の一部分に対応する場合、そのサブ領域の背景モデルは、その車両、又は任意の他の車両が存在しない状態での、該駐車場のその部分を表す。
【0127】
552では、基礎分類器は、544で検出された最前面の視覚的オブジェクトを肯定的な訓練例として使用した機械学習を基礎分類器に適用することによって、任意選択的に更に訓練される。
【0128】
556では、基礎分類器は、検出された最前面の視覚的オブジェクトを否定的な訓練例として使用した機械学習を基礎分類器に適用することによって、更に訓練される。
【0129】
ステップ544からステップ556は、検出された且つ/又は分類された複数の視覚的オブジェクトに対して、繰り返してもよい。544で検出された各視覚的オブジェクトに対して、視覚的オブジェクトが位置するシーンのサブ領域に特有である背景モデルが、548で決定され、且つ、556で基礎分類器を訓練するために適用される。
【0130】
他の例において、基礎分類器は、複数の訓練例のバッチを使用した機械学習を基礎分類器に適用することによって、訓練してもよい。このバッチは、複数の異なるシーンのサブ領域の中で検出された最前面の視覚的オブジェクトの複数の背景モデルを含む。
【0131】
幾つかの実施形態において、ステップ544及びステップ556は、基礎分類器の更新が反復プロセスに追従するように繰り返される、ということは理解されるであろう。即ち、1つ以上の訓練例の第1のバッチは、第1の反復において、機械学習によって基礎分類器を訓練するために適用してもよい。第2のバッチの複数の訓練例は、続いて起こる第2の反復において、機械学習によって第1の反復の後に訓練された基礎分類器を更に訓練するために、更に適用してもよい。
【0132】
516では、ステップ556の後で訓練された、及び、任意選択的にステップ552の後で訓練された基礎分類器は、付加的な最前面の視覚的オブジェクトの分類のために、現場において配備される。
【0133】
本明細書の別の箇所で説明されるように、基礎分類器の訓練は、訓練される分類器を配備する前に実行してもよく、又は、オブジェクト分類器が既に現場で配備されている間に実行してもよい。
【0134】
図6Aから図6Fは、シーンのサブ領域で検出された最前面の視覚的オブジェクト、及びそれらの対応する背景モデルを示す。例えば、図6Aは、歩道部分の上を歩いている人を示す。歩いている人は、検出される最前面の視覚的オブジェクトである。図6Bは、図6Aの視覚的オブジェクトの背景モデルを示す。背景モデルは、歩いている人、又は他の任意の最前面の視覚的オブジェクトが存在しない状態での、歩道の同じ部分を示す、ということは正しく認識されるであろう。
【0135】
図6Cは、飛行機の階段を降りている人を示す。人が、検出される最前面の視覚的オブジェクトである。図6Dは、図6Cの最前面の視覚的オブジェクトの背景を示す。背景モデルは、人又は他の任意の最前面の視覚的オブジェクトが存在しない状態での、同じ飛行機の階段を示す、ということは正しく認識されるであろう。
【0136】
図6Eは、道路の部分を走行する車両を示す。車両は、検出される最前面の視覚的オブジェクトである。図6Fは、図6Eの最前面の視覚的オブジェクトの背景モデルを示す。背景モデルは、車両又は他の任意の最前面の視覚的オブジェクトが存在しない状態での、道路の同じ部分を示す、ということは正しく認識されるであろう。
【0137】
様々な実施例によれば、検出される視覚的オブジェクトの背景モデルは、履歴的画像フレームから決定される。最前面の視覚的オブジェクトは、映像捕捉デバイスによって捕捉される映像を形成する画像データの連続した画像フレームの現在の画像フレームの、ある与えられたサブ領域内で検出される。履歴的画像フレームは、連続した画像フレームにおける以前の画像フレームであり、ここで該連続した画像フレームにおいては、最前面の視覚的オブジェクト及び、他の任意の最前面の視覚的オブジェクトは、その以前の画像フレームからは欠けている。この場合、現在の画像フレーム及び履歴的画像フレームは、同じシーンを表す。即ち、映像捕捉デバイスは、履歴的画像フレームの時間と現在の画像フレームの時間との間は静止しており(即ち、動いていない)、その結果として、映像捕捉デバイスは、同じシーンを捕捉している。最前面の視覚的オブジェクトが位置する現在の画像フレームのサブ領域に対応する履歴的画像フレームのある与えられたサブ領域は、履歴的画像フレームから取り入れられる。このようにして取り入れられた履歴的画像フレームは、検出された最前面の視覚的オブジェクトの背景モデルである。この取り入れられた履歴的画像フレームは、基礎分類器の更なる訓練のために、否定的な例として556で提供される。
【0138】
様々な実施例によれば、シーン全体の完全な背景モデルは、最初に構成してもよい。シーンのある与えられたサブ領域の背景モデルは、その後、完全な背景モデルから抜き出すことが可能である。
【0139】
例えば、あまり忙しくないシーンでは(そのようなシーンでは、最前面の視覚的オブジェクトがあまり生じない)、最前面のオブジェクトが全く無い単一の履歴的画像フレームを、完全な背景モデルとして使用してもよい。
【0140】
より忙しいシーンでは、シーン内にいつでも、少なくとも1つの最前面の視覚的オブジェクトが常に存在するかもしれない。そのようなシーンに対しては、完全な背景モデルを形成するために、複数の履歴的画像フレームから異なるサブ領域を集計することによって、完全な背景モデルを構成してもよい。
【0141】
一例によれば、複数の履歴的画像フレームが選択される。これらの履歴的画像フレームの各々は、任意の最前面のオブジェクトが無い画像フレームの、少なくとも1つのサブ領域を含む。
【0142】
各選択された履歴的画像フレームの任意の最前面の部ジェクトが無い、1つ以上のサブ領域の座標が決定される。これらのサブ領域は、それらのそれぞれの履歴的画像フレームから取り入れてもよい。
【0143】
複数の履歴的画像から取り入れられるようなサブ領域は、その後、集計されて、集計された画像を形成する。シーン全体を表す集計された画像は、複数の履歴的画像フレームを適切に選択することによって得ることが可能であり、その結果として、任意の最前面のオブジェクトが無い、これらのフレームのサブ領域は、シーン全体を集合的に含む。従って、集計された画像は、シーンの完全な背景モデルを形成する。例えば、複数の履歴的画像から取り入れられるような画像のサブ領域は、当技術分野で既知である縫い合わせの方法に従って、集計された画像を形成するように縫い合わせてもよい。
【0144】
従って、シーンのある与えられたサブ領域内に最前面の視覚的オブジェクトを検出した後、視覚的オブジェクトが検出される、与えられたサブ領域に対応する集計された画像のサブ領域を取り入れることによって、そのサブ領域の背景モデルを得ることが可能である。
【0145】
図7Aは、広場であるシーン例を表す第1の完全な履歴的画像フレームを示す。食事エリア及び草の多いエリアの一部を含む第1のサブ領域700は、任意の最前面の視覚的オブジェクトが無い、ということは正しく認識されるであろう。従って、第1のサブ領域700は、完全な背景モデルを形成するための、集計されるべきサブ領域の1つとして使用してもよい。しかしながら、階段を含む第2のサブ領域708は、その中に位置する人を有する。第1の完全な履歴的画像フレームの中の、この第2のサブ領域708は最前面の視覚的オブジェクトを含むので、完全な背景モデルを構築するために、第2のサブ領域708を使用することは可能でない。
【0146】
図7Bは、広場の同じシーンを表す、第2の完全な履歴的画像フレームを示す。第2の完全な履歴的画像フレームは、第1の完全な履歴的画像よりも時間的に早い点で捕捉された。第2の完全な履歴的画像フレームの中の第2のサブ領域708は、最前面の視覚的オブジェクトが無い、ということは正しく認識されるであろう。第1の完全な履歴的画像フレームの中の階段にいた人は、今は完全に階段を降りている。従って、第2の完全な履歴的画像フレームの中のこの第2のサブ領域708は、完全な背景モデルを形成するための、集計されるべきサブ領域の1つとして使用してもよい。完全な背景モデルを形成するために適切であるシーンの他のサブ領域は、同じ方法で決定してもよい。
【0147】
さて図8を参照すると、そこには、代替的な実施例による、基礎分類器の更なる訓練のための、改善されたコンピュータ履行型の方法558のフローチャートが例示されている。代替的な例の方法558は、方法540と同じステップを含むが、しかしまた、付加的なステップ560及びステップ564を含む。
【0148】
560では、誤分類されたシーンのサブ領域が提供される。誤分類されたシーンのサブ領域とは、次のようなサブ領域のことを指す。即ち、該サブ領域においては、該サブ領域がその部類の任意のオブジェクトを実際には含まない場合、オブジェクト分類器が、特定の部類に属しているオブジェクトを含むものとして、該サブ領域を誤って分類してしまった、というようなサブ領域のことである。
【0149】
誤分類されたサブ領域は、管理された環境の中で決定されるかもしれない。この場合、該管理された環境においては、オブジェクト分類器によって分類されるオブジェクトは、オブジェクト分類器によって行われた任意の誤分類を識別する人間によって見直される。
【0150】
誤分類されたサブ領域は、部分的に管理された環境において決定されるかもしれないし、又は完全に管理された環境において決定されるかもしれない。一例において、オブジェクトが存在しない画像フレームのサブ領域が、オブジェクト分類器に供給される可能性がある。該サブ領域が特定の部類に属するオブジェクト(背景以外のもの)含むという、オブジェクト分類器による分類は、誤ったものであろう。そして該サブ領域は、誤分類されたサブ領域として識別される。
【0151】
誤分類されたサブ領域が識別されるシーンは、544で最前面の視覚的オブジェクトが検出されるシーンと同じシーンであるかもしれない。代わりに、誤分類されたサブ領域のシーンは、最前面の視覚的オブジェクトが検出されるシーンと異なっているかもしれない。
【0152】
564では、基礎分類器は、誤分類されたサブ領域を否定的な訓練例として使用した機械学習を基礎分類器に適用することによって、更に訓練される。
【0153】
516では、検出された視覚的オブジェクトの背景モデル、誤分類されたサブ領域及び、任意選択的に、検出された視覚的オブジェクトから訓練された分類器は、更に検出された視覚的オブジェクトの分類のために配備される。
【0154】
さて図9を参照すると、そこには、一実施例による、基礎分類器のシーン特有の訓練のための、改善されたコンピュータ履行型の方法600のフローチャートが例示されている。方法例600の数多くのステップは、方法例540のステップと類似であるか、又は同じであり、且つ、方法例540に関して提供される説明は、方法例600に対しても適用可能である、ということは理解されるであろう。シーン特有の方法600はまた、代替的な方法例560に従って適用してもよい、ということは理解されるであろう。
【0155】
504では、基礎分類器が提供される。
【0156】
基礎分類器を提供することに続いて、基礎分類器の訓練が始まる。基礎分類器は、特に現在の実世界のシーンに対して訓練される。現在のシーンは、特定の場所に位置決めされ、且つ、特定の方向に向けられた特定のカメラの視野に対応してもよい。
【0157】
544では、最前面の視覚的オブジェクトが、現在のシーンを表す画像データ内で検出される。
【0158】
548では、検出されたオブジェクトの背景モデルが決定される。
【0159】
552では、544で現在のシーンから検出された最前面の視覚的オブジェクトを肯定的な訓練例として使用した機械学習を基礎分類器に適用することによって、基礎分類器が任意選択的に訓練される。
【0160】
556では、548で決定された最前面の視覚的オブジェクトの背景モデルを否定的な訓練例として使用した機械学習を基礎分類器に適用することによって、基礎分類器が訓練される。
【0161】
516では、最前面の視覚的オブジェクト及び/又は現在のシーンの背景モデルに基づいて訓練された基礎分類器が、現在のシーンで見つけられるオブジェクトを分類するために配備される。
【0162】
現在のシーンが変わらないままである限り、ステップ544からステップ556は、現在のシーンで見つけられる複数の例を使用した機械学習を適用することによって基礎分類器を更に訓練するように繰り返してもよい、ということは理解されるであろう。本明細書の別の箇所で説明されるように、ステップ544からステップ556は、基礎分類器の更新が反復プロセスに追従するように、繰り返してもよい。
【0163】
608では、現在のシーンが変化したかどうかが決定される。現在のシーンにおけるそのような変化は、そのシーンを捕捉していたカメラの場所における変化のために起こるかもしれない。そのような変化はまた、そのシーンを捕捉していたカメラの向きにおける変化のために起こるかもしれない。そのような変化は更にまた、そのシーンを捕捉していたカメラの設定における変化のために起こるかもしれない。ここで設定における変化とは、カメラによって適用されるズーム、又はカメラの動作モード(例えば、通常の光モードから低光モードへの切り換え)における著しい変化のようなものである。
【0164】
もし608でシーンが変わらないままである場合、方法600は、シーン内で付加的な視覚的オブジェクトを検出すると共に分類するために、544へ戻ってもよい。代わりに、方法600は、現在のシーンに対して、ステップ544からステップ556で訓練されたオブジェクト分類器の配備を続けるために、516に戻ってもよい。
【0165】
もしシーンが608で変わる場合、方法は、少なくとも部分的には基礎分類器へ逆戻りするために、ステップ616へ進む。幾つかの例において、シーンに変化がある場合、516において現在配備されているオブジェクト分類器は、基礎分類器へ完全に逆戻りする。
【0166】
ステップ616で基礎分類器へ逆戻りした後、シーンにおける変化から生じる新しいシーンを、現在のシーンとして設定してもよい。方法600は、その後、「新しい」現在のシーンで見つけられる最前面の視覚的オブジェクトを検出すると共に分類するために、544へ戻ってもよい。ステップ616の逆戻りの後で、それらのオブジェクトに対応するこれらのオブジェクト及び/又は背景モデルを、基礎分類器を更新するために、適用してもよい。
【0167】
基礎分類器へ逆戻りすることは、次の状況では有用かもしれなく、正しく認識されるであろう。その状況とは、最初のシーン及び続いて起こるシーンの特性は、著しく異なっており、その結果として、最初のシーンの特性に従う基礎分類器の訓練は、次に起こるシーンには適用できない、というものである。基礎分類器へ逆戻りすることによって、特に次に起こるシーンの特性のために、分類器を再訓練することが可能である。
【実験】
【0168】
一実験によれば、訓練例の異なるセットを使用して訓練される場合に、基礎分類器(Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton, "ImageNet Classification with deep convolution neural networks", NIPS 2012において説明される、「AlexNet」として知られる深い畳み込みニューラルネットワークの具体的なアーキテクチャ)が評価された。
【0169】
訓練例は、VIRATデータセット(http://www.viratdata.org)から取得された。このデータセットは、様々な静止カメラからの、300以上の映像を含む。人間部類の視覚的オブジェクト及び車両部類の視覚的オブジェクトが、VIRATデータセットから引き出され、且つ、第1セットの訓練例として使用された。背景モデルは、訓練例として使用された各視覚的オブジェクトに対して決定された。これらの背景モデルは、第2セットの訓練例として使用される。
【0170】
人間部類及び車両部類に加えて、背景部類に属する訓練例もまた、VIRATデータセットから引き出された。背景部類の訓練例を生成するために、人間部類の最前面の視覚的オブジェクト又は車両部類の最前面の視覚的オブジェクトを含まない画像サンプルが準備された。各画像サンプルは、VIRATデータセットの中で見つけられる映像の画像フレームが取り入れられた部分である。ニューラルネットワーク分類器に基づかない分類器のような、単純なオブジェクト分類器が、これらの画像サンプルを分類するために使用される。単純な分類器が、人間部類又は車両部類に入る視覚的オブジェクトを含むものとして画像サンプルの任意の1つを分類する場合、誤分類が起こる。これらの誤分類された画像サンプルは、第3のセットの訓練例に含まれる。
【0171】
AlexNet分類器は、VIRATデータセットから引き出される訓練例によって訓練されるべき基礎分類器として提供される。肯定的な訓練例及び否定的な訓練例が、Berkeley Vision and Learning Center(caffe.berkeleyvision.orgにおいて入手可能)からのCaffe deep learning frameworkを使用して、基礎分類器を訓練するために適用される。基礎分類器の更新は、Tesla K80 GPU上で実施された。
【0172】
実験の第1の部分において、肯定的な訓練例(100の肯定的な訓練例)として第1のセットの例を適用することによって、及び否定的な訓練例(100の否定的な訓練例)として第2のセットの訓練例を適用することによって、基礎分類器が訓練された。基礎分類器のこの訓練によって、第1の訓練された試験分類器が産出された。
【0173】
実験の第2の部分において、肯定的な訓練例(100の肯定的な訓練例)として第1のセットの例を適用することによって、及び否定的な訓練例(100の否定的な訓練例)として第3のセットの訓練例を適用することによって、基礎分類器が訓練された。基礎分類器のこの訓練によって、第2の訓練された試験分類器が産出された。
【0174】
実験の第3の部分において、肯定的な訓練例(100の肯定的な訓練例)としての第1のセットの例を適用することによって、及び否定的な訓練例として第2のセットの訓練例と第3のセットの訓練例とを混合したものを適用することによって、基礎分類器が訓練された。より正確には、基礎分類器を訓練するために、第2のセットから50の訓練例、及び第3のセットから50の訓練例が、否定的な訓練例として適用された。基礎分類器のこの訓練によって、第3の訓練された試験分類器が産出された。
【0175】
第1の訓練された試験分類器、第2の訓練された試験分類器、及び第3の訓練された試験分類器の各々は、組織内の映像データセットからの映像の試験セット対するオブジェクト分類のために配備された。分類器の各々を配備した場合のエラーレートが測定された。視覚的オブジェクトが誤分類される場合、又は、背景画像(例えば、最前面の視覚的オブジェクトが存在しない)が、人間部類又は車両部類にある視覚的オブジェクトであるとして分類される場合、エラーが発生したと考えられる。
【0176】
表1は、試験セットの映像に含まれる最前面の視覚的オブジェクトを分類するために配備される場合の、第1の訓練された試験分類器の性能を示す混乱マトリックスである。
表1:
【0177】
表2は、試験セットの映像に含まれる最前面の視覚的オブジェクトを分類するために配備される場合の、第2の訓練された試験分類器の性能を示す混乱マトリックスである。
表2:
【0178】
表3は、試験セットの映像に含まれる最前面の視覚的オブジェクトを分類するために配備される場合の、第3の訓練された試験分類器の性能を示す混乱マトリックスである。
表3:
【0179】
第1の訓練された試験分類器のエラーレートは14.36%であり、第2の訓練された試験分類器のエラーレートは15.42%であり、且つ第3の訓練された試験分類器のエラーレートは9.92%である。
【0180】
基礎分類器(第1の訓練された試験分類器及び第3の訓練された試験分類器)を訓練するために、最前面の視覚的オブジェクトの背景モデルを使用することによって、第2の訓練された試験分類器よりも低いエラーレートが示されたが、ここで第2の訓練された試験分類器においては、背景モデルは訓練サンプルとして使用されなかった、ということは正しく認識されるであろう。より低いエラーレートは、性能の改善を指し示すものである。より重要なことであるが、最前面の視覚的オブジェクトの背景モデルと背景部類のオブジェクトとを一緒に組み合わせたものを否定的な訓練例として使用することによって、著しく改善された性能が示される(第2の訓練された試験分類器に対して、35.6%低いエラーレート)、ということは正しく認識されるであろう。
【0181】
特別な理論に結びつけることなく、分類器を訓練するために、検出された視覚的オブジェクトの背景モデルを否定的な訓練例として使用することによって、分類器がシーンのオブジェクトを誤分類することが起こる頻度は減少するであろう。ここで別な方法をとった場合、該オブジェクトは、そのシーンの背景の一部を形成する。
【0182】
戻って図6Cを参照すると、画像の中に示されるシーンのサブ領域が、人及び街灯柱を含む、ということは正しく認識されるであろう。人は最前面の視覚的オブジェクトであり、且つ街灯柱は、シーンの背景の一部を形成する。しかしながら、このサブ領域が肯定的な訓練例として使用される場合、基礎分類器は、人部類の最前面の視覚的オブジェクトとして、街灯柱を認識するように訓練させられるであろう。例えば、もしシーンのこのサブ領域が、関心のあるオブジェクトを有することが多い実在の場所に対応する場合(例えば、頻繁に使用される廊下、小道、又は道路)、街灯柱は、複数のサブ領域に現れ、その場合、該複数のサブ領域は、各々が肯定的な訓練例として使用されるかもしれない。これは、分類器が、人部類のオブジェクトの事例として、街灯柱を認識するように訓練される可能性を高めるかもしれない。サブ領域の背景モデルを否定的な訓練例として使用することは、街灯柱がシーンの背景の一部を形成するというふうに分類器を訓練することによって、この効果を少なくとも部分的に打ち消すかもしれない。
【0183】
同様に、図6Fに示される背景モデルを使用して分類器を訓練することによって、分類器は、背景の一部を形成するものとして、垂直梁を認識するように訓練され、それによって、垂直梁又はそれと類似のオブジェクトを、人間部類又は車両部類に属するものとして分類する可能性を減少させる。
【0184】
より一般的には、特別な理論に結びつけることなく、背景モデルを使用して分類器を訓練することは、分類器が、実在のオブジェクトを正しく認識するように訓練されることをもたらす。この場合、該実世界のオブジェクトは、背景オブジェクトであるものとして、シーンの背景の一部を形成する。例えば、最前面の視覚的オブジェクトがしばしば検出されるようなシーンのサブ領域では、背景モデルを使用すること、そのサブ領域の背景モデルを否定的な訓練例として使用することは、分類器が、オブジェクトを誤って分類するように訓練される可能性を減少させるかもしれない。この場合、該オブジェクトは、特別な部類に属する最前面の視覚的オブジェクトとして、背景の一部を形成する。
【0185】
上の説明は実施形態の例を提供している一方で、説明された実施形態の精神及び動作原理から逸脱することなく、説明された実施形態の幾つかの特徴及び/又は機能が変更を受けやすい、ということは正しく認識されるであろう。従って、上で説明されてきたものは、非制限的であると例証されることが意図されている。そして、添付の特許請求の範囲に規定される本発明の範囲から逸脱することなく、他の変形及び変更がなされるであろう、ということは当業者によって理解されるであろう。
図1A
図1B
図1C
図2
図3A
図3B
図4
図5
図6
図7A
図7B
図8
図9