IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アクシス アーベーの特許一覧

特開2024-160208ビデオシーケンス中の第1の物体タイプの物体を検出するための方法、システムおよび非一時的コンピュータ可読記憶媒体
<>
  • 特開-ビデオシーケンス中の第1の物体タイプの物体を検出するための方法、システムおよび非一時的コンピュータ可読記憶媒体 図1
  • 特開-ビデオシーケンス中の第1の物体タイプの物体を検出するための方法、システムおよび非一時的コンピュータ可読記憶媒体 図2
  • 特開-ビデオシーケンス中の第1の物体タイプの物体を検出するための方法、システムおよび非一時的コンピュータ可読記憶媒体 図3
  • 特開-ビデオシーケンス中の第1の物体タイプの物体を検出するための方法、システムおよび非一時的コンピュータ可読記憶媒体 図4
  • 特開-ビデオシーケンス中の第1の物体タイプの物体を検出するための方法、システムおよび非一時的コンピュータ可読記憶媒体 図5
  • 特開-ビデオシーケンス中の第1の物体タイプの物体を検出するための方法、システムおよび非一時的コンピュータ可読記憶媒体 図6
  • 特開-ビデオシーケンス中の第1の物体タイプの物体を検出するための方法、システムおよび非一時的コンピュータ可読記憶媒体 図7
  • 特開-ビデオシーケンス中の第1の物体タイプの物体を検出するための方法、システムおよび非一時的コンピュータ可読記憶媒体 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024160208
(43)【公開日】2024-11-13
(54)【発明の名称】ビデオシーケンス中の第1の物体タイプの物体を検出するための方法、システムおよび非一時的コンピュータ可読記憶媒体
(51)【国際特許分類】
   G06V 10/80 20220101AFI20241106BHJP
   G06T 7/194 20170101ALI20241106BHJP
   H04N 23/60 20230101ALI20241106BHJP
【FI】
G06V10/80
G06T7/194
H04N23/60 500
【審査請求】未請求
【請求項の数】15
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024065717
(22)【出願日】2024-04-15
(31)【優先権主張番号】23169689
(32)【優先日】2023-04-25
(33)【優先権主張国・地域又は機関】EP
(71)【出願人】
【識別番号】502208205
【氏名又は名称】アクシス アーベー
(74)【代理人】
【識別番号】110002077
【氏名又は名称】園田・小林弁理士法人
(72)【発明者】
【氏名】ハスブリング, ルドビック
(72)【発明者】
【氏名】ユアン, ソン
(57)【要約】      (修正有)
【課題】ビデオシーケンス中の第1の物体タイプの物体を検出する。
【解決手段】方法は、ビデオシーケンス中の各画像フレーム中のシーンの各領域を、第1の物体タイプを検出する第1のアルゴリズムで分析し、複数の画像フレームのうちの最後の画像フレーム中の第1の物体タイプの物体を検出し、第2のアルゴリズムを使用してビデオシーケンスの背景モデルを提供し、シーンの各領域について、第1のアルゴリズムによる分析に基づいて、領域に対応する画像データが不確実な物体タイプステータスを有するかどうかを識別し、領域が不確実な物体タイプステータスを有する場合は、第1の画像の領域の物体タイプステータスを決定するために背景モデルをチェックし、有しない場合は、第1のアルゴリズムによって行われる第1の画像の領域の分析を依拠させ、第1の画像中で、第1の物体タイプの物体の一部であると決定した画像データをマスクまたは強調表示する。
【選択図】図7
【特許請求の範囲】
【請求項1】
シーンをキャプチャしたビデオシーケンス中の複数の画像フレームのうちの第1の画像フレーム中の第1の物体タイプの物体を検出するための方法であって、前記方法は、
前記複数の画像フレームの各画像フレームについて、
第1のアルゴリズムを使用して前記画像フレームを分析して、前記画像フレーム中の前記第1の物体タイプの物体を識別することであって、前記第1のアルゴリズムが、前記シーン中の複数の領域の各領域について、前記領域に対応する画像データが前記画像フレーム中の前記第1の物体タイプの物体の一部である確率を計算し、前記第1のアルゴリズムが、画像データが前記第1の物体タイプの前記物体の一部であるかどうかを決定するための確率閾値を有し、前記画像データが前記第1の物体タイプの物体の一部である前記確率と前記確率閾値との間の差分のインジケータを、前記領域に関連するインジケータのリストに格納する、前記画像フレーム中の前記第1の物体タイプの物体を識別することと、
前記第1の画像フレーム中の前記第1の物体タイプの物体を検出することであって、前記第1の画像フレームが前記複数の画像フレームのうちの最後の画像フレームである、前記第1の画像フレーム中の前記第1の物体タイプの物体を検出することと
を含み、前記検出することは、
前記ビデオシーケンスの背景モデルを提供することであって、前記背景モデルが、前記シーン中の前記複数の領域の各領域について、前記第1の画像フレーム中の前記領域に対応する前記画像データが背景に属するのか前景に属するのかを定義し、前記背景モデルが、前記第1のアルゴリズムとは異なる第2のアルゴリズムを前記複数の画像フレームのうちの少なくともいくつかに適用することによって定義される、前記ビデオシーケンスの背景モデルを提供することと、
前記シーンの各領域について、インジケータの前記関連するリストに基づいて、前記第1の画像中の前記領域に対応する前記画像データが不確実な物体タイプステータスを有するかどうかを識別することと、
画像データが、不確実な物体タイプステータスを有することを識別すると、
前記背景モデルが前記画像データを前記第1の画像中の前記背景に属するものとして定義したとき、前記画像データが前記第1の物体タイプの物体の一部ではないと決定し、
前記背景モデルが前記画像データを前記第1の画像中の前記前景に属するものとして定義したとき、前記画像データが前記第1の物体タイプの物体の一部であると決定することと
を含む、方法。
【請求項2】
画像データを不確実な物体タイプステータスを有しないものとして識別すると、
前記第1のアルゴリズムが、前記画像データが前記第1の物体タイプの前記物体の一部であると決定したとき、前記画像データが前記第1の物体タイプの物体の一部であると決定するステップと、
前記第1のアルゴリズムが、前記画像データが前記第1の物体タイプの前記物体の一部ではないと決定したとき、前記画像データが前記第1の物体タイプの物体の一部ではないと決定するステップと
をさらに含む、請求項1に記載の方法。
【請求項3】
前記画像データが前記第1の画像中に不確実な物体タイプステータスを有するかどうかを識別するステップは、
インジケータの前記関連するリストに基づいて、前記画像データが前記第1の物体タイプの物体の一部である前記確率と前記確率閾値との間の前記差分の絶対値が閾値差分を超えるかどうかを決定することと、
前記差分の前記絶対値が前記閾値差分を超えると、前記画像データが不確実な物体タイプステータスを有しないと決定することと、
前記差分が前記閾値距離を超えないと、正差分を示すインジケータの前記関連するリスト中のインジケータと、負差分を示すインジケータの前記関連するリスト中のインジケータとの間の分布測定値を決定することと、
前記分布測定値が不確実性範囲内に含まれる正差分と負差分との混合を示すと、前記画像データが不確実な物体タイプステータスを有すると決定し、そうでなければ、前記画像データが不確実な物体タイプステータスを有しないと決定することと
を含む、請求項1に記載の方法。
【請求項4】
前記画像データが前記第1の画像中に不確実な物体タイプステータスを有するかどうかを識別するステップは、
正差分を示すインジケータの前記関連するリスト中の前記インジケータと、負差分を示すインジケータの前記関連するリスト中の前記インジケータとの間の分布測定値を決定することと、
前記分布測定値が不確実性範囲内に含まれる正差分と負差分との混合を示すと、前記画像データが不確実な物体タイプステータスを有すると決定し、そうでなければ、前記画像データが不確実な物体タイプステータスを有しないと決定することと
を含む、請求項1に記載の方法。
【請求項5】
インジケータの前記リストがバイナリ値のリストであり、正差分がバイナリ値の第1の値によって示され、負差分がバイナリ値の第2の値によって示される、請求項4に記載の方法。
【請求項6】
前記不確実性範囲が、正差分を示す前記インジケータと負差分を示す前記インジケータとの20/80分布から80/20分布の間の混合を示す、請求項3に記載の方法。
【請求項7】
前記第1のアルゴリズムが、画像内の物体の特徴を抽出し、それらを数のベクトルとして表すための特徴抽出プロセスを含む、請求項1に記載の方法。
【請求項8】
前記第2のアルゴリズムが、動きベースの背景検出アルゴリズムである、請求項1に記載の方法。
【請求項9】
領域に関連するインジケータの前記リストが、5~15個の値を有するFIFOリストである、請求項1に記載の方法。
【請求項10】
前記第1の画像中で、前記第1の物体タイプの物体の一部であると決定された画像データをマスクまたは強調表示することをさらに含む、請求項1に記載の方法。
【請求項11】
カメラにおいて実施され、前記ビデオシーケンスが前記カメラによってキャプチャされたライブ・ビデオ・ストリームの一部である、請求項1に記載の方法。
【請求項12】
シーンをキャプチャしたビデオシーケンス中の複数の画像フレームのうちの第1の画像フレーム中の第1の物体タイプの物体を検出するための方法であって、前記シーンが、前記複数の画像フレーム中で追跡された複数の物体を含み、前記方法は、
前記複数の画像フレームの各画像フレームについて、
第1のアルゴリズムを使用して前記画像フレームを分析して、前記画像フレーム中の前記第1の物体タイプの物体を識別することであって、前記第1のアルゴリズムが、前記画像フレーム中で追跡された前記複数の物体の各物体について、前記物体が前記第1の物体タイプの物体である確率を計算し、前記第1のアルゴリズムが、前記物体が前記第1の物体タイプの物体であるかどうかを決定するための確率閾値を有し、前記物体が前記第1の物体タイプの物体である前記確率と前記確率閾値との間の差分のインジケータを、前記物体に関連するインジケータのリストに格納する、前記画像フレーム中の前記第1の物体タイプの物体を識別することと、
前記第1の画像フレーム中の前記第1の物体タイプの物体を検出することであって、前記第1の画像フレームが前記複数の画像フレームのうちの最後の画像フレームである、前記第1の画像フレーム中の前記第1の物体タイプの物体を検出することと
を含み、前記検出することは、
前記ビデオシーケンスの背景モデルを提供することであって、前記背景モデルが、前記シーン中の複数の領域の各領域について、前記第1の画像フレーム中の前記領域に対応する画像データが背景に属するのか前景に属するのかを定義し、前記背景モデルが、前記第1のアルゴリズムとは異なる第2のアルゴリズムを前記複数の画像フレームのうちの少なくともいくつかに適用することによって定義される、前記ビデオシーケンスの背景モデルを提供することと、
前記第1の画像フレーム中で追跡された前記複数の物体の各物体について、前記物体に関連するインジケータの前記リストに基づいて、前記物体が不確実な物体タイプステータスを有するかどうかを識別することと、
物体が不確実な物体タイプステータスを有することを識別すると、
前記第1の画像中の前記物体に対応する画像データを決定し、
前記背景モデルが前記画像データを前記背景に属するものとして定義したとき、前記物体が前記第1の物体タイプの物体ではないと決定し、
前記背景モデルが前記画像データを前記前景に属するものとして定義したとき、前記物体が前記第1の物体タイプの物体であると決定することと
を含む、方法。
【請求項13】
前記追跡された物体の各々が、前記シーンの前記ビデオシーケンスをキャプチャしたカメラから閾値距離を超えて位置する、請求項12に記載の方法。
【請求項14】
処理能力を有するデバイス上で実行されたとき、請求項1に記載の方法または請求項12に記載の方法を実施するための命令を記憶した、非一時的コンピュータ可読記憶媒体。
【請求項15】
シーンをキャプチャしたビデオシーケンス中の複数の画像フレームのうちの第1の画像フレーム中の第1の物体タイプの物体を検出するためのシステムであって、前記システムが、
1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサによって実行されたとき、前記システムに請求項1に記載の方法または請求項12に記載の方法を実行させるコンピュータ実行可能命令を記憶する1つまたは複数の非一時的コンピュータ可読媒体と
を備える、システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、物体検出に関し、特に、シーンをキャプチャしたビデオシーケンス中の複数の画像フレームのうちの第1の画像フレーム中の第1の物体タイプの物体を検出するための方法、システムおよび非一時的コンピュータ可読記憶媒体に関する。
【背景技術】
【0002】
ビデオ監視システムにおける物体検出は、セキュリティ、交通監視、小売分析、およびスマートシティなど、様々な適用例のための必須の構成要素として、長年にわたって進化してきた。これらのシステムの主な目的は、ビデオストリーム内の、人、車両、または動物など、関心物体を識別および追跡することである。
【0003】
物体分類は、しばしば、物体検出システムの不可欠な構成要素である。物体検出は、画像またはビデオフレーム内の関心物体を識別し、それらを特定のカテゴリまたはクラスに割り当てることを含む。物体位置特定(物体の位置を見つけること)と物体分類(物体のクラスを識別すること)との組合せは、完全な物体検出システムを可能にする。
【0004】
物体検出システムに関する1つの問題は、誤って分類された物体、すなわち、偽陽性または偽陰性である。そのような分類は、例えば、ユーザ体験に悪影響を及ぼし得る。人間のオペレータがビデオ出力をレビューする、またはビデオ出力と対話するシステムでは、誤って分類された物体は、混乱、疲労、およびフラストレーションをもたらし得る。これは、システムに対するユーザの信頼を低下させ得、オペレータが、誤警報の数の増加により本物の関心物体を見逃すことを引き起こし得る。
【0005】
したがって、この文脈における改善が必要とされている。
【発明の概要】
【0006】
上記を考慮すると、添付の独立特許クレームに記載されているように、上記で説明された欠点のうちの1つまたはいくつかを解決するかまたは少なくとも低減することが有益であろう。
【0007】
本発明の第1の態様によれば、シーンをキャプチャしたビデオシーケンス中の複数の画像フレームのうちの第1の画像フレーム中の第1の物体タイプの物体を検出するための方法が提供され、本方法は、複数の画像フレームの各画像フレームについて、第1のアルゴリズムを使用して画像フレームを分析して、画像フレーム中の第1の物体タイプの物体を識別することであって、第1のアルゴリズムが、シーン中の複数の領域の各領域について、領域に対応する画像データが画像フレーム中の第1の物体タイプの物体の一部である確率を計算し、第1のアルゴリズムが、画像データが第1の物体タイプの物体の一部であるかどうかを決定するための確率閾値を有し、画像データが第1の物体タイプの物体の一部である確率と確率閾値との間の差分のインジケータを、領域に関連するインジケータのリストに格納する、画像フレーム中の第1の物体タイプの物体を識別することを含む。
【0008】
本方法は、第1の画像フレーム中の第1の物体タイプの物体を検出することであって、第1の画像フレームが複数の画像フレームのうちの最後の画像フレームである、第1の画像フレーム中の第1の物体タイプの物体を検出することをさらに含み、検出することは、ビデオシーケンスの背景モデルを提供することであって、背景モデルが、シーン中の複数の領域の各領域について、第1の画像フレーム中の領域に対応する画像データが背景に属するのか前景に属するのかを定義し、背景モデルが、第1のアルゴリズムとは異なる第2のアルゴリズムを複数の画像フレームのうちの少なくともいくつかに適用することによって定義される、ビデオシーケンスの背景モデルを提供することと、シーンの各領域について、インジケータの関連するリストに基づいて、第1の画像中の領域に対応する画像データが不確実な物体タイプステータスを有するかどうかを識別することと、画像データが、不確実な物体タイプステータスを有することを識別すると、背景モデルが画像データを第1の画像中の背景に属するものとして定義したとき、画像データが第1の物体タイプの物体の一部ではないと決定することと、背景モデルが画像データを第1の画像中の前景に属するものとして定義したとき、画像データが第1の物体タイプの物体の一部であると決定することとを含む。
【0009】
特定の物体タイプを検出するように設計された物体分類適用例では、物体のクラスがフレーム間で交替するとき、問題が生じ得る。いくつかの物体は、ターゲット物体タイプと類似している外観を有し、分類アルゴリズムが変動確率を生成することを引き起こし得る。これらの確率は、閾値を超えると、物体を、あるフレーム中でターゲットタイプとして分類し、次いで閾値を下回ると、物体を、次のフレーム中で異なるタイプとして分類し得る。これらの変化に寄与する要因は、物体の視野角、画像センサノイズ、セグメンテーションマスク決定の小さな変更、または物体の外観の変動を含み得る。
【0010】
そのような一貫性のない分類は、出力を監視するオペレータにとっての混乱をもたらし得、問題の中でも、システム性能、意思決定、およびプライバシーに悪影響を及ぼし得る。
【0011】
有利には、物体タイプを決定するために2つの異なるアルゴリズムを使用することは、本方法のロバスト性を高め得る。ビデオシーケンスの背景モデルを提供する第2のアルゴリズムは、第1のアルゴリズムが対応する画像コンテンツについての複数の画像フレームにわたって異なる査定(確率閾値を上回るおよび下回る確率)を出力する場合のバックアップと見なされ得る。シーンの特定の領域についての複数の画像フレームの間のそのような変動出力は、(第1の画像フレームと呼ばれ、ビデオシーケンス中の最新の画像フレームである)現在処理されている画像フレーム中で描写されているシーンの領域が「不確実な物体タイプステータス」を得ることにつながり得る。ビデオシーケンス中の先行するフレームを使用して、第1のフレーム中で描写されているシーンの領域(すなわち、第1のフレーム中の領域を描写する画像データ)が不確実な物体タイプステータスを得るべきであるか否かを決定することによって、将来の状態の予測が回避され、したがって、低複雑度でロバストな方法をもたらす。
【0012】
本明細書で使用される「第1の画像フレーム」という用語は、ビデオシーケンス中のフレームの順序を指すものではないことを明確にすることが重要である。むしろ、それは単に、本発明を説明またはクレームする目的で、あるフレームを別のフレームと区別する手段である。シーケンス中のフレームの順序は、互いに対するそれらの時間的関係によって決定され、第1のフレームは第2のフレームの前にキャプチャまたは表示され、最後のフレームに到達するまで、以下同様である。
【0013】
「不確実な物体タイプステータス」という用語によって、本明細書の文脈では、第1のアルゴリズムからの出力が、複数の画像フレームを分析する間に、例えば、画像フレームのうちのいくつかにおいて描写されているシーンの領域が第1の物体タイプの物体の一部ではないものとして分類される一方、画像フレームのうちの他のものでは、その領域が第1の物体タイプの物体の一部であるものとして分類されるという、分類結果の混合をもたらすことが理解されるべきである。
【0014】
不確実な物体タイプステータスをもたらす混合の程度、例えば、正分類と負分類との間の比、画像データが第1の物体タイプの物体の一部である確率と確率閾値との間の差分の大きさの差分などは、使用事例、および適用例の要件に依存する。
【0015】
第1の画像の特定の画像データについて、不確実な物体タイプステータスが決定されたとき、背景モデルは、第1の物体タイプの物体が画像データ中で検出されたか否かを決定するために使用される。
【0016】
有利には、本方法では、第1の物体タイプの物体と外観が類似している静的物体の偽陽性識別は、第1の画像フレーム中で静的物体を描写する画像データが背景に属すると背景モデルが決定し得るので、回避され得る。さらに、背景モデルは、第1の物体タイプに属する移動する物体の偽陰性識別を、画像フレームのうちの1つまたは複数におけるそれらの外観が第1のアルゴリズムの査定基準と一致しないときでも、防止することができる。これは、背景モデルが、第1の画像フレーム中の移動する物体を表す画像データが前景に属すると決定し、したがって偽陰性識別を回避することができる。
【0017】
さらに、インジケータのリストは、潜在的に先入れ先出し(FIFO)手法を使用して、新しい画像フレームがビデオシーケンスに追加されるとき、連続的に更新され得る。結果として、本方法は、ビデオシーケンス内でキャプチャされた新しい物体または他のシーン変化に効果的に適応することができる。
【0018】
いくつかの実施形態では、本方法は、画像データを不確実な物体タイプステータスを有しないものとして識別すると、第1のアルゴリズムが、画像データが第1の物体タイプの物体の一部であると決定したとき、画像データが第1の物体タイプの物体の一部であると決定するステップと、第1のアルゴリズムが、画像データが第1の物体タイプの物体の一部ではないと決定したとき、画像データが第1の物体タイプの物体の一部ではないと決定するステップとをさらに含む。
【0019】
言い換えれば、第1の画像中の画像データが、不確実な物体タイプステータスを有するものとして識別されない場合、画像データについての第1のアルゴリズムからの出力は信頼され、画像データは、第1のアルゴリズムがこの査定を行った場合、第1の物体タイプの物体の一部であると決定される。有利には、第1のアルゴリズムからの一貫した査定が依拠され、偽陽性および偽陰性が回避され得る。
【0020】
いくつかの例では、画像データが第1の画像中に不確実な物体タイプステータスを有するかどうかを識別するステップは、インジケータの関連するリストに基づいて、画像データが第1の物体タイプの物体の一部である確率と確率閾値との間の差分の絶対値が閾値差分を超えるかどうかを決定することと、差分が閾値差分を超えると、画像データが不確実な物体タイプステータスを有しないと決定することと、差分の絶対値が閾値距離を超えないと、正差分を示すインジケータの関連するリスト中のインジケータと、負差分を示すインジケータの関連するリスト中のインジケータとの間の分布測定値を決定することと、分布測定値が不確実性範囲内に含まれる正差分と負差分との混合を示すと、画像データが不確実な物体タイプステータスを有すると決定し、そうでなければ、画像データが不確実な物体タイプステータスを有しないと決定することとを含む。
【0021】
有利には、第1のアルゴリズムが第1の画像の画像データのその査定において十分に確実である(第1の画像中の画像データが第1の物体タイプの物体の一部である確率と、確率閾値との間の差分が、閾値差分を超える)場合、この査定は依拠され、画像データは、不確実な物体タイプステータスを有すると見なされない。この実施形態は、第1の画像の画像データが第1の物体タイプの物体の一部であることについての十分に高いまたは十分に低い確率を第1のアルゴリズムが査定した場合、インジケータの残りのリストの調査(すなわち、前のフレームについて行われる査定)および背景モデルのチェックは必要とされないため、本方法の複雑度を低減し得る。さらに、偽陽性および偽陰性が回避され得る。
【0022】
閾値差分は、本方法を実施する適用例の要件、および/または第1のアルゴリズムの信頼性メトリックに依存し得る。閾値差分は、例えば、0から1のスケールで0.3に設定され得る。確率閾値が0.5である場合、これは、0.8以上、または0.2以下の確率が、それぞれ「十分に高い」または「十分に低い」と見なされることを意味する。他の閾値差分も等しく可能であり、使用事例に依存する。
【0023】
第1のアルゴリズムが十分に確実ではない場合、インジケータのリストは、画像データが不確実な物体タイプステータスを有すると見なされるべきか否かを決定するために分析される。正差分と負差分との間の分布は、任意の適切な統計的方法を使用して、例えば、負値と正値との間の比、リストの平均値、リストの中央値、リスト中の値の和などを決定して、分析される。分布測定値が不確実性範囲内に含まれる場合、画像データは不確実な物体タイプステータスを有すると見なされ、そうでない場合、画像データは不確実な物体タイプステータスを有すると見なされない。
【0024】
リストは、正差分および負差分を示し、第1のアルゴリズムは、画像データを2つのクラス(第1の物体タイプまたは非第1の物体タイプ)において分類することであり得るため、不確実性範囲は、通常、低いしきい値および高いしきい値を含む。例えば、比が決定された場合、不確実性範囲は、正差分を示すインジケータと負差分を示すインジケータとの20/80分布から80/20分布の間の混合を示し得る。これは、比が20/80から80/20の間である(20/80、30/70、50/50、60/40、80/20などであり、100/0、0/100、10/90または95/5ではない)場合、画像データが不確実と見なされることを意味する。10/90、25/75など、範囲の閾値についての任意の他の適切な比が使用され得る。平均値が使用される場合、不確実性範囲は、-0.2のより低い値および0.3のより高い値を含み得、したがって、-0.2から+0.3の間の平均値は、不確実であるがその範囲外の値(-0.3、+0.35など)ではないと見なされる。
【0025】
いくつかの実施形態では、画像データが第1の画像中に不確実な物体タイプステータスを有するかどうかを識別するステップは、正差分を示すインジケータの関連するリスト中のインジケータと、負差分を示すインジケータの関連するリスト中のインジケータとの間の分布測定値を決定することと、分布測定値が不確実性範囲内に含まれる正差分と負差分との混合を示すと、画像データが不確実な物体タイプステータスを有すると決定し、そうでなければ、画像データが不確実な物体タイプステータスを有しないと決定することとを含む。
【0026】
この実施形態では、インジケータのリストは常に分析され、これは、画像データについてのより信頼性の高い査定を提供し得る。さらに、この実施形態は、インジケータのリストがバイナリ値のリストであることを可能にし、正差分がバイナリ値の第1の値によって示され、負差分がバイナリ値の第2の値によって示される。これは、インジケータのリストを格納すること、ならびにリストの分布測定値を決定することの両方のための方法の複雑度を低減し得る。
【0027】
いくつかの実施形態では、第1のアルゴリズムは、画像内の物体の特徴を抽出し、それらを数のベクトルとして表すための特徴抽出プロセスを含む。これは、第1のアルゴリズムが、画像中の第1の物体タイプの物体を検出するように訓練された人工知能(AI)または機械学習(ML)アルゴリズムを含み得ることを意味する。AI/MLは、画像中の物体を分類するための適切な技術であり、関心物体でラベル付けされた画像の大きいデータセットで比較的容易に訓練され得る。適切なAI/MLアルゴリズムは、Haarカスケード、勾配方向ヒストグラム(HOG)、ローカル・バイナリ・パターン・ヒストグラム(LBPH)、畳み込みニューラルネットワーク(CNN)および(ビデオストリームなどのシーケンシャルデータを入力としてとる)トランスフォーマ・タイプ・モデルを含む。
【0028】
いくつかの実施形態では、第2のアルゴリズムは、動きベースの背景検出アルゴリズムである。そのようなアルゴリズムの例は、時間平均フィルタ、フレーム差分法、平均フィルタ、ランニングガウス平均および背景混合モデル(ガウス混合モデル(GMM)など)を使用することを含む。他の可能なアルゴリズムは、アダプティブ・マルチバンド・バイナリ(AMBB)アルゴリズムおよびオプティカルフロー方法を含む。動きベースの背景検出アルゴリズムを使用することは、上記で説明されたように第1のアルゴリズムが不確実な結果を出力する場合、良好なバックアップアルゴリズムを提供し得る。
【0029】
いくつかの実施形態では、領域に関連するインジケータのリストは、5~15個の値を有するFIFOリストである。他の実施形態では、FIFOリストは、20個、30個など、より多くの値を有し得る。FIFOデータ構造を使用することは、特に、新しいデータ点が連続的に追加されているリアルタイム適用例において、本明細書で説明される分布測定値を計算するための単純で効率的で効果的な方法を提供し得る。
【0030】
いくつかの実施形態では、本方法は、第1の画像中で、第1の物体タイプの物体の一部であると決定された画像データをマスクまたは強調表示することをさらに含む。これらのタイプの適用例を扱うとき、特定の物体が、あるフレーム中ではマスクまたは強調表示されるが次のフレーム中ではマスクまたは強調表示されない場合、オペレータにとってフラストレーションを起こすものとなり得る。この不一致は、煩わしく、不必要な注意を引く可能性がある。さらに、マスキング適用例では、物体が時々しかマスクされない場合、潜在的なプライバシーの懸念がある。本方法は、これらの欠点のうちの1つまたはいくつかを解決するか、または少なくとも低減し得る。
【0031】
いくつかの実施形態では、本方法はカメラにおいて実施され、ビデオシーケンスは、カメラによってキャプチャされたライブ・ビデオ・ストリームの一部である。
【0032】
本発明の第2の態様によれば、シーンをキャプチャしたビデオシーケンス中の複数の画像フレームのうちの第1の画像フレーム中の第1の物体タイプの物体を検出するための方法が提供され、シーンが、複数の画像フレーム中で追跡された複数の物体を含み、本方法は、複数の画像フレームの各画像フレームについて、第1のアルゴリズムを使用して画像フレームを分析して、画像フレーム中の第1の物体タイプの物体を識別することであって、第1のアルゴリズムが、画像フレーム中で追跡された複数の物体の各物体について、物体が第1の物体タイプの物体である確率を計算し、第1のアルゴリズムが、物体が第1の物体タイプの物体であるかどうかを決定するための確率閾値を有し、物体が第1の物体タイプの物体である確率と確率閾値との間の差分のインジケータを、物体に関連するインジケータのリストに格納する、画像フレーム中の第1の物体タイプの物体を識別することを含む。
【0033】
本方法は、第1の画像フレーム中の第1の物体タイプの物体を検出することであって、第1の画像フレームが複数の画像フレームのうちの最後の画像フレームである、第1の画像フレーム中の第1の物体タイプの物体を検出することをさらに含み、検出することは、ビデオシーケンスの背景モデルを提供することであって、背景モデルが、シーン中の複数の領域の各領域について、第1の画像フレーム中の領域に対応する画像データが背景に属するのか前景に属するのかを定義し、背景モデルが、第1のアルゴリズムとは異なる第2のアルゴリズムを複数の画像フレームのうちの少なくともいくつかに適用することによって定義される、ビデオシーケンスの背景モデルを提供することを含む。
【0034】
本方法は、第1の画像中で追跡された複数の物体の各物体について、物体に関連するインジケータのリストに基づいて、物体が不確実な物体タイプステータスを有するかどうかを識別することと、物体が不確実な物体タイプステータスを有することを識別すると、第1の画像中の物体に対応する画像データを決定することと、背景モデルが画像データを第1の画像中の背景に属するものとして定義すると、物体が第1の物体タイプの物体ではないと決定することと、背景モデルが画像データを第1の画像中の前景に属するものとして定義すると、物体が第1の物体タイプの物体であると決定することとをさらに含む。
【0035】
第2の態様の方法は、第1の概念の方法と同様であり、同じまたは対応する利点が達成され得る。違いは、第2の態様では、第1のアルゴリズムからの査定が、シーンの領域ではなくビデオストリーム中で検出された物体に関連することである。有利には、第2の態様の方法は、静止物体と移動する物体の両方を扱い得る。第1の態様と同様に、背景モデルは、不確実な物体タイプステータスを有する追跡された物体が、第1の画像フレーム中の背景または前景と見なされるべきであるかどうかを査定するために使用される。物体に対応する画像データが前景と見なされるべきである場合、物体は第1の物体タイプであると決定され、そうでない場合、第1の物体タイプであると決定されない。
【0036】
いくつかの実施形態では、追跡された物体の各々は、シーンのビデオシーケンスをキャプチャしたカメラから閾値距離を超えて位置する。例えば、第1のアルゴリズムは、第1のアルゴリズムが、物体を、画像中のそれらの特徴または特性に基づいて正確に分類することができる、有効範囲または検出範囲を有し得る。この範囲は、通常、カメラの解像度および品質、ならびに物体分類アルゴリズムの性能によって決定される。検出範囲外の物体の場合、画質の低下、オクルージョン、および照明条件の変化などの要因により、分類の精度が低下し得る。実施形態では、閾値距離は、第1のアルゴリズムの検出範囲と同じまたはそれに近いものであり得る。本実施形態を使用して、第1の物体タイプとして分類されることがあり、背景と見なされない物体は、第1の物体タイプであると決定され得る。その結果、偽陰性が低減され得る。これは、例えばプライバシーの理由で、第1の物体タイプの物体がマスクされるべきであるシナリオにおいて特に重要であり得る。
【0037】
第2の態様は、一般に、第1の態様と同じ特徴および利点を有し得る。
【0038】
本発明の第3の態様によれば、処理能力を有するデバイス上で実行されたとき、第1または第2の態様による方法を実施するための命令を記憶した、非一時的コンピュータ可読記憶媒体が提供される。
【0039】
本発明の第4の態様によれば、シーンをキャプチャしたビデオシーケンス中の複数の画像フレームのうちの第1の画像フレーム中の第1の物体タイプの物体を検出するためのシステムが提供され、本システムは、1つまたは複数のプロセッサと、1つまたは複数のプロセッサによって実行されたとき、システムに第1または第2の態様の方法を実行させるコンピュータ実行可能命令を記憶する1つまたは複数の非一時的コンピュータ可読媒体とを備える。
【0040】
第3および第4の態様は、一般に、第1の態様と同じ特徴および利点を有し得る。
【0041】
本発明の他の目的、特徴および利点は、以下の詳細な開示、添付の従属請求項ならびに図面から明らかになるであろう。
【0042】
一般に、特許請求の範囲において使用されるすべての用語は、本明細書で別段に明示的に定義されない限り、技術分野におけるそれらの通常の意味に従って解釈されるべきである。「1つの/その(a/an/the)[要素、デバイス、構成要素、手段、ステップなど]」へのすべての言及は、別段に明記されない限り、要素、デバイス、構成要素、手段、ステップなどの少なくとも1つの例を指すものとして公然と解釈されるべきである。
【0043】
本明細書で開示される任意の方法のステップは、明記されない限り、開示された正確な順序で実施される必要はない。
【0044】
本発明の上記の、ならびに追加の目的、特徴、および利点は、添付の図面を参照して、本発明の実施形態の以下の例示的および非限定的な詳細な説明によってよりよく理解され、同様の要素のために同じ参照番号が使用される。
【図面の簡単な説明】
【0045】
図1】第1の実施形態による、第1の物体タイプの物体が第1のアルゴリズムによって識別される複数の画像を含むビデオシーケンスを示す図である。
図2】第2の実施形態による、第1の物体タイプの物体が第1のアルゴリズムによって識別される複数の画像を含むビデオシーケンスを示す図である。
図3図1中のビデオシーケンスの背景モデルを示す図である。
図4図2中のビデオシーケンスの背景モデルを示す図である。
図5】実施形態による、インジケータのリストを示す図である。
図6】実施形態による、インジケータのリストを示す図である。
図7】実施形態による、複数の画像フレームのうちの第1の画像フレーム中の第1の物体タイプの物体を検出するための方法のフローチャートである。
図8】実施形態による、複数の画像フレームのうちの第1の画像フレーム中の第1の物体タイプの物体を検出するための方法のフローチャートである。
【発明を実施するための形態】
【0046】
物体分類システムは、不均衡な訓練データ、類似している物体外観、オクルージョン、照明の違いなどを含む様々な理由で、偽陽性または偽陰性を出力し得る。例えば、類似している視覚的特徴または外観を有する物体は、分類システムにとっての混乱を引き起こし、偽陽性または偽陰性をもたらし得る。モデルは、特に特定の照明条件下で、または特定の視点から、類似している形状、テクスチャ、または色を有する物体を区別するのに苦労することがある。
【0047】
多くの物体分類システム、特に、出力がオペレータによって監視されるようなシステムでは、一貫した偽陽性または偽陰性は、オペレータによって無視され、あまり注意を引かないことがある。しかしながら、一貫性のない偽陽性または偽陰性は、無視するのがより困難であり、ユーザフラストレーション、システムに対する信頼の低下、および本技術の採用の減少につながり得る。さらに、監視適用例などのリアルタイム適用例では、システムが特定の物体タイプの物体の有無を絶えず再評価するため、一貫性のない偽陽性または偽陰性は不安定な意思決定をもたらし得る。これは、非効率的なまたは潜在的に危険な決定につながり得る。
【0048】
図1は、物体分類アルゴリズムが物体についての変動分類を出力するビデオシーケンスの一例を示す。図1は、シーンをキャプチャしたビデオシーケンスからの3つの画像100a~cを示す。シーンは、4つの物体、すなわち、木108、犬104、道路を走行する車106、および人物102を含む。画像100a~cは、第1のアルゴリズムが画像フレーム100a~cの各々において第1の物体タイプの物体を識別した画像領域(画像データ)を示す強調表示特徴110、112、114、116により、さらに拡張されている。図1の例では、第1のアルゴリズムは、人間の顔を検出するように構成される。この検出は、アクセスが禁止されている制限領域を監視し、そこに個人が入ったときにオペレータに警告することなど、様々な目的に役立つことができ、これは、警告をトリガすることもできる。さらに、顔検出は、プライバシーの目的で採用され得、個人の身元を保護するために、顔のマスキングまたはぼかしを可能にする。第1のアルゴリズムは、物体分類システムの使用事例に応じて、車、動物など、他の物体タイプを検出するように構成され得ることに留意されたい。
【0049】
第1のアルゴリズムは、画像フレーム100a~cによってキャプチャされたシーン中の複数の領域の各領域について、領域に対応する画像データが画像フレーム100a~c中の第1の物体タイプの物体の一部である確率を計算することによって、画像フレーム100a~c中の第1の物体タイプの物体を識別するように構成され得る。第1のアルゴリズムは、画像データが第1の物体タイプの物体の一部であるか否かを決定するための確率閾値を有し得る。第1のアルゴリズムは、精度の改善、新しいデータへの適応性、複雑な関係を扱う能力およびスケーラビリティなど、様々な技術的利点を提供する機械学習または人工知能モデルであり得る。典型的には、そのようなアルゴリズム、または他の適切なアルゴリズムは、決定された確率、例えば0から1のスケールでの0.7または0.2で、物体の物体タイプを分類する。決定された確率が確率閾値、例えば0.5を超えている場合、物体は、対応する物体タイプであると決定され、そうでない場合、対応する物体タイプではないと決定される。確率閾値は、すべての画像について固定であるか、または、例えば、画像中の物体の数、画像の品質、画像の照明条件などに基づいて変動し得る。
【0050】
第1のアルゴリズムは、画像フレーム100a~c内の物体の特徴を抽出し、それらを数のベクトルとして表すための特徴抽出プロセスを含み得、次いで、数のベクトル(特徴ベクトル)は、物体の画像データが画像フレーム100a~c中の第1の物体タイプの物体の一部である確率を決定するために使用され得る。物体の位置は、シーンの領域にマッピングされ得る。画像をキャプチャしたカメラが(図1の例のように)静的カメラである場合、シーンの各領域は、各画像フレーム100a~c中の同じピクセルインデックスまたはピクセルインデックス範囲によって表され得る。移動するカメラの場合、画像フレーム100a~cの間の対応するピクセル領域を決定するために、ピクセルインデックスに加えて動きデータが使用され得る。画像フレーム100a~cが異なる解像度でキャプチャされた場合、画像フレーム100a~cの間の対応するピクセル領域を決定するために、スケーリングパラメータがさらに使用され得る。
【0051】
しかしながら、第1のアルゴリズムがどのくらいうまく訓練されるとしても、モデルは、いずれにせよ、特に特定の照明条件下で、または特定の視点から、類似している形状、テクスチャ、または色を有する物体を区別するのに苦労することがある。これは、図1に例示されており、木108の葉の一部を描写する画像データ114が、木画像100a~cの最後の画像100c中では人間の顔として解釈されている。この誤った分類とは別に、第1のアルゴリズムは、3つの画像100a~cに描写されているようにシーンの他の領域を正確に解釈しており、人物102がシーン中に存在する領域に対応する画像データ110、112、116のみを第1の物体タイプの物体の一部であるものとして分類する。
【0052】
第1のアルゴリズムからの出力が第1の物体タイプの物体を検出するための唯一のデータソースであった場合、木108に関係する一貫性のない偽陽性という結果は、前述したように、複数の問題をもたらし得る。木の葉に対応するシーンの領域(すなわち、第3の画像中のそのような領域を描写する画像データ114)は、最後の画像100c中では人間の顔として解釈されるが、他の画像100a、100b中では人間の顔ではないと解釈されるため、この画像100c中では(図5図6に関連して以下でさらに説明されるように)不確実な物体タイプステータスを有する。しかしながら、本明細書で開示されるように、そのような領域についての最終決定を行うために背景モデルを使用することは、一貫性のない偽陽性の問題を低減し、この場合、偽陽性を全体として第3の画像フレーム100cから除去し得る。
【0053】
図3は、そのような背景モデル300を示す。図3の例では、背景モデル300は、シーン中の複数の領域の各領域について、最後の画像フレーム100c中の領域に対応する画像データが背景に属するのか前景に属するのかを定義する。図1のシーンでは、犬104および車106のみが画像フレーム100a~cの間を移動する。図3中の背景モデルは、概略的に、図1中の最後の画像100c中の車106および犬104の位置に対応する領域304、306を前景として定義し、残りを背景302として定義するが、これは単に説明を容易にするためである。背景モデルは、複数の画像のうちの少なくともいくつかに(第1のアルゴリズムとは異なる)第2のアルゴリズムを適用することによって決定され得る。したがって、背景モデルは、第2のアルゴリズムの特性に依存し得る。第2のアルゴリズムの複雑度は、単純なフレーム差分アルゴリズムから色および深度情報を考慮したガウス混合モデルまで変動し得る。画像フレーム100a~cと比較してシーンの異なるスケーリングを使用して背景モデルが決定される場合、画像フレーム100a~cと背景モデル300との間の対応する領域を決定するために、スケーリングパラメータが使用され得る。
【0054】
背景モデル300が、本明細書で開示されるように、不確実な物体タイプステータスを有する画像データ114に適用される場合、第1のアルゴリズムによって提供された画像データの間違った分類は取り消され得、代わりに、画像データは、第1の物体タイプの物体の一部ではない(すなわち、人間の顔の一部ではない)ものとして正しく分類され得る。これは、画像データ114が(図1に示されている画像データ114に空間的に対応する、図3中の破線領域308によって示された)背景の一部であると見なされ、その結果、第1の物体タイプの物体の一部ではないと決定されるためである。
【0055】
図3の最後の画像100c中の画像データ116または犬104を描写する画像データなど、不確実な物体タイプステータスを有するとして識別されない最後の画像100c中の画像データの場合、第1のアルゴリズムからの出力が依拠される。その結果、画像データ116は、第1の物体タイプの物体の一部である(すなわち、人間の顔の一部である)と決定され、犬を描写する画像データは、第1の物体タイプの物体の一部ではないと決定される。
【0056】
図2は、図1に関連して説明された態様と多くの点で同様の、本明細書で説明される技術の別の態様を示す。第2の態様は、第1のアルゴリズムによって行われた査定が、シーンの特定の領域ではなく、ビデオストリーム内で検出および追跡された物体に関連するという点で、第1の態様とは異なる。言い換えれば、第1のアルゴリズムは、シーンの領域またはセクションではなく、ビデオ内の個々の物体を分析および分類することに焦点を合わせている。図2は、物体分類アルゴリズムがいくつかの物体についての変動分類を出力するビデオシーケンスの一例を示す。図2は、シーンをキャプチャしたビデオシーケンスからの3つの画像200a~cを示す。シーンは、5つの物体、すなわち、木222、犬218、車220、および2人の人物202、204を含む。物体は、複数の画像フレーム100a~c中で追跡される。画像200a~cは、第1のアルゴリズムが画像フレーム100a~cの各々において第1の物体タイプであるものとして識別した物体を示す強調表示特徴206、208、210、212、214により、さらに拡張されている。図2の例では、第1のアルゴリズムは、人を検出するように構成される。
【0057】
第1のアルゴリズムからの出力が第1の物体タイプの物体を検出するための唯一のデータソースであった場合、木222に関係する一貫性のない偽陽性および2人の人物202、204に関係する一貫性のない偽陰性という結果は、前述したように、複数の問題をもたらし得る。これらの3つの物体202、204、220は、これらの物体の物体タイプがビデオストリーム全体を通して異なって査定されているため、最後の画像100c中で(図5図6に関連して以下でさらに説明されるように)不確実な物体タイプステータスを有する。しかしながら、本明細書で開示されるように、そのような物体についての最終決定を行うために背景モデルを使用することは、一貫性のない偽陽性および偽陰性の問題を低減し、この場合、偽陽性および偽陰性を全体として第3の画像フレーム200cから除去し得る。
【0058】
図4は、図3の背景モデル300と同様である背景モデル400を示す。図4の例では、背景モデル400は、シーン中の複数の領域の各領域について、最後の画像フレーム200c中の領域に対応する画像データが背景に属するのか前景に属するのかを定義する。図2のシーンでは、犬218および車220、ならびに2人の人物202、204が、画像フレーム100a~cの間を移動する。図4中の背景モデルは、概略的に、図1中の最後の画像100c中の2人の人物202、204、犬218および車220の位置に対応する領域406、408、404、410を前景として定義し、残りを背景402として定義する。
【0059】
背景モデル400が、本明細書で開示されるように、不確実な物体タイプステータスを有する木222に適用される場合、第1のアルゴリズムによって提供された物体の間違った分類は取り消され得、代わりに、物体は、第1の物体タイプの物体ではない(すなわち、人間の顔を含まない)ものとして正しく分類され得る。これは、木222に対応する画像データが、最後の画像100c中の(図2に示されている木222の位置および範囲に空間的に対応する、図4中の破線領域412によって示された)背景の一部であると見なされ、その結果、第1の物体タイプの物体の一部ではないと決定されるためである。
【0060】
背景モデルが、本明細書で開示されるように、不確実な物体タイプステータスを各々有する人物202、204に適用される場合、最後の画像200cについて第1のアルゴリズムによって提供された物体202の見逃された分類は補正され得、代わりに、物体は、第1の物体タイプの物体である(すなわち、人間の顔を含む)ものとして正しく分類され得る。これは、人物202、204の各々に対応する画像データが、最後の画像100c中の(図2に示されている人物202、204の位置および範囲に空間的に対応する、図4中の破線領域406、408によって示された)前景の一部であると見なされ、その結果、第1の物体タイプの物体の一部であると決定されるためである。
【0061】
さらに、図2は、第1のアルゴリズムが、物体を、画像中のそれらの特徴または特性に基づいて正確に分類することができる、有効範囲または検出範囲を表す破線216を含む。いくつかの実施形態では、図2に関連して上記で説明された技術(第1のアルゴリズムによって行われる査定は、図1に関連して説明されたように、シーンの特定の領域ではなく、ビデオストリーム内で検出された物体に関連付けられる)は、主に、シーンのビデオシーケンスをキャプチャしたカメラから閾値距離を超えて位置する物体に適用される。閾値距離は、第1のアルゴリズムの有効範囲と同じまたは同様の有効範囲に設定され得る。移動する人物202、204は、この閾値を超えて、すなわち図2中の破線216を超えて位置するため、第1のアルゴリズムは、第1の物体タイプの移動する物体を正しく分類するのにあまり信頼できないことがある。したがって、本実施形態は、上記で説明されたように偽陰性を低減し得る。
【0062】
いくつかの例では、図1および図2に関連して説明された物体検出技術の2つの態様が組み合わせられ得る。例えば、領域ベースの技術は、第1のアルゴリズムの有効範囲の近い側の画像コンテンツのために使用され得、物体ベースの技術は、第1のアルゴリズムの有効範囲を超えて検出された物体のために使用される。
【0063】
図5図6は、ビデオシーケンス中のキャプチャされたシーンの特定の領域を分析するときに、またはビデオシーケンス中で追跡された特定の物体を分析するときに第1のアルゴリズムによって生成されるインジケータのリスト502、602の2つの実施形態を例として示す。上述したように、第1のアルゴリズムは、領域ベースの手法では、各画像中の各領域について、(現在分析されている画像中の領域を描写する)画像データが第1の物体タイプの物体の一部である確率と、領域に関連するインジケータのリスト中の確率閾値との間の差分のインジケータを格納するように構成され得る。物体ベースの手法では、第1のアルゴリズムは、各画像中の各追跡された物体について、物体が第1の物体タイプの物体である確率と確率閾値との間の差分のインジケータを、物体に関連するインジケータのリストに格納するように構成され得る。
【0064】
どの手法が使用されるかとは無関係に、各領域または各物体は、図5または図6に示されているようにリスト502、602に関連し得る。各リスト502、602中の各セルは、複数の画像のうちの画像を分析するときの第1のアルゴリズムからの出力を表す。図5図6中のリスト502、602は、X=8つのセルを含み、セルは、8つの画像が分析されたことを示す。いくつかの実施形態では、領域または物体に関連するインジケータのリストは、5~15個の値を有するFIFOリストである。他の実施形態では、リストは15~30個の値を有する。例えばビデオシーケンスをキャプチャしたカメラのフレームレートに基づいて、使用事例に応じて、任意の適切な数の値が使用され得る。新しい画像が分析されたとき、インジケータのリスト中の最も古い値(これらの例では最も左側の値)が削除され、リストの最後に新しい値が挿入される。したがって、リストは、ビデオストリーム中のX個の最新の分析された画像からの値を常に含み得る。
【0065】
図5は、各インジケータが、領域/物体が第1の物体タイプである確率の査定が確率閾値からどのくらい離れているかを示すリスト502を示す。図1では、正の数は、査定された確率が閾値よりも高いことを示す(これは、第1のアルゴリズムが領域/物体を第1の物体タイプであると査定したことを意味する)。負の数は、査定された確率が閾値よりも低いことを示す(これは、第1のアルゴリズムが領域/物体を第1の物体タイプではないと査定したことを意味する)。0は、正の数としてカウントされ得る。確率範囲は0から1の間であり、確率閾値は0.5であり、これは、セルの値が-0.5から+0.5の範囲であり得ることを意味する。他のスケールおよび閾値が適用され得る。
【0066】
インジケータのリスト502は、インジケータのリストが表す複数の画像のうちの最後の画像中の領域/物体が不確実な物体タイプステータスを有するかどうかを決定するために使用され得る。言い換えれば、特定の画像について、ビデオストリーム中の前のX-1個の画像からの結果と組み合わせたその特定の画像からの結果は、特定の画像中の領域/物体が不確実な物体タイプステータスを有するか否かを決定するために使用される。
【0067】
一実施形態では、最後の画像フレームの領域/物体についての不確実な物体タイプステータスを決定するプロセスは、(最後の画像フレームに描写されている)領域/物体が第1の物体タイプであるか否かを査定するときに第1のアルゴリズムがどのくらい確実であるかを最初にチェックすることを含む。第1のアルゴリズムが十分に確実である場合、第1のアルゴリズムからの結果は依拠される。図5では、最後の画像フレームに対応するセル504の値は、+0.15である。これは、査定された確率が0.65であることを意味する。これが十分に確実であるとカウントされた(画像データが第1の物体タイプの物体の一部である確率と、確率閾値との間の差分の絶対値が、閾値差分を超える)場合、リスト502が関連する物体/領域が、確かに第1の物体タイプであると決定される。十分な確実性ではない場合、または最後の画像フレームの確率を最初にチェックする実施形態が使用されない場合、リスト502のさらなる分析が必要とされる。
【0068】
リストの分析は、正差分を示すインジケータの関連するリスト中のインジケータと、負差分を示すインジケータの関連するリスト中のインジケータとの間の分布測定値を決定することを含み得る。分布測定値は、平均(図3の例では0.13)、中央値(0.2)、または正値と負値との間の百分率での分布(75/25)など、任意の適切な統計的方法を含み得る。分布測定値が、不確実性範囲内に含まれる正差分と負差分との混合を示す場合、最後の画像中の領域/物体は、不確実な物体タイプステータスを有すると決定され、そうでない場合、不確実な物体タイプステータスを有すると決定されない。上述したように、リストは正の数および負の数を含むため、不確実性範囲は、通常、負の側と正の側の両方で閾値を含む。したがって、第1のアルゴリズムは、負の査定ならびに正の査定の両方について十分に一貫した査定を提供すると見なされ得る。その結果、図5の場合、不確実性範囲は、平均および中央値が使用される場合、負の数と正の数との間である(例えば、-0.2から+0.2の間の平均値または中央値は、第1の画像データの領域/物体が不確実な物体タイプステータスを有すると決定されることをもたらす)。(値の大きさを考慮しない)分布の場合、不確実性範囲は、例えば、正差分を示すインジケータと負差分を示すインジケータとの20/80分布から80/20分布の間の混合を示し得る。図5中のリストの分布は、この範囲内にある(75/25である)ため、結果は、リスト502に関連する領域/物体が不確実な物体タイプステータスを有すると見なされることであり得る。
【0069】
いくつかの実施形態では、インジケータのリストはバイナリ値のリストであり、正差分がバイナリ値の第1の値によって示され、負差分がバイナリ値の第2の値によって示される。これは、図5のリスト502に対応するが、代わりにバイナリ形式である、図6に示されている。平均(0.6)および正値と負値との間の百分率の分布(75/25)など、同じ分布測定値が適用され得、不確実性範囲は、図5に示されている形式と比較してバイナリ形式に従って調整される必要があり得る。
【0070】
図7図8は、本明細書で説明された第1および第2の態様による、複数の画像フレームのうちの第1の画像フレーム中の第1の物体タイプの物体を検出するための2つの方法のフローチャートを示す。図7は領域ベースの態様に対応し、図8は物体態様に対応する。
【0071】
図7は、シーンをキャプチャしたビデオシーケンス中の複数の画像フレームのうちの第1の画像フレーム中の第1の物体タイプの物体を検出するための方法700を示す。本方法は、ビデオシーケンス中の各画像フレーム中のシーンの各領域を、第1の物体タイプを検出するように構成された第1のアルゴリズムにより分析することS702を含む。別の言い方をすれば、方法700は、複数の画像フレームの各画像フレームについて、第1のアルゴリズムを使用して画像フレームを分析して、画像フレーム中の第1の物体タイプの物体を識別することであって、第1のアルゴリズムが、シーン中の複数の領域の各領域について、領域に対応する画像データが画像フレーム中の第1の物体タイプの物体の一部である確率を計算し、第1のアルゴリズムが、画像データが第1の物体タイプの物体の一部であるかどうかを決定するための確率閾値を有する、画像フレーム中の第1の物体タイプの物体を識別することを含み得る。次いで、画像データが第1の物体タイプの物体の一部である確率と確率閾値との間の差分のインジケータが、領域に関連するインジケータのリストに格納される。
【0072】
本方法は、複数の画像フレームのうちの最後の画像フレーム中の第1の物体タイプの物体を検出するとき、第2のアルゴリズムを使用してビデオシーケンスの背景モデルを提供することS704をさらに含む。背景モデルは、シーン中の複数の領域の各領域について、第1の画像フレーム中の領域に対応する画像データが背景に属するのか前景に属するのかを定義し得る。
【0073】
本方法は、シーンの各領域について、第1のアルゴリズムによる分析に基づいて、領域に対応する画像データが不確実な物体タイプステータスを有するかどうかを識別することS706をさらに含む。不確実な物体タイプステータスは、インジケータの関連するリストに基づき得る。
【0074】
本方法は、領域(すなわち、領域に対応する画像データ)が不確実な物体タイプステータスを有する場合、第1の画像の領域の物体タイプステータスを決定するために背景モデルをチェックすることS708をさらに含む。背景モデルは、背景モデルが画像データを第1の画像中の背景に属するものとして定義すると、画像データが第1の物体タイプの物体の一部ではないと決定することと、背景モデルが画像データを第1の画像中の前景に属するものとして定義すると、画像データが第1の物体タイプの物体の一部であると決定することとように使用され得る。
【0075】
いくつかの例では、領域(すなわち、領域に対応する画像データ)が不確実な物体タイプステータスを有しない場合、第1のアルゴリズムによって行われる第1の画像の領域の分析が依拠されるS710。これは、第1のアルゴリズムが、画像データが第1の物体タイプの物体の一部であると決定したとき、画像データが第1の物体タイプの物体の一部であると決定することと、第1のアルゴリズムが、画像データが第1の物体タイプの物体の一部ではないと決定したとき、画像データが第1の物体タイプの物体の一部ではないと決定することとを意味し得る。
【0076】
いくつかの例では、本方法は、第1の画像中で、第1の物体タイプの物体の一部であると決定された画像データをマスクまたは強調表示することS712を含む。
【0077】
図8は、シーンをキャプチャしたビデオシーケンス中の複数の画像フレームのうちの第1の画像フレーム中の第1の物体タイプの物体を検出するための方法800を示し、シーンは、複数の画像フレーム中で追跡された複数の物体を含む。
【0078】
方法800は、ビデオシーケンス中の各フレーム中のシーン中の追跡された物体を、第1の物体タイプを検出するように構成された第1のアルゴリズムにより分析することS802を含む。別の言い方をすれば、方法800は、複数の画像フレームの各画像フレームについて、第1のアルゴリズムを使用して画像フレームを分析して、画像フレーム中の第1の物体タイプの物体を識別することであって、第1のアルゴリズムが、画像フレーム中で追跡された複数の物体の各物体について、物体が第1の物体タイプの物体である確率を計算し、第1のアルゴリズムが、物体が第1の物体タイプの物体であるかどうかを決定するための確率閾値を有する、画像フレーム中の第1の物体タイプの物体を識別することを含み得る。次いで、画像データが第1の物体タイプの物体の一部である確率と確率閾値との間の差分のインジケータが、物体に関連するインジケータのリストに格納される。
【0079】
本方法は、複数の画像フレームのうちの最後の画像フレーム中の第1の物体タイプの物体を検出するとき、第2のアルゴリズムを使用してビデオシーケンスの背景モデルを提供することS804をさらに含む。背景モデルは、シーン中の複数の領域の各領域について、第1の画像フレーム中の領域に対応する画像データが背景に属するのか前景に属するのかを定義し得る。
【0080】
本方法は、シーン中の各追跡された物体について、第1のアルゴリズムの分析に基づいて、追跡された物体が不確実な物体タイプステータスを有するかどうかを識別することS806をさらに含む。不確実な物体タイプステータスは、インジケータの関連するリストに基づき得る。
【0081】
本方法は、物体が不確実な物体タイプステータスを有する場合、第1の画像中の追跡された物体の物体タイプステータスを決定するために背景モデルをチェックすることS808をさらに含む。背景モデルは、背景モデルが、ビデオシーケンスの最後の画像中の物体に対応する画像データが第1の画像中の背景に属することを定義すると、物体が第1の物体タイプの物体ではないと決定することと、背景モデルが画像データを第1の画像中の前景に属するものとして定義すると、物体が第1の物体タイプの物体であると決定することとように使用され得る。
【0082】
いくつかの例では、物体が不確実な物体タイプステータスを有しない場合、第1のアルゴリズムによって行われる第1の画像の物体の分析が依拠されるS810。これは、第1のアルゴリズムが、物体が第1の物体タイプであると決定したとき、物体が第1の物体タイプであると決定することと、第1のアルゴリズムが、物体が第1の物体タイプではないと決定したとき、物体が第1の物体タイプではないと決定することとを意味し得る。
【0083】
いくつかの例では、本方法は、第1の画像中で、第1の物体タイプであると決定された物体をマスクまたは強調表示することS812を含む。
【0084】
図7図8に示されている方法、ならびに本明細書で説明される任意の他の方法または機能性は、処理能力を有するデバイスまたはシステム上で命令が実行されたときに方法が実施されるように、非一時的コンピュータ可読記憶媒体に命令として記憶され得る。そのようなデバイスまたはシステムは、1つまたは複数のプロセッサを備え得る。したがって、本明細書で説明される特徴および方法は、データおよび命令をデータ記憶システムから受信し、データおよび命令をデータ記憶システムに送信するために結合された少なくとも1つのプログラマブルプロセッサと、画像フレーム/ビデオシーケンスをキャプチャするためのカメラなどの少なくとも1つの入力デバイスと、本明細書で説明される潜在的にマスクまたは強調表示された画像を表示するためのディスプレイなどの少なくとも1つの出力デバイスとを含み得るプログラマブルシステム上で実行可能である1つまたは複数のコンピュータプログラムにおいて有利に実施され得る。命令のプログラムの実行に適したプロセッサは、例として、汎用マイクロプロセッサと専用マイクロプロセッサの両方と、任意の種類のコンピュータの単独のプロセッサまたは1つまたは複数のプロセッサもしくはコアとを含む。プロセッサは、ASIC(特定用途向け集積回路)によって補足されるか、またはASICに組み込まれ得る。
【0085】
上記の実施形態は、本発明の例示的な例として理解されるべきである。本発明のさらなる実施形態が想定される。例えば、本明細書で説明される技術は、例えば自律車両、スポーツ分析、監視およびセキュリティ、ならびに気象予報において使用される、任意の適切な物体分類システムにおいて採用され得る。任意の1つの実施形態に関連して説明された任意の特徴は、単独で、または説明された他の特徴と組み合わせて使用され得、また、実施形態の任意の他のものの1つまたは複数の特徴、または実施形態の任意の他のものの任意の組合せと組み合わせて使用され得ることを理解されたい。さらに、添付の特許請求の範囲において定義される本発明の範囲から逸脱することなく、上記で説明されていない均等物および修正が採用され得る。
【0086】
実施形態の列挙されたリスト
A.シーンをキャプチャしたビデオシーケンス中の複数の画像フレームのうちの第1の画像フレーム中の第1の物体タイプの物体を検出するための方法であって、方法は、
複数の画像フレームの各画像フレームについて、
第1のアルゴリズムを使用して画像フレームを分析して、画像フレーム中の第1の物体タイプの物体を識別することであって、第1のアルゴリズムが、シーン中の複数の領域の各領域について、領域に対応する画像データが画像フレーム中の第1の物体タイプの物体の一部である確率を計算し、第1のアルゴリズムが、画像データが第1の物体タイプの物体の一部であるかどうかを決定するための確率閾値を有し、画像データが第1の物体タイプの物体の一部である確率と確率閾値との間の差分のインジケータを、領域に関連するインジケータのリストに格納する、画像フレーム中の第1の物体タイプの物体を識別することと、
第1の画像フレーム中の第1の物体タイプの物体を検出することであって、第1の画像フレームが複数の画像フレームのうちの最後の画像フレームである、第1の画像フレーム中の第1の物体タイプの物体を検出することと
を含み、検出することは、
ビデオシーケンスの背景モデルを提供することであって、背景モデルが、シーン中の複数の領域の各領域について、第1の画像フレーム中の領域に対応する画像データが背景に属するのか前景に属するのかを定義し、背景モデルが、第1のアルゴリズムとは異なる第2のアルゴリズムを複数の画像フレームのうちの少なくともいくつかに適用することによって定義される、ビデオシーケンスの背景モデルを提供することと、
シーンの各領域について、インジケータの関連するリストに基づいて、領域に対応する画像データが第1の画像中で不確実な物体タイプステータスを有するかどうかを識別することと、
画像データが、不確実な物体タイプステータスを有することを識別すると、
背景モデルが画像データを第1の画像中の背景に属するものとして定義したとき、画像データが第1の物体タイプの物体の一部ではないと決定することと、
背景モデルが画像データを第1の画像中の前景に属するものとして定義したとき、画像データが第1の物体タイプの物体の一部であると決定することと
を含む、方法。
【0087】
B.画像データを不確実な物体タイプステータスを有しないものとして識別すると、
第1のアルゴリズムが、画像データが第1の物体タイプの物体の一部であると決定したとき、画像データが第1の物体タイプの物体の一部であると決定するステップと、
第1のアルゴリズムが、画像データが第1の物体タイプの物体の一部ではないと決定したとき、画像データが第1の物体タイプの物体の一部ではないと決定するステップと
をさらに含む、実施形態Aに記載の方法。
【0088】
C.画像データが第1の画像中に不確実な物体タイプステータスを有するかどうかを識別するステップは、
インジケータの関連するリストに基づいて、画像データが第1の物体タイプの物体の一部である確率と確率閾値との間の差分の絶対値が閾値差分を超えるかどうかを決定することと、
差分の絶対値が閾値差分を超えると、画像データが不確実な物体タイプステータスを有しないと決定することと、
差分が閾値距離を超えないと、正差分を示すインジケータの関連するリスト中のインジケータと、負差分を示すインジケータの関連するリスト中のインジケータとの間の分布測定値を決定することと、
分布測定値が不確実性範囲内に含まれる正差分と負差分との混合を示すと、画像データが不確実な物体タイプステータスを有すると決定し、そうでなければ、画像データが不確実な物体タイプステータスを有しないと決定することと
を含む、実施形態AからBのいずれか1つに記載の方法。
【0089】
D.画像データが第1の画像中に不確実な物体タイプステータスを有するかどうかを識別するステップは、
正差分を示すインジケータの関連するリスト中のインジケータと、負差分を示すインジケータの関連するリスト中のインジケータとの間の分布測定値を決定することと、
分布測定値が不確実性範囲内に含まれる正差分と負差分との混合を示すと、画像データが不確実な物体タイプステータスを有すると決定し、そうでなければ、画像データが不確実な物体タイプステータスを有しないと決定することと
を含む、実施形態AからBのいずれか1つに記載の方法。
【0090】
E.インジケータのリストがバイナリ値のリストであり、正差分がバイナリ値の第1の値によって示され、負差分がバイナリ値の第2の値によって示される、実施形態Dに記載の方法。
【0091】
F.不確実性範囲が、正差分を示すインジケータと負差分を示すインジケータとの20/80分布から80/20分布の間の混合を示す、実施形態CからEのいずれか1つに記載の方法。
【0092】
G.第1のアルゴリズムが、画像内の物体の特徴を抽出し、それらを数のベクトルとして表すための特徴抽出プロセスを含む、実施形態AからEのいずれか1つに記載の方法。
【0093】
H.第2のアルゴリズムが、動きベースの背景検出アルゴリズムである、実施形態AからGのいずれか1つに記載の方法。
【0094】
I.領域に関連するインジケータのリストが、5~15個の値を有するFIFOリストである、実施形態AからHのいずれか1つに記載の方法。
【0095】
J.第1の画像中で、第1の物体タイプの物体の一部であると決定された画像データをマスクまたは強調表示することをさらに含む、実施形態AからIのいずれか1つに記載の方法。
【0096】
K.カメラにおいて実施され、ビデオシーケンスがカメラによってキャプチャされたライブ・ビデオ・ストリームの一部である、実施形態AからJのいずれか1つに記載の方法。
【0097】
L.シーンをキャプチャしたビデオシーケンス中の複数の画像フレームのうちの第1の画像フレーム中の第1の物体タイプの物体を検出するための方法であって、シーンが、複数の画像フレーム中で追跡された複数の物体を含み、方法は、
複数の画像フレームの各画像フレームについて、
第1のアルゴリズムを使用して画像フレームを分析して、画像フレーム中の第1の物体タイプの物体を識別することであって、第1のアルゴリズムが、画像フレーム中で追跡された複数の物体の各物体について、物体が第1の物体タイプの物体である確率を計算し、第1のアルゴリズムが、物体が第1の物体タイプの物体であるかどうかを決定するための確率閾値を有し、物体が第1の物体タイプの物体である確率と確率閾値との間の差分のインジケータを、物体に関連するインジケータのリストに格納する、画像フレーム中の第1の物体タイプの物体を識別することと、
第1の画像フレーム中の第1の物体タイプの物体を検出することであって、第1の画像フレームが複数の画像フレームのうちの最後の画像フレームである、第1の画像フレーム中の第1の物体タイプの物体を検出することと
を含み、検出することは、
ビデオシーケンスの背景モデルを提供することであって、背景モデルが、シーン中の複数の領域の各領域について、第1の画像フレーム中の領域に対応する画像データが背景に属するのか前景に属するのかを定義し、背景モデルが、第1のアルゴリズムとは異なる第2のアルゴリズムを複数の画像フレームのうちの少なくともいくつかに適用することによって定義される、ビデオシーケンスの背景モデルを提供することと、
第1の画像中で追跡された複数の物体の各物体について、物体に関連するインジケータのリストに基づいて、物体が不確実な物体タイプステータスを有するかどうかを識別することと、
物体が不確実な物体タイプステータスを有することを識別すると、
第1の画像中の物体に対応する画像データを決定することと、
背景モデルが画像データを第1の画像中の背景に属するものとして定義すると、物体が第1の物体タイプの物体ではないと決定することと、
背景モデルが画像データを第1の画像中の前景に属するものとして定義すると、物体が第1の物体タイプの物体であると決定することと
を含む、方法。
【0098】
M.追跡された物体の各々が、シーンのビデオシーケンスをキャプチャしたカメラから閾値距離を超えて位置する、実施形態Lに記載の方法。
【0099】
N.物体を不確実な物体タイプステータスを有しないものとして識別すると、
第1のアルゴリズムが、物体が第1の物体タイプの物体であると決定したとき、物体が第1の物体タイプの物体であると決定するステップと、
第1のアルゴリズムが、物体が第1の物体タイプの物体であると決定しなかったとき、物体が第1の物体タイプの物体ではないと決定するステップと
をさらに含む、実施形態LからMのいずれか1つに記載の方法。
【0100】
O.物体が不確実な物体タイプステータスを有するかどうかを識別するステップは、
インジケータの関連するリストに基づいて、物体が第1の画像中の第1の物体タイプの物体である確率と確率閾値との間の差分の絶対値が閾値差分を超えるかどうかを決定することと、
差分の絶対値が閾値差分を超えると、物体が不確実な物体タイプステータスを有しないと決定することと、
差分が閾値距離を超えないと、正差分を示すインジケータの関連するリスト中のインジケータと、負差分を示すインジケータの関連するリスト中のインジケータとの間の分布測定値を決定することと、
分布測定値が不確実性範囲内に含まれる正差分と負差分との混合を示すと、物体が不確実な物体タイプステータスを有すると決定し、そうでなければ、物体が不確実な物体タイプステータスを有しないと決定することと
を含む、実施形態LからNのいずれか1つに記載の方法。
【0101】
P.物体が不確実な物体タイプステータスを有するかどうかを識別するステップは、
正差分を示すインジケータの関連するリスト中のインジケータと、負差分を示すインジケータの関連するリスト中のインジケータとの間の分布測定値を決定することと、
分布測定値が不確実性範囲内に含まれる正差分と負差分との混合を示すと、物体が不確実な物体タイプステータスを有すると決定し、そうでなければ、物体が不確実な物体タイプステータスを有しないと決定することと
を含む、実施形態LからNのいずれか1つに記載の方法。
【0102】
Q.インジケータのリストがバイナリ値のリストであり、正差分がバイナリ値の第1の値によって示され、負差分がバイナリ値の第2の値によって示される、実施形態Pに記載の方法。
【0103】
R.不確実性範囲が、正差分を示すインジケータと負差分を示すインジケータとの20/80分布から80/20分布の間の混合を示す、実施形態OからQのいずれか1つに記載の方法。
【0104】
S.第1のアルゴリズムが、画像内の物体の特徴を抽出し、それらを数のベクトルとして表すための特徴抽出プロセスを含む、実施形態LからRのいずれか1つに記載の方法。
【0105】
T.第2のアルゴリズムが、動きベースの背景検出アルゴリズムである、実施形態LからSのいずれか1つに記載の方法。
【0106】
U.物体に関連するインジケータのリストが、5~15個の値を有するFIFOリストである、実施形態LからTのいずれか1つに記載の方法。
【0107】
V.第1の画像中で、第1の物体タイプであると決定された物体をマスクまたは強調表示することをさらに含む、実施形態LからUのいずれか1つに記載の方法。
【0108】
X.カメラにおいて実施され、ビデオシーケンスがカメラによってキャプチャされたライブ・ビデオ・ストリームの一部である、実施形態LからVのいずれか1つに記載の方法。
【0109】
Y.処理能力を有するデバイス上で実行されたとき、請求項AからKのいずれか1つに記載の方法または請求項LからXのいずれか1つに記載の方法を実施するための命令を記憶した、非一時的コンピュータ可読記憶媒体。
【0110】
Z.シーンをキャプチャしたビデオシーケンス中の複数の画像フレームのうちの第1の画像フレーム中の第1の物体タイプの物体を検出するためのシステムであって、システムが、
1つまたは複数のプロセッサと、
1つまたは複数のプロセッサによって実行されたとき、システムに請求項AからKのいずれか1つに記載の方法または請求項LからXのいずれか1つに記載の方法を実行させるコンピュータ実行可能命令を記憶する1つまたは複数の非一時的コンピュータ可読媒体と
を備える、システム。
図1
図2
図3
図4
図5
図6
図7
図8
【外国語明細書】