IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エバーシーン リミテッドの特許一覧

特許7282216単眼スチルカメラのビデオにおけるレイヤードモーションの表現と抽出
<>
  • 特許-単眼スチルカメラのビデオにおけるレイヤードモーションの表現と抽出 図1
  • 特許-単眼スチルカメラのビデオにおけるレイヤードモーションの表現と抽出 図2
  • 特許-単眼スチルカメラのビデオにおけるレイヤードモーションの表現と抽出 図3A
  • 特許-単眼スチルカメラのビデオにおけるレイヤードモーションの表現と抽出 図3B
  • 特許-単眼スチルカメラのビデオにおけるレイヤードモーションの表現と抽出 図4
  • 特許-単眼スチルカメラのビデオにおけるレイヤードモーションの表現と抽出 図5A
  • 特許-単眼スチルカメラのビデオにおけるレイヤードモーションの表現と抽出 図5B
  • 特許-単眼スチルカメラのビデオにおけるレイヤードモーションの表現と抽出 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-05-18
(45)【発行日】2023-05-26
(54)【発明の名称】単眼スチルカメラのビデオにおけるレイヤードモーションの表現と抽出
(51)【国際特許分類】
   G06T 7/215 20170101AFI20230519BHJP
   G06V 10/26 20220101ALI20230519BHJP
【FI】
G06T7/215
G06V10/26
【請求項の数】 17
(21)【出願番号】P 2021574232
(86)(22)【出願日】2020-05-18
(65)【公表番号】
(43)【公表日】2022-08-17
(86)【国際出願番号】 IB2020054687
(87)【国際公開番号】W WO2021001703
(87)【国際公開日】2021-01-07
【審査請求日】2021-12-14
(31)【優先権主張番号】16/458,291
(32)【優先日】2019-07-01
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】518072210
【氏名又は名称】エバーシーン リミテッド
【氏名又は名称原語表記】Everseen Limited
【住所又は居所原語表記】4th Floor, The Atrium, Blackpool Retail Park, Blackpool, Cork, Ireland
(74)【代理人】
【識別番号】110001243
【氏名又は名称】弁理士法人谷・阿部特許事務所
(72)【発明者】
【氏名】ヴァシレ グイ
(72)【発明者】
【氏名】ダン ペスカル
(72)【発明者】
【氏名】コスミン セルナザヌ-グラヴァン
【審査官】片岡 利延
(56)【参考文献】
【文献】Irene Y. H. Gu et al.,Video Segmentation Using JointSpace-Time-Range Adaptive Mean Shift,[online],2006年,https://www.researchgate.net/publication/225176893_Video_Segmentation_Using_Joint_Space-Time-Range_Adaptive_Mean_Shift
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/215
G06V 10/26
(57)【特許請求の範囲】
【請求項1】
ビデオの動きデータをセグメント化し、レイヤリング順序を推測する方法であって、
フレーム内モード推定を使用して前記ビデオの第1の画像フレームをセグメント化することと、
フレーム間モードマッチングを使用して前記ビデオの1または複数のさらなる画像フレームをセグメント化することと、
現在のセグメント化された画像フレームのバイナリマップを生成することによって、前記現在のセグメント化された画像フレームのラベル変更マップを生成することと、
前のセグメント化された画像フレームに対してラベルが変更された1または複数のピクセルをマークすることと、
前記ラベル変更マップに基づいて前記現在のセグメント化された画像フレームの1または複数の非静止画像セグメントを検出することと、
前記1または複数の非静止画像セグメント内の1または複数の移動画像セグメントを検出することと、
前記1または複数の移動画像セグメントの動きを推定することと、
各移動セグメントを7つのパラメータのベクトルとして表すことであって、前記7つのパラメータは、対応するセグメントの重心の2つの空間座標、類似性変換に対応する並進および回転パラメータを含む4つのアフィンパラメータ、および対応するピクセルの総数によって定義される重みを含む、ことと、
対応する1または複数のパラメータに基づいて、1または複数の類似の移動セグメントベクトルをクラスタ化することと
を備える方法。
【請求項2】
前記ビデオは、単眼スチルカメラによってキャプチャされる、請求項1の方法。
【請求項3】
前記1または複数の移動セグメントは、1または複数の非遮蔽移動セグメントおよび1または複数の遮蔽移動セグメントを含む、請求項1の方法。
【請求項4】
前記1または複数の移動セグメントの動きは、2次元アフィンモデルを使用して推定される、請求項1の方法。
【請求項5】
前記ビデオの1または複数の画像フレームは、X、Y、T、R、G、B時空間マルチチャネル空間の半径hの超球を使用するジョイント時空間適応ミーンシフトアルゴリズムに基づいてセグメント化される、請求項1の方法。
【請求項6】
フレーム間モードマッチングを使用して前記ビデオの1または複数のさらなる画像フレームをセグメント化することは、セグメント化された前の画像フレームにおける密度モード発見に基づいて現在の画像フレームをセグメント化することを含む、請求項1の方法。
【請求項7】
ビデオの動きデータをセグメント化し、レイヤリング順序を推測するシステムであって、
1または複数の命令を格納するメモリと、
前記メモリに通信可能なように結合され、前記メモリに格納されている前記1または複数の命令を実行するように構成されているプロセッサと
を備え、前記プロセッサは、
フレーム内モード推定を使用して前記ビデオの第1の画像フレームをセグメント化し、フレーム間モードマッチングを使用して前記ビデオの1または複数のさらなる画像フレームをセグメント化するビデオセグメンテーションモジュールと、
現在のセグメント化された画像フレームのバイナリマップを生成することによって、前記現在のセグメント化された画像フレームのラベル変更マップを生成し、前のセグメント化された画像フレームに対してラベルが変更された1または複数のピクセルをマークするラベルフレーム差生成モジュールと、
前記ラベル変更マップに基づいて前記現在のセグメント化された画像フレームの1または複数の非静止画像セグメントを検出する非静止セグメント検出モジュールと、
前記1または複数の非静止画像セグメント内の1または複数の移動画像セグメントを検出する移動セグメント検出モジュールと、
前記1または複数の移動画像セグメントの動きを推定する動き推定モジュールと、
各移動セグメントを7つのパラメータのベクトルとして表し、対応する1または複数のパラメータに基づいて、1または複数の類似の移動セグメントベクトルをクラスタ化するモーションセグメンテーションモジュールであって、前記7つのパラメータは、対応するセグメントの重心の2つの空間座標、類似性変換に対応する並進および回転パラメータを含む4つのアフィンパラメータ、および対応するピクセルの総数によって定義される重みを含む、モーションセグメンテーションモジュール
を備えたシステム。
【請求項8】
前記ビデオは、単眼スチルカメラによってキャプチャされる、請求項のシステム。
【請求項9】
前記1または複数の移動セグメントは、1または複数の非遮蔽移動セグメントおよび1または複数の遮蔽移動セグメントを含む、請求項のシステム。
【請求項10】
前記1または複数の移動セグメントの動きは、2次元アフィンモデルを使用して推定される、請求項のシステム。
【請求項11】
前記ビデオの1または複数の画像フレームは、X、Y、T、R、G、B時空間マルチチャネル空間の半径hの超球を使用するジョイント時空間適応ミーンシフトアルゴリズムに基づいてセグメント化される、請求項のシステム。
【請求項12】
フレーム間モードマッチングを使用して前記ビデオの1または複数のさらなる画像フレームをセグメント化することは、セグメント化された前の画像フレームにおける密度モード発見に基づいて現在の画像フレームをセグメント化することを含む、請求項7のシステム。
【請求項13】
ビデオの動きデータをセグメント化し、レイヤリング順序を推測する、コンピュータのメモリに格納されているコンピュータプログラムであって、前記コンピュータプログラムは、前記コンピュータに、
フレーム内モード推定を使用して前記ビデオの第1の画像フレームをセグメント化することと、
フレーム間モードマッチングを使用して前記ビデオの1または複数のさらなる画像フレームをセグメント化することと、
現在のセグメント化された画像フレームのバイナリマップを生成することによって、前記現在のセグメント化された画像フレームのラベル変更マップを生成することと、
前のセグメント化された画像フレームに対してラベルが変更された1または複数のピクセルをマークすることと、
前記ラベル変更マップに基づいて前記現在のセグメント化された画像フレームの1または複数の非静止画像セグメントを検出することと、
前記1または複数の非静止画像セグメント内の1または複数の移動画像セグメントを検出することと、
前記1または複数の移動画像セグメントの動きを推定することと、
各移動セグメントを7つのパラメータのベクトルとして表すことであって、前記7つのパラメータは、対応するセグメントの重心の2つの空間座標、類似性変換に対応する並進および回転パラメータを含む4つのアフィンパラメータ、および対応するピクセルの総数によって定義される重みを含む、ことと、
対応する1または複数のパラメータに基づいて、1または複数の類似の移動セグメントベクトルをクラスタ化することと
を実行させる、コンピュータプログラム。
【請求項14】
前記ビデオは、単眼スチルカメラによってキャプチャされる、請求項13コンピュータプログラム。
【請求項15】
前記1または複数の移動セグメントは、1または複数の非遮蔽移動セグメントおよび1または複数の遮蔽移動セグメントを含む、請求項13コンピュータプログラム。
【請求項16】
前記1または複数の移動セグメントの動きは、2次元アフィンモデルを使用して推定される、請求項13コンピュータプログラム。
【請求項17】
単眼スチルカメラ監視システムであって、
ビデオをキャプチャする単眼スチルカメラと、
1または複数の命令を格納するメモリと、
前記メモリに結合され、前記メモリに格納されている前記1または複数の命令を実行して、
フレーム内モード推定を使用して前記ビデオの第1の画像フレームをセグメント化し、
フレーム間モードマッチングを使用して前記ビデオの1または複数のさらなる画像フレームをセグメント化し、
現在のセグメント化された画像フレームのバイナリマップを生成することによって、前記現在のセグメント化された画像フレームのラベル変更マップを生成し、前のセグメント化された画像フレームに対してラベルが変更された1または複数のピクセルをマークし、
前記ラベル変更マップに基づいて前記現在のセグメント化された画像フレームの1または複数の非静止画像セグメントを検出し、
前記1または複数の非静止画像セグメント内の1または複数の移動画像セグメントを検出し、
前記1または複数の移動画像セグメントの動きを推定し、
各移動セグメントを7つのパラメータのベクトルとして表し、前記7つのパラメータは、対応するセグメントの重心の2つの空間座標、類似性変換に対応する並進および回転パラメータを含む4つのアフィンパラメータ、および対応するピクセルの総数によって定義される重みを含み、
対応する1または複数のパラメータに基づいて、1または複数の類似の移動セグメントベクトルをクラスタ化し、
1または複数のクラスタに基づいて動き検出および動き認識を行う
ように構成されているプロセッサと
を備えたシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、画像における動き検出に関し、より具体的には、単眼スチルカメラでキャプチャされたビデオシーケンスにおける動きのセグメント化およびレイヤリング順序の推測に関する。
【背景技術】
【0002】
移動オブジェクト検出は、コンピュータビジョンおよび画像処理で使用される技術である。ビデオの複数の連続するフレームが様々な方法で比較され、任意の移動オブジェクトが検出されたかどうかが判断される。移動オブジェクト検出は、ビデオ監視、人間活動分析、道路状態監視、空港の安全性、および海の境界に沿った保護の監視など、幅広いアプリケーションに使用されてきた。オブジェクト検出システムでは、オブジェクトが事前定義されていない場合がある。オブジェクトのセグメンテーションを行った後、オブジェクトの動きを測定することは、ビデオシーンの理解にも役立つ。
【0003】
画像フレームでは、レイヤの順序によって、何が何の上にあるかが定義される。これは、(3D)オブジェクトの深度順序を定義するモデルである。一例では、典型的な絵画では、最初のレイヤは空であり、これは最も遠いレイヤである。次のレイヤには、建物と飛行機が含まれる場合がある。さらに次のレイヤは、建物の前の車であり得る。車のレイヤが建物を部分的に隠す場合がある。車の前に人がいて、車の一部を隠している場合がある。人は最後のレイヤであり、何も人を覆っていないので、人は遮蔽されないままである。典型的な動き検出システムは、動き検出を実行し、行動認識を実行するために、局所的な深度順序の知識を必要とする。
【0004】
しかしながら、既知の最先端の動き推定およびセグメンテーション方法は、高価なオプティカルフロー機能、動的カメラを使用し、全てのピクセルを同等に処理するため、計算コストが高くなる。既存の方法は、並列画像処理と機械学習に特化した電子回路であり、計算コストが高いグラフィックスプロセッシングユニット(GPU)を使用して実装可能である。フレームのキャプチャに単眼スチルカメラを使用すると、計算の複雑さが軽減される可能性があるが、動き検出の精度が低下する可能性がある。
【0005】
上記を考慮すると、計算コストが低く、単眼スチルカメラでキャプチャされたビデオシーケンスの動きを正確にセグメント化し、レイヤリング順序を推測できるオブジェクト検出システムが必要である。
【発明の概要】
【0006】
本開示の実施形態に従って、ビデオの動きデータをセグメント化し、レイヤリング順序を推測する方法が提供される。この方法は、フレーム内モード推定を使用してビデオの第1の画像フレームをセグメント化することと、フレーム間モードマッチングを使用してビデオの1または複数のさらなる画像フレームをセグメント化することと、現在のセグメント化された画像フレームのバイナリマップを生成することによって、現在のセグメント化された画像フレームのラベル変更マップを生成することと、前のセグメント化された画像フレームに対してラベルが変更された1または複数のピクセルをマークすることと、ラベル変更マップに基づいて現在のセグメント化された画像フレームの1または複数の非静止画像セグメントを検出することと、1または複数の非静止画像セグメント内の1または複数の移動画像セグメントを検出することと、1または複数の移動画像セグメントの動きを推定することと、各移動セグメントを7つのパラメータのベクトルとして表すことと、対応する1または複数のパラメータに基づいて、1または複数の類似の移動セグメントベクトルをクラスタ化することとを備える。
【0007】
本開示のさらなる実施形態に従って、ビデオの動きデータをセグメント化し、レイヤリング順序を推測するシステムが提供される。このシステムは、1または複数の命令を格納するメモリと、メモリに通信可能なように結合され、メモリに格納されている1または複数の命令を実行するように構成されているプロセッサとを備える。このプロセッサは、フレーム内モード推定を使用してビデオの第1の画像フレームをセグメント化し、フレーム間モードマッチングを使用してビデオの1または複数のさらなる画像フレームをセグメント化するビデオセグメンテーションモジュールと、現在のセグメント化された画像フレームのバイナリマップを生成することによって、現在のセグメント化された画像フレームのラベル変更マップを生成し、前のセグメント化された画像フレームに対してラベルが変更された1または複数のピクセルをマークするラベルフレーム差生成モジュールと、ラベル変更マップに基づいて現在のセグメント化された画像フレームの1または複数の非静止画像セグメントを検出する非静止セグメント検出モジュールと、1または複数の非静止画像セグメント内の1または複数の移動画像セグメントを検出する移動セグメント検出モジュールと、1または複数の移動画像セグメントの動きを推定する動き推定モジュールと、各移動セグメントを7つのパラメータのベクトルとして表し、対応する1または複数のパラメータに基づいて、1または複数の類似の移動セグメントベクトルをクラスタ化するモーションセグメンテーションモジュールを備える。
【0008】
本開示のさらなる実施形態に従って、ビデオの動きデータをセグメント化し、レイヤリング順序を推測するコンピュータプログラム可能製品が提供される。このコンピュータプログラム可能製品は、命令のセットを含む。命令のセットは、プロセッサによって実行されると、プロセッサに、フレーム内モード推定を使用してビデオの第1の画像フレームをセグメント化することと、フレーム間モードマッチングを使用してビデオの1または複数のさらなる画像フレームをセグメント化することと、現在のセグメント化された画像フレームのバイナリマップを生成することによって、現在のセグメント化された画像フレームのラベル変更マップを生成することと、前のセグメント化された画像フレームに対してラベルが変更された1または複数のピクセルをマークすることと、ラベル変更マップに基づいて現在のセグメント化された画像フレームの1または複数の非静止画像セグメントを検出することと、1または複数の非静止画像セグメント内の1または複数の移動画像セグメントを検出することと、1または複数の移動画像セグメントの動きを推定することと、各移動セグメントを7つのパラメータのベクトルとして表すことと、対応する1または複数のパラメータに基づいて、1または複数の類似の移動セグメントベクトルをクラスタ化することとを実行させる。
【0009】
本開示の別のさらなる実施形態に従って、ビデオをキャプチャする単眼スチルカメラと、1または複数の命令を格納するメモリと、メモリに結合され、メモリに格納されている1または複数の命令を実行して、フレーム内モード推定を使用してビデオの第1の画像フレームをセグメント化し、フレーム間モードマッチングを使用してビデオの1または複数のさらなる画像フレームをセグメント化し、現在のセグメント化された画像フレームのバイナリマップを生成することによって、現在のセグメント化された画像フレームのラベル変更マップを生成し、前のセグメント化された画像フレームに対してラベルが変更された1または複数のピクセルをマークし、ラベル変更マップに基づいて現在のセグメント化された画像フレームの1または複数の非静止画像セグメントを検出し、1または複数の非静止画像セグメント内の1または複数の移動画像セグメントを検出し、1または複数の移動画像セグメントの動きを推定し、各移動セグメントを7つのパラメータのベクトルとして表し、対応する1または複数のパラメータに基づいて、1または複数の類似の移動セグメントベクトルをクラスタ化し、1または複数のクラスタに基づいて動き検出および動き認識を行うように構成されているプロセッサを備えた単眼スチルカメラ監視システムが提供される。
【0010】
本開示の特徴は、添付の特許請求の範囲によって定義される通りの本開示の範囲から外れることなく、様々な組合せで組み合わせられる余地があることが認められるであろう。
【図面の簡単な説明】
【0011】
以上の発明の概要および例証的な実施形態の以下の詳細な説明は、添付図面と併せて読まれた場合によりよく理解される。本開示を例証する目的のために、本開示の例示的な構造が、図面において示されている。しかしながら、本開示は、本明細書で開示される特定の方法および手段には限定されない。また、当業者は、図面が縮尺通りではないことを理解するであろう。可能であれば常に、同様の要素は、同一の番号によって示されている。添付図面において、下線のある番号は、下線のある番号が位置付けられるアイテム、または下線のある番号が隣接しているアイテムを表すために採用される。下線のない番号は、下線のない番号をアイテムにリンクする線によって識別されるアイテムに関する。番号に下線がなく、関連付けられる矢印に添えられている場合に、下線のない番号は、矢印が向いている一般的なアイテムを識別するために使用される。
図1】本開示の様々な実施形態を実施することができる環境を示す。
図2】本開示の一実施形態による、カメラによってキャプチャされたビデオシーケンスの動き検出およびセグメンテーションのための動き検出システムを示す。
図3A】本開示の一実施形態による、第1から第6の連続するビデオフレームおよびそれらの対応するミーンシフトセグメント化画像を示す。
図3B】本開示の一実施形態による、第1から第6の連続するビデオフレームおよびそれらの対応するミーンシフトセグメント化画像を示す。
図4】本開示の一実施形態による、静止画像セグメントおよび非静止画像セグメントを描写する例示的なビデオシーケンスを示す。
図5A】本開示の一実施形態による、様々なタイプの非静止画像セグメントを描写する例示的なビデオシーケンスを示す。
図5B】本開示の実施形態による、ビデオシーケンスのための移動セグメント検出モジュールによって生成された三元セグメンテーションマップ(trinary segmentation map)を示す。
図6】本開示の一実施形態による、カメラによってキャプチャされたビデオシーケンスの動き検出およびセグメンテーションの方法を示すフローチャートである。
【発明を実施するための形態】
【0012】
添付図面の詳細な説明は、本開示の現在好ましい実施形態の説明として意図されており、本開示が実施され得る唯一の形態を表すことを意図されていない。同じまたは同等の機能が、本開示の精神および範囲内に包含されることを意図された異なる実施形態によって達成され得ることが理解されるべきである。
【0013】
本明細書および特許請求の範囲に使用される、単数形「1つの(a)」、「1つの(an)」、および「その(the)」は、文脈によりそうでないことが明確に示されない限り、複数形の指示対象を含む。例えば、「項目(article)」という用語は、文脈が明らかに他のことを指示しない限り、複数の項目を含み得る。
【0014】
当業者は、図中の要素が単純さと明快さのために示されており、必ずしも一定の縮尺で描かれているわけではないことを理解するであろう。例えば、本開示の理解を向上させるため、図中のいくつかの要素の寸法は、他の要素と比較して誇張されている場合がある。
【0015】
図面の1つに示されていない、前述の出願に記載された追加の構成要素があり得る。そのような構成要素が説明されているが、図面に描かれていない場合、そのような図面がないことは、そのような設計が明細書から欠落していると見なされるべきではない。
【0016】
必要に応じて、本開示の詳細な実施形態が本明細書に開示される。しかしながら、開示された実施形態は、様々な形態で具体化することができる開示の単なる例示であることが理解されるべきである。従って、本明細書に開示される特定の構造的および機能的詳細は、限定的であると解釈されるべきではなく、単に特許請求の範囲の基礎として、および事実上任意の適切に詳細な構造で本開示を様々に使用することを当業者に教えるための代表的な基礎として解釈されるべきである。さらに、本明細書で使用される用語および句は、限定することを意図するのではなく、むしろ、本開示の理解可能な説明を提供することを意図している。
【0017】
以下の詳細な説明は、本開示の実施形態およびそれらが実装され得る方法を例証する。本開示を実行するベストモードが開示されているものの、当業者は、本開示を実行する、または実践するための他の実施形態もまた可能であることを認識するであろう。
【0018】
図1は、本開示の様々な実施形態を実施することができる環境100を示す。環境100は、カメラ101、動き検出システム102、およびコンピューティングデバイス103を含む。
【0019】
カメラ101は、1または複数のオブジェクトのビデオをリアルタイムでキャプチャして保存するように構成されている。カメラ101の例には、主に監視目的で使用される単眼スチルカメラが含まれるが、これに限定されない。
【0020】
動き検出システム102は、カメラ101によってキャプチャされたビデオシーケンスの動き検出およびセグメンテーションを実行するように構成される。
【0021】
動き検出システム102は、中央処理装置(CPU)106、操作パネル108、およびメモリ110を含む。CPU106は、プロセッサ、コンピュータ、マイクロコントローラ、または操作パネル108およびメモリ110などの様々な構成要素の動作を制御する他の回路である。CPU106は、例えば、メモリ110などの揮発性または不揮発性メモリに格納されているか、または他の方法でCPU106に提供されるソフトウェア、ファームウェア、および/または他の命令を実行することができる。CPU106は、1または複数のシステムバス、ケーブル、または他のインターフェースなどの有線または無線接続を介して、操作パネル108およびメモリ110に接続することができる。本開示の一実施形態では、CPU106は、ローカルネットワーク上の全てのカメラに対して、リアルタイムのオブジェクト検出および予測を提供するためのカスタムグラフィックスプロセッシングユニット(GPU)サーバソフトウェアを含み得る。
【0022】
操作パネル108は、画像形成装置100のユーザインターフェースであり得、物理的なキーパッドまたはタッチスクリーンの形態をとることができる。操作パネル108は、選択された機能、プリファレンス、および/または認証に関連する1または複数のユーザからの入力を受信することができ、視覚的および/または聴覚的に入力を提供および/または受信することができる。
【0023】
メモリ110は、画像形成装置100の動作を管理する際にCPU106によって使用される命令および/またはデータを格納することに加えて、画像形成装置100の1または複数のユーザに関連するユーザ情報も含み得る。例えば、ユーザ情報は、認証情報(例えば、ユーザ名/パスワードのペア)、ユーザ設定、および他のユーザ固有の情報を含み得る。CPU106は、このデータにアクセスして、操作パネル108およびメモリ110の動作に関連する制御機能(例えば、1または複数の制御信号の送信および/または受信)を提供するのを支援することができる。
【0024】
カメラ101および動き検出システム102は、コンピューティングデバイス103によって制御/操作され得る。コンピューティングデバイス103の例には、スマートフォン、パーソナルコンピュータ、ラップトップなどが含まれる。コンピューティングデバイス103は、ユーザ/オペレータが、カメラ101によってキャプチャされたビデオを表示および保存し、動き検出システム102によって処理されたビデオ/画像にアクセスすることを可能にする。コンピューティングデバイス103は、ユーザがカメラ101によってキャプチャされたビデオストリームにアクセスして処理できるようにするため、動き検出システム102のモバイルアプリケーションを実行することができる。
【0025】
カメラ101、動き検出システム102、およびコンピューティングデバイス103は、有線接続を介して、または無線通信ネットワーク104を介して、互いに接続することができる。通信ネットワーク104は、本開示の範囲を限定することなく、任意の好適な有線ネットワーク、無線ネットワーク、これらの組合せ、または任意の他の従来のネットワークであってよい。少数の例は、ローカルエリアネットワーク(LAN)、無線LAN接続、インターネット接続、ポイントツーポイント接続、または他のネットワーク接続、およびそれらの組合せを含むことができる。
【0026】
一実施形態では、カメラ101、動き検出システム102、およびコンピューティングデバイス103は、単一のデバイスに統合することができ、単一のデバイスは、内蔵カメラおよびディスプレイを有する携帯型スマートフォンである。
【0027】
図2は、本開示の一実施形態による、カメラ101によってキャプチャされたビデオシーケンスの動き検出およびセグメンテーションのための動き検出システム102を示す。
【0028】
動き検出システム102は、セグメンテーションモジュール201、ラベルフレーム差生成モジュール202、非静止セグメント検出モジュール203、移動セグメント検出モジュール204、第1の動き推定モジュール205、第2の動き推定モジュール206、およびモーションセグメンテーションモジュール207を含むCPU106を含む。
【0029】
本開示の一実施形態では、7つの構成要素201~207のそれぞれは、単一の物理的コンピュータ上、または2つ以上のコンピュータ上に存在し、メッセージングプロトコルを介して通信することができる。7つのコンポーネントが単一のコンピュータで実行される場合、それらは通信プロトコルによって通信する別々のプロセスで実行される可能性がある。それらが単一のプロセス内で実行される場合、それらはスレッドとして実行される可能性がある。スレッドは、オペレーティングシステムで実行できる処理の最小単位である。多くの最新のオペレーティングシステムでは、スレッドはプロセス内に存在する。つまり、単一のプロセスは複数のスレッドを含む場合がある。単一のプロセスで実行する場合は、リアクティブデザインを使用して、コンポーネントが1つ以上のスレッドを共有できるようにすることもできる。コンポーネント201~207は、プログラミング言語で実装することができる。
【0030】
セグメンテーションモジュール201は、ジョイント時空間適応ミーンシフトを使用することによって、カメラ101によってキャプチャされたビデオのビデオセグメンテーションを実行するように構成される。ビデオセグメンテーションは、時間方向に沿ってオブジェクトと背景をセグメント化(移動)することを目的としている。画像のモーションエリアは、前景の人物、背景の木、または道路など、一部の前景/背景のオブジェクト/領域の動きに関連付けられている。本開示の一実施形態では、ミーンシフトベースのビデオセグメンテーションは、ビデオセグメンテーションに基づいて実行され、動的/静的なオブジェクト/背景のセグメンテーションは、連続フレームにおけるフレーム間モードマッチングおよび動きベクトルモード推定を通じて得られる。モードマッチングによるビデオセグメンテーションは、現在のフレーム内のピクセルのモードが、同じオブジェクトまたは領域を表すデータ(または領域)のサブセットのモードと一致する必要があるという考えに基づいている。
【0031】
新しい前景オブジェクトまたは覆われていない背景領域のために現在のフレームに新しく表示されるオブジェクト/領域は、フレーム内モード推定によってセグメント化される。高速処理のために、セグメンテーションモジュール201は、長方形の6次元放射状対称カーネル(X、Y、T、R、G、B時空間マルチチャネル空間における半径hの超球)を使用して、ミーンシフトベースのビデオセグメンテーションを実行する。データ空間は、様々な物理的重要性と変数の範囲を説明するために、適切に正規化されている必要がある。
【0032】
図3Aおよび図3Bは、第1から第6の連続するビデオフレーム302aから312aまで、およびそれらの対応するミーンシフトセグメント化された画像302bから312bまでを示す。セグメント化された画像の各セグメントは、ミーンシフト収束モードカラーの色(加重平均の種類)によってエンコードされ、セグメントの境界が強調表示されている。
【0033】
本開示の一実施形態では、シーケンスの第1のフレーム302aは、フレーム内モード推定によってセグメント化される。フレーム内モード推定は、主に、現在のフレームに導入された新しい領域、つまり新しい前景オブジェクト、または以前に遮られていた背景を明らかにするものを扱うために設計されている。対応するセグメント化された画像302bの各ピクセルは、その収束モード(convergence mode)によって表される。同じモードに収束するピクセルは、高速伝播を使用してリンクされ、同じラベルが割り当てられ、ラベルマップも第1のフレーム302aに対して生成される。
【0034】
第2のフレーム304a以降、セグメンテーションは、フレーム間モードマッチングを使用して実行される。フレーム間モードマッチングは、現在のフレームのピクセルと前のフレームのピクセルの間で同様のモードを見つけるために使用される。これは、画像フレームを介して対応するモーション/静的領域を追跡するために使用できる。本開示の一実施形態では、第2のセグメント化されたフレーム304bの各ピクセルは、セグメント化された前のフレーム302bで検索されたそのミーンシフトモードに割り当てられる。提案されたセグメンテーションアルゴリズムのこの微妙な詳細は、滑らかな時空間ラベルチューブで非常に安定した結果をもたらすため、本アプリケーションにとって非常に重要である。より良い安定性は、現在のフレーム304aが、セグメント化された前のフレーム302bにおける密度モード発見(density mode finding)によってセグメント化されるためである。
【0035】
本開示の一実施形態では、ミーンシフトセグメンテーション方法はまた、セグメンテーションラベルを伝播することを含む。現在のフレーム304aのピクセルには、以前にセグメント化されたフレーム302bのカーネル距離内で見られる最も頻繁なラベルが割り当てられる。アルゴリズムのさらに高速なバージョンとして、前のフレーム302bの同じ空間座標を持つピクセルが、6D空間のカーネル半径距離内で検出され、テストが真の場合にそのラベルが割り当てられるかどうかがチェックされる。前のフレーム302b内にカーネル距離内のピクセルが見つからない場合、カーネル半径距離内にある現在のフレーム304a内にすでにラベル付けされたピクセルがない限り、ピクセルには新しいラベルが割り当てられる。従って、領域の対応が解決され、カバーされていない背景またはシーンに入るオブジェクトによって生成された新しいラベルが新しい領域に割り当てられる。画像サポートの境界に接するセグメントを除いて、対応するセグメントの動きはゼロに設定される。
【0036】
図2に戻って参照すると、ラベルフレーム差生成モジュール202は、現在のセグメント化された画像フレームごとにラベル変更マップを生成するように構成される。本開示の一実施形態では、ラベル変更マップは、現在のセグメント化された画像フレームのバイナリマップを生成し、次に、前のセグメント化された画像フレームからラベルを変更したピクセルをマーキングすることによって形成される。前のセグメント化された画像フレームから変更されたラベルの付いたピクセルは、次のカテゴリ、すなわち、古いオブジェクトの遮蔽された部分または遮蔽されていない部分、またはシーンに入る新しいオブジェクトの部分、のいずれかに属する可能性がある。
【0037】
非静止セグメント検出モジュール203は、現在のセグメント化された画像フレームから各静止画像セグメントを検出して破棄するように構成される。静止画像セグメントは動きがなく、それ以上の処理は必要ないが、非静止セグメントは静止セグメントまたは移動セグメントとしてさらに分類する必要がある。静止セグメントの動きベクトルは、覆われた静的オブジェクトまたは覆われていない静的オブジェクトに対応するためゼロである。
【0038】
通常、スチルカメラでキャプチャされた画像には、動きのない広い領域が含まれている。従って、動きのない領域に属する前の画像フレームで生成されたセグメントは、対応する現在の画像フレームの形状または内容を変更しない。ただし、連続するフレーム間で低いと思われるノイズと照明の変化の存在は、小さな変化を引き起こす可能性がある。例えば、テーブル上のセグメントの実際の境界(図3Aおよび図3B参照、第1から第6のセグメント化された画像302bから312b)は、ミーンシフトクラスタリングによって人工的に作成され、オブジェクトの境界に対応しないことが分かり得る。わずかなシャドウイングとハイライト、およびテーブルの照明勾配は全て、テーブル上のセグメントの形成に寄与する可能性がある。これは、セグメント境界の勾配をチェックすることで解決できる。ただし、これにより、エッジが拡散しているオブジェクト(雲など)や、背景とのコントラストが低いオブジェクトをセグメント化する際に問題が発生する可能性がある。
【0039】
本開示の一実施形態では、非静止セグメント検出モジュール203は、セグメントおよび前のフレームのその対応物から計算された、しきい値、ユニオンセット上の共通部分のカーディナリティをチェックすることによって、現在の画像フレームの各静止画像セグメントを検出し、および破棄する。
【0040】
図4は、本開示の一実施形態による、静止画像セグメントおよび非静止画像セグメントを描写する例示的なビデオシーケンス400を示す。
【0041】
例示的なビデオシーケンス400は、3つのセグメント、すなわち、黒色の背景セグメント408上の第1および第2の正方形セグメント404および406を含む第1のセグメント化された画像フレーム402を含む。第2のセグメント化された画像フレーム410は、ビデオシーケンス400の次のセグメント化された画像フレームである。第2のセグメント化された画像フレーム410において、第1の正方形のセグメント404は、第2の正方形のセグメント406に向かって移動し、一方、第2の正方形のセグメント406は静止している。第3の画像412は、第1のセグメント化された画像フレーム402から第2のセグメント化された画像フレーム404への移行中に変化した白いピクセルを強調している。従って、第2の正方形のセグメント406は、静止セグメントとして検出され、そこから廃棄され得る。
【0042】
図2に戻って参照すると、移動セグメント検出モジュール204は、現在のセグメント化された画像フレーム内の静的および移動する非静止セグメントを識別するように構成される。移動セグメント検出モジュール204は、最初に、形状を変化させない、すなわち、カーディナリティを変化させないセグメントを識別する。このようなセグメントは最上位のローカルレイヤを表し、それらの動きは、アフィンモデルを使用したロバスト回帰によって正確に推定できる。残りのセグメントは、静的または動的のいずれかである。静的セグメントは、上位レイヤを移動するオブジェクトに属するセグメントで覆われている、または覆われていない場合に形状が変化する。動的セグメントは、別の移動セグメントによって遮られたり、遠近法が変更されたりするなど、様々な理由で形状が変化する場合がある。静的セグメントでは、境界ピクセルのかなりの割合が固定されている。移動する非静止セグメントには、遮蔽されていない移動セグメントと遮蔽された移動セグメントの2つのタイプがあり得る。
【0043】
図5Aは、本開示の一実施形態による、様々なタイプの非静止画像セグメントを描写する例示的なビデオシーケンス500を示す。
【0044】
ビデオシーケンス500は、4つのセグメント、すなわち、第1、第2、および第3の正方形セグメント504、506、および508、並びに黒色の背景セグメント510を含む第1の画像フレーム502を含む。黒色の背景セグメント510は静的であり、他の3つのセグメント504、506、および508全てによって遮られている。
【0045】
第2の画像フレーム512に見られるように、第1の正方形セグメント504は、1ピクセル下および3ピクセル右に移動し、遮蔽されていない。第1の正方形セグメント504が移動すると、それは第2の正方形セグメント506を部分的に遮蔽する。第2の正方形セグメント506もまた、1ピクセル上および1ピクセル右に移動するが、それは第1の正方形セグメント504によって遮蔽される。第3の正方形セグメント508は静止しており、遮蔽されていない。
【0046】
第3の画像514は、第1のフレーム502から第2のフレーム512への遷移中に変化したピクセルを強調している。
【0047】
図5Bは、本開示の実施形態による、ビデオシーケンス500のための移動セグメント検出モジュール204によって生成された三元セグメンテーションマップ516を示す。三元セグメンテーションマップ516は、移動する非静止セグメント518および静的な非静止セグメント520を含む。第3の正方形のセグメント508は静止しているので、静的な非静止セグメント520の一部である。静的な非静止セグメント520は、動きがゼロであり、さらなる処理を必要としない。移動セグメント518は、遮蔽されていない移動セグメントおよび遮蔽された移動セグメントから形成され得る。
【0048】
図2に戻って参照すると、第1の動き推定モジュール205は、第1の正方形セグメント504などの遮蔽されていない移動セグメントの動きを推定するように構成される(図5Aの第2の画像フレーム512参照)。第1の正方形セグメント504は、そのサイズおよび形状を保持しているので、それは遮蔽されず、第1および第2の画像フレーム502および512におけるその位置が知られている。本開示の一実施形態では、第1の正方形セグメント504の動きは、2Dアフィンモデルなどの一般的な動きモデルによって正確に表すことができる。モデルパラメータは、堅固な登録方法を介して推定され得る。
【0049】
図2に戻って参照すると、第2の動き推定モジュール206は、第2の正方形セグメント506などの遮蔽された移動セグメントの動きを推定するように構成される(図5Aの第2の画像フレーム512参照)。遮蔽した移動セグメントでは、動き推定精度の低下が予想される場合がある。遮蔽セグメントが1つだけであり、遮蔽セグメント自体が遮蔽されていない場合、その境界ピクセルが遮蔽セグメントと共有されていなければ、遮蔽セグメントの動きは、動きを推定することによって解決され得る。ほとんどのセグメントは小さいため、この仮定は正しいと見なすことができる。繰り返しになるが、選択した境界ピクセルの動きを推定するために、アフィンモデルを使用したロバスト回帰は、大量の外れ値データを許容できるので、使用されるツールである。ロバスト回帰は、従来のパラメトリック法と非パラメトリック法のいくつかの制限を克服するために設計された回帰分析の形式であり、回帰分析は1つ以上の独立変数と従属変数の間の関係を見つけようとする。
【0050】
アフィンモデルは次のように定義できる。これは、s、α、tx、tyの4つのパラメータによって定義される。これらのパラメータは、ロバストな登録を使用して隣接フレームのセグメントのペアから推定されることになる。
【0051】
【数1】
【0052】
図2に戻って参照すると、モーションセグメンテーションモジュール207は、最初に各セグメントを7つのパラメータのベクトルとして表すように構成される。本開示の一実施形態では、7つのパラメータは、対応するセグメントの重心の2つの空間座標、類似性変換に対応する並進および回転パラメータを含む4つのアフィンパラメータ、およびそのピクセルの総数によって定義されるセグメントの重みを含む。一例では、典型的なセグメントベクトルvは、v=[s,α,tx,ty,xc,yc]および重みnpの形式であり、ここで、s、α、tx、およびtyは4つのアフィンパラメータであり、xcおよびycは、対応するセグメントの重心の空間座標である。
【0053】
各セグメントのセグメントベクトルが決定されると、モーションセグメンテーションモジュール207は、対応する第1から第6のパラメータに基づいて、1または複数のセグメントベクトルの1または複数のクラスタを形成するように構成される。クラスタリングは、類似したエンティティをグループ化する方法である。2つのベクトルの場合、類似性は距離関数であり得る。クラスタリングに必要な類似度は、セグメントの重みを除いて、セグメントベクトルの最初の6つのパラメータを使用する。これは、任意のセグメントのベクトルにそのピクセル数(そのカーディナリティ)を掛けたものを複製するように機能する。一例では、2つのセグメントのみがクラスタにグループ化されている場合、クラスタの中心はセグメントベクトルの加重平均として更新されうる:vc=(np1*v1+np2*v2)/(np1+np2)、ここでnp1とnp2は、2つのセグメントの個々の重みである。
【0054】
クラスタリングプロセスにより、セグメントのグループ化が容易になり、移動するオブジェクトや、同様の動きを持つ人体(脚、前腕、頭など)などの関節オブジェクトの一部を見つけることができる。移動するオブジェクトの全てのセグメントが同様の(同一ではない)動きをしていると想定される。類似性は、表現の粒度を定義する。人は平均時速5kmで歩くことができるが、脚と腕は独立して動ける。活動認識アプリケーションでは、各手足の動きを特徴づける必要がある。
【0055】
本開示の一実施形態では、異なる色またはテクスチャを有するオブジェクトの部分は、オブジェクトが3次元であり、任意の軸を中心に回転することができるとしても、いくつかのフレーム間で同様の動きをし得る。同様の動きを持つセグメントをグループ化するために、6D空間ー並進ー回転ースケール空間でのミーンシフトクラスタリングを再び使用することができる。セグメントサイズを説明するために、セグメントの重心がそのピクセルごとに複製されているかのように、アルゴリズムの加重和を計算できる。ミーンシフトアルゴリズムでは、クラスタの数を事前に知る必要はなく、代わりに、密度推定カーネルのスケール行列を指定する必要がある。各クラスタは別個の動きを有し、クラスタリング後、モーションセグメンテーションモジュール207は、画像の動きセグメンテーションを実行してその中の動きを検出および追跡し、動作認識を実行するように構成される。
【0056】
本開示の実施形態は、複数の処理段階のカスケードアーキテクチャ内に構築された、レイヤードモーションセグメンテーション問題のための計算上効果的な解決策を提供する。各処理段階は、画像の一部を以降の処理から安全に破棄する。初期段階はより多くのデータを処理するが、複雑さは低く、後の段階はより複雑になる傾向があるが、処理するデータは少なくなる。正確な動きの推定のために、ロバストな推定方法が使用され、スチルカメラシナリオの利点が活用される。通常、スチルカメラでは、ほとんどのピクセルは静的であり(例えば、通常は75%)、動き検出システム102のラベルフレーム差生成モジュール202によって早期に検出される。全ピクセルの25%のみが、残りの構成要素203~205によるさらなる処理を必要とする。全ピクセルの25%のうち、一部のオブジェクトは非遮蔽オブジェクトであり、処理が簡単である。動き検出システム102は、安定で高速なビデオセグメンテーションアルゴリズムを採用することにより、ほとんどの人間の行動モデリングアプリケーションに関連する局所的な深度順序情報のみを提供することを容易にする。
【0057】
図6は、本開示の一実施形態による、カメラによってキャプチャされたビデオシーケンスの動き検出およびセグメンテーションのための方法600を示すフローチャートである。いくつかのステップは、図2に示されるようなシステムに関して議論され得る。
【0058】
ステップ602で、フレーム内モード推定を使用してビデオの第1の画像フレームがセグメント化され、ビデオの1または複数のさらなる画像フレームが、フレーム間モードマッチングを使用してセグメント化される。フレーム内モード推定は、主に現在のフレームに導入された新しい領域、つまり新しい前景オブジェクトまたは以前に遮られた背景を明らかにするように設計されており、フレーム間モードマッチングは、現在のフレームのピクセルおよび前のフレームのピクセル間の類似のモードを発見するために使用される。本開示の一実施形態では、ビデオは、単眼スチルカメラによってキャプチャされる。本開示の別の実施形態では、ビデオの1または複数の画像フレームは、X、Y、T、R、G、B時空間マルチチャネル空間の半径hの超球を使用するジョイント時空間適応ミーンシフトアルゴリズムに基づいてセグメント化される。また、フレーム間モードマッチングを使用してビデオの1または複数のさらなる画像フレームをセグメント化することは、セグメント化された前の画像フレームにおける密度モード(density mode)発見に基づいて現在の画像フレームをセグメント化することを含む。
【0059】
ステップ604において、現在のセグメント化された画像フレームのバイナリマップを生成し、次に、前のセグメント化された画像フレームに対してラベルが変更された1または複数のピクセルをマークすることによって、現在のセグメント化された画像フレームのラベル変更マップが生成される。前のセグメント化された画像フレームから変更されたラベルの付いたピクセルは、次のカテゴリ、すなわち、古いオブジェクトの遮蔽された部分または遮蔽されていない部分、またはシーンに入る新しいオブジェクトの部分、のいずれかに属する可能性がある。
【0060】
ステップ606で、現在のセグメント化された画像フレームの1または複数の非静止画像セグメントが、ラベル変更マップに基づいて検出される。本開示の一実施形態では、静止画像セグメントは動きがなく、それ以上の処理は必要ないが、非静止セグメントは静止セグメントまたは移動セグメントとしてさらに分類する必要がある。静止セグメントの動きベクトルは、覆われた静的オブジェクトまたは覆われていない静的オブジェクトに対応するため、ゼロである。
【0061】
ステップ608で、1または複数の非静止画像セグメント内の1または複数の移動画像セグメントが検出される。本開示の一実施形態では、1または複数の移動セグメントは、1または複数の非遮蔽移動セグメントおよび1または複数の遮蔽移動セグメントを含む。
【0062】
ステップ610で、1または複数の移動画像セグメントの動きが推定される。本開示の一実施形態では、1または複数の移動セグメントの動きは、2次元アフィンモデルを使用して推定される。本開示の一実施形態では、遮蔽された第1の正方形セグメントの動きは、2Dアフィンモデルなどの一般的な動きモデルによって正確に表すことができる。モデルパラメータは、堅固な登録方法を介して推定され得る。本開示の別の実施形態では、アフィンモデルを用いたロバスト回帰を使用して、遮蔽されていない移動セグメントの動きを推定する。
【0063】
ステップ612において、各移動セグメントは、7つのパラメータのベクトルとして表される。本開示の一実施形態では、7つのパラメータは、対応するセグメントの重心の2つの空間座標、類似性変換に対応する並進および回転パラメータを含む4つのアフィンパラメータ、および対応するピクセルの総数によって定義されるセグメントの重みを含む。
【0064】
ステップ614で、1または複数の同様の移動セグメントベクトルが、対応する1または複数のパラメータに基づいてクラスタ化される。本開示の一実施形態では、各セグメントのセグメントベクトルが決定されると、1または複数のセグメントベクトルの1または複数のクラスタが、対応する第1から第6のパラメータに基づいて形成される。クラスタリングは、類似したエンティティをグループ化する方法である。2つのベクトルの場合、類似性は距離関数であり得る。クラスタリングに必要な類似度は、セグメントの重みを除いて、セグメントベクトルの最初の6つのパラメータを使用する。クラスタリングプロセスにより、セグメントのグループ化が容易になり、移動するオブジェクトや、同様の動きを持つ人体(脚、前腕、頭など)などの関節オブジェクトの一部を見つけることができる。
【0065】
クラスタリングプロセスにより、セグメントのグループ化が容易になり、移動するオブジェクトや、同様の動きを持つ人体(脚、前腕、頭など)などの関節オブジェクトの一部を見つけることができる。移動するオブジェクトの全てのセグメントが同様の(同一ではない)動きをしていると想定される。類似性は、表現の粒度を定義する。人は平均時速5kmで歩くことができるが、脚と腕は独立して動ける。活動認識アプリケーションでは、各手足の動きを特徴づける必要がある。
【0066】
本開示の一実施形態では、1または複数の動き認識結果をユーザコンピューティングデバイスに送信することができる。いくつかの実施形態では、ユーザコンピューティングデバイスは、そのような認識結果を格納または表示するように構成され得る。
【0067】
上記で説明された本開示の実施形態に対する修正は、付随する特許請求の範囲によって定義される通りの本開示の範囲から外れることなく可能である。本開示を説明し、特許請求するために使用される「~を含む」、「~を備える」、「~を組み込む」、「~からなる」、「~を有する」、「~である」などの言い回しは、非排他式に解釈されることが意図されており、すなわち、明示的に説明されていないアイテム、コンポーネント、または要素もまた存在するように考慮する。単数形への言及もまた、複数形に関するように解釈されることになる。
図1
図2
図3A
図3B
図4
図5A
図5B
図6