IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-150421ビデオにおける被遮蔽領域の検出方法、装置及び記憶媒体
<>
  • 特開-ビデオにおける被遮蔽領域の検出方法、装置及び記憶媒体 図1
  • 特開-ビデオにおける被遮蔽領域の検出方法、装置及び記憶媒体 図2
  • 特開-ビデオにおける被遮蔽領域の検出方法、装置及び記憶媒体 図3
  • 特開-ビデオにおける被遮蔽領域の検出方法、装置及び記憶媒体 図4
  • 特開-ビデオにおける被遮蔽領域の検出方法、装置及び記憶媒体 図5A
  • 特開-ビデオにおける被遮蔽領域の検出方法、装置及び記憶媒体 図5B
  • 特開-ビデオにおける被遮蔽領域の検出方法、装置及び記憶媒体 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024150421
(43)【公開日】2024-10-23
(54)【発明の名称】ビデオにおける被遮蔽領域の検出方法、装置及び記憶媒体
(51)【国際特許分類】
   G06V 10/26 20220101AFI20241016BHJP
   G06T 7/00 20170101ALI20241016BHJP
   G06V 10/82 20220101ALI20241016BHJP
【FI】
G06V10/26
G06T7/00 350C
G06V10/82
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2024062278
(22)【出願日】2024-04-08
(31)【優先権主張番号】202310372794.3
(32)【優先日】2023-04-10
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】ジャン・ホォイガン
(72)【発明者】
【氏名】汪 留安
(72)【発明者】
【氏名】孫 俊
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096FA66
5L096FA67
5L096FA69
5L096JA03
(57)【要約】
【課題】ビデオにおける被遮蔽領域の検出方法、装置及び記憶媒体を提供する。
【解決手段】該ビデオにおける被遮蔽領域の検出方法は、ビデオに出現する複数のオブジェクトを検出するステップと、該複数のオブジェクトのうちの各オブジェクトの該ビデオのフレームにおける位置を決定するステップと、該複数のオブジェクトのうちの各オブジェクトの特徴を抽出するステップと、該フレームにおける各画素について、該画素の近傍のオブジェクトの特徴間の類似度に基づいて、該画素が被遮蔽画素であるか否かを決定するステップと、該フレームにおける被遮蔽画素として決定された複数の画素に基づいて被遮蔽領域を生成するステップと、を含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
ビデオにおける被遮蔽領域の検出方法であって、
ビデオに出現する複数のオブジェクトを検出するステップと、
前記複数のオブジェクトのうちの各オブジェクトの前記ビデオのフレームにおける位置を決定するステップと、
前記複数のオブジェクトのうちの各オブジェクトの特徴を抽出するステップと、
前記フレームにおける各画素について、前記画素の近傍のオブジェクトの特徴間の類似度に基づいて、前記画素が被遮蔽画素であるか否かを決定するステップと、
前記フレームにおける被遮蔽画素として決定された複数の画素に基づいて被遮蔽領域を生成するステップと、を含む、方法。
【請求項2】
各オブジェクトのフレームにおける位置を、前記ビデオにおけるシーンに対応する平面レイアウトマップにマッピングするステップと、
前記平面レイアウトマップにおける各画素について、前記画素の近傍のオブジェクトの特徴間の類似度に基づいて、前記画素が被遮蔽画素であるか否かを決定するステップと、
前記平面レイアウトマップにおける被遮蔽画素として決定された複数の画素を処理し、被遮蔽領域を生成するステップと、をさらに含む、請求項1に記載の方法。
【請求項3】
前記フレーム又は前記平面レイアウトマップにおける各画素について、
前記画素との距離が第1の閾値よりも小さい複数の隣接オブジェクトを決定するステップと、
前記複数の隣接オブジェクトのうちの任意の2つの隣接オブジェクトの特徴間の類似度を計算し、類似度集合を生成するステップと、
前記類似度集合における類似度の総数に対する、第2の閾値よりも大きい類似度の数の比率を計算するステップと、
前記比率が第3の閾値よりも大きい場合、前記画素が被遮蔽画素であると決定するステップと、をさらに含む、請求項1又は2に記載の方法。
【請求項4】
決定された隣接オブジェクトの数が第4の閾値よりも小さい場合、前記画素が被遮蔽画素ではないと直接決定するステップと、
決定された隣接オブジェクトの数が第5の閾値よりも大きい場合、第5の閾値の数の隣接オブジェクトを選択し、選択された隣接オブジェクトの特徴間の類似度を計算するステップと、をさらに含み、
前記第4の閾値は、前記第5の閾値よりも小さい、請求項3に記載の方法。
【請求項5】
前記類似度は、コサイン類似度である、請求項3に記載の方法。
【請求項6】
被遮蔽画素として決定された複数の画素により構成された集合について、前記集合における外れ値画素を削除し、残りの画素に対して膨張処理を行い、被遮蔽領域を生成するステップ、をさらに含む、請求項1又は2に記載の方法。
【請求項7】
歩行者再認識技術を用いてオブジェクトの特徴を抽出する、請求項1に記載の方法。
【請求項8】
前記画素と前記隣接オブジェクトとの間の距離は画素単位である、請求項3に記載の方法。
【請求項9】
ビデオにおける被遮蔽領域の検出装置であって、
コンピュータプログラムが記憶されたメモリと、
プロセッサと、を含み、
前記プロセッサは、前記コンピュータプログラムを実行することで、
ビデオに出現する複数のオブジェクトを検出するステップと、
前記複数のオブジェクトのうちの各オブジェクトの前記ビデオのフレームにおける位置を決定するステップと、
前記複数のオブジェクトのうちの各オブジェクトの特徴を抽出するステップと、
前記フレームにおける各画素について、前記画素の近傍のオブジェクトの特徴間の類似度に基づいて、前記画素が被遮蔽画素であるか否かを決定するステップと、
前記フレームにおける被遮蔽画素として決定された複数の画素に基づいて被遮蔽領域を生成するステップと、を実行するように構成される、装置。
【請求項10】
プログラムが記憶された非一時的なコンピュータ読み取り可能な記憶媒体であって、前記プログラムがコンピュータにより実行される際に、前記コンピュータに請求項1又は2に記載のビデオにおける被遮蔽領域の検出方法を実行させる、記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、一般的に、コンピュータビジョンの分野に関し、具体的には、ビデオにおける被遮蔽領域の検出方法及び装置、並びに対応するプログラムが記憶された記憶媒体に関する。
【背景技術】
【0002】
遮蔽はコンピュータビジョンの分野において一般的な問題である。例えば、歩行者認識及び追跡の応用では、ビデオの一部において歩行者が物体(例えば、木又は建物)により遮蔽された場合、ビデオのこの部分において歩行者の特徴を抽出することは困難であり、歩行者を認識及び追跡することができない。従って、遮蔽がある場合は、一般に、目標認識の精度及び再現率が低下し、実際の応用に悪影響を与えてしまう。
【0003】
固定カメラ(例えば監視カメラ)を使用してシーンを撮影する場合、遮蔽の悪影響を低減するために、ビデオに示されるシーンにおける障害物により遮蔽された領域を予め決定し、被遮蔽領域の情報及び他の情報(例えば、オブジェクトの移動速度や方向)を使用して、遮蔽されている期間内のオブジェクトの位置又は移動軌跡を推定してもよい。例えば、オブジェクトの消失の時間及び位置、並びにオブジェクトの再出現の時間及び位置に基づいて、オブジェクトの1つ以上の可能な移動経路を予測してもよい。そして、予め決定された被遮蔽領域の情報に基づいて、被遮蔽領域を通過する経路を信頼度の高い推定結果として選択し、該結果に基づいて追跡を行ってもよい。
【0004】
この場合、シーン、特に固定カメラにより撮影されたシーンについて、カメラの視点から見て、該シーンにおける障害物により遮蔽された領域をどのように決定するかという技術的問題がある。
【発明の概要】
【発明が解決しようとする課題】
【0005】
上記の技術的問題を鑑み、本開示は、ビデオに示されるシーンにおける被遮蔽領域を自動的に検出する方法及び装置を提供する。
【課題を解決するための手段】
【0006】
本開示の1つの態様では、ビデオにおける被遮蔽領域の検出方法であって、ビデオに出現する複数のオブジェクトを検出するステップと、前記複数のオブジェクトのうちの各オブジェクトの前記ビデオのフレームにおける位置を決定するステップと、前記複数のオブジェクトのうちの各オブジェクトの特徴を抽出するステップと、前記フレームにおける各画素について、前記画素の近傍のオブジェクトの特徴間の類似度に基づいて、前記画素が被遮蔽画素であるか否かを決定するステップと、前記フレームにおける被遮蔽画素として決定された複数の画素に基づいて被遮蔽領域を生成するステップと、を含む、方法を提供する。
【0007】
本開示のもう1つの態様では、ビデオにおける被遮蔽領域の検出装置であって、コンピュータプログラムが記憶されたメモリと、プロセッサと、を含み、前記プロセッサは、前記コンピュータプログラムを実行することで、ビデオに出現する複数のオブジェクトを検出するステップと、前記複数のオブジェクトのうちの各オブジェクトの前記ビデオのフレームにおける位置を決定するステップと、前記複数のオブジェクトのうちの各オブジェクトの特徴を抽出するステップと、前記フレームにおける各画素について、前記画素の近傍のオブジェクトの特徴間の類似度に基づいて、前記画素が被遮蔽画素であるか否かを決定するステップと、前記フレームにおける被遮蔽画素として決定された複数の画素に基づいて被遮蔽領域を生成するステップと、を実行するように構成される、装置を提供する。
【0008】
本開示のもう1つの態様では、プログラムが記憶された非一時的なコンピュータ読み取り可能な記憶媒体であって、前記プログラムがコンピュータにより実行される際に、前記コンピュータに上記のビデオにおける被遮蔽領域の検出方法を実行させる、記憶媒体を提供する。
【0009】
本開示の技術によれば、ビデオに示されるシーンにおいて障害物により遮蔽された領域を自動的に検出することができる。従って、ビデオにおけるオブジェクト(例えば人)が遮蔽により認識及び追跡できない場合、検出された被遮蔽領域の情報及び追跡オブジェクトの関連情報を用いて、オブジェクトの遮蔽された期間内の位置又は移動経路を高い正確度で推定することができるため、遮蔽の悪影響を低減することができる。
【図面の簡単な説明】
【0010】
図1】本開示に係る被遮蔽領域の方法を示すフローチャートである。
図2】本開示に係る検出方法を実現する機能モジュールを示す図である。
図3】ビデオにおけるシーンに対応する平面レイアウトマップを示す概略図である。
図4】画素が被遮蔽画素であるか否かを決定する処理の流れを示す図である。
図5A】本開示に係る方法を用いた検出結果を示す概略図である。
図5B】本開示に係る方法を用いた検出結果を示す概略図である。
図6】本開示を実現可能なコンピュータのハードウェアの例示的な構成を示すブロック図である。
【発明を実施するための形態】
【0011】
図1は、本開示に係る被遮蔽領域の方法を示すフローチャートである。図2は、該検出方法を実現する機能モジュールを示す図である。
【0012】
図1及び図2に示すように、ステップS110において、オブジェクト検出モジュール210は、ビデオに出現する全てのオブジェクトを検出する。本開示では、オブジェクトは、ビデオに示されるシーンに出現する関心のある対象、例えば、人物、乗り物などを意味してもよい。オブジェクト検出の結果として、1つ又は複数のオブジェクト枠を生成してもよく、各オブジェクト枠は1つの検出されたオブジェクトを囲む。特に、オブジェクトの一部が障害物により遮蔽されている(例えば、人の脚が机により遮蔽されている)場合、オブジェクトは依然として検出可能であり、対応するオブジェクト枠内には、オブジェクトの遮蔽されていない部分(例えば、人の上半身)及び障害物(例えば、テーブル)が含まれる可能性がある。
【0013】
また、任意の適切な従来技術を利用してオブジェクト検出を実行してもよく、本開示はこれに限定されない。一例として、本開示では、YOLOXモデルを使用して検出を実行する。YOLOXモデルは、Ge Z, Liu S, Wang F et al.の論文「Yolox:Exceeding yolo series」、 arXiv preprint arXiv:2107.08430, 2021に詳細に記載されており、該論文が参照により本明細書に組み込まれる。
【0014】
ステップS120において、位置決定モジュール220は、検出された各オブジェクトのビデオフレームにおける位置を決定する。一例として、オブジェクトの位置は、対応するオブジェクト枠の下辺の中点の位置に基づいて決定されてもよい。
【0015】
ステップS130において、特徴抽出モジュール230は、検出された各オブジェクトの特徴を抽出する。任意の適切な従来技術を用いて特徴を抽出してもよい。例えば、歩行者再認識(Re-ID)技術を用いてオブジェクトの視覚的特徴を抽出してもよい。一例として、本開示では、OSNetモデルを用いてオブジェクトの特徴を抽出する。OSNetモデルは、K.Zhou, Y.Yang et al.の論文「Omni-scale feature learning for person re-identification」、ICCV、2019、第3702-3712頁に詳細に記載されており、該論文が参照により本明細書に組み込まれる。
【0016】
ステップS140において、ビデオのフレームにおける各画素について、該画素の近傍のオブジェクトの特徴間の類似度に基づいて、該画素が被遮蔽領域内に位置する被遮蔽画素であるか否かを決定する。このステップは、被遮蔽画素決定モジュール240により実行されてもよい。
【0017】
具体的には、画素が被遮蔽領域における画素ではない場合、その近傍にある複数のオブジェクト枠のうちの各オブジェクト枠にオブジェクト(例えば人物)のみが含まれる可能性は高く、人の特徴は互いに異なるため、各オブジェクト枠の特徴間の類似度は低くなる。逆に、画素が被遮蔽領域における画素である場合、その近傍にある複数のオブジェクト枠の各オブジェクト枠にオブジェクトと障害物の両方が含まれる可能性は高く、各オブジェクト枠におけるオブジェクト部分は互いに異なるが、障害物部分は互いに類似するため、各オブジェクト枠の特徴間の類似度は高くなる。これに基づき、画素の近傍にある各オブジェクト枠の特徴間の類似度が高い場合、該画素の近傍にあるオブジェクトが遮蔽される確率が高く、その結果、該画素がビデオに示されるシーンの被遮蔽領域内に位置する可能性は高くなる。
【0018】
ステップS140における決定は、ビデオフレームにおける全ての画素について実行されてもよい。次に、ステップS150に示すように、被遮蔽領域生成モジュール250は、該フレームにおける被遮蔽画素として決定された複数の画素に基づいて被遮蔽領域を生成する。
【0019】
なお、本開示に係る方法は、図1に示される順序に限定されず、異なる順序で実行されてもよい。例えば、ステップS120は、ステップS130の後に実行されてもよいし、ステップS130と並行して実行されてもよい。
【0020】
好ましい態様として、図1のステップS120において、検出された各オブジェクトのビデオフレーム内の位置が決定された後、該位置を、ビデオにおけるシーンに対応する平面レイアウトマップにマッピングしてもよい。該平面レイアウトマップは予め用意されてもよい。例えば、ビデオにおけるシーンがスーパーマーケットである場合、予め用意された該スーパーマーケットの平面レイアウトマップを使用してもよい。図3は、スーパーマーケットの平面レイアウトマップを示す概略図である。ここで、黒色部分は、棚、柱、壁などの障害物を示し、白色部分は、人物が通行可能な領域を示す。
【0021】
なお、1つのカメラは、通常、スーパーマーケットの範囲の全体をカバーしないため、1つのビデオに含まれるシーンは、平面レイアウトマップの一部分にのみ対応する可能性がある。図3に概略的に示すように、1つのビデオで検出されたオブジェクトA、B、Cと、もう1つのビデオで検出されたオブジェクトD及びEは、平面レイアウトマップにマッピングされている。
【0022】
次に、図1のステップS140と同様に、該平面レイアウトマップにおける各画素について、該画素の近傍に検出されたオブジェクトが存在するか否かを決定し、その近傍に存在するオブジェクトの特徴間の類似度に基づいて、該画素が被遮蔽画素であるか否かを決定してもよい。
【0023】
図4は、画素が被遮蔽画素であるか否かを決定する処理の流れを示す図である。この処理は、図1を参照しながら説明されたビデオフレームにおける各画素に適用されてもよいし、図3を参照しながら説明された平面レイアウトマップにおける各画素に適用されてもよい。
【0024】
図4に示すように、ステップS410において、複数検出されたオブジェクトを含むビデオフレーム又は平面レイアウトマップにおける各画素(x,y)について、該画素(x,y)との距離が第1の閾値よりも小さい範囲内に存在するオブジェクト(以下、「隣接オブジェクト」と称される)を決定する。より具体的には、画素(x,y)からの距離は、オブジェクト枠の下辺の中点の位置と画素(x,y)の位置との距離であってもよい。一例として、画素(x,y)からの距離は画素単位であってもよく、第1の閾値は10個の画素であってもよい。
【0025】
ステップS420において、ステップS410において決定された隣接オブジェクトの数が少なすぎるか、それとも多すぎるかを決定する。具体的には、決定された隣接オブジェクトの数が第4の閾値よりも小さい場合、該画素(x,y)が遮蔽画素ではないと直接決定してもよい。決定された隣接オブジェクトの数が第5の閾値よりも大きい場合、第5の閾値の数の隣接オブジェクトを選択し、余分な隣接オブジェクトを破棄してもよい。一例として、第4の閾値は5個であってもよく、第5の閾値は1000個であってもよい。
【0026】
次に、ステップS430において、決定又は選択された複数の隣接オブジェクトのうちの任意の2つの隣接オブジェクトの特徴間の類似度を計算し、類似度集合を生成する。一例として、本開示では、特徴間のコサイン類似度を計算する。
【0027】
ステップS440において、該類似度集合における第2の閾値よりも大きい類似度の数を決定し、全ての類似度の総数に対する、これらの比較的に大きい類似度の数の比率を計算する。一例として、第2の閾値は0.6であってもよい。
【0028】
ステップS450において、決定された比率と第3の閾値とを比較する。該比率が第3の閾値よりも大きい場合、画素(x,y)が被遮蔽画素であると決定してもよい。一方、該比率が第3の閾値以下である場合、該画素(x,y)が被遮蔽画素ではないと決定してもよい。一例として、第3の閾値は0.3であってもよい。
【0029】
図4に示す処理は、各画素が被遮蔽画素であるか否かを決定するために、ビデオフレーム又は平面レイアウトマップにおける全ての画素について実行されてもよい。
【0030】
ビデオフレーム又は平面レイアウト内で複数の被遮蔽画素が決定された場合、被遮蔽領域を生成する(図1におけるステップS150)ために、これらの被遮蔽画素により構成された集合から外れ値(outlier)画素を削除し、残りの画素に対して膨張処理を行ってもよい。当業者は、任意の適切な従来技術を利用して外れ値画素を削除し、膨張処理を実行してもよく、本開示はこれに限定されない。
【0031】
図5A及び図5Bは、本開示に係る方法を用いて2つのビデオについて被遮蔽領域を検出した結果を示す概略図である。ビデオ1及びビデオ2は、同一のスーパーマーケット(同一の平面レイアウトマップ)に関するものであり、それぞれ異なるカメラにより撮影されたものである。
【0032】
図5Aの(a)及び図5Bの(a)における灰色の影は、カメラにより撮影可能なスーパーマーケット内の領域を示す。
【0033】
また、本開示の方法に係る方法により検出された被遮蔽領域は比較的に分散しているため、結果をより明確に表示するために、図5Aの(b)及び図5Bの(b)において、灰色の影で非遮蔽領域を示し、ここで、該非遮蔽領域は、シーンの有効領域から本開示に係る方法により検出された被遮蔽領域を除くことによって得られる。また、図5Aの(a)及び図5Bの(a)において、手動でラベル付けされた非遮蔽領域を枠で示す。図示から分かるように、手動でラベル付けされた領域は、規則的であるが、十分に精細ではなく、一方、本開示の検出結果は、手動でラベル付けされた領域を効果的にカバーし、より精細である。
【0034】
以上は具体的な実施形態を参照しながら本開示に係る技術を説明した。該技術によれば、ビデオに示されるシーンにおいて障害物により遮蔽された領域を自動的に検出することができる。上述したように、ビデオにおけるオブジェクト(例えば人)が遮蔽により認識及び追跡できない場合、検出された被遮蔽領域の情報及び追跡オブジェクトの関連情報を用いて、オブジェクトの遮蔽された期間内の位置又は移動経路を高い正確度で推定することができるため、遮蔽の悪影響を低減することができる。
【0035】
上記の実施例に係る方法は、ソフトウェア、ハードウェア、又はソフトウェアとハードウェアとの組み合わせにより実現されてもよい。ソフトウェアに含まれるプログラムは、装置の内部又は外部に設置された記憶媒体に予め記憶されてもよい。一例として、実行中に、これらのプログラムはランダムアクセスメモリ(RAM)に書き込まれ、プロセッサ(例えばCPU)により実行されることで、本明細書で説明された各処理を実現する。
【0036】
図6は、本開示を実現可能なコンピュータのハードウェアの例示的な構成を示すブロック図である。本開示に係る被遮蔽領域の検出装置は、このコンピュータハードウェアに基づいて実現されてもよい。
【0037】
図6に示すように、コンピュータ600では、中央処理装置(CPU)601、読み出し専用メモリ(ROM)602及びランダムアクセスメモリ(RAM)603がバス604により相互に接続されている。
【0038】
入力/出力インターフェース605は、バス604にさらに接続されている。入力/出力インターフェース605には、キーボード、マウス、マイクロフォンなどにより構成された入力部606、ディスプレイ、スピーカなどにより構成された出力部607、ハードディスク、不揮発性メモリなどにより構成された記憶部608、ネットワークインターフェースカード(ローカルエリアネットワーク(LAN)カード、モデムなど)により構成された通信部609、及び取り外し可能な媒体611をドライブするドライバ610が接続されている。取り外し可能な媒体611は、例えば磁気ディスク、光ディスク、光磁気ディスク又は半導体メモリである。
【0039】
上記の構成を有するコンピュータにおいて、CPU601は、記憶部608に記憶されているプログラムを、入力/出力インターフェース605及びバス604を介してRAM603にロードし、プログラムを実行することにより、上記の方法を実行する。
【0040】
コンピュータ(CPU601)により実行されるプログラムは、パッケージ媒体である取り外し可能な媒体611に記録されてもよい。該パッケージ媒体は、例えば磁気ディスク(フロッピーディスクを含む)、光ディスク(コンパクトディスクリードオンリーメモリ(CD-ROM)、デジタルバーサタイルディスク(DVD)などを含む)、光磁気ディスク、又は半導体メモリにより形成される。また、コンピュータ(CPU601)により実行されるプログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送の有線又は無線の伝送媒体を介して提供されてもよい。
【0041】
取り外し可能な媒体611がドライバ610にインストールされると、プログラムは、入力/出力インターフェース605を介して記憶部608にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して通信部609で受信され、記憶部608にインストールされる。或いは、プログラムは、ROM602又は記憶部608に予めインストールされてもよい。
【0042】
コンピュータにより実行されるプログラムは、本明細書で説明する順序に従って処理を実行するプログラムであってもよいし、処理を並列的に実行し、或いは必要に応じて(例えば呼び出しの時に)処理を実行するプログラムであってもよい。
【0043】
本明細書で説明されている装置又はユニットは論理的なものであり、物理的な装置又はエンティティに限定されない。例えば、本明細書で説明されている各ユニットの機能は複数の物理エンティティにより実現されてもよいし、本明細書で説明される複数のユニットの機能は単一の物理エンティティにより実現されてもよい。また、1つの実施例で説明される特徴、構成要素、要素、ステップなどは、該実施例に限定されず、例えば、他の実施例に適用されてもよく、例えば他の実施例の特定の特徴、構成要素、要素、ステップなどの代わりに用いてもよいし、それと組み合わせてもよい。
【0044】
本開示の範囲は、本明細書に記載の具体的な実施例に限定されない。当業者により理解できるように、設計要求及び他の要因に応じて、本開示の原理及び要旨から逸脱することなく、本明細書の実施例に対して様々な修正又は変更を行ってもよい。本開示の範囲は、添付の特許請求の範囲及びその均等物により制限される。
【0045】
また、本開示は、上述の各実施例を含む実施形態に関し、更に以下の付記を開示するが、これらの付記に限定されない。
(付記1)
ビデオにおける被遮蔽領域の検出方法であって、
ビデオに出現する複数のオブジェクトを検出するステップと、
前記複数のオブジェクトのうちの各オブジェクトの前記ビデオのフレームにおける位置を決定するステップと、
前記複数のオブジェクトのうちの各オブジェクトの特徴を抽出するステップと、
前記フレームにおける各画素について、前記画素の近傍のオブジェクトの特徴間の類似度に基づいて、前記画素が被遮蔽画素であるか否かを決定するステップと、
前記フレームにおける被遮蔽画素として決定された複数の画素に基づいて被遮蔽領域を生成するステップと、を含む、方法。
(付記2)
各オブジェクトのフレームにおける位置を、前記ビデオにおけるシーンに対応する平面レイアウトマップにマッピングするステップと、
前記平面レイアウトマップにおける各画素について、前記画素の近傍のオブジェクトの特徴間の類似度に基づいて、前記画素が被遮蔽画素であるか否かを決定するステップと、
前記平面レイアウトマップにおける被遮蔽画素として決定された複数の画素を処理し、被遮蔽領域を生成するステップと、をさらに含む、付記1に記載の方法。
(付記3)
前記フレーム又は前記平面レイアウトマップにおける各画素について、
前記画素との距離が第1の閾値よりも小さい複数の隣接オブジェクトを決定するステップと、
前記複数の隣接オブジェクトのうちの任意の2つの隣接オブジェクトの特徴間の類似度を計算し、類似度集合を生成するステップと、
前記類似度集合における類似度の総数に対する、第2の閾値よりも大きい類似度の数の比率を計算するステップと、
前記比率が第3の閾値よりも大きい場合、前記画素が被遮蔽画素であると決定するステップと、をさらに含む、付記1又は2に記載の方法。
(付記4)
決定された隣接オブジェクトの数が第4の閾値よりも小さい場合、前記画素が被遮蔽画素ではないと直接決定するステップと、
決定された隣接オブジェクトの数が第5の閾値よりも大きい場合、第5の閾値の数の隣接オブジェクトを選択し、選択された隣接オブジェクトの特徴間の類似度を計算するステップと、をさらに含み、
前記第4の閾値は、前記第5の閾値よりも小さい、付記3に記載の方法。
(付記5)
前記類似度は、コサイン類似度である、付記3に記載の方法。
(付記6)
被遮蔽画素として決定された複数の画素により構成された集合について、前記集合における外れ値画素を削除し、残りの画素に対して膨張処理を行い、被遮蔽領域を生成するステップ、をさらに含む、付記1又は2に記載の方法。
(付記7)
歩行者再認識技術を用いてオブジェクトの特徴を抽出する、付記1に記載の方法。
(付記8)
前記画素と前記隣接オブジェクトとの間の距離は画素単位である、付記3に記載の方法。
(付記9)
ビデオにおける被遮蔽領域の検出装置であって、
コンピュータプログラムが記憶されたメモリと、
プロセッサと、を含み、
前記プロセッサは、前記コンピュータプログラムを実行することで、
ビデオに出現する複数のオブジェクトを検出するステップと、
前記複数のオブジェクトのうちの各オブジェクトの前記ビデオのフレームにおける位置を決定するステップと、
前記複数のオブジェクトのうちの各オブジェクトの特徴を抽出するステップと、
前記フレームにおける各画素について、前記画素の近傍のオブジェクトの特徴間の類似度に基づいて、前記画素が被遮蔽画素であるか否かを決定するステップと、
前記フレームにおける被遮蔽画素として決定された複数の画素に基づいて被遮蔽領域を生成するステップと、を実行するように構成される、装置。
(付記10)
前記プロセッサは、
各オブジェクトのフレームにおける位置を、前記ビデオにおけるシーンに対応する平面レイアウトマップにマッピングするステップと、
前記平面レイアウトマップにおける各画素について、前記画素の近傍のオブジェクトの特徴間の類似度に基づいて、前記画素が被遮蔽画素であるか否かを決定するステップと、
前記平面レイアウトマップにおける被遮蔽画素として決定された複数の画素を処理し、被遮蔽領域を生成するステップと、をさらに実行するように構成される、付記9に記載の装置。
(付記11)
前記プロセッサは、
前記フレーム又は前記平面レイアウトマップにおける各画素について、
前記画素との距離が第1の閾値よりも小さい複数の隣接オブジェクトを決定するステップと、
前記複数の隣接オブジェクトのうちの任意の2つの隣接オブジェクトの特徴間の類似度を計算し、類似度集合を生成するステップと、
前記類似度集合における類似度の総数に対する、第2の閾値よりも大きい類似度の数の比率を計算するステップと、
前記比率が第3の閾値よりも大きい場合、前記画素が被遮蔽画素であると決定するステップと、をさらに実行するように構成される、付記9又は10に記載の装置。
(付記12)
前記プロセッサは、
決定された隣接オブジェクトの数が第4の閾値よりも小さい場合、前記画素が被遮蔽画素ではないと直接決定するステップと、
決定された隣接オブジェクトの数が第5の閾値よりも大きい場合、第5の閾値の数の隣接オブジェクトを選択し、選択された隣接オブジェクトの特徴間の類似度を計算するステップと、をさらに実行するように構成され、
前記第4の閾値は、前記第5の閾値よりも小さい、付記11に記載の装置。
(付記13)
前記類似度は、コサイン類似度である、付記11に記載の装置。
(付記14)
被遮蔽画素として決定された複数の画素により構成された集合について、前記集合における外れ値画素を削除し、残りの画素に対して膨張処理を行い、被遮蔽領域を生成するステップ、をさらに実行するように構成される、付記9又は10に記載の装置。
(付記15)
歩行者再認識技術を用いてオブジェクトの特徴を抽出する、付記9に記載の装置。
(付記16)
前記画素と前記隣接オブジェクトとの間の距離は画素単位である、付記11に記載の装置。
(付記17)
プログラムが記憶された非一時的なコンピュータ読み取り可能な記憶媒体であって、前記プログラムがコンピュータにより実行される際に、前記コンピュータに付記1乃至8の何れかに記載のビデオにおける被遮蔽領域の検出方法を実行させる、記憶媒体。
図1
図2
図3
図4
図5A
図5B
図6