2024-144327 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

2024-144327物品認識装置、方法及び電子機器

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024144327

(43)【公開日】2024-10-11

(54)【発明の名称】物品認識装置、方法及び電子機器

(51)【国際特許分類】

G06T 7/00 20170101AFI20241003BHJP

【ＦＩ】

G06T7/00 300Z

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2024050662

(22)【出願日】2024-03-27

(31)【優先権主張番号】202310325584.9

(32)【優先日】2023-03-29

(33)【優先権主張国・地域又は機関】CN

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(72)【発明者】

【氏名】シ・ズチアン

(72)【発明者】

【氏名】リィウ・リィウ

(72)【発明者】

【氏名】リィウ・ジョオンリン

(72)【発明者】

【氏名】リィウ・ルゥジエ

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096CA04

5L096EA35

5L096EA37

5L096GA51

5L096HA05

(57)【要約】

【課題】本発明の実施例は、物品認識装置、方法及び電子機器を提供する。
【解決手段】該装置は、ビデオデータの画像フレームにおける参照領域に対して物品検出を行う検出部と、複数の画像フレームにおいて検出された物品を追跡する追跡部であって、異なる時間窓で該複数の画像フレームにおける該物品に対してマルチレベル判定を行う、追跡部と、該追跡部の判定結果に基づいて該物品を認識する分類部と、を含む。これによって、一部のシナリオにおいて物品が短時間で移動された場合でも、該物品が２つの異なる物品として認識されることなく、物品の二重認識を低減させ、物品検出の正確度及びロバスト性を向上させることができる。
【選択図】図６

【特許請求の範囲】

【請求項1】

物品認識装置であって、
ビデオデータの画像フレームにおける参照領域に対して物品検出を行う検出部と、
複数の画像フレームにおいて検出された物品を追跡する追跡部であって、異なる時間窓で前記複数の画像フレームにおける前記物品に対してマルチレベル判定を行う、追跡部と、
前記追跡部の判定結果に基づいて前記物品を認識する分類部と、を含む、装置。

【請求項2】

前記ビデオデータにおける画像フレームに対して前処理を行う前処理部、をさらに含み、
検出された物品の外縁領域の少なくとも一部を分離して除去し、除去された領域を前記参照領域を使用して充填する、請求項１に記載の装置。

【請求項3】

前記追跡部は、１つのトラックレットについて動的な表面特徴シーケンスを維持し、前記表面特徴シーケンスにおける任意の２つの特徴間の距離は、所定の閾値よりも大きい、請求項１に記載の装置。

【請求項4】

追跡結果に対して後処理を行う後処理部、をさらに含み、
前記後処理は、軌跡の長さが所定の閾値よりも小さいトラックレットを削除すること、背景として分類されたトラックレットを削除すること、トラックレットを分割すること、及び同一の識別子を有する複数のトラックレットを１つのトラックレットとして併合することのうちの少なくとも１つを含む、請求項１に記載の装置。

【請求項5】

前記追跡部は、別個のカルマンフィルタを使用してトラックレットの中心及び比率をそれぞれ処理し、
前記トラックレットの中心に対して線形カルマンフィルタリングを行い、
前記トラックレットの比率に対して非線形カルマンフィルタリングを行う、請求項１に記載の装置。

【請求項6】

１つ又は複数の物品と前記参照領域とに対して画像合成を行う合成部と、
合成後の画像をトリミングしてトレーニング用の検出サンプルを形成するトリミング部と、をさらに含む、請求項１乃至５の何れかに記載の装置。

【請求項7】

前記合成部は、パラメータに基づいて前記画像合成を行い、
前記パラメータは、前記参照領域における物品の数、前記物品の重なり度又は遮蔽比率、及び前記物品のスケーリング比率のうちの少なくとも１つを含む、請求項６に記載の装置。

【請求項8】

前記合成部は、前記１つ又は複数の物品に対して処理を行い、
前記処理は、画像の輝度を増加又は減少させること、重なり度を増加又は減少させること、前記物品の撮影角度を変更すること、及び前記物品のテクスチャ特徴を強調することのうちの少なくとも１つを含む、請求項６に記載の装置。

【請求項9】

物品認識方法であって、
ビデオデータの画像フレームにおける参照領域に対して物品検出を行うステップと、
複数の画像フレームにおいて検出された物品を追跡するステップであって、異なる時間窓で前記複数の画像フレームにおける前記物品に対してマルチレベル判定を行う、ステップと、
判定結果に基づいて前記物品を認識するステップと、を含む、方法。

【請求項10】

コンピュータプログラムが記憶されたメモリと、プロセッサとを含む電子機器であって、前記プロセッサは、前記コンピュータプログラムを実行して請求項９に記載の物品認識方法を実現するように構成される、電子機器。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施例は、ビデオ検出の技術分野に関する。

【背景技術】

【0002】

現在、ビデオデータにより物品を検出することができる。例えば、無人スーパーマーケットでは、顧客が撮影領域に物品を置き、カメラ機器で物品を認識することで、自動のセルフレジ（ｓｅｌｆ－ｃｈｅｃｋｏｕｔ）を実現する。バーコードのセルフレジの方式と比較して、ビデオデータに基づくセルフレジの方式は、より高速であり、バーコードを意図的に誤って貼り付けることにより引き起こされる不正検出（ｆｒａｕｄｄｅｔｅｃｔｉｏｎ）の問題がない。

【0003】

なお、上述した技術背景の説明は、本発明の技術案を明確、完全に理解させるための説明であり、当業者を理解させるために記述されているものである。これらの技術案は、単なる本発明の背景技術部分として説明されたものであり、当業者により周知されたものではない。

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかし、本発明の発明者の発見によると、ビデオデータに基づく物品検出の現在のスキームでは、依然として検出の正確度を向上させる必要がある。例えば、一部のシナリオにおいて物品が短時間で移動された場合、該物品が２つの異なる物品として認識されるため、物品の二重認識の問題が発生してしまう。

【0005】

上記の技術的問題点の少なくとも１つを鑑み、本発明の実施例は、物品認識装置、方法及び電子機器を提供する。

【課題を解決するための手段】

【0006】

本発明の実施例の１つの態様では、物品認識装置であって、ビデオデータの画像フレームにおける参照領域に対して物品検出を行う検出部と、複数の画像フレームにおいて検出された物品を追跡する追跡部であって、異なる時間窓で前記複数の画像フレームにおける前記物品に対してマルチレベル判定を行う、追跡部と、前記追跡部の判定結果に基づいて前記物品を認識する分類部と、を含む、装置を提供する。

【0007】

本発明の実施例のもう１つの態様では、物品認識方法であって、ビデオデータの画像フレームにおける参照領域に対して物品検出を行うステップと、複数の画像フレームにおいて検出された物品を追跡するステップであって、異なる時間窓で前記複数の画像フレームにおける前記物品に対してマルチレベル判定を行う、ステップと、判定結果に基づいて前記物品を認識するステップと、を含む、方法を提供する。

【0008】

本発明の実施例のもう１つの態様では、コンピュータプログラムが記憶されたメモリと、プロセッサとを含む電子機器であって、前記プロセッサは、前記コンピュータプログラムを実行して上記の物品認識方法を実現するように構成される、電子機器を提供する。

【0009】

本発明の実施例の有利な効果の１つは以下の通りである。異なる時間窓で複数の画像フレームにおける該物品に対してマルチレベル判定を行う。これによって、一部のシナリオにおいて物品が短時間で移動された場合でも、該物品が２つの異なる物品として認識されることなく、物品の二重認識を低減させ、物品検出の正確度及びロバスト性を向上させることができる。

【0010】

本発明の特定の実施形態は、後述の説明及び図面に示すように、詳細に開示され、本発明の原理を採用されることが可能な方式を示している。なお、本発明の実施例は、範囲上には限定されるものではない。本発明の実施例は、添付されている特許請求の範囲の主旨及び内容の範囲内、各種の変更、修正、及び均等的なものが含まれる。

【図面の簡単な説明】

【0011】

ここで含まれる図面は、本発明の実施例を理解させるためのものであり、本明細書の一部を構成し、本発明の実施例を例示するためのものであり、文言の記載と合わせて本発明の原理を説明する。なお、ここに説明される図面は、単なる本発明の実施例を説明するためのものであり、当業者にとって、これらの図面に基づいて他の図面を容易に得ることができる。

【図1】本発明の実施例に係るシナリオの一例を示す図である。

【図2】図１のシナリオにおける物品認識の一例を示す図である。

【図3】物品認識時の１つの画像フレームの一例を示す図である。

【図4】物品認識時のもう１つの画像フレームの一例を示す図である。

【図5】物品認識時のもう１つの画像フレームの一例を示す図である。

【図6】本発明の実施例に係る物品認識方法の一例の概略図である。

【図7】本発明の実施例に係るマルチレベル判定の一例を示す図である。

【図8】本発明の実施例に係る前処理の一例を示す図である。

【図9】本発明の実施例に係る前処理の他の例を示す図である。

【図10】本発明の実施例に係る後処理の一例を示す図である。

【図11】本発明の実施例に係る後処理の他の例を示す図である。

【図12】本発明の実施例に係るトラックレットの中心及び比率の変化パターンの一例を示す図である。

【図13】本発明の実施例に係る物品のトレーニングセットの一例を示す図である。

【図14】本発明の実施例に係る画像合成の一例を示す図である。

【図15】本発明の実施例に係る画像トリミングの一例を示す図である。

【図16】本発明の実施例に係る物品認識装置の一例の概略図である。

【図17】本発明の実施例に係る物品認識装置の他の例の概略図である。

【図18】本発明の実施例に係る電子機器の概略図である。

【発明を実施するための形態】

【0012】

本発明の上記及びその他の特徴は、図面及び下記の説明により明確になる。明細書及び図面では、本発明の特定の実施形態、即ち本発明の原則に従う一部の実施形態を表すものを公開している。なお、本発明は説明される実施形態に限定されず、本発明は、特許請求の範囲内の全ての修正、変形されたもの、及び均等なものを含む。

【0013】

本発明の実施例では、用語「第１」、「第２」は異なる要素を名称で区分するためのものであり、これらの要素の空間的配列又は時間的順序などを意味するものではなく、これらの要素はこれらの用語に限定されない。用語「及び／又は」は列挙された用語の１つ又は複数のうち何れか及びその組み合わせを含む。用語「包括」、「含む」、「有する」は、説明された特徴、要素、素子又は部材の存在を意味するが、他の１つ又は複数の特徴、要素、素子又は部材の存在又は追加を排除するものではない。

【0014】

本発明の実施例では、単数形の「一」、「該」等は複数形を含み、「一種」又は「一類」を意味し、「１つ」に限定するものではない。また、用語「前記」は、文脈上明確に指示されない限り、単数形及び複数形両方を含む。また、文脈上明確に指示されない限り、用語「応じて」は「少なくとも部分的に応じて」を意味し、用語「に基づいて」は「少なくとも部分的に基づいて」を意味する。

【0015】

１つの実施形態について説明及び／又は示される特徴は、１つ又は複数の他の実施形態に同一又は同様な方式で使用され、他の実施形態における特徴と組み合わせ、或いは他の実施形態の特徴の代わりに使用してもよい。用語「包括」又は「含む」は、説明された特徴、要素、素子又は部材の存在を意味するが、他の１つ又は複数の特徴、要素、素子又は部材の存在又は追加を排除するものではない。

【0016】

図１は、本発明の実施例に係るシナリオの一例を示す図であり、図２は、図１のシナリオにおける物品認識の一例を示す図である。スーパーマーケットのセルフレジを一例とすると、図１及び図２に示すように、顧客１０１は支払いが必要な商品を参照領域（図２に示すトレイ２０３）に置き、カメラ１０２は参照領域内の物品を検出し、これらの商品を認識することができる。例えば、図２に示すように、トラックレット２０１におけるチョコレート及びトラックレット２０２における紅茶を認識することができる。

【0017】

発明者の発見によると、ビデオデータに基づく物品検出の現在のスキームでは、依然として検出の正確度を向上させる必要がある。例えば、一部のシナリオにおいて物品が短時間で移動された場合、該物品が２つの異なる物品として認識されてしまう。

【0018】

図３は、物品認識時の１つの画像フレームの一例を示す図である。図３に示すように、この時点において、顧客は、左手で物品１（チョコレート）をトレイに入れる。この際に、該物品１が１箱のチョコレート（図３における３０１で示す）であると認識される。

【0019】

図４は、物品認識時のもう１つの画像フレームの一例を示す図である。図４に示すように、この時点において、顧客は、左手で物品１（チョコレート）をトレイから部分的に取り出し、右手で物品２（紅茶）をトレイに入れる。この際に、該物品２が１箱の紅茶（図４における３０２で示す）であると認識される。

【0020】

図５は、物品認識時のもう１つの画像フレームの一例を示す図である。図５に示すように、この時点において、顧客は、左手で物品１（チョコレート）を再度トレイに部分的に移動させ、右手で物品２（紅茶）をそのままの状態でトレイに置いている。この際に、該物品１がもう１箱のチョコレート（図５における５０１で示す）であり、該物品２が１箱の紅茶（図５における３０２で示す）であると認識される。

【0021】

即ち、該顧客が支払う物品は、１箱のチョコレートと１箱の紅茶であるが、２箱のチョコレートと１箱の紅茶であると認識されてしまう可能性があるため、二重認識の問題が発生する。以上は単なる一例であり、本発明はこれに限定されない。例えば、説明の便宜上、図２～図５は、トレイを概略的に示すだけであり、その画像特徴を示しておらず、本発明の参照領域は、特定の画像特徴（例えば、色、テクスチャなど）を有してもよい。

【0022】

また、現在の物品認識のスキームは、検出漏れや誤検出など、正確度が低い問題が依然として存在する。発明者の発見によると、これらの検出漏れ又は誤検出の理由の少なくとも一部は、トレーニングサンプルと実際の検出シナリオとの不一致によるものである。

【0023】

本発明の実施例は、上記の問題の少なくとも１つを改善する。本発明の実施例では、検出対象となる物品は、スーパーマーケットの様々な商品、例えば日用品、野菜、果物などであってもよいし、その他の検出すべき物品であってもよく、本発明の実施例はこれに限定されない。参照領域（又は参照物）は、固定のデスクトップ、トレイなどであってもよいし、可動なトレイなどであってもよい。

【0024】

＜実施例１＞
本発明の実施例は、物品認識方法を提供する。図６は、本発明の実施例に係る物品認識方法の一例の概略図である。図６に示すように、該方法は以下のステップを含む。

【0025】

ステップ６０１：ビデオデータの画像フレームにおける参照領域に対して物品検出を行う。

【0026】

ステップ６０２：複数の画像フレームにおいて検出された物品を追跡する。ここで、異なる時間窓で該複数の画像フレームにおける該物品に対してマルチレベル判定を行う。

【0027】

ステップ６０３：判定結果に基づいて該物品を認識する。

【0028】

なお、以上の図６は単なる本発明の実施例を例示的に説明するものであり、本発明はこれに限定されない。例えば、各ステップ間の実行順序を適宜調整してもよいし、他のステップを追加したり、その一部のステップを削除したりしてもよい。当業者は上記の内容に基づいて適宜変形を行ってもよく、上記の図６の記載に限定されない。

【0029】

本発明の実施例では、異なる時間窓で複数の画像フレームにおける物品に対してマルチレベル判定を行うことは、第１の時間窓で第１のレベルの判定を行い、第２の時間窓で第２のレベルの判定を行うことを含み、第１の時間窓は第２の時間窓よりも小さい。或いは、異なる時間窓で複数の画像フレームにおける物品に対してマルチレベル判定を行うことは、短い時間窓から長い時間窓までボトムアップの順序に従ってレベルごとに判定を行うことを含む。

【0030】

図７は、本発明の実施例に係るマルチレベル判定の一例を示す図である。図７に示すように、９個のフレーム（フレーム１～フレーム９）における物品について判定を行ってもよい。例えば、フレームのレベルでは、信頼度に基づいて、９個のフレームにおける物品は、それぞれ、スープの箱、チョコレートの箱、チョコレートの箱、紅茶の箱、スープの箱、スープの箱、チョコレートの箱、チョコレートの箱、チョコレートの箱であると判定されてもよい。

【0031】

短い時間窓のレベル（３個のフレームは１つの短い時間窓である）では、フレームのレベルの判定結果に基づいて、物品について再度判定を行う。例えば、最初の３個のフレームのフレームレベルでの判定結果は、スープの箱、チョコレートの箱、チョコレートの箱であり、短い時間窓のレベルでは、チョコレート箱であると判定される。中間の３個のフレームレベルでの判定結果は、紅茶の箱、スープの箱、スープの箱であり、短い時間窓のレベルでは、スープの箱であると判定される。最後の３個のフレームのフレームレベルでの判定結果は、チョコレートの箱、チョコレートの箱、チョコレートの箱であり、短い時間窓のレベルでは、チョコレートの箱であると判定される。

【0032】

長い時間窓のレベル（９個のフレームは１つの長い時間窓である）では、短い時間窓のレベルの判定結果に基づいて、物品について再度判定を行う。例えば、短い時間窓レベルでの判定結果は、それぞれチョコレートの箱、スープの箱、チョコレートの箱である場合、長い時間窓のレベルでは、チョコレートの箱であると判定される。

【0033】

これによって、異なる時間窓で複数の画像フレームにおける物品に対してマルチレベル（ボトムアップ）の判定を行う。一部のシナリオにおいて物品が短時間で移動された場合でも、該物品が２つの異なる物品として認識されることなく、物品の二重認識を低減させ、物品検出の正確度及びロバスト性を向上させることができる。

【0034】

幾つかの態様では、該ビデオデータにおける画像フレームに対して前処理を行ってもよい。ここで、検出された物品の外縁領域の少なくとも一部を分離して除去し、除去された領域を該参照領域を使用して充填する。

【0035】

図８は、本発明の実施例に係る前処理の一例を示す図であり、図９は、本発明の実施例に係る前処理の他の例を示す図である。例えば、図８に示すように、画像における「手」が所在する領域を分離して除去し（図８における８０１～８０４で示す）、そして、図９に示すように、除去された領域をトレイの画素（又は色、テクスチャ特徴など）を使用して充填（埋める）してもよい。

【0036】

これによって、参照領域の特徴は比較的に固定されてトレーニングサンプルに合成されるため、実際の検出画像に参照領域の特徴をできるだけ追加することで、実際の検出画像とトレーニングサンプルとの一致度を向上させ、検出漏れや誤検出を低減又は回避することができるため、物品認識の正確度をさらに向上させることができる。

【0037】

幾つかの態様では、追跡部は、１つのトラックレット（ｔｒａｃｋｌｅｔ）について動的な表面特徴シーケンスを維持し、該表面特徴シーケンスにおける任意の２つの特徴間の距離は、所定の閾値よりも大きい。

【0038】

例えば、通常、各トラックレットに特徴を順次追加すると、比較的に長い表面特徴シーケンス（例えば、１００個の特徴）が維持されるため、特徴を比較する際に長い時間がかかる。本発明の実施例では、１つのトラックレット（ｔｒａｃｋｌｅｔ）について動的な表面特徴シーケンスを維持する。即ち、表面特徴シーケンスに追加される特徴をフィルタリングし、表面特徴シーケンスにおける現在の特徴との距離が大きい（即ち、特徴の距離が閾値よりも大きい）特徴のみは、該表面特徴シーケンスに追加される。

【0039】

これによって、動的な表面特徴シーケンスにおける特徴の数がそれほど多くないため、特徴を比較する際に時間を短縮することができる。また、特徴の距離が小さい特徴がシーケンスに追加されなくても、認識結果への影響が大きくないため、認識の正確度が低下することはない。

【0040】

幾つかの態様では、追跡結果に対して後処理を行ってもよい。該後処理は、軌跡の長さが所定の閾値よりも小さいトラックレットを削除すること、背景として分類されたトラックレットを削除すること、トラックレットを分割すること、及び同一の識別子を有する複数のトラックレットを１つのトラックレットとして併合することのうちの少なくとも１つを含む。

【0041】

図１０は、本発明の実施例に係る後処理の一例を示す図であり、後処理の前の様子を示し、図１１は、本発明の実施例に係る後処理の他の例を示す図であり、後処理の後の様子を示す。例えば、投票スキーム（ｖｏｔｉｎｇｓｃｈｅｍｅ）によりトラックレット（ｔｒａｃｋｌｅｔ）のレベルを最適化してもよい。

【0042】

図１０、図１１に示すように、例えば、１００１で示す軌跡について、該軌跡の長さが非常に短く、ノイズであると判定できるため、該軌跡に対応するトラックレットを削除してもよい。１００２で示す軌跡について、該軌跡は背景であると判定されるため、該軌跡に対応するトラックレットを削除してもよい。１００３で示す３本の軌跡について、該３本の軌跡の識別子（ＩＤ）は同一であるため、これらの軌跡に対応するトラックレットを併合してもよい。

【0043】

これによって、後処理により物品認識の正確度及びロバスト性をさらに向上させることができる。

【0044】

幾つかの態様では、追跡部は、別個のカルマンフィルタを使用してトラックレットの中心及び比率をそれぞれ処理する。ここで、該トラックレットの中心に対して線形カルマンフィルタリングを行い、該トラックレットの比率に対して非線形カルマンフィルタリングを行う。

【0045】

図１２は、本発明の実施例に係るトラックレットの中心及び比率の変化パターンの一例を示す図である。図１２に示すように、物品の中心点の変化は、一般に比較的に安定的であるが、物品の比率（例えば、高さと幅との比率、又は面積の比率、又は水平方向の長さと垂直方向の長さとの比率など）の変化は、一般的により急激である。

【0046】

これによって、別個のカルマンフィルタを使用してトラックレットの中心と比率をそれぞれ処理することで、物品認識の正確度とロバスト性をさらに向上させることができる。

【0047】

以上は、本発明に係る物品認識を概略的に説明した。以上の各実施例は、個別に実施されてもよいし、任意に組み合わせられてもよい。以下は、本発明の実施例に係るトレーニングプロセス又はトレーニングサンプルについて説明するが、本発明の実施例では、実際の物品認識プロセスよりもトレーニングプロセス（又は登録プロセス）が先であってもよいし、トレーニングプロセスと認識プロセスとを同時に実行してもよい。

【0048】

幾つかの態様では、１つ又は複数の物品と参照領域とに対して画像合成を行い、合成後の画像をトリミングしてトレーニング用の検出サンプルを形成してもよい。

【0049】

図１３は、本発明の実施例に係る物品のトレーニングセットの一例を示す図である。図１３に示すように、物品のトレーニングセットを事前に準備し、物品の各角度の画像をトレーニングサンプルとしてもよい。図１３に示すように、各角度から物品を撮影し、取得した画像をトレーニングセットに追加してもよい。

【0050】

図１４は、本発明の実施例に係る画像合成の一例を示す図である。例えば、図１４に示すように、物品をトレイ（参照領域）に入れて撮影してもよい。例えば、複数の物品を参照領域に入れ、物品を重ねてもよい。

【0051】

図１５は、本発明の実施例に係る画像トリミングの一例を示す図である。例えば、図１５に示すように、合成後の画像を複数のトレーニング用の検出サンプルにトリミングしてもよい。例えば、図１５に示すように、サンプル１～４は、参照領域の画像特徴を含んでもよく、重なり、マルチ角度などの状況を反映してもよい。

【0052】

これによって、物品と参照領域とに対して画像合成を行うことによって、トレーニングサンプルに実際の物品認識時の参照領域を含めることができる。従って、トレーニングサンプルを実際のシナリオに近づけることができ、検出漏れ又は誤検出を軽減又は回避し、物品認識の正確度とロバスト性をさらに向上させることができる。

【0053】

幾つかの態様では、パラメータに基づいて画像合成を行ってもよい。該パラメータは、該参照領域における物品の数、該物品の重なり度又は遮蔽比率、及び該物品のスケーリング比率のうちの少なくとも１つを含む。本発明の実施例はこれに限定されない。

【0054】

例えば、複数の物品（例えば、１～６個の異なる物品）をトレイに入れてもよく、これらの物品は互いに重なり合ってもよい（例えば、重なり度は、０．０５、０．１、０．１５、０．２、０．２５、０．３などである）。また、物品を拡大又は縮小してもよい（例えば、スケーリング比率は、０．１５～０．５である）。

【0055】

これによって、様々なパラメータに基づいて物品に対して画像合成を行い、トレーニングサンプルには実際の物品認識の際に起こり得る様々な状況が含まれる。従って、トレーニングサンプルを実際のシナリオに近づけることができ、検出漏れ又は誤検出を軽減又は回避し、物品認識の正確度とロバスト性をさらに向上させることができる。

【0056】

幾つかの態様では、該１つ又は複数の物品に対して処理を行ってもよい。該処理は、画像の輝度を増加又は減少させること、重なり度を増加又は減少させること、該物品の撮影角度を変更すること、及び該物品のテクスチャ特徴を強調することのうちの少なくとも１つを含む。

【0057】

これによって、物品画像に対して強調処理を行うことで、トレーニングサンプルを実際のシナリオに近づけ、検出漏れ又は誤検出を軽減又は回避し、物品認識の正確度とロバスト性をさらに向上させることができる。

【0058】

以上は、単に本発明に関連するステップ又はプロセスを説明しており、本発明はこれに限定されない。動作検出方法は、他のステップ又はプロセスをさらに含んでもよく、これらのステップ又はプロセスの具体的な内容について、従来技術を参照してもよい。また、以上は、単に物品認識の幾つかの構造を例として本発明の実施例を例示的に説明しており、本発明は、これらの構造に限定されず、これらの構造に適切な変形を行ってもよく、これらの変形は、本発明の実施例の範囲内に含まれるべきである。

【0059】

上記の各実施例は、単に本発明の実施例を例示的に説明するものであり、本発明はこれらに限定されず、上記の様々な実施例に基づいて適切な変形を行ってもよい。例えば、上記の各実施例を単独で使用してもよいし、上記の各実施例の１つ又は複数を組み合わせて使用してもよい。

【0060】

本実施例によれば、異なる時間窓で複数の画像フレームにおける該物品に対してマルチレベル判定を行う。これによって、一部のシナリオにおいて物品が短時間で移動された場合でも、該物品が２つの異なる物品として認識されることなく、物品の二重認識を低減させ、物品検出の正確度及びロバスト性を向上させることができる。

【0061】

＜実施例２＞
本発明の実施例は物品認識装置を提供し、実施例１と同様な内容についてその説明を省略する。

【0062】

図１６は、本発明の実施例に係る物品認識装置の一例の概略図である。図１６に示すように、物品認識装置１６００は、以下の各部を含む。

【0063】

検出部１６０１は、ビデオデータの画像フレームにおける参照領域に対して物品検出を行う。

【0064】

追跡部１６０２は、複数の画像フレームにおいて検出された物品を追跡する。ここで、異なる時間窓で該複数の画像フレームにおける該物品に対してマルチレベル判定を行う。

【0065】

分類部１６０３は、該追跡部の判定結果に基づいて該物品を認識する。

【0066】

幾つかの態様では、検出部１６０１は、ＯＳＳ法を使用してもよく、例えば、ＤｅｔｅｃｔＲＳ、ＲｅｓＮｅｔ、ＲｅｓＮｅｓｔ、ＤＥＴＲ、ＹＯＬＯｆａｍｉｌｙ、Ｅｆｆｉｃｉｅｎｔｎｅｔ、ＦａｓｔｅｒＲ－ＣＮＮ、ＭａｓｋＲ－ＣＮＮなどの様々な関連技術を使用してもよい。本発明はこれらに限定されない。

【0067】

幾つかの態様では、分類部１６０３は、ＯＳＳ法を使用してもよく、例えば、ＶＧＧ、ＲｅｐＶＧＧ、ＲｅｓＮｅｔ、ＲｅｓＮｅＳｔ、ＲｅｓＮｅＸｔ、ＭｏｂｉｌｅＮｅｔ、ＶｉＴ、Ｓｗｉｎ‐Ｔｒａｎｓｆｏｒｍｅｒ、ＥｆｆｉｃｉｅｎｔＮｅｔ、ＣｏｎｖＮｅＸｔなどの様々な関連技術を使用してもよい。本発明はこれらに限定されない。

【0068】

図１７は、本発明の実施例に係る物品認識装置の他の例の概略図である。図１７に示すように、物品認識装置１７００は、検出部１６０１、追跡部１６０２及び分類部１６０３を含む。さらに、物品認識装置１７００は、以下の各部を含んでもよい。

【0069】

前処理部１７０１は、該ビデオデータにおける画像フレームに対して前処理を行う。ここで、検出された物品の外縁領域の少なくとも一部を分離して除去し、除去された領域を該参照領域を使用して充填する。

【0070】

幾つかの態様では、追跡部１６０２は、１つのトラックレットについて動的な表面特徴シーケンスを維持し、該表面特徴シーケンスにおける任意の２つの特徴間の距離は、所定の閾値よりも大きい。

【0071】

幾つかの態様では、図１７に示すように、該装置は、以下の各部をさらに含んでもよい。

【0072】

後処理部１７０２は、追跡結果に対して後処理を行う。該後処理は、軌跡の長さが所定の閾値よりも小さいトラックレットを削除すること、背景として分類されたトラックレットを削除すること、トラックレットを分割すること、及び同一の識別子を有する複数のトラックレットを１つのトラックレットとして併合することのうちの少なくとも１つを含む。

【0073】

幾つかの態様では、追跡部１６０２は、別個のカルマンフィルタを使用してトラックレットの中心及び比率をそれぞれ処理する。ここで、該トラックレットの中心に対して線形カルマンフィルタリングを行い、該トラックレットの比率に対して非線形カルマンフィルタリングを行う。

【0074】

幾つかの態様では、図１７に示すように、該装置は、以下の各部をさらに含んでもよい。

【0075】

合成部１７０３は、１つ又は複数の物品と該参照領域とに対して画像合成を行う。

【0076】

トリミング部１７０４は、合成後の画像をトリミングしてトレーニング用の検出サンプルを形成する。

【0077】

幾つかの態様では、合成部１７０３は、パラメータに基づいて該画像合成を行い、該パラメータは、該参照領域における物品の数、該物品の重なり度又は遮蔽比率、及び該物品のスケーリング比率のうちの少なくとも１つを含む。

【0078】

幾つかの態様では、合成部１７０３は、該１つ又は複数の物品に対して処理を行い、該処理は、画像の輝度を増加又は減少させること、重なり度を増加又は減少させること、該物品の撮影角度を変更すること、及び該物品のテクスチャ特徴を強調することのうちの少なくとも１つを含む。

【0079】

なお、以上は、単に本発明に関連する各構成要素又はモジュールを説明しており、本発明はこれに限定されない。物品認識装置１６００又は１７００は、他の構成要素又はモジュールを含んでもよく、これらの構成要素又はモジュールの具体的な内容について、関連技術を参照してもよい。

【0080】

簡単にするために、図１６又は図１７は、単に各構成要素又はモジュール間の接続関係又は信号方向を例示的に示しており、バス接続などの様々な関連技術を使用できることは当業者にとって明らかである。上記の様々な構成要素又はモジュールは、プロセッサ及びメモリなどのハードウェア装置により実現されてもよく、本発明の実施例はこれに限定されない。

【0081】

【0082】

【0083】

＜実施例３＞
本発明の実施例は、実施例２に記載された物品認識装置１６００又は１７００を含む電子機器を提供し、ここでその内容を援用する。該電子機器は、例えばコンピュータ、サーバ、ワークステーション、ラップトップコンピュータ、スマートフォンなどであってもよいが、本発明の実施例はこれらに限定されない。

【0084】

図１８は、本発明の実施例に係る電子機器の概略図である。図１８に示すように、本発明の実施例に係る電子機器１８００は、プロセッサ（例えば、中央処理装置（ＣＰＵ））１８１０、及びメモリ１８２０を含む。メモリ１８２０は、プロセッサ１８１０に接続される。メモリ１８２０は、様々なデータを記憶してもよく、情報処理のプログラム１８２１をさらに記憶してもよい。プロセッサ１８１０の制御により該プログラム１８２１を実行する。

【0085】

幾つかの態様では、物品認識装置１６００又は１７００の機能はプロセッサ１８１０に統合されてもよい。ここで、プロセッサ１８１０は、実施例１に記載された物品認識方法を実現するように構成されてもよい。

【0086】

幾つかの態様では、物品認識装置１６００又は１７００はプロセッサ１８１０とそれぞれ配置されてもよく、例えば、物品認識装置１６００又は１７００はプロセッサ１８１０に接続されたチップであり、プロセッサ１８１０の制御により物品認識装置１６００又は１７００の機能を実現するように構成されてもよい。

【0087】

例えば、該プロセッサ１８１０は、ビデオデータの画像フレームにおける参照領域に対して物品検出を行うステップと、複数の画像フレームにおいて検出された物品を追跡するステップであって、異なる時間窓で該複数の画像フレームにおける該物品に対してマルチレベル判定を行う、ステップと、判定結果に基づいて該物品を認識するステップと、を実行するように構成されてもよい。

【0088】

また、図１８に示すように、電子機器１８００は、入力出力（Ｉ／Ｏ）装置１８３０及びディスプレイ１８４０などをさらに含んでもよい。ここで、該構成部の機能は従来技術と同様であり、ここでその説明を省略する。なお、電子機器１８００は、図１８に示す全ての構成部を含まなくてもよい。また、電子機器１８００は、図１８に示していない構成部を含んでもよく、従来技術を参考してもよい。

【0089】

本発明の実施例は、電子機器においてプログラムを実行する際に、コンピュータに該電子機器において実施例１に記載の物品認識方法を実行させる、コンピュータ読み取り可能なプログラムを提供する。

【0090】

本発明の実施例は、コンピュータに電子機器において実施例１に記載の物品認識方法を実行させるためのコンピュータ読み取り可能なプログラムが記憶されている、記憶媒体をさらに提供する。

【0091】

本発明の以上の装置及び方法は、ハードウェアにより実現されてもよく、ハードウェアとソフトウェアを結合して実現されてもよい。本発明はコンピュータが読み取り可能なプログラムに関し、該プログラムは論理部により実行される時に、該論理部に上述した装置又は構成要件を実現させる、或いは該論理部に上述した各種の方法又はステップを実現させることができる。本発明は上記のプログラムを記憶するための記憶媒体、例えばハードディスク、磁気ディスク、光ディスク、ＤＶＤ、フラッシュメモリ等に関する。

【0092】

本発明の実施例を参照しながら説明した方法／装置は、ハードウェア、プロセッサにより実行されるソフトウェアモジュール、又は両者の組み合わせで実施されてもよい。例えば、図面に示す機能的ブロック図における１つ若しくは複数、又は機能的ブロック図の１つ若しくは複数の組み合わせは、コンピュータプログラムフローの各ソフトウェアモジュールに対応してもよいし、各ハードウェアモジュールに対応してもよい。これらのソフトウェアモジュールは、図面に示す各ステップにそれぞれ対応してもよい。これらのハードウェアモジュールは、例えばフィールド・プログラマブル・ゲートアレイ（ＦＰＧＡ）を用いてこれらのソフトウェアモジュールをハードウェア化して実現されてもよい。

【0093】

ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、モバイルハードディスク、ＣＤ－ＲＯＭ又は当業者にとって既知の任意の他の形の記憶媒体に位置してもよい。プロセッサが記憶媒体から情報を読み取ったり、記憶媒体に情報を書き込んだりするように該記憶媒体をプロセッサに接続してもよいし、記憶媒体がプロセッサの構成部であってもよい。プロセッサ及び記憶媒体はＡＳＩＣに位置する。該ソフトウェアモジュールは移動端末のメモリに記憶されてもよいし、移動端末に挿入されたメモリカードに記憶されてもよい。例えば、機器（例えば移動端末）が比較的に大きい容量のＭＥＧＡ－ＳＩＭカード又は大容量のフラッシュメモリ装置を用いる場合、該ソフトウェアモジュールは該ＭＥＧＡ－ＳＩＭカード又は大容量のフラッシュメモリ装置に記憶されてもよい。

【0094】

図面に記載されている１つ以上の機能ブロック及び／又は機能ブロックの１つ以上の組合せは、本発明に記載されている機能を実行するための汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールド・プログラマブル・ゲートアレイ（ＦＰＧＡ）又は他のプログラマブル論理デバイス、ディスクリートゲート又はトランジスタ論理装置、ディスクリートハードウェアコンポーネント、又はそれらの任意の適切な組み合わせで実現されてもよい。図面に記載されている１つ以上の機能ブロック及び／又は機能ブロックの１つ以上の組合せは、例えば、コンピューティング機器の組み合わせ、例えばＤＳＰとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサの組み合わせ、ＤＳＰ通信と組み合わせた１つ又は複数のマイクロプロセッサ又は他の任意の構成で実現されてもよい。

【0095】

以上、具体的な実施形態を参照しながら本発明を説明しているが、上記の説明は、例示的なものに過ぎず、本発明の保護の範囲を限定するものではない。本発明の趣旨及び原理を離脱しない限り、本発明に対して各種の変形及び変更を行ってもよく、これらの変形及び変更も本発明の範囲に属する。

【0096】

また、上述の実施例を含む実施形態に関し、更に以下の付記を開示する。
（付記１）
物品認識方法であって、
ビデオデータの画像フレームにおける参照領域に対して物品検出を行うステップと、
複数の画像フレームにおいて検出された物品を追跡するステップであって、異なる時間窓で前記複数の画像フレームにおける前記物品に対してマルチレベル判定を行う、ステップと、
判定結果に基づいて前記物品を認識するステップと、を含む、方法。
（付記２）
異なる時間窓で複数の画像フレームにおける物品に対してマルチレベル判定を行うことは、
第１の時間窓で第１のレベルの判定を行い、第２の時間窓で第２のレベルの判定を行い、前記第１の時間窓は前記第２の時間窓よりも小さいこと、を含む、付記１に記載の方法。
（付記３）
異なる時間窓で複数の画像フレームにおける物品に対してマルチレベル判定を行うことは、
短い時間窓から長い時間窓までボトムアップの順序に従ってレベルごとに判定を行うことを含む、付記１又は２に記載の方法。
（付記４）
前記ビデオデータにおける画像フレームに対して前処理を行うステップ、をさらに含み、
検出された物品の外縁領域の少なくとも一部を分離して除去し、除去された領域を前記参照領域を使用して充填する、付記１乃至３の何れかに記載の方法。
（付記５）
前記追跡部は、１つのトラックレットについて動的な表面特徴シーケンスを維持し、前記表面特徴シーケンスにおける任意の２つの特徴間の距離は、所定の閾値よりも大きい、付記１乃至４の何れかに記載の方法。
（付記６）
追跡結果に対して後処理を行うステップ、をさらに含み、
前記後処理は、軌跡の長さが所定の閾値よりも小さいトラックレットを削除すること、背景として分類されたトラックレットを削除すること、トラックレットを分割すること、及び同一の識別子を有する複数のトラックレットを１つのトラックレットとして併合することのうちの少なくとも１つを含む、付記１乃至５の何れかに記載の方法。
（付記７）
別個のカルマンフィルタを使用してトラックレットの中心及び比率をそれぞれ処理し、
前記トラックレットの中心に対して線形カルマンフィルタリングを行い、
前記トラックレットの比率に対して非線形カルマンフィルタリングを行う、付記１乃至６の何れかに記載の方法。
（付記８）
１つ又は複数の物品と前記参照領域とに対して画像合成を行うステップと、
合成後の画像をトリミングしてトレーニング用の検出サンプルを形成するステップと、をさらに含む、付記１乃至７の何れかに記載の方法。
（付記９）
パラメータに基づいて前記画像合成を行い、
前記パラメータは、前記参照領域における物品の数、前記物品の重なり度又は遮蔽比率、及び前記物品のスケーリング比率のうちの少なくとも１つを含む、付記８に記載の方法。
（付記１０）
前記１つ又は複数の物品に対して処理を行い、
前記処理は、画像の輝度を増加又は減少させること、重なり度を増加又は減少させること、前記物品の撮影角度を変更すること、及び前記物品のテクスチャ特徴を強調することのうちの少なくとも１つを含む、付記８に記載の方法。
（付記１１）
コンピュータ読み取り可能なプログラムが記憶された記憶媒体であって、前記コンピュータ読み取り可能なプログラムは、コンピュータに電子機器において付記１乃至１０の何れかに記載の物品認識方法を実行させる、記憶媒体。

【図1】