(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024144327
(43)【公開日】2024-10-11
(54)【発明の名称】物品認識装置、方法及び電子機器
(51)【国際特許分類】
G06T 7/00 20170101AFI20241003BHJP
【FI】
G06T7/00 300Z
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2024050662
(22)【出願日】2024-03-27
(31)【優先権主張番号】202310325584.9
(32)【優先日】2023-03-29
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】シ・ズチアン
(72)【発明者】
【氏名】リィウ・リィウ
(72)【発明者】
【氏名】リィウ・ジョオンリン
(72)【発明者】
【氏名】リィウ・ルゥジエ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096CA04
5L096EA35
5L096EA37
5L096GA51
5L096HA05
(57)【要約】
【課題】本発明の実施例は、物品認識装置、方法及び電子機器を提供する。
【解決手段】該装置は、ビデオデータの画像フレームにおける参照領域に対して物品検出を行う検出部と、複数の画像フレームにおいて検出された物品を追跡する追跡部であって、異なる時間窓で該複数の画像フレームにおける該物品に対してマルチレベル判定を行う、追跡部と、該追跡部の判定結果に基づいて該物品を認識する分類部と、を含む。これによって、一部のシナリオにおいて物品が短時間で移動された場合でも、該物品が2つの異なる物品として認識されることなく、物品の二重認識を低減させ、物品検出の正確度及びロバスト性を向上させることができる。
【選択図】
図6
【特許請求の範囲】
【請求項1】
物品認識装置であって、
ビデオデータの画像フレームにおける参照領域に対して物品検出を行う検出部と、
複数の画像フレームにおいて検出された物品を追跡する追跡部であって、異なる時間窓で前記複数の画像フレームにおける前記物品に対してマルチレベル判定を行う、追跡部と、
前記追跡部の判定結果に基づいて前記物品を認識する分類部と、を含む、装置。
【請求項2】
前記ビデオデータにおける画像フレームに対して前処理を行う前処理部、をさらに含み、
検出された物品の外縁領域の少なくとも一部を分離して除去し、除去された領域を前記参照領域を使用して充填する、請求項1に記載の装置。
【請求項3】
前記追跡部は、1つのトラックレットについて動的な表面特徴シーケンスを維持し、前記表面特徴シーケンスにおける任意の2つの特徴間の距離は、所定の閾値よりも大きい、請求項1に記載の装置。
【請求項4】
追跡結果に対して後処理を行う後処理部、をさらに含み、
前記後処理は、軌跡の長さが所定の閾値よりも小さいトラックレットを削除すること、背景として分類されたトラックレットを削除すること、トラックレットを分割すること、及び同一の識別子を有する複数のトラックレットを1つのトラックレットとして併合することのうちの少なくとも1つを含む、請求項1に記載の装置。
【請求項5】
前記追跡部は、別個のカルマンフィルタを使用してトラックレットの中心及び比率をそれぞれ処理し、
前記トラックレットの中心に対して線形カルマンフィルタリングを行い、
前記トラックレットの比率に対して非線形カルマンフィルタリングを行う、請求項1に記載の装置。
【請求項6】
1つ又は複数の物品と前記参照領域とに対して画像合成を行う合成部と、
合成後の画像をトリミングしてトレーニング用の検出サンプルを形成するトリミング部と、をさらに含む、請求項1乃至5の何れかに記載の装置。
【請求項7】
前記合成部は、パラメータに基づいて前記画像合成を行い、
前記パラメータは、前記参照領域における物品の数、前記物品の重なり度又は遮蔽比率、及び前記物品のスケーリング比率のうちの少なくとも1つを含む、請求項6に記載の装置。
【請求項8】
前記合成部は、前記1つ又は複数の物品に対して処理を行い、
前記処理は、画像の輝度を増加又は減少させること、重なり度を増加又は減少させること、前記物品の撮影角度を変更すること、及び前記物品のテクスチャ特徴を強調することのうちの少なくとも1つを含む、請求項6に記載の装置。
【請求項9】
物品認識方法であって、
ビデオデータの画像フレームにおける参照領域に対して物品検出を行うステップと、
複数の画像フレームにおいて検出された物品を追跡するステップであって、異なる時間窓で前記複数の画像フレームにおける前記物品に対してマルチレベル判定を行う、ステップと、
判定結果に基づいて前記物品を認識するステップと、を含む、方法。
【請求項10】
コンピュータプログラムが記憶されたメモリと、プロセッサとを含む電子機器であって、前記プロセッサは、前記コンピュータプログラムを実行して請求項9に記載の物品認識方法を実現するように構成される、電子機器。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施例は、ビデオ検出の技術分野に関する。
【背景技術】
【0002】
現在、ビデオデータにより物品を検出することができる。例えば、無人スーパーマーケットでは、顧客が撮影領域に物品を置き、カメラ機器で物品を認識することで、自動のセルフレジ(self-checkout)を実現する。バーコードのセルフレジの方式と比較して、ビデオデータに基づくセルフレジの方式は、より高速であり、バーコードを意図的に誤って貼り付けることにより引き起こされる不正検出(fraud detection)の問題がない。
【0003】
なお、上述した技術背景の説明は、本発明の技術案を明確、完全に理解させるための説明であり、当業者を理解させるために記述されているものである。これらの技術案は、単なる本発明の背景技術部分として説明されたものであり、当業者により周知されたものではない。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、本発明の発明者の発見によると、ビデオデータに基づく物品検出の現在のスキームでは、依然として検出の正確度を向上させる必要がある。例えば、一部のシナリオにおいて物品が短時間で移動された場合、該物品が2つの異なる物品として認識されるため、物品の二重認識の問題が発生してしまう。
【0005】
上記の技術的問題点の少なくとも1つを鑑み、本発明の実施例は、物品認識装置、方法及び電子機器を提供する。
【課題を解決するための手段】
【0006】
本発明の実施例の1つの態様では、物品認識装置であって、ビデオデータの画像フレームにおける参照領域に対して物品検出を行う検出部と、複数の画像フレームにおいて検出された物品を追跡する追跡部であって、異なる時間窓で前記複数の画像フレームにおける前記物品に対してマルチレベル判定を行う、追跡部と、前記追跡部の判定結果に基づいて前記物品を認識する分類部と、を含む、装置を提供する。
【0007】
本発明の実施例のもう1つの態様では、物品認識方法であって、ビデオデータの画像フレームにおける参照領域に対して物品検出を行うステップと、複数の画像フレームにおいて検出された物品を追跡するステップであって、異なる時間窓で前記複数の画像フレームにおける前記物品に対してマルチレベル判定を行う、ステップと、判定結果に基づいて前記物品を認識するステップと、を含む、方法を提供する。
【0008】
本発明の実施例のもう1つの態様では、コンピュータプログラムが記憶されたメモリと、プロセッサとを含む電子機器であって、前記プロセッサは、前記コンピュータプログラムを実行して上記の物品認識方法を実現するように構成される、電子機器を提供する。
【0009】
本発明の実施例の有利な効果の1つは以下の通りである。異なる時間窓で複数の画像フレームにおける該物品に対してマルチレベル判定を行う。これによって、一部のシナリオにおいて物品が短時間で移動された場合でも、該物品が2つの異なる物品として認識されることなく、物品の二重認識を低減させ、物品検出の正確度及びロバスト性を向上させることができる。
【0010】
本発明の特定の実施形態は、後述の説明及び図面に示すように、詳細に開示され、本発明の原理を採用されることが可能な方式を示している。なお、本発明の実施例は、範囲上には限定されるものではない。本発明の実施例は、添付されている特許請求の範囲の主旨及び内容の範囲内、各種の変更、修正、及び均等的なものが含まれる。
【図面の簡単な説明】
【0011】
ここで含まれる図面は、本発明の実施例を理解させるためのものであり、本明細書の一部を構成し、本発明の実施例を例示するためのものであり、文言の記載と合わせて本発明の原理を説明する。なお、ここに説明される図面は、単なる本発明の実施例を説明するためのものであり、当業者にとって、これらの図面に基づいて他の図面を容易に得ることができる。
【
図1】本発明の実施例に係るシナリオの一例を示す図である。
【
図2】
図1のシナリオにおける物品認識の一例を示す図である。
【
図3】物品認識時の1つの画像フレームの一例を示す図である。
【
図4】物品認識時のもう1つの画像フレームの一例を示す図である。
【
図5】物品認識時のもう1つの画像フレームの一例を示す図である。
【
図6】本発明の実施例に係る物品認識方法の一例の概略図である。
【
図7】本発明の実施例に係るマルチレベル判定の一例を示す図である。
【
図8】本発明の実施例に係る前処理の一例を示す図である。
【
図9】本発明の実施例に係る前処理の他の例を示す図である。
【
図10】本発明の実施例に係る後処理の一例を示す図である。
【
図11】本発明の実施例に係る後処理の他の例を示す図である。
【
図12】本発明の実施例に係るトラックレットの中心及び比率の変化パターンの一例を示す図である。
【
図13】本発明の実施例に係る物品のトレーニングセットの一例を示す図である。
【
図14】本発明の実施例に係る画像合成の一例を示す図である。
【
図15】本発明の実施例に係る画像トリミングの一例を示す図である。
【
図16】本発明の実施例に係る物品認識装置の一例の概略図である。
【
図17】本発明の実施例に係る物品認識装置の他の例の概略図である。
【
図18】本発明の実施例に係る電子機器の概略図である。
【発明を実施するための形態】
【0012】
本発明の上記及びその他の特徴は、図面及び下記の説明により明確になる。明細書及び図面では、本発明の特定の実施形態、即ち本発明の原則に従う一部の実施形態を表すものを公開している。なお、本発明は説明される実施形態に限定されず、本発明は、特許請求の範囲内の全ての修正、変形されたもの、及び均等なものを含む。
【0013】
本発明の実施例では、用語「第1」、「第2」は異なる要素を名称で区分するためのものであり、これらの要素の空間的配列又は時間的順序などを意味するものではなく、これらの要素はこれらの用語に限定されない。用語「及び/又は」は列挙された用語の1つ又は複数のうち何れか及びその組み合わせを含む。用語「包括」、「含む」、「有する」は、説明された特徴、要素、素子又は部材の存在を意味するが、他の1つ又は複数の特徴、要素、素子又は部材の存在又は追加を排除するものではない。
【0014】
本発明の実施例では、単数形の「一」、「該」等は複数形を含み、「一種」又は「一類」を意味し、「1つ」に限定するものではない。また、用語「前記」は、文脈上明確に指示されない限り、単数形及び複数形両方を含む。また、文脈上明確に指示されない限り、用語「応じて」は「少なくとも部分的に応じて」を意味し、用語「に基づいて」は「少なくとも部分的に基づいて」を意味する。
【0015】
1つの実施形態について説明及び/又は示される特徴は、1つ又は複数の他の実施形態に同一又は同様な方式で使用され、他の実施形態における特徴と組み合わせ、或いは他の実施形態の特徴の代わりに使用してもよい。用語「包括」又は「含む」は、説明された特徴、要素、素子又は部材の存在を意味するが、他の1つ又は複数の特徴、要素、素子又は部材の存在又は追加を排除するものではない。
【0016】
図1は、本発明の実施例に係るシナリオの一例を示す図であり、
図2は、
図1のシナリオにおける物品認識の一例を示す図である。スーパーマーケットのセルフレジを一例とすると、
図1及び
図2に示すように、顧客101は支払いが必要な商品を参照領域(
図2に示すトレイ203)に置き、カメラ102は参照領域内の物品を検出し、これらの商品を認識することができる。例えば、
図2に示すように、トラックレット201におけるチョコレート及びトラックレット202における紅茶を認識することができる。
【0017】
発明者の発見によると、ビデオデータに基づく物品検出の現在のスキームでは、依然として検出の正確度を向上させる必要がある。例えば、一部のシナリオにおいて物品が短時間で移動された場合、該物品が2つの異なる物品として認識されてしまう。
【0018】
図3は、物品認識時の1つの画像フレームの一例を示す図である。
図3に示すように、この時点において、顧客は、左手で物品1(チョコレート)をトレイに入れる。この際に、該物品1が1箱のチョコレート(
図3における301で示す)であると認識される。
【0019】
図4は、物品認識時のもう1つの画像フレームの一例を示す図である。
図4に示すように、この時点において、顧客は、左手で物品1(チョコレート)をトレイから部分的に取り出し、右手で物品2(紅茶)をトレイに入れる。この際に、該物品2が1箱の紅茶(
図4における302で示す)であると認識される。
【0020】
図5は、物品認識時のもう1つの画像フレームの一例を示す図である。
図5に示すように、この時点において、顧客は、左手で物品1(チョコレート)を再度トレイに部分的に移動させ、右手で物品2(紅茶)をそのままの状態でトレイに置いている。この際に、該物品1がもう1箱のチョコレート(
図5における501で示す)であり、該物品2が1箱の紅茶(
図5における302で示す)であると認識される。
【0021】
即ち、該顧客が支払う物品は、1箱のチョコレートと1箱の紅茶であるが、2箱のチョコレートと1箱の紅茶であると認識されてしまう可能性があるため、二重認識の問題が発生する。以上は単なる一例であり、本発明はこれに限定されない。例えば、説明の便宜上、
図2~
図5は、トレイを概略的に示すだけであり、その画像特徴を示しておらず、本発明の参照領域は、特定の画像特徴(例えば、色、テクスチャなど)を有してもよい。
【0022】
また、現在の物品認識のスキームは、検出漏れや誤検出など、正確度が低い問題が依然として存在する。発明者の発見によると、これらの検出漏れ又は誤検出の理由の少なくとも一部は、トレーニングサンプルと実際の検出シナリオとの不一致によるものである。
【0023】
本発明の実施例は、上記の問題の少なくとも1つを改善する。本発明の実施例では、検出対象となる物品は、スーパーマーケットの様々な商品、例えば日用品、野菜、果物などであってもよいし、その他の検出すべき物品であってもよく、本発明の実施例はこれに限定されない。参照領域(又は参照物)は、固定のデスクトップ、トレイなどであってもよいし、可動なトレイなどであってもよい。
【0024】
<実施例1>
本発明の実施例は、物品認識方法を提供する。
図6は、本発明の実施例に係る物品認識方法の一例の概略図である。
図6に示すように、該方法は以下のステップを含む。
【0025】
ステップ601:ビデオデータの画像フレームにおける参照領域に対して物品検出を行う。
【0026】
ステップ602:複数の画像フレームにおいて検出された物品を追跡する。ここで、異なる時間窓で該複数の画像フレームにおける該物品に対してマルチレベル判定を行う。
【0027】
ステップ603:判定結果に基づいて該物品を認識する。
【0028】
なお、以上の
図6は単なる本発明の実施例を例示的に説明するものであり、本発明はこれに限定されない。例えば、各ステップ間の実行順序を適宜調整してもよいし、他のステップを追加したり、その一部のステップを削除したりしてもよい。当業者は上記の内容に基づいて適宜変形を行ってもよく、上記の
図6の記載に限定されない。
【0029】
本発明の実施例では、異なる時間窓で複数の画像フレームにおける物品に対してマルチレベル判定を行うことは、第1の時間窓で第1のレベルの判定を行い、第2の時間窓で第2のレベルの判定を行うことを含み、第1の時間窓は第2の時間窓よりも小さい。或いは、異なる時間窓で複数の画像フレームにおける物品に対してマルチレベル判定を行うことは、短い時間窓から長い時間窓までボトムアップの順序に従ってレベルごとに判定を行うことを含む。
【0030】
図7は、本発明の実施例に係るマルチレベル判定の一例を示す図である。
図7に示すように、9個のフレーム(フレーム1~フレーム9)における物品について判定を行ってもよい。例えば、フレームのレベルでは、信頼度に基づいて、9個のフレームにおける物品は、それぞれ、スープの箱、チョコレートの箱、チョコレートの箱、紅茶の箱、スープの箱、スープの箱、チョコレートの箱、チョコレートの箱、チョコレートの箱であると判定されてもよい。
【0031】
短い時間窓のレベル(3個のフレームは1つの短い時間窓である)では、フレームのレベルの判定結果に基づいて、物品について再度判定を行う。例えば、最初の3個のフレームのフレームレベルでの判定結果は、スープの箱、チョコレートの箱、チョコレートの箱であり、短い時間窓のレベルでは、チョコレート箱であると判定される。中間の3個のフレームレベルでの判定結果は、紅茶の箱、スープの箱、スープの箱であり、短い時間窓のレベルでは、スープの箱であると判定される。最後の3個のフレームのフレームレベルでの判定結果は、チョコレートの箱、チョコレートの箱、チョコレートの箱であり、短い時間窓のレベルでは、チョコレートの箱であると判定される。
【0032】
長い時間窓のレベル(9個のフレームは1つの長い時間窓である)では、短い時間窓のレベルの判定結果に基づいて、物品について再度判定を行う。例えば、短い時間窓レベルでの判定結果は、それぞれチョコレートの箱、スープの箱、チョコレートの箱である場合、長い時間窓のレベルでは、チョコレートの箱であると判定される。
【0033】
これによって、異なる時間窓で複数の画像フレームにおける物品に対してマルチレベル(ボトムアップ)の判定を行う。一部のシナリオにおいて物品が短時間で移動された場合でも、該物品が2つの異なる物品として認識されることなく、物品の二重認識を低減させ、物品検出の正確度及びロバスト性を向上させることができる。
【0034】
幾つかの態様では、該ビデオデータにおける画像フレームに対して前処理を行ってもよい。ここで、検出された物品の外縁領域の少なくとも一部を分離して除去し、除去された領域を該参照領域を使用して充填する。
【0035】
図8は、本発明の実施例に係る前処理の一例を示す図であり、
図9は、本発明の実施例に係る前処理の他の例を示す図である。例えば、
図8に示すように、画像における「手」が所在する領域を分離して除去し(
図8における801~804で示す)、そして、
図9に示すように、除去された領域をトレイの画素(又は色、テクスチャ特徴など)を使用して充填(埋める)してもよい。
【0036】
これによって、参照領域の特徴は比較的に固定されてトレーニングサンプルに合成されるため、実際の検出画像に参照領域の特徴をできるだけ追加することで、実際の検出画像とトレーニングサンプルとの一致度を向上させ、検出漏れや誤検出を低減又は回避することができるため、物品認識の正確度をさらに向上させることができる。
【0037】
幾つかの態様では、追跡部は、1つのトラックレット(tracklet)について動的な表面特徴シーケンスを維持し、該表面特徴シーケンスにおける任意の2つの特徴間の距離は、所定の閾値よりも大きい。
【0038】
例えば、通常、各トラックレットに特徴を順次追加すると、比較的に長い表面特徴シーケンス(例えば、100個の特徴)が維持されるため、特徴を比較する際に長い時間がかかる。本発明の実施例では、1つのトラックレット(tracklet)について動的な表面特徴シーケンスを維持する。即ち、表面特徴シーケンスに追加される特徴をフィルタリングし、表面特徴シーケンスにおける現在の特徴との距離が大きい(即ち、特徴の距離が閾値よりも大きい)特徴のみは、該表面特徴シーケンスに追加される。
【0039】
これによって、動的な表面特徴シーケンスにおける特徴の数がそれほど多くないため、特徴を比較する際に時間を短縮することができる。また、特徴の距離が小さい特徴がシーケンスに追加されなくても、認識結果への影響が大きくないため、認識の正確度が低下することはない。
【0040】
幾つかの態様では、追跡結果に対して後処理を行ってもよい。該後処理は、軌跡の長さが所定の閾値よりも小さいトラックレットを削除すること、背景として分類されたトラックレットを削除すること、トラックレットを分割すること、及び同一の識別子を有する複数のトラックレットを1つのトラックレットとして併合することのうちの少なくとも1つを含む。
【0041】
図10は、本発明の実施例に係る後処理の一例を示す図であり、後処理の前の様子を示し、
図11は、本発明の実施例に係る後処理の他の例を示す図であり、後処理の後の様子を示す。例えば、投票スキーム(voting scheme)によりトラックレット(tracklet)のレベルを最適化してもよい。
【0042】
図10、
図11に示すように、例えば、1001で示す軌跡について、該軌跡の長さが非常に短く、ノイズであると判定できるため、該軌跡に対応するトラックレットを削除してもよい。1002で示す軌跡について、該軌跡は背景であると判定されるため、該軌跡に対応するトラックレットを削除してもよい。1003で示す3本の軌跡について、該3本の軌跡の識別子(ID)は同一であるため、これらの軌跡に対応するトラックレットを併合してもよい。
【0043】
これによって、後処理により物品認識の正確度及びロバスト性をさらに向上させることができる。
【0044】
幾つかの態様では、追跡部は、別個のカルマンフィルタを使用してトラックレットの中心及び比率をそれぞれ処理する。ここで、該トラックレットの中心に対して線形カルマンフィルタリングを行い、該トラックレットの比率に対して非線形カルマンフィルタリングを行う。
【0045】
図12は、本発明の実施例に係るトラックレットの中心及び比率の変化パターンの一例を示す図である。
図12に示すように、物品の中心点の変化は、一般に比較的に安定的であるが、物品の比率(例えば、高さと幅との比率、又は面積の比率、又は水平方向の長さと垂直方向の長さとの比率など)の変化は、一般的により急激である。
【0046】
これによって、別個のカルマンフィルタを使用してトラックレットの中心と比率をそれぞれ処理することで、物品認識の正確度とロバスト性をさらに向上させることができる。
【0047】
以上は、本発明に係る物品認識を概略的に説明した。以上の各実施例は、個別に実施されてもよいし、任意に組み合わせられてもよい。以下は、本発明の実施例に係るトレーニングプロセス又はトレーニングサンプルについて説明するが、本発明の実施例では、実際の物品認識プロセスよりもトレーニングプロセス(又は登録プロセス)が先であってもよいし、トレーニングプロセスと認識プロセスとを同時に実行してもよい。
【0048】
幾つかの態様では、1つ又は複数の物品と参照領域とに対して画像合成を行い、合成後の画像をトリミングしてトレーニング用の検出サンプルを形成してもよい。
【0049】
図13は、本発明の実施例に係る物品のトレーニングセットの一例を示す図である。
図13に示すように、物品のトレーニングセットを事前に準備し、物品の各角度の画像をトレーニングサンプルとしてもよい。
図13に示すように、各角度から物品を撮影し、取得した画像をトレーニングセットに追加してもよい。
【0050】
図14は、本発明の実施例に係る画像合成の一例を示す図である。例えば、
図14に示すように、物品をトレイ(参照領域)に入れて撮影してもよい。例えば、複数の物品を参照領域に入れ、物品を重ねてもよい。
【0051】
図15は、本発明の実施例に係る画像トリミングの一例を示す図である。例えば、
図15に示すように、合成後の画像を複数のトレーニング用の検出サンプルにトリミングしてもよい。例えば、
図15に示すように、サンプル1~4は、参照領域の画像特徴を含んでもよく、重なり、マルチ角度などの状況を反映してもよい。
【0052】
これによって、物品と参照領域とに対して画像合成を行うことによって、トレーニングサンプルに実際の物品認識時の参照領域を含めることができる。従って、トレーニングサンプルを実際のシナリオに近づけることができ、検出漏れ又は誤検出を軽減又は回避し、物品認識の正確度とロバスト性をさらに向上させることができる。
【0053】
幾つかの態様では、パラメータに基づいて画像合成を行ってもよい。該パラメータは、該参照領域における物品の数、該物品の重なり度又は遮蔽比率、及び該物品のスケーリング比率のうちの少なくとも1つを含む。本発明の実施例はこれに限定されない。
【0054】
例えば、複数の物品(例えば、1~6個の異なる物品)をトレイに入れてもよく、これらの物品は互いに重なり合ってもよい(例えば、重なり度は、0.05、0.1、0.15、0.2、0.25、0.3などである)。また、物品を拡大又は縮小してもよい(例えば、スケーリング比率は、0.15~0.5である)。
【0055】
これによって、様々なパラメータに基づいて物品に対して画像合成を行い、トレーニングサンプルには実際の物品認識の際に起こり得る様々な状況が含まれる。従って、トレーニングサンプルを実際のシナリオに近づけることができ、検出漏れ又は誤検出を軽減又は回避し、物品認識の正確度とロバスト性をさらに向上させることができる。
【0056】
幾つかの態様では、該1つ又は複数の物品に対して処理を行ってもよい。該処理は、画像の輝度を増加又は減少させること、重なり度を増加又は減少させること、該物品の撮影角度を変更すること、及び該物品のテクスチャ特徴を強調することのうちの少なくとも1つを含む。
【0057】
これによって、物品画像に対して強調処理を行うことで、トレーニングサンプルを実際のシナリオに近づけ、検出漏れ又は誤検出を軽減又は回避し、物品認識の正確度とロバスト性をさらに向上させることができる。
【0058】
以上は、単に本発明に関連するステップ又はプロセスを説明しており、本発明はこれに限定されない。動作検出方法は、他のステップ又はプロセスをさらに含んでもよく、これらのステップ又はプロセスの具体的な内容について、従来技術を参照してもよい。また、以上は、単に物品認識の幾つかの構造を例として本発明の実施例を例示的に説明しており、本発明は、これらの構造に限定されず、これらの構造に適切な変形を行ってもよく、これらの変形は、本発明の実施例の範囲内に含まれるべきである。
【0059】
上記の各実施例は、単に本発明の実施例を例示的に説明するものであり、本発明はこれらに限定されず、上記の様々な実施例に基づいて適切な変形を行ってもよい。例えば、上記の各実施例を単独で使用してもよいし、上記の各実施例の1つ又は複数を組み合わせて使用してもよい。
【0060】
本実施例によれば、異なる時間窓で複数の画像フレームにおける該物品に対してマルチレベル判定を行う。これによって、一部のシナリオにおいて物品が短時間で移動された場合でも、該物品が2つの異なる物品として認識されることなく、物品の二重認識を低減させ、物品検出の正確度及びロバスト性を向上させることができる。
【0061】
<実施例2>
本発明の実施例は物品認識装置を提供し、実施例1と同様な内容についてその説明を省略する。
【0062】
図16は、本発明の実施例に係る物品認識装置の一例の概略図である。
図16に示すように、物品認識装置1600は、以下の各部を含む。
【0063】
検出部1601は、ビデオデータの画像フレームにおける参照領域に対して物品検出を行う。
【0064】
追跡部1602は、複数の画像フレームにおいて検出された物品を追跡する。ここで、異なる時間窓で該複数の画像フレームにおける該物品に対してマルチレベル判定を行う。
【0065】
分類部1603は、該追跡部の判定結果に基づいて該物品を認識する。
【0066】
幾つかの態様では、検出部1601は、OSS法を使用してもよく、例えば、DetectRS、ResNet、ResNest、DETR、YOLO family、Efficientnet、Faster R-CNN、Mask R-CNNなどの様々な関連技術を使用してもよい。本発明はこれらに限定されない。
【0067】
幾つかの態様では、分類部1603は、OSS法を使用してもよく、例えば、VGG、RepVGG、ResNet、ResNeSt、ResNeXt、MobileNet、ViT、Swin‐Transformer、EfficientNet、ConvNeXtなどの様々な関連技術を使用してもよい。本発明はこれらに限定されない。
【0068】
図17は、本発明の実施例に係る物品認識装置の他の例の概略図である。
図17に示すように、物品認識装置1700は、検出部1601、追跡部1602及び分類部1603を含む。さらに、物品認識装置1700は、以下の各部を含んでもよい。
【0069】
前処理部1701は、該ビデオデータにおける画像フレームに対して前処理を行う。ここで、検出された物品の外縁領域の少なくとも一部を分離して除去し、除去された領域を該参照領域を使用して充填する。
【0070】
幾つかの態様では、追跡部1602は、1つのトラックレットについて動的な表面特徴シーケンスを維持し、該表面特徴シーケンスにおける任意の2つの特徴間の距離は、所定の閾値よりも大きい。
【0071】
幾つかの態様では、
図17に示すように、該装置は、以下の各部をさらに含んでもよい。
【0072】
後処理部1702は、追跡結果に対して後処理を行う。該後処理は、軌跡の長さが所定の閾値よりも小さいトラックレットを削除すること、背景として分類されたトラックレットを削除すること、トラックレットを分割すること、及び同一の識別子を有する複数のトラックレットを1つのトラックレットとして併合することのうちの少なくとも1つを含む。
【0073】
幾つかの態様では、追跡部1602は、別個のカルマンフィルタを使用してトラックレットの中心及び比率をそれぞれ処理する。ここで、該トラックレットの中心に対して線形カルマンフィルタリングを行い、該トラックレットの比率に対して非線形カルマンフィルタリングを行う。
【0074】
幾つかの態様では、
図17に示すように、該装置は、以下の各部をさらに含んでもよい。
【0075】
合成部1703は、1つ又は複数の物品と該参照領域とに対して画像合成を行う。
【0076】
トリミング部1704は、合成後の画像をトリミングしてトレーニング用の検出サンプルを形成する。
【0077】
幾つかの態様では、合成部1703は、パラメータに基づいて該画像合成を行い、該パラメータは、該参照領域における物品の数、該物品の重なり度又は遮蔽比率、及び該物品のスケーリング比率のうちの少なくとも1つを含む。
【0078】
幾つかの態様では、合成部1703は、該1つ又は複数の物品に対して処理を行い、該処理は、画像の輝度を増加又は減少させること、重なり度を増加又は減少させること、該物品の撮影角度を変更すること、及び該物品のテクスチャ特徴を強調することのうちの少なくとも1つを含む。
【0079】
なお、以上は、単に本発明に関連する各構成要素又はモジュールを説明しており、本発明はこれに限定されない。物品認識装置1600又は1700は、他の構成要素又はモジュールを含んでもよく、これらの構成要素又はモジュールの具体的な内容について、関連技術を参照してもよい。
【0080】
簡単にするために、
図16又は
図17は、単に各構成要素又はモジュール間の接続関係又は信号方向を例示的に示しており、バス接続などの様々な関連技術を使用できることは当業者にとって明らかである。上記の様々な構成要素又はモジュールは、プロセッサ及びメモリなどのハードウェア装置により実現されてもよく、本発明の実施例はこれに限定されない。
【0081】
上記の各実施例は、単に本発明の実施例を例示的に説明するものであり、本発明はこれらに限定されず、上記の様々な実施例に基づいて適切な変形を行ってもよい。例えば、上記の各実施例を単独で使用してもよいし、上記の各実施例の1つ又は複数を組み合わせて使用してもよい。
【0082】
本実施例によれば、異なる時間窓で複数の画像フレームにおける該物品に対してマルチレベル判定を行う。これによって、一部のシナリオにおいて物品が短時間で移動された場合でも、該物品が2つの異なる物品として認識されることなく、物品の二重認識を低減させ、物品検出の正確度及びロバスト性を向上させることができる。
【0083】
<実施例3>
本発明の実施例は、実施例2に記載された物品認識装置1600又は1700を含む電子機器を提供し、ここでその内容を援用する。該電子機器は、例えばコンピュータ、サーバ、ワークステーション、ラップトップコンピュータ、スマートフォンなどであってもよいが、本発明の実施例はこれらに限定されない。
【0084】
図18は、本発明の実施例に係る電子機器の概略図である。
図18に示すように、本発明の実施例に係る電子機器1800は、プロセッサ(例えば、中央処理装置(CPU))1810、及びメモリ1820を含む。メモリ1820は、プロセッサ1810に接続される。メモリ1820は、様々なデータを記憶してもよく、情報処理のプログラム1821をさらに記憶してもよい。プロセッサ1810の制御により該プログラム1821を実行する。
【0085】
幾つかの態様では、物品認識装置1600又は1700の機能はプロセッサ1810に統合されてもよい。ここで、プロセッサ1810は、実施例1に記載された物品認識方法を実現するように構成されてもよい。
【0086】
幾つかの態様では、物品認識装置1600又は1700はプロセッサ1810とそれぞれ配置されてもよく、例えば、物品認識装置1600又は1700はプロセッサ1810に接続されたチップであり、プロセッサ1810の制御により物品認識装置1600又は1700の機能を実現するように構成されてもよい。
【0087】
例えば、該プロセッサ1810は、ビデオデータの画像フレームにおける参照領域に対して物品検出を行うステップと、複数の画像フレームにおいて検出された物品を追跡するステップであって、異なる時間窓で該複数の画像フレームにおける該物品に対してマルチレベル判定を行う、ステップと、判定結果に基づいて該物品を認識するステップと、を実行するように構成されてもよい。
【0088】
また、
図18に示すように、電子機器1800は、入力出力(I/O)装置1830及びディスプレイ1840などをさらに含んでもよい。ここで、該構成部の機能は従来技術と同様であり、ここでその説明を省略する。なお、電子機器1800は、
図18に示す全ての構成部を含まなくてもよい。また、電子機器1800は、
図18に示していない構成部を含んでもよく、従来技術を参考してもよい。
【0089】
本発明の実施例は、電子機器においてプログラムを実行する際に、コンピュータに該電子機器において実施例1に記載の物品認識方法を実行させる、コンピュータ読み取り可能なプログラムを提供する。
【0090】
本発明の実施例は、コンピュータに電子機器において実施例1に記載の物品認識方法を実行させるためのコンピュータ読み取り可能なプログラムが記憶されている、記憶媒体をさらに提供する。
【0091】
本発明の以上の装置及び方法は、ハードウェアにより実現されてもよく、ハードウェアとソフトウェアを結合して実現されてもよい。本発明はコンピュータが読み取り可能なプログラムに関し、該プログラムは論理部により実行される時に、該論理部に上述した装置又は構成要件を実現させる、或いは該論理部に上述した各種の方法又はステップを実現させることができる。本発明は上記のプログラムを記憶するための記憶媒体、例えばハードディスク、磁気ディスク、光ディスク、DVD、フラッシュメモリ等に関する。
【0092】
本発明の実施例を参照しながら説明した方法/装置は、ハードウェア、プロセッサにより実行されるソフトウェアモジュール、又は両者の組み合わせで実施されてもよい。例えば、図面に示す機能的ブロック図における1つ若しくは複数、又は機能的ブロック図の1つ若しくは複数の組み合わせは、コンピュータプログラムフローの各ソフトウェアモジュールに対応してもよいし、各ハードウェアモジュールに対応してもよい。これらのソフトウェアモジュールは、図面に示す各ステップにそれぞれ対応してもよい。これらのハードウェアモジュールは、例えばフィールド・プログラマブル・ゲートアレイ(FPGA)を用いてこれらのソフトウェアモジュールをハードウェア化して実現されてもよい。
【0093】
ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、モバイルハードディスク、CD-ROM又は当業者にとって既知の任意の他の形の記憶媒体に位置してもよい。プロセッサが記憶媒体から情報を読み取ったり、記憶媒体に情報を書き込んだりするように該記憶媒体をプロセッサに接続してもよいし、記憶媒体がプロセッサの構成部であってもよい。プロセッサ及び記憶媒体はASICに位置する。該ソフトウェアモジュールは移動端末のメモリに記憶されてもよいし、移動端末に挿入されたメモリカードに記憶されてもよい。例えば、機器(例えば移動端末)が比較的に大きい容量のMEGA-SIMカード又は大容量のフラッシュメモリ装置を用いる場合、該ソフトウェアモジュールは該MEGA-SIMカード又は大容量のフラッシュメモリ装置に記憶されてもよい。
【0094】
図面に記載されている1つ以上の機能ブロック及び/又は機能ブロックの1つ以上の組合せは、本発明に記載されている機能を実行するための汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲートアレイ(FPGA)又は他のプログラマブル論理デバイス、ディスクリートゲート又はトランジスタ論理装置、ディスクリートハードウェアコンポーネント、又はそれらの任意の適切な組み合わせで実現されてもよい。図面に記載されている1つ以上の機能ブロック及び/又は機能ブロックの1つ以上の組合せは、例えば、コンピューティング機器の組み合わせ、例えばDSPとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサの組み合わせ、DSP通信と組み合わせた1つ又は複数のマイクロプロセッサ又は他の任意の構成で実現されてもよい。
【0095】
以上、具体的な実施形態を参照しながら本発明を説明しているが、上記の説明は、例示的なものに過ぎず、本発明の保護の範囲を限定するものではない。本発明の趣旨及び原理を離脱しない限り、本発明に対して各種の変形及び変更を行ってもよく、これらの変形及び変更も本発明の範囲に属する。
【0096】
また、上述の実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
物品認識方法であって、
ビデオデータの画像フレームにおける参照領域に対して物品検出を行うステップと、
複数の画像フレームにおいて検出された物品を追跡するステップであって、異なる時間窓で前記複数の画像フレームにおける前記物品に対してマルチレベル判定を行う、ステップと、
判定結果に基づいて前記物品を認識するステップと、を含む、方法。
(付記2)
異なる時間窓で複数の画像フレームにおける物品に対してマルチレベル判定を行うことは、
第1の時間窓で第1のレベルの判定を行い、第2の時間窓で第2のレベルの判定を行い、前記第1の時間窓は前記第2の時間窓よりも小さいこと、を含む、付記1に記載の方法。
(付記3)
異なる時間窓で複数の画像フレームにおける物品に対してマルチレベル判定を行うことは、
短い時間窓から長い時間窓までボトムアップの順序に従ってレベルごとに判定を行うことを含む、付記1又は2に記載の方法。
(付記4)
前記ビデオデータにおける画像フレームに対して前処理を行うステップ、をさらに含み、
検出された物品の外縁領域の少なくとも一部を分離して除去し、除去された領域を前記参照領域を使用して充填する、付記1乃至3の何れかに記載の方法。
(付記5)
前記追跡部は、1つのトラックレットについて動的な表面特徴シーケンスを維持し、前記表面特徴シーケンスにおける任意の2つの特徴間の距離は、所定の閾値よりも大きい、付記1乃至4の何れかに記載の方法。
(付記6)
追跡結果に対して後処理を行うステップ、をさらに含み、
前記後処理は、軌跡の長さが所定の閾値よりも小さいトラックレットを削除すること、背景として分類されたトラックレットを削除すること、トラックレットを分割すること、及び同一の識別子を有する複数のトラックレットを1つのトラックレットとして併合することのうちの少なくとも1つを含む、付記1乃至5の何れかに記載の方法。
(付記7)
別個のカルマンフィルタを使用してトラックレットの中心及び比率をそれぞれ処理し、
前記トラックレットの中心に対して線形カルマンフィルタリングを行い、
前記トラックレットの比率に対して非線形カルマンフィルタリングを行う、付記1乃至6の何れかに記載の方法。
(付記8)
1つ又は複数の物品と前記参照領域とに対して画像合成を行うステップと、
合成後の画像をトリミングしてトレーニング用の検出サンプルを形成するステップと、をさらに含む、付記1乃至7の何れかに記載の方法。
(付記9)
パラメータに基づいて前記画像合成を行い、
前記パラメータは、前記参照領域における物品の数、前記物品の重なり度又は遮蔽比率、及び前記物品のスケーリング比率のうちの少なくとも1つを含む、付記8に記載の方法。
(付記10)
前記1つ又は複数の物品に対して処理を行い、
前記処理は、画像の輝度を増加又は減少させること、重なり度を増加又は減少させること、前記物品の撮影角度を変更すること、及び前記物品のテクスチャ特徴を強調することのうちの少なくとも1つを含む、付記8に記載の方法。
(付記11)
コンピュータ読み取り可能なプログラムが記憶された記憶媒体であって、前記コンピュータ読み取り可能なプログラムは、コンピュータに電子機器において付記1乃至10の何れかに記載の物品認識方法を実行させる、記憶媒体。