(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-28
(45)【発行日】2023-12-06
(54)【発明の名称】陳列シーン認識方法、装置、電子機器、記憶媒体およびコンピュータプログラム
(51)【国際特許分類】
G06V 20/70 20220101AFI20231129BHJP
G06T 7/00 20170101ALI20231129BHJP
G06V 10/771 20220101ALI20231129BHJP
【FI】
G06V20/70
G06T7/00 300F
G06V10/771
【外国語出願】
(21)【出願番号】P 2022082893
(22)【出願日】2022-05-20
【審査請求日】2022-05-23
(31)【優先権主張番号】202110886915.7
(32)【優先日】2021-08-03
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100147485
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】230118913
【氏名又は名称】杉村 光嗣
(74)【代理人】
【識別番号】100163511
【氏名又は名称】辻 啓太
(72)【発明者】
【氏名】チェン ケフア
(72)【発明者】
【氏名】ニー ジハン
(72)【発明者】
【氏名】アン ロンチャオ
(72)【発明者】
【氏名】スン イーペン
(72)【発明者】
【氏名】チェン ユエロン
(72)【発明者】
【氏名】ヤオ クン
【審査官】▲広▼島 明芳
(56)【参考文献】
【文献】米国特許出願公開第2021/0089571(US,A1)
【文献】中国特許出願公開第111507253(CN,A)
【文献】Bo Sun et al.,FSCE: Few-Shot Object Detection via Contrastive Proposal Encoding,CVPR 2021,2021年03月,URL: https://doi.org/10.48550/arXiv.2103.05950
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
G06V 10/00 - 20/90
(57)【特許請求の範囲】
【請求項1】
認識対象画像の特徴ベクトルを取得してベースライブラリ特徴ベクトルセットを取得することと、
前記認識対象画像の特徴ベクトルと前記ベースライブラリ特徴ベクトルセット内の各特徴ベクトルとの類似度係数に基づいて、前記ベースライブラリ特徴ベクトルセットから少なくとも2つの候補特徴ベクトルを確定することと、
前記少なくとも2つの候補特徴ベクトルの類似度係数に対して閾値判断を行い、目標特徴ベクトルを得ることと、
前記目標特徴ベクトルに対応する陳列シーンラベルに基づいて前記認識対象画像の陳列シーンを確定することと、
を含み、
前記少なくとも2つの候補特徴ベクトルは、1つの主特徴ベクトルと少なくとも1つの副特徴ベクトルとを含み、
前記少なくとも2つの候補特徴ベクトルの類似度係数に対して閾値判断を行い、目標特徴ベクトルを得ることは、
前記主特徴ベクトルの類似度係数が第1の閾値よりも大きいことに応答して、前記主特徴ベクトルを前記目標特徴ベクトルとすることと、
前記主特徴ベクトルの類似度係数が前記第1の閾値以下であり、かつ、前記少なくとも1つの副特徴ベクトルの類似度係数がいずれも第2の閾値よりも大きいことに応答して、前記少なくとも1つの副特徴ベクトルに基づいて前記目標特徴ベクトルを確定することと、
を含み、
前記第1の閾値および前記第2の閾値はいずれも0より大きく1より小さい値であり、かつ前記第2の閾値は前記第1の閾値よりも小さい、
陳列シーン認識方法。
【請求項2】
前記少なくとも2つの候補特徴ベクトルは、1つの主特徴ベクトルと2つの副特徴ベクトルとを含み、
前記少なくとも1つの副特徴ベクトルに基づいて前記目標特徴ベクトルを確定することは、
前記2つの副特徴ベクトルに対応する陳列シーンラベルが一致することに応答して、前記2つの副特徴ベクトルのいずれか一方を前記目標特徴ベクトルとすることを含む、
請求項1に記載の陳列シーン認識方法。
【請求項3】
前記認識対象画像の特徴ベクトルと前記ベースライブラリ特徴ベクトルセット内の各特徴ベクトルとの類似度係数に基づいて、前記ベースライブラリ特徴ベクトルセットから少なくとも2つの候補特徴ベクトルを確定することは、
前記認識対象画像の特徴ベクトルと前記ベースライブラリ特徴ベクトルセット内の各特徴ベクトルとをそれぞれ行列乗算して距離特徴ベクトルセットを得ることと、
前記距離特徴ベクトルセットに基づいて、前記ベースライブラリ特徴ベクトルセット内の各特徴ベクトルの類似度係数を計算することと、
前記類似度係数に基づいて、前記ベースライブラリ特徴ベクトルセットから少なくとも2つの候補特徴ベクトルを確定することと、
を含む請求項1に記載の陳列シーン認識方法。
【請求項4】
前記主特徴ベクトルの類似度係数が、前記少なくとも1つの副特徴ベクトルのうちのいずれかの特徴ベクトルの類似度係数よりも大きい、請求項3に記載の陳列シーン認識方法。
【請求項5】
認識対象画像の特徴ベクトルを取得することは、
予めトレーニングされた位置確認モデルにより前記認識対象画像に対して目標領域を抽出して処理すべき目標領域画像を得ることと、
前記処理すべき目標領域画像を予めトレーニングされた特徴抽出モデルに入力して、前記認識対象画像の特徴ベクトルを得ることと、
を含む請求項1に記載の陳列シーン認識方法。
【請求項6】
前記特徴抽出モデルは、以下のモデルトレーニング方法によりトレーニングして得られ、
前記モデルトレーニング方法は、
陳列シーンの画像サンプルセットを採集することと、
前記画像サンプルセット内の各画像サンプルに対して目標領域を抽出して、目標領域サンプルセットを得ることと、
前記目標領域サンプルセットをトレーニングサンプルとし、第1の初期モデルをトレーニングして特徴抽出モデルを得ることと、
を含む、請求項5に記載の陳列シーン認識方法。
【請求項7】
前記モデルトレーニング方法は、
前記各画像サンプルに対して目標領域ラベリングを行い、各画像サンプルに対応する目標領域座標情報を得ることと、
前記画像サンプルセットおよび対応する目標領域座標情報をトレーニングサンプルとし、第2の初期モデルをトレーニングして位置確認モデルを得ることと、
をさらに含む、請求項6に記載の陳列シーン認識方法。
【請求項8】
前記モデルトレーニング方法は、
前記第1の初期モデルをトレーニングする過程において、前記目標領域サンプルセット内の各目標領域サンプルの特徴ベクトルを取得して、ベースライブラリ特徴ベクトルセットとすることと、
前記各目標領域サンプルに対して陳列シーンラベリングを行い、各目標領域サンプルに対応する陳列シーンラベルを得ることと、
前記ベースライブラリ特徴ベクトルセットおよび対応する陳列シーンラベルを保存することと、
をさらに含む請求項6に記載の陳列シーン認識方法。
【請求項9】
認識対象画像の特徴ベクトルを取得してベースライブラリ特徴ベクトルセットを取得するように構成される取得モジュールと、
前記認識対象画像の特徴ベクトルと前記ベースライブラリ特徴ベクトルセット内の各特徴ベクトルとの類似度係数に基づいて、前記ベースライブラリ特徴ベクトルセットから少なくとも2つの候補特徴ベクトルを確定するように構成される確定モジュールと、
前記少なくとも2つの候補特徴ベクトルの類似度係数に対して閾値判断を行い、目標特徴ベクトルを得るように構成される判断モジュールと、
前記目標特徴ベクトルに対応する陳列シーンラベルに基づいて前記認識対象画像の陳列シーンを確定するように構成される認識モジュールと、
を備え、
前記少なくとも2つの候補特徴ベクトルは、1つの主特徴ベクトルと少なくとも1つの副特徴ベクトルとを含み、
前記判断モジュールは、
前記主特徴ベクトルの類似度係数が第1の閾値よりも大きいことに応答して、前記主特徴ベクトルを前記目標特徴ベクトルとするように構成される第1の判断サブモジュールと、
前記主特徴ベクトルの類似度係数が前記第1の閾値以下であり、かつ、前記少なくとも1つの副特徴ベクトルの類似度係数がいずれも第2の閾値よりも大きいことに応答して、前記少なくとも1つの副特徴ベクトルに基づいて前記目標特徴ベクトルを確定するように構成される第2の判断サブモジュールと、を備え、
前記第1の閾値および前記第2の閾値はいずれも0より大きく1より小さい値であり、かつ前記第2の閾値は前記第1の閾値よりも小さい、
陳列シーン認識装置。
【請求項10】
前記少なくとも2つの候補特徴ベクトルは、1つの主特徴ベクトルと2つの副特徴ベクトルとを含み、
前記第2の判断サブモジュールは、
前記2つの副特徴ベクトルに対応する陳列シーンラベルが一致することに応答して、前記2つの副特徴ベクトルのいずれか一方を前記目標特徴ベクトルとするように構成されるラベル判断ユニットを備える請求項9に記載の陳列シーン認識装置。
【請求項11】
前記確定モジュールは、
前記認識対象画像の特徴ベクトルと前記ベースライブラリ特徴ベクトルセット内の各特徴ベクトルとをそれぞれ行列乗算して距離特徴ベクトルセットを得るように構成される行列乗算サブモジュールと、
前記距離特徴ベクトルセットに基づいて、前記ベースライブラリ特徴ベクトルセット内の各特徴ベクトルの類似度係数を計算するように構成される類似度係数計算サブモジュールと、
前記類似度係数に基づいて、前記ベースライブラリ特徴ベクトルセットから少なくとも2つの候補特徴ベクトルを確定するように構成される候補確認サブモジュールと、
を備える請求項9に記載の陳列シーン認識装置。
【請求項12】
前記主特徴ベクトルの類似度係数が前記少なくとも1つの副特徴ベクトルのうちのいずれかの特徴ベクトルの類似度係数よりも大きい、請求項11に記載の陳列シーン認識装置。
【請求項13】
前記取得モジュールは、
予めトレーニングされた位置確認モデルにより前記認識対象画像に対して目標領域を抽出して処理すべき目標領域画像を得るように構成される目標領域画像抽出サブモジュールと、
前記処理すべき目標領域画像を予めトレーニングされた特徴抽出モデルに入力して、前記認識対象画像の特徴ベクトルを得るように構成される目標領域画像処理サブモジュールと、
を備える請求項9~12のいずれか1項に記載の陳列シーン認識装置。
【請求項14】
前記特徴抽出モデルは、以下のモデルトレーニング方法によりトレーニングして得られ、前記モデルトレーニング方法は、
陳列シーンの画像サンプルセットを採集することと、
前記画像サンプルセット内の各画像サンプルに対して目標領域を抽出して、目標領域サンプルセットを得ることと、
前記目標領域サンプルセットをトレーニングサンプルとし、第1の初期モデルをトレーニングして特徴抽出モデルを得ることと、
を含む請求項13に記載の陳列シーン認識装置。
【請求項15】
前記モデルトレーニング方法は、
前記各画像サンプルに対して目標領域ラベリングを行い、各画像サンプルに対応する目標領域座標情報を得ることと、
前記画像サンプルセットおよび対応する目標領域座標情報をトレーニングサンプルとし、第2の初期モデルをトレーニングして位置確認モデルを得ることと、
を含む請求項14に記載の陳列シーン認識装置。
【請求項16】
前記モデルトレーニング方法は、
前記第1の初期モデルをトレーニングする過程において、前記目標領域サンプルセット内の各目標領域サンプルの特徴ベクトルを取得して、ベースライブラリ特徴ベクトルセットとすることと、
前記各目標領域サンプルに対して陳列シーンラベリングを行い、各目標領域サンプルに対応する陳列シーンラベルを得ることと、
前記ベースライブラリ特徴ベクトルセットおよび対応する陳列シーンラベルを保存することと、
を含む請求項1
4に記載の陳列シーン認識装置。
【請求項17】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されたメモリとを備える電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な指令が格納され、前記指令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項1~8のいずれか1項に記載の陳列シーン認識方法を実行させる、電子機器。
【請求項18】
コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ指令はコンピュータに請求項1~8のいずれか1項に記載の陳列シーン認識方法を実行させるために用いられる非一時的コンピュータ可読記憶媒体。
【請求項19】
プロセッサによって実行されると、請求項1~8のいずれか1項に記載の陳列シーン認識方法が実現されるコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、人工知能技術分野に関し、具体的に、コンピュータビジョンおよび深層学習技術分野に関し、画像処理および画像認識等のシーンに適用可能であり、特に陳列シーン認識方法、モデルトレーニング方法、装置、電子機器、記憶媒体およびコンピュータプログラムに関する。
【背景技術】
【0002】
現在の陳列シーン認識では、検出対象画像の全体的な特徴と少なくとも1つの局所的な特徴とに基づいて陳列シーンを認識するのが一般的である。しかし、この方法は大量の画像を処理する必要があり、ラベリングコストが高い。
【発明の概要】
【0003】
本開示は、陳列シーン認識方法、モデルトレーニング方法、装置、電子機器、記憶媒体およびコンピュータプログラムを提供し、シーン認識効率が向上される。
【0004】
本開示の第1の態様によれば、認識対象画像の特徴ベクトルを取得してベースライブラリ特徴ベクトルセットを取得することと、認識対象画像の特徴ベクトルとベースライブラリ特徴ベクトルセットの各特徴ベクトルとの類似度係数に基づいて、ベースライブラリ特徴ベクトルセットから少なくとも2つの候補特徴ベクトルを確定することと、少なくとも2つの候補特徴ベクトルの類似度係数に対して閾値判断を行い、目標特徴ベクトルを得ることと、目標特徴ベクトルに対応する陳列シーンラベルに基づいて認識対象画像の陳列シーンを確定することと、を含む陳列シーン認識方法を提供する。
【0005】
本開示の第2の態様によれば、陳列シーンの画像サンプルセットを採集することと、画像サンプルセット内の各画像サンプルに目標領域を抽出して、目標領域サンプルセットを得ることと、目標領域サンプルセットをトレーニングサンプルとして第1の初期モデルをトレーニングして特徴抽出モデルを得ることと、を含むモデルトレーニング方法を提供する。
【0006】
本開示の第3の態様によれば、認識対象画像の特徴ベクトルを取得してベースライブラリ特徴ベクトルセットを取得するように構成される取得モジュールと、認識対象画像の特徴ベクトルとベースライブラリ特徴ベクトルセット内の各特徴ベクトルとの類似度係数に基づいて、ベースライブラリ特徴ベクトルセットから少なくとも2つの候補特徴ベクトルを確定するように構成される確定モジュールと、少なくとも2つの候補特徴ベクトルの類似度係数に対して閾値判断を行い、目標特徴ベクトルを得るように構成される判断モジュールと、目標特徴ベクトルに対応する陳列シーンラベルに基づいて前記認識対象画像の陳列シーンを確定するように構成される認識モジュールと、を備える陳列シーン認識装置を提供する。
【0007】
本開示の第4の態様によれば、陳列シーンの画像サンプルセットを採集するように構成される採集モジュールと、画像サンプルセット内の各画像サンプルに目標領域を抽出して、目標領域サンプルセットを得るように構成される抽出モジュールと、目標領域サンプルセットをトレーニングサンプルとして第1の初期モデルをトレーニングして特徴抽出モデルを得るように構成される第1のトレーニングモジュールと、を備えるモデルトレーニング装置を提供する。
【0008】
本開示の第5の態様によれば、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信接続されたメモリとを備える電子機器であって、メモリには、少なくとも1つのプロセッサによって実行可能な指令が格納され、指令が少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサに上記第1の態様に記載の陳列シーン認識方法または上記第2の態様に記載のモデルトレーニング方法を実行させる、電子機器を提供する。
【0009】
本開示の第6の態様によれば、コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、コンピュータ指令は上記第1の態様に記載の陳列シーン認識方法または上記第2の態様に記載のモデルトレーニング方法をコンピュータに実行させるために用いられる非一時的コンピュータ可読他の態様を提供する。
【0010】
本開示の第7の態様によれば、プロセッサによって実行されると、上記第1の態様に記載の陳列シーン認識方法または上記第2の態様に記載のモデルトレーニング方法が実現されるコンピュータプログラムを提供する。
【0011】
なお、発明の概要に記載された内容は、本開示の実施形態のかなめとなる特徴または重要な特徴を限定することを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明によって容易に理解される。
【図面の簡単な説明】
【0012】
図面は本開示をよりよく理解するために用いられ、本開示に対する限定ではない。
【
図1】本開示の適用可能な例示的なシステムアーキテクチャを示す図である。
【
図2】本開示に係る陳列シーン認識方法の一実施形態を示すフローチャートである。
【
図3】本開示に係る陳列シーン認識方法のもう一つの実施形態を示すフローチャートである。
【
図4】本開示に係る陳列シーン認識方法のもう一つの実施形態を示すフローチャートである。
【
図5】本開示に係る陳列シーン認識方法のもう一つの実施形態を示すフローチャートである。
【
図6】本開示に係る陳列シーン認識方法のもう一つの実施形態を示すフローチャートである。
【
図7】本開示に係るモデルトレーニング方法の一実施形態を示すフローチャートである。
【
図8】本開示に係るモデルトレーニング方法のもう一つの実施形態を示すフローチャートである。
【
図9】本開示に係るモデルトレーニング方法のもう一つの実施形態を示すフローチャートである。
【
図10】本開示に係る陳列シーン認識装置の一実施形態を示す構造概略図である。
【
図11】本開示に係るモデルトレーニング装置の一実施形態を示す構造概略図である。
【
図12】本開示の実施形態に係る陳列シーン認識方法またはモデルトレーニング方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0013】
以下は、図面を参照して本開示の例示的な実施形態を説明し、ここで理解を助けるため、本開示の実施形態の様々な詳細を記載するが、これらは単なる例示的なものに過ぎないことを理解すべきである。従って、本開示の範囲および要旨を逸脱しない限り、当業者が本明細書の実施形態に対して様々な変更および修正を行うことができることを理解すべきで
ある。なお、以下の説明では、明確化および簡略化のため、公知の機能および構成については説明を省略する。
【0014】
図1は、本開示に係る陳列シーン認識方法、モデルトレーニング方法、陳列シーン認識装置、またはモデルトレーニング装置の実施形態が適用可能な例示的なシステムアーキテクチャ100を示している。
【0015】
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103、ネットワーク104、およびサーバ105を含んでもよい。ネットワーク104は、端末装置101、102、103とサーバ105との間で通信リンクを提供するための媒体として使用される。ネットワーク104は、有線、無線通信リンクまたは光ファイバケーブルなどの様々なタイプの接続を含んでもよい。
【0016】
ユーザは、認識対象画像の陳列シーンを取得するなどのために、端末装置101、102、103を使用してネットワーク104を介してサーバ105と情報のやり取りをすることができる。端末装置101、102、103には、画像処理アプリケーションなどの様々なクライアントアプリケーションをインストールしてもよい。
【0017】
端末装置101、102、103は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置101、102、103がハードウェアである場合、様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、ラップトップコンピュータおよびデスクトップコンピュータなどを含むが、これらに限定されない。端末装置101、102、103がソフトウェアである場合、上記の電子機器にインストールされてもよい。それは、複数のソフトウェア若しくはソフトウェアモジュールとして実現されてもよく、または単一のソフトウェア若しくはソフトウェアモジュールとして実現されてもよい。ここでは特に限定しない。
【0018】
サーバ105は、陳列シーン認識に基づいた様々なサービスを提供できる。例えば、サーバ105は、端末装置101、102、103から取得された認識対象画像を解析処理し、処理(例えば、認識対象画像の陳列シーンなどを取得する)結果を生成することができる。
【0019】
なお、サーバ105は、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバ105がハードウェアである場合、複数のサーバから構成される分散サーバクラスターとしても、単一のサーバとしても実装可能である。サーバ105がソフトウェアである場合、複数のソフトウェア若しくはソフトウェアモジュール(例えば、分散サービスを提供するためのもの)として実装されてもよく、又は単一のソフトウェア若しくはソフトウェアモジュールとして実装されてもよい。ここでは特に限定しない。
【0020】
なお、本開示の実施形態に係る陳列シーン認識方法またはモデルトレーニング方法は、通常にサーバ105によって実行され、これに応じて、陳列シーン認識装置またはモデルトレーニング装置は、通常にサーバ105に設けられている。
【0021】
図1における端末装置、ネットワークおよびサーバの数は例示的なものに過ぎないことを理解すべきである。実現のニーズに応じて、端末装置、ネットワークおよびサーバの数を任意に加減してもよい。
【0022】
次に、本開示に係る陳列シーン認識方法の一実施形態のフローチャート200を示す
図2を参照する。当該陳列シーン認識方法は、次のステップを含む。
【0023】
ステップ201では、認識対象画像の特徴ベクトルを取得してベースライブラリ特徴ベクトルセットを取得する。
【0024】
本実施形態において、陳列シーン認識方法の実行主体(例えば、
図1に示すサーバ105)は、認識対象画像の特徴ベクトルを取得してベースライブラリ特徴ベクトルセットを取得することができる。このうち、認識対象画像は、陳列シーンを含む画像であり、陳列シーンは、商品カテゴリの文字を含む陳列設備であってもよく、陳列設備は、一般的な棚、縦型冷蔵庫ショーケース、横型冷蔵庫ショーケース、エンド棚、冷風ショーケース、ゴンドラ、一部切られた紙製箱型陳列用具、陳列棚、陳列吊下棚、ホットドリンクマシンまたはその他の設備であってもよく、商品カテゴリの文字は、コーラ、ビール等であってもよく、本開示はこれを限定しない。認識対象画像は、携帯電話、デジタルカメラ等の様々な撮像装置を用いて取得してもよいし、監視映像等の映像から切り出してもよく、本開示はこれを限定しない。認識対象画像に少なくとも1つの完全な陳列シーンが含まれていなければならず、かつ認識対象画像ははっきりと認識される必要がある。ベースライブラリは、予め保存された1つの画像ライブラリであり、この画像ライブラリには各種の陳列シーンの画像が含まれている。
【0025】
本実施形態では、特徴ベクトルは、画像に付属される一種のベクトルである。画像は異なる属性を有し、異なる属性は異なる属性値によって表される。複数の属性値の組み合わせは、ベクトルによって表すことができる。このベクトルは特徴ベクトル(feature
vector)と呼ばれる。特徴ベクトルセットは、複数の特徴ベクトルのセットである。本実施形態では、認識対象画像の特徴ベクトルおよびベースライブラリ特徴ベクトルセットはいずれも特徴抽出モデルによって取得され、認識対象画像を特徴抽出モデルに入力すると、認識対象画像の特徴ベクトルが得られ、ベースライブラリに既に記憶されている各種の陳列シーンのベースライブラリ画像をそれぞれ特徴抽出モデルに入力すると、各ベースライブラリ画像の特徴ベクトルが得られ、各ベースライブラリ画像の特徴ベクトルからなるセットがベースライブラリ特徴ベクトルセットとなる。
【0026】
ステップ202では、認識対象画像の特徴ベクトルと、ベースライブラリ特徴ベクトルセット内の各特徴ベクトルとの類似度係数に基づいて、ベースライブラリ特徴ベクトルセットから少なくとも2つの候補特徴ベクトルを確定する。
【0027】
本実施形態では、上記実行主体は、認識対象画像の特徴ベクトルと、ベースライブラリ特徴ベクトルセット内の各特徴ベクトルとの類似度係数に基づいて、ベースライブラリ特徴ベクトルセットから少なくとも2つの候補特徴ベクトルを確定することができる。ここで、類似度係数とは、認識対象画像とベースライブラリ内の各画像との類似度合いを表す係数であって、認識対象画像の特徴ベクトルとベースライブラリ特徴ベクトルセット内の各特徴ベクトルとを計算することにより得られ、0~1の数値範囲を有し、類似度係数が大きいほど類似度合いが高くなる。候補特徴ベクトルは、ベースライブラリ特徴ベクトルセットから選択された特徴ベクトルである。通常、類似度係数の大きい方から小さい方へと、ベースライブラリ特徴ベクトルセットから少なくとも2つの特徴ベクトルを候補特徴ベクトルとして選択する。
【0028】
ステップ203では、少なくとも2つの候補特徴ベクトルの類似度係数に対して閾値判断を行い、目標特徴ベクトルを得る。
【0029】
本実施形態では、上記実行主体は、少なくとも2つの候補特徴ベクトルを確定した後、少なくとも2つの候補特徴ベクトルの類似度係数に対して閾値判断を行って、目標特徴ベクトルを得ることができる。少なくとも2つの候補特徴ベクトルの類似度係数と閾値とを比較し、予め設定された判断規則に従って、少なくとも2つの候補特徴ベクトルの中から1
つの特徴ベクトルを目標特徴ベクトルとして選択する。なお、閾値は実験的に求められたものであり、数値範囲が0~1の間である。例えば、少なくとも2つの候補特徴ベクトルの類似度係数と予め設定された閾値とを比較し、類似度係数が閾値よりも大きい候補特徴ベクトルのうち、類似度係数が最も大きい特徴ベクトルを目標特徴ベクトルとする。
【0030】
ステップ204では、目標特徴ベクトルに対応する陳列シーンラベルに基づいて、認識対象画像の陳列シーンを確定する。
【0031】
本実施形態では、上記実行主体は、目標特徴ベクトルを得た後に、目標特徴ベクトルに対応する陳列シーンラベルに基づいて、認識対象画像の陳列シーンを確定することができる。ここで、目標特徴ベクトルに対応する陳列シーンラベルは、予め記憶されたものであり、直接読み出せば得られる。陳列シーンラベルは、商品カテゴリの文字を含む陳列設備のカテゴリを表し、商品カテゴリの文字を含む陳列設備は、ステップ201で詳細に説明されたので、ここではその説明を省略する。目標特徴ベクトルが類似度係数に基づいて選択されたので、目標特徴ベクトルに対応する画像が認識対象画像の類似画像であり、目標特徴ベクトルに対応する陳列シーンラベルに基づいて認識対象画像の陳列シーンを確定する。
【0032】
本開示の実施形態による陳列シーン認識方法は、まず、認識対象画像の特徴ベクトルを取得してベースライブラリ特徴ベクトルセットを取得し、次に認識対象画像の特徴ベクトルとベースライブラリ特徴ベクトルセット内の各特徴ベクトルとの類似度係数に基づいて、ベースライブラリ特徴ベクトルセットから少なくとも2つの候補特徴ベクトルを確定し、次に少なくとも2つの候補特徴ベクトルの類似度係数に対して閾値判断を行い、目標特徴ベクトルを得、最後に目標特徴ベクトルに対応する陳列シーンラベルに基づいて認識対象画像の陳列シーンを確定する。候補特徴ベクトルの類似度係数に対して閾値判断を行うことにより陳列シーンを認識することで、認識効率が向上された。
【0033】
さらに、本開示に係る陳列シーン認識方法のもう一つの実施形態のフロー300を示す
図3を参照する。当該陳列シーン認識方法は、次のステップを含む。
【0034】
ステップ301では、認識対象画像の特徴ベクトルを取得してベースライブラリ特徴ベクトルセットを取得する。
【0035】
ステップ302では、認識対象画像の特徴ベクトルと、ベースライブラリ特徴ベクトルセット内の各特徴ベクトルとの類似度係数に基づいて、ベースライブラリ特徴ベクトルセットから少なくとも2つの候補特徴ベクトルを確定する。
【0036】
本実施形態では、ステップ301~302の具体的な動作は、
図2に示す実施形態のステップ201~202の動作に詳しく説明したので、ここではその説明を省略する。
【0037】
本実施形態では、上記実行主体により確定された少なくとも2つの候補特徴ベクトルは、1つの主特徴ベクトルと少なくとも1つの副特徴ベクトルとを含む。ここで、類似度係数を比較することにより、少なくとも2つの候補特徴ベクトルを、1つの主特徴ベクトルと少なくとも1つの副特徴ベクトルとに分割する。
【0038】
本実施形態のいくつかのオプション的な実施形態では、主特徴ベクトルの類似度係数は、少なくとも1つの副特徴ベクトルのうちのいずれかの特徴ベクトルの類似度係数よりも大きい。少なくとも2つの候補特徴ベクトルの類似度係数を大から小への順にソートし、類似度係数が最も大きい候補特徴ベクトルを主特徴ベクトルとし、残りの候補特徴ベクトルを少なくとも1つの副特徴ベクトルとする。
【0039】
ステップ303では、主特徴ベクトルの類似度係数が第1の閾値よりも大きいことに応答して、主特徴ベクトルを目標特徴ベクトルとして確定する。
【0040】
本実施形態では、第1の閾値の取り得る範囲は、実験により求められる。テストコレクションとして、画像ごとに少なくとも1つの完全な陳列シーンを含むはっきりした陳列シーン画像を採集する。特徴抽出モデルに基づいてテストコレクションに対して実験を行い、クラスタリングの効果が最も高い値を第1の閾値とする。第1の閾値の取り得る範囲が0~1の間であり、例えば、第1の閾値が0.68である。なお、第1の閾値が固定値ではなく、その取り得る範囲が特徴抽出モデルの反復に応じて動的に変化する。
【0041】
本実施形態では、主特徴ベクトルの類似度係数が第1の閾値よりも大きい場合、主特徴ベクトルを目標特徴ベクトルとする。
【0042】
ステップ304では、主特徴ベクトルの類似度係数が第1の閾値以下であり、かつ少なくとも1つの副特徴ベクトルの類似度係数がいずれも第2の閾値よりも大きいことに応答して、少なくとも1つの副特徴ベクトルに基づいて目標特徴ベクトルを確定する。
【0043】
本実施形態では、第2の閾値の取り得る範囲は、実験により求められる。第1の閾値の取得プロセスと同様に、特徴抽出モデルによりテストコレクションに対して実験を行って第2の閾値を得る。第2の閾値の取り得る範囲は0~1であり、第1の閾値と第2の閾値はいずれも0より大きく1より小さい値であり、かつ第2の閾値は第1の閾値よりも小さく、例えば第1の閾値が0.68であり、第2の閾値が0.65である。第2の閾値は固定値ではなく、その取り得る範囲が特徴抽出モデルの反復に応じて動的に変化する。
【0044】
本実施形態では、主特徴ベクトルの類似度係数が第1の閾値以下であり、かつ、少なくとも1つの副特徴ベクトルの類似度係数がいずれも第2の閾値よりも大きい場合、少なくとも1つの副特徴ベクトルを択一的選択して目標特徴ベクトルとする。
【0045】
本実施形態のいくつかのオプション的な実施形態では、少なくとも1つの副特徴ベクトルを択一的選択して目標特徴ベクトルとすることは、少なくとも1つの副特徴ベクトルのうち類似度係数が最も大きい副特徴ベクトルを目標特徴ベクトルとしてもよいし、少なくとも1つの副特徴ベクトルのうちいずれか1つの副特徴ベクトルを目標特徴ベクトルとしてもよい。
【0046】
ステップ305では、目標特徴ベクトルに対応する陳列シーンラベルに基づいて、認識対象画像の陳列シーンを確定する。
【0047】
本実施形態では、ステップ305の具体的な動作は、
図2に示す実施形態204の動作に詳しく説明したので、ここではその説明を省略する。
【0048】
図3から分かるように、本実施形態における陳列シーン認識方法は、
図2に対応する実施形態と比較すると、主特徴ベクトルと少なくとも1つの副特徴ベクトルとの類似度係数を、第1の閾値および第2の閾値と比較することにより、目標特徴ベクトルを求めることにより、認識効率をさらに向上させることができる。
【0049】
さらに、本開示に係る陳列シーン認識方法のもう一つの実施形態のフロー400を示す
図4を参照する。当該陳列シーン認識方法は、次のステップを含む。
【0050】
ステップ401では、認識対象画像の特徴ベクトルを取得してベースライブラリ特徴ベク
トルセットを取得する。
【0051】
ステップ402では、認識対象画像の特徴ベクトルと、ベースライブラリ特徴ベクトルセット内の各特徴ベクトルとの類似度係数に基づいて、ベースライブラリ特徴ベクトルセットから3つの候補特徴ベクトルを確定する。
【0052】
本実施形態では、ステップ401~402の具体的な動作は、
図2に示す実施形態のステップ201~202の動作に詳しく説明したので、ここではその説明を省略する。
【0053】
なお、本実施形態では、ベースライブラリ特徴ベクトルセットから3つの候補特徴ベクトルが確定される。
【0054】
本実施形態では、候補特徴ベクトルの個数は実験により求められる。認識対象画像の特徴ベクトルとベースライブラリ特徴ベクトルセット内の各特徴ベクトルとの類似度係数を大から小への順にソートしたところ、4番目から類似度係数が急激に小さくなっていることが判明し、本実施形態では上位3つの候補特徴ベクトルを用いた。
【0055】
ステップ403では、主特徴ベクトルの類似度係数が第1の閾値よりも大きいことに応答して、主特徴ベクトルを目標特徴ベクトルとして確定する。
【0056】
本実施形態では、ステップ403の具体的な動作は、
図3に示す実施形態303の動作に詳しく説明したので、ここではその説明を省略する。
【0057】
なお、本実施形態のいくつかのオプション的な実施形態では、上記実行主体により確定された3つの候補特徴ベクトルは、1つの主特徴ベクトルと2つの副特徴ベクトルとを含む。主特徴ベクトルの類似度係数は、2つの副特徴ベクトルのうち、いずれか1つの特徴ベクトルの類似度係数よりも大きい。
【0058】
ステップ404では、主特徴ベクトルの類似度係数が第1の閾値以下であり、かつ、2つの副特徴ベクトルの類似度係数がいずれも第2の閾値よりも大きく、かつ、2つの副特徴ベクトルの対応する陳列シーンラベルが一致することに応答して、2つの副特徴ベクトルのいずれか一方を目標特徴ベクトルとして確定する。
【0059】
本実施形態では、上記実行主体が、主特徴ベクトルの類似度係数が第1の閾値以下であり、かつ、2つの副特徴ベクトルの類似度係数がいずれも第2の閾値よりも大きく、かつ、2つの副特徴ベクトルの対応する陳列シーンラベルが一致すると判断された場合に、2つの副特徴ベクトルのいずれか一方を目標特徴ベクトルとする。ここで、陳列シーンラベルは、商品カテゴリの文字を含む陳列設備のカテゴリを表すものであり、商品カテゴリの文字を含む陳列設備は、
図2に示す実施形態のステップ201で詳細に説明したので、ここではその説明を省略する。2つの副特徴ベクトルの対応する陳列シーンラベルが一致するので、いずれか一方の副特徴ベクトルを目標特徴ベクトルとしてもよい。
【0060】
ステップ405では、目標特徴ベクトルに対応する陳列シーンラベルに基づいて、認識対象画像の陳列シーンを確定する。
【0061】
本実施形態では、ステップ405の具体的な動作は、
図2に示す実施形態204の動作に詳しく説明したので、ここではその説明を省略する。
【0062】
図4から分かるように、
図3に対応する実施形態と比較すると、本実施形態における陳列シーン認識方法は、1つの主特徴ベクトルと2つの副特徴ベクトルを取り、主特徴ベクト
ルの類似度係数が第1の閾値以下であり、かつ、2つの副特徴ベクトルの類似度係数がいずれも第2の閾値よりも大きく、かつ、2つの副特徴ベクトルに対応する陳列シーンラベルが一致する場合、2つの副特徴ベクトルのいずれか一方を目標特徴ベクトルとして確定すると、陳列シーンラベルの平均認識精度を80%以上にすることができ、認識精度が著しく向上した。
【0063】
さらに、本開示に係る陳列シーン認識方法のもう一つの実施形態のフロー500を示す
図5を参照する。当該陳列シーン認識方法は、次のステップを含む。
【0064】
ステップ501では、認識対象画像の特徴ベクトルを取得してベースライブラリ特徴ベクトルセットを取得する。
【0065】
本実施形態では、ステップ501の具体的な動作は、
図2に示す実施形態201の動作に詳しく説明したので、ここではその説明を省略する。
【0066】
ステップ502では、認識対象画像の特徴ベクトルとベースライブラリ特徴ベクトルセット内の各特徴ベクトルとをそれぞれ行列乗算して、距離特徴ベクトルセットを得る。
【0067】
本実施形態では、上記実行主体は、認識対象画像の特徴ベクトルを取得してベースライブラリ特徴ベクトルセットを取得した後、ベースライブラリ特徴ベクトルセット内の特徴ベクトルごとに、認識対象画像の特徴ベクトルをそれぞれ行列乗算することができる。例えば、認識対象画像の特徴ベクトルは1*512次元の特徴ベクトルであり、ベースライブラリ特徴ベクトルセット内の特徴ベクトルのそれぞれは512*1次元の特徴ベクトルであり、ベースライブラリ特徴ベクトルセットはN個の特徴ベクトルを有し、Nは自然数である。1*512次元の認識対象画像の特徴ベクトルと、ベースライブラリ特徴ベクトルセット内の512*1次元の特徴ベクトルのそれぞれとを乗算して、N個の1*1次元の特徴ベクトルを得る。1*1次元の特徴ベクトルを距離特徴ベクトルと呼ぶ。距離特徴ベクトルは、2つの乗算した特徴ベクトルの距離を表し、距離特徴ベクトルの数値範囲が0~1の間である。N個の距離特徴ベクトルは距離特徴ベクトルセットを構成する。
【0068】
ステップ503では、距離特徴ベクトルセットに基づいて、ベースライブラリ特徴ベクトルセット内の各特徴ベクトルの類似度係数を計算する。
【0069】
本実施形態では、上記実行主体は、距離特徴ベクトルセットを得た後、ベースライブラリ特徴ベクトルセット内の各特徴ベクトルの類似度係数を算出することができる。ここで、ベースライブラリ特徴ベクトルセット内の各特徴ベクトルの類似度係数は、1から対応する距離特徴ベクトルを引いた値に等しい。距離特徴ベクトルの数値範囲が0~1であるので、類似度係数の数値範囲も0~1である。
【0070】
ステップ504では、類似度係数に基づいて、ベースライブラリ特徴ベクトルセットから少なくとも2つの候補特徴ベクトルを確定する。
【0071】
本実施形態では、上記実行主体が類似度係数を得た後、ベースライブラリ特徴ベクトルセット内の各特徴ベクトルの類似度係数を大から小へとソートし、類似度係数の大から小への順で、ベースライブラリ特徴ベクトルセットから少なくとも2つの特徴ベクトルを選択して、少なくとも2つの候補特徴ベクトルとする。
【0072】
ステップ505では、少なくとも2つの候補特徴ベクトルの類似度係数に対して閾値判断を行い、目標特徴ベクトルを得る。
【0073】
ステップ506では、目標特徴ベクトルに対応する陳列シーンラベルに基づいて、認識対象画像の陳列シーンを確定する。
【0074】
本実施形態では、ステップ505~506の具体的な動作は、
図2に示す実施形態のステップ203~204の動作に詳しく説明したので、ここではその説明を省略する。
【0075】
図5から分かるように、
図2に対応する実施形態と比較すると、本実施形態における陳列シーン認識方法は、まず、認識対象画像の特徴ベクトルを取得してベースライブラリ特徴ベクトルセットを取得し、次に、認識対象画像の特徴ベクトルとベースライブラリ特徴ベクトルセット内の各特徴ベクトルとをそれぞれ行列乗算して距離特徴ベクトルセットを取得し、距離特徴ベクトルセットに基づいて、ベースライブラリ特徴ベクトルセット内の各特徴ベクトルの類似度係数を算出し、類似度係数に基づいて、ベースライブラリ特徴ベクトルセットから少なくとも2つの候補特徴ベクトルを確定し、最後に、少なくとも2つの候補特徴ベクトルの類似度係数に対して閾値判断を行い、目標特徴ベクトルを得、目標特徴ベクトルに対応する陳列シーンラベルに基づいて認識対象画像の陳列シーンを確定する。距離特徴ベクトルセットを導入して類似度係数を計算する方法は簡単で迅速であり、認識効率をさらに向上させることができる。
【0076】
さらに、本開示に係る陳列シーン認識方法のもう一つの実施形態のフロー600を示す
図6を参照する。当該陳列シーン認識方法は、次のステップを含む。
【0077】
ステップ601では、予めトレーニングされた位置確認モデルにより認識対象画像に対して目標領域を抽出して処理すべき目標領域画像を得る。
【0078】
本実施形態では、上記実行主体は、予めトレーニングされた位置確認モデルにより、認識対象画像に対して目標領域を抽出して、処理すべき目標領域画像を得る。ここで、予めトレーニングされた位置確認モデルとは、画像中のオブジェクトの座標情報を確認できるモデルであり、例えばYOLOv3モデルである。YOLOv3は、YOLO(You Only Look Once)シリーズのオブジェクト検出アルゴリズムの第3版であり、従来のアルゴリズムよりも特に小さいオブジェクトに対して精度が著しく向上している。予め取得した画像サンプルセットと画像サンプルセット内の画像ごとのオブジェクトの座標情報とをトレーニングサンプルとしてYOLOv3モデルをトレーニングし、YOLOv3モデルが収束した後、YOLOv3モデルに1枚の画像を入力し、YOLOv3モデルはその画像中のオブジェクトの座標情報を確認することができる。認識対象画像を予めトレーニングされた位置確認モデルに入力することにより、認識対象画像中の例えば陳列シーンであるオブジェクトの座標情報を得ることができる。認識対象画像から、オブジェクトの座標情報に基づいて、認識対象画像におけるオブジェクトの座標範囲内の領域である目標領域を抽出して、処理すべき目標領域画像を得る。認識対象画像から目標領域内の画像を切り出して、処理すべき目標領域画像を得る。
【0079】
ステップ602では、処理すべき目標領域画像を予めトレーニングされた特徴抽出モデルに入力して、認識対象画像の特徴ベクトルを得る。
【0080】
本実施形態では、上記実行主体は、処理すべき目標領域画像を得た後、処理すべき目標領域画像を予めトレーニングされた特徴抽出モデルに入力して、認識対象画像の特徴ベクトルを得る。ここで、予めトレーニングされた特徴抽出モデルとは、画像の特徴ベクトルを抽出できるモデルであり、例えばDeiT(Data-efficientimage Transformers)モデルである。Transformerは、自己注意機構に基づく深層ニューラルネットワークであり、トレーニングと蒸留過程を改善することでTransformerを画像分類に適用して、DeiTモデルを得る。1枚の画像をDe
iTモデルに入力すれば、DeiTモデルにより当該画像の特徴ベクトルを抽出することができる。処理すべき目標領域画像を予めトレーニングされた特徴抽出モデルに入力して、処理すべき目標領域画像の特徴ベクトルを得ることができ、処理すべき目標領域画像の特徴ベクトルを正規化処理して、認識対象画像の特徴ベクトルを得る。
【0081】
ステップ603では、ベースライブラリ特徴ベクトルセットを取得する。
【0082】
ステップ604では、認識対象画像の特徴ベクトルと、ベースライブラリ特徴ベクトルセット内の各特徴ベクトルとの類似度係数に基づいて、ベースライブラリ特徴ベクトルセットから少なくとも2つの候補特徴ベクトルを確定する。
【0083】
ステップ605では、少なくとも2つの候補特徴ベクトルの類似度係数に対して閾値判断を行い、目標特徴ベクトルを得る。
【0084】
ステップ606では、目標特徴ベクトルに対応する陳列シーンラベルに基づいて、認識対象画像の陳列シーンを確定する。
【0085】
本実施形態では、ステップ603~606の具体的な動作は、
図2に示す実施形態のステップ201~204の動作に詳しく説明したので、ここではその説明を省略する。
【0086】
図6から明らかなように、本実施形態における陳列シーン認識方法は、
図2に対応する実施形態と比較すると、予めトレーニングされた位置確認モデルおよび予めトレーニングされた特徴抽出モデルにより認識対象画像の特徴ベクトルを取得することにより、モデルが大量の画像学習を必要とせず、計算量を効果的に削減し、認識効率を向上させることができる。
【0087】
さらに、本開示に係るモデルトレーニング方法の一実施形態のフロー700を示す
図7を参照する。当該モデルトレーニング方法は、次のステップを含む。
【0088】
ステップ701では、陳列シーンの画像サンプルセットを採集する。
【0089】
本実施形態におけるモデルを
図2~
図6の陳列シーン認識方法に適用することができる。上記実行主体は、陳列シーンの画像サンプルセットを採集することができ、ここで、採集は、携帯電話カメラ、デジタルカメラ等の各種撮影装置を用いて採集してもよいし、監視映像等の映像から切り出してもよく、本開示はこれを限定しない。陳列シーンを含む画像のそれぞれは1つの画像サンプルであり、複数の画像サンプルは画像サンプルセットを構成する。
【0090】
ステップ702では、画像サンプルセット内の各画像サンプルに目標領域の抽出を行い、目標領域サンプルセットを得る。
【0091】
本実施形態では、上記実行主体は、画像サンプルセットを取得した後、画像サンプルセット内の各画像サンプルに目標領域の抽出を行い、目標領域サンプルセットを得る。ここで、目標領域の抽出は、各画像サンプル中の目標位置を手動で認識し、目標位置に応じて画像サンプルを切り出して目標領域サンプルを得、目標領域サンプルの全てが目標領域サンプルセットを構成する。各目標領域サンプルは、オブジェクト自体のみを含み、バックグラウンドを含まないので、バックグラウンドの干渉を排除することができる。
【0092】
ステップ703では、目標領域サンプルセットをトレーニングサンプルとして第1の初期モデルをトレーニングして特徴抽出モデルを得る。
【0093】
本実施形態では、上記実行主体は、目標領域サンプルセットを得た後、目標領域サンプルセットをトレーニングサンプルとし、第1の初期モデルをトレーニングして特徴抽出モデルを得ることができる。ここで、第1の初期モデルとは、画像の特徴ベクトルを抽出できるモデルであり、例えばDeiTモデルである。第1の初期モデルはSelf-Attention機構を用いることで、並列化トレーニングを実現可能であり、グローバルな情報を持つことができる。同時に、第1の初期モデルには蒸留プログラムが導入されたので、第1の初期モデルが使用する、メモリ空間や計算ユニット等の計算リソースが削減された。目標領域サンプルセットをトレーニングサンプルとして第1の初期モデルをトレーニングして特徴抽出モデルを得る。ここで、特徴抽出モデルに1枚の画像が入力されると、特徴抽出モデルは画像の特徴ベクトルを正確に抽出することができる。
【0094】
図7から明らかなように、本実施形態におけるモデルトレーニング方法は、並列化トレーニングを実現できる特徴抽出モデルを得ることができ、蒸留プログラムの導入により、トレーニングには大量のデータを必要とせず、大量の画像をラベリングする必要がなく、ラベリングコストを効果的に低減し、認識効率を向上させることができる。
【0095】
さらに、本開示に係るモデルトレーニング方法のもう一つの実施形態のフロー800を示す
図8を参照する。当該モデルトレーニング方法は、次のステップを含む。
【0096】
ステップ801では、各画像サンプルに目標領域のラベリングを行い、各画像サンプルに対応する目標領域座標情報を得る。
【0097】
本実施形態では、上記実行主体は、各画像サンプルに対して目標領域のラベリングを行い、各画像サンプルに対応する目標領域座標情報を得ることができる。ここで、画像サンプルの具体的な動作は、
図7に示す実施形態のステップ701に詳しく説明したので、ここではその説明を省略する。
【0098】
本実施形態では、目標領域のラベリングは、各画像サンプル中の目標位置を手動で認識し、目標位置に基づいて画像サンプル中のオブジェクトの座標情報を確定し、各画像サンプルに対応する目標領域座標情報を得る。ここで、座標情報に対応する座標系は、画像の左下隅を原点とし、右への水平方向をX軸とし、上への垂直方向をY軸とする座標系であってもよい。
【0099】
ステップ802では、画像サンプルセットおよび対応する目標領域座標情報をトレーニングサンプルとし、第2の初期モデルをトレーニングして位置確認モデルを得る。
【0100】
本実施形態では、上記実行主体は、画像サンプルセットおよび対応する目標領域座標情報をトレーニングサンプルとし、第2の初期モデルをトレーニングして位置確認モデルを得ることができる。ここで、第2の初期モデルは、1枚の画像の目標位置を抽出できるモデルであり、例えばYOLOv3モデルであってもよい。本開示はこれを限定しない。画像サンプルセットおよび対応する目標領域座標情報をトレーニングサンプルとし、第2の初期モデルをトレーニングして位置確認モデルを得る。ここで、位置確認モデルに1枚の画像が入力されると、位置確認モデルは、画像の目標位置を正確に抽出することができる。
【0101】
図8から分かるように、本実施形態におけるモデルトレーニング方法は、位置確認モデルを得ることができ、位置確認モデルにより1枚の画像の目標位置を正確に抽出することができ、認識精度が向上する。
【0102】
さらに、本開示に係るモデルトレーニング方法のもう一つの実施形態のフロー900を示
す
図9を参照する。当該モデルトレーニング方法は、次のステップを含む。
【0103】
ステップ901では、第1の初期モデルのトレーニング過程において、目標領域サンプルセット内の各目標領域サンプルの特徴ベクトルを取得してベースライブラリ特徴ベクトルセットとする。
【0104】
本実施形態では、上記実行主体は、目標領域サンプルセットをトレーニングサンプルとして第1の初期モデルをトレーニングし、第1の初期モデルが収束した後に、得られた特徴抽出モデルにより、目標領域サンプルの特徴ベクトルを正確に抽出することができる。特徴抽出モデルに目標領域サンプルセットを入力して、目標領域サンプルセット内の各目標領域サンプルの特徴ベクトルを得、全ての目標領域サンプルの特徴ベクトルがベースライブラリ特徴ベクトルセットを構成する。
【0105】
ステップ902では、各目標領域サンプルに陳列シーンラベリングを行い、各目標領域サンプルに対応する陳列シーンラベルを得る。
【0106】
本実施形態では、上記実行主体は、各目標領域サンプルに陳列シーンラベリングを行うことができ、陳列シーンは、商品カテゴリの文字を含む陳列設備を表すものであり、商品カテゴリの文字を含む陳列設備は、
図2に示す実施形態のステップ201で詳細に説明したので、ここではその説明を省略する。陳列シーンラベリングとは、各目標領域サンプルの陳列シーンの種別を手動で判断し、各目標領域サンプルに対応する陳列シーン種別を、各目標領域サンプルに対応する陳列シーンラベルとすることである。
【0107】
ステップ903では、ベースライブラリ特徴ベクトルセットおよび対応する陳列シーンラベルを保存する。
【0108】
本実施形態では、上記実行主体は、ベースライブラリ特徴ベクトルセットおよび対応する陳列シーンラベルを取得した後、ベースライブラリ特徴ベクトルセットおよび対応する陳列シーンラベルを保存し、新たな画像認識要求があった場合に、保存したベースライブラリ特徴ベクトルセットおよび対応する陳列シーンラベルをそのまま使用することができ、再度取得する必要がない。
【0109】
保存方式は、データベース記憶などの方式を採用することができるが、本開示はこれを限定しない。
【0110】
図9から分かるように、本実施形態におけるモデルトレーニング方法は、ベースライブラリ特徴ベクトルセットとそれに対応する陳列シーンラベルを取得して保存することができ、新たな画像認識要求があった場合に再利用することができ、認識効率がさらに向上した。
【0111】
さらに
図10を参照すると、上記の陳列シーン認識方法の実施態様として、本開示は、陳列シーン認識装置の一実施形態を提供し、当該装置の実施形態は、
図2に示された方法の実施形態に対応しており、当該装置は、具体的に様々な電子機器に適用することができる。
【0112】
図10に示すように、本実施形態の陳列シーン認識装置1000は、取得モジュール1001と、確定モジュール1002と、判断モジュール1003と、認識モジュール1004とを備えてもよい。ここで、取得モジュール1001は、認識対象画像の特徴ベクトルを取得してベースライブラリ特徴ベクトルセットを取得するように構成される。確定モジュール1002は、認識対象画像の特徴ベクトルとベースライブラリ特徴ベクトルセット
内の各特徴ベクトルとの類似度係数に基づいて、ベースライブラリ特徴ベクトルセットから少なくとも2つの候補特徴ベクトルを確定するように構成される。判断モジュール1003は、少なくとも2つの候補特徴ベクトルの類似度係数に対して閾値判断を行い、目標特徴ベクトルを得るように構成される。認識モジュール1004は、目標特徴ベクトルに対応する陳列シーンラベルに基づいて認識対象画像の陳列シーンを確定するように構成される。
【0113】
本実施形態では、陳列シーン認識装置1000における取得モジュール1001、確定モジュール1002、判断モジュール1003および認識モジュール1004の具体的な処理およびそれらによって奏される技術的効果は、それぞれ
図2の対応する実施形態におけるステップ201~204の関連する説明を参照することができ、ここでその説明を省略する。
【0114】
本実施形態のいくつかのオプション的な実施形態では、少なくとも2つの候補特徴ベクトルは、1つの主特徴ベクトルと少なくとも1つの副特徴ベクトルとを含み、判断モジュール1003は、主特徴ベクトルの類似度係数が第1の閾値よりも大きいことに応答して、主特徴ベクトルを目標特徴ベクトルとするように構成される第1の判断サブモジュールと、主特徴ベクトルの類似度係数が第1の閾値以下であり、かつ、少なくとも1つの副特徴ベクトルの類似度係数がいずれも第2の閾値よりも大きいことに応答して、少なくとも1つの副特徴ベクトルに基づいて目標特徴ベクトルを確定するように構成される第2の判断サブモジュールと、を備え、第1の閾値および第2の閾値はいずれも0よりも大きく1よりも小さい値であり、かつ第2の閾値は第1の閾値よりも小さい。
【0115】
本実施形態のいくつかのオプション的な実施形態では、少なくとも2つの候補特徴ベクトルは、1つの主特徴ベクトルと2つの副特徴ベクトルとを含み、第2の判断サブモジュールは、2つの副特徴ベクトルに対応する陳列シーンラベルが一致することに応答して、2つの副特徴ベクトルのいずれか一方を目標特徴ベクトルとするように構成されるラベル判断ユニットを備える。
【0116】
本実施形態のいくつかのオプション的な実施形態では、確定モジュール1002は、認識対象画像の特徴ベクトルとベースライブラリ特徴ベクトルセット内の各特徴ベクトルとをそれぞれ行列乗算して距離特徴ベクトルセットを得るように構成される行列乗算サブモジュールと、距離特徴ベクトルセットに基づいて、ベースライブラリ特徴ベクトルセット内の各特徴ベクトルの類似度係数を計算するように構成される類似度係数計算サブモジュールと、類似度係数に基づいて、ベースライブラリ特徴ベクトルセットから少なくとも2つの候補特徴ベクトルを確定するように構成される候補確認サブモジュールと、を備える。
【0117】
本実施形態のいくつかのオプション的な実施形態では、主特徴ベクトルの類似度係数は、少なくとも1つの副特徴ベクトルのうちのいずれかの特徴ベクトルの類似度係数よりも大きい。
【0118】
本実施形態のいくつかのオプション的な実施形態では、取得モジュール1001は、予めトレーニングされた位置確認モデルにより認識対象画像に対して目標領域を抽出して処理すべき目標領域画像を得るように構成される目標領域画像抽出サブモジュールと、処理すべき目標領域画像を予めトレーニングされた特徴抽出モデルに入力して、認識対象画像の特徴ベクトルを得るように構成される目標領域画像処理サブモジュールと、を備える。
【0119】
さらに
図11を参照すると、上記のモデルトレーニング方法の実施態様として、本開示はモデルトレーニング装置の一実施形態を提供し、当該装置の実施形態は、
図7に示された方法の実施形態に対応しており、当該装置は、具体的に様々な電子機器に適用することが
できる。
【0120】
図11に示すように、本実施形態のモデルトレーニング装置1100は、採集モジュール1101と、抽出モジュール1102と、第1のトレーニングモジュール1103とを備えてもよい。ここで、採集モジュール1101は、陳列シーンの画像サンプルセットを採集するように構成される。抽出モジュール1102は、画像サンプルセット内の各画像サンプルに目標領域を抽出して、目標領域サンプルセットを得るように構成される。第1のトレーニングモジュール1103は、目標領域サンプルセットをトレーニングサンプルとし、第1の初期モデルをトレーニングして特徴抽出モデルを得るように構成される。
【0121】
本実施形態において、モデルトレーニング装置1100における採集モジュール1101、抽出モジュール1102および第1のトレーニングモジュール1103の具体的な処理およびそれらによって奏される技術的効果は、それぞれ
図7の対応する実施形態におけるステップ701~703の関連する説明を参照することができ、ここでその説明を省略する。
【0122】
本開示の実施形態によれば、本開示はさらに電子機器、コンピュータ可読記憶媒体およびコンピュータプログラムを提供する。
【0123】
図12は、本開示の実施形態を実施するために使用できる例示的な電子機器1200の概略ブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレード型サーバ、メインフレームコンピュータおよびその他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表す。また、電子機器は、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル機器およびその他の類似する計算装置等の様々な形態のモバイルデバイスを表すことができる。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも例示であり、ここで記述および/または要求した本開示の実施形態を限定することを意図するものではない。
【0124】
図12に示すように、電子機器1200は、読み出し専用メモリ(ROM)1202に記憶されているコンピュータプログラム又は記憶ユニット1208からランダムアクセスメモリ(RAM)1203にロードされたコンピュータプログラムによって様々な適当な動作および処理を実行することができる計算ユニット1201を備える。RAM1203には、機器1200の動作に必要な様々なプログラムおよびデータがさらに格納されることが可能である。計算ユニット1201、ROM1202およびRAM1203は、バス1204を介して互いに接続されている。入/出力(I/O)インタフェース1205もバス1204に接続されている。
【0125】
電子機器1200において、キーボード、マウスなどの入力ユニット1206と、様々なタイプのディスプレイ、スピーカなどの出力ユニット1207と、磁気ディスク、光ディスクなどの記憶ユニット1208と、ネットワークカード、モデム、無線通信送受信機などの通信ユニット1209とを備える複数のコンポーネントは、I/Oインタフェース1205に接続されている。通信ユニット1209は、機器1200がインターネットなどのコンピュータネットワークおよび/または様々な電気通信ネットワークを介して他の装置と情報またはデータのやりとりを可能にする。
【0126】
計算ユニット1201は、処理および計算機能を有する様々な汎用および/または専用処理コンポーネントであってもよい。計算ユニット1201のいくつかの例示としては、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタ
ル信号プロセッサ(DSP)、および任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット1201は、上述した陳列シーン認識方法またはモデルトレーニング方法のような様々な方法および処理を実行する。例えば、いくつかの実施形態では、陳列シーン認識方法またはモデルトレーニング方法は、記憶ユニット1208などの機械可読媒体に有形に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施形態では、コンピュータプログラムの一部または全部は、ROM1202および/または通信ユニット1209を介して機器1200にロードおよび/またはインストールされてもよい。コンピュータプログラムがRAM1203にロードされ、計算ユニット1201によって実行されると、上述の陳列シーン認識方法またはモデルトレーニング方法の1つまたは複数のステップを実行可能である。あるいは、他の実施形態では、計算ユニット1201は、他の任意の適切な形態によって(例えば、ファームウェアを介して)陳列シーン認識方法またはモデルトレーニング方法を実行するように構成されていてもよい。
【0127】
ここで説明するシステムおよび技術の様々な実施形態はデジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/又はそれらの組み合わせにおいて実現することができる。これらの各実施形態は、1つまたは複数のコンピュータプログラムに実装され、当該1つまたは複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行および/または解釈することができ、当該プログラマブルプロセッサは専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置および少なくとも1つの出力装置からデータおよび指令を受信することができ、且つデータおよび指令を当該記憶システム、当該少なくとも1つの入力装置および当該少なくとも1つの出力装置に伝送することを含み得る。
【0128】
本開示の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語のあらゆる組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラミング可能なデータ処理装置のプロセッサまたはコントローラに提供されることができ、これらのプログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび/またはブロック図に規定された機能または動作が実施される。プログラムコードは、完全にデバイス上で実行されることも、部分的にデバイス上で実行されることも、スタンドアロンソフトウェアパッケージとして部分的にデバイス上で実行されながら部分的にリモートデバイス上で実行されることも、または完全にリモートデバイスもしくはサーバ上で実行されることも可能である。
【0129】
本開示のコンテキストでは、機械可読媒体は、有形の媒体であってもよく、指令実行システム、装置または機器が使用するため、または指令実行システム、装置または機器と組み合わせて使用するためのプログラムを含むか、または格納することができる。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であり得る。機械可読媒体は、電子的、磁気的、光学的、電磁的、赤外線の、または半導体のシステム、装置または機器、またはこれらのあらゆる適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例には、1本または複数本のケーブルに基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、コンパクトディスク読み取り専用メモリ(CD?ROM)、光学記憶装置、磁気記憶装置、またはこれらのあらゆる適切な組み合わせが
含まれ得る。
【0130】
ユーザとのインタラクションを提供するために、ここで説明するシステムと技術は、ユーザに情報を表示するための表示装置(例えば、陰極線管(CathodeRayTube,CRT)またはLCD(液晶ディスプレイ)モニタ)と、キーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを備えるコンピュータ上で実装することができ、ユーザが該キーボードおよび該ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置は、さらにユーザとのインタラクションを提供することに用いることができる。例えば、ユーザに提供されるフィードバックは(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであるいかなる形態のセンシングフィードバックであってもよく)、且つ音入力、音声入力または、触覚入力を含むいかなる形態でユーザからの入力を受信してもよい。
【0131】
ここで説明したシステムおよび技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバ)に実施されてもよく、またはミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)に実施されてもよく、またはフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータ)に実施されてもよく、ユーザは該グラフィカルユーザインターフェースまたはウェブブラウザを介してここで説明したシステムおよび技術の実施形態とインタラクションしてもよく、またはこのようなバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムに実施されてもよい。また、システムの各コンポーネントの間は、通信ネットワーク等、任意の形態または媒体のデジタルデータ通信により接続されていてもよい。通信ネットワークの例示としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)およびインターネットを含む。
【0132】
コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してやりとりを行う。クライアントとサーバとの関係は、互いにクライアント-サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。サーバは、分散システムのサーバ、あるいはブロックチェーンを結合したサーバであってもよい。サーバは、クラウドサーバであってもよいし、人工知能技術を有するスマートクラウドコンピューティングサーバまたはスマートクラウドホストであってもよい。サーバは、分散システムのサーバ、あるいはブロックチェーンを結合したサーバであってもよい。サーバは、クラウドサーバであってもよいし、人工知能技術を有するスマートクラウドコンピューティングサーバまたはスマートクラウドホストであってもよい。
【0133】
なお、上述した様々な形態のフローを用いて、ステップを並び替え、追加または削除を行うことができることを理解すべきである。例えば、本開示に記載された各ステップは、本開示に開示された技術的解決方案の所望の結果が達成できる限り、並行して実行されてもよく、順番に実行されてもよく、異なる順番で実行されてもよい。本明細書はここで制限しない。
【0134】
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件および他の要因に応答して、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを理解すべきである。本開示の趣旨および原理を逸脱せずに行われたあらゆる修正、均等な置換および改善などは、いずれも本開示の保護範囲内に含まれるべきである。