IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

<>
  • 特開-商品認識装置、方法及びプログラム 図1
  • 特開-商品認識装置、方法及びプログラム 図2
  • 特開-商品認識装置、方法及びプログラム 図3
  • 特開-商品認識装置、方法及びプログラム 図4
  • 特開-商品認識装置、方法及びプログラム 図5
  • 特開-商品認識装置、方法及びプログラム 図6
  • 特開-商品認識装置、方法及びプログラム 図7
  • 特開-商品認識装置、方法及びプログラム 図8
  • 特開-商品認識装置、方法及びプログラム 図9
  • 特開-商品認識装置、方法及びプログラム 図10
  • 特開-商品認識装置、方法及びプログラム 図11
  • 特開-商品認識装置、方法及びプログラム 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023159527
(43)【公開日】2023-11-01
(54)【発明の名称】商品認識装置、方法及びプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20231025BHJP
   G06V 10/24 20220101ALI20231025BHJP
   G06V 10/44 20220101ALI20231025BHJP
   G06T 3/00 20060101ALI20231025BHJP
【FI】
G06T7/00 300F
G06V10/24
G06V10/44
G06T3/00 770
【審査請求】未請求
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2022069242
(22)【出願日】2022-04-20
(71)【出願人】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100092772
【弁理士】
【氏名又は名称】阪本 清孝
(74)【代理人】
【識別番号】100119688
【弁理士】
【氏名又は名称】田邉 壽二
(72)【発明者】
【氏名】岸本 広輝
(72)【発明者】
【氏名】小森田 賢史
【テーマコード(参考)】
5B057
5L096
【Fターム(参考)】
5B057CC01
5B057CD11
5B057DA11
5L096DA02
5L096EA14
5L096EA16
5L096EA39
5L096FA33
5L096FA67
5L096FA69
5L096GA34
5L096GA51
5L096HA08
5L096JA03
5L096JA11
(57)【要約】
【課題】商品画像が商品を正面から撮影していなくても、各商品を商品画像に基づいて事前学習無しに短時間で精度良く認識できるようにする。
【解決手段】商品画像抽出部20は商品群を撮影した画像から商品画像を抽出する。商品画像補正部30は正面以外から撮影された商品画像を正面から撮影した商品画像に補正する。回転画像生成部40は商品画像を所定の角度ずつ回転させて角度毎に回転画像を生成する。特徴量抽出部50は商品画像毎に各回転画像及び照合用画像の特徴量マップを計算する。商品認識部60は各回転画像及び照合用画像の特徴量マップに基づいて商品を認識する。認識結果評価部70は回転画像のいずれかとの確度が最も高い照合用画像の商品を認識結果として出力する。認識結果補正部80は確度が低い認識結果の商品画像と隣接商品の商品画像との類似度が所定の閾値以上であると当該隣接する商品の認識結果で認識結果を代表する。
【選択図】図1
【特許請求の範囲】
【請求項1】
所定の姿勢で陳列された商品を認識する商品認識装置において、
陳列された商品群を撮影する手段と、
商品群を撮影した画像から各商品の位置を検出して商品画像を抽出する手段と、
商品の正面以外から撮影された商品画像を正面から撮影した商品画像に補正する手段と、
補正後の商品画像を所定の角度ずつ回転させて角度毎に回転画像を生成する手段と、
商品画像毎に各回転画像及び照合用画像の特徴量マップを計算する手段と、
前記各回転画像及び照合用画像の特徴量マップに基づいて商品を認識する手段とを具備したことを特徴とする商品認識装置。
【請求項2】
前記認識結果の尤もらしさを表す確度を算出する手段を具備し、回転画像のいずれかとの確度が最も高い照合用画像の商品を認識結果として出力することを特徴とする請求項1に記載の商品認識装置。
【請求項3】
前記確度が閾値未満の認識結果に対応する商品画像と当該商品画像の商品に隣接する商品の商品画像との類似度を計算する手段を具備し、
前記類似度が所定の閾値以上であると当該隣接する商品の認識結果で前記商品の認識結果を代表することを特徴とする請求項2に記載の商品認識装置。
【請求項4】
前記補正する手段が、商品を正面の上方向又は下方向から撮影した商品画像を正面から撮影した画像に補正する上下方向補正手段を含むことを特徴とする請求項1ないし3のいずれかに記載の商品認識装置。
【請求項5】
前記補正する手段が、商品を正面の左方向又は右方向から撮影した商品画像を正面から撮影した画像に補正する左右方向補正手段を含むことを特徴とする請求項1ないし3のいずれかに記載の商品認識装置。
【請求項6】
前記商品画像を抽出する手段は、商品群を撮影した画像を対象に各商品のバウンディングボックスを計算し、相互に重複するバウンディングボックスの一方を取り除くことを特徴とする請求項1または2に記載の商品認識装置。
【請求項7】
前記認識する手段は、各回転画像および照合用画像の特徴量マップの画素間の類似度に対して空間的な距離に応じた重み付けを行うことを特徴とする請求項1ないし3のいずれかに記載の商品認識装置。
【請求項8】
前記認識する手段は、各回転画像および照合用画像の特徴量マップの各画素に対して重み付けを行うことを特徴とする請求項1ないし3のいずれかに記載の商品認識装置。
【請求項9】
前記認識する手段は、特徴量マップにおいてマッチングする各画素ペア間の距離の分散が所定の閾値以下なるように距離の大きい画素ペアを排除することを特徴とする請求項1ないし3のいずれかに記載の商品認識装置。
【請求項10】
所定の姿勢で陳列された商品をコンピュータが認識する商品認識方法において、
陳列された商品群を撮影し、
商品群を撮影した画像から各商品の位置を検出して商品画像を抽出し、
商品の正面以外から撮影された商品画像を正面から撮影した商品画像に補正し、
補正後の商品画像を所定の角度ずつ回転させて角度毎に回転画像を生成し、
商品画像毎に各回転画像及び照合用画像の特徴量マップを計算し、
前記各回転画像及び照合用画像の特徴量マップに基づいて商品を認識することを特徴とする商品認識方法。
【請求項11】
前記認識結果の尤もらしさを表す確度を算出し、回転画像のいずれかとの確度が最も高い照合用画像の商品を認識結果として出力することを特徴とする請求項10に記載の商品認識方法。
【請求項12】
前記確度が閾値未満の認識結果に対応する商品画像と当該商品画像の商品に隣接する商品の商品画像との類似度を計算し、
前記類似度が所定の閾値以上であると当該隣接する商品の認識結果で前記商品の認識結果を代表することを特徴とする請求項11に記載の商品認識方法。
【請求項13】
所定の姿勢で陳列された商品を認識する商品認識プログラムにおいて、
陳列された商品群を撮影する手順と、
商品群を撮影した画像から各商品の位置を検出して商品画像を抽出する手順と、
商品の正面以外から撮影された商品画像を正面から撮影した商品画像に補正する手順と、
補正後の商品画像を所定の角度ずつ回転させて角度毎に回転画像を生成する手順と、
商品画像毎に各回転画像及び照合用画像の特徴量マップを計算する手順と、
前記各回転画像及び照合用画像の特徴量マップに基づいて商品を認識する手順と、をコンピュータに実行させることを特徴とする商品認識プログラム。
【請求項14】
前記認識結果の尤もらしさを表す確度を算出する手順を含み、回転画像のいずれかとの確度が最も高い照合用画像の商品を認識結果として出力することを特徴とする請求項13に記載の商品認識プログラム。
【請求項15】
前記確度が閾値未満の認識結果に対応する商品画像と当該商品画像の商品に隣接する商品の商品画像との類似度を計算する手順を含み、
前記類似度が所定の閾値以上であると当該隣接する商品の認識結果で前記商品の認識結果を代表することを特徴とする請求項14に記載の商品認識プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、商品認識装置、方法及びプログラムに係り、特に、商品棚に所定の姿勢で陳列された商品の自動認識に好適な商品認識装置、方法及びプログラムに関する。
【背景技術】
【0002】
店舗や倉庫などの様々な場所において、商品棚に陳列された商品を認識して売り上げ調査や在庫管理を自動化する取り組みが行われている。これらの自動化を実現するためには商品の位置や種類を把握することが必要不可欠である。現在ではロボットや人間がRGBカメラ、深度センサなどの各種センサから得られる商品の画像情報や距離情報に対して、畳み込みニューラルネットワークなどの深層学習技術を適用することで、商品の位置検出や認識を高い精度で行うことが可能となっている。
【0003】
非特許文献1には、畳み込みニューラルネットを用いて物体の検出を同時に行い、複数の商品を含む画像データから高い精度で物体の位置検出を行う技術が開示されている。
【0004】
特許文献1には、商品画像からSIFTなどの周知の画像特徴量を抽出して商品画像と照合用画像との類似度を計算し、商品の認識を行う技術が開示されている。特許文献1では、撮像部に搭載されている深度センサを用いることで商品が近い、または遠いといった警告文を表示することが可能であり、商品画像の大きさを一定に調節することができる。
【0005】
特許文献2には、撮像部で撮影された商品画像と照合用画像との画像特徴量の類似度を計算することで商品の認識を行う技術が開示されている。特許文献2では、深度センサにより商品との距離を計測して3Dモデルを生成し、手動で正面方向に補正を行なった商品画像に対して類似度を計算することで、照合用画像と商品画像とが異なる方向を向いている場合でも商品の認識を行うことを可能にしている。
【0006】
特許文献3には、撮像部で撮影された顔画像と事前に登録している顔画像との特徴量を比較することによって顔認証を行う技術が開示されている。特許文献3では、SIFTなどの周知の画像特徴量ではなく畳み込みニューラルネットを用いることで、高い精度で顔認証を行うことができる。
【0007】
特許文献3では更に、顔認証精度を向上させるために学習データを追加し、再学習することができる。その際に、再学習前に予め学習した更新しないモデルパラメータと、追加学習によって更新を行う差分パラメータの二つのパラメータを用いることで、過去に学習した情報の忘却を防ぐことが可能になる。特許文献3は顔認証を対象としているが、認識対象を顔画像から商品画像に変更することで商品認識を行うことも可能である。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特許第5747014号公報
【特許文献2】特許第6887167号公報
【特許文献3】特許第6661398号公報
【非特許文献】
【0009】
【非特許文献1】「Wangら, "You Only Learn One Representation: Unified Network for Multiple Tasks", arxiv, 2021」
【非特許文献2】「Linら,"Feature Pyramid Networks for Object Detection", CVPR, 2017」
【発明の概要】
【発明が解決しようとする課題】
【0010】
特許公報1では、画像の類似度を測定する際にSIFTなどの周知の特徴量を使用しているが、商品画像と照合用画像とが同じ方向を向いていない場合、対応する部分の特徴量が変化してしまうために商品の認識精度が低下してしまうという問題がある。
【0011】
特許公報2では、商品画像と照合用画像とが同じ方向を向くように補正することで商品の認識精度の低下を防いでいるが、商品画像と照合用画像とが同じ向きとなるように手動で補正を行なっているため、商品数が多い場合や商品棚の商品が頻繁に変更される場合に問題となる。
【0012】
特許公報3では、畳み込みニューラルネットを用いて特徴量を抽出しているため、学習用の顔画像データが多い場合に学習時間が問題となる。また、顔画像データが変更されると学習用の画像データを再度作成するために再学習の時間も必要となる。加えて、この手法では顔画像の方向といったことは考慮していないため、学習データにない方向を向いた顔画像については認識精度が低下する可能性がある。
【0013】
このように先行技術には、(1) 商品画像内の商品の向きと照合用画像内の商品の向きとが異なると認識精度が低下し、(2) 商品画像内の商品の向きと照合用画像内の商品の向きとが異なると商品の向きを手動で補正する必要があり、(3) 畳み込みニューラルネットを用いて商品の認識を行う場合は認識モデルの学習が必要となるため、認識する商品が多い場合や、頻繁に商品を変更する場合に学習時間が問題となる、などの課題があった。
【0014】
本発明の目的は、上記の技術課題を解決し、商品画像が商品を正面から撮影していなくても、各商品を商品画像に基づいて事前学習無しに短時間で精度良く認識できる商品認識装置、方法及びプログラムを提供することにある。
【課題を解決するための手段】
【0015】
上記の目的を達成するために、本発明は、所定の姿勢で陳列された商品を認識する商品認識装置において、以下の構成を具備した点に特徴がある。
【0016】
(1) 陳列された商品群を撮影する手段と、商品群を撮影した画像から各商品の位置を検出して商品画像を抽出する手段と、商品の正面以外から撮影された商品画像を正面から撮影した商品画像に補正する手段と、補正後の商品画像を所定の角度ずつ回転させて角度毎に回転画像を生成する手段と、商品画像毎に各回転画像及び照合用画像の特徴量マップを計算する手段と、前記各回転画像及び照合用画像の特徴量マップに基づいて商品を認識する手段とを具備した。
【0017】
(2) 認識結果の尤もらしさを表す確度を算出する手段を具備し、回転画像のいずれかとの確度が最も高い照合用画像の商品を認識結果として出力するようにした。
【0018】
(3) 確度が閾値未満の認識結果に対応する商品画像と当該商品画像の商品に隣接する商品の商品画像との類似度を計算する手段を具備し、前記類似度が所定の閾値以上であると当該隣接する商品の認識結果で前記商品の認識結果を代表するようにした。
【発明の効果】
【0019】
(1) 商品画像が商品を正面から撮影していなくても、各商品を商品画像に基づいて事前学習無しに短時間で精度良く認識できるようになる。
【0020】
(2) 確度に基づいて認識結果を評価するので、認識結果を定量的に評価できるようになる。
【0021】
(3) 認識結果の確度が低いと、当該商品に隣接する商品の認識結果を考慮して認識結果を補正するので、多数の同一商品が隣接する陳列環境であれば認識結果を精度よく補正できるようになる。
【図面の簡単な説明】
【0022】
図1】本発明の一実施形態に係る商品認識装置の主要部の構成を示した機能ブロック図である。
図2】認識対象の商品が商品棚に陳列される例を示した図である。
図3】バウンディングボックスの計算例を示した図である。
図4】商品画像の上下方向補正の例を示した図(その1)である。
図5】商品画像の上下方向補正の例を示した図(その2)である。
図6】商品画像の上下方向補正の例を示した図(その3)である。図中の「紅茶花伝」は登録商標である。
図7】商品画像の左右方向補正の例を示した図(その1)である。
図8】商品画像の左右方向補正の例を示した図(その2)である。
図9】商品画像の左右方向補正の例を示した図(その3)である。図中の「GEORGIA」は登録商標である。
図10】商品が正面を向いて陳列されていない例を示した図である。図中の「Coca-Cola」及びボトル形状は登録商標である。
図11】照合用画像の例を示した図である。図中の「Coca-Cola」及びボトルの形状は登録商標である。
図12】特徴量マップを用いた特徴点マッチングの例を示した図である。
【発明を実施するための形態】
【0023】
以下、図面を参照して本発明の実施の形態について詳細に説明する。図1は、本発明の一実施形態に係る商品認識装置1の主要部の構成を示した機能ブロック図であり、撮像部10、商品画像抽出部20、商品画像補正部30、回転画像生成部40、特徴量抽出部50、商品認識部60、認識結果評価部70及び認識結果補正部80を主要な構成としている。なお、ここでは本発明の説明に不要な構成は図示を省略している。
【0024】
このような商品認識装置1は、CPU、ROM、RAM、バス、インタフェース等を備えた汎用のコンピュータやサーバに、以下に詳述する各機能を実現するアプリケーション(プログラム)を実装することで構成できる。あるいはアプリケーションの一部をハードウェア化またはソフトウェア化した専用機や単能機としても構成できる。
【0025】
撮像部10は、図2に一例を示すように、商品棚に所定の姿勢で陳列された商品群を撮像するカメラ機能を備え、撮像した商品群の画像はカメラの位置、姿勢、焦点距離、商品の位置(高さ)等の情報と共に出力される。
【0026】
カメラの姿勢や焦点距離はカメラに搭載されているジャイロセンサや画像に付与されるExif情報から求められる。カメラの位置はカメラに搭載されているGPSセンサを用いて求めても良いし、商品棚と撮影位置との距離及び方向を計測しておくことで求めても良い。商品位置の高さは商品棚の高さを予め計測することで求めることができる。
【0027】
商品画像抽出部20は商品位置検出部201を含み、撮像部10が出力する商品群の画像から商品毎に商品画像を抽出する。
【0028】
前記商品位置検出部201は、商品群の画像から各商品のバウンディングボックスを検出し、バウンディングボックスに沿って商品画像の切り抜きを行う。バウンディングボックスの検出には非特許公報1が開示する手法を用いても良いし、任意のニューラルネットワークを用いても良い。なお、バウンディングボックスが他のバウンディングボックスと重複するように誤検出される場合には、重複する一方のバウンディングボックスを取り除くことが望ましい。
【0029】
例えば、図3に示すようにM個のバウンディングボックスBi(iはバウンディングボックス識別子)が検出されると、これらのバウンディングボックスを左下の頂点のx座標で昇順にソートして小さい順にB1,B2,Bi…BMとする。
【0030】
次いで、i=2としてバウンディングボックスB(i-1)とBiとが重なる部分の面積及びB(i+1)とBiとが重なる部分の面積がいずれも所定の閾値を超えているとバウンディングボックスBiを取り除く。
【0031】
次いで、iに1を加算して同様の操作を繰り返し行い、i=M-1となると、上述の方法でバウンディングボックスを取り除いた後で操作を終了する。ただし、M≦2のときはこの作業を行わない。最後に、算出したバウンディングボックスBiに沿って商品画像の切り抜きを行い、商品位置(バウンディングボックスの座標)及び切り抜き済み画像(商品画像)を出力する。
【0032】
商品画像補正部30は、上下方向補正部301及び左右方向補正部302を含み、商品を商品棚の正面方向以外の上又は下方向及び左又は右方向の少なくとも一方から撮影した画像を、前記撮像部10が出力する情報を用いて、商品棚の正面方向から撮影した商品画像に補正する。
【0033】
前記上下方向補正部301は、前記商品画像抽出部20が抽出した商品画像が商品棚の上方向又は下方向から撮影されていると、当該商品画像を商品と同じ高さの正面方向から撮影した画像に補正する。
【0034】
商品が円筒形または円筒形に近い形状であれば、図4(b)に示すように、商品を正面から撮影すればx軸と平行かつ直線となる稜線、例えば上面と側面との稜線L1及び側面と下面との稜線L2が、上方向又は下方向から撮影すると、同図(a)に示すように楕円の円弧状L1',L2'になる。そこで、このような稜線の見え方の変化を利用して、商品画像の円弧状の稜線L1',L2'を稜線L1,L2のように直線状に補正するための各画素のy軸に沿った平行移動を商品画像の各画素に対して実施する。図4において、x軸は商品を正面から見た場合の左から右への方向の軸を、y軸は下から上への方向の軸を、それぞれ表す。他の図においても同様である。
【0035】
本実施形態では、撮像部10が出力するカメラの位置、姿勢、焦点距離、商品の位置(高さ)に関する情報に基づいて、撮影方向、商品が円筒形または円筒形に近い形状であれば円筒上面の楕円の長径及び短径を算出する。図5に示すように、円筒上面の楕円の長径の長さをa、短径の長さをbとしたとき、楕円の方程式は次式(1)で表される。
【0036】
【数1】
【0037】
したがって、y<0すなわち太実線で示した円弧上の稜線L1'は次式(2)で与えられる。
【0038】
【数2】
【0039】
一方、直線状の稜線L1はy=0であるから、各稜線L1',L1を一致させるために楕円より下側の領域の各画素を、y軸の正の方向にx軸上での位置に応じて、次式(3)で与えられる量だけ移動する補正を行う。
【0040】
【数3】
【0041】
商品が下方向から撮影されている場合は、y軸の負の方向にx軸上での位置に応じて、上式(3)で与えられる量だけ移動する補正を行う。
【0042】
図6は、前記上下方向補正部301による各画素のy軸方向への平行移動の補正により商品画像のテクスチャが正面視のように補正される例を示している。
【0043】
なお、本実施形態では商品が円筒形であることを仮定したが、円筒形以外の立体を仮定しても良い。その場合も円筒形の場合と同様に、上方向または下方向から撮影した画像と正面から撮影した画像とを比較して各画素の上下方向への補正量を求めれば良い。
【0044】
左右方向補正部302は、前記上下方向補正部301が出力する上下方向補正済み画像が商品棚の正面よりも左方向又は右方向から撮影されていると、図7に示すように、正面方向と撮影方向との角度差に応じて商品画像の各画素の位置を左右方向へ平行移動させる補正を行う。
【0045】
図8は、商品棚の右方向から撮影した商品画像を正面から撮影した商品画像に補正する例を示した図であり、同図(a)は正面方向の位置Cから撮影した商品画像と角度φだけ右方向の位置Dから撮影した商品画像とで商品の映る範囲が異なることを示した上面図である。ここでは説明を簡単化するために商品を十分に遠くから撮影しているものと仮定し、商品の円周の半分が撮影範囲であるものとして説明する。
【0046】
位置Dから撮影した商品画像の右端部をB、位置Cから撮影した商品画像の右端部をAとすると、右端部Bは右端部Aから角BOAに相当する角度φだけ回転した位置とみなせる。そこで、本実施形態では同図(b)に示すように、位置Dで撮影した商品画像の各画素を回転角度φに相当する距離だけ右方向へ移動させる。
【0047】
角BDCに相当する角度θはカメラ位置、姿勢、焦点距離、商品位置から求めることができる。角度φは90°-θであるから、位置Dで撮影された商品画像を位置Cで撮影した商品画像に補正するのであれば、位置Dで撮影された商品画像の各画素を次式(4)で求まる距離だけ右方向へ平行移動させれば良い。
【0048】
【数4】
【0049】
なお、左方向から撮影した場合も同様の方法で補正することができる。この例では商品が円筒形であることを仮定したが、円筒形以外の立体を仮定しても良い。その場合は円筒形の場合と同様にして、左または右から撮影した画像と正面から撮影した画像から左右方向の補正量を求めることができる。図9は、上記の左右方向の補正の結果、商品画像のテクスチャが平行移動された例を示しており、商品ラベルの位置がバウンディングボックスの中央に移動していることが判る。
【0050】
回転画像生成部40は、上下方向及び左右方向の補正が完了した商品画像を所定の角度範囲内で所定の単位角度ずつ左右方向に回転させて複数の回転画像を生成する。
【0051】
商品は通常、商品棚の正面を向いた姿勢、すなわち商品棚の正面方向と商品の正面方向とが一致する姿勢で陳列される。しかしながら、何らかの原因で向きが正面方向から左右いずれかの方向へ回転した姿勢で陳列されることがある。この場合、前記商品画像補正部30により商品画像を商品棚の正面から撮影した画像に補正しても、図10に示すように、商品が正面を向いていない商品画像となってしまう。
【0052】
そこで、本実施形態では商品自体が正面を向いていない場合でも、見かけ上、正面を向いた商品画像を含む画像群を生成するために、商品を-90度から90度の範囲内の所定の角度範囲内、例えば-60度から60度の範囲内を、例えば10度刻みで回転させて合計13枚の回転画像を生成する。商品が円筒形状であれば、各回転画像は前記左右方向補正部302と同様の方法で生成することができる。
【0053】
特徴量抽出部50は、図11に示すように、認識対象の各商品をその正面から撮影した照合用画像を取得する。照合用画像には当該商品に固有のID(例えば、商品の名称や記号)が割り当てられている。そして、回転画像生成部40が回転角度毎に出力する複数の商品画像(回転画像)および照合用画像の特徴量マップを作成する。
【0054】
特徴量マップは画像から抽出した特徴量を束ねたもので、非特許公報2が開示するように事前学習済みのResnet-FPNを用いて作成しても良いし、その他周知のニューラルネットワークを用いて作成しても良い。ResNet-FPNの場合はダウンスケーリングされた解像度で複数チャンネルを持ったテンソルとなる。
【0055】
商品認識部60は、図12に示すように、特徴量抽出部50が商品画像毎に出力する各回転画像の特徴量マップと照合用画像の特徴量マップとの類似度を画素単位で計算し、類似度が最も高くなる画素ペアを算出する。類似度にはコサイン類似度を用いることができる。
【0056】
回転画像及び照合用画像の各特徴量マップの画素Pm,Qnにおける特徴量をそれぞれam,bnとすれば、各画素のコサイン類似度は次式(5)で定義される。
【0057】
【数5】
【0058】
本実施形態では、算出した類似度cos(am, bn)に対して特徴量マップ上での画素Pm,Qn間の距離に応じて重み付けを行う。画素Pm,Qnの座標をそれぞれ(xm, ym),(xn, yn)とすれば重みwmnは次式(6)で定義できる。
【0059】
【数6】
【0060】
ここで、距離dmnは次式(7)で定義できる。
【0061】
【数7】
【0062】
したがって、画素Pm,Qnの距離に応じた重み付け類似度は次式(8)で求められる。
【0063】
【数8】
【0064】
あるいは、次式(9)のように特徴量マップの各画素に重み付けを行って重み付け類似度を計算しても良い。ここで、wT am、wT bnはそれぞれ特徴量am,bnに対する重みベクトルである。
【0065】
【数9】
【0066】
次いで、各回転画像の特徴量マップの全ての画素について重み付け類似度が最大となる照合用特徴量マップ上の画素を求めて画素ペアとする。更に、重み付け類似度が閾値を超える全ての画素ペアに対して画素間の距離を算出し、その分散を求める。距離の分散が距離閾値(画素に対する閾値と区別するために距離閾値と表現する)以下の場合は操作を終了する。
【0067】
これに対して、距離の分散が距離閾値を超える場合は距離が最大となる画素ペアを解消し、次に重み付け類似度が大きい照合用特徴量マップ上の画素を求めて画素ペアとする処理を、距離の分散が距離閾値以下となるまで繰り返す。そして、距離の分散が距離閾値以下となった時点での画素ペアの個数をマッチング数とする。
【0068】
このとき、距離閾値を十分大きくすることで、分散の距離に応じてマッチング数を補正する処理を行わないようにすることもできる。商品の各回転画像と全ての照合用画像との組み合わせ毎にマッチング数を計算し、回転画像のいずれかとのマッチング数が最大となる照合用画像のIDを認識結果候補として出力する。また、商品画像と照合用画像のマッチング数の差分や分散などの統計量を出力する。
【0069】
認識結果評価部70は確度算出部701を含み、商品認識部60が出力するマッチング数を用いて算出した確度(尤もらしさ)に基づいて認識結果候補を評価する。確度算出部701は、確度をロジスティック回帰によって算出しても良いし、周知の機械学習によって算出しても良い。ロジスティック回帰によって確度を算出するのであれば、次式(10)の誤差関数の最適化を行う。
【0070】
【数10】
【0071】
ここで、xiは商品認識部60が出力するマッチング数であり、yiは商品を正しく認識できた場合を1、そうでない場合を0とするラベルである。iは商品を表すインデックスであり、σはシグモイド関数である。確度pは重みベクトルwを用いて次式(11)で算出できる。
【0072】
【数11】
【0073】
認識結果評価部70は、確度算出部701が出力する確度pの大きさに基づいて前記商品認識部60が出力する認識結果候補を評価し、認識結果候補を補正するか否かを判定する。確度算出部701が出力する確度pが閾値以上であれば補正不要と判定し、商品認識部60が出力する認識結果候補を認識結果として出力する。確度算出部701が出力する確度pが閾値未満であれば、認識結果補正部80へ認識結果候補の補正を要求する。
【0074】
認識結果補正部80は隣接商品特徴量抽出部801を含み、前記商品認識部60が出力した認識結果候補を補正する。
【0075】
隣接商品特徴量抽出部801は、認識対象の商品画像及び正面視で両側に隣接する商品画像の特徴量マップを出力する。特徴量マップの生成には前記特徴量抽出部50と同様にResnet-FPNを用いることができる。あるいはその他周知のニューラルネットワークを用いても良い。
【0076】
認識結果補正部80は、認識対象の商品画像とその両隣の商品画像との類似度を算出し、類似度が所定の閾値以上であれば両者を同一商品と判定し、両者のうちで最も確度の高い認識結果を共通の認識結果として出力する。類似度の算出には前記商品認識部60と同様の手法を採用できる。
【0077】
そして、上記の実施形態によれば、商品画像が商品を正面から撮影していなくても、各商品を商品画像に基づいて事前学習無しに短時間で精度良く認識できるようにするので、国連が主導する持続可能な開発目標(SDGs)の目標9「レジリエントなインフラを整備し、包括的で持続可能な産業化を推進する」や目標11「都市を包摂的、安全、レジリエントかつ持続可能にする」に貢献することが可能となる。
【符号の説明】
【0078】
1…商品認識装置,10…撮像部,20…商品画像抽出部,30…商品画像補正部,40…回転画像生成部,50…特徴量抽出部,60…商品認識部,70…認識結果評価部,80…認識結果補正部,201…商品位置検出部,301…上下方向補正部,302…左右方向補正部,701…確度算出部,801…隣接商品特徴量抽出部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12