(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023180133
(43)【公開日】2023-12-20
(54)【発明の名称】判定方法及び情報処理装置
(51)【国際特許分類】
G06V 10/70 20220101AFI20231213BHJP
G06T 7/00 20170101ALI20231213BHJP
【FI】
G06V10/70
G06T7/00 350B
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2022093269
(22)【出願日】2022-06-08
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り https://www2.ia-engineers.org/conference/index.php/iciae/iciae2022/paper/viewFile/2597/1685,2022年3月26日 https://www2.ia-engineers.org/conference/index.php/iciae/iciae2022/paper/view/2597,2022年3月26日
(71)【出願人】
【識別番号】599004254
【氏名又は名称】株式会社QTnet
(71)【出願人】
【識別番号】504174135
【氏名又は名称】国立大学法人九州工業大学
(74)【代理人】
【識別番号】100136180
【弁理士】
【氏名又は名称】羽立 章二
(72)【発明者】
【氏名】佐伯 和広
(72)【発明者】
【氏名】角崎 宏一
(72)【発明者】
【氏名】岩橋 遼平
(72)【発明者】
【氏名】久保田 祥平
(72)【発明者】
【氏名】張 力峰
(72)【発明者】
【氏名】周 施
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096BA18
5L096CA02
5L096HA13
5L096JA28
5L096KA04
5L096KA15
(57)【要約】
【課題】 学習データを容易に拡張できることに適した判定方法等を提案することを目的とする。
【解決手段】 判定システム1は、情報処理装置7と、対象物品群33を撮影する施設撮影部25を備え、対象物品群33を撮影した対象撮影データに含まれる各対象物品を、学習データを利用して判定する。情報処理装置7は、検出処理部41と、合成処理部43を備える。検出処理部41は、個々の検出可能物品を別々に撮影した個別撮影データから個別データを生成する。合成処理部43は、複数の個別データを組み合わせて学習データを生成して学習データを拡張する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
対象物品群を撮影して得られた対象撮影データに含まれる各対象物品を、学習データを利用して判定する判定システムにおける判定方法であって、
情報処理装置と、前記対象物品群を撮影する施設撮影部を備え、
前記情報処理装置は、検出処理部と、合成処理部と、学習処理部と、判定処理部を備え、
前記検出処理部が、複数の検出可能物品について個々の検出可能物品を別々に撮影した個別撮影データから個別データを生成する個別データ生成ステップと、
前記合成処理部が、複数の前記個別データを組み合わせて学習データを生成するデータ拡張ステップと、
前記学習処理部が、前記学習データを利用して前記判定処理部に対して学習処理を行う学習ステップと、
前記施設撮影部が、前記対象物品群を撮影して前記対象撮影データを得る対象撮影ステップと、
前記判定処理部が、前記対象撮影データに含まれる各対象物品を判定する判定ステップを含む判定方法。
【請求項2】
前記対象撮影データは、施設撮影部が、前記対象物品群を、施設照明部が光を照射した施設ステージに載せた状態を撮影したものであり、
前記施設ステージと、前記合成処理部が複数の前記個別データを組み合わせて学習データを生成するために使用する背景データは、無地であり、
前記施設撮影部は、前記施設ステージにおいて前記対象物品群の影が生じないように光を照射し、
前記判定処理部は、画像処理領域の物品識別と物品認識を行うものであって、物品認識前のセグメンテーション作業が不要なものである、請求項1記載の判定方法。
【請求項3】
新たに検出する検出可能物品を追加する場合に、
前記検出処理部が、前記新たに検出する検出可能物品を撮影した個別撮影データから個別データを生成し、
前記合成処理部が、前記新たに検出する検出可能物品の個別データと、既に検出できる検出可能物品の個別データとを組み合わせて配置して学習データを生成するステップを含む請求項1記載の判定方法。
【請求項4】
検出可能物品を削除する場合に、前記合成処理部が、前記学習データのうち、削除する検出可能物品を含むものを削除するステップを含む請求項1記載の判定方法。
【請求項5】
対象物品群を撮影して得られた対象撮影データに含まれる各対象物品を、学習データを利用して判定する情報処理装置であって、
複数の検出可能物品について個々の検出可能物品を別々に撮影した個別撮影データから個別データを生成する検出処理部と、
複数の前記個別データを組み合わせて学習データを生成する合成処理部を備える情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本願発明は、判定方法及び情報処理装置に関し、特に、対象物品群を撮影して得られた対象撮影データに含まれる各対象物品を、学習データを利用して判定する判定システムにおける判定方法等に関する。
【背景技術】
【0002】
学習データの整備は、大きなコストを要する。学習データの整備には、画像データなどの収集に加えて、画像データなどへのラベル付け等のアノテーションの付加が含まれる。近年、このコストを軽減するための技術として、ルールベースのデータ拡張が注目されている(特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1記載の手法では、現実にはあり得ない画像(例えば猫と犬を組み合わせたような画像)が学習データとなってしまうリスクがある。
【0005】
そこで、本願発明は、学習データを容易に拡張できることに適した判定方法等を提案することを目的とする。
【課題を解決するための手段】
【0006】
本願発明の第1の側面は、対象物品群を撮影して得られた対象撮影データに含まれる各対象物品を、学習データを利用して判定する判定システムにおける判定方法であって、情報処理装置と、前記対象物品群を撮影する施設撮影部を備え、前記情報処理装置は、検出処理部と、合成処理部と、学習処理部と、判定処理部を備え、前記検出処理部が、複数の検出可能物品について個々の検出可能物品を別々に撮影した個別撮影データから個別データを生成する個別データ生成ステップと、前記合成処理部が、複数の前記個別データを組み合わせて学習データを生成するデータ拡張ステップと、前記学習処理部が、前記学習データを利用して前記判定処理部に対して学習処理を行う学習ステップと、前記施設撮影部が、前記対象物品群を撮影して前記対象撮影データを得る対象撮影ステップと、前記判定処理部が、前記対象撮影データに含まれる各対象物品を判定する判定ステップを含む。
【0007】
本願発明の第2の側面は、第1の側面の判定方法であって、前記対象撮影データは、施設撮影部が、前記対象物品群を、施設照明部が光を照射した施設ステージに載せた状態を撮影したものであり、前記施設ステージと、前記合成処理部が複数の前記個別データを組み合わせて学習データを生成するために使用する背景データは、無地であり、前記施設撮影部は、前記施設ステージにおいて前記対象物品群の影が生じないように光を照射し、前記判定処理部は、画像処理領域の物品識別と物品認識を行うものであって、物品認識前のセグメンテーション作業が不要なものである。
【0008】
本願発明の第3の側面は、第1の側面の判定方法であって、新たに検出する検出可能物品を追加する場合に、前記検出処理部が、前記新たに検出する検出可能物品を撮影した個別撮影データから個別データを生成し、前記合成処理部が、前記新たに検出する検出可能物品の個別データと、既に検出できる検出可能物品の個別データとを組み合わせて配置して学習データを生成するステップを含む。
【0009】
本願発明の第4の側面は、第1の側面の判定方法であって、検出可能物品を削除する場合に、前記合成処理部が、前記学習データのうち、削除する検出可能物品を含むものを削除するステップを含む。
【0010】
本願発明の第5の側面は、対象物品群を撮影して得られた対象撮影データに含まれる各対象物品を、学習データを利用して判定する情報処理装置であって、複数の検出可能物品について個々の検出可能物品を別々に撮影した個別撮影データから個別データを生成する検出処理部と、複数の前記個別データを組み合わせて学習データを生成する合成処理部を備える。
【発明の効果】
【0011】
本願発明の各側面によれば、個別データを組み合わせて学習データを生成することにより、容易にデータ拡張を実現することができる。
【図面の簡単な説明】
【0012】
【
図1】本願発明の実施の形態の一例である判定システムの構成の一例を示すブロック図である。
【
図2】最初の検出可能物品の学習データを生成する処理の一例を示すフロー図である。
【
図3】
図2の各ステップの具体例を説明するための図である。
【
図4】検出可能物品を追加する場合に、学習データを生成する処理の一例を示すフロー図である。
【
図5】
図4の各ステップの具体例を説明するための図である。
【
図6】検出可能物品を削除する場合の処理の一例を示すフロー図である。
【
図7】学習処理部45による処理の一例を説明するためのフロー図である。
【
図8】対象物品群33の判定処理の一例を示すフロー図である。
【
図9】商品の領域を検出して切り出す処理を説明するための図である。
【
図10】合成処理部43による個々の物品のエッジ処理の一例を示す図である。
【
図12】10-fold交差検証を実施した結果を示すグラフである。
【
図13】(a)評価時と(b)訓練時の損失を示す。
【発明を実施するための形態】
【0013】
以下では、図面を参照して、本願発明の実施例について説明する。なお、本願発明は、この実施例に限定されるものではない。
【実施例0014】
図1は、本願発明の実施の形態の一例である判定システムの構成の一例を示すブロック図である。
【0015】
判定システム1は、管理装置3と、施設装置5と、情報処理装置7と、物品処理サーバ9を備える。
【0016】
判定システム1において、施設装置5の施設撮影部25は、対象物品群(
図1の例では対象物品群33)を撮影して対象撮影データを得る。情報処理装置7の判定部37は、対象撮影データにおいて撮影されている対象物品を判定する。
【0017】
図1において、対象物品は、判定部37による判定処理の対象となる物品であり、本願請求項の「対象物品」の一例である。対象物品群は、一つ又は複数の対象物品である。検出可能物品は、判定部37により検出できる物品である。
【0018】
管理装置3は、判定部37により判定することができる検出可能物品(
図1の例では検出可能物品21)を個別に撮影して個別撮影データを得る。管理装置3は、管理通信部11と、管理撮影部13と、管理操作部15と、管理照明部17と、管理ステージ19を備える。一つの検出可能物品21は、管理ステージ19に載せられる。
【0019】
管理照明部17は、管理ステージ19に対して、光を均一に照らして明るくする。管理撮影部13は、管理照明部17により光を均一に照らされて明るくされた状態の管理ステージ19に載せられた検出可能物品21を撮影して、個別撮影データを得る。
【0020】
ここで、管理照明部17が管理ステージ19に光を均一に照らすことは、少なくとも管理撮影部13によって撮影される管理ステージ19の領域をほぼ一様に明るくすることを意味する。例えば、管理撮影部13によって撮影される管理ステージ19の領域において、照らされる光量の違いは10%以内である。さらに、複数方向(例えば四方)からライティングすることで影を飛ばす。
【0021】
また、個別撮影データにおいて、検出可能物品21を撮影した部分は前景となり、管理ステージ19を撮影した部分は単純な背景となる。ここで、単純な背景は、例えば、無地で、単一の色で一様に配色されたものである。
【0022】
施設装置5は、店舗、物流施設(貨物などの保管・仕分けなどのための施設。物流センター、倉庫など)などにおいて、判定部37による判定処理の対象となる対象物品群(
図1の例では対象物品群33)を撮影して対象撮影データを得る。
図1では、無人店舗に設けて、購入者が購入する商品群を撮影させて決済をすることを例に説明する。施設装置5は、施設通信部23と、施設撮影部25と、施設操作部27と、施設照明部29と、施設ステージ31を備える。対象物品群33は、施設ステージ31に載せられる。
【0023】
施設照明部29は、施設ステージ31に対して、光を均一に照らして明るくする。施設撮影部25は、施設照明部29により光を均一に照らされて明るくされた状態の施設ステージ31に載せられた対象物品群33を撮影して、対象撮影データを得る。
【0024】
ここで、施設照明部29が施設ステージ31に光を均一に照らすことは、少なくとも施設撮影部25によって撮影される施設ステージ31の領域をほぼ一様に明るくすることを意味する。例えば、施設撮影部25によって撮影される施設ステージ31の領域において照らされる光量の違いは10%以内である。さらに、複数方向(例えば四方)からライティングすることで影を飛ばす。
【0025】
また、対象撮影データにおいて、対象物品群33を撮影した部分は前景となり、施設ステージ31を撮影した部分は単純な背景となる。ここで、単純な背景は、例えば、単一の色で一様に配色されたものである。
【0026】
情報処理装置7は、学習部35と、判定部37を備える。学習部35は、個別撮影データによって得られた学習データを用いて、判定部37に対して学習処理を行う。判定部37は、学習処理によって、対象撮影データにおいて撮影された対象物品を判定する。
【0027】
学習部35は、学習通信部39と、検出処理部41と、合成処理部43と、学習処理部45と、個別撮影データ記憶部47と、背景データ記憶部49と、個別データ記憶部51と、学習データ記憶部53を備える。
【0028】
判定部37は、判定通信部55と、判定処理部57と、対象撮影データ記憶部61と、判定結果記憶部63を備える。
【0029】
物品処理サーバ9は、例えば決済などの処理を行う者である。物品処理サーバ9は、物品処理通信部65と、物品関連処理部67を備える。
【0030】
なお、各通信部は、他の装置やサーバとデータの送信及び/又は受信をするためのものであり、無線及び/又は有線による通信装置によって実現することができる。各処理部は、情報処理を行うための情報処理装置であり、例えばプログラムの制御によって動作するプロセッサなどで実現することができる。各記憶部は、データを記憶する記憶装置であり、例えばメモリなどによって実現することができる。
【0031】
また、
図1において、管理装置3、施設装置5及び情報処理装置7は、一つ又は複数の装置によって実現してもよい。例えば、物理的には、管理通信部11、管理撮影部13、管理操作部15、管理照明部17及び管理ステージ19は、それぞれ、施設通信部23、施設撮影部25、施設操作部27、施設照明部29及び施設ステージ31と同じものであってもよい。また、情報処理装置7は、パソコンなどで実現し、管理装置3及び施設装置5と有線又は無線で接続して通信を行うものであってもよい。
【0032】
図2は、最初の検出可能物品の学習データを生成する処理の一例を示すフロー図である。
図3は、
図2の各ステップの具体例を説明するための図である。
図3では、物品Aが最初の検出可能物品であり、観点1及び観点2という2つの観点から撮影する場合について説明する。
【0033】
管理装置3を利用する管理者は、管理ステージ19に最初の1つの検出可能物品21を載せる。管理撮影部13は、例えばカメラである。管理操作部15は、例えばタッチパネルである。管理撮影部13は、管理者が管理操作部15を操作して指示したことに従って管理ステージ19に載せられた検出可能物品21を撮影して、静止画像である個別撮影データを得る。管理者は、必要に応じて検出可能物品21を異なる向きに変更して、異なる観点からの個別撮影データを得る。管理者は、管理操作部15を操作して、最初の検出可能物品21についての処理を指示する。管理通信部11は、情報処理装置7に、最初の検出可能物品21について処理することと、最初の検出可能物品21を一つ又は複数の観点から撮影して得られた個別撮影データを送信する。
【0034】
学習通信部39は、管理通信部11から個別撮影データを受信する。個別撮影データ記憶部47は、個別撮影データを記憶する(ステップSTA1)。検出処理部41は、各観点に対応する個別撮影データにおいて、背景の部分(管理ステージ19が撮影されている部分)とは区別して、前景の部分(検出可能物品21が検出されている部分)を検出する(ステップSTA2)。検出処理部41は、前景の部分を特定する情報を利用して、必要に応じた処理を行い、検出可能物品21について各観点から撮影された場合の静止画像を生成するための個別データを得る(ステップSTA3)。個別データ記憶部51は、個別データを記憶する。
【0035】
ステップSTA1~STA3について、
図3(a)及び(b)は、物品Aを観点1から撮影した場合の処理を説明するための図である。
図3(a)は、物品Aを観点1から撮影して得られた個別撮影データを示す。
図3(b)は、
図3(a)の個別撮影データにおいて、斜線部である背景部分から区別して、物品Aが撮影されている部分を特定することなどにより得られた、物品Aを観点1から撮影したとする場合の静止画像を生成するための個別データを示す。
【0036】
ステップSTA1~STA3について、
図3(c)及び(d)は、物品Aを、観点1とは異なる観点2から撮影した場合の処理を説明するための図である。
図3(c)は、物品Aを観点2から撮影して得られた個別撮影データを示す。
図3(d)は、
図3(c)の個別撮影データにおいて、斜線部である背景部分から区別して、物品Aが撮影されている部分を特定することなどにより得られた、物品Aを観点2から撮影したとする場合の静止画像を生成するための個別データを示す。ここで、学習データにおける画像データでは、例えば偽境界を除去することなどの処理を行ってもよい。また、分布関数(距離・角度など)を利用して商品配置位置を決定してもよい。また、物品間でオーバーラップの有無を設定できるようにしてもよい。
【0037】
ここで、例えば、検出処理部41は個別データの候補を生成するものとし、管理装置3の管理者の確認によって個別データとするようにしてもよい。例えば、学習通信部39は、管理装置3に個別データの候補を送信する。管理装置3は、管理操作部15に個別データの候補を表示する。管理通信部11は、管理者が管理操作部15を操作して個別データの候補を確認したことを認識すると、このことを情報処理装置7に伝える。検出処理部41は、管理者の確認の下で、個別データの候補を、個別データとして確定する。
【0038】
図2を参照して、合成処理部43は、背景データ記憶部49から背景データを取得する(ステップSTA4)。背景データは、例えば、施設照明部29による照明の下で、施設ステージ31を施設撮影部25で撮影した場合に得られる画像と実質的に同一のデータである。背景データ記憶部49は、背景データを予め記憶している。
【0039】
合成処理部43は、管理撮影部13が各観点から検出可能物品を撮影する場合に得られることが期待される画像データと、この画像データにおいて検出可能物品を解釈するためのアノテーションデータを生成する(ステップSTA5)。この画像データとアノテーションデータの組み合わせが、学習データとなる。合成処理部43は、学習データを、学習データ記憶部53に記憶する。なお、例えば管理撮影部13と施設撮影部25が同じものである場合などでは、この画像データについては、例えば、背景データなどに代えて、又は、と共に、個別撮影データを利用してもよい。
【0040】
図3(e)及び(f)は、それぞれ、観点1及び観点2についての物品Aの個別データを利用して得られる学習データにおいて、画像データの一例を示す。
【0041】
合成処理部43は、施設ステージ31に複数の検出可能物品を置いた場合に施設撮影部25が撮影して得られることが期待される画像データと、この画像データにおいて検出可能物品を解釈するためのアノテーションデータを生成する(ステップSTA6)。この複数の検出可能物品を置いた場合として得られた画像データとアノテーションデータの組み合わせが、データ拡張のための学習データとなる。合成処理部43は、データ拡張のための学習データを、学習データ記憶部53に記憶する(ステップSTA7)。
【0042】
図3(g)は、施設ステージ31に2つの物品Aを置き、共に観点1から撮影された場合として得られる学習データにおいて、画像データの一例を示す。
図3(h)は、施設ステージ31に2つの物品Aを置き、1つは観点1から、もう1つは観点2から撮影された場合として得られる学習データにおいて、画像データの一例を示す。同様に、3つ以上の物品Aを配置した場合についての学習データを生成することができる。なお、2つの物品Aを配置する位置を変えて、さらに複数の学習データを生成してデータ拡張をしてもよい。
【0043】
図4は、検出可能物品を追加する場合に、学習データを生成する処理の一例を示すフロー図である。
図5は、
図4の各ステップの具体例を説明するための図である。
図5では、既に物品Aの観点1及び観点2からの個別データが得られている状態で、物品Bについて観点1から撮影して学習データを追加する場合について説明する。
【0044】
管理装置3の管理者は、管理ステージ19に追加する検出可能物品21を載せる。管理撮影部13は、管理者が管理操作部15を操作して指示したことに従って、管理ステージ19に載せられた追加する検出可能物品21を撮影して個別撮影データを得る。追加する検出可能物品21を複数の観点から撮影する場合には、管理者は、追加する検出可能物品21を置き直して、それぞれの観点から撮影する。これにより、追加する検出可能物品21について、一つ又は複数の観点についての個別撮影データを得る。管理者は、管理操作部15を操作して、検出可能物品21を追加することを指示する。管理通信部11は、情報処理装置7に、検出可能物品21を追加することと、追加する検出可能物品21を一つ又は複数の観点から撮影して得られた個別撮影データを送信する。
【0045】
学習通信部39は、管理通信部11から個別撮影データを受信する。個別撮影データ記憶部47は、個別撮影データを記憶する(ステップSTB1)。検出処理部41は、各観点に対応する個別撮影データにおいて、背景の部分(管理ステージ19が撮影されている部分)とは区別して、前景の部分(検出可能物品21が検出されている部分)を検出する(ステップSTB2)。検出処理部41は、前景の部分を特定する情報を利用して、必要な処理を行い、追加する検出可能物品21について各観点から撮影された場合の静止画像を生成するための個別データを得る(ステップSTB3)。個別データ記憶部51は、個別データを記憶する。
【0046】
ステップSTB1~STB3について、
図5(a)及び(b)は、物品Bを観点1から撮影した場合の処理を説明するための図である。
図5(a)は、物品Bを観点1から撮影して得られた個別撮影データを示す。
図5(b)は、
図5(a)の個別撮影データにおいて、斜線部である背景部分から区別して、物品Bが撮影されている部分を特定することなどにより得られた、物品Bを観点1から撮影したとする場合の静止画像を生成するための個別データを示す。
【0047】
ここで、例えば、検出処理部41は個別データの候補を生成するものとし、管理装置3の管理者の確認によって個別データとするようにしてもよい。
【0048】
合成処理部43は、背景データ記憶部49から背景データを取得する(ステップSTB4)。
【0049】
合成処理部43は、施設撮影部25が各観点から検出可能物品を撮影する場合に得られることが期待される画像データと、この画像データにおいて検出可能物品を解釈するためのアノテーションデータを生成する(ステップSTB5)。この画像データとアノテーションデータの組み合わせが、学習データとなる。合成処理部43は、学習データを、学習データ記憶部53に記憶する。なお、例えば管理撮影部13と施設撮影部25が同じものである場合などでは、この画像データについては、例えば、背景データなどに代えて、又は、と共に、個別撮影データを利用してもよい。
【0050】
図5(c)は、観点1についての物品Bの個別データを利用して得られる学習データにおいて、画像データの一例を示す。
【0051】
合成処理部43は、個別データ記憶部51から、既に存在する検出可能物品についての個別データを取得する(ステップSTB6)。合成処理部43は、施設ステージ31に複数の検出可能物品を置いた場合に施設撮影部25が撮影して得られることが期待される画像データと、この画像データにおいて検出可能物品を解釈するためのアノテーションデータを生成する(ステップSTB7)。この複数の検出可能物品を置いた場合として得られた画像データとアノテーションデータの組み合わせが、データ拡張のための学習データとなる。合成処理部43は、データ拡張のための学習データを、学習データ記憶部53に記憶する(ステップSTB8)。
【0052】
図5(d)は、施設ステージ31に2つの物品Bを置き、共に観点1から撮影された場合として得られる学習データにおいて、画像データの一例を示す。
図5(e)は、施設ステージ31に1つの物品Aと1つの物品Bを置き、物品Aは観点1から、物品Bは観点1から撮影された場合として得られる学習データにおいて、画像データの一例を示す。
図5(f)は、施設ステージ31に1つの物品Aと1つの物品Bを置き、物品Aは観点2から、物品Bは観点1から撮影された場合として得られる学習データにおいて、画像データの一例を示す。
図5(g)は、施設ステージ31に2つの物品Aと1つの物品Bを置き、1つの物品Aは観点1から、もう1つの物品Aは観点2から、物品Bは観点1から撮影された場合として得られる学習データにおいて、画像データの一例を示す。
図5(h)は、施設ステージ31に4つの物品Aと2つの物品Bを置き、2つの物品Aは観点1から、2つの物品Aは観点2から、2つの物品Bは観点1から撮影された場合として得られる学習データにおいて、画像データの一例を示す。同様に、多数の検出可能物品の配置した場合についての学習データを生成することができる。なお、2つの物品Aを配置する位置を変えて、さらに複数の学習データを生成してデータ拡張をしてもよい。
【0053】
図6は、検出可能物品を削除する場合の処理の一例を示すフロー図である。
【0054】
管理装置3の管理者は、管理操作部15を操作して、削除する検出可能物品を指示する。管理通信部11は、情報処理装置7に対して、検出可能物品を削除することと、削除する検出可能物品を特定するための情報を送信する。学習通信部39は、管理通信部11から受信した情報に従って、削除する検出可能物品を特定する(ステップSTC1)。
【0055】
合成処理部43は、学習データ記憶部53に記憶された学習データを検索し、削除する検出可能物品の個別データを含む学習データを特定して削除する(ステップSTC2)。
【0056】
図7は、学習処理部45による処理の一例を説明するためのフロー図である。学習処理部45は、学習データ記憶部53に記憶された学習データが変更(例えば、増加、減少など)したか否かを判定する(ステップSTD1)。学習処理部45は、学習データの変更がない場合には待機する。学習処理部45は、学習データが変更した場合には、変更後の学習データを用いて、判定処理部57に対する学習処理を行う。判定処理部57は、この学習処理によって、撮影データにおいて撮影された検出可能物品を識別するための物品識別情報(物品名、物品識別番号など)と、各物品識別情報に対応する検出可能物品の点数を判定することができる。
【0057】
ここで、判定処理部57による判定処理は、画像処理領域の物品識別と物品認識を併せて行うものであり、物品認識前のセグメンテーション作業が不要なものである。例えば、ニューラルネットワークにEfficientNetを採用する。EfficientNetは、例えばResNet50などと比較して少ない計算量で高い精度を出すことができる。また、重なった商品も認識することができる。ただし、学習データを作成する工期が長くなる傾向にあった。例えば70商品で3人作業により3カ月かかった。学習用に3,000枚以上の写真を撮影し、これらの3,000枚以上の写真に対してアノテーション作業のためにラベル付けを行った。これにより95%程度の精度で検出することができた。また、商品が追加するたびに、既存の商品も含めて同様の作業を行うことが必要になる。それに対し、本願発明によれば、アノテーション作業を含めて自動化して、容易にデータ拡張を実現することができる。例えば100商品について撮影し、合成写真10000枚を作製したところ、一般的なパソコン1台で、2日で学習データを作成することができた。そして、同程度の精度での検出を実現することができた。さらに、商品の追加も削除も容易に実現することができる。
【0058】
図8は、対象物品群33の判定処理の一例を示すフロー図である。
【0059】
施設装置5の利用者は、施設ステージ31に対象物品群33を載せる。対象物品群33は、一つ又は複数の対象物品を含む。施設撮影部25は、例えばカメラである。施設操作部27は、例えばタッチパネルである。施設撮影部25は、利用者が施設操作部27を操作して指示したこと、図示を省略する検出装置によって利用者が施設ステージ31に対象物品群33を載せたことを検出したこと、などによって、施設ステージ31に載せられた対象物品群33を撮影して、静止画像である対象撮影データを得る。施設通信部23は、情報処理装置7に、対象物品群33が撮影されたことと、対象物品群33を撮影して得られた対象撮影データを送信する。
【0060】
判定通信部55は、施設通信部23から対象撮影データを受信する。対象撮影データ記憶部61は、対象撮影データを記憶する(ステップSTE1)。判定処理部57は、対象撮影データにおいて撮影された対象物品を識別するための物品識別情報と、各物品識別情報に対応する検出可能物品の点数を特定する(ステップSTE2)。判定結果記憶部63は、判定処理部57により特定された物品識別情報と点数を記憶する。
【0061】
判定通信部55は、判定処理部57により特定された物品識別情報と点数を、施設装置5に送信する。施設装置5において、施設操作部27は、物品識別情報と物品名及び価格との対応関係を特定する情報を参照して、対象物品群33に含まれる対象物品の物品名と価格を取得し、施設装置5の利用者に表示する(ステップSTE3)。利用者は、表示された内容を確認して、購入するために決済のための指示を行う(ステップSTE4)。施設通信部23は、物品処理サーバ9に対して決済のための情報を送信する。物品処理サーバ9において、物品処理通信部65が施設通信部23から決済のための情報を受信すると、物品関連処理部67は決済のための処理を行い、物品処理通信部65は決済処理が終了したことを施設装置5に伝える。施設操作部27は、決済処理が終了したことを表示して利用者に伝える。
【0062】
図9~
図11を参照して、発明者らによる具体的な実験の例を説明する。
【0063】
図9は、商品の領域を検出して切り出す処理を説明するための図である。
図9(a)は、オリジナル画像を示す。実験では、カラーの写真を用いた。
図9(b)、(c)及び(d)は、それぞれ、青、緑、赤の各色チャンネルの画像を示す。
図9(e)は、グラブカットアルゴリズムの使用した画像を示す。
図9(f)は、各色チャンネル、グラブカットアルゴリズムなどを使用した複合手法により得られた、対象物のマスク画像を示す。
図9(g)は、対象物を含む長方形の領域を示す。なお、必要に応じて角度変更などを行ってもよい。
【0064】
図10は、合成処理部43による個々の物品のエッジ処理の一例を示す図である。複数の商品を検出して背景を分離した後、一枚の写真を合成する。ここでは、各物品の内外のエッジを検出してエッジ領域のマスキングを行い、対象物のエッジをぼかす。具体的には、
図10(a)は、検出された対象物の外側及び内側のエッジを示す。
図10(b)は、
図10(a)の長方形の部分の拡大図である。
図10(c)は、対象物のエッジ領域のマスキングを示す。
図10(d)は、
図10(c)の長方形の部分の拡大図である。
図10(e)は、対象物のエッジをぼかした状態を示す。
図10(f)は、
図10(e)の長方形の部分の拡大図である。
【0065】
図11は、訓練結果を示す図である。
図11(a)は、検証用セットの結果を示す。
図11(b)は、テスト用セットの結果を示す。通常の学習セットと同じ程度の精度であることを確認することができた。
【0066】
図12は、10-fold交差検証を実施した結果を示すグラフである。Difficult(例えば、複数の物品間の距離が非常に狭かったり、物品が少なくとも一部において重なっている状態など)は、最も評価精度が低かったものである。Easy(例えば、複数の物品間の距離が十分に確保できている状態など)は、最も評価が高かったものである。Valは、平均値である。横軸は、各画像の使用回数である。縦軸は、平均精確性を示す。全体的に、3回ほどの使用回数で十分な精確性を示している。
【0067】
図13は、(a)評価時と(b)訓練時の損失を示す。横軸は、各画像の使用回数である。縦軸は、(a)評価時の損失(classification loss)と、(b)訓練時の損失(regression loss)を示す。
図13も、全体的に、3回ほどの使用回数で、損失が十分になくなっていることを示している。
【0068】
エッジ検出の改良について説明をする。ここでは、単純な背景を持つ画像におけるキャニー(Canny)エッジを応用して、適応的な閾値キャニーエッジ検出法を説明する。具体的には、(前景に位置する)オブジェクトと背景の分布を考慮し、対応するグレー画像に対して画素強度統計量を演算する。背景の画素の強度分布は正規分布であるため、平均値を容易に求めることができる。このため、平均値に基づいて背景との距離を適切に保つことで、二重の閾値を設定することができる。背景の統計的な結果を分析して二重の適応的な閾値を決定してエッジを検出する。発明者らは、撮影条件の異なる画像に対する実験により、二重の適用的な閾値を利用することで、キャニーエッジを良好に検出でき、異なる条件に対して強いロバスト性を持つことを確認した。これにより、様々な産業用途において、簡単かつ自動的に画像から対象物を検出・分割することが可能となる。
【0069】
具体的には、まず、対応するグレースケール画像の画素の強度について統計解析を行い、背景の平均値を求め、その平均値に基づいて二重の閾値を決定する。最後に、二重しきい値に従ってキャニーエッジを検出する。
【0070】
RGB画像は3つのチャンネルを持ち、グレー画像は1つのチャンネルを持つ。計算を簡単にするために、グレースケール画像に変換する。背景は無地なので、ヒストグラムの背景の分布は集中し、ピークにつながる。また、背景の面積が大きいため、背景においてヒストグラムの最も高いピークとなる正規分布となる。このように、強度の分布から背景の平均値を容易に求めることができる。
【0071】
背景の正規分布は分散が非常に小さく、前景に位置する物品の面積が小さいことを考慮すると、物品の割合を無視して、全画像が正規分布であると仮定することができる。そうすると、背景の平均強度をうまく得ることができる。
【0072】
画像中の対象物の面積は小さく、背景と物品の間には強度差がある。そのため、背景の中心までの強度距離に応じて二重の閾値を求めることができる。以下では、最も単純な例として、相対的な距離によって二重閾値を設定する。
【0073】
ある画素の強度勾配が第1閾値より大きい場合、この画素はオブジェクトのエッジ点である必要がある。同時に、勾配が第2閾値より大きく第1閾値より小さい場合、それは弱いエッジ点である。信頼できるエッジかどうかは、周囲のピクセルの状態によって決定される。また、勾配が第2閾値より小さい場合、オブジェクトのエッジ点ではない。このように、異なる照度や背景で撮影された画像に対して適切なエッジ情報を得るために二つの適応的な閾値を自動的に設定することができる。
【0074】
この二つの閾値により、段階的にキャニーエッジを検出することができる。まず、ガウシアンフィルタにより画像を平滑化する。画像をガウシアンスムージングした後、方向と勾配などを総合的に考慮してグラデーションを計算する。ここで、各方向の勾配は、画素の強度に応じて計算される。さらに、各エッジに対して1画素のみの応答を保証するために、画像に対して非最大化の抑制を行う。3x3の近傍領域を用いて、2つの勾配方向に沿って補間を行う。勾配が2方向とも最大であればエッジ点の候補となる。それ以外の場合はエッジ点の候補でない。最後に、二つの閾値に従ってすべてのエッジ点候補をチェックする。第1閾値より小さく第2閾値より大きいピクセルについて、その隣接ピクセルがエッジ点であれば、このピクセルはエッジ点としてマスクされる。そうでない場合は、エッジポイントではない。こうしてエッジ検出を終了し、エッジ情報を出力することができる。