IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社リクルートの特許一覧

特許7224931学習モデル生成装置、プログラム、及び端末装置を製造する方法
<>
  • 特許-学習モデル生成装置、プログラム、及び端末装置を製造する方法 図1
  • 特許-学習モデル生成装置、プログラム、及び端末装置を製造する方法 図2
  • 特許-学習モデル生成装置、プログラム、及び端末装置を製造する方法 図3
  • 特許-学習モデル生成装置、プログラム、及び端末装置を製造する方法 図4
  • 特許-学習モデル生成装置、プログラム、及び端末装置を製造する方法 図5
  • 特許-学習モデル生成装置、プログラム、及び端末装置を製造する方法 図6
  • 特許-学習モデル生成装置、プログラム、及び端末装置を製造する方法 図7
  • 特許-学習モデル生成装置、プログラム、及び端末装置を製造する方法 図8
  • 特許-学習モデル生成装置、プログラム、及び端末装置を製造する方法 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-02-10
(45)【発行日】2023-02-20
(54)【発明の名称】学習モデル生成装置、プログラム、及び端末装置を製造する方法
(51)【国際特許分類】
   G07G 1/00 20060101AFI20230213BHJP
   G07G 1/01 20060101ALI20230213BHJP
【FI】
G07G1/00 331Z
G07G1/00 311D
G07G1/01 301D
【請求項の数】 6
(21)【出願番号】P 2019009987
(22)【出願日】2019-01-24
(65)【公開番号】P2020119283
(43)【公開日】2020-08-06
【審査請求日】2021-09-14
(73)【特許権者】
【識別番号】518135412
【氏名又は名称】株式会社リクルート
(74)【代理人】
【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【弁理士】
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【弁理士】
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【弁理士】
【氏名又は名称】内藤 和彦
(74)【代理人】
【識別番号】100139066
【弁理士】
【氏名又は名称】伊藤 健太郎
(72)【発明者】
【氏名】塩澤 繁
【審査官】永安 真
(56)【参考文献】
【文献】特許第6330115(JP,B1)
(58)【調査した分野】(Int.Cl.,DB名)
G07G 1/00 - 1/14
(57)【特許請求の範囲】
【請求項1】
クロマキー合成時に取り除かれる特定色の背景の前に置かれた商品を複数のアングルで撮影した画像を受信する受信部と、
前記受信部により受信されたそれぞれの前記画像に対応付けて登録される商品情報として、少なくとも前記画像に対応する商品の商品名称及び価格の入力を受け付ける入力受付部と、
前記受信部により受信されたそれぞれの前記画像から前記特定色の背景を取り除く背景除去部と、
前記商品が店舗で販売されるときに前記商品の背景となり得る複数の背景画像に対し、前記背景除去部により前記特定色の背景が取り除かれた前記画像を、それぞれ合成することで、合成画像を生成する画像合成部と、
前記画像合成部により生成された前記合成画像と、対応する前記商品情報に含まれる商品名称及び価格との組み合わせを含む教師データを用いて学習し、入力された一つ以上の商品の画像に対応する商品名称及び価格を出力する、学習モデルを生成する学習部と、
を備える学習モデル生成装置。
【請求項2】
前記画像合成部により生成されたそれぞれの前記合成画像に対応する属性情報を調整し、前記属性情報が異なる複数の前記合成画像を生成する合成画像増殖部をさらに備え、
前記学習部は、前記画像合成部及び前記合成画像増殖部により生成された前記合成画像と、対応する前記商品情報に含まれる商品名称及び価格との組み合わせを含む教師データを用いて学習する、
請求項1記載の学習モデル生成装置。
【請求項3】
前記属性情報は、少なくとも、コントラスト、サイズ、回転角度及びノイズのいずれかを含む、
請求項2記載の学習モデル生成装置。
【請求項4】
前記背景画像は、少なくとも、買い物かごの内側を背景とする画像を含む、
請求項1から3のいずれか一項に記載の学習モデル生成装置。
【請求項5】
コンピュータに、
撮影部により撮影される一つ以上の商品をディスプレイに表示する機能、
ディスプレイに表示される一つ以上の商品の画像を学習モデルに入力する機能、
前記学習モデルから出力される商品名称及び価格を、前記商品に対応させてディスプレイに表示する機能、
ユーザによる集計指示に従って、ディスプレイに表示された一つ以上の商品に対応する合計金額をディスプレイに表示する機能、
を実現させるためのプログラムであって、
前記学習モデルは、クロマキー合成時に取り除かれる特定色の背景の前に置かれた商品を複数のアングルで撮影した画像からそれぞれ前記特定色の背景が取り除かれた前記画像を、前記商品が店舗で販売されるときに前記商品の背景となり得る複数の背景画像に対して、それぞれ合成することで生成される合成画像と、前記画像に対応する商品情報に含まれる商品名称及び価格との組み合わせを含む教師データを用いて学習し、入力された一つ以上の商品の画像に対応する商品名称及び価格を出力するように生成されたものである
【請求項6】
端末装置に、
撮影部により撮影される一つ以上の商品をディスプレイに表示する処理、
ディスプレイに表示される一つ以上の商品の画像を学習モデルに入力する処理、
前記学習モデルから出力される商品名称及び価格を、前記商品に対応させてディスプレイに表示する処理、
ユーザによる集計指示に従って、ディスプレイに表示された一つ以上の商品に対応する合計金額をディスプレイに表示する処理、
を実行させるアプリケーションプログラムをインストールさせるために配信することにより、端末装置を製造する方法であって、
前記学習モデルは、クロマキー合成時に取り除かれる特定色の背景の前に置かれた商品を複数のアングルで撮影した画像からそれぞれ前記特定色の背景が取り除かれた前記画像を、前記商品が店舗で販売されるときに前記商品の背景となり得る複数の背景画像に対して、それぞれ合成することで生成される合成画像と、前記画像に対応する商品情報に含まれる商品名称及び価格との組み合わせを含む教師データを用いて学習し、入力された一つ以上の商品の画像に対応する商品名称及び価格を出力するように生成されたものである
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、学習モデル生成装置、プログラム、及び端末装置を製造する方法に関する。
【背景技術】
【0002】
下記特許文献1には、携帯装置を使用して商品を購入する方法が開示されている。この方法では、ユーザが、携帯装置のカメラを利用して商品のバーコードをスキャンし、バーコードに含まれる商品の識別情報をサーバに送信する。続いて、サーバが、商品の識別情報に基づいて商品名称や価格等の商品情報を取得し、取得した商品情報を仮想ショッピングカートに収容する。その後、仮想ショッピングカートに収容された商品情報に基づいて精算処理が行われる。
【先行技術文献】
【特許文献】
【0003】
【文献】特表2013-541107号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1の方法では、商品名称や価格を携帯装置で確認する場合、購入を前提として、商品ごとにバーコードをスキャンさせる必要がある。したがって、陳列棚に並べられている商品や購入が未確定の商品の商品名称や価格を確認する場合には、バーコードをスキャンさせて商品名称や価格を確認し、その後、購入をキャンセルする必要がある。
【0005】
そこで、本発明は、商品名称や価格を手軽に確認できるようにする学習モデル生成装置、プログラム、及び端末装置を製造する方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の一態様に係る学習モデル生成装置は、クロマキー合成時に取り除かれる特定色の背景の前に置かれた商品を複数のアングルで撮影した画像を受信する受信部と、前記受信部により受信されたそれぞれの前記画像に対応付けて登録される商品情報として、少なくとも前記画像に対応する商品の商品名称及び価格の入力を受け付ける入力受付部と、前記受信部により受信されたそれぞれの前記画像から前記特定色の背景を取り除く背景除去部と、前記商品が店舗で販売されるときに前記商品の背景となり得る複数の背景画像に対し、前記背景除去部により前記特定色の背景が取り除かれた前記画像を、それぞれ合成することで、合成画像を生成する画像合成部と、前記画像合成部により生成された前記合成画像と、対応する前記商品情報に含まれる商品名称及び価格との組み合わせを含む教師データを用いて学習し、入力された一つ以上の商品の画像に対応する商品名称及び価格を出力する、学習モデルを生成する学習部と、を備える。
【0007】
上記態様において、前記画像合成部により生成されたそれぞれの前記合成画像に対応する属性情報を調整し、前記属性情報が異なる複数の前記合成画像を生成する合成画像増殖部をさらに備え、前記学習部は、前記画像合成部及び前記合成画像増殖部により生成された前記合成画像と、対応する前記商品情報に含まれる商品名称及び価格との組み合わせを含む教師データを用いて学習することとしてもよい。
【0008】
上記態様において、前記属性情報は、少なくとも、コントラスト、サイズ、回転角度及びノイズのいずれかを含むこととしてもよい。
【0009】
上記態様において、前記背景画像は、少なくとも、買い物かごの内側を背景とする画像を含むこととしてもよい。
【0010】
本発明の他の態様に係るプログラムは、コンピュータに、撮影部により撮影される一つ以上の商品をディスプレイに表示する機能、ディスプレイに表示される一つ以上の商品の画像を学習モデルに入力する機能、学習モデルから出力される商品名称及び価格を、前記商品に対応させてディスプレイに表示する機能、ユーザによる集計指示に従って、ディスプレイに表示された一つ以上の商品に対応する合計金額をディスプレイに表示する機能、を実現させる。
【0011】
本発明の他の態様に係る端末装置を製造する方法は、端末装置に、撮影部により撮影される一つ以上の商品をディスプレイに表示する処理、ディスプレイに表示される一つ以上の商品の画像を学習モデルに入力する処理、学習モデルから出力される商品名称及び価格を、前記商品に対応させてディスプレイに表示する処理、ユーザによる集計指示に従って、ディスプレイに表示された一つ以上の商品に対応する合計金額をディスプレイに表示する処理、を実行させるアプリケーションプログラムをインストールさせるために配信することにより、端末装置を製造する。
【発明の効果】
【0012】
本発明によれば、商品名称や価格を手軽に確認できるようにする学習モデル生成装置、プログラム、及び端末装置を製造する方法を提供することができる。
【図面の簡単な説明】
【0013】
図1】実施形態に係る学習モデル生成装置の構成を例示する図である。
図2】実施形態に係る端末装置の構成を例示する図である。
図3】(A)乃び(B)、並びに(C)乃び(D)は、グリーンの背景の前に置かれた商品をアングルを変えて撮影した画像の一例を示す模式図である。
図4】(A)乃至(D)は、図3(A)乃至(D)の画像からグリーンの背景を取り除いた画像を例示する模式図である。
図5】(A)は店舗にある商品陳列棚の画像を例示し、(B)は(A)の画像上に図4(A)の画像を合成して作成した合成画像を例示する模式図である。
図6】端末装置のタッチパネルに表示される画面の一例を示す模式図である。
図7】端末装置のタッチパネルに表示される画面の一例を示す模式図である。
図8】実施形態に係る学習モデル生成装置の動作手順の一例を説明するフローチャートである。
図9】実施形態に係る端末装置の動作手順の一例を説明するフローチャートである。
【発明を実施するための形態】
【0014】
添付図面を参照して、本発明の好適な実施形態について説明する。なお、各図において、同一の符号を付したものは同一又は同様の構成を有する。
【0015】
図1を参照し、実施形態に係る学習モデル生成装置の構成について説明する。学習モデル生成装置1は、後述する端末装置のカメラで撮影された商品の画像を入力とし、その画像に対応する商品名称及び価格を出力とする学習モデルを生成するサーバ装置である。
【0016】
学習モデル生成装置1は、物理的な構成として、例えば、CPU(プロセッサ)及びメモリを含む制御装置10、通信装置20、記憶装置30、入力装置40並びに出力装置(例えば、ディスプレイ、スピーカ)50等を備えて構成される。カメラ9は、有線通信又は無線通信を用いて学習モデル生成装置1に接続することができる。CPUがメモリや記憶装置30に格納された所定のプログラムを実行することにより、以下の各機能が発現する。
【0017】
学習モデル生成装置1は、機能的な構成として、例えば、受信部11、入力受付部12、背景除去部13、画像合成部14、合成画像増殖部15及び学習部16を有する。各機能について以下に説明する。
【0018】
受信部11は、クロマキー合成時に取り除かれる特定色の背景の前に置かれた商品を、複数のアングルで撮影した画像をカメラ9から受信する。クロマキー合成は、映像(画像)を合成する技法の一つであり、特定の色が表示されている領域に他の映像(画像)をはめ込む技法である。特定の色として、グリーンやブルーが一般に使用される。本実施形態では、特定の色としてグリーンを用いる場合について、例示的に説明する。撮影するアングルは、異なるアングルの数が多くなるほど学習モデルの学習効果を高めることができる。他方、撮影するアングルの数が多くなるほど撮影の手間や学習時間が増大することになる。したがって、学習効果と労力とを勘案し、撮影するアングルの数を適宜定めることが望ましい。
【0019】
図3に、異なるアングルで商品を撮影した画像について例示する。図3(A)は、グリーンの背景(グリーンバック)Bの前に立てて置いたAコーヒーMaをほぼ正面から撮影した画像である。図3(B)は、図3(A)のAコーヒーMaを横に寝かせた状態でほぼ正面から撮影した画像である。図3(C)は、グリーンの背景Bの前に立てて置いたBコーヒーMbをほぼ正面から撮影した画像である。図3(D)は、図3(C)のBコーヒーMbを真上に近い所から撮影した画像である。
【0020】
図1に示す入力受付部12は、受信部11により受信されたそれぞれの画像に対応付けて登録される商品情報の入力を受け付ける。商品情報は、画像に対応する商品に関する情報であり、例えば、商品名称、価格、商品の産地、商品の賞味期限、商品の評価等を含む。本実施形態では、商品情報として、少なくとも、商品名称及び価格を含むこととする。商品情報の入力は、例えば、管理者が入力装置40を操作して入力することができる。入力された商品情報を画像に対応付けて登録することで、後述する学習モデルを生成する際に、商品情報を入力する労力を削減することができる。
【0021】
背景除去部13は、受信部11により受信されたそれぞれの画像から特定色の背景を取り除く。図4に、特定色の背景が取り除かれた画像について例示する。図4(A)、(B)は、図3(A)、(B)の各画像からグリーンの背景Bを取り除いたAコーヒーMaの画像である。図4(C)、(D)は、図3(C)、(D)の各画像からグリーンの背景Bを取り除いたBコーヒーMbの画像である。
【0022】
図1に示す画像合成部14は、背景除去部13により特定色の背景が取り除かれた画像を、複数の背景画像にそれぞれ合成することで、合成画像を生成する。合成に用いる背景画像は、商品が店舗で販売されるときに商品の背景となり得る画像を用いる。例えば、商品を入れる買い物かごの内側を背景とする画像や、商品が陳列される棚を背景とする画像等を用いることが好ましい。背景画像は、背景画像の数が多くなるほど学習モデルの学習効果を高めることができる。他方、背景画像の数が多くなるほど合成の手間や学習時間が増大することになる。したがって、学習効果と労力とを勘案し、背景画像の数を適宜定めることが望ましい。
【0023】
図5に、背景画像及び合成画像の一例を示す。図5(A)は、飲料品が陳列されている棚を写した背景画像である。図5(B)は、図5(A)の背景画像上に、図4(A)のAコーヒーMaの画像を合成することで作成された合成画像である。
【0024】
図1に示す合成画像増殖部15は、画像合成部14により生成されたそれぞれの合成画像に対応する属性情報を調整し、属性情報が異なる複数の合成画像を生成する。属性情報は、例えば、合成画像のコントラスト、合成画像のサイズ、元の合成画像から画像全体を回転させた角度及び合成画像に含まれるノイズを含む。属性情報を変更することで合成画像の数を増やすことができるため、異なる合成画像を生成する処理の高速化を実現することが可能となる。
【0025】
増殖させる合成画像は、増殖させる数が多くなるほど学習モデルの学習効果を高めることができる。他方、増殖させる数が多くなるほど調整の手間や学習時間が増大することになる。したがって、学習効果と労力とを勘案し、増殖させる合成画像の数を適宜定めることが望ましい。
【0026】
学習部16は、画像合成部14及び合成画像増殖部15により生成された合成画像と、その合成画像に対応する商品情報に含まれる商品名称及び価格との組み合わせを含む教師データを学習することで、学習モデルを生成する。学習部16は、学習した教師データに基づいて、学習モデルに入力された一つ以上の商品の画像に対応する商品名称及び価格を出力する。
【0027】
学習部16の機能は、例えば、YOLO(You Only Look Once)、SSD(Single Shot MultiBox Detector)、R-CNN(Regions with CNN features)等の物体検出用のディープラーニングモデルを利用して実現することができる。
【0028】
図2を参照し、実施形態に係る端末装置の構成について説明する。端末装置6は、物理的な構成として、例えば、CPU(プロセッサ)及びメモリを含む制御装置61、記憶装置62、入力装置及びディスプレイを含むタッチパネル63、通信装置64並びにカメラ(撮影装置)65等を備えて構成される。
【0029】
端末装置6には、学習部16が生成した学習モデルを搭載したアプリケーションプログラムがインストールされている。CPUがメモリ又は記憶装置62に格納されたアプリケーションプログラムを実行することにより、以下の各機能が発現する。
【0030】
端末装置6は、機能的な構成として、例えば、商品画像表示機能、入力機能、商品情報表示機能、及び合計金額表示機能を有する。商品画像表示機能は、カメラ65で撮影されている一つ以上の商品をディスプレイに表示する機能である。入力機能は、ディスプレイに表示される一つ以上の商品の画像を学習モデルに入力する機能である。
【0031】
商品情報表示機能は、学習モデルから出力される商品名称及び価格を、その商品に対応させてディスプレイに表示する機能である。図6に、商品に対応させて商品名称及び価格を表示する画面の一例を示す。端末装置6のディスプレイ63には、カメラ65により撮影されている買い物かごの内側が表示されている。買い物かごの内側には、AコーヒーMa、BコーヒーMb、たまねぎMc、りんごMd、バナナMeが収納されている。
【0032】
図6には、AコーヒーMaに対応させて、商品名称“Aコーヒー”及び価格“¥67”が表示され、BコーヒーMbに対応させて、商品名称“Bコーヒー”及び価格“¥95”が表示されている。同様に、たまねぎMcに対応させて、商品名称“たまねぎ”及び価格“¥100”が表示され、りんごMdに対応させて、商品名称“りんご”及び価格“¥109”が表示され、バナナMeに対応させて、商品名称“バナナ”及び価格“¥201”が表示されている。画面下部にあるボタンTをクリックすると、集計指示が送出され、後述する図7に示す画面に遷移する。
【0033】
合計金額表示機能は、ユーザによる集計指示に従って、ディスプレイに表示された一つ以上の商品に対応する合計金額等を表示する機能である。図7に、各商品に対応する合計金額を表示する画面の一例を示す。端末装置6のディスプレイ63には、カメラ65により撮影されている各商品の明細情報及び最安値情報と、合計及び最安値合計とが表示されている。
【0034】
明細情報は、カメラ65により撮影されている各商品の商品名称及び価格であり、最安値情報は、その商品を販売している周辺店舗での最安値及び最安値の店舗名称である。合計は、カメラ65により撮影されている各商品の価格の合計値であり、最安値合計は、各商品の最安値の合計値である。図7には、合計として、“572円”が表示され、最安値合計として、“468円”が表示されている。
【0035】
このように、端末装置6のカメラ65を用いて一つ以上の商品をディスプレイに表示すると、各商品の合計金額や周辺店舗を含む店舗での各商品の最安値等が表示されるため、ユーザの買い物を効率よく支援することが可能となる。
【0036】
次に、図8を参照して、実施形態に係る学習モデル生成装置1の動作の一例について説明する。
【0037】
最初に、学習モデル生成装置1の受信部11は、グリーンの背景の前に置かれた商品を、複数のアングルで撮影した画像をカメラ9から受信する(ステップS101)。
【0038】
続いて、入力受付部12は、上記ステップS101で受信した各画像に対応付けて登録される商品情報として、商品名称及び価格の入力を受け付ける(ステップS102)。
【0039】
続いて、背景除去部13は、上記ステップS101で受信した各画像からグリーンの背景を取り除く(ステップS103)。
【0040】
続いて、画像合成部14は、上記ステップS103でグリーンの背景が取り除かれた画像を、複数の背景画像にそれぞれ合成することで、合成画像を生成する(ステップS104)。
【0041】
続いて、合成画像増殖部15は、上記ステップS104で生成された各合成画像に対応する属性情報を調整し、属性情報が異なる複数の合成画像を生成する(ステップS105)。
【0042】
続いて、学習部16は、上記ステップS104及びステップS105で生成された合成画像と、その合成画像に対応する商品情報に含まれる商品名称及び価格との組み合わせを含む教師データを用いて学習モデルを生成する(ステップS106)。そして本動作を終了する。
【0043】
次に、図9を参照して、実施形態に係る端末装置6の動作の一例について説明する。
【0044】
最初に、端末装置6は、カメラ65で撮影されている一つ以上の商品をディスプレイに表示する(ステップS201)。
【0045】
続いて、端末装置6は、ディスプレイに表示される一つ以上の商品の画像を学習モデルに入力する(ステップS202)。
【0046】
続いて、端末装置6は、学習モデルから出力される商品名称及び価格を、その商品に対応させてディスプレイに表示する(ステップS203)。
【0047】
続いて、端末装置6は、ユーザによる集計指示(ボタンTをクリック)が発行されたかどうかを判定する(ステップS204)。この判定がNOである場合(ステップS204;NO)には、集計指示が発行されるまで待機する。ここで、集計指示の発行を待機している際に、カメラ65で撮影される商品が変更された場合には、上記ステップS201に処理を移行し、変更された商品について、前述したステップS201からステップS203までの処理を実行する。
【0048】
一方、上記ステップS204で集計指示が発行されたと判定された場合(ステップS204;YES)に、端末装置6は、ディスプレイに表示された各商品に対応する合計金額等をディスプレイに表示する(ステップS205)。そして本動作を終了する。
【0049】
前述したように、実施形態における学習モデル生成装置1によれば、グリーンの背景の前に置かれた商品を複数のアングルで撮影した画像を受信し、その各画像に対応付けて登録される商品名称及び価格の入力を受け付けるとともに、商品が店舗で販売されるときに商品の背景となり得る複数の背景画像に対し、各画像からグリーンの背景が取り除かれた画像をそれぞれ合成して合成画像を生成し、その合成画像と、対応する商品名称及び価格との組み合わせを含む教師データを用いて学習モデルを生成することができる。そして、この学習モデルに、一つ以上の商品の画像を入力して、商品の画像に対応する商品名称及び価格を出力することが可能となる。
【0050】
それゆえ、実施形態における学習モデル生成装置1によれば、商品名称や価格を手軽に確認させることが可能となる。
【0051】
また、学習モデル生成装置1によれば、生成した各合成画像に対応する属性情報を調整し、属性情報が異なる複数の合成画像をさらに生成することで、教師データに用いる合成画像を増やす処理を高速化することができる。
【0052】
[変形例]
なお、本発明は、前述した実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内において、他の様々な形で実施することができる。したがって、上記実施形態はあらゆる点で単なる例示にすぎず、限定的に解釈されるものではない。例えば、前述した各処理ステップは処理内容に矛盾を生じない範囲で任意に順番を変更し、又は並列に実行することができる。
【0053】
また、学習モデル生成装置1の構成要素は、前述した実施形態における構成要素に限定されることなく、必要に応じて任意の構成要素を適宜省略することや追加することができる。例えば、学習モデル生成装置1の機能的な構成のうち、合成画像増殖部15を省略することとしてもよい。
【符号の説明】
【0054】
1…学習モデル生成装置、6…端末装置、9…カメラ、10…制御装置、11…受信部、12…入力受付部、13…背景除去部、14…画像合成部、15…合成画像増殖部、16…学習部、20…通信装置、30…記憶装置、40…入力装置、61…制御装置、62…記憶装置、63…タッチパネル(入力装置及びディスプレイ)、64…通信装置、65…カメラ。
図1
図2
図3
図4
図5
図6
図7
図8
図9