IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノンマーケティングジャパン株式会社の特許一覧 ▶ キヤノンITソリューションズ株式会社の特許一覧

特開2024-172890情報処理システム及びその制御方法、プログラム
<>
  • 特開-情報処理システム及びその制御方法、プログラム 図1
  • 特開-情報処理システム及びその制御方法、プログラム 図2
  • 特開-情報処理システム及びその制御方法、プログラム 図3
  • 特開-情報処理システム及びその制御方法、プログラム 図4
  • 特開-情報処理システム及びその制御方法、プログラム 図5
  • 特開-情報処理システム及びその制御方法、プログラム 図6
  • 特開-情報処理システム及びその制御方法、プログラム 図7
  • 特開-情報処理システム及びその制御方法、プログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024172890
(43)【公開日】2024-12-12
(54)【発明の名称】情報処理システム及びその制御方法、プログラム
(51)【国際特許分類】
   G06V 10/72 20220101AFI20241205BHJP
   G06T 7/00 20170101ALI20241205BHJP
【FI】
G06V10/72
G06T7/00 350B
【審査請求】未請求
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2023090928
(22)【出願日】2023-06-01
(71)【出願人】
【識別番号】390002761
【氏名又は名称】キヤノンマーケティングジャパン株式会社
(71)【出願人】
【識別番号】592135203
【氏名又は名称】キヤノンITソリューションズ株式会社
(74)【代理人】
【識別番号】100189751
【弁理士】
【氏名又は名称】木村 友輔
(74)【代理人】
【識別番号】100227857
【弁理士】
【氏名又は名称】中山 圭
(72)【発明者】
【氏名】太田 梓
(72)【発明者】
【氏名】石関 昭男
(72)【発明者】
【氏名】高見澤 亮
(72)【発明者】
【氏名】田路 賢太郎
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096EA13
5L096GA38
5L096KA04
(57)【要約】
【課題】 画像サイズを変更して学習・推論する場合であっても、精度よく認識することを可能とする仕組みを提供する。
【解決手段】 認識対象物を含む画像を取得する取得し、前記認識対象物の大きさに反比例する大きさの領域を、当該認識対象物を含む画像に対して付加するように加工する。加工された画像を用いて学習処理を行うように制御する。
【選択図】 図6
【特許請求の範囲】
【請求項1】
認識対象物を含む画像を取得する取得手段と、
前記認識対象物の大きさに反比例する大きさの領域を、当該認識対象物を含む画像に対して付加する加工手段と、
前記加工手段で加工された画像を用いて学習処理を行うように制御する制御手段と
を備えることを特徴とする情報処理システム。
【請求項2】
前記制御手段は、前記学習処理を行う前に、前記加工された画像をリサイズするように制御することを特徴とする請求項1に記載の情報処理システム。
【請求項3】
前記学習処理は、画像から認識対象物の種別を識別するための学習済みモデルを生成する処理であることを特徴とする請求項1に記載の情報処理システム。
【請求項4】
認識対象物を含む画像を取得する取得手段と、
前記認識対象物の大きさに反比例する大きさの領域を、当該認識対象物を含む画像に対して付加する加工手段と、
前記加工手段で加工された画像を用いて推論処理を行うように制御する制御手段と
を備えることを特徴とする情報処理システム。
【請求項5】
前記加工手段は、画像サイズに応じて前記領域の色を変えるような加工を施すことを特徴とする請求項1又は4に記載の情報処理システム。
【請求項6】
前記色の情報を用いて、画像サイズを識別することを特徴とする請求項5に記載の情報処理システム。
【請求項7】
前記領域は、大きさの調整を受け付けることを特徴とする請求項1又は4に記載の情報処理システム。
【請求項8】
前記大きさの調整は、前記領域の縦幅と前記領域の横幅の調整を受け付けることを特徴とする請求項7に記載の情報処理システム。
【請求項9】
前記領域の縦幅は画像の縦幅に基づく幅であって、前記領域の横幅は画像の横幅に基づく幅であることを特徴とする請求項8に記載の情報処理システム。
【請求項10】
前記領域は、枠であることを特徴とする請求項1又は4のいずれか1項に記載の情報処理システム。
【請求項11】
前記認識対象物は、食器、衣類、飲料容器、惣菜、玩具の少なくとも1つを含むことを特徴とする請求項1又は4に記載の情報処理システム。
【請求項12】
認識対象物を含む画像を取得する取得ステップと、
前記認識対象物の大きさに反比例する大きさの領域を、当該認識対象物を含む画像に対して付加する加工ステップと、
前記加工ステップで加工された画像を用いて学習処理を行うように制御する制御ステップと
を備えることを特徴とする情報処理システムの制御方法。
【請求項13】
認識対象物を含む画像を取得する取得ステップと、
前記認識対象物の大きさに反比例する大きさの領域を、当該認識対象物を含む画像に対して付加する加工ステップと、
前記加工ステップで加工された画像を用いて推論処理を行うように制御する制御ステップと
を備えることを特徴とする情報処理システムの制御方法。
【請求項14】
少なくとも1つのコンピュータを、請求項1又は4に記載の情報処理システムの各手段として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像を用いて、画像に含まれる認識すべき対象を認識するための技術に関する。
【背景技術】
【0002】
従来、識別対象の物体を含む画像(訓練画像、教師データ)を用いた機械学習により学習済みモデルを生成し、生成された学習済みモデルに画像を入力することで、画像に含まれる物体を認識する技術が知られている。
【0003】
特許文献1には、教師画像の数が不足した場合に、質の良い教師画像を生成することが困難という課題を解決するために、空間的に反転する処理、色調を変更する処理、拡大する処理、縮小する処理、平行移動する処理、ひずませる処理、教師画像を別の画像と合成する処理を用いて教師画像を生成する方法が記載されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2018-169672号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
学習済みモデルの生成や生成された学習済みモデルを用いた推論を行う際には、学習用の画像や推論対象の画像を拡大・縮小して画像サイズを統一してから学習・推論することが一般的である。このように画像サイズを変更することで、認識対象物の大きさに係る情報が欠落してしまい、形状や色彩など大きさ以外の特徴が似ている対象物については、認識精度が低下してしまうという課題がある。
【0006】
特許文献1で開示された技術では、画像サイズが変更されることによる認識精度の低下という課題を考慮した教師画像の生成方法は開示されていない。
【0007】
そこで、本発明は、画像サイズを変更して学習・推論する場合であっても、精度よく認識することを可能とする仕組みを提供することを目的とする。
【課題を解決するための手段】
【0008】
認識対象物を含む画像を取得する取得手段と、
前記認識対象物の大きさに反比例する大きさの領域を、当該認識対象物を含む画像に対して付加する加工手段と、
前記加工手段で加工された画像を用いて学習処理を行うように制御する制御手段と
を備えることを特徴とする。
【発明の効果】
【0009】
本発明によれば、画像サイズを変更して学習・推論する場合であっても、精度よく認識することが可能となる。
【図面の簡単な説明】
【0010】
図1】本実施形態に係る情報処理装置を適用可能なシステムを説明する図である。
図2】各種装置のハードウェア構成の一例を示す図である。
図3】AI学習時の一例を示すフローチャートである。
図4】AI推論時の一例を示すフローチャートである。
図5】本発明の課題を説明するための図の一例である。
図6】画像の外周部の幅を拡張する一例を説明する図である。
図7】画像の外出部の幅に色付けする一例を説明する図である。
図8】食器の検出の一例を説明する図である。
【発明を実施するための形態】
【0011】
以下、図面を参照して、本発明の実施形態を詳細に説明する。本実施例では適用対象の具体例として食堂で用いられる食器の種類を識別するケースを用いて説明するが、適用対象はこれに限られず、衣類や飲料容器や惣菜、玩具(例えば、車の玩具と実物)など、デザインが同じで大きさが異なる対象物を区別して認識する処理にも適用可能である。
【0012】
まず、図1を参照して、本発明の実施形態における情報処理システムの構成の一例について説明する。
【0013】
本発明における情報処理システムは、カメラ103とディスプレイ104と精算台105で構成されている食堂精算レーン102が、所定のコントローラ106(例えばPoEハブ)からネットワーク107(例えばイーサネット)を介して、クライアント端末101と通信可能に接続されて構成されている。なおクライアント端末101に対して、複数の食堂精算レーン102が接続されてもよい。
【0014】
カメラ103は、精算台105のトレー全体が写る範囲を撮影可能な位置に設置されている。
【0015】
精算台105には、会計のために食後の食器が載ったトレーが置かれる。なお、食器が載ったトレーは、食前の状態でもよい。
【0016】
クライアント端末101は、例えばパーソナルコンピューター(以下、PC)であり、カメラ103で撮像された画像から食器を識別し、決済等の処理を行う。クライアント端末101は深層距離学習(ディープメトリックラーニング(Deep Metric Learning))の技術を用いて、精算台105に置かれた食器の種類を識別する。
【0017】
深層距離学習とは、画像の特徴量のみを抽出し、抽出した特徴量からアルゴリズムによって画像の特徴量ベクトルを算出し、その距離を測定することでどの商品に最も近いかを求める手法である。予めサンプル画像を用意しておき、各画像から特徴量ベクトルを抽出する。入力画像について、各サンプル画像と特養量ベクトルの距離を測定し、最も近い距離にあるサンプルと同一種類であると判定する。本実施例では、深層距離学習を用いて説明をするが、Deep Learning Classification等の他の手法を用いても良い。
【0018】
ディスプレイ104は、クライアント端末101で処理された決済の情報を表示し、食事を行った支払い者に精算を指示する。なお、ディスプレイ104には、カメラ103の映像を表示してもよい。
【0019】
次に図2を参照して、本発明を適用可能な装置の一例としてのクライアント端末101の構成の一例を示す。
【0020】
図2において、内部バス250に対してCPU201、メモリ202、不揮発性メモリ203、画像処理部204、ディスプレイ205、操作部206、記録媒体I/F207、外部I/F209、通信I/F210が接続されている。内部バス250に接続される各部は、内部バス250を介して互いにデータのやりとりを行うことができるようにされている。
【0021】
メモリ202は、例えばRAM(半導体素子を利用した揮発性のメモリなど)からなる。CPU201は、例えば不揮発性メモリ203に格納されるプログラムに従い、メモリ202をワークメモリとして用いて、クライアント端末101の各部を制御する。不揮発性メモリ203には、画像データや音声データ、その他のデータ、CPU201が動作するための各種プログラムなどが格納される。不揮発性メモリ203は例えばハードディスク(HD)やROMなどで構成される。
【0022】
画像処理部204は、CPU201の制御に基づいて、不揮発性メモリ203や記録媒体208に格納された画像データや、外部I/F209を介して取得した映像信号、通信I/F210を介して取得した画像データ、撮像された画像などに対して各種画像処理を施す。画像処理部204が行う画像処理には、A/D変換処理、D/A変換処理、画像データの符号化処理、圧縮処理、デコード処理、拡大/縮小処理(リサイズ)、ノイズ低減処理、色変換処理などが含まれる。画像処理部204は特定の画像処理を施すための専用の回路ブロックで構成しても良い。また、画像処理の種別によっては画像処理部204を用いずにCPU201がプログラムに従って画像処理を施すことも可能である。画像から認識すべき対象(食器)を認識する処理は、CPU201が画像処理部204と協働して行う。
【0023】
ディスプレイ205は、CPU201の制御に基づいて、画像やGUI(Graphical User Interface)を構成するGUI画面などを表示する。CPU201は、プログラムに従い表示制御信号を生成し、ディスプレイ205に表示するための映像信号を生成してディスプレイ205に出力するようにクライアント端末101の各部を制御する。ディスプレイ205は出力された映像信号に基づいて映像を表示する。なお、クライアント端末101自体が備える構成としてはディスプレイ205に表示させるための映像信号を出力するためのインターフェースまでとし、ディスプレイ205は外付けのモニタ(テレビなど)で構成してもよい。
【0024】
操作部206は、キーボードなどの文字情報入力デバイスや、マウスやタッチパネルといったポインティングデバイス、ボタン、ダイヤル、ジョイスティック、タッチセンサ、タッチパッドなどを含む、ユーザー操作を受け付けるための入力デバイスである。なお、タッチパネルは、ディスプレイ205に重ね合わせて平面的に構成され、接触された位置に応じた座標情報が出力されるようにした入力デバイスである。
【0025】
記録媒体I/F207は、メモリーカードやCD、DVDといった記録媒体208が装着可能とされ、CPU201の制御に基づき、装着された記録媒体208からのデータの読み出しや、当該記録媒体208に対するデータの書き込みを行う。外部I/F209は、外部機器と有線ケーブルや無線によって接続し、映像信号や音声信号の入出力を行うためのインターフェースである。通信I/F210は、外部機器やインターネット211などと通信して、ファイルやコマンドなどの各種データの送受信を行うためのインターフェースである。
【0026】
カメラ部212は、光学像を電気信号に変換するCCDやCMOS素子等で構成される撮像素子(撮像センサー)等で構成されるカメラユニットである。
【0027】
次に図3を参照して、本発明の実施形態における、食器認識に係る学習処理(AI:Artificial Intelligenceを用いた学習処理)の基本処理について説明する。なお、各ステップの処理は、各装置のCPU201が実行する。食堂の客が食堂精算レーン102を利用する前の処理として、クライアント端末101で画像を学習するときに、図3の処理が開始される。
【0028】
S301では、CPU201は、カメラ103で撮影された食器を含む画像から食器毎の画像を外接矩形で切り出して取得し、記録媒体208に保存する。具体的には、カメラ103で撮影した画像から、食器の領域を検出する。この検出処理は、後述する食器の種別の検出とは異なる検出処理であり、種別は不明であるが、食器がある(あるいは、トレーではない物体がある)ということまでがわかる検出処理である。この検出処理で検出された食器の領域に対して、食器の外形に接するように矩形(以下、外接矩形)を設定する。元の画像から設定された外接矩形の領域の部分画像(すなわち、単一の食器を含む画像)を切り出して取得し、記録媒体208に保存する。
【0029】
S302では、CPU201は、S301で取得して保存した切り出し画像に対して、外周部を画像サイズに反比例するように幅を拡張する。本実施形態で説明する反比例とは、物事の一方が増すにつれて、他方が減る関係を含む。
【0030】
本ステップについて、具体的に図5図6を用いて説明する。図5(a)では、色や形状が似ているが大きさが異なる複数の食器の切り出し画像(大食器画像501、小食器画像502)を示す。しかし、一般的な画像分類のためのAIモデルでは、AIモデルに入力するデータの大きさを揃える必要がある。そのため、AIに画像を学習させると、同じ大きさにリサイズしてしまい、大きさの情報が欠落してしまう。すなわち、図5(b)に示す、学習用大食器画像503と、学習用小食器画像504のように、AIに学習させる際に画像を同じ大きさにリサイズする処理が行われる。そのため、元の画像サイズでは大きさが異なる場合であっても、同じ食器として認識されてしまい、認識精度の低下につながる。
【0031】
そこで、本ステップでは、図6(a)のように、切り出し画像の外周部に補間幅601を設定(付加)する。補間幅601は、元の画像サイズに反比例するように設定される。例えば、大食器画像501の補間幅601の幅は狭く、小食器画像502の補間幅601の幅は広くなるように設定される。具体的な補間幅601の幅の算出方法の一例を以下に示す。
(1)横軸の拡張する
(e-画像の横幅) * d/2
d:拡張率の係数 0.0~1.0
e:拡張する画像サイズの上限
※画像の大きさがe以上の場合は枠を
(2)縦軸の拡張する
(e-画像の縦幅) * d/2
d:拡張率の係数 0.0~1.0
e:拡張する画像サイズの上限
※画像の大きさがe以上の場合は枠を
(3)画像の左右を(1)で求めた値(横軸の拡張する幅)で拡張、上下を(2)で求めた値(縦軸の拡張する幅)で拡張する補間幅601を付加する。
【0032】
上記のように、切り出し画像に補間幅601を設定した後、AIに学習させる。図6(b)では、AIに学習させる画像サイズの一例を示す。学習用大食器画像503と、学習用小食器画像504は、AIに学習させる際に画像を同じ大きさにリサイズする処理が行われる。このとき、画像の外周部では補間幅601が設定されている。これにより、AI学習時に画像がリサイズされたとしても、画像に設定された補間幅601により食器の大きさを判別できるようになる。すなわち、食器の大きさ情報が反映された画像となるため、色や形状が似ている食器についても、大きさの違いに基づいて認識精度を向上させることが可能となる。
【0033】
なお、補間幅601のスケールは、例えば以下のような数式により変更ができるものとする。以下の数式では、拡張する値に対して任意の係数(ここでは0.5)により幅を調整させている。
縦軸:(拡張する画像サイズの上限-画像サイズ)/2×0.5
横軸:(拡張する画像サイズの上限-画像サイズ)/2×0.5
【0034】
補間幅601の大きさを調整した際の一例を図6(c)に示す。図6(c)はAIに学習させる際にリサイズされた後の画像であり、図6(b)に比べて補間幅601の大きさが調整されている。リサイズ前の画像サイズが小さい画像については、補間幅601を設定することで縮小された画像となるため、情報が欠落し認識精度の低下につながることが懸念されるが、補間幅601のスケールを調整することにより、縮小率を抑え認識精度の低下を防ぐことが可能となる。
【0035】
S303では、CPU201は、付加した補間幅601の色情報(RGB)を設定する。具体的には、切り出した画像サイズに基づき求められた値を色情報として設定することで、付加した補間幅をもとの画像サイズに応じた色とする。色情報として設定される値を算出するための数式の一例を以下に示す。なお、以下の数式では縦幅、横幅を用いて算出しているが、画像の面積、アスペクト比や外部から取得した位置情報、距離情報等のような画像サイズに基づく値であれば、それを用いて計算してもよい。
(1)画像の横幅を表す
(画像の横幅 - f)/g*h
f:大きさの下限
g:大きさの上限
h:画像の最大画素値
※大きさに反比例する値でもよい
※大きさがf以下の時は横幅を表す値は0、大きさがg以上のときは横幅を表す
(2)画像の縦幅を表す
(画像の縦幅 - f)/g*h
f:大きさの下限
g:大きさの上限
h:画像の最大画素値
※大きさに反比例する値でもよい
※大きさがf以下の時は横幅を表す値は0、大きさがg以上のときは横幅を表す
(3)拡張箇所のR成分を(1)の値、B成分を(2)の値で塗りつぶす
【0036】
図7(a)に、上記数式を用いて算出された値が補間幅601に入力された例を示す。大食器画像501の着色後補間幅701は、RGB=(200,0,200)の値で塗りつぶされている。これにより視覚的には薄い紫色で示される。また、小食器画像502の着色後補間幅702は、RGB=(20,0,20)の値で塗りつぶされており、視覚的には濃い紫色で示される。すなわち、色の濃淡により画像の大きさを判別している。なお、上記の例では、大食器画像501は薄い色、小食器画像502は濃い色で示しているが、色の濃淡は逆でも良い。図7(b)はAI学習のためにリサイズされた後の一例である。このように外周部の補間幅601に色を付けることにより、AIは補間幅のサイズだけでなく色も材料に切り出し画像の大きさを判断することができるようになり、認識精度の向上につながる。
【0037】
S304では、CPU201は、S303で生成された補間幅に対して値が入力された大食器画像703と小食器画像704の双方を、それぞれの画像の食器の種別を示すラベル情報を用いた学習処理を行い、学習済モデルを作成する。作成した学習済みモデルを記録媒体208に記録する。
【0038】
以上が図3の説明である。
【0039】
次に図4を参照して、本実施形態における、食器の認識処理の一例を示す。この処理は、図3の学習処理で生成された学習済みモデルを用いた推論フェーズの処理であり、食堂の客が食堂精算レーン102を利用する際に行われる処理である。なお、各ステップの処理は、CPU201が実行する。なお、図3の処理と図4の処理を同じクライアント端末101が行う例を説明するが、図3の処理で生成された学習済みモデルを使うのであれば、図4の処理は図3の処理を行うクライアント端末101とは別の個体の情報処理装置(例えばPC)で実行するようにしてもよい。
【0040】
S401では、CPU201は、カメラ103で精算台105の範囲を撮影する。カメラ103で清算台を撮影する際、常に撮影し続けてもいいし、撮影範囲内に何らかの動く物体を検知した場合に、撮影を開始しても良い。
【0041】
S402では、CPU201は、撮影画像から、所定の範囲にトレーが置かれているかを判定するトレー配置判定処理を実行する。S403でトレーが置かれていると判断された場合はS404の食器位置検出処理を行い、トレーが置かれていないと判断された場合はS402のトレー配置判定が再度実行される。
【0042】
S404では、CPU201は、カメラ103による撮影を行い、撮影された画像から、S301と同様に、食器毎の画像を外接矩形で切り出して取得する。図8に、カメラ103で撮影された画像の例を示す。撮影画像801には、精算台105に置かれたトレー802と食器803a~803dが写っている。トレー上の食器の位置を検出し、それぞれの食器に対して外接矩形804a~804dを算出する。なお、図8は食べ残しが無い食器の画像の例であるが、食べ残しがある場合には、各食器の内側に食べ残しが写ったものとなる。
【0043】
S405では、CPU201は、検出した食器の外接矩形の外周部を画像サイズに反比例する幅拡張する。本ステップの拡張処理は、学習時のS302の処理と同様である。
【0044】
S406では、CPU201は、検出した食器の外接矩形の拡張した箇所に比例する値を入れる。本ステップの処理は、学習時のS303の処理と同様である。
【0045】
S407では、CPU201は、AIによる食器の種類判別を実行する。具体的には、S304で作成された学習済モデル(記録媒体208に記憶されている学習済みモデル)に、S406で作成した加工済み画像を入力し、推論処理を行う。S404で複数の切り出し画像を取得していた場合は、それらの全てについてそれぞれ推論処理を行う。推論処理の結果として、各加工済み画像について、複数の食器種別毎のスコア(該当する食器種別に対する確からしさ)が出力される。CPU201は、このうち、スコアが所定の閾値を超えているものを抽出し、判別結果の候補種別とする。候補種別として抽出される種別の数は、0、1、複数のいずれの場合もあり得る。このとき、S406で作成した加工済み画像は、候補種別を抽出するときにのみ利用される。すなわち、これ以降の処理では加工されていない切り出し画像と、サンプル画像の比較に基づき推論処理が行われる。
【0046】
S408では、S407の推論処理の結果、候補種別が抽出されたか否かを判定する。候補種別が1つ以上抽出された場合はS409に進み、そうでない場合、すなわち候補種別が0であった(スコアが閾値を超える種別が無かった)場合にはS415へ進む。
【0047】
S409~S413の処理は、候補種別の1つずつについて行われる。以下、例として、1つの切り出し画像についてS407で候補種別が吸い物椀、茶碗、焼き魚皿の3つが抽出された例を説明する。この場合、S409~S413の処理は、吸い物椀、茶碗、焼き魚皿それぞれについて行われる。
【0048】
S409では、CPU201は、S407で抽出された候補種別であって、S409での処理対象の候補種別に対応するサンプル画像を取得する。サンプル画像は、検出結果としてあり得る食器の正解データ(教師データ)に含まれる画像であり、S301で予め記録媒体208に記録されていた画像である。
【0049】
S410では、CPU201は、候補種別の取得元となった認識対象画像である切り出し画像(外接矩形)のアスペクト比と、S409で取得したサンプル画像のアスペクト比とを比較する処理を実行する。
【0050】
S411では、CPU201は、S410の比較の結果、アスペクト比の差が許容範囲以内であるかを判定する。許容範囲内であればS412に処理を進め、許容範囲外であればS415に進む。例えば、焼き魚皿のサンプル画像において、食器の外接矩形のアスペクト比は横長の2:3であるものとする。これに対して、候補種別である焼き魚皿の取得元となった認識対象画像である切り出し画像(外接矩形)のアスペクト比が1:1であれば、焼き魚皿はアスペクト比が許容範囲外となるため、このステップでNoと判定され、焼き魚皿は候補種別から除外される。
【0051】
S412では、CPU201は、候補種別の取得元となった認識対象画像である切り出し画像(外接矩形)のサイズと、S409で取得したサンプル画像のサイズとを比較する処理を実行する。具体的には、面積(ピクセル数)を比較する。S404の食器位置検出で検出された外接矩形の面積(ピクセル数)とS411で絞り込まれたサンプル画像群の候補の面積(ピクセル数)を比較する処理を実行する。
【0052】
S413では、CPU201は、S412の比較の結果、サイズの差が許容範囲以内であるかを判定する。許容範囲内であればS414に処理を進め、許容範囲外であればS415に進む。例えば、茶碗のサンプル画像のサイズが、吸い物椀のサンプル画像のサイズ1よりも大きい、サイズ2であるものとする。これに対して、候補種別である茶碗の取得元となった認識対象画像である切り出し画像(外接矩形)のサイズがサイズ1であり、サイズ1とサイズ2の差が許容範囲を超える差であれば、このステップでNoと判定され、茶碗は候補種別から除外される。このように、同じような形状の食器であっても大きさが異なる場合があるため、食器の大きさを比較して、異なる大きさの食器を候補から除外する処理を行う。例えば、茶碗の中でも、大きいものから小さいものまで大きさは様々であり、これらを識別するために、食器の画像の面積を比較することで候補を絞り込むことができる。
【0053】
S414では、CPU201は、候補種別の全てについて処理済みであるか否かを判定する。全て処理済みであればS416に進み、そうでない場合にはS409に進んで次の候補種別についての処理を行う。
【0054】
S415では、CPU201は、処理対象の候補種別を候補から除外する。すなわちその種別は認識結果としては確定しない。
【0055】
S416では、CPU201は、S407で抽出された候補種別のうち、S409からS415の処理で候補から除外されなかった種別が存在するか否かを判定する。存在する場合にはS417に進み、存在しない場合(全ての種別が除外された場合)にはS418へ進む。
【0056】
S417では、CPU201は、S407で抽出された候補種別のうち、S409からS413の処理で候補から除外されなかった残りの種別のうち、スコアが最も高い食器の種別を1つ特定し、認識結果として確定する。すなわち、1つの容器領域に対して1つの食器の種別を特定する。
【0057】
一方、S418では、CPU201は、検出対象の食器が、未登録の食器(未登録物品)として判定する。その場合、未登録物品は会計に含めないように処理を行う。例えば、トレー上に食器以外のタオル等が置かれていた場合、それを未登録物品として認識し、会計には含めないようにする。また、未登録物品であると識別できるように、当該物品に対して、「Unknown」等の通知をしてもよい。
【0058】
こうしてS417,S418で食器の種別が特定されると、CPU201は、その日のメニュー(献立)情報を参照し、特定された食器に対応する料理(メニュー)と値段を取得する。そして、1つのトレー画像に含まれる全ての食器に対応する料理と値段を取得すると、ディスプレイ104に、検出結果として、各料理名、値段、合計金額を表示するように制御する。その後、ユーザーからの清算操作に応じて、表示された合計金額での清算を行う。
【0059】
以上が図4の説明である。
【0060】
以上説明したように、本実施形態によれば、学習・推論時に大きさ情報が欠落する仕組みにおいても大きさ情報を使った学習・推論が可能となるため、色や形状が似ている食器についても、より正確に認識させることができるようになる。
【0061】
本発明は、例えば、システム、装置、方法、プログラムもしくは記録媒体等としての実施態様をとることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
【0062】
なお、CPU201が行うものとして説明した上述の各種制御は1つのハードウェアが行ってもよいし、複数のハードウェア(例えば、複数のプロセッサーや回路)が処理を分担することで、装置全体の制御を行ってもよい。
【0063】
また、本発明をその好適な実施形態に基づいて詳述してきたが、本発明はこれら特定の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の様々な形態も本発明に含まれる。さらに、上述した各実施形態は本発明の一実施形態を示すものにすぎず、各実施形態を適宜組み合わせることも可能である。
【0064】
また、上述した実施形態においては、本発明をPCに適用した場合を例にして説明したが、これはこの例に限定されず黒塗り画像を生成できる装置であれば適用可能である。すなわち、本発明はPDA、携帯電話端末(スマートフォン)、タブレット端末などに適用可
【0065】
(他の実施形態)
本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)をネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(又はCPUやMPU等)がプログラムコードを読み出して実行する処理である。この場合、そのプログラム、及び該プログラムを記憶した記憶媒体は本発明を構成することになる。
【符号の説明】
【0066】
101 クライアント端末
107 ネットワーク
図1
図2
図3
図4
図5
図6
図7
図8