特開2022-72227 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ エヌ・ティ・ティ・コムウェア株式会社の特許一覧

特開2022-72227メニュー推定装置および方法、ボリューム推定装置および方法、プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022072227

(43)【公開日】2022-05-17

(54)【発明の名称】メニュー推定装置および方法、ボリューム推定装置および方法、プログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20220510BHJP

G06T 7/11 20170101ALI20220510BHJP

【ＦＩ】

G06T7/00 350B

G06T7/11

【審査請求】未請求

【請求項の数】13

【出願形態】ＯＬ

(21)【出願番号】P 2020181561

(22)【出願日】2020-10-29

(71)【出願人】

【識別番号】397065480

【氏名又は名称】エヌ・ティ・ティ・コムウェア株式会社

(74)【代理人】

【識別番号】100161207

【弁理士】

【氏名又は名称】西澤和純

(74)【代理人】

【識別番号】100126664

【弁理士】

【氏名又は名称】鈴木慎吾

(74)【代理人】

【識別番号】100181124

【弁理士】

【氏名又は名称】沖田壮男

(72)【発明者】

【氏名】唐恒進

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096CA23

5L096DA02

5L096DA04

5L096FA02

5L096GA30

5L096JA22

5L096KA04

(57)【要約】（修正有）

【課題】メニューの推定精度を高くするメニュー推定装置及び方法、ボリューム推定装置及び方法並びにプログラムを提供する。
【解決手段】メニュー推定システムは、取得した画像に含まれる食品のメニューを出力するように推定モデルを学習させるモデル学習部３００と、取得した画像を対象画像として推定モデルに入力し、推定モデルの出力に基づいて対象画像に含まれた食品のメニューを推定する推定部４００と、推定部４００により推定されたメニューを示す第１のメニュー情報、および第１のメニュー情報に対応する対象画像中の画像領域を示す第１の領域情報を出力する中間出力部５００と、を備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

画像を取得する画像取得部と、
前記画像取得部により取得した画像を学習データとして入力とし、前記画像取得部により取得した画像に含まれる食品のメニューを出力するように推定モデルを学習させる学習部と、
前記画像取得部により取得した画像を対象画像として前記推定モデルに入力し、前記推定モデルの出力に基づいて前記対象画像に含まれた食品のメニューを推定する推定部と、
前記推定部により推定されたメニューを示す第１のメニュー情報、および前記第１のメニュー情報に対応する前記対象画像中の画像領域を示す第１の領域情報を出力する第１の出力部と、
を備える、メニュー推定装置。

【請求項2】

前記第１の出力部から出力された前記第１のメニュー情報および前記第１の領域情報を修正する指示を受け付け、受け付けた指示に基づいて前記メニューおよび前記画像領域を補正する補正部と、
前記補正部により補正された前記メニューを示す第２のメニュー情報、および前記画像領域を示す第２の領域情報を出力する第２の出力部と、を備え、
前記学習部は、前記第１のメニュー情報、前記第１の領域情報、前記第２のメニュー情報、および前記第２の領域情報に基づいて前記推定モデルを学習させる、
請求項１に記載のメニュー推定装置。

【請求項3】

前記推定部は、前記対象画像に含まれるメニュー、および当該メニューに含まれる部分を推定し、
前記第１の出力部は、前記メニューを示す文字情報と、当該メニューに含まれる部分を示す文字情報とを出力する、請求項１または２に記載のメニュー推定装置。

【請求項4】

前記推定部は、前記対象画像に含まれる一つの画像領域について複数のメニューを推定した場合、当該画像領域を示す情報と、各メニューと各メニューの信頼度とを示す文字情報と、複数のメニューのうち何れか一つの選択を促すことを示す文字情報とを出力する、請求項１または２に記載のメニュー推定装置。

【請求項5】

前記推定部は、前記対象画像に含まれる画像領域についてメニューが推定できない場合、当該画像領域を示す情報と、メニューの入力を促すことを示す文字情報とを出力する、請求項１または２に記載のメニュー推定装置。

【請求項6】

前記学習部は、前記画像取得部により取得した画像を学習データとして入力とし、前記画像取得部により取得した画像に含まれる食品のメニュー、および当該メニューのボリュームに関する情報を出力するように推定モデルを学習させ、
前記推定部は、前記画像取得部により取得した画像を対象画像として前記推定モデルに入力し、前記推定モデルの出力に基づいて食品のメニューおよび当該メニューのボリュームに関する情報を推定する、
請求項１に記載のメニュー推定装置。

【請求項7】

前記ボリュームに関する情報は、前記対象画像を撮像した撮像装置から食品までの距離情報、食品に対する前記撮像装置の視点、食品に対する入射光および反射光、および照明に関する情報を含む、請求項６に記載のメニュー推定装置。

【請求項8】

前記食品のメニューおよび当該メニューのボリュームに関する情報に基づいて、メニューの栄養素を推定する栄養素推定部を備える、
請求項６または７に記載のメニュー推定装置。

【請求項9】

画像を取得する画像取得部と、
前記画像取得部により取得した画像を学習データとして入力とし、前記画像取得部により取得した画像に含まれる食品の部分における、当該画像を撮像した撮像装置から食品までの距離情報および当該画像を撮像した環境情報を出力するように推定モデルを学習させる学習部と、
前記画像取得部により取得した画像を対象画像として前記推定モデルに入力し、前記推定モデルの出力に基づいて前記対象画像に関する前記距離情報および前記環境情報を推定する推定部と、
前記推定部により推定された前記距離情報および前記環境情報に基づいて、前記食品の部分のボリュームを推定するボリューム推定部と、
を備える、ボリューム推定装置。

【請求項10】

画像を取得するステップと、
取得した画像を学習データとして入力とし、取得した画像に含まれる食品のメニューを出力するように推定モデルを学習させるステップと、
取得した画像を対象画像として前記推定モデルに入力し、前記推定モデルの出力に基づいて前記対象画像に含まれた食品のメニューを推定するステップと、
推定されたメニューを示す第１のメニュー情報、および前記第１のメニュー情報に対応する前記対象画像中の画像領域を示す第１の領域情報を出力するステップと、
を含む、メニュー推定方法。

【請求項11】

コンピュータに、
画像を取得するステップと、
取得した画像を学習データとして入力とし、取得した画像に含まれる食品のメニューを出力するように推定モデルを学習させるステップと、
取得した画像を対象画像として前記推定モデルに入力し、前記推定モデルの出力に基づいて前記対象画像に含まれた食品のメニューを推定するステップと、
推定されたメニューを示す第１のメニュー情報、および前記第１のメニュー情報に対応する前記対象画像中の画像領域を示す第１の領域情報を出力するステップと、
を実行させる、プログラム。

【請求項12】

画像を取得するステップと、
取得した画像を学習データとして入力とし、取得した画像に含まれる食品の部分における、当該画像を撮像した撮像装置から食品までの距離情報および当該画像を撮像した環境情報を出力するように推定モデルを学習させるステップと、
取得した画像を対象画像として前記推定モデルに入力し、前記推定モデルの出力に基づいて前記対象画像に関する前記距離情報および前記環境情報を推定するステップと、
推定された前記距離情報および前記環境情報に基づいて、前記食品の部分のボリュームを推定するステップと、
を含む、ボリューム推定方法。

【請求項13】

コンピュータに、
画像を取得するステップと、
取得した画像を学習データとして入力とし、取得した画像に含まれる食品の部分における、当該画像を撮像した撮像装置から食品までの距離情報および当該画像を撮像した環境情報を出力するように推定モデルを学習させるステップと、
取得した画像を対象画像として前記推定モデルに入力し、前記推定モデルの出力に基づいて前記対象画像に関する前記距離情報および前記環境情報を推定するステップと、
推定された前記距離情報および前記環境情報に基づいて、前記食品の部分のボリュームを推定するステップと、
を実行させる、プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、メニュー推定装置および方法、ボリューム推定装置および方法、プログラムに関する。

【背景技術】

【0002】

従来より、画像内の物体を推定する技術が知られている。このような技術は、例えば特許文献１に記載された物体認識システムが知られている。この物体認識システムは、物体の画像データ、及びその物体が操作されることにより影響を受ける被作用物の物体の操作前後における画像データを取得し、物体の画像データから物体の形状特徴量を抽出し、物体概念モデルに形状特徴量を用いて認識される物体の形状に基づいて物体を学習し、認識対象物体の形状の観測された情報を物体の物体概念モデルに適用し、認識対象物体を認識する。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開2008-123365号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

上述した物体認識システムなどのように画像を入力情報とし、当該画像内に含まれる物体を推定する技術において、画像中の食品メニューを推定することが行われている。しかし、メニューの推定精度が低い場合、入力画像内のどこに着目して推定したかが不明であった。また、従来の技術では、画像内に事前に物体の大きさが分かる箸やスプーンなどの参照物と比較することで食品の大きさ（ボリューム）を推定する技術も考えられるが、参照物が存在しない場合には推定精度が低下する可能性がある。また、入力画像が食品をどのような角度で撮像したかという環境の違いによってはメニューの特定やボリュームの推定精度が低下する場合もある。

【0005】

本発明は、上記の課題に鑑みてなされたものであって、メニューの推定精度を高くすることができるメニュー推定装置および方法、ボリューム推定装置および方法、プログラムを提供することを目的としている。

【課題を解決するための手段】

【0006】

（１）本発明の一態様は、画像を取得する画像取得部と、前記画像取得部により取得した画像を学習データとして入力とし、前記画像取得部により取得した画像に含まれる食品のメニューを出力するように推定モデルを学習させる学習部と、前記画像取得部により取得した画像を対象画像として前記推定モデルに入力し、前記推定モデルの出力に基づいて前記対象画像に含まれた食品のメニューを推定する推定部と、前記推定部により推定されたメニューを示す第１のメニュー情報、および前記第１のメニュー情報に対応する前記対象画像中の画像領域を示す第１の領域情報を出力する第１の出力部と、を備える、メニュー推定装置である。

【0007】

（２）本発明の一態様は、上記のメニュー推定装置であって、前記第１の出力部から出力された前記第１のメニュー情報および前記第１の領域情報を修正する指示を受け付け、受け付けた指示に基づいて前記メニューおよび前記画像領域を補正する補正部と、前記補正部により補正された前記メニューを示す第２のメニュー情報、および前記画像領域を示す第２の領域情報を出力する第２の出力部と、を備え、前記学習部は、前記第１のメニュー情報、前記第１の領域情報、前記第２のメニュー情報、および前記第２の領域情報に基づいて前記推定モデルを学習させてよい。

【0008】

（３）本発明の一態様は、上記のメニュー推定装置であって、前記推定部は、前記対象画像に含まれるメニュー、および当該メニューに含まれる部分を推定し、
前記第１の出力部は、前記メニューを示す文字情報と、当該メニューに含まれる部分を示す文字情報とを出力してよい。

【0009】

（４）本発明の一態様は、上記のメニュー推定装置であって、前記推定部は、前記対象画像に含まれる一つの画像領域について複数のメニューを推定した場合、当該画像領域を示す情報と、各メニューと各メニューの信頼度とを示す文字情報と、複数のメニューのうち何れか一つの選択を促すことを示す文字情報とを出力してよい。

【0010】

（５）本発明の一態様は、上記のメニュー推定装置であって、前記推定部は、前記対象画像に含まれる画像領域についてメニューが推定できない場合、当該画像領域を示す情報と、メニューの入力を促すことを示す文字情報とを出力してよい。

【0011】

（６）本発明の一態様は、上記のメニュー推定装置であって、前記学習部は、前記画像取得部により取得した画像を学習データとして入力とし、前記画像取得部により取得した画像に含まれる食品のメニュー、および当該メニューのボリュームに関する情報を出力するように推定モデルを学習させ、前記推定部は、前記画像取得部により取得した画像を対象画像として前記推定モデルに入力し、前記推定モデルの出力に基づいて食品のメニューおよび当該メニューのボリュームに関する情報を推定してよい。

【0012】

（７）本発明の一態様は、上記のメニュー推定装置であって、前記ボリュームに関する情報は、前記対象画像を撮像した撮像装置から食品までの距離情報、食品に対する前記撮像装置の視点、食品に対する入射光および反射光、および照明に関する情報を含んでよい。

【0013】

（８）本発明の一態様は、上記のメニュー推定装置であって、前記食品のメニューおよび当該メニューのボリュームに関する情報に基づいて、メニューの栄養素を推定する栄養素推定部を備えである。

【0014】

（９）本発明の一態様は、画像を取得する画像取得部と、前記画像取得部により取得した画像を学習データとして入力とし、前記画像取得部により取得した画像に含まれる食品の部分における、当該画像を撮像した撮像装置から食品までの距離情報および当該画像を撮像した環境情報を出力するように推定モデルを学習させる学習部と、前記画像取得部により取得した画像を対象画像として前記推定モデルに入力し、前記推定モデルの出力に基づいて前記対象画像に関する前記距離情報および前記環境情報を推定する推定部と、前記推定部により推定された前記距離情報および前記環境情報に基づいて、前記食品の部分のボリュームを推定するボリューム推定部と、を備える、ボリューム推定装置である。

【0015】

（１０）本発明の一態様は、画像を取得するステップと、取得した画像を学習データとして入力とし、取得した画像に含まれる食品のメニューを出力するように推定モデルを学習させるステップと、取得した画像を対象画像として前記推定モデルに入力し、前記推定モデルの出力に基づいて前記対象画像に含まれた食品のメニューを推定するステップと、推定されたメニューを示す第１のメニュー情報、および前記第１のメニュー情報に対応する前記対象画像中の画像領域を示す第１の領域情報を出力するステップと、を含む、メニュー推定方法である。

【0016】

（１１）本発明の一態様は、コンピュータに、画像を取得するステップと、取得した画像を学習データとして入力とし、取得した画像に含まれる食品のメニューを出力するように推定モデルを学習させるステップと、取得した画像を対象画像として前記推定モデルに入力し、前記推定モデルの出力に基づいて前記対象画像に含まれた食品のメニューを推定するステップと、推定されたメニューを示す第１のメニュー情報、および前記第１のメニュー情報に対応する前記対象画像中の画像領域を示す第１の領域情報を出力するステップと、を実行させる、プログラムである。

【0017】

（１２）本発明の一態様は、画像を取得するステップと、取得した画像を学習データとして入力とし、取得した画像に含まれる食品の部分における、当該画像を撮像した撮像装置から食品までの距離情報および当該画像を撮像した環境情報を出力するように推定モデルを学習させるステップと、取得した画像を対象画像として前記推定モデルに入力し、前記推定モデルの出力に基づいて前記対象画像に関する前記距離情報および前記環境情報を推定するステップと、推定された前記距離情報および前記環境情報に基づいて、前記食品の部分のボリュームを推定するステップと、を含む、ボリューム推定方法である。

【0018】

（１３）本発明の一態様は、コンピュータに、画像を取得するステップと、取得した画像を学習データとして入力とし、取得した画像に含まれる食品の部分における、当該画像を撮像した撮像装置から食品までの距離情報および当該画像を撮像した環境情報を出力するように推定モデルを学習させるステップと、取得した画像を対象画像として前記推定モデルに入力し、前記推定モデルの出力に基づいて前記対象画像に関する前記距離情報および前記環境情報を推定するステップと、推定された前記距離情報および前記環境情報に基づいて、前記食品の部分のボリュームを推定するステップと、を実行させる、プログラムである。

【発明の効果】

【0019】

本発明の一態様によれば、メニューの推定精度を高くすることができる。

【図面の簡単な説明】

【0020】

【図1】実施形態のメニュー推定システムの機能的な構成の一例を示すブロック図である。

【図2】実施形態におけるメニュー推定モデルの学習処理の一例を示すブロック図である。

【図3】実施形態におけるメニュー推定モデルの推定処理の一例を示すブロック図である。

【図4】実施形態におけるボリューム推定モデルの学習処理の一例を示すブロック図である。

【図5】実施形態におけるボリューム推定モデルの推定処理の一例を示すブロック図である。

【図6】実施形態においてユーザに提示する情報の一例を示す図である。

【図7】実施形態における特徴マップを示す図である。

【図8】食品を上方から撮像した画像および領域を示す図である。

【図9】食品を側方から撮像した画像および領域を示す画像である。

【図10】実施形態における栄養素推定部の一例を示すブロック図である。

【図11】実施形態におけるデータ生成処理の一例を説明する図である。

【図12】実施形態におけるデータ生成処理の他の一例を説明する図である。

【図13】実施形態における推定結果の一例を示す図である。

【図14】実施形態の学習データ生成部における動作を示す図である。

【図15】実施形態における学習用画像の生成処理の一例を示す図である。

【図16】実施形態における学習用画像の生成処理の他の一例を示す図である。

【図17】実施形態における学習用画像の生成処理の他の一例を示す図である。

【図18】実施形態における学習用画像の生成処理の他の一例を示す図である。

【図19】学習用画像の集合を調整する具体的な一例を示す図である。

【図20】学習用画像の集合を調整する具体的な一例を示す図である。

【図21】実施形態における推定モデルの評価を示すブロック図である。

【発明を実施するための形態】

【0021】

以下、本発明を適用したメニュー推定装置および方法、ボリューム推定装置および方法、プログラムを、図面を参照して説明する。

【0022】

＜実施形態の概要＞
実施形態のメニュー推定システム１は、画像を収集し、収集した画像によりメニュー推定モデルを学習させ、メニュー推定モデルにより対象画像に含まれる食品のメニューを推定する。また、メニュー推定システム１は、画像を収集し、収集した画像によりボリューム推定モデルを学習させ、ボリューム推定モデルにより対象画像に含まれる食品のボリュームを推定する。これにより、メニュー推定システム１は、例えば対象画像および要求を受け付けた場合、対象画像に含まれる食品のメニューやボリュームに基づく情報を提供するサービスを実現することができる。以下、メニュー推定システム１について詳細に説明する。

【0023】

＜メニュー推定システム１の構成＞
図１は、実施形態のメニュー推定システム１の機能的な構成の一例を示すブロック図である。メニュー推定システム１は、例えば、ユーザ端末装置１００と、画像蓄積部２００と、学習データ生成部２１０と、モデル学習部３００と、推定部４００と、中間出力部（第１の出力部）５００と、補正部６００と、出力部（第２の出力部）７００とを備える。ユーザ端末装置１００、画像蓄積部２００、モデル学習部３００、推定部４００、中間出力部５００、補正部６００、および出力部７００は、例えば、通信ネットワークに接続される。通信ネットワークに接続される各装置は、ＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ）や無線通信モジュールなどの通信インターフェースを備えている（図２では不図示）。通信ネットワークは、例えば、インターネット、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、セルラー網などを含む。

【0024】

ユーザ端末装置１００は、例えばパーソナルコンピュータや、スマートフォンやタブレット端末などの端末装置である。ユーザ端末装置１００は、例えばメニュー推定システム１の管理者の操作を受け付け、推定結果を表示したり、推定結果を補正するための情報を生成する。

【0025】

画像蓄積部２００は、例えば、画像を収集する情報処理装置と、ストレージ装置とを含む。画像蓄積部２００は、画像を収集すると共に、収集した画像を蓄積する。ストレージは、例えば、ＨＤＤ、フラッシュメモリ、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などの記憶装置により実現される。ログデータ蓄積部２０６および検知結果蓄積部２０８は、例えば、ＳＡＮ（ＳｔｏｒａｇｅＡｒｅａＮｅｔｗｏｒｋ）やＮＡＳ（ＮｅｔｗｏｒｋＡｔｔａｃｈｅｄＳｔｏｒａｇｅ）により実現されてよい。

【0026】

学習データ生成部２１０は、例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等のプロセッサがプログラムメモリに格納されたプログラムを実行することにより実現される。プログラムは、予めのＨＤＤやフラッシュメモリなどの記憶装置（非一過性の記憶媒体を備える記憶装置）に格納されていてよい。学習データ生成部２１０は、画像蓄積部２００に蓄積された画像を用いてモデルの学習に用いる学習データを生成し、画像蓄積部２００に記憶させる。

【0027】

モデル学習部３００は、学習処理部３１０を備える。学習処理部３１０は、例えばＣＰＵ等のプロセッサがプログラムメモリに格納されたプログラムを実行することにより実現される。学習処理部３１０は、学習処理を実行することで、メニュー推定モデルおよびボリューム推定モデルを構築する。実施形態における推定モデルは、例えばニューラルネットワークであるが、これに限定されず、ラベル付きの画像を学習し、対象画像の入力に対してラベルおよび信頼度を出力する機械学習モデルであれば、ニューラルネットワーク以外のものであってもよい。

【0028】

推定部４００は、メニュー推定部４１０と、ボリューム推定部４２０とを備える。メニュー推定部４１０およびボリューム推定部４２０は、例えばＣＰＵ等のプロセッサがプログラムメモリに格納されたプログラムを実行することにより実現される。メニュー推定部４１０は、メニュー推定モデル４１２を用いた処理を実行する。メニュー推定モデル４１２は、対象画像を入力とし、食品のメニューを推定結果として出力する機械学習モデルある。ボリューム推定部４２０は、ボリューム推定モデル４２２を用いた処理を実行する。ボリューム推定モデル４２２は、対象画像を入力とし、メニューのボリュームに関する情報を出力する機械学習モデルある。対象画像は、メニューおよび／またはボリュームを推定する対象となる画像である。なお、実施形態は、メニュー推定モデル４１２とボリューム推定モデル４２２とが別個であるが、これに限定されず、１つの機械学習モデルであってもよい。すなわち、メニュー推定モデル４１２およびボリューム推定モデル４２２に代えて、対象画像を入力とし、食品のメニューおよびメニューのボリュームに関する情報を出力する一つの機械学習モデルを備えてもよい。

【0029】

中間出力部５００は、例えばユーザ端末装置１００および画像蓄積部２００と通信接続されたインターフェース回路である。中間出力部５００は、メニュー推定部４１０から推定結果としてのメニュー情報５１０を入力し、メニュー情報５１０を補正部６００に供給する。また、中間出力部５００は、メニュー情報５１０に基づく情報をユーザ端末装置１００および画像蓄積部２００に出力する。メニュー情報５１０には、例えばメニューＩＤ、信頼度、および領域情報が含まれる。メニューＩＤは、メニューを特定するための情報（第１のメニュー情報）である。領域情報は、画像中に含まれるメニューが占める領域を示す情報（第１の領域情報）である。信頼度は、推定結果（メニューＩＤおよび領域情報）の確からしさを示す情報である。

【0030】

中間出力部５００は、ボリューム推定部４２０から推定結果としてのボリューム情報５２０を入力し、ボリューム情報５２０を補正部６００に供給する。また、中間出力部５００は、ボリューム情報５２０に基づく情報をユーザ端末装置１００および画像蓄積部２００に出力する。ボリューム情報５２０には、例えば領域情報、距離情報、および環境情報が含まれる。領域情報、距離情報、および環境情報は、メニューのボリュームに関する情報の一例である。領域情報は、画像中に含まれるメニューが占める領域を示す情報である。距離情報は、画像を撮像した撮像装置からメニューまでの距離を示す情報である。環境情報は、メニューに対する撮像装置の視点、メニューに対する入射光および反射光、および照明に関する情報である。

【0031】

補正部６００は、メニュー補正部６１０と、ボリューム補正部６２０とを備える。メニュー補正部６１０およびボリューム補正部６２０は、例えばＣＰＵ等のプロセッサがプログラムメモリに格納されたプログラムを実行することにより実現される。メニュー補正部６１０は、ユーザ端末装置１００からメニューを補正する要求を受け付け、受け付けた要求に従って、メニューＩＤ、信頼度、および領域情報を補正する。ボリューム補正部６２０は、ユーザ端末装置１００からボリュームに関する情報を補正する要求を受け付け、受け付けた要求に従って、領域情報、距離情報、および環境情報を補正する。補正部６００は、補正したメニューＩＤ＃（第２のメニュー情報）、信頼度＃、および領域情報＃（第２の領域情報）を含むメニュー情報、補正した領域情報＃、距離情報＃、および環境情報＃を含むボリューム情報を出力部７００に出力する。

【0032】

出力部７００は、例えばユーザ端末装置１００および画像蓄積部２００と通信接続されたインターフェース回路である。出力部７００は、補正部６００から補正されたメニュー情報を入力し、補正されたメニュー情報をユーザ端末装置１００および画像蓄積部２００に出力する。出力部７００は、補正部６００から補正されたボリューム情報を入力し、補正されたボリューム情報をユーザ端末装置１００および画像蓄積部２００に出力する。

【0033】

【0034】

図２は、実施形態におけるメニュー推定モデルの学習処理の一例を示すブロック図である。学習処理部３１０は、画像データ、領域、ラベル、および信頼度を含む学習データを入力し、メニュー推定モデル４１２に供給する。学習データは、中間出力部５００から出力されたメニュー情報５１０、出力部７００から出力された補正後のメニュー情報、または画像蓄積部２００が外部装置から取得したメニュー情報である。学習データは、正解画像と誤認画像の何れかであってもよいが、双方の画像が混在していてもよい。ラベルは、上述したメニューＩＤに対応する情報である。信頼度は、ラベルに対応したメニューが画像データに含まれる確からしさであり、例えば画像中にメニューが鮮明に含まれる場合には高い値となる。また、ラベルおよび信頼度は、自動的に画像データに付加されてもよく、ユーザ端末装置１００の操作に基づいて付加されてもよい。また、ラベルおよび信頼度は、画像データの領域に対応して設定される。画像データに対して複数の領域が存在する場合、各領域に対応してラベルおよび信頼度が設定される。

【0035】

学習処理部３１０は、学習データをメニュー推定モデル４１２に供給する（処理１）。メニュー推定モデル４１２は、学習データに対する推定結果を学習処理部３１０に出力する（処理２）。学習処理部３１０は、学習データが正解画像である場合、メニュー推定モデル４１２が推定したメニューＩＤおよび領域が、学習データにおけるラベルに対応したメニューＩＤおよび領域となるようにメニュー推定モデル４１２の処理パラメータを更新する（処理３）。学習処理部３１０は、学習データが誤認画像である場合、メニュー推定モデル４１２が推定したメニューＩＤおよび領域が、学習データにおけるラベルに対応したメニューＩＤおよび領域とならないようにメニュー推定モデル４１２の処理パラメータを更新する（処理３）。メニュー推定モデル４１２の処理パラメータは、例えば、ニューラルネットワークに含まれるフィルタ（重み、バイアスともいう）である。

【0036】

図３は、実施形態におけるメニュー推定モデルの推定処理の一例を示すブロック図である。学習されたメニュー推定モデル４１２は、メニュー推定部４１０に導入される。メニュー推定モデル４１２は、対象画像が入力された場合、領域ごとに、当該領域を示す情報、ラベル、および信頼度を推定結果として出力する。

【0037】

図４は、実施形態におけるボリューム推定モデルの学習処理の一例を示すブロック図である。学習処理部３１０は、画像データ、領域、ラベル、距離情報、環境情報、および信頼度を含む学習データを入力し、ボリューム推定モデル４２２に供給する。学習データは、中間出力部５００から出力されたボリューム情報５２０、出力部７００から出力された補正後のボリューム情報、または画像蓄積部２００が外部装置から取得したボリューム情報である。学習データは、正解画像と誤認画像の何れかであってもよいが、双方の画像が混在していてもよい。ラベルは、上述したメニューの部分に対応する情報である。信頼度は、ラベルに対応したメニューの部分が画像データに含まれる確からしさであり、例えば画像中にメニューの部分が鮮明に含まれる場合には高い値となる。また、ラベルおよび信頼度は、自動的に画像データに付加されてもよく、ユーザ端末装置１００の操作に基づいて付加されてもよい。また、ラベル、距離情報、環境情報、および信頼度は、画像データの領域に対応して設定される。画像データに対して複数の領域が存在する場合、各領域に対応してラベル、距離情報、環境情報、および信頼度が設定される。

【0038】

学習処理部３１０は、学習データをボリューム推定モデル４２２に供給する（処理１）。ボリューム推定モデル４２２は、学習データに対する推定結果を学習処理部３１０に出力する（処理２）。学習処理部３１０は、学習データが正解画像である場合、ボリューム推定モデル４２２が推定した領域、ラベル、距離情報、および環境情報が、学習データにおける領域、ラベル、距離情報、および環境情報となるようにボリューム推定モデル４２２の処理パラメータを更新する（処理３）。学習処理部３１０は、学習データが誤認画像である場合、ボリューム推定モデル４２２が推定した領域、ラベル、距離情報、および環境情報が、学習データにおける領域、ラベル、距離情報、および環境情報とならないようにボリューム推定モデル４２２の処理パラメータを更新する（処理３）。ボリューム推定モデル４２２の処理パラメータは、例えば、ニューラルネットワークに含まれるフィルタ（重み、バイアスともいう）である。

【0039】

図５は、実施形態におけるボリューム推定モデルの推定処理の一例を示すブロック図である。学習されたボリューム推定モデル４２２は、ボリューム推定部４２０に導入される。ボリューム推定モデル４２２は、対象画像が入力された場合、領域ごとに、当該領域を示す情報、距離、環境、および信頼度を推定結果として出力する。

【0040】

図６は、実施形態においてユーザに提示する情報の一例を示す図である。メニュー推定システム１は、推定部４００により推定されたメニューＩＤ、およびメニューＩＤに対応する対象画像中の領域を示す領域情報をユーザ端末装置１００に出力し、ユーザ端末装置１００は、対象画像、メニューＩＤおよび領域情報を用いて表示を行う。

【0041】

推定部４００は、対象画像に含まれるメニュー、および当該メニューに含まれる部分を推定し、メニューを示す文字情報と、当該メニューに含まれる部分を示す文字情報とを出力してよい。これにより、ユーザ端末装置１００は、例えば図６（ａ）に示すように、対象画像とともに、「もやしが多く乗っているのでラーメンＡ」といったように、メニューとして「ラーメン」を推定した結果を示す文字情報と、推定した根拠として「もやしが多く乗っている」というメニューに含まれる部分を推定した結果を示す文字情報とを表示することができる。この結果、ユーザ端末装置１００は、対象画像と文字情報とに基づいて、推定結果が正解であるか否かの入力を受け付けることができる。補正部６００は、例えば、推定結果が正解であることを受け付けた場合、対象画像についてのラベルの信頼度（取り得る値：０～１）を「１」に設定することができる。

【0042】

推定部４００は、対象画像に含まれる一つの画像領域について複数のメニューを推定した場合、図６（ｂ）に示すように、当該画像領域を示す情報と、各メニューと各メニューの信頼度とを示す文字情報と、複数のメニューのうち何れか一つの選択を促すことを示す文字情報とを出力してよい。この結果、ユーザ端末装置１００は、対象画像と文字情報とに基づいて、正解となる卵料理を選択する操作を受け付けることができる。補正部６００は、例えば、「卵料理Ａ」が正解であることを受け付けた場合、対象画像のうち領域に含まれる卵料理Ａのラベルに対応する信頼度を高く変更し、卵料理Ｂのラベルに対応する信頼度を低く変更することができる。

【0043】

推定部４００は、対象画像に含まれる画像領域についてメニューが推定できない場合、例えば図６（ｃ）に示すように、当該画像領域を示す情報と、「料理かどうか不明なので入力をお願いします」というメニューの入力を促すことを示す文字情報とを出力してよい。この結果、補正部６００は、正解となる料理を入力する操作を受け付け、受け付けた料理に対応するメニューＩＤの信頼度を「１」に設定することができる。

【0044】

図７は、実施形態における特徴マップを示す図である。メニュー推定システム１は、対象画像について対象画像の領域と当該領域のラベルとをマッピングした特徴マップを作成してよい。例えば、図７（ａ）に示すような対象画像に対して卵料理の推定処理を行うことで、図７（ｂ）に示すように卵料理に対する誤認および未検出が発生したとする。この場合、推定部４００は、図７（ｄ）に示す特徴マップを作成する。この特徴マップは、卵料理であると誤認した料理に対応する注目領域および当該注目領域のラベル（Ｌ）を示す。補正部６００は、例えば図７（ｃ）に示すように卵料理の領域およびラベルを補正する操作を受け付けたことに対し、図７（ｅ）のように補正した注目領域＃およびラベル＃を含む補正後の特徴マップ＃を作成する。これにより、メニュー推定システム１は、領域情報を含む補正後の対象画像と、特徴マップ＃を画像蓄積部２００に出力し、モデル学習部３００は、補正後の対象画像および特徴マップ＃を用いて学習処理を行うことができる。

【0045】

［ボリューム推定処理］
つぎに、実施形態におけるボリュームの推定について説明する。図８は、食品を上方から撮像した画像および領域を示す図である。図９は、食品を側方から撮像した画像および領域を示す画像である。
図８に示すように、食品を上方から撮像した画像が対象画像である場合、推定部４００は、食品メニューと認識した各領域の大きさが食品のボリュームに相当するため、高い精度でボリュームを推定することができる。これに対し、図９に示すようにボリュームが異なるラーメンを上方から撮像した場合、高さ（深さ）方向においてボリュームの差があるため、ボリュームの推定精度は低くなる。

【0046】

さらに、撮像装置から食品までの距離（深度）に応じて対象画像に占める食品の大きさが変化するため、撮像装置から食品までの距離（深度）に応じてボリュームの推定結果が変化する。さらに、食品に対する撮像装置の視点に応じて対象画像に占める食品の大きさが変化するため、食品に対する撮像装置の視点に応じてボリュームの推定結果が変化する。さらに、食品に対する入射光と反射光の比や照明に応じて食品として認識される領域が変化するため、食品に対する入射光と反射光の比や照明に応じてボリュームの推定結果が変化する。以上より、ラベルの信頼度は、ラベルおよび環境情報を入力とする関数によって決定される。

【0047】

そこで、メニュー推定システム１は、図４に示したように、画像データX_i（ｉ＝１，２，・・・，Ｎ）、領域、およびラベルに加えて、距離情報D_i（ｉ＝１，２，・・・，Ｎ）、環境情報E_i（ｉ＝１，２，・・・，Ｎ）、および信頼度Ｒｉ（ｉ＝１，２，・・・，Ｎ）を学習データに含めてボリューム推定モデル４２２を学習させる。環境情報E_i（ｉ＝１，２，・・・，Ｎ）は、視点情報：V_i （ｉ＝１，２，・・・，Ｎ）、入射光と反射光の比：A_i （ｉ＝１，２，・・・，Ｎ）、および照明L_i（ｉ＝１，２，・・・，Ｎ）によって定義される。信頼度Ｒｉは、照明Liおよび環境情報Eiを入力した関数Ｆによって決定される。これにより、メニュー推定システム１は、図５に示したように、ボリューム推定モデル４２２に対象画像を入力したことに対する推定結果として、対象画像についての領域、距離、環境、およびラベルの信頼度を高い精度で出力することができる。具体的には、図９に示すように、メニューに対応した領域ごとに、距離情報D_i（ｉ＝１，２，３）、環境情報E_i（ｉ＝１，２，３）、および信頼度Ｒｉ（ｉ＝１，２，３）を推定することができる。

【0048】

図１０は、実施形態における栄養素推定部の一例を示すブロック図である。メニュー推定システム１は、栄養素推定部８００を備えてよい。栄養素推定部８００は、例えばＣＰＵ等のプロセッサがプログラムメモリに格納されたプログラムを実行することにより実現される。栄養素推定部８００は、食品のメニューおよび当該メニューのボリュームに関する情報に基づいて、メニューの栄養素を推定する。具体的に、栄養素推定部８００は、メニュー情報７１０およびボリューム情報７２０を入力し、栄養素情報を推定する。栄養素情報は、メニューに対応した栄養素および信頼度を含む情報である。栄養素情報は、メニュー中の領域ごとの栄養素および信頼度を含む情報であってよい。栄養素情報は、メニューに含まれる三大栄養素（たんぱく質、炭水化物および脂質）の重量であってもよい。

【0049】

［データ生成処理］
つぎに、学習データ生成部２１０による学習データの生成処理について詳細に説明する。
図１１は、実施形態におけるデータ生成処理の一例を説明する図である。図１２は、実施形態におけるデータ生成処理の他の一例を説明する図である。学習データ生成部２１０は、正解画像を元画像として用いて学習用画像（以下、生成画像とも記載する）を生成する。正解画像は、例えばユーザ端末装置１００によって推定結果が正解であるという操作を受け付けた画像や、所定値以上の信頼度のラベルが付随した画像である。学習データ生成部２１０は、図１１に示すように、例えば、正解画像に障害物画像を重畳する処理や、正解画像を反転させる処理や、複数の正解画像を合成する処理によって学習用画像を生成する。障害物画像は、推定対象となるメニュー以外を推定することが困難となるような画像であればよい。学習データ生成部２１０は、図１２に示すように、誤認画像を元画像として用いて学習用画像を生成してもよい。

【0050】

「第１アルゴリム」
まずデータの生成処理における第１アルゴリムについて説明する。
図１３は、実施形態における推定結果の一例を示す図であり、画像数が「１」、領域数が「３」、ラベル数が「３」、ラベルが「卵料理、パン、および味噌汁」という推定結果が生成される。ここで、ラベルの種類をＬとし、例えば、Ｌ＝１が「ラーメン」、Ｌ＝２が「炒飯」、Ｌ＝３が「卵料理」が設定される。また、元画像の数をＮ、生成画像の数をＭ、元画像と生成画像の合計数をＮ＋Ｍ、と記載するものとする。なお、各対象画像や各領域に複数のラベルが付随してよく、ラベル化されないメニューが存在してもよい。

【0051】

生成画像の集合におけるｉ番目の生成画像をＯ_ｉ（ｉ＝１，２，・・・，Ｎ＋Ｍ）とし、Ｏ_ｉ＝｛ｉ｝（ｉ＝１，２，・・・，Ｎ）と表し、Ｏ_ｉ＝｛ａ，ｂ，ｃ｝（ｉ＝Ｎ＋１，Ｎ＋２，・・・，Ｎ＋Ｍ）、１≦ａ＜ｂ＜ｃ≦Ｎと表す。例えば、Ｎ＋１番目の生成画像が、３，５，７番目の元画像から生成された場合、生成画像は、Ｏ_Ｎ＋１＝｛３，５，７｝と表す。複数の生成画像のそれぞれの元画像の出現数の合計値をＴ_ｉ（ｉ＝１，２，・・・，Ｎ）とする。例えば、Ｏ_１＝｛１｝、Ｏ_２＝｛２｝、Ｏ_３＝｛３｝、Ｏ_４＝｛１，３｝という４個の生成画像が存在する場合、ｉ＝１の元画像が２回使用され、ｉ＝２の元画像が１回使用され、ｉ＝３の元画像が２回使用されたので、Ｔ_１＝｛２｝、Ｔ_２＝｛１｝、Ｔ_３＝｛２｝となる。

【0052】

図１４は、実施形態の学習データ生成部における動作を示す図であり、図１５は、実施形態における学習用画像の生成処理の一例を示す図である。学習データ生成部２１０は、複数の元画像を入力し、学習用画像を生成する。学習データ生成部２１０は、元画像の数Ｎを元画像間で均等に近づけるように調整して、学習用画像を生成する。学習データ生成部２１０は、例えば、元画像が使用された平均値を（Ｔハット）下記の式１とした場合、下記の式２のような二乗誤差が一定値以下となるように学習用画像を生成する。

【数1】

【0053】

学習データ生成部２１０は、全ての学習用画像のうち、元画像使用数の二乗誤差が一定値以下となるような学習用画像の集合を抽出（サンプリング）し、抽出した学習用画像の集合を学習データとして設定してもよい。さらに、学習データ生成部２１０は、全ての学習用画像における元画像の使用数の中央値から所定範囲に属する学習用画像の集合を抽出し、抽出した学習用画像の集合を学習データとして設定してもよい。学習用画像の集合を抽出する処理は、例えば、学習用画像の生成後、ラーメンのラベルが付加された学習用画像、炒飯のラベルが付加された学習用画像、卵料理のラベルが付加された学習用画像の比率がいずれかの学習用画像に大きく偏る場合や、例えばラーメンのラベルが付加された学習用画像の数が他の学習用画像の数に対して多すぎる場合に、ラーメンのラベルが付加された学習用画像を減らす処理である。

【0054】

図１６は、実施形態における学習用画像の生成処理の他の一例を示す図である。学習データ生成部２１０は、推定対象のメニュー（推定対象Ａ）に基づいて、元画像の数を元画像間で調整してよい。学習データ生成部２１０は、例えば、推定対象がラーメンであってメニュー推定モデル４１２および／またはボリューム推定モデル４２２を学習させる場合、ラーメンに相当するラベルの元画像を中心として学習用画像を生成する。具体的に、学習データ生成部２１０は、ラーメンに相当するラベルが付随する正解画像、ラーメンに相当するラベルが付随する誤認画像、ラーメンに相当するラベルの信頼度が高い画像、ラーメンに相当するラベルの信頼度が低い画像、ラーメンに相当するラベルが付随する画像であって多様な距離や環境が付随した画像群を元画像として用いて、学習用画像の集合を生成する。

【0055】

学習データ生成部２１０は、推定対象に応じて望ましい学習用画像の割合を、元画像出現数Ｔ’_ｉ（ｉ＝１，２，・・・，Ｎ）を用いて設定してよい。望ましい学習用画像数の割合は、ユーザの手動によって設定してもよく、所定の基準に基づいて設定してもよい。例えば、推定対象として１番目に望ましいラベル（ラーメン）が付加された元画像の出現数をＴ’_１に設定し、推定対象として２番目に望ましいラベル（炒飯）が付加された元画像の出現数をＴ’_２に設定する。学習データ生成部２１０は、Ｔ’_１およびＴ’_２を式３に代入し、式３により取得した二乗誤差が所定値以下となるように学習用画像を生成する処理、または式３により取得した二乗誤差が所定値以下となるように学習用画像の個数を調整する処理を実行する。また、学習データ生成部２１０は、全ての学習用画像における元画像の出現数の中央値から所定範囲に属する学習用画像の集合を抽出し、抽出した学習用画像の集合を学習データとして設定してもよい。

【数2】

【0056】

「第２アルゴリム」
図１７は、実施形態における学習用画像の生成処理の他の一例を示す図である。学習用画像の集合におけるｉ番目の学習用画像に付随するラベルをＬ_ｉ（ｉ＝１，２，・・・，Ｎ＋Ｍ）とする。例えば、１番目の学習用画像に「１（ラーメン）」のラベルおよび「２（炒飯）」のラベルが付随している場合、Ｌ_１＝｛１，２｝となる。ラベルＬ_ｉの集合を展開し、各ラベルが出現した合計数をＴＬ_ｉ（ｉ＝１，２，・・・，Ｎ＋Ｍ）とする。例えば、１０枚の学習用画像に付随したラベルの集合に「１」のラベルが３個存在する場合、ＴＬ_１＝３となる。

【0057】

学習データ生成部２１０は、学習用画像に付随するラベルの数を学習用画像間で調整する。学習データ生成部２１０は、例えば、元画像のラベルが使用された平均値（ＴＬハット）を下記の式４とした場合、下記の式５のような二乗誤差が一定値以下となるように学習用画像を生成する。

【数3】

【0058】

学習データ生成部２１０は、全ての学習用画像のうち、ラベル使用数の二乗誤差が一定値以下となるような学習用画像の集合を抽出（サンプリング）し、抽出した学習用画像の集合を学習データとして設定してもよい。さらに、学習データ生成部２１０は、全ての学習用画像におけるラベルの使用数の中央値から所定範囲に属する学習用画像の集合を抽出し、抽出した学習用画像の集合を学習データとして設定してもよい。学習用画像の集合を抽出する処理は、例えば、学習用画像の生成後、ラーメンのラベル、炒飯のラベル、卵料理のラベルの比率がいずれかの生成画像に大きく偏る場合や、例えばラーメンのラベルの数が他のラベルの数に対して多すぎる場合に、ラーメンのラベルが付加された学習用画像の画像を減らす処理である。

【0059】

図１８は、実施形態における学習用画像の生成処理の他の一例を示す図である。学習データ生成部２１０は、推定対象のメニューに基づいて、学習用画像に付随するラベルの数を学習用画像間で調整してよい。学習データ生成部２１０は、例えば、推定対象がラーメンであってメニュー推定モデル４１２および／またはボリューム推定モデル４２２を学習させる場合、ラーメンに相当するラベルを中心として学習用画像を生成する。具体的に、学習データ生成部２１０は、ラーメンに相当するラベルが付随する正解画像、ラーメンに相当するラベルが付随する誤認画像、ラーメンに相当するラベルの信頼度が高い画像、ラーメンに相当するラベルの信頼度が低い画像、ラーメンに相当するラベルが付随する画像であって多様な距離や環境が付随した画像群を元画像として用いて、学習用画像の集合を生成する。

【0060】

学習データ生成部２１０は、推定対象に応じて望ましいラベル出現数の割合を、ラベル出現数ＴＬ’_ｉ（ｉ＝１，２，・・・，Ｌ）を用いて設定してよい。望ましいラベル出現数の割合は、ユーザの手動によって設定してもよく、所定の基準に基づいて設定してもよい。なお、例えば、推定対象として１番目に望ましいラベル（ラーメン）の出現数をＴＬ’_１に設定し、推定対象として２番目に望ましいラベル（炒飯）の出現数をＴＬ’_２に設定する。学習データ生成部２１０は、ＴＬ’_１およびＴＬ’_２を式６に代入し、式６により取得した二乗誤差が所定値以下となるように学習用画像を生成する処理、または式６により取得した二乗誤差が所定値以下となるように学習用画像の個数を調整する処理を実行する。また、学習データ生成部２１０は、全ての学習用画像におけるラベルの出現数の中央値から所定範囲に属する学習用画像の集合を抽出し、抽出した学習用画像の集合を学習データとして設定してもよい。

【数4】

【0061】

「第３アルゴリム」
学習データ生成部２１０は、第１アルゴリムのように元画像の数を元画像間で調整すると共に第２アルゴリムのように学習用画像に付随するラベルの数を学習用画像間で調整してよい。学習データ生成部２１０は、例えば、元画像が使用された平均値を式１として、式２のような二乗誤差が一定値以下となるように学習用画像を生成すると共に、元画像のラベルが使用された平均値を式４とし、式５のような二乗誤差が一定値以下となるように学習用画像を生成する。

【0062】

学習データ生成部２１０は、全ての学習用画像のうち元画像使用数の二乗誤差が一定値以下となるような学習用画像の集合を抽出（サンプリング）し、抽出した学習用画像の集合を学習データとして設定すると共に、全ての学習用画像のうちラベル使用数の二乗誤差が一定値以下となるような学習用画像の集合を抽出（サンプリング）し、抽出した学習用画像の集合を学習データとして設定してよい。さらに、学習データ生成部２１０は、全ての学習用画像における元画像の使用数の中央値から所定範囲に属する学習用画像の集合を抽出し、抽出した学習用画像の集合を学習データとして設定するとともに、全ての学習用画像におけるラベルの使用数の中央値から所定範囲に属する学習用画像の集合を抽出し、抽出した学習用画像の集合を学習データとして設定してもよい。

【0063】

学習データ生成部２１０は、推定対象のメニューに基づいて、元画像の数を元画像間で調整するとともに、学習用画像に付随するラベルの数を学習用画像間で調整してよい。学習データ生成部２１０は、例えば、推定対象がラーメンであってメニュー推定モデル４１２および／またはボリューム推定モデル４２２を学習させる場合、ラーメンに相当する元画像であってラーメンに相当するラベルを中心として学習用画像を生成する。具体的に、学習データ生成部２１０は、ラーメンに相当する元画像であってラベルが付随する正解画像、ラーメンに相当する元画像であってラベルが付随する誤認画像、ラーメンに相当するラベルの信頼度が高い画像、ラーメンに相当するラベルの信頼度が低い画像、ラーメンに相当するラベルが付随する画像であって多様な距離や環境が付随した画像群を元画像として用いて、学習用画像の集合を生成する。

【0064】

学習データ生成部２１０は、推定対象に応じて望ましい学習用画像の割合およびラベル出現数の割合を、元画像出現数Ｔ’_ｉ（ｉ＝１，２，・・・，Ｎ）およびラベル出現数ＴＬ’_ｉ（ｉ＝１，２，・・・，Ｌ）を用いて設定してよい。例えば、推定対象として１番目に望ましいラーメンの元画像の出現数をＴ’_１に設定すると共にラベル（ラーメン）の出現数をＴＬ’_１に設定し、推定対象として２番目に望ましい炒飯の元画像の出現数をＴ’_２に設定すると共にラベル（炒飯）の出現数をＴ’_２に設定する。学習データ生成部２１０は、Ｔ’_１およびＴ’_２を式３に代入すると共にＴＬ’_１およびＴＬ’_２を式６に代入し、式３により取得した二乗誤差のそれぞれが所定値以下となるように学習用画像を生成する処理、または式６により取得した二乗誤差のそれぞれが所定値以下となるように学習用画像の個数を調整する処理を実行する。また、学習データ生成部２１０は、全ての学習用画像における元画像の出現数の中央値から所定範囲に属しラベルの出現数の中央値から所定範囲に属する学習用画像の集合を抽出し、抽出した学習用画像の集合を学習データとして設定してもよい。

【0065】

図１９は、学習用画像の集合を調整する具体的な一例を示す図である。具体的に、推定対象のメニューがラーメンであり、学習用画像の集合Ａが存在するものとする。学習データ生成部２１０は、学習用画像の集合Ａにおけるラーメンのラベルが付随する学習用画像の割合を高くするために式４を用いてラーメンのラベル出現数を他のラベル出現数よりも高く調整することで、学習用画像の集合Ａから学習用画像の集合Ｂを抽出する。次に学習データ生成部２１０は、ラーメンの元画像を用いた学習用画像を均等になるように調整するように、学習用画像の集合Ｂから学習用画像の集合Ｃを抽出する。または、学習データ生成部２１０は、ラーメンの元画像に近い学習用画像を含む集合に調整するように、学習用画像の集合Ｂから学習用画像の集合Ｄを抽出する。

【0066】

［元画像の選択処理］
つぎに、元画像を選択する処理について説明する。この元画像を選択する処理は、上述した第１アルゴリム、第２アルゴリム、および第３アルゴリムの何れにも適用可能である。
図２０は、学習用画像を生成する処理の手順の一例を示すフローチャートである。学習データ生成部２１０は、画像蓄積部２００から元画像を取得する（ステップＳ１００）。学習データ生成部２１０は、取得した元画像に付随した信頼度が閾値以上であるか否かを判定する（ステップＳ１０２）。学習データ生成部２１０は、信頼度が閾値以上である場合（ステップＳ１０２：ＹＥＳ）、当該元画像を用いて学習用画像を生成し（ステップＳ１０４）、信頼度が閾値以上ではない場合（ステップＳ１０２：ＮＯ）、当該元画像を用いて学習用画像を生成しない。このように、学習データ生成部２１０は、ラベルに対応した信頼度に基づいて元画像を用いた学習用画像の生成を行うか否かを判定することで、元画像を選択することができる。

【0067】

具体的に、ｉ番目の画像に付随するラベルの信頼度をＲ_ｉ（ｉ＝１，２，・・・，Ｎ＋Ｍ）とし、１番目の元画像に「１（ラーメン）」および「２（炒飯）」のラベルが付随しており、ラベル「１」の信頼度が０．９であり、ラベル「２」の信頼度が０．５である場合、Ｌ_１＝｛１，２｝、Ｒ_１＝｛０．９，０．５｝と表すとする。この場合、学習データ生成部２１０は、例えば、信頼度の閾値を全メニュー（全ラベル）について０．７に設定した場合において、１番目の元画像がＬ_１＝｛１，２｝、Ｒ_１＝｛０．９，０．５｝であり、２番目の元画像がＬ_２＝｛１，２｝、Ｒ_２＝｛０．５，０．８｝である場合、ラベル「１」に対応したラーメンを予測するメニュー推定モデル４１２およびボリューム推定モデル４２２を学習させるための元画像として１番目の元画像を用いると判定し（０．９＞０．７）、２番目の元画像は用いないと判定する（０．５＜０．７）。一方、学習データ生成部２１０は、ラベル「２」に対応した炒飯を予測するメニュー推定モデル４１２およびボリューム推定モデル４２２を学習させるための元画像として１番目の元画像を用いないと判定し（０．５＜０．７）、２番目の元画像を用いると判定する（０．８＞０．７）。このように、学習データ生成部２１０は、推定対象のメニューに基づいて、ラベルに対応した信頼度に基づいて元画像を用いた学習用画像の生成を行うか否かを判定する。

【0068】

［推定モデルの評価処理］
図２１は、実施形態における推定モデルの評価を示すブロック図である。メニュー推定システム１は、評価部９００を備える。評価部９００は、評価用画像をメニュー推定モデル４１２またはボリューム推定モデル４２２に入力し、メニュー推定モデル４１２またはボリューム推定モデル４２２の出力に基づいてメニュー推定モデル４１２またはボリューム推定モデル４２２を評価する。メニュー推定モデル４１２およびボリューム推定モデル４２２は、元画像に付随するラベルの信頼度に応じて予測精度が変化する。例えば、ラベル「１」の信頼度が高いがラベル「２」の信頼度が低い元画像の集合を用いて学習された推定モデルの予測精度は、ラベル「１」については高いが、ラベル「２」については低い場合が多い。メニュー推定システム１は、推定モデルのラベルに対する評価値を高くしたい場合、上述した元画像の選択において信頼度の高いラベルを選択して推定モデルを生成することができる。一方、メニュー推定システム１は、推定モデルのラベルに対する予測精度が低くても許容される場合には、上述した元画像の選択において信頼度に対する閾値を低く設定して推定モデルを生成することができる。

【0069】

［実施形態の効果］
以上説明したように、実施形態のメニュー推定システム１によれば、画像を取得する画像取得部としての画像蓄積部２００と、画像蓄積部２００により取得した画像を学習データとして入力とし、画像蓄積部２００により取得した画像に含まれる食品のメニューを出力するようにメニュー推定モデル４１２を学習させるモデル学習部３００と、画像蓄積部２００により取得した画像を対象画像としてメニュー推定モデル４１２に入力し、メニュー推定モデル４１２の出力に基づいて対象画像に含まれた食品のメニューを推定するメニュー推定部４１０と、メニュー推定部４１０により推定されたメニューを示す第１のメニュー情報、および第１のメニュー情報に対応する対象画像中の画像領域を示す第１の領域情報を出力する中間出力部５００と、を備える、メニュー推定装置を実現することができる。このメニュー推定システム１によれば、推定されたメニューを示す第１のメニュー情報、および第１のメニュー情報に対応する対象画像中の画像領域を示す第１の領域情報を出力するので、メニューに対応した領域の正誤を補正することが可能になり、補正した結果に基づいてメニュー推定モデル４１２の推定精度を高くすることができる。

【0070】

また、メニュー推定システム１によれば、中間出力部５００から出力された第１のメニュー情報および第１の領域情報を修正する指示を受け付け、受け付けた指示に基づいてメニューおよび画像領域を補正する補正部６００と、補正部６００により補正されたメニューを示す第２のメニュー情報、および画像領域を示す第２の領域情報を出力する出力部７００と、を備え、モデル学習部３００により、第１のメニュー情報、第１の領域情報、２のメニュー情報、および第２の領域情報に基づいてメニュー推定モデル４１２を学習させることができる。この結果、メニュー推定システム１によれば、メニューの推定精度を高くすることができる。

【0071】

さらに、メニュー推定システム１によれば、推定部により、対象画像に含まれるメニュー、および当該メニューに含まれる部分を推定し、メニューを示す文字情報と、当該メニューに含まれる部分を示す文字情報とを出力する。さらに、メニュー推定システム１によれば、推定部により対象画像に含まれる一つの画像領域について複数のメニューを推定した場合、当該画像領域を示す情報と、各メニューと各メニューの信頼度とを示す文字情報と、複数のメニューのうち何れか一つの選択を促すことを示す文字情報とを出力する。さらに、メニュー推定システム１によれば、推定部により対象画像に含まれる画像領域についてメニューが推定できない場合、当該画像領域を示す情報と、メニューの入力を促すことを示す文字情報とを出力する。この結果、メニュー推定システム１によれば、推定したメニューに加えて、推定した根拠となった画像領域をユーザに提示することができ、適切に推定結果を補正することができ、さらにメニューの推定精度を高くすることができる。

【0072】

さらに、メニュー推定システム１によれば、画像を学習データとして入力とし、当該画像に含まれる食品のメニュー、および当該メニューのボリュームに関する情報を出力するようにボリューム推定モデル４２２を学習させ、対象画像としてボリューム推定モデル４２２に入力し、ボリューム推定モデル４２２の出力に基づいて食品のメニューおよび当該メニューのボリュームに関する情報を推定することができる。これによりメニュー推定システム１は、メニューに含まれるボリュームを推定することができる。

【0073】

さらに、メニュー推定システム１によれば、ボリュームに関する情報として、対象画像を撮像した撮像装置から食品までの距離情報、食品に対する撮像装置の視点、食品に対する入射光および反射光、および照明に関する情報を含むので、対象画像内に含まれる領域の大きさに影響する距離、視点、光環境や照明を考慮して、ボリュームの推定精度を高くすることができる。

【0074】

さらに、メニュー推定システム１によれば、食品のメニューおよび当該メニューのボリュームに関する情報に基づいて、メニューの栄養素を推定する栄養素推定部を備えるので、推定したメニューおよびボリュームに基づいて領域毎に栄養素に関する情報を提供することができる。

【0075】

実施形態のメニュー推定システム１によれば、画像を取得する画像取得部としての画像蓄積部２００と、画像蓄積部２００により取得した画像を元画像として用いて学習用画像を生成する画像生成部としての学習データ生成部２１０であって、元画像の数を元画像間で調整する学習データ生成部２１０と、画像蓄積部２００により取得した画像、および学習データ生成部２１０により生成した学習用画像を学習データとして入力とし、学習データに含まれる食品のメニューを出力するように推定モデル（メニュー推定モデル４１２またはボリューム推定モデル４２２）を学習させる学習処理部３１０と、を備える、学習装置を実現することができる。このメニュー推定システム１によれば、推定モデルの学習が特定の元画像に偏ることを抑制することができる。

【0076】

また、メニュー推定システム１によれば、推定対象のメニューに基づいて元画像の数を元画像間で調整するので、推定したいメニューに合わせて推定モデルの学習を行うことができ、推定モデルの推定精度を高くすることができる。

【0077】

さらに、メニュー推定システム１によれば、画像を取得する画像取得部としての画像蓄積部２００と、画像蓄積部２００により取得した画像を元画像として用いて学習用画像を生成する画像生成部としての学習データ生成部２１０と、画像蓄積部２００により取得した画像、および画像蓄積部２００により生成した学習用画像を学習データとして入力とし、学習データに含まれる食品のメニューを出力するように推定モデルを学習させる学習部と、を備え、学習データ生成部２１０により、学習用画像に付随するラベルの数を学習用画像間で調整する。これによりメニュー推定システム１によれば、推定モデルの学習が特定のラベルに偏ることを抑制することができる。

【0078】

さらに、メニュー推定システム１によれば、学習データ生成部２１０により推定対象のメニューに基づいて、学習用画像に付随するラベルの数を学習用画像間で調整するので、推定したいメニューに合わせて推定モデルの学習を行うことができ、推定モデルの推定精度を高くすることができる。

【0079】

さらに、メニュー推定システム１によれば、元画像の数を元画像間で調整すると共に学習用画像に付随する前記ラベルの数を学習用画像間で調整するので、推定モデルの学習が特定の元画像や特定のラベルに偏ることを抑制することができる。

【0080】

さらに、メニュー推定システム１によれば、推定対象のメニューに基づいて、元画像の数を元画像間で調整すると共に学習用画像に付随するラベルの数を学習用画像間で調整するので、推定したいメニューに合わせて推定モデルの学習を行うことができ、推定モデルの推定精度を高くすることができる。

【0081】

さらに、メニュー推定システム１によれば、ラベルに対応した信頼度に基づいて元画像を用いた学習用画像の生成を行うか否かを判定するので、信頼度の高いラベルが付随した元画像を用いて推定モデルを学習させることができ、さらにメニューの推定精度を高くすることができる。

【0082】

さらに、メニュー推定システム１によれば、推定対象のメニューに基づいて、ラベルに対応した信頼度に基づいて元画像を用いた学習用画像の生成を行うか否かを判定する、推定対象のメニューに対して信頼度の高いラベルが付随した元画像を用いて推定モデルを学習させることができ、さらにメニューの推定精度を高くすることができる。

【0083】

さらに、メニュー推定システム１によれば、メニューに対応したラベルおよび信頼度が付随した評価用画像を推定モデルに入力し、推定モデルの出力結果に基づいて推定モデルを評価する評価部９００を備え、推定モデルの出力と評価用画像に付随したラベルとの比較と、評価用画像に付随した信頼度とに基づいて推定モデルを評価することができ、高い評価の推定モデルを作成することができる。

【0084】

なお、各実施形態および変形例について説明したが、一例であってこれらに限られず、例えば、各実施形態や各変形例のうちのいずれかや、各実施形態の一部や各変形例の一部を、他の１または複数の実施形態や他の１または複数の変形例と組み合わせて本発明の一態様を実現させてもよい。

【0085】

なお、本実施形態におけるユーザ端末装置１００、学習データ生成部２１０、モデル学習部３００、推定部４００、および補正部６００の各処理を実行するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたプログラムを、コンピュータシステムに読み込ませ、実行することにより、ユーザ端末装置１００、学習データ生成部２１０、モデル学習部３００、推定部４００、および補正部６００に係る上述した種々の処理を行ってもよい。

【0086】

なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器などのハードウェアを含むものであってもよい。また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、フラッシュメモリなどの書き込み可能な不揮発性メモリ、ＣＤ－ＲＯＭなどの可搬媒体、コンピュータシステムに内蔵されるハードディスクなどの記憶装置のことをいう。

【0087】

さらに「コンピュータ読み取り可能な記録媒体」とは、インターネットなどのネットワークや電話回線などの通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（例えばＤＲＡＭ（Ｄｙｎａｍｉｃ
ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ））のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置などに格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。

【0088】

ここで、プログラムを伝送する「伝送媒体」は、インターネットなどのネットワーク（通信網）や電話回線などの通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

【符号の説明】

【0089】

１メニュー推定システム
１００ユーザ端末装置
２００画像蓄積部
２０６ログデータ蓄積部
２０８検知結果蓄積部
２１０学習データ生成部
３００モデル学習部
３１０学習処理部
４００推定部
４１０メニュー推定部
４１２メニュー推定モデル
４２０ボリューム推定部
４２２ボリューム推定モデル
５００中間出力部（第１の出力部）
５１０メニュー情報
５２０ボリューム情報
６００補正部
６１０メニュー補正部
６２０ボリューム補正部
７００出力部（第２の出力部）
７１０メニュー情報
７２０ボリューム情報
８００栄養素推定部
９００評価部

【図1】