IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ イーライ リリー アンド カンパニーの特許一覧

特許7392177視覚認識階層ベースの物体認識のための方法及び装置
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-27
(45)【発行日】2023-12-05
(54)【発明の名称】視覚認識階層ベースの物体認識のための方法及び装置
(51)【国際特許分類】
   G06T 7/00 20170101AFI20231128BHJP
【FI】
G06T7/00 300F
【請求項の数】 21
(21)【出願番号】P 2022567377
(86)(22)【出願日】2021-04-28
(65)【公表番号】
(43)【公表日】2023-06-14
(86)【国際出願番号】 US2021029610
(87)【国際公開番号】W WO2021225842
(87)【国際公開日】2021-11-11
【審査請求日】2022-12-20
(31)【優先権主張番号】63/020,571
(32)【優先日】2020-05-06
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】594197872
【氏名又は名称】イーライ リリー アンド カンパニー
(74)【代理人】
【識別番号】100145403
【弁理士】
【氏名又は名称】山尾 憲人
(74)【代理人】
【識別番号】100135703
【弁理士】
【氏名又は名称】岡部 英隆
(74)【代理人】
【識別番号】100227927
【弁理士】
【氏名又は名称】中村 拓
(72)【発明者】
【氏名】デルプ,エドワード ジョン ザ サード
(72)【発明者】
【氏名】アイシャー-ミラー,ヘザー アン
(72)【発明者】
【氏名】ホァ,ジャンペン
(72)【発明者】
【氏名】リン,ルオタオ
(72)【発明者】
【氏名】マオ,ルンユー
(72)【発明者】
【氏名】シャオ,ゼーマン
(72)【発明者】
【氏名】ヤルラガッダ,スリ カリヤン
(72)【発明者】
【氏名】ジュー,フェンチン マギー
【審査官】山田 辰美
(56)【参考文献】
【文献】特開2010-282581(JP,A)
【文献】特開2014-093058(JP,A)
【文献】黒木 進,クラスタ分析に基づく画像の分類と閲覧のためのインタフェース,電子情報通信学会技術研究報告 Vol.100 No.31,日本,社団法人電子情報通信学会,2000年,Vol.100 No.31,161~168
【文献】安倍 満,対応点探索のための特徴量表現,電子情報通信学会技術研究報告 Vol.115 No.388,日本,一般社団法人電子情報通信学会,2015年,Vol.115 No.388,53~73
【文献】小篠 裕子,マルチモーダル情報を用いた色名称と物体名称に基づく物体特定,画像電子学会誌 Vol.45 No.1,日本,一般社団法人画像電子学会,2016年,Vol.45 No.1,105~111
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00-7/90
(57)【特許請求の範囲】
【請求項1】
物体と関連付けられた意味情報及び視覚情報に基づいて、前記物体の画像をグループ化するための、コンピュータ化された方法であって、前記方法は、
デジタル画像のセットにアクセスすることであって、各デジタル画像は、当該物体の意味カテゴリと関連付けられた物体を含み、前記意味カテゴリは、前記デジタル画像のセットと関連付けられた複数の意味カテゴリのうちの1つであり、各デジタル画像は、前記デジタル画像が関連付けられている前記意味カテゴリを示すデータでラベル付けされている、アクセスすることと、
訓練された機械学習モデルを使用して、前記デジタル画像のセットの各デジタル画像の視覚的特徴ベクタを判定することであって、前記視覚的特徴ベクタは、複数の視覚的特徴の各々の値を含む、判定することと、
前記複数の意味カテゴリの各意味カテゴリについて、前記複数の視覚的特徴の各視覚的特徴について、前記意味カテゴリと関連付けられた前記デジタル画像のセット内の、各画像の前記視覚的特徴ベクタにおける、前記視覚的特徴の前記値の確率分布を計算することと、
前記確率分布に基づいて、前記複数の意味カテゴリのうちの異なる意味カテゴリと関連付けられた、デジタル画像間の類似性を示すデータを判定することと、
異なる意味カテゴリと関連付けられた前記デジタル画像間の類似性を示す前記データに基づいて、前記複数の意味カテゴリを、意味カテゴリのクラスタにグループ化することと、を含む、方法。
【請求項2】
前記デジタル画像のセットの各画像について、前記物体が食品であり、前記意味カテゴリが、前記食品の食品カテゴリである、請求項1に記載の方法。
【請求項3】
前記視覚的特徴ベクタが、1024次元空間ベクタを含み、前記視覚的特徴ベクタの各次元が、異なる視覚的特徴に対応する、請求項1又は2に記載の方法。
【請求項4】
前記計算された確率分布がガウス分布である、請求項1~3のいずれか一項に記載の方法。
【請求項5】
異なる意味カテゴリのデジタル画像間の類似性を示すデータを判定することが、
各行及び各列が前記複数の意味カテゴリのうちの意味カテゴリと関連付けられるように、前記複数の意味カテゴリの総数にそれぞれ等しい数の行及び列を含む類似性行列を生成することと、
前記類似性行列の各行列エントリについて、(a)前記行列エントリの前記行の前記意味カテゴリと関連付けられた、前記デジタル画像のセットのうちの、デジタル画像の第1のセットと、(b)前記行列エントリの前記列の前記意味カテゴリと関連付けられた、前記デジタル画像のセットのうちの、デジタル画像の第2のセットと、の前記視覚的特徴ベクタ間の類似性を示すデータを判定することと、を含む、請求項1~4のいずれか一項に記載の方法。
【請求項6】
前記計算された確率分布がガウス分布であり、
前記類似性行列の各行列エントリについて、前記視覚的特徴ベクタ間の前記類似性を示す前記データを判定することが、
前記複数の視覚的特徴の各視覚的特徴について、(a)デジタル画像の前記第1のセット、及び(b)デジタル画像の前記第2のセットの前記視覚的特徴の前記ガウス分布間の重なりを示す重なり係数を生成することと、
前記重なり係数を平均化することによって、平均重なり係数を生成することと、
前記視覚的特徴ベクタ間の前記類似性を示す前記データとして、前記平均重なり係数を提供することと、を含む、請求項5に記載の方法。
【請求項7】
異なる意味カテゴリと関連付けられたデジタル画像間の類似性を示す前記データに基づいて、前記複数の意味カテゴリを、意味カテゴリのクラスタにグループ化することが、
親和性伝播を使用して、前記類似性行列の前記平均重なり係数に基づいて、前記複数の意味カテゴリを、意味カテゴリのクラスタにグループ化することを含む、請求項6に記載の方法。
【請求項8】
物体と関連付けられた意味情報及び視覚情報に基づいて、前記物体の画像をグループ化するための命令を含む、非一時的コンピュータ可読媒体であって、前記命令が、コンピューティングデバイス上の1つ以上のプロセッサによって実行されるとき、前記1つ以上のプロセッサに、
デジタル画像のセットにアクセスすることであって、各デジタル画像は、当該物体の意味カテゴリと関連付けられた物体を含み、前記意味カテゴリは、前記デジタル画像のセットと関連付けられた複数の意味カテゴリのうちの1つであり、各デジタル画像は、前記デジタル画像が関連付けられている前記意味カテゴリを示すデータでラベル付けされている、アクセスすることと、
訓練された機械学習モデルを使用して、前記デジタル画像のセットの各デジタル画像の視覚的特徴ベクタを判定することであって、前記視覚的特徴ベクタは、複数の視覚的特徴の各々の値を含む、判定することと、
前記複数の意味カテゴリの各意味カテゴリについて、前記複数の視覚的特徴の各視覚的特徴について、前記意味カテゴリと関連付けられた前記デジタル画像のセット内の、各画像の前記視覚的特徴ベクタにおける、前記視覚的特徴の前記値の確率分布を計算することと、
前記確率分布に基づいて、前記複数の意味カテゴリのうちの異なる意味カテゴリと関連付けられた、デジタル画像間の類似性を示すデータを判定することと、
異なる意味カテゴリと関連付けられた前記デジタル画像間の類似性を示す前記データに基づいて、前記複数の意味カテゴリを、意味カテゴリのクラスタにグループ化することと、を行わせるように動作可能である、非一時的コンピュータ可読媒体。
【請求項9】
前記デジタル画像のセットの各画像について、前記物体が食品であり、前記意味カテゴリが、前記食品の食品カテゴリである、請求項8に記載の非一時的コンピュータ可読媒体。
【請求項10】
前記視覚的特徴ベクタが、1024次元空間ベクタを含み、前記視覚的特徴ベクタの各次元が、異なる視覚的特徴に対応する、請求項8又は9に記載の非一時的コンピュータ可読媒体。
【請求項11】
前記計算された確率分布がガウス分布である、請求項8~10のいずれか一項に記載の非一時的コンピュータ可読媒体。
【請求項12】
異なる意味カテゴリのデジタル画像間の類似性を示すデータを判定することが、
各行及び各列が前記複数の意味カテゴリのうちの意味カテゴリと関連付けられるように、前記複数の意味カテゴリの総数にそれぞれ等しい数の行及び列を含む類似性行列を生成することと、
前記類似性行列の各行列エントリについて、(a)前記行列エントリの前記行の前記意味カテゴリと関連付けられた、前記デジタル画像のセットのうちの、デジタル画像の第1のセットと、(b)前記行列エントリの前記列の前記意味カテゴリと関連付けられた、前記デジタル画像のセットのうちの、デジタル画像の第2のセットと、の視覚的特徴ベクタ間の類似性を示すデータを判定することと、を含む、請求項8~11のいずれか一項に記載の非一時的コンピュータ可読媒体。
【請求項13】
前記計算された確率分布がガウス分布であり、
前記類似性行列の各行列エントリについて、前記視覚的特徴ベクタ間の前記類似性を示す前記データを判定することが、
前記複数の視覚的特徴の各視覚的特徴について、(a)デジタル画像の前記第1のセット、及び(b)デジタル画像の前記第2のセットの視覚的特徴の前記ガウス分布間の重なりを示す、重なり係数を生成することと、
前記重なり係数を平均化することによって、平均重なり係数を生成することと、
前記視覚的特徴ベクタ間の前記類似性を示す前記データとして、前記平均重なり係数を提供することと、を含む、請求項12に記載の非一時的コンピュータ可読媒体。
【請求項14】
異なる意味カテゴリと関連付けられたデジタル画像間の類似性を示す前記データに基づいて、前記複数の意味カテゴリを、意味カテゴリのクラスタにグループ化することが、
親和性伝播を使用して、前記類似性行列の前記平均重なり係数に基づいて、前記複数の意味カテゴリを、意味カテゴリのクラスタにグループ化することを含む、請求項13に記載の非一時的コンピュータ可読媒体。
【請求項15】
物体と関連付けられた意味情報及び視覚情報に基づいて、前記物体の画像をグループ化するためのシステムであって、前記システムは、
命令を記憶するメモリと、
プロセッサであって、前記命令を実行して、
デジタル画像のセットにアクセスすることであって、各デジタル画像は、物体の意味カテゴリと関連付けられた前記物体を含み、前記意味カテゴリは、前記デジタル画像のセットと関連付けられた複数の意味カテゴリのうちの1つであり、各デジタル画像は、前記デジタル画像が関連付けられている前記意味カテゴリを示すデータでラベル付けされている、アクセスすることと、
訓練された機械学習モデルを使用して、前記デジタル画像のセットの各デジタル画像の視覚的特徴ベクタを判定することであって、前記視覚的特徴ベクタは、複数の視覚的特徴の各々の値を含む、判定することと、
前記複数の意味カテゴリの各意味カテゴリについて、前記複数の視覚的特徴の各視覚的特徴について、前記意味カテゴリと関連付けられた前記デジタル画像のセット内の、各画像の前記視覚的特徴ベクタにおける、前記視覚的特徴の前記値の確率分布を計算することと、
前記確率分布に基づいて、前記複数の意味カテゴリのうちの異なる意味カテゴリと関連付けられた、デジタル画像間の類似性を示すデータを判定することと、
異なる意味カテゴリと関連付けられた前記デジタル画像間の類似性を示す前記データに基づいて、前記複数の意味カテゴリを、意味カテゴリのクラスタにグループ化することと、を行うように構成されたプロセッサと、を備える、システム。
【請求項16】
前記デジタル画像のセットの各画像について、前記物体が食品であり、前記意味カテゴリが、前記食品の食品カテゴリである、請求項15に記載のシステム。
【請求項17】
前記視覚的特徴ベクタが、1024次元空間ベクタを含み、前記視覚的特徴ベクタの各次元が、異なる視覚的特徴に対応する、請求項15又は16に記載のシステム。
【請求項18】
前記計算された確率分布がガウス分布である、請求項15~17のいずれか一項に記載のシステム。
【請求項19】
異なる意味カテゴリのデジタル画像間の類似性を示すデータを判定することが、
各行及び各列が前記複数の意味カテゴリのうちの意味カテゴリと関連付けられるように、前記複数の意味カテゴリの総数にそれぞれ等しい数の行及び列を含む類似性行列を生成することと、
前記類似性行列の各行列エントリについて、(a)前記行列エントリの前記行の前記意味カテゴリと関連付けられた、前記デジタル画像のセットのうちの、デジタル画像の第1のセットと、(b)前記行列エントリの前記列の前記意味カテゴリと関連付けられた、前記デジタル画像のセットのうちの、デジタル画像の第2のセットと、の視覚的特徴ベクタ間の類似性を示すデータを判定することと、を含む、請求項15~18のいずれか一項に記載のシステム。
【請求項20】
前記計算された確率分布がガウス分布であり、
前記類似性行列の各行列エントリについて、前記視覚的特徴ベクタ間の前記類似性を示す前記データを判定することが、
前記複数の視覚的特徴の各視覚的特徴について、(a)デジタル画像の前記第1のセット、及び(b)デジタル画像の前記第2のセットの視覚的特徴の前記ガウス分布間の重なりを示す、重なり係数を生成することと、
前記重なり係数を平均化することによって、平均重なり係数を生成することと、
前記視覚的特徴ベクタ間の前記類似性を示す前記データとして、前記平均重なり係数を提供することと、を含む、請求項19に記載のシステム。
【請求項21】
異なる意味カテゴリと関連付けられたデジタル画像間の類似性を示す前記データに基づいて、前記複数の意味カテゴリを、意味カテゴリのクラスタにグループ化することが、
親和性伝播を使用して、前記類似性行列の前記平均重なり係数に基づいて、前記複数の意味カテゴリを、意味カテゴリのクラスタにグループ化することを含む、請求項20に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
背景技術
がん、糖尿病、心臓病などの多くの慢性疾患は、食事に関連している可能性がある。しかしながら、食事摂取量の正確な評価は、未解決の困難な問題である。食事記録、24時間食事想起、食品摂取頻度アンケート(FFQ)などの評価方法は、偏った測定になりやすく、使用するのが面倒な場合がある。食事関連の行動及び食事関連の活動を監視するために、モバイルコンピューティングデバイス又はウェアラブルコンピューティングデバイスを使用することに人気が高まっている。コンピュータビジョン及び機械学習の進歩により、食事摂取量の推定を提示するために、モバイルデバイス及びウェアラブルデバイスによって取り込まれた食品画像を分析することができる、画像ベースの食事評価システムの開発が可能になった。食事摂取量の正確な推定は、典型的には、システムの、画像背景から食品を区別すること(例えば、分割)と、食品項目を特定する(又は、ラベル付けする)こと(例えば、分類など)と、一人前の食事分量を推定する、及び/又は食事会の状況を理解することと、を行う能力に依存する。しかしながら、画像からの食事摂取量の評価を自動化するには、まだ多くの課題が残っている。
【発明の概要】
【0002】
本開示は、食品の認識など、画像内の物体を認識する技術に関する。これらの技術は、骨格構造として畳み込みNN(CNN)を含んだニューラルネットワーク(NN)を使用する、食品の位置特定段階及び階層的な物体分類段階を含む。物体の位置特定段階は、画像内の物体領域を特定する。物体分類段階は、視覚的及び/又は栄養的に類似した物体カテゴリを一緒にクラスタ化し、物体カテゴリ間の意味的・視覚的関係を表す、視覚的認識及び/又は栄養学的認識の階層構造を生成する。いくつかの実施形態によれば、マルチタスクCNNモデルを使用して、視覚的認識の階層構造を使用する分類タスクを実行する。
【0003】
一実施形態では、本技術は、物体と関連付けられた意味情報及び視覚情報に基づいて、物体の画像をグループ化するための、コンピュータ化された方法を提供する。本方法は、デジタル画像のセットにアクセスすることであって、各デジタル画像は、物体の意味カテゴリと関連付けられた物体を含み、意味カテゴリは、デジタル画像のセットと関連付けられた複数の意味カテゴリのうちの1つであり、各デジタル画像は、デジタル画像が関連付けられている意味カテゴリを示すデータでラベル付けされている、アクセスすることを含む。本方法は、訓練された機械学習モデルを使用して、デジタル画像のセットの各デジタル画像の視覚的特徴ベクタを判定することであって、視覚的特徴ベクタは、複数の視覚的特徴の各々の値を含む、判定することを含む。本方法は、複数の意味カテゴリの各意味カテゴリについて、複数の視覚的特徴の各視覚的特徴について、意味カテゴリと関連付けられたデジタル画像のセット内の、各画像の視覚的特徴ベクタにおける、視覚的特徴の値の確率分布を計算することを含む。本方法は、確率分布に基づいて、複数の意味カテゴリのうちの異なる意味カテゴリと関連付けられた、デジタル画像間の類似性を示すデータを判定することを含む。本方法は、異なる意味カテゴリと関連付けられたデジタル画像間の類似性を示すデータに基づいて、複数の意味カテゴリを、意味カテゴリのクラスタにグループ化することを含む。
【0004】
一実施形態では、本技術は、物体認識のための機械学習モデルを訓練するための、コンピュータ化された方法を提供する。本方法は、デジタル画像のセットにアクセスすることであって、各デジタル画像は物体を含み、かつ、(a)物体の所定の意味カテゴリであって、意味カテゴリは、デジタル画像のセットと関連付けられた複数の意味カテゴリのうちの1つである、所定の意味カテゴリと、(b)物体の所定の視覚的特徴カテゴリであって、視覚的特徴カテゴリは、複数の視覚的特徴カテゴリのうちの1つであり、複数の視覚的特徴カテゴリの各々は、デジタル画像のセットの視覚的特徴の間の類似性に基づいて判定される、所定の視覚的特徴カテゴリと、を示すデータを含む、所定のラベル情報と関連付けられている、アクセスすることを含む。本方法は、デジタル画像のセットの各デジタル画像の予測ラベル情報を判定するために、機械学習モデルを使用して、デジタル画像のセットを分類することであって、機械学習モデルの第1の出力層を使用して、複数の意味カテゴリの予測意味カテゴリを判定することと、機械学習モデルの第2の出力層を使用して、複数の視覚的特徴カテゴリの予測視覚的特徴カテゴリを判定することと、を含む、分類することを含む。本方法は、損失関数を使用して、機械学習モデルを訓練することであって、損失関数は、各デジタル画像の予測ラベル情報が、デジタル画像の所定のラベル情報と等しいかどうかを示すデータを組み込む、訓練することを含む。
【0005】
一実施形態では、本技術は、物体と関連付けられた意味情報、視覚情報及び栄養情報に基づいて、物体の画像をグループ化するための、コンピュータ化された方法を提供する。本方法は、デジタル画像のセットにアクセスすることであって、各デジタル画像は、意味カテゴリと関連付けられた物体を含み、意味カテゴリは、デジタル画像のセットと関連付けられた複数の意味カテゴリのうちの1つであり、各デジタル画像は、デジタル画像が関連付けられている意味カテゴリを示すデータでラベル付けされている、アクセスすることを含む。本方法は、複数の意味カテゴリの各意味カテゴリについて、1つ以上の栄養値を判定することであって、1つ以上の栄養値の各々が、1つ以上の栄養カテゴリうちの栄養カテゴリと関連付けられる、判定することを含む。本方法は、人間の入力なしで、複数の意味カテゴリの各意味カテゴリの1つ以上の栄養値に基づいて、複数の意味カテゴリのうちの異なる意味カテゴリ間の栄養的類似性を示すデータを自動的に判定することを含む。本方法は、人間の入力なしで、異なる意味カテゴリ間の栄養的類似性を示すデータに基づいて、複数の意味カテゴリを意味カテゴリのクラスタに自動的にグループ化することを含む。
【0006】
一実施形態では、本技術は、物体認識のための機械学習モデルを訓練するための、コンピュータ化された方法を提供する。本方法は、デジタル画像のセットにアクセスすることであって、各デジタル画像は物体を含み、かつ、(a)物体の所定の意味カテゴリであって、意味カテゴリは、デジタル画像のセットと関連付けられた複数の意味カテゴリのうちの1つである、所定の意味カテゴリと、(b)物体の所定の栄養及び視覚的特徴カテゴリであって、栄養及び視覚的特徴カテゴリは、デジタル画像のセットと関連付けられた複数の栄養及び視覚的特徴カテゴリのうちの1つであり、複数の栄養及び視覚的特徴カテゴリの各々は、デジタル画像のセットの栄養及び視覚的特徴の間の類似性に基づいて判定される、所定の栄養及び視覚的特徴カテゴリと、を示すデータを含む、所定のラベル情報と関連付けられている、アクセスすることを含む。本方法は、デジタル画像のセットの各デジタル画像の予測ラベル情報を判定するために、機械学習モデルを使用して、デジタル画像のセットを分類することであって、機械学習モデルの第1の出力層を使用して、複数の意味カテゴリの予測意味カテゴリを判定することと、機械学習モデルの第2の出力層を使用して、複数の栄養及び視覚的特徴カテゴリの予測栄養及び視覚的特徴カテゴリを判定することと、を含む、分類することを含む。本方法は、損失関数を使用して、機械学習モデルを訓練することであって、損失関数は、各デジタル画像の予測ラベル情報が、デジタル画像の所定のラベル情報と等しいかどうかを示すデータを組み込む、訓練することを含む。
【図面の簡単な説明】
【0007】
本開示の更なる実施形態、並びにその特徴及び利点は、添付の図面と併せて本明細書の説明を参照することによってより明らかになるであろう。図中の構成要素は必ずしも縮尺通りではない。更に、図面において、同様の参照番号は、異なる概観を通して対応する部分を示す。
【0008】
図1】いくつかの実施形態による、分析用の画像を取り込むデバイスの図である。
図2】いくつかの実施形態による、2段階の画像処理フローによって処理される画像の例示的な図を示す。
図3】いくつかの実施形態による、全てが高度の重なりを有する、3つの特定された領域を有する画像の例を示す。
図4】いくつかの実施形態による、物体と関連付けられた意味情報及び視覚情報に基づいて、物体(例えば、食品)の画像をグループ化するための、例示的なコンピュータ化された方法を示すフローチャートである。
図5】いくつかの実施形態による、例示的な特徴空間の関連する特徴の、3つの例示的なヒストグラムを示す図である。
図6】いくつかの実施形態による、重なり係数を判定する例を示す図である。
図7A-7M】いくつかの実施形態による、例示的な類似性行列を示す。
図8】いくつかの実施形態による、図7A~7Mの類似性行列の一部分を示す。
図9】いくつかの実施形態による、階層構造の一部分の例を示す。
図10】いくつかの実施形態による、物体認識のためのマルチタスク機械学習モデルを訓練するための、例示的なコンピュータ化された方法を示す図である。
図11】いくつかの実施形態による、例示的なマルチタスク畳み込みニューラルネットワーク、及び図9と併せて考察された階層構造の一部を示す図である。
図12】いくつかの実施形態による、物体と関連付けられた意味情報、視覚情報及び栄養情報に基づいて、物体(例えば、食品)の画像をグループ化するための、例示的なコンピュータ化された方法を示すフローチャートである。
図13A-13B】いくつかの実施形態による、類似性行列を生成するためのプロセスの例示的な図を示す。
図14】いくつかの実施形態による、物体認識のためのマルチタスク機械学習モデルを訓練するための、例示的なコンピュータ化された方法を示す図である。
図15】いくつかの実施形態による、階層構造の一部分の例を示す。
図16A-16D】いくつかの実施形態による、階層的分類を使用して物体(例えば、食品)の画像を分類した結果を、フラット訓練分類を使用して物体の画像を分類した結果と比較するチャートである。
図17】いくつかの実施形態による、本明細書に開示される技術及び実施形態の態様のうちのいずれかを実施するために使用され得る、コンピュータシステムの例示的な実装を示す。
【発明を実施するための形態】
【0009】
本開示の原理の理解を促進する目的のために、ここで、図面に例示された実施形態を参照し、特定の言語を使用して、これを説明する。しかしながら、これによって本発明の範囲を限定することを意図しないことが理解されるであろう。
【0010】
本開示は、画像内の食品を認識することを含む、画像内の物体を認識する技術に関する。本明細書に記載される実施例及び実施形態は、食品認識の文脈で提供され、これは例示目的で行われ、本明細書に記載の技術を限定することを意図するものではなく、他の種類の物体認識に使用することができる。
【0011】
いくつかの実施形態によれば、食品認識技術は、画像に存在する食品の位置を特定し、ラベル付けすることができる。いくつかの実施形態によれば、本技術は、それぞれ、画像内の複数の食品の位置特定及びラベル付けすることができる、食品の位置特定段階及び食品の分類段階を含む、2段階の食品認識システムを提供する。食品の位置特定段階は、食品を含む画像内の1つ以上の領域を特定することができる。本発明者らは、多くの食品画像が、人間の手、メニュー、テーブルなどの非食品物体も含むため、背景クラッタを除去するために、食品の位置特定段階を構成することができることを認識した。食品の位置特定の結果は、食品の分類段階で処理されるため、背景クラッタを除去することにより、食品の分類段階の性能を向上させることができる。
【0012】
本発明者らは、(例えば、食品の位置特定段階によって選択/特定された各領域に対する)分類段階による食品カテゴリのラベル付けが、分類タスクとして取り組まれ得ることを更に認識した。しかしながら、従来の技術は、一般的物体を分類するために使用され得るが、そのような技術は、食品を分類するには不十分であることが多い。例えば、従来の技術は、典型的には、食品の分類を、フラットできめ細かな分類問題として扱っているため、異なる食品カテゴリ間の未知の関係、又は隠れた関係を見逃す可能性がある。追加的又は代替的に、従来の技術は、意味に基づいて画像を分類するが(例えば、パンケーキ及びワッフルは意味的に類似している)、高い意味関係を有する食品カテゴリが、必ずしも類似する視覚的特徴を共有すること限らないため、意味を使用すると、問題が生じる可能性がある。更に、食品用語の記録及び意味関係の計算を手動で行うことは、大きなデータセットでは費用がかかり、実行不可能になる可能性がある。
【0013】
本発明者らは、視覚情報のみに基づいて食品を分類すると、顕著な分類エラーをもたらす可能性があることを更に認識した。そのような分類エラーは、食品の高度な複雑性、食品のクラス間の類似性、又はその両方が原因である可能性がある。このことは、(例えば、エネルギー消費量及び栄養素消費量を判定するための)食事評価のために食品を分類するときに問題が生じる可能性がある。例えば、2つの異なる食品が、視覚的類似性は高くても、栄養的類似性はほとんどない場合がある(例えば、ドーナツ及びベーグルは視覚的に類似しているが、栄養的には全く異なる)。したがって、誤分類は、誤分類された食品の(例えば、エネルギー値及び/又は主要栄養値に関する)悪い食事予測結果をもたらし得、食事評価に大きな影響を与える可能性がある。加えて、各食品は、一連の栄養素、及び対応する栄養価と関連付けられている(例えば、12グラムの炭水化物)。時として、1つの栄養素が、2つの異なる食品に対して同様の値を有し得、その一方、別の栄養素が、同じ食品に対して大きく異なる値を有し得る。したがって、本発明者らは、栄養素の多様性及び複雑性、並びに、食事評価の文脈でのそれらの相対的重要性により、2つの食品間の栄養的類似性を判定することが困難な場合があることを認識した。
【0014】
従来の分類技術に関するこれら及び他の問題に対処するために、本明細書に記載の技術は、画像内の食品の視覚的特徴情報を生成する。いくつかの実施形態によれば、技術は機械学習モデルを使用して、各画像の視覚的特徴ベクタを生成する。本技術は、生成された視覚的特徴情報に基づいて、食品をクラスタ化することができる。いくつかの実施形態によれば、本技術は、階層構造を構築するために、視覚的に類似した食品を自動的にクラスタ化することができる。本技術は、視覚的特徴を使用して、複数レベルの視覚カテゴリ及び/又は意味カテゴリを有する、食品ラベルの階層構造を生成することができる。そのような複数レベルの階層構造を使用して、分類段階の性能を向上させることができる。本技術は、訓練画像から全自動で、そのような階層構造を構築することができる。したがって、意味ベースのレベル及び視覚ベースのレベルの両方を有する階層構造により、機械学習モデルが、意味的類似性だけに依存するのではなく、物体間の意味的類似性及び視覚的類似性の両方を活用することが可能になる(例えば、パンケーキ及びポークチョップは、見た目は似ているが、意味的には異なる)。
【0015】
いくつかの実施形態では、本技術は、階層構造をマルチタスク方式で活用することによって、複数の食品画像を分類する。従来の機械学習モデルは、画像をカテゴリに分類することができるが、そのようなモデルは、画像が、単一レベルの適切な意味カテゴリに分類されるかどうかのみを最適化する傾向がある。したがって、発明者らは、画像内で判定された意味情報及び視覚情報の両方に基づいて、画像を複数レベルの階層構造(各レベルの意味カテゴリ又は視覚カテゴリ)に分類することが望ましいことを理解した。そのような複数レベルの階層構造を使用して、物体をマルチタスク方式で処理することは、例えば、1つのレベルが正しくなくても(例えば、最上位及び最も細かいレベルのカテゴリ化が間違っていても)、他の(より低い又はより粗い)レベルの、他の正しい分類を通じて、分類が、まだ正しい領域内にある可能性があり得るように、分類を改善するのに役立つ。例えば、フライドチキン及びフライドポークは類似の外観を有し得るため、一方が誤って他方に分類されたとしても、栄養情報が類似している可能性があるため、許容される誤りであり得る。加えて、複数レベルの階層構造を使用することはまた、従来の単一レベルの分類に比べて、最高(例えば、最も細かい)レベルのカテゴリ化で、分類を改善するのにも役立つ。いくつかの実施形態によれば、マルチレベルの階層を使用するようにマルチタスク画像分類器を訓練するとき、本技術は、画像が正しい意味カテゴリ(例えば、ツリー階層の最上位及び最も細かいレベルにあり得る)に分類されるかどうかだけでなく、画像が正しい視覚的特徴クラスタ(例えば、ツリーの下位及び粗いレベルにある)に分類されているかどうかも考慮に入れる、クロスエントロピー損失関数を使用する。
【0016】
本明細書に記載の技術は、様々な画像処理用途に使用することができる。例えば、本技術は、画像ベースの食事評価、監視、及び/又はガイダンス、並びに関連する医療投薬(例えば、インスリン投薬)など、医療又はヘルスケアの文脈での用途に使用され得る。例えば、食品認識の結果は、ユーザに情報を提供するため、及び/又は、更なる画像分析を提供するため(例えば、食品の量、一人前の分量などを推定するため)など、様々な様式で使用することができる。
【0017】
本明細書に記載の技術は、物体と関連付けられた意味情報及び視覚情報に基づいて、物体の画像をグループ化することを提供する、コンピュータ実装技術(例えば、携帯電話アプリケーション又はクラウドベースのアプリケーションなどのコンピュータアプリケーション)を提供する。デジタル画像のセットがアクセスされ、各デジタル画像は、物体の意味カテゴリと関連付けられた物体を含み、意味カテゴリは、デジタル画像のセットと関連付けられた複数の意味カテゴリのうちの1つであり、各デジタル画像は、デジタル画像が関連付けられている意味カテゴリを示すデータでラベル付けされる。訓練された機械学習モデルを使用して、デジタル画像のセットの各デジタル画像の視覚的特徴ベクタが判定され、視覚的特徴ベクタは、複数の視覚的特徴の各々の値を含む。複数の意味カテゴリの各意味カテゴリについて、複数の視覚的特徴の各視覚的特徴について、意味カテゴリと関連付けられたデジタル画像のセット内の、各画像の視覚的特徴ベクタにおける、視覚的特徴の値の確率分布が計算される。複数の意味カテゴリのうちの異なる意味カテゴリと関連付けられた、デジタル画像間の類似性を示すデータが、確率分布に基づいて判定される。異なる意味カテゴリと関連付けられたデジタル画像間の類似性を示すデータに基づいて、複数の意味カテゴリが、意味カテゴリのクラスタにグループ化される。
【0018】
本明細書に記載の技術は、物体認識のための機械学習モデルを訓練することを提供する、コンピュータ実装技術を提供する。デジタル画像のセットがアクセスされ、各デジタル画像は物体を含み、かつ、(a)物体の所定の意味カテゴリであって、意味カテゴリは、デジタル画像のセットと関連付けられた複数の意味カテゴリのうちの1つである、所定の意味カテゴリと、(b)物体の所定の視覚的特徴カテゴリであって、視覚的特徴カテゴリは、複数の視覚的特徴カテゴリのうちの1つであり、複数の視覚的特徴カテゴリの各々は、視覚的特徴カテゴリと関連付けられたデジタル画像の視覚的特徴の間の類似性に基づいて判定される、所定の視覚的特徴カテゴリと、を示すデータを含む、所定のラベル情報と関連付けられる。デジタル画像のセットの各デジタル画像の予測ラベル情報を判定するために、機械学習モデルを使用して、デジタル画像のセットが分類されることであって、機械学習モデルの第1の出力層を使用して、複数の意味カテゴリの予測意味カテゴリを判定することと、機械学習モデルの第2の出力層を使用して、複数の視覚的特徴カテゴリの予測視覚的特徴カテゴリを判定することと、を含む。損失関数を使用して、機械学習モデルが訓練され、損失関数は、各デジタル画像の予測ラベル情報が、デジタル画像の所定のラベル情報と等しいかどうかを示すデータを組み込む。
【0019】
従来の分類法の問題に更に対処するために、本明細書に記載の技術は、追加的又は代替的に、食品分類タスクに栄養情報を使用することができる。いくつかの実施形態によれば、本技術は、食品分類タスクを実行するために、画像内の食品の栄養情報及び視覚的特徴情報の両方を判定することができる。いくつかの実施形態では、本技術は、(a)デジタル画像のセット内の食品の各意味カテゴリについて、1つ以上の栄養値を判定し、また(b)各意味カテゴリについて、(例えば、訓練された機械学習モデルを使用して)視覚的特徴ベクタを判定する。本技術は、栄養情報及び視覚的特徴情報に基づいて、食品をクラスタ化することができる。
【0020】
いくつかの実施形態によれば、本技術は、食品の階層構造を構築するために、視覚的及び栄養的に類似した食品を自動的にクラスタ化することができる。本技術は、視覚的特徴情報及び栄養情報を使用して、複数レベルの視覚カテゴリ及び栄養カテゴリ及び/又は意味カテゴリを有する、食品ラベルの階層構造を生成することができる。そのような複数レベルの階層構造を使用して、例えば、食品分類段階の性能を向上させることができる。本技術は、訓練画像から全自動で、そのような階層構造を構築することができる。したがって、1つ以上の意味ベースのレベル、並びに1つ以上の視覚ベース及び栄養ベースのレベルを有する階層構造により、機械学習モデルが、意味的類似性及び視覚的類似性だけに頼るのではなく、物体間の意味的類似性、視覚的類似性、及び栄養的類似性を活用することが可能になる(例えば、ベーグル及びドーナツは、見た目は似ているが、意味的及び栄養的には異なる)。
【0021】
いくつかの実施形態では、本技術は、階層構造をマルチタスク方式で活用することによって、食品画像を分類する。本技術は、画像について判定された意味情報、視覚情報、及び栄養情報に基づいて、食品画像を複数レベルの階層構造(各レベルの意味カテゴリ又は視覚カテゴリ及び栄養カテゴリ)に分類することができる。前述のように、そのような複数レベルの階層構造を使用して、物体をマルチタスク方式で処理することは、(例えば、従来の技術と比較して)分類を改善するのに役立ち得る。フライドチキン及びフライドポークの例を続けると、フライドチキン及びフライドポークは類似の外観を有し得、類似の栄養素も有し得るため、誤って一方が他方として分類されたとしても、栄養情報が類似している可能性があるため、許容される誤りであり得る。いくつかの実施形態によれば、マルチレベルの階層を使用するようにマルチタスク画像分類器を訓練するとき、本技術は、画像が正しい意味カテゴリ(例えば、ツリー階層の最上位及び最も細かいレベルにあり得る)に分類されるかどうかだけでなく、画像が正しい栄養クラスタ及び視覚的特徴クラスタ(例えば、ツリーの下位及び粗いレベルにある)に分類されているかどうかも考慮に入れる、クロスエントロピー損失関数を使用する。
【0022】
本明細書に記載の技術は、物体と関連付けられた意味情報、視覚情報及び栄養情報に基づいて、物体の画像をグループ化することを提供する、コンピュータ実装技術(例えば、携帯電話アプリケーション又はクラウドベースのアプリケーションなどのコンピュータアプリケーション)を提供する。デジタル画像のセットがアクセスされ、各デジタル画像は、物体の意味カテゴリと関連付けられた物体を含み、意味カテゴリは、デジタル画像のセットと関連付けられた複数の意味カテゴリのうちの1つであり、各デジタル画像は、デジタル画像が関連付けられている意味カテゴリを示すデータでラベル付けされる。複数の意味カテゴリの各意味カテゴリについて、1つ以上の栄養値が判定され、1つ以上の栄養値の各々が、1つ以上の栄養カテゴリうちの栄養カテゴリと関連付けられる。複数の意味カテゴリの各意味カテゴリについて、人間の入力なしで、複数の意味カテゴリの各意味カテゴリの1つ以上の栄養値に基づいて、複数の意味カテゴリのうちの異なる意味カテゴリ間の栄養的類似性を示すデータを自動的に判定する。人間の入力なしで、異なる意味カテゴリ間の栄養的類似性を示すデータに基づいて、複数の意味カテゴリが、意味カテゴリのクラスタに自動的にグループ化される。いくつかの実施形態では、異なる意味カテゴリのデジタル画像間の視覚的類似性を示すデータがアクセスされ、複数の意味カテゴリを意味カテゴリのクラスタにグループ化することは、栄養的類似性を示すデータ及び視覚的類似性を示すデータに基づいて、複数の意味カテゴリを意味カテゴリのクラスタにグループ化することを含む。
【0023】
本明細書に記載の技術は、物体認識のための機械学習モデルを訓練することを提供する、コンピュータ実装技術を提供する。デジタル画像のセットがアクセスされ、各デジタル画像は物体を含み、かつ、(a)物体の所定の意味カテゴリであって、意味カテゴリは、デジタル画像のセットと関連付けられた複数の意味カテゴリのうちの1つである、所定の意味カテゴリと、(b)物体の所定の栄養及び視覚的特徴カテゴリであって、栄養及び視覚的特徴カテゴリは、複数の栄養及び視覚的特徴カテゴリのうちの1つであり、複数の栄養及び視覚的特徴カテゴリの各々は、デジタル画像のセットの栄養及び視覚的特徴の間の類似性に基づいて判定される、所定の栄養及び視覚的特徴カテゴリと、を示すデータを含む、所定のラベル情報と関連付けられる。デジタル画像のセットの各デジタル画像の予測ラベル情報を判定するために、機械学習モデルを使用して、デジタル画像のセットが分類されることであって、機械学習モデルの第1の出力層を使用して、複数の意味カテゴリの予測意味カテゴリを判定することと、機械学習モデルの第2の出力層を使用して、複数の視覚的特徴カテゴリの予測栄養及び視覚的特徴カテゴリを判定することと、を含む。損失関数を使用して、機械学習モデルが訓練され、損失関数は、各デジタル画像の予測ラベル情報が、デジタル画像の所定のラベル情報と等しいかどうかを示すデータを組み込む。
【0024】
様々な実施形態を説明してきたが、更に多くの実施形態及び実装が可能であることが当業者には明らかであろう。したがって、本明細書に記載の実施形態は例であり、唯一の可能な実施形態及び実装ではない。更に、上述の利点は必ずしも唯一の利点ではなく、記載された利点の全てが各実施形態で達成されるとは必ずしも予想されない。
【0025】
食品分類は、一般に、画像内の食品項目のラベル付けを指し得る。いくつかの実施例では、入力画像に単一の項目しか含まれていない場合、従来の技術が、画像内の食品の画素位置が出力しない場合があり、画像内の食品の位置を特定することが望ましい場合に問題が生じる可能性がある。食品検出は、一般に、画像に食品が含まれているかどうかを判定することを指し得る。しかしながら、食品画像には複数の食品が含まれていることが一般的であり、したがって、画像に複数の食品が存在する場合、食品検出技術は、十分な情報を提供しない可能性がある。また、食品画像に食品項目が1つしかない場合でも、従来の食品検出技術は、典型的には、食品項目の画素位置を提供することができない。
【0026】
食品の位置特定は、画像内の食品の位置を検出することを目的とし、境界ボックス又は画素レベルの分割マスクによって示すことができる。食品の位置特定技術は、画像内の食品に関する空間情報を抽出できるが、位置特定技術は、典型的には、空間情報と関連付けられた食品カテゴリを返さない。食品の位置特定は、食品に対応する食品画像内の領域を見つけようとするため、食品検出用に設計された従来の技術よりも、多くの情報を必要とする。
【0027】
食品認識は、画像ベースの食事評価、監視、及び/又はガイダンスにおいて重要な役割を果たすことができる。そのような技術は、食品に対応する画像内の画素を自動的に検出し、食品の種類をラベル付けすることを目的とする。概念的には、食品画像認識は物体検出に類似している。しかしながら、様々な理由から、食品画像認識は、物体検出よりもはるかに困難な場合がある。例えば、食品認識には、様々な食品のきめ細かな認識が必要な場合があるが、典型的には、物体検出には必要ない。別の実施例として、多くの食品は類似の外観を有し、食品は一般に固定しておらず(例えば、したがって、同じ食品が、常に同じ物理的特性を有するとは限らない)、食品認識が更に困難になる可能性がある。
【0028】
食品認識技術は、単一食品の認識技術及び複数食品の認識技術を含み得る。本明細書で説明するように、食品認識は、画像内に存在する食品が1つだけであることを前提とすることが多く、したがって、食品画像分類とみなし得る。しかしながら、一般的な画像分類とは異なり、食品の分類は、典型的には、例えば、クラス内の変動及び/又はクラス間の混同が原因で、更にいっそう困難である。別の実施例として、同じ食品が、個人的好み、使用するレシピ、材料の在庫などに応じて、非常に異なる外観を有する場合がある。更なる実施例として、同じ調理法を使用して異なる食品を調理することにより、そのような異なる食品が、類似する外観を有する可能性がある(例えば、フライドチキンの胸肉及びフライドポークチョップは、見た目は似ている)。複数食品の認識技術は、複数の食品を含む画像を分析する実際のシナリオを処理するのに、より適している可能性があるが、そのような技術は、食品領域を特定すること、及びそれらの食品領域を分類することの両方が必要なため、複数食品の認識技術は、更にいっそう複雑になり得る。
【0029】
本明細書に記載の技術は、画像ベースの自動化食品認識のためのシステム及び方法を提供する。前述のように、食事評価は、多くの場合、1日の流れの中で個人が何を食べたかを収集する必要があり、人間の記憶及び/又は記録に頼ると、時間がかかり、面倒で、エラーが発生しやすくなる可能性がある。したがって、本明細書に記載の、画像ベースの自動化食品認識技術は、例えば、食事評価の効率及び精度を向上させることができる。図1図100に示すように、ユーザは、スマートフォン102、及び/又は画像を取り込める他のデバイスを使用して、食品104の画像106を取り込むことができ、画像は、本明細書に記載の技術を使用して処理され得る。したがって、本技術は、エンドユーザが技術を利用できるようにするのに役立つ、簡単にアクセスできる一般的なデバイスを活用することによって実装され得る。
【0030】
図2は、いくつかの実施形態による、2段階の画像処理フローによって処理される画像202の、例示的な図200を示す。この実施例では、画像202は、矢印204によって表される、物体(例えば、食品)の位置特定段階によって処理される。物体の位置特定段階204は、関心物体を含む可能性が高い入力画像202内の領域206A及び領域206B(まとめて領域206と称される)を含む領域を判定する。いくつかの実施形態では、本明細書で更に説明するように、物体の位置特定段階204は、訓練された機械学習モデルを使用して実行することができる。物体の位置特定段階の出力は、矢印208によって表される、物体分類段階に送り込まれる。いくつかの実施形態では、物体の位置特定段階204によって特定された領域206は、物体分類段階208によって処理される前に、サイズ変更することができる(例えば、128×128、224×224、256×256などにサイズ変更される)。本明細書で更に説明するように、物体分類段階208は、機械学習モデル(例えば、CNNモデル)から抽出された特徴に基づいて構築される、視覚的認識の階層構造を使用して実行することができる。物体分類段階208は、特定された領域206の各々について、食品ラベル、クラスタラベル、関連する信頼スコアなどを含む、様々な情報を生成することができる。最終出力は、入力画像内の各食品の境界ボックス及び食品ラベルを含む、注釈付き画像210を含むことができる。
【0031】
本明細書で説明するように、物体の位置特定プロセスは、画像内の関心領域を見つけるように構成される。食品の文脈では、例えば、食品の位置特定プロセスは、食品画像内の食品を含む領域を検索する。本技術は、各特定された領域が1つの食品のみを含むように構成され得る。様々なアーキテクチャを使用して、食品の位置特定プロセスを実装することができる。例えば、Faster R-CNN(例えば、参照によりその全体が本明細書に組み込まれる、Shaoqing Ren,Kaiming He,Ross Girshick,and Jian Sun,“Faster R-CNN:Towards real-time object detection with region proposal networks,”Proceedings of Advances in Neural Information Processing Systems(December 2015),pp.91-99で説明される)、YOLO(例えば、参照によりその全体が本明細書に組み込まれる、Joseph Redmon,Santosh Divvala,Ross Girshick,and Ali Farhadi,“You only look once:Unified,real-time object detection,”Proceedings of the IEEE conference on computer vision and pattern recognition(2016),pp.779-788で説明される)などの深層学習ベースの方法が、例えば、そのような技術は、コンピュータビジョンアプリケーションに適しているため、使用され得る。VGGファミリ(例えば、参照によりその全体が本明細書に組み込まれる、Karen Simonyan and Andrew Zisserman,“Very Deep Convolutional Networks for Large-Scale Image Recognition,”arXiv preprint,pp.1409-1556(2014)で説明される)、ResNet(例えば、参照によりその全体が本明細書に組み込まれる、K.He,X.Zhang,S.Ren,and J.Sun,“Deep Residual Learning for Image Recognition,”Proceedisng of the IEEE Conference on Computer Vision and Pattern Recognition(June 2016),pp.770-778.Las Vegas,NVで説明される)などの、ほとんどのCNNアーキテクチャが、物体の位置特定プロセス用の骨格構造として使用され得る。
【0032】
いくつかの実施形態によれば、Faster R-CNNは、食品の位置特定プロセスの中核として、VGG(例えば、VGG-16)と共に使用することができる。Faster R-CNNは、境界ボックスを有する物体を含み得る、潜在領域を提示することができる。Faster R-CNNは、各境界ボックスに信頼スコアを割り当てることができる。本明細書での参照を容易にするためであって、限定することを意図するものではないが、食品の文脈では、そのような信頼スコアは、画像内の食品領域の信頼スコアを表すことができるため、「食品性」スコアと称される(例えば、高い「食品性」スコアは、領域に食物が含まれている可能性が高いことを示す)。「食品性」スコアを使用して、どの領域が物体分類段階に渡されるかを判定することができる。例えば、閾値は、0.5を超える「食品性」スコアを有する領域が、食物分類段階に送り込まれるように、使用され得る。以下の実施例の項で説明されるように、Faster R-CNNモデルの例示的な実装は、境界ボックス情報を有する食品画像を含む、UEC-256データセットから構築された、訓練データセットを使用して訓練された(例えば、参照によりその全体が本明細書に組み込まれる、Y.Kawano and K.Yanai,“Automatic expansion of a food image dataset leveraging existing categories with domain adaptation,”Proceedings of European Conference on Computer Vision Workshops(September 2014),p.3-17,Zurich,Switzerlandで説明される)。このデータセットの256個の食品カテゴリは全て、1つのカテゴリ(食品)として扱われた。画像の約70%が訓練データとして選択され、約15%が検証(例えば、モデルがデータに過剰適合していないことを確実にするため)に使用され、約15%が、食品の位置特定の性能テストに使用された。
【0033】
いくつかの実施形態によれば、Faster R-CNN方法は、Region Proposal Network(RPN)及び分類器からなる。RPNは、画像内の前景物体領域を提案するために使用される。RPNの前に、最後の畳み込み層に基づいて特徴マップが生成される。RPNは、特徴マップ上で小さなネットワークをスライドさせることによって、所定の数(例えば、9)の異なるサイズのアンカーボックスを生成する。各アンカーは、前景物体の信頼スコア、境界ボックス座標のセット、又はその両方などの情報を返すことができる。いくつかの実施形態では、信頼スコアが閾値(例えば、0.5)よりも大きい場合、分類器は、アンカーボックス内の特徴を使用して、それが食物を含むかどうかを判定する。
【0034】
分類器に関して、異なるアンカーボックスは異なる寸法を持つことができるため、(例えば、参照によりその全体が本明細書に組み込まれる、Ross Girshick,“Fast r-cnn,”Proceedings of the IEEE International Conference on Computer Vision(December 2015),pp.1440-1448で説明された、関心領域(RoI)プールを使用して)固定サイズの特徴マップを作成することができる。完全接続層であり得る分類器は、ジェネリックラベル(例えば、「食品」又は「非食品」)を予測し、選択された各領域の信頼スコアを割り当てることができる。信頼スコアの範囲は0~1で、各領域の予測ラベルの確率を反映することができる。例えば、モデルが、入力画像の領域に0.65を割り当てた場合、システムは、この領域に食物が含まれる確率が65%であることを示す。前述のように、この信頼スコアは、食品画像を分析する際の「食品性」スコアと称される。
【0035】
いくつかの実施形態によれば、(例えば、単一の食品に対する複数の領域を回避するため)冗長な領域を画像から除去することができる。例えば、訓練段階中及び/又は推定段階中に、Non-Maximum Suppression(NMS)閾値を選択して、冗長領域を除去することもできる。いくつかの実施形態では、RPNは、画像内で高度の空間的重なりを有する領域を、特定又は提示することができる。図3は、いくつかの実施形態による、3つの特定された領域302、304、及び306を有する画像の例を示しており、これらは全て高度の重なりを有する。いくつかの実施形態によれば、Non-Maximum Suppression(NMS)を使用して、選択された境界ボックスとの大きな重なりを有する、他の境界ボックスを除去することができるように、最良の(例えば、最高の)「食品性」スコアを有する境界ボックスを選択することができる。いくつかの実施形態によれば、Intersection Over Union(IoU)を使用して、領域間の重なりがどれほど大きいかを測定することができる。式1に示すように、例えば、B1及びB2は2つの境界ボックスに対応する。
【数1】
【0036】
0.5、0.7、0.9などのIoU閾値など、様々な閾値を設定することができる。例えば、図3を参照すると、3つの領域302、304、及び306は全て高い信頼スコアを有し、IoUは0.7を超える。0.7を超えるIoU値を有する境界ボックスが複数ある場合、システムは、最大の「食品性」スコアを有する境界ボックスを保持することができる。再び図3を参照すると、右の画像に示すように、NMSは、最高の信頼スコアを有する領域304を選択する。
【0037】
本明細書に記載の技術のいくつかの実施形態は、食品分類に関する。本明細書で説明するように、従来の技術は、意味的にラベル付けされた食品画像のフラットな(例えば、非階層的な)セットを使用して、機械学習モデルを訓練することができる。また、本明細書で説明するように、従来の機械学習技術を使用して、意味情報又は意味カテゴリに基づいて、類似する食品カテゴリをクラスタ化することができる。しかしながら、意味カテゴリを活用する技術には、様々な欠陥があり得る。例えば、高い意味関係を有する食品カテゴリが、必ずしも類似する視覚的特徴を共有すること限らない(例えば、焼き鳥及び鶏肉のミンチは、どちらも鶏肉に属するという点で高い意味関係を有するが、見た目がかなり異なるため、類似する視覚的特徴を共有しない)。別の実施例として、意味的な食品カテゴリは、世界の様々な地域によって異なる可能性がある(例えば、同じ食品が、地域によって異なる名前を有し得る)。更なる実施例として、各食品カテゴリの記録及び意味関係の計算を手動で行うことは、費用がかかり、及び又は、大きなデータセットでは実行不可能になる可能性がある。したがって、本発明者らは、意味情報を使用して訓練セットを構築することは困難であり得、意味相関が、視覚的特徴に基づく訓練プロセスを誤った方向に導く可能性があることを認識した(例えば、意味的な類似カテゴリが、独特の外観を有する場合)。
【0038】
いくつかの従来の技術は、意味的に類似した食品カテゴリを有する食品クラスタを含む、事前に指定された意味的階層ツリーを使用する場合がある。例えば、参照によりその全体が本明細書に組み込まれる、Hui Wu,Michele Merler,Rosario Uceda-Sosa,and John R Smith,“Learning to make better mistakes:Semantics-aware visual food recognition,”Proceedings of the 24th ACM international conference on Multimedia(2016),172-176は、意味的階層ツリーを使用する。しかしながら、階層は、典型的には、手動で指定する必要があり、また典型的には、特定のデータセットに対しても作製される。例えば、Wu et al.で説明されたツリーは、ETHZ-101用(例えば、参照によりその全体が本明細書に組み込まれる、L.Bossard,M.Guillaumin,and L.Van Gool,“Food-101-Mining Discriminative Components with Random Forests,”Proceedings of European Conference on Computer Vision 8694(September 2014),pp.446-461.Zurich,Switzerlandを参照のこと)、及びWu et al.の記事で説明された5-Chainデータセット用にカスタマイズされる。ほとんどの既存の食品画像データセットは、様々な食品カテゴリを含む。その結果、意味認識階層構造を、異なるデータセット用に再構築する必要がある。更に、異なる命名規則を使用する場合がある。例えば、同じ食品が、異なるデータセットでは異なる名前が付けられている場合があり(例えば、ズッキーニ(courgette)及びズッキーニ(zucchini))、同じ単語が、異なる食品を指す場合がある(例えば、マフィンという用語の意味は、イギリスとアメリカで異なる)。したがって、各データセットについて、特定の意味認識階層構造を指定するのは、非常に面倒で時間がかかる。更に、そのような意味階層構造には、類似する視覚的特徴を有さない、意味カテゴリ化が含まれる場合がある。
【0039】
本明細書に記載の技術は、特定の階層構造を指定するための手動のオペレータ入力を必要とせずに、訓練画像のセットを階層構造に自動的に整理することにより、従来の機械学習技術を改善する。階層構造は、意味カテゴリのレベル及び視覚的特徴カテゴリのレベルの両方を含む、複数レベルを有する。いくつかの実施形態によれば、階層構造の最上位(例えば、最も細かい)層は、意味カテゴリに基づいてグループ化され、1つ以上の下位(例えば、徐々に粗くなる)層は、視覚的特徴に基づいてグループ化される。本技術は、視覚的に類似した食品カテゴリをクラスタ化して、階層構造を自動的に(例えば、手動のオペレータ入力なしで)生成することができる。いくつかの実施形態によれば、CNNなどの機械学習技術を使用して、画像の視覚的特徴を抽出する。本技術は、抽出された視覚的特徴を使用して、異なる食品カテゴリ間の相関関係を特定することが含まれる。
【0040】
いくつかの実施形態によれば、CNNの畳み込み層の特徴マップを使用して、食品カテゴリ間の視覚的類似性を算出し、視覚的に類似したカテゴリを自動的にクラスタ化することができる。いくつかの実施形態によれば、特徴マップは、機械学習モデルの最上層に密に接続し、最上層は、カテゴリ(例えば、意味カテゴリ)の数に等しい長さを有する。訓練画像の各グラウンドトゥルースラベル(例えば、意味ラベル及び/又は視覚ラベルを含む)をワンホット符号化して、カテゴリデータを数値表現に変換することができ、これにより、ラベルを使用して、クロスエントロピー損失の算出が可能になる。いくつかの実施形態によれば、N個のクラスのワンホット表現は、1ビットがハイ(1)で、残りのビットがロー(0)である、N個のバイナリビットを有することができる。例えば、ワンホット符号化は、異なるカテゴリラベル間のLp距離を等しくすることができる。例えば、ハンバーガーとサンドイッチとの違いは、空間符号化では、ハンバーガーとスープとの違いと同じになる場合がある。
【0041】
いくつかの実施形態によれば、本技術は、視覚的類似性に従って食品カテゴリの階層を構築することを提供し、階層は、意味グループを有するレベル、及び視覚的に判定されたクラスタを有するレベルを含む。図4は、いくつかの実施形態による、物体と関連付けられた意味情報及び視覚情報に基づいて、物体(例えば、食品)の画像をグループ化するための、例示的なコンピュータ化された方法400を示すフローチャートである。ステップ402で、コンピューティングデバイス(例えば、図17と併せて説明したコンピューティングデバイス1700)は、デジタル画像のセットにアクセスする。各デジタル画像は、物体の意味カテゴリと関連付けられた、少なくとも1つの物体(例えば、1つ以上の食品)のものである。意味カテゴリは、デジタル画像のセットと関連付けられた複数の意味カテゴリのうちの1つであり、各デジタル画像は、画像内の食品の意味カテゴリを示すデータでラベル付けされる。
【0042】
ステップ404で、コンピューティングデバイスは、訓練された機械学習モデル(例えば、訓練されたCNNモデル)を使用して、デジタル画像のセットの各デジタル画像の視覚的特徴ベクタを判定する。いくつかの実施形態によれば、本技術は、DenseNet-121モデルを使用して、視覚的特徴値を抽出する。DenseNet-121は、例えば、参照によりその全体が本明細書に組み込まれる、Gao Huang,Zhuang Liu,Laurens Van Der Maaten,and Kilian Q Weinberger,“Densely connected convolutional networks,”Proceedings of the IEEE conference on computer vision and pattern recognition(2017),pp.4700-4708で説明される。DenseNet-121モデルは、畳み込み層及び完全接続層の両方の組み合わせを含み得る。畳み込み層を使用して、入力画像から特徴を抽出することができる。完全接続層を使用して、畳み込み層によって生成された特徴に基づいて、画像を分類することができる。最後の畳み込み層の出力は、各食品画像の特徴マップとして扱うことができ、各視覚的特徴の値を有する視覚的特徴ベクタを含む。いくつかの実施形態によれば、各入力画像の特徴マップは、1,024次元の特徴空間内の1つのデータ点を表す、1×1024空間ベクタであり得る。視覚的特徴ベクタの各次元は、(例えば、1×1024の視覚的特徴ベクタに対して1,024個の視覚的特徴があるように)異なる視覚的特徴に対応する。
【0043】
クロスエントロピー損失関数など、異なる学習率を有する様々な損失関数を使用することができる。例えば、以下の実施例の項で考察されるように、例示的な実装では、ImageNetデータセットで訓練された事前訓練済みモデルを使用し、0.0001という小さな学習率を使用して、事前訓練済みモデルを微調整し、訓練時間を短縮した。本モデルは、式2に示すクロスエントロピー損失関数を使用して、訓練され得る。
【数2】
式中、
・Nは、クラスの総数である。
・yは、グラウンドトゥルースラベルであり、ワンホット符号化することができる。
・pは、各予測カテゴリの信頼スコアである。
・y及びpは、y及びpのi番目の要素に対応し、その長さはNである。
【0044】
ImageNetデータセットは、例えば、参照によりその全体が本明細書に組み込まれる、O.Russakovsky,J.Deng,H.Su,J.Krause,S.Satheesh,S.Ma,Z.Huang,A.Karpathy,A.Khosla,M.Bernstein,A.Berg,and F.Li,“ImageNet Large Scale Visual Recognition Challenge.International Journal of Computer Vision 115,3(2015),pp.211-252で説明される。
【0045】
損失が収束すると、訓練済みモデルは、食品分類に使用することができる、意味のある視覚的特徴情報を抽出することができる。ステップ406で、複数の意味カテゴリの各意味カテゴリについて、コンピューティングデバイスは、複数の視覚的特徴の各視覚的特徴について、意味カテゴリと関連付けられたデジタル画像のセット内の、各画像の視覚的特徴ベクタにおける、視覚的特徴の値の確率分布を計算する。したがって、特定の意味カテゴリの特徴マップの次元は、確率分布関数を使用して、推定され得る。これらの確率分布関数を使用して、異なる意味カテゴリ間で視覚的特徴を比較することができる。いくつかの実施形態によれば(例えば、十分に訓練されたモデルについて)、各食品カテゴリの特徴マップ次元の一部又は全ては、ガウス状分布などの様々な確率分布を有することができる。図5は、いくつかの実施形態による、アップルパイの例示的な意味カテゴリの訓練画像の、1024特徴空間の3つの関連する特徴の、3つの例示的なヒストグラム500、520、及び540を示す図である。示されているように、ヒストグラム500、520、及び540は、ガウス状分布を示す。いくつかの実施形態によれば、本技術は、密度関数(例えば、1Dガウス確率密度関数)を生成し、分布に適合させることができる。
【0046】
ステップ408で、コンピューティングデバイスは、確率分布に基づいて、複数の意味カテゴリのうちの異なる意味カテゴリと関連付けられた、デジタル画像間の類似性を示すデータを判定する。いくつかの実施形態によれば、類似性情報は、類似性行列を生成することによって判定される。類似性行列は、意味カテゴリの数に基づいて生成された、二次元行列であり得る。例えば、類似性行列の行の数及び列の数は、両方とも意味カテゴリの総数に等しく、各行及び各列は、複数の意味カテゴリのうちの意味カテゴリと関連付けられる。
【0047】
システムは、類似性行列の各行列エントリについて、(a)行列エントリの行の意味カテゴリと関連付けられた、デジタル画像のセットのうちの、デジタル画像の第1のセットと、(b)行列エントリの列の意味カテゴリと関連付けられた、デジタル画像のセットのうちの、デジタル画像の第2のセットと、の視覚的特徴ベクタ間の類似性を示すデータを判定することができる。いくつかの実施形態では、システムは、ステップ406と併せて説明した密度関数を使用して、例えば、類似性行列の各エントリを投入するために使用される、重なり係数(OVL)などの重なり情報を算出することができる。例えば、システムは、視覚的特徴行列の各視覚的特徴について、(a)デジタル画像の第1のセット、及び(b)デジタル画像の第2のセットの視覚的特徴のガウス分布間の重なりを示す重なり係数を生成する。システムは、重なり係数を平均化することによって、平均重なり係数を生成し、平均重なり係数を類似性行列に投入することができる。
【0048】
図6は、いくつかの実施形態による、重なり係数を判定する例を示す図である。図6は、2つのヒストグラム602及び622を示し、対応するGaussian-fit Probability Density Functions 604及び624と共に、1つの特定の視覚的特徴に対する、2つの異なる食品カテゴリの2つの例示的な特徴分布を示す。グラフ650は、2つの確率密度関数の下での重なり領域を指す、2つの密度関数604の間のOVL652を示す。OVL650は、2つの分布間の一致の測度となり得る。例えば、2つの食品カテゴリが、特徴マップの1つの次元で、高いOVLを有する場合、両方の食品カテゴリは、この特徴次元に関して類似している。
【0049】
いくつかの実施形態によれば、システムは、各次元(例えば、1024次元の全て)でOVLを算出し、(例えば、OVLの平均を計算することによって)OVLを正規化し、類似性行列を生成する。図7A~7Mは、いくつかの実施形態による、ETHZ-101データセットの食品カテゴリに対して生成された、例示的な類似性行列700を示す。特に、図7A~7Lは、図7Mに示された類似性行列700全体の一部を示す。図8は、図7A~7Mの類似性行列700の一部分800を示す。図8は、3つのカテゴリ、すなわちアップルパイ、ベイビーバックリブ、及びプライムリブのOVLを示す。示されているように、OVLは、3つの異なる食品カテゴリ間の類似性測度の例を提供する。例えば、ベイビーバックリブ及びプライムリブは、ベイビーバックリブとアップルパイの類似度804(0.42)と比較して、より高い類似度802(0.53)を示す。したがって、アップルパイは、他の2つのカテゴリとはかなり異なる。プライムリブ及びベイビーバックリブは視覚的に類似しており、類似性スコアが高いことが示される。
【0050】
ステップ410で、コンピューティングデバイスは、異なる意味カテゴリと関連付けられたデジタル画像間の類似性を示すデータに基づいて、複数の意味カテゴリを、意味カテゴリのクラスタにグループ化する。いくつかの実施形態によれば、本技術は、親和性伝播(AP)を使用して、ステップ408と併せて上で考察された、類似性行列の平均重なり係数に基づいて、意味カテゴリのグループに意味カテゴリをグループ化する。APは、例えば、参照によりその全体が本明細書に組み込まれる、Brendan J Frey and Delbert Dueck,“Clustering by passing messages between data points,”Science 315,5814(2007),pp.972-976で説明される。
【0051】
式2と併せて説明するように、クロスエントロピー損失関数は、グラウンドトゥルースラベルをワンホット符号化することができる。ワンホット符号化の性質により、各対のラベルは同じL距離を有する。したがって、例えば、ハンバーガーは、バナナよりもサンドイッチに視覚的に類似し得るが、交差エントロピー損失は、視覚的関係を無視し得、それらの類似性を同等に扱い得る。したがって、ワンホット符号化だけでは対応することができない、異なるカテゴリ間の距離を近づける(例えば、視覚的に類似したカテゴリが近づく)ことが望ましい場合がある。食品カテゴリの階層及びマルチタスク機械学習技術を使用することを含む、本明細書に記載の技術は、ワンホット符号化のそのような欠陥に対処することができる。例えば、いくつかの実施形態によれば、ワンホット符号化を使用して、各画像の視覚的特徴を検索するためにネットワークを訓練することができ、視覚的に類似したカテゴリは、(例えば、図7A~M及び図8と併せて考察されるように)高い類似性スコアを有し得る。図8に示すように、モデルが、交差エントロピー損失を使用して訓練されたので、例えば、ベイビーバックリブとプライムリブとの間の類似性スコアはわずか0.53である。したがって、ネットワークは、食品カテゴリの階層を構築することによって明示的にすることができる、カテゴリ間の黙示的な視覚的関係を学習することができる。いくつかの実施形態によれば、CNNの訓練損失が収束すると、モデルは、特徴空間で、可能な限り全てのカテゴリを分離する。しかしながら、CNNは視覚ベースのモデルであるため、類似したカテゴリは、依然として比較的近くであり得、カテゴリ間の視覚的関係を学習するために使用され得る。
【0052】
いくつかの実施形態によれば、階層構造は、食品カテゴリ間の意味的関係及び視覚的関係を表すことができる。図9は、いくつかの実施形態による、階層構造900の一部分の例を示す。階層構造900は、説明のために、3つのレベル902、904、及び906を含むが、他の数のレベルを階層で使用することができることを理解されたい。階層の第1のレベル902は、意味ラベルを含む。階層の第2のレベル904及び第3のレベル906は、視覚的に類似した意味カテゴリ(レベル904)及びクラスタ(レベル906)をグループ化することによって、形成されたクラスタである。説明のために、各カテゴリ及び各クラスタは、ラベルを含む。例えば、第1のレベル902は、「味付けビーフポテト添え」、「ビーフカレー」等のラベルを含む。第2のレベル904は、ラベル「ビーフ」、「ポーク」等のラベルを含む。第3のレベル906は、ラベル「肉」及び「肉以外」を含む。説明のために、クラスタに対して例示的なラベルが示されているが、ラベルは、本明細書で説明されているように生成され、したがって典型的には、人間にとって意味がないことを理解されたい。
【0053】
いくつかの実施形態によれば、システムは、視覚的に類似した食品カテゴリをクラスタ化して、階層構造を生成することができる。例えば、システムは、様々な種類のクラスタ化技術を類似性行列に適用して、クラスタのセットを生成することができる。例えば、K平均法を使用して、データセットをK個のクラスタに効率的に分割することができる(例えば、K個のクラスタの重心を見つける)。しかしながら、K平均法は、所定数のクラスタが必要になる場合がある。したがって、クラスタの数が不明なとき、他の技術を使用することが望ましい場合がある。APは、最適なクラスタ数を判定することができるので、クラスタ数を事前に知る必要がない、例示的な技術である。したがって、いくつかの実施形態はAPを使用して、類似の食品カテゴリをクラスタ化し、複数レベルの階層構造を生成する。いくつかの実施例によれば、APは、全ての食品カテゴリを候補として扱い、m個の候補を見本として選択して、m個のクラスタを個別に表すことができる。APは、最適解に到達するまで、繰り返して選択を絞り込むことができる。
【0054】
いくつかの実施形態によれば、本明細書に記載の類似性行列(例えば、s行列)を、APへの入力として使用することができる。いくつかの実施例では、本技術は、本明細書において「責任」行列(r)及び「利用可能性」行列(a)と称される2つの行列を使用することができる。最初に、両方の行列がゼロに設定され、次に、式3及び式4に示すように、交互に更新される。
r(i,k)←s(i,k)-maxk’≠k(a(i,k’)+s(i,k’))式3
【数3】
【数4】
【0055】
3つの行列s、行列a、及び行列rは、N×Nの行列であり、式中、Nは、カテゴリの総数を表す。式3では、r(i,k)は、他の候補の見本と比較して、k番目のカテゴリが、i番目のカテゴリの見本であることが、どれだけ適しているかを定量化する。式4では、a(i,k)は、i番目のカテゴリが、k番目のカテゴリを見本として選択することが、どれだけ適切であるかを定量化する。r(i,i)+a(i,i)>0の場合、xが見本として選択される。以降の反復ごとに、選択された見本が更新される。所定の反復回数(例えば、10回の反復、15回の反復など)を超えて選択が変化しない場合、結果は最適であるとみなすことができる。安定したクラスタが形成されると、本技術は、クラスタの結果に基づいて、階層構造を構築することができる。
【0056】
本明細書で説明するいくつかの実施形態によれば、マルチタスク学習を使用して機械学習モデルを訓練し、画像を複数レベルの階層に分類して物体を認識することができる。例えば、各レベルの共同特徴学習を含む、マルチタスク畳み込みニューラルネットワークを使用することができる。
【0057】
図10は、いくつかの実施形態による、物体認識のためのマルチタスク機械学習モデルを訓練するための、例示的なコンピュータ化された方法1000を示す図である。ステップ1002で、コンピューティングデバイスは、デジタル画像のセットにアクセスする。各デジタル画像は物体(例えば、食品)のものであり、所定のラベル情報と関連付けられている。所定のラベル情報は、物体の所定の意味カテゴリ、及び少なくとも1つの所定の視覚的特徴カテゴリ(例えば、クラスタラベル)を含む。
【0058】
所定のラベル情報は、階層ツリー構造における、各レベルのラベルを含むことができる。本明細書で(例えば、図9と併せて)説明されているように、各デジタル画像は、階層構造に従ってラベル付けすることができる。階層構造の第1のレベルは、複数の意味カテゴリを含むことができ、第1のレベルより下の、階層構造の第2(及び後続)のレベルは、視覚的特徴カテゴリの関連セットを含むことができる。階層構造のラベルは、ツリー構造に配置されているため、各レベルの各カテゴリは、隣接するレベルのカテゴリに関連している。例えば、第1のレベルの各意味カテゴリは、第2のレベルの視覚的特徴カテゴリと関連付けられている。
【0059】
図11は、いくつかの実施形態による、例示的なマルチタスク畳み込みニューラルネットワーク1100、及び図9と併せて考察された階層構造900の一部分を示す図である。図9と併せて考察されるように、階層900の第1レベル902は意味カテゴリを含み、階層904及び906の残りの各レベル(存在する場合は、更なるレベル)は、視覚的特徴カテゴリを含む。各画像の所定のラベル情報は、階層902の第1のレベルの意味カテゴリ、及び、階層の他のレベル(レベル904及び906)の各々の視覚的特徴カテゴリを含むことができる。
【0060】
ステップ1004及びステップ1006を参照すると、コンピューティングデバイスは、マルチタスク機械学習モデルを使用して、デジタル画像のセットを分類し、各デジタル画像の予測ラベル情報を判定する。所定のラベル情報と同様に、予測ラベル情報は、少なくとも予測意味カテゴリ及び予測視覚的特徴カテゴリを含む。ステップ1004で、コンピューティングデバイスは、機械学習モデルの第1の出力層を使用して、予測意味カテゴリを判定する。ステップ1006で、コンピューティングデバイスは、機械学習モデルの第2の出力層を使用して、予測視覚的特徴カテゴリを判定する。
【0061】
図11を更に参照すると、ニューラルネットワーク1100は、まとめて特徴抽出層1102と称される、複数の特徴抽出層1102A、1102B~1102Nを含む。特徴抽出層は、様々な種類及び配置の層を含み得る。例えば、1つ以上の畳み込み層、1つ以上のプーリング層、活性化層、バッチ層などを、特徴抽出層に使用することができる。
【0062】
いくつかの実施形態によれば、デジタル画像のセットを分類すること(例えば、ステップ1004及び/又はステップ1006)は、機械学習モデルを使用して、関連する視覚的特徴のセットを有する、各画像の視覚的特徴ベクタを判定することを含み得る。例えば、異なる視覚的特徴に対応する、視覚的特徴ベクタの各次元を有する、本明細書に記載の1024次元空間ベクタなどの多次元空間ベクタを使用することができる。図11を参照すると、最後の特徴抽出層1102Nは、入力画像1106の各々について、視覚的特徴ベクタを生成することができる。
【0063】
コンピューティングデバイスは、各レベルのニューラルネットワークの、関連する出力層を使用して、階層構造の各レベルのラベルを判定できる。例えば、ステップ1004を参照すると、コンピューティングデバイスは、ニューラルネットワークモデルの第1の出力層と、NNモデルの特徴抽出層の出力層によって生成された視覚的特徴ベクタと、を使用して、予測意味カテゴリを判定することができる。ステップ1006を参照すると、コンピューティングデバイスは、ニューラルネットワークモデルの第2の出力層、及び視覚的特徴ベクタを使用して、予測視覚的特徴カテゴリを判定することができる。各出力層は、異なる数のノードを含むことができ、ノードの数は、階層構造内の関連するレベルのラベルの数に、関連及び/又は対応する。各出力層は、ニューラルネットワークの特徴抽出層によって生成された、高レベルの特徴に完全に接続され得る。例えば、各出力層は、特徴抽出層の出力層によって生成された、視覚的特徴ベクタに完全に接続され得る。
【0064】
図11を参照すると、ニューラルネットワーク1100は、まとめて出力層1104と称される、本実施例における3つの出力層1104A、1104B、及び1104Cを含んだ、複数の出力層を含む。本実施例に示すように、ニューラルネットワーク1100は、階層構造900の各レベルに対する出力層1104を有する。本実施例では、第1の出力層1104Aを使用して、特徴抽出層(例えば、視覚的特徴ベクタ)の出力を、階層構造900の意味レベル902の食品カテゴリのうちの1つに分類する。第2の出力層1104Bを使用して、特徴抽出層の出力を、クラスタレベル904の食品クラスタのうちの1つに分類する。第3の出力層1104Cを使用して、特徴抽出層の出力を、クラスタレベル906の食品クラスタのうちの1つに分類する。階層構造900の更なるレベルが存在する場合、ニューラルネットワーク1100は、各追加層について、更なる出力層1104を含むことができる。
【0065】
ステップ1008で、コンピューティングデバイスは、損失関数を使用して、機械学習モデルを訓練する。損失関数は、各デジタル画像の予測ラベル情報が、デジタル画像の所定のラベル情報と等しいかどうかを示すデータを組み込む。例えば、損失関数は、予測意味カテゴリ及び予測視覚クラスタが、所定のラベル情報の対応する値に等しいかどうかを示すデータを組み込む。したがって、訓練プロセスは、関連するセットの(意味又は視覚)カテゴリへの各出力層の分類の結果に基づいて、訓練する。訓練プロセスには、各出力層/レベル分類での訓練を、同時に含み得る。各階層レベルに基づいて、並行して学習することにより、機械学習モデルは、他の種類のモデルよりも堅固であり得る。
【0066】
N個の訓練画像を前提とすると、
【数5】
式中、xはベクタ化された画像、y∈Yは対応するラベルであり、従来の(非マルチタスク)CNNのクロスエントロピー損失関数は、以下の式5に示すように定式化することができる。
【数6】
式中、
wは、ネットワークのパラメータを表し、
p(y|x,w)は、最後の完全接続層のi番目のノードのネットワークの出力である。モデルは、式5を使用して訓練され得、損失を最小化して、ラベルyを有する入力画像のi番目のノードの出力値を最大化することができる。
【0067】
従来の非マルチタスクCNNの代わりに、本明細書で開示される技術は、マルチタスクCNNを使用して、画像を訓練するために、複数レベルの階層構造の各レベルのラベルを予測する。実施例として、T個のレベルを有する階層構造があるとする。
【数7】
式中、{Y(t)}は、所与のTレベルの階層構造のt番目のレベルのラベルセットを表す。各レベルの各ノードはラベルが割り当てられ、例えば、
【数8】
意味カテゴリセットを表し、
【数9】
第2のレベルのクラスタのラベルセットを表す。したがって、マルチタスク損失関数は、L(w)=として定式化することができる。
【数10】
式中、
【数11】
t番目の階層レベルに対する、対応するクラス/クラスタラベルであり、
(t)は、t番目の出力層のネットワークパラメータを表し、
は、特徴抽出層のパラメータを構成し、
λは、所与の階層構造におけるt番目のレベルの寄与の重みを制御する、ハイパーパラメータである。
【0068】
様々な技術を使用して、式6の重み及び/又は他のパラメータを含む、ネットワークパラメータを構成することができる。例えば、重みは、事前訓練済みネットワークの対応する加重値を使用して、初期化され得る。別の実施例として、様々な層(例えば、t番目の追加された完全接続層)のパラメータw(t)は、ゼロから学習され得る。例えば、以下の実施例の項で説明されるように、訓練プロセス中に、共有特徴抽出層の重みは、ImageNetデータセットで事前訓練された、対応するネットワークの値を使用して、初期化することができるが、t番目の追加された完全接続層のパラメータw(t)は、ゼロから学習される。ImageNetデータセットについては、例えば、参照によりその全体が本明細書に組み込まれる、Alex Krizhevsky,Ilya Sutskever,and Geoffrey E Hinton,“Imagenet classification with deep convolutional neural networks,”Proceedings of Advances in Neural Information Processing Systems(December 2012),1097-1105で説明される。
【0069】
いくつかの実施形態によれば、本明細書に記載の技術は、データセット内の画像に使用する食品カテゴリラベルを判定することを含む、食品認識技術を訓練するためのデータセットを構築することに関する。いくつかの実施形態によれば、本技術は、画像データセットを構築するための、半自動食品画像収集及び注釈付けを提供する。本明細書で説明するように、体系的な様式で、適切な注釈を有する食品画像を収集することは、従来のツール(例えば、Amazon Mechanical Turk)を使用すると非常に時間がかかり、面倒な場合がある。本明細書に記載の技術は、関連するオンライン食品画像の大規模なセットを効率的に収集するための半自動データ収集システムを提供する。この技術は、オンラインの食品画像収集と注釈用に構成して、大規模な画像データセットを構築することができる。
【0070】
いくつかの実施形態によれば、従来のデータセットを使用して、データセットの一部を構築することができる。What We Eat In America(WWEIA)データセットは、2日間の24時間食事想起データ、及び、2日間の24時間想起の各食品カテゴリの摂取頻度を提供する。WWEIAデータセットは、例えば、参照によりその全体が本明細書に組み込まれる、“What We Eat in America,”NHANES 2015-2016,U.S.Department of Agriculture,Agricultural Research Service,Beltsville Human Nutrition Research Center,Food Surveys Research Group(Beltsville,MD)and U.S.Department of Health and Human Services,Centers for Disease Control and Prevention,National Center for Health Statistics(Hyattsville,MD)で説明される/から入手可能である。
【0071】
いくつかの実施形態によれば、米国で頻繁に消費される食品を表す、食品画像データセットを作成するために、高い摂取頻度を有する食品カテゴリを選択することを含む、WWEIA及び/又は他の同様のデータセットに基づいて、食品カテゴリを選択することができる。食品カテゴリは、米国農務省(USDA)によって作成された、関連する食品コードを含み得、これは、標準的な食品栄養データベース(例えば、参照によりその全体が本明細書に組み込まれる、the USDA Food and Nutrient Database for Dietary Studies 2015-2016,Agricultural Research Service,Food Surveys Research Group,2018で説明される/から入手可能である、FNDDSなど)を通じて、栄養素情報を検索するために使用することができる。いくつかの実施形態によれば、訓練データセットのために、約50~100個の食品カテゴリを、より具体的には、約70~90個の食品カテゴリを、更により具体的には、約80の食品カテゴリ(例えば、78個、79個、80個、81個、82個及び/又は、それを上回る若しくは下回る数の食品カテゴリ)を、(例えば、WWEIAデータベースから)選択することができる。いくつかの実施形態によれば、必要に応じて(例えば、訓練目的、検証目的などのために)、より多い又はより少ない食品カテゴリを使用することができる。
【0072】
いくつかの実施形態によれば、何十万もの食品画像が(例えば、スマートフォンユーザによって)アップロードされ、食品画像は、ユーザの食事パターン、食品の組み合わせ、及び/又は他の情報などの、有益な文脈情報を提供できるため、本技術は、オンラインで共有される食品画像を活用して、画像データセットを構築する。いくつかの実施形態は、多数のオンライン食品画像を迅速に収集できる、ウェブクローラを提供する。いくつかの実施形態によれば、本技術は、選択された食品ラベルに基づいて、(例えば、Google Imageウェブサイト上の)画像のオンラインコレクションを自動的に検索する。いくつかの実施形態では、得られた画像は、1つ以上の基準に基づいて(例えば、画像の関連するランキングに従って)選択され得る。
【0073】
いくつかの実施形態は、データセットから画像を除去することを提供する。例えば、自動的に検索された画像のいくつかは、ノイズのある画像である可能性がある(例えば、判定された意味カテゴリの関連する食品を含まない、過剰なバックグラウンドノイズを含む、など)。いくつかの実施形態は、食品領域検出用の訓練されたFaster R-CNNを使用して、非食品画像を除去する。本技術は、検出された食品領域の物体らしさを表すために、食品性スコアを提供することを含むことができ、閾値を(例えば、実験に基づいて)設定することができる。
【0074】
いくつかの実施形態によれば、収集された食品画像(例えば、ノイズ除去ステップを通過した、食品画像のセット)は、オンラインクラウドソーシングツールを使用することによってなど、更に確認され得、ラベル付けされ得、及び/又は処理(例えば、食品項目の位置特定)され得る。いくつかの実施例では、クラウドソーシングツールは、ユーザが、画像内の各食品項目の周囲に境界ボックスを描画し、各境界ボックスと関連付けられた食品カテゴリを選択することを、容易にする。このツールは、VIPER-FoodNet(VFN)データセットを作成するために使用されたが、これについては、以下の実験結果の項で更に考察する。
【0075】
本明細書で説明するように、視覚情報のみに基づいて食品を分類することは、食品の複雑性及びクラス間の類似性が高いため、困難な場合がある。例えば、様々な食品が、形、食感、色、及び他の様々な視覚的特徴が類似し得る(例えば、キュウリ及びズッキーニは外観が類似している)。そのような場合、ある程度の分類エラーを予想するのが合理的な場合がある。しかしながら、視覚的に類似した食品でも、栄養的には類似しない場合がある。例えば、視覚的に類似した食品が、異なる栄養素やエネルギーを含んでいることがある(例:ベーグル及びドーナツ)。このため、本発明者らは、食品分類に視覚情報のみを使用すると、食事評価、及び/又は、食品の分類と関連する他のタスクに対して、信頼できない結果が生じる可能性があることを認識した。
【0076】
本明細書に記載の技術は、特定の階層構造を指定するための手動のオペレータ入力を必要とせずに、視覚情報及び栄養情報の両方に基づいて、訓練画像のセットを階層構造に自動的に整理することにより、従来の機械学習技術を改善する。階層構造は、意味カテゴリのレベル、並びに、栄養カテゴリ及び視覚的特徴カテゴリのレベルの両方を含む、複数レベルを有する。いくつかの実施形態によれば、階層構造の最上位(例えば、最も細かい)層は、意味カテゴリに基づいてグループ化され、1つ以上の下位(例えば、徐々に粗くなる)層は、栄養的特徴及び視覚的特徴に基づいてグループ化される。本技術は、視覚的及び栄養的に類似した食品カテゴリをクラスタ化して、階層構造を自動的に(例えば、手動のオペレータ入力なしで)生成することができる。いくつかの実施形態によれば、栄養カテゴリ(例えば、エネルギー、炭水化物、脂肪、タンパク質など)と関連付けられた栄養価が、異なる食品カテゴリについて判定される。いくつかの実施形態によれば、画像の視覚的特徴は、本明細書に記載の機械学習技術を使用することによってなど、抽出される(例えば、図4を含む)。本技術は、栄養価及び抽出された視覚的特徴を使用して、異なる食品カテゴリ間の相関関係を特定することが含まれる。
【0077】
いくつかの実施形態によれば、各食品カテゴリについて判定された栄養価を使用して、食品カテゴリ間の栄養的類似性を算出することができる。本明細書(例えば、図4を含む)でも説明するように、CNNの畳み込み層の特徴マップを使用して、食品カテゴリ間の視覚的類似性を算出することができる。いくつかの実施形態によれば、食品カテゴリ間の栄養的類似性及び視覚的類似性を使用して、食品カテゴリ間の全体的なクラス間の類似性を算出し得、視覚的及び栄養的に類似した食品カテゴリを自動的にクラスタ化し得る。
【0078】
いくつかの実施形態によれば、本技術は、視覚的類似性及び栄養的類似性に従って、食品カテゴリの階層を構築することを提供し、階層は、意味グループを有するレベルと、視覚的及び栄養的に判定されたクラスタを有するレベルと、を含む。図12は、いくつかの実施形態による、物体と関連付けられた意味情報及び栄養情報に基づいて、物体(例えば、食品)の画像をグループ化するための、例示的なコンピュータ化された方法1200を示すフローチャートである。ステップ1202で、コンピューティングデバイス(例えば、図17と併せて説明したコンピューティングデバイス1700)は、デジタル画像のセットにアクセスする。各デジタル画像は、物体の意味カテゴリと関連付けられた、少なくとも1つの物体(例えば、1つ以上の食品)のものである。意味カテゴリは、デジタル画像のセットと関連付けられた複数の意味カテゴリのうちの1つであり、各デジタル画像は、画像内の食品の意味カテゴリを示すデータでラベル付けされる。
【0079】
ステップ1204で、コンピューティングデバイスは、各意味カテゴリについて、各々が栄養カテゴリと関連する、1つ以上の栄養値を判定する。いくつかの実施形態によれば、栄養カテゴリは、脂肪、タンパク質、炭水化物、エネルギー、カルシウム、及び/又は任意の他の好適な栄養素などの栄養素を表すことができる。栄養値は、特定の食品項目中の各栄養素の量を示し得る(例えば、バナナの炭水化物のグラム数)。
【0080】
いくつかの実施形態によれば、本技術は、異なる食品項目の栄養カテゴリと関連付けられた栄養値を格納する、1つ以上のデータベースにアクセスして、意味カテゴリの栄養値を判定することを含む。例えば、いくつかの実施形態では、本技術は、USDA Food and Nutrient Database for Dietary Studies(FNDDS)に格納された栄養情報にアクセスことができる。いくつかの実施形態によれば、1つ以上の食品項目は、単一の意味カテゴリに属し得る。いくつかの実施形態では、単一の食品項目が意味カテゴリに属する場合、食品項目は、個々の栄養価と関連付けられ得る。いくつかの実施形態では、複数の食品項目が意味カテゴリに属することができる。例えば、ケーキ及びカップケーキ(及び、場合によっては他の食品)の両方が、同じ意味カテゴリに属し得る。その結果、複数の食品項目を含む意味カテゴリは、各栄養カテゴリと関連付けられた栄養値の分布を持ち得る。その結果、いくつかの実施形態では、対応する分布に基づいて、代表値及び/又は他の結合値(例えば、中央値、平均値など)を算出することによって、各栄養カテゴリの単一の栄養値を判定することができる。例えば、カップケーキ及びケーキの両方を含む意味カテゴリの場合、本技術は、カップケーキの炭水化物の量と、ケーキの炭水化物の量と、を平均化することによって、炭水化物と関連付けられた栄養値を判定することを含むことができる。
【0081】
ステップ1206で、コンピューティングデバイスは、ステップ1204で判定された栄養値に基づいて、異なる意味カテゴリ間の栄養的類似性を示すデータを判定する。いくつかの実施形態によれば、本技術は、ステップ1204で判定された栄養値のうちの1つ以上を比較して、栄養的類似性を示すデータを判定することができる。いくつかの実施形態では、判定を行うために、1つの栄養素の栄養値が比較される。いくつかの実施形態では、判定を行うために、2つ以上の栄養素の栄養値が比較される。いくつかの実施形態では、複数の栄養素を比較する場合、各栄養素が栄養的類似性データに同じように寄与するように、複数の栄養素を均等に加重することができる。いくつかの実施形態では、比較に使用される1つ以上の他の栄養素よりも多くの類似性データに、1つ以上の栄養素を組み入れるために、異なる加重を使用することができる。栄養的類似性を示すデータを判定するために、様々な異なる栄養素のセットを使用することができるが、したがって、本明細書に実施例が提供されているが、それらは限定を意図するものではないことを理解されたい。
【0082】
いくつかの実施形態によれば、食品項目間の類似性は、食事に基づいて判定することができる。例えば、食品項目は、食事に従い、項目が含む栄養素に基づいて(例えば、ステップ1204で判定された栄養価に基づいて)、比較され得る。いくつかの実施形態では、同じ栄養素が、異なる食品に対して、大きく異なる分布を有する場合がある。例えば、ドーナツとリンゴは、大きく異なる脂肪分布を有し得る。更に、いくつかの実施形態では、異なる食品は、第1のセットの栄養素に関しては栄養的に類似し得るが、第2のセットの1つ以上の栄養素に関しては栄養的に異なり得る。例えば、ピザ及びカッテージチーズは、ナトリウムに関しては栄養的に類似し得るが、脂肪に関しては栄養的に異なり得る。
【0083】
いくつかの実施形態では、異なる食事は異なる栄養素に基づく可能性があるため、本技術は、(例えば、食事に応じて)食品間の栄養的類似性を判定する際に、必要に応じて、異なる栄養素を強調することができる。例えば、食事評価は、特定の集団の栄養状態を評価するために、特定の栄養素の消費に焦点を当てる場合がある。その結果、そのような栄養素に基づいて、食品を比較することができる。いくつかの実施形態では、検討中の特定の栄養素は、食事評価の適用に依存し得る。例えば、血糖コントロールに重要な栄養素である、エネルギー、炭水化物、タンパク質、及び脂肪は、糖尿病患者の栄養状態の監視に関連する用途に使用することができる。同様に、骨の健康にとって重要な栄養素である、カルシウム、ビタミンD、及びタンパク質は、骨粗鬆症を発症するリスクが高い、年配の女性の骨の健康の改善に関連する用途に使用することができる。別の実施例として、減塩食及び脂肪制限食は、食品を比較する際に、ナトリウム及び脂肪の重要性に、異なる加重をする可能性がある。ピザ及びカッテージチーズの例(食品のナトリウム含有量は類似しているが、脂肪含有量は異なる)を続けると、本技術は、他の栄養素情報のうち、ナトリウム及び炭水化物の栄養素情報を組み合わせて、類似性の測度を判定することができる。ナトリウム摂取量を監視するための食事評価に適用される場合、加重パラメータを使用して、2つの食品間の類似性の測度で、ナトリウムを強調することができる(例えば、脂肪よりもナトリウムを加重する)。更なる実施例として、健康全般及び病気の予防を促進するための食事評価に適用される場合、加重パラメータを使用して、目標母集団で不十分に消費されている栄養素(例えば、カルシウム、カリウム、食物繊維、ビタミンD、及びタンパク質は、米国では消費が不十分であると考えられている栄養素である)を強調することができる。様々な用途のために強調され得る、様々な栄養素及び栄養素の組み合わせがあり、したがって、本明細書に実施例が提供されているが、それらは限定を意図するものではないことを理解されたい。
【0084】
いくつかの実施形態によれば、栄養的類似性情報は、栄養的類似性行列を生成することによって判定される。類似性行列は、意味カテゴリの数に基づいて生成された、二次元行列であり得る。例えば、類似性行列の行の数及び列の数は、両方とも意味カテゴリの総数に等しく、各行及び各列は、複数の意味カテゴリのうちの1つと関連付けられる。
【0085】
システムは、類似性行列の各行列エントリについて、(a)行列エントリの行の意味カテゴリと、(b)行列エントリの列の意味カテゴリと、について判定された、1つ以上の栄養値の間の類似性を示すデータを判定することができる。いくつかの実施形態では、システムは、ステップ1204で判定された1つ以上の栄養値を使用して、類似性行列の各エントリを投入するために使用され得る、意味カテゴリ対の栄養的類似性スコアを算出することができる。
【0086】
いくつかの実施形態によれば、一対の意味カテゴリ間の栄養的類似性スコアを算出することは、(a)各栄養カテゴリについて、類似性スコアsを判定することと、(b)意味カテゴリ対の各栄養カテゴリについて判定された、類似性スコアsを組み合わせることと、を含むことができる。いくつかの実施形態では、ユークリッド計量及び/又は加重計量などの任意の計量を使用して、各栄養カテゴリの類似性スコアsを判定することができる。いくつかの実施形態では、類似性スコアsは、平均、加重平均、中央値、及び/又は任意の他の好適な計量を算出することによってなど、任意の好適な様式で組み合わせることができる。例えば、1つの値を使用して、様々な栄養クラスにわたる類似性を表すことが望ましい場合があるため、異なる類似性スコアを、1つの計量Sに組み合わせることができる。
【0087】
いくつかの実施形態では、本技術は、(a)各栄養カテゴリについて、個々の類似性スコアを算出することと、(b)各栄養カテゴリについて、それらの類似性スコアを、1つの計量に組み合わせることと、を含むことができる。各栄養カテゴリに対する類似性スコアは、式7に示すように、Radial Basis Function(RBF)カーネルを使用して算出することができる。各栄養カテゴリに対する類似性スコアは、式8を使用する調和平均を使用して、組み合わせることができる。
【数12】
【数13】
式7は、i番目の栄養カテゴリの2つの意味カテゴリ間の類似性スコアsを算出するための、RBFカーネルの例を示し、式中、xは、第1の意味カテゴリの栄養値であり、xは、第2の意味カテゴリの栄養値であり、σは、(例えば、各栄養カテゴリが、異なるクラス間標準偏差を有し得る)i番目の栄養カテゴリのクラス間標準偏差である。いくつかの実施形態によれば、i番目の栄養カテゴリのクラス間標準偏差は、検討中の意味カテゴリの全てのi番目の栄養カテゴリと関連付けられた栄養値の範囲に基づいて、判定され得る。表1は、エネルギー、炭水化物、脂肪、及びタンパク質の4つの栄養カテゴリの例について、クラス間標準偏差σ及び範囲{最小値、最大値}の例を示す。表1は、例示的な食品のグループ(各食品の100グラムについて)の、クラス間標準偏差及び範囲をまとめたもので、範囲は、食品全体のクラスの極端に低い値と高い値を表し、クラス間標準偏差は、グループ内の食品のクラス値のプロットの標準偏差である。RBFカーネルを使用することは、栄養カテゴリの類似性スコアsを判定するための一例であるが、他の技術を使用してスコアを判定することができ、したがって、式7は限定することを意図していない。
【0088】
式8は、n個の栄養カテゴリに対する類似性スコアsを使用して、一対の意味カテゴリに対する栄養的類似性スコアSを算出するための例を示す。式8の場合、sは、検討中の食品対の栄養カテゴリiに対する2つの入力x及びxの関数であり(例えば、式7に示すように)、1~nの合計を実行し、式中、nは、検討中の栄養カテゴリの数である(例えば、栄養カテゴリが、エネルギー、炭水化物、脂肪、及びタンパク質である場合、nは4に等しい)。いくつかの実施形態では、パラメータwを使用して、異なる食事目的に応じて、類似性スコアsを加重することができる。いくつかの実施形態では、加重値は、本明細書に記載されるのと同じように、全ての栄養素を計量するために同じであってもよい。例えば、血糖コントロールの文脈では、タンパク質、脂肪、エネルギー、及び炭水化物が、全て食事にとって同様に重要である場合、それらを計量するために、同じ加重値を使用することができる。いくつかの実施形態では、1つ以上の栄養素を他の栄養素より優先するために、異なる加重を使用することが望ましい場合がある。例えば、骨の健康を監視するために、食品分類技術を使用して、カルシウムの消費量を判定する場合、他の栄養素よりもカルシウム消費量を加重することが望ましい場合がある。したがって、加重パラメータwは、骨の健康に関する食事評価の文脈で、カルシウムの相対的重要性を反映するために、カルシウムの類似性スコアsをより重く加重するように調整され得る。いくつかの実施形態では、特定の栄養カテゴリ(例えば、カテゴリi)を考慮から除外するために、加重パラメータwをゼロに減らすこともできる。
【表1】
【0089】
ステップ1208で、コンピューティングデバイスは、複数のカテゴリの異なる意味カテゴリのデジタル画像間の、視覚的類似性を示すデータにアクセスする。いくつかの実施形態によれば、これは、図4を含む本明細書に記載の技術に従って判定された、データにアクセスすることを含み得る。例えば、本技術は、例示的なコンピュータ化された方法400のステップ408と併せて上で考察された視覚的類似性行列などの、視覚的類似性行列にアクセスすることができる。
【0090】
いくつかの実施形態によれば、異なる意味カテゴリ間の栄養的類似性を示すデータは、異なる意味カテゴリと関連付けられたデジタル画像間の視覚的類似性を示すデータと組み合わせることができる(例えば、図4を含む、本明細書に記載の技術に従って、視覚的類似性を判定すること)。このことは、例えば、別個の栄養的類似性行列及び視覚的類似性行列を生成することと、意味カテゴリ対間の視覚的類似性及び栄養的類似性の両方を表す、これら2つの行列の結合された視覚的及び栄養的類似性行列を生成することと、を含み得る。視覚的及び栄養的類似性行列の各エントリは、関連する視覚的類似性スコア及び栄養的類似性スコアに基づいて判定され得る。例えば、図13Aは、(本明細書に記載の、各行及び各列が複数の意味カテゴリのうちの1つと関連付けられるように)両方とも意味カテゴリの総数に等しい、行及び列のセットを有する、視覚的及び栄養的類似性行列1308を示す。視覚的及び栄養的類似性行列1308の各エントリは、エントリの行に対応する意味カテゴリ、及びエントリの列に対応する意味カテゴリに対する、視覚的類似性スコア及び栄養的類似性スコアに基づいて判定することができる、類似性スコアを含む。図13Aに示すように、例えば、一対の意味カテゴリに対して判定された視覚的類似性スコア1302と、その意味カテゴリ対に対して判定された栄養的類似性スコア1304と、を組み合わせて、その意味カテゴリ対に対する栄養的及び視覚的類似性スコアを判定することができる。このスコアを使用して、行列エントリ1306の行及び行列エントリ1306の列に対応する、視覚的及び栄養的類似性行列1308の行列エントリ1306を投入することができる。いくつかの実施形態によれば、一対の意味カテゴリに対する視覚的及び栄養的類似性スコアは、式9を使用して算出され得る:
【数14】
式中、Sは、意味カテゴリ対の視覚的類似性スコアを表し、Sは、意味カテゴリ対の栄養的類似性スコアを表す。式9は、調和平均を使用して視覚スコア及び栄養スコアを組み合わせる方法の一例を示しているが、他の技術を使用してスコアを組み合わせることができ、したがって、式9は限定することを意図していない。
【0091】
図13Bは、結合した栄養的及び視覚的類似性行列1308を生成するために、(例えば、図4に関して説明された技術に従って生成された)視覚的類似性行列1332が、栄養的類似性行列1334と、どのように結合し得るか、を示す。この例では、視覚的類似性行列1332、栄養的類似性行列1334、及び栄養的及び視覚的類似性行列1308は、(行列1332、行列1334、及び行列1308の各行及び各列が複数の意味カテゴリのうちの同じ1つと関連付けられるように)意味カテゴリの総数に等しい、同数の行及び列を有する。視覚的類似性行列1332の類似性スコアは、栄養的類似性行列1334の類似性スコアと組み合わせて、栄養的及び視覚的類似性行列1308のエントリに投入することができる。例えば、示されているように、対応する行列エントリ1342及び行列エントリ1344を平均して、意味カテゴリの対応する対の行列エントリ1306に投入することができる。代替的に、対応する行列エントリ1342及び行列エントリ1344は、式9を使用して結合することができる。更に他の実施形態では、対応する行列エントリ1324及び行列エントリ1344を加算又は乗算して、行列エントリ1306に投入することができる。先に考察されたように、他の技術を使用して、スコアを組み合わせることもできる。
【0092】
ステップ1210で、コンピューティングデバイスは、栄養的類似性を示すデータ及び視覚的類似性を示すデータに基づいて、意味カテゴリをクラスタに自動的にグループ化する。いくつかの実施形態によれば、本技術は、APを使用して、ステップ1206と併せて考察された栄養的類似性スコアに基づいて、意味カテゴリを、意味カテゴリのグループにグループ化する。追加的又は代替的に、システムは、視覚的及び栄養的に類似した食品カテゴリをクラスタ化して、階層構造を生成することができる。いくつかの実施形態によれば、本技術は、APを使用して、式9を使用して算出することができるものなど、組み合わせた視覚的及び栄養的類似性スコアに基づいて、意味カテゴリを意味カテゴリのグループにグループ化する。クラスタ化の技術については、図4及び図9を含む、本明細書で更に説明する。
【0093】
いくつかの実施形態によれば、階層構造は、食品カテゴリ間の意味関係、視覚的関係、及び栄養関係を表すことができる。図15は、いくつかの実施形態による、意味関係、視覚的関係、及び栄養関係を表す階層構造1520の例示的な部分を示す。階層構造1520は、説明のために、2つのレベル1522及び1524を含むが、他の数のレベルを階層で使用することができることを理解されたい。階層の第1のレベル1522は、意味ラベルを含む。階層の第2のレベル1524は、視覚的及び栄養的に類似した意味カテゴリをグループ化することによって、形成されたクラスタである。説明のために、各カテゴリ及び各クラスタは、ラベルを含む。例えば、第1のレベル1522は、図11の例を受けて、「味付けビーフポテト添え」、「ビーフカレー」等のラベルを含む。同様に、第2のレベル1524は、「ビーフ」、「ポーク」等のラベルを含む。しかしながら、図11と併せて述べたように、説明のため、クラスタに対して例示的なラベルが示されているが、ラベルは、本明細書で説明するように生成され、したがって、典型的には、人間にとって意味のあるラベルではないことを理解されたい。
【0094】
本明細書に記載のいくつかの実施形態によれば、マルチタスク学習を使用して機械学習モデルを訓練し、物体を認識するための、意味関係、視覚的関係、及び栄養関係を表す、複数レベルの階層に画像を分類することができる。例えば、マルチタスク畳み込みニューラルネットワークを使用して、各レベルの共同特徴学習を含む分類を、実行することができる。その結果、そのような複数レベルの階層に含まれる意味情報、視覚情報、及び栄養情報を活用することができる、機械学習技術を開発することができる。
【0095】
図14は、いくつかの実施形態による、物体認識のためのマルチタスク機械学習モデルを訓練するための、例示的なコンピュータ化された方法1400を示す図である。ステップ1402で、コンピューティングデバイスは、デジタル画像のセットにアクセスする。各デジタル画像は物体(例えば、食品)のものであり、所定のラベル情報と関連付けられている。所定のラベル情報は、物体の所定の意味カテゴリ、並びに、少なくとも1つの所定の視覚的特徴及び栄養カテゴリ(例えば、クラスタラベル)を含む。
【0096】
所定のラベル情報は、階層ツリー構造の各レベルのラベルを含むことができる。本明細書で(例えば、図15と併せて)説明されているように、各デジタル画像は、階層構造に従ってラベル付けすることができる。階層構造の第1のレベルは、複数の意味カテゴリを含むことができ、第1のレベルより下の、階層構造の第2(及び後続)のレベルは、視覚的特徴及び栄養カテゴリの関連セットを含むことができる。階層構造のラベルはツリー構造で配置されているため、各カテゴリレベルは隣接するレベルのカテゴリに関連している。例えば、第1のレベルの各意味カテゴリは、第2のレベルの視覚的特徴及び栄養カテゴリと関連付けられている。図15を更に参照すると、例えば、ステップ1402でアクセスされる各画像の所定のラベル情報は、階層1522の第1のレベルの意味カテゴリと、階層1524の第2のレベルの視覚的特徴及び栄養カテゴリと、を含むことができる。
【0097】
ステップ1404及びステップ1406を参照すると、コンピューティングデバイスは、マルチタスク機械学習モデルを使用して、デジタル画像のセットを分類し、各デジタル画像の予測ラベル情報を判定する。所定のラベル情報と同様に、予測ラベル情報は、少なくとも予測意味カテゴリ、並びに予測視覚的特徴及び栄養カテゴリを含む。ステップ1404で、コンピューティングデバイスは、機械学習モデルの第1の出力層を使用して、予測意味カテゴリを判定する。ステップ1406で、コンピューティングデバイスは、機械学習モデルの第2の出力を使用して、予測視覚的特徴及び栄養カテゴリを判定する。
【0098】
図15を更に参照すると、図15は、まとめて特徴抽出層1502と称される、複数の特徴抽出層1502A、1502B~1502Nを含む、ニューラルネットワーク1500も示す。特徴抽出層は、様々な種類及び配置の層を含み得る。例えば、特徴抽出層1502は、1つ以上の畳み込み層、1つ以上のプーリング層、活性化層、バッチ層などを含むことができる。
【0099】
いくつかの実施形態によれば、デジタル画像のセットを分類すること(例えば、ステップ1404及び/又は1406)は、機械学習モデルを使用して、関連する視覚的特徴のセットを有する、各画像の視覚的特徴ベクタを判定することを含み得る。例えば、異なる視覚的特徴に対応する、視覚的特徴ベクタの各次元を有する、本明細書に記載の1024次元空間ベクタなどの多次元空間ベクタを使用することができる。図15を参照すると、最後の特徴抽出層1502Nは、入力画像1506の各々について、視覚的特徴ベクタを生成することができる。
【0100】
コンピューティングデバイスは、各層のニューラルネットワークの関連する出力層を使用して、階層構造の各レベルのラベルを判定することができる。例えば、ステップ1404を参照すると、コンピューティングデバイスは、ニューラルネットワークモデルの第1の出力層と、NNモデルの特徴抽出層の出力層によって生成された視覚的特徴ベクタと、を使用して、(例えば、意味カテゴリを表す階層のレベルに対する)予測意味カテゴリを判定することができる。ステップ1406を参照すると、コンピューティングデバイスは、ニューラルネットワークモデルの第2の出力層、及び視覚的特徴ベクタを使用して、(例えば、視覚的及び栄養的カテゴリを表す階層の第2レベルに対する)予測視覚的特徴及び栄養カテゴリを判定することができる。各出力層は、異なる数のノードを含むことができ、ノードの数は、階層構造内の関連するレベルのラベルの数に、関連及び/又は対応する。各出力層は、ニューラルネットワークの特徴抽出層によって生成された、高レベルの特徴に完全に接続され得る。例えば、各出力層は、特徴抽出層の出力層によって生成された、視覚的特徴ベクタに完全に接続され得る。
【0101】
図15を更に参照すると、例えば、ニューラルネットワーク1500は、本例では2つの出力層1504A及び1504Bを含む複数の出力層を含み、まとめて出力層1504と称される。本例に示すように、ニューラルネットワーク1500は、階層構造1520の各レベルに対する出力層1504を有する。本実施例では、第1の出力層1504Aを使用して、特徴抽出層(例えば、視覚的特徴ベクタ)の出力を、階層構1520の意味レベル1522の食品カテゴリのうちの1つに分類する。第2の出力層1504Bを使用して、特徴抽出層の出力を、クラスタレベル1524の食品クラスタのうちの1つに分類する。階層構1520の更なるレベルが存在する場合、ニューラルネットワーク1500は、各追加層について、更なる出力層1504を含むことができる。
【0102】
ステップ1408で、コンピューティングデバイスは、損失関数を使用して、機械学習モデルを訓練する。損失関数は、各デジタル画像の予測ラベル情報が、デジタル画像の所定のラベル情報と等しいかどうかを示すデータを組み込む。例えば、損失関数は、予測意味カテゴリ、並びに予測視覚的及び栄養的クラスタが、所定のラベル情報の対応する値に等しいかどうかを示すデータを組み込む。したがって、訓練プロセスは、関連するセットの(意味、又は視覚的及び栄養的)カテゴリへの各出力層の分類の結果に基づいて、訓練する。訓練プロセスには、各出力層/レベル分類での訓練を、同時に含み得る。各階層レベルに基づいて、並行して学習することにより、機械学習モデルは、他の種類のモデルよりも堅固であり得る。マルチタスク損失関数は、式6を含めて、本明細書で説明される。いくつかの実施形態では、2つのタスクがマルチタスクモデルに割り当てられる(例えば、式6のTが2となるような、第1のレベルのカテゴリ予測、及び第2のレベルのカテゴリ予測)。
【0103】
実験結果
本明細書に記載の技術の実施形態を使用して、食品の位置特定技術及び食品分類技術の両方を活用する、食品認識技術を実装することができる。本項で示す実験結果は、食品の位置特定及び食品分類の性能を個別に評価し、次に、食品認識システムの全体的性能を評価する。実験に使用されたデータセットには、82個の食品カテゴリ、14,991個のオンライン食品画像、及び22,423個の境界ボックスを含む、ETHZ-101、UPMC-101(例えば、参照によりその全体が本明細書に組み込まれる、XinWang,D.Kumar,N.Thome,M.Cord,and F.Precioso,“Recipe recognition with large multimodal food dataset,”2015 IEEE International Conference on Multimedia Expo Workshops(ICMEW)(June 2015),1-6.doi.org/10.1109/ICMEW.2015.7169757で説明される/から入手可能である)、UEC-100(例えば、参照によりその全体が本明細書に組み込まれる、Yuji Matsuda,Hajime Hoashi,and Keiji Yanai,“Recognition of multiple-food images by detecting candidate regions,”Proceedings of IEEE International Conference on Multimedia and Expo(July 2012),25-30,Melbourne,Australiaで説明される/から入手可能である)、UEC-256、及び、本明細書に記載されている技術(半自動クラウドソーシングツール)を使用して生成されたVFNデータセットが含まれていた。UEC-100、UEC-256、及びVFNデータセットの場合、画像のランダム70/15/15%分割が、各食品カテゴリの訓練/検証/テストに適用された。注目すべき点は、UEC-100はUEC-256の前身であり、したがって、UEC-256の部分集合であるということである。これら2つのデータセットの分割は、UEC-100の訓練/検証/テストセットの各々が、UEC-256の真部分集合であるという制約の下で行われた。ETHZ-101及びUPMC-101の作成者らは、訓練セット及びテストセットを確立し、実験目的で確立された分割が使用され、元のテストセットは、実験での検証及びテストの目的で、均等に分割された。ETHZ-101及びUPMC-101には、境界ボックス情報が含まれていないため、これら2つのデータセットは、食品分類評価のみに使用された。
【0104】
食品の位置特定の場合、食品の位置特定モデルは、UEC-256の訓練セットで訓練される。モデルの性能は、UEC-100及びUEC-256のテストセットで評価された。したがって、VFNの画像は、位置特定システムには見えないデータであるため、VFNデータセットの画像を使用して、食品の位置特定の性能を評価した。
【0105】
適合率及び再現率を、位置特定タスクの性能測定基準として使用した。これらの実験では、用語を限定する意図はないが、真陽性(TP)は、正しく検出された食品領域を指し、偽陽性(FP)は、食品領域として誤って検出された、非食品領域を指し、真陰性(TN)は、正しく検出された非食品領域を指し、偽陰性(FN)は、非食品領域として誤って検出された、食品領域を指す。これらの実験では、式1と併せて説明するように解釈することができる、領域IoUが0.5より大きい場合、領域は正しく検出される。これらの実験用語を前提とすると、式10を使用して適合率を計算することができ、式11を使用して再現率を計算することができる。
【数15】
【数16】
【0106】
以下の表2に示すように、適合率は、実際に正しい陽性検出の割合の測定単位である、再現率は、正しく検出された実際の陽性の割合の測定単位である。したがって、適合率及び再現率の両方に高い値を有することが望ましい。示されているように、VFNデータセットの適合率はより高く、再現率は比較的低くなった。注目すべき点は、UEC-256データセットの画像の約6.8%、及びUEC-100の8.1%は、2つを超える境界ボックスを含むが、VFNデータセットは、複数の境界ボックスを有する画像の26%超を有し、食品の位置特定を(例えば、境界ボックス1つだけを有する画像と比べて)更にいっそう困難にしているということである。これらの複数の食品領域により、偽陰性が増加する傾向があり、比較的低い再現率を説明するのに役立ち得る。
【表2】
【0107】
これらの実験では、食品の位置特定によって特定された食品領域で、分類が実行された。理想的には、各食品領域には、食品項目が1つだけ含まれている必要がある。ETHZ-100、UPMC-101、UEC-100、UEC-256、及びVFNを使用して、食品分類性能を評価した。これらのデータセットのうち、ETHZ-100及びUPMC-101には、単一の食品画像のみが含まれる。UEC-100データセット、UEC-256データセット、及びVFNデータセットには複数の食品が含まれているため、グラウンドトゥルース境界ボックス情報を使用して、単一の食品画像を生成し、食品分類性能を評価した。実験は、ETHZ-101データセット及びUPMC-101データセットによって提供された訓練データ及びテストデータの選択に従った。他の3つのデータセットについては、実験は訓練に70%、検証に15%、テストに15%を使用した。
【0108】
食品分類に使用することができる、多くの深層学習モデルがある。注目すべき点は、inception、ResNet及びDenseNetなどの、より複雑なニューラルネットワークモデルを使用すると、それほど複雑でないモデルよりも、高い精度が得られる可能性があるということである。しかしながら、理論的には、クラスラベルの階層構造を使用することで分類の精度が向上するため、提示された技術は、基礎となるCNNモデルに関し、ある程度不可知論的である必要がある。これらの実験では、フラットな分類という用語は、クラスラベルの階層構造の各レベルのラベルを生成せずに(例えば、式5の手法を使用して)、食品分類用にCNNモデルを調整することを指し、階層的分類は、(例えば、式6の手法を使用する)食品分類用のクラスラベル間の視覚意味論を使用して生成された、階層構造を使用することを指す。
【0109】
これらの実験では、DenseNet-121が、モデル中核CNNモデルとして使用された。分類タスクは、3つの実験を使用して比較された。選択されたCNNモデルは、0.0001の学習率でフラットな分類用に訓練され、同じCNNモデルは、同じ0.0001の学習率で階層的分類用に訓練され、同じCNNモデルは、より小さな0.00001の学習率で階層的分類用に微調整された。CNNモデルは、ImageNetで事前に訓練された重みで初期化され、20のバッチサイズを使用した。
【0110】
階層構造を生成するために、DenseNet-121は、最初に、フラットな分類用に訓練された。精度及び損失が収束したら、各訓練画像から特徴マップを抽出し、類似性スコア(OVL)を全てのカテゴリ間で算出し、親和性伝播を使用してクラスタを生成した。表5に示すように、各データセットは、異なる数のクラスタ有する。これらのクラスタに基づいて、下位レベルが食品カテゴリであり、上位レベルが食品クラスタである、2レベルの階層構造が設計された。
【表3】
【0111】
これらの実験では、フラットな分類は、従来の非マルチタスクモデルを使用した。対照的に、どちらの階層的分類も、マルチタスクモデルを使用して、一方は食品クラスタを分類し、他方は食品カテゴリを分類する、2つのタスクを実行した。表4に示すように、学習率及びバッチサイズが固定されている場合、階層的分類は、Top-1精度で優れた精度を達成する。より小さな学習率でマルチタスクモデルを微調整した後、Top-1精度を更に向上させることができる。
【表4】
【0112】
栄養の観点から見ると、視覚的に類似した食品には、フライドチキン及びフライドポークなど、類似した栄養含有量が含まれていることが多い。したがって、Top-1精度の向上に加えて、提示された認識システムは、視覚的に類似した食品を一緒にクラスタ化することにより、誤りの影響を最小限に抑えることができる。注目すべき点は、Top-5精度は、性能測定基準として使用することができるが、誤りの良し悪しの程度を反映することはできないということである。これらの実験では、新しい性能測定基準「Cluster Top-1」を使用して、システムが犯した誤りが良いか悪いかを測定する。視覚認識階層構造は、視覚的に類似した複数の食品(例えば、図9及び図11のレベル902)を含んだ多くのクラスタ(例えば、図9及び図11のレベル904)を含む。したがって、Top-1判定が、正しいカテゴリが属するクラスタの一員である場合、適切な「Cluster Top-1」判定とみなされる。表5に示すように、視覚的認識の階層構造は、Top-1精度を向上させるだけでなく、Cluster Top-1精度も向上させることができる。言い換えれば、システムは、フラットな分類方法よりも「良い」間違いを犯し得る。
【表5】
【0113】
本明細書で説明するように、食品の位置特定は、食品以外の背景画素を除去して分類性能を向上させるのに役立ち得る。この利点を示すために、UEC-100データセット、UEC-256データセット、及びVFNデータセットから単一の食品画像を選択し、元の画像を、食品だけを含んだトリミング画像と比較した。これらのデータセット用に、DenseNet-121モデルが訓練された。表6に示すように、画像内の食品領域をトリミングすると、特に、VFNデータセット内の画像などの、より複雑な画像の分類精度が向上する。表6に示されている測定基準は、フラットな分類技術を使用して判定され、訓練は、元の画像及びトリミング画像を使用して個別に行った。精度はTop-1精度である。
【表6】
【0114】
システム全体は、食品の位置特定及び食品認識を組み合わせることにより評価された。単一の食品画像の場合、位置特定は、無関係な背景画素を削除するのに役立ち得る。複数の食品画像の場合、位置特定は、画像内の異なる食品領域に、複数のラベルを割り当てる。UEC-100データセット、UEC-256データセット、及びVFNデータセットは、グラウンドトゥルース境界ボックス情報を有するため、それらのテスト画像を使用して、食品認識システムの性能を評価した。
【0115】
食品の位置特定から予測された境界ボックスが、グラウンドトゥルースデータと完全に一致する可能性は低いため、認識性能は、単純な食品/非食品ではなく、複数のカテゴリラベルについて、適合率(式10)及び再現率(式11)で測定された。比較のために、計量精度(式9)も計算した。
【数17】
【0116】
表7に示すように、UEC-256での技術の結果は、参照によりその全体が本明細書に組み込まれ、UEC-256でも実行された、Marc Bolanos and Petia Radeva,“Simultaneous food localization and recognition.2016 23rd International Conference on Pattern Recognition(ICPR)(2016),3140-3145(“the Bolanos benchmark”)で説明されるものと比較する。システムの性能は、一般的な性能評価について表8に示すように、これらの測定基準で、3つのデータセット全てで評価した。
【表7】
【表8】
【0117】
食品領域が位置特定され、食物分類段階に送り込まれた後、各食品領域について、食品ラベル及び関連する信頼スコアが返される。分類体系は、各境界ボックス内の画像情報に基づいて、信頼スコア(又は、分類アルゴリズムによって返される確率)を各カテゴリに割り当てる。例えば、分類するカテゴリが3つある場合、信頼スコアは[0.13,0.26,0.61]であり得、分類段階は、「カテゴリ3」のラベル及び信頼スコア0.61を、この境界ボックスに割り当てる。正しい分類とみなすことができる最低の一致スコアを判定する、信頼スコアの閾値を設定することができる。表8の結果は、適合率、再現率、及び精度を示す。これらの測定基準については、信頼スコアは考慮されていなかった。例えば、境界ボックスの信頼スコアが0.23とあまり高くないが、ラベルが適切に判定されている場合でも、真陽性として扱うことができる。
【0118】
平均精度の平均(mAP)は、より正確な評価に使用される。信頼スコアの閾値を変更すると、適合率及び再現率が変更される。例えば、信頼スコアが0.3でラベルが適切な境界ボックスでは、閾値が0.5に設定されている場合、境界ボックスは偽陰性として扱われ、閾値が0.2の場合、境界ボックスは真陽性として扱われる。したがって、信頼スコアの閾値が変化すると、それに応じて適合率及び再現率も変化する。各カテゴリの平均精度(AP)は、各食品カテゴリの0~1にわたる再現率の平均精度値である。mAPは、全てのカテゴリの全てのAPの平均値である。実験的実装は、参照によりその全体が本明細書に組み込まれ、認識技術用のCNNベースのモデル及びUEC-100データセットのテストを提示した、Wataru Shimoda and Keiji Yanai,“CNN-Based Food Image Segmentation Without Pixel-Wise Annotation,”New Trends in Image Analysis and Processing-ICIAP 2015 Workshops(2015),449-457(the“Shimoda Benchmark”)と比較される。しかしながら、実験的実装とは異なり、Bolanos Benchmarkは、食品の位置特定のために、選択的検索及び境界ボックスのクラスタ化を使用した。結果を表8に示す。
【表9】
【0119】
上記の結果を見直すと、表4は、2レベルの階層構造の構築が、様々なデータセットに適用できることを示している。表4及び表5は、同じCNNモデル及び同じ学習率を使用することにより、本明細書に記載の技術が、Top-1精度及びCluster Top-1精度の両方を向上させることができることを示している。より小さな学習率で微調整することによってなど、結果を更に向上させることができる。更に、表6は、単一の食品画像の場合でも、食品の位置特定によって食品以外の背景画素を除去し得、分類精度を向上させることができることを示している。これは、(大幅な向上によって示されるように)VFNデータセット内の画像などの複雑な画像に特に役立ち得る。注目すべき点は、表4及び表6の両方の結果について、1つ以上の理由により、VFNでの性能が他の公開データセットよりも低いということである。例えば、VFNデータセットには、牛乳、アイスクリーム、ヨーグルトなどの、視覚的に類似した食品カテゴリが多数含まれる。別の実施例として、このデータセットの各カテゴリには、約100枚の画像が含まれており、他の公開データセットに含まれるものよりはるかに少ない(例えば、ETHZ-101は、カテゴリごとに約1000枚の画像を有する)。したがって、より多くの画像が訓練セットに含まれるように、カテゴリごとの画像の枚数を増やすことができる。
【0120】
UEC-100データセット、UEC-256データセット、及びVFNデータセットには境界ボックス情報が含まれているため、これら3つのデータセットを使用して、認識システム全体の性能をテストすることができる。実験的実装は、ベンチマーク(Bolanos Benchmark及びShimoda Benchmark)として使用された、以前に提示された方法よりも性能が優れている。表9の結果は、VFNのmAPが、他の2つのデータセットのものよりも低いことを示した。mAPは、分類によって割り当てられたクラスラベルの信頼スコアに大きく依存するため、VFNの分類結果が低いほど、mAP値が低くなり、VFNが困難なデータセットであることを示している。VFNの再現率が低いのは、食品の位置特定が、画像内の全ての食品領域を提示していないことが原因であり得、VFNには、他の2つのデータセットよりも多くの複数の食品画像が含まれる。更に、表8及び表9の両方で、実験的実装がUEC-256データセットで最もよく機能することが示された。これは、(Faster R-CNNに基づいた)食品の位置特定が、UEC-256で訓練されているためである可能性が高い。しかしながら、VFNデータセットの精度が高いことは、UEC-256で訓練されたFaster R-CNNが、他の食品画像データセットに十分に一般化され得ることを示している。
【0121】
本明細書に記載の視覚的及び栄養的クラスタ化技術、並びに階層的分類技術を使用して、食品分類の性能を評価するために、更なる実験が行われた。具体的には、4つの栄養情報(エネルギー、脂肪、炭水化物、及びタンパク質)を、100gの食品サンプルを使用して算出し、1つ以上を、食品分類体系に組み込まれた。全ての実験で、加重パラメータw(式8)は、栄養的類似性に対して1に固定され、2つのクロスエントロピー損失の重みを制御するハイパーパラメータλ(式6)は1に設定された。
【0122】
上記のVFNデータセットは、Food and Nutrient Database for Dietary Studies(FNDDS)に基づいて修正され、実験に使用された。具体的には、(例えば、FNDDSによる)同じ栄養情報を共有する食品項目を組み合わせ、飲料を除外し、その結果、VFNデータセットで74個の食品カテゴリをもたらした。74個の食品カテゴリに属するFNDDSから、食品項目(1,869)が収集された。食品カテゴリには、複数の食品項目が含まれる可能性があるため、食品カテゴリを表すために、食品カテゴリ内の全ての食品項目の栄養価及びエネルギー情報の平均が採用された。
【0123】
クラスタ化は、栄養及び視覚の両方の観点から、クラスタ内及びクラスタ間の関係に基づいて評価された。クラスタ内分散及びクラスタ間分散は、式10及び式11に示すように、各栄養情報(エネルギー、脂肪、炭水化物、タンパク質)について計算された。
【数18】
【数19】
式中、Nは、データセット内の画像の総数である。Cは、クラスタi内の画像の総数である。xijは、クラスタiの食品カテゴリjの栄養情報である。
【数20】
は、クラスタiの平均値であり、
【数21】
は、データセット全体で選択された栄養素情報の平均値である。
【0124】
異なる栄養情報に基づいた、クラス内クラスタ化及びクラス間クラスタ化の結果を表10に示す。示されているように、視覚的特徴のみに基づいたクラスタ化は、クラスタ内分散が非常に大きく、クラスタ間分散に非常に近いものもあるため、栄養の観点からは、良好なクラスタ化の結果は得られない。他のクラスタ化の結果では、分散は、選択された栄養情報(例えば、エネルギー(E)、炭水化物(C)、タンパク質(P)、及び脂肪(F))に対応する。例えば、「F+P+V」は、脂肪情報、タンパク質情報、及び視覚情報を考慮したクラスタ化の類似性を意味する。表10に示すように、この組み合わせ(F+P+V)は、低いクラス内分散、及び高いクラス間分散をもたらす。
【表10】
【0125】
式12に示すように、クラスタ化の結果の視覚的類似性を評価するために、視覚的距離行列が生成された。
【数22】
式中、Sは、範囲(0,1]の類似性スコアSを含む視覚的類似性行列である。クラスタ間距離及びクラスタ内距離は、それぞれ、式13及び式14に示すように定式化された。
【数23】
【数24】
式中、Nは、クラスタiの食品カテゴリ数の合計であり、djkは、クラスタiのカテゴリjとカテゴリkとの間の視覚的距離である。クラスタ内距離については、最悪のシナリオを想定して、最大距離が選択された。クラスタ間距離については、親和性伝播によって判定された見本が、クラスタを表す重心として選択された。Djkは、クラスタjとクラスタkとの間の距離である。Nは、クラスタの総数である。
【0126】
表11は、異なるクラスタ化の結果についての、クラスタ内の視覚的距離、クラスタ間の視覚的距離、及び、それらの間の比率を示す。視覚的類似性のみに基づいたクラスタ化が、最良の比率を示す。栄養情報が組み込まれている、他の全ての場合は、高い比率を有するが、それでも1未満であり、クラスタ化中に、栄養情報及び視覚情報がうまく組み合わされていることを示す。
【表11】
【0127】
本明細書に記載の食品分類技術を評価し、フラット訓練分類モデルと比較した。これらの実験では、事前訓練済みResNet-50が、モデル中核CNNモデルとして使用された。フラット訓練分類及び全ての階層ベースの分類は、70~71%の同等の精度を有することがわかった。
【0128】
栄養情報の平均絶対誤差(MAE)を使用して、どの食品分類体系が「良い間違い」を犯しているかを評価した。図16A~Dは、異なる食品分類体系の栄養情報のMAEを比較するチャートである。フラット訓練分類及び視覚ベースの階層的分類は基準値として扱われ、栄養情報が組み込まれたものと比較される。示されているように、栄養情報を組み込むと、フラット訓練分類技術及び視覚的階層的分類技術を使用する場合と比較して、誤差が減少する。エネルギー+視覚(図16A)、炭水化物+タンパク質+視覚(図16B)、脂肪+視覚(図16C)、及び脂肪+タンパク質+視覚(図16D)は、各ドメインの相対的な誤差の低減における最悪のシナリオを示す。しかし、最悪のシナリオでも、栄養情報を組み込むことで、誤差の低減を実現する。
【0129】
図17に、本明細書に開示される技術及び実施形態の態様のうちのいずれかを実施するために使用され得る、コンピュータシステム1700の例示的な実装が示されている。コンピュータシステム1700は、1つ以上のプロセッサ1710及び1つ以上の非一時的コンピュータ可読記憶媒体(例えば、メモリ1720及び1つ以上の不揮発性記憶媒体1730)、並びにディスプレイ1740を含み得る。本明細書に記載される本発明の態様はこの点に関して限定されないため、プロセッサ1710は、任意の好適な方式で、メモリ1720及び不揮発性記憶デバイス1730へのデータの書き込み及び不揮発性記憶デバイス1730からのデータの読み取りを制御することができる。本明細書に記載される機能及び/又は技術を実施するために、プロセッサ1710は、プロセッサ1710によって実行するための命令を記憶する非一時的コンピュータ可読記憶媒体として機能し得る、1つ以上のコンピュータ可読記憶媒体(例えば、メモリ1720、記憶媒体など)に格納された1つ以上の命令を実行することができる。
【0130】
本明細書に記載の技術に関連して、例えば、画像内の食品及び他の物体を認識するために使用されるコードは、コンピュータシステム1700の1つ以上のコンピュータ可読記憶媒体に格納され得る。プロセッサ1710は、そのようなコードを実行して、本明細書に記載の物体を認識するための、任意の技術を提供することができる。本明細書に記載されている他のソフトウェア、プログラム、又は命令もまた、コンピュータシステム1700によって格納及び実行され得る。コンピュータコードは、本明細書に記載される方法及び技術の任意の態様に適用され得ることが理解されよう。例えば、コンピュータコードを適用して、オペレーティングシステムと対話し、従来のオペレーティングシステムプロセスを通じて、物体を認識することができる。
【0131】
本明細書で概説される様々な方法又はプロセスは、様々なオペレーティングシステム又はプラットフォームのうちのいずれか1つを使用する1つ以上のプロセッサ上で実行可能なソフトウェアとして、コード化され得る。加えて、そのようなソフトウェアは、多数の好適なプログラミング言語及び/又はプログラミングツール若しくはスクリプトツールのいずれかを使用して記述され得、また、仮想マシン又は好適なフレームワーク上で実行される実行可能機械語コード又は中間コードとしてコンパイルされ得る。
【0132】
この点で、様々な発明概念は、1つ以上のコンピュータ又は他のプロセッサ上で実行されると本発明の様々な実施形態を実施する、1つ以上のプログラムで符号化された、少なくとも1つの非一時的コンピュータ可読記憶媒体(例えば、コンピュータメモリ、1つ以上のフロッピーディスク、コンパクトディスク、光学ディスク、磁気テープ、フラッシュメモリ、フィールドプログラマブルゲートアレイ若しくは他の半導体デバイスにおける回路構成、など)として具体化され得る。非一時的コンピュータ可読媒体又は複数の媒体は、移動可能であり得、その結果、そこに格納された1つ以上のプログラムは、上で考察されたような本発明の様々な態様を実装するため任意のコンピュータリソースにロードされ得る。
【0133】
「プログラム」、「ソフトウェア」、及び/又は「アプリケーション」という用語は、本明細書では、一般的な意味で使用され、上で考察されたような実施形態の様々な態様を実施するためにコンピュータ又は他のプロセッサをプログラムするために採用される、任意の種類のコンピュータコード又はコンピュータ実行可能命令のセットを指す。加えて、一態様によれば、実行されると本発明の方法を実施する1つ以上のコンピュータプログラムは、単一のコンピュータ又はプロセッサ上に存在する必要はないが、本発明の様々な態様を実施するため、異なるコンピュータ又はプロセッサ間でモジュール方式により配布され得ることを理解されたい。
【0134】
コンピュータ実行可能命令は、プログラムモジュールなど、1つ以上のコンピュータ又は他のデバイスによって実行される多くの形態であり得る。一般に、プログラムモジュールには、特定のタスクを実施するか、又は特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、構成要素、データ構造などが含まれる。典型的には、プログラムモジュールの機能は、様々な実施形態において所望されるように組み合わされ、又は分散され得る。
【0135】
また、データ構造は、任意の好適な形態で、非一時的コンピュータ可読記憶媒体に格納され得る。データ構造には、そのデータ構造内の場所によって関連付けられているフィールドが含まれる場合がある。そのような関係は、同様に、フィールド間の関係を伝達する非一時的コンピュータ可読媒体内の場所を備えたフィールドに、記憶域を割り当てることによって達成することができる。しかしながら、任意の好適なメカニズムを使用して、データ要素間の関係を確立するポインタ、タグ、又は他のメカニズムの使用を介することを含む、データ構造のフィールド内の情報間の関係を確立することができる。
【0136】
様々な発明概念は、1つ以上の方法として具体化することができ、その例が提供されている。方法の一部として実施される動作は、任意の好適な様式で順序付けられてもよい。したがって、例示的な実施形態では順次行為として示されているが、いくつかの行為を同時に実行することを含み得る、図示されたものと異なる順序で行為が実行される実施形態が構築され得る。
【0137】
本明細書及び特許請求の範囲において本明細書で使用される不定冠詞「a」及び「an」は、明確に反すると示されない限り、「少なくとも1つ」を意味すると理解されるべきである。本明細書の明細書及び特許請求の範囲において使用される場合、1つ以上の要素のリストに関連する「少なくとも1つ(at least one)」という句は、要素のリスト内の要素のうちの任意の1つ以上から選択された少なくとも1つの要素を意味すると理解されるべきであり、要素のリスト内に具体的にリストされている各要素及び全ての要素の少なくとも1つを含む必要はなく、要素のリスト内の要素の任意の組み合わせを除外するものでもない。これにより、「少なくとも1つ」という句が参照する要素のリスト内で具体的に特定される要素以外の要素は、具体的に特定されるこれらの要素に関連するか関連しないかにかかわらず、任意選択的に存在することができる。
【0138】
本明細書及び特許請求の範囲において本明細書で使用される「及び/又は(and/or)」という句は、そのように結合された要素、すなわち、ある場合には結合的に存在し、他の場合には分離的に存在する要素の「いずれか一方又は両方(either or both)」を意味すると理解されるべきである。「及び/又は」を用いてリストされた複数の要素は、同じ形式で解釈する必要があり、すなわち、そのように結合された要素の「1つ以上(one or more)」である。「及び/又は」節によって具体的に特定される要素以外の他の要素は、具体的に特定されるこれらの要素に関連するかどうかにかかわらず、任意選択的に存在し得る。したがって、非限定的な例として、「A及び/又はB」への言及は、「含む(comprising)」などの制限のない言語と組み合わせて使用される場合、一実施形態では、Aのみ(任意選択的にB以外の要素を含む)についての言及、別の実施形態では、Bのみ(任意選択的にA以外の要素を含む)についての言及、更に別の実施形態では、AとBの両方(任意選択的に他の要素を含む)についての言及などであり得る。
【0139】
本明細書及び特許請求の範囲で使用される場合、「又は」は、上記で定義された「及び/又は」と同じ意味を有すると理解されるべきである。例えば、リスト内の項目を区切る場合、「又は」又は「及び/又は」は包括的であると解釈されるものとする。すなわち、複数の要素又は要素のリストうちの少なくとも1つだけでなく複数を含むものと解釈され、任意選択的に、追加のリストされていない項目も含むものと解釈されるものとする。「のうちの1つのみ(only one of)」又は「のうちの正確に1つ(exactly one of)」、又は特許請求の範囲で使用される場合、「からなる(consisting of)」など、反対に明確に示される用語のみが、複数の要素又は要素のリストうちの正確に1つの要素を含むことを指す。一般に、本明細書で使用される場合、「又は」という用語は、「いずれか(either)」、「のうちの1つ(one of)」、「のうちの1つのみ」、又は「のうちの正確に1つ」などの排他的な用語が続く場合、排他的選択(すなわち、「一方又は他方であるが両方ではない(one or the other but not both)」)を示すと解釈されるべきである。「本質的にからなる(consisting essentially of)」は、特許請求の範囲で使用される場合、特許法の分野で使用される通常の意味を有するものとする。
【0140】
特許請求の範囲において、特許請求項の要素を修飾ための「第1」、「第2」、「第3」などの序数用語の使用は、それ自体では、いかなる優先順位、先行順、又はある特許請求項の要素の別の特許請求項の要素に対する順序若しくは、ある方法の動作が実施される時間的順序を暗示するものではない。そのような用語は、特定の名前を有する1つの特許請求項の要素を、同じ名前を有する別の要素から区別するためのラベルとしてのみ使用される(しかし、序数用語の使用による)。
【0141】
本明細書で使用される語法及び専門用語は、説明目的のためであって、限定とみなされるべきではない。「含む(including)」、「備える(comprising)」、「有する(having)」、「含む(containing)」、「含む(involving)」、及びそれらの変形の使用は、その後にリストされる項目及び追加の項目を包含することを意味する。
【0142】
本発明のいくつかの実施形態を詳細に説明してきたが、当業者には、様々な修正及び改良が容易に生じるであろう。そのような修正及び改良は、本発明の趣旨及び範囲内にあることが意図されている。したがって、前述の説明は単なる例示にすぎず、限定を意図するものではない。
【0143】
以下の態様を含むがこれらに限定されない様々な態様が、本開示に記載されている。
【0144】
1.物体と関連付けられた意味情報及び視覚情報に基づいて、物体の画像をグループ化するための、コンピュータ化された方法であって、方法は、デジタル画像のセットにアクセスすることであって、各デジタル画像は、物体の意味カテゴリと関連付けられた物体を含み、意味カテゴリは、デジタル画像のセットと関連付けられた複数の意味カテゴリのうちの1つであり、各デジタル画像は、デジタル画像が関連付けられている意味カテゴリを示すデータでラベル付けされている、アクセスすることと、訓練された機械学習モデルを使用して、デジタル画像のセットの各デジタル画像の視覚的特徴ベクタを判定することであって、視覚的特徴ベクタは、複数の視覚的特徴の各々の値を含む、判定することと、複数の意味カテゴリの各意味カテゴリについて、複数の視覚的特徴の各視覚的特徴について、意味カテゴリと関連付けられたデジタル画像のセット内の、各画像の視覚的特徴ベクタにおける、視覚的特徴の値の確率分布を計算することと、確率分布に基づいて、複数の意味カテゴリのうちの異なる意味カテゴリと関連付けられた、デジタル画像間の類似性を示すデータを判定することと、異なる意味カテゴリと関連付けられたデジタル画像間の類似性を示すデータに基づいて、複数の意味カテゴリを、意味カテゴリのクラスタにグループ化することと、を含む、方法。
2.デジタル画像のセットの各画像について、物体が食品であり、意味カテゴリが、食品の食品カテゴリである、態様1に記載の方法。
3.視覚的特徴ベクタが、1024次元空間ベクタを含み、視覚的特徴ベクタの各次元が、異なる視覚的特徴に対応する、態様1又は2に記載の方法。
4.計算された確率分布がガウス分布である、態様1~3のいずれかに記載の方法。
5.異なる意味カテゴリのデジタル画像間の類似性を示すデータを判定することが、各行及び各列が複数の意味カテゴリのうちの意味カテゴリと関連付けられるように、複数の意味カテゴリの総数にそれぞれ等しい数の行及び列を含む類似性行列を生成することと、類似性行列の各行列エントリについて、(a)行列エントリの行の意味カテゴリと関連付けられた、デジタル画像のセットのうちの、デジタル画像の第1のセットと、(b)行列エントリの列の意味カテゴリと関連付けられた、デジタル画像のセットのうちの、デジタル画像の第2のセットと、の視覚的特徴ベクタ間の類似性を示すデータを判定することと、を含む、態様1~4のいずれかに記載の方法。
6.計算された確率分布がガウス分布であり、類似性行列の各行列エントリについて、視覚的特徴ベクタ間の類似性を示すデータを判定することが、複数の視覚的特徴の各視覚的特徴について、(a)デジタル画像の第1のセット、及び(b)デジタル画像の第2のセットの視覚的特徴のガウス分布間の重なりを示す重なり係数を生成することと、重なり係数を平均化することによって、平均重なり係数を生成することと、視覚的特徴ベクタ間の類似性を示すデータとして、平均重なり係数を提供することと、を含む、態様5に記載の方法。
7.異なる意味カテゴリと関連付けられたデジタル画像間の類似性を示すデータに基づいて、複数の意味カテゴリを、意味カテゴリのクラスタにグループ化することが、親和性伝播を使用して、類似性行列の平均重なり係数に基づいて、複数の意味カテゴリを、意味カテゴリのクラスタにグループ化することを含む、態様6に記載の方法。
8.命令を含む非一時的コンピュータ可読媒体であって、命令が、コンピューティングデバイス上の1つ以上のプロセッサによって実行されるとき、1つ以上のプロセッサに、態様1~7のいずれかに記載の方法を実行させるように動作可能である、非一時的コンピュータ可読媒体。
9.命令を記憶するメモリと、態様1~7のいずれかに記載の方法を実施するために、命令を実行するように構成されたプロセッサと、を備える、システム。
10.物体認識のための機械学習モデルを訓練するための、コンピュータ化された方法であって、方法は、デジタル画像のセットにアクセスすることであって、各デジタル画像は物体を含み、かつ、(a)物体の所定の意味カテゴリであって、意味カテゴリは、デジタル画像のセットと関連付けられた複数の意味カテゴリのうちの1つである、所定の意味カテゴリと、(b)物体の所定の視覚的特徴カテゴリであって、視覚的特徴カテゴリは、複数の視覚的特徴カテゴリのうちの1つであり、複数の視覚的特徴カテゴリの各々は、デジタル画像のセットの視覚的特徴の間の類似性に基づいて判定される、所定の視覚的特徴カテゴリと、を示すデータを含む、所定のラベル情報と関連付けられている、アクセスすることと、デジタル画像のセットの各デジタル画像の予測ラベル情報を判定するために、機械学習モデルを使用して、デジタル画像のセットを分類することであって、機械学習モデルの第1の出力層を使用して、複数の意味カテゴリの予測意味カテゴリを判定することと、機械学習モデルの第2の出力層を使用して、複数の視覚的特徴カテゴリの予測視覚的特徴カテゴリを判定することと、を含む、分類することと、損失関数を使用して、機械学習モデルを訓練することであって、損失関数は、各デジタル画像の予測ラベル情報が、デジタル画像の前所定のラベル情報と等しいかどうかを示すデータを組み込む、訓練することと、を含む、方法。
11.デジタル画像のセットの各画像について、物体が食品であり、意味カテゴリが、食品の食品カテゴリである、態様10に記載の方法。
12.デジタル画像のセットを分類することが、デジタル画像のセットの各デジタル画像について、機械学習モデルを使用して、視覚的特徴ベクタを判定することであって、視覚的特徴ベクタは、複数の視覚的特徴の各々の値を含む、判定することと、第1の出力層及び視覚的特徴ベクタを使用して、予測意味カテゴリを判定することと、第2の出力層及び視覚的特徴ベクタを使用して、予測視覚的特徴カテゴリを判定することと、を含む、態様10又は11に記載の方法。
13.視覚的特徴ベクタが、1024次元空間ベクタを含み、視覚的特徴ベクタの各次元が、異なる視覚的特徴に対応する、態様12に記載の方法。
14.デジタル画像のセットが、階層構造に従って分類され、階層構造の第1のレベルが、複数の意味カテゴリを含み、第1のレベルより下の、階層構造の第2のレベルが、複数の視覚的特徴カテゴリの第1のセットを含み、第1のレベルの各意味カテゴリが、第2のレベルの視覚的特徴カテゴリと関連付けられ、所定の視覚的特徴カテゴリが、複数の視覚的特徴カテゴリのうちの第1のセットに属する、態様10~13のいずれかに記載の方法。
15.所定の視覚的特徴カテゴリが、第1の所定の視覚的特徴カテゴリであり、デジタル画像のセットの各デジタル画像の、所定のラベル情報が、物体の第2の所定の視覚的特徴カテゴリを更に含み、第2のレベルより下の、階層構造の第3のレベルが、複数の視覚的特徴カテゴリの第2のセットを含み、第2のレベルの各視覚的特徴カテゴリが、第3のレベルの視覚的特徴カテゴリと関連付けられ、第2の所定の視覚的特徴カテゴリが、複数の視覚的特徴カテゴリの第2のセットに属する、態様14に記載の方法。
16.デジタル画像のセットの各デジタル画像の予測ラベル情報を判定するために、機械学習モデルを使用して、デジタル画像のセットを分類することが、機械学習モデルの第3の出力層を使用して、複数の視覚的特徴カテゴリの、第2の予測視覚的特徴カテゴリを判定することを含む、態様10~15のいずれかに記載の方法。
17.命令を含む非一時的コンピュータ可読媒体であって、命令が、コンピューティングデバイス上の1つ以上のプロセッサによって実行されるとき、1つ以上のプロセッサに、態様10~16のいずれかに記載の方法を実行させるように動作可能である、非一時的コンピュータ可読媒体。
18.命令を記憶するメモリと、態様10~16のいずれかに記載の方法を実施するために、命令を実行するように構成されたプロセッサと、を備える、システム。
19.物体と関連付けられた意味情報、視覚情報及び栄養情報に基づいて、物体の画像をグループ化するための、コンピュータ化された方法であって、方法は、デジタル画像のセットにアクセスすることであって、各デジタル画像は、物体の意味カテゴリと関連付けられた物体を含み、意味カテゴリは、デジタル画像のセットと関連付けられた複数の意味カテゴリのうちの1つであり、各デジタル画像は、デジタル画像が関連付けられている意味カテゴリを示すデータでラベル付けされている、アクセスすることと、複数の意味カテゴリの各意味カテゴリについて、1つ以上の栄養値を判定することであって、1つ以上の栄養値の各々が、1つ以上の栄養カテゴリのうちの栄養カテゴリと関連付けられる、判定することと、人間の入力なしで、複数の意味カテゴリの各意味カテゴリについての1つ以上の栄養値に基づいて、複数の意味カテゴリのうちの異なる意味カテゴリ間の栄養的類似性を示すデータを自動的に判定することと、人間の入力なしで、異なる意味カテゴリ間の栄養的類似性を示すデータに基づいて、複数の意味カテゴリを意味カテゴリのクラスタに自動的にグループ化することと、を含む、方法。
20.複数の意味カテゴリのうちの、異なる意味カテゴリのデジタル画像間の視覚的類似性を示すデータにアクセスすることを更に含み、複数の意味カテゴリを意味カテゴリのクラスタにグループ化することが、栄養的類似性を示すデータ及び視覚的類似性を示すデータに基づいて、複数の意味カテゴリを意味カテゴリのクラスタにグループ化することを含む、態様19に記載の方法。
21.視覚的類似性を示すデータに基づいて、視覚的類似性行列を生成することを更に含む、態様20に記載の方法。
22.異なる意味カテゴリのデジタル画像間の視覚的類似性を示すデータにアクセスすることが、訓練された機械学習モデルを使用して、デジタル画像のセットの各デジタル画像の視覚的特徴ベクタを判定することであって、視覚的特徴ベクタが、複数の視覚的特徴の各々の値を含む、判定することと、複数の意味カテゴリの各意味カテゴリについて、複数の視覚的特徴の各視覚的特徴について、意味カテゴリと関連付けられたデジタル画像のセット内の、各画像の視覚的特徴ベクタにおける、視覚的特徴の値の確率分布を計算することと、確率分布に基づいて、複数の意味カテゴリのうちの異なる意味カテゴリと関連付けられた、デジタル画像間の視覚的類似性を示すデータを判定することと、を含む、態様20又は21に記載の方法。
23.異なる意味カテゴリ間の栄養的類似性を示すデータを判定することが、各行及び各列が複数の意味カテゴリのうちの意味カテゴリと関連付けられるように、複数の意味カテゴリの総数にそれぞれ等しい数の行及び列を含む栄養的類似性行列を生成することと、栄養類似性行列の各行列エントリについて、(a)行列エントリの行の意味カテゴリと、(b)行列エントリの列の意味カテゴリと、について判定された、1つ以上の栄養値間の類似性を示すデータを判定することと、を含む、態様19~22のいずれかに記載の方法。
24.栄養的類似性行列の各行列エントリについて、1つ以上の栄養値間の類似性を示すデータを判定することが、類似性測度のセットを生成するために、(a)行列エントリの行の意味カテゴリと、(b)行列エントリの列の意味カテゴリと、について判定された、1つ以上の栄養値を使用して、1つ以上の栄養カテゴリのうちの各栄養カテゴリについて、類似性測度を判定することと、類似性を示すデータを生成するために、類似性測度のセットを平均化することと、を含む、態様23に記載の方法。
25.類似性測度のセットを平均化することが、類似性測度のセットの加重調和平均を判定することを含む、態様24に記載の方法。
26.栄養的類似性行列及び視覚的類似性行列を使用して、類似性行列を生成することであって、類似性行列を生成することが、視覚的類似性行列及び栄養的類似性行列における、対応する行列エントリを平均化することを含む、生成することを更に含む、態様24に記載の方法。
27.視覚的類似性行列及び栄養的類似性行列における、対応する行列エントリを平均化することが、視覚的類似性行列及び栄養的類似性行列における、対応する行列エントリの等加重調和平均を判定することを含む、態様26に記載の方法。
28.栄養的類似性を示すデータ及び視覚的類似性を示すデータに基づいて、複数の意味カテゴリを意味カテゴリのクラスタにグループ化することが、親和性伝播を使用して、類似性行列の値に基づいて、複数の意味カテゴリを、意味カテゴリのクラスタにグループ化することを含む、態様26又は27に記載の方法。
29.デジタル画像のセットの各画像について、物体が食品であり、意味カテゴリが、食品の食品カテゴリである、態様19に記載の方法。
30.1つ以上の栄養カテゴリが、エネルギー、炭水化物、脂肪、及びタンパク質を含む、態様19に記載の方法。
31.命令を含む非一時的コンピュータ可読媒体であって、命令が、コンピューティングデバイス上の1つ以上のプロセッサによって実行されるとき、1つ以上のプロセッサに、態様19~30のいずれかに記載の方法を実行させるように動作可能である、非一時的コンピュータ可読媒体。
32.命令を記憶するメモリと、態様19~30のいずれかに記載の方法を実施するために、命令を実行するように構成されたプロセッサと、を備える、システム。
33.物体認識のための機械学習モデルを訓練するための、コンピュータ化された方法であって、方法は、デジタル画像のセットにアクセスすることであって、各デジタル画像は物体を含み、かつ、(a)物体の所定の意味カテゴリであって、意味カテゴリは、デジタル画像のセットと関連付けられた複数の意味カテゴリのうちの1つである、所定の意味カテゴリと、(b)物体の所定の栄養及び視覚的特徴カテゴリであって、栄養及び視覚的特徴カテゴリは、デジタル画像のセットと関連付けられた複数の栄養及び視覚的特徴カテゴリのうちの1つであり、複数の栄養及び視覚的特徴カテゴリの各々は、デジタル画像のセットの栄養及び視覚的特徴の間の類似性に基づいて判定される、所定の栄養及び視覚的特徴カテゴリと、を示すデータを含む、所定のラベル情報と関連付けられている、アクセスすることと、デジタル画像のセットの各デジタル画像の予測ラベル情報を判定するために、機械学習モデルを使用して、デジタル画像のセットを分類することであって、機械学習モデルの第1の出力層を使用して、複数の意味カテゴリの予測意味カテゴリを判定することと、機械学習モデルの第2の出力層を使用して、複数の栄養及び視覚的特徴カテゴリの予測栄養及び視覚的特徴カテゴリを判定することと、を含む、分類することと、損失関数を使用して、機械学習モデルを訓練することであって、損失関数は、各デジタル画像の予測ラベル情報が、デジタル画像の所定のラベル情報と等しいかどうかを示すデータを組み込む、訓練することと、を含む、方法。
34.デジタル画像のセットの各画像について、物体が食品であり、意味カテゴリが、食品の食品カテゴリである、態様33に記載の方法。
35.デジタル画像のセットを分類することが、デジタル画像のセットの各デジタル画像について、機械学習モデルを使用して、視覚的特徴ベクタを判定することであって、視覚的特徴ベクタが、複数の視覚的特徴の各々の値を含む、判定することと、第1の出力層及び視覚的特徴ベクタを使用して、予測意味カテゴリを判定することと、第2の出力層及び視覚的特徴ベクタを使用して、予測栄養及び視覚的特徴カテゴリを判定することと、を含む、態様33又は34に記載の方法。
36.デジタル画像のセットが、階層構造に従って分類され、階層構造の第1のレベルが、複数の意味カテゴリを含み、第1のレベルより下の、階層構造の第2のレベルが、複数の栄養及び視覚的特徴カテゴリの第1のセットを含み、第1のレベルの各意味カテゴリが、第2のレベルの栄養及び視覚的特徴カテゴリと関連付けられ、所定の栄養及び視覚的特徴カテゴリが、複数の栄養及び視覚的特徴カテゴリのうちの第1のセットに属する、態様33~35のいずれかに記載の方法。
37.命令を含む非一時的コンピュータ可読媒体であって、命令が、コンピューティングデバイス上の1つ以上のプロセッサによって実行されるとき、1つ以上のプロセッサに、態様33~36のいずれかに記載の方法を実行させるように動作可能である、非一時的コンピュータ可読媒体。
38.命令を記憶するメモリと、態様33~36のいずれかに記載の方法を実施するために、命令を実行するように構成されたプロセッサと、を備える、システム。
図1
図2
図3
図4
図5
図6
図7A
図7B
図7C
図7D
図7E
図7F
図7G
図7H
図7I
図7J
図7K
図7L
図7M
図8
図9
図10
図11
図12
図13A
図13B
図14
図15
図16A
図16B
図16C
図16D
図17