(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-08-15
(45)【発行日】2024-08-23
(54)【発明の名称】学習済みモデル生成装置、情報処理装置、学習済みモデル生成方法、情報処理方法、学習済みモデル生成プログラム、及び情報処理プログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20240816BHJP
【FI】
G06T7/00 350C
(21)【出願番号】P 2024093213
(22)【出願日】2024-06-07
【審査請求日】2024-06-07
【早期審査対象出願】
(73)【特許権者】
【識別番号】522018387
【氏名又は名称】一般社団法人健康マイスター協会
(73)【特許権者】
【識別番号】524207884
【氏名又は名称】株式会社エム・エム・イー
(73)【特許権者】
【識別番号】524208858
【氏名又は名称】IoYou株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】鈴木 将
(72)【発明者】
【氏名】並木 幸久
(72)【発明者】
【氏名】沼田 光生
(72)【発明者】
【氏名】秦 和義
(72)【発明者】
【氏名】竹本 正志
【審査官】伊知地 和之
(56)【参考文献】
【文献】特表2020-535538(JP,A)
【文献】中国特許出願公開第113239790(CN,A)
【文献】米国特許出願公開第2021/0004645(US,A1)
【文献】特開2019-087229(JP,A)
【文献】山岡めぐみ 外1名,局所マッチングを用いた形状分類の実現,電子情報通信学会論文誌,日本,社団法人電子情報通信学会,2003年07月01日,第J86-D-II巻 第7号,pp.1026~1035
(58)【調査した分野】(Int.Cl.,DB名)
A61B 5/06 - 5/22
G06T 7/00 - 7/90
G06V 10/00 - 20/90
G06V 30/418
G06V 40/16
G06V 40/20
CSDB(日本国特許庁)
(57)【特許請求の範囲】
【請求項1】
個体又は種の一部位である被写体が写る複数の学習用画像であって、かつ個体又は種毎に前記被写体が撮影された複数の学習用画像を取得する学習用取得部と、
前記複数の学習用画像に基づいて、機械学習によって学習用モデルを学習させることにより、前記被写体が写る画像が入力されると前記被写体が属する形状カテゴリーの確率が出力される学習済みモデルを生成する際に、
同一の個体又は種の前記被写体が写る学習用画像が前記学習用モデルへ入力された場合には、同一の形状カテゴリーの前記確率が最も高くなるように、前記学習用モデルを学習させ、
複数の異なる個体又は種の前記被写体が写る学習用画像の各々が前記学習用モデルへ入力された場合には、前記学習用モデルから出力される確率分布の分散が大きくなるように、前記学習用モデルを学習させることにより、前記学習済みモデルを生成する学習済みモデル生成部と、
を含む学習済みモデル生成装置。
【請求項2】
前記学習済みモデル生成部は、
以下の式(A)に示されている、学習用モデルから出力されるi番目の形状カテゴリーの確率y
iに関する第1エントロピーが小さくなり、
以下の式(B)に示されている、第1の個体又は種の前記被写体が写る第1学習用画像を学習用モデルへ入力した際に出力されるi番目の形状カテゴリーの確率y
iと、第1の個体又は種の前記被写体が写る第2学習用画像を学習用モデルへ入力した際に出力されるi番目の形状カテゴリーの確率y
i’との間のクロスエントロピーである第2エントロピーが小さくなり、
以下の式(C)に示されている、複数の学習用画像の各々を学習用モデルへ入力した際に出力されるi番目の形状カテゴリーの確率y
iのサンプル平均<y
i>に関する第3エントロピーが大きくなるように、
前記学習済みモデルを生成する、
請求項1に記載の学習済みモデル生成装置。
【数1】
(A)
(B)
(C)
【請求項3】
前記学習済みモデル生成部は、
前記式(A)、式(B)、及び式(C)を統合した以下の式(D1)に示されている損失関数Lが小さくなるように、前記学習済みモデルを生成する、
請求項2に記載の学習済みモデル生成装置。
【数2】
(D1)
ただし、bは複数の学習用画像から選択された画像集合であるミニバッチを表し、<>
bはミニバッチに含まれている学習用画像の形状カテゴリーの確率のサンプル平均を表し、nは形状カテゴリーの数を表す。
【請求項4】
前記学習済みモデル生成部は、
前記式(A)、式(B)、及び式(C)を統合した以下の式(D2)に示されている損失関数Lが小さくなるように、前記学習済みモデルを生成する、
請求項2に記載の学習済みモデル生成装置。
【数3】
(D2)
ただし、bは複数の学習用画像から選択された画像集合であるミニバッチを表し、<>
bはミニバッチに含まれている学習用画像の形状カテゴリーの確率のサンプル平均を表し、nは形状カテゴリーの数を表し、εは1以下のパラメータである。
【請求項5】
対象となる被写体が写る画像を取得する取得部と、
前記取得部により取得された前記画像を、予め生成された学習済みモデルへ入力することにより、前記学習済みモデルから出力された形状カテゴリーの確率を取得し、該確率を用いて前記画像に写る被写体が属する形状カテゴリーを特定する特定部と、
を含み、
前記学習済みモデルは、被写体が写る画像が入力されると前記画像に写る被写体が属する形状カテゴリーの確率が出力される学習済みモデルであり、
前記学習済みモデルは、同一の個体又は種の前記被写体が写る学習用画像が学習用モデルへ入力された場合には、同一の形状カテゴリーの前記確率が最も高くなるように、前記学習用モデルを学習させ、
複数の異なる個体又は種の前記被写体が写る学習用画像の各々が前記学習用モデルへ入力された場合には、前記学習用モデルから出力される確率分布の分散が大きくなるように、前記学習用モデルを学習させることにより得られた前記学習済みモデルである、
情報処理装置。
【請求項6】
個体又は種の一部位である被写体が写る複数の学習用画像であって、かつ個体又は種毎に撮影された複数の学習用画像を取得し、
前記複数の学習用画像に基づいて、機械学習によって学習用モデルを学習させることにより、前記被写体が写る画像が入力されると前記被写体が属する形状カテゴリーの確率が出力される学習済みモデルを生成する際に、
同一の個体又は種の前記被写体が写る学習用画像が前記学習用モデルへ入力された場合には、同一の形状カテゴリーの前記確率が最も高くなるように、前記学習用モデルを学習させ、
複数の異なる個体又は種の前記被写体が写る学習用画像の各々が前記学習用モデルへ入力された場合には、前記学習用モデルから出力される確率分布の分散が大きくなるように、前記学習用モデルを学習させることにより、前記学習済みモデルを生成する、
処理をコンピュータが実行する学習済みモデル生成方法。
【請求項7】
対象となる被写体が写る画像を取得し、
取得された前記画像を、予め生成された学習済みモデルへ入力することにより、前記学習済みモデルから出力された形状カテゴリーの確率を取得し、該確率を用いて前記画像に写る体の部位が属する形状カテゴリーを特定し、
前記学習済みモデルは、被写体が写る画像が入力されると前記画像に写る被写体が属する形状カテゴリーの確率が出力される学習済みモデルであり、
前記学習済みモデルは、同一の個体又は種の前記被写体が写る学習用画像が学習用モデルへ入力された場合には、同一の形状カテゴリーの前記確率が最も高くなるように、前記学習用モデルを学習させ、
複数の異なる個体又は種の前記被写体が写る学習用画像の各々が前記学習用モデルへ入力された場合には、前記学習用モデルから出力される確率分布の分散が大きくなるように、前記学習用モデルを学習させることにより得られた前記学習済みモデルである、
処理をコンピュータが実行する情報処理方法。
【請求項8】
個体又は種の一部位である被写体が写る複数の学習用画像であって、かつ個体又は種毎に撮影された複数の学習用画像を取得し、
前記複数の学習用画像に基づいて、機械学習によって学習用モデルを学習させることにより、前記被写体が写る画像が入力されると前記被写体が属する形状カテゴリーの確率が出力される学習済みモデルを生成する際に、
同一の個体又は種の前記被写体が写る学習用画像が前記学習用モデルへ入力された場合には、同一の形状カテゴリーの前記確率が最も高くなるように、前記学習用モデルを学習させ、
複数の異なる個体又は種の前記被写体が写る学習用画像の各々が前記学習用モデルへ入力された場合には、前記学習用モデルから出力される確率分布の分散が大きくなるように、前記学習用モデルを学習させることにより、前記学習済みモデルを生成する、
処理をコンピュータに実行させるための学習済みモデル生成プログラム。
【請求項9】
対象となる被写体が写る画像を取得し、
取得された前記画像を、予め生成された学習済みモデルへ入力することにより、前記学習済みモデルから出力された形状カテゴリーの確率を取得し、該確率を用いて前記画像に写る被写体が属する形状カテゴリーを特定し、
前記学習済みモデルは、被写体が写る画像が入力されると前記画像に写る被写体が属する形状カテゴリーの確率が出力される学習済みモデルであり、
前記学習済みモデルは、同一の個体又は種の前記被写体が写る学習用画像が学習用モデルへ入力された場合には、同一の形状カテゴリーの前記確率が最も高くなるように、前記学習用モデルを学習させ、
複数の異なる個体又は種の前記被写体が写る学習用画像の各々が前記学習用モデルへ入力された場合には、前記学習用モデルから出力される確率分布の分散が大きくなるように、前記学習用モデルを学習させることにより得られた前記学習済みモデルである、
処理をコンピュータに実行させるための情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
開示の技術は、学習済みモデル生成装置、情報処理装置、学習済みモデル生成方法、情報処理方法、学習済みモデル生成プログラム、及び情報処理プログラムに関する。
【背景技術】
【0002】
特許文献1には、舌の形状をコンピュータで分類する手法が開示されている。具体的には、特許文献1には、舌画像からスネーク演算により周辺点を120点取得し、周辺点の均等化処理と舌形状のたわみ補正処理を行い、舌形状を識別する技術が開示されている。
【0003】
特許文献2には、舌状物認識方法が開示されている。具体的には、特許文献2には、舌状物識別モデルとして畳み込みニューラルネットワークが開示されており、この畳み込みニューラルネットワークを用いて舌のセグメンテーションを実行する点が開示されている。
【0004】
特許文献3には、画像処理に基づく舌形状識別方法が開示されている。具体的には、特許文献3には、事前に取得したHSV色空間モデルに基づいて舌体画像にグレー処理を実行して2値の舌体画像を取得し、2値の舌体画像に対して境界描写を実行して、舌画像境界を取得し、舌画像境界上で舌形状識別を実行する技術が開示されている。
【0005】
特許文献4には、コンピュータビジョンに基づく舌ひび割れ形状識別方法が開示されている。具体的には、特許文献4には、舌ひび割れを検出しマークをし、舌のひび割れの形状を識別しマークを付ける技術が開示されている。
【先行技術文献】
【特許文献】
【0006】
【文献】中国特許出願公開第1932848号明細書
【文献】中国特許出願公開第110363073号明細書
【文献】中国特許出願公開第111582113号明細書
【文献】中国特許出願公開第113177499号明細書
【発明の概要】
【発明が解決しようとする課題】
【0007】
ところで、舌の形状は遺伝形質であるともいわれている。なお、舌以外にも、遺伝形質であるといわれている体の部位は存在している。遺伝形質であるような体の部位の形状を分類することが可能となれば、例えば、医療における病態の分類といったことへ応用することが可能である。このため、体の部位の形状を分類するための技術は有用であると考えられる。
【0008】
また、体の部位に限らず、様々な被写体の形状を分類する技術は有用である。被写体の形状を分類する際の手法としては、例えば、被写体の形状が複数の形状カテゴリーのうちの何れの形状カテゴリーに属しているのかを予め人が判定し、その判定結果を学習用データとして学習済みモデルを生成するという手法が考えられる。この場合には、例えば、被写体が写る画像が学習済みモデルへ入力されると、その被写体が属する形状カテゴリーの確率が学習済みモデルから出力される。
【0009】
しかし、学習用の被写体が属する形状カテゴリーについては、人が事前に判定できない場合もある。例えば、ある被写体と別の被写体とが同一の形状カテゴリーに属しているのか否かは微妙であり、その判定を人がするのは難しい場合もある。
【0010】
このため、学習用の被写体が属する形状カテゴリーの判定を人がすることが難しい場合には、対象となる被写体の形状も分類することが難しい、という課題がある。
【0011】
開示の技術は、上記の事情を鑑みてなされたものであり、被写体が属する形状カテゴリーを人が判定することが難しい場合であっても、対象となる被写体の形状を分類することができる学習済みモデル生成装置、情報処理装置、学習済みモデル生成方法、情報処理方法、学習済みモデル生成プログラム、及び情報処理プログラムを提供する。
【課題を解決するための手段】
【0012】
上記の目的を達成するために本開示の第1態様は、個体又は種の一部位である被写体が写る複数の学習用画像であって、かつ個体又は種毎に前記被写体が撮影された複数の学習用画像を取得する学習用取得部と、前記複数の学習用画像に基づいて、機械学習によって学習用モデルを学習させることにより、前記被写体が写る画像が入力されると前記被写体が属する形状カテゴリーの確率が出力される学習済みモデルを生成する際に、同一の個体又は種の前記被写体が写る学習用画像が前記学習用モデルへ入力された場合には、同一の形状カテゴリーの前記確率が最も高くなるように、前記学習用モデルを学習させ、複数の異なる個体又は種の前記被写体が写る学習用画像の各々が前記学習用モデルへ入力された場合には、前記学習用モデルから出力される確率分布の分散が大きくなるように、前記学習用モデルを学習させることにより、前記学習済みモデルを生成する学習済みモデル生成部と、を含む学習済みモデル生成装置である。
【0013】
本開示の第2態様は、個体又は種の一部位である被写体が写る複数の学習用画像であって、かつ個体又は種毎に撮影された複数の学習用画像を取得し、前記複数の学習用画像に基づいて、機械学習によって学習用モデルを学習させることにより、前記被写体が写る画像が入力されると前記被写体が属する形状カテゴリーの確率が出力される学習済みモデルを生成する際に、同一の個体又は種の前記被写体が写る学習用画像が前記学習用モデルへ入力された場合には、同一の形状カテゴリーの前記確率が最も高くなるように、前記学習用モデルを学習させ、複数の異なる個体又は種の前記被写体が写る学習用画像の各々が前記学習用モデルへ入力された場合には、前記学習用モデルから出力される確率分布の分散が大きくなるように、前記学習用モデルを学習させることにより、前記学習済みモデルを生成する、処理をコンピュータが実行する学習済みモデル生成方法である。
【0014】
本開示の第3態様は、個体又は種の一部位である被写体が写る複数の学習用画像であって、かつ個体又は種毎に撮影された複数の学習用画像を取得し、前記複数の学習用画像に基づいて、機械学習によって学習用モデルを学習させることにより、前記被写体が写る画像が入力されると前記被写体が属する形状カテゴリーの確率が出力される学習済みモデルを生成する際に、同一の個体又は種の前記被写体が写る学習用画像が前記学習用モデルへ入力された場合には、同一の形状カテゴリーの前記確率が最も高くなるように、前記学習用モデルを学習させ、複数の異なる個体又は種の前記被写体が写る学習用画像の各々が前記学習用モデルへ入力された場合には、前記学習用モデルから出力される確率分布の分散が大きくなるように、前記学習用モデルを学習させることにより、前記学習済みモデルを生成する、処理をコンピュータに実行させるための学習済みモデル生成プログラムである。
【0015】
本開示の第4態様は、対象となる被写体が写る画像を取得する取得部と、前記取得部により取得された前記画像を、予め生成された学習済みモデルへ入力することにより、前記学習済みモデルから出力された形状カテゴリーの確率を取得し、該確率を用いて前記画像に写る被写体が属する形状カテゴリーを特定する特定部と、を含み、前記学習済みモデルは、被写体が写る画像が入力されると前記画像に写る被写体が属する形状カテゴリーの確率が出力される学習済みモデルであり、前記学習済みモデルは、同一の個体又は種の前記被写体が写る学習用画像が前記学習用モデルへ入力された場合には、同一の形状カテゴリーの前記確率が最も高くなるように、前記学習用モデルを学習させ、複数の異なる個体又は種の前記被写体が写る学習用画像の各々が前記学習用モデルへ入力された場合には、前記学習用モデルから出力される確率分布の分散が大きくなるように、前記学習用モデルを学習させることにより得られた前記学習済みモデルである、情報処理装置である。
【0016】
本開示の第5態様は、対象となる被写体が写る画像を取得し、取得された前記画像を、予め生成された学習済みモデルへ入力することにより、前記学習済みモデルから出力された形状カテゴリーの確率を取得し、該確率を用いて前記画像に写る体の部位が属する形状カテゴリーを特定し、前記学習済みモデルは、被写体が写る画像が入力されると前記画像に写る被写体が属する形状カテゴリーの確率が出力される学習済みモデルであり、前記学習済みモデルは、同一の個体又は種の前記被写体が写る学習用画像が前記学習用モデルへ入力された場合には、同一の形状カテゴリーの前記確率が最も高くなるように、前記学習用モデルを学習させ、複数の異なる個体又は種の前記被写体が写る学習用画像の各々が前記学習用モデルへ入力された場合には、前記学習用モデルから出力される確率分布の分散が大きくなるように、前記学習用モデルを学習させることにより得られた前記学習済みモデルである、処理をコンピュータが実行する情報処理方法である。
【0017】
本開示の第6態様は、対象となる被写体が写る画像を取得し、取得された前記画像を、予め生成された学習済みモデルへ入力することにより、前記学習済みモデルから出力された形状カテゴリーの確率を取得し、該確率を用いて前記画像に写る被写体が属する形状カテゴリーを特定し、前記学習済みモデルは、被写体が写る画像が入力されると前記画像に写る被写体が属する形状カテゴリーの確率が出力される学習済みモデルであり、前記学習済みモデルは、同一の個体又は種の前記被写体が写る学習用画像が前記学習用モデルへ入力された場合には、同一の形状カテゴリーの前記確率が最も高くなるように、前記学習用モデルを学習させ、複数の異なる個体又は種の前記被写体が写る学習用画像の各々が前記学習用モデルへ入力された場合には、前記学習用モデルから出力される確率分布の分散が大きくなるように、前記学習用モデルを学習させることにより得られた前記学習済みモデルである、処理をコンピュータに実行させるための情報処理プログラムである。
【発明の効果】
【0018】
開示の技術によれば、被写体が属する形状カテゴリーを人が判定することが難しい場合であっても、対象となる被写体の形状を分類することができる、という効果が得られる。
【図面の簡単な説明】
【0019】
【
図1】実施形態の情報処理装置の概略構成の一例を示す図である。
【
図4】学習済みモデルから出力される確率分布を説明するための図である。
【
図5】クロスエントロピーを説明するための図である。
【
図6】カテゴリーの数の制御を説明するための図である。
【
図7】情報処理装置を構成するコンピュータの一例を示す図である。
【
図8】実施形態の情報処理装置が実行する前処理の一例を示す図である。
【
図9】実施形態の情報処理装置が実行する学習済みモデル生成処理の一例を示す図である。
【
図10】実施形態の情報処理装置が実行する情報処理の一例を示す図である。
【発明を実施するための形態】
【0020】
以下、図面を参照して開示の技術の実施形態を詳細に説明する。
【0021】
<実施形態の情報処理装置>
図1に、実施形態に係る情報処理装置10を示す。
図1に示されるように、情報処理装置10は、機能的には、データ記憶部20と、学習用取得部22と、前処理部24と、学習用データ記憶部26と、学習済みモデル生成部28と、学習済みモデル記憶部30と、取得部32と、特定部34と、出力部36とを備えている。情報処理装置10は、後述するようなコンピュータにより実現される。
【0022】
本実施形態の情報処理装置10は、機械学習モデルを用いて舌の形状(又は輪郭)を分類する。以下、具体的に説明する。本実施形態では、個体又は種の一部位である被写体が舌である場合を例に説明する。また、本実施形態では、被験者が個体又は種に対応する場合を例に説明する。
【0023】
データ記憶部20には、被験者毎の舌が写る複数の学習用画像が記憶される。学習用画像は被験者毎に撮影された舌の画像である。
【0024】
学習用取得部22は、データ記憶部20に格納されている複数の学習用画像を読み出すことにより、複数の学習用画像を取得する。
【0025】
前処理部24は、既知の方法を用いて、学習用取得部22により取得された複数の学習用画像の各々に対して前処理を実行する。
【0026】
具体的には、まず、前処理部24は、既知の画像処理方法を用いて、学習用画像から舌の領域を抽出する。例えば、前処理部24は、入力された画像に対して、舌領域に対して1を出力し、舌領域とは異なる領域に対して0を出力するような舌領域抽出用学習済みモデルを用いて、学習用画像から舌領域を抽出する。なお、この舌領域抽出用学習済みモデルは、既知の機械学習技術によって構築可能である。
【0027】
次に、前処理部24は、既知の画像処理方法を用いて、舌領域が抽出された画像内のノイズを除去する。そして、前処理部24は、既知の画像処理方法を用いて、画像に写る舌領域の傾きを補正する。具体的には、前処理部24は、舌領域の左右の対称性が最も高くなるような角度を計算し、計算された角度に応じて舌領域を回転させる。
【0028】
図2は、前処理を説明するための図である。
図2に示されているように、まず、前処理部24は、既知の画像処理方法を用いて、学習用画像IMから舌の領域を抽出し、舌の領域が抽出された画像IM1を生成する。次に、前処理部24は、既知の画像処理方法を用いて、舌の領域が抽出された画像IM1からノイズを除去する。
図2に示されているように、舌の領域が抽出された画像IM1からノイズが除去され、画像IM2が生成される。そして、前処理部24は、ノイズが除去された画像IM2の角度を調整することにより、舌の領域が写る画像IM3を生成する。
【0029】
学習用データ記憶部26には、前処理部24によって前処理が実行された前処理済みの複数の学習用画像が格納される。
【0030】
学習済みモデル生成部28は、学習用データ記憶部26に格納された、前処理済みの複数の学習用画像に基づいて、教師なし機械学習によって学習用モデルを学習させることにより、舌が写る画像が入力されると舌が属する形状カテゴリーの確率が出力される学習済みモデルを生成る。なお、学習済みモデルは、例えば、既知のニューラルネットワークモデルである。
【0031】
図3は、本実施形態の学習済みモデルを説明するための図である。
図3に示されているように、本実施形態の学習済みモデルに対して舌が写る画像が入力されると、その画像に写る舌が属する確率yが出力される。
図3の例では、5つの形状カテゴリーが設定されており、画像に写る舌が形状カテゴリー1に属する確率y
1、舌が形状カテゴリー2に属する確率y
2、舌が形状カテゴリー3に属する確率y
3、舌が形状カテゴリー4に属する確率y
4、及び舌が形状カテゴリー5に属する確率y
5が出力される。なお、確率y
1、確率y
2、確率y
3、確率y
4、及び確率y
5の総和は1となるように、既知のsoftmax関数によって調整される。
【0032】
なお、学習済みモデル生成部28は、
図3に示されているような学習済みモデルを生成する際に、同一の被験者の学習用画像が学習用モデルへ入力された場合には、同一の形状カテゴリーの確率が最も高くなるように、学習用モデルを学習させる。また、学習済みモデル生成部28は、学習済みモデルを生成する際に、複数の異なる被験者の学習用画像の各々が学習用モデルへ入力された場合には、学習用モデルから出力される確率分布の分散が大きくなるように、学習用モデルを学習させる。
【0033】
より具体的には、学習済みモデル生成部28は、以下の式(A)に示されている、学習用モデルから出力されるi番目の形状カテゴリーの確率yiに関する第1エントロピーが小さくなるように学習用モデルを学習させ、学習済みモデルを生成する。以下の式(A)は、ある1つの画像が学習済みモデルへ入力された場合に、学習済みモデルから出力される確率分布をあまり分散させずに、単一の形状カテゴリーの確率が最大となるようにするための損失関数である。
【0034】
【0035】
また、学習済みモデル生成部28は、以下の式(B)に示されている、ある被験者である第1被験者の第1学習用画像を学習用モデルへ入力した際に出力されるi番目の形状カテゴリーの確率yiと、第1被験者の別の画像である第2学習用画像を学習用モデルへ入力した際に出力されるi番目の形状カテゴリーの確率yi’との間のクロスエントロピーである第2エントロピーが小さくなるように学習用モデルを学習させ、学習済みモデルを生成する。以下の式(B)は、同一の被験者から得られた2つの画像が学習済みモデルへ入力された場合には、同じ形状カテゴリーの確率が最大となるようにするための損失関数である。
【0036】
【0037】
また、学習済みモデル生成部28は、以下の式(C)に示されている、複数の学習用画像の各々を学習用モデルへ入力した際に出力されるi番目の形状カテゴリーの確率yiのサンプル平均<yi>に関する第3エントロピーが大きくなるように学習用モデルを学習させ、学習済みモデルを生成する。以下の式(C)は、複数の異なる被験者から得られた画像の各々が学習済みモデルへ入力された場合には、学習済みモデルから出力される確率分布の分散が大きくなるようにするための損失関数である。複数の被験者の舌の画像の各々は様々な形状であり、舌が属する形状カテゴリーも分散しているものと推測されるためである。
【0038】
【0039】
図4は、学習済みモデルから出力される確率分布を説明するための図である。
図4に示されているように、学習済みモデル生成部28は、ある1つの前処理済みの学習用画像が学習済みモデルへ入力された場合、1つの形状カテゴリーに対する確率が高く、その他の形状カテゴリーの確率は低くなるように学習用モデルを学習させる。
図4の例では、ある画像が学習済みモデルへ入力された場合には、形状カテゴリー2の確率y
2が98%となり、その他の形状カテゴリーの確率は低い状態となっている。このような状態を実現するために、学習済みモデル生成部28は、上記式(A)に示されている、学習用モデルから出力されるi番目の形状カテゴリーの確率y
iに関する第1エントロピーが小さくなるように学習用モデルを学習させ、学習済みモデルを生成する。これにより、ある1つの画像が学習済みモデルへ入力された場合、学習済みモデルから出力される確率が分散してしまうことを抑制することが可能となり、入力された画像は特定の単一形状カテゴリーへ属するという状態を実現することが可能となる。
【0040】
また、学習済みモデル生成部28は、上記式(B)に示されている第2エントロピーが小さくなるように学習用モデルを学習させ、学習済みモデルを生成する。上記式(B)に示されている第2エントロピーは、ある被験者である第1被験者の第1学習用画像を学習済みモデルへ入力した際の確率の集合{yi
’}と、第1被験者の第2学習用画像を学習済みモデルへ入力した際の確率の集合{yi}との間のクロスエントロピーである。
【0041】
図5は、クロスエントロピーを説明するための図である。本実施形態では、
図5に示されているように、前処理済みの複数の学習用画像から画像集合を選択しミニバッチBTを設定する。また、前処理済みの複数の学習用画像からミニバッチBTとは別の画像集合を選択し参照用バッチRBTとして設定する。このとき、参照用バッチRBTはミニバッチBTと別画像でかつミニバッチBTと同じ被験者の組み合わせになるよう構成する。
【0042】
この場合、ミニバッチBTに含まれている前処理済みの複数の学習用画像を学習用モデルへ入力した際の出力確率の集合{yi}が得られたとする。また、参照用バッチRBTに含まれている前処理済みの複数の学習用画像を学習用モデルへ入力した際の出力確率の集合{yi’}が得られたとする。この場合に、学習済みモデル生成部28は、ミニバッチBTに対応する出力確率の集合{yi}と参照用バッチRBTに対応する出力確率の集合{yi’}との間のクロスエントロピーである第2エントロピーが最小となるように、学習用モデルを学習させる。例えば、ある被験者Aの舌の画像が学習済みモデルへ入力された際に形状カテゴリー2の確率が最大となった場合には、別の日に撮影された被験者Aの舌の画像が学習済みモデルへ入力された際には同様に形状カテゴリー2の確率が最大となるように、学習用モデルを学習させる。この第2エントロピーが小さくなるように学習済みモデルを生成することにより、同一の被験者の画像が学習済みモデルへ入力された場合には、同一の形状カテゴリーの確率が最大化するようになる。
【0043】
また、学習済みモデル生成部28は、上記式(C)に示されている第3エントロピーが大きくなるように学習用モデルを学習させ、学習済みモデルを生成する。これにより、複数の被験者の学習用画像が属する形状カテゴリーが、なるべく多くなるようにすることが可能となる。これにより、舌の形状カテゴリーを広く分散させることが可能となる。
【0044】
上記の式(A)、式(B)、及び式(C)を統合した場合、以下の式(D1)に示されている損失関数Lを設定することが可能である。
【0045】
【0046】
ただし、上記式(D1)における、bは複数の学習用画像から選択された画像集合であるミニバッチを表し、<>bはミニバッチに含まれている学習用画像の形状カテゴリーの確率のサンプル平均を表し、nは形状カテゴリーの数を表す。例えば、形状カテゴリーの数が5である場合には、n=5となる。
【0047】
なお、上述したように、上記式(C)に示されている第3エントロピーが大きくなるように学習用モデルを学習させることにより、複数の被験者の学習用画像が属する形状カテゴリーがなるべく分散するような学習済みモデルが得られる。
【0048】
上記式(D1)を用いた学習においては、すべてのカテゴリーに均等に1/nずつの割合で配分されるよう学習が進む。しかし、各カテゴリーの頻度にばらつきがある状態が適切な場合がある。この場合上式(C)の項の値を単一カテゴリーにすべて配分された場合の値0とすべてのカテゴリーに均等に1/nずつ配分された場合の最大値-ln(1/n)の中間値-εln(1/n)に収束させることでカテゴリー間の頻度にばらつきがある分類が実現される。εはε∈[0,1]の範囲で与える。これを踏まえて式(C)の項の値が-εln(1/n)を超えた場合寄与しないように式(D1)を変更した損失関数の定義は式(D2)のように記述される。最適なεの値は別途決める必要がある。例えば上記舌の課題では学習後の検証データにおいて同一被験者の画像群が複数カテゴリーにまたがって分類される割合を最小化するεを選択するといった形が考えられる。
【0049】
【0050】
図6は、形状カテゴリーの数の制御を説明するための図である。
図6に示されている数字は、それぞれの形状カテゴリーに属する被験者の数を表すものである。例えば、パラメータε=1.0である場合の形状カテゴリー1は24となっている。これは、パラメータε=1.0であった場合には、形状カテゴリー1の確率が最大となった被験者の数が24であったことを表す。
図6に示されているように、パラメータεを大きく設定した場合には、複数の被験者が多くの形状カテゴリーへ分散するような学習済みモデルが生成される。一方で、パラメータεを小さく設定した場合には形状カテゴリーの分散は抑制される。例えば、パラメータε=0.8とした場合には、形状カテゴリー5に属する舌は0となるため、この形状カテゴリー5の存在は不要となる。このような場合には、学習済みモデルの最終層のノードの数を4つへ削減するなどの処置が取られる。形状カテゴリーの数は、このような処理を通して、ユーザによって予め設定される。
【0051】
本実施形態では、学習済みモデル生成部28は、上記式(D2)に示されている損失関数Lが最小となるように学習用モデルを学習させ、学習済みモデルを生成する。なお、本実施形態では、上記式(D2)に示されている損失関数Lが最小となるように学習用モデルを学習させる場合を例に説明するが、上記の式(D1)に示されている損失関数Lが最小となるように学習用モデルを学習させてもよい。また、上記の式(A)、(B)、及び(C)の各損失関数が最小となるように学習用モデルを学習させるようにしてもよい。
【0052】
学習済みモデル記憶部30には、学習済みモデル生成部28によって生成された学習済みモデルが格納される。
【0053】
取得部32は、対象となる舌が写る画像を取得する。なお、この画像は、上記の学習用画像とは異なる画像であり、形状カテゴリーを特定する対象の画像である。
【0054】
特定部34は、取得部32により取得された画像に対して、前処理部24と同様の前処理を実行する。そして、特定部34は、前処理済みの画像を、学習済みモデル記憶部30に格納されている学習済みモデルへ入力することにより、学習済みモデルから出力された形状カテゴリーの確率を取得する。特定部34は、形状カテゴリーの確率を用いて画像に写る舌が属する形状カテゴリーを特定する。特定部34は、例えば、形状カテゴリーの確率分布のうち、確率が最も高い形状カテゴリーを、画像に写る舌が属する形状カテゴリーであると特定する。
【0055】
出力部36は、特定部34によって特定された形状カテゴリーを結果として出力する。
【0056】
情報処理装置10を操作するユーザは、出力された結果を確認し、画像に写る舌の形状カテゴリーを確認する。
【0057】
情報処理装置10は、例えば、
図7に示すコンピュータ50で実現することができる。コンピュータ50はCPU51、一時記憶領域としてのメモリ52、及び不揮発性の記憶部53を備える。また、コンピュータ50は、外部装置及び出力装置等が接続される入出力interface(I/F)54、及び記録媒体に対するデータの読み込み及び書き込みを制御するread/write(R/W)部55を備える。また、コンピュータ50は、インターネット等のネットワークに接続されるネットワークI/F56を備える。CPU51、メモリ52、記憶部53、入出力I/F54、R/W部55、及びネットワークI/F56は、バス57を介して互いに接続される。
【0058】
記憶部53は、Hard Disk Drive(HDD)、Solid State Drive(SSD)、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部53には、コンピュータ50を機能させるためのプログラムが記憶されている。CPU51は、プログラムを記憶部53から読み出してメモリ52に展開し、プログラムが有するプロセスを順次実行する。
【0059】
[実施形態の情報処理装置の動作]
【0060】
次に、実施形態の情報処理装置10の具体的な動作について説明する。情報処理装置10は、
図8に示される前処理を実行する。
【0061】
まず、ステップS100において、学習用取得部22は、データ記憶部20に格納されている複数の学習用画像を読み出すことにより、複数の第1学習用画像を取得する。
【0062】
ステップS102において、前処理部24は、ステップS100で取得された複数の学習用画像の各々に対して、上述した前処理を実行する。
【0063】
次に、ステップS104において、前処理部24は、ステップS102で得られた前処理済みの複数の学習用画像を、学習用データ記憶部26へ格納する。
【0064】
次に、情報処理装置10は、
図9に示される学習済みモデル生成処理を実行する。
【0065】
まず、ステップS200において、学習用取得部22は、学習用データ記憶部26に格納されている複数の前処理済みの学習用画像を読み出すことにより、複数の前処理済みの学習用画像を取得する。
【0066】
ステップS202において、学習済みモデル生成部28は、ステップS200で取得された複数の前処理済みの学習用画像に基づいて、上記式(D2)の損失関数Lが最小となるように学習用モデルを学習させ、学習済みモデルを生成する。
【0067】
次に、ステップS204において、学習済みモデル生成部28は、生成した学習済みモデルを学習済みモデル記憶部30へ格納する。
【0068】
図9の学習済みモデル生成処理が実行されることにより、舌が写る画像が入力されると当該舌が属する形状カテゴリーの確率を出力する学習済みモデルを生成され、その学習済みモデルから出力された確率を用いて、舌の形状カテゴリーを特定することが可能となる。
【0069】
次に、情報処理装置10は、所定の指示信号を受け付けると、
図10に示されている情報処理を実行する。
【0070】
ステップS300において、取得部32は、対象となる舌が写る画像を取得する。
【0071】
ステップS302において、特定部34は、学習済みモデル記憶部30から学習済みモデルを読み出す。
【0072】
ステップS303において、特定部34は、ステップS300で取得された画像を、ステップS302で読み出された学習済みモデルへ入力することにより、学習済みモデルから出力された形状カテゴリーの確率を取得する。
【0073】
ステップS304において、特定部34は、ステップS303で取得された形状カテゴリーの確率を用いて、ステップS300で取得された画像に写る舌の形状カテゴリーを特定する。
【0074】
ステップS306において、出力部36は、ステップS306で特定された形状カテゴリーを結果として出力する。
【0075】
以上説明したように、実施形態の情報処理装置10は、被験者毎の舌が写る複数の学習用画像であって、かつ被験者毎に撮影された複数の学習用画像を取得する。情報処理装置10は、複数の学習用画像に基づいて、機械学習によって学習用モデルを学習させることにより、舌が写る画像が入力されると当該舌が属する形状カテゴリーの確率が出力される学習済みモデルを生成する際に、同一の被験者の学習用画像が学習用モデルへ入力された場合には、同一の形状カテゴリーの確率が最も高くなるように、学習用モデルを学習させる。また、情報処理装置10は、複数の異なる被験者の学習用画像の各々が学習用モデルへ入力された場合には、学習用モデルから出力される確率分布の分散が大きくなるように、学習用モデルを学習させることにより、学習済みモデルを生成する。これにより、舌が属する形状カテゴリーを人が判定することが難しい場合であっても、対象となる舌が写る画像から舌の形状を分類することができる。
【0076】
また、情報処理装置10は、同一の被験者の学習用画像が学習用モデルへ入力された場合には、同一の形状カテゴリーの確率が最も高くなるように、学習用モデルを学習させる。このように、被験者が同一であるという情報を利用することにより、舌が属する形状カテゴリーを事前に人が判定することが難しい場合であっても、舌の形状を分類することができる。
【0077】
また、情報処理装置10は、舌が写る画像の角度を補正することにより、より精度良く舌の形状を分類することが可能となる。また、本実施形態では、舌の幾何学的分類と異なり、撮影時の顔固定など専用器具による均質化を必要とせず、機械学習による総合的な判別で高い判別性能を実現することが可能となる。具体的には、撮影条件による画像上の形状のばらつきを抑制することが可能となる。
【0078】
また、上述したように、パラメータεを調整することにより、形状カテゴリーの数を調整することが可能となる。これにより、最適な形状カテゴリーの数を設定することが可能となる。
【0079】
また、本実施形態による舌の形状の分類結果を利用することにより、医療における病態又は健康状態診断の事前スクリーニング、味覚的な好みの等の推定に応用するための基礎分類、又は他言語の発音習得のための学習法カスタマイズのための分類といったことへ応用することが可能である。
【実施例】
【0080】
次に、上記実施形態に対応する実施例を説明する。
図11は、上記実施形態の手法を用いて舌の形状を分類した結果である。
図11では、舌の形状が5つの形状カテゴリーへ分類されている。
図11を参照すると、概ね同じような形状の舌は、同じ形状カテゴリーへ分類されていることがわかる。
【0081】
なお、本開示の技術は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【0082】
例えば、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
【0083】
なお、上記実施形態でCPUがソフトウェア(プログラム)を読み込んで実行した処理を、CPU以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、FPGA(Field-Programmable Gate Array)等の製造後に回路構成を変更可能なPLD(Programmable Logic Device)、及びASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。または、プロセッサとしては、GPGPU(General-purpose graphics processing unit)を用いてもよい。また、各処理を、これらの各種のプロセッサのうちの1つで実行してもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGA、及びCPUとFPGAとの組み合わせ等)で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。
【0084】
また、上記各実施形態では、プログラムがストレージに予め記憶(インストール)されている態様を説明したが、これに限定されない。プログラムは、CD-ROM(Compact Disk Read Only Memory)、DVD-ROM(Digital Versatile Disk Read Only Memory)、及びUSB(Universal Serial Bus)メモリ等の非一時的(non-transitory)記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。
【0085】
また、本実施形態の各処理を、汎用演算処理装置及び記憶装置等を備えたコンピュータ又はサーバ等により構成して、各処理がプログラムによって実行されるものとしてもよい。このプログラムは記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。もちろん、その他いかなる構成要素についても、単一のコンピュータやサーバによって実現しなければならないものではなく、ネットワークによって接続された複数のコンピュータに分散して実現してもよい。
【0086】
上記実施形態は、ある画像と別の画像とのペアが同一被験者から得られていることにより、同一カテゴリーに分類されるという部分情報を利用し、カテゴリーの境界が未知である課題に対して適切な分類を実現することができる。上記実施形態では、被写体が舌である場合に、同一の被験者であるという情報を部分情報として用いたが、被験者以外の情報も部分情報として活用し得る。このため、例えば、上記の「同一の被験者」を「同一の個体又は種」と読み替え、「複数の異なる被験者」を「複数の異なる個体又は種」と読み替えてもよい。また、上記実施形態では、対象となる被写体が舌である場合を例に説明したが、これに限定されるものではない。例えば、本実施形態を適用することが可能な「個体又は種」及び「被写体」に関しては、以下の変形例が挙げられる。
【0087】
[変形例1]
上記実施形態では、被写体が人の舌であり、舌の形状を分類する場合を例に説明したが、人体の他の部位を被写体とするようにしてもよい。例えば、顔の全体又は一部の形状、歯の形状、又は頭髪部分の形状(例えば、禿げ方の形状)等の分類に上記実施形態を適用するようにしてもよい。なお、この場合には、例えば、ある画像と別の画像とのペアが同一被験者から得られているという情報を部分情報として利用する。
例えば、顔の全体又は一部分の形状を分類する場合には、整形された顔の部位の形状分類に、上記実施形態を適用させるようにしてもよい。
また、顔の全体又は一部分の形状を分類する場合には、例えば、顔の形状分類の結果から人工歯(例えば、モールドガイド)を作成するようなアプリケーションにも、上記実施形態を適用させることも可能である。
また、顔の全体又は一部分の形状を分類する場合には、例えば、顔の全体又は一部の形状と似合う眼鏡のマッチング提案するようなアプリケーションにも、上記実施形態を適用させることも可能である。
【0088】
[変形例2]
または、例えば、人体の内部の部位を被写体とするようにしてもよい。例えば、被写体を臓器又は腫瘍等とし、臓器又は腫瘍等の形状を分類するようにしてもよい。なお、この場合には、例えば、ある画像と別の画像とのペアが同一被験者から得られているという情報を部分情報として利用する。または、例えば、ある画像と別の画像とのペアが同一の疾患にかかっている異なる被験者から得られているという情報を部分情報として利用することもできる。臓器又は腫瘍等の形状の分類結果は、各種の医療行為をする際の有用な情報となる。このため、本実施形態の技術は、医療行為をする際の有用な技術ともなり得る。
【0089】
[変形例3]
または、例えば、動物の体の部位を被写体とするようにしてもよい。例えば、動物の体の部位の形状には、その動物の種又は個体特有の特徴が表れている場合がある。このため、例えば、ある動物の体の部位を被写体とする場合には、その動物の種又は個体に関する情報を部分情報として利用することにより、動物の体の部位の形状を分類することが可能となる。動物の体の部位の形状の分類結果は、例えば、その動物の肉の品質評価等に利用する際の有用な情報となる。例えば、牛の舌(いわゆる牛タン)の形状の分類結果は、その牛の種の情報が反映されるものでもあり、牛タンの形状分類の結果からその牛の種を特定することも可能となる。このため、本実施形態の情報処理装置10は、例えば、品種の偽装防止の技術に適用することも可能である。
【0090】
[変形例4]
または、例えば、果物又は野菜を被写体とするようにしてもよい。例えば、果物又は野菜の形状を分類することにより、その果物又は野菜の形状に基づく品質を自動評価するようにしてもよい。このため、例えば、ある果物又は野菜を被写体とする場合には、その果物又は野菜の種又は個体に関する情報を部分情報として利用することにより、果物又は野菜の形状を分類することが可能となる。
【0091】
[変形例5]
または、例えば、人体の部位を被写体とし、その部位の経時変化を検出するようにしてもよい。この場合には、情報処理装置10は、例えば、顔、舌、歯、又は頭髪等を被写体とし、それらの部位の形状の変化を検知する。例えば、過去のある時点までは、ある被験者の体の部位の形状はカテゴリー1に分類されていたのにもかかわらず、現時点において当該被験者の体の部位の形状がカテゴリー2に分類された場合には、その部位の形状が経時変化したということになる。このため、例えば、被験者の体の部位を所定時間又は所定期間が経過する毎に撮影し、その画像に写る体の部位の形状を分類することにより、体の部位の経時変化を検知することができる。例えば、この応用先として、口腔内の状態変化を検出する歯科的用途等に利用することもできる。また、例えば、顔の全体又は一部分の劣化を検知する用途等にも利用することができる。なお、この変形例を利用する場合には、学習済みモデルを学習させる段階では経時変化が十分に小さいとみなせる短期間の画像は、同一カテゴリーに分類されるという部分情報を利用し、学習済みモデルを学習させる必要がある。
【0092】
[変形例6]
または、例えば、人の顔を被写体とし、人の顔に表れる表情を形状カテゴリーとして分類をするようにしてもよい。人の表情には感情が表れる。このため、例えば、ある被験者Aと別の被験者Bとの双方が、同一の音声、文章、又は映像等に接したという情報を部分情報として用いることにより、類似の感情に起因する表情を分類することも可能である。例えば、被験者Aに対して文章X(例えば、悪口)を聴かせた際の表情と、被験者Bに対して文章Xを聴かせた際の表情とは、同一のカテゴリーへ分類されるはずである。これにより、例えば、人の表情という境界があいまいな対象を分類することが可能となる。また、人の表情を分類することにより、感情という境界があいまいな対象も分類することが可能となる。
【0093】
その他、各種の体の部位の形状の分類結果を利用することにより、医療における病態又は健康状態診断の事前スクリーニング、味覚的な好みの等の推定に応用するための基礎分類、又は他言語の発音習得のための学習法カスタマイズのための分類といったことへ応用することが可能である。
【0094】
また、上記実施形態では、情報処理装置10が、
図9の学習済みモデル生成処理と
図10の情報処理とを実行する場合を例に説明したが、これに限定されるものではない。例えば、学習済みモデル生成装置が
図9の学習済みモデル生成処理を実行し、情報処理装置が
図10の情報処理を実行するようにしてもよい。この場合には、学習済みモデル生成装置が、学習用取得部22と、学習済みモデル生成部28とを少なくとも備える。また、この場合には、情報処理装置が、取得部32と、特定部34とを少なくとも備える。
【0095】
本明細書に記載された全ての文献、特許出願、および技術規格は、個々の文献、特許出願、および技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。
【0096】
(付記)
以下、本開示の態様について付記する。
【0097】
(付記1)
個体又は種の一部位である被写体が写る複数の学習用画像であって、かつ個体又は種毎に前記被写体が撮影された複数の学習用画像を取得する学習用取得部と、
前記複数の学習用画像に基づいて、機械学習によって学習用モデルを学習させることにより、前記被写体が写る画像が入力されると前記被写体が属する形状カテゴリーの確率が出力される学習済みモデルを生成する際に、
同一の個体又は種の前記被写体が写る学習用画像が前記学習用モデルへ入力された場合には、同一の形状カテゴリーの前記確率が最も高くなるように、前記学習用モデルを学習させ、
複数の異なる個体又は種の前記被写体が写る学習用画像の各々が前記学習用モデルへ入力された場合には、前記学習用モデルから出力される確率分布の分散が大きくなるように、前記学習用モデルを学習させることにより、前記学習済みモデルを生成する学習済みモデル生成部と、
を含む学習済みモデル生成装置。
(付記2)
前記学習済みモデル生成部は、
以下の式(A)に示されている、学習用モデルから出力されるi番目の形状カテゴリーの確率y
iに関する第1エントロピーが小さくなり、
以下の式(B)に示されている、第1の個体又は種の前記被写体が写る第1学習用画像を学習用モデルへ入力した際に出力されるi番目の形状カテゴリーの確率y
iと、第1の個体又は種の前記被写体が写る第2学習用画像を学習用モデルへ入力した際に出力されるi番目の形状カテゴリーの確率y
i’との間のクロスエントロピーである第2エントロピーが小さくなり、
以下の式(C)に示されている、複数の学習用画像の各々を学習用モデルへ入力した際に出力されるi番目の形状カテゴリーの確率y
iのサンプル平均<y
i>に関する第3エントロピーが大きくなるように、
前記学習済みモデルを生成する、
付記1に記載の学習済みモデル生成装置。
【数6】
(A)
(B)
(C)
(付記3)
前記学習済みモデル生成部は、
前記式(A)、式(B)、及び式(C)を統合した以下の式(D1)に示されている損失関数Lが小さくなるように、前記学習済みモデルを生成する、
付記2に記載の学習済みモデル生成装置。
【数7】
(D1)
ただし、bは複数の学習用画像から選択された画像集合であるミニバッチを表し、<>
bはミニバッチに含まれている学習用画像の形状カテゴリーの確率のサンプル平均を表し、nは形状カテゴリーの数を表す。
(付記4)
前記学習済みモデル生成部は、
前記式(A)、式(B)、及び式(C)を統合した以下の式(D2)に示されている損失関数Lが小さくなるように、前記学習済みモデルを生成する、
付記2に記載の学習済みモデル生成装置。
【数8】
(D2)
ただし、bは複数の学習用画像から選択された画像集合であるミニバッチを表し、<>
bはミニバッチに含まれている学習用画像の形状カテゴリーの確率のサンプル平均を表し、nは形状カテゴリーの数を表し、εは1以下のパラメータである。
(付記5)
対象となる被写体が写る画像を取得する取得部と、
前記取得部により取得された前記画像を、予め生成された学習済みモデルへ入力することにより、前記学習済みモデルから出力された形状カテゴリーの確率を取得し、該確率を用いて前記画像に写る被写体が属する形状カテゴリーを特定する特定部と、
を含み、
前記学習済みモデルは、被写体が写る画像が入力されると前記画像に写る被写体が属する形状カテゴリーの確率が出力される学習済みモデルであり、
前記学習済みモデルは、同一の個体又は種の前記被写体が写る学習用画像が学習用モデルへ入力された場合には、同一の形状カテゴリーの前記確率が最も高くなるように、前記学習用モデルを学習させ、
複数の異なる個体又は種の前記被写体が写る学習用画像の各々が前記学習用モデルへ入力された場合には、前記学習用モデルから出力される確率分布の分散が大きくなるように、前記学習用モデルを学習させることにより得られた前記学習済みモデルである、
を含む情報処理装置。
(付記6)
個体又は種の一部位である被写体が写る複数の学習用画像であって、かつ個体又は種毎に撮影された複数の学習用画像を取得し、
前記複数の学習用画像に基づいて、機械学習によって学習用モデルを学習させることにより、前記被写体が写る画像が入力されると前記被写体が属する形状カテゴリーの確率が出力される学習済みモデルを生成する際に、
同一の個体又は種の前記被写体が写る学習用画像が前記学習用モデルへ入力された場合には、同一の形状カテゴリーの前記確率が最も高くなるように、前記学習用モデルを学習させ、
複数の異なる個体又は種の前記被写体が写る学習用画像の各々が前記学習用モデルへ入力された場合には、前記学習用モデルから出力される確率分布の分散が大きくなるように、前記学習用モデルを学習させることにより、前記学習済みモデルを生成する、
処理をコンピュータが実行する学習済みモデル生成方法。
(付記7)
対象となる被写体が写る画像を取得し、
取得された前記画像を、予め生成された学習済みモデルへ入力することにより、前記学習済みモデルから出力された形状カテゴリーの確率を取得し、該確率を用いて前記画像に写る体の部位が属する形状カテゴリーを特定し、
前記学習済みモデルは、被写体が写る画像が入力されると前記画像に写る被写体が属する形状カテゴリーの確率が出力される学習済みモデルであり、
前記学習済みモデルは、同一の個体又は種の前記被写体が写る学習用画像が学習用モデルへ入力された場合には、同一の形状カテゴリーの前記確率が最も高くなるように、前記学習用モデルを学習させ、
複数の異なる個体又は種の前記被写体が写る学習用画像の各々が前記学習用モデルへ入力された場合には、前記学習用モデルから出力される確率分布の分散が大きくなるように、前記学習用モデルを学習させることにより得られた前記学習済みモデルである、
処理をコンピュータが実行する情報処理方法。
(付記8)
個体又は種の一部位である被写体が写る複数の学習用画像であって、かつ個体又は種毎に撮影された複数の学習用画像を取得し、
前記複数の学習用画像に基づいて、機械学習によって学習用モデルを学習させることにより、前記被写体が写る画像が入力されると前記被写体が属する形状カテゴリーの確率が出力される学習済みモデルを生成する際に、
同一の個体又は種の前記被写体が写る学習用画像が前記学習用モデルへ入力された場合には、同一の形状カテゴリーの前記確率が最も高くなるように、前記学習用モデルを学習させ、
複数の異なる個体又は種の前記被写体が写る学習用画像の各々が前記学習用モデルへ入力された場合には、前記学習用モデルから出力される確率分布の分散が大きくなるように、前記学習用モデルを学習させることにより、前記学習済みモデルを生成する、
処理をコンピュータに実行させるための学習済みモデル生成プログラム。
(付記9)
対象となる被写体が写る画像を取得し、
取得された前記画像を、予め生成された学習済みモデルへ入力することにより、前記学習済みモデルから出力された形状カテゴリーの確率を取得し、該確率を用いて前記画像に写る被写体が属する形状カテゴリーを特定し、
前記学習済みモデルは、被写体が写る画像が入力されると前記画像に写る被写体が属する形状カテゴリーの確率が出力される学習済みモデルであり、
前記学習済みモデルは、同一の個体又は種の前記被写体が写る学習用画像が学習用モデルへ入力された場合には、同一の形状カテゴリーの前記確率が最も高くなるように、前記学習用モデルを学習させ、
複数の異なる個体又は種の前記被写体が写る学習用画像の各々が前記学習用モデルへ入力された場合には、前記学習用モデルから出力される確率分布の分散が大きくなるように、前記学習用モデルを学習させることにより得られた前記学習済みモデルである、
処理をコンピュータに実行させるための情報処理プログラム。
【符号の説明】
【0098】
10 情報処理装置
20 データ記憶部
22 学習用取得部
24 前処理部
26 学習用データ記憶部
28 学習済みモデル生成部
30 学習済みモデル記憶部
32 取得部
34 特定部
36 出力部
【要約】
【課題】被写体が属する形状カテゴリーを人が判定することが難しい場合であっても、対象となる被写体の形状を分類する。
【解決手段】情報処理装置10は、個体又は種の一部位である被写体が写る複数の学習用画像であって、かつ個体又は種毎に撮影された複数の学習用画像を取得する。情報処理装置10は、複数の学習用画像に基づいて、被写体が写る画像が入力されると被写体が属する形状カテゴリーの確率が出力される学習済みモデルを生成する際に、同一の個体又は種の被写体が写る学習用画像が学習用モデルへ入力された場合には、同一の形状カテゴリーの確率が最も高くなるように学習用モデルを学習させる。情報処理装置10は、複数の異なる個体又は種の被写体が写る学習用画像の各々が学習用モデルへ入力された場合には、学習用モデルから出力される確率分布の分散が大きくなるように、学習用モデルを学習させることにより、学習済みモデルを生成する。
【選択図】
図1