IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特開2024-98774情報処理装置、情報処理方法及びプログラム
<>
  • 特開-情報処理装置、情報処理方法及びプログラム 図1
  • 特開-情報処理装置、情報処理方法及びプログラム 図2
  • 特開-情報処理装置、情報処理方法及びプログラム 図3
  • 特開-情報処理装置、情報処理方法及びプログラム 図4
  • 特開-情報処理装置、情報処理方法及びプログラム 図5
  • 特開-情報処理装置、情報処理方法及びプログラム 図6
  • 特開-情報処理装置、情報処理方法及びプログラム 図7
  • 特開-情報処理装置、情報処理方法及びプログラム 図8
  • 特開-情報処理装置、情報処理方法及びプログラム 図9
  • 特開-情報処理装置、情報処理方法及びプログラム 図10
  • 特開-情報処理装置、情報処理方法及びプログラム 図11
  • 特開-情報処理装置、情報処理方法及びプログラム 図12
  • 特開-情報処理装置、情報処理方法及びプログラム 図13
  • 特開-情報処理装置、情報処理方法及びプログラム 図14
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024098774
(43)【公開日】2024-07-24
(54)【発明の名称】情報処理装置、情報処理方法及びプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240717BHJP
【FI】
G06T7/00 350B
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023002468
(22)【出願日】2023-01-11
(71)【出願人】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】110000338
【氏名又は名称】弁理士法人 HARAKENZO WORLD PATENT & TRADEMARK
(72)【発明者】
【氏名】白石 壮馬
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096BA08
5L096CA02
5L096DA02
5L096HA09
5L096KA04
5L096KA15
(57)【要約】
【課題】画像から物体の領域を精度よく検出できる領域検出モデルを生成する技術を提供する。
【解決手段】情報処理装置(1)は、物体の像を含む領域に正解ラベルが付された学習用画像を取得する取得部(11)と、画像から物体の像に対応する領域を検出する領域検出モデルに、上記学習用画像を入力することにより、単位領域毎に物体らしさを示すスコアを付与するスコア付与部(12)と、上記単位領域毎のスコアに基づき、上記正解ラベルが付された領域の一部の領域に物体を示す擬似ラベルを付与する第1の擬似ラベル付与部(13)と、上記単位領域毎のスコアに基づき、上記正解ラベルが付されていない領域の一部の領域に背景を示す擬似ラベルを付与する第2の擬似ラベル付与部(14)と、上記物体を示す擬似ラベル又は上記背景を示す擬似ラベルが付された領域を参照して、上記領域検出モデルのパラメータを更新する更新部(15)と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
物体の像を含む領域に正解ラベルが付された学習用画像を取得する取得手段と、
画像から物体の像に対応する領域を検出する領域検出モデルに前記学習用画像を入力することにより、単位領域毎に物体らしさを示すスコアを付与するスコア付与手段と、
前記単位領域毎の前記スコアに基づき、前記正解ラベルが付された領域の一部の領域に、物体を示す擬似ラベルを付与する第1の擬似ラベル付与手段と、
前記単位領域毎の前記スコアに基づき、前記正解ラベルが付されていない領域の一部の領域に、背景を示す擬似ラベルを付与する第2の擬似ラベル付与手段と、
前記物体を示す擬似ラベル又は前記背景を示す擬似ラベルが付された領域を参照して、前記領域検出モデルのモデルパラメータを更新する更新手段と、
を備えることを特徴とする情報処理装置。
【請求項2】
前記第1の擬似ラベル付与手段は、前記正解ラベルが付された領域において、前記スコアが高い方から所定の比率に含まれる単位領域に、前記物体を示す擬似ラベルを付与する、
請求項1に記載の情報処理装置。
【請求項3】
前記学習用画像は、前記物体の像を含む領域を複数含み、
前記第1の擬似ラベル付与手段は、複数の前記物体の像を含む領域のそれぞれにおいて前記スコアが高い方から所定の比率に含まれる単位領域に、前記物体を示す擬似ラベルを付与する、
請求項2に記載の情報処理装置。
【請求項4】
前記第2の擬似ラベル付与手段は、前記正解ラベルが付されていない領域において、前記スコアが低い方から所定の比率に含まれる単位領域に、前記背景を示す擬似ラベルを付与する、
請求項1又は2に記載の情報処理装置。
【請求項5】
前記正解ラベルはクラスラベルであり、
前記スコア付与手段は、前記学習用画像に含まれる単位領域のそれぞれにクラス毎のスコアを付与し、
前記第1の擬似ラベル付与手段は、前記単位領域毎の前記スコアに基づき、前記正解ラベルが付された領域の一部の領域に、前記クラスを示す擬似ラベルを付与する、
請求項1又は2に記載の情報処理装置。
【請求項6】
前記第1の擬似ラベル付与手段は、
前記単位領域毎の前記スコアに基づき、前記正解ラベルが付された領域の一部の領域に、前記物体を示す擬似ラベルを付与するとともに、
前記単位領域毎の前記スコアに基づき、前記正解ラベルが付されていない領域の一部の領域に、前記物体を示す擬似ラベルを付与する、
請求項1又は2に記載の情報処理装置。
【請求項7】
画像から物体の像に対応する領域を検出する第2の領域検出モデルに、前記学習用画像の少なくとも一部を入力することにより、前記正解ラベルが付された領域に含まれる単位領域のそれぞれに物体か背景かを示す識別ラベルを付与する識別ラベル付与手段と、
前記物体を示す識別ラベルが付された単位領域のスコア分布と、前記背景を示す識別ラベルが付された単位領域のスコア分布とに基づき閾値を決定する閾値決定手段と、
を更に備え、
前記第1の擬似ラベル付与手段は、前記学習用画像において前記スコアが前記閾値以上である単位領域に、物体を示す擬似ラベルを付与し、
前記第2の擬似ラベル付与手段は、前記学習用画像において前記スコアが前記閾値又は当該閾値よりも小さい第2の閾値よりも小さい単位領域に、背景を示す擬似ラベルを付与する、
請求項6に記載の情報処理装置。
【請求項8】
前記閾値決定手段は、前記物体を示す識別ラベルが付された単位領域のスコア分布の重心と、前記背景を示す識別ラベルが付された単位領域のスコア分布の重心と、の平均値に所定値を加算した値を前記閾値とし、当該平均値から前記所定値を減算した値を前記第2の閾値とし、
前記第2の擬似ラベル付与手段は、前記学習用画像において前記スコアが前記第2の閾値よりも小さい単位領域に、背景を示す擬似ラベルを付与する、
請求項7に記載の情報処理装置。
【請求項9】
少なくとも1つのプロセッサが、
物体の像を含む領域に正解ラベルが付された学習用画像を取得することと、
画像から物体の像に対応する領域を検出する領域検出モデルに、前記学習用画像を入力することにより、単位領域毎に物体らしさを示すスコアを付与することと、
前記単位領域毎の前記スコアに基づき、前記正解ラベルが付された領域の一部の領域に、物体を示す擬似ラベルを付与することと、
前記単位領域毎の前記スコアに基づき、前記正解ラベルが付されていない領域の一部の領域に、背景を示す擬似ラベルを付与することと、
前記物体を示す擬似ラベル又は前記背景を示す擬似ラベルが付された領域を参照して、前記領域検出モデルのモデルパラメータを更新することと、
を含むことを特徴とする情報処理方法。
【請求項10】
コンピュータに、
物体の像を含む領域に正解ラベルが付された学習用画像を取得する処理と、
画像から物体の像に対応する領域を検出する領域検出モデルに、前記学習用画像を入力することにより、単位領域毎に物体らしさを示すスコアを付与する処理と、
前記単位領域毎の前記スコアに基づき、前記正解ラベルが付された領域の一部の領域に物体を示す擬似ラベルを付与する処理と、
前記単位領域毎の前記スコアに基づき、前記正解ラベルが付されていない領域の一部の領域に背景を示す擬似ラベルを付与する処理と、
前記物体を示す擬似ラベル又は前記背景を示す擬似ラベルが付された領域を参照して、前記領域検出モデルのモデルパラメータを更新する処理と、
を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像から物体を検出する技術に関する。
【背景技術】
【0002】
画像から物体の領域を検出する技術が提案されている。例えば非特許文献1には、物品の像を含む矩形領域に正解ラベルが付された画像を用いた弱教師あり学習により検出モデルを生成することが記載されている。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Zongxin Yang, et. al., DSC-PoseNet: Learning 6DoF Object Pose Estimation via Dual-scale Consistency, Apr 2021
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、検出モデルの学習に用いられる画像は、正解ラベルが付された領域だけでなく正解ラベルが付されていない領域にも物体の像を含む場合があり、また、正解ラベルが付された領域に背景を含む場合もある。そのような画像を用いて検出モデルを学習させる場合、非特許文献1に記載の技術では、正解ラベルが付されていない領域に含まれる物体の像を背景画像として誤学習してしまったり、正解ラベルが付された領域に含まれる背景画像を物体として誤学習してしまったりすることにより、検出モデルの検出精度が低くなってしまうという問題がある。
【0005】
本発明の一態様は、上記の問題に鑑みてなされたものであり、その目的の一例は、画像から物体の領域を精度よく検出できる領域検出モデルを生成することのできる技術を提供することである。
【課題を解決するための手段】
【0006】
本発明の一態様に係る情報処理装置は、物体の像を含む領域に正解ラベルが付された学習用画像を取得する取得手段と、画像から物体の像に対応する領域を検出する領域検出モデルに、前記学習用画像を入力することにより、単位領域毎に物体らしさを示すスコアを付与するスコア付与手段と、前記単位領域毎の前記スコアに基づき、前記正解ラベルが付された領域の一部の領域に物体を示す擬似ラベルを付与する第1の擬似ラベル付与手段と、前記単位領域毎の前記スコアに基づき、前記正解ラベルが付されていない領域の一部の領域に背景を示す擬似ラベルを付与する第2の擬似ラベル付与手段と、前記物体を示す擬似ラベル又は前記背景を示す擬似ラベルが付された領域を参照して、前記領域検出モデルのモデルパラメータを更新する更新手段と、を備える。
【0007】
本発明の一態様に係る情報処理方法は、少なくとも1つのプロセッサが、物体の像を含む領域に正解ラベルが付された学習用画像を取得することと、画像から物体の像に対応する領域を検出する領域検出モデルに、前記学習用画像を入力することにより、単位領域毎に物体らしさを示すスコアを付与することと、前記単位領域毎の前記スコアに基づき、前記正解ラベルが付された領域の一部の領域に物体を示す擬似ラベルを付与することと、前記単位領域毎の前記スコアに基づき、前記正解ラベルが付されていない領域の一部の領域に背景を示す擬似ラベルを付与することと、前記物体を示す擬似ラベル又は前記背景を示す擬似ラベルが付された領域を参照して、前記領域検出モデルのモデルパラメータを更新することと、を含む。
【0008】
本発明の一態様に係るプログラムは、コンピュータに、物体の像を含む領域に正解ラベルが付された学習用画像を取得する処理と、画像から物体の像に対応する領域を検出する領域検出モデルに、前記学習用画像を入力することにより、単位領域毎に物体らしさを示すスコアを付与する処理と、前記単位領域毎の前記スコアに基づき、前記正解ラベルが付された領域の一部の領域に物体を示す擬似ラベルを付与する処理と、前記単位領域毎の前記スコアに基づき、前記正解ラベルが付されていない領域の一部の領域に背景を示す擬似ラベルを付与する処理と、前記物体を示す擬似ラベル又は前記背景を示す擬似ラベルが付された領域を参照して、前記領域検出モデルのモデルパラメータを更新する処理と、を実行させる。
【発明の効果】
【0009】
本発明の一態様によれば、画像から物体の領域を精度よく検出できる領域検出モデルを生成することができる。
【図面の簡単な説明】
【0010】
図1】例示的実施形態1に係る情報処理装置の構成を示すブロック図である。
図2】例示的実施形態1に係る情報処理方法の流れを示すフロー図である。
図3】例示的実施形態2に係る検出モデルのユースケースの一例を示す図である。
図4】例示的実施形態2に係る情報処理装置の構成を示すブロック図である。
図5】例示的実施形態2に係る学習フェーズ実行方法の流れの一例を示すフロー図である。
図6】学習用画像において擬似ラベルが付される領域の一例を示す図である。
図7】検出モデルの学習において擬似ラベルが付される領域の変化の一例を示す図である。
図8】例示的実施形態2に係る検出モデルLM1の検出結果の一例を示す図である。
図9】例示的実施形態3に係る情報処理装置の構成を示すブロック図である。
図10】例示的実施形態3に係る学習フェーズ実行方法の流れの一例を示すフロー図である。
図11】例示的実施形態3に係る閾値の決定方法の具体例を示す図である。
図12】例示的実施形態3において擬似ラベルが付与される領域の具体例を示す図である。
図13】例示的実施形態4に係る情報処理装置の構成を示すブロック図である。
図14】各例示的実施形態に係る情報処理装置として機能するコンピュータの構成を示すブロック図である。
【発明を実施するための形態】
【0011】
〔例示的実施形態1〕
本発明の第1の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。
【0012】
(情報処理装置の構成)
本例示的実施形態に係る情報処理装置1の構成について、図1を参照して説明する。図1は、情報処理装置1の構成を示すブロック図である。情報処理装置1は、取得部11(取得手段)、スコア付与部12(スコア付与手段)、第1の擬似ラベル付与部(第1の擬似ラベル付与手段)、第2の擬似ラベル付与部(第2の擬似ラベル付与手段)、及び更新部15(更新手段)を備える。
【0013】
取得部11は、物体の像を含む領域に正解ラベルが付された学習用画像を取得する。スコア付与部12は、画像から物体の像に対応する領域を検出する領域検出モデルに上記学習用画像を入力することにより、単位領域毎に物体らしさを示すスコアを付与する。第1の擬似ラベル付与部13は、上記単位領域毎のスコアに基づき、上記正解ラベルが付された領域の一部の領域に物体を示す擬似ラベルを付与する。第2の擬似ラベル付与部14は、上記単位領域毎のスコアに基づき、上記正解ラベルが付されていない領域の一部の領域に背景を示す擬似ラベルを付与する。更新部15は、上記物体を示す擬似ラベル又は上記背景を示す擬似ラベルが付された領域を参照して、上記検出モデルのモデルパラメータを更新する。
【0014】
以上のように、本例示的実施形態に係る情報処理装置1は、物体の像を含む領域に正解ラベルが付された学習用画像を取得する取得部11と、画像から物体の像に対応する領域を検出する領域検出モデルに上記学習用画像を入力することにより、単位領域毎に物体らしさを示すスコアを付与するスコア付与部12と、上記単位領域毎のスコアに基づき、上記正解ラベルが付された領域の一部の領域に物体を示す擬似ラベルを付与する第1の擬似ラベル付与部13と、上記単位領域毎のスコアに基づき、上記正解ラベルが付されていない領域の一部の領域に背景を示す擬似ラベルを付与する第2の擬似ラベル付与部14と、上記物体を示す擬似ラベル又は上記背景を示す擬似ラベルが付された領域を参照して、上記領域検出モデルのモデルパラメータを更新する更新部15と、を備える構成が採用されている。このため、本例示的実施形態に係る情報処理装置1によれば、画像から物体の領域を精度よく検出できる領域検出モデルを生成することができるという効果が得られる。
【0015】
(プログラム)
上述の情報処理装置1の機能は、プログラムによって実現することもできる。本例示的実施形態に係るプログラムは、コンピュータに、物体の像を含む領域に正解ラベルが付された学習用画像を取得する処理と、画像から物体の像に対応する領域を検出する領域検出モデルに、上記学習用画像を入力することにより、単位領域毎に物体らしさを示すスコアを付与する処理と、上記単位領域毎のスコアに基づき、上記正解ラベルが付された領域の一部の領域に物体を示す擬似ラベルを付与する処理と、上記単位領域毎のスコアに基づき、上記正解ラベルが付されていない領域の一部の領域に背景を示す擬似ラベルを付与する処理と、上記物体を示す擬似ラベル又は上記背景を示す擬似ラベルが付された領域を参照して、上記領域検出モデルのモデルパラメータを更新する処理と、を実行させるためのプログラムである。
【0016】
(情報処理方法の流れ)
本例示的実施形態に係る情報処理方法S1の流れについて、図2を参照して説明する。図2は、情報処理方法S1の流れを示すフロー図である。なお、情報処理方法S1における各ステップの実行主体は、情報処理装置1が備えるプロセッサであってもよいし、他の装置が備えるプロセッサであってもよい。
【0017】
S11では、少なくとも1つのプロセッサが、物体の像を含む領域に正解ラベルが付された学習用画像を取得する。S12では、少なくとも1つのプロセッサが、画像から物体の像に対応する領域を検出する領域検出モデルに、上記学習用画像を入力することにより、単位領域毎に物体らしさを示すスコアを付与する。S13では、少なくとも1つのプロセッサが、上記単位領域毎のスコアに基づき、上記正解ラベルが付された領域の一部の領域に物体を示す擬似ラベルを付与する。S14では、少なくとも1つのプロセッサが、上記単位領域毎のスコアに基づき、上記正解ラベルが付されていない領域の一部の領域に背景を示す擬似ラベルを付与する。S15では、少なくとも1つのプロセッサが、上記物体を示す擬似ラベル又は上記背景を示す擬似ラベルが付された領域を参照して、上記領域検出モデルのモデルパラメータを更新する。
【0018】
以上のように、本例示的実施形態に係る情報処理方法S1は、少なくとも1つのプロセッサが、物体の像を含む領域に正解ラベルが付された学習用画像を取得することと、画像から物体の像に対応する領域を検出する領域検出モデルに、上記学習用画像を入力することにより、単位領域毎に物体らしさを示すスコアを付与することと、上記単位領域毎のスコアに基づき、上記正解ラベルが付された領域の一部の領域に物体を示す擬似ラベルを付与することと、上記単位領域毎のスコアに基づき、上記正解ラベルが付されていない領域の一部の領域に背景を示す擬似ラベルを付与することと、上記物体を示す擬似ラベル又は上記背景を示す擬似ラベルが付された領域を参照して、上記領域検出モデルのモデルパラメータを更新することと、を含む構成が採用されている。このため、本例示的実施形態に係る情報処理方法S1によれば、画像から物体の領域を精度よく検出できる領域検出モデルを生成することができるという効果が得られる。
【0019】
(領域検出モデルの構成)
本例示的実施形態に係る領域検出モデルは、画像から物体の像に対応する領域を検出する領域検出モデルであって、(i)物体の像を含む領域に正解ラベルが付された学習用画像において、当該正解ラベルが付された領域の一部の領域であって物体らしさを示すスコアが第1の条件を満たす領域に付された、物体を示す擬似ラベルと、(ii)当該学習用画像において、当該正解ラベルが付されていない領域の一部の領域であって上記スコアが第2の条件を満たす領域に付された、背景を示す擬似ラベルと、を用いた機械学習により生成された、ことを特徴とする領域検出モデルである、ということもできる。本例示的実施形態に係る領域検出モデルによれば、画像から物体の領域を精度よく検出することができる。
【0020】
〔例示的実施形態2〕
(情報処理装置の概要)
本発明の例示的実施形態2に係る情報処理装置1A(図4参照)は、画像から物体を検出する検出モデルLM1(図4参照)を機械学習により生成する装置である。検出モデルLM1は一例として、小売店舗において商品棚での欠品を検出するサービスに用いられる。図3は、検出モデルLM1のユースケースの一例を示す図である。図3の例で、撮影装置5は小売店舗の売り場において商品が陳列された商品棚6を撮影する。撮影装置5が撮影した画像には、1又は複数の商品が被写体として含まれる。情報処理装置1Aは撮影装置5が撮影した画像を検出モデルLM1に入力することにより、画像から被写体として含まれる商品を検出し、検出結果に基づき欠品率等の商品に関する情報を算出する。商品に関する情報は、例えば小売店舗の従業員等の端末7において表示出力される。従業員等は端末7を用いて商品の欠品率等を把握することができる。ただし、本例示的実施形態に係る検出モデルLM1の用途は図3に示す例に限定されない。検出モデルLM1は例えば、人物の行動解析、自動運転等の用途で用いられてもよい。
【0021】
(情報処理装置の構成)
図4は、例示的実施形態2に係る情報処理装置1Aの構成を示すブロック図である。情報処理装置1Aは、制御部10A、記憶部20A、通信部30A及び入出力部40Aを備える。
【0022】
通信部30Aは、情報処理装置1Aの外部の装置と通信回線を介して通信する。通信回線の具体的構成は本例示的実施形態を限定するものではないが、通信回線は一例として、無線LAN(Local Area Network)、有線LAN、WAN(Wide Area Network)、公衆回線網、モバイルデータ通信網、又は、これらの組み合わせである。通信部30Aは、制御部10Aから供給されたデータを他の装置に送信したり、他の装置から受信したデータを制御部10Aに供給したりする。
【0023】
入出力部40Aには、キーボード、マウス、ディスプレイ、プリンタ、タッチパネル等の入出力機器が接続される。入出力部40Aは、接続された入力機器から情報処理装置1Aに対する各種の情報の入力を受け付ける。また、入出力部40Aは、制御部10Aの制御の下、接続された出力機器に各種の情報を出力する。入出力部40Aとしては、例えばUSB(Universal Serial Bus)などのインタフェースが挙げられる。
【0024】
制御部10Aは、情報処理装置1Aの各部を統括して制御する。制御部10Aは、画像取得部11A、領域判定部12A、擬似ラベル生成部13A、モデル学習部14A及び終了判定部15Aを備える。画像取得部11Aは、本明細書に係る取得手段の一例である。領域判定部12Aは、本明細書に係るスコア付与手段の一例である。擬似ラベル生成部13Aは、本明細書に係る第1の擬似ラベル付与手段及び第2の擬似ラベル付与手段の一例である。モデル学習部14Aは、本明細書に係る更新手段の一例である。また、検出モデルLM1は、本明細書に係る領域検出モデルの一例である。
【0025】
画像取得部11Aは、物体の像を含む領域に正解ラベルが付された学習用画像群を取得する。ここで、学習用画像群は、検出モデルLM1の学習に用いる学習用画像の集合である。学習用画像は、物体の像を含む領域を1又は複数含み、物体は、例えば小売店舗の商品棚に陳列される商品である。学習用画像は一例として、商品が陳列された商品棚を撮影した撮影画像であってもよいし、また、空の商品棚を撮影した背景画像に商品の画像を合成して得られる合成画像であってもよい。ただし、学習用画像は上述した例に限定されない。
【0026】
学習用画像において、正解ラベルが付された領域(物体の像を含む領域)は、例えば矩形領域である。矩形領域は、ひとつの物体を囲う矩形であってもよいし、複数の物体をまとめて囲う矩形であってもよい。ただし、物体の像を含む領域は矩形領域に限定されず、他の形状の領域であってもよい。また、学習用画像において、正解ラベルが付された領域は、学習用画像の一部の領域であってもよいし、また、学習用画像全体であってもよい。
【0027】
画像取得部11Aは、情報処理装置1Aの入出力部40Aを介して入力される学習用画像群を取得してもよいし、情報処理装置1Aのユーザが指定した格納先(情報処理装置1Aの記憶部20A内であってもよいし、情報処理装置1A外の記憶装置内であってもよい)から上記学習用画像群を取得してもよい。また、画像取得部11Aは、情報処理装置1Aの通信部30Aを介して他の装置から上記学習用画像群を受信してもよい。
【0028】
領域判定部12Aは、検出モデルLM1に上記学習用画像を入力することにより、単位領域毎に物体らしさを示すスコアを付与する。ここで、物体の像に対応する領域とは、画像に含まれる物体の像の形状の領域である。また、スコアは、値が大きいほど物体である可能性が高く、値が小さいほど背景である可能性が高いことを示す。単位領域は例えばピクセルである。
【0029】
検出モデルLM1は、画像から物体の像に対応する領域を検出するモデルであり、機械学習により生成される。検出モデルLM1の機械学習の手法は限定されず、例えば、セマンティックセグメンテーションやインスタンスセグメンテーション(U-Net、FCN(Fully Convolutional Networks)、DeepLab v3+、等)の手法が用いられてもよいが、これらに限られない。推定フェーズにおける検出モデルLM1の入力は画像を表す画像データを含み、出力は物体の領域を表す情報を含む。以下では、説明の便宜上、画像を表すデータを単に「画像」ともいう。また、検出モデルLM1は入力された画像の単位領域毎に物体らしさを示すスコアを付与する。
【0030】
擬似ラベル生成部13Aは、単位領域毎の上記スコアに基づき、上記正解ラベルが付された領域の一部の領域に、物体を示す擬似ラベルを付与するとともに、上記正解ラベルが付されていない領域の一部の領域に、背景を示す擬似ラベルを付与する。換言すると、擬似ラベル生成部13Aは、正解ラベルが付された領域の一部の領域であって上記スコアが第1の条件を満たす領域に、物体を示す擬似ラベルを付与するとともに、正解ラベルが付されていない領域の一部の領域であって上記スコアが第2の条件を満たす領域に、背景を示す擬似ラベルを付与する。
【0031】
ここで、第1の条件は、スコアが他の領域よりも高い旨を示す条件であり、一例として、正解ラベルが付された領域において、スコアが高い方から所定の比率(例えば、上位90%)に含まれる、といった条件である。換言すると、擬似ラベル生成部13Aは一例として、正解ラベルが付された領域において、上記スコアが高い方から所定の比率に含まれる単位領域に、上記物体を示す擬似ラベルを付与する。
【0032】
また、第2の条件は、スコアが他の領域よりも低い旨を示す条件であり、一例として、正解ラベルが付されていない領域において、スコアが低い方から所定の比率(例えば、下位90%)に含まれる、といった条件である。換言すると、擬似ラベル生成部13Aは一例として、正解ラベルが付されていない領域において、上記スコアが低い方から所定の比率に含まれる単位領域に、上記背景を示す擬似ラベルを付与する。ただし、第1の条件及び第2の条件は上述した例に限定されない。
【0033】
モデル学習部14Aは、物体を示す擬似ラベル又は背景を示す擬似ラベルが付された領域を参照して、検出モデルLM1のモデルパラメータを更新する。すなわち、モデル学習部14Aは、学習用画像の全体を検出モデルLM1の学習に用いるのではなく、学習用画像の一部(学習用画像において擬似ラベルが付された領域)を検出モデルLM1の学習に用いる。
【0034】
(記憶部)
記憶部20Aは、情報処理装置1Aが使用する各種データを記憶する。記憶部20Aは特に、画像取得部11Aが取得する学習用画像群21A及び検出モデルLM1を記憶する。ここで、記憶部20Aが検出モデルLM1を記憶するとは、検出モデルLM1を定めるモデルパラメータを記憶部20Aが記憶することをいう。
【0035】
(学習フェーズ実行方法の流れ)
図5は、情報処理装置1Aが実行する学習フェーズ実行方法の流れの一例を示すフロー図である。図5の例において、物体の像を含む領域(正解ラベルが付された領域)は矩形領域であり、また、スコアが付与される単位領域はピクセルである。なお、図5のフロー図に含まれるステップの一部は、並行して又は順序を替えて実行されてもよい。また、図5の例で、学習の対象である検出モデルLM1は、例えば、未学習のモデルであってもよいし、また、学習用画像及び当該学習用画像に付された正解ラベルを用いた機械学習により生成された学習済のモデルであってもよい。
【0036】
ステップS101において、画像取得部11Aは、パラメータrfg、rbgを決定する。パラメータrfgは、物体を示す擬似ラベルを付与するピクセルを決定するために参照される。パラメータrbgは、背景を示す擬似ラベルを付与するピクセルを決定するために参照される。
【0037】
ステップS102において、画像取得部11Aは、学習用画像群を取得する。ステップS103において、領域判定部12Aは、検出モデルLM1に学習用画像を入力することにより、各ピクセルにスコアを付与する。ステップS104において、擬似ラベル生成部13Aは、各ピクセルに過去に擬似ラベルを付与した場合、過去に付与した擬似ラベルをリセットする。
【0038】
ステップS105は、矩形領域1~Nに関するループ処理の始端であり、N(NはN≧1を満たす整数)は学習用画像に含まれる矩形領域の数である。ステップS106において、擬似ラベル生成部13Aは、矩形領域内でスコアが上位rfg%のピクセルに擬似ラベルを付与する。換言すると、擬似ラベル生成部13Aは、矩形領域のそれぞれにおいて上記スコアが高い方から所定の比率(上位90%、等)に含まれる単位領域に、上記物体を示す擬似ラベルを付与する。ステップS107は、矩形領域1~Nに関するループ処理の終端である。
【0039】
ステップS108において、擬似ラベル生成部13Aは、矩形領域外でスコアが下位rbg%のピクセルに擬似ラベルを付与する。ステップS109において、モデル学習部14Aは、擬似ラベルを用いて検出モデルLM1を更新する。すなわち、モデル学習部14Aは、擬似ラベルが付された領域を参照して検出モデルLM1のモデルパラメータを更新する。
【0040】
ステップS110において、終了判定部15Aは、モデルパラメータの更新処理を終了するかを判定する。この判定は、例えば、更新がある程度落ち着いたか(モデルパラメータの更新による変化量が所定の条件を満たすか、等)を判別することによって行われてもよいし、また、例えば、モデルパラメータの更新回数が閾値以上になったかを判別することによって行われてもよい。更新処理を終了しない場合(ステップS110;NO)、終了判定部15AはステップS102の処理に戻り、更新処理を継続する。一方、更新処理を終了する場合(ステップS110;YES)、終了判定部15Aは更新処理を終了する。
【0041】
(擬似ラベルの付与処理の具体例)
図6は、学習用画像において擬似ラベルが付される領域の一例を示す図である。図6において、学習用画像200は、正解ラベルが付された複数の矩形領域201a、201b、…と、正解ラベルが付されていない領域202と、を含む。以下では、複数の矩形領域201a、201b、…を各々区別する必要がない場合には、これらを「矩形領域201」と称する。擬似ラベル生成部13Aは、複数の矩形領域201のそれぞれにおいて、スコア上位rfg%(例えば、上位90%)のピクセルに物体を示す擬似ラベルを付与する。また、擬似ラベル生成部13Aは、正解ラベルが付されていない領域202において、スコアが下位rbg%(例えば、下位90%)のピクセルに、背景を示す擬似ラベルを付与する。
【0042】
図6に示すように、矩形領域201において擬似ラベルが付される領域203は、矩形領域201の部分領域であり、領域202において擬似ラベルが付される領域204は、領域202の部分領域である。特に、正解ラベルが付された矩形領域201とそれ以外の領域202の境界付近には擬似ラベルが付与されない。
【0043】
図7は、検出モデルLM1の学習において擬似ラベルが付与される領域の変化の一例を示す図である。図7において、学習用画像300は、複数の物品を被写体として含む画像である。領域301、302、303は擬似ラベル生成部13Aが擬似ラベルを付与した領域であり、領域302、312、322は擬似ラベル生成部13Aが擬似ラベルを付与していない領域である。図7に示されるように、本例示的実施形態では、矩形領域とそれ以外の領域との境目の部分(領域302、312、322、等)を用いることなく、検出モデルLM1の学習が行われる。
【0044】
図8は、本例示的実施形態に係る情報処理装置1Aにより生成された検出モデルLM1の検出結果の一例を示す図である。図8において、画像400、450、500、及び550は、商品が陳列された商品棚を撮影した画像からの物体の検出結果を示す画像である。これらのうち、画像400及び500は、従来の検出モデル(例えば、学習用画像に付された正解ラベルを用いた学習により生成されたモデル)による物体の検出結果を示す画像である。一方、画像450及び画像450は、情報処理装置1Aによりモデルパラメータが更新された検出モデルLM1による物体の検出結果を示す図である。画像400及び画像500では、商品棚の奥側にある商品は物品として検出されていないが、画像450及び画像550では、商品棚の奥側にある商品も物品として検出されていることがわかる。このように、本例示的実施形態に係る検出モデルLM1によれば、従来の検出モデルでは検出できない物体を検出することができる。すなわち、情報処理装置1Aが検出モデルLM1のモデルパラメータを更新することにより、検出モデルLM1の物体の検出精度を高くすることができる。特に、本例示的実施形態によれば、奥行方向についての検出精度を高まることができる。
【0045】
(情報処理装置の効果)
以上のように、本例示的実施形態に係る情報処理装置1Aは、擬似ラベル生成部13Aが、正解ラベルが付された領域において、上記スコアが高い方から所定の比率に含まれる単位領域に、上記物体を示す擬似ラベルを付与する構成が採用されている。すなわち、擬似ラベル生成部13Aは、正解ラベルが付された領域のうちスコアが低い領域には擬似ラベルを付与せず、また、モデル学習部14Aは擬似ラベルが付与されていない領域をモデルパラメータの更新に用いない。このように、情報処理装置1Aは、物体であるか背景であるかが曖昧な領域はモデルパラメータの更新処理に用いなことにより、正解ラベルが付された領域(矩形領域等)に背景が含まれる場合であっても、背景が物体として誤学習されてしまうことを抑制することができ、その結果、検出モデルLM1の検出精度をより高くすることができるという効果が得られる。
【0046】
また、本例示的実施形態に係る情報処理装置1Aにおいて、上記学習用画像は、上記物体の像を含む領域を複数含み、擬似ラベル生成部13Aは、複数の上記物体の像を含む領域のそれぞれにおいて上記スコアが高い方から所定の比率に含まれる単位領域に、上記物体を示す擬似ラベルを付与するという構成が採用されている。このため、本例示的実施形態に係る情報処理装置1Aによれば、物体の像を含む領域(矩形領域等)のそれぞれにおいて、物体であるか背景であるかが曖昧な領域を学習に用いないことにより、正解ラベルが付された領域(矩形領域等)に背景が含まれる場合であっても、検出モデルLM1の検出精度をより高くすることができるという効果が得られる。
【0047】
また、本例示的実施形態に係る情報処理装置1Aにおいて、擬似ラベル生成部13Aは、上記正解ラベルが付されていない領域において、上記スコアが低い方から所定の比率に含まれる単位領域に、上記背景を示す擬似ラベルを付与するという構成が採用されている。すなわち、擬似ラベル生成部13Aは、正解ラベルが付されていない領域のうちスコアが高い領域には背景を示す擬似ラベルを付与せず、また、モデル学習部14Aは擬似ラベルが付与されていない領域をモデルパラメータの更新に用いない。このように、情報処理装置1Aは、物体であるか背景であるかが曖昧な領域はモデルパラメータの更新において参照しないことにより、正解ラベルが付されていない領域に物体が含まれる場合であっても、物体の領域が背景として誤学習されてしまうことを抑制することができ、その結果、検出モデルLM1の検出精度をより高くすることができるという効果が得られる。
【0048】
(変形例1)
上述の例示的実施形態2に係る情報処理装置1Aは、物体の像を含む領域に正解ラベルが付された学習用画像を用いて検出モデルLM1の学習フェーズを実行した。学習用画像に付される正解ラベルは、物体であるか否かを示すラベルに限られず、他のラベルであってもよい。正解ラベルは例えば物品の種類等を示すクラスラベルであってもよい。この場合、領域判定部12Aは、上記学習用画像に含まれる単位領域のそれぞれにクラス毎のスコアを付与する。また、擬似ラベル生成部13Aは、単位領域毎のスコアに基づき、上記正解ラベルが付された領域の一部の領域に、上記クラスを示す擬似ラベルを付与する。すなわち、擬似ラベル生成部13Aは、クラスラベルが付された領域において、そのクラスについてのスコアが高い領域に当該クラスの擬似ラベルを付与し、そのクラスについてのスコアが低い領域には擬似ラベルを付与しない。
【0049】
この場合、正解ラベルが付された領域において、その正解ラベルに対応するクラスであるかが曖昧な領域は学習に利用されない。そのため、この態様によれば、正解ラベルが付された領域にそのクラスの物体以外の領域が含まれる場合であっても、その領域がそのクラスの領域として誤学習されてしまうことを抑制することができ、その結果、検出モデルLM1の検出精度をより高くすることができるという効果が得られる。
【0050】
(変形例2)
上述の例示的実施形態2においては、擬似ラベル生成部13Aは、図5のステップS105~S107に示すように、矩形領域毎にスコアが上位rfg%のピクセルに物品を示す擬似ラベルを付与した。擬似ラベル生成部13Aが物品を示す擬似ラベルを付与する処理は上述した例に限定されず、擬似ラベル生成部13Aは他の手法により物品を示す擬似ラベルを付与してもよい。例えば、擬似ラベル生成部13Aは、複数の矩形領域をそれぞれ区別することなく、正解ラベルが付された全てのピクセルをスコアでソートした場合の上位rfg%のピクセルに、物品を示す擬似ラベルを付与してもよい。
【0051】
〔例示的実施形態3〕
本発明の例示的実施形態3について、図面を参照して詳細に説明する。なお、例示的実施形態1~2にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。
【0052】
(情報処理装置の構成)
図9は、例示的実施形態3に係る情報処理装置1Bの構成を示すブロック図である。情報処理装置1Bは、制御部10B、記憶部20B、通信部30A及び入出力部40Aを備える。
【0053】
制御部10Bは、情報処理装置1Bの各部を統括して制御する。制御部10Bは、画像取得部11A、第1領域判定部121B、第2領域判定部122B、擬似ラベル生成部13B、モデル学習部14A、及び終了判定部15Aを備える。第1領域判定部121Bは、本明細書に係るスコア付与手段の一例である。第2領域判定部122Bは、本明細書に係る識別ラベル付与手段の一例である。また、擬似ラベル生成部13Bは、本明細書に係る第1の擬似ラベル付与手段、第2の擬似ラベル付与手段、及び閾値決定手段の一例である。
【0054】
第1領域判定部121Bが行う処理は上述の例示的実施形態2に係る領域判定部12Aと同様である。すなわち、第1領域判定部121Bは、検出モデルLM1に上記学習用画像を入力することにより、単位領域毎に物体らしさを示すスコアを付与する。スコアは、値が大きいほど物体である可能性が高く、値が小さいほど背景である可能性が高いことを示す。また、単位領域は例えばピクセルである。
【0055】
第2領域判定部122Bは、画像から物体の像に対応する領域を検出する第2検出モデルLM2に、上記学習用画像の少なくとも一部を入力することにより、上記正解ラベルが付された領域に含まれる単位領域のそれぞれに物体か背景かを示す識別ラベルを付与する。
【0056】
ここで、第2検出モデルLM2は、画像から物体の領域を検出するモデルであり、機械学習により生成された学習済モデルである。第2検出モデルLM2は、一例として、正解ラベルが付された領域(矩形領域等)内から物体の領域を検出する検出精度が高いモデルである。第2検出モデルLM2は、本明細書に係る第2の領域検出モデルの一例である。第2検出モデルLM2の機械学習の手法は限定されず、例えば、セマンティックセグメンテーションやインスタンスセグメンテーション(U-Net、FCN、DeepLab v3+、等)が挙げられるが、これらに限られない。推定フェーズにおける第2検出モデルLM2の入力は画像を表す画像データを含み、出力は物体の領域を表す情報を含む。
【0057】
擬似ラベル生成部13Bは、第1領域判定部121Bが付与した単位領域毎のスコア、及び、第2領域判定部122Bが付与した識別ラベルに基づき、学習用画像に含まれる単位領域に擬似ラベルを付与する。擬似ラベル生成部13Bが行う処理の詳細については後述する。
【0058】
(学習フェーズ実行方法の流れ)
図10は、情報処理装置1Bが実行する学習フェーズ実行方法の流れの一例を示すフロー図である。図10の例において、正解ラベルが付された領域は矩形領域であり、また、スコアが付される単位領域はピクセルである。なお、図10のフロー図に含まれるステップの一部は、並行して又は順序を替えて実行されてもよい。また、図10の例で、学習の対象である検出モデルLM1は、一例として、上述の例示的実施形態2に係る図5の学習フェーズ実行方法により学習された学習済のモデルである。また、検出モデルLM1は例えば、未学習のモデルであってもよいし、また、学習用画像及び当該学習用画像に付された正解ラベルを用いた機械学習により生成された学習済のモデルであってもよい。
【0059】
ステップS201において、画像取得部11Aは、パラメータとして閾値tscore、及びマージンm(m≧0)を決定する。ここで、閾値tscoreは、第2領域判定部122Bが第2検出モデルLM2を用いて識別ラベルを付与する際に参照する閾値である。第2領域判定部122Bが各ピクセルに識別ラベルを付与する処理の詳細については後述する。また、マージンmは、擬似ラベル生成部13Bが各ピクセルに擬似ラベルを付与する際に参照する値である。擬似ラベル生成部13Bが各ピクセルに擬似ラベルを付与する処理の詳細については後述する。
【0060】
ステップS202において、画像取得部11Aは、学習用画像群を取得する。ステップS203において、第1領域判定部121Bは、検出モデルLM1を用いて各ピクセルにスコアを付与する。第1領域判定部121Bが付与するスコアは、上述したように、物体らしさを示すスコアであり、値が大きいほど物体である可能性が高いことを示し、値が小さいほど物体である可能性が低いことを示す。
【0061】
ステップS204において、第2領域判定部122Bは、第2検出モデルLM2を用いて、各ピクセルに識別ラベルを付与する。第2領域判定部122Bは一例として、各ピクセルについて物体らしさを示すスコアを算出し、算出したスコアと閾値tscoreとを比較することにより、物体であるか背景であるかを示す識別ラベルを付与する。ここで、スコアは、値が大きいほど物体である可能性が高い旨を示し、値が小さいほど物体である可能性が低い旨を示す。
【0062】
ステップS205において、擬似ラベル生成部13Bは、上記物体を示す識別ラベルが付されたピクセルのスコア分布(検出モデルLM1を用いて算出されたスコアの分布)と、上記背景を示す識別ラベルが付されたピクセルのスコア分布(検出モデルLM1を用いて算出されたスコアの分布)とに基づき閾値を決定する。より具体的には、擬似ラベル生成部13Bは一例として、矩形領域内のスコア(検出モデルLM1を用いて算出されたスコア)と識別ラベルとに基づき、擬似ラベルを付与する際に参照する閾値として第1の閾値及び第2の閾値を決定する。ここで、第1の閾値は、擬似ラベル生成部13Bが物体を示す擬似ラベルを付与するために参照する閾値である。第2の閾値は、擬似ラベル生成部13Bが背景を示す擬似ラベルを付与するために参照する閾値である。
【0063】
擬似ラベル生成部13Bは一例として、上記物体を示す識別ラベルが付された単位領域のスコア分布の重心と、上記背景を示す識別ラベルが付された単位領域のスコア分布の重心と、の平均値に所定値(マージンm)を加算した値を上記第1の閾値とし、当該平均値から上記所定値(マージンm)を減算した値を上記第2の閾値とする。
【0064】
図11は、閾値の決定方法の具体例を示す図である。図11において、ヒストグラムh11は、正解ラベルが付された矩形領域に含まれるピクセルに対し第2検出モデルLM2が付与したスコアの分布を示す。ヒストグラムh11において横軸は第2検出モデルLM2のスコアを示し、縦軸はピクセル数を示す。ステップS204を第2領域判定部122Bが実行することにより、ヒストグラムh11において、スコアが閾値tscore以上であるピクセル(スコアが図11の範囲s2のピクセル)には物体を示す識別ラベルが付与される。また、スコアが閾値tscoreより小さいピクセル(スコアが範囲s1のピクセル)には背景を示す識別ラベルが付与される。
【0065】
また、図11のヒストグラムh12は、正解ラベルが付された矩形領域に含まれるピクセルに第1領域判定部121Bが付与したスコアの分布を示す。ヒストグラムh12において横軸はスコアを示し、縦軸はピクセル数を示す。ヒストグラムh11とヒストグラムh12とを比較すると、ヒストグラムh11では、物体を示す識別ラベルが付与されたピクセルと背景を示す識別ラベルが付与されたピクセルとがある程度分離される一方、ヒストグラムh12では、これらの境界は明確でなく、両者が混在する範囲が存在する。
【0066】
また、図11のヒストグラムh13は、正解ラベルが付されていない領域について第1領域判定部121Bが各ピクセルに付したスコアの分布を示す。ヒストグラムh13において横軸はスコアを示し、縦軸はピクセル数を示す。
【0067】
図11の例で、擬似ラベル生成部13Bは、物体を示す識別ラベルが付されたピクセルのスコア分布の重心s11と、背景を示す識別ラベルが付された単位領域のスコア分布の重心s12と、の平均値th1を算出することにより、第1の閾値(th1+m)と、第2の閾値(th1-m)とを算出する。ただし、第1の閾値及び第2の閾値の算出方法は上述した例に限定されず、擬似ラベル生成部13Bは他の手法により閾値を算出してもよい。
【0068】
図10のステップS206において、擬似ラベル生成部13Bは、上記学習用画像において上記スコア(第1領域判定部121Bが算出したスコア)が上記閾値以上である単位領域に、物体を示す擬似ラベルを付与するとともに、上記学習用画像において上記スコア(第1領域判定部121Bが算出したスコア)が上記第1の閾値又は当該第1閾値よりも小さい第2の閾値よりも小さい単位領域に、背景を示す擬似ラベルを付与する。擬似ラベル生成部13Bが行う擬似ラベルの付与処理については後述する。
【0069】
図10のステップS207において、モデル学習部14Aは、擬似ラベルを用いて検出モデルLM1を更新する。すなわち、モデル学習部14Aは、擬似ラベルを用いて検出モデルLM1のモデルパラメータを更新する。
【0070】
ステップS208において、終了判定部15Aは、モデルパラメータの更新処理を終了するかを判定する。この判定は、例えば、更新がある程度落ち着いたか(モデルパラメータの更新による変化量が所定の条件を満たすか、等)を判別することによって行われてもよいし、また、例えば、モデルパラメータの更新回数が閾値以上になったかを判別することによって行われてもよい。更新処理を終了しない場合(ステップS208;NO)、終了判定部15AはステップS202の処理に戻り、更新処理を継続する。一方、更新処理を終了する場合(ステップS208;YES)、終了判定部15Aは更新処理を終了する。
【0071】
(擬似ラベル付与処理の具体例)
ここで、擬似ラベル生成部13Bが実行する、物体を示す擬似ラベルを付与する処理、及び背景を示す擬似ラベルを付与する処理のそれぞれの具体例について説明する。
【0072】
((i)物体を示す擬似ラベルの付与処理の具体例1)
擬似ラベル生成部13Bは、一例として、第1領域判定部121Bが算出した単位領域毎のスコアに基づき、上記正解ラベルが付された領域の一部の領域に、上記物体を示す擬似ラベルを付与するとともに、第1領域判定部121Bが算出した単位領域毎のスコアに基づき、上記正解ラベルが付されていない領域の一部の領域に、上記物体を示す擬似ラベルを付与する。この場合、図11の例では、擬似ラベル生成部13Bは、ヒストグラムh12においてスコアが第1の閾値(th1+m)以上であるピクセルと、ヒストグラムh13においてスコアが第1の閾値(th1+m)以上であるピクセルとに、物体を示す擬似ラベルを付与する。
【0073】
((ii)物体を示す擬似ラベルの付与処理の具体例2)
また、擬似ラベル生成部13Bは、一例として、第1領域判定部121Bが算出した単位領域毎のスコアに基づき、上記正解ラベルが付された領域の一部の領域に、上記物体を示す擬似ラベルを付与する。より具体的には、擬似ラベル生成部13Bは一例として、正解ラベルが付された領域において第1領域判定部121Bが算出したスコアが上記第1の閾値以上である単位領域に、物体を示す擬似ラベルを付与する。図11の例では、擬似ラベル生成部13Bは、ヒストグラムh12においてスコアが第1の閾値(th1+m)以上であるピクセルに、物体を示す擬似ラベルを付与する。
【0074】
この場合、擬似ラベル生成部13Bは、正解ラベルが付されていない領域に関しては、上述の例示的実施形態2と同様の手法により背景を示す擬似ラベルの付与処理を実行してもよい。
【0075】
((iii)背景を示す擬似ラベルの付与処理の具体例1)
また、擬似ラベル生成部13Bは、第1領域判定部121Bが算出した単位領域毎のスコアに基づき、上記正解ラベルが付されていない領域の一部の領域に、上記背景を示す擬似ラベルを付与するとともに、第1領域判定部121Bが算出した単位領域毎のスコアに基づき、上記正解ラベルが付された領域の一部の領域に、上記背景を示す擬似ラベルを付与してもよい。より具体的には、擬似ラベル生成部13Bは、一例として、正解ラベルが付されていない領域及び正解ラベルが付された領域のうち、上記スコアが上記第2の閾値よりも小さい単位領域に、背景を示す擬似ラベルを付与する。この場合、図11の例では、擬似ラベル生成部13Bは、ヒストグラムh13においてスコアが第2の閾値(th1-m)よりも小さいピクセルと、ヒストグラムh12においてスコアが第2の閾値(th1-m)よりも小さいピクセルとに、物体を示す擬似ラベルを付与する。
【0076】
((iv)背景を示す擬似ラベルの付与処理の具体例2)
また、擬似ラベル生成部13Bは一例として、正解ラベルが付されていない領域において第1領域判定部121Bが算出スコアが上記第2の閾値よりも小さい単位領域に、背景を示す擬似ラベルを付与する。この場合、図11の例では、擬似ラベル生成部13Bは、ヒストグラムh13においてスコアが第2の閾値(th1-m)よりも小さいピクセルに、背景を示す擬似ラベルを付与する。
【0077】
この場合、擬似ラベル生成部13Bは、正解ラベルが付された領域に関しては、上述の例示的実施形態2と同様の手法により物体を示す擬似ラベルの付与処理を実行してもよい。
【0078】
図12は、学習用画像において擬似ラベルが付与される領域の具体例を示す図である。図12の上段のヒストグラムh12、h13は、図11のヒストグラムh12、h13と同様である。上述の例示的実施形態2では、正解ラベルが付された矩形領域のうち上位rfg%のピクセルに物体を示す擬似ラベルが付される。それに対し、図12の例では、正解ラベルが付された領域においてスコアが相対的に高い領域(例えば、領域601)に物体を示す擬似ラベルが付されるとともに、正解ラベルが付された矩形領域においてスコアが相対的に低い領域(例えば、領域602)に背景を示す擬似ラベルが付される。このように、本例示的実施形態によれば、学習用画像をより有効に活用した学習を行うことができる。
【0079】
(情報処理装置の効果)
以上のように、本例示的実施形態に係る情報処理装置1Bにおいては、擬似ラベル生成部13Bは、上記単位領域毎のスコアに基づき、上記正解ラベルが付された領域の一部の領域に、上記物体を示す擬似ラベルを付与するとともに、上記単位領域毎のスコアに基づき、上記正解ラベルが付されていない領域の一部の領域に、上記物体を示す擬似ラベルを付与する構成が採用されている。このため、本例示的実施形態に係る情報処理装置1Bによれば、学習用画像において正解ラベルが付されていない領域のうちスコアが高い領域を物体の領域として検出モデルLM1の学習に用いることにより、学習用画像をより有効活用することができる。
【0080】
また、本例示的実施形態に係る情報処理装置1Bにおいては、画像から物体の像に対応する領域を検出する第2検出モデルLM2に、上記学習用画像の少なくとも一部を入力することにより、上記正解ラベルが付された領域に含まれる単位領域のそれぞれに物体か背景かを示す識別ラベルを付与する第2領域判定部122Bを備え、擬似ラベル生成部13Bが、上記物体を示す識別ラベルが付された単位領域のスコア分布と、上記背景を示す識別ラベルが付された単位領域のスコア分布とに基づき閾値を決定し、上記学習用画像において上記スコアが上記閾値以上である単位領域に物体を示す擬似ラベルを付与するとともに、上記学習用画像において上記スコアが上記閾値又は当該閾値よりも小さい第2の閾値よりも小さい単位領域に、背景を示す擬似ラベルを付与する、という構成が採用されている。
【0081】
このため、本例示的実施形態に係る情報処理装置1Bによれば、検出モデルLM1とは異なる第2検出モデルLM2の検出結果を用いて擬似ラベルを付与することにより、擬似ラベルをより精度よく付与することができ、その結果、検出モデルLM1の検出精度をより高くすることができるという効果が得られる。例えば、第2検出モデルLM2として領域の境目をより正確に判定できるモデルを用いることにより、検出モデルLM1の検出精度をより高くすることができる。
【0082】
また、本例示的実施形態に係る情報処理装置1Bにおいては、擬似ラベル生成部13Bは、上記物体を示す識別ラベルが付された単位領域のスコア分布の重心と、上記背景を示す識別ラベルが付された単位領域のスコア分布の重心と、の平均値に所定値を加算した値を上記閾値とし、当該平均値から上記所定値を減算した値を上記第2の閾値とし、上記学習用画像において上記スコアが上記第2の閾値よりも小さい単位領域に、背景を示す擬似ラベルを付与する、という構成が採用されている。このため、本例示的実施形態に係る情報処理装置1Bによれば、第2検出モデルLM2の検出結果に基づき算出した閾値を用いて擬似ラベルを付与することにより、擬似ラベルをより精度よく付与することができ、その結果、検出モデルLM1の検出精度をより高くすることができるという効果が得られる。
【0083】
また、本例示的実施形態に係る情報処理装置1Bにおいては、擬似ラベル生成部13Bは、上記単位領域毎のスコアに基づき、上記正解ラベルが付されていない領域の一部の領域に、上記背景を示す擬似ラベルを付与するとともに、上記単位領域毎のスコアに基づき、上記正解ラベルが付された領域の一部の領域に、上記背景を示す擬似ラベルを付与する、という構成が採用されている。このため、本例示的実施形態に係る情報処理装置1Bによれば、学習用画像において正解ラベルが付された領域のうちスコアが低い領域を背景の領域として検出モデルLM1の学習に用いることにより、学習用画像をより有効活用することができる。
【0084】
〔例示的実施形態4〕
本発明の第3の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1~3にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。
【0085】
図13は、例示的実施形態4に係る情報処理装置1Cの構成を示すブロック図である。情報処理装置1Cは、制御部10C、記憶部20C、通信部30A及び入出力部40Aを備える。制御部10Cは、情報処理装置1Cの各部を統括して制御する。制御部10Cは、画像取得部16A及び領域検出部17Aを備える。領域検出部17Aは、本明細書に係る検出手段の一例である。画像取得部16Aは物体検出の対象である画像を取得する。領域検出部17Aは、画像取得部16Aが取得した画像を検出モデルLM1に入力することにより、当該画像に含まれる物体の領域を検出する。
【0086】
以上のように、本例示的実施形態に係る情報処理装置1Cにおいては、検出モデルLM1に画像を入力することにより、当該画像に含まれる物体の領域を検出する構成が採用されている。このため、本例示的実施形態に係る情報処理装置1Cによれば、画像から物体の領域を精度よく検出できるという効果が得られる。
【0087】
〔ソフトウェアによる実現例〕
情報処理装置1、1A、1B及び1Cの一部又は全部の機能は、集積回路(ICチップ)等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。
【0088】
後者の場合、情報処理装置1、1A、1B及び1Cは、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例(以下、コンピュータCと記載する)を図14に示す。コンピュータCは、少なくとも1つのプロセッサC1と、少なくとも1つのメモリC2と、を備えている。メモリC2には、コンピュータCを情報処理装置1、1A、1B及び1Cとして動作させるためのプログラムPが記録されている。コンピュータCにおいて、プロセッサC1は、プログラムPをメモリC2から読み取って実行することにより、情報処理装置1、1A、1B及び1Cの各機能が実現される。
【0089】
プロセッサC1としては、例えば、CPU(Central Processing Unit)、GPU(Graphic Processing Unit)、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、FPU(Floating point number Processing Unit)、PPU(Physics Processing Unit)、TPU(Tensor Processing Unit)、量子プロセッサ、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリC2としては、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、又は、これらの組み合わせなどを用いることができる。
【0090】
なお、コンピュータCは、プログラムPを実行時に展開したり、各種データを一時的に記憶したりするためのRAM(Random Access Memory)を更に備えていてもよい。また、コンピュータCは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータCは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。
【0091】
また、プログラムPは、コンピュータCが読み取り可能な、一時的でない有形の記録媒体Mに記録することができる。このような記録媒体Mとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータCは、このような記録媒体Mを介してプログラムPを取得することができる。また、プログラムPは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータCは、このような伝送媒体を介してプログラムPを取得することもできる。
【0092】
〔付記事項1〕
本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。
【0093】
〔付記事項2〕
上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。
(付記1)
物体の像を含む領域に正解ラベルが付された学習用画像を取得する取得手段と、画像から物体の像に対応する領域を検出する領域検出モデルに前記学習用画像を入力することにより、単位領域毎に物体らしさを示すスコアを付与するスコア付与手段と、前記単位領域毎の前記スコアに基づき、前記正解ラベルが付された領域の一部の領域に物体を示す擬似ラベルを付与する第1の擬似ラベル付与手段と、前記単位領域毎の前記スコアに基づき、前記正解ラベルが付されていない領域の一部の領域に背景を示す擬似ラベルを付与する第2の擬似ラベル付与手段と、前記物体を示す擬似ラベル又は前記背景を示す擬似ラベルが付された領域を参照して、前記領域検出モデルのモデルパラメータを更新する更新手段と、を備えることを特徴とする情報処理装置。
【0094】
(付記2)
前記第1の擬似ラベル付与手段は、前記正解ラベルが付された領域において、前記スコアが高い方から所定の比率に含まれる単位領域に、前記物体を示す擬似ラベルを付与する、付記1に記載の情報処理装置。
【0095】
(付記3)
前記学習用画像は、前記物体の像を含む領域を複数含み、前記第1の擬似ラベル付与手段は、複数の前記物体の像を含む領域のそれぞれにおいて前記スコアが高い方から所定の比率に含まれる単位領域に、前記物体を示す擬似ラベルを付与する、付記2に記載の情報処理装置。
【0096】
(付記4)
前記第2の擬似ラベル付与手段は、前記正解ラベルが付されていない領域において、前記スコアが低い方から所定の比率に含まれる単位領域に、前記背景を示す擬似ラベルを付与する、付記1から3のいずれか1つに記載の情報処理装置。
【0097】
(付記5)
前記正解ラベルはクラスラベルであり、前記スコア付与手段は、前記学習用画像に含まれる単位領域のそれぞれにクラス毎のスコアを付与し、前記第1の擬似ラベル付与手段は、前記単位領域毎の前記スコアに基づき、前記正解ラベルが付された領域の一部の領域に前記クラスを示す擬似ラベルを付与する、付記1から4のいずれか1つに記載の情報処理装置。
【0098】
(付記6)
前記第1の擬似ラベル付与手段は、前記単位領域毎の前記スコアに基づき、前記正解ラベルが付された領域の一部の領域に前記物体を示す擬似ラベルを付与するとともに、前記単位領域毎の前記スコアに基づき、前記正解ラベルが付されていない領域の一部の領域に前記物体を示す擬似ラベルを付与する、付記1から5のいずれか1つに記載の情報処理装置。
【0099】
(付記7)
画像から物体の像に対応する領域を検出する第2の領域検出モデルに、前記学習用画像の少なくとも一部を入力することにより、前記正解ラベルが付された領域に含まれる単位領域のそれぞれに物体か背景かを示す識別ラベルを付与する識別ラベル付与手段と、前記物体を示す識別ラベルが付された単位領域のスコア分布と、前記背景を示す識別ラベルが付された単位領域のスコア分布とに基づき閾値を決定する閾値決定手段と、を更に備え、
前記第1の擬似ラベル付与手段は、前記学習用画像において前記スコアが前記閾値以上である単位領域に、物体を示す擬似ラベルを付与し、前記第2の擬似ラベル付与手段は、前記学習用画像において前記スコアが前記閾値又は当該閾値よりも小さい第2の閾値よりも小さい単位領域に、背景を示す擬似ラベルを付与する、付記6に記載の情報処理装置。
【0100】
(付記8)
前記閾値決定手段は、前記物体を示す識別ラベルが付された単位領域のスコア分布の重心と、前記背景を示す識別ラベルが付された単位領域のスコア分布の重心と、の平均値に所定値を加算した値を前記閾値とし、当該平均値から前記所定値を減算した値を前記第2の閾値とし、前記第2の擬似ラベル付与手段は、前記学習用画像において前記スコアが前記第2の閾値よりも小さい単位領域に、背景を示す擬似ラベルを付与する、付記7に記載の情報処理装置。
【0101】
(付記9)
少なくとも1つのプロセッサが、物体の像を含む領域に正解ラベルが付された学習用画像を取得することと、画像から物体の像に対応する領域を検出する領域検出モデルに、前記学習用画像を入力することにより、単位領域毎に物体らしさを示すスコアを付与することと、前記単位領域毎の前記スコアに基づき、前記正解ラベルが付された領域の一部の領域に物体を示す擬似ラベルを付与することと、前記単位領域毎の前記スコアに基づき、前記正解ラベルが付されていない領域の一部の領域に背景を示す擬似ラベルを付与することと、前記物体を示す擬似ラベル又は前記背景を示す擬似ラベルが付された領域を参照して、前記領域検出モデルのモデルパラメータを更新することと、を含むことを特徴とする情報処理方法。
【0102】
(付記10)
コンピュータに、物体の像を含む領域に正解ラベルが付された学習用画像を取得する処理と、画像から物体の像に対応する領域を検出する領域検出モデルに、前記学習用画像を入力することにより、単位領域毎に物体らしさを示すスコアを付与する処理と、前記単位領域毎の前記スコアに基づき、前記正解ラベルが付された領域の一部の領域に物体を示す擬似ラベルを付与する処理と、前記単位領域毎の前記スコアに基づき、前記正解ラベルが付されていない領域の一部の領域に背景を示す擬似ラベルを付与する処理と、前記物体を示す擬似ラベル又は前記背景を示す擬似ラベルが付された領域を参照して、前記領域検出モデルのモデルパラメータを更新する処理と、を実行させるためのプログラム。
【0103】
(付記11)
前記第2の擬似ラベル付与手段は、前記単位領域毎の前記スコアに基づき、前記正解ラベルが付されていない領域の一部の領域に、前記背景を示す擬似ラベルを付与するとともに、前記単位領域毎の前記スコアに基づき、前記正解ラベルが付された領域の一部の領域に、前記背景を示す擬似ラベルを付与する、付記1から6のいずれか1つに記載の情報処理装置。
【0104】
(付記12)
画像から物体の像に対応する領域を検出する領域検出モデルであって、(i)物体の像を含む領域に正解ラベルが付された学習用画像において、当該正解ラベルが付された領域の一部の領域であって物体らしさを示すスコアが第1の条件を満たす領域に付された、物体を示す擬似ラベルと、(ii)当該学習用画像において、当該正解ラベルが付されていない領域の一部の領域であって前記スコアが第2の条件を満たす領域に付された、背景を示す擬似ラベルと、を用いた機械学習により生成された、ことを特徴とする領域検出モデル。
【0105】
(付記13)
付記12に記載の領域検出モデルに画像を入力することにより、当該画像に含まれる物体の領域を検出する検出手段、を備える領域検出装置。
【0106】
(付記14)
物体の像を含む領域に正解ラベルが付された学習用画像を取得する取得手段と、
画像から物体の像に対応する領域を検出する領域検出モデルに前記学習用画像を入力することにより、単位領域毎に物体らしさを示すスコアを付与するスコア付与手段と、
前記単位領域毎の前記スコアに基づき、前記正解ラベルが付された領域の一部の領域に物体を示す擬似ラベルを付与する第1の擬似ラベル付与手段と、
前記単位領域毎の前記スコアに基づき、前記正解ラベルが付されていない領域の一部の領域に背景を示す擬似ラベルを付与する第2の擬似ラベル付与手段と、
前記物体を示す擬似ラベル又は前記背景を示す擬似ラベルが付された領域を参照して、前記領域検出モデルのモデルパラメータを更新する更新手段と、
を備えることを特徴とする情報処理システム。
【0107】
(付記15)
少なくとも1つのプロセッサを備え、前記プロセッサは、物体の像を含む領域に正解ラベルが付された学習用画像を取得する取得処理と、画像から物体の像に対応する領域を検出する領域検出モデルに前記学習用画像を入力することにより、単位領域毎に物体らしさを示すスコアを付与するスコア付与処理と、前記単位領域毎の前記スコアに基づき、前記正解ラベルが付された領域の一部の領域に物体を示す擬似ラベルを付与する第1の擬似ラベル付与処理と、前記単位領域毎の前記スコアに基づき、前記正解ラベルが付されていない領域の一部の領域に背景を示す擬似ラベルを付与する第2の擬似ラベル付与処理と、前記物体を示す擬似ラベル又は前記背景を示す擬似ラベルが付された領域を参照して、前記領域検出モデルのモデルパラメータを更新する更新処理と、を実行する情報処理装置。
【0108】
なお、この情報処理装置は、更にメモリを備えていてもよく、このメモリには、前記取得処理と、前記スコア付与処理と、前記第1の擬似ラベル付与処理と、前記第2の擬似ラベル付与処理と、を前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。
【0109】
以上、上記例示的実施形態等を参照して本願発明を説明したが、本願発明は、上述した例示的実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明の範囲内で当業者が理解しうる様々な変更をすることができる。また、上述した情報処理装置1、1A、1B、1Cの機能のうちの少なくとも一以上の機能は、ネットワーク上のいかなる場所に設置され接続された複数の異なる情報処理装置で実行されてもよく、つまり、いわゆるクラウドコンピューティングで実行されてもよい。
【符号の説明】
【0110】
1、1A、1B、1C 情報処理装置
11 取得部
11A 画像取得部
12 スコア付与部
12A 領域判定部
13 第1の擬似ラベル付与部
13A、13B 擬似ラベル生成部
14 第2の擬似ラベル付与部
14A モデル学習部
15 更新部
15A 終了判定部
17 領域検出部
121B 第1領域判定部
122B 第2領域判定部
LM1 検出モデル
LM2 第2検出モデル
S1 情報処理方法
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14