(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024068729
(43)【公開日】2024-05-21
(54)【発明の名称】学習装置、パラメータ調整方法、及び、記録媒体
(51)【国際特許分類】
G06T 7/00 20170101AFI20240514BHJP
G06T 7/10 20170101ALI20240514BHJP
【FI】
G06T7/00 350B
G06T7/10
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022179283
(22)【出願日】2022-11-09
(71)【出願人】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100107331
【弁理士】
【氏名又は名称】中村 聡延
(74)【代理人】
【識別番号】100104765
【弁理士】
【氏名又は名称】江上 達夫
(74)【代理人】
【識別番号】100131015
【弁理士】
【氏名又は名称】三輪 浩誉
(72)【発明者】
【氏名】金子 智一
(72)【発明者】
【氏名】白石 壮馬
(72)【発明者】
【氏名】坂井 亮介
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096FA02
5L096KA04
(57)【要約】
【課題】物体認識における認識精度の低下を防ぐことが可能な学習装置等を提供する。
【解決手段】学習装置は、静止画像用の学習モデルを有する。学習モデルは、静止画像において物体が存在する領域を個々の物体毎に識別可能な第1の物体マスクを生成するマスク生成手段を具備する。第1の物体マスクの生成に係る処理に用いられる少なくとも1つのパラメータを含む第1のパラメータは、静止画像を含む動画像において物体が存在する領域を個々の物体毎に識別可能な第2の物体マスクに対する第1の物体マスクの差を示す第1の損失に基づいて調整される。
【選択図】
図2
【特許請求の範囲】
【請求項1】
静止画像用の学習モデルを有する学習装置であって、
前記学習モデルは、静止画像において物体が存在する領域を個々の物体毎に識別可能な第1の物体マスクを生成するマスク生成手段を具備し、
前記第1の物体マスクの生成に係る処理に用いられる少なくとも1つのパラメータを含む第1のパラメータは、前記静止画像を含む動画像において物体が存在する領域を個々の物体毎に識別可能な第2の物体マスクに対する前記第1の物体マスクの差を示す第1の損失に基づいて調整される学習装置。
【請求項2】
前記第1のパラメータは、前記第1の損失が0になるように調整される請求項1に記載の学習装置。
【請求項3】
前記学習モデルは、前記静止画像全体の特徴を表す第1の特徴量を抽出する特徴抽出手段をさらに有し、
前記第1の特徴量の抽出に係る処理に用いられる少なくとも1つのパラメータを含む第2のパラメータは、前記動画像全体の特徴を表す第2の特徴量に対する前記第1の特徴量の差を示す第2の損失に基づいて調整される請求項1に記載の学習装置。
【請求項4】
前記第1のパラメータ及び前記第2のパラメータは、前記第1の損失及び前記第2の損失が両方とも0になるように調整される請求項3に記載の学習装置。
【請求項5】
前記学習モデルは、前記静止画像における個々の物体毎の第1の物体表現を取得する表現取得手段をさらに有し、
前記第1の物体表現の取得に係る処理に用いられる少なくとも1つのパラメータを含む第3のパラメータは、前記動画像における個々の物体毎の第2の物体表現に対する前記第1の物体表現の差を示す第3の損失に基づいて調整される請求項1に記載の学習装置。
【請求項6】
前記第1のパラメータ及び前記第3のパラメータは、前記第1の損失及び前記第3の損失が両方とも0になるように調整される請求項5に記載の学習装置。
【請求項7】
前記学習モデルは、前記静止画像全体の特徴を表す第1の特徴量を抽出する特徴抽出手段と、前記第1の特徴量に基づいて前記静止画像における個々の物体毎の第1の物体表現を取得する表現取得手段と、前記第1の物体表現に基づいて前記第1の物体マスクを生成する前記マスク生成手段と、を有し、
前記第1の特徴量の抽出に係る処理に用いられる少なくとも1つのパラメータを含む第2のパラメータは、前記動画像全体の特徴を表す第2の特徴量に対する前記第1の特徴量の差を示す第2の損失に基づいて調整され、
前記第1の物体表現の取得に係る処理に用いられる少なくとも1つのパラメータを含む第3のパラメータは、前記動画像における個々の物体毎の第2の物体表現に対する前記第1の物体表現の差を示す第3の損失に基づいて調整される請求項1に記載の学習装置。
【請求項8】
前記第1のパラメータ、前記第2のパラメータ及び前記第3のパラメータは、前記第1の損失、前記第2の損失及び前記第3の損失が全て0になるように調整される請求項7に記載の学習装置。
【請求項9】
静止画像において物体が存在する領域を個々の物体毎に識別可能な第1の物体マスクを生成する静止画像用の学習モデルに対して適用されるパラメータ調整方法であって、
前記第1の物体マスクの生成に係る処理に用いられる少なくとも1つのパラメータを含む第1のパラメータを、前記静止画像を含む動画像において物体が存在する領域を個々の物体毎に識別可能な第2の物体マスクに対する前記第1の物体マスクの差を示す第1の損失に基づいて調整するパラメータ調整方法。
【請求項10】
静止画像において物体が存在する領域を個々の物体毎に識別可能な第1の物体マスクを生成する静止画像用の学習モデルに対する処理をコンピュータに実行させるプログラムを記録した記録媒体であって、
前記第1の物体マスクの生成に係る処理に用いられる少なくとも1つのパラメータを含む第1のパラメータを、前記静止画像を含む動画像において物体が存在する領域を個々の物体毎に識別可能な第2の物体マスクに対する前記第1の物体マスクの差を示す第1の損失に基づいて調整する処理を前記コンピュータに実行させるプログラムを記録した記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、機械学習の技術に関する。
【背景技術】
【0002】
機械学習の分野において、教師なし画像に含まれる個々の物体毎の物体表現を取得できるように学習された機械学習モデルが近年提案されている。
【0003】
具体的には、例えば、非特許文献1には、静止画像に含まれる個々の物体毎の物体表現を取得できるように学習された機械学習モデルが提案されている。
【0004】
また、前述のように学習された機械学習モデルにより得られた物体表現は、例えば、物体認識に係る処理において活用することができる。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】Francesco Locatello, et.al,「Object-Centric Learning with Slot Attention」、[online]、2020年10月14日、arXiv、[2022年10月28日検索]、インターネット<URL:https://arxiv.org/pdf/2006.15055.pdf>
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、非特許文献1に開示された技術によれば、例えば、複雑なテクスチャを有する物体が静止画像に含まれているような場合において、当該物体の境界の認識が困難であることに起因し、物体表現の取得精度が低下してしまう、という問題点がある。
【0007】
すなわち、非特許文献1に開示された技術によれば、物体認識における認識精度が低下してしまう場合がある、という前述の問題点に応じた課題が生じている。
【0008】
本開示の1つの目的は、物体認識における認識精度の低下を防ぐことが可能な学習装置を提供することにある。
【課題を解決するための手段】
【0009】
本開示の一つの観点では、学習装置は、静止画像用の学習モデルを有する。前記学習モデルは、静止画像において物体が存在する領域を個々の物体毎に識別可能な第1の物体マスクを生成するマスク生成手段を具備する。前記第1の物体マスクの生成に係る処理に用いられる少なくとも1つのパラメータを含む第1のパラメータは、前記静止画像を含む動画像において物体が存在する領域を個々の物体毎に識別可能な第2の物体マスクに対する前記第1の物体マスクの差を示す第1の損失に基づいて調整される。
【0010】
本開示の他の観点では、パラメータ調整方法は、静止画像において物体が存在する領域を個々の物体毎に識別可能な第1の物体マスクを生成する静止画像用の学習モデルに対して適用される。前記第1の物体マスクの生成に係る処理に用いられる少なくとも1つのパラメータを含む第1のパラメータは、前記静止画像を含む動画像において物体が存在する領域を個々の物体毎に識別可能な第2の物体マスクに対する前記第1の物体マスクの差を示す第1の損失に基づいて調整される。
【0011】
本開示のさらに他の観点では、記録媒体は、静止画像において物体が存在する領域を個々の物体毎に識別可能な第1の物体マスクを生成する静止画像用の学習モデルに対する処理をコンピュータに実行させるプログラムを記録する。前記第1の物体マスクの生成に係る処理に用いられる少なくとも1つのパラメータを含む第1のパラメータは、前記静止画像を含む動画像において物体が存在する領域を個々の物体毎に識別可能な第2の物体マスクに対する前記第1の物体マスクの差を示す第1の損失に基づいて調整される。
【発明の効果】
【0012】
本開示によれば、物体認識における認識精度の低下を防ぐことが可能となる。
【図面の簡単な説明】
【0013】
【
図1】第1実施形態に係る学習装置のハードウェア構成を示すブロック図。
【
図2】第1実施形態に係る学習装置の機能構成を示すブロック図。
【
図3】マスク画像の生成に係る処理の概要を示す図。
【
図4】第1実施形態に係る学習装置において継承される知識を蒸留するために利用される情報処理装置の構成を説明するためのブロック図。
【
図5】第1実施形態に係る学習装置において行われる処理の一例を示すフローチャート。
【
図6】第1実施形態の変形例を説明するためのブロック図。
【
図7】合成マスク画像の生成に係る処理の一例を示す図。
【
図8】第2実施形態に係る学習装置の機能構成を示すブロック図。
【発明を実施するための形態】
【0014】
以下、図面を参照して、本開示の好適な実施形態について説明する。
【0015】
[ハードウェア構成]
図1は、第1実施形態に係る学習装置のハードウェア構成を示すブロック図である。学習装置100は、
図1に示すように、インタフェース(IF)111と、プロセッサ112と、メモリ113と、記録媒体114と、データベース(DB)115と、を有している。
【0016】
IF111は、外部装置との間でデータの入出力を行う。例えば、カメラ等により撮影された物体を含む静止画像がIF111を通じて学習装置100に入力される。
【0017】
プロセッサ112は、CPU(Central Processing Unit)などのコンピュータであり、予め用意されたプログラムを実行することにより、学習装置100の全体を制御する。具体的には、プロセッサ112は、例えば、静止画像に含まれる個々の物体毎の物体表現を取得するための処理等を行う。
【0018】
メモリ113は、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。メモリ113は、プロセッサ112による各種の処理の実行中に作業メモリとしても使用される。
【0019】
記録媒体114は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、学習装置100に対して着脱可能に構成される。記録媒体114は、プロセッサ112が実行する各種のプログラムを記録している。学習装置100が各種の処理を実行する際には、記録媒体114に記録されているプログラムがメモリ113にロードされ、プロセッサ112により実行される。
【0020】
DB115には、例えば、IF111を通じて入力された情報、及び、プロセッサ112の処理により得られた処理結果等が格納される。
【0021】
[機能構成]
図2は、第1実施形態に係る学習装置の機能構成を示すブロック図である。学習装置100は、
図2に示すように、学習モデル10を有している。
【0022】
学習モデル10は、教師なしの静止画像に含まれる個々の物体毎の物体表現を取得できるように学習された静止画像用の機械学習モデルとして構成されている。また、学習モデル10は、例えば、Francesco Locatello, et.al,「Object-Centric Learning with Slot Attention」に開示されているモデルのような、静止画像用の世界モデルに相当する構成を有している。また、学習モデル10は、
図2に示すように、特徴抽出部11と、表現取得部12と、マスク生成部13と、を有している。
【0023】
特徴抽出部11は、特徴抽出手段としての機能を有している。また、特徴抽出部11は、学習装置100の外部から入力された静止画像SG全体の特徴を表す特徴量SGFを抽出し、当該抽出した特徴量SGFを表現取得部12へ出力する。
【0024】
表現取得部12は、表現取得手段としての機能を有している。また、表現取得部12は、特徴抽出部11により抽出された特徴量SGFに基づき、静止画像SGに含まれる個々の物体に対応する表現ベクトルSGVを算出する。表現ベクトルSGVには、静止画像SGにおける物体の個数と同数のベクトルが含まれている。また、表現取得部12は、表現ベクトルSGVの算出結果を静止画像SGにおける個々の物体毎の物体表現SGRとして取得し、当該取得した物体表現SGRをマスク生成部13へ出力する。
【0025】
マスク生成部13は、マスク生成手段としての機能を有している。また、マスク生成部13は、表現取得部12により得られた物体表現SGRに基づき、静止画像SGにおいて物体が存在する領域である物体領域SGAの推定を行う。また、マスク生成部13は、前述の推定により得られた個々の物体領域SGAを識別可能な物体マスクSGMを生成する。物体マスクSGMは、例えば、個々の物体領域SGAを異なる色で塗りつぶしたマスク画像として生成される。また、物体マスクSGMには、静止画像SGにおける物体の個数と同数のマスク画像が含まれている。具体的には、マスク生成部13は、静止画像SGに対応するマスク画像として、例えば、
図3に示すようなマスク画像MGA及びMGBを生成する。
図3は、マスク画像の生成に係る処理の概要を示す図である。マスク画像MGAには、静止画像SGにおける物体BAに対応する物体領域を示すマスクMAが含まれている。また、マスク画像MGBには、静止画像SGにおける物体BBに対応する物体領域を示すマスクMBが含まれている。なお、
図3においては、図示の便宜上、マスクMA及びMBを、互いに異なる色で塗りつぶされた領域ではなく、互いに異なるハッチングが施された領域として示している。すなわち、マスク生成部13は、表現取得部12により得られた物体表現SGRに基づき、静止画像SGにおいて物体が存在する領域である物体領域SGAを個々の物体毎に識別可能な物体マスクSGMを生成する。また、マスク生成部13は、物体マスクSGMと、物体表現SGRと、を学習装置100の外部へ出力する。
【0026】
[知識蒸留]
本実施形態においては、例えば、
図4に示すような情報処理装置200により蒸留された知識が学習モデル10に継承されるようにしている。このような知識蒸留を可能とするための情報処理装置200の具体的な構成について、以下に説明する。
図4は、第1実施形態に係る学習装置において継承される知識を蒸留するために利用される情報処理装置の構成を説明するためのブロック図である。
【0027】
情報処理装置200は、学習装置100と同様のハードウェア構成を有している。また、情報処理装置200は、学習装置100に対して着脱可能に構成されている。また、情報処理装置200は、
図4に示すように、学習モデル20と、損失算出部31、32及び33と、パラメータ調整部41、42及び43と、を有している。
【0028】
学習モデル20は、教師なしの動画像に含まれる個々の物体毎の物体表現を取得できるように学習された動画像用の機械学習モデルとして構成されている。また、学習モデル20は、例えば、Thomas Kipf, et.al,「Conditional Object-Centric Learning from Video」に開示されているモデルのような、動画像用の世界モデルに相当する構成を有している。また、学習モデル20は、
図4に示すように、特徴抽出部21と、表現取得部22と、マスク生成部23と、動き推定部24と、を有している。
【0029】
特徴抽出部21は、情報処理装置200の外部から入力された動画像DG全体の特徴を表す特徴量DGFを抽出し、当該抽出した特徴量DGFを表現取得部22へ出力する。
【0030】
表現取得部22は、特徴抽出部21により抽出された特徴量DGFに基づき、動画像DGに存在する個々の物体に対応する表現ベクトルDGVを算出する。表現ベクトルDGVには、動画像DGにおける物体の個数と同数のベクトルが含まれている。また、表現取得部22は、表現ベクトルDGVの算出結果を動画像DGにおける個々の物体毎の物体表現DGRとして取得し、当該取得した物体表現DGRをマスク生成部23及び動き推定部24へ出力する。
【0031】
マスク生成部23は、表現取得部22により得られた物体表現DGRに基づき、動画像DGにおいて物体が存在する領域である物体領域DGAの推定を行う。また、マスク生成部23は、前述の推定により得られた個々の物体領域DGAを識別可能な物体マスクDGMを生成する。物体マスクDGMは、例えば、個々の物体領域DGAを異なる色で塗りつぶしたマスク画像として生成される。また、物体マスクDGMには、動画像DGにおける物体の個数と同数のマスク画像が含まれている。具体的には、マスク生成部23は、マスク生成部13と同様の処理を行うことにより、動画像DGに含まれる時系列な複数の画像各々について、
図3において例示したものと同様のマスク画像を生成する。すなわち、マスク生成部23は、表現取得部22により得られた物体表現DGRに基づき、動画像DGにおいて物体が存在する領域である物体領域DGAを個々の物体毎に識別可能な物体マスクDGMを生成する。
【0032】
動き推定部24は、表現取得部22により得られた物体表現DGRに基づいてオプティカルフローを算出することにより、動画像DGに含まれる個々の物体の動きを推定する。また、動き推定部24は、前述の推定により得られた推定結果を動きデータDGUとして取得する。
【0033】
損失算出部31には、特徴抽出部11により抽出された特徴量SGFと、特徴抽出部21により抽出された特徴量DGFと、が入力される。また、損失算出部31は、特徴量DGFに対する特徴量SGFの差を示す損失LFを算出し、当該算出した損失LFをパラメータ調整部41へ出力する。なお、前述の差は、誤差またはズレ量と読み替えてもよい。
【0034】
損失算出部32には、表現取得部12により抽出された物体表現SGRと、表現取得部22により得られた物体表現DGRと、が入力される。また、損失算出部32は、物体表現DGRに対する物体表現SGRの差を示す損失LRを算出し、当該算出した損失LRをパラメータ調整部42へ出力する。具体的には、損失算出部32は、例えば、ハンガリアンアルゴリズム及びコサイン類似度を用いた処理を行うことにより、物体表現DGRの表現ベクトルDGVに含まれるn個のベクトルと、物体表現SGRの表現ベクトルSGVに含まれるn個のベクトルと、において互いに類似するベクトル同士を対応付けたn組のベクトルを取得する。そして、損失算出部32は、前述のように取得したn組のベクトル各々における差を損失LRとして算出する。なお、前述の差は、誤差またはズレ量と読み替えてもよい。
【0035】
損失算出部33には、マスク生成部13により生成された物体マスクSGMと、マスク生成部23により生成された物体マスクDGMと、が入力される。また、損失算出部33は、物体マスクDGMに対する物体マスクSGMの差を示す損失LMを算出し、当該算出した損失LMをパラメータ調整部43へ出力する。具体的には、損失算出部33は、例えば、ハンガリアンアルゴリズム及びコサイン類似度を用いた処理を行うことにより、物体マスクDGMに含まれるp個のマスク画像と、物体マスクSGMに含まれるp個のマスク画像と、において互いに類似するマスク画像同士を対応付けたn組のマスク画像を取得する。そして、損失算出部33は、前述のように取得したn組のマスク画像各々における差を損失LMとして算出する。なお、前述の差は、誤差またはズレ量と読み替えてもよい。
【0036】
パラメータ調整部41は、損失算出部31により算出された損失LFに基づき、特徴抽出部11による特徴量SGFの抽出に係る処理において用いられる少なくとも1つのパラメータを調整する。
【0037】
パラメータ調整部42は、損失算出部32により算出された損失LRに基づき、表現取得部12による物体表現SGRの取得に係る処理において用いられる少なくとも1つのパラメータを調整する。
【0038】
パラメータ調整部43は、損失算出部33により算出された損失LMに基づき、マスク生成部13による物体マスクSGMの生成に係る処理において用いられる少なくとも1つのパラメータを調整する。
【0039】
以上に述べたような構成を有する情報処理装置200によれば、損失算出部31、32及び33と、パラメータ調整部41、42及び43と、において知識蒸留に係る処理が行われることにより、学習モデル20の特性(長所)を学習モデル10に継承させることができる。換言すると、学習装置100は、情報処理装置200により蒸留された知識に相当する学習モデル20の特性(長所)が継承されるように、学習モデル10の各部(特徴抽出部11、表現取得部12及びマスク生成部13)の処理に係るパラメータを設定することができる。
【0040】
以上に述べたような構成を有する情報処理装置200を用いて知識蒸留を行う場合には、例えば、動画像DGが学習モデル20に入力されるとともに、当該動画像DGを1フレーム毎に分割することにより得られた静止画像SGが学習モデル10に順次入力されるようにすればよい。
【0041】
また、以上に述べたような構成を有する情報処理装置200を用いて知識蒸留を行う場合には、損失LFと、損失LRと、損失LMと、が全て0になるまで、パラメータ調整部41、42及び43によるパラメータ調整が繰り返されることが望ましい。換言すると、特徴量SGFの抽出に係る処理において用いられる少なくとも1つのパラメータ、物体表現SGRの取得に係る処理において用いられる少なくとも1つのパラメータ、及び、物体マスクSGMの生成に係る処理において用いられる少なくとも1つのパラメータは、損失LF、損失LR及び損失LMが全て0になるように調整されることが望ましい。前述のパラメータ調整によれば、学習モデル20の特性(長所)であるテクスチャに対する頑健性を学習モデル10に継承させることができる。また、前述のパラメータ調整によれば、例えば、複雑なテクスチャを有する物体が静止画像に含まれているような場合であっても、学習モデル10が当該物体の境界を適切に認識することができるため、学習モデル10による物体表現の取得精度を向上させることができる。
【0042】
[処理フロー]
続いて、第1実施形態に係る学習装置において行われる処理の流れについて説明する。
図5は、第1実施形態に係る学習装置において行われる処理の一例を示すフローチャートである。
【0043】
学習装置100は、情報処理装置200により蒸留された知識に相当する学習モデル20の特性(長所)が継承されるように、学習モデル10の各部(特徴抽出部11、表現取得部12及びマスク生成部13)の処理に係るパラメータを設定する(ステップS11)。ステップS11においては、前述の知識蒸留に相当する処理が行われるようにすればよい。
【0044】
学習装置100は、ステップS11によるパラメータ設定を行った後で、外部から入力された静止画像全体の特徴を表す特徴量を抽出する(ステップS12)。ステップS12以降の処理は、前述の知識蒸留が行われた後に学習装置100に入力される静止画像について、当該静止画像に含まれる個々の物体に対応する物体表現及び物体マスクを取得するための処理に相当する。
【0045】
学習装置100は、ステップS12により抽出した特徴量に基づき、ステップS12の処理対象となった静止画像に含まれる個々の物体に対応する表現ベクトルを算出する。また、学習装置100は、前述の表現ベクトルの算出結果を、ステップS12の処理対象となった静止画像における個々の物体毎の物体表現として取得する(ステップS13)。
【0046】
学習装置100は、ステップS13により取得した物体表現に基づき、ステップS12の処理対象となった静止画像において物体が存在する領域である物体領域の推定を行う。また、学習装置100は、前述の推定により得られた個々の物体領域を識別可能な物体マスクを生成する(ステップS14)。
【0047】
学習装置100は、ステップS13により取得した物体表現と、ステップS14により生成した物体マスクと、を外部へ出力する(ステップS15)。
【0048】
以上に述べたように、本実施形態によれば、知識蒸留に係る処理により得られた学習モデル20の特性(長所)を継承した学習モデル10を用い、静止画像に含まれる個々の物体毎の物体表現を取得することができる。従って、本実施形態によれば、物体表現に基づいて物体認識を行う場合に生じる認識精度の低下を防ぐことができる。
【0049】
なお、本実施形態に係る学習装置100は、情報処理装置200を用いた知識蒸留により、特徴抽出部11、表現取得部12及びマスク生成部13のうちの少なくとも1つの処理に係るパラメータが調整されるものであればよい。また、このような場合においては、算出対象となる全ての損失が0になるようにパラメータ調整が行われることが望ましい。
【0050】
また、本実施形態によれば、例えば、学習モデル20の各部において行われる処理と、学習モデル20により得られた物体マスクDGM及び動きデータDGUに基づいて行われる1つ以上の処理と、を含む一連の処理から得られる知識を蒸留することにより、学習モデル10の各部に対するパラメータ調整が行われるようにしてもよい。物体マスクDGM及び動きデータDGUに基づいて行われる処理には、例えば、動画像DGに含まれる個々の物体の特徴を抽出する処理を含めることができる。
【0051】
また、本実施形態は、例えば、学習装置100と、情報処理装置200と、を有する情報処理システムに対しても適用することができる。
【0052】
[変形例]
以下、上記の実施形態に対する変形例を説明する。なお、以降においては、簡単のため、既述の処理等を適用可能な部分に関する具体的な説明を適宜省略するものとする。
【0053】
本実施形態は、
図4に示したような構成を有する学習装置100及び情報処理装置200に対して適用されるものに限らず、例えば、
図6に示すような構成を有する学習装置100A及び情報処理装置200Aに対しても適用することができる。
図6は、第1実施形態の変形例を説明するためのブロック図である。
【0054】
学習装置100Aは、学習装置100と同様のハードウェア構成を有している。また、学習装置100Aは、学習モデル10Aを有している。
【0055】
学習モデル10Aは、教師なしの静止画像に含まれる個々の物体毎の物体領域を識別可能な物体マスクを生成するように学習された静止画像用の機械学習モデルとして構成されている。また、学習モデル10Aは、インスタンスセグメンテーションモデルに相当する構成を有している。また、学習モデル10Aは、
図6に示すように、マスク生成部13Aを有している。
【0056】
マスク生成部13Aは、学習装置100Aの外部から入力された静止画像SGにおいて物体が存在する領域である物体領域SGAを個々の物体毎に識別可能な物体マスクSGNを生成し、当該生成した物体マスクSGNを学習装置100Aの外部へ出力する。物体マスクSGNは、例えば、個々の物体領域SGAを異なる色で塗りつぶしたマスク画像として生成される。また、物体マスクSGNには、静止画像SGにおける物体の個数と同数のマスク画像が含まれている。具体的には、マスク生成部13Aは、マスク生成部13と同様の処理を行うことにより、
図3において例示したものと同様のマスク画像を生成することができる。
【0057】
情報処理装置200Aは、学習装置100と同様のハードウェア構成を有している。また、情報処理装置200Aは、学習装置100Aに対して着脱可能に構成されている。また、情報処理装置200Aは、
図6に示すように、学習モデル20と、損失算出部33Aと、パラメータ調整部43Aと、を有している。
【0058】
損失算出部33Aには、マスク生成部13Aにより生成された物体マスクSGNと、マスク生成部23により生成された物体マスクDGMと、が入力される。また、損失算出部33Aは、物体マスクDGMに対する物体マスクSGNの差を示す損失LNを算出し、当該算出した損失LNをパラメータ調整部43Aへ出力する。具体的には、損失算出部33Aは、物体マスクDGMに含まれる各マスク画像における信頼度の高いマスクを合成することにより得られた合成マスク画像に対する、物体マスクSGNに含まれる各マスク画像における信頼度の高いマスクを合成することにより得られた合成マスク画像の差を損失LNとして算出する。前述の信頼度は、例えば、最前面の物体領域を示す一のマスクにおいて相対的に大きくなり、かつ、当該最前面の物体領域に隠れた物体領域を含む他のマスクにおいて相対的に小さくなるような値として表すことができる。また、前述の差は、誤差またはズレ量と読み替えてもよい。また、損失算出部33Aは、
図3に例示したように、マスク画像MGAのマスクMAと、マスク画像MGBのマスクMBと、において重複する領域(画素)が存在しない場合には、当該マスク画像MGA及びMGBをそのまま合成した合成マスク画像に基づいて損失LNを算出すればよい。また、損失算出部33Aは、例えば、
図7に示すように、マスク画像MGCのマスクMCと、マスク画像MGDのマスクMDと、において重複する領域(画素)が存在する場合には、当該マスク画像MGC及びMGDにおける最前面の物体領域を示すように合成された合成マスクCMを有する合成マスク画像CMGに基づいて損失LNを算出すればよい。
図7の合成マスクCMは、マスクMCとマスクMDとが重複する領域において、当該マスクMCの信頼度が相対的に低く、かつ、当該マスクMDの信頼度が相対的に高い場合の合成結果を示している。
図7は、合成マスク画像の生成に係る処理の一例を示す図である。
【0059】
パラメータ調整部43Aは、損失算出部33Aにより算出された損失LNに基づき、マスク生成部13Aによる物体マスクSGNの生成に係る処理において用いられる少なくとも1つのパラメータを調整する。
【0060】
以上に述べたような構成を有する情報処理装置200Aによれば、損失算出部33Aと、パラメータ調整部43Aと、において知識蒸留に係る処理が行われることにより、学習モデル20の特性(長所)を学習モデル10Aに継承させることができる。換言すると、学習装置100Aは、情報処理装置200Aにより蒸留された知識に相当する学習モデル20の特性(長所)が継承されるように、学習モデル10Aにおけるマスク生成部13Aの処理に係るパラメータを設定することができる。
【0061】
以上に述べたような構成を有する情報処理装置200Aを用いて知識蒸留を行う場合には、損失LNが0になるまで、パラメータ調整部43Aによるパラメータ調整が繰り返されることが望ましい。換言すると、物体マスクSGNの生成に係る処理において用いられる少なくとも1つのパラメータは、損失LNが0になるように調整されることが望ましい。前述のパラメータ調整によれば、学習モデル20の特性(長所)であるテクスチャに対する頑健性を学習モデル10Aに継承させることができる。
【0062】
以上に述べたように、本変形例によれば、知識蒸留に係る処理により得られた学習モデル20の特性(長所)を継承した学習モデル10Aを用い、静止画像に含まれる個々の物体毎の物体領域を識別可能な物体マスクを取得することができる。従って、本変形例によれば、物体マスクに基づいて物体認識を行う場合に生じる認識精度の低下を防ぐことができる。
【0063】
なお、情報処理装置200Aを用いた知識蒸留は、学習モデル10Aがインスタンスセグメンテーションモデルに相当する構成を有している場合に限らず、例えば、学習モデル10Aがパノプティックセグメンテーションモデルまたはアモーダルセグメンテーションモデルのいずれかに相当する構成を有している場合においても適用することができる。
【0064】
学習モデル10Aがパノプティックセグメンテーションモデルに相当する構成を有している場合には、物体マスクSGNと、静止画像SGにおける物体領域以外の領域を示す背景マスクSGHと、がマスク生成部13Aから出力されるようにすればよい。また、学習モデル10Aがパノプティックセグメンテーションモデルに相当する構成を有している場合には、物体マスクDGMと、動画像DGにおける物体領域以外の領域を示す背景マスクDGHと、がマスク生成部23から出力されるようにすればよい。また、学習モデル10Aがパノプティックセグメンテーションモデルに相当する構成を有している場合には、物体マスクDGMに対する物体マスクSGNの差を示す損失LNと、背景マスクDGHに対する背景マスクSGHの差を示す損失LHと、が損失算出部33Aにより算出されるようにすればよい。また、前述の差は、誤差またはズレ量と読み替えてもよい。また、学習モデル10Aがパノプティックセグメンテーションモデルに相当する構成を有している場合には、損失LN及びLHに基づくパラメータ調整がパラメータ調整部43Aにより行われるようにすればよい。このような場合には、損失LNと、損失LHと、が両方0になるまで、パラメータ調整部43Aによるパラメータ調整が繰り返されることが望ましい。換言すると、学習モデル10Aがパノプティックセグメンテーションモデルに相当する構成を有している場合には、物体マスクSGN及び背景マスクSGHの生成に係る処理において用いられる少なくとも1つのパラメータは、損失LN及び損失LHが両方とも0になるように調整されることが望ましい。
【0065】
学習モデル10Aがアモーダルセグメンテーションモデルに相当する構成を有している場合には、物体マスクDGMに対する物体マスクSGNの差を示す損失LZが損失算出部33Aにより算出されるようにすればよい。損失LZは、損失算出部33による損失LMの算出方法と同様の方法により算出されるようにすればよい。また、前述の差は、誤差またはズレ量と読み替えてもよい。また、学習モデル10Aがアモーダルセグメンテーションモデルに相当する構成を有している場合には、損失LZに基づくパラメータ調整がパラメータ調整部43Aにより行われるようにすればよい。このような場合には、損失LZが0になるまで、パラメータ調整部43Aによるパラメータ調整が繰り返されることが望ましい。換言すると、学習モデル10Aがアモーダルセグメンテーションモデルに相当する構成を有している場合には、物体マスクSGNの生成に係る処理において用いられる少なくとも1つのパラメータは、損失LZが0になるように調整されることが望ましい。
【0066】
<第2実施形態>
図8は、第2実施形態に係る学習装置の機能構成を示すブロック図である。
【0067】
本実施形態に係る学習装置500は、学習装置100と同様のハードウェア構成を有している。また、学習装置500は、静止画像用の学習モデル510を有している。また、学習モデル510は、マスク生成手段520を具備している。
【0068】
マスク生成手段520は、静止画像において物体が存在する領域を個々の物体毎に識別可能な第1の物体マスクを生成する。
【0069】
前記第1の物体マスクの生成に係る処理に用いられる少なくとも1つのパラメータを含む第1のパラメータは、前記静止画像を含む動画像において物体が存在する領域を個々の物体毎に識別可能な第2の物体マスクに対する前記第1の物体マスクの差を示す第1の損失に基づいて調整される。
【0070】
本実施形態によれば、物体認識における認識精度の低下を防ぐことができる。
【0071】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0072】
(付記1)
静止画像用の学習モデルを有する学習装置であって、
前記学習モデルは、静止画像において物体が存在する領域を個々の物体毎に識別可能な第1の物体マスクを生成するマスク生成手段を具備し、
前記第1の物体マスクの生成に係る処理に用いられる少なくとも1つのパラメータを含む第1のパラメータは、前記静止画像を含む動画像において物体が存在する領域を個々の物体毎に識別可能な第2の物体マスクに対する前記第1の物体マスクの差を示す第1の損失に基づいて調整される学習装置。
【0073】
(付記2)
前記第1のパラメータは、前記第1の損失が0になるように調整される付記1の学習装置。
【0074】
(付記3)
前記学習モデルは、前記静止画像全体の特徴を表す第1の特徴量を抽出する特徴抽出手段をさらに有し、
前記第1の特徴量の抽出に係る処理に用いられる少なくとも1つのパラメータを含む第2のパラメータは、前記動画像全体の特徴を表す第2の特徴量に対する前記第1の特徴量の差を示す第2の損失に基づいて調整される付記1の学習装置。
【0075】
(付記4)
前記第1のパラメータ及び前記第2のパラメータは、前記第1の損失及び前記第2の損失が両方とも0になるように調整される付記3の学習装置。
【0076】
(付記5)
前記学習モデルは、前記静止画像における個々の物体毎の第1の物体表現を取得する表現取得手段をさらに有し、
前記第1の物体表現の取得に係る処理に用いられる少なくとも1つのパラメータを含む第3のパラメータは、前記動画像における個々の物体毎の第2の物体表現に対する前記第1の物体表現の差を示す第3の損失に基づいて調整される付記1の学習装置。
【0077】
(付記6)
前記第1のパラメータ及び前記第3のパラメータは、前記第1の損失及び前記第3の損失が両方とも0になるように調整される付記5の学習装置。
【0078】
(付記7)
前記学習モデルは、前記静止画像全体の特徴を表す第1の特徴量を抽出する特徴抽出手段と、前記第1の特徴量に基づいて前記静止画像における個々の物体毎の第1の物体表現を取得する表現取得手段と、前記第1の物体表現に基づいて前記第1の物体マスクを生成する前記マスク生成手段と、を有し、
前記第1の特徴量の抽出に係る処理に用いられる少なくとも1つのパラメータを含む第2のパラメータは、前記動画像全体の特徴を表す第2の特徴量に対する前記第1の特徴量の差を示す第2の損失に基づいて調整され、
前記第1の物体表現の取得に係る処理に用いられる少なくとも1つのパラメータを含む第3のパラメータは、前記動画像における個々の物体毎の第2の物体表現に対する前記第1の物体表現の差を示す第3の損失に基づいて調整される付記1の学習装置。
【0079】
(付記8)
前記第1のパラメータ、前記第2のパラメータ及び前記第3のパラメータは、前記第1の損失、前記第2の損失及び前記第3の損失が全て0になるように調整される付記7の学習装置。
【0080】
(付記9)
静止画像において物体が存在する領域を個々の物体毎に識別可能な第1の物体マスクを生成する静止画像用の学習モデルに対して適用されるパラメータ調整方法であって、
前記第1の物体マスクの生成に係る処理に用いられる少なくとも1つのパラメータを含む第1のパラメータを、前記静止画像を含む動画像において物体が存在する領域を個々の物体毎に識別可能な第2の物体マスクに対する前記第1の物体マスクの差を示す第1の損失に基づいて調整するパラメータ調整方法。
【0081】
(付記10)
静止画像において物体が存在する領域を個々の物体毎に識別可能な第1の物体マスクを生成する静止画像用の学習モデルに対する処理をコンピュータに実行させるプログラムを記録した記録媒体であって、
前記第1の物体マスクの生成に係る処理に用いられる少なくとも1つのパラメータを含む第1のパラメータを、前記静止画像を含む動画像において物体が存在する領域を個々の物体毎に識別可能な第2の物体マスクに対する前記第1の物体マスクの差を示す第1の損失に基づいて調整する処理を前記コンピュータに実行させるプログラムを記録した記録媒体。
【0082】
以上、実施形態を参照して本開示を説明したが、本開示は上記実施形態及び実施例に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。
【符号の説明】
【0083】
10 学習モデル
11 特徴抽出部
12 表現取得部
13 マスク生成部
100 学習装置