IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-56495機械学習プログラム,機械学習方法及び情報処理装置
<>
  • 特開-機械学習プログラム,機械学習方法及び情報処理装置 図1
  • 特開-機械学習プログラム,機械学習方法及び情報処理装置 図2
  • 特開-機械学習プログラム,機械学習方法及び情報処理装置 図3
  • 特開-機械学習プログラム,機械学習方法及び情報処理装置 図4
  • 特開-機械学習プログラム,機械学習方法及び情報処理装置 図5
  • 特開-機械学習プログラム,機械学習方法及び情報処理装置 図6
  • 特開-機械学習プログラム,機械学習方法及び情報処理装置 図7
  • 特開-機械学習プログラム,機械学習方法及び情報処理装置 図8
  • 特開-機械学習プログラム,機械学習方法及び情報処理装置 図9
  • 特開-機械学習プログラム,機械学習方法及び情報処理装置 図10
  • 特開-機械学習プログラム,機械学習方法及び情報処理装置 図11
  • 特開-機械学習プログラム,機械学習方法及び情報処理装置 図12
  • 特開-機械学習プログラム,機械学習方法及び情報処理装置 図13
  • 特開-機械学習プログラム,機械学習方法及び情報処理装置 図14
  • 特開-機械学習プログラム,機械学習方法及び情報処理装置 図15
  • 特開-機械学習プログラム,機械学習方法及び情報処理装置 図16
  • 特開-機械学習プログラム,機械学習方法及び情報処理装置 図17
  • 特開-機械学習プログラム,機械学習方法及び情報処理装置 図18
  • 特開-機械学習プログラム,機械学習方法及び情報処理装置 図19
  • 特開-機械学習プログラム,機械学習方法及び情報処理装置 図20
  • 特開-機械学習プログラム,機械学習方法及び情報処理装置 図21
  • 特開-機械学習プログラム,機械学習方法及び情報処理装置 図22
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024056495
(43)【公開日】2024-04-23
(54)【発明の名称】機械学習プログラム,機械学習方法及び情報処理装置
(51)【国際特許分類】
   G06V 10/82 20220101AFI20240416BHJP
   G06T 7/00 20170101ALI20240416BHJP
【FI】
G06V10/82
G06T7/00 350C
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022163400
(22)【出願日】2022-10-11
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110003649
【氏名又は名称】弁理士法人真田特許事務所
(74)【代理人】
【識別番号】100189201
【弁理士】
【氏名又は名称】横田 功
(72)【発明者】
【氏名】安富 優
(72)【発明者】
【氏名】廣本 正之
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096BA08
5L096DA01
5L096HA05
5L096HA08
5L096HA11
5L096KA04
5L096KA15
(57)【要約】
【課題】ネットワーク環境を構築する際に、接続作業の工数を削減し、誤接続や誤設定を防止する。
【解決手段】コンピュータは、訓練データを用いて訓練された第1の機械学習モデルに、第1のフレーム画像221-1と第2のフレーム画像221-2とを少なくとも含む動画データを入力し、第1の機械学習モデルによる推論結果に基づいて、第1のフレーム画像221-1及び第2のフレーム画像221-2からそれぞれ第1対象物223-1及び第2対象物223-2を検出し、検出された第1対象物223-1と第2対象物223-2との同一性を判断し、同一性を有すると判断された第1対象物223-1を含む第1画像領域における第1データ226と第2対象物223-2を含む第2画像領域における第2データ227とを符号化器230に入力して符号化器230を訓練する。
【選択図】図7
【特許請求の範囲】
【請求項1】
訓練データを用いて訓練された第1の機械学習モデルに、第1のフレーム画像と第2のフレーム画像とを少なくとも含む動画データを入力し、
前記第1の機械学習モデルによる推論結果に基づいて、前記第1のフレーム画像及び前記第2のフレーム画像からそれぞれ第1対象物及び第2対象物を検出し、
検出された前記第1対象物と前記第2対象物との同一性を判断し、
前記同一性を有すると判断された前記第1対象物を含む第1画像領域における第1データと前記第2対象物を含む第2画像領域における第2データとを符号化器に入力して前記符号化器を訓練する、
処理をコンピュータに実行させる、機械学習プログラム。
【請求項2】
前記符号化器を訓練する処理において、
前記第1データを前記符号化器に入力して得られる第1の特徴量と、前記第2データを第2の特徴量との一致度を高めるように機械学習する、
処理を前記コンピュータに実行させる、請求項1に記載の機械学習プログラム。
【請求項3】
訓練された前記符号化器に基づいて、画像中から対象物を検出する第2の機械学習モデルを訓練する、
処理を前記コンピュータに実行させる、請求項1または2に記載の機械学習プログラム。
【請求項4】
前記第2の機械学習モデルを訓練する処理において、
入力される画像データを複数の分割領域に分割して複数の分割画像を得て、
前記分割領域のそれぞれにおける前記分割画像を前記符号化器に入力して、前記分割領域におけるそれぞれの特徴量を算出し、
前記算出された結果と、入力される前記画像データに対応するラベルとに基づいて前記第2の機械学習モデルを訓練する、
処理を前記コンピュータに実行させる、請求項3に記載の機械学習プログラム。
【請求項5】
前記第2の機械学習モデルを訓練する処理において、
入力される画像データを第1の分割解像度に応じて複数の第1分割領域に分割して複数の第1分割画像を得て、
入力される前記画像データを前記第1の分割解像度と異なる第2の分割解像度に応じて複数の第2分割領域に分割して複数の第2分割画像を得て、
前記第1分割領域のそれぞれにおける前記第1分割画像を前記符号化器に入力して、前記第1分割領域におけるそれぞれの特徴量を示す第1解像度特徴マップを得て、
前記第2分割領域のそれぞれにおける前記第2分割画像を前記符号化器に入力して、前記第2分割領域におけるそれぞれの特徴量を示す第2解像度特徴マップを得て、
前記第1解像度特徴マップ、前記第2解像度特徴マップ、及び前記画像データに基づいて、前記第2の機械学習モデルを訓練する、
処理を前記コンピュータに実行させる、請求項3に記載の機械学習プログラム。
【請求項6】
動画における対象物の境界位置情報に関する特徴量を出力する位置情報モデルと、対象物のクラス分類に関する特徴量を出力するためのクラス分類モデルとを含む、第2の機械学習モデルにおいて、前記クラス分類モデルを前記符号化器として用い、
前記第1データを前記クラス分類モデルに入力して得られる第1のクラス分類用特徴量と、前記第2データを前記クラス分類モデルに入力して得られる第2のクラス分類用特徴量との一致度を高めるように機械学習する、
処理を前記コンピュータに実行させる、請求項1または2に記載の機械学習プログラム。
【請求項7】
訓練データを用いて訓練された第1の機械学習モデルに、第1のフレーム画像と第2のフレーム画像とを少なくとも含む動画データを入力し、
前記第1の機械学習モデルによる推論結果に基づいて、前記第1のフレーム画像及び前記第2のフレーム画像からそれぞれ第1対象物及び第2対象物を検出し、
検出された前記第1対象物と前記第2対象物との同一性を判断し、
前記同一性を有すると判断された前記第1対象物を含む第1画像領域における第1データと前記第2対象物を含む第2画像領域における第2データとを符号化器に入力して前記符号化器を訓練する、
処理をコンピュータが実行する、機械学習方法。
【請求項8】
訓練データを用いて訓練された第1の機械学習モデルに、第1のフレーム画像と第2のフレーム画像とを少なくとも含む動画データを入力し、
前記第1の機械学習モデルによる推論結果に基づいて、前記第1のフレーム画像及び前記第2のフレーム画像からそれぞれ第1対象物及び第2対象物を検出し、
検出された前記第1対象物と前記第2対象物との同一性を判断し、
前記同一性を有すると判断された前記第1対象物を含む第1画像領域における第1データと前記第2対象物を含む第2画像領域における第2データとを符号化器に入力して前記符号化器を訓練する、
プロセッサを備える、情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習プログラム,機械学習方法及び情報処理装置に関する。
【背景技術】
【0002】
機械学習を用いて動画中の対象物を追跡する物体追跡技術が知られている。物体追跡技術は、物体検出技術と追跡技術を含み、物体追跡の性能は物体検出の性能に依存する。物体検出のための訓練データの量が十分に得られない場合には、過学習に起因して物体検出の性能が低くなるおそれがある。
【0003】
訓練データの量を増やす技術の一例として、ラベル伝播法が知られている。ラベル伝搬法は、物体追跡の結果を用いて、データのラベルを時間的または場所的に近傍にあるラベルなしデータに伝播(複写)する。ラベル伝播法は、予め定められた値以上の確信度で推論される推論結果に基づいて新たなラベルを生成する。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Yifu Zhang et al. “ByteTrack: Multi-Object Tracking by Associating Every Detection Box” arXiv:2110.06864v3 [cs.CV] 7 Apr 2022
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、ラベル伝播法によって得られる訓練データは、予め定められた値以上の確信度で推論された推論結果に基づいて生成されるため、摂動(別言すれば、遮蔽物の影響等)がある場面を考慮することが困難な場合がある。これは摂動が生じている場合には、確信度が低くなることに起因する。したがって、ラベル伝播法によって訓練データを増やした場合であっても、物体検出の性能を向上することが困難となるおそれがある。
【0006】
1つの側面では、摂動による影響を低減して物体検出の性能を向上することを目的とする。
【課題を解決するための手段】
【0007】
1つの側面では、機械学習プログラムは、訓練データを用いて訓練された第1の機械学習モデルに、第1のフレーム画像と第2のフレーム画像とを少なくとも含む動画データを入力し、前記第1の機械学習モデルによる推論結果に基づいて、前記第1のフレーム画像及び前記第2のフレーム画像からそれぞれ第1対象物及び第2対象物を検出し、検出された前記第1対象物と前記第2対象物との同一性を判断し、前記同一性を有すると判断された前記第1対象物を含む第1画像領域における第1データと前記第2対象物を含む第2画像領域における第2データとを符号化器に入力して前記符号化器を訓練する、処理をコンピュータに実行させる。
【発明の効果】
【0008】
1つの側面では摂動による影響を低減して物体検出の性能を向上することができる。
【図面の簡単な説明】
【0009】
図1】ラベル伝播法の一例を模式的に示す図である。
図2】対照学習について説明する図である。
図3】実施形態に係る対照学習モデルの訓練を説明する図である。
図4】実施形態に係る情報処理装置による物体追跡モデルの訓練処理の一例を示す図である。
図5】実施形態に係る物体検出の訓練データの一例を模式的に示す図である。
図6図4で示した訓練された物体追跡モデルに入力されるラベル無し動画データの一例を示す。
図7】実施形態に係る情報処理装置における対照学習モデルの訓練処理の一例を示す図である。
図8】実施形態に係る情報処理装置における物体検出モデルの訓練処理の一例を示す図である。
図9】実施形態に係る情報処理装置による訓練フェーズにおける機能構成例を示すブロック図である。
図10】実施形態に係る情報処理装置による推論フェーズにおける機能構成例を示すブロック図である。
図11】実施形態に係る情報処理装置の機能を実現するコンピュータのハードウェア(HW)構成例を示すブロック図である。
図12】実施形態に係る情報処理装置による訓練フェーズにおける動作の一例を示すフローチャートである。
図13】実施形態に係る情報処理装置による推論フェーズにおける動作の一例を示すフローチャートである。
図14】第1変形例に係る情報処理装置による物体検出モデルの訓練処理の一例を示す図である。
図15】第1変形例に係る情報処理装置による訓練フェーズにおける動作の一例を示すフローチャートである。
図16】第1変形例に係る情報処理装置による推論フェーズにおける動作の一例を示すフローチャートである。
図17】第2変形例に係る分離型物体検出モデルについて示す図である。
図18】第2変形例に係る情報処理装置による分離型物体検出モデルの訓練処理の一例を示す図である。
図19】第2変形例に係る情報処理装置による訓練フェーズにおける機能構成例を示すブロック図である。
図20】第2変形例に係る情報処理装置による推論フェーズにおける機能構成例を示すブロック図である。
図21】第2変形例に係る情報処理装置による訓練フェーズにおける動作の一例を示すフローチャートである。
図22】第2変形例に係る情報処理装置による推論フェーズにおける動作の一例を示すフローチャートである。
【発明を実施するための形態】
【0010】
〔A〕関連技術
図1は、ラベル伝播法の一例を模式的に示す図である。
【0011】
図1に示されるように、関連技術においては、既存の訓練データ(不図示)を用いて訓練された物体追跡モデル(不図示)に対して、未知のラベル無し動画データ20が入力される。ラベル無し動画データ20は、複数のフレーム画像21a,21b,及び21cを含む。
【0012】
ラベル無し動画データ20に対して、物体追跡モデルを用いて推論処理が実行される。この結果、対象物22が検出される。対象物22についての境界位置情報は、バウンディングボックス23によって示されてよい。物体追跡モデルは、対象物22のクラス24を推定する。図1では、クラス24は「自動車」である。本明細書において、「対象物」は、検出対象となる物体であればよく、自動車に限定されない。一例において、「対象物」は、自動車、トラック、バイク、自転車であってもよく、人物であってもよい。
【0013】
各対象物22のバウンディングボックス23には、対象物22の同一性を識別するための識別情報25(物体ID)と、確信度26とが対応づけられてよい。確信度(confidence)26は、対象物22のクラス24の判断結果の重みであってよい。確信度26の数値が1に近いほど、物体検出モデルがより高い確度で判断したことを意味する。
【0014】
図1においては、物体追跡結果であるバウンディングボックス23,クラス24,識別情報25,及び確信度26等の少なくとも1つを用いて、ラベル付きデータが新たに生成される。
【0015】
一例において、確信度26が予め定められた値より高いバウンディングボックス23(及びクラス24)に対応した新たなラベルが生成されてよい。図1では、フレーム画像21a及びフレーム画像21cにおいて、バウンディングボックス23及びクラス24等が新たなラベルとされてよい。
【0016】
図1に示される例では、時刻tでのフレーム画像21bでは対象物22が検出されない。しかし、前後(時刻t-1,t+1)でのフレーム画像21a,21cでは対象物22が検出される。この場合、前後のフレーム画像21a,21bにおけるバウンディングボックス23等に基づいて、時刻tでのバウンディングボックス27が補完されてよい。補完されたバウンディングボックス27及びクラス24が新たなラベルとされ、新たなラベル付きデータが生成されてもよい。
【0017】
なお、前後のフレーム画像(図1の21a,21b)において検出された対象物22の確信度26が予め定められた閾値以上である場合に、補完されたバウンディングボックス27が生成されてよい。さらに、物体検出における確信度のみならず、追跡アルゴリズムによる確信度の双方を考慮して、新たなラベル付きデータが生成されてもよい。
【0018】
図1に示される関連技術においては、確信度26が予め定められた値以上である推論結果に基づいて新たなラベルが生成される。一方、確信度26が予め定められた値未満の推論結果に基づいて新たなラベルが生成される場合には、かえって物体検出の性能が劣化するおそれがある。
【0019】
「摂動」がある場合には、確信度26が低いことが多いため、「摂動」がある場合のデータは新たなラベル付きデータの生成に考慮されない場合が多い。したがって、図1に示される手法によると、摂動によって確信度26が低くなる場合を考慮したラベル付きデータを生成することができないおそれがある。なお、「摂動」とは、例えば、対象物の一部が他の物体によって遮蔽されること、モーションブラー(別言すれば、動いている対象をカメラで撮影した時に生じる、ぶれ)、対象物の角度変化、及び照度の影響等を含んでよい。
【0020】
図1に示される手法によって生成されたラベル付きデータを新たな訓練データとして、物体検出モデルを訓練しても、摂動による影響に頑健な物体検出モデルを得ることができないおそれがある。そこで、摂動に頑健な物体検出モデルを生成することが想定される。
【0021】
図2は、対照学習について説明する図である。対照学習は、自己教師あり学習の一種である。図2では、簡単な例として、「ネコ」が映った画像データが入力データ30として入力され、出力として、物体ラベル「ネコ」が出力される場合が例示される。
【0022】
対照学習においては、入力(入力データ30)から2種類のデータ拡張によって、2つの拡張データ31(31a,31b)が得られる。データ拡張は、例えば、元画像である入力データ30に対して、平行移動,回転,拡大縮小,上下反転,左右反転,明度調整,及びこれらの複数の組み合わせの変形を加える処理であってよい。
【0023】
2種類のデータ拡張によって得られた拡張データ31a,31bがそれぞれ対照学習モデル32に入力されることによって、第1特徴ベクトル33及び第2特徴ベクトル34が得られる。
【0024】
2つの拡張データ31a,31bは、物体の本質を変えることなく、異なる変形が施されたデータである。したがって、第1特徴ベクトル33及び第2特徴ベクトル34は、物体の本質が変わっていないことに起因して、一致または類似する。
【0025】
対照学習においては、2つの第1特徴ベクトル33(z)及び第2特徴ベクトル34(z)の一致度(類似度)が高くなるように対照学習モデル32が機械学習される。対照学習モデル32は、符号化器(エンコーダ)である。一例において、損失関数Lφ=‐sim(z,z)が算出され、この損失関数Lφの値が最小になるようにパラメータφが更新されてよい。
【0026】
〔B〕実施形態
以下、図面を参照して一実施形態を説明する。但し、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。
【0027】
以下、図中において、同一の各符号は同様の部分を示しているので、その説明は省略する。
【0028】
〔B-1〕実施形態における訓練処理の説明
図3は、実施形態に係る対照学習モデル230の訓練の概要を示す図である。ラベル無し動画データ220(動画)の異なる時刻のフレーム画像221(221a,221b)において物体追跡モデル(後述)によって同一の物体と認められた複数の対象物223a,223bの画像データ226,227が対照学習に用いられる。画像データ226,227がそれぞれ対照学習モデル230に入力された場合に出力として得られる第1特徴ベクトル231及び第2特徴ベクトル232の一致度を高めるように対照学習モデル230が訓練される。
【0029】
本実施形態の手法によれば、2つのデータ拡張によるのではなく、異なる時刻のフレーム画像221に写った同一の物体である対象物(223a,223b)のペアの画像(226,227)が対照学習モデル230に入力されるデータとして用いられる。対照学習モデル230の訓練については、後述する。
【0030】
図4は、実施形態に係る情報処理装置1(図11)による物体追跡モデル210の訓練処理の一例を示す図である。図5は、実施形態に係る物体検出の訓練データ300の一例を模式的に示す図である。
【0031】
訓練データ300(学習データ)は、物体追跡モデル210の訓練用のデータセットであってよい。訓練データ300は、動画であってよく、複数のフレーム画像200a,200b,及び200c(フレーム画像200と総称する場合がある)を含んでよい。フレーム画像200の数は、図4及び図5に示される場合に限られない。
【0032】
図5の訓練データ300は、対象物201a~201eを含む。対象物201aが自動車であり、201bがバイクであり、201cがトラックであり、201dが自動車であり、201eが自動車である。対象物201a~201eを総称して、対象物201という場合がある。
【0033】
対象物201のそれぞれの境界位置情報が、バウンディングボックス202a~202e(バウンディングボックス202と総称する場合がある)によって示されてよい。境界位置情報は、バウンディングボックス202のそれぞれの高さ,幅,及び頂点の1つの平面座標を含んでよい。
【0034】
対象物201のそれぞれには、自動車、バイク、トラック等のように対象物の種類を示すクラス205a~205e(クラス205と総称する場合がある)が対応づけられてよい。
【0035】
図4に示されるとおり、物体追跡モデル210は、物体検出モデル212及び追跡モデル214を含んでよい。物体検出モデル212は、動画の中から対象物201を検出する。追跡モデル214は、動画に含まれる複数のフレーム画像200a,200b,200c間で同じ対象物201に対して同一の識別情報225(物体ID)を割り振る。
【0036】
物体検出モデル212として既存の手法が用いられてよい。一例において、R-CNN(Regions with Convolutional Neural Network)、YOLO(You Only Look Once)、SSD(Single Shot MultiBox Detector)、DCN(Deformed Convolutional Networks)、DETR等の物体検出手法が用いられてよい。したがって、詳しい説明を省略する。
【0037】
追跡モデル214は、既存のMOT(Multiple Object Tracking)技術における種々の手法が用いられてよい。一例において、物体検出モデル212によって検出された対象物201に対するバウンディングボックス202に対する特徴ベクトルが算出される。オプティカルフロー (Optical flow)推定及びカルマンフィルタを用いて、対象物201の動き予測が実行される。特徴ベクトルと動き予測の結果とを用いて、追跡中の対象物201のマッチングが実行される。これによって、同一であると判断される対象物201には同一の識別情報225(物体ID)が付与される。例えば、追跡モデル214は、ByteTrackを用いたモデルである。但し、追跡モデル214は、この場合に限られない。
【0038】
機械学習によって、物体検出モデル212及び追跡モデル214のパラメータが最適の値に調整される。
【0039】
図6は、図4で示した訓練された物体追跡モデル210に入力されるラベル無し動画データ220の一例を示す。図6は、物体追跡モデル210(図5)によってラベルが推定された結果(別言すれば、バウンディングボックス222、識別情報225,確信度228)を合わせて示す。
【0040】
ラベル無し動画データ220は、動画データの一例である。ラベル無し動画データ220は、複数のフレーム画像221-1~221-3を含む。情報処理装置1は、パラメータを固定した物体追跡モデル210に対して、ラベル無し動画データ220を入力する。
【0041】
情報処理装置1は、物体追跡モデル210の推論処理によって、フレーム画像221-1から対象物223-1(別言すれば、第1対象物)を検出する。同様に、情報処理装置1は、物体追跡モデル210の推論処理によって、フレーム画像221-2から対象物223-2を検出し、フレーム画像221-3から対象物223-2を検出する。
【0042】
情報処理装置1は、物体追跡モデル210を用いて、検出された複数の対象物223-1~223-3の同一性を判断する。例えば、情報処理装置1は、物体追跡モデル210による推論結果の一つである識別情報225(別言すれば、物体ID)に基づいて対象物223a(別言すれば、第1対象物)と対象物223b(別言すれば、第2対象物)との同一性を判断する。識別情報225(別言すれば、物体ID)は、対象物223の同一性を識別するための情報であってよい。同一性とは、対象物223が同一の個体であることを表す。
【0043】
異なるフレーム画像221-1~221-3間においても同一の対象物223に対しては同一の識別情報225(別言すれば、物体ID)が付される。換言すれば、物体追跡モデル210の追跡モデル214(別言すれば、追跡アルゴリズム)は、異なる時刻の画像における同じ対象物223を紐づける。
【0044】
情報処理装置1は、対象物223についての境界位置情報の一例としてバウンディングボックス222-1~221-3を推定してよい。また、情報処理装置1は、クラス(図1の符号24等を参照)について推定してよい。図6は、クラスについて表示を省略する。
【0045】
情報処理装置1は、確信度228-1~228-3についても推定してよい。確信度228-1~228-3は、対象物223のクラスの判断結果の重みであってよい。異なる時刻に対応する異なるフレーム画像221間において、確信度228-1~228-3は異なる。これは、対象物223を遮蔽する遮蔽物224の存在等の摂動に起因する。
【0046】
図7は、実施形態に係る情報処理装置1における対照学習モデル230の訓練処理の一例を示す図である。
【0047】
図7において、フレーム画像221-1及びフレーム画像221-2は、第1のフレーム画像及び第2のフレーム画像の一例である。第1のフレーム画像及び第2のフレーム画像は、互いに異なる時刻に対応する任意のフレーム画像であってよい。
【0048】
対象物223-1(別言すれば、第1対象物)と対象物223-2(別言すれば、第2対象物)が同一性を有すると判断される場合に、第1データ226及び第2データ227がペアの画像として、対照学習モデル230に入力される。これにより、対照学習モデル230が訓練される。対照学習モデル230は、第1データ226と第2データ227とが入力される符号化器(別言すれば、エンコーダ)の一例である。複数ペアの画像が取得されてよい。ペアの数は、対照学習に十分な数となるように設定されてよい。
【0049】
第1データ226は、ラベル無し動画データ220のうち、対象物223-1(別言すれば、第1対象物)を含む第1画像領域における画像データである。第2データ227は、ラベル無し動画データ220のうち、対象物223-2(別言すれば、第2対象物)を含む第2画像領域における画像データである。
【0050】
一例において、第1画像領域は、対象物223-1(別言すれば、第1対象物)を取り囲む矩形のバウンディングボックス222-1であってよく、第2画像領域は、対象物223-2(別言すれば、第2対象物)を取り囲む矩形のバウンディングボックス222bであってよい。
【0051】
第1データ226は、バウンディングボックス222-1の形状及び位置に対応してフレーム画像221-1(別言すれば、第1のフレーム画像)から切り出された画像データであってよい。第2データ227は、バウンディングボックス222-2の形状及び位置に対応してフレーム画像221-2(別言すれば、第2のフレーム画像)から切り出された画像データであってよい。但し、第1データ226及び第2データ227は、この場合に限られない。
【0052】
第1データ226は、対象物223-1(別言すれば、第1対象物)を含む領域の画像データであればよい。第1データ226は、フレーム画像221-1の全体であってもよく、フレーム画像221-1の一部分であってもよい。図7の例においては、第1データ226は、フレーム画像221-1の一部分である。
【0053】
同様に、第2データ227も、対象物223-2(別言すれば、第2対象物)を含む領域の画像データであればよい。第2データ227は、フレーム画像221-2の全体であってもよく、フレーム画像221-2の一部分であってもよい。図7の例においては、第2データ227は、フレーム画像221-2の一部分である。
【0054】
対象物223-1を含む第1データ226と対象物223-2を含む第2データ227とがそれぞれ対照学習モデル230に入力されることによって、第1特徴ベクトル231及び第2特徴ベクトル232が得られる。第1特徴ベクトル231は、第1特徴量の一例であり、第2特徴ベクトル232は、第2特徴量の一例である。
【0055】
特に、第1データ226と第2データ227とは、同一の対象物223に対する画像データである。しかし、対応する時刻(t,t-1)が異なるので、対象物223の角度,遮蔽物224の有無,モーションブラーの有無,及び照明の違い等の差異が第1データ226と第2データ227との間に生じる。
【0056】
したがって、同一のデータからデータ拡張によって得られた拡張データ31a,31bの代わりに、第1データ226及び第2データ227を用いて、本来の対照学習と同様の訓練が可能となる。
【0057】
さらに、第1データ226及び第2データ227は、対象物223の角度,遮蔽物224の有無,モーションブラーの有無,及び照明の違い等の差異等、すなわち、「摂動」について考慮して生成される。したがって、第1データ226及び第2データ227を用いて対照学習モデル230を訓練することで、「摂動」を考慮した対照学習モデル230を訓練することが可能となる。
【0058】
図8は、実施形態に係る情報処理装置1における物体検出モデル240の訓練処理の一例を示す図である。情報処理装置1は、図7において示した訓練ずみの対照学習モデル230を用いて、新たに物体検出モデル240を訓練する。物体検出モデル240は、訓練された対照学習モデル230に基づいて、画像中から対象物を検出する第2の機械学習モデルの一例である。
【0059】
物体検出モデル240は、入力層と出力層との間に隠れ層(中間層)を多層にしたDNN(ディープニューラルネットワーク)であってよい。物体検出モデル240は、物体検出モデル212と同様に、既知の物体検出手法が用いられてよい。したがって、詳しい説明を省略する。物体検出モデル240は、物体検出モデル212であってもよく、異なるモデルであってもよい。
【0060】
訓練画像データ250が準備される。一例において、訓練画像データ250は、画像データとラベル253とを有する教師あり訓練データであってよい。情報処理装置1は、訓練画像データ250を複数の分割領域251(251-1,251-2・・・)に分割して、複数の分割画像252(252-1,252-2・・・)を得る。複数の分割画像252(252-1,252-2・・・)は、パッチと呼ばれてよい。各分割領域251は、相互にオーバーラップする部分を有してよい。分割画像252の生成は、スライディングウィンドウ技法によって実行されてよい。スライディングウィンドウ技法は、ウィンドウと呼ばれる枠をスライドさせていきながらその位置毎にパッチを取得する。
【0061】
情報処理装置1は、訓練されてパラメータが固定された対照学習モデル230(図7を参照)にそれぞれの分割画像252を入力して、それぞれの特徴ベクトル(別言すれば、表現ベクトル)を得る。一例において、情報処理装置1は、分割領域251毎の特徴ベクトルで表される特徴マップ233(特徴量マップ)を各フレームについて算出する。
【0062】
情報処理装置1は、物体検出モデル240にラベル253と特徴マップ233を入力する。ラベル253は、クラス(アノテーション)を含んでよい。物体検出モデル240は、特徴マップ233とラベル253を用いて、対象物の境界位置情報と対象物の特徴を機械学習する。物体検出モデル240としては既存の手術の手法が用いられてよい。一例において、R-CNN(Regions with Convolutional Neural Network)、YOLO(You Only Look Once)、SSD(Single Shot MultiBox Detector)、DCN(Deformed Convolutional Networks)、DETR等の物体検出手法が用いられてよい。
【0063】
推論時においても、情報処理装置1は、入力された画像を分割画像252に分ける。情報処理装置1は、訓練されてパラメータが固定された対照学習モデル230(図7を参照)にそれぞれの分割画像252を入力して特徴マップを生成する。情報処理装置1は、訓練済みの物体検出モデル240に、特徴マップ233を入力して、クラス,境界位置情報(バウンディングボックス222),及び確信度228等のラベル253を推論する。
【0064】
情報処理装置1は、異なる時刻のフレーム画像221を用いて訓練された対照学習モデル230による推論結果によって摂動に対してロバスト(頑健)な特徴マップ233を生成する。そして、情報処理装置1は、特徴マップ233に基づいて物体検出モデル240を訓練する。したがって、本実施形態の機械学習方法によれば、摂動による影響を低減して物体検出の性能を向上することができる。
【0065】
〔B-2〕実施形態に係る情報処理装置1の機能構成例
〔B-2-1〕訓練フェーズ
図9は、実施形態に係る情報処理装置1による訓練フェーズにおける機能構成例を示すブロック図である。情報処理装置1は、訓練処理を実行するコンピュータの一例である。
【0066】
図9に示すように、情報処理装置1は、例示的に、記憶部311,取得部312,第1訓練実行部313,対象物検出部314,ID割当部315,画像取得部316,第2訓練実行部317,第3訓練実行部318,及びパッチ生成部319を備えてよい。これらの312~319の構成は、制御部320の一例である。
【0067】
記憶部311は、記憶領域の一例であり、情報処理装置1が利用する種々のデータを記憶する。記憶部311は、例えば、後述する図11に示すメモリ部12及び記憶装置14のうちの一方または双方が有する記憶領域により実現されてもよい。
【0068】
図9に示すように、記憶部311は、例示的に、訓練データ300,物体追跡モデル210,ラベル無し動画データ220,対照学習モデル230,物体検出モデル240,訓練画像データ250等を記憶可能であってよい。
【0069】
記憶部311が格納する情報は、テーブル形式であってもよく、他の形式であってもよい。一例において、記憶部311が格納する情報のうちの少なくとも1つは、データベース(DB)または配列等の種々の形式であってもよい。
【0070】
取得部312は、情報処理装置1で利用される種々の情報を取得する。例えば、取得部312は、記憶部311から訓練データ300を取得する。訓練データ300(別言すれば、学習データ)は、物体追跡モデル210の訓練用のデータセットであってよい。
【0071】
第1訓練実行部313は、訓練データ300を物体追跡モデル210(別言すれば、第1の機械学習モデル)に入力して物体追跡モデル210を訓練する。
【0072】
対象物検出部314は、訓練された物体追跡モデル210に、フレーム画像221-1(第1のフレーム画像の一例)とフレーム画像221-2(第2のフレーム画像の一例)とを少なくとも含むラベル無し動画データ220を入力してよい。対象物検出部314は、物体追跡モデル210の推論結果に基づいてフレーム画像221-1から対象物223-1(第1の対象物の一例)を検出する。同様に、対象物検出部314は、物体追跡モデル210の推論結果に基づいて、フレーム画像221-2から対象物223-2(第2の対象物の一例)を検出する。
【0073】
ID割当部315は、物体追跡モデル210による推論結果に基づいて、第1の対象物(対象物223-1等)と第2の対象物(対象物223-2等)との同一性を判断する。ID割当部315は、対象物223-1と対象物223-2とが同一の物体である場合には、対象物223-1と対象物223-2とに同一の識別情報225(別言すれば、物体ID)を割り当てる。
【0074】
画像取得部316は、対象物223-1と対象物223-2とが互いに同一性を有すると判断される場合に、第1データ226及び第2データ227を取得する。第1データ226は、対象物223-1を含む第1画像領域における画像データであり、第2データ227は、対象物223-2を含む第2画像領域における画像データである。第1データ226は、バウンディングボックス222-1の形状及び位置に対応してフレーム画像221-1から切り出された画像データであってよい。第2データ227は、バウンディングボックス222-2の形状及び位置に対応してフレーム画像221-2から切り出された画像データであってよい。
【0075】
第2訓練実行部317は、第1データ226及び第2データ227を対照学習モデル230に入力し、対照学習モデル230を訓練する。一例において、第2訓練実行部317は、第1データ226を対照学習モデル230に入力して対照学習モデル230から出力される第1特徴ベクトル231(第1の特徴量の一例)を得る。同様に、第2訓練実行部317は、第2データ227を対照学習モデル230に入力して対照学習モデル230から出力される第2特徴ベクトル232(第2の特徴量の一例)を得る。第2訓練実行部317は、第1特徴ベクトル231(z)と第2特徴ベクトル232(z)との一致度を高めるように対照学習モデル230のパラメータを調整する。一例において、損失関数Lφ=‐sim(z,z)が算出され、この損失関数Lφの値が最小になるようにパラメータφが更新されてよい。
【0076】
第3訓練実行部318は、訓練されてパラメータが固定された対照学習モデル230に基づいて、画像中から対象物を検出する物体検出モデル240を訓練する。第3訓練実行部318は、物体検出モデル240の訓練に訓練画像データ250を用いる。訓練画像データ250は、画像と、ラベル253を有してよい。
【0077】
訓練画像データ250は、訓練データ300と一部または全部が共通していてもよく、訓練データ300と異なるデータであってもよい。
【0078】
訓練画像データ250は、パッチ生成部319によって複数の分割領域251に分割され、複数の分割画像252(別言すれば、パッチ)が生成される。分割領域251のサイズは、対象物の標準的なサイズ等に応じて予め定められてよい。
【0079】
第3訓練実行部318は、訓練されてパラメータが固定された対照学習モデル230(図7を参照)にそれぞれの分割画像252を入力して、それぞれの特徴ベクトル(別言すれば、表現ベクトル)を得る。一例において、第3訓練実行部318は、分割領域251毎の特徴ベクトルで表される特徴マップ233を各フレームについて算出する。
【0080】
第3訓練実行部318は、特徴マップ233とラベル253を物体検出モデル240に入力して訓練する。これによって物体検出モデル240において、特徴マップ233における位置毎の特徴量と、正解となるバウンディングボックス222及びクラス等のラベル253とに基づいて、パラメータが変更される。
【0081】
摂動にロバスト(別言すれば、頑健)な特徴マップ233を用いて物体検出モデル240を訓練することができるので、摂動にロバストな物体検出モデル240を実現することができる。
【0082】
対象物223の角度,遮蔽物224の有無,モーションブラーの有無,及び照明の違い等を反映したバラエティーに富んだデータを用いて生成された特徴マップ233のデータ量を増加することが可能になる。したがって、データ数が増加された特徴マップ233を用いて物体検出モデル240を訓練することによって、物体検出モデル240の過学習に起因した物体検出の性能低下を抑制することができる。
【0083】
〔B-2-2〕推論フェーズ
図10は、実施形態に係る情報処理装置1による推論フェーズにおける機能構成例を示すブロック図である。
【0084】
情報処理装置1は、記憶部311,パッチ生成部319,及び推論部321を備える。パッチ生成部319及び推論部321は、制御部320の一例である。
【0085】
記憶部311は、対照学習モデル230及び物体検出モデル240を有してよい。対照学習モデル230及び物体検出モデル240は、訓練済みであり、パラメータが固定されてよい。
【0086】
記憶部311は、物体検出の対象となる入力画像260を記憶してよい。記憶部311は、推論処理によって得られた推論結果270を記憶してよい。
【0087】
パッチ生成部319は、入力画像260を取得し、入力画像260を複数の分割領域251に分割して、複数の分割画像252(パッチ)を生成する。分割領域251及び分割画像252は、対象となる画像が訓練画像データ250であるか入力画像260であるかの違いを除いて同様である。
【0088】
推論部321は、訓練されてパラメータが固定された対照学習モデル230(図7)にそれぞれの分割画像252を入力して、それぞれの特徴ベクトル(表現ベクトル)を得る。一例において、推論部321は、対照学習モデル230を用いて分割領域251毎の特徴ベクトルで表される特徴マップ233を算出する。
【0089】
推論部321は、算出された特徴マップ233を物体検出モデル240に入力して、物体検出モデル240によってラベルを推定する。一例において、推論部321は、図6に示される場合と同様に、対象物の境界位置情報であるバウンディングボックス222,対象物のクラス,及び確信度228等を推定する。
【0090】
なお、物体検出モデル240による推定結果を図4に示された追跡モデル214に入力することによって新たな物体追跡モデルが構成されてもよい。
【0091】
〔B-3〕実施形態に係る情報処理装置1のハードウェア構成例
図11は、実施形態に係る情報処理装置1の機能を実現するコンピュータのハードウェア(HW)構成例を示すブロック図である。
【0092】
図11に示すように、情報処理装置1は、CPU11,メモリ部12,表示制御部13,記憶装置14,入力IF15,外部記録媒体処理部16及び通信IF17を備える。
【0093】
メモリ部12は、記憶部の一例であり、例示的に、Read Only Memory(ROM)及びRandom Access Memory(RAM)などである。メモリ部12のROMには、Basic Input/Output System(BIOS)等のプログラムが書き込まれてよい。メモリ部12のソフトウェアプログラムは、CPU11に適宜に読み込まれて実行されてよい。また、メモリ部12のRAMは、一時記録メモリあるいはワーキングメモリとして利用されてよい。
【0094】
表示制御部13は、表示装置131と接続され、表示装置131を制御する。表示装置131は、液晶ディスプレイやOrganic Light-Emitting Diode(OLED)ディスプレイ,Cathode Ray Tube(CRT),電子ペーパーディスプレイ等であり、オペレータ等に対する各種情報を表示する。表示装置131は、入力装置と組み合わされたものでもよく、例えば、タッチパネルでもよい。
【0095】
記憶装置14は、高IO性能の記憶装置であり、例えば、Dynamic Random Access Memory(DRAM)やSSD,Storage Class Memory(SCM),HDDが用いられてよい。記憶装置14は、ネットワーク構成テーブル101を記憶してよい。
【0096】
入力IF15は、マウス151やキーボード152等の入力装置と接続され、マウス151やキーボード152等の入力装置を制御してよい。マウス151やキーボード152は、入力装置の一例であり、これらの入力装置を介して、オペレータが各種の入力操作を行なう。
【0097】
外部記録媒体処理部16は、記録媒体160が装着可能に構成される。外部記録媒体処理部16は、記録媒体160が装着された状態において、記録媒体160に記録されている情報を読み取り可能に構成される。本例では、記録媒体160は、可搬性を有する。例えば、記録媒体160は、フレキシブルディスク、光ディスク、磁気ディスク、光磁気ディスク、または、半導体メモリ等である。
【0098】
通信IF17は、外部装置との通信を可能にするためのインタフェースである。
【0099】
CPU11は、プロセッサ(別言すれば、コンピュータ)の一例であり、種々の制御や演算を行なう処理装置である。CPU11は、メモリ部12に読み込まれたOperating System(OS)やプログラムを実行することにより、種々の機能を実現する。なお、CPU11は、複数のCPUを含むマルチプロセッサであってもよいし、複数のCPUコアを有するマルチコアプロセッサであってもよく、或いは、マルチコアプロセッサを複数有する構成であってもよい。
【0100】
情報処理装置1全体の動作を制御するための装置は、CPU11に限定されず、例えば、MPUやDSP,ASIC,PLD,FPGAのいずれか1つであってもよい。また、情報処理装置1全体の動作を制御するための装置は、CPU,MPU,DSP,ASIC,PLD及びFPGAのうちの2種類以上の組み合わせであってもよい。なお、MPUはMicro Processing Unitの略称であり、DSPはDigital Signal Processorの略称であり、ASICはApplication Specific Integrated Circuitの略称である。また、PLDはProgrammable Logic Deviceの略称であり、FPGAはField Programmable Gate Arrayの略称である。
【0101】
〔B-4〕実施形態に係る情報処理装置1の動作例
〔B-4-1〕訓練フェーズ
図11に示した実施形態の情報処理装置1の訓練フェーズにおける動作の一例を、図12に示すフローチャート(ステップS1~ステップS6)に従って説明する。
【0102】
取得部312は、既存の訓練データ300を取得する。第1訓練実行部313は、既存の訓練データ300を用いて物体追跡モデル210を訓練する(ステップS1)。図4に示されるように、物体追跡モデル210は、物体検出モデル212と追跡モデル214とを含んでよい。
【0103】
対象物検出部314は、ラベル無し動画データ220に対して、訓練された物体追跡モデル210を適用する(ステップS2)。対象物検出部314は、ラベル無し動画データ220において、各対象物223を検出する。
【0104】
ID割当部315は、物体追跡モデル210による推論結果に基づいて、対象物223-1(別言すれば、第1の対象物)と対象物223-2(別言すれば、第2の対象物)との同一性を判断する。ID割当部315は、対象物223-1と対象物223-2とが同一の物体である場合には、対象物223-1と対象物223-2とに同一の識別情報225(別言すれば、物体ID)を割り当てる。画像取得部316は、物体追跡の結果、同一の識別情報225(別言すれば、物体ID)となった異なる時刻のペアの画像を切り出す(ステップS3)。
【0105】
一例において、ペアの画像は、第1データ226及び第2データ227である。第1データ226は、対象物223-1を含む第1画像領域における画像データであり、第2データ227は、対象物223-2を含む第2画像領域における画像データである。
【0106】
第2訓練実行部317は、ペアの画像である第1データ226及び第2データ227を対照学習モデル230に入力し、対照学習モデル230を訓練する(ステップS4)。
【0107】
パッチ生成部319は、訓練データとして訓練画像データ250を取得する。パッチ生成部319は、訓練画像データ250を複数のパッチに分けて、パラメータを固定した対照学習モデル230に入力して、特徴マップ233を得る(ステップS5)。
【0108】
第3訓練実行部318は、特徴マップ233と、訓練画像データ250のラベル253を用いて、新たに物体検出モデル240を訓練する(ステップS6)。そして、訓練フェーズにおける処理は終了する。
【0109】
〔B-4-2〕推論フェーズ
図11に示した実施形態の情報処理装置1の推論フェーズにおける動作の一例を、図13に示すフローチャート(ステップS11~ステップS13)に従って説明する。
【0110】
制御部320は、少なくとも1枚の入力画像260を受け取る(ステップS11)。
【0111】
パッチ生成部319は、入力画像260を取得する。パッチ生成部319は、入力画像260を複数のパッチに分ける。推論部321は、訓練されてパラメータが固定された対照学習モデル230(図7を参照)にそれぞれのパッチを入力して、それぞれの特徴ベクトル(別言すれば、表現ベクトル)を得る。一例において、推論部321は、対照学習モデル230を用いて分割領域毎の特徴ベクトルで表される特徴マップ233を得る(ステップS12)。特徴マップ233は、対象となる画像が訓練画像データ250であるか入力画像260であるかの違いを除いて特徴マップ233と同様である。
【0112】
推論部321は、算出された特徴マップ233を物体検出モデル240に入力して、物体検出に関する推論結果270を得る(ステップS13)。そして、推論フェーズにおける処理は終了する。
【0113】
〔C〕第1変形例
〔C-1〕第1変形例における訓練処理の説明
図14は、第1変形例に係る情報処理装置1による物体検出モデル242の訓練処理の一例を示す図である。物体検出モデル242は、訓練された対照学習モデル230に基づいて、画像中から対象物を検出する第2の機械学習モデルの一例である。
【0114】
第1変形例の処理は、図3図7に示される処理においては、実施形態の場合と共通する。したがって、繰り返しの説明を省略する。第1変形例の処理は、実施形態の図8に示される処理に代えて、図14に示される処理を含む。
【0115】
図14に示されるように、第1変形例においては、制御部320のうち、パッチ生成部319は、第1の分割解像度(例えば、高解像度),第2の分割解像度(例えば、中解像度),及び第3の分割解像度(例えば、低解像度)に応じて、それぞれ分割画像252を得る。
【0116】
一例において、パッチ生成部319は、入力される訓練画像データ250を第1の分割解像度に応じて複数の第1分割領域251aに分割して複数の第1分割画像252aを得る。また、パッチ生成部319は、入力される訓練画像データ250を第1の分割解像度と異なる第2の分割解像度に応じて複数の第2分割領域251bに分割して複数の第2分割画像252bを得る。さらに、パッチ生成部319は、入力される訓練画像データ250を第1及び第2の分割解像度と異なる第3の分割解像度に応じて複数の第3分割領域251cに分割して複数の第3分割画像252cを得る。
【0117】
第3訓練実行部318は、訓練されてパラメータが固定された対照学習モデル230(図7を参照)にそれぞれの第1分割画像252aを入力して、それぞれの特徴ベクトル(別言すれば、表現ベクトル)を得る。一例において、第3訓練実行部318は、第1分割領域251a毎の特徴ベクトルで表される第1解像度特徴マップ233aを算出する。
【0118】
同様に、第3訓練実行部318は、対照学習モデル230にそれぞれの第2分割画像252bを入力して、それぞれの特徴ベクトル(別言すれば、表現ベクトル)を得る。一例において、第3訓練実行部318は、第2分割領域251b毎の特徴ベクトルで表される第2解像度特徴マップ233bを算出する。
【0119】
第3訓練実行部318は、対照学習モデル230にそれぞれの第3分割画像252cを入力して、それぞれの特徴ベクトル(別言すれば、表現ベクトル)を得る。一例において、第3訓練実行部318は、第3分割領域251c毎の特徴ベクトルで表される第3解像度特徴マップ233cを算出する。
【0120】
第3訓練実行部318は、第1解像度特徴マップ233a,第2解像度特徴マップ233b,第3解像度特徴マップ233c,及び訓練画像データ250に基づいて、物体検出モデル242を訓練する。一例において、訓練画像データ250は、画像データとラベル253とを有する教師あり訓練データであってよい。
【0121】
一例において、物体検出モデル242の入力層には、訓練画像データ250(ラベル253を含む)が入力されてよい。対照学習モデル230の出力(第1解像度特徴マップ233a、第2解像度特徴マップ233b、第3解像度特徴マップ233c等)は、それぞれ物体検出モデル242の中間層出力に結合してよい。
【0122】
物体検出モデル242は、DNN(ディープニューラルネット)ベースの物体検出モデルであってよい。この場合に、物体検出モデル242の中間層出力は、互いに異なる解像度に対応している場合がある。一例において、CNN(畳み込みニューラルネットワーク)ベースの物体検出モデルの場合、出力層に近づくにつれて徐々に内部的な画像の解像度を低くしつつ物体検出が行なわれる。
【0123】
物体検出モデル242の各中間層出力の解像度が既知である場合には、第1の分割解像度,第2の分割解像度,及び第3の分割解像度等の各分割解像度を各中間層出力の解像度に対応させてよい。この場合、中間層には、当該中間層の出力解像度に対応する分割解像度の解像度特徴マップが結合される。
【0124】
サイズが異なる複数種類の対象物223が存在する場合において、複数種類の分割解像度に応じたサイズのパッチに分けて得られた複数種類の特徴マップ(233a、233b、233c)によって、物体検出モデル242を訓練する。したがって、サイズの異なる対象物223に対する検出精度を向上することができる。
【0125】
図14においては、第1~第3の分割解像度という3段階の分割解像度の場合が示されたが、本実施形態は、この場合に限られず、2段階以上の分割解像度であればよい。物体検出モデル242の畳み込み層とプーリング層の層数に応じて、分割解像度の段階が設定されてよい。
【0126】
以上の点を除いて、第1変形例における物体検出モデル242の訓練処理は、実施形態の場合と同様である。したがって、第1変形例に係る情報処理装置1のソフトウェア構成及びハードウェア構成についての説明は省略する。
【0127】
〔C-2〕第1変形例における情報処理装置1の動作例
〔C-2-1〕訓練フェーズ
第1変形例に係る情報処理装置1の訓練フェーズにおける動作の一例を、図15に示すフローチャート(ステップS21~ステップS28)に従って説明する。
【0128】
ステップS21~ステップS24の処理は、図12におけるステップS1~S4の処理とそれぞれ同様である。したがって、説明を省略する。
【0129】
パッチ生成部319は、パッチサイズを選択する(ステップS25)。パッチサイズは、分割領域251の辺の長さであってよい。パッチサイズは、分割解像度に反比例してよい。パッチサイズが大きくなるにつれて、分割解像度は低くなる。パッチサイズの種類は、予め設定されてよい。
【0130】
パッチ生成部319は、選択されたパッチサイズに従って訓練画像データ250をパッチに分けて、パラメータを固定した対照学習モデル230に入力して、特徴マップ(例えば、第1解像度特徴マップ233a)を得る(ステップS26)。
【0131】
パッチ生成部319は、全てのパッチサイズの特徴マップを得たか否かを判断する(ステップS27)。まだ得ていないパッチサイズの特徴マップがある場合には(ステップS27:NOルート参照)、パッチ生成部319は、次のパッチサイズを選択する(ステップS25)。全てのパッチサイズの特徴マップを得た場合には(ステップS27:YESルート参照)、処理はステップS28に進む。
【0132】
第3訓練実行部318は、各特徴マップ(233a,233b,233c)と、訓練データである訓練画像データ250のラベル253と画像とを物体検出モデル242に入力することで、物体検出モデル242を訓練する(ステップS28)。そして、訓練フェーズにおける処理は終了する。
【0133】
〔C-2-2〕推論フェーズ
第1変形例に係る情報処理装置1の推論フェーズにおける動作の一例を、図16に示すフローチャート(ステップS31~ステップS35)に従って説明する。
【0134】
制御部320は、少なくとも1枚の入力画像260を受け取る(ステップS31)。
【0135】
パッチ生成部319は、パッチサイズを選択する(ステップS32)。
【0136】
パッチ生成部319は、選択されたパッチサイズに従って入力画像260をパッチに分けて、パラメータを固定した対照学習モデル230に入力して、特徴マップ(例えば、第1解像度特徴マップ233a)を得る(ステップS33)。
【0137】
パッチ生成部319は、全てのパッチサイズの特徴マップを得たか否かを判断する(ステップS34)。まだ得ていないパッチサイズの特徴マップがある場合には(ステップS34:NOルート参照)、パッチ生成部319は、次のパッチサイズを選択する(ステップS32)。全てのパッチサイズの特徴マップを得た場合には(ステップS34:YESルート参照)、処理はステップS35に進む。
【0138】
ステップS35においては、推論部321は、入力画像260と、各特徴マップ(233a,233b,233c)とを物体検出モデル242に入力して、物体検出に関する推論結果270を得る。
【0139】
〔D〕第2変形例
〔D-1〕第2変形例における訓練処理の説明
実施形態及び第1変形例においては、物体検出モデル240,242とは別に対照学習モデル230(符号化器)を設けられる場合が示された。但し、本実施形態は、この場合に限られない。第2変形例の機械学習方法においては、物体検出モデルの一部の機能が対照学習モデル(別言すれば、符号化器)として用いられる。
【0140】
図17は、第2変形例に係る分離型物体検出モデル280について示す図である。分離型物体検出モデル280(decoupled object detection model)は、物体検出モデルの一例であり、第2の機械学習モデルの一例である。
【0141】
分離型物体検出モデル280(別言すれば、分離型物体検出ヘッド)においては、クラス分類用特徴抽出部281とバウンディングボックス用特徴抽出部282とが分離されている。クラス分類用特徴抽出部281は、物体検出の機能のうち、クラス分類のための特徴量を抽出する。バウンディングボックス用特徴抽出部282は、バウンディングボックス生成のための特徴量を抽出する。クラス分類用特徴抽出部281は、対象物のクラス分類に関する特徴量を出力するためのクラス分類モデルの一例である。バウンディングボックス用特徴抽出部282は、動画における対象物の境界位置情報に関する特徴量を出力する位置情報モデルの一例である。
【0142】
特徴マップ283は、分離型物体検出モデル280に入力されると、入力部284において、クラス分類用特徴抽出部281と、バウンディングボックス用特徴抽出部282とに分けられる。
【0143】
クラス分類用特徴抽出部281からの出力は、クラス分類部285によってクラス分類される。バウンディングボックス用特徴抽出部282からの出力は、バウンディングボックス回帰予測部286(regression)に入力される。バウンディングボックス回帰予測部286は、バウンディングボックスの位置を算出する。
【0144】
分離型物体検出モデル280は、一例において、YOLOXベースの物体検出モデルであってよい。
【0145】
第2変形例においては、分離型物体検出モデル280のうち、クラス分類用特徴抽出部281を対照学習モデルとして用いる。クラス分類用特徴抽出部281は符号化器の一例である。
【0146】
図18は、第2変形例に係る情報処理装置1による分離型物体検出モデル280の訓練処理の一例を示す図である。
【0147】
図19は、第2変形例に係る情報処理装置1による訓練フェーズにおける機能構成例を示すブロック図である。図20は、第2変形例に係る情報処理装置1による推論フェーズにおける機能構成例を示すブロック図である。
【0148】
図19及び図20に示されるとおり、第2変形例の情報処理装置1においては、実施形態に係る情報処理装置1に比べて、第2訓練実行部317が省略されてよい。第3訓練実行部318が、第2訓練実行部317の機能を実現する。第2変形例の情報処理装置1においては、パッチ生成部319が省略されてよい。
【0149】
図18及び図19に示されるように、最適化部322が設けられてよい。最適化部322は、後述のように、第1要素286aの値(別言すれば、第1のクラス分類用特徴量)と第2要素286bの値(別言すれば、第2のクラス分類用特徴量)との一致度を高めるようにクラス分類用特徴抽出部281を機械学習する。
【0150】
第2変形例に係る情報処理装置1は、実施形態における図3図6に示される処理と同様の処理を実行する。情報処理装置1は、互いに同一の物体である対象物223-1(別言すれば、第1の対象物)を含む第1フレーム画像(別言すれば、フレーム画像221-1),223-2(別言すれば、第2の対象物)を含む第2フレーム画像(別言すれば、フレーム画像221-2)を得る。
【0151】
画像取得部316は、対象物223-1(別言すれば、第1の対象物)と対象物223-2(別言すれば、第2の対象物)とが互いに同一性を有すると判断される場合に、第1データ226及び第2データ227を取得する。
【0152】
実施形態及び第1変形例においては、主として、第1データ226は、バウンディングボックス222-1の形状及び位置に対応してフレーム画像221-1から切り出された画像データである場合が示された。第2データ227も、同様にフレーム画像221-2から切り出された画像データである場合が示された。
【0153】
第2変形例においては、第1データ226は、フレーム画像221-1の全体であってよい。第2データ227は、フレーム画像221-2の全体であってよい。
【0154】
第2変形例においては、第3訓練実行部318(第2訓練実行部317を兼ねる)は、対照学習モデルとしても機能するクラス分類用特徴抽出部281に第1データ226及び第2データ227をそれぞれ入力する。
【0155】
物体追跡の結果、異なる時刻(t-1,t)で同じ物体である対象物(223-1,223-2)が検出された場合、第3訓練実行部318は、対象物(223-1,223-2)の各時刻での位置に対応する特徴マップ上の第1要素288a(t-1時)及び第2要素288b(t時)を取得する。第3訓練実行部318は、第1要素288aの値と第2要素288bの値を取得する。
【0156】
第1要素288aの値は、第1データ226をクラス分類モデルに入力して得られる第1のクラス分類用特徴量289aの一例である。第2要素288bの値は、第2データ227をクラス分類モデルに入力して得られる第2のクラス分類用特徴量289bの一例である。
【0157】
ペアとなる対象物223の組は、複数組あってよい。ペアの数は予め定められてよい。
【0158】
最適化部322は、第1のクラス分類用特徴量289a(z)と第2のクラス分類用特徴量289b(z)との一致度を高めるようにクラス分類用特徴抽出部281を機械学習する。最適化部322は、損失関数Lφ=‐sim(z,z)が算出され、この損失関数Lφの値が最小になるようにパラメータφが更新されてよい。
【0159】
取り出された第1のクラス分類用特徴量289aと第2のクラス分類用特徴量289b(z)とは、同じ物体に対する特徴量であるので、対照学習と同様の考え方を適用することができる。
【0160】
クラス分類用特徴抽出部281等によるクラス分類の機械学習、バウンディングボックス用特徴抽出部282等による境界位置情報の機械学習と、対照学習とが並行して実施されてよい。この場合には、ラベル無し動画データ220に代えて、ラベル付き動画データが入力されてよい。
【0161】
第2変形例のように、物体検出モデル(分離型物体検出モデル280)の一部の機能が対照学習モデル(符号化器)として用いられる場合においても訓練が可能となり、対照学習モデルを別個に訓練する場合に比べても、物体検出に適した訓練が可能となり得る。
〔D-2〕第2変形例における情報処理装置1の動作例
〔D-2-1〕訓練フェーズ
第2変形例に係る情報処理装置1の訓練フェーズにおける動作の一例を、図21に示すフローチャート(ステップS41~ステップS48)に従って説明する。
【0162】
ステップS41~ステップS42の処理は、図12におけるステップS1~S2の処理とそれぞれ同様である。したがって、説明を省略する。
【0163】
ID割当部315は、物体追跡モデル210による推論結果に基づいて、対象物223-1(別言すれば、第1の対象物)と対象物223-2(別言すれば、第2の対象物)との同一性を判断する。ID割当部315は、対象物223-1と対象物223-2とが同一の物体である場合には、対象物223-1と対象物223-2とに同一の識別情報225(別言すれば、物体ID)を割り当てる。画像取得部316は、物体追跡の結果、同一の識別情報225(別言すれば、物体ID)となった異なる時刻のペアの対象物223-1,223-2を見つける(ステップS43)。
【0164】
画像取得部316は、ペアの対象物223-1,223-2が含まれる画像を選択する(ステップS44)。ペアの画像は、フレーム画像221-1の全体及びフレーム画像221-2の全体であってよい。
【0165】
第3訓練実行部318は、選択されたペアの画像(別言すれば、第1データ226,第2データ227)をそれぞれ物体検出モデルに入力する(ステップS45)。一例において、フレーム画像221-1の全体及びフレーム画像221-2の全体が分離型物体検出モデル280に入力される。
【0166】
第3訓練実行部318は、対象物223-1,223-2の各時刻での位置に対応する特徴マップ上の第1要素288a及び第2要素288bを特定する(ステップS46)。
【0167】
第3訓練実行部318は、同一性が認められた全ての対象物223のペアについて、第1要素288a及び第2要素288bが特定されたか否かを判断する(ステップS47)。同一性が認められた全ての対象物223のペアについて、第1要素288a及び第2要素288bが特定されていない場合には(ステップS47:NOルート参照)、第3訓練実行部318は、他のペアの対象物が含まれる画像を選択する(ステップS44)。同一性が認められた全ての対象物223のペアについて、第1要素288a及び第2要素288bが特定された場合には(ステップS47:YESルート参照)、処理はステップS48に進む。
【0168】
最適化部322は、特定された全てのペアにおける第1要素288aの値と第2要素288bの値の一致度を高めるように、対照学習によってクラス分類用特徴抽出部281を機械学習する(ステップS48)。最適化部322は、第1のクラス分類用特徴量289a(z)と第2のクラス分類用特徴量289b(z)との一致度を高めるようにクラス分類用特徴抽出部281を機械学習する。最適化部322は、各ペアにおいて損失関数Lφ=‐sim(z,z)が算出され、全てのペアについて損失関数Lφを合計した値が最小になるようにパラメータφが更新されてよい。そして、訓練フェーズにおける処理は終了する。
【0169】
〔D-2-2〕推論フェーズ
第2変形例に係る情報処理装置1の推論フェーズにおける動作の一例を、図22に示すフローチャート(ステップS51~ステップS52)に従って説明する。
【0170】
制御部320は、少なくとも1枚の入力画像260を受け取る(ステップS51)。
【0171】
訓練されてパラメータが固定された物体検出モデルである分離型物体検出モデル280に入力画像260を入力して、推論結果270を得る(ステップS52)。そして、推論フェーズにおける処理は終了する。
【0172】
〔E〕効果
上述した実施形態の一例によれば、例えば、以下の作用効果を奏することができる。
【0173】
制御部320は、訓練データ300を用いて訓練された物体追跡モデル210に、第1のフレーム画像(フレーム画像221-1等)と第2のフレーム画像(フレーム画像221-2等)とを少なくとも含むラベル無し動画データ220を入力する。制御部320は、物体追跡モデル210による推論結果に基づいて、第1のフレーム画像(フレーム画像221-1等)及び第2のフレーム画像(フレーム画像221-2等)からそれぞれ対象物223-1(別言すれば、第1対象物)及び対象物223-2(別言すれば、第2対象物)を検出する。制御部320は、検出された対象物223-1と対象物223-2との同一性を判断する。制御部320は、同一性を有すると判断された対象物223-1を含む第1画像領域における第1データ226と対象物223-2を含む第2画像領域における第2データ227とを対照学習モデル230に入力して対照学習モデル230を訓練する。
【0174】
これにより、遮蔽物224等に起因する摂動による影響を低減して物体検出の性能を向上することができる。対照学習モデル230によって訓練データの量を増加させることができるので、過学習などによる物体の検出性能の低下を抑制することができる。
【0175】
特別のデータ拡張処理を経由せずとも、対象物223の角度,遮蔽物224の有無,モーションブラーの有無,及び照明の違い等の差異等が考慮された対照学習用の画像のペアを取得することができる。ラベル伝播により擬似的にラベルを増やす方法に比べて、バリエーション豊かな訓練データが得られる。したがって、対象物223の角度,遮蔽物224の有無,モーションブラーの有無,及び照明の違い等の差異に対してロバスト(別言すれば、頑健)な物体検知を実現することができる。
【0176】
制御部320は、対照学習モデル230を訓練する処理において、第1データ226を対照学習モデル230に入力して得られる第1の特徴量と、第2データ227を第2の特徴量との一致度を高めるように機械学習する。
【0177】
これにより、遮蔽物224等による摂動に頑健な対照学習モデル230が得られる。
【0178】
制御部320は、訓練された対照学習モデル230に基づいて、画像中から対象物を検出する物体検出モデル240を訓練する。
【0179】
遮蔽物224等による摂動に頑健な対照学習モデル230を活かした物体検出モデル240の訓練を行なうことができ、より頑健な物体検出が可能となる。対照学習モデル230によってバラエティーに富む訓練データの量を増やすことができるので、過学習が抑制される。
【0180】
制御部320は、物体検出モデル240を訓練する処理において、入力される訓練画像データ250を複数の分割領域251に分割して複数の分割画像252を得る。制御部320は、各分割領域251の分割画像252を対照学習モデル230に入力して、分割領域251におけるそれぞれの特徴量を算出し、算出された結果と、入力される訓練画像データ250に対応するラベル253とに基づいて物体検出モデル240を訓練する。
【0181】
これにより、構成を複雑化することなく、対照学習モデル230による訓練結果を物体検出モデル240に反映させることが可能となる。
【0182】
制御部320は、物体検出モデル242を訓練する処理において、入力される訓練画像データ250を第1の分割解像度に応じて複数の第1分割領域251aに分割して複数の第1分割画像252aを得る。制御部320は、入力される訓練画像データ250を第1の分割解像度と異なる第2の分割解像度に応じて複数の第2分割領域251bに分割して複数の第2分割画像252bを得る。制御部320は、第1分割領域251aのそれぞれにおける第1分割画像252aを対照学習モデル230に入力して、第1分割領域251aにおけるそれぞれの特徴量を示す第1解像度特徴マップ233aを得る。制御部320は、第2分割領域251bのそれぞれにおける第2分割画像252bを対照学習モデル230に入力して、第2分割領域251bにおけるそれぞれの特徴量を示す第2解像度特徴マップ233bを得る。制御部320は、第1解像度特徴マップ233a、第2解像度特徴マップ233b、及び訓練画像データ250に基づいて、物体検出モデル242を訓練する。
【0183】
これにより、検出対象物が画像中に様々なスケールで表れる場合にも効果的に物体検出性能を向上することができる。
【0184】
物体検出モデルとして、動画における対象物の境界位置情報に関する特徴量を出力する位置情報モデルと、対象物のクラス分類に関する特徴量を出力するためのクラス分類用特徴抽出部281(別言すれば、クラス分類モデル)とを含む分離型物体検出モデル280が用いられる。分離型物体検出モデル280において、クラス分類用特徴抽出部281が対照学習モデル(別言すれば、符号化器)として用いられる。制御部320は、第1データ226をクラス分類用特徴抽出部281に入力して得られる第1のクラス分類用特徴量289aと、第2データ227をクラス分類用特徴抽出部281に入力して得られる第2のクラス分類用特徴量289bとの一致度を高めるように機械学習する。
【0185】
これにより、物体検出モデル(別言すれば、分離型物体検出モデル280)の一部を対照学習モデルとして兼用することができ、物体検出と対照学習の親和性が高い処理を実現することができる。
【0186】
〔F〕その他
開示の技術は上述した実施形態に限定されるものではなく、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。本実施形態の各構成及び各処理は、必要に応じて取捨選択することができ、あるいは適宜組み合わせてもよい。
【0187】
〔G〕付記
以上の実施形態に関し、さらに以下の付記が開示される。
【0188】
(付記1)
訓練データを用いて訓練された第1の機械学習モデルに、第1のフレーム画像と第2のフレーム画像とを少なくとも含む動画データを入力し、
前記第1の機械学習モデルによる推論結果に基づいて、前記第1のフレーム画像及び前記第2のフレーム画像からそれぞれ第1対象物及び第2対象物を検出し、検出された前記第1対象物と前記第2対象物との同一性を判断し、前記同一性を有すると判断された前記第1対象物を含む第1画像領域における第1データと前記第2対象物を含む第2画像領域における第2データとを符号化器に入力して前記符号化器を訓練する、
処理をコンピュータに実行させる、機械学習プログラム。
【0189】
(付記2)
前記符号化器を訓練する処理において、
前記第1データを前記符号化器に入力して得られる第1の特徴量と、前記第2データを第2の特徴量との一致度を高めるように機械学習する、
処理を前記コンピュータに実行させる、付記1に記載の機械学習プログラム。
【0190】
(付記3)
訓練された前記符号化器に基づいて、画像中から対象物を検出する第2の機械学習モデルを訓練する、
処理を前記コンピュータに実行させる、付記1または2に記載の機械学習プログラム。
【0191】
(付記4)
前記第2の機械学習モデルを訓練する処理において、
入力される画像データを複数の分割領域に分割して複数の分割画像を得て、
前記分割領域のそれぞれにおける前記分割画像を前記符号化器に入力して、前記分割領域におけるそれぞれの特徴量を算出し、
前記算出された結果と、前記入力される画像データに対応するラベルとに基づいて前記第2の機械学習モデルを訓練する、
処理を前記コンピュータに実行させる、付記3に記載の機械学習プログラム。
【0192】
(付記5)
前記第2の機械学習モデルを訓練する処理において、
入力される画像データを第1の分割解像度に応じて複数の第1分割領域に分割して複数の第1分割画像を得て、
入力される前記画像データを前記第1の分割解像度と異なる第2の分割解像度に応じて複数の第2分割領域に分割して複数の第2分割画像を得て、
前記第1分割領域のそれぞれにおける前記第1分割画像を前記符号化器に入力して、前記第1分割領域におけるそれぞれの特徴量を示す第1解像度特徴マップを得て、
前記第2分割領域のそれぞれにおける前記第2分割画像を前記符号化器に入力して、前記第2分割領域におけるそれぞれの特徴量を示す第2解像度特徴マップを得て、
前記第1解像度特徴マップ、前記第2解像度特徴マップ、及び前記画像データに基づいて、前記第2の機械学習モデルを訓練する、
処理を前記コンピュータに実行させる、付記3に記載の機械学習プログラム。
【0193】
(付記6)
動画における対象物の境界位置情報に関する特徴量を出力する位置情報モデルと、対象物のクラス分類に関する特徴量を出力するためのクラス分類モデルとを含む、第2の機械学習モデルにおいて、前記クラス分類モデルを前記符号化器として用い、
前記第1データを前記クラス分類モデルに入力して得られる第1のクラス分類用特徴量と、前記第2データを前記クラス分類モデルに入力して得られる第2のクラス分類用特徴量との一致度を高めるように機械学習する、
処理を前記コンピュータに実行させる、付記1または2に記載の機械学習プログラム。
【0194】
(付記7)
訓練データを用いて訓練された第1の機械学習モデルに、第1のフレーム画像と第2のフレーム画像とを少なくとも含む動画データを入力し、
前記第1の機械学習モデルによる推論結果に基づいて、前記第1のフレーム画像及び前記第2のフレーム画像からそれぞれ第1対象物及び第2対象物を検出し、検出された前記第1対象物と前記第2対象物との同一性を判断し、前記同一性を有すると判断された前記第1対象物を含む第1画像領域における第1データと前記第2対象物を含む第2画像領域における第2データとを符号化器に入力して前記符号化器を訓練する、
処理をコンピュータが実行する、機械学習方法。
【0195】
(付記8)
前記符号化器を訓練する処理において、
前記第1データを前記符号化器に入力して得られる第1の特徴量と、前記第2データを第2の特徴量との一致度を高めるように機械学習する、
処理を前記コンピュータが実行する、付記7に記載の機械学習方法。
【0196】
(付記9)
訓練された前記符号化器に基づいて、画像中から対象物を検出する第2の機械学習モデルを訓練する、
処理を前記コンピュータが実行する、付記7または8に記載の機械学習方法。
【0197】
(付記10)
前記第2の機械学習モデルを訓練する処理において、
入力される画像データを複数の分割領域に分割して複数の分割画像を得て、
前記分割領域のそれぞれにおける前記分割画像を前記符号化器に入力して、前記分割領域におけるそれぞれの特徴量を算出し、
前記算出された結果と、前記入力される画像データに対応するラベルとに基づいて前記第2の機械学習モデルを訓練する、
処理を前記コンピュータが実行する、付記9に記載の機械学習方法。
【0198】
(付記11)
前記第2の機械学習モデルを訓練する処理において、
入力される画像データを第1の分割解像度に応じて複数の第1分割領域に分割して複数の第1分割画像を得て、
入力される前記画像データを前記第1の分割解像度と異なる第2の分割解像度に応じて複数の第2分割領域に分割して複数の第2分割画像を得て、
前記第1分割領域のそれぞれにおける前記第1分割画像を前記符号化器に入力して、前記第1分割領域におけるそれぞれの特徴量を示す第1解像度特徴マップを得て、
前記第2分割領域のそれぞれにおける前記第2分割画像を前記符号化器に入力して、前記第2分割領域におけるそれぞれの特徴量を示す第2解像度特徴マップを得て、
前記第1解像度特徴マップ、前記第2解像度特徴マップ、及び前記画像データに基づいて、前記第2の機械学習モデルを訓練する、
処理を前記コンピュータが実行する、付記9に記載の機械学習方法。
【0199】
(付記12)
動画における対象物の境界位置情報に関する特徴量を出力する位置情報モデルと、対象物のクラス分類に関する特徴量を出力するためのクラス分類モデルとを含む、第2の機械学習モデルにおいて、前記クラス分類モデルを前記符号化器として用い、
前記第1データを前記クラス分類モデルに入力して得られる第1のクラス分類用特徴量と、前記第2データを前記クラス分類モデルに入力して得られる第2のクラス分類用特徴量との一致度を高めるように機械学習する、
処理を前記コンピュータが実行する、付記7または付記8に記載の機械学習方法。
【0200】
(付記13)
訓練データを用いて訓練された第1の機械学習モデルに、第1のフレーム画像と第2のフレーム画像とを少なくとも含む動画データを入力し、
前記第1の機械学習モデルによる推論結果に基づいて、前記第1のフレーム画像及び前記第2のフレーム画像からそれぞれ第1対象物及び第2対象物を検出し、検出された前記第1対象物と前記第2対象物との同一性を判断し、前記同一性を有すると判断された前記第1対象物を含む第1画像領域における第1データと前記第2対象物を含む第2画像領域における第2データとを符号化器に入力して前記符号化器を訓練する、
プロセッサを備える、情報処理装置。
【0201】
(付記14)
前記符号化器を訓練する処理は、
前記第1データを前記符号化器に入力して得られる第1の特徴量と、前記第2データを第2の特徴量との一致度を高めるように機械学習する処理を含む、付記13に記載の情報処理装置。
【0202】
(付記15)
前記プロセッサは、訓練された前記符号化器に基づいて、画像中から対象物を検出する第2の機械学習モデルを訓練する、付記13または14に記載の情報処理装置。
【0203】
(付記16)
前記第2の機械学習モデルを訓練する処理は、
入力される画像データを複数の分割領域に分割して複数の分割画像を得て、
前記分割領域のそれぞれにおける前記分割画像を前記符号化器に入力して、前記分割領域におけるそれぞれの特徴量を算出し、
前記算出された結果と、前記入力される画像データに対応するラベルとに基づいて前記第2の機械学習モデルを訓練する、
処理を含む、付記15に記載の情報処理装置。
【0204】
(付記17)
前記第2の機械学習モデルを訓練する処理は、
入力される画像データを第1の分割解像度に応じて複数の第1分割領域に分割して複数の第1分割画像を得て、
入力される前記画像データを前記第1の分割解像度と異なる第2の分割解像度に応じて複数の第2分割領域に分割して複数の第2分割画像を得て、
前記第1分割領域のそれぞれにおける前記第1分割画像を前記符号化器に入力して、前記第1分割領域におけるそれぞれの特徴量を示す第1解像度特徴マップを得て、
前記第2分割領域のそれぞれにおける前記第2分割画像を前記符号化器に入力して、前記第2分割領域におけるそれぞれの特徴量を示す第2解像度特徴マップを得て、
前記第1解像度特徴マップ、前記第2解像度特徴マップ、及び前記画像データに基づいて、前記第2の機械学習モデルを訓練する、
処理を含む、付記15に記載の情報処理装置。
【0205】
(付記18)
動画における対象物の境界位置情報に関する特徴量を出力する位置情報モデルと、対象物のクラス分類に関する特徴量を出力するためのクラス分類モデルとを含む、第2の機械学習モデルにおいて、前記クラス分類モデルを前記符号化器として有し、
前記プロセッサは、前記第1データを前記クラス分類モデルに入力して得られる第1のクラス分類用特徴量と、前記第2データを前記クラス分類モデルに入力して得られる第2のクラス分類用特徴量との一致度を高めるように機械学習する、付記13または14に記載の情報処理装置。
【符号の説明】
【0206】
1 :情報処理装置
11 :プロセッサ
12 :メモリ部
13 :表示制御部
130 :表示装置
14 :記憶装置
15 :入力IF
151 :マウス
152 :キーボード
16 :外部記録媒体処理部
160 :記録媒体
17 :通信IF
200 :フレーム画像
201 :対象物
202 :バウンディングボックス
205 :クラス
210 :物体追跡モデル
212 :物体検出モデル
214 :追跡モデル
220 :ラベル無し動画データ
221 :フレーム画像
222 :バウンディングボックス
223 :対象物
223a :第1対象物
223b :第2対象物
224 :遮蔽物
225 :識別情報
226 :第1データ
227 :第2データ
228 :確信度
230 :対照学習モデル
231 :第1特徴ベクトル
232 :第2特徴ベクトル
250 :訓練画像データ
251 :分割領域
252 :分割画像
253 :ラベル
260 :入力画像
270 :推論結果
280 :分離型物体検出モデル
281 :クラス分類用特徴抽出部
282 :バウンディングボックス用特徴抽出部
283 :特徴マップ
284 :入力部
285 :クラス分類部
286 :バウンディングボックス回帰予測部
288a :第1要素
288b :第2要素
289a :第1のクラス分類用特徴量
289b :第2のクラス分類用特徴量
300 :訓練データ
311 :記憶部
312 :取得部
313 :第1訓練実行部
314 :対象物検出部
315 :ID割当部
316 :画像取得部
317 :第2訓練実行部
318 :第3訓練実行部
319 :パッチ生成部
320 :制御部
321 :推論部
322 :最適化部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22