特許7426613 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ パナソニックＩＰマネジメント株式会社の特許一覧

特許7426613学習方法、及び、プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3A
3B
4
5
6A
6B
7
8
9
10A
10B
10C
11
12
13
14
15
16
17A
17B
17C
17D
18
19
20

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-01-25

(45)【発行日】2024-02-02

(54)【発明の名称】学習方法、及び、プログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20240126BHJP

G06N 3/04 20230101ALI20240126BHJP

G06N 3/08 20230101ALI20240126BHJP

G06V 10/82 20220101ALI20240126BHJP

【ＦＩ】

G06T7/00 350C

G06N3/04

G06N3/08

G06V10/82

【請求項の数】 8

(21)【出願番号】P 2022029757

(22)【出願日】2022-02-28

(65)【公開番号】P2023125571

(43)【公開日】2023-09-07

【審査請求日】2023-02-06

(73)【特許権者】

【識別番号】314012076

【氏名又は名称】パナソニックＩＰマネジメント株式会社

(74)【代理人】

【識別番号】100109210

【弁理士】

【氏名又は名称】新居広守

(74)【代理人】

【識別番号】100137235

【弁理士】

【氏名又は名称】寺谷英作

(74)【代理人】

【識別番号】100131417

【弁理士】

【氏名又は名称】道坂伸一

(72)【発明者】

【氏名】磯部匠汰

(72)【発明者】

【氏名】吉濱豊

【審査官】小池正彦

(56)【参考文献】

【文献】WANG Peng, et al.，Contrastive Learning based Hybrid Networks for Long-Tailed Image Classification，2021 IEEE/CVF conference on Computer Vision and Pattern Recognition (CVPR)，米国，IEEE，2021年06月25日，p943-952，DOI: 10.1109/CVPR46437.2021.00100

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

Ｇ０６Ｎ３／０４

Ｇ０６Ｎ３／０８

Ｇ０６Ｖ１０／８２

(57)【特許請求の範囲】

【請求項1】

教師あり対照学習を利用した特徴表現学習を行うための第１ネットワークブランチと分類タスク及び分類タスク以外のタスクを含む画像認識技術分野タスクのタスク学習を行うための第２ネットワークブランチとからなるニューラルネットワークモデルをコンピュータが学習させる学習方法であって、
前記ニューラルネットワークモデルは、前記第１ネットワークブランチと前記第２ネットワークブランチとで共有されるエンコーダーネットワークモデルと、前記第１ネットワークブランチのみが有する第１モデルと、前記第２ネットワークブランチのみが有する第２モデルとで構成され、
予め準備された画像データと正解ラベルとからなるデータセットから、Ｎ個（Ｎは１以上の整数）の画像データ及び当該画像データに紐づく正解ラベルを取得し、
取得した前記Ｎ個の画像データ及び当該画像データに紐づく正解ラベルに対してデータ拡張処理を行い、Ｍ個（ＭはＮの整数倍）の画像データ及び当該画像データに紐づく正解ラベルを取得し、
前記エンコーダーネットワークモデルに、前記Ｍ個の画像データから、前記Ｍ個の画像データそれぞれの特徴表現を抽出させ、
前記第１モデルに、抽出された前記Ｍ個の画像データそれぞれの特徴表現を、前記教師あり対照学習で用いるための埋め込みベクトルに投影させ、
前記Ｍ個の画像データそれぞれの正解ラベルを、画像認識技術分野タスクの正解ラベルとして特徴表現学習に適用可能となるように変換するラベル処理を行わせ、
前記教師あり対照学習で用いるための第１損失関数と、前記ラベル処理された前記Ｍ個の画像データそれぞれの正解ラベルと、前記Ｍ個の画像データそれぞれの埋め込みベクトルとを用いて、前記エンコーダーネットワークモデル及び前記第１モデルを学習させ、
前記データ拡張処理が行われた前記Ｍ個の画像データを取得し、
前記エンコーダーネットワークモデルに、取得した前記Ｍ個の画像データから、前記Ｍ個の画像データそれぞれの特徴表現を抽出させ、
前記第２モデルに、抽出された前記Ｍ個の画像データそれぞれの特徴表現から、前記個Ｍ個の画像データそれぞれのラベルを推論させ、
前記タスク学習で用いるための第２損失関数と、推論された前記Ｍ個の画像データそれぞれのラベルと、前記Ｍ個の画像データそれぞれの正解ラベルとを用いて、前記エンコーダーネットワークモデル及び前記第２モデルを学習させ、
前記エンコーダーネットワークモデル、前記第１モデル及び前記第２モデルの学習は、同時に行われる、
学習方法。

【請求項2】

前記ラベル処理では、
次元ごとの値として２以上を許容して前記Ｍ個の画像データそれぞれの正解ラベルを前記画像認識技術分野タスクの正解ラベルとして特徴表現学習に適用可能となる表現に変換し、前記適用可能となる表現の次元ごとのβ（βは任意の数）より大きい値を１に変換するステップ関数を適用することで、
前記適用可能となる表現の次元ごとの値が０または１となるように、前記Ｍ個の画像データそれぞれの正解ラベルを、前記適用可能となる表現に変換する、
請求項１に記載の学習方法。

【請求項3】

前記エンコーダーネットワークモデル及び前記第１モデルを学習させる際、
前記Ｍ個の画像データのうちの２つの画像データが異なり、かつ、前記２つの画像データに対して前記データ拡張処理が行われる前の画像データが同一の場合に、前記対照学習における引き付ける処理を行わせる誤差が前記第１損失関数により算出される、
請求項２に記載の学習方法。

【請求項4】

前記ラベル処理では、さらに、変換された前記適用可能となる表現が、２以上の次元において１の値を有する場合、前記２以上の次元における値を０に変更する、
請求項３に記載の学習方法。

【請求項5】

前記エンコーダーネットワークモデル及び前記第１モデルを学習させる際、
ベクトル類似度による誤差が前記第１損失関数により算出される、
請求項１～４のいずれか１項に記載の学習方法。

【請求項6】

さらに、前記第１ネットワークブランチは、第３モデルを有し、
前記第３モデルに、前記第１モデルの出力である２つの画像データの埋め込みベクトルのうちの一方の第１埋め込みベクトルから、他方の第２埋め込みベクトルを予測させた第３埋め込みベクトルを出力させ、
前記２つの画像データそれぞれの正解ラベルを、分類タスクにおいて用いられるクラスラベルのクラス数を次元数とするクラス次元でのワンホット表現に変換するラベル処理を行い、
前記教師あり対照学習で用いるための第１損失関数と、前記ラベル処理された２つの画像データそれぞれの正解ラベルと、前記第２埋め込みベクトルと、前記第３埋め込みベクトルとを用いて、前記エンコーダーネットワークモデル、前記第１モデル及び前記第３モデルを学習させる、
請求項１または２に記載の学習方法。

【請求項7】

前記エンコーダーネットワークモデル、前記第１モデル及び前記第３モデルを学習させる際、
コサイン類似度による誤差が前記第１損失関数により算出される、
請求項６に記載の学習方法。

【請求項8】

教師あり対照学習を利用した特徴表現学習を行うための第１ネットワークブランチと分類タスク及び分類タスク以外のタスクを含む画像認識技術分野タスクのタスク学習を行うための第２ネットワークブランチとからなるニューラルネットワークモデルを学習させる学習方法をコンピュータに実行させるプログラムであって、
前記ニューラルネットワークモデルは、前記第１ネットワークブランチと前記第２ネットワークブランチとで共有されるエンコーダーネットワークモデルと、前記第１ネットワークブランチのみが有する第１モデルと、前記第２ネットワークブランチのみが有する第２モデルとで構成され、
予め準備された画像データと正解ラベルとからなるデータセットであってデータ拡張処理が行われたデータセットから、Ｎ個（Ｎは１以上の整数）の画像データ及び当該画像データに紐づく正解ラベルを取得させ、
前記Ｎ個の画像データ及び当該画像データに紐づく正解ラベルに対してデータ拡張処理を行わせて、Ｍ個（ＭはＮの整数倍）の画像データ及び当該画像データに紐づく正解ラベルを取得し、
前記エンコーダーネットワークモデルに、前記Ｍ個の画像データから、前記Ｍ個の画像データそれぞれの特徴表現を抽出させ、
前記第１モデルに、抽出された前記Ｍ個の画像データそれぞれの特徴表現を、前記教師あり対照学習で用いるための埋め込みベクトルに投影させ、
前記Ｍ個の画像データそれぞれの正解ラベルを、画像認識技術分野タスクの正解ラベルとして特徴表現学習に適用可能となるように変換するラベル処理を行わせ、
前記教師あり対照学習で用いるための第１損失関数と、前記ラベル処理された前記Ｍ個の画像データそれぞれの正解ラベルと、前記Ｍ個の画像データそれぞれの埋め込みベクトルとを用いて、前記エンコーダーネットワークモデル及び前記第１モデルを学習させ、
前記データ拡張処理が行われた前記Ｍ個の画像データを取得させ、
前記教師あり対照学習された前記エンコーダーネットワークモデルに、取得した前記Ｍ個の画像データから、前記Ｍ個の画像データそれぞれの特徴表現を抽出させ、
前記第２モデルに、抽出された前記Ｍ個の画像データそれぞれの特徴表現から、前記Ｍ個の画像データそれぞれのラベルを推論させ、
前記タスク学習で用いるための第２損失関数と、推論された前記Ｍ個の画像データそれぞれのラベルと、前記Ｍ個の画像データそれぞれの正解ラベルとを用いて、前記エンコーダーネットワークモデル及び前記第２モデルを学習させ、
前記エンコーダーネットワークモデル、前記第１モデル及び前記第２モデルの学習は、同時に行われる、ことを
コンピュータに実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、ニューラルネットワークモデルを学習させる学習方法、及び、プログラムに関する。

【背景技術】

【0002】

非特許文献１では、画像表現を学習するための教師あり対照損失と、分類器を学習するためのクロスエントロピー損失とを利用してハイブリッドネットワーク構造の学習を行う方法が開示されている。そして、画像表現を学習するための教師あり対照損失と、分類器を学習するためのクロスエントロピー損失とを利用した学習を行うことで、ラベル毎のデータ数に偏りがあるデータセットであっても、分類精度を安定的に向上させることができることが開示されている。

【先行技術文献】

【非特許文献】

【0003】

【文献】Peng Wang et al. "Contrastive learning based hybrid networks for long-tailed image classification". CVPR. 2021.

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、非特許文献１に開示される学習方法は、分類タスクを想定した学習方法であり、物体検出タスク等の学習には適用できないという課題がある。

【0005】

本開示は、上述の事情を鑑みてなされたもので、分類タスク以外の学習にも適用可能な学習方法、及び、プログラムを提供することを目的とする。

【課題を解決するための手段】

【0006】

上記目的を達成するために、本開示の一形態に係る学習方法は、教師あり対照学習を利用した特徴表現学習を行うための第１ネットワークブランチと分類タスク及び分類タスク以外のタスクを含む画像認識技術分野タスクのタスク学習を行うための第２ネットワークブランチとからなるニューラルネットワークモデルをコンピュータが学習させる学習方法であって、前記ニューラルネットワークモデルは、前記第１ネットワークブランチと前記第２ネットワークブランチとで共有されるエンコーダーネットワークモデルと、前記第１ネットワークブランチのみが有する第１モデルと、前記第２ネットワークブランチのみが有する第２モデルとで構成され、予め準備された画像データと正解ラベルとからなるデータセットから、Ｎ個（Ｎは１以上の整数）の画像データ及び当該画像データに紐づく正解ラベルを取得し、取得した前記Ｎ個の画像データ及び当該画像データに紐づく正解ラベルに対してデータ拡張処理を行い、Ｍ個（ＭはＮの整数倍）の画像データ及び当該画像データに紐づく正解ラベルを取得し、前記エンコーダーネットワークモデルに、前記Ｍ個の画像データから、前記Ｍ個の画像データそれぞれの特徴表現を抽出させ、前記第１モデルに、抽出された前記Ｍ個の画像データそれぞれの特徴表現を、前記教師あり対照学習で用いるための埋め込みベクトルに投影させ、前記Ｍ個の画像データそれぞれの正解ラベルを、画像認識技術分野タスクの正解ラベルとして特徴表現学習に適用可能となるように変換するラベル処理を行わせ、前記教師あり対照学習で用いるための第１損失関数と、前記ラベル処理された前記Ｍ個の画像データそれぞれの正解ラベルと、前記Ｍ個の画像データそれぞれの埋め込みベクトルとを用いて、前記エンコーダーネットワークモデル及び前記第１モデルを学習させ、前記データ拡張処理が行われた前記Ｍ個の画像データを取得し、前記エンコーダーネットワークモデルに、取得した前記Ｍ個の画像データから、前記Ｍ個の画像データそれぞれの特徴表現を抽出させ、前記第２モデルに、抽出された前記Ｍ個の画像データそれぞれの特徴表現から、前記個Ｍ個の画像データそれぞれのラベルを推論させ、前記タスク学習で用いるための第２損失関数と、推論された前記Ｍ個の画像データそれぞれのラベルと、前記Ｍ個の画像データそれぞれの正解ラベルとを用いて、前記エンコーダーネットワークモデル及び前記第２モデルを学習させ、前記エンコーダーネットワークモデル、前記第１モデル及び前記第２モデルの学習は、同時に行われる。

【0007】

このように、ラベル処理を行うことで、分類タスク以外のタスクでの正解ラベルを、画像認識技術分野タスクの正解ラベルとして特徴表現学習に適用可能となるように変換できるので、例えば物体検出タスクなどの分類タスク以外のタスクにおいて教師あり対照学習を利用することができる。

【0008】

これにより、分類タスク以外の画像認識技術分野タスクのタスク学習にも適用可能な学習方法を実現できる。

【0009】

なお、これらの全般的または具体的な態様は、装置、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

【発明の効果】

【0010】

本開示により、分類タスク以外の学習にも適用可能な学習方法、及び、プログラムを提供できる。

【図面の簡単な説明】

【0011】

【図1】図１は、実施の形態に係る学習装置の機能構成を示すブロック図である。

【図2】図２は、実施の形態に係る画像データと正解ラベルとのペアの一例を示す図である。

【図3A】図３Ａは、実施の形態に係るデータ拡張処理により得た画像データの一例を示す図である。

【図3B】図３Ｂは、実施の形態に係るデータ拡張処理により得た画像データと正解ラベルとの一例を示す図である。

【図4】図４は、実施の形態に係るニューラルネットワークモデルの構造の一例を概念的に示す図である。

【図5】図５は、実施の形態に係る学習方法が実行される際の処理を概念的に説明するための図である。

【図6A】図６Ａは、実施の形態に係る特徴抽出処理及び投影処理により得た埋め込みベクトルの一例を概念的に示す図である。

【図6B】図６Ｂは、実施の形態に係る特徴抽出処理及び投影処理により得た埋め込みベクトルの一例を概念的に示す図である。

【図7】図７は、実施の形態に係るラベル処理部が行うラベル処理の詳細を示す図である。

【図8】図８は、実施の形態に係るラベル処理部により行われるラベル取得処理及びラベル変換処理の一例を説明するためのフローチャートである。

【図9】図９は、実施の形態に係る画像分類タスクにおける正解ラベルの一例を示す図である。

【図10A】図１０Ａは、実施の形態に係る物体検出タスクに係る正解ラベルの一例を示す図である。

【図10B】図１０Ｂは、実施の形態に係るワンホット表現に変換された正解ラベルの一例を示す図である。

【図10C】図１０Ｃは、実施の形態に係る物体検出タスクに係る正解ラベルの別の一例を示す図である。

【図11】図１１は、実施の形態に係るセマンティックセグメンテーションタスクに係る正解ラベルの一例を示す図である。

【図12】図１２は、実施の形態に係るステップ関数が適用された、表現変換後の正解ラベルの一例を示す図である。

【図13】図１３は、実施の形態に係るステップ関数が適用された、表現変換後の正解ラベルの一例を示す図である。

【図14】図１４は、実施の形態に係るステップ関数が適用された、表現変換後の正解ラベルの一例を示す図である。

【図15】図１５は、実施の形態に係るクラスラベルをリセットする処理の一例を示す図である。

【図16】図１６は、実施の形態に係る正解ラベルが示すクラスが１種類である場合のラベル処理の結果の一例を示す図である。

【図17A】図１７Ａは、実施の形態に係る正解ラベルが示すクラスが１種類以上である場合のラベル処理の結果の別の例を示す図である。

【図17B】図１７Ｂは、図１７Ａに示す結果に至る第１損失計算を概念的に示す図である。

【図17C】図１７Ｃは、実施の形態に係る第１損失関数を変更した場合において正解ラベルが示すクラスが１種類以上であるときのラベル処理の結果の例を示す図である。

【図17D】図１７Ｄは、図１７Ｃに示す結果に至るために用いられた、変更された第１損失計算を概念的に示す図である。

【図18】図１８は、実施の形態に係る教師あり対照学習処理の詳細の一例を示すフローチャートである。

【図19】図１９は、実施の形態に係るタスク学習処理の詳細の一例を示すフローチャートである。

【図20】図２０は、変形例に係る学習方法が実行される際の処理を概念的に説明するための図である。

【発明を実施するための形態】

【0012】

以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。

【0013】

（実施の形態）
［１学習装置１］
以下、本実施の形態に係る学習装置１及び学習方法について説明する。

【0014】

学習装置１は、例えばメモリ及びプロセッサ（マイクロプロセッサ）を含むコンピュータを備え、メモリに格納された制御プログラムをプロセッサが実行することにより、各種機能を実現し、ニューラルネットワークモデルを学習させる。

【0015】

図１は、本実施の形態に係る学習装置１の機能構成を示すブロック図である。

【0016】

学習装置１は、図１に示されるように、取得部１１と、データ拡張処理部１２と、特徴抽出部１３と、投影部１４と、推論部１５と、ラベル処理部１６と、第１損失計算部１７，第２損失計算部１８と、学習実行部１９とを備える。なお、学習装置１において、取得部１１及びデータ拡張処理部１２を備えることは必須ではない。

【0017】

［１－１取得部１１］
取得部１１は、予め準備された画像データと正解ラベルとからなるデータセットから、Ｎ個（Ｎは１以上の整数）の画像データ及び当該画像データに紐づく正解ラベルを取得し、データ拡張処理部１２に出力する。

【0018】

ここでのデータセットは、画像認識技術分野タスクのタスク学習を行うために準備されたデータセットである。

【0019】

図２は、本実施の形態に係る画像データと正解ラベルとのペアの一例を示す図である。

【0020】

本実施の形態では、取得部１１は、データセットから、画像（画像データ）と正解ラベルとのペア（{x_n、y_n}_n=1…N）を取得する。Ｎは１以上の整数であり、本実施の形態では、Ｎは、バッチサイズを意味する。

【0021】

画像データx_nと正解ラベルy_nとのペアの一例は、図２に示すように、犬が映る画像とｄｏｇの正解ラベルとのペアである。

【0022】

［１－２データ拡張処理部１２］
データ拡張処理部１２は、取得したＮ個の画像データ及び当該画像データに紐づく正解ラベルに対してデータ拡張処理を行い、Ｍ個（ＭはＮの整数倍）の画像データ及び当該画像データに紐づく正解ラベルを得る。データ拡張処理部１２は、Ｍ個（ＭはＮの整数倍）の画像データを特徴抽出部１３に出力する。

【0023】

ここで、データ拡張処理は、画像データに対して変換処理を行うことで画像データを水増しする手法である。つまり、データ拡張処理部１２は、取得部１１がデータセットから取得したＮ個の画像データに対して、例えば回転処理、ズーム処理、並進処理、色変換処理といったデータの変換処理を行い、当該Ｎ個の画像データを拡張し（水増し）、正解ラベルを紐づける。なお、データ拡張処理部１２の後すなわちデータ拡張処理部１２と特徴抽出部１３との間に、画像サイズの調整、標準化などの前処理を行うデータ前処理部を備えてもよい。

【0024】

図３Ａは、本実施の形態に係るデータ拡張処理により得た画像データの一例を示す図である。図３Ｂは、本実施の形態に係るデータ拡張処理により得た画像データと正解ラベルとの一例を示す図である。

【0025】

本実施の形態では、データ拡張処理部１２は、取得部１１がデータセットから取得した画像（画像データ）と正解ラベルとのペア（{x_n、y_n}_n=1…N）に対してデータ拡張処理（Ａｕｇ（x_n、y_n））を行い、例えば２倍に拡張する。

【0026】

データ拡張処理が行われた画像データの一例は、図３Ａに示されるように、画像データｘ_ｎに示される犬の画像に対して変換処理された画像データ

【数1】

で示される犬が映る画像である。そして、これらの画像データ

【数2】

で示される犬が映る画像には、図３Ｂに示されるように、正解ラベル

【数3】

で示されるｄｏｇの正解ラベルが付される。なお、添え字のｔ（ｉ）、ｉはインデックスを示し、ｔ（ｉ）とｉは元画像が同じであることを示している。

【0027】

［１－３ニューラルネットワークモデル２］
学習装置１が学習させるニューラルネットワークモデルは、深層ニューラルネットワークモデル（ＤＮＮ（Deep Neural Networks）モデル）であり、多層構造のニューラルネットワークモデルである。

【0028】

より具体的には、学習装置１が学習させるニューラルネットワークモデルは、第１ネットワークブランチと第２ネットワークブランチとからなるニューラルネットワークモデルである。第１ネットワークブランチは、教師あり対照学習を利用した特徴表現学習を行うために用いられ、第２ネットワークブランチは、分類タスク及び分類タスク以外のタスクを含む画像認識技術分野タスクのタスク学習を行うために用いられる。

【0029】

ここで、特徴表現学習は、特徴表現（feature）を自動的に抽出する学習のことであり、より具体的には、画像などのデータから、タスクにおいて有益な情報のみを抽出したデータ表現を特徴表現として抽出できるようにするための学習のことである。

【0030】

対照学習は、元画像が同じ画像同士は埋め込み空間上の埋め込みベクトルが近くなるように、元画像が異なる画像同士は埋め込みベクトルが遠ざかるように学習する手法である。

【0031】

教師あり対照学習は、ラベル付けされたデータを活用して、同じクラスにラベル付けされたデータの埋め込みベクトルを互いに近づけるように促し、異なるクラスにラベル付けされたデータの埋め込みベクトルを遠ざけるように促す学習のことである。これにより、偽陰性、つまりアンカーと同じクラスのサンプル画像からネガティブ画像が生成されてしまうことによる特徴表現の品質低下を抑制できる。

【0032】

図４は、本実施の形態に係るニューラルネットワークモデル２ａの構造の一例を概念的に示す図である。

【0033】

ニューラルネットワークモデル２ａは、学習装置１が学習させるニューラルネットワークモデルである。ニューラルネットワークモデル２ａは、エンコーダーネットワークモデル１３ａと、第１モデル１４ａと、第２モデル１５ａとで構成される。エンコーダーネットワークモデル１３ａと、第１モデル１４ａと、第２モデル１５ａとは関数で表現され得る。

【0034】

エンコーダーネットワークモデル１３ａ及び第１モデル１４ａは、教師あり対照学習を利用した特徴表現学習を行うための第１ネットワークブランチを構成する。一方、エンコーダーネットワークモデル１３ａ及び第２モデル１５ａは、タスク学習を行うための第２ネットワークブランチを構成する。

【0035】

エンコーダーネットワークモデル１３ａは、第１ネットワークブランチと第２ネットワークブランチとで共有される。

【0036】

本実施の形態では、エンコーダーネットワークモデル１３ａは、特徴抽出部１３で用いられる。エンコーダーネットワークモデル１３ａは、入力された画像データの特徴表現を抽出する。なお、エンコーダーネットワークモデル１３ａは、例えば複数の畳み込み層で構成されるＣＮＮ（Convolution Neural Networks）モデルであるが、これに限らない。エンコーダーネットワークモデル１３ａは、ＲｅｓＮｅｔ（Residual Network）で構成されていてもよいし、MobileNetで構成されていてもよいし、Transformerで構成されていてもよい。

【0037】

第１モデル１４ａは、第１ネットワークブランチのみが有するニューラルネットワークモデルであり、投影部１４で用いられる。第１モデル１４ａは、エンコーダーネットワークモデル１３ａから出力された特徴表現を、対照学習で用いるための埋め込みベクトルに投影する。なお、第１モデル１４ａは、例えば多層パーセプトロンからなるモデルであるが、これに限らない。

【0038】

第２モデル１５ａは、第２ネットワークブランチのみが有するニューラルネットワークモデルであり、推論部１５で用いられる。第２モデル１５ａは、エンコーダーネットワークモデル１３ａから出力された特徴表現から、エンコーダーネットワークモデル１３ａに入力された画像データのラベルを推論する。なお、第２モデル１５ａの構成は、タスクによって異なる。第２モデル１５ａは、タスクが分類タスクである場合、例えばロジットモデルであってもよいが、これに限らない。

【0039】

また、本実施の形態では、第１ネットワークブランチにおいて、教師あり対照学習を利用した特徴表現学習を行うことで、エンコーダーネットワークモデル１３ａ及び第１モデル１４ａの重み等のパラメータを学習する。また、第２ネットワークブランチにおいてタスク学習を行うことで、エンコーダーネットワークモデル１３ａ及び第１モデル１４ａの重み等のパラメータを学習する。これらの学習すなわち教師あり対照学習を利用した特徴表現学習とタスク学習とは、同時に学習される。

【0040】

［１－３－１特徴抽出部１３］
特徴抽出部１３は、データ拡張処理が行われたＭ個の画像データを取得する。特徴抽出部１３は、エンコーダーネットワークモデル１３ａに、取得したＭ個の画像データから、当該Ｍ個の画像データそれぞれの特徴表現を抽出させる。

【0041】

図５は、本実施の形態に係る学習方法が実行される際の処理を概念的に説明するための図である。

【0042】

本実施の形態では、特徴抽出部１３は、例えば図５に示すように、データ拡張処理が行われた画像データ

【数4】

に対して特徴抽出処理１３１、１３２を行い、特徴表現を抽出して投影部１４に出力する。ここでの特徴表現は、例えばベクトルにより表現される。より具体的には、特徴抽出処理１３１では、エンコーダーネットワークモデル１３ａを用いて、画像データ

【数5】

から特徴表現を抽出する。また、特徴抽出処理１３２では、エンコーダーネットワークモデル１３ａを用いて、画像データ

【数6】

から特徴表現を抽出する。なお、特徴抽出処理１３１及び特徴抽出処理１３２で用いられるエンコーダーネットワークモデル１３ａは同じもの（同じ関数）である。

【0043】

［１－３－２投影部１４］
投影部１４は、取得した特徴表現を、任意のベクトル次元の埋め込み空間上に投影（写像）する。より具体的には、投影部１４は、第１モデル１４ａに、抽出されたＭ個の画像データそれぞれの特徴表現を、教師あり対照学習で用いるための埋め込みベクトルに投影させる。

【0044】

本実施の形態では、例えば、図５に示すように、投影部１４は、投影処理１４１、１４２を行う。投影部１４は、投影処理１４１、１４２により得た埋め込みベクトルを、ラベル処理部１６に出力する。なお、投影処理１４１、１４２で用いる第１モデル１４ａは同じものである。

【0045】

より具体的には、投影処理１４１では、第１モデル１４ａを用いて、特徴抽出処理１３１が行われた画像データ

【数7】

の特徴表現を、埋め込みベクトル

【数8】

に投影する。

【0046】

図６Ａは、本実施の形態に係る特徴抽出処理１３１及び投影処理１４１により得た埋め込みベクトルの一例を概念的に示す図である。図６Ａにおいて、Ｅｎｃ（・）は特徴抽出処理１３１を行うことを意味し、Ｐｒｏｊ（・）は投影処理１４１を行うことを意味する。

【0047】

また、投影処理１４２では、第１モデル１４ａを用いて、特徴抽出処理１３２が行われた画像データ

【数9】

の特徴表現を、埋め込みベクトル

【数10】

に投影する。

【0048】

図６Ｂは、本実施の形態に係る特徴抽出処理１３２及び投影処理１４２により得た埋め込みベクトルの一例を概念的に示す図である。図６Ｂにおいて、Ｅｎｃ（・）は特徴抽出処理１３２を行うことを意味し、Ｐｒｏｊ（・）は投影処理１４２を行うことを意味する。

【0049】

［１－３－３推論部１５］
推論部１５は、第２モデル１５ａに、抽出されたＭ個の画像データそれぞれの特徴表現から、当該Ｍ個の画像データそれぞれのラベルを推論させる。

【0050】

本実施の形態では、例えば、図５に示すように、推論部１５は、推論処理１５１を行う。推論部１５は、推論処理１５１により得た推論結果を第２損失計算部１８に出力する。

【0051】

より具体的には、推論処理１５１では、第２モデル１５ａを用いて、特徴抽出処理１３２が行われた画像データ

【数11】

の特徴表現から、画像認識技術分野タスクのための推論を行う。

【0052】

［１－４ラベル処理部１６］
ラベル処理部１６は、Ｍ個の画像データそれぞれの正解ラベルを、画像認識技術分野タスクの正解ラベルとして特徴表現学習に適用可能となるように変換するラベル処理を行う。

【0053】

ここで、例えば、ラベル処理部１６は、Ｍ個の画像データそれぞれの正解ラベルを、分類タスクにおいて用いられるクラスラベルのクラス数を次元数とするクラス次元でのワンホット表現に変換するラベル処理を行ってもよい。

【0054】

より具体的には、ラベル処理部１６は、次元ごとの値として２以上を許容して２つの画像データそれぞれの正解ラベルを例えばワンホット表現などの表現に変換し、ワンホット表現の次元ごとのβ（βは任意の数）より大きい値を１に変換するステップ関数を適用するラベル処理を行う。このように、ラベル処理部１６は、次元ごとの値が０または１となるように、Ｍ個の画像データそれぞれの正解ラベルを、ワンホット表現などの表現に変換するラベル処理を行ってもよい。

【0055】

なお、ラベル処理部１６は、ワンホット表現に変換する場合に限らず、画像認識技術分野タスクの正解ラベルとして特徴表現学習に適用可能となるように変換できればよい。

【0056】

また、ステップ関数は、例えば以下の(式１)で示される関数であり、βより大きい値は１、β以下の値は０を出力する関数である。

【0057】

【数12】

【0058】

なお、ラベル処理部１６は、例えばワンホット表現などに変換された表現が、２以上の次元において１の値を有する場合、当該２以上の次元における値を０に変更してもよい。

【0059】

図７は、本実施の形態に係るラベル処理部１６が行うラベル処理１６１の詳細を示す図である。

【0060】

本実施の形態では、ラベル処理部１６は、図５に示すラベル処理１６１を行う。より詳細には、ラベル処理部１６では、図７に示すように、埋め込みベクトル取得処理１６１１と、ラベル取得処理１６１２と、ラベル変換処理１６１３とを実行する。

【0061】

ベクトル取得処理１６１１では、投影処理１４１、１４２により得られた埋め込みベクトル

【数13】

を、取得する。

【0062】

ラベル取得処理１６１２では、ベクトル取得処理１６１１において取得した埋め込みベクトル

【数14】

に対応する正解ラベル

【数15】

を、取得する。

【0063】

ラベル変換処理１６１３では、ラベル取得処理１６１２において取得した正解ラベル

【数16】

を、分類タスクにおいて用いられるクラスラベルのクラス数を次元数とするクラス次元でのワンホット表現などの表現に変換して、第１損失計算部１７に出力する。

【0064】

以下、図８を用いて、ラベル変換処理１６１３で行われる処理について説明する。

【0065】

図８は、本実施の形態に係るラベル処理部１６により行われるラベル取得処理１６１２及びラベル変換処理１６１３の一例を説明するためのフローチャートである。図８では、ワンホット表現に変換する場合を例に主に挙げて説明しているが、変換される表現はこれに限らない。

【0066】

まず、ラベル処理部１６は、正解ラベルを取得する（Ｓ６１）。本実施の形態では、ラベル処理部１６は、ラベル取得処理１６１２を行い、投影部１４により出力された埋め込みベクトルに対応する正解ラベルを取得する。

【0067】

次に、ラベル処理部１６は、ステップＳ６１において取得した正解ラベルがクラスラベルのみからなるかを判定する（Ｓ６２）。ここで、クラスラベルのみからなる正解ラベルとは、例えば、画像に犬が映っているか否か、画像に犬または猫が映っているか否かという１次元の分類ラベルが付された正解ラベルである。なお、画像に犬が映っているか否かを示す正解ラベルの場合、クラス数が１で１次元のクラスラベルからなる正解ラベルとなる。画像に犬または猫が映っているか否かを示す正解ラベルの場合、クラス数が２で１次元のクラスラベルからなる正解ラベルとなる。なお、ラベル名：（ｃａｔ，ｄｏｇ，ｐｅｒｓｏｎ）であり、例えばＬａｂｅｌ１＝（０，１，０）であり、Ｌａｂｅｌ２＝（０，２，１）とする。この場合、Ｌａｂｅｌ１は、ｄｏｇのみが写っていることを示す。また、Ｌａｂｅｌ１は１次元でラベルが示すクラスが１種類であることを示し、Ｌａｂｅｌ２は１次元でラベルが示すクラスが２種類である（ｄｏｇとｐｅｒｓｏｎ）ことを示す。

【0068】

ステップＳ６２において、取得した正解ラベルがクラスラベルのみからなる場合（Ｓ６２でＹｅｓ）、ラベル処理部１６は、ステップＳ６１において取得した正解ラベルを第１損失計算部１７に出力する（Ｓ６３）。

【0069】

図９は、本実施の形態に係る画像分類タスクにおける正解ラベルの一例を示す図である。

【0070】

図９の（ａ）に示すような２匹の犬が映る画像の画像データ

【数17】

の画像分類タスクにおける正解ラベルは、ｄｏｇである。この場合、クラス数が１で１次元のクラスラベルからなる正解ラベルであるので、図９の（ｂ）に示す正解ラベルの次元数は、（クラス数）と表せる。このような正解ラベルは、図９の（ｃ）に示すようにワンホットベクトルで表現できる。このため、図９の（ｃ）に示すワンホットベクトル表現を正解ラベルとして第１損失計算部１７に出力することができる。

【0071】

一方、ステップＳ６２において、取得した正解ラベルがクラスラベルのみからなっていない場合（Ｓ６２でＮｏ）、ラベル処理部１６は、ステップＳ６１において取得した正解ラベルを、分類タスクにおいて用いられるクラスラベルのクラス数を次元数とするクラス次元での、ワンホット表現などの表現に変換する（Ｓ６４）。

【0072】

ここで、ステップＳ６４の処理の具体例について説明する。

【0073】

図１０Ａは、本実施の形態に係る物体検出タスクに係る正解ラベルの一例を示す図である。図１０Ｂは、本実施の形態に係るワンホット表現に変換された正解ラベルの一例を示す図である。

【0074】

図１０Ａの（ａ）に示すような２匹の犬が映る画像の画像データ

【数18】

の物体検出タスクにおける正解ラベルは、ボックス１にｄｏｇ、かつボックス２にｄｏｇが付されたものとなる。この場合、ボックス数が２で、クラス数が１かつボックス数が４点の座標で規定される正解ラベルとなるので、図１０Ａの（ｂ）に示すように正解ラベルの次元数は、（ボックス数、クラス数）かつ（ボックス数、４）と表せる。このような正解ラベルは、図９の（ｂ）で示した正解ラベルの次元数である（クラス数）と異なるため、図９の（ｂ）で示した正解ラベルの次元数（クラス次元）に表現を変換する。すなわち、図１０Ｂの（ｃ）に示すようにボックス１のｄｏｇを１と表現し、ボックス２のｄｏｇを１と表現するワンホットベクトル表現に変換する。そして、図１０Ｂの（ｄ）において、図１０Ｂの（ｃ）に示すワンホットベクトル表現を足し合わせる。

【0075】

このようにして、ラベル処理部１６は、ステップＳ６１において取得した物体検出タスクに係る正解ラベルを、１次元のクラス数でボックス数を値とするワンホット表現に変換することで、分類タスクにおいて用いられるクラス次元でのワンホット表現に変換することができる。

【0076】

図１０Ｃは、本実施の形態に係る物体検出タスクに係る正解ラベルの別の一例を示す図である。

【0077】

図１０Ｃの（ａ）に示すような２匹の犬と人が映る画像の画像データ

【数19】

の物体検出タスクにおける正解ラベルは、例えばボックス１にｐｅｒｓｏｎ、ボックス２にｄｏｇかつボックス３にｄｏｇが付されたものとなる。この場合、ボックス数が３で、クラス数が２かつボックス数が４点の座標で規定される正解ラベルとなる。この場合の正解ラベルの次元数は、（ボックス数、クラス数）かつ（ボックス数、４）と表せる。このような正解ラベルは、図９の（ｂ）で示した正解ラベルの次元数である（クラス数）と異なるため、図９の（ｂ）で示した正解ラベルの次元数（クラス次元）に表現を変換する。すなわち、図１０Ｃの（ｂ）に示すようにボックス１のｐｅｒｓｏｎを１と表現し、ボックス２のｄｏｇを１と表現し、ボックス３のｄｏｇを１と表現するワンホットベクトル表現に変換する。そして、図１０Ｃの（ｂ）に示すワンホットベクトル表現を足し合わせることで、図１０Ｃの（ｃ）に示すような、ワンホットベクトル表現以外の表現に変換する。なお、ワンホットベクトル表現は、ある一つにおいては１、それ以外は０の要素をもつベクトルのことを指す。このため、図１０Ｃの（ｃ）に示す表現は、画像認識技術分野タスクの正解ラベルとして特徴表現学習に適用可能となる、ワンホット表現以外の表現の一例に該当する。

【0078】

このようにして、ラベル処理部１６は、ステップＳ６１において取得した物体検出タスクに係る正解ラベルを、２次元のクラス数でボックス数を値とするワンホット表現などの表現に変換することで、分類タスクにおいて用いられるクラス次元での表現に変換することができる。

【0079】

図１１は、本実施の形態に係るセマンティックセグメンテーションタスクに係る正解ラベルの一例を示す図である。

【0080】

図１１の（ａ）に示す２匹の犬が映る画像の画像データ

【数20】

の物体検出タスクにおける正解ラベルは、例えば２匹の犬が映る領域（図ではハッチングされた領域）の画素一つ一つに対してｄｏｇが付されたものとなる。この場合、正解ラベルは、１であるクラス数と、当該領域を規定する画像の高さ及び画像の幅とで規定され、正解ラベルの次元数は、（クラス数、画像の高さ、画像の幅）と表せる。このような正解ラベルは、図９の（ｂ）で示した正解ラベルの次元数である（クラス数）と異なるため、図９の（ｂ）で示した正解ラベルの次元数（クラス次元）に表現を変換する。すなわち、画素それぞれのｄｏｇを１とするワンホットベクトル表現に変換し、これらを足し合わせる。これにより、図１１の（ｃ）に示すように、１次元のクラス数であるｄｏｇで当該領域の画素数（ピクセル数）を値とするワンホットベクトル表現に変換することができる。

【0081】

このようにして、ラベル処理部１６は、ステップＳ６１において取得した物体検出タスクに係る正解ラベルを、１次元のクラス数でピクセル数を値とする表現に変換することで、分類タスクにおいて用いられるクラス次元での、ワンホット表現を含む表現に変換することができる。

【0082】

以降、図８に戻ってラベル処理部１６の処理の説明を続ける。

【0083】

次に、ラベル処理部１６は、ステップＳ６４において変換されたワンホットベクトル表現に、ステップ関数を適用する（Ｓ６５）。これにより、ラベル処理部１６は、ステップ関数を適用することで、ワンホット表現を含む表現の次元ごとの０（β＝０）より大きい値を１に変換することができる。

【0084】

ここで、ステップＳ６５の処理の具体例について説明する。

【0085】

図１２～図１４は、本実施の形態に係るステップ関数が適用された、表現変換後の正解ラベルの一例を示す図である。

【0086】

図１２の（ａ）には、図１０Ｂの（ｄ）に示される正解ラベルすなわち表現変換後の物体検出タスクに係るｄｏｇの値が２である正解ラベルが示されている。図１２の（ｂ）では、図１２の（ａ）に示す表現変換後の正解ラベルに対して、閾値βより大きい場合には値１を出力するステップ関数が適用されている様子が示されている。図１２の（ｃ）では、図１２の（ａ）に示す表現変換後の正解ラベルに対してステップ関数が適用された結果、ｄｏｇの値が１である正解ラベルが得られたことを示している。

【0087】

このようにして、ラベル処理部１６は、ステップＳ６４において変換されたワンホットベクトル表現に、ステップ関数を適用することで、ワンホット表現の次元ごとの０（β＝０）より大きい値を１に変換することができる。

【0088】

また、図１３の（ａ）には、図１０Ｃの（ｃ）に示される正解ラベルすなわち表現変換後の物体検出タスクに係るｄｏｇの値が２でｐｅｒｓｏｎの値が１である正解ラベルが示されている。図１３の（ｂ）では、図１３の（ａ）に示す表現変換後の正解ラベルに対して、閾値βより大きい場合には値１を出力するステップ関数が適用されている様子が示されている。図１３の（ｃ）では、図１３の（ａ）に示す表現変換後の正解ラベルに対してステップ関数が適用された結果、ｄｏｇの値が１でｐｅｒｓｏｎの値が１である正解ラベルが得られたことを示している。

【0089】

このようにして、ラベル処理部１６は、ステップＳ６４において変換された表現に、ステップ関数を適用することで、当該表現の次元ごとの０（β＝０）より大きい値を１に変換することができる。

【0090】

また、図１４（ａ）には、図１１の（ｃ）に示される正解ラベルすなわち表現変換後のセマンティックセグメンテーションタスクに係るｄｏｇの値がピクセル数である正解ラベルが示されている。図１４の（ｂ）では、図１４の（ａ）に示す表現変換後の正解ラベルに対して、閾値βより大きい場合には値１を出力するステップ関数が適用されている様子が示されている。図１４の（ｃ）では、図１４の（ａ）に示す表現変換後の正解ラベルに対してステップ関数が適用された結果、ｄｏｇの値が１である正解ラベルが得られたことを示している。

【0091】

このようにして、ラベル処理部１６は、ステップＳ６４において変換されたワンホットベクトル表現に、ステップ関数を適用することで、ワンホット表現の次元ごとの０より大きい値を１に変換することができる。

【0092】

以降、図８に戻ってラベル処理部１６の処理の説明を続ける。

【0093】

次に、ラベル処理部１６は、ステップＳ６５でステップ関数を適用したワンホットベクトル表現などの表現の合計が１であるかを判定する（Ｓ６６）。

【0094】

ステップＳ６６において、合計が１である場合（Ｓ６６でＹｅｓ）、ラベル処理部１６は、ステップ関数を適用した表現からなる正解ラベルを第１損失計算部１７に出力する（Ｓ６３）。

【0095】

一方、ステップＳ６６において、合計が１でない場合（Ｓ６６でＮｏ）、クラスラベルをリセットし、（Ｓ６７）クラスラベルをリセットした正解ラベルを第１損失計算部１７に出力する（Ｓ６３）。より具体的には、ステップＳ６７では、ラベル処理部１６は、ステップ関数が適用された、ワンホット表現などの表現が、２以上の次元において１の値を有する場合、当該２以上の次元における値を０に変更することで、クラスラベルをリセットする。

【0096】

ここで、ステップＳ６７の処理の一例について説明する。

【0097】

図１５は、本実施の形態に係るクラスラベルをリセットする処理の一例を示す図である。

【0098】

図１５の（ａ）には、図１３の（ｃ）に示される正解ラベルすなわちステップ関数が適用され、ｄｏｇの値が１でｐｅｒｓｏｎの値が１である正解ラベルが示されている。図１５の（ｂ）では、図１５の（ａ）に示すｄｏｇ及びｐｅｒｓｏｎの値が０となるようにクラスラベルがリセット処理された様子が示されている。

【0099】

このようにして、ラベル処理部１６は、２つの画像データそれぞれの正解ラベルを、分類タスクにおいて用いられるクラスラベルのクラス数を次元数とするクラス次元での表現に変換するラベル処理を行う。

【0100】

なお、ステップＳ６６及びステップＳ６７で説明した処理を行わなくてもよい。すなわち、ラベル処理部１６は、ステップ関数が適用されたワンホット表現などの表現が、２以上の次元において１の値を有していても、正解ラベルとして第１損失計算部１７に出力してもよい。

【0101】

［１－５第１損失計算部１７］
第１損失計算部１７は、ラベル処理されたＭ個の画像データそれぞれの正解ラベルと、当該Ｍ個の画像データそれぞれの埋め込みベクトルとから、教師あり対照学習で用いるための第１損失関数を計算する第１損失計算１７１を行う。

【0102】

本実施の形態では、第１損失計算部１７は、図５に示す第１損失計算１７１を行い、Ｍ個の画像データそれぞれのベクトル類似度による誤差を計算する。

【0103】

ここで、第１損失関数は、同じクラスに属する画像データを埋め込み空間内で近くに寄せる一方で、異なるクラスに属する画像データを埋め込み空間内で離れさせるような、ベクトル類似度による誤差を計算できる損失関数である。第１損失関数は、例えば下記の（式２）、具体的には（式３）～（式５）で表される対照損失関数Ｌ^supを用いることができる。なお、（式５）では、正解ラベルが示すクラスが同じか否かを判定することを示している。

【0104】

【数21】

【0105】

【数22】

【0106】

【数23】

【0107】

なお、Iは、データ拡張処理により得られた画像データのすべてを示し、上述したＭ個の画像データに該当する。iはアンカー画像であることを示し、Aは、アンカー画像を示すｉ以外のすべての画像を示し、pは学習対象の画像であることを示す。ｚは画像の埋め込み表現を示す。τは、温度と呼ばれるハイパーパラメータである。

【0108】

図１６は、本実施の形態に係る正解ラベルが示すクラスが１種類である場合のラベル処理の結果の一例を示す図である。

【0109】

図１６では、２つの元画像それぞれに対してデータ拡張処理されて得た４つの画像が示されている。ｉが付与された位置にある４つの画像がアンカー画像に該当し、ｐが付与された位置にある４つの画像が対照学習の対象画像であることに該当する。図１６に示す表の要素には、第１損失関数の（式５）の計算結果すなわち、対照学習により引き付ける対象とペア画像であるかどうかが示されている。対照学習を行うペア画像であれば１の値、そうでなければ０の値を示す。なお、同一の画像ペアでは、クラスが同じであっても対照学習を行う必要がないため、０となっている。

【0110】

したがって、本実施の形態では、図１６に示されるように、ハッチングされた領域の画像ペアについても対照学習の対象となることがわかる。これはラベル処理により、分類タスク以外のタスクで用いられる正解ラベルも、対照損失関数である第１損失関数を計算できるようになっているからである。

【0111】

図１７Ａは、本実施の形態に係る正解ラベルが示すクラスが１種類以上である場合のラベル処理の結果の別の例を示す図である。図１７Ｂは、図１７Ａに示す結果に至る第１損失計算を概念的に示す図である。

【0112】

図１７Ａでも、２つの元画像に対してデータ拡張処理されて得た４つの画像が示されている。ｉが付与された位置にある４つの画像がアンカー画像に該当し、ｐが付与された位置にある４つの画像が対照学習の対象画像であることに該当する。

【0113】

図１７Ａに示す表では、左側下部及び上部右側の２つの画像の一方のクラスラベルが２次元であることからリセット処理されている場合の例が示されている。そして、ラベル処理によりクラスラベルがリセットされた正解ラベルに対応するアンカー画像を画像ペアの一方としてもつ場合、第１損失関数の（式５）を計算した結果の値は０になる。これは、図１７Ｂに示すように、図１７Ｂの（ａ）に示されるＡ（ｉ）で計算される表の要素ごとに、図１７Ｂの（ｂ）に示される

【数24】

であれば１と計算される表の要素を乗算することで、図１７Ｂの（ｃ）のように得られる。より具体的には、図１７Ｂの（ａ）に示されるＡ（ｉ）では、正解ラベルが示すインデックスが同じ（ｉ＝ｐ）場合であれば０の値を示し、異なっていれば１の値を示す。また、図１７Ｂの（ｂ）に示される

【数25】

で計算される表の要素は、ラベルが同じ場合に１の値を示し、異なる場合には０の値を示す。

【0114】

このような場合、リセット処理された正解ラベルは、後述する学習実行部１９において教師あり対照学習のラベル情報として利用されない。これは、データ拡張された画像データのうち２以上の正解が含まれる正解ラベルに対応する画像データを利用しないことになり、データ拡張されたデータセットの数が不足することになるので、教師あり対照学習での学習が不安定になる可能性がある。

【0115】

そこで、上記の（式２）～（式５）で示される第１損失関数ではなく、上記の（式２）及び（式３）と下記の（式４）及び（式６）で示される第１損失関数を用いればよい。すなわち、（式４）においてデータ拡張処理される前の画像（元画像）が同じである場合には、１の値を取る条件を追加した（式６）で示される第１損失関数を用いればよい。

【0116】

【数26】

【0117】

これにより、第１損失計算部１７は、変更した第１損失関数を用いて、Ｍ個の画像データが異なり、かつ、Ｍ個の画像データに対してデータ拡張処理が行われる前の画像データが同一の場合に、対照学習における引き付ける処理を行わせる損失（誤差）を計算できる。

【0118】

以下、（式２）、（式３）、（式４）及び（式６）で示される第１損失計算の結果について一例を挙げて説明する。

【0119】

図１７Ｃは、本実施の形態に係る第１損失関数を変更した場合において正解ラベルが示すクラスが１種類以上であるときのラベル処理の結果の例を示す図である。図１７Ｄは、図１７Ｃに示す結果に至るために用いられた、変更された第１損失計算を概念的に示す図である。

【0120】

図１７Ｃでも、２つの元画像それぞれに対してデータ拡張処理されて得た４つの画像が示されている。図１７Ｃに示される元画像と４つの画像とは図１７Ａと同様のため説明を省略する。

【0121】

図１７Ａで説明したように、ラベル処理によりクラスラベルをリセットした正解ラベルに対応するアンカー画像を画像ペアの一方としてもつ場合、第１損失関数の（式５）の計算結果は、０になる。しかし、（式５）に代えて（式６）を計算することで、リセットされた正解ラベルに対応するアンカー画像を画像ペアの一方としてもつ画像ペアの少なくとも１つの値が１になる。これは、図１７Ｄに示すように、図１７Ｄの（ａ）に示される

【数27】

で計算される表の要素に、図１７Ｄの（ｂ）に示されるｔ（ｉ）＝ｐで計算される表の要素を加算することで、図１７Ｄの（ｃ）のように得られるからである。

【0122】

なお、図１７Ｄの（ａ）に示される

【数28】

で計算される表の要素は、図１７Ａの（ａ）に示される表の要素である。図１７Ｂの（ｂ）に示されるｔ（ｉ）＝ｐで計算される表の要素は、データ拡張処理される前の画像すなわち元画像が同じであれば１の値を示す一方で、元画像が同じであっても同一のペア画像に対しては０の値を示す。

【0123】

このようにして、データ拡張処理される前の画像が同一である場合には、対照学習に利用させることができる。これにより、２以上の正解が含まれる正解ラベルをすべて利用しないことでデータ拡張されたデータセットの数が不足し、教師あり対照学習での学習が不安定になることを抑制し、より良い精度を得ることができる。

【0124】

［１－６第２損失計算部１８］
第２損失計算部１８は、推論されたＭ個の画像データそれぞれのラベルと、当該Ｍ個の画像データそれぞれの正解ラベルとから、タスク学習で用いるための第２損失関数を計算する第２損失計算１８１を行う。

【0125】

ここで、第２損失関数は、例えば交差クロスエントロピー誤差関数である。

【0126】

本実施の形態では、第２損失計算部１８は、図５に示す第２損失計算１８１を行う。より具体的には、第２損失計算部１８は、第２損失関数を用いて、推論された少なくとも１つの画像データ

【数29】

それぞれのラベルと、当該少なくとも１つの画像データそれぞれの正解ラベル

【数30】

との損失（誤差）を計算する。

【0127】

［１－７学習実行部１９］
学習実行部１９は、教師あり対照学習で用いるための第１損失関数と、ラベル処理されたＭ個の画像データそれぞれの正解ラベルと、当該Ｍ個の画像データそれぞれの埋め込みベクトルとを用いて、エンコーダーネットワークモデル１３ａ及び第１モデル１４ａを学習させる。本実施の形態では、学習実行部１９は、エンコーダーネットワークモデル１３ａ及び第１モデル１４ａを学習させる際、ベクトル類似度による誤差が第１損失関数により計算される。

【0128】

なお、ラベル処理において、クラスラベルがリセットされている場合、学習実行部１９は、Ｍ個の画像データが異なり、かつ、当該Ｍ個の画像データに対してデータ拡張処理が行われる前の画像データが同一の場合に、対照学習における引き付ける処理を行わせる損失（誤差）を第１損失関数により計算する。そして、学習実行部１９は、このような損失（誤差）を計算することで、エンコーダーネットワークモデル１３ａ及び第１モデル１４ａを学習させる。これにより、学習実行部１９は、似ている画像データは埋め込み空間でも似た埋め込みベクトルになり、異なる画像データは埋め込み空間でも異なる埋め込みベクトルになるように、エンコーダーネットワークモデル１３ａ及び第１モデル１４ａを対照学習させることができる。

【0129】

また、学習実行部１９は、タスク学習で用いるための第２損失関数と、推論された少なくとも１つの画像データそれぞれのラベルと、当該少なくとも１つの画像データそれぞれの正解ラベルとを用いて、エンコーダーネットワークモデル１３ａ及び第２モデル１５ａを学習させる。

【0130】

本実施の形態では、学習実行部１９は、第１損失関数及び第２損失関数を単一の損失関数として用いることで、エンコーダーネットワークモデル１３ａ、前記第１モデル１４ａ及び第２モデル１５ａの学習を、同時に行う。例えば第１損失関数に任意の実数の重みを乗じて、第２損失関数と足し合わせた損失関数を用いることで、第１損失関数及び第２損失関数を単一の損失関数として用いることができる。これにより、学習実行部１９は、第１損失関数及び第２損失関数それぞれにより算出される損失を重みで分配した損失を逆伝播させて、エンコーダーネットワークモデル１３ａの変数を学習させることができる。

【0131】

なお、学習実行部１９は、最急降下法など様々な手法を採用して、エンコーダーネットワークモデル１３ａ、前記第１モデル１４ａ及び第２モデル１５ａの学習を行うことができる。

【0132】

［２学習装置１の動作］
以上のように構成された学習装置１は、教師あり対照学習処理とタスク学習処理とを同時に行う。以下、教師あり対照学習処理とタスク学習処理との詳細について以下説明する。

【0133】

図１８は、本実施の形態に係る教師あり対照学習処理の詳細の一例を示すフローチャートである。

【0134】

図１８に示すように、まず、学習装置１は、予め準備された画像データと正解ラベルとからなるデータセットから、Ｎ個（Ｎは１以上の整数）の画像データ及び当該画像データに紐づく正解ラベルを取得する（Ｓ１０１）。なお、Ｎは、バッチサイズを意味する。

【0135】

次に、学習装置１は、ステップＳ１０１において取得したＮ個の画像データ及び当該画像データに紐づく正解ラベルに対してデータ拡張処理を行い、Ｍ個（ＭはＮの整数倍）の画像データ及び当該画像データに紐づく正解ラベルを得る（Ｓ１０２）。

【0136】

次に、学習装置１は、エンコーダーネットワークモデルに、Ｍ個の画像データから、
Ｍ個の画像データそれぞれの特徴表現を抽出させる（Ｓ１０３）。

【0137】

次に、学習装置１は、第１モデル１４ａに、ステップＳ１０２において抽出されたＭ個の画像データそれぞれの特徴表現を、教師あり対照学習で用いるための埋め込みベクトルに投影させる（Ｓ１０４）。第１モデル１４ａは、エンコーダーネットワークモデル１３ａから出力された画像特徴表現を任意のベクトル次元の埋め込み空間に投影する。

【0138】

次に、学習装置１は、Ｍ個の画像データそれぞれの正解ラベルを、画像認識技術分野タスクの正解ラベルとして特徴表現学習に適用可能となるように変換するラベル処理を行う（Ｓ１０５）。ここで、例えば、学習装置１は、Ｍ個の画像データそれぞれの正解ラベルを、分類タスクにおいて用いられるクラスラベルのクラス数を次元数とするクラス次元での、ワンホット表現などの表現に変換するラベル処理を行う。

【0139】

次に、学習装置１は、教師あり対照学習で用いるための第１損失関数と、ラベル処理されたＭ個の画像データそれぞれの正解ラベルと、Ｍ個の画像データそれぞれの埋め込みベクトルとを用いて、エンコーダーネットワークモデル１３ａ及び第１モデル１４ａを学習させる（Ｓ１０６）。

【0140】

このように、ステップＳ１０５のラベル処理を行うことで、分類タスク以外のタスクでの正解ラベルを、分類タスクでの正解ラベルのワンホット表現に変換するなど、画像認識技術分野タスクの正解ラベルとして特徴表現学習に適用可能となるように変換することができる。これにより、例えば物体検出タスクなどの分類タスク以外のタスクにおいて教師あり対照学習を利用することができる。

【0141】

図１９は、本実施の形態に係るタスク学習処理の詳細の一例を示すフローチャートである。

【0142】

図１９に示すように、まず、学習装置１は、データ拡張処理が行われたＭ個の画像データを取得する（Ｓ１１１）。

【0143】

次に、学習装置１は、教師あり対照学習されたエンコーダーネットワークモデル１３ａに、ステップＳ１１１で取得したＭ個の画像データから、Ｍ個の画像データそれぞれの特徴表現を抽出させる（Ｓ１１２）。

【0144】

次に、学習装置１は、第２モデル１５ａに、抽出されたＭ個の画像データそれぞれの特徴表現から、個Ｍ個の画像データそれぞれのラベルを推論させる（Ｓ１１３）。

【0145】

次に、学習装置１は、タスク学習で用いるための第２損失関数と、推論された当該Ｍ個の画像データそれぞれのラベルと、当該Ｍ個の画像データそれぞれの正解ラベルとを用いて、エンコーダーネットワークモデル１３ａ及び第２モデル１５ａを学習させる（Ｓ１１４）。

【0146】

［３効果等］
本実施の形態では、教師あり対照学習を利用した特徴表現学習を行う際に、分類タスク以外のタスクでの正解ラベルを、分類タスクでの正解ラベルのワンホット表現に変換するなど画像認識技術分野タスクの正解ラベルとして特徴表現学習に適用可能となるように変換する。

【0147】

これにより、例えば物体検出タスクなどの分類タスク以外のタスクにおいて教師あり対照学習を利用することができる。

【0148】

よって、分類タスク以外の画像認識技術分野タスクのタスク学習にも適用可能な学習方法を実現できる。

【0149】

また、上記の実施の形態では、例えば、前記ラベル処理では、次元ごとの値として２以上を許容して前記Ｍ個の画像データそれぞれの正解ラベルを前記画像認識技術分野タスクの正解ラベルとして特徴表現学習に適用可能となる表現に変換し、前記適用可能となる表現の次元ごとのβ（βは任意の数）より大きい値を１に変換するステップ関数を適用することで、前記適用可能となる表現の次元ごとの値が０または１となるように、前記Ｍ個の画像データそれぞれの正解ラベルを、前記適用可能となる表現に変換する。

【0150】

これにより、分類タスク以外のタスクでの正解ラベルを、教師あり対照学習でのラベル情報として利用できる。換言すると、ニューラルネットワークモデルの学習方法において、ワンステージ化された教師あり特徴表現学習を、分類タスク以外のタスクに適用することができる。

【0151】

ここで、例えば、前記エンコーダーネットワークモデル及び前記第１モデルを学習させる際、前記Ｍ個の画像データのうちの２つの画像データが異なり、かつ、前記２つの画像データに対して前記データ拡張処理が行われる前の画像データが同一の場合に、前記対照学習における引き付ける処理を行わせる誤差が前記第１損失関数により算出される。

【0152】

【0153】

ここで、例えば、前記ラベル処理では、さらに、変換された前記適用可能となる表現が、２以上の次元において１の値を有する場合、前記２以上の次元における値を０に変更する。

【0154】

このように、正解ラベルにおいて、２以上の正解が含まれる場合に、その正解ラベルを教師あり対照学習のラベル情報として利用しないようにすることができる。これにより、教師あり対照学習でのラベル情報として利用する場合の処理の負荷を軽減することができる。

【0155】

また、例えば、前記エンコーダーネットワークモデル及び前記第１モデルを学習させる際、
ベクトル類似度による誤差が前記第１損失関数により算出される。

【0156】

これにより、ベクトル類似度を用いた対照損失を利用して、教師あり対照学習を実行させることができる。

【0157】

（変形例）
上記の実施の形態では、データ拡張処理されて得た画像ペアそれぞれのベクトル特徴表現を投影して得た埋め込みベクトルを用いて、教師あり対照学習を行うとして説明したが、これに限らない。

【0158】

画像ペアそれぞれのベクトル特徴表現を投影した埋め込みベクトルの一方から、他方の埋め込みベクトルを予測し、予測した埋め込みベクトルと、他方の埋め込みベクトルとを用いて、教師あり対照学習を行うとしてもよい。この場合を変形例として以下説明する。

【0159】

図２０は、本変形例に係る学習方法が実行される際の処理を概念的に説明するための図である。図５と同様の要素には同一の符号を付しており、詳細な説明は省略する。

【0160】

図２０に示す処理は、図５に示す処理と比較して、投影予測処理１４３が追加されており、これに伴い、ラベル処理１６１Ａと第１損失計算１７１Ａとが異なる。

【0161】

投影予測処理１４３では、投影処理１４２により得た埋め込みベクトルから、投影処理１４１により得た埋め込みベクトルを予測して、予測した埋め込みベクトルをラベル処理部１６に出力する。投影予測処理１４３は、エンコーダーネットワークモデル１３ａ、第１モデル１４ａ及び第２モデル１５ａと異なる第３モデルを用いて行われる。

【0162】

より具体的には、第１ネットワークブランチは、エンコーダーネットワークモデル１３ａ及び第１モデル１４ａに加えて第３モデルを有し、教師あり対照学習を利用した特徴表現学習が行われる。

【0163】

投影予測処理１４３では、第３モデルに、第１モデルの出力である２つの画像データの埋め込みベクトルのうちの一方の第１埋め込みベクトルから、他方の第２埋め込みベクトルを予測させた第３埋め込みベクトルを出力させる。

【0164】

本変形例に係る学習装置１は、投影予測処理１４３において、第３モデルを用いて、投影処理１４２により得た埋め込みベクトル

【数31】

から、投影処理１４１により得られる埋め込みベクトル

【数32】

を予測する。

【0165】

ラベル処理１６１Ａでは、２つの画像データそれぞれの正解ラベルを、分類タスクにおいて用いられるクラスラベルのクラス数を次元数とするクラス次元での、ワンホット表現などの表現に変換するラベル処理を行う。

【0166】

本変形例では、ラベル処理１６１Ａでは、投影予測処理１４３で予測された埋め込みベクトル

【数33】

と、投影処理１４１で得られた埋め込みベクトル

【数34】

を取得し、それらに対応する２つの画像データの正解ラベル

【数35】

を取得する。その他の処理については上記の実施の形態に係るラベル処理１６１と同様であるため説明を省略する。

【0167】

第１損失計算１７１Ａでは、上記の実施の形態で説明した第１損失関数を用いて、損失（誤差）の計算を行ってもよい。

【0168】

本変形例では、第１損失関数は、同じクラスに属する画像データは埋め込み空間内で近くに寄せられる一方で、異なるクラスに属する画像データは埋め込み空間内で離れていると値が小さくなるコサイン類似度による誤差を計算できる損失関数であってもよい。本変形例に係る第１損失関数は、例えば下記の（式７）で表されるコサイン類似度（ネガティブコサイン類似度）を用いた対照損失関数Ｌ^supを用いてもよい。

【0169】

【数36】

【0170】

そして、本変形例では、学習実行部１９は、教師あり対照学習で用いるための第１損失関数と、ラベル処理されたＭ個の画像データそれぞれの正解ラベルと、第２埋め込みベクトルと、第３埋め込みベクトルとを用いて、エンコーダーネットワークモデル１３ａ、第１モデル１４ａ及び第３モデルを学習させる。換言すると、本変形例に係る学習実行部１９は、エンコーダーネットワークモデル１３ａ、第１モデル１４ａ及び第３モデルを学習させる際、コサイン類似度による誤差を第１損失関数により計算して行う。

【0171】

以上のように、本変形例では、投影予測処理をさらに行い、教師あり対照学習を利用した特徴表現学習を行う。また、本変形例でも、上記の実施の形態と同様に、正解ラベルのラベル処理を行うことで、分類タスク以外のタスクでの正解ラベルを、分類タスクでの正解ラベルの、ワンホット表現などの表現に変換する。

【0172】

以上のように、本変形例では、さらに、前記第１ネットワークブランチは、第３モデルを有し、前記第３モデルに、前記第１モデルの出力である２つの画像データの埋め込みベクトルのうちの一方の第１埋め込みベクトルから、他方の第２埋め込みベクトルを予測させた第３埋め込みベクトルを出力させ、前記２つの画像データそれぞれの正解ラベルを、分類タスクにおいて用いられるクラスラベルのクラス数を次元数とするクラス次元でのワンホット表現に変換するラベル処理を行い、前記教師あり対照学習で用いるための第１損失関数と、前記ラベル処理された２つの画像データそれぞれの正解ラベルと、前記第２埋め込みベクトルと、前記第３埋め込みベクトルとを用いて、前記エンコーダーネットワークモデル、前記第１モデル及び前記第３モデルを学習させる。

【0173】

ここで、前記エンコーダーネットワークモデル、前記第１モデル及び前記第３モデルを学習させる際、コサイン類似度による誤差が前記第１損失関数により算出されてもよい。

【0174】

これにより、例えば物体検出タスクなどの分類タスク以外のタスクにおいて教師あり対照学習を利用することができるだけでなく、その際の計算リソースを軽減し、学習時間を短期化することができる。つまり、本変形例のように教師あり対照学習を利用した特徴表現学習を行うことで、大規模な計算リソースが必要なくなり、学習の際のバッチサイズが小さくても高精度を実現でき、また、学習時間を短期化できるので少ないエポック数で高精度を実現できる。

【0175】

（その他の実施の形態）
以上、本開示に係る学習方法について、各実施の形態に基づいて説明したが、本開示は、これらの実施の形態に限定されるものではない。本開示の主旨を逸脱しない限り、当業者が思いつく各種変形を各実施の形態に施したものや、各実施の形態における一部の構成要素を組み合わせて構築される別の形態も、本開示の範囲内に含まれる。

【0176】

また、以下に示す形態も、本開示の一つ又は複数の態様の範囲内に含まれてもよい。

【0177】

（１）上記の学習方法を実現する学習装置を構成する構成要素の一部は、マイクロプロセッサ、ＲＯＭ、ＲＡＭ、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムであってもよい。前記ＲＡＭ又はハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。

【0178】

（２）上記の学習方法を実現する学習装置を構成する構成要素の一部は、１個のシステムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしてもよい。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどを含んで構成されるコンピュータシステムである。前記ＲＡＭには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムＬＳＩは、その機能を達成する。

【0179】

（３）上記の学習方法を実現する学習装置を構成する構成要素の一部は、各装置に脱着可能なＩＣカード又は単体のモジュールから構成されているとしてもよい。前記ＩＣカード又は前記モジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどから構成されるコンピュータシステムである。前記ＩＣカード又は前記モジュールは、上記の超多機能ＬＳＩを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ＩＣカード又は前記モジュールは、その機能を達成する。このＩＣカード又はこのモジュールは、耐タンパ性を有するとしてもよい。

【0180】

（４）また、上記の学習方法を実現する学習装置を構成する構成要素の一部は、前記コンピュータプログラム又は前記デジタル信号をコンピュータで読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＣＤ－ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ－ＲＯＭ、ＤＶＤ－ＲＡＭ、ＢＤ（Ｂｌｕ－ｒａｙ（登録商標）Ｄｉｓｃ）、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている前記デジタル信号であるとしてもよい。

【0181】

例えば、上記の学習方法を実現するコンピュータプログラムは、教師あり対照学習を利用した特徴表現学習を行うための第１ネットワークブランチと分類タスク及び分類タスク以外のタスクを含む画像認識技術分野タスクのタスク学習を行うための第２ネットワークブランチとからなるニューラルネットワークモデルを学習させる学習方法をコンピュータに実行させるプログラムであって、前記ニューラルネットワークモデルは、前記第１ネットワークブランチと前記第２ネットワークブランチとで共有されるエンコーダーネットワークモデルと、前記第１ネットワークブランチのみが有する第１モデルと、前記第２ネットワークブランチのみが有する第２モデルとで構成され、予め準備された画像データと正解ラベルとからなるデータセットであってデータ拡張処理が行われたデータセットから、Ｎ個（Ｎは１以上の整数）の画像データ及び当該画像データに紐づく正解ラベルを取得させ、前記Ｎ個の画像データ及び当該画像データに紐づく正解ラベルに対してデータ拡張処理を行わせて、Ｍ個（ＭはＮの整数倍）の画像データ及び当該画像データに紐づく正解ラベルを取得し、前記エンコーダーネットワークモデルに、前記Ｍ個の画像データから、前記Ｍ個の画像データそれぞれの特徴表現を抽出させ、前記第１モデルに、抽出された前記Ｍ個の画像データそれぞれの特徴表現を、前記教師あり対照学習で用いるための埋め込みベクトルに投影させ、前記Ｍ個の画像データそれぞれの正解ラベルを、画像認識技術分野タスクの正解ラベルとして特徴表現学習に適用可能となるように変換するラベル処理を行わせ、前記教師あり対照学習で用いるための第１損失関数と、前記ラベル処理された前記Ｍ個の画像データそれぞれの正解ラベルと、前記Ｍ個の画像データそれぞれの埋め込みベクトルとを用いて、前記エンコーダーネットワークモデル及び前記第１モデルを学習させ、前記データ拡張処理が行われた前記Ｍ個の画像データを取得させ、前記教師あり対照学習された前記エンコーダーネットワークモデルに、取得した前記Ｍ個の画像データから、前記Ｍ個の画像データそれぞれの特徴表現を抽出させ、前記第２モデルに、抽出された前記Ｍ個の画像データそれぞれの特徴表現から、前記Ｍ個の画像データそれぞれのラベルを推論させ、前記タスク学習で用いるための第２損失関数と、推論された前記Ｍ個の画像データそれぞれのラベルと、前記Ｍ個の画像データそれぞれの正解ラベルとを用いて、前記エンコーダーネットワークモデル及び前記第２モデルを学習させ、前記エンコーダーネットワークモデル、前記第１モデル及び前記第２モデルの学習は、同時に行われる、ことをコンピュータに実行させる。

【0182】

また、上記の学習方法を実現する学習装置を構成する構成要素の一部は、前記コンピュータプログラム又は前記デジタル信号を、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。

【0183】

（５）本開示は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。

【0184】

（６）また、本開示は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。

【0185】

（７）また、前記プログラム又は前記デジタル信号を前記記録媒体に記録して移送することにより、又は前記プログラム又は前記デジタル信号を、前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。

【0186】

（８）また、上記の学習方法を実現する学習装置を構成する構成要素の一部をクラウドまたはサーバ装置でおこなってもよい。

【0187】

（９）上記実施の形態及び上記変形例をそれぞれ組み合わせるとしてもよい。

【産業上の利用可能性】

【0188】

本開示は、ラベル毎のデータ数に偏りがあるデータセットを用いて、分類タスク以外の学習にも適用可能な教師あり対照学習の学習方法、及び、プログラムなどに利用できる。

【符号の説明】

【0189】

１学習装置
２ニューラルネットワーク
２ａニューラルネットワークモデル
１１取得部
１２データ拡張処理部
１３特徴抽出部
１３ａエンコーダーネットワークモデル
１４投影部
１４ａ第１モデル
１５推論部
１５ａ第２モデル
１６ラベル処理部
１７第１損失計算部
１８第２損失計算部
１９学習実行部
１３１、１３２特徴抽出処理
１４１、１４２投影処理
１４３投影予測処理
１５１推論処理
１６１、１６１Ａラベル処理
１７１、１７１Ａ第１損失計算
１８１第２損失計算

【図1】