特開2023-177024 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧

特開2023-177024表現学習装置、方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023177024

(43)【公開日】2023-12-13

(54)【発明の名称】表現学習装置、方法及びプログラム

(51)【国際特許分類】

G06N 3/08 20230101AFI20231206BHJP

G06N 20/00 20190101ALI20231206BHJP

【ＦＩ】

G06N3/08

G06N20/00 130

【審査請求】未請求

【請求項の数】11

【出願形態】ＯＬ

(21)【出願番号】P 2022089693

(22)【出願日】2022-06-01

(71)【出願人】

【識別番号】000003078

【氏名又は名称】株式会社東芝

(74)【代理人】

【識別番号】110003708

【氏名又は名称】弁理士法人鈴榮特許綜合事務所

(72)【発明者】

【氏名】上松和樹

(72)【発明者】

【氏名】木村光宏

(57)【要約】

【課題】表現学習において算出される損失関数の精度を向上することが可能な表現学習装置、方法及びプログラムを提供すること。
【解決手段】実施形態に係る表現学習装置は、サンプル取得部、ラベル取得部、類似度算出部及び損失関数計算部を有する。サンプル取得部は、Ｍ個の第１の混合特徴表現から抽出されたＭ個の第２の混合特徴表現を取得する。ラベル取得部は、Ｎ個のラベルを混合したＭ個の混合ラベルを取得する。類似度算出部は、Ｍ個の混合ラベルから選択されたＬ個のラベル組合せのＬ個の類似度を算出する。Ｌ個のラベル組合せ各々は、Ｍ個の混合ラベルから選択されたＫ個の混合ラベルを有し、Ｌ個の類似度各々は、Ｋ個の混合ラベル間の類似の程度を表し、Ｌ個の類似度は、当該類似度が満たすべき定性的且つ定量的な制約条件に基づき定式化される。損失関数計算部は、Ｍ個の第２の混合特徴表現とＬ個の類似度とに基づいて損失関数を計算する。
【選択図】図１

【特許請求の範囲】

【請求項1】

Ｎ個のサンプルの特徴表現を混合したＭ個の第１の混合特徴表現、当該Ｍ個の第１の混合特徴表現から抽出されたＭ個の第２の混合特徴表現、Ｎ個のサンプルを混合したＭ個の混合サンプルから抽出された特徴表現であるＭ個の第３の混合特徴表現又は当該Ｍ個の第３の混合特徴表現から抽出された特徴表現であるＭ個の第４の混合特徴表現を取得するサンプル取得部と、
前記Ｎ個のサンプルにそれぞれ対応するＮ個のラベルを混合したＭ個の混合ラベルを取得するラベル取得部と、
前記Ｍ個の混合ラベルから選択されたＬ個のラベル組合せのＬ個の類似度を算出する部であって、前記Ｌ個のラベル組合せ各々は、前記Ｍ個の混合ラベルから選択されたＫ個の混合ラベルを有し、前記Ｌ個の類似度各々は、前記Ｋ個の混合ラベル間の類似の程度を表し、前記Ｌ個の類似度は、当該類似度が満たすべき定性的且つ定量的な制約条件に基づき定式化される、類似度算出部と、
前記Ｍ個の第１乃至第４の何れか１種の混合特徴表現と前記Ｌ個の類似度とに基づいて損失関数を計算する損失関数計算部と、
を具備する表現学習装置。

【請求項2】

前記制約条件は、
前記Ｋ個の混合ラベルが同一であるときに類似度が下限値をとること、
前記Ｋ個の混合ラベルが最も類似するときに類似度が上限値をとること、
前記Ｋ個の混合ラベルが最も類似しないときに類似度が下限値をとること、及び／又は、
前記Ｋ個の混合ラベルが対称性を有するときに類似度が同一値をとること、を有する、
請求項１記載の表現学習装置。

【請求項3】

前記類似度算出部は、イェンセン・シャノン情報量又はコサイン類似度に基づいて定式化された前記Ｌ個の類似度を算出する、請求項１記載の表現学習装置。

【請求項4】

前記サンプル取得部は、
前記Ｎ個のサンプルを取得し、
前記Ｎ個のサンプルからＮ個の第１の特徴表現を抽出し、
前記Ｎ個の第１の特徴表現を混合して前記Ｍ個の第１の混合特徴表現を生成し、
前記Ｍ個の第１の混合特徴表現から前記Ｍ個の第２の混合特徴表現を抽出し、
前記ラベル取得部は、
前記Ｎ個のサンプルに対応する前記Ｎ個のラベルを取得し、
前記Ｎ個のラベルを混合して前記Ｍ個の混合ラベルを生成し、
前記損失関数計算部は、
前記Ｍ個の第２の混合特徴表現から選択されたＬ個のサンプル組合せ各々におけるＫ個の第２の混合特徴表現間の相関を記述される対照損失項に、前記Ｌ個の類似度を作用させた前記損失関数を算出する、
請求項１記載の表現学習装置。

【請求項5】

前記サンプル取得部は、
深層学習モデルに含まれる第１のネットワーク層に前記Ｎ個のサンプルを入力して前記Ｎ個の第１の特徴表現を抽出し、
前記深層学習モデルに含まれる前記第１のネットワーク層の後段に位置する第２のネットワーク層に前記Ｍ個の第１の混合特徴表現を入力して前記Ｍ個の第２の混合特徴表現を抽出する、
請求項４記載の表現学習装置。

【請求項6】

前記損失関数に基づいて前記深層学習モデルを更新する最適化部を更に備える、請求項５記載の表現学習装置。

【請求項7】

前記ラベル取得部は、前記Ｎ個のラベル各々として、前記サンプルに対して人為的に付与された教師ラベル、前記サンプルの特徴表現の分布又は前記サンプルの種別に基づき付与された自己教師ラベル、又は教師ラベルを持つ他のサンプルの特徴表現の分布、教師ラベルを持たないサンプルの特徴表現の分布、及びサンプルの種別に基づき付与された半教師ラベル、を取得する、請求項１記載の表現学習装置。

【請求項8】

前記類似度算出部は、Ｌ個の重み値と前記Ｌ個の類似度とに基づいてＬ個の積算値を算出し、
前記損失関数計算部は、前記Ｍ個の第１乃至第４の何れか１種の混合特徴表現と前記Ｌ個の積算値とに基づいて前記損失関数を計算し、
前記Ｌ個の重み値は、前記Ｋ個の混合ラベル各々のラベルの種別に応じた値を有し、
前記種別は、前記教師ラベル、前記自己教師ラベル及び前記半教師ラベルの何れかである、
請求項７記載の表現学習装置。

【請求項9】

前記類似度算出部は、前記Ｍ個の混合ラベル及び前記Ｎ個のラベルから選択された前記Ｌ個のラベル組合せの前記Ｌ個の類似度を算出する、請求項１記載の表現学習装置。

【請求項10】

Ｎ個のサンプルの特徴表現を混合したＭ個の第１の混合特徴表現、当該Ｍ個の第１の混合特徴表現から抽出されたＭ個の第２の混合特徴表現、Ｎ個のサンプルを混合したＭ個の混合サンプルから抽出された特徴表現であるＭ個の第３の混合特徴表現又は当該Ｍ個の第３の混合特徴表現から抽出された特徴表現であるＭ個の第４の混合特徴表現を取得する工程と、
前記Ｎ個のサンプルにそれぞれ対応するＮ個のラベルを混合したＭ個の混合ラベルを取得する工程と、
前記Ｍ個の混合ラベルから選択されたＬ個のラベル組合せのＬ個の類似度を算出する工程であって、前記Ｌ個のラベル組合せ各々は、前記Ｍ個の混合ラベルから選択されたＫ個の混合ラベルを有し、前記Ｌ個の類似度各々は、前記Ｋ個の混合ラベル間の類似の程度を表し、前記Ｌ個の類似度は、当該類似度が満たすべき定性的且つ定量的な制約条件に基づき定式化される、工程と、
前記Ｍ個の第１乃至第４の何れか１種の混合特徴表現と前記Ｌ個の類似度とに基づいて損失関数を計算する工程と、
を具備する表現学習方法。

【請求項11】

コンピュータに、
Ｎ個のサンプルの特徴表現を混合したＭ個の第１の混合特徴表現、当該Ｍ個の第１の混合特徴表現から抽出されたＭ個の第２の混合特徴表現、Ｎ個のサンプルを混合したＭ個の混合サンプルから抽出された特徴表現であるＭ個の第３の混合特徴表現又は当該Ｍ個の第３の混合特徴表現から抽出された特徴表現であるＭ個の第４の混合特徴表現を取得させる機能と、
前記Ｎ個のサンプルにそれぞれ対応するＮ個のラベルを混合したＭ個の混合ラベルを取得させる機能と、
前記Ｍ個の混合ラベルから選択されたＬ個のラベル組合せのＬ個の類似度を算出させる機能であって、前記Ｌ個のラベル組合せ各々は、前記Ｍ個の混合ラベルから選択されたＫ個の混合ラベルを有し、前記Ｌ個の類似度各々は、前記Ｋ個の混合ラベル間の類似の程度を表し、前記Ｌ個の類似度は、当該類似度が満たすべき定性的且つ定量的な制約条件に基づき定式化される、機能と、
前記Ｍ個の第１乃至第４の何れか１種の混合特徴表現と前記Ｌ個の類似度とに基づいて損失関数を計算させる機能と、
を実現させる表現学習プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態は、表現学習装置、方法及びプログラムに関する。

【背景技術】

【0002】

統計的機械学習モデル、特に深層学習モデルにおいて、特徴ベクトル自体を用いて損失関数を設計する表現学習によって、モデルの性能を向上させる試みが盛んに行われている。また、学習時にサンプルの多様性を確保するために、複数のサンプルを混合することでサンプルの水増しを行う混合型のデータ増強が有効であることが知られている。ラベル情報を伴う混合型のデータ増強を表現学習へ導入する試みもなされている。しかしながら、混合後のサンプルが有する混合ラベル同士の類似性を適切に評価することができず、したがって、損失関数を適切に設計することができていない。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】Kibok Lee, Yian Zhu, Kihyuk Sohn, Chun-Liang Li, Jinwoo Shin, and Honglak Lee, “i-Mix: A Domain-Agnostic Strategy for Contrastive Representation Learning,” in Proceedings of the Ninth International Conference on Learning Representations (ICLR 2021).

【非特許文献2】Yangkai Du, Tengfei Ma, Lingfei Wu, Fangli Xu, Xuhong Zhang, Bo Long, and Shouling Ji,“Constructing Contrastive Samples via Summarization for Text Classification with Limited Annotations,” in Findings of the Association for Computational Linguistics: EMNLP 2021, pages 1365-1376, Punta Cana, Dominican Republic. Association for Computational Linguistics.

【発明の概要】

【発明が解決しようとする課題】

【0004】

本発明が解決しようとする課題は、表現学習において算出される損失関数の精度を向上することが可能な表現学習装置、方法及びプログラムを提供することである。

【課題を解決するための手段】

【0005】

実施形態に係る表現学習装置は、サンプル取得部、ラベル取得部、類似度算出部及び損失関数計算部を有する。サンプル取得部は、Ｎ個のサンプルの特徴表現を混合したＭ個の第１の混合特徴表現、当該Ｍ個の第１の混合特徴表現から抽出されたＭ個の第２の混合特徴表現、Ｎ個のサンプルを混合したＭ個の混合サンプルから抽出された特徴表現であるＭ個の第３の混合特徴表現又は当該Ｍ個の第３の混合特徴表現から抽出された特徴表現であるＭ個の第４の混合特徴表現を取得する。ラベル取得部は、前記Ｎ個のサンプルにそれぞれ対応するＮ個のラベルを混合したＭ個の混合ラベルを取得する。類似度算出部は、前記Ｍ個の混合ラベルから選択されたＬ個のラベル組合せのＬ個の類似度を算出する部であって、前記Ｌ個のラベル組合せ各々は、前記Ｍ個の混合ラベルから選択されたＫ個の混合ラベルを有し、前記Ｌ個の類似度各々は、前記Ｋ個の混合ラベル間の類似の程度を表し、前記Ｌ個の類似度は、当該類似度が満たすべき定性的且つ定量的な制約条件に基づき定式化される。損失関数計算部は、前記Ｍ個の第１乃至第４の何れか１種の混合特徴表現と前記Ｌ個の類似度とに基づいて損失関数を計算する。

【図面の簡単な説明】

【0006】

【図1】本実施形態に係る表現学習装置の構成例を示す図

【図2】実施例１に係る表現学習処理の手順を示す図

【図3】実施例１に係る表現学習処理の全体像を模式的に示す図

【図4】本実施形態に係る損失関数の設計例を模式的に示す図

【図5】非教師ラベルが使用されるときの類似度ｃ_SimCLRの行列構造を表す図

【図6】教師ラベルが使用されるときの類似度ｃ_SupCLRの行列構造を表す図

【図7】本実施形態に係る類似度Ｚと比較例１に係る類似度Ｘとの比較結果を示す図

【図8】本実施形態に係る類似度Ｚと比較例２に係る類似度Ｙとの比較結果を示す図

【図9】本実施形態、比較例１及び比較例２に係る深層学習モデルの分類正解率を示す図

【図10】複数の検知対象に対する分布外検知のスコアを示す図

【図11】実施例２に係る表現学習処理の手順を示す図

【図12】実施例３に係る表現学習処理の手順を示す図

【図13】実施例４に係る表現学習処理の手順を示す図

【図14】本実施形態に係る表現学習処理の手順を示す図

【図15】応用例に係る表現学習装置の構成例を示す図

【図16】応用例に係る損失関数の設計例を模式的に示す図

【発明を実施するための形態】

【0007】

以下、図面を参照しながら本実施形態に係わる表現学習装置、方法及びプログラムを説明する。

【0008】

図１は、本実施形態に係る表現学習装置１００の構成例を示す図である。図１に示すように、表現学習装置１００は、処理回路１、記憶装置２、入力機器３、通信機器４及び表示機器５を有するコンピュータである。処理回路１、記憶装置２、入力機器３、通信機器４及び表示機器５間のデータ通信はバスを介して行われる。

【0009】

処理回路１は、ＣＰＵ（Central Processing Unit）等のプロセッサとＲＡＭ（Random Access Memory）等のメモリとを有する。処理回路１は、サンプル取得部１１、ラベル取得部１２、類似度算出部１３、損失関数計算部１４、最適化部１５及び出力制御部１６を有する。処理回路１は、表現学習プログラムを実行することにより、上記各部１１～１６の各機能を実現する。表現学習プログラムは、記憶装置２等の非一時的コンピュータ読み取り可能な記録媒体に記憶されている。表現学習プログラムは、上記各部１１～１６の全ての機能を記述する単一のプログラムとして実装されてもよいし、幾つかの機能単位に分割された複数のモジュールとして実装されてもよい。また、上記各部１１～１６は特定用途向け集積回路（Application Specific Integrated Circuit：ＡＳＩＣ）等の集積回路により実装されてもよい。この場合、単一の集積回路に実装されても良いし、複数の集積回路に個別に実装されてもよい。

【0010】

サンプル取得部１１は、Ｎ（Ｎは自然数）個のサンプルの特徴表現を混合したＭ（Ｍは自然数）個の混合特徴表現又は当該Ｍ個の混合特徴表現から抽出されたＭ個の他の混合特徴表現、Ｍ個のサンプルを混合したＭ個の混合サンプルから抽出された特徴表現であるＭ個の混合特徴表現、又は当該Ｍ個の混合特徴表現から抽出された特徴表現であるＭ個の他の混合特徴表現を取得する。また、サンプル取得部１１は、Ｎ個のサンプル、混合サンプル又は特徴表現を取得することも可能である。サンプルから特徴表現を抽出する手法や混合サンプルから混合特徴表現を抽出する手法は、深層学習モデル等の統計的機械学習モデルを使用する方法を想定する。サンプルは、処理回路１による処理対象のデータを意味する。サンプルは、ラベルを付与可能なデータであれば如何なるデータでもよく、例えば、画像データや音声データ、文字データ、波形データ等が使用される。

【0011】

ラベル取得部１２は、Ｎ個のサンプルにそれぞれ対応するＮ個のラベルを混合したＭ個の混合ラベルを取得する。また、ラベル取得部１２は、Ｎ個のラベルを取得することも可能である。

【0012】

類似度算出部１３は、Ｍ個の混合ラベルから選択されたＬ（Ｌは自然数）個の組合せ（以下、ラベル組合せ）のＬ個の類似度を算出する。Ｌ個のラベル組合せ各々は、Ｍ個の混合ラベルから選択されたＫ（Ｋは自然数）個の混合ラベルを有する。Ｌ個の類似度各々は、Ｋ個の混合ラベル間の類似の程度を表す。Ｌ個の類似度は、当該類似度が満たすべき定性的且つ定量的な制約条件に基づき定式化される。

【0013】

損失関数計算部１４は、Ｍ個の第１乃至第４の何れか１種の混合特徴表現と前記Ｌ個の類似度とに基づいて損失関数を算出する。より詳細には、損失関数計算部１４は、Ｍ個の第１乃至第４の何れか１種の混合特徴表現からＬ個の組合せ（以下、サンプル組合せ）を選択する。ここで、Ｌ個のサンプル組合せ各々は、Ｋ個の混合特徴表現を有する。損失関数計算部１４は、Ｌ個のサンプル組合せ各々について、Ｋ個の混合特徴表現間の相関を算出する。損失関数計算部１４は、Ｌ個の相関とＬ個の類似度とに基づいて損失関数を算出する。

【0014】

最適化部１５は、損失関数に基づいて深層学習モデルを更新する。最適化部１５は、更新の停止条件の充足の有無を判定し、停止条件を充足したと判定するまで、深層学習モデルの更新を繰り返す。最適化部１５は、停止条件を充足したと判定した場合、現段階の深層学習モデルを学習済みの深層学習モデルとして出力する。

【0015】

出力制御部１６は、種々のデータを出力する。一例として、出力制御部１６は、サンプルや混合サンプル、特徴表現、混合特徴表現、類似度、深層学習モデルの学習結果、学習済み深層学習モデル等を、表示機器５に表示してもよいし、記憶装置２に保存してもよいし、通信機器４を介して他のコンピュータに送信してもよい。

【0016】

記憶装置２は、ＲＯＭ（Read Only Memory）やＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、集積回路記憶装置等により構成される。記憶装置２は、表現学習プログラム等を記憶する。

【0017】

入力機器３は、ユーザからの各種指令を入力する。入力機器３としては、キーボードやマウス、各種スイッチ、タッチパッド、タッチパネルディスプレイ等が利用可能である。入力機器３からの出力信号は処理回路１に供給される。なお、入力機器３としては、処理回路１に有線又は無線を介して接続されたコンピュータの入力機器であってもよい。

【0018】

通信機器４は、表現学習装置１００にネットワークを介して接続された外部機器との間でデータ通信を行うためのインタフェースである。

【0019】

表示機器５は、種々の情報を表示する。例えば、表示機器５は、出力制御部１６による制御に従い種々のデータを表示する。表示機器５としては、ＣＲＴ（Cathode-Ray Tube）ディスプレイや液晶ディスプレイ、有機ＥＬ（Electro Luminescence）ディスプレイ、ＬＥＤ（Light-Emitting Diode）ディスプレイ、プラズマディスプレイ又は当技術分野で知られている他の任意のディスプレイが適宜利用可能である。また、表示機器５は、プロジェクタでもよい。

【0020】

以下、本実施形態に係る種々の実施例について説明する。

【0021】

［実施例１］
図２は、実施例１に係る表現学習処理の手順を示す図である。図３は、実施例１に係る表現学習処理の全体像を模式的に示す図である。

【0022】

図２及び図３に示すように、サンプル取得部１１は、Ｎ個のサンプル３１０を取得する（Ｓ２０１）。Ｎ個のサンプル３１０は、１個のミニバッチを構成する。Ｎ個のサンプル３１０は、その全てが異なる出所のものでもよいし、基本となるサンプルと当該サンプルに幾何学的変換や輝度値変換等のデータ増強（data augmentation）を施したものでもよい。

【0023】

ステップＳ２０１が行われるとラベル取得部１２は、Ｎ個のラベル３４０を取得する（ステップＳ２０２）。Ｎ個のラベル３４０は、Ｎ個のサンプル３１０に一対一対応している。ラベル３４０の種別は、特に限定されず、教師ラベル、自己教師ラベル（又は教師無しラベル）及び半教師ラベルの少なくとも１種が利用可能である。換言すれば、本実施形態は、ラベル種別に関わりなく実行することが可能である。教師ラベルは、サンプル３１０に対して人為的に付与されたラベルを意味する。自己教師ラベルは、サンプル３１０の特徴表現の分布、またはサンプル３１０の種別に基づき付与された疑似的なラベルを意味する。例えば、教師ラベルがないデータに対して、特徴表現のクラスタリングなどによって与えられる擬似的なラベルを意味する。代表的な自己教師あり表現学習手法であるSimCLRと呼ばれる手法では、各データに対して複数の変形Ｔ_１、Ｔ_２を作用させ、同じデータに対して異なる変形を作用させたものを同じクラスとみなし、異なるデータから生成されたものは別のクラスとみなす方法が取られている。半教師ラベルは、教師ラベルがないサンプルに対して、教師ラベルを持つ他のサンプルの特徴表現の分布、教師ラベルを持たないサンプルの特徴表現の分布、及びサンプルの種別に基づき付与された疑似的なラベルを意味する。例えば、少数の教師ラベルがあるデータを参照しながら、特徴表現のクラスタリングなどによって、教師ラベルがないデータに対して与えられるラベルである。半教師ラベルと自己教師ラベルとは、非教師ラベルと称することもある。

【0024】

ステップＳ２０２が行われるとサンプル取得部１１は、深層学習モデル３０を使用して、Ｎ個のサンプル３１０からＮ個の特徴表現を抽出する（ステップＳ２０３）。深層学習モデル３０は、学習前のモデルである。深層学習モデル３０は、特に限定されず、分布外（ＯＯＤ：Out Of Distribution）検知や画像分類、物体検知、音声認識、ＶＱＡ（Visual Question Answering）等の如何なるタスクを実行するものでもよい。

【0025】

ステップＳ２０３が行われるとサンプル取得部１１は、深層学習モデル３０を使用して、Ｎ個の特徴表現からＭ個の第１の混合特徴表現３２０を生成する（ステップＳ２０４）。混合特徴表現の多様性を確保するためには、混合特徴表現の候補の数はＮに比べて大きいことが望ましい一方で、計算の複雑性を回避するためには、ＭはＮと同程度の値となることが望ましい。実施例では、Ｎ個の特徴表現の中から重複なしでランダムに二つを抽出してユニットを形成し、一つのユニットに対して二つの混合特徴表現を得ている。あるユニットの形成後に別のユニットを形成する際は、以前抽出された特徴表現が二度以上抽出されないように制約をかけている。そのため実施例では、混合特徴表現の候補の数は_ＮＣ_２個であり、実際に使用される混合特徴表現の個数はＭ個＝Ｎ個である。特徴表現の混合の手法は、特に限定されず、例えば、Mixup、CutMix、Manifold Mixup等の手法を転用することが可能である。また、混合特徴表現を生成する際のサンプル組み合わせは上記に限定されず、同一の特徴表現同士を混合しても良いし、複数のユニットを形成する際に制約をかけなくても良いし、Ｎ個の特徴表現の中から三つ以上を抽出して一つのユニットを形成しても良い。

【0026】

ステップＳ２０４が行われるとラベル取得部１２は、Ｎ個のラベル３４０からＭ個の混合ラベル３５０を生成する（ステップＳ２０５）。ステップＳ２０５に係るラベル取得部１２は、ラベル混合モジュール３１により実現される。ラベル混合モジュール３１は、深層学習モデル３０からは独立したプログラムモジュールである。ラベル混合モジュール３１は、ステップＳ２０４における特徴表現の混合に対応する方法で、ラベル３４０の混合を行う。実施例では、特徴表現に対して行ったユニット形成と同様の方法で、Ｎ個のラベル３４０からＮ／２個のユニットを形成し、一つのユニットに対して二つの混合ラベル３５０を得ることで、Ｎ個の混合ラベル３５０を生成する。混合の手法としては、特に限定されないが、Mixup、CutMix、Manifold Mixup等に記載された手法を利用することが可能である。ただし、ラベル組み合わせの方法は、サンプル組み合わせと同様の方法で行う必要がある。

【0027】

ステップＳ２０５が行われるとサンプル取得部１１は、深層学習モデル３０を使用して、Ｍ個の第１の混合特徴表現３２０からＭ個の第２の混合特徴表現３３０を抽出する（ステップＳ２０６）。

【0028】

ここで、深層学習モデル３０の構成について説明する。図３に示すように、深層学習モデル３０は、特徴抽出層３０１、特徴表現混合モジュール３０２及び特徴抽出層３０３を有する。訓練段階において、深層学習モデル３０のタスクの実行に対する寄与の大きい、特徴抽出層３０３の後段のネットワーク層（ヘッド）は外されている。

【0029】

特徴抽出層３０１は、サンプル３１０を入力してサンプル３１０から特徴ベクトルを抽出するネットワーク層である。当該特徴ベクトルが特徴表現として用いられる。特徴抽出層３０１は、畳み込み層や全結合層、多層パーセプトロン、プーリング層、Ｄｅｎｓ層等の任意のネットワーク層を１層又は複数層有している。このようなネットワーク層としては、ＲｅｓＮｅｔやＶＧＧＮｅｔ等が用いられればよい。特徴表現混合モジュール３０２は、ステップＳ２０３において、Ｎ個のサンプル３１０各々から特徴表現を抽出する。

【0030】

特徴表現混合モジュール３０２は、特徴抽出層３０１の後段に設けられている。特徴表現混合モジュール３０２は、ステップＳ２０４において、Ｎ個の特徴表現からＭ個の第１の混合特徴表現を生成するプログラムモジュールである。

【0031】

特徴抽出層３０３は、特徴表現混合モジュール３０２の後段に設けられている。特徴抽出層３０３は、第１の混合特徴表現３２０を入力して第１の混合特徴表現３２０から特徴ベクトルを抽出するネットワーク層である。当該特徴ベクトルが第１の混合特徴表現の特徴表現である第２の混合特徴表現３３０として使用される。特徴抽出層３０３は、畳み込み層や全結合層、多層パーセプトロン、プーリング層、Ｄｅｎｓ層等の任意のネットワーク層を１層又は複数層有している。このようなネットワーク層としては、ＲｅｓＮｅｔやＶＧＧＮｅｔ等が用いられればよい。特徴抽出層３０３は、ステップＳ２０６において、Ｍ個の第１の混合特徴表現３２０各々から第２の混合特徴表現３３０を抽出する。

【0032】

上記の通り、サンプル取得部１１は、ステップＳ２０４において、深層学習モデル３０に含まれる第１のネットワーク層（特徴抽出層３０１）にＮ個のサンプルを入力してＮ個の第１の特徴表現を抽出し、ステップＳ２０６において、深層学習モデル３０に含まれる第１のネットワーク層（特徴抽出層３０１）の後段に位置する第２のネットワーク層（特徴抽出層３０３）にＭ個の第１の混合特徴表現を入力してＭ個の第２の混合特徴表現を抽出する。

【0033】

ステップＳ２０６が行われると類似度算出部１３は、Ｍ個の混合ラベル３５０からＬ個の類似度３６０を算出する（ステップＳ２０７）。ステップＳ２０７に係る類似度算出部１３は、類似度算出モジュール３２により実現される。類似度算出モジュール３２は、深層学習モデル３０から独立したプログラムモジュールであるとする。

【0034】

類似度算出モジュール３２は、Ｍ個の混合ラベル３５０から選択されたＬ個のラベル組合せについてＬ個の類似度３６０を算出する。Ｌ個のラベル組合せ各々は、Ｍ個の混合ラベルから選択されたＫ個の混合ラベルを有する。Ｌ個の類似度各々は、Ｌ個のラベル組合せ各々におけるＫ個の混合ラベル間の類似の程度を表する。実施例では、ラベル組み合わせの際は、Ｍ個の混合ラベルの中からランダムにＫ個を重複なしで抽出し、その組み合わせ全てを作成する。この場合、ラベル組み合わせはＬ個＝_ＭＣ_Ｋ個である。Ｋの値は、損失関数計算部１４において相関を取る混合特徴表現の個数と一致する。表現学習で用いられる損失関数ではＫ個＝２個が典型的であるが、限定する必要はない。また、組み合わせだけでなく順序を考慮して作成しても良いし、重複ありで抽出して作成しても良い。

【0035】

ここで、Ｋ個＝２個であるとしてラベル組合せ及び類似度について説明する。２個の混合ラベルからなるラベル組合せを（ＭＬｉ,ＭＬｊ）と表記する。なお、ｉ及びｊは混合ラベルを表す添字である。ラベル組合せ（ＭＬｉ,ＭＬｊ）について、ＭＬｉのＭＬｊに対する類似度が算出される。具体的に、３個（Ｍ個＝３個）の混合ラベルＭＬ１，ＭＬ２，ＭＬ３の事例について考える。３個の混合ラベルＭＬ１，ＭＬ２，ＭＬ３からＬ個＝３（＝_３Ｃ_２）個のラベル組合せ（ＭＬｉ,ＭＬｊ）＝（ＭＬ１，ＭＬ２）、（ＭＬ１，ＭＬ３）、（ＭＬ２，ＭＬ３）、が作成され、各ラベル組合せについて類似度が算出される。

【0036】

ステップＳ２０７が行われると損失関数計算部１４は、損失関数を計算する（ステップＳ２０８）。ステップＳ２０８に係る損失関数計算部１４は、損失関数計算モジュール３３により実現される。損失関数計算モジュール３３は、深層学習モデル３０から独立したプログラムモジュールであるとする。

【0037】

ステップＳ２０８において損失関数計算モジュール３３は、ステップＳ２０６において抽出されたＭ個の第２の混合特徴表現３３０とＬ個の類似度３６０とに基づいて損失関数を計算し、損失３７０を算出する。より詳細には、損失関数計算モジュール３３は、Ｍ個の第２の混合特徴表現３３０からＬ個のサンプル組合せを選択する。ここで、Ｌ個のサンプル組合せ各々は、Ｋ個の混合特徴表現を有する。損失関数計算モジュール３３は、Ｌ個のサンプル組合せ各々について、Ｋ個の混合特徴表現間の相関を算出する。損失関数計算モジュール３３は、Ｌ個の相関とＬ個の類似度とに基づいて損失関数を算出する。

【0038】

ここで、Ｋ個＝２個であるとしてラベル組合せ及び類似度について説明する。Ｌ個の相関各々は、Ｌ個のサンプル組合せ各々における２個の第２の混合特徴表現間の相関の程度を表する。ここで、２個の第２の混合特徴表現からなるサンプル組合せを（ＭＦＲｉ,ＭＦＲｊ）と表記する。なお、ｉ及びｊは第２の混合特徴表現を表す添字である。サンプル組合せ（ＭＦＲｉ,ＭＦＲｊ）について、ＭＦＲｉのＭＦＲｊに対する相関が算出される。具体的に、３個（Ｍ個＝３個）の混合特徴表現ＭＦＲ１，ＭＦＲ２，ＭＦＲ３の事例について考える。３個の混合特徴表現ＭＦＲ１，ＭＦＲ２，ＭＦＲ３からＬ個＝３（＝_３Ｃ_２）個のサンプル組合せ（ＭＦＲｉ, ＭＦＲｊ）＝（ＭＦＲ１，ＭＦＲ２）、（ＭＦＲ１，ＭＦＲ３）、（ＭＦＲ２，ＭＦＲ３）が作成され、各サンプル組合せについて相関が算出される。

【0039】

次に、本実施形態に係る損失関数の設計について詳細に説明する。図４は、本実施形態に係る損失関数の設計例を模式的に示す図である。図４に示すように、損失関数は、類似度と対照損失項との積算により表される。上記の通り、類似度は、Ｌ個のラベル組合せ各々におけるＫ個の混合ラベル間の類似の程度を表す。対照損失項は、Ｌ個のサンプル組合せ各々におけるＫ個の第２の混合特徴表現間の相関で記述される。

【0040】

図４に示すように、類似度は、当該類似度が満たすべき定性的且つ定量的な制約条件に基づき定式化される。制約条件は、換言すれば、Ｌ個の類似度は、理想の類似度が満たすべき制約条件に基づいて導出される。制約条件の具体的な内容は種々様々である。一例として、制約条件は、Ｋ個の混合ラベルが同一であるときに類似度が下限値をとること（第１条件）、Ｋ個の混合ラベルが最も類似するときに類似度が上限値をとり、Ｋ個の混合ラベルが最も類似しないときに類似度が下限値をとること（第２条件）、及び／又は、Ｋ個の混合ラベルが対称性を有するときに類似度が同一値をとること（第３条件）、を有する。第１条件及び第２条件に関し、下限値及び上限値の具体的な値は特に限定されないが、例えば、下限値＝０、上限値＝１に設定される。第３条件に関する対称性とは、例えば、Ｋ個＝２個の場合、ＭＬｉに対するＭＬｊの類似度と、ＭＬｊに対するＭＬｉの類似度が交換可能であることを意味する。

【0041】

上記第１乃至第３条件を数式で表すと下記の通りである。なおｃ_ｉｊは混合ラベルiの混合ラベルｊに対する類似度を表す。ｙ_i´は混合ラベルiの値を表す。ラベルを混合しない場合のｙ_i´は、典型的には、1-of-K形式のベクトルで表される。

【0042】

【数1】

【0043】

類似度は、ラベルが教師ラベルか否かに応じて行列構造が設計されてもよい。図５は、非教師ラベルが使用されるときの類似度ｃ_SimCLRの行列構造を表す図であり、図６は教師ラベルが使用されるときの類似度ｃ_SupCLRの行列構造を表す図である。非教師ラベルは、半教師ラベル又は自己教師ラベルを意味する。ラベルが非教師ラベルである場合、深層学習モデルの学習アルゴリズムとしては、教師無し対照学習が実行される。ラベルが教師ラベルである場合、深層学習モデルの学習アルゴリズムとしては、教師有り対照学習が実行される。

【0044】

図５及び図６の例では、４個のサンプル画像Img１、Img２、Img３及びImg４に対応するラベル間の類似度の行列構造を表している。サンプル画像Img１及びImg２のラベルはクラス１に分類され、サンプル画像Img３及びImg４のラベルはクラス２に分類されるものとする。類似度ｃ_SimCLR及び類似度ｃ_SupCLR各々は、行及び列各々について、４個の２×２の行列ブロックに分割される。行列ブロックの第１行は基準サンプルを表し、第２行は基準サンプルに変形を施したサンプルを表す。同様に、行列の第１列は基準サンプルを表し、第２列は基準サンプルに変形を施したサンプルを表す。対角成分（点線で囲まれた行列ブロック。例えば、１行１列、２行２列）は、同一ラベル同士の類似度を表すので、第１条件により、値０に設計される。非対角成分（例えば、２行１列、１行２列）は、同一クラスに属する異なるラベル同士の類似度を表すので、第２条件により、値１に設計される。また、類似度ｃ_SimCLR及び類似度ｃ_SupCLR各々は、第３条件により、交換可能な行列ブロック同士については、同一の類似度を有している。

【0045】

図５に示す教師無し対照学習の場合、非対角成分にある行列ブロックに示すように、異なるサンプル間の類似度は、同一クラスでも異なるクラスでも、全て値０に設計される。図６に示す教師有り対照学習の場合、例えば、一点鎖線で図示する行列ブロック（例えば、２行１列、１行２列）に示すように、同一クラスに属する異なるサンプル間の類似度は、両ラベルが最も類似することになるので、第２条件により、値１に設計される。例えば、３行１列の行列ブロックに示すように、異なるクラスに属する異なるサンプル間の類似度は、両混合ラベルが最も類似しないことになるので、第２条件により、値０に設計される。

【0046】

第１乃至第３条件を満たす類似度ｃ_ｉｊとしては、一例として、下記の（４）式に示すイェンセン・シャノン情報量（Jensen-Shannon divergence）又は下記の（５）式に示すコサイン類似度に基づいて定式化される。（４）式のＨ（・）はシャノンエントロピーを表す。

【0047】

【数2】

【0048】

損失関数としては、一例として、下記（６）式により表される教師有り対照学習の損失関数Ｌ^{（ｓｕｐ）}が用いられる。損失関数Ｌ^{（ｓｕｐ）}は、類似度ｃ_ｉｊと相関ｓ（ｆ_ｉ，ｆ_ｊ）に依存する対照損失項Ｌｏｇ・とに基づいて計算される。相関ｓ（ｆ_ｉ，ｆ_ｊ）は、特徴ベクトルｆ_ｉの特徴ベクトルｆ_ｊに対する相関を表す。ｃ_ｉｊを正規化したｃ_ｉｊ´＝ｃ_ｉｊ／Σ_ｊｃ_ｉｊが類似度として用いられてもよい。

【0049】

【数3】

【0050】

損失関数は、（６）式に限定されず、例えば、ＭｏＣｏ（momentum contrast）を一般化した、下記（７）式に示す損失関数Ｌ^{（ＭｏＣｏ）}が用いられてもよい。ｆ_ｉは変形Ｔ_１を作用させたデータを深層学習モデルへ入力して得た特徴表現である。ｆ_ｊ ^～ＥＭＡは、ｆ_ｉの獲得に使用したものと同じ初期値の深層学習モデルから、指数移動平均によって更新されたモデルへサンプルを入力して得られる。入力するサンプルには、元サンプルは同じだがＴ_１とは異なる変形Ｔ２を作用させたものを用いる。μ_ｌは過去の反復ステップから得たｆ_ｊ ^～ＥＭＡである。μ_ｌは記憶装置２に記憶されている。

【0051】

【数4】

【0052】

損失関数は、例えば、ＢＹＯＬ（bootstrap your own latent）を一般化した、下記（８）式に示す損失関数が用いられてもよい。ｇ（ｆ_ｉ）はｆ_ｉを抽出した後に付随する多層パーセプトロンからの出力を表す。

【0053】

【数5】

【0054】

複数の特徴ベクトル間の類似度を利用する損失関数であれば、これら以外の損失関数を用いても良い。また、制約条件は、第１乃至第３条件に限定されず、深層学習モデルのタスクの種別や損失関数の種別に応じて設計されてもよい。

【0055】

ステップＳ２０８が行われると最適化部１５は、深層学習モデル３０を更新する（ステップＳ２０９）。ステップＳ２０９に係る最適化部１５は、最適化モジュール３４により実現される。最適化モジュール３４は、深層学習モデル３０に含まれるネットワーク層のうちの訓練対象のネットワーク層に設定される重みパラメータを更新する。訓練対象のネットワーク層としては、例えば、特徴抽出層３０３が挙げられる。最適化モジュール３４は、ステップＳ２０８において計算された損失関数の３７０が最小化するように、適応的に設定された更新幅（ステップ幅）に従い重みパラメータを更新する。最適化手法は、特に限定されず、確率的勾配降下法やAdaGrad、Adam等の任意の方法が用いられればよい。

【0056】

ステップＳ２０９が行われると最適化部１５は、更新を終了するか否かを判定する（ステップＳ２１０）。ステップＳ２１０に係る最適化部１５は、最適化モジュール３４により実現される。最適化モジュール３４は、更新の停止条件の充足の有無を判定する。停止条件は、例えば、ステップＳ２０１からステップＳ２１０までの処理の反復回数が所定回数に到達したこと、損失３７０が所定値未満に到達したこと等に設定されればよい。停止条件を充足していないと判定された場合（ステップＳ２１０：ＮＯ）、新たなＮ個のサンプル３１０とＮ個のラベル３４０とにより、ステップＳ２０１からステップＳ２１０が実行され、停止条件が充足すると判定されるまでステップＳ２０１からステップＳ２１０が反復される。そして最適化モジュール３４は、停止条件が充足したと判定された場合（ステップＳ２１０：ＹＥＳ）、表現学習処理を終了する。出力制御部１６は、停止条件が充足したと判定された反復ステップにおける深層学習モデルを学習済みの深層学習もでるとして出力する。

【0057】

以上により、実施例１に係る表現学習処理が終了する。

【0058】

上記図２に示す表現学習処理の手順は一例であり、図２に示す手順に限定されない。一例として、ステップＳ２０２は、ステップＳ２０５の前段に行われればよく、必ずしもステップＳ２０１とステップＳ２０３との間に行われる必要はない。他の例として、ステップＳ２０５は、ステップＳ２０２とステップＳ２０７との間に実施されればよく、必ずしもステップＳ２０６の前段に行われる必要はない。

【0059】

次に、本実施形態に係る類似度と比較例に係る類似度との精度の違いについて評価する。比較例として、非特許文献１に係る比較例１と非特許文献２に係る比較例２とを挙げる。

【0060】

比較例１は、表現学習とサンプル混合とを組み合わせることで損失関数の精度向上を試みている。比較例１は、混合前のラベルと混合後のラベルとを利用して、下記（９）式のＬ^（１）と等価な損失関数によって混合型のデータ増強を表現学習へ導入している。

【0061】

【数6】

【0062】

ここで、元サンプルｘ_ｉおよびｘ_ｊは変形Ｔを施され、変形されたサンプルＴ（ｘ_ｉ）及びＴ（ｘ_ｋ）を係数λで重みづけすることで混合サンプルｘ_ｉ´が生成される。全サンプルに対して混合サンプルを生成して深層学習モデルへ入力することで、特徴ベクトルｆ_ｉと各特徴ベクトル間の相関ｓ（ｆ_ｉ，ｆ_ｊ）とを算出する。比較例１におけるサンプル混合の損失関数への反映方法は、混合後のラベルｙ_ｉ´と混合前のラベルｙ_ｊとの内積によって表現できる。最後に温度と呼ばれるハイパーパラメータτで特徴ベクトル間の相関を正規化し、ソフトマックス確率の交差エントロピーの和として損失関数Ｌ^（１）が与えられる。

【0063】

本実施形態に係る損失関数Ｌ^{（ｓｕｐ）}と比較例１に係る損失関数Ｌ^（１）とを比較すれば、比較例１に係る類似度は、下記（１０）式で表される。

【0064】

【数7】

【0065】

図７は、本実施形態に係る類似度Ｚと比較例１に係る類似度Ｘとの比較結果を示す図である。類似度Ｚは（４）式であり、類似度Ｘは（１０）式である。サンプルは画像であり、そのラベルｙを３次元のベクトルで表す。図７の左欄に示すように、サンプルＡは、車の画像であり、そのラベルｙ_Ａは（１，０，０）であるとする。同様に、サンプルＢは、鳥の画像であり、そのラベルｙ_Ｂは（０，１，０）であり、サンプルＣ_１は、猫の画像であり、そのラベルｙ_Ｃ１は（０，０，１）であり、サンプルＣ_２は、猫の画像であり、そのラベルｙ_Ｃ２は（０，０，１）である。サンプルＣ_１とサンプルＣ_２とは、共にラベル「猫」の画像であるが、異なる猫の画像である。混合ラベルｙ´は、下記（１１）に示すように、λを重み値とする、混合前ラベルｙ_ｉ及びｙ_ｊの重み付き加算により得られる。重み値λを混合率と呼ぶことにする。

【0066】

【数8】

【0067】

図７の中欄に示すように、（１１）式によれば、サンプルＡに対するサンプルＢの混合サンプルＡ´の混合ラベルｙ_Ａ´は（λ，０，１－λ）で、サンプルＢに対するサンプルＣ_２の混合サンプルＢ´の混合ラベルｙ_Ｂ´は（０，λ，１－λ）で、サンプルＣ_１に対するサンプルＡの混合サンプルＣ_１´の混合ラベルｙ_Ｃ１´は（１－λ，０，λ）で、サンプルＣ_２に対するサンプルＢの混合サンプルＣ_２´の混合ラベルｙ_Ｃ２´は（０，１－λ，λ）で表される。

【0068】

図７の右欄に示すように、混合ラベルｙ_Ａ´の混合ラベルｙ_Ｂ´に対する類似度Ｃ_Ａ´Ｂ´、混合ラベルｙ_Ａ´の混合ラベルｙ_Ｃ１´に対する類似度Ｃ_{Ａ´Ｃ１´}及び混合ラベルｙ_Ａ´の混合ラベルｙ_Ｃ２´に対する類似度Ｃ_{Ａ´Ｃ２´}を、本実施形態に係る類似度Ｚ（式（４））と比較例１に係る類似度Ｘ（式（１１））とで算出した。なお混合率λ＝０．５に設定した。

【0069】

図７の右欄上段に示すように、混合ラベルｙ_Ａ´及び混合ラベルｙ_Ｂ´には猫が含まれているのでＣ_Ａ´Ｂ´≠０であることが期待されるが、比較例１では、Ｃ_Ａ´Ｂ´＝０である。これは定性的に不適切である。また、混合ラベルｙ_Ａ´及び混合ラベルｙ_Ｃ１´には車が含まれ混合ラベルｙ_Ｃ２´には車が含まれていないのでＣ_{Ａ´Ｃ１´}＞Ｃ_{Ａ´Ｃ２´}であることが期待されるが、比較例１では、Ｃ_{Ａ´Ｃ１´}＝Ｃ_{Ａ´Ｃ２´}＝０．５である。これは定量的に不適切である。このような不適切な結果が得られるのは、式（１１）に示すように、比較例１では、混合前のラベルｙ_ｉを用いて類似度を設計しているためである。一方、図７の右欄下段に示すように、本実施形態では、Ｃ_Ａ´Ｂ´＝０．２５であり、期待通りＣ_Ａ´Ｂ´≠０である。また、本実施形態では、Ｃ_{Ａ´Ｃ１´}＝０．５，Ｃ_{Ａ´Ｃ２´}＝０．２５であり、期待通り、Ｃ_{Ａ´Ｃ１´}＞Ｃ_{Ａ´Ｃ２´}である。このように、本実施形態に係る類似度Ｚは、定性的にも定量的にも適切であることが分かる。これは、本実施形態に係る類似度Ｚは、定性的且つ定量的な制約条件に基づき定式化されているためである。

【0070】

比較例２は、混合後のラベル間の内積を利用して、下記（１２）式に示す損失関数Ｌ^（２）によって混合型のデータ増強を表現学習へ導入している。特徴表現ｆ_ｉおよび混合ラベルｙ_ｉ´を得るための処理は、比較例１と同様である。

【0071】

【数9】

【0072】

本実施形態に係る損失関数Ｌ^{（ｓｕｐ）}と比較例２に係る損失関数Ｌ^（２）とを比較すれば、比較例２に係る類似度は、下記（１３）式で表される。

【0073】

【数10】

【0074】

図８は、本実施形態に係る類似度Ｚと比較例２に係る類似度Ｙとの比較結果を示す図である。類似度Ｚは（４）式であり、類似度Ｙは（１２）式である。図８に記載されている符号は図７に記載されている符号と同一のルールで付されている。なお、サンプルＣ_１とサンプルＣ_２とサンプルＣ_３とは、共にラベル「猫」の画像であるが、異なる猫の画像である。

【0075】

図８の中欄に示すように、サンプルＡに対するサンプルＣ_１の混合サンプルＡ´の混合ラベルｙ_Ａ´は（λ，０，１－λ）で、サンプルＣ_１に対するサンプルＡの混合サンプルＢ´の混合ラベルｙ_Ｃ１´は（１－λ，０，λ）で、サンプルＣ_２に対するサンプルＣ_３の混合サンプルＣ_２´の混合ラベルｙ_Ｃ２´は（０，０，１）で、サンプルＣ_３に対するサンプルＣ_２の混合サンプルＣ_３´の混合ラベルｙ_Ｃ３´は（０，０，１）で表される。

【0076】

図８の右欄に示すように、混合ラベルｙ_Ａ´の混合ラベルｙ_Ｃ１´に対する類似度Ｃ_{Ａ´Ｃ１´}、混合ラベルｙ_Ａ´の混合ラベルｙ_Ｃ２´に対する類似度Ｃ_{Ａ´Ｃ２´}及び混合ラベルｙ_Ａ´の混合ラベルｙ_Ｃ３´に対する類似度Ｃ_{Ａ´Ｃ３´}を、本実施形態に係る類似度Ｚ（式（４））と比較例２に係る類似度Ｙ（式（１３））とで算出した。

【0077】

図８の右欄上段に示すように、混合ラベルｙ_Ａ´及び混合ラベルｙ_Ｃ１´には車が含まれ混合ラベルｙ_Ｃ２´及び混合ラベルｙ_Ｃ３´には車が含まれていないのでＣ_{Ａ´Ｃ１´}＞Ｃ_{Ａ´Ｃ２´}＝Ｃ_{Ａ´Ｃ３´}であることが期待されるが、比較例２では、Ｃ_{Ａ´Ｃ１´}＝Ｃ_{Ａ´Ｃ２´}＝Ｃ_{Ａ´Ｃ３´}＝０．３３・・・である。これは定量的に不適切である。このような不適切な結果が得られるのは、式（１３）に示すように、類似度Ｙは、混合ラベル間の内積によって与えられるためである。一方、図８の右欄下段に示すように、本実施形態では、Ｃ_{Ａ´Ｃ１´}～０．６３、Ｃ_{Ａ´Ｃ２´}～０．３７，Ｃ_{Ａ´Ｃ３´}～０．３７であり、期待通り、Ｃ_{Ａ´Ｃ１´}＞Ｃ_{Ａ´Ｃ２´}＝Ｃ_{Ａ´Ｃ３´}である。従って、本実施形態に係る類似度Ｚは、定量的に適切であることが分かる。これは、本実施形態に係る類似度Ｚは、定性的且つ定量的な制約条件に基づき定式化されているためである。

【0078】

次に、本実施形態に係る表現学習処理により訓練された深層学習モデルの性能を、比較例１及び比較例２に係る深層学習モデルとの間で比較する。

【0079】

図９は、本実施形態、比較例１及び比較例２に係る深層学習モデルの分類正解率を示す図である。サンプルの集合である訓練データセットにはCIFAR-10を用いた。学習方法としては教師有り対照学習が用いられた。データ増強方法は、サンプルに対するデータ増強方法の種別を表し、Baseは、Random Horizontal Flip、Random Crop、Color Jitter及びRandom Gray Scaleの４種類を使用している。Base+Mixupは、Baseに加えMixupを使用し、Base+CutMixは、Baseに加えCutMixを使用している。混合率範囲は、Mixup及びCutMixにおいて、混合率λの取り得る範囲を表す。各混合特徴表現及び混合ラベルを生成する際、混合率λは、混合率範囲の中から、ガウス分布等の適当な確率分布に従い決定される。図９に示すように、混合型のデータ増強によって分布外検知性能が向上することが分かる。

【0080】

図１０は、複数の検知対象に対する分布外検知のスコアを示す図である。訓練データセットにはCIFAR-10を用いた。学習方法としては教師有り対照学習が用いられた。深層学習モデルのタスクは分布外（ＯＯＤ）検知である。スコアは、分布外検知の精度を評価する指標であり、AUROC（Area Under Receiver Operating Characteristic curve）とAUPR（Area Under the Precision-Recall curve）とが使用された。CIFAR-100、SVHN、MNIST及びRandomは検知対象である。深層学習の訓練時におけるデータ増強方法にはBaseとBase+CutMixとが用いられた。図１０に示すように、混合型のデータ増強によって分布外検知性能が向上することが分かる。

【0081】

［実施例２］
実施例２に係る表現学習装置１００について説明する。実施例２に係る表現学習装置１００は、実施例１に比して、第１の混合特徴表現から第２の混合特徴表現を抽出する工程（ステップＳ２０６）を有さない。すなわち、実施例２に係る深層学習モデルは、特徴抽出層３０３を有さない。

【0082】

図１１は、実施例２に係る表現学習処理の手順を示す図である。ステップＳ１１０１からステップＳ１１０５は、図２のステップＳ２０１からＳ２０５と同一であるので説明を省略する。

【0083】

ステップＳ１１０５が行われると類似度算出部１３は、Ｍ個の混合ラベルからＬ個の類似度を算出する（ステップＳ１１０６）。ステップＳ１１０６は、図２のステップＳ２０７と同一である。

【0084】

ステップＳ１１０６が行われると損失関数計算部１４は、損失関数を計算する（ステップＳ１１０７）。ステップＳ１１０７において損失関数計算部１４は、ステップＳ１１０４において生成されたＭ個の混合特徴表現とステップＳ１１０６において算出されたＬ個の類似度とに基づいて損失関数を計算し、損失を算出する。実施例２に係る損失関数は、実施例１に係る第２の混合特徴表現を、ステップＳ１１０４において生成された混合特徴表現で置換することにより計算可能である。

【0085】

ステップＳ１１０７が行われると最適化部１５は、ステップＳ１１０７において計算された損失関数に基づいて深層学習モデルを更新する（ステップＳ１１０８）。ステップＳ１１０８において最適化部１５は、深層学習モデルのうちの特徴抽出層３０１の重みパラメータを更新する。最適化方法は、ステップＳ２０９と同様の方法で行われればよい。

【0086】

ステップＳ１１０８が行われると最適化部１５は、更新を終了するか否かを判定する（ステップＳ１１０９）。ステップＳ１１０９において最適化部１５は、更新の停止条件の充足の有無を判定する。停止条件を充足していないと判定された場合（ステップＳ１１０９：ＮＯ）、新たなＮ個のサンプルとＮ個のラベルとにより、ステップＳ１１０１からステップＳ１１０９が実行され、停止条件が充足すると判定されるまでステップＳ１１０１からステップＳ１１０９が反復される。そして最適化部１５は、停止条件が充足したと判定された場合（ステップＳ１１０９：ＹＥＳ）、表現学習処理を終了する。出力制御部１６は、停止条件が充足したと判定された反復ステップにおける深層学習モデルを学習済みの深層学習モデルとして出力する。

【0087】

以上により、実施例２に係る表現学習処理が終了する。

【0088】

上記図１１に示す表現学習処理の手順は一例であり、図１１に示す手順に限定されない。一例として、ステップＳ１１０２は、ステップＳ１１０５の前段に行われればよく、必ずしもステップＳ１１０１とステップＳ１１０３との間に行われる必要はない。

【0089】

［実施例３］
実施例３に係る表現学習装置１００について説明する。実施例３に係る表現学習装置１００は、実施例１に比して、第１の特徴表現を混合するのではなく、サンプルを混合する。

【0090】

図１２は、実施例３に係る表現学習処理の手順を示す図である。ステップＳ１２０１からステップＳ１２０２は、図２のステップＳ２０１からＳ２０２と同一であるので説明を省略する。

【0091】

ステップＳ１２０２が行われるとサンプル取得部１１は、深層学習モデルを使用して、Ｎ個のサンプルからＭ個の混合サンプルを生成する（ステップＳ１２０３）。具体的には、サンプル取得部１１は、Ｎ個のサンプルからＮ^Ｋ個のサンプル組合せを作成する。この場合、Ｎ^Ｋ個＝Ｍ個である。サンプル組合せは、Ｎ個のサンプルから選択された任意のＫ個のサンプルからなる。Ｋ個のサンプルが同一のサンプルから選択されることも許容されるものとする。サンプル取得部１１は、Ｎ^Ｋ個のサンプル組合せ各々を構成するＫ個のサンプルを混合してＮ^Ｋ個の混合サンプルを生成する。サンプルの混合の手法は、特に限定されず、例えば、CutMixやMixup等の手法を使用することが可能である。

【0092】

ステップＳ１２０３が行われるとサンプル取得部１１は、深層学習モデルを使用して、Ｍ個の混合サンプルからＭ個の第１の混合特徴表現を抽出する（ステップＳ１２０４）。

【0093】

ステップＳ１２０５からステップＳ１２１０は、図２に示すステップＳ２０５からステップＳ２１０と同様である。すなわち、ステップＳ１２０５においてラベル取得部１２は、深層学習モデル３０を使用して、Ｎ個の特徴表現からＭ個の第１の混合特徴表現を生成し、ステップＳ１２０６においてサンプル取得部１１は、深層学習モデルを使用して、Ｍ個の第１の混合特徴表現からＭ個の第２の混合特徴表現を抽出し、ステップＳ１２０７において類似度算出部１３は、Ｍ個の混合ラベルからＬ個の類似度を算出し、ステップＳ１２０８において損失関数計算部１４は、Ｍ個の第２の混合特徴表現とＬ個の類似度とに基づいて損失関数を計算し、ステップＳ１２０９において最適化部１５は、損失関数に基づいて深層学習モデルを更新する。実施例３に係る損失関数は、実施例１に係る第２の混合特徴表現を、ステップＳ１３０４において生成された第２の混合特徴表現で置換することにより計算可能である。そしてステップＳ１２１０において最適化部１５は、停止条件の充足の有無を判定し、停止条件が充足すると判定されるまでステップＳ１２０１からステップＳ１２１０を繰り返し、停止条件が充足すると判定された場合、表現学習処理を終了する。

【0094】

以上により、実施例３に係る表現学習処理が終了する。

【0095】

上記図１２に示す表現学習処理の手順は一例であり、図１２に示す手順に限定されない。一例として、ステップＳ１２０２は、ステップＳ１２０５の前段に行われればよく、必ずしもステップＳ１２０１とステップＳ１２０３との間に行われる必要はない。他の例として、ステップＳ１２０５は、ステップＳ１２０２とステップＳ１２０７との間に実施されればよく、必ずしもステップＳ１２０６の前段に行われる必要はない。

【0096】

［実施例４］
以下、実施例４に係る表現学習装置１００について説明する。実施例４に係る表現学習装置１００は、実施例３に比して、第１の混合特徴表現から第２の混合特徴表現を抽出する工程（ステップＳ１２０６）を有さない。すなわち、実施例４に係る深層学習モデルは、特徴抽出層３０３を有さない。

【0097】

図１３は、実施例４に係る表現学習処理の手順を示す図である。ステップＳ１３０１からステップＳ１３０５は、図１２のステップＳ１２０１からＳ１２０５と同一であるので説明を省略する。

【0098】

ステップＳ１３０５が行われると類似度算出部１３は、Ｍ個の混合ラベルからＬ個の類似度を算出する（ステップＳ１３０６）。ステップＳ１１０６は、図２のステップＳ２０７と同一である。

【0099】

ステップＳ１３０６が行われると損失関数計算部１４は、損失関数を計算する（ステップＳ１３０７）。ステップＳ１３０７において損失関数計算部１４は、ステップＳ１３０４において生成されたＭ個の混合特徴表現とステップＳ１３０６において算出されたＬ個の類似度とに基づいて損失関数を計算し、損失を算出する。実施例４に係る損失関数は、実施例１に係る第２の混合特徴表現を、ステップＳ１３０４において生成された混合特徴表現で置換することにより計算可能である。

【0100】

ステップＳ１３０７が行われると最適化部１５は、ステップＳ１３０７において計算された損失関数に基づいて深層学習モデルを更新する（ステップＳ１３０８）。ステップＳ１３０８において最適化部１５は、深層学習モデルのうちの特徴抽出層３０１の重みパラメータを更新する。最適化方法は、ステップＳ２０９と同様の方法で行われればよい。

【0101】

ステップＳ１３０８が行われると最適化部１５は、更新を終了するか否かを判定する（ステップＳ１３０９）。ステップＳ１３０９において最適化部１５は、更新の停止条件の充足の有無を判定する。停止条件を充足していないと判定された場合（ステップＳ１３０９：ＮＯ）、新たなＮ個のサンプルとＮ個のラベルとにより、ステップＳ１３０１からステップＳ１３０９が実行され、停止条件が充足すると判定されるまでステップＳ１３０１からステップＳ１３０９が反復される。そして最適化部１５は、停止条件が充足したと判定された場合（ステップＳ１３０９：ＹＥＳ）、表現学習処理を終了する。出力制御部１６は、停止条件が充足したと判定された反復ステップにおける深層学習モデルを学習済みの深層学習モデルとして出力する。

【0102】

以上により、実施例４に係る表現学習処理が終了する。

【0103】

上記図１３に示す表現学習処理の手順は一例であり、図１３に示す手順に限定されない。一例として、ステップＳ１３０２は、ステップＳ１３０５の前段に行われればよく、必ずしもステップＳ１３０１とステップＳ１３０３との間に行われる必要はない。

【0104】

［総括］
上記実施例１乃至４において損失関数は深層学習モデルを更新するために使用するものとした。しかしながら、本実施形態に係る損失関数の用途はこれに限定されない。また、混合特徴表現は、サンプルに基づいて表現学習装置１００により生成されるものとしたが、表現学習装置１００とは異なる外部コンピュータにより生成されてもよい。この場合、表現学習装置１００は、外部コンピュータにより生成された混合特徴表現のデータを、通信機器４又は可搬型記録媒体を介して受信することとなる。

【0105】

図１４は、本実施形態に係る表現学習処理の手順を示す図である。図１４に示すように、サンプル取得部１１は、Ｎ個のサンプルに基づくＭ個の混合特徴表現を取得する（ステップＳ１４０１）。本実施形態に係る「取得」は、表現学習装置１００が当該データを獲得すること全般を指す広義の取得を意味する。すなわち、本実施形態に係る「取得」は、表現学習装置１００により生成又は算出することや、外部コンピュータから受信することも含むものとする。ステップＳ１４０１により取得される混合特徴表現は、実施例１に係る第１の混合特徴表現、実施例１に係る第２の混合特徴表現、実施例２に係る混合特徴表現、実施例３に係る第１の混合特徴表現、実施例３に係る第２の混合特徴表現及び実施例４に係る混合特徴表現の何れでもよい。

【0106】

ステップＳ１４０１が行われるとラベル取得部１２は、Ｎ個のラベルに基づいてＭ個の混合ラベルを取得する（ステップＳ１４０２）。ステップＳ１４０２に係るラベル取得部１２は、上記実施例１乃至４に示すように、ラベルを混合して混合ラベルを生成してもよいし、外部コンピュータから混合ラベルを受信してもよい。

【0107】

ステップＳ１４０２が行われると類似度算出部１３は、ステップＳ１４０２において取得されたＭ個の混合ラベルからＬ個のラベル組合せの類似度を算出する（ステップＳ１４０３）。ステップＳ１４０３に係る類似度の算出方法は、上記実施例１乃至４における類似度の算出方法と同一である。

【0108】

ステップＳ１４０３が行われると損失関数計算部１４は、ステップＳ１４０１において取得されたＭ個の混合特徴表現とステップＳ１４０３において算出されたＬ個の類似度とに基づいて損失関数を計算する（ステップＳ１４０４）。ステップＳ１４０４に係る損失関数の計算方法は、上記実施例１乃至４における損失関数の計算方法と同一である。

【0109】

ステップＳ１４０４が行われると本実施形態に係る表現学習処理が終了する。損失関数の計算により取得された損失は、実施例１乃至４に示すように深層学習モデルの更新に利用されてもよいし、他のコンピュータが深層学習モデルの更新を行う場合、当該コンピュータに損失のデータを転送してもよい。また、損失は、他の用途に使用されてもよい。例えば、作成済みの深層学習モデルにとって異常なサンプルを抽出する際に、損失の大小によって判別しても良い。

【0110】

本実施形態に係る表現学習処理は上記述べた種々の実施例に限定されない。一例として、上記実施例において類似度算出部１３は、Ｍ個の混合ラベルから選択されたＬ個のラベル組合せについてＬ個の類似度を算出するものとした。しかしながら、類似度算出部１３は、Ｍ個の混合ラベル及びＮ個のラベルから選択されたＬ個のラベル組合せについてＬ個の類似度を算出するものとした。この場合、Ｌ個のラベル組合せ各々には混合ラベルとラベルとが含まれることとなる。すなわち、混合ラベル同士の類似度だけでなく、混合ラベルとラベルとの類似度が算出されてもよい。

【0111】

（応用例）
上記実施形態において損失関数は、予め設計されているものであるとした。応用例に係る表現学習装置１００は、種々の要件に応じて損失関数を設計する。以下、応用例に係る表現学習装置１００について説明する。なお以下の説明において、本実施形態と略同一の機能を有する構成要素については、同一符号を付し、必要な場合にのみ重複説明する。

【0112】

図１５は、応用例に係る表現学習装置１００の構成例を示す図である。図１５に示すように処理回路１は、更に設計部１７を有する。設計部１７は、損失関数を設計する。

【0113】

図１６は、応用例に係る損失関数の設計例を模式的に示す図である。図１６に示すように、応用例に係る損失関数は、重み値が積算された類似度を対照損失項に作用させた関数である。設計部１７は、重み値をラベル種別に基づいて設計する。ラベル種別は、混合ラベルの種別を意味し、具体的には、教師ラベル、半教師ラベル及び自己教師ラベルの何れかを意味する。設計部１７は、ラベル種別に応じた値に重み値を設定する。より詳細には、設計部１７は、ラベル組合せを構成する第１の混合ラベル及び第２の混合ラベルに関する混合ラベルの種別の組合せに応じて重み値を設計する。第１の混合ラベル及び第２の混合ラベルが共に教師ラベル又は自己教師ラベルである場合、第１の混合ラベルの第２の混合ラベルに対する類似度の重み値と第２の混合ラベルの第１の混合ラベルに対する類似度の重み値とは同一値に設定される。第１の混合ラベルが教師ラベルであり第２の混合ラベルが自己教師ラベル又は半教師ラベルである場合、第１の混合ラベルの第２の混合ラベルに対する類似度の重み値は、第２の混合ラベルの第１の混合ラベルに対する類似度の重み値に比して大きい値に設定される。これは、教師ラベルは、自己教師ラベル又は半教師ラベルに比して信頼度が高い事が期待されるためである。

【0114】

このようにラベル種別に応じて類似度の重み値を設計することにより、損失関数の精度が向上し、ひいては、深層学習モデルの精度の向上が期待される。

【0115】

図１６に示すように、設計部１７は、対照損失項を、相関の計算方法に基づいて設計する。相関の計算方法は、具体的には、上記式（６）（７）（８）に示すような、対照損失項における相関の定義式の種別を意味する。相関の定義式の種別は、ユーザにより入力機器３を介して任意の種別に設定されてもよいし、深層学習モデルのタスクやサンプルの特性等に応じて自動的に設定されてもよい。また、設計部１７は、相関の計算方法として、サンプル組合せ及びラベル組合せを構成する要素の個数Ｋに基づいて対照損失項を設計してもよい。個数Ｋに応じて、対照損失項のうちの相関の定義式が決定される。個数Ｋは、ユーザにより入力機器３を介して任意の種別に設定されてもよいし、自動的に設定されてもよい。

【0116】

上記の通り、応用例によれば、設計部１７により、損失関数を構成する重み値、類似度及び対照損失項を任意に設計することが可能になる。設計部１７が設けられることにより、サンプルやラベル、深層学習モデルのタスク等に応じて柔軟に損失関数を設計することが可能になる。これにより類似度や損失関数の精度が向上し、ひいては、表現学習の精度が向上することが期待される。

【0117】

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

【符号の説明】

【0118】

１…処理回路、２…記憶装置、３…入力機器、４…通信機器、５…表示機器、１１…サンプル取得部、１２…ラベル取得部、１３…類似度算出部、１４…損失関数計算部、１５…最適化部、１６…出力制御部、１７…設計部、１００…表現学習装置。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【図10】

【図11】

【図12】

【図13】

【図14】

【図15】

【図16】

【手続補正書】

【提出日】2023-02-22

【手続補正1】

【補正対象書類名】明細書

【補正対象項目名】００１０

【補正方法】変更

【補正の内容】

【0010】

サンプル取得部１１は、Ｎ（Ｎは自然数）個のサンプルの特徴表現を混合したＭ（Ｍは自然数）個の混合特徴表現、当該Ｍ個の混合特徴表現から抽出されたＭ個の他の混合特徴表現、Ｍ個のサンプルを混合したＭ個の混合サンプルから抽出された特徴表現であるＭ個の混合特徴表現、又は当該Ｍ個の混合特徴表現から抽出された特徴表現であるＭ個の他の混合特徴表現を取得する。また、サンプル取得部１１は、Ｎ個のサンプル、混合サンプル又は特徴表現を取得することも可能である。サンプルから特徴表現を抽出する手法や混合サンプルから混合特徴表現を抽出する手法は、深層学習モデル等の統計的機械学習モデルを使用する方法を想定する。サンプルは、処理回路１による処理対象のデータを意味する。サンプルは、ラベルを付与可能なデータであれば如何なるデータでもよく、例えば、画像データや音声データ、文字データ、波形データ等が使用される。

【手続補正2】

【補正対象書類名】明細書

【補正対象項目名】００４０

【補正方法】変更

【補正の内容】

【0040】

図４に示すように、類似度は、当該類似度が満たすべき定性的且つ定量的な制約条件に基づき定式化される。換言すれば、Ｌ個の類似度は、理想の類似度が満たすべき制約条件に基づいて導出される。制約条件の具体的な内容は種々様々である。一例として、制約条件は、Ｋ個の混合ラベルが同一であるときに類似度が下限値をとること（第１条件）、Ｋ個の混合ラベルが最も類似するときに類似度が上限値をとり、Ｋ個の混合ラベルが最も類似しないときに類似度が下限値をとること（第２条件）、及び／又は、Ｋ個の混合ラベルが対称性を有するときに類似度が同一値をとること（第３条件）、を有する。第１条件及び第２条件に関し、下限値及び上限値の具体的な値は特に限定されないが、例えば、下限値＝０、上限値＝１に設定される。第３条件に関する対称性とは、例えば、Ｋ個＝２個の場合、ＭＬｉに対するＭＬｊの類似度と、ＭＬｊに対するＭＬｉの類似度が交換可能であることを意味する。

【手続補正3】

【補正対象書類名】明細書

【補正対象項目名】００４４

【補正方法】変更

【補正の内容】

【0044】

図５及び図６の例では、４個のサンプル画像Img１、Img２、Img３及びImg４に対応するラベル間の類似度の行列構造を表している。サンプル画像Img１及びImg２のラベルはクラス１に分類され、サンプル画像Img３及びImg４のラベルはクラス２に分類されるものとする。類似度ｃ_SimCLR及び類似度ｃ_SupCLR各々は、行及び列各々について、４個の２×２の行列ブロックに分割される。行列ブロックの第１行は基準サンプルを表し、第２行は基準サンプルに変形を施したサンプルを表す。同様に、行列ブロックの第１列は基準サンプルを表し、第２列は基準サンプルに変形を施したサンプルを表す。対角成分（点線で囲まれた行列ブロック。例えば、１行１列、２行２列）は、同一ラベル同士の類似度を表すので、第１条件により、値０に設計される。非対角成分（例えば、２行１列、１行２列）は、同一クラスに属する異なるラベル同士の類似度を表すので、第２条件により、値１に設計される。また、類似度ｃ_SimCLR及び類似度ｃ_SupCLR各々は、第３条件により、交換可能な行列ブロック同士については、同一の類似度を有している。

【手続補正4】

【補正対象書類名】明細書

【補正対象項目名】００７９

【補正方法】変更

【補正の内容】

【0079】

【手続補正5】

【補正対象書類名】図面

【補正対象項目名】図７

【補正方法】変更

【補正の内容】

【図7】