(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023177024
(43)【公開日】2023-12-13
(54)【発明の名称】表現学習装置、方法及びプログラム
(51)【国際特許分類】
G06N 3/08 20230101AFI20231206BHJP
G06N 20/00 20190101ALI20231206BHJP
【FI】
G06N3/08
G06N20/00 130
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2022089693
(22)【出願日】2022-06-01
(71)【出願人】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(74)【代理人】
【識別番号】110003708
【氏名又は名称】弁理士法人鈴榮特許綜合事務所
(72)【発明者】
【氏名】上松 和樹
(72)【発明者】
【氏名】木村 光宏
(57)【要約】
【課題】表現学習において算出される損失関数の精度を向上することが可能な表現学習装置、方法及びプログラムを提供すること。
【解決手段】 実施形態に係る表現学習装置は、サンプル取得部、ラベル取得部、類似度算出部及び損失関数計算部を有する。サンプル取得部は、M個の第1の混合特徴表現から抽出されたM個の第2の混合特徴表現を取得する。ラベル取得部は、N個のラベルを混合したM個の混合ラベルを取得する。類似度算出部は、M個の混合ラベルから選択されたL個のラベル組合せのL個の類似度を算出する。L個のラベル組合せ各々は、M個の混合ラベルから選択されたK個の混合ラベルを有し、L個の類似度各々は、K個の混合ラベル間の類似の程度を表し、L個の類似度は、当該類似度が満たすべき定性的且つ定量的な制約条件に基づき定式化される。損失関数計算部は、M個の第2の混合特徴表現とL個の類似度とに基づいて損失関数を計算する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
N個のサンプルの特徴表現を混合したM個の第1の混合特徴表現、当該M個の第1の混合特徴表現から抽出されたM個の第2の混合特徴表現、N個のサンプルを混合したM個の混合サンプルから抽出された特徴表現であるM個の第3の混合特徴表現又は当該M個の第3の混合特徴表現から抽出された特徴表現であるM個の第4の混合特徴表現を取得するサンプル取得部と、
前記N個のサンプルにそれぞれ対応するN個のラベルを混合したM個の混合ラベルを取得するラベル取得部と、
前記M個の混合ラベルから選択されたL個のラベル組合せのL個の類似度を算出する部であって、前記L個のラベル組合せ各々は、前記M個の混合ラベルから選択されたK個の混合ラベルを有し、前記L個の類似度各々は、前記K個の混合ラベル間の類似の程度を表し、前記L個の類似度は、当該類似度が満たすべき定性的且つ定量的な制約条件に基づき定式化される、類似度算出部と、
前記M個の第1乃至第4の何れか1種の混合特徴表現と前記L個の類似度とに基づいて損失関数を計算する損失関数計算部と、
を具備する表現学習装置。
【請求項2】
前記制約条件は、
前記K個の混合ラベルが同一であるときに類似度が下限値をとること、
前記K個の混合ラベルが最も類似するときに類似度が上限値をとること、
前記K個の混合ラベルが最も類似しないときに類似度が下限値をとること、及び/又は、
前記K個の混合ラベルが対称性を有するときに類似度が同一値をとること、を有する、
請求項1記載の表現学習装置。
【請求項3】
前記類似度算出部は、イェンセン・シャノン情報量又はコサイン類似度に基づいて定式化された前記L個の類似度を算出する、請求項1記載の表現学習装置。
【請求項4】
前記サンプル取得部は、
前記N個のサンプルを取得し、
前記N個のサンプルからN個の第1の特徴表現を抽出し、
前記N個の第1の特徴表現を混合して前記M個の第1の混合特徴表現を生成し、
前記M個の第1の混合特徴表現から前記M個の第2の混合特徴表現を抽出し、
前記ラベル取得部は、
前記N個のサンプルに対応する前記N個のラベルを取得し、
前記N個のラベルを混合して前記M個の混合ラベルを生成し、
前記損失関数計算部は、
前記M個の第2の混合特徴表現から選択されたL個のサンプル組合せ各々におけるK個の第2の混合特徴表現間の相関を記述される対照損失項に、前記L個の類似度を作用させた前記損失関数を算出する、
請求項1記載の表現学習装置。
【請求項5】
前記サンプル取得部は、
深層学習モデルに含まれる第1のネットワーク層に前記N個のサンプルを入力して前記N個の第1の特徴表現を抽出し、
前記深層学習モデルに含まれる前記第1のネットワーク層の後段に位置する第2のネットワーク層に前記M個の第1の混合特徴表現を入力して前記M個の第2の混合特徴表現を抽出する、
請求項4記載の表現学習装置。
【請求項6】
前記損失関数に基づいて前記深層学習モデルを更新する最適化部を更に備える、請求項5記載の表現学習装置。
【請求項7】
前記ラベル取得部は、前記N個のラベル各々として、前記サンプルに対して人為的に付与された教師ラベル、前記サンプルの特徴表現の分布又は前記サンプルの種別に基づき付与された自己教師ラベル、又は教師ラベルを持つ他のサンプルの特徴表現の分布、教師ラベルを持たないサンプルの特徴表現の分布、及びサンプルの種別に基づき付与された半教師ラベル、を取得する、請求項1記載の表現学習装置。
【請求項8】
前記類似度算出部は、L個の重み値と前記L個の類似度とに基づいてL個の積算値を算出し、
前記損失関数計算部は、前記M個の第1乃至第4の何れか1種の混合特徴表現と前記L個の積算値とに基づいて前記損失関数を計算し、
前記L個の重み値は、前記K個の混合ラベル各々のラベルの種別に応じた値を有し、
前記種別は、前記教師ラベル、前記自己教師ラベル及び前記半教師ラベルの何れかである、
請求項7記載の表現学習装置。
【請求項9】
前記類似度算出部は、前記M個の混合ラベル及び前記N個のラベルから選択された前記L個のラベル組合せの前記L個の類似度を算出する、請求項1記載の表現学習装置。
【請求項10】
N個のサンプルの特徴表現を混合したM個の第1の混合特徴表現、当該M個の第1の混合特徴表現から抽出されたM個の第2の混合特徴表現、N個のサンプルを混合したM個の混合サンプルから抽出された特徴表現であるM個の第3の混合特徴表現又は当該M個の第3の混合特徴表現から抽出された特徴表現であるM個の第4の混合特徴表現を取得する工程と、
前記N個のサンプルにそれぞれ対応するN個のラベルを混合したM個の混合ラベルを取得する工程と、
前記M個の混合ラベルから選択されたL個のラベル組合せのL個の類似度を算出する工程であって、前記L個のラベル組合せ各々は、前記M個の混合ラベルから選択されたK個の混合ラベルを有し、前記L個の類似度各々は、前記K個の混合ラベル間の類似の程度を表し、前記L個の類似度は、当該類似度が満たすべき定性的且つ定量的な制約条件に基づき定式化される、工程と、
前記M個の第1乃至第4の何れか1種の混合特徴表現と前記L個の類似度とに基づいて損失関数を計算する工程と、
を具備する表現学習方法。
【請求項11】
コンピュータに、
N個のサンプルの特徴表現を混合したM個の第1の混合特徴表現、当該M個の第1の混合特徴表現から抽出されたM個の第2の混合特徴表現、N個のサンプルを混合したM個の混合サンプルから抽出された特徴表現であるM個の第3の混合特徴表現又は当該M個の第3の混合特徴表現から抽出された特徴表現であるM個の第4の混合特徴表現を取得させる機能と、
前記N個のサンプルにそれぞれ対応するN個のラベルを混合したM個の混合ラベルを取得させる機能と、
前記M個の混合ラベルから選択されたL個のラベル組合せのL個の類似度を算出させる機能であって、前記L個のラベル組合せ各々は、前記M個の混合ラベルから選択されたK個の混合ラベルを有し、前記L個の類似度各々は、前記K個の混合ラベル間の類似の程度を表し、前記L個の類似度は、当該類似度が満たすべき定性的且つ定量的な制約条件に基づき定式化される、機能と、
前記M個の第1乃至第4の何れか1種の混合特徴表現と前記L個の類似度とに基づいて損失関数を計算させる機能と、
を実現させる表現学習プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、表現学習装置、方法及びプログラムに関する。
【背景技術】
【0002】
統計的機械学習モデル、特に深層学習モデルにおいて、特徴ベクトル自体を用いて損失関数を設計する表現学習によって、モデルの性能を向上させる試みが盛んに行われている。また、学習時にサンプルの多様性を確保するために、複数のサンプルを混合することでサンプルの水増しを行う混合型のデータ増強が有効であることが知られている。ラベル情報を伴う混合型のデータ増強を表現学習へ導入する試みもなされている。しかしながら、混合後のサンプルが有する混合ラベル同士の類似性を適切に評価することができず、したがって、損失関数を適切に設計することができていない。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Kibok Lee, Yian Zhu, Kihyuk Sohn, Chun-Liang Li, Jinwoo Shin, and Honglak Lee, “i-Mix: A Domain-Agnostic Strategy for Contrastive Representation Learning,” in Proceedings of the Ninth International Conference on Learning Representations (ICLR 2021).
【非特許文献2】Yangkai Du, Tengfei Ma, Lingfei Wu, Fangli Xu, Xuhong Zhang, Bo Long, and Shouling Ji,“Constructing Contrastive Samples via Summarization for Text Classification with Limited Annotations,” in Findings of the Association for Computational Linguistics: EMNLP 2021, pages 1365-1376, Punta Cana, Dominican Republic. Association for Computational Linguistics.
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明が解決しようとする課題は、表現学習において算出される損失関数の精度を向上することが可能な表現学習装置、方法及びプログラムを提供することである。
【課題を解決するための手段】
【0005】
実施形態に係る表現学習装置は、サンプル取得部、ラベル取得部、類似度算出部及び損失関数計算部を有する。サンプル取得部は、N個のサンプルの特徴表現を混合したM個の第1の混合特徴表現、当該M個の第1の混合特徴表現から抽出されたM個の第2の混合特徴表現、N個のサンプルを混合したM個の混合サンプルから抽出された特徴表現であるM個の第3の混合特徴表現又は当該M個の第3の混合特徴表現から抽出された特徴表現であるM個の第4の混合特徴表現を取得する。ラベル取得部は、前記N個のサンプルにそれぞれ対応するN個のラベルを混合したM個の混合ラベルを取得する。類似度算出部は、前記M個の混合ラベルから選択されたL個のラベル組合せのL個の類似度を算出する部であって、前記L個のラベル組合せ各々は、前記M個の混合ラベルから選択されたK個の混合ラベルを有し、前記L個の類似度各々は、前記K個の混合ラベル間の類似の程度を表し、前記L個の類似度は、当該類似度が満たすべき定性的且つ定量的な制約条件に基づき定式化される。損失関数計算部は、前記M個の第1乃至第4の何れか1種の混合特徴表現と前記L個の類似度とに基づいて損失関数を計算する。
【図面の簡単な説明】
【0006】
【
図1】本実施形態に係る表現学習装置の構成例を示す図
【
図3】実施例1に係る表現学習処理の全体像を模式的に示す図
【
図4】本実施形態に係る損失関数の設計例を模式的に示す図
【
図5】非教師ラベルが使用されるときの類似度c
SimCLRの行列構造を表す図
【
図6】教師ラベルが使用されるときの類似度c
SupCLRの行列構造を表す図
【
図7】本実施形態に係る類似度Zと比較例1に係る類似度Xとの比較結果を示す図
【
図8】本実施形態に係る類似度Zと比較例2に係る類似度Yとの比較結果を示す図
【
図9】本実施形態、比較例1及び比較例2に係る深層学習モデルの分類正解率を示す図
【
図10】複数の検知対象に対する分布外検知のスコアを示す図
【
図11】実施例2に係る表現学習処理の手順を示す図
【
図12】実施例3に係る表現学習処理の手順を示す図
【
図13】実施例4に係る表現学習処理の手順を示す図
【
図14】本実施形態に係る表現学習処理の手順を示す図
【
図15】応用例に係る表現学習装置の構成例を示す図
【
図16】応用例に係る損失関数の設計例を模式的に示す図
【発明を実施するための形態】
【0007】
以下、図面を参照しながら本実施形態に係わる表現学習装置、方法及びプログラムを説明する。
【0008】
図1は、本実施形態に係る表現学習装置100の構成例を示す図である。
図1に示すように、表現学習装置100は、処理回路1、記憶装置2、入力機器3、通信機器4及び表示機器5を有するコンピュータである。処理回路1、記憶装置2、入力機器3、通信機器4及び表示機器5間のデータ通信はバスを介して行われる。
【0009】
処理回路1は、CPU(Central Processing Unit)等のプロセッサとRAM(Random Access Memory)等のメモリとを有する。処理回路1は、サンプル取得部11、ラベル取得部12、類似度算出部13、損失関数計算部14、最適化部15及び出力制御部16を有する。処理回路1は、表現学習プログラムを実行することにより、上記各部11~16の各機能を実現する。表現学習プログラムは、記憶装置2等の非一時的コンピュータ読み取り可能な記録媒体に記憶されている。表現学習プログラムは、上記各部11~16の全ての機能を記述する単一のプログラムとして実装されてもよいし、幾つかの機能単位に分割された複数のモジュールとして実装されてもよい。また、上記各部11~16は特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等の集積回路により実装されてもよい。この場合、単一の集積回路に実装されても良いし、複数の集積回路に個別に実装されてもよい。
【0010】
サンプル取得部11は、N(Nは自然数)個のサンプルの特徴表現を混合したM(Mは自然数)個の混合特徴表現又は当該M個の混合特徴表現から抽出されたM個の他の混合特徴表現、M個のサンプルを混合したM個の混合サンプルから抽出された特徴表現であるM個の混合特徴表現、又は当該M個の混合特徴表現から抽出された特徴表現であるM個の他の混合特徴表現を取得する。また、サンプル取得部11は、N個のサンプル、混合サンプル又は特徴表現を取得することも可能である。サンプルから特徴表現を抽出する手法や混合サンプルから混合特徴表現を抽出する手法は、深層学習モデル等の統計的機械学習モデルを使用する方法を想定する。サンプルは、処理回路1による処理対象のデータを意味する。サンプルは、ラベルを付与可能なデータであれば如何なるデータでもよく、例えば、画像データや音声データ、文字データ、波形データ等が使用される。
【0011】
ラベル取得部12は、N個のサンプルにそれぞれ対応するN個のラベルを混合したM個の混合ラベルを取得する。また、ラベル取得部12は、N個のラベルを取得することも可能である。
【0012】
類似度算出部13は、M個の混合ラベルから選択されたL(Lは自然数)個の組合せ(以下、ラベル組合せ)のL個の類似度を算出する。L個のラベル組合せ各々は、M個の混合ラベルから選択されたK(Kは自然数)個の混合ラベルを有する。L個の類似度各々は、K個の混合ラベル間の類似の程度を表す。L個の類似度は、当該類似度が満たすべき定性的且つ定量的な制約条件に基づき定式化される。
【0013】
損失関数計算部14は、M個の第1乃至第4の何れか1種の混合特徴表現と前記L個の類似度とに基づいて損失関数を算出する。より詳細には、損失関数計算部14は、M個の第1乃至第4の何れか1種の混合特徴表現からL個の組合せ(以下、サンプル組合せ)を選択する。ここで、L個のサンプル組合せ各々は、K個の混合特徴表現を有する。損失関数計算部14は、L個のサンプル組合せ各々について、K個の混合特徴表現間の相関を算出する。損失関数計算部14は、L個の相関とL個の類似度とに基づいて損失関数を算出する。
【0014】
最適化部15は、損失関数に基づいて深層学習モデルを更新する。最適化部15は、更新の停止条件の充足の有無を判定し、停止条件を充足したと判定するまで、深層学習モデルの更新を繰り返す。最適化部15は、停止条件を充足したと判定した場合、現段階の深層学習モデルを学習済みの深層学習モデルとして出力する。
【0015】
出力制御部16は、種々のデータを出力する。一例として、出力制御部16は、サンプルや混合サンプル、特徴表現、混合特徴表現、類似度、深層学習モデルの学習結果、学習済み深層学習モデル等を、表示機器5に表示してもよいし、記憶装置2に保存してもよいし、通信機器4を介して他のコンピュータに送信してもよい。
【0016】
記憶装置2は、ROM(Read Only Memory)やHDD(Hard Disk Drive)、SSD(Solid State Drive)、集積回路記憶装置等により構成される。記憶装置2は、表現学習プログラム等を記憶する。
【0017】
入力機器3は、ユーザからの各種指令を入力する。入力機器3としては、キーボードやマウス、各種スイッチ、タッチパッド、タッチパネルディスプレイ等が利用可能である。入力機器3からの出力信号は処理回路1に供給される。なお、入力機器3としては、処理回路1に有線又は無線を介して接続されたコンピュータの入力機器であってもよい。
【0018】
通信機器4は、表現学習装置100にネットワークを介して接続された外部機器との間でデータ通信を行うためのインタフェースである。
【0019】
表示機器5は、種々の情報を表示する。例えば、表示機器5は、出力制御部16による制御に従い種々のデータを表示する。表示機器5としては、CRT(Cathode-Ray Tube)ディスプレイや液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ、LED(Light-Emitting Diode)ディスプレイ、プラズマディスプレイ又は当技術分野で知られている他の任意のディスプレイが適宜利用可能である。また、表示機器5は、プロジェクタでもよい。
【0020】
以下、本実施形態に係る種々の実施例について説明する。
【0021】
[実施例1]
図2は、実施例1に係る表現学習処理の手順を示す図である。
図3は、実施例1に係る表現学習処理の全体像を模式的に示す図である。
【0022】
図2及び
図3に示すように、サンプル取得部11は、N個のサンプル310を取得する(S201)。N個のサンプル310は、1個のミニバッチを構成する。N個のサンプル310は、その全てが異なる出所のものでもよいし、基本となるサンプルと当該サンプルに幾何学的変換や輝度値変換等のデータ増強(data augmentation)を施したものでもよい。
【0023】
ステップS201が行われるとラベル取得部12は、N個のラベル340を取得する(ステップS202)。N個のラベル340は、N個のサンプル310に一対一対応している。ラベル340の種別は、特に限定されず、教師ラベル、自己教師ラベル(又は教師無しラベル)及び半教師ラベルの少なくとも1種が利用可能である。換言すれば、本実施形態は、ラベル種別に関わりなく実行することが可能である。教師ラベルは、サンプル310に対して人為的に付与されたラベルを意味する。自己教師ラベルは、サンプル310の特徴表現の分布、またはサンプル310の種別に基づき付与された疑似的なラベルを意味する。例えば、教師ラベルがないデータに対して、特徴表現のクラスタリングなどによって与えられる擬似的なラベルを意味する。代表的な自己教師あり表現学習手法であるSimCLRと呼ばれる手法では、各データに対して複数の変形T1、T2を作用させ、同じデータに対して異なる変形を作用させたものを同じクラスとみなし、異なるデータから生成されたものは別のクラスとみなす方法が取られている。半教師ラベルは、教師ラベルがないサンプルに対して、教師ラベルを持つ他のサンプルの特徴表現の分布、教師ラベルを持たないサンプルの特徴表現の分布、及びサンプルの種別に基づき付与された疑似的なラベルを意味する。例えば、少数の教師ラベルがあるデータを参照しながら、特徴表現のクラスタリングなどによって、教師ラベルがないデータに対して与えられるラベルである。半教師ラベルと自己教師ラベルとは、非教師ラベルと称することもある。
【0024】
ステップS202が行われるとサンプル取得部11は、深層学習モデル30を使用して、N個のサンプル310からN個の特徴表現を抽出する(ステップS203)。深層学習モデル30は、学習前のモデルである。深層学習モデル30は、特に限定されず、分布外(OOD:Out Of Distribution)検知や画像分類、物体検知、音声認識、VQA(Visual Question Answering)等の如何なるタスクを実行するものでもよい。
【0025】
ステップS203が行われるとサンプル取得部11は、深層学習モデル30を使用して、N個の特徴表現からM個の第1の混合特徴表現320を生成する(ステップS204)。混合特徴表現の多様性を確保するためには、混合特徴表現の候補の数はNに比べて大きいことが望ましい一方で、計算の複雑性を回避するためには、MはNと同程度の値となることが望ましい。実施例では、N個の特徴表現の中から重複なしでランダムに二つを抽出してユニットを形成し、一つのユニットに対して二つの混合特徴表現を得ている。あるユニットの形成後に別のユニットを形成する際は、以前抽出された特徴表現が二度以上抽出されないように制約をかけている。そのため実施例では、混合特徴表現の候補の数はNC2個であり、実際に使用される混合特徴表現の個数はM個=N個である。特徴表現の混合の手法は、特に限定されず、例えば、Mixup、CutMix、Manifold Mixup等の手法を転用することが可能である。また、混合特徴表現を生成する際のサンプル組み合わせは上記に限定されず、同一の特徴表現同士を混合しても良いし、複数のユニットを形成する際に制約をかけなくても良いし、N個の特徴表現の中から三つ以上を抽出して一つのユニットを形成しても良い。
【0026】
ステップS204が行われるとラベル取得部12は、N個のラベル340からM個の混合ラベル350を生成する(ステップS205)。ステップS205に係るラベル取得部12は、ラベル混合モジュール31により実現される。ラベル混合モジュール31は、深層学習モデル30からは独立したプログラムモジュールである。ラベル混合モジュール31は、ステップS204における特徴表現の混合に対応する方法で、ラベル340の混合を行う。実施例では、特徴表現に対して行ったユニット形成と同様の方法で、N個のラベル340からN/2個のユニットを形成し、一つのユニットに対して二つの混合ラベル350を得ることで、N個の混合ラベル350を生成する。混合の手法としては、特に限定されないが、Mixup、CutMix、Manifold Mixup等に記載された手法を利用することが可能である。ただし、ラベル組み合わせの方法は、サンプル組み合わせと同様の方法で行う必要がある。
【0027】
ステップS205が行われるとサンプル取得部11は、深層学習モデル30を使用して、M個の第1の混合特徴表現320からM個の第2の混合特徴表現330を抽出する(ステップS206)。
【0028】
ここで、深層学習モデル30の構成について説明する。
図3に示すように、深層学習モデル30は、特徴抽出層301、特徴表現混合モジュール302及び特徴抽出層303を有する。訓練段階において、深層学習モデル30のタスクの実行に対する寄与の大きい、特徴抽出層303の後段のネットワーク層(ヘッド)は外されている。
【0029】
特徴抽出層301は、サンプル310を入力してサンプル310から特徴ベクトルを抽出するネットワーク層である。当該特徴ベクトルが特徴表現として用いられる。特徴抽出層301は、畳み込み層や全結合層、多層パーセプトロン、プーリング層、Dens層等の任意のネットワーク層を1層又は複数層有している。このようなネットワーク層としては、ResNetやVGGNet等が用いられればよい。特徴表現混合モジュール302は、ステップS203において、N個のサンプル310各々から特徴表現を抽出する。
【0030】
特徴表現混合モジュール302は、特徴抽出層301の後段に設けられている。特徴表現混合モジュール302は、ステップS204において、N個の特徴表現からM個の第1の混合特徴表現を生成するプログラムモジュールである。
【0031】
特徴抽出層303は、特徴表現混合モジュール302の後段に設けられている。特徴抽出層303は、第1の混合特徴表現320を入力して第1の混合特徴表現320から特徴ベクトルを抽出するネットワーク層である。当該特徴ベクトルが第1の混合特徴表現の特徴表現である第2の混合特徴表現330として使用される。特徴抽出層303は、畳み込み層や全結合層、多層パーセプトロン、プーリング層、Dens層等の任意のネットワーク層を1層又は複数層有している。このようなネットワーク層としては、ResNetやVGGNet等が用いられればよい。特徴抽出層303は、ステップS206において、M個の第1の混合特徴表現320各々から第2の混合特徴表現330を抽出する。
【0032】
上記の通り、サンプル取得部11は、ステップS204において、深層学習モデル30に含まれる第1のネットワーク層(特徴抽出層301)にN個のサンプルを入力してN個の第1の特徴表現を抽出し、ステップS206において、深層学習モデル30に含まれる第1のネットワーク層(特徴抽出層301)の後段に位置する第2のネットワーク層(特徴抽出層303)にM個の第1の混合特徴表現を入力してM個の第2の混合特徴表現を抽出する。
【0033】
ステップS206が行われると類似度算出部13は、M個の混合ラベル350からL個の類似度360を算出する(ステップS207)。ステップS207に係る類似度算出部13は、類似度算出モジュール32により実現される。類似度算出モジュール32は、深層学習モデル30から独立したプログラムモジュールであるとする。
【0034】
類似度算出モジュール32は、M個の混合ラベル350から選択されたL個のラベル組合せについてL個の類似度360を算出する。L個のラベル組合せ各々は、M個の混合ラベルから選択されたK個の混合ラベルを有する。L個の類似度各々は、L個のラベル組合せ各々におけるK個の混合ラベル間の類似の程度を表する。実施例では、ラベル組み合わせの際は、M個の混合ラベルの中からランダムにK個を重複なしで抽出し、その組み合わせ全てを作成する。この場合、ラベル組み合わせはL個=MCK個である。Kの値は、損失関数計算部14において相関を取る混合特徴表現の個数と一致する。表現学習で用いられる損失関数ではK個=2個が典型的であるが、限定する必要はない。また、組み合わせだけでなく順序を考慮して作成しても良いし、重複ありで抽出して作成しても良い。
【0035】
ここで、K個=2個であるとしてラベル組合せ及び類似度について説明する。2個の混合ラベルからなるラベル組合せを(MLi,MLj)と表記する。なお、i及びjは混合ラベルを表す添字である。ラベル組合せ(MLi,MLj)について、MLiのMLjに対する類似度が算出される。具体的に、3個(M個=3個)の混合ラベルML1,ML2,ML3の事例について考える。3個の混合ラベルML1,ML2,ML3からL個=3(=3C2)個のラベル組合せ(MLi,MLj)=(ML1,ML2)、(ML1,ML3)、(ML2,ML3)、が作成され、各ラベル組合せについて類似度が算出される。
【0036】
ステップS207が行われると損失関数計算部14は、損失関数を計算する(ステップS208)。ステップS208に係る損失関数計算部14は、損失関数計算モジュール33により実現される。損失関数計算モジュール33は、深層学習モデル30から独立したプログラムモジュールであるとする。
【0037】
ステップS208において損失関数計算モジュール33は、ステップS206において抽出されたM個の第2の混合特徴表現330とL個の類似度360とに基づいて損失関数を計算し、損失370を算出する。より詳細には、損失関数計算モジュール33は、M個の第2の混合特徴表現330からL個のサンプル組合せを選択する。ここで、L個のサンプル組合せ各々は、K個の混合特徴表現を有する。損失関数計算モジュール33は、L個のサンプル組合せ各々について、K個の混合特徴表現間の相関を算出する。損失関数計算モジュール33は、L個の相関とL個の類似度とに基づいて損失関数を算出する。
【0038】
ここで、K個=2個であるとしてラベル組合せ及び類似度について説明する。L個の相関各々は、L個のサンプル組合せ各々における2個の第2の混合特徴表現間の相関の程度を表する。ここで、2個の第2の混合特徴表現からなるサンプル組合せを(MFRi,MFRj)と表記する。なお、i及びjは第2の混合特徴表現を表す添字である。サンプル組合せ(MFRi,MFRj)について、MFRiのMFRjに対する相関が算出される。具体的に、3個(M個=3個)の混合特徴表現MFR1,MFR2,MFR3の事例について考える。3個の混合特徴表現MFR1,MFR2,MFR3からL個=3(=3C2)個のサンプル組合せ(MFRi, MFRj)=(MFR1,MFR2)、(MFR1,MFR3)、(MFR2,MFR3)が作成され、各サンプル組合せについて相関が算出される。
【0039】
次に、本実施形態に係る損失関数の設計について詳細に説明する。
図4は、本実施形態に係る損失関数の設計例を模式的に示す図である。
図4に示すように、損失関数は、類似度と対照損失項との積算により表される。上記の通り、類似度は、L個のラベル組合せ各々におけるK個の混合ラベル間の類似の程度を表す。対照損失項は、L個のサンプル組合せ各々におけるK個の第2の混合特徴表現間の相関で記述される。
【0040】
図4に示すように、類似度は、当該類似度が満たすべき定性的且つ定量的な制約条件に基づき定式化される。制約条件は、換言すれば、L個の類似度は、理想の類似度が満たすべき制約条件に基づいて導出される。制約条件の具体的な内容は種々様々である。一例として、制約条件は、K個の混合ラベルが同一であるときに類似度が下限値をとること(第1条件)、K個の混合ラベルが最も類似するときに類似度が上限値をとり、K個の混合ラベルが最も類似しないときに類似度が下限値をとること(第2条件)、及び/又は、K個の混合ラベルが対称性を有するときに類似度が同一値をとること(第3条件)、を有する。第1条件及び第2条件に関し、下限値及び上限値の具体的な値は特に限定されないが、例えば、下限値=0、上限値=1に設定される。第3条件に関する対称性とは、例えば、K個=2個の場合、MLiに対するMLjの類似度と、MLjに対するMLiの類似度が交換可能であることを意味する。
【0041】
上記第1乃至第3条件を数式で表すと下記の通りである。なおcijは混合ラベルiの混合ラベルjに対する類似度を表す。yi´は混合ラベルiの値を表す。ラベルを混合しない場合のyi´は、典型的には、1-of-K形式のベクトルで表される。
【0042】
【0043】
類似度は、ラベルが教師ラベルか否かに応じて行列構造が設計されてもよい。
図5は、非教師ラベルが使用されるときの類似度c
SimCLRの行列構造を表す図であり、
図6は教師ラベルが使用されるときの類似度c
SupCLRの行列構造を表す図である。非教師ラベルは、半教師ラベル又は自己教師ラベルを意味する。ラベルが非教師ラベルである場合、深層学習モデルの学習アルゴリズムとしては、教師無し対照学習が実行される。ラベルが教師ラベルである場合、深層学習モデルの学習アルゴリズムとしては、教師有り対照学習が実行される。
【0044】
図5及び
図6の例では、4個のサンプル画像Img1、Img2、Img3及びImg4に対応するラベル間の類似度の行列構造を表している。サンプル画像Img1及びImg2のラベルはクラス1に分類され、サンプル画像Img3及びImg4のラベルはクラス2に分類されるものとする。類似度c
SimCLR及び類似度c
SupCLR各々は、行及び列各々について、4個の2×2の行列ブロックに分割される。行列ブロックの第1行は基準サンプルを表し、第2行は基準サンプルに変形を施したサンプルを表す。同様に、行列の第1列は基準サンプルを表し、第2列は基準サンプルに変形を施したサンプルを表す。対角成分(点線で囲まれた行列ブロック。例えば、1行1列、2行2列)は、同一ラベル同士の類似度を表すので、第1条件により、値0に設計される。非対角成分(例えば、2行1列、1行2列)は、同一クラスに属する異なるラベル同士の類似度を表すので、第2条件により、値1に設計される。また、類似度c
SimCLR及び類似度c
SupCLR各々は、第3条件により、交換可能な行列ブロック同士については、同一の類似度を有している。
【0045】
図5に示す教師無し対照学習の場合、非対角成分にある行列ブロックに示すように、異なるサンプル間の類似度は、同一クラスでも異なるクラスでも、全て値0に設計される。
図6に示す教師有り対照学習の場合、例えば、一点鎖線で図示する行列ブロック(例えば、2行1列、1行2列)に示すように、同一クラスに属する異なるサンプル間の類似度は、両ラベルが最も類似することになるので、第2条件により、値1に設計される。例えば、3行1列の行列ブロックに示すように、異なるクラスに属する異なるサンプル間の類似度は、両混合ラベルが最も類似しないことになるので、第2条件により、値0に設計される。
【0046】
第1乃至第3条件を満たす類似度cijとしては、一例として、下記の(4)式に示すイェンセン・シャノン情報量(Jensen-Shannon divergence)又は下記の(5)式に示すコサイン類似度に基づいて定式化される。(4)式のH(・)はシャノンエントロピーを表す。
【0047】
【0048】
損失関数としては、一例として、下記(6)式により表される教師有り対照学習の損失関数L(sup)が用いられる。損失関数L(sup)は、類似度cijと相関s(fi,fj)に依存する対照損失項Log・とに基づいて計算される。相関s(fi,fj)は、特徴ベクトルfiの特徴ベクトルfjに対する相関を表す。cijを正規化したcij´=cij/Σjcijが類似度として用いられてもよい。
【0049】
【0050】
損失関数は、(6)式に限定されず、例えば、MoCo(momentum contrast)を一般化した、下記(7)式に示す損失関数L(MoCo)が用いられてもよい。fiは変形T1を作用させたデータを深層学習モデルへ入力して得た特徴表現である。fj
~EMAは、fiの獲得に使用したものと同じ初期値の深層学習モデルから、指数移動平均によって更新されたモデルへサンプルを入力して得られる。入力するサンプルには、元サンプルは同じだがT1とは異なる変形T2を作用させたものを用いる。μlは過去の反復ステップから得たfj
~EMAである。μlは記憶装置2に記憶されている。
【0051】
【0052】
損失関数は、例えば、BYOL(bootstrap your own latent)を一般化した、下記(8)式に示す損失関数が用いられてもよい。g(fi)はfiを抽出した後に付随する多層パーセプトロンからの出力を表す。
【0053】
【0054】
複数の特徴ベクトル間の類似度を利用する損失関数であれば、これら以外の損失関数を用いても良い。また、制約条件は、第1乃至第3条件に限定されず、深層学習モデルのタスクの種別や損失関数の種別に応じて設計されてもよい。
【0055】
ステップS208が行われると最適化部15は、深層学習モデル30を更新する(ステップS209)。ステップS209に係る最適化部15は、最適化モジュール34により実現される。最適化モジュール34は、深層学習モデル30に含まれるネットワーク層のうちの訓練対象のネットワーク層に設定される重みパラメータを更新する。訓練対象のネットワーク層としては、例えば、特徴抽出層303が挙げられる。最適化モジュール34は、ステップS208において計算された損失関数の370が最小化するように、適応的に設定された更新幅(ステップ幅)に従い重みパラメータを更新する。最適化手法は、特に限定されず、確率的勾配降下法やAdaGrad、Adam等の任意の方法が用いられればよい。
【0056】
ステップS209が行われると最適化部15は、更新を終了するか否かを判定する(ステップS210)。ステップS210に係る最適化部15は、最適化モジュール34により実現される。最適化モジュール34は、更新の停止条件の充足の有無を判定する。停止条件は、例えば、ステップS201からステップS210までの処理の反復回数が所定回数に到達したこと、損失370が所定値未満に到達したこと等に設定されればよい。停止条件を充足していないと判定された場合(ステップS210:NO)、新たなN個のサンプル310とN個のラベル340とにより、ステップS201からステップS210が実行され、停止条件が充足すると判定されるまでステップS201からステップS210が反復される。そして最適化モジュール34は、停止条件が充足したと判定された場合(ステップS210:YES)、表現学習処理を終了する。出力制御部16は、停止条件が充足したと判定された反復ステップにおける深層学習モデルを学習済みの深層学習もでるとして出力する。
【0057】
以上により、実施例1に係る表現学習処理が終了する。
【0058】
上記
図2に示す表現学習処理の手順は一例であり、
図2に示す手順に限定されない。一例として、ステップS202は、ステップS205の前段に行われればよく、必ずしもステップS201とステップS203との間に行われる必要はない。他の例として、ステップS205は、ステップS202とステップS207との間に実施されればよく、必ずしもステップS206の前段に行われる必要はない。
【0059】
次に、本実施形態に係る類似度と比較例に係る類似度との精度の違いについて評価する。比較例として、非特許文献1に係る比較例1と非特許文献2に係る比較例2とを挙げる。
【0060】
比較例1は、表現学習とサンプル混合とを組み合わせることで損失関数の精度向上を試みている。比較例1は、混合前のラベルと混合後のラベルとを利用して、下記(9)式のL(1)と等価な損失関数によって混合型のデータ増強を表現学習へ導入している。
【0061】
【0062】
ここで、元サンプルxiおよびxjは変形Tを施され、変形されたサンプルT(xi)及びT(xk)を係数λで重みづけすることで混合サンプルxi´が生成される。全サンプルに対して混合サンプルを生成して深層学習モデルへ入力することで、特徴ベクトルfiと各特徴ベクトル間の相関s(fi,fj)とを算出する。比較例1におけるサンプル混合の損失関数への反映方法は、混合後のラベルyi´と混合前のラベルyjとの内積によって表現できる。最後に温度と呼ばれるハイパーパラメータτで特徴ベクトル間の相関を正規化し、ソフトマックス確率の交差エントロピーの和として損失関数L(1)が与えられる。
【0063】
本実施形態に係る損失関数L(sup)と比較例1に係る損失関数L(1)とを比較すれば、比較例1に係る類似度は、下記(10)式で表される。
【0064】
【0065】
図7は、本実施形態に係る類似度Zと比較例1に係る類似度Xとの比較結果を示す図である。類似度Zは(4)式であり、類似度Xは(10)式である。サンプルは画像であり、そのラベルyを3次元のベクトルで表す。
図7の左欄に示すように、サンプルAは、車の画像であり、そのラベルy
Aは(1,0,0)であるとする。同様に、サンプルBは、鳥の画像であり、そのラベルy
Bは(0,1,0)であり、サンプルC
1は、猫の画像であり、そのラベルy
C1は(0,0,1)であり、サンプルC
2は、猫の画像であり、そのラベルy
C2は(0,0,1)である。サンプルC
1とサンプルC
2とは、共にラベル「猫」の画像であるが、異なる猫の画像である。混合ラベルy´は、下記(11)に示すように、λを重み値とする、混合前ラベルy
i及びy
jの重み付き加算により得られる。重み値λを混合率と呼ぶことにする。
【0066】
【0067】
図7の中欄に示すように、(11)式によれば、サンプルAに対するサンプルBの混合サンプルA´の混合ラベルy
A´は(λ,0,1-λ)で、サンプルBに対するサンプルC
2の混合サンプルB´の混合ラベルy
B´は(0,λ,1-λ)で、サンプルC
1に対するサンプルAの混合サンプルC
1´の混合ラベルy
C1´は(1-λ,0,λ)で、サンプルC
2に対するサンプルBの混合サンプルC
2´の混合ラベルy
C2´は(0,1-λ,λ)で表される。
【0068】
図7の右欄に示すように、混合ラベルy
A´の混合ラベルy
B´に対する類似度C
A´B´、混合ラベルy
A´の混合ラベルy
C1´に対する類似度C
A´C1´及び混合ラベルy
A´の混合ラベルy
C2´に対する類似度C
A´C2´を、本実施形態に係る類似度Z(式(4))と比較例1に係る類似度X(式(11))とで算出した。なお混合率λ=0.5に設定した。
【0069】
図7の右欄上段に示すように、混合ラベルy
A´及び混合ラベルy
B´には猫が含まれているのでC
A´B´≠0であることが期待されるが、比較例1では、C
A´B´=0である。これは定性的に不適切である。また、混合ラベルy
A´及び混合ラベルy
C1´には車が含まれ混合ラベルy
C2´には車が含まれていないのでC
A´C1´>C
A´C2´であることが期待されるが、比較例1では、C
A´C1´=C
A´C2´=0.5である。これは定量的に不適切である。このような不適切な結果が得られるのは、式(11)に示すように、比較例1では、混合前のラベルy
iを用いて類似度を設計しているためである。一方、
図7の右欄下段に示すように、本実施形態では、C
A´B´=0.25であり、期待通りC
A´B´≠0である。また、本実施形態では、C
A´C1´=0.5,C
A´C2´=0.25であり、期待通り、C
A´C1´>C
A´C2´である。このように、本実施形態に係る類似度Zは、定性的にも定量的にも適切であることが分かる。これは、本実施形態に係る類似度Zは、定性的且つ定量的な制約条件に基づき定式化されているためである。
【0070】
比較例2は、混合後のラベル間の内積を利用して、下記(12)式に示す損失関数L(2)によって混合型のデータ増強を表現学習へ導入している。特徴表現fiおよび混合ラベルyi´を得るための処理は、比較例1と同様である。
【0071】
【0072】
本実施形態に係る損失関数L(sup)と比較例2に係る損失関数L(2)とを比較すれば、比較例2に係る類似度は、下記(13)式で表される。
【0073】
【0074】
図8は、本実施形態に係る類似度Zと比較例2に係る類似度Yとの比較結果を示す図である。類似度Zは(4)式であり、類似度Yは(12)式である。
図8に記載されている符号は
図7に記載されている符号と同一のルールで付されている。なお、サンプルC
1とサンプルC
2とサンプルC
3とは、共にラベル「猫」の画像であるが、異なる猫の画像である。
【0075】
図8の中欄に示すように、サンプルAに対するサンプルC
1の混合サンプルA´の混合ラベルy
A´は(λ,0,1-λ)で、サンプルC
1に対するサンプルAの混合サンプルB´の混合ラベルy
C1´は(1-λ,0,λ)で、サンプルC
2に対するサンプルC
3の混合サンプルC
2´の混合ラベルy
C2´は(0,0,1)で、サンプルC
3に対するサンプルC
2の混合サンプルC
3´の混合ラベルy
C3´は(0,0,1)で表される。
【0076】
図8の右欄に示すように、混合ラベルy
A´の混合ラベルy
C1´に対する類似度C
A´C1´、混合ラベルy
A´の混合ラベルy
C2´に対する類似度C
A´C2´及び混合ラベルy
A´の混合ラベルy
C3´に対する類似度C
A´C3´を、本実施形態に係る類似度Z(式(4))と比較例2に係る類似度Y(式(13))とで算出した。
【0077】
図8の右欄上段に示すように、混合ラベルy
A´及び混合ラベルy
C1´には車が含まれ混合ラベルy
C2´及び混合ラベルy
C3´には車が含まれていないのでC
A´C1´>C
A´C2´=C
A´C3´であることが期待されるが、比較例2では、C
A´C1´=C
A´C2´=C
A´C3´=0.33・・・である。これは定量的に不適切である。このような不適切な結果が得られるのは、式(13)に示すように、類似度Yは、混合ラベル間の内積によって与えられるためである。一方、
図8の右欄下段に示すように、本実施形態では、C
A´C1´~0.63、C
A´C2´~0.37,C
A´C3´~0.37であり、期待通り、C
A´C1´>C
A´C2´=C
A´C3´である。従って、本実施形態に係る類似度Zは、定量的に適切であることが分かる。これは、本実施形態に係る類似度Zは、定性的且つ定量的な制約条件に基づき定式化されているためである。
【0078】
次に、本実施形態に係る表現学習処理により訓練された深層学習モデルの性能を、比較例1及び比較例2に係る深層学習モデルとの間で比較する。
【0079】
図9は、本実施形態、比較例1及び比較例2に係る深層学習モデルの分類正解率を示す図である。サンプルの集合である訓練データセットにはCIFAR-10を用いた。学習方法としては教師有り対照学習が用いられた。データ増強方法は、サンプルに対するデータ増強方法の種別を表し、Baseは、Random Horizontal Flip、Random Crop、Color Jitter及びRandom Gray Scaleの4種類を使用している。Base+Mixupは、Baseに加えMixupを使用し、Base+CutMixは、Baseに加えCutMixを使用している。混合率範囲は、Mixup及びCutMixにおいて、混合率λの取り得る範囲を表す。各混合特徴表現及び混合ラベルを生成する際、混合率λは、混合率範囲の中から、ガウス分布等の適当な確率分布に従い決定される。
図9に示すように、混合型のデータ増強によって分布外検知性能が向上することが分かる。
【0080】
図10は、複数の検知対象に対する分布外検知のスコアを示す図である。訓練データセットにはCIFAR-10を用いた。学習方法としては教師有り対照学習が用いられた。深層学習モデルのタスクは分布外(OOD)検知である。スコアは、分布外検知の精度を評価する指標であり、AUROC(Area Under Receiver Operating Characteristic curve)とAUPR(Area Under the Precision-Recall curve)とが使用された。CIFAR-100、SVHN、MNIST及びRandomは検知対象である。深層学習の訓練時におけるデータ増強方法にはBaseとBase+CutMixとが用いられた。
図10に示すように、混合型のデータ増強によって分布外検知性能が向上することが分かる。
【0081】
[実施例2]
実施例2に係る表現学習装置100について説明する。実施例2に係る表現学習装置100は、実施例1に比して、第1の混合特徴表現から第2の混合特徴表現を抽出する工程(ステップS206)を有さない。すなわち、実施例2に係る深層学習モデルは、特徴抽出層303を有さない。
【0082】
図11は、実施例2に係る表現学習処理の手順を示す図である。ステップS1101からステップS1105は、
図2のステップS201からS205と同一であるので説明を省略する。
【0083】
ステップS1105が行われると類似度算出部13は、M個の混合ラベルからL個の類似度を算出する(ステップS1106)。ステップS1106は、
図2のステップS207と同一である。
【0084】
ステップS1106が行われると損失関数計算部14は、損失関数を計算する(ステップS1107)。ステップS1107において損失関数計算部14は、ステップS1104において生成されたM個の混合特徴表現とステップS1106において算出されたL個の類似度とに基づいて損失関数を計算し、損失を算出する。実施例2に係る損失関数は、実施例1に係る第2の混合特徴表現を、ステップS1104において生成された混合特徴表現で置換することにより計算可能である。
【0085】
ステップS1107が行われると最適化部15は、ステップS1107において計算された損失関数に基づいて深層学習モデルを更新する(ステップS1108)。ステップS1108において最適化部15は、深層学習モデルのうちの特徴抽出層301の重みパラメータを更新する。最適化方法は、ステップS209と同様の方法で行われればよい。
【0086】
ステップS1108が行われると最適化部15は、更新を終了するか否かを判定する(ステップS1109)。ステップS1109において最適化部15は、更新の停止条件の充足の有無を判定する。停止条件を充足していないと判定された場合(ステップS1109:NO)、新たなN個のサンプルとN個のラベルとにより、ステップS1101からステップS1109が実行され、停止条件が充足すると判定されるまでステップS1101からステップS1109が反復される。そして最適化部15は、停止条件が充足したと判定された場合(ステップS1109:YES)、表現学習処理を終了する。出力制御部16は、停止条件が充足したと判定された反復ステップにおける深層学習モデルを学習済みの深層学習モデルとして出力する。
【0087】
以上により、実施例2に係る表現学習処理が終了する。
【0088】
上記
図11に示す表現学習処理の手順は一例であり、
図11に示す手順に限定されない。一例として、ステップS1102は、ステップS1105の前段に行われればよく、必ずしもステップS1101とステップS1103との間に行われる必要はない。
【0089】
[実施例3]
実施例3に係る表現学習装置100について説明する。実施例3に係る表現学習装置100は、実施例1に比して、第1の特徴表現を混合するのではなく、サンプルを混合する。
【0090】
図12は、実施例3に係る表現学習処理の手順を示す図である。ステップS1201からステップS1202は、
図2のステップS201からS202と同一であるので説明を省略する。
【0091】
ステップS1202が行われるとサンプル取得部11は、深層学習モデルを使用して、N個のサンプルからM個の混合サンプルを生成する(ステップS1203)。具体的には、サンプル取得部11は、N個のサンプルからNK個のサンプル組合せを作成する。この場合、NK個=M個である。サンプル組合せは、N個のサンプルから選択された任意のK個のサンプルからなる。K個のサンプルが同一のサンプルから選択されることも許容されるものとする。サンプル取得部11は、NK個のサンプル組合せ各々を構成するK個のサンプルを混合してNK個の混合サンプルを生成する。サンプルの混合の手法は、特に限定されず、例えば、CutMixやMixup等の手法を使用することが可能である。
【0092】
ステップS1203が行われるとサンプル取得部11は、深層学習モデルを使用して、M個の混合サンプルからM個の第1の混合特徴表現を抽出する(ステップS1204)。
【0093】
ステップS1205からステップS1210は、
図2に示すステップS205からステップS210と同様である。すなわち、ステップS1205においてラベル取得部12は、深層学習モデル30を使用して、N個の特徴表現からM個の第1の混合特徴表現を生成し、ステップS1206においてサンプル取得部11は、深層学習モデルを使用して、M個の第1の混合特徴表現からM個の第2の混合特徴表現を抽出し、ステップS1207において類似度算出部13は、M個の混合ラベルからL個の類似度を算出し、ステップS1208において損失関数計算部14は、M個の第2の混合特徴表現とL個の類似度とに基づいて損失関数を計算し、ステップS1209において最適化部15は、損失関数に基づいて深層学習モデルを更新する。実施例3に係る損失関数は、実施例1に係る第2の混合特徴表現を、ステップS1304において生成された第2の混合特徴表現で置換することにより計算可能である。そしてステップS1210において最適化部15は、停止条件の充足の有無を判定し、停止条件が充足すると判定されるまでステップS1201からステップS1210を繰り返し、停止条件が充足すると判定された場合、表現学習処理を終了する。
【0094】
以上により、実施例3に係る表現学習処理が終了する。
【0095】
上記
図12に示す表現学習処理の手順は一例であり、
図12に示す手順に限定されない。一例として、ステップS1202は、ステップS1205の前段に行われればよく、必ずしもステップS1201とステップS1203との間に行われる必要はない。他の例として、ステップS1205は、ステップS1202とステップS1207との間に実施されればよく、必ずしもステップS1206の前段に行われる必要はない。
【0096】
[実施例4]
以下、実施例4に係る表現学習装置100について説明する。実施例4に係る表現学習装置100は、実施例3に比して、第1の混合特徴表現から第2の混合特徴表現を抽出する工程(ステップS1206)を有さない。すなわち、実施例4に係る深層学習モデルは、特徴抽出層303を有さない。
【0097】
図13は、実施例4に係る表現学習処理の手順を示す図である。ステップS1301からステップS1305は、
図12のステップS1201からS1205と同一であるので説明を省略する。
【0098】
ステップS1305が行われると類似度算出部13は、M個の混合ラベルからL個の類似度を算出する(ステップS1306)。ステップS1106は、
図2のステップS207と同一である。
【0099】
ステップS1306が行われると損失関数計算部14は、損失関数を計算する(ステップS1307)。ステップS1307において損失関数計算部14は、ステップS1304において生成されたM個の混合特徴表現とステップS1306において算出されたL個の類似度とに基づいて損失関数を計算し、損失を算出する。実施例4に係る損失関数は、実施例1に係る第2の混合特徴表現を、ステップS1304において生成された混合特徴表現で置換することにより計算可能である。
【0100】
ステップS1307が行われると最適化部15は、ステップS1307において計算された損失関数に基づいて深層学習モデルを更新する(ステップS1308)。ステップS1308において最適化部15は、深層学習モデルのうちの特徴抽出層301の重みパラメータを更新する。最適化方法は、ステップS209と同様の方法で行われればよい。
【0101】
ステップS1308が行われると最適化部15は、更新を終了するか否かを判定する(ステップS1309)。ステップS1309において最適化部15は、更新の停止条件の充足の有無を判定する。停止条件を充足していないと判定された場合(ステップS1309:NO)、新たなN個のサンプルとN個のラベルとにより、ステップS1301からステップS1309が実行され、停止条件が充足すると判定されるまでステップS1301からステップS1309が反復される。そして最適化部15は、停止条件が充足したと判定された場合(ステップS1309:YES)、表現学習処理を終了する。出力制御部16は、停止条件が充足したと判定された反復ステップにおける深層学習モデルを学習済みの深層学習モデルとして出力する。
【0102】
以上により、実施例4に係る表現学習処理が終了する。
【0103】
上記
図13に示す表現学習処理の手順は一例であり、
図13に示す手順に限定されない。一例として、ステップS1302は、ステップS1305の前段に行われればよく、必ずしもステップS1301とステップS1303との間に行われる必要はない。
【0104】
[総括]
上記実施例1乃至4において損失関数は深層学習モデルを更新するために使用するものとした。しかしながら、本実施形態に係る損失関数の用途はこれに限定されない。また、混合特徴表現は、サンプルに基づいて表現学習装置100により生成されるものとしたが、表現学習装置100とは異なる外部コンピュータにより生成されてもよい。この場合、表現学習装置100は、外部コンピュータにより生成された混合特徴表現のデータを、通信機器4又は可搬型記録媒体を介して受信することとなる。
【0105】
図14は、本実施形態に係る表現学習処理の手順を示す図である。
図14に示すように、サンプル取得部11は、N個のサンプルに基づくM個の混合特徴表現を取得する(ステップS1401)。本実施形態に係る「取得」は、表現学習装置100が当該データを獲得すること全般を指す広義の取得を意味する。すなわち、本実施形態に係る「取得」は、表現学習装置100により生成又は算出することや、外部コンピュータから受信することも含むものとする。ステップS1401により取得される混合特徴表現は、実施例1に係る第1の混合特徴表現、実施例1に係る第2の混合特徴表現、実施例2に係る混合特徴表現、実施例3に係る第1の混合特徴表現、実施例3に係る第2の混合特徴表現及び実施例4に係る混合特徴表現の何れでもよい。
【0106】
ステップS1401が行われるとラベル取得部12は、N個のラベルに基づいてM個の混合ラベルを取得する(ステップS1402)。ステップS1402に係るラベル取得部12は、上記実施例1乃至4に示すように、ラベルを混合して混合ラベルを生成してもよいし、外部コンピュータから混合ラベルを受信してもよい。
【0107】
ステップS1402が行われると類似度算出部13は、ステップS1402において取得されたM個の混合ラベルからL個のラベル組合せの類似度を算出する(ステップS1403)。ステップS1403に係る類似度の算出方法は、上記実施例1乃至4における類似度の算出方法と同一である。
【0108】
ステップS1403が行われると損失関数計算部14は、ステップS1401において取得されたM個の混合特徴表現とステップS1403において算出されたL個の類似度とに基づいて損失関数を計算する(ステップS1404)。ステップS1404に係る損失関数の計算方法は、上記実施例1乃至4における損失関数の計算方法と同一である。
【0109】
ステップS1404が行われると本実施形態に係る表現学習処理が終了する。損失関数の計算により取得された損失は、実施例1乃至4に示すように深層学習モデルの更新に利用されてもよいし、他のコンピュータが深層学習モデルの更新を行う場合、当該コンピュータに損失のデータを転送してもよい。また、損失は、他の用途に使用されてもよい。例えば、作成済みの深層学習モデルにとって異常なサンプルを抽出する際に、損失の大小によって判別しても良い。
【0110】
本実施形態に係る表現学習処理は上記述べた種々の実施例に限定されない。一例として、上記実施例において類似度算出部13は、M個の混合ラベルから選択されたL個のラベル組合せについてL個の類似度を算出するものとした。しかしながら、類似度算出部13は、M個の混合ラベル及びN個のラベルから選択されたL個のラベル組合せについてL個の類似度を算出するものとした。この場合、L個のラベル組合せ各々には混合ラベルとラベルとが含まれることとなる。すなわち、混合ラベル同士の類似度だけでなく、混合ラベルとラベルとの類似度が算出されてもよい。
【0111】
(応用例)
上記実施形態において損失関数は、予め設計されているものであるとした。応用例に係る表現学習装置100は、種々の要件に応じて損失関数を設計する。以下、応用例に係る表現学習装置100について説明する。なお以下の説明において、本実施形態と略同一の機能を有する構成要素については、同一符号を付し、必要な場合にのみ重複説明する。
【0112】
図15は、応用例に係る表現学習装置100の構成例を示す図である。
図15に示すように処理回路1は、更に設計部17を有する。設計部17は、損失関数を設計する。
【0113】
図16は、応用例に係る損失関数の設計例を模式的に示す図である。
図16に示すように、応用例に係る損失関数は、重み値が積算された類似度を対照損失項に作用させた関数である。設計部17は、重み値をラベル種別に基づいて設計する。ラベル種別は、混合ラベルの種別を意味し、具体的には、教師ラベル、半教師ラベル及び自己教師ラベルの何れかを意味する。設計部17は、ラベル種別に応じた値に重み値を設定する。より詳細には、設計部17は、ラベル組合せを構成する第1の混合ラベル及び第2の混合ラベルに関する混合ラベルの種別の組合せに応じて重み値を設計する。第1の混合ラベル及び第2の混合ラベルが共に教師ラベル又は自己教師ラベルである場合、第1の混合ラベルの第2の混合ラベルに対する類似度の重み値と第2の混合ラベルの第1の混合ラベルに対する類似度の重み値とは同一値に設定される。第1の混合ラベルが教師ラベルであり第2の混合ラベルが自己教師ラベル又は半教師ラベルである場合、第1の混合ラベルの第2の混合ラベルに対する類似度の重み値は、第2の混合ラベルの第1の混合ラベルに対する類似度の重み値に比して大きい値に設定される。これは、教師ラベルは、自己教師ラベル又は半教師ラベルに比して信頼度が高い事が期待されるためである。
【0114】
このようにラベル種別に応じて類似度の重み値を設計することにより、損失関数の精度が向上し、ひいては、深層学習モデルの精度の向上が期待される。
【0115】
図16に示すように、設計部17は、対照損失項を、相関の計算方法に基づいて設計する。相関の計算方法は、具体的には、上記式(6)(7)(8)に示すような、対照損失項における相関の定義式の種別を意味する。相関の定義式の種別は、ユーザにより入力機器3を介して任意の種別に設定されてもよいし、深層学習モデルのタスクやサンプルの特性等に応じて自動的に設定されてもよい。また、設計部17は、相関の計算方法として、サンプル組合せ及びラベル組合せを構成する要素の個数Kに基づいて対照損失項を設計してもよい。個数Kに応じて、対照損失項のうちの相関の定義式が決定される。個数Kは、ユーザにより入力機器3を介して任意の種別に設定されてもよいし、自動的に設定されてもよい。
【0116】
上記の通り、応用例によれば、設計部17により、損失関数を構成する重み値、類似度及び対照損失項を任意に設計することが可能になる。設計部17が設けられることにより、サンプルやラベル、深層学習モデルのタスク等に応じて柔軟に損失関数を設計することが可能になる。これにより類似度や損失関数の精度が向上し、ひいては、表現学習の精度が向上することが期待される。
【0117】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0118】
1…処理回路、2…記憶装置、3…入力機器、4…通信機器、5…表示機器、11…サンプル取得部、12…ラベル取得部、13…類似度算出部、14…損失関数計算部、15…最適化部、16…出力制御部、17…設計部、100…表現学習装置。
【手続補正書】
【提出日】2023-02-22
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】0010
【補正方法】変更
【補正の内容】
【0010】
サンプル取得部11は、N(Nは自然数)個のサンプルの特徴表現を混合したM(Mは自然数)個の混合特徴表現、当該M個の混合特徴表現から抽出されたM個の他の混合特徴表現、M個のサンプルを混合したM個の混合サンプルから抽出された特徴表現であるM個の混合特徴表現、又は当該M個の混合特徴表現から抽出された特徴表現であるM個の他の混合特徴表現を取得する。また、サンプル取得部11は、N個のサンプル、混合サンプル又は特徴表現を取得することも可能である。サンプルから特徴表現を抽出する手法や混合サンプルから混合特徴表現を抽出する手法は、深層学習モデル等の統計的機械学習モデルを使用する方法を想定する。サンプルは、処理回路1による処理対象のデータを意味する。サンプルは、ラベルを付与可能なデータであれば如何なるデータでもよく、例えば、画像データや音声データ、文字データ、波形データ等が使用される。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0040
【補正方法】変更
【補正の内容】
【0040】
図4に示すように、類似度は、当該類似度が満たすべき定性的且つ定量的な制約条件に基づき定式化される
。換言すれば、L個の類似度は、理想の類似度が満たすべき制約条件に基づいて導出される。制約条件の具体的な内容は種々様々である。一例として、制約条件は、K個の混合ラベルが同一であるときに類似度が下限値をとること(第1条件)、K個の混合ラベルが最も類似するときに類似度が上限値をとり、K個の混合ラベルが最も類似しないときに類似度が下限値をとること(第2条件)、及び/又は、K個の混合ラベルが対称性を有するときに類似度が同一値をとること(第3条件)、を有する。第1条件及び第2条件に関し、下限値及び上限値の具体的な値は特に限定されないが、例えば、下限値=0、上限値=1に設定される。第3条件に関する対称性とは、例えば、K個=2個の場合、MLiに対するMLjの類似度と、MLjに対するMLiの類似度が交換可能であることを意味する。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0044
【補正方法】変更
【補正の内容】
【0044】
図5及び
図6の例では、4個のサンプル画像Img1、Img2、Img3及びImg4に対応するラベル間の類似度の行列構造を表している。サンプル画像Img1及びImg2のラベルはクラス1に分類され、サンプル画像Img3及びImg4のラベルはクラス2に分類されるものとする。類似度c
SimCLR及び類似度c
SupCLR各々は、行及び列各々について、4個の2×2の行列ブロックに分割される。行列ブロックの第1行は基準サンプルを表し、第2行は基準サンプルに変形を施したサンプルを表す。同様に、行列
ブロックの第1列は基準サンプルを表し、第2列は基準サンプルに変形を施したサンプルを表す。対角成分(点線で囲まれた行列ブロック。例えば、1行1列、2行2列)は、同一ラベル同士の類似度を表すので、第1条件により、値0に設計される。非対角成分(例えば、2行1列、1行2列)は、同一クラスに属する異なるラベル同士の類似度を表すので、第2条件により、値1に設計される。また、類似度c
SimCLR及び類似度c
SupCLR各々は、第3条件により、交換可能な行列ブロック同士については、同一の類似度を有している。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0079
【補正方法】変更
【補正の内容】
【0079】
図9は、本実施形態、比較例1及び比較例2に係る深層学習モデルの分類正解率を示す図である。サンプルの集合である訓練データセットにはCIFAR-10を用いた。学習方法としては教師有り対照学習が用いられた。データ増強方法は、サンプルに対するデータ増強方法の種別を表し、Baseは、Random Horizontal Flip、Random Crop、Color Jitter及びRandom Gray Scaleの4種類を使用している。Base+Mixupは、Baseに加えMixupを使用し、Base+CutMixは、Baseに加えCutMixを使用している。混合率範囲は、Mixup及びCutMixにおいて、混合率λの取り得る範囲を表す。各混合特徴表現及び混合ラベルを生成する際、混合率λは、混合率範囲の中から、ガウス分布等の適当な確率分布に従い決定される。
図9に示すように、混合型のデータ増強によって
分類正解率が向上することが分かる。
【手続補正5】
【補正対象書類名】図面
【補正方法】変更
【補正の内容】
【手続補正6】
【補正対象書類名】図面
【補正方法】変更
【補正の内容】
【手続補正7】
【補正対象書類名】図面
【補正方法】変更
【補正の内容】