IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特許7532950ロバストネス推定方法、データ処理方法及び情報処理装置
<>
  • 特許-ロバストネス推定方法、データ処理方法及び情報処理装置 図1
  • 特許-ロバストネス推定方法、データ処理方法及び情報処理装置 図2
  • 特許-ロバストネス推定方法、データ処理方法及び情報処理装置 図3
  • 特許-ロバストネス推定方法、データ処理方法及び情報処理装置 図4
  • 特許-ロバストネス推定方法、データ処理方法及び情報処理装置 図5
  • 特許-ロバストネス推定方法、データ処理方法及び情報処理装置 図6
  • 特許-ロバストネス推定方法、データ処理方法及び情報処理装置 図7
  • 特許-ロバストネス推定方法、データ処理方法及び情報処理装置 図8
  • 特許-ロバストネス推定方法、データ処理方法及び情報処理装置 図9
  • 特許-ロバストネス推定方法、データ処理方法及び情報処理装置 図10
  • 特許-ロバストネス推定方法、データ処理方法及び情報処理装置 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-05
(45)【発行日】2024-08-14
(54)【発明の名称】ロバストネス推定方法、データ処理方法及び情報処理装置
(51)【国際特許分類】
   G06N 20/00 20190101AFI20240806BHJP
   G06T 7/00 20170101ALI20240806BHJP
【FI】
G06N20/00
G06T7/00 350C
【請求項の数】 10
(21)【出願番号】P 2020111506
(22)【出願日】2020-06-29
(65)【公開番号】P2021043951
(43)【公開日】2021-03-18
【審査請求日】2023-03-09
(31)【優先権主張番号】201910842524.8
(32)【優先日】2019-09-06
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】ジョオン・チャオリアン
(72)【発明者】
【氏名】シ・ズチアン
(72)【発明者】
【氏名】夏 文升
(72)【発明者】
【氏名】孫 俊
【審査官】児玉 崇晶
(56)【参考文献】
【文献】特開2011-039763(JP,A)
【文献】前田一穂ほか,記憶に基づく推論への信頼性尺度の導入,第64回知識ベースシステム研究会資料,2004年03月01日,pp.227-232
(58)【調査した分野】(Int.Cl.,DB名)
G06N 20/00
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
コンピュータが実行する、訓練データ集合に基づいて訓練より予め得られた分類モデルのロバストネスを推定するために用いられるロバストネス推定方法であって、
訓練データ集合における各訓練サンプルについて、ターゲットデータ集合における、該訓練サンプルとのサンプル類似度が所定の閾値の範囲内にあるターゲットサンプルを確定し、分類モデルの該訓練サンプルに対しての分類結果と、分類モデルの、確定されたターゲットサンプルに対しての分類結果との間の分類類似度を計算し;及び
訓練データ集合における各訓練サンプルの分類結果と、ターゲットデータ集合における、対応するターゲットサンプルの分類結果との間の分類類似度に基づいて、分類モデルのターゲットデータ集合に対しての分類ロバストネスを確定することを含む、ロバストネス推定方法。
【請求項2】
請求項1に記載のロバストネス推定方法であって、
分類モデルの各訓練サンプルに対しての分類結果と、各訓練サンプルの真のクラスとに基づいて、分類モデルの各訓練サンプルに対しての分類信頼度を確定することをさらに含み、
訓練データ集合における各訓練サンプルの分類結果と、ターゲットデータ集合における、対応するターゲットサンプルの分類結果との間の分類類似度、及び、分類モデルの各訓練サンプルに対しての分類信頼度に基づいて、分類モデルのターゲットデータ集合に対しての分類ロバストネスを確定する、ロバストネス推定方法。
【請求項3】
請求項1に記載のロバストネス推定方法であって、
訓練データ集合をランダムに分割し、サンプル数が等しい第一サブ集合及び第二サブ集合を取得し;
第一サブ集合における各訓練サンプルについて、第二サブ集合における、該訓練サンプルとの類似度が所定の閾値の範囲内にある訓練サンプルを確定し、分類モデルの第一サブ集合における該訓練サンプルの分類結果と、分類モデルの、確定された第二サブ集合における訓練サンプルに対しての分類結果との間の分類類似度を計算し;
第一サブ集合における各訓練サンプルの分類結果と、第二サブ集合における対応する訓練サンプルの分類結果との間の分類類似度に基づいて、分類モデルの訓練データ集合に対しての基準ロバストネスを計算し;及び
分類モデルのターゲットデータ集合に対しての分類ロバストネス及び分類モデルの訓練データ集合に対しての基準ロバストネスに基づいて、分類モデルのターゲットデータ集合に対しての相対ロバストネスを確定することをさらに含む、ロバストネス推定方法。
【請求項4】
請求項1乃至3のうちの任意の1項に記載のロバストネス推定方法であって、
ターゲットデータ集合における、訓練サンプルとのサンプル類似度が所定の閾値の範囲内にあるターゲットサンプルを確定する過程において、該訓練サンプルの属するクラスと関連付けられる類似度閾値を前記所定の閾値として使用する、ロバストネス推定方法。
【請求項5】
請求項4に記載のロバストネス推定方法であって、
該訓練サンプルの属するクラスと関連付けられる類似度閾値は、訓練データ集合における、前記クラスに属する各訓練サンプル間の平均サンプル類似度を含む、ロバストネス推定方法。
【請求項6】
請求項1乃至3のうちの任意の1項に記載のロバストネス推定方法であって、
ターゲットデータ集合における、訓練サンプルとのサンプル類似度が所定の閾値の範囲内にあるターゲットサンプルを確定する過程において、分類モデルを用いて、該訓練サンプルから抽出した特徴と、ターゲットデータ集合における各ターゲットサンプルから抽出した特徴との間の特徴類似度を、該訓練サンプルと各ターゲットサンプルとの間のサンプル類似度として計算する、ロバストネス推定方法。
【請求項7】
請求項1乃至3のうちの任意の1項に記載のロバストネス推定方法であって、
訓練データ集合及びターゲットデータ集合は、画像データサンプル又は時系列データサンプルを含む、ロバストネス推定方法。
【請求項8】
データ処理方法であって、
ターゲットサンプルを分類モデルに入力し;及び
分類モデルを用いて、ターゲットサンプルに対して分類を行うことを含み、
分類モデルは、訓練データ集合を用いて訓練により予め得られたものであり、
請求項1乃至7のうちの任意の1項に記載のロバストネス推定方法を用いて推定された分類モデルの、ターゲットサンプルの属するターゲットデータ集合に対しての分類ロバストネスは、所定のロバストネス閾値を超えている、データ処理方法。
【請求項9】
請求項8に記載のデータ処理方法であって、
分類モデルは、セマンティック・セグメンテーションのための画像分類モデル、手書き文字認識のための画像分類モデル、交通標識認識のための画像分類モデル、及び気象予測のための時系列データ分類モデルのうちの1つを含む、データ処理方法。
【請求項10】
処理器を含む情報処理装置であって、
前記処理器は、
訓練データ集合における各訓練サンプルについて、ターゲットデータ集合における、該訓練サンプルとのサンプル類似度が所定の閾値の範囲内にあるターゲットサンプルを確定し、分類モデルの該訓練サンプルに対しての分類結果と、分類モデルの、確定されたターゲットサンプルに対しての分類結果との間の分類類似度を計算し、該分類モデルが訓練データ集合に基づいて訓練より予め得られたものであり;及び
訓練データ集合における各訓練サンプルの分類結果と、ターゲットデータ集合における、対応するターゲットサンプルの分類結果との間の分類類似度に基づいて、分類モデルのターゲットデータ集合に対しての分類ロバストネスを確定するように構成される、情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習分野に関し、特に、訓練により得られた分類モデルのロバストネスを推定するためのロバストネス推定方法、該ロバストネス推定方法を実現し得る情報処理装置、及び該ロバストネス推定方法により選択された分類モデルを利用するデータ処理方法に関する。
【背景技術】
【0002】
機械学習に関する技術の進歩に伴い、機械学習に基づいて得られた分類モデルも広く注目されており、かつ画像処理、テキスト処理、時系列データ処理などの各分野で実際に応用されている。
【0003】
分類モデルを含む、訓練により得られた各種のモデルについて言えば、モデルを訓練するための訓練データ集合と、最終的にモデルを応用するターゲットデータ集合とが独立同分布(independently identically distribution)でなく、即ち、両者の間にバイアス(bias)がある場合が存在する可能性がある。よって、分類モデルの、訓練データ集合に対してのパフォーマンスが比較的良いが、ターゲットデータ集合に対してのパフォーマンス又はロバストネスが良くない問題が存在する恐れがある。このようなモデルをリアルシナリオのターゲットデータ集合に適用するときに、その処理パフォーマンスが大幅に低下する可能性がある。それ相応に、予め、分類モデルのターゲットデータ集合に対してのパフォーマンス又はロバストネスを把握し得ることが望ましい。
【0004】
しかしながら、ターゲットデータ集合におけるサンプルのラベルが未知であるため、分類モデルのターゲットデータ集合に対してのロバストネスを直接計算することができない。よって、分類モデルのターゲットデータ集合に対してのロバストネスを推定し得る方法が望まれている。
【発明の概要】
【発明が解決しようとする課題】
【0005】
予め、分類モデルのターゲットデータ集合に対してのロバストネスを把握する必要があることに鑑み、本発明の目的の1つは、ターゲットデータ集合におけるターゲットサンプルのラベルを知らない場合、分類モデルのターゲットデータ集合に対してのロバストネスを推定することができるロバストネス推定方法を提供することにある。
【課題を解決するための手段】
【0006】
本発明の1つの側面によれば、ロバストネス推定方法が提供され、それは、訓練データ集合に基づいて訓練より予め得られた分類モデルのロバストネスを推定するために用いられ、該ロバストネス推定方法は、
訓練データ集合における各訓練サンプルについて、ターゲットデータ集合における、該訓練サンプルとのサンプル類似度が所定の閾値の範囲内にある(即ち、所定の閾値の要求を満たす)ターゲットサンプルを確定し、そして、分類モデルの該訓練サンプルに対しての分類結果と、分類モデルの、確定されたターゲットサンプルに対しての分類結果との間の分類類似度を計算し;及び
訓練データ集合における各訓練サンプルの分類結果と、ターゲットデータ集合における、対応するターゲットサンプルの分類結果との間の分類類似度に基づいて、分類モデルのターゲットデータ集合に対しての分類ロバストネスを確定することを含む。
【0007】
本発明のもう1つの側面によれば、データ処理方法がさらに提供され、該方法は、
ターゲットサンプルを分類モデルに入力し;及び
分類モデルを用いて、ターゲットサンプルに対して分類を行うことを含み、
そのうち、該分類モデルは、訓練データ集合を用いて予め訓練を行うことにより得られたものであり、かつ、本発明の前述の側面におけるロバストネス推定方法により推定された該分類モデルの、ターゲットサンプルの属するターゲットデータ集合に対しての分類ロバストネスは、所定のロバストネス閾値を超えている。
【0008】
本発明のまたもう1つの側面によれば、処理器を含む情報処理装置が提供され、前記処理器は、次のように構成され、即ち、
訓練データ集合における各訓練サンプルについて、ターゲットデータ集合における、該訓練サンプルとのサンプル類似度が所定の閾値の範囲内にあるターゲットサンプルを確定し、そして、分類モデルの該訓練サンプルに対しての分類結果と、分類モデルの、確定されたターゲットサンプルに対しての分類結果との間の分類類似度を計算し、そのうち、該分類モデルは、訓練データ集合に基づいて訓練より予め得られたものであり;及び
訓練データ集合における各訓練サンプルの分類結果と、ターゲットデータ集合における、対応するターゲットサンプルの分類結果との間の分類類似度に基づいて、分類モデルのターゲットデータ集合に対しての分類ロバストネスを確定する。
【0009】
本発明の他の側面によれば、コンピュータに、上述のようなロバストネス推定方法を実行させるプログラムがさらに提供される。
【0010】
本発明の他の側面によれば、対応する記憶媒体がさらに提供され、その中には、マシン(例えば、コンピュータ)可読指令コードが記憶されており、前記指令コードは、マシンにより読み取られ実行されるときに、マシンに、上述のようなロバストネス推定方法を実行させることができる。
【0011】
上述の本発明の各側面によれば、少なくとも次のような効果のうちの1つ又は複数を得ることができ、即ち、ターゲットデータ集合におけるターゲットサンプルのラベルを知らない場合、分類モデルの、訓練データ集合における訓練サンプル及びターゲットデータ集合におけるその対応する(又は、類似する)ターゲットサンプルに対しての分類結果の間の分類類似度に基づいて、分類モデルのターゲットデータ集合に対してのロバストネスを推定することができる。また、本発明によるロバストネス推定方法を用いることで、予め訓練された複数の候補分類モデルのうちから、ターゲットデータ集合に対して良好なロバストネスを有する分類モデルを選択することができ、また、このような分類モデルを後続のデータ処理に適用することで、後続処理のパフォーマンスを向上させることができる。
【図面の簡単な説明】
【0012】
図1】本発明の1つの実施例におけるロバストネス推定方法の例示的なフローのフローチャートである。
図2図1に示すロバストネス推定方法における分類類似度計算用のステップS101で実行される例示的な処理の説明図である。
図3】本発明のもう1つの実施例におけるロバストネス推定方法の例示的なフローのフローチャートである。
図4】本発明のまたもう1つの実施例におけるロバストネス推定方法の例示的なフローのフローチャートである。
図5図4に示すロバストネス推定方法における基準ロバストネス確定用のステップS400で実行される例示的な処理のフローチャートである。
図6】本発明の実施例におけるロバストネス推定方法の正確性を例示するテーブルである。
図7】本発明の実施例におけるロバストネス推定装置の1つの例示的な構成を示すブロック図である。
図8】本発明の実施例におけるロバストネス推定装置のもう1つの例示的な構成を示すブロック図である。
図9】本発明の実施例におけるロバストネス推定装置のまたもう1つの例示的な構成を示すブロック図である。
図10】本発明の実施例におけるロバストネス推定方法により良好なロバストネスを有する分類モデルを確定してデータ処理を行う例示的なフローのフローチャートである。
図11】本発明の実施例におけるロバストネス推定方法及び装置並びに情報処理装置を実現し得る例示的なハードウェア構成を示す図である。
【発明を実施するための形態】
【0013】
以下、添付した図面を参照しながら、本発明を実施するための好適な形態を詳細に説明する。なお、このような実施形態は、例示に過ぎず、本発明を限定するものでない。
【0014】
本発明の1つの側面では、ロバストネス推定方法が提供される。図1は、本発明の実施例におけるロバストネス推定方法100の例示的なフローのフローチャートであり、該方法は、訓練データ集合に基づいて訓練より予め得られた分類モデルのロバストネスを推定するために用いられる。
【0015】
図1に示すように、ロバストネス推定方法100は、以下のステップを含んでも良い。
【0016】
ステップS101:訓練データ集合における各訓練サンプルについて、ターゲットデータ集合における、該訓練サンプルとのサンプル類似度が所定の閾値の範囲内にあるターゲットサンプル(即ち、該訓練サンプルとのサンプル類似度が所定の閾値の要求を満たすターゲットサンプルであり、本文では、このようなターゲットサンプルが該訓練サンプルの対応する又は類似するターゲットサンプルとも称される)を確定し、そして、分類モデルの該訓練サンプルに対しての分類結果と、分類モデルの、確定されたターゲットサンプルに対しての分類結果との間の分類類似度を計算し;及び
ステップS103:訓練データ集合における各訓練サンプルの分類結果と、ターゲットデータ集合における、対応するターゲットサンプルの分類結果との間の分類類似度に基づいて、分類モデルのターゲットデータ集合に対しての分類ロバストネスを確定する。
【0017】
本実施例のロバストネス推定方法を用いることで、ターゲットデータ集合におけるターゲットサンプルのラベルを知らない場合、分類モデルの、訓練サンプル及び対応する(又は、類似する)ターゲットサンプルに対しての分類結果の間の分類類似度に基づいて、分類モデルのターゲットデータ集合に対してのロバストネスを推定することができる。例えば、分類モデルの訓練サンプルに対しての分類結果と、分類モデルのその対応する(又は、類似する)ターゲットサンプルに対しての分類結果とが互いに類似し又は一致した場合、分類モデルはターゲットデータ集合に対してロバストであると認めることができる。
【0018】
一例として、分類モデルの訓練データ集合及びターゲットデータ集合はともに、画像データサンプル、時系列データサンプルなどを含んでも良い。
【0019】
例えば、本発明の実施例におけるロバストネス推定方法に係る分類モデルは、各種の画像データのための分類モデルであっても良く、例えば、セマンティック・セグメンテーション、手書き文字認識、交通標識認識などの各種の画像分類応用のための分類モデルなどを含む。このような分類モデルは、画像データの分類に適した各種の形式、例えば、畳み込みニューラルネットワーク(CNN)に基づくモデルなどを採用しても良い。また、分類モデルは、各種の時系列データのための分類モデル、例えば、前のある期間の気象データに基づいて気象予測のための分類モデルなどである。このような分類モデルは、時系列データの分類に適した各種の形式、例えば、再帰型ニューラルネットワーク(RNN)に基づくモデルなどを採用しても良い。
【0020】
なお、当業者が理解すべきは、本発明の実施例によるロバストネス推定方法における分類モデルの応用シナリオ並びに該分類モデル及びその処理するデータの具体的な類型又は形式は、限定されず、該分類モデルが訓練データ集合に基づいて訓練により予め得られたものであり、かつターゲットデータ集合に用いることができれば良いということである。
【0021】
また、説明の便宜のため、以下、主に分類モデルCの具体例を基に本発明の実施例における具体的な処理を説明する。この例では、訓練(画像)サンプルxにより構成される訓練データ集合DSを用いて、訓練により、予め、画像サンプルを予め設定されたN個のクラスのうちの1つに分類する分類モデルCを取得し(Nは、1よりも自然数である)、該分類モデルCは、ターゲット(画像)サンプルyにより構成されるターゲットデータ集合DTに応用され、また、分類モデルCは、畳み込みニューラルネットワーク(CNN)に基づくモデルである。なお、当業者は、この例を基に説明された本発明の実施例に基づいて、本発明の実施例を他のデータ及び/又はモデルに適切に応用することもできるが、ここでは、その詳しい説明を省略する。
【0022】
以下、上述の分類モデルCの例を基に、図1を参照しながら本実施例におけるロバストネス推定方法100の例示的なフローの各ステップで実行される例示的な処理を説明する。まず、上述の分類モデルCの例に基づいて分類類似度計算用のステップS101における例示的な処理を説明する。
【0023】
ステップS101において、まず、訓練データ集合DS中の各訓練サンプルxについて、ターゲットデータ集合DT中の各ターゲットサンプルyと該訓練サンプルxとのサンプル類似度を計算する必要があり、これにより、該訓練サンプルxのために、サンプル類似度が所定の閾値の要求を満たす、対応する又は類似するターゲットサンプルを確定することができる。
【0024】
1つの好ましい実施例において、それぞれ、訓練サンプル及びターゲットサンプルから抽出された特徴間の類似度を用いて、これらのサンプル間のサンプル類似度を表すことができる。
【0025】
例えば、分類モデルCを用いて、訓練サンプルxから抽出した特徴f(x)と、ターゲットサンプルyから抽出した特徴f(y)との間の特徴類似度を、サンプルxとyとの間のサンプル類似度として計算することができる。ここで、f()は、分類モデルCを用いて入力サンプルから特徴を抽出する関数を表す。分類モデルCが画像処理用のCNNモデルであるこの例では、f()は、CNNモデルのSoftmax活性化関数の直前の全結合層の出力を、入力されるサンプルから抽出されるベクトル形式の特徴として抽出することを表しても良い。なお、当業者が理解すべきは、異なる応用及び/又はデータについて、CNNモデルの異なる層の出力を適切な特徴として抽出しても良く、本発明はこれについて限定しないということである。
【0026】
例えば、上述の方式で訓練サンプルx及びターゲットサンプルyから抽出した特徴f(x)及びf(y)について、両者の間のL1ノルム距離、ユークリッド距離、コサイン距離などを、これらの特徴間の特徴類似度を表すために計算することで、対応するサンプル類似度を表すことができる。なお、本文では、当業者が理解し得るように、“類似度を計算/確定する”という記述は、“類似度を表す指標を計算/確定する”ことを含み、また、以下、類似度を表す指標(例えば、L1ノルム距離)を計算する方式で類似度を確定する場合があり、これについて特に説明しない。
【0027】
一例として、以下の公式(1)により、訓練サンプルxの特徴f(x)と、ターゲットサンプルyの特徴f(y)との間のL1ノルム距離D(x,y)を計算することができる。
【0028】
D(x,y)=||f(x)-f(y)|| (1)
上述の公式(1)におけるL1ノルム距離D(x,y)の計算結果は、0~1の間にあり、かつD(x,y)の値が小さいほど、対応する特徴f(x)とf(y)との間の特徴類似度が大きく、即ち、対応するサンプルxとyとの間のサンプル類似度が大きい。
【0029】
ターゲットデータ集合DT中の各ターゲットサンプルyと所定の訓練サンプルxとの間の特徴間のL1ノルム距離D(x,y)を計算してサンプル類似度を表した後に、サンプル類似度が所定の閾値の範囲内にある(即ち、L1ノルム距離D(x,y)が所定の距離閾値よりも小さい)ターゲットサンプルyを確定することができる。例えば、以下の公式(2)を満足するターゲットサンプルyを確定することができ、これらのターゲットサンプルyと訓練サンプルxとの特徴間のL1ノルム距離D(x,y)が所定の距離閾値δよりも小さく、かつ該訓練サンプルxの“対応する”又は“相似する”ターゲットサンプルとされ得る。
【0030】
D(x,y)≦δ (2)
処理の負荷、応用のニーズなどの各種の設計ファクターに応じて上述の距離閾値δを適切に確定しても良い。
【0031】
例を挙げて言えば、訓練データ集合DSに含まれるN個のクラスの訓練サンプルの平均クラス内距離(訓練サンプルの平均クラス内類似度を表す)に基づいて、対応する距離閾値を確定することができる。具体的には、訓練データ集合DSにおける各対(ペア)の同類スサンプル間のL1ノルム距離δpを確定することができ、そのうち、p=1,2,…,Pであり、Pは、訓練データ集合DSにおける各クラスの同類スサンプル対の総数を示す。その後、すべてのクラスの同類スサンプル対のL1ノルム距離δpに基づいて、訓練データ集合DS全体の平均クラス内距離を以下のように計算することができる。
【数1】
【0032】
上述の方式で計算されたδは、類似度閾値を表す距離閾値とすることができる。
【0033】
図2を参照することで上述の公式(2)の意味をより良く理解することができる。図2は、図1に示すロバストネス推定方法100における分類類似度計算用のステップS101で実行される例示的な処理を説明するための説明図であり、それは、上述の公式(2)を満たす特徴空間内の訓練サンプル及びターゲットサンプルを示している。図2では、各符号「×」が、特徴空間内の1つの訓練サンプルを示し、各符号「・」が、特徴空間内の1つのターゲットサンプルを示し、各々の符号「×」を円心とし、かつ半径がδである中空円が、該訓練サンプルの特徴空間における隣接領域を示し、該中空円内にある符号「・」が、該訓練サンプルとのサンプル類似度が所定の閾値の要求を満たす(本例では、特徴間のL1ノルム距離D(x,y)が距離閾値δ内にある)ターゲットサンプルを表す。
【0034】
上述の方式により、各訓練サンプルについて、ターゲットデータ集合中の対応する又は類似するターゲットサンプルを確定することができ、これにより、後続の、各訓練サンプルと、その対応する又は類似するターゲットサンプルとの分類結果の間の分類類似度に基づく、分類モデルのターゲットデータ集合に対しての分類ロバストネスの推定に便利である。
【0035】
以上、訓練データ集合における各訓練サンプルについて、統一的な距離閾値(統一的な類似度閾値に対応する)を使用してターゲットデータ集合中の対応するターゲットサンプルを確定する場合を説明した。
【0036】
1つの好ましい実施例において、訓練サンプルとのサンプル類似度が所定の閾値の範囲内にある(又は、所定の閾値の要求を満たす)ターゲットサンプルを確定する過程では、各訓練サンプルの属するクラスと関連付けられる類似度閾値を、対応する所定の閾値として使用しても良い。例えば、1つの訓練サンプルの属するクラスと関連付けられる類似度閾値は、訓練データ集合における、該クラスに属する各訓練サンプル間の平均サンプル類似度を含んでも良い。
【0037】
このような場合、本例では、訓練データ集合DSにおける第i個目のクラス(i=1,2,… 、N)の訓練サンプルについて、該クラスのすべての訓練サンプルのクラス内平均距離δi(即ち、第i個目のクラスの訓練サンプルのうちの各対(ペア)の訓練サンプルの特徴間のL1ノルム距離の平均値であり、i=1,2,…,Nである)を該クラスの距離閾値δiとして使用し、そして、公式(2)の代わりに、以下の公式(2’)を満足するターゲットデータ集合DTにおけるターゲットサンプルyを、第i個目のクラスにおける所定の訓練サンプルxの対応するターゲットサンプルとして確定しても良い。
【0038】
D(x,y)≦δi (2’)
発明者が次のようなことを発見した。即ち、各クラスの訓練サンプルのクラス内平均距離δiが互いに異なる可能性があり、かつ該クラスの訓練サンプルが特徴空間において比較的にコンパクト(密)である場合にその値が比較的に小さいが、該クラスの訓練サンプルが特徴空間において比較的に疎である場合にその値が比較的に大きい。よって、各クラスの訓練サンプルのクラス内平均距離を該クラスの距離閾値とすることは、特徴空間において該クラスの訓練サンプルの適切な隣接領域を確定することに有利であり、これにより、各クラスの訓練サンプルについて、ターゲットデータ集合における類似する又は対応するターゲットサンプルをより正確に確定することができる。
【0039】
例えば、上述の公式(1)及び(2)又は(2’)のような方式で各訓練サンプルx及びその対応するターゲットサンプルyを確定した後に、ステップS101では、例えば、下述の公式(3)により、継続して、分類モデルCの、該訓練サンプルxに対しての分類結果c(x)と、確定された各ターゲットサンプルyに対しての分類結果c(y)との間の分類類似度S(x,y)を計算することができる。
【0040】
S(x,y)=1-||c(x)-c(y)|| (3)
そのうち、c(x)及びc(y)は、それぞれ、分類モデルCの訓練サンプルx及びターゲットサンプルyに対しての分類結果を示す。該分類結果は、分類モデルCが出力するN個のクラスに対応するN次元のベクトルの形式を採用しても良く、そのうち、分類モデルCが入力サンプルに対して分類するクラスに対応する次元のみの値が1であり、残りの次元の値がすべて0である。||c(x)-c(y)||は、このような分類結果c(x)とc(y)との間のL1ノルム距離を表し、その値は、0又は1である。分類結果がc(x)=c(y)を満足する場合、分類類似度S(x,y)は1であり、そうでない場合、S(x,y)は0である。なお、ここでの公式(3)は、1つの例示的な計算方法に過ぎず、当業者は、類似度を計算する他の方法で分類結果間の類似度を計算しても良い。例えば、他の方法を採用して分類類似度を計算する場合、分類類似度S(x,y)の値の範囲を0~1に設定し、かつ分類結果がc(x)=c(y)を満たすときにS(x,y)=1であり、そうでないときにS(x,y)が1よりも小さいと設定しても良いが、ここでは、その詳しい説明を省略する。
【0041】
ステップS101において例えば公式(3)のような形式の各訓練サンプルxの分類結果と、対応する各ターゲットサンプルyの分類結果との間の分類類似度を得た後に、図1における例示的な処理は、ステップS103に進むことができる。
【0042】
ステップS103では、訓練データ集合DSにおける各訓練サンプルxの分類結果c(x)と、ターゲットデータ集合DTにおける、対応するターゲットサンプルyの分類結果c(y)との間の分類類似度S(x,y)=1-||c(x)-c(y)||に基づいて、例えば、以下の公式(4)により、分類モデルCのターゲットデータ集合DTに対しての分類ロバストネスR1(C,T)を確定することができる。
【数2】
【0043】
上述の公式(4)は、訓練データ集合DSにおける訓練サンプルx及びターゲットデータ集合DTにおけるターゲットサンプルyが条件||f(x)-f(y)||≦δを満足する場合、その分類類似度1-||c(x)-c(y)||を計算し(即ち、ステップS101で各訓練サンプルx及びその“類似する”又は“対応する”ターゲットサンプルyのみについて分類類似度を計算する)、そして、得られたすべての分類類似度の期待値を計算する(即ち、すべての分類類似度の平均値を計算する)ことで、分類モデルCのターゲットデータ集合DTに対しての分類ロバストネスを計算することを表す。
【0044】
上述の公式(4)などのような形式を用いることで、訓練データ集合における各訓練サンプルについて、特徴空間における隣接領域(即ち、該サンプルを中心とし、且つ距離閾値δを半径とする隣接領域)内で、該訓練サンプル及びその対応する(又は、類似する)ターゲットサンプルの分類が一致した比(割合)を統計することができる。分類モデルの訓練サンプルに対しての分類結果と、分類モデルのその対応する(又は、類似する)ターゲットサンプルに対しての分類結果とが一致した比が高いほど、分類モデルのターゲットデータ集合に対してのロバストネスが高い。
【0045】
代替として、ステップS101において、公式(2)の代わりに公式(2’)のような形式の距離閾値を用いて、訓練サンプルxについて、ターゲットデータ集合DTにおける、対応するターゲットサンプルyを確定する場合、上述の公式(4)は、以下の公式(4’)ようになる。
【数3】
【0046】
公式(4’)におけるNは、分類モデルが分類するクラスの個数を表し、Ciは、訓練データ集合における第i個目のクラスの訓練サンプルの集合を表し、δiは、第i個目のクラスの距離閾値を表し、それは、第i個目のクラスの訓練サンプルの特徴間のクラス内平均距離として設定される。公式(4)に比べ、公式(4’)は、各クラスと関連付けられる距離閾値δiを使用しており、これにより、各クラスの訓練サンプルについて、対応するターゲットサンプルをより正確に確定することができるため、分類モデルのターゲットデータ集合に対してのロバストネスをより正確に推定することができる。
【0047】
以上、図1及び図2を基に本発明の1つの実施例におけるロバストネス推定方法の例示的なフローを説明した。なお、ここで、図1及び図2を参照して公式(1)乃至公式(4’)に基づいてロバストネスを確定する具体的な方法を述べたが、当業者は、本実施例を基に任意の適切な方法で上述のような確定を行っても良く、言い換えれば、分類モデルの訓練サンプル及びその対応する(又は、類似する)ターゲットサンプルに対しての分類結果の間の分類類似度に基づいて、分類モデルのターゲットデータ集合に対してのロバストネスを推定することができれば良い。本実施例におけるロバストネス推定方法を用いることで、ターゲットデータのラベルを知らない場合に、予め、分類モデルのターゲットデータ集合に対してのロバストネスを推定することができる。また、該ロバストネス推定方法は、分類モデルのクラス数Nに対応する計算量のみを要し、即ち、O(NlogN))の比較的小さい時間複雑度を有するので、特に大きいデータ集合に対しての分類モデルのロバストネスの推定に適用することができる。
【0048】
続いて、上述の図1及び図2を参照して説明した実施例を基に、図3乃至図5に基づいて本発明の他の実施例におけるロバストネス推定方法の例示的なフローを説明する。
【0049】
まず、図3を参照する。それは、本発明のもう1つの実施例におけるロバストネス推定方法の例示的なフローである。
【0050】
図3に示すように、本実施例におけるロバストネス推定方法300と、図1に示すロバストネス推定方法100との相違点は、次のようである。即ち、図1におけるステップS101及びS103がそれぞれ対応するステップS301、S303の他に、図3には、さらにステップS302が含まれる。ステップS302は、分類モデルに基づいて、各訓練サンプルの分類結果及び各訓練サンプルの真のクラスについて、分類モデルの各訓練サンプルに対して分類信頼度を確定するために用いられる。また、図3に示す方法300におけるステップ303では、訓練データ集合における各訓練サンプルの分類結果と、ターゲットデータ集合における、対応するターゲットサンプルの分類結果との間の分類類似度の他に、さらに分類モデルの各訓練画像サンプルに対しての分類信頼度に基づいて、分類モデルのターゲットデータ集合に対しての分類ロバストネスを確定する。
【0051】
上述の相違点以外に、本実施例におけるロバストネス推定方法300におけるステップS301は、図1におけるロバストネス推定方法100の対応するステップS101とほぼ同じであり、又は、類似している。よって、以下、図1及び図2を参照して説明した実施例を基に、継続して、分類モデルC並びに訓練データ集合DS及びターゲットデータ集合DTの例を参照して主に両実施例の異なる点について説明するが、同じ部分の説明を省略する。
【0052】
具体的には、図3に示す例示的な方法300では、図1におけるステップS101と類似したステップS301により、公式(3)のような形式の、分類モデルCの、各訓練サンプルxに対しての分類結果c(x)と、対応するターゲットサンプルyに対しての分類結果c(y)との間の分類類似度S(x,y)を計算する以外に、さらにステップS302において、分類モデルCの各訓練サンプルxに対しての分類結果c(x)、及び、訓練サンプルxの真のクラス(即ち、リアルラベル)label(x)に基づいて、例えば、以下の公式(5)により、分類モデルCの訓練サンプルxに対しての分類信頼度Con(x)を計算する。
【0053】
Con(x)=1-||label(x)-c(x)|| (5)
ここで、label(x)は、分類結果c(x)と同様にN次元のベクトルの形式を採用する、訓練サンプルxの真のクラスを表し、Con(x)は、訓練サンプルxの真のクラスlabel(x)と分類結果c(x)との間のL1ノルム距離||label(x)-c(x)||に基づいて計算された訓練サンプルxの分類信頼度を表す。Con(x)の値が0~1の間にあり、かつ分類モデルCの訓練サンプルxに対しての分類結果c(x)と、その真のクラスlabel(x)とが一致したときのみに、Con(x)は1であり、そうでないときに、Con(x)は0である。
【0054】
ステップS302で例えば上述の公式(5)のような形式の分類信頼度Con(x)を得た後に、図3における例示的な方法300は、ステップ303に進むことができる。ステップS303では、訓練データ集合DSにおける各訓練サンプルxの分類結果c(x)と、ターゲットデータ集合DTにおける、対応するターゲットサンプルyの分類結果c(y)との間の分類類似度S(x,y)、及び、分類モデルCの各訓練サンプルxに対しての分類信頼度Con(x)に基づいて、分類モデルCのターゲットデータ集合DTに対しての分類ロバストネスR3(C,T)を以下のように確定する。
【数4】
【0055】
図1を参照して説明した実施例における公式(4)に比べ、本実施例における上述の公式(6)には、訓練サンプルxの分類信頼度Con(x)を示す項(1-||label(x)-c(x)||)が増加している。このような方式で、本実施例は、分類モデルの訓練データ集合に対しての分類の正確性をさらに考慮しており、また、ロバストネス推定過程において、誤って分類された訓練サンプル及びその対応するターゲットサンプルの影響を低減することで、ロバストネスの推定をより正確にすることができる。
【0056】
なお、ここで図3を参照して公式(5)、(6)などのように訓練サンプルの分類信頼度をさらに考慮して分類ロバストネスを確定する具体的な方法を説明したが、当業者は、本実施例を基に、任意の適切な方法を採用して上述のロバストネス推定を行っても良く、言い換えると、訓練サンプルの分類信頼度に基づいて、誤って分類された訓練サンプル及びその対応するターゲットサンプルの影響を低減することができれば良いが、ここでは、その詳しい説明を省略する。本実施例におけるロバストネス推定方法により、分類ロバストネスの確定過程において訓練サンプルの分類信頼度をさらに考慮することにより、ロバストネス推定の正確性をより一層向上させることができる。
【0057】
続いて、図4を参照する。それは、本発明のもう1つの実施例におけるロバストネス推定方法の例示的なフローを示す図である。
【0058】
図4に示すように、本実施例におけるロバストネス推定方法400と図1のロバストネス推定方法100との相違点は、次のようである。即ち、図1におけるステップS101及びS103がそれぞれ対応するステップS401、S403の他に、図4には、さらにテップS400及びS405が含まれる。ステップS400では、分類モデルの訓練データ集合に対しての基準ロバストネスを確定し、また、ステップS405では、分類モデルのターゲットデータ集合に対しての分類ロバストネス及び分類モデルの訓練データ集合に対しての基準ロバストネスに基づいて、分類モデルのターゲットデータ集合に対しての相対ロバストネスを確定する。
【0059】
上述の相違点以外に、本実施例におけるロバストネス推定方法400におけるS401及びS403は、図1に示すロバストネス推定方法100の対応するステップS101及びS103とほぼ同じであり、又は、類似している。よって、以下、図1及び図2を参照して説明した実施例を基に、継続して、画像分類モデルC並びに訓練データ集合DS及びターゲットデータ集合DTの例を参照して主に両実施例の異なる点について説明するが、同じ部分の説明を省略する。
【0060】
図4における例示的な方法400では、まず、ステップS400において訓練データ集合の基準ロバストネスを計算する。訓練データ集合DSを訓練サブ集合DS1(第一サブ集合)及びターゲットサブ集合DS2(第二サブ集合)にランダムに分割し、そして、図1乃至図3を参照して説明した各ロバストネス推定方法のうちの任意の1つの方法を該訓練サブ集合及びターゲットサブ集合に適用することにより、訓練データ集合の基準ロバストネスを得得ることができる。
【0061】
図5は、上述のステップS400の1つの具体例を示している。図5に示すように、該例示的な処理は、以下のステップを含んでも良い。
【0062】
ステップS4001:訓練データ集合をランダムに分割することで、サンプル数が等しい第一サブ集合及び第二サブ集合を取得し;
ステップS4003:第一サブ集合における各訓練サンプルについて、第二サブ集合における、該訓練サンプルとの類似度が所定の閾値の範囲内にある訓練サンプルを確定し、そして、分類モデルの第一サブ集合中の該訓練サンプルに対しての分類結果と、分類モデルの確定された第二サブ集合中の訓練サンプルに対しての分類結果との間のサンプル類似度を計算し;
ステップS4005:第一サブ集合中の各訓練サンプルの分類結果と、第二サブ集合中の対応する訓練サンプルの分類結果との間の分類類似度に基づいて、分類モデルの訓練データ集合に対しての基準ロバストネスを確定する。
【0063】
具体的には、まず、ステップS4001において、訓練データ集合DSをランダムに分けることで、サンプル数が等しい第一サブ集合DS1及び第二サブ集合DS2を取得する。
【0064】
続いて、ステップS4003では、第一サブ集合DS1中の各訓練サンプルx1について、第二サブ集合DS2中の該訓練サンプルx1との類似度が所定の閾値の範囲内にある訓練サンプルx2を確定する。例えば、上述の公式(2)のような形式のL1ノルム距離D(x1,x2)=||f(x1)-f(x2)||を計算してサンプルx1とx2との間のサンプル類似度を表し、そして、第二サブ集合DS2の中で該L1ノルム距離が距離閾値δの範囲内にある、即ち、D(x1,x2)≦δを満足する訓練サンプルx2を、対応する訓練サンプルとして確定する。
【0065】
次に、公式(3)を使用して、分類モデルCの、第一サブ集合DS1中の訓練サンプルx1にたいしての分類結果c(x1)と、第二サブ集合DS2中の対応する訓練サンプルx2に対しての分類結果c(x2)との間の分類類似度S(x1,x2)=1-||c(x1)-c(x2)||を計算することができる。
【0066】
その後、ステップS4005では、第一サブ集合DS1中の各訓練サンプルx1の分類結果c(x1)と、第二サブ集合DS2中の対応する訓練サンプルx2の分類結果c(x2)との間の分類類似度S(x1,x2)に基づいて、例えば、公式(4)を用いて、分類モデルCの訓練データ集合Sに対しての基準ロバストネスR0(C,S)を以下のように確定する。
【数5】
【0067】
なお、ここで公式(4)を採用して分類モデルCの訓練データ集合Sに対しての基準ロバストネスを確定したが、本発明により提供される任意の適切な分類ロバストネス確定方式(例えば、公式(4’)又は公式(6)による方式)を使用して基準ロバストネスを確定しても良く、言い換えると、該基準ロバストネスの確定方式が、ステップS403でのターゲットデータ集合の分類ロバストネス(以下、絶対ロバストネスとも言う)についての確定方式と一致すれば良い。
【0068】
ここで再び図4を参照する。例えば、図5を参照して説明した方式で基準ロバストネスR0(C,S)を得た後に、かつ図1におけるステップS101及びS103と類似したステップS401及びS403で例えば公式(4)のような形式の、分類モデルのターゲットデータ集合に対しての絶対ロバストネスR1(C,S)を取得した後に、方法400は、ステップS405に進むことができる。
【0069】
ステップS405では、公式(4)のような形式の絶対ロバストネスR1(C,S)及び公式(7)のような形式の基準ロバストネスR0(C,S)に基づいて、以下のような相対ロバストネスを計算することができる。
【数6】
【0070】
即ち、
【数7】
を計算することができる。
【0071】
訓練データ集合の基準ロバストネスを計算し、そして、基準ロバストネス及び絶対ロバストネスに基づいて相対ロバストネスを計算することで、分類ロバストネスに対しての修正の効果を達成し、これにより、分類モデル自身のバイアスによる分類ロバストネスの推定への影響を避けることができる。
【0072】
なお、ここで図4及び図5を参照して公式(7)、(8)などのように相対ロバストネスを確定する具体的な方法を説明したが、当業者は、本実施例を基に、任意の適切な方式を採用して相対ロバストネスの計算を行っても良く、言い換えれば、訓練データ集合の基準ロバストネスに基づいてターゲットデータ集合の絶対ロバストネスに対して修正を行うことができれば良いが、ここでは、その詳しい説明を省略する。本実施例におけるロバストネス推定方法によれば、分類ロバストネスの修正により、分類モデル本身の訓練過程におけるバイアスを修正することで、ロバストネス推定の正確性をより一層向上させることができる。
【0073】
また、上述の図1乃至図5を参照して説明した、本発明の各実施例におけるロバストネス推定方法を組み合わせることで、異なる応用シナリオにおいて異なるロバストネス推定方法を採用することもできる。例えば、本発明の各実施例におけるロバストネス推定方法は、次のような3つの面において組み合わせることができ、即ち、訓練サンプルの対応するターゲットサンプルを確定するときに、訓練サンプルの各クラスについて、同じ類似度閾値又は異なる類似度閾値を使用し(公式(2)又は(2’)のような方式で対応するターゲットサンプルを確定し、また、公式(4)又は(4’)のような方式でロバストネスを計算する);ターゲットデータ集合に対しての分類ロバストネスを計算するときに、訓練サンプルの分類信頼度を考慮し又は考慮しない(公式(4)又は(6)のような方式でロバストネスを計算する);及び、ターゲットデータ集合に対しての分類ロバストネスを計算するときに、相対ロバストネス又は絶対ロバストネスを計算する(公式(4)又は(7)のような方式でロバストネスを計算する)。このようにして、8種の異なるロバストネス推定方法を得ることができ、また、異なる応用シナリオにおいて最適な方法を採用することができる。
【0074】
続いて、ロバストネス推定方法の正確性を評価する方式、及び、該評価方式で評価した、本発明の実施例により得られた各種のロバストネス推定方法の正確性について説明する。
【0075】
一例として、ロバストネスの真値、及び、所定のロバストネス推定方法に基づいて、複数の分類モデルを用いて推定された推定ロバストネスについて、該ロバストネス推定方法の平均推定誤差(Average Estimation Error,AEE)を計算することで、ロバストネス推定方法の正確性を評価することができる。
【0076】
具体的には、まず、分類の正確性を分類モデルのパフォーマンスの例示的な指標とし、以下の公式(9)のような形式のロバストネスの真値Gを定義する。
【数8】
【0077】
公式(9)は、所定の分類モデルのターゲットデータ集合Tに対しての分類の正確性accTと、その訓練データ集合又は訓練データ集合に対応するテスト集合S(例えば、訓練データ集合と独立同分布であるテスト集合)に対しての分類の正確性accSとの比を表す。ここで、ターゲットデータ集合に対しての正確率accTが、テスト集合に対しての正確率accSよりも高い可能性があるので、公式(9)の分子の部分に両者間の最小値を採用することで、後続の計算をしやすくするようにロバストネスの真値Gの値を0~1の間に制限することができる。例えば、分類モデルのテスト集合に対しての正確率accSが0.95であり、ターゲットデータ集合に対しての正確率accTが0.80に下がった場合、そのターゲットデータ集合に対してのロバストネスの真値Gは、0.84である。ロバストネスの真値Gの値が高いほど、分類モデルのターゲットデータ集合に対しての正確率がそのテスト集合に対しての正確率に近い。
【0078】
複数のモデルについて計算した上述の公式(9)のような形式のロバストネス真値、及び、所定のロバストネス推定方法により得られた各モデルの推定ロバストネスに基づいて、該ロバストネス推定方法が有効であるかを確定することができる。例えば、以下の公式(10)のような形式の平均推定誤差AEEを評価指標とすることができる。
【数9】
【0079】
公式(10)では、Mは、所定のロバストネス推定方法を用いてロバストネスを推定する分類モデルの数(Mは、1よりも大きい自然数である)を示し、Rjは、該ロバストネス推定方法を用いて得られた第j個目の分類モデルの推定ロバストネスを示し、Gjは、公式(9)を用いて得られた第j個目の分類モデルのロバストネスの真値(j=1,2,…,M)を示す。上述の方式で平均推定誤差ACCを計算することにより、ロバストネス推定方法の推定結果の平均誤差率を反映することができ、かつ該値が小さいほど、該ロバストネス推定方法の正確性が高い。
【0080】
上述の公式(10)のような形式の平均推定誤差計算方法により、1つの応用例について、本発明の実施例に基づいて得られたロバストネス推定方法の正確性を評価することができる。図6は、本発明の実施例によるロバストネス推定方法の正確性を説明する例示的なテーブルであり、それは、特定の応用例について、公式(10)を用いて計算したロバストネス推定方法(1)~(8)の平均推定誤差(AEE)を示している。
【0081】
図6に示す応用例では、それぞれ、順番号が(1)~(8)である8つのロバストネス推定方法のうちの各々により、M個の分類モデルのうちの各分類モデルCjの分類ロバストネスを推定し(j=1,2,…,Mであり、ここで、M=10である)、また、各ロバストネス推定方法に基づいて、各分類モデルの推定ロバストネス及び各分類モデルのロバストネスの真値について、公式(10)により図6のテーブルの一番右の列に示すような各ロバストネス推定方法の平均推定誤差(AEE)を算出している。
【0082】
図6の応用例に係る各分類モデルCjは、画像サンプルを、予め設定されたNj個のクラス(Njは、1よりも大きい自然数である)のうちの1つに分類するためのCNNモデルであり、該分類モデルCjを訓練する訓練データ集合Dj Sは、MNIST手書き文字集合のサブ集合であり、該分類モデルCjを応用しようとするターゲットデータ集合Dj Tは、USPS手書き文字集合のサブ集合である。
【0083】
図6に示す応用例に採用されるロバストネス推定方法(1)~(8)は、直接、上述の図1乃至図5を参照して説明した、本発明の実施例におけるロバストネス推定方法を利用すること、又は、これらの方法のうちの複数のものの組み合わせを利用することで得られたものである。図6のテーブルの中間の3列に示すように、ロバストネス推定方法(1)~(8)は、次のような3つの方面において異なる設定を採用しており、即ち、訓練サンプルの対応するターゲットサンプルを確定するときに、訓練サンプルの各クラスについて、同じ類似度閾値又は異なる類似度閾値を設定し(公式(2)又は(2’)のような方式で対応するターゲットサンプルを確定し、また、公式(4)又は(4’)のような方式でロバストネスを計算する);ターゲットデータ集合に対しての分類ロバストネスを計算するときに、訓練サンプルの分類信頼度を考慮し又は考慮しない(公式(4)又は(6)のような方式でロバストネスを計算する);及び、ターゲットデータ集合に対しての分類ロバストネスを計算するときに、相対ロバストネス又は絶対ロバストネスを計算する(公式(4)又は(7)のような方式でロバストネスを計算する)。
【0084】
上述の3つの面においてそれぞれ異なる設定を採用するロバストネス推定方法(1)~(8)について、図6のテーブルの一番右の列には、公式(10)を用いて計算した平均推定誤差(AEE)を示している。図6のテーブルに示すAEEの計算結果から分かるように、本発明の実施例を用いて得た各種のロバストネス推定方法は、かなり低い推定誤差を取得することができる。また、図6のテーブルに示すように、異なる類似度閾値の設定や訓練サンプルの分類信頼度の考慮は、平均推定誤差をさらに減少させることに有利であり、そのうち、最小の平均推定誤差が僅か0.0461である。また、本実施例では、相対ロバストネスを採用するときの平均推定誤差が、絶対ロバストネスを採用するときの平均推定誤差に劣るが、異なる場合(例えば、分類モデル本身がバイアスを有する場合)、相対ロバストネスを採用する方式は、より高い正確性を有することができる。
【0085】
本発明のもう1つの側面では、ロバストネス推定装置がさらに提供される。以下、図7乃至図9に基づいて、本発明の実施例におけるロバストネス推定装置を説明する。
【0086】
図7は、本発明の実施例におけるロバストネス推定装置の1つの例示的な構成を示すブロック図である。
【0087】
図7に示すように、ロバストネス推定装置700は、以下のものを含んでも良い。
【0088】
分類類似度計算ユニット701:訓練データ集合における各訓練サンプルについて、ターゲットデータ集合における、該訓練サンプルとのサンプル類似度が所定の閾値の範囲内にあるターゲットサンプルを確定し、そして、分類モデルの該訓練サンプルに対しての分類結果と、分類モデルの、確定されたターゲットサンプルに対しての分類結果との間の分類類似度を計算し;及び
分類ロバストネス確定ユニット703:訓練データ集合における各訓練サンプルの分類結果と、ターゲットデータ集合における、対応するターゲットサンプルの分類結果との間の分類類似度に基づいて、分類モデルのターゲットデータ集合に対しての分類ロバストネスを確定する。
【0089】
上述のロバストネス推定装置及びその各ユニットについては、例えば、上述の図1及び図2を参照して説明したロバストネス推定方法及びその各ステップの操作及び/又は処理を参照することができるため、ここでは、重複説明が省略される。
【0090】
図8は、本発明の実施例におけるロバストネス推定装置のもう1つの例示的な構成を示すブロック図である。
【0091】
図8に示すように、本実施例におけるロバストネス推定装置800と、図7におけるロバストネス推定装置700との相違点は、次のようであり、即ち、図7における分類類似度計算ユニット701及び分類ロバストネス確定ユニット703がそれぞれ対応する分類類似度計算ユニット801及び分類ロバストネス確定ユニット803の他に、図8には、分類信頼度計算ユニット802がさらに含まれ、分類信頼度計算ユニット802は、分類モデルの各訓練サンプルに対しての分類結果及び各訓練サンプルの真のクラスに基づいて、分類モデルの各訓練サンプルに対して分類信頼度を確定するために用いられる。また、図8の例示的な装置800における分類ロバストネス確定ユニット803では、訓練データ集合における各訓練サンプルの分類結果と、ターゲットデータ集合における、対応するターゲットサンプルの分類結果との間の分類類似度の他に、さらに分類モデルの各訓練サンプルに対しての分類信頼度に基づいて、分類モデルのターゲットデータ集合に対しての分類ロバストネスを確定する。
【0092】
上述のロバストネス推定装置及びその各ユニットについては、例えば、上述の図3を参照して説明した、ロバストネス推定方法及びその各ステップの操作及び/又は処理を参照することができるから、ここでは、重複説明を省略する。
【0093】
図9は、本発明の実施例におけるロバストネス推定装置のまたもう1つの例示的な構成を示すブロック図である。
【0094】
図9に示すように、本実施例におけるロバストネス推定装置900と、図7におけるロバストネス推定装置700との相違点は、次のようであり、即ち、図7における分類類似度計算ユニット701及び分類ロバストネス確定ユニット703がそれぞれ対応する分類類似度計算ユニット901及び分類ロバストネス確定ユニット903の他に、図9には、基準ロバストネス確定ユニット9000及び相対ロバストネス確定ユニット905がさらに含まれ、そのうち、基準ロバストネス確定ユニット9000は、分類モデルの訓練データ集合に対しての基準ロバストネスを確定するために用いられ、相対ロバストネス確定ユニット905は、分類モデルのターゲットデータ集合に対しての分類ロバストネス及び分類モデルの訓練データ集合に対しての基準ロバストネスに基づいて、分類モデルのターゲットデータ集合に対しての相対ロバストネスを確定するために用いられる。
【0095】
上述のロバストネス推定装置及びその各ユニットについては、例えば、上述の図4及び図5を基に説明した、ロバストネス推定方法及びその各ステップの操作及び/又は処理を参照することができるので、ここでは、重複説明が省略される。
【0096】
本発明の他の側面では、本発明の実施例におけるロバストネス推定方法により選択された、良好なロバストネスを有する分類モデルを用いて、データ分類を行うデータ処理方法がさら提供される。図10は、本発明の実施例におけるロバストネス推定方法を用いて良好なロバストネスを有する分類モデルを確定してデータ処理を行う例示的なフローのフローチャートである。
【0097】
図10に示すように、該データ処理方法10は、以下のステップを含む。
【0098】
ステップS11:ターゲットサンプルを分類モデルに入力し;及び
ステップS13:分類モデルを用いて、ターゲットサンプルに対して分類を行う。
【0099】
ここで、分類モデルは、訓練データ集合を用いて、訓練により予め得られたものであり、また、上述の図1乃至図5を基に説明した、本発明の実施例における任意の1つのロバストネス推定方法(又は、その組み合わせ)を用いて推定した、該分類モデルの、ターゲットサンプルの属するターゲットデータ集合に対しての分類ロバストネスは、所定のロバストネス閾値を超えている。
【0100】
また、本発明の実施例におけるロバストネス推定方法を説明したときに述べたように、本発明の実施例におけるロバストネス推定方法は、画像データや時系列データを含む複数種のデータの分類モデルに適用することができ、また、これらの分類モデルは、CNNモデル、RNNモデルなどの各種の適切な形式を採用することができる。それ相応に、このようなロバストネス推定方法により選択された、良好なロバストネスを有する分類モデル(即ち、このようなロバストネス推定方法により推定された、ロバストネスが比較的高い分類モデル)を上述の各種のデータ処理の分野に応用することで、選択された分類モデルが、応用されるターゲットデータ集合に対して、良好な分類パフォーマンスを有するように確保することができ、これにより、後続のデータ処理のパフォーマンスを向上させることができる。
【0101】
画像データの分類を例とし、リアル世界の画像に対してのマーキング(ラベル付け)のコストが高いから、分類モデルを訓練する過程において、他の手段で予め取得した、ラベル付けられた画像(例えば、既存の訓練データサンプル)を訓練データ集合として利用することができる。しかしながら、このような予め取得したラベル付き画像がリアル世界の画像と完全に一致することができない可能性があるので、それを用いて訓練した分類モデルは、リアル世界のターゲットデータ集合に対しての表現(分類パフォーマンス)が大幅に低下する恐れがある。このような場合、本発明の実施例におけるロバストネス推定方法を使用することで、他の手段で予め得た訓練データ集合を用いて訓練した分類モデルの、リアル世界のターゲットデータ集合に対しての分類ロバストネスを推定することができ、これにより、実際のデプロイメント及び使用の前に、良好なロバストネスを有する分類モデルを選択することで、後続のデータ処理の効果を向上させることができる。
【0102】
以下、図10に示す方法が応用され得る複数の応用例について説明する。これらの応用例は、次のような類型の分類モデルを含み、即ち、セマンティック・セグメンテーションのための画像分類モデル、手書き文字認識のための画像分類モデル、交通標識認識のための画像分類モデル、及び気象予測のための時系列データの分類モデルである。
【0103】
<応用例1>
本発明の実施例におけるデータ処理方法の応用例1は、セマンティック・セグメンテーション(semantic segmentation)を含んでも良い。セマンティック・セグメンテーションとは、1つの所定の画像について、該画像中の異なる物体を示す異なる部分をセグメンテーションする(例えば、異なる色で異なる物体を標識する)ことを指し、その原理は、分類モデルを用いて画像中の各画素を事前定義の複数の対象クラスのうちの1つに分類するということである。
【0104】
セマンティック・セグメンテーションの応用では、リアル世界の画像に対してのラベル付けのコストが非常に高いから、セマンティック・セグメンテーションのための分類モデルを訓練する過程において、予めラベル付けられた、シミュレーション環境(例えば、3Dゲーム)におけるシーンの画像を訓練データ集合とすることができる。リアル世界の画像に比べ、シミュレーション環境では、プログラミングにより物体に対しての自動ラベル付けを実現しやすいので、ラベル付き訓練サンプルを容易に得ることができる。しかしながら、シミュレーション環境がリアル環境と完全に一致することができないので、シミュレーション環境における訓練サンプルを用いて訓練した分類モデルは、リアル環境のターゲットデータ集合に対しての表現(分類パフォーマンス)が大幅に低下する恐れがある。
【0105】
よって、本発明の実施例におけるロバストネス推定方法を用いることで、シミュレーション環境の訓練データ集合に基づいて訓練された分類モデルの、リアル環境のターゲットデータ集合に対しての分類ロバストネスを推定することができ、これにより、実際のデプロイメント及び使用の前に、良好なロバストネスを有する分類モデルを選択することで、後続のデータ処理の効果を向上させることができる。
【0106】
<応用例2>
本発明の実施例におけるデータ処理方法の応用例2は、例えば、交通標識などの画像の認識を含んでも良い。交通標識などの画像の認識は、所定の画像に含まれる交通標識を事前定義の複数の標識クラスのうちの1つに分類することにより実現することができ、それは、自動運転などの分野において重要な意義がある。
【0107】
セマンティック・セグメンテーションの応用例と同様に、交通標識認識のための分類モデルを訓練する過程において、予めラベル付けられた、シミュレーション環境(例えば、3Dゲーム)におけるシーンの画像を訓練データ集合として使用することができる。本発明の実施例におけるロバストネス推定方法を用いることで、シミュレーション環境の訓練データ集合に基づいて訓練された該分類モデルの、リアル環境のターゲットデータ集合に対しての分類ロバストネスを推定することができ、これにより、実際デプロイメント及び使用の前に、良好なロバストネスを有する分類モデルを選択することで、後続のデータ処理の効果を向上させることができる。
【0108】
<応用例3>
本発明の実施例におけるデータ処理方法の応用例3は、例えば、手書き文字(数字や漢字)の認識を含んでも良い。手書き文字の認識は、所定の画像に含まれる文字を事前定義の複数の文字クラスのうちの1つに分類することで実現することができる。
【0109】
撮影により得たリアル手書き文字画像に対してラベルを付けるコストが非常に高いので、手書き文字認識のための分類モデルを訓練する過程において、既存のラベル付き手書き文字集合、例えば、MNIST、USPS、SVHNなどを訓練データ集合として利用することができる。本発明の実施例におけるロバストネス推定方法を使用することで、このような訓練データ集合を基に訓練された該分類モデルの、リアル環境で撮影により得た手書き文字の画像(即ち、ターゲットデータ集合)に対しての分類ロバストネスを推定することができ、これにより、実際のデプロイメント及び使用の前に、良好なロバストネスを有する分類モデルを選択することで、後続のデータ処理の効果を向上させることができる。
【0110】
<応用例4>
画像分類に基づく応用シナリオ以外に、本発明の実施例におけるデータ処理方法の応用例はさらに、時系列データの分類を含んでも良く、例えば、気象予測のための時系列データの分類モデルの応用例4である。気象予測のための時系列データの分類モデルは、所定の期間の気象を表す時系列気象データに基づいて、該所定の期間後の気象指標を予測することができ、即ち、事前定義の複数の気象指標クラスのうちの1つを与えることができる。
【0111】
一例として、気象予測のための時系列データの分類モデルの入力データは、所定の期間(例えば、3日)内の、時間、PM2.5大気汚染指数、温度、気圧、風速、風向、累積降水量、及び累積積雪深を含む8次元情報の所定の時間長さ(例えば、2時間)の時系列データであっても良く、また、該分類モデルの出力は、事前定義の複数のPM2.5大気汚染指数範囲のうちの1つであっても良い。
【0112】
このような分類モデルについて言えば、例えば、訓練時にA地域の訓練データ集合を採用し、応用時にB地域の気象予測に適用される可能性がある。また、例えば、該分類モデルは、訓練時に春の訓練データ集合を採用し、応用時に秋の気象予測に適用される可能性がある。本発明の実施例におけるロバストネス推定方法を用いることで、所定の地域又は季節(又は、時間)の訓練データ集合に基づいて訓練された該分類モデルの、異なる地域又は季節(又は、時間)のターゲットデータ集合に対しての分類ロバストネスを推定することができ、これにより、実際のデプロイメント及び使用の前に、良好なロバストネスを有する分類モデルを選択することで、後続のデータ処理の効果を向上させることができる。
【0113】
以上、画像データの分類及び時系列データの分類の応用例を、本発明の実施例におけるロバストネス推定方法及び対応する分類モデルを用いてデータ処理を行うことができる応用シナリオとして説明した。当業者が理解すべきは、これらの応用例を基に、訓練データ集合とターゲットデータ集合とが独立同分布でないなどによる、分類モデルの、ターゲットデータ集合に対してのパフォーマンスが、訓練データ集合に対してのパフォーマンスとは異なる場合であれば、本発明の実施例におけるロバストネス推定方法を用いて、分類モデルのターゲットデータ集合に対してのロバストネスを推定し、そして、良好なロバストネスを有する分類モデルを選択することで、後続のデータ処理の効果を向上させることができるということである。
【0114】
本発明の他の側面によれば、情報処理装置が提供される。該情報処理装置は、本発明の実施例におけるロバストネス推定方法を実現することができ、また、処理器を含んでも良く、該処理器は、次のように構成されても良く、即ち、訓練データ集合における各訓練サンプルについて、ターゲットデータ集合における、該訓練サンプルとのサンプル類似度が所定の閾値の範囲内にあるターゲットサンプルを確定し、そして、分類モデルの該訓練サンプルに対しての分類結果と、分類モデルの、確定されたターゲットサンプルに対しての分類結果との間の分類類似度を計算し、そのうち、該分類モデルは、訓練データ集合に基づいて訓練より予め得られたものであり;及び、訓練データ集合における各訓練サンプルの分類結果と、ターゲットデータ集合における、対応するターゲットサンプルの分類結果との間の分類類似度に基づいて、分類モデルのターゲットデータ集合に対しての分類ロバストネスを確定する。
【0115】
情報処理装置の処理器は、例えば、上述の図1乃至図5を基に説明したロバストネス推定方法及びその各ステップの操作及び/又は処理を行うように構成されても良いが、ここでは、重複説明を省略する。
【0116】
一例として、訓練データ集合及びターゲットデータ集合はともに、画像データサンプル又は時系列データサンプルを含む。
【0117】
1つの好ましい実施例において、情報処理装置の処理器はさらに、次のように構成されても良く、即ち、分類モデルの各訓練サンプルに対しての分類結果と、各訓練サンプルの真のクラスとに基づいて、分類モデルの各訓練サンプルに対しての分類信頼度を確定し、そのうち、訓練データ集合における各訓練サンプルの分類結果と、ターゲットデータ集合における、対応するターゲットサンプルの分類結果との間の分類類似度、及び、分類モデルの各訓練サンプルに対しての分類信頼度に基づいて、分類モデルのターゲットデータ集合に対しての分類ロバストネスを確定する。
【0118】
1つの好ましい実施例において、情報処理装置の処理器はさらに、次のように構成されても良く、即ち、訓練データ集合をランダムに分割することで、サンプル数が等しい第一サブ集合及び第二サブ集合を取得し;第一サブ集合における各訓練サンプルについて、第二サブ集合における該訓練サンプルとの類似度が所定の閾値の範囲内にある訓練サンプルを確定し、そして、分類モデルの第一サブ集合における該訓練サンプルに対しての分類結果と、分類モデルの、確定された第二サブ集合における訓練サンプルに対しての分類結果との間のサンプル類似度を計算し;第一サブ集合における各訓練サンプルの分類結果と、第二サブ集合における対応する訓練サンプルの分類結果との間の分類類似度に基づいて、分類モデルの訓練データ集合に対しての基準ロバストネスを確定し;及び、分類モデルのターゲットデータ集合に対しての分類ロバストネス、及び、分類モデルの訓練データ集合に対しての基準ロバストネスに基づいて、分類モデルのターゲットデータ集合に対しての相対ロバストネスを確定する。
【0119】
1つの好ましい実施例において、情報処理装置の処理器はさらに、次のように構成されても良く、即ち、ターゲットデータ集合における訓練サンプルとのサンプル類似度が所定の閾値の範囲内にあるターゲットサンプルを確定する過程において、該訓練サンプルの属するクラスと関連付けられる類似度閾値を前記所定の閾値として使用する。
【0120】
好ましくは、該訓練サンプルの属するクラスと関連付けられる類似度閾値は、訓練データ集合における前記クラスに属する各訓練サンプル間の平均サンプル類似度を含んでも良い。
【0121】
1つの好ましい実施例において、情報処理装置の処理器はさらに、次のように構成されても良く、即ち、ターゲットデータ集合における、訓練サンプルとのサンプル類似度が所定の閾値の範囲内にあるターゲットサンプルを確定する過程において、分類モデルを用いて、該訓練サンプルから抽出した特徴と、ターゲットデータ集合における各ターゲットサンプルから抽出した特徴との間の特徴類似度を、該訓練サンプルと各ターゲットサンプルとの間のサンプル類似度として計算する。
【0122】
図11は、本発明の実施例におけるロバストネス推定方法及び装置並びに情報処理装置を実現し得るハードウェア構成1100を示す図である。
【0123】
図11では、中央処理装置(CPU)1101は、ROM 1102に記憶されているプログラム又は記憶部1108からRAM 1103にロッドされているプログラムに基づいて各種の処理を行う。RAM 1103では、ニーズに応じて、CPU 1101が各種の処理を行うときに必要なデータなどを記憶することもできる。CPU 1101、ROM 1102及びRAM 1103は、バス1104を経由して互いに接続される。入力/出力インターフェース1105もバス1104に接続される。
【0124】
また、入力/出力インターフェース1105には、さらに、次のような部品が接続され、即ち、キーボードなどを含む入力部1106、液晶表示器(LCD)などのような表示器及びスピーカーなどを含む出力部1107、ハードディスクなどを含む記憶部1108、ネットワーク・インターフェース・カード、例えば、LANカード、モデムなどを含む通信部1109である。通信部1109は、例えば、インターネット、LANなどのネットワークを経由して通信処理を行う。
【0125】
ドライブ1110は、ニーズに応じて、入力/出力インターフェース1105に接続されても良い。取り外し可能な媒体1111、例えば、半導体メモリなどは、必要に応じて、ドライブ1110にセットされることにより、その中から読み取られたコンピュータプログラムを記憶1108にインストールすることができる。
【0126】
また、本発明は、さらに、マシン可読指令コードを含むプログラムプロダクトを提供する。このような指令コードは、マシンにより読み取られて実行されるときに、上述の本発明の実施形態における方法を実行することができる。それ相応に、このようなプログラムプロダクトをキャリー(carry)する、例えば、磁気ディスク(フロッピーディスク(登録商標)を含む)、光ディスク(CD-ROM及びDVDを含む)、光磁気ディスク(MD(登録商標)を含む)、及び半導体記憶器などの各種記憶媒体も、本発明に含まれる。
【0127】
上述の記憶媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体記憶器などを含んでも良いが、これらに限定されない。
【0128】
また、上述の方法における各操作(処理)は、各種のマシン可読記憶媒体に記憶されているコンピュータ実行可能なプログラムの方式で実現することもできる。
【0129】
また、以上の実施例などに関し、さらに以下のように付記として開示する。
【0130】
(付記1)
訓練データ集合に基づいて訓練より予め得られた分類モデルのロバストネスを推定するために用いられるロバストネス推定方法であって、
訓練データ集合における各訓練サンプルについて、ターゲットデータ集合における、該訓練サンプルとのサンプル類似度が所定の閾値の範囲内にあるターゲットサンプルを確定し、分類モデルの該訓練サンプルに対しての分類結果と、該分類モデルの、確定されたターゲットサンプルに対しての分類結果との間の分類類似度を計算し;及び
訓練データ集合における各訓練サンプルの分類結果と、ターゲットデータ集合における、対応するターゲットサンプルの分類結果との間の分類類似度に基づいて、分類モデルのターゲットデータ集合に対しての分類ロバストネスを確定することを含む、方法。
【0131】
(付記2)
付記1に記載のロバストネス推定方法であって、
分類モデルの各訓練サンプルに対しての分類結果と、各訓練サンプルの真のクラスとに基づいて、分類モデルの各訓練サンプルに対しての分類信頼度を確定することをさらに含み、
訓練データ集合における各訓練サンプルの分類結果と、ターゲットデータ集合における、対応するターゲットサンプルの分類結果との間の分類類似度、及び、分類モデルの各訓練サンプルに対しての分類信頼度に基づいて、分類モデルのターゲットデータ集合に対しての分類ロバストネスを確定する、方法。
【0132】
(付記3)
付記1に記載のロバストネス推定方法であって、
訓練データ集合をランダムに分割し、サンプル数が等しい第一サブ集合及び第二サブ集合を取得し;
第一サブ集合における各訓練サンプルについて、第二サブ集合における、該訓練サンプルとの類似度が所定の閾値の範囲内にある訓練サンプルを確定し、分類モデルの第一サブ集合における該訓練サンプルの分類結果と、該分類モデルの、確定された第二サブ集合における訓練サンプルに対しての分類結果との間のサンプル類似度を計算し;
第一サブ集合における各訓練サンプルの分類結果と、第二サブ集合における対応する訓練サンプルの分類結果との間の分類類似度に基づいて、分類モデルの訓練データ集合に対しての基準ロバストネスを計算し;及び
分類モデルのターゲットデータ集合に対しての分類ロバストネス及び分類モデルの訓練データ集合に対しての基準ロバストネスに基づいて、分類モデルのターゲットデータ集合に対しての相対ロバストネスを確定することをさらに含む、方法。
【0133】
(付記4)
付記1乃至3のうちの任意の1項に記載のロバストネス推定方法であって、
ターゲットデータ集合における、訓練サンプルとのサンプル類似度が所定の閾値の範囲内にあるターゲットサンプルを確定する過程において、該訓練サンプルの属するクラスと関連付けられる類似度閾値を前記所定の閾値として使用する、方法。
【0134】
(付記5)
付記4に記載のロバストネス推定方法であって、
該訓練サンプルの属するクラスと関連付けられる類似度閾値は、訓練データ集合における、前記クラスに属する各訓練サンプル間の平均サンプル類似度を含む、方法。
【0135】
(付記6)
付記1乃至3のうちの任意の1項に記載のロバストネス推定方法であって、
ターゲットデータ集合における、訓練サンプルとのサンプル類似度が所定の閾値の範囲内にあるターゲットサンプルを確定する過程において、分類モデルを用いて、該訓練サンプルから抽出した特徴と、ターゲットデータ集合における各ターゲットサンプルから抽出した特徴との間の特徴類似度を、該訓練サンプルと各ターゲットサンプルとの間のサンプル類似度として計算する、方法。
【0136】
(付記7)
付記1乃至3のうちの任意の1項に記載のロバストネス推定方法であって、
訓練データ集合及びターゲットデータ集合は、画像データサンプル又は時系列データサンプルを含む、方法。
【0137】
(付記8)
データ処理方法であって、
ターゲットサンプルを分類モデルに入力し;及び
分類モデルを用いて、ターゲットサンプルに対して分類を行うことを含み、
分類モデルは、訓練データ集合を用いて訓練により予め得られたものであり、
付記1乃至7のうちの任意の1項に記載のロバストネス推定方法を用いて推定された分類モデルの、ターゲットサンプルの属するターゲットデータ集合に対しての分類ロバストネスは、所定のロバストネス閾値を超えている、方法。
【0138】
(付記9)
付記8に記載のデータ処理方法であって、
分類モデルは、セマンティック・セグメンテーションのための画像分類モデル、手書き文字認識のための画像分類モデル、交通標識認識のための画像分類モデル、及び気象予測のための時系列データ分類モデルのうちの1つを含む、方法。
【0139】
(付記10)
処理器を含む情報処理装置であって、
前記処理器は、
訓練データ集合における各訓練サンプルについて、ターゲットデータ集合における、該訓練サンプルとのサンプル類似度が所定の閾値の範囲内にあるターゲットサンプルを確定し、分類モデルの該訓練サンプルに対しての分類結果と、該分類モデルの、確定されたターゲットサンプルに対しての分類結果との間の分類類似度を計算し、該分類モデルが訓練データ集合に基づいて訓練より予め得られたものであり;及び
訓練データ集合における各訓練サンプルの分類結果と、ターゲットデータ集合における、対応するターゲットサンプルの分類結果との間の分類類似度に基づいて、分類モデルのターゲットデータ集合に対しての分類ロバストネスを確定するように構成される、装置。
【0140】
(付記11)
付記10に記載の情報処理装置であって、
前記処理器は、さらに、
分類モデルの各訓練サンプルに対しての分類結果と、各訓練サンプルの真のクラスとに基づいて、分類モデルの各訓練サンプルに対しての分類信頼度を確定するように構成され、
訓練データ集合における各訓練サンプルの分類結果と、ターゲットデータ集合における、対応するターゲットサンプルの分類結果との間の分類類似度、及び、分類モデルの各訓練サンプルに対しての分類信頼度に基づいて、分類モデルのターゲットデータ集合に対しての分類ロバストネスを確定する、装置。
【0141】
(付記12)
付記10に記載の情報処理装置であって、
前記処理器は、さらに、
訓練データ集合をランダムに分割し、サンプル数が等しい第一サブ集合及び第二サブ集合を取得し;
第一サブ集合における各訓練サンプルについて、第二サブ集合における、該訓練サンプルとの類似度が所定の閾値の範囲内にある訓練サンプルを確定し、分類モデルの第一サブ集合における該訓練サンプルの分類結果と、該分類モデルの、確定された第二サブ集合における訓練サンプルに対しての分類結果との間のサンプル類似度を計算し;
第一サブ集合における各訓練サンプルの分類結果と、第二サブ集合における対応する訓練サンプルの分類結果との間の分類類似度に基づいて、分類モデルの訓練データ集合に対しての基準ロバストネスを計算し;及び
分類モデルのターゲットデータ集合に対しての分類ロバストネス及び該分類モデルの訓練データ集合に対しての基準ロバストネスに基づいて、分類モデルのターゲットデータ集合に対しての相対ロバストネスを確定するように構成される、装置。
【0142】
(付記13)
付記10乃至12のうちの任意の1項に記載の情報処理装置であって、
前記処理器は、さらに、
ターゲットデータ集合における、訓練サンプルとのサンプル類似度が所定の閾値の範囲内にあるターゲットサンプルを確定する過程において、該訓練サンプルの属するクラスと関連付けられる類似度閾値を前記所定の閾値として使用するように構成される、装置。
【0143】
(付記14)
付記13に記載の情報処理装置であって、
該訓練サンプルの属するクラスと関連付けられる類似度閾値は、訓練データ集合における、前記クラスに属する各訓練サンプル間の平均サンプル類似度を含む、装置。
【0144】
(付記15)
付記10乃至12のうちの任意の1項に記載の情報処理装置であって、
前記処理器は、さらに、
ターゲットデータ集合における、訓練サンプルとのサンプル類似度が所定の閾値の範囲内にあるターゲットサンプルを確定する過程において、分類モデルを用いて、該訓練サンプルから抽出した特徴と、ターゲットデータ集合における各ターゲットサンプルから抽出した特徴との間の特徴類似度を、該訓練サンプルと各ターゲットサンプルとの間のサンプル類似度として計算するように構成される、装置。
【0145】
(付記16)
付記10乃至12のうちの任意の1項に記載の情報処理装置であって、
訓練データ集合及びターゲットデータ集合は、画像データサンプル又は時系列データサンプルを含む、装置。
【0146】
(付記17)
マシン(例えば、コンピュータ)可読指令コードを記憶した記憶媒体であって、
前記指令コードは、マシンにより読み取られ実行されるときに、前記マシンに、ロバストネス推定方法を実行させ、前記ロバストネス推定方法は、訓練データ集合に基づいて訓練より予め得られた分類モデルのロバストネスを推定するために用いられ、
訓練データ集合をランダムに分割し、サンプル数が等しい第一サブ集合及び第二サブ集合を取得し;
第一サブ集合における各訓練サンプルについて、第二サブ集合における、該訓練サンプルとの類似度が所定の閾値の範囲内にある訓練サンプルを確定し、分類モデルの第一サブ集合における該訓練サンプルの分類結果と、該分類モデルの、確定された第二サブ集合における訓練サンプルに対しての分類結果との間のサンプル類似度を計算し;
第一サブ集合における各訓練サンプルの分類結果と、第二サブ集合における対応する訓練サンプルの分類結果との間の分類類似度に基づいて、分類モデルの訓練データ集合に対しての基準ロバストネスを計算し;及び
分類モデルのターゲットデータ集合に対しての分類ロバストネス及び分類モデルの訓練データ集合に対しての基準ロバストネスに基づいて、分類モデルのターゲットデータ集合に対しての相対ロバストネスを確定することをさらに含む、記憶媒体。
【0147】
以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は、本発明の技術的範囲に属する。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11