特許7470476 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特許7470476蒸留を用いたそれぞれのターゲット・クラスを有するモデルの統合

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8A
8B
8C
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-04-10

(45)【発行日】2024-04-18

(54)【発明の名称】蒸留を用いたそれぞれのターゲット・クラスを有するモデルの統合

(51)【国際特許分類】

G06N 3/084 20230101AFI20240411BHJP

G06N 3/045 20230101ALI20240411BHJP

G06N 20/00 20190101ALI20240411BHJP

【ＦＩ】

G06N3/084

G06N3/045

G06N20/00 130

【請求項の数】 25

(21)【出願番号】P 2022501381

(86)(22)【出願日】2020-02-25

(65)【公表番号】

(43)【公表日】2022-05-09

(86)【国際出願番号】 IB2020051581

(87)【国際公開番号】W WO2020194077

(87)【国際公開日】2020-10-01

【審査請求日】2022-07-25

(31)【優先権主張番号】P 2019054237

(32)【優先日】2019-03-22

(33)【優先権主張国・地域又は機関】JP

(73)【特許権者】

【識別番号】390009531

【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション

【氏名又は名称原語表記】ＩＮＴＥＲＮＡＴＩＯＮＡＬＢＵＳＩＮＥＳＳＭＡＣＨＩＮＥＳＣＯＲＰＯＲＡＴＩＯＮ

【住所又は居所原語表記】ＮｅｗＯｒｃｈａｒｄＲｏａｄ，Ａｒｍｏｎｋ，ＮｅｗＹｏｒｋ１０５０４，ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】100112690

【弁理士】

【氏名又は名称】太佐種一

(72)【発明者】

【氏名】ボンクルビサル、ジャヤコーン

(72)【発明者】

【氏名】ビナヤベキン、フォンタリン

【審査官】田中幸雄

(56)【参考文献】

【文献】米国特許第８９５４３５８（ＵＳ，Ｂ１）

【文献】特開２０１０－０９２２６６（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／０８４

Ｇ０６Ｎ２０／００

Ｇ０６Ｎ３／０４５

(57)【特許請求の範囲】

【請求項1】

統合ソフト・ラベルを生成するためのコンピュータ実装方法であって、
サンプルのコレクションを準備することと、
サンプルごとに、複数の個別の訓練済みモデルによって生成された複数の予測を取得することであって、前記複数の個別の訓練済みモデルが、それぞれ、対応する個別のクラス集合を有し、前記複数の個別の訓練済みモデルの前記対応する個別のクラス集合の和集合により、複数のターゲット・クラスを含む統合クラス集合が形成される、前記取得することと、
サンプルごとに、前記複数の個別の訓練済みモデルのうちの前記統合クラス集合の一部である複数のクラスを前記対応する個別のクラス集合として有する一の個別の訓練済みモデルの第１の出力と前記統合クラス集合を有する統合モデルの第２の出力とを接続する関係を少なくとも使用して、前記統合クラス集合内の前記複数のターゲット・クラスにわたる統合ソフト・ラベルを前記複数の予測から推定することと、
前記統合モデルを訓練するために、前記統合ソフト・ラベルを知識蒸留のためのラベルとして出力することと
を含む、コンピュータ実装方法。

【請求項2】

前記コンピュータ実装方法が、
各サンプルを前記統合モデルに供給して、前記統合クラス集合内の前記複数のターゲット・クラスにわたる予測値を前記第２の出力として推論することと、
前記統合ソフト・ラベルと各サンプルの前記予測値との間の損失関数に基づいて、前記統合モデルを更新することと、
更新された前記統合モデルを記憶すること
含む、請求項１に記載のコンピュータ実装方法。

【請求項3】

前記関係は、前記一の個別の訓練済みモデルの前記第１の出力における各予測値と、前記一の個別の訓練済みモデルの前記個別のクラス集合にわたる予測値を用いて正規化された前記統合モデルの前記第２の出力における対応する予測値との間の同等性を示す、請求項１に記載のコンピュータ実装方法。

【請求項4】

前記損失関数が、前記統合クラス集合内の前記複数のターゲット・クラスに対する重み付けによって重み付けされ、あるターゲット・クラスの各重み付けが、前記コレクションを通じて前記あるターゲット・クラスに関する前記統合ソフト・ラベルの統計値に基づく方法で計算される、請求項２に記載のコンピュータ実装方法。

【請求項5】

統合ソフト・ラベルを生成するためのコンピュータ実装方法であって、
サンプルのコレクションを準備することと、
サンプルごとに、複数の個別の訓練済みモデルによって生成された複数の予測を取得することであって、各個別の訓練済みモデルが、複数のターゲット・クラスを含む統合クラス集合を少なくとも部分的に形成するための個別のクラス集合を有する、前記取得することと、
サンプルごとに、各個別の訓練済みモデルの第１の出力と前記統合クラス集合を有する統合モデルの第２の出力とを接続する関係を使用して、前記統合クラス集合内の前記複数のターゲット・クラスにわたる統合ソフト・ラベルを前記複数の予測から推定することと、
前記統合モデルを訓練するために、前記統合ソフト・ラベルを出力することと
を含み、前記統合ソフト・ラベルが、前記統合モデルの前記第２の出力に対応する分布ｑに関する目的関数を最適化する問題を解くことによって推定され、前記目的関数が、前記複数の予測に対応する複数の参照分布ｐ _ｉと、各個別のクラス集合内の複数のターゲット・クラスにわたり分布ｑを正規化することによってそれぞれ取得される複数の正規化された分布ｑ _ｉ ^＾との間の誤差を測定する、コンピュータ実装方法。

【請求項6】

前記分布ｑが、
前記統合クラス集合内の各ターゲット・クラスｌにそれぞれ与えられた一時変数ｕ _ｌを用いて凸問題を解くことであって、前記分布ｑが、前記凸問題内のそれぞれの一時変数ｕ _ｌの指数関数の集合によって表される、前記解くこと、および
解かれた一時変数ｕ _ｌを前記分布ｑに変換すること
によって取得される、請求項５に記載のコンピュータ実装方法。

【請求項7】

前記目的関数が交差エントロピ関数であり、前記目的関数を最適化することは、前記交差エントロピ関数を最小化することである、請求項５に記載のコンピュータ実装方法。

【請求項8】

統合ソフト・ラベルを生成するためのコンピュータ実装方法であって、
サンプルのコレクションを準備することと、
サンプルごとに、複数の個別の訓練済みモデルによって生成された複数の予測を取得することであって、各個別の訓練済みモデルが、複数のターゲット・クラスを含む統合クラス集合を少なくとも部分的に形成するための個別のクラス集合を有する、前記取得することと、
サンプルごとに、各個別の訓練済みモデルの第１の出力と前記統合クラス集合を有する統合モデルの第２の出力とを接続する関係を使用して、前記統合クラス集合内の前記複数のターゲット・クラスにわたる統合ソフト・ラベルを前記複数の予測から推定することと、
前記統合モデルを訓練するために、前記統合ソフト・ラベルを出力することと
を含み、前記統合ソフト・ラベルが、少なくとも前記統合モデルの前記第２の出力を変数として表す出力ベクトルｕに関する目的関数を最適化する問題を行列因数分解に基づく方法で解くことによって推定され、前記統合ソフト・ラベルが、確率またはロジットの形式で表される、コンピュータ実装方法。

【請求項9】

前記出力ベクトルｕが確率の形式で表され、前記目的関数を最適化する前記問題が、前記個別の訓練済みモデルのための正規化係数を表す正規化ベクトルｖに関してさらに解かれ、前記目的関数が、前記個別のクラス集合内に欠損しているクラスが存在することを表すマスク行列Ｍを用いて、欠損しているエントリを伴う確率の形式で前記複数の予測を表す確率行列Ｐと、前記出力ベクトルｕと前記正規化ベクトルｖの積との間の誤差を測定する、請求項８に記載のコンピュータ実装方法。

【請求項10】

前記出力ベクトルｕがロジットの形式で表され、前記目的関数を最適化する前記問題が、ロジット・スケーリング・ベクトルｖおよびロジット・シフト・ベクトルｃに関してさらに解かれ、前記目的関数が、前記個別のクラス集合内に欠損しているクラスが存在することを表すマスク行列Ｍを用いて、欠損しているエントリを伴うロジットの形式で前記複数の予測を表すロジット行列Ｚと、前記出力ベクトルｕと前記ロジット・シフト・ベクトルｃによってシフトされた前記ロジット・スケーリング・ベクトルｖの積との間の誤差を測定する、請求項８に記載のコンピュータ実装方法。

【請求項11】

前記出力ベクトルｕがロジットの形式で表され、前記目的関数を最適化する前記問題が、ロジット・シフト・ベクトルｃに関してさらに解かれ、前記目的関数が、前記個別のクラス集合内に欠損しているクラスが存在することを表すマスク行列Ｍを用いて、欠損しているエントリを伴うロジットの形式で前記複数の予測を表すロジット行列Ｚと、前記出力ベクトルｕと前記ロジット・シフト・ベクトルｃによってシフトされた固定スケーリング・ベクトルｖの積との間の誤差を測定する、請求項８に記載のコンピュータ実装方法。

【請求項12】

前記統合モデルおよび前記個別の訓練済みモデルのそれぞれが、ニューラル・ネットワーク・ベースの分類モデル、決定木または決定フォレスト・ベースの分類モデル、およびサポート・ベクタ・マシン・ベースの分類モデルからなる群から選択される、請求項１に記載のコンピュータ実装方法。

【請求項13】

前記コンピュータ実装方法が、前記複数の個別の訓練済みモデルのそれぞれについて、前記個別のクラス集合のコンテンツと共に（ｉ）個別の訓練済みモデル自体のコンテンツ、または（ｉｉ）各サンプルを前記個別の訓練済みモデルに供給することによって取得されたソフト・ラベル・コレクションを受け取ることを含む、請求項１に記載のコンピュータ実装方法。

【請求項14】

統合モデルを訓練するためのコンピュータ実装方法であって、
サンプルのコレクションを準備することと、
サンプルごとに、複数の個別の訓練済みモデルによって生成された複数の予測を取得することであって、前記複数の個別の訓練済みモデルが、それぞれ、対応する個別のクラス集合を有し、前記複数の個別の訓練済みモデルの前記対応する個別のクラス集合の和集合により、複数のターゲット・クラスを含む統合クラス集合が形成される、前記取得することと、
サンプルごとの前記複数の予測、および、前記複数の個別の訓練済みモデルのうちの前記統合クラス集合の一部である複数のクラスを前記対応する個別のクラス集合として有する一の個別の訓練済みモデルの第１の出力と、前記統合クラス集合を有する前記統合モデルの第２の出力とを接続する関係を少なくとも使用して、前記統合クラス集合内の前記複数のターゲット・クラスにわたる統合ソフト・ラベルを得て、前記統合ソフト・ラベルを知識蒸留のためのラベルとして用いて前記統合クラス集合を有する前記統合モデルを更新することと
を含む、コンピュータ実装方法。

【請求項15】

前記コンピュータ実装方法が、
各サンプルを前記統合モデルに供給して、前記統合クラス集合内の前記複数のターゲット・クラスにわたる予測値を前記第２の出力として推論することであって、前記統合モデルが、前記予測値を使用して更新される、前記推論することと、
更新された前記統合モデルを記憶することと
を含む、請求項１４に記載のコンピュータ実装方法。

【請求項16】

前記統合モデルがニューラル・ネットワークを含み、前記統合モデルが、前記ニューラル・ネットワーク全体に損失を逆伝播することによって更新され、前記損失が、前記複数の予測に対応する複数の参照分布ｐ _ｉと、各個別のクラス集合内の複数のターゲット・クラスにわたり分布ｑを正規化することによって取得される複数の正規化された分布ｑ _ｉ ^＾との間の誤差を測定し、前記分布ｑが、前記統合モデルによって推論された前記予測値として取得される、請求項１５に記載のコンピュータ実装方法。

【請求項17】

前記統合モデルがニューラル・ネットワークを含み、前記統合モデルが、前記ニューラル・ネットワーク全体に損失を逆伝播することによって更新され、前記損失が、前記統合モデルの前記第２の出力を表す出力ベクトルｕおよび他の変数を用いて目的関数を最適化する問題を行列因数分解に基づく方法で解くことによって取得され、前記出力ベクトルｕが、前記統合モデルによって推論された前記予測値として取得され、前記問題において固定される、請求項１５に記載のコンピュータ実装方法。

【請求項18】

統合ソフト・ラベルを生成するためのコンピュータ・システムであって、
プログラム命令を記憶するメモリと、
前記プログラム命令を実行するために前記メモリと通信する処理回路と
を備え、前記処理回路が、
サンプルのコレクションを準備することと、
サンプルごとに、複数の個別の訓練済みモデルによって生成された複数の予測を取得することであって、前記複数の個別の訓練済みモデルが、それぞれ、対応する個別のクラス集合を有し、前記複数の個別の訓練済みモデルの前記対応する個別のクラス集合の和集合により、複数のターゲット・クラスを含む統合クラス集合が形成される、前記取得することと、
サンプルごとに、前記複数の個別の訓練済みモデルのうちの前記統合クラス集合の一部である複数のクラスを前記対応する個別のクラス集合として有する一の個別の訓練済みモデルの第１の出力と前記統合クラス集合を有する統合モデルの第２の出力とを接続する関係を少なくとも使用して、前記統合クラス集合内の前記複数のターゲット・クラスにわたる統合ソフト・ラベルを前記複数の予測から推定することと、
前記統合モデルを訓練するために、前記統合ソフト・ラベルを知識蒸留のためのラベルとして出力することと
を行うように構成される、コンピュータ・システム。

【請求項19】

統合ソフト・ラベルを生成するためのコンピュータ・システムであって、
プログラム命令を記憶するメモリと、
前記プログラム命令を実行するために前記メモリと通信する処理回路と
を備え、前記処理回路が、
サンプルのコレクションを準備することと、
サンプルごとに、複数の個別の訓練済みモデルによって生成された複数の予測を取得することであって、各個別の訓練済みモデルが、複数のターゲット・クラスを含む統合クラス集合を少なくとも部分的に形成するための個別のクラス集合を有する、前記取得することと、
サンプルごとに、各個別の訓練済みモデルの第１の出力と前記統合クラス集合を有する統合モデルの第２の出力とを接続する関係を使用して、前記統合クラス集合内の前記複数のターゲット・クラスにわたる統合ソフト・ラベルを前記複数の予測から推定することと、
前記統合モデルを訓練するために、前記統合ソフト・ラベルを出力することと
を行うように構成され、前記統合ソフト・ラベルが、前記統合モデルの前記第２の出力に対応する分布ｑに関する目的関数を最適化する問題を解くことによって推定され、前記目的関数が、前記複数の予測に対応する複数の参照分布ｐ _ｉと、各個別のクラス集合内の複数のターゲット・クラスにわたり前記分布ｑを正規化することによってそれぞれ取得される複数の正規化された分布ｑ _ｉ ^＾との間の誤差を測定する、コンピュータ・システム。

【請求項20】

統合ソフト・ラベルを生成するためのコンピュータ・システムであって、
プログラム命令を記憶するメモリと、
前記プログラム命令を実行するために前記メモリと通信する処理回路と
を備え、前記処理回路が、
サンプルのコレクションを準備することと、
サンプルごとに、複数の個別の訓練済みモデルによって生成された複数の予測を取得することであって、各個別の訓練済みモデルが、複数のターゲット・クラスを含む統合クラス集合を少なくとも部分的に形成するための個別のクラス集合を有する、前記取得することと、
サンプルごとに、各個別の訓練済みモデルの第１の出力と前記統合クラス集合を有する統合モデルの第２の出力とを接続する関係を使用して、前記統合クラス集合内の前記複数のターゲット・クラスにわたる統合ソフト・ラベルを前記複数の予測から推定することと、
前記統合モデルを訓練するために、前記統合ソフト・ラベルを出力することと
を行うように構成され、前記統合ソフト・ラベルが、少なくとも前記統合モデルの前記第２の出力を変数として表す出力ベクトルｕに関する目的関数を最適化する問題を行列因数分解に基づく方法で解くことによって推定され、前記統合ソフト・ラベルが、確率またはロジットの形式で表される、コンピュータ・システム。

【請求項21】

統合モデルを訓練するためのコンピュータ・システムであって、
プログラム命令を記憶するメモリと、
前記プログラム命令を実行するために前記メモリと通信する処理回路と
を備え、前記処理回路が、
サンプルのコレクションを準備することと、
サンプルごとに、複数の個別の訓練済みモデルによって生成された複数の予測を取得することであって、前記複数の個別の訓練済みモデルが、それぞれ、対応する個別のクラス集合を有し、前記複数の個別の訓練済みモデルの前記対応する個別のクラス集合の和集合により、複数のターゲット・クラスを含む統合クラス集合が形成される、前記取得することと、
サンプルごとの前記複数の予測、および、前記複数の個別の訓練済みモデルのうちの前記統合クラス集合の一部である複数のクラスを前記対応する個別のクラス集合として有する一の個別の訓練済みモデルの第１の出力と前記統合クラス集合を有する前記統合モデルの第２の出力とを接続する関係を少なくとも使用して、前記統合クラス集合内の前記複数のターゲット・クラスにわたる統合ソフト・ラベルを得て、前記統合ソフト・ラベルを知識蒸留のためのラベルとして前記統合クラス集合を有する前記統合モデルを更新することと
を行うように構成される、コンピュータ・システム。

【請求項22】

統合モデルを訓練するためのコンピュータ・システムであって、
プログラム命令を記憶するメモリと、
前記プログラム命令を実行するために前記メモリと通信する処理回路と
を備え、前記処理回路が、
サンプルのコレクションを準備することと、
サンプルごとに、複数の個別の訓練済みモデルによって生成された複数の予測を取得することであって、各個別の訓練済みモデルが、複数のターゲット・クラスを含む統合クラス集合を少なくとも部分的に形成するための個別のクラス集合を有する、前記取得することと、
サンプルごとの前記複数の予測、および各個別の訓練済みモデルの第１の出力と前記統合クラス集合内の前記複数のターゲット・クラスにわたる前記統合モデルの第２の出力とを接続する関係を使用して、前記統合クラス集合を有する前記統合モデルを更新することと
を行うように構成され、
前記統合モデルがニューラル・ネットワークを含み、前記統合モデルが、前記ニューラル・ネットワーク全体に損失を逆伝播することによって更新され、前記損失が、前記複数の予測に対応する複数の参照分布ｐ _ｉと、各個別のクラス集合内の複数のターゲット・クラスにわたり分布ｑを正規化することによって取得される複数の正規化された分布ｑ _ｉ ^＾との間の誤差を測定し、前記分布ｑが、前記統合モデルの前記第２の出力として取得される、コンピュータ・システム。

【請求項23】

統合モデルを訓練するためのコンピュータ・システムであって、
プログラム命令を記憶するメモリと、
前記プログラム命令を実行するために前記メモリと通信する処理回路と
を備え、前記処理回路が、
サンプルのコレクションを準備することと、
サンプルごとに、複数の個別の訓練済みモデルによって生成された複数の予測を取得することであって、各個別の訓練済みモデルが、複数のターゲット・クラスを含む統合クラス集合を少なくとも部分的に形成するための個別のクラス集合を有する、前記取得することと、
サンプルごとの前記複数の予測、および各個別の訓練済みモデルの第１の出力と前記統合クラス集合内の前記複数のターゲット・クラスにわたる前記統合モデルの第２の出力とを接続する関係を使用して、前記統合クラス集合を有する前記統合モデルを更新することと
を行うように構成され、前記統合モデルがニューラル・ネットワークを含み、前記統合モデルが、前記ニューラル・ネットワーク全体に損失を逆伝播することによって更新され、前記損失が、前記統合モデルの前記第２の出力を表す出力ベクトルおよび他の変数を用いて目的関数を最適化する問題を行列因数分解に基づく方法で解くことによって取得され、前記出力ベクトルが、前記統合モデルの前記第２の出力として取得され、前記問題において固定される、コンピュータ・システム。

【請求項24】

統合ソフト・ラベルを生成するためのコンピュータ・プログラムであって、前記コンピュータ・プログラムは、コンピュータに請求項１～１３のいずれか１項に記載の方法を実行させる、コンピュータ・プログラム。

【請求項25】

複数のターゲット・クラスを含む統合クラス集合を有する統合モデルを訓練するために使用される統合ソフト・ラベルを生成するためのコンピュータ・プログラムであって、前記コンピュータ・プログラムは、コンピュータに請求項１４～１７のいずれか１項に記載の方法を実行させる、コンピュータ・プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、一般に、機械学習に関し、より詳細には、それぞれのターゲット・クラスの集合を有するモデルを統合するためのコンピュータ実装方法、コンピュータ・システム、およびコンピュータ・プログラム製品に関する。

【背景技術】

【0002】

分類タスクにおける機械学習の成功は、主に、大きいデータセットの可用性によって実現した。より多くの訓練データを有することは、分類タスクの正確度を高めるのに役立つ。技術が普及するにつれて、データ収集は、データが複数のエンティティから提供され、次いで中央ノードで分類器を訓練するために組み合わされるという、より分散された環境へと移行している。

【0003】

しかしながら、多くの場合、エンティティ間のデータの転送は、プライバシーの懸念またはネットワーク・リソースなどのリソースの制約により制限される。また、データの可用性が異なるため、各データ・ソースがすべてのターゲット・クラスの訓練データを十分に収集できない場合がある。これらの制限は、様々なソースからの知識の統合を妨げる。

【0004】

こうした状況は、データを直接共有せずに分類器を学習することを提案する複数の研究につながった。このような研究には、分散最適化、コンセンサス・ベースの訓練、連合学習、知識蒸留（G. E. Hintonら、「Distilling the Knowledge in a Neural Network」, In NIPS(Neural Information Processing Systems)Deep Learning and Representation Learning Workshop、2015）、ディープ・ニューラル・ネットワークのための無データ知識蒸留（R. G. Lopesら、「Data-free knowledge distillation for deep neural networks」, In NIPS workshop on learning with limited labeled data, 2017）などが含まれる。しかしながら、これらの従来の手法は、すべてのモデルのターゲット・クラスが同じであることを前提としている。しかしながら、例えば、データの可用性により、すべてのモデルが同じターゲット・クラスを有するようにできない場合が多い。

【発明の概要】

【発明が解決しようとする課題】

【0005】

したがって、個別の訓練済みモデルが、統合モデルの統合クラス集合とは異なるそれぞれのターゲット・クラスの部分集合を有する場合でも、複数の個別のモデルから統合モデルを訓練することができる技術が必要である。

【課題を解決するための手段】

【0006】

本発明の一実施形態によれば、統合ソフト・ラベルを生成するためのコンピュータ実装方法が提供される。コンピュータ実装方法は、サンプルのコレクションを準備することを含む。コンピュータ実装方法は、サンプルごとに、複数の個別の訓練済みモデルによって生成された複数の予測を取得することも含み、各個別の訓練済みモデルは、複数のターゲット・クラスを含む統合クラス集合を少なくとも部分的に形成するための個別のクラス集合を有する。コンピュータ実装方法は、サンプルごとに、各個別の訓練済みモデルの第１の出力と統合モデルの第２の出力とを接続する関係を使用して、統合クラス集合内のターゲット・クラスに対する統合ソフト・ラベルを複数の予測から推定することをさらに含む。コンピュータ実装方法は、統合クラス集合を有する統合モデルを訓練するために、統合ソフト・ラベルを出力することも含む。

【0007】

本発明の実施形態のコンピュータ実装方法によれば、統合モデルを訓練するために使用される統合ソフト・ラベルは、統合モデルの出力と合致する方法で個別の訓練済みモデルによって生成された予測から推定されるので、個別の訓練済みモデルが統合ターゲット・モデルの統合クラス集合内のターゲット・クラスの異なる部分集合を有する場合でも、個別の訓練済みモデルの知識を統合モデルに転送することが可能である。

【0008】

好ましい実施形態において、コンピュータ実装方法は、各サンプルを統合モデルに供給して、統合クラス集合内のターゲット・クラスに対する予測値を第２の出力として推論することを含む。コンピュータ実装方法は、統合ソフト・ラベルと各サンプルの予測値との間の損失関数に基づいて、統合モデルを更新することも含む。コンピュータ実装方法は、更新された統合モデルを記憶することをさらに含む。これにより、本発明の好ましい実施形態のコンピュータ実装方法により訓練された統合モデルは、特に、個別の訓練済みモデルを訓練するために使用される訓練データを用いて集中型の教師ありの方式で直接訓練されたモデルに匹敵する高いパフォーマンスを示す。

【0009】

別の好ましい実施形態において、ある個別の訓練済みモデルの第１の出力における各予測値と、ある個別の訓練済みモデルの個別のクラス集合によって正規化された統合モデルの第２の出力における対応する予測値との間の関係は、同等性を示す。これにより、個別の訓練済みモデルの予測内の欠損しているターゲット・クラスに対して不適切な教師あり学習（supervision）を提供することが回避され、このような不適切な教師あり学習による統合モデルのパフォーマンスの低下を防止することが可能である。

【0010】

他の好ましい実施形態において、損失関数は、統合クラス集合内のターゲット・クラスに対する重み付けによって重み付けされる。あるターゲット・クラスの各重み付けは、コレクションを通じてあるターゲット・クラスに関する統合ソフト・ラベルの統計値に基づく方法で計算される。これにより、個別の訓練済みモデルの訓練データにおける、特定のクラスを他のクラスよりも優先する可能性があるバイアスが、統合モデルに転送されるのを防止することが可能である。

【0011】

特定の実施形態において、統合ソフト・ラベルは、統合モデルの第２の出力に対応する分布ｑに関する目的関数を最適化する問題を解くことによって推定される。目的関数は、複数の予測に対応する複数の参照分布ｐ_ｉと複数の正規化された分布ｑ_ｉ ^＾との間の誤差を測定し、複数の正規化された分布ｑ_ｉ ^＾のそれぞれは、各個別のクラス集合内のターゲット・クラスに対する分布ｑを正規化することによって取得される。

【0012】

他の特定の実施形態において、統合ソフト・ラベルは、少なくとも統合モデルの第２の出力ｑを変数として表す出力ベクトルｕに関する目的関数を最適化する問題を行列因数分解に基づく方法で解くことによって推定される。統合ソフト・ラベルは、確率またはロジットの形式で表される。

【0013】

別の好ましい実施形態において、コンピュータ実装方法は、複数の個別の訓練済みモデルのそれぞれについて、個別のクラス集合のコンテンツと共に（ｉ）個別の訓練済みモデル自体のコンテンツ、または（ｉｉ）各サンプルを個別の訓練済みモデルに供給することによって取得されたソフト・ラベル・コレクションを受け取ることを含む。これにより、個別の訓練済みモデルを訓練するために使用される訓練データのデータ転送は必要なくなる。個別の訓練済みモデルのコンテンツ、および個別の訓練済みモデルから取得されたソフト・ラベル・コレクションは生データではなく、一般にその訓練データよりもコンパクトである。また、個別の訓練済みモデルのモデル・アーキテクチャに対する制約も少なくなる。したがって、これは、モデル・アーキテクチャ、計算、データの可用性、および機密性の制約のうちの少なくとも１つが存在する状況において好ましい。

【0014】

本発明の他の実施形態によれば、統合モデルを訓練するためのコンピュータ実装方法が提供される。コンピュータ実装方法は、サンプルのコレクションを準備することを含む。コンピュータ実装方法は、サンプルごとに、複数の個別の訓練済みモデルによって生成された複数の予測を取得することも含み、各個別の訓練済みモデルは、複数のターゲット・クラスを含む統合クラス集合を少なくとも部分的に形成するための個別のクラス集合を有する。コンピュータ実装方法は、サンプルごとの複数の予測、および各個別の訓練済みモデルの第１の出力と統合クラス集合内のターゲット・クラスに対する統合モデルの第２の出力とを接続する関係を使用して、統合クラス集合を有する統合モデルを更新することをさらに含む。

【0015】

本発明の他の実施形態のコンピュータ実装方法によれば、統合モデルは、統合モデルの出力と合致する方法で複数の個別の訓練済みモデルによって生成された出力を使用して更新されるので、個別の訓練済みモデルが、統合モデルの統合クラス集合内に異なるターゲット・クラスの部分集合を有する場合でも、個別の訓練済みモデルの知識を統合モデルに転送することが可能である。本発明の他の実施形態のコンピュータ実装方法により訓練された統合モデルは、特に、個別のモデルの訓練データを用いて集中型の教師ありの方式で直接訓練されたモデルに匹敵する高いパフォーマンスを示す。さらに、統合ソフト・ラベルを推定する際の誤差の蓄積が統合モデルの訓練に対して伝播するのを防止することが可能である。

【0016】

特定の実施形態において、コンピュータ実装方法は、各サンプルを統合モデルに供給して、統合クラス集合内のターゲット・クラスに対する予測値を第２の出力として推論することも含み、統合モデルは、予測値を使用して更新される。コンピュータ実装方法は、更新された統合モデルを記憶することをさらに含む。

【0017】

さらなる特定の実施形態において、統合モデルはニューラル・ネットワークを含み、統合モデルは、ニューラル・ネットワーク全体に損失を逆伝播することによって更新され、損失は、複数の予測に対応する複数の参照分布ｐ_ｉと、各個別のクラス集合内のターゲット・クラスに対する分布ｑを正規化することによって取得された複数の正規化された分布ｑ_ｉ ^＾との間の誤差を測定し、分布ｑは、統合モデルによって推論された予測値として取得される。

【0018】

特定の実施形態において、統合モデルはニューラル・ネットワークを含み、統合モデルは、ニューラル・ネットワーク全体に損失を逆伝播することによって更新され、損失は、統合モデルの第２の出力を表す出力ベクトルｕおよび他の変数を用いて目的関数を最適化する問題を行列因数分解に基づく方法で解くことによって取得され、出力ベクトルｕは、統合モデルによって推論された予測値として取得され、問題において固定される。

【0019】

本発明の１つまたは複数の態様に関連するコンピュータ・システムおよびコンピュータ・プログラム製品も、本明細書において記載され、特許請求される。

【0020】

本発明の技術を通して、追加の特徴および利点が実現される。本発明の他の実施形態および態様が、本明細書に詳細に記載されており、特許請求される発明の一部と見なされる。

【0021】

本明細書の結論の特許請求の範囲では、本発明とされる主題を具体的に取り上げ、明確に特許請求している。添付図面と併せて行う以下の詳細な説明から、本発明の前述および他の特徴ならびに利点が明らかになる。

【図面の簡単な説明】

【0022】

【図1】本発明の例示的な一実施形態による、知識蒸留システムを用いた訓練方式を示す図である。

【図2】本発明の例示的な実施形態による、知識蒸留システムおよび知識蒸留システム周辺の関連するコンポーネントのブロック図である。

【図3】本発明の例示的な実施形態による、個別の分類器の出力と統合分類器の出力とを接続する確率論的関係を直観的に説明する概略図である。

【図4】本発明の例示的な一実施形態による、複数の個別の分類器を用いて統合分類器を訓練するための知識蒸留プロセスを示す流れ図である。

【図5】本発明の他の例示的な実施形態による、知識蒸留システムのブロック図である。

【図6】本発明のさらに他の例示的な実施形態による、知識蒸留システムのブロック図である。

【図7】本発明のさらに他の例示的な実施形態による、個別の分類器を用いて統合分類器を訓練するための知識蒸留プロセスを示す流れ図である。

【図8A】ラベルなしの集合のサイズを変化させた感度分析の結果を示す図である。

【図8B】温度を変化させた感度分析の結果を示す図である。

【図8C】個別の分類器の正確度を変化させた感度分析の結果を示す図である。

【図9】本発明の１つまたは複数の実施形態による、コンピュータ・システムの概略図である。

【発明を実施するための形態】

【0023】

次に、本発明について特定の実施形態を使用して説明するが、以下に説明する実施形態は、例としてのみ言及されていると理解され、本発明の範囲を限定することを意図するものではない。

【0024】

本発明による１つまたは複数の実施形態は、ターゲット・クラスの異なる集合（個別のクラス集合と呼ぶ）をそれぞれ有し得る複数の個別の教師モデルから取得されたデータを使用することによって、ターゲット・クラスの集合（統合クラス集合と呼ぶ）を有する生徒統合モデルを訓練するために使用され得る統合ソフト・ラベルを生成するための、コンピュータ実装方法、コンピュータ・システム、およびコンピュータ・プログラム製品を対象とする。

【0025】

本発明による１つまたは複数の他の実施形態は、それぞれの個別のクラス集合を有する複数の個別の教師モデルから取得されたデータを使用することによって、ターゲット・クラスの統合クラス集合を有する生徒統合モデルを訓練するための、コンピュータ実装方法、コンピュータ・システム、およびコンピュータ・プログラム製品を対象とする。

【0026】

最初に、一連の図１～図５を参照して、本発明の例示的な実施形態による、生徒モデルおよび教師モデルがそれぞれのターゲット・クラスを有する分類器であり、個別の教師分類器から取得されたデータを使用して生徒統合分類器のための統合ソフト・ラベルを推定する知識蒸留のフレームワークにおいて、複数の個別の教師モデルを用いて生徒統合モデルを訓練するためのコンピュータ・システムおよび方法について説明する。

【0027】

次いで、一連の図６および図７を参照して、本発明の他の例示的な実施形態による、生徒モデルおよび教師モデルがそれぞれのターゲット・クラスを有する分類器であり、統合ソフト・ラベルを最初に推定する必要なしに、個別の教師分類器から取得されたデータを使用して生徒統合分類器を更新する知識蒸留のフレームワークにおいて、複数の個別の教師モデルを用いて生徒統合モデルを訓練するためのコンピュータ・システムおよび方法について説明する。

【0028】

さらに、図８を参照して、本発明の例示的な実施形態による新規な知識蒸留を用いた画像分類に関する実験的研究について説明する。最後に、図９を参照して、本発明の１つまたは複数の実施形態によるコンピュータ・システムのハードウェア構成について説明する。

【0029】

図１および図２を参照して、本発明の例示的な実施形態による画像分類のための知識蒸留システム１３０について説明する。

【0030】

図１は、知識蒸留システム１３０を使用する訓練方式を示す。図１に示すように、中央コンピューティング・システム１２０および複数のデータ・ソース１１０－１～１１０－Ｎが存在する。

【0031】

図１に、各データ・ソース１１０のコンポーネントが示されている。各データ・ソース１１０には、訓練データ・コレクション１１２、訓練モジュール１１４、および個別の分類器１１６が存在する。各データ・ソース１１０において、個別の分類器１１６は、訓練データ・コレクション１１２を使用して訓練モジュール１１４によって訓練される。一般に、各データ・ソース１１０は、権利および義務を有するエンティティによって管理され、そのようなエンティティには、いくつかの例を挙げると、個人、会社、企業、教育機関、医療機関が含まれ得る。

【0032】

各訓練データ・コレクション１１２は、訓練データのコレクションを格納し、各訓練データは、画像と、画像に割り当てられたクラス・ラベルとを含む。訓練データ・コレクション１１２に格納された訓練データは、データ・ソース１１０内に保持されるべきプライバシーまたは機密情報あるいはその両方を含んでもよい。訓練データ・コレクション１１２－１～１１２－Ｎに格納される訓練データの多様性および量は、一般に、そのデータの可用性によって互いに異なる。説明する実施形態では、各訓練データは、クラス・ラベルが割り当てられた画像を含むことに留意されたい。しかしながら、異なる分類タスクを伴う他の実施形態では、各訓練データに含まれるデータは、画像に限定されず、他のデータ・タイプ、例えば、音声認識タスクのためのオーディオ記録としてもよい。

【0033】

個別の分類器１１６は、ニューラル・ネットワーク・ベースの分類モデル（例えば、ＤＮＮ（ディープ・ニューラル・ネットワーク）、ＣＮＮ（畳み込みニューラル・ネットワーク）、ＲＮＮ（再帰型ニューラル・ネットワーク）、およびそれらの変形）、決定木または決定フォレスト・ベースの分類モデル（例えば、ランダム・フォレスト）、最近傍ベースの分類モデル、ならびにサポート・ベクタ・マシン（ＳＶＭ）ベースの分類モデル（標準的なＳＶＭを、個別の分類器１１６として機能するように変更することができる）を含むがこれらに限定されない、知られている分類モデルのうちのいずれかとすることができる。また、各個別の分類器１１６は、単一の分類モデルに限定されない場合があり、複数の分類モデル（例えば、バギング、ブースティング、混合エキスパートなど）のアンサンブルとすることができる。個別の分類器１１６は、訓練モジュール１１４によって、画像が各ターゲット・クラスに属する確率を予測するように訓練される。これらの個別の分類器１１６－１～１１６－Ｎは、異なるアーキテクチャを有してもよく、ターゲット・クラスの異なる集合（個別のクラス集合）を分類するように訓練されてもよく、したがって「異種分類器」と呼ばれる。

【0034】

各訓練モジュール１１４は、訓練される個別の分類器１１６の対応するアーキテクチャに適した学習アルゴリズムを実装する。各訓練モジュール１１４は、訓練データ・コレクション１１２に格納された訓練データを使用することによって、個別の分類器１１６を訓練するように構成される。

【0035】

図１を参照すると、中央コンピューティング・システム１２０のコンポーネントも示されている。中央コンピューティング・システム１２０は、転送コレクション（transfer collection）１２４と、知識蒸留システム１３０と、統合分類器１２６とを含む。中央コンピューティング・システム１２０において、統合分類器１２６は、転送コレクション１２４を使用して知識蒸留システム１３０によって訓練される。中央コンピューティング・システム１２０は、データ・ソース１１０－１～１１０－Ｎのエンティティとは異なり得るエンティティによって管理され、したがって、訓練データ・コレクション１１２－１～１１２－Ｎから中央コンピューティング・システム１２０へのデータ転送は、通常、制限される。

【0036】

本発明の例示的な実施形態による新規な知識蒸留の目的は、プライバシーまたは機密性あるいはその両方の懸念をもたらし得る複数のデータ・ソース１１０－１～１１０－Ｎにわたって分散された訓練データを転送することなく、データ・ソース１１０－１～１１０－Ｎの知識を単一の統合モデルに統合することである。

【0037】

この訓練方式では、複数のデータ・ソース１１０－１～１１０－Ｎにわたって分散された知識をまとめるために、各エンティティに必要とされることは、それらの訓練済みの個別の分類器１１６－１～１１６－Ｎおよびそのクラス名を中央コンピューティング・システム１２０に転送することだけである。中央コンピューティング・システム１２０において、知識蒸留システム１３０は、転送された個別の分類器１２２－１～１２２－Ｎを受け取り、それらを知識蒸留システム１３０のリソース上で実行する。次いで、知識蒸留システム１３０は、転送された個別の分類器１２２－１～１２２－Ｎを転送コレクション１２４と共に活用することによって、統合分類器１２６を訓練する。

【0038】

データ・ソース１１０－１～１１０－Ｎの知識は、訓練済みの個別の分類器１２２－１～１２２－Ｎに蓄積されるので、単一の統合分類器１２６がすべての個別の分類器１１６－１～１１６－Ｎのすべてのターゲット・クラスを分類できるように、分散された知識を単一の統合分類器１２６に統合することが可能である。

【0039】

一般に、個別の分類器１１６のコンテンツは、訓練データ・コレクション１１２に格納されている訓練データ全体よりもコンパクトである。したがって、この訓練方式は、帯域幅の制約（例えば、非常に大きいデータセット）などのリソース制限が存在する状況において好ましい。

【0040】

図２は、知識蒸留システム１３０および知識蒸留システム１３０周辺の関連するコンポーネントのブロック図である。図２に示すように、知識蒸留システム１３０は、ソフト・ラベル生成モジュール１３２と、統合モデル訓練モジュール１３４とを含む。生徒モデルとして訓練される統合分類器１２６、および教師モデルとしてすでに訓練された複数の個別の分類器１２２－１～１２２－Ｎが存在する。

【0041】

転送コレクション１２４は、転送データのコレクションを格納し、各転送データは、画像分類を目標としている場合は画像を含み得る。転送データは、知識を統合分類器１２６に転送するために使用されるデータである。転送データ（またはサンプル）は、転送コレクション１２４から抽出され、教師の分類器１２２および生徒の分類器１２６のそれぞれに入力として供給される。特定の実施形態において、転送コレクション１２４に格納された画像は、ハード・ラベルを割り当てられる必要がなく、プライバシーおよび機密情報を含まない場合がある。公開されている画像データセット内または新規な知識蒸留のために収集された他の画像データセット内あるいはその両方の任意の画像を、転送データとして使用してもよい。説明する実施形態では、各転送データが画像を含むことに留意されたい。しかしながら、異なる分類タスクを伴う他の実施形態では、各転送データは、他のデータ・タイプ、例えば、音声認識タスクのためのオーディオ録音を含んでもよい。

【0042】

統合分類器１２６は、知られているニューラル・ネットワーク・ベースの分類モデル（例えば、ＤＮＮ、ＣＮＮ、ＲＮＮ、およびこれらの変形）、決定木または決定フォレスト・ベースの分類モデル（例えば、ランダム・フォレスト）、最近傍ベースの分類モデル、およびＳＶＭベースの分類モデル（標準的なＳＶＭを、統合分類器１２６として機能するように変更することができる）のうちのいずれかとすることができる。統合分類器１２６は、知識蒸留システム１３０によって、画像が各ターゲット・クラスに属する確率を予測するように訓練される。統合分類器１２６は、個別の分類器１２２－１～１２２－Ｎとは異なるアーキテクチャを有してもよく、個別の分類器１２２－１～１２２－Ｎのものとは異なるターゲット・クラスの集合（統合クラス集合）を分類するように訓練されてもよい。統合クラス集合は、個別の分類器１２２－１～１２２－Ｎの個別のクラス集合の和集合とすることができ、したがって、個別のクラス集合内のすべての要素を含むことができる。

【0043】

知識蒸留システム１３０は、転送コレクション１２４を準備し、転送コレクション１２４から抽出された各転送データを個別の分類器１２２－１～１２２－Ｎに供給するように構成される。各個別の分類器１２２は、転送データの画像が各ターゲット・クラスに属する確率を推論し、予測を出力として生成する。予測は、個別のクラス集合内のターゲット・クラスに対する確率またはロジットを含んでもよい。

【0044】

ソフト・ラベル生成モジュール１３２は、転送データ（またはサンプル）ごとに、個別の分類器１２２－１～１２２－Ｎによって生成された予測を取得するように構成される。複数の個別の分類器１２２－１～１２２－Ｎから取得された複数の予測は、知識蒸留のための統合ソフト・ラベルを生成するための一次データとして使用される。ソフト・ラベル生成モジュール１３２は、転送データ（またはサンプル）ごとに、本明細書において新たに導出された確率論的関係を使用して、統合クラス集合内のターゲット・クラスに対する統合ソフト・ラベルを予測から推定するようにさらに構成される。確率論的関係は、各個別の分類器１２２の出力と統合分類器１２６の出力とを接続するか、または関連付ける。確率論的関係に関するさらなる詳細については、後に説明する。統合ソフト・ラベルを取得した後、ソフト・ラベル生成モジュール１３２は、統合ソフト・ラベルを統合モデル訓練モジュール１３４に出力する。統合ソフト・ラベルは、クラスの識別情報がワン・ホット・ハード・ラベルほど決定論的ではないので、「ソフト」ラベルと呼ばれる。

【0045】

統合モデル訓練モジュール１３４は、統合分類器１２６の対応するアーキテクチャに適した学習アルゴリズムを実装し、転送データごとに推定された統合ソフト・ラベルを使用することによって、統合分類器１２６を教師ありの方式で訓練するように構成される。統合分類器１２６としてニューラル・ネットワーク・ベースのモデルが採用される場合、逆伝播アルゴリズムが使用されてもよい。

【0046】

より具体的には、統合モデル訓練モジュール１３４は、各転送データ（またはサンプル）を統合分類器１２６に供給して、転送データの画像が各ターゲット・クラスに属する確率を推論し、出力を取得するように構成される。統合分類器１２６の出力は、統合クラス集合内のターゲット・クラスに対する確率またはロジットを含んでもよい。統合モデル訓練モジュール１３４は、統合ソフト・ラベルと、サンプルごとの統合分類器１２６の出力との間の損失関数に基づいて、統合分類器１２６（そのパラメータ）を反復してさらに更新するように構成される。訓練プロセスが完了すると、統合モデル訓練モジュール１３４は、統合分類器１２６を適切な記憶デバイスに記憶する。

【0047】

以下では、図２をさらに参照して、新規な知識蒸留に関するさらなる詳細について説明する。ここでは、異種分類器を用いた新規な知識蒸留を、次のように定義する。ラベルなし画像の集合を有する転送コレクション１２４をＵとする。Ｎ個の個別の分類器１２２－１～１２２－Ｎの集合をＣ＝｛Ｃ_１，Ｃ_２，．．．，Ｃ_Ｎ｝とする。入力画像ｘは、転送コレクション１２４（Ｕ）から抽出されて、個別の分類器１２２－１～１２２－Ｎ｛Ｃ_１，Ｃ_２，．．．，Ｃ_Ｎ｝に入力され、各個別の分類器１２２（Ｃ_ｉ）は、画像が個別のクラス集合Ｌ_ｉに含まれるクラスｌ_ｊに属する確率ｐ_ｉ（Ｙ＝ｌ_ｊ）を予測するように訓練されている。

【0048】

ＵおよびＣを考慮すると、目標は、入力画像が統合クラス集合Ｌ_Ｕに含まれるクラスｌ_ｊに属する確率ｑ（Ｙ＝ｌ_ｊ）を推定する統合分類器１２６（Ｃ_Ｕ）を訓練することであり、ここで、

【数1】

である。

【0049】

個別の分類器１２２（Ｃ_ｉ）が、ターゲット・クラスの異なる集合を分類するように訓練されてもよいこと、すなわち、その場合、ｉがｊでないとき、ある個別のクラス集合Ｌ_ｉが他の個別のクラス集合Ｌ_ｊと等しくない場合があること、またはある個別のクラス集合｜Ｌ_ｉ｜内のクラス数が他の個別のクラス集合｜Ｌ_ｊ｜内のクラス数と等しくない場合さえあること、あるいはその両方であることに留意されたい。

【0050】

一般に、知識蒸留は、ラベルなしデータの集合Ｕから複数の教師モデルＣ_ｉを単一のモデルＣ_Ｕに圧縮するために使用されるアルゴリズムのクラスである。標準的な蒸留は、次式、

【数2】

のように、個別のクラス集合がすべて同じであり（Ｌ_ｉ＝Ｌ_ｊ，∀（ｉ，ｊ））、教師モデルＣ_ｉの出力ｐ_ｉと生徒モデルＣ_Ｕの出力ｑとの間の交差エントロピを最小化することによって生徒モデルＣ_Ｕが訓練され得るという事例に対応する。

【0051】

本質的に、教師モデルＣ_ｉの出力ｐ_ｉは、生徒モデルＣ_Ｕを訓練する際に、ラベルなしデータの集合Ｕのためのソフト・ラベルとして使用される。ニューラル・ネットワークの場合、確率は通常、次式、

【数3】

のようにソフトマックス関数を用いて計算され、ここで、ｚ_ｌはクラスｌのロジット（ソフトマックス前の活性化）であり、Ｔは調整可能な温度パラメータを示す。Ｔの高さが適切であるときに式（１）に示す交差エントロピを最小化することは、ｐ_ｉのロジットとｑのロジットと間のＬ２誤差を最小化することと同様であり、それによって交差エントロピの最小化をロジットのマッチングに関連付ける。

【0052】

しかしながら、標準的な蒸留の主な問題は、ある個別のクラス集合Ｌ_ｉが他の個別のクラス集合Ｌ_ｊと等しくない場合があるという、より一般的な事例に対処できないことに起因する。前述の式（１）は、生徒モデルＣ_Ｕと教師モデルＣ_ｉがターゲット・クラスの同じ集合を共有するものと仮定している（Ｌ_ｉ＝Ｌ_ｊ，＝Ｌ_Ｕ）。

【0053】

しかしながら、異種分類器では、各教師モデルＣ_ｉは、個別のクラス集合Ｌ_ｉ内のクラスを予測するように訓練され、したがって、統合クラス集合Ｌ_Ｕ内のターゲット・クラスの集合として定義されるが個別のクラス集合Ｌ_ｉの外にある集合Ｌ_－ｉに含まれるｌに対して、ｐ_ｉ（Ｙ＝ｌ）は未定義である。教師モデルＣ_ｉと生徒モデルＣ_Ｕとの間の出力の不一致に対する単純な解決策は、集合Ｌ_－ｉに含まれるｌに対して、単にｐ_ｉ（Ｙ＝ｌ）＝０を設定することである。しかしながら、このような単純な解決策では誤差が生じる可能性があり、例えば、教師モデルＣ_ｉが猫を分類しない場合に「猫」画像のｐ_ｉ（Ｙ＝猫）をゼロに設定することがあり、これは不適切な教師あり学習となる。

【0054】

標準的な蒸留の制限を克服するために、各個別の分類器１２２（Ｃ_ｉ）の出力ｐ_ｉと統合分類器１２６（Ｃ_Ｕ）の出力ｑとを関連付ける確率論的関係を導入する。個別のクラス集合Ｌ_ｉは統合クラス集合Ｌ_Ｕの部分集合であるので、確率ｐ_ｉ（Ｙ＝ｌ）は、ＹがＬ_－ｉに含まれ得ない場合、Ｙ＝ｌの確率ｑと見なされる。これは、次の微分につながる。

【数4】

【0055】

式（６）は、ある個別の分類器１２２（Ｃ_ｉ）の出力における各予測値ｐ_ｉ（Ｙ＝ｌ）と、ある個別の訓練済みモデル１２２（Ｃ_ｉ）の個別のクラス集合Ｌ_ｉによって正規化された統合分類器１２６（Ｃ_Ｕ）の出力における対応する予測値ｑ（Ｙ＝ｌ）との間の同等性を示す。

【0056】

図３は、個別の分類器１２２（Ｃ_ｉ）の出力と統合分類器１２６（Ｃ_Ｕ）の出力とを接続する確率論的関係の概略図である。図３に示すように、個別の分類器１２２（Ｃ_ｉ）は、統合分類器１２６（Ｃ_Ｕ）の部分クラスを出力するものと考えることができる。

【0057】

本発明の１つまたは複数の実施形態による新規な知識蒸留では、この確率論的関係に基づいて、交差エントロピ最小化ベースの技術および欠損しているエントリを伴う行列因数分解ベースの技術を含む２つのクラスの技術が提供される。これらの両方の技術により、統合クラス集合Ｌ_Ｕ内のすべてのクラスに対して、ラベルなしサンプルｘから統合ソフト・ラベルｑを推定し、統合ソフト・ラベルｑを使用して統合分類器１２６を訓練することが可能になる。交差エントロピ・ベースの技術および行列因数分解ベースの技術に関するさらなる詳細については、後に説明する。

【0058】

特定の実施形態において、図１に記載の中央コンピューティング・システム１２０の各モジュール１２２、１２６、１３０、ならびに図２に示す知識蒸留システム１３０の各サブモジュール１３２および１３４は、処理回路（例えば、ＣＰＵ（中央処理装置）、ＧＰＵ（グラフィック処理装置）、ＦＰＧＡ（フィールド・プログラマブル・ゲート・アレイ））、メモリなどのハードウェア・コンポーネントと組み合わせて、プログラム命令またはデータ構造あるいはその両方を含むソフトウェア・モジュールとして、電子回路（例えば、ニューロモルフィック・チップ）を含むハードウェア・モジュールとして、またはそれらの組合せとして実装され得るが、これらに限定されない。

【0059】

図１および図２に記載のこれらのモジュール１２２、１２６、１３０、１３２、および１３４は、パーソナル・コンピュータおよびサーバ・マシンなどの単一のコンピュータ・システム、またはコンピューティング・デバイスのコンピュータ・クラスタなどの複数のコンピューティング・デバイスにわたって分散されたコンピュータ・システム上に実装されてもよい。転送コレクション１２４および個別の分類器１２２－１～１２２－Ｎのコンテンツは、中央コンピューティング・システム１２０がアクセスできる任意の内部または外部の記憶デバイスまたは記憶媒体に記憶されてもよい。

【0060】

また、図１に記載のデータ・ソース１１０内の各モジュール１１４、１１６は、ソフトウェア・モジュールとして、ハードウェア・モジュールとして、またはそれらの組合せとして実装され得るが、これらに限定されない。図１に記載のこれらのモジュール１１４、１１６は、単一のコンピュータ・システム、または複数のコンピューティング・デバイスにわたって分散されたコンピュータ・システム上に実装されてもよい。訓練データ・コレクション１１２は、モジュール１１４を実装するコンピュータ・システムがアクセスできる任意の内部または外部の記憶デバイスまたは記憶媒体に記憶されてもよい。

【0061】

個別の分類器１２２は、中央コンピューティング・システム１２０のローカル上に配置される必要はないことに留意されたい。個別の分類器１２２がネットワークを介して利用可能であれば十分である。したがって、個別の分類器１２２を準備することは、個別の分類器１２２をローカル・コンピュータ・システムのメモリ空間に読み取ることによって個別の分類器１２２を利用可能にすること、または転送データ（サンプル）を個別の分類器１２２に供給することができ、かつ転送データ（サンプル）の結果として得られる予測を個別の分類器１２２から受け取ることができるように、リモート・コンピュータ・システム上で動作する個別の分類器１２２との接続を確立することを意味する。

【0062】

さらに、１つまたは複数の実施形態では、中央コンピューティング・システム１２０からの個別の分類器１２２へのアクセスさえも必要ない。この状況では、転送コレクション１２４のコンテンツは、各データ・ソース１１０に与えられ、エンティティは、転送コレクション１２４内の各サンプルを個別の分類器１２２に供給することによって取得されたソフト・ラベル・コレクション、およびそのクラス名を転送するように要求される。次いで、知識蒸留システム１３０は、ソフト・ラベル・コレクションおよびクラス名を受け取る。

【0063】

図４を参照すると、統合分類器１２６を訓練するための知識蒸留プロセスを示す流れ図が示されている。図４に示すように、プロセスは、知識蒸留プロセスを開始するよう求める要求をオペレータから受信したことに応答して、ステップＳ１００で開始してもよい。この要求において、個別の分類器１２２－１～１２２－Ｎ｛Ｃ_１，Ｃ_２，．．．，Ｃ_Ｎ｝の集合、統合分類器１２６（Ｃ_Ｕ）の構成、および転送コレクション１２４（Ｕ）が指定されてもよい。図４に示すプロセスが、中央コンピューティング・システム１２０内の１つまたは複数の処理ユニットなどの処理回路によって実行されてもよいことに留意されたい。

【0064】

ステップＳ１０１において、処理回路は、転送コレクション１２４（Ｕ）、およびすでに訓練された個別の分類器１２２－１～１２２－Ｎ｛Ｃ_１，Ｃ_２，．．．，Ｃ_Ｎ｝を準備してもよい。ステップＳ１０２において、処理回路は、統合分類器１２６を初期化してもよい。ステップＳ１０１で準備された各個別の分類器１２２は、対応する個別のクラス集合Ｌ_ｉを有し、一方、ステップＳ１０２で準備された統合分類器１２６は、個別のクラス集合Ｌ_ｉの和集合である統合クラス集合Ｌ_Ｕを有する。

【0065】

ステップＳ１０３において、処理回路は、転送コレクション１２４（Ｕ）からサンプルｘを読み取ってもよい。ステップＳ１０４において、処理回路は、サンプルｘを各個別の分類器１２２（Ｃ_ｉ）に供給することによって、複数の予測ｐ_ｉを取得してもよい。ステップＳ１０５において、処理回路は、前述の確率論的関係を使用して、予測ｐ_ｉから、統合クラス集合Ｌ_Ｕのすべてのターゲット・クラスに対する統合ソフト・ラベルｑを推定してもよい。

【0066】

交差エントロピ・ベースの手法
以下では、交差エントロピの最小化に基づいた統合ソフト・ラベルｑを推定するための第１の方法について説明する。確率論的関係（６）に基づいて、前述のコスト関数（１）を、次のコスト関数、

【数5】

に一般化することができ、ここで、

【数6】

である。

【0067】

前述の式（１）と式（７）の違いは、確率ｑの正規化にある。具体的には、各個別の分類器１２２（Ｃ_ｉ）の交差エントロピは、確率ｐ_ｉ（Ｙ＝ｌ）と、個別のクラス集合Ｌ_ｉのターゲット・クラスに対する正規化された確率ｑ_ｉ ^＾（Ｙ＝ｌ）との間で計算される。式（７）によれば、欠損しているターゲット・クラスＬ_－ｉに対して任意に定義されたｐ_ｉ（Ｙ＝ｌ）の値は、必要ない。

【0068】

統合クラス集合Ｌ_Ｕ内のすべてのクラスに対して確率ｐ^－が存在すると仮定すると、

【数7】

である場合、ｑ＝ｐ^－はコスト関数（７）の大域的最小値である。これは、コスト関数（７）の大域的最小値の形式を確立し、コスト関数（７）を最小化することにより、真の基礎となる確率ｐ^－が存在する場合にそれが得られることを確立する。

【0069】

確率分布ｑが与えられると、前述のコスト関数（７）は、それぞれが１つの個別の分類器１２２（Ｃ_ｉ）の予測に対応する、複数の参照確率分布ｐ_ｉ（Ｙ＝ｌ）と、それぞれが各個別のクラス集合Ｌ_ｉ内のターゲット・クラスに対して与えられた確率分布ｑを正規化することによって取得される、複数の正規化された分布ｑ_ｉ ^＾（Ｙ＝ｌ）との間の誤差を測定する。確率分布ｑに関する前述のコスト関数（７）を最小化することによって、最適分布ｑが、統合クラス集合Ｌ_Ｕのすべてのターゲット・クラスに対する統合ソフト・ラベルとして取得される。説明する実施形態では、コスト関数は目的関数として使用されており、したがって、目的関数を最適化する問題は、コスト関数を最小化することである。

【0070】

前述のコスト関数（７）の最小化を、幾何学的プログラムに変換することができ、次いで、幾何学的プログラムを凸問題に変換して、効率的に解くことができる。要するに、新しい一時変数ｕ_ｌ（∈Ｒ）は、統合クラス集合Ｌ_Ｕに含まれる各クラスｌに与えられ、各一時変数ｕ_ｌは、確率ｑ（Ｙ＝ｌ）の対数関数で表される（すなわち、ｕ_ｌ＝ｌｏｇｑ（Ｙ＝ｌ））。したがって、特定の実施形態において、前述の式（７）を、次式

【数8】

に変換することができ、この関数は、新しい一時変数｛ｕ_ｌ｝_ｌのスケーリングされたｌｏｇ－ｓｕｍ－ｅｘｐの合計であるので、一時変数｛ｕ_ｌ｝_ｌにおいて凸である。式（９）を、勾配降下法などの適切な方法を使用して最小化することができる。確率分布ｑは、凸問題におけるそれぞれの一時変数ｕ_ｌの指数関数（すなわち、ｅｘｐ（ｕ_ｌ））の集合によって表されるので、最適な一時変数｛ｕ_ｌ｝_ｌが取得されると、最適な一時変数｛ｕ_ｌ｝_ｌは、前述のソフトマックス関数（２）によって確率の形式のｑに変換される。確率分布ｑ、したがって統合ソフト・ラベルは、この凸問題を解くことによって取得することができる。説明する実施形態では目的関数として交差エントロピ関数が使用されているが、他の実施形態では、カルバック・ライブラ（ＫＬ：Kullback-Leibler）ダイバージェンスもまた目的関数として使用することができ、その理由は、ＫＬダイバージェンスと交差エントロピが一般に異なる場合でも、交差エントロピおよびＫＬダイバージェンスは、最適化されたときに同じ解を提供するという意味で同等であるからである。

【0071】

行列因数分解ベースの手法
以下では、欠損しているエントリを伴う行列因数分解に基づく統合ソフト・ラベルｑを推定するための手法の第２のクラスについて説明する。異種分類器を統合する問題を、ソフト・ラベルの不完全な行列を埋める問題と位置付けることが可能である。以下では、行列因数分解を使用して予測｛ｐ_ｉ｝_ｉの集合から統合ソフト・ラベルｑを復元する３つの方法について説明する。

【0072】

確率空間での行列因数分解
確率行列Ｐ∈［０，１］^ＬｘＮについて考える。ここで、Ｐ_ｌｉ（行ｌおよび列ｉの要素）は、ｌが個別のクラス集合Ｌ_ｉに含まれている場合はｐ_ｉ（Ｙ＝ｌ）に設定され、そうでない場合はゼロ（０）に設定される。確率行列Ｐは、欠損しているエントリを伴う確率の形式で予測ｐ_ｉを表す。これらの欠損している予測を考慮するために、マスク行列Ｍ∈［０，１］^ＬｘＮが定義され、ここで、Ｍ_ｌｉ（行ｌおよび列ｉの要素）は、ｌが個別のクラス集合Ｌ_ｉに含まれている場合はイチ（１）であり、そうでない場合はゼロ（０）である。マスク行列Ｍは、個別のクラス集合Ｌ_ｉ内に欠損しているクラスが存在することを表す。

【0073】

式（６）におけるｐ_ｉとｑとの間の確率論的関係を使用して、確率行列Ｐを、

【数9】

のように、ベクトルのマスクされた積に因数分解することができ、丸で囲んだ点はアダマール積を表す。ここでは、ベクトルｕは、確率の形式で表された分布ｑを含む出力ベクトルであり、ベクトルｖ内の各要素は、各個別の訓練済みモデル（Ｃ_ｉ）の正規化係数を含み、したがって、ベクトルｖを正規化ベクトルｖと呼ぶ。

【0074】

この形式では、確率出力ベクトルｕは、次のランク１行列補完問題、

【数10】

を解くことによって推定することができ、ここで、｜｜．｜｜_Ｆはフロベニウス・ノルムを示し、０_ｋおよび１_ｋは、サイズｋのゼロのベクトルおよびサイズｋのイチのベクトルを示す。

【0075】

ここでは、式（１２）は、変数としての出力ベクトルｕおよび正規化ベクトルｖに関する目的関数を最適化する問題を表し、目的関数は、マスク行列Ｍを用いて、欠損しているエントリを伴う確率行列Ｐと、出力ベクトルｕと正規化ベクトルｖの積との間の誤差を測定する。制約（１４）は、正規化ベクトルｖが非負ベクトルであることを保証する。制約（１３、１４）は、出力ベクトルｕが確率ベクトルであることを保証する。この定式化は、非負行列因数分解と見なすことができ、この非負行列因数分解は、例えば、出力ベクトルｕが各反復において合計が１になるように正規化される、交互最小二乗（ＡＬＳ：Alternating Least Square）法を使用することによって解くことができる。ゲージ自由度により、ベクトルｕにおけるこの正規化は、コスト関数に影響を与えない。

【0076】

ロジット空間での行列因数分解
上記のように、交差エントロピを最小化することと、個別の分類器１２２（Ｃ_ｉ）のロジットと統合分類器１２６（Ｃ_Ｕ）の間のＬ２距離との間には関係がある。したがって、低ランク行列因数分解をロジットに適用することができる。この定式化は、実際にはロジット・マッチングの一般化である。ｚ_ｌ ^ｉを、個別の分類器１２２（Ｃ_ｉ）のクラスｌの与えられたロジット出力とし、ｕを、推定されるロジット出力ベクトルとする。ニューラル・ネットワーク以外のアルゴリズムの場合、ロジットは、ｚ_ｌ ^ｉ＝ｌｏｇｐ_ｉ（Ｙ＝ｌ）を介して確率から取得することができる。ロジット行列Ｚ∈Ｒ^ＬｘＮについて考える。ここで、ｚ_ｌ ^ｉ（行ｌおよび列ｉの要素）は、ｌが個別のクラス集合Ｌ_ｉに含まれている場合はｚ_ｌ ^ｉであり、そうでない場合はゼロ（０）である。ロジット出力ベクトルｕ∈Ｒ^Ｌを推定する問題は、次式

【数11】

のように定式化することができ、ここで、ベクトルｃ∈Ｒ^Ｎは、ロジットにおけるシフトを処理するので、ロジット・シフト・ベクトルｃと呼ばれ、ｒ∈Ｒは、正則化を制御するハイパ・パラメータである。

【0077】

ロジット値のシフトは確率出力に影響を与えないが、個別の分類器の異なるシフトは、それを行列因数分解としてモデル化するように処理される。ここでは、スケーリング・ベクトルｖ∈Ｒ^Ｎを最適化することは、各個別の分類器１２２（Ｃ_ｉ）からのロジットの温度を最適化することに類似しており、確率に影響を与え得るロジットの符号反転を防ぐために、ロジット・スケーリング・ベクトルｖは非負に制約される。

【0078】

式（１５）は、変数としてのロジットの形式で表される出力ベクトルｕ、ロジット・スケーリング・ベクトルｖ、およびロジット・シフト・ベクトルｃに関する目的関数を最適化する問題を表し、目的関数は、マスク行列Ｍを用いて、欠損しているエントリを伴うロジット行列Ｚと、出力ベクトルｕとロジット・シフト・ベクトルｃによってシフトされたロジット・スケーリング・ベクトルｖの積との間の誤差を測定する。前述の式（１５）で定義される問題は、ベクトルｕ、ベクトルｖ、およびベクトルｃに対してＡＬＳを使用することによって解くことができる。ここでは、出力ベクトルｕに対する制約がないため、出力ベクトルｕは正規化されない。確率空間内の統合ソフト・ラベルｑは、前述のソフトマックス関数（２）を使用して出力ベクトルｕから取得されてもよく、ｕ_ｌおよびｑ_ｌは、ｚ_ｌおよびｐ（Ｙ＝ｌ）と見なされる。ｕからｑを復元することによって、取得されたソフト・ラベルｑを使用して、ソフト・ラベルを受け入れる統合分類器を訓練することができる。他の実施形態において、取得された出力ベクトルｕを直接使用して、ロジット（例えば、最後のソフトマックス層が除去されたニューラル・ネットワーク）を他のタイプのソフト・ラベルとして出力できる統合分類器を訓練してもよい。出力ベクトルｕにおけるロジットは表現における確率ｑとは異なるが、本明細書に記載の統合ソフト・ラベルには、ロジット空間内の値を含む。

【0079】

固定スケーリング・ベクトルｖを用いたロジット空間での行列因数分解
一方、ベクトルｖを変数として設定することによって、前述の式（１５）がロジットの異なるスケーリングを処理できるようになる。しかしながら、ｕｖ^Ｔにおけるゲージ自由度は、次式

【数12】

のように、ｕにおける任意のスケーリングにつながる可能性がある。

【0080】

次に、正則化は、ベクトルｕとベクトルｖのノルムが大きくなりすぎるのを防ぐのに役立つが、転送コレクション１２４（Ｕ）内のすべてのデータに対してうまく機能する単一の正則化ハイパ・パラメータｒを設定することは困難である。これらの問題に対処するために、スケーリング・ベクトルｖを１_Ｎに固定する、（１５）の別の定式化を提案することができる。スケーリング係数ｖが固定される場合、ベクトルｕのスケールはＺによって決定されるので、ベクトルｕの正則化は必要ない。さらに、新しい定式化は凸であり、大域最適性に対して解くことができる。固定スケーリング・ベクトルを用いてロジット出力ベクトルｕ∈Ｒ^Ｌを推定する問題は、次式

【数13】

のように、定式化することができる。

【0081】

式（１７）は、ロジットの形式で表される出力ベクトルｕおよびロジット・シフト・ベクトルｃに関する目的関数を最適化する問題を表し、目的関数は、マスク行列Ｍを用いて、欠損しているエントリを伴うロジット行列Ｚと、出力ベクトルｕとロジット・シフト・ベクトルｃによってシフトされた固定スケーリング・ベクトルの積との間の誤差を測定する。前述の式（１７）によって定義される問題は、ベクトルｕおよびベクトルｃに対する勾配降下法などの適切な方法で解くことができる。また、確率空間内の統合ソフト・ラベルｑは、ソフトマックス関数（２）を使用して、ロジット空間内の出力ベクトルｕから取得されてもよい。代替として、取得された出力ベクトルｕを直接使用して、ロジットを他のタイプのソフト・ラベルとして出力できる統合分類器を訓練してもよい。

【0082】

図４を再び参照すると、ステップＳ１０６において、処理回路は、同じサンプルを現在の統合分類器１２６に供給して、出力ｐ_Ｕを推論してもよい。ステップＳ１０７において、処理回路は、統合ソフト・ラベルｑと現在の統合分類器１２６の出力ｐ_Ｕとの間の損失関数に基づいて、現在の統合分類器１２６を更新してもよい。

【0083】

特定の実施形態において、統合分類器１２６を訓練するために使用される損失関数は、次の交差エントロピ関数、

【数14】

として表され、ここで、ｑは、疑似ラベルとして機能するステップＳ１０５で推定された統合ソフト・ラベルを表し、ｐ_Ｕは、パラメータθを有する現在の統合分類器１２６の統合クラス集合内のクラスに対する出力確率を表す。例示的な実施形態では、個別の分類器１２２を統合するための転送データとして、ラベルなしデータが使用され、したがって、中央コンピューティング・システム１２０でデータにラベル付けするための労力は必要ない。しかしながら、転送データに割り当てられたハード・ラベルが利用可能である場合、ハード・ラベルを使用して、訓練プロセス中にソフト・ラベルと交互または同時の方法で統合分類器１２６のパラメータθを更新してもよい。

【0084】

ステップＳ１０８において、処理ユニットは、終了条件が満たされているかどうかを判定してもよい。例えば、所定数のエポックが完了すると、終了条件が満たされていると判定される。処理ユニットが、ステップＳ１０８で終了条件がまだ満たされていないと判定した場合、プロセスは、さらなる反復のためにステップＳ１０３にループして戻ってもよい。一方、処理ユニットが、ステップＳ１０８で終了条件がすでに満たされていると判定した場合、プロセスは、ステップＳ１０９に進んでもよい。ステップＳ１０９において、処理ユニットは、現在の統合分類器１２６を記憶してもよく、プロセスは、ステップＳ１１０で終了してもよい。訓練の反復は、転送例（例えば、オンライン訓練）ごと、または転送例の所定のセット（例えば、バッチ訓練、ミニバッチ訓練）ごとに実行され得ることに留意されたい。

【0085】

以下では、図５を参照して、本発明の他の例示的な実施形態による知識蒸留システムについて説明する。図５は、本発明の他の例示的な実施形態による知識蒸留システムのブロック図である。図２に示す実施形態と図５に示す実施形態との間の違いは、知識蒸留システム１３０内にソフト・ラベル・ストア１３６および均衡化モジュール（balancing module）１３８が存在することである。

【0086】

上記のように、転送コレクション１２４（Ｕ）から抽出されたサンプルｘごとに、統合ソフト・ラベルｑが、複数の予測｛ｐ_ｉ｝_ｉから推定され、統合分類器１２６（Ｃ_Ｕ）を訓練するために使用される。しかしながら、場合によっては、転送コレクション１２４（Ｕ）全体から推定されたソフト・ラベルｑの集合は、不均衡である可能性がある。すなわち、推定された統合ラベルｑは、特定のクラスを他のクラスよりも優先することがあり、クラスの同じ集合に対してバイアスされるように統合分類器１２６（Ｃ_Ｕ）を訓練することにつながる可能性がある。このバイアスを打ち消すために、統合ソフト・ラベルｑを使用して統合分類器１２６（Ｃ_Ｕ）を訓練するときに、交差エントロピ損失に重み付けを適用することができ、各クラスｌの重みは、転送コレクション１２４（Ｕ）からのすべてのデータに対する確率ｑ（Ｙ＝ｌ）の静的変数（static）に基づく方法で計算される。重み付けのための静的変数として、すべてのデータに対する確率ｑ（Ｙ＝ｌ）の平均の逆数が使用されてもよい。

【0087】

この例示的な実施形態では、ソフト・ラベル生成モジュール１３２は、各転送データの統合ソフト・ラベルをソフト・ラベル・ストア１３６に格納するようにさらに構成される。転送コレクション１２４（Ｕ）内のすべての転送データのソフト・ラベルを取得した後、均衡化モジュール１３８は、転送コレクション１２４（Ｕ）からのすべてのデータに対する確率ｑ（Ｙ＝ｌ）の静的変数を算出し、静的変数を重み付けとして保存するように構成される。統合モデル訓練モジュール１３４は、統合分類器１２６を訓練する際に、統合クラス集合内のターゲット・クラスに対する重み付けによって損失関数を重み付けするように構成される。

【0088】

前述の実施形態によれば、統合ソフト・ラベルｑが、最初に推定されて、統合分類器１２６を教師ありの方式で訓練するために使用される。しかしながら、統合分類器１２６（Ｃ_Ｕ）がニューラル・ネットワークである場合、最初にｑを推定する必要なしにｑの推定の損失がニューラル・ネットワーク全体に直接逆伝播されるという代替の方法がある。

【0089】

以下では、図６および図７を参照して、本発明のさらに他の例示的な実施形態による、最初に統合ソフト・ラベルｑを推定する必要なしに、個別の分類器１２２－１～１２２－Ｎから取得されたデータを使用して統合分類器１２６を更新する知識蒸留について説明する。

【0090】

図６は、本発明のさらに他の例示的な実施形態による、知識蒸留システムのブロック図である。図２に示す実施形態と図６に示す実施形態との間の違いは、図２に示すソフト・ラベル生成モジュール１３２が省略され、更新モジュール１４０が統合モデル訓練モジュール１３４に組み込まれている点である。また、統合分類器１２６がニューラル・ネットワーク・ベースのモデルであることにも留意されたい。

【0091】

更新モジュール１４０は、転送データ（またはサンプル）ごとに、個別の分類器１２２－１～１２２－Ｎによって生成された予測ｐ_ｉを取得するように構成される。更新モジュール１４０はまた、各サンプルを統合分類器１２６に供給して、統合クラス集合内のターゲット・クラスに対する予測値を推論するように構成される。更新モジュール１４０は、個別の分類器１２２－１～１２２－Ｎの出力と統合クラス集合Ｌ_Ｕ内のターゲット・クラスに対する統合分類器１２６の出力とを接続する前述の確率論的関係を用いて、サンプルごとに、統合分類器１２６の予測値および個別の分類器１２２－１～１２２－Ｎの予測を使用して、統合分類器１２６（そのパラメータθ）を更新するようにさらに構成される。訓練プロセスが完了すると、統合モデル訓練モジュール１３４は、統合分類器１２６を適切な記憶デバイスに記憶する。

【0092】

図７を参照すると、さらに他の例示的な実施形態による知識蒸留プロセスを示す流れ図が示されている。図７に示すように、プロセスは、知識蒸留プロセスを開始するよう求める要求をオペレータから受信したことに応答して、ステップＳ２００で開始してもよい。図７に示すプロセスは、中央コンピューティング・システム１２０内の１つまたは複数の処理ユニットなどの処理回路によって実行されてもよい。

【0093】

ステップＳ２０１において、処理回路は、転送コレクション１２４（Ｕ）、および個別の分類器１２２－１～１２２－Ｎ｛Ｃ_１，Ｃ_２，．．．，Ｃ_Ｎ｝を準備してもよい。ステップＳ２０２において、処理回路は、統合分類器１２６を初期化してもよい。ステップＳ２０３において、処理回路は、転送コレクション１２４（Ｕ）からサンプルｘを読み取ってもよい。ステップＳ２０４において、処理回路は、サンプルｘを各個別の分類器１２２（Ｃ_ｉ）に供給することによって、複数の予測ｐ_ｉを取得してもよい。ステップＳ２０５において、処理回路は、同じサンプルを現在の統合分類器１２６に供給して、出力ｑを推論してもよい。

【0094】

ステップＳ２０６において、処理回路は、個別の分類器１２２－１～１２２－Ｎの予測ｐ_ｉ、およびすべてのターゲット・クラスに対する現在の統合分類器１２６の出力ｑからの前述の確率論的関係を用いて損失関数に基づいて、現在の統合分類器１２６を更新してもよい。

【0095】

交差エントロピ・ベースの手法の場合、式（７）におけるｑは、現在の統合分類器１２６（Ｃ_Ｕ）から出力される確率と見なされ、損失は、直接逆伝播され得る。ステップＳ２０６において、参照分布ｐ_ｉと、各個別のクラス集合内のターゲット・クラスに対する分布ｑを正規化することによって取得される正規化された分布ｑ_ｉ ^＾との間の誤差を測定する損失関数（７）に基づいて、統合分類器１２６（Ｃ_Ｕ）のニューラル・ネットワーク全体に損失を逆伝播することによって、現在の統合分類器１２６が更新され、分布ｑは、ステップ２０５で統合分類器１２６によって推論される予測値として取得される。損失関数（７）を使用して、損失関数の勾配を使用する形式で、逆伝播を通じてパラメータθを更新する。

【0096】

行列因数分解手法の場合、出力ベクトルｕは、統合分類器１２６（Ｃ_Ｕ）からの確率出力のベクトルまたはロジット出力のベクトルのいずれかと見なされる。出力ベクトルｕが取得されると、出力ベクトルｕは、各定式化（１２）、（１５）、または（１７）に代入され、出力ベクトルｕが固定された状態で他の変数（例えば、ｖおよびｃ）に関する問題が解かれ、次いで、出力ベクトルｕを介して損失が逆伝播される。統合分類器１２６は、ニューラル・ネットワーク全体に損失を逆伝播することによって更新され、損失は、統合モデルの出力ベクトルｕおよび他の変数（例えば、ｖおよびｃ）を有する目的関数を最適化する問題を行列因数分解に基づく方法で解くことによって取得される。出力ベクトルｕは、統合分類器１２６によって推論された予測値として取得され、問題において固定される。例えば、定式化（１５）について考える。この場合、統合分類器１２６（Ｃ_Ｕ）から出力ベクトルｕを取得した後、定式化（１５）における出力ベクトルｕの値が固定され、次いで、ロジット・スケーリング・ベクトルｖおよびロジット・シフト・ベクトルｃに関する、定式化（１５）によって表される目的関数が、それらの最適値が得られるまで最適化される。次いで、ベクトルｖおよびベクトルｃが固定され、出力ベクトルｕに対して式（１５）の勾配が計算される。次いで、この勾配を使用して、統合分類器１２６（Ｃ_Ｕ）を逆伝播することができる。

【0097】

どちらの手法においても、損失を直接逆伝播することは、ｑを推定するステップと、推定されたｑを使用して統合分類器１２６（Ｃ_Ｕ）を訓練するステップとを単一のステップにマージするのに役立つ。これにより、ｑを推定する際の誤差の蓄積が統合分類器１２６（Ｃ_Ｕ）の訓練に対して伝播するのを防止する。

【0098】

ステップＳ２０７において、処理ユニットは、終了条件が満たされているかどうかを判定してもよい。処理ユニットが、ステップＳ２０７で終了条件がまだ満たされていないと判定した場合、プロセスは、さらなる反復のためにステップＳ２０３にループして戻ってもよい。一方、処理ユニットが、ステップＳ２０７で終了条件がすでに満たされていると判定した場合、プロセスは、ステップＳ２０８に進んでもよい。ステップＳ２０８において、処理ユニットは、現在の統合分類器１２６を記憶してもよく、プロセスは、ステップＳ２０９で終了してもよい。

【0099】

本発明の１つまたは複数の実施形態によれば、個別の訓練済みモデル（個別の分類器１２２－１～１２２－Ｎ）がターゲット・クラスの異なる部分集合を有する場合でも、個別の訓練済みモデルの知識を統合モデル（統合分類器１２６）に転送することが可能である。統合ソフト・ラベルは、統合モデルの出力と合致する方法で個別の訓練済みモデルによって生成された予測から推定される。

【0100】

さらに、統合ソフト・ラベルを使用して訓練された統合モデルは、特に、次の実験セクションで説明するように、個別の訓練済みモデルを訓練するために使用される訓練データを用いて集中型の教師ありの方式で直接訓練されたモデルに匹敵する高いパフォーマンスを示す。アンサンブル法とは対照的に、統合モデルを訓練するために使用される個別の訓練済みモデルは推論には必要なくなるが、一方アンサンブル手法では、すべてのモデルを記憶して実行する必要があるため、複雑なモデルが使用される場合にスケーラビリティの問題が生じることがある。新しいモデルを訓練することにより、アンサンブル法と比較して計算コストを削減することができる。また、確率論的関係を導入することによって、個別の訓練済みモデルの予測において欠損しているターゲット・クラスに対して不適切な教師あり学習を提供することが回避され、このような不適切な教師あり学習による統合モデルのパフォーマンスの低下を防止することが可能である。

【0101】

前述の交差エントロピ手法および行列因数分解手法は、個別の分類器１２２の予測ｐ_ｉから統合ソフト・ラベルｑを解くための実用的な解決策を提供する。

【0102】

さらに、新規な知識蒸留を実行するために、個別の訓練済みモデルを訓練するために使用される訓練データのデータ転送は必要ない。個別の訓練済みモデルのコンテンツ、および個別の訓練済みモデルから取得されたソフト・ラベル・コレクションは生データではなく、一般に、その訓練データよりもコンパクトである。また、個別の訓練済みモデルのモデル・アーキテクチャに対する制約も少なくなる。したがって、これは、モデル・アーキテクチャ、計算、データの可用性、および機密性の制約のうちの少なくとも１つが存在する状況において好ましい。

【0103】

計算、データの可用性、および機密性の制約のために、すべてのエンティティに、同じモデル／アーキテクチャを使用させること、すべてのクラスについて十分な訓練データを収集させること、または中央ノードにデータを送信させることが不可能な場合のための、実用的な適用例が存在し得る。

【0104】

前述の実施形態により、新規な知識蒸留について、画像分類のコンテキストで説明してきた。しかしながら、本発明の１つまたは複数の実施形態による新規な知識蒸留によって訓練される分類器は、画像分類器に限定されない。１つまたは他の実施形態では、いくつかの例を挙げると、音声認識、手書き認識、医療画像分析、パターン認識を含む多くの適用例が企図され得る。

【0105】

本発明による１つまたは複数の特定の実施形態に関して得られる利点について説明したが、いくつかの実施形態はこれらの潜在的な利点を有さない場合があり、これらの潜在的な利点は必ずしもすべての実施形態に必要とされるわけではないことを理解されたい。

【0106】

実験的研究
例示的な実施形態による一連の図１～図７を参照して説明した知識蒸留システムおよび知識蒸留プロセスを実装するプログラムを、コード化して実行した。

【0107】

ＩｍａｇｅＮｅｔ、ＬＳＵＮ、およびＰｌａｃｅｓ３６５のデータセットでの主な実験について説明する。以下では、前述の方法について、次の略語、すなわち、集合Ｌ_－ｉに含まれるｌに対して単にｐ_ｉ（Ｙ＝ｌ）＝０が設定される標準的な蒸留（比較例１）の単純な拡張に対する略語ＳＤ、交差エントロピ・ベースの方法（例１～例３）に対する略語ＣＥ－Ｘ、確率の行列因数分解（例４～例６）に対する略語ＭＦ－Ｐ－Ｘ、固定されていないロジットｖの行列因数分解（例７～例９）および固定されたロジットｖの行列因数分解（例１０～例１２）のそれぞれに対する略語ＭＦ－ＬＵ－ＸおよびＭＦ－ＬＦ－Ｘを使用して示す。前述の略語において、接尾辞「Ｘ」は、統合ソフト・ラベルｑを使用して統合分類器１２６（Ｃ_Ｕ）を訓練する前に最初に統合ソフト・ラベルｑが推定される場合（例１、４、７、１０）は「Ｅ」に、損失関数からの直接逆伝播が実行される場合（例２、５、８、１１）は「ＢＰ」に、統合分類器１２６（Ｃ_Ｕ）を訓練する前に、統合ソフト・ラベルｑが静的変数としての確率ｑ（Ｙ＝ｌ）の平均の逆数によって均衡化される場合（例３、６、９、１２）は「ＢＳ」に置き換えられる。前述の方法に加えて、均衡化されたソフト・ラベルを用いるＳＤ法（比較例２）としてＳＤ－ＢＳが含まれ、すべての個別の分類器１２２（Ｃ_ｉ）のすべてのラベル付きデータを用いて教師あり方式で直接訓練される方法としてのＳＰＶ（比較例３）がベンチマークとして含まれる。ＭＦ－ＬＵ－Ｘ法の場合、ハイパ・パラメータｒ＝０．０１を使用した。すべての方法において、温度Ｔ＝３を使用してソフト・ラベルおよびロジットを平滑化した。

【0108】

最初に、実験プロトコル、データセットの詳細、個別の分類器１２２（Ｃ_ｉ）および統合分類器１２６（Ｃ_Ｕ）として使用されるアーキテクチャ、ならびに個別の分類器１２２（Ｃ_ｉ）の構成について説明する。次いで、結果について説明する。

【0109】

実験プロトコル：
データセット：３つのデータセットを使用した。第１のデータセットは、ＩｍａｇｅＮｅｔ（ＩＬＳＶＲＣ２０１２）である。このデータセットには、１０００個のクラスと共に、１クラス当たり約７００～１３００枚の訓練画像および約５０枚の検証画像、ならびに約１０万枚のラベルなしテスト画像が含まれている。この実験では、訓練画像を個別の分類器１２２－１～１２２－Ｎ（Ｃ_ｉ）の訓練データとして使用し、ラベルなしテスト画像を転送コレクション１２４（Ｕ）として使用し、検証画像を、正確度を評価するためのテスト・セットとして使用した。第２のデータセットはＬＳＵＮであり、ＬＳＵＮには、１０個のクラスと共に、１クラス当たり約１０万～３００万枚の訓練画像（クラスによって異なる）および３００枚の検証画像、１万枚のラベルなしテスト画像が含まれている。ここでは、個別の分類器１２２（Ｃ_ｉ）を訓練するために１クラス当たり１０００枚の訓練画像のセットをランダムにサンプリングし、同様に訓練データからランダムにサンプリングした１クラス当たり２万枚の画像の第２のセットを、転送コレクション１２４（Ｕ）として使用し、検証データをテスト・セットとして使用した。第３のデータセットは、Ｐｌａｃｅｓ３６５である。このデータセットには、３６５個のクラスと共に、１クラス当たり約３０００～５０００枚の訓練画像および１００枚の検証画像、ならびに３２万９０００枚のラベルなしテスト画像が含まれている。この実験では、訓練画像を個別の分類器１２２－１～１２２－Ｎ（Ｃ_ｉ）用の訓練データとして使用し、ラベルなしテスト画像を転送コレクション１２４（Ｕ）として使用し、検証画像を、正確度を評価するためのテスト・セットとして使用した。すべての画像を、中央トリミング、および６４×６４画素へのスケーリングによって前処理した。

【0110】

個別の分類器の構成：
提案する方法を、（表１に要約されている）個別の分類器の２つの構成の下でテストした。（ｉ）ランダムなクラス：ＩｍａｇｅＮｅｔデータセットの場合、各試行において、２０～５０個のクラスをＬ_Ｕとしてサンプリングし、１０～２０個の個別の分類器１２２（Ｃ_ｉ）を、それぞれ５～１５個のクラスを分類するように訓練した。ＬＳＵＮデータセットの場合、各試行において、５～１０個のクラスをＬ_Ｕとしてサンプリングし、３～７個の個別の分類器１２２を、それぞれ２～５個のクラスを分類するように訓練した。この構成を、個別の分類器１２２（Ｃ_ｉ）がクラスの異なる集合を分類するときのメイン・テストとして使用した。Ｐｌａｃｅｓ３６５データセットの場合、各試行において、２０～５０個のクラスをＬ_Ｕとしてサンプリングし、１０～２０個の個別の分類器１２２（Ｃ_ｉ）を、それぞれ５～１５個のクラスを分類するように訓練した。（ｉｉ）完全に重複するクラス：ここでは、すべての個別の分類器１２２（Ｃ_ｉ）をＬ_Ｕ内のすべてのクラスを分類するように訓練したことを除いて、（ｉ）と同じ構成を使用した。この事例は、提案する方法をすべての分類器Ｃ_ｉおよびＣ_Ｕが同じクラスを共有する共通の構成の下でテストするために使用される。どちらの構成でも、転送コレクション１２４（Ｕ）を、Ｌ_Ｕよりもはるかに幅広いクラスの集合で構成した。言い換えれば、転送コレクション１２４（Ｕ）内の画像の大部分は、Ｌ_Ｕ内のどのクラスにも該当していなかった。

【0111】

【表1】

【0112】

モデル：
ＩｍａｇｅＮｅｔの事前訓練済みの重みを有する次の４つのアーキテクチャ、すなわちＡｌｅｘＮｅｔ、ＶＧＧ１６、ＲｅｓＮｅｔ１８、およびＲｅｓＮｅｔ３４のうちの１つから、各個別の分類器１２２（Ｃ_ｉ）をランダムに選択した。ＡｌｅｘＮｅｔおよびＶＧＧ１６の場合、特徴抽出部の重みを固定し、それらのｆｃ（全結合）層を（ＢａｔｃｈＮｏｒｍおよびＲｅＬｕを用いて）２５６個の隠れノードを有する２つのｆｃ層に置き換え、ｆｃ層をその訓練データで訓練した。同様にＲｅｓＮｅｔモデルでも、上記のように、それらのｆｃ層を２５６個の隠れノードを有する２つのｆｃ層に置き換えた。さらに、最後の残りのブロックを微調整した。統合分類器１２６（Ｃ_Ｕ）については、ＶＧＧ１６およびＲｅｓＮｅｔ３４を含む２つのモデルを、上記と同様の設定で使用した。
すべてのデータセットおよび構成について、各個別の分類器１２２（Ｃ_ｉ）を、１クラス当たり５０～２００個のサンプルを用いて訓練した。同じ試行において、サンプルを個別の分類器１２２（Ｃ_ｉ）間で共有しなかった。次いで、転送コレクション１２４（Ｕ）と共にこれらの個別の分類器１２２（Ｃ_ｉ）を使用して、統合分類器１２６（Ｃ_Ｕ）を訓練した。ＳＧＤ（Stochastic Gradient Descent：確率的勾配降下法）オプティマイザを用いて、すべてのモデルを２０エポックで訓練した（運動量０．９で、最初の１０エポックのステップ・サイズを０．１、後半の１０エポックのステップ・サイズを０．０１５とした）。結果の変動を制御するために、各試行において、同じアーキテクチャの統合分類器１２６（Ｃ_Ｕ）を、同じ重みを使用して初期化し、同じバッチ順序を使用して訓練した。すべての方法の統合分類器１２６（Ｃ_Ｕ）を、それぞれの試行のＬ内のすべてのクラスのテストデータで評価した。データセット、モデル、および個別の分類器構成の組合せごとに、５０回の試行を実行した。

【0113】

結果：
評価された正確度の結果を、次の表２および表３にまとめる。

【0114】

【表2】

【0115】

【表3】

表２および表３は、個別の分類器の構成、データセット、および統合分類器モデルの様々な組合せに対する方法の正確度を示す。各列は、各実験設定での各方法の平均正確度を示しており、各設定のＳＰＶを除いた最良の結果を、太字の下線で示している。統計的有意性をテストするために、標準偏差に対するウィルコクソン符号順位検定を選択して、試行間で大きく異なる設定（例えば、モデル・アーキテクチャ、クラス数、およびＨＣなど）に対応した。各実験で最もパフォーマンスの高い方法と残りの方法との間でテストを実行した。α＝０．０１でパフォーマンスが最良の方法と統計的に有意に異ならない方法を太字で示している。

【0116】

以下では、各個別の分類器１２２がクラスの異なる集合を分類するように訓練されたときに、提案する新規な知識蒸留の主なシナリオに対処するランダムなクラスの事例に関する結果について説明する。

【0117】

表２に示すように、提案するすべての方法（例１～１２）が、ＳＤ（比較例１）よりも大幅に高いパフォーマンスを示した。表２の、接尾辞「Ｅ」の付いた、ｑを推定する方法（例１、４、７、１０）、接尾辞「ＢＰ」の付いた直接逆伝播法（例２、５、８、１１）、ならびに（ＳＤ－ＢＳを含む）接尾辞「ＢＳ」の付いた均衡化法（例３、６、９、１２、および比較例２）におけるすべての方法が、ＳＤ（比較例１）を９～１５％という大幅な差で上回った。各個別の分類器の未定義クラスの確率を０に設定するだけでは、正確度が大幅に低下する可能性があることが示された。一方、提案する方法（例１～１２）は、大幅に優れた結果を達成し、１～４％のギャップでＳＰＶ（比較例３）とほぼ同じ正確度に達した。これは、転送コレクション１２４（Ｕ）にターゲット・クラスの一部ではない画像がかなりの割合で含まれている場合でも、正確度をわずかに犠牲にするだけで個別の分類器１２２（Ｃ_ｉ）からのソフト・ラベルを教師なし訓練に使用できることを示唆している。その場合も、ＳＰＶの正確度に達することで統合分類器１２６（Ｃ_Ｕ）の能力に影響を及ぼし得る、例えば個別の分類器１２２（Ｃ_ｉ）、それらのアーキテクチャの正確度などのいくつかの因子が存在する。

【0118】

様々なアルゴリズムが様々な設定の下で最高のパフォーマンスを示すが、ｖが固定されたロジットの行列因数分解（例１０～１２）は常に最高のパフォーマンスを示すか、または最良の方法と統計的な差がないことが分かる。これは、ｖが固定されたロジットの行列因数分解が、異種分類器を統合する問題を解くための最良の方法であり得ることを示唆している。

【0119】

改善はわずか（１．５％未満）である場合があるが、接尾辞「ＢＳ」の付いたラベル均衡化法（例３、６、９、１２）は、接尾辞「Ｅ」の付いた対応する方法（例１、４、７、１０）を一貫して上回った。これらの結果は、均衡化されたソフト・ラベルを使用して統合分類器１２６（Ｃ_Ｕ）を訓練することが良いことを示している。ＳＤ－ＢＳ（比較例２）は大幅な向上を得たが、依然として他のＣＥ法およびＭＦ法（例１～１２）を概ね下回っており、｛ｐ_ｉ｝_ｉとｑと間の関係を訓練に組み込むことが重要であると示唆していることに留意されたい。

【0120】

接尾辞「Ｅ」および「ＢＳ」の付いた方法は、統合分類器１２６（Ｃ_Ｕ）を訓練する前にｑを推定することに基づいているが、接尾辞「ＢＰ」の付いた方法は、損失関数から直接逆伝播を実行した。交差エントロピ（ＣＥ）の損失、およびｖが固定されたロジットの行列因数分解（ＭＦ－ＬＦ）は、それらの変数において凸であり、一方、確率の行列因数分解（ＭＦ－Ｐ）およびｖが固定されていないロジットの行列因数分解（ＭＦ－ＬＵ）は、非凸である。ここでは、凸損失を伴う方法は、損失を直接逆伝播するよりもｑを最初に推定した方が高いパフォーマンスを示したが、非凸損失では逆の結果になるという、小さいながらも興味深い現象が観察される。これは、非凸法の場合にｑが推定されるときの誤差の蓄積が、その後、統合分類器１２６（Ｃ_Ｕ）に受け継がれて訓練されるが、非凸「ＢＰ」法はこのような局所的な誤差の蓄積を回避できる可能性があることが原因である場合がある。一方、凸法は、大域的に最適なｑを推定することができ、したがって、それを使用して統合分類器１２６（Ｃ_Ｕ）を訓練することにより、不良な局所的最適条件を回避することができる。

【0121】

次に、表３を参照して、完全に重複する事例の結果について説明する。すべての方法（例１～１２）が、ある程度同等にうまく機能した。すべての方法がＳＤ（比較例１）とほぼ同じ正確度を達成したことが分かる。これは、すべての個別の分類器がすべてのクラスを分類するように訓練されている一般的な事例においても、提案する方法がうまく機能できることを示し、提案する方法が知識蒸留の一般化であることを裏打ちする。

【0122】

ソフト・ラベルを均衡化すると、正確度がわずかに低下する傾向があることに留意されたい。ここでは、ランダムなクラスの事例で正確度が向上したＳＤ－ＢＳ（比較例２）でさえも、対応するＳＤ（比較例１）よりパフォーマンスが劣っていた。これは、この事例においては、ソフト・ラベルを均衡化しないことが、より良い選択肢である場合があることを示唆している。

【0123】

ＬＳＵＮおよびＰｌａｃｅｓ３６５のデータセットの場合、すべての方法（例１～１２）がＳＰＶ（比較例３）よりもパフォーマンスが高いことが分かる。特にＶＧＧ１６の事例の場合、ＳＰＶは、５０回の試行のほとんどで一貫して他の方法よりも１～３％だけパフォーマンスが劣っていた。これは、蒸留ベースの方法が、その教師ありの方法よりも上回る可能性があることを示す。

【0124】

感度分析
さらに、個別の分類器１２２（Ｃ_ｉ）の転送集合のサイズ、温度パラメータＴ、および正確度の影響について、３セットの感度分析を実行した。統合分類器１２６（Ｃ_Ｕ）としてＶＧＧ１６を用いて、ＩｍａｇｅＮｅｔのランダムなクラスの実験と同じ設定を使用した。各テストで５０回の試行を実行した。前のセクションから、ＳＤおよびパフォーマンスが高い方法の代表的なセットとして、次の５つの方法、すなわちＳＤ（比較例４）、ＳＤ－ＢＳ（比較例５）、ＭＦ－Ｐ－ＢＰ（例１３）、ＭＦ－ＬＦ－ＢＳ（例１４）、およびＣＥ－ＢＳ（例１５）を評価した。

【0125】

転送集合のサイズ：転送集合Ｕ内のラベルなしサンプル数の影響を評価するためのテストを使用した。サンプル数を、１０^３から１０^５まで変化させた。結果を図８Ａに示す。予想通り、転送集合のサイズが縮小するにつれて、すべての方法が劣化することが分かる。このテストでは、ＭＦ－Ｐ－ＢＰ（例１３）は、正確度が最も速く低下するため、縮小によって最も影響を受ける。それでも、他のすべての方法（例１３～１５）が、テスト範囲全体でＳＤよりもパフォーマンスが高く、様々なサイズの転送集合に対するロバスト性を示している。

【0126】

温度：このテストでは、確率｛ｐ_ｉ｝_ｉを平滑化するために使用される温度Ｔを、ｑの推定またはＣ_Ｕの訓練に使用する前に変化させた。評価される値は、Ｔ＝１、３、６、および１０である。結果を図８Ｂに示す。Ｔを高い値および低い値に設定すると、ＳＤおよびＳＤ－ＢＳ（比較例４～５）の正確度がそれぞれ大幅に低下することが分かる。一方、他の３つの方法（例１３～１５）は、Ｔの値が異なることによる影響が少ない。

【0127】

個別の分類器の正確度：このテストでは、方法のロバスト性を、個別の分類器１２２（Ｃ_ｉ）の様々な正確度に対して評価した。テスト・プロトコルは次の通りである：各試行において、すべての個別の分類器１２２（Ｃ_ｉ）の正確度を４０～８０％に変化させ、ｐ_ｉを個別の分類器１２２（Ｃ_ｉ）から取得して方法の実行に使用した。個別の分類器１２２（Ｃ_ｉ）の正確度を変化させるために、訓練データから１クラス当たり５０個のサンプルを調整用集合として取得し、残りの訓練データから個別の分類器１２２（Ｃ_ｉ）を完全に訓練し、次いで、調整用集合に対する正確度が所望の値に低下するまで、ガウス雑音を増加させて最後のｆｃ層に注入する。個別の分類器１２２（Ｃ_ｉ）の初期の正確度が所望の値を下回る場合、単に初期Ｃ_ｉを使用した。この評価の結果を図８Ｃに示す。個別の分類器１２２（Ｃ_ｉ）の正確度が向上するにつれて、すべての方法（例１３～１５）の正確度が向上して、パフォーマンスが高まることが分かり、個別の分類器１２２（Ｃ_ｉ）の正確度がパフォーマンスの注目すべき因子であることを示している。また、ＭＦ－Ｐ－ＢＰ（例１３）が、個別の分類器１２２（Ｃ_ｉ）の正確度が低いことによって最も影響を受け、一方、ＭＦ－ＬＦ－ＢＳ（例１４）が最もロバストであることが分かる。

【0128】

感度分析に基づいて、ＭＦ－ＬＦ－ＢＳ（例１４）が、個別の分類器１２２の転送集合内のサンプル数、温度、および正確度に対して最もロバストな方法であることが実証された。この結果は、ＭＦ－ＬＦ－ＢＳが推奨される方法であるというさらなる証拠を提供する。

【0129】

コンピュータ・ハードウェア・コンポーネント
次に図９を参照すると、中央コンピューティング・システム１２０、およびデータ・リソース１１０用の他のコンピューティング・システムのために利用することができる、コンピュータ・システム１０の一例の概略図が示されている。図９に示すコンピュータ・システム１０は、コンピュータ・システムとして実装されている。コンピュータ・システム１０は、好適な処理デバイスの一例に過ぎず、本明細書に記載の本発明の実施形態の使用範囲または機能性に関する制限を示唆することを意図するものではない。それでもなお、コンピュータ・システム１０は、上記の機能性のいずれかが実装されること、または上記の機能性のいずれかを実行すること、あるいはその両方が可能である。

【0130】

コンピュータ・システム１０は、多数の他の汎用もしくは専用のコンピューティング・システム環境または構成により動作可能である。コンピュータ・システム１０での使用に好適であり得るよく知られているコンピューティング・システム、環境、または構成、あるいはその組合せの例には、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、ハンドヘルドまたはラップトップ・デバイス、車載デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベースのシステム、セット・トップ・ボックス、プログラマブル家電製品、ネットワークＰＣ、ミニコンピュータ・システム、メインフレーム・コンピュータ・システム、および上記のシステムまたはデバイスのいずれかを含む分散型クラウド・コンピューティング環境などが含まれるが、これらに限定されない。

【0131】

コンピュータ・システム１０は、プログラム・モジュールなどのコンピュータ・システム実行可能命令がコンピュータ・システムによって実行される、一般的なコンテキストで説明され得る。一般に、プログラム・モジュールには、特定のタスクを実行するか、または特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、コンポーネント、ロジック、データ構造などが含まれ得る。

【0132】

図９に示すように、コンピュータ・システム１０は、汎用コンピューティング・デバイスの形態で示されている。コンピュータ・システム１０のコンポーネントは、プロセッサ（または処理回路）１２と、メモリ・バスまたはメモリ・コントローラ、および様々なバス・アーキテクチャのいずれかを使用するプロセッサ・バスまたはローカル・バスを含むバスによってプロセッサ１２に結合されたメモリ１６とを含み得るが、これらに限定されない。

【0133】

コンピュータ・システム１０は、典型的には、様々なコンピュータ・システム可読媒体を含む。このような媒体は、コンピュータ・システム１０によってアクセス可能である任意の利用可能な媒体とすることができ、揮発性媒体と不揮発性媒体の両方、取り外し可能媒体と取り外し不能媒体の両方を含む。

【0134】

メモリ１６は、ランダム・アクセス・メモリ（ＲＡＭ）などの揮発性メモリの形態のコンピュータ・システム可読媒体を含むことができる。コンピュータ・システム１０は、他の取り外し可能／取り外し不能、揮発性／不揮発性のコンピュータ・システム記憶媒体をさらに含んでもよい。ほんの一例として、取り外し不能な不揮発性磁気媒体に対する読み取りと書き込みのために、ストレージ・システム１８を設けることができる。以下でさらに図示および説明するように、ストレージ・システム１８は、本発明の実施形態の機能を実行するように構成されたプログラム・モジュールのセット（例えば、少なくとも１つ）を有する少なくとも１つのプログラム製品を含んでもよい。

【0135】

プログラム・モジュールのセット（少なくとも１つ）を有するプログラム／ユーティリティは、限定ではなく例として、オペレーティング・システム、１つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データと同様に、ストレージ・システム１８に記憶されてもよい。オペレーティング・システム、１つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データ、またはそれらの何らかの組合せはそれぞれ、ネットワーキング環境の実装を含んでもよい。プログラム・モジュールは、一般に、本明細書に記載の本発明の実施形態の機能または方法論あるいはその両方を実行する。

【0136】

コンピュータ・システム１０はまた、キーボード、ポインティング・デバイス、カー・ナビゲーション・システム、オーディオ・システムなどの１つまたは複数の周辺機器２４、ディスプレイ２６、ユーザがコンピュータ・システム１０と対話することを可能にする１つまたは複数のデバイス、またはコンピュータ・システム１０が１つまたは複数の他のコンピューティング・デバイスと通信することを可能にする任意のデバイス（例えば、ネットワーク・カード、モデムなど）、あるいはその組合せと通信してもよい。このような通信は、入出力（Ｉ／Ｏ）インターフェース２２を介して発生することができる。さらに、コンピュータ・システム１０は、ネットワーク・アダプタ２０を介して、ローカル・エリア・ネットワーク（ＬＡＮ）、一般的なワイド・エリア・ネットワーク（ＷＡＮ）、またはパブリック・ネットワーク（例えば、インターネット）あるいはその組合せなどの１つまたは複数のネットワークと通信することができる。図示のように、ネットワーク・アダプタ２０は、バスを介してコンピュータ・システム１０の他のコンポーネントと通信する。図示されていないが、他のハードウェア・コンポーネントまたはソフトウェア・コンポーネントあるいはその両方をコンピュータ・システム１０と組み合わせて使用できることを理解されたい。例には、マイクロコード、デバイス・ドライバ、冗長処理ユニット、外部ディスク・ドライブ・アレイ、ＲＡＩＤシステム、テープ・ドライブ、およびデータ・アーカイブ・ストレージ・システムなどが含まれるが、これらに限定されない。

【0137】

コンピュータ・プログラムの実装
本発明は、コンピュータ・システム、方法、またはコンピュータ・プログラム製品あるいはその組合せとすることができる。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体（または複数のコンピュータ可読記憶媒体）を含んでもよい。

【0138】

コンピュータ可読記憶媒体は、命令実行デバイスが使用するための命令を保持および記憶することができる有形デバイスとすることができる。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁気記憶デバイス、半導体記憶デバイス、または上記の任意の好適な組合せとすることができるが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには以下のもの、すなわち、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク読取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリ・スティック（登録商標）、フロッピ（登録商標）・ディスク、パンチカードまたは命令が記録された溝内の隆起構造などの機械的に符号化されたデバイス、および上記の任意の好適な組合せが含まれる。本明細書で使用するコンピュータ可読記憶媒体は、電波もしくは他の自由に伝播する電磁波、導波路もしくは他の伝送媒体を介して伝播する電磁波（例えば、光ファイバ・ケーブルを通る光パルス）、または電線を介して送信される電気信号などの、一過性の信号自体であると解釈されるべきではない。

【0139】

本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスに、または、ネットワーク、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、またはワイヤレス・ネットワークあるいはその組合せを介して外部コンピュータまたは外部記憶デバイスにダウンロードされ得る。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバあるいはその組合せを含んでもよい。各コンピューティング／処理デバイスにおけるネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、そのコンピュータ可読プログラム命令を、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体での記憶のために転送する。

【0140】

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、インストラクション・セット・アーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、または、Ｓｍａｌｌｔａｌｋ（登録商標）、Ｃ＋＋などのオブジェクト指向プログラミング言語および「Ｃ」プログラミング言語もしくは同様のプログラム言語などの従来の手続き型プログラミング言語を含む１つまたは複数のプログラミング言語の任意の組合せで書かれたソース・コードもしくはオブジェクト・コードとすることができる。コンピュータ可読プログラム命令は、スタンドアロン・ソフトウェア・パッケージとして全体がユーザのコンピュータ上で、一部がユーザのコンピュータ上で、一部がユーザのコンピュータ上かつ一部がリモート・コンピュータ上で、または全体がリモート・コンピュータ上もしくはサーバ上で実行されてもよい。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）もしくはワイド・エリア・ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよく、または（例えば、インターネット・サービス・プロバイダを使用してインターネットを介して）外部コンピュータに対して接続されてもよい。いくつかの実施形態では、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用して、例えばプログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラマブル・ロジック・アレイ（ＰＬＡ）を含む電子回路をパーソナライズすることによって、電子回路がコンピュータ可読プログラム命令を実行してもよい。

【0141】

本発明の態様は、本発明の実施形態による方法、装置（システム）、およびコンピュータ・プログラム製品の流れ図またはブロック図あるいはその両方を参照しながら本明細書で説明されている。流れ図またはブロック図あるいはその両方の各ブロック、および流れ図またはブロック図あるいはその両方のブロックの組合せは、コンピュータ可読プログラム命令によって実施され得ることが理解されよう。

【0142】

これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行される命令が、流れ図またはブロック図あるいはその両方の１つまたは複数のブロックで指定された機能／動作を実施するための手段を作り出すように、汎用コンピュータ、専用コンピュータ、または他のプログラマブル・データ処理装置のプロセッサに提供されて、マシンを作り出すものであってもよい。また、これらのコンピュータ可読プログラム命令は、命令が記憶されたコンピュータ可読記憶媒体が、流れ図またはブロック図あるいはその両方の１つまたは複数のブロックで指定された機能／動作の態様を実施する命令を含む製造品を含むように、コンピュータ可読媒体に記憶され、コンピュータ、プログラマブル・データ処理装置、または他のデバイスあるいはその組合せに対して特定の方式で機能するように指示できるものであってもよい。

【0143】

また、コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブル装置、または他のデバイスで実行される命令が、流れ図またはブロック図あるいはその両方の１つまたは複数のブロックで指定された機能／動作を実施するように、コンピュータ実施プロセスを作り出すべくコンピュータ、他のプログラマブル・データ処理装置、または他のデバイスにロードされて、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作ステップを実行させるものであってもよい。

【0144】

図中の流れ図およびブロック図は、本発明の様々な実施形態によるシステム、方法およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能、および動作を示す。これに関して、流れ図またはブロック図の各ブロックは、指定された論理機能を実装するための１つまたは複数の実行可能命令を含む、命令のモジュール、セグメント、または一部を表すことがある。いくつかの代替の実装形態では、ブロックに記載された機能は、図に記載された順序とは異なる順序で行われてもよい。例えば、連続して示されている２つのブロックは、実際には、関与する機能に応じて、実質的に同時に実行されてもよく、またはそれらのブロックは、場合によっては逆の順序で実行されてもよい。ブロック図または流れ図あるいはその両方の各ブロック、およびブロック図または流れ図あるいはその両方のブロックの組合せは、指定された機能または動作を実行するか、あるいは専用ハードウェアとコンピュータ命令との組合せを遂行する専用ハードウェア・ベースのシステムによって実装され得ることにも留意されたい。

【0145】

本明細書で使用される用語は、特定の実施形態を説明することのみを目的としており、本発明を限定することを意図するものではない。本明細書で使用される場合、単数形「ａ」、「ａｎ」および「ｔｈｅ」は、文脈上特に明記されていない限り、複数形も含むことを意図している。「備える」または「備えている」あるいはその両方の用語は、本明細書で使用される場合、記載された特徴、整数、ステップ、動作、要素、またはコンポーネントあるいはその組合せの存在を示すが、１つまたは複数の他の機能、整数、ステップ、動作、要素、コンポーネント、またはこれらのグループ、あるいはその組合せの存在または追加を除外するものではないことがさらに理解されよう。

【0146】

添付の特許請求の範囲内のすべての手段またはステップおよび機能要素の対応する構造、材料、動作、および均等物がある場合、それらは、具体的に特許請求されるときに、他の特許請求される要素と組み合わせて機能を実行するための任意の構造、材料、または動作を含むことが意図されている。本発明の１つまたは複数の態様についての説明は、例示および説明の目的で提示されているが、網羅的であること、または開示された形態の本発明に限定されることを意図するものではない。

【0147】

当業者には、説明した実施形態の範囲および思想から逸脱することなく多くの変更形態および変形形態が明らかであろう。本明細書で使用される用語は、実施形態の原理、実際の適用例、もしくは市場で見られる技術を超える技術的な改良を最もよく説明するように、または本明細書で開示される実施形態を当業者が理解することが可能になるように選択されたものである。

【図1】