特開2024-104494 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-104494モデル修正プログラム、モデル修正方法および情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024104494

(43)【公開日】2024-08-05

(54)【発明の名称】モデル修正プログラム、モデル修正方法および情報処理装置

(51)【国際特許分類】

G06N 20/00 20190101AFI20240729BHJP

【ＦＩ】

G06N20/00 130

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2023008724

(22)【出願日】2023-01-24

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002918

【氏名又は名称】弁理士法人扶桑国際特許事務所

(72)【発明者】

【氏名】中川尊雄

(72)【発明者】

【氏名】徳本晋

(57)【要約】

【課題】機械学習モデルの修正後の精度を向上させる。
【解決手段】情報処理装置１０は、訓練済みの機械学習モデル１４に第１入力データ群１３を入力し、第１入力データ群１３のデータのそれぞれのクラス分類の推論結果を示すクラス確率分布を生成する。情報処理装置１０は、クラス確率分布から推論結果と正解との誤差を算出するとともに、クラス確率分布におけるクラス間のクラス確率の差に基づいて、機械学習モデル１４の混乱の度合いを示す混乱度を算出する。情報処理装置１０は、誤差と混乱度に基づいて、第１入力データ群１３から除去対象とする第１データを特定し、第１データを第１入力データ群１３から除去した第２入力データ群１６に基づいて、機械学習モデル１４を修正する。
【選択図】図１

【特許請求の範囲】

【請求項1】

訓練済みの機械学習モデルと第１入力データ群を取得し、
前記機械学習モデルに前記第１入力データ群を入力して、前記第１入力データ群に含まれるデータのそれぞれのクラス分類の推論結果を示すクラス確率分布を生成し、
前記クラス確率分布から前記推論結果と正解との誤差を算出するとともに、前記クラス確率分布におけるクラス間のクラス確率の差に基づいて、前記機械学習モデルの混乱の度合いを示す混乱度を算出し、
前記誤差と前記混乱度に基づいて、前記第１入力データ群から除去対象とする第１データを特定し、
前記第１データを前記第１入力データ群から除去した第２入力データ群に基づいて、前記機械学習モデルを修正する、
処理をコンピュータに実行させるモデル修正プログラム。

【請求項2】

前記混乱度は、前記クラス確率分布において、前記クラス確率が最も大きい第１クラスの前記クラス確率と、前記クラス確率が２番目に大きい第２クラスの前記クラス確率との差が大きくなるほど小さくなる、
請求項１記載のモデル修正プログラム。

【請求項3】

前記第１データを特定する処理は、
前記誤差の大きい順に、前記第１入力データ群から第１データ件数分の第２データを抽出し、
前記混乱度の大きい順に、前記第１入力データ群から第２データ件数分の第３データを抽出する、
処理を含み、
前記第２データであり、かつ前記第３データである前記データが、前記第１データである、
請求項１記載のモデル修正プログラム。

【請求項4】

前記第１データを特定する処理は、さらに、
前記第２データであり、かつ前記第３データではなく、前記機械学習モデルに入力した場合に推論が失敗する前記データを、前記第１データとして追加する、処理を含む請求項３記載のモデル修正プログラム。

【請求項5】

【請求項6】

訓練済みの機械学習モデルと第１入力データ群を記憶する記憶部と、
前記機械学習モデルと前記第１入力データ群を取得し、前記機械学習モデルに前記第１入力データ群を入力して、前記第１入力データ群に含まれるデータのそれぞれのクラス分類の推論結果を示すクラス確率分布を生成し、前記クラス確率分布から前記推論結果と正解との誤差を算出するとともに、前記クラス確率分布におけるクラス間のクラス確率の差に基づいて、前記機械学習モデルの混乱の度合いを示す混乱度を算出し、前記誤差と前記混乱度に基づいて、前記第１入力データ群から除去対象とする第１データを特定し、前記第１データを前記第１入力データ群から除去した第２入力データ群に基づいて、前記機械学習モデルを修正する処理部と、
を有する情報処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明はモデル修正プログラム、モデル修正方法および情報処理装置に関する。

【背景技術】

【0002】

機械学習モデルは、画像認識、音声認識、機械翻訳などの様々な分野で用いられている。機械学習モデルは、例えば、深層学習によって訓練させるニューラルネットワークである。

【0003】

訓練済みの機械学習モデルは、修正されることがある。例えば、機械学習モデルを用いたシステムの運用時において不具合が生じた場合などに、修正が行われる。機械学習モデルを修正するために、さらなる訓練データが用いられて再訓練されることがある。しかし、ＣＡＣＥ（Changing Anything Changes Everything）原理により、再訓練によって、かえって機械学習モデルの性能が劣化する可能性がある。例えば、訓練データを増やして、機械学習モデルの全体の精度を上げたとしても、特定のデータに対しては逆に正しい推論ができなくなる場合がある。

【0004】

そこで、再訓練を行わずに、機械学習モデルの修正を行う手法が提案されている。この手法では、訓練過程で推論に成功したデータ（以下、成功データという）と、訓練過程において推論に失敗したデータ（以下、失敗データという）が用いられる。まず、成功データを機械学習モデルに入力した場合の出力に影響せず、失敗データを機械学習モデルに入力した場合の出力に影響し、訓練過程で値が大きく変化した機械学習モデルのパラメータが特定される。そして、特定されたパラメータを調整することで、正しい振舞いへの影響が少なく誤った振舞いに影響が限定されるように機械学習モデルが修正される。

【0005】

なお、教師なしデータの中から外れ値を検出し、異常か否かを示すラベルを教師なしデータに付与して教師ありデータを生成し、異常を判定するルールを教師ありデータを用いて訓練する外れ値検出装置が提案されている。また、多層畳み込みニューラルネットワークの損失関数を、誤差の統計情報に基づいて動的に調整する方法が提案されている。

【0006】

また、好ましくないイベントに関連する異常値を訓練データから除去し、除去後の訓練データを用いて機械学習モデルを訓練するシステムが提案されている。また、全てのデータレコードを用いて予測モデルを訓練し、予測モデルを用いて各データレコードの異常スコアを算出し、外れ値を判定するための閾値を決定する判定装置が提案されている。

【先行技術文献】

【特許文献】

【0007】

【特許文献1】特開２００３－５９７０号公報

【特許文献2】米国特許出願公開第２０１７／０３００８１１号明細書

【特許文献3】米国特許出願公開第２０１８／００８１９１３号明細書

【特許文献4】特開２０１８－１９０１２７号公報

【非特許文献】

【0008】

【非特許文献1】Shogo Tokui, Susumu Tokumoto, Akihito Yoshii, Fuyuki Ishikawa, Takao Nakagawa, Kazuki Munakata and Shinji Kikuchi "NeuRecover: Regression-Controlled Repair of Deep Neural Networks with Training History", Proc. of the 29th IEEE International Conference on Software Analysis, Evolution and Reengineering (SANER 2022), pp. 1111-1121, March 2022

【発明の概要】

【発明が解決しようとする課題】

【0009】

訓練済の機械学習モデルを修正するときに用いられる成功データと失敗データには、外れ値が含まれる可能性がある。外れ値として、例えば、誤ったラベル付けがされたデータ、判別不能なデータ、ノイズが大きすぎるデータなどがある。

【0010】

このような外れ値が含まれる場合、無意味な修正のため、これまで推論に成功したデータの推論に失敗する現象（退行と呼ばれることもある）が発生することがある。または、その外れ値を成功データまたは失敗データとして維持することで、修正が進まなくなることがある。つまり、このような外れ値は機械学習モデルの修正後の精度を悪化させることがある。

【0011】

そこで、１つの側面では、本発明は、機械学習モデルの修正後の精度を向上させることを目的とする。

【課題を解決するための手段】

【0012】

１つの態様では、以下の処理をコンピュータに実行させるモデル修正プログラムが提供される。訓練済みの機械学習モデルと第１入力データ群を取得する。機械学習モデルに第１入力データ群を入力して、第１入力データ群に含まれるデータのそれぞれのクラス分類の推論結果を示すクラス確率分布を生成する。クラス確率分布から推論結果と正解との誤差を算出するとともに、クラス確率分布におけるクラス間のクラス確率の差に基づいて、機械学習モデルの混乱の度合いを示す混乱度を算出する。誤差と混乱度に基づいて、第１入力データ群から除去対象とする第１データを特定し、第１データを第１入力データ群から除去した第２入力データ群に基づいて、機械学習モデルを修正する。

【0013】

また、１つの態様では、コンピュータが実行するモデル修正方法が提供される。また、１つの態様では、記憶部と処理部とを有する情報処理装置が提供される。

【発明の効果】

【0014】

１つの側面では、機械学習モデルの修正後の精度が向上する。

【図面の簡単な説明】

【0015】

【図1】第１の実施の形態の情報処理装置を説明するための図である。

【図2】外れ値の一例を説明する図である。

【図3】正解と推論結果のクラス確率分布の例を示す図である。

【図4】判別が難しいクラスの一例を示す図である。

【図5】成功データが得られる推論結果と損失および混乱度の関係の例を示す図である。

【図6】失敗データが得られる推論結果と損失および混乱度の関係の例を示す図である。

【図7】情報処理装置のハードウェア例を示すブロック図である。

【図8】情報処理装置の機能例を示すブロック図である。

【図9】混乱度を算出するプログラムコードの一例を示す図である。

【図10】重み値の抽出例を説明する図である。

【図11】粒子群最適化の例を説明する図である。

【図12】機械学習モデル修正の手順例を示すフローチャートである。

【図13】機械学習モデルの修正後の精度の例を示す図である。

【図14】機械学習モデルの修正後の修正率と退行率の比を示す図である。

【発明を実施するための形態】

【0016】

以下、本実施の形態を図面を参照して説明する。
［第１の実施の形態］
第１の実施の形態を説明する。

【0017】

図１は、第１の実施の形態の情報処理装置を説明するための図である。
第１の実施の形態の情報処理装置１０は、訓練済の機械学習モデルの修正を行う。機械学習モデルの訓練は、情報処理装置１０が行ってもよいし他の情報処理装置が行ってもよい。情報処理装置１０は、クライアント装置でもよいしサーバ装置でもよい。情報処理装置１０は、コンピュータと呼ばれてもよい。

【0018】

情報処理装置１０は、記憶部１１および処理部１２を有する。記憶部１１は、ＲＡＭ（Random Access Memory）などの揮発性半導体メモリでもよいし、ＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの不揮発性ストレージでもよい。処理部１２は、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）などのプロセッサである。ただし、処理部１２が、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などの電子回路を含んでもよい。プロセッサは、例えば、ＲＡＭなどのメモリ（記憶部１１でもよい）に記憶されたプログラムを実行する。プロセッサの集合が、マルチプロセッサまたは単に「プロセッサ」と呼ばれてもよい。

【0019】

記憶部１１は、第１入力データ群１３、訓練済みの機械学習モデル１４を記憶する。
第１入力データ群１３は、機械学習モデル１４に入力した場合に推論が成功するデータ（以下、成功データという）と、推論に失敗するデータ（以下、失敗データという）を含む。より具体的には、成功データは、機械学習モデル１４に入力したときに、正しいクラスに分類されるデータである。失敗データは、機械学習モデル１４に入力したときに、正しいクラスに分類されないデータである。これらのデータは、例えば、機械学習モデル１４の訓練時および機械学習モデル１４を用いたシステムの運用時において、取得される。なお、各データに対する正解のクラスを示す情報についても、記憶部１１に記憶されていてよい。

【0020】

修正対象の機械学習モデル１４は、第１入力データ群１３に対して推論処理を行う機械学習モデルである。機械学習モデル１４は、訓練データを用いて訓練済みである。推論処理は、第１入力データ群１３に含まれる各データのクラス分類を行うことを含む。クラス分類の一例として、車両の画像データに基づく、当該車両の車種の分類がある。この場合、車両の画像データが第１入力データ群１３に含まれるデータの一例であり、車両の車種がクラスの一例である。機械学習モデル１４は、ニューラルネットワークであってもよい。ニューラルネットワークは、畳み込み層、プーリング層および全結合層を含んでもよい。

【0021】

処理部１２は、第１入力データ群１３と機械学習モデル１４を取得する。そして、処理部１２は、機械学習モデル１４に第１入力データ群１３を入力して、第１入力データ群１３に含まれる各データのクラス分類の推論結果を生成する。推論結果は、クラス確率分布で示される。

【0022】

図１には第１入力データ群１３に含まれるあるデータに対するクラス分類の推論結果の例が示されている。クラス確率分布は、各クラス（図１の例ではクラスＡ，Ｂ，Ｃ）のクラス確率で表される。図１の例ではクラス確率は、０から１の値で表されている。クラスＡ，Ｃのクラス確率は０．３、クラスＢのクラス確率は０．４である。また、図１の例では、正解であるクラスＢのクラス確率が１で表されている。なお、クラス確率は、０～１００％の値で表されていてもよい。

【0023】

また、処理部１２は、クラス確率分布から推論結果と正解との誤差を算出する。このような誤差は、損失とも呼ばれる。以下では、誤差の代わりに損失と呼ぶことにする。損失は、各種の損失関数を用いて算出できる。損失関数として、例えば、交差エントロピー、スパースカテゴリカル交差エントロピー、二乗誤差などを用いることができる。

【0024】

さらに、処理部１２は、クラス確率分布におけるクラス間のクラス確率の差に基づいて、機械学習モデル１４の混乱の度合いを示す混乱度を算出する。混乱度は、例えば、クラス確率が最も大きい第１クラスのクラス確率と、クラス確率が２番目に大きい第２クラスのクラス確率との差に応じて定められ、差が大きくなるほど小さい値とする。混乱度は、例えば、クラス確率が最も大きい第１クラスのクラス確率と、クラス確率が２番目に大きい第２クラスのクラス確率との差の逆数である。図１のような推論結果が得られている場合、第１クラスはクラスＢであり、そのクラス確率は０．４である。第２クラスはクラスＡ，Ｃであり、これらのクラス確率は０．３である。したがって、混乱度は、１／（０．４－０．３）＝１０、と算出できる。

【0025】

処理部１２は、算出した損失と混乱度に基づいて、第１入力データ群１３から除去対象とする第１データ（以下、除去対象データという）１５を特定する。除去対象データ１５の特定は、例えば、以下のように行うことができる。

【0026】

処理部１２は、損失の大きい順に、第１入力データ群１３から第１データ件数分の第２データを抽出する。同様に処理部１２は、混乱度が大きい順に、第１入力データ群１３から第２データ件数分の第３データを抽出する。そして、処理部１２は、損失と混乱度の両方に関して抽出されたデータ、すなわち、第２データであり、かつ第３データであるデータを、除去対象データ１５として特定する。このような除去対象データ１５は、極端に分類が難しく、成功データであっても機械学習モデル１４を極度に混乱させ、修正を困難にする外れ値である可能性が高い。

【0027】

なお、除去対象データ１５を特定する方法は、上記の方法に限定されない。例えば、処理部１２は、第１入力データ群１３に含まれる各データに対して得られた損失と混乱度の調和平均を算出し、調和平均の値が大きい順に所定数のデータを除去対象データ１５として特定してもよい。

【0028】

また、処理部１２は、除去対象データ１５のデータ件数などに応じて、上記の第２データであって、かつ第３データではない失敗データを、除去対象データ１５として追加してもよい。このとき、処理部１２は、ユーザによる指定に基づいて、第２データであって、かつ第３データではない失敗データを、除去対象データ１５として追加するか否かを決定してもよい。

【0029】

図２は、外れ値の一例を説明する図である。図２では、２次元の特徴空間上にデータがプロットされている。
データ２０ａなど白丸で表されているデータは、クラス２０に分類される成功データである。データ２１ａなど白の星印で表されているデータは、クラス２１に分類される成功データである。データ２０ｃ，２１ｂ，２１ｃは、失敗データである。分類境界２２は、機械学習モデルの訓練によって決まる。機械学習モデルの修正は、この分類境界２２を変更することに相当する。

【0030】

図２において、データ２０ｃは失敗データであるが、クラス２１の成功データの分布に比較的近い位置にある。このためデータ２０ｃは、誤ったラベル付けがされているなどの理由から外れ値になっている可能性がある。このようなデータ２０ｃに対しても適切に分類ができるように機械学習モデル１４を修正すると、退行を引き起こす可能性がある。

【0031】

データ２０ｂは、成功データであるが、クラス２０の他の成功データの分布から極端に離れている。このようなデータ２０ｂはノイズが大きすぎるデータなどの外れ値である可能性がある。このようなデータ２０ｂを維持して、機械学習モデル１４を修正しても適切に修正が行われない可能性がある。そのため、このような外れ値を除去対象データ１５として特定して、除去することが望ましい。

【0032】

処理部１２は、除去対象データ１５を特定すると、除去対象データ１５を、第１入力データ群１３から除去した第２入力データ群１６に基づいて、機械学習モデル１４を修正する。処理部１２は、第２入力データ群１６を出力してもよい。処理部１２は、第２入力データ群１６を不揮発性ストレージに保存してもよいし、表示装置に表示してもよいし、他の情報処理装置に送信してもよい。第２入力データ群１６は、成功データと失敗データを含む。機械学習モデル１４の修正は、例えば、以下のように行われる。

【0033】

処理部１２は、成功データを機械学習モデル１４に入力した場合の出力に影響せず、失敗データを機械学習モデル１４に入力した場合の出力に影響する、機械学習モデル１４の重み値を特定する。機械学習モデル１４が、畳み込み層や、全結合層を含むニューラルネットワークである場合、重み値は、畳み込み層または全結合層の重み値である。

【0034】

処理部１２は、特定した重み値に対して、例えば、粒子群最適化を行うことで、正しい振舞いへの影響が少なく誤った振舞いに影響が限定されるように機械学習モデル１４を修正する。粒子群最適化の例については後述する（図１１参照）。

【0035】

処理部１２は、修正後の機械学習モデルである機械学習モデル１７を出力する。処理部１２は、機械学習モデル１７を不揮発性ストレージに保存してもよいし、表示装置に表示してもよいし、他の情報処理装置に送信してもよい。

【0036】

以上説明したように、第１の実施の形態の情報処理装置１０は、訓練済みの機械学習モデル１４と第１入力データ群１３を取得する。情報処理装置１０は、機械学習モデル１４に第１入力データ群１３を入力して、第１入力データ群１３に含まれる各データのクラス分類の推論結果を示すクラス確率分布を生成する。情報処理装置１０は、クラス確率分布から損失を算出するとともに、クラス確率分布におけるクラス間のクラス確率の差に基づいて、機械学習モデル１４の混乱度を算出する。情報処理装置１０は、損失と混乱度に基づいて、第１入力データ群１３から除去対象とする除去対象データ１５を特定する。そして、情報処理装置１０は、除去対象データ１５を第１入力データ群１３から除去した第２入力データ群１６に基づいて、機械学習モデル１４を修正する。

【0037】

これにより、機械学習モデル１４の修正後の精度を悪化させる外れ値を除去した第２入力データ群１６を用いて、機械学習モデル１４の修正が行われるため、修正後の精度が向上する。

【0038】

（比較例１：ＶＡＥ（Variational Auto Encoder）を用いた外れ値の除去）
比較例１の外れ値の除去方法は、機械学習モデルの一例であるＶＡＥの訓練時に、外れ値を除去する方法である。ＶＡＥは、エンコーダとデコーダとを有し、元画像をエンコードして潜在空間上に畳み込み、畳み込まれた情報をデコードして再現画像を得る。エンコーダとデコーダにはニューラルネットワークが用いられる。

【0039】

外れ値を特定するために、ＶＡＥに入力される元画像と、ＶＡＥから出力される再現画像とが画素レベルで比較される。両画像の差が大きいほど、元画像が外れ値の可能性が高いと判定される。訓練データからこのような外れ値を除去することで、ＶＡＥの精度や汎化性能が向上する。

【0040】

しかし、ＶＡＥを用いた外れ値の検出方法を、訓練済みの機械学習モデルの修正に用いる場合、適切に外れ値を特定できない。
例えば、訓練データと、運用時の入力データとの間にデータドリフトがある場合、ＶＡＥを用いた外れ値の検出方法の適用は難しい。具体的には、訓練データとして車両の側面画像が多く用いられ、運用時の入力データとして車両の正面画像が多く用いられた場合、正面画像は、ほとんど外れ値として特定されてしまう可能性がある。ＶＡＥは、訓練時にあまり用いられなかった正面画像を適切に再現できないためである。

【0041】

また、ＶＡＥを用いた外れ値の検出方法では、分類に寄与しづらい特徴についての外れ値も検出してしまう場合がある。例えば、バスとセダンを分類する問題において、車両に施された模様の有無などは車両の形状とは関係なく、分類に寄与しない可能性が高い。しかし、ＶＡＥを用いた外れ値の検出方法では、模様の有無によって外れ値を特定してしまう可能性がある。

【0042】

第１の実施の形態の情報処理装置１０では、損失と混乱度に基づいて、除去対象データ１５を特定するため、分類に寄与しない特徴によって外れ値が特定されることが抑制される。

【0043】

（比較例２：損失に応じた外れ値の除去）
比較例２の外れ値の除去方法は、損失が大きすぎるデータを外れ値として特定し、除去する方法である。

【0044】

図３（Ａ）～図３（Ｃ）は、正解と推論結果のクラス確率分布の例を示す図である。
図３（Ａ）の正解のクラス確率分布では、クラスＡのクラス確率が１．０、クラスＢ，Ｃのクラス確率は０である。図３（Ａ）の推論結果のクラス確率分布では、クラスＡのクラス確率が０．２５、クラスＢのクラス確率は０．６５、クラスＣのクラス確率は０．１である。

【0045】

図３（Ｂ）の正解のクラス確率分布では、クラスＢのクラス確率が１．０、クラスＡ，Ｃのクラス確率は０である。図３（Ｂ）の推論結果のクラス確率分布では、クラスＡ，Ｃのクラス確率が０．１、クラスＢのクラス確率は０．８である。

【0046】

図３（Ｃ）の正解のクラス確率分布では、クラスＢのクラス確率が１．０、クラスＡ，Ｃのクラス確率は０である。図３（Ｃ）の推論結果のクラス確率分布では、クラスＡ，Ｃのクラス確率が０．３、クラスＢのクラス確率は０．４である。

【0047】

図３（Ａ）や図３（Ｃ）では、損失が大きくなる。損失が大きいデータは分類が困難なデータであり、誤ったラベル付けがされているなどの外れ値である可能性がある。
しかし、損失から外れ値を特定する場合、本質的に判別が難しいクラスが存在すると、そのクラスのデータばかり外れ値として特定されて、除去されてしまう可能性がある。

【0048】

図４は、判別が難しいクラスの一例を示す図である。図４では、２次元の特徴空間上において、３つのクラス２５，２６，２７の何れかに分類されたデータがプロットされている。

【0049】

データ２５ａなど白丸で表されているデータは、クラス２５に分類される成功データである。データ２６ａ，２６ｂなど白の星印で表されているデータは、クラス２６に分類される成功データである。データ２７ａ，２７ｂなど白の三角で表されているデータは、クラス２７に分類される成功データである。分類境界２８，２９は、機械学習モデルの訓練によって決まる。

【0050】

図４の例では、クラス２６に分類されるデータとクラス２７に分類されるデータは特徴空間上での位置が近く、判別が難しい。このため、特に分類境界２９付近のデータ（例えば、データ２６ｂ，２７ｂ）は、損失が大きくなりやすい。したがって、分類境界２９付近のデータは、外れ値として見なされ除去されてしまう可能性がある。

【0051】

分類境界２９付近には、所属クラスが判別しづらく退行の可能性があるため維持したい成功データや、機械学習モデルの修正により適切に判別される見込みがある失敗データが含まれる場合がある。このような有益なデータを除去することは望ましくない。

【0052】

第１の実施の形態の情報処理装置１０では、損失だけではなく、損失と混乱度に基づいて、除去対象データ１５を特定するため、上記のような有益なデータが外れ値として除去されることが抑制される。

【0053】

（比較例３：最大クラス確率に基づく外れ値の除去）
比較例３の外れ値の除去方法は、クラス確率の最大値が小さいデータを外れ値として特定し、除去する方法である。このようなデータは、機械学習モデルがデータの所属クラスについて確信していないと見なすことができる。

【0054】

しかし、比較例３の外れ値の除去方法でも、比較例２の外れ値の除去方法と同様に、本質的に判別が難しいクラスが存在すると、そのクラスのデータばかり外れ値として除去されてしまう可能性がある。失敗データに関しては、クラス確率の最大値が小さいほど、機械学習モデルの修正により、適切に判別される見込みがある。このような失敗データまで、外れ値として除去することは適切ではない。

【0055】

第１の実施の形態の情報処理装置１０では、損失と混乱度に基づいて、除去対象データ１５を特定するため、機械学習モデルの修正により適切に判別される見込みがある失敗データが外れ値として除去されることが抑制される。

【0056】

（推論結果と損失および混乱度の関係の例）
図５は、成功データが得られる推論結果と損失および混乱度の関係の例を示す図である。図６は、失敗データが得られる推論結果と損失および混乱度の関係の例を示す図である。

【0057】

図５、図６のそれぞれには、損失と混乱度の両方が大きくなる推論結果、損失と混乱度の両方が小さくなる推論結果、損失が大きく混乱度が小さくなる推論結果、損失が小さく混乱度が大きくなる推論結果が示されている。損失は、交差エントロピーの値で表されている。混乱度は、クラス確率が最も大きい第１クラスのクラス確率と、クラス確率が２番目に大きい第２クラスのクラス確率との差の逆数である。

【0058】

なお、損失と混乱度の値は、小数点第三位までで表されている（小数点第四位は四捨五入）。損失と混乱度は非独立の関係にあるため、各推論結果の間の損失と混乱度の大きさは、相対的なものである。

【0059】

図５において、損失と混乱度の両方が大きくなる推論結果が得られる成功データは、クラスＢのクラス確率が０．３５で最大である。しかし、最大のクラス確率は、２番目に大きいクラス確率（０．２５）との差が比較的小さいだけでなく、他のクラス確率（０．２）との差も比較的小さい。つまり、機械学習モデルは２つのクラスＡ，Ｂの間だけではなく、全クラスＡ～Ｄ間で分類を迷っていたと考えられる。このような成功データは、損失が大きいだけでなく、機械学習モデルを極度に混乱させ、修正を困難にする外れ値である可能性が高い。

【0060】

図５において、損失は小さいが混乱度が大きくなる推論結果が得られる成功データは、クラスＢのクラス確率が０．５５で最大である。最大のクラス確率は、２番目に大きいクラス確率（０．４５）との差が比較的小さいものの、他のクラスのクラス確率との差が大きい。このような成功データは、クラスＡ，Ｂの間で分類が難しいにも関わらず成功したデータであるため、維持することが望ましい。

【0061】

図５において、損失は大きいが混乱度が小さくなる推論結果が得られる成功データは、最大のクラス確率が０．４６であり、比較的小さいものの、他のクラス確率（０．１８）との差は大きい。このような成功データも、機械学習モデルはある程度確信をもって分類できたデータであると考えられるため、維持することが望ましい。

【0062】

図５において、損失と混乱度の両方が小さくなる推論結果が得られる成功データは、クラスＢのクラス確率が０．６で最大である。最大のクラス確率は、他のクラス確率との差が比較的大きい。このような成功データは、容易に分類できたデータといえる。

【0063】

図６において、損失と混乱度の両方が大きくなる推論結果が得られる失敗データは、クラスＣのクラス確率が０．３５で最大である。さらに、最大のクラス確率は、２番目に大きいクラスＤのクラス確率（０．２５）との差が比較的小さい。機械学習モデルは、正解ではないクラスＣ，Ｄの間で分類を迷っていたと考えられる。このような失敗データは、機械学習モデルを見当違いな分類結果の間で混乱させており、修正を困難にする外れ値である可能性が高い。

【0064】

図６において、損失は小さいが混乱度が大きくなる推論結果が得られる失敗データは、クラスＣのクラス確率が０．５５で最大である。最大のクラス確率は、２番目に大きいクラスＢのクラス確率（０．４５）との差が比較的小さい。クラスＢは正解のクラスである。また、最大のクラス確率は、他のクラスＡ，Ｄのクラス確率（０）との差が大きい。このような失敗データは、わずかの差で分類に失敗したデータであると考えられるため、維持することが望ましい。

【0065】

図６において、損失は大きいが混乱度が小さくなる推論結果が得られる失敗データは、最大のクラス確率が０．７であり大きい。また、最大のクラス確率と他のクラス確率（０．１）との差は大きい。このような失敗データは、機械学習モデルが確信をもって分類したにもかかわらず分類に失敗したデータであり、修正を困難にする外れ値である可能性がある。

【0066】

図６において、損失と混乱度の両方が小さくなる推論結果が得られる失敗データは、クラスＣのクラス確率が０．４５で最大である。最大のクラス確率は、他のクラス確率との差が比較的大きい。このような失敗データは、機械学習モデルがある程度確信をもって分類したにもかかわらず分類に失敗したデータであるが、損失は相対的に大きくない。このため、機械学習モデルを混乱させる有害な外れ値であるとは言い切れない。なお、混乱度が小さければ、損失は大きくなる傾向にあるため、このような失敗データが出現することは稀である。

【0067】

図１に示した第１の実施の形態の情報処理装置１０は、損失と混乱度に基づいて、除去対象データ１５を特定するため、上記のような維持することが望ましいデータを除去対象とせず、有害な外れ値となる可能性の高いデータを適切に特定できる。

【0068】

なお、損失は大きいが混乱度が小さくなる推論結果が得られる失敗データは、図５のように２番目にクラス確率が大きくなるクラスが正解となる場合もある。処理部１２は、このような失敗データについては、例えば、ユーザによる指定に基づいて、除去対象データ１５として追加するか否かを決定してもよい。

【0069】

［第２の実施の形態］
次に、第２の実施の形態を説明する。
第２の実施の形態の情報処理装置１００は、訓練済の機械学習モデルの修正を行う。機械学習モデルの訓練は、情報処理装置１００が行ってもよいし他の情報処理装置が行ってもよい。情報処理装置１０は、クライアント装置でもよいしサーバ装置でもよい。情報処理装置１００は、コンピュータと呼ばれてもよい。

【0070】

図７は、情報処理装置のハードウェア例を示すブロック図である。
情報処理装置１００は、バスに接続されたＣＰＵ１０１、ＲＡＭ１０２、ＨＤＤ１０３、ＧＰＵ１０４、入力インタフェース１０５、媒体リーダ１０６および通信インタフェース１０７を有する。ＣＰＵ１０１は、第１の実施の形態の処理部１２に対応する。ＲＡＭ１０２またはＨＤＤ１０３は、第１の実施の形態の記憶部１１に対応する。

【0071】

ＣＰＵ１０１は、プログラムの命令を実行するプロセッサである。ＣＰＵ１０１は、ＨＤＤ１０３に記憶されたプログラムおよびデータをＲＡＭ１０２にロードし、プログラムを実行する。情報処理装置１００は、複数のプロセッサを有してもよい。

【0072】

ＲＡＭ１０２は、ＣＰＵ１０１で実行されるプログラムおよびＣＰＵ１０１で演算に使用されるデータを一時的に記憶する揮発性半導体メモリである。情報処理装置１００は、ＲＡＭ以外の種類の揮発性メモリを有してもよい。

【0073】

ＨＤＤ１０３は、オペレーティングシステム（ＯＳ：Operating System）やミドルウェアやアプリケーションソフトウェアなどのソフトウェアのプログラムと、データとを記憶する不揮発性ストレージである。情報処理装置１００は、フラッシュメモリやＳＳＤ（Solid State Drive）などの他の種類の不揮発性ストレージを有してもよい。

【0074】

ＧＰＵ１０４は、ＣＰＵ１０１と連携して画像処理を行い、情報処理装置１００に接続された表示装置１１１に画像を出力する。表示装置１１１は、例えば、ＣＲＴ（Cathode Ray Tube）ディスプレイ、液晶ディスプレイ、有機ＥＬ（Electro Luminescence）ディスプレイまたはプロジェクタである。情報処理装置１００に、プリンタなどの他の種類の出力デバイスが接続されてもよい。

【0075】

また、ＧＰＵ１０４は、ＧＰＧＰＵ（General Purpose Computing on Graphics Processing Unit）として使用されてもよい。ＧＰＵ１０４は、ＣＰＵ１０１からの指示に応じてプログラムを実行し得る。情報処理装置１００は、ＲＡＭ１０２以外の揮発性半導体メモリをＧＰＵメモリとして有してもよい。

【0076】

入力インタフェース１０５は、情報処理装置１００に接続された入力デバイス１１２から入力信号を受け付ける。入力デバイス１１２は、例えば、マウス、タッチパネルまたはキーボードである。情報処理装置１００に複数の入力デバイスが接続されてもよい。

【0077】

媒体リーダ１０６は、記録媒体１１３に記録されたプログラムおよびデータを読み取る読み取り装置である。記録媒体１１３は、例えば、磁気ディスク、光ディスクまたは半導体メモリである。磁気ディスクには、フレキシブルディスク（ＦＤ：Flexible Disk）およびＨＤＤが含まれる。光ディスクには、ＣＤ（Compact Disc）およびＤＶＤ（Digital Versatile Disc）が含まれる。媒体リーダ１０６は、記録媒体１１３から読み取られたプログラムおよびデータを、ＲＡＭ１０２やＨＤＤ１０３などの他の記録媒体にコピーする。読み取られたプログラムは、ＣＰＵ１０１によって実行されることがある。

【0078】

記録媒体１１３は、可搬型記録媒体であってもよい。記録媒体１１３は、プログラムおよびデータの配布に用いられることがある。また、記録媒体１１３およびＨＤＤ１０３が、コンピュータ読み取り可能な記録媒体と呼ばれてもよい。

【0079】

通信インタフェース１０７は、ネットワーク１１４を介して他の情報処理装置と通信する。通信インタフェース１０７は、スイッチやルータなどの有線通信装置に接続される有線通信インタフェースでもよいし、基地局やアクセスポイントなどの無線通信装置に接続される無線通信インタフェースでもよい。

【0080】

次に、情報処理装置１００の機能および処理手順について説明する。
図８は、情報処理装置の機能例を示すブロック図である。
情報処理装置１００は、第１入力データ群記憶部１２１、モデル記憶部１２２、高損失データ記憶部１２３、高混乱データ記憶部１２４、第２入力データ群記憶部１２５、修正済モデル記憶部１２６を有する。これらの記憶部は、例えば、ＲＡＭ１０２またはＨＤＤ１０３を用いて実装される。

【0081】

また、情報処理装置１００は、高損失データ抽出部１２７、高混乱データ抽出部１２８、外れ値除去部１２９、モデル修正部１３０を有する。これらの処理部は、例えば、ＣＰＵ１０１およびプログラムを用いて実装される。なお、第２入力データ群記憶部１２５、モデル修正部１３０および修正済モデル記憶部１２６は、他の情報処理装置に分離されていてもよい。

【0082】

第１入力データ群記憶部１２１は、第１入力データ群を記憶する。第１入力データ群は、訓練済みの機械学習モデルに入力した場合に推論が成功する成功データと、推論に失敗する失敗データを含む。第１入力データ群は、ユーザにより情報処理装置１００に保存されてもよく、他の情報処理装置から情報処理装置１００に転送されてもよい。

【0083】

モデル記憶部１２２は、訓練済み機械学習モデルを記憶する。機械学習モデルは、ニューラルネットワークであってもよい。ニューラルネットワークは、畳み込み層、プーリング層および全結合層を含んでもよい。機械学習モデルは、ユーザにより情報処理装置１００に保存されてもよく、他の情報処理装置から情報処理装置１００に転送されてもよい。

【0084】

高損失データ記憶部１２３は、第１入力データ群から高損失データ抽出部１２７により抽出された高損失データを特定する情報（例えば、識別番号）を記憶する。高損失データは、第１入力データ群に含まれる成功データと失敗データのうち、損失の大きさが上位のＮ（Ｎは２以上の整数）件に含まれるデータである。

【0085】

高混乱データ記憶部１２４は、第１入力データ群から高混乱データ抽出部１２８により抽出された高混乱データを特定する情報（例えば、識別番号）を記憶する。高混乱データは、第１入力データ群に含まれる成功データと失敗データのうち、混乱度の大きさが上位のＮ件に含まれるデータである。

【0086】

第２入力データ群記憶部１２５は、第２入力データ群を記憶する。第２入力データ群は、外れ値除去部１２９が、第１入力データ群から除去対象データ（外れ値）を除去したデータ群である。

【0087】

修正済モデル記憶部１２６は、モデル修正部１３０が修正した機械学習モデルを記憶する。
高損失データ抽出部１２７は、第１入力データ群記憶部１２１に記憶された第１入力データ群を、モデル記憶部１２２に記憶された機械学習モデルに入力する。そして、高損失データ抽出部１２７は、第１入力データ群に含まれる各データのクラス分類の推論結果を示すクラス確率分布を生成する。また、高損失データ抽出部１２７は、クラス確率分布から推論結果と正解との誤差である損失を、各データについて算出する。損失は、各種の損失関数を用いて算出できる。損失関数として、例えば、交差エントロピー、スパースカテゴリカル交差エントロピー、二乗誤差などを用いることができる。さらに、高損失データ抽出部１２７は、第１入力データ群に含まれる成功データと失敗データを、損失の大きさ順に配列し、損失の大きさが上位のＮ件を、高損失データとして抽出する。高損失データ抽出部１２７は、抽出した高損失データを特定する情報を、高損失データ記憶部１２３に保存する。

【0088】

高混乱データ抽出部１２８は、クラス確率分布におけるクラス間のクラス確率の差に基づいて、機械学習モデルの混乱の度合いを示す混乱度を算出する。混乱度の算出は、例えば、以下のようなプログラムコードを実行することで行われる。

【0089】

図９は、混乱度を算出するプログラムコードの一例を示す図である。
１行目において、“ｃｏｎｆｉｄｅｎｃｅ”は、最大のクラス確率を格納する変数である。ｎｐ．ｍａｘ（ｃｌａｓｓ＿ｐｒｏｂ）は、クラス確率分布の配列の中から最大値を取得する関数である。

【0090】

２行目において、“ｓｅｃｏｎｄ＿ｍｏｓｔ＿ｉｄｘ”は、２番目に大きいクラス確率を格納する変数である。“ｎｐ．ａｒｇｐａｒｔｉｔｉｏｎ（ｃｌａｓｓ＿ｐｒｏｂ，－２）［－２］”は、クラス確率を大きい順に配列していったときの２番目に大きい値を取得する関数である。

【0091】

３行目において、“ｃｏｎｆｕｓｉｏｎ”は、混乱度を格納する変数である。
つまり、高混乱データ抽出部１２８は、最大のクラス確率と、２番目に大きいクラス確率との差の逆数を算出することで混乱度を算出できる。

【0092】

さらに、高混乱データ抽出部１２８は、第１入力データ群に含まれる成功データと失敗データを、混乱度の大きさ順に配列し、混乱度の大きさが上位のＮ件を、高混乱データとして抽出する。高混乱データ抽出部１２８は、抽出した高混乱データを特定する情報を、高混乱データ記憶部１２４に保存する。

【0093】

なお、図８の例では、高損失データ抽出部１２７と高混乱データ抽出部１２８の両方が、訓練済みの機械学習モデルを用いて推論を行っているが、このような形態に限定されるわけではない。高損失データ抽出部１２７と高混乱データ抽出部１２８の一方が、訓練済みの機械学習モデルを用いて推論を行い、高損失データ抽出部１２７と高混乱データ抽出部１２８の他方が、その推論結果を用いてもよい。または、高損失データ抽出部１２７と高混乱データ抽出部１２８とは別の推論部が訓練済みの機械学習モデルを用いて推論を行い、高損失データ抽出部１２７と高混乱データ抽出部１２８は、その推論結果を用いて、高損失データと高混乱データを抽出するようにしてもよい。

【0094】

外れ値除去部１２９は、高損失データ記憶部１２３に記憶されている高損失データを特定する情報と、高混乱データ記憶部１２４に記憶されている高混乱データを特定する情報から、除去対象データを特定する。外れ値除去部１２９は、高損失データであり、かつ高混乱データであるデータを、除去対象データとして特定する。なお、外れ値除去部１２９は、失敗データについては、ユーザによる指定に基づいて、高損失データであって、高混乱データでないものを、除去対象データとして追加するか否かを決定してもよい。外れ値除去部１２９は、除去対象データのデータ件数などに応じて、高損失データであって、高混乱データでない失敗データを、除去対象データとして追加するか否かを決定してもよい。

【0095】

また、外れ値除去部１２９は、第１入力データ群から除去対象データを除去した第２入力データ群を生成し、第２入力データ群記憶部１２５に保存する。外れ値除去部１２９は、第２入力データ群を、表示装置１１１に表示してもよいし、他の情報処理装置に送信してもよい。

【0096】

モデル修正部１３０は、第２入力データ群を用いて、モデル記憶部１２２に記憶された訓練済みの機械学習モデルを修正する。機械学習モデルの修正は、例えば、非特許文献１で開示されている技術を用いて、以下のように行うことができる。

【0097】

モデル修正部１３０は、第２入力データ群のうち失敗データを機械学習モデルに入力し、その際の順伝搬・逆伝搬の値から、失敗データに対する影響の大きい重み値を特定する。さらに、モデル修正部１３０は、第２入力データ群のうち成功データを機械学習モデルに入力し、その際の順伝搬・逆伝搬の値から、成功データに対する影響の大きい重み値を特定する。なお、モデル修正部１３０は、成功データのデータ件数が多い場合には、計算コストを減らすために、サンプリングを行い、データ件数を減らすようにしてもよい。

【0098】

モデル修正部１３０は、これら２つの特定結果に基づいて、失敗データのみに影響する重み値を抽出する。
図１０は、重み値の抽出例を説明する図である。

【0099】

図１０には、第２入力データ群記憶部１２５に記憶されている第２入力データ群が入力され、推論結果１５１を出力する機械学習モデル１５０の例が示されている。機械学習モデル１５０は、ニューロン１５０ａ１，１５０ａ２，…，１５０ａ７を含むニューラルネットワークで表されている。各ニューロン間のエッジには、機械学習モデル１５０のパラメータの一例である重み値が設定されている。モデル修正部１３０は、これらの重み値の中から、成功データを機械学習モデル１５０に入力したときの推論の成否に影響せず、失敗データを機械学習モデル１５０に入力したときの推論の成否に影響する重み値を抽出する。

【0100】

図１０には、抽出されたｎ個の重み値がｗ_１，ｗ_２，…，ｗ_ｎと表されている。例えば、ｗ_１は、ニューロン１５０ａ３，１５０ａ７間のエッジの重み値であり、ｗ_２は、ニューロン１５０ａ３，１５０ａ６間のエッジの重み値である。

【0101】

モデル修正部１３０は、失敗データを正しく認識できるように、抽出した重み値をメタヒューリスティック最適化手法によって修正することで、機械学習モデルを修正する。モデル修正部１３０は、メタヒューリスティック最適化手法として、例えば、粒子群最適化を用いることができる。

【0102】

図１１は、粒子群最適化の例を説明する図である。
ｋ個の粒子ｘ_１，ｘ_２，ｘ_３，…，ｘ_ｋの値は、それぞれ、抽出されたｗ_１～ｗ_ｎの値を表す。粒子ｘ_１，ｘ_２，ｘ_３，…，ｘ_ｋのそれぞれに対して、評価値（以下、ｆｉｔｎｅｓｓと表記する）が算出される。ｆｉｔｎｅｓｓは、例えば、以下の式（１）で表される。

【0103】

ｆｉｔｎｅｓｓ＝修正率＋（１－退行率）＋（失敗損失（Ｍ’）＋Δ）／（失敗損失（Ｍ_ｏｒｉｇ）＋Δ）＋（成功損失（Ｍ’）＋Δ）／（成功損失（Ｍ_ｏｒｉｇ）＋Δ）（１）
修正率は、機械学習モデルに入力された全失敗データのうち、推論に成功した失敗データの割合である。退行率は、機械学習モデルに入力された全成功データのうち、推論に失敗した成功データの割合である。失敗損失（Ｍ’）は、機械学習モデルに各失敗データを入力した場合の推論結果から得られる損失の和、または損失の平均誤差である。成功損失（Ｍ’）は、機械学習モデル１５０に各成功データを入力した場合の推論結果から得られる損失の和、または損失の平均誤差である。失敗損失（Ｍ_ｏｒｉｇ）は、粒子群最適化の適用前の機械学習モデルに、各失敗データを入力した場合の推論結果１５１から得られる損失の和、または損失の平均誤差である。成功損失（Ｍ_ｏｒｉｇ）は、粒子群最適化の適用前の機械学習モデルに、各成功データを入力した場合の推論結果から得られる損失の和、または損失の平均誤差である。Δは、０による除算を防ぐための所定の微小値である。

【0104】

なお、ｆｉｔｎｅｓｓは上記の式（１）に限定されるわけではない。
ｆｉｔｎｅｓｓが最大の粒子の値がグローバルベストである。イタレーション番号０の試行では、ｆｉｔｎｅｓｓが最大となるｘ_２の値が、グローバルベストである。粒子群最適化では、他の粒子についてもグローバルベストに近づくように、値の更新が行われる。

【0105】

イタレーション番号ｔにおける粒子ｘ_ｉ（ｉ＝１，２，３，…，ｋ）の値は、以下の式（２）、式（３）により計算できる。
ｘ_ｉ（ｔ）＝ｘ_ｉ（ｔ－１）＋ｖ_ｉ（ｔ－１）（２）
ｖ_ｉ（ｔ）＝ｃ_０ｖ_ｉ（ｔ－１）＋ｃ_１ｒ_１（ｐ_ｌ－ｘ_ｉ（ｔ））＋ｃ_２ｒ_２（ｐ_ｇ－ｘ_ｉ（ｔ））（３）
式（３）において、ｃ_０，ｃ_１，ｃ_２は所定の定数、ｒ_１，ｒ_２は乱数、ｐ_ｌはローカルベスト、ｐ_ｇはグローバルベストである。ローカルベストは、イタレーション番号ｔの試行までに得られたｘ_ｉの値のうち、ｆｉｔｎｅｓｓが最大となる値である。

【0106】

イタレーション番号１の試行では、ｘ_３の値がグローバルベストとなっている。粒子群最適化では、指定回数、またはグローバルベストが一定回数変わらなくなるまで、上記の処理が行われる。

【0107】

図１１の例では、イタレーション番号Ｎの試行において得られているグローバルベスト（ｘ_１の値）が、端子群最適化の結果である。このときのｘ_１の値、すなわち、ｗ_１～ｗ_ｎの値が、元のｗ_１～ｗ_ｎの値の代わりに用いられることで、機械学習モデルが修正される。

【0108】

モデル修正部１３０は、修正した機械学習モデルを修正済モデル記憶部１２６に保存する。モデル修正部１３０は、修正した機械学習モデルを表示装置１１１に表示してもよいし、他の情報処理装置に送信してもよい。

【0109】

図１２は、機械学習モデル修正の手順例を示すフローチャートである。Ｓ１０～Ｓ２７は、処理のステップを表している。
（Ｓ１０）高損失データ抽出部１２７と高混乱データ抽出部１２８は、第１入力データ群記憶部１２１に記憶された第１入力データ群と、モデル記憶部１２２に記憶された機械学習モデルを取得する。

【0110】

（Ｓ１１）高損失データ抽出部１２７は、第１入力データ群を、機械学習モデルに入力し、推論を実行し、推論結果を示すクラス確率分布を生成する。
（Ｓ１２）高損失データ抽出部１２７は、推論結果に基づいて、第１入力データ群に含まれるデータごとに損失を算出し、損失が大きい順にデータを特定する情報を配列した損失ランキングリストを作成する。

【0111】

（Ｓ１３）高混乱データ抽出部１２８は、第１入力データ群を、機械学習モデルに入力し、推論を実行し、推論結果を示すクラス確率分布を生成する。
（Ｓ１４）高混乱データ抽出部１２８は、推論結果に基づいて、第１入力データ群に含まれるデータごとに混乱度を算出し、混乱度が大きい順にデータを特定する情報を配列した混乱度ランキングリストを作成する。

【0112】

（Ｓ１５）高損失データ抽出部１２７は、損失ランキングリストから、損失の大きさが上位のＮ件を高損失データとして抽出する。そして、高損失データ抽出部１２７は、抽出した高損失データを特定する情報を含む高損失データリストを作成する。高混乱データ抽出部１２８は、混乱度ランキングリストから、混乱度の大きさが上位のＮ件を高混乱データとして抽出する。そして、高混乱データ抽出部１２８は、抽出した高混乱データを特定する情報を含む高混乱データリストを作成する。なお、抽出するデータ件数であるＮの値は、例えば、ユーザによって、全データ件数の数％の値などと指定されてもよい。また、抽出される高損失データと、高混乱データの件数は、異なっていてもよい。

【0113】

（Ｓ１６）外れ値除去部１２９は、成功データを特定する情報を含む成功データリストと、失敗データを特定する情報を含む失敗データリストを作成する。
（Ｓ１７）外れ値除去部１２９は、第１入力データ群記憶部１２１に記憶されているデータ（成功データまたは失敗データ）を選択する。

【0114】

（Ｓ１８）外れ値除去部１２９は、高損失データリストと高混乱データリストを参照し、選択したデータが、高損失データ、かつ高混乱データであるか否かを判定する。高損失データ、かつ高混乱データであると判定された場合、ステップＳ１９の処理が行われる。高損失データ、かつ高混乱データではないと判定された場合、ステップＳ２０の処理が行われる。

【0115】

（Ｓ１９）外れ値除去部１２９は、ステップＳ１７の処理で選択したデータを除去リストに追加する。ステップＳ１９の処理後、ステップＳ２３の処理が行われる。
（Ｓ２０）外れ値除去部１２９は、高損失データリストと高混乱データリストと失敗データリストに基づいて、選択したデータが高損失かつ低混乱（高損失データであり、高混乱データではない）の失敗データであるか否かを判定する。高損失かつ低混乱の失敗データであると判定された場合、ステップＳ２１の処理が行われる。高損失かつ低混乱の失敗データではないと判定された場合、ステップＳ２３の処理が行われる。

【0116】

（Ｓ２１）外れ値除去部１２９は、ユーザにより、高損失かつ低混乱の失敗データを除去する指定があるか否かを判定する。高損失かつ低混乱の失敗データを除去する指定があると判定された場合、ステップＳ２２の処理が行われ、高損失かつ低混乱の失敗データを除去する指定がないと判定された場合、ステップＳ２３の処理が行われる。

【0117】

（Ｓ２２）外れ値除去部１２９は、ステップＳ１７の処理で選択したデータを除去リストに追加する。その後、ステップＳ２３の処理が行われる。
（Ｓ２３）外れ値除去部１２９は、第１入力データ群記憶部１２１に記憶されているデータのうちで、未選択のデータがあるか否かを判定する。未選択のデータがあると判定された場合、ステップＳ１７からの処理が繰り返される。未選択のデータがないと判定された場合、ステップＳ２４の処理が行われる。

【0118】

（Ｓ２４）外れ値除去部１２９は、第１入力データ群から除去リストに含まれる除去対象データを除去した第２入力データ群を生成する。
（Ｓ２５）外れ値除去部１２９は、第２入力データ群を出力する。

【0119】

（Ｓ２６）モデル修正部１３０は、第２入力データ群を用いて、モデル記憶部１２２に記憶された訓練済みの機械学習モデルを、例えば前述の方法を用いて修正する。
（Ｓ２７）モデル修正部１３０は、修正した機械学習モデルを出力する。以上で、機械学習モデルの修正処理が終了する。

【0120】

なお、上記の各ステップの処理順序は一例であって、適宜入れ替えてもよい。
以上説明したように、第２の実施の形態の情報処理装置１００は、第１入力データ群に含まれる成功データと失敗データに対して推論を行い、その結果から高損失データと高混乱データを抽出する。そして、情報処理装置１００は、高損失データであり、かつ高混乱データであるデータを、第１入力データ群から除去した第２入力データ群を生成する。情報処理装置１００は、第２入力データ群を用いて機械学習モデルを修正する。図５や図６を用いて説明したように、損失と混乱度の両方が大きくなる推論結果が得られるデータは、機械学習モデルを極度に混乱させ、修正を困難にする有害な外れ値である可能性が高い。このため、上記のように抽出した高損失データであり、かつ高混乱データであるデータを、第１入力データ群から除去した第２入力データ群を用いて機械学習モデルを修正することで、修正後の精度が向上する。

【0121】

また、情報処理装置１００は、高損失かつ低混乱の失敗データについても、例えば、ユーザにより除去する旨の指定、または除去対象データのデータ件数などに応じて、除去する。図６を用いて説明したように、高損失かつ低混乱の失敗データについても、機械学習モデルの修正後の精度を悪化させる外れ値である可能性があるため、このような失敗データについても除去することで、修正後の精度がより向上する。

【0122】

（適用例）
以下、第２の実施の形態の情報処理装置１００を、車両画像から車種（７クラス）を判別する事例に適用した例を示す。

【0123】

本事例では、機械学習モデルの訓練時に用いられた入力データ群に含まれる車両の正面および後ろ正面の画像の割合よりも、運用時の入力データ群に含まれる当該画像の割合が１０倍大きいため、機械学習モデルの判別精度が低下したものとする。つまり、訓練時の入力データ群と、運用時の入力データ群との間にデータドリフトが生じている。

【0124】

また、本事例では、前述の第１入力データ群は、データ件数が５５４７件の訓練時の入力データ群と、データ件数が１２３７件の運用時の入力データ群を含む。さらに、機械学習モデルの修正結果を確認するためのデータが、２４７６件、用いられる。修正結果を確認するためのデータは、修正対象の機械学習モデルを用いた本来の業務などにおいては、存在しないデータである。このようなデータは、機械学習モデルが汎化性能を担保しつつ、判別に失敗したデータを正しく判別できるように修正されているかどうかを確認するために用いられる。

【0125】

情報処理装置１００は、上記のような第１入力データ群を用いて、図１２に示した手順により、機械学習モデルの修正を行う。損失は、スパースカテゴリカル交差エントロピーにより算出され、混乱度は、図９に示したようなプログラムコードを実行することで算出される。また、本事例において、高損失データリストと高混乱データリストのデータ件数は、それぞれ１００件（すなわちＮ＝１００）である。

【0126】

なお、図１２のステップＳ２６の機械学習モデルを修正する処理では、第２入力データ群のうち、訓練時の入力データ群は、成功データが用いられる。訓練時において判別に成功していたデータについては、判別結果を維持するためである。また、第２入力データ群のうち、運用時の入力データ群は、失敗データが用いられる。訓練時にあまり想定されていなかったデータについても、機械学習モデルで正しく判別できるようにするためである。訓練時にあまり想定されていなかったデータは、例えば、前述のように、車両の正面および後ろ正面の画像である。

【0127】

図１３は、機械学習モデルの修正後の精度の例を示す図である。
本事例において、高損失データでかつ高混乱データのデータを除去した第２入力データ群を用いて機械学習モデルを修正した場合の精度が示されている。図１３に示されている精度は、分類精度を改善したいクラスに属する入力データ（画像）のうち、そのクラスに正しく分類された割合（正答率）である。図１３において、精度は、１０回の実験によって得られた値が示されている。精度の最大値と最小値は、横バーで示され、精度の四分位範囲がブロックで表されている。ブロック内の横線は中央値を示している。

【0128】

図１３には比較のために、データの除去を行わず、第１入力データ群を用いて機械学習モデルを修正した場合の精度が、さらに示されている。また、比較のために、前述のＶＡＥによる外れ値の除去方法によりデータを除去した入力データ群を用いて、機械学習モデルを修正した場合の精度が、さらに示されている。

【0129】

図１３のように、データの除去を行わない場合や、ＶＡＥによる外れ値の除去方法を用いた場合よりも、高損失データでかつ高混乱データのデータを除去した場合には、中央値や平均値レベルが高くなっている。この点から、高損失データでかつ高混乱データのデータを除去した場合には、機械学習モデルの修正後の精度が、データの除去を行わない場合や、ＶＡＥによる外れ値の除去方法を用いた場合よりも、向上していることが分かる。

【0130】

図１４は、機械学習モデルの修正後の修正率と退行率の比を示す図である。
本事例において、高損失データでかつ高混乱データのデータを除去した第２入力データ群を用いて機械学習モデルを修正した場合の、修正率と退行率の比（修正率／退行率）が示されている。修正率は、運用時において判別に失敗したデータが、修正後の機械学習モデルに入力された場合に、正解のクラスに分類される確率である。修正率は、訓練時において判別に成功したデータが、修正後の機械学習モデルに入力された場合に、誤ったクラスに分類される確率である。図１４において、修正率／退行率は、１０回の実験によって得られた値が示されている。修正率／退行率の最大値と最小値は、横バーで示され、修正率／退行率の四分位範囲がブロックで表されている。ブロック内の横線は中央値を示している。

【0131】

図１４には比較のために、データの除去を行わず、第１入力データ群を用いて機械学習モデルを修正した場合の修正率／退行率が、さらに示されている。また、比較のために、前述のＶＡＥによる外れ値の除去方法によりデータを除去した入力データ群を用いて、機械学習モデルを修正した場合の修正率／退行率が、さらに示されている。

【0132】

図１４のように、データの除去を行わない場合や、ＶＡＥによる外れ値の除去方法を用いた場合よりも、高損失データでかつ高混乱データのデータを除去した場合には、中央値や平均値レベルが高くなっている。この点からも、高損失データでかつ高混乱データのデータを除去した場合には、機械学習モデルの修正後の精度が、データの除去を行わない場合や、ＶＡＥによる外れ値の除去方法を用いた場合よりも、向上していることが分かる。

【0133】

以上、実施の形態に基づき、本発明のモデル修正プログラム、モデル修正方法および情報処理装置の一観点について説明してきたが、これらは一例にすぎず、上記の記載に限定されるものではない。

【符号の説明】

【0134】

１０情報処理装置
１１記憶部
１２処理部
１３第１入力データ群
１４機械学習モデル（訓練済み）
１５除去対象データ
１６第２入力データ群
１７機械学習モデル（修正後）

【図1】