特開2024-130689 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-130689パラメータ修正プログラム、パラメータ修正方法および情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024130689

(43)【公開日】2024-09-30

(54)【発明の名称】パラメータ修正プログラム、パラメータ修正方法および情報処理装置

(51)【国際特許分類】

G06N 3/09 20230101AFI20240920BHJP

【ＦＩ】

G06N3/09

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2023040550

(22)【出願日】2023-03-15

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002918

【氏名又は名称】弁理士法人扶桑国際特許事務所

(72)【発明者】

【氏名】宗像聡

(57)【要約】

【課題】修正後の機械学習モデルの分類精度を向上させる。
【解決手段】情報処理装置１０は、第１の特徴量と複数のクラスのうちの正解クラスを示すラベルとを含むサンプル１５から、特徴量空間の中で第１の特徴量を含む領域を特定し、領域内の第２の特徴量とラベルとを含むサンプル１６を生成する。情報処理装置１０は、機械学習モデル１３に含まれるパラメータ値１４と、機械学習モデル１３によって第２の特徴量から算出される複数のクラスそれぞれのクラス確率との関係に基づいて、複数のクラスの中での正解クラスのクラス確率の相対値が、パラメータ値１４の修正後にパラメータ値１４の修正前よりも減少しないことを示す制約情報１７を生成する。情報処理装置１０は、制約情報１７を満たすように、パラメータ値１４を修正する。
【選択図】図１

【特許請求の範囲】

【請求項1】

第１の特徴量と複数のクラスのうちの正解クラスを示すラベルとを含む第１のサンプルから、特徴量空間の中で前記第１の特徴量を含む領域を特定し、前記領域内の第２の特徴量と前記ラベルとを含む第２のサンプルを生成し、
機械学習モデルに含まれるパラメータ値と、前記機械学習モデルによって前記第２の特徴量から算出される前記複数のクラスそれぞれのクラス確率との関係に基づいて、前記複数のクラスの中での前記正解クラスの前記クラス確率の相対値が、前記パラメータ値の修正後に前記パラメータ値の修正前よりも減少しないことを示す制約情報を生成し、
前記制約情報を満たすように、前記パラメータ値を修正する、
処理をコンピュータに実行させるパラメータ修正プログラム。

【請求項2】

前記パラメータ値と、前記機械学習モデルによって前記第１の特徴量から算出される前記複数のクラスそれぞれの他のクラス確率との関係に基づいて、前記パラメータ値の修正後に、前記複数のクラスの中で前記正解クラスの前記他のクラス確率が最大であることを示す他の制約情報を生成する処理を、前記コンピュータに更に実行させ、
前記パラメータ値は、前記制約情報と前記他の制約情報とを満たすように修正される、
請求項１記載のパラメータ修正プログラム。

【請求項3】

前記第２のサンプルの生成は、前記第１のサンプルを含む複数の第１のサンプルに対応する、前記第１の特徴量を含む複数の第１の特徴量に対してクラスタリングを行うことで、前記領域を特定する処理を含む、
請求項１記載のパラメータ修正プログラム。

【請求項4】

前記機械学習モデルはニューラルネットワークであり、
前記第１の特徴量および前記第２の特徴量は、前記ニューラルネットワークに含まれる複数の層のうち、前記パラメータ値を含む層に入力される入力値である、
請求項１記載のパラメータ修正プログラム。

【請求項5】

【請求項6】

パラメータ値を含む機械学習モデルと、第１の特徴量と複数のクラスのうちの正解クラスを示すラベルとを含む第１のサンプルとを記憶する記憶部と、
前記第１のサンプルから、特徴量空間の中で前記第１の特徴量を含む領域を特定し、前記領域内の第２の特徴量と前記ラベルとを含む第２のサンプルを生成し、前記パラメータ値と、前記機械学習モデルによって前記第２の特徴量から算出される前記複数のクラスそれぞれのクラス確率との関係に基づいて、前記複数のクラスの中での前記正解クラスの前記クラス確率の相対値が、前記パラメータ値の修正後に前記パラメータ値の修正前よりも減少しないことを示す制約情報を生成し、前記制約情報を満たすように、前記パラメータ値を修正する処理部と、
を有する情報処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明はパラメータ修正プログラム、パラメータ修正方法および情報処理装置に関する。

【背景技術】

【0002】

コンピュータは、訓練データを用いた機械学習によって、クラス分類を行う機械学習モデルを訓練することがある。ただし、機械学習の性質上、機械学習モデルの誤分類をゼロにすることは難しい。これに対して、ユーザは、少数の重要な事例について誤分類が解消されるように、機械学習モデルを修正したいことがある。そこで、コンピュータは、機械学習モデル全体を再訓練する代わりに、訓練された機械学習モデルに含まれるパラメータ値を微調整するモデル修正を行うことがある。

【0003】

モデル修正技術の例として、現在の機械学習モデルとサンプルデータ群とから、パラメータ値が満たすべき制約を示す連立不等式を生成し、制約を満たすパラメータ値を線形ソルバによって探索する技術が提案されている。

【0004】

提案のモデル修正技術は、入力データと正解クラスとを対応付けた複数のサンプルを受け付ける。複数のサンプルの中には、現在の機械学習モデルによって正解クラスに分類されており、その分類結果を維持したいサンプルが含まれることがある。また、複数のサンプルの中には、現在の機械学習モデルによって誤ったクラスに分類されており、その分類結果を訂正したいサンプルが含まれることがある。提案のモデル修正技術は、これらサンプルが正しく分類される範囲で、修正量が最小のパラメータ値を探索する。

【0005】

なお、ニューラルネットワークを更新する機械学習において、新たなデータに対する予測誤差に基づいて当該データの異質度を算出し、異質度が閾値未満の場合に当該データを訓練データに追加する学習装置が提案されている。また、データを正例と負例に分類する機械学習モデルを訓練するランキング学習において、訓練データに含まれない特徴をもつデータが負例に分類されやすくなるよう制御する機械学習装置が提案されている。

【0006】

また、線形計画ソルバと二次計画ソルバを利用して、制約条件付き線形関数の最適解を算出するシステムが提案されている。また、ニューラルネットワークの機械学習の間に、エッジの追加や削除と、ノードの追加や削除を行うシステムが提案されている。

【先行技術文献】

【特許文献】

【0007】

【特許文献1】特開平５－５４０１４号公報

【特許文献2】特開２０１５－１９６８号公報

【特許文献3】米国特許出願公開第２０１５／０２８６６１１号明細書

【特許文献4】米国特許出願公開第２０２１／００２７１６３号明細書

【非特許文献】

【0008】

【非特許文献1】Ben Goldberger, Yossi Adi, Joseph Keshet and Guy Katz, "Minimal Modifications of Deep Neural Networks using Verification", Proc. of the 23rd International Conference on Logic for Programming, Artificial Intelligence and Reasoning (LPAR23), pp. 260-278, May 2020

【非特許文献2】Muhammad Usman, Divya Gopinath, Youcheng Sun, Yannic Noller and Corina S. Pasareanu, "NNREPAIR: Constraint-Based Repair of Neural Network Classifiers", Proc. of the 33rd International Conference on Computer Aided Verification (CAV2021), pp. 3-25, July 2021

【非特許文献3】Shuo Sun, Jun Yan and Rongjie Yan, "Layer-Specific Repair of Neural Network Classifiers", Proc. of the 31st International Conference on Artificial Neural Networks (ICANN2022), pp. 550-561, September 2022

【発明の概要】

【発明が解決しようとする課題】

【0009】

非特許文献１～３などのモデル修正技術は、与えられた既知のサンプルを正しく分類するようにパラメータ値を修正する。しかし、このモデル修正技術は、既知のサンプルと異なる未知の入力データの分類結果を考慮しない。このため、未知の入力データの分類精度が低下するという退行が発生するおそれがある。一方、与えるサンプルを単に増やしてしまうと、誤分類をゼロにすることが困難であるという機械学習モデルの性質上、パラメータ値の修正が適切に行われなくなるおそれがある。そこで、１つの側面では、本発明は、修正後の機械学習モデルの分類精度を向上させることを目的とする。

【課題を解決するための手段】

【0010】

１つの態様では、以下の処理をコンピュータに実行させるパラメータ修正プログラムが提供される。第１の特徴量と複数のクラスのうちの正解クラスを示すラベルとを含む第１のサンプルから、特徴量空間の中で第１の特徴量を含む領域を特定し、領域内の第２の特徴量とラベルとを含む第２のサンプルを生成する。機械学習モデルに含まれるパラメータ値と、機械学習モデルによって第２の特徴量から算出される複数のクラスそれぞれのクラス確率との関係に基づいて、複数のクラスの中での正解クラスのクラス確率の相対値が、パラメータ値の修正後にパラメータ値の修正前よりも減少しないことを示す制約情報を生成する。制約情報を満たすように、パラメータ値を修正する。

【0011】

また、１つの態様では、コンピュータが実行するパラメータ修正方法が提供される。また、１つの態様では、記憶部と処理部とを有する情報処理装置が提供される。

【発明の効果】

【0012】

１つの側面では、修正後の機械学習モデルの分類精度が向上する。

【図面の簡単な説明】

【0013】

【図1】第１の実施の形態の情報処理装置を説明するための図である。

【図2】第２の実施の形態の情報処理装置のハードウェア例を示す図である。

【図3】ニューラルネットワークの例を示す図である。

【図4】特徴空間への既知事例および未知事例のマッピング例を示す図である。

【図5】ニューラルネットワークの修正例を示す図である。

【図6】情報処理装置の機能例を示すブロック図である。

【図7】モデルテーブルの例を示す図である。

【図8】事例テーブルの例を示す図である。

【図9】制約テーブルの例を示す図である。

【図10】モデル修正の手順例を示すフローチャートである。

【図11】モデル修正の手順例を示すフローチャート（続き）である。

【図12】既知事例のクラスタリング例を示す図である。

【図13】未知事例の第１の分類例を示す図である。

【図14】未知事例の第２の分類例を示す図である。

【図15】モデル精度の比較例を示すグラフである。

【発明を実施するための形態】

【0014】

以下、本実施の形態を図面を参照して説明する。
［第１の実施の形態］
第１の実施の形態を説明する。

【0015】

図１は、第１の実施の形態の情報処理装置を説明するための図である。
第１の実施の形態の情報処理装置１０は、訓練済みの機械学習モデルを修正する。情報処理装置１０は、クライアント装置でもよいしサーバ装置でもよい。情報処理装置１０が、コンピュータまたはパラメータ修正装置と呼ばれてもよい。

【0016】

情報処理装置１０は、記憶部１１および処理部１２を有する。記憶部１１は、ＲＡＭ（Random Access Memory）などの揮発性半導体メモリでもよいし、ＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの不揮発性ストレージでもよい。

【0017】

処理部１２は、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）などのプロセッサである。ただし、処理部１２が、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などの電子回路を含んでもよい。プロセッサは、例えば、ＲＡＭなどのメモリ（記憶部１１でもよい）に記憶されたプログラムを実行する。プロセッサの集合が、マルチプロセッサまたは単に「プロセッサ」と呼ばれてもよい。

【0018】

記憶部１１は、機械学習モデル１３を記憶する。機械学習モデル１３は、訓練データを用いた機械学習によって訓練済みである。機械学習モデル１３は、例えば、複数の層を含むニューラルネットワークである。機械学習モデル１３は、入力データから、複数のクラスそれぞれのクラス確率を算出する。入力データは、クラス確率が最大のクラスに分類される。機械学習モデル１３は、画像データに写った物体の種類を判定する画像認識モデルであってもよい。機械学習モデル１３は、訓練済みのパラメータ値１４を含む。パラメータ値１４は、例えば、ある層のエッジの重みである。

【0019】

あるクラスのクラス確率は、入力データが当該クラスに所属する確からしさを示しており、入力データを当該クラスに分類することの信頼性を示していること言うこともできる。クラス確率が高いほど、分類の信頼性が高い。クラス確率が、クラス所属確率、予測確率、確信度、スコアまたは分類スコアと呼ばれてもよく、単に確率と呼ばれてもよい。機械学習モデル１３が算出するクラス確率は、全クラスのクラス確率の合計が一定値（例えば、１）になるよう調整されていてもよいし、そのように調整されていなくてもよい。

【0020】

また、記憶部１１は、サンプル１５を記憶する。サンプル１５は、第１の特徴量とラベルとを含む。第１の特徴量は、機械学習モデル１３に入力される入力データに相当してもよいし、機械学習モデル１３の中で入力データから変換される中間データに相当してもよい。例えば、第１の特徴量は、パラメータ値１４を含む層に入力される入力値である。ラベルは、複数のクラスのうちサンプル１５が分類されるべき正解クラスを示す。

【0021】

サンプル１５は、修正前の機械学習モデル１３によって正解クラスに分類されており、修正後もその分類結果を維持したいサンプルであってもよい。また、サンプル１５は、修正前の機械学習モデル１３によって誤ったクラスに分類されており、修正後はその分類結果を正解クラスに訂正したいサンプルであってもよい。

【0022】

処理部１２は、サンプル１５から、特徴量空間の中で第１の特徴量を含む領域を特定する。特徴量空間は、例えば、パラメータ値１４を含む層に入力され得る入力値が分布する空間である。特定される領域は、第１の特徴量と類似する特徴量の範囲を示し、ボックス形状の領域であってもよい。例えば、処理部１２は、サンプル１５を含む複数のサンプルの特徴量に対してクラスタリングを行うことで、第１の特徴量を含むクラスタを示す領域を特定する。クラスタリングには、例えば、ｋ－ｍｅａｎｓ法が用いられる。

【0023】

処理部１２は、特定された領域内から第２の特徴量を抽出し、第２の特徴量とラベルとを含むサンプル１６を生成する。第２の特徴量は、例えば、特定された領域の頂点に相当する特徴量である。サンプル１６のラベルは、サンプル１５と同じ正解クラスを示す。サンプル１５が既知事例と呼ばれてもよく、サンプル１６が未知事例と呼ばれてもよい。

【0024】

処理部１２は、サンプル１６から制約情報１７を生成する。制約情報１７は、修正後のパラメータ値１４が満たすべき条件を示す。制約情報１７は、例えば、修正後のパラメータ値１４またはパラメータ値１４の修正量を変数として含む不等式によって表される。処理部１２は、パラメータ値１４と、機械学習モデル１３によって第２の特徴量から算出されるクラス確率との間の関係に基づいて、制約情報１７を生成する。

【0025】

制約情報１７は、複数のクラスの中での正解クラスのクラス確率の相対値が、パラメータ値１４の修正によって減少しないことを規定する。制約情報１７は、サンプル１６の分類結果が正解クラスから遠ざかっていないことを規定しているとも言える。ただし、制約情報１７は、複数のクラスのうち正解クラスのクラス確率が最大であること、すなわち、サンプル１６の分類結果が正しいことまでは規定しない。よって、修正前の機械学習モデル１３がサンプル１６を誤ったクラスに分類する場合、修正後の機械学習モデル１３が引き続きサンプル１６を誤ったクラスに分類することも許容される。

【0026】

クラス数が２である場合、例えば、制約情報１７は、修正後の正解クラスのクラス確率と修正後の他のクラスのクラス確率との差が、修正前の正解クラスのクラス確率と修正前の他のクラスのクラス確率との差より小さくならないことを規定する。クラス数が３以上の場合、制約情報１７は、正解クラスのクラス確率と他の全てのクラスのクラス確率との間で、上記の条件を規定してもよい。また、制約情報１７は、正解クラスのクラス確率と他のクラスの中の最大または最小のクラス確率との間で、上記の条件を規定してもよい。全クラスのクラス確率の合計が一定値になるよう調整されている場合、クラス確率の相対値は、機械学習モデル１３が算出するクラス確率そのものであってもよい。

【0027】

処理部１２は、制約情報１７を満たすようにパラメータ値１４を修正する。例えば、処理部１２は、制約情報１７が示す不等式を満たす範囲で、修正量が最小となるようにパラメータ値１４を修正する。処理部１２は、線形計画ソルバを用いて、修正後のパラメータ値１４またはパラメータ値１４の修正量を探索してもよい。

【0028】

処理部１２は、サンプル１５から他の制約情報を生成してもよく、制約情報１７に加えて他の制約情報を満たすようにパラメータ値１４を修正してもよい。サンプル１５から生成される他の制約情報は、パラメータ値１４の修正後、第１の特徴量から算出される正解クラスのクラス確率が複数のクラスの中で最大であることを規定してもよい。

【0029】

処理部１２は、パラメータ値１４が修正された機械学習モデル１３を出力する。処理部１２は、修正後の機械学習モデル１３を不揮発性ストレージに保存してもよいし、表示装置に表示してもよいし、他の情報処理装置に送信してもよい。

【0030】

以上説明したように、第１の実施の形態の情報処理装置１０は、第１の特徴量と正解クラスを示すラベルとを含むサンプル１５から、特徴量空間の中で第１の特徴量を含む領域を特定し、領域内の第２の特徴量と当該ラベルとを含むサンプル１６を生成する。情報処理装置１０は、機械学習モデル１３に含まれるパラメータ値１４と第２の特徴量から算出されるクラス確率との関係に基づいて、制約情報１７を生成する。制約情報１７は、正解クラスのクラス確率の相対値が、パラメータ値１４の修正によって減少しないことを示す。情報処理装置１０は、制約情報１７を満たすようにパラメータ値１４を修正する。

【0031】

これにより、与えられたサンプル１５と類似する入力データの分類結果も考慮して機械学習モデル１３が修正される。よって、未知の入力データの分類精度が低下する退行が抑制され、修正後の機械学習モデル１３の分類精度が向上する。

【0032】

また、制約情報１７は、修正前の機械学習モデル１３がサンプル１６を正解クラスに分類しない場合、修正後の機械学習モデル１３がサンプル１６を正解クラスに分類することまでは要求しない。よって、誤分類をゼロにすることが難しい場合であっても、制約情報１７を満たすパラメータ値１４が発見されやすくなる。また、パラメータ値１４の不適切な修正によって分類精度が低下するリスクが抑制される。

【0033】

なお、情報処理装置１０は、サンプル１５から他の制約情報を生成してもよく、制約情報１７と他の制約情報とを満たすようにパラメータ値１４を修正してもよい。他の制約情報は、パラメータ値１４の修正後に算出される正解クラスのクラス確率が、複数のクラスの中で最大であることを示してもよい。これにより、サンプル１５の分類結果が正しくなるように機械学習モデル１３が修正される。

【0034】

また、情報処理装置１０は、複数のサンプルの特徴量に対してクラスタリングを行うことで、第１の特徴量を含む領域を特定してもよい。これにより、第１の特徴量と類似しており、かつ、第１の特徴量と同じクラスに分類されるべき第２の特徴量が抽出される。また、機械学習モデル１３はニューラルネットワークであってもよく、特徴量は、パラメータ値１４を含む層に入力される入力値であってもよい。これにより、特徴量とパラメータ値１４とクラス確率との関係が、簡潔に表現される。

【0035】

［第２の実施の形態］
次に、第２の実施の形態を説明する。
第２の実施の形態の情報処理装置１００は、クラス分類を行うニューラルネットワークに含まれる重みを、再訓練せずに修正する。これにより、情報処理装置１００は、少数の誤答事例の分類結果が訂正されるように、ニューラルネットワークを修正する。情報処理装置１００は、クライアント装置でもよいしサーバ装置でもよい。情報処理装置１００が、コンピュータまたはモデル修正装置と呼ばれてもよい。情報処理装置１００は、第１の実施の形態の情報処理装置１０に対応する。

【0036】

図２は、第２の実施の形態の情報処理装置のハードウェア例を示す図である。
情報処理装置１００は、バスに接続されたＣＰＵ１０１、ＲＡＭ１０２、ＨＤＤ１０３、ＧＰＵ１０４、入力インタフェース１０５、媒体リーダ１０６および通信インタフェース１０７を有する。ＣＰＵ１０１は、第１の実施の形態の処理部１２に対応する。ＲＡＭ１０２またはＨＤＤ１０３は、第１の実施の形態の記憶部１１に対応する。

【0037】

ＣＰＵ１０１は、プログラムの命令を実行するプロセッサである。ＣＰＵ１０１は、ＨＤＤ１０３に記憶されたプログラムおよびデータをＲＡＭ１０２にロードし、プログラムを実行する。情報処理装置１００は、複数のプロセッサを有してもよい。

【0038】

ＲＡＭ１０２は、ＣＰＵ１０１で実行されるプログラムおよびＣＰＵ１０１で演算に使用されるデータを一時的に記憶する揮発性半導体メモリである。情報処理装置１００は、ＲＡＭ以外の種類の揮発性メモリを有してもよい。

【0039】

ＨＤＤ１０３は、オペレーティングシステム（ＯＳ：Operating System）やミドルウェアやアプリケーションソフトウェアなどのソフトウェアのプログラムと、データとを記憶する不揮発性ストレージである。情報処理装置１００は、フラッシュメモリやＳＳＤ（Solid State Drive）などの他の種類の不揮発性ストレージを有してもよい。

【0040】

ＧＰＵ１０４は、ＣＰＵ１０１と連携して画像処理を行い、情報処理装置１００に接続された表示装置１１１に画像を出力する。表示装置１１１は、例えば、ＣＲＴ（Cathode Ray Tube）ディスプレイ、液晶ディスプレイ、有機ＥＬ（Electro Luminescence）ディスプレイまたはプロジェクタである。情報処理装置１００に、プリンタなどの他の種類の出力デバイスが接続されてもよい。

【0041】

また、ＧＰＵ１０４は、ＧＰＧＰＵ（General Purpose Computing on Graphics Processing Unit）として使用されてもよい。ＧＰＵ１０４は、ＣＰＵ１０１からの指示に応じてプログラムを実行し得る。情報処理装置１００は、ＲＡＭ１０２以外の揮発性半導体メモリをＧＰＵメモリとして有してもよい。

【0042】

入力インタフェース１０５は、情報処理装置１００に接続された入力デバイス１１２から入力信号を受け付ける。入力デバイス１１２は、例えば、マウス、タッチパネルまたはキーボードである。情報処理装置１００に複数の入力デバイスが接続されてもよい。

【0043】

媒体リーダ１０６は、記録媒体１１３に記録されたプログラムおよびデータを読み取る読み取り装置である。記録媒体１１３は、例えば、磁気ディスク、光ディスクまたは半導体メモリである。磁気ディスクには、フレキシブルディスク（ＦＤ：Flexible Disk）およびＨＤＤが含まれる。光ディスクには、ＣＤ（Compact Disc）およびＤＶＤ（Digital Versatile Disc）が含まれる。媒体リーダ１０６は、記録媒体１１３から読み取られたプログラムおよびデータを、ＲＡＭ１０２やＨＤＤ１０３などの他の記録媒体にコピーする。読み取られたプログラムは、ＣＰＵ１０１によって実行されることがある。

【0044】

記録媒体１１３は、可搬型記録媒体であってもよい。記録媒体１１３は、プログラムおよびデータの配布に用いられることがある。また、記録媒体１１３およびＨＤＤ１０３が、コンピュータ読み取り可能な記録媒体と呼ばれてもよい。

【0045】

通信インタフェース１０７は、ネットワーク１１４を介して他の情報処理装置と通信する。通信インタフェース１０７は、スイッチやルータなどの有線通信装置に接続される有線通信インタフェースでもよいし、基地局やアクセスポイントなどの無線通信装置に接続される無線通信インタフェースでもよい。

【0046】

次に、ニューラルネットワークの修正について説明する。
第２の実施の形態のニューラルネットワークは、入力データを複数のクラスに分類するクラス分類モデルである。例えば、ニューラルネットワークは、入力された画像データを、物体の種類を示す複数のクラスに分類する。このニューラルネットワークは、例えば、自動運転、医療診断、製品検査、街路監視などに利用される。

【0047】

図３は、ニューラルネットワークの例を示す図である。
ニューラルネットワーク１４０は、入力層と、出力層と、入力層と出力層の間にある隠れ層とを含む。隠れ層は、中間層と呼ばれることがある。第２の実施の形態では説明を簡単にするため、入力の次元数を２、クラス数を２、隠れ層の個数を１とする。

【0048】

ニューラルネットワーク１４０は、ノード１４１～１４８を含む。ノード１４１，１４２は、入力層に含まれる。ノード１４３～１４６は、隠れ層に含まれる。ノード１４７，１４８は、出力層に含まれる。ノード１４１は、入力値ｘ^１ _１を示す。ノード１４２は、入力値ｘ^１ _２を示す。入力値ｘ^１ _１，ｘ^１ _２が、入力ベクトルｘ^１を形成する。ノード１４３は、特徴量ｙ^１ _１を示す。ノード１４４は、特徴量ｙ^１ _２を示す。特徴量ｙ^１ _１，ｙ^１ _２が、特徴ベクトルｙ^１を形成する。

【0049】

ノード１４１とノード１４３の間のエッジは、重みＷ^１ _１，１をもつ。ノード１４１とノード１４４の間のエッジは、重みＷ^１ _１，２をもつ。ノード１４２とノード１４３の間のエッジは、重みＷ^１ _２，１をもつ。ノード１４２とノード１４４の間のエッジは、重みＷ^１ _２，２をもつ。重みＷ^１ _１，１，Ｗ^１ _１，２，Ｗ^１ _２，１，Ｗ^１ _２，２が、重み行列Ｗ^１を形成する。また、ノード１４３は、重みｂ^１ _１をもつ。ノード１４４は、重みｂ^１ _２をもつ。重みｂ^１ _１，ｂ^１ _２が、重みベクトルｂ^１を形成する。

【0050】

ノード１４５は、特徴量ｘ^２ _１を示す。ノード１４６は、特徴量ｘ^２ _２を示す。特徴量ｘ^２ _１，ｘ^２ _２が、特徴ベクトルｘ^２を形成する。活性化関数σによって、特徴量ｙ^１ _１が特徴量ｘ^２ _１に変換され、特徴量ｙ^１ _２が特徴量ｘ^２ _２に変換される。ノード１４７は、クラス１のクラス確率ｙ^２ _１を示す。ノード１４８は、クラス２のクラス確率ｙ^２ _２を示す。あるクラスのクラス確率は、入力データが当該クラスに属する可能性を示す。クラス確率ｙ^２ _１，ｙ^２ _２が、クラス確率ベクトルｙ^２を形成する。

【0051】

ノード１４５とノード１４７の間のエッジは、重みＷ^２ _１，１をもつ。ノード１４５とノード１４８の間のエッジは、重みＷ^２ _１，２をもつ。ノード１４６とノード１４７の間のエッジは、重みＷ^２ _２，１をもつ。ノード１４６とノード１４８の間のエッジは、重みＷ^２ _２，２をもつ。重みＷ^２ _１，１，Ｗ^２ _１，２，Ｗ^２ _２，１，Ｗ^２ _２，２が、重み行列Ｗ^２を形成する。また、ノード１４７は、重みｂ^２ _１をもつ。ノード１４８は、重みｂ^２ _２をもつ。重みｂ^２ _１，ｂ^２ _２が、重みベクトルｂ^２を形成する。

【0052】

入力ベクトルｘ^１からクラス確率ベクトルｙ^２への変換は、数式（１）に示す行列計算によって行われる。入力ベクトルｘ^１は、クラス確率が最大のクラスに分類される。重みＷ^１ _１，１，Ｗ^１ _１，２，Ｗ^１ _２，１，Ｗ^１ _２，２，Ｗ^２ _１，１，Ｗ^２ _１，２，Ｗ^２ _２，１，Ｗ^２ _２，２，ｂ^１ _１，ｂ^１ _２，ｂ^２ _１，ｂ^２ _２は、機械学習を通じて決定される。

【0053】

【数1】

【0054】

ここで、機械学習技術の限界から、ニューラルネットワーク１４０の分類精度を１００％にすることは困難である。そのため、ニューラルネットワーク１４０は、入力ベクトルを誤ったクラスに分類する誤分類を行うことがある。

【0055】

このとき、ユーザは、少数の重要な事例について、誤分類が起きないようにニューラルネットワーク１４０を修正したいことがある。例えば、街路監視の画像認識モデルは、車両と同じ色の服を着た人を誤った物体クラスに分類することがある。このような誤分類は、１万分の１などの低確率で発生するものの、重大な欠陥と判断されることがある。

【0056】

ただし、訓練データを増やしてニューラルネットワーク１４０を再訓練しても、重要な事例の誤分類が解消するとは限らない。そこで、情報処理装置１００は、ニューラルネットワーク１４０に含まれる重みを直接的に修正する。情報処理装置１００は、与えられた複数の事例それぞれが正解クラスに分類されるために重みが満たすべき制約を不等式で表現し、線形計画ソルバで連立不等式を解くことで修正後の重みを算出する。このようなモデル修正は、同値性証明付きモデル修正と呼ばれることがある。

【0057】

例えば、修正前のニューラルネットワーク１４０が正解クラスに分類している正答事例が、数万件程度ある。一方、修正前のニューラルネットワーク１４０が誤ったクラスに分類している誤答事例が、全体の数％にあたる数千件程度ある。誤答事例のうち誤分類を解消すべき要訂正事例が、全体の０．１％未満にあたる数十件程度ある。このとき、正答事例のうちの一部が、ニューラルネットワーク１４０の修正後も分類先クラスを維持すべき事例として情報処理装置１００に与えられる。また、要訂正事例の一部または全部が、ニューラルネットワーク１４０の修正によって誤答を解消すべき事例として与えられる。

【0058】

第２の実施の形態では、情報処理装置１００は、重み行列Ｗ^２と重みベクトルｂ^２、すなわち、重みＷ^２ _１，１，Ｗ^２ _１，２，Ｗ^２ _２，１，Ｗ^２ _２，２，ｂ^２ _１，ｂ^２ _２を修正する。なお、修正対象の重みは、情報処理装置１００によって自動的に選択されてもよいし、ユーザによって指定されてもよい。一般的に、誤分類の原因が入力データの傾向変化である場合、入力層寄りの重みを修正することが好ましい。一方、誤分類の原因がクラス境界の調整不足である場合、出力層寄りの重みを修正することが好ましい。

【0059】

情報処理装置１００は、与えられた複数の事例それぞれから、数式（２）に示すような不等式を制約として生成する。数式（２）では、正解クラスがクラス１である場合を想定している。数式（２）において、Ｗ’^２は重み行列Ｗ^２の修正後の行列を表す変数であり、ｂ’^２は重みベクトルｂ^２の修正後のベクトルを表す変数である。数式（２）は、修正後に特徴ベクトルｘ^２から算出されるクラス確率ベクトルについて、クラス１のクラス確率がクラス２のクラス確率以上であることを規定する。よって、数式（２）は、特徴ベクトルｘ^２から判定される分類先クラスが正解クラスであることを規定する。

【0060】

【数2】

【0061】

上記の同値性証明付きモデル修正は、ユーザから与えられた既知事例が正解クラスに分類されることを保証する。一方、同値性証明付きモデル修正は、ユーザから与えられていない未知事例の分類精度を考慮しておらず、未知事例の誤分類が増えるという退行を発生させるおそれがある。これに対して、情報処理装置１００は、既知事例と類似する特徴ベクトルをもつ未知事例をサンプリングし、既知事例と類似する未知事例がその既知事例と同じクラスに分類されるように、未知事例からも制約を生成する方法が考えられる。

【0062】

しかし、クラス分類モデルの誤分類をゼロにすることは困難であるため、既知事例と類似する未知事例が全て正解クラスに分類されることを要求すると、制約を満たす解が存在しないことがある。また、制約を満たす解が存在しても、制約を満たすために不自然な分類境界が設定され、かえって分類精度が低下するおそれがある。

【0063】

そこで、第２の実施の形態では、情報処理装置１００は、未知事例から生成される制約を緩和する。未知事例の制約は、正解クラスのクラス確率が複数のクラスの中で最大であることを規定しない。よって、未知事例の制約は、未知事例が正解クラスに分類されることを規定しない。ただし、未知事例の制約は、複数のクラスの中での正解クラスのクラス確率の相対値が、修正前より減少していないことを規定する。

【0064】

これは、クラス確率ベクトル空間の中で、未知事例に対応する点が動かないか正解クラス領域に近づくことを表す。よって、修正前のクラス分類モデルが未知事例を誤ったクラスに分類している場合、修正後のクラス分類モデルが未知事例を誤ったクラスに分類することも許容される。このような制約であっても、未知事例の分類精度は低下しない。

【0065】

情報処理装置１００は、既知事例からは、上記の数式（２）に示す制約を生成する。一方、情報処理装置１００は、既知事例の周辺からサンプリングされた未知事例からは、数式（３）に示す制約を生成する。数式（３）では、正解クラスがクラス１である場合を想定している。数式（３）は、修正後のクラス１のクラス確率から修正後のクラス２のクラス確率を引いた修正後相対値が、修正前のクラス１のクラス確率から修正前のクラス２のクラス確率を引いた修正前相対値以上であることを規定する。

【0066】

【数3】

【0067】

なお、クラス確率ベクトル空間の中での未知事例に対応する点の移動方向は、数式（４）によって判定される。数式（４）の値が正である場合、クラス確率ベクトル空間の中で未知事例に対応する点はクラス１領域に近づいている。数式（４）の値が負である場合、クラス確率ベクトル空間の中で未知事例に対応する点はクラス２領域に近づいている。また、第２の実施の形態では、情報処理装置１００は、既知事例から数式（２）の制約を生成しているが、既知事例から数式（３）の制約を生成することも可能である。

【0068】

【数4】

【0069】

図４は、特徴空間への既知事例および未知事例のマッピング例を示す図である。
既知事例１５１は、入力データとして画像データ１を含み、正解クラスがクラス１であることを示すラベルを含む。既知事例１５２は、入力データとして画像データ２を含み、正解クラスがクラス２であることを示すラベルを含む。未知事例１５３は、入力データとして画像データ３を含み、正解クラスがクラス１であることを示すラベルを含む。

【0070】

情報処理装置１００は、修正対象である重み行列Ｗ^２および重みベクトルｂ^２の直前に算出される特徴ベクトルｘ^２の空間に、既知事例１５１，１５２をマッピングする。点１５４は、既知事例１５１に対応し、画像データ１から算出される特徴ベクトルを示す。点１５５は、既知事例１５２に対応し、画像データ２から算出される特徴ベクトルを示す。

【0071】

情報処理装置１００は、点１５４の近傍から点１５６を抽出する。点１５６は、未知事例１５３に対応し、画像データ３から算出される特徴ベクトルを示す。情報処理装置１００は、点１５６に対応する未知事例１５３に、点１５４に対応する既知事例１５１と同じ正解クラスを示すラベルを付与する。これにより、情報処理装置１００は、既知事例１５１と類似する未知事例１５３を生成する。なお、情報処理装置１００は、実際には点１５６が示す特徴ベクトルを特定すればよく、画像データ３を生成しなくてよい。

【0072】

分類境界１５７は、修正前のクラス分類モデルにおける特徴ベクトルｘ^２と分類先クラスとの関係を示す。図４では、分類境界１５７より下の点がクラス１に分類され、分類境界１５７より上の点がクラス２に分類される。点１５４の近傍には、分類境界１５７を跨ぐ点も含まれる。このため、点１５４の近傍の全ての点がクラス１に分類されるように分類境界１５７を調整することは、難しいことがある。

【0073】

図５は、ニューラルネットワークの修正例を示す図である。
点１６１は、特徴ベクトルｘ^２の空間からサンプリングされた未知事例を示す。分類境界１６４は、修正前のクラス分類モデルにおける特徴ベクトルｘ^２と分類先クラスとの関係を示す。点１６１は、修正前の重み行列Ｗ^２および重みベクトルｂ^２を用いて、クラス確率ベクトルｙ^２の空間内の点１６２に変換される。分類境界１６６は、クラス確率ベクトルｙ^２と分類先クラスとの関係を示す。

【0074】

分類境界１６５は、修正前のクラス分類モデルにおける特徴ベクトルｘ^２と分類先クラスとの関係を示す。点１６１は、修正後の重み行列Ｗ’^２および重みベクトルｂ’^２を用いて、クラス確率ベクトルｙ^２の空間内の点１６３に変換される。

【0075】

このとき、情報処理装置１００は、クラス確率ベクトルｙ^２の空間において、点１６３が点１６２から移動しないか、または、正解クラス側に移動するという制約を生成する。点１６２が正解クラスの領域の中にある場合、正解クラス側とは、点１６３が分類境界１６６から遠ざかる方向を意味する。点１６２が正解クラスの領域の外にある場合、正解クラス側とは、点１６３が分類境界１６６に近づく方向を意味する。

【0076】

次に、情報処理装置１００の機能例について説明する。
図６は、情報処理装置の機能例を示すブロック図である。
情報処理装置１００は、モデル記憶部１２１、事例記憶部１２２、制約記憶部１２３、未知事例生成部１２４、既知事例制約生成部１２５、未知事例制約生成部１２６および線形計画ソルバ１２７を有する。モデル記憶部１２１、事例記憶部１２２および制約記憶部１２３は、例えば、ＲＡＭ１０２またはＨＤＤ１０３を用いて実装される。未知事例生成部１２４、既知事例制約生成部１２５、未知事例制約生成部１２６および線形計画ソルバ１２７は、例えば、ＣＰＵ１０１およびプログラムを用いて実装される。

【0077】

モデル記憶部１２１は、修正前のニューラルネットワークを記憶する。また、モデル記憶部１２１は、修正後のニューラルネットワークを記憶する。
事例記憶部１２２は、ユーザから与えられた複数の既知事例を記憶する。複数の既知事例の中には、修正後も分類先クラスを維持したい維持用の既知事例と、修正によって分類先クラスを訂正したい訂正用の既知事例とが含まれる。また、事例記憶部１２２は、維持用の既知事例と類似する未知事例を記憶する。

【0078】

制約記憶部１２３は、既知事例から生成された制約を記憶する。既知事例の制約は、既知事例の分類先クラスが正解クラスであることを規定する。また、制約記憶部１２３は、未知事例から生成された制約を記憶する。未知事例の制約は、正解クラスのクラス確率が相対的に低下していないことを規定する。既知事例の制約および未知事例の制約はそれぞれ、重みの修正量を示す変数を用いた不等式で表現される。

【0079】

未知事例生成部１２４は、モデル記憶部１２１に記憶された修正前のニューラルネットワークと、事例記憶部１２２に記憶された既知事例とから、未知事例を生成する。このとき、未知事例生成部１２４は、既知事例の特徴ベクトルの周辺から他の特徴ベクトルを抽出し、既知事例と同じラベルを付与することで、未知事例を生成する。未知事例生成部１２４は、生成された未知事例を事例記憶部１２２に保存する。

【0080】

既知事例制約生成部１２５は、事例記憶部１２２から既知事例を読み出す。既知事例制約生成部１２５は、重みの修正差分を示す変数を用いて、既知事例の分類先クラスが正解クラスになるために変数が満たすべき制約を不等式で表現する。既知事例制約生成部１２５は、生成された制約を制約記憶部１２３に保存する。

【0081】

未知事例制約生成部１２６は、事例記憶部１２２から未知事例を読み出す。未知事例制約生成部１２６は、重みの修正差分を示す変数を用いて、未知事例のクラス確率ベクトルが変わらないか、または、正解クラスに近づくために変数が満たすべき制約を不等式で表現する。未知事例制約生成部１２６は、生成された制約を制約記憶部１２３に保存する。

【0082】

線形計画ソルバ１２７は、制約記憶部１２３に記憶された制約を満たす範囲で、Ｌ１ノルムが最小となる重みの修正差分を探索する。修正差分のＬ１ノルムは目的関数として表現され、制約は連立不等式で表現される。なお、修正差分の大きさとして、Ｌ１ノルムに代えてＬ２ノルムなどの他の指標を用いてもよい。

【0083】

線形計画ソルバ１２７は、重みの修正差分から修正後の重みを算出し、修正後の重みを含むニューラルネットワークをモデル記憶部１２１に保存する。なお、線形計画ソルバ１２７は、修正差分をモデル記憶部１２１に保存してもよい。また、線形計画ソルバ１２７は、修正差分または修正されたニューラルネットワークを、表示装置１１１に表示してもよいし、他の情報処理装置に送信してもよい。

【0084】

図７は、モデルテーブルの例を示す図である。
モデルテーブル１３１は、モデル記憶部１２１に記憶される。モデルテーブル１３１は、種別、重み行列Ｗ^１、重みベクトルｂ^１、重み行列Ｗ^２および重みベクトルｂ^２をそれぞれ含む複数のレコード（典型的には２つのレコード）を記憶する。

【0085】

種別は、ニューラルネットワークの種別を示し、修正前または修正後である。種別が修正前であるレコードは、修正前の重み行列Ｗ^１、重みベクトルｂ^１、重み行列Ｗ^２および重みベクトルｂ^２を含む。種別が修正後であるレコードは、修正後の重み行列Ｗ^１、重みベクトルｂ^１、重み行列Ｗ^２および重みベクトルｂ^２を含む。なお、図７では、重み行列Ｗ^１，Ｗ^２を、列ベクトルの集合として表記している。

【0086】

図８は、事例テーブルの例を示す図である。
事例テーブル１３２は、事例記憶部１２２に記憶される。事例テーブル１３２は、種別、用途、入力ベクトルｘ^１、特徴ベクトルｘ^２およびラベルをそれぞれ含む複数のレコードを記憶する。種別は、事例の種別を示し、既知または未知である。

【0087】

既知事例の用途は、維持、訂正または評価である。未知事例の用途は、維持である。維持は、修正前のニューラルネットワークの分類先クラスを維持する目的を示す。訂正は、修正前のニューラルネットワークの分類先クラスを正解クラスに訂正する目的を示す。評価用の既知事例は、ニューラルネットワークの修正には使用されず、修正されたニューラルネットワークの分類精度の評価に使用される。例えば、訂正用の既知事例が２個、維持用の既知事例が４５個、評価用の既知事例が４０５個用意される。また、維持用の既知事例に基づいて、未知事例が１６個生成される。

【0088】

既知事例のレコードは、入力ベクトルｘ^１を含む。未知事例のレコードは、入力ベクトルｘ^１を含まなくてよい。また、訂正用の既知事例のレコードおよび維持用の既知事例のレコードは、特徴ベクトルｘ^２を含む。この特徴ベクトルｘ^２は、ニューラルネットワークに入力ベクトルｘ^１を入力することで算出される。また、未知事例のレコードは、特徴ベクトルｘ^２を含む。この特徴ベクトルｘ^２は、特徴ベクトル空間から抽出される。評価用の既知事例のレコードは、特徴ベクトルｘ^２を含まなくてよい。

【0089】

ラベルは、正解クラスを示す。維持用の既知事例のラベルおよび評価用の既知事例のラベルは、修正前のニューラルネットワークによって判定される分類先クラスと一致する。訂正用の既知事例のラベルは、修正前のニューラルネットワークによって判定される分類先クラスと一致しない。未知事例のラベルは、類似する既知事例のラベルと同じである。

【0090】

図９は、制約テーブルの例を示す図である。
制約テーブル１３３は、制約記憶部１２３に記憶される。制約テーブル１３３は、種別、係数行列Ａ、係数ベクトルＢおよび定数ｃをそれぞれ含む複数のレコードを記憶する。制約テーブル１３３の１つのレコードは、１つの不等式を表す。制約テーブル１３３のレコードは、事例テーブル１３２が示す事例のうち、評価用の既知事例以外の事例（維持用の既知事例、訂正用の既知事例および未知事例）と１対１に対応する。

【0091】

種別は、事例の種別を示し、既知または未知である。係数行列Ａ、係数ベクトルＢおよび定数ｃは、数式（５）を満たす行列、ベクトルおよび定数である。数式（５）の左辺において、係数行列Ａと重み行列Ｗ^２との間の演算子、および、係数ベクトルＢと重みベクトルｂ^２との間の演算子は、内積を表す。前述のニューラルネットワーク１４０の例の場合、数式（５）は数式（６）のように展開される。なお、図９では、係数行列Ａを、列ベクトルの集合として表記している。

【0092】

【数5】

【0093】

【数6】

【0094】

次に、情報処理装置１００の処理手順について説明する。
図１０は、モデル修正の手順例を示すフローチャートである。
（Ｓ１０）情報処理装置１００は、ニューラルネットワークに含まれる重み行列Ｗ^１，Ｗ^２および重みベクトルｂ^１，ｂ^２を、モデルテーブル１３１に保存する。

【0095】

（Ｓ１１）情報処理装置１００は、維持用、訂正用および評価用の既知事例それぞれに含まれる入力ベクトルｘ^１およびラベルを、事例テーブル１３２に保存する。
（Ｓ１２）既知事例制約生成部１２５は、事例テーブル１３２から、用途が維持または訂正である既知事例を１つ選択する。

【0096】

（Ｓ１３）既知事例制約生成部１２５は、選択された既知事例の入力ベクトルｘ^１をニューラルネットワークに入力する。これにより、既知事例制約生成部１２５は、修正対象層の入力に相当する特徴ベクトルｘ^２を算出する。また、既知事例制約生成部１２５は、出力層の出力に相当するクラス確率ベクトルｙ^２を算出する。

【0097】

（Ｓ１４）既知事例制約生成部１２５は、ステップＳ１３で算出された特徴ベクトルｘ^２を、事例テーブル１３２に保存する。
（Ｓ１５）既知事例制約生成部１２５は、重み行列Ｗ^２の重み差分ΔＷ^２と重みベクトルｂ^２の重み差分Δｂ^２とを変数として用いて、重み行列Ｗ^２および重みベクトルｂ^２を修正した後のクラス確率ベクトルｙ’^２を規定する。クラス確率ベクトルｙ’^２は、数式（７）のように規定される。重み差分ΔＷ^２，Δｂ^２は、数式（８）のように規定される。

【0098】

【数7】

【0099】

【数8】

【0100】

（Ｓ１６）既知事例制約生成部１２５は、ステップＳ１５で規定されたクラス確率ベクトルｙ’^２に基づいて、重み差分ΔＷ^２，Δｂ^２を変数として用いて、正解クラスのクラス確率が最大であることを示す不等式を生成する。

【0101】

選択された既知事例の正解クラスがクラス１である場合、数式（９）の不等式が展開される。選択された既知事例の正解クラスがクラス２である場合、数式（１０）の不等式が展開される。既知事例制約生成部１２５は、展開された不等式を数式（５）の形に整理する。これにより、正解クラスがクラス１である場合、係数行列Ａ、係数ベクトルＢおよび定数ｃは数式（１１）のように算出される。正解クラスがクラス２である場合、係数行列Ａ、係数ベクトルＢおよび定数ｃは数式（１２）のように算出される。

【0102】

【数9】

【0103】

【数10】

【0104】

【数11】

【0105】

【数12】

【0106】

（Ｓ１７）既知事例制約生成部１２５は、ステップＳ１６で算出された係数行列Ａ、係数ベクトルＢおよび定数ｃを、制約テーブル１３３に保存する。
（Ｓ１８）既知事例制約生成部１２５は、ステップＳ１２に該当する全ての既知事例を選択したか判断する。該当する全ての既知事例を選択した場合はステップＳ１９に処理が進み、未選択の既知事例がある場合はステップＳ１２に処理が戻る。

【0107】

（Ｓ１９）未知事例生成部１２４は、事例テーブル１３２から、用途が維持である既知事例を全て選択する。
（Ｓ２０）未知事例生成部１２４は、ラベルが同じ既知事例を特徴ベクトルｘ^２に応じて１以上のクラスタに分類する。例えば、未知事例生成部１２４は、正解クラスがクラス１である既知事例の特徴ベクトルｘ^２をクラスタに分類する。また、未知事例生成部１２４は、正解クラスがクラス２である既知事例の特徴ベクトルｘ^２をクラスタに分類する。

【0108】

クラスタリングアルゴリズムとして、例えば、ｋ－ｍｅａｎｓ法が用いられる。クラスタは、例えば、ボックス型のクラスタとする。このとき、未知事例生成部１２４は、異なるクラスタのボックスが重ならないようにする。未知事例生成部１２４は、クラスタ数を増やすことでボックスの重複を解消するようにしてもよい。

【0109】

（Ｓ２１）未知事例生成部１２４は、ステップＳ２０で生成されたボックス型クラスタの頂点から特徴ベクトルｘ^２を抽出する。未知事例生成部１２４は、抽出された特徴ベクトルｘ^２を、未知事例の特徴ベクトルｘ^２として事例テーブル１３２に保存する。また、未知事例生成部１２４は、クラスタ内の既知事例と同じラベルを未知事例に付与する。

【0110】

図１１は、モデル修正の手順例を示すフローチャート（続き）である。
（Ｓ２２）未知事例制約生成部１２６は、事例テーブル１３２から、ステップＳ２１で生成された未知事例を１つ選択する。

【0111】

（Ｓ２３）未知事例制約生成部１２６は、重み行列Ｗ^２の重み差分ΔＷ^２と重みベクトルｂ^２の重み差分Δｂ^２とを変数として用いて、重み行列Ｗ^２および重みベクトルｂ^２を修正した後のクラス確率ベクトルｙ’^２を規定する。

【0112】

（Ｓ２４）未知事例制約生成部１２６は、ステップＳ２３で規定されたクラス確率ベクトルｙ’^２に基づいて、重み差分ΔＷ^２，Δｂ^２を変数として用いて、正解クラスのクラス確率の相対値が減少しないことを示す不等式を生成する。

【0113】

選択された未知事例の正解クラスがクラス１である場合、数式（１３）の不等式が展開される。選択された未知事例の正解クラスがクラス２である場合、数式（１４）の不等式が展開される。未知事例制約生成部１２６は、展開された不等式を数式（５）の形に整理する。これにより、正解クラスがクラス１である場合、係数行列Ａ、係数ベクトルＢおよび定数ｃは数式（１５）のように算出される。正解クラスがクラス２である場合、係数行列Ａ、係数ベクトルＢおよび定数ｃは数式（１６）のように算出される。

【0114】

【数13】

【0115】

【数14】

【0116】

【数15】

【0117】

【数16】

【0118】

（Ｓ２５）未知事例制約生成部１２６は、ステップＳ２４で算出された係数行列Ａ、係数ベクトルＢおよび定数ｃを、制約テーブル１３３に保存する。
（Ｓ２６）未知事例制約生成部１２６は、全ての未知事例を選択したか判断する。全ての未知事例を選択した場合はステップＳ２７に処理が進み、未選択の未知事例がある場合はステップＳ２２に処理が戻る。

【0119】

（Ｓ２７）線形計画ソルバ１２７は、重み差分ΔＷ^２，Δｂ^２のＬ１ノルムを示す目的関数を、数式（１７）のように規定する。

【0120】

【数17】

【0121】

（Ｓ２８）線形計画ソルバ１２７は、制約テーブル１３３が示す不等式制約のもとで、ステップＳ２７の目的関数の値を最小化する線形計画問題を解く。これにより、不等式制約を満たす範囲で、Ｌ１ノルムが最小の重み差分ΔＷ^２，Δｂ^２が発見される。

【0122】

（Ｓ２９）線形計画ソルバ１２７は、ニューラルネットワークに含まれる重み行列Ｗ^２に重み差分ΔＷ^２を加える。また、線形計画ソルバ１２７は、ニューラルネットワークに含まれる重みベクトルｂ^２に重み差分Δｂ^２を加える。線形計画ソルバ１２７は、修正後の重み行列Ｗ’^２および重みベクトルｂ’^２をモデルテーブル１３１に保存する。

【0123】

図１２は、既知事例のクラスタリング例を示す図である。
点１７１，１７２は、それぞれ訂正用の既知事例を示す。未知事例生成部１２４は、維持用の既知事例のうち正解クラスがクラス１の既知事例をクラスタリングし、クラスタ１７３，１７４を生成する。また、未知事例生成部１２４は、維持用の既知事例のうち正解クラスがクラス２の既知事例をクラスタリングし、クラスタ１７５，１７６を生成する。

【0124】

未知事例生成部１２４は、クラスタ１７３の４つの頂点それぞれから特徴ベクトルｘ^２を抽出する。また、未知事例生成部１２４は、クラスタ１７４の４つの頂点それぞれから特徴ベクトルｘ^２を抽出する。これにより、クラス１を示すラベルが付与された８個の未知事例が生成される。また、未知事例生成部１２４は、クラスタ１７５の４つの頂点それぞれから特徴ベクトルｘ^２を抽出する。また、未知事例生成部１２４は、クラスタ１７６の４つの頂点それぞれから特徴ベクトルｘ^２を抽出する。これにより、クラス２を示すラベルが付与された８個の未知事例が生成される。

【0125】

図１３は、未知事例の第１の分類例を示す図である。
ここでは、情報処理装置１００が、既知事例と同様に未知事例も正解クラスに分類されるように制約を生成する場合を考える。点１７７は、クラスタ１７４の頂点から抽出された未知事例を示す。この未知事例には、クラス１を示すラベルが付与されている。

【0126】

この場合、情報処理装置１００は、クラス確率ベクトルの空間において、点１７１，１７２に対応する点１８１，１８２が分類境界１８４より上側（クラス１側）の領域に入るように、重みを更新する。更に、情報処理装置１００は、点１７７に対応する点１８３が分類境界１８４より上側の領域に入るように、重みを更新する。しかし、点１７７は、正解クラスがクラス１である既知事例の中心から比較的外れた未知事例であるため、制約を満たすために無理のある重み修正が行われている。この例では、４０５個の評価用の既知事例のうち９個の既知事例の分類先クラスが、退行により変化している。

【0127】

図１４は、未知事例の第２の分類例を示す図である。
ここでは、情報処理装置１００が、前述ように未知事例が正解クラスに分類されないことを許容する場合を考える。この場合、情報処理装置１００は、クラス確率ベクトルの空間において、点１７１，１７２に対応する点１８５，１８６が分類境界１８８より上側（クラス１側）の領域に入るように、重みを更新する。

【0128】

一方、情報処理装置１００は、点１７７に対応する点１８７が分類境界１８８より下側（クラス２側）の領域に入ることを許容する。このため、図１３の場合と比べて、制約を満たすために無理のある重み修正を行うことが抑制されている。この例では、４０５個の評価用の既知事例のうち２個の既知事例の分類先クラスが、退行により変化している。よって、図１３の場合よりも、修正後の分類精度が向上している。

【0129】

図１５は、モデル精度の比較例を示すグラフである。
このグラフは、前述のようなモデル修正を２００件行った結果を示す。バー１９１は、制約を満たす重みを発見できなかったモデル修正Ａの件数を示す。モデル修正Ａの件数は７０件である。バー１９２は、図１３の方法の退行事例数が図１４の方法よりも少なかったモデル修正Ｂの件数を示す。モデル修正Ｂの件数は７件である。

【0130】

バー１９３は、退行事例数が図１３の方法と図１４の方法とで同じであったモデル修正Ｃの件数を示す。モデル修正Ｃの件数は１５件である。バー１９４は、図１４の方法の退行事例数が図１３の方法よりも少なかったモデル修正Ｄの件数を示す。モデル修正Ｄの件数は１０８件である。このように、既知事例と未知事例とから異なる種類の制約を生成することで、修正されたニューラルネットワークの分類精度が向上する。

【0131】

以上説明したように、第２の実施の形態の情報処理装置１００は、ニューラルネットワーク全体を再学習する代わりに、少数の重要な既知事例の誤分類が解消されるように、ニューラルネットワークに含まれる重みを直接的に修正する。これにより、ニューラルネットワークを修正するための計算量および実行時間が減少し、迅速にニューラルネットワークが修正される。また、情報処理装置１００は、多くの既知事例の分類先クラスを変えずに、少数の重要な既知事例の誤分類を解消することができる。

【0132】

また、情報処理装置１００は、与えられた既知事例から不等式で表された制約を生成し、線形計画ソルバを用いて、制約を満たす重みを探索する。これにより、情報処理装置１００は、与えられた既知事例が正しく分類されることを確認できる。また、情報処理装置１００は、既知事例と類似する未知事例をサンプリングし、未知事例からも制約を生成する。これにより、未知事例の分類精度が大きく低下するリスクが軽減される。

【0133】

また、情報処理装置１００は、未知事例からは、正解クラスのクラス確率の相対値が減少しないことを規定した制約を生成し、その未知事例が正解クラスに分類されないことを許容する。これにより、ニューラルネットワークの誤分類をゼロにすることが難しい場合であっても、制約を満たす重みが発見されやすくなる。また、重みの不適切な修正によって、かえって分類精度が低下するリスクが抑制される。

【0134】

また、情報処理装置１００は、既知事例の特徴ベクトルをクラスタリングし、ボックス型クラスタの頂点から未知事例の特徴ベクトルを抽出する。これにより、既知事例と類似しており既知事例と同じクラスに分類されることが好ましい未知事例が生成される。また、情報処理装置１００は、ボックス内から多数の特徴ベクトルをサンプリングしなくても、ボックス内の未知事例が制約を満たす可能性が高いことを確認できる。

【符号の説明】

【0135】

１０情報処理装置
１１記憶部
１２処理部
１３機械学習モデル
１４パラメータ値
１５，１６サンプル
１７制約情報

【図1】