特開2024-18034 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＫＤＤＩ株式会社の特許一覧

特開2024-18034情報処理装置、情報処理方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024018034

(43)【公開日】2024-02-08

(54)【発明の名称】情報処理装置、情報処理方法及びプログラム

(51)【国際特許分類】

G06N 20/00 20190101AFI20240201BHJP

【ＦＩ】

G06N20/00 130

【審査請求】未請求

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2022121073

(22)【出願日】2022-07-29

(71)【出願人】

【識別番号】000208891

【氏名又は名称】ＫＤＤＩ株式会社

(74)【代理人】

【識別番号】110004222

【氏名又は名称】弁理士法人創光国際特許事務所

(74)【代理人】

【識別番号】100166006

【弁理士】

【氏名又は名称】泉通博

(74)【代理人】

【識別番号】100154070

【弁理士】

【氏名又は名称】久恒京範

(74)【代理人】

【識別番号】100153280

【弁理士】

【氏名又は名称】寺川賢祐

(72)【発明者】

【氏名】米川慧

(72)【発明者】

【氏名】斉藤和広

(72)【発明者】

【氏名】黒川茂莉

(57)【要約】

【課題】簡易な方法でデータ分布の変化を検知することができるようにする。
【解決手段】教師ベクトル群のいずれかを入力すると、教師ベクトル群を構成する特徴ベクトルそれぞれに一意に割り当てられた一意識別子を出力するように機械学習された一意識別子予測モデルを記憶するモデル記憶部１２１と、基準ベクトル群に対応する一意識別子の分布を示す基準ヒストグラムを記憶する基準ヒストグラム記憶部１２２と、テストベクトル群を取得する取得部１３１と、テストベクトル群に対応する一意識別子の分布を示すテストヒストグラムを生成するテストヒストグラム生成部１３２と、基準ヒストグラムとテストヒストグラムとのそれぞれの分布の類似度を算出する類似度算出部１３３と、類似度に基づいてテストベクトル群の分布が学習データの分布から外れているか否かを判定する判定部１３４と、を有する情報処理装置１である。
【選択図】図２

【特許請求の範囲】

【請求項1】

特徴ベクトルの集合である学習データの中から教師ベクトル群としてサンプリングされたＮ（Ｎは２以上の整数）個の特徴ベクトルのいずれかを入力すると、前記教師ベクトル群を構成する特徴ベクトルそれぞれに一意に割り当てられた一意識別子を出力するように機械学習された一意識別子予測モデルを記憶するモデル記憶部と、
前記学習データからサンプリングされた特徴ベクトルの集合であって、前記教師ベクトル群を構成する特徴ベクトルとは異なる特徴ベクトルを含む基準ベクトル群を前記一意識別子予測モデルに入力したとき、前記一意識別子予測モデルが出力する一意識別子の分布を示すヒストグラムである基準ヒストグラムを記憶する基準ヒストグラム記憶部と、
特徴ベクトルの集合であるテストベクトル群を取得する取得部と、
前記テストベクトル群を前記一意識別子予測モデルに入力したとき、前記一意識別子予測モデルが出力する一意識別子の分布を示すヒストグラムであるテストヒストグラムを生成するテストヒストグラム生成部と、
前記基準ヒストグラムと前記テストヒストグラムとのそれぞれの分布の類似度を算出する類似度算出部と、
算出した類似度に基づいて前記テストベクトル群の分布が前記学習データを構成する特徴ベクトルの分布から外れているか否かを判定する判定部と、
を有する情報処理装置。

【請求項2】

前記判定部は、算出した類似度とあらかじめ定められた閾値とを比較して前記テストベクトル群の分布が前記学習データを構成する特徴ベクトルの分布から外れているか否かを判定する、
請求項１に記載の情報処理装置。

【請求項3】

前記学習データからサンプリングされた特徴ベクトルの集合であって、前記教師ベクトル群及び前記基準ベクトル群を構成する特徴ベクトルとは異なる特徴ベクトルを含む、校正ベクトル群それぞれを前記一意識別子予測モデルに入力したとき、前記一意識別子予測モデルが出力する一意識別の分布を示すヒストグラムである校正ヒストグラムを生成する校正ヒストグラム生成部と、
校正ヒストグラム生成部が複数の異なる校正ベクトル群に基づいて出力した複数の前記校正ヒストグラムそれぞれと前記基準ヒストグラムとの類似度を算出し、算出した複数の前記校正ヒストグラムそれぞれと前記基準ヒストグラムとの類似度の分布に基づいて閾値を決定する閾値決定部と、をさらに有し、
前記判定部は、前記類似度算出部が算出した類似度と前記閾値決定部が決定した前記閾値とを比較して前記テストベクトル群の分布が前記学習データを構成する特徴ベクトルの分布から外れているか否かを判定する、
請求項１に記載の情報処理装置。

【請求項4】

前記類似度算出部は、前記基準ヒストグラムにおける一意識別子それぞれに分布する特徴ベクトルの数を降順に並べて決定される順位である一意識別子それぞれの順位と、前記テストヒストグラムにおける一意識別子ぞれぞれの順位と、が一致するほど類似度を高く算出する、
請求項１に記載の情報処理装置。

【請求項5】

前記類似度算出部は、前記テストヒストグラムにおける特徴ベクトルの分布が一様であるほど類似度を高く算出し、前記テストヒストグラムにおける特徴ベクトルの分布の偏りが大きいほど類似度を低く算出する、
請求項１から４のいずれか１項に記載の情報処理装置。

【請求項6】

前記判定部が前記テストベクトル群の分布が前記学習データを構成する特徴ベクトルの分布から外れていることを所定の回数以上検知した場合に、前記テストベクトル群が分布外データであることを出力する出力部をさらに有する、
請求項１から４のいずれか１項に記載の情報処理装置。

【請求項7】

前記モデル記憶部は、前記学習データからサンプリングされた特徴ベクトルの集合であって、前記教師ベクトル群を構成する特徴ベクトルとは異なる特徴ベクトルを含む補正ベクトル群を前記一意識別子予測モデルに入力したとき、前記一意識別子予測モデルが出力する一意識別子の分布が一様となるようにさらに機械学習された前記一意識別子予測モデルを記憶する、
請求項１から４のいずれか１項に記載の情報処理装置。

【請求項8】

コンピュータが実行する、
特徴ベクトルの集合であるテストベクトル群を取得するステップと、
前記テストベクトル群を一意識別子予測モデルに入力したとき、前記一意識別子予測モデルが出力する一意識別子の分布を示すヒストグラムであるテストヒストグラムを生成するステップと、
基準ヒストグラムと前記テストヒストグラムとのそれぞれの分布の類似度を算出するステップと、
前記類似度に基づいて前記テストベクトル群の分布が学習データを構成する特徴ベクトルの分布から外れているか否かを判定するステップと、を有し、
前記一意識別子予測モデルは、特徴ベクトルの集合である前記学習データの中から教師ベクトル群としてサンプリングされたＮ（Ｎは２以上の整数）個の特徴ベクトルのいずれかを入力すると、前記教師ベクトル群を構成する特徴ベクトルそれぞれに一意に割り当てられた一意識別子を出力するように機械学習された前記一意識別子予測モデルであり、
前記基準ヒストグラムは、前記学習データからサンプリングされた特徴ベクトルの集合であって前記教師ベクトル群を構成する特徴ベクトルとは異なる特徴ベクトルを含む基準ベクトル群を前記一意識別子予測モデルに入力したとき、前記一意識別子予測モデルが出力する一意識別の分布を示すヒストグラムである、
情報処理方法。

【請求項9】

コンピュータに、
特徴ベクトルの集合であるテストベクトル群を取得するステップと、
前記テストベクトル群を一意識別子予測モデルに入力したとき、前記一意識別子予測モデルが出力する一意識別子の分布を示すヒストグラムであるテストヒストグラムを生成するステップと、
基準ヒストグラムと前記テストヒストグラムとのそれぞれの分布の類似度を算出するステップと、
前記類似度に基づいて前記テストベクトル群の分布が学習データを構成する特徴ベクトルの分布から外れているか否かを判定するステップと、を実行させるプログラムであって、
前記一意識別子予測モデルは、特徴ベクトルの集合である前記学習データの中から教師ベクトル群としてサンプリングされたＮ（Ｎは２以上の整数）個の特徴ベクトルのいずれかを入力すると、前記教師ベクトル群を構成する特徴ベクトルそれぞれに一意に割り当てられた一意識別子を出力するように機械学習された前記一意識別子予測モデルであり、
前記基準ヒストグラムは、前記学習データからサンプリングされた特徴ベクトルの集合であって前記教師ベクトル群を構成する特徴ベクトルとは異なる特徴ベクトルを含む基準ベクトル群を前記一意識別子予測モデルに入力したとき、前記一意識別子予測モデルが出力する一意識別の分布を示すヒストグラムである、
プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、情報処理方法及びプログラムに関する。

【背景技術】

【0002】

機械学習モデルの性能低下の要因であるデータ分布の変化を検知することが求められている。データ分布の変化を検知する方法として、特徴空間における学習サンプルの密度比推定に基づく方法がある。しかし、密度比推定に基づく方法は、計算量に課題があるため、ヒストグラムを比較する方法が一般に用いられる。ヒストグラムの作成に際しては、集計の単位となるビンを定める必要がある。ビンの定め方には、特徴空間の軸に基づく方法（非特許文献１及び２）と、クラスタリングに基づく方法（非特許文献３）とがある。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】G. Ditzler and R. Polikar, “Hellinger distance based drift detection for nonstationary environments,” in 2011 IEEE Symposium on Computational Intelligence in Dynamic and Uncertain Environments, ２０１１年

【非特許文献2】A. Qahtan and S. Wang, “A PCA-Based Change Detection Framework for Multidimensional Data Streams Categories and Subject Descriptors,” KDD ’15 21th ACM SIGKDD Int. Conf. Knowl. Discov. Data Min, ２０１５年

【非特許文献3】A. Liu, J. Lu, and G. Zhang, “Concept Drift Detection: Dealing With Missing Values via Fuzzy Distance Estimations,” IEEE Trans. Fuzzy Syst., ２０２１年

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかし、特徴空間の軸に基づく方法は、チューニングに課題がある。具体的には、ビンの間隔を適切に設定するには統計を取る等の対応が必要であり、ビンの数はバッチサイズに応じて適切に設定する必要がある。また、クラスタリングに基づく方法は高次元データにおいて低精度となり、密度に基づくクラスタリングを用いると高次元データにおいて計算量が増大する問題がある。

【0005】

そこで、本発明はこれらの点に鑑みてなされたものであり、簡易な方法でデータ分布の変化を検知することができるようにすることを目的とする。

【課題を解決するための手段】

【0006】

本発明の第１の態様の情報処理装置においては、特徴ベクトルの集合である学習データの中から教師ベクトル群としてサンプリングされたＮ（Ｎは２以上の整数）個の特徴ベクトルのいずれかを入力すると、前記教師ベクトル群を構成する特徴ベクトルそれぞれに一意に割り当てられた一意識別子を出力するように機械学習された一意識別子予測モデルを記憶するモデル記憶部と、前記学習データからサンプリングされた特徴ベクトルの集合であって、前記教師ベクトル群を構成する特徴ベクトルとは異なる特徴ベクトルを含む基準ベクトル群を前記一意識別子予測モデルに入力したとき、前記一意識別子予測モデルが出力する一意識別子の分布を示すヒストグラムである基準ヒストグラムを記憶する基準ヒストグラム記憶部と、特徴ベクトルの集合であるテストベクトル群を取得する取得部と、前記テストベクトル群を前記一意識別子予測モデルに入力したとき、前記一意識別子予測モデルが出力する一意識別子の分布を示すヒストグラムであるテストヒストグラムを生成するテストヒストグラム生成部と、前記基準ヒストグラムと前記テストヒストグラムとのそれぞれの分布の類似度を算出する類似度算出部と、算出した類似度に基づいて前記テストベクトル群の分布が前記学習データを構成する特徴ベクトルの分布から外れているか否かを判定する判定部と、を有する。

【0007】

前記判定部は、算出した類似度とあらかじめ定められた閾値とを比較して前記テストベクトル群の分布が前記学習データを構成する特徴ベクトルの分布から外れているか否かを判定してもよい。

【0008】

前記学習データからサンプリングされた特徴ベクトルの集合であって、前記教師ベクトル群及び前記基準ベクトル群を構成する特徴ベクトルとは異なる特徴ベクトルを含む、校正ベクトル群それぞれを前記一意識別子予測モデルに入力したとき、前記一意識別子予測モデルが出力する一意識別の分布を示すヒストグラムである校正ヒストグラムを生成する校正ヒストグラム生成部と、校正ヒストグラム生成部が複数の異なる校正ベクトル群に基づいて出力した複数の前記校正ヒストグラムそれぞれと前記基準ヒストグラムとの類似度を算出し、算出した複数の前記校正ヒストグラムそれぞれと前記基準ヒストグラムとの類似度の分布に基づいて閾値を決定する閾値決定部と、をさらに有し、前記判定部は、前記類似度算出部が算出した類似度と前記閾値決定部が決定した前記閾値とを比較して前記テストベクトル群の分布が前記学習データを構成する特徴ベクトルの分布から外れているか否かを判定してもよい。

【0009】

前記類似度算出部は、前記基準ヒストグラムにおける一意識別子それぞれに分布する特徴ベクトルの数を降順に並べて決定される順位である一意識別子それぞれの順位と、前記テストヒストグラムにおける一意識別子ぞれぞれの順位と、が一致するほど類似度を高く算出してもよい。

【0010】

前記類似度算出部は、前記テストヒストグラムにおける特徴ベクトルの分布が一様であるほど類似度を高く算出し、前記テストヒストグラムにおける特徴ベクトルの分布の偏りが大きいほど類似度を低く算出してもよい。

【0011】

前記判定部が前記テストベクトル群の分布が前記学習データを構成する特徴ベクトルの分布から外れていることを所定の回数以上検知した場合に、前記テストベクトル群が分布外データであることを出力する出力部をさらに有してもよい。

【0012】

【0013】

本発明の第２の態様の情報処理方法においては、コンピュータが実行する、特徴ベクトルの集合であるテストベクトル群を取得するステップと、前記テストベクトル群を一意識別子予測モデルに入力したとき、前記一意識別子予測モデルが出力する一意識別子の分布を示すヒストグラムであるテストヒストグラムを生成するステップと、基準ヒストグラムと前記テストヒストグラムとのそれぞれの分布の類似度を算出するステップと、前記類似度に基づいて前記テストベクトル群の分布が学習データを構成する特徴ベクトルの分布から外れているか否かを判定するステップと、を有し、前記一意識別子予測モデルは、特徴ベクトルの集合である前記学習データの中から教師ベクトル群としてサンプリングされたＮ（Ｎは２以上の整数）個の特徴ベクトルのいずれかを入力すると、前記教師ベクトル群を構成する特徴ベクトルそれぞれに一意に割り当てられた一意識別子を出力するように機械学習された前記一意識別子予測モデルであり、前記基準ヒストグラムは、前記学習データからサンプリングされた特徴ベクトルの集合であって前記教師ベクトル群を構成する特徴ベクトルとは異なる特徴ベクトルを含む基準ベクトル群を前記一意識別子予測モデルに入力したとき、前記一意識別子予測モデルが出力する一意識別の分布を示すヒストグラムである。

【0014】

本発明の第３の態様のプログラムにおいては、コンピュータに、特徴ベクトルの集合であるテストベクトル群を取得するステップと、前記テストベクトル群を一意識別子予測モデルに入力したとき、前記一意識別子予測モデルが出力する一意識別子の分布を示すヒストグラムであるテストヒストグラムを生成するステップと、基準ヒストグラムと前記テストヒストグラムとのそれぞれの分布の類似度を算出するステップと、前記類似度に基づいて前記テストベクトル群の分布が学習データを構成する特徴ベクトルの分布から外れているか否かを判定するステップと、を実行させるプログラムであって、前記一意識別子予測モデルは、特徴ベクトルの集合である前記学習データの中から教師ベクトル群としてサンプリングされたＮ（Ｎは２以上の整数）個の特徴ベクトルのいずれかを入力すると、前記教師ベクトル群を構成する特徴ベクトルそれぞれに一意に割り当てられた一意識別子を出力するように機械学習された前記一意識別子予測モデルであり、前記基準ヒストグラムは、前記学習データからサンプリングされた特徴ベクトルの集合であって前記教師ベクトル群を構成する特徴ベクトルとは異なる特徴ベクトルを含む基準ベクトル群を前記一意識別子予測モデルに入力したとき、前記一意識別子予測モデルが出力する一意識別の分布を示すヒストグラムである。

【発明の効果】

【0015】

本発明によれば、簡易な方法でデータ分布の変化を検知することができるようにするという効果を奏する。

【図面の簡単な説明】

【0016】

【図1】情報処理装置１における分布外データ検知処理の概要を示す図である。

【図2】情報処理装置１の構成を示すブロック図である。

【図3】学習部１３８の学習処理を説明する図である。

【図4】閾値決定部１３６が閾値を決定する処理を説明する図である。

【図5】情報処理装置１における処理の流れを示すフローチャートである。

【図6】情報処理装置１における処理の流れを示すフローチャートである。

【図7】第２の実施形態にかかる学習部１３８の学習処理を説明する図である。

【発明を実施するための形態】

【0017】

＜第１の実施形態＞
［情報処理装置１における処理の概要］
図１は、情報処理装置１における分布外データ検知処理の概要を示す図である。情報処理装置１は、機械学習モデルの推論対象のデータの分布が、学習に用いた学習データの分布から外れていることを検出するための装置である。情報処理装置１は、例えばサーバである。

【0018】

情報処理装置１における処理の概要について説明する。情報処理装置１は、テストベクトル群Ｖ１を一意識別子予測モデルＭに入力する（図１における（１））。テストベクトル群Ｖ１は、判定対象のデータの特徴ベクトル群である。一意識別子予測モデルＭは、一意識別子と同数の学習用の特徴ベクトル群それぞれに異なる一意識別子を出力するよう学習した学習済みモデルである。一意識別子（ＵＵＩＤ（Universally Unique Identifier）とも言う）は、特徴ベクトルを分類するための識別子である。

【0019】

情報処理装置１は、一意識別子予測モデルＭが入力されたテストベクトル群Ｖ１に基づいて出力した一意識別子それぞれの頻度を示すテストヒストグラムＨ１を生成する（図１における（２））。

【0020】

情報処理装置１は、生成したテストヒストグラムＨ１と基準ヒストグラムＨ２との類似度を算出する。情報処理装置１は、算出した類似度に基づいて、テストベクトル群Ｖ１が分布外データであるか否かを判定する（図１における（３））。基準ヒストグラムＨ２は、学習データから抽出した特徴ベクトル群を一意識別子予測モデルＭに入力して生成されたヒストグラムであり、学習データの分布を反映するヒスグラムである。学習データは、学習用に収集されたデータ又は特徴ベクトルの集合である。

【0021】

情報処理装置１がこのように構成されることで、簡易な方法でデータ分布の変化を検知することができる。

【0022】

［情報処理装置１の構成］
図２は、情報処理装置１の構成を示すブロック図である。情報処理装置１は、通信部１１、記憶部１２及び制御部１３を有する。記憶部１２は、モデル記憶部１２１、基準ヒストグラム記憶部１２２を有する。制御部１３は、取得部１３１、テストヒストグラム生成部１３２、類似度算出部１３３、判定部１３４、校正ヒストグラム生成部１３５、閾値決定部１３６、出力部１３７、学習部１３８及び基準ヒストグラム生成部１３９を有する。

【0023】

通信部１１は、ネットワークを介して他の装置とデータの送受信をするための通信インターフェースである。記憶部１２は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ＳＳＤ（Solid State Drive）、ハードディスクドライブ等を含む記憶媒体である。記憶部１２は、制御部１３が実行するプログラムを予め記憶している。

【0024】

モデル記憶部１２１は、後述するように学習部１３８が学習した一意識別子予測モデルＭを記憶する。一意識別子予測モデルＭは、特徴ベクトルの集合である学習データＤ１の中から教師ベクトル群Ｖ２としてサンプリングされたＮ（Ｎは２以上の整数）個の特徴ベクトルのいずれかを入力すると、教師ベクトル群Ｖ２を構成する特徴ベクトルそれぞれに一意に割り当てられた一意識別子を出力するように機械学習された学習済みモデルである。

【0025】

基準ヒストグラム記憶部１２２は、後述するように基準ヒストグラム生成部１３９が生成した基準ヒストグラムＨ２を記憶する。基準ヒストグラムＨ２は、基準ベクトル群Ｖ３を一意識別子予測モデルＭに入力したとき、一意識別子予測モデルＭが出力する一意識別子の分布を示すヒストグラムである。基準ベクトル群Ｖ３は、学習データＤ１からサンプリングされた特徴ベクトルの集合であって、教師ベクトル群Ｖ２を構成する特徴ベクトルとは異なる特徴ベクトルを含む。

【0026】

制御部１３は、例えばＣＰＵ（Central Processing Unit）等のプロセッサである。制御部１３は、記憶部１２に記憶されたプログラムを実行することにより、取得部１３１、テストヒストグラム生成部１３２、類似度算出部１３３、判定部１３４、校正ヒストグラム生成部１３５、閾値決定部１３６、出力部１３７、学習部１３８及び基準ヒストグラム生成部１３９として機能する。

【0027】

［学習処理］
情報処理装置１における学習処理について説明する。学習部１３８は、学習データＤ１から一意識別子と同数の特徴ベクトル群を抽出する（図３における（１））。一例として、一意識別子が１２８個の場合、学習部１３８は、１２８個の特徴ベクトル群を抽出し教師ベクトル群Ｖ２とする。学習部１３８は、教師ベクトル群Ｖ２に含まれる特徴ベクトルそれぞれに正解の一意識別子を対応付けた正解データＤ２を生成する（図３における（２））。

【0028】

学習部１３８は、教師ベクトル群Ｖ２を一意識別子予測モデルＭに入力し（図３における（３））、教師ベクトル群Ｖ２に対応する一意識別子を予測する（図３における（４））。学習部１３８は、正解データＤ２に基づいて一意識別子予測モデルＭの精度を評価する。学習部１３８は、一例として、出力した交差エントロピー誤差を損失関数として一意識別子予測モデルＭの精度を評価し、評価結果に基づいて一意識別子予測モデルＭのパラメータを更新する（図３における（５））。

【0029】

学習部１３８は、学習の終了条件を満たすまで、図３における（３）から（５）の処理を繰り返し、一意識別子予測モデルＭを学習させる。終了条件は例えば、損失関数の平均値が所定の値を下回ること又はパラメータの更新回数が所定の回数に到達することである。学習部１３８は、学習させた一意識別子予測モデルＭをモデル記憶部１２１に記憶させる。

【0030】

好適な一例として、一意識別子予測モデルＭは下記のとおり構成されてもよい。一意識別子予測モデルＭの入力層は、入力される特徴ベクトルが有する特徴量の数と同一の次元数を有する。一意識別子予測モデルＭは、３層の隠れ層を有する。隠れ層は、それぞれ２５６次元あり、活性化関数としてＬｅａｋｙＲｅＬＵ（Leaky Rectified Linear Unit）を使用する。一意識別子予測モデルＭの出力層は、一意識別子の桁数（一例として一意識別子の数が１２８個であればBinary encodingで７桁）と同じ次元数を有し、活性化関数としてSigmoid関数を使用する。学習部１３８は、出力層が出力するベクトルの次元毎の予測値と、正解の一意識別子の対応する桁の二値と、の二値交差エントロピー誤差を損失関数として一意識別子予測モデルＭの精度を評価する。学習部１３８は、誤差逆伝播法によって一意識別子予測モデルＭのパラメータを更新する。学習部１３８は、一例として、確率的勾配降下法のアルゴリズムの一つであるＡｄａｍを一意識別子予測モデルＭのパラメータの更新方法として、算出した二値交差エントロピー誤差に基づいてパラメータを更新する。

【0031】

図２に戻り、基準ヒストグラム生成部１３９は、学習データＤ１から基準ベクトル群Ｖ３を抽出する。基準ベクトル群Ｖ３は、教師ベクトル群Ｖ２とは異なる特徴ベクトルを含む特徴ベクトル群である。基準ベクトル群Ｖ３に含まれる特徴ベクトルの数は任意である。基準ヒストグラム生成部１３９は、基準ベクトル群Ｖ３を一意識別子予測モデルＭに入力し、基準ベクトル群Ｖ３に含まれる特徴ベクトルそれぞれに対応する一意識別子を出力させる。基準ヒストグラム生成部１３９は、基準ベクトル群Ｖ３と一意識別子予測モデルＭが出力した一意識別子とに基づいて基準ヒストグラムＨ２を生成する。基準ヒストグラムＨ２は、一意識別子予測モデルＭが出力した一意識別子をビンとして、それぞれの一意識別子に割り当てられた基準ベクトル群Ｖ３に含まれる特徴ベクトルの個数の分布を示すヒストグラムである。

【0032】

［判定処理］
情報処理装置１における判定処理について説明する。取得部１３１は、特徴ベクトルの集合であるテストベクトル群Ｖ１を取得する。取得部１３１は、不図示の外部装置から通信部１１を介してテストベクトル群Ｖ１を取得してもよいし、記憶部１２に記憶されたテストベクトル群Ｖ１を取得してもよい。また、取得部１３１は、判定対象のデータを取得し、取得した推論対象のデータから特徴ベクトルを抽出することでテストベクトル群Ｖ１を取得してもよい。

【0033】

テストヒストグラム生成部１３２は、テストベクトル群Ｖ１を一意識別子予測モデルＭに入力したとき、一意識別子予測モデルＭが出力する一意識別子の分布を示すヒストグラムであるテストヒストグラムＨ１を生成する。テストヒストグラム生成部１３２は、テストベクトル群Ｖ１を一意識別子予測モデルＭに入力し、テストベクトル群Ｖ１に含まれる特徴ベクトルそれぞれに対応する一意識別子を出力させる。テストヒストグラム生成部１３２は、テストベクトル群Ｖ１と一意識別子予測モデルＭが出力した一意識別子とに基づいてテストヒストグラムＨ１を生成する。テストヒストグラムＨ１は、一意識別子予測モデルＭが出力した一意識別子をビンとして、それぞれの一意識別子に割り当てられたテストベクトル群Ｖ１に含まれる特徴ベクトルの個数の分布を示すヒストグラムである。

【0034】

類似度算出部１３３は、基準ヒストグラムＨ２とテストヒストグラムＨ１とのそれぞれの分布の類似度を算出する。類似度算出部１３３は、一例として既知のカルバック・ライブラー・ダイバージェンス等の方法により類似度を算出してもよいし、後述する方法により類似度を算出してもよい。

【0035】

判定部１３４は、算出した類似度に基づいてテストベクトル群Ｖ１の分布が学習データＤ１を構成する特徴ベクトルの分布から外れているか否かを判定する。判定部１３４は、算出した類似度とあらかじめ定められた閾値とを比較してテストベクトル群Ｖ１の分布が学習データＤ１を構成する特徴ベクトルの分布から外れているか否かを判定してもよい。判定部１３４は、類似度が閾値未満である場合に、テストベクトル群Ｖ１の分布が特徴ベクトルの分布から外れていると判定してもよい。また、後述するように判定部１３４は、テストベクトル群Ｖ１と基準ベクトル群Ｖ３との類似度が所定の回数以上、所定の閾値未満であった場合に、テストベクトル群Ｖ１の分布が特徴ベクトルの分布から外れていると判定してもよい。出力部１３７は、判定部１３４が分布外データを検知した場合、外部装置に分布外データを検知したことを出力させてもよい。

【0036】

ところで、判定部１３４が分布外データを検知した場合であっても判定対象のテストデータが偶然に分布から外れていた可能性が否定できない。そこで、分布外データを検知する回数又はテストデータが学習データＤ１の分布から外れている程度に基づいて分布外データか否かを判定するよう情報処理装置１が構成されてもよい。

【0037】

出力部１３７は、判定部１３４がテストベクトル群Ｖ１の分布が学習データを構成する特徴ベクトルの分布から外れていることを所定の回数以上検知した場合に、テストベクトル群が分布外データであることを出力してもよい。判定部１３４は、分布外データを検知した回数をカウントする。そして、判定部１３４は、分布外データを所定の回数以上検知した場合に、出力部１３７にテストベクトル群Ｖ１が分布外データであることを出力させる。

【0038】

判定部１３４は、閾値決定部１３６が算出した、基準ヒストグラムＨ２と校正ヒストグラムＨ３との類似度の平均値及び分散（σ）に基づいて、類似度算出部１３３が算出したテストデータの類似度が、基準ヒストグラムＨ２と校正ヒストグラムＨ３との類似度の分布から外れている程度（例えば算出した類似度と、基準ヒストグラムＨ２及び校正ヒストグラムＨ３の類似度の平均値と、の差が１σ未満、１σ以上２σ未満、２σ以上３σ未満、３σ以上等）ごとに分布外データの検知回数をカウントする。判定部１３４は、カウントした検知回数が当該類似度の分布から外れている程度ごとに定まる既定の回数を超えた場合に、出力部１３７にテストベクトル群Ｖ１が分布外データであることを出力させてもよい。判定部１３４は、一例として、既知のWestern Electric rulesに基づいて分布外データを判定してもよい。

【0039】

情報処理装置１がこのように構成されることで、分布外データを検知する精度を向上させることができる。

【0040】

［閾値決定処理］
分布外データを検知するための閾値を決定する処理について説明する。図４は、閾値決定部１３６が閾値を決定する処理を説明する図である。図４における（１）から（３）の処理は学習処理において説明済みであるためここでは省略する。まず、校正ヒストグラム生成部１３５は、学習データＤ１から複数の校正ベクトル群Ｖ４を抽出する（図４における（４））。校正ベクトル群Ｖ４は、学習データＤ１からサンプリングされた特徴ベクトルの集合であって、教師ベクトル群Ｖ２及び基準ベクトル群Ｖ３を構成する特徴ベクトルとは異なる特徴ベクトルをそれぞれが含む。

【0041】

校正ヒストグラム生成部１３５は、複数の校正ベクトル群Ｖ４それぞれを一意識別子予測モデルＭに入力し、一意識別子予測モデルＭが出力する一意識別子の分布を示すヒストグラムである複数の校正ヒストグラムＨ３を生成する。校正ヒストグラム生成部１３５は、抽出した複数の校正ベクトル群Ｖ４を一意識別子予測モデルＭに入力し（図４における（５））、校正ベクトル群Ｖ４に含まれる特徴ベクトルそれぞれに対応する一意識別子を出力させる。校正ヒストグラム生成部１３５は、複数の校正ベクトル群Ｖ４と一意識別子予測モデルＭが出力した一意識別子とに基づいて複数の校正ヒストグラムＨ３を生成する。校正ヒストグラムＨ３は、一意識別子予測モデルＭが出力した一意識別子をビンとして、それぞれの一意識別子に割り当てられた校正ベクトル群Ｖ４に含まれる特徴ベクトルの個数の分布を示すヒストグラムである。

【0042】

閾値決定部１３６は、校正ヒストグラム生成部１３５が複数の異なる校正ベクトル群Ｖ４に基づいて出力した複数の校正ヒストグラムＨ３それぞれと基準ヒストグラムＨ２との類似度を算出し、算出した複数の校正ヒストグラムＨ３それぞれと基準ヒストグラムＨ２との類似度の分布に基づいて閾値を決定する。閾値決定部１３６は、一例として、複数の校正ヒストグラムＨ３それぞれと基準ヒストグラムＨ２との類似度の統計値（中央値、平均値、標準偏差）に基づいて閾値を決定してもよい。一例として閾値決定部１３６は、算出した類似度の平均値又は中央値から所定の値を減算して閾値を決定してもよいし、算出した類似度の平均値から算出した分散に所定の係数を乗じた値を減算して閾値を決定してもよい。そして、判定部１３４は、類似度算出部１３３が算出した類似度と閾値決定部１３６が決定した閾値とを比較してテストベクトル群Ｖ１の分布が学習データＤ１を構成する特徴ベクトルの分布から外れているか否かを判定する。

【0043】

［類似度算出処理］
類似度を算出する処理の詳細について説明する。類似度算出部１３３は、基準ヒストグラムＨ２における一意識別子それぞれに分布する特徴ベクトルの数を降順に並べて決定される順位である一意識別子それぞれの順位と、テストヒストグラムＨ１における一意識別子ぞれぞれの順位と、が一致するほど類似度を高く算出してもよい。類似度算出部１３３は、一例としてｎＤＣＧ（normalized Discounted Cumulative Gain）に基づいて類似度を算出してもよい。一意識別子の数をｐとして、ｐ個の一意識別子をビンとする基準ヒストグラムＨ２とテストヒストグラムＨ１との類似度を示すｎＤＣＧｐは以下の式により表される。

【数1】

【0044】

式１におけるＩＤＣＧｐは、基準ヒストグラムＨ２における利得であり、下記の式により表される。

【数2】

【0045】

式２におけるｉは、基準ヒストグラムＨ２を、それぞれの一意識別子に分布する特徴ベクトルの数（以下、頻度という場合がある）の降順に並べた際のそれぞれの一意識別子の順位である。式２におけるｒｅｌｉは、ｉ番目の順位の一意識別子に対応する頻度である。

【0046】

式１におけるＤＣＧｐは、テストヒストグラムＨ１における利得であり、下記の式により表される。

【数3】

【0047】

式３におけるｊは、テストヒストグラムＨ１をそれぞれの一意識別子に対応する頻度の降順に並べた際のそれぞれの一意識別子の順位である。式３におけるｒｅｌｊ´は、ｊ番目の順位の一意識別子に基準ヒストグラムＨ２において対応する頻度である。

【0048】

ところで、類似度を算出する際に分布のバラつきを考慮することで、分布外データを検知する精度を向上させることができる。そこで、類似度算出部１３３は、テストヒストグラムＨ１における特徴ベクトルの分布が一様であるほど類似度を高く算出し、テストヒストグラムＨ１における特徴ベクトルの分布の偏りが大きいほど類似度を低く算出してもよい。類似度算出部１３３は、例えば、下記の式で表されるＧとｎＤＣＧｐとを乗じて類似度を算出してもよい。

【数4】

【0049】

式４におけるｙｋは、テストヒストグラムＨ１をそれぞれの一意識別子に対応する頻度の昇順に並べた際のｋ番目の順位の一意識別子に対応する頻度である。情報処理装置１がこのように構成されることで、分布外データを検知する精度を向上させることができるという効果を奏する。

【0050】

［情報処理装置１における処理の流れ］
図５は、情報処理装置１における学習処理の流れを示すフローチャートである。図５に示すフローチャートは、学習処理を起動する指示を受けた時点から開始している。学習部１３８は、教師ベクトル群Ｖ２を取得する（Ｓ０１）。学習部１３８は、取得した教師ベクトル群Ｖ２を一意識別子予測モデルＭに入力する（Ｓ０２）。学習部１３８は、一意識別子予測モデルＭから出力された一意識別子を正解データＤ２と比較して一意識別子予測モデルＭの精度を評価する（Ｓ０３）。学習部１３８は、評価結果に基づいて、一意識別子予測モデルＭのパラメータを更新する（Ｓ０４）。

【0051】

学習部１３８は、学習が完了したか否かを判定する（Ｓ０５）。学習が完了していない場合（Ｓ０５におけるＮＯ）、Ｓ０２に戻る。学習が完了している場合（Ｓ０５におけるＹＥＳ）、Ｓ０６に進む。

【0052】

基準ヒストグラム生成部１３９は、基準ベクトル群Ｖ３を取得する（Ｓ０６）。基準ヒストグラム生成部１３９は、基準ベクトル群Ｖ３を一意識別子予測モデルＭに入力する（Ｓ０７）。基準ヒストグラム生成部１３９は、一意識別子予測モデルＭから出力された一意識別子に基づいて基準ヒストグラムＨ２を生成する（Ｓ０８）。そして、情報処理装置１は処理を学習終了する。

【0053】

図６は、情報処理装置１における推論処理の流れを示すフローチャートである。図６に示すフローチャートは推論処理を開始するトリガが引かれた時点から開始している。取得部１３１は、テストベクトル群Ｖ１を取得する（Ｓ１０１）。テストヒストグラム生成部１３２は、テストベクトル群Ｖ１を一意識別子予測モデルＭに入力する（Ｓ１０２）。テストヒストグラム生成部１３２は、一意識別子予測モデルＭが出力した一意識別子に基づいてテストヒストグラムＨ１を生成する（Ｓ１０３）。

【0054】

類似度算出部１３３は、基準ヒストグラムＨ２を取得する（Ｓ１０４）。類似度算出部１３３は、テストヒストグラムＨ１と基準ヒストグラムＨ２との類似度を算出する（Ｓ１０５）。判定部１３４は、類似度算出部１３３が算出した類似度が閾値未満であるかを判定する（Ｓ１０６）。類似度が閾値未満である場合（Ｓ１０６におけるＹＥＳ）、出力部１３７は、分布外データであることを出力し（Ｓ１０７）、情報処理装置１は処理を終了する。類似度が閾値以上である場合（Ｓ１０６におけるＮＯ）、情報処理装置１は処理を終了する。

【0055】

［第１の実施形態による効果］
以上説明したように、第１の実施形態にかかる情報処理装置１においては、簡易な方法でデータ分布の変化を検知することができる。

【0056】

＜第２実施形態＞
ところで、学習データＤ１から抽出した教師ベクトル群Ｖ２が学習データＤ１に含まれるデータに対して少ない場合、抽出した教師ベクトル群Ｖ２自体のデータの偏りが学習済みモデルに反映されてしまう問題が生じる。そこで、教師ベクトル群Ｖ２とは異なるベクトル群を一意識別子予測モデルＭに入力し、出力される一意識別子の分布が一様になるようさらに一意識別子予測モデルＭを学習させるよう学習部１３８が構成されてもよい。以下では第２の実施形態と第１の実施形態との異なる部分について説明する。第２の実施形態において一意識別子は、one-hot encodingで表現されていてもよい。

【0057】

図７は、第２の実施形態にかかる学習部１３８の学習処理を説明する図である。図７における（１）から（４）までの処理は図３における学習処理に対応する処理である。

【0058】

学習部１３８は、学習データＤ１から補正ベクトル群Ｖ５を抽出する（図７における（５））。補正ベクトル群Ｖ５は、学習データＤ１からサンプリングされた特徴ベクトルの集合であって、教師ベクトル群Ｖ２を構成する特徴ベクトルとは異なる特徴ベクトルを含む。補正ベクトル群Ｖ５に含まれる特徴ベクトルの数は任意であるが、教師ベクトル群Ｖ２よりも大きいことが望ましい。一例として、教師ベクトル群Ｖ２の特徴ベクトル数が６４である場合に補正ベクトル群Ｖ５に含まれる特徴ベクトルの数を１０００としてもよい。

【0059】

学習部１３８は、補正ベクトル群Ｖ５を一意識別子予測モデルＭに入力する（図７における（６））。学習部１３８は、補正ベクトル群Ｖ５に対応する一意識別子のエントロピーを算出する。学習部１３８は一例として、出力された一意識別子をサンプル方向に平均し、出力次元方向に正規化し、正規化された一意識別子のエントロピーＨを算出してもよい。学習部１３８は、正解データＤ２と予測結果Ｄ３との誤差から算出したエントロピーＨを減算したものを損失関数として、一意識別子予測モデルＭの精度を評価する。そして、学習部１３８は、評価結果に基づいて一意識別子予測モデルＭのパラメータを更新する（図７における（８））。

【0060】

学習部１３８は、学習の終了条件を満たすまで、図７における（３）、（４）、（６）、（７）及び（８）の処理を繰り返し、一意識別子予測モデルＭを学習させる。学習部１３８は、学習させた一意識別子予測モデルＭをモデル記憶部１２１に記憶させる。

【0061】

モデル記憶部１２１は、補正ベクトル群Ｖ５を一意識別子予測モデルＭに入力したとき、一意識別子予測モデルＭが出力する一意識別子の分布が一様となるようにさらに機械学習された一意識別子予測モデルＭを記憶する。

【0062】

情報処理装置１がこのように構成されることで、教師ベクトル群Ｖ２のデータの偏りを緩和させた予測モデル生成することが可能となり、分布外データの検知精度を向上させることができる。

【0063】

なお、本発明により、国連が主導する持続可能な開発目標（SDGs）の目標９「産業と技術革新の基盤をつくろう」に貢献することが可能となる。

【0064】

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。

【符号の説明】

【0065】

１情報処理装置
１１通信部
１２記憶部
１３制御部
１２１モデル記憶部
１２２基準ヒストグラム記憶部
１３１取得部
１３２テストヒストグラム生成部
１３３類似度算出部
１３４判定部
１３５校正ヒストグラム生成部
１３６閾値決定部
１３７出力部
１３８学習部
１３９基準ヒストグラム生成部

【図1】