(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024018034
(43)【公開日】2024-02-08
(54)【発明の名称】情報処理装置、情報処理方法及びプログラム
(51)【国際特許分類】
G06N 20/00 20190101AFI20240201BHJP
【FI】
G06N20/00 130
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2022121073
(22)【出願日】2022-07-29
(71)【出願人】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】110004222
【氏名又は名称】弁理士法人創光国際特許事務所
(74)【代理人】
【識別番号】100166006
【弁理士】
【氏名又は名称】泉 通博
(74)【代理人】
【識別番号】100154070
【弁理士】
【氏名又は名称】久恒 京範
(74)【代理人】
【識別番号】100153280
【弁理士】
【氏名又は名称】寺川 賢祐
(72)【発明者】
【氏名】米川 慧
(72)【発明者】
【氏名】斉藤 和広
(72)【発明者】
【氏名】黒川 茂莉
(57)【要約】
【課題】簡易な方法でデータ分布の変化を検知することができるようにする。
【解決手段】教師ベクトル群のいずれかを入力すると、教師ベクトル群を構成する特徴ベクトルそれぞれに一意に割り当てられた一意識別子を出力するように機械学習された一意識別子予測モデルを記憶するモデル記憶部121と、基準ベクトル群に対応する一意識別子の分布を示す基準ヒストグラムを記憶する基準ヒストグラム記憶部122と、テストベクトル群を取得する取得部131と、テストベクトル群に対応する一意識別子の分布を示すテストヒストグラムを生成するテストヒストグラム生成部132と、基準ヒストグラムとテストヒストグラムとのそれぞれの分布の類似度を算出する類似度算出部133と、類似度に基づいてテストベクトル群の分布が学習データの分布から外れているか否かを判定する判定部134と、を有する情報処理装置1である。
【選択図】
図2
【特許請求の範囲】
【請求項1】
特徴ベクトルの集合である学習データの中から教師ベクトル群としてサンプリングされたN(Nは2以上の整数)個の特徴ベクトルのいずれかを入力すると、前記教師ベクトル群を構成する特徴ベクトルそれぞれに一意に割り当てられた一意識別子を出力するように機械学習された一意識別子予測モデルを記憶するモデル記憶部と、
前記学習データからサンプリングされた特徴ベクトルの集合であって、前記教師ベクトル群を構成する特徴ベクトルとは異なる特徴ベクトルを含む基準ベクトル群を前記一意識別子予測モデルに入力したとき、前記一意識別子予測モデルが出力する一意識別子の分布を示すヒストグラムである基準ヒストグラムを記憶する基準ヒストグラム記憶部と、
特徴ベクトルの集合であるテストベクトル群を取得する取得部と、
前記テストベクトル群を前記一意識別子予測モデルに入力したとき、前記一意識別子予測モデルが出力する一意識別子の分布を示すヒストグラムであるテストヒストグラムを生成するテストヒストグラム生成部と、
前記基準ヒストグラムと前記テストヒストグラムとのそれぞれの分布の類似度を算出する類似度算出部と、
算出した類似度に基づいて前記テストベクトル群の分布が前記学習データを構成する特徴ベクトルの分布から外れているか否かを判定する判定部と、
を有する情報処理装置。
【請求項2】
前記判定部は、算出した類似度とあらかじめ定められた閾値とを比較して前記テストベクトル群の分布が前記学習データを構成する特徴ベクトルの分布から外れているか否かを判定する、
請求項1に記載の情報処理装置。
【請求項3】
前記学習データからサンプリングされた特徴ベクトルの集合であって、前記教師ベクトル群及び前記基準ベクトル群を構成する特徴ベクトルとは異なる特徴ベクトルを含む、校正ベクトル群それぞれを前記一意識別子予測モデルに入力したとき、前記一意識別子予測モデルが出力する一意識別の分布を示すヒストグラムである校正ヒストグラムを生成する校正ヒストグラム生成部と、
校正ヒストグラム生成部が複数の異なる校正ベクトル群に基づいて出力した複数の前記校正ヒストグラムそれぞれと前記基準ヒストグラムとの類似度を算出し、算出した複数の前記校正ヒストグラムそれぞれと前記基準ヒストグラムとの類似度の分布に基づいて閾値を決定する閾値決定部と、をさらに有し、
前記判定部は、前記類似度算出部が算出した類似度と前記閾値決定部が決定した前記閾値とを比較して前記テストベクトル群の分布が前記学習データを構成する特徴ベクトルの分布から外れているか否かを判定する、
請求項1に記載の情報処理装置。
【請求項4】
前記類似度算出部は、前記基準ヒストグラムにおける一意識別子それぞれに分布する特徴ベクトルの数を降順に並べて決定される順位である一意識別子それぞれの順位と、前記テストヒストグラムにおける一意識別子ぞれぞれの順位と、が一致するほど類似度を高く算出する、
請求項1に記載の情報処理装置。
【請求項5】
前記類似度算出部は、前記テストヒストグラムにおける特徴ベクトルの分布が一様であるほど類似度を高く算出し、前記テストヒストグラムにおける特徴ベクトルの分布の偏りが大きいほど類似度を低く算出する、
請求項1から4のいずれか1項に記載の情報処理装置。
【請求項6】
前記判定部が前記テストベクトル群の分布が前記学習データを構成する特徴ベクトルの分布から外れていることを所定の回数以上検知した場合に、前記テストベクトル群が分布外データであることを出力する出力部をさらに有する、
請求項1から4のいずれか1項に記載の情報処理装置。
【請求項7】
前記モデル記憶部は、前記学習データからサンプリングされた特徴ベクトルの集合であって、前記教師ベクトル群を構成する特徴ベクトルとは異なる特徴ベクトルを含む補正ベクトル群を前記一意識別子予測モデルに入力したとき、前記一意識別子予測モデルが出力する一意識別子の分布が一様となるようにさらに機械学習された前記一意識別子予測モデルを記憶する、
請求項1から4のいずれか1項に記載の情報処理装置。
【請求項8】
コンピュータが実行する、
特徴ベクトルの集合であるテストベクトル群を取得するステップと、
前記テストベクトル群を一意識別子予測モデルに入力したとき、前記一意識別子予測モデルが出力する一意識別子の分布を示すヒストグラムであるテストヒストグラムを生成するステップと、
基準ヒストグラムと前記テストヒストグラムとのそれぞれの分布の類似度を算出するステップと、
前記類似度に基づいて前記テストベクトル群の分布が学習データを構成する特徴ベクトルの分布から外れているか否かを判定するステップと、を有し、
前記一意識別子予測モデルは、特徴ベクトルの集合である前記学習データの中から教師ベクトル群としてサンプリングされたN(Nは2以上の整数)個の特徴ベクトルのいずれかを入力すると、前記教師ベクトル群を構成する特徴ベクトルそれぞれに一意に割り当てられた一意識別子を出力するように機械学習された前記一意識別子予測モデルであり、
前記基準ヒストグラムは、前記学習データからサンプリングされた特徴ベクトルの集合であって前記教師ベクトル群を構成する特徴ベクトルとは異なる特徴ベクトルを含む基準ベクトル群を前記一意識別子予測モデルに入力したとき、前記一意識別子予測モデルが出力する一意識別の分布を示すヒストグラムである、
情報処理方法。
【請求項9】
コンピュータに、
特徴ベクトルの集合であるテストベクトル群を取得するステップと、
前記テストベクトル群を一意識別子予測モデルに入力したとき、前記一意識別子予測モデルが出力する一意識別子の分布を示すヒストグラムであるテストヒストグラムを生成するステップと、
基準ヒストグラムと前記テストヒストグラムとのそれぞれの分布の類似度を算出するステップと、
前記類似度に基づいて前記テストベクトル群の分布が学習データを構成する特徴ベクトルの分布から外れているか否かを判定するステップと、を実行させるプログラムであって、
前記一意識別子予測モデルは、特徴ベクトルの集合である前記学習データの中から教師ベクトル群としてサンプリングされたN(Nは2以上の整数)個の特徴ベクトルのいずれかを入力すると、前記教師ベクトル群を構成する特徴ベクトルそれぞれに一意に割り当てられた一意識別子を出力するように機械学習された前記一意識別子予測モデルであり、
前記基準ヒストグラムは、前記学習データからサンプリングされた特徴ベクトルの集合であって前記教師ベクトル群を構成する特徴ベクトルとは異なる特徴ベクトルを含む基準ベクトル群を前記一意識別子予測モデルに入力したとき、前記一意識別子予測モデルが出力する一意識別の分布を示すヒストグラムである、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法及びプログラムに関する。
【背景技術】
【0002】
機械学習モデルの性能低下の要因であるデータ分布の変化を検知することが求められている。データ分布の変化を検知する方法として、特徴空間における学習サンプルの密度比推定に基づく方法がある。しかし、密度比推定に基づく方法は、計算量に課題があるため、ヒストグラムを比較する方法が一般に用いられる。ヒストグラムの作成に際しては、集計の単位となるビンを定める必要がある。ビンの定め方には、特徴空間の軸に基づく方法(非特許文献1及び2)と、クラスタリングに基づく方法(非特許文献3)とがある。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】G. Ditzler and R. Polikar, “Hellinger distance based drift detection for nonstationary environments,” in 2011 IEEE Symposium on Computational Intelligence in Dynamic and Uncertain Environments, 2011年
【非特許文献2】A. Qahtan and S. Wang, “A PCA-Based Change Detection Framework for Multidimensional Data Streams Categories and Subject Descriptors,” KDD ’15 21th ACM SIGKDD Int. Conf. Knowl. Discov. Data Min, 2015年
【非特許文献3】A. Liu, J. Lu, and G. Zhang, “Concept Drift Detection: Dealing With Missing Values via Fuzzy Distance Estimations,” IEEE Trans. Fuzzy Syst., 2021年
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、特徴空間の軸に基づく方法は、チューニングに課題がある。具体的には、ビンの間隔を適切に設定するには統計を取る等の対応が必要であり、ビンの数はバッチサイズに応じて適切に設定する必要がある。また、クラスタリングに基づく方法は高次元データにおいて低精度となり、密度に基づくクラスタリングを用いると高次元データにおいて計算量が増大する問題がある。
【0005】
そこで、本発明はこれらの点に鑑みてなされたものであり、簡易な方法でデータ分布の変化を検知することができるようにすることを目的とする。
【課題を解決するための手段】
【0006】
本発明の第1の態様の情報処理装置においては、特徴ベクトルの集合である学習データの中から教師ベクトル群としてサンプリングされたN(Nは2以上の整数)個の特徴ベクトルのいずれかを入力すると、前記教師ベクトル群を構成する特徴ベクトルそれぞれに一意に割り当てられた一意識別子を出力するように機械学習された一意識別子予測モデルを記憶するモデル記憶部と、前記学習データからサンプリングされた特徴ベクトルの集合であって、前記教師ベクトル群を構成する特徴ベクトルとは異なる特徴ベクトルを含む基準ベクトル群を前記一意識別子予測モデルに入力したとき、前記一意識別子予測モデルが出力する一意識別子の分布を示すヒストグラムである基準ヒストグラムを記憶する基準ヒストグラム記憶部と、特徴ベクトルの集合であるテストベクトル群を取得する取得部と、前記テストベクトル群を前記一意識別子予測モデルに入力したとき、前記一意識別子予測モデルが出力する一意識別子の分布を示すヒストグラムであるテストヒストグラムを生成するテストヒストグラム生成部と、前記基準ヒストグラムと前記テストヒストグラムとのそれぞれの分布の類似度を算出する類似度算出部と、算出した類似度に基づいて前記テストベクトル群の分布が前記学習データを構成する特徴ベクトルの分布から外れているか否かを判定する判定部と、を有する。
【0007】
前記判定部は、算出した類似度とあらかじめ定められた閾値とを比較して前記テストベクトル群の分布が前記学習データを構成する特徴ベクトルの分布から外れているか否かを判定してもよい。
【0008】
前記学習データからサンプリングされた特徴ベクトルの集合であって、前記教師ベクトル群及び前記基準ベクトル群を構成する特徴ベクトルとは異なる特徴ベクトルを含む、校正ベクトル群それぞれを前記一意識別子予測モデルに入力したとき、前記一意識別子予測モデルが出力する一意識別の分布を示すヒストグラムである校正ヒストグラムを生成する校正ヒストグラム生成部と、校正ヒストグラム生成部が複数の異なる校正ベクトル群に基づいて出力した複数の前記校正ヒストグラムそれぞれと前記基準ヒストグラムとの類似度を算出し、算出した複数の前記校正ヒストグラムそれぞれと前記基準ヒストグラムとの類似度の分布に基づいて閾値を決定する閾値決定部と、をさらに有し、前記判定部は、前記類似度算出部が算出した類似度と前記閾値決定部が決定した前記閾値とを比較して前記テストベクトル群の分布が前記学習データを構成する特徴ベクトルの分布から外れているか否かを判定してもよい。
【0009】
前記類似度算出部は、前記基準ヒストグラムにおける一意識別子それぞれに分布する特徴ベクトルの数を降順に並べて決定される順位である一意識別子それぞれの順位と、前記テストヒストグラムにおける一意識別子ぞれぞれの順位と、が一致するほど類似度を高く算出してもよい。
【0010】
前記類似度算出部は、前記テストヒストグラムにおける特徴ベクトルの分布が一様であるほど類似度を高く算出し、前記テストヒストグラムにおける特徴ベクトルの分布の偏りが大きいほど類似度を低く算出してもよい。
【0011】
前記判定部が前記テストベクトル群の分布が前記学習データを構成する特徴ベクトルの分布から外れていることを所定の回数以上検知した場合に、前記テストベクトル群が分布外データであることを出力する出力部をさらに有してもよい。
【0012】
前記モデル記憶部は、前記学習データからサンプリングされた特徴ベクトルの集合であって、前記教師ベクトル群を構成する特徴ベクトルとは異なる特徴ベクトルを含む補正ベクトル群を前記一意識別子予測モデルに入力したとき、前記一意識別子予測モデルが出力する一意識別子の分布が一様となるようにさらに機械学習された前記一意識別子予測モデルを記憶してもよい。
【0013】
本発明の第2の態様の情報処理方法においては、コンピュータが実行する、特徴ベクトルの集合であるテストベクトル群を取得するステップと、前記テストベクトル群を一意識別子予測モデルに入力したとき、前記一意識別子予測モデルが出力する一意識別子の分布を示すヒストグラムであるテストヒストグラムを生成するステップと、基準ヒストグラムと前記テストヒストグラムとのそれぞれの分布の類似度を算出するステップと、前記類似度に基づいて前記テストベクトル群の分布が学習データを構成する特徴ベクトルの分布から外れているか否かを判定するステップと、を有し、前記一意識別子予測モデルは、特徴ベクトルの集合である前記学習データの中から教師ベクトル群としてサンプリングされたN(Nは2以上の整数)個の特徴ベクトルのいずれかを入力すると、前記教師ベクトル群を構成する特徴ベクトルそれぞれに一意に割り当てられた一意識別子を出力するように機械学習された前記一意識別子予測モデルであり、前記基準ヒストグラムは、前記学習データからサンプリングされた特徴ベクトルの集合であって前記教師ベクトル群を構成する特徴ベクトルとは異なる特徴ベクトルを含む基準ベクトル群を前記一意識別子予測モデルに入力したとき、前記一意識別子予測モデルが出力する一意識別の分布を示すヒストグラムである。
【0014】
本発明の第3の態様のプログラムにおいては、コンピュータに、特徴ベクトルの集合であるテストベクトル群を取得するステップと、前記テストベクトル群を一意識別子予測モデルに入力したとき、前記一意識別子予測モデルが出力する一意識別子の分布を示すヒストグラムであるテストヒストグラムを生成するステップと、基準ヒストグラムと前記テストヒストグラムとのそれぞれの分布の類似度を算出するステップと、前記類似度に基づいて前記テストベクトル群の分布が学習データを構成する特徴ベクトルの分布から外れているか否かを判定するステップと、を実行させるプログラムであって、前記一意識別子予測モデルは、特徴ベクトルの集合である前記学習データの中から教師ベクトル群としてサンプリングされたN(Nは2以上の整数)個の特徴ベクトルのいずれかを入力すると、前記教師ベクトル群を構成する特徴ベクトルそれぞれに一意に割り当てられた一意識別子を出力するように機械学習された前記一意識別子予測モデルであり、前記基準ヒストグラムは、前記学習データからサンプリングされた特徴ベクトルの集合であって前記教師ベクトル群を構成する特徴ベクトルとは異なる特徴ベクトルを含む基準ベクトル群を前記一意識別子予測モデルに入力したとき、前記一意識別子予測モデルが出力する一意識別の分布を示すヒストグラムである。
【発明の効果】
【0015】
本発明によれば、簡易な方法でデータ分布の変化を検知することができるようにするという効果を奏する。
【図面の簡単な説明】
【0016】
【
図1】情報処理装置1における分布外データ検知処理の概要を示す図である。
【
図2】情報処理装置1の構成を示すブロック図である。
【
図3】学習部138の学習処理を説明する図である。
【
図4】閾値決定部136が閾値を決定する処理を説明する図である。
【
図5】情報処理装置1における処理の流れを示すフローチャートである。
【
図6】情報処理装置1における処理の流れを示すフローチャートである。
【
図7】第2の実施形態にかかる学習部138の学習処理を説明する図である。
【発明を実施するための形態】
【0017】
<第1の実施形態>
[情報処理装置1における処理の概要]
図1は、情報処理装置1における分布外データ検知処理の概要を示す図である。情報処理装置1は、機械学習モデルの推論対象のデータの分布が、学習に用いた学習データの分布から外れていることを検出するための装置である。情報処理装置1は、例えばサーバである。
【0018】
情報処理装置1における処理の概要について説明する。情報処理装置1は、テストベクトル群V1を一意識別子予測モデルMに入力する(
図1における(1))。テストベクトル群V1は、判定対象のデータの特徴ベクトル群である。一意識別子予測モデルMは、一意識別子と同数の学習用の特徴ベクトル群それぞれに異なる一意識別子を出力するよう学習した学習済みモデルである。一意識別子(UUID(Universally Unique Identifier)とも言う)は、特徴ベクトルを分類するための識別子である。
【0019】
情報処理装置1は、一意識別子予測モデルMが入力されたテストベクトル群V1に基づいて出力した一意識別子それぞれの頻度を示すテストヒストグラムH1を生成する(
図1における(2))。
【0020】
情報処理装置1は、生成したテストヒストグラムH1と基準ヒストグラムH2との類似度を算出する。情報処理装置1は、算出した類似度に基づいて、テストベクトル群V1が分布外データであるか否かを判定する(
図1における(3))。基準ヒストグラムH2は、学習データから抽出した特徴ベクトル群を一意識別子予測モデルMに入力して生成されたヒストグラムであり、学習データの分布を反映するヒスグラムである。学習データは、学習用に収集されたデータ又は特徴ベクトルの集合である。
【0021】
情報処理装置1がこのように構成されることで、簡易な方法でデータ分布の変化を検知することができる。
【0022】
[情報処理装置1の構成]
図2は、情報処理装置1の構成を示すブロック図である。情報処理装置1は、通信部11、記憶部12及び制御部13を有する。記憶部12は、モデル記憶部121、基準ヒストグラム記憶部122を有する。制御部13は、取得部131、テストヒストグラム生成部132、類似度算出部133、判定部134、校正ヒストグラム生成部135、閾値決定部136、出力部137、学習部138及び基準ヒストグラム生成部139を有する。
【0023】
通信部11は、ネットワークを介して他の装置とデータの送受信をするための通信インターフェースである。記憶部12は、ROM(Read Only Memory)、RAM(Random Access Memory)、SSD(Solid State Drive)、ハードディスクドライブ等を含む記憶媒体である。記憶部12は、制御部13が実行するプログラムを予め記憶している。
【0024】
モデル記憶部121は、後述するように学習部138が学習した一意識別子予測モデルMを記憶する。一意識別子予測モデルMは、特徴ベクトルの集合である学習データD1の中から教師ベクトル群V2としてサンプリングされたN(Nは2以上の整数)個の特徴ベクトルのいずれかを入力すると、教師ベクトル群V2を構成する特徴ベクトルそれぞれに一意に割り当てられた一意識別子を出力するように機械学習された学習済みモデルである。
【0025】
基準ヒストグラム記憶部122は、後述するように基準ヒストグラム生成部139が生成した基準ヒストグラムH2を記憶する。基準ヒストグラムH2は、基準ベクトル群V3を一意識別子予測モデルMに入力したとき、一意識別子予測モデルMが出力する一意識別子の分布を示すヒストグラムである。基準ベクトル群V3は、学習データD1からサンプリングされた特徴ベクトルの集合であって、教師ベクトル群V2を構成する特徴ベクトルとは異なる特徴ベクトルを含む。
【0026】
制御部13は、例えばCPU(Central Processing Unit)等のプロセッサである。制御部13は、記憶部12に記憶されたプログラムを実行することにより、取得部131、テストヒストグラム生成部132、類似度算出部133、判定部134、校正ヒストグラム生成部135、閾値決定部136、出力部137、学習部138及び基準ヒストグラム生成部139として機能する。
【0027】
[学習処理]
情報処理装置1における学習処理について説明する。学習部138は、学習データD1から一意識別子と同数の特徴ベクトル群を抽出する(
図3における(1))。一例として、一意識別子が128個の場合、学習部138は、128個の特徴ベクトル群を抽出し教師ベクトル群V2とする。学習部138は、教師ベクトル群V2に含まれる特徴ベクトルそれぞれに正解の一意識別子を対応付けた正解データD2を生成する(
図3における(2))。
【0028】
学習部138は、教師ベクトル群V2を一意識別子予測モデルMに入力し(
図3における(3))、教師ベクトル群V2に対応する一意識別子を予測する(
図3における(4))。学習部138は、正解データD2に基づいて一意識別子予測モデルMの精度を評価する。学習部138は、一例として、出力した交差エントロピー誤差を損失関数として一意識別子予測モデルMの精度を評価し、評価結果に基づいて一意識別子予測モデルMのパラメータを更新する(
図3における(5))。
【0029】
学習部138は、学習の終了条件を満たすまで、
図3における(3)から(5)の処理を繰り返し、一意識別子予測モデルMを学習させる。終了条件は例えば、損失関数の平均値が所定の値を下回ること又はパラメータの更新回数が所定の回数に到達することである。学習部138は、学習させた一意識別子予測モデルMをモデル記憶部121に記憶させる。
【0030】
好適な一例として、一意識別子予測モデルMは下記のとおり構成されてもよい。一意識別子予測モデルMの入力層は、入力される特徴ベクトルが有する特徴量の数と同一の次元数を有する。一意識別子予測モデルMは、3層の隠れ層を有する。隠れ層は、それぞれ256次元あり、活性化関数としてLeaky ReLU(Leaky Rectified Linear Unit)を使用する。一意識別子予測モデルMの出力層は、一意識別子の桁数(一例として一意識別子の数が128個であればBinary encodingで7桁)と同じ次元数を有し、活性化関数としてSigmoid関数を使用する。学習部138は、出力層が出力するベクトルの次元毎の予測値と、正解の一意識別子の対応する桁の二値と、の二値交差エントロピー誤差を損失関数として一意識別子予測モデルMの精度を評価する。学習部138は、誤差逆伝播法によって一意識別子予測モデルMのパラメータを更新する。学習部138は、一例として、確率的勾配降下法のアルゴリズムの一つであるAdamを一意識別子予測モデルMのパラメータの更新方法として、算出した二値交差エントロピー誤差に基づいてパラメータを更新する。
【0031】
図2に戻り、基準ヒストグラム生成部139は、学習データD1から基準ベクトル群V3を抽出する。基準ベクトル群V3は、教師ベクトル群V2とは異なる特徴ベクトルを含む特徴ベクトル群である。基準ベクトル群V3に含まれる特徴ベクトルの数は任意である。基準ヒストグラム生成部139は、基準ベクトル群V3を一意識別子予測モデルMに入力し、基準ベクトル群V3に含まれる特徴ベクトルそれぞれに対応する一意識別子を出力させる。基準ヒストグラム生成部139は、基準ベクトル群V3と一意識別子予測モデルMが出力した一意識別子とに基づいて基準ヒストグラムH2を生成する。基準ヒストグラムH2は、一意識別子予測モデルMが出力した一意識別子をビンとして、それぞれの一意識別子に割り当てられた基準ベクトル群V3に含まれる特徴ベクトルの個数の分布を示すヒストグラムである。
【0032】
[判定処理]
情報処理装置1における判定処理について説明する。取得部131は、特徴ベクトルの集合であるテストベクトル群V1を取得する。取得部131は、不図示の外部装置から通信部11を介してテストベクトル群V1を取得してもよいし、記憶部12に記憶されたテストベクトル群V1を取得してもよい。また、取得部131は、判定対象のデータを取得し、取得した推論対象のデータから特徴ベクトルを抽出することでテストベクトル群V1を取得してもよい。
【0033】
テストヒストグラム生成部132は、テストベクトル群V1を一意識別子予測モデルMに入力したとき、一意識別子予測モデルMが出力する一意識別子の分布を示すヒストグラムであるテストヒストグラムH1を生成する。テストヒストグラム生成部132は、テストベクトル群V1を一意識別子予測モデルMに入力し、テストベクトル群V1に含まれる特徴ベクトルそれぞれに対応する一意識別子を出力させる。テストヒストグラム生成部132は、テストベクトル群V1と一意識別子予測モデルMが出力した一意識別子とに基づいてテストヒストグラムH1を生成する。テストヒストグラムH1は、一意識別子予測モデルMが出力した一意識別子をビンとして、それぞれの一意識別子に割り当てられたテストベクトル群V1に含まれる特徴ベクトルの個数の分布を示すヒストグラムである。
【0034】
類似度算出部133は、基準ヒストグラムH2とテストヒストグラムH1とのそれぞれの分布の類似度を算出する。類似度算出部133は、一例として既知のカルバック・ライブラー・ダイバージェンス等の方法により類似度を算出してもよいし、後述する方法により類似度を算出してもよい。
【0035】
判定部134は、算出した類似度に基づいてテストベクトル群V1の分布が学習データD1を構成する特徴ベクトルの分布から外れているか否かを判定する。判定部134は、算出した類似度とあらかじめ定められた閾値とを比較してテストベクトル群V1の分布が学習データD1を構成する特徴ベクトルの分布から外れているか否かを判定してもよい。判定部134は、類似度が閾値未満である場合に、テストベクトル群V1の分布が特徴ベクトルの分布から外れていると判定してもよい。また、後述するように判定部134は、テストベクトル群V1と基準ベクトル群V3との類似度が所定の回数以上、所定の閾値未満であった場合に、テストベクトル群V1の分布が特徴ベクトルの分布から外れていると判定してもよい。出力部137は、判定部134が分布外データを検知した場合、外部装置に分布外データを検知したことを出力させてもよい。
【0036】
ところで、判定部134が分布外データを検知した場合であっても判定対象のテストデータが偶然に分布から外れていた可能性が否定できない。そこで、分布外データを検知する回数又はテストデータが学習データD1の分布から外れている程度に基づいて分布外データか否かを判定するよう情報処理装置1が構成されてもよい。
【0037】
出力部137は、判定部134がテストベクトル群V1の分布が学習データを構成する特徴ベクトルの分布から外れていることを所定の回数以上検知した場合に、テストベクトル群が分布外データであることを出力してもよい。判定部134は、分布外データを検知した回数をカウントする。そして、判定部134は、分布外データを所定の回数以上検知した場合に、出力部137にテストベクトル群V1が分布外データであることを出力させる。
【0038】
判定部134は、閾値決定部136が算出した、基準ヒストグラムH2と校正ヒストグラムH3との類似度の平均値及び分散(σ)に基づいて、類似度算出部133が算出したテストデータの類似度が、基準ヒストグラムH2と校正ヒストグラムH3との類似度の分布から外れている程度(例えば算出した類似度と、基準ヒストグラムH2及び校正ヒストグラムH3の類似度の平均値と、の差が1σ未満、1σ以上2σ未満、2σ以上3σ未満、3σ以上等)ごとに分布外データの検知回数をカウントする。判定部134は、カウントした検知回数が当該類似度の分布から外れている程度ごとに定まる既定の回数を超えた場合に、出力部137にテストベクトル群V1が分布外データであることを出力させてもよい。判定部134は、一例として、既知のWestern Electric rulesに基づいて分布外データを判定してもよい。
【0039】
情報処理装置1がこのように構成されることで、分布外データを検知する精度を向上させることができる。
【0040】
[閾値決定処理]
分布外データを検知するための閾値を決定する処理について説明する。
図4は、閾値決定部136が閾値を決定する処理を説明する図である。
図4における(1)から(3)の処理は学習処理において説明済みであるためここでは省略する。まず、校正ヒストグラム生成部135は、学習データD1から複数の校正ベクトル群V4を抽出する(
図4における(4))。校正ベクトル群V4は、学習データD1からサンプリングされた特徴ベクトルの集合であって、教師ベクトル群V2及び基準ベクトル群V3を構成する特徴ベクトルとは異なる特徴ベクトルをそれぞれが含む。
【0041】
校正ヒストグラム生成部135は、複数の校正ベクトル群V4それぞれを一意識別子予測モデルMに入力し、一意識別子予測モデルMが出力する一意識別子の分布を示すヒストグラムである複数の校正ヒストグラムH3を生成する。校正ヒストグラム生成部135は、抽出した複数の校正ベクトル群V4を一意識別子予測モデルMに入力し(
図4における(5))、校正ベクトル群V4に含まれる特徴ベクトルそれぞれに対応する一意識別子を出力させる。校正ヒストグラム生成部135は、複数の校正ベクトル群V4と一意識別子予測モデルMが出力した一意識別子とに基づいて複数の校正ヒストグラムH3を生成する。校正ヒストグラムH3は、一意識別子予測モデルMが出力した一意識別子をビンとして、それぞれの一意識別子に割り当てられた校正ベクトル群V4に含まれる特徴ベクトルの個数の分布を示すヒストグラムである。
【0042】
閾値決定部136は、校正ヒストグラム生成部135が複数の異なる校正ベクトル群V4に基づいて出力した複数の校正ヒストグラムH3それぞれと基準ヒストグラムH2との類似度を算出し、算出した複数の校正ヒストグラムH3それぞれと基準ヒストグラムH2との類似度の分布に基づいて閾値を決定する。閾値決定部136は、一例として、複数の校正ヒストグラムH3それぞれと基準ヒストグラムH2との類似度の統計値(中央値、平均値、標準偏差)に基づいて閾値を決定してもよい。一例として閾値決定部136は、算出した類似度の平均値又は中央値から所定の値を減算して閾値を決定してもよいし、算出した類似度の平均値から算出した分散に所定の係数を乗じた値を減算して閾値を決定してもよい。そして、判定部134は、類似度算出部133が算出した類似度と閾値決定部136が決定した閾値とを比較してテストベクトル群V1の分布が学習データD1を構成する特徴ベクトルの分布から外れているか否かを判定する。
【0043】
[類似度算出処理]
類似度を算出する処理の詳細について説明する。類似度算出部133は、基準ヒストグラムH2における一意識別子それぞれに分布する特徴ベクトルの数を降順に並べて決定される順位である一意識別子それぞれの順位と、テストヒストグラムH1における一意識別子ぞれぞれの順位と、が一致するほど類似度を高く算出してもよい。類似度算出部133は、一例としてnDCG(normalized Discounted Cumulative Gain)に基づいて類似度を算出してもよい。一意識別子の数をpとして、p個の一意識別子をビンとする基準ヒストグラムH2とテストヒストグラムH1との類似度を示すnDCGpは以下の式により表される。
【数1】
【0044】
式1におけるIDCGpは、基準ヒストグラムH2における利得であり、下記の式により表される。
【数2】
【0045】
式2におけるiは、基準ヒストグラムH2を、それぞれの一意識別子に分布する特徴ベクトルの数(以下、頻度という場合がある)の降順に並べた際のそれぞれの一意識別子の順位である。式2におけるreliは、i番目の順位の一意識別子に対応する頻度である。
【0046】
式1におけるDCGpは、テストヒストグラムH1における利得であり、下記の式により表される。
【数3】
【0047】
式3におけるjは、テストヒストグラムH1をそれぞれの一意識別子に対応する頻度の降順に並べた際のそれぞれの一意識別子の順位である。式3におけるrelj´は、j番目の順位の一意識別子に基準ヒストグラムH2において対応する頻度である。
【0048】
ところで、類似度を算出する際に分布のバラつきを考慮することで、分布外データを検知する精度を向上させることができる。そこで、類似度算出部133は、テストヒストグラムH1における特徴ベクトルの分布が一様であるほど類似度を高く算出し、テストヒストグラムH1における特徴ベクトルの分布の偏りが大きいほど類似度を低く算出してもよい。類似度算出部133は、例えば、下記の式で表されるGとnDCGpとを乗じて類似度を算出してもよい。
【数4】
【0049】
式4におけるykは、テストヒストグラムH1をそれぞれの一意識別子に対応する頻度の昇順に並べた際のk番目の順位の一意識別子に対応する頻度である。情報処理装置1がこのように構成されることで、分布外データを検知する精度を向上させることができるという効果を奏する。
【0050】
[情報処理装置1における処理の流れ]
図5は、情報処理装置1における学習処理の流れを示すフローチャートである。
図5に示すフローチャートは、学習処理を起動する指示を受けた時点から開始している。学習部138は、教師ベクトル群V2を取得する(S01)。学習部138は、取得した教師ベクトル群V2を一意識別子予測モデルMに入力する(S02)。学習部138は、一意識別子予測モデルMから出力された一意識別子を正解データD2と比較して一意識別子予測モデルMの精度を評価する(S03)。学習部138は、評価結果に基づいて、一意識別子予測モデルMのパラメータを更新する(S04)。
【0051】
学習部138は、学習が完了したか否かを判定する(S05)。学習が完了していない場合(S05におけるNO)、S02に戻る。学習が完了している場合(S05におけるYES)、S06に進む。
【0052】
基準ヒストグラム生成部139は、基準ベクトル群V3を取得する(S06)。基準ヒストグラム生成部139は、基準ベクトル群V3を一意識別子予測モデルMに入力する(S07)。基準ヒストグラム生成部139は、一意識別子予測モデルMから出力された一意識別子に基づいて基準ヒストグラムH2を生成する(S08)。そして、情報処理装置1は処理を学習終了する。
【0053】
図6は、情報処理装置1における推論処理の流れを示すフローチャートである。
図6に示すフローチャートは推論処理を開始するトリガが引かれた時点から開始している。取得部131は、テストベクトル群V1を取得する(S101)。テストヒストグラム生成部132は、テストベクトル群V1を一意識別子予測モデルMに入力する(S102)。テストヒストグラム生成部132は、一意識別子予測モデルMが出力した一意識別子に基づいてテストヒストグラムH1を生成する(S103)。
【0054】
類似度算出部133は、基準ヒストグラムH2を取得する(S104)。類似度算出部133は、テストヒストグラムH1と基準ヒストグラムH2との類似度を算出する(S105)。判定部134は、類似度算出部133が算出した類似度が閾値未満であるかを判定する(S106)。類似度が閾値未満である場合(S106におけるYES)、出力部137は、分布外データであることを出力し(S107)、情報処理装置1は処理を終了する。類似度が閾値以上である場合(S106におけるNO)、情報処理装置1は処理を終了する。
【0055】
[第1の実施形態による効果]
以上説明したように、第1の実施形態にかかる情報処理装置1においては、簡易な方法でデータ分布の変化を検知することができる。
【0056】
<第2実施形態>
ところで、学習データD1から抽出した教師ベクトル群V2が学習データD1に含まれるデータに対して少ない場合、抽出した教師ベクトル群V2自体のデータの偏りが学習済みモデルに反映されてしまう問題が生じる。そこで、教師ベクトル群V2とは異なるベクトル群を一意識別子予測モデルMに入力し、出力される一意識別子の分布が一様になるようさらに一意識別子予測モデルMを学習させるよう学習部138が構成されてもよい。以下では第2の実施形態と第1の実施形態との異なる部分について説明する。第2の実施形態において一意識別子は、one-hot encodingで表現されていてもよい。
【0057】
図7は、第2の実施形態にかかる学習部138の学習処理を説明する図である。
図7における(1)から(4)までの処理は
図3における学習処理に対応する処理である。
【0058】
学習部138は、学習データD1から補正ベクトル群V5を抽出する(
図7における(5))。補正ベクトル群V5は、学習データD1からサンプリングされた特徴ベクトルの集合であって、教師ベクトル群V2を構成する特徴ベクトルとは異なる特徴ベクトルを含む。補正ベクトル群V5に含まれる特徴ベクトルの数は任意であるが、教師ベクトル群V2よりも大きいことが望ましい。一例として、教師ベクトル群V2の特徴ベクトル数が64である場合に補正ベクトル群V5に含まれる特徴ベクトルの数を1000としてもよい。
【0059】
学習部138は、補正ベクトル群V5を一意識別子予測モデルMに入力する(
図7における(6))。学習部138は、補正ベクトル群V5に対応する一意識別子のエントロピーを算出する。学習部138は一例として、出力された一意識別子をサンプル方向に平均し、出力次元方向に正規化し、正規化された一意識別子のエントロピーHを算出してもよい。学習部138は、正解データD2と予測結果D3との誤差から算出したエントロピーHを減算したものを損失関数として、一意識別子予測モデルMの精度を評価する。そして、学習部138は、評価結果に基づいて一意識別子予測モデルMのパラメータを更新する(
図7における(8))。
【0060】
学習部138は、学習の終了条件を満たすまで、
図7における(3)、(4)、(6)、(7)及び(8)の処理を繰り返し、一意識別子予測モデルMを学習させる。学習部138は、学習させた一意識別子予測モデルMをモデル記憶部121に記憶させる。
【0061】
モデル記憶部121は、補正ベクトル群V5を一意識別子予測モデルMに入力したとき、一意識別子予測モデルMが出力する一意識別子の分布が一様となるようにさらに機械学習された一意識別子予測モデルMを記憶する。
【0062】
情報処理装置1がこのように構成されることで、教師ベクトル群V2のデータの偏りを緩和させた予測モデル生成することが可能となり、分布外データの検知精度を向上させることができる。
【0063】
なお、本発明により、国連が主導する持続可能な開発目標(SDGs)の目標9「産業と技術革新の基盤をつくろう」に貢献することが可能となる。
【0064】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。
【符号の説明】
【0065】
1 情報処理装置
11 通信部
12 記憶部
13 制御部
121 モデル記憶部
122 基準ヒストグラム記憶部
131 取得部
132 テストヒストグラム生成部
133 類似度算出部
134 判定部
135 校正ヒストグラム生成部
136 閾値決定部
137 出力部
138 学習部
139 基準ヒストグラム生成部