(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023053565
(43)【公開日】2023-04-13
(54)【発明の名称】情報処理装置、情報処理方法および情報処理プログラム
(51)【国際特許分類】
G06F 17/18 20060101AFI20230406BHJP
G06N 20/00 20190101ALI20230406BHJP
【FI】
G06F17/18 Z
G06N20/00 130
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2021162675
(22)【出願日】2021-10-01
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110001678
【氏名又は名称】藤央弁理士法人
(72)【発明者】
【氏名】小林 薫樹
(72)【発明者】
【氏名】近藤 洋史
(72)【発明者】
【氏名】長谷川 泰隆
(72)【発明者】
【氏名】鎌田 裕司
(72)【発明者】
【氏名】由井 俊太郎
(72)【発明者】
【氏名】伴 秀行
(72)【発明者】
【氏名】新家 隆秀
【テーマコード(参考)】
5B056
【Fターム(参考)】
5B056BB64
5B056BB66
(57)【要約】
【課題】多数の経時データの中から、特異な経時データサンプルを抽出すること。
【解決手段】情報処理装置であって、プログラムを実行するプロセッサと、プログラムを保持する記憶デバイスと、を有し、記憶デバイスは、各々が2以上の時点のデータを含む複数の時系列データを保持し、プロセッサは、複数の時系列データの各々について、時間に対する変化率を計算し、複数の時系列データの変化率を相対的に評価する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
情報処理装置であって、
プログラムを実行するプロセッサと、前記プログラムを保持する記憶デバイスと、を有し、
前記記憶デバイスは、各々が2以上の時点のデータを含む複数の時系列データを保持し、
前記プロセッサは、
前記複数の時系列データの各々について、時間に対する変化率を計算し、
前記複数の時系列データの前記変化率を相対的に評価することを特徴とする情報処理装置。
【請求項2】
請求項1に記載の情報処理装置であって、
前記プロセッサは、
前記変化率の分布を所定の確率分布と比較し、
前記所定の確率分布からの前記変化率の逸脱の程度が特異データ判定のための条件を満たす前記時系列データを特異データと判定することによって、前記複数の時系列データの前記変化率を相対的に評価することを特徴とする情報処理装置。
【請求項3】
請求項2に記載の情報処理装置であって、
前記プロセッサは、前記所定の確率分布からの前記変化率の逸脱の程度が最も大きい前記時系列データを特異データと判定することを特徴とする情報処理装置。
【請求項4】
請求項3に記載の情報処理装置であって、
前記プロセッサは、特異データと判定された前記時系列データを除いた前記複数の時系列データの前記変化率の分布と前記所定の確率分布とを比較する処理、及び、前記所定の確率分布からの前記変化率の逸脱の程度が最も大きい前記時系列データを特異データと判定する処理を、特異データと判定された前記時系列データの数又は割合が所定の条件を満たすか、又は、前記所定の確率分布からの前記変化率の逸脱の程度が所定の範囲内となるまで繰り返し実行することを特徴とする情報処理装置。
【請求項5】
請求項2に記載の情報処理装置であって、
前記プロセッサは、特異データと判定された前記時系列データの数又は割合が所定の条件を満たすように、前記特異データ判定のための条件を変更しながら、特異データと判定された前記時系列データを除いた前記複数の時系列データの前記変化率の分布と前記所定の確率分布とを比較し、前記所定の確率分布からの前記変化率の逸脱の程度が前記特異データ判定のための条件を満たす前記時系列データを特異データと判定する処理を繰り返し実行することを特徴とする情報処理装置。
【請求項6】
請求項2に記載の情報処理装置であって、
前記プロセッサは、
前記変化率の分布がそれぞれ異なる確率分布モデルに基づくと仮定することによって複数の確率分布を生成し、
前記変化率の分布を、前記複数の確率分布と比較し、
前記変化率の逸脱の程度が最も小さい前記確率分布を、前記特異データ判定のための比較の対象である前記所定の確率分布として決定することを特徴とする情報処理装置。
【請求項7】
請求項2に記載の情報処理装置であって、
前記所定の確率分布は、前記変化率の分布が従うと仮定する所定の確率分布モデルに基づく分布であり、
前記プロセッサは、前記変化率が前記所定の確率分布の所定の信頼係数に対応する信頼区間から外れる前記時系列データを特異データと判定することを特徴とする情報処理装置。
【請求項8】
請求項7に記載の情報処理装置であって、
前記プロセッサは、特異データと判定された前記時系列データの数又は割合が所定の条件を満たすように、前記信頼係数を変更しながら、特異データと判定された前記時系列データを除いた前記複数の時系列データの前記変化率の分布と前記所定の確率分布とを比較し、前記変化率が前記信頼区間から外れる前記時系列データを特異データと判定する処理を繰り返し実行することを特徴とする情報処理装置。
【請求項9】
請求項2に記載の情報処理装置であって、
出力デバイスをさらに有し、
前記出力デバイスは、前記変化率の分布と前記所定の確率分布とに基づくQuantile-Quantileプロットを表示することを特徴とする情報処理装置。
【請求項10】
情報処理装置が実行する情報処理方法であって、
前記情報処理装置は、プログラムを実行するプロセッサと、前記プログラムを保持する記憶デバイスと、を有し、
前記記憶デバイスは、各々が2以上の時点のデータを含む複数の時系列データを保持し、
前記情報処理方法は、
前記プロセッサが、前記複数の時系列データの各々について、時間に対する変化率を計算する手順と、
前記プロセッサが、前記複数の時系列データの前記変化率を相対的に評価する手順と、を含むことを特徴とする情報処理方法。
【請求項11】
情報処理装置を制御するための情報処理プログラムであって、
前記情報処理装置は、前記情報処理プログラムを実行するプロセッサと、前記情報処理プログラムを保持する記憶デバイスと、を有し、
前記記憶デバイスは、各々が2以上の時点のデータを含む複数の時系列データを保持し、
前記情報処理プログラムは、
前記複数の時系列データの各々について、時間に対する変化率を計算する手順と、
前記複数の時系列データの前記変化率を相対的に評価する手順と、を前記プロセッサに実行させることを特徴とする情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、経時データを対象とした情報処理装置、情報処理方法および情報処理プログラムに関する。
【背景技術】
【0002】
機械学習などを用いる情報処理において、学習に用いる多数の学習データから外れ値を除去する前処理が重要と考えられている。これは、学習データに外れ値が含まれている場合、学習結果が意図しないものとなったり、学習効率低下の原因となったりする可能性があるためである。
【0003】
外れ値除去の方法は、学習データがある一時点の情報を表す横断データの場合と、時間軸に沿った時系列データの場合で異なる。横断データの場合、スミルノフ・グラブス検定やホテリング理論などが知られている。これらの方法は、データの平均や分散をパラメータとしており、時刻毎にデータのパラメータが動的に変化する時系列データに適用することは困難である。
【0004】
時系列データに対する外れ値とは、(1)ある一つの時系列サンプルの中で、異常な値を呈す時刻が存在する場合と、(2)ある一時刻における多数の時系列サンプルの中で、特異なサンプルが存在する場合とがある。
【0005】
上記(1)の外れ値に対して、特開2008-117381号公報(特許文献1)は、最適なモデル化を行うことが可能な時系列データ解析装置を実現することを目的とした時系列データ解析装置を開示する。この装置はサンプル内の元の値と時系列で平滑化した値の差分をとることでサンプル内の異常値を検出する。
【0006】
上記(2)の外れ値に対して、国際公開第2016/116961号(特許文献2)は、時系列信号が異常を示し始めた時刻をより正確に求めるための情報処理装置を開示する。この装置は、あらかじめ設定した正常データの上限下限に基づいて異常を検知する。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2008-117381号公報
【特許文献2】国際公開第2016/116961号
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、いずれの外れ値除去方法を用いても、ある一つの時系列データが時間軸に沿って呈した変化を、学習データに含まれるその他のサンプルと比較して相対的に評価することはできない。加えて、時系列データの観測時点数が少ない場合、時系列データの平滑化や、自己回帰モデルなどの統計モデルによる表現が困難となる。
【0009】
本明細書では、観測時点数の少ない時系列データを経時データと呼ぶこととする。本発明は、機械学習などの学習に用いる多数の経時学習データの中から、他のサンプルと比較した場合の各時刻の特異性とサンプル内変動の特異性の双方を確認する外れ値除去を特徴とする情報処理の実現を目的とする。
【課題を解決するための手段】
【0010】
本願において開示される発明の一側面となる情報処理装置は、プログラムを実行するプロセッサと、前記プログラムを保持する記憶デバイスと、を有し、前記記憶デバイスは、各々が2以上の時点のデータを含む複数の時系列データを保持し、前記プロセッサは、前記複数の時系列データの各々について、時間に対する変化率を計算し、前記複数の時系列データの前記変化率を相対的に評価することを特徴とする。
【発明の効果】
【0011】
本発明の代表的な実施の形態によれば、機械学習などに用いる経時学習データから、各サンプルの時間軸に沿った変化率に基づいてサンプル同士を相対的に評価し、特異なサンプルを抽出することができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。
【図面の簡単な説明】
【0012】
【
図1】本発明の実施例に係る情報処理装置のハードウェア構成の一例を示すブロック図である。
【
図2】本発明の実施例に係る情報処理装置の機能的構成の一例を示すブロック図である。
【
図3】本発明の実施例に係る告知情報の記憶内容の一例を示す説明図である。
【
図4】本発明の実施例に係る非連続値データの一例を示す説明図である。
【
図5】本発明の実施例に係る連続値データの一例を示す説明図である。
【
図6】本発明の実施例に係る変化率データの一例を示す説明図である。
【
図7】本発明の実施例に係る入出力画面の一例を示す説明図である。
【
図8】本発明の実施例に係る実行結果画面の一例を示す説明図である。
【発明を実施するための形態】
【0013】
以下、添付図面を用いて本発明にかかる情報処理装置について説明する。本明細書では、生命保険の引受査定における保険金支払リスク予測のための、特異データ除去を目的とした情報処理の例を示す。引受査定では、保険加入申込者が告知した情報(以下、告知情報)に基づき、将来の保険金支払リスクが査定され、保険加入の承認または謝絶が決定される。告知情報は、健康診断の検査結果、問診、既往歴等を含む。
【0014】
<情報処理装置のハードウェア構成例>
図1は、本発明の実施例に係る情報処理装置のハードウェア構成の一例を示すブロック図である。
【0015】
情報処理装置100は、プロセッサ101と、記憶デバイス102と、入力デバイス103と、出力デバイス104と、通信インターフェース(通信IF)105と、を有する。プロセッサ101、記憶デバイス102、入力デバイス103、出力デバイス104、および通信IF105は、バス106により接続される。プロセッサ101は、情報処理装置100を制御する。記憶デバイス102は、プロセッサ101の作業エリアとなる。また、記憶デバイス102は、各種プログラムおよびデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス102としては、たとえば、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリがある。入力デバイス103は、データを入力する。入力デバイス103としては、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナがある。出力デバイス104は、データを出力する。出力デバイス104としては、たとえば、ディスプレイ、プリンタがある。通信IF105は、ネットワーク(図示省略)と接続し、データを送受信する。
【0016】
<情報処理装置100の機能的構成例>
図2は、本発明の実施例に係る情報処理装置100の機能的構成の一例を示すブロック図である。
【0017】
情報処理装置100は、入力部201と、データクレンジング部202と、データ分類部203と、経時変化率算出部204と、特異サンプル除外部205と、出力部206と、を有する。データクレンジング部202、データ分類部203、経時変化率算出部204、および特異サンプル除外部205は、具体的には、たとえば、
図1に示した記憶デバイス102に記憶されたプログラムをプロセッサ101に実行させることによって実現される。
【0018】
また、情報処理装置100は、告知情報300と、非連続値データ400と、連続値データ500と、変化率データ600と、を記憶デバイス102に記憶する。告知情報300は、あらかじめ情報処理装置100に記憶されていてもよく、情報処理装置100と通信可能な他のコンピュータから取得してもよい。まず、入力部201に入力される告知情報300について詳細に説明する。
【0019】
図3は、本発明の実施例に係る告知情報300の記憶内容の一例を示す説明図である。
【0020】
告知情報300は、契約希望者が告知した保険契約に必要な情報であり、分析対象データとなる。告知情報300は、告知基本情報310と、健診結果320と、問診結果330と、既往歴340と、を有する。告知基本情報310は、契約希望者の告知に関する基本情報である。告知基本情報310は、氏名ID311と、生年月日312と、年齢313と、を含む。
【0021】
氏名ID311は、契約希望者を一意に特定する識別情報である。生年月日312は、契約希望者が生まれた年月日である。
図3の氏名ID311が「0001」の契約希望者の3つのエントリは、当該契約希望者の過去3年分の分析対象データを示す。年齢313は、契約希望者の生年月日312から起算した年単位の経過年数である。後述する例において、氏名ID311が「0001」の契約希望者の3つのエントリについて、年齢313が「47」を時系列の1年目、「48」を時系列の2年目、「49」を時系列の3年目とする。
【0022】
健診結果320は、契約希望者が受けた健康診断の結果である。健診結果320は、体重321と、BMI(Body Mass Index)322と、収縮期血圧323と、拡張期血圧324と、空腹時血糖325と、を含む。体重321は、契約希望者の体の重さである。BMI322は、人間の肥満度を表す体格指数であり、体重/(身長2)で算出される。BMI322は、その値が小さくなるほど痩せており、大きくなるほど太っていることを示す。
【0023】
収縮期血圧323は、心臓から大動脈へ血液を送り出す状態において、心臓の収縮で押し出された血液によって大動脈の血管壁にかかる圧力である。拡張期血圧324は、心臓へ血液が戻る状態において、心臓の拡張で大動脈から心臓に血液が流入し大動脈の血液量が減少することで低下した大動脈の血管壁にかかる圧力である。空腹時血糖325は、空腹の状態で測定された血糖値である。
【0024】
問診結果330は、契約希望者が受けた問診の結果である。問診結果330は、喫煙習慣331と、飲酒習慣332と、運動習慣333と、を含む。喫煙習慣331は、契約希望者の喫煙の有無、頻度および喫煙量である。飲酒習慣332は、契約希望者の飲酒の有無、頻度および飲酒量である。運動習慣333は、契約希望者の運動の有無、頻度および運動量である。
【0025】
既往歴340は、契約希望者が既に受信または入院した履歴である。既往歴340は、高血圧症受診歴341と、高血圧症入院歴342と、糖尿病受診歴343と、を含む。高血圧症受診歴341は、契約希望者が高血圧症に関して受診した履歴である。高血圧症入院歴342は、契約希望者が高血圧症に関して入院した履歴である。糖尿病受診歴343は、契約希望者が糖尿病に関して受診した履歴である。
【0026】
再び
図2を参照する。データクレンジング部202は、入力部201から出力された告知情報300からノイズとなるサンプルを抽出し、ノイズの除去を行う。これによって、特異データ除去の高精度化、および、その後の保険金支払いリスク予測の予測精度向上を図ることができる。ノイズサンプルの種類には、欠損データおよびデータ誤入力などがあり、それぞれサンプルの削除および修正を行うことでクレンジングを実現する。
【0027】
データ分類部203は、データクレンジング部202から出力されたクレンジング済みの告知情報300に対し、データ型に基づいて連続値データ500と非連続値データ400とに分割する。連続値データ500には、体重321およびBMI322などが分類される。また、非連続値データ400には、喫煙習慣331といった二値データ、および、飲酒習慣332といったカテゴリデータが分類される。これによって、データ型を踏まえた処理が可能となり、特異データ除去の高精度化を実現する。
【0028】
図4および
図5は、それぞれ、本発明の実施例に係る非連続値データ400および連続値データ500の一例を示す説明図である。
【0029】
非連続値データ400は、告知情報300の部分集合であり、連続値型のデータ以外のデータを含む。例えば
図3に示す告知情報300からは、「なし」「週1回」または「週2回」などのいずれに該当するかを示すカテゴリデータである喫煙習慣331、飲酒習慣332および運動習慣など、ならびに、「あり」または「なし」の二値データである高血圧症受診歴341、高血圧症入院歴および糖尿病受診歴343を含む非連続値データ400が、氏名ID311と対応付けられて、非連続値データ400が生成される。
【0030】
連続値データ500は、告知情報300の部分集合であり、氏名ID311と対応づけられた、体重321、BMI322、収縮期血圧323、拡張期血圧324および空腹時血糖325などの連続値型のデータを含む。
【0031】
連続値データ500は、本実施例の情報処理装置100による評価の対象となる時系列データの集合である。例えば、各人物について複数の時点で観測された各項目(例えば体重、BMI等)のデータが一つの時系列データである。ただし、本実施例における時系列データの観測時点数は、限定はされないものの、例えば2以上、高々10程度など、一般的な時系列データで想定されるものと比較して少ないことが想定される。このような時系列データを経時データと記載してもよい。
【0032】
再び
図2を参照する。経時変化率算出部204は、連続値データ500の各項目に対し、時間経過に応じた変化率を算出する。ここで、連続値データ500に含まれる時点数をnとし、各時刻をt(1、2、・・・、T)とする。また、連続値データ500にM種類の連続値データがふくまれていたとすると、例えば、氏名ID311が0001のサンプルの時刻tにおける任意の連続値変数はV(0001,t,m)と表すことができる。ここで、mは、1からMまでのいずれかの値であり、例えば体重、BMIといった連続値データの項目を識別する。
【0033】
経時変化率算出部204では、時刻t=2以降の、前時刻からの変化率Uを、V(0001,2,m)からV(0001,T,m)まで算出する。時刻tにおける変化率Uは次のような数式で表すことが出来る。
【0034】
U(0001,t,m)=100×(V(0001,t,m) - V(0001,t-1,m))/V(0001,t-1,m)
【0035】
算出された変化率は、変化率データ600に格納される。本実施例では、連続値データ500の時間変化を変化率で表したが、前時刻からの変化量、または、2時刻前からの変化率など、任意の方法で時間変化を表現することで時間変化を定量化することができる。
【0036】
図6は、本発明の実施例に係る変化率データ600の一例を示す説明図である。
【0037】
変化率データ600は、各契約希望者を識別する氏名ID601と、各契約希望者の各時刻の連続値データの変化率と、を含む。
図6には、例として、氏名ID601が0001のサンプルおよび0002の、項目mの連続値データのサンプルの、時刻2における変化率602、時刻T-1における変化率603および時刻Tにおける変化率604を示す。
【0038】
特異サンプル除外部205は、経時変化率算出部204で算出した変化率Uを変化率データ600から呼び出し、各サンプルが他のサンプルと比較して特異な変化を呈するサンプルか否かを判別し、あるサンプルの時間変化が特異である場合そのサンプルを告知情報300から除外する。
【0039】
特異サンプル除外部205は、全サンプルの変化率Uが正規分布に従うと仮定した場合、変化率Uの分布と正規分布を比較して正規分布から逸脱したサンプルを抽出し、出力部206を通して表示する。変化率Uの分布と正規分布の比較には、例えば、QQ(Quantile-Quantile)プロットを用いる。QQプロットとは、変化率Uの分位数に対応する正規分布の理論的な分位点をプロットすることにより、変化率Uが正規分布に従うかどうかを視覚的に確認する手法として知られている。
【0040】
QQプロットにおいて、プロットされた分位点を滑らかにつなげた線が直線となった場合、変化率Uは完全な正規分布に従うと判定することが出来る。反対に、プロットされた分位点を直線で近似したとき、直線から逸脱した点は正規分布からの外れ値と判断することができる。特異サンプル除外部205は、QQプロットの信頼区間を複数の信頼係数に基づいて算出し、任意の信頼区間から逸脱するサンプルを特異サンプルとして除外する。これによって、その後の保険金支払いリスク予測の予測精度向上を図ることができる。
【0041】
特異サンプル除外部205における自動的な特異サンプル抽出方法の一例として、除外サンプル抽出率または抽出数があらかじめ指定した値に達するまで繰り返し処理を行う方法がある。具体的には、特異サンプル除外部205は、0.999など信頼係数の十分大きな信頼区間を算出し、信頼区間から逸脱するサンプルを抽出する。このようにして抽出したサンプルの抽出率または抽出数が予め指定した値に達した場合は処理を終了し、そうでない場合信頼係数を小さくし、再度信頼区間から逸脱するサンプルを抽出する。この処理を繰り返し、抽出率または抽出数が予め指定した値に達した時点で処理を終了する。
【0042】
あるいは、特異サンプル除外部205は、正規分布からの逸脱量が最大となるサンプルを除外して、残りのサンプルの変化率Uの分布とそれが従う正規分布とを比較して、そこで正規分布からの逸脱量が最大となるサンプルを除外する、という処理を繰り返してもよい。この繰り返しは、除外サンプル抽出率または抽出数があらかじめ指定した値に達するまで行われてもよいし、正規分布からの逸脱量が所定の範囲内に収まるまで(例えば所定の信頼係数の信頼区間から逸脱するサンプルがなくなるまで)行われてもよい。
【0043】
特異サンプル除外部205は、QQプロットを出力部206に表示し、情報処理装置100のユーザの目視によって特異サンプルを抽出し、除外することもできる。また、本実施例は変化率Uが正規分布に従うと仮定したが、これは一例であり、正規分布に限らず、任意の確率分布を仮定してQQプロットを描画する方法を採用してもよい。任意の確率分布を予め指定することが困難な場合は、多数の確率分布候補を用意し、繰り返し処理によって除外サンプル抽出率または抽出数が最も小さくなる(すなわち変化率Uの逸脱の程度が最も小さい)確率分布を探索する方法を採用してもよい。
【0044】
さらに、QQプロットではなく、ヒストグラムをゆーあの目視で確認して特異サンプルを抽出し除外する方法も考えられる。特異サンプル除外部205で処理する変化率Uの集合は、M種類の項目に対し同一時刻ごとの時間変化で分割して処理することも、時刻を無視し同一時間幅の時間変化でまとめて処理することも可能である。
【0045】
<画面例>
図7は、本発明の実施例に係る入出力画面の一例を示す説明図である。
【0046】
入出力画面700は、情報処理装置100の出力デバイス104の一例であるディスプレイ、または、情報処理装置100と通信可能な他のコンピュータ(図示省略)のディスプレイに表示される。
【0047】
入出力画面700は、告知情報読込みボタン701と、処理項目選択プルダウン705と、信頼係数選択バー708と処理実行ボタン710と、実行結果表示領域800とを含む。告知情報300は、ユーザが告知情報読込みボタン701を操作したときに読み込まれてもよい。あるいは、ユーザが告知情報入力ボタン702を操作したときに、情報処理装置100が告知情報入力画面(図示省略)を表示し、ユーザが入力デバイス103によって告知情報を入力することもできる。
【0048】
図8は、本発明の実施例に係る実行結果画面の一例を示す説明図である。
【0049】
実行結果表示領域800は、特異サンプル除外部205で描画したQQプロットを表示するプロット画面801と、抽出された特異サンプルの氏名IDを表示する特異サンプルID画面802と、を含む。
【0050】
プロット画面801は、縦軸に変化率Uの分位を、横軸に正規分布の理論的な分位を表し、変化率Uをプロットした点を黒丸で表す。変化率Uが正確に正規分布に従う場合、黒丸は全て太実線上にプロットされる。細実線は複数の信頼係数に基づいて算出された信頼区間を表す。特異サンプルID画面802は、信頼係数選択バー708によって指定された信頼係数に基づいて算出された信頼区間から逸脱するサンプルを列挙する画面である。
【0051】
また、上述した実施例では、生命保険の引受査定における保険金支払リスク予測を例にあげて説明したが、例えば企業の財務分析にも適用可能である。この場合、告知情報300に替えて有価証券報告書に記載されたデータまたは当該データから算出される指標データが評価の対象となる。一般に、本発明は、多数の時系列データの集合であって、個々の時系列データの観測時点数が少ない場合に、それらの時系列データから特異なサンプル(外れ値)を抽出するために適用することができる。
【0052】
また、上述した実施例の情報処理装置100の機能は、API(Application Programming Interface)を介して提供されてもよい。例えば、情報処理装置100は、通信IF105に接続されたネットワークを経由して告知情報300を受信すると、それを記憶デバイス102に記憶し、
図2に示す処理を実行して、特異サンプルが除外された告知情報と、
図7および
図8に示す情報を表示するために必要なデータとを、ネットワークを経由して出力してもよい。
【0053】
また、本発明の実施形態のシステムは次のように構成されてもよい。
【0054】
(1)情報処理装置(例えば情報処理装置100)であって、プログラムを実行するプロセッサ(例えばプロセッサ101)と、プログラムを保持する記憶デバイス(例えば記憶デバイス102)と、を有し、記憶デバイスは、各々が2以上の時点のデータを含む複数の時系列データ(例えば連続値データ500)を保持し、プロセッサは、複数の時系列データの各々について、時間に対する変化率を計算し(例えば経時変化率算出部204の処理)、複数の時系列データの変化率を相対的に評価する(例えば特異サンプル除外部205の処理)。
【0055】
これによって、機械学習などに用いる経時学習データから、各サンプルの時間軸に沿った変化率に基づいてサンプル同士を相対的に評価することができる。
【0056】
(2)上記(1)において、プロセッサは、変化率の分布を所定の確率分布と比較し、所定の確率分布からの変化率の逸脱の程度が特異データ判定のための条件を満たす時系列データを特異データと判定することによって、複数の時系列データの変化率を相対的に評価する(例えば特異サンプル除外部205の処理)。
【0057】
これによって、機械学習などに用いる経時学習データから、各サンプルの時間軸に沿った変化率に基づいてサンプル同士を相対的に評価し、特異なサンプルを抽出することができる。
【0058】
(3)上記(2)において、プロセッサは、所定の確率分布からの変化率の逸脱の程度が最も大きい時系列データを特異データと判定する。
【0059】
これによって、機械学習などに用いる経時学習データから、特異なサンプルを適切に除外することができる。
【0060】
(4)上記(3)において、プロセッサは、特異データと判定された時系列データを除いた複数の時系列データの変化率の分布と所定の確率分布とを比較し、所定の確率分布からの変化率の逸脱の程度が最も大きい時系列データを特異データと判定する処理を、特異データと判定された時系列データの数又は割合が所定の条件を満たすか、又は、所定の確率分布からの変化率の逸脱の程度が所定の範囲内となるまで繰り返し実行する。
【0061】
これによって、機械学習などに用いる経時学習データから、特異なサンプルを適切に除外することができる。
【0062】
(5)上記(2)において、プロセッサは、特異データと判定された時系列データの数又は割合が所定の条件を満たすように、特異データ判定のための条件を変更しながら、特異データと判定された時系列データを除いた複数の時系列データの変化率の分布と所定の確率分布とを比較し、所定の確率分布からの変化率の逸脱の程度が特異データ判定のための条件を満たす時系列データを特異データと判定する処理を繰り返し実行する。
【0063】
これによって、機械学習などに用いる経時学習データから、特異なサンプルを適切に除外することができる。
【0064】
(6)上記(2)において、プロセッサは、変化率の分布がそれぞれ異なる確率分布モデルに基づくと仮定することによって複数の確率分布を生成し、変化率の分布を、複数の確率分布と比較し、変化率の逸脱の程度が最も小さい確率分布を、特異データ判定のための比較の対象である所定の確率分布として決定する。
【0065】
これによって、機械学習などに用いる経時学習データから、特異なサンプルを適切に除外することができる。
【0066】
(7)上記(2)において、所定の確率分布は、変化率の分布が従うと仮定する所定の確率分布モデルに基づく分布(例えば正規分布及びその他の分布)であり、
【0067】
プロセッサは、変化率が所定の確率分布の所定の信頼係数に対応する信頼区間から外れる時系列データを特異データと判定する。
【0068】
これによって、機械学習などに用いる経時学習データから、特異なサンプルを適切に除外することができる。
【0069】
(8)上記(7)において、プロセッサは、特異データと判定された時系列データの数又は割合が所定の条件を満たすように、信頼係数を変更しながら、特異データと判定された時系列データを除いた複数の時系列データの変化率の分布と所定の確率分布とを比較し、変化率が信頼区間から外れる時系列データを特異データと判定する処理を繰り返し実行する。
【0070】
これによって、機械学習などに用いる経時学習データから、特異なサンプルを適切に除外することができる。
【0071】
(9)上記(2)において、情報処理装置は出力デバイスをさらに有し、出力デバイスは、変化率の分布と所定の確率分布とに基づくQuantile-Quantileプロットを表示する。
【0072】
これによって、特異データの存在を視覚的に確認しやすくなる。
【0073】
なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。
【0074】
また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサ101がそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。
【0075】
各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、IC(Integrated Circuit)カード、SDカード、DVD(Digital Versatile Disc)の計算機読み取り可能な非一時的データ記録媒体に格納することができる。
【0076】
また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。
【符号の説明】
【0077】
100 情報処理装置
101 プロセッサ
102 記憶デバイス
202 データクレンジング部
203 データ分類部
204 経時変化率算出部
205 特異サンプル除外部
300 告知情報
400 非連続値データ
500 連続値データ
600 変化率データ