(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-18
(45)【発行日】2024-07-26
(54)【発明の名称】機械学習訓練装置及びその動作方法
(51)【国際特許分類】
G06N 20/00 20190101AFI20240719BHJP
【FI】
G06N20/00 130
(21)【出願番号】P 2023503024
(86)(22)【出願日】2021-12-08
(86)【国際出願番号】 KR2021018552
(87)【国際公開番号】W WO2022139263
(87)【国際公開日】2022-06-30
【審査請求日】2023-01-16
(31)【優先権主張番号】10-2020-0182652
(32)【優先日】2020-12-23
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】521065355
【氏名又は名称】エルジー エナジー ソリューション リミテッド
(74)【代理人】
【識別番号】100188558
【氏名又は名称】飯田 雅人
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(72)【発明者】
【氏名】ボ・ミ・イム
【審査官】山本 俊介
(56)【参考文献】
【文献】国際公開第2020/124037(WO,A1)
【文献】韓国登録特許第10-2033136(KR,B1)
【文献】中国特許出願公開第109242133(CN,A)
【文献】米国特許出願公開第2020/0302234(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
(57)【特許請求の範囲】
【請求項1】
機械学習モデルを訓練するための装置であって、
新規データを収集するデータ管理部と、
前記機械学習モデルの生成に使用されたデータ及び前記新規データの特性を抽出するデータ分析部と、
前記新規データの個数が基準個数未満であるか否か
の判
断に応じて異なる方法を用いて
、前記機械学習モデルの生成に使用されたデータ及び前記新規データの前記特性に基づいて、前記機械学習モデルの生成に使用されたデータと前記新規データとの関連性を判断し、
前記関連性の判断に基づいて、前記新規データを前記機械学習モデルに適用するか否かを判断する判断部と
を含む、装置。
【請求項2】
前記判断部は、前記新規データの個数が基準個数未満の場合、
前記新規データの特性と前記機械学習モデルの生成に使用されたデータの特性に対して境界チェック(bounds checking)及び傾向検定(trend test)を行い、
前記関連性を判断することを特徴とする、請求項1に記載の装置。
【請求項3】
前記傾向検定は、時間に応じた前記新規データの特性の変化を示すグラフから取得した数式の係数が、時間に応じた前記機械学習モデルの生成に使用されたデータの特性の変化を示すグラフから取得した数式の係数の範囲に属するか否かを判断することを特徴とする、請求項2に記載の装置。
【請求項4】
前記判断部が、前記傾向検定を行った結果、前記新規データの特性が前記機械学習モデルの生成に使用されたデータの特性の傾向範囲に属すると判断し、前記境界チェックを行った結果、前記新規データの特性が前記機械学習モデルの生成に使用されたデータの特性の境界範囲に属すると判断した場合、前記新規データを前記機械学習モデルの学習に適用する
と判断する、請求項2または3に記載の装置。
【請求項5】
前記判断部は、前記新規データの個数が基準個数以上の場合、
前記機械学習モデルの生成に使用されたデータと前記新規データに対してF-test及びT-testを行うことを特徴とする、請求項1から4のうちのいずれか一項に記載の装置。
【請求項6】
前記判断部は、前記F-testを行って取得した結果値又は前記T-testを行って取得した結果値が閾値以上の場合、前記新規データを前記機械学習モデル
に適用しないと判断する、請求項5に記載の装置。
【請求項7】
前記判断部は、前記F-test及びT-testを行って取得した結果値が閾値未満の場合、前記新規データの特性と前記機械学習モデルの生成に使用されたデータの特性に対して境界チェック及び傾向検定を行い、
前記関連性を判断することを特徴とする、請求項5または6に記載の装置。
【請求項8】
前記判断部が、前記傾向検定を行った結果、前記新規データの特性が前記機械学習モデルの生成に使用されたデータの特性の傾向範囲に属すると判断し、前記境界チェックを行った結果、前記新規データの特性が前記機械学習モデルの生成に使用されたデータの特性の境界範囲に属すると判断した場合、前記新規データを前記機械学習モデルの学習に適用する
と判断する、請求項7に記載の装置。
【請求項9】
前記判断部の判断結果に基づいて前記新規データを前記機械学習モデルに適用して前記機械学習モデルを学習させる機械学習モデル訓練部をさらに含む、請求項1から8のうちのいずれか一項に記載の装置。
【請求項10】
機械学習モデルを訓練するための装置により実行される方法であって、
新規データを収集するステップと、
前記機械学習モデルの生成に使用されたデータ及び前記新規データの特性を抽出するステップと、
前記新規データの個数が基準個数未満であるか否か
の判
断に応じて異なる方法を用いて
、前記機械学習モデルの生成に使用されたデータ及び前記新規データの前記特性に基づいて、前記機械学習モデルの生成に使用されたデータと前記新規データとの関連性を判断するステップと、
前記関連性の判断に基づいて、前記新規データを前記機械学習モデルに適用するか否かを判断するステップ
と
を含む、方法。
【請求項11】
前記関連性を判断するステップは、前記新規データの個数が基準個数未満の場合、
前記新規データの特性と前記機械学習モデルの生成に使用されたデータの特性に対して境界チェック及び傾向検定を行い、
前記関連性を判断するステップを含む、請求項10に記載の方法。
【請求項12】
前記関連性を判断するステップは、前記新規データの個数が基準個数以上の場合、前記機械学習モデルの生成に使用されたデータと前記新規データに対してF-test及びT-testを行うステップを含む、請求項10または11に記載の方法。
【請求項13】
前記新規データを前記機械学習モデルに適用するか否かを判断するステップは、前記F-testを行って取得した結果値又は前記T-testを行って取得した結果値が閾値以上の場合、前記新規データを前記機械学習モデル
に適用しないと判断するステップを含む、請求項12に記載の方法。
【請求項14】
前記関連性を判断するステップは、前記F-test及びT-testを行って取得した結果値が閾値未満の場合、前記新規データの特性と前記機械学習モデルの生成に使用されたデータの特性に対して境界チェック及び傾向検定を行い、
前記関連性を判断するステップを含む、請求項12または13に記載の方法。
【請求項15】
コンピュータを、請求項1から9のうちのいずれか一項の装置として機能させるためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本文書に開示された実施形態は、2020年12月23日付けで出願された韓国特許出願第10-2020-0182652号に基づく優先権の利益を主張し、当該韓国特許出願の文献に開示された全ての内容が本明細書の一部として組み込まれる。
【0002】
本文書に開示された実施形態は、機械学習訓練装置及びその動作方法に関する。
【背景技術】
【0003】
機械学習(Machine Learning)は、コンピュータを訓練することで結果を予測する技術である。一般に、機械学習を利用した結果の予測は、機械を訓練するための訓練データ(Train data)を用意して問題に適合した方式で訓練をおこなう(Train)過程、テストデータ(Test data)でモデルを検証(Validate)する過程、検証をパスしたモデルで結果を予測(Predict)する過程を含む。
【0004】
機械学習モデルは、所定の基準で選定された訓練データを用いて生成される。選定されたデータに基づいて生成された機械学習モデルに新規データを入力して結果を予測する際に、機械学習により一般化される特性(Feature)と新規データの特性との関連性が低い場合、その差異によりモデル自体の正確度(Accuracy)とは別にモデルの誤差が増加してモデルの信頼度が低下するという問題がある。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本文書に開示された実施形態の一目的は、機械学習モデルの誤差を減少させて信頼度を高めることのできる機械学習訓練装置及びその動作方法を提供することにある。
【0006】
本文書に開示された実施形態の技術的課題は、上記で言及されている技術的課題に限定されるものではなく、言及されていない他の技術的課題は、以下の記載から当業者に明確に理解されるであろう。
【課題を解決するための手段】
【0007】
本文書に開示された一実施形態による機械学習訓練装置は、新規データを収集するデータ管理部、機械学習モデルの生成に使用されたデータ及び前記新規データの特性を抽出するデータ分析部、並びに前記新規データの個数が基準個数未満であるか否かを判断し、前記新規データの個数に応じて異なる方法を用いて前記新規データを前記機械学習モデルに適用するか否かを判断する判断部を含んでもよい。
【0008】
一実施形態によれば、前記判断部は、前記新規データの個数が基準個数未満の場合、前記新規データの特性と前記機械学習モデルの生成に使用されたデータの特性に対して境界チェック(bounds checking)及び傾向検定(trend test)を行い、前記新規データを前記機械学習モデルに適用するか否かを判断してもよい。
【0009】
一実施形態によれば、前記傾向検定は、時間に応じた前記新規データの特性の変化を示すグラフから取得した数式の係数が、時間に応じた前記機械学習モデル機械学習モデルの生成に使用されたデータの特性の変化を示すグラフから取得した数式の係数の範囲に属するか否かを判断してもよい。
【0010】
一実施形態によれば、前記判断部が、前記傾向検定を行った結果、前記新規データの特性が前記機械学習モデルの生成に使用されたデータの特性の傾向範囲に属すると判断し、前記境界チェックを行った結果、前記新規データの特性が前記機械学習モデルの生成に使用されたデータの特性の境界範囲に属すると判断した場合、前記新規データを前記機械学習モデルの訓練に適用してもよい。
【0011】
一実施形態によれば、前記判断部は、前記新規データの個数が基準個数以上の場合、前記機械学習モデルの生成に使用されたデータと前記新規データに対してF-test及びT-testを行ってもよい。
【0012】
一実施形態によれば、前記判断部は、前記F-testを行って取得した結果値又は前記T-testを行って取得した結果値が閾値以上の場合、前記新規データを前記機械学習モデルの訓練から除外してもよい。
【0013】
一実施形態によれば、前記判断部は、前記F-test及びT-testを行って取得した結果値が閾値未満の場合、前記新規データの特性と前記機械学習モデルの生成に使用されたデータの特性に対して境界チェック及び傾向検定を行い、前記新規データを前記機械学習モデルに適用するか否かを判断してもよい。
【0014】
一実施形態によれば、前記判断部が、前記傾向検定を行った結果、前記新規データの特性が前記機械学習モデルの生成に使用されたデータの特性の傾向範囲に属すると判断し、前記境界チェックを行った結果、前記新規データの特性が前記機械学習モデルの生成に使用されたデータの特性の境界範囲に属すると判断した場合、前記新規データを前記機械学習モデルの訓練に適用してもよい。
【0015】
一実施形態によれば、前記判断部の判断結果に基づいて前記新規データを前記機械学習モデルに適用して前記機械学習モデルを訓練する機械学習モデル訓練部をさらに含んでもよい。
【0016】
本文書に開示された一実施形態による機械学習訓練装置の動作方法は、新規データを収集するステップ、機械学習モデルの生成に使用されたデータ及び前記新規データの特性を抽出するステップ、前記新規データの個数が基準個数未満であるか否かを判断するステップ、並びに前記新規データの個数に応じて異なる方法を用いて前記新規データを前記機械学習モデルに適用するか否かを判断するステップを含んでもよい。
【0017】
一実施形態によれば、前記新規データの個数に応じて異なる方法を用いて前記新規データを前記機械学習モデルに適用するか否かを判断するステップは、前記新規データの個数が基準個数未満の場合、前記新規データの特性と前記機械学習モデルの生成に使用されたデータの特性に対して境界チェック及び傾向検定を行い、前記新規データを前記機械学習モデルに適用するか否かを判断してもよい。
【0018】
一実施形態によれば、前記新規データの個数に応じて異なる方法を用いて前記新規データを前記機械学習モデルに適用するか否かを判断するステップは、前記新規データの個数が基準個数以上の場合、前記機械学習モデルの生成に使用されたデータと前記新規データに対してF-test及びT-testを行うステップを含んでもよい。
【0019】
一実施形態によれば、前記新規データの個数に応じて異なる方法を用いて前記新規データを前記機械学習モデルに適用するか否かを判断するステップは、前記F-testを行って取得した結果値又は前記T-testを行って取得した結果値が閾値以上の場合、前記新規データを前記機械学習モデルの訓練から除外してもよい。
【0020】
一実施形態によれば、前記新規データの個数に応じて異なる方法を用いて前記新規データを前記機械学習モデルに適用するか否かを判断するステップは、前記F-test及びT-testを行って取得した結果値が閾値未満の場合、前記新規データの特性と前記機械学習モデルの生成に使用されたデータの特性に対して境界チェック及び傾向検定を行い、前記新規データを前記機械学習モデルに適用するか否かを判断してもよい。
【発明の効果】
【0021】
本文書に開示された一実施形態による機械学習訓練装置及びその動作方法によれば、機械学習モデルの誤差を減少させて信頼度を高めることができる。
【図面の簡単な説明】
【0022】
【
図1】本文書に開示された一実施形態による機械学習訓練装置を示すブロック図である。
【
図2】本文書に開示された一実施形態による機械学習訓練装置の動作方法を示すフロー図である。
【
図3】本文書に開示された他の実施形態による機械学習訓練装置の動作方法を示すフロー図である。
【
図4】本文書に記載された一実施形態による時間の経過に従って現れる機械学習モデルの生成に使用されたデータ又は新規データの特性の変化を示すグラフである。
【
図5】本文書に開示された一実施形態による機械学習モデルの生成に使用されたデータの特性の変化を示すグラフから取得した1次項及び定数項の傾向係数値を示すグラフである。
【
図6】本文書に開示された一実施形態による機械学習モデルの生成に使用されたデータの特性の変化を示すグラフから取得した傾向係数値を示す3次元グラフである。
【発明を実施するための形態】
【0023】
以下、本文書に開示された一部の実施形態を例示的な図面を用いて詳細に説明する。各図面の構成要素に参照符号を付すにあたって、同じ構成要素に対しては、たとえ異なる図面に表示されるとしても可能な限り同じ符号を付すことに留意すべきである。また、本文書に開示された実施形態を説明するにあたって、関連する公知の構成又は機能についての具体的な説明が本文書に開示された実施形態の理解を妨げると判断される場合は、その詳細な説明は省略する。
【0024】
本文書に開示された実施形態の構成要素を説明するにあたって、第1、第2、A、B、(a)、(b)などの用語を用いることがある。これらの用語は、その構成要素を他の構成要素と区別するためのものにすぎず、これらの用語により当該構成要素の本質や順番や手順などが限定されるものではない。また、別途定義されない限り、技術的用語や科学的用語を含めてここで用いられる全ての用語は、本文書に開示された実施形態の属する技術の分野における通常の知識を有する者に一般的に理解される意味と同じ意味を有する。一般的に用いられる辞書に定義されているような用語は、関連技術の文脈上の意味と一致する意味を有するものと解釈されるべきであり、本文書で明らかに定義しない限り、理想的な意味や過度に形式的な意味で解釈されない。
【0025】
図1は本文書に開示された一実施形態による機械学習訓練装置を示すブロック図である。
【0026】
図1を参照すると、本文書に開示された一実施形態による機械学習訓練装置100は、データ管理部110、データ分析部120及び判断部130を含んでもよい。
【0027】
データ管理部110は、機械学習モデルに使用されるデータを管理することができる。データ管理部110は、機械学習モデルの生成に使用されたデータ(以下、「使用データ」と称する)を保存することができる。また、データ管理部110は、機械学習モデルに投入される新規データを収集することができる。例えば、使用データは、複数のバッテリセルのうち特定のバッテリセルの放電状態から緩衝状態に至るまでの電気量又は緩衝状態から放電状態に至るまでの電気量の変化を記録した値と定義することができる。また、新規データは、複数のバッテリセルのうち前記特定のバッテリセルとは異なるバッテリセルの放電状態から緩衝状態に至るまでの電気量又は緩衝状態から放電状態に至るまでの電気量の変化を記録した値と定義することができる。
【0028】
なお、例えば、使用データは、複数のバッテリセルのうち特定のバッテリセルの電圧及び/又は電流の変化を記録した値と定義することもでき、新規データは、複数のバッテリセルのうち前記特定のバッテリセルとは異なるバッテリセルの電圧及び/又は電流の変化を記録した値と定義することもできる。ここで、放電状態は、バッテリの電圧が基準値(例えば、カットオフ電圧(cut-off voltage))以下の場合を含んでもよい。
【0029】
データ分析部120は、使用データ及び新規データの特性(Feature)を抽出する。ここで、特性とは、時間の経過に従って所定の時間間隔で配置された時系列データ(Time series)において見つかる個別的で測定可能な経験的属性を意味する。例えば、特性には、バッテリの容量が含まれてもよい。ここで、バッテリの容量とは、バッテリが蓄積できる電気の量を意味し、バッテリの容量データは、使用データ及び新規データから算出することができる。
【0030】
判断部130は、新規データの個数が基準個数未満であるか否かを判断する。ここで、基準個数は、新規データを1つの集団として取り扱うか、個別のデータとして取り扱うかを判断する基準と定義することができる。例えば、判断部130は、新規データの個数が10個未満の場合は個別のデータとして取り扱い、10個以上の場合は1つの集団として取り扱ってもよい。
【0031】
判断部130は、新規データの個数に応じて異なる方法を用いて新規データを機械学習モデルに適用するか否かを判断する。例えば、判断部130は、新規データの個数が基準個数以上の場合、集団間の比較により新規データが機械学習モデルの投入に適合したデータであるか否かを判断する。このように、新規データ集団と使用データ集団間の比較により機械学習モデルの投入に不適合な新規データをフィルタリングすることにより、新規データに対して個別に機械学習モデルに投入されるデータとして適合したデータであるか否かを確認する追加テストの回数を減らすことができる。
【0032】
すなわち、判断部130は、新規データと使用データに対して集団間の比較テストを行い、所定の条件を満たすデータに対しては、個別に機械学習モデルに投入されるデータとして適合したデータであるか否かの追加テストを行う。また、判断部130は、新規データの個数が基準個数未満の場合も、新規データのそれぞれに対して、個別に機械学習モデルに投入されるデータとして適合したデータであるか否かを確認するテストを行う。
【0033】
判断部130は、このようなテストにより、新規データが機械学習モデルを用いて判断しようとする集団の代表的なデータとして適合したデータであるか否かを判断する。
【0034】
判断部130は、不適合なデータは機械学習モデルを用いた予測過程から除外することができる。よって、判断部130は、機械学習モデルの誤差を減少させ、機械学習モデルの信頼度を高めることができる。
【0035】
判断部130は、判断結果に基づいて、新規データの個数が基準個数未満の場合、新規データの特性と使用データの特性に対して境界チェック(bounds checking)及び傾向検定(trend test)を行うことができる。
【0036】
判断部130は、判断結果に基づいて、新規データの個数が基準個数以上の場合、使用データの特性と新規データの特性に対してF-test及びT-testを行うことができる。
【0037】
図2は本文書に開示された一実施形態による機械学習訓練装置の動作方法を示すフロー図である。
【0038】
図2を参照すると、本文書に開示された一実施形態による機械学習訓練装置の動作方法は、新規データを収集するステップ(S210)、使用データ及び新規データの特性を抽出するステップ(S220)、新規データの個数が基準個数未満であるか否かを判断するステップ(S230)、並びに新規データの個数に応じて異なる方法を用いて新規データを機械学習モデルに適用するか否かを判断するステップ(S240)を含んでもよい。
【0039】
以下、前記ステップS210~ステップS240について
図1を参照して説明する。
【0040】
ステップS210において、データ管理部110は、機械学習モデルに投入される新規データを収集することができる。例えば、使用データは、複数のバッテリセルのうち特定のバッテリセルの放電状態から緩衝状態に至るまでの電気量又は緩衝状態から放電状態に至るまでの電気量の変化を記録した値と定義することができる。また、新規データは、複数のバッテリセルのうち前記特定のバッテリセルとは異なるバッテリセルの放電状態から緩衝状態に至るまでの電気量又は緩衝状態から放電状態に至るまでの電気量の変化を記録した値と定義することができる。
【0041】
なお、例えば、使用データは、複数のバッテリセルのうち特定のバッテリセルの電圧及び/又は電流の変化を記録した値と定義することもでき、新規データは、複数のバッテリセルのうち前記特定のバッテリセルとは異なるバッテリセルの電圧及び/又は電流の変化を記録した値と定義することもできる。ここで、放電状態は、バッテリの電圧が基準値(例えば、カットオフ電圧(cut-off voltage))以下の場合を含んでもよい。
【0042】
ステップS220において、データ分析部120は、使用データ及び新規データの特性を抽出することができる。
【0043】
例えば、特性には、バッテリの容量が含まれてもよい。ここで、バッテリの容量とは、バッテリが蓄積できる電気の量を意味し、バッテリの容量データは、使用データ及び新規データから算出することができる。
【0044】
ステップS230において、判断部130は、新規データの個数が基準個数未満であるか否かを判断することができる。ここで、基準個数は、新規データを1つの集団として取り扱うか、個別のデータとして取り扱うかを判断する基準と定義することができる。例えば、ステップS230において、判断部130は、新規データの個数が10個未満の場合は個別のデータとして取り扱い、10個以上の場合は1つの集団として取り扱ってもよい。
【0045】
ステップS240において、判断部130は、新規データの個数に応じて異なる方法を用いて新規データを機械学習モデルに適用するか否かを判断する。
【0046】
例えば、ステップS240において、判断部130は、新規データの個数が基準個数未満の場合、境界チェック(Bounds checking)及び傾向検定(Trend test)を行い、新規データが機械学習モデルの投入に適合したデータであるか否かを判断する。ステップS240において、判断部130は、新規データの個数が基準個数以上の場合、F-test及びT-testを行い、新規データが機械学習モデルの投入に適合したデータであるか否かを判断する。
【0047】
図3は本文書に開示された他の実施形態による機械学習訓練装置の動作方法を示すフロー図である。
図4は本文書に記載された一実施形態による時間の経過に従って現れる使用データ又は新規データの特性の変化を示すグラフである。
図5は本文書に開示された一実施形態による使用データの特性の変化を示すグラフから取得した1次項及び定数項の傾向係数値を示すグラフである。
図6は本文書に開示された一実施形態による使用データの特性の変化を示すグラフから取得した傾向係数値を示す3次元グラフである。
【0048】
まず、
図3を参照すると、本文書に記載された一実施形態による機械学習訓練装置の動作方法は、新規データを収集するステップ(S301)、使用データ及び新規データの特性を抽出するステップ(S302)、新規データの個数が基準個数未満であるか否かを判断するステップ(S303)、新規データの個数に応じて異なる方法を用いて新規データを機械学習モデルに適用するか否かを判断するステップ(S304)、新規データの個数が基準個数未満又は以上であるかを区分するステップ(S305)、新規データの個数が基準個数以上の場合、使用データと新規データに対してF-test及びT-testを行うステップ(S306)、F-test及びT-testを行って取得した結果値が閾値未満であるか否かを判断するステップ(S307)、新規データの個数が基準個数未満であるか、又はF-test及びT-testを行って取得した結果値が閾値未満の場合、新規データの特性と使用データの特性に対して境界チェック及び傾向検定を行うステップ(S308)、境界チェック及び傾向検定の結果、新規データが使用データの境界範囲及び傾向範囲を満たすか否かを判断するステップ(S309)、新規データが境界範囲及び傾向範囲を満たしている場合、機械学習モデルに使用されるステップ(S310)、並びにF-testもしくはT-testを行って取得した結果値が閾値以上であるか、又は新規データが使用データの境界範囲もしくは傾向範囲を満たしていない場合、新規データを前記機械学習モデルの訓練から除外するステップ(S311)を含んでもよい。
【0049】
以下、前記ステップS301~ステップS311について
図1を参照して説明する。
【0050】
ステップS301において、データ管理部110は、機械学習モデルに投入される新規データを収集することができる。
【0051】
ステップS302において、データ分析部120は、使用データ及び新規データの特性を抽出することができる。
【0052】
ステップS303において、判断部130は、新規データの個数が基準個数未満であるか否かを判断することができる。
【0053】
ステップS304において、判断部130は、新規データの個数に応じて異なる方法を用いて新規データを機械学習モデルに適用するか否かを判断することができる。
【0054】
ステップS305において、判断部130は、新規データの個数が基準個数未満又は以上であるかを区分することができる。
【0055】
ステップS306において、判断部130は、新規データの個数が基準個数以上の場合、使用データと新規データに対してF-test及びT-testを行うことができる。
【0056】
F-testは、2つの集団間の分散(Variance)の差が統計的に有意なレベルの差であるかどうか、統計的有意性を検証する検証技法である。
【0057】
下記[数式1]は、F-testにより2つの集団間の分散の差を求める数式を意味する。
【0058】
【0059】
[数式1]において、aは、新規データの特性を意味する。mean(a)は、新規データの特性の平均を意味する。n_aは、新規データの特性の個数を意味する。bは、使用データの特性を意味する。mean(b)は、使用データの特性の平均を意味する。n_bは、使用データの特性の個数を意味する。
【0060】
T-testは、2つの集団間の平均(Mean)の差が統計的に有意なレベルの差であるかどうかを検証する検証技法である。
【0061】
下記[数式2]は、T-testにより2つの集団の平均の差を求める数式を意味する。
【0062】
【0063】
[数式2]において、aは、新規データの特性を意味する。mean(a)は、新規データの特性の平均を意味する。n_aは、新規データの特性の個数を意味する。var(a)は、新規データの特性の分散を意味する。bは、使用データの特性を意味する。mean(b)は、使用データの特性の平均を意味する。n_bは、使用データの特性の個数を意味する。var(b)は、使用データの特性の分散を意味する。
【0064】
統計的有意性は、統計学者が、自分の実験結果が偶然に生じたものであるか、それとも偶然に生じることのない極端的なものであるかを判断する方法と定義することができる。例えば、F-test及びT-testの結果値であるP値(P-value)が閾値以上であれば有意的意味があるものと判断し、閾値未満であれば有意的意味がないものと判断してもよい。
【0065】
ステップS307において、判断部130は、F-testを行って取得した結果値及びT-testを行って取得した結果値が閾値未満であるか否かを判断することができる。ここで、閾値は、機械学習モデルにおいて極端的な結果が出て「非正常」と判断できる基準と定義することができる。すなわち、閾値は、データが特定の統計モデルとどの程度相反するのかを示す基準と定義することができる。例えば、閾値は、0.05に設定されてもよいが、これに限定されるものではなく、統計的な実験結果に基づいて多少変化させて用いることができる。
【0066】
ステップS308において、判断部130は、F-testを行って取得した結果値及びT-testを行って取得した結果値が閾値未満の場合、新規データの特性と使用データの特性に対して境界チェック及び傾向検定を行うことができる。
【0067】
ステップS308において、判断部130は、新規データの個数が基準個数未満の場合、新規データの特性と機械学習モデルの生成に使用されたデータの特性に対して境界チェック及び傾向検定を行うことができる。ここで、境界チェックは、データが特定の範囲内に存在するか否かを判断する範囲検査(Range checking)を含んでもよい。例えば、新規データの特性の最小値(Minimum)、最大値(Maximum)が使用データの特性の最小値、最大値の範囲に含まれるか否かを、新規データのそれぞれに対して個別に判断することができる。判断部130は、境界チェックの結果、新規データの特性の最小値、最大値が使用データの特性の最小値、最大値の範囲に含まれると、新規データが使用データの境界範囲を満たすと判断することができる。
【0068】
傾向検定において、傾向(Trend)とは、時系列データの長期間にわたる漸進的かつ持続的な変化を意味する。すなわち、傾向とは、時系列データの上昇傾向や下降傾向の状態を意味する。例えば、バッテリが充電、休止、放電、休止を経ることを周期(Cycle)とすると、バッテリの周期が繰り返されることによって生じる漸進的なバッテリの容量の変化を傾向といえる。傾向検定は、新規データの特性の変化を示すグラフから取得した数式の係数が、使用データの特性の変化を示すグラフから取得した数式の係数の範囲に属するか否かを判断することができる。
【0069】
判断部130は、傾向検定のために、X軸は時間とし、Y軸はデータの特性とし、新規データ及び使用データをそれぞれ個別に近似する。判断部130は、使用データ又は新規データを近似して
図4のようなグラフを導き出すことができる。
【0070】
図4を参照すると、バッテリの周期が繰り返されることによって示されるバッテリの特性(すなわち、バッテリの容量の傾向)を示すグラフが示される。ここで、データは、使用データ又は新規データであり得る。
【0071】
判断部130は、近似により得られたグラフから取得した2次関数数式の係数を傾向係数と定義することができる。2次関数数式の2次項の係数はaに、1次項の係数はbに、定数項の係数はcに指定することができる。
【0072】
図5を参照すると、
図4に示すグラフから取得した1次項及び定数項の傾向係数が示される。
【0073】
図6を参照すると、判断部130は、使用データの特性の傾向係数a、b、cを3次元グラフに示すことができる。判断部130は、新規データの特性の傾向係数が3次元グラフに示された使用データの特性の傾向係数の範囲に属するか否かを個別に判断する。判断部130は、傾向検定の結果、新規データの特性の傾向係数が使用データの傾向係数の範囲に全て含まれる場合、傾向範囲を満たすと判断することができる。
【0074】
図6を参照すると、バッテリの周期が繰り返されることによって示されるデータの特性(すなわち、バッテリの容量の傾向)を示すグラフから取得した使用データの傾向係数値を示す3次元グラフが示される。
【0075】
再び
図3を参照すると、ステップS309において、判断部130は、境界チェック及び傾向検定の結果、新規データが使用データの境界範囲及び傾向範囲を満たすか否かを判断することができる。
【0076】
ステップS310において、判断部130は、新規データが境界範囲及び傾向範囲の両方を満たしている場合、機械学習モデルに使用することができる。
【0077】
ステップS311において、判断部130は、F-testを行って取得した結果値又はT-testを行って取得した結果値が閾値以上の場合、新規データを機械学習モデルの訓練から除外することができる。
【0078】
ステップS311において、判断部130は、境界チェック及び傾向検定を行って新規データが使用データの境界範囲もしくは傾向範囲を満たしていない場合、新規データを機械学習モデルの訓練から除外することができる。
【0079】
以上の説明は、本開示の技術思想を例示的に説明したものにすぎず、本開示の属する技術の分野における通常の知識を有する者であれば本開示の本質的な特性から逸脱しない範囲で様々な修正及び変形が可能であろう。
【0080】
よって、本開示に開示された実施形態は、本開示の技術思想を限定するためのものではなく、説明するためのものであり、そのような実施形態により本開示の技術思想の範囲が限定されるものではない。本開示の保護範囲は、添付の特許請求の範囲により解釈されるべきであり、それと均等な範囲内にある全ての技術思想は本開示の権利範囲に含まれるものと解釈されるべきである。
【符号の説明】
【0081】
100 機械学習訓練装置
110 データ管理部
120 データ分析部
130 判断部