(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024134006
(43)【公開日】2024-10-03
(54)【発明の名称】データ収集方法、再学習方法、データ収集装置、学習装置及びプログラム
(51)【国際特許分類】
G06F 18/214 20230101AFI20240926BHJP
G06N 20/00 20190101ALI20240926BHJP
G05B 23/02 20060101ALI20240926BHJP
【FI】
G06F18/214
G06N20/00 130
G05B23/02 302Z
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2023044070
(22)【出願日】2023-03-20
(71)【出願人】
【識別番号】000006208
【氏名又は名称】三菱重工業株式会社
(74)【代理人】
【識別番号】100149548
【弁理士】
【氏名又は名称】松沼 泰史
(74)【代理人】
【識別番号】100162868
【弁理士】
【氏名又は名称】伊藤 英輔
(74)【代理人】
【識別番号】100161702
【弁理士】
【氏名又は名称】橋本 宏之
(74)【代理人】
【識別番号】100189348
【弁理士】
【氏名又は名称】古都 智
(74)【代理人】
【識別番号】100196689
【弁理士】
【氏名又は名称】鎌田 康一郎
(72)【発明者】
【氏名】網谷 達輝
(72)【発明者】
【氏名】尾▲崎▼ 和基
(72)【発明者】
【氏名】平井 俊輔
【テーマコード(参考)】
3C223
【Fターム(参考)】
3C223AA03
3C223BA01
3C223CC01
3C223DD01
3C223FF03
3C223FF26
3C223FF35
3C223HH01
3C223HH29
(57)【要約】
【課題】分類器の再学習に有効なデータだけを収集するデータ収集方法を提供する。
【解決手段】データ収集方法は、所定の教師データの抽出範囲と、前記抽出範囲に含まれる前記教師データを学習して構築された分類器の分類精度との関係を解析するステップと、前記抽出範囲と分類精度との関係に基づいて、前記教師データとそれ以外のデータとを含む学習用データの抽出範囲を設定するステップと、前記学習用データを取得するステップと、取得した前記学習用データから前記抽出範囲に含まれるデータを抽出するステップと、を有する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
所定の教師データの抽出範囲と前記抽出範囲に含まれる前記教師データを学習して構築された分類器の分類精度との関係を解析するステップと、
前記抽出範囲と分類精度との関係に基づいて、前記教師データとそれ以外のデータとを含む学習用データの抽出範囲を設定するステップと、
前記学習用データを取得するステップと、
取得した前記学習用データから前記抽出範囲に含まれるデータを抽出するステップと、
を有するデータ収集方法。
【請求項2】
前記学習用データは、確率論的リスク評価におけるカットセットが同種の意味を持つか、異なる意味を持つかを判断するための分類器を構築するために学習するデータである、
請求項1に記載のデータ収集方法。
【請求項3】
請求項1又は請求項2に記載のデータ収集方法によって収集した学習用データにラベル付けを行うステップと、
ラベル付けを行った前記学習用データを学習するステップと、
を有する再学習方法。
【請求項4】
所定の教師データの抽出範囲と前記抽出範囲に含まれる前記教師データを学習して構築された分類器の分類精度との関係の解析結果に基づいて設定された、前記教師データとそれ以外のデータとを含む学習用データの抽出範囲を設定する手段と、
前記学習用データを取得する手段と、
取得した前記学習用データから前記抽出範囲に含まれるデータを抽出する手段と、
を有するデータ収集装置。
【請求項5】
所定の教師データの抽出範囲と前記抽出範囲に含まれる前記教師データを学習して構築された分類器の分類精度との関係の解析結果に基づいて設定された、前記教師データとそれ以外のデータとを含む学習用データの抽出範囲を設定する手段と、
前記学習用データを取得する手段と、
取得した前記学習用データから前記抽出範囲に含まれるデータを抽出する手段と、
抽出した前記学習用データにラベル付けを行う手段と、
ラベル付けを行った前記学習用データを学習する手段と、
を有する学習装置。
【請求項6】
コンピュータを、
所定の教師データの抽出範囲と前記抽出範囲に含まれる前記教師データを学習して構築された分類器の分類精度との関係の解析結果に基づいて設定された、前記教師データとそれ以外のデータとを含む学習用データの抽出範囲を設定する手段、
前記学習用データを取得する手段、
取得した前記学習用データから前記抽出範囲に含まれるデータを抽出する手段、
として機能させるためのプログラム。
【請求項7】
コンピュータを、
所定の教師データの抽出範囲と前記抽出範囲に含まれる前記教師データを学習して構築された分類器の分類精度との関係の解析結果に基づいて設定された、前記教師データとそれ以外のデータとを含む学習用データの抽出範囲を設定する手段、
前記学習用データを取得する手段、
取得した前記学習用データから前記抽出範囲に含まれるデータを抽出する手段、
抽出した前記学習用データにラベル付けを行う手段、
ラベル付けを行った前記学習用データを学習する手段、
として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、データ収集方法、再学習方法、データ収集装置、学習装置及びプログラムに関する。
【背景技術】
【0002】
原子力発電プラントのリスク評価には、確率論的リスク評価(Probabilistic Risk Assessment:PRA)が用いられる。PRAでは、事故シナリオを表すカットセットに基づいて、リスク評価を行う。カットセットは、例えば、プラントの系統や機器、故障の種類などを表すコードを組み合わせた文字列として表現される。PRAでは、カットセットを構成する文字列に基づいて、同種のカットセット同士を分類することがあるが、原子力発電プラントのカットセットの数は膨大であり、膨大な数のカットセットを分類するために、機械学習などのAI(Artificial Intelligence)技術で構築された分類器が利用される(例えば、特許文献1)。例えば、プラントに新しい機器が追加された場合、この機器の故障によって発生する事故シナリオを表すカットセットが、リスク評価対象として加わる。新たなカットセットを適切に分類するためには、分類器を構築し直さなければならなくなる場合がある。
【0003】
一般に、ある時点に収集した教師データを学習させることによって構築された分類器は、時間の経過等の要因によって、分類対象データの傾向が変わると、適切な分類が行えなくなることがある。このような場合に改めて教師データを収集し、学習させ、分類器を作り直すことを「再学習」という。再学習の際には、データ傾向の変化に応じた教師データの再収集が必要となるが、教師データとするデータに対して、改めてラベル付けが必要なことがあり、この場合、ラベル付け作業に膨大な時間や労力を要する。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
再学習の際に、再学習に対する有効性が高いデータだけを収集することができれば、ラベル付けの対象となるデータを減らし、効率よく再学習を行うことができる。再学習に対する有効性が高いデータを収集する方法が必要とされている。
【0006】
本開示は、上記課題を解決することができるデータ収集方法、再学習方法、データ収集装置、学習装置及びプログラムを提供する。
【課題を解決するための手段】
【0007】
本開示のデータ収集方法は、所定の教師データの抽出範囲と前記抽出範囲に含まれる前記教師データを学習して構築された分類器の分類精度との関係を解析するステップと、前記抽出範囲と分類精度との関係に基づいて、前記教師データとそれ以外のデータとを含む学習用データの抽出範囲を設定するステップと、前記学習用データを取得するステップと、取得した前記学習用データから前記抽出範囲に含まれるデータを抽出するステップと、を有する。
【0008】
本開示の再学習方法は、上記のデータ収集方法によって収集した前記学習用データにラベル付けを行うステップと、ラベル付けを行った前記学習用データを再学習するステップと、ステップと、を有する。
【0009】
本開示のデータ収集装置は、所定の教師データの抽出範囲と前記抽出範囲に含まれる前記教師データを学習して構築された分類器の分類精度との関係の解析結果に基づいて設定された、前記教師データとそれ以外のデータとを含む学習用データの抽出範囲を設定する手段と、前記学習用データを取得する手段と、取得した前記学習用データから前記抽出範囲に含まれるデータを抽出する手段と、を有する。
【0010】
本開示の再学習装置は、所定の教師データの抽出範囲と前記抽出範囲に含まれる前記教師データを学習して構築された分類器の分類精度との関係の解析結果に基づいて設定された、前記教師データとそれ以外のデータとを含む学習用データの抽出範囲を設定する手段と、前記学習用データを取得する手段と、取得した前記学習用データから前記抽出範囲に含まれるデータを抽出する手段と、抽出した前記学習用データにラベル付けを行う手段と、ラベル付けを行った前記学習用データを再学習する手段と、を有する。
【0011】
また、本開示のプログラムは、コンピュータを、所定の教師データの抽出範囲と前記抽出範囲に含まれる前記教師データを学習して構築された分類器の分類精度との関係の解析結果に基づいて設定された、前記教師データとそれ以外のデータとを含む学習用データの抽出範囲を設定する手段、前記学習用データを取得する手段、取得した前記学習用データから前記抽出範囲に含まれるデータを抽出する手段、として機能させる。
【0012】
また、本開示のプログラムは、コンピュータを、所定の教師データの抽出範囲と前記抽出範囲に含まれる前記教師データを学習して構築された分類器の分類精度との関係の解析結果に基づいて設定された、前記教師データとそれ以外のデータとを含む学習用データの抽出範囲を設定する手段、前記学習用データを取得する手段、取得した前記学習用データから前記抽出範囲に含まれるデータを抽出する手段、抽出した前記学習用データにラベル付けを行う手段、ラベル付けを行った前記学習用データを再学習する手段、として機能させる。
【発明の効果】
【0013】
本開示のデータ収集方法、再学習方法、データ収集装置、学習装置及びプログラムによれば、分類器の再学習に有効なデータだけを収集することができるので、再学習に要する時間や労力を削減し、分類器の再学習の効率を向上することができる。
【図面の簡単な説明】
【0014】
【
図1】実施形態に係る学習装置の一例を示すブロック図である。
【
図2】実施形態に係る教師データの抽出方法について説明する図である。
【
図3】実施形態に係る抽出範囲と分離精度の関係の解析結果の一例を示す図である。
【
図4】実施形態に係る分類器の更新履歴の一例を示す図である。
【
図5】実施形態に係る再学習処理の一例を示すフローチャートである。
【
図6】実施形態の学習装置のハードウェア構成の一例を示す図である。
【発明を実施するための形態】
【0015】
<実施形態>
以下、本開示の学習装置について、
図1~
図6を参照しながら説明する。
(構成)
図1は、実施形態に係る学習装置の一例を示すブロック図である。
学習装置10は、教師データを学習して、分類器(例えば、分離超平面)を構築する。学習の手法としては、例えば、決定木、ランダムフォレスト、サポートベクトルマシンなどを挙げることができる。また、学習装置10は、分類器の再学習にあたって、再学習に有効な教師データを絞り込むことを支援する機能を備えている。以下、一例として分類器が分離超平面であるとして説明を行う。
【0016】
図1に示すように、学習装置10は、データ取得部11と、解析結果取得部12と、抽出範囲設定部13と、抽出部14と、ラベル設定部15と、学習部16と、入出力部17と、記憶部18とを備える。
【0017】
データ取得部11は、分離超平面の学習に用いる学習用データを取得する。学習用データは、後にラベルが付され、教師データとなる。
【0018】
解析結果取得部12は、分離超平面の構築に必要な学習用データの抽出範囲と、抽出範囲に属する学習用データを学習して構築された分離超平面の分離精度の関係を解析した解析結果を取得する。ここで、学習用データの抽出範囲とは、例えば、既に構築された分離超平面を基準として範囲Xに存在する学習用データを収集して、再学習を行い、新たな分離超平面を構築する場合の範囲Xのことを指す。例えば、
図2において、パラメータ1~3で定義されるデータ1~4が存在し、現在の分離超平面が、パラメータ1~3を座標軸とする3次元座標空間において、パラメータ1の座標軸に直交する平面である分離超平面100で表される場合、抽出範囲Xは、この分離超平面100からのパラメータ1の座標軸方向の距離で表すことができる。
図2の場合、抽出範囲Xは、例えば、平面101と平面102に挟まれた範囲である。例えば、平面101~102の間に存在するデータ2とデータ3は抽出範囲内のデータである。データ1とデータ4は抽出範囲外のデータとなる。また、分離精度とは、平面101と平面102の間のデータを教師データとして再学習により構築された新たな分離超平面によって、様々なデータが正しく分類される程度や割合のことである。分離精度の算出方法に特に限定は無いが、例えば、100個のデータを新たな分離超平面で分類した場合に正しく分類できたデータが80個、誤って分類されたデータが20個であれば、新たな分離超平面の分離精度は80%といった算出方法であってもよい。
【0019】
図3に抽出範囲と分離精度の関係の解析結果の一例を示す。
図3のグラフの縦軸は分離精度、横軸は抽出範囲である。
図3に例示する解析結果によれば、分離精度の閾値を満たす抽出範囲Xの値を算出することができる。
【0020】
抽出範囲設定部13は、新たな分離超平面を再学習により構築する際に学習する教師データの抽出範囲を設定する。例えば、
図2の例の場合であれば、平面101、102を表す値(例えば、分離超平面100からのパラメータ1の座標軸方向の距離)を設定する。抽出範囲設定部13によって設定された抽出範囲に存在する学習用データが教師データとなる。抽出する学習用データの量を減らすことができれば、ラベル付け作業を低減することができる。例えば、
図3に例示する解析結果に基づいて、分離精度の閾値を満たす抽出範囲Xを設定することにより、精度の良い分離超平面を少ない教師データのみを用いて効率よく再構築することができる。抽出範囲の設定は、ユーザが学習装置10へある値を入力し、入力された値を抽出範囲設定部13が抽出範囲として設定してもよい。あるいは、抽出範囲設定部13が、解析結果取得部12が取得した解析結果に基づいて、所定の分離精度が得られる範囲を抽出範囲として設定してもよい。
【0021】
抽出部14は、抽出範囲設定部13が設定した抽出範囲に基づいて、データ取得部11が取得した学習用データから、設定された抽出範囲に含まれるデータを抽出する。
【0022】
ラベル設定部15は、抽出部14によって抽出された学習用データにラベルを付す。例えば、ラベル設定部15は、抽出された学習用データを表示装置や電子ファイルに出力し、出力した学習用データに対してユーザが付与するラベル情報(例えば、分離超平面のどちら側に属するか等)を取得する。ラベル設定部15は、ユーザによって入力されたラベル情報と学習用データを対応付けて記憶部18に記録する。記録されたデータは教師データとなる。
【0023】
学習部16は、教師データを学習して、分離超平面を構築する。学習部16は、構築した分離超平面を記憶部18に保存したり、入出力部17を通じて出力したりする。
【0024】
入出力部17は、キーボード、マウス、タッチパネル、ボタン等の入力装置を用いて入力された各種の設定情報、抽出範囲と分離精度の関係の解析結果、再学習処理の実行を指示する指示情報などを取得する。入出力部17は、取得した情報を記憶部18に記録したり、各機能部11~16へ出力したりする。また、入出力部17は、各種情報を表示装置や電子ファイル等に出力する。例えば、入出力部17は、抽出部14が抽出した学習用データを出力すると共に、ラベル情報の入力を促す表示などを行う。
【0025】
記憶部18は、学習用データ、教師データ、抽出範囲と分離精度の関係の解析結果、各種の設定情報、処理中のデータなどを記憶する。
【0026】
(動作)
次に
図4~
図5を用いて、学習装置10の動作について説明する。
図4は、実施形態に係る分類器の学習履歴の一例を示す図である。
図5は、実施形態に係る再学習処理の一例を示すフローチャートである。
【0027】
図4に、分類器の学習履歴の一例を示す。
図4のグラフの横軸は時間の経過を示す。時間T1は、最初に教師データを学習して分離超平面を構築した時間である。時間T2は、分離超平面で分類を行うデータの傾向に変化が生じ、分離超平面の再学習が必要になった時間である。データ傾向の変化とは、これまでの分類器では正しく分類できないようなデータが発生することである。また、分離超平面の再学習が必要な場合とは、例えば、新しく加わったデータを既存のグループとは異なる新規のグループに分類したい場合、あるいは、既存のグループの何れかに分類したいがうまく分類できない場合などである。時間T3には、ユーザは、新たに発生したこれまでとは異なる傾向を有する学習用データの一つ一つについてラベル付けを行う。また、時間T1の時点で存在していた学習用データについても一つ一つ確認し、必要に応じてラベルの付け替え等を行う。そして、これらの教師データを再学習して、新たな分離超平面を構築する(時間T3)。その後、時間T4に再びデータ傾向に変化が生じ、現在(時間T5)は、再び、分離超平面の再学習が必要になった状況であるとする。つまり、過去に1度以上、分離超平面の再学習を行った経験があり、その時の教師データが存在するとする。次に説明するように、この状況では、学習装置10を用いて効率的に再学習を行うことができる。
【0028】
次に
図5を参照して、学習装置10による再学習処理について説明する。
最初に、ユーザが、現在の分離超平面で期待する精度で分類可能か否かを判定する(ステップS1)。期待する精度で分類可能な場合(ステップS1;Yes)、再学習は必要ないため、本フローチャートの処理を終了する。データ傾向に変化が生じた時間T5には、この判定はNoとなる。
【0029】
期待する精度での分類が不可能な場合(ステップS1;No)、以下の処理によって、最小限の教師データを収集し、効率よく再学習を行う。
【0030】
まず、解析結果取得部12が、抽出範囲と分離精度の関係の解析結果を取得する(ステップS2)。ユーザは、過去の再学習(時間T3)の経験に基づき、当時使用した教師データに対する抽出範囲を様々に変化させて、抽出範囲に含まれる教師データだけを用いて、再学習を行い、分離超平面を再構築する。この作業に学習装置10を用いてもよい。例えば、データ取得部11を用いて時間T3における教師データを学習装置10へ入力し、抽出範囲設定部13を用いて様々な抽出範囲を設定し、学習部16を用いて抽出範囲ごとの分離超平面を構築する。そして、ユーザは、このようにして構築された様々な抽出範囲別の分離超平面に対し、分離精度を検証し、
図3に例示するような抽出範囲と分離精度の関係の解析結果を作成する。ユーザは、作成した抽出範囲と分離精度の関係の解析結果を学習装置10へ入力する。解析結果取得部12は、入出力部17を通じて、抽出範囲と分離精度の関係の解析結果を取得し、取得した解析結果を記憶部18に保存する。
【0031】
次に抽出範囲設定部13が、データの抽出範囲を設定する(ステップS3)。例えば、ユーザは、時間T2で生じたデータ傾向変化の変化量や新たに発生した異なる傾向を有するデータのデータ量と、時間T4で生じたデータ傾向変化の変化量や新たな傾向を有するデータのデータ量の差を評価する。時間T2、T4のどちらも同程度の変化が生じていれば、ユーザは、先に作成した抽出範囲と分離精度の関係の解析結果に基づいて、所望の精度が得られる抽出範囲を特定し、特定した抽出範囲を学習装置10へ入力する。また、時間T2のときの変化に比べ、時間T4でのデータ傾向変化が小さい場合(例えば、傾向の変化量が小さい、新たな傾向を有するデータのデータ量が少ない、あるいはその両方の場合)、ユーザは、先に作成した抽出範囲と分離精度の関係の解析結果に基づいて、所望の精度が得られる抽出範囲を解析結果よりも小さめに見積もり、見積もった抽出範囲を学習装置10へ入力する。例えば、時間T2のデータ傾向変化に対して所望の精度が得られるときの抽出範囲が「±10」であり、時間T2のときの変化に比べ時間T4でのデータ傾向変化が半分以下だと判断すれば、ユーザは、例えば、抽出範囲として「±5」、あるいは少し余裕をもって「±7」などを入力する。反対に、時間T2のときの変化に比べ、時間T4でのデータ傾向変化が大きい場合、ユーザは、先に作成した抽出範囲と分離精度の関係の解析結果に基づいて、所望の精度が得られる抽出範囲を解析結果よりも大きめに見積もり、見積もった抽出範囲を学習装置10へ入力する。抽出範囲設定部13は、入出力部17を通じて、入力された抽出範囲の値を取得し、この値を抽出範囲として記憶部18に設定する。あるいは、ユーザは、所望の分離精度を入力し、抽出範囲設定部13は、入力された分離精度を
図3に例示する解析結果に基づいて抽出範囲に変換して、変換した値を抽出範囲として設定してもよい。
【0032】
次にデータ取得部11が、学習用データを取得する(ステップS4)。例えば、ユーザは、現時点で入手できる全ての学習用データを学習装置10へ入力する。データ取得部11は、入出力部17を通じて、入力された学習用データを取得し、記憶部18に保存する。
【0033】
次に抽出部14が、抽出範囲の学習用データを抽出する(ステップS5)。例えば、ユーザがデータの抽出を指示すると、抽出部14は、記憶部18に保存された学習用データの中からステップS3で設定された抽出範囲に含まれるデータのみを抽出する。例えば、抽出範囲として「±10」が設定されている場合、
図2の例では、抽出部14は、分離超平面100を基準としてパラメータ1の座標軸方向における-10~+10の範囲の学習用データを抽出する。抽出部14は、抽出したデータをラベル設定部15へ渡す。
【0034】
次に、ラベル設定部15が、抽出したデータにラベル付けを行う(ステップS6)。ラベル設定部15は、入出力部17を通じて、ステップS5で抽出された学習用データを出力し、ラベル付けを促す表示などを行う。ユーザは、この表示を見て、出力された学習用データにラベル付けを行う。例えば、ユーザは、入出力部17が出力した学習用データの1つ1つについてラベル情報を入力する。ラベル設定部15は、入力されたラベル情報と学習用データを対応付けて記憶部18に保存する。ラベルを付すデータ数が、ステップS5で抽出されたデータに絞り込まれるので、ラベル付けに要する作業時間や労力を低減することができる。
【0035】
次に、学習部16が、ラベル付けした教師データを再学習する(ステップS7)。学習部16は、ステップS6でラベル付けされた教師データを記憶部18から読み込んで再学習を行う。これにより、少ない教師データで分離精度を落とすことなく、新たな分離超平面を構築することができる。少ない教師データで再学習を行うので学習時間を短縮することができる。
【0036】
なお、
図5のステップS2の処理は必要に応じて省略することができる(例えば、既に解析結果が登録されている場合など)。
【0037】
(効果)
以上説明したように、本実施形態によれば、抽出範囲と分離精度の関係の解析により、データ傾向の変化による分離超平面の変動に影響を及ぼす教師データの範囲の把握し、データ傾向の変化の度合いから、再学習に用いる教師データの抽出範囲を設定する。これにより、分離超平面の更新に対して有効と考えられる、距離の観点で分離超平面に比較的近い範囲の教師データを選択的に抽出する。再学習に有効と考えられるデータだけを抽出することで、ラベル付けに要する作業時間、労力(人間の判断作業量)、再学習処理の時間を削減することができる。
【0038】
例えば、原子力プラントの確率論的リスク評価(PRA)においては、フォルトツリーやイベントツリー等のPRAモデルから頂上事象(重大事故)を引き起こすカットセットを抽出する。そして、抽出された、事故シナリオを表す文字列であるカットセットが、どのような事故事象を引き起こすかという観点で同種の意味を持つか、異なる意味を持つかを判断するための分類器(カットセット意味分類器と称する。)を構築し、膨大な数のカットセットを分類することがある。このような場合に、例えば、これまでのカットセットとは異なる文字列を含んだ(つまり、データ傾向が異なる)新しいカットセットが加わると、新しいカットセットを分類するために分類器を作り直さなければならなくなる。
【0039】
この場合、まず、データ傾向の変化があった過去のデータ(
図4の時間T2のデータ)をテストケースとする。カットセット意味分類器の場合は、PRAの評価条件として、特定重大事故時等の対処設備への評価を反映したカットセットの文字列傾向変化をテストケースにすることが考えられる。このテストケースにおいて、再学習前の分離超平面から距離的にどれだけ離れたデータまでを教師データとすれば、求める精度の分類が可能であるかを解析しておく。そして、解析結果を基に、データを抽出する分離超平面からの距離(抽出範囲)を設定する。このとき、再学習後の分離精度変化、後段のラベル付け作業の作業量、過去のテストケースに比べた場合のデータ傾向の変化量等に基づいて、抽出範囲を調整する。抽出範囲を設定すると、今般、データ傾向に変化が生じたデータと従来から存在するデータを含む全データの中から、設定した抽出範囲内のデータを抽出する。ここで抽出したデータに対してラベル付けを実施し、再学習させることによって、カットセット意味分類器を更新する。これにより、従来のカットセット意味分類器から距離的に離れており、新たなカットセット意味分類器の算出には大きく寄与しないデータに対してラベル付けを行う必要が無くなるため、省力化や処理時間の短縮化が実現できる。また、最小限の教師データのみを学習することにより、従来のカットセット意味分類器と同等の分類精度を実現することができる。
【0040】
上述の通り、原子力発電プラントでは、カットセットの数が数万~数十万に達することがあり、本実施形態の再学習方法を、カットセット意味分類器の再学習に適用することは有効である。しかし、本実施形態の再学習方法の適用分野は、原子力プラントに限定されず、PRAモデルを用いてリスク評価を行うどのような産業分野にも適用が可能である。また、PRAモデルを用いてリスク評価を行う場合だけではなく、教師データを学習して構築するあらゆる分類器の再学習に適用することができる。
【0041】
図6は、学習装置のハードウェア構成の一例を示す図である。
コンピュータ900は、CPU901、主記憶装置902、補助記憶装置903、入出力インタフェース904、通信インタフェース905を備える。
上述の学習装置10は、コンピュータ900に実装される。そして、上述した各機能は、プログラムの形式で補助記憶装置903に記憶されている。CPU901は、プログラムを補助記憶装置903から読み出して主記憶装置902に展開し、当該プログラムに従って上記処理を実行する。また、CPU901は、プログラムに従って、記憶領域を主記憶装置902に確保する。また、CPU901は、プログラムに従って、処理中のデータを記憶する記憶領域を補助記憶装置903に確保する。
【0042】
なお、学習装置10の全部または一部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各機能部による処理を行ってもよい。ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、CD、DVD、USB等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。また、このプログラムが通信回線によってコンピュータ900に配信される場合、配信を受けたコンピュータ900が当該プログラムを主記憶装置902に展開し、上記処理を実行しても良い。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
【0043】
以上のとおり、本開示に係るいくつかの実施形態を説明したが、これら全ての実施形態は、例として提示したものであり、発明の範囲を限定することを意図していない。これらの実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で種々の省略、置き換え、変更を行うことができる。これらの実施形態及びその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。分離超平面は分類器の一例である。分離精度は分類精度の一例である。
【0044】
<付記>
実施形態に記載のデータ収集方法、再学習方法、データ収集装置、学習装置及びプログラムは、例えば以下のように把握される。
【0045】
(1)第1の態様に係るデータ収集方法は、所定の教師データの抽出範囲と、前記抽出範囲に含まれる前記教師データを学習して構築された分類器の分類精度と、の関係を解析するステップと、前記抽出範囲と分類精度との関係に基づいて、前記教師データとそれ以外のデータ(それ以外のデータとは、データ傾向が変わって追加されたデータ、データ傾向の変化の原因となったデータである。)とを含む学習用データの抽出範囲を設定するステップと、前記学習用データを取得するステップと、取得した前記学習用データから前記抽出範囲に含まれるデータを抽出するステップと、を有する。
これにより、分類器の再学習に有効なデータだけを収集することができる。また、分類精度の良い分類器の構築に必要な最小限のデータを収集することができる。
【0046】
(2)第2の態様に係るデータ収集方法は、(1)のデータ収集方法であって、前記学習用データは、原子力プラントの確率論的リスク評価におけるカットセットが、同種の意味を持つか、異なる意味を持つかを判断するための分類器を学習により構築するための学習データである。
これにより、カットセット意味分類器の分類精度を維持することができ、且つ、学習に必要な最小限のデータだけを収集することができる。
【0047】
(3)第3の態様に係る再学習方法は、(1)~(2)のデータ収集方法によって収集した前記学習用データにラベル付けを行うステップと、ラベル付けを行った前記学習用データを再学習するステップと、を有する。
これにより、ラベル付けに要する労力や時間、再学習処理に要する時間を削減することができる。また、最小限のデータのみを学習することにより、膨大なデータを学習して構築された分類器と同等の分類精度を実現することができる。
【0048】
(4)第4の態様に係るデータ収集装置は、所定の教師データの抽出範囲と、前記抽出範囲に含まれる前記教師データを学習して構築された分類器の分類精度と、の関係の解析結果に基づいて設定された、前記教師データとそれ以外のデータとを含む学習用データの抽出範囲を設定する手段と、前記学習用データを取得する手段と、前記学習用データから前記抽出範囲に含まれるデータを抽出する手段と、を有する。
【0049】
(5)第5の態様に係る学習装置は、所定の教師データの抽出範囲と、前記抽出範囲に含まれる前記教師データを学習して構築された分類器の分類精度と、の関係の解析結果に基づいて設定された、前記教師データとそれ以外のデータとを含む学習用データの抽出範囲を設定する手段、前記学習用データを取得する手段、前記学習用データから前記抽出範囲に含まれるデータを抽出する手段、抽出した前記学習用データにラベル付けを行う手段、ラベル付けを行った前記学習用データを再学習する手段、を有する。
【0050】
(6)第6の態様に係るプログラムは、コンピュータを、所定の教師データの抽出範囲と、前記抽出範囲に含まれる前記教師データを学習して構築された分類器の分類精度と、の関係の解析結果に基づいて設定された、前記教師データとそれ以外のデータとを含む学習用データの抽出範囲を設定する手段、前記学習用データを取得する手段、前記学習用データから前記抽出範囲に含まれるデータを抽出する手段、として機能させるためのプログラムである。
【0051】
(7)第7の態様に係るプログラムは、コンピュータを、所定の教師データの抽出範囲と、前記抽出範囲に含まれる前記教師データを学習して構築された分類器の分類精度と、の関係の解析結果に基づいて設定された、前記教師データとそれ以外のデータとを含む学習用データの抽出範囲を設定する手段、前記学習用データを取得する手段、前記学習用データから前記抽出範囲に含まれるデータを抽出する手段、抽出した前記学習用データにラベル付けを行う手段、ラベル付けを行った前記学習用データを再学習する手段、として機能させるためのプログラムである。
【符号の説明】
【0052】
10・・・学習装置
11・・・データ取得部
12・・・解析結果取得部
13・・・抽出範囲設定部
14・・・抽出部
15・・・ラベル設定部
16・・・学習部
17・・・入出力部
18・・・記憶部
900・・・コンピュータ
901・・・CPU
902・・・主記憶装置
903・・・補助記憶装置
904・・・入出力インタフェース
905・・・通信インタフェース