(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-14
(45)【発行日】2024-03-25
(54)【発明の名称】機械学習モデル特性可視化装置、機械学習モデル特性可視化方法、及び機械学習モデル特性可視化プログラム
(51)【国際特許分類】
G06N 20/00 20190101AFI20240315BHJP
G06T 7/00 20170101ALI20240315BHJP
【FI】
G06N20/00
G06T7/00 350B
(21)【出願番号】P 2021058114
(22)【出願日】2021-03-30
【審査請求日】2023-04-20
(73)【特許権者】
【識別番号】306020818
【氏名又は名称】トヨタテクニカルディベロップメント株式会社
(74)【代理人】
【識別番号】110002516
【氏名又は名称】弁理士法人白坂
(72)【発明者】
【氏名】市川 宏治
(72)【発明者】
【氏名】坂口 真一
(72)【発明者】
【氏名】稲葉 絵莉子
【審査官】千葉 久博
(56)【参考文献】
【文献】特開2021-9618(JP,A)
【文献】特開2020-17197(JP,A)
【文献】特開2020-160543(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 20/00
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
機械学習モデルの学習に用いられる、学習用データ及び評価用データを取得する第1データ取得部と、
前記第1データ取得部により取得された前記学習用データ及び前記評価用データを格納する第1格納部と、
前記第1格納部によって格納された前記学習用データ及び前記評価用データの特徴を表す特徴量のデータである学習用特徴量データ及び評価用特徴量データを生成する特徴量生成部と、
前記特徴量生成部により生成された前記学習用特徴量データ及び前記評価用特徴量データを格納する第2格納部と、
前記第1格納部又は前記第2格納部によって格納されたデータの中からいずれか二を選択し、その選択されたデータを特徴量ごとに比較し、その差異を比較特徴量データとして生成する比較特徴量生成部と、
前記比較特徴量生成部により生成された前記比較特徴量データを格納する第3格納部と、
前記第1格納部ないし前記第3格納部によって格納されたデータのうちのいずれかを入力データとして決定する入力データ決定部と、
前記入力データ決定部により決定された前記入力データを分析するための分析方法を決定する分析方法決定部と、
前記特徴量ごとの値及び前記特徴量ごとの学習量に基づき、前記入力データを前記分析方法決定部によって決定された前記分析方法により分析する分析実行部と、
前記分析実行部による分析結果を前記入力データの特徴を表す特徴量ごとに表示する分析結果表示部と、
を備えることを特徴とする機械学習モデル特性可視化装置。
【請求項2】
前記学習用データ及び前記評価用データに内包されるデータの属性に関するアノテーションが予め付与された学習用教師データ及び評価用教師データを取得する第2データ取得部と、
前記第2データ取得部により取得された前記学習用教師データ及び前記評価用教師データを格納する第4格納部と、
前記学習用データ及び前記学習用教師データを用いて学習された前記機械学習モデルの前記評価用データに基づく推論結果を取得する第3データ取得部と、
前記第3データ取得部により取得された前記推論結果を格納する第5格納部と、
前記推論結果を前記評価用教師データと比較し前記推論結果の妥当性を評価し比較結果を生成する比較評価部と、
前記比較評価部によって生成された前記比較結果を格納する第6格納部と、
をさらに備え、
前記比較特徴量生成部は、前記第1格納部ないし前記第6格納部によって格納されたデータの中からいずれか二を選択し、その選択されたデータを特徴量ごとに比較し、その差異を比較特徴量データとして生成し、
前記入力データ決定部は、前記第1格納部ないし前記第6格納部によって格納されたデータのうちいずれかを入力データとして決定することを特徴とする請求項1に記載の機械学習モデル特性可視化装置。
【請求項3】
前記分析方法は、前記特徴量に基づいたグラフ化の方法である請求項1または2に記載の機械学習モデル特性可視化装置。
【請求項4】
前記学習用データ及び前記評価用データは画像に関するデータである請求項1ないし3のいずれか1項に記載の機械学習モデル特性可視化装置。
【請求項5】
コンピュータが、
機械学習モデルの学習に用いられる、学習用データ及び評価用データを取得する第1データ取得ステップと、
前記第1データ取得ステップにおいて取得された前記学習用データ及び前記評価用データを格納する第1格納ステップと、
前記第1格納ステップにおいて格納された前記学習用データ及び前記評価用データの特徴を表す特徴量のデータである学習用特徴量データ及び評価用特徴量データを生成する特徴量生成ステップと、
前記特徴量生成ステップにおいて生成された前記学習用特徴量データ及び前記評価用特徴量データを格納する第2格納ステップと、
前記第1格納ステップ又は前記第2格納ステップにおいて格納されたデータの中からいずれか二を選択し、その選択されたデータを特徴量ごとに比較し、その差異を比較特徴量データとして生成する比較特徴量生成ステップと、
前記比較特徴量生成ステップにおいて生成された前記比較特徴量データを格納する第3格納ステップと、
前記第1格納ステップないし前記第3格納ステップにおいて格納されたデータのうちのいずれかを入力データとして決定する入力データ決定ステップと、
前記入力データ決定ステップにおいて決定された前記入力データを分析するための分析方法を決定する分析方法決定ステップと、
前記特徴量ごとの値及び前記特徴量ごとの学習量に基づき、前記入力データを前記分析方法決定ステップにおいて決定された前記分析方法により分析する分析実行ステップと、
前記分析実行ステップにおいて分析結果を前記入力データの特徴を表す特徴量ごとに表示する分析結果表示ステップと、
を実行することを特徴とする機械学習モデル特性可視化方法。
【請求項6】
コンピュータに、
機械学習モデルの学習に用いられる、学習用データ及び評価用データを取得する第1データ取得機能と、
前記第1データ取得機能によって取得された前記学習用データ及び前記評価用データを格納する第1格納機能と、
前記第1格納機能によって格納された前記学習用データ及び前記評価用データの特徴を表す特徴量のデータである学習用特徴量データ及び評価用特徴量データを生成する特徴量生成機能と、
前記特徴量生成機能によって生成された前記学習用特徴量データ及び前記評価用特徴量データを格納する第2格納機能と、
前記第1格納機能又は前記第2格納機能において格納されたデータの中からいずれか二を選択し、その選択されたデータを特徴量ごとに比較し、その差異を比較特徴量データとして生成する比較特徴量生成機能と、
前記比較特徴量生成機能によって生成された前記比較特徴量データを格納する第3格納機能と、
前記第1格納機能ないし前記第3格納機能において格納されたデータのうちのいずれかを入力データとして決定する入力データ決定機能と、
前記入力データ決定機能によって決定された前記入力データを分析するための分析方法を決定する分析方法決定機能と、
前記特徴量ごとの値及び前記特徴量ごとの学習量に基づき、前記入力データを前記分析方法決定機能によって決定された前記分析方法により分析する分析実行機能と、
前記分析実行機能によって分析結果を前記入力データの特徴を表す特徴量ごとに表示する分析結果表示機能と、
を実現することを特徴とする機械学習モデル特性可視化プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習モデル特性可視化装置、機械学習モデル特性可視化方法、及び機械学習モデル特性可視化プログラムに関し、特に、機械学習により構築され予測を行う機械学習モデルに係る機械学習モデル特性可視化装置、機械学習モデル特性可視化方法、及び機械学習モデル特性可視化プログラムに関する。
【背景技術】
【0002】
従来、ディープラーニング及び機械学習を使用した機械学習モデルが出力する予測結果及び判断の根拠が、ブラックボックス化されており、機械学習モデルの特性が見えにくく理解しにくいという課題があった。
【0003】
そのため、機械学習モデルに対して学習用データを与えて学習させる際に、機械学習モデルにどのような特性があるか分からず、ただ漠然と大量の教師有り学習用データを用意して学習させる必要があった(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
そこで、本開示の課題は、機械学習モデルの学習の効率化を図り、機械学習モデルの特性を可視化することができる機械学習モデル特性可視化装置、機械学習モデル特性可視化方法、及び機械学習モデル特性可視化プログラムを提供することである。
【課題を解決するための手段】
【0006】
すなわち、第1の態様に機械学習モデル特性可視化装置は、機械学習モデルの学習に用いられる、学習用データ及び評価用データを取得する第1データ取得部と、第1データ取得部により取得された学習用データ及び評価用データを格納する第1格納部と、第1格納部によって格納された学習用データ及び評価用データの特徴を表す特徴量のデータである学習用特徴量データ及び評価用特徴量データを生成する特徴量生成部と、特徴量生成部により生成された学習用特徴量データ及び評価用特徴量データを格納する第2格納部と、第1格納部又は第2格納部によって格納されたデータの中からいずれか二を選択し、その選択されたデータを特徴量ごとに比較し、その差異を比較特徴量データとして生成する比較特徴量生成部と、比較特徴量生成部により生成された比較特徴量データを格納する第3格納部と、第1格納部ないし第3格納部によって格納されたデータのうちのいずれかを入力データとして決定する入力データ決定部と、入力データ決定部により決定された入力データを分析するための分析方法を決定する分析方法決定部と、特徴量ごとの値及び特徴量ごとの学習量に基づき、入力データを分析方法決定部によって決定された分析方法により分析する分析実行部と、分析実行部による分析結果を入力データの特徴を表す特徴量ごとに表示する分析結果表示部と、を備える。
【0007】
第2の態様は、第1の態様に係る機械学習モデル特性可視化装置において、学習用データ及び評価用データに内包されるデータの属性に関するアノテーションが予め付与された学習用教師データ及び評価用教師データを取得する第2データ取得部と、第2データ取得部により取得された学習用教師データ及び評価用教師データを格納する第4格納部と、学習用データ及び学習用教師データを用いて学習された機械学習モデルの評価用データに基づく推論結果を取得する第3データ取得部と、第3データ取得部により取得された推論結果を格納する第5格納部と、推論結果を評価用教師データと比較し推論結果の妥当性を評価し比較結果を生成する比較評価部と、比較評価部によって生成された比較結果を格納する第6格納部と、をさらに備え、比較特徴量生成部は、第1格納部ないし第6格納部によって格納されたデータの中からいずれか二を選択し、その選択されたデータを特徴量ごとに比較し、その差異を比較特徴量データとして生成し、入力データ決定部は、第1格納部ないし第6格納部によって格納されたデータのうちいずれかを入力データとして決定することとしてもよい。
【0008】
第3の態様は、第1または第2の態様に係る機械学習モデル特性可視化装置において、分析方法は、特徴量に基づいたグラフ化の方法であることとしてもよい。
【0009】
第4の態様は、第1ないし第3のいずれか1の態様に係る機械学習モデル特性可視化装置において、学習用データ及び評価用データは画像に関するデータであることとしてもよい。
【0010】
第5の態様に係る機械学習モデル特性可視化方法は、コンピュータが、機械学習モデルの学習に用いられる、学習用データ及び評価用データを取得する第1データ取得ステップと、第1データ取得ステップにおいて取得された学習用データ及び評価用データを格納する第1格納ステップと、第1格納ステップにおいて格納された学習用データ及び評価用データの特徴を表す特徴量のデータである学習用特徴量データ及び評価用特徴量データを生成する特徴量生成ステップと、特徴量生成ステップにおいて生成された学習用特徴量データ及び評価用特徴量データを格納する第2格納ステップと、第1格納ステップ又は第2格納ステップにおいて格納されたデータの中からいずれか二を選択し、その選択されたデータを特徴量ごとに比較し、その差異を比較特徴量データとして生成する比較特徴量生成ステップと、比較特徴量生成ステップにおいて生成された比較特徴量データを格納する第3格納ステップと、第1格納ステップないし第3格納ステップにおいて格納されたデータのうちのいずれかを入力データとして決定する入力データ決定ステップと、入力データ決定ステップにおいて決定された入力データを分析するための分析方法を決定する分析方法決定ステップと、特徴量ごとの値及び特徴量ごとの学習量に基づき、入力データを分析方法決定ステップにおいて決定された分析方法により分析する分析実行ステップと、分析実行ステップにおいて分析結果を入力データの特徴を表す特徴量ごとに表示する分析結果表示ステップと、を実行する。
【0011】
第6の態様に係る機械学習モデル特性可視化プログラムは、コンピュータに、機械学習モデルの学習に用いられる、学習用データ及び評価用データを取得する第1データ取得機能と、第1データ取得機能によって取得された学習用データ及び評価用データを格納する第1格納機能と、第1格納機能によって格納された学習用データ及び評価用データの特徴を表す特徴量のデータである学習用特徴量データ及び評価用特徴量データを生成する特徴量生成機能と、特徴量生成機能によって生成された学習用特徴量データ及び評価用特徴量データを格納する第2格納機能と、第1格納機能又は第2格納機能において格納されたデータの中からいずれか二を選択し、その選択されたデータを特徴量ごとに比較し、その差異を比較特徴量データとして生成する比較特徴量生成機能と、比較特徴量生成機能によって生成された比較特徴量データを格納する第3格納機能と、第1格納機能ないし第3格納機能において格納されたデータのうちのいずれかを入力データとして決定する入力データ決定機能と、入力データ決定機能によって決定された入力データを分析するための分析方法を決定する分析方法決定機能と、特徴量ごとの値及び特徴量ごとの学習量に基づき、入力データを分析方法決定機能によって決定された分析方法により分析する分析実行機能と、分析実行機能によって分析結果を入力データの特徴を表す特徴量ごとに表示する分析結果表示機能と、を実現する。
【発明の効果】
【0012】
本開示の機械学習モデル特性可視化装置によると、機械学習モデルの学習に用いられる、学習用データ及び評価用データを取得する第1データ取得部と、第1データ取得部により取得された学習用データ及び評価用データを格納する第1格納部と、第1格納部によって格納された学習用データ及び評価用データの特徴を表す特徴量のデータである学習用特徴量データ及び評価用特徴量データを生成する特徴量生成部と、特徴量生成部により生成された学習用特徴量データ及び評価用特徴量データを格納する第2格納部と、第1格納部又は第2格納部によって格納されたデータの中からいずれか二を選択し、その選択されたデータを特徴量ごとに比較し、その差異を比較特徴量データとして生成する比較特徴量生成部と、比較特徴量生成部により生成された比較特徴量データを格納する第3格納部と、第1格納部ないし第3格納部によって格納されたデータのうちのいずれかを入力データとして決定する入力データ決定部と、入力データ決定部により決定された入力データを分析するための分析方法を決定する分析方法決定部と、特徴量ごとの値及び特徴量ごとの学習量に基づき、入力データを分析方法決定部によって決定された分析方法により分析する分析実行部と、分析実行部による分析結果を入力データの特徴を表す特徴量ごとに表示する分析結果表示部と、を備えるため、機械学習モデルの学習の効率化を図り、機械学習モデルの特性を可視化することができる。
【図面の簡単な説明】
【0013】
【
図1】本実施形態に係る機械学習モデル特性可視化装置の処理の概要を説明するための図である。
【
図2】機械学習モデルにおける効果を説明するための図である。
【
図3】機械学習モデル特性可視化装置の物理的構成の一例を示すブロック図である。
【
図4】機械学習モデル特性可視化装置の機能的構成の一例を示すブロック図である。
【
図5】機械学習モデル特性可視化プログラムのフローチャートである。
【
図6】機械学習モデル特性可視化プログラムの処理の流れを示す図(1)である。
【
図7】機械学習モデル特性可視化プログラムの処理の流れを示す図(2)である。
【発明を実施するための形態】
【0014】
本実施形態に係る機械学習モデル特性可視化装置、機械学習モデル特性可視化方法、及び機械学習モデル特性可視化プログラムについて
図1ないし
図7を参照して以下に説明する。
【0015】
先ず
図1を参照して本実施形態に係る機械学習モデル特性可視化装置10の処理の概要について説明する。
図1は本実施形態に係る機械学習モデル特性可視化装置10の処理の概要を説明するための図である。
【0016】
機械学習モデル特性可視化装置10の処理は、「教師データ」1、「特徴量で分解」2、及び「評価・統計・可視化」3に分類することができる。
【0017】
機械学習モデルの教師あり学習では、学習用データと評価用データとが用意される。学習用データは機械学習モデルの学習に使用され、評価用データは機械学習モデルの精度評価に用いられる。機械学習モデルの精度評価において、学習用データとは異なる評価用データが用意されるのは、機械学習モデルが対象の未知の事象を予測するものだからである。従って、機械学習モデルの学習に用いられる「教師データ」1は学習用データと評価用データとが用意される。
【0018】
「教師データ」1にはその特徴を表す特徴量が与えられている。学習用データをその特徴量で分解し分類することで、評価の対象となる機械学習モデルの学習に使用された学習用データの特性を分析することができる。すなわち、大量の学習用データから特徴量を抽出し、学習用データ単位で特徴量のスケールで分類する。
【0019】
評価用データについては、評価用データをその特徴量で分解し分類することで、機械学習モデルの推論結果との比較において、評価用データのどの特徴量が推論結果に結びついているのかを分析することができる。推論結果とは、以前に機械学習モデルが形成した特徴量に基づく分類結果である。なお、推論結果は随時更新される。
【0020】
「評価・統計・可視化」3においては、学習用データ及び評価用データをそのデータ単位で特徴量ごとのスケールで分類されることで、評価され、統計化・可視化される。可視化では、特徴量ごとに分析された内容を、ヒートマップ(Heat Map)、ヒストグラム(Histogram)、散布図、円グラフなどのグラフを用いて行われる。
【0021】
図2を参照して、本実施形態に係る機械学習モデル特性可視化装置10を用いることの具体的な効果について説明する。
図2は機械学習モデルにおける効果を説明するための図である。
【0022】
例えば、画像認識に用いられる機械学習モデルにおいて、画像データ4の中のタンクローリー5の物体認識が出来なかった場合について説明する。機械学習モデル特性可視化装置10を用いることによって、学習用データが特徴量ごとに分解されて、特徴量ごとの分布を視覚化することで、学習用データの中にあるタンクローリーの画像データの枚数が少ないことが分かった。従って、タンクローリーの画像データの枚数を学習用データに追加し補うことで機械学習モデルは、画像データ4の中のタンクローリー5を物体認識できるようになり、矩形枠6(
図2参照)で捉えることができるようになる。
(機械学習モデル特性可視化装置10の物理的構成)
【0023】
図3を参照して、機械学習モデル特性可視化装置10の物理的構成の一例について説明する。
図3は機械学習モデル特性可視化装置10の物理的構成の一例を示すブロック図である。
【0024】
機械学習モデル特性可視化装置10は、通信インターフェース10a、Read Only Memory(ROM)10b、Random Access Memory(RAM)10c、記憶部10d、Central Processing Unit(CPU)10e、データベース部10f、入出力インターフェース10gなどを備えている。また、機械学習モデル特性可視化装置10は、その外部装置として入力装置10h及び出力装置10iを備えている。
通信インターフェース10aは、主にデータをネットワーク11に対して入出力を行う機能を備える。
【0025】
記憶部10dは、記憶装置として利用でき、機械学習モデル特性可視化装置10が動作する上で必要となる後述の機械学習モデル特性可視化プログラム、各種アプリケーション及び当該アプリケーションによって利用される各種データなどが記録される。
【0026】
入出力インターフェース10gは、機械学習モデル特性可視化装置10の入力装置10h及び出力装置10iに対してデータなどの送受信を行う。入力装置10hはキーボード、マウス、スキャナなどのことであり、出力装置10iはモニター、プリンタ、スピーカーなどのことであり、いわゆる周辺機器のことをいう。
【0027】
機械学習モデル特性可視化装置10は、後述する機械学習モデル特性可視化プログラムをROM10b若しくは記憶部10dに保存し、RAM10cなどで構成されるメインメモリに機械学習モデル特性可視化プログラムを取り込む。CPU10eは、機械学習モデル特性可視化プログラムを取り込んだメインメモリにアクセスして、機械学習モデル特性可視化プログラムを実行する。
【0028】
(機械学習モデル特性可視化装置10の機能的構成)
次に、
図4を参照して、機械学習モデル特性可視化装置10の機能的構成の一例について説明する。
図4は機械学習モデル特性可視化装置10の機能的構成の一例を示すブロック図である。
【0029】
機械学習モデル特性可視化装置10は、機械学習モデル特性可視化プログラムを実行することで、CPU10eに第1データ取得部20、第1格納部21、第2データ取得部22、特徴量生成部23、第2格納部24、第3データ取得部25、比較特徴量生成部26、第3格納部27、第4格納部28、第5格納部29、比較評価部30、第6格納部32、入力データ決定部33、分析方法決定部34、分析実行部35、及び分析結果表示部36などを機能部として備える。
【0030】
第1データ取得部20は、機械学習モデルの学習に用いられる、学習用データ及び評価用データを取得する。
学習用データ及び評価用データは画像に関するデータである。
【0031】
学習用データ及び評価用データは、機械学習モデル特性可視化装置10の外部で用意され、第1データ取得部20は学習用データ及び評価用データを取得する。
第1格納部21は、第1データ取得部20により取得された学習用データ及び評価用データを格納する。
学習用データ及び評価用データは、データベース部10fに格納される。
【0032】
第2データ取得部22は、学習用データ及び評価用データに内包されるデータの属性に関するアノテーションが予め付与された学習用教師データ及び評価用教師データを取得する。
【0033】
特徴量生成部23は、第1格納部21によって格納された学習用データ及び評価用データの特徴を表す特徴量のデータである学習用特徴量データ及び評価用特徴量データを生成する。
【0034】
特徴量生成部23は、学習用データ及び評価用データの特徴を表す特徴量を生成し抽出する機械学習モデル若しくはルールベースのアルゴリズムである。
【0035】
学習用特徴量データは、学習用データの特徴を表す特徴量の値である。例えば、特徴量が画像データごとの明度(256階調)の平均値であれば、学習用特徴量データは、学習用データに含まれる画像データの明度の平均値を集めたデータとなる。また、特徴量が画像データごとに含まれているオブジェクト、例えば、車、自転車、オートバイ、人、など)であれば、学習用特徴量データは、学習用データの個々の画像データに含まれるオブジェクトを集めたデータとなる。
【0036】
第2格納部24は、特徴量生成部23により生成された学習用特徴量データ及び評価用特徴量データを格納する。
学習用特徴量データ及び評価用特徴量データは、データベース部10fに格納される。
【0037】
第3データ取得部25は、学習用データ及び学習用教師データを用いて学習された機械学習モデルの評価用データに基づく推論結果を取得する。
【0038】
比較特徴量生成部26は、第1格納部21又は第2格納部24によって格納されたデータの中からいずれか二を選択し、その選択されたデータを特徴量ごとに比較し、その差異を比較特徴量データとして生成する。
【0039】
比較特徴量生成部26は、学習用データ、評価用データ、学習用特徴量データ、及び評価用特徴量データの中からいずれか二つを選択する。学習用データと評価用特徴量データが選択された場合、評価用特徴量データに係る特徴量に基づいて、学習用データと評価用特徴量データとの差異が比較特徴量データとなる。例えば、特徴量が画像データごとの明度(256階調)の平均値である場合、画像データごとの明度(256階調)の各階調ごとに画像データの枚数について学習用データと評価用特徴量データとを対比しその差を比較特徴量データとする。
第3格納部27は、比較特徴量生成部26により生成された比較特徴量データを格納する。
比較特徴量データは、データベース部10fに格納される。
【0040】
第4格納部28は、第2データ取得部22により取得された学習用教師データ及び評価用教師データを格納する。
学習用教師データ及び評価用教師データは、データベース部10fに格納される。
第5格納部29は、第3データ取得部により取得された推論結果を格納する。
推論結果は、データベース部10fに格納される。
【0041】
比較評価部30は、推論結果を評価用教師データと比較し推論結果の妥当性を評価し比較結果を生成する。
【0042】
学習用データと学習用教師データとによって学習された機械学習モデルの評価用データの推論結果について、評価用教師データと比較することで、学習された機械学習モデルの学習効果を確認するものである。
【0043】
第6格納部32は、比較評価部によって生成された比較結果を格納する。
比較結果は、データベース部10fに格納される。
比較特徴量生成部26は、第1格納部21ないし第6格納部32によって格納されたデータの中からいずれか二を選択し、その選択されたデータを特徴量ごとに比較し、その差異を比較特徴量データとして生成する。
【0044】
比較特徴量生成部26は、第1格納部21から第6格納部32によってデータがデータベース部10fに格納された場合は、第1格納部21から第6格納部32によって格納されたデータの中からいずれか二つのデータを選択する。
【0045】
入力データ決定部33は、第1格納部21ないし第6格納部32によって格納されたデータのうちいずれかを入力データとして決定する。
【0046】
入力データ決定部33は、データベース部10fに格納されたデータの中から分析処理を行い表示情報として表示する情報を決定する。
【0047】
入力データ決定部33が決定する入力データの数は特に制約を受けるものではなく、1個でもよいし複数個でもよい。入力データ決定部33は、機械学習モデル特性可視化装置10のユーザーの操作入力を受け付けて入力データを決定する。当該ユーザーが分析処理を行い表示情報として表示したい情報を選択する。
【0048】
分析方法決定部34は、入力データ決定部33により決定された入力データを分析するための分析方法を決定する。
分析方法は、前記特徴量に基づいたグラフ化の方法である。
【0049】
グラフ化の方法とは、例えば、ヒートマップ(Heat Map)、ヒストグラム(Histogram)、散布図、円グラフなどのことである。
【0050】
分析実行部35は、特徴量ごとの値及び特徴量ごとの学習量に基づき、入力データを分析方法決定部によって決定された分析方法により分析する。
【0051】
分析結果表示部36は、分析実行部35による分析結果を入力データの特徴を表す特徴量ごとに表示する。
【0052】
(機械学習モデル特性可視化方法、及び機械学習モデル特性可視化プログラムについて)
次に、
図5を参照して、本実施形態に係る機械学習モデル特性可視化方法について機械学習モデル特性可視化プログラムとともに説明する。
図5は機械学習モデル特性可視化プログラムのフローチャートである。
【0053】
図5に示す様に、機械学習モデル特性可視化プログラムは、第1データ取得ステップS20、第1格納ステップS21、第2データ取得ステップS22、特徴量生成ステップS23、第2格納ステップS24、第3データ取得ステップS25、比較特徴量生成ステップS26、第3格納ステップS27、第4格納ステップS28、第5格納ステップS29、比較評価ステップS30、第6格納ステップS32、入力データ決定ステップS33、分析方法決定ステップS34、分析実行ステップS35、及び分析結果表示ステップS36などを含む。
【0054】
機械学習モデル特性可視化装置10は、ROM10b若しくは記憶部10dに保存された機械学習モデル特性可視化プログラムをメインメモリに取り込み、CPU10eにより機械学習モデル特性可視化プログラムを実行する。
【0055】
機械学習モデル特性可視化プログラムは、機械学習モデル特性可視化装置10のCPU10eに対して、第1データ取得機能、第1格納機能、第2データ取得機能、特徴量生成機能、第2格納機能、第3データ取得機能、比較特徴量生成機能、第3格納機能、第4格納機能、第5格納機能、比較評価機能、第6格納機能、入力データ決定機能、分析方法決定機能、分析実行機能、及び分析結果表示機能などの機能を実現させる。
【0056】
これらの機能は
図5のフローチャートに示す順序で処理を行う場合を例示したが、これに限らず、これらの順番を適宜入れ替えて機械学習モデル特性可視化プログラムを実行してもよい。
【0057】
なお、上記した各機能は、前述の機械学習モデル特性可視化装置10の第1データ取得部20、第1格納部21、第2データ取得部22、特徴量生成部23、第2格納部24、第3データ取得部25、比較特徴量生成部26、第3格納部27、第4格納部28、第5格納部29、比較評価部30、第6格納部32、入力データ決定部33、分析方法決定部34、分析実行部35、及び分析結果表示部36の説明と重複するため、その詳細な説明は省略する。
【0058】
第1データ取得機能は、機械学習モデルの学習に用いられる、学習用データ及び評価用データを取得する(S20:第1データ取得ステップ)。
【0059】
第1格納機能は、第1データ取得部20により取得された学習用データ及び評価用データを格納する(S21:第1格納ステップ)。
【0060】
第2データ取得機能は、学習用データ及び評価用データに内包されるデータの属性に関するアノテーションが予め付与された学習用教師データ及び評価用教師データを取得する(S22:第2データ取得ステップ)。
【0061】
特徴量生成機能は、第1格納部21によって格納された学習用データ及び評価用データの特徴を表す特徴量のデータである学習用特徴量データ及び評価用特徴量データを生成する(S23:特徴量生成ステップ)。
【0062】
第2格納機能は、特徴量生成部23により生成された学習用特徴量データ及び評価用特徴量データを格納する(S24:第2格納ステップ)。
【0063】
第3データ取得機能は、学習用データ及び学習用教師データを用いて学習された機械学習モデルの評価用データに基づく推論結果を取得する(S25:第3データ取得ステップ)。
【0064】
比較特徴量生成機能は、第1格納部21又は第2格納部24によって格納されたデータの中からいずれか二を選択し、その選択されたデータを特徴量ごとに比較し、その差異を比較特徴量データとして生成する(S26:比較特徴量生成ステップ)。
【0065】
第3格納機能は、比較特徴量生成部26により生成された比較特徴量データを格納する(S27:第3格納ステップ)。
【0066】
第4格納機能は、第2データ取得部22により取得された学習用教師データ及び評価用教師データを格納する(S28:第4格納機能)。
【0067】
第5格納機能は、第3データ取得部により取得された推論結果を格納する(S29:第5格納ステップ)。
【0068】
比較評価機能は、推論結果を評価用教師データと比較し推論結果の妥当性を評価し比較結果を生成する(S30:比較評価ステップ)。
第6格納機能は、比較評価部によって生成された比較結果を格納する(S32:第6格納機能)。
【0069】
入力データ決定機能は、第1格納部21ないし第6格納部32によって格納されたデータのうちいずれかを入力データとして決定する(S33:入力データ決定ステップ)。
【0070】
分析方法決定機能は、入力データ決定部33により決定された入力データを分析するための分析方法を決定する(S34:分析方法決定ステップ)。
【0071】
分析実行機能は、特徴量ごとの値及び特徴量ごとの学習量に基づき、入力データを分析方法決定部によって決定された分析方法により分析する(S35:分析実行ステップ)。
【0072】
分析結果表示機能は、分析実行部35による分析結果を入力データの特徴を表す特徴量ごとに表示する(S36:分析結果表示ステップ)。
【0073】
次に、
図6及び
図7を参照して機械学習モデル特性可視化プログラムの処理の流れについて説明する。
図6及び
図7は機械学習モデル特性可視化プログラムの処理の流れを示す図である。
【0074】
機械学習モデル特性可視化プログラムを実行するために教師データである学習用データ40と評価用データ41が用意される。学習用データ40及び評価用データ41は、機械学習モデル特性可視化装置10のデータベース部10fに格納される。
【0075】
学習用データ40は、特徴量生成処理42が行われ特徴量データ43が生成され、データベース部10fに格納される。特徴量生成処理42は、上記した特徴量生成部23及び特徴量生成ステップS23において行われる処理と同一の内容である。
【0076】
学習用データ40の教師データは、個々の学習用データ40に内包されるデータの属性に関するアノテーション(タグ付け)44が行われてアノテーションデータ(教師データ)45が生成される。このアノテーションデータ44は、既に機械学習モデルの学習に用いられた教師データをそのまま利用することができる。アノテーションデータ(教師データ)45もデータベース部10fに格納される。なお、上述した学習用教師データはアノテーションデータ(教師データ)45のことである。
【0077】
学習用データ40とアノテーションデータ45を用いて機械学習モデルの学習46が行われる。機械学習モデルの学習46は、機械学習モデル特性可視化プログラムが実行する処理には含まれないが、機械学習モデル可視化プログラムに機械学習モデルの学習46の処理を含めることも出来る。
【0078】
次に評価用データ41を用いた処理が行われる。
学習済み機械学習モデル47の評価用データ41に基づく推論結果48を得る。推論結果48はデータベース部10fに格納される。
【0079】
評価用データ41の教師データも、学習用データ40の場合と同様に、個々の評価用データ41に内包されるデータの属性に関するアノテーション(タグ付け)49が行われてアノテーションデータ(教師データ)50が生成される。このアノテーションデータ50も、学習用データ40の場合と同様に、学習された機械学習モデルの性能評価に用いられる教師用データをそのまま利用することができる。アノテーションデータ(教師データ)50はデータベース部10fに格納される。
【0080】
比較特徴量生成処理53では、データベース部10fに格納された全てのデータの中からいずれか二つを選択する。学習用データと評価用特徴量データが選択された場合、評価用特徴量データに係る特徴量に基づいて、学習用データと評価用特徴量データとの差異が比較特徴量データ54となる。なお、比較特徴量生成処理53は、上述した比較特徴量生成部26及び比較特徴量生成ステップS26の処理の内容と同じである。比較特徴量データ54はデータベース部10fに格納される。
【0081】
比較評価処理55では、推論結果48とアノテーションデータ(教師データ)50との比較評価が行われ、推論結果48の妥当性が評価され、比較結果56が生成される。比較結果56はデータベース部10fに格納される。なお、比較評価処理55は、上述した比較評価部30及び比較評価ステップS30の処理の内容と同じである。
【0082】
評価用データ41は、特徴量生成処理51が行われ特徴量データ52が生成される。特徴量データ52はデータベース部10fに格納される。特徴量生成処理51は、上記した特徴量生成部23及び特徴量生成ステップS23において行われる処理と同一の内容である。特徴量とは、対象である評価用データ(若しくは学習用データ)の特徴が表された数値である。従って、特徴量と数値とは一対をなすものであり、特徴量生成処理51は、特徴量を抽出するとともに、特徴量の程度を表す数値を特徴量データ52として生成するものである。
【0083】
データセット選択処理58は、データベース部10fに格納されたデータの中から分析処理60の対象となるデータセットを選択する処理を行う。この処理58はユーザーの指令を受け付けて行われる。上述した入力データ決定部33及び入力データ決定ステップS33の処理の内容と同じである。
【0084】
分析方法選択処理59は、データセット選択処理58によって選択されたデータセットを分析するための分析方法を選択する処理を行う。この処理59はユーザーの指令を受け付けて行われる。上述した分析方法決定部34及び分析方法決定ステップS34の処理の内容と同じである。
【0085】
分析処理60は、特徴量ごとの値、及び特徴量ごとの学習量に基づき、選択されたデータセットを選択された分析方法により分析する処理を行う。分析処理60は、上述した分析実行部35及び分析実行ステップS35の処理の内容と同じである。
【0086】
表示処理61は、分析処理60の分析結果をデータセットの特徴を表す特徴量ごと表示する。表示処理61は、上述した分析結果表示部36及び分析結果表示ステップS36の処理の内容と同じである。
表示情報62は、表示処理61の処理に用いられた、可視化のための情報である。
【0087】
上記した本実施形態によれば、学習用データ及び学習用教師データの特徴を表す特徴量ごと可視化するので、機械学習モデルの特性、例えば、推論が得意な事例、及び推論が不得意な事例を可視化することができる。
【0088】
さらに、上記した本実施形態によれば、学習済み機械学習モデルの評価用データに基づく推論結果と評価用教師データとを特徴量ごとに比較することができるので、機械学習モデルの特性を特徴量ごとに得意な事例、及び不得意な事例を可視化することができる。
【0089】
さらに、上記した本実施形態によれば、分析方法は選択されたデータセットに合わせて適宜選択することができるので、データセットの特徴を表した特徴量に適した分析方法を選択することができる。
【0090】
なお、本開示は上記した実施形態に係る機械学習モデル特性可視化装置10、機械学習モデル特性可視化方法、及び機械学習モデル特性可視化プログラムに限定されるものではなく、特許請求の範囲に記載した本開示の要旨を逸脱しない限りにおいて、その他種々の変形例、若しくは応用例により実施可能である。
【符号の説明】
【0091】
1 教師データ
2 特徴量で分解
3 評価・統計・可視化
10 機械学習モデル特性可視化装置
10a 通信インターフェース
10b Read Only Memory(ROM)、
10c Random Access Memory(RAM)
10d 記憶部
10e Central Processing Unit(CPU)
10f データベース部
10g 入出力インターフェース
10h 入力装置
10i 出力装置
11 ネットワーク
20 第1データ取得部
21 第1格納部
22 第2データ取得部
23 特徴量生成部
24 第2格納部
25 第3データ取得部
26 比較特徴量生成部
27 第3格納部
28 第4格納部
29 第5格納部
30 比較評価部
32 第6格納部
33 入力データ決定部
34 分析方法決定部
35 分析実行部
36 分析結果表示部
40 学習用データ
41 評価用データ
42 特徴量生成
43 特徴量データ
44 アノテーション(タグ付け)
45 アノテーションデータ(教師データ)
46 機械学習モデルの学習
47 学習済み機械学習モデル
48 推論結果
49 アノテーション(タグ付け)
50 アノテーションデータ(教師データ)
51 特徴量生成処理
52 特徴量データ
53 比較特徴量生成処理
54 比較特徴量データ
55 比較評価処理
56 比較結果
58 データセット選択処理
59 分析方法選択処理
60 分析処理
61 表示処理
62 表示情報