IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社DATAFLUCTの特許一覧

特開2023-79181情報処理システム、情報処理方法及び情報処理プログラム
<>
  • 特開-情報処理システム、情報処理方法及び情報処理プログラム 図1
  • 特開-情報処理システム、情報処理方法及び情報処理プログラム 図2
  • 特開-情報処理システム、情報処理方法及び情報処理プログラム 図3
  • 特開-情報処理システム、情報処理方法及び情報処理プログラム 図4
  • 特開-情報処理システム、情報処理方法及び情報処理プログラム 図5
  • 特開-情報処理システム、情報処理方法及び情報処理プログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023079181
(43)【公開日】2023-06-07
(54)【発明の名称】情報処理システム、情報処理方法及び情報処理プログラム
(51)【国際特許分類】
   G06N 99/00 20190101AFI20230531BHJP
   G16Z 99/00 20190101ALI20230531BHJP
   G06N 20/00 20190101ALI20230531BHJP
【FI】
G06N99/00 180
G16Z99/00
G06N20/00
【審査請求】未請求
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2022184028
(22)【出願日】2022-11-17
(62)【分割の表示】P 2022037737の分割
【原出願日】2022-03-11
(31)【優先権主張番号】P 2021192392
(32)【優先日】2021-11-26
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】521456117
【氏名又は名称】株式会社DATAFLUCT
(74)【代理人】
【識別番号】110002789
【氏名又は名称】弁理士法人IPX
(72)【発明者】
【氏名】久米村 隼人
【テーマコード(参考)】
5L049
【Fターム(参考)】
5L049DD02
5L049DD04
(57)【要約】      (修正有)
【課題】効率的な説明変数の探索に適した探索範囲をユーザが指定しやすくする情報処理システム、情報処理方法及び情報処理プログラムを提供する。
【解決手段】情報処理装置と、ユーザ端末と、データベースDBと、が電気通信回線を通じて通信可能な情報処理システムにおいて、情報処理装置の制御部は、入力データの入力を受け付けるデータ受付ステップA001と、入力される入力データに基づき、学習モデルから説明変数を抽出する抽出ステップA005と、説明変数の形式に応じて、抽出された説明変数の探索範囲を指定可能な視覚情報を生成する視覚情報生成ステップA006と、を含む処理を実行する。
【選択図】図5
【特許請求の範囲】
【請求項1】
情報処理システムであって、
制御部を備え、
前記制御部は、次の各ステップを実行するように構成され、
データ受付ステップでは、入力データの入力を受け付け、
抽出ステップでは、入力される前記入力データに基づき、学習モデルから説明変数を抽出し、
視覚情報生成ステップでは、前記説明変数の形式に応じて、抽出された前記説明変数の探索範囲を指定可能な視覚情報を生成する、もの。
【請求項2】
請求項1に記載の情報処理システムにおいて、
前記学習モデルは、前記入力データを少なくとも1つの学習器に入力することにより生成される、もの。
【請求項3】
請求項2に記載の情報処理システムにおいて、
前記説明変数の形式が文字列である場合、前記視覚情報は、当該説明変数を前記学習モデルに入力するか否かを選択可能に構成される、もの。
【請求項4】
請求項2に記載の情報処理システムにおいて、
前記説明変数の形式が数値である場合、前記視覚情報は、前記学習モデルに入力される前記説明変数の変域を指定可能に構成され、
前記探索範囲は、前記変域に基づき規定される、もの。
【請求項5】
請求項4に記載の情報処理システムにおいて、
前記説明変数の形式が数値である場合、前記視覚情報は、前記学習モデルに入力される前記説明変数の上限値及び下限値のうちの少なくとも1つを指定可能に構成され、
前記探索範囲は、前記上限値及び前記下限値のうちの少なくとも1つに基づき規定される、もの。
【請求項6】
請求項4に記載の情報処理システムにおいて、
前記説明変数の形式が数値である場合、前記視覚情報は、スライダーで表示され、
前記探索範囲は、前記スライダーの位置に基づき指定される、もの。
【請求項7】
請求項1に記載の情報処理システムにおいて、
前記視覚情報生成ステップでは、前記抽出ステップにて前記説明変数が複数抽出された場合、複数の前記説明変数のそれぞれに対応する前記視覚情報を生成する、もの。
【請求項8】
請求項1に記載の情報処理システムにおいて、
さらに、変数名抽出ステップでは、前記入力データから、抽出された前記説明変数を表す変数名を抽出し、
変数表示ステップでは、前記説明変数の前記視覚情報と、前記変数名と、を一覧可能に表示させる、もの。
【請求項9】
請求項1に記載の情報処理システムにおいて、
さらに、結果表示ステップでは、前記視覚情報と、指定された前記探索範囲における前記説明変数に基づき前記学習モデルから出力される結果情報と、を一覧可能に表示させる、もの。
【請求項10】
請求項9に記載の情報処理システムにおいて、
前記結果表示ステップでは、さらに過去に出力された前記結果情報の履歴情報を表示させる、もの。
【請求項11】
請求項1に記載の情報処理システムにおいて、
前記視覚情報は、前記探索範囲を離散的に指定可能な、もの。
【請求項12】
請求項1に記載の情報処理システムにおいて、
前記入力データは、少なくとも構造化データを含む、もの。
【請求項13】
情報処理方法であって、
請求項1~請求項12の何れか1つに記載の情報処理システムの各ステップを含む、もの。
【請求項14】
情報処理プログラムであって、
コンピュータに、請求項1~請求項12の何れか1つに記載の情報処理システムの各ステップを実行させる、もの。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システム、情報処理方法及び情報処理プログラムに関する。
【背景技術】
【0002】
従来技術として、学習器に関する下記の文献が挙げられる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2021-177428号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
学習モデルを用いた予測を行う際に、目的関数を最大化する説明変数を探索することがある。しかし、説明変数の探索の効率化には、データサイエンスに関する知見が比較的高い水準で求められることがある。
【課題を解決するための手段】
【0005】
(1)本発明の一態様によれば、情報処理システムが提供される。この情報処理システムは、制御部を備える。制御部は、次の各ステップを実行するように構成される。データ受付ステップでは、入力データの入力を受け付ける。抽出ステップでは、入力される入力データに基づき、学習モデルから説明変数を抽出する。視覚情報生成ステップでは、説明変数の形式に応じて、抽出された説明変数の探索範囲を指定可能な視覚情報を生成する。
【0006】
かかる情報処理システムによれば、従来技術に比べて、効率的な説明変数の探索に適した探索範囲をユーザが指定しやすくなる。
【図面の簡単な説明】
【0007】
図1】情報処理システム1を表す構成図である。
図2】情報処理装置2のハードウェア構成を示すブロック図である。
図3】ユーザ端末3のハードウェア構成を示すブロック図である。
図4】制御部23が備える機能部の一例を示す。
図5】情報処理システム1において実行される情報処理の流れの一例を示すアクティビティ図である。
図6】表示部34に表示される表示内容の一例である。
【発明を実施するための形態】
【0008】
以下、図面を用いて本発明の実施形態について説明する。以下に示す実施形態中で示した各種特徴事項は、互いに組み合わせ可能である。
【0009】
ところで、本実施形態に登場するソフトウェアを実現するためのプログラムは、コンピュータが読み取り可能な非一時的な記録媒体(Non-Transitory Computer-Readable Medium)として提供されてもよいし、外部のサーバからダウンロード可能に提供されてもよいし、外部のコンピュータで当該プログラムを起動させてクライアント端末でその機能を実現(いわゆるクラウドコンピューティング)するように提供されてもよい。
【0010】
また、本実施形態において「部」とは、例えば、広義の回路によって実施されるハードウェア資源と、これらのハードウェア資源によって具体的に実現されうるソフトウェアの情報処理とを合わせたものも含みうる。また、本実施形態においては様々な情報を取り扱うが、これら情報は、例えば電圧・電流を表す信号値の物理的な値、0又は1で構成される2進数のビット集合体としての信号値の高低、又は量子的な重ね合わせ(いわゆる量子ビット)によって表され、広義の回路上で通信・演算が実行されうる。
【0011】
また、広義の回路とは、回路(Circuit)、回路類(Circuitry)、プロセッサ(Processor)、及びメモリ(Memory)等を少なくとも適当に組み合わせることによって実現される回路である。すなわち、特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)、プログラマブル論理デバイス(例えば、単純プログラマブル論理デバイス(Simple Programmable Logic Device:SPLD)、複合プログラマブル論理デバイス(Complex Programmable Logic Device:CPLD)、及びフィールドプログラマブルゲートアレイ(Field Programmable Gate Array:FPGA))等を含むものである。
【0012】
1.ハードウェア構成
本節では、ハードウェア構成について説明する。
【0013】
<情報処理システム1>
図1は、情報処理システム1を表す構成図である。情報処理システム1は、情報処理装置2と、ユーザ端末3と、データベースDB1と、を備える。情報処理装置2と、ユーザ端末3と、データベースDB1と、は、電気通信回線を通じて通信可能に構成されている。一実施形態において、情報処理システム1とは、1つ又はそれ以上の装置又は構成要素からなるものである。仮に例えば、情報処理装置2のみからなる場合であれば、情報処理システム1は、情報処理装置2となりうる。以下、これらの構成要素について説明する。
【0014】
<情報処理装置2>
図2は、情報処理装置2のハードウェア構成を示すブロック図である。情報処理装置2は、通信部21と、記憶部22と、制御部23とを備え、これらの構成要素が情報処理装置2の内部において通信バス20を介して電気的に接続されている。各構成要素についてさらに説明する。
【0015】
通信部21は、USB、IEEE1394、Thunderbolt(登録商標)、有線LANネットワーク通信等といった有線型の通信手段が好ましいものの、無線LANネットワーク通信、3G/LTE/5G等のモバイル通信、BLUETOOTH(登録商標)通信等を必要に応じて含めてもよい。すなわち、これら複数の通信手段の集合として実施することがより好ましい。すなわち、情報処理装置2は、通信部21及びネットワークを介して、外部から種々の情報を通信してもよい。
【0016】
記憶部22は、前述の記載により定義される様々な情報を記憶する。これは、例えば、制御部23によって実行される情報処理装置2に係る種々のプログラム等を記憶するソリッドステートドライブ(Solid State Drive:SSD)等のストレージデバイスとして、あるいは、プログラムの演算に係る一時的に必要な情報(引数、配列等)を記憶するランダムアクセスメモリ(Random Access Memory:RAM)等のメモリとして実施されうる。記憶部22は、制御部23によって実行される情報処理装置2に係る種々のプログラムや変数等を記憶している。
【0017】
制御部23は、情報処理装置2に関連する全体動作の処理・制御を行う。制御部23は、例えば不図示の中央処理装置(Central Processing Unit:CPU)である。制御部23は、記憶部22に記憶された所定のプログラムを読み出すことによって、情報処理装置2に係る種々の機能を実現する。すなわち、記憶部22に記憶されているソフトウェアによる情報処理が、ハードウェアの一例である制御部23によって具体的に実現されることで、制御部23に含まれる各機能部として実行されうる。これらについては、次節においてさらに詳述する。なお、制御部23は単一であることに限定されず、機能ごとに複数の制御部23を有するように実施してもよい。またそれらの組合せであってもよい。
【0018】
<ユーザ端末3>
図3は、ユーザ端末3のハードウェア構成を示すブロック図である。ユーザ端末3は、通信部31と、記憶部32と、制御部33と、表示部34と、入力部35とを備え、これらの構成要素がユーザ端末3の内部において通信バス30を介して電気的に接続されている。通信部31、記憶部32及び制御部33の説明は、情報処理装置2における各部の説明と同様のため省略する。
【0019】
表示部34は、ユーザ端末3筐体に含まれるものであってもよいし、外付けされるものであってもよい。表示部34は、ユーザが操作可能なグラフィカルユーザインターフェース(Graphical User Interface:GUI)の画面を表示する。これは例えば、CRTディスプレイ、液晶ディスプレイ、有機ELディスプレイ及びプラズマディスプレイ等の表示デバイスを、ユーザ端末3の種類に応じて使い分けて実施することが好ましい。
【0020】
入力部35は、ユーザ端末3の筐体に含まれるものであってもよいし、外付けされるものであってもよい。例えば、入力部35は、表示部34と一体となってタッチパネルとして実施されてもよい。タッチパネルであれば、ユーザは、タップ操作、スワイプ操作等を入力することができる。もちろん、タッチパネルに代えて、スイッチボタン、マウス、QWERTYキーボード等を採用してもよい。すなわち、入力部35がユーザによってなされた操作入力を受け付ける。当該入力が命令信号として、通信バス30を介して制御部33に転送され、制御部33が必要に応じて所定の制御や演算を実行しうる。
【0021】
<データベースDB1>
データベースDB1は、外部データD0を記憶する。外部データD0は、例えば公衆がアクセス可能なデータであっても、特定のユーザのみがアクセス可能なデータであってもよい。また、外部データD0は、本情報処理システム1を使用するユーザのみがアクセス可能なデータであってもよい。データベースDB1は、単一の記憶デバイスにより実現されていても、複数の記憶デバイスにより実現されていてもよい。外部データD0が表す内容は、例えば衛生観測結果、気候観測結果、統計資料など、任意である。
【0022】
2.機能構成
図4は、制御部23が備える機能部の一例を示す。図4に示すように、制御部23は、データ受付部231と、抽出部232と、抽出部232と、変数名抽出部233と、視覚情報生成部234と、変数表示部235と、を備える。
【0023】
データ受付部231は、入力データDの入力を受け付ける。入力データDは、情報処理装置2に入力されるデータである。例えば、入力データDは、ユーザが保有する保有データと、ユーザ以外が保有するデータ、例えばデータベースDB1に記憶されたデータと、のうちの少なくとも1つを含んでもよい。入力データDは、少なくとも構造化データを含む。構造化データは、予め定められた構造となるように標準化されたデータである。なお、入力データDは、構造化データ以外のデータ、例えば非構造化データ、又は半構造化データを含んでもよい。非構造化データは、構造化データのように標準化された構造を持たない任意の形式のデータである。半構造化データは、非構造化データと、当該非構造化データを識別可能なタグと、の組み合わせからなる。半構造化データの形式は、例えば、グラフ型、キーバリュー型、ドキュメント型、カラム型などである。
【0024】
当該入力データDは、学習器MLに入力される。学習器MLは、入力された入力データDに学習器MLは入力された入力データDに基づき、学習モデルM1を生成する。なお、情報処理システム1の内部に記憶されているものに限られず、情報処理システム1の外部に存在するものでもよい。学習モデルM1は、入力データDに含まれる説明変数x1に基づき、評価パラメータy1を出力する。
【0025】
抽出部232は、入力される入力データDに基づき、学習モデルM1から説明変数x1を抽出する。学習モデルM1は、入力データDを少なくとも1つの学習器MLに入力することにより生成される。
【0026】
学習モデルM1は、入力される入力データDの説明変数x1を用いて、評価パラメータy1を導出する。評価パラメータy1は、予め設定されたパラメータでも、ユーザが任意に設定するパラメータでもよい。
【0027】
変数名抽出部233は、入力データDから、抽出された説明変数x1を表す変数名VNxを抽出する。抽出方法は任意であるが、例えば、変数名抽出部233は、入力データDに含まれる説明変数x1のそれぞれに対応する数字、文字列などの情報を、変数名VNxとして抽出する。また、変数名抽出部233は、入力データDから評価パラメータy1の変数名VNyを抽出する。抽出方法は、説明変数x1の変数名と同様である。
【0028】
視覚情報生成部234は、説明変数x1の形式に応じて、視覚情報IF2は、抽出された説明変数x1の探索範囲を指定可能な視覚情報IF2を生成する。詳細には、視覚情報生成部234は、抽出部232にて説明変数x1が複数抽出された場合、複数の説明変数x1のそれぞれに対応する視覚情報IF2を生成する。説明変数x1の形式とは、例えば、文字列、数値、ブーリアン変数などである。数値は、自然数、少数、浮動小数点など、任意の形式のものを含みうる。
【0029】
視覚情報IF2は、説明変数x1の探索範囲に関する情報を含む。説明変数x1の探索範囲に関する情報とは、対象となる説明変数x1を評価パラメータy1の導出に用いるか否か、説明変数x1の最大値及び最小値に関する情報を含みうる。視覚情報IF2は、ユーザが説明変数x1の探索範囲を指定するためのユーザインタフェースとして機能することができる。ユーザインタフェースとしての視覚情報IF2の具体的態様は、例えばチェックボックス、ラジオボタン、プルダウン、ドラムロール、入力フォーム、スライダーなど任意である。以下、説明の便宜上、ユーザインタフェースを単にUIということがある。
【0030】
説明変数x1の形式が文字列である場合、視覚情報IF2は、当該説明変数x1を学習モデルM1に入力するか否かを選択可能に構成される。説明変数x1の形式が数値である場合、視覚情報IF2は、学習モデルM1に入力される説明変数x1の変域を指定可能に構成される。この場合、探索範囲Rは、変域に基づき規定される。説明変数x1の変域とは、説明変数x1の定義域ともいう。視覚情報IF2は、学習モデルM1に入力される説明変数x1の上限値及び下限値のうちの少なくとも1つを指定可能に構成されてもよい。この場合、探索範囲は、上限値及び下限値のうちの少なくとも1つに基づき規定される。特に本実施形態では、説明変数の形式が数値である場合、視覚情報は、スライダーで表示される。探索範囲は、スライダーの位置に基づき指定される。これにより、ユーザは、スライダーの視覚情報IF2に基づき説明変数x1の探索範囲を直感的に指定することができる。視覚情報IF2は、探索範囲を離散的に指定可能であっても、連続的に指定可能であってもよい。離散的に指定可能な状態とは、とは、例えば、説明変数x1の形式が浮動小数点である場合、当該説明変数x1の探索範囲を整数によって離散的に指定可能なものをいう。なお、視覚情報IF2は、探索範囲を連続的に指定可能であってもよい。
【0031】
学習モデルM1には、指定された探索範囲R内で変化する説明変数x1が入力可能である。学習モデルM1は、探索範囲R内の説明変数x1の中から、所定の探索条件を満たす説明変数x1を探索する。所定の探索条件とは、例えば、評価パラメータy1が最大・最小となることや、予め定められた評価パラメータy1の閾値との関係によって規定される。探索条件は、ユーザによって任意に決定されたものでも、任意のアルゴリズムにより自動で決定されたものでもよい。以下、説明の便宜上、探索条件を満たす説明変数x1を探索することを、探索シミュレーションということがある。
また、視覚情報IF2には、探索条件に基づき推奨される探索範囲Rに関する情報を含んでもよい。なお、推奨される探索範囲Rは、上述した上限値及び/又は下限値によって指定されるものに限られない。例えば、当該探索範囲Rは、複数の変域によって指定されるものでもよい。視覚情報生成部234は、当該推奨される探索範囲Rが予め指定された視覚情報IF2を生成してもよい。視覚情報生成部234による指定は、ユーザによって変更可能であってもよい。
【0032】
変数表示部235は、変数名抽出部233によって抽出された変数名VNxを表示部34に表示させる。表示態様は任意であるが、例えば、変数表示部235は、説明変数x1の視覚情報IF2と、変数名VNxと、を一覧可能に表示部34に表示させる。
【0033】
結果表示部236は、結果情報IF3を表示部34に表示させる。結果情報IF3は、指定された探索範囲における説明変数x1に基づき学習モデルM1から出力される。結果情報IF3は、例えば、所定の条件を満たす評価パラメータy1及び説明変数x1を含む。詳細には、結果表示部236は、視覚情報IF2と、結果情報IF3と、を一覧可能に表示させる。本実施形態の結果表示部236は、さらに過去に出力された結果情報IF3の履歴情報IF4を表示させる。結果表示部236は、結果情報IF3と履歴情報IF4とを一覧可能に表示させる。これにより、ユーザは、直近に生成された結果情報IF3を、過去に生成された結果情報IF3と比較することが容易となる。
【0034】
3.情報処理の詳細
本節では、前述した情報処理システム1において実行される情報処理について説明する。なお、当該情報処理は、アクティビティ図に図示されない、任意の例外処理を含みうる。例外処理は、当該情報処理の中断や、各処理の省略を含む。当該情報処理にて行われる選択又は入力は、ユーザによる操作に基づくものでも、ユーザの操作に依らず自動で行われるものでもよい。
【0035】
図5は、情報処理システム1において実行される情報処理の流れの一例を示すアクティビティ図である。図5に示すように、アクティビティA001にて、データ受付部231は、入力データDの入力を受け付ける。以下、説明の便宜上、アクティビティA001にて受け付けた入力データDを第1の入力データD1ということがある。
【0036】
次に、処理がアクティビティA002に進み、制御部23は、入力データDを学習器MLに入力する。これにより、学習器MLは、入力データDに基づき学習モデルM1を生成する。このとき、制御部23は、第1の入力データD1に対して所定の変換処理が行われた第2の入力データD2を、学習器MLに入力してもよい。この場合、学習器MLは、第2の入力データD2を用いて学習モデルM1を生成する。なお、学習器MLは、情報処理システム1に含まれる任意の部材に保存されているものでも、情報処理システム1と電気通信回線を介して通信可能な外部装置に保存されているものでもよい。なお、外部装置の図示は省略されている。
【0037】
なお、変換処理とは、データ受付部231に入力された第1の入力データD1を、特定された学習器MLに入力可能な態様である第2の入力データD2に変換する処理である。変換処理は、例えば、第1の入力データD1の一部の削除、欠損値の補完、外れ値の削除、第1の入力データD1の規格化など、任意の処理を含みうる。変換処理は、データ整形ともいわれる。
変換処理は、第1の入力データD1に含まれる複数の説明変数x1の結合処理、分離処理、補正などを含んでもよい。例えば、変換処理は、第1の入力データD1が時系列を表す年、月、及び日をそれぞれ異なる説明変数x1として有する場合に、これらの複数の説明変数x1を1つの入力に結合する処理を含みうる。また、変換処理は、複数のデータ受付部231にて複数の第1の入力データD1を受け付けた場合、これらの第1の入力データD1の結合処理を行ってもよい。別例として、変換処理は、説明変数x1の追加処理、特徴量の追加などを含んでもよい。例えば、制御部23は、第1の入力データD1に応じてデータベースDB1から任意の外部データD0を取得し、当該外部データD0を第1の入力データD1に追加してもよい。制御部23は、追加された外部データD0に基づき、特徴量の追加を行ってもよい。
変換処理は、第1の入力データD1の内容に基づき、制御部23によって自動で実行可能な処理を含む。なお、変換処理は、ユーザによる指定に基づき実行可能な処理を含んでもよい。また、本実施形態では、変換処理は、第1の入力データD1を所定の変換条件と比較することで特定される自動変換処理を含む。変換条件とは、例えば第1の入力データD1の容量、第1の入力データD1の統計情報の分散値が閾値未満か否か、第1の入力データD1の統計情報に基づく外れ値の有無などである。変換条件は、変換処理が行われる必要性を示唆するものでもある。
また、変換処理は、データ受付部231に入力された第1の入力データD1の形式を、特定された学習器MLのそれぞれに適合する形式に変換する処理を含む。第1の入力データD1の形式は、例えば、第1の入力データD1の名称、文字コード、改行コード、表記言語、区切り文字などを含む。
例えば、特定された学習器MLに入力可能な入力データDの文字コードがUTF-8であるにも関わらず、第1の入力データD1の文字コードがShift-JISの場合、制御部23は、当該第1の入力データD1を、文字コードがUTF-8に変更された第2の入力データD2に変換する変換処理を実行する。
別例として、変換処理は、特定された複数の学習器MLに入力可能な第2の入力データD2のそれぞれに対して名称を付与する処理を含みうる。このとき、変換処理は、制御部23が第2の入力データD2を一意に特定可能な名称を、第2の入力データD2に付与することが好ましい。これにより、第2の入力データD2の管理が容易となる。なお、名称の付与は、第1の入力データD1の名称を変更することによって行われてもよい。
別例として、第1の入力データD1がBOM(Byte Order Mark)を含む場合、変換処理は、当該BOMの除去を含んでもよい。これにより、意図しないエラーが抑制しやすくなる。
別例として、変換処理は、第1の入力データD1に含まれる説明変数x1のうち、学習モデルM1の生成に用いられないものを除去する処理を含んでもよい。制御部23は、例えば、説明変数x1の形式、分布に基づいて、当該説明変数x1が学習モデルM1の生成に用いられるか否かを判定すればよい。これにより、第2の入力データD2の容量が軽減されるため、学習モデルM1の生成に必要な時間が短縮される。
【0038】
次に、処理がアクティビティA003に進み、制御部23は、学習器MLから生成される学習モデルM1を取得する。
【0039】
次に、処理がアクティビティA004に進み、抽出部232は、学習器MLに入力された入力データDに基づき、学習モデルM1から説明変数x1を抽出する。このとき、抽出部232は、説明変数x1の形式を抽出する。
【0040】
次に、処理がアクティビティA005に進み、変数名抽出部233は、学習モデルM1の変数名VNxを抽出する。抽出される変数名VNxは、文字列を含むことが好ましい。これにより、ユーザが説明変数x1の内容を変数名VNxから把握しやすくなる。このとき、変数名抽出部233は、評価パラメータy1の変数名VNyを抽出してもよい。
【0041】
次に、処理がアクティビティA006に進み、視覚情報生成部234は、視覚情報IF2を生成する。
【0042】
次に、処理がアクティビティA007に進み、変数表示部235は、アクティビティA005にて抽出された変数名VNxを表示部34に表示させる。変数表示部235は、説明変数x1の視覚情報IF2と対応する変数名VNxを、当該視覚情報IF2と対応するように表示させる。例えば、変数表示部235は、対応する視覚情報IF2の近傍に変数名VNxを表示させる。
【0043】
次に、処理がアクティビティA008に進み、制御部23は、ユーザからの探索範囲Rの指定を受け付ける。ユーザは、表示部34に表示された視覚情報IF2に対する操作を通じて、探索範囲Rの指定を行う。当該操作は、カーソル操作、キー入力操作、表示部34に対するタッチ操作、スワイプ操作など、任意である。
【0044】
次に、処理がアクティビティA009に進み、制御部23は、アクティビティA008にて指定された探索範囲R内で探索シミュレーションを実行する。
【0045】
次に、処理がアクティビティA010に進み、結果表示部236は、結果情報IF3を表示部34に表示させる。結果情報IF3は、視覚情報IF2と一覧可能に表示される。このとき、結果表示部236は、履歴情報IF4を表示部34に表示させてもよい。履歴情報IF4は、少なくとも結果情報IF3と一覧可能に表示される。
【0046】
次に、処理がアクティビティA011に進み、制御部23は、ユーザによる操作に基づき、再度、探索シミュレーションを実行するか否かの判定を行う。アクティビティA011での判定結果が否定の場合、すなわち、再度の探索シミュレーションが実行されない場合、制御部23は探索シミュレーションを終了し、情報処理を終了する。一方、アクティビティA011での判定結果が肯定の場合、すなわち、再度の探索シミュレーションが実行される場合、処理がアクティビティA008に戻り、制御部23は、探索範囲Rの指定を受け付ける。このとき、視覚情報IF2は、前回のアクティビティA010にて表示された結果情報IF3と一覧可能に表示されている。前々回以前のアクティビティA010にて表示された結果情報IF3は、履歴情報IF4として表示される。このとき、履歴情報IF4は、結果情報IF3と一覧可能に表示される。
【0047】
4.表示部34に表示される内容の一例
本節では、上記情報処理に基づいて表示部34に表示される内容の一例について、図6を用いて説明する。図6は、表示部34に表示される表示内容の一例である。本実施形態では、ユーザが入力データDを用いて商品の売上価格の予測を行う場面について説明する。すなわち、本実施形態における評価パラメータy1は、商品の売上価格である。評価パラメータy1の形式は任意であるが、本実施形態では浮動小数点である。また、当該学習モデルM1の説明変数の例として、第1の説明変数x11と、第2の説明変数x12と、第3の説明変数x13が挙げられる。これらの説明変数x11~x13の変数名VNxは、それぞれ変数名VNx1,VNx2,VNx3と表されることがある。また、これらの説明変数x11~x13の探索範囲Rは、それぞれ探索範囲R1~R3と表されることがある。
【0048】
第1の説明変数x11は、店舗への来客数を表す。第1の説明変数x11の形式は数値、特に自然数である。第1の説明変数x11の変数名VNx1は、「来客数」である。第2の説明変数x12は、セールが開催される場合か否かを表す。第2の説明変数x12の形式はブーリアン変数である。すなわち、第2の説明変数x12は、真(true)又は偽(false)の何れか一方で表される。第2の説明変数x12の変数名VNx2は、「セール開催」である。第3の説明変数x13は、店舗で販売される商品カテゴリを表す。第3の説明変数x13の形式は文字列である。本実施形態では、第3の説明変数x13は、「食品」、「雑貨」、「書籍」、又は「その他」のうちの少なくとも1つで表される。第3の説明変数x13は、第3の説明変数x13の変数名VNx3は、「商品カテゴリ」である。以下の説明では、入力データDに基づく学習モデルM1の生成、学習モデルM1の説明変数x1、及び変数名VNxの抽出が完了しているものとする。
【0049】
本実施形態の表示部34には、探索範囲指定ウィンドウ10と、結果表示ウィンドウ11と、学習履歴表示ウィンドウ12と、が表示され得る。本実施形態では、探索範囲指定ウィンドウ10と、結果表示ウィンドウ11とが一覧可能に表示されている。また、結果表示ウィンドウ11と、学習履歴表示ウィンドウ12とが一覧可能に表示されている。したがって、探索範囲指定ウィンドウ10と結果表示ウィンドウ11と学習履歴表示ウィンドウ12とが互いに一覧可能に表示されている。
【0050】
4-1.探索範囲指定ウィンドウ10について
探索範囲指定ウィンドウ10では、第1の視覚情報101と、第2の視覚情報102と、第3の視覚情報103と、変数名表示エリア104と、探索範囲指定ボタン105と、が含まれる。
【0051】
第1の視覚情報101は、第1の説明変数x11の探索範囲R1を指定可能に構成されている。第1の説明変数x11の形式が数値であるため、第1の視覚情報101は、学習モデルM1に入力される第1の説明変数x11の探索範囲R1として変域1011を指定可能に構成される。本実施形態では、視覚情報IF2は、スライダーで表示される。ユーザは、スライダーの位置を指定することにより、第1の説明変数x11の変域1011を指定することができる。具体的には、ユーザは、探索範囲R1の上限値及び下限値を指定することで、第1の説明変数x11の変域1011を指定することができる。これにより、ユーザは、スライダーの視覚情報に基づき説明変数x11の探索範囲R1を直感的に指定することができる。第1の視覚情報101にて指定された探索範囲の第1の説明変数x11のみが、探索シミュレーションに用いられる。なお、探索シミュレーションに用いられる第1の説明変数x11は、探索範囲のうちの全ての数値でなくてもよく、例えば、所定の間隔でサンプリングされた数値であってもよい。これにより、探索シミュレーションの際の処理が軽減され、探索シミュレーションの時間が短くなる。当該数値間隔は、ユーザによって任意に設定された値でもよく、指定された変域1011に基づき制御部23が導出したものでもよい。
【0052】
本実施形態の第1の視覚情報101には、第1の範囲1012と、第2の範囲1013とが表示されている。第1の範囲1012は、第1の説明変数x11の変域1011を指定可能な範囲である。言い換えれば、第1の範囲1012は、変域1011の上限値と下限値との間の領域を示す。一方、第2の範囲1013は、第1の説明変数x11の変域1011を指定不可な範囲である。言い換えれば、第2の範囲1013は、変域1011の下限値より小さい領域と、変域1011の上限値より大きい領域と、のうちの少なくとも一方を示す。第1の視覚情報101には、第1の範囲1012と、第2の範囲1013とが区別可能に表示されている。例えば、第1の範囲1012と第2の範囲1013との色彩や輪郭線などが異なる態様で区別可能に表示されてもよい。また、第1の範囲1012と第2の範囲1013とは、矢印、記号、図形等の目印を用いて区別可能に表示されてもよい。これにより、ユーザによる第1の説明変数x11の探索範囲R1のスケールの把握が容易となる。なお、第1の視覚情報101は、これに限られず、探索範囲R1の上限値及び下限値のうちの少なくとも一方を入力可能な入力フォームを用いて実現されてもよいし、プルダウンやドラムロール等のUIを用いて実現されてもよい。
【0053】
第2の視覚情報102は、第2の説明変数x12の探索範囲R2を指定可能に構成されている。第2の説明変数x12の形式がブーリアン変数であるため、第2の視覚情報102は、当該説明変数x12が真及び偽の少なくとも一方を指定可能に構成されている。第2の視覚情報102にて指定されたブーリアン変数のみが、探索シミュレーションに用いられる。
【0054】
本実施形態では、第2の視覚情報102は、真及び偽のそれぞれに対応するチェックボックスとして表示される。真(true)に対応するチェックボックスのみがチェックされている場合、探索シミュレーションでは、セール開催されている条件下のみでの評価パラメータy1(売上価格)の探索シミュレーションが行われる。一方、偽(false)に対応するチェックボックスのみがチェックされている場合、探索シミュレーションでは、セール開催されていない条件下のみでの評価パラメータy1(売上価格)のシミュレーションが行われる。なお、両方のチェックボックスがチェックされている場合、例えば、セール開催されている条件下のみでの評価パラメータy1(売上価格)と、セール開催されていない条件下のみでの評価パラメータy1(売上価格)と、の重み付け平均に基づく探索シミュレーションが行われる。なお、第2の視覚情報102は、真及び偽の何れか一方を指定可能に表示されてもよい。具体的には、第2の視覚情報102は、ラジオボタンやドラムロールを用いて表示されてもよい。
【0055】
第3の視覚情報103は、第3の説明変数x13の探索範囲R3を指定可能に構成されている。第3の説明変数x13の形式が文字列であるため、第3の視覚情報103は、当該文字列で表される商品カテゴリを指定可能に構成されている。本実施形態の第3の説明変数x13は、商品カテゴリとして「食品」、「雑貨」、「書籍」、及び「その他」という文字列で表される。そのため、第3の視覚情報103は、当該文字列のそれぞれを選択可能なチェックボックスとして表示される。例えば、指定された商品カテゴリのそれぞれの売上価格について、探索シミュレーションが行われる。なお、評価パラメータy1としては、指定された商品カテゴリの個別の売上価格に限られず、指定された商品カテゴリの売上価格の合計が用いられてもよい。
【0056】
上記視覚情報101,102,103は、それぞれ指定操作エリアB1を含んでもよい。指定操作エリアB1は、上記視覚情報101,102,103の操作に基づき指定された探索範囲R1~R3の説明変数x11~x13を用いて探索シミュレーションを行うか否かを決定可能に構成されている。例えば、指定操作エリアB1は、ラジオボタンを用いて実現可能である。指定された探索範囲R1~R3の説明変数x11~x13を用いて探索シミュレーションを行う場合、当該指定された探索範囲R1~R3の説明変数x11~x13を用いて探索シミュレーションが行われる。一方、当該指定の一部を用いずに探索シミュレーションを行う場合、例えば、探索シミュレーションに用いられない指定に対応する説明変数x1は、定数として取り扱われる。なお、これらの各処理はこれらに限らず任意である。
【0057】
変数名表示エリア104では、説明変数x11~x13のそれぞれの変数名VNx1,VNx2,VNx3が表示される。変数名表示エリア104は、説明変数x11~x13ごとに設けられている。変数名表示エリア104は、各説明変数x11~x13の近傍に設けられている。これにより、探索範囲指定ウィンドウ10に表示されている説明変数x1の内容の把握が容易となる。
【0058】
探索範囲指定ボタン105は、ユーザの操作に基づき上記視覚情報101~103にて指定された探索範囲を保存するか否かを決定可能に構成されている。
【0059】
4-2.結果表示ウィンドウ11について
結果表示ウィンドウ11では、探索範囲指定ウィンドウ10にて指定された探索範囲R1~R3内の説明変数x11~x13を用いた探索シミュレーションの結果情報IF3が表示される。結果表示ウィンドウ11は、探索シミュレーション実行ボタン111と、評価パラメータ名表示エリア112と、評価パラメータ表示エリア113と、説明変数表示エリア114と、を含む。
【0060】
探索シミュレーション実行ボタン111には、ユーザによる操作に基づき探索範囲指定ウィンドウ10にて指定された探索範囲R1~R3内の説明変数x11~x13を用いて探索シミュレーションを実行可能なUIが表示される。ユーザは、探索シミュレーション実行ボタン111を操作することにより、制御部23に、指定された探索範囲R1~R3内の説明変数x11~x13を学習モデルM1に入力させる。これにより、結果情報IF3が学習モデルM1から出力される。
【0061】
評価パラメータ名表示エリア112には、評価パラメータy1の変数名VNyが表示される。本実施形態の変数名VNyは、売上価格である。なお、評価パラメータy1の候補が複数存在する場合、評価パラメータ名表示エリア112は、当該評価パラメータy1の候補を選択可能に構成されていてもよい。
【0062】
評価パラメータ表示エリア113には、結果情報IF3として、探索シミュレーションによって学習モデルM1から出力された評価パラメータy1が表示される。本実施形態では、評価パラメータ表示エリア113には、売上価格を示す数値が表示される。なお、評価パラメータ表示エリア113に結果情報IF3として表示される内容は数値に限られず、評価パラメータ表示エリア113には、探索条件を満たす説明変数x1が存在するか否かが示されていてもよい。
【0063】
説明変数表示エリア114には、結果情報IF3として、評価パラメータ表示エリア113に表示された評価パラメータy1に対応する説明変数x11~x13が表示される。評価パラメータ表示エリア113のそれぞれには、変数名VNxが表示されてもよい。
【0064】
4-3.学習履歴表示ウィンドウ12について
学習履歴表示ウィンドウ12は、学習履歴表示エリア121と、ソート順指定エリア122と、ウィンドウ操作ボタン123と、を含む。
【0065】
学習履歴表示エリア121には、過去に実行された探索シミュレーションの履歴情報IF4が表示される。履歴情報IF4は、過去に実行された探索シミュレーションによって生成された結果情報IF3の、少なくとも一部を含む。また、履歴情報IF4は、学習モデルM1の利用条件を含んでもよい。学習モデルM1の利用条件とは、例えば、当該探索シミュレーションが行われた時刻に関する情報や、学習モデルM1のバージョン情報などである。学習履歴表示エリア121には、過去の学習履歴を比較可能な態様で表示される。これにより、説明変数x1の探索範囲Rと結果情報IF3との間の相関が把握しやすくなる。また、学習履歴表示エリア121には、過去の学習履歴を一覧可能に表示される。これにより、過去の学習履歴の比較が容易となる。
【0066】
ソート順指定エリア122は、学習履歴表示エリア121に表示されている履歴情報IF4の表示順序を指定可能に構成されている。表示順序の指定方法は、探索シミュレーションが行われた時刻や、評価パラメータy1の値の大小など、任意である。ソート順指定エリア122にて表示順序を指定することにより、目的に応じて結果情報IF3を比較することが容易となる。
【0067】
ウィンドウ操作ボタン123は、ユーザによる操作に基づき学習履歴表示ウィンドウ12を閉じるかどうかを決定するUIである。ウィンドウ操作ボタン123が操作された場合、学習履歴表示ウィンドウ12が閉じられる。
【0068】
5.その他
前述の実施形態に係る情報処理システム1に関して、以下のような態様を採用してもよい。
【0069】
第1の入力データD1及び第2の入力データD2は、それぞれ外部データD0としてデータベースDB1に記憶されてもよい。これらの外部データD0は、所定の条件のもと、他のユーザに提供可能であってもよい。
【0070】
制御部23は、例えば、表示部34に第1の入力データD1に対して行われた変換処理の履歴、いわゆる変換処理のバージョン、を表示させてもよい。これにより、変換処理と精度情報との関係性の類推が容易となる。また、制御部23は、変換処理のバージョンの管理を行ってもよい。
【0071】
制御部23は、例えば、第1の入力データD1が所定の品質条件を満たさない場合、表示部34に警告を表示させてもよい。品質条件とは、例えば、第1の入力データD1のデータ点の数、容量、外れ値の割合などである。品質条件を満たさない場合とは、例えば、第1の入力データD1のデータ点の数が所定の値未満である場合、第1の入力データD1の外れ値が所定の基準数より多い場合などである。なお、当該警告は、表示部34に表示されるものに限られず、音、振動、光など任意の態様で実現可能である。
【0072】
情報処理装置2は、オンプレミス形態であってもよく、クラウド形態であってもよい。クラウド形態の情報処理装置2としては、例えば、SaaS(Software as a Service)、クラウドコンピューティングという形態で、上述の機能や処理を提供してもよい。
【0073】
以上の実施形態では、情報処理装置2が種々の記憶・制御を行ったが、情報処理装置2に代えて、複数の外部装置が用いられてもよい。すなわち、ブロックチェーン技術等を用いて、入力データD、学習モデルM1、結果情報IF3、履歴情報IF4を分散して複数の外部装置に記憶させてもよい。
【0074】
次に記載の各態様で提供されてもよい。
【0075】
(2)前記情報処理システムにおいて、前記学習モデルは、前記入力データを少なくとも1つの学習器に入力することにより生成される、もの。
【0076】
このような構成によれば、説明変数の抽出が、学習モデルの生成に入力された入力データに基づき行われる。そのため、説明変数の抽出精度を向上することができる。
【0077】
(3)前記情報処理システムにおいて、前記説明変数の形式が文字列である場合、前記視覚情報は、当該説明変数を前記学習モデルに入力するか否かを選択可能に構成される、もの。
【0078】
このような構成によれば、ユーザは、視覚情報に基づき、当該文字列に対応する説明変数を用いるか否かの選択方法を視認することができる。
【0079】
(4)前記情報処理システムにおいて、前記説明変数の形式が数値である場合、前記視覚情報は、前記学習モデルに入力される前記説明変数の変域を指定可能に構成され、前記探索範囲は、前記変域に基づき規定される、もの。
【0080】
このような構成によれば、ユーザは説明変数の探索範囲が変域として視認可能であるため、探索範囲を直感的に把握することが可能となる。
【0081】
(5)前記情報処理システムにおいて、前記説明変数の形式が数値である場合、前記視覚情報は、前記学習モデルに入力される前記説明変数の上限値及び下限値のうちの少なくとも1つを指定可能に構成され、前記探索範囲は、前記上限値及び前記下限値のうちの少なくとも1つに基づき規定される、もの。
【0082】
このような構成によれば、ユーザは上限値及び下限値のうちの少なくとも1つを指定することで、探索範囲を指定することが可能となる。したがって、説明変数として指定可能な数値の範囲が膨大な場合でも、ユーザによる探索範囲の指定が容易となる。
【0083】
(6)前記情報処理システムにおいて、前記説明変数の形式が数値である場合、前記視覚情報は、スライダーで表示され、前記探索範囲は、前記スライダーの位置に基づき指定される、もの。
【0084】
このような構成によれば、説明変数の形式が数値の場合、ユーザがスライダーの視覚情報に基づき説明変数の探索範囲を直感的に指定することができる。
【0085】
(7)前記情報処理システムにおいて、前記視覚情報生成ステップでは、前記抽出ステップにて前記説明変数が複数抽出された場合、複数の前記説明変数のそれぞれに対応する前記視覚情報を生成する、もの。
【0086】
このような構成によれば、複数の説明変数が抽出された場合にも、説明変数のそれぞれの学習モデルへの入力態様の指定を、直感的に行うことが可能となる。したがって、より効率的な説明変数の探索範囲をユーザが指定しやすくなる。
【0087】
(8)前記情報処理システムにおいて、さらに、変数名抽出ステップでは、前記入力データから、抽出された前記説明変数を表す変数名を抽出し、変数表示ステップでは、前記説明変数の前記視覚情報と、前記変数名と、を一覧可能に表示させる、もの。
【0088】
このような構成によれば、視覚情報に対応する変数をユーザが把握しやすくなる。
【0089】
(9)前記情報処理システムにおいて、さらに、結果表示ステップでは、前記視覚情報と、指定された前記探索範囲における前記説明変数に基づき前記学習モデルから出力される結果情報と、を一覧可能に表示させる、もの。
【0090】
このような構成によれば、ユーザは、指定された説明変数と、当該説明変数に対応する結果情報を一覧することができる。そのため、ユーザが説明変数と結果情報との対応関係を把握することが容易となる。
【0091】
(10)前記情報処理システムにおいて、前記結果表示ステップでは、さらに過去に出力された前記結果情報の履歴情報を表示させる、もの。
【0092】
このような構成によれば、最新の結果情報と過去の結果情報とを対比することで、学習モデルの精度の推移を把握することが容易となる。
【0093】
(11)前記情報処理システムにおいて、前記視覚情報は、前記探索範囲を離散的に指定可能な、もの。
【0094】
このような構成によれば、探索範囲を連続的に指定可能な場合に比べて、探索範囲を明確に指定することが可能となる。
【0095】
(12)前記情報処理システムにおいて、前記入力データは、少なくとも構造化データを含む、もの。
【0096】
(13)情報処理方法であって、前記情報処理システムの各ステップを含む、もの。
【0097】
(14)情報処理プログラムであって、コンピュータに、前記情報処理システムの各ステップを実行させる、もの。
もちろん、この限りではない。
【0098】
さらに、以下のような観点にも留意されたい。
【0099】
深層学習(Deep Learning、DL)をはじめとする機械学習(Machine Learning、ML)の技術を様々な局面で利用しようとする動きが加速し、一種のブームとも言える状況が生まれている。しかしこのような盛り上がりに反し、ML導入のプロジェクトの85%が失敗し、MLやAI(Artificial Intelligence、人工知能)技術を活用できている企業は10%、情報系企業ですら17%にとどまると言われる。
【0100】
これには様々な原因がある。第1にMLやAIがいかなる問題に対して有効かの理解が簡単ではないこと、第2にMLを使うためにはどういうデータを用意すればよいのか、どのようにデータの加工と前処理をすればよいのかが経験と勘に依存すること、第3にデータを大量に準備することが容易ではないこと、第4にMLやAIのモデルをどう構築したらよいのかの理解が簡単ではなく、しかも経験と勘に依存すること、第5にMLの一手法であるDLからなぜ欲する出力を得られるのかの理解が困難なこと、第6に以上のように理解が進まない結果として満足できる性能を得ることができないことなどが挙げられる。
【0101】
上述のとおり、MLを成功裏に活用するためには様々な障害が存在する反面、インターネット上には多くのMLサービスやAIサービスが存在し、どれを使えばよいのか分からないというカオス的状況にもある。
【0102】
その上、上記のMLサービス、AIサービスを使いこなすためにはたくさんのパラメータを入力しなければならず、パラメータの意味の理解も難しく、MLやAIの専門家でなければ使いこなせないという現実も存在する。いわば、MLサービスやAIサービスは専門家以外にも使える民主化されたサービスとはなっていなかった。
【0103】
前述の状況を鑑み、専門的な知識を有していなくても使いこなすことができ、入力データを準備さえすれば3ステップでMLサービスを使うことができ、得られた結果に対する解析を提供し、さらには予測も行うことのできる技術を提供することにより、誰でもMLサービスを利用できる環境を創出することが本発明の目的である。これによりMLサービスが民主化される。
【0104】
上記課題を解決するための技術的思想は、インターネット上に存在する多くのML(以下AutoMLと呼ぶ)サービスへ接続するためのラッピング・インターフェースシステムを提供することである。これにより、データの収集、前処理、アップロードなどのデータ準備(ステップ1)、モデル構築と複数のMLの並行的実行(ステップ2)、各MLの性能比較と実業務への導入(ステップ3)の3ステップでMLの導入が可能となる。
【0105】
そのためにまずアカウント設定やパラメータ入力手順等を一元化し、次に各AutoMLへとフォーマット変換を施す。これにより10~15ステップが必要であったアカウント作成を3ステップで行うことが可能となる。
【0106】
次に、社内外のデータを収集する。このために必要な社内外データへのアクセスポイントに対して自動的に、あるいはユーザーの介入と補助を得ながら接続が行なわれ、データが収集される。
【0107】
続いて、入力データの加工を行う。以下に限られないが、これにはデータのクレンジングとして日付データなどの形式の一元的形式への変換、欠損の多いデータ項目の処理などを行い、原データから統計的処理を含む前処理を適用して目的に適したデータに変換すること、クエリを使用してデータ抽出やデータ結合などを行うことなどが含まれる。
【0108】
このとき、必要に応じて加工後のデータを表示して確認と修正を行ってもよい。
【0109】
次に、MLモデルの準備を行う。インターネット上に存在する各種MLサービスの利用に限られず、GUI(Graphical User Interface)ベースによってプログラミングを行わずに独自モデルを構築する方法、インターネット上に存在する各種MLサービスの修正を行って独自モデルを構築する方法、および既に構築されているがインターネット上には公開されていないMLモデルを本発明システムへインポートを行う方法等によって行われる。
【0110】
さらには、プログラミングすることなく、MLや統計分析を可能にする機能も提供される。加えて、どのようなテンプレートでモデル構築を行えば精度の高いモデルが構築できるかについて、入力データからリコメンドする機能も提供される。
【0111】
MLに入力されるデータを学習データと予測データに分割し、学習データによって学習したMLに予測データを入力してもよい。予測データはML性能比較等のためにこれ以降使われる。
【0112】
入力データとMLモデルの準備が終了したら、学習データを用いて学習が開始される。
このとき複数のMLを並行的に実行させてもよい。
【0113】
学習が終わったら、予測データが自動的あるいはユーザーの指示によって各MLサービスに投入され、結果を得る。このとき複数のAutoMLが並行的に実行されていれば、即座に性能比較ができる。
【0114】
各AutoMLサービスの結果を表示する。これにはグラフィカルな可視化を含み、各MLサービスの予測精度レベル(決定係数)、項目の寄与度の比較などが表示される。
【0115】
上記のデータ収集~結果の表示と比較までを繰り返し、実業務に投入が可能だとユーザーによって判断されたら、運用が開始される。
【0116】
運用において、用意されたAPI(Application Program Interface)によってアプリケーションプログラムから本システムへ問い合わせを行うことによって結果がアプリケーションプログラムによって活用すること、あるいは本システムから直接結果を表示することも本発明の範囲である。
【0117】
運用の自動化のためにKubeflowを含むMLプラットフォームを利用しても良い。
【0118】
上記一連の操作をパイプライン化し、操作の単純化を図っても良い。パイプライン化することにより自由度は下がるが全体の見通しが良くなり、専門家でなくても扱うことが可能となる。もし自由度を上げる必要があるときには、詳細画面を開く等によって専門的な項目設定を行っても良い。
【0119】
さらにはパイプラインの流れに沿って各種変更や操作履歴の記録と閲覧が可能となり、MLサービスやモデル選択の根拠を示すことが可能となる。
【0120】
採用すべきMLモデルとそれに必要なデータ前処理方法が決定された後に、実業務に導入される。例えば、MLの出力として売上予測が欲しい場合、直接本発明システムによって表示される画面を見ても良いし、必要に応じて本発明システムが提供するAPIを介してアプリケーションプログラムから情報提供のリクエストが出され、それによってアプリケーションプログラムの画面に表示されても良い。
【0121】
そこで、上記課題を解決するために、第1の態様に係る情報処理方法は、アカウント設定、パラメータ入力手順設定のうち少なくともいずれかを含む初期設定作業を一元化する第1のステップと、インターネット上に存在し得る自動機械学習サービスへ接続するためのフォーマット変換を施す第2のステップと、社内外のデータが収集される第3のステップと、前記収集されたデータを加工する第4のステップと、使用されるべき自動機械学習サービスの準備を行う第5のステップと、前記第4のステップにおいて加工されたデータを学習データと予測データとに分割し、前記学習データを前記第5のステップにおいて準備が行われた自動機械学習サービスによって学習させる第6のステップとを具備することを特徴とする。
【0122】
また、上記課題を解決するために、第2の態様に係る情報処理装置は、アカウント設定、パラメータ入力手順設定のうち少なくともいずれかを含む初期設定作業を一元化することのできる一元化部と、インターネット上に存在し得る自動機械学習サービスへ接続するためのフォーマット変換を施すフォーマット変換部と、社内外のデータが収集されるデータ収集部と、前記収集されたデータを加工するデータ加工部と、使用されるべき自動機械学習サービスの準備を行う準備部と、前記データ加工部によって加工されたデータを学習データと予測データとに分割し、前記学習データを前記準備部によって準備が行われた自動機械学習サービスによって学習させる学習部とを具備することを特徴とする。
【0123】
上記2つの態様によれば、深層学習をはじめとする機械学習技術の専門家でなくても、学習データを準備さえすれば学習モデルの選択および/または構築ができ、複数の学習モデルの結果から性能の比較ができ、複数の学習モデルから最適なものを選択でき、それを実業務に投入し、投入後の運用をサポートすることができることとなる。
【0124】
第3の態様として、第2の態様において、前記収集され準備された入力データをインターネット上に存在する多くの自動機械学習サービスに応じた変換を行うようにしてもよい。この態様によれば、機械学習サービス毎に異なる入力データを準備するプロセスを省くことが可能となる。なお、この第3の態様は第1の態様に対して重畳的に用いることもできる。
【0125】
第4の態様として、第2の態様において、入力データの単純な形式変換、欠損データもしくは重複・不要データの処理を含むデータクレンジング、原データからの特徴量の抽出、統計的処理を含む前処理を適用して目的に適したデータへの変換、クエリを使用したデータ抽出もしくはデータ結合を含むデータ変換、のうちの少なくともいずれかを実行するようにしてもよい。この態様によれば、入力データの単純な形式変換、欠損データもしくは重複・不要データの処理を含むデータクレンジング、原データからの特徴量の抽出、統計的処理を含む前処理を適用して目的に適したデータへの変換、クエリを使用したデータ抽出もしくはデータ結合を含むデータ変換、を簡単な指示を与えることにより実行することが可能となる。なお、この第4の態様は第1の態様に対して重畳的に用いることもできる。
【0126】
第5の態様として、第2の態様において、インターネット上に存在する複数の機械学習サービスあるいは機械学習モデルを一覧できる一覧部と、前記一覧部にて一覧される複数の機械学習サービスあるいは機械学習モデルのうちのいずれかへの接続が選択される選択部と、前記選択部によって選択されたことにより一括して複数の機械学習サービスあるいは機械学習モデルへのデータ投入、平行的実行、結果の取得及び比較、のうちの少なくともいずれかを実行する実行部とをさらに備えるようにしてもよい。なお、この第5の態様は第1の態様に対して重畳的に用いることもできる。
【0127】
第6の態様として、第2の態様において、前記学習部及び/もしくは前記準備部は、グラフィカル・ユーザー・インターフェース手段によって行われるようにしてもよい。この態様によれば、上記の機械学習サービスを選択することに加え、グラフィカル・ユーザー・インターフェースをベースにした手法でユーザー独自の機械学習モデルを構築することができ、および/または、公開情報として存在する機械学習モデルをインポートすることができる。なお、この第6の態様は第1の態様に対して重畳的に用いることもできる。
【0128】
第7の態様として、第2の態様において、前記学習部において前記加工されたデータが前記学習データと前記予測データとに分割されるにおいては、機械学習への入力データを学習用データと性能比較および/または予測データに分割されるようにしてもよい。この態様によれば、前記機械学習への入力データを学習用データと性能比較および/または予測データに分割して利用することができる。なお、この第7の態様は第1の態様に対して重畳的に用いることもできる。
【0129】
第8の態様として、第2の態様において、同一入力データによって実行した複数の機械学習サービスあるいは機械学習モデルの性能を比較するための指標を提供する指標提供部をさらに備えるようにしてもよい。なお、この第8の態様は第1の態様に対して重畳的に用いることもできる。
【0130】
第9の態様として、第8の態様において、前記指標として、決定係数、平均絶対誤差、平均二乗偏差、項目寄与度、モデルの予測と実際の比較、残差ヒストグラム、のうちの少なくともいずれかを含む機械学習サービスと機械学習モデルの性能の比較を行うための指標が提示されるようにしてもよい。なお、この第9の態様は第1の態様に対して第8の態様が重畳された態様に対して重畳的に用いることもできる。
【0131】
第10の態様として、第2の態様において、複数の機械学習サービスと前記複数のうちのそれぞれの機械学習モデルの結果とから選択する選択部をさらに備えるようにしてもよい。この態様によれば、複数の機械学習サービスと前記複数のうちのそれぞれの機械学習モデルの結果とから最適なものが選択されて実業務への投入を行うことができる。なお、この第10の態様は第1の態様に対して重畳的に用いることもできる。
【0132】
第11の態様として、第2の態様において、前記機械学習サービスと前記機械学習モデルの精度の維持及び/もしくは管理とを行うことのできる維持管理部をさらに備えるようにしてもよい。この態様によれば、実投入後に前記機械学習サービスと前記機械学習モデルの精度の維持及び/もしくは管理とを行うことのできる機能が提供される。
なお、この第11の態様は第1の態様に対して重畳的に用いることもできる。
【0133】
第12の態様として、第2の態様において、前記データの収集・準備、複数の機械学習サービスと機械学習モデルの平行的実行、機械学習サービスと機械学習モデルの性能比較、実業務への投入の操作をパイプライン化するパイプライン部をさらに備えるようにしてもよい。この態様によれば、上記データの収集・準備、複数の機械学習サービスと機械学習モデルの平行的実行、機械学習サービスと機械学習モデルの性能比較、実業務への投入の操作がパイプライン化され、全体の見通しをよくすることができる。なお、この第12の態様は第1の態様に対して重畳的に用いることもできる。
【0134】
第13の態様として、第12の態様において、前記パイプライン化された処理の様々な中間段階で、必要に応じてユーザーが介入することを許容するユーザー介入部をさらに具備するようにしてもよい。この態様によれば、パイプライン化された処理の様々な中間段階で、必要に応じてユーザーが介入して詳細な設定や操作が行われてもよいこととなる。なお、この第13の態様は第1の態様に対して第12の態様が重畳された態様に対して重畳的に用いることもできる。
【0135】
第14の態様として、第2の態様において、前記機械学習サービスあるいは前記機械学習モデルの処理結果を得るために、アプリケーションプログラムからアプリケーションプログラムインターフェースを介して前記データの要求が行われるデータ要求部をさらに具備するようにしてもよい。この態様によれば、実業務へ投入された機械学習サービスあるいは機械学習モデルの処理結果を得るために、アプリケーションプログラムからアプリケーションプログラムインターフェースを介して本発明システムに対してデータの要求が行われ、それぞれのアプリケーションプログラムで表示を含む処理がされてもよいこととなる。なお、この第14の態様は第1の態様に対して重畳的に用いることもできる。
【0136】
第15の態様として、第2の態様において、前記一元化部、前記フォーマット変換部、前記データ収集部、前記データ加工部、前記準備部、前記学習部、のうちの少なくともいずれかにおける画面がデータの収集と準備に係る画面、機械学習モデルの選択・構築・実行に係る画面、各学習モデルの性能比較に係る画面、機械学習モデルの選択を決定して実業務への導入する画面、の少なくともいずれかを含む画面遷移を有するようにしてもよい。この態様によれば、データの準備とアップロードから複数のML間の性能の比較と実業務への導入までの各ステップにおいて、複数の画面を用いてユーザーと情報がやり取りされるが、これらの画面がデータの収集と準備(前処理、アップロード等)に関わる画面、機械学習モデルの選択・構築・実行に関わる画面、(モデル構築、MLの実行)、各学習モデルの性能比較に関する画面、そして機械学習モデルの選択を決定して実業務への導入する画面を含む画面遷移を有するから、画面遷移定義において学習プロセスが設計できることとなる。なお、この第15の態様は第1の態様に対して重畳的に用いることもできる。
【0137】
また、上記課題を解決するために、第16の態様に係るプログラムは、コンピュータを、専門家の介在無しに、収集された学習データをそれぞれの機械学習サービスや機械学習モデルに合致するように変換するデータ加工・変換部と、欠損データや重複・不要データの処理を含むデータクレンジング部と、原データからの特徴量の抽出を行う特徴量抽出部と、統計的処理を含む前処理を適用して目的に適したデータへの変換やクエリを使用したデータ抽出やデータ結合を含むデータ変換を行うデータ結合・分割部と、データの正規化・標準化を行う正規化・標準化部と、複数の機械学習サービスや機械学習モデルを選択するサービス・モデル選択部と、機械学習モデルを構築するためのノーコード開発部と、平行的に複数の機械学習サービスや機械学習モデルを実行するシミュレーション部と、結果を表示し比較するモデル評価部と、最適な機械学習サービスあるいは機械学習モデルを選択するモデル選択部と、選択モデルを実業務へ投入し運用する投入・運用部と、上記一連の各部の機能をサポートするサポート部と、として機能させることを特徴とする。
【0138】
上記態様によれば、専門家の介在無しに、収集された学習データをそれぞれの機械学習サービスや機械学習モデルに合致するように変換するデータ加工・変換部、欠損データや重複・不要データの処理を含むデータクレンジング部、原データからの特徴量の抽出を行う特徴量抽出部、統計的処理を含む前処理を適用して目的に適したデータへの変換やクエリを使用したデータ抽出やデータ結合を含むデータ変換を行うデータ結合・分割部、データの正規化・標準化を行う正規化・標準化部、複数の機械学習サービスや機械学習モデルを選択するサービス・モデル選択部、プログラミングをすることなしに独自の機械学習モデルを構築するノーコード開発部、平行的に複数の機械学習サービスや機械学習モデルを実行するシミュレーション部、結果を表示し比較するモデル評価部、最適な機械学習サービスあるいは機械学習モデルを選択するモデル選択部、選択モデルを実業務へ投入し運用する投入・運用部、およびこれら一連をサポートするサポート部、として機能することが可能となる。
【0139】
第17の態様として、第16の態様に係るプログラムが記憶された記録媒体として実現することもできる。
【符号の説明】
【0140】
1 :情報処理システム
2 :情報処理装置
3 :ユーザ端末
10 :探索範囲指定ウィンドウ
11 :結果表示ウィンドウ
12 :学習履歴表示ウィンドウ
20 :通信バス
21 :通信部
22 :記憶部
23 :制御部
30 :通信バス
31 :通信部
32 :記憶部
33 :制御部
34 :表示部
35 :入力部
101 :第1の視覚情報
102 :第2の視覚情報
103 :第3の視覚情報
104 :変数名表示エリア
105 :探索範囲指定ボタン
111 :探索シミュレーション実行ボタン
112 :評価パラメータ名表示エリア
113 :評価パラメータ表示エリア
114 :説明変数表示エリア
121 :学習履歴表示エリア
122 :ソート順指定エリア
123 :ウィンドウ操作ボタン
231 :データ受付部
232 :抽出部
233 :変数名抽出部
234 :視覚情報生成部
235 :変数表示部
236 :結果表示部
1011 :変域
1012 :第1の範囲
1013 :第2の範囲
A001 :アクティビティ
A002 :アクティビティ
A003 :アクティビティ
A004 :アクティビティ
A005 :アクティビティ
A006 :アクティビティ
A007 :アクティビティ
A008 :アクティビティ
A009 :アクティビティ
A010 :アクティビティ
A011 :アクティビティ
B1 :指定操作エリア
D :入力データ
D0 :外部データ
D1 :第1の入力データ
D2 :第2の入力データ
DB1 :データベース
IF2 :視覚情報
IF3 :結果情報
IF4 :履歴情報
M1 :学習モデル
ML :学習器
R :探索範囲
R1 :探索範囲
R2 :探索範囲
R3 :探索範囲
VNx :変数名
VNx1 :変数名
VNx2 :変数名
VNx3 :変数名
VNy :変数名
x1 :説明変数
x11 :第1の説明変数
x12 :第2の説明変数
x13 :第3の説明変数
y1 :評価パラメータ
図1
図2
図3
図4
図5
図6