特開2023-127186 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特開2023-127186ドメイン知識活用システム、ドメイン知識活用方法及びドメイン知識活用プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5A
5B
6
7
8
9
10
11
12
13A
13B
13C
13D
13E
13F
14A
14B
15
16
17A
17B
17C
18
19

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023127186

(43)【公開日】2023-09-13

(54)【発明の名称】ドメイン知識活用システム、ドメイン知識活用方法及びドメイン知識活用プログラム

(51)【国際特許分類】

G06N 20/00 20190101AFI20230906BHJP

G06Q 10/04 20230101ALI20230906BHJP

G06N 5/022 20230101ALI20230906BHJP

G06N 3/08 20230101ALI20230906BHJP

【ＦＩ】

G06N20/00

G06Q10/04

G06N5/02 120

G06N3/08

【審査請求】未請求

【請求項の数】12

【出願形態】ＯＬ

(21)【出願番号】P 2022030811

(22)【出願日】2022-03-01

(71)【出願人】

【識別番号】000005108

【氏名又は名称】株式会社日立製作所

(74)【代理人】

【識別番号】110000350

【氏名又は名称】ポレール弁理士法人

(72)【発明者】

【氏名】堀脇一樹

(72)【発明者】

【氏名】武藤和夫

【テーマコード（参考）】

5L049

【Ｆターム（参考）】

5L049AA04

(57)【要約】

【課題】得られる学習データが少ない場合においても、対象とする系のドメイン知識を機械学習に活用し、高精度な予測モデルを構築可能なシステムを提供する。
【解決手段】グラフにより記述されたドメイン知識を予測モデルの構築及び学習に活用する活用アルゴリズムが選択可能なドメイン知識活用システムであって、アルゴリズム選択部で選択可能な活用アルゴリズムとして、予測モデルの説明変数としてグラフから導出される特徴量を使用する第１の活用アルゴリズム、予測モデルの説明変数間の関係性にグラフのノード間の関係性を適用する第２の活用アルゴリズム、及び予測モデルの学習条件にグラフのノードの定義を適用する第３の活用アルゴリズムのうち、少なくとも１つ以上を含む。
【選択図】図１

【特許請求の範囲】

【請求項1】

対象とする系についてのドメイン知識を、ノードとノード間の関係性を示すエッジにより構成されるグラフにおけるノードまたはエッジの定義として記述するグラフ記述部と、
前記対象とする系について、説明変数から目的変数を予測する予測モデルの構築及び学習を行うモデル構築部と、
前記グラフにより記述されたドメイン知識を前記予測モデルの構築及び学習に活用する活用アルゴリズムが選択されるアルゴリズム選択部とを有し、
前記アルゴリズム選択部で選択可能な活用アルゴリズムとして、前記予測モデルの説明変数として前記グラフから導出される特徴量を使用する第１の活用アルゴリズム、前記予測モデルの説明変数間の関係性に前記グラフのノード間の関係性を適用する第２の活用アルゴリズム、及び前記予測モデルの学習条件に前記グラフのノードの定義を適用する第３の活用アルゴリズムのうち、少なくとも１つ以上を含むことを特徴とするドメイン知識活用システム。

【請求項2】

請求項１において、
前記グラフ記述部により記述された前記グラフのノード及びエッジの定義をグラフデータとして記憶するグラフ記憶部と、
前記グラフにおけるノードに紐づけられた前記対象とする系のデータを対象データとして記憶するデータ記憶部とを有し、
前記予測モデルの説明変数として、前記対象データのデータ項目を含むことを特徴とするドメイン知識活用システム。

【請求項3】

請求項２において、
前記アルゴリズム選択部により選択された活用アルゴリズムに応じて、前記グラフ記憶部に記憶された前記グラフデータ及び／または前記データ記憶部に記憶された前記対象データの前処理を行うアルゴリズム処理部を有し、
前記アルゴリズム選択部により前記第１の活用アルゴリズムが選択された場合には、前記アルゴリズム処理部は、前記グラフデータ及び前記対象データを用いて前記グラフの潜在変数を、前記特徴量として抽出することを特徴とするドメイン知識活用システム。

【請求項4】

請求項１において、
前記グラフのノードとして、前記対象とする系から観測可能なデータ項目を表現する観測変数ノード、前記対象とする系で制御項目として使用されているデータ項目を表現する観測変数ノード、前記対象とする系の外乱を表現する外乱ノード、及び前記対象とする系内でノード間の関係性を表現するブロックノードを含むことを特徴とするドメイン知識活用システム。

【請求項5】

対象とする系についてのドメイン知識を、ノードとノード間の関係性を示すエッジにより構成されるグラフにおけるノードまたはエッジの定義として記述する第１のステップと、
前記対象とする系について、説明変数から目的変数を予測する予測モデルの構築及び学習を行う第２のステップと、
前記グラフにより記述されたドメイン知識を前記予測モデルの構築及び学習に活用する活用アルゴリズムが選択される第３のステップとを有し、
前記第３のステップで選択可能な活用アルゴリズムとして、前記予測モデルの説明変数として前記グラフから導出される特徴量を使用する第１の活用アルゴリズム、前記予測モデルの説明変数間の関係性に前記グラフのノード間の関係性を適用する第２の活用アルゴリズム、及び前記予測モデルの学習条件に前記グラフのノードの定義を適用する第３の活用アルゴリズムのうち、少なくとも１つ以上を含むことを特徴とするドメイン知識活用方法。

【請求項6】

請求項５において、
前記第１のステップにより記述された前記グラフのノード及びエッジの定義をグラフデータとして記憶し、
前記グラフにおけるノードに紐づけられた前記対象とする系のデータを対象データとして記憶し、
前記予測モデルの説明変数として、前記対象データのデータ項目を含むことを特徴とするドメイン知識活用方法。

【請求項7】

請求項６において、
前記第３のステップで選択された活用アルゴリズムに応じて、前記グラフデータ及び／または前記対象データの前処理を行う第４のステップを有し、
前記第３のステップで前記第１の活用アルゴリズムが選択された場合には、前記第４のステップにおいて、前記グラフデータ及び前記対象データを用いて前記グラフの潜在変数を、前記特徴量として抽出することを特徴とするドメイン知識活用方法。

【請求項8】

請求項５において、
前記グラフのノードとして、前記対象とする系から観測可能なデータ項目を表現する観測変数ノード、前記対象とする系で制御項目として使用されているデータ項目を表現する観測変数ノード、前記対象とする系の外乱を表現する外乱ノード、及び前記対象とする系内でノード間の関係性を表現するブロックノードを含むことを特徴とするドメイン知識活用方法。

【請求項9】

対象とする系についてのドメイン知識を、ノードとノード間の関係性を示すエッジにより構成されるグラフにおけるノードまたはエッジの定義として記述する第１の手順と、
前記対象とする系について、説明変数から目的変数を予測する予測モデルの構築及び学習を行う第２の手順と、
前記グラフにより記述されたドメイン知識を前記予測モデルの構築及び学習に活用する活用アルゴリズムが選択される第３の手順とを計算機に実行させ、
前記第３の手順で選択可能な活用アルゴリズムとして、前記予測モデルの説明変数として前記グラフから導出される特徴量を使用する第１の活用アルゴリズム、前記予測モデルの説明変数間の関係性に前記グラフのノード間の関係性を適用する第２の活用アルゴリズム、及び前記予測モデルの学習条件に前記グラフのノードの定義を適用する第３の活用アルゴリズムのうち、少なくとも１つ以上を含むことを特徴とするドメイン知識活用プログラム。

【請求項10】

請求項９において、
前記第１の手順により記述された前記グラフのノード及びエッジの定義をグラフデータとして記憶し、
前記グラフにおけるノードに紐づけられた前記対象とする系のデータを対象データとして記憶し、
前記予測モデルの説明変数として、前記対象データのデータ項目を含むことを特徴とするドメイン知識活用プログラム。

【請求項11】

請求項１０において、
前記第３の手順で選択された活用アルゴリズムに応じて、前記グラフデータ及び／または前記対象データの前処理を行う第４の手順を前記計算機に実行させ、
前記第３の手順で前記第１の活用アルゴリズムが選択された場合には、前記第４の手順において、前記グラフデータ及び前記対象データを用いて前記グラフの潜在変数を、前記特徴量として抽出することを特徴とするドメイン知識活用プログラム。

【請求項12】

請求項９において、
前記グラフのノードとして、前記対象とする系から観測可能なデータ項目を表現する観測変数ノード、前記対象とする系で制御項目として使用されているデータ項目を表現する観測変数ノード、前記対象とする系の外乱を表現する外乱ノード、及び前記対象とする系内でノード間の関係性を表現するブロックノードを含むことを特徴とするドメイン知識活用プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ドメイン知識活用システム、ドメイン知識活用方法及びドメイン知識活用プログラムに関する。

【背景技術】

【0002】

特開２００４－３３４８４１号公報（特許文献１）には、電子アンケートなどの形式で個人の経験から得た知識に関する情報を入力し、知識と経験した活動とを関連づけた知識情報をデータベースに蓄積することが開示されている。

【0003】

特開２０２１－２１２６号公報（特許文献２）には、製品の設計に関する項目及び項目値を表現したグラフ構造をユーザが描画し、受け付けたグラフ構造に含まれる項目の一部を説明変数とする多次元モデルを学習することが開示されている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２００４－３３４８４１号公報

【特許文献2】特開２０２１－２１２６号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

産業分野では、業務上で重要な場面での意思決定に機械学習が利用されることが期待されている。このためには、予測モデルがより高精度な予測結果を導くことができること、また予測モデルから導き出せる結論が、機械学習が利用される個々の産業分野において知られている分野固有の知識と整合していることが求められる。

【0006】

予測モデルの精度を向上するには、一般に、質の高い大量の学習データにより予測モデルを学習させる必要がある。しかしながら、産業分野では予測モデルの学習に使用できる学習データを取得するコストが高く、学習データの量も限られていることが多い。

【0007】

特許文献１では、データベースに蓄積された情報に基づいて、活動及び知識創造プロセスを２軸とした知識総数の二元表や、知識の伝播状況グラフなどを表示出力するにとどまり、蓄積した知識を機械学習のような予測モデルに活用することについては検討されていない。また、二元表や伝播グラフは特定のデータ項目に関する情報は可視されるが、データ項目間の関連性や制約を顕在化することは難しいと考えられ、これらの表示から産業分野において知られている分野固有の知識と整合しているかどうかの判断も困難である。

【0008】

特許文献２では、ユーザが描画したグラフ構造の項目を多次元モデルの説明変数と目的変数として設定することで、重要性の低い変数を排除できるものの、多次元モデルの予測精度を向上させるにはなお、大量の学習データが必要であると考えられる。

【0009】

本発明は、ユーザが判読可能なグラフという表現形式によりドメイン知識をグラフにおけるノードまたはエッジの定義として記述し、グラフとして記述したドメイン知識を数理表現に変換し、機械学習を行う予測モデルのデータ項目、データ項目についての制約、データ項目間の関係性などに反映させることにより、ドメイン知識を機械学習に反映させるシステム、方法、プログラムを提供する。

【課題を解決するための手段】

【0010】

上記課題を解決するために、例えば特許請求の範囲に記載の構成を採用する。

【0011】

本願は上記課題を解決する手段を複数含んでいるが、その一例をあげるならば、対象とする系についてのドメイン知識を、ノードとノード間の関係性を示すエッジにより構成されるグラフにおけるノードまたはエッジの定義として記述するグラフ記述部と、対象とする系について、説明変数から目的変数を予測する予測モデルの構築及び学習を行うモデル構築部と、グラフにより記述されたドメイン知識を予測モデルの構築及び学習に活用する活用アルゴリズムが選択されるアルゴリズム選択部とを有し、アルゴリズム選択部で選択可能な活用アルゴリズムとして、予測モデルの説明変数としてグラフから導出される特徴量を使用する第１の活用アルゴリズム、予測モデルの説明変数間の関係性にグラフのノード間の関係性を適用する第２の活用アルゴリズム、及び予測モデルの学習条件にグラフのノードの定義を適用する第３の活用アルゴリズムのうち、少なくとも１つ以上を含むことを特徴とするドメイン知識活用システムである。

【発明の効果】

【0012】

得られる学習データが少ない場合においても、対象とする系のドメイン知識を機械学習に活用し、高精度な予測モデルを構築可能なシステムを提供する。上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。

【図面の簡単な説明】

【0013】

【図1】ドメイン知識活用システムの機能ブロック図である。

【図2】グラフ記述画面の例である。

【図3】アルゴリズム選択画面の例である。

【図4】モデル構築画面の例である。

【図5A】モデル結果表示画面の例である。

【図5B】モデル詳細表示画面の例である。

【図6】モデル管理画面の例である。

【図7】機械学習にドメイン知識を活用する全体処理フローを示す図である。

【図8】グラフの変換処理フローを示す図である。

【図9】活用アルゴリズムの選択処理フローを示す図である。

【図10】活用アルゴリズムに応じた前処理フローを示す図である。

【図11】予測モデルの構築・評価処理フローを示す図である。

【図12】対象データのデータ構造例である。

【図13A】エッジデータのデータ構造例である。

【図13B】エッジラベルデータのデータ構造例である。

【図13C】エッジ重みデータのデータ構造例である。

【図13D】ノードデータのデータ構造例である。

【図13E】ノード制約データのデータ構造例である。

【図13F】ブロックノードデータのデータ構造例である。

【図14A】予測モデルデータのデータ構造例である。

【図14B】予測モデルの概要図である。

【図15】活用アルゴリズムの詳細が登録されるアルゴリズムデータのデータ構造例である。

【図16】活用アルゴリズムに応じた前処理結果を管理する管理データのデータ構造例である。

【図17A】予測モデルを学習及び評価した結果を管理する管理データのデータ構造例である。

【図17B】パラメータファイルのデータ構造例である。

【図17C】学習評価ファイルのデータ構造例である。

【図18】数理表現形式として解釈したときのグラフデータを示す図である。

【図19】変分オートエンコーダを用いる生成モデルの例である。

【発明を実施するための形態】

【0014】

以下、本発明の実施形態について、図面を参照しながら説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一符号を付し、その繰り返しの説明は省略する。

【0015】

図１は、ドメイン知識活用システムの構成例を機能ブロック図により示している。ドメイン知識活用システム１は、一般的な情報処理装置（ＰＣやサーバなどの計算機）で構成でき、ソフトウェアプログラムの実行処理により本実施例の特徴的な処理を実現する。本システムの機能を一台の計算機ではなく、複数のサーバによる分散システムやクラウドに実装することも可能である。

【0016】

ドメイン知識活用システム１は、入出力部１１、通信部１２、表示部２０、制御部３０、記憶部４０を有している。

【0017】

入出力部１１は、ユーザに情報を提示するディスプレイなどの出力装置、ユーザが指示や情報を入力するためのキーボード、マウス、ポインティングデバイスなどの入力装置を含む。後述するグラフィカルユーザインターフェース（ＧＵＩ）を介して、ユーザとインタラクティブにシステムの処理を実行することを可能にする。

【0018】

通信部１２は、ドメイン知識活用システム１の外部の通信網に対する通信インタフェース装置を含み、外部のサーバや製造装置等と通信する。通信部１２は、制御部３０からの制御に従って、外部のサーバ、ストレージ、制御対象の装置等から、必要なデータ等を取得、参照するために用いられる。

【0019】

表示部２０は、各種ＧＵＩ画面を入出力部１１の出力装置に表示する。本システムが使用するＧＵＩ画面については後述する。

【0020】

制御部３０は、例えばＲＡＭのような主メモリに呼び出された命令（プログラム）をプロセッサ（ＣＰＵ）が実行することによって、それぞれの機能を実現する。制御部３０は、グラフ記述部３１、グラフ変換処理部３２、グラフ保存部３３、アルゴリズム選択部３４、アルゴリズム処理部３５、アルゴリズム処理結果保存部３６、モデル構築部３７、モデル評価部３８、モデル処理結果保存部３９を有し、本実施例の特徴的な機能を実現する処理を実行する。

【0021】

記憶部４０は、ＨＤＤ、ＳＳＤ、フラッシュメモリなどの不揮発メモリに格納され、本システムに対してアップロードされたデータや本システムの処理において生成されたデータを記憶する。記憶部４０は、データ記憶部４１、グラフ記憶部４２、モデル記憶部４３、アルゴリズム記憶部４４、アルゴリズム処理記憶部４５、モデル処理結果記憶部４６を有している。

【0022】

ドメイン知識活用システム１は、ユーザのドメイン知識をグラフとして記述し、グラフとして記述されたドメイン知識を、機械学習による予測モデルの構築及び学習に利用する。

【0023】

図７に沿って、機械学習にドメイン知識を活用する処理フローを説明する。

【0024】

ステップＳ０１：グラフ記述部３１により実行される、ドメイン知識をグラフにおけるノードまたはエッジの定義として記述する処理である。

【0025】

本ステップにおいて、ユーザは、自身のもつドメイン知識をグラフという表現形式により記述する。グラフ記述画面表示部２１によりページまたはウィンドウとして表示されるグラフ記述画面２１０の例を図２に示す。グラフ記述画面２１０には、機械学習モデルにて解くべき課題ごとに割り振られたタスクＩＤ２１１が表示されている。グラフの作成には、主にキャンパス２１２と呼ばれる、ユーザがグラフを作成する画面と、パレット２１３と呼ばれる、ユーザがグラフを作成する際に使用するグラフの部品が表示される画面とを使用する。

【0026】

ユーザはまず、キャンパス２１２において、パレット２１３から選択した部品を組み合わせてグラフ２１４を作成する。パレット２１３に並べられる部品には以下のようなものがある。システムボックス２１３ａは機械学習モデルにて解くべき課題が対象とする系を表現する。観測変数ノード２１３ｂは、対象とする系から観測可能なデータ項目を表現する。制御変数ノード２１３ｃは、対象とする系で制御項目として使用されているデータ項目を表現する。外乱ノード２１３ｄは対象とする系の外乱を表現する。ブロックノード２１３ｅは、対象とする系内でノード間の関係性を表現するノードである。エッジ２１３ｆは、ノード間の関係性を示す矢印である。パレット２１３内に、ユーザが各種ノード、エッジの内容や意義を理解しやすいように、簡単な説明文を付してもよい。

【0027】

ユーザはパレット２１３からアイコン２１５を用いて部品を選択して、キャンパス２１２上に移動させて組み合わせることにより、ドメイン知識を記述するグラフ２１４を作成する。このとき、それぞれのノードの名称（ラベル）または概要を、該当するノードとともに表示することができる。これにより、図２に例示されたグラフ２１４が金属プレス工程に係るものであることが把握できる。なお、ユーザは常に一からグラフ２１４を作成するのではなく、グラフアップロードボタン２１６ａを押下してグラフアップロード画面（図示せず）に遷移し、既に作成済みのグラフをアップロードして再利用することも可能である。

【0028】

続いて、ユーザは、キャンパス２１２上に作成したグラフ２１４のノードやエッジに対してユーザが保有している当該分野固有の知識に基づく情報を付加する。例えば、グラフ２１４のいずれかのノードとアップロードしたデータのデータ項目とを紐づける。また、グラフ２１４のノードがとりうる値についての分布推定や制約等の情報、グラフ２１４のエッジの属性情報を設定する。属性情報は、エッジで接続されるノード間の関係性を表す情報であり、具体例を後述する。ただし、ユーザがドメイン知識としてグラフ２１４に付加し得る情報は多様であり、本実施例において例示するものに限定されるものではない。

【0029】

図１２は、ノードに対して紐づけられる対象データの例である。図１２はデータ記憶部４１に記憶されているデータのデータ構造例を示している。データは、グラフ記述画面２１０のデータアップロードボタン２１６ｂを押下することにより遷移するデータアップロード画面（図示せず）からアップロードされてデータ記憶部４１に保存される。対象データ４１０は、データを識別するためのデータＩＤ４１１とテーブルデータ４１２を有する。この例では、テーブルデータ４１２は、取得時刻４１３と取得データ４１４を有し、取得データ４１４の各レコードには取得時刻４１３に示される時刻に取得されたデータ項目それぞれの値が格納されている。

【0030】

図１３Ａ～Ｆを用いて、グラフに付加されるユーザの知識に基づく情報の例について説明する。図１３Ａ～Ｆは、グラフ記憶部４２（図１参照）に記憶されているデータのデータ構造例である。詳細は後述するが、ステップＳ０１で作成されたグラフは、後述するステップＳ０２において表形式のデータに変換されて記憶部４０のグラフ記憶部４２に保存される。図１３Ａ～Ｆは同じ１つのグラフについてのノード及びエッジの定義を保存するグラフデータであって、それぞれグラフを識別するためのグラフＩＤ４２１とテーブルデータ４２２ａ～ｆを有している。

【0031】

図１３Ａは、エッジデータ４２０ａを示す。エッジデータ４２０ａには、エッジの始点ノード４２３ｓと終点ノード４２３ｅとの間のエッジの有無が登録されている。始点ノード４２３ｓと終点ノード４２３ｅとの交点となるフィールドに１が登録されているときにはエッジがある（接続）ことを示し、０が登録されているときにはエッジがない（非接続）ことを示す。エッジデータ４２０ａはグラフ理論における隣接行列である。

【0032】

図１３Ｂは、エッジラベルデータ４２０ｂを示す。エッジラベルデータ４２０ｂには、エッジの始点ノード４２３ｓと終点ノード４２３ｅとの間に定義されたエッジのラベル（属性）が登録されている。ラベルは、文字列または数値により定義できる。

【0033】

図１３Ｃは、エッジ重みデータ４２０ｃを示す。エッジ重みデータ４２０ｃには、エッジの始点ノード４２３ｓと終点ノード４２３ｅとの間のエッジの重みが登録されている。

【0034】

図１３Ｄは、ノードデータ４２０ｄを示す。ノードデータ４２０ｄには、グラフに含まれるノードのラベルと分布仮説とが登録されている。ノードのラベルには、例えば対象とする系を観測して得られる観測値と対象とする系を制御するための制御値とを含む。さらにノードのラベルが観測値である場合には、その期待値についてユーザが推定した確率分布情報（分布仮説という）が登録されている。

【0035】

図１３Ｅは、ノード制約データ４２０ｅを示す。ノード制約データ４２０ｅには、ノードがとりうる値についての制約条件が登録されている。制約条件として、例えば、最大値、最小値などがある。

【0036】

図１３Ｆは、ブロックノードデータ４２０ｆを示す。ブロックノードデータ４２０ｆは、ブロックノードが表現する、ノード間の関係性を登録する。ブロックＩＤ４２４は、ブロックノードを識別するＩＤである。関連ノードＩＤ４２５は、当該ブロックノードが関係性を示すノードの組み合わせを、ノードを識別するノードＩＤにより登録する。この例では、ブロックＩＤ１のブロックノードは、ノードＩＤ１の始点ノードとノードＩＤ２の終点ノードとの間の関係性を登録していることを示している。

【0037】

本実施例では、ノード間の関係性をその関係性に適した形式で表現する。ラベル４２６は関係性の表現形式を表す。この例では、「方程式」、「IF-THENルール」、「因果関係」といった表現形式を例示している。関係性ＩＤ４２７には、具体的な関係式やルールを識別する関係性ＩＤが登録されている。この例では、ブロックＩＤ１のブロックノードは関係性ＩＤＥ１に規定されている具体的な方程式を用いて関係性が記述されることを示しており、ブロックＩＤ３のブロックノードは関係性ＩＤＲ１に規定されている具体的なIF-THENルールを用いて関係性が記述されることを示している。

【0038】

このように、ステップＳ０１では、ＧＵＩ画面上でグラフを作成し、作成したグラフのノード及びエッジに対して図１２、図１３Ａ～Ｆとして例示したような情報を付加することにより、ドメイン知識をグラフにおけるノードまたはエッジの定義として記述する。

【0039】

ステップＳ０２：図７のフローチャートの説明に戻る。グラフ変換処理部３２は、グラフ記述部３１によって記述されたグラフ（ステップＳ０１）を隣接行列やベクトルに変換し、グラフ保存部３３は、変換した隣接行列やベクトルをグラフデータとしてグラフ記憶部４２に記憶する。グラフ記述画面２１０の変換ボタン２１６ｃを押下することにより、ステップＳ０２の処理が開始される。図８にステップＳ０２の詳細な処理フローを示す。

【0040】

ステップＳ１１：グラフ変換処理部３２は、ステップＳ０１において作成されたグラフ２１４とグラフのノード及びエッジに付加された情報を取得する。

【0041】

ステップＳ１２：ステップＳ１１で取得した情報のうち、エッジに対する情報をエッジに関するグラフデータに変換する。エッジの有無はグラフの構造から隣接行列として表現できる（図１３Ａ）。エッジに付加されたラベル情報や重み情報は、エッジの始点ノードと終点ノードとのベクトルとして表現できる（図１３Ｂ，Ｃ）。

【0042】

ステップＳ１３：ステップＳ１１で取得した情報のうち、観測変数、制御変数や外乱といったノードに対する情報やノード間の関係性を定義するブロックノードに対する情報をグラフデータに変換する。ノードに付加される情報としては、例えば観測変数や制御変数、外乱の上下限値や分布の仮説情報、データの型、任意のラベル情報などがある（図１３Ｄ，Ｅ）。またノード間の関係性を定義するブロックノードに付加される情報としては、IF-THENで表されるような判断規則、数学的な方程式、関係性を表す任意のラベル情報などがある（図１３Ｆ）。なお、以上はユーザが定義した情報についての例示であり、これらに限定されるものではない。

【0043】

ステップＳ１４：ユーザが、グラフ記述画面２１０の保存ボタン２１６ｄを押下すると、グラフ保存部３３はノードとエッジに関して変換されたグラフデータをグラフ記憶部４２に保存する。保存されたグラフデータが図１３Ａ～Ｆに例示したデータである。

【0044】

このように、ドメイン知識を記述するグラフを行列やベクトル形式に変換することにより、グラフとして記述されたドメイン知識を数理モデルで扱うことが可能になる。図１８に数理表現形式として解釈したときのグラフのデータを示す。グラフＧは、グラフの構造を示すノード集合Ｖ及びエッジの隣接行列表現Ａ、ノードに紐づけられた対象データＸ、グラフに付加された付加情報Ｒの総体として表される。これにより、ドメイン知識を数理モデルにおいて扱うことが可能になる。なお、ステップＳ０２で保存されたグラフＧに相当するデータを以下では数理グラフデータと総称する。

【0045】

ステップＳ０３：図７のフローチャートの説明に戻る。本ステップでは、予測モデル構築時に使用するデータの前処理を行う。予測モデルは、説明変数から目的変数を予測するモデルであって、機械学習による学習が行われる。

【0046】

ユーザはまず、予測モデル構築時にドメイン知識を活用する活用アルゴリズムを選択する。ユーザがグラフ記述画面２１０におけるアルゴリズム選択ボタン２１７を押下すると、アルゴリズム選択部３４は、グラフ記述画面２１０から、活用アルゴリズムを選択するＧＵＩ画面に遷移させる。アルゴリズム選択画面表示部２２が表示するアルゴリズム選択画面２２０を図３に示す。

【0047】

アルゴリズム選択画面２２０は、活用アルゴリズムのリストと活用アルゴリズムを選択するためのチェックボックス２２１とを含む。この例では、ドメイン知識を含むグラフを機械学習モデルに活用する方法として、特徴量２２２、モデル構造２２３、学習アルゴリズム２２４と３つの活用アルゴリズムを表示している。チェックボックス２２１をクリックすることでボックス内にチェックが入り、該当する活用アルゴリズムが選択される。

【0048】

３つの活用アルゴリズムは、予測モデル構築時にドメイン知識を反映させる方法が異なる。特徴量２２２は数理グラフデータから予測モデルへの入力データ（特徴量）を作成することでドメイン知識を反映させる活用方法である。モデル構造２２３は、予測モデルの構造、すなわち説明変数間の関係性にグラフデータが示すグラフの構造、すなわちノード間の関係性を反映させる活用方法である。学習アルゴリズム２２４は、予測モデルの学習に対する制約条件や収束条件（総称して学習条件という）に数理グラフデータの付加情報、例えばブロックノードとして定義されるノード間の関係性の情報を反映させる活用方法である。なお、活用アルゴリズムは、例示した３つの活用アルゴリズムの全てが選択可能にされる必要はなく、少なくとも１つ以上が選択可能とされていればよい。

【0049】

図１５に、アルゴリズム記憶部４４（図１参照）に記憶されているアルゴリズムデータ４４０のデータ構造例を示す。活用アルゴリズム４４１ごとに、活用するグラフデータの内容を示す活用情報４４２、その詳細である活用情報詳細４４３、具体的に活用するグラフデータを特定する活用グラフデータ４４４を含む。活用アルゴリズム４４１はアルゴリズム選択画面２２０（図３参照）に表示されるリストに対応する。活用情報４４２はグラフ記述画面２１０のパレット２１３（図２参照）に表示される部品の他、数理グラフデータから抽出される潜在変数を含む。潜在変数の例については後述する。なお、活用グラフデータ４４４は、図１５ではフォーマットとして記載しているが、必要な付加情報の内容などが具体的に特定されている。

【0050】

このようにドメイン知識を活用するには数理グラフデータに活用アルゴリズムに応じた必要なデータが揃っている必要があるため、アルゴリズム処理部３５は、アルゴリズム選択画面２２０で選択された活用アルゴリズムに応じた数理グラフデータが揃っているか確認の上、活用アルゴリズムに応じた数理グラフデータの前処理を行う。図９にアルゴリズム処理部３５の詳細な処理フローを示す。

【0051】

ステップＳ２１：アルゴリズム選択画面２２０にて選択された項目情報（活用アルゴリズム）を取得する。

【0052】

ステップＳ２２：アルゴリズム処理部３５は、ドメイン知識を記述した数理グラフデータが、選択した活用アルゴリズムに応じた処理を行うために必要な情報を有しているかチェックする。活用アルゴリズムに必要な情報は、図１５で示したアルゴリズム記憶部４４に記憶されているので、数理グラフデータとアルゴリズム記憶部４４に登録された活用アルゴリズムごとの活用情報４４２、活用グラフデータ４４４を照合すればよい。

【0053】

情報が十全であると判定される場合には（ステップＳ２３でYes）、選択された活用アルゴリズムに応じた前処理を実行し、アルゴリズム処理結果保存部３６は処理結果をアルゴリズム処理記憶部４５に保存する（ステップＳ２４）。一方、情報が十全でない場合（ステップＳ２３でNo）、例えば活用アルゴリズムに必要な情報が不完全、または存在しない場合、不足のデータをユーザに表示し、情報の補充を求める（ステップＳ２５）。

【0054】

一例として、活用アルゴリズムとして「特徴量」が選択された場合に、アルゴリズム処理部３５が実行するステップＳ２４の処理フローの詳細を図１０に示す。図１０の例は特徴量として潜在変数を抽出するため、潜在変数を抽出するための生成モデルを作成する例である。潜在変数とは、観測変数と異なり実際に観測される変数ではないが、観測された他の変数から推定される変数である。潜在変数は、高次元のデータをより低次元の変数で表現することができるので、ドメイン知識を記述するグラフの特徴を表す変数とみなすことができる。したがって、ユーザがドメイン知識に基づき選択したデータから抽出される潜在変数を予測モデルの入力データとして使用することで、ドメイン知識を予測モデルに反映することができる。

【0055】

ここでは生成モデルとして変分オートエンコーダを用いる手法を例に説明する。変分オートエンコーダを用いる生成モデルを図１９に示す。変分オートエンコーダを用いる生成モデルは、エンコーダとデコーダとを有し、エンコーダにより入力された情報Ｘを低次元の潜在空間Ｚで表現し、表現された潜在空間上のデータｚをデコーダにより、元のデータＸの次元にて表現する構造を持つ。エンコーダでは潜在空間上でデータ分布ｐ（ｚ）が連続（多次元標準正規分布）となるように学習し、デコーダでは潜在空間上のデータｚをデコードして得られるデータが元のデータに近くなるように、構造上の重みを計算する。なお、モデルならびに学習方法は一例でありこの限りではない。

【0056】

ステップＳ３１：数理グラフデータからノードに紐づけられた対象データＸのデータ項目数を入力数とする生成モデルを作成する。

【0057】

ステップＳ３２：生成モデルを学習させる。変分オートエンコーダを用いる生成モデルでの学習方法は図１９に記載した通りである。

【0058】

その後、学習した生成モデルをアルゴリズム処理結果としてアルゴリズム処理記憶部４５に保存し（ステップＳ３３）、学習が終了した旨を画面上に出力する（ステップＳ３４）。

【0059】

アルゴリズム処理結果保存部３６がアルゴリズム処理記憶部４５に記憶する前処理結果を管理する管理データ４５０のデータ構造例を図１６に示す。処理ＩＤ４５１は該当するタスクＩＤ／データＩＤ／グラフＩＤ／モデルＩＤを使用したときの処理を一意に示すＩＤである。タスクＩＤ４５２は図２等のタスクＩＤ２１１、データＩＤ４５３は図１２のデータＩＤ４１１、グラフＩＤ４５４は図１３Ａ～ＦのグラフＩＤ４２１、モデルＩＤは後述する図１４ＡのモデルＩＤ４３１に相当する。ドメイン知識活用アルゴリズム４５６にはアルゴリズム選択画面２２０で選択された活用アルゴリズムが登録されている。処理結果４５７には、活用アルゴリズムに応じた前処理を行った結果（例えば、図１０の処理フローで作成された生成モデルなど）が保存されているアドレスやデータパスを示している。これにより、数理グラフデータとして記述されたドメイン知識がどのように利用されたか、把握することができる。

【0060】

ステップＳ０４：図７のフローチャートの説明に戻る。本ステップでは、グラフデータとステップＳ０３で作成した前処理データとを用いて、予測モデルを構築・評価する。予測モデルの構築・評価の例として、「特徴量」アルゴリズムを選択した場合の詳細な処理フローを図１１に示す。

【0061】

ステップＳ４１：データ記憶部４１及びグラフ記憶部４２から数理グラフデータを取得する。

【0062】

ステップＳ４２：アルゴリズム処理記憶部４５から生成モデルを取得し、生成モデル及び数理グラフデータから潜在変数を取得する。

【0063】

ステップＳ４３：ユーザは予測モデル構築画面上で予測モデルを構築する。モデル構築画面表示部２３が表示するモデル構築画面２３０を図４に示す。モデル構築画面２３０は、対象とする課題に対して予測モデルを構築し、学習を行う画面である。モデル構築画面２３０は、タスクＩＤ２１１で管理され、予測モデル構築に使用する予測アルゴリズムを選択する選択画面２３１、予測モデルの学習パラメータを設定するパラメータ設定画面２３２及びパラメータ設定変更ボタン２３３、ドメイン知識を記述するグラフ、データ及び予測モデルの概要を表す予測モデル表示画面２３４、予測モデルの学習状況を表示する学習状況表示画面２３５、学習開始ボタン２３６、学習結果表示ボタン２３７を有している。

【0064】

選択画面２３１には事前に設定された予測アルゴリズムが表示され、ユーザは構築に使用する予測アルゴリズムを選択する。パラメータ設定画面２３２の値はパラメータ設定変更ボタン２３３を押下することにより、各学習パラメータの設定値を変更することが可能である。設定される学習パラメータの項目は使用する予測アルゴリズムによって異なり、その都度更新される。選択された活用アルゴリズムが学習アルゴリズムである場合には、学習パラメータの設定値にドメイン知識を記述するグラフのノードの定義が反映される。

【0065】

予測モデル表示画面２３４には、ドメイン知識を記述するグラフ２３４ａ、データ２３４ｂ、予測モデル構造２３４ｃが表示される。グラフ２３４ａとしては、例えばグラフ記述画面２１０のキャンパス２１２にて作成されたグラフが表示される。データ２３４ｂとしては、グラフ記述画面２１０にてユーザがアップロードしたデータが表または概要形式で表示される。予測モデル構造２３４ｃとしては、選択画面２３１で選択された予測アルゴリズムに基づく予測モデルの概要図が表示される。選択された活用アルゴリズムがモデル構造である場合には、予測モデルの構造にドメイン知識を記述するグラフの構造が反映される。

【0066】

モデル構築部３７は、このようにモデル構築画面２３０にて選択された予測アルゴリズムをもとに、数理グラフデータを用いて予測モデルを構築する。予測モデルにはグラフに紐づけられた対象データを含む入力データが入力されるが、活用アルゴリズムとして特徴量が選択された場合には、予測モデルの入力としてさらに数理グラフデータから導出された潜在変数も使用される。図１９に示した例であれば、元のデータＸと潜在空間上のデータｚを説明変数として入力し、目的変数である予測データｙを出力する予測モデルを構築する。

【0067】

図１４Ａにモデル記憶部４３に記憶されている予測モデルデータ４３０のデータ構造例を示し、図１４Ｂに対応する概要図を示す。ここでは、予測モデルをニューラルネットワークとした例を示している。

【0068】

概要図（図１４Ｂ）において、ニューラルネットワークで表現されるモデルの入力層４３７ｉならびに出力層４３７ｏに存在するノードをそれぞれ黒丸で表現し、中間層４３８のノードをそれぞれ白丸で表現している。層番号は中間層の順序を表し、入力層に最も近い中間層の層番号を１とする。この例では中間層は第１層から第Ｍ層までを有する。入力層のノードと中間層第１層のノードとの間、隣接する中間層のノード同士の間、中間層第Ｍ層のノードと出力層のノードとの間にはエッジ４３９が設けられている。エッジ４３９にはそれぞれ重みが設定されている。

【0069】

図１４Ｂに示すような予測モデルの構造が、図１４Ａの表形式のデータとしてモデル記憶部４３に記憶されている。モデルＩＤ４３１は予測モデルを識別するＩＤである。テーブルデータ４３２は、ノード情報を登録するノードテーブルデータ４３２ａとエッジ情報を登録するエッジテーブルデータ４３２ｂとを含む。

【0070】

ノードテーブルデータ４３２ａは、層番号４３３と層内ノード数４３４を含み、層内ノード数４３４には層番号４３３に指定される層に含まれるノードの数が登録されている。エッジテーブルデータ４３２ｂは、層番号４３３、エッジ番号４３５、重み４３６を含み、エッジ番号４３５には、層番号４３３に指定される層に含まれるノードを終点ノードとするエッジを特定するエッジ番号、重み４３６には、エッジ番号４３５で指定されるエッジの重みが登録されている。

【0071】

ステップＳ４４：モデル評価部３８は、モデル構築部３７にて学習中の予測モデルを評価する。モデル構築画面２３０（図４参照）において予測モデルの学習パラメータを設定し、学習開始ボタン２３６を押下することにより、モデル構築部３７は、予測モデルの学習を開始する。例えば、元のデータＸと潜在空間上のデータｚを入力し、予測データｙを出力する予測モデルであれば、教師データｙ’と予測データｙとが等しくなるように予測モデルのパラメータ、例えば、図１４Ｂに示されるエッジの重みを調整する。モデル評価部３８により予測モデルの予測データｙが教師データｙ’に十分近似した値を出力するようになったという評価が得られれば、モデル構築部３７は予測モデルの学習を終了する。モデル構築画面２３０の学習状況表示画面２３５には予測モデルの学習の進行状況が表示される。例えば、予測モデルの訓練ステップにおける訓練時間やその進捗状況が表示される。

【0072】

ステップＳ４５：モデル評価部３８は予測モデルの学習が終了した旨をＧＵＩ画面上に出力する。この表示を受け、ユーザがモデル構築画面２３０（図４参照）の学習結果表示ボタン２３７を押下することにより、図５Ａに示すモデル結果表示画面２４０に遷移する。

【0073】

モデル結果表示画面表示部２４が表示するモデル結果表示画面２４０は、モデル構築画面２３０で構築した、対象とする課題の予測モデルを、設定した学習条件で学習させた結果を表示する。モデル結果表示画面２４０はタスクＩＤ２１１で管理され、学習及び検証時の予測モデルの予測精度について、折れ線グラフ２４２、箱ひげ図２４３、混合行列２４４、テキスト２４５等により表示する。

【0074】

モデル詳細表示ボタン２４１を押下することで、図５Ｂに示すモデル詳細表示画面２４６に遷移する。モデル詳細表示画面２４６では、予測モデルについての詳細な情報が表示され、ユーザは予測モデルの内容を把握できる。

【0075】

モデル詳細表示画面２４６は、予測モデルを識別するモデルＩＤ２４７、予測モデルが使用したドメイン知識を記述するグラフを表示する表示画面２４８、及び予測モデルに関するパラメータ等を表示する画面に遷移するパラメータ表示ボタン２４９を有している。表示画面２４８には、グラフ記述画面２１０で作成したグラフを機械学習モデルで利用するときに変換したグラフを表示する。パラメータ表示ボタン２４９が押下されると、予測モデルの構築時に使用したモデルアルゴリズムやパラメータ等を表示する画面に遷移する。

【0076】

ステップＳ０５：図７のフローチャートの説明に戻る。本ステップでは、モデル処理結果保存部３９（図１参照）が、ステップＳ０４で構築した予測モデル、予測モデル構築時に使用したデータ（学習パラメータ等）、予測モデルの学習評価結果データを保存する。予測モデルの学習に使用したパラメータや学習評価結果はモデル処理結果記憶部４６に記憶される。

【0077】

図１７Ａ～Ｃに、モデル処理結果記憶部４６に記憶されている、予測モデルを学習及び評価した結果を管理する管理データ４６０のデータ構造例を示している。管理データ４６０は、学習／評価された予測モデルを管理している。モデルＩＤ４６１には図１４Ａ等に示したモデルＩＤが登録され、モデルＩＤ４６１で指定された予測モデルについての予測アルゴリズム４６２、パラメータファイル４６３、学習評価ファイル４６４が登録されている。予測アルゴリズム４６２には、予測モデル構築時に選択した予測アルゴリズム名称が登録され、パラメータファイル４６３には、予測モデル構築時に設定した学習パラメータファイルへのリンクが登録され、学習評価ファイル４６４には、予測モデルの学習と評価を行ったときの学習結果ファイルへのリンクが登録される。

【0078】

図１７Ｂにパラメータファイルのデータ構造例を示す。パラメータファイル４７０はパラメータ名４７１とパラメータ名４７１で指定されるパラメータについての設定値を登録する設定値４７２を含む。

【0079】

図１７Ｃに学習評価ファイルのデータ構造例を示す。学習評価ファイル４８０はエポック４８１とエポック４８１で指定されるエポックにおける訓練ロス４８２、検証ロス４８３、訓練精度４８４、検証精度４８５が登録されている。なお、一般的に、機械学習においては学習データを繰り返し予測データに学習させ、エポックとはすべての学習データについて１回学習し終えた段階のことを指し、繰り返し回数をエポック数という。学習評価ファイル４８０に基づいて、図５Ａに示したモデル結果表示画面２４０に学習した予測モデルの予測精度の評価情報が表示される。

【0080】

モデル管理画面表示部２５は、図７のフローにしたがって作成され、ドメイン知識活用システム１に蓄積されている予測モデルを管理する管理画面を表示する。図６に示すモデル管理画面２５０は、学習及び評価を行った予測モデルの情報をレコードとして表示する。モデル管理画面２５０には、表形式で学習及び評価した予測モデルについての情報を表示する。具体的には、モデル管理画面２５０は、予測モデルを識別するためのモデルＩＤ２５１、予測モデルの内容を示すラベル２５２、予測モデルが使用するアップロードデータのデータ項目の数を示すデータ項目数２５３、予測モデルの構築、学習及び評価を行った日時を示す作成日時２５４、予測モデルの詳細を示すモデル詳細表示画面２４６（図５Ｂ参照）に遷移するための遷移ボタンを表示する詳細リンク２５５を含む。詳細リンク２５５の遷移ボタンを押下することで、当該予測モデルに対応するモデル詳細表示画面２４６が表示される。

【0081】

以上、本発明者によってなされた発明の実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることは言うまでもない。

【符号の説明】

【0082】

１：ドメイン知識活用システム、１１：入出力部、１２：通信部、２０：表示部、２１：グラフ記述画面表示部、２２：アルゴリズム選択画面表示部、２３：モデル構築画面表示部、２４：モデル結果表示画面表示部、２５：モデル管理画面表示部、３０：制御部、３１：グラフ記述部、３２：グラフ変換処理部、３３：グラフ保存部、３４：アルゴリズム選択部、３５：アルゴリズム処理部、３６：アルゴリズム処理結果保存部、３７：モデル構築部、３８：モデル評価部、３９：モデル処理結果保存部、４０：記憶部、４１：データ記憶部、４２：グラフ記憶部、４３：モデル記憶部、４４：アルゴリズム記憶部、４５：アルゴリズム処理記憶部、４６：モデル処理結果記憶部、２１０：グラフ記述画面、２１１：タスクＩＤ、２１２：キャンパス、２１３：パレット、２１３ａ：システムボックス、２１３ｂ：観測変数ノード、２１３ｃ：制御変数ノード、２１３ｄ：外乱ノード、２１３ｅ：ブロックノード、２１３ｆ：エッジ、２１４：グラフ、２１５：アイコン、２１６ａ：グラフアップロードボタン、２１６ｂ：データアップロードボタン、２１６ｃ：変換ボタン、２１６ｄ：保存ボタン、２１７：アルゴリズム選択ボタン、２２０：アルゴリズム選択画面、２２１：チェックボックス、２２２：特徴量、２２３：モデル構造、２２４：学習アルゴリズム、２３０：モデル構築画面、２３１：選択画面、２３２：パラメータ設定画面、２３３：パラメータ設定変更ボタン、２３４：予測モデル表示画面、２３４ａ：グラフ、２３４ｂ：データ、２３４ｃ：予測モデル構造、２３５：学習状況表示画面、２３６：学習開始ボタン、２３７：学習結果表示ボタン、２４０：モデル結果表示画面、２４１：モデル詳細表示ボタン、２４２：折れ線グラフ、２４３：箱ひげ図、２４４：混合行列、２４５：テキスト、２４６：モデル詳細表示画面、２４７：モデルＩＤ、２４８：表示画面、２４９：パラメータ表示ボタン、２５０：モデル管理画面、２５１：モデルＩＤ、２５２：ラベル、２５３：データ項目数、２５４：作成日時、２５５：詳細リンク、４１０：対象データ、４１１：データＩＤ、４１２：テーブルデータ、４１３：取得時刻、４１４：取得データ、４２０ａ：エッジデータ、４２０ｂ：エッジラベルデータ、４２０ｃ：エッジ重みデータ、４２０ｄ：ノードデータ、４２０ｅ：ノード制約データ、４２０ｆ：ブロックノードデータ、４２１：グラフＩＤ、４２２ａ～４２２ｆ：テーブルデータ、４２３ｓ：始点ノード、４２３ｅ：終点ノード、４２４：ブロックＩＤ、４２５：関連ノードＩＤ、４２６：ラベル、４２７：関係性ＩＤ、４３０：予測モデルデータ、４３１：モデルＩＤ、４３２：テーブルデータ、４３２ａ：ノードテーブルデータ、４３２ｂ：エッジテーブルデータ、４３３：層番号、４３４：層内ノード数、４３５：エッジ番号、４３６：重み、４３７ｉ：入力層、４３７ｏ：出力層、４３８：中間層、４３９：エッジ、４４０：アルゴリズムデータ、４４１：活用アルゴリズム、４４２：活用情報、４４３：活用情報詳細、４４４：活用グラフデータ、４５０：管理データ、４５１：処理ＩＤ、４５２：タスクＩＤ、４５３：データＩＤ、４５４：グラフＩＤ、４５５：モデルＩＤ、４５６：ドメイン知識活用アルゴリズム、４５７：処理結果、４６０：管理データ、４６１：モデルＩＤ、４６２：予測アルゴリズム、４６３：パラメータファイル、４６４：学習評価ファイル、４７０：パラメータファイル、４７１：パラメータ名、４７２：設定値、４８０：学習評価ファイル、４８１：エポック、４８２：訓練ロス、４８３：検証ロス、４８４：訓練精度、４８５：検証精度。

【図1】