特開2016-224512 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特開2016-224512意思決定支援システム及び意思決定支援方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】特開2016-224512(P2016-224512A)

(43)【公開日】2016年12月28日

(54)【発明の名称】意思決定支援システム及び意思決定支援方法

(51)【国際特許分類】

G06Q 50/10 20120101AFI20161205BHJP

G06F 17/30 20060101ALI20161205BHJP

【ＦＩ】

G06Q50/10 180

G06F17/30 419B

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

【全頁数】19

(21)【出願番号】特願2015-107193(P2015-107193)

(22)【出願日】2015年5月27日

(71)【出願人】

【識別番号】000005108

【氏名又は名称】株式会社日立製作所

(74)【代理人】

【識別番号】110001678

【氏名又は名称】特許業務法人藤央特許事務所

(72)【発明者】

【氏名】福田幸二

(72)【発明者】

【氏名】工藤泰幸

(72)【発明者】

【氏名】谷本幸一

(72)【発明者】

【氏名】鳥羽美奈子

【テーマコード（参考）】

5L049

【Ｆターム（参考）】

5L049CC20

(57)【要約】

【課題】専門家の知識を無理なくモデル化して、将来を予測する。
【解決手段】
アクション連鎖モデルと反応モデルと意思モデルと評価モデルとアクション選択部とを有する意思決定支援システムであって、アクション連鎖モデルを用いて、プレーヤーのアクションからプレーヤーがとり得る次のアクションを導出し、反応モデルを用いて、プレーヤーのアクションと指標値とから、次の指標値を導出し、意思モデルを用いて、導出された次の指標値から各プレーヤーのアクションの選択確率を計算し、評価モデルを用いて、導出された次の指標値が各プレーヤーにとって望ましい程度を表す評価値を計算し、アクション選択部は、アクション連鎖モデルを用いて導出されたアクションと、意思モデルを用いて計算された選択確率と、評価モデルを用いて計算された評価値とを用いて、各プレーヤーのアクションを選択し、出力する。
【選択図】図２

【特許請求の範囲】

【請求項1】

プロセッサとメモリとを有する計算機によって構成される意思決定支援システムであって、
前記メモリは、意思決定に必要な複数の情勢を数値化した複数の指標値を格納し、
前記意思決定支援システムは、
前記プロセッサが、プレーヤーのアクションから次のアクションを導出するためのアクション連鎖モデルと、
前記プロセッサが、プレーヤーのアクションと前記指標値とから、次の指標値を導出するための反応モデルと、
前記プロセッサが、指標値からアクションの意思を表す選択確率をプレーヤー毎に導出するための意思モデルと、
前記プロセッサが、指標値から評価値をプレーヤー毎に導出するための評価モデルと、
前記プロセッサが、プレーヤーのアクションを選択するアクション選択部とを有し、
前記意思決定支援システムは、
前記アクション連鎖モデルを用いて、前記プレーヤーのアクションから前記プレーヤーがとり得る次のアクションを導出し、
前記反応モデルを用いて、前記プレーヤーのアクションと前記指標値とから、次の指標値を導出し、
前記意思モデルを用いて、前記導出された次の指標値から前記各プレーヤーのアクションの選択確率を計算し、
前記評価モデルを用いて、前記導出された次の指標値が前記各プレーヤーにとって望ましい程度を表す評価値を計算し、
前記アクション選択部は、前記アクション連鎖モデルを用いて導出されたアクションと、前記意思モデルを用いて計算された選択確率と、前記評価モデルを用いて計算された評価値とを用いて、前記各プレーヤーのアクションを選択し、前記選択されたアクションを出力することを特徴とする意思決定支援システム。

【請求項2】

請求項１に記載の意思決定支援システムであって、
前記プロセッサが、前記選択された各プレーヤーのアクションを調停して、前記各プレーヤーのアクションを決定するための調停モデルを有し、
前記アクション選択部は、前記各プレーヤーがとり得る複数のアクションを選択し、前記選択された複数のアクションの確率を出力し、
前記意思決定支援システムは、前記調停モデルを用いて、前記アクション選択部が選択した前記各プレーヤーのアクションを調停して、前記各プレーヤーのアクションを決定することを特徴とする意思決定支援システム。

【請求項3】

請求項１に記載の意思決定支援システムであって、
前記アクション選択部は、前記選択された各プレーヤーのアクションを時系列に表示するための画面データを出力することを特徴とする意思決定支援システム。

【請求項4】

請求項１に記載の意思決定支援システムであって、
前記アクション選択部は、前記複数のプレーヤーのアクションの組について、前記各プレーヤーの評価を表示するための画面データを出力することを特徴とする意思決定支援システム。

【請求項5】

プロセッサとメモリとを有する計算機が実行する意思決定支援方法であって、
前記メモリは、意思決定に必要な複数の情勢を数値化した複数の指標値を格納し、
前記計算機は、プレーヤーのアクションから次のアクションを導出するためのアクション連鎖モデルと、プレーヤーのアクションと前記指標値とから、次の指標値を導出するための反応モデルと、指標値からアクションの意思を表す選択確率をプレーヤー毎に導出するための意思モデルと、指標値から評価値をプレーヤー毎に導出するための評価モデルとを有し、
前記方法は、
前記プロセッサが、前記アクション連鎖モデルを用いて、前記プレーヤーのアクションから前記プレーヤーがとり得る次のアクションを導出し、前記メモリに格納し、
前記プロセッサが、前記反応モデルを用いて、前記プレーヤーのアクションと前記指標値とから、次の指標値を導出し、前記メモリに格納し、
前記プロセッサが、前記意思モデルを用いて、前記導出された次の指標値から前記各プレーヤーのアクションの選択確率を計算し、前記メモリに格納し、
前記プロセッサが、前記評価モデルを用いて、前記導出された次の指標値が前記各プレーヤーにとって望ましい程度を表す評価値を計算し、前記メモリに格納し、
前記プロセッサが、前記アクション連鎖モデルを用いて導出されたアクションと、前記意思モデルを用いて計算された選択確率と、前記評価モデルを用いて計算された評価値とを用いて、前記各プレーヤーのアクションを選択し、前記メモリに格納することを特徴とする意思決定支援方法。

【請求項6】

請求項５に記載の意思決定支援方法であって、
前記計算機は、前記選択された各プレーヤーのアクションを調停して、前記各プレーヤーのアクションを決定するための調停モデルを有し、
前記プロセッサは、前記各プレーヤーがとり得る複数のアクションを選択し、前記選択された複数のアクションの確率を出力し、
前記プロセッサは、前記調停モデルを用いて、前記選択された前記各プレーヤーのアクションを調停して、前記各プレーヤーのアクションを決定することを特徴とする意思決定支援方法。

【請求項7】

請求項５に記載の意思決定支援方法であって、
前記プロセッサは、前記選択された各プレーヤーのアクションを時系列に表示するための画面データを出力することを特徴とする意思決定支援方法。

【請求項8】

請求項５に記載の意思決定支援方法であって、
前記プロセッサは、前記複数のプレーヤーのアクションの組について、前記各プレーヤーの評価を表示するための画面データを出力することを特徴とする意思決定支援方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、意思決定支援システムに関する。

【背景技術】

【0002】

専門家の知見を用いて将来生じるであろう情勢や関係者の行動を予測するコンピュータシステムが提案されている。

【0003】

例えば、特許文献１（特開平５−２０４９９１号公報）には、コンピュータと時系列データベースと登録パターンデータベースと端末装置からなるシステムにおいて、複数のパターンを登録するステップと、時系列データベースから時系列データを読み込み、既に登録されている複数のパターンとの照合をパターン毎，一定期間毎に行うステップと、登録されたパターン間の出現に関する因果関係を分析するステップと、分析結果を表示するステップとからなる時系列データ検索システムが記載されている。特許文献１に記載された時系列データ検索システムは、登録されたパターンと比較した結果に基づいて（ルールベースで）将来動向（アクション）を予測する。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開平５−２０４９９１号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかし、特許文献１に記載されているようなルールベースの予測システムでは、連鎖モデルを用いて、多くのルールを含むモデルを作成して、次に何が生じるかをシミュレートするものである。このため、ルールベースの予測システムではモデルの作成が困難であった。すなわち、このモデルでは、全ての事象や関係者の行動を考慮しなければならず、専門家の知見を整理して、知見を統合したモデルを作成するために、専門家の知見を分類して、モデルを作成することは困難である。このため、専門家の知識を無理なくモデル化して、将来を予測するシステムが求められている。

【課題を解決するための手段】

【0006】

本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、プロセッサとメモリとを有する計算機によって構成される意思決定支援システムであって、前記メモリは、意思決定に必要な複数の情勢を数値化した複数の指標値を格納し、前記意思決定支援システムは、前記プロセッサが、プレーヤーのアクションから次のアクションを導出するためのアクション連鎖モデルと、前記プロセッサが、プレーヤーのアクションと前記指標値とから、次の指標値を導出するための反応モデルと、前記プロセッサが、指標値からアクションの意思を表す選択確率をプレーヤー毎に導出するための意思モデルと、前記プロセッサが、指標値から評価値をプレーヤー毎に導出するための評価モデルと、前記プロセッサが、プレーヤーのアクションを選択するアクション選択部とを有し、前記意思決定支援システムは、前記アクション連鎖モデルを用いて、前記プレーヤーのアクションから前記プレーヤーがとり得る次のアクションを導出し、前記反応モデルを用いて、前記プレーヤーのアクションと前記指標値とから、次の指標値を導出し、前記意思モデルを用いて、前記導出された次の指標値から前記各プレーヤーのアクションの選択確率を計算し、前記評価モデルを用いて、前記導出された次の指標値が前記各プレーヤーにとって望ましい程度を表す評価値を計算し、前記アクション選択部は、前記アクション連鎖モデルを用いて導出されたアクションと、前記意思モデルを用いて計算された選択確率と、前記評価モデルを用いて計算された評価値とを用いて、前記各プレーヤーのアクションを選択し、前記選択されたアクションを出力する。

【発明の効果】

【0007】

本発明の代表的な形態によれば、専門家の知見を容易に整理でき、将来生じるであろう情勢やアクションを専門家の知見に基づいて予測することができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。

【図面の簡単な説明】

【0008】

【図1】第１の実施例の意思決定支援システムの物理的な構成を示すブロック図である。

【図2】第１の実施例の意思決定支援システムの論理的な構成を示すブロック図である。

【図3】第１の実施例のアクション連鎖モデルを説明する図である。

【図4】第１の実施例の反応モデルを説明する図である。

【図5】第１の実施例の意思モデルを説明する図である。

【図6】第１の実施例の評価モデルを説明する図である。

【図7】第１の実施例の意思決定支援システムによる処理のフローチャートである。

【図8】第１の実施例のシミュレーション結果出力画面の例を示す図である。

【図9】第１の実施例の変形例の意思決定支援システムによる処理のフローチャートである。

【図10】第１の実施例の星取表出力画面の例を示す図である。

【図11】第１の実施例の星取表を構成するためのモンテカルロ木探索を説明する図である。

【図12】第２の実施例の意思決定支援システムの論理的な構成を示すブロック図である。

【図13】第２の実施例の調停モデルを説明する図である。

【発明を実施するための形態】

【0009】

図１は、第１の実施例の意思決定支援システムの物理的な構成を示すブロック図である。

【0010】

本実施例の意思決定支援システムは、複数の計算機（ＣＡＬＣ＿ＮＯＤＥ）と、これら複数の計算機を接続する通信スイッチ（ＣＯＭ＿ＳＷ）とを有する。

【0011】

各計算機（ＣＡＬＣ＿ＮＯＤＥ）は、プログラムを実行するプロセッサ（ＣＰＵ）と、データ及びプログラムを格納する一時記憶装置（ＲＡＭ）及び補助記憶装置（ＳＴＯＲ）と、通信スイッチ（ＣＯＭ＿ＳＷ）と接続される通信デバイス（ＣＯＭ＿ＤＥＶ）とを有する。プロセッサ（ＣＰＵ）と、一時記憶装置（ＲＡＭ）と、補助記憶装置（ＳＴＯＲ）と、通信デバイス（ＣＯＭ＿ＤＥＶ）とは、バス（ＢＵＳ）で接続されている。

【0012】

プロセッサ（ＣＰＵ）は、一時記憶装置（ＲＡＭ）に格納されたプログラムを実行する。一時記憶装置（ＲＡＭ）は、不揮発性の記憶素子であるＲＯＭ及び揮発性の記憶素子である（ＲＡＭ）を含む。ＲＯＭは、不変のプログラム（例えば、ＢＩＯＳ）などを格納する。（ＲＡＭ）は、Ｄ（ＲＡＭ）（Dynamic Random Access Memory）のような高速かつ揮発性の記憶素子であり、プロセッサ（ＣＰＵ）が実行するプログラム及びプログラムの実行時に使用されるデータを一時的に格納する。

【0013】

補助記憶装置（ＳＴＯＲ）は、例えば、磁気記憶装置（ＨＤＤ）、フラッシュメモリ（ＳＳＤ）等の大容量かつ不揮発性の記憶装置であり、プロセッサ（ＣＰＵ）が実行するプログラム及びプログラムの実行時に使用されるデータを格納する。すなわち、プログラムは、補助記憶装置（ＳＴＯＲ）から読み出されて、記憶装置（ＲＡＭ）にロードされて、プロセッサ（ＣＰＵ）によって実行される。

【0014】

通信デバイス（ＣＯＭ＿ＤＥＶ）は、所定のプロトコルに従って、通信スイッチ（ＣＯＭ＿ＳＷ）を介して、他の装置との通信を制御するネットワークインターフェース装置である。

【0015】

各計算機（ＣＡＬＣ＿ＮＯＤＥ）は、入力インターフェース及び出力インターフェースを有してもよい。入力インターフェースは、オペレータからの入力を受けるインターフェースであり、具体的には、マウス、キーボード、タッチパネル、マイクなどである。出力インターフェースは、プログラムの実行結果をオペレータが視認可能な形式で出力するインターフェースであり、ディスプレイ装置やプリンタなどである。

【0016】

通信スイッチ（ＣＯＭ＿ＳＷ）に、入力インターフェース及び出力インターフェースを有する端末計算機が接続されてもよい。

【0017】

プロセッサ（ＣＰＵ）が実行するプログラムは、リムーバブルメディア（ＣＤ−ＲＯＭ、フラッシュメモリなど）又はネットワークを介して各計算機（ＣＡＬＣ＿ＮＯＤＥ）に提供され、非一時的記憶媒体である不揮発性の補助記憶装置（ＳＴＯＲ）に格納される。このため、各計算機（ＣＡＬＣ＿ＮＯＤＥ）は、リムーバブルメディアからデータを読み込むインターフェースを有するとよい。

【0018】

各計算機（ＣＡＬＣ＿ＮＯＤＥ）は、物理的に一つの計算機上で、又は、論理的又は物理的に構成された複数の計算機上で構成される計算機システムであり、同一の計算機上で別個のスレッドで動作してもよく、複数の物理的計算機資源上に構築された仮想計算機上で動作してもよい。また、各計算機（ＣＡＬＣ＿ＮＯＤＥ）の各機能部は異なる計算機上で実現されてもよい。

【0019】

図２は、第１の実施例の意思決定支援システムの論理的な構成を示すブロック図である。

【0020】

本実施例の意思決定支援システムは、アクション連鎖モデル１、反応モデル２、意思モデル４及び評価モデル５の四つのモデルで構成される。具体的には、図２に示す意思決定支援システムは、アクション連鎖モデル１、反応モデル２及び複数のアクション決定部３を有する。アクション決定部３は、意思モデル４、評価モデル５及びアクション選択部６を有し、プレーヤー毎に設けられる。

【0021】

アクション連鎖モデル１は、図３に示すように、ルールベースのシミュレータであり、プレーヤーの現在のアクションから次に実行される蓋然性があるアクションを導出する。プレーヤーは、世の中で意思を決定し、行動する（アクションを実行する）主体であり、例えば、国民、行政機関（各省庁）、国会、内閣、外国政府、マスコミなどである。

【0022】

反応モデル２は、図４に示すように、ルールベースのシミュレータであり、各プレーヤーの現在のアクション及び現在の指標値から次の指標値を導出する。指標値とは、例えば、世の中で生じている事象（情勢の変化）を数値化した指標であり、経済指標（ＧＤＰ、株価、為替レートなど）、世論調査結果（内閣支持率など）である。

【0023】

アクション決定部３は、プレーヤー毎に設けられ、各プレーヤーの次のアクションを導出する。

【0024】

意思モデル４は、図５に示すように、次の指標値からアクション意思を導出するシミュレータである。アクション意思は、ある情勢（指標値の組み合わせによって表される）において採用されるアクションを実行する意志の強さを表す数値である。すなわち、各プレーヤーはアクション意思の値が大きいアクションを選択する確率（期待値）が高い。評価モデル５は、図６に示すように、次の指標値から評価値を導出するシミュレータである。評価値は、ある情勢がプレーヤーにとって望ましい程度を表す数値である。

【0025】

アクション選択部６は、当該プレーヤーの次のアクションの蓋然性、アクション意思及び評価値から当該プレーヤーの次のアクションを導出するセレクタである。アクション選択部６は、例えば、意思モデル４から出力されたアクション意思及び評価モデル５から出力された評価値でアクション連鎖モデル１から出力されたアクションに重み付けすることによって、当該プレーヤーの次のアクションを選択する。

【0026】

アクション選択部６が導出した次のアクションは、アクション連鎖モデル１に入力され、次のアクションのシミュレーションに用いられる。また、反応モデル２が導出した次の指標値は、反応モデル２に入力され、次の指標値のシミュレーションに用いられる。

【0027】

図３は、第１の実施例のアクション連鎖モデル１を説明する図である。アクション連鎖モデル１は、各プレーヤーのアクションをノードとしたマルコフ決定過程モデルで表されている。各ノードにはプレーヤーがアクションを選択する確率が対応付けられており、ノード間のエッジにはノード間を状態が遷移する確率が対応付けられている。

【0028】

図３に示すアクション連鎖モデル１では、プレーヤー１がアクション１、アクション２及びアクション３を選択する確率は、それぞれ、０．３：０．５：０．２である。また、プレーヤー１がアクション１を選択した場合、プレーヤー２は０．８の確率でアクション２を選択する。つまり、プレーヤー２がアクション２を選択する確率は、式１によって表すことができる。
１−（（１−０．３）×（１−０．８）） …（式１）

【0029】

アクション連鎖モデル１によって、プレーヤーの現在のアクションから蓋然性がある次のアクションを一つ又は複数導出することができる。

【0030】

図４は、第１の実施例の反応モデル２を説明する図である。反応モデル２は、コーザル・ループ・ダイアグラムによって各指標間の相関関係を表すモデルである。

【0031】

反応モデル２は、例えば図４に示すように、複数の指標をノードとして、ノード間をエッジによって連結したグラフィカルモデルによって表すことができる。各エッジの実線の矢印は正の相関を示し、破線の矢印は負の相関を示す。さらに、各エッジに係数を定めることによって、各指標の挙動を表すシステムダイナミクスモデルとすることができる。各エッジの係数は、指標の増減量との比で定義する。例えば、指標３と指標２とは正の相関があり、エッジの係数が０．５であれば、指標３が１増加したとき、指標２は０．５増加する。また、指標３と指標５とは負の相関があり、エッジの係数が１．２であれば、指標３が１増加したとき、指標５は１．２減少する。

【0032】

なお、離散系シミュレーションを行う場合、計算機内では反応モデル２を漸化式で表すことができる。また、連続系シミュレーションを行う場合、計算機内では反応モデル２を一次微分方程式で表すことができる。

【0033】

指標には、ストック要素とフロー要素とがある。ストック要素は、例えば、原油の備蓄量など、ある時点における量を示す。また、フロー要素は、例えば、原油の輸入量（生産量）や消費量など、時間帯における変数の流れを示す。ある指標をストック要素とするかフロー要素とするかは、世の中で、その指標が一般的にストック量及びフロー量のいずれとして使われているかによって決定するとよい。また、実際には数値で計測できない量（例えば、リスクインパクト、ナショナリズム）を指標として用いてもよい。このように、ストック要素とフロー要素とを混在させて反応モデル２を構成することによって、有識者の思考をそのままで、制約を設けることなく、モデル化することができる。

【0034】

図５は、第１の実施例の意思モデル４を説明する図である。意思モデル４は、コーザル・ループ・ダイアグラムによって各指標間の相関関係を表し、さらに、各プレーヤーのアクションと各指標との相関関係を表すモデルである。

【0035】

意思モデル４は、前述した反応モデル２と同様のモデルによって表すことができる。すなわち、意思モデル４は、例えば、複数の指標をノードとして、ノード間をエッジによって連結したグラフィカルモデルによって表すことができる。各エッジの実線の矢印は正の相関を示し、破線の矢印は負の相関を示す。さらに、各エッジに係数を定めることによって、各指標の挙動を表すシステムダイナミクスモデルとすることができる。各エッジの係数は、指標の増減量との比で定義する。

【0036】

意思モデル４において、指標間は互いに相関関係を有するが、プレーヤーのアクションと指標との間は、各プレーヤーのアクションから指標へ向かうのエッジのみが定義され、逆方向のエッジは定義されない。また、各アクションの間のエッジも定義されない。意思モデル４によって、各プレーヤーのアクションの指標への影響をモデル化することができる。

【0037】

なお、離散系シミュレーションを行う場合、計算機内では意思モデル４を漸化式で表すことができる。また、連続系シミュレーションを行う場合、計算機内では意思モデル４を一次微分方程式で表すことができる。意思モデル４は、反応モデル２と同様に、意思モデル４の指標には、ストック要素とフロー要素とがある。

【0038】

図６は、第１の実施例の評価モデル５を説明する図である。評価モデル５は、コーザル・ループ・ダイアグラムによって各指標間の相関関係を表し、各プレーヤーのアクションと各指標との相関関係を表し、各指標と各プレーヤーの評価との相関関係を表し、さらに、各指標と各プレーヤーのアクションの意思との相関関係を表すモデルである。評価は、複数の指標の組み合わせによって表される情勢を、各プレーヤーが望ましいと思うかを示す数値である。なお、評価は、指標の数値範囲の組み合わせ毎に異なる評価値を持ってもよい。アクション意思は、各プレーヤーがとり得るアクションと各アクションを選択する確率の組によって表される。

【0039】

評価モデル５は、前述した反応モデル２と同様のモデルによって表すことができる。すなわち、評価モデル５は、例えば、複数の指標をノードとして、ノード間をエッジによって連結したグラフィカルモデルによって表すことができる。各エッジの実線の矢印は正の相関を示し、破線の矢印は負の相関を示す。さらに、各エッジに係数を定めることによって、各指標の挙動を表すシステムダイナミクスモデルとすることができる。各エッジの係数は、指標の増減量との比で定義する。

【0040】

評価モデル５において、指標間は互いに相関関係を有するが、プレーヤーのアクションと指標との間は、各プレーヤーのアクションから指標へ向かうのエッジのみが定義され、逆方向のエッジは定義されない。また、各アクションの間のエッジも定義されない。また、各指標と各プレーヤーの評価との間は、各指標から評価へ向かうのエッジのみが定義され、逆方向のエッジは定義されない。また、各指標と各プレーヤーのアクションの意思との間は、各指標からアクションの意思へ向かうのエッジのみが定義され、逆方向のエッジは定義されない。さらに、アクションの意思の間のエッジも定義されない。評価モデル５によって、各指標の各プレーヤーのアクションの意思の強さへの影響をモデル化することができ、各プレーヤーのアクションの評価値を定めることができる。

【0041】

なお、離散系シミュレーションを行う場合、計算機内では意思モデル４を漸化式で表すことができる。また、連続系シミュレーションを行う場合、計算機内では意思モデル４を一次微分方程式で表すことができる。評価モデル５は、反応モデル２と同様に、評価モデル５の指標には、ストック要素とフロー要素とがある。

【0042】

なお、評価モデル５は意思モデル４を含み、意思モデル４は反応モデル２を含む。このため、反応モデル２と意思モデル４と評価モデル５とは、一つのモデルを論理的に区分して構成してもよい。

【0043】

反応モデル２、意思モデル４及び評価モデル５において、各ノードが表す事象は多少は関係があるので、ほとんど全てのノード間でエッジが定義できる。しかし、全てのノード間でエッジを定義するとモデルが複雑になるので、相関性が高いエッジ（例えば、係数が所定の閾値より大きいエッジ）によってモデルを構成するとよい。

【0044】

図７は、第１の実施例の意思決定支援システムによる処理のフローチャートである。

【0045】

まず、現在の状況及びシミュレーション期間が入力インターフェースに入力されると（Ｓ１０１）繰り返し制御パラメータｔの初期値にシミュレーション開始時を設定し、シミュレーション終了時ｔ＿ｅｎｄを設定する。入力される現在の状態は、各プレーヤーの現在のアクション及び現在の各指標値を含む。

【0046】

次に、ｔがｔ＿ｅｎｄより小さいかを判定する（Ｓ１０２）。ｔがｔ＿ｅｎｄより小さければ、ステップＳ１０３及びＳ１０５に進む。ｔがｔ＿ｅｎｄ以上であれば、指定された期間のシミュレーション結果が得られたので、処理を終了し、シミュレーション結果出力画面（図８）を出力する。

【0047】

ステップＳ１０３では、アクション連鎖モデル１を駆動し、プレーヤーの現在のアクションから蓋然性がある次のアクションを導出し、補助記憶装置（ＳＴＯＲ）に格納する（Ｓ１０４）。また、ステップＳ１０５では、反応モデル２を駆動し、各プレーヤーの現在のアクション及び現在の指標値から次の指標値を導出し、補助記憶装置（ＳＴＯＲ）に格納する（Ｓ１０６）。

【0048】

ステップＳ１０３〜Ｓ１０６の処理は、並行して実行することができるが、アクション連鎖モデル１を起動する処理（Ｓ１０３）と、反応モデル２を駆動する処理（Ｓ１０５）とを順に実行してもよい。

【0049】

次に、全てのプレーヤーについて、意思モデル４及び評価モデル５を駆動する（Ｓ１０７、Ｓ１０９）。ステップＳ１０７〜Ｓ１１０の処理は、並行して実行することができるが、意思モデル４を起動する処理（Ｓ１０７）と、評価モデル５を駆動する処理（Ｓ１０９）とを順に実行してもよい。

【0050】

ステップＳ１０７では、意思モデル４を駆動し、次の指標値から各プレーヤーのアクション意思を導出し、補助記憶装置（ＳＴＯＲ）に格納する（Ｓ１０８）。また、ステップＳ１０９では、評価モデル５を駆動し、次の指標値から評価値を導出し、補助記憶装置（ＳＴＯＲ）に格納する（Ｓ１１０）。

【0051】

その後、アクション選択部６が、当該プレーヤーの次のアクションの蓋然性、アクション意思及び評価値を勘案して当該プレーヤーの次のアクションを決定し、補助記憶装置（ＳＴＯＲ）に格納する（Ｓ１１１）。

【0052】

全てのプレーヤーの次のアクションが決定した後、反応モデル２が出力した次の指標値を現在の指標値に設定して、反応モデル２の時刻を一つ進める（Ｓ１１２）。そして、繰り返し制御パラメータｔに１を加算して（Ｓ１１３）、ステップＳ１０２に戻る。なお、ｔに加算される１は、シミュレーションを実行する時間間隔を示し、オペレータが（例えば、１日を）予め設定するとよい。

【0053】

以上の処理によって、シミュレーション期間中の各プレーヤーのアクションを導出できる。

【0054】

図８は、第１の実施例のシミュレーション結果出力画面１０００の例を示す図である。シミュレーション結果出力画面１０００は、時間の経過に伴って各プレーヤーが選択するアクションを表し、出力インターフェース（ディスプレイ装置）に表示される。例えば、図８に示すように、縦方向にプレーヤーが列記され、横方向にシミュレーション結果の時刻が列記された表形式で、各プレーヤーの各時刻におけるアクションが表示される。シミュレーション結果出力画面１０００によって、ユーザは各プレーヤーがとるアクションを時系列に知ることができる。

【0055】

次に、第１の実施例の変形例について説明する。以下に説明する変形例では、星取表を用いて各プレーヤーのアクションを選択する。

【0056】

図９は、第１の実施例の変形例の意思決定支援システムによる処理のフローチャートである。

【0057】

まず、現在の状況及びシミュレーション期間が入力インターフェースに入力されると（Ｓ１２１）、繰り返し制御パラメータｔの初期値をシミュレーション開始時に設定し、シミュレーション終了時ｔ＿ｅｎｄを設定する。入力される現在の状態には、各プレーヤーの現在のアクション及び現在の各指標値が含まれる。

【0058】

次に、ｔがｔ＿ｅｎｄより小さいかを判定する。ｔがｔ＿ｅｎｄより小さければ、ステップＳ１０３及びＳ１０５に進む（Ｓ１２２）。ｔがｔ＿ｅｎｄ以上であれば、指定された期間のシミュレーション結果が得られたので、処理を終了し、シミュレーション結果出力画面（図８）を出力する。

【0059】

次に、全てのプレーヤーが取り得るアクションの選択肢の全ての組み合わせを列挙し（Ｓ１２３）、列挙された全ての組み合わせについて、アクション連鎖モデル１及び反応モデル２をｔ＋αまで駆動し、各プレーヤーの次のアクション及び次の指標値を導出し、補助記憶装置（ＳＴＯＲ）に格納する（Ｓ１２４）。αは、星取表に記載される各アクションのスコアを計算するうえで、時刻ｔにおいて予測が考慮される将来の時間である。

【0060】

その後、全てのプレーヤーについて、意思モデル４及び評価モデル５を駆動し、各プレーヤーのアクション意思及び評価値を導出し、補助記憶装置（ＳＴＯＲ）に格納する（Ｓ１２５）。

【0061】

その後、時刻ｔ＋αでの評価値に基づいて星取表を作成し（Ｓ１２６）、星取表を用いて、時刻ｔにおけるプレーヤーのアクションを決定し、補助記憶装置（ＳＴＯＲ）に格納する（Ｓ１２７）。具体的には、星取表は自分の評価と他のプレーヤーの評価とを記載した表で、後述するように、適切なアクションを選択するために用いられる。

【0062】

全てのプレーヤーの次のアクションが決定した後、反応モデル２が出力した次の指標値を現在の指標値に設定して、反応モデル２の時刻を一つ進める（Ｓ１２８）。そして、繰り返し制御パラメータｔに１を加算して（Ｓ１２９）、ステップＳ１２２に戻る。

【0063】

以上の処理によって、シミュレーション期間中の各プレーヤーのアクションを、他人のアクションを考慮しつつシミュレートできる。

【0064】

図１０は、第１の実施例の星取表出力画面１１００の例を示す図である。星取表出力画面は、シミュレーション結果出力画面１０００（図８）において、アクションの欄を選択することによって、出力インターフェース（ディスプレイ装置）に表示される。なお、星取表は、二人のプレーヤーのアクションの関係を表すので、オペレータは、シミュレーション結果出力画面１０００においてアクションの欄を選択した後に、相手方のプレーヤーを選択する。

【0065】

なお、星取表は、計算機の内部では、図１１に示すモンテカルロ木によって構成するとよい。

【0066】

まず、画面の内容について説明する。図１０に示す星取表出力画面１１００は、二人のプレーヤーの関係を示し、縦方向にプレーヤー１のアクションが列記され、横方向にプレーヤー２のアクションが列記された星取表１１１０を含む。また、画面の下部には「戻る」ボタン１１２０が設けられている。オペレータが「戻る」ボタン１１２０を操作することによって、シミュレーション結果出力画面１０００に戻ることができる。

【0067】

次に、星取表の内容について説明する。図１０に示す星取表は、プレーヤー１のアクションとプレーヤー２のアクションとの組において、プレーヤー１の評価とプレーヤー２の評価とが組になって記録される。評価は、図１０に示すように記号で表してもよいし、数値で表してもよい。星取表を用いることによって、複数のプレーヤーの評価値を総合した評価したアクションを決定することができる。

【0068】

次に、星取表を用いてアクションを選択する方法について、自分がプレーヤー１であり、相手がプレーヤー２である場合を説明する。ＭｉｎＭａｘ法を用いて、想定される最大の損害が最小になるようにアクションを決定する。

【0069】

例えば、プレーヤーが二人の場合、星取表の各行（自分のアクションが同じ行）に着目して、相手（プレーヤー２）の評価値が最も良いアクションにおけるプレーヤー１の評価値（ＭｉｎＭａｘ評価値）が最も良いアクションを、自プレーヤーの次のアクションに決定する。図示した場合、プレーヤー１のアクションはアクション２に決定する。

【0070】

また、プレーヤーが３人以上である場合、自分（プレーヤー１）のアクションについて、他プレーヤーのアクションを順に（そのプレーヤーの評価値が最も高いアクションを選ぶとして）固定した上で、自分の評価値が最も高いアクションに決定する。以下、具体的に説明する。

【0071】

プレーヤーが３人の場合は、以下のステップでアクションを決める。

【0072】

ステップ１：自分（プレーヤー１）のアクションをアクション１に設定する。

【0073】

その状態で、プレーヤー２とプレーヤー３との２人のゲームを考える。
ステップ１−１：プレーヤー２を自プレーヤーとして、上記のプレーヤーが２人の方法（星取表によるＭｉｎＭａｘ）によって、プレーヤー２のアクションを決める。
ステップ１−２：プレーヤー３を自プレーヤーとして、上記のプレーヤーが２人の方法（星取表によるＭｉｎＭａｘ）によって、プレーヤー３のアクションを決める。

【0074】

以上で決まった各プレーヤーのアクション（プレーヤー１＝アクション１、プレーヤー２＝ステップ１−１で決めたアクション、プレーヤー３＝ステップ１−２で決めたアクション）の組み合わせにおける、自分（プレーヤー１）の評価値を、プレーヤー１のアクション１における評価値に設定する。

【0075】

ステップ２：自分（プレーヤー１）のアクションをアクション２に設定する。

【0076】

また、前述と同様の方法で、プレーヤー１のアクション２における評価値を決める。

【0077】

ステップ３：自分（プレーヤー１）のアクションの数だけ、ステップ１の計算を行い、自分（プレーヤー１）にとっての評価値が最も良いアクションを決定する。

【0078】

さらに、プレーヤーが４人の場合は、以下のステップでアクションを決定する。

【0079】

ステップ４：自分（プレーヤー１）のアクションを固定する。その結果、プレーヤー２〜４のプレーヤーが３人のゲームとなる。
ステップ４−１：３人のゲームにおいて、プレーヤー２を自プレーヤーとして、上記のプレーヤーが３人の方法によって、プレーヤー２のアクションを決める。
ステップ４−２：３人のゲームにおいて、プレーヤー３を自プレーヤーとして、上記のプレーヤーが３人の方法によって、プレーヤー３のアクションを決める。
ステップ４−３：３人のゲームにおいて、プレーヤー４を自プレーヤーとして、上記のプレーヤーが３人の方法によって、プレーヤー４のアクションを決める。

【0080】

以上で決まった各プレーヤーのアクション（プレーヤー１＝アクション１、プレーヤー２〜４＝ステップ４−１〜４−３で決めたアクション）の組み合わせにおける、自分（プレーヤー１）の評価値を、プレーヤー１のアクション１における評価値に設定する。
ステップ５：自分（プレーヤー１）のアクションの数だけ、ステップ４の計算を行い、自分（プレーヤー１）にとっての評価値が最も良いアクションを決定する。

【0081】

図１１は、第１の実施例の星取表を構成するためのモンテカルロ木探索を説明する図である。

【0082】

すなわち、図１０を用いて前述した方法では、全プレーヤーの全てのアクションの組み合わせを計算するので、計算量が多い。このため、モンテカルロ木探索（Monte-Carlo Tree Search）を用いることで、少ない計算量で同様の処理を近似的に実行することができる。なお、モンテカルロ木の計算を無限回行うと、全プレーヤーの全てのアクションの組み合わせを計算した場合と同じ結果が得られる。

【0083】

図１１に示すモンテカルロ木探索では、プレーヤー１〜４の４人によるゲームで、各プレーヤーが、アクション１、２のいずれかを選択可能な場合、自分（プレーヤー１）のアクション１における評価値を計算する処理を示す。

【0084】

まず、自分（プレーヤー１）がアクション１を選択する。次に、プレーヤー２〜４のうちから１人をランダム（等確率）に選択する。以下、プレーヤー２を選択した場合を説明する。プレーヤー２は、子ノードにおいて、プレーヤー２にとって評価値の平均値が高いアクションを選択する。

【0085】

次に、プレーヤー３又は４の１人をランダム（等確率）に選択する。以下、プレーヤー３を選択した場合を説明する。プレーヤー３は、子ノードにおいて、プレーヤー３にとって評価値の平均値が高いアクションを選択する。最後に、プレーヤー４が、子ノードにおいて、プレーヤー４にとって評価値の平均値が高いアクションを選択する。

【0086】

以上の処理によって、時刻Ｘ＋０における、各プレーヤーのアクションの組が決定する。

【0087】

さらに、先読みをする場合、以下の処理を実行する。

【0088】

まず、プレーヤー１〜４の１人をランダム（等確率）に選択し、子ノードにおいて、選択されたプレーヤーにとって評価値が高いアクションを選択する。その後、残りのプレーヤーについて、前述と同様に、ランダムにプレーヤーを選択し、アクションを決定する。ある程度まで木を展開した後、ランダム・プレイアウトによって、全てのプレーヤーがランダムにアクションを選択して、時刻を進める。そして、予め定めておいた先読み回数に達したときの各プレーヤーの評価値を計算する。最後に、それまで通ってきた木の各ノードを逆に辿って、ノードに付けられている評価値に、先読み時の評価値を追加して平均値を求め、評価値を更新する。

【0089】

以上の処理を、数百回程度行った後、ルートノードに付されているプレーヤー１の評価値が、プレーヤー１のアクション１の評価値となる。

【0090】

以上の処理を、自分（プレーヤー１）がとり得る各アクションについて行い、最も自分（プレーヤー１）にとっての評価値が良いアクションを選択する。

【0091】

このように、星取表によって、ユーザはアクションが導出された理由を知ることができる。

【0092】

以上に説明したように、本発明の第１の実施例によると、アクション連鎖モデル１、反応モデル２、意思モデル４及び評価モデル５を用いて意思決定支援システムを構成するので、専門家の知見を容易に整理してモデル化することができる。このため、専門家の知見に基づいて将来生じるであろう情勢やアクションを予測することができる。特に、意思モデル４と評価モデル５を分けてモデル化するので、意思要因と抑制要因とを分けることができ、専門家の知見を加工することなくモデルに取り込むことができる。

【0093】

＜第２の実施例＞
次に、本発明の第２の実施例について説明する。第２の実施例の意思決定支援システムは、アクション連鎖モデル１、反応モデル２、意思モデル４、評価モデル５及び調停モデル７の五つのモデルで構成される。第２の実施例では、前述した第１の実施例と同じ構成及び処理の説明は省略し、異なる構成及び処理について説明する。

【0094】

図１２は、第２の実施例の意思決定支援システムの論理的な構成を示すブロック図である。

【0095】

第２の実施例の意思決定支援システムは、アクション連鎖モデル１、反応モデル２、複数のアクション決定部３及び調停モデル７を有する。アクション決定部３は、意思モデル４、評価モデル５及びアクション選択部６を有し、プレーヤー毎に設けられる。

【0096】

アクション連鎖モデル１、反応モデル２、意思モデル４、評価モデル５及びアクション選択部６は、前述した第１の実施例と同じである。なお、第２の実施例のアクション決定部３は、各プレーヤー毎に取り得る複数のアクションを、その選択率と共に出力する。

【0097】

調停モデル７は、複数のアクション決定部３から出力されたアクションを調停して、各プレーヤーのアクションを決定する。例えば、各プレーヤーが取り得るアクションには、相反するものがある。調停モデル７は、これらの関係を用いて、同時に行うことができるアクションの組み合わせを選択し、各プレーヤーのアクションを決定する。

【0098】

具体的には、調停モデル７は、アクション選択部６から出力された複数のアクションの選択率を計算し、各プレーヤー毎に選択率が最も高いアクションを選択し、各プレーヤーのアクションに決定する。

【0099】

図１３は、第２の実施例の調停モデル７を説明する図である。調停モデル７は、コーザル・ループ・ダイアグラムによって各指標間（ストック要素、フロー要素、状態要素）の相関関係を表すモデルである。

【0100】

例えば、図示した調停モデル７では、ストック要素１、２、３、４を、それぞれ、ｘ１、ｘ２、ｘ３、ｘ４とし、状態要素１、２を、それぞれ、ｙ１、ｙ２とし、各エッジの係数（ｋ１〜ｋ９）を定める。なお、状態要素は、現在の状態を表す数字であり、例えば、プレーヤー１が現在、アクション１を行っている場合に１、アクション１以外を行っている場合に０などと定めることができる。

【0101】

図示したように、ストック要素及び状態要素によって、ストック要素へ流入するフローの量や、ストック要素から流出するフローの量が決まり、ストック要素の量が啓示的に変化する。

【0102】

前述のように定義した場合、離散系シミュレーションにおいて、時刻ｔ＋１における各ストック要素の値は以下の漸化式によって計算することができる。
ｘ１（ｔ＋１）＝ｋ１×ｙ１（ｔ）＋ｋ２×ｘ４（ｔ）−ｋ３×ｘ３（ｔ）
ｘ２（ｔ＋１）＝ｘ１（ｔ）＋ｋ３×ｘ３（ｔ）−ｋ４×ｘ４（ｔ）
ｘ３（ｔ＋１）＝ｋ５×ｘ４（ｔ）−ｋ６×ｘ１（ｔ）
ｘ４（ｔ＋１）＝ｋ７×ｘ１（ｔ）−ｋ８×ｘ３（ｔ）−ｋ９×ｙ２（ｔ）

【0103】

また、連続系シミュレーションにおいて、各ストック要素の値は以下の微分方程式によって計算することができる。
ｄ［ｘ１（ｔ）］／ｄｔ＝ｋ１×ｙ１（ｔ）＋ｋ２×ｘ４（ｔ）−ｋ３×ｘ３（ｔ）
ｄ［ｘ２（ｔ）］／ｄｔ＝ｘ１（ｔ）＋ｋ３×ｘ３（ｔ）−ｋ４×ｘ４（ｔ）
ｄ［ｘ３（ｔ）］／ｄｔ＝ｋ５×ｘ４（ｔ）−ｋ６×ｘ１（ｔ）
ｄ［ｘ４（ｔ）］／ｄｔ＝ｋ７×ｘ１（ｔ）−ｋ８×ｘ３（ｔ）−ｋ９×ｙ２（ｔ）

【0104】

調停モデル７では、ストック要素及び状態要素によってフロー量を制御することによって、複数のストック要素を関連付けて制御し、各プレーヤーがアクションを選択する確率（選択率）を決定し、各プレーヤーのアクションを調停することができる。

【0105】

以上に説明したように、本発明の第２の実施例によると、調停モデル７が、アクション選択部６が選択した各プレーヤーのアクションを調停して、各プレーヤーのアクションを決定するので、複数プレーヤーのアクションの調停を考慮せず、モデル１、２、４、５を作成することができる。すなわち、アクションの調停と切り離してモデルを作成することができる。

【0106】

なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加・削除・置換をしてもよい。

【0107】

また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。

【0108】

各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、ＳＳＤ（Solid State Drive）等の記憶装置、又は、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に格納することができる。

【0109】

また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。

【符号の説明】

【0110】

ＣＡＬＣ＿ＮＯＤＥ計算機
ＣＰＵプロセッサ
ＲＡＭ一時記憶装置
ＳＴＯＲ補助記憶装置
ＣＯＭ＿ＳＷ通信スイッチ
ＣＯＭ＿ＤＥＶ通信デバイス
１アクション連鎖モデル
２反応モデル
３アクション決定部
４意思モデル
５評価モデル
６アクション選択部
７調停モデル

【図1】