IP Force 特許公報掲載プロジェクト 2022.1.31 β版

ホーム > 特許ランキング > 株式会社日立製作所

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特開2023-177493ジレンマ推定装置及びジレンマ推定方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4A
4B
4C
4D
5
6
7A
7B
7C
8A
8B
8C
9
10
11
12
13
14
15
16A
16B
16C
17A
17B
18A
18B

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023177493

(43)【公開日】2023-12-14

(54)【発明の名称】ジレンマ推定装置及びジレンマ推定方法

(51)【国際特許分類】

G06Q 10/04 20230101AFI20231207BHJP

【ＦＩ】

G06Q10/04

【審査請求】未請求

【請求項の数】11

【出願形態】ＯＬ

(21)【出願番号】P 2022090202

(22)【出願日】2022-06-02

(71)【出願人】

【識別番号】000005108

【氏名又は名称】株式会社日立製作所

(74)【代理人】

【識別番号】110001678

【氏名又は名称】藤央弁理士法人

(72)【発明者】

【氏名】松本杜青

(72)【発明者】

【氏名】鯨井俊宏

【テーマコード（参考）】

5L049

【Ｆターム（参考）】

5L049AA04

(57)【要約】

【課題】複数の敵対物間の状態の違いによってエージェントが受けるジレンマを推定する。
【解決手段】複数の敵対物がエージェントに及ぼすジレンマを推定するジレンマ推定装置は、エージェントの観測範囲に含まれる当該複数の敵対物の状態を示すパラメータの時系列を保持し、当該時系列に基づいて、当該複数の敵対物のパラメータの時間変化を示す軌跡を算出し、当該複数の敵対物の軌跡間の差異量を算出し、当該差異量に基づいて、当該複数の敵対物がエージェントに及ぼす乱雑度を算出し、乱雑度に基づいて前記ジレンマを推定する。
【選択図】図１

【特許請求の範囲】

【請求項1】

複数の敵対物がエージェントに及ぼすジレンマを推定するジレンマ推定装置であって、
プロセッサとメモリとを含み、
前記メモリは、前記エージェントの観測範囲に含まれる前記複数の敵対物の状態を示すパラメータの時系列を示す観測履歴情報を保持し、
前記プロセッサは、
前記観測履歴情報が示す前記時系列に基づいて、前記複数の敵対物のパラメータの時間変化を示す軌跡を算出し、
前記複数の敵対物の軌跡間の差異量を算出し、
前記差異量に基づいて、前記複数の敵対物が前記エージェントに及ぼす乱雑度を算出し、
前記乱雑度に基づいて前記ジレンマを推定する、ジレンマ推定装置。

【請求項2】

請求項１に記載のジレンマ推定装置であって、
前記プロセッサは、
前記複数の敵対物それぞれの軌跡に基づいて、当該敵対物のパラメータの時間による変化量を算出し、
前記算出した変化量に基づいて、前記乱雑度を算出する、ジレンマ推定装置。

【請求項3】

請求項１に記載のジレンマ推定装置であって、
前記観測履歴情報は、複数の前記パラメータの時系列を示し、
前記メモリは、前記複数のパラメータごとの軌跡の算出対象期間である履歴時間を示す履歴時間情報を保持し、
前記プロセッサは、
前記複数のパラメータそれぞれについて、
前記履歴時間情報が示す当該パラメータに対応する履歴時間分遡った時刻からの前記軌跡を算出し、
前記複数の敵対物の当該パラメータの軌跡間の差異量を算出する、ジレンマ推定装置。

【請求項4】

請求項１に記載のジレンマ推定装置であって、
前記観測履歴情報は、複数の時刻における前記パラメータの時系列を示し、
前記メモリは、過去の時刻における軌跡の差異量の比重を示す重みパラメータ情報を保持し、
前記プロセッサは、
前記複数の時刻それぞれについて、
前記観測履歴情報が示す前記時系列に基づいて、前記複数の敵対物のパラメータの時間変化を示す軌跡を算出し、
前記複数の敵対物の軌跡間の差異量を算出し、
前記複数の時刻の差異量のうち、過去の時刻における差異量に前記比重を適用し、
前記比重を適用した差異量に基づいて、前記乱雑度を算出する、ジレンマ推定装置。

【請求項5】

請求項１に記載のジレンマ推定装置であって、
前記プロセッサは、
前記観測範囲の外部に位置していた時刻の敵対物の前記パラメータを、前記観測履歴情報が示す当該敵対物の時系列が示す、当該時刻の直前又は直後の時刻の前記パラメータに基づいて推測し、
前記推測したパラメータを前記観測履歴情報の前記時系列に含める、ジレンマ推定装置。

【請求項6】

請求項１に記載のジレンマ推定装置であって、
前記パラメータは、前記複数の敵対物それぞれの位置、速度ベクトル、及び属性情報の少なくとも１つを含む、ジレンマ推定装置。

【請求項7】

請求項１に記載のジレンマ推定装置であって、
前記メモリは、前記エージェント及び前記複数の敵対物それぞれの行動の施策を決定するためのモデルを保持し、
前記プロセッサは、前記算出した乱雑度を低下させるよう前記モデルを学習する、ジレンマ推定装置。

【請求項8】

請求項１に記載のジレンマ推定装置であって、
前記メモリは、前記エージェント及び前記複数の敵対物それぞれの行動の施策を決定するためのモデルを保持し、
前記モデルは、前記エージェントの行動によるスコアを示し、
前記エージェントは、領海内を航行する巡視船であり、
前記複数の敵対物それぞれは、前記領海内を航行する不審船であり、
前記スコアは、前記領海内への不審船の侵入によって低下し、
前記パラメータは、前記不審船それぞれの速度ベクトルを含む、ジレンマ推定装置。

【請求項9】

請求項１に記載のジレンマ推定装置であって、
前記メモリは、前記エージェント及び前記敵対物の行動の施策を決定するためのモデルを保持し、
前記モデルは、前記エージェントの行動によるスコアを示し、
前記エージェントは、所定の領域を移動可能なロボットであり、
前記複数の敵対物それぞれは、前記所定の領域を移動可能な人間であり、
前記スコアは、前記ロボットが前記人間に衝突することによって低下し、
前記パラメータは、前記人間それぞれの速度ベクトルを含む、ジレンマ推定装置。

【請求項10】

請求項１に記載のジレンマ推定装置であって、
前記複数の敵対物が複数の前記エージェントそれぞれに及ぼすジレンマを推定し、
前記メモリは、前記複数のエージェント及び前記複数の敵対物それぞれの行動の施策を決定するためのモデルを保持し、
前記モデルは、前記エージェントの行動によるスコアを示し、
前記エージェントは、店舗に設置されたレジであり、
前記複数の敵対物それぞれは、前記店舗の内部を移動可能な人間であり、
前記スコアは、当該レジに向かう人流が混雑するほどに低下し、
前記パラメータは、前記人間それぞれの速度ベクトルを含む、ジレンマ推定装置。

【請求項11】

複数の敵対物がエージェントに及ぼすジレンマを、ジレンマ推定装置が推定するジレンマ推定方法であって、
前記ジレンマ推定装置は、プロセッサとメモリとを含み、
前記メモリは、前記エージェントの観測範囲に含まれる前記複数の敵対物の状態を示すパラメータの時系列を示す観測履歴情報を保持し、
前記ジレンマ推定方法は、
前記プロセッサが、前記観測履歴情報が示す前記時系列に基づいて、前記複数の敵対物のパラメータの時間変化を示す軌跡を算出し、
前記プロセッサが、前記複数の敵対物の軌跡間の差異量を算出し、
前記差異量に基づいて、前記複数の敵対物が前記エージェントに及ぼす乱雑度を算出し、
前記プロセッサが、前記乱雑度に基づいて前記ジレンマを推定する、ジレンマ推定方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ジレンマ推定装置及びジレンマ推定方法に関する。

【背景技術】

【0002】

エージェントに損失や脅威を及ぼす対象である敵対物が、エージェントが予測できないような不確実な行動を行うことで、エージェントは敵対物の行動に対し適切な行動を行うことが困難となる。従って、エージェントにとってはこのような不確実な行動は脅威である。この不確実な行動は、敵対物の行動だけにとどまらず、敵対物の位置及び速度、並びに種類などの属性情報にも影響を受けるおそれがある。

【0003】

本技術分野の背景技術として特許文献１及び非特許文献１がある。非特許文献１には、敵対物が作戦行動を予測できないようにする状態を示すジレンマについて記載されており、行動の不確実性に対する脅威はジレンマに繋がる。

【0004】

また、特許文献１には、「大略人位置決定手段２２は、部分領域毎に、部分領域内の人数を整数に補正し、部分領域に関する情報に基づいて画像上に補正された人数分の人のおおよその位置を決定し、補正前の人数と補正後の人数とに基づいて人数補正係数を算出し、おおよその位置に人が観測されたものとする。人状態推定手段２５は、記憶手段に記憶された過去の人の状態を表す粒子の状態から現在の粒子の状態を予測するとともに、新たな粒子を追加し、観測された人毎に生成された観測モデルと人数補正係数とに基づいて、予測された粒子及び追加した粒子の状態の確からしさを評価して粒子の重みを更新し、当該粒子の重みに比例した確率で粒子をリサンプリングし、得られた粒子の状態を記憶手段に記憶するとともに、得られた粒子の状態を人流として出力する」と記載されている（要約参照）。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】国際公開第２０１８／０５１９４４号

【非特許文献】

【0006】

【非特許文献1】ＢｒｙａｎＣｌａｒｋ，ＤａｎｉｅｌＰａｔｔ，ＨａｒｒｉｓｏｎＳｃｈｒａｍｍ， “ＭｏｓａｉｃＷａｒｆａｒｅ：ＥｘｐｌｏｉｔｉｎｇＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅａｎｄＡｕｔｏｎｏｍｏｕｓＳｙｓｔｅｍｓｔｏＩｍｐｌｅｍｅｎｔＤｅｃｉｓｉｏｎ－ＣｅｎｔｒｉｃＯｐｅｒａｔｉｏｎｓ”，ＣｅｎｔｅｒｆｏｒＳｔｒａｔｅｇｉｃａｎｄＢｕｄｇｅｔａｒｙＡｓｓｅｓｓｍｅｎｔｓ，Ｆｅｂｒｕａｒｙ１１，２０２０

【発明の概要】

【発明が解決しようとする課題】

【0007】

特許文献１に記載の技術は、観測された人ごとに観測モデルに基づいて人の状態を表す粒子の状態の確からしさを評価しているが、敵対物ごとに算出されたジレンマの単純な和を算出することでジレンマを算出している。一方、複数の敵対物がエージェントに与えるジレンマには、個別の敵対物がエージェントに与えるジレンマだけでなく、各敵対物間の状態の違いによる当該複数の敵対物全体がエージェントに与える非統一感を考慮する必要がある。しかし、特許文献１及び非特許文献１のいずれにも、各敵対物間の状態の違いによる当該複数の敵対物全体がエージェントに与える非統一感について記載されていない。

【0008】

そこで本発明の一態様は、複数の敵対物間の状態の違いによってエージェントが受けるジレンマを推定する。

【課題を解決するための手段】

【0009】

上記した課題を解決するために、本発明の一態様は以下の構成を採用する。複数の敵対物がエージェントに及ぼすジレンマを推定するジレンマ推定装置は、プロセッサとメモリとを含み、前記メモリは、前記エージェントの観測範囲に含まれる前記複数の敵対物の状態を示すパラメータの時系列を示す観測履歴情報を保持し、前記プロセッサは、前記観測履歴情報が示す前記時系列に基づいて、前記複数の敵対物のパラメータの時間変化を示す軌跡を算出し、前記複数の敵対物の軌跡間の差異量を算出し、前記差異量に基づいて、前記複数の敵対物が前記エージェントに及ぼす乱雑度を算出し、前記乱雑度に基づいて前記ジレンマを推定する。

【発明の効果】

【0010】

本発明の一態様は、複数の敵対物間の状態の違いによってエージェントが受けるジレンマを推定することができる。

【0011】

上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。

【図面の簡単な説明】

【0012】

【図1】実施例１におけるジレンマ推定装置のハードウェア構成例を示すブロック図である。

【図2】実施例１におけるデータベースに格納されている情報の一覧の一例を示す図である。

【図3】実施例１におけるジレンマ推定装置の機能構成例を示すブロック図である。

【図4A】実施例１におけるエージェント情報リストのデータ構成例を示す図である。

【図4B】実施例１における敵対物情報リストのデータ構成例を示す図である。

【図4C】実施例１における観測範囲パラメータのデータ構成例を示す図である。

【図4D】実施例１における履歴パラメータのデータ構成例を示す図である。

【図5】実施例１における観測された敵対物の一例を示す説明図である。

【図6】実施例１におけるエージェントの観測範囲内に含まれた敵対物の速度ベクトルの軌跡の例を示す説明図である。

【図7A】実施例１における敵対物の軌跡と、乱雑度と、の関係の一例を説明するための図である。

【図7B】実施例１における敵対物の軌跡と、乱雑度と、の関係の一例を説明するための図である。

【図7C】実施例１における敵対物の軌跡と、乱雑度と、の関係の一例を説明するための図である。

【図8A】実施例１における重みパラメータ個別のデータ構成例を示す図である。

【図8B】実施例１における重みパラメータ全体のデータ構成例を示す図である。

【図8C】実施例１における乱雑度重みパラメータのデータ構成例を示す図である。

【図9】実施例１における施策学習部による処理の一例を示すフローチャートである。

【図10】実施例１における観測範囲抽出部による処理の一例を示すフローチャートである。

【図11】実施例１における履歴抽出部による処理の一例を示すフローチャートである。

【図12】実施例１における敵対物抽出部による処理の一例を示すフローチャートである。

【図13】実施例１における乱雑度推定部による処理の一例を示すフローチャートである。

【図14】実施例１における乱雑度１の算出処理の一例を示すフローチャートである。

【図15】実施例１における乱雑度２の算出処理の一例を示すフローチャートである。

【図16A】実施例２における不審船威圧シミュレーションによって出力された状態の例を示す説明図である。

【図16B】実施例２における観測情報データベースに格納されているデータのデータ構成例を示す図である。

【図16C】実施例２における各エージェント及び各敵対物の速度ベクトルの軌跡の例を示す説明図である。

【図17A】実施例３におけるロボット制御シミュレーションによって出力された状態の例を示す説明図である。

【図17B】実施例３におけるロボット制御シミュレーションによって出力された状態の例を示す説明図である。

【図18A】実施例４における人流制御シミュレーションによって出力された状態の例を示す説明図である。

【図18B】実施例４における人流制御シミュレーションによって出力された状態の例を示す説明図である。

【発明を実施するための形態】

【0013】

以下、本発明の実施形態を図面に基づいて詳細に説明する。本実施形態において、同一の構成には原則として同一の符号を付け、繰り返しの説明は省略する。なお、本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。

【0014】

本実施形態におけるエージェントとは、シミュレーション又は現実世界において、自身の行動を決定する一個体を示す。ここで、エージェントに敵対する個体を敵対物とする。なお、エージェントが決定する行動には、エージェントが動かないことも含まれる（つまり、エージェントは「動かない」という行動を決定することもできる）。本実施形態において、エージェントの個体数は単一であってもよいし複数（マルチエージェント）であってもよい。

【0015】

エージェントの観測範囲内の敵対物が単一である場合は、例えば、行動に関連する速度ベクトル等の時間変化と、行動とは直接は関係しない位置情報等の時間変化と、属性等の情報と、に規則性がなければ、エージェントはこの敵対物の行動に対して非統一感を観測する。エージェントの観測範囲内の敵対物が複数である場合、敵対物が単一である場合と同様に各敵対物の行動や位置の時間変化と、属性の情報と、に規則性がない場合に加え、各敵対物間の行動、位置、及び属性情報それぞれの差異からも非統一感を観測する。これらの非統一感が観測された状況はエージェントにとって乱雑な状況であり、この乱雑さを示す度合いを乱雑度とも呼ぶ。

【0016】

乱雑な状況においては、敵対物の行動に規則性がなく、エージェントは、敵対物がどのような行動を取るか予測することが困難となる。従って、敵対物の行動に規則性がない場合、敵対物の行動は不確実性を有する。この行動の不確実性はエージェントにとっては、ジレンマに相当し、乱雑度は敵対物の行動の不確実性に対する脅威とみなすことができる。従って、ジレンマは乱雑度と同等、又はジレンマに関連するとみなすことができ、ジレンマを乱雑度から算出可能である。

【0017】

しかしながら、シミュレーションや人間が観測できる時間変化は離散的であり、各離散時刻での情報（速度、位置、及び種類などの属性情報など）は離散時間に対して不連続に変化する。従って、１点の時刻である現時刻の状態の差異を用いて乱雑度が算出される場合、算出された乱雑度は時間に対し不連続に変動し、乱雑度の時間変化を正しく見積もることができない。つまり、この場合、エージェントの観測するジレンマは不連続となり、エージェントに適切なジレンマを観測させ、それに適切な施策を立案させることができない。そこで、本実施形態のジレンマ推定装置は、乱雑度の時間変化を正しく見積もり、敵対物がエージェントに及ぼす適切なジレンマを推定する。

【実施例0018】

＜ジレンマ推定装置のハードウェア構成＞
図１は、ジレンマ推定装置１００のハードウェア構成例を示すブロック図である。ジレンマ推定装置１００は、例えば、プロセッサ８０１、補助記憶装置８０２、通信装置８０３、入力装置８０４、出力装置８０５、及びメモリ８０６を有する計算機によって構成される。

【0019】

プロセッサ８０１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等に含まれ、メモリ８０６に格納されたプログラムを実行する。メモリ８０６は、不揮発性の記憶素子であるＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）及び揮発性の記憶素子であるＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）を含む。ＲＯＭは、不変のプログラム（例えば、ＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔ／ＯｕｔｐｕｔＳｙｓｔｅｍ））などを格納する。ＲＡＭは、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）のような高速かつ揮発性の記憶素子であり、プロセッサ８０１が実行するプログラム及びプログラムの実行時に使用されるデータを一時的に格納する。

【0020】

補助記憶装置８０２は、例えば、磁気記憶装置（ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ））、フラッシュメモリ（ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ））等の大容量かつ不揮発性の記憶装置であり、プロセッサ８０１が実行するプログラム及びプログラムの実行時に使用されるデータを格納する。すなわち、プログラムは、補助記憶装置８０２から読み出されて、メモリ８０６にロードされて、プロセッサ８０１によって実行される。

【0021】

入力装置８０４は、キーボード、マウス、タッチパネル、テンキー、スキャナ、及びマイクなどの、オペレータからの入力を受ける装置である。出力装置８０５は、ディスプレイ、プリンタ、及びスピーカなどの、プログラムの実行結果をオペレータが視認可能な形式で出力する装置である。

【0022】

通信装置８０３は、所定のプロトコルに従って、他の装置との通信を制御するネットワークインターフェース装置である。また、通信装置８０３は、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）等のシリアルインターフェースを含んでもよい。

【0023】

プロセッサ８０１が実行するプログラムの一部またはすべては、非一時的記憶媒体であるリムーバブルメディア（ＣＤ－ＲＯＭ、フラッシュメモリなど）又は、非一時的記憶装置を備える外部計算機からネットワークを介してジレンマ推定装置１００に提供され、非一時的記憶媒体である不揮発性の補助記憶装置８０２に格納されてもよい。このため、ジレンマ推定装置１００は、リムーバブルメディアからデータを読み込むインターフェースを有するとよい。

【0024】

ジレンマ推定装置１００は、物理的に一つの計算機上で、又は、論理的又は物理的に構成された複数の計算機上で構成される計算機システムであり、同一の計算機上で別個のスレッドで動作してもよく、複数の物理的計算機資源上に構築された仮想計算機上で動作してもよい。

【0025】

メモリ８０６は、例えば、いずれもプログラムである、データ入出力部１０１と、施策学習部１０２と、データ抽出部１０３と、乱雑度推定部１０４と、を含む。施策学習部１０２は、いずれもプログラムであるシミュレーション部１２１及び施策計画部１２２を含む。データ抽出部１０３は、いずれもプログラムである、観測範囲抽出部１３１、履歴抽出部１３３、及び敵対物抽出部１３４を含む。

【0026】

例えば、プロセッサ８０１は、メモリ８０６にロードされたプログラムであるデータ入出力部１０１に従って動作することで、機能部であるデータ入出力部として機能し、メモリ８０６にロードされたプログラムである施策学習部１０２に従って動作することで、機能部である施策学習部として機能する。メモリ８０６に含まれる他の部についても、プログラムと機能部の関係は同様である。

【0027】

なお、プロセッサ８０１によって実現される機能の一部又は全部が、例えば、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）やＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等のハードウェアによって実現されてもよい。

【0028】

補助記憶装置８０２は、例えば、データベース１１０及び観測情報データベース１３２を保持する。なお、データベース１１０及び観測情報データベース１３２に含まれる情報の一部又は全てが、メモリ８０６に格納されていてもよいし、ジレンマ推定装置１００に接続された外部の装置に格納されていてもよい。

【0029】

＜データベース１１０＞
図２は、データベース１１０に格納されている情報の一覧の一例を示す図である。データベース１１０は、例えば、シミュレーションパラメータ２００、シミュレーション合計時間情報２０１、シミュレーションタイムステップ情報２０２、シミュレーション回数情報２０３、エージェント情報リスト２０４、敵対物情報リスト２０５、施策パラメータ２０７、観測範囲パラメータ２０８、履歴パラメータ２１０、重みパラメータ個別２１１、重みパラメータ全体２１２、乱雑度重みパラメータ２１３、及びシミュレーション終了条件２１４を保持する。

【0030】

シミュレーションパラメータ２００、シミュレーション合計時間情報２０１、シミュレーションタイムステップ情報２０２、シミュレーション回数情報２０３、エージェント情報リスト２０４、及び敵対物情報リスト２０５は、いずれもシミュレーション部１２１に入力されるパラメータを示す。

【0031】

シミュレーションパラメータ２００は、シミュレーションの状況設定などのシミュレーションを構成するために必要な基本情報を示すパラメータを含む。例えば、エージェントである巡視船が敵対物である不審船を撃退するシミュレーションにおいては、シミュレーションパラメータ２００は、海の波の高さ、天候、座標（地域）の等のシミュレーションの環境を設定するための情報を含む。シミュレーション合計時間情報２０１は、１回のシミュレーション内の最大時間であるシミュレーション合計時間を示す。シミュレーションタイムステップ情報２０２は、なお、シミュレーションタイムステップは、シミュレーション内の１ステップで経過する時間（シミュレーションのステップ間の時間間隔）であるシミュレーションタイムステップ（以下、単にタイムステップとも呼ぶ）を示す。

【0032】

シミュレーション回数情報２０３は、学習時に行われるシミュレーション試行回数を示す。エージェント情報リスト２０４は、エージェントに関する情報を示す。敵対物情報リスト２０５は、敵対物（例えば、エージェントやエージェントの仲間と考えられる対象とは異なる対象）に関する情報を示す。

【0033】

施策パラメータ２０７は、施策計画部１２２に入力され、エージェント情報リスト２０４に含まれるエージェントごとの施策を計画するためのパラメータである。なお、施策パラメータ２０７は、敵対物情報リスト２０５に含まれる敵対物ごとの施策を計画するためのパラメータをさらに含んでもよい。つまり、施策計画部１２２が、エージェントごとの施策に加えて、敵対物ごとの施策をさらに計画し、計画した施策をシミュレーション部１２１に入力してもよい。なお、例えば、ルールベースで決定される敵対物の施策のルールがシミュレーション部１２１の内部に記述され、シミュレーション部１２１が当該ルールに従って、敵対物の施策を計画してもよい。

【0034】

観測範囲パラメータ２０８は、エージェント情報リスト２０４に含まれるエージェントそれぞれが、シミュレーション部１２１が出力した状態を観測可能な範囲を示すパラメータである。観測範囲パラメータ２０８は、観測範囲抽出部１３１に入力される。

【0035】

履歴パラメータ２１０は、履歴時間を示すパラメータである。エージェント及び敵対物に対する観測データの履歴抽出において、最新のタイムステップから履歴時間分遡った時間までの履歴が抽出される。履歴パラメータ２１０は、履歴抽出部１３３に入力される。

【0036】

重みパラメータ個別２１１は、乱雑度を算出する際に用いられ、各敵対物についての軌跡の時刻に対する重みを示す。重みパラメータ全体２１２は、乱雑度を算出する際に用いられ、敵対物間の軌跡の差異を算出における軌跡の時刻に対する重みを示す。乱雑度重みパラメータ２１３は、各敵対物に算出された乱雑度１と、敵対物間で算出された乱雑度２と、に対する重みを示す。

【0037】

＜ジレンマ推定装置１００の機能構成例＞
図３は、ジレンマ推定装置１００の機能構成例を示すブロック図である。ジレンマ推定装置１００は、敵対物の行動の不確実性がエージェントに及ぼす脅威及び／又は損失を示す指標であるジレンマを推定する。データベース１１０には、図２に示す情報が格納されている。また、データベース１１０には、シミュレーション結果や、ジレンマ推定装置１００による処理の途中結果を示す情報等も格納されていてもよい。

【0038】

データ入出力部１０１は、入力装置８０４、又はジレンマ推定装置１００と通信可能に接続されている外部の計算機から、データの入力を受け付ける。また、データ入出力部１０１は、ジレンマ推定装置１００による処理結果を、出力装置８０５、又はジレンマ推定装置１００と通信可能に接続されている外部の計算機に出力する。

【0039】

施策学習部１０２は、例えば、ランダムサーチ、グリッドサーチ、局所探索法、遺伝的アルゴリズム、（学習対象の関数が連続な場合においては）勾配法、又は強化学習等の学習アルゴリズムによって施策学習を実行する。

【0040】

シミュレーション部１２１は、エージェント情報リスト２０４と敵対物情報リスト２０５をデータベース１１０から取得する。施策計画部１２２は、エージェントごとに、観測状態から行動を決定する施策を計画する。シミュレーション部１２１は、施策計画部１２２が計画した施策に基づいて、シミュレーションを実行する。

【0041】

シミュレーション部１２１は、シミュレーションタイムステップ情報２０２が示すタイムステップをデータベース１１０から取得し、取得したタイムステップ数分シミュレーションの状態を更新し、更新した状態と、更新した状態に対するスコアと、を出力する。

【0042】

なお、複数タイムステップのシミュレーションの状態の更新が１度に行われてもよい。スコアは、シミュレーションパラメータ群の優劣を示す指標の一例であり、例えばデータベース１１０に格納される。強化学習における報酬関数はスコアの一例である。

【0043】

施策計画部１２２は、シミュレーション部１２１が出力したスコアと、シミュレーション部１２１から出力された観測範囲情報のうち観測範囲抽出部１３１が抽出したエージェントの観測範囲における観測範囲情報と、乱雑度推定部１０４から出力されたジレンマ（乱雑度）と、に基づいて、エージェントの施策を計画する。

【0044】

例えば、施策計画方法がニューラルネットワークのような学習モデルを含む場合、当該学習モデルに含まれる重みが施策パラメータ２０７に含まれている。施策計画方法がニューラルネットワークではないルールベースのようなアルゴリズムを含む場合、当該ルールが施策パラメータ２０７に含まれている。施策計画方法が、他のエージェントの施策計画アルゴリズムを含む場合であっても、当該アルゴリズムに用いられる関数やパラメータが施策パラメータ２０７に含まれている。

【0045】

施策計画部１２２は、マルチエージェントの施策を計画してもよいし、エージェントに加えて敵対物の施策も計画してもよい。施策計画部１２２は、エージェントごとに施策を計画し、エージェントごとに計画した施策をシミュレーション部１２１に入力する。シミュレーション部１２１は、入力された施策に基づいてシミュレーションを実行する。エージェントの基本情報はエージェント情報リスト２０４に含まれ、敵対物の基本情報は敵対物情報リスト２０５に含まれている。

【0046】

データ抽出部１０３は、シミュレーション部１２１が出力した状態のうち、各エージェントが観測する範囲の状態を抽出し、過去から現在の抽出した履歴情報から敵対物を抽出し、敵対物の過去から現在の状態の時系列を示す軌跡を算出する。前述したように、データ抽出部１０３は、観測範囲抽出部１３１と、観測情報データベース１３２と、履歴抽出部１３３と、敵対物抽出部１３４と、を有する。

【0047】

観測範囲抽出部１３１は、シミュレーション部１２１が出力した状態のうち、データベース１１０に格納された観測範囲パラメータ２０８に基づくエージェントが観測する範囲の状態を抽出し、抽出した状態を出力する。観測情報データベース１３２は、観測範囲抽出部１３１が出力した状態を保管するためのデータベースである。観測情報データベース１３２はデータベース１１０と同じものであってもよい（つまり、観測情報データベース１３２及びデータベース１１０が一体化されていてもよいし、観測情報データベース１３２及びデータベース１１０の一方の情報が他方にも格納されていてもよい）。

【0048】

履歴抽出部１３３は、観測情報データベース１３２から軌跡を算出するために、データベース１１０に格納されている履歴パラメータ２１０を参照して、現在のシミュレーションの試行回数を示すエピソード中のシミュレーションのタイムステップから、必要な時間分の過去のデータを抽出し、履歴データを作成する。

【0049】

履歴データは、軌跡を算出する際に必要な状態における、現在のタイムステップから履歴パラメータ２１０（履歴パラメータ２１０は、例えば、ユーザによって指定される）が示す時間分遡った過去までのデータを含む。観測情報データベース１３２に現在のエピソードにおける、履歴パラメータ２１０で指定された時間分のデータがない場合は、履歴抽出部１３３は、観測情報データベース１３２に含まれる現在のエピソードにおけるすべてのタイムステップのデータを用いた履歴データを作成し、履歴データを出力する。

【0050】

敵対物抽出部１３４は、履歴抽出部１３３が出力した履歴データと、敵対物情報リスト２０５と、に基づいて、エージェントの観測範囲内の敵対物を抽出し、抽出した各敵対物の履歴情報を含む軌跡を作成し、出力する。軌跡は過去から現在までの、敵対物に関して観測された情報を示す。軌跡は、時刻ごとの敵対物の位置や速度の大きさなどの複数種類のパラメータを要素として持ち、同一時刻の情報は同じ要素に組として保管される。

【0051】

乱雑度推定部１０４は、敵対物抽出部１３４が出力した軌跡に基づいて、各敵対物の過去から現在までの状態の変化量に基づいて乱雑度（乱雑度１）を推定する。また、乱雑度推定部１０４は、各敵対物の軌跡を比較して軌跡の差異を算出し、算出した差異に基づいて乱雑度（乱雑度２）を算出する。乱雑度推定部１０４は、乱雑度１と乱雑度２に基づいて、最終的な乱雑度を算出して出力する。

【0052】

軌跡の変化量は、時刻ごとに算出され、同一時刻での各パラメータの変化量は同じ要素に組として保管される。軌跡の差異量も同様に、時刻ごとに算出され、同一時刻での各パラメータの変化量は同じ要素に組として保管される。

【0053】

軌跡の変化量と差異量は、時刻ごとに要素を持つものでなくてもよいが、時刻ごとに要素を持つ場合、全時刻の変化量の総和などの四則演算値と差異量の総和などの四則演算値を算出することが可能である。

【0054】

乱雑度推定部１０４は、出力した乱雑度を、観測情報データベース１３２における現在のタイムステップの乱雑度（ジレンマ）として追記する。なお、乱雑度推定部１０４は、出力した乱雑度そのものをジレンマに決定してもよいし、出力した乱雑度に基づくジレンマ（例えば、乱雑度からジレンマを算出する所定の関数（例えば、乱雑度が高いほど高いジレンマが出力される関数）に乱雑度を代入することにより）を算出してもよい。乱雑度推定部１０４は、シミュレーション部１２１及び施策計画部１２２にも、算出した乱雑度を出力する。

【0055】

＜パラメータの詳細例＞
図４Ａは、エージェント情報リスト２０４のデータ構成例を示す図である。図４Ｂは、敵対物情報リスト２０５のデータ構成例を示す図である。図４Ｃは、観測範囲パラメータ２０８のデータ構成例を示す図である。図４Ｄは、履歴パラメータ２１０のデータ構成例を示す図である。

【0056】

エージェント情報リスト２０４には、例えば、エージェントを識別するエージェントＩＤ、エージェントの種類などの属性情報、及びエージェントの施策計画を立案する方法（施策計画方法）などの情報が含まれる。エージェントの一例である巡視船が、敵対物の一例である不審船を撃退する例においては、図４Ａの例のようにエージェント情報リスト２０４には、例えば、エージェントの属性情報として、各船の種類、最高速度、及び攻撃力などの情報が含まれる。

【0057】

敵対物情報リスト２０５には、例えば、エージェント情報リスト２０４と同様に、敵対物を識別する敵対物ＩＤ、敵対物の種類などの属性情報、及び施策計画方法等の情報が含まれる。図４Ｂの例においても、図４Ａのエージェント情報リスト２０４の例と同様に、敵対物情報リスト３０２には、例えば、敵対物の属性情報として、各不審船の種類、最高速度、及び攻撃力などの情報が含まれる。

【0058】

観測範囲パラメータ２０８には、例えば、エージェントによる観測範囲を示す観測範囲パラメータ（エージェント）２０８１及び敵対物による観測範囲を示す観測範囲パラメータ（敵対物）２０８２が含まれる。観測範囲パラメータ（エージェント）２０８１には、エージェントＩＤ、エージェントによる観測範囲（エージェント）、及びエージェントによる観測範囲の形状又は方向を示す観測範囲方向（エージェント）が含まれる。また、観測範囲パラメータ（敵対物）２０８２には、敵対物ＩＤ、敵対物による観測範囲（敵対物）、及び敵対物による観測範囲の形状又は方向を示す観測範囲方向（敵対物）が含まれる。

【0059】

エージェントは、当該エージェントからの観測範囲方向（エージェント）が示す形状又は方向の、当該エージェントからの観測範囲（エージェント）が示す距離が示す範囲を観測可能である。例えば図４Ｃの例では、エージェントＩＤが「０１」のエージェントは、当該エージェントを中心とし、半径が１０である円の内部を観測可能である。なお、観測範囲方向（エージェント）は、円以外にも、例えば、半円、長方形、又は三角形などによっても定義可能である。また、観測範囲の中心（始点）についてもユーザが自由に指定可能である（例えば、長方形が観測範囲方向（エージェント）に指定されている場合、長方形の中心（例えば重心）ではなく、例えば下辺の中点なども観測範囲方向（エージェント）の中心（始点）に指定することができる）。上記した内容は、敵対物が観測可能な範囲についても同様である。

【0060】

なお、複数のエージェントが観測情報を共有可能（つまり他のエージェントの観測範囲も観測可能）であってもよく、この場合、観測範囲パラメータ２０８には、観測情報を共有可能なエージェントの組み合わせが記述されていてもよい。

【0061】

履歴パラメータ２１０には、軌跡の算出対象となるパラメータ（属性情報）に対して、どれだけの時間を遡って履歴を用いて軌跡を算出するかを示す履歴時間が含まれる。履歴時間は０又は正の値（以下、簡単のため０又は正整数とする）であり、現在のタイムステップから履歴時間が示す時間を遡った過去までの情報が観測情報データベース１３２から取得され、取得された情報から履歴データが作成される（つまり、現在のタイムステップから履歴時間が示す時間を遡った過去までの履歴を用いた軌跡及び乱雑度が算出される）。

【0062】

例えば、図４Ｄの履歴パラメータ２１０の例における「速度」の履歴時間は「２０」であるため、「速度」については現在のタイムステップから「２０」遡った時間までの履歴が取得される。例えば、図４Ｄの履歴パラメータ２１０の例における「種類」の履歴時間は０であるため、「種類」については現在のタイムステップの履歴のみが取得される。

【0063】

図４Ｄの履歴パラメータ２１０の例における「位置」のように複数の履歴時間が定義されている場合、複数の履歴を用いて乱雑度が推定される。図４Ｄの履歴パラメータ２１０の例における「位置」は、履歴時間として「２０」と「０」が定義されているため、現在のタイムステップから２０タイムステップ遡った時間までの位置の履歴を用いた軌跡と、現在のタイムステップのみの位置の履歴を用いた軌跡と、それぞれに対する乱雑度が乱雑度推定部１０４によって推定される。なお、複数の履歴時間が定義されているパラメータに対して、ユーザが複数の履歴時間から一部（例えば１つ）の履歴時間を選択して、当該パラメータに対して当該選択した履歴時間についてのみ履歴が取得されてもよい。

【0064】

なお、最終的な乱雑度は履歴パラメータ２１０に格納されている各パラメータの履歴時間のデータをそれぞれ用いて算出された乱雑度に対して、例えば、総和などの四則演算が実行されることによって決定される。

【0065】

履歴データは、履歴パラメータ２１０内の最大の（履歴時間÷シミュレーションタイムステップ）の数の組を持つように作成される。なお、パラメータによっては、履歴時間の違いや観測範囲次第では値が取得されないタイムステップもある。例えば、あるタイムステップにおいて値が取得されていないパラメータに対しては、ＮＡＮ（ＮｏｔＡＮｕｍｂｅｒ）や空欄などが入力され、ＮＡＮや空欄などは乱雑度推定部１０４による乱雑度推定の計算において０として扱われ、当該タイムステップにおける乱雑度は当該パラメータによる影響を受けない。

【0066】

また、乱雑度推定部１０４は、あるパラメータについての敵対物の軌跡の差異量を算出する場合は、ＮＡＮや空欄のデータを使用せずに、比較対象の敵対物のうち、当該パラメータの履歴時間が最も短い軌跡に合わせて、当該履歴時間の範囲内だけで差異量を算出する。ただし、観測範囲外の状態が推測可能である場合は、その推定状態を用いて軌跡の差異及び軌跡の変化量を算出してもよい。

【0067】

＜敵対物観測範囲の例＞
図５は、観測された敵対物の一例を示す説明図である。図５の例では、簡単のため、シミュレーションタイムステップの値が１であり、エージェント情報リスト２０４にはエージェントが１つのみ定義されているものとする。

【0068】

状態４０１は、現在時刻ｔからＮタイムステップ遡った時刻（即ち時刻ｔ－Ｎ）におけるシミュレーションで出力された状態を示す。状態４０１において、黒丸で示したエージェント４２１の観測範囲４１１の内部には、敵対物Ｅ１、敵対物Ｅ２、及び敵対物Ｅ４が位置し、観測範囲４１１の外部には敵対物Ｅ３及び敵対物Ｅ５が位置する。

【0069】

なお、図５において敵対物に付された矢印は、当該時刻における敵対物の速度ベクトルを示し、図５における敵対物の形状は敵対物の種類を示すものとする。また、観測範囲４１１は、観測範囲パラメータ２０８における当該エージェント４２１の観測範囲（エージェント）及び範囲方向（エージェント）によって定められる。

【0070】

状態４０２は、現在時刻ｔにおけるシミュレーションで出力された状態を示す。状態４０２において、エージェント４２１の観測範囲４１１の内部には、敵対物Ｅ１、敵対物Ｅ２、敵対物Ｅ４、及び敵対物Ｅ５が位置し、観測範囲４１１の外部には敵対物Ｅ３が位置する。現在時刻ｔでは、時刻ｔ－Ｎには観測範囲４１１の内部にいなかった敵対物Ｅ５が観測範囲４１１の内部に入っている。つまり、敵対物Ｅ５は時刻ｔ－Ｎから時刻ｔの間に観測範囲４１１の内部に侵入したものである。このように、時間変化によって敵対物が移動するため、観測範囲４１１に含まれる敵対物及び観測範囲４１１に含まれない敵対物が時間変化によって変化する。

【0071】

＜軌跡（速度ベクトル）の例＞
図６は、エージェント４２１の観測範囲４１１内に含まれた敵対物の速度ベクトルの軌跡の例を示す説明図である。速度ベクトルは、敵対物の速度の大きさと速度の方向とを示し、速度ベクトルの軌跡は乱雑度を算出するために利用される軌跡の一例である。図６の例は、図５の例において、Ｎ＝３であり、履歴パラメータ２１０が示す速度ベクトルの履歴時間が３である例である。なお、軌跡は速度ベクトルに加えて又は代えて、敵対物の種類や位置などの情報を含んでもよい。

【0072】

軌跡５１１は敵対物Ｅ１の軌跡、軌跡５１２は敵対物Ｅ２の軌跡、軌跡５１４は敵対物Ｅ４の軌跡、軌跡５１３は敵対物Ｅ５の軌跡を示す。図６の各軌跡に含まれる速度ベクトルは、より左に位置するほどより古い時刻に対応し、最も右に位置する速度ベクトルは現在時刻に対応する速度ベクトルである。軌跡５１４において、左から右へと時刻が進むため、速度ベクトルは連結されていない（２つ目以降の時刻に対応する各速度ベクトルの始点が直前の速度ベクトルの終点と連結されていない）が、速度ベクトルを連結して表してもよい。各軌跡において、速度ベクトルが連結されていても、速度ベクトルが連結されていなくても、計算結果には影響はしない。

【0073】

敵対物Ｅ５の軌跡５１３に含まれる速度ベクトルの数が、敵対物Ｅ１、Ｅ２、Ｅ４それぞれの軌跡である軌跡５１１、軌跡５１２、軌跡５１４それぞれに含まれる速度ベクトルの数より１つ少ない。これは時刻ｔ－Ｎにおいてエージェント４２１の観測範囲４１１に敵対物Ｅ５が含まれていなかったためである（つまり時刻ｔ－Ｎにおいて敵対物Ｅ５が観測されていなかった）。このように、軌跡の情報の一部が不足することがある。

【0074】

＜軌跡の比較＞
図７Ａ、図７Ｂ、及び図７Ｃは、敵対物の軌跡と、乱雑度と、の関係の一例を説明するための図である。図７Ａ、図７Ｂ、及び図７Ｃを用いて、２つの敵対物が異なる速度ベクトルの動きをしたときにおける、各敵対物の軌跡の変化量に基づく乱雑度１と、敵対物間の軌跡の差異に基づく乱雑度２と、の変化を説明する。

【0075】

１つの敵対物のパラメータの軌跡のある時刻における変化量は、当該敵対物の当該時刻のタイムステップの状態におけるパラメータの値と、当該敵対物の当該時刻からＮステップ前（例えば、Ｎは１以上の所定の自然数）の状態におけるパラメータの値と、の差で表現されてもよいし、当該差の絶対値で表現されてもよい。なお、全ての敵対物に対してＮが同じ値であってもよいし、一部又は全ての敵対物に対してＮが異なる値であってもよい。

【0076】

２つの敵対物のパラメータの軌跡の差異量は、同一の時刻における当該２つの敵対物の当該パラメータの差で表現されてもよいし、当該差の絶対値で表現されてもよい。また、２つの敵対物のパラメータの軌跡の差異量は、ある時刻とＮステップ前（例えば、Ｎは１以上の所定の自然数）の時刻の状態における、当該２つの敵対物の当該パラメータの差で表現されてもよいし、当該差の絶対値で評価されてもよい。また、これらの時刻や時刻の組み合わせは敵対物ごとに異なってもよい。

【0077】

図７Ａ、図７Ｂ、及び図７Ｃの例における軌跡に対する変化量と、軌跡の差異の量と、は絶対値で評価されているものとする。また、図７Ａ、図７Ｂ、及び図７Ｃの例における軌跡の変化量は１ステップ前の状態との絶対値の差であり、軌跡の差異量は同時刻の状態における絶対値の差であるとする。

【0078】

図７Ａのケース１において、エージェント４１２の観測範囲６０１に含まれる敵対物Ｅ１と敵対物Ｅ２は、タイムステップごとに速度ベクトルの向きを変え、エージェント４１２に向かって進行する。敵対物Ｅ１と敵対物Ｅ２それぞれの速度ベクトルの軌跡は各ステップにおいて変化するため、軌跡の変化量の絶対値は０より大きい。一方、敵対物Ｅ１と敵対物Ｅ２ともに同じ軌跡であるため、敵対物Ｅ１と敵対物Ｅ２の間の軌跡の差異はなく、速度ベクトルの軌跡間の差異に基づく、エージェント４１２に及ぼす乱雑度２は０である。

【0079】

図７Ｂのケース２において、エージェント４１２の観測範囲６０２に含まれる敵対物Ｅ１と敵対物Ｅ２は、エージェント４１２に向かって進行する途中で交差する。敵対物Ｅ１と敵対物Ｅ２は常に直進しているため、敵対物Ｅ１と敵対物Ｅ２それぞれの速度ベクトルの軌跡の変化がない。従って、敵対物Ｅ１及び敵対物Ｅ２それぞれの軌跡の変化量に対する速度ベクトルの乱雑度１は０である。一方、敵対物Ｅ１と敵対物Ｅ２間の軌跡は異なっており、敵対物Ｅ１及び敵対物Ｅ２の軌跡の差分の量の絶対値は０より大きいため、速読ベクトルの乱雑度２は０より大きい。

【0080】

図７Ｃのケース３のエージェント４１２の観測範囲６０３では、敵対物Ｅ１と敵対物Ｅ２の速度ベクトルの向きは各ステップで変化し、さらに敵対物Ｅ１及び敵対物Ｅ２はエージェント４１２に向かって進行する。敵対物Ｅ１と敵対物Ｅ２の速度ベクトルの軌跡は、各ステップで変化しており、軌跡の変化量は正の値である。また、敵対物Ｅ１と敵対物Ｅ２の軌跡は異なっており、軌跡の差分は正の値である。

【0081】

図７Ｃのケース３では、各敵対物の軌跡の変化量の絶対値に基づく速度ベクトルの乱雑度１と、敵対物の軌跡間の差異の絶対値による速度ベクトルの乱雑度２と、はいずれも０より大きい。また、各パラメータに対する乱雑度の重みである重みパラメータ個別２１１と重みパラメータ全体２１２と、乱雑度１と乱雑度２の乱雑度重みパラメータ２１３の設定にも依存するが、図７Ｃのケース３では、図７Ａのケース１の例と図７Ｂのケース２の例よりも、速度ベクトルの乱雑度が大きくなる傾向がある。

【0082】

図７Ａ～図７Ｃの例では速度ベクトルのみ軌跡について記載されているが、他のパラメータの軌跡を用いても同様に乱雑度を算出できる。敵対物の位置の軌跡が用いられる場合、各時刻の各敵対物の位置情報の変化量に基づく乱雑度１と、敵対物間の位置の差異に基づく乱雑度２と、を算出できる。エージェントの観測範囲内の敵対物が近ければ乱雑度が小さくなり、敵対物間の距離が遠かったり、敵対物がエージェントに接近する方向が異なったりするように敵対物が配置されている場合は乱雑度が大きくなる。

【0083】

重みパラメータ個別２１１と、重みパラメータ全体２１２により、軌跡の変化量に基づく乱雑度１と軌跡の差異に基づく乱雑度２は変化する。また、乱雑度重みパラメータ２１３により、速度ベクトルの乱雑度や位置の乱雑度の比などを変更することが可能である。

【0084】

＜乱雑度の重みパラメータ＞
図８Ａは、重みパラメータ個別２１１のデータ構成例を示す図である。図８Ｂは、重みパラメータ全体２１２のデータ構成例を示す図である。図８Ｃは、乱雑度重みパラメータ２１３のデータ構成例を示す図である。

【0085】

重みパラメータ個別２１１は、例えば、各パラメータに対する、重み（個別）と、割引率（個別）と、を含む。重み（個別）は、乱雑度推定部１０４が乱雑度１を算出する際に用いられ、各敵対物の各パラメータの軌跡の変化量を合算する際のパラメータごとの重みを示す。割引率（個別）は、乱雑度推定部１０４が乱雑度１を算出する際に用いられ、各敵対物の各パラメータの軌跡の変化量を算出する際の、過去の情報の比重を定めるためのパラメータごとの割引率を示す。

【0086】

履歴パラメータ２１０において複数の履歴時間を有するパラメータについては、当該複数の履歴時間それぞれに対して異なる重み（個別）と割引率（個別）が定義されていてもよい。図４Ｄの履歴パラメータ２１０の例においては位置が複数の履歴時間（２０及び０）を有しているため、図８Ａの重みパラメータ個別２１１の例では、位置の履歴時間２０に対応する重み（個別）０．２及び割引率（個別）１．１と、位置の履歴時間０に対応する重み（個別）１，０及び割引率（個別）０．９５と、が定義されている。履歴パラメータ２１０において１つの履歴時間のみを有するパラメータについては、重みパラメータ個別２１１において１組の重み（個別）及び割引率（個別）が定義されている。

【0087】

ここで、あるパラメータに対する割引率（個別）をγとし、γは０以上の実数値であり、割引率（個別）γを用いて、軌跡の当該パラメータの変化量は、例えば、以下のように算出される。

【0088】

（当該パラメータの変化量）＝（現在時刻ｔにおける当該パラメータの変化量）＋（現在時刻ｔ－１の変化量）×γ＋（現在時刻ｔ－１の変化量）×γ^２＋・・・

【0089】

上記した式によれば、割引率（個別）γが１より小さい場合は過去の変化量の比重は小さくなる。割引率（個別）γが１よりも大きい場合は過去の変化量の比重は大きくなる。割引率（個別）γが０である場合は、現在時刻ｔの変化量のみが考慮される。

【0090】

上記のパラメータの変化量は各時刻の割引率（個別）が適用された変化量の和によって算出されているが、引き算などの他の四則演算が用いられてパラメータの変化量が算出されてもよい。なお、引き算が用いられることと、負の割引率（個別）γが用いられて和が算出されることと、は同義である。

【0091】

なお、乱雑度１は、割引率（個別）が適用されて算出された各パラメータの変化量と、各パラメータに対応する重み（個別）ａ_１、ａ_２、・・・と、を用いて、例えば、以下のように算出される。

【0092】

（乱雑度１）＝ａ_１×（パラメータ１の変化量）＋ａ_２×（パラメータ２の変化量）＋・・・＋ａ_Ｎ×（パラメータＮの変化量）

【0093】

例えば、パラメータ１が速度、パラメータ２が位置、種類がパラメータＮであるとすると、図８Ａによれば、速度の重み（個別）ａ_１は０．５、位置の重み（個別）ａ_２＝０．２ｏｒ１．０、種類の重み（個別）ａ_Ｎ＝１．１である。なお、上記した式では総和を用いて乱雑度１が算出されているが、加算以外の四則演算が用いられてもよい。

【0094】

重みパラメータ全体２１２は、例えば、各パラメータに対する、重み（全体）と、割引率（全体）と、を含む。重み（全体）は、乱雑度推定部１０４が乱雑度２を算出する際に用いられ、敵対物の組み合わせのパラメータの軌跡間の差異を算出する際のパラメータごとの重みを示す。割引率（全体）は、乱雑度推定部１０４が乱雑度２を算出する際に用いられ、敵対物の組み合わせのパラメータの軌跡間の差異を算出する際の、過去の情報の比重を定めるためのパラメータごとの割引率を示す。

【0095】

重み（個別）及び割引率（個別）と同様に、履歴パラメータ２１０において複数の履歴時間を有するパラメータについては、当該複数の履歴時間それぞれに対して異なる重み（全体）と割引率（全体）が定義されていてもよい。また、重み（個別）及び割引率（個別）と同様に、履歴パラメータ２１０において１つの履歴時間のみを有するパラメータについては、重みパラメータ個別２１１において１組の重み（全体）及び割引率（全体）が定義されている。

【0096】

ここで、あるパラメータに対する割引率（全体）をγ’とし、γ’は０以上の実数値であり、割引率（全体）γ’を用いて、軌跡間の当該パラメータの差異量は、例えば、以下のように算出される。

【0097】

（当該パラメータの軌跡間の差異量）＝（現在時刻ｔの軌跡間の差異量）＋（現在時刻ｔ－１の軌跡間の差異量）×γ’＋（現在時刻ｔ－１の軌跡間の差異量）×γ’^２＋・・・

【0098】

上記した式によれば、割引率（全体）γ’が１より小さい場合は過去の差異量の比重は小さくなる。割引率（全体）γ’が１よりも大きい場合は過去の差異量の比重は大きくなる。割引率（全体）γ’が０である場合は、現在時刻ｔの差異量のみが考慮される。

【0099】

上記のパラメータの軌跡間の差異量は各時刻の割引率（全体）が適用された差異量の和によって算出されているが、引き算などの他の四則演算が用いられてパラメータの軌跡間の差異量が算出されてもよい。なお、引き算が用いられることと、負の割引率（全体）γ’が用いられて和が算出されることと、は同義である。

【0100】

なお、乱雑度２は、割引率（全体）が適用されて算出された各パラメータの軌跡間の差異量と、各パラメータに対応する重み（全体）ａ’_１、ａ’_２、・・・と、を用いて、例えば、以下のように算出される。

【0101】

（乱雑度２）＝ａ’_１×（パラメータ１の軌跡間の差異量）＋ａ’_２×（パラメータ２の軌跡間の差異量）＋・・・＋ａ’_Ｎ×（パラメータＮの軌跡間の差異量）

【0102】

例えば、パラメータ１が速度、パラメータ２が位置、種類がパラメータＮであるとすると、図８Ｂによれば、速度の重み（全体）ａ’_１は１．０、位置の重み（個別）ａ’_２＝０．８ｏｒ０．５、種類の重み（個別）ａ’_Ｎ＝０．３である。なお、上記した式では総和を用いて乱雑度２が算出されているが、加算以外の四則演算が用いられてもよい。

【0103】

乱雑度重みパラメータ２１３は、軌跡の変化量に基づく乱雑度１と、軌跡間の差異量による乱雑度２と、を統合した乱雑度（単に乱雑度とも呼ぶ）を算出する際に用いられる重みを示す。個別の重みをｂ_１、全体の重みｂ_２とすると、例えば、以下の式によって、乱雑度が算出される。

【0104】

（乱雑度）＝ｂ_１×（乱雑度１）＋ｂ_２×（乱雑度２）

【0105】

なお、上記した式では総和を用いて乱雑度が算出されているが、加算以外の四則演算が用いられてもよい。

【0106】

＜施策学習部１０２による処理＞
図９は、施策学習部１０２による処理の一例を示すフローチャートである。施策学習部１０２に含まれる施策計画部１２２は、シミュレーション回数と、シミュレーション合計時間と、シミュレーションタイムステップと、を補助記憶装置８０２から取得する（Ｓ９０１）。

【0107】

シミュレーション部１２１と施策計画部１２２は、エージェント情報リスト２０４と、敵対物情報リスト２０５と、を補助記憶装置８０２から取得する（Ｓ９０２）。

【0108】

施策計画部１２２は、施策を立案するための施策パラメータ２０７を取得し、エージェント及び敵対物の施策と、シミュレーション試行回数と、を初期化する（Ｓ９０３）。エージェント情報リスト２０４に複数のエージェントが定義されている場合は、施策計画部１２２はマルチエージェントの施策を計画するため、複数の施策（各エージェントの施策）を初期化する。また、敵対物情報リスト２０５に複数の敵対物が定義されている場合は、施策計画部１２２は、各敵対物の施策を初期化する。なお、敵対物の施策は、所定のルールに基づいて決定されるものとして、シミュレーション部１２１に当該所定のルールに基づいて敵対物の施策を決定するためのプログラムが格納されていてもよい。

【0109】

シミュレーション部１２１は、シミュレーションパラメータ２００を取得し、取得したシミュレーションパラメータ２００に基づいて、シミュレーションの状況設定をシミュレーション開始時間の状態に初期化する（Ｓ９０４）。さらに、ステップＳ９０４において、シミュレーション部１２１は取得したエージェント情報リスト２０４と敵対物情報リスト２０５に基づいて、シミュレーション開始時間における各エージェント及び各敵対物のシミュレーションの状態を設定し、シミュレーションステップ数を初期化し、さらにシミュレーション試行回数に１を加える。

【0110】

施策計画部１２２は、取得した施策パラメータ２０７に従って、各エージェントと各敵対物の施策を立案し、シミュレーション部１２１は立案された各施策を受け取り、当該タイムステップの状態における各エージェントと各敵対物のスコアを算出し、シミュレーションのタイムステップを１つ進め、状態を当該１つ進んだタイムステップの状態に遷移させる（Ｓ９０５）。スコアは強化学習などで使用される報酬関数のような、状態に対する評価を行う関数などを用いて算出される。

【0111】

観測範囲抽出部１３１は、シミュレーション部１２１から出力された各エージェントと各敵対物の状態を受け取り、各エージェントの観測範囲パラメータ２０８が示す観測範囲の観測状態を出力し、観測情報データベース１３２に保管する（Ｓ９０６）。

【0112】

敵対物抽出部１３４は、各敵対物の軌跡を作成する（Ｓ９０７）。具体的には、例えば、履歴抽出部１３３は、履歴パラメータ２１０が示す各パラメータの履歴時間を取得する。履歴抽出部１３３は、観測範囲抽出部１３１から出力され観測情報データベース１３２に保管されている各エージェントの観測範囲の状態から、各敵対物の各パラメータについて、現在時刻（現シミュレーションタイムステップの時刻）から当該パラメータに対応する履歴時間遡った時間までの履歴データを作成する。敵対物抽出部１３４は、敵対物情報リスト２０５に含まれる各敵対物の各パラメータの履歴データを抽出して、抽出した履歴データから各敵対物の各パラメータの軌跡を作成する。

【0113】

乱雑度推定部１０４は、各敵対物の軌跡の情報に基づいて乱雑度を算出する（Ｓ９０８）。シミュレーション部１２１は、現シミュレーションタイムステップで、エージェント情報リスト２０４から選択されていないエージェントを指定する（Ｓ９０９）。

【0114】

施策学習部１０２は、ステップＳ９０９で指定されたエージェントに対し、乱雑度推定部１０４が算出した乱雑度と、観測範囲抽出部１３１が抽出した現在のタイムステップの観測状態と、シミュレーション部１２１が出力したスコアと、を入力し、施策パラメータ２０７を更新することで施策を学習する（Ｓ９１０）。具体的には、例えば、施策学習部１０２は、エージェントのスコアが高くなるようエージェントの施策パラメータ２０７を更新することで施策を学習する。なお、例えば、エージェントのスコアは、自身の行動の結果そのものを反映する（例えば、エージェントである巡視船が敵対物である不審船を撃退するほどに高い値になる）のみならず、当該エージェントに及ぼされる乱雑度が低くなると値が上昇するような、かつ／又は敵対物のスコアが低くなると値が上昇するような、関数によって定義されていてもよい。この場合、施策学習部１０２は、エージェントのスコアが高くなるようエージェントの施策パラメータ２０７を更新することで施策を学習することにより、エージェントに及ぼされる乱雑度が低くなるように、かつ／又は敵対物のスコアが低くなるように、エージェントの施策パラメータ２０７を更新することとなる。

【0115】

施策学習部１０２は、現在のシミュレーションタイムステップで、エージェント情報リスト２０４に含まれる全エージェントについて、ステップＳ９１０における施策パラメータ２０７の更新が実行されたかを判定する（Ｓ９１１）。施策学習部１０２は、現在のシミュレーションタイムステップで、ステップＳ９１０における施策パラメータ２０７の更新が実行されていないエージェントがあると判定した場合（Ｓ９１１：ＮＯ）、ステップＳ９０９に戻る。

【0116】

施策学習部１０２は、現在のシミュレーションタイムステップで、エージェント情報リスト２０４に含まれる全エージェントについて、ステップＳ９１０における施策パラメータ２０７の更新が実行されたと判定した場合（Ｓ９１１：ＹＥＳ）、シミュレーションの終了条件が満たされたかを判定することで、シミュレーションが終了したか判定をする（Ｓ９１２）。シミュレーションの終了条件は、例えば、シミュレーション合計時間にシミュレーションタイムステップが到達すること、及びシミュレーション終了条件２１４が示す所定の条件を達成すること、のいずれか一方を満たすことであってもよいし、少なくとも一方を満たすことであってもよいし、双方を満たすことであってもよい。例えば、エージェントが巡視船であり、敵対物が不審船である場合には、全ての不審船を撃退すること等は、当該所定の条件の一例である。

【0117】

施策学習部１０２は、シミュレーションが終了していないと判定した場合（Ｓ９１２：ＮＯ）、更新された施策パラメータ２０７を用いて施策を立案してシミュレーションを実行するステップＳ９０５に戻る。施策学習部１０２は、シミュレーションが終了したと判定した場合（Ｓ９１２：ＹＥＳ）、シミュレーションの試行回数が、シミュレーション回数情報が示すシミュレーション試行回数に到達したかを判定する（Ｓ９１３）。

【0118】

施策学習部１０２は、シミュレーションの試行回数が、シミュレーション試行回数に到達していないと判定した場合（Ｓ９１３：ＮＯ）、ステップＳ９０４に戻る。施策学習部１０２は、シミュレーションの試行回数が、シミュレーション試行回数に到達したと判定した場合（Ｓ９１３：ＹＥＳ）、図９の処理を終了する。

【0119】

なお、図９の例では、簡単のため、エージェントのみの施策を学習し、敵対物がエージェントに及ぼす乱雑度を算出しているが、図９と同様の方法で、敵対物についての施策も学習してもよいし、エージェントが敵対物に及ぼす乱雑度も算出してもよい。

【0120】

具体的には、例えば、観測範囲抽出部１３１は、ステップＳ９０６で敵対物それぞれの観測範囲の状態を抽出する。また、例えば、履歴抽出部１３３は、ステップＳ９０７において、敵対物それぞれの観測範囲の状態の履歴に基づいてエージェントの各パラメータの履歴データを作成し、敵対物抽出部１３４は、各エージェントの各パラメータの軌跡を算出する。また、例えば、乱雑度推定部１０４は、ステップＳ９０８において、各エージェントの軌跡の情報をもとに、エージェントが敵対物に及ぼす乱雑度を算出する。また、例えば、ステップＳ９０９～Ｓ９１１では施策学習部１０２は、各敵対物に対して、乱雑度を用いて施策パラメータ２０７を更新することで施策を学習する。

【0121】

＜観測範囲抽出部による処理＞
図１０は、観測範囲抽出部１３１による処理の一例を示すフローチャートである。図１０では、図９のステップＳ９０６の一部の処理の具体例を示す。観測範囲抽出部１３１は、シミュレーション部１２１から全エージェントの次のタイムステップの状態を取得する（Ｓ１００１）。

【0122】

観測範囲抽出部１３１は、エージェント情報リスト２０４に含まれるエージェントであって、現シミュレーションタイムステップで選択されていないエージェントを１つ選択する（Ｓ１００３）。観測範囲抽出部１３１は、選択したエージェントに対応する観測範囲を観測範囲パラメータ２０８から特定し、当該選択したエージェントの観測範囲の状態（観測範囲に含まれる敵対物のパラメータ）を抽出する。なお、観測範囲の設定方法として、図５で説明した方法が用いられてもよいし、他の方法が用いられてもよい。

【0123】

観測範囲抽出部１３１は、現タイムステップでエージェント情報リスト２０４に含まれる全てのエージェントが選択されたかを判定する（Ｓ１００４）。観測範囲抽出部１３１は、現タイムステップでエージェント情報リスト２０４に含まれる全てのエージェントが選択されたと判定した場合（Ｓ１００４：ＹＥＳ）、図１０の処理を終了する。観測範囲抽出部１３１は、現タイムステップでエージェント情報リスト２０４に含まれるエージェントのうち選択されていないエージェントがあると判定した場合（Ｓ１００４：ＮＯ）、ステップＳ１００２に戻る。

【0124】

なお、ステップＳ１００１の処理はステップＳ１００２の処理の後に実行されてもよい、つまりステップＳ１００２で選択したエージェントの状態をステップＳ１００１で順次取得してもよい。

【0125】

＜履歴抽出部１３３による処理＞
図１１は、履歴抽出部１３３による処理の一例を示すフローチャートである。図１１は、ステップＳ９０７の一部の処理の具体例を示す。履歴抽出部１３３は、エージェント情報リスト２０４に含まれるエージェントのうち、現シミュレーションタイムステップで選択されていないエージェントを１つ選択する（Ｓ１１０１）。

【0126】

履歴抽出部１３３は、観測情報データベース１３２を参照して、現在の（最新の）タイムステップから、履歴パラメータ２１０が示すパラメータの各履歴時間分だけ過去の時間までの、選択されたエージェントによる観測範囲の状態のデータ（観測範囲に含まれる敵対物の各パラメータの値）を抽出する（Ｓ１１０２）。

【0127】

履歴抽出部１３３は、現在の（最新の）タイムステップから、履歴パラメータ２１０が示すパラメータの各履歴時間分だけ過去の時間までの期間において、選択されたエージェントの観測範囲外に位置する敵対物の状態を推定可能である場合、観測範囲外の敵対物の状態を推定する（Ｓ１１０３）。履歴抽出部１３３は、ステップＳ１１０３で推定した状態を、例えば、選択したエージェントが観測した状態として扱う。

【0128】

履歴抽出部１３３は、例えば、あるタイムステップｔにおいてある敵対物が、選択されたエージェントの観測範囲に位置し、１つ次のタイムステップｔ＋１において当該敵対物が、当該選択されたエージェントの観測範囲外に位置する場合、タイムステップｔ＋１における当該敵対物のパラメータをタイムステップｔの状態から推定する。具体的には、例えば、推定対象のパラメータが速度ベクトルや種類である場合には、履歴抽出部１３３は、タイムステップｔ＋１における当該敵対物のパラメータは、タイムステップｔにおける当該敵対物の当該パラメータと等しいと推定する。また、例えば、推定対象のパラメータが位置である場合には、履歴抽出部１３３は、タイムステップｔ＋１における当該敵対物の位置は、タイムステップｔにおける当該敵対物の位置からタイムステップｔにおける速度ベクトルが示す速度と方向で移動した位置であると推定する。また、例えば、履歴抽出部１３３は、機械学習等の手法を用いて、観測範囲外の敵対物の状態を推定してもよい。

【0129】

また、同様に、履歴抽出部１３３は、例えば、あるタイムステップｔにおいてある敵対物が、選択されたエージェントの観測範囲外に位置し、１つ次のタイムステップｔ＋１において当該敵対物が、当該選択されたエージェントの観測範囲に位置する場合、タイムステップｔにおける当該敵対物のパラメータをタイムステップｔ＋１の状態から推定する。

【0130】

なお、ステップＳ１１０３において、履歴パラメータ２１０が示す履歴時間に応じて、パラメータごとに時間の長さが異なるデータの時系列が得られる。また、１つの観測された状態に対しても、履歴パラメータ２１０の履歴時間が異なる場合もある。

【0131】

履歴抽出部１３３は、取得した各タイムステップの状態を時間の順序の昇順又は降順でソートし、１つのリストを生成する（Ｓ１１０４）。履歴抽出部１３３は、２次元配列や、スカラー、１次元ベクトルなどの様々な情報の組を各リストのＩＤとともにリストに格納する。なお、時刻ごとにリストのＩＤが異なるものとする。履歴抽出部１３３は、例えば、エージェントごとにリストを作成する。作成されたリストは、例えば、補助記憶装置８０２に格納される。

【0132】

なお、このリストには、履歴時間が互いに異なるパラメータが格納されるため、パラメータによっては履歴データにおいて一部の時刻の値が欠損するが、当該欠損している値としてＮＡＮや空欄などが格納されればよい。従って、ステップＳ１１０４で生成されるリストは履歴パラメータ２１０内の履歴時間のうち最大のタイムステップ数分のＩＤが生成される。

【0133】

履歴抽出部１３３は、現タイムステップにおいて、エージェント情報リスト２０４に含まれる全てのエージェントを選択したかを判定する（Ｓ１１０５）。履歴抽出部１３３は、現タイムステップにおいて、エージェント情報リスト２０４に含まれる全てのエージェントを選択したと判定した場合（Ｓ１１０５；ＹＥＳ）、図１１の処理を終了する。履歴抽出部１３３は、現タイムステップにおいて、エージェント情報リスト２０４に含まれるエージェントのうち未選択のエージェントがあると判定した場合（Ｓ１１０５：ＮＯ）、ステップＳ１１０１に戻る。

【0134】

＜敵対物抽出部１３４による処理＞
図１２は、敵対物抽出部１３４による処理の一例を示すフローチャートである。図１２は、ステップＳ９０７の一部の処理の具体例を示す。

【0135】

敵対物抽出部１３４は、エージェント情報リスト２０４に含まれるエージェントのうち、現シミュレーションタイムステップで未選択のエージェントを１つ選択する（Ｓ１２０１）。敵対物抽出部１３４は、履歴抽出部１３３が取得した過去から現在のタイムステップ分の、ステップＳ１２０１で選択したエージェントによる観測情報（ステップＳ１１０３で履歴抽出部１３３が推定した観測範囲外の情報も含む）を含むリストである履歴データリストを取得する（Ｓ１２０２）。

【0136】

敵対物抽出部１３４は、ステップＳ１２０２で取得した、過去を含む観測状態のリストである履歴データリストにおいて、敵対物情報リスト２０５に含まれる敵対物ごとに、状態の時系列変化を抽出し、抽出した態の遷移情報である時系列データを軌跡として算出する（Ｓ１２０３）。

【0137】

敵対物抽出部１３４は、現タイムステップにおいて、エージェント情報リスト２０４に含まれる全てのエージェントが選択されたかを判定する（Ｓ１２０４）。敵対物抽出部１３４は、現タイムステップにおいて、エージェント情報リスト２０４に含まれる全てのエージェントが選択されたと判定した場合（Ｓ１２０４：ＹＥＳ）、図１２の処理を終了する。敵対物抽出部１３４は、現タイムステップにおいて、エージェント情報リスト２０４に含まれるエージェントのうち未選択のエージェントがあると判定した場合（Ｓ１２０４：ＮＯ）、ステップＳ１２０１に戻る。

【0138】

＜乱雑度推定部１０４による処理＞
図１３は、乱雑度推定部１０４による処理の一例を示すフローチャートである。図１３は、ステップＳ９０８の処理の具体例を示す。

【0139】

乱雑度推定部１０４は、エージェント情報リスト２０４に含まれるエージェントのうち、現シミュレーションタイムステップで選択されていないエージェントを１つ選択する（Ｓ１３０１）。乱雑度推定部１０４は、敵対物抽出部１２４が、選択したエージェントの観測情報（ステップＳ１１０３で履歴抽出部１３３が推定した観測範囲外の情報も含む）から抽出した各敵対物の軌跡情報を取得する（Ｓ１３０２）。

【0140】

乱雑度推定部１０４は、ステップＳ１３０２で取得した各敵対物の軌跡の各パラメータの変化量に基づいて、各敵対物について選択中のエージェントに及ぼす乱雑度を算出し、さらに選択中のエージェントの観測範囲内の全敵対物の当該乱雑度を合算することで、当該エージェントが全敵対物から及ぼされる乱雑度１を算出する（Ｓ１３０３）。

【0141】

乱雑度推定部１０４は、前述したように、各敵対物についての当該乱雑度を加算することで当該合算処理を実行してもよいし、当該合算処理において引算などの別の四則演算を使用してもよい。また、乱雑度推定部１０４は、前述したように、当該合算処理において、各パラメータに対応するする重み（個別）を適用してもよいし、各パラメータの時刻に応じて割引率（個別）を適用してもよい。

【0142】

乱雑度推定部１０４は、敵対物のペアごとの軌跡間の各タイムステップにおける差を算出し、算出した差を合算することで、選択中にエージェントに敵対物が及ぼす乱雑度２を算出する（Ｓ１３０４）。

【0143】

乱雑度推定部１０４は、前述したように、算出した差を加算することで、当該差の合算処理を実行してもよいし、当該差の合算処理において引算などの別の四則演算を使用してもよい。また、乱雑度推定部１０４は、前述したように、算出した差の合算処理において、各パラメータに対応するする重み（全体）を適用してもよいし、各パラメータの時刻に応じて割引率（全体）を適用してもよい。

【0144】

乱雑度推定部１０４は、乱雑度重みパラメータ２１３が示す個別の重みを掛けた乱雑度１と、乱雑度重みパラメータ２１３が示す全体の重みを掛けた乱雑度２と、を合算する（Ｓ１３０５）。なお、乱雑度推定部１０４は、当該合算処理において加算以外の四則演算を用いてもよい。

【0145】

乱雑度推定部１０４は、現タイムステップにおいて、エージェント情報リスト２０４に含まれる全てのエージェントを選択したかを判定する（Ｓ１３０６）。乱雑度推定部１０４は、現タイムステップにおいて、エージェント情報リスト２０４に含まれる全てのエージェントを選択したと判定した場合（Ｓ１３０６：ＹＥＳ）、図１３の処理を終了する。乱雑度推定部１０４は、現タイムステップにおいて、エージェント情報リスト２０４に含まれるエージェントのうち未選択のエージェントがあると判定した場合（Ｓ１３０６：ＮＯ）、ステップＳ１３０１に戻る。

【0146】

＜乱雑度１の算出処理＞
図１４は、乱雑度１の算出処理の一例を示すフローチャートである。図１４は、ステップＳ１３０１で選択中のエージェントに対するステップＳ１３０３の処理の具体例を示す。

【0147】

乱雑度推定部１０４は、選択中のエージェントの観測情報（ステップＳ１１０３で履歴抽出部１３３が推定した観測範囲外の情報も含む）に対応する各敵対物の軌跡を取得する（Ｓ１４０１）。乱雑度推定部１０４は、乱雑度１と軌跡の変化量を（例えば０に）初期化する（Ｓ１４０２）。乱雑度推定部１０４は、ステップＳ１４０１で軌跡が取得できた敵対物のうち軌跡の変化量を算出していない敵対物を１つ選択する（Ｓ１４０３）。

【0148】

乱雑度推定部１０４は、各パラメータについて選択した敵対物の軌跡の過去から１タイムステップごとの軌跡に含まれる当該パラメータの変化量を算出する。さらに、乱雑度推定部１０４は、タイムステップごとにリストのＩＤを付与し、各時刻における各パラメータの変化量を格納したリストを作成する（Ｓ１４０４）。１つのリストのＩＤには、当該タイムステップでの乱雑度１の算出に使用されるパラメータの値が組として対応する。また、各パラメータの履歴時間に応じて、１つのパラメータが複数のリストのＩＤに対応することもある。なお、軌跡の変化量は絶対値を用いて算出されてもよいし、正又は負の値をとる差として算出されてもよい。

【0149】

乱雑度推定部１０４は、重みパラメータ個別２１１内の割引率（個別）を変化量のリストにおける時刻に応じて変化量に掛けた上で（例えば、Ｎ個前のタイムステップの変化量には割引率のＮ乗を掛ける）、リストに含まれる軌跡の変化量を合算する（Ｓ１４０５）。当該合算処理は、例えば四則演算を用いて行われ、加算が行われてもよいし他の計算でも行われてもよい。さらに、ステップＳ１４０５において、乱雑度推定部１０４は、パラメータごとに算出された軌跡の変化量に、対応する重みパラメータ個別２１１内の重み（個別）を掛けた上で、各パラメータの軌跡の変化量を合算する。当該合算処理は、例えば四則演算を用いて行われ、加算が行われてもよいし他の計算でも行われてもよい。

【0150】

乱雑度推定部１０４は、ステップＳ１４０５で算出した軌跡の変化量を乱雑度１に加算する（Ｓ１４０６）。乱雑度推定部１０４は、選択中のエージェントについて軌跡情報がある全ての敵対物を選択したかを判定する（Ｓ１４０７）。乱雑度推定部１０４は、選択中のエージェントについて軌跡情報がある全ての敵対物を選択したと判定した場合（Ｓ１４０７：ＹＥＳ）、図１４の処理を終了する。乱雑度推定部１０４は、選択中のエージェントについて軌跡情報がある敵対物のうち未選択の敵対物があると判定した場合（Ｓ１４０７：ＮＯ）、ステップＳ１４０３に戻る。

【0151】

ステップＳ１４０３～ステップＳ１４０７が、選択中のエージェントについての各敵対物について実行されることにより、選択中のエージェントについての全ての敵対物の差異量が乱雑度１として合算される。

【0152】

＜乱雑度２の算出処理＞
図１５は、乱雑度２の算出処理の一例を示すフローチャートである。図１５は、ステップＳ１３０１で選択中のエージェントに対するステップＳ１３０４の処理の具体例を示す。

【0153】

乱雑度推定部１０４は、選択中のエージェントの観測情報（ステップＳ１１０３で履歴抽出部１３３が推定した観測範囲外の情報も含む）に対応する各敵対物の軌跡を取得する（Ｓ１５０１）。乱雑度推定部１０４は、乱雑度２と軌跡間の差異量を（例えば０に）初期化する（Ｓ１５０２）。

【0154】

乱雑度推定部１０４は、選択中のエージェントの観測情報に対応する敵対物のうち、敵対物１として未選択の敵対物を１つ選択し、選択した敵対物を敵対物１とラベル付けする（Ｓ１５０３）。乱雑度推定部１０４は、敵対物１の軌跡に対し軌跡間の差異を算出していない敵対物を１つ選択し、当該選択した敵対物を敵対物２とラベル付けする（Ｓ１５０４）。

【0155】

乱雑度推定部１０４は、敵対物１と敵対物２の軌跡の各パラメータに対して差異を過去から現在まで算出し、各タイムステップに対応するリストのＩＤを生成し、各時刻での軌跡のパラメータの差異量を格納したリストを作成する（Ｓ１５０４）。
１つのリストのＩＤには、当該タイムステップでの乱雑度２の算出に使用されるパラメータの値が組として対応する。また、各パラメータの履歴時間に応じて、１つのパラメータが複数のリストのＩＤに対応することもある。なお、軌跡の差異量は絶対値を用いて算出されてもよいし、正又は負の値をとる差として算出されてもよい。

【0156】

乱雑度推定部１０４は、重みパラメータ全体２１２内の割引率（全体）を変化量のリストの各時刻に相当するＩＤの組にかけ、リストにある軌跡の差異量を合算する。ここで、合算は四則演算であり、加算でも他の算出方法でも良い。

【0157】

乱雑度推定部１０４は、重みパラメータ個別２１１内の割引率（全体）を差異量のリストにおける時刻に応じて差異量に掛けた上で（例えば、Ｎ個前のタイムステップの差異量には割引率のＮ乗を掛ける）、リストに含まれる軌跡の差異量を合算する（Ｓ１５０６）。当該合算処理は、例えば四則演算を用いて行われ、加算が行われてもよいし他の計算でも行われてもよい。

【0158】

乱雑度推定部１０４は、選択中の敵対物１に対して、選択中のエージェントについて軌跡のある全ての敵対物との間の軌跡の差異を算出したかを判定する（Ｓ１５０７）。乱雑度推定部１０４は、選択中のエージェントについて軌跡のある敵対物のうち、選択中の敵対物１との間の軌跡の差異を算出していない敵対物があると判定した場合（Ｓ１５０７：ＮＯ）、ステップＳ１５０４に戻る。

【0159】

乱雑度推定部１０４は、選択中の敵対物１に対して、選択中のエージェントについて軌跡のある全ての敵対物との間の軌跡の差異を算出したと判定した場合（Ｓ１５０７：ＹＥＳ）、直前のステップＳ１５０６で算出した軌跡の差異量を乱雑度２に加算する（Ｓ１５０８）。

【0160】

乱雑度推定部１０４は、選択中のエージェントに対して軌跡情報がある全ての敵対物が敵対物１として選択されたかを判定する（Ｓ１５０９）。乱雑度推定部１０４は、選択中のエージェントに対して軌跡情報が敵対物のうち敵対物１として選択されていない敵対物があると判定した場合（Ｓ１５０９：ＮＯ）、ステップＳ１５０３に戻る。

【0161】

乱雑度推定部１０４は、選択中のエージェントに対して軌跡情報がある全ての敵対物が敵対物１として選択されたと判定した場合（Ｓ１５０９：ＹＥＳ）、ステップＳ１５０８で算出された乱雑度２はダブルカウントされているため、乱雑度２を２で割って出力し、図１５の処理を終了する。

【0162】

なお、乱雑度推定部１０４は、敵対物１と敵対物２の組み合わせを重複しないように生成し、当該組み合わせごとにステップＳ１５０５、ステップＳ１５０６、及びステップＳ１５０８の処理を実行すれば、乱雑度２をダブルカウントすることがないため、ステップＳ１５１０の処理を省略することができる。

【0163】

以上説明したように、本実施例によれば、ジレンマ推定装置１００は、敵対物がエージェントに及ぼすジレンマの連続変化を観測でき、観測したジレンマを考慮した施策を立案することができる。

【0164】

特に、乱雑度１によって各敵対物が個々にエージェントに及ぼすジレンマを推定することができ、乱雑度２によって複数の敵対物の組み合わせがエージェントに及ぼすジレンマを推定することができる。従って、本実施例のジレンマ推定装置１００は、乱雑度１と乱雑度２とを統合したジレンマを算出することにより、個々の敵対物によるジレンマ、及び複数の敵対物の組み合わせによるジレンマの双方を考慮することができる。なお、本実施例では、乱雑度１と乱雑度２との双方を用いてジレンマ（統合した乱雑度）が算出される例を説明したが、乱雑度１又は乱雑度２との一方のみを用いて（つまり他方を算出及び考慮することなく）ジレンマが算出されてもよい。

【実施例0165】

＜ユースケース１：不審船威圧シミュレーション＞
本実施例では、ジレンマ推定装置１００を不審船威圧シミュレーションに適用したユースケースを説明する。図１６Ａは、不審船威圧シミュレーションによって出力された状態の例を示す説明図である。図１６Ｂは、観測情報データベース１３２に格納されているデータのデータ構成例を示す図である。図１６Ｃは、各エージェント及び各敵対物の速度ベクトルの軌跡の例を示す説明図である。

【0166】

観測範囲１６０２は、観測範囲抽出部１３１が抽出されたエージェント１６１１の観測範囲である。図１６Ａの例では、エージェント情報リスト２０４には、エージェント１６１１、エージェント１６１２、及びエージェント１６１３が定義されている。また、敵対物情報リスト２０５には、敵対物Ｅ１、敵対物Ｅ２、及び敵対物Ｅ３が定義されている。敵対物Ｅ１と敵対物Ｅ２は同じ艦種（図１６Ａ中で四角形で表現されている）で、敵対物Ｅ３は敵対物Ｅ１及び敵対物Ｅ２とは異なる艦種（図１６Ａ中で五角形で表現されている）である。

【0167】

本実施例では、エージェントは巡視船であり、敵対物は不審船である。不審船が領海侵入を試みており、エージェントは不審船による領海侵入を防ぐ必要があり、不審船から脅威を受けている。敵対物が領海に侵入した場合は、エージェントのスコアが大きく下がるものとする。

【0168】

簡単のため、本実施例では、エージェント１６１１に及ぼされる乱雑度を算出する例を説明するが、他のエージェントについても同様の方法で乱雑度が算出できる。

【0169】

データ１６３１は、エージェント１６１１による観測情報を示す。図１６Ｂにおいては、データ１６３１には、１つのエージェント１６１１による観測情報のみが記述されているが、他のエージェント１６１２及びエージェント１６１３による観測情報も併せて記述されていてもよいし、他のエージェント１６１２及びエージェント１６１３による観測情報はそれぞれ別のデータとして記述されていてもよい。

【0170】

データ１６３１には、例えば、現在までのシミュレーションの試行回数を示すエピソード、現在までのタイムステップ、エージェントのパラメータ（位置、速度方向、及び速度の大きさ等）、エージェントが観測した敵対物のパラメータ、及び乱雑度推定部１０４が推定したジレンマなどの状態と、が格納されている（一部図示を省略している）。

【0171】

なお、図１６Ｂのデータ１６３１には記述されていないが、シミュレーション部１２１でによるシミュレーションにおいて、各タイムステップでエージェント１６１１が選択した行動や、エージェント１６１１のスコア（報酬関数）がデータ１６３１に記述されていてもよいし、これらが別のデータに記述されていてもよい。

【0172】

履歴抽出部１３３が、履歴データを抽出する際は、各パラメータについて、現在のエピソードの現在のタイムステップから当該パラメータに対応する（履歴パラメータ２１０が示す）履歴時間分のステップ分の当該パラメータの値を取得する。

【0173】

軌跡１６４１、軌跡１６４２、及び軌跡１６４３は、それぞれ、敵対物Ｅ１、敵対物Ｅ２、及び敵対物Ｅ３の速度ベクトルの軌跡を示す。また、軌跡１６５１、軌跡１６５２、及び軌跡１６５３は、それぞれ、エージェント１６１１、エージェント１６１２、及びエージェント１６１３の速度ベクトルの軌跡を示す。

【0174】

図１６Ｃの例では、速度の方向、速度の大きさともに、対応する履歴時間は３である。軌跡１６４１、軌跡１６４２、及び軌跡１６４３ではより矢印がより左に位置するほどより過去の速度ベクトルを示し最も右の矢印が現在の速度ベクトルを示す。軌跡１６４２は１つだけ点線の矢印を含むが、当該矢印は敵対物Ｅ２がエージェント１６１１の観測範囲外に位置していたときに推定された速度ベクトルを示す。軌跡１６５１、軌跡１６５２、及び軌跡１６５３ではより矢印がより右に位置するほどより過去の速度ベクトルを示し最も左の矢印が現在の速度ベクトルを示す。

【0175】

なお、敵対物の位置の軌跡の算出においては、敵対物の位置そのものが用いられてもよいし、エージェントから敵対物までの距離が用いられてもよいし、エージェントと敵対物を結んだ直線と所定の基準線（例えば水平方向又は鉛直方向）との角度が示す方向が用いられてもよい。また、位置や速度などの情報は絶対的な値であってもよいし、対象のエージェントに対する相対的な値であってもよいし、特定の座標からの相対的な値であってもよい。

【0176】

なお、敵対物の位置の軌跡を用いて乱雑度２が算出される場合、複数の敵対物の位置が隣接していると、敵対物間の軌跡の差異に基づく乱雑度２は小さくなる。敵対物とエージェントとの距離を使用して算出された軌跡が用いられる場合、方向の違いによる軌跡の差異が考慮されないため、別途敵対物との方向を示す軌跡を考慮して、乱雑度２を算出してもよい。位置の軌跡は、速度の軌跡と類似する傾向を示すため、位置の軌跡の変化又は速度の軌跡の変化を軽視又は無視するよう、重みパラメータ個別２１１を設定されていてもよい。

【0177】

また、敵対物の種類の軌跡が算出されてもよい。前述したように、エージェント１６１１の観測範囲１６０２に含まれる敵対物のうち、敵対物Ｅ１と敵対物Ｅ２が同一の種類の船であり、敵対物Ｅ３は異なる種類の船である。例えば、敵対物Ｅ１と敵対物Ｅ２が偽装漁船であり、敵対物Ｅ３が駆逐艦である。

【0178】

敵対物の種類の軌跡は、各時刻で１６０２内にいる敵対物の種類の変化を算出しても良いが、種類については変化しない場合がある。このような場合、乱雑度１を算出する際に、履歴パラメータ２１０の履歴時間を０とすることで、現在のステップの艦種を考慮した乱雑度１を算出することができる。また、履歴時間を０とすることで、乱雑度２の軌跡の差異では、種類が異なると１，種類が同じで０とし、艦種の種類数で乱雑度２を見積もってもよい。

【0179】

なお、上記した以外のパラメータを使用して乱雑度が算出されてもよい。例えば、船の武力などのパラメータが観測できる場合は、各敵対物の武力の軌跡に基づいて、乱雑度１及び乱雑度２が算出されてもよい。

【0180】

本実施例によれば、巡視船による不審船威圧シミュレーションにおける巡視船のジレンマを算出することができるため、巡視船に及ぼすジレンマを下げる、例えば、巡視船のスコアが上昇する（不審船による領海侵入を抑制する）ための施策パラメータ学習を効果的に行うことができる。

【実施例0181】

＜ユースケース２：ロボット制御＞
本実施例では、ジレンマ推定装置１００を群衆が動く中でロボットを進行させる制御に適用したユースケースを説明する。本実施例では、エージェントが所定の領域を移動可能なロボットであり、敵対物が当該所定の領域を移動可能な人である。また、エージェントであるロボットにジレンマ推定装置１００が搭載されている。本実施例では、人がロボットに及ぼすジレンマ（乱雑度）が所定の閾値以上である場合、移動をしないようにロボットが制御される。これは、群衆の動きが不確実な場合に、ロボットが人に衝突しないようにするためである。ロボットが人に衝突すると、ロボットのスコアが大きく減少し、損失を被る。

【0182】

図１７Ａ及び図１７Ｂは、ロボット制御シミュレーションによって出力された状態の例を示す説明図である。エージェント１７１１（ロボット）は、自身の後ろ方向を観測しづらいため、エージェント１７１１の観測範囲１７０２は楕円形である。つまり、当該エージェント１７１１の、観測範囲パラメータ２０８における範囲方向（エージェント）が楕円であり、さらにエージェント１７１１の位置と楕円の関係も記述されているとよい。当該関係は数値で記述されていてもよいし、自然言語で記述されていてもよい。

【0183】

ロボットであるエージェント１７１１に対する敵対物である人は、図１７Ａ及び図１７Ｂにおいて観測範囲１７０２内の四角と三角で示されている。四角で示された人の種類と、三角で示された人の種類と、は異なる。例えば、三角で示された人の種類が男性であり、四角で示された人の種類が女性である。また、人の種類は、国籍、大人と子供、又は歩行スピードなどの属性によって定義されてもよい。

【0184】

ロボットに搭載されたジレンマ推定装置１００は、人の歩行速度、歩行方向、位置、及び種類に基づいて乱雑度１と乱雑度２を算出する。人の種類に対応する履歴時間は例えば１以上である。

【0185】

人が観測範囲１７０２の内部から外部へ移動すること、及び人が観測範囲１７０２の外部から内部へ移動すること、は頻繁に起こり得るため、観測範囲１７０２内の各種類の敵対物の数が頻繁に変化する。このような場合、ジレンマ推定装置１００が軌跡の変化を算出する度に各種類の人の数が変化するため、エージェント１７１１が受けるジレンマ（乱雑度）は大きい。

【0186】

図１７Ａのケース１では、観測範囲１７０２内の人の数は比較的少なく、人の位置も近接しており、人の速度の大きさ及び方向も類似したものが多い。図１７Ａには、過去の状態を含む人の軌跡は図示していないが、簡単のため人は移動する方向を頻繁に変えることはないものとし、この場合、速度ベクトルと位置及び方向の変化量は小さい。従って、ケース１では、人の種類によるジレンマは大きいが、人の位置及び速度ベクトルによるジレンマは小さく、総合的にエージェント１７１１が観測するジレンマは小さい。従って、エージェント１７１１は、所定の閾値のジレンマよりも小さなジレンマを観測し、エージェント１７１１であるロボットは移動する。

【0187】

図１７Ｂのケース２では、図１７Ａのケース１と比較して観測範囲１７０２内の敵対物の数が多い。また、図１７Ｂには、過去の状態を含む人の軌跡は図示していないが、図１７Ａの説明と同様に、簡単のため人は移動する方向を頻繁に変えることはないものとする（つまり、速度ベクトルと位置及び方向の変化量は小さい）。ケース２では、人の速度ベクトル、及び位置はケース１よりも多様であり、エージェント１７１１は所定の閾値を超えるジレンマを観測する。この場合、エージェント１７１１であるロボットは移動すると人に衝突する恐れがあるため、移動しない。

【0188】

本実施例によれば、ロボット制御シミュレーションにおけるロボットのジレンマを算出することができるため、ロボットに及ぼすジレンマを下げる、つまりロボットのスコアが上昇する（ロボットが人に衝突しない）ための施策パラメータ学習を効果的に行うことができる。