特許7636652 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 大学共同利用機関法人情報・システム研究機構の特許一覧

特許7636652システム最適制御装置、システム最適制御方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-02-18

(45)【発行日】2025-02-27

(54)【発明の名称】システム最適制御装置、システム最適制御方法及びプログラム

(51)【国際特許分類】

G06N 7/01 20230101AFI20250219BHJP

G06F 17/18 20060101ALI20250219BHJP

【ＦＩ】

G06N7/01

G06F17/18 Z

【請求項の数】 6

(21)【出願番号】P 2022534127

(86)(22)【出願日】2021-07-02

(86)【国際出願番号】 JP2021025164

(87)【国際公開番号】W WO2022004881

(87)【国際公開日】2022-01-06

【審査請求日】2024-05-24

(31)【優先権主張番号】P 2020115973

(32)【優先日】2020-07-03

(33)【優先権主張国・地域又は機関】JP

【国等の委託研究の成果に係る記載事項】（出願人による申告）平成２９年度、国立研究開発法人科学技術振興機構、戦略的創造研究推進事業・総括実施型研究（ＥＲＡＴＯ）「蓮尾メタ数理システムデザインプロジェクト」に係る委託業務、産業技術力強化法第１７条の適用を受ける特許出願

(73)【特許権者】

【識別番号】504202472

【氏名又は名称】大学共同利用機関法人情報・システム研究機構

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(72)【発明者】

【氏名】パラカーンキッティポン

(72)【発明者】

【氏名】滝坂透

(72)【発明者】

【氏名】ハーストーマス

(72)【発明者】

【氏名】蓮尾一郎

【審査官】真木健彦

(56)【参考文献】

【文献】特表２０２０－５１０５７０（ＪＰ，Ａ）

【文献】KELMENDI, Edon et al.，Value Iteration for Simple Stochastic Games: Stopping Criterion and Learning Algorithm，arXiv，1804.04901v1，arXiv，2018年04月13日，全39頁，インターネット: <URL: https://arxiv.org/abs/1804.04901>

【文献】MCMAHAN, H. Brendan et al.，Bounded Real-Time Dynamic Programming: RTDP with monotone upper bounds and performance guarantees，Proceedings of the 22nd International Conference on Machine Learning，ACM，2005年08月07日，pp.569-576

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ７／０１

Ｇ０６Ｆ１７／１８

(57)【特許請求の範囲】

【請求項1】

システム情報を表す確率的ゲームの初期状態から終状態への到達確率の上限に基づき、前記確率的ゲームをフロー解析グラフに変換するグラフ変換部と、
前記変換されたフロー解析グラフにおける各状態ノードから終状態ノードへの経路のうち、最大幅を有する経路を選択する経路選択部であって、各経路の幅は前記経路を構成するエッジの最小の重みである、経路選択部と、
前記選択された経路の情報をもとに、前記確率的ゲームの到達確率の上限及び下限の収束性を判断する収束判定部と、
を有するシステム最適制御装置。

【請求項2】

前記グラフ変換部は、更新された上限に基づき、前記確率的ゲームをフロー解析グラフに再変換する、請求項１記載のシステム最適制御装置。

【請求項3】

前記経路選択部は、前記再変換されたフロー解析グラフにおける各状態ノードから終状態ノードへの経路のうち、最大幅を有する経路を選択する、請求項２記載のシステム最適制御装置。

【請求項4】

価値反復法に従って前記到達確率の下限を更新する価値反復法処理部を更に有する、請求項１乃至３何れか一項記載のシステム最適制御装置。

【請求項5】

プロセッサが、システム情報を表す確率的ゲームの初期状態から終状態への到達確率の上限に基づき、前記確率的ゲームをフロー解析グラフに変換するステップと、
前記プロセッサが、前記変換されたフロー解析グラフにおける各状態ノードから終状態ノードへの経路のうち、最大幅を有する経路を選択するステップであって、各経路の幅は前記経路を構成するエッジの最小の重みである、選択するステップと、
前記プロセッサが、前記選択された経路の情報をもとに、前記確率的ゲームの到達確率の上限及び下限の収束性を判断するステップと、
を有するシステム最適制御方法。

【請求項6】

システム情報を表す確率的ゲームの初期状態から終状態への到達確率の上限に基づき、前記確率的ゲームをフロー解析グラフに変換する処理と、
前記変換されたフロー解析グラフにおける各状態ノードから終状態ノードへの経路のうち、最大幅を有する経路を選択する処理であって、各経路の幅は前記経路を構成するエッジの最小の重みである、選択する処理と、
前記選択された経路情報をもとに、前記確率的ゲームの到達確率の上限及び下限の収束性を判断する処理と、
をコンピュータに実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、システム最適制御装置、システム最適制御方法及びプログラムに関する。

【背景技術】

【0002】

様々な技術領域において、最適制御技術が利用可能である。例えば、電力のスマートグリッドのマネージメントでは、電力網内の需給状況に応じて、電力供給及び需要が最適化される。また、計算機ネットワークのルータのスイッチング、自動運転における条件判断、ＵＡＶ（ＵｎｍａｎｎｅｄＡｅｒｉａｌＶｅｈｉｃｌｅ）制御、ＤＮＳ（ＤｏｍａｉｎＮａｍｅＳｙｓｔｅｍ）アタック対策などにおいても最適制御技術が利用されている。

【0003】

これら実際のシステムの多くは確率的な要素を含むことが一般的であり、確率的ゲームとしてモデル化されうる。例えば、スマートグリッドでは、天気が変わると、発電状況が変わり、システムモデル（確率的ゲーム）も変わる。このため、変更後の確率的ゲームに対する最適な配電戦略を再計算する必要がある。

【0004】

このような最適制御技術では、真の最適制御を高速に計算することが既知の手法では困難であることから、実際には近似的な最適戦略が利用される。確率的ゲームの最適制御手法として、確率的ゲームにおける終状態への到達確率の下限を計算するための価値反復法が知られている。価値反復法では、戦略推定と到達確率の下限更新とが交互に繰り返され、到達確率の下限は真の値に収束することが知られている。

【0005】

また、精度保証付きの最適制御手法として有界価値反復法（ＢｏｕｎｄｅｄＶａｌｕｅＩｔｅｒａｔｉｏｎ）が知られている。有界価値反復法は、通常の価値反復法が行う下限の計算に加え、終状態への到達確率の上限も同時に計算することで精度保証を行う。有界価値反復法では、到達確率の下限と上限との双方が真の値に収束することが保証されているが、上限の収束を保証するために通常の価値反復法よりも複雑な計算が必要であり、高速計算が困難であることが知られている。

【先行技術文献】

【非特許文献】

【0006】

【文献】Kelmendi, E., Kramer, J., Kretinsky, J., Weininger, M.: Value iteration for simple stochastic games: stopping criterion and learning algorithm. In: International Conference on Computer Aided Verification. pp. 623-642. Springer (2018)

【文献】Medhi, D., Ramasamy, K.: Network Routing: Algorithms, Protocols, and Architectures (Second Edition). Morgan Kaufmann Publishers (2017)

【文献】Marta Kwiatkowska, Gethin Norman, David Parker and Gabriel Santos. PRISM-games 3.0: Stochastic Game Verification with Concurrency, Equilibria and Time. In Proc. 32nd International Conference on Computer Aided Verification (CAV'20), Springer, 2020.

【文献】Hasanbeig, M., Abate, A., Kroening, D.: Cautious Reinforcement Learning with Logical Constraints. Proceedings of the 19th International Conference on Autonomous Agents and MultiAgent Systems, pp. 483-491 (2020)

【発明の概要】

【発明が解決しようとする課題】

【0007】

本開示の課題は、高速計算が可能な精度保証付きのシステム最適制御技術を提供することである。

【課題を解決するための手段】

【0008】

上記課題を解決するため、本発明の一態様は、システム情報を表す確率的ゲームの初期状態から終状態への到達確率の上限および下限に基づき、前記確率的ゲームを重み付きグラフに変換するグラフ変換部と、前記変換された重み付きグラフにおける各状態ノードから終状態ノードへの経路のうち、最大幅を有する経路を選択する経路選択部であって、各経路の幅は前記経路を構成するエッジの最小の重みである、経路選択部と、前記選択された経路の情報をもとに、前記確率的ゲームの到達確率の上限および下限の収束性を判断する収束判定部と、を有するシステム最適制御装置に関する。

【発明の効果】

【0009】

本開示によると、高速計算が可能な精度保証付きのシステム最適制御技術を提供することができる。

【図面の簡単な説明】

【0010】

【図1】一例となる確率的ゲームを示す概略図である。

【図2】一例となる確率的ゲームの遷移図である。

【図3】本開示の一実施例によるシステム最適制御装置の機能構成を示すブロック図である。

【図4】本開示の一実施例によるシステム最適制御処理を示す概略図である。

【図5】本開示の一実施例によるシステム最適制御処理を示す概略図である。

【図6】本開示の一実施例によるシステム最適制御処理を示す概略図である。

【図7】本開示の一実施例によるシステム最適制御処理を示す概略図である。

【図8】本開示の一実施例によるシステム最適制御装置のハードウェア構成を示すブロック図である。

【図9】本開示の一実施例によるシステム最適制御と既存手法との比較を示す図である。

【発明を実施するための形態】

【0011】

以下の実施例では、確率的ゲーム（ｓｔｏｃｈａｓｔｉｃｇａｍｅ）の終状態への到達確率の上限を決定するシステム最適制御装置が開示される。
［確率的ゲーム］
まず、図１及び２を参照して、本開示の一実施例によるシステム最適制御装置のための確率的ゲームを説明する。図１は、確率的ゲームを示す概略図である。

【0012】

図示された確率的ゲームでは、横断歩道を渡ろうとする歩行者と、走行中の自動車の運転手との２人のプレーヤーが存在し、各プレーヤーの行動によって状態が確率的に遷移する。運転手は、歩行者の挙動によらず、事故を起こすことなく横断歩道を通過することを目的とする。

【0013】

従って、図示された確率的ゲームでは、初期状態「歩行者判断」において、歩行者は横断歩道を「横断」するか、又は「停止」するか判断する。歩行者が「停止」を選択した場合、初期状態から終状態「安全」に到達する。

【0014】

他方、歩行者が「横断」を選択した場合、初期状態から次の状態「車：回避行動」に遷移し、当該状態において、運転手は自動車を停止するため「ブレーキ」をかけるか、又は歩行者が横断しないように「クラクション」を鳴らすか判断する。運転手が「ブレーキ」を選択した場合、当該状態から終状態「安全」に到達する。他方、運転手が「クラクション」を選択した場合、当該状態から終状態「安全」に０．３の確率で遷移し、当該状態から次の状態「事故」に０．７の確率で遷移する。この場合、自動車の運転に対する最適制御とは、歩行者の選択によらず、目的とする終状態への到達確率を最大化する運転手の行動選択を意味する。従って、ここでは「状態『車：回避行動』において『ブレーキ』を選ぶ」という制御方策が最適である。例えば、スマートグリッドでは、システム環境は天候などであってもよく、システム制御者は電力会社であってもよい。また、自律運転では、システム環境は道路状況などであってもよく、システム制御者は運転対象の自動車であってもよい。

【0015】

本実施例では、歩行者と運転手の２人ゲームを想定したが、より一般には、歩行者はシステム環境であり、運転手はシステム制御者としてみなされてもよい。すなわち、以下の実施例によるシステム最適制御装置は、確率的環境下においてシステム制御者の行動を制御する。

【0016】

形式的には、確率的ゲームは、Ｍ＝（Ｓ，ｓＩ，１，０，Ａ，Ａｖ，δ）として定義される。ここで、Ｓは状態の集合であり、各プレーヤーの状態集合の和である。ｓＩは初期状態であり、１は終状態であり、０は失敗状態である。また、Ａは行動の集合であり、Ａｖ（ｓ）は状態ｓにおいて利用可能な行動の集合である。さらに、δは、δ：Ｓ×Ａ×Ｓ→［０，１］の遷移関数である。δ（ｓ，ａ，ｓ’）の値がｐであることは、状態ｓの下で行動ａが選択された時に状態ｓ’に遷移する確率がｐであることを意味する。

【0017】

例えば、図２に示されるように、システム制御者（□）及びシステム環境（○）の２人のプレーヤーが存在する確率的ゲームでは、システム制御者は終状態に到達する確率を最大化するよう自らの行動を選択し、システム環境は終状態に到達する確率を最小化するよう自らの行動を選択する。

【0018】

図示された具体例では、システム制御者は、初期状態ｓＩにおいてα又はβの行動を選択する。システム制御者がαを選択した場合、確率１で初期状態ｓＩから次の状態ｓ２に遷移し、システム制御者がβを選択した場合、確率０．５で終状態１に遷移するか、確率０．５で失敗状態０に遷移し、システム環境が行動することなく当該確率的ゲームは終了する。

【0019】

他方、システム環境は、状態ｓ２においてα又はβの行動を選択する。システム環境がαを選択した場合、確率１で状態ｓ２から初期状態ｓＩに遷移し、システム環境がβを選択した場合、確率０．９で終状態１に遷移するか、確率０．１で失敗状態０に遷移し、当該確率的ゲームは終了する。

【0020】

このような確率的ゲームにおける到達可能性問題は、関数Ｖ：Ｓ→［０，１］を計算又は近似するという問題であり、Ｖ（ｓ）は、２人のプレーヤーが最適な選択を続けた場合に状態ｓから終状態１に到達する確率（以下、到達確率と称する）として定義される。なお、確率的ゲームにおける到達可能性問題を解く多項式時間アルゴリズムは知られていない。
［システム最適制御装置］
次に、図３～７を参照して、本開示の一実施例によるシステム最適制御装置を説明する。図３は、本開示の一実施例によるシステム最適制御装置の機能構成を示すブロック図である。

【0021】

図３に示されるように、システム最適制御装置１００は、価値反復法処理部１１０、グラフ変換部１２０、経路選択部１３０及び収束判定部１４０を有する。システム最適制御装置１００は、到達確率の上方境界値（上限）Ｕ及び下方境界値（下限）Ｌ、及び確率的ゲームのモデルＳＧを受け付けると、到達確率をその上限及び下限によって漸近的に近似する。

【0022】

価値反復法処理部１１０は、価値反復法に従って到達確率の下限を更新する。具体的には、価値反復法処理部１１０は、与えられた到達確率の下限Ｌ及び確率的ゲームＳＧに対して、既知の価値反復法に従って確率的ゲームＳＧの各状態から終状態への到達確率の下限Ｌを更新する。以下、及び図５では、価値反復法処理部１１０による更新前の下限をＬ、更新後の下限をＬ’と表記する。

【0023】

例えば、図４に示されるような確率的ゲームＳＧと、到達確率の上限Ｕ及び下限Ｌとが与えられたと仮定する。ここでは、到達確率の上限Ｕ及び下限Ｌは、初期状態に対してはＵ＝１，Ｌ＝０であり、終状態に対してはＵ＝１，Ｌ＝１であり、失敗状態に対してはＵ＝０，Ｌ＝０である。便宜上、終状態からの到達確率は１に設定される。

【0024】

初期状態において「延期」を選択すると、確率１で初期状態に留まり、「実行」を選択すると、確率０．６で終状態に遷移し、確率０．４で失敗状態に遷移する。当該確率的ゲームＳＧでは、全ての状態は制御プレーヤーのものであり、このような確率的ゲームを特にマルコフ決定過程（ＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）と呼ぶ。制御プレーヤーはゲーム中に終状態に到達する確率を最大化することを目的とする。例えば、図示された具体例では、初期状態における制御プレイヤーの最適行動は「実行」である。これは、初期状態で「延期」を選択しても、終状態に到達しないためである。本例では、初期状態からの到達確率は０．６であり、失敗状態からの到達確率は０である。

【0025】

価値反復法処理部１１０は、各状態に対して下限Ｌの値を以下のように更新する。例えば、初期状態に対して、価値反復法処理部１１０は以下の計算を行う。
まず、選択可能な各行動の下で１回遷移した後の下限Ｌの期待値を決定する。図５の左部に示されるように、初期状態において制御プレイヤーは「延期」または「実行」の行動が可能である。「延期」が選択された場合、１回遷移後の状態は確率１で初期状態であるから、１回遷移後のＬの期待値は、Ｌ（初期状態）×１＝０と計算される。同様に、「実行」が選択された場合、１回遷移後のＬの期待値は、Ｌ（終状態）×０．６＋Ｌ（失敗）×０．４＝１×０．６＋０×０．４＝０．６と計算される。
このようにして計算した値のうち、最大のものを更新された下限Ｌ’の値とする。本例では、「実行」が選択された場合の期待値０．６が最大のものとなる。従って、図５右部に示されるように、初期状態における更新された下限Ｌ’の値は０．６である。

【0026】

更新された下限Ｌ’は、収束判定部１４０にわたされる。なお本例では、Ｌ’は１回の更新によって下限の真の値に収束するが、より一般には、Ｌ’はＬを下回らず到達確率を上回らないいずれかの値である。価値反復法は、更新された下限Ｌ’を新たな入力として同様の計算を反復することで、漸近的に下限を真の到達確率に近づけていく手法である。

【0027】

なお、価値反復法は周知であり、更なる詳細は割愛する。

【0028】

グラフ変換部１２０は、システム情報を表す確率的ゲームの初期状態から終状態への到達確率の上限及び下限に基づき、確率的ゲームをフロー解析グラフ（ＦｌｏｗＡｎａｌｙｓｉｓＧｒａｐｈ，ＦＡＧ）とよばれる重み付きグラフに変換する。

【0029】

具体的には、グラフ変換部１２０はまず確率的ゲームＳＧと下限Ｌを用いて、確率的ゲームＳＧをマルコフ決定過程ＭＤＰに変換する。この変換方法は既知であるため（例えば、非特許文献１を参照されたい）、詳細は割愛する。また、図４の例においては確率的ゲームＳＧが初めからマルコフ決定過程として与えられているため、この変換は行われない。

【0030】

グラフ変換部１２０は次に以下の要領でマルコフ決定過程ＭＤＰをフロー解析グラフＦＡＧに変換する。
１）フロー解析グラフＦＡＧのノード集合はマルコフ決定過程ＭＤＰの状態集合とする。
２）マルコフ決定過程ＭＤＰにおいて、ある行動によって状態Ａから状態Ｂに（１回で）遷移できる場合、かつその場合に限って、ＦＡＧはノードＡからノードＢへのエッジを有する。例えば、図４の例で、初期状態で「実行」が選択された場合、初期状態から失敗状態に遷移可能であるため、ＦＡＧは初期状態ノードから失敗ノードへのエッジを有する。
３）ＦＡＧの各エッジの重みは、当該エッジの存在を定義した行動をマルコフ決定過程ＭＤＰにおいて行った後の上限Ｕの期待値である。例えば図４の例において、初期状態から失敗状態への遷移を可能にする行動は「実行」であり、当該「実行」後の上限Ｕの期待値は、Ｕ（終状態）×０．６＋Ｕ（失敗）×０．４＝１×０．６＋０×０．４＝０．６と計算される。従って、ＦＡＧのエッジ「初期状態→失敗」の重みは０．６に設定される。
４）加えて、ＦＡＧの各エッジには当該エッジの存在を定義した行動名がラベル付けされているものとする。例えば図４の例において、ＦＡＧのエッジ「初期状態→失敗」には「実行」がラベル付けされる。

【0031】

当該手順に従って、グラフ変換部１２０は、図６に示されるように、確率的ゲームＳＧ、到達確率の上限Ｕ及び下限Ｌ（図６の左側）から、フロー解析グラフＦＡＧ（図６の右側）を生成し、これを経路選択部１３０にわたす。

【0032】

経路選択部１３０は、変換されたフロー解析グラフＦＡＧにおける各状態ノードから終状態ノードへの経路（ノード遷移列）のうち、最大幅を有する経路を選択する。ここで、各経路の幅は当該経路を構成するエッジの最小の重みとして定義される。これは、重み付きグラフに関する最大幅経路問題（ＷｉｄｅｓｔＰａｔｈＰｒｏｂｌｅｍ）に相当する。すなわち、これは、始点及び終点としての２つのノードが与えられたとき、始点から終点への最大幅経路又は当該幅を決定する問題として定式化でき、ダイクストラ法によって解くことが可能である（例えば、非特許文献２のＡｌｇｏｒｉｔｈｍ２．８を参照されたい）。なお、ダイクストラ法は周知のアルゴリズムであるため、詳細は割愛する。以下、及び図７では、経路選択部１３０による更新前の上限をＵ、更新後の上限をＵ’と表記する。

【0033】

経路選択部１３０は、フロー解析グラフの各ノードから終ノードへの最大幅経路を決定し、図７に示されるように、決定した最大幅経路の幅を更新された上限Ｕ’、決定した最大幅経路の初めのエッジに対応する行動を戦略σとする。例えば、初期状態から終状態への最大幅経路はダイクストラ法によって「初期状態→終状態」なる経路と計算される。従って、初期状態におけるＵ’の値は０．６、σの値は「実行」である。更新された上限Ｕ’および戦略σは、収束判定部１４０にわたされる。

【0034】

このように確率的ゲームから変換されたフロー解析グラフに対する最大経路幅問題を解くことによって、真の値への収束が保証された到達確率の上界更新および戦略生成が可能になる。

【0035】

収束判定部１４０は、確率的ゲームＳＧにおける到達確率の上限および下限の収束性を判断する。具体的には、収束判定部１４０は、価値反復法処理部１１０から取得した下限Ｌ’と経路選択部１３０から取得した上限Ｕ’との差分が所定の閾値以下である場合、上限および下限が収束したと判断してもよい。そのように判定された場合、下限Ｌ’を下回らず上限Ｕ ’を上回らない任意の値Ｖ’（典型的には下限Ｌ’ 、上限Ｕ ’、またはその平均）を到達確率の近似として、また戦略σを最適制御戦略として出力する。

【0036】

上限が収束していない場合、収束判定部１４０は、上限Ｕ’及び下限Ｌ’を新たな上限・下限の入力として、再びその更新を行うよう価値反復法処理部１１０、グラフ変換部１２０及び経路選択部１３０に指示する。例えば、グラフ変換部１２０は、更新された上限Ｕ’、及び更新された下限Ｌ’の価値反復法処理部１１０による更新Ｌ’ ’に基づき、確率的ゲームをフロー解析グラフに再変換してもよい。また、経路選択部１３０は、このように再変換されたフロー解析グラフにおける各状態ノードから終状態ノードへの経路のうち、最大幅を有する経路を再選択してもよい。

【0037】

上述したシステム最適制御処理によると、シミュレーションによって、精度保証付きの有界価値反復法の計算速度と比較して、最大で約１０００倍高速に精度保証された到達確率の上限及び下限を算出できるという結果が得られた。

【0038】

ここで、システム最適制御装置１００は、例えば、図８に示されるように、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのプロセッサ１０１、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、フラッシュメモリなどのメモリ１０２、ストレージ１０３及び入出力(Ｉ／Ｏ)インタフェース１０４によるハードウェア構成を有してもよい。

【0039】

プロセッサ１０１は、後述されるシステム最適制御装置１００の各種処理を実行する。

【0040】

メモリ１０２は、システム最適制御装置１００における各種データ及びプログラムを格納し、特に作業用データ、実行中のプログラムなどのためのワーキングメモリとして機能する。具体的には、メモリ１０２は、ハードディスク１０３からロードされた後述される各種処理を実行及び制御するためのプログラムなどを格納し、プロセッサ１０１によるプログラムの実行中にワーキングメモリとして機能する。

【0041】

ハードディスク１０３は、システム最適制御装置１００における各種データ及びプログラムを格納する。

【0042】

Ｉ／Ｏインタフェース１０４は、ユーザからの命令、入力データなどを受け付け、出力結果を表示、再生などすると共に、外部装置との間でデータを入出力するためのインタフェースである。例えば、Ｉ／Ｏインタフェース１０４は、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）、通信回線、キーボード、マウス、ディスプレイ、マイクロフォン、スピーカなどの各種データを入出力するためのデバイスであってもよい。

【0043】

しかしながら、本開示によるシステム最適制御装置１００は、上述したハードウェア構成に限定されず、他の何れか適切なハードウェア構成を有してもよい。例えば、システム最適制御装置１００による各種処理の１つ以上は、これを実現するよう配線化された処理回路又は電子回路により実現されてもよい。

【0044】

図９は、本開示の一実施例によるシステム最適制御処理と既存手法との比較を示す図である。なお、Ｎ＝パラメタ、＃states＝状態数、itr＝上界／下界更新回数、visit％＝状態探索率、time＝計算時間、TO＝Time Out（６時間）、SO＝Stack Overflow、OOM＝Out Of Memoryである。各プログラムは、終状態への到達確率を誤差0.0001％以内で計算した。また、図９の数値上の網掛けは、対応するインスタンスに対する計算が最も早かったことを示す。

【0045】

代表的な形式検証ソフトの一つであるPRISM-GAMES（非特許文献３）を用いて、既存手法（非特許文献１）の性能と本開示のシステム最適制御（提案手法）の性能とを比較した。PRISM-GAMES付属のベンチマーク４種と新たに作成した１種を被検証モデルにした。図９に示されるように、既存手法（非特許文献１）よりも提案手法のほうが、半数以上のインスタンスに対し高速化を実現し、全インスタンスに対し安定な計算速度を実現した。このように、提案手法の優位性が確認された。

【0046】

＜適用例＞
以下、本開示のシステム最適制御の適用例について説明する。

【0047】

［ゲームの設計の検証］
本開示の一実施例では、システム最適制御は、ソーシャルゲーム等のゲームにおいて新要素（キャラクター、シナリオ等）を追加するときの検証に用いられる。ゲームがユーザを惹きつけるためには、新キャラクターの「強さ」や新シナリオの難易度等が適切なレベルとなっている必要がある。例えば新キャラクターが既存キャラクターよりも弱ければ訴求効果がないが、一方で度を越して強すぎると、既存キャラクターの陳腐化が早まりユーザ離れへと繋がってしまう（しばしばキャラクターの入手には課金が必要だからである）。ここで、キャラクターの強さは例えば、そのキャラクターを使用してあるシナリオを遊んだ時に得られる得点の期待値として数値化できる。

【0048】

提案手法（本開示のシステム最適制御）では、例えば上記のように数値化されたキャラクターの強さを精度保証付きで近似計算することができる。これにより、新キャラクターの強さが適切なレベルとなっているかどうかの検証が可能である。またゲーム開発者は適切な強さの新キャラクター設計に向けて、この検証と、検証結果に基づくキャラクターの性能調整を繰り返すことが想定される。そのため提案手法の高速性は納期の短縮を可能とする。

【0049】

［自動運転における安全性の検証］
本開示の一実施例では、システム最適制御は、自動運転における安全性の検証に用いられる。提案手法（本開示のシステム最適制御）の元である価値反復法（VI）は、経路計画等において基本的な技術であるため、既存の利用シーンにおける提案手法（本開示のシステム最適制御）との置き換えが考えられる。

【0050】

例として「安全な強化学習」（例えば、非特許文献４）が想定される。強化学習は様々な制御入力を試し、その結果を参考にすることで漸近的によりよい制御方策を求めていく最適制御計算の手法である。強化学習は通常、様々な制御入力を試す過程での安全性を担保しない（例えば自動運転に適用した際、障害物に衝突するような制御入力も試されうる）。安全な強化学習は、現在の状態において安全な制御入力を予め計算し、その範囲で強化学習に制御入力を試させることで、安全かつ効率的に制御方策を計算する手法である。ここで、安全な制御入力の計算に価値反復法（VI）が利用される。

【0051】

価値反復法（VI）は安全性の下限しか計算できないため、すべての安全な入力を検出しきれない可能性がある。提案手法（本開示のシステム最適制御）の精度保証付き計算により、安全な制御入力の取り逃しを回避することができ、強化学習のパフォーマンス向上が期待される。また、例えば（非特許文献４）の手法は、強化学習を実行しながらその場その場で安全な入力の計算を行う、いわゆるオンラインでの安全性検証を要求するため、高速な検証の完了が不可欠である。提案手法の高速性はこのような例への適用可能性を高めると想定される。

【0052】

［その他］
・本開示の一実施例では、システム最適制御は、航行システムにおいて、無人航行（UAV）におけるリアルタイム制御（例えば、危険回避行動制御）に用いられる。この実施例において、提案手法は例えば、危険を回避しつつ目的地まで到達できる確率の最大値を精度保証付きで計算する。
・本開示の一実施例では、システム最適制御は、品質検証システムにおいて、工業製品等の品質確認のために、自動生産ラインのタスク完了シーケンス最適制御に用いられる。この実施例において、提案手法は例えば、自動生産ラインがタスクを完了できる確率の最大値を精度保証付きで計算する。
・本開示の一実施例では、システム最適制御は、金融取引システムにおいて、金融商品を売買するベストなタイミングを示唆する投資戦略策定に用いられる。この実施例において、提案手法は例えば、最適な売買のタイミングによって得られる利益の期待値を精度保証付きで計算する。
・本開示の一実施例では、システム最適制御は、スマートグリッドにおいて、天候や使用量変動にも安定した電力供給を実現する配電最適制御に用いられる。この実施例において、提案手法は例えば、様々な天候や使用量変動に対して要求通りの電力を供給できる確率の最大値を精度保証付きで計算する。

【0053】

以上、本発明の実施例について詳述したが、本発明は上述した特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

【0054】

本国際出願は２０２０年７月３日に出願された日本国特許出願２０２０－１１５９７３号に基づく優先権を主張するものであり、２０２０－１１５９７３号の全内容をここに本国際出願に援用する。

【符号の説明】

【0055】

１００システム最適制御装置
１１０価値反復法処理部
１２０グラフ変換部
１３０経路選択部
１４０収束判定部

【図1】