IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 大学共同利用機関法人情報・システム研究機構の特許一覧

特許7636652システム最適制御装置、システム最適制御方法及びプログラム
<>
  • 特許-システム最適制御装置、システム最適制御方法及びプログラム 図1
  • 特許-システム最適制御装置、システム最適制御方法及びプログラム 図2
  • 特許-システム最適制御装置、システム最適制御方法及びプログラム 図3
  • 特許-システム最適制御装置、システム最適制御方法及びプログラム 図4
  • 特許-システム最適制御装置、システム最適制御方法及びプログラム 図5
  • 特許-システム最適制御装置、システム最適制御方法及びプログラム 図6
  • 特許-システム最適制御装置、システム最適制御方法及びプログラム 図7
  • 特許-システム最適制御装置、システム最適制御方法及びプログラム 図8
  • 特許-システム最適制御装置、システム最適制御方法及びプログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-02-18
(45)【発行日】2025-02-27
(54)【発明の名称】システム最適制御装置、システム最適制御方法及びプログラム
(51)【国際特許分類】
   G06N 7/01 20230101AFI20250219BHJP
   G06F 17/18 20060101ALI20250219BHJP
【FI】
G06N7/01
G06F17/18 Z
【請求項の数】 6
(21)【出願番号】P 2022534127
(86)(22)【出願日】2021-07-02
(86)【国際出願番号】 JP2021025164
(87)【国際公開番号】W WO2022004881
(87)【国際公開日】2022-01-06
【審査請求日】2024-05-24
(31)【優先権主張番号】P 2020115973
(32)【優先日】2020-07-03
(33)【優先権主張国・地域又は機関】JP
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成29年度、国立研究開発法人科学技術振興機構、戦略的創造研究推進事業・総括実施型研究(ERATO)「蓮尾メタ数理システムデザインプロジェクト」に係る委託業務、産業技術力強化法第17条の適用を受ける特許出願
(73)【特許権者】
【識別番号】504202472
【氏名又は名称】大学共同利用機関法人情報・システム研究機構
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】パラカーン キッティポン
(72)【発明者】
【氏名】滝坂 透
(72)【発明者】
【氏名】ハース トーマス
(72)【発明者】
【氏名】蓮尾 一郎
【審査官】真木 健彦
(56)【参考文献】
【文献】特表2020-510570(JP,A)
【文献】KELMENDI, Edon et al.,Value Iteration for Simple Stochastic Games: Stopping Criterion and Learning Algorithm,arXiv,1804.04901v1,arXiv,2018年04月13日,全39頁,インターネット: <URL: https://arxiv.org/abs/1804.04901>
【文献】MCMAHAN, H. Brendan et al.,Bounded Real-Time Dynamic Programming: RTDP with monotone upper bounds and performance guarantees,Proceedings of the 22nd International Conference on Machine Learning,ACM,2005年08月07日,pp.569-576
(58)【調査した分野】(Int.Cl.,DB名)
G06N 7/01
G06F 17/18
(57)【特許請求の範囲】
【請求項1】
システム情報を表す確率的ゲームの初期状態から終状態への到達確率の上限に基づき、前記確率的ゲームをフロー解析グラフに変換するグラフ変換部と、
前記変換されたフロー解析グラフにおける各状態ノードから終状態ノードへの経路のうち、最大幅を有する経路を選択する経路選択部であって、各経路の幅は前記経路を構成するエッジの最小の重みである、経路選択部と、
前記選択された経路の情報をもとに、前記確率的ゲームの到達確率の上限及び下限の収束性を判断する収束判定部と、
を有するシステム最適制御装置。
【請求項2】
前記グラフ変換部は、更新された上限に基づき、前記確率的ゲームをフロー解析グラフに再変換する、請求項1記載のシステム最適制御装置。
【請求項3】
前記経路選択部は、前記再変換されたフロー解析グラフにおける各状態ノードから終状態ノードへの経路のうち、最大幅を有する経路を選択する、請求項2記載のシステム最適制御装置。
【請求項4】
価値反復法に従って前記到達確率の下限を更新する価値反復法処理部を更に有する、請求項1乃至3何れか一項記載のシステム最適制御装置。
【請求項5】
プロセッサが、システム情報を表す確率的ゲームの初期状態から終状態への到達確率の上限に基づき、前記確率的ゲームをフロー解析グラフに変換するステップと、
前記プロセッサが、前記変換されたフロー解析グラフにおける各状態ノードから終状態ノードへの経路のうち、最大幅を有する経路を選択するステップであって、各経路の幅は前記経路を構成するエッジの最小の重みである、選択するステップと、
前記プロセッサが、前記選択された経路の情報をもとに、前記確率的ゲームの到達確率の上限及び下限の収束性を判断するステップと、
を有するシステム最適制御方法。
【請求項6】
システム情報を表す確率的ゲームの初期状態から終状態への到達確率の上限に基づき、前記確率的ゲームをフロー解析グラフに変換する処理と、
前記変換されたフロー解析グラフにおける各状態ノードから終状態ノードへの経路のうち、最大幅を有する経路を選択する処理であって、各経路の幅は前記経路を構成するエッジの最小の重みである、選択する処理と、
前記選択された経路情報をもとに、前記確率的ゲームの到達確率の上限及び下限の収束性を判断する処理と、
をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、システム最適制御装置、システム最適制御方法及びプログラムに関する。
【背景技術】
【0002】
様々な技術領域において、最適制御技術が利用可能である。例えば、電力のスマートグリッドのマネージメントでは、電力網内の需給状況に応じて、電力供給及び需要が最適化される。また、計算機ネットワークのルータのスイッチング、自動運転における条件判断、UAV(Unmanned Aerial Vehicle)制御、DNS(Domain Name System)アタック対策などにおいても最適制御技術が利用されている。
【0003】
これら実際のシステムの多くは確率的な要素を含むことが一般的であり、確率的ゲームとしてモデル化されうる。例えば、スマートグリッドでは、天気が変わると、発電状況が変わり、システムモデル(確率的ゲーム)も変わる。このため、変更後の確率的ゲームに対する最適な配電戦略を再計算する必要がある。
【0004】
このような最適制御技術では、真の最適制御を高速に計算することが既知の手法では困難であることから、実際には近似的な最適戦略が利用される。確率的ゲームの最適制御手法として、確率的ゲームにおける終状態への到達確率の下限を計算するための価値反復法が知られている。価値反復法では、戦略推定と到達確率の下限更新とが交互に繰り返され、到達確率の下限は真の値に収束することが知られている。
【0005】
また、精度保証付きの最適制御手法として有界価値反復法(Bounded Value Iteration)が知られている。有界価値反復法は、通常の価値反復法が行う下限の計算に加え、終状態への到達確率の上限も同時に計算することで精度保証を行う。有界価値反復法では、到達確率の下限と上限との双方が真の値に収束することが保証されているが、上限の収束を保証するために通常の価値反復法よりも複雑な計算が必要であり、高速計算が困難であることが知られている。
【先行技術文献】
【非特許文献】
【0006】
【文献】Kelmendi, E., Kramer, J., Kretinsky, J., Weininger, M.: Value iteration for simple stochastic games: stopping criterion and learning algorithm. In: International Conference on Computer Aided Verification. pp. 623-642. Springer (2018)
【文献】Medhi, D., Ramasamy, K.: Network Routing: Algorithms, Protocols, and Architectures (Second Edition). Morgan Kaufmann Publishers (2017)
【文献】Marta Kwiatkowska, Gethin Norman, David Parker and Gabriel Santos. PRISM-games 3.0: Stochastic Game Verification with Concurrency, Equilibria and Time. In Proc. 32nd International Conference on Computer Aided Verification (CAV'20), Springer, 2020.
【文献】Hasanbeig, M., Abate, A., Kroening, D.: Cautious Reinforcement Learning with Logical Constraints. Proceedings of the 19th International Conference on Autonomous Agents and MultiAgent Systems, pp. 483-491 (2020)
【発明の概要】
【発明が解決しようとする課題】
【0007】
本開示の課題は、高速計算が可能な精度保証付きのシステム最適制御技術を提供することである。
【課題を解決するための手段】
【0008】
上記課題を解決するため、本発明の一態様は、システム情報を表す確率的ゲームの初期状態から終状態への到達確率の上限および下限に基づき、前記確率的ゲームを重み付きグラフに変換するグラフ変換部と、前記変換された重み付きグラフにおける各状態ノードから終状態ノードへの経路のうち、最大幅を有する経路を選択する経路選択部であって、各経路の幅は前記経路を構成するエッジの最小の重みである、経路選択部と、前記選択された経路の情報をもとに、前記確率的ゲームの到達確率の上限および下限の収束性を判断する収束判定部と、を有するシステム最適制御装置に関する。
【発明の効果】
【0009】
本開示によると、高速計算が可能な精度保証付きのシステム最適制御技術を提供することができる。
【図面の簡単な説明】
【0010】
図1】一例となる確率的ゲームを示す概略図である。
図2】一例となる確率的ゲームの遷移図である。
図3】本開示の一実施例によるシステム最適制御装置の機能構成を示すブロック図である。
図4】本開示の一実施例によるシステム最適制御処理を示す概略図である。
図5】本開示の一実施例によるシステム最適制御処理を示す概略図である。
図6】本開示の一実施例によるシステム最適制御処理を示す概略図である。
図7】本開示の一実施例によるシステム最適制御処理を示す概略図である。
図8】本開示の一実施例によるシステム最適制御装置のハードウェア構成を示すブロック図である。
図9】本開示の一実施例によるシステム最適制御と既存手法との比較を示す図である。
【発明を実施するための形態】
【0011】
以下の実施例では、確率的ゲーム(stochastic game)の終状態への到達確率の上限を決定するシステム最適制御装置が開示される。
[確率的ゲーム]
まず、図1及び2を参照して、本開示の一実施例によるシステム最適制御装置のための確率的ゲームを説明する。図1は、確率的ゲームを示す概略図である。
【0012】
図示された確率的ゲームでは、横断歩道を渡ろうとする歩行者と、走行中の自動車の運転手との2人のプレーヤーが存在し、各プレーヤーの行動によって状態が確率的に遷移する。運転手は、歩行者の挙動によらず、事故を起こすことなく横断歩道を通過することを目的とする。
【0013】
従って、図示された確率的ゲームでは、初期状態「歩行者判断」において、歩行者は横断歩道を「横断」するか、又は「停止」するか判断する。歩行者が「停止」を選択した場合、初期状態から終状態「安全」に到達する。
【0014】
他方、歩行者が「横断」を選択した場合、初期状態から次の状態「車:回避行動」に遷移し、当該状態において、運転手は自動車を停止するため「ブレーキ」をかけるか、又は歩行者が横断しないように「クラクション」を鳴らすか判断する。運転手が「ブレーキ」を選択した場合、当該状態から終状態「安全」に到達する。他方、運転手が「クラクション」を選択した場合、当該状態から終状態「安全」に0.3の確率で遷移し、当該状態から次の状態「事故」に0.7の確率で遷移する。この場合、自動車の運転に対する最適制御とは、歩行者の選択によらず、目的とする終状態への到達確率を最大化する運転手の行動選択を意味する。従って、ここでは「状態『車:回避行動』において『ブレーキ』を選ぶ」という制御方策が最適である。例えば、スマートグリッドでは、システム環境は天候などであってもよく、システム制御者は電力会社であってもよい。また、自律運転では、システム環境は道路状況などであってもよく、システム制御者は運転対象の自動車であってもよい。
【0015】
本実施例では、歩行者と運転手の2人ゲームを想定したが、より一般には、歩行者はシステム環境であり、運転手はシステム制御者としてみなされてもよい。すなわち、以下の実施例によるシステム最適制御装置は、確率的環境下においてシステム制御者の行動を制御する。
【0016】
形式的には、確率的ゲームは、M=(S,sI,1,0,A,Av,δ)として定義される。ここで、Sは状態の集合であり、各プレーヤーの状態集合の和である。sIは初期状態であり、1は終状態であり、0は失敗状態である。また、Aは行動の集合であり、Av(s)は状態sにおいて利用可能な行動の集合である。さらに、δは、δ:S×A×S→[0,1]の遷移関数である。δ(s,a,s’)の値がpであることは、状態sの下で行動aが選択された時に状態s’に遷移する確率がpであることを意味する。
【0017】
例えば、図2に示されるように、システム制御者(□)及びシステム環境(○)の2人のプレーヤーが存在する確率的ゲームでは、システム制御者は終状態に到達する確率を最大化するよう自らの行動を選択し、システム環境は終状態に到達する確率を最小化するよう自らの行動を選択する。
【0018】
図示された具体例では、システム制御者は、初期状態sIにおいてα又はβの行動を選択する。システム制御者がαを選択した場合、確率1で初期状態sIから次の状態s2に遷移し、システム制御者がβを選択した場合、確率0.5で終状態1に遷移するか、確率0.5で失敗状態0に遷移し、システム環境が行動することなく当該確率的ゲームは終了する。
【0019】
他方、システム環境は、状態s2においてα又はβの行動を選択する。システム環境がαを選択した場合、確率1で状態s2から初期状態sIに遷移し、システム環境がβを選択した場合、確率0.9で終状態1に遷移するか、確率0.1で失敗状態0に遷移し、当該確率的ゲームは終了する。
【0020】
このような確率的ゲームにおける到達可能性問題は、関数V:S→[0,1]を計算又は近似するという問題であり、V(s)は、2人のプレーヤーが最適な選択を続けた場合に状態sから終状態1に到達する確率(以下、到達確率と称する)として定義される。なお、確率的ゲームにおける到達可能性問題を解く多項式時間アルゴリズムは知られていない。
[システム最適制御装置]
次に、図3~7を参照して、本開示の一実施例によるシステム最適制御装置を説明する。図3は、本開示の一実施例によるシステム最適制御装置の機能構成を示すブロック図である。
【0021】
図3に示されるように、システム最適制御装置100は、価値反復法処理部110、グラフ変換部120、経路選択部130及び収束判定部140を有する。システム最適制御装置100は、到達確率の上方境界値(上限)U及び下方境界値(下限)L、及び確率的ゲームのモデルSGを受け付けると、到達確率をその上限及び下限によって漸近的に近似する。
【0022】
価値反復法処理部110は、価値反復法に従って到達確率の下限を更新する。具体的には、価値反復法処理部110は、与えられた到達確率の下限L及び確率的ゲームSGに対して、既知の価値反復法に従って確率的ゲームSGの各状態から終状態への到達確率の下限Lを更新する。以下、及び図5では、価値反復法処理部110による更新前の下限をL、更新後の下限をL’と表記する。
【0023】
例えば、図4に示されるような確率的ゲームSGと、到達確率の上限U及び下限Lとが与えられたと仮定する。ここでは、到達確率の上限U及び下限Lは、初期状態に対してはU=1,L=0であり、終状態に対してはU=1,L=1であり、失敗状態に対してはU=0,L=0である。便宜上、終状態からの到達確率は1に設定される。
【0024】
初期状態において「延期」を選択すると、確率1で初期状態に留まり、「実行」を選択すると、確率0.6で終状態に遷移し、確率0.4で失敗状態に遷移する。当該確率的ゲームSGでは、全ての状態は制御プレーヤーのものであり、このような確率的ゲームを特にマルコフ決定過程(Markov Decision Process)と呼ぶ。制御プレーヤーはゲーム中に終状態に到達する確率を最大化することを目的とする。例えば、図示された具体例では、初期状態における制御プレイヤーの最適行動は「実行」である。これは、初期状態で「延期」を選択しても、終状態に到達しないためである。本例では、初期状態からの到達確率は0.6であり、失敗状態からの到達確率は0である。
【0025】
価値反復法処理部110は、各状態に対して下限Lの値を以下のように更新する。例えば、初期状態に対して、価値反復法処理部110は以下の計算を行う。
まず、選択可能な各行動の下で1回遷移した後の下限Lの期待値を決定する。図5の左部に示されるように、初期状態において制御プレイヤーは「延期」または「実行」の行動が可能である。「延期」が選択された場合、1回遷移後の状態は確率1で初期状態であるから、1回遷移後のLの期待値は、L(初期状態)×1=0と計算される。同様に、「実行」が選択された場合、1回遷移後のLの期待値は、L(終状態)×0.6+L(失敗)×0.4=1×0.6+0×0.4=0.6と計算される。
このようにして計算した値のうち、最大のものを更新された下限L’の値とする。本例では、「実行」が選択された場合の期待値0.6が最大のものとなる。従って、図5右部に示されるように、初期状態における更新された下限L’の値は0.6である。
【0026】
更新された下限L’は、収束判定部140にわたされる。なお本例では、L’は1回の更新によって下限の真の値に収束するが、より一般には、L’はLを下回らず到達確率を上回らないいずれかの値である。価値反復法は、更新された下限L’を新たな入力として同様の計算を反復することで、漸近的に下限を真の到達確率に近づけていく手法である。
【0027】
なお、価値反復法は周知であり、更なる詳細は割愛する。
【0028】
グラフ変換部120は、システム情報を表す確率的ゲームの初期状態から終状態への到達確率の上限及び下限に基づき、確率的ゲームをフロー解析グラフ(Flow Analysis Graph, FAG)とよばれる重み付きグラフに変換する。
【0029】
具体的には、グラフ変換部120はまず確率的ゲームSGと下限Lを用いて、確率的ゲームSGをマルコフ決定過程MDPに変換する。この変換方法は既知であるため(例えば、非特許文献1を参照されたい)、詳細は割愛する。また、図4の例においては確率的ゲームSGが初めからマルコフ決定過程として与えられているため、この変換は行われない。
【0030】
グラフ変換部120は次に以下の要領でマルコフ決定過程MDPをフロー解析グラフFAGに変換する。
1)フロー解析グラフFAGのノード集合はマルコフ決定過程MDPの状態集合とする。
2)マルコフ決定過程MDPにおいて、ある行動によって状態Aから状態Bに(1回で)遷移できる場合、かつその場合に限って、FAGはノードAからノードBへのエッジを有する。例えば、図4の例で、初期状態で「実行」が選択された場合、初期状態から失敗状態に遷移可能であるため、FAGは初期状態ノードから失敗ノードへのエッジを有する。
3)FAGの各エッジの重みは、当該エッジの存在を定義した行動をマルコフ決定過程MDPにおいて行った後の上限Uの期待値である。例えば図4の例において、初期状態から失敗状態への遷移を可能にする行動は「実行」であり、当該「実行」後の上限Uの期待値は、U(終状態)×0.6+U(失敗)×0.4=1×0.6+0×0.4=0.6と計算される。従って、FAGのエッジ「初期状態→失敗」の重みは0.6に設定される。
4)加えて、FAGの各エッジには当該エッジの存在を定義した行動名がラベル付けされているものとする。例えば図4の例において、FAGのエッジ「初期状態→失敗」には「実行」がラベル付けされる。
【0031】
当該手順に従って、グラフ変換部120は、図6に示されるように、確率的ゲームSG、到達確率の上限U及び下限L(図6の左側)から、フロー解析グラフFAG(図6の右側)を生成し、これを経路選択部130にわたす。
【0032】
経路選択部130は、変換されたフロー解析グラフFAGにおける各状態ノードから終状態ノードへの経路(ノード遷移列)のうち、最大幅を有する経路を選択する。ここで、各経路の幅は当該経路を構成するエッジの最小の重みとして定義される。これは、重み付きグラフに関する最大幅経路問題(Widest Path Problem)に相当する。すなわち、これは、始点及び終点としての2つのノードが与えられたとき、始点から終点への最大幅経路又は当該幅を決定する問題として定式化でき、ダイクストラ法によって解くことが可能である(例えば、非特許文献2のAlgorithm2.8を参照されたい)。なお、ダイクストラ法は周知のアルゴリズムであるため、詳細は割愛する。以下、及び図7では、経路選択部130による更新前の上限をU、更新後の上限をU’と表記する。
【0033】
経路選択部130は、フロー解析グラフの各ノードから終ノードへの最大幅経路を決定し、図7に示されるように、決定した最大幅経路の幅を更新された上限U’、決定した最大幅経路の初めのエッジに対応する行動を戦略σとする。例えば、初期状態から終状態への最大幅経路はダイクストラ法によって「初期状態→終状態」なる経路と計算される。従って、初期状態におけるU’の値は0.6、σの値は「実行」である。更新された上限U’および戦略σは、収束判定部140にわたされる。
【0034】
このように確率的ゲームから変換されたフロー解析グラフに対する最大経路幅問題を解くことによって、真の値への収束が保証された到達確率の上界更新および戦略生成が可能になる。
【0035】
収束判定部140は、確率的ゲームSGにおける到達確率の上限および下限の収束性を判断する。具体的には、収束判定部140は、価値反復法処理部110から取得した下限L’と経路選択部130から取得した上限U’との差分が所定の閾値以下である場合、上限および下限が収束したと判断してもよい。そのように判定された場合、下限L’を下回らず上限U ’を上回らない任意の値V’(典型的には下限L’ 、上限U ’、またはその平均)を到達確率の近似として、また戦略σを最適制御戦略として出力する。
【0036】
上限が収束していない場合、収束判定部140は、上限U’及び下限L’を新たな上限・下限の入力として、再びその更新を行うよう価値反復法処理部110、グラフ変換部120及び経路選択部130に指示する。例えば、グラフ変換部120は、更新された上限U’、及び更新された下限L’の価値反復法処理部110による更新L’ ’に基づき、確率的ゲームをフロー解析グラフに再変換してもよい。また、経路選択部130は、このように再変換されたフロー解析グラフにおける各状態ノードから終状態ノードへの経路のうち、最大幅を有する経路を再選択してもよい。
【0037】
上述したシステム最適制御処理によると、シミュレーションによって、精度保証付きの有界価値反復法の計算速度と比較して、最大で約1000倍高速に精度保証された到達確率の上限及び下限を算出できるという結果が得られた。
【0038】
ここで、システム最適制御装置100は、例えば、図8に示されるように、CPU(Central Processing Unit)などのプロセッサ101、RAM(Random Access Memory)、フラッシュメモリなどのメモリ102、ストレージ103及び入出力(I/O)インタフェース104によるハードウェア構成を有してもよい。
【0039】
プロセッサ101は、後述されるシステム最適制御装置100の各種処理を実行する。
【0040】
メモリ102は、システム最適制御装置100における各種データ及びプログラムを格納し、特に作業用データ、実行中のプログラムなどのためのワーキングメモリとして機能する。具体的には、メモリ102は、ハードディスク103からロードされた後述される各種処理を実行及び制御するためのプログラムなどを格納し、プロセッサ101によるプログラムの実行中にワーキングメモリとして機能する。
【0041】
ハードディスク103は、システム最適制御装置100における各種データ及びプログラムを格納する。
【0042】
I/Oインタフェース104は、ユーザからの命令、入力データなどを受け付け、出力結果を表示、再生などすると共に、外部装置との間でデータを入出力するためのインタフェースである。例えば、I/Oインタフェース104は、USB(Universal Serial Bus)、通信回線、キーボード、マウス、ディスプレイ、マイクロフォン、スピーカなどの各種データを入出力するためのデバイスであってもよい。
【0043】
しかしながら、本開示によるシステム最適制御装置100は、上述したハードウェア構成に限定されず、他の何れか適切なハードウェア構成を有してもよい。例えば、システム最適制御装置100による各種処理の1つ以上は、これを実現するよう配線化された処理回路又は電子回路により実現されてもよい。
【0044】
図9は、本開示の一実施例によるシステム最適制御処理と既存手法との比較を示す図である。なお、N=パラメタ、#states=状態数、itr=上界/下界更新回数、visit%=状態探索率、time=計算時間、TO=Time Out(6時間)、SO=Stack Overflow、OOM=Out Of Memoryである。各プログラムは、終状態への到達確率を誤差0.0001%以内で計算した。また、図9の数値上の網掛けは、対応するインスタンスに対する計算が最も早かったことを示す。
【0045】
代表的な形式検証ソフトの一つであるPRISM-GAMES(非特許文献3)を用いて、既存手法(非特許文献1)の性能と本開示のシステム最適制御(提案手法)の性能とを比較した。PRISM-GAMES付属のベンチマーク4種と新たに作成した1種を被検証モデルにした。図9に示されるように、既存手法(非特許文献1)よりも提案手法のほうが、半数以上のインスタンスに対し高速化を実現し、全インスタンスに対し安定な計算速度を実現した。このように、提案手法の優位性が確認された。
【0046】
<適用例>
以下、本開示のシステム最適制御の適用例について説明する。
【0047】
[ゲームの設計の検証]
本開示の一実施例では、システム最適制御は、ソーシャルゲーム等のゲームにおいて新要素(キャラクター、シナリオ等)を追加するときの検証に用いられる。ゲームがユーザを惹きつけるためには、新キャラクターの「強さ」や新シナリオの難易度等が適切なレベルとなっている必要がある。例えば新キャラクターが既存キャラクターよりも弱ければ訴求効果がないが、一方で度を越して強すぎると、既存キャラクターの陳腐化が早まりユーザ離れへと繋がってしまう(しばしばキャラクターの入手には課金が必要だからである)。ここで、キャラクターの強さは例えば、そのキャラクターを使用してあるシナリオを遊んだ時に得られる得点の期待値として数値化できる。
【0048】
提案手法(本開示のシステム最適制御)では、例えば上記のように数値化されたキャラクターの強さを精度保証付きで近似計算することができる。これにより、新キャラクターの強さが適切なレベルとなっているかどうかの検証が可能である。またゲーム開発者は適切な強さの新キャラクター設計に向けて、この検証と、検証結果に基づくキャラクターの性能調整を繰り返すことが想定される。そのため提案手法の高速性は納期の短縮を可能とする。
【0049】
[自動運転における安全性の検証]
本開示の一実施例では、システム最適制御は、自動運転における安全性の検証に用いられる。提案手法(本開示のシステム最適制御)の元である価値反復法(VI)は、経路計画等において基本的な技術であるため、既存の利用シーンにおける提案手法(本開示のシステム最適制御)との置き換えが考えられる。
【0050】
例として「安全な強化学習」(例えば、非特許文献4)が想定される。強化学習は様々な制御入力を試し、その結果を参考にすることで漸近的によりよい制御方策を求めていく最適制御計算の手法である。強化学習は通常、様々な制御入力を試す過程での安全性を担保しない(例えば自動運転に適用した際、障害物に衝突するような制御入力も試されうる)。安全な強化学習は、現在の状態において安全な制御入力を予め計算し、その範囲で強化学習に制御入力を試させることで、安全かつ効率的に制御方策を計算する手法である。ここで、安全な制御入力の計算に価値反復法(VI)が利用される。
【0051】
価値反復法(VI)は安全性の下限しか計算できないため、すべての安全な入力を検出しきれない可能性がある。提案手法(本開示のシステム最適制御)の精度保証付き計算により、安全な制御入力の取り逃しを回避することができ、強化学習のパフォーマンス向上が期待される。また、例えば(非特許文献4)の手法は、強化学習を実行しながらその場その場で安全な入力の計算を行う、いわゆるオンラインでの安全性検証を要求するため、高速な検証の完了が不可欠である。提案手法の高速性はこのような例への適用可能性を高めると想定される。
【0052】
[その他]
・本開示の一実施例では、システム最適制御は、航行システムにおいて、無人航行(UAV)におけるリアルタイム制御(例えば、危険回避行動制御)に用いられる。この実施例において、提案手法は例えば、危険を回避しつつ目的地まで到達できる確率の最大値を精度保証付きで計算する。
・本開示の一実施例では、システム最適制御は、品質検証システムにおいて、工業製品等の品質確認のために、自動生産ラインのタスク完了シーケンス最適制御に用いられる。この実施例において、提案手法は例えば、自動生産ラインがタスクを完了できる確率の最大値を精度保証付きで計算する。
・本開示の一実施例では、システム最適制御は、金融取引システムにおいて、金融商品を売買するベストなタイミングを示唆する投資戦略策定に用いられる。この実施例において、提案手法は例えば、最適な売買のタイミングによって得られる利益の期待値を精度保証付きで計算する。
・本開示の一実施例では、システム最適制御は、スマートグリッドにおいて、天候や使用量変動にも安定した電力供給を実現する配電最適制御に用いられる。この実施例において、提案手法は例えば、様々な天候や使用量変動に対して要求通りの電力を供給できる確率の最大値を精度保証付きで計算する。
【0053】
以上、本発明の実施例について詳述したが、本発明は上述した特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
【0054】
本国際出願は2020年7月3日に出願された日本国特許出願2020-115973号に基づく優先権を主張するものであり、2020-115973号の全内容をここに本国際出願に援用する。
【符号の説明】
【0055】
100 システム最適制御装置
110 価値反復法処理部
120 グラフ変換部
130 経路選択部
140 収束判定部
図1
図2
図3
図4
図5
図6
図7
図8
図9