(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-09
(45)【発行日】2024-01-17
(54)【発明の名称】避難誘導装置及び避難誘導モデル学習装置
(51)【国際特許分類】
G06Q 50/10 20120101AFI20240110BHJP
【FI】
G06Q50/10
(21)【出願番号】P 2019169638
(22)【出願日】2019-09-18
【審査請求日】2022-06-23
(73)【特許権者】
【識別番号】000003621
【氏名又は名称】株式会社竹中工務店
(74)【代理人】
【識別番号】100084995
【氏名又は名称】加藤 和詳
(74)【代理人】
【識別番号】100099025
【氏名又は名称】福田 浩志
(72)【発明者】
【氏名】大渕 正博
(72)【発明者】
【氏名】恒川 裕史
【審査官】毛利 太郎
(56)【参考文献】
【文献】特開2016-224755(JP,A)
【文献】特開2005-338991(JP,A)
【文献】特開2002-288386(JP,A)
【文献】新井 康平 Kohei ARAI,学習オートマトンを伴う競合学習・強化学習オンラインクラスタリングによる収束性能の向上および避難誘導システムへの応用 An Improvement of the Convergence Performance for the Online Clustering Based on Pursuit Reinforcement Guided Competitive Learning: PRCL and Its Application to Evacuation Simulation,画像電子学会誌 第40巻 第2号 The Journal of the Institute of Image Electronics Engineers of Japan,日本,一般社団法人画像電子学会 The Institute of Image Electronics Engineers of Japan,2011年03月25日,第40巻,p.361-368
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00 - 99/00
(57)【特許請求の範囲】
【請求項1】
災害が発生した際の人の位置又は動きを表す観測情報を取得する取得部と、
前記取得部によって取得された前記観測情報を、災害が発生した際の避難シミュレーションの結果に基づき、前記避難シミュレーションの災害における死者数、負傷者数、及び避難が完了するまでの時間に応じて設定された報酬を用いて予め強化学習された学習済みモデルへ入力して、前記災害が発生した際の避難経路に関する情報である避難情報を生成する避難情報生成部と、
前記避難情報生成部によって生成された前記避難情報に応じて、避難情報出力装置を制御する制御部と、
を含
み、
前記学習済みモデルは、建物内を対象とした第1の避難シミュレーションの結果と、建物外の街区内を対象とした第2の避難シミュレーションの結果とに応じて予め強化学習された学習済みモデルである、
避難誘導装置。
【請求項2】
前記強化学習が実行される際には、
前記第1の避難シミュレーションにおける報酬r
1
と第2の避難シミュレーションにおける報酬r
2
とを、報酬r
2
が観測されたときの報酬r
1
の尤もらしさを表す尤度関数L(r
1
|r
2
)によって関係付け、
以下の式(1)に示されているように、前記第1の避難シミュレーションの結果から算出された報酬r
1
の確率分布P(r
1
)に対して前記尤度関数L(r
1
|r
2
)を乗じることにより、報酬r
2
の確率分布P(r
2
)を算出し、
P(r
2
)=P(r
1
)×L(r
1
|r
2
)
(1)
報酬r
2
の期待値が最大化するように前記学習済みモデルを強化学習させる、
請求項1に記載の避難誘導装置。
【請求項3】
災害が発生した際の避難シミュレーションを実行し、前記避難シミュレーション
の結果に基づいて、前記避難シミュレーションの災害における死者数、負傷者数、及び避難が完了するまでの時間に応じて設定された報酬を用いて、災害が発生した際の人の位置又は動きを表す観測情報から前記災害が発生した際の避難経路に関する情報を出力するためのモデルを強化学習させて、前記観測情報から前記避難経路に関する情報を出力する学習済みモデルを得る学習部と、
を含み、
前記学習部は、建物内を対象とした第1の避難シミュレーションの結果と、建物外の街区内を対象とした第2の避難シミュレーションの結果とに応じて前記モデルを強化学習させることにより、前記学習済みモデルを得る、
避難誘導モデル学習装置。
【請求項4】
前記学習部は、前記強化学習を実行する際に、
前記第1の避難シミュレーションにおける報酬r
1
と第2の避難シミュレーションにおける報酬r
2
とを、報酬r
2
が観測されたときの報酬r
1
の尤もらしさを表す尤度関数L(r
1
|r
2
)によって関係付け、
以下の式(1)に示されているように、前記第1の避難シミュレーションの結果から算出された報酬r
1
の確率分布P(r
1
)に対して前記尤度関数L(r
1
|r
2
)を乗じることにより、報酬r
2
の確率分布P(r
2
)を算出し、
P(r
2
)=P(r
1
)×L(r
1
|r
2
)
(1)
報酬r
2
の期待値が最大化するように前記学習済みモデルを強化学習させる、
請求項3に記載の避難誘導モデル学習装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、避難誘導装置及び避難誘導モデル学習装置に関する。
【背景技術】
【0002】
従来、避難シミュレーションシステムが知られている(例えば、特許文献1)。この避難シミュレーションシステムは、マルチエージェントシミュレーション技術を用いて高層建造物における災害避難方法をシミュレーションする。この避難シミュレーションシステムは、避難者個人を一個の行動単位としてモデル化して避難行動中の各個人の状態を逐次再現するというアプローチをとることにより、避難中の任意の時点における避難状況を追跡することで、安全な避難を妨げるボトルネックを容易に特定して改善施策の検討を行うためのものである。
【0003】
また、被災したところを避けた避難ルートを出力する避難ルート出力装置が知られている(例えば、特許文献2)。この避難ルート出力装置は、災害時において避難場所まで安全に行くことができるルートを生成する。
【0004】
また、災害の状況に応じて迅速かつ適切に避難計画を策定できる避難シミュレーション装置が知られている(例えば、特許文献3)。この避難シミュレーション装置は、避難者の密度に基づいて経路の流動を計算し、避難完了時間が最短となる最適避難経路候補を複数導出する。そして、避難シミュレーション装置は、マルチエージェント法により避難者の行動を計算し、複数の最適避難経路候補から、避難完了時間が最短となる最適避難経路を選択する。
【先行技術文献】
【特許文献】
【0005】
【文献】特許第5372421号公報
【文献】特許第5686479号公報
【文献】特許第5996689号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
災害が発生した際に建物内の人に対して避難誘導を行う場合には、避難経路の提示を適切に行う必要がある。また、その避難経路の提示には迅速性が求められる。
【0007】
しかし、上記特許文献1の技術は、安全な避難を妨げるボトルネックを容易に特定して改善施策の検討を行うためのものであり、計画対象の建物を評価する際に用いられる技術である。
【0008】
また、上記特許文献2の技術は、災害が発生した際に被災したところを避けた避難ルートを出力するものである。しかし、実際に災害が発生した場合には、被災した箇所以外の様々な状況を考慮する必要がある。例えば、避難する人の動き等を考慮する必要がある。
【0009】
また、上記特許文献3に記載されている技術は、実際の災害の状況に応じてシミュレーションを行うが、当該シミュレーションを実行する際には時間がかかり、迅速性という観点からは適切ではない。
【0010】
本発明は上記事実に鑑みて、災害が発生した際の避難シミュレーション結果を考慮して、リスクを最小化するように避難者を避難させることを目的とする。
【課題を解決するための手段】
【0011】
上記目的を達成するために、本発明の避難誘導装置は、災害が発生した際の人の位置又は動きを表す観測情報を取得する取得部と、前記取得部によって取得された前記観測情報を、災害が発生した際の避難シミュレーションの結果に基づき、前記避難シミュレーションの災害における死者数、負傷者数、及び避難が完了するまでの時間に応じて設定された報酬を用いて予め強化学習された学習済みモデルへ入力して、前記災害が発生した際の避難経路に関する情報である避難情報を生成する避難情報生成部と、前記避難情報生成部によって生成された前記避難情報に応じて、避難情報出力装置を制御する制御部と、を含む避難誘導装置である。本発明の避難誘導装置によれば、災害が発生した際の避難シミュレーション結果を考慮して、リスクを最小化するように避難者を避難させることができる。
【0012】
本発明の前記学習済みモデルは、複数種類の前記避難シミュレーションの結果に応じて予め前記強化学習された学習済みモデルであるようにすることができる。これにより、複数種類の避難シミュレーション結果を考慮して、リスクを最小化するように避難者を避難させることができる。
【0013】
本発明の避難誘導モデル学習装置は、災害が発生した際の避難シミュレーションを実行し、前記避難シミュレーション結果に基づいて、前記避難シミュレーションの災害における死者数、負傷者数、及び避難が完了するまでの時間に応じて設定された報酬を用いて、災害が発生した際の人の位置又は動きを表す観測情報から前記災害が発生した際の避難経路に関する情報を出力するためのモデルを強化学習させて、前記観測情報から前記避難経路に関する情報を出力する学習済みモデルを得る学習部と、を含む避難誘導モデル学習装置である。本発明の避難誘導モデル学習装置によれば、災害が発生した場合に、リスクを最小化させるように避難者を避難させるための学習済みモデルを取得することができる。
【0014】
本発明の前記学習部は、複数種類の前記避難シミュレーションを実行し、前記避難シミュレーション結果に基づいて、前記学習済みモデルを得るようにすることができる。これにより、複数種類の避難シミュレーションを考慮して、災害が発生した場合にリスクを最小化するように避難者を避難させるための学習済みモデルを取得することができる。
【発明の効果】
【0015】
本発明によれば、災害が発生した際の避難シミュレーション結果を考慮して、リスクを最小化するように避難者を避難させることができる、という効果が得られる。
【図面の簡単な説明】
【0016】
【
図1】本実施形態に係る避難誘導モデル学習装置の概略構成を示すブロック図である。
【
図2】避難シミュレーションのシミュレーション結果と報酬との関係を説明するための説明図である。
【
図3】本実施形態に係る避難誘導装置の概略構成を示すブロック図である。
【
図4】表示装置の建物内の設置イメージの一例を示す図である。
【
図5】第1実施形態の学習処理ルーチンの一例を示す図である。
【
図6】本実施形態の避難誘導処理ルーチンの一例を示す図である。
【
図7】第2実施形態に係る建物内の避難と街区の避難とを説明するための説明図である。
【
図8】第2実施形態の変数間の関係を説明するための説明図である。
【
図9】第2実施形態の学習処理ルーチンの一例を示す図である。
【
図10】第2実施形態の学習処理ルーチンの一例を示す図である。
【発明を実施するための形態】
【0017】
<本実施形態の概要>
【0018】
建物内に人が存在する際に災害が発生した場合、建物から避難する際には、被災者自身が避難経路を比較し、最適と考えられる経路を選択することになる。ここで、被災者の判断の良否は、災害に関する知識や入手できる情報によって影響されるため、状況によっては危険な避難経路を選択する場合がある。
【0019】
このような背景のため、避難シミュレーションを活用した避難指示の提示手法(例えば、特許第5996689号公報を参照)が提案されているが、従来の技術は避難シミュレーションの結果(出力)が最適になるように、避難指示という入力パラメタを同定する手法である。このため、複数の手法や複数のモデルによるシミュレーション結果を並列的に考慮して避難指示を最適化することは、手法及びモデルの数が増えるにつれ、同定が困難となる。
【0020】
一方、機械学習によって得られる学習済みモデルは、シミュレーションの入力と出力との間の関係性を学習した上で、最適な入力を選定することができる。そのため、異なる種類の避難シミュレーションであっても、同じ項目の入力及び出力がある避難シミュレーションであれば、併用することが容易である。
【0021】
そこで、本実施形態では、避難指示の判定において、機械学習によって得られる学習済みモデルを活用することで複数の避難シミュレーションの併用を可能にした手法を提案する。本実施形態によれば、複数の避難シミュレーションのシミュレーション結果を考慮することができるとともに、リスクを最小化するように避難者を避難させることができる。
【0022】
以下、本発明の実施形態について詳細に説明する。
【0023】
<第1実施形態>
【0024】
<避難誘導モデル学習装置のシステム構成>
【0025】
図1は、本発明の第1実施形態に係る避難誘導モデル学習装置10の構成の一例を示すブロック図である。避難誘導モデル学習装置10は、機能的には、
図1に示されるように、受付部12と、コンピュータ20とを含んだ構成で表すことができる。
【0026】
受付部12は、ユーザから入力された情報を受け付ける。受付部12は、例えばキーボードやマウス等によって実現される。受付部12は、避難シミュレーションを実行する対象の仮想的な学習用の建物の仕様を表す仕様情報を受け付ける。学習用の建物とは、後述する学習部24においてシミュレーションに用いられるコンピュータ上の仮想的な建物である。仕様情報には、例えば、学習用の建物内の部屋の配置に関する情報、学習用の建物の構造種別を表す情報、学習用の建物の材料を表す情報、学習用の建物の階数に関する情報、及び学習用の建物の設備に関する情報等が含まれている。
【0027】
また、受付部12は、避難シミュレーションを実行する際の各種条件に関する情報である条件情報を受け付ける。条件情報には、避難シミュレーションにおける仮想的な災害の発生条件に関する情報である災害発生条件情報と、仮想的な災害が発生した際の建物内の仮想的な人に対する避難指示条件に関する情報である避難指示条件情報とが含まれている。また、条件情報には、仮想的な避難者の配置状況に関する情報が含まれている。
【0028】
設定情報記憶部22には、受付部12により受け付けられた仕様情報と、条件情報とが格納される。設定情報記憶部22に格納された、仕様情報及び条件情報に応じて、後述する学習部24において避難シミュレーションが実行される。
【0029】
学習部24は、設定情報記憶部22に格納された仕様情報と条件情報とに基づいて、学習用の建物において災害が発生した際の避難シミュレーションを実行する。なお、避難シミュレーションの実行されているときの、各時刻の仮想的な人の位置及び動きは、所定の記憶領域(図示省略)に逐次記録される。本実施形態において用いる避難シミュレーションは、既存の避難シミュレーションと同様のものであり、従来の技術(例えば、特許第5372421号公報に記載の技術)を利用する。また、避難シミュレーションの回数は、従来の強化学習と同様に設定することができる。
【0030】
そして、学習部24は、当該シミュレーション結果に基づいて、災害が発生した際の建物内の人の位置又は動きを表す観測情報から災害が発生した際の避難経路に関する情報である避難情報を出力するためのモデルを強化学習させる。学習部24によるモデルの強化学習によって、どのような被災状況及び避難者の位置ではどのような避難指示を出せば良いかが学習される。
【0031】
以下、強化学習に関して説明する。強化学習は、環境の中での試行錯誤を通じて最適な行動を学習する手法である。強化学習において、教師データの代わりになるのが報酬である。累積報酬Rtは、報酬の割引率をγ、各局面での報酬をrt+k+1として、以下の式(1)に示されるように定義される。なお、tは時刻を表す。
【0032】
【0033】
なお、方策πの下で、状態sにおいて行動aを選択することの価値は、以下の式(2)に示される行動価値関数Qπ(s,a)によって表される。なお、Eπ{・}は期待値を表す。
【0034】
【0035】
上記式(2)に示される行動価値関数Qπ(s,a)を用いて、価値が最も高くなるような行動aが選択される。最適な行動価値関数Q*は、以下の式(3)によって表される。
【0036】
【0037】
行動価値関数Q*(s,a)を学習する方法としては、Q-Learning(例えば、公知文献(Watkins, C.J.C.H., "Learning from Delayed Rewards", 1989)が挙げられる。Q-Learningは、以下の式(4)に示されるように、逐次Q値を更新しながら学習する。なお、αは予め設定される定数である。本実施形態においては、以下の式(4)に示されるQ-Learningによって行動価値関数を強化学習させる。
【0038】
【0039】
本実施形態では、災害状況及び被災者の位置等を状態sとし、その状態sと方策πとに応じた避難指示を行動aとし、その避難指示aが表示された表示装置を見た被災者が避難を行うものとする。Q-Learningによって学習が行われた学習済みモデルは、行動価値関数Qが最適となるよう、方策πに応じた避難指示aを選定することができるようになる。
【0040】
本実施形態の学習部24は、死傷者数及び避難経路の時間に基づくリスク評価結果に基づき、避難シミュレーションの災害における死者数D、負傷者数I、及び避難が完了するまでの時間Tに応じて設定された報酬rtを用いて、観測情報から避難経路に関する情報を出力するためのモデルを強化学習させる。具体的には、本実施形態においては、以下の式(5)に示される報酬rtを設定する。
【0041】
【0042】
上記式(5)におけるDは死者数を表し、Iは負傷者数を表す。また、Tは避難が完了するまでの時間である。Cdは死者1人あたりに対する損失を表す係数であり、Ciは負傷者1人あたりに対する損失を表す係数、Ctは避難時間と損失とを関係付ける係数である。Cd、Ci、及びCtは、予め設定される。
【0043】
図2に、避難シミュレーションのシミュレーション結果と報酬との関係を説明するための説明図を示す。
図2に示されるように、建物内に複数の避難者Uが存在している場合、災害の一例である火災Fが発生した場合の避難シミュレーションを実行したとする。この場合、避難指示Aが出された場合には、避難時間がX1分であり、死者がY1人であり、負傷者がZ1人であり、報酬は高いことが示されている。また、避難指示Bが出された場合には、避難時間がX2分であり、死者がY2人であり、負傷者がZ2人であり、報酬は中程度であることが示されている。また、避難指示Cが出された場合には、避難時間がX3分であり、死者がY3人であり、負傷者がZ3人であり、報酬は低いことが示されている。このように、シミュレーション結果と報酬とが紐付けられるため、本実施形態では、シミュレーション結果に応じた報酬に基づいて、観測情報から避難情報を出力するためのモデルを強化学習させる。
【0044】
具体的には、学習部24は、上記式(5)に示される報酬rtが大きくなるように、観測情報から避難情報を出力するためのモデルを強化学習させ、学習済みモデルの一例である行動価値関数Q*(s,a)を得る。なお、状態sを表す観測情報が行動価値関数Q*(s,a)へ入力されると、その観測情報に応じた行動aを表す避難指示が避難情報の一例として出力される。
【0045】
なお、観測情報から避難情報を出力するための行動価値関数のモデルとしては、どのような関数を用いてもよい。例えば、行動価値関数のモデルとしてニューラルネットワークモデルを用いることができる。または、状態sを表す観測情報と行動aを表す避難指示とが対応付けられたテーブル(Qテーブルとも称される。)を用いても良い。
【0046】
学習済みモデル記憶部26には、学習部24によって学習された学習済みモデルの一例である行動価値関数Q*(s,a)が格納される。なお、行動価値関数Q*(s,a)は、後述する避難誘導装置において用いられ、各時刻において観測情報が行動価値関数Q*(s,a)へ入力されると、避難情報の一例である避難指示が表示装置へ表示される。
【0047】
従来のシミュレーションによる災害発生時の避難指示の最適化は、結果が最適となるように避難指示という入力パラメタを同定する手法である。このため、複数の手法や複数のモデルによるシミュレーション結果を並列的に考慮して避難指示を最適化する場合、手法やモデルの数が増えるにつれて同定が困難となる。
【0048】
一方、本実施形態では、避難シミュレーションのシミュレーション結果を、状態s及び行動aという変数に変換した後、最適な方策πを選定する手法である。このため、異なる手法や異なるモデルのシミュレーション結果であっても、共通な状態s及び共通な行動aに変換できるのであれば、枠組みを変えることなく最適な方策πを選定することが可能である。これにより、例えば個々の建物を対象とした避難シミュレーションと、地域を対象とした河川氾濫からの避難シミュレーションのように、全く異なるシミュレーション結果を並列的に組み合わせ、最適な避難指示を評価することが可能になる。
【0049】
<避難誘導装置のシステム構成>
【0050】
図3は、本発明の実施形態に係る避難誘導装置30の構成の一例を示すブロック図である。避難誘導装置30は、機能的には、
図3に示されるように、観測装置32と、コンピュータ34と、複数の表示装置42とを含んだ構成で表すことができる。表示装置42は、本発明の避難情報出力装置の一例である。
【0051】
避難誘導装置30の観測装置32及び複数の表示装置42は、学習用の建物と同等の対象の建物内に設置される。例えば、対象の建物は、仮想的な学習用の建物の設計図に基づき建設された建物である。そして、災害が発生した際に、避難誘導装置30は、建物内に設置された観測装置32により逐次観測される情報に基づいて、建物内に設置された複数の表示装置42の表示を制御し、建物内の人の避難を誘導する。以下、具体的に説明する。
【0052】
観測装置32は、建物内に設置され、災害が発生した際の建物内の人の位置又は動きを表す観測情報を逐次取得する。また、観測装置32としては、例えば、人が携帯している携帯端末等、グローバル・ポジショニング・システム(GPS)機能を有する端末を利用することができる。また、建物内の避難誘導の場合には、建物内に設置されたカメラによる画像データから人の動きを判断するシステム(例えば、構造計画研究所によるVitracom Site Viewや、産業技術総合研究所によるCrowd Walk等)を利用することができる。また、観測装置32は、災害状況(例えば、火災の広がり具合及び地震による建物の崩壊度合い等)も併せて観測するようにしてもよい。
【0053】
コンピュータ34は、CPU(Central Processing Unit)、各処理ルーチンを実現するためのプログラム等を記憶したROM(Read Only Memory)、データを一時的に記憶するRAM(Random Access Memory)、記憶手段としてのメモリ、ネットワークインタフェース等を含んで構成されている。コンピュータ34は、機能的には、
図3に示すように、取得部36と、学習済みモデル記憶部37と、避難情報生成部38と、制御部40とを備えている。
【0054】
取得部36は、観測装置32によって逐次取得された観測情報を取得する。なお、例えば、観測情報がカメラによって撮像された画像等である場合、取得部36は、所定の画像処理によって、画像に写る人の位置及び動きを検出する。
【0055】
学習済みモデル記憶部37には、避難誘導モデル学習装置10の学習済みモデル記憶部26に格納された学習済みモデルと同一の学習済みモデルが格納されている。本実施形態の学習済みモデルは行動価値関数Q*(s,a)である。
【0056】
避難情報生成部38は、学習済みモデル記憶部37に格納された学習済みモデルとしての行動価値関数Q*(s,a)を読み出す。そして、避難情報生成部38は、取得部36によって取得された観測情報sを、行動価値関数Q*(s,a)へ入力して、災害が発生した際の避難指示aを生成する。なお、避難者は避難指示aに応じた行動をとるものとする。
【0057】
制御部40は、避難情報生成部38によって生成された避難情報に応じて、災害が発生した建物内に設置された複数の表示装置42を制御する。
【0058】
複数の表示装置42の各々は、
図4に示されるように、建物の各箇所に設置される。そして、複数の表示装置42の各々は、制御部40による制御に応じて各箇所個別に表示を変更させる。表示装置42に表示される内容は、例えば、避難指示に応じた避難方向を表す矢印又は避難指示に応じた文章(例えば、「右手方向は通行不可です。左手方向から避難してください。」)が表示される。これにより、災害が発生した際に人々を適切に避難誘導することができる。
【0059】
<避難誘導モデル学習装置の作用>
【0060】
次に、避難誘導モデル学習装置10の作用を説明する。避難誘導モデル学習装置10は、
図5の学習処理ルーチンを実行する。
【0061】
<学習処理ルーチン>
【0062】
仕様情報と条件情報とが避難誘導モデル学習装置10に入力され、受付部12が仕様情報と条件情報とを受け付けると、設定情報記憶部22に、仕様情報と条件情報とが格納される。そして、避難誘導モデル学習装置10は、学習処理の指示信号を受け付けると、
図5に示される学習処理ルーチンを実行する。
【0063】
ステップS100において、学習部24は、設定情報記憶部22に格納された仕様情報と条件情報とを読み込む。
【0064】
ステップS102において、学習部24は、上記ステップS100で読み込まれた条件情報のうちの災害発生条件情報に基づき、避難シミュレーションにおける災害発生条件を設定する。例えば、学習部24は、災害発生条件情報に基づき、建物内の火災が発生する場所及びその規模等を災害発生条件として設定する。
【0065】
ステップS104において、学習部24は、上記ステップS100で読み込まれた条件情報のうちの避難指示条件情報に基づき、避難シミュレーションにおける避難指示条件を設定する。例えば、ある場所で火災が発生した際には、被災者はその場所から離れるように避難指示が出されるような避難指示条件が設定される。避難シミュレーションにおいて、避難指示条件に応じた様々な避難指示が出され、その避難指示による被災者の行動と結果に基づき、後述する行動価値関数Q*(s,a)が学習される。
【0066】
ステップS106において、学習部24は、上記ステップS100で読み込まれた建物の仕様情報と、上記ステップS102で設定された災害発生条件と、上記ステップS104で設定された避難指示条件とに基づいて、学習用の建物において災害が発生した際の避難シミュレーションを実行する。
【0067】
ステップS108において、学習部24は、上記ステップS106で実行された避難シミュレーションのシミュレーション結果を記憶部(図示省略)に格納する。
【0068】
ステップS109において、学習部24は、上記ステップS108に格納されたシミュレーション結果に基づいて、報酬rtが大きくなるように、観測情報から避難経路に関する情報を出力するためのモデルを強化学習させ、学習済みモデルの一例である行動価値関数Q*(s,a)を得る。
【0069】
ステップS110において、学習部24は、所定回数の避難シミュレーションが実行されたか否かを判定する。所定回数の避難シミュレーションが実行された場合には、ステップS112へ進む。一方、所定回数の避難シミュレーションが実行さていない場合には、ステップS104へ戻る。これにより、避難指示条件に応じた避難指示のみが変更された避難シミュレーションが必要な回数実行される。
【0070】
ステップS112において、学習部24は、全ての災害発生条件の避難シミュレーションが実行されたか否かを判定する。全ての災害発生条件の避難シミュレーションが実行された場合には、ステップS114へ進む。一方、避難シミュレーションが実行さていない災害発生条件が存在する場合には、ステップS102へ戻る。これにより、災害の災害発生条件のみが変更された避難シミュレーションが実行され、想定される災害についての避難シミュレーションが実行される。
【0071】
ステップS114において、学習部24は、上記ステップS109で学習された、学習済みの行動価値関数Q*(s,a)を学習済みモデル記憶部26に格納して、学習処理ルーチンを終了する。
【0072】
<避難誘導装置の作用>
【0073】
次に、避難誘導装置30の作用を説明する。避難誘導装置30は、
図6の避難誘導処理ルーチンを実行する。
【0074】
<避難誘導処理ルーチン>
【0075】
避難誘導モデル学習装置10によって学習された学習済みの行動価値関数Q*(s,a)が避難誘導装置30へ入力されると、学習済みの行動価値関数Q*(s,a)は学習済みモデル記憶部37へ格納される。
【0076】
そして、避難誘導装置30が設置された建物内において災害が発生したことが検知されると、避難誘導装置30は、
図6に示す避難誘導処理ルーチンを実行する。避難誘導装置30は、観測装置32によって観測情報が得られる毎に、
図6に示す避難誘導処理ルーチンを実行する。
【0077】
ステップS200において、取得部36は、観測装置32によって取得された観測情報を取得する。観測情報は、被災した建物内の被災者の位置及び動き等である。
【0078】
ステップS202において、避難情報生成部38は、学習済みモデル記憶部37に格納された学習済みモデルとしての行動価値関数Q*(s,a)を読み出す。
【0079】
ステップS204において、避難情報生成部38は、上記ステップS200で取得された観測情報を、上記ステップS202で読み出された行動価値関数Q*(s,a)へ入力して、避難経路に関する情報である避難情報を生成する。具体的には、観測情報が行動価値関数Q*(s,a)へ入力されると、行動価値関数Q*(s,a)から避難情報の一例である避難指示が出力される。
【0080】
ステップS206において、制御部40は、避難情報生成部38によって生成された避難指示に応じて、災害が発生した建物内に設置された複数の表示装置42を制御して、避難誘導処理ルーチンを終了する。
【0081】
複数の表示装置42の各々は、制御部40による制御に応じて表示を変更させる。建物内の避難者は、複数の表示装置42の各々に表示された避難指示に従って避難する。
【0082】
以上詳細に説明したように、本実施形態の避難誘導装置は、災害が発生した際の人の位置又は動きを表す観測情報を、避難シミュレーションの災害における死者数、負傷者数、及び避難が完了するまでの時間に応じて設定された報酬を用いて予め強化学習された学習済みモデルへ入力して、災害が発生した際の避難経路に関する情報である避難情報を生成し、避難情報に応じて建物内に設置された表示装置を制御する。これにより、災害が発生した際の避難シミュレーション結果を考慮して、リスクを最小化するように避難者を避難させることができる。
【0083】
また、本実施形態の避難誘導モデル学習装置は、災害が発生した際の避難シミュレーションを実行し、当該シミュレーション結果に基づいて、避難シミュレーションの災害における死者数、負傷者数、及び避難が完了するまでの時間に応じて設定された報酬を用いて、災害が発生した際の人の位置又は動きを表す観測情報から災害が発生した際の避難経路に関する情報である避難情報を出力するためのモデルを強化学習させて、学習済みモデルを得る。これにより、災害が発生した場合に、リスクを最小化するように避難者を避難させるための学習済みモデルを取得することができる。
【0084】
また、本実施形態では、避難シミュレーションのシミュレーション結果を状態s,行動a,方策πという変数に変換した後、これらの3変数の関係性をモデルに学習させることで、避難指示を最適化することができる。すなわち、最適な避難指示の判定において、強化学習によって得られる学習済みモデルを利用することで、異なる手法や異なるモデルによるシミュレーション結果を並列的に考慮することができる。
【0085】
<第2実施形態>
【0086】
次に、第2実施形態について説明する。第2実施形態では、複数種類の避難シミュレーションを実行し、当該シミュレーション結果に基づいて学習済みモデルを得て、その学習済みモデルを用いて避難情報を取得する点が第1実施形態と異なる。なお、第2実施形態に係る各装置の構成は、第1実施形態と同様の構成となるため、同一符号を付して説明を省略する。
【0087】
第2実施形態では、異なる種類の避難シミュレーション(例えば、建物内を対象とした避難シミュレーション及び建物外の街区内を対象とした避難シミュレーション)を実行し、そのシミュレーション結果を学習済みモデルへ反映させる。
【0088】
第2実施形態では、建物単独を対象とした避難シミュレーション(建物内部から外への避難)である第1の避難シミュレーションと、建物の外における街区レベルの避難シミュレーション(建物の外の街区内での避難)である第2の避難シミュレーションとを想定する。例えば、第2実施形態では、
図7に示されるように、避難者Uは建物Axから外へ出て街区における避難も行う場合を想定する。なお、本実施形態においては、2つの異なる種類の避難シミュレーションを実行する場合を例に説明するが、2つよりも多い複数種類の避難シミュレーションを本実施形態へ適用することも可能である。
【0089】
第2実施形態の学習部24は、複数種類の避難シミュレーションを実行し、当該シミュレーション結果に基づいて、観測情報から避難情報を出力するためのモデルを強化学習させて、学習済みモデルの一例である行動価値関数Q*(s,a)を得る。
【0090】
具体的には、第2実施形態においては、災害が発生したときの建物の内部の状態をs0とし、建物から外への避難に関する方策をπ1とし、建物から外への避難指示をa1とする。なお、避難者は避難指示a1に応じた行動をとるものとする。
【0091】
また、建物から外への避難が完了したときの状態をs1とし、建物の外の街区における避難に関する方策をπ2とし、建物の外の街区における避難に関する行動をa2とし、建物の外の街区における避難が完了したときの状況をs2とする。
【0092】
この場合、上記の変数間の関係は、状態s0に対して方策π1を適用することで避難指示a1が出され、避難者が避難指示a1に応じた避難行動をとり、その結果として建物からの避難が完了した時点の状態がs1となる。そして、この状態s1に対して方策π2を適用することで避難指示a2が出され、避難者が避難指示a2に応じた避難行動をとり、その結果として避難所等への避難が完了したときの状態がs2となる。
【0093】
Q-Learningにおいては、学習のためには状態s
1に応じた報酬r
1と、状態s
2に応じた報酬r
2とを算出する必要がある。これらの変数間の関係は
図8のようになる。
【0094】
本実施形態においては、最終的な状態s2の時点における報酬r2を最大化させる避難指示の方法を、強化学習によって学習済みモデルの一例である行動価値関数Q*(s,a)へ反映させることが目的となる。なお、報酬r1及び報酬r2は、上記式(5)に示されるように、死者数D、負傷者数I、及び避難時間T等に基づく関数として設定される。
【0095】
第2の避難シミュレーションである街区レベルの避難シミュレーションでは、シミュレーション結果から避難の状態s2が算出される。このため、第2の避難シミュレーションのシミュレーション結果に基づいて、報酬r2を最大化するように、避難指示を出力する行動価値関数Q*(s,a)を得ることができる。
【0096】
一方、第1の避難シミュレーションである建物内の避難シミュレーションのシミュレーション結果のみでは、避難の状態s1しか算出されない。このため、第1の避難シミュレーションによって報酬r1を算出することはできても、報酬r2を直接算出することはできない。
【0097】
このため、例えば、第1の避難シミュレーションのシミュレーション結果に基づき報酬r1を用いて強化学習を行い、建物内から外への避難指示をモデルに学習させた場合には、建物から外への避難が完了するまでを最適化するような行動価値関数Q*(s,a)が得られるが、この行動価値関数Q*(s,a)は、報酬r2を最大化するような避難指示を必ずしも出力するわけではない。
【0098】
例えば、西側と東側とに出口を有する建物であって、かつ西側の出口の方が東側の出口口よりも広い建物を想定する。また、この建物の東側には避難所となる公園が存在すると想定する。この場合、建物から外へ避難するのみにおいては、西側の出口を利用した方が好ましい。しかし、建物から避難所まで避難することを考慮すると、建物の東口の出口を利用した方がより好ましいと考えられる。このような場合、第1の避難シミュレーションのシミュレーション結果のみに基づいて強化学習を行い、行動価値関数Q*(s,a)を得ることは不適切である。
【0099】
このため、報酬r2に基づいて、第1の避難シミュレーションにおける避難指示を強化学習させる手法が必要となる。そこで、本実施形態では、第1の避難シミュレーションにおける報酬r1と第2の避難シミュレーションにおける報酬r2とを尤度関数によって関係付けることにより、観測情報から避難情報を出力するためのモデルを強化学習させる。
【0100】
具体的には、まず、学習部24は、様々な避難の状態s1を初期条件として設定し、設定された各初期条件に基づき第2の避難シミュレーションを行う。そして、学習部24は、設定された各初期条件に基づき第2の避難シミュレーションによって得られた避難の状態s2を取得する。
【0101】
次に、学習部24は、第2の避難シミュレーションによって得られた避難の状態s2に応じた報酬r2に基づいて強化学習を行い、行動価値関数Q*(s,a)を得る。
【0102】
次に、学習部24は、第2の避難シミュレーションによって得られた避難の状態s1及び避難の状態s2に基づいて、報酬r1と報酬r2とを算出する。そして、学習部24は、算出された報酬r1と報酬r2とを対応付ける。
【0103】
次に、学習部24は、対応付けられた報酬r1と報酬r2とを用いて、報酬r2に対する報酬r1の尤度L(r1|r2)を算出する。尤度L(r1|r2)は、報酬r2が観測されたときの報酬r1の尤もらしさを表す指標である。この尤度L(r1|r2)によって、報酬r1と報酬r2とは、以下の式(6)に示されるような関係となる。
【0104】
P(r2)=P(r1)×L(r1|r2)
(6)
【0105】
なお、上記式(6)における、P(r2)は報酬がr2となる確率を表し、P(r1)は報酬がr1となる確率を表す。
【0106】
次に、学習部24は、尤度L(r1|r2)を算出した後、避難の状態s0を初期条件として、第1の避難シミュレーションを実行し、シミュレーション結果を得る。
【0107】
次に、学習部24は、第1の避難シミュレーションのシミュレーション結果に基づいて、報酬r1を算出する。そして、学習部24は、第1の避難シミュレーションのシミュレーション結果から算出された報酬r1に対してL(r1|r2)を乗じることにより、報酬r2の確率分布を算出し、報酬r2の期待値を最大化するように、第2の避難シミュレーションの結果によって既に強化学習された行動価値関数Q*(s,a)を更に強化学習させ、行動価値関数Q*(s,a)を得る。
【0108】
第2実施形態の避難情報生成部38は、取得部36によって取得された観測情報sを、第2実施形態の学習部24によって学習された行動価値関数Q*(s,a)へ入力して、災害が発生した際の避難指示aを生成する。
【0109】
<避難誘導モデル学習装置の作用>
【0110】
次に、第2実施形態の避難誘導モデル学習装置10の作用を説明する。第2実施形態の避難誘導モデル学習装置10は、
図9及び
図10の学習処理ルーチンを実行する。
【0111】
<学習処理ルーチン>
【0112】
仕様情報と条件情報とが避難誘導モデル学習装置10に入力され、受付部12が仕様情報と条件情報とを受け付けると、設定情報記憶部22に、仕様情報と条件情報とが格納される。そして、第2実施形態の避難誘導モデル学習装置10は、学習処理の指示信号を受け付けると、
図9及び
図10に示される学習処理ルーチンを実行する。
【0113】
ステップS100~ステップS104は、第1実施形態と同様に実行される。
【0114】
ステップS306において、学習部24は、上記ステップS100で読み込まれた建物の仕様情報と、上記ステップS102で設定された災害発生条件と、上記ステップS104で設定された避難指示条件とに基づいて、街区レベルの避難シミュレーションである第2の避難シミュレーションを実行する。
【0115】
ステップS308において、学習部24は、上記ステップS306で実行された第2の避難シミュレーションのシミュレーション結果を記憶部(図示省略)に格納する。
【0116】
ステップS309において、学習部24は、上記ステップS308で第2の避難シミュレーションによって得られた結果である避難の状態s2に応じた報酬r2に基づいて、モデルを強化学習させ、行動価値関数Q*(s,a)を得る。
【0117】
ステップS110~ステップS112は、第1実施形態と同様に実行される。
【0118】
次に、
図10に示すステップS316において、学習部24は、上記ステップS308で記憶された、第2の避難シミュレーションによって得られた避難の状態s
1及び避難の状態s
2に基づいて、報酬r
1と報酬r
2とを算出する。そして、学習部24は、上記ステップS316で算出された報酬r
1の各々と報酬r
2の各々とを対応付ける。
【0119】
ステップS318において、学習部24は、上記ステップS316で対応付けられた報酬r1の各々と報酬r2の各々とを用いて、各報酬r2に対する各報酬r1の尤度L(r1|r2)を算出する。
【0120】
ステップS320は、上記ステップS102と同様に実行される。
【0121】
ステップS322は、上記ステップS104と同様に実行される。
【0122】
ステップS324において、学習部24は、避難の状態s0を初期条件として、第1の避難シミュレーションを実行し、シミュレーション結果を得る。
【0123】
ステップS326において、学習部24は、第1の避難シミュレーションのシミュレーション結果を記憶部(図示省略)に格納する。
【0124】
ステップS327において、学習部24は、上記ステップS326で記憶部(図示省略)に格納された、第1の避難シミュレーションのシミュレーション結果から算出された報酬r1に対してL(r1|r2)を乗じる。そして、学習部24は、上記式(6)に従って、報酬r2の確率分布を算出し、報酬r2の期待値を最大化するように、第2の避難シミュレーションの結果によって既に強化学習された行動価値関数Q*(s,a)を更に強化学習させ、行動価値関数Q*(s,a)を得る。
【0125】
ステップS328において、上記ステップS110と同様に実行される。
【0126】
ステップS330において、上記ステップS112と同様に実行される。
【0127】
ステップS332において、学習部24は、上記ステップS327で得られた行動価値関数Q*(s,a)を学習済みモデル記憶部26へ格納して、学習処理ルーチンを終了する。
【0128】
以上詳細に説明したように、第2実施形態の避難誘導モデル学習装置は、複数種類の避難シミュレーションを実行し、当該シミュレーション結果に基づいて、学習済みモデルを得る。これにより、複数の避難シミュレーションを考慮して、災害が発生した場合に被災者のリスクを最小化するように避難させるための学習済みモデルを取得することができる。
【0129】
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【0130】
例えば、上記実施形態では、避難情報出力装置が表示装置42である場合を例に説明したが、これに限定されるものではない。例えば、避難情報出力装置は、音声出力装置であってもよく、この場合には、避難指示が音声によって出力される。また、避難情報出力装置は、各避難者が保有しているスマートフォン等の端末であってもよい。
【0131】
また、上記では本発明に係るプログラムが記憶部(図示省略)に予め記憶(インストール)されている態様を説明したが、本発明に係るプログラムは、CD-ROM、DVD-ROM及びマイクロSDカード等の記録媒体に記録されている形態で提供することも可能である。
【符号の説明】
【0132】
10 避難誘導モデル学習装置
12 受付部
20 コンピュータ
22 設定情報記憶部
24 学習部
26 学習済みモデル記憶部
30 避難誘導装置
32 観測装置
34 コンピュータ
36 取得部
37 学習済みモデル記憶部
38 避難情報生成部
40 制御部
42 表示装置