特許7415293 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社竹中工務店の特許一覧

特許7415293避難誘導装置及び避難誘導モデル学習装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-01-09

(45)【発行日】2024-01-17

(54)【発明の名称】避難誘導装置及び避難誘導モデル学習装置

(51)【国際特許分類】

G06Q 50/10 20120101AFI20240110BHJP

【ＦＩ】

G06Q50/10

【請求項の数】 4

(21)【出願番号】P 2019169638

(22)【出願日】2019-09-18

(65)【公開番号】P2021047625

(43)【公開日】2021-03-25

【審査請求日】2022-06-23

(73)【特許権者】

【識別番号】000003621

【氏名又は名称】株式会社竹中工務店

(74)【代理人】

【識別番号】100084995

【弁理士】

【氏名又は名称】加藤和詳

(74)【代理人】

【識別番号】100099025

【弁理士】

【氏名又は名称】福田浩志

(72)【発明者】

【氏名】大渕正博

(72)【発明者】

【氏名】恒川裕史

【審査官】毛利太郎

(56)【参考文献】

【文献】特開２０１６－２２４７５５（ＪＰ，Ａ）

【文献】特開２００５－３３８９９１（ＪＰ，Ａ）

【文献】特開２００２－２８８３８６（ＪＰ，Ａ）

【文献】新井康平 Kohei ARAI，学習オートマトンを伴う競合学習・強化学習オンラインクラスタリングによる収束性能の向上および避難誘導システムへの応用 An Improvement of the Convergence Performance for the Online Clustering Based on Pursuit Reinforcement Guided Competitive Learning: PRCL and Its Application to Evacuation Simulation，画像電子学会誌第４０巻第２号 The Journal of the Institute of Image Electronics Engineers of Japan，日本，一般社団法人画像電子学会 The Institute of Image Electronics Engineers of Japan，2011年03月25日，第40巻，p.361-368

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｑ１０／００－９９／００

(57)【特許請求の範囲】

【請求項1】

災害が発生した際の人の位置又は動きを表す観測情報を取得する取得部と、
前記取得部によって取得された前記観測情報を、災害が発生した際の避難シミュレーションの結果に基づき、前記避難シミュレーションの災害における死者数、負傷者数、及び避難が完了するまでの時間に応じて設定された報酬を用いて予め強化学習された学習済みモデルへ入力して、前記災害が発生した際の避難経路に関する情報である避難情報を生成する避難情報生成部と、
前記避難情報生成部によって生成された前記避難情報に応じて、避難情報出力装置を制御する制御部と、
を含み、
前記学習済みモデルは、建物内を対象とした第１の避難シミュレーションの結果と、建物外の街区内を対象とした第２の避難シミュレーションの結果とに応じて予め強化学習された学習済みモデルである、
避難誘導装置。

【請求項2】

前記強化学習が実行される際には、
前記第１の避難シミュレーションにおける報酬ｒ _１と第２の避難シミュレーションにおける報酬ｒ _２とを、報酬ｒ _２が観測されたときの報酬ｒ _１の尤もらしさを表す尤度関数Ｌ（ｒ _１｜ｒ _２）によって関係付け、
以下の式（１）に示されているように、前記第１の避難シミュレーションの結果から算出された報酬ｒ _１の確率分布Ｐ（ｒ _１）に対して前記尤度関数Ｌ（ｒ _１｜ｒ _２）を乗じることにより、報酬ｒ _２の確率分布Ｐ（ｒ _２）を算出し、
Ｐ（ｒ _２）＝Ｐ（ｒ _１）×Ｌ（ｒ _１｜ｒ _２）
（１）
報酬ｒ _２の期待値が最大化するように前記学習済みモデルを強化学習させる、
請求項１に記載の避難誘導装置。

【請求項3】

災害が発生した際の避難シミュレーションを実行し、前記避難シミュレーションの結果に基づいて、前記避難シミュレーションの災害における死者数、負傷者数、及び避難が完了するまでの時間に応じて設定された報酬を用いて、災害が発生した際の人の位置又は動きを表す観測情報から前記災害が発生した際の避難経路に関する情報を出力するためのモデルを強化学習させて、前記観測情報から前記避難経路に関する情報を出力する学習済みモデルを得る学習部と、
を含み、
前記学習部は、建物内を対象とした第１の避難シミュレーションの結果と、建物外の街区内を対象とした第２の避難シミュレーションの結果とに応じて前記モデルを強化学習させることにより、前記学習済みモデルを得る、
避難誘導モデル学習装置。

【請求項4】

前記学習部は、前記強化学習を実行する際に、
前記第１の避難シミュレーションにおける報酬ｒ _１と第２の避難シミュレーションにおける報酬ｒ _２とを、報酬ｒ _２が観測されたときの報酬ｒ _１の尤もらしさを表す尤度関数Ｌ（ｒ _１｜ｒ _２）によって関係付け、
以下の式（１）に示されているように、前記第１の避難シミュレーションの結果から算出された報酬ｒ _１の確率分布Ｐ（ｒ _１）に対して前記尤度関数Ｌ（ｒ _１｜ｒ _２）を乗じることにより、報酬ｒ _２の確率分布Ｐ（ｒ _２）を算出し、
Ｐ（ｒ _２）＝Ｐ（ｒ _１）×Ｌ（ｒ _１｜ｒ _２）
（１）
報酬ｒ _２の期待値が最大化するように前記学習済みモデルを強化学習させる、
請求項３に記載の避難誘導モデル学習装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、避難誘導装置及び避難誘導モデル学習装置に関する。

【背景技術】

【0002】

従来、避難シミュレーションシステムが知られている（例えば、特許文献１）。この避難シミュレーションシステムは、マルチエージェントシミュレーション技術を用いて高層建造物における災害避難方法をシミュレーションする。この避難シミュレーションシステムは、避難者個人を一個の行動単位としてモデル化して避難行動中の各個人の状態を逐次再現するというアプローチをとることにより、避難中の任意の時点における避難状況を追跡することで、安全な避難を妨げるボトルネックを容易に特定して改善施策の検討を行うためのものである。

【0003】

また、被災したところを避けた避難ルートを出力する避難ルート出力装置が知られている（例えば、特許文献２）。この避難ルート出力装置は、災害時において避難場所まで安全に行くことができるルートを生成する。

【0004】

また、災害の状況に応じて迅速かつ適切に避難計画を策定できる避難シミュレーション装置が知られている（例えば、特許文献３）。この避難シミュレーション装置は、避難者の密度に基づいて経路の流動を計算し、避難完了時間が最短となる最適避難経路候補を複数導出する。そして、避難シミュレーション装置は、マルチエージェント法により避難者の行動を計算し、複数の最適避難経路候補から、避難完了時間が最短となる最適避難経路を選択する。

【先行技術文献】

【特許文献】

【0005】

【文献】特許第5372421号公報

【文献】特許第5686479号公報

【文献】特許第5996689号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

災害が発生した際に建物内の人に対して避難誘導を行う場合には、避難経路の提示を適切に行う必要がある。また、その避難経路の提示には迅速性が求められる。

【0007】

しかし、上記特許文献１の技術は、安全な避難を妨げるボトルネックを容易に特定して改善施策の検討を行うためのものであり、計画対象の建物を評価する際に用いられる技術である。

【0008】

また、上記特許文献２の技術は、災害が発生した際に被災したところを避けた避難ルートを出力するものである。しかし、実際に災害が発生した場合には、被災した箇所以外の様々な状況を考慮する必要がある。例えば、避難する人の動き等を考慮する必要がある。

【0009】

また、上記特許文献３に記載されている技術は、実際の災害の状況に応じてシミュレーションを行うが、当該シミュレーションを実行する際には時間がかかり、迅速性という観点からは適切ではない。

【0010】

本発明は上記事実に鑑みて、災害が発生した際の避難シミュレーション結果を考慮して、リスクを最小化するように避難者を避難させることを目的とする。

【課題を解決するための手段】

【0011】

上記目的を達成するために、本発明の避難誘導装置は、災害が発生した際の人の位置又は動きを表す観測情報を取得する取得部と、前記取得部によって取得された前記観測情報を、災害が発生した際の避難シミュレーションの結果に基づき、前記避難シミュレーションの災害における死者数、負傷者数、及び避難が完了するまでの時間に応じて設定された報酬を用いて予め強化学習された学習済みモデルへ入力して、前記災害が発生した際の避難経路に関する情報である避難情報を生成する避難情報生成部と、前記避難情報生成部によって生成された前記避難情報に応じて、避難情報出力装置を制御する制御部と、を含む避難誘導装置である。本発明の避難誘導装置によれば、災害が発生した際の避難シミュレーション結果を考慮して、リスクを最小化するように避難者を避難させることができる。

【0012】

本発明の前記学習済みモデルは、複数種類の前記避難シミュレーションの結果に応じて予め前記強化学習された学習済みモデルであるようにすることができる。これにより、複数種類の避難シミュレーション結果を考慮して、リスクを最小化するように避難者を避難させることができる。

【0013】

本発明の避難誘導モデル学習装置は、災害が発生した際の避難シミュレーションを実行し、前記避難シミュレーション結果に基づいて、前記避難シミュレーションの災害における死者数、負傷者数、及び避難が完了するまでの時間に応じて設定された報酬を用いて、災害が発生した際の人の位置又は動きを表す観測情報から前記災害が発生した際の避難経路に関する情報を出力するためのモデルを強化学習させて、前記観測情報から前記避難経路に関する情報を出力する学習済みモデルを得る学習部と、を含む避難誘導モデル学習装置である。本発明の避難誘導モデル学習装置によれば、災害が発生した場合に、リスクを最小化させるように避難者を避難させるための学習済みモデルを取得することができる。

【0014】

本発明の前記学習部は、複数種類の前記避難シミュレーションを実行し、前記避難シミュレーション結果に基づいて、前記学習済みモデルを得るようにすることができる。これにより、複数種類の避難シミュレーションを考慮して、災害が発生した場合にリスクを最小化するように避難者を避難させるための学習済みモデルを取得することができる。

【発明の効果】

【0015】

本発明によれば、災害が発生した際の避難シミュレーション結果を考慮して、リスクを最小化するように避難者を避難させることができる、という効果が得られる。

【図面の簡単な説明】

【0016】

【図1】本実施形態に係る避難誘導モデル学習装置の概略構成を示すブロック図である。

【図2】避難シミュレーションのシミュレーション結果と報酬との関係を説明するための説明図である。

【図3】本実施形態に係る避難誘導装置の概略構成を示すブロック図である。

【図4】表示装置の建物内の設置イメージの一例を示す図である。

【図5】第１実施形態の学習処理ルーチンの一例を示す図である。

【図6】本実施形態の避難誘導処理ルーチンの一例を示す図である。

【図7】第２実施形態に係る建物内の避難と街区の避難とを説明するための説明図である。

【図8】第２実施形態の変数間の関係を説明するための説明図である。

【図9】第２実施形態の学習処理ルーチンの一例を示す図である。

【図10】第２実施形態の学習処理ルーチンの一例を示す図である。

【発明を実施するための形態】

【0017】

＜本実施形態の概要＞

【0018】

建物内に人が存在する際に災害が発生した場合、建物から避難する際には、被災者自身が避難経路を比較し、最適と考えられる経路を選択することになる。ここで、被災者の判断の良否は、災害に関する知識や入手できる情報によって影響されるため、状況によっては危険な避難経路を選択する場合がある。

【0019】

このような背景のため、避難シミュレーションを活用した避難指示の提示手法（例えば、特許第5996689号公報を参照）が提案されているが、従来の技術は避難シミュレーションの結果（出力）が最適になるように、避難指示という入力パラメタを同定する手法である。このため、複数の手法や複数のモデルによるシミュレーション結果を並列的に考慮して避難指示を最適化することは、手法及びモデルの数が増えるにつれ、同定が困難となる。

【0020】

一方、機械学習によって得られる学習済みモデルは、シミュレーションの入力と出力との間の関係性を学習した上で、最適な入力を選定することができる。そのため、異なる種類の避難シミュレーションであっても、同じ項目の入力及び出力がある避難シミュレーションであれば、併用することが容易である。

【0021】

そこで、本実施形態では、避難指示の判定において、機械学習によって得られる学習済みモデルを活用することで複数の避難シミュレーションの併用を可能にした手法を提案する。本実施形態によれば、複数の避難シミュレーションのシミュレーション結果を考慮することができるとともに、リスクを最小化するように避難者を避難させることができる。

【0022】

以下、本発明の実施形態について詳細に説明する。

【0023】

＜第１実施形態＞

【0024】

＜避難誘導モデル学習装置のシステム構成＞

【0025】

図１は、本発明の第１実施形態に係る避難誘導モデル学習装置１０の構成の一例を示すブロック図である。避難誘導モデル学習装置１０は、機能的には、図１に示されるように、受付部１２と、コンピュータ２０とを含んだ構成で表すことができる。

【0026】

受付部１２は、ユーザから入力された情報を受け付ける。受付部１２は、例えばキーボードやマウス等によって実現される。受付部１２は、避難シミュレーションを実行する対象の仮想的な学習用の建物の仕様を表す仕様情報を受け付ける。学習用の建物とは、後述する学習部２４においてシミュレーションに用いられるコンピュータ上の仮想的な建物である。仕様情報には、例えば、学習用の建物内の部屋の配置に関する情報、学習用の建物の構造種別を表す情報、学習用の建物の材料を表す情報、学習用の建物の階数に関する情報、及び学習用の建物の設備に関する情報等が含まれている。

【0027】

また、受付部１２は、避難シミュレーションを実行する際の各種条件に関する情報である条件情報を受け付ける。条件情報には、避難シミュレーションにおける仮想的な災害の発生条件に関する情報である災害発生条件情報と、仮想的な災害が発生した際の建物内の仮想的な人に対する避難指示条件に関する情報である避難指示条件情報とが含まれている。また、条件情報には、仮想的な避難者の配置状況に関する情報が含まれている。

【0028】

設定情報記憶部２２には、受付部１２により受け付けられた仕様情報と、条件情報とが格納される。設定情報記憶部２２に格納された、仕様情報及び条件情報に応じて、後述する学習部２４において避難シミュレーションが実行される。

【0029】

学習部２４は、設定情報記憶部２２に格納された仕様情報と条件情報とに基づいて、学習用の建物において災害が発生した際の避難シミュレーションを実行する。なお、避難シミュレーションの実行されているときの、各時刻の仮想的な人の位置及び動きは、所定の記憶領域（図示省略）に逐次記録される。本実施形態において用いる避難シミュレーションは、既存の避難シミュレーションと同様のものであり、従来の技術（例えば、特許第5372421号公報に記載の技術）を利用する。また、避難シミュレーションの回数は、従来の強化学習と同様に設定することができる。

【0030】

そして、学習部２４は、当該シミュレーション結果に基づいて、災害が発生した際の建物内の人の位置又は動きを表す観測情報から災害が発生した際の避難経路に関する情報である避難情報を出力するためのモデルを強化学習させる。学習部２４によるモデルの強化学習によって、どのような被災状況及び避難者の位置ではどのような避難指示を出せば良いかが学習される。

【0031】

以下、強化学習に関して説明する。強化学習は、環境の中での試行錯誤を通じて最適な行動を学習する手法である。強化学習において、教師データの代わりになるのが報酬である。累積報酬Ｒ_ｔは、報酬の割引率をγ、各局面での報酬をｒ_{ｔ＋ｋ＋１}として、以下の式（１）に示されるように定義される。なお、ｔは時刻を表す。

【0032】

【数1】

（１）

【0033】

なお、方策πの下で、状態ｓにおいて行動ａを選択することの価値は、以下の式（２）に示される行動価値関数Ｑ^π（ｓ，ａ）によって表される。なお、Ｅ_π｛・｝は期待値を表す。

【0034】

【数2】

（２）

【0035】

上記式（２）に示される行動価値関数Ｑ^π（ｓ，ａ）を用いて、価値が最も高くなるような行動ａが選択される。最適な行動価値関数Ｑ^＊は、以下の式（３）によって表される。

【0036】

【数3】

（３）

【0037】

行動価値関数Ｑ^＊（ｓ，ａ）を学習する方法としては、Q-Learning（例えば、公知文献（Watkins, C.J.C.H., "Learning from Delayed Rewards", 1989）が挙げられる。Q-Learningは、以下の式（４）に示されるように、逐次Ｑ値を更新しながら学習する。なお、αは予め設定される定数である。本実施形態においては、以下の式（４）に示されるQ-Learningによって行動価値関数を強化学習させる。

【0038】

【数4】

（４）

【0039】

本実施形態では、災害状況及び被災者の位置等を状態ｓとし、その状態ｓと方策πとに応じた避難指示を行動ａとし、その避難指示ａが表示された表示装置を見た被災者が避難を行うものとする。Q-Learningによって学習が行われた学習済みモデルは、行動価値関数Ｑが最適となるよう、方策πに応じた避難指示ａを選定することができるようになる。

【0040】

本実施形態の学習部２４は、死傷者数及び避難経路の時間に基づくリスク評価結果に基づき、避難シミュレーションの災害における死者数Ｄ、負傷者数Ｉ、及び避難が完了するまでの時間Ｔに応じて設定された報酬ｒ_ｔを用いて、観測情報から避難経路に関する情報を出力するためのモデルを強化学習させる。具体的には、本実施形態においては、以下の式（５）に示される報酬ｒ_ｔを設定する。

【0041】

【数5】

（５）

【0042】

上記式（５）におけるＤは死者数を表し、Ｉは負傷者数を表す。また、Ｔは避難が完了するまでの時間である。Ｃ_ｄは死者１人あたりに対する損失を表す係数であり、Ｃ_ｉは負傷者１人あたりに対する損失を表す係数、Ｃ_ｔは避難時間と損失とを関係付ける係数である。Ｃ_ｄ、Ｃ_ｉ、及びＣ_ｔは、予め設定される。

【0043】

図２に、避難シミュレーションのシミュレーション結果と報酬との関係を説明するための説明図を示す。図２に示されるように、建物内に複数の避難者Ｕが存在している場合、災害の一例である火災Ｆが発生した場合の避難シミュレーションを実行したとする。この場合、避難指示Ａが出された場合には、避難時間がＸ１分であり、死者がＹ１人であり、負傷者がＺ１人であり、報酬は高いことが示されている。また、避難指示Ｂが出された場合には、避難時間がＸ２分であり、死者がＹ２人であり、負傷者がＺ２人であり、報酬は中程度であることが示されている。また、避難指示Ｃが出された場合には、避難時間がＸ３分であり、死者がＹ３人であり、負傷者がＺ３人であり、報酬は低いことが示されている。このように、シミュレーション結果と報酬とが紐付けられるため、本実施形態では、シミュレーション結果に応じた報酬に基づいて、観測情報から避難情報を出力するためのモデルを強化学習させる。

【0044】

具体的には、学習部２４は、上記式（５）に示される報酬ｒ_ｔが大きくなるように、観測情報から避難情報を出力するためのモデルを強化学習させ、学習済みモデルの一例である行動価値関数Ｑ^*（ｓ，ａ）を得る。なお、状態ｓを表す観測情報が行動価値関数Ｑ^*（ｓ，ａ）へ入力されると、その観測情報に応じた行動ａを表す避難指示が避難情報の一例として出力される。

【0045】

なお、観測情報から避難情報を出力するための行動価値関数のモデルとしては、どのような関数を用いてもよい。例えば、行動価値関数のモデルとしてニューラルネットワークモデルを用いることができる。または、状態ｓを表す観測情報と行動ａを表す避難指示とが対応付けられたテーブル（Ｑテーブルとも称される。）を用いても良い。

【0046】

学習済みモデル記憶部２６には、学習部２４によって学習された学習済みモデルの一例である行動価値関数Ｑ^*（ｓ，ａ）が格納される。なお、行動価値関数Ｑ^*（ｓ，ａ）は、後述する避難誘導装置において用いられ、各時刻において観測情報が行動価値関数Ｑ^*（ｓ，ａ）へ入力されると、避難情報の一例である避難指示が表示装置へ表示される。

【0047】

従来のシミュレーションによる災害発生時の避難指示の最適化は、結果が最適となるように避難指示という入力パラメタを同定する手法である。このため、複数の手法や複数のモデルによるシミュレーション結果を並列的に考慮して避難指示を最適化する場合、手法やモデルの数が増えるにつれて同定が困難となる。

【0048】

一方、本実施形態では、避難シミュレーションのシミュレーション結果を、状態ｓ及び行動ａという変数に変換した後、最適な方策πを選定する手法である。このため、異なる手法や異なるモデルのシミュレーション結果であっても、共通な状態ｓ及び共通な行動ａに変換できるのであれば、枠組みを変えることなく最適な方策πを選定することが可能である。これにより、例えば個々の建物を対象とした避難シミュレーションと、地域を対象とした河川氾濫からの避難シミュレーションのように、全く異なるシミュレーション結果を並列的に組み合わせ、最適な避難指示を評価することが可能になる。

【0049】

＜避難誘導装置のシステム構成＞

【0050】

図３は、本発明の実施形態に係る避難誘導装置３０の構成の一例を示すブロック図である。避難誘導装置３０は、機能的には、図３に示されるように、観測装置３２と、コンピュータ３４と、複数の表示装置４２とを含んだ構成で表すことができる。表示装置４２は、本発明の避難情報出力装置の一例である。

【0051】

避難誘導装置３０の観測装置３２及び複数の表示装置４２は、学習用の建物と同等の対象の建物内に設置される。例えば、対象の建物は、仮想的な学習用の建物の設計図に基づき建設された建物である。そして、災害が発生した際に、避難誘導装置３０は、建物内に設置された観測装置３２により逐次観測される情報に基づいて、建物内に設置された複数の表示装置４２の表示を制御し、建物内の人の避難を誘導する。以下、具体的に説明する。

【0052】

観測装置３２は、建物内に設置され、災害が発生した際の建物内の人の位置又は動きを表す観測情報を逐次取得する。また、観測装置３２としては、例えば、人が携帯している携帯端末等、グローバル・ポジショニング・システム（GPS）機能を有する端末を利用することができる。また、建物内の避難誘導の場合には、建物内に設置されたカメラによる画像データから人の動きを判断するシステム（例えば、構造計画研究所によるVitracom Site Viewや、産業技術総合研究所によるCrowd Walk等）を利用することができる。また、観測装置３２は、災害状況（例えば、火災の広がり具合及び地震による建物の崩壊度合い等）も併せて観測するようにしてもよい。

【0053】

コンピュータ３４は、ＣＰＵ（Central Processing Unit）、各処理ルーチンを実現するためのプログラム等を記憶したＲＯＭ（Read Only Memory）、データを一時的に記憶するＲＡＭ（Random Access Memory）、記憶手段としてのメモリ、ネットワークインタフェース等を含んで構成されている。コンピュータ３４は、機能的には、図３に示すように、取得部３６と、学習済みモデル記憶部３７と、避難情報生成部３８と、制御部４０とを備えている。

【0054】

取得部３６は、観測装置３２によって逐次取得された観測情報を取得する。なお、例えば、観測情報がカメラによって撮像された画像等である場合、取得部３６は、所定の画像処理によって、画像に写る人の位置及び動きを検出する。

【0055】

学習済みモデル記憶部３７には、避難誘導モデル学習装置１０の学習済みモデル記憶部２６に格納された学習済みモデルと同一の学習済みモデルが格納されている。本実施形態の学習済みモデルは行動価値関数Ｑ^*（ｓ，ａ）である。

【0056】

避難情報生成部３８は、学習済みモデル記憶部３７に格納された学習済みモデルとしての行動価値関数Ｑ^*（ｓ，ａ）を読み出す。そして、避難情報生成部３８は、取得部３６によって取得された観測情報ｓを、行動価値関数Ｑ^*（ｓ，ａ）へ入力して、災害が発生した際の避難指示ａを生成する。なお、避難者は避難指示ａに応じた行動をとるものとする。

【0057】

制御部４０は、避難情報生成部３８によって生成された避難情報に応じて、災害が発生した建物内に設置された複数の表示装置４２を制御する。

【0058】

複数の表示装置４２の各々は、図４に示されるように、建物の各箇所に設置される。そして、複数の表示装置４２の各々は、制御部４０による制御に応じて各箇所個別に表示を変更させる。表示装置４２に表示される内容は、例えば、避難指示に応じた避難方向を表す矢印又は避難指示に応じた文章（例えば、「右手方向は通行不可です。左手方向から避難してください。」）が表示される。これにより、災害が発生した際に人々を適切に避難誘導することができる。

【0059】

＜避難誘導モデル学習装置の作用＞

【0060】

次に、避難誘導モデル学習装置１０の作用を説明する。避難誘導モデル学習装置１０は、図５の学習処理ルーチンを実行する。

【0061】

＜学習処理ルーチン＞

【0062】

仕様情報と条件情報とが避難誘導モデル学習装置１０に入力され、受付部１２が仕様情報と条件情報とを受け付けると、設定情報記憶部２２に、仕様情報と条件情報とが格納される。そして、避難誘導モデル学習装置１０は、学習処理の指示信号を受け付けると、図５に示される学習処理ルーチンを実行する。

【0063】

ステップＳ１００において、学習部２４は、設定情報記憶部２２に格納された仕様情報と条件情報とを読み込む。

【0064】

ステップＳ１０２において、学習部２４は、上記ステップＳ１００で読み込まれた条件情報のうちの災害発生条件情報に基づき、避難シミュレーションにおける災害発生条件を設定する。例えば、学習部２４は、災害発生条件情報に基づき、建物内の火災が発生する場所及びその規模等を災害発生条件として設定する。

【0065】

ステップＳ１０４において、学習部２４は、上記ステップＳ１００で読み込まれた条件情報のうちの避難指示条件情報に基づき、避難シミュレーションにおける避難指示条件を設定する。例えば、ある場所で火災が発生した際には、被災者はその場所から離れるように避難指示が出されるような避難指示条件が設定される。避難シミュレーションにおいて、避難指示条件に応じた様々な避難指示が出され、その避難指示による被災者の行動と結果に基づき、後述する行動価値関数Ｑ^*（ｓ，ａ）が学習される。

【0066】

ステップＳ１０６において、学習部２４は、上記ステップＳ１００で読み込まれた建物の仕様情報と、上記ステップＳ１０２で設定された災害発生条件と、上記ステップＳ１０４で設定された避難指示条件とに基づいて、学習用の建物において災害が発生した際の避難シミュレーションを実行する。

【0067】

ステップＳ１０８において、学習部２４は、上記ステップＳ１０６で実行された避難シミュレーションのシミュレーション結果を記憶部（図示省略）に格納する。

【0068】

ステップＳ１０９において、学習部２４は、上記ステップＳ１０８に格納されたシミュレーション結果に基づいて、報酬ｒ_ｔが大きくなるように、観測情報から避難経路に関する情報を出力するためのモデルを強化学習させ、学習済みモデルの一例である行動価値関数Ｑ^*（ｓ，ａ）を得る。

【0069】

ステップＳ１１０において、学習部２４は、所定回数の避難シミュレーションが実行されたか否かを判定する。所定回数の避難シミュレーションが実行された場合には、ステップＳ１１２へ進む。一方、所定回数の避難シミュレーションが実行さていない場合には、ステップＳ１０４へ戻る。これにより、避難指示条件に応じた避難指示のみが変更された避難シミュレーションが必要な回数実行される。

【0070】

ステップＳ１１２において、学習部２４は、全ての災害発生条件の避難シミュレーションが実行されたか否かを判定する。全ての災害発生条件の避難シミュレーションが実行された場合には、ステップＳ１１４へ進む。一方、避難シミュレーションが実行さていない災害発生条件が存在する場合には、ステップＳ１０２へ戻る。これにより、災害の災害発生条件のみが変更された避難シミュレーションが実行され、想定される災害についての避難シミュレーションが実行される。

【0071】

ステップＳ１１４において、学習部２４は、上記ステップＳ１０９で学習された、学習済みの行動価値関数Ｑ^*（ｓ，ａ）を学習済みモデル記憶部２６に格納して、学習処理ルーチンを終了する。

【0072】

＜避難誘導装置の作用＞

【0073】

次に、避難誘導装置３０の作用を説明する。避難誘導装置３０は、図６の避難誘導処理ルーチンを実行する。

【0074】

＜避難誘導処理ルーチン＞

【0075】

避難誘導モデル学習装置１０によって学習された学習済みの行動価値関数Ｑ^*（ｓ，ａ）が避難誘導装置３０へ入力されると、学習済みの行動価値関数Ｑ^*（ｓ，ａ）は学習済みモデル記憶部３７へ格納される。

【0076】

そして、避難誘導装置３０が設置された建物内において災害が発生したことが検知されると、避難誘導装置３０は、図６に示す避難誘導処理ルーチンを実行する。避難誘導装置３０は、観測装置３２によって観測情報が得られる毎に、図６に示す避難誘導処理ルーチンを実行する。

【0077】

ステップＳ２００において、取得部３６は、観測装置３２によって取得された観測情報を取得する。観測情報は、被災した建物内の被災者の位置及び動き等である。

【0078】

ステップＳ２０２において、避難情報生成部３８は、学習済みモデル記憶部３７に格納された学習済みモデルとしての行動価値関数Ｑ^*（ｓ，ａ）を読み出す。

【0079】

ステップＳ２０４において、避難情報生成部３８は、上記ステップＳ２００で取得された観測情報を、上記ステップＳ２０２で読み出された行動価値関数Ｑ^*（ｓ，ａ）へ入力して、避難経路に関する情報である避難情報を生成する。具体的には、観測情報が行動価値関数Ｑ^*（ｓ，ａ）へ入力されると、行動価値関数Ｑ^*（ｓ，ａ）から避難情報の一例である避難指示が出力される。

【0080】

ステップＳ２０６において、制御部４０は、避難情報生成部３８によって生成された避難指示に応じて、災害が発生した建物内に設置された複数の表示装置４２を制御して、避難誘導処理ルーチンを終了する。

【0081】

複数の表示装置４２の各々は、制御部４０による制御に応じて表示を変更させる。建物内の避難者は、複数の表示装置４２の各々に表示された避難指示に従って避難する。

【0082】

以上詳細に説明したように、本実施形態の避難誘導装置は、災害が発生した際の人の位置又は動きを表す観測情報を、避難シミュレーションの災害における死者数、負傷者数、及び避難が完了するまでの時間に応じて設定された報酬を用いて予め強化学習された学習済みモデルへ入力して、災害が発生した際の避難経路に関する情報である避難情報を生成し、避難情報に応じて建物内に設置された表示装置を制御する。これにより、災害が発生した際の避難シミュレーション結果を考慮して、リスクを最小化するように避難者を避難させることができる。

【0083】

また、本実施形態の避難誘導モデル学習装置は、災害が発生した際の避難シミュレーションを実行し、当該シミュレーション結果に基づいて、避難シミュレーションの災害における死者数、負傷者数、及び避難が完了するまでの時間に応じて設定された報酬を用いて、災害が発生した際の人の位置又は動きを表す観測情報から災害が発生した際の避難経路に関する情報である避難情報を出力するためのモデルを強化学習させて、学習済みモデルを得る。これにより、災害が発生した場合に、リスクを最小化するように避難者を避難させるための学習済みモデルを取得することができる。

【0084】

また、本実施形態では、避難シミュレーションのシミュレーション結果を状態ｓ，行動ａ，方策πという変数に変換した後、これらの３変数の関係性をモデルに学習させることで、避難指示を最適化することができる。すなわち、最適な避難指示の判定において、強化学習によって得られる学習済みモデルを利用することで、異なる手法や異なるモデルによるシミュレーション結果を並列的に考慮することができる。

【0085】

＜第２実施形態＞

【0086】

次に、第２実施形態について説明する。第２実施形態では、複数種類の避難シミュレーションを実行し、当該シミュレーション結果に基づいて学習済みモデルを得て、その学習済みモデルを用いて避難情報を取得する点が第１実施形態と異なる。なお、第２実施形態に係る各装置の構成は、第１実施形態と同様の構成となるため、同一符号を付して説明を省略する。

【0087】

第２実施形態では、異なる種類の避難シミュレーション（例えば、建物内を対象とした避難シミュレーション及び建物外の街区内を対象とした避難シミュレーション）を実行し、そのシミュレーション結果を学習済みモデルへ反映させる。

【0088】

第２実施形態では、建物単独を対象とした避難シミュレーション（建物内部から外への避難）である第１の避難シミュレーションと、建物の外における街区レベルの避難シミュレーション（建物の外の街区内での避難）である第２の避難シミュレーションとを想定する。例えば、第２実施形態では、図７に示されるように、避難者Ｕは建物Ａｘから外へ出て街区における避難も行う場合を想定する。なお、本実施形態においては、２つの異なる種類の避難シミュレーションを実行する場合を例に説明するが、２つよりも多い複数種類の避難シミュレーションを本実施形態へ適用することも可能である。

【0089】

第２実施形態の学習部２４は、複数種類の避難シミュレーションを実行し、当該シミュレーション結果に基づいて、観測情報から避難情報を出力するためのモデルを強化学習させて、学習済みモデルの一例である行動価値関数Ｑ^*（ｓ，ａ）を得る。

【0090】

具体的には、第２実施形態においては、災害が発生したときの建物の内部の状態をｓ_０とし、建物から外への避難に関する方策をπ_１とし、建物から外への避難指示をａ_１とする。なお、避難者は避難指示ａ_１に応じた行動をとるものとする。

【0091】

また、建物から外への避難が完了したときの状態をｓ_１とし、建物の外の街区における避難に関する方策をπ_２とし、建物の外の街区における避難に関する行動をａ_２とし、建物の外の街区における避難が完了したときの状況をｓ_２とする。

【0092】

この場合、上記の変数間の関係は、状態ｓ_０に対して方策π_１を適用することで避難指示ａ_１が出され、避難者が避難指示ａ_１に応じた避難行動をとり、その結果として建物からの避難が完了した時点の状態がｓ_１となる。そして、この状態ｓ_１に対して方策π_２を適用することで避難指示ａ_２が出され、避難者が避難指示ａ_２に応じた避難行動をとり、その結果として避難所等への避難が完了したときの状態がｓ_２となる。

【0093】

Q-Learningにおいては、学習のためには状態ｓ_１に応じた報酬ｒ_１と、状態ｓ_２に応じた報酬ｒ_２とを算出する必要がある。これらの変数間の関係は図８のようになる。

【0094】

本実施形態においては、最終的な状態ｓ_２の時点における報酬ｒ_２を最大化させる避難指示の方法を、強化学習によって学習済みモデルの一例である行動価値関数Ｑ^*（ｓ，ａ）へ反映させることが目的となる。なお、報酬ｒ_１及び報酬ｒ_２は、上記式（５）に示されるように、死者数Ｄ、負傷者数Ｉ、及び避難時間Ｔ等に基づく関数として設定される。

【0095】

第２の避難シミュレーションである街区レベルの避難シミュレーションでは、シミュレーション結果から避難の状態ｓ_２が算出される。このため、第２の避難シミュレーションのシミュレーション結果に基づいて、報酬ｒ_２を最大化するように、避難指示を出力する行動価値関数Ｑ^*（ｓ，ａ）を得ることができる。

【0096】

一方、第１の避難シミュレーションである建物内の避難シミュレーションのシミュレーション結果のみでは、避難の状態ｓ_１しか算出されない。このため、第１の避難シミュレーションによって報酬ｒ_１を算出することはできても、報酬ｒ_２を直接算出することはできない。

【0097】

このため、例えば、第１の避難シミュレーションのシミュレーション結果に基づき報酬ｒ_１を用いて強化学習を行い、建物内から外への避難指示をモデルに学習させた場合には、建物から外への避難が完了するまでを最適化するような行動価値関数Ｑ^*（ｓ，ａ）が得られるが、この行動価値関数Ｑ^*（ｓ，ａ）は、報酬ｒ_２を最大化するような避難指示を必ずしも出力するわけではない。

【0098】

例えば、西側と東側とに出口を有する建物であって、かつ西側の出口の方が東側の出口口よりも広い建物を想定する。また、この建物の東側には避難所となる公園が存在すると想定する。この場合、建物から外へ避難するのみにおいては、西側の出口を利用した方が好ましい。しかし、建物から避難所まで避難することを考慮すると、建物の東口の出口を利用した方がより好ましいと考えられる。このような場合、第１の避難シミュレーションのシミュレーション結果のみに基づいて強化学習を行い、行動価値関数Ｑ^*（ｓ，ａ）を得ることは不適切である。

【0099】

このため、報酬ｒ_２に基づいて、第１の避難シミュレーションにおける避難指示を強化学習させる手法が必要となる。そこで、本実施形態では、第１の避難シミュレーションにおける報酬ｒ_１と第２の避難シミュレーションにおける報酬ｒ_２とを尤度関数によって関係付けることにより、観測情報から避難情報を出力するためのモデルを強化学習させる。

【0100】

具体的には、まず、学習部２４は、様々な避難の状態ｓ_１を初期条件として設定し、設定された各初期条件に基づき第２の避難シミュレーションを行う。そして、学習部２４は、設定された各初期条件に基づき第２の避難シミュレーションによって得られた避難の状態ｓ_２を取得する。

【0101】

次に、学習部２４は、第２の避難シミュレーションによって得られた避難の状態ｓ_２に応じた報酬ｒ_２に基づいて強化学習を行い、行動価値関数Ｑ^*（ｓ，ａ）を得る。

【0102】

次に、学習部２４は、第２の避難シミュレーションによって得られた避難の状態ｓ_１及び避難の状態ｓ_２に基づいて、報酬ｒ_１と報酬ｒ_２とを算出する。そして、学習部２４は、算出された報酬ｒ_１と報酬ｒ_２とを対応付ける。

【0103】

次に、学習部２４は、対応付けられた報酬ｒ_１と報酬ｒ_２とを用いて、報酬ｒ_２に対する報酬ｒ_１の尤度Ｌ（ｒ_１｜ｒ_２）を算出する。尤度Ｌ（ｒ_１｜ｒ_２）は、報酬ｒ_２が観測されたときの報酬ｒ_１の尤もらしさを表す指標である。この尤度Ｌ（ｒ_１｜ｒ_２）によって、報酬ｒ_１と報酬ｒ_２とは、以下の式（６）に示されるような関係となる。

【0104】

Ｐ（ｒ_２）＝Ｐ（ｒ_１）×Ｌ（ｒ_１｜ｒ_２）
（６）

【0105】

なお、上記式（６）における、Ｐ（ｒ_２）は報酬がｒ_２となる確率を表し、Ｐ（ｒ_１）は報酬がｒ_１となる確率を表す。

【0106】

次に、学習部２４は、尤度Ｌ（ｒ_１｜ｒ_２）を算出した後、避難の状態ｓ₀を初期条件として、第１の避難シミュレーションを実行し、シミュレーション結果を得る。

【0107】

次に、学習部２４は、第１の避難シミュレーションのシミュレーション結果に基づいて、報酬ｒ_１を算出する。そして、学習部２４は、第１の避難シミュレーションのシミュレーション結果から算出された報酬ｒ_１に対してＬ（ｒ_１｜ｒ_２）を乗じることにより、報酬ｒ_２の確率分布を算出し、報酬ｒ_２の期待値を最大化するように、第２の避難シミュレーションの結果によって既に強化学習された行動価値関数Ｑ^*（ｓ，ａ）を更に強化学習させ、行動価値関数Ｑ^*（ｓ，ａ）を得る。

【0108】

第２実施形態の避難情報生成部３８は、取得部３６によって取得された観測情報ｓを、第２実施形態の学習部２４によって学習された行動価値関数Ｑ^*（ｓ，ａ）へ入力して、災害が発生した際の避難指示ａを生成する。

【0109】

＜避難誘導モデル学習装置の作用＞

【0110】

次に、第２実施形態の避難誘導モデル学習装置１０の作用を説明する。第２実施形態の避難誘導モデル学習装置１０は、図９及び図１０の学習処理ルーチンを実行する。

【0111】

＜学習処理ルーチン＞

【0112】

仕様情報と条件情報とが避難誘導モデル学習装置１０に入力され、受付部１２が仕様情報と条件情報とを受け付けると、設定情報記憶部２２に、仕様情報と条件情報とが格納される。そして、第２実施形態の避難誘導モデル学習装置１０は、学習処理の指示信号を受け付けると、図９及び図１０に示される学習処理ルーチンを実行する。

【0113】

ステップＳ１００～ステップＳ１０４は、第１実施形態と同様に実行される。

【0114】

ステップＳ３０６において、学習部２４は、上記ステップＳ１００で読み込まれた建物の仕様情報と、上記ステップＳ１０２で設定された災害発生条件と、上記ステップＳ１０４で設定された避難指示条件とに基づいて、街区レベルの避難シミュレーションである第２の避難シミュレーションを実行する。

【0115】

ステップＳ３０８において、学習部２４は、上記ステップＳ３０６で実行された第２の避難シミュレーションのシミュレーション結果を記憶部（図示省略）に格納する。

【0116】

ステップＳ３０９において、学習部２４は、上記ステップＳ３０８で第２の避難シミュレーションによって得られた結果である避難の状態ｓ_２に応じた報酬ｒ_２に基づいて、モデルを強化学習させ、行動価値関数Ｑ^*（ｓ，ａ）を得る。

【0117】

ステップＳ１１０～ステップＳ１１２は、第１実施形態と同様に実行される。

【0118】

次に、図１０に示すステップＳ３１６において、学習部２４は、上記ステップＳ３０８で記憶された、第２の避難シミュレーションによって得られた避難の状態ｓ_１及び避難の状態ｓ_２に基づいて、報酬ｒ_１と報酬ｒ_２とを算出する。そして、学習部２４は、上記ステップＳ３１６で算出された報酬ｒ_１の各々と報酬ｒ_２の各々とを対応付ける。

【0119】

ステップＳ３１８において、学習部２４は、上記ステップＳ３１６で対応付けられた報酬ｒ_１の各々と報酬ｒ_２の各々とを用いて、各報酬ｒ_２に対する各報酬ｒ_１の尤度Ｌ（ｒ_１｜ｒ_２）を算出する。

【0120】

ステップＳ３２０は、上記ステップＳ１０２と同様に実行される。

【0121】

ステップＳ３２２は、上記ステップＳ１０４と同様に実行される。

【0122】

ステップＳ３２４において、学習部２４は、避難の状態ｓ_０を初期条件として、第１の避難シミュレーションを実行し、シミュレーション結果を得る。

【0123】

ステップＳ３２６において、学習部２４は、第１の避難シミュレーションのシミュレーション結果を記憶部（図示省略）に格納する。

【0124】

ステップＳ３２７において、学習部２４は、上記ステップＳ３２６で記憶部（図示省略）に格納された、第１の避難シミュレーションのシミュレーション結果から算出された報酬ｒ_１に対してＬ（ｒ_１｜ｒ_２）を乗じる。そして、学習部２４は、上記式（６）に従って、報酬ｒ_２の確率分布を算出し、報酬ｒ_２の期待値を最大化するように、第２の避難シミュレーションの結果によって既に強化学習された行動価値関数Ｑ^*（ｓ，ａ）を更に強化学習させ、行動価値関数Ｑ^*（ｓ，ａ）を得る。

【0125】

ステップＳ３２８において、上記ステップＳ１１０と同様に実行される。

【0126】

ステップＳ３３０において、上記ステップＳ１１２と同様に実行される。

【0127】

ステップＳ３３２において、学習部２４は、上記ステップＳ３２７で得られた行動価値関数Ｑ^*（ｓ，ａ）を学習済みモデル記憶部２６へ格納して、学習処理ルーチンを終了する。

【0128】

以上詳細に説明したように、第２実施形態の避難誘導モデル学習装置は、複数種類の避難シミュレーションを実行し、当該シミュレーション結果に基づいて、学習済みモデルを得る。これにより、複数の避難シミュレーションを考慮して、災害が発生した場合に被災者のリスクを最小化するように避難させるための学習済みモデルを取得することができる。

【0129】

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

【0130】

例えば、上記実施形態では、避難情報出力装置が表示装置４２である場合を例に説明したが、これに限定されるものではない。例えば、避難情報出力装置は、音声出力装置であってもよく、この場合には、避難指示が音声によって出力される。また、避難情報出力装置は、各避難者が保有しているスマートフォン等の端末であってもよい。

【0131】

また、上記では本発明に係るプログラムが記憶部（図示省略）に予め記憶（インストール）されている態様を説明したが、本発明に係るプログラムは、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ及びマイクロＳＤカード等の記録媒体に記録されている形態で提供することも可能である。

【符号の説明】

【0132】

１０避難誘導モデル学習装置
１２受付部
２０コンピュータ
２２設定情報記憶部
２４学習部
２６学習済みモデル記憶部
３０避難誘導装置
３２観測装置
３４コンピュータ
３６取得部
３７学習済みモデル記憶部
３８避難情報生成部
４０制御部
４２表示装置

【図1】