(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-03-22
(54)【発明の名称】強化学習を利用する3D環境リスク識別
(51)【国際特許分類】
G06N 20/00 20190101AFI20220314BHJP
【FI】
G06N20/00
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021545464
(86)(22)【出願日】2020-01-31
(85)【翻訳文提出日】2021-08-03
(86)【国際出願番号】 US2020016248
(87)【国際公開番号】W WO2020163180
(87)【国際公開日】2020-08-13
(32)【優先日】2019-02-05
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】520264003
【氏名又は名称】エレクトロニック ケアギヴァー,インコーポレイテッド
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】チャスコ,ブライアン ジョーン
(57)【要約】
本明細書に提供されるのは、傷害リスクの評価を提供する方法であって、方法は、環境内にエージェントを展開することと、エージェントによって第1の状態にある第1の物体を検出することと、エージェントによって強化学習を用いて第1の物体と相互作用するよう行動を取ることであって、行動は、報酬を最大化するために取られる、行動を取ることと、第1の物体を三次元環境にマッピングすることと、三次元環境内の潜在的リスクを識別することとを含む。本明細書に同様に提供されるのは、傷害リスクの評価を提供するシステムであって、システムは、感知デバイスと通信的に結合されるエージェントと、エージェントに通信的に結合される通信ネットワークと、通信ネットワークに通信的に結合される三次元モデルリスク評価モジュールと、三次元モデルリスク評価モジュールに通信的に結合されるユーザデバイスと、通信ネットワークに通信的に結合される環境リスクを識別するためのシステムとを含む。
【特許請求の範囲】
【請求項1】
傷害リスクの評価を提供する方法であって、
環境内にエージェントを展開することと、
前記エージェントによって第1の状態にある第1の物体を検出することと、
前記エージェントによって強化学習を用いて前記第1の物体と相互作用するよう行動を取ることと、
前記第1の物体を三次元環境にマッピングすることと、
前記三次元環境内の潜在的リスクを識別することとを含み、
前記行動は、報酬を最大化するために取られる、
方法。
【請求項2】
前記エージェントが、前記エージェントによって強化学習を用いて第2の物体と相互作用するよう前記環境内で別の行動を取り続けることを更に含み、前記行動は、累積報酬を最大化するために取られる、請求項1に記載の方法。
【請求項3】
前記エージェントが、前記第2の物体を前記三次元環境にマッピングすることと、前記三次元環境内の潜在的リスクを識別し続けることとを更に含む、請求項2に記載の方法。
【請求項4】
前記エージェントが、前記三次元環境内で前記第1及び第2の物体の相対的な場所をマッピングすることを更に含む、請求項3に記載の方法。
【請求項5】
前記エージェントが、前記三次元環境内で前記第1及び第2の物体との接触を避ける通路をマッピングすることを更に含む、請求項4に記載の方法。
【請求項6】
前記三次元環境内でユーザをシミュレートすることを更に含む、請求項5に記載の方法。
【請求項7】
前記エージェントが、前記三次元環境を改良するために、前記環境を通じて移動し且つ相互作用することによってシミュレーション構築プロセスにおいて強化学習を用いてることを更に含む、請求項6に記載の方法。
【請求項8】
前記エージェントによる移動の各シーケンスで新しい三次元環境を生成することを更に含む、請求項7に記載の方法。
【請求項9】
前記エージェントによる各相互作用で新しい三次元環境を生成することを更に含む、請求項8に記載の方法。
【請求項10】
三次元シミュレーションマップを生成して前記環境内の潜在的リスクを識別することを更に含む、請求項9に記載の方法。
【請求項11】
前記潜在的リスクを低リスクから無リスクまで又は中リスクから高リスクまでのいずれかとして分類することを更に含む、請求項10に記載の方法。
【請求項12】
傷害リスクの評価を提供するシステムであって、
感知デバイスと通信的に結合されるエージェントと、
前記エージェントに通信的に結合される通信ネットワークと、
前記通信ネットワークに通信的に結合される三次元モデルリスク評価モジュールと、
前記三次元モデルリスク評価モジュールに通信的に結合されるユーザデバイスと、
前記通信ネットワークに通信的に結合される環境リスクを識別するためのシステムとを含む、
システム。
【請求項13】
データベースを更に含む、請求項12に記載のシステム。
【請求項14】
環境内に展開し、第1の状態にある第1の物体を検出する、ように構成される、前記エージェントを更に含む、請求項12に記載のシステム。
【請求項15】
強化学習を用いて前記第1の物体と相互作用するために行動を取るように構成される前記エージェントを更に含む、請求項14に記載のシステム。
【請求項16】
前記第1の物体を三次元環境にマッピングするように構成される前記エージェントを更に含む、請求項15に記載のシステム。
【請求項17】
前記三次元環境内の潜在的リスクを識別するように構成される前記エージェントを更に含む、請求項16に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の参照)
この出願は、2019年2月5日に出願された「3D Environment Risk Identification Utilizing Reinforced Learning」という名称の米国仮特許出願第62/801,525号の優先権の利益を主張し、その全文を参照により本明細書に援用する。
【0002】
本主題は、環境リスクを識別することに関する。具体的には、限定するものではないが、本主題は、強化学習(reinforced learning)および深層学習(deep learning)のような機械学習(machine learning)を使用してシミュレートされた環境における環境リスクを識別する(identifying)システムおよび方法を提供する。
【発明の概要】
【0003】
本明細書に提供されるのは、傷害リスク(injury risk)の評価を提供する方法であって、方法は、環境内にエージェントを展開することと、エージェントによって第1の状態にある第1の物体を検出することと、エージェントによって強化学習を用いて第1の物体と相互作用するよう行動(アクション)を取ることであって、行動は、報酬を最大化するために取られる、行動を取ることと、第1の物体を三次元環境にマッピングすることと、三次元環境内の潜在的リスクを識別することとを含む。
【0004】
さらなる方法は、エージェントが、エージェントによって強化学習を使用して第2の物体と相互作用(対話)するために環境内で別の行動を取り続けることであって、行動は、累積報酬を最大化するためにとられる、取り続けることと、エージェントが、第2の物体を三次元環境にマッピングし、三次元環境内の潜在的リスクを識別し続けることとを含む。エージェントは、三次元環境内の第1および第2の物体の相対的な場所をマッピングしてもよく、三次元環境内の第1および第2の物体の接触を避ける経路をマッピングしてもよい。
【0005】
例示的な方法は、三次元環境を改良するために環境を通じて移動および相互作用(対話)することによって、シミュレーション構築プロセスにおいて強化学習を使用して、三次元環境内のユーザおよびエージェントをシミュレートすることを含んでよい。新しい三次元環境が、各シークエンスおよび/またはエージェントによる移動の相互作用(対話)で生成されてよい。さらに、マップは、環境中の潜在的リスクを識別し、潜在的リスクを低リスクから無リスクまで又は中リスクから高リスクまでのいずれかに分類してよい。
【0006】
本明細書に同様に提供されるのは、傷害リスクの評価を提供するシステムであって、システムは、感知デバイスと通信的に結合されるエージェントと、エージェントに通信的に結合される通信ネットワークと、通信ネットワークに通信的に結合される三次元モデルリスク評価モジュールと、三次元モデルリスク評価モジュールに通信的に結合されるユーザデバイスと、通信ネットワークに通信的に結合される環境リスクを識別するためのシステムとを含む。
【0007】
同等の参照番号が別個の眺望を通じて同一または機能的に類似の要素を指す、添付の図面は、以下の詳細な記述と共に、本明細書に組み込まれ、本明細書の一部を形成し、特許請求される開示を含む概念の実施形態をさらに例示するのに役立ち、それらの実施形態の様々な原理および利点を説明する。
【0008】
本明細書に開示する方法およびシステムは、適切な場合には、図面中の従来的な記号によって表現されており、本明細書の記述の利益を有する当業者に容易に明らかである詳細で本開示を不明瞭にしないよう、本開示の実施形態の理解に関する特定の詳細のみを示している。
【図面の簡単な説明】
【0009】
【
図1】様々な例示的実施形態に従った、3D環境において包括的な傷害リスク評価を提供するように構成された例示的なシステムの図を図示している。
【0010】
【
図2】強化学習(RL)を使用するエージェントによって3D環境を構築するために実装されるシミュレーションプロセスの概略図である。
【0011】
【
図3】様々な例示的な実施形態に従った、3D環境における包括的な傷害リスク評価を提供する例示的な方法を図示している。
【0012】
【
図4a】環境を通じて移動することによるシミュレーション構築プロセスにおいてRLを使用するエージェントを図示している。
【
図4b】環境を通じて移動することによるシミュレーション構築プロセスにおいてRLを使用するエージェントを図示している。
【
図4c】環境を通じて移動することによるシミュレーション構築プロセスにおいてRLを使用するエージェントを図示している。
【0013】
【
図5a】低リスクから無リスクまでについてチェックマークによって環境内に表現され、中リスクから高リスクまでについてバツマークによって環境内に表現された、関連するリスク出力を有する。
【
図5b】低リスクから無リスクまでについてチェックマークによって環境内に表現され、中リスクから高リスクまでについてバツマークによって環境内に表現された、関連するリスク出力を有する。
【
図5c】低リスクから無リスクまでについてチェックマークによって環境内に表現され、中リスクから高リスクまでについてバツマークによって環境内に表現された、関連するリスク出力を有する。
【0014】
【
図6】機械に本明細書で議論された方法論のうちのいずれか1つ以上を行わせる命令のセットを実行するコンピューティングシステムの形態の例示的な機械の概略図を図示している。
【発明を実施するための形態】
【0015】
以下の詳細な記述は、詳細な記述の一部を構成する添付の図面への参照を含む。図面は、例示的な実施形態に従った例示を示している。本明細書において「例」と呼ぶこともあるこれらの例示的な実施形態は、当業者が本主題を実施することを可能にするよう十分に詳細に記載される。特許請求の範囲から逸脱することなく、実施形態を組み合わせることができ、他の実施形態を利用することができ、或いは構造的、論理的にすることができ、変更を行うことができる。従って、以下の詳細な記述は、限定的な意味で解釈されるべきではなく、範囲は、添付の特許請求の範囲およびそれらの均等物によって定義される。
【0016】
本明細書に開示する実施形態の技法は、様々な技術を用いて実装されてよい。例えば、本明細書に記載する方法は、コンピューティングシステム上で実行されるソフトウェアにおいて、或いは、マイクロプロセッサの組み合わせまたは他の特別に設計された特定用途向け集積回路、プログラマブル論理デバイス、若しくはそれらの様々な組み合わせのいずれかを利用する、ハードウェアにおいて実装されてよい。特に、本明細書に記載する方法は、ディスクドライブまたはコンピュータ読取可能媒体のような記憶媒体上に存在する一連のコンピュータ実行可能命令によって実装されてよい。本明細書に開示する方法は、コンピュータ(例えば、デスクトップコンピュータ、タブレットコンピュータ、タップトップコンピュータなど)、ゲームコンソール、ハンドヘルドゲームデバイス、携帯電話、スマートフォン、スマートテレビジョンシステムなどによって実装されることができることが留意されるべきである。異なる展開アーキテクチャ(deployment architectures)は、クラウド内サーバ、社内サーバ、またはハイブリッドを含む。
【0017】
患者の自宅のような環境は、テーブル、椅子、ランプまたは個人の視線外または視線内の任意の追加的な品目のような、家具の配置に依存する、潜在的な傷害のリスクがある。例えば、誤配置された家具又は容易に見えない他の品目は、高齢者から幼児を含む全ての年齢の人々、障害、慢性疾患及び機能障害のある個人を潜在的に怪我させ得る。
【0018】
傷害リスク評価(injury risk assessment)は、独立性を維持することを強く望む高齢者へのヘルスケアの提供の一体的な部分となっている。従来、傷害を引き起こすリスクを有する家庭(home)内の物体の識別(identification)は、人が家を訪問している間に空間を歩くときに、人または作業療法士によって目視検査によって行われてきた。目視検査の間に、作業療法士は、人の質及び環境のような要因の組み合わせに基づいて使用済み領域及びそれらの限界を検査し、リスク層別化をモデル化するためにデータ分析を使用する場合又は使用しない場合がある。しかしながら、傷害リスクについて空間を手作業で検査することを人に要求することは、検査中にその人を傷害のリスクに置き、時間がかかり、不十分な健康情報システムおよびデータ分析の故に環境リスク全体を識別するという問題をスケーリングするには労力がかかりすぎ、固定された場所に限定されることがあり、例えば、作業療法において患者が負担することができないことがあり、傷害が発生した後にのみ生じることがある。
【0019】
本明細書に記載し且つ図示する様々な例示的な実施形態は、空間の3D環境を提供するシステムおよび方法、並びに強化学習および深層学習のような機械学習を利用する空間内の包括的な傷害リスク評価の方法に関する。例示的な実施形態によれば、システム及び方法は、家庭または居住空間(living space)の3D環境をマッピングし、3Dモデルをシミュレーション環境に置く。次に、ユーザのシミュレーションバージョンを使用して、強化学習を使用して仮想家庭を通じて通路(pathways)を追跡して、最も安全な通路を見出して、リスクを回避し且つ認識することができる。この解決策は、リスク評価サービスをユーザに提供して、ユーザが自立した生活を送ることを可能にするので、ユーザは、介護施設、家族の家、又はリスクを監視して修正できる施設若しくは家のような、固定された場所に限定されない。一部の人にとって、予定される在宅ヘルスケア(home healthcare)のコストは、彼らを家に入れることに頼らざるを得なくする。傷害リスクの識別及び事故防止を自動化することによって、如何なる人々もリスクに曝すことなく、全ての可能性のあるリスクを検出することができ、高齢者は、より長い時間期間に亘って自立した生活を送ることができる。
【0020】
図1は、いくつかの実施形態に従った、強化学習および深層学習のような機械学習を使用してシミュレートされた環境における環境リスクを識別するシステムおよび方法を実装することができる環境100を図示している。環境100は、エージェント110(agent)、通信ネットワーク130(例えば、インターネットまたはコンピューティングクラウド)、(本明細書ではシステム140とも呼ぶ)環境リスク140を識別するシステム、(複数の)ユーザ170、及び(複数の)ユーザデバイス180を含んでよく、任意的に、データベース150を含んでよい。エージェント110、システム140、(複数の)ユーザデバイス180、およびデータベース150は、通信ネットワーク130を介して接続されてよい。
【0021】
エージェント110は、1つ以上のカメラ120、1つ以上の車載式深さセンサ、車輪、1つ以上の電気モータ、電源、追加的な集積デバイス、および無線接続(すなわち、Bluetooth、Wi-Fiなど)を含んでよく、或いはそれらに結合されてよい。いくつかの実施形態において、エージェント110は、空間のフロア上に展開されてよく、エージェント110は、システム140が空間の3Dマップを作成するために、空間の周囲を移動して、空間内に位置するアイテム(品目)に関するデータを収集する。別の実施形態において、エージェント110は、空間の周囲に位置する物体に関するデータを収集するために、ユーザ170によって操作されるユーザデバイス180によって手動で制御されてよい。ユーザデバイス180は、移動電話、パーソナルコンピュータ(PC)、ラップトップ、スマートフォン、タブレットPCなどを含んでよい。いくつかの実施形態において、エージェント110は、
図6に関して記載するもののような、任意の適切なコンピューティングデバイスで置き換えられてよく、或いはその形態を取ってよい。
【0022】
システム140は、クラウドベースであってよく、或いは1つ以上の遠隔サーバを含んでよい。システム140を使用する評価を通じて、3Dモデルリスク評価160がユーザデバイス180を通じてユーザ170に提供され、ユーザデバイスは、
図5の例示的な実施形態に描くように、傷害リスクの領域を描く3Dマップを含んでよい。
【0023】
通信ネットワーク130は、無線または有線ネットワーク、またはそれらの組み合わせを含んでよい。例えば、ネットワークは、インターネット、ローカルイントラネット、PAN(Personal Area Network)、LAN(Local Area Network)、WAN(Wide Area Network)、MAN(Metropolitan Area Network)、仮想プライベートネットワーク(VPN:virtual private network)、ストレージエリアネットワーク(SAN:storage area network)、フレームリレー接続、アドバンストインテリジェントネットワーク(AIN:Advanced Intelligent Network)接続、同期光ネットワーク(SONET:synchronous optical network)接続、デジタルT1、T3、E1またはE3回線、デジタルデータサービス(DDS:Digital Data Service)接続、DSL(Digital Subscriber Line)接続、イーサネット接続、ISDN(Integrated Serviced Digital Network)回線、V.90、V.34またはV.34bisアナログモデム接続のようなダイアルアップポート、ケーブルモデム、ATM(Asynchronous Transfer Mode)接続、またはFDDI(Fiber Distributed Data Interface)接続またはCDDI(Copper Distributed Data Interface)接続の1つ以上を含んでよい。さらに、通信は、WAP(Wireless Application Protocol)、GPRS(General Packet Radio Service)、GSM(Global System for Mobile Communication)、CDMA(Code Division Multiple Access)またはTDMA(Time Division Multiple Access)、携帯電話ネットワーク、GPS、CDPD(cellular digital packet data)、RIM(Research in Motion, Limited)デュプレックスページングネットワーク、Bluetoothラジオ、またはIEEE802.11ベースの無線周波数ネットワークを含む、様々な無線ネットワークのうちのいずれかへのリンクを含んでもよい。ネットワークは、さらに、RS-232シリアル接続、IEEE-1394(ファイアワイヤ)接続、ファイアチャネル接続、IrDA(赤外線)ポート、SCSI(Small Computer Systems Interface)接続、USB(Universal Serial Bus)接続、または他の有線または無線、デジタルまたはアナログインターフェースまたは接続、メッシュまたはDigi(登録商標)ネットワーキングのいずれか1つ以上を含むか、或いはそれらとインターフェース接続することができる。
【0024】
任意的なデータベース150は、3Dモデルリスク評価160およびユーザ170に関する追加的な情報を生成するために、エージェント110によって収集されるデータを格納してよい。
【0025】
図2は、強化学習(RL)を使用するエージェントによって3D環境を構築するために実装されるシミュレーションプロセスの概略図である。それはエージェントが環境状態を環境中の(複数の)物体の測定からの入力情報として受け取ることで開始する。エージェントが検出するものに基づいて、それは
を使用する行動(アクション)を行って物体検出を続ける。
図2において、シミュレーションプロセス中に実装されるRLは、「シミュレーションプロセス」ボックスの外側のボックスによって概略図で表されている。破線は、入力を表しており、実線は、出力を表している。
図4に示すように、エージェントが環境を動き回って物体を検出するに応じて、エージェントは3Dマップを構築し、
図5に示すような家庭内の物体、経路、それらの相対的な場所をマッピングし、その環境におけるユーザをそれぞれシミュレートすることによって、事故の潜在的なリスクを構築する。
【0026】
エージェントは、エージェントによって行われる状態の観察に依存するポリシーπを利用することによって、その現在の状態に基づいて行動を決定する。それは各状態についての行動の分布である。
例えば、
図2において、初期シーケンスi=0は、S
i+1=1(エージェントによって感知される環境状態)で開始する。この場合、i=0について、ポリシーは、状態sがより多くの家具の観察であることに依存することがあり、例えば、π(s)=if入力が1つ以上の物体であるかどうかをifが決定できないならば、
=エージェントはより近くに進み、より良い外観を得る。
【0027】
今や、エージェントは、この最初の状態S1の入力を有し、そのポリシーの故に、それは行動
を取り、i=1に到達し、報酬関数
からフィードバックを得る。それは状態-行動ペアの関数
であり、ここで、
は、期待(expectation)である。次に、移行確率関数は、現在の状態が与えられたときの次の可能な状態に対する確率分布であり、それは次の起こり得る状態S
i+1をもたらし、
であり、ここで、S
i=特定の状態であり、s=現在の状態であり、S
i+1=s’は、次の移行状態を、予測される次の状態であるs’に設定する。エージェントは、別のポリシーから取られる行動に基づいてQ値を学習し、Q値は、新しいQ値関数に従ってそれを計算することによって更新されまる(すなわち、Q値関数に従ってポリシー関数を更新する)。今や、エージェントは、S1とS2のための入力とについての詳細な理解を有する。換言すると、以下の通りである。
【0028】
S
1=状態の入力、次に、ポリシー及び行動
、π(s)=実装され且つ実行される。受信した報酬関数
、次の可能な状態に対する意向確率
、Q値関数は、ポリシーQπ(s)を更新しながら以前の状態の概念を精緻化する(refines)。
【0029】
i=1,S
2で、更新されたQ値関数は、それがi=1から受け取った新しい入力から以前の状態の値を更新した(ここで、状態S2において、i=1であり、その故に、状態S
1についてのi=0からの値、およびそれに反応した対応する関数を更新する)。例えば、一般的に、これまでのところのシーケンスにおけるQ値関数
は、
であり、これを現在の状態と比較したその評価と組み合わせ、新しい状態(すなわち、現在の状態の新しい理解)を出力し、次に、それは以前と同じ処理を開始する新しい入力である。ここでγは、割引計数(discount factor)又は報酬不連続係数(reward discontinuity factor)であり、それはそれが特定の状態で特定の行動を取るならばどれぐらいの報酬が期待されるかをエージェントに伝える。また、ここでは、学習率(learning rate)
がある。更新された(入力された)状態及びポリシーを有するならば、今や、例えば、i=1で、
【0030】
π(x)=以前のアスペクト比を正しく決定したならば、以下の通りである。
【0031】
=順にi=1ステップのための入力の一部である新しい物体についてそれを使用して前に進み、検出された新しい物体と相互作用(対話)する。ここで、実線矢印で、前と同様のプロセスで、「シミュレーションプロセス」に戻り、物体及び互いに対するそれらの場所、すなわち、経路のより良い理解で、i=2,S
3に到達する。
図2において、これは式の第2のボックスによって示されており、ここで、式は、Rsa、Pss’a、Q(s0,a0)から更新されたもの(Rsπ、Pss’π、Q(s’a))に変化し、それは以下で説明される。
【0032】
再び、報酬関数が課され、現在の状態が
であると仮定した場合の次の可能な状態に対する確率分布が与えられ、Q値関数はポリシーの更新に従って計算されるが、今や以下で計算される。
【0033】
ここで、θは、調節可能なパラメータ、または重みであり、更新された移行確率分布
をもたらし、Q値関数は、
になり、ここで、
及び
は、将来の状態及び(関数を更新するために用いられる)行動である。やがて起こる行動
は、次のQ値関数を最大化するために調整され、これはQ値関数が(現在のポリシーを使用する代わりに)更新されたポリシーで更新されたままである方法であることに注意されたい。
【0034】
図3は、様々な例示的実施形態に従った、3D環境における傷害リスクの評価を提供する例示的な方法(および要約)を図示している。
【0035】
方法300は、以下を含む。
【0036】
ステップ301で、エージェントを環境内で展開する(deploying)。例えば、
図2を参照。
【0037】
ステップ302で、エージェントによって第1の状態にある第1の物体を検出する。例えば、
図2を参照。
【0038】
ステップ303で、行動を取って、エージェントによる強化学習を用いて第1の物体と相互作用(対話)し、行動は、報酬を最大化するために取られる。例えば、
図2を参照。
【0039】
ステップ304で、第1の物体を三次元環境にマッピングする。例えば、
図4を参照。
【0040】
ステップ305で、三次元環境内の潜在的リスクを識別する。例えば、
図5を参照。
【0041】
図4は、環境中を移動することによるシミュレーション構築プロセスにおいてRLを使用するエージェントを図示している。この画像において、エージェントは、正面玄関の傍ら左側で始まり[
図4a]、ソファに向かって進み[
図4b]、次に、テーブルの間に進み[
図4c]、そして、家中を進む。
【0042】
完全な経路(full path)について
図5aを参照すると、(
図4cによって描く)テーブル間にある後に、エージェントは、ホールを通じて寝室に入り、次に、寝室を周り、ホールを通じて台所に戻り、正面玄関で開始したところで終了する。
【0043】
それは移動して相互作用(対話)しているので、それは各シーケンスで3Dモデルを改良する。実線(点線)は、物体の完成(未完成)モデルを表している。この図において、エージェントは、例示の目的のために、椅子(白い線)及びテーブル(黒い線)を物体として認識する。それは椅子及びテーブルに限定されない。
【0044】
椅子及びソファへの白い点線を備える開始点を初期シーケンス(i=0)として考える。シミュレーションプロセスを開始するために、これらの物体は、状態S
i+1=S
0+1=S1の入力であり、報酬R1及び行動A1を備える。次の順次的なポイント(i=1)で、エージェントは、これらの物体と相互作用(対話)し、次の環境状態S2に含まれるようにそれらを検出し、それらを(白い実線で表す)環境中で適切にマッピングし、潜在的リスクを識別した(
図5)。このシーケンス(i=1)にも存在する点線及びそれらが同様に次のシーケンス(i=2)によってどのように具体化するかに留意のこと。
【0045】
図5は、低リスクから無リスクまでについてチェックマーク
で表現され、中リスクから高リスクまでについてバツマーク
で表現された、関連するリスクのアウトプットを有する。
図5bにおいて、各シーケンスが進行するにつれて、3Dマップおよびその中の事故リスクはより良く定義付けられるようになって、3Dモデルシミュレーションのための本方法の能力を最適化することが明らかである。
図5bにおいて、家屋はフェードアウトして、対応するリスクを伴う3Dマップおよびシミュレーションの確実性が各シーケンスで更新された関数でどのように改良されるかを描いている。故に、
図5cにおいて、家屋全体は堅固である。何故ならば、エージェントは、正面玄関の傍で終了し、終わって後ろに戻ったからである。
【0046】
図6は、本明細書に記載する実施形態を実装するために使用されることがある例示的なコンピューティングシステム600を図示している。
図6のコンピューティングシステム600は、1つ以上のプロセッサ610と、メモリ620とを含むことがある。メモリ620は、1つ以上のプロセッサ610による実行のための命令およびデータを部分的に格納する。メモリ620は、コンピューティングシステム600が動作中であるときに実行可能コードを格納することができる。
図6のコンピューティングシステム600は、大容量記憶装置630と、ポータブル記憶装置640と、1つ以上の出力デバイス650と、1つ以上の入力デバイス660と、ネットワークインターフェース670と、1つ以上の周辺デバイス680とをさらに含むことがある。
【0047】
図6に示すコンポーネントは、単一のバス690を介して接続されているものとして描かれている。コンポーネントは、1つ以上のデータ転送手段を通じて接続されてよい。1つ以上のプロセッサ610およびメモリ620は、ローカルマイクロプロセッサバスを介して接続されてよく、大容量記憶装置630、1つ以上の周辺デバイス680、ポータブル記憶装置640、およびネットワークインターフェース670は、1つ以上の入出力(I/O)バスを介して接続されてよい。
【0048】
磁気ディスクドライブまたは光ディスクドライブで実装されることがある大容量記憶装置630は、磁気ディスクまたは光ディスクドライブによる使用のためのデータおよび命令を格納するための不揮発性格納デバイスであり、次に、データおよび命令は、1つ以上のプロセッサ610によって使用されてよい。大容量記憶装置630は、そのソフトウェアをメモリ620にロードする目的で本明細書に記載する実施形態を実装するためのシステムソフトウェアを格納することができる。
【0049】
ポータブル記憶装置340は、コンパクトディスクまたはデジタルビデオディスク(DVD)のようなポータブル不揮発性記憶媒体と共に作動して、
図6のコンピューティングシステム600との間でデータおよびコードを入出力する。本明細書に記載する実施形態を実装するシステムソフトウェアは、そのようなポータブル媒体に格納され、ポータブル記憶装置640を介してコンピューティングシステム600に入力されてよい。
【0050】
1つ以上の入力デバイス660は、ユーザインターフェースの一部を提供する。1つ以上の入力デバイス660は、英数字及び他の情報を入力するためのキーボードのような英数字キーパッド、又はマウス、トラックボール、スタイラス若しくはカーソル方向キーのようなポインティングデバイスを含んでよい。加えて、
図6に示すようなコンピューティングシステム600は、1つ以上の出力デバイス650を含む。適切な1つ以上の出力デバイス650は、スピーカ、プリンタ、ネットワークインターフェース、およびモニタを含む。
【0051】
ネットワークインターフェース670は、とりわけ、例えば、インターネット、イントラネット、LAN、WAN、携帯電話ネットワーク(例えば、移動通信ネットワークのためのグローバルシステム、パケット交換通信ネットワーク、回線交換通信ネットワーク)、Bluetooth無線、およびIEEE802.11ベースの無線周波数ネットワークを含む、1つ以上の有線、無線、または光ネットワークのような1つ以上の通信ネットワークを介して、外部デバイス、外部コンピューティングデバイス、サーバ、およびネットワークシステムと通信するために利用されることができる。ネットワークインターフェース670は、イーサネットカード、光トランシーバ、高周波トランシーバ、または情報を送受信することができる任意の他のタイプのデバイスのような、ネットワークインターフェースカードであってよい。そのようなネットワークインターフェースの他の例は、モバイルコンピューティングデバイスにおけるBluetooth(登録商標)、3G、4G、およびWiFi(登録商標)ラジオ、並びにUSBを含むことがある。
【0052】
1つ以上の周辺デバイス680は、コンピューティングシステム600に追加的な機能性を加えるために、任意のタイプのコンピュータ支援デバイスを含んでよい。1つ以上の周辺デバイス680は、モデムまたはルータを含んでよい。
【0053】
図6のコンピューティングシステム600に含まれるコンポーネントは、本明細書に記載する実施形態と一緒の使用に適することがあるコンピューティングシステムに典型的に見出されるものであり、当該技術分野でよく知られているそのようなコンピュータコンポーネントの広いカテゴリを表すことが意図されている。よって、
図6のコンピューティングシステム600は、PC、ハンドヘルドコンピューティングデバイス、電話、モバイルコンピューティングデバイス、ワークステーション、サーバ、ミニコンピュータ、メインフレームコンピュータ、または任意の他のコンピューティングデバイスであり得る。コンピュータは、異なるバス構成、ネットワークプラットフォーム、マルチプロセッサプラットフォームなどを含むこともできる。UNIX(登録商標)、Linux(登録商標)、Windows、Macintosh OS、Palm OS、および他の適切なオペレーティングシステムを含む、様々なオペレーティングシステム(OS)を使用することができる。
【0054】
上述の関数の一部は、記憶媒体(例えば、コンピュータ読取可能媒体)に格納される命令から構成されてよい。命令は、プロセッサによって取り出されて、実行されてよい。記憶媒体のいくつかの例は、メモリデバイス、テープ、ディスク、及び同等物である。命令は、例示的な実施形態に従って動作するようプロセッサに指示するためにプロセッサによって実行されるときに作動する。当業者は、命令、(複数の)プロセッサ、および記憶媒体に精通している。
【0055】
本明細書に記載する処理を実行するのに適した任意のハードウェアプラットフォームが例示的な実施形態と一緒の使用に適していることは注目に値する。本明細書で使用するような「コンピュータ読取可能記憶媒体(computer-readable storage medium)」および「コンピュータ読取可能記憶媒体(computer-readable storage media)」という用語は、実行のために中央処理装置(CPU)に命令を提供することに関与する任意の媒体(medium)または媒体(media)を指す。そのような媒体は、限定されるものではないが、不揮発性媒体、揮発性媒体、および伝送媒体を含む、多くの形態を取ることができる。不揮発性媒体には、例えば、固定ディスクのような、光ディスクまたは磁気ディスクを含む。揮発性媒体は、ランダムアクセスメモリ(RAM)のような、ダイナミックメモリを含む。伝送媒体は、とりわけ、バスの1つの実施形態を含むワイヤを含む、同軸ケーブル、銅線、および光ファイバを含む。伝送媒体は、無線周波数および赤外線データ通信の間に生成されるもののような、音波または光波の形態を取ることもできる。コンピュータ読取可能媒体の一般的な形態は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD読取専用メモリ(ROM)ディスク、DVD、任意の他の光媒体、マーク若しくは穴のパターンを有する任意の他の物理媒体、RAM、PROM、EPROM、EEPROM、FLASH(登録商標)EPROM、任意の他のメモリチップ又はカートリッジ、搬送波、又はコンピュータが読み取り得る任意の他の媒体を含む。
【0056】
コンピュータ可読媒体の様々な形態は、実行のために1つ以上の命令の1つ以上のシーケンスをCPUに運ぶことに関与することがある。バスは、データをシステムRAMに運び、CPUは、システムRAMから命令を取り出し、命令を実行する。システムRAMが受信する命令は、CPUによる実行の前または後のいずれかに、固定ディスクに任意的に格納されることができる。
【0057】
いくつかの実施形態において、コンピューティングシステム600は、コンピューティングクラウド内で作動する仮想マシンのような、クラウドベースのコンピューティング環境として実装されてよい。他の実施形態において、コンピューティングシステム600は、それ自体がクラウドベースのコンピューティング環境を含んでよく、その場合、計算システム600の機能性は、分散方式で実行される。よって、コンピューティングシステム600は、コンピューティングクラウドとして構成されるときに、以下により詳細に記載するように、様々な形態の複数のコンピューティングデバイスを含んでよい。
【0058】
一般的に、クラウドベースのコンピューティング環境は、典型的には、(ウェブサーバ内のような)プロセッサの大きなグループの計算力を結合する且つ/或いはコンピュータメモリまたは格納デバイスの大きなグループの記憶容量を結合するリソースである。クラウドベースのリソースを提供するシステムは、それらの所有者によって独占的に利用されてよく、或いは、そのようなシステムは、大きな計算リソースまたは格納リソースの利益を得るように、コンピューティングインフラストラクチャ内にアプリケーションを展開する外部ユーザにアクセス可能であってよい。
【0059】
クラウドは、例えば、各サーバ(または少なくともそれらの複数)がプロセッサおよび/または格納リソースを提供する、コンピューティングシステム600のような複数のコンピューティングデバイスを含む、ウェブサーバのネットワークによって形成されることがある。これらのサーバは、複数のユーザ(例えば、クラウドリソースのカスタマ又は他のユーザ)によって提供されるワークロードを管理する。典型的には、各ユーザは、ワークロード要求をクラウドに置き、クラウドは、リアルタイムに変化し、時には劇的に変化する。これらの変化の性質及び範囲は、典型的には、ユーザに関連するビジネスのタイプに依存する。
【0060】
特許請求の範囲中の機能要素に加えて、全ての手段またはステップの対応する構造、材料、行為、及び均等物は、特別に特許請求されるような他の特許請求される要素との組み合わせにおいて機能を発揮する任意の構造、材料、または行為を含むことが意図されている。本技術の記述は、例示及び記述の目的で提示されているが、網羅的であること又は開示の形態における本発明に限定されることは意図されていない。本発明の範囲および精神から逸脱することなく、多くの修正および変形が当業者に明らかであろう。例示的な実施形態は、本技術の原理およびその実用的用途を最もよく説明するために並びに想定される特定の用途に適するような様々な修正を伴った様々な実施形態について当業者が本発明を理解することを可能にするために選択され且つ記載された。
【0061】
本技術の態様は、本発明の実施形態に従った方法、装置(システム)およびコンピュータプログラム製品のフローチャート例示および/またはブロック図を参照して上述される。フローチャート例示および/またはブロック図におけるの各ブロック、並びにフローチャート例示および/またはブロック図におけるブロックの組み合わせは、コンピュータプログラム命令によって実装されることができることが理解されるであろう。これらのコンピュータプログラム命令は、汎用コンピュータ、特殊目的コンピュータ、または他のプログラマブルデータ処理装置のプロセッサに提供されて、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサを介して実行される命令が、フローチャートおよび/またはブロック図ブロック若しくは複数のブロックにおいて指定される機能/行為を実行するための手段を生成するように、機械を製造してよい。
【0062】
これらのコンピュータプログラム命令は、コンピュータ読取可能媒体に格納される命令が、フローチャートおよび/またはブロック図ブロック若しくは複数のブロックにおいて指定される機能/行為を実行する命令を含む製造物品を製造するように、コンピュータ、他のプログラマブルデータ処理装置、または他の装置に指示して特定の方法で機能させることができる、コンピュータ読取可能媒体に格納されてもよい。
【0063】
コンピュータ又は他のプログラマブル装置で実行される命令が、フローチャートおよび/またはブロック図ブロック若しくは複数のブロックにおいて指定される機能/行為を実行するためのプロセスを提供するように、コンピュータプログラム命令は、一連の操作ステップを、コンピュータ、他のプログラマブル装置、または他のデバイスで実行させて、コンピュータ実装プロセスを生成するために、コンピュータ、他のプログラマブルデータ処理装置、または他のデバイスにロードされてもよい。
【0064】
フローチャートおよびブロック図は、本技術の様々な実施形態に従ったシステム、方法およびコンピュータプログラム製品の可能な実装のアーキテクチャ、機能性、および動作を例示する。この点に関し、フローチャートまたはブロック図中の各ブロックは、特定の(複数の)論理関数を実装するための1つ以上の実行可能命令を含む、モジュール、セグメント、またはコードの一部を表すことがある。いくつかの代替的な実装において、ブロックに記載される関数は、図に記載される順序から外れて起こってよいことも留意されるべきである。例えば、連続して示される2つのブロックは、実際には、実質的に同時に実行されてよく、或いは、ブロックは、関連する機能性に依存して、逆の順序で実行されてもよい。フローチャート例示及び/又はブロック図の各ブロック、及びフローチャート例示及び/又はブロック図中のブロックの組み合わせは、指定された関数又は行為を行う特殊目的のハードウェアベースのシステム、又は特殊目的のハードウェア及びコンピュータ命令の組み合わせによって実装され得ることにも留意されたい。
【0065】
よって、強化学習及び深層学習のような機械学習を用いてシミュレーション環境における環境リスクを識別するシステムおよび方法が記載されている。特定の例示的な実施形態を参照して実施形態を記載したが、本出願のより広い精神および範囲から逸脱することなく、様々な修正および変更をこれらの例示的な実施形態に加え得ることは明らかであろう。従って、明細書及び図面は、限定的な意味ではなく、例示的に考えられるべきである。現在の技術を実装する多くの代替的な方法がある。開示の例は例示的であり、限定的でない。
【国際調査報告】