2024-525461 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

2024-525461自律システムによるアクションストラテジの生成のためのシステム及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-07-12

(54)【発明の名称】自律システムによるアクションストラテジの生成のためのシステム及び方法

(51)【国際特許分類】

G06F 9/48 20060101AFI20240705BHJP

【ＦＩ】

G06F9/48 300A

G06F9/48 100G

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023580578

(86)(22)【出願日】2022-06-28

(85)【翻訳文提出日】2023-12-27

(86)【国際出願番号】 IB2022056022

(87)【国際公開番号】W WO2023275764

(87)【国際公開日】2023-01-05

(31)【優先権主張番号】21305893.6

(32)【優先日】2021-06-29

(33)【優先権主張国・地域又は機関】EP

(31)【優先権主張番号】21305894.4

(32)【優先日】2021-06-29

(33)【優先権主張国・地域又は機関】EP

(31)【優先権主張番号】21305895.1

(32)【優先日】2021-06-29

(33)【優先権主張国・地域又は機関】EP

(31)【優先権主張番号】21305896.9

(32)【優先日】2021-06-29

(33)【優先権主張国・地域又は機関】EP

(81)【指定国・地域】

(71)【出願人】

【識別番号】515334773

【氏名又は名称】ユニベルシテドゥカーンノルマンディ

(71)【出願人】

【識別番号】506310061

【氏名又は名称】セントル・ナショナル・ドゥ・ラ・ルシェルシュ・サイエンティフィーク・セエヌアールエス

【氏名又は名称原語表記】ＣＥＮＴＲＥＮＡＴＩＯＮＡＬＤＥＬＡＲＥＣＨＥＲＣＨＥＳＣＩＥＮＴＩＦＩＱＵＥＣＮＲＳ

(71)【出願人】

【識別番号】521366931

【氏名又は名称】エコールナシオナルシュペリウールダンジェニユールドゥカーン

【氏名又は名称原語表記】ＥＣＯＬＥＮＡＴＩＯＮＡＬＥＳＵＰＥＲＩＥＵＲＥＤ’ＩＮＧＥＮＩＥＵＲＳＤＥＣＡＥＮ

(74)【代理人】

【識別番号】110002066

【氏名又は名称】弁理士法人筒井国際特許事務所

(72)【発明者】

【氏名】ムアディブ，アブデル－イラーフ

(72)【発明者】

【氏名】ジャンピエール，ローラン

(57)【要約】

自律システムによって実行されるアクションストラテジを生成するためのシステム及び方法が開示される。アクションストラテジは、異常イベントを検出したことに応答して、対応するアクティブオブジェクティブを遂行するために自律システムによって実施される一連のアクションを含み、異常イベントは、自律システムが動作するように構成される環境において発生しているか、又は発生していたものである。本方法は、異常イベントに対応するイベント記述がポピュレートされた第１のデータベースにアクセスすることと、候補オブジェクティブがポピュレートされた第２のデータベースにアクセスすることと、を含む。各候補オブジェクティブは、自律システムによって遂行可能なタスクを定義し、アクティブ化条件と、対応する候補オブジェクティブを遂行するために、実施されるアクションの階層を記述する漸進的タスクユニット構造と、を含む。アクティブオブジェクティブの漸進的タスクユニット構造からアクションストラテジを生成し、アクションストラテジを実行する候補オブジェクティブの実行。
【選択図】図３

【特許請求の範囲】

【請求項1】

自律システムによって実行されるアクションストラテジを生成するためのコンピュータ実装方法であって、前記アクションストラテジは、対応するアクティブオブジェクティブを遂行するために、前記自律システムによって実施される一連のアクションを含み、前記一連のアクションは、前記自律システムが前記アクティブオブジェクティブを遂行するための限られたリソースを有する場合に、前記自律システムによって実施される１つ以上のリソース制限付きアクションを含み、前記自律システムは、所定の状態変数を検知するように構成された１つ以上の検知デバイスを備え、前記状態変数は、前記自律システムの状態を定義し、
前記方法は、
前記自律システムによって検出されたイベントに対応するイベント記述がポピュレートされた第１のデータベースにアクセスすることであって、前記イベントは、前記自律システムが動作するように構成されている環境において発生しているか、又は発生していたものである、アクセスすることと、
候補オブジェクティブがポピュレートされた第２のデータベースにアクセスすることであって、各候補オブジェクティブは、前記自律システムによって遂行可能なタスクを定義し、
１つ以上のイベント記述に対応するアクティブ化条件であって、前記アクティブ化条件は、前記対応する１つ以上のイベント記述が前記第１のデータベース内で見つかったという判定が行われた場合に満たされる、アクティブ化条件と、
前記対応する候補オブジェクティブを遂行するために、実施されるアクションの階層を記述する漸進的タスクユニット構造であって、前記漸進的タスクユニット構造は、前記自律システムによって実行されるように構成された実行可能モジュールを備え、各実行可能モジュールは、アクションの前記階層のアクションに対応し、前記自律システムの所与の状態に関連付けられ、少なくとも１つの漸進的タスクユニット構造は、アクションストラテジを実施している間に、前記１つ以上の検知デバイスによって検出されている前記自律システムの所与の障害状態に応答して実施されるリソース制限付きアクションに対応する少なくとも１つの障害回復モジュールを備え、前記実行可能モジュール及び障害回復モジュールは、前記アクションストラテジの実施中にどのモジュールが優先的に実行されるべきかを示す実行スコアに関連付けられる、漸進的タスクユニット構造と、を含む、アクセスすることと、
前記イベント記述に基づいて前記１つ以上の候補オブジェクティブの前記アクティブ化条件が満たされるかどうかを判定することによって、前記第２のデータベースから１つ以上の候補オブジェクティブを選択することと、
前記選択された１つ以上の候補オブジェクティブを実行することと、を含み、候補オブジェクティブの実行は、
前記候補オブジェクティブの前記選択を引き起こした前記イベント記述のうちの少なくとも１つのパラメータを、前記選択された候補オブジェクティブに転送し、それによって前記アクティブオブジェクティブを生成することと、
前記漸進的タスクユニット構造からアクションストラテジを生成することであって、前記アクションストラテジは、前記自律システムの障害状態の検出時に、対応するリソース制限付きアクションが実行されるように、前記自律システムの状態に従って実施されるアクションについての情報を含み、前記アクションストラテジの前記一連のアクションは、前記実行可能モジュール及び障害回復モジュールの前記実行スコアに基づいている、生成することと、
前記自律システムの前記状態に基づいて、前記アクションストラテジの前記一連のアクションを実行することと、を含む、
方法。

【請求項2】

前記第１のデータベースのイベント記述は、前記自律システムによって検出された異常イベントに対応し、前記異常イベントの各々は、前記対応するイベントのイベント記述と前記環境のプロパティとの間のコヒーレンスチェック手順の結果に基づいてインコヒーレントとして識別され、前記第１のデータベースへアクセスすることは、前記自律システムによる異常イベントの検出に応答して行われる、
請求項１に記載の方法。

【請求項3】

前記漸進的タスクユニット構造は、
処理レベルの１つ以上のシーケンスであって、処理レベルの各シーケンスは、前記実行可能モジュールのうちの１つ以上を含む、１つ以上のシーケンス、
前記候補オブジェクティブの実行の状態のパラメータを記述する状態変数の集合、
前記第１のデータベースの前記イベント記述のうちの１つ以上に対応する観測可能なプロパティの集合、
又はそれらの組み合わせを更に含む、
請求項１又は２に記載の方法。

【請求項4】

前記漸進的タスクユニット構造の各実行可能モジュールは、前記対応する漸進的タスクユニット構造の前記状態変数の集合のうちの状態変数の部分集合の構成に対応し、所与の実行可能モジュールについて、前記所与の実行可能モジュールに対応する前記アクションの実行時に対応する構成が満たされていないという判定が行われた場合、前記アクションは、前記自律システムの障害として識別される、
請求項３に記載の方法。

【請求項5】

前記候補オブジェクティブのうちの前記少なくとも１つは、実施されるリソース制限付きアクションの階層を含む１つ以上の障害回復漸進的タスクユニット構造を更に含み、各障害回復漸進的タスクユニット構造は、漸進的タスクユニット構造の障害回復モジュールに対応し、前記障害回復モジュールの実行は、前記自律システムによる前記障害回復漸進的タスクユニット構造の前記リソース制限付きアクションの実行を引き起こす、
請求項１～４のいずれか１項に記載の方法。

【請求項6】

前記実行可能モジュールは、対応する実行可能モジュールを実行するための実行スコアに更に関連付けられ、前記実行可能アクションストラテジを生成することは、グローバル実行スコアを最大化することを含み、前記グローバル実行スコアは、前記実行可能モジュールに関連付けられた前記実行スコアの組み合わせである、
請求項１～５のいずれか１項に記載の方法。

【請求項7】

前記実行可能モジュールの前記実行スコアは、前記グローバル実行スコアを決定するために、前記対応する実行可能モジュールの実行確率によって重み付けされ、実行確率は、前記自律システムによる前記対応する実行可能モジュールの実行の確率を記述する、
請求項６に記載の方法。

【請求項8】

前記候補オブジェクティブの前記漸進的タスクユニット構造から前記アクションストラテジを生成することは、
前記漸進的タスクユニット構造から確率的決定プロセスを生成することであって、前記確率的決定プロセスは、少なくとも、
前記漸進的タスクユニット構造の前記実行可能モジュールの前記アクションに対応するアクションのセットと、
前記自律システムの状態を含む状態のセットであって、各状態は、実行可能モジュールの実行の結果に対応する、状態のセットと、
を含む、生成することと、
前記確率的決定プロセスを実行することと、を含む、
請求項１～７のいずれか１項に記載の方法。

【請求項9】

前記確率的決定プロセスは、因数分解マルコフ決定プロセスである、請求項８に記載の方法。

【請求項10】

前記実行可能モジュールに対応する１つ以上のアクションは、１つ以上の候補オブジェクティブの実行を引き起こす、
請求項１～９のいずれか１項に記載の方法。

【請求項11】

１つ以上の対応するタスクを遂行することによって１つ以上のオブジェクティブを満たすために自律システムによって実行されるアクションを計画するためのコンピュータ実装方法であって、
前記方法は、
１つ以上のオブジェクティブのセットにアクセスすることであって、前記１つ以上のオブジェクティブの各々は、前記対応する１つ以上のオブジェクティブの特性を識別するパラメータを含む、アクセスすることと、
漸進的タスクユニット構造を含む第１のデータベースにアクセスすることであって、各漸進的タスクユニット構造は、実行可能モジュール及び障害回復モジュールによって記述される対応するタスクを遂行するためのアクションの階層を含み、各実行可能モジュールは、アクションの前記階層のリソース制限付きアクションを実施するために前記自律システムによって実行されるように構成され、各障害回復モジュールは、前記自律システムが、前記対応するタスクの遂行を追求するために実行可能モジュールに対応するアクションを実施することに失敗したという判定が行われた場合、前記自律システムによって実行されるように構成される、アクセスすることと、
実施されるリソース制限付きアクションの階層を含む障害回復漸進的タスクユニット構造を含む第２のデータベースにアクセスすることであって、各障害回復漸進的タスクユニット構造は、漸進的タスクユニット構造の障害回復モジュールに対応し、前記障害回復モジュールの実行は、前記自律システムによる前記リソース制限付きアクションの実行を引き起こす、アクセスすることと、
前記１つ以上のオブジェクティブの前記パラメータに基づいて前記第１のデータベースから１つ以上の漸進的タスクユニット構造を選択することであって、各オブジェクティブは、漸進的タスクユニット構造に対応する、選択することと、
前記選択された１つ以上の漸進的タスクユニット構造を実行することであって、前記実行は、
前記選択された１つ以上の漸進的タスクユニット構造から１つ以上の確率的決定プロセスを生成することであって、各確率的決定プロセスは、
前記漸進的タスクユニット構造の前記実行可能モジュール及び障害回復モジュールの前記アクションに対応するアクションのセットと、
前記実行可能モジュールの前記アクションの結果に対応する状態のセットと、を含む、生成することと、
前記自律システムの現在の状態に基づいて、前記アクションのセットのうちの１つ以上のアクションを実施することによって、前記１つ以上の確率的決定プロセスを実行することと、を含む、実行することと、
前記選択された１つ以上の漸進的タスクユニット構造を実行する際に、前記自律システムが障害回復モジュールに対応するアクションを実施するという判定が行われた場合、前記障害回復モジュールの前記障害回復漸進的タスクユニット構造の前記リソース制限付きアクションの階層を実行することと、を含む、
方法。

【請求項12】

前記対応する障害回復漸進的タスクユニット構造のリソース制限付きアクションの前記階層を実行することは、
前記障害回復漸進的タスクユニット構造から確率的決定プロセスを生成することであって、前記確率的決定プロセスは、
前記障害回復漸進的タスクユニット構造の前記リソース制限付きアクションに対応するアクションのセットと、
前記リソース制限付きアクションの結果に対応する状態のセットと、を含む、生成することと、
前記自律システムの現在の状態に基づいてアクションの前記セットのうちの１つ以上のアクションを実施することによって、前記確率的決定プロセスを実行することと、を含む、
請求項１１に記載の方法。

【請求項13】

各実行可能モジュールは、前記候補オブジェクティブの実行の状態のパラメータを記述する状態変数の部分集合に関連付けられ、
前記選択された１つ以上の漸進的タスクユニット構造から１つ以上の確率的決定プロセスを生成することは、所定の状態変数に対応する前記選択された１つ以上の漸進的タスクユニット構造の実行可能モジュールを選択することを含む、
請求項１１又は１２に記載の方法。

【請求項14】

命令を含むコンピュータ可読サポートであって、前記命令が実行されると、請求項１～１３のいずれか１項に記載の方法のステップをコンピュータに実行させる、
コンピュータ可読サポート。

【請求項15】

自律システムによって実行されるアクションストラテジを生成するためのシステムであって、前記システムは、プロセッサと、前記プロセッサによって実行されると、前記システムに請求項１～１４のいずれか１項に記載の方法を実施させる命令を記憶するように構成されたメモリと、を備える、
システム。

【請求項16】

自律システムによって実行されるアクションストラテジを生成するためのコンピュータ実装方法であって、前記アクションストラテジは、対応するアクティブオブジェクティブを遂行するために前記自律システムによって実施される一連のアクションを含み、
前記方法は、
前記自律システムによって検出されたイベントに対応するイベント記述がポピュレートされた第１のデータベースにアクセスすることであって、前記イベントは、前記自律システムが動作するように構成されている環境において発生しているか、又は発生していたものである、アクセスすることと、
候補オブジェクティブがポピュレートされた第２のデータベースにアクセスすることであって、各候補オブジェクティブは、前記自律システムによって達成可能なタスクを定義し、
１つ以上のイベント記述に対応するアクティブ化条件であって、前記対応する１つ以上のイベント記述が前記第１のデータベース内で見つかったという判定が行われた場合に満たされる、アクティブ化条件と、
前記対応する候補オブジェクティブを遂行するために、実施されるアクションの階層を記述する漸進的タスクユニット構造であって、前記漸進的タスクユニット構造は、アクションの前記対応する階層を実施するために、前記自律システムによって実行されるように構成された実行可能モジュールを備え、各実行可能モジュールは、アクションの前記階層のアクションに対応する、漸進的タスクユニット構造と、を含む、アクセスすることと、
前記イベント記述に基づいて前記１つ以上の候補オブジェクティブの前記アクティブ化条件が満たされるかどうかを判定することによって、前記第２のデータベースから１つ以上の候補オブジェクティブを選択することと、
前記１つ以上の候補オブジェクティブを実行することと、を含み、候補オブジェクティブの実行は、
前記候補オブジェクティブの前記選択を引き起こした前記イベント記述のうちの少なくとも１つのパラメータを前記候補オブジェクティブに転送し、それによってアクティブオブジェクティブを定義することと、
前記アクティブオブジェクティブの前記漸進的タスクユニット構造からアクションストラテジを生成することであって、前記アクションストラテジの一連のアクションは、前記漸進的タスクユニット構造の前記実行可能モジュールに対応するアクションに対応する、生成することと、
前記アクションストラテジの前記一連のアクションを実行することと、を含む、
方法。

【請求項17】

【請求項18】

【請求項19】

【請求項20】

前記候補オブジェクティブのうちの少なくとも１つの前記漸進的タスクユニット構造は、前記自律システムの対応する障害から回復するために前記自律システムによって実行されるように構成された障害回復モジュールを更に含み、
前記自律システムの前記対応する障害は、前記状態変数の集合と、前記少なくとも１つの漸進的タスクユニット構造の前記実行可能モジュールに対応する状態変数の部分集合の構成との不一致に基づいて識別される、
請求項１９に記載の方法。

【請求項21】

前記候補オブジェクティブのうちの前記少なくとも１つは、実施されるリソース制限付きアクションの階層を含む１つ以上の障害回復漸進的タスクユニット構造を更に含み、
各障害回復漸進的タスクユニット構造は、漸進的タスクユニット構造の障害回復モジュールに対応し、前記障害回復モジュールの実行は、前記自律システムによる前記障害回復漸進的タスクユニット構造の前記リソース制限付きアクションの実行を引き起こす、
請求項２０に記載の方法。

【請求項22】

【請求項23】

前記実行可能モジュールの前記実行スコアは、前記グローバル実行スコアを決定するために、前記対応する実行可能モジュールの実行確率によって重み付けされ、実行確率は、前記自律システムによる前記対応する実行可能モジュールの実行の確率を記述する、
請求項２２に記載の方法。

【請求項24】

【請求項25】

前記確率的決定プロセスは、因数分解マルコフ決定プロセスである、
請求項２４に記載の方法。

【請求項26】

前記実行可能モジュールに対応する１つ以上のアクションは、１つ以上の候補オブジェクティブの実行を引き起こす、
請求項１６～２５のいずれか１項に記載の方法。

【請求項27】

自律システムによって実行されるアクションストラテジを生成するためのシステムであって、前記システムは、プロセッサと、前記プロセッサによって実行されると、前記システムに請求項１６～２６のいずれか１項に記載の方法を実施させる命令を記憶するように構成されたメモリと、を備える、
システム。

【発明の詳細な説明】

【技術分野】

【0001】

(関連出願の相互参照)
本特許出願は、２０２１年６月２９日に出願された欧州特許出願第２１３０５８９３.６号、２０２１年６月２９日に出願された欧州特許出願第２１３０５８９４.４号、２０２１年６月２９日に出願された欧州特許出願第２１３０５８９５.１号、及び２０２１年６月２９日に出願された欧州特許出願第２１３０５８９６.９号の優先権を主張するものであり、これらの内容全体は、参照により本明細書に組み込まれる。

【0002】

本技術は、アクションストラテジを生成するためのシステム及び方法に関し、より具体的には、それらの環境内で対話するインテリジェント自律システムに関する。

【背景技術】

【0003】

自律意思決定プロセスにおける最近の開発は、自律システムの開発における大きな一歩である。潜在的な用途は、支援人間型ロボットシステム、又はネットワークフロー監視及び管理システムなどであるが、それらに限定されない、広範囲のドメインを網羅している。自律システムは、事前定義されたルール及び/又は変化するルールを遵守しながら、ユーザ、対話する人間、又は支援を必要とする任意の物体を満足させるタスクを実施することが期待されている。種々のアクティビティを扱うために開発されたかかる自律システムは、データを処理し、最適なアクションストラテジを生成するために使用される、１つ以上のデータ処理及び意思決定ユニットを含む。

【0004】

上記で特定された最近の開発が利益を提供し得るとしても、依然として改善が望まれている。

【0005】

背景技術の節で考察された主題は、単に背景技術の節で言及したことの結果として先行技術であると想定されるべきではない。同様に、背景技術の節で言及された問題、又は背景技術の節の主題に関連する問題は、従来技術において以前に認識されていたと想定されるべきではない。背景技術の節における主題は、単に異なる手法を表すものである。

【発明の概要】

【0006】

本技術の実施形態は、従来技術に関連する欠点についての開発者の認識に基づいて開発されている。

【0007】

特に、かかる欠点は、(１)予想されないイベントに直面したときに反応することができないこと、(２)所与の環境において動作している間に潜在的な中断をもたらすアクションストラテジを確立するための長い計算時間、及び/又は(３)動的環境におけるアクションの静的ストラテジの不適切性を含み得る。

【0008】

第１の態様では、本技術の種々の実装形態は、自律システムによって実行されるアクションストラテジを生成するための方法を提供し、アクションストラテジは、異常イベントを検出したことに応答して、対応するアクティブオブジェクティブを遂行するために自律システムによって実施される一連のアクションを含み、異常イベントは、自律システムが動作するように構成される環境において発生しているか、又は発生していたものであり、異常イベントは、対応するイベントの記述と環境の特性との間のコヒーレンスチェック手順の結果に基づいて、インコヒーレントとして識別される。

【0009】

本方法は、自律システムによって検出された異常イベントに対応するイベント記述がポピュレートされた第１のデータベースにアクセスすることを含む。

【0010】

本方法は、候補オブジェクティブがポピュレートされた第２のデータベースにアクセスすることを含む。各候補オブジェクティブは、自律システムによって遂行可能なタスクを定義し、１つ以上のイベント記述に対応するアクティブ化条件であって、対応する１つ以上のイベント記述が第１のデータベース内で見つかったという判定が行われた場合に満たされる、アクティブ化条件と、対応する候補オブジェクティブを遂行するために実施されるアクションの階層を記述する漸進的タスクユニット構造であって、漸進的タスクユニット構造は、アクションの対応する階層を実施するために、自律システムによって実行されるように構成された実行可能モジュールを備え、各実行可能モジュールは、アクションの階層のアクションに対応する、漸進的タスクユニット構造と、を含む。

【0011】

本方法は、イベント記述に基づいて１つ以上の候補オブジェクティブのアクティブ化条件が満たされるかどうかを判定することによって、第２のデータベースから１つ以上の候補オブジェクティブを選択することと、１つ以上の候補オブジェクティブを実行することと、を含む。候補オブジェクティブの実行は、候補オブジェクティブの選択を引き起こしたイベント記述のうちの少なくとも１つのパラメータを候補オブジェクティブに転送し、それによってアクティブオブジェクティブを定義することと、アクティブオブジェクティブの漸進的タスクユニット構造からアクションストラテジを生成することであって、アクションストラテジの一連のアクションは、漸進的タスクユニット構造の実行可能モジュールに対応するアクションに対応する、生成すること、アクションストラテジの一連のアクションを実行することと、を含む。

【0012】

本方法の一部の実施形態では、第１のデータベースのイベント記述は、自律システムによって検出された異常イベントに対応し、異常イベントの各々は、対応するイベントのイベント記述と環境のプロパティとの間のコヒーレンスチェック手順の結果に基づいてインコヒーレントとして識別され、第１のデータベースへアクセスすることは、自律システムによる異常イベントの検出に応答して行われる。

【0013】

本方法の一部の実施形態では、漸進的タスクユニット構造は、処理レベルの１つ以上のシーケンスを更に含み、処理レベルの各シーケンスは、実行可能モジュールのうちの１つ以上、候補オブジェクティブの実行の状態のパラメータを記述する状態変数の集合、観測可能なプロパティの集合、第１のデータベースのイベント記述のうちの１つ以上に対応する観測可能なプロパティ、又はそれらの組み合わせを含む。

【0014】

漸進的タスクユニット構造の本方法の一部の実施形態では、各実行可能モジュールは、対応する漸進的タスクユニット構造の状態変数の集合のうちの状態変数の部分集合の構成に対応し、所与の実行可能モジュールについて、所与の実行可能モジュールに対応するアクションの実行時に対応する構成が満たされていないという判定が行われた場合、当該アクションは、自律システムの障害として識別される。

【0015】

本方法の一部の実施形態では、候補オブジェクティブのうちの少なくとも１つの漸進的タスクユニット構造は、自律システムの対応する障害から回復するために自律システムによって実行されるように構成された障害回復モジュールを更に含み、自律システムの対応する障害は、状態変数の集合と、少なくとも１つの漸進的タスクユニット構造の実行可能モジュールに対応する状態変数の部分集合の構成との不一致に基づいて識別される。

【0016】

本方法の一部の実施形態では、候補オブジェクティブのうちの少なくとも１つは、実施されるリソース制限付きアクションの階層を含む１つ以上の障害回復漸進的タスクユニット構造を更に含み、各障害回復漸進的タスクユニット構造は、漸進的タスクユニット構造の障害回復モジュールに対応し、障害回復モジュールの実行は、自律システムによる障害回復漸進的タスクユニット構造のリソース制限付きアクションの実行を引き起こす。

【0017】

本方法の一部の実施形態では、実行可能モジュールは、対応する実行可能モジュールを実行するための実行スコアに更に関連付けられ、実行可能アクションストラテジを生成することは、グローバル実行スコアを最大化することを含み、グローバル実行スコアは、実行可能モジュールに関連付けられた実行スコアの組み合わせである。

【0018】

本方法の一部の実施形態では、実行可能モジュールの実行スコアは、グローバル実行スコアを決定するために、対応する実行可能モジュールの実行確率によって重み付けされ、実行確率は、自律システムによる対応する実行可能モジュールの実行の確率を記述する。

【0019】

本方法の一部の実施形態では、候補オブジェクティブの漸進的タスクユニット構造からアクションストラテジを生成することは、漸進的タスクユニット構造から確率的決定プロセスを生成することを含む。確率的決定プロセスは、少なくとも、漸進的タスクユニット構造の実行可能モジュールのアクションに対応するアクションのセットと、自律システムの状態を含む状態のセットとを含み、各状態は、実行可能モジュールの実行の結果に対応する。

【0020】

本方法は、確率的決定プロセスを実行することを含む。

【0021】

本方法の一部の実施形態では、確率的決定プロセスは、因数分解マルコフ決定プロセスである。

【0022】

本方法の一部の実施形態では、実行可能モジュールに対応する１つ以上のアクションは、１つ以上の候補オブジェクティブの実行を引き起こす。

【0023】

第２の態様では、本技術の種々の実装形態は、１つ以上の対応するタスクを遂行することによって、１つ以上のオブジェクティブを満たすように、自律システムによって実行されるアクションを計画するためのコンピュータ実装方法を提供する。

【0024】

本方法は、１つ以上のオブジェクティブのセットにアクセスすることを含む。１つ以上のオブジェクティブの各々は、対応する１つ以上のオブジェクティブの特性を識別するパラメータを含む。

【0025】

本方法は、漸進的タスクユニット構造を含む第１のデータベースにアクセスすることを含み、各漸進的タスクユニット構造は、実行可能モジュール及び障害回復モジュールによって記述される対応するタスクを遂行するためのアクションの階層を含み、各実行可能モジュールは、アクションの階層のリソース制限付きアクションを実施するために自律システムによって実行されるように構成される。各障害回復モジュールは、自律システムが、対応するタスクの遂行を追求するために、実行可能モジュールに対応するアクションを実施することに失敗したという判定が行われた場合、自律システムによって実行されるように構成される。

【0026】

本方法は、実施されるリソース制限付きアクションの階層を含む障害回復漸進的タスクユニット構造を含む第２のデータベースにアクセスすることを含み、各障害回復漸進的タスクユニット構造は、漸進的タスクユニット構造の障害回復モジュールに対応する。障害回復モジュールの実行は、自律システムによるリソース制限付きアクションの実行を引き起こす。

【0027】

本方法は、１つ以上のオブジェクティブのパラメータに基づいて第１のデータベースから１つ以上の漸進的タスクユニット構造を選択することであって、各オブジェクティブは、漸進的タスクユニット構造に対応する、選択することと、選択された１つ以上の漸進的タスクユニット構造を実行することと、を含む。実行は、選択された１つ以上の漸進的タスクユニット構造から１つ以上の確率的決定プロセスを生成することを含む。各確率的決定プロセスは、漸進的タスクユニット構造の実行可能モジュール及び障害回復モジュールのアクションに対応するアクションのセットと、実行可能モジュールのアクションの結果に対応する状態のセットと、を含む。

【0028】

本方法は、自律システムの現在の状態に基づいてアクションのセットのうちの１つ以上のアクションを実施することによって、１つ以上の確率的決定プロセスを実行することと、選択された１つ以上の漸進的タスクユニット構造を実行する際に、自律システムが障害回復モジュールに対応するアクションを実施するという判定が行われた場合、障害回復モジュールの障害回復漸進的タスクユニット構造のリソース制限付きアクションの階層を実行することと、を含む。

【0029】

本方法の一部の実施形態では、対応する障害回復漸進的タスクユニット構造のリソース制限付きアクションの階層を実行することは、障害回復漸進的タスクユニット構造から確率的決定プロセスを生成することを含む。確率的決定プロセスは、障害回復漸進的タスクユニット構造のリソース制限付きアクションに対応するアクションのセットと、リソース制限付きアクションの結果に対応する状態のセットと、を含む。

【0030】

本方法は、自律システムの現在の状態に基づいてアクションのセットのうちの１つ以上のアクションを実施することによって確率的決定プロセスを実行することを含む。

【0031】

本方法の一部の実施形態では、確率的決定プロセスは、因数分解マルコフ決定プロセスである。

【0032】

本方法の一部の実施形態では、各実行可能モジュールは、候補オブジェクティブの実行の状態のパラメータを記述する状態変数の部分集合に関連付けられ、選択された１つ以上の漸進的タスクユニット構造から１つ以上の確率的決定プロセスを生成することは、所定の状態変数に対応する選択された１つ以上の漸進的タスクユニット構造の実行可能モジュールを選択することを含む。

【0033】

第３の態様では、本技術の種々の実装形態は、自律システムによって実行されるアクションストラテジを生成するためのコンピュータ実装方法を提供し、アクションストラテジは、対応するアクティブオブジェクティブを遂行するために、自律システムによって実施される一連のアクションを含み、一連のアクションは、自律システムがアクティブオブジェクティブを遂行するための限られたリソースを有する場合に、自律システムによって実施される１つ以上のリソース制限付きアクションを含み、自律システムは、所定の状態変数を検知するように構成された１つ以上の検知デバイスを備え、状態変数は、自律システムの状態を定義する。

【0034】

本方法は、自律システムによって検出されたイベントに対応するイベント記述がポピュレートされた第１のデータベースにアクセスすることであって、イベントは、自律システムが動作するように構成される環境内で発生しているか、又は発生していたものである、アクセスすることと、候補オブジェクティブがポピュレートされた第２のデータベースにアクセスすることと、を含む。

【0035】

各候補オブジェクティブは、自律システムによって遂行可能なタスクを定義し、１つ以上のイベント記述に対応するアクティブ化条件であって、アクティブ化条件は、対応する１つ以上のイベント記述が第１のデータベース内で見つかったという判定が行われた場合に満たされる、アクティブ化条件と、対応する候補オブジェクティブを遂行するために、実施されるアクションの階層を記述する漸進的タスクユニット構造であって、漸進的タスクユニット構造は、自律システムによって実行されるように構成された実行可能モジュールを備え、各実行可能モジュールは、アクションの階層のアクションに対応し、自律システムの所与の状態に関連付けられ、少なくとも１つの漸進的タスクユニット構造は、アクションストラテジを実施している間に、１つ以上の検知デバイスによって検出されている自律システムの所与の障害状態に応答して実施されるリソース制限付きアクションに対応する少なくとも１つの障害回復モジュールを備え、実行可能モジュール及び障害回復モジュールは、アクションストラテジの実施中にどのモジュールが優先的に実行されるべきかを示す実行スコアに関連付けられる、漸進的タスクユニット構造と、を含む。

【0036】

本方法は、イベント記述に基づいて１つ以上の候補オブジェクティブのアクティブ化条件が満たされるかどうかを判定することによって、第２のデータベースから１つ以上の候補オブジェクティブを選択することと、１つ以上の候補オブジェクティブを実行することと、を更に含む。

【0037】

候補オブジェクティブの実行は、候補オブジェクティブの選択を引き起こしたイベント記述のうちの少なくとも１つのパラメータを選択された候補オブジェクティブに転送し、それによってアクティブオブジェクティブを生成することと、漸進的タスクユニット構造からアクションストラテジを生成することであって、アクションストラテジは、自律システムの障害状態の検出時に、対応するリソース制限付きアクションが実行されるように、自律システムの状態に従って実施されるアクションについての情報を含み、アクションストラテジの一連のアクションは、実行可能モジュール及び障害回復モジュールの実行スコアに基づいている、生成することと、自律システムの状態に基づいてアクションストラテジの一連のアクションを実行することと、を含む。

【0038】

第４の態様では、本技術の種々の実装形態は、自律システムによって実行されるアクションストラテジを生成するためのシステムを提供し、システムは、プロセッサと、プロセッサによって実行されると、システムに方法を実施させる命令を記憶するように構成される、メモリと、を備える。

【0039】

第５の態様では、本技術の種々の実装形態は、命令を実行すると、コンピュータに方法のステップを実行させる命令を含むコンピュータ可読サポートを提供する。

【0040】

本明細書の文脈では、明示的に別段の定めをした場合を除き、コンピュータシステムは、限定はしないが、「電子デバイス」、「オペレーティングシステム」、「システム」、「コンピュータベースのシステム」、「コントローラユニット」、「監視デバイス」、「制御デバイス」、及び/又は当面の関連タスクに適したそれらの任意の組み合わせを指すことができる。

【0041】

本明細書の文脈において、明示的に別段の定めをした場合を除き、「コンピュータ可読媒体」及び「メモリ」という表現は、任意の性質及び種類の媒体を含むことが意図されており、その非限定的な例には、ＲＡＭ、ＲＯＭ、ディスク(ＣＤ－ＲＯＭ、ＤＶＤ、フロッピーディスク、ハードディスクドライブなど)、ＵＳＢキー、フラッシュメモリカード、ソリッドステートドライブ、及びテープドライブが含まれる。

【0042】

更に、本明細書の文脈において、「１つの(ａ)」コンピュータ可読媒体及び「その(ｔｈｅ)」コンピュータ可読媒体は、同じコンピュータ可読媒体であると解釈されるべきでない。反対に、適切な場合にはいつでも、「１つの(ａ)」コンピュータ可読媒体及び「その(ｔｈｅ)」コンピュータ可読媒体は、第１のコンピュータ可読媒体及び第２のコンピュータ可読媒体と解釈することもできる。

【0043】

本明細書の文脈では、明示的に別段の定めをした場合を除き、「第１の」、「第２の」、「第３の」などの語は、それらが修飾する名詞を互いに区別することを可能にする目的のみのために形容詞として使用されており、それらの名詞間の任意の特定の関係を説明する目的のためではない。

【0044】

本技術の実装形態は、それぞれ、上述の目的及び/又は態様のうちの少なくとも１つを有するが、必ずしもそれらの全てを有するとは限らない。上述の目的を達成しようとする試みから生じた本技術の一部の態様は、この目的を満足させない場合があり、かつ/又は本明細書に具体的に列挙されていない他の目的を満足させる場合があることを理解されたい。

【0045】

本技術の実装形態の追加及び/又は代替の特徴、態様、及び利点は、以下の説明、添付の図面、及び添付の特許請求の範囲から明らかになるであろう。

【図面の簡単な説明】

【0046】

本技術、並びに本技術の他の態様及び更なる特徴をよりよく理解するために、添付の図面と併せて使用される以下の説明を参照する。

【0047】

【図1】本技術の一実施形態による使用に好適なコンピュータシステムである。

【図2】本技術の一実施形態による、自律システムの高レベル概略図である。

【図3】本技術の一実施形態による、漸進的タスクユニット構造の高レベル概略図である。

【図4】本技術の一実施形態による、漸進的タスクユニット構造の記述的表である。

【図5】本技術の一実施形態による、アクションストラテジを生成するための方法の動作を示すシーケンス図である。

【図6】本技術の一実施形態による、アクションストラテジの表現である。

【図7】本技術の一実施形態による、別のアクションストラテジの表現である。

【図8】本技術の一実施形態による、アクションストラテジの有限状態機械である。

【0048】

また、本明細書で明示的に指定されない限り、図面は一定の縮尺ではないことに留意されたい。

【発明を実施するための形態】

【0049】

本明細書に列挙される例及び条件付き言語は、主に、読者が本技術の原理を理解するのを助けることを意図しており、その範囲をかかる具体的に列挙された例及び条件に限定することを意図していない。当業者は、本明細書に明示的に記載又は図示されているが、本技術の原理を具現化するにもかかわらず種々の配置を考案し得ることを理解するであろう。

【0050】

更に、理解を助けるものとして、以下の説明は、本技術の比較的簡略化された実装形態を説明し得る。当業者が理解するように、本技術の種々の実装形態は、より複雑であり得る。

【0051】

場合によっては、本技術に対する修正の有用な例であると考えられるものも記載され得る。これは、単に理解を助けるために行われるものであり、やはり、本技術の範囲を定義するものでも、本技術の境界を示すものでもない。これらの修正は網羅的なリストではなく、当業者は、それでもなお本技術の範囲内に留まりながら他の修正を行うことができる。更に、修正の例が記載されていない場合、修正が可能でないこと、及び/又は記載されているものが本技術のその要素を実装する唯一の様式であることを解釈すべきではない。

【0052】

更に、本技術の原理、態様、及び実装形態、並びにそれらの特定の例を列挙する本明細書の全ての記述は、それらが現在知られているか、又は将来開発されるかにかかわらず、それらの構造的均等物と機能的均等物の両方を包含するものとする。したがって、例えば、本明細書における任意のブロック図は、本技術の原理を具現化する例示的な回路の概念図を表すことが当業者によって理解されるであろう。同様に、任意のフローチャート、フロー図、状態遷移図、擬似コードなどは、非一時的コンピュータ可読媒体において実質的に表され、したがって、コンピュータ又はプロセッサが明示的に示されているか否かにかかわらず、かかるコンピュータ又はプロセッサによって実行され得る種々のプロセスを表すことが理解されよう。

【0053】

「プロセッサ」とラベル付けされた任意の機能ブロックを含む、図に示される種々の要素の機能は、専用ハードウェア、並びに適切なソフトウェアに関連してソフトウェアを実行することが可能なハードウェアの使用を通じて提供され得る。プロセッサによって提供されるとき、機能は、単一の専用プロセッサによって、単一の共有プロセッサによって、又はそのうちの一部が共有され得る複数の個々のプロセッサによって提供され得る。

【0054】

本技術の一部の実施形態では、プロセッサは、中央処理装置(ＣＰＵ)などの汎用プロセッサ、又はデジタルシグナルプロセッサ(ＤＳＰ)などの特定の目的に専用のプロセッサであってもよい。更に、「プロセッサ」という用語の明示的な使用は、ソフトウェアを実行することが可能なハードウェアを排他的に指すと解釈されるべきではなく、限定はしないが、特定用途向けＩＣ(ＡＳＩＣ)、フィールドプログラマブルゲートアレイ(ＦＰＧＡ)、ソフトウェアを記憶するための読み出し専用メモリ(ＲＯＭ)、ランダムアクセスメモリ(ＲＡＭ)、及び不揮発性ストレージを暗黙的に含み得る。従来型及び/又はカスタムの他のハードウェアも含まれ得る。

【0055】

ソフトウェアモジュール、又は単にソフトウェアであることが暗示されるモジュールは、本明細書では、プロセスステップ及び/又はテキスト記述の実施を示すフローチャート要素又は他の要素の任意の組み合わせとして表され得る。かかるモジュールは、明示的又は暗示的に示されるハードウェアによって実行され得る。更に、モジュールは、例えば、限定はしないが、必要とされる能力を提供する電算プログラム論理、電算プログラム命令、ソフトウェア、スタック、ファームウェア、ハードウェア回路、又はそれらの組み合わせを含み得ることを理解されたい。

【0056】

本技術は、自律システムが、利用可能なリソースに基づいて、最適なアクションストラテジ又は「アクションポリシー」を生成及び実行することを可能にすることによって、かかるシステムにより多くの自己充足性を提供する。アクションストラテジは、タスクを遂行するために実施される一連のアクションを含むことができ、アクションの実行は、他のアクションの結果、利用可能なリソース、及び/又は他の可能な実行条件などの実行条件に基づいて、リアルタイムで、又はほぼリアルタイムで調整することができる。アクションストラテジは、アクション計画とも称されることがあり、任意の時点で調整することができる。したがって、システムは、周囲環境を検知し、それと相互作用することが可能であり得る。

【0057】

加えて、本技術に従って実装される自律システムは、最も効率的かつ満足のいく様式でタスクを遂行するために、リアルタイムでストラテジを適応させ、予想されないイベント又は「異常」イベント及び/又は状態に反応することが可能であり得る。更に、自律システムは、タスクの実行前又は実行中に生じる状況に応答することが可能であり得る。

【0058】

本開示の種々の態様は、概して、従来の自律システムに見られる問題のうちの１つ以上に対処する。この目的を達成するために、本開示は、他の態様の中でもとりわけ、支援アクションストラテジを生成及び実行するように構成されたインテリジェント自律システムを導入する。

【0059】

これらの基礎を適所に置いて、次に、本技術の態様の種々の実装形態を例示するために、一部の非限定的な例を検討する。

【0060】

図１を参照すると、本技術の少なくとも一部の実施形態による使用に好適なコンピュータシステム１００が示されている。コンピュータシステム１００は、従来のパーソナルコンピュータ、ネットワークデバイス、及び/又は電子デバイス(モバイルデバイス、タブレットデバイス、サーバ、コントローラユニット、制御デバイスなどであるが、それらに限定されない)、及び/又は当面の関連タスクに適切なそれらの任意の組み合わせのうちのいずれかによって実装されてもよい。

【0061】

一部の実施形態では、コンピュータシステム１００は、プロセッサ１１０によって集合的に表される１つ以上のシングル又はマルチコアプロセッサ、ソリッドステートドライブ１２０、ランダムアクセスメモリ１３０、及び入力/出力インターフェース１５０を含む、種々のハードウェア構成要素を備える。コンピュータシステム１００は、機械学習アルゴリズム(ＭＬＡ)を動作させるように特に設計されたコンピュータとすることができる。コンピュータシステム１００は、汎用コンピュータシステムであり得る。コンピュータシステム１００は、ロボット車両に統合されてもよく、かつ/又はロボット車両を制御するように構成されてもよい。

【0062】

一部の実施形態では、コンピュータシステム１００は、上に列挙したシステムのうちの１つのサブシステムであり得る。一部の他の実施形態では、コンピュータシステム１００は、「既製の(ｏｆｆ－ｔｈｅ－ｓｈｅｌｆ)」汎用コンピュータシステムであり得る。一部の実施形態では、コンピュータシステム１００はまた、複数のシステム間に分散されてもよい。コンピュータシステム１００はまた、本技術の実装形態に特に専用であってもよい。本技術の当業者が理解し得るように、本技術の範囲から逸脱することなく、コンピュータシステム１００がどのように実装されるかに関する複数の変形形態が想定され得る。

【0063】

当業者は、プロセッサ１１０が概して処理能力を表すことを理解するであろう。一部の実施形態では、１つ以上の従来の中央処理装置(ＣＰＵ)の代わりに、又はそれに加えて、１つ以上の特殊処理コアが、提供されてもよい。例えば、１つ以上のグラフィック処理ユニット１１１(ＧＰＵ)、テンソル処理ユニット(ＴＰＵ)、及び/又は他のいわゆる加速プロセッサ(又は処理アクセラレータ)が、１つ以上のＣＰＵに加えて、又はその代わりに提供されてもよい。

【0064】

システムメモリは、典型的には、ランダムアクセスメモリ１３０を含むことになるが、より一般的には、静的ランダムアクセスメモリ(ＳＲＡＭ)、動的ランダムアクセスメモリ(ＤＲＡＭ)、シンクロナスＤＲＡＭ(ＳＤＲＡＭ)、読み出し専用メモリ(ＲＯＭ)、又はそれらの組み合わせなど、任意のタイプの非一時的システムメモリを包含することが意図される。

【0065】

ソリッドステートドライブ１２０は、大容量ストレージデバイスの一例として示されているが、より一般的には、かかる大容量ストレージは、データ、プログラム、及び他の情報を記憶し、データ、プログラム、及び他の情報を、システムバス１６０を介してアクセス可能にするように構成された任意のタイプの非一時的ストレージデバイスを備え得る。例えば、大容量ストレージは、ソリッドステートドライブ、ハードディスクドライブ、磁気ディスクドライブ、及び/又は光ディスクドライブのうちの１つ以上を備え得る。

【0066】

コンピュータシステム１００の種々の構成要素間の通信は、種々のハードウェア構成要素が電子的に結合される１つ以上の内部バス及び/又は外部バス(例えば、ＰＣＩバス、ユニバーサルシリアルバス、ＩＥＥＥ１３９４「ファイアワイヤ」バス、ＳＣＳＩバス、シリアルＡＴＡバス、ＡＲＩＮＣバスなど)を備えるシステムバス接続１６０によって可能にされ得る。

【0067】

入力/出力インターフェース１５０は、有線又は無線アクセスなどのネットワーキング能力を提供することができる。一例として、入力/出力インターフェース１５０は、限定はしないが、ネットワークポート、ネットワークソケット、ネットワークインターフェースコントローラなどのネットワーキングインターフェースを含み得る。ネットワーキングインターフェースがどのように実装され得るかの複数の例が、本技術の当業者には明らかになるであろう。

【0068】

例えば、ネットワーキングインターフェースは、イーサネット、ファイバチャネル、Ｗｉ－Ｆｉ又は任意の他の無線データリンクプロトコル、トークンリング又はシリアル通信プロトコルのような特定の物理層及びデータリンク層標準を実装することができる。特定の物理層及びデータリンク層は、完全なネットワークプロトコルスタックのためのベースを提供することができ、同じローカルエリアネットワーク(ＬＡＮ)上のコンピュータの小グループ間の通信、及びインターネットプロトコル(ＩＰ)などのルーティング可能なプロトコルを介した大規模ネットワーク通信を可能にする。

【0069】

入力/出力インターフェース１５０は、タッチスクリーン１９０に、並びに/あるいは１つ以上の内部及び/又は外部バス１６０に結合され得る。タッチスクリーン１９０は、ディスプレイの一部であり得る。

【0070】

一部の実施形態では、タッチスクリーン１９０はディスプレイである。タッチスクリーン１９０は、同様にスクリーン１９０と称されることがある。図１に例示する実施形態では、タッチスクリーン１９０は、タッチハードウェア１９４(例えば、ユーザとディスプレイとの間の物理的相互作用の検出を可能にする、ディスプレイの層内に埋め込まれた感圧セル)と、ディスプレイインターフェース１４０並びに/又は１つ以上の内部及び/若しくは外部バス１６０との通信を可能にする、タッチ入力/出力コントローラ１９２と、を備える。

【0071】

一部の実施形態では、入力/出力インターフェース１５０は、タッチスクリーン１９０に加えて、又はその代わりに、キーボード(図示せず)、マウス(図示せず)、トラックパッド(図示せず)、音声ヒューマンマシンインターフェース(ＨＭＩ)(図示せず)、及び/又はユーザがコンピュータシステム１００と対話することを可能にするのに好適な任意の他のデバイスに接続されてもよい。

【0072】

本技術の一部の実装形態によれば、ソリッドステートドライブ１２０は、本明細書で説明される１つ以上の方法の行為を実行するために、ランダムアクセスメモリ１３０にロードされ、プロセッサ１１０によって実行されるのに好適なプログラム命令を記憶する。例えば、プログラム命令の少なくとも一部は、ライブラリ又はアプリケーションの一部であってもよい。

【0073】

図２は、本技術の一実施形態による自律システム２００の高レベル概略図を例示している。自律システム２００は、コンピュータシステム２１０を備え得る。コンピュータシステム２１０は、コンピュータシステム１００であってもよく、かつ/又はコンピュータシステム１００の構成要素の一部又は全部を含んでもよい。コンピュータシステム２１０は、自律システム２００に対して内部にあっても外部にあってもよい。一実施形態では、コンピュータシステム２１０は、外部にあり、ネットワーク(図示せず)を介して複数の自律システム２００に通信可能に接続されてもよい。

【0074】

自律システム２００は、環境２３０内で動作することができ、支援アクションを行うことができる。環境２３０は、限定はしないが、ショッピングセンター、オフィスなどの物理的環境であってもよく、又はコンピューティングデバイスネットワーク、配電網などの論理的環境であってもよい。環境２３０は、限定はしないが、店舗、ドア、廊下、人々、又は物理環境２３０の場合に支援タスクを実施するためにその特徴が関連し得る任意の他のエンティティなどのエンティティと、論理環境２３０の場合に支援タスクを実施するためにその特徴が関連し得るプロセッサ、ネットワーキングデバイス、インターフェース、又は任意の他のエンティティと、を含み得る。したがって、エンティティ及びエンティティ間の関係を使用して、環境２３０を画定することができる。

【0075】

自律システム２００は、知覚ユニット２１２を介して環境２３０内の生データを取り込むように構成される。知覚ユニット２１２は、ヒューマンマシンインターフェース、カメラなどのセンサ、ＬｉＤＡＲセンサ、又は物理的環境２３０に適合された任意のタイプの検知デバイスを備えてもよく、電流計、データフローセンサ、接続インジケータ、又は論理的環境２３０に適合された任意のタイプのセンサを備えてもよい。生データは、知覚ユニット２１２に通信可能に接続されたコンピュータシステム２１０によって処理することができる。知覚ユニット２１２は、信号の処理及び/又はコンピュータビジョンソフトウェアアプリケーションを実行して、イベントの発生を検出するように構成され得る。

【0076】

コンピュータシステム２１０は、環境２３０内で発生するイベントのイベント記述を生成し、更に異常イベントを識別するように構成することができる。一実施形態では、コンピュータシステム２１０は、異常イベントのイベント記述をデータベース２１６に記憶することができる。

【0077】

この実施形態又は更に別の実施形態では、所与のイベントを「異常」として識別することは、その対応するイベント記述と環境２３０のプロパティとの間のコヒーレンスチェック手順を実行することによって行われる。コヒーレンスチェックルーチンは、コンピュータ可読フォーマットの下でイベントを表現することと、環境２３０の事前定義された常識ルール及び/又はセマンティック知識にアクセスすることと、ルールベースの順方向推論を使用して当該イベント記述と常識ルール及び/又はセマンティック知識との比較を更に実行することと、を含み得る。イベントが少なくとも１つの常識ルール又はセマンティック知識と不一致であることが見つかった場合、当該イベントは異常であると識別され得る。

【0078】

したがって、イベントが知覚ユニット２１２によって検出されると、異常イベントのリストが生成され、新しい異常イベントで更新され得る。代替的な実施形態では、イベントを「異常」として識別するための他のコヒーレンスチェック手順が企図される。

【0079】

一実施形態では、データベース２１６は、自律システム２００に組み込まれてもよく、又は外部の物理的なロケーションに位置してもよい。コンピュータシステム２１０は、ローカルエリアネットワーク(ＬＡＮ)などのネットワーク(図示せず)、及び/又はワイヤレスローカルエリアネットワーク(ＷＬＡＮ)若しくは任意の非ローカルネットワーク(ＷＡＮ)などのワイヤレス接続を介して、データベース２１６のコンテンツにアクセスするように構成され得る。

【0080】

データベース２１６はまた、候補オブジェクティブを含み得る。候補オブジェクティブは、自律システム２００に通信可能に接続された別のデータベース(図示せず)に記憶され得る。１つ以上の候補オブジェクティブは、対応する異常イベントの検出時にコンピュータシステム２１０によってアクティブ化され、それによって１つ以上の対応する「アクティブオブジェクティブ」又は単に「オブジェクティブ」を定義することができる。アクティブオブジェクティブは、対応する異常イベントに対処するために、更に実行されてもよく、かつ/又は自律システム２００のオペレータに伝送されてもよい。

【0081】

同様に、アクティブオブジェクティブは、データベース２１６に記憶され得る。したがって、新しい異常が検出され、当該新しい異常イベントに基づいて新しいアクティブオブジェクティブが定義されると、アクティブオブジェクティブのリストが生成され、更新され得る。例えば、ｐ１として識別された人間が、地上に横たわっているとして検出された場合、このイベントは異常として識別され得る。

【0082】

次いで、地上に横たわっている人間の検出に対応する候補オブジェクティブをアクティブ化して、人間ｐ１を助けることができる。この状況では、候補オブジェクティブは、関数ｈｅｌｐ()とすることができ、対応するアクティブオブジェクティブは、パラメータｐ１:ｈｅｌｐ(ｐ１)に関連付けられた関数とすることができる。

【0083】

各候補オブジェクティブは、コンピュータ可読命令を含むことができ、アクティブ化条件又は「選択条件」、識別子、オブジェクティブカテゴリ(例えば、監視、支援、ガイダンス、広告など)、ロケーション、時間、物体、人間などの可変状態を記述するパラメータ、及び漸進的タスクユニット構造、又はそれらの組み合わせによって、以下のように記述され得る。
Ｏｂｊｅｃｔｉｖｅ(ａｃｔｉｖａｔｉｏｎ＿ｃｏｎｄｉｔｉｏｎ,ｉｄｅｎｔｉｆｉｅｒ,ｏｂｊｅｃｔｉｖｅｃａｔｅｇｏｒｙ,ｐａｒａｍｅｔｅｒｓ,ｐｒｏｇｒｅｓｓｉｖｅｔａｓｋｕｎｉｔｓｔｒｕｃｔｕｒｅ)。

【0084】

漸進的タスクユニット構造は、以下でより詳細に説明される。

【0085】

候補オブジェクティブのアクティブ化条件は、１つ以上の異常イベントに対応することができる。アクティブ化条件は、対応する１つ以上の異常イベントが知覚ユニット２１２によって検出されているという判定がコンピュータシステム２１０によって行われた場合に満たされる。

【0086】

アクティブオブジェクティブは、候補オブジェクティブのパラメータを、対応する候補オブジェクティブのアクティブ化条件を満たさせた１つ以上の異常イベントのパラメータで更新することによって、候補オブジェクティブから生成又は「導出」され得る。換言すれば、候補オブジェクティブの選択を引き起こしたイベント記述の少なくとも１つのパラメータが、イベント記述から候補オブジェクティブに転送される。一例として、候補オブジェクティブを以下に示す。
Ｏｂｊｅｃｔｉｖｅ(ｌｙｉｎｇ(ｐ),ｉｄ,ｈｅｌｐ,{ｐｅｒｓｏｎ},ｐｒｏｇｒｅｓｓｉｖｅｔａｓｋｕｎｉｔｓｔｒｕｃｔｕｒｅ)

【0087】

人間ｐ１が地面に横たわっている場合、前の候補オブジェクティブがアクティブ化され、以下のアクティブオブジェクティブが生成される。
Ｏｂｊｅｃｔｉｖｅ(ｌｙｉｎｇ(ｐ１),ｉｄ,ｈｅｌｐ,ｐ１,Ａｓｓｉｓｔｐｒｏｇｒｅｓｓｉｖｅｔａｓｋｕｎｉｔｓｔｒｕｃｔｕｒｅ),ｐ１は異常イベントのパラメータである。

【0088】

自律システム２００は、アクティブオブジェクティブに対応するアクションを実行することによって、自律システム２００に環境２３０内で対話させるように構成された対話ユニット２２０を備え得る。対話ユニット２２０は、ヒューマンマシンインターフェース、１つ以上のスクリーン、スピーカ、マイクロフォン、物理アクチュエータ、駆動システム、又は環境２３０が物理環境である場合に物理環境内で対話するために使用され得る任意の好適なシステム、あるいは環境２３０が論理環境である場合に論理環境において使用され得る論理アクチュエータ、プロセッサ、又は任意の好適なシステムなどの対話要素を動作させることができる。

【0089】

本開示を明確にするために、以下の例は、物理環境２３０に関する。これは、単に本開示の読解を容易にするために行われるものであり、やはり、本技術の範囲を定義するものでも、本技術の境界を示すものでもない。以下で説明される本技術及び方法は、自律システム２００から独立していてもよく、他の応用分野で使用されてもよい。したがって、自律システム２００が論理環境２３０で動作する実施形態も企図されることに留意されたい。例えば、自律システム２００は、ソフトウェア、検索エンジン、又は任意の他のコンピュータ実装ツールのユーザを支援するための支援アクションを行うように動作してもよい。

【0090】

本技術の一態様は、満たすべきオブジェクティブのリストに基づいてアクションストラテジを生成する方法を提供することである。そのために、各候補オブジェクティブは、漸進的タスクユニット構造を含み得る。漸進的タスクユニット構造は、その候補オブジェクティブに対応するタスクを増分的に遂行するために実施され得る一連のアクション、命令、及び/又はアクションの任意の他の形態の指示を含み得る。漸進的タスクユニット構造の例示的な実施形態について、以下でより詳細に説明する。

【0091】

ここで図３に目を向けると、本技術の一実施形態による、オブジェクティブに対応する漸進的タスクユニット構造３００の高レベル概略図が例示されている。各漸進的タスクユニット構造は、対応するオブジェクティブを遂行するために、実施されるタスク又は「アクション」を記述し、タスクを実施するための１つ以上の実行可能モジュールを含む。

【0092】

換言すれば、漸進的タスクユニット構造３００は、アクションの階層を記述することができ、各アクションは、漸進的タスクユニット構造３００の実行可能モジュールに対応する。実行可能モジュールは、対応する漸進的タスクユニット構造が実行されるときに実行されるように構成される。コンピュータシステム２１０は、漸進的タスクユニット構造から、対応する最適なアクションストラテジ、又は単に「アクションストラテジ」を生成することができる。以下の説明は、漸進的タスクユニット構造の例示的な表現を提供する。

【0093】

漸進的タスクユニットは、拡張可能マークアップ言語(ＸＭＬ)ファイルで符号化することができ、一連の処理レベルＬ＝(ｌ₀,ｌ₁,…,ｌ_|L|)、状態変数の集合Ｘ＝{Ｘ₁,Ｘ₂,…,Ｘ_|X|}、及び環境の観測可能なブールプロパティの集合Ｏ＝{ｏ₁,ｏ₂,…,ｏ_|O|}を含むことができ、式中、｜Ｌ｜、｜Ｘ｜、｜Ｏ｜は有限であり、｜Ｌ｜、｜Ｘ｜、｜Ｏ｜≧０である。各状態変数Ｘ_ｉには、有限値の集合内の値、すなわち、Ｘi∈Ｈi＝{┴,ｈ_1i,…,ｈi_|Hi|}を割り当てることができ、Ｈｉは有限であり、┴は特別なヌル値を表す。

【0094】

各処理レベルｌ_iは、実行可能モジュールのセット、又は単に「モジュール」、Ｍ_i＝{ｍ¹ _i,…,ｍ_i ^|Mi|}から構成され得、アクティブ状態変数の集合、又は「焦点化変数」、Ｖ_i⊂Ｘに関連付けられ得、アクティブ状態変数は、状態変数Ｘのサブセットである。加えて、又は代替として、各モジュールは、状態変数の別個のサブセットに対応し得る。

【数1】

で、漸進的タスクユニット構造の全てのレベルにおける全てのモジュールのセットを示す。

【0095】

各モジュールｍ_i ^jは、その実行の可能な結果を表すオプションの非空集合{α_i ^j,β_i ^j,..,,ｘ_i ^j}によって定義することができる。オプションを示すために使用される記号(例えば、α_i ^j)は、全ての漸進的タスクユニット構造において一意の識別子として設定され得る。各オプションは、以下の属性の１つ以上に関連付けることができる。

【0096】

－実行条件α_i ^jψ:Ｏにおける環境１３０の観測可能なブールプロパティの特定の構成。この構成は、対応する結果が発生したことを決定するために実行時に使用される観測可能な条件を表す。実行条件が満足された場合、１つ以上の対応する後続実行可能モジュールが実行され得る。換言すれば、実行条件は、前のモジュールの実行の結果を示す、知覚ユニット２１２によって検出されたイベントに対応し得る。所与の実行可能モジュールのオプションに対応する実行条件は、相互に排他的であってもよい。

【0097】

－確率α_i ^j.ｐ:対応する結果の発生の確率又は対応する実行可能モジュールの「実行確率」であり、モジュール内の全てのオプションに対する全ての確率値の合計は１に等しい。発生確率は、例えばＭＬＡ技術を使用して、動作中に自律システム２００によって学習され得るため、本技術は標準的な計画技術とは区別される。実際に、標準的な計画技術は、１つのアクションの実行が１つの結果のみを有し得ることを考慮し得る。一例として、標準的な計画技術では、自律システムがドアを開くことである場合、計画時におけるこのアクションの対応する結果は、ドアが開くことである。

【0098】

しかしながら、これは、ドアがロックされ又は壊れる可能性を考慮していない。コンピュータシステム２１０は、自律システムの動作中の経験に基づいて、及び/又はＭＬＡ技術を使用して、結果の発生の確率を確立することができる。

【0099】

－実行スコア又は「品質」、α_i ^j.ｑ:この結果を達成するための推定スコア。実行スコアは、一定値又は状態変数Ｘの関数であってもよい。それは、対応するタスクを実施するためにどの実行可能モジュールが優先的に実行されるべきかを示すアクションストラテジを生成するために使用されてもよい。

【0100】

－持続時間α_i ^j.ｄ:この結果を達成するための推定時間。一実施形態では、ｄは、アクションを実施するための特定のリソースの推定量を表す。例えば、ｄは、アクションを実施するために必要とされるメモリサイズ、又はアクションを実施するために必要とされる自律システム２００のバッテリの推定量を表すことができる。持続時間は、一定値として、又は状態変数の関数として表すことができる。

【0101】

－１つ以上の後続実行可能モジュールα_i ^j.ＳＭ:対応する結果の後にイネーブルされる後続実行可能モジュールのセット。同じ又は別の実施形態では、後続の実行可能モジュールは、同じレベルにあるか、又は現在の実行可能モジュールに対して次のレベルにある。

【0102】

－１つ以上の状態変数更新α_i ^j.ＳＶＵ:この結果の後に考慮されなければならない状態変数割り当てのセットであり、状態変数は自律システム２００の状態の記述に対応する。対応する結果が生じたと判定されると、１つ以上の状態変数を更新することができ、(Ｘ_k←ｈ^’ _k)∈α_i ^j.ＳＶＵ、Ｘi∈Ｖ_iであり、現在のレベルに対応する状態変数のみが更新され得ることを考慮し、ｈ^’ _i∈Ｈ_iである。

【0103】

より詳細に説明されるように、コンピュータシステム２１０は、したがって、自律システム２００に利用可能なリソースに従って遂行の深さを適合させるために、タスクを１つの処理レベルから次の処理レベルへと増分的に遂行することができる。

【0104】

漸進的タスクユニット構造３００は、自律システム２００にユーザと対話させることによって満たされるオブジェクティブに対応し得る。したがって、漸進的タスクユニット構造３００は、ユーザを待って当該ユーザと対話するために実施されるアクションを含み得る。

【0105】

この例示的な漸進的タスクユニット構造３００では、自律システム２００は、ユーザの要求に応じて２つのアクティビティＡ及びＢを実行することができる。しかしながら、ユーザは、これらの能力を認識していない場合がある。自律システム２００は、最初に待機状態にあってもよい。ユーザがロボットの前で検出されるときはいつでも、自律システム２００は、それが実施し得るアクティビティＡ及びＢを記述するためにユーザとの対話を開始することができる。

【0106】

ユーザは、次いで、それらのうちの１つを選択するか、又は関心がないと回答することができる。アクティビティが選択されると、自律システム２００は、それを実施するためのタスクを実行する。各アクティビティは、アクティビティＡのための２つの代替タスクＴａｓｋＡ１及びＴａｓｋＡ２、並びにアクティビティＢのためのＴａｓｋＢ１及びＴａｓｋＢ２の実行によって行われ得る。タスクの実行後、自律システム２００は、待機状態に戻り、次のユーザを待機することができる。

【0107】

例示的な漸進的タスクユニット構造３００は、３つの処理レベル、すなわち、実行可能モジュール３１２を含む初期層３１０と、実行可能モジュール３２２を含む対話層３２０と、実行可能モジュール３３２、３３４、３３６、及び３３８を含むアクション層３３０と、実行可能モジュール３４２を含む最終層３４０と、を含む。この例示的な例では、Ｘは空であり、Ｏ＝{ｐｅｒｓｏｎ;Ａ;Ｂ;ｎｏｎｅ}である。

【0108】

持続時間(時間リソースを表すｄ)及び品質(ｑ)の特定の値が、対応する実行可能モジュールにおいて図３に示され、結果の確率及び実行可能モジュールＭのリストが図４に例示されている。漸進的タスクユニット構造３００の構造は、自律システム２００が支援タスクを「漸進的に」行うことを可能にする。実際、実行可能モジュールの定義及び状態変数の連続的な考慮は、支援タスクの実行が中断され、更に再開され得るようなものである。自律システム２００は、必ずしも、中断の場合に最初から支援タスクを開始する必要はない。

【0109】

ユーザとの対話中に、以下の不都合が発生する可能性がある。すなわち、ユーザが、例えば自律システム２００に応答しないことによって対話を完了しない、任意のアクションが、漸進的タスクユニット構造３００において定義されていない理由で失敗する可能性がある、並びに/又は任意のアクションが、一部の外部コマンド及び/若しくは条件に従って中止される可能性がある。

【0110】

本技術にロバスト性を提供するために、各実行可能モジュールは、状態変数Ｘのサブセットの所定の構成と関連付けられてもよい。例えば、カメラで写真を撮影する例示的アクションに対応する第１の実行可能モジュールは、状態変数の以下の構成と関連付けられてもよい。
{ｃａｍｅｒａ:ＯＮ,ｂａｔｔｅｒｙ:ＨＩＧＨ}、状態変数は、自律システム２００のカメラ状態「ｃａｍｅｒａ」及びバッテリレベル「ｂａｔｔｅｒｙ」である。

【0111】

第１の実行可能モジュールに対応するアクションは、当該第１の実行可能モジュールの構成が満たされていないという判定が行われた場合、自律システム２００の障害又は「障害状態」として識別され得る。例えば、カメラがオフであり、かつ/又はバッテリが低い場合、自律システムは障害状態であると宣言され得る。

【0112】

漸進的タスクユニット構造は、自律システム２００が障害状態であると宣言されたときに実行されるように構成された障害回復モジュールを含み得る。以下でより詳細に説明されるように、障害回復モジュールは、自律システム２００が、限られたリソースで対応するタスクの遂行を追求するために、実行可能モジュールに対応するアクションを実施することに失敗したという判定が行われた場合に、コンピュータシステム２１０によって実行され得るリソース制限付きアクションを表す。換言すれば、状態変数又は状態変数の部分集合が値の１つ以上の特定の組み合わせを有するという判定が行われたとき、障害回復モジュールが実行され得る。

【0113】

障害回復モジュールは、状態変数の１つ以上の構成に対応することができる。したがって、障害回復モジュールは、異なる障害状況を包含し、当該状況から回復するために実行することができる。

【0114】

前の例に戻って参照すると、第１の実行可能モジュールが実行されることになり、状態変数の構成が{ｃａｍｅｒａ:ＯＦＦ,ｂａｔｔｅｒｙ:ＨＩＧＨ}の場合、自律システムは、カメラを用いて画像を捕捉しなくてもよい。状態変数{ｃａｍｅｒａ:ＯＦＦ,ｂａｔｔｅｒｙ:ＨＩＧＨ又はＬＯＷ}の構成に対応する障害回復モジュールを漸進的タスクユニット構造に組み込んで、例えば自律システムを修理ステーションに行かせることができる。したがって、アクションの起こり得る障害は、障害回復モジュールを用いて、障害の場合に実施されるリソース制限付きアクションを示すことによって、アクションストラテジの実行の前に予期され得る。

【0115】

本明細書で説明される漸進的タスクユニット構造は、タスクを記述する形式を包含する。この実施形態では、漸進的タスクユニット構造は、利用可能なリソースに従ってタスク遂行の深さ及び精緻化を適応させる能力が提供されるように、対応するタスクを遂行するための異なる方式を表す階層として形式化される。当業者は、本技術が統一された計画言語を記述することができ、階層的タスクネットワーク(ＨＴＮ)、動的ベイズネットワーク(ＤＢＮ)、及び代数的決定図(ＡＤＢ)が漸進的タスクユニット構造から検索及び/又は導出され得ることを理解するであろう。

【0116】

図４は、本技術の一実施形態による、漸進的タスクユニット構造の記述的表４００である。記述的表４００は、漸進的タスクユニット構造３００の実行可能モジュールの名前のリスト４１０を、それぞれのオプション４２０と組み合わせて含む。実行可能及びオプションの各組み合わせは、記述的表４００の列４３０におけるその対応する実行条件、列４４０におけるその対応する確率、及び列４５０におけるその後続の実行可能モジュールに関連付けられる。

【0117】

例えば、漸進的タスクユニット構造３００の実行可能モジュール３２２、すなわち記述的表４００内の実行可能モジュール

【数2】

は、３つのオプションを含む。

【0118】

【数3】

は、ユーザがアクティビティＡを選択した場合の結果に対応し、

【数4】

は、ユーザがアクティビティＢを選択した場合の結果に対応し、

【数5】

は、ユーザがいずれも選択しなかった場合の結果に対応する。

【0119】

漸進的タスクユニット構造は、図３に例示する木構造として、図４に例示する記述的表として、又は同等の特徴を有する任意の他の好適な様式として表すことができる。図３及び図４の図は、理解を助けるために設定されており、本技術の範囲を示すものではない。この態様は限定的ではない。

【0120】

コンピュータシステム２１０は、漸進的タスクユニット構造３００などの漸進的タスクユニット構造からアクションストラテジを導出するように構成された計画モジュールを備えることができ、アクションストラテジの実行は、当該漸進的タスクユニット構造に対応するアクティブオブジェクティブを遂行することをもたらす。したがって、実行可能なアクションストラテジは、自律システム２００の漸進的タスクユニット構造及び状態変数に依存する。一実施形態では、計画モジュールは、コンピュータシステム２１０によって受信された各候補オブジェクティブに対して１つのアクションストラテジを生成するように構成されてもよい。

【0121】

一実施形態では、計画モジュールは、オブジェクティブの漸進的ユニット構造をマージし、漸進的ユニット構造のマージに基づいて実行可能なアクションストラテジを生成することによって、複数のアクティブオブジェクティブに対応する複数のアクションストラテジを１つのグローバルアクションストラテジにマージすることができる。漸進的ユニット構造のマージは、それらのそれぞれの記述的表５００を連結することによって行うことができる。

【0122】

同じ又は別の実施形態では、計画モジュールは、確率的決定プロセスを使用して、因数分解マルコフ決定プロセス(ＭＤＰ)として形式化された実行可能なアクションストラテジを生成する。ＭＤＰは、離散時間確率的制御プロセスである。これは、結果が部分的に不確実であり、部分的に意思決定者、すなわちユーザの制御下にあり得る状況において意思決定をモデル化するように構成された数学的フレームワークからなる。当業者が理解するように、漸進的タスクユニット構造に基づいて最適なポリシーを計算するためのプロセスの種々の実装形態が可能であり得るが、それでもなお、本技術の範囲内に留まる。

【0123】

図５は、本技術の一実施形態による、アクションストラテジを生成するために漸進的タスクユニット構造を実行するための方法の動作を示すシーケンス図である。計画モジュールは、図６に例示される動作を実行するように構成されてもよい。ＭＤＰは、ステップ５１０において、漸進的タスクユニット構造に基づいて生成され、ＭＤＰの生成は、以下に説明される。

【0124】

上述のような漸進的タスクユニット構造が与えられると、計画モジュールは、ＭＤＰを生成するように構成される。ＭＤＰは、(Ｓ;Ａ;Ｔ;Ｒ)として定義され、Ｓは、自律システム２００の状態の有限集合であり、Ａは、アクションの有限集合であり、Ｔ(ｓ;ａ_c;ｓ_f)は、アクションａ_cを使用して状態ｓから状態ｓ_fに進む確率を示す遷移関数であり、Ｒ(ｓ;ａ_c;ｓ_f)は、状態ｓにおいてアクションａ_cを使用し、状態ｓ_fに到達するための予想される利得を表す報酬関数である。報酬関数は、対応する実行可能モジュールの実行スコアに基づいてもよい。

【0125】

ＭＤＰは、Ａｐｒａｃｔｉｃａｌｆｒａｍｅｗｏｒｋｆｏｒｒｏｂｕｓｔｄｅｃｉｓｉｏｎ－ｔｈｅｏｒｅｔｉｃｐｌａｎｎｉｎｇａｎｄｅｘｅｃｕｔｉｏｎｆｏｒｓｅｒｖｉｃｅｒｏｂｏｔｓ(Ｌ.Ｉｏｃｃｈｉｅｔａｌ.,２０１６)に記載されているように、漸進的タスクユニット構造に基づいて定義することができ、その内容は参照により組み込まれる。形式的には、動作５１０における計画モジュールの出力は、

【数6】

とすることができ、式中、

【数7】

は初期状態であり、Ｇは最終状態の集合であり、各タプル

【数8】

において、

【数9】

は、

【数10】

によって定義される状態であり、

【数11】

は、この状態で実行されるアクションであり、漸進的タスクユニット構造内の実行可能モジュールに対応し、ＳＳ_i ^jは、対

【数12】

の集合であり、

【数13】

は、後続状態及びα_i ^kである。ψは、漸進的タスクユニット構造において宣言され、対応する結果に関連付けられた実行条件である。

【0126】

計画モジュールは、動作５２０において、ＭＤＰに基づいて実行可能なアクションストラテジを定義するように更に構成される。計画モジュールは、グローバル実行スコアを決定するように構成されてもよく、グローバル実行スコアは、ＭＤＰの状態に対応する実行可能モジュールに関連付けられた実行スコアの組み合わせである。この実施形態では、実行スコアは、それぞれの実行可能モジュールの実行確率によって重み付けされる。同じ又は別の実施形態では、実行可能なアクションストラテジは、以下のように与えられるベルマン方程式を解くことによって定義される。

【数14】

【0127】

Ｖは、状態ｓ及びにおいてアクションａ_ｃを用いて行動する際の期待利得を表す期待値関数であり、Ｒ及びＴは、それぞれ報酬関数及び遷移関数である。

【0128】

ＶａｌｕｅＩｔｅｒａｔｉｏｎ［ＲｉｃｈａｒｄＢｅｌｌｍａｎ.Ａｍａｒｋｏｖｉａｎｄｅｃｉｓｉｏｎｐｒｏｃｅｓｓ.ＩｎｄｉａｎａＵｎｉｖ.Ｍａｔｈ.Ｊ.］又はＰｏｌｉｃｙＩｔｅｒａｔｉｏｎ［Ｒ.Ａ.Ｈｏｗａｒｄ.ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇａｎｄＭａｒｋｏｖＰｒｏｃｅｓｓｅｓ］などの古典的なアルゴリズムは、最適なアクションストラテジ、又は「最適なポリシー」を効率的に計算するように構成される。

【0129】

図６は、本技術の一実施形態によるアクションストラテジ６００の表現である。アクションストラテジ６００は、例示的な漸進的タスクユニット構造３００に対応する。状態

【数15】

は初期状態であり、

【数16】

は目標状態の集合である。表現６００は、ＭＤＰの状態６１０と、それらの対応するアクション６２０と、それらの対応する集合ＳＳ_i ^jとを含み、これについては前述されている(６３０)。

【0130】

前述したように、漸進的タスクユニット構造の障害回復モジュールは、自律システム２００の障害状態を定義することができる。図７は、本技術の一実施形態によるアクションストラテジ７００の表現である。アクションストラテジの第１の部分７１０は、漸進的タスクユニットの実行可能モジュールに対応する状態、すなわち「安全」状態を含み、アクションストラテジの第２の部分７２０は、「非安全状態」又は「障害状態」と称される、漸進的タスクユニットの障害回復モジュールに対応する障害状態を含む。

【0131】

一実施形態では、第１の部分７１０及び第２の部分７２０は、独立して実行され得る２つの異なるアクションストラテジ及び/又は２つの異なる漸進的タスクユニット構造に対応し得る。安全状態を障害状態から分離することは、アクションストラテジの実行中に状態変数の集合を低減し、本技術のスケーラビリティを向上させるのに役立つ。

【0132】

障害回復モジュールは、自律システム２００によって実施されるリソース制限付きアクション、又は別個の漸進的タスクユニット構造、すなわち「障害回復漸進的タスクユニット構造」のいずれかに対応することができる。

【0133】

換言すれば、自律システム２００が第１の漸進的タスクユニット構造の障害回復モジュールに対応する安全でない状態にあるという判定が行われた場合、第２の漸進的タスクユニット構造(例えば、障害回復漸進的タスクユニット構造)が実行され得る。第２の漸進的タスクユニット構造は、自律システムの安全でない状態に対応する障害から回復するために実施されるリソース制限付きアクションの階層を含み得る。第２のアクションストラテジは、第２の漸進的タスクユニット構造から生成され、上述したものと同様の方式で更に実行されてもよい。

【0134】

自律システム２００によって実施されるリソース制限付きアクションに対応する障害回復モジュールは、自律システム２００の「部分的障害状態」を表し、コンピュータシステム２１０による障害回復漸進的タスクユニット構造の実行を引き起こす障害回復モジュールは、自律システム２００の「全体的障害状態」を表すということができる。

【0135】

図６の例証的例では、自律システムは、望ましくない挙動又は「障害状態」であり得る、アクション「Ｂｙｅ」を際限なく繰り返すように構成される。図７では、実行条件

【数17】

が真であるときにシステムを障害状態ｆ_１に遷移させるために、状態変数ＢｙｅＣｏｕｎｔｅｒが対応する漸進的タスクユニット構造に追加されている。

【0136】

したがって、計画モジュールによって実行条件

【数18】

が真であるという判定が行われた場合に、自律システム２００によって特定のアクションが実施されてもよい。その結果、自律システム２００は、漸進的タスクユニット構造及び回復障害モジュールの構造に基づいて、実行の不確実性、アクションを実行するための限られたリソース、及び起こり得る実行障害を考慮に入れるアクションストラテジを構築することができ、したがって、自律システム２００のロバストな挙動ストラテジを可能にする。

【0137】

図８は、本技術の一実施形態によるアクションストラテジ６００の有限状態機械である。この例示的な実施形態では、実行可能アクションストラテジ６００は、自律システム２００の状態

【数19】

を表すノードと、実行可能アクションストラテジアクション

【数20】

の実行を表す遷移と、を有するオートマトンとして表される。一実施形態では、アクションストラテジは、有限ホライズン、すなわちアクションの最大数がコンピュータシステム２１０によって設定されるか、又は無限ホライズン、すなわちアクションの無制限の数を有するように構成され得る。

【0138】

図６及び図８の例示的な例は、最終状態の後続の実行可能モジュールが最終状態自体であるため、無限ホライズンを有するアクションストラテジを例示している。無限ホライズンは、図８に示すように、自律システム２００が、１つの状態から他の状態に無限に遷移することによって、アクションストラテジの実行を決して完全に終了しない構成である。

【0139】

実行可能モジュールに対応する状態変数の部分集合を使用することは、アクションストラテジの生成を容易にすることができる。実際に、コンピュータシステムは、対応する漸進的タスクユニット構造における状態変数の部分集合に対応する実行可能モジュールを選択し、それらの実行可能モジュールのみに基づいてアクションストラテジを生成してもよい。

【0140】

例えば、自律システム２００によって人間を探索している間(例えば、当該人間が探索されるであることを示すオブジェクティブに基づくアクションストラテジの実行中)、バッテリがＬＯＷであるという判定が行われた場合、コンピュータシステム２１０は、状態変数:ｂａｔｔｅｒｙ:ＬＯＷを含む実行可能モジュールに対応する当該アクションストラテジのノードのみを考慮し得る。実際、この状況では、自律システム２００は、高レベルのバッテリを必要とするアクションを実施することができない場合がある。

【0141】

このため、状態変数の部分集合は、他の状態変数が実行時に考慮されないことがあるため、「焦点化変数」と称されることがある。例えば、実行可能モジュールの焦点化変数の使用は、アクションストラテジを５００.０００ノードから１００.０００ノードに低減する。

【0142】

例えば、図８のセマンティックマップを画定することによってアクションストラテジを定義すると、計画モジュールは、実行可能なアクションストラテジを実行モジュールに更に伝送するように構成される。実行モジュールは、対話ユニット２２０を介してアクションストラテジを実行するように構成される。

【0143】

同じ又は別の実施形態では、実行モジュールは、知覚ユニット２１２に通信可能に接続されて、状態変数Ｘ＝{Ｘ₁,Ｘ₂,…,Ｘ_|X|}を決定し、それによって自律システム２００の現在の状態

【数21】

を決定することができる。対話ユニット２２０は、自律システム２００に環境２３０と対話させるように構成された物理的及び/又は論理的アクチュエータ、機構、デバイス、又は任意の要素を動作させる。

【0144】

実行モジュールは、アクションストラテジを初期状態からブラウズすることによって、実行可能なアクションストラテジを実行するように構成され得る。ＭＤＰの各状態の後続状態のリストは、上述したような漸進的タスクユニット構造に従って生成されてもよく、アクションストラテジに含まれてもよい。

【0145】

したがって、環境２３０の観測可能な環境プロパティにわたる実行条件α_ｉ ^ｋ.ψは、アクションストラテジの実行中に知覚ユニット２１２によって評価されてもよい。自律システム２００がどの第１の状態

【数22】

にあるかを判定すると、実行モジュールは、対応するアクション

【数23】

を実施するように構成され得る。このアクションが実施されると、実行モジュールは、例えば知覚ユニット２１２を使用して、第１の状態

【数24】

の後続状態の中から自律システム２００の新しい状態

【数25】

を決定するように構成することができる。

【0146】

自律システムがＧに含まれる最終状態にあると判定すると、実行モジュールは、計画の実行を終了し、アクションストラテジの実行が完了したことを示す第１の信号をコンピュータシステム２１０に返すように構成される。

【0147】

上記の実装形態は、特定の順序で実施される特定のステップを参照して説明及び図示されているが、これらのステップは、本技術の教示から逸脱することなく、組み合わされ、細分され、又は順序変更され得ることが理解されよう。各ステップの少なくとも一部は、並列的に実行されてもよく、又は直列的に実行されてもよい。したがって、ステップの順序及びグループ化は、本技術の限定ではない。

【0148】

本明細書で言及される全ての技術的効果が、本技術のありとあらゆる実施形態において享受される必要はないことが明確に理解されるべきである。

【0149】

本技術の上述の実装形態に対する修正及び改良は、当業者に明白となり得る。前述の説明は、限定ではなく例示を意図している。したがって、本技術の範囲は、添付の特許請求の範囲の範囲によってのみ限定されることが意図される。

【図1】