IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ユニベルシテ ドゥ カーン ノルマンディの特許一覧 ▶ セントル・ナショナル・ドゥ・ラ・ルシェルシュ・サイエンティフィーク・セエヌアールエスの特許一覧 ▶ エコール ナシオナル シュペリウール ダンジェニユール ドゥ カーンの特許一覧

特表2024-525461自律システムによるアクションストラテジの生成のためのシステム及び方法
<>
  • 特表-自律システムによるアクションストラテジの生成のためのシステム及び方法 図1
  • 特表-自律システムによるアクションストラテジの生成のためのシステム及び方法 図2
  • 特表-自律システムによるアクションストラテジの生成のためのシステム及び方法 図3
  • 特表-自律システムによるアクションストラテジの生成のためのシステム及び方法 図4
  • 特表-自律システムによるアクションストラテジの生成のためのシステム及び方法 図5
  • 特表-自律システムによるアクションストラテジの生成のためのシステム及び方法 図6
  • 特表-自律システムによるアクションストラテジの生成のためのシステム及び方法 図7
  • 特表-自律システムによるアクションストラテジの生成のためのシステム及び方法 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-12
(54)【発明の名称】自律システムによるアクションストラテジの生成のためのシステム及び方法
(51)【国際特許分類】
   G06F 9/48 20060101AFI20240705BHJP
【FI】
G06F9/48 300A
G06F9/48 100G
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023580578
(86)(22)【出願日】2022-06-28
(85)【翻訳文提出日】2023-12-27
(86)【国際出願番号】 IB2022056022
(87)【国際公開番号】W WO2023275764
(87)【国際公開日】2023-01-05
(31)【優先権主張番号】21305893.6
(32)【優先日】2021-06-29
(33)【優先権主張国・地域又は機関】EP
(31)【優先権主張番号】21305894.4
(32)【優先日】2021-06-29
(33)【優先権主張国・地域又は機関】EP
(31)【優先権主張番号】21305895.1
(32)【優先日】2021-06-29
(33)【優先権主張国・地域又は機関】EP
(31)【優先権主張番号】21305896.9
(32)【優先日】2021-06-29
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】515334773
【氏名又は名称】ユニベルシテ ドゥ カーン ノルマンディ
(71)【出願人】
【識別番号】506310061
【氏名又は名称】セントル・ナショナル・ドゥ・ラ・ルシェルシュ・サイエンティフィーク・セエヌアールエス
【氏名又は名称原語表記】CENTRE NATIONAL DE LA RECHERCHE SCIENTIFIQUE CNRS
(71)【出願人】
【識別番号】521366931
【氏名又は名称】エコール ナシオナル シュペリウール ダンジェニユール ドゥ カーン
【氏名又は名称原語表記】ECOLE NATIONALE SUPERIEURE D’INGENIEURS DE CAEN
(74)【代理人】
【識別番号】110002066
【氏名又は名称】弁理士法人筒井国際特許事務所
(72)【発明者】
【氏名】ムアディブ,アブデル-イラーフ
(72)【発明者】
【氏名】ジャンピエール,ローラン
(57)【要約】
自律システムによって実行されるアクションストラテジを生成するためのシステム及び方法が開示される。アクションストラテジは、異常イベントを検出したことに応答して、対応するアクティブオブジェクティブを遂行するために自律システムによって実施される一連のアクションを含み、異常イベントは、自律システムが動作するように構成される環境において発生しているか、又は発生していたものである。本方法は、異常イベントに対応するイベント記述がポピュレートされた第1のデータベースにアクセスすることと、候補オブジェクティブがポピュレートされた第2のデータベースにアクセスすることと、を含む。各候補オブジェクティブは、自律システムによって遂行可能なタスクを定義し、アクティブ化条件と、対応する候補オブジェクティブを遂行するために、実施されるアクションの階層を記述する漸進的タスクユニット構造と、を含む。アクティブオブジェクティブの漸進的タスクユニット構造からアクションストラテジを生成し、アクションストラテジを実行する候補オブジェクティブの実行。
【選択図】図3
【特許請求の範囲】
【請求項1】
自律システムによって実行されるアクションストラテジを生成するためのコンピュータ実装方法であって、前記アクションストラテジは、対応するアクティブオブジェクティブを遂行するために、前記自律システムによって実施される一連のアクションを含み、前記一連のアクションは、前記自律システムが前記アクティブオブジェクティブを遂行するための限られたリソースを有する場合に、前記自律システムによって実施される1つ以上のリソース制限付きアクションを含み、前記自律システムは、所定の状態変数を検知するように構成された1つ以上の検知デバイスを備え、前記状態変数は、前記自律システムの状態を定義し、
前記方法は、
前記自律システムによって検出されたイベントに対応するイベント記述がポピュレートされた第1のデータベースにアクセスすることであって、前記イベントは、前記自律システムが動作するように構成されている環境において発生しているか、又は発生していたものである、アクセスすることと、
候補オブジェクティブがポピュレートされた第2のデータベースにアクセスすることであって、各候補オブジェクティブは、前記自律システムによって遂行可能なタスクを定義し、
1つ以上のイベント記述に対応するアクティブ化条件であって、前記アクティブ化条件は、前記対応する1つ以上のイベント記述が前記第1のデータベース内で見つかったという判定が行われた場合に満たされる、アクティブ化条件と、
前記対応する候補オブジェクティブを遂行するために、実施されるアクションの階層を記述する漸進的タスクユニット構造であって、前記漸進的タスクユニット構造は、前記自律システムによって実行されるように構成された実行可能モジュールを備え、各実行可能モジュールは、アクションの前記階層のアクションに対応し、前記自律システムの所与の状態に関連付けられ、少なくとも1つの漸進的タスクユニット構造は、アクションストラテジを実施している間に、前記1つ以上の検知デバイスによって検出されている前記自律システムの所与の障害状態に応答して実施されるリソース制限付きアクションに対応する少なくとも1つの障害回復モジュールを備え、前記実行可能モジュール及び障害回復モジュールは、前記アクションストラテジの実施中にどのモジュールが優先的に実行されるべきかを示す実行スコアに関連付けられる、漸進的タスクユニット構造と、を含む、アクセスすることと、
前記イベント記述に基づいて前記1つ以上の候補オブジェクティブの前記アクティブ化条件が満たされるかどうかを判定することによって、前記第2のデータベースから1つ以上の候補オブジェクティブを選択することと、
前記選択された1つ以上の候補オブジェクティブを実行することと、を含み、候補オブジェクティブの実行は、
前記候補オブジェクティブの前記選択を引き起こした前記イベント記述のうちの少なくとも1つのパラメータを、前記選択された候補オブジェクティブに転送し、それによって前記アクティブオブジェクティブを生成することと、
前記漸進的タスクユニット構造からアクションストラテジを生成することであって、前記アクションストラテジは、前記自律システムの障害状態の検出時に、対応するリソース制限付きアクションが実行されるように、前記自律システムの状態に従って実施されるアクションについての情報を含み、前記アクションストラテジの前記一連のアクションは、前記実行可能モジュール及び障害回復モジュールの前記実行スコアに基づいている、生成することと、
前記自律システムの前記状態に基づいて、前記アクションストラテジの前記一連のアクションを実行することと、を含む、
方法。
【請求項2】
前記第1のデータベースのイベント記述は、前記自律システムによって検出された異常イベントに対応し、前記異常イベントの各々は、前記対応するイベントのイベント記述と前記環境のプロパティとの間のコヒーレンスチェック手順の結果に基づいてインコヒーレントとして識別され、前記第1のデータベースへアクセスすることは、前記自律システムによる異常イベントの検出に応答して行われる、
請求項1に記載の方法。
【請求項3】
前記漸進的タスクユニット構造は、
処理レベルの1つ以上のシーケンスであって、処理レベルの各シーケンスは、前記実行可能モジュールのうちの1つ以上を含む、1つ以上のシーケンス、
前記候補オブジェクティブの実行の状態のパラメータを記述する状態変数の集合、
前記第1のデータベースの前記イベント記述のうちの1つ以上に対応する観測可能なプロパティの集合、
又はそれらの組み合わせを更に含む、
請求項1又は2に記載の方法。
【請求項4】
前記漸進的タスクユニット構造の各実行可能モジュールは、前記対応する漸進的タスクユニット構造の前記状態変数の集合のうちの状態変数の部分集合の構成に対応し、所与の実行可能モジュールについて、前記所与の実行可能モジュールに対応する前記アクションの実行時に対応する構成が満たされていないという判定が行われた場合、前記アクションは、前記自律システムの障害として識別される、
請求項3に記載の方法。
【請求項5】
前記候補オブジェクティブのうちの前記少なくとも1つは、実施されるリソース制限付きアクションの階層を含む1つ以上の障害回復漸進的タスクユニット構造を更に含み、各障害回復漸進的タスクユニット構造は、漸進的タスクユニット構造の障害回復モジュールに対応し、前記障害回復モジュールの実行は、前記自律システムによる前記障害回復漸進的タスクユニット構造の前記リソース制限付きアクションの実行を引き起こす、
請求項1~4のいずれか1項に記載の方法。
【請求項6】
前記実行可能モジュールは、対応する実行可能モジュールを実行するための実行スコアに更に関連付けられ、前記実行可能アクションストラテジを生成することは、グローバル実行スコアを最大化することを含み、前記グローバル実行スコアは、前記実行可能モジュールに関連付けられた前記実行スコアの組み合わせである、
請求項1~5のいずれか1項に記載の方法。
【請求項7】
前記実行可能モジュールの前記実行スコアは、前記グローバル実行スコアを決定するために、前記対応する実行可能モジュールの実行確率によって重み付けされ、実行確率は、前記自律システムによる前記対応する実行可能モジュールの実行の確率を記述する、
請求項6に記載の方法。
【請求項8】
前記候補オブジェクティブの前記漸進的タスクユニット構造から前記アクションストラテジを生成することは、
前記漸進的タスクユニット構造から確率的決定プロセスを生成することであって、前記確率的決定プロセスは、少なくとも、
前記漸進的タスクユニット構造の前記実行可能モジュールの前記アクションに対応するアクションのセットと、
前記自律システムの状態を含む状態のセットであって、各状態は、実行可能モジュールの実行の結果に対応する、状態のセットと、
を含む、生成することと、
前記確率的決定プロセスを実行することと、を含む、
請求項1~7のいずれか1項に記載の方法。
【請求項9】
前記確率的決定プロセスは、因数分解マルコフ決定プロセスである、請求項8に記載の方法。
【請求項10】
前記実行可能モジュールに対応する1つ以上のアクションは、1つ以上の候補オブジェクティブの実行を引き起こす、
請求項1~9のいずれか1項に記載の方法。
【請求項11】
1つ以上の対応するタスクを遂行することによって1つ以上のオブジェクティブを満たすために自律システムによって実行されるアクションを計画するためのコンピュータ実装方法であって、
前記方法は、
1つ以上のオブジェクティブのセットにアクセスすることであって、前記1つ以上のオブジェクティブの各々は、前記対応する1つ以上のオブジェクティブの特性を識別するパラメータを含む、アクセスすることと、
漸進的タスクユニット構造を含む第1のデータベースにアクセスすることであって、各漸進的タスクユニット構造は、実行可能モジュール及び障害回復モジュールによって記述される対応するタスクを遂行するためのアクションの階層を含み、各実行可能モジュールは、アクションの前記階層のリソース制限付きアクションを実施するために前記自律システムによって実行されるように構成され、各障害回復モジュールは、前記自律システムが、前記対応するタスクの遂行を追求するために実行可能モジュールに対応するアクションを実施することに失敗したという判定が行われた場合、前記自律システムによって実行されるように構成される、アクセスすることと、
実施されるリソース制限付きアクションの階層を含む障害回復漸進的タスクユニット構造を含む第2のデータベースにアクセスすることであって、各障害回復漸進的タスクユニット構造は、漸進的タスクユニット構造の障害回復モジュールに対応し、前記障害回復モジュールの実行は、前記自律システムによる前記リソース制限付きアクションの実行を引き起こす、アクセスすることと、
前記1つ以上のオブジェクティブの前記パラメータに基づいて前記第1のデータベースから1つ以上の漸進的タスクユニット構造を選択することであって、各オブジェクティブは、漸進的タスクユニット構造に対応する、選択することと、
前記選択された1つ以上の漸進的タスクユニット構造を実行することであって、前記実行は、
前記選択された1つ以上の漸進的タスクユニット構造から1つ以上の確率的決定プロセスを生成することであって、各確率的決定プロセスは、
前記漸進的タスクユニット構造の前記実行可能モジュール及び障害回復モジュールの前記アクションに対応するアクションのセットと、
前記実行可能モジュールの前記アクションの結果に対応する状態のセットと、を含む、生成することと、
前記自律システムの現在の状態に基づいて、前記アクションのセットのうちの1つ以上のアクションを実施することによって、前記1つ以上の確率的決定プロセスを実行することと、を含む、実行することと、
前記選択された1つ以上の漸進的タスクユニット構造を実行する際に、前記自律システムが障害回復モジュールに対応するアクションを実施するという判定が行われた場合、前記障害回復モジュールの前記障害回復漸進的タスクユニット構造の前記リソース制限付きアクションの階層を実行することと、を含む、
方法。
【請求項12】
前記対応する障害回復漸進的タスクユニット構造のリソース制限付きアクションの前記階層を実行することは、
前記障害回復漸進的タスクユニット構造から確率的決定プロセスを生成することであって、前記確率的決定プロセスは、
前記障害回復漸進的タスクユニット構造の前記リソース制限付きアクションに対応するアクションのセットと、
前記リソース制限付きアクションの結果に対応する状態のセットと、を含む、生成することと、
前記自律システムの現在の状態に基づいてアクションの前記セットのうちの1つ以上のアクションを実施することによって、前記確率的決定プロセスを実行することと、を含む、
請求項11に記載の方法。
【請求項13】
各実行可能モジュールは、前記候補オブジェクティブの実行の状態のパラメータを記述する状態変数の部分集合に関連付けられ、
前記選択された1つ以上の漸進的タスクユニット構造から1つ以上の確率的決定プロセスを生成することは、所定の状態変数に対応する前記選択された1つ以上の漸進的タスクユニット構造の実行可能モジュールを選択することを含む、
請求項11又は12に記載の方法。
【請求項14】
命令を含むコンピュータ可読サポートであって、前記命令が実行されると、請求項1~13のいずれか1項に記載の方法のステップをコンピュータに実行させる、
コンピュータ可読サポート。
【請求項15】
自律システムによって実行されるアクションストラテジを生成するためのシステムであって、前記システムは、プロセッサと、前記プロセッサによって実行されると、前記システムに請求項1~14のいずれか1項に記載の方法を実施させる命令を記憶するように構成されたメモリと、を備える、
システム。
【請求項16】
自律システムによって実行されるアクションストラテジを生成するためのコンピュータ実装方法であって、前記アクションストラテジは、対応するアクティブオブジェクティブを遂行するために前記自律システムによって実施される一連のアクションを含み、
前記方法は、
前記自律システムによって検出されたイベントに対応するイベント記述がポピュレートされた第1のデータベースにアクセスすることであって、前記イベントは、前記自律システムが動作するように構成されている環境において発生しているか、又は発生していたものである、アクセスすることと、
候補オブジェクティブがポピュレートされた第2のデータベースにアクセスすることであって、各候補オブジェクティブは、前記自律システムによって達成可能なタスクを定義し、
1つ以上のイベント記述に対応するアクティブ化条件であって、前記対応する1つ以上のイベント記述が前記第1のデータベース内で見つかったという判定が行われた場合に満たされる、アクティブ化条件と、
前記対応する候補オブジェクティブを遂行するために、実施されるアクションの階層を記述する漸進的タスクユニット構造であって、前記漸進的タスクユニット構造は、アクションの前記対応する階層を実施するために、前記自律システムによって実行されるように構成された実行可能モジュールを備え、各実行可能モジュールは、アクションの前記階層のアクションに対応する、漸進的タスクユニット構造と、を含む、アクセスすることと、
前記イベント記述に基づいて前記1つ以上の候補オブジェクティブの前記アクティブ化条件が満たされるかどうかを判定することによって、前記第2のデータベースから1つ以上の候補オブジェクティブを選択することと、
前記1つ以上の候補オブジェクティブを実行することと、を含み、候補オブジェクティブの実行は、
前記候補オブジェクティブの前記選択を引き起こした前記イベント記述のうちの少なくとも1つのパラメータを前記候補オブジェクティブに転送し、それによってアクティブオブジェクティブを定義することと、
前記アクティブオブジェクティブの前記漸進的タスクユニット構造からアクションストラテジを生成することであって、前記アクションストラテジの一連のアクションは、前記漸進的タスクユニット構造の前記実行可能モジュールに対応するアクションに対応する、生成することと、
前記アクションストラテジの前記一連のアクションを実行することと、を含む、
方法。
【請求項17】
前記第1のデータベースのイベント記述は、前記自律システムによって検出された異常イベントに対応し、前記異常イベントの各々は、前記対応するイベントのイベント記述と前記環境のプロパティとの間のコヒーレンスチェック手順の結果に基づいてインコヒーレントとして識別され、前記第1のデータベースへアクセスすることは、前記自律システムによる異常イベントの検出に応答して行われる、
請求項16に記載の方法。
【請求項18】
前記漸進的タスクユニット構造は、
処理レベルの1つ以上のシーケンスであって、処理レベルの各シーケンスは、前記実行可能モジュールのうちの1つ以上を含む、1つ以上のシーケンス、
前記候補オブジェクティブの実行の状態のパラメータを記述する状態変数の集合、
前記第1のデータベースの前記イベント記述のうちの1つ以上に対応する観測可能なプロパティの集合、
又はそれらの組み合わせを更に含む、
請求項16又は17に記載の方法。
【請求項19】
前記漸進的タスクユニット構造の各実行可能モジュールは、前記対応する漸進的タスクユニット構造の前記状態変数の集合のうちの状態変数の部分集合の構成に対応し、所与の実行可能モジュールについて、前記所与の実行可能モジュールに対応する前記アクションの実行時に対応する構成が満たされていないという判定が行われた場合、前記アクションは、前記自律システムの障害として識別される、
請求項18に記載の方法。
【請求項20】
前記候補オブジェクティブのうちの少なくとも1つの前記漸進的タスクユニット構造は、前記自律システムの対応する障害から回復するために前記自律システムによって実行されるように構成された障害回復モジュールを更に含み、
前記自律システムの前記対応する障害は、前記状態変数の集合と、前記少なくとも1つの漸進的タスクユニット構造の前記実行可能モジュールに対応する状態変数の部分集合の構成との不一致に基づいて識別される、
請求項19に記載の方法。
【請求項21】
前記候補オブジェクティブのうちの前記少なくとも1つは、実施されるリソース制限付きアクションの階層を含む1つ以上の障害回復漸進的タスクユニット構造を更に含み、
各障害回復漸進的タスクユニット構造は、漸進的タスクユニット構造の障害回復モジュールに対応し、前記障害回復モジュールの実行は、前記自律システムによる前記障害回復漸進的タスクユニット構造の前記リソース制限付きアクションの実行を引き起こす、
請求項20に記載の方法。
【請求項22】
前記実行可能モジュールは、対応する実行可能モジュールを実行するための実行スコアに更に関連付けられ、前記実行可能アクションストラテジを生成することは、グローバル実行スコアを最大化することを含み、前記グローバル実行スコアは、前記実行可能モジュールに関連付けられた前記実行スコアの組み合わせである、
請求項16~21のいずれか1項に記載の方法。
【請求項23】
前記実行可能モジュールの前記実行スコアは、前記グローバル実行スコアを決定するために、前記対応する実行可能モジュールの実行確率によって重み付けされ、実行確率は、前記自律システムによる前記対応する実行可能モジュールの実行の確率を記述する、
請求項22に記載の方法。
【請求項24】
前記候補オブジェクティブの前記漸進的タスクユニット構造から前記アクションストラテジを生成することは、
前記漸進的タスクユニット構造から確率的決定プロセスを生成することであって、前記確率的決定プロセスは、少なくとも、
前記漸進的タスクユニット構造の前記実行可能モジュールの前記アクションに対応するアクションのセットと、
前記自律システムの状態を含む状態のセットであって、各状態は、実行可能モジュールの実行の結果に対応する、状態のセットと、
を含む、生成することと、
前記確率的決定プロセスを実行することと、を含む、
請求項16~23のいずれか1項に記載の方法。
【請求項25】
前記確率的決定プロセスは、因数分解マルコフ決定プロセスである、
請求項24に記載の方法。
【請求項26】
前記実行可能モジュールに対応する1つ以上のアクションは、1つ以上の候補オブジェクティブの実行を引き起こす、
請求項16~25のいずれか1項に記載の方法。
【請求項27】
自律システムによって実行されるアクションストラテジを生成するためのシステムであって、前記システムは、プロセッサと、前記プロセッサによって実行されると、前記システムに請求項16~26のいずれか1項に記載の方法を実施させる命令を記憶するように構成されたメモリと、を備える、
システム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本特許出願は、2021年6月29日に出願された欧州特許出願第21305893.6号、2021年6月29日に出願された欧州特許出願第21305894.4号、2021年6月29日に出願された欧州特許出願第21305895.1号、及び2021年6月29日に出願された欧州特許出願第21305896.9号の優先権を主張するものであり、これらの内容全体は、参照により本明細書に組み込まれる。
【0002】
本技術は、アクションストラテジを生成するためのシステム及び方法に関し、より具体的には、それらの環境内で対話するインテリジェント自律システムに関する。
【背景技術】
【0003】
自律意思決定プロセスにおける最近の開発は、自律システムの開発における大きな一歩である。潜在的な用途は、支援人間型ロボットシステム、又はネットワークフロー監視及び管理システムなどであるが、それらに限定されない、広範囲のドメインを網羅している。自律システムは、事前定義されたルール及び/又は変化するルールを遵守しながら、ユーザ、対話する人間、又は支援を必要とする任意の物体を満足させるタスクを実施することが期待されている。種々のアクティビティを扱うために開発されたかかる自律システムは、データを処理し、最適なアクションストラテジを生成するために使用される、1つ以上のデータ処理及び意思決定ユニットを含む。
【0004】
上記で特定された最近の開発が利益を提供し得るとしても、依然として改善が望まれている。
【0005】
背景技術の節で考察された主題は、単に背景技術の節で言及したことの結果として先行技術であると想定されるべきではない。同様に、背景技術の節で言及された問題、又は背景技術の節の主題に関連する問題は、従来技術において以前に認識されていたと想定されるべきではない。背景技術の節における主題は、単に異なる手法を表すものである。
【発明の概要】
【0006】
本技術の実施形態は、従来技術に関連する欠点についての開発者の認識に基づいて開発されている。
【0007】
特に、かかる欠点は、(1)予想されないイベントに直面したときに反応することができないこと、(2)所与の環境において動作している間に潜在的な中断をもたらすアクションストラテジを確立するための長い計算時間、及び/又は(3)動的環境におけるアクションの静的ストラテジの不適切性を含み得る。
【0008】
第1の態様では、本技術の種々の実装形態は、自律システムによって実行されるアクションストラテジを生成するための方法を提供し、アクションストラテジは、異常イベントを検出したことに応答して、対応するアクティブオブジェクティブを遂行するために自律システムによって実施される一連のアクションを含み、異常イベントは、自律システムが動作するように構成される環境において発生しているか、又は発生していたものであり、異常イベントは、対応するイベントの記述と環境の特性との間のコヒーレンスチェック手順の結果に基づいて、インコヒーレントとして識別される。
【0009】
本方法は、自律システムによって検出された異常イベントに対応するイベント記述がポピュレートされた第1のデータベースにアクセスすることを含む。
【0010】
本方法は、候補オブジェクティブがポピュレートされた第2のデータベースにアクセスすることを含む。各候補オブジェクティブは、自律システムによって遂行可能なタスクを定義し、1つ以上のイベント記述に対応するアクティブ化条件であって、対応する1つ以上のイベント記述が第1のデータベース内で見つかったという判定が行われた場合に満たされる、アクティブ化条件と、対応する候補オブジェクティブを遂行するために実施されるアクションの階層を記述する漸進的タスクユニット構造であって、漸進的タスクユニット構造は、アクションの対応する階層を実施するために、自律システムによって実行されるように構成された実行可能モジュールを備え、各実行可能モジュールは、アクションの階層のアクションに対応する、漸進的タスクユニット構造と、を含む。
【0011】
本方法は、イベント記述に基づいて1つ以上の候補オブジェクティブのアクティブ化条件が満たされるかどうかを判定することによって、第2のデータベースから1つ以上の候補オブジェクティブを選択することと、1つ以上の候補オブジェクティブを実行することと、を含む。候補オブジェクティブの実行は、候補オブジェクティブの選択を引き起こしたイベント記述のうちの少なくとも1つのパラメータを候補オブジェクティブに転送し、それによってアクティブオブジェクティブを定義することと、アクティブオブジェクティブの漸進的タスクユニット構造からアクションストラテジを生成することであって、アクションストラテジの一連のアクションは、漸進的タスクユニット構造の実行可能モジュールに対応するアクションに対応する、生成すること、アクションストラテジの一連のアクションを実行することと、を含む。
【0012】
本方法の一部の実施形態では、第1のデータベースのイベント記述は、自律システムによって検出された異常イベントに対応し、異常イベントの各々は、対応するイベントのイベント記述と環境のプロパティとの間のコヒーレンスチェック手順の結果に基づいてインコヒーレントとして識別され、第1のデータベースへアクセスすることは、自律システムによる異常イベントの検出に応答して行われる。
【0013】
本方法の一部の実施形態では、漸進的タスクユニット構造は、処理レベルの1つ以上のシーケンスを更に含み、処理レベルの各シーケンスは、実行可能モジュールのうちの1つ以上、候補オブジェクティブの実行の状態のパラメータを記述する状態変数の集合、観測可能なプロパティの集合、第1のデータベースのイベント記述のうちの1つ以上に対応する観測可能なプロパティ、又はそれらの組み合わせを含む。
【0014】
漸進的タスクユニット構造の本方法の一部の実施形態では、各実行可能モジュールは、対応する漸進的タスクユニット構造の状態変数の集合のうちの状態変数の部分集合の構成に対応し、所与の実行可能モジュールについて、所与の実行可能モジュールに対応するアクションの実行時に対応する構成が満たされていないという判定が行われた場合、当該アクションは、自律システムの障害として識別される。
【0015】
本方法の一部の実施形態では、候補オブジェクティブのうちの少なくとも1つの漸進的タスクユニット構造は、自律システムの対応する障害から回復するために自律システムによって実行されるように構成された障害回復モジュールを更に含み、自律システムの対応する障害は、状態変数の集合と、少なくとも1つの漸進的タスクユニット構造の実行可能モジュールに対応する状態変数の部分集合の構成との不一致に基づいて識別される。
【0016】
本方法の一部の実施形態では、候補オブジェクティブのうちの少なくとも1つは、実施されるリソース制限付きアクションの階層を含む1つ以上の障害回復漸進的タスクユニット構造を更に含み、各障害回復漸進的タスクユニット構造は、漸進的タスクユニット構造の障害回復モジュールに対応し、障害回復モジュールの実行は、自律システムによる障害回復漸進的タスクユニット構造のリソース制限付きアクションの実行を引き起こす。
【0017】
本方法の一部の実施形態では、実行可能モジュールは、対応する実行可能モジュールを実行するための実行スコアに更に関連付けられ、実行可能アクションストラテジを生成することは、グローバル実行スコアを最大化することを含み、グローバル実行スコアは、実行可能モジュールに関連付けられた実行スコアの組み合わせである。
【0018】
本方法の一部の実施形態では、実行可能モジュールの実行スコアは、グローバル実行スコアを決定するために、対応する実行可能モジュールの実行確率によって重み付けされ、実行確率は、自律システムによる対応する実行可能モジュールの実行の確率を記述する。
【0019】
本方法の一部の実施形態では、候補オブジェクティブの漸進的タスクユニット構造からアクションストラテジを生成することは、漸進的タスクユニット構造から確率的決定プロセスを生成することを含む。確率的決定プロセスは、少なくとも、漸進的タスクユニット構造の実行可能モジュールのアクションに対応するアクションのセットと、自律システムの状態を含む状態のセットとを含み、各状態は、実行可能モジュールの実行の結果に対応する。
【0020】
本方法は、確率的決定プロセスを実行することを含む。
【0021】
本方法の一部の実施形態では、確率的決定プロセスは、因数分解マルコフ決定プロセスである。
【0022】
本方法の一部の実施形態では、実行可能モジュールに対応する1つ以上のアクションは、1つ以上の候補オブジェクティブの実行を引き起こす。
【0023】
第2の態様では、本技術の種々の実装形態は、1つ以上の対応するタスクを遂行することによって、1つ以上のオブジェクティブを満たすように、自律システムによって実行されるアクションを計画するためのコンピュータ実装方法を提供する。
【0024】
本方法は、1つ以上のオブジェクティブのセットにアクセスすることを含む。1つ以上のオブジェクティブの各々は、対応する1つ以上のオブジェクティブの特性を識別するパラメータを含む。
【0025】
本方法は、漸進的タスクユニット構造を含む第1のデータベースにアクセスすることを含み、各漸進的タスクユニット構造は、実行可能モジュール及び障害回復モジュールによって記述される対応するタスクを遂行するためのアクションの階層を含み、各実行可能モジュールは、アクションの階層のリソース制限付きアクションを実施するために自律システムによって実行されるように構成される。各障害回復モジュールは、自律システムが、対応するタスクの遂行を追求するために、実行可能モジュールに対応するアクションを実施することに失敗したという判定が行われた場合、自律システムによって実行されるように構成される。
【0026】
本方法は、実施されるリソース制限付きアクションの階層を含む障害回復漸進的タスクユニット構造を含む第2のデータベースにアクセスすることを含み、各障害回復漸進的タスクユニット構造は、漸進的タスクユニット構造の障害回復モジュールに対応する。障害回復モジュールの実行は、自律システムによるリソース制限付きアクションの実行を引き起こす。
【0027】
本方法は、1つ以上のオブジェクティブのパラメータに基づいて第1のデータベースから1つ以上の漸進的タスクユニット構造を選択することであって、各オブジェクティブは、漸進的タスクユニット構造に対応する、選択することと、選択された1つ以上の漸進的タスクユニット構造を実行することと、を含む。実行は、選択された1つ以上の漸進的タスクユニット構造から1つ以上の確率的決定プロセスを生成することを含む。各確率的決定プロセスは、漸進的タスクユニット構造の実行可能モジュール及び障害回復モジュールのアクションに対応するアクションのセットと、実行可能モジュールのアクションの結果に対応する状態のセットと、を含む。
【0028】
本方法は、自律システムの現在の状態に基づいてアクションのセットのうちの1つ以上のアクションを実施することによって、1つ以上の確率的決定プロセスを実行することと、選択された1つ以上の漸進的タスクユニット構造を実行する際に、自律システムが障害回復モジュールに対応するアクションを実施するという判定が行われた場合、障害回復モジュールの障害回復漸進的タスクユニット構造のリソース制限付きアクションの階層を実行することと、を含む。
【0029】
本方法の一部の実施形態では、対応する障害回復漸進的タスクユニット構造のリソース制限付きアクションの階層を実行することは、障害回復漸進的タスクユニット構造から確率的決定プロセスを生成することを含む。確率的決定プロセスは、障害回復漸進的タスクユニット構造のリソース制限付きアクションに対応するアクションのセットと、リソース制限付きアクションの結果に対応する状態のセットと、を含む。
【0030】
本方法は、自律システムの現在の状態に基づいてアクションのセットのうちの1つ以上のアクションを実施することによって確率的決定プロセスを実行することを含む。
【0031】
本方法の一部の実施形態では、確率的決定プロセスは、因数分解マルコフ決定プロセスである。
【0032】
本方法の一部の実施形態では、各実行可能モジュールは、候補オブジェクティブの実行の状態のパラメータを記述する状態変数の部分集合に関連付けられ、選択された1つ以上の漸進的タスクユニット構造から1つ以上の確率的決定プロセスを生成することは、所定の状態変数に対応する選択された1つ以上の漸進的タスクユニット構造の実行可能モジュールを選択することを含む。
【0033】
第3の態様では、本技術の種々の実装形態は、自律システムによって実行されるアクションストラテジを生成するためのコンピュータ実装方法を提供し、アクションストラテジは、対応するアクティブオブジェクティブを遂行するために、自律システムによって実施される一連のアクションを含み、一連のアクションは、自律システムがアクティブオブジェクティブを遂行するための限られたリソースを有する場合に、自律システムによって実施される1つ以上のリソース制限付きアクションを含み、自律システムは、所定の状態変数を検知するように構成された1つ以上の検知デバイスを備え、状態変数は、自律システムの状態を定義する。
【0034】
本方法は、自律システムによって検出されたイベントに対応するイベント記述がポピュレートされた第1のデータベースにアクセスすることであって、イベントは、自律システムが動作するように構成される環境内で発生しているか、又は発生していたものである、アクセスすることと、候補オブジェクティブがポピュレートされた第2のデータベースにアクセスすることと、を含む。
【0035】
各候補オブジェクティブは、自律システムによって遂行可能なタスクを定義し、1つ以上のイベント記述に対応するアクティブ化条件であって、アクティブ化条件は、対応する1つ以上のイベント記述が第1のデータベース内で見つかったという判定が行われた場合に満たされる、アクティブ化条件と、対応する候補オブジェクティブを遂行するために、実施されるアクションの階層を記述する漸進的タスクユニット構造であって、漸進的タスクユニット構造は、自律システムによって実行されるように構成された実行可能モジュールを備え、各実行可能モジュールは、アクションの階層のアクションに対応し、自律システムの所与の状態に関連付けられ、少なくとも1つの漸進的タスクユニット構造は、アクションストラテジを実施している間に、1つ以上の検知デバイスによって検出されている自律システムの所与の障害状態に応答して実施されるリソース制限付きアクションに対応する少なくとも1つの障害回復モジュールを備え、実行可能モジュール及び障害回復モジュールは、アクションストラテジの実施中にどのモジュールが優先的に実行されるべきかを示す実行スコアに関連付けられる、漸進的タスクユニット構造と、を含む。
【0036】
本方法は、イベント記述に基づいて1つ以上の候補オブジェクティブのアクティブ化条件が満たされるかどうかを判定することによって、第2のデータベースから1つ以上の候補オブジェクティブを選択することと、1つ以上の候補オブジェクティブを実行することと、を更に含む。
【0037】
候補オブジェクティブの実行は、候補オブジェクティブの選択を引き起こしたイベント記述のうちの少なくとも1つのパラメータを選択された候補オブジェクティブに転送し、それによってアクティブオブジェクティブを生成することと、漸進的タスクユニット構造からアクションストラテジを生成することであって、アクションストラテジは、自律システムの障害状態の検出時に、対応するリソース制限付きアクションが実行されるように、自律システムの状態に従って実施されるアクションについての情報を含み、アクションストラテジの一連のアクションは、実行可能モジュール及び障害回復モジュールの実行スコアに基づいている、生成することと、自律システムの状態に基づいてアクションストラテジの一連のアクションを実行することと、を含む。
【0038】
第4の態様では、本技術の種々の実装形態は、自律システムによって実行されるアクションストラテジを生成するためのシステムを提供し、システムは、プロセッサと、プロセッサによって実行されると、システムに方法を実施させる命令を記憶するように構成される、メモリと、を備える。
【0039】
第5の態様では、本技術の種々の実装形態は、命令を実行すると、コンピュータに方法のステップを実行させる命令を含むコンピュータ可読サポートを提供する。
【0040】
本明細書の文脈では、明示的に別段の定めをした場合を除き、コンピュータシステムは、限定はしないが、「電子デバイス」、「オペレーティングシステム」、「システム」、「コンピュータベースのシステム」、「コントローラユニット」、「監視デバイス」、「制御デバイス」、及び/又は当面の関連タスクに適したそれらの任意の組み合わせを指すことができる。
【0041】
本明細書の文脈において、明示的に別段の定めをした場合を除き、「コンピュータ可読媒体」及び「メモリ」という表現は、任意の性質及び種類の媒体を含むことが意図されており、その非限定的な例には、RAM、ROM、ディスク(CD-ROM、DVD、フロッピーディスク、ハードディスクドライブなど)、USBキー、フラッシュメモリカード、ソリッドステートドライブ、及びテープドライブが含まれる。
【0042】
更に、本明細書の文脈において、「1つの(a)」コンピュータ可読媒体及び「その(the)」コンピュータ可読媒体は、同じコンピュータ可読媒体であると解釈されるべきでない。反対に、適切な場合にはいつでも、「1つの(a)」コンピュータ可読媒体及び「その(the)」コンピュータ可読媒体は、第1のコンピュータ可読媒体及び第2のコンピュータ可読媒体と解釈することもできる。
【0043】
本明細書の文脈では、明示的に別段の定めをした場合を除き、「第1の」、「第2の」、「第3の」などの語は、それらが修飾する名詞を互いに区別することを可能にする目的のみのために形容詞として使用されており、それらの名詞間の任意の特定の関係を説明する目的のためではない。
【0044】
本技術の実装形態は、それぞれ、上述の目的及び/又は態様のうちの少なくとも1つを有するが、必ずしもそれらの全てを有するとは限らない。上述の目的を達成しようとする試みから生じた本技術の一部の態様は、この目的を満足させない場合があり、かつ/又は本明細書に具体的に列挙されていない他の目的を満足させる場合があることを理解されたい。
【0045】
本技術の実装形態の追加及び/又は代替の特徴、態様、及び利点は、以下の説明、添付の図面、及び添付の特許請求の範囲から明らかになるであろう。
【図面の簡単な説明】
【0046】
本技術、並びに本技術の他の態様及び更なる特徴をよりよく理解するために、添付の図面と併せて使用される以下の説明を参照する。
【0047】
図1】本技術の一実施形態による使用に好適なコンピュータシステムである。
図2】本技術の一実施形態による、自律システムの高レベル概略図である。
図3】本技術の一実施形態による、漸進的タスクユニット構造の高レベル概略図である。
図4】本技術の一実施形態による、漸進的タスクユニット構造の記述的表である。
図5】本技術の一実施形態による、アクションストラテジを生成するための方法の動作を示すシーケンス図である。
図6】本技術の一実施形態による、アクションストラテジの表現である。
図7】本技術の一実施形態による、別のアクションストラテジの表現である。
図8】本技術の一実施形態による、アクションストラテジの有限状態機械である。
【0048】
また、本明細書で明示的に指定されない限り、図面は一定の縮尺ではないことに留意されたい。
【発明を実施するための形態】
【0049】
本明細書に列挙される例及び条件付き言語は、主に、読者が本技術の原理を理解するのを助けることを意図しており、その範囲をかかる具体的に列挙された例及び条件に限定することを意図していない。当業者は、本明細書に明示的に記載又は図示されているが、本技術の原理を具現化するにもかかわらず種々の配置を考案し得ることを理解するであろう。
【0050】
更に、理解を助けるものとして、以下の説明は、本技術の比較的簡略化された実装形態を説明し得る。当業者が理解するように、本技術の種々の実装形態は、より複雑であり得る。
【0051】
場合によっては、本技術に対する修正の有用な例であると考えられるものも記載され得る。これは、単に理解を助けるために行われるものであり、やはり、本技術の範囲を定義するものでも、本技術の境界を示すものでもない。これらの修正は網羅的なリストではなく、当業者は、それでもなお本技術の範囲内に留まりながら他の修正を行うことができる。更に、修正の例が記載されていない場合、修正が可能でないこと、及び/又は記載されているものが本技術のその要素を実装する唯一の様式であることを解釈すべきではない。
【0052】
更に、本技術の原理、態様、及び実装形態、並びにそれらの特定の例を列挙する本明細書の全ての記述は、それらが現在知られているか、又は将来開発されるかにかかわらず、それらの構造的均等物と機能的均等物の両方を包含するものとする。したがって、例えば、本明細書における任意のブロック図は、本技術の原理を具現化する例示的な回路の概念図を表すことが当業者によって理解されるであろう。同様に、任意のフローチャート、フロー図、状態遷移図、擬似コードなどは、非一時的コンピュータ可読媒体において実質的に表され、したがって、コンピュータ又はプロセッサが明示的に示されているか否かにかかわらず、かかるコンピュータ又はプロセッサによって実行され得る種々のプロセスを表すことが理解されよう。
【0053】
「プロセッサ」とラベル付けされた任意の機能ブロックを含む、図に示される種々の要素の機能は、専用ハードウェア、並びに適切なソフトウェアに関連してソフトウェアを実行することが可能なハードウェアの使用を通じて提供され得る。プロセッサによって提供されるとき、機能は、単一の専用プロセッサによって、単一の共有プロセッサによって、又はそのうちの一部が共有され得る複数の個々のプロセッサによって提供され得る。
【0054】
本技術の一部の実施形態では、プロセッサは、中央処理装置(CPU)などの汎用プロセッサ、又はデジタルシグナルプロセッサ(DSP)などの特定の目的に専用のプロセッサであってもよい。更に、「プロセッサ」という用語の明示的な使用は、ソフトウェアを実行することが可能なハードウェアを排他的に指すと解釈されるべきではなく、限定はしないが、特定用途向けIC(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、ソフトウェアを記憶するための読み出し専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、及び不揮発性ストレージを暗黙的に含み得る。従来型及び/又はカスタムの他のハードウェアも含まれ得る。
【0055】
ソフトウェアモジュール、又は単にソフトウェアであることが暗示されるモジュールは、本明細書では、プロセスステップ及び/又はテキスト記述の実施を示すフローチャート要素又は他の要素の任意の組み合わせとして表され得る。かかるモジュールは、明示的又は暗示的に示されるハードウェアによって実行され得る。更に、モジュールは、例えば、限定はしないが、必要とされる能力を提供する電算プログラム論理、電算プログラム命令、ソフトウェア、スタック、ファームウェア、ハードウェア回路、又はそれらの組み合わせを含み得ることを理解されたい。
【0056】
本技術は、自律システムが、利用可能なリソースに基づいて、最適なアクションストラテジ又は「アクションポリシー」を生成及び実行することを可能にすることによって、かかるシステムにより多くの自己充足性を提供する。アクションストラテジは、タスクを遂行するために実施される一連のアクションを含むことができ、アクションの実行は、他のアクションの結果、利用可能なリソース、及び/又は他の可能な実行条件などの実行条件に基づいて、リアルタイムで、又はほぼリアルタイムで調整することができる。アクションストラテジは、アクション計画とも称されることがあり、任意の時点で調整することができる。したがって、システムは、周囲環境を検知し、それと相互作用することが可能であり得る。
【0057】
加えて、本技術に従って実装される自律システムは、最も効率的かつ満足のいく様式でタスクを遂行するために、リアルタイムでストラテジを適応させ、予想されないイベント又は「異常」イベント及び/又は状態に反応することが可能であり得る。更に、自律システムは、タスクの実行前又は実行中に生じる状況に応答することが可能であり得る。
【0058】
本開示の種々の態様は、概して、従来の自律システムに見られる問題のうちの1つ以上に対処する。この目的を達成するために、本開示は、他の態様の中でもとりわけ、支援アクションストラテジを生成及び実行するように構成されたインテリジェント自律システムを導入する。
【0059】
これらの基礎を適所に置いて、次に、本技術の態様の種々の実装形態を例示するために、一部の非限定的な例を検討する。
【0060】
図1を参照すると、本技術の少なくとも一部の実施形態による使用に好適なコンピュータシステム100が示されている。コンピュータシステム100は、従来のパーソナルコンピュータ、ネットワークデバイス、及び/又は電子デバイス(モバイルデバイス、タブレットデバイス、サーバ、コントローラユニット、制御デバイスなどであるが、それらに限定されない)、及び/又は当面の関連タスクに適切なそれらの任意の組み合わせのうちのいずれかによって実装されてもよい。
【0061】
一部の実施形態では、コンピュータシステム100は、プロセッサ110によって集合的に表される1つ以上のシングル又はマルチコアプロセッサ、ソリッドステートドライブ120、ランダムアクセスメモリ130、及び入力/出力インターフェース150を含む、種々のハードウェア構成要素を備える。コンピュータシステム100は、機械学習アルゴリズム(MLA)を動作させるように特に設計されたコンピュータとすることができる。コンピュータシステム100は、汎用コンピュータシステムであり得る。コンピュータシステム100は、ロボット車両に統合されてもよく、かつ/又はロボット車両を制御するように構成されてもよい。
【0062】
一部の実施形態では、コンピュータシステム100は、上に列挙したシステムのうちの1つのサブシステムであり得る。一部の他の実施形態では、コンピュータシステム100は、「既製の(off-the-shelf)」汎用コンピュータシステムであり得る。一部の実施形態では、コンピュータシステム100はまた、複数のシステム間に分散されてもよい。コンピュータシステム100はまた、本技術の実装形態に特に専用であってもよい。本技術の当業者が理解し得るように、本技術の範囲から逸脱することなく、コンピュータシステム100がどのように実装されるかに関する複数の変形形態が想定され得る。
【0063】
当業者は、プロセッサ110が概して処理能力を表すことを理解するであろう。一部の実施形態では、1つ以上の従来の中央処理装置(CPU)の代わりに、又はそれに加えて、1つ以上の特殊処理コアが、提供されてもよい。例えば、1つ以上のグラフィック処理ユニット111(GPU)、テンソル処理ユニット(TPU)、及び/又は他のいわゆる加速プロセッサ(又は処理アクセラレータ)が、1つ以上のCPUに加えて、又はその代わりに提供されてもよい。
【0064】
システムメモリは、典型的には、ランダムアクセスメモリ130を含むことになるが、より一般的には、静的ランダムアクセスメモリ(SRAM)、動的ランダムアクセスメモリ(DRAM)、シンクロナスDRAM(SDRAM)、読み出し専用メモリ(ROM)、又はそれらの組み合わせなど、任意のタイプの非一時的システムメモリを包含することが意図される。
【0065】
ソリッドステートドライブ120は、大容量ストレージデバイスの一例として示されているが、より一般的には、かかる大容量ストレージは、データ、プログラム、及び他の情報を記憶し、データ、プログラム、及び他の情報を、システムバス160を介してアクセス可能にするように構成された任意のタイプの非一時的ストレージデバイスを備え得る。例えば、大容量ストレージは、ソリッドステートドライブ、ハードディスクドライブ、磁気ディスクドライブ、及び/又は光ディスクドライブのうちの1つ以上を備え得る。
【0066】
コンピュータシステム100の種々の構成要素間の通信は、種々のハードウェア構成要素が電子的に結合される1つ以上の内部バス及び/又は外部バス(例えば、PCIバス、ユニバーサルシリアルバス、IEEE1394「ファイアワイヤ」バス、SCSIバス、シリアルATAバス、ARINCバスなど)を備えるシステムバス接続160によって可能にされ得る。
【0067】
入力/出力インターフェース150は、有線又は無線アクセスなどのネットワーキング能力を提供することができる。一例として、入力/出力インターフェース150は、限定はしないが、ネットワークポート、ネットワークソケット、ネットワークインターフェースコントローラなどのネットワーキングインターフェースを含み得る。ネットワーキングインターフェースがどのように実装され得るかの複数の例が、本技術の当業者には明らかになるであろう。
【0068】
例えば、ネットワーキングインターフェースは、イーサネット、ファイバチャネル、Wi-Fi又は任意の他の無線データリンクプロトコル、トークンリング又はシリアル通信プロトコルのような特定の物理層及びデータリンク層標準を実装することができる。特定の物理層及びデータリンク層は、完全なネットワークプロトコルスタックのためのベースを提供することができ、同じローカルエリアネットワーク(LAN)上のコンピュータの小グループ間の通信、及びインターネットプロトコル(IP)などのルーティング可能なプロトコルを介した大規模ネットワーク通信を可能にする。
【0069】
入力/出力インターフェース150は、タッチスクリーン190に、並びに/あるいは1つ以上の内部及び/又は外部バス160に結合され得る。タッチスクリーン190は、ディスプレイの一部であり得る。
【0070】
一部の実施形態では、タッチスクリーン190はディスプレイである。タッチスクリーン190は、同様にスクリーン190と称されることがある。図1に例示する実施形態では、タッチスクリーン190は、タッチハードウェア194(例えば、ユーザとディスプレイとの間の物理的相互作用の検出を可能にする、ディスプレイの層内に埋め込まれた感圧セル)と、ディスプレイインターフェース140並びに/又は1つ以上の内部及び/若しくは外部バス160との通信を可能にする、タッチ入力/出力コントローラ192と、を備える。
【0071】
一部の実施形態では、入力/出力インターフェース150は、タッチスクリーン190に加えて、又はその代わりに、キーボード(図示せず)、マウス(図示せず)、トラックパッド(図示せず)、音声ヒューマンマシンインターフェース(HMI)(図示せず)、及び/又はユーザがコンピュータシステム100と対話することを可能にするのに好適な任意の他のデバイスに接続されてもよい。
【0072】
本技術の一部の実装形態によれば、ソリッドステートドライブ120は、本明細書で説明される1つ以上の方法の行為を実行するために、ランダムアクセスメモリ130にロードされ、プロセッサ110によって実行されるのに好適なプログラム命令を記憶する。例えば、プログラム命令の少なくとも一部は、ライブラリ又はアプリケーションの一部であってもよい。
【0073】
図2は、本技術の一実施形態による自律システム200の高レベル概略図を例示している。自律システム200は、コンピュータシステム210を備え得る。コンピュータシステム210は、コンピュータシステム100であってもよく、かつ/又はコンピュータシステム100の構成要素の一部又は全部を含んでもよい。コンピュータシステム210は、自律システム200に対して内部にあっても外部にあってもよい。一実施形態では、コンピュータシステム210は、外部にあり、ネットワーク(図示せず)を介して複数の自律システム200に通信可能に接続されてもよい。
【0074】
自律システム200は、環境230内で動作することができ、支援アクションを行うことができる。環境230は、限定はしないが、ショッピングセンター、オフィスなどの物理的環境であってもよく、又はコンピューティングデバイスネットワーク、配電網などの論理的環境であってもよい。環境230は、限定はしないが、店舗、ドア、廊下、人々、又は物理環境230の場合に支援タスクを実施するためにその特徴が関連し得る任意の他のエンティティなどのエンティティと、論理環境230の場合に支援タスクを実施するためにその特徴が関連し得るプロセッサ、ネットワーキングデバイス、インターフェース、又は任意の他のエンティティと、を含み得る。したがって、エンティティ及びエンティティ間の関係を使用して、環境230を画定することができる。
【0075】
自律システム200は、知覚ユニット212を介して環境230内の生データを取り込むように構成される。知覚ユニット212は、ヒューマンマシンインターフェース、カメラなどのセンサ、LiDARセンサ、又は物理的環境230に適合された任意のタイプの検知デバイスを備えてもよく、電流計、データフローセンサ、接続インジケータ、又は論理的環境230に適合された任意のタイプのセンサを備えてもよい。生データは、知覚ユニット212に通信可能に接続されたコンピュータシステム210によって処理することができる。知覚ユニット212は、信号の処理及び/又はコンピュータビジョンソフトウェアアプリケーションを実行して、イベントの発生を検出するように構成され得る。
【0076】
コンピュータシステム210は、環境230内で発生するイベントのイベント記述を生成し、更に異常イベントを識別するように構成することができる。一実施形態では、コンピュータシステム210は、異常イベントのイベント記述をデータベース216に記憶することができる。
【0077】
この実施形態又は更に別の実施形態では、所与のイベントを「異常」として識別することは、その対応するイベント記述と環境230のプロパティとの間のコヒーレンスチェック手順を実行することによって行われる。コヒーレンスチェックルーチンは、コンピュータ可読フォーマットの下でイベントを表現することと、環境230の事前定義された常識ルール及び/又はセマンティック知識にアクセスすることと、ルールベースの順方向推論を使用して当該イベント記述と常識ルール及び/又はセマンティック知識との比較を更に実行することと、を含み得る。イベントが少なくとも1つの常識ルール又はセマンティック知識と不一致であることが見つかった場合、当該イベントは異常であると識別され得る。
【0078】
したがって、イベントが知覚ユニット212によって検出されると、異常イベントのリストが生成され、新しい異常イベントで更新され得る。代替的な実施形態では、イベントを「異常」として識別するための他のコヒーレンスチェック手順が企図される。
【0079】
一実施形態では、データベース216は、自律システム200に組み込まれてもよく、又は外部の物理的なロケーションに位置してもよい。コンピュータシステム210は、ローカルエリアネットワーク(LAN)などのネットワーク(図示せず)、及び/又はワイヤレスローカルエリアネットワーク(WLAN)若しくは任意の非ローカルネットワーク(WAN)などのワイヤレス接続を介して、データベース216のコンテンツにアクセスするように構成され得る。
【0080】
データベース216はまた、候補オブジェクティブを含み得る。候補オブジェクティブは、自律システム200に通信可能に接続された別のデータベース(図示せず)に記憶され得る。1つ以上の候補オブジェクティブは、対応する異常イベントの検出時にコンピュータシステム210によってアクティブ化され、それによって1つ以上の対応する「アクティブオブジェクティブ」又は単に「オブジェクティブ」を定義することができる。アクティブオブジェクティブは、対応する異常イベントに対処するために、更に実行されてもよく、かつ/又は自律システム200のオペレータに伝送されてもよい。
【0081】
同様に、アクティブオブジェクティブは、データベース216に記憶され得る。したがって、新しい異常が検出され、当該新しい異常イベントに基づいて新しいアクティブオブジェクティブが定義されると、アクティブオブジェクティブのリストが生成され、更新され得る。例えば、p1として識別された人間が、地上に横たわっているとして検出された場合、このイベントは異常として識別され得る。
【0082】
次いで、地上に横たわっている人間の検出に対応する候補オブジェクティブをアクティブ化して、人間p1を助けることができる。この状況では、候補オブジェクティブは、関数help()とすることができ、対応するアクティブオブジェクティブは、パラメータp1:help(p1)に関連付けられた関数とすることができる。
【0083】
各候補オブジェクティブは、コンピュータ可読命令を含むことができ、アクティブ化条件又は「選択条件」、識別子、オブジェクティブカテゴリ(例えば、監視、支援、ガイダンス、広告など)、ロケーション、時間、物体、人間などの可変状態を記述するパラメータ、及び漸進的タスクユニット構造、又はそれらの組み合わせによって、以下のように記述され得る。
Objective(activation_condition,identifier,objective category,parameters,progressive task unit structure)。
【0084】
漸進的タスクユニット構造は、以下でより詳細に説明される。
【0085】
候補オブジェクティブのアクティブ化条件は、1つ以上の異常イベントに対応することができる。アクティブ化条件は、対応する1つ以上の異常イベントが知覚ユニット212によって検出されているという判定がコンピュータシステム210によって行われた場合に満たされる。
【0086】
アクティブオブジェクティブは、候補オブジェクティブのパラメータを、対応する候補オブジェクティブのアクティブ化条件を満たさせた1つ以上の異常イベントのパラメータで更新することによって、候補オブジェクティブから生成又は「導出」され得る。換言すれば、候補オブジェクティブの選択を引き起こしたイベント記述の少なくとも1つのパラメータが、イベント記述から候補オブジェクティブに転送される。一例として、候補オブジェクティブを以下に示す。
Objective(lying(p),id,help,{person},progressive task unit structure)
【0087】
人間p1が地面に横たわっている場合、前の候補オブジェクティブがアクティブ化され、以下のアクティブオブジェクティブが生成される。
Objective(lying(p1),id,help,p1,Assist progressive task unit structure),p1は異常イベントのパラメータである。
【0088】
自律システム200は、アクティブオブジェクティブに対応するアクションを実行することによって、自律システム200に環境230内で対話させるように構成された対話ユニット220を備え得る。対話ユニット220は、ヒューマンマシンインターフェース、1つ以上のスクリーン、スピーカ、マイクロフォン、物理アクチュエータ、駆動システム、又は環境230が物理環境である場合に物理環境内で対話するために使用され得る任意の好適なシステム、あるいは環境230が論理環境である場合に論理環境において使用され得る論理アクチュエータ、プロセッサ、又は任意の好適なシステムなどの対話要素を動作させることができる。
【0089】
本開示を明確にするために、以下の例は、物理環境230に関する。これは、単に本開示の読解を容易にするために行われるものであり、やはり、本技術の範囲を定義するものでも、本技術の境界を示すものでもない。以下で説明される本技術及び方法は、自律システム200から独立していてもよく、他の応用分野で使用されてもよい。したがって、自律システム200が論理環境230で動作する実施形態も企図されることに留意されたい。例えば、自律システム200は、ソフトウェア、検索エンジン、又は任意の他のコンピュータ実装ツールのユーザを支援するための支援アクションを行うように動作してもよい。
【0090】
本技術の一態様は、満たすべきオブジェクティブのリストに基づいてアクションストラテジを生成する方法を提供することである。そのために、各候補オブジェクティブは、漸進的タスクユニット構造を含み得る。漸進的タスクユニット構造は、その候補オブジェクティブに対応するタスクを増分的に遂行するために実施され得る一連のアクション、命令、及び/又はアクションの任意の他の形態の指示を含み得る。漸進的タスクユニット構造の例示的な実施形態について、以下でより詳細に説明する。
【0091】
ここで図3に目を向けると、本技術の一実施形態による、オブジェクティブに対応する漸進的タスクユニット構造300の高レベル概略図が例示されている。各漸進的タスクユニット構造は、対応するオブジェクティブを遂行するために、実施されるタスク又は「アクション」を記述し、タスクを実施するための1つ以上の実行可能モジュールを含む。
【0092】
換言すれば、漸進的タスクユニット構造300は、アクションの階層を記述することができ、各アクションは、漸進的タスクユニット構造300の実行可能モジュールに対応する。実行可能モジュールは、対応する漸進的タスクユニット構造が実行されるときに実行されるように構成される。コンピュータシステム210は、漸進的タスクユニット構造から、対応する最適なアクションストラテジ、又は単に「アクションストラテジ」を生成することができる。以下の説明は、漸進的タスクユニット構造の例示的な表現を提供する。
【0093】
漸進的タスクユニットは、拡張可能マークアップ言語(XML)ファイルで符号化することができ、一連の処理レベルL=(l0,l1,…,l|L|)、状態変数の集合X={X1,X2,…,X|X|}、及び環境の観測可能なブールプロパティの集合O={o1,o2,…,o|O|}を含むことができ、式中、|L|、|X|、|O|は有限であり、|L|、|X|、|O|≧0である。各状態変数Xには、有限値の集合内の値、すなわち、Xi∈Hi={┴,h1i,…,hi|Hi|}を割り当てることができ、Hiは有限であり、┴は特別なヌル値を表す。
【0094】
各処理レベルliは、実行可能モジュールのセット、又は単に「モジュール」、Mi={m1 i,…,mi |Mi|}から構成され得、アクティブ状態変数の集合、又は「焦点化変数」、Vi⊂Xに関連付けられ得、アクティブ状態変数は、状態変数Xのサブセットである。加えて、又は代替として、各モジュールは、状態変数の別個のサブセットに対応し得る。
【数1】
で、漸進的タスクユニット構造の全てのレベルにおける全てのモジュールのセットを示す。
【0095】
各モジュールmi jは、その実行の可能な結果を表すオプションの非空集合{αi ji j,..,,xi j}によって定義することができる。オプションを示すために使用される記号(例えば、αi j)は、全ての漸進的タスクユニット構造において一意の識別子として設定され得る。各オプションは、以下の属性の1つ以上に関連付けることができる。
【0096】
-実行条件αi jψ:Oにおける環境130の観測可能なブールプロパティの特定の構成。この構成は、対応する結果が発生したことを決定するために実行時に使用される観測可能な条件を表す。実行条件が満足された場合、1つ以上の対応する後続実行可能モジュールが実行され得る。換言すれば、実行条件は、前のモジュールの実行の結果を示す、知覚ユニット212によって検出されたイベントに対応し得る。所与の実行可能モジュールのオプションに対応する実行条件は、相互に排他的であってもよい。
【0097】
-確率αi j.p:対応する結果の発生の確率又は対応する実行可能モジュールの「実行確率」であり、モジュール内の全てのオプションに対する全ての確率値の合計は1に等しい。発生確率は、例えばMLA技術を使用して、動作中に自律システム200によって学習され得るため、本技術は標準的な計画技術とは区別される。実際に、標準的な計画技術は、1つのアクションの実行が1つの結果のみを有し得ることを考慮し得る。一例として、標準的な計画技術では、自律システムがドアを開くことである場合、計画時におけるこのアクションの対応する結果は、ドアが開くことである。
【0098】
しかしながら、これは、ドアがロックされ又は壊れる可能性を考慮していない。コンピュータシステム210は、自律システムの動作中の経験に基づいて、及び/又はMLA技術を使用して、結果の発生の確率を確立することができる。
【0099】
-実行スコア又は「品質」、αi j.q:この結果を達成するための推定スコア。実行スコアは、一定値又は状態変数Xの関数であってもよい。それは、対応するタスクを実施するためにどの実行可能モジュールが優先的に実行されるべきかを示すアクションストラテジを生成するために使用されてもよい。
【0100】
-持続時間αi j.d:この結果を達成するための推定時間。一実施形態では、dは、アクションを実施するための特定のリソースの推定量を表す。例えば、dは、アクションを実施するために必要とされるメモリサイズ、又はアクションを実施するために必要とされる自律システム200のバッテリの推定量を表すことができる。持続時間は、一定値として、又は状態変数の関数として表すことができる。
【0101】
-1つ以上の後続実行可能モジュールαi j.SM:対応する結果の後にイネーブルされる後続実行可能モジュールのセット。同じ又は別の実施形態では、後続の実行可能モジュールは、同じレベルにあるか、又は現在の実行可能モジュールに対して次のレベルにある。
【0102】
-1つ以上の状態変数更新αi j.SVU:この結果の後に考慮されなければならない状態変数割り当てのセットであり、状態変数は自律システム200の状態の記述に対応する。対応する結果が生じたと判定されると、1つ以上の状態変数を更新することができ、(Xk←h k)∈αi j.SVU、Xi∈Viであり、現在のレベルに対応する状態変数のみが更新され得ることを考慮し、h i∈Hiである。
【0103】
より詳細に説明されるように、コンピュータシステム210は、したがって、自律システム200に利用可能なリソースに従って遂行の深さを適合させるために、タスクを1つの処理レベルから次の処理レベルへと増分的に遂行することができる。
【0104】
漸進的タスクユニット構造300は、自律システム200にユーザと対話させることによって満たされるオブジェクティブに対応し得る。したがって、漸進的タスクユニット構造300は、ユーザを待って当該ユーザと対話するために実施されるアクションを含み得る。
【0105】
この例示的な漸進的タスクユニット構造300では、自律システム200は、ユーザの要求に応じて2つのアクティビティA及びBを実行することができる。しかしながら、ユーザは、これらの能力を認識していない場合がある。自律システム200は、最初に待機状態にあってもよい。ユーザがロボットの前で検出されるときはいつでも、自律システム200は、それが実施し得るアクティビティA及びBを記述するためにユーザとの対話を開始することができる。
【0106】
ユーザは、次いで、それらのうちの1つを選択するか、又は関心がないと回答することができる。アクティビティが選択されると、自律システム200は、それを実施するためのタスクを実行する。各アクティビティは、アクティビティAのための2つの代替タスクTaskA1及びTaskA2、並びにアクティビティBのためのTaskB1及びTaskB2の実行によって行われ得る。タスクの実行後、自律システム200は、待機状態に戻り、次のユーザを待機することができる。
【0107】
例示的な漸進的タスクユニット構造300は、3つの処理レベル、すなわち、実行可能モジュール312を含む初期層310と、実行可能モジュール322を含む対話層320と、実行可能モジュール332、334、336、及び338を含むアクション層330と、実行可能モジュール342を含む最終層340と、を含む。この例示的な例では、Xは空であり、O={person;A;B;none}である。
【0108】
持続時間(時間リソースを表すd)及び品質(q)の特定の値が、対応する実行可能モジュールにおいて図3に示され、結果の確率及び実行可能モジュールMのリストが図4に例示されている。漸進的タスクユニット構造300の構造は、自律システム200が支援タスクを「漸進的に」行うことを可能にする。実際、実行可能モジュールの定義及び状態変数の連続的な考慮は、支援タスクの実行が中断され、更に再開され得るようなものである。自律システム200は、必ずしも、中断の場合に最初から支援タスクを開始する必要はない。
【0109】
ユーザとの対話中に、以下の不都合が発生する可能性がある。すなわち、ユーザが、例えば自律システム200に応答しないことによって対話を完了しない、任意のアクションが、漸進的タスクユニット構造300において定義されていない理由で失敗する可能性がある、並びに/又は任意のアクションが、一部の外部コマンド及び/若しくは条件に従って中止される可能性がある。
【0110】
本技術にロバスト性を提供するために、各実行可能モジュールは、状態変数Xのサブセットの所定の構成と関連付けられてもよい。例えば、カメラで写真を撮影する例示的アクションに対応する第1の実行可能モジュールは、状態変数の以下の構成と関連付けられてもよい。
{camera:ON,battery:HIGH}、状態変数は、自律システム200のカメラ状態「camera」及びバッテリレベル「battery」である。
【0111】
第1の実行可能モジュールに対応するアクションは、当該第1の実行可能モジュールの構成が満たされていないという判定が行われた場合、自律システム200の障害又は「障害状態」として識別され得る。例えば、カメラがオフであり、かつ/又はバッテリが低い場合、自律システムは障害状態であると宣言され得る。
【0112】
漸進的タスクユニット構造は、自律システム200が障害状態であると宣言されたときに実行されるように構成された障害回復モジュールを含み得る。以下でより詳細に説明されるように、障害回復モジュールは、自律システム200が、限られたリソースで対応するタスクの遂行を追求するために、実行可能モジュールに対応するアクションを実施することに失敗したという判定が行われた場合に、コンピュータシステム210によって実行され得るリソース制限付きアクションを表す。換言すれば、状態変数又は状態変数の部分集合が値の1つ以上の特定の組み合わせを有するという判定が行われたとき、障害回復モジュールが実行され得る。
【0113】
障害回復モジュールは、状態変数の1つ以上の構成に対応することができる。したがって、障害回復モジュールは、異なる障害状況を包含し、当該状況から回復するために実行することができる。
【0114】
前の例に戻って参照すると、第1の実行可能モジュールが実行されることになり、状態変数の構成が{camera:OFF,battery:HIGH}の場合、自律システムは、カメラを用いて画像を捕捉しなくてもよい。状態変数{camera:OFF,battery:HIGH又はLOW}の構成に対応する障害回復モジュールを漸進的タスクユニット構造に組み込んで、例えば自律システムを修理ステーションに行かせることができる。したがって、アクションの起こり得る障害は、障害回復モジュールを用いて、障害の場合に実施されるリソース制限付きアクションを示すことによって、アクションストラテジの実行の前に予期され得る。
【0115】
本明細書で説明される漸進的タスクユニット構造は、タスクを記述する形式を包含する。この実施形態では、漸進的タスクユニット構造は、利用可能なリソースに従ってタスク遂行の深さ及び精緻化を適応させる能力が提供されるように、対応するタスクを遂行するための異なる方式を表す階層として形式化される。当業者は、本技術が統一された計画言語を記述することができ、階層的タスクネットワーク(HTN)、動的ベイズネットワーク(DBN)、及び代数的決定図(ADB)が漸進的タスクユニット構造から検索及び/又は導出され得ることを理解するであろう。
【0116】
図4は、本技術の一実施形態による、漸進的タスクユニット構造の記述的表400である。記述的表400は、漸進的タスクユニット構造300の実行可能モジュールの名前のリスト410を、それぞれのオプション420と組み合わせて含む。実行可能及びオプションの各組み合わせは、記述的表400の列430におけるその対応する実行条件、列440におけるその対応する確率、及び列450におけるその後続の実行可能モジュールに関連付けられる。
【0117】
例えば、漸進的タスクユニット構造300の実行可能モジュール322、すなわち記述的表400内の実行可能モジュール
【数2】
は、3つのオプションを含む。
【0118】
【数3】
は、ユーザがアクティビティAを選択した場合の結果に対応し、
【数4】
は、ユーザがアクティビティBを選択した場合の結果に対応し、
【数5】
は、ユーザがいずれも選択しなかった場合の結果に対応する。
【0119】
漸進的タスクユニット構造は、図3に例示する木構造として、図4に例示する記述的表として、又は同等の特徴を有する任意の他の好適な様式として表すことができる。図3及び図4の図は、理解を助けるために設定されており、本技術の範囲を示すものではない。この態様は限定的ではない。
【0120】
コンピュータシステム210は、漸進的タスクユニット構造300などの漸進的タスクユニット構造からアクションストラテジを導出するように構成された計画モジュールを備えることができ、アクションストラテジの実行は、当該漸進的タスクユニット構造に対応するアクティブオブジェクティブを遂行することをもたらす。したがって、実行可能なアクションストラテジは、自律システム200の漸進的タスクユニット構造及び状態変数に依存する。一実施形態では、計画モジュールは、コンピュータシステム210によって受信された各候補オブジェクティブに対して1つのアクションストラテジを生成するように構成されてもよい。
【0121】
一実施形態では、計画モジュールは、オブジェクティブの漸進的ユニット構造をマージし、漸進的ユニット構造のマージに基づいて実行可能なアクションストラテジを生成することによって、複数のアクティブオブジェクティブに対応する複数のアクションストラテジを1つのグローバルアクションストラテジにマージすることができる。漸進的ユニット構造のマージは、それらのそれぞれの記述的表500を連結することによって行うことができる。
【0122】
同じ又は別の実施形態では、計画モジュールは、確率的決定プロセスを使用して、因数分解マルコフ決定プロセス(MDP)として形式化された実行可能なアクションストラテジを生成する。MDPは、離散時間確率的制御プロセスである。これは、結果が部分的に不確実であり、部分的に意思決定者、すなわちユーザの制御下にあり得る状況において意思決定をモデル化するように構成された数学的フレームワークからなる。当業者が理解するように、漸進的タスクユニット構造に基づいて最適なポリシーを計算するためのプロセスの種々の実装形態が可能であり得るが、それでもなお、本技術の範囲内に留まる。
【0123】
図5は、本技術の一実施形態による、アクションストラテジを生成するために漸進的タスクユニット構造を実行するための方法の動作を示すシーケンス図である。計画モジュールは、図6に例示される動作を実行するように構成されてもよい。MDPは、ステップ510において、漸進的タスクユニット構造に基づいて生成され、MDPの生成は、以下に説明される。
【0124】
上述のような漸進的タスクユニット構造が与えられると、計画モジュールは、MDPを生成するように構成される。MDPは、(S;A;T;R)として定義され、Sは、自律システム200の状態の有限集合であり、Aは、アクションの有限集合であり、T(s;ac;sf)は、アクションacを使用して状態sから状態sfに進む確率を示す遷移関数であり、R(s;ac;sf)は、状態sにおいてアクションacを使用し、状態sfに到達するための予想される利得を表す報酬関数である。報酬関数は、対応する実行可能モジュールの実行スコアに基づいてもよい。
【0125】
MDPは、A practical framework for robust decision-theoretic planning and execution for service robots(L.Iocchiet al.,2016)に記載されているように、漸進的タスクユニット構造に基づいて定義することができ、その内容は参照により組み込まれる。形式的には、動作510における計画モジュールの出力は、
【数6】
とすることができ、式中、
【数7】
は初期状態であり、Gは最終状態の集合であり、各タプル
【数8】
において、
【数9】
は、
【数10】
によって定義される状態であり、
【数11】
は、この状態で実行されるアクションであり、漸進的タスクユニット構造内の実行可能モジュールに対応し、SSi jは、対
【数12】
の集合であり、
【数13】
は、後続状態及びαi kである。ψは、漸進的タスクユニット構造において宣言され、対応する結果に関連付けられた実行条件である。
【0126】
計画モジュールは、動作520において、MDPに基づいて実行可能なアクションストラテジを定義するように更に構成される。計画モジュールは、グローバル実行スコアを決定するように構成されてもよく、グローバル実行スコアは、MDPの状態に対応する実行可能モジュールに関連付けられた実行スコアの組み合わせである。この実施形態では、実行スコアは、それぞれの実行可能モジュールの実行確率によって重み付けされる。同じ又は別の実施形態では、実行可能なアクションストラテジは、以下のように与えられるベルマン方程式を解くことによって定義される。
【数14】
【0127】
Vは、状態s及びにおいてアクションaを用いて行動する際の期待利得を表す期待値関数であり、R及びTは、それぞれ報酬関数及び遷移関数である。
【0128】
Value Iteration[Richard Bellman.A markovian decision process.Indiana Univ.Math.J.]又はPolicy Iteration[R.A.Howard.Dynamic Programming and Markov Processes]などの古典的なアルゴリズムは、最適なアクションストラテジ、又は「最適なポリシー」を効率的に計算するように構成される。
【0129】
図6は、本技術の一実施形態によるアクションストラテジ600の表現である。アクションストラテジ600は、例示的な漸進的タスクユニット構造300に対応する。状態
【数15】
は初期状態であり、
【数16】
は目標状態の集合である。表現600は、MDPの状態610と、それらの対応するアクション620と、それらの対応する集合SSi jとを含み、これについては前述されている(630)。
【0130】
前述したように、漸進的タスクユニット構造の障害回復モジュールは、自律システム200の障害状態を定義することができる。図7は、本技術の一実施形態によるアクションストラテジ700の表現である。アクションストラテジの第1の部分710は、漸進的タスクユニットの実行可能モジュールに対応する状態、すなわち「安全」状態を含み、アクションストラテジの第2の部分720は、「非安全状態」又は「障害状態」と称される、漸進的タスクユニットの障害回復モジュールに対応する障害状態を含む。
【0131】
一実施形態では、第1の部分710及び第2の部分720は、独立して実行され得る2つの異なるアクションストラテジ及び/又は2つの異なる漸進的タスクユニット構造に対応し得る。安全状態を障害状態から分離することは、アクションストラテジの実行中に状態変数の集合を低減し、本技術のスケーラビリティを向上させるのに役立つ。
【0132】
障害回復モジュールは、自律システム200によって実施されるリソース制限付きアクション、又は別個の漸進的タスクユニット構造、すなわち「障害回復漸進的タスクユニット構造」のいずれかに対応することができる。
【0133】
換言すれば、自律システム200が第1の漸進的タスクユニット構造の障害回復モジュールに対応する安全でない状態にあるという判定が行われた場合、第2の漸進的タスクユニット構造(例えば、障害回復漸進的タスクユニット構造)が実行され得る。第2の漸進的タスクユニット構造は、自律システムの安全でない状態に対応する障害から回復するために実施されるリソース制限付きアクションの階層を含み得る。第2のアクションストラテジは、第2の漸進的タスクユニット構造から生成され、上述したものと同様の方式で更に実行されてもよい。
【0134】
自律システム200によって実施されるリソース制限付きアクションに対応する障害回復モジュールは、自律システム200の「部分的障害状態」を表し、コンピュータシステム210による障害回復漸進的タスクユニット構造の実行を引き起こす障害回復モジュールは、自律システム200の「全体的障害状態」を表すということができる。
【0135】
図6の例証的例では、自律システムは、望ましくない挙動又は「障害状態」であり得る、アクション「Bye」を際限なく繰り返すように構成される。図7では、実行条件
【数17】
が真であるときにシステムを障害状態fに遷移させるために、状態変数ByeCounterが対応する漸進的タスクユニット構造に追加されている。
【0136】
したがって、計画モジュールによって実行条件
【数18】
が真であるという判定が行われた場合に、自律システム200によって特定のアクションが実施されてもよい。その結果、自律システム200は、漸進的タスクユニット構造及び回復障害モジュールの構造に基づいて、実行の不確実性、アクションを実行するための限られたリソース、及び起こり得る実行障害を考慮に入れるアクションストラテジを構築することができ、したがって、自律システム200のロバストな挙動ストラテジを可能にする。
【0137】
図8は、本技術の一実施形態によるアクションストラテジ600の有限状態機械である。この例示的な実施形態では、実行可能アクションストラテジ600は、自律システム200の状態
【数19】
を表すノードと、実行可能アクションストラテジアクション
【数20】
の実行を表す遷移と、を有するオートマトンとして表される。一実施形態では、アクションストラテジは、有限ホライズン、すなわちアクションの最大数がコンピュータシステム210によって設定されるか、又は無限ホライズン、すなわちアクションの無制限の数を有するように構成され得る。
【0138】
図6及び図8の例示的な例は、最終状態の後続の実行可能モジュールが最終状態自体であるため、無限ホライズンを有するアクションストラテジを例示している。無限ホライズンは、図8に示すように、自律システム200が、1つの状態から他の状態に無限に遷移することによって、アクションストラテジの実行を決して完全に終了しない構成である。
【0139】
実行可能モジュールに対応する状態変数の部分集合を使用することは、アクションストラテジの生成を容易にすることができる。実際に、コンピュータシステムは、対応する漸進的タスクユニット構造における状態変数の部分集合に対応する実行可能モジュールを選択し、それらの実行可能モジュールのみに基づいてアクションストラテジを生成してもよい。
【0140】
例えば、自律システム200によって人間を探索している間(例えば、当該人間が探索されるであることを示すオブジェクティブに基づくアクションストラテジの実行中)、バッテリがLOWであるという判定が行われた場合、コンピュータシステム210は、状態変数:battery:LOWを含む実行可能モジュールに対応する当該アクションストラテジのノードのみを考慮し得る。実際、この状況では、自律システム200は、高レベルのバッテリを必要とするアクションを実施することができない場合がある。
【0141】
このため、状態変数の部分集合は、他の状態変数が実行時に考慮されないことがあるため、「焦点化変数」と称されることがある。例えば、実行可能モジュールの焦点化変数の使用は、アクションストラテジを500.000ノードから100.000ノードに低減する。
【0142】
例えば、図8のセマンティックマップを画定することによってアクションストラテジを定義すると、計画モジュールは、実行可能なアクションストラテジを実行モジュールに更に伝送するように構成される。実行モジュールは、対話ユニット220を介してアクションストラテジを実行するように構成される。
【0143】
同じ又は別の実施形態では、実行モジュールは、知覚ユニット212に通信可能に接続されて、状態変数X={X1,X2,…,X|X|}を決定し、それによって自律システム200の現在の状態
【数21】
を決定することができる。対話ユニット220は、自律システム200に環境230と対話させるように構成された物理的及び/又は論理的アクチュエータ、機構、デバイス、又は任意の要素を動作させる。
【0144】
実行モジュールは、アクションストラテジを初期状態からブラウズすることによって、実行可能なアクションストラテジを実行するように構成され得る。MDPの各状態の後続状態のリストは、上述したような漸進的タスクユニット構造に従って生成されてもよく、アクションストラテジに含まれてもよい。
【0145】
したがって、環境230の観測可能な環境プロパティにわたる実行条件α .ψは、アクションストラテジの実行中に知覚ユニット212によって評価されてもよい。自律システム200がどの第1の状態
【数22】
にあるかを判定すると、実行モジュールは、対応するアクション
【数23】
を実施するように構成され得る。このアクションが実施されると、実行モジュールは、例えば知覚ユニット212を使用して、第1の状態
【数24】
の後続状態の中から自律システム200の新しい状態
【数25】
を決定するように構成することができる。
【0146】
自律システムがGに含まれる最終状態にあると判定すると、実行モジュールは、計画の実行を終了し、アクションストラテジの実行が完了したことを示す第1の信号をコンピュータシステム210に返すように構成される。
【0147】
上記の実装形態は、特定の順序で実施される特定のステップを参照して説明及び図示されているが、これらのステップは、本技術の教示から逸脱することなく、組み合わされ、細分され、又は順序変更され得ることが理解されよう。各ステップの少なくとも一部は、並列的に実行されてもよく、又は直列的に実行されてもよい。したがって、ステップの順序及びグループ化は、本技術の限定ではない。
【0148】
本明細書で言及される全ての技術的効果が、本技術のありとあらゆる実施形態において享受される必要はないことが明確に理解されるべきである。
【0149】
本技術の上述の実装形態に対する修正及び改良は、当業者に明白となり得る。前述の説明は、限定ではなく例示を意図している。したがって、本技術の範囲は、添付の特許請求の範囲の範囲によってのみ限定されることが意図される。
図1
図2
図3
図4
図5
図6
図7
図8
【国際調査報告】