特表2024-518376 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ レイセオン　カンパニーの特許一覧

特表2024-518376作動可能なガードレールを提供するために類似のシナリオを使用する明示的な倫理的なマシン

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-05-01

(54)【発明の名称】作動可能なガードレールを提供するために類似のシナリオを使用する明示的な倫理的なマシン

(51)【国際特許分類】

G06N 3/092 20230101AFI20240423BHJP

【ＦＩ】

G06N3/092

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023567894

(86)(22)【出願日】2022-04-05

(85)【翻訳文提出日】2023-11-02

(86)【国際出願番号】 US2022023522

(87)【国際公開番号】W WO2022235366

(87)【国際公開日】2022-11-10

(31)【優先権主張番号】17/306,324

(32)【優先日】2021-05-03

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】503455363

【氏名又は名称】レイセオンカンパニー

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】ウ，ペギー

(72)【発明者】

【氏名】スリヴァスタヴァ，クナル

(57)【要約】

装置は、ＭＬ／ＡＩアルゴリズム（１１２）によって評価される現在のシナリオ（３０２ａ、４０２ａ）に関連付けられた情報を格納するように構成された少なくとも１つのメモリ（２０４、２１０、２１２）を含み、情報は、現在のシナリオに関連付けられた初期報酬関数（３０２ｂ、４０２ｂ）を含む。この装置はまた、（ｉ）現在のシナリオに類似する１つまたは複数の先行のシナリオに関連付けられた１つまたは複数のポリシー（３０４、４０４）を識別し、（ｉｉ）初期報酬関数によって最適化されたパラメータと、１つまたは複数の先行のシナリオに関連付けられた１つ以上の報酬関数（３０６、４０６）との間の１つ以上の差分を決定し、（ｉｉｉ）新しい報酬関数（３０８、４０８）を生成するために、決定された１つ以上の差のうちの少なくとも１つに基づいて初期報酬関数を修正し、（ｉｖ）新しい報酬関数に基いて、現在のシナリオのための新ポリシー（３１０、４１０）を生成するように構成された少なくとも１つのプロセッサ（２０２）を含む。
【選択図】図１

【特許請求の範囲】

【請求項1】

方法であって、
少なくとも１つのプロセッサを使用して、機械学習／人工知能（ＭＬ／ＡＩ）アルゴリズムにより評価される現在のシナリオに関連する情報を取得することであって、前記情報は、前記現在のシナリオに関連する初期報酬関数を含む、前記取得すること、
前記少なくとも１つのプロセッサを使用して、前記現在のシナリオに類似する１つまたは複数の先行のシナリオに関連付けられた１つまたは複数のポリシーを識別すること、
前記少なくとも１つのプロセッサを使用して、前記初期報酬関数と、前記１つまたは複数の先行のシナリオに関連付けられた１つまたは複数の報酬関数とによって最適化されたパラメータ間の１つまたは複数の差分を決定すること、
新しい報酬関数を生成するために、前記少なくとも１つのプロセッサを使用して、前記１つまたは複数の決定された差分のうちの少なくとも１つに基づいて前記初期報酬関数を修正すること、及び
前記少なくとも１つのプロセッサを使用して、前記新しい報酬関数に基づいて前記現在のシナリオに対する新しいポリシーを生成すること、
を含む、方法。

【請求項2】

前記現在のシナリオに対して選択された行動方針を決定するために、前記ＭＬ／ＡＩアルゴリズムを使用して、前記現在のシナリオに前記新たなポリシーを適用することをさらに含む、請求項１に記載の方法。

【請求項3】

前記初期報酬関数として前記新しい報酬関数を使用して、動作を前記取得すること、前記識別すること、前記決定すること、前記修正すること、及び前記生成することのうちの少なくともいくつかを繰り返すこと、をさらに含む、請求項１に記載の方法。

【請求項4】

前記現在のシナリオに関連する前記情報は、第１のマルコフ決定過程を含み、
データベースは、前記１つまたは複数の先行のシナリオに関連する１つまたは複数の第２のマルコフ決定過程を格納する、請求項１に記載の方法。

【請求項5】

前記最適化されたパラメータ間の前記１つまたは複数の差分を決定することは、逆強化学習を使用して、前記現在のシナリオに適用される前記１つまたは複数の先行のシナリオにおいて使用された推論を識別することを含む、請求項１に記載の方法。

【請求項6】

動作を前記取得すること、前記識別すること、前記決定すること、前記修正すること、及び前記生成することは、複数のエージェントを使用して実行され、
前記方法が、
適合のために前記複数のエージェントによって生成された前記新しいポリシーを比較すること、及び
前記複数のエージェントによって生成された前記新たなポリシーが適合していないことに応じて、前記複数のエージェントのうちの少なくとも１つによって使用される前記初期報酬関数を修正し、動作を前記取得すること、前記識別すること、前記決定すること、前記修正すること、及び前記生成することのうちの少なくともいくつかを繰り返すこと、
をさらに含む、請求項１に記載の方法。

【請求項7】

前記初期報酬関数及び前記新しい報酬関数のそれぞれが、
タスクに関係なく、１つまたは複数の倫理的境界を実施するように構成されたタスク非依存部分と、
前記関連する報酬関数の文脈的挙動を駆動するように構成されたタスク依存部分と、
をさらに含む、請求項１に記載の方法。

【請求項8】

装置であって、
機械学習／人工知能（ＭＬ／ＡＩ）アルゴリズムにより評価される現在のシナリオに関連する情報を記憶するよう構成された少なくとも１つのメモリであって、前記情報は、前記現在のシナリオに関連する初期報酬関数を含む、前記少なくとも１つのメモリ、及び
少なくとも１つのプロセッサであって、
前記現在のシナリオに類似する１つまたは複数の先行のシナリオに関連付けられた１つまたは複数のポリシーを識別すること、
前記初期報酬関数と、前記１つまたは複数の先行のシナリオに関連付けられた１つまたは複数の報酬関数とによって最適化されたパラメータ間の１つまたは複数の差分を決定すること、
新しい報酬関数を生成するために前記１つまたは複数の決定された差分のうちの少なくとも１つに基づいて前記初期報酬関数を修正すること、及び
前記新しい報酬関数に基づいて、前記現在のシナリオに対する新しいポリシーを生成すること、
を行うように構成される、前記プロセッサと、
を含む、装置。

【請求項9】

前記少なくとも１つのプロセッサはさらに、
前記現在のシナリオに対する選択された行動方針を決定するために、前記ＭＬ／ＡＩアルゴリズムを使用して、前記現在のシナリオに前記新たなポリシーを適用することを行うように構成される、請求項８に記載の装置。

【請求項10】

前記少なくとも１つのプロセッサは、
前記初期報酬関数として前記新しい報酬関数を使用して、動作を前記識別すること、前記決定すること、前記修正すること、及び前記生成することのうちの少なくともいくつかを繰り返すようにさらに構成される、請求項８に記載の装置。

【請求項11】

前記現在のシナリオに関連する前記情報は、第１のマルコフ決定過程を含み、
前記少なくとも１つのプロセッサは、前記１つまたは複数の先行のシナリオに関連する１つまたは複数の第２のマルコフ決定プロセスを格納するように構成されたデータベースにアクセスするように構成される、請求項８に記載の装置。

【請求項12】

前記最適化されるパラメータ間の前記１つまたは複数の差分を決定するために、前記少なくとも１つのプロセッサは、逆強化学習を使用して、前記現在のシナリオに適用される前記１つまたは複数の先行のシナリオにおいて使用された推論を識別するように構成される、請求項８に記載の装置。

【請求項13】

前記少なくとも１つのプロセッサは、
複数のエージェントを使用して、動作を前記識別すること、前記決定すること、前記修正すること、及び前記生成することを実行すること、
適合のために前記複数のエージェントによって生成された前記新しいポリシーを比較すること、及び
前記複数のエージェントによって生成された前記新たなポリシーが適合していないことに応じて、前記複数のエージェントのうちの少なくとも１つによって使用される前記初期報酬関数を修正し、動作を取得すること、前記識別すること、前記決定すること、前記修正すること、及び前記生成することのうちの少なくともいくつかを繰り返すこと、
を行うようにさらに構成される、請求項８に記載の装置。

【請求項14】

前記初期報酬関数及び前記新しい報酬関数のそれぞれが、
タスクに関係なく、１つまたは複数の倫理的境界を実施するように構成されたタスク非依存部分と、
前記関連する報酬関数の文脈的挙動を駆動するように構成されたタスク依存部分と、
を含む、請求項８に記載の装置。

【請求項15】

非一時的なコンピュータ可読媒体であって、実行されるときに、少なくとも１つのプロセッサに、
機械学習／人工知能（ＭＬ／ＡＩ）アルゴリズムにより評価される現在のシナリオに関連する情報を取得することであって、前記情報は、前記現在のシナリオに関連する初期報酬関数を含む、前記取得すること、
前記現在のシナリオに類似する１つまたは複数の先行のシナリオに関連付けられた１つまたは複数のポリシーを識別すること、
前記初期報酬関数と、前記１つまたは複数の先行のシナリオに関連付けられた１つまたは複数の報酬関数とによって最適化されたパラメータ間の１つまたは複数の差分を決定すること、
新しい報酬関数を生成するために、前記１つまたは複数の決定された差分のうちの少なくとも１つに基づいて前記初期報酬関数を修正すること、及び
前記新しい報酬関数に基づいて前記現在のシナリオのための新しいポリシーを生成すること、
を行わせる命令を含む、非一時的なコンピュータ可読媒体。

【請求項16】

実行されるときに、前記少なくとも１つのプロセッサに、
前記現在のシナリオに対して選択された行動方針を決定するために、前記ＭＬ／ＡＩアルゴリズムを使用して、前記現在のシナリオに前記新たなポリシーを適用することを行わせる命令をさらに含む、請求項１５に記載の非一時的なコンピュータ可読媒体。

【請求項17】

実行されるときに、前記少なくとも１つのプロセッサに、
前記初期報酬関数として前記新しい報酬関数を使用して、動作を前記取得すること、前記識別すること、前記決定すること、前記修正すること、及び前記生成することのうちの少なくともいくつかを繰り返すことをお紺わせる命令をさらに含む、請求項１５に記載の非一時的なコンピュータ可読媒体。

【請求項18】

前記現在のシナリオに関連する前記情報は、第１のマルコフ決定過程を含み、
前記命令は、実行されるときに、前記少なくとも１つのプロセッサに、前記１つまたは複数の先行のシナリオに関連する１つまたは複数の第２のマルコフ決定過程を格納するように構成されたデータベースにアクセスすることを行わせる、請求項１５に記載の非一時的なコンピュータ可読媒体。

【請求項19】

実行されるときに、前記少なくとも１つのプロセッサに、前記最適化されたパラメータ間の前記１つまたは複数の差分を決定させる命令は、
実行されるときに、前記少なくとも１つのプロセッサに、逆強化学習を使用して、前記現在のシナリオに適用される前記１つまたは複数の先行のシナリオにおいて使用された推論を識別することを行わせる命令を含む、請求項１５に記載の非一時的コンピュータ可読媒体。

【請求項20】

実行されるときに、前記少なくとも１つのプロセッサに、
動作を前記取得すること、前記識別すること、前記決定すること、前記修正すること、及び前記生成することを複数のエージェントを使用して実行すること、
適合のために前記複数のエージェントによって生成された前記新しいポリシーを比較すること、
前記複数のエージェントによって生成された前記新たなポリシーが適合していないことに応じて、前記複数のエージェントのうちの少なくとも１つによって使用される前記初期報酬関数を修正し、動作を前記取得すること、前記識別すること、前記決定すること、前記修正すること、及び前記生成することのうちの少なくともいくつかを繰り返すことを修正すること、
を行わせる命令をさらに含む、請求項１５に記載の非一時的コンピュータ可読媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、一般に、機械学習（ＭＬ）システム及び他の人工知能（ＡＩ）システムに関する。より具体的には、本開示は、作動可能なガードレールを提供するために類似のシナリオを使用する明示的な倫理的なマシンに関する。

【背景技術】

【0002】

様々な分野における自律型及び半自律型の意思決定アルゴリズムの採用が増加するにつれて、アルゴリズムは倫理的なジレンマを伴うシナリオに遭遇することが一般的になっている。倫理的なジレンマの一例は、頻繁に「トロリ問題」と呼ばれており、これは一般に、暴走するトロリが１つの軌道にいる複数の人の方に向かっているが、１人の人が占有する別の軌道に逸らすこともできるという仮定の状況を考えるものである。

【発明の概要】

【0003】

本開示は、作動可能なガードレールを提供するために類似のシナリオを使用する明示的な倫理的なマシンに関する。

【0004】

第１の実施形態では、方法は、少なくとも１つのプロセッサを使用して、機械学習／人工知能（ＭＬ／ＡＩ）アルゴリズムにより評価される現在のシナリオに関連する情報を取得することを含み、情報は、現在のシナリオに関連する初期報酬関数を含む。方法はまた、少なくとも１つのプロセッサを使用して、現在のシナリオに類似する１つまたは複数の先行のシナリオに関連付けられた１つまたは複数のポリシーを識別することを含む。方法はさらに、少なくとも１つのプロセッサを使用して、初期報酬関数及び１つまたは複数の先行のシナリオに関連付けられた１つまたは複数の報酬関数によって最適化されたパラメータ間の１つまたは複数の差分を決定することを含む。方法はまた、新しい報酬関数を生成するために、少なくとも１つのプロセッサを使用して、１つまたは複数の決定された差分のうちの少なくとも１つに基づいて初期報酬関数を修正することを含む。さらに、本方法は、少なくとも１つのプロセッサを使用して、新しい報酬関数に基づいて現在のシナリオに対する新しいポリシーを生成することを含む。

【0005】

第２の実施形態では、装置は、ＭＬ／ＡＩアルゴリズムによって評価される現在のシナリオに関連付けられた情報を格納するように構成された少なくとも１つのメモリを含み、情報は、現在のシナリオに関連付けられた初期報酬関数を含む。この装置はまた、現在のシナリオに類似する１つまたは複数の先行のシナリオに関連付けられた１つまたは複数のポリシーを識別し、初期報酬関数によって最適化されたパラメータと、１つまたは複数の先行のシナリオに関連付けられた１つ以上の報酬関数との間の１つ以上の差分を決定し、新しい報酬関数を生成するために、決定された１つ以上の差のうちの少なくとも１つに基づいて初期報酬関数を修正し、新しい報酬関数に基いて、現在のシナリオのための新ポリシーを生成するように構成された少なくとも１つのプロセッサを含む。

【0006】

第３の実施形態では、非一時的コンピュータ可読媒体は、実行されるときに、少なくとも１つのプロセッサに、ＭＬ／ＡＩアルゴリズムによって評価されるべき現在のシナリオに関連する情報を取得させる命令を含み、情報は、現在のシナリオに関連する初期報酬関数を含む。媒体はまた、実行されるときに、少なくとも１つのプロセッサに、現在のシナリオに類似する１つまたは複数の先行のシナリオに関連付けられた１つまたは複数のポリシーを識別させる命令も含む。媒体は、実行されるときに、少なくとも１つのプロセッサに、初期報酬関数、及び１つまたは複数の先行のシナリオに関連付けられた１つまたは複数の報酬関数によって最適化されたパラメータ間の１つまたは複数の差分を決定させる命令をさらに含む。媒体はまた、実行されるときに、少なくとも１つのプロセッサに、新しい報酬関数を生成するために、１つまたは複数の決定された差分のうちの少なくとも１つに基づいて初期報酬関数を修正することを行わせる命令を含む。さらに、媒体は、実行されるときに、少なくとも１つのプロセッサに、新しい報酬関数に基づいて、現在のシナリオのための新しいポリシーを生成させる命令を含む。

【0007】

他の技術的特徴は、以下の図面、説明、及び特許請求の範囲から、当業者には容易に明らかであろう。

【0008】

本開示をいっそう完全近くまで理解するために、添付の図面を関連付けながら、これより以下の説明を言及していく。

【図面の簡単な説明】

【0009】

【図1】本開示による類似のシナリオを使用する明示的な倫理的なマシンを提供するための例示的なアーキテクチャを示す。

【図2】本開示による類似のシナリオを使用する明示的な倫理的なマシンを支援する例示的なデバイスを示す。

【図3】本開示による類似のシナリオを使用する明示的な倫理的なマシンを提供するためのシングルエージェントアーキテクチャの例示的な使用を示す。

【図4】本開示による類似のシナリオを使用する明示的な倫理的なマシンを提供するためのマルチエージェントアーキテクチャの例示的な使用を示す。

【図5】本開示に係る類似のシナリオを使用する明示的な倫理的なマシンを提供するためのアーキテクチャにおいて逆強化学習を使用するための例示的な技術を示す。

【図6】本開示による類似のシナリオを使用する明示的な倫理的なマシンを提供するための例示的な方法を示す。

【発明を実施するための形態】

【0010】

以下で説明する図１～図６、及び本開示の原理を説明するために使用される種々の実施形態は、例示のみのものであり、いかなる点においても本開示の範囲を限定することを意図したものと解釈されるべきではない。当業者であれば、本開示の基本原理を、適切に構成された任意の種類のデバイスまたはシステムにおいて実装することができることを理解するであろう。

【0011】

前述のように、様々な分野における自律的及び半自律的な意思決定アルゴリズムの採用が増加するにつれて、アルゴリズムは倫理的なジレンマを伴うシナリオに遭遇することが一般的である。倫理的なジレンマの一例は、頻繁に「トロリ問題」と呼ばれており、これは一般に、暴走するトロリが１つの軌道にいる複数の人の方に向かっているが、１人の人が占有する別の軌道に逸らすこともできるという仮定の状況を考えるものである。これら及び他の種類の倫理的なジレンマは、自動運転車用の制御システムの設計などにおいて、種々の意思決定アルゴリズムに生じる可能性がある。残念ながら、複雑な自律型及び半自律型のシステムでは、実質的に「ブラックボックス」として機能するオペレータに限られた透明性をもたらす機械学習（ＭＬ）アルゴリズムまたは他の人工知能（ＡＩ）アルゴリズムが日常的に使用されている。その結果、システムエンジニアは、頻繁に、要求及びシステムの挙動を定義されたパラメータに設計することになり、これらの定義されたパラメータは、次いで使用ときに正しく作動することが期待される。

【0012】

自律型及び半自律型のシステムにおいて使用されている現在のアプローチは、多くの場合、所定のシナリオに対する所望の行動過程を符号化する閉鎖された世界の想定に依存している。しかしながら、これらのアプローチは非常に脆弱であり、環境またはシナリオのわずかな変更に対しても拡張できないことが多く、このため、これらのシステムを信頼できないものにし、実質的に、致命的なエラーを起こしやすくする。米国国防総省は、５つの主要分野を包含する人工知能システムの５つの重要な「倫理的原則」を採用しており、これらは一般に、「責任」、「公正」、「追跡可能」、「信頼できる」、及び「制御可能」と分類されている。しかしながら、当技術分野でこれら５つの原理を実際に実施することは、現在、誤り及びバイアスが生じやすい不定形な人間の判断に依存している。さらに、自律型または半自律型のシステムによって採用されるべき行動過程がいずれかの倫理的な影響を与えるかどうかは、常に明らかというわけではない。

【0013】

本開示は、作動可能なガードレールを提供するために類似のシナリオを使用してこれらのタイプの原理のうちの少なくともいくつかを満たすことができる明示的な倫理的なマシンを実現するための様々な技術を提供する。より詳細に後述するように、これらの技術は、目標固有の報酬関数を符号化するマルコフ決定過程を用いた作動可能なシナリオを表す。動作中、初期報酬関数を符号化するマルコフ決定過程を用いて、現在のシナリオを表現することができる。現在のシナリオに類似する少なくとも１つの先行のシナリオを識別することができ、類似のシナリオ（複数可）に関連付けられた少なくとも１つのポリシーを識別することもできる。１つまたは複数の類似のシナリオに関連付けられた１つまたは複数のポリシーを、現在のシナリオに適用することができ、これは、１つまたは複数の類似のシナリオに関連付けられた１つまたは複数のポリシーに基づいて、現在のシナリオに関連付けられた初期報酬関数を修正することを含む。これにより、現在のシナリオのための新しいポリシーが作成され、それにおいて、新しいポリシーには、現在のシナリオのための修正された報酬関数が含まれる。そのとき、現在のシナリオのための新たなポリシーを、現在のシナリオにおいて得られる行動過程を識別するために使用することができる。１または複数の人間のオペレータとのインタラクションがまた、倫理的決定の特徴の継続的な学習を支援するために生じる場合もある。例えば、機械の「モラルの成熟性」のレベルを推定するために、所与のシナリオにおける選択された行動過程に対する１つまたは複数の機械によって生成された調整を、１または複数の人間による調整に対して評価することができる。

【0014】

このようにして、類似の先行のシナリオの形態の先行の経験を、例えば統計技術を使用して取り入れ、（以前は調べられていない）新しいシナリオに適用するための類似性及び相似性を描くことができる。結果として、これらの技術により、ＭＬ／ＡＩアルゴリズムは、アルゴリズムが以前には訓練されていない新しいシナリオに関連する決定を行おうとする際に、他のシナリオから学習するように設計されることが可能となる。したがって、類似の先行のシナリオは、現在のシナリオのガードレールとして機能し、現在のシナリオのために選択された行動方針が壊滅的に不正確ではないことを保証するのに役立つ。本質的に、これは、ＭＬ／ＡＩアルゴリズムが一貫性のある透明な方法で倫理性に関する識別及び推論を行えるようにするフレームワークを提供する。さらに、これらの技術を使用して、自律型または半自律型のシステムが所与の結論にどのように到達するかを明確に識別し、所与のシナリオのための特定の行動過程を選択することができる。これは、自律型または半自律型のシステムの、追跡可能で信頼性があり、制御可能な動作をサポートするのに役立ち得る。さらに、これらの技術により、エンジニア、設計者、オペレータ及び他の人員は、システムにおいて自律性がどのように使用されているのか、ならびに自律性への依存が過剰または過小であるのかに関する洞察を得ることができる。さらに、自律型及び半自律型のシステムの、透明で信頼できる、かつ倫理的に明示的な動作は、種々の用途へのシステムの採用を増加させるのに役立ち得る。

【0015】

この機能の特定の例として、自律車両制御システムは、その信頼度に対する９５％の信頼性を実証するために、５０億マイルにわたる運転を必要とする場合がある。ここでのアプローチを使用して、稀な事象をシミュレーションすることができ、自律車両制御システムがどのように応答するかを決定するために、類似のシナリオにおける先行の事象を使用することができる。とりわけ、これにより、自律車両制御システムまたは他の自律型／半自律型システムは、自己評価し、検証及び保証評価を加速することができる。これはまた、自律車両制御システムまたは他の自律型／半自律型システムに関連づけられたエンジニア、設計者、オペレータまたは他の人員が、現在のシナリオにいかなる倫理的な考察も伴わないように思われる場合であっても、先行のシナリオに基づいて考えられる行動方針の倫理的な影響を予測することができる。

【0016】

図１は、本開示による類似のシナリオを使用する明示的な倫理的なマシンを提供するための例示的なアーキテクチャ１００を示す。図１に示されているように、ここでアーキテクチャ１００は、種々の動作１０２～１０８及びデータベース１１０を含んでおり、これらを用いて、少なくとも１つのＭＬ／ＡＩアルゴリズム１１２を訓練し、タスクベースの決定と倫理的な決定との双方について同ときに推論を行うことができる。ここでの動作１０２～１０８は、反復的に実行することができ、これにより、ますます複雑になる推論を実行するために、ＭＬ／ＡＩアルゴリズム１１２を反復的に訓練することができる。理想的には、これによってＭＬ／ＡＩアルゴリズム１１２は、いっそう複雑になるタスクベースの倫理的な意思決定の問題を処理できるようになる。

【0017】

動作１０２は、一般に、ＭＬ／ＡＩアルゴリズム１１２によって評価される現在のシナリオに関連付けられた初期ポリシーを識別、生成、さもなければ取得することを含む、ポリシー識別動作を表している。いくつかの実施形態では、現在のシナリオは、可能な状態のセット（Ｓ）、可能な行動のセット（Ａ）、及び行動によって状態間を移行するための報酬を定義する報酬関数（Ｒ）を含むマルコフ決定過程（ＭＤＰ）を使用して表され得る。初期ポリシーは、特定の状態にあるときに行うべき行動を指定する初期関数を表す。初期ポリシーは、典型的には、報酬関数によって定義されるように最適化されるべき１つまたは複数のパラメータの初期セットに基づいている。マルコフ決定過程とポリシーの組み合わせは過程の各状態に対する行動を識別し、理想的にはポリシーを選択して報酬の機能を最大化することができる。特定の実施形態では、マルコフ決定過程は、現在のシナリオを表し、かつ１つまたは複数の最適化すべきパラメータを識別する初期報酬関数を１つまたは複数のユーザから得ることができる。

【0018】

動作１０４は、一般に、ＭＬ／ＡＩアルゴリズム１１２によって評価される現在のシナリオに関連付けられた初期ポリシーに何らかの点で類似する１または複数の先行のシナリオを識別することを含む、類似識別動作を表している。先行のシナリオは、マルコフ決定過程、最適化されるべきパラメータの集合、またはその両方に関して、初期ポリシーと類似し得る。任意の類似の先行のシナリオの識別は、任意の適切な方法で、例えば、適切な統計的相関技術を使用して、行うことができる。動作１０４は、現在のシナリオに類似する１つまたは複数の先行のシナリオに関連する適切な情報を出力することができる。

【0019】

この例において、動作１０４は、先行シナリオに関する種々の情報を記憶することができるデータベース１１０の使用を含むことができる。データベース１１０の情報は、ＭＬ／ＡＩアルゴリズム１１２（または別のＭＬ／ＡＩアルゴリズム）によって遭遇した実際の先行のシナリオに関する情報を含み得る。データベース１１０の情報は、同様に、さもなければ代替的に、所定の環境において遭遇する可能性のあるシナリオのようなシミュレートされたシナリオに関する情報を含むこともできる。データベース１１０は、それぞれの先行のシナリオに関する任意の適切な情報、例えば、先行のシナリオのマルコフ決定過程、報酬関数、及び先行のシナリオのポリシーの他の情報を記憶することができる。動作１０４の出力は、データベース１１０に含まれる類似の各先行のシナリオのポリシーまたは他の情報を含んでもよい。

【0020】

動作１０６は一般に、現在のシナリオに関連づけられた初期ポリシーと、類似する先行のシナリオ各々に関連づけられたポリシーとの間の差分（競合）を識別することを含む競合識別動作を表す。例えば、現在のシナリオに関連付けられた初期ポリシー及び類似の先行のシナリオに関連付けられたポリシーは、類似の問題に関連付し得るが、最適化されるべきパラメータの異なるセットを含む（したがって、異なる報酬関数を有する）。したがって、ここでの動作１０６は、現在のシナリオにおいて適用され得る１つまたは複数の類似するシナリオにおいて使用される推論を識別することができる。動作１０６は、その推論を識別する情報を、例えば類似の報酬関数の形態で出力することができる。

【0021】

いくつかの実施形態では、動作１０６は、観察された挙動に基づいて報酬関数を抽出するプロセスである、逆強化学習（ＩＲＬ）の使用を含む。換言すれば、動作１０６は、ここでＩＲＬを使用して、１つまたは複数の類似した先行のシナリオで発生した挙動に基づいて報酬関数を識別することができる。次いで動作１０６は、評価されるべき現在のシナリオのために類似の報酬関数を生成することができる。本明細書における類似の報酬関数は、最適化されるべき種々のパラメータを含むことができ、このパラメータには、オリジナルの報酬関数に含まれていない１つまたは複数のパラメータが含まれ、及び／またはオリジナルの報酬関数に含まれていた１つまたは複数のパラメータが除外される。

【0022】

動作１０８は、一般に、報酬関数修正動作を表し、これは、初期の報酬関数を類似の報酬関数と比較して、いかなる差異も識別することを含む。次いで動作１０８は、比較に基づいて新しい報酬関数を生成することができる。例えば、動作１０８は、類似の報酬関数において最適化された１つまたは複数の特定のパラメータがオリジナルの報酬関数に含まれておらず、含むべきと決定することができる。したがって、動作１０８は、１つまたは複数の特定のパラメータを含むように更新された新しい報酬関数を生成及び出力することができる。新しい報酬関数を使用して、評価される現在のシナリオに関連付けられた更新されたポリシーを形成することができる。

【0023】

この時点で、更新されたポリシーが許容可能か否かを検証するために、人間によるインタラクションが任意選択で生じることができる。例えば、更新されたポリシーを、現在のシナリオに対する提案された行動過程を識別する際に使用するために、ＭＬ／ＡＩアルゴリズム１１２に提供することができ、１人または複数人の人間が、提案された行動過程が許容可能か否かを評価することができる。更新されたポリシーを、現在のシナリオに関する他の情報と共にデータベース１１０に記憶することもまたでき、これによって、更新されたポリシーを後続のシナリオと共に使用することができる。さらに、更新されたポリシーを、本明細書で示されるプロセスの別の反復を通じてフィードバックすることができ、これによってポリシーの反復的な更新が可能となる。これにより、先行のシナリオの数が増加するにつれて、より複雑な状況を学習することが可能となり得る。

【0024】

全体として、このアーキテクチャ１００は、より多くのパラメータを反復に含めることなどによって、ますます複雑になる推論に基づいて、異なる報酬関数を反復して適応させることができる機械学習フレームワークをもたらす。これは、一般に人間のモラルの発達に一致でき、これは例えば、コールバーグのモラルの発達の理論によって定義されている。コールバーグ理論は、一般に６つの段階で起こる倫理的発展をモデル化している。
段階１－罰と服従志向（罰を避けるため規則に従う）
段階２－道徳主義的相対主義志向（報酬を得るまたは好意を得るために従う）
段階３－対人的同調志向（他者から否認されないようにするため従う）
段階４－法律及び秩序志向（権威者による罰を回避するために遵守する）
段階５－社会契約的志向（社会の維持のために準拠）
段階６－普遍的倫理的原理志向（他の人々が決定によってどのように影響を受けるかを考慮する）
第１及び第２の段階は頻繁に「前慣習的」と呼ばれ、第３及び第４の段階は頻繁に「慣習的」と呼ばれ、第５及び第６の段階は頻繁に「後慣習的」と呼ばれる。ますます複雑になる推論を実行するためのアーキテクチャ１００の能力は、このタイプのモデルに一致する、時間の経過と共に倫理的な決定を行う際により効果的になる、ＭＬ／ＡＩアルゴリズム１１２の能力を支援する（当然、この原理を例示するために他のモデルが使用されてもよい）。ＭＬ／ＡＩアルゴリズム１１２の決定と、それらの人間の正当化に反した決定の基礎とを比較することにより、ＭＬ／ＡＩアルゴリズム１１２の倫理的な成熟度のレベルを評価することが可能となる。

【0025】

さらに、ここでのアーキテクチャ１００は、先行の経験から付加的なパラメータを識別するために（場合によってはヒューリスティクスを用いて）アナログ推論の使用をサポートするものであり、選択された行動の倫理的な正当化または説明をもたらすことができる。これは、ＭＬ／ＡＩアルゴリズム１１２による透明で信頼できる、かつ倫理的に明示的な動作の使用を支援するのに役立つ。さらにアーキテクチャ１００は、ＭＬ／ＡＩアルゴリズム１１２の選択された行動を単に評価するのではなく、ＭＬ／ＡＩアルゴリズム１１２のモラル推論を評価するためのフレームワークを提供する。これは、例えば「盗まない」という結果が、低い倫理的発達（罰を回避するため）を生じる場合と、高い倫理的発達（普遍的な倫理的原理に従うため）とから生じる場合など、同じ観察可能な結果が異なるレベルの倫理的発展から現れ得るため、有用である。アーキテクチャ１００は、ＭＬ／ＡＩアルゴリズム１１２が「正しい」行動方針を選択したかどうかを単に評価するのではなく、ＭＬ／ＡＩアルゴリズム１１２が選択された行動方針を選択する理由を決定または説明する能力を与える。このことは、ＭＬ／ＡＩアルゴリズム１１２による壊滅的なエラーを低減または排除するのに役立ち得る。さらに、ここでのアーキテクチャ１００は、完全にはルールベースではない明示的な倫理的なエージェントを訓練するために使用することができ、これは、暗黙的なエージェントに関連するピットフォールを回避するのに役立つ。例えば、明示的な倫理的エージェントは、拡張可能であり得て、あらゆる可能なシナリオを予測することを設計者に依存しないことがあり（したがって、人間が予期しないリスクを支援する）、これらの決定を正当化するための決定の具体的な説明を提供することができる。

【0026】

図１を参照して上述した動作１０２～１０８は、１つ以上のデバイスにおいて任意の適切な方法で実施できることに留意されたい。例えば、いくつかの実施形態では、動作１０２～１０８は、専用ハードウェアを使用して、またはハードウェア命令とソフトウェア／ファームウェア命令との組み合わせを使用して実装され得る。また、いくつかの実施形態では、動作１０２～１０８は、ハードウェア、または１つまたは複数の機能を実行するために１つまたは複数のＭＬ／ＡＩアルゴリズム１１２を使用するシステムなどのより大きなシステムに埋め込まれたハードウェア命令及びソフトウェア／ファームウェア命令を使用して実装することができる。ただし、本開示は、動作１０２～１０８のいずれかの特定の物理的実装に限定されない。

【0027】

図１は、類似のシナリオを使用する明示的な倫理的なマシンを提供するためのアーキテクチャ１００の一例を示しているが、図１に様々な変更を加えることができる。例えば、アーキテクチャ１００によって実行されるプロセスの任意の適切な反復回数を発生させることができる。また、アーキテクチャ１００は、必ずしも各反復において全ての動作１０２～１０８を実行する必要はなく、例えば、現在のシナリオに類似する先行のシナリオが識別されなかった場合、アーキテクチャ１００が動作１０６～１０８をスキップする場合もある。

【0028】

図２は、本開示による類似のシナリオを使用する明示的な倫理的なマシンを支援するための例示的なデバイス２００を示す。デバイス２００の１つ以上の例は、例えば、図１に示される動作１０２～１０８を少なくとも部分的に実施するために使用され得る。しかしながら、動作１０２～１０８は、任意の他の適切な方法で実施されてもよい。いくつかの実施形態によれば、図２に示したデバイス２００は、デスクトップコンピュータ、ラップトップコンピュータ、サーバコンピュータまたはタブレットコンピュータといったコンピューティングシステムの少なくとも一部を成すことができる。しかし、動作１０２～１０８を実行するために、任意の他の適切な１つまたは複数のデバイスが使用されてもよい。

【0029】

図２に示すように、デバイス２００は、少なくとも１つの処理デバイス２０２、少なくとも１つのストレージデバイス２０４、少なくとも１つの通信ユニット２０６、及び少なくとも１つの入出力（Ｉ／Ｏ）ユニット２０８を含むコンピューティングデバイスを示す。処理デバイス２０２は、メモリ２１０にロード可能な命令を実行可能である。処理デバイス２０２は、任意の適切な配置の、任意の適切な数（複数可）及びタイプ（複数可）のプロセッサまたは他の処理デバイスを含む。例示的なタイプの処理デバイス２０２は、１つまたは複数のマイクロプロセッサ、マイクロコントローラ、デジタルシグナルプロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、またはディスクリート回路を含む。

【0030】

メモリ２１０及び永続ストレージ２１２は、情報（データ、プログラムコード、及び／または一時的または永続的なベースでの他の適切な情報など）の保存及び検索の促進を可能にする任意の構造（複数可）を表すストレージデバイス２０４の例である。メモリ２１０は、ランダムアクセスメモリまたは任意の他の適切な揮発性もしくは不揮発性のストレージデバイス（複数可）を表すことができる。永続ストレージ２１２は、リードオンリメモリ、ハードドライブ、フラッシュメモリ、または光ディスクなどの１つ以上のコンポーネントまたはデバイスを含み、データのより長期の保存をサポートすることができる。

【0031】

通信ユニット２０６は、他のシステムまたはデバイスとの通信をサポートする。例えば、通信ユニット２０６は、有線または無線ネットワークまたは直接的な接続を介した通信を容易にするネットワークインタフェースカードまたは無線送受信機を含むことができる。通信ユニット２０６は、任意の適切な物理通信リンクまたは無線通信リンク（複数可）を介した通信をサポートすることができる。

【0032】

Ｉ／Ｏユニット２０８は、データの入力及び出力を可能にする。例えば、Ｉ／Ｏユニット２０８は、キーボード、マウス、キーパッド、タッチスクリーン、または他の適切な入力デバイスを介したユーザ入力のための接続を設けることができる。Ｉ／Ｏユニット２０８はまた、出力をディスプレイまたは他の適切な出力デバイスに送信することもできる。ただし、デバイス２００がリモートでアクセス可能なサーバまたは他のデバイスを表しているときなどのように、デバイス２００がローカルＩ／Ｏを要求しない場合には、Ｉ／Ｏユニット２０８を省略してもよいことに留意されたい。

【0033】

いくつかの実施形態では、処理デバイス２０２によって実行される命令は、上記の動作１０２～１０８を実施する命令を含む。したがって、例えば、処理デバイス２０２によって実行される命令は、処理デバイス２０２に、現在のシナリオに関する初期ポリシーを取得させ、現在のシナリオに類似する任意の先行のシナリオを識別させることができる。処理デバイス２０２によって実行される命令は、処理デバイス２０２に、類似の報酬関数を識別させ、現在のシナリオのための新しい報酬関数及び更新されたポリシーを生成させることもできる。更新されたポリシーをＭＬ／ＡＩアルゴリズム１１２に提供して、現在のシナリオに対してＭＬ／ＡＩアルゴリズム１１２によって選択された行動方針を識別することができる。更新されたポリシーを、任意の他の適切な手法で使用することもできる。

【0034】

図２は、類似のシナリオを使用する明示的な倫理的なマシンをサポートするデバイス２００の一例を示しているが、図２に様々な変更を加えることができる。例えば、コンピューティング及び通信デバイス及びシステムは、多種多様な構成で提供されており、図２は、この開示をいずれかの特定のコンピューティングまたは通信デバイスまたはシステムに限定するものではない。

【0035】

図３は、本開示による類似のシナリオを使用する明示的な倫理的なマシンを提供するための単一エージェントアーキテクチャ３００の例示的な使用を示す。ここでは単一エージェントアーキテクチャ３００は、少なくとも１つのＭＬ／ＡＩアルゴリズム１１２の使用をサポートするために、アーキテクチャ１００の単一のインスタンスを使用する。図３に示されるように、現在のシナリオに関する入力が、アーキテクチャ１００の単一のインスタンス内のポリシー識別動作１０２に提供される。ここでの入力は、マルコフ決定過程（ＭＤＰ_{オリジナル}）３０２ａと、オリジナルの報酬関数（Ｒ_{オリジナル}）３０２ｂで表され得る、最適化のための１つまたは複数のパラメータの初期セットとを含む。入力は、任意の適切なソース（複数可）、例えばユーザから、任意の適切な方法で取得することができる。

【0036】

ポリシー識別動作１０２は、当該情報を含む初期ポリシーを類似識別動作１０４へ提供し、データベース１１０へアクセスして、現在のシナリオに類似している任意の先行のシナリオを識別する。類似識別動作１０４は、１つまたは複数の類似の先行のシナリオに関連する１つまたは複数のポリシーを表す１つまたは複数の類似のポリシー（π_類似）３０４を出力することができる。上記のように、１つまたは複数の類似の先行のシナリオの識別は、任意の適切な方法で、例えば、現在のシナリオの情報と、先行のシナリオに関連する情報との統計的相関を介して、起こり得る。

【0037】

競合識別動作１０６は、１つまたは複数の類似ポリシー３０４が、オリジナルの報酬関数３０２ｂによって最適化されていない任意のパラメータを最適化しているかどうかを識別することができる。競合識別動作１０６は、１つまたは複数の類似ポリシー３０４が、オリジナルの報酬関数３０２ｂによって最適化されていない任意のパラメータを最適化しているかどうかを識別することができる。いくつかの実施形態では、競合識別動作１０６は、マルコフ決定プロセス３０２ａ及び１つまたは複数の類似ポリシー３０４を用いてＩＲＬを実施することができ、これは、オリジナルの報酬関数３０２ｂによって最適化されている、または最適化されていない、類似の先行のシナリオと関連する任意のパラメータを識別する（またはその逆）。結果は、競合識別動作１０６から類似の報酬関数（Ｒ_類似）３０６として出力され得る。

【0038】

報酬関数修正動作１０８は、オリジナルの報酬関数３０２ｂと、類似の報酬関数３０６との間の違いを調べる。これに基づいて、報酬関数修正動作１０８は、最適化のためにオリジナルの報酬関数３０２ｂに挿入することができる類似の先行のシナリオからの１つまたは複数のパラメータを決定する、及び／または報酬関数修正動作１０８は、オリジナルの報酬関数３０２ｂから削除することができる、オリジナルの報酬関数３０２ｂにおける１つまたは複数のパラメータを決定する。これは、現在のシナリオの報酬関数を修正することにより、現在のシナリオを先行のシナリオ（複数可）に類推するのに役立つ。報酬関数修正動作１０８は、このようにしてオリジナルの報酬関数３０２ｂを更新して、新しい報酬関数（Ｒ_新）３０８を生成することができる。ポリシー識別動作１０２は、マルコフ決定過程３０２ａと新たな報酬関数３０８とを組み合わせて、新たなポリシー（π_新）３１０を生成することができ、この新たなポリシー３１０は（理想的には）、１つまたは複数の先行のシナリオからの１つまたは複数の類似物を組み込むことによって修正された初期ポリシーを表す。

【0039】

新たなポリシー３１０を、任意の適切な手法で使用することができる。例えば、新たなポリシー３１０は、プロセスの別の反復のために、ポリシー識別動作１０２から類似識別動作１０４に提供されてよい（ここで、次の反復におけるＲ_{オリジナル}は、前の反復からのＲ_新を表す）。新たなポリシー３１０を、その他の入力ポリシーについての類推を発見する際に使用するためにデータベース１１０に記憶することができる。新たなポリシー３１０をＭＬ／ＡＩアルゴリズム１１２に供給することができ、それによって、ＭＬ／ＡＩアルゴリズム１１２は、現在のシナリオに対する提案された行動方針を識別することができる。いくつかのケースでは、提案される行動過程を、人間の正当化による比較によって評価して、新たなポリシー３１０が、正しい理由（複数可）のために正しい行動過程を選択することを可能にするか否かを判定することができる。

【0040】

図３に示すシングルエージェントのアプローチは、以下の実施例のような任意の数の用途において使用することができる。以下の実施例は説明のためだけのものであり、本開示の範囲を以下に記載される特定の実施例、または実施例の種類に限定するものではないことに留意されたい。

【0041】

１つの用途では、ＭＬ／ＡＩアルゴリズム１１２は、複数の患者のうちのどの患者が透析を受けるべきかを選択するように訓練され得る。アーキテクチャ３００は、入力３０２ａ～３０２ｂとして、所定の領域で利用可能な透析装置の数のインジケーション、所定の領域で透析を受ける必要がある患者のリスト（人口統計学的な情報を含む）及び患者の年齢に基づいて選択を最適化すべきであるというインジケーションを受け取ることができる。統計的な相関または他の技術を使用して、アーキテクチャ３００は、透析に関する患者を選択することが、腎臓移植用の患者を選択することと同様の特性を有し、腎臓移植用の患者を選択することに関連して先行のシナリオが定義されていることを決定することができる。腎臓移植のための患者の選択に関するポリシーを類似ポリシー３０４として選択することができ、アーキテクチャ３００は、類似ポリシー３０４を分析し、類似ポリシー３０４が、オリジナルの報酬関数３０２ｂに含まれておらず、かつオリジナルの報酬関数３０２ｂによって最適化されていない２つのパラメータ（喫煙及び薬剤使用）を含んでいることを判定することができる。したがって、これらのパラメータは、類似の報酬関数３０６に含まれてよく、他のまたは追加のパラメータが含まれてよく、またはオリジナルの報酬関数３０２ｂからのいくつかの既存のパラメータが、類似の報酬関数３０６から除外されてよい。次いで、アーキテクチャ３００は、オリジナルの報酬関数３０２ｂ及び類似の報酬関数３０６に基づいて、例えば、新しい報酬関数３０８が類似ポリシー３０４からのパラメータ（喫煙及び薬剤使用）の一方または両方を含む場合、新しい報酬関数３０８を生成することができる。新しい報酬関数３０８は、新しいポリシー３１０を生成するために使用することができ、ＭＬ／ＡＩアルゴリズム１１２は、複数の患者のうちのいずれが透析を受けるべきかの選択の問題に新しいポリシー３１０を適用することができる。ＭＬ／ＡＩアルゴリズム１１２は、選択された患者が透析のために選択された理由の説明、例えば、類似ポリシー３０４が選択され、類似ポリシー３０４からの２つのパラメータが新たなポリシー３１０に含まれたことを示す情報を出力することによる説明も提供することができる。

【0042】

別の適用例によれば、ＭＬ／ＡＩアルゴリズム１１２は、指定された領域内のどこに病院を構築すべきかを決定するように訓練されてよい。アーキテクチャ３００は、入力３０２～３０２ｂとして、構築すべき病院の数のインジケーション、指定された領域の人口統計学的な情報、及び決定が母集団サイズに基づいて最適化されるべきであるというインジケーションを受け取ることができる。統計的な相関または他の技術を使用して、アーキテクチャ３００は、どの病院が建設されるべきかを識別することが、どの学校が建設されるべきかを識別することと同様の特性を有しており、どの学校が建設されるべきかを識別することに関して先行のシナリオが定義されていることを決定することができる。学校がどこで建設されるべきかの識別に関するポリシーを、類似ポリシー３０４として選択することができ、アーキテクチャ３００は、類似ポリシー３０４を分析し、類似ポリシー３０４が、オリジナルの報酬関数３０２ｂに含まれておらず、かつそれによって最適化されていない１つのパラメータ（他の街への接続性）を含んでいることを決定することができる。したがって、このパラメータは、類似の報酬関数３０６に含まれてよく、他のまたは追加のパラメータが含まれてよく、またはオリジナルの報酬関数３０２ｂからのいくつかの既存のパラメータが、類似の報酬関数３０６から除外されてよい。次いで、アーキテクチャ３００は、オリジナルの報酬関数３０２ｂ及び類似の報酬関数３０６に基づいて、例えば、新しい報酬関数３０８が類似ポリシー３０４からの新しいパラメータを含む場合、新しい報酬関数３０８を生成することができる。新しい報酬関数３０８を使用して、新しいポリシー３１０を生成することができ、ＭＬ／ＡＩアルゴリズム１１２は、新しいポリシー３１０を、病院が構築される場所を識別する問題に適用することができる。ＭＬ／ＡＩアルゴリズム１１２は、特定された病院の場所がなぜ選択されたかという理由の説明、例えば、類似ポリシー３０４が選択され、類似ポリシー３０４からのパラメータが新たなポリシー３１０に含まれたことを示す情報を出力することによる説明も提供することができる。

【0043】

図４は、本開示による類似のシナリオを使用する明示的な倫理的なマシンを提供するためのマルチエージェントアーキテクチャ４００の例示的な使用を示す。ここでのマルチエージェントアーキテクチャ４００は、少なくとも１つのＭＬ／ＡＩアルゴリズム１１２の使用をサポートするために、アーキテクチャ１００の複数のインスタンスを使用するが、アーキテクチャ１００の複数のインスタンスは同じデータベース１１０を共有することもできる（しかしながら、これは必須ではないことに留意されたい）。アーキテクチャ１００の異なるインスタンスは、タスクをどのように実行すべきかに関して異なる偏りまたは好みを有してもよい。図４に示されるように、現在のシナリオに関する入力が、アーキテクチャ１００の単一のインスタンスの各々のポリシー識別動作１０２に提供される。ここでの入力は、マルコフ決定過程４０２ａと、オリジナルの報酬関数４０２ｂで表され得る、最適化のための１つまたは複数のパラメータの初期セットとを含む。入力は、任意の適切なソース（複数可）、例えばユーザから、任意の適切な方法で取得することができる。

【0044】

各々のポリシー識別動作１０２は、関連する類似識別動作１０４へこの情報を提供し、データベース１１０へアクセスして、現在のシナリオに類似している任意の先行のシナリオを識別する。各類似識別動作１０４によってアクセスされる先行のシナリオを、アーキテクチャ１００のその特定のインスタンスのみに関連させることができ、または先行のシナリオをアーキテクチャ１００の複数のインスタンスにわたって共有できることに留意されたい。各類似識別動作１０４は、１つまたは複数の類似の先行のシナリオに関連する１つまたは複数のポリシーを表す１つまたは複数の類似のポリシー４０４を出力することができる。上記のように、１つまたは複数の類似の先行のシナリオの識別は、任意の適切な方法で、例えば、現在のシナリオの情報と、先行のシナリオに関連する情報との統計的相関を介して、起こり得る。

【0045】

各競合識別動作１０６は、１つまたは複数の類似ポリシー４０４が、関連するオリジナルの報酬関数４０２ｂによって最適化されていない任意のパラメータを最適化しているかどうかを識別することができる。各競合識別動作１０６は、１つまたは複数の類似ポリシー４０４が、オリジナルの報酬関数４０２ｂによって最適化されていない任意のパラメータを最適化しているかどうかを識別することができる。いくつかの実施形態では、各競合識別動作１０６は、マルコフ決定プロセス４０２ａ及び１つまたは複数の類似ポリシー４０４を用いてＩＲＬを実施することができ、これは、オリジナルの報酬関数４０２ｂによって最適化されている、または最適化されていない、類似の先行のシナリオと関連する任意のパラメータを識別する（またはその逆）。結果は、各競合識別動作１０６から類似の報酬関数４０６として出力され得る。各競合識別動作１０６は、それ自体の類似の報酬関数４０６を出力することができ、または複数の競合識別動作１０６は、共通の類似の報酬関数４０６を共有することができることに留意されたい。

【0046】

各報酬関数修正動作１０８は、オリジナルの報酬関数４０２ｂと、類似の報酬関数４０６との間の違いを調べる。これに基づいて、各報酬関数修正動作１０８は、最適化のためにオリジナルの報酬関数４０２ｂに挿入することができる類似の先行のシナリオからの１つまたは複数のパラメータを決定する、及び／または各報酬関数修正動作１０８は、オリジナルの報酬関数４０２ｂから削除することができる、オリジナルの報酬関数４０２ｂにおける１つまたは複数のパラメータを決定する。これは、各々の現在のシナリオの各報酬関数を修正することにより、現在のシナリオを先行のシナリオ（複数可）に類推するのに役立つ。各報酬関数修正動作１０８は、このようにしてオリジナルの報酬関数４０２ｂを更新して、新しい報酬関数４０８を生成することができる。各ポリシー識別動作１０２は、マルコフ決定過程４０２ａと新たな報酬関数４０８とを組み合わせて、新たなポリシー（π_新）４１０を生成することができ、これは（理想的には）、１つまたは複数の先行のシナリオからの１つまたは複数の類似物を組み込むことによって修正された初期ポリシーを表す。

【0047】

アーキテクチャ１００の複数のインスタンスからの新たなポリシー４１０を評価動作４１２に供給することができ、これは、アーキテクチャ１００の複数のインスタンスが、行動方針がどのように選択されるかに関してコンセンサスに達するかどうかを判定するために新たなポリシー４１０を評価する。本明細書におけるコンセンサスを、同一の行動方針を識別するアーキテクチャ１００の全てのインスタンス４１０、同一の行動方針を識別するポリシー４１０を生成するアーキテクチャ１００のインスタンスの大部分または他の指定された数／割合、または他の任意の適切な基準として定義することができる。アーキテクチャ１００の複数のインスタンスが、場合によっては異なる理由から、同じ行動過程を選択するために使用されてよいことに注意されたい。コンセンサスが得られない場合、評価動作４１２は、アーキテクチャ１００の１つ以上のインスタンスによって使用されるオリジナルの報酬関数４０２ｂのうちの１つ以上を調整することができ、プロセスを繰り返すことができる。コンセンサスが得られた場合には、新たなポリシー４１０が、ＭＬ／ＡＩアルゴリズム（複数可）１１２に対するポリシー４１４の最後のセットとして使用され得る。

【0048】

新たなポリシー４１４を任意の適切な手法で使用することができる。例えば、新たなポリシー４１４は、プロセスの別の反復のために、ポリシー識別動作１０２から類似識別動作１０４へ提供されてもよい。新たなポリシー４１４を、その他の入力ポリシーについての類推を発見する際に使用するためにデータベース１１０に記憶することができる。新たなポリシー４１４をＭＬ／ＡＩアルゴリズム（複数可）１１２に供給することができ、それによって、ＭＬ／ＡＩアルゴリズム（複数可）１１２は、現在のシナリオに対する提案された行動方針を識別することができる。いくつかのケースでは、提案される行動過程を、人間の正当化による比較によって評価して、新たなポリシー４１４が正しい理由（複数可）のために正しい行動過程を選択することを可能にするか否かを判定することができる。

【0049】

図４に示すマルチエージェントのアプローチは、以下の実施例のような任意の数の用途において使用することができる。以下の実施例は説明のためだけのものであり、本開示の範囲を以下に記載される特定の実施例、または実施例の種類に限定するものではないことに留意されたい。

【0050】

１つの用途では、少なくとも１つのＭＬ／ＡＩアルゴリズム１１２は、ミサイル防御システムを動作させ、ミサイル防御システムによって衝突及び破壊させる到来するミサイルを選択するように訓練可能である。異なる位置を到来するミサイルによって標的とし、各々の位置はアーキテクチャ１００の固有のインスタンスを有することができる。アーキテクチャ４００は、入力４０２ａ～４０２ｂとして、到来するミサイル数のインジケーションと、衝突させる到来するミサイルの選択が市民集団の保護のために最適化されるべきであることのインジケーションとを受信することができる。統計的な相関または他の技術を使用して、アーキテクチャ１００の各インスタンスは、現在のシナリオに関連して別の先行のシナリオが定められたことを判別することができる。その先行のシナリオに関連するポリシーを類似ポリシー４０４として選択することができ、アーキテクチャ１００の各インスタンスは、類似ポリシー４０４を分析し、類似ポリシー４０４が、そのオリジナルの報酬関数４０２ｂに含まれていない１つまたは複数のパラメータを含んでいることを判定することができる。これらのパラメータは、各々の類似の報酬関数４０６に含まれてよく、他のまたは追加のパラメータが含まれてよく、またはオリジナルの報酬関数４０２ｂからのいくつかの既存のパラメータが、関連付けられた類似の報酬関数４０６から除外されてよい。次いで、アーキテクチャ１００の各インスタンスは、そのオリジナルの報酬関数４０２ｂに基づいて新しい報酬関数４０８を生成することができ、新しい報酬関数４０８を使用して、新しいポリシー４１０を生成することができ、新しいポリシー４１０を比較して、コンセンサスを探すことができる。コンセンサスが得られた場合、ＭＬ／ＡＩアルゴリズム（複数可）１１２は、新たなポリシー４１０を、ポリシー４１４の最後のセットとして、どの到来するミサイルを衝突させるのかを選択する問題に適用することができる。コンセンサスが得られない場合、評価動作４１２は、１つ以上のオリジナルの報酬関数４０２ｂを調整し、コンセンサスが得られるまで（または何らかの他の指定された１または複数の基準が満たされるまで）このプロセスを繰り返すことができる。ＭＬ／ＡＩアルゴリズム（複数可）１１２は、例えばプロセスを説明する適切な情報を出力することにより、選択された到来するミサイルが、なぜ衝突のために選択されたかの説明を提供することもできる。

【0051】

図３及び４には、類似のシナリオを使用する明示的な倫理的なマシンを提供するためのシングルエージェント及びマルチエージェントアーキテクチャ３００、４００の使用例が示されているが、図３及び４については様々な変更を加えることができる。例えば、アーキテクチャ３００または４００のいずれかで使用される複数のデータベース１１０が存在してもよく、及び／または１つまたは複数のデータベース１１０は、アーキテクチャ１００のインスタンス（複数可）を実装するデバイス（複数可）に対してローカルであってもよいし、リモートであってもよい。また、アーキテクチャ１００の任意の適切な数のインスタンスが、マルチエージェントシステムで使用されてよく、アーキテクチャ１００のインスタンスからの結果が、任意の他の適切な方法で組み合わせられてもよいし、そうでなければ使用されてもよい。

【0052】

図５は、本開示による類似のシナリオを使用する明示的な倫理的なマシンを提供するためのアーキテクチャで逆強化学習を使用するための例示的なアーキテクチャ５００を示す。図５に示されている技術５００は、例えば、動作１０６により、類似のシナリオに基づいて報酬関数を精密化するために使用され得る。しかしながら、動作１０６が任意の他の適切な方法で実施されてもよいことに留意されたい。

【0053】

図５に示すように、技術５００は、所定の時間にわたって発生するタスク５０２ａ～５０２ｎのシーケンスを含み、この場合、タスク５０２ａが最初に発生し、他のタスク５０２ｂ～５０２ｎが順次に発生する。各タスク５０２ａ～５０２ｎは、それぞれ、報酬関数５０４ａ～５０４ｎのバージョンに関連付けられており、報酬関数５０４ａ～５０４ｎは、経時的に変化する共通の報酬関数を表すことができる。

【0054】

ここでの報酬関数５０４ａ～５０４ｎの各バージョンは、それぞれ、タスク非依存部分５０６ａ～５０６ｎと、タスク依存部分５０８ａ～５０８ｎとを含むか、そうでなければ関連付けられている。報酬関数５０４ａ～５０４ｎのタスク非依存部分５０６ａ～５０６ｎは、実行されるタスクにかかわらず倫理的な境界を強化する報酬システムを定めるのを支援するのに使用することができる。報酬関数５０４ａ～５０４ｎのタスク依存部分５０８ａ～５０８ｎは、報酬システムの文脈的挙動を駆動する報酬システムを定めるのを助けるために使用することができる。各報酬関数５０４ａ～５０４ｎは、ここでは、結果５１０ａ～５１０ｎを生成するために使用することができ、これは、それぞれのタスク５０２ａ～５０２ｎに関連付けられたデータへの報酬関数５０４ａ～５０４ｎの適用を表す。各報酬関数５０４ａ～５０４ｎのタスク非依存部分５０６ａ～５０６ｎと、タスク依存部分５０８ａ～５０８ｎとを使用して、関連結果５１０ａ～５１０ｎを生成することができる。

【0055】

ここでのライン５１２は、時間の経過に伴ってタスク非依存部分５０６ａ～５０６ｎに発生し得る倫理的挙動の改善を定義している。これにより、例えば、漸進的な継承及び報酬の倫理的構成要素の改善が可能になり、より高いレベルの倫理的発展を達成することができる（例えば、コールバーグモデルの段階で上に移る）。ここでライン５１４は、時間の経過に伴ってタスク依存部分５０８ａ～５０８ｎに発生する可能性がある類推及び転移学習を定める。これによって例えば、データベース１１０を使用して上述した手法で起こり得る、経時的な学習を容易にするために、先行のシナリオと同様に使用することができる。先行のシナリオと類推することができれば、学習を強化して、ＭＬ／ＡＩアルゴリズム（複数可）１１２の訓練要件を低減するのに役立ち得る。ここでベイジアン定式化は、論理的に健全な学習の枠組み及び不確実性の下での行動を提供することができ、矛盾する倫理的ノルム及び報酬に対するトレードオフ分析を可能にすることができる。

【0056】

図５は、類似のシナリオを使用する明示的な倫理的なマシンを提供するためのアーキテクチャにおいて逆強化学習を使用するための技術５００の一例を示しているが、図５には様々な変更が加えられてよい。例えば、報酬関数は、そのタスク非依存部分及び／またはそのタスク依存部分への変化に基づいて、時間と共に様々な方法で展開することができる。

【0057】

図６は、本開示による類似のシナリオを使用する明示的な倫理的なマシンを提供するための例示的な方法６００を示す。説明を容易にするために、方法６００は、図２の少なくとも１つのデバイス２００を使用して実装され得るアーキテクチャ１００によって実行されるものとして説明される。しかし、方法６００は、任意の適切なデバイス（複数可）によって、任意の適切なシステム（複数可）で実行されてよい。

【0058】

図６に示されているように、現在のシナリオ及び初期報酬関数を定める入力情報が、ステップ６０２で取得され、ステップ６０４では、現在のシナリオのための初期ポリシーを生成するために使用される。これは、例えば、処理デバイス２０２が、マルコフ決定過程及びオリジナルの報酬関数を規定する情報をユーザまたは他のソース（複数可）から受信するために、ポリシー識別動作１０２を実行することを含み得る。これは、マルコフ決定過程及びオリジナルの報酬関数を現在のシナリオの初期ポリシーとして使用するために、または現在のシナリオの初期ポリシーを生成するために、ポリシー識別動作１０２を実行する処理デバイス２０２を含むこともできる。オリジナルの報酬関数は、現在のシナリオのための行動過程を選択するときに、最適化されるべき１つまたは複数のパラメータを識別することができる。

【0059】

ステップ６０６において、現在のシナリオと類似する何らかの先行のシナリオをデータベースから検索し、ステップ６０８において、類似する各先行のシナリオに関連付けられた類似ポリシーを識別する。これは、例えば、処理デバイス２０２が、現在のシナリオに類似している何らかの先行のシナリオをデータベース１１０から検索するために類似識別動作１０４を実行することを含み得る。いくつかのケースでは、例えば、現在及び先行のシナリオのマルコフ決定プロセスと報酬関数との類似性に基づき、統計的に類似を判定することができる。このことにはまた、処理デバイス２０２が、類似識別動作１０４を実施して、識別された類似の先行シナリオのそれぞれに関連付けられたポリシー情報をデータベース１１０から抽出し、このポリシー情報を１つまたは複数の類似ポリシーとして使用することも含まれ得る。

【0060】

ステップ６１０において、逆強化学習が１つまたは複数の類似の先行のシナリオに関連付けられた１つまたは複数のポリシーに適用され、ステップ６１２において、ＩＲＬ結果に基づいて類似の報酬関数が生成される。これは、例えば、処理デバイス２０２が競合識別動作１０６を実行することを含むことができ、処理デバイス２０２は、類似の報酬関数を識別するために、現在のシナリオに関するマルコフ決定処理と、類似のポリシーに関する情報とを使用することができる。類似の報酬関数は、オリジナルの報酬関数に含まれていない１つまたは複数のパラメータを含んでもよく、及び／または類似の報酬関数は、オリジナルの報酬関数に含まれている１つまたは複数のパラメータを省略してもよい。

【0061】

ステップ６１４において初期の報酬関数と、類似の報酬関数とが比較され、ステップ６１６において、現在のシナリオに対する新しい報酬関数が生成される。これは、例えば、処理デバイス２０２が、（ｉ）オリジナルの報酬関数に含まれていない、類似の報酬関数の１つまたは複数のパラメータ、及び／または（ｉｉ）類似の報酬関数に含まれていない、オリジナルの報酬関数の１つまたは複数のパラメータを識別するために、オリジナルの報酬関数と類似の報酬関数の違いを識別する報酬関数修正動作１０８を実行することを含み得る。これはまた、処理デバイス２０２が、報酬関数修正動作１０８を実行して新しい報酬関数を生成することを含んでもよく、これは、修正されたものとして、（ｉ）類似の報酬関数からのパラメータを少なくとも１つ含める、及び／または（ｉｉ）オリジナルの報酬関数から少なくとも１つのパラメータを除外するオリジナルの報酬関数を表すことができる。

【0062】

ステップ６１８において、新しい報酬関数に基づく新しいポリシーが取得される。これは、例えば、処理デバイス２０２が、現在のシナリオのマルコフ決定過程と、現在のシナリオの新しい報酬関数とを、現在のシナリオのための新しいポリシーとして使用するために、ポリシー識別動作１０２を実行することを含み得る。この時点で、任意選択的に、ステップ６２０においてプロセスを反復するか否かを判定してもよい。いくつかの場合において、ステップ６２０での判定は、それぞれがステップ６０２～６１８を実行する複数のエージェント（アーキテクチャ１００の複数のインスタンス）が存在し、複数のエージェントから結果として得られるポリシーが適合しない場合に使用される。別のケースにおいては、ステップ６２０における決定が、新たなポリシーがプロセスの別の反復に供されるべきか否かを判定するために使用される。これにより、例えば、より多くのパラメータをポリシーに追加することができ、推論中に考慮することができるようになる。いかなる理由であっても、繰り返しが望まれるならば、プロセスはステップ６０２（または他の何らかのステップ）に戻って、１つまたは複数の動作を繰り返す。

【0063】

ステップ６２２において、ＭＬ／ＡＩアルゴリズムを使用して、または何らかの方法で格納、出力、または使用されて、新たなポリシーを適用することができる。これは、例えば、処理デバイス２０２が、同じ処理デバイス２０２または異なる処理装置によって実行され得るＭＬ／ＡＩアルゴリズム１１２に新しいポリシーを提供することを含み得る。これはまた、ＭＬ／ＡＩアルゴリズム１１２が、現在のシナリオの結果として発生する選択された行動方針を識別するために新しいポリシーを使用することを含むことができる。ただし、新たなポリシーを、上述の種々の態様を含めた他の任意の適切な手法で、記憶、出力または使用することができることに留意されたい。

【0064】

図６は、類似のシナリオを使用する明示的な倫理的なマシンを提供する方法６００の一例を示しているが、図６に様々な変更を加えることができる。例えば、一連のステップとして示されているが、図６の様々なステップが重複する場合、並行して行われる場合、異なる順序で行われる場合、または任意の回数で行われる場合がある。

【0065】

いくつかの実施形態では、本特許文書に記載されている種々の関数は、コンピュータ可読プログラムコードから形成され、コンピュータ可読媒体に組み込まれているコンピュータプログラムによって、実現またはサポートされる。「コンピュータ可読プログラムコード」という語句は、ソースコード、オブジェクトコード及び実行可能コードを含むあらゆる種類のコンピュータコードを含む。「コンピュータ可読媒体」という語句には、コンピュータによってアクセス可能な任意の種類の媒体、例えば、読み取り専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、ハードディスクドライブ（ＨＤＤ）、コンパクトディスク（ＣＤ）、デジタルビデオディスク（ＤＶＤ）、または任意の他の種類のメモリが含まれる。「非一時的」コンピュータ可読媒体は、一時的な電気または他の信号を伝送する有線、無線、光または他の通信リンクを除外する。非一時的なコンピュータ可読媒体は、データが永続的に保存される媒体と、データが保存され、後に上書きされ得る、書き換え可能な光ディスクまたは消去可能なストレージデバイスなどの媒体を含む。

【0066】

本特許文書全体を通して使用される特定の単語及び語句の定義を挙げることは有利であると考えられる。「アプリケーション」及び「プログラム」という用語は、適切なコンピュータコード（ソースコード、オブジェクトコードまたは実行可能コードを含む）に実装するように適合された、１つ以上のコンピュータプログラム、ソフトウェアコンポーネント、命令のセット、手続き、機能、オブジェクト、クラス、インスタンス、関連データ、またはそれらの一部を指す。「通信する」という用語及びその派生語は、直接的及び間接的の通信の両方を包含する。「含む（ｉｎｃｌｕｄｅ）」及び「備える（ｃｏｍｐｒｉｓｅ）」という用語ならびにそれらの派生語は、制限のない包含を意味する。「または」という用語は、「及び／または」の意味も含んでいる。「関連する（ａｓｓｏｃｉａｔｅｄｗｉｔｈ）」なる語句、及びその派生語は、含む、中に含まれる、相互接続する、格納する、中に格納される、接続する、結合する、通信可能である、協働する、インタリーブ、並列する、近接する、接合する、有する、属性を有する、これらに関連するなどを意味し得る。「のうちの少なくとも１つ」という語句は、アイテムのリストと共に使用する場合、リストに挙げられたアイテムのうちの１つまたは複数の異なる組合せが使用されてもよく、リストにおける１つのアイテムのみが必要とされることを意味する。例えば、「Ａ、Ｂ、及びＣのうちの少なくとも１つ」は、以下の、Ａ、Ｂ、Ｃ、Ａ及びＢ、Ａ及びＣ、Ｂ及びＣ、ならびにＡ及びＢ及びＣのいずれかの組み合わせを含む。

【0067】

本開示の記載は、いずれかの特定の要素、ステップまたは機能が特許請求の範囲に含まれなければならない必須のまたは重要な要素であることを暗示するものとして解釈されるべきではない。特許された主題の範囲は、特許許可された請求項によってのみ定められるものである。さらに、いずれの請求項も、添付の特許請求の範囲または請求項の構成要素のいずれに関しても、その後に機能を識別する特定の語句が続く、正確な語句「のための手段（ｍｅａｎｓｆｏｒ）」または「のためのステップ（ｓｔｅｐｆｏｒ）」が特定の請求項において明示的に使用されない限り、米国特許法第１１２条（ｆ）が援用されるものではない。請求項における「機構」、「モジュール」、「デバイス」、「ユニット」、「構成要素」、「要素」、「装置」、「機械」、「システム」、「プロセッサ」または「制御装置」のような用語の使用（ただし限定されない）は、請求項自体の特徴によってさらに変更または強化される、関連分野の当業者に公知の構造を指すと理解され、このことを意図しており、米国特許法第１１２条（ｆ）が発動されることを意図していない。

【0068】

本開示は、特定の実施形態及び一般的に関連する方法を説明してきたが、これらの実施形態及び方法の変更及び置換は、当業者には明らかであろう。したがって、例示的な実施形態の上記の説明は、本開示を定義または拘束するものではない。以下の特許請求の範囲によって定義されるような本開示の趣旨及び範囲から逸脱することなく、他の変更、置き換え、及び変更も可能である。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版