(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-05-01
(54)【発明の名称】作動可能なガードレールを提供するために類似のシナリオを使用する明示的な倫理的なマシン
(51)【国際特許分類】
G06N 3/092 20230101AFI20240423BHJP
【FI】
G06N3/092
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023567894
(86)(22)【出願日】2022-04-05
(85)【翻訳文提出日】2023-11-02
(86)【国際出願番号】 US2022023522
(87)【国際公開番号】W WO2022235366
(87)【国際公開日】2022-11-10
(32)【優先日】2021-05-03
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】503455363
【氏名又は名称】レイセオン カンパニー
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ウ,ペギー
(72)【発明者】
【氏名】スリヴァスタヴァ,クナル
(57)【要約】
装置は、ML/AIアルゴリズム(112)によって評価される現在のシナリオ(302a、402a)に関連付けられた情報を格納するように構成された少なくとも1つのメモリ(204、210、212)を含み、情報は、現在のシナリオに関連付けられた初期報酬関数(302b、402b)を含む。この装置はまた、(i)現在のシナリオに類似する1つまたは複数の先行のシナリオに関連付けられた1つまたは複数のポリシー(304、404)を識別し、(ii)初期報酬関数によって最適化されたパラメータと、1つまたは複数の先行のシナリオに関連付けられた1つ以上の報酬関数(306、406)との間の1つ以上の差分を決定し、(iii)新しい報酬関数(308、408)を生成するために、決定された1つ以上の差のうちの少なくとも1つに基づいて初期報酬関数を修正し、(iv)新しい報酬関数に基いて、現在のシナリオのための新ポリシー(310、410)を生成するように構成された少なくとも1つのプロセッサ(202)を含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
方法であって、
少なくとも1つのプロセッサを使用して、機械学習/人工知能(ML/AI)アルゴリズムにより評価される現在のシナリオに関連する情報を取得することであって、前記情報は、前記現在のシナリオに関連する初期報酬関数を含む、前記取得すること、
前記少なくとも1つのプロセッサを使用して、前記現在のシナリオに類似する1つまたは複数の先行のシナリオに関連付けられた1つまたは複数のポリシーを識別すること、
前記少なくとも1つのプロセッサを使用して、前記初期報酬関数と、前記1つまたは複数の先行のシナリオに関連付けられた1つまたは複数の報酬関数とによって最適化されたパラメータ間の1つまたは複数の差分を決定すること、
新しい報酬関数を生成するために、前記少なくとも1つのプロセッサを使用して、前記1つまたは複数の決定された差分のうちの少なくとも1つに基づいて前記初期報酬関数を修正すること、及び
前記少なくとも1つのプロセッサを使用して、前記新しい報酬関数に基づいて前記現在のシナリオに対する新しいポリシーを生成すること、
を含む、方法。
【請求項2】
前記現在のシナリオに対して選択された行動方針を決定するために、前記ML/AIアルゴリズムを使用して、前記現在のシナリオに前記新たなポリシーを適用することをさらに含む、請求項1に記載の方法。
【請求項3】
前記初期報酬関数として前記新しい報酬関数を使用して、動作を前記取得すること、前記識別すること、前記決定すること、前記修正すること、及び前記生成することのうちの少なくともいくつかを繰り返すこと、をさらに含む、請求項1に記載の方法。
【請求項4】
前記現在のシナリオに関連する前記情報は、第1のマルコフ決定過程を含み、
データベースは、前記1つまたは複数の先行のシナリオに関連する1つまたは複数の第2のマルコフ決定過程を格納する、請求項1に記載の方法。
【請求項5】
前記最適化されたパラメータ間の前記1つまたは複数の差分を決定することは、逆強化学習を使用して、前記現在のシナリオに適用される前記1つまたは複数の先行のシナリオにおいて使用された推論を識別することを含む、請求項1に記載の方法。
【請求項6】
動作を前記取得すること、前記識別すること、前記決定すること、前記修正すること、及び前記生成することは、複数のエージェントを使用して実行され、
前記方法が、
適合のために前記複数のエージェントによって生成された前記新しいポリシーを比較すること、及び
前記複数のエージェントによって生成された前記新たなポリシーが適合していないことに応じて、前記複数のエージェントのうちの少なくとも1つによって使用される前記初期報酬関数を修正し、動作を前記取得すること、前記識別すること、前記決定すること、前記修正すること、及び前記生成することのうちの少なくともいくつかを繰り返すこと、
をさらに含む、請求項1に記載の方法。
【請求項7】
前記初期報酬関数及び前記新しい報酬関数のそれぞれが、
タスクに関係なく、1つまたは複数の倫理的境界を実施するように構成されたタスク非依存部分と、
前記関連する報酬関数の文脈的挙動を駆動するように構成されたタスク依存部分と、
をさらに含む、請求項1に記載の方法。
【請求項8】
装置であって、
機械学習/人工知能(ML/AI)アルゴリズムにより評価される現在のシナリオに関連する情報を記憶するよう構成された少なくとも1つのメモリであって、前記情報は、前記現在のシナリオに関連する初期報酬関数を含む、前記少なくとも1つのメモリ、及び
少なくとも1つのプロセッサであって、
前記現在のシナリオに類似する1つまたは複数の先行のシナリオに関連付けられた1つまたは複数のポリシーを識別すること、
前記初期報酬関数と、前記1つまたは複数の先行のシナリオに関連付けられた1つまたは複数の報酬関数とによって最適化されたパラメータ間の1つまたは複数の差分を決定すること、
新しい報酬関数を生成するために前記1つまたは複数の決定された差分のうちの少なくとも1つに基づいて前記初期報酬関数を修正すること、及び
前記新しい報酬関数に基づいて、前記現在のシナリオに対する新しいポリシーを生成すること、
を行うように構成される、前記プロセッサと、
を含む、装置。
【請求項9】
前記少なくとも1つのプロセッサはさらに、
前記現在のシナリオに対する選択された行動方針を決定するために、前記ML/AIアルゴリズムを使用して、前記現在のシナリオに前記新たなポリシーを適用することを行うように構成される、請求項8に記載の装置。
【請求項10】
前記少なくとも1つのプロセッサは、
前記初期報酬関数として前記新しい報酬関数を使用して、動作を前記識別すること、前記決定すること、前記修正すること、及び前記生成することのうちの少なくともいくつかを繰り返すようにさらに構成される、請求項8に記載の装置。
【請求項11】
前記現在のシナリオに関連する前記情報は、第1のマルコフ決定過程を含み、
前記少なくとも1つのプロセッサは、前記1つまたは複数の先行のシナリオに関連する1つまたは複数の第2のマルコフ決定プロセスを格納するように構成されたデータベースにアクセスするように構成される、請求項8に記載の装置。
【請求項12】
前記最適化されるパラメータ間の前記1つまたは複数の差分を決定するために、前記少なくとも1つのプロセッサは、逆強化学習を使用して、前記現在のシナリオに適用される前記1つまたは複数の先行のシナリオにおいて使用された推論を識別するように構成される、請求項8に記載の装置。
【請求項13】
前記少なくとも1つのプロセッサは、
複数のエージェントを使用して、動作を前記識別すること、前記決定すること、前記修正すること、及び前記生成することを実行すること、
適合のために前記複数のエージェントによって生成された前記新しいポリシーを比較すること、及び
前記複数のエージェントによって生成された前記新たなポリシーが適合していないことに応じて、前記複数のエージェントのうちの少なくとも1つによって使用される前記初期報酬関数を修正し、動作を取得すること、前記識別すること、前記決定すること、前記修正すること、及び前記生成することのうちの少なくともいくつかを繰り返すこと、
を行うようにさらに構成される、請求項8に記載の装置。
【請求項14】
前記初期報酬関数及び前記新しい報酬関数のそれぞれが、
タスクに関係なく、1つまたは複数の倫理的境界を実施するように構成されたタスク非依存部分と、
前記関連する報酬関数の文脈的挙動を駆動するように構成されたタスク依存部分と、
を含む、請求項8に記載の装置。
【請求項15】
非一時的なコンピュータ可読媒体であって、実行されるときに、少なくとも1つのプロセッサに、
機械学習/人工知能(ML/AI)アルゴリズムにより評価される現在のシナリオに関連する情報を取得することであって、前記情報は、前記現在のシナリオに関連する初期報酬関数を含む、前記取得すること、
前記現在のシナリオに類似する1つまたは複数の先行のシナリオに関連付けられた1つまたは複数のポリシーを識別すること、
前記初期報酬関数と、前記1つまたは複数の先行のシナリオに関連付けられた1つまたは複数の報酬関数とによって最適化されたパラメータ間の1つまたは複数の差分を決定すること、
新しい報酬関数を生成するために、前記1つまたは複数の決定された差分のうちの少なくとも1つに基づいて前記初期報酬関数を修正すること、及び
前記新しい報酬関数に基づいて前記現在のシナリオのための新しいポリシーを生成すること、
を行わせる命令を含む、非一時的なコンピュータ可読媒体。
【請求項16】
実行されるときに、前記少なくとも1つのプロセッサに、
前記現在のシナリオに対して選択された行動方針を決定するために、前記ML/AIアルゴリズムを使用して、前記現在のシナリオに前記新たなポリシーを適用することを行わせる命令をさらに含む、請求項15に記載の非一時的なコンピュータ可読媒体。
【請求項17】
実行されるときに、前記少なくとも1つのプロセッサに、
前記初期報酬関数として前記新しい報酬関数を使用して、動作を前記取得すること、前記識別すること、前記決定すること、前記修正すること、及び前記生成することのうちの少なくともいくつかを繰り返すことをお紺わせる命令をさらに含む、請求項15に記載の非一時的なコンピュータ可読媒体。
【請求項18】
前記現在のシナリオに関連する前記情報は、第1のマルコフ決定過程を含み、
前記命令は、実行されるときに、前記少なくとも1つのプロセッサに、前記1つまたは複数の先行のシナリオに関連する1つまたは複数の第2のマルコフ決定過程を格納するように構成されたデータベースにアクセスすることを行わせる、請求項15に記載の非一時的なコンピュータ可読媒体。
【請求項19】
実行されるときに、前記少なくとも1つのプロセッサに、前記最適化されたパラメータ間の前記1つまたは複数の差分を決定させる命令は、
実行されるときに、前記少なくとも1つのプロセッサに、逆強化学習を使用して、前記現在のシナリオに適用される前記1つまたは複数の先行のシナリオにおいて使用された推論を識別することを行わせる命令を含む、請求項15に記載の非一時的コンピュータ可読媒体。
【請求項20】
実行されるときに、前記少なくとも1つのプロセッサに、
動作を前記取得すること、前記識別すること、前記決定すること、前記修正すること、及び前記生成することを複数のエージェントを使用して実行すること、
適合のために前記複数のエージェントによって生成された前記新しいポリシーを比較すること、
前記複数のエージェントによって生成された前記新たなポリシーが適合していないことに応じて、前記複数のエージェントのうちの少なくとも1つによって使用される前記初期報酬関数を修正し、動作を前記取得すること、前記識別すること、前記決定すること、前記修正すること、及び前記生成することのうちの少なくともいくつかを繰り返すことを修正すること、
を行わせる命令をさらに含む、請求項15に記載の非一時的コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、一般に、機械学習(ML)システム及び他の人工知能(AI)システムに関する。より具体的には、本開示は、作動可能なガードレールを提供するために類似のシナリオを使用する明示的な倫理的なマシンに関する。
【背景技術】
【0002】
様々な分野における自律型及び半自律型の意思決定アルゴリズムの採用が増加するにつれて、アルゴリズムは倫理的なジレンマを伴うシナリオに遭遇することが一般的になっている。倫理的なジレンマの一例は、頻繁に「トロリ問題」と呼ばれており、これは一般に、暴走するトロリが1つの軌道にいる複数の人の方に向かっているが、1人の人が占有する別の軌道に逸らすこともできるという仮定の状況を考えるものである。
【発明の概要】
【0003】
本開示は、作動可能なガードレールを提供するために類似のシナリオを使用する明示的な倫理的なマシンに関する。
【0004】
第1の実施形態では、方法は、少なくとも1つのプロセッサを使用して、機械学習/人工知能(ML/AI)アルゴリズムにより評価される現在のシナリオに関連する情報を取得することを含み、情報は、現在のシナリオに関連する初期報酬関数を含む。方法はまた、少なくとも1つのプロセッサを使用して、現在のシナリオに類似する1つまたは複数の先行のシナリオに関連付けられた1つまたは複数のポリシーを識別することを含む。方法はさらに、少なくとも1つのプロセッサを使用して、初期報酬関数及び1つまたは複数の先行のシナリオに関連付けられた1つまたは複数の報酬関数によって最適化されたパラメータ間の1つまたは複数の差分を決定することを含む。方法はまた、新しい報酬関数を生成するために、少なくとも1つのプロセッサを使用して、1つまたは複数の決定された差分のうちの少なくとも1つに基づいて初期報酬関数を修正することを含む。さらに、本方法は、少なくとも1つのプロセッサを使用して、新しい報酬関数に基づいて現在のシナリオに対する新しいポリシーを生成することを含む。
【0005】
第2の実施形態では、装置は、ML/AIアルゴリズムによって評価される現在のシナリオに関連付けられた情報を格納するように構成された少なくとも1つのメモリを含み、情報は、現在のシナリオに関連付けられた初期報酬関数を含む。この装置はまた、現在のシナリオに類似する1つまたは複数の先行のシナリオに関連付けられた1つまたは複数のポリシーを識別し、初期報酬関数によって最適化されたパラメータと、1つまたは複数の先行のシナリオに関連付けられた1つ以上の報酬関数との間の1つ以上の差分を決定し、新しい報酬関数を生成するために、決定された1つ以上の差のうちの少なくとも1つに基づいて初期報酬関数を修正し、新しい報酬関数に基いて、現在のシナリオのための新ポリシーを生成するように構成された少なくとも1つのプロセッサを含む。
【0006】
第3の実施形態では、非一時的コンピュータ可読媒体は、実行されるときに、少なくとも1つのプロセッサに、ML/AIアルゴリズムによって評価されるべき現在のシナリオに関連する情報を取得させる命令を含み、情報は、現在のシナリオに関連する初期報酬関数を含む。媒体はまた、実行されるときに、少なくとも1つのプロセッサに、現在のシナリオに類似する1つまたは複数の先行のシナリオに関連付けられた1つまたは複数のポリシーを識別させる命令も含む。媒体は、実行されるときに、少なくとも1つのプロセッサに、初期報酬関数、及び1つまたは複数の先行のシナリオに関連付けられた1つまたは複数の報酬関数によって最適化されたパラメータ間の1つまたは複数の差分を決定させる命令をさらに含む。媒体はまた、実行されるときに、少なくとも1つのプロセッサに、新しい報酬関数を生成するために、1つまたは複数の決定された差分のうちの少なくとも1つに基づいて初期報酬関数を修正することを行わせる命令を含む。さらに、媒体は、実行されるときに、少なくとも1つのプロセッサに、新しい報酬関数に基づいて、現在のシナリオのための新しいポリシーを生成させる命令を含む。
【0007】
他の技術的特徴は、以下の図面、説明、及び特許請求の範囲から、当業者には容易に明らかであろう。
【0008】
本開示をいっそう完全近くまで理解するために、添付の図面を関連付けながら、これより以下の説明を言及していく。
【図面の簡単な説明】
【0009】
【
図1】本開示による類似のシナリオを使用する明示的な倫理的なマシンを提供するための例示的なアーキテクチャを示す。
【
図2】本開示による類似のシナリオを使用する明示的な倫理的なマシンを支援する例示的なデバイスを示す。
【
図3】本開示による類似のシナリオを使用する明示的な倫理的なマシンを提供するためのシングルエージェントアーキテクチャの例示的な使用を示す。
【
図4】本開示による類似のシナリオを使用する明示的な倫理的なマシンを提供するためのマルチエージェントアーキテクチャの例示的な使用を示す。
【
図5】本開示に係る類似のシナリオを使用する明示的な倫理的なマシンを提供するためのアーキテクチャにおいて逆強化学習を使用するための例示的な技術を示す。
【
図6】本開示による類似のシナリオを使用する明示的な倫理的なマシンを提供するための例示的な方法を示す。
【発明を実施するための形態】
【0010】
以下で説明する
図1~
図6、及び本開示の原理を説明するために使用される種々の実施形態は、例示のみのものであり、いかなる点においても本開示の範囲を限定することを意図したものと解釈されるべきではない。当業者であれば、本開示の基本原理を、適切に構成された任意の種類のデバイスまたはシステムにおいて実装することができることを理解するであろう。
【0011】
前述のように、様々な分野における自律的及び半自律的な意思決定アルゴリズムの採用が増加するにつれて、アルゴリズムは倫理的なジレンマを伴うシナリオに遭遇することが一般的である。倫理的なジレンマの一例は、頻繁に「トロリ問題」と呼ばれており、これは一般に、暴走するトロリが1つの軌道にいる複数の人の方に向かっているが、1人の人が占有する別の軌道に逸らすこともできるという仮定の状況を考えるものである。これら及び他の種類の倫理的なジレンマは、自動運転車用の制御システムの設計などにおいて、種々の意思決定アルゴリズムに生じる可能性がある。残念ながら、複雑な自律型及び半自律型のシステムでは、実質的に「ブラックボックス」として機能するオペレータに限られた透明性をもたらす機械学習(ML)アルゴリズムまたは他の人工知能(AI)アルゴリズムが日常的に使用されている。その結果、システムエンジニアは、頻繁に、要求及びシステムの挙動を定義されたパラメータに設計することになり、これらの定義されたパラメータは、次いで使用ときに正しく作動することが期待される。
【0012】
自律型及び半自律型のシステムにおいて使用されている現在のアプローチは、多くの場合、所定のシナリオに対する所望の行動過程を符号化する閉鎖された世界の想定に依存している。しかしながら、これらのアプローチは非常に脆弱であり、環境またはシナリオのわずかな変更に対しても拡張できないことが多く、このため、これらのシステムを信頼できないものにし、実質的に、致命的なエラーを起こしやすくする。米国国防総省は、5つの主要分野を包含する人工知能システムの5つの重要な「倫理的原則」を採用しており、これらは一般に、「責任」、「公正」、「追跡可能」、「信頼できる」、及び「制御可能」と分類されている。しかしながら、当技術分野でこれら5つの原理を実際に実施することは、現在、誤り及びバイアスが生じやすい不定形な人間の判断に依存している。さらに、自律型または半自律型のシステムによって採用されるべき行動過程がいずれかの倫理的な影響を与えるかどうかは、常に明らかというわけではない。
【0013】
本開示は、作動可能なガードレールを提供するために類似のシナリオを使用してこれらのタイプの原理のうちの少なくともいくつかを満たすことができる明示的な倫理的なマシンを実現するための様々な技術を提供する。より詳細に後述するように、これらの技術は、目標固有の報酬関数を符号化するマルコフ決定過程を用いた作動可能なシナリオを表す。動作中、初期報酬関数を符号化するマルコフ決定過程を用いて、現在のシナリオを表現することができる。現在のシナリオに類似する少なくとも1つの先行のシナリオを識別することができ、類似のシナリオ(複数可)に関連付けられた少なくとも1つのポリシーを識別することもできる。1つまたは複数の類似のシナリオに関連付けられた1つまたは複数のポリシーを、現在のシナリオに適用することができ、これは、1つまたは複数の類似のシナリオに関連付けられた1つまたは複数のポリシーに基づいて、現在のシナリオに関連付けられた初期報酬関数を修正することを含む。これにより、現在のシナリオのための新しいポリシーが作成され、それにおいて、新しいポリシーには、現在のシナリオのための修正された報酬関数が含まれる。そのとき、現在のシナリオのための新たなポリシーを、現在のシナリオにおいて得られる行動過程を識別するために使用することができる。1または複数の人間のオペレータとのインタラクションがまた、倫理的決定の特徴の継続的な学習を支援するために生じる場合もある。例えば、機械の「モラルの成熟性」のレベルを推定するために、所与のシナリオにおける選択された行動過程に対する1つまたは複数の機械によって生成された調整を、1または複数の人間による調整に対して評価することができる。
【0014】
このようにして、類似の先行のシナリオの形態の先行の経験を、例えば統計技術を使用して取り入れ、(以前は調べられていない)新しいシナリオに適用するための類似性及び相似性を描くことができる。結果として、これらの技術により、ML/AIアルゴリズムは、アルゴリズムが以前には訓練されていない新しいシナリオに関連する決定を行おうとする際に、他のシナリオから学習するように設計されることが可能となる。したがって、類似の先行のシナリオは、現在のシナリオのガードレールとして機能し、現在のシナリオのために選択された行動方針が壊滅的に不正確ではないことを保証するのに役立つ。本質的に、これは、ML/AIアルゴリズムが一貫性のある透明な方法で倫理性に関する識別及び推論を行えるようにするフレームワークを提供する。さらに、これらの技術を使用して、自律型または半自律型のシステムが所与の結論にどのように到達するかを明確に識別し、所与のシナリオのための特定の行動過程を選択することができる。これは、自律型または半自律型のシステムの、追跡可能で信頼性があり、制御可能な動作をサポートするのに役立ち得る。さらに、これらの技術により、エンジニア、設計者、オペレータ及び他の人員は、システムにおいて自律性がどのように使用されているのか、ならびに自律性への依存が過剰または過小であるのかに関する洞察を得ることができる。さらに、自律型及び半自律型のシステムの、透明で信頼できる、かつ倫理的に明示的な動作は、種々の用途へのシステムの採用を増加させるのに役立ち得る。
【0015】
この機能の特定の例として、自律車両制御システムは、その信頼度に対する95%の信頼性を実証するために、50億マイルにわたる運転を必要とする場合がある。ここでのアプローチを使用して、稀な事象をシミュレーションすることができ、自律車両制御システムがどのように応答するかを決定するために、類似のシナリオにおける先行の事象を使用することができる。とりわけ、これにより、自律車両制御システムまたは他の自律型/半自律型システムは、自己評価し、検証及び保証評価を加速することができる。これはまた、自律車両制御システムまたは他の自律型/半自律型システムに関連づけられたエンジニア、設計者、オペレータまたは他の人員が、現在のシナリオにいかなる倫理的な考察も伴わないように思われる場合であっても、先行のシナリオに基づいて考えられる行動方針の倫理的な影響を予測することができる。
【0016】
図1は、本開示による類似のシナリオを使用する明示的な倫理的なマシンを提供するための例示的なアーキテクチャ100を示す。
図1に示されているように、ここでアーキテクチャ100は、種々の動作102~108及びデータベース110を含んでおり、これらを用いて、少なくとも1つのML/AIアルゴリズム112を訓練し、タスクベースの決定と倫理的な決定との双方について同ときに推論を行うことができる。ここでの動作102~108は、反復的に実行することができ、これにより、ますます複雑になる推論を実行するために、ML/AIアルゴリズム112を反復的に訓練することができる。理想的には、これによってML/AIアルゴリズム112は、いっそう複雑になるタスクベースの倫理的な意思決定の問題を処理できるようになる。
【0017】
動作102は、一般に、ML/AIアルゴリズム112によって評価される現在のシナリオに関連付けられた初期ポリシーを識別、生成、さもなければ取得することを含む、ポリシー識別動作を表している。いくつかの実施形態では、現在のシナリオは、可能な状態のセット(S)、可能な行動のセット(A)、及び行動によって状態間を移行するための報酬を定義する報酬関数(R)を含むマルコフ決定過程(MDP)を使用して表され得る。初期ポリシーは、特定の状態にあるときに行うべき行動を指定する初期関数を表す。初期ポリシーは、典型的には、報酬関数によって定義されるように最適化されるべき1つまたは複数のパラメータの初期セットに基づいている。マルコフ決定過程とポリシーの組み合わせは過程の各状態に対する行動を識別し、理想的にはポリシーを選択して報酬の機能を最大化することができる。特定の実施形態では、マルコフ決定過程は、現在のシナリオを表し、かつ1つまたは複数の最適化すべきパラメータを識別する初期報酬関数を1つまたは複数のユーザから得ることができる。
【0018】
動作104は、一般に、ML/AIアルゴリズム112によって評価される現在のシナリオに関連付けられた初期ポリシーに何らかの点で類似する1または複数の先行のシナリオを識別することを含む、類似識別動作を表している。先行のシナリオは、マルコフ決定過程、最適化されるべきパラメータの集合、またはその両方に関して、初期ポリシーと類似し得る。任意の類似の先行のシナリオの識別は、任意の適切な方法で、例えば、適切な統計的相関技術を使用して、行うことができる。動作104は、現在のシナリオに類似する1つまたは複数の先行のシナリオに関連する適切な情報を出力することができる。
【0019】
この例において、動作104は、先行シナリオに関する種々の情報を記憶することができるデータベース110の使用を含むことができる。データベース110の情報は、ML/AIアルゴリズム112(または別のML/AIアルゴリズム)によって遭遇した実際の先行のシナリオに関する情報を含み得る。データベース110の情報は、同様に、さもなければ代替的に、所定の環境において遭遇する可能性のあるシナリオのようなシミュレートされたシナリオに関する情報を含むこともできる。データベース110は、それぞれの先行のシナリオに関する任意の適切な情報、例えば、先行のシナリオのマルコフ決定過程、報酬関数、及び先行のシナリオのポリシーの他の情報を記憶することができる。動作104の出力は、データベース110に含まれる類似の各先行のシナリオのポリシーまたは他の情報を含んでもよい。
【0020】
動作106は一般に、現在のシナリオに関連づけられた初期ポリシーと、類似する先行のシナリオ各々に関連づけられたポリシーとの間の差分(競合)を識別することを含む競合識別動作を表す。例えば、現在のシナリオに関連付けられた初期ポリシー及び類似の先行のシナリオに関連付けられたポリシーは、類似の問題に関連付し得るが、最適化されるべきパラメータの異なるセットを含む(したがって、異なる報酬関数を有する)。したがって、ここでの動作106は、現在のシナリオにおいて適用され得る1つまたは複数の類似するシナリオにおいて使用される推論を識別することができる。動作106は、その推論を識別する情報を、例えば類似の報酬関数の形態で出力することができる。
【0021】
いくつかの実施形態では、動作106は、観察された挙動に基づいて報酬関数を抽出するプロセスである、逆強化学習(IRL)の使用を含む。換言すれば、動作106は、ここでIRLを使用して、1つまたは複数の類似した先行のシナリオで発生した挙動に基づいて報酬関数を識別することができる。次いで動作106は、評価されるべき現在のシナリオのために類似の報酬関数を生成することができる。本明細書における類似の報酬関数は、最適化されるべき種々のパラメータを含むことができ、このパラメータには、オリジナルの報酬関数に含まれていない1つまたは複数のパラメータが含まれ、及び/またはオリジナルの報酬関数に含まれていた1つまたは複数のパラメータが除外される。
【0022】
動作108は、一般に、報酬関数修正動作を表し、これは、初期の報酬関数を類似の報酬関数と比較して、いかなる差異も識別することを含む。次いで動作108は、比較に基づいて新しい報酬関数を生成することができる。例えば、動作108は、類似の報酬関数において最適化された1つまたは複数の特定のパラメータがオリジナルの報酬関数に含まれておらず、含むべきと決定することができる。したがって、動作108は、1つまたは複数の特定のパラメータを含むように更新された新しい報酬関数を生成及び出力することができる。新しい報酬関数を使用して、評価される現在のシナリオに関連付けられた更新されたポリシーを形成することができる。
【0023】
この時点で、更新されたポリシーが許容可能か否かを検証するために、人間によるインタラクションが任意選択で生じることができる。例えば、更新されたポリシーを、現在のシナリオに対する提案された行動過程を識別する際に使用するために、ML/AIアルゴリズム112に提供することができ、1人または複数人の人間が、提案された行動過程が許容可能か否かを評価することができる。更新されたポリシーを、現在のシナリオに関する他の情報と共にデータベース110に記憶することもまたでき、これによって、更新されたポリシーを後続のシナリオと共に使用することができる。さらに、更新されたポリシーを、本明細書で示されるプロセスの別の反復を通じてフィードバックすることができ、これによってポリシーの反復的な更新が可能となる。これにより、先行のシナリオの数が増加するにつれて、より複雑な状況を学習することが可能となり得る。
【0024】
全体として、このアーキテクチャ100は、より多くのパラメータを反復に含めることなどによって、ますます複雑になる推論に基づいて、異なる報酬関数を反復して適応させることができる機械学習フレームワークをもたらす。これは、一般に人間のモラルの発達に一致でき、これは例えば、コールバーグのモラルの発達の理論によって定義されている。コールバーグ理論は、一般に6つの段階で起こる倫理的発展をモデル化している。
段階1-罰と服従志向(罰を避けるため規則に従う)
段階2-道徳主義的相対主義志向(報酬を得るまたは好意を得るために従う)
段階3-対人的同調志向(他者から否認されないようにするため従う)
段階4-法律及び秩序志向(権威者による罰を回避するために遵守する)
段階5-社会契約的志向(社会の維持のために準拠)
段階6-普遍的倫理的原理志向(他の人々が決定によってどのように影響を受けるかを考慮する)
第1及び第2の段階は頻繁に「前慣習的」と呼ばれ、第3及び第4の段階は頻繁に「慣習的」と呼ばれ、第5及び第6の段階は頻繁に「後慣習的」と呼ばれる。ますます複雑になる推論を実行するためのアーキテクチャ100の能力は、このタイプのモデルに一致する、時間の経過と共に倫理的な決定を行う際により効果的になる、ML/AIアルゴリズム112の能力を支援する(当然、この原理を例示するために他のモデルが使用されてもよい)。ML/AIアルゴリズム112の決定と、それらの人間の正当化に反した決定の基礎とを比較することにより、ML/AIアルゴリズム112の倫理的な成熟度のレベルを評価することが可能となる。
【0025】
さらに、ここでのアーキテクチャ100は、先行の経験から付加的なパラメータを識別するために(場合によってはヒューリスティクスを用いて)アナログ推論の使用をサポートするものであり、選択された行動の倫理的な正当化または説明をもたらすことができる。これは、ML/AIアルゴリズム112による透明で信頼できる、かつ倫理的に明示的な動作の使用を支援するのに役立つ。さらにアーキテクチャ100は、ML/AIアルゴリズム112の選択された行動を単に評価するのではなく、ML/AIアルゴリズム112のモラル推論を評価するためのフレームワークを提供する。これは、例えば「盗まない」という結果が、低い倫理的発達(罰を回避するため)を生じる場合と、高い倫理的発達(普遍的な倫理的原理に従うため)とから生じる場合など、同じ観察可能な結果が異なるレベルの倫理的発展から現れ得るため、有用である。アーキテクチャ100は、ML/AIアルゴリズム112が「正しい」行動方針を選択したかどうかを単に評価するのではなく、ML/AIアルゴリズム112が選択された行動方針を選択する理由を決定または説明する能力を与える。このことは、ML/AIアルゴリズム112による壊滅的なエラーを低減または排除するのに役立ち得る。さらに、ここでのアーキテクチャ100は、完全にはルールベースではない明示的な倫理的なエージェントを訓練するために使用することができ、これは、暗黙的なエージェントに関連するピットフォールを回避するのに役立つ。例えば、明示的な倫理的エージェントは、拡張可能であり得て、あらゆる可能なシナリオを予測することを設計者に依存しないことがあり(したがって、人間が予期しないリスクを支援する)、これらの決定を正当化するための決定の具体的な説明を提供することができる。
【0026】
図1を参照して上述した動作102~108は、1つ以上のデバイスにおいて任意の適切な方法で実施できることに留意されたい。例えば、いくつかの実施形態では、動作102~108は、専用ハードウェアを使用して、またはハードウェア命令とソフトウェア/ファームウェア命令との組み合わせを使用して実装され得る。また、いくつかの実施形態では、動作102~108は、ハードウェア、または1つまたは複数の機能を実行するために1つまたは複数のML/AIアルゴリズム112を使用するシステムなどのより大きなシステムに埋め込まれたハードウェア命令及びソフトウェア/ファームウェア命令を使用して実装することができる。ただし、本開示は、動作102~108のいずれかの特定の物理的実装に限定されない。
【0027】
図1は、類似のシナリオを使用する明示的な倫理的なマシンを提供するためのアーキテクチャ100の一例を示しているが、
図1に様々な変更を加えることができる。例えば、アーキテクチャ100によって実行されるプロセスの任意の適切な反復回数を発生させることができる。また、アーキテクチャ100は、必ずしも各反復において全ての動作102~108を実行する必要はなく、例えば、現在のシナリオに類似する先行のシナリオが識別されなかった場合、アーキテクチャ100が動作106~108をスキップする場合もある。
【0028】
図2は、本開示による類似のシナリオを使用する明示的な倫理的なマシンを支援するための例示的なデバイス200を示す。デバイス200の1つ以上の例は、例えば、
図1に示される動作102~108を少なくとも部分的に実施するために使用され得る。しかしながら、動作102~108は、任意の他の適切な方法で実施されてもよい。いくつかの実施形態によれば、
図2に示したデバイス200は、デスクトップコンピュータ、ラップトップコンピュータ、サーバコンピュータまたはタブレットコンピュータといったコンピューティングシステムの少なくとも一部を成すことができる。しかし、動作102~108を実行するために、任意の他の適切な1つまたは複数のデバイスが使用されてもよい。
【0029】
図2に示すように、デバイス200は、少なくとも1つの処理デバイス202、少なくとも1つのストレージデバイス204、少なくとも1つの通信ユニット206、及び少なくとも1つの入出力(I/O)ユニット208を含むコンピューティングデバイスを示す。処理デバイス202は、メモリ210にロード可能な命令を実行可能である。処理デバイス202は、任意の適切な配置の、任意の適切な数(複数可)及びタイプ(複数可)のプロセッサまたは他の処理デバイスを含む。例示的なタイプの処理デバイス202は、1つまたは複数のマイクロプロセッサ、マイクロコントローラ、デジタルシグナルプロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、またはディスクリート回路を含む。
【0030】
メモリ210及び永続ストレージ212は、情報(データ、プログラムコード、及び/または一時的または永続的なベースでの他の適切な情報など)の保存及び検索の促進を可能にする任意の構造(複数可)を表すストレージデバイス204の例である。メモリ210は、ランダムアクセスメモリまたは任意の他の適切な揮発性もしくは不揮発性のストレージデバイス(複数可)を表すことができる。永続ストレージ212は、リードオンリメモリ、ハードドライブ、フラッシュメモリ、または光ディスクなどの1つ以上のコンポーネントまたはデバイスを含み、データのより長期の保存をサポートすることができる。
【0031】
通信ユニット206は、他のシステムまたはデバイスとの通信をサポートする。例えば、通信ユニット206は、有線または無線ネットワークまたは直接的な接続を介した通信を容易にするネットワークインタフェースカードまたは無線送受信機を含むことができる。通信ユニット206は、任意の適切な物理通信リンクまたは無線通信リンク(複数可)を介した通信をサポートすることができる。
【0032】
I/Oユニット208は、データの入力及び出力を可能にする。例えば、I/Oユニット208は、キーボード、マウス、キーパッド、タッチスクリーン、または他の適切な入力デバイスを介したユーザ入力のための接続を設けることができる。I/Oユニット208はまた、出力をディスプレイまたは他の適切な出力デバイスに送信することもできる。ただし、デバイス200がリモートでアクセス可能なサーバまたは他のデバイスを表しているときなどのように、デバイス200がローカルI/Oを要求しない場合には、I/Oユニット208を省略してもよいことに留意されたい。
【0033】
いくつかの実施形態では、処理デバイス202によって実行される命令は、上記の動作102~108を実施する命令を含む。したがって、例えば、処理デバイス202によって実行される命令は、処理デバイス202に、現在のシナリオに関する初期ポリシーを取得させ、現在のシナリオに類似する任意の先行のシナリオを識別させることができる。処理デバイス202によって実行される命令は、処理デバイス202に、類似の報酬関数を識別させ、現在のシナリオのための新しい報酬関数及び更新されたポリシーを生成させることもできる。更新されたポリシーをML/AIアルゴリズム112に提供して、現在のシナリオに対してML/AIアルゴリズム112によって選択された行動方針を識別することができる。更新されたポリシーを、任意の他の適切な手法で使用することもできる。
【0034】
図2は、類似のシナリオを使用する明示的な倫理的なマシンをサポートするデバイス200の一例を示しているが、
図2に様々な変更を加えることができる。例えば、コンピューティング及び通信デバイス及びシステムは、多種多様な構成で提供されており、
図2は、この開示をいずれかの特定のコンピューティングまたは通信デバイスまたはシステムに限定するものではない。
【0035】
図3は、本開示による類似のシナリオを使用する明示的な倫理的なマシンを提供するための単一エージェントアーキテクチャ300の例示的な使用を示す。ここでは単一エージェントアーキテクチャ300は、少なくとも1つのML/AIアルゴリズム112の使用をサポートするために、アーキテクチャ100の単一のインスタンスを使用する。
図3に示されるように、現在のシナリオに関する入力が、アーキテクチャ100の単一のインスタンス内のポリシー識別動作102に提供される。ここでの入力は、マルコフ決定過程(MDP
オリジナル)302aと、オリジナルの報酬関数(R
オリジナル)302bで表され得る、最適化のための1つまたは複数のパラメータの初期セットとを含む。入力は、任意の適切なソース(複数可)、例えばユーザから、任意の適切な方法で取得することができる。
【0036】
ポリシー識別動作102は、当該情報を含む初期ポリシーを類似識別動作104へ提供し、データベース110へアクセスして、現在のシナリオに類似している任意の先行のシナリオを識別する。類似識別動作104は、1つまたは複数の類似の先行のシナリオに関連する1つまたは複数のポリシーを表す1つまたは複数の類似のポリシー(π類似)304を出力することができる。上記のように、1つまたは複数の類似の先行のシナリオの識別は、任意の適切な方法で、例えば、現在のシナリオの情報と、先行のシナリオに関連する情報との統計的相関を介して、起こり得る。
【0037】
競合識別動作106は、1つまたは複数の類似ポリシー304が、オリジナルの報酬関数302bによって最適化されていない任意のパラメータを最適化しているかどうかを識別することができる。競合識別動作106は、1つまたは複数の類似ポリシー304が、オリジナルの報酬関数302bによって最適化されていない任意のパラメータを最適化しているかどうかを識別することができる。いくつかの実施形態では、競合識別動作106は、マルコフ決定プロセス302a及び1つまたは複数の類似ポリシー304を用いてIRLを実施することができ、これは、オリジナルの報酬関数302bによって最適化されている、または最適化されていない、類似の先行のシナリオと関連する任意のパラメータを識別する(またはその逆)。結果は、競合識別動作106から類似の報酬関数(R類似)306として出力され得る。
【0038】
報酬関数修正動作108は、オリジナルの報酬関数302bと、類似の報酬関数306との間の違いを調べる。これに基づいて、報酬関数修正動作108は、最適化のためにオリジナルの報酬関数302bに挿入することができる類似の先行のシナリオからの1つまたは複数のパラメータを決定する、及び/または報酬関数修正動作108は、オリジナルの報酬関数302bから削除することができる、オリジナルの報酬関数302bにおける1つまたは複数のパラメータを決定する。これは、現在のシナリオの報酬関数を修正することにより、現在のシナリオを先行のシナリオ(複数可)に類推するのに役立つ。報酬関数修正動作108は、このようにしてオリジナルの報酬関数302bを更新して、新しい報酬関数(R新)308を生成することができる。ポリシー識別動作102は、マルコフ決定過程302aと新たな報酬関数308とを組み合わせて、新たなポリシー(π新)310を生成することができ、この新たなポリシー310は(理想的には)、1つまたは複数の先行のシナリオからの1つまたは複数の類似物を組み込むことによって修正された初期ポリシーを表す。
【0039】
新たなポリシー310を、任意の適切な手法で使用することができる。例えば、新たなポリシー310は、プロセスの別の反復のために、ポリシー識別動作102から類似識別動作104に提供されてよい(ここで、次の反復におけるRオリジナルは、前の反復からのR新を表す)。新たなポリシー310を、その他の入力ポリシーについての類推を発見する際に使用するためにデータベース110に記憶することができる。新たなポリシー310をML/AIアルゴリズム112に供給することができ、それによって、ML/AIアルゴリズム112は、現在のシナリオに対する提案された行動方針を識別することができる。いくつかのケースでは、提案される行動過程を、人間の正当化による比較によって評価して、新たなポリシー310が、正しい理由(複数可)のために正しい行動過程を選択することを可能にするか否かを判定することができる。
【0040】
図3に示すシングルエージェントのアプローチは、以下の実施例のような任意の数の用途において使用することができる。以下の実施例は説明のためだけのものであり、本開示の範囲を以下に記載される特定の実施例、または実施例の種類に限定するものではないことに留意されたい。
【0041】
1つの用途では、ML/AIアルゴリズム112は、複数の患者のうちのどの患者が透析を受けるべきかを選択するように訓練され得る。アーキテクチャ300は、入力302a~302bとして、所定の領域で利用可能な透析装置の数のインジケーション、所定の領域で透析を受ける必要がある患者のリスト(人口統計学的な情報を含む)及び患者の年齢に基づいて選択を最適化すべきであるというインジケーションを受け取ることができる。統計的な相関または他の技術を使用して、アーキテクチャ300は、透析に関する患者を選択することが、腎臓移植用の患者を選択することと同様の特性を有し、腎臓移植用の患者を選択することに関連して先行のシナリオが定義されていることを決定することができる。腎臓移植のための患者の選択に関するポリシーを類似ポリシー304として選択することができ、アーキテクチャ300は、類似ポリシー304を分析し、類似ポリシー304が、オリジナルの報酬関数302bに含まれておらず、かつオリジナルの報酬関数302bによって最適化されていない2つのパラメータ(喫煙及び薬剤使用)を含んでいることを判定することができる。したがって、これらのパラメータは、類似の報酬関数306に含まれてよく、他のまたは追加のパラメータが含まれてよく、またはオリジナルの報酬関数302bからのいくつかの既存のパラメータが、類似の報酬関数306から除外されてよい。次いで、アーキテクチャ300は、オリジナルの報酬関数302b及び類似の報酬関数306に基づいて、例えば、新しい報酬関数308が類似ポリシー304からのパラメータ(喫煙及び薬剤使用)の一方または両方を含む場合、新しい報酬関数308を生成することができる。新しい報酬関数308は、新しいポリシー310を生成するために使用することができ、ML/AIアルゴリズム112は、複数の患者のうちのいずれが透析を受けるべきかの選択の問題に新しいポリシー310を適用することができる。ML/AIアルゴリズム112は、選択された患者が透析のために選択された理由の説明、例えば、類似ポリシー304が選択され、類似ポリシー304からの2つのパラメータが新たなポリシー310に含まれたことを示す情報を出力することによる説明も提供することができる。
【0042】
別の適用例によれば、ML/AIアルゴリズム112は、指定された領域内のどこに病院を構築すべきかを決定するように訓練されてよい。アーキテクチャ300は、入力302~302bとして、構築すべき病院の数のインジケーション、指定された領域の人口統計学的な情報、及び決定が母集団サイズに基づいて最適化されるべきであるというインジケーションを受け取ることができる。統計的な相関または他の技術を使用して、アーキテクチャ300は、どの病院が建設されるべきかを識別することが、どの学校が建設されるべきかを識別することと同様の特性を有しており、どの学校が建設されるべきかを識別することに関して先行のシナリオが定義されていることを決定することができる。学校がどこで建設されるべきかの識別に関するポリシーを、類似ポリシー304として選択することができ、アーキテクチャ300は、類似ポリシー304を分析し、類似ポリシー304が、オリジナルの報酬関数302bに含まれておらず、かつそれによって最適化されていない1つのパラメータ(他の街への接続性)を含んでいることを決定することができる。したがって、このパラメータは、類似の報酬関数306に含まれてよく、他のまたは追加のパラメータが含まれてよく、またはオリジナルの報酬関数302bからのいくつかの既存のパラメータが、類似の報酬関数306から除外されてよい。次いで、アーキテクチャ300は、オリジナルの報酬関数302b及び類似の報酬関数306に基づいて、例えば、新しい報酬関数308が類似ポリシー304からの新しいパラメータを含む場合、新しい報酬関数308を生成することができる。新しい報酬関数308を使用して、新しいポリシー310を生成することができ、ML/AIアルゴリズム112は、新しいポリシー310を、病院が構築される場所を識別する問題に適用することができる。ML/AIアルゴリズム112は、特定された病院の場所がなぜ選択されたかという理由の説明、例えば、類似ポリシー304が選択され、類似ポリシー304からのパラメータが新たなポリシー310に含まれたことを示す情報を出力することによる説明も提供することができる。
【0043】
図4は、本開示による類似のシナリオを使用する明示的な倫理的なマシンを提供するためのマルチエージェントアーキテクチャ400の例示的な使用を示す。ここでのマルチエージェントアーキテクチャ400は、少なくとも1つのML/AIアルゴリズム112の使用をサポートするために、アーキテクチャ100の複数のインスタンスを使用するが、アーキテクチャ100の複数のインスタンスは同じデータベース110を共有することもできる(しかしながら、これは必須ではないことに留意されたい)。アーキテクチャ100の異なるインスタンスは、タスクをどのように実行すべきかに関して異なる偏りまたは好みを有してもよい。
図4に示されるように、現在のシナリオに関する入力が、アーキテクチャ100の単一のインスタンスの各々のポリシー識別動作102に提供される。ここでの入力は、マルコフ決定過程402aと、オリジナルの報酬関数402bで表され得る、最適化のための1つまたは複数のパラメータの初期セットとを含む。入力は、任意の適切なソース(複数可)、例えばユーザから、任意の適切な方法で取得することができる。
【0044】
各々のポリシー識別動作102は、関連する類似識別動作104へこの情報を提供し、データベース110へアクセスして、現在のシナリオに類似している任意の先行のシナリオを識別する。各類似識別動作104によってアクセスされる先行のシナリオを、アーキテクチャ100のその特定のインスタンスのみに関連させることができ、または先行のシナリオをアーキテクチャ100の複数のインスタンスにわたって共有できることに留意されたい。各類似識別動作104は、1つまたは複数の類似の先行のシナリオに関連する1つまたは複数のポリシーを表す1つまたは複数の類似のポリシー404を出力することができる。上記のように、1つまたは複数の類似の先行のシナリオの識別は、任意の適切な方法で、例えば、現在のシナリオの情報と、先行のシナリオに関連する情報との統計的相関を介して、起こり得る。
【0045】
各競合識別動作106は、1つまたは複数の類似ポリシー404が、関連するオリジナルの報酬関数402bによって最適化されていない任意のパラメータを最適化しているかどうかを識別することができる。各競合識別動作106は、1つまたは複数の類似ポリシー404が、オリジナルの報酬関数402bによって最適化されていない任意のパラメータを最適化しているかどうかを識別することができる。いくつかの実施形態では、各競合識別動作106は、マルコフ決定プロセス402a及び1つまたは複数の類似ポリシー404を用いてIRLを実施することができ、これは、オリジナルの報酬関数402bによって最適化されている、または最適化されていない、類似の先行のシナリオと関連する任意のパラメータを識別する(またはその逆)。結果は、各競合識別動作106から類似の報酬関数406として出力され得る。各競合識別動作106は、それ自体の類似の報酬関数406を出力することができ、または複数の競合識別動作106は、共通の類似の報酬関数406を共有することができることに留意されたい。
【0046】
各報酬関数修正動作108は、オリジナルの報酬関数402bと、類似の報酬関数406との間の違いを調べる。これに基づいて、各報酬関数修正動作108は、最適化のためにオリジナルの報酬関数402bに挿入することができる類似の先行のシナリオからの1つまたは複数のパラメータを決定する、及び/または各報酬関数修正動作108は、オリジナルの報酬関数402bから削除することができる、オリジナルの報酬関数402bにおける1つまたは複数のパラメータを決定する。これは、各々の現在のシナリオの各報酬関数を修正することにより、現在のシナリオを先行のシナリオ(複数可)に類推するのに役立つ。各報酬関数修正動作108は、このようにしてオリジナルの報酬関数402bを更新して、新しい報酬関数408を生成することができる。各ポリシー識別動作102は、マルコフ決定過程402aと新たな報酬関数408とを組み合わせて、新たなポリシー(π新)410を生成することができ、これは(理想的には)、1つまたは複数の先行のシナリオからの1つまたは複数の類似物を組み込むことによって修正された初期ポリシーを表す。
【0047】
アーキテクチャ100の複数のインスタンスからの新たなポリシー410を評価動作412に供給することができ、これは、アーキテクチャ100の複数のインスタンスが、行動方針がどのように選択されるかに関してコンセンサスに達するかどうかを判定するために新たなポリシー410を評価する。本明細書におけるコンセンサスを、同一の行動方針を識別するアーキテクチャ100の全てのインスタンス410、同一の行動方針を識別するポリシー410を生成するアーキテクチャ100のインスタンスの大部分または他の指定された数/割合、または他の任意の適切な基準として定義することができる。アーキテクチャ100の複数のインスタンスが、場合によっては異なる理由から、同じ行動過程を選択するために使用されてよいことに注意されたい。コンセンサスが得られない場合、評価動作412は、アーキテクチャ100の1つ以上のインスタンスによって使用されるオリジナルの報酬関数402bのうちの1つ以上を調整することができ、プロセスを繰り返すことができる。コンセンサスが得られた場合には、新たなポリシー410が、ML/AIアルゴリズム(複数可)112に対するポリシー414の最後のセットとして使用され得る。
【0048】
新たなポリシー414を任意の適切な手法で使用することができる。例えば、新たなポリシー414は、プロセスの別の反復のために、ポリシー識別動作102から類似識別動作104へ提供されてもよい。新たなポリシー414を、その他の入力ポリシーについての類推を発見する際に使用するためにデータベース110に記憶することができる。新たなポリシー414をML/AIアルゴリズム(複数可)112に供給することができ、それによって、ML/AIアルゴリズム(複数可)112は、現在のシナリオに対する提案された行動方針を識別することができる。いくつかのケースでは、提案される行動過程を、人間の正当化による比較によって評価して、新たなポリシー414が正しい理由(複数可)のために正しい行動過程を選択することを可能にするか否かを判定することができる。
【0049】
図4に示すマルチエージェントのアプローチは、以下の実施例のような任意の数の用途において使用することができる。以下の実施例は説明のためだけのものであり、本開示の範囲を以下に記載される特定の実施例、または実施例の種類に限定するものではないことに留意されたい。
【0050】
1つの用途では、少なくとも1つのML/AIアルゴリズム112は、ミサイル防御システムを動作させ、ミサイル防御システムによって衝突及び破壊させる到来するミサイルを選択するように訓練可能である。異なる位置を到来するミサイルによって標的とし、各々の位置はアーキテクチャ100の固有のインスタンスを有することができる。アーキテクチャ400は、入力402a~402bとして、到来するミサイル数のインジケーションと、衝突させる到来するミサイルの選択が市民集団の保護のために最適化されるべきであることのインジケーションとを受信することができる。統計的な相関または他の技術を使用して、アーキテクチャ100の各インスタンスは、現在のシナリオに関連して別の先行のシナリオが定められたことを判別することができる。その先行のシナリオに関連するポリシーを類似ポリシー404として選択することができ、アーキテクチャ100の各インスタンスは、類似ポリシー404を分析し、類似ポリシー404が、そのオリジナルの報酬関数402bに含まれていない1つまたは複数のパラメータを含んでいることを判定することができる。これらのパラメータは、各々の類似の報酬関数406に含まれてよく、他のまたは追加のパラメータが含まれてよく、またはオリジナルの報酬関数402bからのいくつかの既存のパラメータが、関連付けられた類似の報酬関数406から除外されてよい。次いで、アーキテクチャ100の各インスタンスは、そのオリジナルの報酬関数402bに基づいて新しい報酬関数408を生成することができ、新しい報酬関数408を使用して、新しいポリシー410を生成することができ、新しいポリシー410を比較して、コンセンサスを探すことができる。コンセンサスが得られた場合、ML/AIアルゴリズム(複数可)112は、新たなポリシー410を、ポリシー414の最後のセットとして、どの到来するミサイルを衝突させるのかを選択する問題に適用することができる。コンセンサスが得られない場合、評価動作412は、1つ以上のオリジナルの報酬関数402bを調整し、コンセンサスが得られるまで(または何らかの他の指定された1または複数の基準が満たされるまで)このプロセスを繰り返すことができる。ML/AIアルゴリズム(複数可)112は、例えばプロセスを説明する適切な情報を出力することにより、選択された到来するミサイルが、なぜ衝突のために選択されたかの説明を提供することもできる。
【0051】
図3及び4には、類似のシナリオを使用する明示的な倫理的なマシンを提供するためのシングルエージェント及びマルチエージェントアーキテクチャ300、400の使用例が示されているが、
図3及び4については様々な変更を加えることができる。例えば、アーキテクチャ300または400のいずれかで使用される複数のデータベース110が存在してもよく、及び/または1つまたは複数のデータベース110は、アーキテクチャ100のインスタンス(複数可)を実装するデバイス(複数可)に対してローカルであってもよいし、リモートであってもよい。また、アーキテクチャ100の任意の適切な数のインスタンスが、マルチエージェントシステムで使用されてよく、アーキテクチャ100のインスタンスからの結果が、任意の他の適切な方法で組み合わせられてもよいし、そうでなければ使用されてもよい。
【0052】
図5は、本開示による類似のシナリオを使用する明示的な倫理的なマシンを提供するためのアーキテクチャで逆強化学習を使用するための例示的なアーキテクチャ500を示す。
図5に示されている技術500は、例えば、動作106により、類似のシナリオに基づいて報酬関数を精密化するために使用され得る。しかしながら、動作106が任意の他の適切な方法で実施されてもよいことに留意されたい。
【0053】
図5に示すように、技術500は、所定の時間にわたって発生するタスク502a~502nのシーケンスを含み、この場合、タスク502aが最初に発生し、他のタスク502b~502nが順次に発生する。各タスク502a~502nは、それぞれ、報酬関数504a~504nのバージョンに関連付けられており、報酬関数504a~504nは、経時的に変化する共通の報酬関数を表すことができる。
【0054】
ここでの報酬関数504a~504nの各バージョンは、それぞれ、タスク非依存部分506a~506nと、タスク依存部分508a~508nとを含むか、そうでなければ関連付けられている。報酬関数504a~504nのタスク非依存部分506a~506nは、実行されるタスクにかかわらず倫理的な境界を強化する報酬システムを定めるのを支援するのに使用することができる。報酬関数504a~504nのタスク依存部分508a~508nは、報酬システムの文脈的挙動を駆動する報酬システムを定めるのを助けるために使用することができる。各報酬関数504a~504nは、ここでは、結果510a~510nを生成するために使用することができ、これは、それぞれのタスク502a~502nに関連付けられたデータへの報酬関数504a~504nの適用を表す。各報酬関数504a~504nのタスク非依存部分506a~506nと、タスク依存部分508a~508nとを使用して、関連結果510a~510nを生成することができる。
【0055】
ここでのライン512は、時間の経過に伴ってタスク非依存部分506a~506nに発生し得る倫理的挙動の改善を定義している。これにより、例えば、漸進的な継承及び報酬の倫理的構成要素の改善が可能になり、より高いレベルの倫理的発展を達成することができる(例えば、コールバーグモデルの段階で上に移る)。ここでライン514は、時間の経過に伴ってタスク依存部分508a~508nに発生する可能性がある類推及び転移学習を定める。これによって例えば、データベース110を使用して上述した手法で起こり得る、経時的な学習を容易にするために、先行のシナリオと同様に使用することができる。先行のシナリオと類推することができれば、学習を強化して、ML/AIアルゴリズム(複数可)112の訓練要件を低減するのに役立ち得る。ここでベイジアン定式化は、論理的に健全な学習の枠組み及び不確実性の下での行動を提供することができ、矛盾する倫理的ノルム及び報酬に対するトレードオフ分析を可能にすることができる。
【0056】
図5は、類似のシナリオを使用する明示的な倫理的なマシンを提供するためのアーキテクチャにおいて逆強化学習を使用するための技術500の一例を示しているが、
図5には様々な変更が加えられてよい。例えば、報酬関数は、そのタスク非依存部分及び/またはそのタスク依存部分への変化に基づいて、時間と共に様々な方法で展開することができる。
【0057】
図6は、本開示による類似のシナリオを使用する明示的な倫理的なマシンを提供するための例示的な方法600を示す。説明を容易にするために、方法600は、
図2の少なくとも1つのデバイス200を使用して実装され得るアーキテクチャ100によって実行されるものとして説明される。しかし、方法600は、任意の適切なデバイス(複数可)によって、任意の適切なシステム(複数可)で実行されてよい。
【0058】
図6に示されているように、現在のシナリオ及び初期報酬関数を定める入力情報が、ステップ602で取得され、ステップ604では、現在のシナリオのための初期ポリシーを生成するために使用される。これは、例えば、処理デバイス202が、マルコフ決定過程及びオリジナルの報酬関数を規定する情報をユーザまたは他のソース(複数可)から受信するために、ポリシー識別動作102を実行することを含み得る。これは、マルコフ決定過程及びオリジナルの報酬関数を現在のシナリオの初期ポリシーとして使用するために、または現在のシナリオの初期ポリシーを生成するために、ポリシー識別動作102を実行する処理デバイス202を含むこともできる。オリジナルの報酬関数は、現在のシナリオのための行動過程を選択するときに、最適化されるべき1つまたは複数のパラメータを識別することができる。
【0059】
ステップ606において、現在のシナリオと類似する何らかの先行のシナリオをデータベースから検索し、ステップ608において、類似する各先行のシナリオに関連付けられた類似ポリシーを識別する。これは、例えば、処理デバイス202が、現在のシナリオに類似している何らかの先行のシナリオをデータベース110から検索するために類似識別動作104を実行することを含み得る。いくつかのケースでは、例えば、現在及び先行のシナリオのマルコフ決定プロセスと報酬関数との類似性に基づき、統計的に類似を判定することができる。このことにはまた、処理デバイス202が、類似識別動作104を実施して、識別された類似の先行シナリオのそれぞれに関連付けられたポリシー情報をデータベース110から抽出し、このポリシー情報を1つまたは複数の類似ポリシーとして使用することも含まれ得る。
【0060】
ステップ610において、逆強化学習が1つまたは複数の類似の先行のシナリオに関連付けられた1つまたは複数のポリシーに適用され、ステップ612において、IRL結果に基づいて類似の報酬関数が生成される。これは、例えば、処理デバイス202が競合識別動作106を実行することを含むことができ、処理デバイス202は、類似の報酬関数を識別するために、現在のシナリオに関するマルコフ決定処理と、類似のポリシーに関する情報とを使用することができる。類似の報酬関数は、オリジナルの報酬関数に含まれていない1つまたは複数のパラメータを含んでもよく、及び/または類似の報酬関数は、オリジナルの報酬関数に含まれている1つまたは複数のパラメータを省略してもよい。
【0061】
ステップ614において初期の報酬関数と、類似の報酬関数とが比較され、ステップ616において、現在のシナリオに対する新しい報酬関数が生成される。これは、例えば、処理デバイス202が、(i)オリジナルの報酬関数に含まれていない、類似の報酬関数の1つまたは複数のパラメータ、及び/または(ii)類似の報酬関数に含まれていない、オリジナルの報酬関数の1つまたは複数のパラメータを識別するために、オリジナルの報酬関数と類似の報酬関数の違いを識別する報酬関数修正動作108を実行することを含み得る。これはまた、処理デバイス202が、報酬関数修正動作108を実行して新しい報酬関数を生成することを含んでもよく、これは、修正されたものとして、(i)類似の報酬関数からのパラメータを少なくとも1つ含める、及び/または(ii)オリジナルの報酬関数から少なくとも1つのパラメータを除外するオリジナルの報酬関数を表すことができる。
【0062】
ステップ618において、新しい報酬関数に基づく新しいポリシーが取得される。これは、例えば、処理デバイス202が、現在のシナリオのマルコフ決定過程と、現在のシナリオの新しい報酬関数とを、現在のシナリオのための新しいポリシーとして使用するために、ポリシー識別動作102を実行することを含み得る。この時点で、任意選択的に、ステップ620においてプロセスを反復するか否かを判定してもよい。いくつかの場合において、ステップ620での判定は、それぞれがステップ602~618を実行する複数のエージェント(アーキテクチャ100の複数のインスタンス)が存在し、複数のエージェントから結果として得られるポリシーが適合しない場合に使用される。別のケースにおいては、ステップ620における決定が、新たなポリシーがプロセスの別の反復に供されるべきか否かを判定するために使用される。これにより、例えば、より多くのパラメータをポリシーに追加することができ、推論中に考慮することができるようになる。いかなる理由であっても、繰り返しが望まれるならば、プロセスはステップ602(または他の何らかのステップ)に戻って、1つまたは複数の動作を繰り返す。
【0063】
ステップ622において、ML/AIアルゴリズムを使用して、または何らかの方法で格納、出力、または使用されて、新たなポリシーを適用することができる。これは、例えば、処理デバイス202が、同じ処理デバイス202または異なる処理装置によって実行され得るML/AIアルゴリズム112に新しいポリシーを提供することを含み得る。これはまた、ML/AIアルゴリズム112が、現在のシナリオの結果として発生する選択された行動方針を識別するために新しいポリシーを使用することを含むことができる。ただし、新たなポリシーを、上述の種々の態様を含めた他の任意の適切な手法で、記憶、出力または使用することができることに留意されたい。
【0064】
図6は、類似のシナリオを使用する明示的な倫理的なマシンを提供する方法600の一例を示しているが、
図6に様々な変更を加えることができる。例えば、一連のステップとして示されているが、
図6の様々なステップが重複する場合、並行して行われる場合、異なる順序で行われる場合、または任意の回数で行われる場合がある。
【0065】
いくつかの実施形態では、本特許文書に記載されている種々の関数は、コンピュータ可読プログラムコードから形成され、コンピュータ可読媒体に組み込まれているコンピュータプログラムによって、実現またはサポートされる。「コンピュータ可読プログラムコード」という語句は、ソースコード、オブジェクトコード及び実行可能コードを含むあらゆる種類のコンピュータコードを含む。「コンピュータ可読媒体」という語句には、コンピュータによってアクセス可能な任意の種類の媒体、例えば、読み取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、ハードディスクドライブ(HDD)、コンパクトディスク(CD)、デジタルビデオディスク(DVD)、または任意の他の種類のメモリが含まれる。「非一時的」コンピュータ可読媒体は、一時的な電気または他の信号を伝送する有線、無線、光または他の通信リンクを除外する。非一時的なコンピュータ可読媒体は、データが永続的に保存される媒体と、データが保存され、後に上書きされ得る、書き換え可能な光ディスクまたは消去可能なストレージデバイスなどの媒体を含む。
【0066】
本特許文書全体を通して使用される特定の単語及び語句の定義を挙げることは有利であると考えられる。「アプリケーション」及び「プログラム」という用語は、適切なコンピュータコード(ソースコード、オブジェクトコードまたは実行可能コードを含む)に実装するように適合された、1つ以上のコンピュータプログラム、ソフトウェアコンポーネント、命令のセット、手続き、機能、オブジェクト、クラス、インスタンス、関連データ、またはそれらの一部を指す。「通信する」という用語及びその派生語は、直接的及び間接的の通信の両方を包含する。「含む(include)」及び「備える(comprise)」という用語ならびにそれらの派生語は、制限のない包含を意味する。「または」という用語は、「及び/または」の意味も含んでいる。「関連する(associated with)」なる語句、及びその派生語は、含む、中に含まれる、相互接続する、格納する、中に格納される、接続する、結合する、通信可能である、協働する、インタリーブ、並列する、近接する、接合する、有する、属性を有する、これらに関連するなどを意味し得る。「のうちの少なくとも1つ」という語句は、アイテムのリストと共に使用する場合、リストに挙げられたアイテムのうちの1つまたは複数の異なる組合せが使用されてもよく、リストにおける1つのアイテムのみが必要とされることを意味する。例えば、「A、B、及びCのうちの少なくとも1つ」は、以下の、A、B、C、A及びB、A及びC、B及びC、ならびにA及びB及びCのいずれかの組み合わせを含む。
【0067】
本開示の記載は、いずれかの特定の要素、ステップまたは機能が特許請求の範囲に含まれなければならない必須のまたは重要な要素であることを暗示するものとして解釈されるべきではない。特許された主題の範囲は、特許許可された請求項によってのみ定められるものである。さらに、いずれの請求項も、添付の特許請求の範囲または請求項の構成要素のいずれに関しても、その後に機能を識別する特定の語句が続く、正確な語句「のための手段(means for)」または「のためのステップ(step for)」が特定の請求項において明示的に使用されない限り、米国特許法第112条(f)が援用されるものではない。請求項における「機構」、「モジュール」、「デバイス」、「ユニット」、「構成要素」、「要素」、「装置」、「機械」、「システム」、「プロセッサ」または「制御装置」のような用語の使用(ただし限定されない)は、請求項自体の特徴によってさらに変更または強化される、関連分野の当業者に公知の構造を指すと理解され、このことを意図しており、米国特許法第112条(f)が発動されることを意図していない。
【0068】
本開示は、特定の実施形態及び一般的に関連する方法を説明してきたが、これらの実施形態及び方法の変更及び置換は、当業者には明らかであろう。したがって、例示的な実施形態の上記の説明は、本開示を定義または拘束するものではない。以下の特許請求の範囲によって定義されるような本開示の趣旨及び範囲から逸脱することなく、他の変更、置き換え、及び変更も可能である。
【国際調査報告】