IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7552887適応型自律交渉方法、および使用するシステム
<>
  • 特許-適応型自律交渉方法、および使用するシステム 図1
  • 特許-適応型自律交渉方法、および使用するシステム 図2
  • 特許-適応型自律交渉方法、および使用するシステム 図3
  • 特許-適応型自律交渉方法、および使用するシステム 図4
  • 特許-適応型自律交渉方法、および使用するシステム 図5
  • 特許-適応型自律交渉方法、および使用するシステム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-09
(45)【発行日】2024-09-18
(54)【発明の名称】適応型自律交渉方法、および使用するシステム
(51)【国際特許分類】
   G06N 20/00 20190101AFI20240910BHJP
   G06N 3/092 20230101ALI20240910BHJP
【FI】
G06N20/00
G06N3/092
【請求項の数】 8
(21)【出願番号】P 2023520298
(86)(22)【出願日】2021-10-07
(65)【公表番号】
(43)【公表日】2023-10-17
(86)【国際出願番号】 JP2021037095
(87)【国際公開番号】W WO2022075398
(87)【国際公開日】2022-04-14
【審査請求日】2023-04-03
(31)【優先権主張番号】63/088,452
(32)【優先日】2020-10-07
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】17/184,590
(32)【優先日】2021-02-25
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100149548
【弁理士】
【氏名又は名称】松沼 泰史
(74)【代理人】
【識別番号】100181135
【弁理士】
【氏名又は名称】橋本 隆史
(72)【発明者】
【氏名】セングプタ アヤン
(72)【発明者】
【氏名】モハメド ヤセル ファルコオスマン
【審査官】北川 純次
(56)【参考文献】
【文献】特開2004-265404(JP,A)
【文献】特表2002-525763(JP,A)
【文献】特開2020-091736(JP,A)
【文献】特表2015-511345(JP,A)
【文献】欧州特許出願公開第3594891(EP,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
G06Q 30/00
(57)【特許請求の範囲】
【請求項1】
受信機を使用して、第1の提案を受信することと、
プロセッサを使用して、前記受信された第1の提案に基づいて、メモリに記憶されている複数の交渉人のうちの第1の交渉人を自動的に識別することと、
前記識別された第1の交渉人に基づいて、前記メモリに記憶されている複数の方針から第1の方針を自動的に選択することと、
前記選択された第1の方針に基づいて、前記選択された第1の方針に対して逆写像を実施することを含む、前記第1の提案に応答するための行動を自動的に選択することと、
送信機を使用して、前記選択された行動を自動的に送信することと
前記メモリに複数の交渉からの結果を記憶することと、
前記記憶された結果の拒否行動の数が閾値以上であるかどうかを決定することと、
前記拒否行動の数が前記閾値以上であることに応答して、新しい方針を前記複数の方針に追加すること、または新しい交渉人を前記複数の交渉人に追加することを推奨することと
を含む、適応型自律交渉方法。
【請求項2】
前記複数の交渉人のうちの対応する交渉人に基づいて、深層強化学習(DRL)アルゴリズムを使用して前記複数の方針の各々を訓練することをさらに含む、請求項1に記載の方法。
【請求項3】
第2の提案を受信することと、
前記受信された第2の提案に基づいて前記複数の交渉人のうちの第2の交渉人を自動的に識別することと、
前記第2の交渉人が前記第1の交渉人と同じ交渉人であることに応答して、前記第1の方針を維持することと、
前記第2の交渉人が前記第1の交渉人とは異なるという決定に応答して、前記識別された第2の交渉人に基づいて前記複数の方針のうちの第2の方針を自動的に選択することと
をさらに含む、請求項1に記載の方法。
【請求項4】
受信機を使用して、第1の提案を受信することと、
プロセッサを使用して、前記受信された第1の提案に基づいて、メモリに記憶されている複数の交渉人のうちの第1の交渉人を自動的に識別することと、
前記識別された第1の交渉人に基づいて、前記メモリに記憶されている複数の方針から第1の方針を自動的に選択することと、
前記選択された第1の方針に基づいて、前記選択された第1の方針に対して逆写像を実施することを含む、前記第1の提案に応答するための行動を自動的に選択することと、
送信機を使用して、前記選択された行動を自動的に送信することと、
新しい交渉人を受信することと、
前記受信された新しい交渉人に基づいて新しい方針を訓練することであって、前記新しい方針を訓練することは、DRLアルゴリズムを使用して前記新しい方針を訓練することを含むことと、
シミュレートされた交渉を使用して、前記訓練された新しい方針を前記複数の方針のうちの少なくとも1つの方針と比較することと、
前記シミュレートされた交渉における前記訓練された新しい方針の結果が前記少なくとも1つの方針よりも優れているという決定に応答して、前記新しい交渉人を前記複数の交渉人に追加することと
む、適応型自律交渉方法。
【請求項5】
新しい方針を受信することと、
シミュレートされた交渉を使用して、前記新しい方針を前記複数の方針のうちの少なくとも1つの方針と比較することと、
前記シミュレートされた交渉における前記新しい方針の結果が前記少なくとも1つの方針よりも優れているという決定に応答して、前記新しい方針を前記複数の方針に追加することと
をさらに含む、請求項1に記載の方法。
【請求項6】
第1の提案を受信するように構成された受信機と、
複数の交渉人および複数の方針を記憶するように構成され、命令を記憶するようにさらに構成された非一時的コンピュータ可読媒体と、
前記受信された第1の提案に基づいて前記複数の交渉人のうちの第1の交渉人を自動的に識別し、
前記識別された第1の交渉人に基づいて複数の方針から第1の方針を自動的に選択し、
前記選択された第1の方針に基づいて前記第1の提案に応答するための行動を自動的に選択し、
前記選択された行動を送信するように送信機に自動的に命令する
ための前記命令を実行するように構成されたプロセッサと
を備え
前記プロセッサは、
複数の交渉からの結果を記憶するように前記非一時的コンピュータ可読媒体に命令し、
前記記憶された結果の拒否行動の数が閾値以上であるかどうかを決定し、
前記拒否行動の数が前記閾値以上であることに応答して、新しい方針を前記複数の方針に追加するため、または新しい交渉人を前記複数の交渉人に追加するための推奨を生成する
ための前記命令を実行するように構成される、適応型自律交渉システム。
【請求項7】
前記受信機は、第2の提案を受信するようにさらに構成され、前記プロセッサは、
前記受信された第2の提案に基づいて前記複数の交渉人のうちの第2の交渉人を自動的に識別し、
前記第2の交渉人が前記第1の交渉人と同じ交渉人であることに応答して、前記第1の方針を維持し、
前記第2の交渉人が前記第1の交渉人とは異なるという決定に応答して、前記識別された第2の交渉人に基づいて前記複数の方針のうちの第2の方針を自動的に選択する
ための前記命令を実行するようにさらに構成される、請求項に記載のシステム。
【請求項8】
受信機を使用して、第1の提案を受信することと、
前記受信された第1の提案に基づいてメモリから複数の交渉人を自動的に識別することと、
前記識別された複数の交渉人に基づいて前記メモリから複数の方針を自動的に選択することと、
前記識別された複数の交渉人に基づいて前記選択された複数の方針の各々について複数の重みを自動的に選択することと、
前記選択された複数の方針に基づいて、数の重みを使用して前記選択された複数の方針に対して逆写像の重み付き和を実施することを含む、前記第1の提案に応答するための行動を自動的に選択することと、
送信機を使用して、前記選択された行動を自動的に送信することと
を含む、適応型自律交渉方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、適応型自律交渉方法、およびその方法を使用するシステムに関する。
【背景技術】
【0002】
インターネットを使用した商取引の増加に伴い、自律交渉も増加している。自律交渉は、当事者間の合意に達することを試みるために、人間の交渉人(nagotiator)の代わりに人工知能(AI)を利用する。AIは、相手からの提案を評価し、次いで提案に対する応答を決定するために使用される。場合によっては、応答は、逆提案である。場合によっては、応答は、提案の受諾である。場合によっては、応答は、交渉を終了することである。
【0003】
いくつかのアプローチでは、AI交渉人は、交渉すべき問題、相手からの第1の提案、およびユーザの優先順位、すなわち、自己効用値に基づいて選択される。選択されたAI交渉人は、交渉プロセス全体を通して維持される。選択されたAI交渉人は、相手が方針を変更するかどうかにかかわらず一定のままである。
【0004】
いくつかのアプローチでは、オンライン交渉方法を使用して、同じ相手との複数の交渉に基づいて方針のグループから方針を識別する。特定の相手に対して最良の結果を得る方針を識別するために、複数の交渉が使用される。各相手について、方針のグループからのどの方針が各相手と最もうまくいくかを識別するために、追加の交渉が使用される。
【発明の概要】
【0005】
第1の例示的な態様によれば、適応型自律交渉の方法が提供される。方法は、受信機を使用して、第1の提案を受信することと、プロセッサを使用して、前記受信された第1の提案に基づいて、メモリに記憶されている複数の交渉人のうちの第1の交渉人を自動的に識別することと、前記識別された第1の交渉人に基づいて、前記メモリに記憶されている複数の方針から第1の方針を自動的に選択することと、前記選択された第1の方針に基づいて、前記選択された第1の方針に対して逆写像を実施することを含む、前記第1の提案に応答するための行動を自動的に選択することと、送信機を使用して、前記選択された行動を自動的に送信することとを含む。
【0006】
第2の例示的な態様によれば、適応型自律交渉システムが提供される。システムは、第1の提案を受信するように構成された受信機と、複数の交渉人および複数の方針を記憶するように構成され、命令を記憶するようにさらに構成された非一時的コンピュータ可読媒体と、前記受信された第1の提案に基づいて前記複数の交渉人のうちの第1の交渉人を自動的に識別し、前記識別された第1の交渉人に基づいて複数の方針から第1の方針を自動的に選択し、前記選択された第1の方針に基づいて前記第1の提案に応答するための行動を自動的に選択し、前記選択された行動を送信するように送信機に自動的に命令するための前記命令を実行するように構成されたプロセッサとを備える。
【0007】
第3の例示的な態様によれば、適応型自律交渉の方法が提供される。方法は、受信機を使用して、第1の提案を受信することと、前記受信された第1の提案に基づいてメモリから複数の交渉人を自動的に識別することと、前記識別された複数の交渉人に基づいて前記メモリから複数の方針を自動的に選択することと、前記識別された複数の交渉人に基づいて前記選択された複数の方針の各々について複数の重みを自動的に選択することと、前記選択された複数の方針に基づいて、前記計算された複数の重みを使用して前記選択された複数の方針に対して逆写像の重み付き和を実施することを含む、前記第1の提案に応答するための行動を自動的に選択することと、送信機を使用して、前記選択された行動を自動的に送信することとを含む。
【0008】
本開示の態様は、添付の図と併せて読むと、以下の詳細な説明から最もよく理解される。業界の標準的な慣行に従って、様々な特徴は縮尺通りに描かれていないことに留意されたい。実際、様々な特徴の寸法は、説明を明確にするために任意に拡大または縮小されることがある。
【図面の簡単な説明】
【0009】
図1】いくつかの実施形態による、適応型自律交渉方法を使用する交渉の概略図である。
図2】いくつかの実施形態による、適応型自律交渉方法を使用する交渉の方法のフローチャートである。
図3】いくつかの実施形態による、適応型自律交渉システムの概略図である。
図4】いくつかの実施形態による、新しい交渉人または新しい方針を適応型自律交渉システムに追加する方法のフローチャートである。
図5】いくつかの実施形態による、適応型自律交渉システムの概略図である。
図6】いくつかの実施形態による、適応型自律交渉のためのシステムのブロック図である。
【発明を実施するための形態】
【0010】
以下の開示は、提供される主題の異なる特徴を実施するための多くの異なる実施形態または例を提供する。以下、本開示を簡略化するために、構成要素、値、動作、材料、配置などの具体的な例を説明する。もちろん、これらは単なる例であり、限定することを意図するものではない。他の構成要素、値、動作、材料、配置なども考えられる。例えば、以下の説明における第2の特徴の上側または上の第1の特徴の形成は、第1および第2の特徴が直接接触して形成される実施形態を含むことができ、第1および第2の特徴が直接接触しないように、追加の特徴が第1および第2の特徴の間に形成され得る実施形態も含むことができる。加えて、本開示は、様々な例において参照番号および/または文字を繰り返すことができる。この繰り返しは、単純化および明確化のためのものであり、それ自体は、説明した様々な実施形態および/または構成の間の関係を規定するものではない。
【0011】
自律交渉人(autonomous nagotiator)の利益を最大化するために、自律交渉人は、相手からの方針の変更に適応する能力を有するべきである。例えば、他のアプローチでは、交渉中に相手からの提案がより積極的になった場合、交渉全体を通して同じ方針を維持すると、結果が悪くなるか、または完全に合意に達することができないリスクが高まる。人工知能(AI)を使用して相手からの新しい提案に応答するための方針を適応させることによって、肯定的な結果を得て合意に達する可能性が高まる。いくつかの実施形態では、AIは、相手が方針を変更したかどうかを決定するために交渉中に1つまたは複数の以前の提案を考慮し、次に応答方針を変更するかどうかを決定するようにAIを促す。AIを使用することによって、交渉は、ユーザによる干渉または対話なしに進めることができる。すなわち、いくつかの実施形態では、すべての動作は、ユーザからの入力なしに自動的に実施される。
【0012】
自律交渉人の利益はまた、AIが新しい方針および交渉人を考慮し、それらを相手からの提案に応答するための利用可能な方針および交渉人のグループに組み込むことを可能にすることによって最大化される。利用可能な方針および交渉人が静的である他のアプローチでは、AIは、利用可能な方針のいずれも相手の提案に応答するのに適していない場合、交渉から肯定的な結果を達成することができない可能性がある。新しい方針または交渉人の望ましさを評価する能力は、相手も進展するので、AIが肯定的な結果を出し続けるのに役立つ。
【0013】
本出願では、交渉人は、複数構成要素である。交渉人は、内部に方針を含む規則ベースの要素である。交渉人は、相手をモデル化するために使用可能である。すなわち、交渉人は、相手についての優先順位、すなわち、効用値を一致させようとするために使用される。対照的に、方針は、単一の構成要素である。方針は、相手からの提案にどのように応答するかの決定である。
【0014】
図1は、いくつかの実施形態による、適応型自律交渉方法を使用する交渉100の概略図である。交渉100は、第1の方針112を含む第1の交渉人110を含む。交渉110は、第2の方針122を含む第2の交渉人120を含む。プロトコル130は、第1の交渉人110と第2の交渉人120との間の交渉のスタイルを決定するために使用される。ドメイン140は、交渉100において解決すべき問題を含む。交渉100は、個別交渉である。しかし、本開示は、バイラテラルシナリオのみに限定されない。
【0015】
第1の交渉人110は、解決すべき問題についての優先順位を決定するためのAIアルゴリズムを含む。これらの優先順位は、解決すべき問題の各々に関連付けられた効用値に取り込まれる。その第1の交渉人110は、交渉100からの可能な結果に優先順位を付けるためにこれらの効用値を使用する。第1の交渉人110は、プロトコル130を使用して第2の交渉人120と通信することができる。いくつかの実施形態では、第1の交渉人110は、無線で通信することができる。いくつかの実施形態では、第1の交渉人110は、有線接続を使用して通信することができる。いくつかの実施形態では、第1の交渉人110は、インターネットを介して通信することができる。第1の交渉人110は、提案、逆提案、受諾、または拒否を第2の交渉人120に送信することができる。第1の交渉人110は自律的であり、すなわち、ユーザ入力または制御なしで動作する。
【0016】
第1の方針112は、第1の交渉人110によって使用された効用値およびアルゴリズムに基づいて第1の交渉人110によって決定された行動である。いくつかの実施形態では、第1の方針112は、提案、逆提案、受諾、または拒否を含む。いくつかの実施形態では、第1の方針112は、第2の交渉人120から受信された新しい情報に基づいて交渉100中に変更する。
【0017】
第2の交渉人120は、解決すべき問題について、効用値を使用して取り込まれた優先順位を決定するためのAIアルゴリズムを含む。第2の交渉人120は、プロトコル130を使用して第1の交渉人110と通信することができる。いくつかの実施形態では、第2の交渉人120は、無線で通信することができる。いくつかの実施形態では、第2の交渉人120は、有線接続を使用して通信することができる。いくつかの実施形態では、第2の交渉人120は、インターネットを介して通信することができる。第2の交渉人120は、提案、逆提案、受諾、または拒否を第1の交渉人110に送信することができる。いくつかの実施形態では、第1の交渉人110についてのハードウェアは、第2の交渉人120についてのハードウェアと同じである。いくつかの実施形態では、第1の交渉人110についてのハードウェアは、第2の交渉人120についてのハードウェアとは異なる。いくつかの実施形態では、第1の交渉人110に実装されたアルゴリズムは、第2の交渉人120に実装されたアルゴリズムと同じである。いくつかの実施形態では、第1の交渉人110に実装されたアルゴリズムは、第2の交渉人120に実装されたアルゴリズムとは異なる。いくつかの実施形態では、第2の交渉人120は、自律的である。いくつかの実施形態では、第2の交渉人120は、ユーザ入力に基づいて制御される。
【0018】
第2の方針122は、第2の交渉人120によって使用された効用値およびアルゴリズムに基づいて第2の交渉人120によって決定された行動である。いくつかの実施形態では、第2の方針122は、提案、逆提案、受諾、または拒否を含む。いくつかの実施形態では、第2の方針122は、第1の交渉人110から受信された新しい情報に基づいて交渉100中に変更する。
【0019】
プロトコル130は、交渉100のための規則である。例えば、交互提案プロトコル(alternating offers protocol)では、交渉人、例えば、第1の交渉人110および第2の交渉人120は、交互に提案を交換する。いくつかの実施形態では、プロトコル130は、交互提案プロトコルである。いくつかの実施形態では、プロトコル130は、時間ベースの提案などの異なるプロトコル、または他の適切なプロトコルである。プロトコル130は、交渉100を開始する前に確立され、それにより第1の交渉人110および第2の交渉人120は、提案または返信がいつ送信されるべきか、および送信されるべきかどうかを知る。いくつかの実施形態では、プロトコル130は、ステップ、例えば、提案の最大数を含む。いくつかの実施形態では、プロトコル130は、交渉100のための制限時間を含む。
【0020】
ドメイン140は、解決すべき問題を含む。例えば、解決すべき問題は、いくつかの実施形態では、価格、数量、ブランド名などを含む。いくつかの実施形態では、ドメイン140は、単一の問題を含む。いくつかの実施形態では、ドメイン140は、複数の問題を含む。第1の交渉人110および第2の交渉人120の各々は、ドメイン140を知り、効用値を解決すべき問題の組み合わせに帰属させる。例えば、ドメイン140が価格およびブランド名を含み、価格およびブランド名の各々に対して2つの選択肢がある場合、第1の交渉人110は、4つの異なる効用値、すなわち、可能な組み合わせごとに1つの効用値を有する。いくつかの実施形態では、第1の交渉人110および第2の交渉人120は、すべての可能な組み合わせよりも少ない数の効用値を有する。いくつかの実施形態では、第1の交渉人110によって割り当てられた効用値は、第1および第2の交渉人が異なる優先順位を有するため、第2の交渉人120によって割り当てられた効用値とは異なる。
【0021】
図2は、いくつかの実施形態による、適応型自律交渉方法を使用する交渉の方法200のフローチャートである。方法200は、交渉の一方側から提示される。例えば、いくつかの実施形態では、方法200は、第1の交渉人110(図1)に関連付けられた動作を説明する。
【0022】
方法200は、提案が受信される動作210を含む。いくつかの実施形態では、提案は、無線で受信される。いくつかの実施形態では、提案は、有線接続によって受信される。いくつかの実施形態では、提案は、インターネットを介して受信される。いくつかの実施形態では、提案は、交渉における初期提案である。いくつかの実施形態では、提案は、以前の提案に対する逆提案である。いくつかの実施形態では、方法200を実施するためのシステムは、提案を受信するための受信機を含む。方法200は、受信された提案が以前の提案の拒否または受諾ではない方式で説明される。当業者は、本出願がそのような提案に限定されないことを理解するであろう。
【0023】
提案が受信された後、方法200は、相手が交渉人の集合に関して分類される動作220に進む。交渉人の集合は、方法200を実施するAIに知られている交渉人を含む。分類の目的は、交渉人の集合からのどの交渉人が相手に最も類似するかを決定することである。AIは、交渉人の集合における交渉人の各々についての確率を出力し、相手に最も類似する交渉人であるとして最も高い確率を有する交渉人を選択する。
【0024】
相手は、受信された提案に基づいて分類される。いくつかの実施形態では、相手は、受信された提案および少なくとも1つの以前の提案に基づいて分類される。いくつかの実施形態では、相手は、受信された提案および以前の4つの提案に基づいて分類される。いくつかの実施形態では、相手は、受信された提案および相手からのすべての以前の提案に基づいて分類される。分類において考慮される提案の数が増加するにつれて、分類の精度が向上する。しかし、分類において考慮される数提案が増加するにつれて、AIに対する算出負荷も増加する。いくつかの実施形態では、ユーザは、相手の分類中に考慮すべき提案の最大数を事前定義する。
【0025】
例えば、いくつかの実施形態では、3つの既知の交渉人および3つの既知の方針を有するシステムにおいて、合計で最大10個の提案が交渉において許容され、考慮すべき提案の最大数が5に設定され、分類器は、3つの確率、すなわち、第1の既知の交渉人についてはp1、第2の既知の交渉人についてはp2、および第3の既知の交渉人についてはp3を決定する。分類器は、以下の入力に基づいて確率を決定する。
【0026】
【数1】
【0027】
ここで、Usは、方法200を実施するシステムの効用関数であり、woは、相手からの提案であり、tは、現在の提案の数である。すなわち、woは、最新の提案であり、wot-4は、最新の提案の前の4つの提案である。システムの効用関数Usを相手の提案に適用することによって、システムは、相手によって使用される1つまたは複数の交渉方針をより正確に予測するために、どの既知の交渉人が相手に最も類似するかを識別することができる。当業者は、効用関数Usが現在の交渉のドメインに加えて異なるドメインに適用可能であることを認識するであろう。
【0028】
動作230において、方針が相手の分類に基づいて識別される。方針は、動作220において決定された確率に基づいて識別される。いくつかの実施形態では、各方針は、単一の交渉人にリンクされ、最も高い確率を有する交渉人にリンクされた方針が動作230において選択される。いくつかの実施形態では、方針は、複数の交渉人にリンクされ、その方針は、最も高い確率を有するリンクされた交渉人のいずれかに応答して選択される。いくつかの実施形態では、複数の方針が単一の交渉人にリンクされ、最も高い確率を有する単一の交渉人に応答して、複数の方針から一つの方針が選択される。いくつかの実施形態では、方針は、複数の方針の各々の効用値に基づいて複数の方針から選択される。
【0029】
方針の各々は、深層強化学習(DRL)アルゴリズムを使用して訓練される。DRLアルゴリズムは、対応する交渉人、すなわち、動作220において相手に最も類似すると決定された交渉人に対して使用するための各方針を訓練するのに役立つ。いくつかの実施形態では、方針DRLアルゴリズムは、交渉の状態も考慮する。交渉の状態は、方法200において考慮される提案が交渉までどの程度進んでいるかの指標である。交渉の状態はまた、現在の交渉中に以前に交換された提案を考慮する。例えば、プロトコルが提案のステップの最大数を示す場合、交渉の状態は、いくつかの実施形態では、現在の提案の数と提案の最大数との間の比である。プロトコルが交渉の最大持続時間を示すいくつかの実施形態では、交渉の状態は、交渉の現在の持続時間と最大持続時間との間の比である。
【0030】
3つの既知の交渉人および3つの既知の方針の例に戻り、上記から、いくつかの実施形態では、方針についてのDRLアルゴリズムに対する入力は、以下の通りである。
【0031】
【数2】
【0032】
ここで、tは、現在の提案の数であり、Tは、許容される最大合計提案であり、Usは、方法200を実施するシステムの効用関数であり、woは、相手からの提案であり、wsは、方法200を実施するシステムからの提案である。いくつかの実施形態では、DRLアルゴリズムは、交渉の状態、相手からの最新の提案、ならびに相手およびシステムの各々からの前の2つの提案を考慮する。この情報を使用することによって、方針は、相手の提案方針の変更に応答し、相手がシステムからの提案にどのように応答しているかを決定するように適応される。いくつかの実施形態では、各方針は、単一の交渉人にリンクされる。
【0033】
各方針に関連付けられた行動、すなわち、応答は、行動の効用値に基づいて決定される。いくつかの実施形態では、行動の効用値は、行動空間を使用して決定される。
【0034】
【数3】
【0035】
ここで、urは、留保効用値(reservation utility value)であり、ust+1は、行動の効用値である。留保効用値は、合意に達しない場合のシステムに対する値である。この基準を使用すると、方法200は、行われた任意の行動の値が、交渉が失敗した場合の値よりも大きいことを保証するのに役立つ。
【0036】
いくつかの実施形態では、動作230は、方法200の反復ごとに、すなわち、相手からの提案ごとに応答して実施されない。例えば、いくつかの実施形態では、動作220で決定された交渉人が以前の反復から変更されていない場合、以前の反復からの方針が維持され、動作230は省略される。いくつかの実施形態では、動作230は、設定された反復の数の後に、動作220において識別された交渉人の変更に応答して、または交渉の状態に基づいて実施される。
【0037】
動作240において、識別された方針に基づく行動が選択される。行動は、方針の逆写像によって決定される。いくつかの実施形態では、行動は、提案の受諾、逆提案、または提案の拒否、および交渉の終了である。
【0038】
動作250において、行動は、相手に送信される。いくつかの実施形態では、行動は、無線通信を使用して相手に送信される。いくつかの実施形態では、行動は、有線接続を使用して相手に送信される。いくつかの実施形態では、行動は、インターネットを介して相手に送信される。いくつかの実施形態では、相手への行動の送信の確認は、ユーザに送られる。いくつかの実施形態では、確認は、ユーザに送られた視覚または音声通知などの通知である。いくつかの実施形態では、行動の送信は、相手(または相手のユーザ)の視覚または音声通知などの通知を促す。いくつかの実施形態では、方法200を実施するためのシステムは、行動を相手に送信するための送信機を含む。
【0039】
方法200は、任意選択の動作260~295を含む。任意選択の動作260~295は、方法200を実施するシステムの結果を改善するのを助けるために、新しい方針または交渉人が推奨されるかどうかを識別するのに役立つ。いくつかの実施形態では、任意選択の動作260~295は省略される。
【0040】
任意選択の動作260において、選択された行動が最終行動であるかどうかに関する決定が行われる。最終行動は、交渉が終了した場合の提案の受諾または提案の拒否である。選択された行動が最終行動ではないという決定に応答して、方法200は動作210に戻り、相手からの次の提案を待つ。選択された動作が最終行動であるという決定に応答して、方法200は、動作270に進む。
【0041】
任意選択の動作270において、最終行動は、メモリ、例えば、メモリ604(図4)に記憶される。メモリは、ユーザが交渉の結果を検討することができるように、ユーザによってアクセス可能である。最終行動が受諾であるいくつかの実施形態では、解決すべき問題に対する値は、最終行動と共に記憶される。最終行動が拒否であるいくつかの実施形態では、拒否前の最後の行動もまた、最終行動と共に記憶される。いくつかの実施形態では、ユーザが交渉の履歴を検討することを可能にするために、交渉のための行動の履歴が最終行動と共にメモリに記憶される。
【0042】
任意選択の動作275において、ユーザは、交渉の結果が通知される。いくつかの実施形態では、ユーザは、視覚または音声通知を使用して通知される。いくつかの実施形態では、交渉の結果をユーザに通知するために、アラートが生成されてユーザのモバイル端末に送信される。
【0043】
任意選択の動作280において、記憶された拒否行動の数が閾値以上であるかどうかに関する決定が行われる。いくつかの実施形態では、閾値は、事前定義された数である。いくつかの実施形態では、事前定義された数は、ユーザによって提供される。いくつかの実施形態では、閾値は、提案の拒否をもたらす事前定義された数の連続した交渉である。いくつかの実施形態では、事前定義された数は、ユーザによって提供される。いくつかの実施形態では、閾値は、事前定義された期間内に拒否をもたらす事前定義された数の交渉である。いくつかの実施形態では、事前定義された数は、ユーザによって提供される。いくつかの実施形態では、事前定義された期間は、ユーザによって提供される。いくつかの実施形態では、事前定義された期間は、1日、1週間、または別の適切な期間である。交渉が多数の失敗、すなわち、提案の拒否をもたらしているかどうかを決定することによって、方法200は、現在の交渉人および方針が許容可能な結果を出しているかどうかを識別するのに役立つ。記憶された拒否の数が閾値以上であることに応答して、方法は、任意選択の動作290に進む。記憶された拒否の数が閾値未満であることに応答して、方法200は、任意選択の動作295に進む。
【0044】
任意選択の動作290では、新しい方針および/または交渉人を求めるための推奨が生成される。いくつかの実施形態では、方法200を実施するシステムは、データベースを自動的にチェックし、任意の新しい方針または交渉人が潜在的な包含に利用可能であるかどうかを決定する。新しい方針または交渉人の包含の詳細は、以下の図4および図5を参照して説明される。いくつかの実施形態では、システムへの潜在的な包含に利用可能な新しい方針または交渉人がないという決定に応答して、方法200は、新しい方針または交渉人が開発されることを推奨するようにユーザに通知する。いくつかの実施形態では、ユーザは、視覚または音声通知を使用して通知される。いくつかの実施形態では、新しい方針または交渉人の開発を促すようにユーザに通知するために、アラートが生成されてユーザのモバイル端末に送信される。いくつかの実施形態では、方法200を実施するシステムは、新しい方針または交渉人が利用可能であるかどうかにかかわらず、新しい方針または交渉人の開発を推奨するようにユーザに促す。いくつかの実施形態では、方法200を実施するシステムは、新しい方針または交渉人の検索においてデータベースがアクセスされたときにユーザに通知する。
【0045】
任意選択の動作295において、新しい交渉が開始される。いくつかの実施形態では、新しい交渉は、前の交渉と同じ相手との交渉である。いくつかの実施形態では、新しい交渉は、前の交渉とは異なる相手との交渉である。
【0046】
いくつかの実施形態では、方法200は、少なくとも1つの追加の動作を含む。例えば、いくつかの実施形態では、方法200は、交渉の状態が閾値状態に達したことに応答して、通知をユーザに送信することを含む。いくつかの実施形態では、方法200のうちの少なくとも1つの動作は省略される。例えば、いくつかの実施形態では、動作275は省略され、交渉の結果に関してユーザの結果は通知されない。いくつかの実施形態では、方法200の動作の順序は変更する。例えば、いくつかの実施形態では、動作275は、動作270の前に行われる。いくつかの実施形態では、方法200のうちの少なくとも2つの動作は、同時に実施される。例えば、いくつかの実施形態では、動作270および275は、同時に実施される。
【0047】
図3は、いくつかの実施形態による、適応型自律交渉システム300の概略図である。いくつかの実施形態では、システム300は、方法200(図2)を実施するために使用可能である。いくつかの実施形態では、システム300は、方法200とは異なる方法を実施するために使用可能である。システム300は、計算機端末310を含む。計算機端末310は、少なくともプロセッサおよびメモリを含む。いくつかの実施形態では、計算機端末310は、単一の端末である。いくつかの実施形態では、計算機端末310は、複数の端末を含む。いくつかの実施形態では、計算機端末310は、端末間でおよび/または相手との間で情報を送受信するための受信機、送信機、および/またはトランシーバを含む。いくつかの実施形態では、計算機端末310は、無線通信が可能である。いくつかの実施形態では、計算機端末310は、有線通信が可能である。いくつかの実施形態では、計算機端末310は、インターネットを介して通信が可能である。
【0048】
計算機端末は、相手から受信された提案を分析するように構成された分類器320を含む。いくつかの実施形態では、相手からの提案は、計算機端末310内の受信機によって受信され、分析のために分類器320に転送される。
【0049】
計算機端末310は、交渉人の集合、すなわち、交渉人322a、交渉人322b、および交渉人322nをさらに含み、これらはまとめて交渉人322と呼ばれる。いくつかの実施形態では、交渉人322は、計算機端末310のメモリに記憶される。いくつかの実施形態では、交渉人322は、計算機端末310によってアクセス可能な別々の端末に記憶される。
【0050】
分類器320は、どの交渉人322が相手に最も類似するかを決定するために、提案を分析するように構成される。いくつかの実施形態では、分類器320は、方法200(図2)の動作220を実施するように構成される。いくつかの実施形態では、分類器320は、動作220とは異なるプロセスを使用して、どの交渉人322が相手に最も類似するかを決定する。
【0051】
計算機端末310は、切替器(switcher)330をさらに含む。切替器330は、分類器320の出力を受信するように構成される。切替器330は、相手からの受信された提案に応答するための方針を決定するために、分類器320からの出力を使用するように構成される。
【0052】
計算機端末310は、方針の集合、すなわち、方針332a、方針332b、および方針332nをさらに含み、これらはまとめて方針332と呼ばれる。いくつかの実施形態では、方針332は、計算機端末310のメモリに記憶される。いくつかの実施形態では、方針332は、計算機端末310によってアクセス可能な別々の端末に記憶される。システム300では、方針332の各々は、図3の破線によって示されるように、交渉人322のうちの対応する1つに関連付けられる。いくつかの実施形態では、方針332のうちの少なくとも1つは、複数の交渉人322にリンクされる。いくつかの実施形態では、交渉人322のうちの少なくとも1つは、方針332のうちの複数にリンクされる。
【0053】
切替器330は、相手からの受信された提案に応答する際にどの方針332を使用するかを決定するために、分類器320からの出力を分析するように構成される。いくつかの実施形態では、切替器330は、方法200(図2)の動作230を実施するように構成される。いくつかの実施形態では、切替器330は、動作230とは異なるプロセスを使用して、相手からの受信された提案に応答するためにどの方針332を使用するかを決定する。
【0054】
切替器330はまた、方針のうちの選択された1つに基づいて相手からの提案に応答するための行動を決定するように構成される。いくつかの実施形態では、切替器330は、方法200(図2)の動作240を実施するように構成される。いくつかの実施形態では、切替器330は、動作240とは異なるプロセスを使用して行動を決定するように構成される。
【0055】
切替器330は、方針332のうちの選択された1つに基づいて決定された行動を出力するように構成される。いくつかの実施形態では、切替器330は、行動を相手に送信するための送信機に接続される。いくつかの実施形態では、切替器330は、方法200(図2)の動作250を実施するように構成される。いくつかの実施形態では、切替器330は、動作250とは異なるプロセスを使用して行動を送信するように構成される。
【0056】
図4は、いくつかの実施形態による、新しい交渉人または新しい方針を適応型自律交渉システムに追加する方法400のフローチャートである。いくつかの実施形態では、方法400は、方法200(図2)の動作290に従って新しい方針または交渉人を評価するために使用される。いくつかの実施形態では、方法400は、方法200とは別々の実施が可能である。いくつかの実施形態では、方法400と方法200(図2)の両方を実施するために同じシステムが使用可能である。
【0057】
動作410において、新しい方針または交渉人が受信される。いくつかの実施形態では、新しい方針または交渉人は、ユーザから受信される。いくつかの実施形態では、新しい方針または交渉人は、データベースからアクセスされる。いくつかの実施形態では、新しい方針または交渉人は、無線通信を介して受信される。いくつかの実施形態では、新しい方針または交渉人は、有線通信を介して受信される。いくつかの実施形態では、新しい方針または交渉人は、インターネットを介して受信される。
【0058】
いくつかの実施形態では、動作410は、方法200(図2)の動作290に応答して開始される。いくつかの実施形態では、動作410は、ユーザからの入力に応答して開始される。いくつかの実施形態では、動作410は、方法400を実施するためのシステムによって自動的に開始される。いくつかの実施形態では、動作410は、システムの動作の予め設定された持続時間の後に自動的に開始される。いくつかの実施形態では、予め設定された持続時間は、ユーザによって決定される。いくつかの実施形態では、動作410は、所定の数の交渉後に自動的に開始される。いくつかの実施形態では、ユーザは、所定の数の交渉を決定する。いくつかの実施形態では、動作410は、利用可能な新しい方針または交渉の検出に応答して自動的に開始される。いくつかの実施形態では、方法400を実施するためのシステムは、新しい方針または交渉人が利用可能になったときに外部システムから通知を受信する。
【0059】
動作420において、新しい方針または交渉人が新しい交渉人であるかどうかに関する決定が行われる。いくつかの実施形態では、決定は、新しい方針または交渉人が複数の構成要素であるかどうかに基づいて行われる。いくつかの実施形態では、決定は、新しい方針または交渉人内に記憶されたデータに基づいて行われる。新しい方針または交渉人が交渉人であるという決定に応答して、方法400は、動作430に進む。新しい方針または交渉人が方針であるという決定に応答して、方法400は、動作440に進む。
【0060】
動作430において、新しい方針が新しい交渉人のために訓練される。いくつかの実施形態では、新しい方針は、上述のDRL訓練と同様に、DRLアルゴリズムを使用して訓練される。いくつかの実施形態では、新しい方針は、異なるアルゴリズムを使用して訓練される。動作430の出力は、訓練された方針である。
【0061】
動作440において、新しい方針が所定の条件を満たすかどうかに関する決定が行われる。いくつかの実施形態では、所定の条件は、ユーザによって設定される。いくつかの実施形態では、所定の条件は、新しい方針が方法400を実施するシステム内の少なくとも1つの他の方針よりも優れた結果を出すかどうかである。いくつかの実施形態では、決定は、結果を出すために新しい方針ベースの訓練データを使用して交渉をシミュレートすることを含む。次いで、シミュレートされた交渉からの結果は、方法400を実施するためのシステム内の少なくとも1つの方針からの結果と比較される。新しい方針を使用したシミュレートされた交渉からの結果が優れた結果を出す場合、新しい方針は、方法400を実施するためのシステムに含まれる。いくつかの実施形態では、結果の優位性は、シミュレートされた交渉の最終決定の効用値に基づいて決定される。
【0062】
新しい方針が条件を満たさないという決定に応答して、方法400は、動作450に進む。新しい方針が条件を満たすという決定に応答して、方法400は、動作460に進む。
【0063】
動作450において、新しい方針または交渉人は拒否され、方法400を実施するためのシステムに含まれない。いくつかの実施形態では、方法400を実施するためのシステムは、新しい方針または交渉人の拒否に応答してユーザに通知する。いくつかの実施形態では、ユーザは、視覚または音声通知を使用して通知される。いくつかの実施形態では、新しい方針または交渉人の検討を促すようにユーザに通知するために、アラートが生成されてユーザのモバイル端末に送信される。いくつかの実施形態では、通知は、シミュレートされた交渉の結果に関する情報を含む。
【0064】
動作460において、方法400を実施するためのシステムは、新しい方針または交渉人を含むように更新される。いくつかの実施形態では、更新は、システムに新しい方針または交渉人を記憶することを含む。いくつかの実施形態では、更新は、システムによってアクセス可能なデータベースなどの外部端末に新しい方針または交渉人を記憶することを含む。
【0065】
動作470において、方法400を実施するためのシステムの分類器および/または切替器が更新される。分類器と切替器は両方とも、新しい交渉人の包含に応答して更新される。切替器は、新しい方針の包含に応答して更新される。いくつかの実施形態では、新しい交渉人が導入される場合、動作430において生成された方針に対応する方針も導入される。いくつかの実施形態では、更新は、新しい方針を少なくとも1つの既存の交渉人にリンクすることを含む。いくつかの実施形態では、更新は、新しい交渉人を少なくとも1つの既存の方針にリンクすることを含む。動作470に続いて、新しい方針または交渉人は、将来の交渉中に使用可能である。
【0066】
いくつかの実施形態では、方法400は、少なくとも1つの追加の動作を含む。例えば、いくつかの実施形態では、方法400は、動作440において方針が条件を満たすことに応答して通知をユーザに送信することを含む。いくつかの実施形態では、方法400のうちの少なくとも1つの動作は省略される。例えば、いくつかの実施形態では、動作440は省略され、新しい方針または交渉人はシステムに自動的に含まれる。いくつかの実施形態では、方法400の動作の順序は変更する。例えば、いくつかの実施形態では、動作470は、動作460の前に行われる。いくつかの実施形態では、方法400の少なくとも2つの動作は、同時に実施される。例えば、いくつかの実施形態では、動作460および470は、同時に実施される。
【0067】
図5は、いくつかの実施形態による、適応型自律交渉システム500の概略図である。システム500は、システム300(図3)と同様である。システム300と比較して、システム500は、新しい交渉人510と、新しい方針520と、リビューア(reviewer)530とを含む。いくつかの実施形態では、システム500は、方法200(図2)および/または方法400(図4)を実施するために使用可能である。いくつかの実施形態では、システム500は、方法200または方法400とは異なる方法を実施するために使用可能である。いくつかの実施形態では、システム500は、新しい交渉人510または新しい方針520のうちの一方のみを含む。
【0068】
新しい交渉人510および/または新しい方針520は、計算機端末310によってアクセス可能である。いくつかの実施形態では、新しい交渉人510および/または新しい方針520は、計算機端末310内に記憶される。いくつかの実施形態では、新しい交渉人510および/または新しい方針520は、計算機端末310によってアクセス可能なデータベースなどの外部端末に記憶される。
【0069】
リビューア530は、新しい交渉人510および/または新しい方針520が計算機端末310に含まれるべきかどうかを決定するために使用可能である。いくつかの実施形態では、リビューア530は、方法400(図4)の動作420、430、440、または450のうちの少なくとも1つを実施する。いくつかの実施形態では、リビューア530は、計算機端末310の一部である。いくつかの実施形態では、リビューア530は、計算機端末310とは別々である。
【0070】
図6は、いくつかの実施形態による、適応型自律交渉のためのシステム600のブロック図である。システム600は、ハードウェアプロセッサ602と、コンピュータプログラムコード606、すなわち、実行可能命令の集合で符号化された、すなわち、それらを記憶している非一時的コンピュータ可読記憶媒体604とを含む。コンピュータ可読記憶媒体604はまた、データベースなどの外部端末とインターフェースするための命令607で符号化される。プロセッサ602は、バス608を介してコンピュータ可読記憶媒体604に電気的に結合される。プロセッサ602はまた、バス608によってI/Oインターフェース610に電気的に結合される。ネットワークインターフェース612はまた、バス608を介してプロセッサ602に電気的に接続される。ネットワークインターフェース612は、プロセッサ602およびコンピュータ可読記憶媒体604がネットワーク614を介して外部要素に接続することが可能であるように、ネットワーク614に接続される。プロセッサ602は、方法200(図2)または方法400(図4)で説明した動作の一部またはすべてを実施するためにシステム600を使用可能にするために、コンピュータ可読記憶媒体604に符号化されたコンピュータプログラムコード606を実行するように構成される。いくつかの実施形態では、システム600は、システム300(図3)および/またはシステム500(図5)として使用可能である。
【0071】
いくつかの実施形態では、プロセッサ602は、中央処理装置(CPU)、マルチプロセッサ、分散処理システム、特定用途向け集積回路(ASIC)、および/または適切な処理ユニットである。
【0072】
いくつかの実施形態では、コンピュータ可読記憶媒体604は、電子、磁気、光学、電磁、赤外線、および/または半導体システム(または装置もしくは端末)である。例えば、コンピュータ可読記憶媒体604は、半導体もしくはソリッドステートメモリ、磁気テープ、リムーバブルコンピュータディスケット、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、剛性磁気ディスク、および/または光ディスクを含む。光ディスクを使用するいくつかの実施形態では、コンピュータ可読記憶媒体604は、コンパクトディスク読み出し専用メモリ(CD-ROM)、コンパクトディスク読み取り/書き込み(CD-R/W)、および/またはデジタルビデオディスク(DVD)を含む。
【0073】
いくつかの実施形態では、記憶媒体604は、システム600に方法200または方法400を実施させるように構成されたコンピュータプログラムコード606を記憶する。いくつかの実施形態では、記憶媒体604はまた、方法200もしくは400を実施するために必要な情報、ならびに交渉人パラメータ616、方針パラメータ618、リビューアパラメータ620、条件パラメータ622、閾値パラメータ624、および/または方法200もしくは400の動作を実施するための実行可能命令の集合など、方法200もしくは400を実施する間に生成された情報を記憶する。
【0074】
いくつかの実施形態では、記憶媒体604は、外部端末とインターフェースするための命令607を記憶する。命令607は、プロセッサ602が外部端末と通信して方法200または方法400を効果的に実施することを可能にする。
【0075】
システム600は、I/Oインターフェース610を含む。I/Oインターフェース510は、外部回路に結合される。いくつかの実施形態では、I/Oインターフェース610は、情報およびコマンドをプロセッサ602に通信するためのキーボード、キーパッド、マウス、トラックボール、トラックパッド、および/またはカーソル方向キーを含む。
【0076】
システム600はまた、プロセッサ602に結合されたネットワークインターフェース612を含む。ネットワークインターフェース612は、システム600が、1つまたは複数の他のコンピュータシステムが接続されるネットワーク614と通信することを可能にする。ネットワークインターフェース612は、BLUETOOTH(登録商標)、WIFI、WIMAX、GPRS、もしくはWCDMA(登録商標)などの無線ネットワークインターフェース、またはETHERNET、USB、もしくはIEEE-1394などの有線ネットワークインターフェースを含む。いくつかの実施形態では、方法200または400は、2つ以上のシステム600で実施され、情報は、ネットワーク614を介して異なるシステム600間で交換される。
【0077】
システム600は、I/Oインターフェース610および/またはネットワークインターフェース612を通じて交渉人に関する情報を受信するように構成される。情報は、システム600に包含するための交渉人を決定するために、バス608を介してプロセッサ602に転送される。次いで、交渉人は、交渉人パラメータ616としてコンピュータ可読媒体604に記憶される。システム600は、I/Oインターフェース610および/またはネットワークインターフェース612を通じて方針に関する情報を受信するように構成される。情報は、システム600に包含するための方針を決定するために、バス608を介してプロセッサ602に転送される。次いで、方針は、方針パラメータ618としてコンピュータ可読媒体604に記憶される。システム600は、I/Oインターフェース610および/またはネットワークインターフェース612を通じてリビューアに関する情報を受信するように構成される。情報は、システム600に包含するためのリビューアを実装するために、バス608を介してプロセッサ602に転送される。次いで、リビューア情報は、リビューアパラメータ620としてコンピュータ可読媒体604に記憶される。システム600は、I/Oインターフェース610および/またはネットワークインターフェース612を通じて、システム600に新しい方針または交渉人を含めるための条件に関する情報を受信するように構成される。情報は、バス608を介してプロセッサ602に転送される。次いで、条件は、条件パラメータ622としてコンピュータ可読媒体604に記憶される。システム600は、I/Oインターフェース610および/またはネットワークインターフェース612を通じて、新しい方針または新しい交渉人の追加を推奨するかどうかを決定するための閾値に関する情報を受信するように構成される。情報は、バス608を介してプロセッサ602に転送される。次いで、閾値情報は、閾値パラメータ624としてコンピュータ可読媒体604に記憶される。
【0078】
本明細書の一態様は、適応型自律交渉の方法に関する。方法は、受信機を使用して、第1の提案を受信することを含む。方法は、プロセッサを使用して、受信された第1の提案に基づいて、メモリに記憶されている複数の交渉人のうちの第1の交渉人を自動的に識別することをさらに含む。方法は、識別された第1の交渉人に基づいて、メモリに記憶されている複数の方針から第1の方針を自動的に選択することをさらに含む。方法は、選択された第1の方針に基づいて、選択された第1の方針に対して逆写像を実施することを含む、第1の提案に応答するための行動を自動的に選択することをさらに含む。方法は、送信機を使用して、選択された行動を自動的に送信することをさらに含む。いくつかの実施形態では、方法は、複数の交渉人のうちの対応する交渉人に基づいて、深層強化学習(DRL)アルゴリズムを使用して複数の方針の各々を訓練することをさらに含む。いくつかの実施形態では、方法は、第2の提案を受信することと、受信された第2の提案に基づいて複数の交渉人のうちの第2の交渉人を自動的に識別することと、第2の交渉人が第1の交渉人と同じ交渉人であることに応答して、第1の方針を維持することと、第2の交渉人が第1の交渉人とは異なるという決定に応答して、識別された第2の交渉人に基づいて複数の方針のうちの第2の方針を自動的に選択することとをさらに含む。いくつかの実施形態では、方法は、メモリに複数の交渉からの結果を記憶することと、記憶された結果の拒否行動の数が閾値以上であるかどうかを決定することと、拒否行動の数が閾値以上であることに応答して、新しい方針を複数の方針に追加すること、または新しい交渉人を複数の交渉人に追加することを推奨することとをさらに含む。いくつかの実施形態では、方法は、新しい交渉人を受信することと、受信された新しい交渉人に基づいて新しい方針を訓練することであって、新しい方針を訓練することは、DRLアルゴリズムを使用して新しい方針を訓練することを含むことと、シミュレートされた交渉を使用して、訓練された新しい方針を複数の方針のうちの少なくとも1つの方針と比較することと、シミュレートされた交渉における訓練された新しい方針の結果が少なくとも1つの方針よりも優れているという決定に応答して、新しい交渉人を複数の交渉人に追加することとをさらに含む。いくつかの実施形態では、方法は、新しい方針を受信することと、シミュレートされた交渉を使用して、新しい方針を複数の方針のうちの少なくとも1つの方針と比較することと、シミュレートされた交渉における新しい方針の結果が少なくとも1つの方針よりも優れているという決定に応答して、新しい方針を複数の方針に追加することとをさらに含む。
【0079】
本明細書の一態様は、適応型自律交渉システムに関する。システムは、第1の提案を受信するように構成された受信機を含む。システムは、複数の交渉人および複数の方針を記憶するように構成され、命令を記憶するようにさらに構成された非一時的コンピュータ可読媒体をさらに含む。システムは、プロセッサをさらに含む。プロセッサは、受信された第1の提案に基づいて複数の交渉人のうちの第1の交渉人を自動的に識別し、識別された第1の交渉人に基づいて複数の方針から第1の方針を自動的に選択し、選択された第1の方針に基づいて第1の提案に応答するための行動を自動的に選択し、選択された行動を送信するように送信機に自動的に命令するための命令を実行するように構成される。いくつかの実施形態では、受信機は、第2の提案を受信するようにさらに構成され、プロセッサは、受信された第2の提案に基づいて複数の交渉人のうちの第2の交渉人を自動的に識別し、第2の交渉人が第1の交渉人と同じ交渉人であることに応答して、第1の方針を維持し、第2の交渉人が第1の交渉人とは異なるという決定に応答して、識別された第2の交渉人に基づいて複数の方針のうちの第2の方針を自動的に選択するための命令を実行するようにさらに構成される。いくつかの実施形態では、プロセッサは、複数の交渉からの結果を記憶するように非一時的コンピュータ可読媒体に命令し、記憶された結果の拒否行動の数が閾値以上であるかどうかを決定し、拒否行動の数が閾値以上であることに応答して、新しい方針を複数の方針に追加するため、または新しい交渉人を複数の交渉人に追加するための推奨を生成するための命令を実行するように構成される。いくつかの実施形態では、受信機は、新しい交渉人を受信するように構成され、プロセッサは、受信された新しい交渉人に基づいて新しい方針を訓練し、シミュレートされた交渉を使用して、訓練された新しい方針を複数の方針のうちの少なくとも1つの方針と比較し、シミュレートされた交渉における訓練された新しい方針の結果が少なくとも1つの方針よりも優れているという決定に応答して、新しい交渉人を複数の交渉人に追加するための命令を実行するようにさらに構成される。
【0080】
本明細書の一態様は、適応型自律交渉の方法に関する。方法は、受信機を使用して、第1の提案を受信することを含む。方法は、受信された第1の提案に基づいてメモリから複数の交渉人を自動的に識別することをさらに含む。方法は、識別された複数の交渉人に基づいてメモリから複数の方針を自動的に選択することをさらに含む。方法は、識別された複数の交渉人に基づいて選択された複数の方針の各々について複数の重みを自動的に選択することをさらに含む。方法は、選択された複数の方針に基づいて、計算された複数の重みを使用して選択された複数の方針に対して逆写像の重み付き和を実施することを含む、第1の提案に応答するための行動を自動的に選択することをさらに含む。方法は、送信機を使用して、選択された行動を自動的に送信することをさらに含む。いくつかの実施形態では、複数の交渉人を自動的に識別することは、確率を識別された複数の交渉人の各交渉人に割り当てることを含む。いくつかの実施形態では、複数の方針を自動的に選択することは、識別された複数の交渉人の各対応する交渉人の確率に基づいて複数の方針を自動的に選択することを含む。いくつかの実施形態では、方法は、第2の提案を受信することと、受信された第2の提案に基づいてメモリから第2の複数の交渉人を自動的に識別することと、第2の複数の交渉人が識別された複数の交渉人に等しいことに応答して、選択された複数の方針を維持することと、第2の複数の交渉人が識別された複数の交渉人とは異なるという決定に応答して、第2の複数の交渉人に基づいて第2の複数の方針を自動的に選択することとをさらに含む。いくつかの実施形態では、方法は、深層強化学習(DRL)アルゴリズムを使用して交渉方針を訓練することと、交渉の状態を使用してDRLアルゴリズムを訓練することとをさらに含む。いくつかの実施形態では、交渉の状態は、考慮される第1の提案または以前に受信された提案の少なくとも1つが交渉までどの程度進んでいるかに基づく。いくつかの実施形態では、方法は、行動の送信の確認を相手に送ることであって、確認は、視覚または音声通知を含む通知であることをさらに含む。いくつかの実施形態では、方法は、メモリに複数の交渉からの結果を記憶することと、記憶された結果の拒否行動の数が閾値以上であるかどうかを決定することと、拒否行動の数が閾値以上であることに応答して、新しい方針を複数の方針に追加すること、または新しい交渉人をメモリに追加することを推奨することとをさらに含む。いくつかの実施形態では、方法は、新しい交渉人を受信することと、受信された新しい交渉人に基づいて新しい方針を訓練することであって、新しい方針を訓練することは、DRLアルゴリズムを使用して新しい方針を訓練することを含むことと、シミュレートされた交渉を使用して、訓練された新しい方針を複数の方針のうちの少なくとも1つの方針と比較することと、シミュレートされた交渉における訓練された新しい方針の結果が少なくとも1つの方針よりも優れているという決定に応答して、新しい交渉人をメモリに追加することとをさらに含む。いくつかの実施形態では、方法は、新しい方針を受信することと、シミュレートされた交渉を使用して、新しい方針を複数の方針のうちの少なくとも1つの方針と比較することと、シミュレートされた交渉における新しい方針の結果が少なくとも1つの方針よりも優れているという決定に応答して、新しい方針をメモリに追加することとをさらに含む。
【0081】
上記は、当業者が本開示の態様をよりよく理解することができるように、いくつかの実施形態の特徴を概説している。当業者は、本明細書に導入された実施形態と同じ目的を実行し、かつ/または同じ利点を達成するための他のプロセスおよび構造を設計または修正するための基礎として本開示を容易に使用することができることを理解するべきである。当業者はまた、そのような同等の構成が本開示の精神および範囲から逸脱するものではなく、本開示の精神および範囲から逸脱することなく本明細書において様々な変更、置換、および改変を行うことができることを認識するべきである。
【0082】
また、上記の実施形態の一部またはすべては、以下の付記のようにも記載され得るが、これらに限定されない。
【0083】
(付記1)
受信機を使用して、第1の提案を受信することと、
プロセッサを使用して、前記受信された第1の提案に基づいて、メモリに記憶されている複数の交渉人のうちの第1の交渉人を自動的に識別することと、
前記識別された第1の交渉人に基づいて、前記メモリに記憶されている複数の方針から第1の方針を自動的に選択することと、
前記選択された第1の方針に基づいて、前記選択された第1の方針に対して逆写像を実施することを含む、前記第1の提案に応答するための行動を自動的に選択することと、
送信機を使用して、前記選択された行動を自動的に送信することと
を含む、適応型自律交渉方法。
【0084】
(付記2)
前記複数の交渉人のうちの対応する交渉人に基づいて、深層強化学習(DRL)アルゴリズムを使用して前記複数の方針の各々を訓練することをさらに含む、付記1に記載の方法。
【0085】
(付記3)
第2の提案を受信することと、
前記受信された第2の提案に基づいて前記複数の交渉人のうちの第2の交渉人を自動的に識別することと、
前記第2の交渉人が前記第1の交渉人と同じ交渉人であることに応答して、前記第1の方針を維持することと、
前記第2の交渉人が前記第1の交渉人とは異なるという決定に応答して、前記識別された第2の交渉人に基づいて前記複数の方針のうちの第2の方針を自動的に選択することと
をさらに含む、付記1に記載の方法。
【0086】
(付記4)
前記メモリに複数の交渉からの結果を記憶することと、
前記記憶された結果の拒否行動の数が閾値以上であるかどうかを決定することと、
前記拒否行動の数が前記閾値以上であることに応答して、新しい方針を前記複数の方針に追加すること、または新しい交渉人を前記複数の交渉人に追加することを推奨することと
をさらに含む、付記1に記載の方法。
【0087】
(付記5)
新しい交渉人を受信することと、
前記受信された新しい交渉人に基づいて新しい方針を訓練することであって、前記新しい方針を訓練することは、DRLアルゴリズムを使用して前記新しい方針を訓練することを含むことと、
シミュレートされた交渉を使用して、前記訓練された新しい方針を前記複数の方針のうちの少なくとも1つの方針と比較することと、
前記シミュレートされた交渉における前記訓練された新しい方針の結果が前記少なくとも1つの方針よりも優れているという決定に応答して、前記新しい交渉人を前記複数の交渉人に追加することと
をさらに含む、付記1に記載の方法。
【0088】
(付記6)
新しい方針を受信することと、
シミュレートされた交渉を使用して、前記新しい方針を前記複数の方針のうちの少なくとも1つの方針と比較することと、
前記シミュレートされた交渉における前記新しい方針の結果が前記少なくとも1つの方針よりも優れているという決定に応答して、前記新しい方針を前記複数の方針に追加することと
をさらに含む、付記1に記載の方法。
【0089】
(付記7)
第1の提案を受信するように構成された受信機と、
複数の交渉人および複数の方針を記憶するように構成され、命令を記憶するようにさらに構成された非一時的コンピュータ可読媒体と、
前記受信された第1の提案に基づいて前記複数の交渉人のうちの第1の交渉人を自動的に識別し、
前記識別された第1の交渉人に基づいて複数の方針から第1の方針を自動的に選択し、
前記選択された第1の方針に基づいて前記第1の提案に応答するための行動を自動的に選択し、
前記選択された行動を送信するように送信機に自動的に命令する
ための前記命令を実行するように構成されたプロセッサと
を備える、適応型自律交渉システム。
【0090】
(付記8)
前記受信機は、第2の提案を受信するようにさらに構成され、前記プロセッサは、
前記受信された第2の提案に基づいて前記複数の交渉人のうちの第2の交渉人を自動的に識別し、
前記第2の交渉人が前記第1の交渉人と同じ交渉人であることに応答して、前記第1の方針を維持し、
前記第2の交渉人が前記第1の交渉人とは異なるという決定に応答して、前記識別された第2の交渉人に基づいて前記複数の方針のうちの第2の方針を自動的に選択する
ための前記命令を実行するようにさらに構成される、付記7に記載のシステム。
【0091】
(付記9)
前記プロセッサは、
複数の交渉からの結果を記憶するように前記非一時的コンピュータ可読媒体に命令し、
前記記憶された結果の拒否行動の数が閾値以上であるかどうかを決定し、
前記拒否行動の数が前記閾値以上であることに応答して、新しい方針を前記複数の方針に追加するため、または新しい交渉人を前記複数の交渉人に追加するための推奨を生成する
ための前記命令を実行するように構成される、付記7に記載のシステム。
【0092】
(付記10)
前記受信機は、新しい交渉人を受信するように構成され、前記プロセッサは、
前記受信された新しい交渉人に基づいて新しい方針を訓練し、
シミュレートされた交渉を使用して、前記訓練された新しい方針を前記複数の方針のうちの少なくとも1つの方針と比較し、
前記シミュレートされた交渉における前記訓練された新しい方針の結果が前記少なくとも1つの方針よりも優れているという決定に応答して、前記新しい交渉人を前記複数の交渉人に追加する
ための前記命令を実行するようにさらに構成される、付記7に記載のシステム。
【0093】
(付記11)
受信機を使用して、第1の提案を受信することと、
前記受信された第1の提案に基づいてメモリから複数の交渉人を自動的に識別することと、
前記識別された複数の交渉人に基づいて前記メモリから複数の方針を自動的に選択することと、
前記識別された複数の交渉人に基づいて前記選択された複数の方針の各々について複数の重みを自動的に選択することと、
前記選択された複数の方針に基づいて、前記計算された複数の重みを使用して前記選択された複数の方針に対して逆写像の重み付き和を実施することを含む、前記第1の提案に応答するための行動を自動的に選択することと、
送信機を使用して、前記選択された行動を自動的に送信することと
を含む、適応型自律交渉方法。
【0094】
(付記12)
前記複数の交渉人を自動的に識別することは、確率を前記識別された複数の交渉人の各交渉人に割り当てることを含む、付記11に記載の方法。
【0095】
(付記13)
前記複数の方針を自動的に選択することは、前記識別された複数の交渉人の各対応する交渉人の前記確率に基づいて前記複数の方針を自動的に選択することを含む、付記12に記載の方法。
【0096】
(付記14)
第2の提案を受信することと、
前記受信された第2の提案に基づいて前記メモリから第2の複数の交渉人を自動的に識別することと、
前記第2の複数の交渉人が前記識別された複数の交渉人に等しいことに応答して、前記選択された複数の方針を維持することと、
前記第2の複数の交渉人が前記識別された複数の交渉人とは異なるという決定に応答して、前記第2の複数の交渉人に基づいて第2の複数の方針を自動的に選択することと
をさらに含む、付記11に記載の方法。
【0097】
(付記15)
深層強化学習(DRL)アルゴリズムを使用して前記交渉方針を訓練することと、
前記交渉の状態を使用して前記DRLアルゴリズムを訓練することと
をさらに含む、付記11に記載の方法。
【0098】
(付記16)
前記交渉の前記状態は、考慮される前記第1の提案または以前に受信された提案の少なくとも1つが前記交渉までどの程度進んでいるかに基づく、付記15に記載の方法。
【0099】
(付記17)
前記行動の前記送信の確認を相手に送ることであって、前記確認は、視覚または音声通知を含む通知であること
をさらに含む、付記11に記載の方法。
【0100】
(付記18)
前記メモリに複数の交渉からの結果を記憶することと、
前記記憶された結果の拒否行動の数が閾値以上であるかどうかを決定することと、
前記拒否行動の数が前記閾値以上であることに応答して、新しい方針を前記複数の方針に追加すること、または新しい交渉人を前記メモリに追加することを推奨することと
をさらに含む、付記11に記載の方法。
【0101】
(付記19)
新しい交渉人を受信することと、
前記受信された新しい交渉人に基づいて新しい方針を訓練することであって、前記新しい方針を訓練することは、DRLアルゴリズムを使用して前記新しい方針を訓練することを含むことと、
シミュレートされた交渉を使用して、前記訓練された新しい方針を前記複数の方針のうちの少なくとも1つの方針と比較することと、
前記シミュレートされた交渉における前記訓練された新しい方針の結果が前記少なくとも1つの方針よりも優れているという決定に応答して、前記新しい交渉人を前記メモリに追加することと
をさらに含む、付記11に記載の方法。
【0102】
(付記20)
新しい方針を受信することと、
シミュレートされた交渉を使用して、前記新しい方針を前記複数の方針のうちの少なくとも1つの方針と比較することと、
前記シミュレートされた交渉における前記新しい方針の結果が前記少なくとも1つの方針よりも優れているという決定に応答して、前記新しい方針を前記メモリに追加することと
をさらに含む、付記11に記載の方法。
【0103】
本出願は、2020年10月7日に出願された米国仮特許出願第63/088,452号明細書、および2021年2月25日に出願された米国特許出願第17/184,590号明細書の優先権を主張する。これらの出願の開示は、その全体が本明細書に組み込まれる。
図1
図2
図3
図4
図5
図6