特許7552887 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7552887適応型自律交渉方法、および使用するシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-09-09

(45)【発行日】2024-09-18

(54)【発明の名称】適応型自律交渉方法、および使用するシステム

(51)【国際特許分類】

G06N 20/00 20190101AFI20240910BHJP

G06N 3/092 20230101ALI20240910BHJP

【ＦＩ】

G06N20/00

G06N3/092

【請求項の数】 8

(21)【出願番号】P 2023520298

(86)(22)【出願日】2021-10-07

(65)【公表番号】

(43)【公表日】2023-10-17

(86)【国際出願番号】 JP2021037095

(87)【国際公開番号】W WO2022075398

(87)【国際公開日】2022-04-14

【審査請求日】2023-04-03

(31)【優先権主張番号】63/088,452

(32)【優先日】2020-10-07

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】17/184,590

(32)【優先日】2021-02-25

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100149548

【弁理士】

【氏名又は名称】松沼泰史

(74)【代理人】

【識別番号】100181135

【弁理士】

【氏名又は名称】橋本隆史

(72)【発明者】

【氏名】セングプタアヤン

(72)【発明者】

【氏名】モハメドヤセルファルコオスマン

【審査官】北川純次

(56)【参考文献】

【文献】特開２００４－２６５４０４（ＪＰ，Ａ）

【文献】特表２００２－５２５７６３（ＪＰ，Ａ）

【文献】特開２０２０－０９１７３６（ＪＰ，Ａ）

【文献】特表２０１５－５１１３４５（ＪＰ，Ａ）

【文献】欧州特許出願公開第３５９４８９１（ＥＰ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ３／００－９９／００

Ｇ０６Ｑ３０／００

(57)【特許請求の範囲】

【請求項1】

受信機を使用して、第１の提案を受信することと、
プロセッサを使用して、前記受信された第１の提案に基づいて、メモリに記憶されている複数の交渉人のうちの第１の交渉人を自動的に識別することと、
前記識別された第１の交渉人に基づいて、前記メモリに記憶されている複数の方針から第１の方針を自動的に選択することと、
前記選択された第１の方針に基づいて、前記選択された第１の方針に対して逆写像を実施することを含む、前記第１の提案に応答するための行動を自動的に選択することと、
送信機を使用して、前記選択された行動を自動的に送信することと、
前記メモリに複数の交渉からの結果を記憶することと、
前記記憶された結果の拒否行動の数が閾値以上であるかどうかを決定することと、
前記拒否行動の数が前記閾値以上であることに応答して、新しい方針を前記複数の方針に追加すること、または新しい交渉人を前記複数の交渉人に追加することを推奨することと
を含む、適応型自律交渉方法。

【請求項2】

前記複数の交渉人のうちの対応する交渉人に基づいて、深層強化学習（ＤＲＬ）アルゴリズムを使用して前記複数の方針の各々を訓練することをさらに含む、請求項１に記載の方法。

【請求項3】

第２の提案を受信することと、
前記受信された第２の提案に基づいて前記複数の交渉人のうちの第２の交渉人を自動的に識別することと、
前記第２の交渉人が前記第１の交渉人と同じ交渉人であることに応答して、前記第１の方針を維持することと、
前記第２の交渉人が前記第１の交渉人とは異なるという決定に応答して、前記識別された第２の交渉人に基づいて前記複数の方針のうちの第２の方針を自動的に選択することと
をさらに含む、請求項１に記載の方法。

【請求項4】

受信機を使用して、第１の提案を受信することと、
プロセッサを使用して、前記受信された第１の提案に基づいて、メモリに記憶されている複数の交渉人のうちの第１の交渉人を自動的に識別することと、
前記識別された第１の交渉人に基づいて、前記メモリに記憶されている複数の方針から第１の方針を自動的に選択することと、
前記選択された第１の方針に基づいて、前記選択された第１の方針に対して逆写像を実施することを含む、前記第１の提案に応答するための行動を自動的に選択することと、
送信機を使用して、前記選択された行動を自動的に送信することと、
新しい交渉人を受信することと、
前記受信された新しい交渉人に基づいて新しい方針を訓練することであって、前記新しい方針を訓練することは、ＤＲＬアルゴリズムを使用して前記新しい方針を訓練することを含むことと、
シミュレートされた交渉を使用して、前記訓練された新しい方針を前記複数の方針のうちの少なくとも１つの方針と比較することと、
前記シミュレートされた交渉における前記訓練された新しい方針の結果が前記少なくとも１つの方針よりも優れているという決定に応答して、前記新しい交渉人を前記複数の交渉人に追加することと
を含む、適応型自律交渉方法。

【請求項5】

新しい方針を受信することと、
シミュレートされた交渉を使用して、前記新しい方針を前記複数の方針のうちの少なくとも１つの方針と比較することと、
前記シミュレートされた交渉における前記新しい方針の結果が前記少なくとも１つの方針よりも優れているという決定に応答して、前記新しい方針を前記複数の方針に追加することと
をさらに含む、請求項１に記載の方法。

【請求項6】

第１の提案を受信するように構成された受信機と、
複数の交渉人および複数の方針を記憶するように構成され、命令を記憶するようにさらに構成された非一時的コンピュータ可読媒体と、
前記受信された第１の提案に基づいて前記複数の交渉人のうちの第１の交渉人を自動的に識別し、
前記識別された第１の交渉人に基づいて複数の方針から第１の方針を自動的に選択し、
前記選択された第１の方針に基づいて前記第１の提案に応答するための行動を自動的に選択し、
前記選択された行動を送信するように送信機に自動的に命令する
ための前記命令を実行するように構成されたプロセッサと
を備え、
前記プロセッサは、
複数の交渉からの結果を記憶するように前記非一時的コンピュータ可読媒体に命令し、
前記記憶された結果の拒否行動の数が閾値以上であるかどうかを決定し、
前記拒否行動の数が前記閾値以上であることに応答して、新しい方針を前記複数の方針に追加するため、または新しい交渉人を前記複数の交渉人に追加するための推奨を生成する
ための前記命令を実行するように構成される、適応型自律交渉システム。

【請求項7】

前記受信機は、第２の提案を受信するようにさらに構成され、前記プロセッサは、
前記受信された第２の提案に基づいて前記複数の交渉人のうちの第２の交渉人を自動的に識別し、
前記第２の交渉人が前記第１の交渉人と同じ交渉人であることに応答して、前記第１の方針を維持し、
前記第２の交渉人が前記第１の交渉人とは異なるという決定に応答して、前記識別された第２の交渉人に基づいて前記複数の方針のうちの第２の方針を自動的に選択する
ための前記命令を実行するようにさらに構成される、請求項６に記載のシステム。

【請求項8】

受信機を使用して、第１の提案を受信することと、
前記受信された第１の提案に基づいてメモリから複数の交渉人を自動的に識別することと、
前記識別された複数の交渉人に基づいて前記メモリから複数の方針を自動的に選択することと、
前記識別された複数の交渉人に基づいて前記選択された複数の方針の各々について複数の重みを自動的に選択することと、
前記選択された複数の方針に基づいて、複数の重みを使用して前記選択された複数の方針に対して逆写像の重み付き和を実施することを含む、前記第１の提案に応答するための行動を自動的に選択することと、
送信機を使用して、前記選択された行動を自動的に送信することと
を含む、適応型自律交渉方法。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、適応型自律交渉方法、およびその方法を使用するシステムに関する。

【背景技術】

【0002】

インターネットを使用した商取引の増加に伴い、自律交渉も増加している。自律交渉は、当事者間の合意に達することを試みるために、人間の交渉人（ｎａｇｏｔｉａｔｏｒ）の代わりに人工知能（ＡＩ）を利用する。ＡＩは、相手からの提案を評価し、次いで提案に対する応答を決定するために使用される。場合によっては、応答は、逆提案である。場合によっては、応答は、提案の受諾である。場合によっては、応答は、交渉を終了することである。

【0003】

いくつかのアプローチでは、ＡＩ交渉人は、交渉すべき問題、相手からの第１の提案、およびユーザの優先順位、すなわち、自己効用値に基づいて選択される。選択されたＡＩ交渉人は、交渉プロセス全体を通して維持される。選択されたＡＩ交渉人は、相手が方針を変更するかどうかにかかわらず一定のままである。

【0004】

いくつかのアプローチでは、オンライン交渉方法を使用して、同じ相手との複数の交渉に基づいて方針のグループから方針を識別する。特定の相手に対して最良の結果を得る方針を識別するために、複数の交渉が使用される。各相手について、方針のグループからのどの方針が各相手と最もうまくいくかを識別するために、追加の交渉が使用される。

【発明の概要】

【0005】

第１の例示的な態様によれば、適応型自律交渉の方法が提供される。方法は、受信機を使用して、第１の提案を受信することと、プロセッサを使用して、前記受信された第１の提案に基づいて、メモリに記憶されている複数の交渉人のうちの第１の交渉人を自動的に識別することと、前記識別された第１の交渉人に基づいて、前記メモリに記憶されている複数の方針から第１の方針を自動的に選択することと、前記選択された第１の方針に基づいて、前記選択された第１の方針に対して逆写像を実施することを含む、前記第１の提案に応答するための行動を自動的に選択することと、送信機を使用して、前記選択された行動を自動的に送信することとを含む。

【0006】

第２の例示的な態様によれば、適応型自律交渉システムが提供される。システムは、第１の提案を受信するように構成された受信機と、複数の交渉人および複数の方針を記憶するように構成され、命令を記憶するようにさらに構成された非一時的コンピュータ可読媒体と、前記受信された第１の提案に基づいて前記複数の交渉人のうちの第１の交渉人を自動的に識別し、前記識別された第１の交渉人に基づいて複数の方針から第１の方針を自動的に選択し、前記選択された第１の方針に基づいて前記第１の提案に応答するための行動を自動的に選択し、前記選択された行動を送信するように送信機に自動的に命令するための前記命令を実行するように構成されたプロセッサとを備える。

【0007】

第３の例示的な態様によれば、適応型自律交渉の方法が提供される。方法は、受信機を使用して、第１の提案を受信することと、前記受信された第１の提案に基づいてメモリから複数の交渉人を自動的に識別することと、前記識別された複数の交渉人に基づいて前記メモリから複数の方針を自動的に選択することと、前記識別された複数の交渉人に基づいて前記選択された複数の方針の各々について複数の重みを自動的に選択することと、前記選択された複数の方針に基づいて、前記計算された複数の重みを使用して前記選択された複数の方針に対して逆写像の重み付き和を実施することを含む、前記第１の提案に応答するための行動を自動的に選択することと、送信機を使用して、前記選択された行動を自動的に送信することとを含む。

【0008】

本開示の態様は、添付の図と併せて読むと、以下の詳細な説明から最もよく理解される。業界の標準的な慣行に従って、様々な特徴は縮尺通りに描かれていないことに留意されたい。実際、様々な特徴の寸法は、説明を明確にするために任意に拡大または縮小されることがある。

【図面の簡単な説明】

【0009】

【図1】いくつかの実施形態による、適応型自律交渉方法を使用する交渉の概略図である。

【図2】いくつかの実施形態による、適応型自律交渉方法を使用する交渉の方法のフローチャートである。

【図3】いくつかの実施形態による、適応型自律交渉システムの概略図である。

【図4】いくつかの実施形態による、新しい交渉人または新しい方針を適応型自律交渉システムに追加する方法のフローチャートである。

【図5】いくつかの実施形態による、適応型自律交渉システムの概略図である。

【図6】いくつかの実施形態による、適応型自律交渉のためのシステムのブロック図である。

【発明を実施するための形態】

【0010】

以下の開示は、提供される主題の異なる特徴を実施するための多くの異なる実施形態または例を提供する。以下、本開示を簡略化するために、構成要素、値、動作、材料、配置などの具体的な例を説明する。もちろん、これらは単なる例であり、限定することを意図するものではない。他の構成要素、値、動作、材料、配置なども考えられる。例えば、以下の説明における第２の特徴の上側または上の第１の特徴の形成は、第１および第２の特徴が直接接触して形成される実施形態を含むことができ、第１および第２の特徴が直接接触しないように、追加の特徴が第１および第２の特徴の間に形成され得る実施形態も含むことができる。加えて、本開示は、様々な例において参照番号および／または文字を繰り返すことができる。この繰り返しは、単純化および明確化のためのものであり、それ自体は、説明した様々な実施形態および／または構成の間の関係を規定するものではない。

【0011】

自律交渉人(autonomous nagotiator)の利益を最大化するために、自律交渉人は、相手からの方針の変更に適応する能力を有するべきである。例えば、他のアプローチでは、交渉中に相手からの提案がより積極的になった場合、交渉全体を通して同じ方針を維持すると、結果が悪くなるか、または完全に合意に達することができないリスクが高まる。人工知能（ＡＩ）を使用して相手からの新しい提案に応答するための方針を適応させることによって、肯定的な結果を得て合意に達する可能性が高まる。いくつかの実施形態では、ＡＩは、相手が方針を変更したかどうかを決定するために交渉中に１つまたは複数の以前の提案を考慮し、次に応答方針を変更するかどうかを決定するようにＡＩを促す。ＡＩを使用することによって、交渉は、ユーザによる干渉または対話なしに進めることができる。すなわち、いくつかの実施形態では、すべての動作は、ユーザからの入力なしに自動的に実施される。

【0012】

自律交渉人の利益はまた、ＡＩが新しい方針および交渉人を考慮し、それらを相手からの提案に応答するための利用可能な方針および交渉人のグループに組み込むことを可能にすることによって最大化される。利用可能な方針および交渉人が静的である他のアプローチでは、ＡＩは、利用可能な方針のいずれも相手の提案に応答するのに適していない場合、交渉から肯定的な結果を達成することができない可能性がある。新しい方針または交渉人の望ましさを評価する能力は、相手も進展するので、ＡＩが肯定的な結果を出し続けるのに役立つ。

【0013】

本出願では、交渉人は、複数構成要素である。交渉人は、内部に方針を含む規則ベースの要素である。交渉人は、相手をモデル化するために使用可能である。すなわち、交渉人は、相手についての優先順位、すなわち、効用値を一致させようとするために使用される。対照的に、方針は、単一の構成要素である。方針は、相手からの提案にどのように応答するかの決定である。

【0014】

図１は、いくつかの実施形態による、適応型自律交渉方法を使用する交渉１００の概略図である。交渉１００は、第１の方針１１２を含む第１の交渉人１１０を含む。交渉１１０は、第２の方針１２２を含む第２の交渉人１２０を含む。プロトコル１３０は、第１の交渉人１１０と第２の交渉人１２０との間の交渉のスタイルを決定するために使用される。ドメイン１４０は、交渉１００において解決すべき問題を含む。交渉１００は、個別交渉である。しかし、本開示は、バイラテラルシナリオのみに限定されない。

【0015】

第１の交渉人１１０は、解決すべき問題についての優先順位を決定するためのＡＩアルゴリズムを含む。これらの優先順位は、解決すべき問題の各々に関連付けられた効用値に取り込まれる。その第１の交渉人１１０は、交渉１００からの可能な結果に優先順位を付けるためにこれらの効用値を使用する。第１の交渉人１１０は、プロトコル１３０を使用して第２の交渉人１２０と通信することができる。いくつかの実施形態では、第１の交渉人１１０は、無線で通信することができる。いくつかの実施形態では、第１の交渉人１１０は、有線接続を使用して通信することができる。いくつかの実施形態では、第１の交渉人１１０は、インターネットを介して通信することができる。第１の交渉人１１０は、提案、逆提案、受諾、または拒否を第２の交渉人１２０に送信することができる。第１の交渉人１１０は自律的であり、すなわち、ユーザ入力または制御なしで動作する。

【0016】

第１の方針１１２は、第１の交渉人１１０によって使用された効用値およびアルゴリズムに基づいて第１の交渉人１１０によって決定された行動である。いくつかの実施形態では、第１の方針１１２は、提案、逆提案、受諾、または拒否を含む。いくつかの実施形態では、第１の方針１１２は、第２の交渉人１２０から受信された新しい情報に基づいて交渉１００中に変更する。

【0017】

第２の交渉人１２０は、解決すべき問題について、効用値を使用して取り込まれた優先順位を決定するためのＡＩアルゴリズムを含む。第２の交渉人１２０は、プロトコル１３０を使用して第１の交渉人１１０と通信することができる。いくつかの実施形態では、第２の交渉人１２０は、無線で通信することができる。いくつかの実施形態では、第２の交渉人１２０は、有線接続を使用して通信することができる。いくつかの実施形態では、第２の交渉人１２０は、インターネットを介して通信することができる。第２の交渉人１２０は、提案、逆提案、受諾、または拒否を第１の交渉人１１０に送信することができる。いくつかの実施形態では、第１の交渉人１１０についてのハードウェアは、第２の交渉人１２０についてのハードウェアと同じである。いくつかの実施形態では、第１の交渉人１１０についてのハードウェアは、第２の交渉人１２０についてのハードウェアとは異なる。いくつかの実施形態では、第１の交渉人１１０に実装されたアルゴリズムは、第２の交渉人１２０に実装されたアルゴリズムと同じである。いくつかの実施形態では、第１の交渉人１１０に実装されたアルゴリズムは、第２の交渉人１２０に実装されたアルゴリズムとは異なる。いくつかの実施形態では、第２の交渉人１２０は、自律的である。いくつかの実施形態では、第２の交渉人１２０は、ユーザ入力に基づいて制御される。

【0018】

第２の方針１２２は、第２の交渉人１２０によって使用された効用値およびアルゴリズムに基づいて第２の交渉人１２０によって決定された行動である。いくつかの実施形態では、第２の方針１２２は、提案、逆提案、受諾、または拒否を含む。いくつかの実施形態では、第２の方針１２２は、第１の交渉人１１０から受信された新しい情報に基づいて交渉１００中に変更する。

【0019】

プロトコル１３０は、交渉１００のための規則である。例えば、交互提案プロトコル（ａｌｔｅｒｎａｔｉｎｇｏｆｆｅｒｓｐｒｏｔｏｃｏｌ）では、交渉人、例えば、第１の交渉人１１０および第２の交渉人１２０は、交互に提案を交換する。いくつかの実施形態では、プロトコル１３０は、交互提案プロトコルである。いくつかの実施形態では、プロトコル１３０は、時間ベースの提案などの異なるプロトコル、または他の適切なプロトコルである。プロトコル１３０は、交渉１００を開始する前に確立され、それにより第１の交渉人１１０および第２の交渉人１２０は、提案または返信がいつ送信されるべきか、および送信されるべきかどうかを知る。いくつかの実施形態では、プロトコル１３０は、ステップ、例えば、提案の最大数を含む。いくつかの実施形態では、プロトコル１３０は、交渉１００のための制限時間を含む。

【0020】

ドメイン１４０は、解決すべき問題を含む。例えば、解決すべき問題は、いくつかの実施形態では、価格、数量、ブランド名などを含む。いくつかの実施形態では、ドメイン１４０は、単一の問題を含む。いくつかの実施形態では、ドメイン１４０は、複数の問題を含む。第１の交渉人１１０および第２の交渉人１２０の各々は、ドメイン１４０を知り、効用値を解決すべき問題の組み合わせに帰属させる。例えば、ドメイン１４０が価格およびブランド名を含み、価格およびブランド名の各々に対して２つの選択肢がある場合、第１の交渉人１１０は、４つの異なる効用値、すなわち、可能な組み合わせごとに１つの効用値を有する。いくつかの実施形態では、第１の交渉人１１０および第２の交渉人１２０は、すべての可能な組み合わせよりも少ない数の効用値を有する。いくつかの実施形態では、第１の交渉人１１０によって割り当てられた効用値は、第１および第２の交渉人が異なる優先順位を有するため、第２の交渉人１２０によって割り当てられた効用値とは異なる。

【0021】

図２は、いくつかの実施形態による、適応型自律交渉方法を使用する交渉の方法２００のフローチャートである。方法２００は、交渉の一方側から提示される。例えば、いくつかの実施形態では、方法２００は、第１の交渉人１１０（図１）に関連付けられた動作を説明する。

【0022】

方法２００は、提案が受信される動作２１０を含む。いくつかの実施形態では、提案は、無線で受信される。いくつかの実施形態では、提案は、有線接続によって受信される。いくつかの実施形態では、提案は、インターネットを介して受信される。いくつかの実施形態では、提案は、交渉における初期提案である。いくつかの実施形態では、提案は、以前の提案に対する逆提案である。いくつかの実施形態では、方法２００を実施するためのシステムは、提案を受信するための受信機を含む。方法２００は、受信された提案が以前の提案の拒否または受諾ではない方式で説明される。当業者は、本出願がそのような提案に限定されないことを理解するであろう。

【0023】

提案が受信された後、方法２００は、相手が交渉人の集合に関して分類される動作２２０に進む。交渉人の集合は、方法２００を実施するＡＩに知られている交渉人を含む。分類の目的は、交渉人の集合からのどの交渉人が相手に最も類似するかを決定することである。ＡＩは、交渉人の集合における交渉人の各々についての確率を出力し、相手に最も類似する交渉人であるとして最も高い確率を有する交渉人を選択する。

【0024】

相手は、受信された提案に基づいて分類される。いくつかの実施形態では、相手は、受信された提案および少なくとも１つの以前の提案に基づいて分類される。いくつかの実施形態では、相手は、受信された提案および以前の４つの提案に基づいて分類される。いくつかの実施形態では、相手は、受信された提案および相手からのすべての以前の提案に基づいて分類される。分類において考慮される提案の数が増加するにつれて、分類の精度が向上する。しかし、分類において考慮される数提案が増加するにつれて、ＡＩに対する算出負荷も増加する。いくつかの実施形態では、ユーザは、相手の分類中に考慮すべき提案の最大数を事前定義する。

【0025】

例えば、いくつかの実施形態では、３つの既知の交渉人および３つの既知の方針を有するシステムにおいて、合計で最大１０個の提案が交渉において許容され、考慮すべき提案の最大数が５に設定され、分類器は、３つの確率、すなわち、第１の既知の交渉人についてはｐ１、第２の既知の交渉人についてはｐ２、および第３の既知の交渉人についてはｐ３を決定する。分類器は、以下の入力に基づいて確率を決定する。

【0026】

【数1】

【0027】

ここで、Ｕｓは、方法２００を実施するシステムの効用関数であり、ｗｏは、相手からの提案であり、ｔは、現在の提案の数である。すなわち、ｗｏ^ｔは、最新の提案であり、ｗｏ^ｔ－４は、最新の提案の前の４つの提案である。システムの効用関数Ｕｓを相手の提案に適用することによって、システムは、相手によって使用される１つまたは複数の交渉方針をより正確に予測するために、どの既知の交渉人が相手に最も類似するかを識別することができる。当業者は、効用関数Ｕｓが現在の交渉のドメインに加えて異なるドメインに適用可能であることを認識するであろう。

【0028】

動作２３０において、方針が相手の分類に基づいて識別される。方針は、動作２２０において決定された確率に基づいて識別される。いくつかの実施形態では、各方針は、単一の交渉人にリンクされ、最も高い確率を有する交渉人にリンクされた方針が動作２３０において選択される。いくつかの実施形態では、方針は、複数の交渉人にリンクされ、その方針は、最も高い確率を有するリンクされた交渉人のいずれかに応答して選択される。いくつかの実施形態では、複数の方針が単一の交渉人にリンクされ、最も高い確率を有する単一の交渉人に応答して、複数の方針から一つの方針が選択される。いくつかの実施形態では、方針は、複数の方針の各々の効用値に基づいて複数の方針から選択される。

【0029】

方針の各々は、深層強化学習（ＤＲＬ）アルゴリズムを使用して訓練される。ＤＲＬアルゴリズムは、対応する交渉人、すなわち、動作２２０において相手に最も類似すると決定された交渉人に対して使用するための各方針を訓練するのに役立つ。いくつかの実施形態では、方針ＤＲＬアルゴリズムは、交渉の状態も考慮する。交渉の状態は、方法２００において考慮される提案が交渉までどの程度進んでいるかの指標である。交渉の状態はまた、現在の交渉中に以前に交換された提案を考慮する。例えば、プロトコルが提案のステップの最大数を示す場合、交渉の状態は、いくつかの実施形態では、現在の提案の数と提案の最大数との間の比である。プロトコルが交渉の最大持続時間を示すいくつかの実施形態では、交渉の状態は、交渉の現在の持続時間と最大持続時間との間の比である。

【0030】

３つの既知の交渉人および３つの既知の方針の例に戻り、上記から、いくつかの実施形態では、方針についてのＤＲＬアルゴリズムに対する入力は、以下の通りである。

【0031】

【数2】

【0032】

ここで、ｔは、現在の提案の数であり、Ｔは、許容される最大合計提案であり、Ｕｓは、方法２００を実施するシステムの効用関数であり、ｗｏは、相手からの提案であり、ｗｓは、方法２００を実施するシステムからの提案である。いくつかの実施形態では、ＤＲＬアルゴリズムは、交渉の状態、相手からの最新の提案、ならびに相手およびシステムの各々からの前の２つの提案を考慮する。この情報を使用することによって、方針は、相手の提案方針の変更に応答し、相手がシステムからの提案にどのように応答しているかを決定するように適応される。いくつかの実施形態では、各方針は、単一の交渉人にリンクされる。

【0033】

各方針に関連付けられた行動、すなわち、応答は、行動の効用値に基づいて決定される。いくつかの実施形態では、行動の効用値は、行動空間を使用して決定される。

【0034】

【数3】

【0035】

ここで、ｕｒは、留保効用値（ｒｅｓｅｒｖａｔｉｏｎｕｔｉｌｉｔｙｖａｌｕｅ）であり、ｕｓ^ｔ＋１は、行動の効用値である。留保効用値は、合意に達しない場合のシステムに対する値である。この基準を使用すると、方法２００は、行われた任意の行動の値が、交渉が失敗した場合の値よりも大きいことを保証するのに役立つ。

【0036】

いくつかの実施形態では、動作２３０は、方法２００の反復ごとに、すなわち、相手からの提案ごとに応答して実施されない。例えば、いくつかの実施形態では、動作２２０で決定された交渉人が以前の反復から変更されていない場合、以前の反復からの方針が維持され、動作２３０は省略される。いくつかの実施形態では、動作２３０は、設定された反復の数の後に、動作２２０において識別された交渉人の変更に応答して、または交渉の状態に基づいて実施される。

【0037】

動作２４０において、識別された方針に基づく行動が選択される。行動は、方針の逆写像によって決定される。いくつかの実施形態では、行動は、提案の受諾、逆提案、または提案の拒否、および交渉の終了である。

【0038】

動作２５０において、行動は、相手に送信される。いくつかの実施形態では、行動は、無線通信を使用して相手に送信される。いくつかの実施形態では、行動は、有線接続を使用して相手に送信される。いくつかの実施形態では、行動は、インターネットを介して相手に送信される。いくつかの実施形態では、相手への行動の送信の確認は、ユーザに送られる。いくつかの実施形態では、確認は、ユーザに送られた視覚または音声通知などの通知である。いくつかの実施形態では、行動の送信は、相手（または相手のユーザ）の視覚または音声通知などの通知を促す。いくつかの実施形態では、方法２００を実施するためのシステムは、行動を相手に送信するための送信機を含む。

【0039】

方法２００は、任意選択の動作２６０～２９５を含む。任意選択の動作２６０～２９５は、方法２００を実施するシステムの結果を改善するのを助けるために、新しい方針または交渉人が推奨されるかどうかを識別するのに役立つ。いくつかの実施形態では、任意選択の動作２６０～２９５は省略される。

【0040】

任意選択の動作２６０において、選択された行動が最終行動であるかどうかに関する決定が行われる。最終行動は、交渉が終了した場合の提案の受諾または提案の拒否である。選択された行動が最終行動ではないという決定に応答して、方法２００は動作２１０に戻り、相手からの次の提案を待つ。選択された動作が最終行動であるという決定に応答して、方法２００は、動作２７０に進む。

【0041】

任意選択の動作２７０において、最終行動は、メモリ、例えば、メモリ６０４（図４）に記憶される。メモリは、ユーザが交渉の結果を検討することができるように、ユーザによってアクセス可能である。最終行動が受諾であるいくつかの実施形態では、解決すべき問題に対する値は、最終行動と共に記憶される。最終行動が拒否であるいくつかの実施形態では、拒否前の最後の行動もまた、最終行動と共に記憶される。いくつかの実施形態では、ユーザが交渉の履歴を検討することを可能にするために、交渉のための行動の履歴が最終行動と共にメモリに記憶される。

【0042】

任意選択の動作２７５において、ユーザは、交渉の結果が通知される。いくつかの実施形態では、ユーザは、視覚または音声通知を使用して通知される。いくつかの実施形態では、交渉の結果をユーザに通知するために、アラートが生成されてユーザのモバイル端末に送信される。

【0043】

任意選択の動作２８０において、記憶された拒否行動の数が閾値以上であるかどうかに関する決定が行われる。いくつかの実施形態では、閾値は、事前定義された数である。いくつかの実施形態では、事前定義された数は、ユーザによって提供される。いくつかの実施形態では、閾値は、提案の拒否をもたらす事前定義された数の連続した交渉である。いくつかの実施形態では、事前定義された数は、ユーザによって提供される。いくつかの実施形態では、閾値は、事前定義された期間内に拒否をもたらす事前定義された数の交渉である。いくつかの実施形態では、事前定義された数は、ユーザによって提供される。いくつかの実施形態では、事前定義された期間は、ユーザによって提供される。いくつかの実施形態では、事前定義された期間は、１日、１週間、または別の適切な期間である。交渉が多数の失敗、すなわち、提案の拒否をもたらしているかどうかを決定することによって、方法２００は、現在の交渉人および方針が許容可能な結果を出しているかどうかを識別するのに役立つ。記憶された拒否の数が閾値以上であることに応答して、方法は、任意選択の動作２９０に進む。記憶された拒否の数が閾値未満であることに応答して、方法２００は、任意選択の動作２９５に進む。

【0044】

任意選択の動作２９０では、新しい方針および／または交渉人を求めるための推奨が生成される。いくつかの実施形態では、方法２００を実施するシステムは、データベースを自動的にチェックし、任意の新しい方針または交渉人が潜在的な包含に利用可能であるかどうかを決定する。新しい方針または交渉人の包含の詳細は、以下の図４および図５を参照して説明される。いくつかの実施形態では、システムへの潜在的な包含に利用可能な新しい方針または交渉人がないという決定に応答して、方法２００は、新しい方針または交渉人が開発されることを推奨するようにユーザに通知する。いくつかの実施形態では、ユーザは、視覚または音声通知を使用して通知される。いくつかの実施形態では、新しい方針または交渉人の開発を促すようにユーザに通知するために、アラートが生成されてユーザのモバイル端末に送信される。いくつかの実施形態では、方法２００を実施するシステムは、新しい方針または交渉人が利用可能であるかどうかにかかわらず、新しい方針または交渉人の開発を推奨するようにユーザに促す。いくつかの実施形態では、方法２００を実施するシステムは、新しい方針または交渉人の検索においてデータベースがアクセスされたときにユーザに通知する。

【0045】

任意選択の動作２９５において、新しい交渉が開始される。いくつかの実施形態では、新しい交渉は、前の交渉と同じ相手との交渉である。いくつかの実施形態では、新しい交渉は、前の交渉とは異なる相手との交渉である。

【0046】

いくつかの実施形態では、方法２００は、少なくとも１つの追加の動作を含む。例えば、いくつかの実施形態では、方法２００は、交渉の状態が閾値状態に達したことに応答して、通知をユーザに送信することを含む。いくつかの実施形態では、方法２００のうちの少なくとも１つの動作は省略される。例えば、いくつかの実施形態では、動作２７５は省略され、交渉の結果に関してユーザの結果は通知されない。いくつかの実施形態では、方法２００の動作の順序は変更する。例えば、いくつかの実施形態では、動作２７５は、動作２７０の前に行われる。いくつかの実施形態では、方法２００のうちの少なくとも２つの動作は、同時に実施される。例えば、いくつかの実施形態では、動作２７０および２７５は、同時に実施される。

【0047】

図３は、いくつかの実施形態による、適応型自律交渉システム３００の概略図である。いくつかの実施形態では、システム３００は、方法２００（図２）を実施するために使用可能である。いくつかの実施形態では、システム３００は、方法２００とは異なる方法を実施するために使用可能である。システム３００は、計算機端末３１０を含む。計算機端末３１０は、少なくともプロセッサおよびメモリを含む。いくつかの実施形態では、計算機端末３１０は、単一の端末である。いくつかの実施形態では、計算機端末３１０は、複数の端末を含む。いくつかの実施形態では、計算機端末３１０は、端末間でおよび／または相手との間で情報を送受信するための受信機、送信機、および／またはトランシーバを含む。いくつかの実施形態では、計算機端末３１０は、無線通信が可能である。いくつかの実施形態では、計算機端末３１０は、有線通信が可能である。いくつかの実施形態では、計算機端末３１０は、インターネットを介して通信が可能である。

【0048】

計算機端末は、相手から受信された提案を分析するように構成された分類器３２０を含む。いくつかの実施形態では、相手からの提案は、計算機端末３１０内の受信機によって受信され、分析のために分類器３２０に転送される。

【0049】

計算機端末３１０は、交渉人の集合、すなわち、交渉人３２２ａ、交渉人３２２ｂ、および交渉人３２２ｎをさらに含み、これらはまとめて交渉人３２２と呼ばれる。いくつかの実施形態では、交渉人３２２は、計算機端末３１０のメモリに記憶される。いくつかの実施形態では、交渉人３２２は、計算機端末３１０によってアクセス可能な別々の端末に記憶される。

【0050】

分類器３２０は、どの交渉人３２２が相手に最も類似するかを決定するために、提案を分析するように構成される。いくつかの実施形態では、分類器３２０は、方法２００（図２）の動作２２０を実施するように構成される。いくつかの実施形態では、分類器３２０は、動作２２０とは異なるプロセスを使用して、どの交渉人３２２が相手に最も類似するかを決定する。

【0051】

計算機端末３１０は、切替器（ｓｗｉｔｃｈｅｒ）３３０をさらに含む。切替器３３０は、分類器３２０の出力を受信するように構成される。切替器３３０は、相手からの受信された提案に応答するための方針を決定するために、分類器３２０からの出力を使用するように構成される。

【0052】

計算機端末３１０は、方針の集合、すなわち、方針３３２ａ、方針３３２ｂ、および方針３３２ｎをさらに含み、これらはまとめて方針３３２と呼ばれる。いくつかの実施形態では、方針３３２は、計算機端末３１０のメモリに記憶される。いくつかの実施形態では、方針３３２は、計算機端末３１０によってアクセス可能な別々の端末に記憶される。システム３００では、方針３３２の各々は、図３の破線によって示されるように、交渉人３２２のうちの対応する１つに関連付けられる。いくつかの実施形態では、方針３３２のうちの少なくとも１つは、複数の交渉人３２２にリンクされる。いくつかの実施形態では、交渉人３２２のうちの少なくとも１つは、方針３３２のうちの複数にリンクされる。

【0053】

切替器３３０は、相手からの受信された提案に応答する際にどの方針３３２を使用するかを決定するために、分類器３２０からの出力を分析するように構成される。いくつかの実施形態では、切替器３３０は、方法２００（図２）の動作２３０を実施するように構成される。いくつかの実施形態では、切替器３３０は、動作２３０とは異なるプロセスを使用して、相手からの受信された提案に応答するためにどの方針３３２を使用するかを決定する。

【0054】

切替器３３０はまた、方針のうちの選択された１つに基づいて相手からの提案に応答するための行動を決定するように構成される。いくつかの実施形態では、切替器３３０は、方法２００（図２）の動作２４０を実施するように構成される。いくつかの実施形態では、切替器３３０は、動作２４０とは異なるプロセスを使用して行動を決定するように構成される。

【0055】

切替器３３０は、方針３３２のうちの選択された１つに基づいて決定された行動を出力するように構成される。いくつかの実施形態では、切替器３３０は、行動を相手に送信するための送信機に接続される。いくつかの実施形態では、切替器３３０は、方法２００（図２）の動作２５０を実施するように構成される。いくつかの実施形態では、切替器３３０は、動作２５０とは異なるプロセスを使用して行動を送信するように構成される。

【0056】

図４は、いくつかの実施形態による、新しい交渉人または新しい方針を適応型自律交渉システムに追加する方法４００のフローチャートである。いくつかの実施形態では、方法４００は、方法２００（図２）の動作２９０に従って新しい方針または交渉人を評価するために使用される。いくつかの実施形態では、方法４００は、方法２００とは別々の実施が可能である。いくつかの実施形態では、方法４００と方法２００（図２）の両方を実施するために同じシステムが使用可能である。

【0057】

動作４１０において、新しい方針または交渉人が受信される。いくつかの実施形態では、新しい方針または交渉人は、ユーザから受信される。いくつかの実施形態では、新しい方針または交渉人は、データベースからアクセスされる。いくつかの実施形態では、新しい方針または交渉人は、無線通信を介して受信される。いくつかの実施形態では、新しい方針または交渉人は、有線通信を介して受信される。いくつかの実施形態では、新しい方針または交渉人は、インターネットを介して受信される。

【0058】

いくつかの実施形態では、動作４１０は、方法２００（図２）の動作２９０に応答して開始される。いくつかの実施形態では、動作４１０は、ユーザからの入力に応答して開始される。いくつかの実施形態では、動作４１０は、方法４００を実施するためのシステムによって自動的に開始される。いくつかの実施形態では、動作４１０は、システムの動作の予め設定された持続時間の後に自動的に開始される。いくつかの実施形態では、予め設定された持続時間は、ユーザによって決定される。いくつかの実施形態では、動作４１０は、所定の数の交渉後に自動的に開始される。いくつかの実施形態では、ユーザは、所定の数の交渉を決定する。いくつかの実施形態では、動作４１０は、利用可能な新しい方針または交渉の検出に応答して自動的に開始される。いくつかの実施形態では、方法４００を実施するためのシステムは、新しい方針または交渉人が利用可能になったときに外部システムから通知を受信する。

【0059】

動作４２０において、新しい方針または交渉人が新しい交渉人であるかどうかに関する決定が行われる。いくつかの実施形態では、決定は、新しい方針または交渉人が複数の構成要素であるかどうかに基づいて行われる。いくつかの実施形態では、決定は、新しい方針または交渉人内に記憶されたデータに基づいて行われる。新しい方針または交渉人が交渉人であるという決定に応答して、方法４００は、動作４３０に進む。新しい方針または交渉人が方針であるという決定に応答して、方法４００は、動作４４０に進む。

【0060】

動作４３０において、新しい方針が新しい交渉人のために訓練される。いくつかの実施形態では、新しい方針は、上述のＤＲＬ訓練と同様に、ＤＲＬアルゴリズムを使用して訓練される。いくつかの実施形態では、新しい方針は、異なるアルゴリズムを使用して訓練される。動作４３０の出力は、訓練された方針である。

【0061】

動作４４０において、新しい方針が所定の条件を満たすかどうかに関する決定が行われる。いくつかの実施形態では、所定の条件は、ユーザによって設定される。いくつかの実施形態では、所定の条件は、新しい方針が方法４００を実施するシステム内の少なくとも１つの他の方針よりも優れた結果を出すかどうかである。いくつかの実施形態では、決定は、結果を出すために新しい方針ベースの訓練データを使用して交渉をシミュレートすることを含む。次いで、シミュレートされた交渉からの結果は、方法４００を実施するためのシステム内の少なくとも１つの方針からの結果と比較される。新しい方針を使用したシミュレートされた交渉からの結果が優れた結果を出す場合、新しい方針は、方法４００を実施するためのシステムに含まれる。いくつかの実施形態では、結果の優位性は、シミュレートされた交渉の最終決定の効用値に基づいて決定される。

【0062】

新しい方針が条件を満たさないという決定に応答して、方法４００は、動作４５０に進む。新しい方針が条件を満たすという決定に応答して、方法４００は、動作４６０に進む。

【0063】

動作４５０において、新しい方針または交渉人は拒否され、方法４００を実施するためのシステムに含まれない。いくつかの実施形態では、方法４００を実施するためのシステムは、新しい方針または交渉人の拒否に応答してユーザに通知する。いくつかの実施形態では、ユーザは、視覚または音声通知を使用して通知される。いくつかの実施形態では、新しい方針または交渉人の検討を促すようにユーザに通知するために、アラートが生成されてユーザのモバイル端末に送信される。いくつかの実施形態では、通知は、シミュレートされた交渉の結果に関する情報を含む。

【0064】

動作４６０において、方法４００を実施するためのシステムは、新しい方針または交渉人を含むように更新される。いくつかの実施形態では、更新は、システムに新しい方針または交渉人を記憶することを含む。いくつかの実施形態では、更新は、システムによってアクセス可能なデータベースなどの外部端末に新しい方針または交渉人を記憶することを含む。

【0065】

動作４７０において、方法４００を実施するためのシステムの分類器および／または切替器が更新される。分類器と切替器は両方とも、新しい交渉人の包含に応答して更新される。切替器は、新しい方針の包含に応答して更新される。いくつかの実施形態では、新しい交渉人が導入される場合、動作４３０において生成された方針に対応する方針も導入される。いくつかの実施形態では、更新は、新しい方針を少なくとも１つの既存の交渉人にリンクすることを含む。いくつかの実施形態では、更新は、新しい交渉人を少なくとも１つの既存の方針にリンクすることを含む。動作４７０に続いて、新しい方針または交渉人は、将来の交渉中に使用可能である。

【0066】

いくつかの実施形態では、方法４００は、少なくとも１つの追加の動作を含む。例えば、いくつかの実施形態では、方法４００は、動作４４０において方針が条件を満たすことに応答して通知をユーザに送信することを含む。いくつかの実施形態では、方法４００のうちの少なくとも１つの動作は省略される。例えば、いくつかの実施形態では、動作４４０は省略され、新しい方針または交渉人はシステムに自動的に含まれる。いくつかの実施形態では、方法４００の動作の順序は変更する。例えば、いくつかの実施形態では、動作４７０は、動作４６０の前に行われる。いくつかの実施形態では、方法４００の少なくとも２つの動作は、同時に実施される。例えば、いくつかの実施形態では、動作４６０および４７０は、同時に実施される。

【0067】

図５は、いくつかの実施形態による、適応型自律交渉システム５００の概略図である。システム５００は、システム３００（図３）と同様である。システム３００と比較して、システム５００は、新しい交渉人５１０と、新しい方針５２０と、リビューア（ｒｅｖｉｅｗｅｒ）５３０とを含む。いくつかの実施形態では、システム５００は、方法２００（図２）および／または方法４００（図４）を実施するために使用可能である。いくつかの実施形態では、システム５００は、方法２００または方法４００とは異なる方法を実施するために使用可能である。いくつかの実施形態では、システム５００は、新しい交渉人５１０または新しい方針５２０のうちの一方のみを含む。

【0068】

新しい交渉人５１０および／または新しい方針５２０は、計算機端末３１０によってアクセス可能である。いくつかの実施形態では、新しい交渉人５１０および／または新しい方針５２０は、計算機端末３１０内に記憶される。いくつかの実施形態では、新しい交渉人５１０および／または新しい方針５２０は、計算機端末３１０によってアクセス可能なデータベースなどの外部端末に記憶される。

【0069】

リビューア５３０は、新しい交渉人５１０および／または新しい方針５２０が計算機端末３１０に含まれるべきかどうかを決定するために使用可能である。いくつかの実施形態では、リビューア５３０は、方法４００（図４）の動作４２０、４３０、４４０、または４５０のうちの少なくとも１つを実施する。いくつかの実施形態では、リビューア５３０は、計算機端末３１０の一部である。いくつかの実施形態では、リビューア５３０は、計算機端末３１０とは別々である。

【0070】

図６は、いくつかの実施形態による、適応型自律交渉のためのシステム６００のブロック図である。システム６００は、ハードウェアプロセッサ６０２と、コンピュータプログラムコード６０６、すなわち、実行可能命令の集合で符号化された、すなわち、それらを記憶している非一時的コンピュータ可読記憶媒体６０４とを含む。コンピュータ可読記憶媒体６０４はまた、データベースなどの外部端末とインターフェースするための命令６０７で符号化される。プロセッサ６０２は、バス６０８を介してコンピュータ可読記憶媒体６０４に電気的に結合される。プロセッサ６０２はまた、バス６０８によってＩ／Ｏインターフェース６１０に電気的に結合される。ネットワークインターフェース６１２はまた、バス６０８を介してプロセッサ６０２に電気的に接続される。ネットワークインターフェース６１２は、プロセッサ６０２およびコンピュータ可読記憶媒体６０４がネットワーク６１４を介して外部要素に接続することが可能であるように、ネットワーク６１４に接続される。プロセッサ６０２は、方法２００（図２）または方法４００（図４）で説明した動作の一部またはすべてを実施するためにシステム６００を使用可能にするために、コンピュータ可読記憶媒体６０４に符号化されたコンピュータプログラムコード６０６を実行するように構成される。いくつかの実施形態では、システム６００は、システム３００（図３）および／またはシステム５００（図５）として使用可能である。

【0071】

いくつかの実施形態では、プロセッサ６０２は、中央処理装置（ＣＰＵ）、マルチプロセッサ、分散処理システム、特定用途向け集積回路（ＡＳＩＣ）、および／または適切な処理ユニットである。

【0072】

いくつかの実施形態では、コンピュータ可読記憶媒体６０４は、電子、磁気、光学、電磁、赤外線、および／または半導体システム（または装置もしくは端末）である。例えば、コンピュータ可読記憶媒体６０４は、半導体もしくはソリッドステートメモリ、磁気テープ、リムーバブルコンピュータディスケット、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、剛性磁気ディスク、および／または光ディスクを含む。光ディスクを使用するいくつかの実施形態では、コンピュータ可読記憶媒体６０４は、コンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、コンパクトディスク読み取り／書き込み（ＣＤ－Ｒ／Ｗ）、および／またはデジタルビデオディスク（ＤＶＤ）を含む。

【0073】

いくつかの実施形態では、記憶媒体６０４は、システム６００に方法２００または方法４００を実施させるように構成されたコンピュータプログラムコード６０６を記憶する。いくつかの実施形態では、記憶媒体６０４はまた、方法２００もしくは４００を実施するために必要な情報、ならびに交渉人パラメータ６１６、方針パラメータ６１８、リビューアパラメータ６２０、条件パラメータ６２２、閾値パラメータ６２４、および／または方法２００もしくは４００の動作を実施するための実行可能命令の集合など、方法２００もしくは４００を実施する間に生成された情報を記憶する。

【0074】

いくつかの実施形態では、記憶媒体６０４は、外部端末とインターフェースするための命令６０７を記憶する。命令６０７は、プロセッサ６０２が外部端末と通信して方法２００または方法４００を効果的に実施することを可能にする。

【0075】

システム６００は、Ｉ／Ｏインターフェース６１０を含む。Ｉ／Ｏインターフェース５１０は、外部回路に結合される。いくつかの実施形態では、Ｉ／Ｏインターフェース６１０は、情報およびコマンドをプロセッサ６０２に通信するためのキーボード、キーパッド、マウス、トラックボール、トラックパッド、および／またはカーソル方向キーを含む。

【0076】

システム６００はまた、プロセッサ６０２に結合されたネットワークインターフェース６１２を含む。ネットワークインターフェース６１２は、システム６００が、１つまたは複数の他のコンピュータシステムが接続されるネットワーク６１４と通信することを可能にする。ネットワークインターフェース６１２は、ＢＬＵＥＴＯＯＴＨ（登録商標）、ＷＩＦＩ、ＷＩＭＡＸ、ＧＰＲＳ、もしくはＷＣＤＭＡ（登録商標）などの無線ネットワークインターフェース、またはＥＴＨＥＲＮＥＴ、ＵＳＢ、もしくはＩＥＥＥ－１３９４などの有線ネットワークインターフェースを含む。いくつかの実施形態では、方法２００または４００は、２つ以上のシステム６００で実施され、情報は、ネットワーク６１４を介して異なるシステム６００間で交換される。

【0077】

システム６００は、Ｉ／Ｏインターフェース６１０および／またはネットワークインターフェース６１２を通じて交渉人に関する情報を受信するように構成される。情報は、システム６００に包含するための交渉人を決定するために、バス６０８を介してプロセッサ６０２に転送される。次いで、交渉人は、交渉人パラメータ６１６としてコンピュータ可読媒体６０４に記憶される。システム６００は、Ｉ／Ｏインターフェース６１０および／またはネットワークインターフェース６１２を通じて方針に関する情報を受信するように構成される。情報は、システム６００に包含するための方針を決定するために、バス６０８を介してプロセッサ６０２に転送される。次いで、方針は、方針パラメータ６１８としてコンピュータ可読媒体６０４に記憶される。システム６００は、Ｉ／Ｏインターフェース６１０および／またはネットワークインターフェース６１２を通じてリビューアに関する情報を受信するように構成される。情報は、システム６００に包含するためのリビューアを実装するために、バス６０８を介してプロセッサ６０２に転送される。次いで、リビューア情報は、リビューアパラメータ６２０としてコンピュータ可読媒体６０４に記憶される。システム６００は、Ｉ／Ｏインターフェース６１０および／またはネットワークインターフェース６１２を通じて、システム６００に新しい方針または交渉人を含めるための条件に関する情報を受信するように構成される。情報は、バス６０８を介してプロセッサ６０２に転送される。次いで、条件は、条件パラメータ６２２としてコンピュータ可読媒体６０４に記憶される。システム６００は、Ｉ／Ｏインターフェース６１０および／またはネットワークインターフェース６１２を通じて、新しい方針または新しい交渉人の追加を推奨するかどうかを決定するための閾値に関する情報を受信するように構成される。情報は、バス６０８を介してプロセッサ６０２に転送される。次いで、閾値情報は、閾値パラメータ６２４としてコンピュータ可読媒体６０４に記憶される。

【0078】

本明細書の一態様は、適応型自律交渉の方法に関する。方法は、受信機を使用して、第１の提案を受信することを含む。方法は、プロセッサを使用して、受信された第１の提案に基づいて、メモリに記憶されている複数の交渉人のうちの第１の交渉人を自動的に識別することをさらに含む。方法は、識別された第１の交渉人に基づいて、メモリに記憶されている複数の方針から第１の方針を自動的に選択することをさらに含む。方法は、選択された第１の方針に基づいて、選択された第１の方針に対して逆写像を実施することを含む、第１の提案に応答するための行動を自動的に選択することをさらに含む。方法は、送信機を使用して、選択された行動を自動的に送信することをさらに含む。いくつかの実施形態では、方法は、複数の交渉人のうちの対応する交渉人に基づいて、深層強化学習（ＤＲＬ）アルゴリズムを使用して複数の方針の各々を訓練することをさらに含む。いくつかの実施形態では、方法は、第２の提案を受信することと、受信された第２の提案に基づいて複数の交渉人のうちの第２の交渉人を自動的に識別することと、第２の交渉人が第１の交渉人と同じ交渉人であることに応答して、第１の方針を維持することと、第２の交渉人が第１の交渉人とは異なるという決定に応答して、識別された第２の交渉人に基づいて複数の方針のうちの第２の方針を自動的に選択することとをさらに含む。いくつかの実施形態では、方法は、メモリに複数の交渉からの結果を記憶することと、記憶された結果の拒否行動の数が閾値以上であるかどうかを決定することと、拒否行動の数が閾値以上であることに応答して、新しい方針を複数の方針に追加すること、または新しい交渉人を複数の交渉人に追加することを推奨することとをさらに含む。いくつかの実施形態では、方法は、新しい交渉人を受信することと、受信された新しい交渉人に基づいて新しい方針を訓練することであって、新しい方針を訓練することは、ＤＲＬアルゴリズムを使用して新しい方針を訓練することを含むことと、シミュレートされた交渉を使用して、訓練された新しい方針を複数の方針のうちの少なくとも１つの方針と比較することと、シミュレートされた交渉における訓練された新しい方針の結果が少なくとも１つの方針よりも優れているという決定に応答して、新しい交渉人を複数の交渉人に追加することとをさらに含む。いくつかの実施形態では、方法は、新しい方針を受信することと、シミュレートされた交渉を使用して、新しい方針を複数の方針のうちの少なくとも１つの方針と比較することと、シミュレートされた交渉における新しい方針の結果が少なくとも１つの方針よりも優れているという決定に応答して、新しい方針を複数の方針に追加することとをさらに含む。

【0079】

本明細書の一態様は、適応型自律交渉システムに関する。システムは、第１の提案を受信するように構成された受信機を含む。システムは、複数の交渉人および複数の方針を記憶するように構成され、命令を記憶するようにさらに構成された非一時的コンピュータ可読媒体をさらに含む。システムは、プロセッサをさらに含む。プロセッサは、受信された第１の提案に基づいて複数の交渉人のうちの第１の交渉人を自動的に識別し、識別された第１の交渉人に基づいて複数の方針から第１の方針を自動的に選択し、選択された第１の方針に基づいて第１の提案に応答するための行動を自動的に選択し、選択された行動を送信するように送信機に自動的に命令するための命令を実行するように構成される。いくつかの実施形態では、受信機は、第２の提案を受信するようにさらに構成され、プロセッサは、受信された第２の提案に基づいて複数の交渉人のうちの第２の交渉人を自動的に識別し、第２の交渉人が第１の交渉人と同じ交渉人であることに応答して、第１の方針を維持し、第２の交渉人が第１の交渉人とは異なるという決定に応答して、識別された第２の交渉人に基づいて複数の方針のうちの第２の方針を自動的に選択するための命令を実行するようにさらに構成される。いくつかの実施形態では、プロセッサは、複数の交渉からの結果を記憶するように非一時的コンピュータ可読媒体に命令し、記憶された結果の拒否行動の数が閾値以上であるかどうかを決定し、拒否行動の数が閾値以上であることに応答して、新しい方針を複数の方針に追加するため、または新しい交渉人を複数の交渉人に追加するための推奨を生成するための命令を実行するように構成される。いくつかの実施形態では、受信機は、新しい交渉人を受信するように構成され、プロセッサは、受信された新しい交渉人に基づいて新しい方針を訓練し、シミュレートされた交渉を使用して、訓練された新しい方針を複数の方針のうちの少なくとも１つの方針と比較し、シミュレートされた交渉における訓練された新しい方針の結果が少なくとも１つの方針よりも優れているという決定に応答して、新しい交渉人を複数の交渉人に追加するための命令を実行するようにさらに構成される。

【0080】

本明細書の一態様は、適応型自律交渉の方法に関する。方法は、受信機を使用して、第１の提案を受信することを含む。方法は、受信された第１の提案に基づいてメモリから複数の交渉人を自動的に識別することをさらに含む。方法は、識別された複数の交渉人に基づいてメモリから複数の方針を自動的に選択することをさらに含む。方法は、識別された複数の交渉人に基づいて選択された複数の方針の各々について複数の重みを自動的に選択することをさらに含む。方法は、選択された複数の方針に基づいて、計算された複数の重みを使用して選択された複数の方針に対して逆写像の重み付き和を実施することを含む、第１の提案に応答するための行動を自動的に選択することをさらに含む。方法は、送信機を使用して、選択された行動を自動的に送信することをさらに含む。いくつかの実施形態では、複数の交渉人を自動的に識別することは、確率を識別された複数の交渉人の各交渉人に割り当てることを含む。いくつかの実施形態では、複数の方針を自動的に選択することは、識別された複数の交渉人の各対応する交渉人の確率に基づいて複数の方針を自動的に選択することを含む。いくつかの実施形態では、方法は、第２の提案を受信することと、受信された第２の提案に基づいてメモリから第２の複数の交渉人を自動的に識別することと、第２の複数の交渉人が識別された複数の交渉人に等しいことに応答して、選択された複数の方針を維持することと、第２の複数の交渉人が識別された複数の交渉人とは異なるという決定に応答して、第２の複数の交渉人に基づいて第２の複数の方針を自動的に選択することとをさらに含む。いくつかの実施形態では、方法は、深層強化学習（ＤＲＬ）アルゴリズムを使用して交渉方針を訓練することと、交渉の状態を使用してＤＲＬアルゴリズムを訓練することとをさらに含む。いくつかの実施形態では、交渉の状態は、考慮される第１の提案または以前に受信された提案の少なくとも１つが交渉までどの程度進んでいるかに基づく。いくつかの実施形態では、方法は、行動の送信の確認を相手に送ることであって、確認は、視覚または音声通知を含む通知であることをさらに含む。いくつかの実施形態では、方法は、メモリに複数の交渉からの結果を記憶することと、記憶された結果の拒否行動の数が閾値以上であるかどうかを決定することと、拒否行動の数が閾値以上であることに応答して、新しい方針を複数の方針に追加すること、または新しい交渉人をメモリに追加することを推奨することとをさらに含む。いくつかの実施形態では、方法は、新しい交渉人を受信することと、受信された新しい交渉人に基づいて新しい方針を訓練することであって、新しい方針を訓練することは、ＤＲＬアルゴリズムを使用して新しい方針を訓練することを含むことと、シミュレートされた交渉を使用して、訓練された新しい方針を複数の方針のうちの少なくとも１つの方針と比較することと、シミュレートされた交渉における訓練された新しい方針の結果が少なくとも１つの方針よりも優れているという決定に応答して、新しい交渉人をメモリに追加することとをさらに含む。いくつかの実施形態では、方法は、新しい方針を受信することと、シミュレートされた交渉を使用して、新しい方針を複数の方針のうちの少なくとも１つの方針と比較することと、シミュレートされた交渉における新しい方針の結果が少なくとも１つの方針よりも優れているという決定に応答して、新しい方針をメモリに追加することとをさらに含む。

【0081】

上記は、当業者が本開示の態様をよりよく理解することができるように、いくつかの実施形態の特徴を概説している。当業者は、本明細書に導入された実施形態と同じ目的を実行し、かつ／または同じ利点を達成するための他のプロセスおよび構造を設計または修正するための基礎として本開示を容易に使用することができることを理解するべきである。当業者はまた、そのような同等の構成が本開示の精神および範囲から逸脱するものではなく、本開示の精神および範囲から逸脱することなく本明細書において様々な変更、置換、および改変を行うことができることを認識するべきである。

【0082】

また、上記の実施形態の一部またはすべては、以下の付記のようにも記載され得るが、これらに限定されない。

【0083】

（付記１）
受信機を使用して、第１の提案を受信することと、
プロセッサを使用して、前記受信された第１の提案に基づいて、メモリに記憶されている複数の交渉人のうちの第１の交渉人を自動的に識別することと、
前記識別された第１の交渉人に基づいて、前記メモリに記憶されている複数の方針から第１の方針を自動的に選択することと、
前記選択された第１の方針に基づいて、前記選択された第１の方針に対して逆写像を実施することを含む、前記第１の提案に応答するための行動を自動的に選択することと、
送信機を使用して、前記選択された行動を自動的に送信することと
を含む、適応型自律交渉方法。

【0084】

（付記２）
前記複数の交渉人のうちの対応する交渉人に基づいて、深層強化学習（ＤＲＬ）アルゴリズムを使用して前記複数の方針の各々を訓練することをさらに含む、付記１に記載の方法。

【0085】

（付記３）
第２の提案を受信することと、
前記受信された第２の提案に基づいて前記複数の交渉人のうちの第２の交渉人を自動的に識別することと、
前記第２の交渉人が前記第１の交渉人と同じ交渉人であることに応答して、前記第１の方針を維持することと、
前記第２の交渉人が前記第１の交渉人とは異なるという決定に応答して、前記識別された第２の交渉人に基づいて前記複数の方針のうちの第２の方針を自動的に選択することと
をさらに含む、付記１に記載の方法。

【0086】

（付記４）
前記メモリに複数の交渉からの結果を記憶することと、
前記記憶された結果の拒否行動の数が閾値以上であるかどうかを決定することと、
前記拒否行動の数が前記閾値以上であることに応答して、新しい方針を前記複数の方針に追加すること、または新しい交渉人を前記複数の交渉人に追加することを推奨することと
をさらに含む、付記１に記載の方法。

【0087】

（付記５）
新しい交渉人を受信することと、
前記受信された新しい交渉人に基づいて新しい方針を訓練することであって、前記新しい方針を訓練することは、ＤＲＬアルゴリズムを使用して前記新しい方針を訓練することを含むことと、
シミュレートされた交渉を使用して、前記訓練された新しい方針を前記複数の方針のうちの少なくとも１つの方針と比較することと、
前記シミュレートされた交渉における前記訓練された新しい方針の結果が前記少なくとも１つの方針よりも優れているという決定に応答して、前記新しい交渉人を前記複数の交渉人に追加することと
をさらに含む、付記１に記載の方法。

【0088】

（付記６）
新しい方針を受信することと、
シミュレートされた交渉を使用して、前記新しい方針を前記複数の方針のうちの少なくとも１つの方針と比較することと、
前記シミュレートされた交渉における前記新しい方針の結果が前記少なくとも１つの方針よりも優れているという決定に応答して、前記新しい方針を前記複数の方針に追加することと
をさらに含む、付記１に記載の方法。

【0089】

（付記７）
第１の提案を受信するように構成された受信機と、
複数の交渉人および複数の方針を記憶するように構成され、命令を記憶するようにさらに構成された非一時的コンピュータ可読媒体と、
前記受信された第１の提案に基づいて前記複数の交渉人のうちの第１の交渉人を自動的に識別し、
前記識別された第１の交渉人に基づいて複数の方針から第１の方針を自動的に選択し、
前記選択された第１の方針に基づいて前記第１の提案に応答するための行動を自動的に選択し、
前記選択された行動を送信するように送信機に自動的に命令する
ための前記命令を実行するように構成されたプロセッサと
を備える、適応型自律交渉システム。

【0090】

（付記８）
前記受信機は、第２の提案を受信するようにさらに構成され、前記プロセッサは、
前記受信された第２の提案に基づいて前記複数の交渉人のうちの第２の交渉人を自動的に識別し、
前記第２の交渉人が前記第１の交渉人と同じ交渉人であることに応答して、前記第１の方針を維持し、
前記第２の交渉人が前記第１の交渉人とは異なるという決定に応答して、前記識別された第２の交渉人に基づいて前記複数の方針のうちの第２の方針を自動的に選択する
ための前記命令を実行するようにさらに構成される、付記７に記載のシステム。

【0091】

（付記９）
前記プロセッサは、
複数の交渉からの結果を記憶するように前記非一時的コンピュータ可読媒体に命令し、
前記記憶された結果の拒否行動の数が閾値以上であるかどうかを決定し、
前記拒否行動の数が前記閾値以上であることに応答して、新しい方針を前記複数の方針に追加するため、または新しい交渉人を前記複数の交渉人に追加するための推奨を生成する
ための前記命令を実行するように構成される、付記７に記載のシステム。

【0092】

（付記１０）
前記受信機は、新しい交渉人を受信するように構成され、前記プロセッサは、
前記受信された新しい交渉人に基づいて新しい方針を訓練し、
シミュレートされた交渉を使用して、前記訓練された新しい方針を前記複数の方針のうちの少なくとも１つの方針と比較し、
前記シミュレートされた交渉における前記訓練された新しい方針の結果が前記少なくとも１つの方針よりも優れているという決定に応答して、前記新しい交渉人を前記複数の交渉人に追加する
ための前記命令を実行するようにさらに構成される、付記７に記載のシステム。

【0093】

（付記１１）
受信機を使用して、第１の提案を受信することと、
前記受信された第１の提案に基づいてメモリから複数の交渉人を自動的に識別することと、
前記識別された複数の交渉人に基づいて前記メモリから複数の方針を自動的に選択することと、
前記識別された複数の交渉人に基づいて前記選択された複数の方針の各々について複数の重みを自動的に選択することと、
前記選択された複数の方針に基づいて、前記計算された複数の重みを使用して前記選択された複数の方針に対して逆写像の重み付き和を実施することを含む、前記第１の提案に応答するための行動を自動的に選択することと、
送信機を使用して、前記選択された行動を自動的に送信することと
を含む、適応型自律交渉方法。

【0094】

（付記１２）
前記複数の交渉人を自動的に識別することは、確率を前記識別された複数の交渉人の各交渉人に割り当てることを含む、付記１１に記載の方法。

【0095】

（付記１３）
前記複数の方針を自動的に選択することは、前記識別された複数の交渉人の各対応する交渉人の前記確率に基づいて前記複数の方針を自動的に選択することを含む、付記１２に記載の方法。

【0096】

（付記１４）
第２の提案を受信することと、
前記受信された第２の提案に基づいて前記メモリから第２の複数の交渉人を自動的に識別することと、
前記第２の複数の交渉人が前記識別された複数の交渉人に等しいことに応答して、前記選択された複数の方針を維持することと、
前記第２の複数の交渉人が前記識別された複数の交渉人とは異なるという決定に応答して、前記第２の複数の交渉人に基づいて第２の複数の方針を自動的に選択することと
をさらに含む、付記１１に記載の方法。

【0097】

（付記１５）
深層強化学習（ＤＲＬ）アルゴリズムを使用して前記交渉方針を訓練することと、
前記交渉の状態を使用して前記ＤＲＬアルゴリズムを訓練することと
をさらに含む、付記１１に記載の方法。

【0098】

（付記１６）
前記交渉の前記状態は、考慮される前記第１の提案または以前に受信された提案の少なくとも１つが前記交渉までどの程度進んでいるかに基づく、付記１５に記載の方法。

【0099】

（付記１７）
前記行動の前記送信の確認を相手に送ることであって、前記確認は、視覚または音声通知を含む通知であること
をさらに含む、付記１１に記載の方法。

【0100】

（付記１８）
前記メモリに複数の交渉からの結果を記憶することと、
前記記憶された結果の拒否行動の数が閾値以上であるかどうかを決定することと、
前記拒否行動の数が前記閾値以上であることに応答して、新しい方針を前記複数の方針に追加すること、または新しい交渉人を前記メモリに追加することを推奨することと
をさらに含む、付記１１に記載の方法。

【0101】

（付記１９）
新しい交渉人を受信することと、
前記受信された新しい交渉人に基づいて新しい方針を訓練することであって、前記新しい方針を訓練することは、ＤＲＬアルゴリズムを使用して前記新しい方針を訓練することを含むことと、
シミュレートされた交渉を使用して、前記訓練された新しい方針を前記複数の方針のうちの少なくとも１つの方針と比較することと、
前記シミュレートされた交渉における前記訓練された新しい方針の結果が前記少なくとも１つの方針よりも優れているという決定に応答して、前記新しい交渉人を前記メモリに追加することと
をさらに含む、付記１１に記載の方法。

【0102】

（付記２０）
新しい方針を受信することと、
シミュレートされた交渉を使用して、前記新しい方針を前記複数の方針のうちの少なくとも１つの方針と比較することと、
前記シミュレートされた交渉における前記新しい方針の結果が前記少なくとも１つの方針よりも優れているという決定に応答して、前記新しい方針を前記メモリに追加することと
をさらに含む、付記１１に記載の方法。

【0103】

本出願は、２０２０年１０月７日に出願された米国仮特許出願第６３／０８８，４５２号明細書、および２０２１年２月２５日に出願された米国特許出願第１７／１８４，５９０号明細書の優先権を主張する。これらの出願の開示は、その全体が本明細書に組み込まれる。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版