IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

<>
  • 特表-自動交渉エージェント適応 図1
  • 特表-自動交渉エージェント適応 図2
  • 特表-自動交渉エージェント適応 図3
  • 特表-自動交渉エージェント適応 図4
  • 特表-自動交渉エージェント適応 図5
  • 特表-自動交渉エージェント適応 図6
  • 特表-自動交渉エージェント適応 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-12-17
(54)【発明の名称】自動交渉エージェント適応
(51)【国際特許分類】
   G06N 20/00 20190101AFI20241210BHJP
【FI】
G06N20/00
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024536105
(86)(22)【出願日】2022-12-21
(85)【翻訳文提出日】2024-06-17
(86)【国際出願番号】 JP2022047222
(87)【国際公開番号】W WO2023120607
(87)【国際公開日】2023-06-29
(31)【優先権主張番号】63/292,383
(32)【優先日】2021-12-21
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】17/575,908
(32)【優先日】2022-01-14
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100149548
【弁理士】
【氏名又は名称】松沼 泰史
(74)【代理人】
【識別番号】100181135
【弁理士】
【氏名又は名称】橋本 隆史
(72)【発明者】
【氏名】セングプタ アヤン
(72)【発明者】
【氏名】モハメド ヤセル ファルコオスマン
(72)【発明者】
【氏名】中台 慎二
(57)【要約】
自動交渉エージェント適応は、支援エージェントが第1の交渉戦略モデルに従って動作している間、支援エージェントと相手エージェントとの間の自動交渉に伴う効用関数の変化を検出し、支援エージェントがベースライン交渉戦略モデルに従って動作している間、支援エージェントと相手エージェントとの間の自動交渉から複数の訓練サンプルを生成し、かつ複数の訓練サンプルを使用して初期化された交渉戦略モデルを訓練し、第2の交渉戦略モデルを発生させることによって実施される。
【特許請求の範囲】
【請求項1】
コンピュータに、
支援エージェントが第1の交渉戦略モデルに従って動作している間の前記支援エージェントと相手エージェントとの間の自動交渉に伴う効用関数の変化を検出することと、
前記支援エージェントがベースライン交渉戦略モデルに従って動作している間の前記支援エージェントと前記相手エージェントとの間の自動交渉から複数の訓練サンプルを生成することと、
前記複数の訓練サンプルを使用して初期化された交渉戦略モデルを訓練して、第2の交渉戦略モデルを発生させることと
を含む動作を実施させるための前記コンピュータによって実行可能な命令を含む、コンピュータ可読媒体。
【請求項2】
前記効用関数は、前記相手エージェントの相手効用関数である、請求項1に記載のコンピュータ可読媒体。
【請求項3】
前記変化を検出することは、
前記支援エージェントが前記第1の交渉戦略モデルに従って動作している間の前記支援エージェントと前記相手エージェントとの間の自動交渉から最近の交渉トレースを取得することであって、前記交渉トレースは、複数の時間ステップを含み、前記複数の時間ステップのうちの各時間ステップは、相手エージェントオファーおよび支援エージェントオファーを含むことと、
前記支援エージェントが前記最近の交渉トレースの前記相手エージェントオファーを、前記第1の交渉戦略モデルに従って動作している間の前記支援エージェントと前記相手エージェントとの間の自動交渉からの以前の交渉トレースの相手エージェントオファーと比較することと
を含む、請求項2に記載のコンピュータ可読媒体。
【請求項4】
前記検出することは、前記相手効用関数の変化量を表す変化値を推定することをさらに含み、
前記生成することおよび訓練することは、前記変化値が閾値を超えると決定することに応答して実施される、
請求項3に記載のコンピュータ可読媒体。
【請求項5】
前記検出することは、周期的に実施される、請求項2に記載のコンピュータ可読媒体。
【請求項6】
前記効用関数は、前記支援エージェントの第1の支援効用関数である、請求項1に記載のコンピュータ可読媒体。
【請求項7】
前記動作は、
第2の支援効用関数を受信すること
をさらに含み、
前記変化を検出することは、前記第1の支援効用関数を前記第2の効用関数と比較することを含む、
請求項6に記載のコンピュータ可読媒体。
【請求項8】
前記比較することは、前記第1の支援効用関数と前記第2の支援効用関数との間の変化量を表す変化値を推定することを含み、
前記生成することおよび訓練することは、前記変化値が閾値を超えると決定することに応答して実施される、
請求項7に記載のコンピュータ可読媒体。
【請求項9】
前記検出することは、前記第2の支援効用関数の受信に応答して実施される、請求項7に記載のコンピュータ可読媒体。
【請求項10】
前記複数の訓練サンプルを生成することは、前記支援エージェントがベースライン交渉戦略モデルに従って動作している間、前記支援エージェントと前記相手エージェントとの間の自動交渉から交渉トレースを取得することを含み、前記交渉トレースは、複数の時間ステップを含み、前記複数の時間ステップのうちの各時間ステップは、相手エージェントオファーおよび支援エージェントオファーを含む、請求項1に記載のコンピュータ可読媒体。
【請求項11】
前記複数のサンプルのうちの各訓練サンプルは、入力として、第1の時間ステップからの前記複数の時間ステップのうちの連続する時間ステップの一部と、前記一部に続く前記複数の時間ステップのうちの後続の時間ステップの相手エージェントオファーとを含み、ラベルとして前記後続の時間ステップの支援エージェントオファーをさらに含む、請求項10に記載のコンピュータ可読媒体。
【請求項12】
前記複数の訓練サンプルを生成することは、
前記交渉トレースの前記最終的に合意されたオファーの効用値に基づいて各訓練サンプルを重み付けすることであって、前記効用値は、支援効用関数を前記最終的に合意されたオファーに適用することによって取得されること
を含む、請求項11に記載のコンピュータ可読媒体。
【請求項13】
前記訓練することは、
ランダム値で前記第1の交渉戦略モデルの一部を初期化することによって、初期化された交渉戦略モデルを生成すること
を含む、請求項1に記載のコンピュータ可読媒体。
【請求項14】
支援エージェントが第1の交渉戦略モデルに従って動作している間の前記支援エージェントと相手エージェントとの間の自動交渉に伴う効用関数の変化を検出することと、
前記支援エージェントがベースライン交渉戦略モデルに従って動作している間の前記支援エージェントと前記相手エージェントとの間の自動交渉から複数の訓練サンプルを生成することと、
前記複数の訓練サンプルを使用して初期化された交渉戦略モデルを訓練して、第2の交渉戦略モデルを発生させることと
を含む、コンピュータ実装方法。
【請求項15】
前記効用関数は、前記相手エージェントの相手効用関数である、請求項14に記載のコンピュータ実装方法。
【請求項16】
前記変化を検出することは、
前記支援エージェントが前記第1の交渉戦略モデルに従って動作している間の前記支援エージェントと前記相手エージェントとの間の自動交渉から最近の交渉トレースを取得することであって、前記交渉トレースは、複数の時間ステップを含み、前記複数の時間ステップのうちの各時間ステップは、相手エージェントオファーおよび支援エージェントオファーを含むことと、前記最近の交渉トレースの前記相手エージェントオファーを、前記支援エージェントが前記第1の交渉戦略モデルに従って動作している間の前記支援エージェントと前記相手エージェントとの間の自動交渉からの以前の交渉トレースの相手エージェントオファーと比較することと
を含む、請求項15に記載のコンピュータ実装方法。
【請求項17】
前記検出することは、前記相手効用関数の変化量を表す変化値を推定することをさらに含み、
前記生成することおよび訓練することは、前記変化値が閾値を超えると決定することに応答して実施される、
請求項16に記載のコンピュータ実装方法。
【請求項18】
前記効用関数は、前記支援エージェントの第1の支援効用関数である、請求項14に記載のコンピュータ実装方法。
【請求項19】
第2の支援効用関数を受信すること
をさらに含み、
前記変化を検出することは、前記第1の支援効用関数を前記第2の効用関数と比較することを含む、
請求項18に記載のコンピュータ実装方法。
【請求項20】
支援エージェントが第1の交渉戦略モデルに従って動作している間の前記支援エージェントと相手エージェントとの間の自動交渉に伴う効用関数の変化を検出し、
前記支援エージェントがベースライン交渉戦略モデルに従って動作している間の前記支援エージェントと前記相手エージェントとの間の自動交渉から複数の訓練サンプルを生成し、
前記複数の訓練サンプルを使用して初期化された交渉戦略モデルを訓練して、第2の交渉戦略モデルを発生させる
ように構成された回路を含むコントローラ
を備える、装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、コンピュータ可読媒体、コンピュータ実装方法、および装置に関する。
本出願は、2021年12月21日に出願された米国仮出願第63/292,383号明細書および2022年1月14日に出願された米国出願第17/575,908号明細書の優先権を主張し、その全内容は、参照によりその全体が本明細書に組み込まれる。
【背景技術】
【0002】
交渉は、相互に有益な合意に達することを目指す2つ以上の当事者間の意思決定のプロセスである。自動交渉は、交渉に伴う時間および労力を削減して相互に有益な合意を達成するために、現実世界のエンティティに代わって行動する自動エージェント間の交渉を伴う。
【発明の概要】
【0003】
本開示の第1の例示的な態様によれば、コンピュータ可読媒体は、コンピュータに、支援エージェントが第1の交渉戦略モデルに従って動作している間の前記支援エージェントと相手エージェントとの間の自動交渉に伴う効用関数の変化を検出することと、前記支援エージェントがベースライン交渉戦略モデルに従って動作している間の前記支援エージェントと前記相手エージェントとの間の自動交渉から複数の訓練サンプルを生成することと、前記複数の訓練サンプルを使用して初期化された交渉戦略モデルを訓練して、第2の交渉戦略モデルを発生させることとを含む動作を実施させるために前記コンピュータによって実行可能な命令を含む。
【0004】
本開示の第2の例示的な態様によれば、コンピュータ実装方法は、支援エージェントが第1の交渉戦略モデルに従って動作している間の前記支援エージェントと相手エージェントとの間の自動交渉に伴う効用関数の変化を検出することと、前記支援エージェントがベースライン交渉戦略モデルに従って動作している間の前記支援エージェントと前記相手エージェントとの間の自動交渉から複数の訓練サンプルを生成することと、前記複数の訓練サンプルを使用して初期化された交渉戦略モデルを訓練して、第2の交渉戦略モデルを発生させることとを含む。
【0005】
本開示の第3の例示的な態様によれば、装置は、支援エージェントが第1の交渉戦略モデルに従って動作している間の前記支援エージェントと相手エージェントとの間の自動交渉に伴う効用関数の変化を検出し、前記支援エージェントがベースライン交渉戦略モデルに従って動作している間の前記支援エージェントと前記相手エージェントとの間の自動交渉から複数の訓練サンプルを生成し、前記複数の訓練サンプルを使用して初期化された交渉戦略モデルを訓練して、第2の交渉戦略モデルを発生させるように構成された回路を含むコントローラを備える。
【図面の簡単な説明】
【0006】
本開示の態様は、添付の図と併せて読むと、以下の詳細な説明から最もよく理解される。業界の標準的な慣行に従って、様々な特徴は縮尺通りに描かれていないことに留意されたい。実際、様々な特徴の寸法は、説明を明確にするために任意に拡大または縮小されることがある。
図1】本開示の少なくともいくつかの実施形態による、自動交渉エージェント適応のためのシステムの概略図である。
図2】本開示の少なくともいくつかの実施形態による、自動交渉エージェント適応のための動作フローである。
図3】本開示の少なくともいくつかの実施形態による、相手効用関数(opposing utility function)変化検出のための動作フローである。
図4】本開示の少なくともいくつかの実施形態による、支援効用関数(supporting utility function)変化検出のための動作フローである。
図5】本開示の少なくともいくつかの実施形態による、訓練サンプル生成のための動作フローである。
図6】本開示の少なくともいくつかの実施形態による、交渉戦略モデル訓練のための動作フローである。
図7】本開示の少なくともいくつかの実施形態による、自動交渉エージェント適応のためのハードウェア構成のブロック図である。
【発明を実施するための形態】
【0007】
以下の開示は、提供される主題の異なる特徴を実施するための多くの異なる実施形態または例を提供する。以下、本開示を簡略化するために、構成要素、値、動作、材料、配置などの具体的な例を説明する。もちろん、これらは単なる例であり、限定することを意図するものではない。他の構成要素、値、動作、材料、配置なども考えられる。加えて、本開示は、様々な例において参照番号および/または文字を繰り返すことができる。この繰り返しは、単純化および明確化のためのものであり、それ自体は、説明した様々な実施形態および/または構成の間の関係を規定するものではない。
【0008】
バイラテラル自動交渉は、2つの自動エージェント間の交渉である。2つの固定エンティティ間で繰り返される交渉は、連続的な交渉である。例示的な交渉シナリオは、各エージェントの効用関数および交渉ドメインからなる。例示的な交渉プロトコルは、スタックされた交互オファープロトコルである。少なくともいくつかの実施形態では、各エージェントは、受入戦略と入札戦略の組み合わせである交渉戦略に従って動作する。
【0009】
少なくともいくつかの実施形態では、交渉ドメインは、1つまたは複数の問題からなる。交渉の結果スペースは、すべての可能な交渉結果のセットであり、少なくともいくつかの実施形態では、以下のように定義される。
【数1】
ここで、ωは、可能な結果であり、nは、結果スペースΩのカーナリティである。少なくともいくつかの実施形態では、効用関数は、U(ω)によって示される結果ωに、エンティティに対する利益の量を表す実数である効用値を割り当てる。多くの場合、効用関数は個人情報であり、エージェントは自身の効用関数にしかアクセスすることができない。少なくともいくつかの実施形態では、効用関数Uについての部分順序結果セットは、以下のように定義される。
【数2】

最終的な合意されたオファーは、ωとして示され、対応する効用値は、効用関数Uに対するU(ω)として示される。少なくともいくつかの実施形態では、エージェントはまた、合意がない場合にエンティティが受け取る利益である、uによって示される指定された予約値を有する。少なくともいくつかの実施形態では、Tによって示される交渉のトレースは、単一の交渉に対するエージェントによる交互ビッドのシーケンスであり、
【数3】
によって定義され、これは、ω 、ω がそれぞれステップiにおける相手側エージェントおよび支援エージェントによるオファーである、バイラテラル交渉のためのものである。少なくともいくつかの実施形態では、交渉トレースTは、2つの相互に排他的かつ網羅的なセットT={ω 、…、ω }およびT={ω 、…、ω }に分割することができ、ここで、TおよびTは、それぞれ支援エージェントオファーおよび相手エージェントオファーを含む交渉トレースである。少なくともいくつかの実施形態では、Hによって示される交渉履歴は、特定の交渉ドメインDに対する交渉トレースのセットであり、以下のように定義される。
【数4】

ここで、kは、交渉履歴内のトレースの数である。例示的なドメインの場合、携帯電話の企業、記憶スペース、および価格の問題を伴う交渉は、企業として企業Aおよび企業Bの値、記憶スペースとして64GBおよび128GBの値、ならびに価格として900ドルおよび600ドルの値を含む。この例では、ドメインは、3つの問題についての値のすべての可能な組み合わせを含む。3つの問題の各々は2つの可能性を有するので、値の可能な組み合わせの総数は8である。この例では、購入者の効用関数は、記憶スペースが多く、価格が低い組み合わせほど高い値を割り当てる可能性が高く、販売者の効用関数は、記憶スペースが少なく、価格が高い組み合わせほど高い値を割り当てる可能性が高い。
【0010】
以前の交渉トレースの記録などの履歴データが利用可能な場合、機械学習技術を使用して、ドメイン固有の交渉戦略を作成することができる。しかし、そのような戦略は、頻繁な交渉中に交渉における相手エージェントの効用関数が変化すると、あまり適格でなくなる。
【0011】
本明細書に記載の少なくともいくつかの実施形態によれば、交渉エージェントは、履歴データから交渉すると共に、相手エージェントの効用関数の変化に適応するように訓練される。そうすることで、本明細書の少なくともいくつかの実施形態は、交渉エージェントがより効率的に合意を交渉し、効用関数が変化した場合により高い利益の結果を取得することを可能にする。本明細書の少なくともいくつかの実施形態は、相手エージェントの効用関数の変化を検出することを含む。そうすることで、本明細書の少なくともいくつかの実施形態は、交渉エージェントが経時的に学習および改善を続けることを可能にする。
【0012】
本明細書の少なくともいくつかの実施形態では、パラメータベースの転送学習アプローチは、現在訓練されている交渉戦略モデルおよび新たに訓練されている交渉戦略モデルの共有パラメータを介して知識を転送することを伴う。少なくともいくつかの実施形態では、ソースドメインで訓練される現在訓練されている交渉戦略モデルは、既に明確に定義された構造を学習しており、タスクはいずれの効用関数への変更によっても変化しないため、構造は新たに訓練されている交渉戦略モデルに転送可能である。
【0013】
図1は、本開示の少なくともいくつかの実施形態による、自動交渉エージェント適応のためのシステムの概略図である。システムは、装置100と、支援エージェント112と、相手エージェント119とを含む。少なくともいくつかの実施形態では、装置100および支援エージェント112は、自動交渉エージェント適応を実施するためにコントローラによって実行される命令を含む、パーソナルコンピュータ、サーバ、メインフレーム、クラウドコンピューティングのインスタンスなどの1つまたは複数のコンピュータである。
【0014】
装置100は、支援エージェント110と通信しており、検出セクション170と、生成セクション172と、訓練セクション174とを含む。少なくともいくつかの実施形態では、検出セクション170は、支援エージェント110の支援効用関数および相手エージェント119の相手効用関数などの効用関数の変化を検出するように構成される。少なくともいくつかの実施形態では、検出セクション170は、相手効用関数変化検出のために、交渉トレース記憶部120から最近のトレース124および過去のトレース122を受信するように構成される。少なくともいくつかの実施形態では、検出セクション170は、支援効用関数変化検出のために、支援効用関数記憶部116から現在のおよび更新された支援効用関数を受信するように構成される。
【0015】
少なくともいくつかの実施形態では、生成セクション172は、検出セクションが効用関数変化を検出することに応答して訓練サンプルを生成するように構成される。少なくともいくつかの実施形態では、生成セクション172は、訓練サンプル生成のためのベースライントレース126を受信するように構成される。少なくともいくつかの実施形態では、生成セクション172は、交渉戦略モデル訓練で使用するために、複数の訓練サンプルを訓練セクション174に送信するように構成される。
【0016】
少なくともいくつかの実施形態では、訓練セクション174は、交渉戦略モデルを訓練するように構成される。少なくともいくつかの実施形態では、訓練セクション174は、交渉戦略モデル訓練のための訓練サンプル184およびコンテキスト情報115を受信するように構成される。少なくともいくつかの実施形態では、訓練セクション174は、ライブ自動交渉で使用するために、訓練された交渉戦略モデルを支援エージェント110に送信するように構成される。
【0017】
少なくともいくつかの実施形態では、支援エージェント110は、相手エージェント119との自動交渉を実施するように構成され、それによりオファー118は、オファーが受け入れられるまで交互に送信される。少なくともいくつかの実施形態では、支援エージェント110は、ベースライン交渉戦略モデル112または訓練交渉戦略モデル114などの交渉戦略モデルに従って動作するように構成される。少なくともいくつかの実施形態では、支援エージェント110は、相手エージェント119からの未処理のオファーおよびコンテキスト情報115に基づいてカウンタオファーを選択するように構成される。少なくともいくつかの実施形態では、コンテキスト情報115は、利益の量に影響を与える動的情報である。
【0018】
少なくともいくつかの実施形態では、ベースライン交渉戦略モデル112は、支援効用関数に基づいてオファーおよびカウンタオファーを選択するためのアルゴリズムである。少なくともいくつかの実施形態では、ベースライン交渉戦略モデル112は、特に、相手エージェント119との交渉のために訓練されない。少なくともいくつかの実施形態では、訓練された交渉戦略モデル114は、オファーおよびカウンタオファーを選択するために訓練された機械学習モデルである。少なくともいくつかの実施形態では、訓練された交渉戦略モデル114は、特に、相手エージェント119との交渉のために訓練される。
【0019】
図2は、本開示の少なくともいくつかの実施形態による、自動交渉エージェント適応のための動作フローである。動作フローは、自動交渉エージェント適応の方法を提供する。少なくともいくつかの実施形態では、方法は、以下に説明する図7に示すコントローラおよび装置など、特定の動作を実施するためのセクションを含む装置のコントローラによって実施される。
【0020】
S230において、検出セクションは、効用関数の変化を検出する。少なくともいくつかの実施形態では、検出セクションは、支援エージェントが第1の交渉戦略モデルに従って動作している間の支援エージェントと相手エージェントとの間の自動交渉に伴う効用関数の変化を検出する。少なくともいくつかの実施形態では、検出セクションは、相手エージェントの相手効用関数および支援エージェントの第1の支援効用関数の変化を検出する。少なくともいくつかの実施形態では、相手効用関数変化検出は、以下に説明する図3に示すように進行する。少なくともいくつかの実施形態では、支援効用関数変化検出は、以下に説明する図4に示すように進行する。少なくともいくつかの実施形態では、検出セクションは、一度に1つの効用関数の変化のみを検出する。
【0021】
S240において、生成セクションは、ベースライン戦略モデルに従って交渉から訓練サンプルを生成する。少なくともいくつかの実施形態では、生成セクションは、支援エージェントがベースライン交渉戦略モデルに従って動作している間、支援エージェントと相手エージェントとの間の自動交渉から複数の訓練サンプルを生成する。少なくともいくつかの実施形態では、生成セクションは、ベースライン戦略モデルに従って交渉するように支援エージェントに命令する。少なくともいくつかの実施形態では、生成セクションは、複数の完全な交渉(complete negotiation)から訓練サンプルを生成する。少なくともいくつかの実施形態では、生成セクションは、各完全な交渉から複数の訓練サンプルを生成する。
【0022】
S250において、生成セクションは、十分な数の訓練サンプルが生成されたかどうかを決定する。少なくともいくつかの実施形態では、生成セクションは、訓練サンプルの数に基づいて十分な数の訓練サンプルが生成されたかどうかを決定する。少なくともいくつかの実施形態では、生成セクションは、訓練サンプルの1つまたは複数の資格に基づいて十分な数の訓練サンプルが生成されたかどうかを決定する。生成セクションが十分な数の訓練サンプルが生成されたと決定する場合、動作フローは、S260における新しい交渉戦略モデル訓練に進行する。生成セクションが十分な数の訓練サンプルがまだ生成されていないと決定する場合、動作フローは、S240における訓練サンプル生成に戻る。
【0023】
S260において、訓練セクションは、新しい交渉戦略モデルを訓練する。少なくともいくつかの実施形態では、訓練セクションは、複数の訓練サンプルを使用して初期化された交渉戦略モデルを訓練し、第2の交渉戦略モデルを発生させる。少なくともいくつかの実施形態では、訓練セクションは、訓練された交渉戦略モデルを支援エージェントに送信し、自動交渉において訓練された交渉戦略モデルを使用するように支援エージェントに命令する。
【0024】
図3は、本開示の少なくともいくつかの実施形態による、相手効用関数変化検出のための動作フローである。動作フローは、相手効用関数変化検出の方法を提供する。少なくともいくつかの実施形態では、方法は、以下に説明する図7に示す装置などの装置の検出セクションによって実施される。
【0025】
S332において、検出セクションまたはそのサブセクションは、最近の交渉トレースを取得する。少なくともいくつかの実施形態では、検出セクションは、支援エージェントが第1の交渉戦略モデルに従って動作している間、支援エージェントと相手エージェントとの間の自動交渉から最近の交渉トレースを取得し、交渉トレースは、複数の時間ステップを含み、複数の時間ステップにおける各時間ステップは、相手エージェントオファーおよび支援エージェントオファーを含む。少なくともいくつかの実施形態では、最近の交渉トレースは、最新の完全な交渉からの交渉トレースである。少なくともいくつかの実施形態では、検出セクションは、5つの最新の完全な交渉からの交渉トレースなど、2つ以上の最近の交渉トレースを取得する。少なくともいくつかの実施形態では、検出セクションは、支援エージェントから直接、または交渉トレース記憶部から最近の交渉トレースを取得する。
【0026】
S333において、検出セクションまたはそのサブセクションは、以前の交渉トレースを取得する。少なくともいくつかの実施形態では、検出セクションは、支援エージェントが第1の交渉戦略モデルに従って動作している間、支援エージェントと相手エージェントとの間の自動交渉から以前の交渉トレースを取得する。少なくともいくつかの実施形態では、以前の交渉トレースは、次いで第1の交渉戦略モデルを訓練するために使用された訓練サンプルを生成するために使用された交渉トレースである。少なくともいくつかの実施形態では、検出セクションは、第1の交渉戦略モデルを使用して、第1の5つの完全な交渉からの交渉トレースなど、2つ以上の以前の交渉トレースを取得する。少なくともいくつかの実施形態では、検出セクションは、支援エージェントから直接、または交渉トレース記憶部から以前の交渉トレースを取得する。
【0027】
S335において、検出セクションまたはそのサブセクションは、S332およびS333で取得された交渉トレースの相手オファーを比較する。少なくともいくつかの実施形態では、検出セクションは、支援エージェントが第1の交渉戦略モデルに従って動作している間の支援エージェントと相手エージェントとの間の自動交渉から最近の交渉トレースの相手エージェントオファーを、以前の交渉トレースの相手エージェントオファーと比較する。少なくともいくつかの実施形態では、検出セクションは、以前の交渉トレースにおける相手側オファーの平均頻度分布、および最近の交渉トレースにおける相手オファーの頻度分布のタプルに分類器を適用する。
【0028】
少なくともいくつかの実施形態では、分類器は、支援エージェントが現在訓練されている交渉戦略モデルを継続すべきか、または交渉戦略のための新しい交渉戦略モデルに適応すべきかどうかを分類するバイナリ分類器である。少なくともいくつかの実施形態では、分類器は、相手効用関数および支援効用関数が、連続する交渉のセットに対して有意に変化しないと仮定する。少なくともいくつかの実施形態では、
【数5】
は、相手エージェントオファーの頻度分布hを表し、ここで、f(ω )は、交渉トレースTにおける特定のオファーの発生数である。少なくともいくつかの実施形態では、
【数6】

は、交渉履歴Hにおける相手エージェントオファーの平均頻度分布hを示し、交渉履歴は、複数の以前の完全な交渉からの交渉トレースを含む。少なくともいくつかの実施形態では、分類器への入力は、タプル
【数7】
であり、ここで、Tnewは、最新の交渉のトレースであり、出力は、ブール値であり、現在訓練されている交渉戦略モデルの使用を継続するか、または効用関数の変化に適応するように新しい交渉戦略モデルを訓練するかどうかを提案する。少なくともいくつかの実施形態では、分類器は、最新のトレースのみを貪欲に使用する代わりに、複数の最近の交渉トレースを使用する。
【0029】
少なくともいくつかの実施形態では、分類器は、分類器を訓練するためのXGBOOSTベースの分類器であり、訓練データは、入力として
【数8】
および出力としてバイナリラベルを有する異なる効用関数を使用して合成的に生成されたデータセットである。少なくともいくつかの実施形態では、バイナリラベルは、
【数9】
で訓練される現在訓練されている交渉戦略モデルが、
【数10】
を用いた新たに訓練されている交渉戦略モデルよりも優れているかどうかを実際にテストすることによって生成される。コールドスタート中または分類器を訓練するのに十分なデータが利用できない場合などの少なくともいくつかの実施形態では、ワッサースタイン距離
【数11】
またはエネルギー距離
【数12】
ベースのアルゴリズムを使用して、相手オファーを比較する。
【0030】
S336において、検出セクションまたはそのサブセクションは、相手効用関数の変化値を推定する。少なくともいくつかの実施形態では、検出セクションは、相手効用関数の変化量を表す変化値を推定する。少なくともいくつかの実施形態では、変化値は、S335における動作などの相手オファー比較の出力である。分類器が相手オファー比較に使用される少なくともいくつかの実施形態では、分類器の出力は、ブール値であり、ブール値間の最終的な分類は、相手オファーのグループ間の差を表す数値に基づく。距離ベースのアルゴリズムが相手オファー比較に使用される少なくともいくつかの実施形態では、距離ベースのアルゴリズムは、タプル
【数13】
に適用されて推定変化値
【数14】

を発生させ、ここで、mは、推定変化値であり、Mは、距離ベースのアルゴリズムであり、
【数15】
である。
【0031】
S338において、検出セクションまたはそのサブセクションは、S336で推定した変化値が閾値を超えるかどうかを決定する。少なくともいくつかの実施形態では、閾値は、調節可能なハイパーパラメータである。少なくともいくつかの実施形態では、閾値を増加させると、新しい交渉戦略モデル訓練のより少ないインスタンスが得られ、これはより計算効率的であるが、あまり効果的ではない結果をもたらし、一方、閾値を減少させると、新しい交渉戦略モデル訓練のより多くのインスタンスが得られ、これはより計算効率的ではないが、より効果的な結果をもたらす。少なくともいくつかの実施形態では、閾値は、効率と有効性のトレードオフをバランスさせるように調節される。分類器が相手オファー比較に使用される少なくともいくつかの実施形態では、分類器の出力は、ブール値であり、ブール値間の最終的な分類は、相手オファーのグループ間の差を表す数値を閾値と比較することを伴う。式7などの相手オファー比較に距離ベースのアルゴリズムが使用される少なくともいくつかの実施形態では、推定変化値mは、閾値αと比較される。
【0032】
検出セクションが変化値が閾値を超えると決定する場合、動作フローは、S332における最近の交渉トレース取得に戻る前に、S339において、例えば所定の期間待機するだけの動作に進行する。言い換えれば、少なくともいくつかの実施形態では、検出することは、周期的に実施される。
【0033】
検出セクションが変化値が閾値を超えると決定する場合、動作フローは終了する。少なくともいくつかの実施形態では、相手効用関数変化検出のための動作フローの終了は、図2のS240およびS260における動作など、訓練サンプル生成、および最終的には新しい交渉戦略モデル訓練につながる。少なくともいくつかの実施形態では、生成することおよび訓練することは、変化値が閾値を超えると決定することに応答して実施される。
【0034】
図4は、本開示の少なくともいくつかの実施形態による、支援効用関数変化検出のための動作フローである。動作フローは、支援効用関数変化検出の方法を提供する。少なくともいくつかの実施形態では、方法は、以下に説明する図7に示す装置などの装置の検出セクションによって実施される。
【0035】
S431において、検出セクションまたはそのサブセクションは、更新された支援効用関数を受信する。少なくともいくつかの実施形態では、検出セクションは、第2の支援効用関数を受信する。少なくともいくつかの実施形態では、更新された支援効用関数を受信することは、支援効用関数変化検出をトリガする。少なくともいくつかの実施形態では、支援効用関数変化検出(S430)は、S434、S437、およびS438における動作を含み、S431における更新された支援効用関数の受信に応答して実施される。言い換えれば、少なくともいくつかの実施形態では、検出することは、第2の支援効用関数の受信に応答して実施される。
【0036】
少なくともいくつかの実施形態では、1つの単純な方法は、支援効用関数変化、すなわち、
【数16】
に応答して新しい交渉戦略モデルを常に訓練することである。少なくともいくつかの実施形態では、支援効用関数変化検出(S430)は、更新された支援効用関数の受信に応答してスキップされ、図2のS240およびS260における動作など、訓練サンプル生成、および最終的には新しい交渉戦略モデル訓練に直接つながる。しかし、支援効用関数の小さな変化は、現在訓練されている交渉戦略モデルの性能に常に影響を及ぼすとは限らない。少なくともいくつかの実施形態では、支援効用関数の変化は、現在訓練されている交渉戦略モデルの有効性に影響を与えるのに十分に有意にTsにおけるオファーの効用値に常に影響を及ぼすとは限らない。
【0037】
S434において、検出セクションまたはそのサブセクションは、以前の支援効用関数を更新された支援効用関数と比較する。少なくともいくつかの実施形態では、検出セクションは、第1の支援効用関数を第2の効用関数と比較する。支援効用関数が式2などの順序結果セットを含む少なくともいくつかの実施形態では、検出セクションは、以前の支援効用関数と更新された支援効用関数との間の結果の順序を比較する。
【0038】
少なくともいくつかの実施形態では、検出セクションは、レーベンシュタイン距離に基づくメトリック
【数17】
を使用して、2つの効用関数UとUとの間の変化を測定する。少なくともいくつかの実施形態では、|o|は、部分順序セットoの長さを示し、o[k]は、oのk番目の要素を示し、ここで、
【数18】
である。
【数19】
は、oのサブセットであり、
【数20】
として定義される。そして、
【数21】

ここで、
【数22】
は、効用関数Uについての部分順序結果セットであり、
【数23】
は、効用関数Uについての部分順序結果セットであり、
【数24】
であり、Lは、以下のように定義される。
【数25】
【0039】
一例、
【数26】

【数27】
と使用する少なくともいくつかの実施形態では、検出セクションは、
【数28】

【数29】
に変換するのに必要な編集動作(挿入、削除、または置換)の数を計算することによって、両方の支援効用関数について上位のnのオファーを比較する。
【0040】
S437において、検出セクションまたはそのサブセクションは、支援効用関数の変化値を推定する。少なくともいくつかの実施形態では、検出セクションは、第1の支援効用関数と第2の支援効用関数との間の変化量を表す変化値を推定する。少なくともいくつかの実施形態では、変化値は、S434における動作などの支援効用関数比較の出力である。検出セクションがレーベンシュタイン距離に基づくメトリック
【数30】
を使用して支援効用関数間の変化を測定する少なくともいくつかの実施形態では、検出セクションは、以下の関係を使用して変化値lを導出する:
【数31】

【数32】

【数33】

ここで、Uは、以前の支援効用関数であり、U newは、更新された支援効用関数であり、
【数34】
は、効用関数Uについての部分順序結果セットであり、u maxは、交渉履歴Hにおける最大合意効用であり、γおよびγは、ハイパーパラメータであり、ここで、γ>γ>0である。
【0041】
S438において、検出セクションまたはそのサブセクションは、S437で推定した変化値が閾値を超えるかどうかを決定する。少なくともいくつかの実施形態では、閾値は、調節可能なハイパーパラメータである。少なくともいくつかの実施形態では、閾値を増加させると、新しい交渉戦略モデル訓練のより少ないインスタンスが得られ、これはより計算効率的であるが、あまり効果的ではない結果をもたらし、一方、閾値を減少させると、新しい交渉戦略モデル訓練のより多くのインスタンスが得られ、これはより計算効率的ではないが、より効果的な結果をもたらす。少なくともいくつかの実施形態では、閾値は、効率と有効性のトレードオフをバランスさせるように調節される。検出セクションが式9~式11などのレーベンシュタイン距離に基づくメトリックを使用して支援効用関数間の変化を測定する少なくともいくつかの実施形態では、推定変化値lは、閾値
【数35】
と比較される。
【0042】
検出セクションが変化値が閾値を超えると決定する場合、動作フローは、S431における更新された支援効用関数の受信に戻る。
【0043】
検出セクションが変化値が閾値を超えると決定する場合、動作フローは終了する。少なくともいくつかの実施形態では、相手効用関数変化検出のための動作フローの終了は、図2のS240およびS260における動作など、訓練サンプル生成、および最終的には新しい交渉戦略モデル訓練につながる。少なくともいくつかの実施形態では、生成することおよび訓練することは、変化値が閾値を超えると決定することに応答して実施される。
【0044】
図5は、本開示の少なくともいくつかの実施形態による、訓練サンプル生成のための動作フローである。動作フローは、訓練サンプル生成の方法を提供する。少なくともいくつかの実施形態では、方法は、以下に説明する図7に示す装置などの装置の生成セクションによって実施される。
【0045】
S541において、生成セクションまたはそのサブセクションは、ベースライン交渉トレースを取得する。少なくともいくつかの実施形態では、生成セクションは、支援エージェントがベースライン交渉戦略モデルに従って動作している間、支援エージェントと相手エージェントとの間の自動交渉から交渉トレースを取得し、交渉トレースは、複数の時間ステップを含み、複数の時間ステップにおける各時間ステップは、相手エージェントオファーおよび支援エージェントオファーを含む。少なくともいくつかの実施形態では、生成セクションは、支援エージェントがベースライン交渉戦略モデルに従って動作している間、複数の交渉トレースを取得する。少なくともいくつかの実施形態では、レガシーシステムが、現在訓練されている交渉戦略モデルの代わりにベースライン交渉戦略モデルとして一時的に使用されて少数の完全な交渉について相手エージェントと交渉し、Hsmallとして示される最終的に合意されたオファーを有する少数の交渉トレースのセットを生成する。少なくともいくつかの実施形態では、レガシーシステムは、任意のタイプの互換性のある自動交渉エージェントの単一または複数のインスタンスを含む。少なくともいくつかの実施形態では、生成セクションは、支援エージェントから直接、または交渉トレース記憶部から最近の交渉トレースを取得する。
【0046】
S543において、生成セクションまたはそのサブセクションは、第1のi時間ステップを含むことによって単一の訓練サンプルの生成を開始する。少なくともいくつかの実施形態では、生成セクションは、第1のi-1時間ステップからの訓練サンプルにオファーの完全なセットを含む。少なくともいくつかの実施形態では、時間ステップからのオファーの完全なセットは、相手オファーと、支援オファーとを含む。少なくともいくつかの実施形態では、iは、2~nであり、反復ごとに1ずつ増加し、nは、交渉トレース内の時間ステップの数である。
【0047】
S544において、生成セクションまたはそのサブセクションは、時間ステップiの相手オファーを含むことによって単一の訓練サンプルを生成し続ける。少なくともいくつかの実施形態では、時間ステップiの相手オファーは、S543に含まれる第1のi-1時間ステップからの訓練サンプルにおけるオファーの完全なセットの後の相手オファーである。
【0048】
S545において、生成セクションまたはそのサブセクションは、時間ステップiの支援オファーで訓練サンプルをラベル付けすることによって単一の訓練サンプルを生成し続ける。少なくともいくつかの実施形態では、時間ステップiの支援オファーは、訓練セクションがモデルへの入力としてではなくラベルとして支援オファーを識別することができるように、訓練サンプルに含まれる。少なくともいくつかの実施形態では、S543、S544、およびS545の動作において、生成セクションは、複数のサンプルのうちの各訓練サンプルを、入力として、第1の時間ステップからの複数の時間ステップのうちの連続する時間ステップの一部と、その一部に続く複数の時間ステップのうちの後続の時間ステップの相手エージェントオファーとを含み、ラベルとして後続の時間ステップの支援エージェントオファーをさらに含むように生成する。少なくともいくつかの実施形態では、生成セクションは、訓練のためにすべての
【数36】
からの入力シーケンスおよびラベルのセットを生成し、ここで、交渉戦略モデルへの入力シーケンスIは、時間tまでのオファーのシーケンスであり、I={ω 、ω 、…、ω }として定義され、ラベルO={ω }は、Tにおける次の後続の支援オファーである。
【0049】
S547において、生成セクションまたはそのサブセクションは、ベースライン交渉トレース内の時間ステップのすべてが処理されたかどうかを決定する。少なくともいくつかの実施形態では、生成セクションは、S543、S544、およびS545における動作が時間ステップnに対して実施された後、ベースライン交渉トレース内のすべての時間ステップが処理されたと決定する。生成セクションがベースライン交渉トレース内の未処理の時間ステップが残っていると決定する場合、動作フローはS543に戻り、S548においてiを1だけ増加させた後、次の時間ステップのための別の単一の訓練サンプルの生成を開始する。生成セクションがベースライン交渉トレース内の時間ステップのすべてが処理されたと決定する場合、動作フローは、S549における訓練サンプル重み付けに進行する。
【0050】
S549において、生成セクションまたはそのサブセクションは、訓練サンプルを重み付けする。少なくともいくつかの実施形態では、生成セクションは、交渉トレースの最終的に合意されたオファーの効用値に基づいて各訓練サンプルを重み付けし、効用値は、支援効用関数を最終的に合意されたオファーに適用することによって取得される。少なくともいくつかの実施形態では、生成セクションは、交渉トレースTから生成された訓練サンプルからの生成された入出力セットを使用しながら、クロスエントロピー損失についての損失重みとして(U(ω ))を使用することによって、最終的に合意されたオファーに対する効用値が低い交渉履歴H内の交渉トレースによって引き起こされる貧弱なモデル訓練を克服し、ここで、ω は、最終的に合意されたオファーであり、U(ω )は、最終的に合意されたオファーに対する効用値であり、kは、調節可能なハイパーパラメータである。
【0051】
図6は、本開示の少なくともいくつかの実施形態による、交渉戦略モデル訓練のための動作フローである。動作フローは、交渉戦略モデル訓練の方法を提供する。少なくともいくつかの実施形態では、方法は、以下に説明する図7に示す装置などの装置の訓練セクションによって実施される。
【0052】
S662において、訓練セクションまたはそのサブセクションは、現在訓練されている交渉戦略モデルの少なくとも一部を初期化する。少なくともいくつかの実施形態では、訓練セクションは、ランダム値で第1の交渉戦略モデルの一部を初期化する。少なくともいくつかの実施形態では、交渉戦略モデルは、最初に埋め込み層を有し、最後にソフトマックス活性化を伴う単一の高密度層を有する双方向ロングショートタームメモリ(LSTM)ベースのアーキテクチャを使用する。少なくともいくつかの実施形態では、埋め込み層は、支援エージェントと相手エージェントの両方の効用関数に関する部分情報を捕捉する。
【0053】
効用関数の変化は、少なくともいくつかの実施形態では、両方の効用関数の部分情報を捕捉する埋め込み層の使用に起因して、現在訓練されている交渉戦略モデルの性能を低下させる。少なくともいくつかの実施形態では、いずれかの効用関数が変化したときに埋め込み層が再訓練される。少なくともいくつかの実施形態では、埋め込み層と高密度層の両方が再訓練され、更新された相手または支援効用関数に関する新しい情報を再捕捉する。新しい戦略モデル訓練が更新された支援効用関数に応答する少なくともいくつかの実施形態では、訓練セクションは、現在訓練されている交渉戦略モデルからの双方向LSTM層の重みおよびバイアスを再使用して訓練可能なパラメータの総数を低減し、かつモデルを訓練するために利用される時間およびデータを低減する。少なくともいくつかの実施形態では、訓練セクションは、双方向LSTM層を維持しながら、ランダム値で埋め込み層および高密度層のうちの1つまたは複数を初期化する。
【0054】
S664において、訓練セクションまたはそのサブセクションは、交渉戦略モデルを訓練サンプルに適用する。少なくともいくつかの実施形態では、訓練セクションは、訓練サンプルを交渉戦略モデルに入力し、交渉戦略モデルから出力を読み取る。少なくともいくつかの実施形態では、訓練セクションは、訓練サンプルのオファーのシーケンスを入力し、交渉戦略モデルから出力支援オファーを読み取る。少なくともいくつかの実施形態では、訓練セクションはまた、コンテキストデータを交渉戦略モデルに入力する。
【0055】
S666において、訓練セクションまたはそのサブセクションは、交渉戦略モデルからの出力に基づいて交渉戦略モデルを調整する。少なくともいくつかの実施形態では、訓練セクションは、交渉戦略モデルからの出力を訓練サンプルのラベルと比較する。少なくともいくつかの実施形態では、訓練セクションは、出力支援オファーを、訓練サンプルがラベル付けされたベースライン交渉トレースからの実際の支援オファーと比較する。少なくともいくつかの実施形態では、訓練セクションは、損失関数を出力およびラベルに適用し、交渉戦略モデルの重みを調整するために使用される損失値を導出することによって交渉戦略モデルを調整する。少なくともいくつかの実施形態では、S666における戦略モデル調整は、S664、S666、S668、およびS669の動作の反復ごとに実施されるのではなく、反復回数に関して周期的に、または損失値が閾値を超えることに応答して実施される。
【0056】
S668において、訓練セクションまたはそのサブセクションは、終了条件が満たされているかどうかを決定する。少なくともいくつかの実施形態では、終了条件は、いくつかのエポックなどの訓練反復回数である。少なくともいくつかの実施形態では、終了条件は、損失値が閾値を下回ったときに満たされる。訓練セクションが終了条件がまだ満たされていないと決定する場合、動作フローは、S664における戦略モデル適用に戻る前に、次の訓練サンプルを選択するために進行する(S669)。訓練セクションが終了条件が満たされていると決定する場合、動作フローは終了する。
【0057】
少なくともいくつかの実施形態では、訓練セクションは、非常に小さい学習率および少数のエポックで交渉戦略モデル全体を微調整する。少なくともいくつかの実施形態では、微調整はより良好なモデル精度をもたらすが、最終的に合意されたオファーの効用値は、微調整なしの交渉戦略モデルで達した最終的に合意されたオファーと比較して大きくはない。
【0058】
図7は、本開示の少なくともいくつかの実施形態による、自動交渉エージェント適応のためのハードウェア構成のブロック図である。
【0059】
例示的なハードウェア構成は、支援エージェント710と相互作用し、ネットワーク707と通信する装置700を含む。少なくともいくつかの実施形態では、装置700は、支援エージェント710と一体化されている。少なくともいくつかの実施形態では、装置700は、物理ネットワーク機能デバイスアクセスのための動作を実施するコンピュータ可読命令を実行するコンピュータシステムである。
【0060】
装置700は、コントローラ702と、記憶ユニット704と、通信インターフェース706と、入出力インターフェース708とを含む。少なくともいくつかの実施形態では、コントローラ702は、命令を実行するプロセッサまたはプログラマブル回路を含み、命令は、プロセッサまたはプログラマブル回路に命令に従って動作を実施させる。少なくともいくつかの実施形態では、コントローラ702は、アナログもしくはデジタルプログラマブル回路、またはそれらの任意の組み合わせを含む。少なくともいくつかの実施形態では、コントローラ702は、通信を通して相互作用する物理的に分離された記憶装置または回路を含む。少なくともいくつかの実施形態では、記憶ユニット704は、命令の実行中にコントローラ702がアクセスするための実行可能データおよび実行不可能データを記憶することが可能な不揮発性コンピュータ可読媒体を含む。通信インターフェース706は、ネットワーク707との間でデータの送受信を行う。入出力インターフェース708は、パラレルポート、シリアルポート、キーボードポート、マウスポート、モニタポートなどを介して入力デバイス708に接続し、情報の交換を行う。
【0061】
コントローラ702は、検出セクション770と、生成セクション772と、訓練セクション774と、送信セクション886とを含む。記憶ユニット704は、効用関数780と、交渉トレース782と、訓練サンプル784と、訓練パラメータ786とを含む。
【0062】
検出セクション770は、効用関数に対する変化を検出するように構成されたコントローラ702の回路または命令である。少なくともいくつかの実施形態では、検出セクション770は、支援エージェントが第1の交渉戦略モデルに従って動作している間、支援エージェントと相手エージェントとの間の自動交渉に伴う効用関数の変化を検出するように構成される。少なくともいくつかの実施形態では、検出セクション770は、交渉トレース782および効用関数780などの記憶ユニット704内の情報を利用する。少なくともいくつかの実施形態では、検出セクション770は、前述のフローチャートで説明したように、追加の機能を実施するためのサブセクションを含む。少なくともいくつかの実施形態では、そのようなサブセクションは、対応する機能に関連付けられた名前によって参照される。
【0063】
生成セクション772は、訓練サンプルを生成するように構成されたコントローラ702の回路または命令である。少なくともいくつかの実施形態では、生成セクション772は、支援エージェントがベースライン交渉戦略モデルに従って動作している間、支援エージェントと相手エージェントとの間の自動交渉から複数の訓練サンプルを生成するように構成される。少なくともいくつかの実施形態では、生成セクション772は、交渉トレース782などの記憶ユニット704内の情報を利用し、記憶ユニット704に訓練サンプル784などの情報を記録する。少なくともいくつかの実施形態では、生成セクション772は、前述のフローチャートで説明したように、追加の機能を実施するためのサブセクションを含む。少なくともいくつかの実施形態では、そのようなサブセクションは、対応する機能に関連付けられた名前によって参照される。
【0064】
訓練セクション774は、交渉戦略モデルを訓練するように構成されたコントローラ702の回路または命令である。少なくともいくつかの実施形態では、訓練セクション774は、複数の訓練サンプルを使用して初期化された交渉戦略モデルを訓練し、第2の交渉戦略モデルを発生させるように構成される。少なくともいくつかの実施形態では、訓練セクション774は、訓練サンプル784および訓練パラメータ786などの記憶ユニット704からの情報を利用する。少なくともいくつかの実施形態では、訓練セクション774は、前述のフローチャートで説明したように、追加の機能を実施するためのサブセクションを含む。少なくともいくつかの実施形態では、そのようなサブセクションは、対応する機能に関連付けられた名前によって参照される。
【0065】
少なくともいくつかの実施形態では、装置は、本明細書の動作を実施するために論理機能を処理することが可能な別のデバイスである。少なくともいくつかの実施形態では、コントローラおよび記憶ユニットは、完全に別々のデバイスである必要はなく、いくつかの実施形態では回路または1つまたは複数のコンピュータ可読媒体を共有する。少なくともいくつかの実施形態では、記憶ユニットは、コンピュータ実行可能命令とコントローラによってアクセスされるデータの両方を記憶するハードドライブを含み、コントローラは、中央処理装置(CPU)とRAMとの組み合わせを含み、コンピュータ実行可能命令は、本明細書の動作の実施中にCPUによる実行のために全体的または部分的にコピーすることができる。
【0066】
装置がコンピュータである少なくともいくつかの実施形態では、コンピュータにインストールされたプログラムは、コンピュータに本明細書に記載の実施形態の装置として機能させるか、または装置に関連付けられた動作を実施させることが可能である。少なくともいくつかの実施形態では、そのようなプログラムは、コンピュータに本明細書に記載のフローチャートおよびブロック図のブロックの一部またはすべてに関連付けられた特定の動作を実施させるためにプロセッサによって実行可能である。
【0067】
少なくともいくつかの実施形態は、フローチャートおよびブロック図を参照して説明され、そのブロックは、(1)動作が実施されるプロセスのステップ、または(2)動作の実施を担当するコントローラのセクションを表す。少なくともいくつかの実施形態では、特定のステップおよびセクションは、専用回路、コンピュータ可読媒体に記憶されたコンピュータ可読命令を供給されるプログラマブル回路、および/またはコンピュータ可読媒体に記憶されたコンピュータ可読命令を供給されるプロセッサによって実施される。少なくともいくつかの実施形態では、専用回路は、デジタルおよび/またはアナログハードウェア回路を含み、集積回路(IC)および/またはディスクリート回路を含む。少なくともいくつかの実施形態では、プログラマブル回路は、論理AND、OR、XOR、NAND、NOR、および他の論理演算、フリップフロップ、レジスタ、メモリ要素など、例えばフィールドプログラマブルゲートアレイ(FPGA)、プログラマブル論理アレイ(PLA)などを備える再構成可能ハードウェア回路を含む。
【0068】
少なくともいくつかの実施形態では、コンピュータ可読記憶媒体は、命令実行デバイスによって使用するための命令を保持および記憶することができる有形のデバイスを含む。いくつかの実施形態では、コンピュータ可読記憶媒体は、例えば、限定はしないが、電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、または上記の任意の適切な組み合わせを含む。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストは、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROMまたはフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、パンチカードまたは命令が記録された溝内の隆起構造などの機械的にエンコードされたデバイス、および上記の任意の適切な組み合わせを含む。本明細書で使用されるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体(例えば、光ファイバケーブルを通過する光パルス)を通って伝搬する電磁波、またはワイヤを通して伝送される電気信号などの一時的な信号自体であると解釈されるべきではない。
【0069】
少なくともいくつかの実施形態では、本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスに、またはネットワーク、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、および/もしくは無線ネットワークを介して外部コンピュータもしくは外部記憶デバイスにダウンロード可能である。少なくともいくつかの実施形態では、ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、および/またはエッジサーバを含む。少なくともいくつかの実施形態では、各コンピューティング/処理デバイス内のネットワークアダプタカードまたはネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に記憶するためにコンピュータ可読プログラム命令を転送する。
【0070】
少なくともいくつかの実施形態では、上述の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk、C++などのオブジェクト指向プログラミング言語、および「C」プログラミング言語もしくは同様のプログラミング言語などの従来の手続き型プログラミング言語を含む、1つまたは複数のプログラミング言語の任意の組み合わせで記述されるソースコードもしくはオブジェクトコードのいずれかである。少なくともいくつかの実施形態では、コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアロンソフトウェアパッケージとして、部分的にユーザのコンピュータ上でかつ部分的にリモートコンピュータ上で、または完全にリモートコンピュータもしくはサーバ上で実行される。少なくともいくつかの実施形態では、後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク(LAN)もしくはワイドエリアネットワーク(WAN)を含む任意のタイプのネットワークを通じてユーザのコンピュータに接続されるか、または外部コンピュータ(例えば、インターネットサービスプロバイダを使用してインターネットを通じて)に接続される。少なくともいくつかの実施形態では、例えば、プログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)、またはプログラマブル論理アレイ(PLA)を含む電子回路は、本開示の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用することによってコンピュータ可読プログラム命令を実行して電子回路を個別化する。
【0071】
以上、本開示の実施形態について説明したが、特許請求の範囲に記載の技術的範囲は、上述の実施形態に限定されない。当業者は、上述の実施形態に対する様々な改変および改良が可能であることを理解するであろう。当業者はまた、特許請求の範囲の記載から、このような改変または改良を加えた実施形態が本開示の技術的範囲に含まれることを理解するであろう。
【0072】
特許請求の範囲、実施形態、または図中において示す装置、システム、プログラム、および方法によって実施される動作、手順、ステップ、および各プロセスの段階は、順序が「よりも前に」、「先立って」などによって示されておらず、また、前のプロセスからの出力を後のプロセスで使用するのでない限り、任意の順序で実施することができる。プロセスの流れが、特許請求の範囲、実施形態、または図中において「まず」または「次に」などの語句を使用して説明されるとしても、このような説明は必ずしもプロセスが記載された順序で実施されなければならないことを意味するものではない。
【0073】
本開示の少なくともいくつかの実施形態によれば、自動交渉エージェント適応は、支援エージェントが第1の交渉戦略モデルに従って動作している間、支援エージェントと相手エージェントとの間の自動交渉に伴う効用関数の変化を検出し、支援エージェントがベースライン交渉戦略モデルに従って動作している間、支援エージェントと相手エージェントとの間の自動交渉から複数の訓練サンプルを生成し、かつ複数の訓練サンプルを使用して初期化された交渉戦略モデルを訓練し、第2の交渉戦略モデルを発生させることによって実施される。
【0074】
いくつかの実施形態は、コンピュータプログラム内の命令、コンピュータプログラムの命令を実行するプロセッサによって実施される方法、および方法を実施する装置を含む。いくつかの実施形態では、装置は、命令内の動作を実施するように構成された回路を含むコントローラを含む。
【0075】
上記は、当業者が本開示の態様をよりよく理解することができるように、いくつかの実施形態の特徴を概説している。当業者は、本明細書に導入された実施形態と同じ目的を実行し、かつ/または同じ利点を達成するための他のプロセスおよび構造を設計または修正するための基礎として本開示を容易に使用することができることを理解するべきである。当業者はまた、そのような同等の構成が本開示の精神および範囲から逸脱するものではなく、本開示の精神および範囲から逸脱することなく本明細書において様々な変更、置換、および改変を行うことができることを認識するべきである。
【0076】
上述の例示的な実施形態の一部またはすべては、以下の付記のように記載することができるが、これに限定されるものではない。
【0077】
(付記1)
コンピュータに、
支援エージェントが第1の交渉戦略モデルに従って動作している間の前記支援エージェントと相手エージェントとの間の自動交渉に伴う効用関数の変化を検出することと、
前記支援エージェントがベースライン交渉戦略モデルに従って動作している間の前記支援エージェントと前記相手エージェントとの間の自動交渉から複数の訓練サンプルを生成することと、
前記複数の訓練サンプルを使用して初期化された交渉戦略モデルを訓練して、第2の交渉戦略モデルを発生させることと
を含む動作を実施させるための前記コンピュータによって実行可能な命令を含む、コンピュータ可読媒体。
【0078】
(付記2)
前記効用関数は、前記相手エージェントの相手効用関数である、付記1に記載のコンピュータ可読媒体。
【0079】
(付記3)
前記変化を検出することは、
前記支援エージェントが前記第1の交渉戦略モデルに従って動作している間の前記支援エージェントと前記相手エージェントとの間の自動交渉から最近の交渉トレースを取得することであって、前記交渉トレースは、複数の時間ステップを含み、前記複数の時間ステップのうちの各時間ステップは、相手エージェントオファーおよび支援エージェントオファーを含むことと、
前記支援エージェントが前記最近の交渉トレースの前記相手エージェントオファーを、前記第1の交渉戦略モデルに従って動作している間の前記支援エージェントと前記相手エージェントとの間の自動交渉からの以前の交渉トレースの相手エージェントオファーと比較することと
を含む、付記2に記載のコンピュータ可読媒体。
【0080】
(付記4)
前記検出することは、前記相手効用関数の変化量を表す変化値を推定することをさらに含み、
前記生成することおよび訓練することは、前記変化値が閾値を超えると決定することに応答して実施される、
付記3に記載のコンピュータ可読媒体。
【0081】
(付記5)
前記検出することは、周期的に実施される、付記2に記載のコンピュータ可読媒体。
【0082】
(付記6)
前記効用関数は、前記支援エージェントの第1の支援効用関数である、付記1に記載のコンピュータ可読媒体。
【0083】
(付記7)
前記動作は、
第2の支援効用関数を受信すること
をさらに含み、
前記変化を検出することは、前記第1の支援効用関数を前記第2の効用関数と比較することを含む、
付記6に記載のコンピュータ可読媒体。
【0084】
(付記8)
前記比較することは、前記第1の支援効用関数と前記第2の支援効用関数との間の変化量を表す変化値を推定することを含み、
前記生成することおよび訓練することは、前記変化値が閾値を超えると決定することに応答して実施される、
付記7に記載のコンピュータ可読媒体。
【0085】
(付記9)
検出することは、第2の支援効用関数の受信に応答して実施される、付記7に記載のコンピュータ可読媒体。
【0086】
(付記10)
前記複数の訓練サンプルを生成することは、前記支援エージェントがベースライン交渉戦略モデルに従って動作している間、前記支援エージェントと前記相手エージェントとの間の自動交渉から交渉トレースを取得することを含み、前記交渉トレースは、複数の時間ステップを含み、前記複数の時間ステップのうちの各時間ステップは、相手エージェントオファーおよび支援エージェントオファーを含む、付記1に記載のコンピュータ可読媒体。
【0087】
(付記11)
前記複数のサンプルのうちの各訓練サンプルは、入力として、第1の時間ステップからの前記複数の時間ステップのうちの連続する時間ステップの一部と、前記一部に続く前記複数の時間ステップのうちの後続の時間ステップの相手エージェントオファーとを含み、ラベルとして前記後続の時間ステップの支援エージェントオファーをさらに含む、付記10に記載のコンピュータ可読媒体。
【0088】
(付記12)
前記複数の訓練サンプルを生成することは、
前記交渉トレースの前記最終的に合意されたオファーの効用値に基づいて各訓練サンプルを重み付けすることであって、前記効用値は、支援効用関数を前記最終的に合意されたオファーに適用することによって取得されること
を含む、付記11に記載のコンピュータ可読媒体。
【0089】
(付記13)
前記訓練することは、
ランダム値で前記第1の交渉戦略モデルの一部を初期化することによって、初期化された交渉戦略モデルを生成すること
を含む、付記1に記載のコンピュータ可読媒体。
【0090】
(付記14)
支援エージェントが第1の交渉戦略モデルに従って動作している間の前記支援エージェントと相手エージェントとの間の自動交渉に伴う効用関数の変化を検出することと、
前記支援エージェントがベースライン交渉戦略モデルに従って動作している間の前記支援エージェントと前記相手エージェントとの間の自動交渉から複数の訓練サンプルを生成することと、
前記複数の訓練サンプルを使用して初期化された交渉戦略モデルを訓練して、第2の交渉戦略モデルを発生させることと
を含む、コンピュータ実装方法。
【0091】
(付記15)
前記効用関数は、前記相手エージェントの相手効用関数である、付記14に記載のコンピュータ実装方法。
【0092】
(付記16)
前記変化を検出することは、
前記支援エージェントが前記第1の交渉戦略モデルに従って動作している間の前記支援エージェントと前記相手エージェントとの間の自動交渉から最近の交渉トレースを取得することであって、前記交渉トレースは、複数の時間ステップを含み、前記複数の時間ステップのうちの各時間ステップは、相手エージェントオファーおよび支援エージェントオファーを含むことと、前記最近の交渉トレースの前記相手エージェントオファーを、前記支援エージェントが前記第1の交渉戦略モデルに従って動作している間の前記支援エージェントと前記相手エージェントとの間の自動交渉からの以前の交渉トレースの相手エージェントオファーと比較することと
を含む、付記15に記載のコンピュータ実装方法。
【0093】
(付記17)
前記検出することは、前記相手効用関数の変化量を表す変化値を推定することをさらに含み、
前記生成することおよび訓練することは、前記変化値が閾値を超えると決定することに応答して実施される、
付記16に記載のコンピュータ実装方法。
【0094】
(付記18)
前記効用関数は、前記支援エージェントの第1の支援効用関数である、付記14に記載のコンピュータ実装方法。
【0095】
(付記19)
第2の支援効用関数を受信すること
をさらに含み、
前記変化を検出することは、前記第1の支援効用関数を前記第2の効用関数と比較することを含む、
付記18に記載のコンピュータ実装方法。
【0096】
(付記20)
支援エージェントが第1の交渉戦略モデルに従って動作している間の前記支援エージェントと相手エージェントとの間の自動交渉に伴う効用関数の変化を検出し、
前記支援エージェントがベースライン交渉戦略モデルに従って動作している間の前記支援エージェントと前記相手エージェントとの間の自動交渉から複数の訓練サンプルを生成し、
前記複数の訓練サンプルを使用して初期化された交渉戦略モデルを訓練して、第2の交渉戦略モデルを発生させる
ように構成された回路を含むコントローラ
を備える、装置。
図1
図2
図3
図4
図5
図6
図7
【手続補正書】
【提出日】2024-06-17
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
コンピュータに、
支援エージェントが第1の交渉戦略モデルに従って動作している間の前記支援エージェントと相手エージェントとの間の自動交渉に伴う効用関数の変化を検出することと、
前記支援エージェントがベースライン交渉戦略モデルに従って動作している間の前記支援エージェントと前記相手エージェントとの間の自動交渉から複数の訓練サンプルを生成することと、
前記複数の訓練サンプルを使用して初期化された交渉戦略モデルを訓練して、第2の交渉戦略モデルを発生させることと
を含む動作を実施させるためのプログラム
【請求項2】
前記効用関数は、前記相手エージェントの相手効用関数である、請求項1に記載のコンピュータ可読媒体。
【請求項3】
前記変化を検出することは、
前記支援エージェントが前記第1の交渉戦略モデルに従って動作している間の前記支援エージェントと前記相手エージェントとの間の自動交渉から最近の交渉トレースを取得することであって、前記交渉トレースは、複数の時間ステップを含み、前記複数の時間ステップのうちの各時間ステップは、相手エージェントオファーおよび支援エージェントオファーを含むことと、
前記支援エージェントが前記最近の交渉トレースの前記相手エージェントオファーを、前記第1の交渉戦略モデルに従って動作している間の前記支援エージェントと前記相手エージェントとの間の自動交渉からの以前の交渉トレースの相手エージェントオファーと比較することと
を含む、請求項2に記載のプログラム
【請求項4】
前記検出することは、前記相手効用関数の変化量を表す変化値を推定することをさらに含み、
前記生成することおよび訓練することは、前記変化値が閾値を超えると決定することに応答して実施される、
請求項3に記載のプログラム
【請求項5】
前記検出することは、周期的に実施される、請求項2に記載のプログラム
【請求項6】
前記効用関数は、前記支援エージェントの第1の支援効用関数である、請求項1に記載のプログラム
【請求項7】
前記動作は、
第2の支援効用関数を受信すること
をさらに含み、
前記変化を検出することは、前記第1の支援効用関数を前記第2の効用関数と比較することを含む、
請求項6に記載のプログラム
【請求項8】
前記比較することは、前記第1の支援効用関数と前記第2の支援効用関数との間の変化量を表す変化値を推定することを含み、
前記生成することおよび訓練することは、前記変化値が閾値を超えると決定することに応答して実施される、
請求項7に記載のプログラム
【請求項9】
支援エージェントが第1の交渉戦略モデルに従って動作している間の前記支援エージェントと相手エージェントとの間の自動交渉に伴う効用関数の変化を検出することと、
前記支援エージェントがベースライン交渉戦略モデルに従って動作している間の前記支援エージェントと前記相手エージェントとの間の自動交渉から複数の訓練サンプルを生成することと、
前記複数の訓練サンプルを使用して初期化された交渉戦略モデルを訓練して、第2の交渉戦略モデルを発生させることと
を含む、コンピュータ実装方法。
【請求項10】
支援エージェントが第1の交渉戦略モデルに従って動作している間の前記支援エージェントと相手エージェントとの間の自動交渉に伴う効用関数の変化を検出し、
前記支援エージェントがベースライン交渉戦略モデルに従って動作している間の前記支援エージェントと前記相手エージェントとの間の自動交渉から複数の訓練サンプルを生成し、
前記複数の訓練サンプルを使用して初期化された交渉戦略モデルを訓練して、第2の交渉戦略モデルを発生させる
ように構成された回路を含むコントローラ
を備える、装置。
【国際調査報告】