IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社VAIABLEの特許一覧

特開2024-80574報酬推定装置、トランザクション支援装置、方法、及びプログラム
<>
  • 特開-報酬推定装置、トランザクション支援装置、方法、及びプログラム 図1
  • 特開-報酬推定装置、トランザクション支援装置、方法、及びプログラム 図2
  • 特開-報酬推定装置、トランザクション支援装置、方法、及びプログラム 図3
  • 特開-報酬推定装置、トランザクション支援装置、方法、及びプログラム 図4
  • 特開-報酬推定装置、トランザクション支援装置、方法、及びプログラム 図5
  • 特開-報酬推定装置、トランザクション支援装置、方法、及びプログラム 図6
  • 特開-報酬推定装置、トランザクション支援装置、方法、及びプログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024080574
(43)【公開日】2024-06-13
(54)【発明の名称】報酬推定装置、トランザクション支援装置、方法、及びプログラム
(51)【国際特許分類】
   G06Q 30/0207 20230101AFI20240606BHJP
【FI】
G06Q30/0207
【審査請求】未請求
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2023078823
(22)【出願日】2023-05-11
(31)【優先権主張番号】P 2022193046
(32)【優先日】2022-12-01
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】522228207
【氏名又は名称】株式会社VAIABLE
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】貞光 九月
【テーマコード(参考)】
5L030
5L049
【Fターム(参考)】
5L030BB07
5L049BB07
(57)【要約】
【課題】ユーザアクションに対応する報酬を推定する。
【解決手段】報酬推定装置は、ユーザアクションを取得する取得部と、ユーザアクションに対して、報酬を推定するように定められたモデルを用いて、前記取得されたユーザアクションに対する報酬を推定する推定部と、を含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
ユーザアクションを取得する取得部と、
ユーザアクションに対して、報酬を推定するように定められたモデルを用いて、前記取得されたユーザアクションに対する報酬を推定する推定部と、
を含む報酬推定装置であって、
前記モデルは、偽のユーザアクションに対して報酬を与えないように定められている
報酬推定装置。
【請求項2】
ユーザアクションを取得する取得部と、
ユーザアクションに対して、報酬を推定するように予め学習された学習済みモデルを用いて、前記取得されたユーザアクションに対する報酬を推定する推定部と、
を含む報酬推定装置。
【請求項3】
前記推定部は、対象サービスのユーザ数に応じた報酬を推定する請求項1又は2記載の報酬推定装置。
【請求項4】
前記報酬は、トークンであり、
流通トークン数又はトークンの価値に応じた報酬を推定する請求項1又は2記載の報酬推定装置。
【請求項5】
対象サービスに対するユーザの指示内容、前記ユーザの指示内容に基づく前記対象サービスの出力、又は前記ユーザのプロフィール情報と、アクション用コンテンツとの類似度に基づいて、前記アクション用コンテンツを生成又は選択するコンテンツ処理部を更に含む請求項1又は2記載の報酬推定装置。
【請求項6】
アクション用コンテンツが生成された場合、類似コンテンツの各々の寄与度を計算する寄与度計算部を更に含む請求項5記載の報酬推定装置。
【請求項7】
ユーザ端末からトランザクション要求を受け付ける受付部と、
前記トランザクション要求に応じたユーザアクションを決定する決定部と、
前記決定したユーザアクションの要求を、前記ユーザ端末へ送信する送信部と、
前記ユーザ端末による前記ユーザアクションの実行結果を取得する取得部と、
前記実行結果に応じて、トランザクション費用の支払い処理を実行する支払処理部と、
を含むトランザクション支援装置。
【請求項8】
取得部が、ユーザアクションを取得し、
推定部が、ユーザアクションに対して、報酬を推定するように定められたモデルを用いて、前記取得されたユーザアクションに対する報酬を推定する
報酬推定方法であって、
前記モデルは、偽のユーザアクションに対して報酬を与えないように定められている
報酬推定方法。
【請求項9】
取得部が、ユーザアクションを取得し、
推定部が、ユーザアクションに対して、報酬を推定するように予め学習された学習済みモデルを用いて、前記取得されたユーザアクションに対する報酬を推定する
報酬推定方法。
【請求項10】
受付部が、ユーザ端末からトランザクション要求を受け付け、
決定部が、前記トランザクション要求に応じたユーザアクションを決定し、
送信部が、前記決定したユーザアクションの要求を、前記ユーザ端末へ送信し、
取得部が、前記ユーザ端末による前記ユーザアクションの実行結果を取得し、
支払処理部が、前記実行結果に応じて、トランザクション費用の支払い処理を実行する
トランザクション支援方法。
【請求項11】
請求項1又は2記載の報酬推定装置としてコンピュータを機能させるための報酬推定プログラム。
【請求項12】
請求項7記載のトランザクション支援装置としてコンピュータを機能させるためのトランザクション支援プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、報酬推定装置、トランザクション支援装置、方法、及びプログラムに関する。
【背景技術】
【0002】
現在、Run2earn、Play2earn、browse2earn等、様々なトークンインセンティブモデルが提唱されている。
【0003】
また、中間サーバが、対価を目的として、要求された人間データを、1つ又は複数のデータ取得者に対して提供し、対価の少なくとも一部を、少なくとも1つの利害関係者に対して分配するシステムが知られている(特許文献1)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特表2022-528981号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、これらの設計に必要な、ユーザアクションを確認してインセンティブを付与することについて汎用的な方法は示されておらず、例えば新しいXXX2earnを始めようとするときの方法論は不明であった。
【0006】
また、現状、ユーザがNFTやトークンを別のユーザに送りたい、というだけでも、トランザクション費用がかかってしまう。
【0007】
トランザクション費用は極めて安価であるため、第三者がこれを肩代わりすることでユーザの負担は大きく減らせることができる。
【0008】
本発明は、ユーザアクションに対応する報酬を推定することができる報酬推定装置、方法、及びプログラムを提供することを目的とする。
【0009】
本発明は、トランザクションを支援することができるトランザクション支援装置、方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
本開示の第1態様は、報酬推定装置であって、ユーザアクションを取得する取得部と、ユーザアクションに対して、報酬を推定するように定められたモデルを用いて、前記取得されたユーザアクションに対する報酬を推定する推定部と、を含む報酬推定装置であって、前記モデルは、偽のユーザアクションに対して報酬を与えないように定められている。
【0011】
本開示の第2態様は、報酬推定装置であって、ユーザアクションを取得する取得部と、ユーザアクションに対して、報酬を推定するように予め学習された学習済みモデルを用いて、前記取得されたユーザアクションに対する報酬を推定する推定部と、を含む。
【0012】
本開示の第3態様は、トランザクション支援装置であって、ユーザ端末からトランザクション要求を受け付ける受付部と、前記トランザクション要求に応じたユーザアクションを決定する決定部と、前記決定したユーザアクションの要求を、前記ユーザ端末へ送信する送信部と、前記ユーザ端末による前記ユーザアクションの実行結果を取得する取得部と、前記実行結果に応じて、トランザクション費用の支払い処理を実行する支払処理部と、を含む。
【0013】
本開示の第4態様は、取得部が、ユーザアクションを取得し、推定部が、ユーザアクションに対して、報酬を推定するように定められたモデルを用いて、前記取得されたユーザアクションに対する報酬を推定する報酬推定方法であって、前記モデルは、偽のユーザアクションに対して報酬を与えないように定められている。
【0014】
本開示の第5態様は、報酬推定方法であって、取得部が、ユーザアクションを取得し、推定部が、ユーザアクションに対して、報酬を推定するように予め学習された学習済みモデルを用いて、前記取得されたユーザアクションに対する報酬を推定する。
【0015】
本開示の第6態様は、トランザクション支援方法であって、受付部が、ユーザ端末からトランザクション要求を受け付け、決定部が、前記トランザクション要求に応じたユーザアクションを決定し、送信部が、前記決定したユーザアクションの要求を、前記ユーザ端末へ送信し、取得部が、前記ユーザ端末による前記ユーザアクションの実行結果を取得し、支払処理部が、前記実行結果に応じて、トランザクション費用の支払い処理を実行する。
【0016】
本開示の第7態様は、報酬推定プログラムであって、第1態様又は第2態様の報酬推定装置としてコンピュータを機能させるためのプログラムである。
【0017】
本開示の第8態様は、トランザクション支援プログラムであって、第3態様のトランザクション支援装置としてコンピュータを機能させるためのプログラムである。
【発明の効果】
【0018】
開示の技術によれば、ユーザアクションに対応する報酬を推定することができる。
【0019】
開示の技術によれば、トランザクションを支援することができる。
【図面の簡単な説明】
【0020】
図1】本実施形態の情報処理システムの構成を示すブロック図である。
図2】本実施形態の管理サーバとして機能するコンピュータの一例の概略ブロック図である。
図3】第1実施形態及び第2実施形態の管理サーバの構成を示すブロック図である。
図4】本実施形態に係る管理サーバの学習処理ルーチンの内容を示すフローチャートである。
図5】第1実施形態及び第2実施形態に係る管理サーバの推定処理ルーチンの内容を示すフローチャートである。
図6】第3実施形態の管理サーバの構成を示すブロック図である。
図7】第3実施形態に係る管理サーバのトランザクション支援処理ルーチンの内容を示すフローチャートである。
【発明を実施するための形態】
【0021】
以下、図面を参照して本発明の実施形態を詳細に説明する。
【0022】
[第1実施形態]
図1に示すように、第1実施形態に係る情報処理システム100は、サービス管理会社側に設置される管理サーバ10と、ユーザが操作するユーザ端末24と、を備えている。管理サーバ10は、報酬推定装置の一例である。なお、図1では、簡単のため、ユーザ端末24が2台設けられている場合を例に示しているが、ユーザ端末24が3台以上設けられていてもよい。
【0023】
管理サーバ10及びユーザ端末24は、インターネットなどのネットワーク26を介して接続されている。
【0024】
ユーザ端末24は、スマートフォン端末、携帯電話、PDA(Personal Digital Assistants)端末、あるいはノート型・ブック型コンピュータ端末等からなる。
【0025】
図2は、本実施形態の管理サーバ10のハードウェア構成を示すブロック図である。
【0026】
図2に示すように、管理サーバ10は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、ストレージ14、入力部15、表示部16及び通信インタフェース(I/F)17を有するコンピュータである。各構成は、バス19を介して相互に通信可能に接続されている。
【0027】
CPU11は、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、CPU11は、ROM12又はストレージ14からプログラムを読み出し、RAM13を作業領域としてプログラムを実行する。CPU11は、ROM12又はストレージ14に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。本実施形態では、ROM12又はストレージ14には、各種処理を行うためのプログラムが格納されている。
【0028】
ROM12は、報酬推定プログラムを含む各種プログラム及び各種データを格納する。RAM13は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ14は、HDD(Hard Disk Drive)又はSSD(Solid State Drive)により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。
【0029】
入力部15は、マウス等のポインティングデバイス、及びキーボードを含み、各種の入力を行うために使用される。
【0030】
入力部15は、推定モデルの学習時に、報酬を管理する管理者が、ユーザアクションと、それに応じた報酬との組み合わせを入力する。
【0031】
ここで、管理者またはコミュニティが、事前にユーザアクションに対する報酬を定義するようにすればよい。あるいは、管理者がユーザアクション発生後に個別に報酬を定義するようにすればよい。あるいは、コミュニティ内でユーザアクション発生後に個別に報酬を定義するようにすればよい。また、ユーザアクションが真のユーザアクションではなく、偽のユーザアクションである場合には、報酬を「0」と定義する。
【0032】
また、管理者が、入力されたユーザアクションの各々について、参考データを入力する。ここで、参考データには、真のユーザアクションである場合の参考データ、及び偽のユーザアクションである場合の参考データが含まれる。
【0033】
入力部15は、報酬の推定時に、ユーザ端末24による対象のユーザアクションについて、ユーザアクションに関する情報と、参考データとを取得する。
【0034】
例えば、ユーザアクションに関する情報が、ユーザにより投稿されたコメントであれば、Webでテキスト検索を行った結果、検索結果に同一テキストが含まれるか否かの2値や類似度等のスコアを、参考データとする。偽のユーザアクションについての参考データは、一例として、検索結果に同一テキストが含まれることを示す値や、高い類似度を示すスコアである。
【0035】
また、ユーザアクションに関する情報が、ユーザにより投稿された撮影画像であれば、Webで画像検索を行った結果、検索結果に同一画像が含まれるか否かの2値や類似度等のスコアを、参考データとする。偽のユーザアクションについての参考データは、一例として、検索結果に同一画像が含まれることを示す値や、高い類似度を示すスコアである。
【0036】
また、ユーザアクションに関する情報が、センサ情報に基づくユーザによる筋力トレーニングの回数であれば、センサ情報を入力とし、スマホを振っただけという行為であるか否かを、学習済モデルまたはルールにより判定した結果を示す2値やスコアを、参考データとする。偽のユーザアクションについての参考データは、一例として、スマホを振っただけという行為であることを示す値やスコアである。
【0037】
また、ユーザアクションに関する情報が、ユーザが配信される広告を見たかどうかであれば、画面上に表示され、一定時間が経過することや、ユーザの顔がカメラに映っていること等を、参考データとする。
【0038】
入力部15は、アクション用コンテンツを生成する生成モデルの学習時に、管理者が、ユーザの指示内容、ユーザの指示内容に応じた生成コンテンツ、及びプロフィール情報を1つ以上組み合わせたものと、当該ユーザにユーザアクションを促すための正解アクション用コンテンツとの組み合わせを入力する。なお、生成コンテンツは、対象サービスの出力の一例である。
【0039】
例えば、ユーザが生成型AIを利用する際、生成型AIの利用に対し、ユーザアクション(例えば、広告視聴)が求められるとする。このとき、ユーザの指示内容が「ゴールデンウィークの休暇計画を作って」であり、ユーザの指示内容に応じた生成コンテンツが、生成型AIが出力した「藤の花がきれいな〇〇神社に行くのはどうでしょう」である。
このとき、「ゴールデンウィークの休暇計画を作って」というユーザの指示内容と、「藤の花がきれいな〇〇神社に行くのはどうでしょう」という生成コンテンツとに即した「広告コンテンツ」が、正解アクション用コンテンツである。例えば、ゴールデンウィークらしさや藤の花の画像、〇〇神社に即して生成される画像が、正解アクション用コンテンツであり、旅行会社のバナー画像広告等に使用される。
【0040】
表示部16は、例えば、液晶ディスプレイであり、各種の情報を表示する。表示部16は、タッチパネル方式を採用して、入力部15として機能しても良い。
【0041】
通信インタフェース17は、他の機器と通信するためのインタフェースであり、例えば、イーサネット(登録商標)、FDDI、Wi-Fi(登録商標)等の規格が用いられる。
【0042】
次に、管理サーバ10の機能構成について説明する。図3に示すように、管理サーバ10は、機能的には、学習データ生成部30、学習部32、コンテンツ処理部33、寄与度計算部34、取得部35、推定部36、出力部38、学習用データベース(DB)50、及びモデル記憶部52を備えている。
【0043】
学習データ生成部30は、入力された「ユーザアクション」、「報酬」、及び「参考データ」の組み合わせの各々を取得し、当該組み合わせの各々を、推定モデル用の学習データとして生成し、学習用データベース50に格納する。
【0044】
学習データ生成部30は、入力された「ユーザの指示内容」、「ユーザの指示内容に応じた生成コンテンツ」、及び「プロフィール情報」の少なくとも1つを組み合わせたもの、及び「正解アクション用コンテンツ」の組み合わせの各々を取得し、当該組み合わせの各々を生成モデル用の学習データとして生成し、学習用データベース50に格納する。
【0045】
学習部32は、複数の推定モデル用の学習データに基づいて、報酬を推定するように定められた推定モデルを学習する。
【0046】
ここで、推定モデル用の学習データにおいて、偽のユーザアクションに対して報酬が「0」に定義されているため、推定モデルは、偽のユーザアクションに対して報酬を与えないように定められている。推定モデルは、ユーザアクションに関するデータと、参考データとを入力とし、報酬を出力するためのものである。
【0047】
具体的には、この推定モデルの1つ目の入力は、「ユーザアクションの種類」を示すベクトル、又は「ユーザアクション」に関するスカラー値、テキストデータや画像データであり、2つ目の入力は、「参考データ」である検索結果の有無を示す2値や類似度等のスコアである。推定モデルの出力は、「報酬」を示すスカラー値である。このモデルは、例えば、ニューラルネットワーク等の機械学習モデルである。
【0048】
ニューラルネットワークの学習では、例えば、非特許文献1、2に記載の手法を用いることができる。
【0049】
[非特許文献1]インターネット検索<URL:https://arxiv.org/abs/1512.03385>
【0050】
[非特許文献2]インターネット検索<URL:https://arxiv.org/abs/1810.04805>
【0051】
学習部32は、学習済みの推定モデルを、モデル記憶部52に格納する。
【0052】
また、学習部32は、複数の生成モデル用の学習データに基づいて、ユーザにユーザアクションを促すためのアクション用コンテンツを生成するように定められた生成モデルを学習する。
【0053】
このとき、複数の生成モデル用の学習データのそれぞれに対し、正解アクション用コンテンツが生成されるように生成モデルを学習する。例えば、マルチモーダルのembedding(例えば、CLIP(Contrastive Language-Image Pre-training))を用い、入力ベクトルと、正解アクション用コンテンツの距離が近くなるように生成モデルを学習する。
【0054】
また、学習部32は、複数の寄与度モデル用の学習データに基づいて、類似コンテンツの各々の寄与度を計算するように定められた寄与度モデルを学習する。
【0055】
コンテンツ処理部33は、対象サービスに対するユーザの過去の指示内容、ユーザの指示内容に基づく対象サービスの出力、又はユーザのプロフィール情報と、アクション用コンテンツとの類似度に基づいてアクション用コンテンツを生成するための学習済みの生成モデルを用いて、アクション用コンテンツを生成する。
【0056】
例えば、ユーザが生成型AIを利用する際、生成型AIの利用に対し、ユーザアクション(例えば、広告視聴)が求められるとする。この場合、アクション用コンテンツ(例えば、広告画像)を、ユーザの生成型AIに対する過去の指示内容、ユーザの過去の指示内容に応じた生成コンテンツ、またはユーザのプロフィール情報(ブロックチェーンの行動履歴、当該プラットフォームの過去の行動履歴や、SNSの情報連携)を基にして、提示するアクション用コンテンツを生成する。
【0057】
このとき、生成モデルは、対象サービスに対するユーザの指示内容と、アクション用コンテンツとの類似度に基づいて、アクション用コンテンツを生成する。ここで、対象サービスに対するユーザの指示内容の一部に「野球」を含む文章や画像がある時に、アクション用コンテンツが「野球」に関するものであれば類似度は高く算出される。
【0058】
あるいは、生成モデルは、ユーザの指示内容に基づく対象サービスの出力と、アクション用コンテンツとの類似度に基づいて、アクション用コンテンツを生成する。ここで、ユーザの指示内容に基づく前記対象サービスの出力の一部に「野球」を含む文章や画像がある時に、アクション用コンテンツが「野球」に関するものであれば類似度は高く算出される。
【0059】
あるいは、生成モデルは、ユーザのプロフィール情報と、アクション用コンテンツとの類似度に基づいて、アクション用コンテンツを生成する。ここで、ユーザのプロフィール情報の一部に「野球」を含む文章や画像がある時に、アクション用コンテンツが「野球」
に関するものであれば類似度は高く算出される。
【0060】
寄与度計算部34は、アクション用コンテンツが生成された場合、類似コンテンツの各々の寄与度を計算する。
【0061】
このとき、生成モデルの内部データ(例えば、中間出力)に基づいて、類似コンテンツの各々の寄与度を計算してもよいし、評価モデルを用いて、類似コンテンツの各々の寄与度を推定してもよい。例えば、評価モデルとして、類似度算出モデルを用いて、生成したアクション用コンテンツと、元コンテンツの類似度を計算する。
【0062】
また、ユーザアクションが、広告視聴である場合、アクション用コンテンツは、広告主による広告内容と、クリエイティブと呼ばれる素材とを含む。
【0063】
例えばバナー広告は、広告主が売りたいものと、クリエイティブの組み合わせで構成される。したがって、寄与度が計算された後、広告主からはリワードを管理サーバ10が徴収し、クリエイティブに対しては、寄与度に応じてリワードが支払われる。
【0064】
また、広告からの報酬は、ユーザに対しても、管理サーバ10を運用するプラットフォーマーに対しても定義することができる。また、コンテンツホルダからの報酬負担については、最終的にユーザアクションが成された方のコンテンツホルダが全て負担するのでもよいし、生成された時点での割合にしたがって配分してもよい。
【0065】
なお、生成モデルではなく、アクション用コンテンツを選択する選択モデルを用いてもよい。この場合、入力部15は、アクション用コンテンツを選択する選択モデルの学習時に、管理者が、ユーザの指示内容、ユーザの指示内容に応じた生成コンテンツ、及びプロフィール情報を1つ以上組み合わせたものと、正解アクション用コンテンツの選択結果との組み合わせを入力する。
【0066】
学習データ生成部30は、入力された「ユーザの指示内容」、「ユーザの指示内容に応じた生成コンテンツ」、及び「プロフィール情報」の少なくとも1つを組み合わせたもの、及び「正解アクション用コンテンツの選択結果」の組み合わせの各々を取得し、当該組み合わせの各々を選択モデル用の学習データとして生成し、学習用データベース50に格納する。
【0067】
また、学習部32は、複数の選択モデル用の学習データに基づいて、ユーザにユーザアクションを促すためのアクション用コンテンツを選択するように定められた選択モデルを学習する。
【0068】
このとき、複数の選択モデル用の学習データのそれぞれに対し、正解アクション用コンテンツのスコアが最も高くなるように学習し、それ以外のアクション用コンテンツのスコアが低くなるように選択モデルを学習する。例えば、マルチモーダルのembedding(例:CLIP)を用い、入力ベクトルと、正解アクション用コンテンツの距離がもっとも近くなるように距離の学習を行う。
【0069】
コンテンツ処理部33は、対象サービスに対するユーザの指示内容、ユーザの指示内容に基づく対象サービスの出力、又はユーザのプロフィール情報と、アクション用コンテンツとの類似度に基づいてアクション用コンテンツを選択するための学習済みの選択モデルを用いて、アクション用コンテンツを選択する。
【0070】
例えば、アクション用コンテンツとして、AとB2つがあるとする。ユーザの指示内容と、選択モデルとに基づいて、アクション用コンテンツA,Bの各々に対するスコアを求める。例えば、アクション用コンテンツAに対するスコアが、0.7であり、アクション用コンテンツBに対するスコアが、0.3であるとする。そして、優勢であるアクション用コンテンツAを選択し、ユーザに提示する。
【0071】
取得部35は、ユーザ端末24による対象のユーザアクションについて入力された、ユーザアクションに関する情報と、参考データとの組み合わせを取得する。
【0072】
推定部36は、ユーザアクションに対して、報酬を推定するように定められたモデルを用いて、取得されたユーザアクションに対する報酬を推定する。
【0073】
具体的には、推定部36は、「ユーザアクションの種類」を示すベクトル、又は「ユーザアクション」に関するベクトル、テキストデータや画像データと、「参考データ」を示す2値やスコアとを学習済みモデルに入力し、モデル出力である「報酬」を示すスカラー値を取得し、提示する。
【0074】
次に、第1実施形態に係る情報処理システム100の作用について説明する。
【0075】
まず、管理サーバ10において、報酬を管理する管理者が、入力部15により、ユーザアクションと、それに応じた報酬との組み合わせを複数入力する。また、管理者が、入力部15により、ユーザアクションの各々について、参考データを入力する。
【0076】
そして、管理サーバ10は、学習指示を受け付けると、図4に示す学習処理ルーチンを実行する。
【0077】
ステップS100では、学習データ生成部30は、入力されたユーザアクション、報酬、及び参考データの組み合わせの各々を取得し、当該組み合わせの各々を学習データとして生成し、学習用データベース50に格納する。
【0078】
ステップS102では、学習部32は、複数の学習データに基づいて、報酬を推定するように定められたモデルを学習し、学習済みモデルを、モデル記憶部52に格納し、学習処理ルーチンを終了する。
【0079】
次に、管理サーバ10は、ユーザ端末24から対象のユーザアクションの実行結果を受け付けると、図5に示す推定処理ルーチンを実行する。推定処理ルーチンは、報酬推定方法の一例である。
【0080】
ステップS110では、取得部35は、ユーザ端末24による対象のユーザアクションについて、ユーザアクションに関する情報を取得する。
【0081】
ステップS112では、取得部35は、ユーザ端末24による対象のユーザアクションについて、参考データを取得する。
【0082】
ステップS114では、推定部36は、ユーザアクションに対して、学習済みモデルを用いて、取得されたユーザアクションに対する報酬を推定する。
【0083】
ステップS116では、出力部38は、推定された必要なアクションアイテム又は議題を出力する。
【0084】
以上説明したように、第1実施形態に係る情報処理システムによれば、ユーザアクションに対して、報酬を推定するように定められた学習済みモデルであって、偽のユーザアクションに対して報酬を与えないように定められた学習済みモデルを用いて、取得されたユーザアクションに対する報酬を推定する。これにより、ユーザアクションに対して適切な報酬を推定することができる。
【0085】
また、学習済みモデルの入力として、更に参考データを用いることにより、ユーザアクションに対して更に適切な報酬を推定することができる。
【0086】
[第2実施形態]
次に、第2実施形態に係る情報処理システムについて説明する。なお、第2実施形態に係る情報処理システムは、第1実施形態と同様の構成であるため、同一符号を付して説明を省略する。
【0087】
第2実施形態では、ユーザアクションに対して、報酬を推定するように定められたルールを用いて、報酬を推定する点が、第1実施形態と異なっている。
【0088】
入力部15は、ルールの生成時に、報酬を管理する管理者が、ユーザアクションと、それに応じた報酬との組み合わせを入力する。
【0089】
また、管理者が、ユーザアクションが、真のユーザアクションである場合の参考データに関する条件(あるいは、偽のユーザアクションである場合の参考データに関する条件)を入力する。
【0090】
入力部15は、報酬の推定時に、ユーザ端末24による対象のユーザアクションについて、ユーザアクションに関する情報と、参考データとを取得する。
【0091】
学習データ生成部30は、入力された「ユーザアクション」及び「報酬」の組み合わせの各々を取得し、当該組み合わせの各々を学習データとして生成し、学習用データベース50に格納する。
【0092】
学習データ生成部30は、入力された、真のユーザアクションである場合の参考データに関する条件を、学習用データベース50に格納する。
【0093】
学習部32は、複数の学習データ及び真のユーザアクションである場合の参考データに関する条件に基づいて、報酬を推定するように定められたルールを生成する。
【0094】
具体的には、このルールの1つ目の入力は、「ユーザアクションの種類」に関する条件、又は「ユーザアクション」に関するスカラー値、テキストデータや画像データに関する条件である。このルールの2つ目の入力は、「参考データ」である検索結果の有無を示す2値や類似度等のスコアに関する条件である。ルールの出力は、「報酬」を示すスカラー値である。このルールのデータ構造は、テーブルである。
【0095】
また、このルールでは、ユーザアクションが真のユーザアクションではなく、偽のユーザアクションに対して、報酬が「0」となるように定義される。
【0096】
学習部32は、生成したルールを、モデル記憶部52に格納する。
【0097】
取得部35は、ユーザ端末24による対象のユーザアクションについて入力された、ユーザアクションに関する情報と、参考データとの組み合わせを取得する。
【0098】
推定部36は、ユーザアクションに対して、報酬を推定するように定められたルールを用いて、取得されたユーザアクションに対する報酬を推定する。
【0099】
具体的には、推定部36は、「ユーザアクションの種類」を示すベクトル、又は「ユーザアクション」に関するスカラー値、テキストデータや画像データと、「参考データ」である検索結果の有無を示す2値や類似度等のスコアとを、ルールとして規定された条件と照合し、条件を満たすルールに対応する「報酬」を示すスカラー値を取得し、提示する。
【0100】
なお、第2実施形態に係る情報処理システムの他の構成及び作用については、第1実施形態と同様であるため、説明を省略する。
【0101】
以上説明したように、第2実施形態に係る情報処理システムによれば、ユーザアクションに対して、報酬を推定するように定められたルールであって、偽のユーザアクションに対して報酬を与えないように定められたルールを用いて、取得されたユーザアクションに対する報酬を推定する。これにより、ユーザアクションに対して適切な報酬を推定することができる。
【0102】
また、ルールにおいて、更に参考データを用いることにより、ユーザアクションに対して更に適切な報酬を推定することができる。
【0103】
なお、上記第2実施形態では、学習データを用いて、ルールを生成する場合を例に説明したが、これに限定されるものではない。学習データを用いずに、ルールを生成してもよい。例えばユーザアクションに対する第三者の評価数に対し、線形に増加する報酬を与えるといったルールを用いてもよい。
【0104】
[第3実施形態]
次に、第3実施形態に係る情報処理システムについて説明する。なお、第1実施形態と同様の構成となる部分については、同一符号を付して説明を省略する。
【0105】
第3実施形態では、ユーザアクションに応じて、トランザクション費用の支払い処理を実行する点が、第1実施形態と異なっている。
【0106】
上記図1に示すように、第3実施形態に係る情報処理システム300は、サービス管理会社側に設置される管理サーバ310と、ユーザが操作するユーザ端末24と、を備えている。管理サーバ310は、トランザクション支援装置の一例である。
【0107】
上記図2に示すように、管理サーバ310は、CPU11、ROM12、RAM13、ストレージ14、入力部15、表示部16及び通信インタフェース17を有する。ROM12は、トランザクション支援プログラムを記憶している。
【0108】
入力部15は、推定モデルの学習時に、報酬を管理する管理者が、ユーザアクションと、それに応じた報酬との組み合わせを入力する。また、管理者が、入力されたユーザアクションの各々について、参考データを入力する。
【0109】
入力部15は、アクション用コンテンツを生成する生成モデルの学習時に、管理者が、ユーザの指示内容、ユーザの指示内容に応じた生成コンテンツ、及びプロフィール情報を1つ以上組み合わせたものと、当該ユーザにユーザアクションを促すための正解アクション用コンテンツとの組み合わせを入力する。
【0110】
入力部15は、トランザクションを支援する際に、ユーザ端末24からのトランザクション要求を取得する。また、入力部15は、ユーザ端末24によるユーザアクションの実行結果を取得する。
【0111】
図6に示すように、第3実施形態に係る管理サーバ310は、学習データ生成部330、学習部332、受付部334、決定部336、コンテンツ処理部337、寄与度計算部338、送信部339、取得部340、推定部342、支払処理部344、学習用データベース(DB)350、及びモデル記憶部352を備えている。
【0112】
学習データ生成部330は、学習データ生成部30と同様に、入力されたユーザアクション、報酬、及び参考データの組み合わせの各々を取得し、当該組み合わせの各々を、推定モデル用の学習データとして生成し、学習用データベース350に格納する。
【0113】
学習データ生成部330は、学習データ生成部30と同様に、入力された「ユーザの指示内容」、「ユーザの指示内容に応じた生成コンテンツ」、及び「プロフィール情報」の少なくとも1つを組み合わせたもの、及び「正解アクション用コンテンツ」の組み合わせの各々を取得し、当該組み合わせの各々を生成モデル用の学習データとして生成し、学習用データベース50に格納する。
【0114】
学習部332は、上記第1実施形態の学習部32と同様に、複数の推定モデル用の学習データに基づいて、報酬を推定するように定められた推定モデルを学習し、学習済みの推定モデルを、モデル記憶部352に格納する。
【0115】
ここで、学習データにおいて、偽のユーザアクションに対して報酬が「0」に定義されているため、モデルは、偽のユーザアクションに対して報酬を与えないように定められている。モデルは、ユーザアクションに関するデータと、参考データとを入力とし、報酬を出力するためのものである。
【0116】
なお、学習部332は、上記第2実施形態の学習部32と同様に、複数の学習データ及び真のユーザアクションである場合の参考データに関する条件に基づいて、報酬を推定するように定められたルールを生成してもよい。この場合、このルールでは、ユーザアクションが真のユーザアクションではなく、偽のユーザアクションに対して、報酬が「0」となるように定義される。
【0117】
学習部332は、上記第1実施形態の学習部32と同様に、複数の生成モデル用の学習データに基づいて、ユーザにユーザアクションを促すためのアクション用コンテンツを生成するように定められた生成モデルを学習する。
【0118】
受付部334は、ユーザ端末24からのトランザクション要求を受け付ける。
【0119】
決定部336は、トランザクション要求に応じたユーザアクションを決定する。例えば、ユーザによるコメントの投稿、撮影画像の投稿、ユーザによる運動、広告を見ることなどを、トランザクション要求に応じたユーザアクションとして決定する。
【0120】
コンテンツ処理部337は、上記第1実施形態のコンテンツ処理部33と同様に、対象サービスに対するユーザの過去の指示内容、ユーザの指示内容に基づく対象サービスの出力、又はユーザのプロフィール情報と、アクション用コンテンツとの類似度に基づいてアクション用コンテンツを生成するための学習済みの生成モデルを用いて、アクション用コンテンツを生成する。
【0121】
寄与度計算部338は、上記第1実施形態の寄与度計算部34と同様に、アクション用コンテンツが生成された場合、類似コンテンツの各々の寄与度を計算する。
【0122】
送信部339は、決定したユーザアクションの要求を、トランザクション要求を送信したユーザ端末24へ送信する。
【0123】
取得部340は、ユーザ端末24によるユーザアクションの実行結果を取得する。また、取得部340は、取得部35と同様に、ユーザ端末24によるユーザアクションについての参考データを取得する。
【0124】
推定部342は、推定部36と同様に、ユーザアクションに対して、報酬を推定するように定められた推定モデルを用いて、前記ユーザ端末による前記ユーザアクションの実行結果に対する報酬を推定する。
【0125】
支払処理部344は、推定部342による推定結果に応じて、トランザクション費用の支払い処理を実行する。例えば、推定された報酬が、トランザクション費用以上である場合には、トランザクション費用の支払い処理を実行する。これにより、ユーザ端末24からのトランザクション要求に応じたトランザクションが実行される。
【0126】
トランザクション費用の支払い処理には、非特許文献3に記載のGSN(gas station network)等のメタトランザクションを利用することができるが、これに限定されるものではない。
【0127】
[非特許文献3]インターネット検索<URL: https://opengsn.org/ opensource>
【0128】
次に、第3実施形態に係る情報処理システム300の作用について説明する。
【0129】
まず、管理サーバ310において、報酬を管理する管理者が、入力部15により、ユーザアクションと、それに応じた報酬との組み合わせを複数入力する。また、管理者が、入力部15により、ユーザアクションの各々について、参考データを入力する。
【0130】
そして、管理サーバ310は、学習指示を受け付けると、上記図4に示す学習処理ルーチンを実行する。
【0131】
次に、管理サーバ310は、ユーザ端末24からトランザクション要求を受け付けると、図7に示すトランザクション支援処理ルーチンを実行する。トランザクション支援処理ルーチンは、トランザクション支援方法の一例である。
【0132】
ステップS310では、受付部334は、ユーザ端末24からのトランザクション要求を受け付ける。
【0133】
ステップS312では、決定部336は、トランザクション要求に応じたユーザアクションを決定する。
【0134】
ステップS313では、コンテンツ処理部337は、対象サービスに対するユーザの過去の指示内容、ユーザの指示内容に基づく対象サービスの出力、又はユーザのプロフィール情報と、学習済みの生成モデルとを用いて、アクション用コンテンツを生成する。
【0135】
ステップS314では、寄与度計算部338は、類似コンテンツの各々の寄与度を計算する。
【0136】
ステップS315では、送信部339は、決定したユーザアクションの要求を、トランザクション要求を送信したユーザ端末24へ送信する。
【0137】
そして、ユーザ端末24では、受信したユーザアクションの要求に応じて、当該ユーザアクションを実行すると、ユーザアクションの実行結果を、管理サーバ310へ送信する。
【0138】
ステップS316では、取得部340は、ユーザ端末24によるユーザアクションの実行結果を取得する。
【0139】
ステップS318では、取得部340は、ユーザ端末24によるユーザアクションについての参考データを取得する。
【0140】
ステップS320では、推定部342は、ユーザアクションに対して、報酬を推定するように定められたモデルを用いて、前記ユーザ端末による前記ユーザアクションの実行結果に対する報酬を推定する。
【0141】
ステップS322では、支払処理部344は、推定部342による推定結果に応じて、トランザクション費用の支払い処理を実行する。
【0142】
以上説明したように、第3実施形態に係る情報処理システムによれば、トランザクション要求に応じたユーザアクションを決定し、決定したユーザアクションの要求を、ユーザ端末へ送信し、ユーザ端末による前記ユーザアクションの実行結果を取得すると、実行結果に応じて、トランザクション費用の支払い処理を実行する。これにより、トランザクションを支援することができる。
【0143】
なお、上記第1実施形態、第2実施形態、第3実施形態において、推定部36、342は、対象サービスのユーザ数に応じた報酬を推定するようにしてもよい。具体的には、対象サービスのユーザ数の増減を検知した後、報酬を動的に減増させるように推定してもよい。より具体的には、ユーザ数の増減の検知は、ユーザ数の時系列変化に基づいて行ってもよしし、ユーザ数の時系列変化の近似関数を導出した上で、微分値などの統計量に基づいて、ユーザ数の増減の検知を行ってもよい。また、対象サービスのユーザ数に応じた報酬の増減については、対象サービスの過去のデータを参考に学習しても良いし、類似サービスのデータを元に学習してもよい。さらに、ユーザ数の時系列変化に関する統計値を加味した減衰率を設定してもよい。
【0144】
例えば、対象サービスのユーザ数が10000人である場合、ユーザアクションに対する報酬が「1トークン」であるとする。このとき、対象サービスのユーザ数が1000000人まで増えた場合、ユーザアクションに対する報酬を「0.01トークン」と減衰して推定する。そして、対象サービスのユーザ数が800000人に減った場合、ユーザアクションに対する報酬を増加させ「0.02トークン」と推定する。
【0145】
また、上記第1実施形態、第2実施形態、第3実施形態において、推定部36、342は、流通トークン数に応じた報酬を推定するようにしてもよい。具体的には、1日の流通トークン数が決まっている場合、1日毎のユーザアクション数で割って、報酬を決定してもよい。例えば、1日のトークン発行数が、10000であり、1日のユーザアクション数が、1000000である場合、ユーザアクションに対する報酬を「0.001トークン(=10000/1000000)」と推定する。
【0146】
また、上記第1実施形態、第2実施形態、第3実施形態において、推定部36、342は、トークンの価値に応じた報酬を推定するようにしてもよい。具体的には、トークンの価値が下落した場合、トークンの価値の下落傾向を止めるために流通トークン数を抑制するように、報酬を決定してもよい。より具体的には、抑制された流通トークン数を、1日毎のユーザアクション数で割って、報酬を決定してもよい。あるいは、流通トークン数の増減に応じた報酬を、対象サービスの過去のトークンの為替データを元に学習してもよいし、流通トークン数の増減に応じた報酬を、類似トークンの為替データを元に学習してもよい。
【0147】
例えば、1日のトークン発行数が、10000である場合、トークンの価値の下落傾向を止めるために流通トークン数を抑制するように、1日のトークン発行数を、8000(=10000×0.008)とし、1日のユーザアクション数が、1000000である場合、ユーザアクションに対する報酬を「0.008トークン(=8000/1000000)」と推定する。
【符号の説明】
【0148】
10、310 管理サーバ
11 CPU
14 ストレージ
15 入力部
16 表示部
24 ユーザ端末
26 ネットワーク
30、330 学習データ生成部
32、332 学習部
33、337 コンテンツ処理部
34、338 寄与度計算部
35、340 取得部
36、342 推定部
38 出力部
50、350 学習用データベース
52、352 モデル記憶部
100、300 情報処理システム
334 受付部
336 決定部
339 送信部
344 支払処理部
図1
図2
図3
図4
図5
図6
図7