(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024179365
(43)【公開日】2024-12-26
(54)【発明の名称】評価データ収集システム、その方法及びプログラム
(51)【国際特許分類】
G06N 20/00 20190101AFI20241219BHJP
G06Q 50/10 20120101ALI20241219BHJP
【FI】
G06N20/00
G06Q50/10
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2023098154
(22)【出願日】2023-06-14
(71)【出願人】
【識別番号】515008689
【氏名又は名称】株式会社ミリオンダウト
(74)【代理人】
【識別番号】100140866
【弁理士】
【氏名又は名称】佐藤 武史
(72)【発明者】
【氏名】赤星 亘
【テーマコード(参考)】
5L049
5L050
【Fターム(参考)】
5L049CC11
5L050CC11
(57)【要約】
【課題】AIの学習に用いる評価者による評価データを、効率的に収集可能とする。
【解決手段】評価データ収集システム1は、AIの学習に用いる評価者による評価データを収集し、評価者に評価させる被評価データを取得する被評価データ取得手段10と、被評価データを、評価者に提示する提示手段30と、被評価データに対する評価者の評価である評価データを、当該評価者を識別する評価者識別情報と対応づけて取得する評価データ取得手段50と、評価者毎に、評価データに基づく報酬を決定する報酬決定手段70と、を備える。
【選択図】
図2
【特許請求の範囲】
【請求項1】
AIの学習に用いる評価者による評価データを収集する評価データ収集システムであって、
評価者に評価させる被評価データを取得する被評価データ取得手段と、
前記被評価データを、評価者に提示する提示手段と、
前記被評価データに対する評価者の評価である評価データを、当該評価者を識別する評価者識別情報と対応づけて取得する評価データ取得手段と、
評価者毎に、前記評価データに基づく報酬を決定する報酬決定手段と、を備えることを特徴とする評価データ収集システム。
【請求項2】
評価者毎に、前記評価データの数及び/又は前記評価データの精度に基づく成績を決定する成績決定手段を、更に備え、
前記報酬決定手段は、評価者毎に、前記成績に基づき前記報酬を決定することを特徴とする請求項1に記載の評価データ収集システム。
【請求項3】
前記成績に基づき、複数の評価者の中から、評価データを取得する評価者を選抜する選抜手段を、更に備え、
評価データ取得手段は、選抜された評価者の評価である前記評価データを取得することを特徴とする請求項2に記載の評価データ収集システム。
【請求項4】
AIの学習に用いる評価者による評価データを収集する評価データ収集システムが実行する方法であって、
評価者に評価させる被評価データを取得するステップと、
前記被評価データを、評価者に提示するステップと、
前記被評価データに対する評価者の評価である評価データを、当該評価者を識別する評価者識別情報と対応づけて取得するステップと、
評価者毎に、前記評価データに基づく報酬を決定するステップと、を含むことを特徴とする評価データ収集方法。
【請求項5】
AIの学習に用いる評価者による評価データを収集する評価データ収集システムを、
評価者に評価させる被評価データを取得する被評価データ取得手段、
前記被評価データを、評価者に提示する提示手段、
前記被評価データに対する評価者の評価である評価データを、当該評価者を識別する評価者識別情報と対応づけて取得する評価データ取得手段、
評価者毎に、前記評価データに基づく報酬を決定する報酬決定手段、として機能させることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、評価データ収集システム、その方法及びプログラムに関する。
【背景技術】
【0002】
従来、AI(Artificial Intelligence、人工知能)を強化する手法として、ファインチューニングが知られている。このファインチューニングによれば、事前学習済モデルに、特定の分野やタスクに関するデータを学習させることで、特定の分野やタスクに対してパフォーマンスが高いモデルを構築することが可能となる。
【0003】
例えば、特許文献1には、ゲームの内容に応じて関連付けられたゲームにおける説明文を表す自然言語データ及びゲームを制御するための制御データを含むゲームスクリプトの作成を支援するためのシステムであって、予め作成された作成済ゲームスクリプトが含む制御データを自然言語データである制御説明文に変換し、説明文及び該説明文に対応する制御説明文を含む加工済スクリプト文を作成するデータ前処理部と、自然言語に関する文法構造及び文章間の関係が予め学習された自然言語事前学習済モデルに、加工済スクリプト文を学習させることにより、学習済モデルを生成する学習部と、を含み、学習部は、加工済スクリプト文を学習データとして用いて、自然言語事前学習済モデルをファインチューニングして学習済モデルを生成するシステムが提案されている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、ファインチューニングでは、人間が評価したデータを基にモデルを繰り返していくことで、強化学習が高いパフォーマンスを出すことが知られており、より精度の高いモデルを構築するには、より多くの人間が評価したデータが必要となる。
【0006】
また、AIの強化学習の1つとして、RLHF(Reinforcement Learning from Human Feedback)が知られている。RLHFは、人間から得られるフィードバックを活用し、AIが理想的な行動を学習するための手法であり、人間のフィードバックに大いに依存しているため、人間が評価したデータの質や量を十分に確保する必要がある。
【0007】
そこで本発明では、上記のような課題に鑑み、AIの学習に用いる評価者による評価データを、効率的に収集可能とすることを目的とする。
【課題を解決するための手段】
【0008】
上記課題を解決するため、本発明の評価データ収集システムは、以下のような解決手段を提供する。
【0009】
(1) AIの学習に用いる評価者による評価データを収集する評価データ収集システムであって、
評価者に評価させる被評価データを取得する被評価データ取得手段と、
前記被評価データを、評価者に提示する提示手段と、
前記被評価データに対する評価者の評価である評価データを、当該評価者を識別する評価者識別情報と対応づけて取得する評価データ取得手段と、
評価者毎に、前記評価データに基づく報酬を決定する報酬決定手段と、を備えることを特徴とする評価データ収集システム。
【0010】
(1)の構成では、評価データ収集システムは、被評価データ取得手段と、提示手段と、評価データ取得手段と、報酬決定手段と、を備え、AIの学習に用いる評価者による評価データを収集する。
被評価データ取得手段は、評価者に評価させる被評価データを取得する。
提示手段は、被評価データを、評価者に提示する。
評価データ取得手段は、被評価データに対する評価者の評価である評価データを、当該評価者を識別する評価者識別情報と対応づけて取得する。
報酬決定手段は、評価者毎に、評価データに基づく報酬を決定する。
【0011】
(1)の構成によれば、評価者に評価させる被評価データに対する評価者の評価である評価データを、当該評価者を識別する評価者識別情報と対応づけて取得し、当該評価者への報酬を提供できる。
これにより、評価者に、被評価データを評価させるために、報酬というインセンティブを提供できる。よって、AIの学習に協力してもらう評価者をより多く集め、効率的に評価データを生成し、収集することが可能となる。
したがって、AIの学習に用いる評価者による評価データを、効率的に収集可能となる。
【0012】
(2) 評価者毎に、前記評価データの数及び/又は前記評価データの精度に基づく成績を決定する成績決定手段を、更に備え、
前記報酬決定手段は、評価者毎に、前記成績に基づき前記報酬を決定することを特徴とする(1)に記載の評価データ収集システム。
【0013】
(2)の構成によれば、評価者毎に、評価データの数及び/又は評価データの精度に基づく成績を決定し、この成績に基づき報酬を決定することができる。
これにより、よりよい成績に基づく報酬を得られるように、評価者が、真摯に被評価データを評価することを促すことができるので、より精度の高い評価データを収集することが可能となる。
【0014】
(3) 前記成績に基づき、複数の評価者の中から、評価データを取得する評価者を選抜する選抜手段を、更に備え、
評価データ取得手段は、選抜された評価者の評価である前記評価データを取得することを特徴とする(2)に記載の評価データ収集システム。
【0015】
(3)の構成によれば、複数の評価者の中から、成績のよい評価者を選抜し、この選抜した評価者の評価に基づく評価データのみを取得することが可能となるので、より精度の高い評価データを収集することが可能となる。
【0016】
(4) AIの学習に用いる評価者による評価データを収集する評価データ収集システムが実行する方法であって、
評価者に評価させる被評価データを取得するステップと、
前記被評価データを、評価者に提示するステップと、
前記被評価データに対する評価者の評価である評価データを、当該評価者を識別する評価者識別情報と対応づけて取得するステップと、
評価者毎に、前記評価データに基づく報酬を決定するステップと、を含むことを特徴とする評価データ収集方法。
【0017】
(5) AIの学習に用いる評価者による評価データを収集する評価データ収集システムを、
評価者に評価させる被評価データを取得する被評価データ取得手段、
前記被評価データを、評価者に提示する提示手段、
前記被評価データに対する評価者の評価である評価データを、当該評価者を識別する評価者識別情報と対応づけて取得する評価データ取得手段、
評価者毎に、前記評価データに基づく報酬を決定する報酬決定手段、として機能させることを特徴とするプログラム。
【0018】
(4)及び(5)の構成によれば、(1)の構成と同様の作用効果を奏する。
【発明の効果】
【0019】
本発明によれば、AIの学習に用いる評価者による評価データを、効率的に収集可能となる。
【図面の簡単な説明】
【0020】
【
図1】本発明の実施形態に係る評価データ収集システムの概要を説明する図である。
【
図2】本発明の実施形態に係る評価データ収集システムによる分析結果情報の表示例を示す図である。
【
図3】本発明の実施形態に係る評価データ収集システムによる評価画面の一例を示す図である。
【
図4】本発明の実施形態に係る評価データ収集システムの評価者テーブルを模式的に示す図である。
【
図5】本発明の実施形態に係る評価データ収集システムが実行する評価データ収集処理フローを示す図である。
【発明を実施するための形態】
【0021】
以下、添付図面を参照して、本発明を実施するための形態(以下、実施形態)について詳細に説明する。以降の図においては、実施形態の説明の全体を通して同じ要素には同じ番号又は符号を付している。
【0022】
(基本概念/基本構成)
図1は、本発明の実施形態に係る評価データ収集システムの概要を説明する図である。
評価データ収集システム1は、AI(Artificial Intelligence、人工知能)の学習に用いる評価者による評価データを収集する。詳細には、評価データ収集システム1は、RLHF(Reinforcement Learning from Human Feedback)により、AIを学習させる場合に、人間である評価者による評価データを収集する。
【0023】
RLHFは、人間の直接的な評価を基に、AIに適切な目標と行動を把握させることができる。例えば、AI開発者は、RLHFにより、AIに学習させる場合、人間(評価者)のフィードバックである評価データにより、AIをチューニングする。この場合、評価データの質や量が不十分であると、AIの学習は非効率的になる。
そこで、評価データ収集システム1は、評価データを効率的に収集するものである。
【0024】
具体的には、評価データ収集システム1は、評価者に評価させる被評価データを取得する。本実施形態における「被評価データ」は、例えば、AI開発者が開発しているAIにより生成されたデータや、AIにより生成されたデータに関連(類似等)するデータである。なお、関連するデータは、当該AIにより生成されたものに限らず、別のAIで生成されたデータでもよいし、インターネット等で検索されたデータでもよいし、人間により生成されたデータでもよい。
【0025】
また、評価データ収集システム1は、互いに異なる複数種類の被評価データを取得する。これらの被評価データは、例えば、互いに異なる要素(例えば、自然言語等)に基づき、AIにより生成された互いに異なる複数種類のデータである。
【0026】
例えば、
図1に示す例では、AI開発者が、猫の画像を生成するAIを開発している場合に、猫の画像に対する人間(評価者)の評価を得るための被評価データの一例を示している。
【0027】
評価データ収集システム1は、被評価データを評価者に提示する。具体的には、評価データ収集システム1は、例えば、評価者に操作される端末のディスプレイ等の表示手段に、複数種類の被評価データを、順次表示し、各被評価データに対して、それぞれ、評価者による評価を受け付ける。本実施形態における「評価」は、各人間の思想や趣向や感覚等を示す評価項目(問)に対する回答である。
【0028】
評価データ収集システム1は、被評価データに対する評価者の評価である評価データを、当該評価者を識別する評価者識別情報と対応づけて取得する。
【0029】
例えば、
図1に示す例のように、被評価データが猫の画像である場合、評価データ収集システム1は、「かわいい」と感じるかを評価項目として決定し、当該評価項目を被評価データに対応付けて、表示手段に表示し、当該評価項目に対する回答として、「かわいい」と感じるか否かの回答(
図1に示す例では「評価:A」や「評価:B」)を評価データとして受け付ける。そして、評価データ収集システム1は、この評価データを、当該評価者(
図1に示す例では「評価者X」)を識別する評価者識別情報と対応づけて取得する(記憶手段に記憶する。)。
【0030】
そして、評価データ収集システム1は、評価者毎に、評価データに基づく報酬を決定する。この決定された報酬は、評価者に提供される。なお、本実施形態において「報酬」は、現金、電子マネー、金銭的価値を有するポイント、特定の環境(例えば、特定のゲーム内)でのみ価値を有するポイント等、任意の態様でよい。
【0031】
また、評価データ収集システム1は、各被評価データに当該被評価データに対する評価データを対応付けたラベリングデータを生成する。このラベリングデータは、AI開発者が開発するAIの学習に用いられる。
【0032】
このような評価データ収集システム1によれば、評価者に、被評価データを評価させるために、報酬というインセンティブを提供できる。よって、AIの学習に協力してもらう評価者をより多く集め、効率的に評価データを生成し、収集することが可能となる。
したがって、AIの学習に用いる評価者による評価データを、効率的に収集可能となる。
【0033】
(機能構成)
図2は、本発明の実施形態に係る評価データ収集システムの機能構成を示す図である。
評価データ収集システム1は、AIの学習に用いる評価者による評価データを収集し、収集した評価データを、当該AIを生成するAI生成システム2に提供(送信等)する。なお、AI生成システム2が、本実施形態に係る評価データ収集システム1を備えてもよい。
【0034】
本実施形態において、AI生成システム2は、開発するAIが達成する目標(例えば、
図1に示す例では、AIの利用者から、自然言語で要望された猫の画像を生成する。)や基準である要件に基づき、初期モデルを生成する。このような初期モデルは、例えば、RNN(Recurrent Neural Network)、CNN(Convolutional Neural Network)、Transformer等の公知の技術を用いることができる。
【0035】
そして、AI生成システム2は、初期モデルや、上記要件や、強化学習で使用する教師データ等に基づき、複数種類の被評価データを生成し、評価データ収集システム1に提供(送信)する。
【0036】
詳細には、評価データ収集システム1は、被評価データ取得手段10と、評価項目設定手段20と、提示手段30と、評価受付手段40と、評価データ取得手段50と、成績決定手段60と、報酬決定手段70と、選抜手段80と、送信手段90と、記憶手段5と、を備え、ネットワークを介して、評価者に操作される端末200(例えば、PC、スマートフォン、タブレット等)と接続されている。
【0037】
被評価データ取得手段10は、評価者に評価させる被評価データを取得する。詳細には、被評価データ取得手段10は、複数種類の被評価データを取得し、記憶手段5に記憶する。被評価データ取得手段10は、AI生成システム2から被評価データを受信してもよいし、その他の装置や記憶手段5から、被評価データを取得してもよい。
【0038】
また、被評価データ取得手段10は、被評価データとともに、AI生成システム2から、初期モデルを生成した要件に基づく要件データを取得する。
【0039】
評価項目設定手段20は、被評価データ取得手段10が取得した要件データに基づき、被評価データに対する評価者による評価を得るための問となる評価項目を設定する。具体的には、評価項目設定手段20は、要件データが、例えば、AIの利用者により入力された自然言語に基づき、猫の画像を生成することであれば、猫に対しても用いられる自然言語(例えば、「かわいい」等)を、評価項目として設定する。
【0040】
提示手段30は、被評価データを、評価者に提示する。詳細には、提示手段30は、被評価データ取得手段10が取得した被評価データを記憶手段5から読み出し、読み出した被評価データと、評価項目設定手段20が設定した評価項目に対する判断を促す問と、が配置された評価画面を、評価者に操作される端末200の表示手段に表示する。
【0041】
図3は、本発明の実施形態に係る評価データ収集システムによる評価画面の一例を示す図である。
提示手段30は、被評価データ(
図3に示す例では、猫の画像)と、評価項目設定手段20が設定した評価項目(
図3に示す例では、「かわいい」)に対する判断を促す問(
図3に示す例では、「この猫は、「かわいい」ですか?」)と、が配置された評価画面を、評価者に操作される端末200の表示手段に表示する。提示手段30は、1つの評価項目に対する判断を促す問において、複数種類の被評価データを順次表示していく。また、提示手段30は、評価画面において、評価者の評価を受け付ける評価受付部(
図3に示す例では、「かわいい」ボタンと、「かわいくない」ボタンと)を表示してもよい。この場合、例えば、提示手段30は、ある被評価データに対して、評価受付部が操作されたら、次の被評価データを表示する。
【0042】
図2に戻って、評価受付手段40は、評価者を識別する評価者識別情報と、評価画面の評価受付部に対する当該評価者の操作を、被評価データに対する評価として受け付ける。具体的には、評価受付手段40は、例えば、
図3に示す例において、ある被評価データに対して、「かわいい」ボタンが操作されたら、評価項目(
図3に示す例では、「かわいい」)に則した評価を受け付ける。一方、評価受付手段40は、例えば、
図3に示す例において、ある被評価データに対して、「かわいくない」ボタンが操作されたら、評価項目(
図3に示す例では、「かわいい」)に反した評価を受け付ける。なお、
図3に示す例では、評価は、2種類(評価項目に則した評価か、評価項目に反した評価)としているが、これに限らず、3種類以上(例えば、5段階評価)としてもよい。
【0043】
なお、
図3に示すでは、提示手段30は、評価画面において、1つの評価項目に対する判断を促す問に対して、1つの被評価データを順次表示していくが、これに限らず、1つの評価項目に対する判断を促す問に対して、複数の被評価データを順次表示していってもよい。
【0044】
この場合、提示手段30は、複数の被評価データ(例では、2枚の猫の画像)と、評価項目設定手段20が設定した評価項目(例えば、「かわいい」)に対する判断を促す問(例えば、「どちらの猫が、「かわいい」ですか?」)と、が配置された評価画面を、評価者に操作される端末200の表示手段に表示する。また、この場合、提示手段30は、評価画面において、各被評価データに対応付けて評価受付部(例では、選択ボタン)を表示してもよい。
【0045】
また、この場合、評価受付手段40は、ある被評価データに対して、複数の被評価データのうちのいずれかに対応付けられた選択ボタンが操作されたら、当該被評価データに対して、評価項目(例えば、「かわいい」)に則した評価を受け付ける。一方、評価受付手段40は、他の被評価データに対して、評価項目(例えば、「かわいい」)に反した評価を受け付ける。
【0046】
評価データ取得手段50は、評価受付手段40が受け付けた被評価データに対する評価(例えば、評価項目に則した評価、評価項目に反した評価等)である評価データを、当該被評価データに対応付けたラベリングデータを生成し、記憶手段5に記憶する。
【0047】
また、評価データ取得手段50は、選抜手段80により選抜された評価者の評価である評価データを取得し、選抜された評価者の評価である評価データのみでラベリングデータを生成し、記憶手段5に記憶してもよい。詳細には、評価データ取得手段50は、記憶手段5に記憶された、過去の選抜評価者情報を参照して、当該選抜評価者情報に含まれる評価者の評価データのみでラベリングデータを生成する。選抜評価者情報については、後述する。
【0048】
また、評価データ取得手段50は、被評価データに対する評価者の評価である評価データを、当該評価者を識別する評価者識別情報と対応づけて取得し、記憶手段5に記憶された評価者テーブルに、評価者識別情報に評価データを対応付けて記憶する。
【0049】
図4は、本発明の実施形態に係る評価データ収集システムの評価者テーブルを模式的に示す図である。
評価者テーブルは、評価者識別情報に、評価データ取得手段50が取得した評価データ(評価データを識別する評価データ識別情報)と、評価データに対する成績と、が対応付けられている。
【0050】
図2に戻って、成績決定手段60は、評価者毎に、評価データの数及び/又は評価データの精度に基づく成績を決定する。詳細には、成績決定手段60は、記憶手段5に記憶された評価者テーブルを参照して、評価データ取得手段50が取得した各評価者(評価者識別情報)の評価データに基づき、成績を決定し、評価者テーブルに記憶する。
【0051】
図4に示す例では、成績決定手段60は、成績として、例えば、評価データ精度と、評価精度平均と、評価データ数を決定する。
【0052】
評価データ精度は、評価データの精度であり、例えば、他の評価者の評価データとの対比や、評価データ精度を判定するための他のAIを用いて決定される。
成績決定手段60は、他の評価者の評価データとの対比で、評価データ精度を決定する場合、例えば、多くの他の評価者の評価データと同じであれば精度が高い(
図4に示す例では5)と決定し、多くの他の評価者の評価データと異なる場合精度が低い(
図4に示す例では1)と決定する。
【0053】
評価精度平均は、成績決定手段60により評価データ精度に基づき算出される値であり、各評価者(評価者識別情報)の全ての評価データ精度の平均である。
【0054】
評価データ数は、成績決定手段60により評価データの数に基づき算出される値であり、各評価者(評価者識別情報)の全ての評価データ数の合算値である。
【0055】
図2に戻って、報酬決定手段70は、評価者毎に、評価データに基づく報酬を決定する。詳細には、報酬決定手段70は、記憶手段5に記憶された評価者テーブルを参照して、評価者(評価者識別情報)毎に、成績決定手段60が決定した成績に基づき報酬の大きさを示す報酬値を決定し、この報酬値を当該評価者(評価者識別情報)に対応付けた報酬情報を、記憶手段5に記憶する。具体的には、報酬決定手段70は、例えば、予め設定された1つの評価データ当りの報酬基本値に、評価データ数を乗算した値に、補正値として評価精度平均を乗算する。補正値は、評価精度平均が大きいほど大きい値である。
【0056】
評価データ収集システム1は、報酬決定手段70が決定した報酬情報に基づく報酬を、評価者に提供してもよいし、例えば、外部の報酬を提供する装置に、報酬情報を送信して、当該装置から、評価者に報酬を提供してもよい。
【0057】
選抜手段80は、成績に基づき、複数の評価者の中から、評価データを取得する評価者を選抜する。詳細には、選抜手段80は、記憶手段5に記憶された評価者テーブルを参照して、評価者(評価者識別情報)毎に、評価データ数や評価精度平均に基づき成績値を算出し、複数の評価者の中から、成績値が所定値(例えば、評価者全員の平均値等)以上の評価者を選別し、当該評価者の評価者識別情報を、選抜評価者情報として、記憶手段5に記憶する。なお、所定値は、任意に設定可能であり、例えば、全体的に評価データが多い場合には小さい値とし、全体的に評価データが少ない場合には小さい値とすることができる。また、選抜手段80は、評価データ数だけに基づき成績値を算出してもよいし、評価データ数に、補正値として評価精度平均を乗算した成績値を算出してもよい。このような選抜評価者情報は、次回以降の評価データの収集時に参照される。
【0058】
送信手段90は、評価データ取得手段50が生成し、記憶手段5に記憶されたラベリングデータを、AI生成システム2に送信する。AI生成システム2では、このラベリングデータを、AIの学習に用いる。
【0059】
評価データ収集システム1は、被評価データ取得手段10、評価項目設定手段20、提示手段30及び評価受付手段40を、評価者が操作する端末200において、機能させてもよい。この場合、例えば、端末200で実行されるアプリケーション(例えば、ゲームアプリ等)に、端末200を、被評価データ取得手段10、評価項目設定手段20、提示手段30及び評価受付手段40として機能させるプログラム(例えば、SDK(Software Development Kit)等)を導入することで実現される。また、端末200で表示・操作されるウェブアプリケーションで実現してもよい。この場合、ウェブアプリケーションを機能させるHTML内に、被評価データや評価項目へのリンクやタグを埋め込むことで実現される。
【0060】
ここで、現在、無料でプレイ可能なゲームアプリでは、別途課金しない場合、広告が表示され、課金の代わりに、広告を表示する以外の手法が乏しいという問題がある。
上記のように、被評価データ取得手段10、評価項目設定手段20、提示手段30及び評価受付手段40を、端末200で実行されるアプリケーションのSDKとして提供することで、ゲームアプリのユーザに、例えば、課金や広告の表示の代わりに、評価者として、被評価データを評価させることができる。
【0061】
また、評価データ収集システム1は、評価者を教育する教育部を備えてもよい。
評価データ収集システム1は、評価データの収集の前後において、教育部により評価者を教育する。
【0062】
教育手段は、上記AI開発者が開発しているAIと同様の要件に基づき構成された評価者教育用AIと、教育対象評価者の入力を受け付ける入力手段と、当該入力の内容に対して、評価者教育用AIの回答を、教育対象評価者に提示(表示)する教育用回答提示手段と、を備える。
【0063】
教育用回答提示手段は、評価者教育用AIが生成した回答に加えて、回答に至った推論過程や判断の理由を示す回答補助情報を、評価者に提示する。これにより、評価者(人間)は、その情報からAIの判断の正誤を評価すると同時に、自らの知識の不足を認識し、知識修正と判断能力を向上することができる。
【0064】
具体的には、教育用回答提示手段は、評価者教育用AIの内部モデル(例えばTransformerのAttention Map等)を、評価者の端末200等に表示してもよい。また、教育用回答提示手段は、評価者教育用AIの判断に影響を与えた要素(キーワードやフレーズ)を強調表示してもよい。これにより、評価者(人間)は、強調要素を確認することで評価者教育用AIの判断基準を理解できる。また、教育用回答提示手段は、評価者教育用AIの回答候補を複数表示し、各候補を選んだ理由をテキストとして、評価者の端末200等に表示してもよい。これにより、評価者(人間)は、理由の説明から評価者教育用AIの判断傾向を理解できる。また、教育用回答提示手段は、評価者教育用AIの回答に対する入力を受け付け、更に、評価者教育用AIの回答を提示する双方向のステップを行ってもよい。このような双方向のステップは、複数回繰り返してもよい。これにより、評価者(人間)は、双方向のステップにおいて、評価者教育用AIの判断傾向を理解できる。
【0065】
上記の本システムの機能構成は、あくまで一例であり、1つの機能ブロック(データベース及び機能処理部)を分割したり、複数の機能ブロックをまとめて1つの機能ブロックとして構成したりしてもよい。各機能処理部は、装置や端末に内蔵されたCPU(Central Processing Unit)が、ROM(Read Only Memory)、フラッシュメモリ、SSD(Solid State Drive)、ハードディスク等の記憶装置(記憶手段)に格納されたコンピュータ・プログラム(例えば、基幹ソフトや上述の各種処理をCPUに実行させるアプリ等)を読み出し、CPUにより実行されたコンピュータ・プログラムによって実現される。すなわち、各機能処理部は、このコンピュータ・プログラムが、記憶装置に格納されたデータベース(DB;Data Base)やメモリ上の記憶領域からテーブル等の必要なデータを読み書きし、場合によっては、関連するハードウェア(例えば、入出力装置、表示装置、通信インターフェース装置)を制御することによって実現される。また、本発明の実施形態におけるデータベース(DB)は、商用データベースであってよいが、単なるテーブルやファイルの集合体をも意味し、データベースの内部構造自体は問わないものとする。
【0066】
(処理フロー)
図5は、本発明の実施形態に係る評価データ収集システムが実行する評価データ収集処理フローを示す図である。
【0067】
ステップS1において、被評価データ取得手段10は、AI生成システムやその他の装置や記憶手段5から、複数種類の被評価データを取得し、記憶手段5に記憶する。また、本ステップにおいて、被評価データ取得手段10は、被評価データとともに、AI生成システム2から、初期モデルを生成した要件に基づく要件データを取得する。
【0068】
ステップS2において、評価項目設定手段20は、ステップS1で被評価データ取得手段10が取得した要件データに基づき、被評価データに対する評価者による評価を得るための問となる評価項目を設定する。
【0069】
ステップS3において、提示手段30は、ステップS1で被評価データ取得手段10が取得した被評価データを記憶手段5から読み出し、読み出した被評価データと、ステップS2で評価項目設定手段20が設定した評価項目に対する判断を促す問と、が配置された評価画面(
図3参照)を、評価者に操作される端末200の表示手段に表示する。
【0070】
ステップS4において、評価受付手段40は、評価者を識別する評価者識別情報と、ステップS3で提示手段30が提示した評価画面(
図3参照)の評価受付部に対する当該評価者の操作を、被評価データに対する評価として受け付ける。
【0071】
また、本ステップで評価受付手段40が、評価者識別情報と被評価データに対する評価を受け付けた場合、評価データ取得手段50は、被評価データに対する評価者の評価である評価データを、当該評価者を識別する評価者識別情報と対応づけて取得し、記憶手段5に記憶された評価者テーブル(
図4参照)に、評価者識別情報に評価データを対応付けて記憶する。
【0072】
ステップS5において、成績決定手段60は、記憶手段5に記憶された評価者テーブル(
図4参照)を参照して、ステップS4で評価データ取得手段50が取得した各評価者(評価者識別情報)の評価データに基づき、成績を決定し、評価者テーブルに記憶する。
【0073】
ステップS6において、報酬決定手段70は、記憶手段5に記憶された評価者テーブル(
図4参照)を参照して、評価者(評価者識別情報)毎に、ステップS5で成績決定手段60が決定した成績に基づき報酬の大きさを示す報酬値を決定し、この報酬値を当該評価者(評価者識別情報)に対応付けた報酬情報を、記憶手段5に記憶する。
【0074】
以上、評価データ収集システム1によれば、評価者に、被評価データを評価させるために、報酬というインセンティブを提供できる。よって、AIの学習に協力してもらう評価者をより多く集め、効率的に評価データを生成し、収集することが可能となる。
したがって、AIの学習に用いる評価者による評価データを、効率的に収集可能となる。
【0075】
また、評価データ収集システム1によれば、評価者毎に、評価データの数及び/又は評価データの精度に基づく成績を決定し、この成績に基づき報酬を決定することができる。
これにより、よりよい成績に基づく報酬を得られるように、評価者が、真摯に被評価データを評価することを促すことができるので、より精度の高い評価データを収集することが可能となる。
【0076】
また、評価データ収集システム1によれば、複数の評価者の中から、成績のよい評価者を選抜し、この選抜した評価者の評価に基づく評価データのみを取得することが可能となるので、より精度の高い評価データを収集することが可能となる。
【0077】
以上、実施形態を用いて本発明を説明したが、本発明の技術的範囲は上記実施形態に記載の範囲には限定されないことは言うまでもない。上記実施形態に、多様な変更又は改良を加えることが可能であることが当業者に明らかである。また、そのような変更又は改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。なお、上記の実施形態では、本発明を物の発明として、評価データ収集システムについて説明したが、本発明において評価データ収集システムが実行する方法や、評価データ収集システムを各種手段として機能させるプログラムの発明と捉えることもできる。
【符号の説明】
【0078】
1 評価データ収集システム
2 AI生成システム
5 記憶手段
10 被評価データ取得手段
20 評価項目設定手段
30 提示手段
40 評価受付手段
50 評価データ取得手段
60 成績決定手段
70 報酬決定手段
80 選抜手段
90 送信手段
200 端末