(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023103763
(43)【公開日】2023-07-27
(54)【発明の名称】AI学習データ作成支援システム、AI学習データ作成支援方法およびAI学習データ作成支援プログラム
(51)【国際特許分類】
G06F 16/903 20190101AFI20230720BHJP
G06N 20/00 20190101ALI20230720BHJP
【FI】
G06F16/903
G06N20/00
【審査請求】未請求
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2022004476
(22)【出願日】2022-01-14
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110001689
【氏名又は名称】青稜弁理士法人
(72)【発明者】
【氏名】高田 実佳
(72)【発明者】
【氏名】樫山 俊彦
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175HB03
(57)【要約】
【課題】AIモデルを学習させるための学習データを効率良く収集すること。
【解決手段】複数のデータ項目それぞれに対応する項目値からなり、AIモデルに分析させる分析対象データおよびAIモデルの種類の情報を含む学習プロファイルの入力を受け付け、学習用データベースから学習データの抽出に用いる第1のクエリを取得し、第1のクエリで学習用データベースから抽出される第1の学習データの数を、学習用データベースを用いて算出し、AIモデルの学習に必要な学習データの必要数を、学習プロファイルに含まれるAIモデルの種類の情報を用いて算出し、第1の学習データの数が、必要数以上か否かを判定し、第1の学習データの数が必要数未満と判定した場合に、学習プロファイルに基づいて、学習データの抽出に用いる補充クエリを生成する。
【選択図】
図11
【特許請求の範囲】
【請求項1】
AIモデルを学習させるための学習データを、少なくとも1つの学習用データベースから抽出して収集する、AI学習データ作成支援システムであって、
少なくとも1つのプログラムを格納する記憶装置と、当該記憶装置に格納された前記プログラムを実行するプロセッサと、ユーザからの入力を受け付ける入力装置と、を備え、
前記プロセッサは前記プログラムを実行して、
複数のデータ項目それぞれに対応する項目値からなり、前記AIモデルに分析させる分析対象データおよび前記AIモデルの種類の情報を含む学習プロファイルの入力を受け付け、
前記学習データの抽出に用いる第1のクエリを取得し、
前記第1のクエリで前記学習用データベースから抽出される第1の学習データの数を、前記学習用データベースを用いて算出し、
前記AIモデルの学習に必要な学習データの必要数を、前記学習プロファイルに含まれる前記AIモデルの種類の情報を用いて算出し、
前記第1の学習データの数が、前記必要数以上か否かを判定し、
前記第1の学習データの数が前記必要数未満と判定した場合に、前記学習プロファイルに基づいて、前記学習データの抽出に用いる補充クエリを生成する、
AI学習データ作成支援システム。
【請求項2】
請求項1に記載のAI学習データ作成支援システムであって、
前記プロセッサは、前記学習プロファイルの前記分析対象データに基づいて前記第1のクエリを生成する、
AI学習データ作成支援システム。
【請求項3】
請求項1に記載のAI学習データ作成支援システムであって、
前記AI学習データ作成支援システムは、
さらに、前記学習データを出力する出力装置を備え、
前記プロセッサは、
前記第1の学習データの数が前記必要数以上と判定した場合には、前記第1のクエリで前記学習用データベースから第1の学習データを抽出して、前記出力装置から出力させ、
前記第1の学習データの数が前記必要数未満と判定した場合には、前記第1のクエリで前記学習用データベースから前記第1の学習データを抽出して、前記出力装置から出力させるとともに、前記補充クエリで前記学習用データベースから補充データを抽出して、前記出力装置から出力させる、
AI学習データ作成支援システム。
【請求項4】
請求項1に記載のAI学習データ作成支援システムであって、
前記AI学習データ作成支援システムは、
さらに、前記AIモデルのアルゴリズム及び当該アルゴリズムにより前記AIモデルの学習に必要とされる前記学習データの数を表すアルゴリズム必要数を対応付けて格納するアルゴリズム必要数テーブルと、
前記AIモデルの分析内容及び当該分析内容により前記AIモデルの学習に必要とされる前記学習データの数を表す分析内容必要数を対応付けて格納する分析内容必要数テーブルと、
を備え、
前記学習プロファイルに含まれる前記AIモデルの種類の情報には、前記AIモデルのアルゴリズムの情報と、前記AIモデルの分析内容の情報を含み、
前記プロセッサは、
前記学習プロファイルに含まれる前記AIモデルのアルゴリズムの情報を用いて、前記アルゴリズム必要数テーブルから、前記アルゴリズム必要数を抽出し、
前記学習プロファイルに含まれる前記AIモデルの分析内容の情報を用いて、前記分析内容必要数テーブルから前記分析内容必要数を抽出し、
抽出した、前記アルゴリズム必要数と、前記分析内容必要数とのうちで、大きい方の必要数に基づいて、前記必要数を算出する、
AI学習データ作成支援システム。
【請求項5】
請求項1に記載のAI学習データ作成支援システムであって、
前記AI学習データ作成支援システムは、
さらに、前記第1の学習データの1つ以上の前記データ項目と、当該1つ以上のデータ項目それぞれに対する統計値の範囲および統計係数と、を対応付けて格納する統計係数テーブルを備え、
前記プロセッサは、
前記第1のクエリで前記学習用データベースから抽出される前記第1の学習データの前記1つ以上のデータ項目それぞれの統計値を、前記学習用データベースを用いて算出し、
算出した前記第1の学習データの前記1つ以上のデータ項目それぞれの統計値に対し、当該統計値を含む、前記統計係数テーブルに格納された前記統計値の範囲に対する前記統計係数を抽出し、
抽出した前記1つ以上のデータ項目それぞれの統計係数と、前記学習プロファイルに含まれる前記AIモデルの種類の情報と、に基づいて前記必要数を算出する、
AI学習データ作成支援システム。
【請求項6】
請求項1に記載のAI学習データ作成支援システムであって、
前記AI学習データ作成支援システムは、
さらに、過去に作成された過去分析対象データと、前記過去分析対象データに関する前記学習データの抽出に用いた過去クエリとを対応付けた検索条件レコードを複数格納する検索条件データベースを備え、
前記プロセッサは、前記学習プロファイルの前記分析対象データとの類似度が、所定の類似度閾値よりも大きな前記過去分析対象データを含む少なくとも1つの検索条件レコードを、前記検索条件データベースから抽出し、抽出した少なくとも1つの検索条件レコードの前記過去クエリに基づいて、少なくとも1つの第1の補充クエリを生成する、
AI学習データ作成支援システム。
【請求項7】
請求項1に記載のAI学習データ作成支援システムであって、
前記AI学習データ作成支援システムは、
さらに、前記学習プロファイルの前記分析対象データの少なくとも1つのデータ項目と、当該少なくとも1つのデータ項目それぞれに対する、複数の項目値の範囲とを対応付けて格納する範囲テーブルを備え、
前記プロセッサは、前記学習プロファイルの前記分析対象データの項目値と、前記範囲テーブルの前記複数の項目値の範囲から複数の第2の補充クエリを生成する、
AI学習データ作成支援システム。
【請求項8】
請求項6に記載のAI学習データ作成支援システムであって、
前記学習プロファイルに関するドメイン項目と、当該ドメイン項目に対するドメイン項目範囲とを対応付けたドメイン項目情報を備え、
前記プロセッサは、前記ドメイン項目範囲を、検索条件として含む第1の補充クエリを生成する、
AI学習データ作成支援システム。
【請求項9】
請求項6に記載のAI学習データ作成支援システムであって、
前記プロセッサは、前記学習プロファイルの前記分析対象データとの類似度が、所定の類似度閾値よりも大きな前記過去分析対象データを含む少なくとも1つの検索条件レコードを、前記検索条件データベースから抽出し、抽出した少なくとも1つの検索条件レコードの前記過去クエリを、少なくとも1つの第1の補充クエリ候補とし、
前記第1の補充クエリ候補で前記学習用データベースから抽出される第1の補充候補データの数を前記学習用データベースを用いて見積り、
単位時間あたりに前記学習用データベースから取得可能な第1の補充候補データの数を表す第1の補充データ取得速度と、所定の許容時間間隔との積を、データ数上限値として算出し、
第1の補充候補データの数がデータ数上限値以下の第1の補充クエリ候補を第1の補充クエリとする、
AI学習データ作成支援システム。
【請求項10】
請求項6に記載のAI学習データ作成支援システムであって、
前記AI学習データ作成支援システムは、
さらに、前記学習データを出力する出力装置と、
前記学習プロファイルの前記分析対象データの少なくとも1つのデータ項目と、当該少なくとも1つのデータ項目それぞれに対する、複数の項目値の範囲とを対応付けて格納する範囲テーブルと、を備え、
前記プロセッサは、前記学習プロファイルの前記分析対象データの項目値と、前記範囲テーブルの前記複数の項目値の範囲から複数の第2の補充クエリを生成し、
前記少なくとも1つの第1の補充クエリ及び前記複数の第2の補充クエリから使用する補充クエリユーザが選択できるように、前記出力装置を用いてユーザに提示し、
ユーザが選択した使用する補充クエリの入力を受け付け、
前記第1のクエリで前記学習用データベースから前記第1の学習データを抽出して、前記出力装置を用いて出力し、
入力された前記ユーザが選択した使用する補充クエリで、前記学習用データベースから、補充データを抽出して、前記出力装置を用いて出力する、
AI学習データ作成支援システム。
【請求項11】
請求項6に記載のAI学習データ作成支援システムであって、
前記AI学習データ作成支援システムは、
さらに、前記学習データを出力する出力装置と、
前記学習プロファイルの前記分析対象データの少なくとも1つのデータ項目と、当該少なくとも1つのデータ項目それぞれに対する、複数の項目値の範囲とを対応付けて格納する範囲テーブルと、
補充クエリとする、第1の補充クエリおよび第2の補充クエリを登録する補充クエリリストと、を備え、
前記プロセッサは、
前記必要数から前記第1の学習データの数を引いた値を算出して目標補充数とし、
前記少なくとも1つの第1の補充クエリで、前記学習用データベースから抽出される第1の補充データの数を、前記学習用データベースを用いて算出し、
前記学習プロファイルの前記分析対象データの項目値と、前記範囲テーブルの前記複数の項目値の範囲から複数の第2の補充クエリを生成し、
生成した前記複数の第2の補充クエリそれぞれで、前記学習用データベースから抽出される第2の補充データの数を、前記学習用データベースを用いて算出し、
所定の優先度順で上位から所定の数の前記第1の補充クエリと、その前記第1の補充データの数を対づけて前記補充クエリリストに登録し、
前記第2の補充クエリと、その前記第2の補充データの数と対応づけて、前記補充クエリリストに登録し、
前記補充クエリリストに登録されていない前記第1の補充クエリのうちで、前記所定の優先度順で上位から前記所定の数の前記第1の補充クエリを、前記第1の補充データの数とともに前記補充クエリリストに追加し、かつ、前記補充クエリリストに登録された第2の補充クエリを、少なくとも1つのデータ項目に対する検索範囲がより広くなるよう変更し、変更した第2の補充クエリに対する第2の補充データの数を算出して、前記補充クエリリストに登録された第2の補充データの数を、算出した前記第2の補充データの数で置き換えることを、前記補充クエリリストに登録された、前記第1の補充データの数と、前記第2の補充データの数との総和が、前記目標補充数より大きくなるまで、繰り返し、
前記第1のクエリで前記学習用データベースから前記第1の学習データを抽出して、前記出力装置から出力するとともに、前記補充クエリリストに登録された前記第1の補充クエリおよび前記第2の補充クエリで前記学習用データベースから補充データを抽出して、前記出力装置から出力させる、
AI学習データ作成支援システム。
【請求項12】
請求項1に記載のAI学習データ作成支援システムであって、
前記AIモデルは、ヘルスケア用AIモデルであり、かつ、前記分析対象データは、個人情報を含む、AI学習データ作成支援システム。
【請求項13】
少なくとも1つのプログラムを格納する記憶装置と、当該記憶装置に格納された前記プログラムを実行するプロセッサと、ユーザからの入力を受け付ける入力装置と、を備え、AIモデルを学習させるための学習データを、少なくとも1つの学習用データベースから抽出して収集するAI学習データ作成支援システムにおける、AI学習データ作成支援方法であって、
複数のデータ項目それぞれに対応する項目値からなり、前記AIモデルに分析させる分析対象データおよび前記AIモデルの種類の情報を含む学習プロファイルの入力を受け付け、
前記学習用データベースから前記学習データの抽出に用いる第1のクエリを取得し、
前記第1のクエリで前記学習用データベースから抽出される第1の学習データの数を、前記学習用データベースを用いて算出し、
前記AIモデルの学習に必要な学習データの必要数を、前記学習プロファイルに含まれる前記AIモデルの種類の情報を用いて算出し、
前記第1の学習データの数が、前記必要数以上か否かを判定し、
前記第1の学習データの数が前記必要数未満と判定した場合に、前記学習プロファイルに基づいて、前記学習データの抽出に用いる補充クエリを生成する、
AI学習データ作成支援方法。
【請求項14】
少なくとも1つのプログラムを格納する記憶装置と、当該記憶装置に格納された前記プログラムを実行するプロセッサと、ユーザからの入力を受け付ける入力装置と、を備え、AIモデルを学習させるための学習データを、少なくとも1つの学習用データベースから抽出して収集するAI学習データ作成支援システムの前記プロセッサに実行される、AI学習データ作成支援プログラムであって、
前記プロセッサに、
複数のデータ項目それぞれに対応する項目値からなり、前記AIモデルに分析させる分析対象データおよび前記AIモデルの種類の情報を含む学習プロファイルの入力を受け付けさせ、
前記学習用データベースから前記学習データの抽出に用いる第1のクエリを取得させ、
前記第1のクエリで前記学習用データベースから抽出される第1の学習データの数を、前記学習用データベースを用いて算出させ、
前記AIモデルの学習に必要な学習データの必要数を、前記学習プロファイルに含まれる前記AIモデルの種類の情報を用いて算出させ、
前記第1の学習データの数が、前記必要数以上か否かを判定させ、
前記第1の学習データの数が前記必要数未満と判定した場合に、前記学習プロファイルに基づいて、前記学習データの抽出に用いる補充クエリを生成させる、
AI学習データ作成支援プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、AIモデルを学習させるための学習データを、少なくとも1つの学習用データベースから抽出して収集するAI学習データ作成支援システム、AI学習データ作成支援方法、およびAI学習データ作成支援プログラムに関する。
【背景技術】
【0002】
インターネットを介して取得できる膨大な数の情報から所望の情報を得る技術が開示されている。例えば、特許文献1に記載された技術では、ユーザが興味のあるトピックやユーザの特徴との関連性を基に重み付けされた、インターネット上のサイトのパスのリストを含むサブウェブを作成する。そして、検索エンジンが、インターネットのサイト検索にサブウェブを使用することで、焦点を絞ったインターネットのサイトの検索の実行を容易にすることができる。従って、特許文献1に記載された技術を用いた場合、検索エンジンを用いて検索することで、ユーザの興味やユーザの特徴に関するインターネットのサイトの情報を収集できる。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、特許文献1に記載されている技術を用いてユーザの特徴に関するインターネットのサイトの情報を収集できたとしても、特定の複数のデータ項目に関する情報を含む、AIモデルの学習用データを、データベースから抽出して収集することは容易ではない場合がある。
【0005】
特に、個人や集団の健康状態の分析や予測に用いるヘルスケア用AIモデルは、人の健康にかかわる重要な分析を行うことが期待されているが、ヘルスケア用AIモデルが分析する分析内容によっては、学習データを容易に収集できない場合がある。例えば、分析内容が、希少疾患Aの患者の肺がんリスク(発症のしやすさ)の場合、過去に希少疾患Aに罹り、さらに肺がんになった人は非常に少ないため、学習データを収集することは困難である。また、ヘルスケア用AIモデルの分析結果に高い正確度が求められる場合、学習データを収集することが難しい場合がある。
【0006】
本発明の目的は、AIモデルを学習させるための学習データを効率良く収集できる、AI学習データ作成支援システム、AI学習データ作成支援方法およびAI学習データ作成支援プログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
本願において開示される発明の一側面となるAI学習データ作成支援システムは、AIモデルを学習させるための学習データを、少なくとも1つの学習用データベースから抽出して収集する、AI学習データ作成支援システムであって、少なくとも1つのプログラムを格納する記憶装置と、当該記憶装置に格納された前記プログラムを実行するプロセッサと、ユーザからの入力を受け付ける入力装置と、を備え、前記プロセッサは前記プログラムを実行して、複数のデータ項目それぞれに対応する項目値からなり、前記AIモデルに分析させる分析対象データおよび前記AIモデルの種類の情報を含む学習プロファイルの入力を受け付け、前記学習データの抽出に用いる第1のクエリを取得し、前記第1のクエリで前記学習用データベースから抽出される第1の学習データの数を、前記学習用データベースを用いて算出し、前記AIモデルの学習に必要な学習データの必要数を、前記学習プロファイルに含まれる前記AIモデルの種類の情報を用いて算出し、前記第1の学習データの数が、前記必要数以上か否かを判定し、前記第1の学習データの数が前記必要数未満と判定した場合に、前記学習プロファイルに基づいて、前記学習データの抽出に用いる補充クエリを生成する。
【発明の効果】
【0008】
本発明によれば、AIモデルを学習させるための学習データを効率良く収集できる。
【図面の簡単な説明】
【0009】
【
図1】
図1は、実施例1におけるAI学習データ作成支援システムの機能ブロック図の一例を示す図である。
【
図2】
図2は、実施例1におけるAI学習データ作成支援システムのハードウェア構成図の一例を示す図である。
【
図3】
図3は、個人プロファイルおよび第1のクエリの一例を示す図である。
【
図4】
図4は、設定条件データベースと、設定条件データベースに格納されている設定条件テーブルの一例を示す図である。
【
図5】
図5は、検索条件データベースの一例を示す図である。
【
図6】
図6は、アルゴリズム必要数テーブルの一例を示す図である。
【
図7】
図7は、分析内容必要数テーブルの一例を示す図である。
【
図8】
図8は、ユーザが個人プロファイルおよび第1のクエリを入力するためにクライアント装置に表示される個人プロファイル入力画面の一例を示す説明図である。
【
図9】
図9は、ユーザが第1のクエリを入力するためにクライアント装置に表示されるクエリ入力画面の一例を示す説明図である。
【
図10】
図10は、ユーザが第1のクエリを入力するためにクライアント装置に表示されるクエリ入力画面の一例を示す説明図である。
【
図11】
図11は、実施例1の学習データ取得処理の例を示すフローチャートである。
【
図12】
図12は、実施例1の補充クエリ生成サブルーチンの処理の例を示すフローチャートである。
【
図13】
図13は、第2の補充クエリの生成方法を説明する図である。
【
図14】
図14は、補充クエリリストに登録されている補充クエリとその補充データの数をユーザに提示するために、クライアント装置のディスプレイに表示される、補充クエリ表示画面の一例を示す説明図である。
【
図15】
図15は、実施例2の補充クエリ生成サブルーチンの処理の例を示すフローチャートである。
【
図16】
図16は、実施例3の学習データ取得処理の例を示すフローチャートである。
【発明を実施するための形態】
【0010】
以下、図面を参照しながら実施の形態を説明する。実施例は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略および簡略化がなされている。本発明は、実施例に制限されることは無く、本発明の技術的範囲には、本発明の思想に合致するあらゆる応用例が含まれる。
【0011】
また、図及び以下の説明において同一部分または同様な機能を有する部分には、同一符号を付与する場合や、同一の符号に異なる添字を付して説明する場合や、添字を省略して説明する場合がある。また、特に限定しない限り、各構成要素は複数でも単数でも構わない。
【0012】
図面に示す各構成要素の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面に開示された位置、大きさ、形状、範囲などに限定されない。
【0013】
また、以下の説明では、「表」、「テーブル」、「リスト」、「キュー」等の表現にて各種情報を説明する場合があるが、各種情報はこれら以外のデータ構造で表現されていてもよい。また、各種情報がデータ構造に依存しないことを示すために「テーブル」等を「管理情報」と呼ぶことができる。識別情報を「識別情報」、「識別子」、「名」、「ID」、「番号」等の表現を用いて説明する場合があるが、これらについてはお互いに置換が可能である。
【0014】
また、「プログラム」や「機能部」を主語とする文で処理を説明する場合がある。そのプログラムや機能部は、処理部や演算部であるプロセッサ、例えば、MP(Micro Processor)やCPU(Central Processing Unit)やGPU(Graphics Processing Unit)によって実行されるもので、定められた処理をするものである。プロセッサは、記憶資源(例えばメモリ)及び通信インタフェース装置(例えば、通信ポート)を用いながら処理を行う。このため、「プログラム」や「機能部」を主語とする文の主語を、プロセッサ、処理部或いは演算部で置き換えてもよい。また、プログラムを実行して行う処理の主体を、プロセッサ、演算部或いは処理部としてもよいし、プロセッサを有するコントローラ、装置、システム、計算機、ノードとしてもよいし、特定の処理を行う専用回路でもよい。ここで、専用回路とは、例えばFPGA(Field Programmable Gate Array)やASIC(Application Specific Integrated Circuit)、CPLD(Complex Programmable Logic Device)等である。
【0015】
プログラムは、プログラムソースから計算機にインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバまたは計算機が読み取り可能な記憶メディアであってもよい。プログラムソースがプログラム配布サーバの場合、プログラム配布サーバはプロセッサと配布対象のプログラムを記憶する記憶資源を含み、プログラム配布サーバのプロセッサが配布対象のプログラムを他の計算機に配布してもよい。また、2以上のプログラムが1つのプログラムとして実現されてもよいし、1つのプログラムが2以上のプログラムとして実現されてもよい。
【実施例0016】
AI学習データ作成支援システム1は、AIモデルを学習させるための学習データを、少なくとも1つの学習用データベースから抽出して収集する。学習後のAIモデルは、分析対象データを分析する。学習させるAIモデルは、例えば、運輸における交通用AIモデル(最適ルート予測用モデルなど)でも良いし、製品の製造に関する産業用AIモデル(機器の故障診断推定用モデルなど)でも良いし、医療に関するヘルスケア用AIモデルでもよい。
【0017】
以下では、例として、学習させるAIモデルを、個人や集団の健康状態の分析や予測に用いるヘルスケア用AIモデルとし、分析対象データを、個人の健康状態の情報を含む個人情報とする。これにより、AI学習データ作成支援システム1は、学習用データを収集することが容易になるため、多くの人が個人情報を参照して学習データの収集方法を検討することなく、学習データを集めることができる。従って、AI学習データ作成支援システム1が、ヘルスケア用AIモデルの学習データを収集することにより、分析対象者のプライバシーを守った上で、学習データを収集することができる。なお、個人情報には、医療のカルテに含まれる診断履歴等の情報や、遺伝子の情報を含めても良い。また、収集する学習データは、学習させるAIモデルに応じて適宜変更する。例えば、学習させるAIモデルが製品の製造に関する故障診断推定用モデルの場合には、収集する学習データは、例えば、製造用機器の特性の情報と、故障の状況とを対応付けたデータである。
【0018】
<システム構成>
図1は、実施例実施例1におけるAI学習データ作成支援システム1の機能ブロック図の一例を示す図である。
図1に示すように、AI学習データ作成支援システム1は、クライアント装置2と、外部学習データベースサーバー3とに、ネットワークNWを介して接続されている。
【0019】
クライアント装置2は、クライアント装置2のユーザから入力された、AIモデルに分析させる個人情報(分析対象データ)や、学習用データベースから学習データを抽出するための第1のクエリ等を、AI学習データ作成支援システム1に送信することができる。また、クライアント装置2は、ディスプレイなど情報を表示する装置を備え情報をユーザに表示できる。
【0020】
外部学習データベースサーバー3は、AIモデルを学習するための学習データを格納する学習データベースの一種である外部学習データベースを有している。AI学習データ作成支援システム1は、外部学習データベースサーバー3からクエリを用いて学習データを抽出できる。
【0021】
ネットワークNWは、有線のネットワークでもよいし、無線のネットワークでもよい。また、通信ネットワークNWは、インターネットのようなグローバルネットワークであってもよいし、構内ネットワーク(LAN:Local Area Network)であってもよい。
【0022】
図1に示すように、AI学習データ作成支援システム1は、学習データ取得部11と、補充クエリ生成部12とを備えている。また、AI学習データ作成支援システム1は、第1の学習用データベース21と、設定条件データベース22と、検索条件データベース23と、アルゴリズム必要数テーブル24と、分析内容必要数テーブル25とを格納している。
【0023】
学習データ取得部11は、
図11のフローチャートを用いて詳細を後述するが、ユーザからの個人プロファイル(学習プロファイル)の入力を受け付ける。個人プロファイルは、詳細は
図3を用いて説明するが、複数のデータ項目それぞれに対応する項目値からなり、学習させるAIモデルに分析させる個人情報(分析対象データ)およびAIモデルの種類の情報(AIモデルのアルゴリズム、分析内容)を含む。
【0024】
また、学習データ取得部11は、学習データの抽出に用いる第1のクエリ(
図3参照)を取得する。学習データ取得部11は、第1のクエリで学習用データベースから抽出される第1の学習データの数を、学習用データベースを用いて算出する。学習データ取得部11は、AIモデルの学習に必要な学習データの必要数を、学習プロファイルに含まれるAIモデルの種類の情報を用いて算出する。学習データ取得部11は、第1の学習データの数が、必要数以上か否かを判定する。学習データ取得部11は、第1の学習データの数が、必要数以上と判定した場合に、第1のクエリで学習用データベースから第1の学習データを抽出し、出力する。学習データ取得部11は、第1の学習データの数が必要数未満と判定した場合に、補充クエリ生成部12に、学習プロファイルに基づいて、補充クエリを生成させ、補充クエリ生成部12が生成した補充クエリを受け取って、受け取った補充ク
エリで学習用データベースから補充データを抽出し、出力するとともに、第1のクエリで
学習用データベースから第1の学習データを抽出し、出力する。
【0025】
補充クエリ生成部12は、
図12および
図15のフローチャートを用いて詳細を後述するが、学習データを補充するための補充クエリを生成する。
【0026】
第1の学習用データベース21は、学習用データと、統計情報ファイル21aを格納しているデータベースである。統計情報ファイル21aは、例えば、レコードの数を表す情報や、カラム毎のデータの最大値及び最小値に関する情報や、カラム毎のデータの分布状況を表すヒストグラム等の統計情報を含む。通常、データベースは、統計情報ファイル21aと同様の統計情報ファイルを有している。なお、AI学習データ作成支援システム1は、第1の学習用データベース21以外の学習用データベース(例えば、外部学習データベースサーバー3の外部学習データベース)にアクセスして学習用データを抽出することができる。
【0027】
設定条件データベース22は、詳細は
図4を用いて後述するが、範囲テーブルと、統計係数テーブルと、ドメイン項目情報と、を含むデータベースである。範囲テーブルは、学習プロファイルの分析対象データの少なくとも1つのデータ項目と、当該少なくとも1つのデータ項目それぞれに対する、複数の項目値の範囲とを対応付けて格納する。統計係数テーブルは、第1の学習データの1つ以上のデータ項目と、当該1つ以上のデータ項目それぞれに対する統計値の範囲および統計係数と、を対応付けて格納する。ドメイン項目情報は、個人プロファイル(学習プロファイル)に関するドメイン項目と、ドメイン項目に対するドメイン項目範囲とを対応付けて格納する。
【0028】
検索条件データベース23は、詳細は
図5を用いて後述するが、過去に作成された過去分析対象データ(個人情報)と、過去分析対象データに関する学習データの抽出に用いた過去クエリとを対応付けた検索条件レコードを複数格納しているデータベースである。
【0029】
アルゴリズム必要数テーブル24は、詳細は
図6を用いて後述するが、AIモデルのアルゴリズムと、当該アルゴリズムのAIモデルの学習に必要な学習データの数を表すアルゴリズム必要数を対応付けて格納する。
【0030】
分析内容必要数テーブル25は、詳細は
図7を用いて後述するが、AIモデルの分析内容と、当該分析内容のAIモデルの学習に必要な学習データの数を表す分析内容必要数を対応付けて格納する。
【0031】
図2は、実施例1におけるAI学習データ作成支援システム1のハードウェア構成図の一例を示す図である。
図2に示すように、AI学習データ作成支援システム1は、プロセッサ31、主記憶装置32、副記憶装置33、入力装置34、出力装置35、ネットワークI/F36、これらを接続するバス37を有している。AI学習データ作成支援システム1は、例えばPCやサーバーコンピューターのような一般的な情報処理装置で実現できる。
【0032】
プロセッサ31は、副記憶装置33に記憶されたデータやプログラムを主記憶装置32に読み出して、プログラムによって定められた処理を実行する。
【0033】
主記憶装置32は、RAMなどの揮発性揮発素子を有し、プロセッサ31が実行するプログラムや、データを記憶する。
【0034】
副記憶装置33は、HDD(Hard Disk Drive)やSSD(Solid State Drive)など不揮発性記憶素子を有し、プログラムやデータ等を記憶する装置である。副記憶装置33には、上述した、第1の学習用データベース21と、設定条件データベース22と、検索条件データベース23と、アルゴリズム必要数テーブル24と、分析内容必要数テーブル25とを格納している。
【0035】
また、副記憶装置33には、学習データ取得プログラム11aと、補充クエリ生成プログラム12aがインストールされている。
図1を用いて上述した、学習データ取得部11、補充クエリ生成部12は、副記憶装置33に記憶されている学習データ取得プログラム11aと、補充クエリ生成プログラム12aを、プロセッサ31が主記憶装置32に読み出して実行することにより実現される。
【0036】
入力装置34は、キーボードやマウスなどのユーザの操作を受け付ける装置であり、ユーザの操作により入力された情報を取得する。出力装置35は、ディスプレイなど情報を出力する装置であり、例えば画面への表示により情報をユーザに提示する。
【0037】
ネットワークI/F36は、クライアント装置2や、外部学習データベースサーバー3等の装置と、ネットワークNWを介してデータを送受信するためのインタフェースある。AI学習データ作成支援システム1は、ネットワークI/F36を用いて、ネットワークNWに接続されているクライアント装置2や、外部学習データベースサーバー3等の装置とデータの送受信を行うことができる。ネットワークI/F36は、クライアント装置2のユーザから入力された情報を受け付けることができ、これによりネットワークI/F36は、入力装置としても機能する。また、ネットワークI/F36は、ネットワークNWを介して、クライアント装置2にデータを送信して、クライアント装置2のディスプレイにデータを表示でき、これによりネットワークI/F36は、出力装置としても機能する。
【0038】
クライアント装置2および外部学習データベースサーバー3は、AI学習データ作成支援システム1と同様のハードウェア資源を使用することで構成できる。
【0039】
<各種データ構造>
図3は、個人プロファイルおよび第1のクエリの一例を示す図である。個人プロファイル(学習プロファイル)302は、複数のデータ項目301それぞれに対応する項目値を有し、AIモデルに分析させる個人情報(分析対象データ)およびAIモデルの種類の情報を含む。データ項目301には、AIモデルに分析させる個人情報(分析対象データ)に関する複数のデータ項目と、AIモデルの種類の情報(AIモデルのアルゴリズム及び分析内容)に関する複数のデータ項目を含む。
【0040】
個人情報(分析対象データ)に関する複数のデータ項目は、診断項目と、その他の項目とがある。診断項目は、AIモデルに分析させる分析結果に対応する項目であり、いわば目的変数である。診断項目以外のデータ項目は、いわば従属変数である。学習後のAIモデルが、診断項目以外のデータ項目の項目値を用いて、診断項目の項目値を分析できるように、学習データ(第1の学習データ、第1の補充データ、第2の補充データ)は作成される。
【0041】
図3の個人プロファイル302では、診断項目は、一例として「UA」となっており、学習後のAIモデルは、個人プロファイル(学習プロファイル)の個人情報(分析対象データ)を分析して、分析結果として「UA」の値を出力する。診断項目は、例えば、薬の投薬量や、人体への処置法など、任意に設定できる。
【0042】
図3には、第1のクエリに含まれる第1のクエリの検索範囲(検索条件)303の一例が示されている。第1のクエリは、第1の学習用データベース21(学習用データベース)から第1の学習データを抽出するために用いる。AIモデルの学習が教師あり学習となる場合、第1の学習データを教師データにすることができる。そして、第1の学習データにおいて、診断項目に対する項目値は、正解、不正解を表すデータとなる。このため、学習用データベースから、診断項目に対応する項目値を含むデータを抽出できるように、第1のクエリおよび補充クエリ(第1の補充クエリおよび第2の補充クエリ)を設定する。
【0043】
図4は、設定条件データベース22と、設定条件データベース22に格納されている設定条件テーブル22aの一例を示す図である。設定条件データベース22は、複数の診断項目(目的変数)それぞれに対する設定条件テーブルを有しており、
図4の例では、設定条件データベース22には、設定条件テーブル22aの他に、設定条件テーブル22b、22cを例示し、他の設定条件テーブルの図示を省略した。
【0044】
設定条件テーブル22aは、範囲テーブル(データ項目401、第1範囲403~第3範囲405)等と、統計係数テーブル(データ項目401、統計値の種類408~第2統計係数412)等と、ドメイン項目情報(ドメイン項目406、ドメイン項目範囲407)とを含む。
【0045】
範囲テーブルは、個人プロファイル(学習プロファイル)の個人情報(分析対象データ)の少なくとも1つのデータ項目401と、当該少なくとも1つのデータ項目401それぞれに対する、複数の項目値の範囲(第1範囲403~第3範囲405等)とを対応付けて格納する。
【0046】
データ項目401は、個人プロファイルに対応するデータ項目である。重要度402は、個人プロファイルの個人情報の項目値の重要度である。
図4では、重要度402を、例として、1~3の3つの数字で示した。また、数字が小さい程、重要度は高い。第1範囲403~第3範囲405は、個人プロファイルから補充クエリ(第2の補充クエリ)を作成する際に、補充クエリに含まれる検索範囲を設定するための値の範囲である。第1範囲403~第3範囲405以外は図示を省略したが、設定条件テーブル22aには、第1範囲403~第n範囲が設定されている。第1範囲から第n範囲は、重要度を考慮して設定されている。
【0047】
統計係数テーブルは、第1の学習データの1つ以上の前記データ項目401と、当該1つ以上のデータ項目401それぞれに対する、統計値の種類408、統計値の範囲(第1統計範囲409、第2統計範囲411等)および統計係数(第1統計係数410、第2統計係数412等)と、を対応付けて格納する。
【0048】
ドメイン項目情報は、個人プロファイル(学習プロファイル)に関するドメイン項目406と、ドメイン項目406に対するドメイン項目範囲407とを対応付けて格納する。ドメイン項目406は、個人プロファイル(学習プロファイル)の診断項目(目的変数)に関して重要な意味を持つ(影響が大きい)と考えられる項目である。また、ドメイン項目406は、個人プロファイルのデータ項目に含まれる場合も含まれない場合もある項目である。ドメイン項目範囲407は、ドメイン項目406に関する値として妥当だと考えられる値の範囲である。
【0049】
統計値408は、学習用データベースから第1のクエリで抽出される第1の学習データに関して算出する統計値の種類(例えば、skewness)である。設定条件テーブル22aの統計値408に統計値の種類が設定されているデータ項目に対して、第1の学習データの統計値を算出する。詳細は後述するが、第1統計範囲409は、統計値S408に関する統計値の範囲であり、第1統計係数410は第1統計範囲409に対応する統計係数である。同様に、第2統計範囲411も統計値S408に関する統計値の範囲であり、第2統計係数412は第2統計範囲411に対応する統計係数である。設定条件テーブル22aは、この様な統計範囲と統計係数との組み合わせを複数格納している。
【0050】
図5は、検索条件データベースの一例を示す図である。検索条件データベース23は、過去に作成された過去分析対象データ(個人情報)と、過去分析対象データに関する学習データの抽出に用いた過去クエリとを対応付けた検索条件レコードを複数記憶している。ID501は、検索条件レコードを識別するIDである。過去クエリ502は、各検索条件レコードの過去クエリである。IF503は、過去クエリ502を用いる際のインタフェースである。検索対象504は検索条件レコードの検索対象のデータベース名である。
【0051】
個人プロファイル505は、過去に作成された過去分析対象データ(個人情報)を含む。変更可能項目506は、個人プロファイル505の過去分析対象データのデータ項目のうちで、AIモデルの分析結果との相関が小さいと考えられるデータ項目であり、検索する範囲を任意の範囲に広げてもよいと考えられるデータ項目である。作成日時507は、レコードが作成された日時である。
【0052】
図6は、アルゴリズム必要数テーブル24の一例を示す図である。アルゴリズム必要数テーブル24は、AIモデルのアルゴリズムと、当該アルゴリズムにより必要とされる学習データの数を表すアルゴリズム必要数を対応付けて格納する。ID601はアルゴリズムを識別するIDである。アルゴリズム602は、学習させるAIのアルゴリズムである。特性603は、アルゴリズム602に関する特性の欄で、AIモデルのアルゴリズム602に対応するアルゴリズム必要数が「Data size(Samples)」の欄に記載されている。
【0053】
図6には、アルゴリズム602の例として、Logistic Regression(ロジスティック回帰)、DNN(ディープニューラルネットワーク:Deep Neural Network)、SVM(サポートベクトルマシン:Support Vector Machine)が示されている。また、特性603は、AIモデルのアルゴリズム602に対応するアルゴリズム必要数(「Data size(Samples)」の欄)を含む。特性603は、一例として、学習データで学習にかかる時間の目安である「preparation_time」や、学習データの望ましい統計値の例として「fairness」や、学習させたAIモデルの分析結果の正確さの精度の一例であるAUC(Area Under Curve)の概算値「AUC」や、AIモデルのアルゴリズム602に対応するアルゴリズム必要数(「Data size(Samples)」の欄)を含んでいる。
【0054】
図7は、分析内容必要数テーブル25の一例を示す図である。分析内容必要数テーブル25は、AIモデルの分析内容702及び当該分析内容のAIモデルの学習に必要な学習データの数を表す分析内容必要数703を対応付けて格納する。
図7の分析内容必要数テーブル25において、ID701はAIモデルの分析内容を識別するIDである。分析内容702は、学習させるAIの分析内容で、「問題」と称される場合もある。分析内容必要数703は、分析内容702のAIモデルの学習に必要な学習データの数である。
図7には、例として、分析内容702としてクラス分類(classification)および回帰(Regression)が示されており、これらに対応する分析内容必要数703の例が示されている。
【0055】
<処理手順>
実施例1では、ユーザが、クライアント装置2に、個人プロファイルと、第1のクエリとを入力する。次に、クライアント装置2は、AI学習データ作成支援システム1に、個人プロファイルと、第1のクエリとを送信する。AI学習データ作成支援システム1は、クライアント装置2から送信された、個人プロファイルと、第1のクエリとを取得すると、学習データ取得処理を開始する。なお、ユーザが、個人プロファイル及び第1のクエリを、AI学習データ作成支援システム1に直接入力し、入力されると、AI学習データ作成支援システム1は学習データ取得処理を開始するようにしても良い。
【0056】
図8は、ユーザが個人プロファイルおよび第1のクエリを入力するためにクライアント装置2に表示される個人プロファイル入力画面の一例を示す説明図である。
図8に示す個人プロファイル入力画面800は、個人プロファイルを入力する入力欄801、クエリ入力ボタン802、送信実行ボタン803を含む。
【0057】
入力欄801は、ユーザが個人プロファイルを入力する欄である。例えば、「subject」の箇所には学習後のAIモデルに分析させる診断項目として「UA」が入力されており、「sex」の箇所には性別として「Male」が入力されている。また、「AI」の箇所には学習させるAIモデルのアルゴリズムとして「DNN」が入力されており、「problem」の箇所には学習させるAIモデルの分析内容として「classification」が入力されており、「required_auc」の箇所には学習させたAIモデルの分析結果の正確さの精度の一例であるAUC(Area Under Curve)と、その目標値として「50%」を表す「50」が入力されている。
【0058】
クエリ入力ボタン802をユーザが押すと、第1のクエリを入力するクエリ入力画面がクライアント装置2に表示されるようになっている。また、送信実行ボタン803をユーザが押すと、ユーザが入力した、個人プロファイルおよび第1のクエリの情報が、クライアント装置2からAI学習データ作成支援システム1にネットワークNWを介して送信されるようになっている。
【0059】
図9及び
図10は、ユーザが第1のクエリを入力するためにクライアント装置2に表示されるクエリ入力画面の一例を示す説明図である。
図9に示すクエリ入力画面900aは、ユーザが第1のクエリを入力する欄901aを有する。
図10に示すクエリ入力画面900bには、ユーザが、第1のクエリの内容を入力するためのデータ項目表を選択するリスト選択ボタン901bと、データ項目表902bを有している。
図10の例では、ユーザがリスト選択ボタン901bで「Patient_basic_table」を選択し、データ項目表902bには「Patient_basic_table」が表示されている。ユーザは、データ項目表902bのチェックボックスをクリックして、第1のクエリに含まれる検索条件を設定すると、クライアント装置2はデータ項目表902bを第1のクエリに変換するようになっている。
【0060】
次に、
図11を用いて、AI学習データ作成支援システム1の学習データ取得部11により実行される、学習データ取得処理について説明する。
図11は、AI学習データ作成支援システム1の学習データ取得処理の例を示すフローチャートである。上述したが、AI学習データ作成支援システム1は、個人プロファイルおよび第1のクエリをクライアント装置2から受け取ると、
図11にフローチャートで示す学習データ取得処理を開始する。
【0061】
AI学習データ作成支援システム1(プロセッサ31)は、クライアント装置2から受け取ったプロファイルおよび第1のクエリを保存する(ステップS101)。
【0062】
次に、AI学習データ作成支援システム1は、設定条件データベース22(
図4参照)から、個人プロファイルの診断項目に関する設定条件テーブル22aを抽出し、保存する(ステップS102)。
【0063】
次に、AI学習データ作成支援システム1は、第1のクエリで第1の学習用データベース21から抽出される第1の学習データの数および統計値を、第1の学習用データベース21の統計情報ファイル21aを用いて算出し、保存する(ステップS103)。ここで、AI学習データ作成支援システム1は、第1の学習データの数を、第1の学習用データベース21の統計情報ファイル21aを用いて、下記の様に、公知の方法で概算する。またAI学習データ作成支援システム1は、設定条件テーブル22aの統計値408(
図4参照)に統計値の種類が設定されている全てのデータ項目に関して、統計値408に設定されている種類の統計値を、統計情報ファイル21aを用いて、第1の学習データについて公知の方法で算出し、統計値とする。ここで、AI学習データ作成支援システム1は、統計情報ファイル21aを用いて、第1の学習データの数及び統計値を算出することにより、AI学習データ作成支援システム1が、第1の学習用データベース21から第1の学習データを抽出して、第1の学習データの数及び統計値を算出する場合に比べて、AI学習データ作成支援システム1は、より容易に第1の学習データの数及び統計値を算出できる。
【0064】
データベースは、通常、統計情報ファイルを有している。統計情報ファイルは、例えば、レコードの数を表す情報や、カラム毎のデータの最大値及び最小値に関する情報や、カラム毎のデータの分布状況を表すヒストグラム等の統計情報を含む。そして、例えば、データ項目Aの値が記録されているレコードの数Raを見積もることができる。また、データ項目Aの値が範囲Aにあるレコードの数Raaは、ヒストグラムの情報から見積もることができる。これにより、データ項目Aの値を有するレコードのうち、データ項目Aの値が範囲Aにあるレコードの割合Rpa(Rpa=Raa/Ra)も見積もることができる。同様に、データ項目Bの値が記録されているレコードの数Rbを見積もることができる。データ項目Bの値を有するレコードのうち、データ項目Bの値が範囲Bにあるレコードの割合Rpbを見積もることができる。そこで、データ項目Aの値が範囲Aにあり、かつ、データ項目Bの値が範囲Bにあるレコードの数ABは、データ項目Aの値が記録されているレコードの数Raと、データ項目Aの値が範囲Aにあるレコードの割合Rpaと、データ項目Bの値が範囲Bにあるレコードの割合Rpbとの積(レコードの数AB=レコードの数Ra×レコードの割合Rpa×レコードの割合Rpb)と見積もることができる。この様に、データ項目が記録されたレコードの数と、レコードの割合との積を算出して、第1の学習データの数を算出する。また、第1の学習データのデータ項目の値の統計値「skewness(歪度)」や、「kurtosis(尖度)」は、データ項目のヒストグラム等から見積もることができる。
【0065】
また、例えば、
図4に示す統計情報ファイル21aの例では、統計値408は、BMIの項が「skewness」となっており、AI学習データ作成支援システム1は、統計情報ファイル21aを用いて、第1の学習データのBMIの「skewness」の値を算出し、BMIの統計値とする。そして、
図4の例では、LDL-Cや、γGTの項等に関しても同様に、「skewness」等の統計値を算出し、それぞれの項の統計値とする。なお、「skewness(歪度)」は、第1の学習データのばらつきを表す統計値の例であり、「skewness」の代わりに他の統計値を用いても良い。例えば、統計値として、「kurtosis(尖度)」を用いても良いし、「skewness」および「kurtosis」の両方を用いても良い。
【0066】
次に、AI学習データ作成支援システム1は、個人プロファイルと、第1のクエリとを対応付けて検索条件データベース(
図5参照)に保存する(ステップS104)。ここで、設定条件テーブル22aにおいて重要度3とされた重要度が最も低いデータ項目を、検索条件レコード(
図5参照)の変更可能項目(検索する範囲を任意の範囲に広げてもよいと考えられるデータ項目、
図5参照)としてもよい。
【0067】
次に、AI学習データ作成支援システム1は、必要数上限値を算出し、必要数上限値、AIモデルのアルゴリズム(AIモデルの種類)、設定条件テーブル22a、第1の学習データの統計値に基づいて、AIモデルの学習に必要なデータの数を必要数として算出し、保存する(ステップS105)。ここで、必要数上限値とは、AI学習データ作成支援システム1が第1の学習用データベース21から、第1の学習データを取得する場合に、AI学習データ作成支援システム1が、十分短いと考えられる第1の許容時間間隔(例えば6時間)で取得可能な第1の学習データの数の概算値である。第1の許容時間間隔は、あらかじめ設定されている。第1の学習データの数が、必要数上限値以下の場合(第1学習データの数≦必要数上限値)には、第1の学習データを取得するためにかかる時間は十分短いと判断できる。一方、第1の学習データの数が、必要数上限値よりも大きい場合(第1の学習データの数>必要数上限値)には、第1の学習データを取得するためにかかる時間は長すぎると判断できる。
【0068】
必要数上限値は、例えば、第1の学習データ取得速度と、第1の許容時間間隔との積である。第1の学習データ取得速度は、単位時間あたりに第1の学習用データベース21から取得可能な第1の学習データの数を表す。AI学習データ作成支援システム1は、例えば、プロセッサ31のコア数やクロック数等のプロセッサ31のスペックや、第1の補充データを取得するために割り当てることができるプロセッサ31の推定の使用率(稼働状況)や、主記憶装置32の読み書きの速度等に基づいて、第1の学習データ取得速度を算出する。また、AI学習データ作成支援システム1は、所定のプログラムを実行して、第1の学習データ取得速度を計測しても良い。そして、AI学習データ作成支援システム1は、第1の学習データ取得速度と、第1の許容時間間隔との積を算出し、必要数上限値とする。
【0069】
必要数の算出には、次の様に、必要数上限値、アルゴリズム必要数テーブル24、分析内容必要数テーブル25、ステップS103にて算出した統計値、設定条件テーブル22aを用いる。上述したが、学習させるAIモデルのアルゴリズムおよび分析内容の情報は、個人プロファイルに含まれている。例えば、
図3に示す個人プロファイルでは、アルゴリズムは「ディープニューラルネットワーク(DNN)」で、分析内容は「クラス分類(classification)」である。
【0070】
必要数の算出では、まず、
図6に一例を示すアルゴリズム必要数テーブル24からAIモデルのアルゴリズムに対応するアルゴリズム必要数を抽出し、
図7に一例を示す分析内容必要数テーブル25からAIモデルの分析内容に対応する分析内容必要数を抽出する。アルゴリズム必要数と、分析内容必要数とのうちで、大きい方をモデル必要数Mとする。
【0071】
例えば、
図6に示すアルゴリズム必要数テーブル24では、AIモデルのアルゴリズム「DNN」に対応するアルゴリズム必要数は、100,000である。また、
図7に示す分析内容必要数テーブル25の例では、AIモデルの分析内容「classification」(クラス分類)に対応するアルゴリズム必要数は、10,000である。これらのデータ件数の大きい方の100,000が、モデル必要数Mとなる(モデル必要数M=100,000)。なお、以上では、アルゴリズム必要数テーブル24と、分析内容必要数テーブル25とを用いたが、以下の様に適宜変更できる。例えば、アルゴリズム必要数テーブル24と分析内容必要数テーブル25を1つにまとめた、アルゴリズム及び分析内容との組と、モデル必要数Mとを対応付けて格納するデータベースをあらかじめ生成し、用いても良い。アルゴリズム必要数テーブル24だけを用いてモデル必要数Mを算出しても良い。また、分析内容必要数テーブル25だけを用いてモデル必要数Mを算出しても良い。さらに、AIモデルのアルゴリズム、分析内容以外の事項を考慮して、モデル必要数Mを算出しても良い。
【0072】
また、統計値を算出したデータ項目毎に、以下の様に統計係数を算出し、算出した統計係数のうち一番大きい統計係数を、最大統計係数Cとする。また、モデル必要数Mと最大統計係数Cとの積を必要数D(必要数D=モデル必要数M×最大統計係数C)とする。さらに、必要数Dが、必要数上限値よりも大きい場合(必要数D>必要数上限値)には、必要数Dを、必要数上限値に設定する。統計係数は、第1統計範囲~第n統計範囲のうち、統計値を含む範囲に対応する統計係数(第1統計係数~第n統計係数のいずれか)である。
【0073】
図4の設定条件テーブル22aの例では、BMIの統計値が0.4であったとすると、統計値(0.4)は、第2統計範囲411に入り、第2統計範囲411に対応する第2統計係数412である10を、データ項目BMIの統計係数とする(統計係数=10)。同様に、データ項目LDL-Cの統計値が0.1の場合には統計値は、第1統計範囲409に入り、第1統計係数410の値1がデータ項目LDL-Cの統計係数となる(統計係数=1)。そして、全てのデータ項目の統計係数の値で最大値が10の場合には、最大統計係数Cは10となる。上記の様に、モデル必要数Mが100,000の場合、必要数Dは、1000,000(=モデル必要数M100,000×最大統計係数10)となる。
【0074】
さらに、必要数D(必要数D=モデル必要数Mと、最大統計係数Cとの積)が、必要数上限値よりも大きい場合(必要数D>必要数上限値)には、第1の学習データを必要数D取得するためにかかる時間は長すぎると考えられるため、必要数Dを、必要数上限値に設定する(必要数D=必要数上限値)。これにより、AI学習データ作成支援システム1は、第1の学習データや、後述する第1の補充データおよび第2の補充データを、より確実に生成(抽出)できる。なお、ステップS105にて、AI学習データ作成支援システム1は、必要数上限数を算出せず、さらに、必要数Dが必要数上限値よりも大きい場合(必要数D>必要数上限値)に、必要数Dを必要数上限値に設定しなくてもよい。
【0075】
なお、AIモデルの学習方法を考慮して、必要数Dを算出してもよい。例えば、上記の統計係数と同様に、学習方法に関する統計係数を作成して、必要数Dを算出してもよい。学習方法には、例えば、学習用データ全体のうち1つだけ学習用データをテストデータとして抜き出し、残りの学習用データを教師データとして交差検証を行うリーブワンアウト(Leave One Out)法や、ホールドアウト(Hold-out)法、クロスバリデーション(Cross Validation)法がある。
【0076】
次に、
図11に戻り、AI学習データ作成支援システム1は、ステップS103で算出した第1の学習データの数が、ステップS105で算出した必要数以上(必要数≦第1の学習データの数)か否かを判定する(ステップS106)。第1の学習データの数が、必要数以上(必要数≦第1の学習データの数)と判定された場合(ステップS106:YES)はステップS107に進み、第1の学習データの数が必要数未満(必要数>第1の学習データの数)と判定された場合(ステップS106:NO)は、ステップS108に進む。
【0077】
次に、AI学習データ作成支援システム1は、第1クエリを用いて、第1の学習データベースから第1の学習データを抽出し、抽出した第1の学習データを出力して処理を終了する(ステップS107)。ここで、第1の学習データの出力は、次のような出力でよい。例えば、第1の学習データをクライアント装置2に送信する。第1の学習データを含むファイルをクライアント装置2に送信する。第1の学習データを含むファイルを副記憶装置33に記憶させる。第1の学習データを出力装置35に出力してAI学習データ作成支援システム1のユーザに提示する。第1の学習データを、クライアント装置2に送信して、クライアント装置2が第1の学習データをユーザに提示する。ここで、クライアント装置2のユーザへの提示は、クライアント装置2のディスプレイへの出力でよい。例えば、クライアント装置2のディスプレイに表示される標準出力でよい。標準出力とは、コンピュータ上で実行されているプログラムが特に指定されていない場合に、装置(装置のオペレーティングシステムなど)が標準的に利用するデータ出力先である。
【0078】
次に、AI学習データ作成支援システム1は、必要数と、第1の学習データの数との差分を算出し、差分を目標補充数(目標補充数=必要数-第1の学習データの数)として保存する(ステップS108)。
【0079】
次に、AI学習データ作成支援システム1は、補充クエリ生成サブルーチンを呼び出す(ステップS109)。補充クエリ生成サブルーチンは、AI学習データ作成支援システム1の補充クエリ生成部12により実行される処理であり、学習データを補充するために、補充クエリを生成する。
【0080】
次に、AI学習データ作成支援システム1は、第1のクエリを用いて、第1の学習データベースから第1の学習データを抽出し、補充クエリを用いてデータベースから補充データを抽出し、第1の学習データおよび補充データを出力して処理を終了する(ステップS110)。ここで、第1の学習データおよび補充データの出力は、上述したステップS107と同様に、次のような出力でよい。例えば、第1の学習データおよび補充データをクライアント装置2に送信する。第1の学習データおよび補充データを含むファイルをクライアント装置2に送信する。第1の学習データおよび補充データを含むファイルを副記憶装置33に記憶させる。第1の学習データおよび補充データを、クライアント装置2に送信して、クライアント装置2が第1の学習データおよび補充データをユーザに提示する。ここで、クライアント装置2のユーザへの提示は、クライアント装置2のディスプレイへの出力でよい。例えば、クライアント装置2のディスプレイに表示される標準出力でよい。
【0081】
次に、
図12を参照しつつ、
図13及び
図14を用いてAI学習データ作成支援システム1の補充クエリ生成部12により実行される補充クエリ生成サブルーチンの処理について説明する。
図12は、補充クエリ生成サブルーチンの処理の例を示すフローチャートである。
【0082】
AI学習データ作成支援システム1は、個人プロファイル(学習用プロファイル)の個人情報(分析対象データ)との類似度が、所定の類似度閾値よりも大きな過去分析対象データを含む少なくとも1つの検索条件レコードを、検索条件データベースから抽出し、抽出した少なくとも1つの検索条件レコードの過去クエリを、第1の補充クエリ候補として、保存する(ステップS201)。ここで、
図3を用いて上述したが、個人プロファイルの個人情報には、様々なデータ項目の項目値を含む。
【0083】
類似度は、例えば、個人プロファイルの個人情報と、検索条件レコードの過去分析対象データ(個人情報)の両方に含まれるデータ項目(名前およびIDのデータ項目の数は除く)の数に対する、個人プロファイルの個人情報のデータ項目の数(名前およびIDのデータ項目の数は除く)の割合である。すなわち、「類似度=両方に含まれるデータ項目の数/個人情報のデータ項目の数」である。また、個人プロファイルの個人情報と、検索条件レコードの過去分析対象データ(個人情報)の両方に含まれるデータ項目の数が多い程、類似度は大きくなる。名前およびIDは、個人の性状に関係が少ない情報であり、他のデータ項目は個人の性状との関係が大きいと考えられる。類似度の算出において、データ項目の数から、名前およびIDのデータ項目の数は除くことで、類似度は、個人の性状に関する類似度になっている。これにより、類似度は、好適な類似度になっている。
【0084】
例えば、個人プロファイルの個人情報のデータ項目が「ID、診断項目、名前、年齢、身長、BMI、LDL-C」で、検索条件レコードの過去分析対象データのデータ項目が「診断項目、名前、年齢、身長」とする。個人プロファイルに含まれる個人の性状に関するデータ項目の数は、データ項目「ID」及び「名前」を除いたデータ項目の数で、5である。個人プロファイルの個人情報と、検索条件レコードの過去分析対象データ(個人情報)の両方に含まれるデータ項目の数は、「診断項目、年齢、身長」のデータ項目の数3である。類似度(=両方に含まれるデータ項目の数/個人情報のデータ項目の数)は、3/5=0.6となる。
【0085】
類似度閾値は、あらかじめ設定された、類似度に関する閾値であり、例えば0.5である。
【0086】
ステップS201では、個人プロファイルの個人情報との類似度が類似度閾値よりも大きい、過去分析対象データを含む検索条件レコードの過去クエリに、ドメイン項目範囲(
図4参照)を検索条件として加えて、第1の補充クエリ候補とする。例えば、
図4に示すドメイン項目範囲の例では、ドメイン項目範囲407は、「4.2≦HbA1c≦6.2」となっている。
図4の例では、AI学習データ作成支援システム1は、まず、個人プロファイルの個人情報との類似度が類似度閾値よりも大きい、過去分析対象データを、設定条件データベース22から抽出する。そして、抽出した過去分析対象データを含む検索条件レコードの過去クエリに、ドメイン項目範囲「4.2≦HbA1c≦6.2」を検索条件として加えたクエリを、第1の補充クエリ候補とする。
【0087】
図4を用いて上述した様に、ドメイン項目は、個人プロファイル(学習プロファイル)に関する。また、ドメイン項目は、個人プロファイル(学習プロファイル)の診断項目(目的変数)に関して重要な意味を持つ(影響が大きい)と考えられる項目である。ドメイン項目範囲は、ドメイン項目に関する値として妥当だと考えられる値の範囲である。また、学習データである第1の補充データは、第1の補充クエリ候補から選択される第1の補充クエリに基づいて生成(抽出)される。従って、AI学習データ作成支援システム1は、第1の補充クエリ候補に、ドメイン項目範囲を検索条件として加えることで、AI学習データ作成支援システム1は、ドメイン項目範囲を検索条件として含む第1の補充クエリを生成する。これにより、第1の補充データ(学習データ)を、診断項目(目的変数)に対してより一層相関関係の高い、好適なデータにすることができる。
【0088】
なお、検索条件レコードの変更可能項目506(
図4参照)の検索範囲を、過去クエリから適宜(例えば10%)広げたクエリを生成し、生成したクエリに、ドメイン項目範囲による検索条件を加えたクエリを第1の補充クエリ候補としてもよい。また、検索条件データベース23の検索条件レコードの個人プロファイルを、第1のクエリで抽出し、抽出した個人プロファイルに関する過去クエリにドメイン項目範囲による検索条件を加えて、第1の補充クエリ候補としてもよい。
【0089】
次に、AI学習データ作成支援システム1は、第1の補充クエリ候補で、学習用データベースから抽出される第1の補充候補データの数を、学習用データベースの統計情報ファイルを用いて見積り、データ数上限値を算出し、第1の補充候補データの数がデータ数上限値以下の第1の補充クエリ候補を第1の補充クエリとし、第1の補充クエリを第1の補充クエリの数と対応づけて保存する(ステップS202)。ここで、
図5の検索対象504に示すように、第1の補充クエリ候補によっては、対応する学習用データベースは、AI学習データ作成支援システム1の有する第1の学習用データベース21以外の学習用データベースとなる。第1の補充クエリ候補に対応する学習用データベースが第1の学習用データベース21の場合には、第1の補充クエリ候補の数は、第1の補充候補データと第1のデータとで重複するデータを、第1の補充候補データから除いたデータの数(データ件数)とする。重複するデータの数(データ件数)は、第1のクエリの検索条件に、第1の補充クエリ候補の検索条件を加えたクエリで、第1の学習用データベース21から抽出されるデータの数(データ件数)となる。第1の補充候補データの数は、第1の補充クエリ候補で抽出されるデータの数から、この重複するデータの数を引いた数となる。AI学習データ作成支援システム1は、第1の補充クエリ候補で抽出されるデータの数と、重複するデータの数とを、第1の学習用データベース21を用いて算出し、さらに、第1の補充クエリ候補で抽出されるデータの数と、重複するデータの数との差分をとって、第1の補充候補データの数を算出する。
【0090】
学習用データベースは、通常、統計情報ファイルを有している。ステップS202にて、AI学習データ作成支援システム1は、
図11の学習データ取得処理のステップS103と同様の方法で、第1の補充クエリ候補に指定された学習用データベースが有する統計情報ファイルを用いて、第1の補充クエリ候補で抽出される第1の補充データの数を見積もる。
【0091】
データ数上限値とは、AI学習データ作成支援システム1が、学習用データベースから、第1の補充候補データを取得する場合に、AI学習データ作成支援システム1が、十分短いと考えられる第2の許容時間間隔(例えば6時間)で取得可能な第1の補充候補データの数の概算値である。第2の許容時間間隔は、あらかじめ設定されている。AI学習データ作成支援システム1は、例えば、第1の補充データ取得速度と、第2の(所定の)許容時間間隔との積を、取得データ上限数として算出する。第1の補充データ取得速度は、単位時間あたりに学習用データベースから取得可能な第1の補充候補データの数を表す。AI学習データ作成支援システム1は、例えば、プロセッサ31のコア数やクロック数等のプロセッサ31のスペックや、第1の補充候補データを取得するために割り当てることができるプロセッサ31の推定の使用率(稼働状況)や、主記憶装置32の読み書きの速度や、ネットワークとの送受信の速度等に基づいて、第1の補充データ取得速度を算出する。また、AI学習データ作成支援システム1は、所定のプログラムを実行して、第1の補充データ取得速度を計測しても良い。
【0092】
第1の補充候補データの数が、データ数上限値以下の場合(第1の補充候補データの数≦データ数上限値)には、第1の補充候補データを取得するためにかかる時間は十分短いと判断できる。一方、第1の補充候補データの数が、データ数上限値よりも大きい場合(第1の補充候補データの数>データ数上限値)には、第1の補充候補データを取得するためにかかる時間は長すぎると判断できる。
【0093】
AI学習データ作成支援システム1は、第1の補充候補データの数がデータ数上限値以下(第1の補充候補データの数≦データ数上限値)の第1の補充クエリ候補を第1の補充クエリとする。また、AI学習データ作成支援システム1は、第1の補充クエリを第1の補充クエリの数(第1の補充候補データの数)と対応づけて保存する。これにより、AI学習データ作成支援システム1は、第1の補充クエリを用いて、第1の補充データを、より確実に生成(抽出)できる。なお、ステップS202にて、AI学習データ作成支援システム1は、データ数上限値を算出せず、さらに、データ数上限値に関わらず、全ての第1の補充クエリ候補を第1の補充クエリにしてもよい。
【0094】
そして、第1の補充クエリはm個(複数)抽出されたとする。また、抽出される順に第1の補充クエリ1~mとする。
【0095】
次に、AI学習データ作成支援システム1は、個人プロファイルと、範囲テーブル(設定条件テーブル22a)と、に基づいて、第2の補充クエリ1~第2の補充クエリnを生成し、保存する(ステップS203)。
【0096】
図13は、第2の補充クエリの生成方法を説明する図である。
図13は、データ項目401と、個人情報1301と、第1範囲403と、第2の補充クエリ1の列1302と、第2範囲404と、第2の補充クエリ2の列1303と、第3範囲405と、第2の補充クエリ3の列1304とを含む。ここで、データ項目401、第1範囲403、第2範囲404、第3範囲405は、
図4に示す設定条件テーブル22aの範囲テーブルと同じである。第2の補充クエリ1の列1302に示されている第2の補充クエリ1は、個人情報1301の項目値を第1範囲403に広げた検索範囲を含むクエリである。例えば、データ項目401が「診断項目」の行では、個人情報1301はUAで、第1範囲は±5であり、UAの性質上、UAの最小値は0であるので、第2の補充クエリ1の「診断項目」の検索範囲は0~10となっている。同様に、データ項目401が「年齢」の行では、個人情報1301は68で、第1範囲は±3であるので、第2の補充クエリ1の検索範囲は65~71となっている。以上で説明した、第2の補充クエリ1と同様に、第2の補充クエリ2の列1303に示されている第2の補充クエリ2や、第2の補充クエリ3の列1304に示されている第2の補充クエリ3が生成され、さらには、第4範囲~第n範囲(不図示)に対応する第2の補充クエリ4~第2の補充クエリnが生成される。
【0097】
次に、AI学習データ作成支援システム1は、第2の補充クエリ1~n毎に、第2の補充クエリで抽出される第2の補充データの数を見積もり、第2の補充クエリ1~nと対応づけて保存する(ステップS204)。
【0098】
ここで、AI学習データ作成支援システム1は、上述したステップS202と同様の方法で、第1の学習用データベース21から第2の補充クエリ1~nで抽出される第2の補充データ1~nの数を、第1の学習用データベース21の統計情報ファイル21aを用いて、見積もる。すなわち、第2の補充データ1~nの数は、第2の補充データ1~nと、第1のデータとで重複するデータを、第2の補充データ1~nから除いたデータの数(データ件数)とする。重複するデータの数(データ件数)は、第1のクエリの検索条件に、第2の補充クエリ1~nの検索条件を加えたクエリで、第1の学習用データベース21から抽出されるデータの数(データ件数)となる。第2の補充データ1~nの数は、第2の補充クエリ1~nで抽出されるデータの数(データ件数)から、この重複するデータの数(データ件数)を引いた数となる。AI学習データ作成支援システム1は、第2の補充クエリ1~nで抽出されるデータの数と、重複するデータの数とを、第1の学習用データベース21を用いて算出し、さらに、第2の補充クエリ1~nで抽出されるデータの数と、重複するデータの数との差分をとって、第2の補充データ1~nの数を算出する。
【0099】
また、第2の補充クエリ1~nで、第2の補充データ1~nを抽出する学習用データベースは、第1の学習用データベース21以外の学習用データベース(例えば、外部学習データベースサーバー3の外部学習データベース)であってもよい。また、第2の補充データの数が必要数上限値よりも大きい(第2の補充データの数>必要数上限値)第2の補充クエリを、第2の補充クエリ1~nから除いてもよい。これにより、AI学習データ作成支援システム1は、第1の補充データを、より確実に生成(抽出)できる。
【0100】
次に、AI学習データ作成支援システム1は、第1の補充クエリ1~mのうち、優先度で上位1~5位(所定の数)のクエリをその第1の補充データの数と対応付けて、補充クエリリスト(不図示)に追加する(ステップS205)。ここで、優先度とは、例として、第1の補充データの数の多さとする。すなわち、第1の補充データの数が多い第1の補充クエリ程優先し、補充クエリリストに追加する。補充クエリリストとは、第1の補充クエリ1~m、第2の補充クエリ1~nのうち、第1のクエリを補充する補充クエリとして採用するクエリを、その補充データの数と対応付けて登録するリストである。
【0101】
次に、AI学習データ作成支援システム1は、第2の補充クエリ1~nのうち、上位1位の第2の補充クエリを、その第1の補充データの数と対応付けて、補充クエリリストに追加する(ステップS206)。ここで、上位とは、第2の補充クエリ1に近い程上位とする(第2の補充クエリ1>第2の補充クエリ2> ... >第2の補充クエリn)。
【0102】
また、これまでに補充クエリリストに登録されていない、上位1位の第2の補充クエリとその補充データの数で、補充クエリリストに登録されている第2の補充クエリとその補充データの数を置き換える。これは、補充クエリリストに登録された第2の補充クエリを、少なくとも1つのデータ項目に対する検索範囲がより広くなるよう変更し、変更した第2の補充クエリに対する第2の補充データの数を算出して、補充クエリリストに登録された第2の補充データの数を、算出した第2の補充データの数で置き換えることを意味する。
【0103】
次に、AI学習データ作成支援システム1は、補充クエリリストに登録された、第1の補充データの数と、第2の補充データの数との総和が、目標補充数以上(Σ補充クエリリストの補充データの数≦目標補充数)か否かを判定する(ステップS207)。補充クエリリストに登録された、第1の補充データの数と、第2の補充データの数との総和が、目標補充数以上(Σ補充クエリリストの補充データの数≦目標補充数)と判定された場合(ステップS207:YES)はステップS208に進み、補充クエリリストに登録された、第1の補充データの数と、第2の補充データの数との総和が目標補充数未満(Σ補充クエリリストの補充データの数>目標補充数)と判定された場合(ステップS207:NO)は、ステップS205に戻る。
【0104】
ここで、補充クエリリストに登録された、第1の補充データの数と、第2の補充データの数との総和が、目標補充数(目標補充数=必要数-第1の学習データの数)以上(目標補充数=必要数-第1の学習データの数≦Σ補充クエリリストの補充データの数)と判定された場合(ステップS207:YES)は、次のように考えることができる。すなわち、補充クエリリストに登録されたクエリで抽出される補充データの総数に、第1のクエリで抽出される第1の学習データの数を加えたデータの総数は、AIモデルの学習に必要なデータの必要数以上になる(必要数≦第1の学習データの数+Σ補充クエリリストの補充データの数)。これにより、補充クエリリストに登録されたクエリと、第1のクエリとで、十分な数の学習用データを収集できる。
【0105】
次に、AI学習データ作成支援システム1は、補充クエリリストに登録されている補充クエリ(第1の補充クエリおよび第2の補充クエリ)とその補充データ数を、優先度順にユーザに提示する(ステップS208)。すなわち、第1の補充クエリ及び第2の補充クエリから使用する補充クエリをユーザが選択できるように、出力装置を用いてユーザに提示する。ここで、ユーザへの提示は、AI学習データ作成支援システム1が、クライアント装置2に補充クエリリストを送信すると、クライアント装置2は、補充クエリリストに基づいて、補充クエリリストに登録されている補充クエリとその補充データの数を、優先度順に、クライアント装置2のディスプレイに表示するようになっている。さらに、クライアント装置2のユーザは、表示された補充クエリから、第1のクエリの補充に用いる補充クエリを選択するようになっている。
【0106】
なお、クライアント装置2のクライアント装置2のディスプレイに表示する代わりに、AI学習データ作成支援システム1の出力装置35に出力して、AI学習データ作成支援システム1のユーザに提示し、ユーザが補充クエリを選択するようにしてもよい。
【0107】
図14は、補充クエリリストに登録されている補充クエリと補充データの数をユーザに提示するために、クライアント装置2のディスプレイに表示される、補充クエリ表示画面の一例を示す説明図である。
【0108】
図14に示す補充クエリ表示画面1400では、上から優先度が高い順に補充クエリが表示されている。ここで、優先度は、例として、補充データの数の多さである。補充クエリ表示画面1400は、送信ボタン1401と、目標補充数1402とを含む。また、補充クエリ表示画面1400は、優先度1の補充クエリ1410に関する、チェックボックス1411、補充クエリ1410で抽出される補充データの数1412を含む。また、補充クエリ表示画面1400は、優先度2の補充クエリ1420に関する、チェックボックス1421、補充クエリ1420で抽出される補充データの数1422を含む。また、補充クエリ表示画面1400は、優先度3の補充クエリ1430に関する、チェックボックス1431、補充クエリ1430で抽出される補充データの数1432を含む。
【0109】
クライアント装置2のユーザは、チェックボックス1411、チェックボックス1421、チェックボックス1431を押して、第1のクエリの補充に用いる補充クエリを選択できる。ユーザは補充クエリを選択し終えると、送信ボタン1401押す。これにより、クライアント装置2は、ユーザに選択された、補充クエリをAI学習データ作成支援システム1に送信するようになっている。
【0110】
図14の補充クエリ表示画面1400では、チェックの入っているチェックボックス1411、1421に対応する優先度1、優先度2の補充クエリ1410、1420が、補充クエリに選択されており、チェックの入っていないチェックボックス1431に対応する優先度3の補充クエリ1430は選択されていないことを示している。
【0111】
次に、
図12に戻り、AI学習データ作成支援システム1は、ユーザが選択した使用する補充クエリの入力を受け付け、補充クエリとして保存して、処理を終了する(ステップS209)。処理を終了すると、AI学習データ作成支援システム1は、
図11の学習データ取得処理のステップS110の処理を行う。ステップS110では、AI学習データ作成支援システム1は、第1のクエリで学習用データベースから第1の学習データを抽出し、ステップ209にて入力されたユーザが選択した補充クエリで、学習用データベースから補充データ(第1の補充データ、第2の補充データ)を抽出する。そして、AI学習データ作成支援システム1は、第1の学習データおよび補充データを、出力装置5またはネットワークI/F36を用いて出力する。
【0112】
このように、実施例1では、AI学習データ作成支援システム1は、第1の学習用データを補充する補充データの取得に用いることができる補充クエリを生成する。これにより、AIモデルを学習させるための学習データを効率良く収集できる。
【0113】
また、AI学習データ作成支援システム1は、第1の学習データや、補充データを出力することで、AIモデルを学習させるための学習データを容易に収集できる。
【0114】
また、AI学習データ作成支援システム1は、必要数を、学習させるAIモデルのアルゴリズムおよび分析内容に基づいて算出する。従って、必要数はより適切に設定され、さらには、より妥当な数の学習データを収集できる。
【0115】
また、AI学習データ作成支援システム1は、必要数を、第1の学習データの1つ以上のデータ項目の統計値に基づいて算出する。従って、必要数はより適切に設定され、さらには、より妥当な数の学習データを収集できる。
【0116】
また、AI学習データ作成支援システム1は、検索条件データベース23の過去に作成された過去クエリから第1の補充クエリを生成する。これにより、AIモデルを学習させるための学習データを効率良く収集できる。
【0117】
また、AI学習データ作成支援システム1は、個人プロファイル(学習プロファイル)の個人情報(分析対象データ)を用いて第2の補充クエリを生成する。これにより、AIモデルを学習させるための学習データを効率良く収集できる。
【0118】
また、ユーザが選択した第1の補充クエリ及び第2の補充クエリの入力を受け付けて、ユーザが選択した第1の補充クエリまたは第2の補充クエリを用いて、補充データを作成する。これにより、補充クエリを用いて収集した学習データを、より適切な学習データにし得る。