IP Force 特許公報掲載プロジェクト 2022.1.31 β版

ホーム > 特許ランキング > 株式会社日立製作所

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特開2023-103763ＡＩ学習データ作成支援システム、ＡＩ学習データ作成支援方法およびＡＩ学習データ作成支援プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023103763

(43)【公開日】2023-07-27

(54)【発明の名称】ＡＩ学習データ作成支援システム、ＡＩ学習データ作成支援方法およびＡＩ学習データ作成支援プログラム

(51)【国際特許分類】

G06F 16/903 20190101AFI20230720BHJP

G06N 20/00 20190101ALI20230720BHJP

【ＦＩ】

G06F16/903

G06N20/00

【審査請求】未請求

【請求項の数】14

【出願形態】ＯＬ

(21)【出願番号】P 2022004476

(22)【出願日】2022-01-14

(71)【出願人】

【識別番号】000005108

【氏名又は名称】株式会社日立製作所

(74)【代理人】

【識別番号】110001689

【氏名又は名称】青稜弁理士法人

(72)【発明者】

【氏名】高田実佳

(72)【発明者】

【氏名】樫山俊彦

【テーマコード（参考）】

5B175

【Ｆターム（参考）】

5B175HB03

(57)【要約】

【課題】ＡＩモデルを学習させるための学習データを効率良く収集すること。
【解決手段】複数のデータ項目それぞれに対応する項目値からなり、ＡＩモデルに分析させる分析対象データおよびＡＩモデルの種類の情報を含む学習プロファイルの入力を受け付け、学習用データベースから学習データの抽出に用いる第１のクエリを取得し、第１のクエリで学習用データベースから抽出される第１の学習データの数を、学習用データベースを用いて算出し、ＡＩモデルの学習に必要な学習データの必要数を、学習プロファイルに含まれるＡＩモデルの種類の情報を用いて算出し、第１の学習データの数が、必要数以上か否かを判定し、第１の学習データの数が必要数未満と判定した場合に、学習プロファイルに基づいて、学習データの抽出に用いる補充クエリを生成する。
【選択図】図１１

【特許請求の範囲】

【請求項1】

ＡＩモデルを学習させるための学習データを、少なくとも１つの学習用データベースから抽出して収集する、ＡＩ学習データ作成支援システムであって、
少なくとも１つのプログラムを格納する記憶装置と、当該記憶装置に格納された前記プログラムを実行するプロセッサと、ユーザからの入力を受け付ける入力装置と、を備え、
前記プロセッサは前記プログラムを実行して、
複数のデータ項目それぞれに対応する項目値からなり、前記ＡＩモデルに分析させる分析対象データおよび前記ＡＩモデルの種類の情報を含む学習プロファイルの入力を受け付け、
前記学習データの抽出に用いる第１のクエリを取得し、
前記第１のクエリで前記学習用データベースから抽出される第１の学習データの数を、前記学習用データベースを用いて算出し、
前記ＡＩモデルの学習に必要な学習データの必要数を、前記学習プロファイルに含まれる前記ＡＩモデルの種類の情報を用いて算出し、
前記第１の学習データの数が、前記必要数以上か否かを判定し、
前記第１の学習データの数が前記必要数未満と判定した場合に、前記学習プロファイルに基づいて、前記学習データの抽出に用いる補充クエリを生成する、
ＡＩ学習データ作成支援システム。

【請求項2】

請求項１に記載のＡＩ学習データ作成支援システムであって、
前記プロセッサは、前記学習プロファイルの前記分析対象データに基づいて前記第１のクエリを生成する、
ＡＩ学習データ作成支援システム。

【請求項3】

請求項１に記載のＡＩ学習データ作成支援システムであって、
前記ＡＩ学習データ作成支援システムは、
さらに、前記学習データを出力する出力装置を備え、
前記プロセッサは、
前記第１の学習データの数が前記必要数以上と判定した場合には、前記第１のクエリで前記学習用データベースから第１の学習データを抽出して、前記出力装置から出力させ、
前記第１の学習データの数が前記必要数未満と判定した場合には、前記第１のクエリで前記学習用データベースから前記第１の学習データを抽出して、前記出力装置から出力させるとともに、前記補充クエリで前記学習用データベースから補充データを抽出して、前記出力装置から出力させる、
ＡＩ学習データ作成支援システム。

【請求項4】

請求項１に記載のＡＩ学習データ作成支援システムであって、
前記ＡＩ学習データ作成支援システムは、
さらに、前記ＡＩモデルのアルゴリズム及び当該アルゴリズムにより前記ＡＩモデルの学習に必要とされる前記学習データの数を表すアルゴリズム必要数を対応付けて格納するアルゴリズム必要数テーブルと、
前記ＡＩモデルの分析内容及び当該分析内容により前記ＡＩモデルの学習に必要とされる前記学習データの数を表す分析内容必要数を対応付けて格納する分析内容必要数テーブルと、
を備え、
前記学習プロファイルに含まれる前記ＡＩモデルの種類の情報には、前記ＡＩモデルのアルゴリズムの情報と、前記ＡＩモデルの分析内容の情報を含み、
前記プロセッサは、
前記学習プロファイルに含まれる前記ＡＩモデルのアルゴリズムの情報を用いて、前記アルゴリズム必要数テーブルから、前記アルゴリズム必要数を抽出し、
前記学習プロファイルに含まれる前記ＡＩモデルの分析内容の情報を用いて、前記分析内容必要数テーブルから前記分析内容必要数を抽出し、
抽出した、前記アルゴリズム必要数と、前記分析内容必要数とのうちで、大きい方の必要数に基づいて、前記必要数を算出する、
ＡＩ学習データ作成支援システム。

【請求項5】

請求項１に記載のＡＩ学習データ作成支援システムであって、
前記ＡＩ学習データ作成支援システムは、
さらに、前記第１の学習データの１つ以上の前記データ項目と、当該１つ以上のデータ項目それぞれに対する統計値の範囲および統計係数と、を対応付けて格納する統計係数テーブルを備え、
前記プロセッサは、
前記第１のクエリで前記学習用データベースから抽出される前記第１の学習データの前記１つ以上のデータ項目それぞれの統計値を、前記学習用データベースを用いて算出し、
算出した前記第１の学習データの前記１つ以上のデータ項目それぞれの統計値に対し、当該統計値を含む、前記統計係数テーブルに格納された前記統計値の範囲に対する前記統計係数を抽出し、
抽出した前記１つ以上のデータ項目それぞれの統計係数と、前記学習プロファイルに含まれる前記ＡＩモデルの種類の情報と、に基づいて前記必要数を算出する、
ＡＩ学習データ作成支援システム。

【請求項6】

請求項１に記載のＡＩ学習データ作成支援システムであって、
前記ＡＩ学習データ作成支援システムは、
さらに、過去に作成された過去分析対象データと、前記過去分析対象データに関する前記学習データの抽出に用いた過去クエリとを対応付けた検索条件レコードを複数格納する検索条件データベースを備え、
前記プロセッサは、前記学習プロファイルの前記分析対象データとの類似度が、所定の類似度閾値よりも大きな前記過去分析対象データを含む少なくとも１つの検索条件レコードを、前記検索条件データベースから抽出し、抽出した少なくとも１つの検索条件レコードの前記過去クエリに基づいて、少なくとも１つの第１の補充クエリを生成する、
ＡＩ学習データ作成支援システム。

【請求項7】

請求項１に記載のＡＩ学習データ作成支援システムであって、
前記ＡＩ学習データ作成支援システムは、
さらに、前記学習プロファイルの前記分析対象データの少なくとも１つのデータ項目と、当該少なくとも１つのデータ項目それぞれに対する、複数の項目値の範囲とを対応付けて格納する範囲テーブルを備え、
前記プロセッサは、前記学習プロファイルの前記分析対象データの項目値と、前記範囲テーブルの前記複数の項目値の範囲から複数の第２の補充クエリを生成する、
ＡＩ学習データ作成支援システム。

【請求項8】

請求項６に記載のＡＩ学習データ作成支援システムであって、
前記学習プロファイルに関するドメイン項目と、当該ドメイン項目に対するドメイン項目範囲とを対応付けたドメイン項目情報を備え、
前記プロセッサは、前記ドメイン項目範囲を、検索条件として含む第１の補充クエリを生成する、
ＡＩ学習データ作成支援システム。

【請求項9】

請求項６に記載のＡＩ学習データ作成支援システムであって、
前記プロセッサは、前記学習プロファイルの前記分析対象データとの類似度が、所定の類似度閾値よりも大きな前記過去分析対象データを含む少なくとも１つの検索条件レコードを、前記検索条件データベースから抽出し、抽出した少なくとも１つの検索条件レコードの前記過去クエリを、少なくとも１つの第１の補充クエリ候補とし、
前記第１の補充クエリ候補で前記学習用データベースから抽出される第１の補充候補データの数を前記学習用データベースを用いて見積り、
単位時間あたりに前記学習用データベースから取得可能な第１の補充候補データの数を表す第１の補充データ取得速度と、所定の許容時間間隔との積を、データ数上限値として算出し、
第１の補充候補データの数がデータ数上限値以下の第１の補充クエリ候補を第１の補充クエリとする、
ＡＩ学習データ作成支援システム。

【請求項10】

請求項６に記載のＡＩ学習データ作成支援システムであって、
前記ＡＩ学習データ作成支援システムは、
さらに、前記学習データを出力する出力装置と、
前記学習プロファイルの前記分析対象データの少なくとも１つのデータ項目と、当該少なくとも１つのデータ項目それぞれに対する、複数の項目値の範囲とを対応付けて格納する範囲テーブルと、を備え、
前記プロセッサは、前記学習プロファイルの前記分析対象データの項目値と、前記範囲テーブルの前記複数の項目値の範囲から複数の第２の補充クエリを生成し、
前記少なくとも１つの第１の補充クエリ及び前記複数の第２の補充クエリから使用する補充クエリユーザが選択できるように、前記出力装置を用いてユーザに提示し、
ユーザが選択した使用する補充クエリの入力を受け付け、
前記第１のクエリで前記学習用データベースから前記第１の学習データを抽出して、前記出力装置を用いて出力し、
入力された前記ユーザが選択した使用する補充クエリで、前記学習用データベースから、補充データを抽出して、前記出力装置を用いて出力する、
ＡＩ学習データ作成支援システム。

【請求項11】

請求項６に記載のＡＩ学習データ作成支援システムであって、
前記ＡＩ学習データ作成支援システムは、
さらに、前記学習データを出力する出力装置と、
前記学習プロファイルの前記分析対象データの少なくとも１つのデータ項目と、当該少なくとも１つのデータ項目それぞれに対する、複数の項目値の範囲とを対応付けて格納する範囲テーブルと、
補充クエリとする、第１の補充クエリおよび第２の補充クエリを登録する補充クエリリストと、を備え、
前記プロセッサは、
前記必要数から前記第１の学習データの数を引いた値を算出して目標補充数とし、
前記少なくとも１つの第１の補充クエリで、前記学習用データベースから抽出される第１の補充データの数を、前記学習用データベースを用いて算出し、
前記学習プロファイルの前記分析対象データの項目値と、前記範囲テーブルの前記複数の項目値の範囲から複数の第２の補充クエリを生成し、
生成した前記複数の第２の補充クエリそれぞれで、前記学習用データベースから抽出される第２の補充データの数を、前記学習用データベースを用いて算出し、
所定の優先度順で上位から所定の数の前記第１の補充クエリと、その前記第１の補充データの数を対づけて前記補充クエリリストに登録し、
前記第２の補充クエリと、その前記第２の補充データの数と対応づけて、前記補充クエリリストに登録し、
前記補充クエリリストに登録されていない前記第１の補充クエリのうちで、前記所定の優先度順で上位から前記所定の数の前記第１の補充クエリを、前記第１の補充データの数とともに前記補充クエリリストに追加し、かつ、前記補充クエリリストに登録された第２の補充クエリを、少なくとも１つのデータ項目に対する検索範囲がより広くなるよう変更し、変更した第２の補充クエリに対する第２の補充データの数を算出して、前記補充クエリリストに登録された第２の補充データの数を、算出した前記第２の補充データの数で置き換えることを、前記補充クエリリストに登録された、前記第１の補充データの数と、前記第２の補充データの数との総和が、前記目標補充数より大きくなるまで、繰り返し、
前記第１のクエリで前記学習用データベースから前記第１の学習データを抽出して、前記出力装置から出力するとともに、前記補充クエリリストに登録された前記第１の補充クエリおよび前記第２の補充クエリで前記学習用データベースから補充データを抽出して、前記出力装置から出力させる、
ＡＩ学習データ作成支援システム。

【請求項12】

請求項１に記載のＡＩ学習データ作成支援システムであって、
前記ＡＩモデルは、ヘルスケア用ＡＩモデルであり、かつ、前記分析対象データは、個人情報を含む、ＡＩ学習データ作成支援システム。

【請求項13】

少なくとも１つのプログラムを格納する記憶装置と、当該記憶装置に格納された前記プログラムを実行するプロセッサと、ユーザからの入力を受け付ける入力装置と、を備え、ＡＩモデルを学習させるための学習データを、少なくとも１つの学習用データベースから抽出して収集するＡＩ学習データ作成支援システムにおける、ＡＩ学習データ作成支援方法であって、
複数のデータ項目それぞれに対応する項目値からなり、前記ＡＩモデルに分析させる分析対象データおよび前記ＡＩモデルの種類の情報を含む学習プロファイルの入力を受け付け、
前記学習用データベースから前記学習データの抽出に用いる第１のクエリを取得し、
前記第１のクエリで前記学習用データベースから抽出される第１の学習データの数を、前記学習用データベースを用いて算出し、
前記ＡＩモデルの学習に必要な学習データの必要数を、前記学習プロファイルに含まれる前記ＡＩモデルの種類の情報を用いて算出し、
前記第１の学習データの数が、前記必要数以上か否かを判定し、
前記第１の学習データの数が前記必要数未満と判定した場合に、前記学習プロファイルに基づいて、前記学習データの抽出に用いる補充クエリを生成する、
ＡＩ学習データ作成支援方法。

【請求項14】

少なくとも１つのプログラムを格納する記憶装置と、当該記憶装置に格納された前記プログラムを実行するプロセッサと、ユーザからの入力を受け付ける入力装置と、を備え、ＡＩモデルを学習させるための学習データを、少なくとも１つの学習用データベースから抽出して収集するＡＩ学習データ作成支援システムの前記プロセッサに実行される、ＡＩ学習データ作成支援プログラムであって、
前記プロセッサに、
複数のデータ項目それぞれに対応する項目値からなり、前記ＡＩモデルに分析させる分析対象データおよび前記ＡＩモデルの種類の情報を含む学習プロファイルの入力を受け付けさせ、
前記学習用データベースから前記学習データの抽出に用いる第１のクエリを取得させ、
前記第１のクエリで前記学習用データベースから抽出される第１の学習データの数を、前記学習用データベースを用いて算出させ、
前記ＡＩモデルの学習に必要な学習データの必要数を、前記学習プロファイルに含まれる前記ＡＩモデルの種類の情報を用いて算出させ、
前記第１の学習データの数が、前記必要数以上か否かを判定させ、
前記第１の学習データの数が前記必要数未満と判定した場合に、前記学習プロファイルに基づいて、前記学習データの抽出に用いる補充クエリを生成させる、
ＡＩ学習データ作成支援プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、ＡＩモデルを学習させるための学習データを、少なくとも１つの学習用データベースから抽出して収集するＡＩ学習データ作成支援システム、ＡＩ学習データ作成支援方法、およびＡＩ学習データ作成支援プログラムに関する。

【背景技術】

【0002】

インターネットを介して取得できる膨大な数の情報から所望の情報を得る技術が開示されている。例えば、特許文献１に記載された技術では、ユーザが興味のあるトピックやユーザの特徴との関連性を基に重み付けされた、インターネット上のサイトのパスのリストを含むサブウェブを作成する。そして、検索エンジンが、インターネットのサイト検索にサブウェブを使用することで、焦点を絞ったインターネットのサイトの検索の実行を容易にすることができる。従って、特許文献１に記載された技術を用いた場合、検索エンジンを用いて検索することで、ユーザの興味やユーザの特徴に関するインターネットのサイトの情報を収集できる。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２００５－２０９２１０号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかし、特許文献１に記載されている技術を用いてユーザの特徴に関するインターネットのサイトの情報を収集できたとしても、特定の複数のデータ項目に関する情報を含む、ＡＩモデルの学習用データを、データベースから抽出して収集することは容易ではない場合がある。

【0005】

特に、個人や集団の健康状態の分析や予測に用いるヘルスケア用ＡＩモデルは、人の健康にかかわる重要な分析を行うことが期待されているが、ヘルスケア用ＡＩモデルが分析する分析内容によっては、学習データを容易に収集できない場合がある。例えば、分析内容が、希少疾患Ａの患者の肺がんリスク（発症のしやすさ）の場合、過去に希少疾患Ａに罹り、さらに肺がんになった人は非常に少ないため、学習データを収集することは困難である。また、ヘルスケア用ＡＩモデルの分析結果に高い正確度が求められる場合、学習データを収集することが難しい場合がある。

【0006】

本発明の目的は、ＡＩモデルを学習させるための学習データを効率良く収集できる、ＡＩ学習データ作成支援システム、ＡＩ学習データ作成支援方法およびＡＩ学習データ作成支援プログラムを提供することを目的とする。

【課題を解決するための手段】

【0007】

本願において開示される発明の一側面となるＡＩ学習データ作成支援システムは、ＡＩモデルを学習させるための学習データを、少なくとも１つの学習用データベースから抽出して収集する、ＡＩ学習データ作成支援システムであって、少なくとも１つのプログラムを格納する記憶装置と、当該記憶装置に格納された前記プログラムを実行するプロセッサと、ユーザからの入力を受け付ける入力装置と、を備え、前記プロセッサは前記プログラムを実行して、複数のデータ項目それぞれに対応する項目値からなり、前記ＡＩモデルに分析させる分析対象データおよび前記ＡＩモデルの種類の情報を含む学習プロファイルの入力を受け付け、前記学習データの抽出に用いる第１のクエリを取得し、前記第１のクエリで前記学習用データベースから抽出される第１の学習データの数を、前記学習用データベースを用いて算出し、前記ＡＩモデルの学習に必要な学習データの必要数を、前記学習プロファイルに含まれる前記ＡＩモデルの種類の情報を用いて算出し、前記第１の学習データの数が、前記必要数以上か否かを判定し、前記第１の学習データの数が前記必要数未満と判定した場合に、前記学習プロファイルに基づいて、前記学習データの抽出に用いる補充クエリを生成する。

【発明の効果】

【0008】

本発明によれば、ＡＩモデルを学習させるための学習データを効率良く収集できる。

【図面の簡単な説明】

【0009】

【図1】図１は、実施例１におけるＡＩ学習データ作成支援システムの機能ブロック図の一例を示す図である。

【図2】図２は、実施例１におけるＡＩ学習データ作成支援システムのハードウェア構成図の一例を示す図である。

【図3】図３は、個人プロファイルおよび第１のクエリの一例を示す図である。

【図4】図４は、設定条件データベースと、設定条件データベースに格納されている設定条件テーブルの一例を示す図である。

【図5】図５は、検索条件データベースの一例を示す図である。

【図6】図６は、アルゴリズム必要数テーブルの一例を示す図である。

【図7】図７は、分析内容必要数テーブルの一例を示す図である。

【図8】図８は、ユーザが個人プロファイルおよび第１のクエリを入力するためにクライアント装置に表示される個人プロファイル入力画面の一例を示す説明図である。

【図9】図９は、ユーザが第１のクエリを入力するためにクライアント装置に表示されるクエリ入力画面の一例を示す説明図である。

【図10】図１０は、ユーザが第１のクエリを入力するためにクライアント装置に表示されるクエリ入力画面の一例を示す説明図である。

【図11】図１１は、実施例１の学習データ取得処理の例を示すフローチャートである。

【図12】図１２は、実施例１の補充クエリ生成サブルーチンの処理の例を示すフローチャートである。

【図13】図１３は、第２の補充クエリの生成方法を説明する図である。

【図14】図１４は、補充クエリリストに登録されている補充クエリとその補充データの数をユーザに提示するために、クライアント装置のディスプレイに表示される、補充クエリ表示画面の一例を示す説明図である。

【図15】図１５は、実施例２の補充クエリ生成サブルーチンの処理の例を示すフローチャートである。

【図16】図１６は、実施例３の学習データ取得処理の例を示すフローチャートである。

【発明を実施するための形態】

【0010】

以下、図面を参照しながら実施の形態を説明する。実施例は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略および簡略化がなされている。本発明は、実施例に制限されることは無く、本発明の技術的範囲には、本発明の思想に合致するあらゆる応用例が含まれる。

【0011】

また、図及び以下の説明において同一部分または同様な機能を有する部分には、同一符号を付与する場合や、同一の符号に異なる添字を付して説明する場合や、添字を省略して説明する場合がある。また、特に限定しない限り、各構成要素は複数でも単数でも構わない。

【0012】

図面に示す各構成要素の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面に開示された位置、大きさ、形状、範囲などに限定されない。

【0013】

また、以下の説明では、「表」、「テーブル」、「リスト」、「キュー」等の表現にて各種情報を説明する場合があるが、各種情報はこれら以外のデータ構造で表現されていてもよい。また、各種情報がデータ構造に依存しないことを示すために「テーブル」等を「管理情報」と呼ぶことができる。識別情報を「識別情報」、「識別子」、「名」、「ＩＤ」、「番号」等の表現を用いて説明する場合があるが、これらについてはお互いに置換が可能である。

【0014】

また、「プログラム」や「機能部」を主語とする文で処理を説明する場合がある。そのプログラムや機能部は、処理部や演算部であるプロセッサ、例えば、ＭＰ（Micro Processor）やＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）によって実行されるもので、定められた処理をするものである。プロセッサは、記憶資源（例えばメモリ）及び通信インタフェース装置（例えば、通信ポート）を用いながら処理を行う。このため、「プログラム」や「機能部」を主語とする文の主語を、プロセッサ、処理部或いは演算部で置き換えてもよい。また、プログラムを実行して行う処理の主体を、プロセッサ、演算部或いは処理部としてもよいし、プロセッサを有するコントローラ、装置、システム、計算機、ノードとしてもよいし、特定の処理を行う専用回路でもよい。ここで、専用回路とは、例えばＦＰＧＡ（Field Programmable Gate Array）やＡＳＩＣ（Application Specific Integrated Circuit）、ＣＰＬＤ（Complex Programmable Logic Device）等である。

【0015】

プログラムは、プログラムソースから計算機にインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバまたは計算機が読み取り可能な記憶メディアであってもよい。プログラムソースがプログラム配布サーバの場合、プログラム配布サーバはプロセッサと配布対象のプログラムを記憶する記憶資源を含み、プログラム配布サーバのプロセッサが配布対象のプログラムを他の計算機に配布してもよい。また、２以上のプログラムが１つのプログラムとして実現されてもよいし、１つのプログラムが２以上のプログラムとして実現されてもよい。

【実施例0016】

ＡＩ学習データ作成支援システム１は、ＡＩモデルを学習させるための学習データを、少なくとも１つの学習用データベースから抽出して収集する。学習後のＡＩモデルは、分析対象データを分析する。学習させるＡＩモデルは、例えば、運輸における交通用ＡＩモデル（最適ルート予測用モデルなど）でも良いし、製品の製造に関する産業用ＡＩモデル（機器の故障診断推定用モデルなど）でも良いし、医療に関するヘルスケア用ＡＩモデルでもよい。

【0017】

以下では、例として、学習させるＡＩモデルを、個人や集団の健康状態の分析や予測に用いるヘルスケア用ＡＩモデルとし、分析対象データを、個人の健康状態の情報を含む個人情報とする。これにより、ＡＩ学習データ作成支援システム１は、学習用データを収集することが容易になるため、多くの人が個人情報を参照して学習データの収集方法を検討することなく、学習データを集めることができる。従って、ＡＩ学習データ作成支援システム１が、ヘルスケア用ＡＩモデルの学習データを収集することにより、分析対象者のプライバシーを守った上で、学習データを収集することができる。なお、個人情報には、医療のカルテに含まれる診断履歴等の情報や、遺伝子の情報を含めても良い。また、収集する学習データは、学習させるＡＩモデルに応じて適宜変更する。例えば、学習させるＡＩモデルが製品の製造に関する故障診断推定用モデルの場合には、収集する学習データは、例えば、製造用機器の特性の情報と、故障の状況とを対応付けたデータである。

【0018】

＜システム構成＞
図１は、実施例実施例１におけるＡＩ学習データ作成支援システム１の機能ブロック図の一例を示す図である。図１に示すように、ＡＩ学習データ作成支援システム１は、クライアント装置２と、外部学習データベースサーバー３とに、ネットワークＮＷを介して接続されている。

【0019】

クライアント装置２は、クライアント装置２のユーザから入力された、ＡＩモデルに分析させる個人情報（分析対象データ）や、学習用データベースから学習データを抽出するための第１のクエリ等を、ＡＩ学習データ作成支援システム１に送信することができる。また、クライアント装置２は、ディスプレイなど情報を表示する装置を備え情報をユーザに表示できる。

【0020】

外部学習データベースサーバー３は、ＡＩモデルを学習するための学習データを格納する学習データベースの一種である外部学習データベースを有している。ＡＩ学習データ作成支援システム１は、外部学習データベースサーバー３からクエリを用いて学習データを抽出できる。

【0021】

ネットワークＮＷは、有線のネットワークでもよいし、無線のネットワークでもよい。また、通信ネットワークＮＷは、インターネットのようなグローバルネットワークであってもよいし、構内ネットワーク（ＬＡＮ：Local Area Network）であってもよい。

【0022】

図１に示すように、ＡＩ学習データ作成支援システム１は、学習データ取得部１１と、補充クエリ生成部１２とを備えている。また、ＡＩ学習データ作成支援システム１は、第１の学習用データベース２１と、設定条件データベース２２と、検索条件データベース２３と、アルゴリズム必要数テーブル２４と、分析内容必要数テーブル２５とを格納している。

【0023】

学習データ取得部１１は、図１１のフローチャートを用いて詳細を後述するが、ユーザからの個人プロファイル（学習プロファイル）の入力を受け付ける。個人プロファイルは、詳細は図３を用いて説明するが、複数のデータ項目それぞれに対応する項目値からなり、学習させるＡＩモデルに分析させる個人情報（分析対象データ）およびＡＩモデルの種類の情報（ＡＩモデルのアルゴリズム、分析内容）を含む。

【0024】

また、学習データ取得部１１は、学習データの抽出に用いる第１のクエリ（図３参照）を取得する。学習データ取得部１１は、第１のクエリで学習用データベースから抽出される第１の学習データの数を、学習用データベースを用いて算出する。学習データ取得部１１は、ＡＩモデルの学習に必要な学習データの必要数を、学習プロファイルに含まれるＡＩモデルの種類の情報を用いて算出する。学習データ取得部１１は、第１の学習データの数が、必要数以上か否かを判定する。学習データ取得部１１は、第１の学習データの数が、必要数以上と判定した場合に、第１のクエリで学習用データベースから第１の学習データを抽出し、出力する。学習データ取得部１１は、第１の学習データの数が必要数未満と判定した場合に、補充クエリ生成部１２に、学習プロファイルに基づいて、補充クエリを生成させ、補充クエリ生成部１２が生成した補充クエリを受け取って、受け取った補充ク
エリで学習用データベースから補充データを抽出し、出力するとともに、第１のクエリで
学習用データベースから第１の学習データを抽出し、出力する。

【0025】

補充クエリ生成部１２は、図１２および図１５のフローチャートを用いて詳細を後述するが、学習データを補充するための補充クエリを生成する。

【0026】

第１の学習用データベース２１は、学習用データと、統計情報ファイル２１ａを格納しているデータベースである。統計情報ファイル２１ａは、例えば、レコードの数を表す情報や、カラム毎のデータの最大値及び最小値に関する情報や、カラム毎のデータの分布状況を表すヒストグラム等の統計情報を含む。通常、データベースは、統計情報ファイル２１ａと同様の統計情報ファイルを有している。なお、ＡＩ学習データ作成支援システム１は、第１の学習用データベース２１以外の学習用データベース（例えば、外部学習データベースサーバー３の外部学習データベース）にアクセスして学習用データを抽出することができる。

【0027】

設定条件データベース２２は、詳細は図４を用いて後述するが、範囲テーブルと、統計係数テーブルと、ドメイン項目情報と、を含むデータベースである。範囲テーブルは、学習プロファイルの分析対象データの少なくとも１つのデータ項目と、当該少なくとも１つのデータ項目それぞれに対する、複数の項目値の範囲とを対応付けて格納する。統計係数テーブルは、第１の学習データの１つ以上のデータ項目と、当該１つ以上のデータ項目それぞれに対する統計値の範囲および統計係数と、を対応付けて格納する。ドメイン項目情報は、個人プロファイル（学習プロファイル）に関するドメイン項目と、ドメイン項目に対するドメイン項目範囲とを対応付けて格納する。

【0028】

検索条件データベース２３は、詳細は図５を用いて後述するが、過去に作成された過去分析対象データ（個人情報）と、過去分析対象データに関する学習データの抽出に用いた過去クエリとを対応付けた検索条件レコードを複数格納しているデータベースである。

【0029】

アルゴリズム必要数テーブル２４は、詳細は図６を用いて後述するが、ＡＩモデルのアルゴリズムと、当該アルゴリズムのＡＩモデルの学習に必要な学習データの数を表すアルゴリズム必要数を対応付けて格納する。

【0030】

分析内容必要数テーブル２５は、詳細は図７を用いて後述するが、ＡＩモデルの分析内容と、当該分析内容のＡＩモデルの学習に必要な学習データの数を表す分析内容必要数を対応付けて格納する。

【0031】

図２は、実施例１におけるＡＩ学習データ作成支援システム１のハードウェア構成図の一例を示す図である。図２に示すように、ＡＩ学習データ作成支援システム１は、プロセッサ３１、主記憶装置３２、副記憶装置３３、入力装置３４、出力装置３５、ネットワークＩ／Ｆ３６、これらを接続するバス３７を有している。ＡＩ学習データ作成支援システム１は、例えばＰＣやサーバーコンピューターのような一般的な情報処理装置で実現できる。

【0032】

プロセッサ３１は、副記憶装置３３に記憶されたデータやプログラムを主記憶装置３２に読み出して、プログラムによって定められた処理を実行する。

【0033】

主記憶装置３２は、ＲＡＭなどの揮発性揮発素子を有し、プロセッサ３１が実行するプログラムや、データを記憶する。

【0034】

副記憶装置３３は、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）など不揮発性記憶素子を有し、プログラムやデータ等を記憶する装置である。副記憶装置３３には、上述した、第１の学習用データベース２１と、設定条件データベース２２と、検索条件データベース２３と、アルゴリズム必要数テーブル２４と、分析内容必要数テーブル２５とを格納している。

【0035】

また、副記憶装置３３には、学習データ取得プログラム１１ａと、補充クエリ生成プログラム１２ａがインストールされている。図１を用いて上述した、学習データ取得部１１、補充クエリ生成部１２は、副記憶装置３３に記憶されている学習データ取得プログラム１１ａと、補充クエリ生成プログラム１２ａを、プロセッサ３１が主記憶装置３２に読み出して実行することにより実現される。

【0036】

入力装置３４は、キーボードやマウスなどのユーザの操作を受け付ける装置であり、ユーザの操作により入力された情報を取得する。出力装置３５は、ディスプレイなど情報を出力する装置であり、例えば画面への表示により情報をユーザに提示する。

【0037】

ネットワークＩ／Ｆ３６は、クライアント装置２や、外部学習データベースサーバー３等の装置と、ネットワークＮＷを介してデータを送受信するためのインタフェースある。ＡＩ学習データ作成支援システム１は、ネットワークＩ／Ｆ３６を用いて、ネットワークＮＷに接続されているクライアント装置２や、外部学習データベースサーバー３等の装置とデータの送受信を行うことができる。ネットワークＩ／Ｆ３６は、クライアント装置２のユーザから入力された情報を受け付けることができ、これによりネットワークＩ／Ｆ３６は、入力装置としても機能する。また、ネットワークＩ／Ｆ３６は、ネットワークＮＷを介して、クライアント装置２にデータを送信して、クライアント装置２のディスプレイにデータを表示でき、これによりネットワークＩ／Ｆ３６は、出力装置としても機能する。

【0038】

クライアント装置２および外部学習データベースサーバー３は、ＡＩ学習データ作成支援システム１と同様のハードウェア資源を使用することで構成できる。

【0039】

＜各種データ構造＞
図３は、個人プロファイルおよび第１のクエリの一例を示す図である。個人プロファイル（学習プロファイル）３０２は、複数のデータ項目３０１それぞれに対応する項目値を有し、ＡＩモデルに分析させる個人情報（分析対象データ）およびＡＩモデルの種類の情報を含む。データ項目３０１には、ＡＩモデルに分析させる個人情報（分析対象データ）に関する複数のデータ項目と、ＡＩモデルの種類の情報（ＡＩモデルのアルゴリズム及び分析内容）に関する複数のデータ項目を含む。

【0040】

個人情報（分析対象データ）に関する複数のデータ項目は、診断項目と、その他の項目とがある。診断項目は、ＡＩモデルに分析させる分析結果に対応する項目であり、いわば目的変数である。診断項目以外のデータ項目は、いわば従属変数である。学習後のＡＩモデルが、診断項目以外のデータ項目の項目値を用いて、診断項目の項目値を分析できるように、学習データ（第１の学習データ、第１の補充データ、第２の補充データ）は作成される。

【0041】

図３の個人プロファイル３０２では、診断項目は、一例として「ＵＡ」となっており、学習後のＡＩモデルは、個人プロファイル（学習プロファイル）の個人情報（分析対象データ）を分析して、分析結果として「ＵＡ」の値を出力する。診断項目は、例えば、薬の投薬量や、人体への処置法など、任意に設定できる。

【0042】

図３には、第１のクエリに含まれる第１のクエリの検索範囲（検索条件）３０３の一例が示されている。第１のクエリは、第１の学習用データベース２１（学習用データベース）から第１の学習データを抽出するために用いる。ＡＩモデルの学習が教師あり学習となる場合、第１の学習データを教師データにすることができる。そして、第１の学習データにおいて、診断項目に対する項目値は、正解、不正解を表すデータとなる。このため、学習用データベースから、診断項目に対応する項目値を含むデータを抽出できるように、第１のクエリおよび補充クエリ（第１の補充クエリおよび第２の補充クエリ）を設定する。

【0043】

図４は、設定条件データベース２２と、設定条件データベース２２に格納されている設定条件テーブル２２ａの一例を示す図である。設定条件データベース２２は、複数の診断項目（目的変数）それぞれに対する設定条件テーブルを有しており、図４の例では、設定条件データベース２２には、設定条件テーブル２２ａの他に、設定条件テーブル２２ｂ、２２ｃを例示し、他の設定条件テーブルの図示を省略した。

【0044】

設定条件テーブル２２ａは、範囲テーブル（データ項目４０１、第１範囲４０３～第３範囲４０５）等と、統計係数テーブル（データ項目４０１、統計値の種類４０８～第２統計係数４１２）等と、ドメイン項目情報（ドメイン項目４０６、ドメイン項目範囲４０７）とを含む。

【0045】

範囲テーブルは、個人プロファイル（学習プロファイル）の個人情報（分析対象データ）の少なくとも１つのデータ項目４０１と、当該少なくとも１つのデータ項目４０１それぞれに対する、複数の項目値の範囲（第１範囲４０３～第３範囲４０５等）とを対応付けて格納する。

【0046】

データ項目４０１は、個人プロファイルに対応するデータ項目である。重要度４０２は、個人プロファイルの個人情報の項目値の重要度である。図４では、重要度４０２を、例として、１～３の３つの数字で示した。また、数字が小さい程、重要度は高い。第１範囲４０３～第３範囲４０５は、個人プロファイルから補充クエリ（第２の補充クエリ）を作成する際に、補充クエリに含まれる検索範囲を設定するための値の範囲である。第１範囲４０３～第３範囲４０５以外は図示を省略したが、設定条件テーブル２２ａには、第１範囲４０３～第ｎ範囲が設定されている。第１範囲から第ｎ範囲は、重要度を考慮して設定されている。

【0047】

統計係数テーブルは、第１の学習データの１つ以上の前記データ項目４０１と、当該１つ以上のデータ項目４０１それぞれに対する、統計値の種類４０８、統計値の範囲（第１統計範囲４０９、第２統計範囲４１１等）および統計係数（第１統計係数４１０、第２統計係数４１２等）と、を対応付けて格納する。

【0048】

ドメイン項目情報は、個人プロファイル（学習プロファイル）に関するドメイン項目４０６と、ドメイン項目４０６に対するドメイン項目範囲４０７とを対応付けて格納する。ドメイン項目４０６は、個人プロファイル（学習プロファイル）の診断項目（目的変数）に関して重要な意味を持つ（影響が大きい）と考えられる項目である。また、ドメイン項目４０６は、個人プロファイルのデータ項目に含まれる場合も含まれない場合もある項目である。ドメイン項目範囲４０７は、ドメイン項目４０６に関する値として妥当だと考えられる値の範囲である。

【0049】

統計値４０８は、学習用データベースから第１のクエリで抽出される第１の学習データに関して算出する統計値の種類（例えば、ｓｋｅｗｎｅｓｓ）である。設定条件テーブル２２ａの統計値４０８に統計値の種類が設定されているデータ項目に対して、第１の学習データの統計値を算出する。詳細は後述するが、第１統計範囲４０９は、統計値Ｓ４０８に関する統計値の範囲であり、第１統計係数４１０は第１統計範囲４０９に対応する統計係数である。同様に、第２統計範囲４１１も統計値Ｓ４０８に関する統計値の範囲であり、第２統計係数４１２は第２統計範囲４１１に対応する統計係数である。設定条件テーブル２２ａは、この様な統計範囲と統計係数との組み合わせを複数格納している。

【0050】

図５は、検索条件データベースの一例を示す図である。検索条件データベース２３は、過去に作成された過去分析対象データ（個人情報）と、過去分析対象データに関する学習データの抽出に用いた過去クエリとを対応付けた検索条件レコードを複数記憶している。ＩＤ５０１は、検索条件レコードを識別するＩＤである。過去クエリ５０２は、各検索条件レコードの過去クエリである。ＩＦ５０３は、過去クエリ５０２を用いる際のインタフェースである。検索対象５０４は検索条件レコードの検索対象のデータベース名である。

【0051】

個人プロファイル５０５は、過去に作成された過去分析対象データ（個人情報）を含む。変更可能項目５０６は、個人プロファイル５０５の過去分析対象データのデータ項目のうちで、ＡＩモデルの分析結果との相関が小さいと考えられるデータ項目であり、検索する範囲を任意の範囲に広げてもよいと考えられるデータ項目である。作成日時５０７は、レコードが作成された日時である。

【0052】

図６は、アルゴリズム必要数テーブル２４の一例を示す図である。アルゴリズム必要数テーブル２４は、ＡＩモデルのアルゴリズムと、当該アルゴリズムにより必要とされる学習データの数を表すアルゴリズム必要数を対応付けて格納する。ＩＤ６０１はアルゴリズムを識別するＩＤである。アルゴリズム６０２は、学習させるＡＩのアルゴリズムである。特性６０３は、アルゴリズム６０２に関する特性の欄で、ＡＩモデルのアルゴリズム６０２に対応するアルゴリズム必要数が「Data size(Samples)」の欄に記載されている。

【0053】

図６には、アルゴリズム６０２の例として、ＬｏｇｉｓｔｉｃＲｅｇｒｅｓｓｉｏｎ（ロジスティック回帰）、ＤＮＮ（ディープニューラルネットワーク：Deep Neural Network）、ＳＶＭ（サポートベクトルマシン：Support Vector Machine）が示されている。また、特性６０３は、ＡＩモデルのアルゴリズム６０２に対応するアルゴリズム必要数（「Data size（Samples）」の欄）を含む。特性６０３は、一例として、学習データで学習にかかる時間の目安である「ｐｒｅｐａｒａｔｉｏｎ＿ｔｉｍｅ」や、学習データの望ましい統計値の例として「ｆａｉｒｎｅｓｓ」や、学習させたＡＩモデルの分析結果の正確さの精度の一例であるＡＵＣ（ＡｒｅａＵｎｄｅｒＣｕｒｖｅ）の概算値「ＡＵＣ」や、ＡＩモデルのアルゴリズム６０２に対応するアルゴリズム必要数（「Data size（Samples）」の欄）を含んでいる。

【0054】

図７は、分析内容必要数テーブル２５の一例を示す図である。分析内容必要数テーブル２５は、ＡＩモデルの分析内容７０２及び当該分析内容のＡＩモデルの学習に必要な学習データの数を表す分析内容必要数７０３を対応付けて格納する。図７の分析内容必要数テーブル２５において、ＩＤ７０１はＡＩモデルの分析内容を識別するＩＤである。分析内容７０２は、学習させるＡＩの分析内容で、「問題」と称される場合もある。分析内容必要数７０３は、分析内容７０２のＡＩモデルの学習に必要な学習データの数である。図７には、例として、分析内容７０２としてクラス分類（classification）および回帰（Regression）が示されており、これらに対応する分析内容必要数７０３の例が示されている。

【0055】

＜処理手順＞
実施例１では、ユーザが、クライアント装置２に、個人プロファイルと、第１のクエリとを入力する。次に、クライアント装置２は、ＡＩ学習データ作成支援システム１に、個人プロファイルと、第１のクエリとを送信する。ＡＩ学習データ作成支援システム１は、クライアント装置２から送信された、個人プロファイルと、第１のクエリとを取得すると、学習データ取得処理を開始する。なお、ユーザが、個人プロファイル及び第１のクエリを、ＡＩ学習データ作成支援システム１に直接入力し、入力されると、ＡＩ学習データ作成支援システム１は学習データ取得処理を開始するようにしても良い。

【0056】

図８は、ユーザが個人プロファイルおよび第１のクエリを入力するためにクライアント装置２に表示される個人プロファイル入力画面の一例を示す説明図である。図８に示す個人プロファイル入力画面８００は、個人プロファイルを入力する入力欄８０１、クエリ入力ボタン８０２、送信実行ボタン８０３を含む。

【0057】

入力欄８０１は、ユーザが個人プロファイルを入力する欄である。例えば、「ｓｕｂｊｅｃｔ」の箇所には学習後のＡＩモデルに分析させる診断項目として「ＵＡ」が入力されており、「ｓｅｘ」の箇所には性別として「Ｍａｌｅ」が入力されている。また、「ＡＩ」の箇所には学習させるＡＩモデルのアルゴリズムとして「ＤＮＮ」が入力されており、「ｐｒｏｂｌｅｍ」の箇所には学習させるＡＩモデルの分析内容として「ｃｌａｓｓｉｆｉｃａｔｉｏｎ」が入力されており、「ｒｅｑｕｉｒｅｄ＿ａｕｃ」の箇所には学習させたＡＩモデルの分析結果の正確さの精度の一例であるＡＵＣ（ＡｒｅａＵｎｄｅｒＣｕｒｖｅ）と、その目標値として「５０％」を表す「５０」が入力されている。

【0058】

クエリ入力ボタン８０２をユーザが押すと、第１のクエリを入力するクエリ入力画面がクライアント装置２に表示されるようになっている。また、送信実行ボタン８０３をユーザが押すと、ユーザが入力した、個人プロファイルおよび第１のクエリの情報が、クライアント装置２からＡＩ学習データ作成支援システム１にネットワークＮＷを介して送信されるようになっている。

【0059】

図９及び図１０は、ユーザが第１のクエリを入力するためにクライアント装置２に表示されるクエリ入力画面の一例を示す説明図である。図９に示すクエリ入力画面９００ａは、ユーザが第１のクエリを入力する欄９０１ａを有する。図１０に示すクエリ入力画面９００ｂには、ユーザが、第１のクエリの内容を入力するためのデータ項目表を選択するリスト選択ボタン９０１ｂと、データ項目表９０２ｂを有している。図１０の例では、ユーザがリスト選択ボタン９０１ｂで「Ｐａｔｉｅｎｔ＿ｂａｓｉｃ＿ｔａｂｌｅ」を選択し、データ項目表９０２ｂには「Ｐａｔｉｅｎｔ＿ｂａｓｉｃ＿ｔａｂｌｅ」が表示されている。ユーザは、データ項目表９０２ｂのチェックボックスをクリックして、第１のクエリに含まれる検索条件を設定すると、クライアント装置２はデータ項目表９０２ｂを第１のクエリに変換するようになっている。

【0060】

次に、図１１を用いて、ＡＩ学習データ作成支援システム１の学習データ取得部１１により実行される、学習データ取得処理について説明する。図１１は、ＡＩ学習データ作成支援システム１の学習データ取得処理の例を示すフローチャートである。上述したが、ＡＩ学習データ作成支援システム１は、個人プロファイルおよび第１のクエリをクライアント装置２から受け取ると、図１１にフローチャートで示す学習データ取得処理を開始する。

【0061】

ＡＩ学習データ作成支援システム１（プロセッサ３１）は、クライアント装置２から受け取ったプロファイルおよび第１のクエリを保存する（ステップＳ１０１）。

【0062】

次に、ＡＩ学習データ作成支援システム１は、設定条件データベース２２（図４参照）から、個人プロファイルの診断項目に関する設定条件テーブル２２ａを抽出し、保存する（ステップＳ１０２）。

【0063】

次に、ＡＩ学習データ作成支援システム１は、第１のクエリで第１の学習用データベース２１から抽出される第１の学習データの数および統計値を、第１の学習用データベース２１の統計情報ファイル２１ａを用いて算出し、保存する（ステップＳ１０３）。ここで、ＡＩ学習データ作成支援システム１は、第１の学習データの数を、第１の学習用データベース２１の統計情報ファイル２１ａを用いて、下記の様に、公知の方法で概算する。またＡＩ学習データ作成支援システム１は、設定条件テーブル２２ａの統計値４０８（図４参照）に統計値の種類が設定されている全てのデータ項目に関して、統計値４０８に設定されている種類の統計値を、統計情報ファイル２１ａを用いて、第１の学習データについて公知の方法で算出し、統計値とする。ここで、ＡＩ学習データ作成支援システム１は、統計情報ファイル２１ａを用いて、第１の学習データの数及び統計値を算出することにより、ＡＩ学習データ作成支援システム１が、第１の学習用データベース２１から第１の学習データを抽出して、第１の学習データの数及び統計値を算出する場合に比べて、ＡＩ学習データ作成支援システム１は、より容易に第１の学習データの数及び統計値を算出できる。

【0064】

データベースは、通常、統計情報ファイルを有している。統計情報ファイルは、例えば、レコードの数を表す情報や、カラム毎のデータの最大値及び最小値に関する情報や、カラム毎のデータの分布状況を表すヒストグラム等の統計情報を含む。そして、例えば、データ項目Ａの値が記録されているレコードの数Ｒａを見積もることができる。また、データ項目Ａの値が範囲Ａにあるレコードの数Ｒａａは、ヒストグラムの情報から見積もることができる。これにより、データ項目Ａの値を有するレコードのうち、データ項目Ａの値が範囲Ａにあるレコードの割合Ｒｐａ（Ｒｐａ＝Ｒａａ／Ｒａ）も見積もることができる。同様に、データ項目Ｂの値が記録されているレコードの数Ｒｂを見積もることができる。データ項目Ｂの値を有するレコードのうち、データ項目Ｂの値が範囲Ｂにあるレコードの割合Ｒｐｂを見積もることができる。そこで、データ項目Ａの値が範囲Ａにあり、かつ、データ項目Ｂの値が範囲Ｂにあるレコードの数ＡＢは、データ項目Ａの値が記録されているレコードの数Ｒａと、データ項目Ａの値が範囲Ａにあるレコードの割合Ｒｐａと、データ項目Ｂの値が範囲Ｂにあるレコードの割合Ｒｐｂとの積（レコードの数ＡＢ＝レコードの数Ｒａ×レコードの割合Ｒｐａ×レコードの割合Ｒｐｂ）と見積もることができる。この様に、データ項目が記録されたレコードの数と、レコードの割合との積を算出して、第１の学習データの数を算出する。また、第１の学習データのデータ項目の値の統計値「ｓｋｅｗｎｅｓｓ（歪度）」や、「ｋｕｒｔｏｓｉｓ（尖度）」は、データ項目のヒストグラム等から見積もることができる。

【0065】

また、例えば、図４に示す統計情報ファイル２１ａの例では、統計値４０８は、ＢＭＩの項が「ｓｋｅｗｎｅｓｓ」となっており、ＡＩ学習データ作成支援システム１は、統計情報ファイル２１ａを用いて、第１の学習データのＢＭＩの「ｓｋｅｗｎｅｓｓ」の値を算出し、ＢＭＩの統計値とする。そして、図４の例では、ＬＤＬ－Ｃや、γＧＴの項等に関しても同様に、「ｓｋｅｗｎｅｓｓ」等の統計値を算出し、それぞれの項の統計値とする。なお、「ｓｋｅｗｎｅｓｓ（歪度）」は、第１の学習データのばらつきを表す統計値の例であり、「ｓｋｅｗｎｅｓｓ」の代わりに他の統計値を用いても良い。例えば、統計値として、「ｋｕｒｔｏｓｉｓ（尖度）」を用いても良いし、「ｓｋｅｗｎｅｓｓ」および「ｋｕｒｔｏｓｉｓ」の両方を用いても良い。

【0066】

次に、ＡＩ学習データ作成支援システム１は、個人プロファイルと、第１のクエリとを対応付けて検索条件データベース（図５参照）に保存する（ステップＳ１０４）。ここで、設定条件テーブル２２ａにおいて重要度３とされた重要度が最も低いデータ項目を、検索条件レコード（図５参照）の変更可能項目（検索する範囲を任意の範囲に広げてもよいと考えられるデータ項目、図５参照）としてもよい。

【0067】

次に、ＡＩ学習データ作成支援システム１は、必要数上限値を算出し、必要数上限値、ＡＩモデルのアルゴリズム（ＡＩモデルの種類）、設定条件テーブル２２ａ、第１の学習データの統計値に基づいて、ＡＩモデルの学習に必要なデータの数を必要数として算出し、保存する（ステップＳ１０５）。ここで、必要数上限値とは、ＡＩ学習データ作成支援システム１が第１の学習用データベース２１から、第１の学習データを取得する場合に、ＡＩ学習データ作成支援システム１が、十分短いと考えられる第１の許容時間間隔（例えば６時間）で取得可能な第１の学習データの数の概算値である。第１の許容時間間隔は、あらかじめ設定されている。第１の学習データの数が、必要数上限値以下の場合（第１学習データの数≦必要数上限値）には、第１の学習データを取得するためにかかる時間は十分短いと判断できる。一方、第１の学習データの数が、必要数上限値よりも大きい場合（第１の学習データの数＞必要数上限値）には、第１の学習データを取得するためにかかる時間は長すぎると判断できる。

【0068】

必要数上限値は、例えば、第１の学習データ取得速度と、第１の許容時間間隔との積である。第１の学習データ取得速度は、単位時間あたりに第１の学習用データベース２１から取得可能な第１の学習データの数を表す。ＡＩ学習データ作成支援システム１は、例えば、プロセッサ３１のコア数やクロック数等のプロセッサ３１のスペックや、第１の補充データを取得するために割り当てることができるプロセッサ３１の推定の使用率（稼働状況）や、主記憶装置３２の読み書きの速度等に基づいて、第１の学習データ取得速度を算出する。また、ＡＩ学習データ作成支援システム１は、所定のプログラムを実行して、第１の学習データ取得速度を計測しても良い。そして、ＡＩ学習データ作成支援システム１は、第１の学習データ取得速度と、第１の許容時間間隔との積を算出し、必要数上限値とする。

【0069】

必要数の算出には、次の様に、必要数上限値、アルゴリズム必要数テーブル２４、分析内容必要数テーブル２５、ステップＳ１０３にて算出した統計値、設定条件テーブル２２ａを用いる。上述したが、学習させるＡＩモデルのアルゴリズムおよび分析内容の情報は、個人プロファイルに含まれている。例えば、図３に示す個人プロファイルでは、アルゴリズムは「ディープニューラルネットワーク（ＤＮＮ）」で、分析内容は「クラス分類（ｃｌａｓｓｉｆｉｃａｔｉｏｎ）」である。

【0070】

必要数の算出では、まず、図６に一例を示すアルゴリズム必要数テーブル２４からＡＩモデルのアルゴリズムに対応するアルゴリズム必要数を抽出し、図７に一例を示す分析内容必要数テーブル２５からＡＩモデルの分析内容に対応する分析内容必要数を抽出する。アルゴリズム必要数と、分析内容必要数とのうちで、大きい方をモデル必要数Ｍとする。

【0071】

例えば、図６に示すアルゴリズム必要数テーブル２４では、ＡＩモデルのアルゴリズム「ＤＮＮ」に対応するアルゴリズム必要数は、１００，０００である。また、図７に示す分析内容必要数テーブル２５の例では、ＡＩモデルの分析内容「ｃｌａｓｓｉｆｉｃａｔｉｏｎ」（クラス分類）に対応するアルゴリズム必要数は、１０，０００である。これらのデータ件数の大きい方の１００，０００が、モデル必要数Ｍとなる（モデル必要数Ｍ＝１００，０００）。なお、以上では、アルゴリズム必要数テーブル２４と、分析内容必要数テーブル２５とを用いたが、以下の様に適宜変更できる。例えば、アルゴリズム必要数テーブル２４と分析内容必要数テーブル２５を１つにまとめた、アルゴリズム及び分析内容との組と、モデル必要数Ｍとを対応付けて格納するデータベースをあらかじめ生成し、用いても良い。アルゴリズム必要数テーブル２４だけを用いてモデル必要数Ｍを算出しても良い。また、分析内容必要数テーブル２５だけを用いてモデル必要数Ｍを算出しても良い。さらに、ＡＩモデルのアルゴリズム、分析内容以外の事項を考慮して、モデル必要数Ｍを算出しても良い。

【0072】

また、統計値を算出したデータ項目毎に、以下の様に統計係数を算出し、算出した統計係数のうち一番大きい統計係数を、最大統計係数Ｃとする。また、モデル必要数Ｍと最大統計係数Ｃとの積を必要数Ｄ（必要数Ｄ＝モデル必要数Ｍ×最大統計係数Ｃ）とする。さらに、必要数Ｄが、必要数上限値よりも大きい場合（必要数Ｄ＞必要数上限値）には、必要数Ｄを、必要数上限値に設定する。統計係数は、第１統計範囲～第ｎ統計範囲のうち、統計値を含む範囲に対応する統計係数（第１統計係数～第ｎ統計係数のいずれか）である。

【0073】

図４の設定条件テーブル２２ａの例では、ＢＭＩの統計値が０．４であったとすると、統計値（０．４）は、第２統計範囲４１１に入り、第２統計範囲４１１に対応する第２統計係数４１２である１０を、データ項目ＢＭＩの統計係数とする（統計係数＝１０）。同様に、データ項目ＬＤＬ－Ｃの統計値が０．１の場合には統計値は、第１統計範囲４０９に入り、第１統計係数４１０の値１がデータ項目ＬＤＬ－Ｃの統計係数となる（統計係数＝１）。そして、全てのデータ項目の統計係数の値で最大値が１０の場合には、最大統計係数Ｃは１０となる。上記の様に、モデル必要数Ｍが１００，０００の場合、必要数Ｄは、１０００，０００（＝モデル必要数Ｍ１００，０００×最大統計係数１０）となる。

【0074】

さらに、必要数Ｄ（必要数Ｄ＝モデル必要数Ｍと、最大統計係数Ｃとの積）が、必要数上限値よりも大きい場合（必要数Ｄ＞必要数上限値）には、第１の学習データを必要数Ｄ取得するためにかかる時間は長すぎると考えられるため、必要数Ｄを、必要数上限値に設定する（必要数Ｄ＝必要数上限値）。これにより、ＡＩ学習データ作成支援システム１は、第１の学習データや、後述する第１の補充データおよび第２の補充データを、より確実に生成（抽出）できる。なお、ステップＳ１０５にて、ＡＩ学習データ作成支援システム１は、必要数上限数を算出せず、さらに、必要数Ｄが必要数上限値よりも大きい場合（必要数Ｄ＞必要数上限値）に、必要数Ｄを必要数上限値に設定しなくてもよい。

【0075】

なお、ＡＩモデルの学習方法を考慮して、必要数Ｄを算出してもよい。例えば、上記の統計係数と同様に、学習方法に関する統計係数を作成して、必要数Ｄを算出してもよい。学習方法には、例えば、学習用データ全体のうち１つだけ学習用データをテストデータとして抜き出し、残りの学習用データを教師データとして交差検証を行うリーブワンアウト（ＬｅａｖｅＯｎｅＯｕｔ）法や、ホールドアウト（Ｈｏｌｄ－ｏｕｔ）法、クロスバリデーション（ＣｒｏｓｓＶａｌｉｄａｔｉｏｎ）法がある。

【0076】

次に、図１１に戻り、ＡＩ学習データ作成支援システム１は、ステップＳ１０３で算出した第１の学習データの数が、ステップＳ１０５で算出した必要数以上（必要数≦第１の学習データの数）か否かを判定する（ステップＳ１０６）。第１の学習データの数が、必要数以上（必要数≦第１の学習データの数）と判定された場合（ステップＳ１０６：ＹＥＳ）はステップＳ１０７に進み、第１の学習データの数が必要数未満（必要数＞第１の学習データの数）と判定された場合（ステップＳ１０６：ＮＯ）は、ステップＳ１０８に進む。

【0077】

次に、ＡＩ学習データ作成支援システム１は、第１クエリを用いて、第１の学習データベースから第１の学習データを抽出し、抽出した第１の学習データを出力して処理を終了する（ステップＳ１０７）。ここで、第１の学習データの出力は、次のような出力でよい。例えば、第１の学習データをクライアント装置２に送信する。第１の学習データを含むファイルをクライアント装置２に送信する。第１の学習データを含むファイルを副記憶装置３３に記憶させる。第１の学習データを出力装置３５に出力してＡＩ学習データ作成支援システム１のユーザに提示する。第１の学習データを、クライアント装置２に送信して、クライアント装置２が第１の学習データをユーザに提示する。ここで、クライアント装置２のユーザへの提示は、クライアント装置２のディスプレイへの出力でよい。例えば、クライアント装置２のディスプレイに表示される標準出力でよい。標準出力とは、コンピュータ上で実行されているプログラムが特に指定されていない場合に、装置（装置のオペレーティングシステムなど）が標準的に利用するデータ出力先である。

【0078】

次に、ＡＩ学習データ作成支援システム１は、必要数と、第１の学習データの数との差分を算出し、差分を目標補充数（目標補充数＝必要数－第１の学習データの数）として保存する（ステップＳ１０８）。

【0079】

次に、ＡＩ学習データ作成支援システム１は、補充クエリ生成サブルーチンを呼び出す（ステップＳ１０９）。補充クエリ生成サブルーチンは、ＡＩ学習データ作成支援システム１の補充クエリ生成部１２により実行される処理であり、学習データを補充するために、補充クエリを生成する。

【0080】

次に、ＡＩ学習データ作成支援システム１は、第１のクエリを用いて、第１の学習データベースから第１の学習データを抽出し、補充クエリを用いてデータベースから補充データを抽出し、第１の学習データおよび補充データを出力して処理を終了する（ステップＳ１１０）。ここで、第１の学習データおよび補充データの出力は、上述したステップＳ１０７と同様に、次のような出力でよい。例えば、第１の学習データおよび補充データをクライアント装置２に送信する。第１の学習データおよび補充データを含むファイルをクライアント装置２に送信する。第１の学習データおよび補充データを含むファイルを副記憶装置３３に記憶させる。第１の学習データおよび補充データを、クライアント装置２に送信して、クライアント装置２が第１の学習データおよび補充データをユーザに提示する。ここで、クライアント装置２のユーザへの提示は、クライアント装置２のディスプレイへの出力でよい。例えば、クライアント装置２のディスプレイに表示される標準出力でよい。

【0081】

次に、図１２を参照しつつ、図１３及び図１４を用いてＡＩ学習データ作成支援システム１の補充クエリ生成部１２により実行される補充クエリ生成サブルーチンの処理について説明する。図１２は、補充クエリ生成サブルーチンの処理の例を示すフローチャートである。

【0082】

ＡＩ学習データ作成支援システム１は、個人プロファイル（学習用プロファイル）の個人情報（分析対象データ）との類似度が、所定の類似度閾値よりも大きな過去分析対象データを含む少なくとも１つの検索条件レコードを、検索条件データベースから抽出し、抽出した少なくとも１つの検索条件レコードの過去クエリを、第１の補充クエリ候補として、保存する（ステップＳ２０１）。ここで、図３を用いて上述したが、個人プロファイルの個人情報には、様々なデータ項目の項目値を含む。

【0083】

類似度は、例えば、個人プロファイルの個人情報と、検索条件レコードの過去分析対象データ（個人情報）の両方に含まれるデータ項目（名前およびＩＤのデータ項目の数は除く）の数に対する、個人プロファイルの個人情報のデータ項目の数（名前およびＩＤのデータ項目の数は除く）の割合である。すなわち、「類似度＝両方に含まれるデータ項目の数／個人情報のデータ項目の数」である。また、個人プロファイルの個人情報と、検索条件レコードの過去分析対象データ（個人情報）の両方に含まれるデータ項目の数が多い程、類似度は大きくなる。名前およびＩＤは、個人の性状に関係が少ない情報であり、他のデータ項目は個人の性状との関係が大きいと考えられる。類似度の算出において、データ項目の数から、名前およびＩＤのデータ項目の数は除くことで、類似度は、個人の性状に関する類似度になっている。これにより、類似度は、好適な類似度になっている。

【0084】

例えば、個人プロファイルの個人情報のデータ項目が「ＩＤ、診断項目、名前、年齢、身長、ＢＭＩ、ＬＤＬ－Ｃ」で、検索条件レコードの過去分析対象データのデータ項目が「診断項目、名前、年齢、身長」とする。個人プロファイルに含まれる個人の性状に関するデータ項目の数は、データ項目「ＩＤ」及び「名前」を除いたデータ項目の数で、５である。個人プロファイルの個人情報と、検索条件レコードの過去分析対象データ（個人情報）の両方に含まれるデータ項目の数は、「診断項目、年齢、身長」のデータ項目の数３である。類似度（＝両方に含まれるデータ項目の数／個人情報のデータ項目の数）は、３／５＝０．６となる。

【0085】

類似度閾値は、あらかじめ設定された、類似度に関する閾値であり、例えば０．５である。

【0086】

ステップＳ２０１では、個人プロファイルの個人情報との類似度が類似度閾値よりも大きい、過去分析対象データを含む検索条件レコードの過去クエリに、ドメイン項目範囲（図４参照）を検索条件として加えて、第１の補充クエリ候補とする。例えば、図４に示すドメイン項目範囲の例では、ドメイン項目範囲４０７は、「４．２≦ＨｂＡ１ｃ≦６．２」となっている。図４の例では、ＡＩ学習データ作成支援システム１は、まず、個人プロファイルの個人情報との類似度が類似度閾値よりも大きい、過去分析対象データを、設定条件データベース２２から抽出する。そして、抽出した過去分析対象データを含む検索条件レコードの過去クエリに、ドメイン項目範囲「４．２≦ＨｂＡ１ｃ≦６．２」を検索条件として加えたクエリを、第１の補充クエリ候補とする。

【0087】

図４を用いて上述した様に、ドメイン項目は、個人プロファイル（学習プロファイル）に関する。また、ドメイン項目は、個人プロファイル（学習プロファイル）の診断項目（目的変数）に関して重要な意味を持つ（影響が大きい）と考えられる項目である。ドメイン項目範囲は、ドメイン項目に関する値として妥当だと考えられる値の範囲である。また、学習データである第１の補充データは、第１の補充クエリ候補から選択される第１の補充クエリに基づいて生成（抽出）される。従って、ＡＩ学習データ作成支援システム１は、第１の補充クエリ候補に、ドメイン項目範囲を検索条件として加えることで、ＡＩ学習データ作成支援システム１は、ドメイン項目範囲を検索条件として含む第１の補充クエリを生成する。これにより、第１の補充データ（学習データ）を、診断項目（目的変数）に対してより一層相関関係の高い、好適なデータにすることができる。

【0088】

なお、検索条件レコードの変更可能項目５０６（図４参照）の検索範囲を、過去クエリから適宜（例えば１０％）広げたクエリを生成し、生成したクエリに、ドメイン項目範囲による検索条件を加えたクエリを第１の補充クエリ候補としてもよい。また、検索条件データベース２３の検索条件レコードの個人プロファイルを、第１のクエリで抽出し、抽出した個人プロファイルに関する過去クエリにドメイン項目範囲による検索条件を加えて、第１の補充クエリ候補としてもよい。

【0089】

次に、ＡＩ学習データ作成支援システム１は、第１の補充クエリ候補で、学習用データベースから抽出される第１の補充候補データの数を、学習用データベースの統計情報ファイルを用いて見積り、データ数上限値を算出し、第１の補充候補データの数がデータ数上限値以下の第１の補充クエリ候補を第１の補充クエリとし、第１の補充クエリを第１の補充クエリの数と対応づけて保存する（ステップＳ２０２）。ここで、図５の検索対象５０４に示すように、第１の補充クエリ候補によっては、対応する学習用データベースは、ＡＩ学習データ作成支援システム１の有する第１の学習用データベース２１以外の学習用データベースとなる。第１の補充クエリ候補に対応する学習用データベースが第１の学習用データベース２１の場合には、第１の補充クエリ候補の数は、第１の補充候補データと第１のデータとで重複するデータを、第１の補充候補データから除いたデータの数（データ件数）とする。重複するデータの数（データ件数）は、第１のクエリの検索条件に、第１の補充クエリ候補の検索条件を加えたクエリで、第１の学習用データベース２１から抽出されるデータの数（データ件数）となる。第１の補充候補データの数は、第１の補充クエリ候補で抽出されるデータの数から、この重複するデータの数を引いた数となる。ＡＩ学習データ作成支援システム１は、第１の補充クエリ候補で抽出されるデータの数と、重複するデータの数とを、第１の学習用データベース２１を用いて算出し、さらに、第１の補充クエリ候補で抽出されるデータの数と、重複するデータの数との差分をとって、第１の補充候補データの数を算出する。

【0090】

学習用データベースは、通常、統計情報ファイルを有している。ステップＳ２０２にて、ＡＩ学習データ作成支援システム１は、図１１の学習データ取得処理のステップＳ１０３と同様の方法で、第１の補充クエリ候補に指定された学習用データベースが有する統計情報ファイルを用いて、第１の補充クエリ候補で抽出される第１の補充データの数を見積もる。

【0091】

データ数上限値とは、ＡＩ学習データ作成支援システム１が、学習用データベースから、第１の補充候補データを取得する場合に、ＡＩ学習データ作成支援システム１が、十分短いと考えられる第２の許容時間間隔（例えば６時間）で取得可能な第１の補充候補データの数の概算値である。第２の許容時間間隔は、あらかじめ設定されている。ＡＩ学習データ作成支援システム１は、例えば、第１の補充データ取得速度と、第２の（所定の）許容時間間隔との積を、取得データ上限数として算出する。第１の補充データ取得速度は、単位時間あたりに学習用データベースから取得可能な第１の補充候補データの数を表す。ＡＩ学習データ作成支援システム１は、例えば、プロセッサ３１のコア数やクロック数等のプロセッサ３１のスペックや、第１の補充候補データを取得するために割り当てることができるプロセッサ３１の推定の使用率（稼働状況）や、主記憶装置３２の読み書きの速度や、ネットワークとの送受信の速度等に基づいて、第１の補充データ取得速度を算出する。また、ＡＩ学習データ作成支援システム１は、所定のプログラムを実行して、第１の補充データ取得速度を計測しても良い。

【0092】

第１の補充候補データの数が、データ数上限値以下の場合（第１の補充候補データの数≦データ数上限値）には、第１の補充候補データを取得するためにかかる時間は十分短いと判断できる。一方、第１の補充候補データの数が、データ数上限値よりも大きい場合（第１の補充候補データの数＞データ数上限値）には、第１の補充候補データを取得するためにかかる時間は長すぎると判断できる。

【0093】

ＡＩ学習データ作成支援システム１は、第１の補充候補データの数がデータ数上限値以下（第１の補充候補データの数≦データ数上限値）の第１の補充クエリ候補を第１の補充クエリとする。また、ＡＩ学習データ作成支援システム１は、第１の補充クエリを第１の補充クエリの数（第１の補充候補データの数）と対応づけて保存する。これにより、ＡＩ学習データ作成支援システム１は、第１の補充クエリを用いて、第１の補充データを、より確実に生成（抽出）できる。なお、ステップＳ２０２にて、ＡＩ学習データ作成支援システム１は、データ数上限値を算出せず、さらに、データ数上限値に関わらず、全ての第１の補充クエリ候補を第１の補充クエリにしてもよい。

【0094】

そして、第１の補充クエリはｍ個（複数）抽出されたとする。また、抽出される順に第１の補充クエリ１～ｍとする。

【0095】

次に、ＡＩ学習データ作成支援システム１は、個人プロファイルと、範囲テーブル（設定条件テーブル２２ａ）と、に基づいて、第２の補充クエリ１～第２の補充クエリｎを生成し、保存する（ステップＳ２０３）。

【0096】

図１３は、第２の補充クエリの生成方法を説明する図である。図１３は、データ項目４０１と、個人情報１３０１と、第１範囲４０３と、第２の補充クエリ１の列１３０２と、第２範囲４０４と、第２の補充クエリ２の列１３０３と、第３範囲４０５と、第２の補充クエリ３の列１３０４とを含む。ここで、データ項目４０１、第１範囲４０３、第２範囲４０４、第３範囲４０５は、図４に示す設定条件テーブル２２ａの範囲テーブルと同じである。第２の補充クエリ１の列１３０２に示されている第２の補充クエリ１は、個人情報１３０１の項目値を第１範囲４０３に広げた検索範囲を含むクエリである。例えば、データ項目４０１が「診断項目」の行では、個人情報１３０１はＵＡで、第１範囲は±５であり、ＵＡの性質上、ＵＡの最小値は０であるので、第２の補充クエリ１の「診断項目」の検索範囲は０～１０となっている。同様に、データ項目４０１が「年齢」の行では、個人情報１３０１は６８で、第１範囲は±３であるので、第２の補充クエリ１の検索範囲は６５～７１となっている。以上で説明した、第２の補充クエリ１と同様に、第２の補充クエリ２の列１３０３に示されている第２の補充クエリ２や、第２の補充クエリ３の列１３０４に示されている第２の補充クエリ３が生成され、さらには、第４範囲～第ｎ範囲（不図示）に対応する第２の補充クエリ４～第２の補充クエリｎが生成される。

【0097】

次に、ＡＩ学習データ作成支援システム１は、第２の補充クエリ１～ｎ毎に、第２の補充クエリで抽出される第２の補充データの数を見積もり、第２の補充クエリ１～ｎと対応づけて保存する（ステップＳ２０４）。

【0098】

ここで、ＡＩ学習データ作成支援システム１は、上述したステップＳ２０２と同様の方法で、第１の学習用データベース２１から第２の補充クエリ１～ｎで抽出される第２の補充データ１～ｎの数を、第１の学習用データベース２１の統計情報ファイル２１ａを用いて、見積もる。すなわち、第２の補充データ１～ｎの数は、第２の補充データ１～ｎと、第１のデータとで重複するデータを、第２の補充データ１～ｎから除いたデータの数（データ件数）とする。重複するデータの数（データ件数）は、第１のクエリの検索条件に、第２の補充クエリ１～ｎの検索条件を加えたクエリで、第１の学習用データベース２１から抽出されるデータの数（データ件数）となる。第２の補充データ１～ｎの数は、第２の補充クエリ１～ｎで抽出されるデータの数（データ件数）から、この重複するデータの数（データ件数）を引いた数となる。ＡＩ学習データ作成支援システム１は、第２の補充クエリ１～ｎで抽出されるデータの数と、重複するデータの数とを、第１の学習用データベース２１を用いて算出し、さらに、第２の補充クエリ１～ｎで抽出されるデータの数と、重複するデータの数との差分をとって、第２の補充データ１～ｎの数を算出する。

【0099】

また、第２の補充クエリ１～ｎで、第２の補充データ１～ｎを抽出する学習用データベースは、第１の学習用データベース２１以外の学習用データベース（例えば、外部学習データベースサーバー３の外部学習データベース）であってもよい。また、第２の補充データの数が必要数上限値よりも大きい（第２の補充データの数＞必要数上限値）第２の補充クエリを、第２の補充クエリ１～ｎから除いてもよい。これにより、ＡＩ学習データ作成支援システム１は、第１の補充データを、より確実に生成（抽出）できる。

【0100】

次に、ＡＩ学習データ作成支援システム１は、第１の補充クエリ１～ｍのうち、優先度で上位１～５位（所定の数）のクエリをその第１の補充データの数と対応付けて、補充クエリリスト（不図示）に追加する（ステップＳ２０５）。ここで、優先度とは、例として、第１の補充データの数の多さとする。すなわち、第１の補充データの数が多い第１の補充クエリ程優先し、補充クエリリストに追加する。補充クエリリストとは、第１の補充クエリ１～ｍ、第２の補充クエリ１～ｎのうち、第１のクエリを補充する補充クエリとして採用するクエリを、その補充データの数と対応付けて登録するリストである。

【0101】

次に、ＡＩ学習データ作成支援システム１は、第２の補充クエリ１～ｎのうち、上位１位の第２の補充クエリを、その第１の補充データの数と対応付けて、補充クエリリストに追加する（ステップＳ２０６）。ここで、上位とは、第２の補充クエリ１に近い程上位とする（第２の補充クエリ１＞第２の補充クエリ２＞．．．＞第２の補充クエリｎ）。

【0102】

また、これまでに補充クエリリストに登録されていない、上位１位の第２の補充クエリとその補充データの数で、補充クエリリストに登録されている第２の補充クエリとその補充データの数を置き換える。これは、補充クエリリストに登録された第２の補充クエリを、少なくとも１つのデータ項目に対する検索範囲がより広くなるよう変更し、変更した第２の補充クエリに対する第２の補充データの数を算出して、補充クエリリストに登録された第２の補充データの数を、算出した第２の補充データの数で置き換えることを意味する。

【0103】

次に、ＡＩ学習データ作成支援システム１は、補充クエリリストに登録された、第１の補充データの数と、第２の補充データの数との総和が、目標補充数以上（Σ補充クエリリストの補充データの数≦目標補充数）か否かを判定する（ステップＳ２０７）。補充クエリリストに登録された、第１の補充データの数と、第２の補充データの数との総和が、目標補充数以上（Σ補充クエリリストの補充データの数≦目標補充数）と判定された場合（ステップＳ２０７：ＹＥＳ）はステップＳ２０８に進み、補充クエリリストに登録された、第１の補充データの数と、第２の補充データの数との総和が目標補充数未満（Σ補充クエリリストの補充データの数＞目標補充数）と判定された場合（ステップＳ２０７：ＮＯ）は、ステップＳ２０５に戻る。

【0104】

ここで、補充クエリリストに登録された、第１の補充データの数と、第２の補充データの数との総和が、目標補充数（目標補充数＝必要数－第１の学習データの数）以上（目標補充数＝必要数－第１の学習データの数≦Σ補充クエリリストの補充データの数）と判定された場合（ステップＳ２０７：ＹＥＳ）は、次のように考えることができる。すなわち、補充クエリリストに登録されたクエリで抽出される補充データの総数に、第１のクエリで抽出される第１の学習データの数を加えたデータの総数は、ＡＩモデルの学習に必要なデータの必要数以上になる（必要数≦第１の学習データの数＋Σ補充クエリリストの補充データの数）。これにより、補充クエリリストに登録されたクエリと、第１のクエリとで、十分な数の学習用データを収集できる。

【0105】

次に、ＡＩ学習データ作成支援システム１は、補充クエリリストに登録されている補充クエリ（第１の補充クエリおよび第２の補充クエリ）とその補充データ数を、優先度順にユーザに提示する（ステップＳ２０８）。すなわち、第１の補充クエリ及び第２の補充クエリから使用する補充クエリをユーザが選択できるように、出力装置を用いてユーザに提示する。ここで、ユーザへの提示は、ＡＩ学習データ作成支援システム１が、クライアント装置２に補充クエリリストを送信すると、クライアント装置２は、補充クエリリストに基づいて、補充クエリリストに登録されている補充クエリとその補充データの数を、優先度順に、クライアント装置２のディスプレイに表示するようになっている。さらに、クライアント装置２のユーザは、表示された補充クエリから、第１のクエリの補充に用いる補充クエリを選択するようになっている。

【0106】

なお、クライアント装置２のクライアント装置２のディスプレイに表示する代わりに、ＡＩ学習データ作成支援システム１の出力装置３５に出力して、ＡＩ学習データ作成支援システム１のユーザに提示し、ユーザが補充クエリを選択するようにしてもよい。

【0107】

図１４は、補充クエリリストに登録されている補充クエリと補充データの数をユーザに提示するために、クライアント装置２のディスプレイに表示される、補充クエリ表示画面の一例を示す説明図である。

【0108】

図１４に示す補充クエリ表示画面１４００では、上から優先度が高い順に補充クエリが表示されている。ここで、優先度は、例として、補充データの数の多さである。補充クエリ表示画面１４００は、送信ボタン１４０１と、目標補充数１４０２とを含む。また、補充クエリ表示画面１４００は、優先度１の補充クエリ１４１０に関する、チェックボックス１４１１、補充クエリ１４１０で抽出される補充データの数１４１２を含む。また、補充クエリ表示画面１４００は、優先度２の補充クエリ１４２０に関する、チェックボックス１４２１、補充クエリ１４２０で抽出される補充データの数１４２２を含む。また、補充クエリ表示画面１４００は、優先度３の補充クエリ１４３０に関する、チェックボックス１４３１、補充クエリ１４３０で抽出される補充データの数１４３２を含む。

【0109】

クライアント装置２のユーザは、チェックボックス１４１１、チェックボックス１４２１、チェックボックス１４３１を押して、第１のクエリの補充に用いる補充クエリを選択できる。ユーザは補充クエリを選択し終えると、送信ボタン１４０１押す。これにより、クライアント装置２は、ユーザに選択された、補充クエリをＡＩ学習データ作成支援システム１に送信するようになっている。

【0110】

図１４の補充クエリ表示画面１４００では、チェックの入っているチェックボックス１４１１、１４２１に対応する優先度１、優先度２の補充クエリ１４１０、１４２０が、補充クエリに選択されており、チェックの入っていないチェックボックス１４３１に対応する優先度３の補充クエリ１４３０は選択されていないことを示している。

【0111】

次に、図１２に戻り、ＡＩ学習データ作成支援システム１は、ユーザが選択した使用する補充クエリの入力を受け付け、補充クエリとして保存して、処理を終了する（ステップＳ２０９）。処理を終了すると、ＡＩ学習データ作成支援システム１は、図１１の学習データ取得処理のステップＳ１１０の処理を行う。ステップＳ１１０では、ＡＩ学習データ作成支援システム１は、第１のクエリで学習用データベースから第１の学習データを抽出し、ステップ２０９にて入力されたユーザが選択した補充クエリで、学習用データベースから補充データ（第１の補充データ、第２の補充データ）を抽出する。そして、ＡＩ学習データ作成支援システム１は、第１の学習データおよび補充データを、出力装置５またはネットワークＩ／Ｆ３６を用いて出力する。

【0112】

このように、実施例１では、ＡＩ学習データ作成支援システム１は、第１の学習用データを補充する補充データの取得に用いることができる補充クエリを生成する。これにより、ＡＩモデルを学習させるための学習データを効率良く収集できる。

【0113】

また、ＡＩ学習データ作成支援システム１は、第１の学習データや、補充データを出力することで、ＡＩモデルを学習させるための学習データを容易に収集できる。

【0114】

また、ＡＩ学習データ作成支援システム１は、必要数を、学習させるＡＩモデルのアルゴリズムおよび分析内容に基づいて算出する。従って、必要数はより適切に設定され、さらには、より妥当な数の学習データを収集できる。

【0115】

また、ＡＩ学習データ作成支援システム１は、必要数を、第１の学習データの１つ以上のデータ項目の統計値に基づいて算出する。従って、必要数はより適切に設定され、さらには、より妥当な数の学習データを収集できる。

【0116】

また、ＡＩ学習データ作成支援システム１は、検索条件データベース２３の過去に作成された過去クエリから第１の補充クエリを生成する。これにより、ＡＩモデルを学習させるための学習データを効率良く収集できる。

【0117】

また、ＡＩ学習データ作成支援システム１は、個人プロファイル（学習プロファイル）の個人情報（分析対象データ）を用いて第２の補充クエリを生成する。これにより、ＡＩモデルを学習させるための学習データを効率良く収集できる。

【0118】

また、ユーザが選択した第１の補充クエリ及び第２の補充クエリの入力を受け付けて、ユーザが選択した第１の補充クエリまたは第２の補充クエリを用いて、補充データを作成する。これにより、補充クエリを用いて収集した学習データを、より適切な学習データにし得る。

【実施例0119】

実施例１では、図１２にフローチャートで示す補充クエリ生成サブルーチンの処理において、補充クエリリストに登録されている第１の補充クエリ及び第２の補充クエリから、補充クエリを選択するのはユーザである（図１２のステップＳ２０８～Ｓ２０９）。実施例２が実施例１と異なる点は、ユーザが補充クエリを選択することなく、ＡＩ学習データ作成支援システム１が補充クエリを生成する点にある。なお、実施例２のＡＩ学習データ作成支援システム１で、実施例１のＡＩ学習データ作成支援システム１と同様の機能を有する部分や構成には、同一符号を付与し、説明を省略する。

【0120】

図１５は、実施例２の補充クエリ生成サブルーチンの処理の例を示すフローチャートである。図１５に示すフローチャートのステップＳ３０１～Ｓ３０７の処理は、図１２に示す実施例１の補充クエリ生成サブルーチンの処理のフローチャートのステップＳ２０１～Ｓ２０７の処理と同様の処理であるため、説明を省略する。

【0121】

ステップＳ３０８において、ＡＩ学習データ作成支援システム１は、補充クエリリストに登録されている補充クエリを、補充クエリとして保存し、処理を終了する。

【0122】

このように、実施例２では、ユーザが補充クエリを選択することなく、自動的に補充クエリが生成されるため、効率良く学習データを収集できる。

【実施例0123】

実施例１では、クライアント装置２のユーザが生成した第１のクエリを学習データ取得処理に用いる。実施例３は、実施例１と異なり、第１のクエリを生成するのは、ＡＩ学習データ作成支援システム１である。なお、実施例３のＡＩ学習データ作成支援システム１で、実施例１のＡＩ学習データ作成支援システム１と同様の機能を有する部分や構成には、同一符号を付与し、説明を省略する。

【0124】

実施例３のＡＩ学習データ作成支援システム１は、個人プロファイルをクライアント装置２から受け取ると、図１６にフローチャートで示す学習データ取得処理を開始する。

【0125】

図１６は、実施例３の学習データ取得処理の例を示すフローチャートである。

【0126】

ＡＩ学習データ作成支援システム１は、クライアント装置２から受け取った個人プロファイルを保存する（ステップＳ４０１）。

【0127】

次に、ＡＩ学習データ作成支援システム１は、設定条件データベース２２から個人プロファイルに関する設定条件テーブル２２ａを、読み出し、保存する（ステップＳ４０２）。なお、ステップＳ４０２の処理は、図１１に示す実施例１の学習データ取得処理のフローチャートのステップＳ１０２の処理と同様の処理である。また、図４を用いて上述したが、設定条件テーブル２２ａには、範囲テーブルを含む。

【0128】

次に、ＡＩ学習データ作成支援システム１は、範囲テーブル（設定条件テーブル２２ａ）および個人プロファイルに基づき、第１のクエリを生成し、保存する（ステップＳ４０３）。ここで、第１のクエリは、図１３を用いて説明した、実施例１の第２の補充クエリ１である。

【0129】

これに伴い、実施例３の補充クエリ生成サブルーチンの処理（図１２参照）では、図１２のフローチャートのステップＳ２０３に相当する、第２の補充クエリ１～第２の補充クエリｎを生成する処理において、実施例１の第２の補充クエリ２～第２の補充クエリｎを生成し、これを実施例３の第２の補充クエリ１～第２の補充クエリｎ－１とする。すなわち、実施例１の第２の補充クエリ２～第２の補充クエリｎ－１を、１つ繰り上げて実施例３の第２の補充クエリ１～第２の補充クエリｎ－１とする。

【0130】

図１６に示すフローチャートのステップＳ４０４～Ｓ４１１の処理は、図１１に示す実施例１の学習データ取得処理のフローチャートのステップＳ１０３～Ｓ１１０の処理と同様の処理であるため、説明を省略する。

【0131】

このように、実施例３では、ＡＩ学習データ作成支援システム１が第１のクエリを生成するため、ユーザが第１のクエリを作成する必要がない。これにより、ＡＩモデルを学習させるための学習データを効率良く収集できる。

【0132】

なお、本発明は上述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。たとえば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。