(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023169843
(43)【公開日】2023-11-30
(54)【発明の名称】データ収集装置、学習装置、予測装置、データ収集方法、およびプログラム
(51)【国際特許分類】
G06N 20/00 20190101AFI20231122BHJP
G06Q 10/04 20230101ALI20231122BHJP
G06F 40/58 20200101ALI20231122BHJP
【FI】
G06N20/00 130
G06Q10/04
G06F40/58
【審査請求】未請求
【請求項の数】23
【出願形態】OL
(21)【出願番号】P 2022111222
(22)【出願日】2022-07-11
(62)【分割の表示】P 2022080608の分割
【原出願日】2022-05-17
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.TENSORFLOW
(71)【出願人】
【識別番号】516166052
【氏名又は名称】株式会社アナリティックウェア
(74)【代理人】
【識別番号】100115749
【弁理士】
【氏名又は名称】谷川 英和
(72)【発明者】
【氏名】百瀬 公朗
【テーマコード(参考)】
5B091
5L049
【Fターム(参考)】
5B091AA04
5B091CD15
5L049AA04
(57)【要約】
【課題】従来、大量の教師データを作成することが容易ではなかった。
【解決手段】教師データを構成する元になる第一教師データ元情報が格納される元情報格納部112と、第一教師データ元情報を2以上の各ユーザ端末に送信する元情報送信部141と、第一教師データ元情報に対してユーザが入力した入力情報を含む第二教師データ元情報を、第一教師データ元情報に対応付く態様でユーザ端末2から受信する元情報受信部121と、第一教師データ元情報と第二教師データ元情報とを用いて、教師データを構成する教師データ構成部133と、教師データ構成部133が構成した教師データを蓄積する蓄積部134とを具備するデータ収集装置1により、機械学習の学習モデルを構築するための教師データを収集するためのプラットフォームを提供することにより、大量の教師データが収集可能となる。
【選択図】
図3
【特許請求の範囲】
【請求項1】
機械学習の学習処理により学習モデルを構築するための教師データを構成する元になる第一教師データ元情報が格納される元情報格納部と、
前記第一教師データ元情報を2以上の各ユーザ端末に送信する元情報送信部と、
前記元情報送信部が送信し、前記ユーザ端末で処理された前記第一教師データ元情報に対してユーザが入力した入力情報を含む第二教師データ元情報を、前記第一教師データ元情報に対応付く態様で前記ユーザ端末から受信する元情報受信部と、
前記第一教師データ元情報と前記元情報受信部が受信した前記第二教師データ元情報とを用いて、機械学習の学習処理のために使用する教師データを構成する教師データ構成部と、
前記教師データ構成部が構成した前記教師データを蓄積する蓄積部とを具備するデータ収集装置。
【請求項2】
前記第一教師データ元情報は、前記教師データを構成する要素情報を含み、
前記第二教師データ元情報は、前記要素情報を識別するラベルであり、ユーザが前記要素情報に対して入力したラベルであり、
前記教師データは、前記要素情報と前記ラベルとを含む、請求項1記載のデータ収集装置。
【請求項3】
前記第一教師データ元情報は、前記教師データを構成する要素情報を含み、
前記第二教師データ元情報は、前記要素情報を変換した情報である変換情報であり、ユーザが前記要素情報に対して入力した変換情報であり、
前記教師データは、前記要素情報と前記変換情報とを含む、請求項1記載のデータ収集装置。
【請求項4】
前記要素情報は、第一言語の用語または文であり、
前記変換情報は、第二言語の用語または文である、請求項3記載のデータ収集装置。
【請求項5】
前記第一教師データ元情報は、前記教師データを構成する要素情報を含み、
前記第二教師データ元情報は、前記要素情報を説明する情報である説明情報であり、ユーザが前記要素情報に対して入力した説明情報であり、
前記教師データは、前記要素情報と前記説明情報とを含む、請求項1記載のデータ収集装置。
【請求項6】
前記第一教師データ元情報は、前記ユーザが前記入力情報を入力することを支援するプログラムを含み、
前記元情報受信部は、
前記ユーザ端末で前記プログラムが実行された後に、前記ユーザが入力した前記入力情報を含む前記第二教師データ元情報を受信する、請求項1記載のデータ収集装置。
【請求項7】
前記プログラムは、前記要素情報のラベルを予測する機械学習の予測プログラムであり、
前記第一教師データ元情報は、前記教師データを構成する要素情報を含み、
前記第二教師データ元情報は、前記要素情報に対して前記予測プログラムが実行され得られたラベルを前記ユーザが修正したラベルを含み、
前記教師データは、前記要素情報と前記ラベルとを含む、請求項6記載のデータ収集装置。
【請求項8】
前記プログラムは、前記要素情報を変換する変換プログラムであり、
前記第一教師データ元情報は、前記教師データを構成する要素情報を含み、
前記第二教師データ元情報は、前記要素情報に対して前記予測プログラムが実行され得られた変換情報を前記ユーザが修正した変換情報を含み、
前記教師データは、前記要素情報と前記変換情報とを含む、請求項6記載のデータ収集装置。
【請求項9】
前記変換プログラムは、機械翻訳プログラムであり、
前記要素情報は、第一言語の用語または文であり、
前記変換情報は、第二言語の用語または文である、請求項8記載のデータ収集装置。
【請求項10】
前記プログラムは、前記要素情報の説明情報を予測する機械学習の予測プログラムであり、
前記第一教師データ元情報は、前記教師データを構成する要素情報を含み、
前記第二教師データ元情報は、前記要素情報に対して前記予測プログラムが実行され得られた説明情報を前記ユーザが修正した説明情報を含み、
前記教師データは、前記要素情報と前記説明情報とを含む、請求項6記載のデータ収集装置。
【請求項11】
前記プログラムは、前記教師データを構成する正例と負例とを取得することを支援するプログラムであり、
前記第二教師データ元情報は、前記プログラムを用いて、前記ユーザ端末で取得された正例と負例である、請求項6記載のデータ収集装置。
【請求項12】
前記元情報送信部は、
2以上の各ユーザ端末に、同一の第一教師データ元情報を送信し、
前記元情報受信部は、
前記2以上の各ユーザ端末から、前記同一の第一教師データ元情報に対応する前記第二教師データ元情報を受信し、
前記教師データ構成部は、
前記元情報受信部が受信した前記2以上の各第二教師データ元情報に含まれる入力情報を用いて、予め決められたアルゴリズムにより、蓄積する前記教師データを構成する、請求項1記載のデータ収集装置。
【請求項13】
前記教師データ構成部は、
前記元情報受信部が受信した前記2以上の第二教師データ元情報に含まれる入力情報を合成し、合成入力情報を取得する合成手段と、
前記第一教師データ元情報が有する要素情報と前記合成入力情報とを有する教師データ構成する教師データ構成手段とを具備する請求項12記載のデータ収集装置。
【請求項14】
前記第一教師データ元情報は、データ属性値に対応付いており、
ユーザごとに、1以上のユーザ属性値を含む1以上のユーザ情報が格納されるユーザ情報格納部と、
前記データ属性値に対応するユーザ属性値を有する1以上のユーザ情報を決定するユーザ決定部とをさらに具備し、
前記元情報送信部は、
前記ユーザ決定部が決定した1以上の各ユーザ情報に対応するユーザ端末に前記第一教師データ元情報を送信する、請求項1記載のデータ収集装置。
【請求項15】
前記元情報受信部が受信した前記第二教師データ元情報を、当該第二教師データ元情報を送信したユーザ端末とは異なるユーザ端末である他端末に送信する他端末送信部と、
前記他端末から前記第二教師データ元情報に対する評価結果を受信する評価結果受信部と、
前記評価結果が採用条件を満たすか否かを判断する判断部とをさらに具備し、
前記教師データ構成部は、
前記判断部が前記採用条件を満たすと判断した場合のみ、当該評価結果に対応する第二教師データ元情報を用いて、前記教師データを構成する、請求項1記載のデータ収集装置。
【請求項16】
前記評価結果を用いて、当該評価結果に対応する前記第二教師データ元情報に対応するユーザに対する評価であるユーザ評価を取得するユーザ評価部と、
前記ユーザ評価を出力するユーザ評価出力部とをさらに具備する請求項15記載のデータ収集装置。
【請求項17】
前記ユーザ端末からの前記第二教師データ元情報の送信に応じた報酬を特定する報酬情報を取得する報酬取得部と、
前記報酬情報を前記ユーザ端末を使用するユーザに対応付けて蓄積する報酬蓄積部とをさらに具備する請求項1記載のデータ収集装置。
【請求項18】
前記元情報受信部が前記ユーザ端末から第二教師データ元情報を受信した場合に、他のユーザ端末から受信されていた入力情報を前記ユーザ端末に送信する他端末送信部をさらに具備する請求項1記載のデータ収集装置。
【請求項19】
前記他端末送信部が送信した入力情報に対する評価結果を前記ユーザ端末から受信する評価結果受信部と、
前記入力情報に対応付けて、前記評価結果を蓄積し、当該評価結果に応じて、前記入力情報に対して異なる処理を行う処理部とをさらに具備する請求項18記載のデータ収集装置。
【請求項20】
請求項1から請求項19いずれか一項に記載のデータ収集装置と、当該データ収集装置が蓄積した2以上の教師データを用いて、機械学習の学習処理を行い、学習モデルを取得し、当該学習モデルを蓄積する学習部を具備する学習装置。
【請求項21】
要素情報を受け付ける受付部と、
請求項20記載の学習装置と、
要素情報を受け付ける受付部と、
当該学習装置が取得した学習モデルと前記受付部が受け付けた前記要素情報とを用いて、機械学習の予測処理を行い、入力情報を取得する予測部と、
前記入力情報を出力する予測結果出力部とを具備する予測装置。
【請求項22】
機械学習の学習処理により学習モデルを構築するための教師データを構成する元になる第一教師データ元情報が格納される元情報格納部と、元情報送信部と、元情報受信部と、教師データ構成部と、蓄積部とにより実現されるデータ収集方法であって、
前記元情報送信部が、前記第一教師データ元情報を2以上の各ユーザ端末に送信する元情報送信ステップと、
前記元情報受信部が、前記元情報送信ステップで送信された、前記ユーザ端末で処理された前記第一教師データ元情報に対してユーザが入力した入力情報を含む第二教師データ元情報を、前記第一教師データ元情報に対応付く態様で前記ユーザ端末から受信する元情報受信ステップと、
前記教師データ構成部が、前記第一教師データ元情報と前記元情報受信部が受信した前記第二教師データ元情報とを用いて、機械学習の学習処理のために使用する教師データを構成する教師データ構成ステップと、
前記蓄積部が、前記教師データ構成ステップで構成された前記教師データを蓄積する蓄積ステップとにより実現されるデータ収集方法。
【請求項23】
機械学習の学習処理により学習モデルを構築するための教師データを構成する元になる第一教師データ元情報が格納される元情報格納部にアクセス可能なコンピュータを、
前記第一教師データ元情報を2以上の各ユーザ端末に送信する元情報送信部と、
前記元情報送信部が送信し、前記ユーザ端末で処理された前記第一教師データ元情報に対してユーザが入力した入力情報を含む第二教師データ元情報を、前記第一教師データ元情報に対応付く態様で前記ユーザ端末から受信する元情報受信部と、
前記第一教師データ元情報と前記元情報受信部が受信した前記第二教師データ元情報とを用いて、機械学習の学習処理のために使用する教師データを構成する教師データ構成部と、
前記教師データ構成部が構成した前記教師データを蓄積する蓄積部として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習の学習モデルを作成するための教師データを収集するデータ収集装置等に関するものである。
【背景技術】
【0002】
従来、画像に含まれるオブジェクトを予測したり、情報を分類したりする機械学習の技術があった(例えば、非特許文献1参照)。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】“TensorFlow”、[online]、[令和4年4月30日検索]、インターネット[URL:https://www.tensorflow.org/?hl=ja]
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来技術においては、機械学習の学習モデルを構築するための教師データは、通常、大量に必要であり、その大量の教師データを作成したり、収集したりすることが容易ではなかった。
【課題を解決するための手段】
【0005】
本第一の発明のデータ収集装置は、機械学習の学習処理により学習モデルを構築するための教師データを構成する元になる第一教師データ元情報が格納される元情報格納部と、第一教師データ元情報を2以上の各ユーザ端末に送信する元情報送信部と、元情報送信部が送信し、ユーザ端末で処理された第一教師データ元情報に対してユーザが入力した入力情報を含む第二教師データ元情報を、第一教師データ元情報に対応付く態様でユーザ端末から受信する元情報受信部と、第一教師データ元情報と元情報受信部が受信した第二教師データ元情報とを用いて、機械学習の学習処理のために使用する教師データを構成する教師データ構成部と、教師データ構成部が構成した教師データを蓄積する蓄積部とを具備するデータ収集装置である。
【0006】
かかる構成により、機械学習の学習モデルを構築するための教師データを収集するためのプラットフォームを提供できる。
【0007】
また、本第二の発明のデータ収集装置は、第一の発明に対して、第一教師データ元情報は、教師データを構成する要素情報を含み、第二教師データ元情報は、要素情報を識別するラベルであり、ユーザが要素情報に対して入力したラベルであり、教師データは、要素情報とラベルとを含む、データ収集装置である。
【0008】
かかる構成により、要素情報から当該要素情報のラベルを予測するための学習モデルを構築するための教師データを収集するためのプラットフォームを提供できる。
【0009】
また、本第三の発明のデータ収集装置は、第一の発明に対して、第一教師データ元情報は、教師データを構成する要素情報を含み、第二教師データ元情報は、要素情報を変換した情報である変換情報であり、ユーザが要素情報に対して入力した変換情報であり、教師データは、要素情報と変換情報とを含む、データ収集装置である。
【0010】
かかる構成により、要素情報から当該要素情報を変換した変換情報を予測するための学習モデルを構築するための教師データを収集するためのプラットフォームを提供できる。
【0011】
また、本第四の発明のデータ収集装置は、第三の発明に対して、要素情報は、第一言語の用語または文であり、変換情報は、第二言語の用語または文である、データ収集装置である。
【0012】
かかる構成により、第一言語の要素情報から当該第二言語に翻訳した変換情報を予測するための学習モデルを構築するための教師データを収集するためのプラットフォームを提供できる。
【0013】
また、本第五の発明のデータ収集装置は、第一の発明に対して、第一教師データ元情報は、教師データを構成する要素情報を含み、第二教師データ元情報は、要素情報を説明する情報である説明情報であり、ユーザが要素情報に対して入力した説明情報であり、教師データは、要素情報と説明情報とを含む、データ収集装置である。
【0014】
かかる構成により、要素情報から当該要素情報を説明する説明情報を予測するための学習モデルを構築するための教師データを収集するためのプラットフォームを提供できる。
【0015】
また、本第六の発明のデータ収集装置は、第一の発明に対して、第一教師データ元情報は、ユーザが入力情報を入力することを支援するプログラムを含み、元情報受信部は、ユーザ端末でプログラムが実行された後に、ユーザが入力した入力情報を含む第二教師データ元情報を受信する、データ収集装置である。
【0016】
かかる構成により、入力情報を入力することを支援するプログラムもユーザに提供できる。
【0017】
また、本第七の発明のデータ収集装置は、第六の発明に対して、プログラムは、要素情報のラベルを予測する機械学習の予測プログラムであり、第一教師データ元情報は、教師データを構成する要素情報を含み、第二教師データ元情報は、要素情報に対して予測プログラムが実行され得られたラベルをユーザが修正したラベルを含み、教師データは、要素情報とラベルとを含む、データ収集装置である。
【0018】
かかる構成により、要素情報から当該要素情報のラベルを予測するための学習モデルを構築するための教師データを容易に収集するためのプラットフォームを提供できる。
【0019】
また、本第八の発明のデータ収集装置は、第六の発明に対して、プログラムは、要素情報を変換する変換プログラムであり、第一教師データ元情報は、教師データを構成する要素情報を含み、第二教師データ元情報は、要素情報に対して予測プログラムが実行され得られた変換情報をユーザが修正した変換情報を含み、教師データは、要素情報と変換情報とを含む、データ収集装置である。
【0020】
かかる構成により、要素情報から当該要素情報を変換した変換情報を予測するための学習モデルを構築するための教師データを容易に収集するためのプラットフォームを提供できる。
【0021】
また、本第九の発明のデータ収集装置は、第八の発明に対して、変換プログラムは、機械翻訳プログラムであり、要素情報は、第一言語の用語または文であり、変換情報は、第二言語の用語または文である、データ収集装置である。
【0022】
かかる構成により、第一言語の要素情報から当該第二言語に翻訳した変換情報を予測するための学習モデルを構築するための教師データを容易に収集するためのプラットフォームを提供できる。
【0023】
また、本第十の発明のデータ収集装置は、第六の発明に対して、プログラムは、要素情報の説明情報を予測する機械学習の予測プログラムであり、第一教師データ元情報は、教師データを構成する要素情報を含み、第二教師データ元情報は、要素情報に対して予測プログラムが実行され得られた説明情報をユーザが修正した説明情報を含み、教師データは、要素情報と説明情報とを含む、データ収集装置である。
【0024】
かかる構成により、要素情報から当該要素情報を説明する説明情報を予測するための学習モデルを構築するための教師データを容易に収集するためのプラットフォームを提供できる。
【0025】
また、本第十一の発明のデータ収集装置は、第六の発明に対して、プログラムは、教師データを構成する正例と負例とを取得することを支援するプログラムであり、第二教師データ元情報は、プログラムを用いて、ユーザ端末で取得された正例と負例である、データ収集装置である。
【0026】
かかる構成により、正例か負例かを判断するための機械学習の学習モデルを構築するための教師データを収集するためのプラットフォームを提供できる。
【0027】
また、本第十二の発明のデータ収集装置は、第一から第十一いずれか1つの発明に対して、元情報送信部は、2以上の各ユーザ端末に、同一の第一教師データ元情報を送信し、元情報受信部は、2以上の各ユーザ端末から、同一の第一教師データ元情報に対応する第二教師データ元情報を受信し、教師データ構成部は、元情報受信部が受信した2以上の各第二教師データ元情報に含まれる入力情報を用いて、予め決められたアルゴリズムにより、蓄積する教師データを構成する、データ収集装置である。
【0028】
かかる構成により、精度の高い学習モデルを構築するための教師データを収集するためのプラットフォームを提供できる。
【0029】
また、本第十三の発明のデータ収集装置は、第十二の発明に対して、教師データ構成部は、元情報受信部が受信した2以上の第二教師データ元情報に含まれる入力情報を合成し、合成入力情報を取得する合成手段と、第一教師データ元情報が有する要素情報と合成入力情報とを有する教師データ構成する教師データ構成手段とを具備するデータ収集装置である。
【0030】
かかる構成により、精度の高い学習モデルを構築するための教師データを収集するためのプラットフォームを提供できる。
【0031】
また、本第十四の発明のデータ収集装置は、第一から第十三いずれか1つの発明に対して、第一教師データ元情報は、データ属性値に対応付いており、ユーザごとに、1以上のユーザ属性値を含む1以上のユーザ情報が格納されるユーザ情報格納部と、データ属性値に対応するユーザ属性値を有する1以上のユーザ情報を決定するユーザ決定部とをさらに具備し、元情報送信部は、ユーザ決定部が決定した1以上の各ユーザ情報に対応するユーザ端末に第一教師データ元情報を送信する、データ収集装置である。
【0032】
かかる構成により、適切なユーザが入力した第二教師データ元情報を取得できる。
【0033】
また、本第十五の発明のデータ収集装置は、第一から第十四いずれか1つの発明に対して、元情報受信部が受信した第二教師データ元情報を、第二教師データ元情報を送信したユーザ端末とは異なるユーザ端末である他端末に送信する他端末送信部と、他端末から第二教師データ元情報に対する評価結果を受信する評価結果受信部と、評価結果が採用条件を満たすか否かを判断する判断部とをさらに具備し、教師データ構成部は、判断部が採用条件を満たすと判断した場合のみ、評価結果に対応する第二教師データ元情報を用いて、教師データを構成する、データ収集装置である。
【0034】
かかる構成により、精度の高い学習モデルを構築するための教師データを収集するためのプラットフォームを提供できる。
【0035】
また、本第十六の発明のデータ収集装置は、第十五の発明に対して、評価結果を用いて、評価結果に対応する第二教師データ元情報に対応するユーザに対する評価であるユーザ評価を取得するユーザ評価部と、ユーザ評価を出力するユーザ評価出力部とをさらに具備するデータ収集装置である。
【0036】
かかる構成により、第二教師データ元情報を提供するユーザを評価できる。
【0037】
また、本第十七の発明のデータ収集装置は、第一から第十六いずれか1つの発明に対して、ユーザ端末からの第二教師データ元情報の送信に応じた報酬を特定する報酬情報を取得する報酬取得部と、報酬情報をユーザ端末を使用するユーザに対応付けて蓄積する報酬蓄積部とをさらに具備するデータ収集装置である。
【0038】
かかる構成により、第二教師データ元情報を提供するユーザに報酬を与えられる。
【0039】
また、本第十八の発明のデータ収集装置は、第一から第十六いずれか1つの発明に対して、前記元情報受信部が前記ユーザ端末から第二教師データ元情報を受信した場合に、他のユーザ端末から受信されていた入力情報を前記ユーザ端末に送信する他端末送信部をさらに具備する、データ収集装置である。
【0040】
かかる構成により、入力情報を送信したユーザに、他の入力情報の正しさの確認のために他の入力情報を送信できる結果、他の入力情報に対するユーザの正当な評価が得られやすくなる。
【0041】
また、本第十九の発明のデータ収集装置は、第十八の発明に対して、前記他端末送信部が送信した入力情報に対する評価結果を前記ユーザ端末から受信する評価結果受信部と、前記入力情報に対応付けて、前記評価結果を蓄積し、当該評価結果に応じて、前記入力情報に対して異なる処理を行う処理部とをさらに具備する、データ収集装置である。
【0042】
かかる構成により、入力情報を送信したユーザに、他の入力情報の正しさの確認のために他の入力情報を送信できる結果、他の入力情報に対するユーザの正当な評価が得られやすくなる。
【0043】
また、本第二十の発明の学習装置は、第一から第十九いずれか1つの発明に対して、データ収集装置と、データ収集装置が蓄積した2以上の教師データを用いて、機械学習の学習処理を行い、学習モデルを取得し、学習モデルを蓄積する学習部を具備する学習装置である。
【0044】
かかる構成により、機械学習の学習モデルを容易に構築できる。
【0045】
また、本第十九の発明の予測装置は、第十八の発明に対して、要素情報を受け付ける受付部と、学習装置と、要素情報を受け付ける受付部と、学習装置が取得した学習モデルと受付部が受け付けた要素情報とを用いて、機械学習の予測処理を行い、入力情報を取得する予測部と、入力情報を出力する予測結果出力部とを具備する予測装置である。
【0046】
かかる構成により、容易に構築した学習モデルを用いて、機械学習の予測処理ができる。
【発明の効果】
【0047】
本発明によるデータ収集装置によれば、機械学習の学習モデルを構築するための教師データを収集するためのプラットフォームを提供することにより、大量の教師データが収集可能となる。
【図面の簡単な説明】
【0048】
【
図1】実施の形態1におけるデータ収集装置システムAの概念図
【
図4】同データ収集装置1の動作例について説明するフローチャート
【
図5】同ユーザ決定処理の例について説明するフローチャート
【
図6】同教師データ構成処理の例について説明するフローチャート
【
図7】同複数入力情報処理の例について説明するフローチャート
【
図8】同ユーザ端末2の動作例について説明するフローチャート
【
図15】実施の形態2における情報システムBの概念図
【
図17】上記実施の形態におけるコンピュータシステムの概観図
【発明を実施するための形態】
【0049】
以下、データ収集装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
【0050】
(実施の形態1)
本実施の形態において、2以上のユーザ端末に、教師データを構成するための第一教師データ元情報を送信し、当該2以上の各ユーザ端末から入力情報を含む第二教師データ元情報を受信し、当該第一教師データ元情報と第二教師データ元情報とを用いて、教師データを構成し、蓄積するデータ収集装置について説明する。
【0051】
また、本実施の形態において、2以上のユーザ端末2に同一の第一教師データ元情報を送信し、当該同一の第一教師データ元情報に対する第二教師データ元情報を2以上の各ユーザ端末から受信し、当該第一教師データ元情報と2以上の第二教師データ元情報とを用いて、教師データを構成し、蓄積するデータ収集装置について説明する。
【0052】
また、本実施の形態において、2以上のユーザ端末2から受信した第二教師データ元情報が有する入力情報を合成した合成入力情報を取得し、当該合成入力情報を有する教師データを構成し、蓄積するデータ収集装置について説明する。
【0053】
また、本実施の形態において、ユーザ端末ごとにユーザ属性値(例えば、英語が専門であること)を管理しており、当該ユーザ属性値を用いて、第一教師データ元情報を送信するユーザ端末を決定するデータ収集装置について説明する。
【0054】
また、本実施の形態において、ユーザ端末から受信された第二教師データ元情報を、他のユーザ端末に送信し、当該他のユーザ端末からの評価結果を受信し、当該評価結果が採用条件を満たす場合のみ、当該第二教師データ元情報を採用して、教師データを構成するデータ収集装置について説明する。
【0055】
また、本実施の形態において、上記の評価結果を用いて、第二教師データ元情報を送信したユーザを評価できるデータ収集装置について説明する。
【0056】
さらに、本実施の形態において、第二教師データ元情報の送信に対する報酬を、ユーザに与えることができるデータ収集装置について説明する。
【0057】
なお、本明細書において、情報Xが情報Yに対応付いていることは、情報Xから情報Yを取得できること、または情報Yから情報Xを取得できることであり、その対応付けの方法は問わない。情報Xと情報Yとがリンク付いていても良いし、同じバッファに存在していても良いし、情報Xが情報Yに含まれていても良いし、情報Yが情報Xに含まれている等でも良い。
【0058】
図1は、本実施の形態におけるデータ収集装置システムAの概念図である。データ収集装置システムAは、データ収集装置1、および1または2以上のユーザ端末2を備える。
【0059】
データ収集装置1は、教師データを収集するためのサーバである。データ収集装置1は、例えば、いわゆるサーバであり、例えば、クラウドサーバ、ASPサーバ等である。
【0060】
ユーザ端末2は、ユーザが使用する端末である。ユーザは、ここでは、教師データを作成するための作業を行う者である。ユーザは、後述する入力情報を提供する者である。ユーザ端末2は、第一教師データ元情報を受信し、第二教師データ元情報を送信する端末である。ユーザ端末2は、例えば、いわゆるパーソナルコンピュータ、タブレット端末、スマートフォン等であり、その種類は問わない。
【0061】
データ収集装置1と1または2以上の各ユーザ端末2とは、インターネットやLAN等のネットワークにより通信可能である。
【0062】
図2は、本実施の形態におけるデータ収集装置システムAのブロック図である。
図3は、データ収集装置1のブロック図である
【0063】
データ収集装置1は、格納部11、受信部12、処理部13、および送信部14を備える。格納部11は、ユーザ情報格納部111、元情報格納部112、および教師データ格納部113を備える。受信部12は、元情報受信部121、および評価結果受信部122を備える。処理部13は、ユーザ決定部131、判断部132、教師データ構成部133、蓄積部134、報酬取得部135、報酬蓄積部136、ユーザ評価部137、およびユーザ評価出力部138を備える。教師データ構成部133は、合成手段1331、および教師データ構成手段1332を備える。送信部14は、元情報送信部141、および他端末送信部142を備える。
【0064】
ユーザ端末2は、端末格納部21、端末受付部22、端末処理部23、端末送信部24、端末受信部25、および端末出力部26を備える。
【0065】
データ収集装置1を構成する格納部11には、各種の情報が格納される。各種の情報とは、例えば、後述するユーザ情報、後述する第一教師データ元情報、後述する教師データ、各種のプログラムである。
【0066】
各種のプログラムは、ユーザ端末2で実行されるプログラムである。各種のプログラムは、例えば、要素情報を用いるプログラムである。各種のプログラムは、例えば、要素情報に対して、予め決められた処理を行うプログラムである。各種のプログラムは、例えば、機械学習の予測プログラム、機械翻訳プログラム、音声合成プログラム、音声認識プログラムである。
【0067】
ユーザ情報格納部111には、1または2以上のユーザ情報が格納される。ユーザ情報は、ユーザに関する情報である。ユーザ情報は、例えば、ユーザ識別子、1または2以上のユーザ属性値を有する。ユーザ識別子とは、ユーザを識別する情報である。ユーザ識別子は、例えば、ユーザID、電話番号、メールアドレス、ユーザ端末識別子である。ユーザ端末識別子とは、ユーザ端末2を識別する情報である。ユーザ端末識別子は、例えば、ユーザ端末2と通信するための情報である送信先情報である。ユーザ端末識別子は、例えば、ユーザ端末2のIPアドレス、MACアドレス、電話番号である。ユーザ属性値は、ユーザの特性と言っても良い。ユーザ属性値は、例えば、専門識別子、使用言語である。専門識別子とは、ユーザの専門を特定する情報である。専門識別子は、例えば、日英翻訳(例えば、「1」)、日中翻訳(例えば、「2」)、英日翻訳(例えば、「3」)である。使用言語とは、ユーザが使用している言語である。使用言語は、例えば、日本語、英語、中国語である。ユーザ属性値は、例えば、後述する報酬情報、後述するユーザ評価である。
【0068】
元情報格納部112には、1または2以上の第一教師データ元情報が格納される。第一教師データ元情報とは、教師データを構成する元になる情報である。教師データとは、機械学習の学習処理により学習モデルを構築するための情報である。
【0069】
第一教師データ元情報には、例えば、検査フラグ、複数人フラグ、合成フラグが対応づいていても良い。検査フラグとは、受信された第二教師データ元情報を他のユーザにより検査することを示す情報である。複数人フラグとは、複数人に第一教師データ元情報を送信することを示す情報である。合成フラグとは、複数のユーザ端末2から受信された第二教師データ元情報に含まれる入力情報を合成して、合成入力情報を構成することを示す情報である。
【0070】
なお、学習モデルとは、機械学習の学習処理により構成された情報であり、機械学習の予測処理に使用される情報である。学習モデルは、学習器、分類器、分類モデル等と言っても良い。学習モデルを構築したり、学習モデルを用いて予測処理したりする機械学習のアルゴリズムは、深層学習、ランダムフォレスト、決定木、SVM、SVR等、問わない。また、機械学習には、例えば、TensorFlowのライブラリ、R言語のrandom forestのモジュール、fastText、TinySVM等の各種の機械学習の関数や、種々の既存のライブラリを用いることができる。
【0071】
第一教師データ元情報は、通常、要素情報を含む。要素情報は、教師データを構成する情報である。要素情報は、通常、教師データを構成する説明変数となる情報であるが、教師データを構成する目的変数となる情報でも良い。要素情報は、例えば、画像、映像(動画)、音情報、文字列である。要素情報は、例えば、分類を示すラベルが付されるべき情報(例えば、画像、映像)である。なお、ラベルは、要素情報を識別する情報である。ラベルは、通常、1または2以上の用語である。要素情報は、例えば、翻訳対象の用語、翻訳対象の1または2以上の文である。用語は、1または2以上の単語の集合である。要素情報は、例えば、説明される対象の情報(例えば、画像、映像)である。要素情報は、例えば、音声認識される対象の音情報(音声データ)である。要素情報は、例えば、音声合成される対象の文字列である。
【0072】
第一教師データ元情報は、ユーザが入力情報を入力することを支援するプログラムを含むことは好適である。入力情報を入力することを支援するプログラムは、例えば、要素情報を用いて、入力情報を予測する機械学習の予測プログラム、第一言語の要素情報を機械翻訳し、第二言語の入力情報の案を出力する機械翻訳プログラム、文字列である要素情報を音声合成し、音声データの案を出力する音声合成プログラム、音声データである要素情報に対して、音声認識処理を行い、文字列の案を出力する音声認識プログラムである。
【0073】
第一教師データ元情報は、データ属性値に対応付いていることは好適である。データ属性値とは、第一教師データ元情報の属性値、または第一教師データ元情報が含む要素情報の属性値である。データ属性値は、例えば、翻訳対象の要素情報の第一言語を示す情報(例えば、「英語」「日本語」)、第一言語と第二言語とを示す情報(例えば、「日→英」、「中→日」)である。
【0074】
第一教師データ元情報には、第二教師データ元情報を送信したユーザに与える報酬を算出する元になる報酬元情報が対応付いていることは好適である。報酬元情報とは、報酬情報を取得する元になる情報である。報酬元情報は、例えば、入力情報を送信する場合の単価、1つの第二教師データ元情報に対する報酬金額、1つの第二教師データ元情報に対して与えるポイント数である。
【0075】
教師データ格納部113には、1または2以上の教師データが格納される。ここでの教師データは、教師データ構成部133が構成したデータである。ここでの教師データは、そのまま学習モジュールに与えられるデータ構造であることは好適であるが、そのまま学習モジュールに与えられるデータ構造でなくても良い。ここでの教師データは、そのまま学習モジュールに与えられるデータ構造の教師データに含まれるすべての情報を有することは好適である。
【0076】
教師データは、例えば、要素情報と入力情報とを含む。教師データは、例えば、要素情報と入力情報であるラベルとを含む。ラベルとは、要素情報(例えば、動物を撮影した画像)を識別する情報(例えば、「犬」「猫」「秋田犬」)である。教師データは、例えば、要素情報(例えば、第一言語の文)と変換情報(例えば、第一言語の文を第二言語に翻訳した文)とを含む。教師データは、例えば、要素情報(例えば、画像、映像)と説明情報(例えば、画像について説明する文、映像について説明する文)とを含む。
【0077】
受信部12は、各種の情報を受信する。各種の情報とは、例えば、後述する第二教師データ元情報、後述する評価結果である。
【0078】
元情報受信部121は、1または2以上の各ユーザ端末2から第二教師データ元情報を受信する。かかるユーザ端末2は、後述する元情報送信部141が第一教師データ元情報を送信した端末である。
【0079】
第二教師データ元情報とは、教師データを構成する元になる情報である。第二教師データ元情報は入力情報を含む。第二教師データ元情報は入力情報でも良い。入力情報とは、ユーザ端末2で処理された第一教師データ元情報に対してユーザが入力した情報である。入力情報は、要素情報に対して、第一教師データ元情報が有するプログラムが処理し、出力された情報そのもの(例えば、機械翻訳結果)でも良いし、当該プログラムが処理し、出力された情報に対して、ユーザが修正した情報でも良い。ユーザが入力した情報とは、ユーザのユーザ端末2に対する操作により取得されて情報である。ユーザが入力した情報は、ユーザが手入力した情報でも良いし、ユーザが撮影した画像や映像であり、ユーザ端末2に取り込まれた画像や映像でも良いし、ユーザが発声した音声データであり、ユーザ端末2に取り込まれた音声データでも良い。ユーザが入力した情報は、ユーザの何らかの操作により、ユーザ端末2に存在するに至った情報であれば良い。
【0080】
第一教師データ元情報に対する処理とは、例えば、第一教師データ元情報の全部または一部(例えば、入力情報)を表示すること、第一教師データ元情報の全部または一部に対して変換処理を行うこと、第一教師データ元情報と図示しない学習モデルを用いて機械学習の予測処理を行い、予測結果を取得することである。なお、変換処理を行うプログラム、機械学習の予測処理を行うプログラムは、ユーザ端末2に送信される第一教師データ元情報に含まれていることは好適である。
【0081】
元情報受信部121は、通常、第二教師データ元情報を、第一教師データ元情報に対応付く態様でユーザ端末2から受信する。第一教師データ元情報に対応付く態様とは、例えば、第二教師データ元情報が第一教師データ元情報識別子を有することである。第一教師データ元情報に対応付く態様とは、例えば、第二教師データ元情報が要素情報を含むことである。なお、第一教師データ元情報識別子とは、第一教師データ元情報を識別する情報である。第一教師データ元情報を識別する情報は、第一教師データ元情報に含まれる要素情報を識別する情報でも良い。
【0082】
元情報受信部121は、例えば、ユーザ端末2でプログラムが実行された後に、ユーザが入力した入力情報を含む第二教師データ元情報を受信する。なお、ここでのプログラムは、例えば、要素情報を分類する機械学習の予測プログラムである。ここでのプログラムは、例えば、要素情報を分類する機械学習の予測プログラムと予測処理に用いる学習モデルである。ここでのプログラムは、例えば、要素情報を機械翻訳する機械翻訳のプログラムである。ここでのプログラムは、例えば、要素情報の説明情報を生成する機械学習の予測プログラムである。ここでのプログラムは、例えば、要素情報の説明情報を生成する機械学習の予測プログラムと予測処理に用いる学習モデルである。ここでのプログラムは、例えば、文字列である要素情報に対して音声合成処理を行うプログラムである。ここでのプログラムは、例えば、音声データである要素情報に対して音声認識処理を行うプログラムである。なお、プログラムの種類は問わない。
【0083】
元情報受信部121は、2以上の各ユーザ端末から、同一の第一教師データ元情報に対応する第二教師データ元情報を受信することは好適である。
【0084】
第二教師データ元情報は、例えば、要素情報を識別するラベルであり、ユーザが要素情報に対して入力したラベルを含む。第二教師データ元情報は、例えば、要素情報を変換した情報である変換情報であり、ユーザが要素情報に対して入力した変換情報を含む。第二教師データ元情報は、例えば、要素情報を説明する情報である説明情報であり、ユーザが要素情報に対して入力した説明情報を含む。
【0085】
第二教師データ元情報とは、例えば、要素情報に対して予測プログラムが実行され得られたラベルをユーザが修正したラベルを含む。第二教師データ元情報とは、例えば、要素情報に対して予測プログラムが実行され得られた変換情報をユーザが修正した変換情報を含む。第二教師データ元情報とは、例えば、要素情報に対して予測プログラムが実行され得られた説明情報をユーザが修正した説明情報を含む。
【0086】
第二教師データ元情報とは、例えば、プログラムを用いて、ユーザ端末2で取得された正例と負例である。なお、かかるプログラムは、正例と負例とを入力できるプログラムである。かかるプログラムは、正例と負例とを入力し、当該正例と負例とを含む第二教師データ元情報をデータ収集装置1に送信するプログラムである。なお、正例と負例との入力は、画像または映像の撮影でも良いし、文字列の入力でも良いし、音声データの取り込みでも良い。
【0087】
上述のプログラムは、例えば、要素情報のラベルを予測する機械学習の予測プログラム、要素情報を変換する変換プログラム、要素情報の説明情報を予測する機械学習の予測プログラム、教師データを構成する正例と負例とを取得することを支援するプログラムである。
【0088】
なお、正例は、識別したい対象の情報であり、例えば、ひび割れた壁の写真、クラックがある建造物の写真である。また、負例は、正例ではない情報であり、例えば、ひび割れていない壁の写真、クラックがない建造物の写真である。ただし、正例、負例のデータタイプ、内容等は問わない。なお、正例と負例とは逆でも良い。
【0089】
評価結果受信部122は、他端末から第二教師データ元情報に対する評価結果を受信する。なお、他端末とは、第二教師データ元情報を送信したユーザ端末2ではないユーザ端末2である。他端末とは、第二教師データ元情報を評価するユーザが使用するユーザ端末2である。
【0090】
評価結果受信部122は、他端末送信部142がユーザ端末2に送信した入力情報に対する評価結果を当該ユーザ端末2から受信しても良い。なお、かかるユーザ端末2は、当該入力情報を送信したユーザ端末2ではない。
【0091】
評価結果とは、第二教師データ元情報または第二教師データ元情報が有する入力情報に対する評価の結果を示す情報である。評価結果は、例えば、第二教師データ元情報または第二教師データ元情報が有する入力情報が正しいことを示す情報(例えば、真「1」)、第二教師データ元情報または第二教師データ元情報が有する入力情報が間違っていることを示す情報(例えば、偽「0」)、ユーザが入力した正しい入力情報である。
【0092】
処理部13は、各種の処理を行う。各種の処理とは、例えば、ユーザ決定部131、判断部132、教師データ構成部133、蓄積部134、報酬取得部135、報酬蓄積部136、ユーザ評価部137、ユーザ評価出力部138が行う処理である。
【0093】
処理部13は、送信部14が送信した入力情報に対応付けて、受信部12が受信した評価結果を蓄積する。そして、処理部13は、蓄積した1または2以上の評価結果に応じて、当該評価結果に対応する入力情報に対して異なる処理を行う。
【0094】
なお、異なる処理の内容は問わない。例えば、「正しい」との評価結果であれば、教師データとして採用し、「正しくない」との評価結果であれば、教師データとして採用しない。また、一の入力情報に対して、2以上の評価結果が存在する場合、当該2以上の評価結果の統計処理の結果が条件を満たす場合(例えば、「正しい」との評価結果の数または割合が閾値以上または閾値より多い場合)は教師データとして採用し、条件を満たさない場合(例えば、「正しくない」との評価結果の数または割合が閾値以上または閾値より多い場合)は教師データとして採用しない。
【0095】
また、教師データとして採用することは、例えば、教師データ格納部113に蓄積すること、学習モデルを構成する際に使用することである。教師データとして採用しないことは、例えば、教師データ格納部113に蓄積しないこと、学習モデルを構成する際に使用しないことである。
【0096】
また、例えば、「正しい」との評価結果であれば、他のユーザ端末2に入力情報を送信せず、「正しくない」との評価結果であれば、さらに別のユーザ端末2に入力情報を送信する。また、一の入力情報に対して、2以上の評価結果が存在する場合、当該2以上の評価結果の統計処理の結果が条件を満たす場合(例えば、「正しい」との評価結果の数または割合が閾値以上または閾値より多い場合)は、他のユーザ端末2に入力情報を送信せず、条件を満たさない場合(例えば、「正しくない」との評価結果の数または割合が閾値以上または閾値より多い場合)はさらに別のユーザ端末2に入力情報を送信する。
【0097】
ユーザ決定部131は、第一教師データ元情報を送信するユーザ端末2を決定する。ユーザ端末2を決定することは、例えば、ユーザ識別子を取得すること、送信先情報を取得することである。ユーザ端末2を決定することは、第一教師データ元情報を送信するユーザ端末2が決定できる処理であれば良い。
【0098】
ユーザ決定部131は、例えば、作業条件に合致する1以上のユーザ情報を決定する。なお、作業条件とは、第一教師データ元情報に対する入力情報を送信する作業を行えるための条件である。作業条件は、1以上のデータ属性値が、第一教師データ元情報と対になる1または2以上の各データ属性値を満足することである。ユーザ決定部131は、例えば、第一教師データ元情報と対になる1または2以上の各データ属性値を元情報格納部112から取得し、当該1以上のデータ属性値に対応するユーザ属性値を有する1以上のユーザ情報を決定する。例えば、データ属性値が「英語」である場合(例えば、翻訳する対象の第一言語が「英語」である場合)、ユーザ決定部131は、ユーザ属性値のうちの「専門」が「英日翻訳」であるユーザ属性値に対応するユーザ識別子をユーザ情報格納部111から取得する。
【0099】
ユーザ決定部131は、例えば、第一教師データ元情報を送信する候補のユーザ端末2から、ランダムに1または2以上のユーザ端末2を決定する。
【0100】
判断部132は、評価結果受信部122が受信した評価結果が採用条件を満たすか否かを判断する。採用条件とは、元情報受信部121が受信した第二教師データ元情報を採用して教師データを構成するための条件である。採用条件は、第二教師データ元情報が有する入力情報が正しいことを示す条件である。採用条件は、例えば、評価結果が「正しいことを示す情報」であること、評価結果に含まれる修正された入力情報が「NULL」であることである。
【0101】
教師データ構成部133は、元情報送信部141が送信した第一教師データ元情報と元情報受信部121が受信した第二教師データ元情報とを用いて、機械学習の学習処理のために使用する教師データを構成する。第一教師データ元情報と第二教師データ元情報とを用いて教師データを構成することは、第一教師データ元情報の一部と第二教師データ元情報の一部とを用いて教師データを構成することも含むと考えても良い。
【0102】
教師データ構成部133は、例えば、第一教師データ元情報に含まれる要素情報と第二教師データ元情報に含まれる入力情報とを用いて、教師データを構成する。教師データ構成部133は、例えば、第一教師データ元情報に含まれる要素情報を説明変数とし、教師データ元情報に含まれる入力情報を目的変数とする教師データを構成する。教師データ構成部133は、例えば、第一教師データ元情報に含まれる要素情報を目的変数とし、教師データ元情報に含まれる入力情報を説明変数とする教師データを構成する。なお、教師データのデータ構造は問わない。教師データは、例えば、要素情報と入力情報とを要素とするベクトルである。
【0103】
教師データ構成部133は、元情報受信部121が受信した2以上の各第二教師データ元情報に含まれる入力情報を用いて、予め決められたアルゴリズムにより、蓄積する教師データを構成する。なお、ここで、教師データは、通常、一つである。
【0104】
予め決められたアルゴリズムとは、例えば、多数決である。つまり、元情報受信部121が受信した2以上の各第二教師データ元情報に含まれる入力情報が全て同じ情報でない場合、教師データ構成部133は、最も頻度が高い入力情報を、教師データを構成する際に使用する入力情報として決定する。また、予め決められたアルゴリズムとは、例えば、後述する合成である。
【0105】
教師データ構成部133は、判断部132が採用条件を満たすと判断した場合のみ、評価結果に対応する第二教師データ元情報を用いて、教師データを構成することは好適である。
【0106】
教師データ構成部133を構成する合成手段1331は、元情報受信部121が受信した2以上の第二教師データ元情報に含まれる入力情報を合成し、合成入力情報を取得する。なお、合成とは、元情報受信部121が受信した2以上の第二教師データ元情報のうちの2以上の各第二教師データ元情報の全部または一部を有する合成入力情報を取得することである。
【0107】
合成手段1331は、例えば、元情報受信部121が受信した2以上の各第二教師データ元情報に含まれる入力情報(例えば、画像を識別するラベル)をすべて含む情報を、教師データを構成する際に使用する入力情報として決定する。なお、かかるすべて含む情報は、合成入力情報である。
【0108】
合成手段1331は、例えば、元情報受信部121が受信した2以上の各第二教師データ元情報に含まれる入力情報(例えば、画像を識別するラベル)に対して、ユニーク処理した結果の情報をすべて含む情報を、合成入力情報として取得する。かかる場合、合成入力情報から重複する情報(例えば、重複するラベル)は除かれる。
【0109】
教師データ構成手段1332は、例えば、第一教師データ元情報が有する要素情報と合成手段1331が取得した合成入力情報とを有する教師データ構成する。
【0110】
蓄積部134は、教師データ構成部133が構成した教師データを蓄積する。蓄積部134は、例えば、教師データを教師データ格納部113に蓄積する。
【0111】
蓄積部134は、入力情報に対応付けて、評価結果受信部122が受信した評価結果を蓄積しても良い。かかる評価結果は、対応付く入力情報に対する評価結果である。
【0112】
報酬取得部135は、ユーザ端末2からの第二教師データ元情報の送信に応じた報酬を特定する報酬情報を取得する。報酬取得部135は、通常、ユーザ端末2に対応するユーザに対応付けて、報酬情報を取得する。報酬取得部135は、例えば、第二教師データ元情報が受信された場合に、当該第二教師データ元情報に対応する第一教師データ元情報と対になる報酬元情報を元情報格納部112から取得し、当該報酬元情報を用いて、報酬情報(例えば、報酬金額、報酬のポイント数)を取得する。
【0113】
第一教師データ元情報に応じて、報酬が異なることは好適である。例えば、要素情報である画像に対して、ラベルである入力情報を送信した場合より、要素情報である画像に対して、説明情報である入力情報を送信した場合の方が高額の報酬となる。報酬取得部135は、第二教師データ元情報の数が多いほど、大きな報酬となる報酬情報を取得することは好適である。報酬取得部135は、第二教師データ元情報に対する評価結果が高い(良好である)ほど、大きな報酬となる報酬情報を取得することは好適である。
【0114】
報酬蓄積部136は、報酬取得部135が取得した報酬情報を、第二教師データ元情報を送信したユーザ端末2を使用するユーザに対応付けて蓄積する。報酬蓄積部136は、例えば、報酬取得部135が取得した報酬情報を、第二教師データ元情報を送信したユーザ端末2に対応するユーザ識別子と対にして、ユーザ情報格納部111に蓄積する。なお、報酬情報の蓄積は、例えば、当該ユーザ識別子と対にして格納されている報酬情報に、報酬取得部135が取得した報酬情報を加算した新たな報酬情報を蓄積することである。
【0115】
ユーザ評価部137は、評価結果受信部122が受信した1または2以上の評価結果を用いて、当該評価結果に対応する第二教師データ元情報に対応するユーザ(入力情報を作成したユーザ)に対する評価であるユーザ評価を取得する。
【0116】
ユーザ評価部137は、例えば、「入力情報が間違っていることを示す情報」である評価結果の数が多いほど、当該入力情報に対応するユーザの評価が低くなるユーザ評価を取得する。
【0117】
ユーザ評価出力部138は、ユーザ評価部137が取得したユーザ評価を出力する。ここで、出力とは、記録媒体への蓄積、外部の装置への送信、他の処理装置や他のプログラムなどへの処理結果の引渡しであるが、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、音出力などを含む概念であっても良い。
【0118】
ユーザ評価出力部138は、例えば、ユーザ評価部137が取得したユーザ評価を、当該ユーザ評価に対応する入力情報に対応するユーザ識別子と対にして、ユーザ情報格納部111に蓄積する。ユーザ評価出力部138は、例えば、ユーザ評価部137が取得したユーザ評価を当該ユーザのユーザ端末2に送信する。
【0119】
送信部14は、各種の情報を送信する。各種の情報は、例えば、第一教師データ元情報、第二教師データ元情報である。
【0120】
元情報送信部141は、教師データの元になる第一教師データ元情報をユーザ端末2に送信する。元情報送信部141は、通常、教師データの元になる第一教師データ元情報を2以上の各ユーザ端末に送信する。元情報送信部141は、2以上の各ユーザ端末に、同一の第一教師データ元情報を送信することは好適である。元情報送信部141は、ユーザ決定部131が決定した1以上の各ユーザ情報に対応するユーザ端末2に第一教師データ元情報を送信することは好適である。
【0121】
他端末送信部142は、元情報受信部121が受信した第二教師データ元情報を、当該第二教師データ元情報を送信したユーザ端末2とは異なるユーザ端末2である他端末に送信する。
【0122】
他端末送信部142は、元情報受信部121が第二教師データ元情報をユーザ端末2から受信したことに応じて、当該第二教師データ元情報に含まれる入力情報とは異なる入力情報であり、当該ユーザ端末2とは異なる他のユーザ端末2から受信された入力情報を、当該第二教師データ元情報を送信してきたユーザ端末2に送信することは好適である。かかることにより、第二教師データ元情報を送信したユーザに、すぐに他の入力情報を評価してもらえる。つまり、当該ユーザの判断の感覚が鈍らないタイミングで、他の入力情報を評価してもらえ、入力情報の精度の向上、入力情報(ラベリング)の揺らぎを少なくする等の効果がある。
【0123】
他端末送信部142は、検査条件に合致する第二教師データ元情報のみを、他端末に送信しても良い。
【0124】
なお、検査条件とは、第二教師データ元情報を検査する条件である。検査条件は、例えば、元情報送信部141が送信した第一教師データ元情報に、第二教師データ元情報を検査することを示す検査フラグが対応付いていることである。検査条件は、例えば、ユーザ評価が閾値以下または閾値より小さい(低い評価の)ユーザのユーザ端末2から受信された第二教師データ元情報であることである。ただし、検査条件は問わない。
【0125】
ユーザ端末2を構成する端末格納部21には、各種の情報が格納される。各種の情報とは、例えば、ユーザ識別子、第一教師データ元情報、第二教師データ元情報、各種のプログラムである。
【0126】
端末受付部22は、各種の情報や指示等を受け付ける。各種の情報や指示等とは、例えば、入力情報、ユーザの操作、出力された入力情報(第二教師データ元情報)に対する評価結果、出力された入力情報に対する修正、第二送信指示である。なお、出力された入力情報は、プログラムが自動取得した入力情報の候補の情報であり、ユーザにより修正される可能性のある情報である。また、出力された入力情報に対する修正は、入力情報である。
【0127】
第二送信指示とは、入力情報を有する第二教師データ元情報を、データ収集装置1に送信する指示である。
【0128】
なお、各種の情報や指示等の入力手段は、タッチパネルやキーボードやマウスやメニュー画面によるもの等、何でも良い。
【0129】
端末処理部23は、各種の処理を行う。各種の処理は、例えば、受け付けられた情報や指示等を、送信する構造の情報や指示等にする処理である。各種の処理は、例えば、受信された情報を出力する構造の情報にする処理である。
【0130】
端末処理部23は、例えば、受信された第一教師データ元情報が有する要素情報を出力する。
【0131】
端末処理部23は、例えば、受信された第一教師データ元情報が有するプログラムを実行する。なお、プログラムを実行することは、プログラムをインストールした後に実行することも含む、とする。
【0132】
端末処理部23は、例えば、受信された第一教師データ元情報が有する要素情報に対して、機械学習の予測プログラムを実行し、予測されたラベルを取得する。
【0133】
端末処理部23は、例えば、受信された第一教師データ元情報が有する要素情報に対して、変換プログラムを実行し、予測された変換情報を取得する。
【0134】
端末処理部23は、例えば、受信された第一教師データ元情報が有する要素情報に対して、機械翻訳プログラムを実行し、予測された翻訳結果を取得する。
【0135】
端末処理部23は、例えば、受信された第一教師データ元情報が有する要素情報(音声データ)に対して、音声認識プログラムを実行し、予測された音声認識結果の文字列を取得する。
【0136】
端末処理部23は、例えば、受信された第一教師データ元情報が有する要素情報(文字列)に対して、音声合成プログラムを実行し、予測された音声データを取得する。
【0137】
端末処理部23は、例えば、受信された第一教師データ元情報が有する要素情報に対して、機械学習の予測プログラムを実行し、予測された説明情報を取得する。
【0138】
端末処理部23は、例えば、受信された第一教師データ元情報が有するプログラムを実行し、正例と負例とを入力するための入力画面を出力する。
【0139】
端末処理部23は、例えば、端末受付部22が受け付けたユーザの操作に応じて、写真を撮影し、画像を取得する。なお、かかる画像は、正例または負例である。
【0140】
端末送信部24は、各種の情報や指示等をデータ収集装置1に送信する。各種の情報や指示等は、例えば、第二教師データ元情報である。
【0141】
端末受信部25は、各種の情報をデータ収集装置1から受信する。各種の情報は、例えば、第一教師データ元情報、第二教師データ元情報、検査情報である。
【0142】
端末出力部26は、各種の情報を出力する。各種の情報は、例えば、第一教師データ元情報、第二教師データ元情報である。
【0143】
格納部11、ユーザ情報格納部111、元情報格納部112、教師データ格納部113、学習モデル格納部31、および端末格納部21は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
【0144】
格納部11等に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部11等で記憶されるようになってもよく、通信回線等を介して送信された情報が格納部11等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部11等で記憶されるようになってもよい。
【0145】
受信部12、元情報受信部121、評価結果受信部122、および端末受信部25は、通常、無線または有線の通信手段で実現されるが、放送を受信する手段で実現されても良い。
【0146】
処理部13、ユーザ決定部131、判断部132、教師データ構成部133、蓄積部134、報酬取得部135、報酬蓄積部136、ユーザ評価部137、ユーザ評価出力部138、合成手段1331、教師データ構成手段1332、および端末処理部23は、通常、プロセッサやメモリ等から実現され得る。処理部13等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。なお、プロセッサは、CPU、MPU、GPU等であり、その種類は問わない。
【0147】
送信部14、元情報送信部141、他端末送信部142、および端末送信部24は、通常、無線または有線の通信手段で実現されるが、放送手段で実現されても良い。
【0148】
端末受付部22は、タッチパネルやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
【0149】
端末出力部26は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。端末出力部26は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
【0150】
次に、データ収集装置システムAの動作例について説明する。まず、データ収集装置1の動作例について、
図4のフローチャートを用いて説明する。
【0151】
(ステップS401)データ収集装置1は、第一教師データ元情報を送信する指示である第一送信指示を受け付けたか否かを判断する。第一送信指示を受け付けた場合はステップS402に行き、第一送信指示を受け付けなかった場合はステップS408に行く。なお、第一送信指示の受け付けは、例えば、図示しない管理者の端末からの第一送信指示の受信、予め決まられた時刻になってことである。ただし、第一教師データ元情報を送信するためのトリガーは問わない。
【0152】
(ステップS402)処理部13は、教師データを作成する対象の第一教師データ元情報であり、第一送信指示に対応する第一教師データ元情報を、元情報格納部112から取得する。
【0153】
(ステップS403)ユーザ決定部131は、ユーザ決定処理を行う。ユーザ決定処理の例について、
図5のフローチャートを用いて説明する。なお、ユーザ決定処理とは、第一教師データ元情報を送信する1または2以上のユーザ端末2を決定する処理である。
【0154】
(ステップS404)元情報送信部141は、カウンタiに1を代入する。
【0155】
(ステップS405)元情報送信部141は、ステップS403で決定されたユーザ端末2のうちで、i番目のユーザ端末2が存在するか否かを判断する。i番目のユーザ端末2が存在する場合はステップS406に行き、存在しない場合はステップS401に戻る。
【0156】
(ステップS406)元情報送信部141は、i番目のユーザ端末2に対応する送信先情報(例えば、IPアドレス、MACアドレス、メールアドレス、電話番号)をユーザ情報格納部111から取得する。次に、元情報送信部141は、当該送信先情報が示す送信先に、ステップS402で取得された第一教師データ元情報を送信する。なお、送信される第一教師データ元情報は、第一教師データ元情報識別子を有することは好適である。
【0157】
(ステップS407)元情報送信部141は、カウンタiを1、インクリメントする。ステップS405に戻る。
【0158】
(ステップS408)元情報受信部121は、ユーザ端末2から第二教師データ元情報を受信したか否かを判断する。第二教師データ元情報を受信した場合はステップS409に行き、受信しなかった場合はステップS418に行く。
【0159】
(ステップS409)判断部132は、ステップS408で受信された第二教師データ元情報が検査条件に合致するか否かを判断する。検査条件に合致する場合はステップS416に行き、検査条件に合致しない場合はステップS410に行く。
【0160】
(ステップS410)教師データ構成部133は、ステップS408で受信された第二教師データ元情報を用いて、教師データ構成処理を行う。教師データ構成処理の例について、
図6のフローチャートを用いて説明する。
【0161】
(ステップS411)蓄積部134は、ステップS410で教師データが構成されたか否かを判断する。教師データが構成された場合はステップS412に行き、教師データが構成されなかった場合はステップS413に行く。
【0162】
(ステップS412)蓄積部134は、ステップS410で構成された教師データを教師データ格納部113に蓄積する。ステップS414に行く。ここで、蓄積部134は、教師データの元になった第一教師データ元情報に対応付けて、教師データを蓄積することは好適である。
【0163】
(ステップS413)蓄積部134は、ステップS408で受信された第二教師データ元情報が有する入力情報を、受信されたステップS408で受信された第二教師データ元情報に対応する第一教師データ元情報に対応付けて、図示しないバッファに蓄積する。
【0164】
(ステップS414)報酬取得部135は、ステップS408における第二教師データ元情報の受信に応じて、当該第二教師データ元情報を送信したユーザ端末2のユーザに対する報酬情報を取得する。
【0165】
(ステップS415)報酬蓄積部136は、ステップS414で取得された報酬情報を、当該第二教師データ元情報を送信したユーザ端末2のユーザのユーザ識別子に対応付けて、ユーザ情報格納部111に蓄積する。ステップS401に戻る。
【0166】
(ステップS416)処理部13は、ステップS408で受信された第二教師データ元情報を用いて、他端末に送信する検査情報を構成する。なお、検査情報は、例えば、第二教師データ元情報を有する。検査情報は、例えば、第一教師データ元情報が有する要素情報を有する。検査情報は、例えば、要素情報と入力情報とを有する。
【0167】
(ステップS417)他端末送信部142は、検査情報を送信する他端末の送信先情報をユーザ情報格納部111から取得する。次に、他端末送信部142は、検査情報を、当該送信先情報が示す送信先に送信する。ステップS401に戻る。
【0168】
なお、取得される送信先情報は、検査者として予め決まっているユーザ(例えば、管理者、評価が高い一部のユーザ)の送信先情報でも良いし、ランダムに決定したユーザの送信先情報等でも良い。
【0169】
(ステップS418)評価結果受信部122は、ユーザ端末2から評価結果を受信したか否かを判断する。評価結果を受信した場合はステップS419に行き、評価結果を受信しなかった場合はステップS401に戻る。なお、受信される評価結果は、第二教師データ元情報に対応付いている。
【0170】
(ステップS419)判断部132は、ステップS418で受信された評価結果が採用条件を満たすか否かを判断する。採用条件を満たす場合はステップS410に行き、採用条件を満たさない場合はステップS420に行く。
【0171】
(ステップS420)教師データ構成部133は、ステップS418で受信された評価結果が修正された入力情報を含むか否かを判断する。入力情報を含む場合はステップS421に行き、入力情報を含まない場合はステップS401に戻る。
【0172】
(ステップS421)教師データ構成部133は、ステップS418で受信された評価結果が有する入力情報を取得する。また、教師データ構成部133は、ステップS418で受信された評価結果に対応する第一教師データ元情報が有する要素情報を取得する。次に、教師データ構成部133は、要素情報と入力情報とを有する教師データを構成する。ステップS412に行く。
【0173】
なお、
図4のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
【0174】
次に、ステップS403のユーザ決定処理の例について、
図5のフローチャートを用いて説明する。
【0175】
(ステップS501)ユーザ決定部131は、第一教師データ元情報と対になる1以上のデータ識別子を元情報格納部112から取得する。
【0176】
(ステップS502)ユーザ決定部131は、カウンタiに1を代入する。
【0177】
(ステップS503)ユーザ決定部131は、ユーザ情報格納部111にi番目のユーザ情報が存在するか否かを判断する。i番目のユーザ情報が存在する場合はステップS504に行き、存在しない場合は上位処理にリターンする。
【0178】
(ステップS504)ユーザ決定部131は、i番目のユーザ情報に含まれる1以上のユーザ属性値をユーザ情報格納部111から取得する。
【0179】
(ステップS505)ユーザ決定部131は、ステップS501で取得した1以上のデータ識別子とステップS504で取得した1以上のユーザ属性値とが、作業条件に合致するか否かを判断する。作業条件に合致する場合はステップS506に行き、合致しない場合はステップS508に行く。
【0180】
(ステップS506)ユーザ決定部131は、ステップS504で取得した1以上のユーザ属性値と対になるユーザ識別子をユーザ情報格納部111から取得し、図示しないバッファに一時蓄積する。
【0181】
(ステップS507)ユーザ決定部131は、取得したユーザ識別子の数が上限に達したか否かを判断する。上限に達した場合は上位処理にリターンし、上限に達していない場合はステップS508に行く。
【0182】
(ステップS508)ユーザ決定部131は、カウンタiを1、インクリメントする。ステップS503に戻る。
【0183】
次に、ステップS410の教師データ構成処理の例について、
図6のフローチャートを用いて説明する。
【0184】
(ステップS601)教師データ構成部133は、第一教師データ元情報識別子を取得する。
【0185】
(ステップS602)教師データ構成部133は、元情報格納部112に、第一教師データ元情報識別子と対に、複数人フラグが格納されているか否かを判断する。複数人フラグが格納されている場合はステップS603に行き、格納されていない場合はステップS610に行く。
【0186】
(ステップS603)教師データ構成部133は、すべてのユーザ端末2から、入力情報を有する第二教師データ元情報を受信しているか否かを判断する。すべての入力情報が揃っている場合はステップS604に行き、揃っていない場合はステップS607に行く。
【0187】
(ステップS604)教師データ構成部133は、複数入力情報処理を行う。複数入力情報処理の例について、
図7のフローチャートを用いて説明する。なお、複数入力情報処理とは、一の第一教師データ元情報に対する複数の入力情報を処理し、使用する入力情報を取得する処理である。
【0188】
(ステップS605)教師データ構成部133は、第一教師データ元情報が有する要素情報を取得する。
【0189】
(ステップS606)教師データ構成部133は、ステップS604で取得した入力情報とステップS605で取得したる要素情報とを有する教師データを構成する。上位処理にリターンする。
【0190】
(ステップS607)教師データ構成部133は、第一教師データ元情報識別子を取得する。
【0191】
(ステップS608)教師データ構成部133は、ステップS607で取得した第一教師データ元情報識別子に対応付けて、ステップS408で受信された第二教師データ元情報を一時蓄積する。
【0192】
(ステップS609)教師データ構成部133は、教師データフラグに「未完成」を代入する。上位処理にリターンする。
【0193】
(ステップS610)教師データ構成部133は、ステップS408で受信された第二教師データ元情報に対応する第一教師データ元情報の中に要素情報が存在するか否かを判断する。要素情報が存在する場合はステップS611に行き、要素情報が存在しない場合はステップS614に行く。
【0194】
(ステップS611)教師データ構成部133は、ステップS408で受信された第二教師データ元情報に対応する第一教師データ元情報の中から要素情報を取得する。
【0195】
(ステップS612)教師データ構成部133は、ステップS408で受信された第二教師データ元情報の中から入力情報を取得する。
【0196】
(ステップS613)教師データ構成部133は、ステップS611で取得した要素情報とステップS612で取得した入力情報とを有する教師データを構成する。上位処理にリターンする。
【0197】
(ステップS614)教師データ構成部133は、ステップS408で受信された第二教師データ元情報から正例と負例とを取得する。
【0198】
(ステップS615)教師データ構成部133は、ステップS614で取得した正例と負例とを教師データを構成する。上位処理にリターンする。
【0199】
次に、ステップS604の複数入力情報処理の例について、
図7のフローチャートを用いて説明する。
【0200】
(ステップS701)教師データ構成部133は、すべての入力情報を取得する。
【0201】
(ステップS702)教師データ構成部133は、元情報格納部112に、第一教師データ元情報に対応付いて、合成フラグが格納されているか否かを判断する。合成フラグが格納されている場合はステップS703に行き、合成フラグが格納されていない場合はステップS705に行く。
【0202】
(ステップS703)教師データ構成部133は、ステップS701で取得したすべての入力情報に対して、ユニーク処理を行う。
【0203】
(ステップS704)教師データ構成部133は、ステップS703におけるユニーク処理の結果である1以上の入力情報を取得する。上位処理にリターンする。
【0204】
(ステップS705)教師データ構成部133は、ステップS701で取得したすべての入力情報の中で、最も出現頻度の高い一の入力情報を取得する。上位処理にリターンする。
【0205】
なお、
図7のフローチャートのステップS703において、すべての入力情報に対してユニーク処理を行ったが、要約処理を行う等しても良い。なお、すべての入力情報である複数の文を要約する処理は、公知の自然言語処理により可能である。
【0206】
次に、ユーザ端末2の動作例について、
図8のフローチャートを用いて説明する。
【0207】
(ステップS801)端末受信部25は、データ収集装置1から第二教師データ元情報を受信したか否かを判断する。第二教師データ元情報を受信した場合はステップS802に行き、受信しなかった場合はステップS806に行く。なお、ここでの第二教師データ元情報の受信は、ユーザの操作による受信(プル型の通信)でも良い、プッシュ送信された第二教師データ元情報の受信でも良い。
【0208】
(ステップS802)端末処理部23は、ステップS801において受信された第二教師データ元情報がプログラムを含むか否かを判断する。プログラムを含む場合はステップS803に行き、プログラムを含まない場合はステップS804に行く。
【0209】
(ステップS803)端末処理部23は、ステップS801において受信された第二教師データ元情報が要素情報を含むか否かを判断する。要素情報を含む場合はステップS804に行き、要素情報を含まない場合はステップS805に行く。
【0210】
(ステップS804)端末処理部23は、ステップS801において受信された第二教師データ元情報に含まれる要素情報を取得する。
【0211】
(ステップS805)端末処理部23は、ステップS801において受信された第二教師データ元情報に含まれるプログラム、または端末格納部21に格納されているプログラムを実行する。なお、ここで、端末処理部23は、要素情報を取得している場合には、当該要素情報をプログラムに渡して、当該プログラムを実行する。ステップS801に戻る。
【0212】
(ステップS806)端末受付部22は、入力情報を受け付けたか否かを判断する。入力情報を受け付けた場合はステップS807に行き、受け付けなかった場合はステップS811に行く。
【0213】
(ステップS807)端末処理部23は、ステップS806で受け付けた入力情報を一時蓄積する。
【0214】
(ステップS808)端末受付部22は、第二送信指示を受け付けたか否かを判断する。第二送信指示を受け付けた場合はステップS809に行き、受け付けなかった場合はステップS808に戻る。
【0215】
(ステップS809)端末処理部23は、ステップS806で受け付けた入力情報を有する第二教師データ元情報を構成する。なお、第二教師データ元情報は、入力情報と第一教師データ元情報識別子とを有し、要素情報を有さないことは好適である。
【0216】
(ステップS810)端末送信部24は、ステップS809で構成された第二教師データ元情報をデータ収集装置1に送信する。ステップS801に戻る。
【0217】
(ステップS811)端末受信部25は、データ収集装置1から検査情報を受信したか否かを判断する。検査情報を受信した場合はステップS812に行き、検査情報を受信しなかった場合はステップS801に戻る。
【0218】
(ステップS812)端末処理部23は、ステップS811で受信された検査情報を用いて、出力する検査情報を構成する。端末出力部26は、当該検査情報を出力する。なお、検査情報は、通常、要素情報と入力情報とを有する。
【0219】
(ステップS813)端末受付部22は、出力された検査情報に対する入力を受け付けたか否かを判断する。入力を受け付けた場合はステップS814に行き、入力を受け付けなかった場合はステップS813に戻る。なお、ここでの入力は、評価結果を構成するための情報である。
【0220】
(ステップS814)端末処理部23は、ステップS813で受け付けられた入力を用いて、評価結果を構成する。なお、評価結果は、例えば、「正しい」「間違っている」「修正された入力情報」である。
【0221】
(ステップS815)端末送信部24は、ステップS814で構成された評価結果をデータ収集装置1に送信する。ステップS801に戻る。
【0222】
なお、
図8のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
【0223】
以下、本実施の形態におけるデータ収集装置システムAの具体的な動作例について説明する。
【0224】
データ収集装置1のユーザ情報格納部111には、
図9に示すユーザ情報管理表が格納されている、とする。ユーザ情報管理表は、「ID」「ユーザ識別子」「氏名」「送信先情報」「ユーザ属性値」を有する2以上のレコードを管理する。「ユーザ属性値」は、ここでは「専門識別子」「使用言語」「ユーザ評価」「報酬情報」を有する。「専門識別子」は、ユーザの専門を特定する情報であり、例えば、「日→英」は、日本語から英語への日英翻訳が専門であることを示す。「ユーザ評価」は、ここでは記号であるが、通常、数値である、とする。「報酬情報」は、ここでは記号であるが、通常、金額やポイントを示す数値である、とする。
【0225】
かかる場合、以下の4つの具体例について説明する。具体例1は、日本語の難解用語の英語訳をユーザに依頼し、ユーザ端末2から日本語の難解用語と英語訳とを有する第二教師データ元情報を受信する場合である。具体例2は、画像に対して、当該画像のラベルを付す作業を複数のユーザに依頼し、複数のユーザ端末2からラベルと第一教師データ元情報識別子(画像の識別子)とを有する第二教師データ元情報を受信し、複数のラベルを合成する場合である。具体例3は、ユーザ端末2に、クラックが入った外壁(正例)とクラックが入っていない外壁(負例)とのセットの画像の撮影および送信の作業をユーザに依頼する場合である。具体例4において、ユーザ端末2から目的とする情報(例えば、クラックが入った外壁の画像)を受信した後に、直ちに、他のユーザ端末2から受信した1以上の他の目的とする情報(例えば、クラックが入った外壁の画像)を送信し、目的とする情報であるか否か(クラックが入っているか否か)の評価結果を当該ユーザに入力してもらい、当該ユーザ端末2から評価結果を受信し、当該評価結果を送信した情報に対応付けて蓄積する。また、蓄積された1以上の評価結果のうち、「目的とする情報である」との評価結果が採用条件を満たす場合に、当該情報を採用する。なお、採用条件は、例えば、「目的とする情報である」との評価結果の数が閾値以上または閾値より多いこと、「目的とする情報である」との評価結果の割合が閾値以上または閾値より多いことである。
【0226】
(具体例1)
ここでは、データ収集装置1の格納部11には、機械翻訳を行い、入力情報を入力し、第二教師データ元情報を送信するためのプログラムA(アプリA)が格納されている、とする。
【0227】
データ収集装置1は、第一送信指示「<難解用語>一蓮托生 <データ属性値>日→英」を受け付けたとする。
【0228】
次に、ユーザ決定部131は、当該第一送信指示が有するデータ属性値「日→英」に合致する専門識別子「日→英」と対になる送信先情報「送信先1」を、ユーザ情報管理表(
図9)から取得する。
【0229】
次に、処理部13は、格納部11からプログラムAを取得する。また、処理部13は、本作業を識別する仕事ID「W1258」を生成する。また、処理部13は、プログラムAと要素情報である難解用語「一蓮托生」と仕事ID「W1258」とを有する第一教師データ元情報を構成する。
【0230】
次に、元情報送信部141は、当該第一教師データ元情報を送信先情報「送信先1」に対応する田中A夫のユーザ端末2に送信する。
【0231】
次に、田中A夫のユーザ端末2の端末受信部25は、データ収集装置1から当該第一教師データ元情報を受信する。次に、端末処理部23は、受信された第一教師データ元情報から要素情報「一蓮托生」を取得する。また、端末処理部23は、受信された第一教師データ元情報からプログラムAを取得する。そして、端末処理部23は、プログラムAに要素情報「一蓮托生」を渡し、プログラムAを実行する。その結果、
図10に示す画面が田中A夫のユーザ端末2に出力された、とする。つまり、プログラムAに含まれる機械翻訳モジュールでは、日本語「一蓮托生」を「Ichirentakushou」と訳した、とする。
【0232】
次に、田中A夫は、機械翻訳モジュールの自動翻訳結果は間違っているので、1001のフィールドに、「Ichirentakushou」に代えて、正しい英語翻訳「To be in the same boat.」を入力し、送信ボタン1002を指示した、とする。
【0233】
次に、端末処理部23は、第二教師データ元情報「<仕事ID>W1258 <ユーザ識別子>U001 <要素情報>一蓮托生 <入力情報>To be in the same boat.」を構成する。次に、端末送信部24は、当該第二教師データ元情報をデータ収集装置1に送信する。
【0234】
次に、データ収集装置1の元情報受信部121は、田中A夫のユーザ端末2から第二教師データ元情報「<仕事ID>W1258 <ユーザ識別子>U001 <要素情報>一蓮托生 <入力情報>To be in the same boat.」を受信する。
【0235】
次に、処理部13は、仕事ID「W1258」に対応付けて、第二教師データ元情報「<ユーザ識別子>U001 <要素情報>一蓮托生 <入力情報>To be in the same boat.」を、図示しないバッファに一時蓄積する。
【0236】
次に、判断部132は、受信された第二教師データ元情報が検査条件に合致する、と判断した、とする。ここで、検査条件は、ユーザ識別子に対応するユーザ評価が閾値以上であること、であったとする。そして、判断部132は、ユーザ識別子「U001」と対になるユーザ評価「E
1」をユーザ情報管理表(
図9)から取得する。また、判断部132は、「E
1<閾値」であると判断した、とする。
【0237】
次に、処理部13は、受信された第二教師データ元情報を用いて、他端末に送信する検査情報「<仕事ID>W1258 <要素情報>一蓮托生 <入力情報>To be in the same boat.」を構成する。ここで、他端末送信部142は、データ属性値「日→英」に合致する専門識別子「日→英」と対になる送信先情報であり、「送信先1」ではない送信先情報「送信先2」を、ユーザ情報管理表(
図9)から取得する。つまり、他端末送信部142は、他端末として、山田B子のユーザ端末2を決定する。次に、他端末送信部142は、送信先2が示す送信先に、当該検査情報を送信する。
【0238】
次に、山田B子のユーザ端末2は、当該検査情報を受信し、出力する。かかる出力例は、
図11である。
【0239】
そして、山田B子は、翻訳結果を確認し、「正しい」のチェックボックス1101にチェックを入力し、送信ボタン1102を指示した、とする。
【0240】
次に、ユーザ端末2の端末受付部22は、山田B子のかかる入力を受け付ける。次に、端末処理部23は、評価結果「<仕事ID>W1258 <評価結果>正しい」を構成する。次に、端末送信部24は、当該評価結果をデータ収集装置1に送信する。
【0241】
次に、データ収集装置1の評価結果受信部122は、山田B子のユーザ端末2から評価結果「<仕事ID>W1258 <評価結果>正しい」を受信する。
【0242】
次に、判断部132は、受信された評価結果「正しい」が採用条件を満たす、と判断する。なお、ここでは、採用条件は「評価結果=正しい」である、とする。
【0243】
次に、教師データ構成部133は、第二教師データ元情報「<仕事ID>W1258 <ユーザ識別子>U001 <要素情報>一蓮托生 <入力情報>To be in the same boat.」から教師データ(一蓮托生,To be in the same boat.)を構成する。次に、蓄積部134は、当該教師データを教師データ格納部113に蓄積する。
【0244】
以上の処理を繰り返し、教師データ格納部113には、大量の教師データ(難解な日本語用語,難解な日本語用語の英語翻訳用語)が蓄積された、とする。
【0245】
以上、本具体例によれば、難解な日本語の用語を英語の用語に変換するための学習モデルを構築するための多数の教師データを収集できる。
【0246】
(具体例2)
ここでは、データ収集装置1の格納部11には、要素情報である画像と入力情報を入力するフィールドとを有する画面を出力し、第二教師データ元情報を送信するためのプログラムB(アプリB)が格納されている、とする。
【0247】
データ収集装置1は、第一送信指示「<画像>file1 <送信人数>3 <合成フラグ>ON」を受け付けたとする。file1は、犬が撮影された画像ファイルである、とする。
【0248】
次に、ユーザ決定部131は、第一送信指示が有する送信人数「3」に従って、例えば、送信先情報「送信先1」「送信先2」「送信先3」を、ユーザ情報管理表(
図9)から取得する。
【0249】
次に、処理部13は、格納部11からプログラムBを取得する。また、処理部13は、第一教師データ元情報識別子(仕事ID)「W1260」を生成した、とする。また、処理部13は、仕事ID「W1260」とプログラムBと要素情報である画像ファイル「file1」とを有する第一教師データ元情報を構成する。また、処理部13は、仕事ID「W1260」と対に、複数人フラグと合成フラグとを蓄積する。
【0250】
次に、元情報送信部141は、当該第一教師データ元情報を送信先情報「送信先1」に対応する田中A夫、山田B子、および陳XYの各ユーザ端末2に送信する。
【0251】
次に、3人の各ユーザのユーザ端末2の端末受信部25は、データ収集装置1から当該第一教師データ元情報を受信する。次に、端末処理部23は、受信された第一教師データ元情報から要素情報である画像ファイル「file1」を取得する。また、各ユーザ端末2の端末処理部23は、受信された第一教師データ元情報からプログラムBを取得する。そして、端末処理部23は、プログラムBに要素情報「file1」を渡し、プログラムBを実行する。その結果、
図12に示す画面が各ユーザのユーザ端末2に出力された、とする。
【0252】
ここで、田中A夫と山田B子とは入力情報を入力するフィールド12に「秋田犬」を入力し、陳XYはフィールド12に「犬」を入力し、送信ボタン1202を指示した、とする。そして、3人の各ユーザのユーザ端末2は、フィールド12に入力された要素情報と第一教師データ元情報識別子「W1260」とを有する第二教師データ元情報を構成し、データ収集装置1に送信する。
【0253】
次に、データ収集装置1の元情報受信部121は、3人の各ユーザのユーザ端末2から第二教師データ元情報を受信する。
【0254】
次に、教師データ構成部133は、元情報格納部112に、第一教師データ元情報識別子「W1260」と対に、複数人フラグが格納されている、と判断する。そして、教師データ構成部133は、すべての入力情報「秋田犬,秋田犬,犬」を取得する。また、教師データ構成部133は、元情報格納部112に、第一教師データ元情報「W1260」に対応付いて、合成フラグが格納されている、と判断する。次に、教師データ構成部133は、取得したすべての入力情報に対して、ユニーク処理を行い、入力情報「秋田犬,犬」を取得する。次に、教師データ構成部133は、第一教師データ元情報が有する要素情報(画像ファイル「file1」)を取得する。次に、教師データ構成部133は、入力情報「秋田犬,犬」と要素情報(画像ファイル「file1」)とを有する教師データを構成する。次に、蓄積部134は、当該教師データを教師データ格納部113に蓄積する。
【0255】
なお、ここで、入力情報は、目的変数でも良いし、説明変数でも良い。また、入力情報が目的変数である場合、要素情報は説明変数であり、入力情報が説明変数である場合、要素情報は目的変数である。
【0256】
以上の処理を繰り返し、教師データ格納部113には、大量の教師データ(画像,1または2以上のラベル)が蓄積された、とする。
【0257】
なお、具体例2において、入力情報を一つのラベルとする場合、教師データ構成部133は、すべての入力情報「秋田犬,秋田犬,犬」に対して、多数決のアルゴリズムを採用し、入力情報「秋田犬」と決定し、当該入力情報「秋田犬」と画像ファイル「file1」からなる教師データを構成しても良い。
【0258】
また、具体例2において、プログラムBは、画像を識別する機械学習の予測モジュールを含んでも良い。かかる場合、各ユーザのユーザ端末2で、画像ファイル「file1」に対して、当該予測モジュールが実行され、当該画像の予測結果(例えば、「オオカミ」)がユーザ端末2のフィールド1201に表示される。そして、ユーザは、フィールド1201に表示された入力情報の候補を確認し、修正することとなる。
【0259】
以上、本具体例によれば、画像ファイルをラベリングするための学習モデルを構築するための多数の教師データを収集できる。
【0260】
また、本具体例によれば、ラベリから画像を生成するための学習モデルを構築するための多数の教師データを収集できる。
【0261】
(具体例3)
ここでは、データ収集装置1の格納部11には、クラックの入った外壁の箇所とクラックが入っていない外壁の箇所との撮影を促し、撮影して、2つの画像を送信するプログラムC(アプリC)が格納されている、とする。
【0262】
データ収集装置1は、第一送信指示「<プログラム>プログラムC」を受け付けたとする。
【0263】
次に、ユーザ決定部131は、ユーザ情報管理表(
図9)から、すべてのユーザの送信先情報を取得した、とする。つまり、ここでは、大量のユーザに以下の作業を依頼するものとする、
【0264】
次に、処理部13は、格納部11からプログラムCを取得する。また、処理部13は、送信する第一教師データ元情報を識別するユニークな第一教師データ元情報識別子(仕事ID)「W2522」を生成し、第一教師データ元情報に対応付けて蓄積した、とする。また、処理部13は、第一教師データ元情報識別子「W2522」とプログラムCを有する第一教師データ元情報を構成する。
【0265】
次に、元情報送信部141は、当該第一教師データ元情報をユーザ決定部131が取得した多数の送信先情報に対応する多数のユーザ端末2に送信する。
【0266】
次に、例えば、田中A夫のユーザ端末2の端末受信部25は、データ収集装置1から当該第一教師データ元情報を受信する。次に、端末処理部23は、受信された第一教師データ元情報からプログラムCを取得する。そして、端末処理部23は、プログラムCを実行する。その結果、
図13に示す画面が田中A夫のユーザ端末2に出力された、とする。
【0267】
次に、田中A夫は、
図13の画面に従って、
図13の領域1301に入るべき、クラックの入った外壁の箇所の画像を撮影するために、当該ユーザ端末2の画面をクラックの入った外壁の箇所に向け、撮影ボタン1302を指示した、とする。すると、端末受付部22は、かかる指示を受け付け、端末処理部23は、プログラムCの撮影機能を実行し、クラックの入った外壁の箇所の画像を取得した、とする。
【0268】
また、田中A夫は、
図13の画面に従って、
図13の領域1303に入るべき、クラックが入っていない外壁の箇所の画像を撮影するために、当該ユーザ端末2の画面をクラックの入っていない外壁の箇所に向け、撮影ボタン1304を指示した、とする。すると、端末受付部22は、かかる指示を受け付け、端末処理部23は、プログラムCの撮影機能を実行し、クラックが入っていない外壁の箇所の画像を取得した、とする。
【0269】
以上により、田中A夫のユーザ端末2は、クラックが入っていない外壁の箇所の画像(正例)と、クラックが入っていない外壁の箇所の画像(負例)とを取得できた。かかる出力例は、
図14である。
【0270】
次に、田中A夫は、ユーザ端末2の画面の送信ボタン1401を指示した、とする。次に、端末受付部22は、第二送信指示を受け付ける。次に、端末処理部23は、撮影された正例の画像1402と負例の画像1403と第一教師データ元情報識別子「W2522」とを有する第二教師データ元情報を構成する。次に、端末送信部24は、当該第二教師データ元情報をデータ収集装置1に送信する。
【0271】
また、他のユーザも、田中A夫と同様に、クラックが入っていない外壁の箇所の画像(正例)と、クラックが入っていない外壁の箇所の画像(負例)とを撮影し、第二教師データ元情報をデータ収集装置1に送信した、とする。
【0272】
次に、データ収集装置1は、元情報受信部121は、多数の各ユーザ端末2から第二教師データ元情報を受信する。
【0273】
次に、教師データ構成部133は、各ユーザ端末2から送信された第二教師データ元情報から正例の画像と負例の画像とを取得する。次に、教師データ構成部133は、取得した正例の画像と負例の画像との組である教師データを、多数、構成する。
【0274】
次に、蓄積部134は、構成された多数の教師データを教師データ格納部113に蓄積する。
【0275】
なお、ここで、蓄積部134は、各ユーザ端末2から送信された正例の画像と負例の画像とを対応付けて、教師データ格納部113に蓄積することは好適であるが、正例の画像と負例の画像とを対応付けず、各画像が正例の画像か負例の画像かを区別できるように、教師データ格納部113に蓄積するだけでも良い。なお、正例の画像と負例の画像とを対応付けて蓄積する場合でも、蓄積部134は、どちらが正例の画像で、どうちらが負例の画像であるかは、区別できるように、蓄積する。
【0276】
以上、本具体例によれば、外壁におけるクラックの有無を識別するための学習モデルを構築するための多数の教師データを収集できた。
【0277】
(具体例4)
具体例3で述べたクラックの外壁の画像(例えば、
図14の1402)を多数のユーザ端末2から受信し、蓄積する、とする。
【0278】
そして、今、データ収集装置1の元情報受信部121が入力情報A(例えば、クラックの入った壁の画像)を含む第二教師データ元情報を、ユーザUのユーザ端末2から受信した、とする。そして、データ収集装置1の蓄積部134は、当該第二教師データ元情報を蓄積する。次に、他端末送信部142は、ユーザUのユーザ端末2に、他のユーザ端末2から受信された入力情報Xを送信する。
【0279】
そして、ユーザUのユーザ端末2は、第二教師データ元情報の送信後、すぐにデータ収集装置1から入力情報Xを受信し、出力する。
【0280】
次に、ユーザUは、ユーザ端末2に出力された入力情報Xを見て、クラックが入っているように見えないと判断し、評価結果「正しくない」を入力した、とする。次に、ユーザ端末2は、評価結果「正しくない」を受け付け、当該評価結果「正しくない」を、入力情報Xの識別子(例えば、「X」)と対にして、データ収集装置1に送信する。
【0281】
次に、データ収集装置1の評価結果受信部122は、入力情報Xに対する評価結果「正しくない」をユーザ端末2から受信する。そして、蓄積部134は、評価結果受信部122が受信した評価結果を、入力情報Xに対応付けて蓄積する。
【0282】
このような処理を、ユーザUだけではなく、他の多数のユーザにより行われた、とする。その結果、入力情報Xに対して、多数の評価結果が入力情報Xに対応付けて蓄積された、とする。
【0283】
次に、処理部13は、評価結果「正しい」の割合が閾値以上である場合、入力情報Xを教師データとして採用するために、教師データ格納部113に蓄積する、とする。なお、かかる蓄積は、蓄積部134が行っても良い。
【0284】
以上、本具体例によれば、ユーザが入力情報を送信した後、すぐに、他の入力情報を評価する環境を提供できる結果、入力情報を評価しやくなる。その結果、適正な教師データを収集できることとなる。
【0285】
以上、本実施の形態によれば、機械学習の学習モデルを構築するための教師データを収集するためのプラットフォームを提供できる。
【0286】
また、本実施の形態によれば、要素情報から当該要素情報のラベルを予測するための学習モデルを構築するための教師データを収集するためのプラットフォームを提供できる。
【0287】
また、本実施の形態によれば、要素情報から当該要素情報を変換した変換情報を予測するための学習モデルを構築するための教師データを収集するためのプラットフォームを提供できる。
【0288】
また、本実施の形態によれば、第一言語の要素情報から当該第二言語に翻訳した変換情報を予測するための学習モデルを構築するための教師データを収集するためのプラットフォームを提供できる。
【0289】
また、本実施の形態によれば、要素情報から当該要素情報を説明する説明情報を予測するための学習モデルを構築するための教師データを収集するためのプラットフォームを提供できる。
【0290】
また、本実施の形態によれば、入力情報を入力することを支援するプログラムもユーザに提供できる。
【0291】
また、本実施の形態によれば、精度の高い学習モデルを構築するための教師データを収集するためのプラットフォームを提供できる。
【0292】
また、本実施の形態によれば、適切なユーザが入力した第二教師データ元情報を取得できる。
【0293】
また、本実施の形態によれば、第二教師データ元情報を提供するユーザを評価できる。
【0294】
また、本実施の形態によれば、入力情報を評価しやくする環境を提供できる。
【0295】
さらに、本実施の形態によれば、第二教師データ元情報を提供するユーザに報酬を与えられる。
【0296】
なお、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD-ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態におけるデータ収集装置1を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、機械学習の学習処理により学習モデルを構築するための教師データを構成する元になる第一教師データ元情報が格納される元情報格納部にアクセス可能なコンピュータを、前記第一教師データ元情報を2以上の各ユーザ端末に送信する元情報送信部と、前記元情報送信部が送信し、前記ユーザ端末で処理された前記第一教師データ元情報に対してユーザが入力した入力情報を含む第二教師データ元情報を、前記第一教師データ元情報に対応付く態様で前記ユーザ端末から受信する元情報受信部と、前記第一教師データ元情報と前記元情報受信部が受信した前記第二教師データ元情報とを用いて、機械学習の学習処理のために使用する教師データを構成する教師データ構成部と、前記教師データ構成部が構成した前記教師データを蓄積する蓄積部として機能させるためのプログラムである。
【0297】
(実施の形態2)
本実施の形態において、データ収集装置1により収集した複数の教師データを用いて、学習モデルを構築する学習装置について説明する。
【0298】
また、本実施の形態において、学習装置が構築した学習モデルを用いて、予測処理を行う予測装置について説明する。
【0299】
図15は、本実施の形態における情報システムBの概念図である。情報システムBは、データ収集装置1、学習装置3、および予測装置4を備える。
【0300】
学習装置3、予測装置4は、例えば、いわゆるサーバであり、例えば、クラウドサーバ、ASPサーバ等である。ただし、学習装置3、予測装置4は、スタンドアロンの装置でも良い。
【0301】
ここでは、例えば、データ収集装置1と学習装置3と予測装置4とは、インターネットやLAN等のネットワークにより通信可能である。
【0302】
図16は、本実施の形態における情報システムBのブロック図である。学習装置3は、教師データ格納部113、学習モデル格納部31、および学習部32を備える。予測装置4は、学習モデル格納部31、受付部41、予測部42、および予測結果出力部43を備える。
【0303】
学習装置3を構成する学習部32は、データ収集装置1が蓄積した2以上の教師データを用いて、機械学習の学習処理を行い、学習モデルを取得し、学習モデルを蓄積する。学習部32は、学習モデル格納部31に学習モデルを蓄積することは好適である。
【0304】
ここで、学習モデルを構築する機械学習のアルゴリズムは、深層学習、ランダムフォレスト、決定木、SVM、SVR等、問わない。また、機械学習には、例えば、TensorFlowのライブラリ、R言語のrandom forestのモジュール、fastText、TinySVM等の各種の機械学習の関数や、種々の既存のライブラリを用いることができる。
【0305】
予測装置4を構成する受付部41は、要素情報を受け付ける。要素情報は、例えば、ラベリングの対象の画像、翻訳対象の第一言語の用語または文、説明対象の画像、クラックが入っているか否かを判断する対象の外壁の撮影画像である。
【0306】
ここで、受け付けとは、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付け、有線もしくは無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付け、撮影による画像の取得などを含む概念である。
【0307】
要素情報の入力手段は、タッチパネルやキーボードやマウスやカメラやメニュー画面によるもの等、何でも良い。
【0308】
予測部42は、学習モデル格納部31の学習モデルと受付部41が受け付けた要素情報とを用いて、機械学習の予測処理を行い、入力情報を取得する。
【0309】
ここで、予測処理を行う機械学習のアルゴリズムは、深層学習、ランダムフォレスト、決定木、SVM、SVR等、問わない。また、機械学習には、例えば、TensorFlowのライブラリ、R言語のrandom forestのモジュール、fastText、TinySVM等の各種の機械学習の関数や、種々の既存のライブラリを用いることができる。
【0310】
予測結果出力部43は、予測部42が取得した入力情報を出力する。ここで、出力とは、記録媒体への蓄積、外部の装置への送信、他の処理装置や他のプログラムなどへの処理結果の引渡し、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、音出力などを含む概念である。
【0311】
学習モデル格納部31は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
【0312】
学習モデル格納部31に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が学習モデル格納部31で記憶されるようになってもよく、通信回線等を介して送信された情報が学習モデル格納部31で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部11等で記憶されるようになってもよい。
【0313】
学習部32、および予測部42は、通常、プロセッサやメモリ等から実現され得る。学習部32等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。なお、プロセッサは、CPU、MPU、GPU等であり、その種類は問わない。
受付部41は、タッチパネルやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
【0314】
受付部41は、無線または有線の通信手段で実現されることが好適であるが、放送を受信する手段、タッチパネルやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現されても良い。
【0315】
予測結果出力部43は、無線または有線の通信手段で実現されても良いし、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現されても良い。かかる場合、予測結果出力部43は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。
【0316】
なお、データ収集装置1は、学習装置3の学習モデル格納部31と学習部32とを具備しても良い。また、データ収集装置1は、予測装置4の受付部41と予測部42と予測結果出力部43とを具備しても良い。
【0317】
以上、本実施の形態によれば、収集した教師データを用いて、学習モデルを構築できる。
【0318】
また、本実施の形態によれば、学習モデルを用いて、予測される入力情報を出力できる。
【0319】
なお、本実施の形態における学習装置3を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、データ収集装置が蓄積した2以上の教師データにアクセス可能なプログラムを、当該2以上の教師データを用いて、機械学習の学習処理を行い、学習モデルを取得し、当該学習モデルを蓄積する学習部として機能させるためのプログラムである。
【0320】
また、本実施の形態における予測装置4を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、学習装置3が取得した学習モデルにアクセス可能なコンピュータを、要素情報を受け付ける受付部と、前記受付部が受け付けた前記要素情報とを用いて、機械学習の予測処理を行い、入力情報を取得する予測部と、前記入力情報出力する予測結果出力部として機能させるためのプログラムである。
【0321】
また、
図17は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態のデータ収集装置1、ユーザ端末2、学習装置3、予測装置4を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。
図17は、このコンピュータシステム300の概観図であり、
図18は、システム300のブロック図である。
【0322】
図17において、コンピュータシステム300は、CD-ROMドライブを含むコンピュータ301と、キーボード302と、マウス303と、モニタ304とを含む。
【0323】
図18において、コンピュータ301は、CD-ROMドライブ3012に加えて、MPU3013と、CD-ROMドライブ3012等に接続されたバス3014と、ブートアッププログラム等のプログラムを記憶するためのROM3015と、MPU3013に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM3016と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3017とを含む。ここでは、図示しないが、コンピュータ301は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
【0324】
コンピュータシステム300に、上述した実施の形態のデータ収集装置1等の機能を実行させるプログラムは、CD-ROM3101に記憶されて、CD-ROMドライブ3012に挿入され、さらにハードディスク3017に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ301に送信され、ハードディスク3017に記憶されても良い。プログラムは実行の際にRAM3016にロードされる。プログラムは、CD-ROM3101またはネットワークから直接、ロードされても良い。
【0325】
プログラムは、コンピュータ301に、上述した実施の形態のデータ収集装置1等の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム300がどのように動作するかは周知であり、詳細な説明は省略する。
【0326】
なお、上記プログラムにおいて、情報を送信するステップや、情報を受信するステップなどでは、ハードウェアによって行われる処理、例えば、送信ステップにおけるモデムやインターフェースカードなどで行われる処理(ハードウェアでしか行われない処理)は含まれない。
【0327】
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
【0328】
また、上記各実施の形態において、一の装置に存在する2以上の通信手段は、物理的に一の媒体で実現されても良いことは言うまでもない。
【0329】
また、上記各実施の形態において、各処理は、単一の装置によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
【0330】
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
【産業上の利用可能性】
【0331】
以上のように、本発明にかかるデータ収集装置1は、機械学習の学習モデルを構築するための教師データを収集するためのプラットフォームを提供することにより、大量の教師データが収集可能となるという効果を有し、当該プラットフォームを実現するサーバ等として有用である。
【符号の説明】
【0332】
1 データ収集装置
2 ユーザ端末
3 学習装置
4 予測装置
11 格納部
12 受信部
13 処理部
14 送信部
21 端末格納部
22 端末受付部
23 端末処理部
24 端末送信部
25 端末受信部
26 端末出力部
31 学習モデル格納部
32 学習部
41 受付部
42 予測部
43 予測結果出力部
111 ユーザ情報格納部
112 元情報格納部
113 教師データ格納部
121 元情報受信部
122 評価結果受信部
131 ユーザ決定部
132 判断部
133 教師データ構成部
134 蓄積部
135 報酬取得部
136 報酬蓄積部
137 ユーザ評価部
138 ユーザ評価出力部
141 元情報送信部
142 他端末送信部
1331 合成手段
1332 教師データ構成手段