特許第6642878号(P6642878)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社FRONTEOの特許一覧

特許6642878コンピュータ、構成方法、及びプログラム
<>
  • 特許6642878-コンピュータ、構成方法、及びプログラム 図000005
  • 特許6642878-コンピュータ、構成方法、及びプログラム 図000006
  • 特許6642878-コンピュータ、構成方法、及びプログラム 図000007
  • 特許6642878-コンピュータ、構成方法、及びプログラム 図000008
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】6642878
(24)【登録日】2020年1月8日
(45)【発行日】2020年2月12日
(54)【発明の名称】コンピュータ、構成方法、及びプログラム
(51)【国際特許分類】
   G06F 16/906 20190101AFI20200130BHJP
   G06N 20/00 20190101ALI20200130BHJP
【FI】
   G06F16/906
   G06N20/00 130
【請求項の数】11
【全頁数】19
(21)【出願番号】特願2018-237649(P2018-237649)
(22)【出願日】2018年12月19日
【審査請求日】2018年12月19日
(73)【特許権者】
【識別番号】316014906
【氏名又は名称】株式会社FRONTEO
(74)【代理人】
【識別番号】110000338
【氏名又は名称】特許業務法人HARAKENZO WORLD PATENT & TRADEMARK
(72)【発明者】
【氏名】田村 陵大
(72)【発明者】
【氏名】清政 貴文
(72)【発明者】
【氏名】蓮子 和巳
(72)【発明者】
【氏名】花谷 彰晃
(72)【発明者】
【氏名】井口 慎也
【審査官】 甲斐 哲雄
(56)【参考文献】
【文献】 国際公開第2018/179765(WO,A1)
【文献】 藤田 肇,人工知能エンジン「KIBIT」を用いた自然言語処理と特許調査への応用,情報の科学と技術,日本,一般社団法人 情報科学技術協会,2017年 7月 1日,Vol.67 No.7,pp.360-365,特集:特許情報と人工知能(AI)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00−16/958
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
メモリとコントローラとを備え、機械学習に供する学習用データセットを構成するコンピュータであって、
前記メモリには、データセットが格納されており、
前記コントローラは、
前記データセットから第1学習用データをサンプリングするサンプリング処理と、
前記データセットに含まれるデータをクラスタリングすることによって、複数のクラスタを生成するクラスタリング処理と、
前記複数のクラスタのうち、前記第1学習用データを含まないクラスタから第2学習用データを選択する選択処理と、
前記学習用データセットとして、前記第1学習用データと前記第2学習用データの少なくとも一部とを含む学習用データセットを構成する構成処理と、を実行する、
ことを特徴とするコンピュータ。
【請求項2】
前記選択処理は、前記複数のクラスタのうち、前記第1学習用データを含まないクラスタであって、包含するデータの個数が予め定められた閾個数を上回るクラスタから前記第2学習用データを選択する処理である、
ことを特徴とする請求項1に記載のコンピュータ。
【請求項3】
前記コントローラは、
前記データセットに含まれるデータを入力とし、該データが予め定められた抽出条件を満たす程度を表すスコアを出力とする学習済みモデルであって、前記学習用データセットを用いた機械学習により構築された学習済みモデルを用いて、前記第1学習用データ及び前記第2学習用データのスコアを算出するスコア算出処理をさらに実行し、
前記構成処理は、前記第1学習用データと前記スコアが予め定められた第1閾スコアを下回る前記第2学習用データとを含む学習用データセットを構成する処理である、
ことを特徴とする請求項1又は2に記載のコンピュータ。
【請求項4】
前記コントローラは、
ユーザの指示に基づき、予め定められた抽出条件を満たす前記第1学習用データに特定のラベルを付与するラベル付与処理と、
前記データセットに含まれるデータを入力とし、該データが前記抽出条件を満たす程度を表すスコアを出力とする学習済みモデルであって、前記学習用データセットを用いた機械学習により構築された学習済みモデルを用いて、前記第1学習用データ及び前記第2学習用データのスコアを算出するスコア算出処理と、
前記ラベルが付与された前記第1学習用データであって、前記スコアが予め定められた第2閾スコアを下回る第1学習用データの個数に応じて、前記学習済みモデルのエラー率を算出するエラー率算出処理と、をさらに実行し、
前記エラー率が予め定められた閾値を下回るまで、前記構成処理を前記学習用データセットに新たな第2学習用データを追加しながら繰り返す、
ことを特徴とする請求項1〜3の何れか1項に記載のコンピュータ。
【請求項5】
前記選択処理は、前記複数のクラスタのうち、第1学習用データを含まないクラスタから、ユーザの指定した第2学習用データを選択する処理である、
ことを特徴とする請求項1〜4の何れか1項に記載のコンピュータ。
【請求項6】
前記コントローラは、
前記データセットに含まれるデータを入力とし、該データが予め定められた抽出条件を満たす程度を表すスコアを出力とする学習済みモデルであって、前記第1学習用データからなる初期学習用データセットを用いた機械学習により構築された学習済みモデルを用いて、前記第1学習用データ及び前記第2学習用データのスコアを算出するスコア算出処理と、
前記スコア、又は、前記第1学習用データ及び前記第2学習用データを前記スコアに応じてソートした結果を、ユーザに提示する提示処理と、をさらに実行する、
ことを特徴とする請求項1〜5の何れか1項に記載のコンピュータ。
【請求項7】
前記データセットは、レビューが予め定められた抽出条件を満たすデータを抽出するヒューマンレビューの対象となるデータを含み、
前記コントローラは、
前記データセットに含まれるデータを入力とし、該データが前記抽出条件を満たす程度を表すスコアを出力とする学習済みモデルであって、前記学習用データセットを用いた機械学習により構築された学習済みモデルを用いて、前記データセットに含まれる各データのスコアを算出するマシンレビュー処理をさらに実行する、
ことを特徴とする請求項1〜6の何れか1項に記載のコンピュータ。
【請求項8】
データセットが格納されたメモリとコントローラとを備えたコンピュータを用いて、機械学習に供する学習用データセットを構成する構成方法であって、
前記コントローラが、前記データセットから第1学習用データをサンプリングするサンプリング処理と、
前記コントローラが、前記データセットに含まれるデータをクラスタリングすることによって、複数のクラスタを生成するクラスタリング処理と、
前記コントローラが、前記複数のクラスタのうち、前記第1学習用データを含まないクラスタから第2学習用データを選択する選択処理と、
前記コントローラが、前記学習用データセットとして、前記第1学習用データと前記第2学習用データの少なくとも一部とを含む学習用データセットを構成する構成処理と、を含んでいる、
ことを特徴とする構成方法。
【請求項9】
請求項1〜7の何れか1項に記載のコンピュータに、機械学習に供する学習用データセットを構成させるプログラムであって、前記各処理を前記コンピュータに実行させるプログラム。
【請求項10】
メモリとコントローラとを備え、モデルを学習させるための学習用データセットを構成するコンピュータであって、
前記メモリは、データセットを記憶しており、
前記データセットは、所定の抽出条件を満たすか否かを示すラベルが付与されていない複数のラベル無しデータを少なくとも一部に含み、
前記所定の抽出条件は、前記データが該抽出条件を満たすか否かの判断基準となる複数の観点から構成されるものであり、
前記コントローラは、
前記データセットから前記ラベル無しデータをサンプリングすることによって、レビュー用データセットを構成する処理と、
前記データセットに含まれるデータをクラスタリングすることによって、複数のクラスタを生成する処理と、
前記複数のクラスタの少なくとも一部に含まれる前記ラベル無しデータを、前記観点の漏れを軽減するように、前記レビュー用データセットに補充する処理と、を実行する
ことを特徴とするコンピュータ。
【請求項11】
請求項10に記載のコンピュータを用いて、モデルを学習させるための学習用データセットを構成する方法であって、
前記補充されたレビュー用データセットに含まれるラベル無しデータが、前記所定の抽出条件を満たすか否かに基づいて、レビューアが前記ラベルを該ラベル無しデータにそれぞれ付与することにより、前記モデルを学習させるための前記学習用データセットを構成する方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習に供する学習用データを構成するコンピュータ、構成方法、及びプログラムに関する。
【背景技術】
【0002】
学習済みモデルを用いてデータを処理する場合、機械学習に供する学習用データセットを構成する必要がある。例えば、顔画像(人間の顔を像として含む画像)を識別する識別器を教師あり学習のスキームで学習させる場合、多数の顔画像を収集すると共に、各顔画像に正しい識別結果をペアリングすることによって、学習用データセットを構築する必要がある。
【0003】
未知の入力(例えば顔画像)に対して正しい出力(例えば識別結果)を返すことが可能な、高い汎化能力(例えば識別精度)を備えた学習済みモデルを構築するためには、学習用データセットに含まれる学習用データの多様性が重要になる。すなわち、学習済みモデルが汎化能力を発揮すべき課題領域から、まんべんなく収集された学習用データを含む学習用データセットを構成する必要がある。
【0004】
この多様性を担保するために、大量のデータをランダムサンプリングすることによって、学習用データセットを構成するアプローチが従来採用されていた。想定される課題領域の広さ(例えば、識別すべき顔画像の種類など)に対して十分な個数の学習用データを収集することが可能であれば、無作為(ランダム)にサンプリングすることが、課題領域を構成するデータ群と学習用データセットとの統計的差異を縮小する最善の方法だからである。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特許第5567049号公報(2014年8月6日発行)
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、十分な個数の学習用データを収集できない場合、学習用データの多様性を担保することが困難になる。例えば、正しい識別結果を表す教師データを作成するために、専門家(例えば、弁護士や医師など)の判断を要するなど、学習用データを収集するコストが高い場合、想定される課題領域の広さに対して学習用データの数が不足しがちになる。このような場合、課題領域を構成するデータ群からの単純なランダムサンプリングでは、このデータセット群に含まれる一定量以下のデータを取りこぼす可能性があり、課題領域を構成するデータ群と学習用データセットとの統計的差異を必要な精度まで小さくできる保証がない。このため、課題領域における学習済みモデルの汎化能力が十分に高くならない可能性がある。したがって、仮に学習用データを十分に収集できない場合であっても、高い汎化能力を有する学習済みモデルを構築することが可能なデータセットの構成方法が求められている。
【0007】
本発明の一態様は、上記課題に鑑みてなされたものであり、その目的は、高い汎化能力を有する学習済みモデルを構築することが可能な学習用データセットの構築方法を実現することにある。
【課題を解決するための手段】
【0008】
上記の課題を解決するために、本発明の一態様に係るコンピュータは、メモリとコントローラとを備え、機械学習に供する学習用データセットを構成するコンピュータであって、前記メモリには、データセットが格納されており、前記コントローラは、前記データセットから第1学習用データをサンプリングするサンプリング処理と、前記データセットに含まれるデータをクラスタリングすることによって、複数のクラスタを生成するクラスタリング処理と、前記複数のクラスタのうち、前記第1学習用データを含まないクラスタから第2学習用データを選択する選択処理と、前記学習用データセットとして、前記第1学習用データと前記第2学習用データの少なくとも一部とを含む学習用データセットを構成する構成処理と、を実行する。
【0009】
上記の課題を解決するために、本発明の一態様に係る構成方法は、データセットが格納されたメモリとコントローラとを備えたコンピュータを用いて、機械学習に供する学習用データセットを構成する構成方法であって、前記コントローラが、前記データセットから第1学習用データをサンプリングするサンプリング処理と、前記コントローラが、前記データセットに含まれるデータをクラスタリングすることによって、複数のクラスタを生成するクラスタリング処理と、前記コントローラが、前記複数のクラスタのうち、前記第1学習用データを含まないクラスタから第2学習用データを選択する選択処理と、前記コントローラが、前記学習用データセットとして、前記第1学習用データと前記第2学習用データの少なくとも一部とを含む学習用データセットを構成する構成処理と、を含んでいる。
【0010】
上記課題を解決するために、本発明の一態様に係るコンピュータは、メモリとコントローラとを備え、モデルを学習させるための学習用データセットを構成するコンピュータであって、前記メモリは、データセットを記憶しており、前記データセットは、所定の抽出条件を満たすか否かを示すラベルが付与されていない複数のラベル無しデータを少なくとも一部に含み、前記所定の抽出条件は、前記データが該抽出条件を満たすか否かの判断基準となる複数の観点から構成されるものであり、前記コントローラは、前記データセットから前記ラベル無しデータをサンプリングすることによって、レビュー用データセットを構成する処理と、前記データセットに含まれるデータをクラスタリングすることによって、複数のクラスタを生成する処理と、前記複数のクラスタの少なくとも一部に含まれる前記ラベル無しデータを、前記観点の漏れを軽減するように、前記レビュー用データセットに補充する処理と、を実行する。
【発明の効果】
【0011】
本発明の一態様によれば、高い汎化能力を有する学習済みモデルを構築することが可能な学習用データセットの構築方法を実現することができる。
【図面の簡単な説明】
【0012】
図1】本発明の実施形態1に係るコンピュータの構成を示すブロック図である。
図2図1のコンピュータを用いて実施される学習処理における処理の流れを示すフロー図である。
図3図1のコンピュータを用いて実施される学習処理の前半におけるデータの流れを示すフロー図である。
図4図1のコンピュータを用いて実施される学習処理の後半におけるデータの流れを示すフロー図である。
【発明を実施するための形態】
【0013】
〔コンピュータの構成〕
本発明の一実施形態に係るコンピュータ1の構成について、図1を参照して説明する。図1は、コンピュータ1の構成例を示すブロック図である。なお、図1に示されるコンピュータ1の構成は、あくまでも一例に過ぎない。後述するように、コンピュータ1が実行する各処理を、複数のコンピュータで実行することもできる。
【0014】
コンピュータ1は、図1に示したように、バス10と、主メモリ11と、コントローラ12と、補助メモリ13と、入出力インターフェース14と、を備えている。コントローラ12、補助メモリ13、及び入出力インターフェース14は、バス10を介して互いに接続されている。主メモリ11としては、例えば、1又は複数の半導体RAM(random access memory)が用いられる。コントローラ12としては、例えば、1又は複数のCPU(Central Processing Unit)が用いられる。補助メモリ13としては、例えば、HDD(Hard Disk Drive)が用いられる。入出力インターフェース14としては、例えば、USB(Universal Serial Bus)インターフェースが用いられる。
【0015】
入出力インターフェース14には、例えば、入力装置2及び出力装置3が接続される。入力装置2としては、例えば、キーボード及びマウスが用いられる。出力装置3としては、例えば、ディスプレイ及びプリンタが用いられる。なお、コンピュータ1は、ラップトップ型コンピュータのように、入力装置2として機能するキーボート及びトラックパッド、並びに、出力装置3として機能するディスプレイを内蔵していてもよい。また、コンピュータ1は、スマートフォン又はタブレット型コンピュータのように、入力装置2及び出力装置3として機能するタッチパネルを内蔵していてもよい。
【0016】
補助メモリ13には、学習処理Sと、学習処理Sにより得られた学習済みモデルMを用いたマシンレビュー処理と、をコントローラ12に実施させるためのプログラムPが格納されている。コントローラ12は、補助メモリ13に格納されたプログラムPを主メモリ11上に展開し、主メモリ11上に展開されたプログラムPに含まれる各命令を実行することによって、学習処理S及びマシンレビュー処理に含まれる各ステップを実行する。また、補助メモリ13には、学習処理S及びマシンレビュー処理を実施する際にコントローラ12が参照するデータセットDSが格納されている。データセットDSは、少なくとも1つのデータD1,D2,…,Dn(nは1以上の任意の自然数)の集合である。コントローラ12は、補助メモリ13に格納された各データDi(i=1,2,…,n)を主メモリ11上に展開し、これを学習処理S及びマシンレビュー処理を実施する際に参照する。
【0017】
なお、コンピュータ1が内部記憶媒体である補助メモリ13に格納されているプログラムPを用いて学習処理S及びマシンレビュー処理を実施する形態について説明したが、これに限定されない。すなわち、コンピュータ1が外部記録媒体に格納されているプログラムPを用いて学習処理S及びマシンレビュー処理を実施する形態を採用してもよい。この場合、外部記録媒体としては、コンピュータ1が読み取り可能な「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブル論理回路などを用いることができる。あるいは、コンピュータ1が通信ネットワークを介して取得したプログラムPを用いて学習処理S及びマシンレビュー処理を実施する形態を採用してもよい。この場合、通信ネットワークとしては、例えば、インターネット、又はLANなどを用いることができる。
【0018】
なお、本実施形態においては、学習処理S及びマシンレビュー処理を単一のコンピュータ1を用いて実施する形態について説明したが、本発明はこれに限定されない。すなわち、学習処理S及びマシンレビュー処理を構成する各ステップを互いに通信可能に構成された複数のコンピュータを用いて実施する(例えば、並列的に実施する)形態を採用しても構わない。一例として、学習処理Sを構成する一部又は全部のステップを、ホストコンピュータ(サーバ)を用いて実施すると共に、マシンレビュー処理を構成する一部又は全部のステップを、クライアントコンピュータ(端末)を用いて実施する形態が挙げられる。
【0019】
〔学習済みモデル〕
本実施形態に係る学習処理Sにて構築される学習済みモデルMは、データセットDSに含まれる各データDiを入力とし、該データDiが予め定められた抽出条件を満たす程度を表すスコアSiを出力とするモデル(アルゴリズム)である。この学習済みモデルMは、コンピュータ1がマシンレビュー処理を実施するために用いられる。
【0020】
ここで、マシンレビュー処理とは、例えば、コンピュータ1が、学習済みモデルMを用いてデータセットDSに含まれる各データDiのスコアSiを算出する処理のことを指す。なお、スコアSiは、上記抽出条件を満たす確率であってもよい。また、マシンレビュー処理には、データセットDSに含まれるデータD1,D2,…,DnをスコアS1,S2,…,Snの降順にソートする処理が含まれていてもよい。
【0021】
コンピュータ1は、上述したマシンレビュー処理の結果(スコアS1,S2,…,Snであってもよいし、データD1,D2,…,DnをスコアS1,S2,…,Snの降順にソートしたリストであってもよい)をレビューア等のユーザに提示する提示処理を実行する。提示されたマシンレビューの結果は、例えば、レビューアがヒューマンレビューを実施するために利用される。ここで、ヒューマンレビューとは、レビューアが、データセットDSに含まれるデータD1,D2,…,Dnから、上記抽出条件に該当するデータを抽出する作業のことを指す。
【0022】
レビューアは、マシンレビュー処理の結果を参照することで、当該作業を効率的に実施することが可能になる。マシンレビュー処理の結果の利用方法は特に限定されないが、例えば、(1)スコアSiが予め定められた閾値以上のデータDiを当該作業の対象とする(スコアSiが当該閾値未満のデータDiを当該作業の対象としない)方法、(2)データDiに対する当該作業をスコアSiの降順に当該作業を実施する方法、又は、(3)データDiに対して当該作業を実施するレビューアをスコアSiに応じて決定する方法などが挙げられる。
【0023】
なお、ヒューマンレビューは、一般の(又は専門性の低い)レビューアによる一次レビューと、特定の(又は専門性の高い)レビューアによる二次レビューと、により構成されていてもよい。この場合、二次レビューは、例えば、データセットDSに含まれるデータのうち、一次レビューにて抽出されたデータから、上記抽出条件に該当するデータを抽出する作業であり得る。或いは、二次レビューは、データセットDSからサンプリング(例えば、ランダムサンプリングであってよい)されたデータが上記抽出条件に該当するか否かを判断する作業であって、当該判断の結果に基づき一次レビューの正否を確認する抜き取り検査であり得る。
【0024】
一例として、ヒューマンレビューは、米国の民事訴訟におけるディスカバリ手続きにおいて、訴訟関係者(カストディアン)が保有する文章データから米国裁判所に提出する文章データを抽出するためのレビュー作業であり得る。この場合、当該訴訟と関連性を有する文章データが上述した抽出条件を満たすデータとして扱われる。また、この場合、学習済みモデルMの算出するスコアSiは、データDiと当該訴訟との関連性の強さを表すことになる。
【0025】
なお、データセットDSを構成するデータDiは、コンピュータ1によって処理可能な形式を有する任意の電子データであり得る。例えば、データDiは、自然言語で記述された文書を含む文章データであり得る。文章データは、構造化データであっても、非構造化データあってもよい。電子メール(添付ファイル及びヘッダ文章を含む)、技術文書(学術論文、特許公報、製品仕様書、設計図など、技術的事項に関する文書)、プレゼンテーション資料、表計算資料、決算報告書、打ち合わせ資料、各種報告書、営業資料、契約書、組織図、事業計画書、企業分析情報、電子カルテ、ウェブページ(ブログを含む)、ソーシャルネットワークサービスに投稿された記事及びコメントなどは、文章データの一例である。
【0026】
また、データDiは、画像データであり得る。写真、レントゲン画像、CT(Computed Tomography)画像、MRI(Magnetic Resonance Imaging)画像などは、画像データの一例である。例えば、データDiがレントゲン画像である場合、一例として、病巣を被写体として含むレントゲン画像が上述した抽出条件を満たすデータとして扱われる。また、データDiは、音声データであり得る。会話や音楽などを録音した録音データは、音声データの一例である。例えば、データDiが会話を録音した録音データである場合、一例として、特定の話題を含む会話を録音した録音データが上述した抽出条件を満たすデータとして扱われる。また、データDiは、映像データであり得る。風景や映画などを録画した録画データは、映像データの一例である。例えば、データDiが映画を録画した録画データである場合、一例として、特定の俳優が出演する映画を録画した録画データが上述した抽出条件を満たすデータとして扱われる。
【0027】
〔学習処理〕
本発明の一実施形態に係る構成処理を含む学習処理Sについて、図2図4を参照して説明する。図2は、学習処理Sにおける処理の流れを示すフロー図である。図3は、学習処理Sの前半におけるデータの流れを示すフロー図である。図4は、学習処理Sの後半におけるデータの流れを示すフロー図である。
【0028】
学習処理Sは、データセットDSに含まれる各データDiを入力とし、該データDSiが予め定められた抽出条件を満たす程度を表すスコアSiを出力とする学習済みモデルMを得るための処理である。機械学習処理Sは、図2に示すように、学習用データサンプリング処理S1、学習用データラベル付与処理S2、クラスタリング処理S3、1次クラスタ分類処理S4、2次クラスタ分類処理S5、追加学習用データ選択処理S6、機械学習処理S7、スコア算出処理S8、エラー率算出処理S9、低スコア追加学習用データ選択処理S10、及び低スコア追加学習用データラベル付与処理S11を含んでいる。なお、これらの処理S1〜S11は、何れもコンピュータ1のコントローラ12によって実行されてもよいし、複数のコンピュータにそれぞれ搭載された複数のコントローラによって実行されてもよい(例えば、並列的に実行されてもよい)。
【0029】
(学習用データサンプリング処理S1)
学習用データサンプリング処理S1は、データセットDSから予め定められた個数m(m<n)のデータをサンプリングする処理である。以下、データセットDSに含まれるデータD1,D2,…,Dnのうち、学習用データサンプリング処理S1にてサンプリングされたデータを、学習用データTDj(j=1,2,…,m)と記載する。学習用データTDjは、特許請求の範囲における「第1学習用データ」の一例である。また、学習用データTD1,TD2,…,TDmの集合を、学習用データセットTDSと記載する。
【0030】
なお、学習用データセットTDSは、後述する学習用データラベル付与処理S2において、レビューアが予め定められた抽出条件を満たすか否かを判断するデータの集合、すなわち、「レビュー用データセット」と呼ぶことも可能である。
【0031】
(学習用データラベル付与処理S2)
学習用データラベル付与処理S2は、学習用データセットTDSに含まれる各学習用データTDjに、そのデータが予め定められた抽出条件を満たすか否かを示すラベルLjを付与する処理である。各学習用データTDjが抽出条件を満たすか否かの判断は、レビューア(一般の又は専門性の低いレビューアであってもよいし、特定の又は専門性の高いレビューアであってもよいが、後者であることが望ましい)が行う。
【0032】
すなわち、例えば、コンピュータ1は、レビューアに抽出条件を満たすか否かの判断を求め、レビューアの判断結果に応じたラベルを付与する。或いは、ホストコンピュータは、レビューアに抽出条件を満たすか否かの判断を求め、クライアントコンピュータは、レビューアの判断結果に応じたラベルを付与する。
【0033】
ラベルLjは、例えば、2値ラベルであり、学習用データTDjが抽出条件を満たすとき値1を取り、学習用データTDjが抽出条件を満たさないとき値0を取る。また、ラベルLjは、多値ラベルであってもよい。この場合、例えば、抽出条件が複数設定されており、ラベルLjは、第1の抽出条件を満たす場合は値1を取り、第2の抽出条件を満たす場合は値2を取ると言うように、該当する抽出条件に対応する値を取る。
【0034】
(クラスタリング処理S3)
クラスタリング処理S3は、データセットDSに含まれるデータD1,D2,…,Dnをクラスタリングする処理である。クラスタリング処理S3は、例えば、以下のように実行される。まず、データセットDSに含まれる各データDiをベクトルVi(予め定められたベクトル空間Eの元)によって表現する。次に、データセットDSに含まれるデータD1,D2,…,Dnを、ベクトル空間EにおけるベクトルV1,V2,…,Vnの配置に基づいてクラスタリングする。すなわち、対応するベクトルVi,Vi’間の距離d(Vi,Vi’)が小さいデータDi,Di’は同じクラスタに属するように、逆に、対応するベクトルVi,Vi’間の距離d(Vi,Vi’)が大きいデータDi,Di’は異なるクラスタに属するようにクラスタリングする。
【0035】
なお、距離dは、ユークリッド距離であってもよいし、コサイン距離であってもよい。以下、クラスタリング処理S3にて得られたクラスタを、クラスタCk(k=1,2,…,l)と記載する。ここで、lは、クラスタリング処理S3にて得られたクラスタの個数である。なお、ここで説明したアルゴリズムは、あくまでクラスタリング処理に利用可能なアルゴリズムの一例に過ぎない。データを分類する公知のアルゴリズムであれば、どのようなアルゴリズムであっても、クラスタリング処理に利用することが可能である。例えば、クラスタリング処理は、階層的なクラスタリング処理であってもよいし、非階層的なクラスタリング処理であってもよい。また、クラスタリング処理は、離散的なクラスタリング処理であってもよいし、連続的なクラスタリング処理であってもよい。また、距離に基づくクラスタリング処理以外のクラスタリング処理、例えば、超平面の格子分割に基づくクラスタリング処理であってもよい。
【0036】
(データのベクトル化に関する補足)
なお、データDiが文書データである場合、例えば、データDiが表す文章における所定の語彙の出現回数、TF値、又はTF・IDF値を所定の順序で並べることで得られるベクトルを、データDiを表現するベクトルとして利用することができる。或いは、データDiが表す文章の所定の特徴量を所定の順序で並べたベクトルを、データDiを表現するベクトルViとして利用することができる。文章の特徴量としては、例えば、異語数、品詞数、TTR(Type Token Ratio)、CTTR(Corrected Type Token Ratio)、ユールK特性値、係り受け回数、数値比率などの文章の複雑さを表す特徴量や、文字数、語数、文数、段落数などの文章のサイズを表す特徴量などが挙げられる。
【0037】
なお、データdにおける語彙tのTF値tf(t,d)は、例えば、下記式(1)により算出することができる。ここで、nt,dは、データdにおける語彙tの出現回数を表し、Σs∈dns,dは、データdに含まれる各語彙sのデータdにおける出願回数ns,dの総和を表す。また、データdにおける語彙tのTF・IDF値TF・IDF(t,d)は、例えば、下記式(2)(3)により算出することができる。ここで、Nは、データの総数であり、df(t)は、語彙tを含むデータの総数である。
【0038】
【数1】
【数2】
【数3】
【0039】
また、データDiが画像データである場合、例えば、データDiが表す画像の画素値を所定の順序で並べたベクトルを、データDiを表現するベクトルViとして利用することができる。或いは、データDiが表す画像の所定の特徴量を所定の順序で並べたベクトルを、データDiを表現するベクトルViとして利用することができる。また、データDiが音声データである場合、データDiが表す音波の波高値を所定の順序で並べたベクトルを、データDiを表現するベクトルViとして利用することができる。或いは、データDiが表す音波の所定の特徴量を所定の順序で並べたベクトルを、データDiを表現するベクトルViとして利用することができる。
【0040】
(1次クラスタ分類処理S4)
1次クラスタ分類処理S4は、クラスタC1,C2,…,Clを、各クラスタCkに属するデータの個数に応じて、希少クラスタと非希少クラスタとに分類する処理である。ここで、あるクラスタCkが希少クラスタは、例えば、そのクラスタCkに属するデータの個数が予め定められた閾値(例えば3)未満となるクラスタであり得る。また、あるクラスタCkが非希少クラスタは、例えば、そのクラスタCkに属するデータの個数が上記閾値以上となるクラスタであり得る。
【0041】
以下、この例に基づいて、クラスタC1,C2,…,Clのうち、1次クラスタ分類処理S4にて非希少クラスタに分類されたクラスタを、非希少クラスタC’k(k=1,2,…,l’)と記載する。ここで、l’(l’≦l)は、1次クラスタ分類処理S4にて非希少クラスタに分類されたクラスタの個数である。なお、希少クラスタは、以後の処理に利用されることなく、ヒューマンレビューの対象とされる。希少クラスタに含まれるデータは、ノイズである可能性が高く、これを学習用データとして利用すると、学習済みモデルMの汎化能力をかえって低下させる場合があり得るからである。
【0042】
(2次クラスタ分類処理S5)
2次クラスタ分類処理S5は、非希少クラスタC’1,C’2,…,C’l’を、各非希少クラスタC’kが学習用データTDjを含むか否かに応じて、余剰クラスタと非余剰クラスタとに分類する処理である。ここで、ある非希少クラスタC’kが余剰クラスタであるとは、その非希少クラスタC’kが学習用データセットTDSに含まれる学習用データTDjを含まないことを意味する。また、ある非希少クラスタC’kが非余剰クラスタであるとは、その非希少クラスタC’kが学習用データセットTDSに含まれる学習用データTDjを含むことを意味する。
【0043】
以下、非希少クラスタC’1,C’2,…,C’l’のうち、2次クラスタ分類処理S5にて余剰クラスタに分類されたクラスタを、余剰クラスタC”k(k=1,2,…,l”)と記載する。ここで、l”(l”≦l’)は、2次クラスタ分類処理S5にて余剰クラスタに分類されたクラスタの個数である。
【0044】
(追加学習用データ選択処理S6)
追加学習用データ選択処理S6は、各余剰クラスタC”kから少なくとも1つのデータを選択する処理である。追加学習用データ選択処理S6にて選択するデータは、ユーザ(例えば、レビューア)が手動選択したデータであってもよいし、コンピュータ1が自動選択(例えば、ランダムサンプリング)したデータであってもよい。
【0045】
以下、追加学習用データ選択処理S6にて選択されたデータを、追加学習用データATDk(k=1,2,…,l”)と記載する。追加学習用データATDkは、特許請求の範囲における「第2学習用データ」の一例である。また、追加学習用データATD1,ATD2,…,ATDl”の集合を、追加学習用データセットATDSと記載する。
【0046】
(繰り返し)
コンピュータ1は、例えば、以下に説明する機械学習処理S7、スコア算出処理S8、エラー率算出処理S9、低スコア追加学習用データ選択処理S10、及び低スコア追加学習用データラベル付与処理S11を、エラー率算出処理S9にて算出されるエラー率ERが予め定められた閾値未満になるまで繰り返し実行してもよい。
【0047】
以下の説明においては、これらの処理S7〜S11の実行回数を表す変数tを導入し、t回目の処理には符号の末尾に(t)を付す。例えば、機械学習処理S7(1)は、1回目に実行される機械学習処理S7を表し、機械学習処理S7(2)は、2回目に実行される機械学習処理を表す。また、t回目の機械学習処理S(t)により得られる学習済みモデルMを、モデルM(t)と記載する。
【0048】
(機械学習処理S7)
1回目の機械学習処理S7(1)は、(a)学習用データサンプリング処理S1にてサンプリングされた学習用データTD1,TD2,…,TDmと、(b)学習用データラベル付与処理S2にて付与されたラベルL1,L2,…,Lmと、により教師データ(特許請求の範囲における「学習用データセット」の一例)を構成し、この教師データを用いて学習済みモデルM(1)を構築する処理である。
【0049】
一方、t回目(tは2以上の自然数)の機械学習処理S(t)においては、(a)学習用データサンプリング処理S1にてサンプリングされた学習用データTD1,TD2,…,TDmと、(b)学習用データラベル付与処理S2にて付与されたラベルL1,L2,…,Lmと、(c)t−1回目のまでの低スコア追加学習用データ選択処理S10(1),S10(2),…,S10(t−1)にて選択された低スコア追加学習用データLSD(1),LSD(2),…,LDS(t−1)と、(d)t−1回目のまでの低スコア追加学習用データラベル付与処理S11(1),S11(2),…,S11(t−1)にて付与されたラベルL(1),L(2),…,L(t−1)と、により教師データ(特許請求の範囲における「学習用データセット」の一例)を構築し、この教師データを用いて学習済みモデルM(t)を構築する処理である。
【0050】
(スコア算出処理S8)
t回目(tは1以上の自然数)のスコア算出処理S8(t)は、t回目の機械学習処理S7(t)にて得られた学習済みモデルM(t)を用いて、学習用データセットTDSに含まれる各学習用データTDjのスコアSjを算出すると共に、追加学習用データセットATDSに含まれる各追加学習用データATDkのスコアTkを算出する処理である。
【0051】
なお、1回目のスコア算出処理S8(1)を実行した後に、算出されたスコアS1(1),S2(1),…,Sm(1)及びスコアT1(1),T2(1),…,Tl”(1)に応じて学習用データTD1,TD2,…,TDm及び追加学習用データATD1,ATD2,…,ATDl”をソートした結果をユーザに提示する提示処理を実行してもよい。この提示処理は、例えば、学習用データTD1,TD2,…,TDm及び追加学習用データATD1,ATD2,…,ATDl”のタイトルのリストを、スコアS1(1),S2(1),…,Sm(1)及びスコアT1(1),T2(1),…,Tl”(1)の降順に並べたものを、コンピュータ1のコントローラ12が出力装置3(例えば、ディスプレイ)に出力することによって実現される。
【0052】
(エラー率算出処理S9)
t回目(tは1以上の自然数)のエラー率算出処理S9は、t回目のスコア算出処理S8(t)にて得られた学習用データTD1,TD2,…,TDmのスコアS1(t),S2(t),…,Sm(t)、及び、追加学習用データATD1,ATD2,…,ATDl”のスコアT1(t),T2(t),…,Tl”(t)を参照して、学習済みモデルM(t)のエラー率ERを算出する処理である。ここでは、例えば、ラベルLjが1である(抽出条件を満たす)学習用データTDjのスコアSjが予め定められた閾値Th以下になることをエラーと見做す。
【0053】
この場合、エラー率ERは、例えば、ラベルLjが1であり、かつ、スコアSjが閾値Th以下である学習用データTDjの個数をA、ラベルLjが0であり、かつ、スコアSjが閾値Th以下である学習用データTDjの個数をB、スコアTkが閾値Th以下である追加学習データATDkの個数をCとして、ER=A/(A+B+C)により算出される。t回目のエラー率算出処理S9(t)にて算出されたエラー率ERが予め定められた閾値未満である場合、学習済みモデルM=M(t)を用いて、上述したマシンレビュー処理が実行される。
【0054】
(低スコア追加学習用データ選択処理S10)
t回目(tは1以上の自然数)の低スコア追加学習用データ選択処理S10(t)は、追加学習用データセットATDSから、スコアTkの低い少なくとも1の追加学習用データATDkを選択する処理である。ただし、t−1回目までの低スコア追加学習用データ選択処理S10(1),S10(2),…,S10(t−1)にて選択された追加学習用データATDkは、t回目の低スコア追加学習用データ選択処理S10(t)では選択されないものとする。
【0055】
以下、追加学習用データセットATDSに含まれる追加学習用データATD1,ATD2,….ATDl”のうち、t回目の低スコア追加学習用データ選択処理S10(t)にて選択された追加学習用データを、低スコア追加学習用データLSD(t)と記載する。なお、低スコア追加学習用データ選択処理S10においては、スコアの低い方から順に予め定められた個数の追加学習用データを選択してもよいし、スコアが予め定められた閾値以下である追加学習用データから予め定められた個数の追加学習用データをランダムに選択してもよい。
【0056】
(低スコア追加学習用データラベル付与処理S11)
t回目(tは1以上の自然数)の低スコア追加学習用データラベル付与処理S11は、t回目の低スコア追加学習用データ選択処理S10(t)にて選択された低スコア追加学習用データLSD(t)に、予め定められた抽出条件を満たすか否かを示すラベルL(t)を付与する処理である。
【0057】
低スコア追加学習用データLSDが抽出条件を満たすか否かの判断は、レビューア(人間)が行う(コンピュータは、レビューアに抽出条件を満たすか否かの判断を求め、レビューアの判断結果に応じたラベルを付与する)。ラベルL(t)は、2値ラベルであり、例えば、低スコア追加学習用データLSD(t)が抽出条件を満たすとき値1を取り、低スコア追加学習用データLSD(t)が抽出条件を満たさないとき値0を取る。
【0058】
なお、学習用データセット作成ルーチン(学習用データサンプリング処理S1、及び学習用データラベル付与処理S2)と、追加学習用データセット作成ルーチン(クラスタリング処理S3、1次クラスタ分類処理S4、2次クラスタ分類処理S5、及び追加学習用データ選択処理S6)とは、互いに独立処理である。したがって、学習用データセット作成ルーチンを実行した後に追加学習用データ作成ルーチンを実行してもよいし、追加学習用データセット作成ルーチンを実行した後に学習用データセット作成ルーチンを実行してもよいし、学習用データ作成ルーチンと追加学習用データ作成ルーチンとを並列的に実施してもよい。
【0059】
また、上述した抽出条件は、データセットDSに含まれる各データDiが当該抽出条件を満たすか否かの判断基準になる複数の観点により構成されていてもよい。例えば、当該抽出条件がK1,K2,…,Kn(nは観点の数を表す自然数)の観点を含む場合、コンピュータ1がデータセットをクラスタリングすると、各観点に対応するようにクラスタが生成される。したがって、各クラスタに含まれるラベル無しデータは、当該クラスタに対応する観点を含む。ただし、これは理想的な場合であり、ある観点を含むラベル無しデータが別の観点に対応するクラスタに誤ってクラスタリングされる場合が起こり得る。また、1つのラベル無しデータが複数の観点を含む場合も考えられ、この場合は当該ラベル無しデータが当該観点に対応する1つのクラスタにクラスタリングされる場合も起こり得る。
【0060】
コンピュータ1は、データセットからラベル無しデータをレビュー用データセットとしてサンプリングし、当該データセットに含まれるラベル無しデータをクラスタリングする(当該サンプリングの処理と当該クラスタリングの処理とは、順序が逆でもよい)。そして、コンピュータ1は、例えば、あるクラスタに含まれるデータの数がある程度大きいにもかかわらず、当該クラスタに含まれるデータが上記レビュー用データセットに含まれていない場合、当該クラスタに含まれるデータを当該レビュー用データセットに追加する。
【0061】
言い換えれば、コンピュータ1は、例えば、クラスタC1,C2,…,Clの少なくとも一部に含まれるラベル無しデータ(学習用データセットTDSに含まれないデータ)を上記観点の漏れを軽減するように、学習用データセットTDSに当該ラベル無しデータを補充することができる。この場合、当該補充されたラベル無しデータが当該抽出条件を満たすか否かに基づいて、レビューアがこれらのラベル無しデータの各々にラベルを付与することにより(レビューアの判断に応じて決まるラベルをコンピュータ1が付与すると言い換えてもよい)、学習済みモデルMを構築するための学習用データセットを構成してもよい。
【0062】
〔まとめ〕
本発明の態様1に係るコンピュータは、メモリとコントローラとを備え、機械学習に供する学習用データセットを構成するコンピュータであって、前記メモリには、データセットが格納されており、前記コントローラは、前記データセットから第1学習用データをサンプリングするサンプリング処理と、前記データセットに含まれるデータをクラスタリングすることによって、複数のクラスタを生成するクラスタリング処理と、前記複数のクラスタのうち、前記第1学習用データを含まないクラスタから第2学習用データを選択する選択処理と、前記学習用データセットとして、前記第1学習用データと前記第2学習用データの少なくとも一部とを含む学習用データセットを構成する構成処理と、を実行する。
【0063】
上記の構成によれば、ランダムサンプリングにより選択された第1学習用データに加えて、第1学習用データを含まないクラスタから選択された第2学習用データの少なくとも一部を含む学習用データセットを構成することができる。このため、例えば、ランダムにサンプリングされた学習用データからなる学習用データセットに比べて、多様性の高い学習用データセットを構成することができる。したがって、上記の構成により得られた学習用データセットを用いた機械学習を行うことによって、十分に高い汎化能力を有する学習済みモデルを構築することが可能になる。特に、十分な個数の学習用データを収集できない場合であっても、上記の構成により得られた学習用データセットを用いた機械学習を行うことによって、十分に高い汎化能力を有する学習済みモデルを構築することが可能である。
【0064】
なお、上記の構成により得られた学習用データセットは、例えば、クライアントからの依頼された特定の情報処理(推論)を行う学習済みモデルを構築するために利用することができる。この場合、学習済みモデルが汎化能力を発揮すべき課題領域から学習用データがまんべんなく収集されていないと、学習済みモデルによる情報処理の結果に対するクライアントの納得が得難い傾向がある。上記の構成によれば、サンプリング処理により抽出された第1学習用データだけでなく、サンプリング処理より抽出されたデータを含まないクラスタから選択された第2学習用データを含む学習用データセットが構築される。このため、学習済みモデルによる情報処理の結果に対するクライアントの納得が得易くなるという副次的な効果も期待できる。
【0065】
本発明の態様2に係るコンピュータは、上記態様1において、前記選択処理は、前記複数のクラスタのうち、前記第1学習用データを含まないクラスタであって、包含するデータの個数が予め定められた閾個数(当該個数と比較される閾値)を上回るクラスタから前記第2学習用データを選択する処理である、ことが好ましい。
【0066】
上記の構成によれば、包含するデータの個数が比較的多いクラスタから選択された第2学習用データが学習用データセットに組み込まれる。したがって、包含するデータの個数が比較的多いクラスタに含まれるデータが学習用データセットにひとつも組み込まれないことによって生じ得る、学習用データセットの多様性の低下を避けることができる。したがって、上記の構成によれば、より多様性の高い学習用データセットを構成することができる。なお、個数が閾個数を上回るとは、例えば、当該個数が閾個数以上であること、又は、当該個数が閾個数よりも大きいことを指す。
【0067】
本発明の態様3に係るコンピュータは、上記態様1又は2において、前記コントローラは、前記データセットに含まれるデータを入力とし、該データが予め定められた抽出条件を満たす程度を表すスコアを出力とする学習済みモデルであって、前記学習用データセットを用いた機械学習により構築された学習済みモデルを用いて、前記第1学習用データ及び前記第2学習用データのスコアを算出するスコア算出処理をさらに実行し、前記構成処理は、前記第1学習用データと前記スコアが予め定められた第1閾スコア(当該スコアと比較される閾値)を下回る前記第2学習用データとを含む学習用データセットを構成する処理である、ことが好ましい。
【0068】
上記の構成によれば、既存の学習済みモデルにより算出されるスコアが比較的低い第2学習用データが学習用データセットに組み込まれる。すなわち、既存の学習済みモデルではその重要性を捉えられないデータが学習用データに組み込まれることになる。したがって、上記の構成によれば、より多様性の高い学習用データセットを構成することができる。なお、スコアが第1閾スコアを下回るとは、当該スコアが第1閾スコア以下であること、又は、当該スコアが第1閾スコアよりも小さいことを指す。
【0069】
本発明の態様4に係るコンピュータは、上記態様1〜3の何れか一態様において、前記コントローラは、ユーザの指示に基づき、予め定められた抽出条件を満たす前記第1学習用データに特定のラベルを付与するラベル付与処理と、前記データセットに含まれるデータを入力とし、該データが前記抽出条件を満たす程度を表すスコアを出力とする学習済みモデルであって、前記学習用データセットを用いた機械学習により構築された学習済みモデルを用いて、前記第1学習用データ及び前記第2学習用データのスコアを算出するスコア算出処理と、前記ラベルが付与された前記第1学習用データであって、前記スコアが予め定められた第2閾スコア(当該スコアと比較される閾値。上記第1閾スコアと一致してしてもよいし、相違していてもよい)を下回る第1学習用データの個数に応じて、前記学習済みモデルのエラー率を算出するエラー率算出処理と、をさらに実行し、上記エラー率が予め定められた閾値を下回るまで、上記構成処理を前記学習用データセットに新たな第2学習用データを追加しながら繰り返す、ことが好ましい。
【0070】
上記の構成によれば、予め定められた抽出条件を満たすとレビューアが判断したデータに低いスコアが与えられる可能性が十分に小さい学習済みモデルを構築することが可能な学習用データセットを構成することができる。なお、スコアが第2閾スコアを下回るとは、当該スコアが第2閾スコア以下であること、又は、当該スコアが第2閾スコアよりも小さいことを指す。また、エラー率が閾値を下回るとは、当該エラー率が当該閾値以下であること、又は、当該エラー率が当該閾値より小さいことを指す。
【0071】
本発明の態様5に係るコンピュータは、上記態様1〜4の何れか一態様において、前記選択処理は、前記複数のクラスタのうち、第1学習用データを含まないクラスタから、ユーザの指定した第2学習用データを選択する処理である、ことが好ましい。
【0072】
上記の構成によれば、第1学習用データを含まないクラスタから、ユーザが特に学習用データセットの多様性を高める効果が高いと判断したデータを、学習用データセットに組み込むことが可能になる。したがって、上記の構成によれば、より多様性の高い学習用データセットを構成することができる。
【0073】
本発明の態様6に係るコンピュータは、上記態様1〜5の何れか一態様において、前記コントローラは、前記データセットに含まれるデータを入力とし、該データが予め定められた抽出条件を満たす程度を表すスコアを出力とする学習済みモデルであって、前記第1学習用データからなる初期学習用データセットを用いた機械学習により構築された学習済みモデルを用いて、前記第1学習用データ及び前記第2学習用データのスコアを算出するスコア算出処理と、前記スコア、又は、前記第1学習用データ及び前記第2学習用データを前記スコアに応じてソートした結果を、ユーザに提示する提示処理と、をさらに実行する、ことが好ましい。
【0074】
上記の構成によれば、ユーザは、前記スコア、又は、前記第1学習用データ及び前記第2学習用データを前記スコアに応じてソートした結果を参照することによって、例えば、前記抽出条件を満たすデータを抽出するヒューマンレビューを効率的に実施することが可能になる。
【0075】
本発明の態様7に係るコンピュータは、上記態様1〜6の何れか一態様において、前記データセットは、予め定められた抽出条件を満たすデータを抽出するヒューマンレビューの対象となるデータを含み、前記コントローラは、前記データセットに含まれるデータを入力とし、該データが前記抽出条件を満たす程度を表すスコアを出力とする学習済みモデルであって、前記学習用データセットを用いた機械学習により構築された学習済みモデルを用いて、前記データセットに含まれる各データのスコアを算出するマシンレビュー処理をさらに実行する、ことが好ましい。
【0076】
上記の構成によれば、十分に高い汎化能力を有する学習済みモデルを用いて、データセットのマシンレビューを実施することが可能になる。
【0077】
本発明の態様8に係る構成方法は、データセットが格納されたメモリとコントローラとを備えたコンピュータを用いて、機械学習に供する学習用データセットを構成する構成方法であって、前記コントローラが、前記データセットから第1学習用データをサンプリングするサンプリング処理と、前記コントローラが、前記データセットに含まれるデータをクラスタリングすることによって、複数のクラスタを生成するクラスタリング処理と、前記コントローラが、前記複数のクラスタのうち、前記第1学習用データを含まないクラスタから第2学習用データを選択する選択処理と、前記コントローラが、前記学習用データセットとして、前記第1学習用データと前記第2学習用データの少なくとも一部とを含む学習用データセットを構成する構成処理と、を含んでいる。
【0078】
上記の構成によれば、ランダムサンプリングにより選択された第1学習用データに加えて、第1学習用データを含まらないクラスタから選択された第2学習用データの少なくとも一部を含む学習用データセットを構成することができる。このため、サンプリングに選択された学習用データからなる学習用データセット比べて、多様性の高い学習用データセットを構成することができる。したがって、上記の構成により得られた学習用データセットを用いた機械学習を行うことによって、十分な個数の学習用データを収集できない場合であっても、十分に高い汎化能力を有する学習済みモデルを構築することが可能になる。
【0079】
なお、コンピュータを動作させることにより上記サンプリング処理、上記クラスタリング処理、上記選択処理、及び上記構成処理を実行させるプログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
本発明の態様10に係るコンピュータは、メモリとコントローラとを備え、モデルを学習させるための学習用データセットを構成するコンピュータであって、前記メモリは、データセットを記憶しており、前記データセットは、所定の抽出条件を満たすか否かを示すラベルが付与されていない複数のラベル無しデータを少なくとも一部に含み、前記所定の抽出条件は、前記データが該抽出条件を満たすか否かの判断基準となる複数の観点から構成されるものであり、前記コントローラは、前記データセットから前記ラベル無しデータをサンプリングすることによって、レビュー用データセットを構成する処理と、前記データセットに含まれるデータをクラスタリングすることによって、複数のクラスタを生成する処理と、前記複数のクラスタの少なくとも一部に含まれる前記ラベル無しデータを、前記観点の漏れを軽減するように、前記レビュー用データセットに補充する処理と、を実行する。
本発明の態様11に係る方法は、上記態様10に記載のコンピュータを用いて、モデルを学習させるための学習用データセットを構成する方法であって、前記補充されたレビュー用データセットに含まれるラベル無しデータが、前記所定の抽出条件を満たすか否かに基づいて、レビューアが前記ラベルを該ラベル無しデータにそれぞれ付与することにより、前記モデルを学習させるための前記学習用データセットを構成する。
上記の構成によれば、上記観点の漏れを軽減することができるため、例えば、ランダムにサンプリングされたレビュー用データからなるレビュー用データセットよりも、観点の多様性が担保されたレビュー用データセットを構成することができる。これをレビューアがレビューし、ラベルを付与して学習用データセットを構成することにより、高い汎化能力を有する学習済みモデルを構築することが可能になる。特に、学習用データの量が不十分となる場合であっても、高い汎化能力を発揮するモデルを得ることができる。
【符号の説明】
【0080】
1:コンピュータ、11:メモリ、12:コントローラ、S:機械学習処理(特許請求の範囲における「構成方法」の一例を含む)、S1:学習用データサンプリング処理(特許請求の範囲における「サンプリング処理」の一例)、S2:学習用データラベル付与処理(特許請求の範囲における「ラベル付与処理」の一例)、S3:クラスタリング処理(特許請求の範囲における「サンプリング処理」の一例)、S4:1次クラスタ分類処理、S5:2次クラスタ分類処理、S6:追加学習用データ選択処理(特許請求の範囲における「選択処理」の一例)、S7:機械学習処理、S8:スコア算出処理(特許請求の範囲における「スコア算出処理」の一例)、S9:エラー率算出処理(特許請求の範囲における「エラー率算出処理」の一例)、S10:低スコア追加学習用データ選択処理、S11:低スコア追加学習用データラベル付与処理。
【要約】
【課題】高い汎化能力を有する学習済みモデルを構築する。
【解決手段】コンピュータのメモリには、データセットが格納されている。コンピュータのコントローラは、データセットから第1学習用データをサンプリングするサンプリング処理と、データセットに含まれるデータをクラスタリングすることによって、複数のクラスタを生成するクラスタリング処理と、複数のクラスタのうち、第1学習用データを含まないクラスタから第2学習用データを選択する選択処理と、学習用データセットとして、第1学習用データと第2学習用データの少なくとも一部とを含む学習用データセットを構成する構成処理とを実行する。
【選択図】図1
図1
図2
図3
図4