(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022186072
(43)【公開日】2022-12-15
(54)【発明の名称】教師データ作成装置、教師データ作成方法、および教師データ作成プログラム
(51)【国際特許分類】
G06N 20/00 20190101AFI20221208BHJP
G06N 20/10 20190101ALI20221208BHJP
【FI】
G06N20/00 130
G06N20/10
【審査請求】未請求
【請求項の数】19
【出願形態】OL
(21)【出願番号】P 2021094106
(22)【出願日】2021-06-04
(71)【出願人】
【識別番号】000001270
【氏名又は名称】コニカミノルタ株式会社
(74)【代理人】
【識別番号】110000671
【氏名又は名称】八田国際特許業務法人
(72)【発明者】
【氏名】寺中 駿人
(57)【要約】
【課題】ラベル付与済の教師データの数量によらず、一貫性のあるラベル付与がされた教師データの作成が可能な、教師データ作成装置を提供する。
【解決手段】データを分類する分類器の学習に使用される教師データを作成するための教師データ作成装置であって、入力された第1データに類似する第2データおよび第2データに付与された分類情報を出力する出力制御部と、第1データに付与する分類情報を受け付ける受付部と、受け付けられた分類情報を前記第1データに付与して、教師データを作成する教師データ作成部と、を有する教師データ作成装置。
【選択図】
図7
【特許請求の範囲】
【請求項1】
データを分類する分類器の学習に使用される教師データを作成するための教師データ作成装置であって、
入力された第1データに類似する第2データおよび前記第2データに付与された分類情報を出力する出力制御部と、
前記第1データに付与する前記分類情報を受け付ける受付部と、
受け付けられた前記分類情報を前記第1データに付与して、前記教師データを作成する教師データ作成部と、
を有する教師データ作成装置。
【請求項2】
前記出力制御部は、前記第2データおよび前記分類情報とともに、前記第2データの前記第1データに対する類似度をさらに出力する、請求項1に記載の教師データ作成装置。
【請求項3】
前記第1データおよび前記第2データは、文章データである、請求項1または2に記載の教師データ作成装置。
【請求項4】
前記出力制御部は、
前記第1データを前記特徴ベクトルに変換する変換部と、
前記第1データが変換された前記特徴ベクトルに前記特徴ベクトルが類似する前記第2データ、および前記第2データに付与された前記分類情報を出力する出力部と、を有する、請求項1~3のいずれか一項に記載の教師データ作成装置。
【請求項5】
前記変換部は、前記データを用いた教師無し学習により生成された学習済みモデルにより、前記第1データを前記特徴ベクトルに変換する、請求項4に記載の教師データ作成装置。
【請求項6】
前記第2データは、過去に前記教師データ作成部により前記分類情報が付与されたことで前記分類情報とともに前記教師データをなすデータである、請求項1~5のいずれか一項に記載の教師データ作成装置。
【請求項7】
前記出力制御部は、過去に前記受付部が受け付けた前記分類情報を、前記受付部において前記分類情報を受け付けるための誘導情報とともにさらに出力する、請求項1~6のいずれか一項に記載の教師データ作成装置。
【請求項8】
前記出力制御部は、過去に前記受付部が受け付けた前記分類情報を、選択可能に出力し、
前記受付部は、前記出力制御部が選択可能に出力した前記分類情報のうち、選択された前記分類情報を、前記第1データに付与する前記分類情報として受け付ける、請求項1~7のいずれか一項に記載の教師データ作成装置。
【請求項9】
前記出力制御部は、過去に前記受付部が受け付けた前記分類情報以外の追加の前記分類情報を受け付け可能にするための選択オブジェクトと、前記追加の前記分類情報を入力するための入力欄とをさらに出力し、
前記受付部は、前記選択オブジェクトが選択されて前記入力欄に入力された前記分類情報を、前記第1データに付与する前記分類情報として受け付ける、請求項8に記載の教師データ作成装置。
【請求項10】
データを分類する分類器の学習に使用される教師データを作成するための教師データ作成方法であって、
入力された第1データに類似する第2データおよび前記第2データに付与された分類情報を出力するステップ(a)と、
前記第1データに付与する前記分類情報を受け付けるステップ(b)と、
受け付けられた前記分類情報を前記第1データに付与して、前記教師データを作成するステップ(c)と、
を有する教師データ作成方法。
【請求項11】
前記ステップ(a)は、前記第2データおよび前記分類情報とともに、前記第2データの前記第1データに対する類似度をさらに出力する、請求項10に記載の教師データ作成方法。
【請求項12】
前記第1データおよび前記第2データは、文章データである、請求項10または11に記載の教師データ作成方法。
【請求項13】
前記ステップ(a)は、
前記第1データを前記特徴ベクトルに変換するステップ(d)と、
前記第1データが変換された前記特徴ベクトルに前記特徴ベクトルが類似する前記第2データ、および前記第2データに付与された前記分類情報を出力するステップ(e)と、を有する、請求項10~12のいずれか一項に記載の教師データ作成方法。
【請求項14】
前記ステップ(d)においては、前記データを用いた教師無し学習により生成された学習済みモデルにより、前記第1データを前記特徴ベクトルに変換する、請求項13に記載の教師データ作成方法。
【請求項15】
前記第2データは、過去に前記ステップ(c)において前記分類情報が付与されたことで前記分類情報とともに前記教師データをなすデータである、請求項10~14のいずれか一項に記載の教師データ作成方法。
【請求項16】
前記ステップ(a)においては、過去に前記ステップ(b)において受け付けた前記分類情報を、前記ステップ(b)において前記分類情報を受け付けるための誘導情報とともにさらに出力する、請求項10~15のいずれか一項に記載の教師データ作成方法。
【請求項17】
前記ステップ(a)においては、過去に前記ステップ(b)において受け付けた前記分類情報を、選択可能に出力し、
前記ステップ(b)は、前記ステップ(a)において選択可能に出力された前記分類情報のうち、選択された前記分類情報を、前記第1データに付与する前記分類情報として受け付ける、請求項10~16のいずれか一項に記載の教師データ作成方法。
【請求項18】
前記ステップ(a)においては、過去に前記ステップ(b)において受け付けた前記分類情報以外の追加の前記分類情報を受け付け可能にするための選択オブジェクトと、前記追加の前記分類情報を入力するための入力欄とをさらに出力し、
前記ステップ(b)においては、前記選択オブジェクトが選択されて前記入力欄に入力された前記分類情報を、前記第1データに付与する前記分類情報として受け付ける、請求項17に記載の教師データ作成方法。
【請求項19】
請求項10から請求項18のいずれか一項に記載の教師データ作成方法を、コンピューターに実行させるための教師データ作成プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、教師データ作成装置、教師データ作成方法、および教師データ作成プログラムに関する。
【背景技術】
【0002】
近年、電子メールのスパムフィルターやウェブページ上の有害な文章のフィルター等を始めとして、さまざまな用途に用いられる文章分類等の自動化の開発が進められている。特に、機械学習を用いた、文章分類等のアルゴリズムの開発が促進されている。
【0003】
上記技術に関連し、下記特許文献1には次の先行技術が開示されている。特定の分野に関する参照データの第1の特徴ベクトルを算出する。第1の特徴ベクトルから、当該特定の分野に関するデータを収集に用いる、検索語の組合せ等の検索条件を生成する。当該検索条件をもとに当該特定の分野に関するデータを文書データベースから収集する。収集されたデータの第2の特徴ベクトルを算出する。第2の特徴ベクトルと第1の特徴ベクトルの類似度を算出する。そして、収集されたデータから、当該類似度が所定の範囲内にあるデータを、機械学習に用いる教師データとして抽出する。
【0004】
また、特許文献2には次の先行技術が開示されている。複数の教示クラスのいずれかに教示された複数の教師画像を当該教示クラスとともに記憶する。複数の教示クラスから選択される教師画像の集合を訓練画像群として、互いに異なる集合である所定数の訓練画像群を選択する。各訓練画像群を用いて学習することでそれぞれ構築される分類器を用いて各教師画像を当該複数の教示クラスのいずれかにそれぞれ分類する。そして、各教師画像において当該所定数の訓練画像群を用いて各分類器により分類される各クラスの分類率が最も多く分類されるクラスが、各教師画像の教示クラスと異なる場合に当該教師画像を特定教師画像として特定して各クラスの当該分類率とともに表示する。これにより、表示される各クラスの分類率に基づいてユーザーにより特定教師画像の教示クラスが修正されることで、教師画像に教示された誤った教示クラスを修正できる。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2018-124617号公報
【特許文献2】特開2017-162232号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、特許文献1に記載された先行技術は、各文章に一貫性のあるラベル付与がされた教師データを作成できないという問題がある。また、特許文献2に記載された先行技術は、教師画像に教示される教示クラスの精度が分類器の精度に依存するという問題がある。また、各分類器の学習に必要な比較的大量な教師画像等があらかじめ必要になるという問題もある。
【0007】
本発明はこのような問題を解決するためになされたものである。すなわち、ラベル付与済の教師データの数量によらず、一貫性のあるラベル付与がされた教師データの作成が可能な、教師データ作成装置、教師データ作成方法、および教師データ作成プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明の上記課題は、以下の手段によって解決される。
【0009】
(1)データを分類する分類器の学習に使用される教師データを作成するための教師データ作成装置であって、入力された第1データに類似する第2データおよび前記第2データに付与された分類情報を出力する出力制御部と、前記第1データに付与する前記分類情報を受け付ける受付部と、受け付けられた前記分類情報を前記第1データに付与して、前記教師データを作成する教師データ作成部と、を有する教師データ作成装置。
【0010】
(2)前記出力制御部は、前記第2データおよび前記分類情報とともに、前記第2データの前記第1データに対する類似度をさらに出力する、上記(1)に記載の教師データ作成装置。
【0011】
(3)前記第1データおよび前記第2データは、文章データである、上記(1)または(2)に記載の教師データ作成装置。
【0012】
(4)前記出力制御部は、前記第1データを前記特徴ベクトルに変換する変換部と、前記第1データが変換された前記特徴ベクトルに前記特徴ベクトルが類似する前記第2データ、および前記第2データに付与された前記分類情報を出力する出力部と、を有する、上記(1)~(3)のいずれかに記載の教師データ作成装置。
【0013】
(5)前記変換部は、前記データを用いた教師無し学習により生成された学習済みモデルにより、前記第1データを前記特徴ベクトルに変換する、上記(4)に記載の教師データ作成装置。
【0014】
(6)前記第2データは、過去に前記教師データ作成部により前記分類情報が付与されたことで前記分類情報とともに前記教師データをなすデータである、上記(1)~(5)のいずれかに記載の教師データ作成装置。
【0015】
(7)前記出力制御部は、過去に前記受付部が受け付けた前記分類情報を、前記受付部において前記分類情報を受け付けるための誘導情報とともにさらに出力する、上記(1)~(6)のいずれかに記載の教師データ作成装置。
【0016】
(8)前記出力制御部は、過去に前記受付部が受け付けた前記分類情報を、選択可能に出力し、前記受付部は、前記出力制御部が選択可能に出力した前記分類情報のうち、選択された前記分類情報を、前記第1データに付与する前記分類情報として受け付ける、上記(1)~(7)のいずれかに記載の教師データ作成装置。
【0017】
(9)前記出力制御部は、過去に前記受付部が受け付けた前記分類情報以外の追加の前記分類情報を受け付け可能にするための選択オブジェクトと、前記追加の前記分類情報を入力するための入力欄とをさらに出力し、前記受付部は、前記選択オブジェクトが選択されて前記入力欄に入力された前記分類情報を、前記第1データに付与する前記分類情報として受け付ける、上記(8)に記載の教師データ作成装置。
【0018】
(10)データを分類する分類器の学習に使用される教師データを作成するための教師データ作成方法であって、入力された第1データに類似する第2データおよび前記第2データに付与された分類情報を出力するステップ(a)と、前記第1データに付与する前記分類情報を受け付けるステップ(b)と、受け付けられた前記分類情報を前記第1データに付与して、前記教師データを作成するステップ(c)と、を有する教師データ作成方法。
【0019】
(11)前記ステップ(a)は、前記第2データおよび前記分類情報とともに、前記第2データの前記第1データに対する類似度をさらに出力する、上記(10)に記載の教師データ作成方法。
【0020】
(12)前記第1データおよび前記第2データは、文章データである、上記(10)または(11)に記載の教師データ作成方法。
【0021】
(13)前記ステップ(a)は、前記第1データを前記特徴ベクトルに変換するステップ(d)と、前記第1データが変換された前記特徴ベクトルに前記特徴ベクトルが類似する前記第2データ、および前記第2データに付与された前記分類情報を出力するステップ(e)と、を有する、上記(10)~(12)のいずれかに記載の教師データ作成方法。
【0022】
(14)前記ステップ(d)においては、前記データを用いた教師無し学習により生成された学習済みモデルにより、前記第1データを前記特徴ベクトルに変換する、上記(13)に記載の教師データ作成方法。
【0023】
(15)前記第2データは、過去に前記ステップ(c)において前記分類情報が付与されたことで前記分類情報とともに前記教師データをなすデータである、上記(10)~(14)のいずれかに記載の教師データ作成方法。
【0024】
(16)前記ステップ(a)においては、過去に前記ステップ(b)において受け付けた前記分類情報を、前記ステップ(b)において前記分類情報を受け付けるための誘導情報とともにさらに出力する、上記(10)~(15)のいずれかに記載の教師データ作成方法。
【0025】
(17)前記ステップ(a)においては、過去に前記ステップ(b)において受け付けた前記分類情報を、選択可能に出力し、前記ステップ(b)は、前記ステップ(a)において選択可能に出力された前記分類情報のうち、選択された前記分類情報を、前記第1データに付与する前記分類情報として受け付ける、上記(10)~(16)のいずれかに記載の教師データ作成方法。
【0026】
(18)前記ステップ(a)においては、過去に前記ステップ(b)において受け付けた前記分類情報以外の追加の前記分類情報を受け付け可能にするための選択オブジェクトと、前記追加の前記分類情報を入力するための入力欄とをさらに出力し、前記ステップ(b)においては、前記選択オブジェクトが選択されて前記入力欄に入力された前記分類情報を、前記第1データに付与する前記分類情報として受け付ける、上記(17)に記載の教師データ作成方法。
【0027】
(19)上記(10)から上記(18)のいずれかに記載の教師データ作成方法を、コンピューターに実行させるための教師データ作成プログラム。
【発明の効果】
【0028】
入力された第1データに類似する第2データ、および第2データに付与された分類情報を出力し、第1データに付与する分類情報を受け付け、受け付けられた分類情報を第1データに付与して、前記教師データを作成する。これにより、ラベル付与済の教師データの数量によらず、一貫性のあるラベル付与がされた教師データを作成できる。
【図面の簡単な説明】
【0029】
【
図1】教師データ作成システムの構成を示す図である。
【
図3】教師データ作成装置の制御部の機能ブロック図である。
【
図4】出力制御部により操作表示部に出力される出力画面を示す図である。
【
図5】教師データを用いた分類器の学習時の制御部の機能を示すブロック図である。
【
図6】教師データを用いて学習された学習済みの分類器による分類時の制御部の機能を示すブロック図である。
【
図7】教師データ作成システムの動作を示すフローチャートである。
【発明を実施するための形態】
【0030】
以下、図面を参照して、本発明の実施形態に係る、教師データ作成装置、教師データ作成方法、および教師データ作成プログラムについて説明する。なお、図面において、同一の要素には同一の符号を付し、重複する説明を省略する。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。
【0031】
図1は、教師データ作成システム10の構成を示す図である。
図2は、教師データ作成装置100のブロック図である。教師データ作成装置100は、複数の装置により構成されてもよい。例えば、記憶部120の一部または全部は、インターネット等のネットワーク上に配置された複数のサーバーによって仮想的に構築されるクラウドサーバーにより構成され得る。
【0032】
教師データ作成システム10は、教師データ作成装置100および入力装置200を含み得る。
【0033】
入力装置200は、機械学習に用いる教師データ(以下、単に「教師データ」と称する)を作成する際に、正解クラスラベル(以下、単に「ラベル」と称する)が付与されるデータ(以下、「入力データ」とも称する)を入力するための装置であり、必要に応じて設置される。以下、説明を簡単にするために、入力データは文章データであるものとして説明する。教師データは、入力データにラベルが付与されることで作成される。すなわち、教師データは、入力データとラベルとの組合せにより構成される。なお、説明の都合上、これから作成される教師データと、既に作成されている既存の教師データとを区別するために、既存の教師データは、「教師文章データ」(入力データに対応)とラベルとの組合せとして以下説明する。既存の教師データは、操作表示部140において受け付けられたラベルが入力データに付与されることで過去に作成された教師データであり得る。
【0034】
教師データは、文章データ(データ)を分類する分類器の学習(機械学習)に使用される。分類器は、例えばニューラルネットワークのモデルであり得る。分類器による文章データの分類は、具体的には、分類器に文章データが入力されたときに、当該文章データが分類されるべきクラスが出力されることに対応する。
【0035】
入力装置200は、教師データ作成装置100のみにより入力データが取得できる場合は省略され得る。
【0036】
入力データは、文章のデータ(以下、「文章データ」とも称する)であり得る。入力データには、文章データの他、音声、音、画像(文字の画像以外を含む)等が含まれ得る。以下、説明を簡単にするために、入力データは文章データであるものとして説明する。
【0037】
入力装置200は、文章データ等の入力データを取得可能な装置である。入力装置200は、例えば、HTML(HyperText Markup Language)データに含まれる文章のコンテンツをテキストデータ(文章データ)に変換し、または当該コンテンツからテキストデータを抽出する装置により構成され得る。入力装置200は、紙媒体に含まれる文章を画像として読み出すスキャナーと、当該画像をテキストデータに変換する文字変換部により構成されてもよい。入力装置200は、音声をテキストデータに変換するためのマイクおよび音声認識装置により構成されてもよい。
【0038】
図2に示すように、教師データ作成装置100は、制御部110、記憶部120、通信部130、および操作表示部140を備える。これらの構成要素は、バス150を介して互いに接続される。教師データ作成装置100は、例えばコンピューター端末により構成される。
【0039】
制御部110は、CPU(Central Processing Unit)、およびRAM(Random Access Memory)、ROM(Read Only Memory)等のメモリにより構成され、プログラムに従って教師データ作成装置100の各部の制御および演算処理を行う。制御部110の機能の詳細については後述する。
【0040】
記憶部120は、HDD(Hard Disc Drive)、SSD(Solid State Drive)等により構成され、各種プログラムおよび各種データを記憶する。
【0041】
通信部130は、ネットワークを介して、外部の装置と通信するためのインターフェース回路(例えばLANカード等)である。
【0042】
操作表示部140は、例えば、タッチパネルにより構成され得る。操作表示部140は、ユーザーからの各種入力を受け付ける。操作表示部140は各種情報を表示する。操作表示部140は、後述するように、入力データに類似する教師文章データ、および当該教師文章データに付与されたラベルを表示する。操作表示部140は受付部を構成する。ラベルは分類情報を構成する。
【0043】
制御部110の機能について説明する。
【0044】
図3は、制御部110の機能ブロック図である。制御部110は、取得部111、変換部112、類似度算出部113、出力制御部114、および教師データ作成部115として機能する。説明を簡単にするために、
図3には、記憶部120および操作表示部140も併せて示されている。出力制御部114は出力部を構成する。
【0045】
取得部111は、入力装置200から入力データを受信することで取得する。取得部111は、通信部130を介して外部装置から入力データを受信することで取得してもよい。取得部111は、入力データが操作表示部140において入力される場合、入力された入力データを操作表示部140を介して取得してもよい。取得部111は、入力データが記憶部120に記憶される場合、記憶部120から読み出すことで入力データを取得してもよい。
【0046】
変換部112は、入力データを特徴ベクトルに変換する。変換部112は、次のように入力データを特徴ベクトルに変換し得る。以下、入力データが日本語の文章データである場合を例に説明する。
【0047】
変換部112は、入力データである文章を語(名詞、動詞、形容詞、副詞、および助詞等)ごとに分ける分かち書きを行う。例えば、分かち書きにより、「吾輩は猫である」という入力データは、「吾輩」、「は」、「猫」、「で」、「ある」の各語に分けられる。分かち書きには、汎用技術である、MeCab、Sudachi等を利用し得る。
【0048】
次に、変換部112は、各語をそれぞれベクトルに変換する分散表現化を行う。分散表現化により、各語はそれぞれ例えば100次元のベクトルに変換される。分散表現化により、各語にそれぞれ対応するベクトルが複数算出される。分散表現化には、汎用技術であるWord2Vec、fastText等を利用し得る。変換部112は、Wikipedia等のオンライン参加型百科事典や、Twitter等のSNSにおいて公衆に利用可能な文章を用いて教師無し学習により生成されたニューラルネットワーク等の学習済みモデルを用いて分散表現化を行い得る。
【0049】
次に、変換部112は、分散表現化された複数のベクトルから1つの特徴ベクトルを算出する。例えば、特徴ベクトルは、上記複数のベクトルの平均値、総和、または最大値として算出され得る。
【0050】
なお、変換部112は、分かち書き、分散表現化、および特徴ベクトルの算出をそれぞれ行うモジュールが一体化された単一のモジュールにより構成され得る。例えば、変換部112は、文章データ(データ)を用いた教師無し学習により生成された学習済みモデルにより構成され得る。当該学習済みモデルにより入力データが特徴ベクトルに変換され得る。当該学習済みモデルは、公衆に利用可能な文章を用いて教師無し学習により生成されたニューラルネットワーク等の学習済みモデルであり得る。
【0051】
類似度算出部113は、変換部112により算出された特徴ベクトル(入力データの特徴ベクトル)に対する、既存の教師データにそれぞれ含まれる各教師文章データの特徴ベクトルの類似度(以下、単に「類似度」とも称する)をそれぞれ算出する。既存の教師データは、上述したように、教師文章データと当該教師文章データに付与されたラベルとの組合せである。類似度は、例えば、変換部112により算出された特徴ベクトルと、既存の教師データにそれぞれ含まれる各教師文章データとのユークリッド距離またはコサイン距離として算出され得る。既存の教師データは、当該教師データに含まれる教師文章データの特徴ベクトルに対応付けされて、例えば記憶部120に記憶され得る。類似度算出部113は、記憶部120から既存の教師データおよび当該既存の教師データに対応付けされた特徴ベクトルを読み出すことでこれらを利用し得る。
【0052】
出力制御部114は、類似度算出部113により算出された類似度が所定の閾値以上の既存の教師データを特定教師データとして、既存の教師データの中から抽出する。所定の閾値は、入力データへの適切なラベル付与の観点から実験等により適当に設定され得る。出力制御部114は、入力データ、特定教師データ、および特定教師データに含まれる教師文章データの類似度を操作表示部140に表示することで出力し得る。なお、出力制御部114は、類似度および/または入力データについては出力しなくてもよい。出力制御部114は、入力データ、特定教師データ、および特定教師データに含まれる教師文章データの類似度を外部の装置等へ送信することで出力してもよい。
【0053】
出力制御部114は、既存の教師データに含まれるラベルを、入力データに付与するラベルを誘導するための誘導情報(以下、単に「誘導情報」と称する)とともにさらに出力し得る。出力制御部114は、既存の教師データに含まれるラベルを、入力データに付与するラベルとして選択可能に表示し得る。すなわち、出力制御部114は、過去に操作表示部140において入力データに付与するラベルとして受け付けられたラベルを選択可能に表示し得る。出力制御部114は、既存の教師データに含まれるラベル以外のラベルを、追加ラベル(追加の分類情報)として受け付け可能にするための選択オブジェクト146(
図4参照)と、追加ラベルを入力するための入力欄147(
図4参照)をさらに出力してもよい。
【0054】
図4は、出力制御部114により操作表示部に出力される出力画面141を示す図である。
【0055】
図4に示す出力画面141の例においては、入力データが、入力文章の欄142に「昼食にスパゲティを召し上がる。」と表示(出力)されている。出力画面141には、特定教師データ(教師文章データおよびラベル)、および類似度が類似文章の欄143に表示されている。類似文章の欄においては、特定教師データに含まれる教師文章データが「文章」の行に、特定教師データに含まれるラベルが「ラベル」の行に、類似度が「類似度」の行に表示されている。例えば、入力文章である「昼食にスパゲティを召し上がる。」に対する教師文章データである「朝食に納豆とご飯を召し上がる。」の類似度は比較的高い90%であり、「昼食にスパゲティを召し上がる。」と「朝食に納豆とご飯を召し上がる。」は特に類似すると判断されていることが判る。なお、初めて教師データを生成する場合等、既存の教師データが生成されておらず、特定教師データが存在しない場合は、特定教師データおよび類似度は表示されない。
【0056】
出力画面141には、既存の教師データに含まれるラベルが、誘導情報144とともに表示されている。表示されるラベルは、既存の教師データに含まれるラベルのすべてが表示され得る。
図4の例においては、既存の教師データに含まれるラベルとして、「食事」、「排泄」、「睡眠」、および「運動」が表示されている。誘導情報は、類似度が最も高い教師文章データに付与されているラベルに表示され得る。誘導情報は、特定教師データに含まれるラベルのうち最も数が多いラベルに表示されてもよい。既存の教師データに含まれるラベルは、ラベル付与の欄145に表示されている。既存の教師データに含まれるラベルは選択可能なチェックボックスとともに表示されることで選択可能に表示されている。ユーザーは誘導情報144を参考に、チェックボックスをチェックすることによりいずれかのラベルを選択できる。選択されたラベルは、入力データに付与するラベルとして受け付けられる。
【0057】
出力画面141には、既存の教師データに含まれるラベル以外のラベルを、追加ラベルとして受け付け可能にするための選択オブジェクト146と、追加ラベルを入力するための入力欄147がさらに表示されている。選択オブジェクト146は、「追加」の文字と選択可能なチェックボックスとにより構成され、当該チェックボックスがチェックされることで、入力欄147への追加ラベルのユーザーによる入力が可能になる。入力欄147に入力された追加ラベルは、入力データに付与するラベル(以下、「付与ラベル」とも称する)として受け付けられる。
【0058】
出力画面141には、「前の文章」ボタン148、および「次の文章」ボタン149がさらに表示され得る。「前の文章」ボタン148が選択されると、直前にラベルが付与された入力データ(教師文章データ)が「入力文章」の欄142に表示される。これにより、直前にラベルが付与された入力データに付与されているラベルの変更が可能になる。「次の文章」ボタン149が選択されると、次に取得部111により取得された入力データが「入力文章」の欄142に表示される。当該入力データに類似する教師文章データおよび当該教師文章データに付与されたラベルが類似度とともに表示される。また、既存の教師データに含まれるラベル等が表示される。
【0059】
図3を再度参照して説明を継続する。教師データ作成部115は、操作表示部140に表示された出力画面141においてユーザーにより入力された付与ラベルを入力データに付与して教師データ(新教師データ)を作成する。
【0060】
作成された教師データを用いた分類器の学習、および学習済みの分類器による文章データの分類について説明する。以下、説明を簡単にするために、分類器117がニューラルネットワークのモデルである場合を例に説明する。
【0061】
図5は、教師データを用いた分類器117の学習時の制御部110の機能を示すブロック図である。
図5に示す制御部110の機能は、制御部110がプログラムを実行することで実現され得る。
【0062】
制御部110は、分類器117およびロス算出部118として機能する。分類器117は、教師データを用いて学習される。より詳細には、分類器117は、教師データを構成する、教師文章データおよび当該教師文章データに付与されたラベル(教師クラス)の組合せを用いて学習される。ロス算出部118は、教師文章データが分類器117に入力されたときに分類器117により分類(推定)される分類結果(クラス)と、教師文章データに付与されたラベルとの差をクラスロスとして算出する。分類結果は、クラスごとの尤度であり得る。クラスロスは、教師文章データに付与されたラベルのクラスの、分類器117による分類結果における尤度を1から減算することで算出され得る。分類器117は、算出されたクラスロスが小さくなるようにバックプロパゲーションにより学習される。
【0063】
図6は、教師データを用いて学習された学習済みの分類器117による分類時(推定時)の制御部110の機能を示すブロック図である。
図6に示す制御部110の機能は、制御部110がプログラムを実行することで実現され得る。
【0064】
制御部110は、学習済みの分類器117として機能し得る。分類器117は、分類対象の文章データが入力されたときに分類結果(クラス)を出力することで、文章データを分類する。分類結果は、クラスごとの尤度であり得る。これにより、分類結果において尤度が最も高いクラスに文章データが分類されたことになる。
【0065】
図7は、教師データ作成システム10の動作を示すフローチャートである。本フローチャートは、プログラムに従い、教師データ作成装置100の制御部110により実行され得る。
【0066】
制御部110は、入力データを取得したかどうか判断する(S101)。制御部110は、入力データを取得していないと判断した場合は(S101:NO)、ステップS101を再度実行する。
【0067】
制御部110は、入力データを取得したと判断した場合は(S101:YES)、入力データを特徴ベクトルに変換する(S102)。
【0068】
制御部110は、既存の教師データと、当該既存の教師データに含まれる教師文章データの特徴ベクトルを記憶部120から読み出す(S103)。
【0069】
制御部110は、入力データの特徴ベクトルを算出し、入力データの特徴ベクトルに対する、各教師文章データの特徴ベクトルの類似度を算出する(S104)。
【0070】
制御部110は、類似度が所定の閾値以上の教師文章データを含む既存の教師データを特定教師データとして抽出する(S105)。
【0071】
制御部110は、特定教師データおよび類似度を出力する(S106)。
【0072】
制御部110は、既存の教師データに含まれる各ラベルを選択可能に誘導情報とともに操作表示部140に表示すること等により出力する(S107)。ユーザーは、表示された、特定教師データおよび類似度、ならびに、既存の教師データに含まれる各ラベルおよび誘導情報を参考にして、特定教師データと一貫性のあるラベル付与を行うことができる。
【0073】
制御部110は、操作表示部140において表示された、既存の教師データに含まれる各ラベルのうちのいずれかが選択されたこと等により入力データに付与する付与ラベルが取得されたかどうか判断する(S108)。制御部110は、入力データに付与する付与ラベルが取得されていないと判断した場合は(S108:NO)、ステップS108を再度実行する。
【0074】
制御部110は、入力データに付与する付与ラベルが取得されたと判断した場合は(S108:YES)、付与ラベルを入力データに付与して教師データ(新教師データ)を作成する(S109)。
【0075】
実施形態は、以下の効果を奏する。
【0076】
入力された第1データに類似する第2データ、および第2データに付与された分類情報を出力し、第1データに付与する分類情報を受け付け、受け付けられた分類情報を第1データに付与して、前記教師データを作成する。これにより、ラベル付与済の教師データの数量によらず、一貫性のあるラベル付与がされた教師データを作成できる。また、教師データとして分類済みデータが増えるほど第1データに類似する第2データ数が増えるため、教師データの一貫性を向上できる。また、第1データに類似する第2データが出力されるため、ラベル付与におけるヒューマンエラーを抑制できる。
【0077】
さらに、第2データおよび分類情報とともに、第2データの第1データに対する類似度をさらに出力する。これにより、教師データの精度を向上できる。
【0078】
さらに、第1データおよび第2データを文章データとする。これにより、より効果的に一貫性のあるラベル付与がされた教師データを作成できる。
【0079】
さらに、第1データを特徴ベクトルに変換し、第1データが変換された特徴ベクトルに特徴ベクトルが類似する第2データ、および第2データに付与された分類情報を出力する。これにより、より簡単に高精度かつ一貫性のある教師データを作成できる。
【0080】
さらに、教師無し学習により生成された学習済みモデルにより、第1データを特徴ベクトルに変換する。これにより、より簡単かつ低コストで一貫性のある教師データを作成できる。
【0081】
さらに、第2データを、過去に教師データ作成部により分類情報が付与されたことで分類情報とともに教師データをなすデータとする。これにより、より簡単かつ効果的に一貫性のある教師データを作成できる。
【0082】
さらに、過去に受け付けた分類情報を、分類情報を受け付けるための誘導情報とともにさらに出力する。これにより、入力された第1データに、より簡単かつ短時間に分類情報を付与できる。
【0083】
さらに、過去に受け付けた分類情報を選択可能に出力し、選択可能に出力した分類情報のうち、選択された分類情報を、第1データに付与する分類情報として受け付ける。これにより、さらに簡単にラベル付与ができるとともに、ラベル付与におけるヒューマンエラーを抑制できる。
【0084】
さらに、過去に受け付けた分類情報以外の追加の分類情報を受け付け可能にするための選択オブジェクトと、追加の分類情報を入力するための入力欄とをさらに出力し、選択オブジェクトが選択されて入力欄に入力された分類情報を、第1データに付与する分類情報として受け付ける。これにより、より柔軟にラベル付与ができる。
【0085】
以上に説明した、教師データ作成装置、教師データ作成方法、および教師データ作成プログラムは、上述の実施形態の特徴を説明するにあたって主要構成を説明したのであって、上述の構成に限られず、特許請求の範囲内において、種々改変することができる。また、一般的な教師データ作成等が備える構成を排除するものではない。
【0086】
例えば、上述したフローチャートは、一部のステップを省略してもよく、他のステップが追加されてもよい。また各ステップの一部は同時に実行されてもよく、一つのステップが複数のステップに分割されて実行されてもよい。
【0087】
また、上述したシステムにおける各種処理を行う手段および方法は、専用のハードウェア回路、またはプログラムされたコンピューターのいずれによっても実現することが可能である。上記プログラムは、例えば、USBメモリやDVD(Digital Versatile Disc)-ROM等のコンピューター読み取り可能な記録媒体によって提供されてもよいし、インターネット等のネットワークを介してオンラインで提供されてもよい。この場合、コンピューター読み取り可能な記録媒体に記録されたプログラムは、通常、ハードディスク等の記憶部に転送され記憶される。また、上記プログラムは、単独のアプリケーションソフトとして提供されてもよいし、一機能としてその教師データ作成装置等の装置のソフトウエアに組み込まれてもよい。
【符号の説明】
【0088】
10 教師データ作成システム、
100 教師データ作成装置、
110 制御部、
111 取得部、
112 変換部、
113 類似度算出部、
114 出力制御部、
115 教師データ作成部、
117 分類器、
118 ロス算出部、
120 記憶部、
130 通信部、
140 操作表示部、
200 入力装置、
201 画像、
202 解析対象。