(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-08
(45)【発行日】2024-05-16
(54)【発明の名称】情報処理装置および方法
(51)【国際特許分類】
G06N 20/00 20190101AFI20240509BHJP
【FI】
G06N20/00 130
(21)【出願番号】P 2020035133
(22)【出願日】2020-03-02
【審査請求日】2022-11-08
(73)【特許権者】
【識別番号】000000295
【氏名又は名称】沖電気工業株式会社
(74)【代理人】
【識別番号】100140958
【氏名又は名称】伊藤 学
(74)【代理人】
【識別番号】100137888
【氏名又は名称】大山 夏子
(74)【代理人】
【識別番号】100190942
【氏名又は名称】風間 竜司
(72)【発明者】
【氏名】鈴木 まり
(72)【発明者】
【氏名】増田 誠
【審査官】渡辺 順哉
(56)【参考文献】
【文献】特開2015-087903(JP,A)
【文献】特開2018-013857(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
(57)【特許請求の範囲】
【請求項1】
複数のデータおよび前記複数のデータの各々に設定されたラベルを含む複数のデータセットに基づく学習を行う情報処理装置であって、
第1の処理として、データセットに含まれる複数のデータの各々のラベルを、学習により取得された分類器を用いて予測する分類部と、
第2の処理として、前記分類部による予測結果に基づき、前記データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定する判定部と、
第3の処理として、前記作業者によりラベルが再設定された後の前記データセットに基づく学習により前記分類器を更新する学習部と、
を備え、
前記分類部、前記判定部および前記学習部は、前記複数のデータセットの中で対象となるデータセットを変えながら前記第1の処理~前記第3の処理を繰り返し実行し、
前記判定部は、
同一のデータについての前記分類部による予測結果が変化した回数が閾値以上である場合、当該データのラベルの再設定を作業者に依頼すると判定する、情報処理装置。
【請求項2】
複数のデータおよび前記複数のデータの各々に設定されたラベルを含む複数のデータセットに基づく学習を行う情報処理装置であって、
第1の処理として、データセットに含まれる複数のデータの各々のラベルを、学習により取得された分類器を用いて予測する分類部と、
第2の処理として、前記分類部による予測結果に基づき、前記データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定する判定部と、
第3の処理として、前記作業者によりラベルが再設定された後の前記データセットに基づく学習により前記分類器を更新する学習部と、
2以上のデータの少なくとも一部のデータに自動でラベルを設定するラベル設定部と、
前記2以上のデータから前記複数のデータセットを形成するデータセット形成部と、
を備え、
前記分類部、前記判定部および前記学習部は、前記複数のデータセットの中で対象となるデータセットを変えながら前記第1の処理~前記第3の処理を繰り返し実行し、
前記判定部は、同一のデータについての前記分類部による予測結果の安定性に基づき、当該データのラベルの再設定を作業者に依頼するか否かを判定し、
前記ラベル設定部は、前記第1の処理~前記第3の処理が繰り返し実行された後に、前記2以上のデータのうちで作業者によるラベル設定作業が行われていないデータに対して自動でラベルを再設定し、
前記分類部、前記判定部および前記学習部は、前記ラベル設定部によりラベルが再設定された後に、前記第1の処理~前記第3の処理の繰り返し実行を再開する、情報処理装置。
【請求項3】
複数のデータおよび前記複数のデータの各々に設定されたラベルを含む複数のデータセットに基づく学習を行う情報処理装置であって、
第1の処理として、データセットに含まれる複数のデータの各々のラベルを、学習により取得された分類器を用いて予測する分類部と、
第2の処理として、前記分類部による予測結果に基づき、前記データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定する判定部と、
第3の処理として、前記作業者によりラベルが再設定された後の前記データセットに基づく学習により前記分類器を更新する学習部と、
を備え、
前記分類部、前記判定部および前記学習部は、前記複数のデータセットの中で対象となるデータセットを変えながら前記第1の処理~前記第3の処理を繰り返し実行し、
前記判定部は、前記分類部により予測されたラベルが不正解であったデータに関し、当該データに設定されたラベルが自動で設定されたラベルである場合、当該データのラベルの再設定を作業者に依頼すると判定する、情報処理装置。
【請求項4】
前記判定部は、同一のデータについての前記分類部による予測結果が変化した回数が閾値以上である場合、当該データのラベルの再設定を作業者に依頼すると判定する、請求項
2または3に記載の情報処理装置。
【請求項5】
前記情報処理装置は、
2以上のデータの少なくとも一部のデータに自動でラベルを設定するラベル設定部と、
前記2以上のデータから前記複数のデータセットを形成するデータセット形成部と、
をさらに備える、請求項
1または3に記載の情報処理装置。
【請求項6】
前記ラベル設定部は、前記第1の処理~前記第3の処理が繰り返し実行された後に、前記2以上のデータのうちで作業者によるラベル設定作業が行われていないデータに対して自動でラベルを再設定し、
前記分類部、前記判定部および前記学習部は、前記ラベル設定部によりラベルが再設定された後に、前記第1の処理~前記第3の処理の繰り返し実行を再開する、請求項
5に記載の情報処理装置。
【請求項7】
前記データセット形成部は、前記2以上のデータを分割することにより前記複数のデータセットを形成する、請求項
5または6に記載の情報処理装置。
【請求項8】
前記複数のデータセットは、前記2以上のデータの第1の分割により得られた2以上の第1のデータセット、および前記2以上のデータの第2の分割により得られた2以上の第2のデータセットを含む、請求項
7に記載の情報処理装置。
【請求項9】
前記判定部は、前記分類部により予測されたラベルが不正解であったデータに関し、当該データに設定されたラベルが自動で設定されたラベルである場合、当該データのラベルの再設定を作業者に依頼すると判定する、請求項
1または2に記載の情報処理装置。
【請求項10】
前記判定部は、作業者によりラベルが設定されたデータに関し、前記作業者による当該データへのラベル設定の信頼性が所定の基準を満たさない場合、当該データのラベルの再設定を作業者に依頼すると判定する、請求項
1~9までのいずれか一項に記載の情報処理装置。
【請求項11】
前記情報処理装置は、前記判定部により前記作業者に前記ラベルの再設定を依頼すると判定されたデータの数が収束したことに基づき、前記第1の処理~前記第3の処理の終了を制御する制御部をさらに備える、請求項
1~10までのいずれか一項に記載の情報処理装置。
【請求項12】
複数のデータおよび前記複数のデータの各々に設定されたラベルを含む複数のデータセットに基づく学習を行う情報処理装置により実行される方法であって、
第1の処理として、データセットに含まれる複数のデータの各々のラベルを、学習により取得された分類器を用いて予測することと、
第2の処理として、前記第1の処理での予測結果に基づき、前記データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定することと、
第3の処理として、前記作業者によりラベルが再設定された後の前記データセットに基づく学習により前記分類器を更新することと、
前記複数のデータセットの中で対象となるデータセットを変えながら前記第1の処理~前記第3の処理を繰り返し実行することと、
を含み、
前記第2の処理は、
同一のデータについての前記第1の処理による予測結果が変化した回数が閾値以上である場合、当該データのラベルの再設定を作業者に依頼すると判定することを含む、方法。
【請求項13】
複数のデータおよび前記複数のデータの各々に設定されたラベルを含む複数のデータセットに基づく学習を行う情報処理装置により実行される方法であって、
第1の処理として、データセットに含まれる複数のデータの各々のラベルを、学習により取得された分類器を用いて予測することと、
第2の処理として、前記第1の処理での予測結果に基づき、前記データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定することと、
第3の処理として、前記作業者によりラベルが再設定された後の前記データセットに基づく学習により前記分類器を更新することと、
前記複数のデータセットの中で対象となるデータセットを変えながら前記第1の処理~前記第3の処理を繰り返し実行することと、
2以上のデータの少なくとも一部のデータに自動でラベルを設定することと、
前記2以上のデータから前記複数のデータセットを形成することと、
前記第1の処理~前記第3の処理が繰り返し実行された後に、前記2以上のデータのうちで作業者によるラベル設定作業が行われていないデータに対して自動でラベルを再設定することと、
ラベルが再設定された後に、前記第1の処理~前記第3の処理の繰り返し実行を再開することと、
を含み、
前記第2の処理は、同一のデータについての前記第1の処理での予測結果の安定性に基づき、当該データのラベルの再設定を作業者に依頼するか否かを判定することを含む、方法。
【請求項14】
複数のデータおよび前記複数のデータの各々に設定されたラベルを含む複数のデータセットに基づく学習を行う情報処理装置により実行される方法であって、
第1の処理として、データセットに含まれる複数のデータの各々のラベルを、学習により取得された分類器を用いて予測することと、
第2の処理として、前記第1の処理での予測結果に基づき、前記データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定することと、
第3の処理として、前記作業者によりラベルが再設定された後の前記データセットに基づく学習により前記分類器を更新することと、
前記複数のデータセットの中で対象となるデータセットを変えながら前記第1の処理~前記第3の処理を繰り返し実行することと、
を含み、
前記第2の処理は、前記第1の処理において予測されたラベルが不正解であったデータに関し、当該データに設定されたラベルが自動で設定されたラベルである場合、当該データのラベルの再設定を作業者に依頼すると判定することを含む、方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置および方法に関する。
【背景技術】
【0002】
近日、機械学習により作成された分類器を用いることにより、画像または音声などの多様なデータを識別することが可能となっている。分類器を用いた識別の精度は、分類器を作成する機械学習で用いられた教師データの精度に依存し得る。正解ラベルが設定されている教師データが多いほど識別の精度が向上し、正解ラベルが設定されている教師データが少ないほど識別の精度が低下するので、機械学習において教師データの精度は重視されている。
【0003】
教師データの精度を向上するための技術を開示する文献として、例えば特許文献1および特許文献2が知られている。具体的には、特許文献1には、教師データセットを用いた機械学習により分類器を作成した後、評価データセットのラベルを分類器で予測し、予測結果が不正解であったラベルをユーザが再設定する一連の処理を、教師データセットと評価データセットを入れ替えながら繰り返し実行する技術が開示されている。また、特許文献2には、ラベルの信頼度を評価し、信頼度が低い場合にラベルの見直しを行うための技術が開示されている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2015-087903号公報
【文献】特開2019-101560号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ここで、特徴空間において複数のクラスの境界付近に位置する評価データも存在し得て、このような評価データに正しくラベル付けを行うことも重要である。しかし、特許文献1に記載の技術では、評価データに設定されたラベルが誤っていても、分類器が同一のラベルを予測した場合には当該評価データの存在がユーザに伝えられないので、誤ったラベルが維持されたままとなる。特許文献2に記載の技術でも当該課題は解決されない。
【0006】
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、データに設定されるラベルの精度を向上することが可能な、新規かつ改良された情報処理装置および方法を提供することにある。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明のある観点によれば、複数のデータおよび前記複数のデータの各々に設定されたラベルを含む複数のデータセットに基づく学習を行う情報処理装置であって、第1の処理として、データセットに含まれる複数のデータの各々のラベルを、学習により取得された分類器を用いて予測する分類部と、第2の処理として、前記分類部による予測結果に基づき、前記データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定する判定部と、第3の処理として、前記作業者によりラベルが再設定された後の前記データセットに基づく学習により前記分類器を更新する学習部と、を備え、前記分類部、前記判定部および前記学習部は、前記複数のデータセットの中で対象となるデータセットを変えながら前記第1の処理~前記第3の処理を繰り返し実行し、前記判定部は、同一のデータについての前記分類部による予測結果が変化した回数が閾値以上である場合、当該データのラベルの再設定を作業者に依頼すると判定する、情報処理装置が提供される。また、本発明の別の観点によれば、複数のデータおよび前記複数のデータの各々に設定されたラベルを含む複数のデータセットに基づく学習を行う情報処理装置であって、第1の処理として、データセットに含まれる複数のデータの各々のラベルを、学習により取得された分類器を用いて予測する分類部と、第2の処理として、前記分類部による予測結果に基づき、前記データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定する判定部と、第3の処理として、前記作業者によりラベルが再設定された後の前記データセットに基づく学習により前記分類器を更新する学習部と、2以上のデータの少なくとも一部のデータに自動でラベルを設定するラベル設定部と、前記2以上のデータから前記複数のデータセットを形成するデータセット形成部と、を備え、前記分類部、前記判定部および前記学習部は、前記複数のデータセットの中で対象となるデータセットを変えながら前記第1の処理~前記第3の処理を繰り返し実行し、前記判定部は、同一のデータについての前記分類部による予測結果の安定性に基づき、当該データのラベルの再設定を作業者に依頼するか否かを判定し、前記ラベル設定部は、前記第1の処理~前記第3の処理が繰り返し実行された後に、前記2以上のデータのうちで作業者によるラベル設定作業が行われていないデータに対して自動でラベルを再設定し、前記分類部、前記判定部および前記学習部は、前記ラベル設定部によりラベルが再設定された後に、前記第1の処理~前記第3の処理の繰り返し実行を再開する、情報処理装置が提供される。また、本発明の別の観点によれば、複数のデータおよび前記複数のデータの各々に設定されたラベルを含む複数のデータセットに基づく学習を行う情報処理装置であって、第1の処理として、データセットに含まれる複数のデータの各々のラベルを、学習により取得された分類器を用いて予測する分類部と、第2の処理として、前記分類部による予測結果に基づき、前記データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定する判定部と、第3の処理として、前記作業者によりラベルが再設定された後の前記データセットに基づく学習により前記分類器を更新する学習部と、を備え、前記分類部、前記判定部および前記学習部は、前記複数のデータセットの中で対象となるデータセットを変えながら前記第1の処理~前記第3の処理を繰り返し実行し、前記判定部は、前記分類部により予測されたラベルが不正解であったデータに関し、当該データに設定されたラベルが自動で設定されたラベルである場合、当該データのラベルの再設定を作業者に依頼すると判定する、情報処理装置が提供される。
【0008】
前記判定部は、同一のデータについての前記分類部による予測結果が変化した回数が閾値以上である場合、当該データのラベルの再設定を作業者に依頼すると判定してもよい。
【0009】
前記情報処理装置は、2以上のデータの少なくとも一部のデータに自動でラベルを設定するラベル設定部と、前記2以上のデータから前記複数のデータセットを形成するデータセット形成部と、をさらに備えてもよい。
【0010】
前記ラベル設定部は、前記第1の処理~前記第3の処理が繰り返し実行された後に、前記2以上のデータのうちで作業者によるラベル設定作業が行われていないデータに対して自動でラベルを再設定し、前記分類部、前記判定部および前記学習部は、前記ラベル設定部によりラベルが再設定された後に、前記第1の処理~前記第3の処理の繰り返し実行を再開してもよい。
【0011】
前記データセット形成部は、前記2以上のデータを分割することにより前記複数のデータセットを形成してもよい。
【0012】
前記複数のデータセットは、前記2以上のデータの第1の分割により得られた2以上の第1のデータセット、および前記2以上のデータの第2の分割により得られた2以上の第2のデータセットを含んでもよい。
【0013】
前記判定部は、前記分類部により予測されたラベルが不正解であったデータに関し、当該データに設定されたラベルが自動で設定されたラベルである場合、当該データのラベルの再設定を作業者に依頼すると判定してもよい。
【0014】
前記判定部は、作業者によりラベルが設定されたデータに関し、前記作業者による当該データへのラベル設定の信頼性が所定の基準を満たさない場合、当該データのラベルの再設定を作業者に依頼すると判定してもよい。
【0015】
前記情報処理装置は、前記判定部により前記作業者に前記ラベルの再設定を依頼すると判定されたデータの数が収束したことに基づき、前記第1の処理~前記第3の処理の終了を制御する制御部をさらに備えてもよい。
【0016】
また、上記課題を解決するために、本発明の別の観点によれば、複数のデータおよび前記複数のデータの各々に設定されたラベルを含む複数のデータセットに基づく学習を行う情報処理装置により実行される方法であって、第1の処理として、データセットに含まれる複数のデータの各々のラベルを、学習により取得された分類器を用いて予測することと、第2の処理として、前記第1の処理での予測結果に基づき、前記データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定することと、第3の処理として、前記作業者によりラベルが再設定された後の前記データセットに基づく学習により前記分類器を更新することと、前記複数のデータセットの中で対象となるデータセットを変えながら前記第1の処理~前記第3の処理を繰り返し実行することと、を含み、前記第2の処理は、同一のデータについての前記第1の処理による予測結果が変化した回数が閾値以上である場合、当該データのラベルの再設定を作業者に依頼すると判定することを含む、方法が提供される。また、本発明の別の観点によれば、複数のデータおよび前記複数のデータの各々に設定されたラベルを含む複数のデータセットに基づく学習を行う情報処理装置により実行される方法であって、第1の処理として、データセットに含まれる複数のデータの各々のラベルを、学習により取得された分類器を用いて予測することと、第2の処理として、前記第1の処理での予測結果に基づき、前記データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定することと、第3の処理として、前記作業者によりラベルが再設定された後の前記データセットに基づく学習により前記分類器を更新することと、前記複数のデータセットの中で対象となるデータセットを変えながら前記第1の処理~前記第3の処理を繰り返し実行することと、2以上のデータの少なくとも一部のデータに自動でラベルを設定することと、前記2以上のデータから前記複数のデータセットを形成することと、前記第1の処理~前記第3の処理が繰り返し実行された後に、前記2以上のデータのうちで作業者によるラベル設定作業が行われていないデータに対して自動でラベルを再設定することと、ラベルが再設定された後に、前記第1の処理~前記第3の処理の繰り返し実行を再開することと、を含み、前記第2の処理は、同一のデータについての前記第1の処理での予測結果の安定性に基づき、当該データのラベルの再設定を作業者に依頼するか否かを判定することを含む、方法が提供される。また、本発明の別の観点によれば、複数のデータおよび前記複数のデータの各々に設定されたラベルを含む複数のデータセットに基づく学習を行う情報処理装置により実行される方法であって、第1の処理として、データセットに含まれる複数のデータの各々のラベルを、学習により取得された分類器を用いて予測することと、第2の処理として、前記第1の処理での予測結果に基づき、前記データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定することと、第3の処理として、前記作業者によりラベルが再設定された後の前記データセットに基づく学習により前記分類器を更新することと、前記複数のデータセットの中で対象となるデータセットを変えながら前記第1の処理~前記第3の処理を繰り返し実行することと、を含み、前記第2の処理は、前記第1の処理において予測されたラベルが不正解であったデータに関し、当該データに設定されたラベルが自動で設定されたラベルである場合、当該データのラベルの再設定を作業者に依頼すると判定することを含む、方法が提供される。
【発明の効果】
【0017】
以上説明した本発明によれば、データに設定されるラベルの精度を向上することが可能である。
【図面の簡単な説明】
【0018】
【
図1】本発明の一実施形態による情報処理装置20の構成を示す説明図である。
【
図2】ラベル設定部230によるラベルの設定の具体例を示す説明図である。
【
図3】各データの特徴空間における分布イメージを示す説明図である。
【
図5】データNの処理履歴の具体例を示す説明図である。
【
図6】本発明の一実施形態による情報処理装置20の動作を示すフローチャートである。
【
図7】終了判定部248による判定処理を示すフローチャートである。
【
図8】情報処理装置20のハードウェア構成を示したブロック図である。
【発明を実施するための形態】
【0019】
以下に添付図面を参照しながら、本発明の実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0020】
また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、複数の構成要素の各々に同一符号のみを付する。
【0021】
<1.概要>
本発明の一実施形態は、機械学習のための教師データの精度を向上するための情報処理装置に関する。教師データの精度を向上するための技術として、教師データセットを用いた機械学習により分類器を作成した後、評価データセットのラベルを分類器で予測し、予測結果が不正解であったラベルをユーザが再設定する一連の処理を、教師データセットと評価データセットを入れ替えながら繰り返し実行する技術が考えられる。
【0022】
しかし、上記の技術では、予測結果が不正解であったラベルの再設定を作業者に依頼し続けるので、作業者が何度も同じデータについてラベルが正しいかを確認することとなり、効率が悪い。また、上記の技術では、適用先のデータが未ラベルで、別のデータで学習したモデルを使って適用先のデータにラベルを自動で設定した場合、学習したデータと適用先のデータの取得環境の相違によっては正しいラベル設定が困難である。結果、適用先のデータに設定されたラベルの多くが誤っている場合、ラベルの質を向上させていくことが難しい。
【0023】
また、特徴空間において複数のクラスの境界付近に位置する評価データも存在し得て、このような評価データに正しくラベル付けを行うことも重要である。しかし、上記の技術では、評価データに設定されたラベルが誤っていても、分類器が同一のラベルを予測した場合には当該評価データの存在が作業者に伝えられないので、誤ったラベルが維持されたままとなる。
【0024】
本件発明者は、上記事情を一着眼点にして本発明の一実施形態を創作するに至った。本発明の一実施形態による情報処理装置は、データに設定されるラベルの精度を向上することが可能である。以下、このような本発明の一実施形態による情報処理装置の構成および動作を順次詳細に説明する。
【0025】
<2.情報処理装置の構成>
図1は、本発明の一実施形態による情報処理装置20の構成を示す説明図である。
図1に示したように、本発明の一実施形態による情報処理装置20は、記憶部220、表示部224、操作部228、ラベル設定部230、制御部240、学習部252、分類部254および評価部256を備える。本発明の一実施形態による情報処理装置20では高精度なラベルが設定されたデータセットが取得されるので、当該データセットを用いた機械学習により高精度な分類器を得ることが可能である。このような分類器の適用先は特に限定されず、例えば、画像の識別であってもよいし、音声の識別であってもよい。より具体的には、適用先は、工場における製品の製造過程を撮像して得られたX線画像の識別であってもよく、この場合、識別結果として得られる製造過程の良否に基づいて製品の品質管理を的確に行うことが可能である。
【0026】
(記憶部)
記憶部220は、2以上のデータおよび2以上のデータの各々に設定されているラベルを関連付けて記憶する。本発明の一実施形態による一連の処理が開始される段階では、2以上のデータのうちの一部のデータに作業者によりラベルが設定されていることを想定する。その後、本発明の一実施形態による一連の処理の進行に伴い、記憶部220において各データに関連付けて記憶されるラベルが更新される。また、記憶部220は、
図5を参照して後述するように、各データの処理履歴も記憶する。なお、記憶部220が記憶する各データは、画像データであってもよいし、音声データであってもよいし、テキストデータであってもよい。
【0027】
(表示部)
表示部224は、制御部240からの制御に基づき多様な画面を表示する。特に、本発明の一実施形態による表示部224は、作業者がラベルを再設定するためのラベル再設定画面を表示する。ラベル再設定画面は、制御部240によりラベルの再設定を作業者に依頼すると判定されたデータの表示、および、当該データに現在設定されているラベルの表示を含んでもよい。作業者は、ラベル再設定画面に含まれるデータの表示を見ながら、当該データにラベルを再設定することが可能である。
【0028】
(操作部)
操作部228は、作業者が情報処理装置20の情報または指示などを入力するために操作する構成である。特に、本発明の一実施形態による操作部228は、上述したラベル再設定画面において作業者がラベルを再設定するための操作を検出し、当該操作を示す信号を制御部240に出力する。
【0029】
(ラベル設定部)
ラベル設定部230は、記憶部220に記憶されている2以上のデータの少なくとも一部のデータに自動でラベルを設定する。例えば、ラベル設定部230は、記憶部220に記憶されている2以上のデータのうちで、ラベルが設定されていないデータに、ラベルが設定されているデータを教師データとして用いる半教師あり学習でのクラスタリングにより自動でラベルを設定する。
図2を参照して、このようなラベル設定部230による処理の具体例を説明する。
【0030】
図2は、ラベル設定部230によるラベルの設定の具体例を示す説明図である。より詳細には、
図2の上段にはラベル設定部230による処理前に記憶部220に記憶されているラベルの状態を示し、
図2の下段にはラベル設定部230による処理後に記憶部220に記憶されているラベルの状態を示している。
【0031】
図2の上段に示した例では、データ1、データ2、データ5およびデータ6などにはラベルが設定されており、ラベルの設定主体として作業者Xまたは作業者Yが関連付けられている。一方、データ3、データ4およびデータNなどにはラベルが設定されていない。これらデータ3、データ4およびデータNなどについて、ラベル設定部230による処理後には、
図2の下段に示したようにラベルが設定され、設定主体として自動が関連付けられる。
【0032】
図3は、これらデータの特徴空間における分布イメージを示す説明図である。
図3において、クラスAの領域にデータ1およびデータ4が含まれ、クラスBの領域にデータ2およびデータ3が含まれ、クラスCの領域にデータ5およびデータ6が含まれている。データNは、各クラスの領域の境界付近に存在し、いずれのクラスに属するかを自動で判断し難いデータである。本発明の一実施形態では、後述する方法によりデータNのような各クラスの領域の境界付近に存在するデータを抽出し、当該データのラベルの手動での設定を作業者に依頼することにより、ラベルの精度を向上することが可能である。
【0033】
(制御部)
制御部240は、情報処理装置20の動作全般を制御する。例えば、制御部240は、ラベル設定部230にラベルの自動設定の実行を指示したり、学習部252、分類部254および評価部256による処理を制御したり、ラベル再設定画面を生成してラベル再設定画面を表示部224に表示させたり、記憶部220に記憶されているラベルを更新したりする。
【0034】
また、制御部240は、記憶部220に記憶されている2以上のデータから複数のデータセットを形成するデータセット形成部242の機能を有する。例えば、データセット形成部242は、
図4に示すようにラベル設定部230による処理後の2以上のデータを分割することにより複数のデータセットを形成してもよい。
【0035】
図4は、データセットの形成例を示す説明図である。
図4に示した例では、記憶部220に記憶されている2以上のデータが分割されて、データセット1およびデータセット2が形成されている。当該データの分割は、ランダムに行われてもよいし、所定の規則に従って行われてもよい。所定の規則は、例えば、自動でラベルが設定されたデータの数を各データセットで均等にする規則であってもよいし、同一のラベルが設定されたデータの数を各データセットで均等にする規則であってもよい。なお、
図4においては記憶部220に記憶されている2以上のデータの分割数が2である例を示しているが、分割数は2に限られず、分割数は3以上であってもよい。
【0036】
データセット形成部242は、分割により得られた複数のデータセットから、教師データセットに用いるデータセット、および評価データセットに用いるデータセットを選択する。また、データセット形成部242は、教師データセットと評価データセットの置き換えを行うこともできる。
【0037】
その他、制御部240は、依頼判定部244、更新部246および終了判定部248などの機能を有する。これら制御部240が有する各機能については詳細に後述する。
【0038】
(学習部)
学習部252は、データセット形成部242により教師データセットとして選択されたデータセットに基づく学習により分類器を作成または更新する。分類器は、データから抽出された特徴量に基づいて当該データに対応するラベルを予測するために用いられるパラメータ群であってもよい。
【0039】
(分類部)
分類部254は、データセット形成部242により評価データセットとして選択されたデータセットに含まれる複数のデータの各々のラベルを、学習部252により作成または更新された分類器を用いて予測する。
【0040】
(評価部)
評価部256は、分類部254により複数のデータの各々について予測されたラベルが、複数のデータの各々に設定されているラベルと同一であるか否か、すなわち、分類部254による予測結果が正解であるか否かを評価する。
【0041】
<3.制御部の構成>
以上、情報処理装置20の構成を説明した。続いて、制御部240の構成をより詳細に説明する。
図1に示したように、制御部240は、データセット形成部242、依頼判定部244、更新部246および終了判定部248の機能を有する。
【0042】
(データセット形成部)
データセット形成部242は、上述したように、ラベル設定部230による処理後の2以上のデータを分割することにより複数のデータセットを形成する。
【0043】
(依頼判定部)
依頼判定部244は、判定部の一例であり、評価部256による評価の結果に基づき、評価データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定する。例えば、依頼判定部244は、予測結果が正解であったか否か、ラベルが自動で設定されたか否か、作業者によるラベル設定の信頼性が所定の基準を満たすか、などに基づいて判定を行う。作業者によるラベル設定の信頼性は、例えば、どの作業者がラベルを設定したか、ラベルの設定にかかった時間はどの程度か、ラベルの設定が人手により何回更新されたか、に応じて評価されてもよい。また、依頼判定部244は、同一のデータについての分類部254による予測結果の安定性に基づいて当該データのラベルの再設定を作業者に依頼するか否かを判定してもよい。
【0044】
(更新部)
更新部246は、あるデータについて表示部224がラベル再設定画面を表示し、作業者が操作部228を介して当該データのラベルを再設定すると、記憶部220に記憶されている当該データのラベルを再設定されたラベルに更新する。ここで、更新部246は、ラベルを再設定した作業者も設定主体として記憶部220に記憶させる。なお、作業者にラベルの再設定が依頼され、作業者がラベルを変更しなかった場合にも、更新部246は当該作業者を設定主体として記憶部220に記憶させる。
【0045】
評価データセットの全てのデータについて、分類部254によるラベルの予測(第1の処理)、評価部256による予測結果の評価、依頼判定部244による依頼判定(第2の処理)および更新部246によるラベル更新が終わると、データセット形成部242により当該評価データセットと教師データセットが置き換えられ、学習部252において新たな教師データセットに基づく学習による分類器の更新(第3の処理)が行われる。これら一連の処理が、評価データセットと教師データセットが置き換えられながら、繰り返し実行される。
【0046】
(終了判定部)
終了判定部248は、教師データセットと評価データセットの置き換えが所定回数行われたか否かを判定する。教師データセットと評価データセットの置き換え回数が所定回数未満である場合、終了判定部248は上述した一連の処理の繰り返しを制御する。
【0047】
さらに、終了判定部248は、教師データセットと評価データセットの置き換えが所定回数行われたと判定した場合、作業者にラベルの再設定を依頼するデータの数(再設定依頼数)が収束したか否かを判定する。具体的には、終了判定部248は、再設定依頼数が所定数以下となったこと、または、再設定依頼数が評価データセットに含まれるデータの数の所定割合以下になったこと、などに基づいて再設定依頼数が収束したと判定してもよい。
【0048】
再設定依頼数が収束している場合、終了判定部248は、上述した一連の処理の終了を制御する。
【0049】
一方、再設定依頼数が収束していない場合、終了判定部248は、記憶部220に記憶されている2以上のデータにラベルを再度自動で設定するようラベル設定部230に指示する。ラベル設定部230は、設定主体が自動であるデータのラベルを、設定主体が作業者であるデータを教師データとして用いる半教師あり学習でのクラスタリングにより再設定する。その後、データセット形成部242が記憶部220に記憶されている2以上のデータを複数のデータセットに分割し、上述した一連の処理が繰り返される。
【0050】
なお、データセット形成部242が前回の分割である第1の分割により形成した2以上の第1のデータセットと、新たな分割である第2の分割により形成した2以上の第2のデータセットは、同一であってもよいし、異なってもよい。2以上の第1のデータセットと2以上の第2のデータセットが異なる場合、データセット間でのデータの偏りによる悪影響を緩和することが可能である。
【0051】
(処理履歴の具体例)
ここで、
図5を参照し、あるデータの処理履歴の具体例を説明する。
【0052】
図5は、データNの処理履歴の具体例を示す説明図である。
図5に示した例では、データNは、ラベル設定部230による1回目の半教師あり学習(クラスタリング)でラベルが「クラスA」が設定されている。続いて、1回目のクラスタリングの後の1回目の評価(評価1-1回目)、および2回目の評価(評価1-2回目)の双方において予測結果が正解し、ラベル「クラスA」が維持されている。
【0053】
その後、データNは、ラベル設定部230による2回目のクラスタリングでラベルが「クラスB」に変更されている。続いて、2回目のクラスタリングの後の1回目の評価(評価2-1回目)、および2回目の評価(評価2-2回目)の双方において予測結果が正解し、ラベル「クラスB」が維持されている。
【0054】
さらに、データNは、ラベル設定部230による3回目のクラスタリングでラベルが「クラスC」に変更されている。続いて、3回目のクラスタリングの後の1回目の評価(評価3-1回目)において予測結果が正解している。このように、データNでは予測結果の正解が続いているが、予測結果が「クラスA」、「クラスB」、「クラスC」と変化している。
【0055】
ここで、特徴空間における各クラスの境界面付近に位置するデータは予測結果が安定しないと考えられる。そこで、依頼判定部244は、予測結果が安定していないデータのラベルの再設定を作業者に依頼すると判定する。具体的には、依頼判定部244は、予測結果が変化した回数が閾値以上であるか否かに基づいて予測結果が安定しているか否かを判定してもよい。閾値が「2」である場合、
図5に示した例ではデータNの予測結果の変化回数が閾値である「2」に達しているので、依頼判定部244はデータNのラベルの再設定を作業者に依頼すると判定する。そして、
図5に示した例では、作業者による操作部228への操作に基づいてデータNのラベルが「クラスA」に更新されている。
【0056】
<4.情報処理装置の動作>
以上、本発明の一実施形態による情報処理装置20の構成を説明した。続いて、
図6および
図7を参照し、本発明の一実施形態による情報処理装置20の動作を整理する。
【0057】
図6は、本発明の一実施形態による情報処理装置20の動作を示すフローチャートである。
図6に示したように、ラベル設定部230が、記憶部220に記憶されている2以上のデータのうちで、ラベルが設定されていないデータに、ラベルが設定されているデータを教師データとして用いる半教師あり学習でのクラスタリングにより自動でラベルを設定する(S304)。そして、データセット形成部242が、記憶部220に記憶されている2以上のデータを分割することにより複数のデータセットを形成する(S308)。
【0058】
さらに、データセット形成部242は、分割により得られた複数のデータセットから、教師データセットに用いるデータセット、および評価データセットに用いるデータセットを選択する(S312)。
【0059】
続いて、学習部252が、データセット形成部242により教師データセットとして選択されたデータセットに基づく学習により分類器を作成または更新する(S316)。そして、分類部254は、データセット形成部242により評価データセットとして選択されたデータセットに含まれる複数のデータの各々のラベルを、学習部252により作成または更新された分類器を用いて予測する(S320)。
【0060】
そして、分類部254による予測結果が正解であるか否かを評価し、依頼判定部244が、評価部256による評価の結果に基づき、評価データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定する(S324)。続いて、再設定が依頼されたデータの記憶部220に記憶されているラベルを、作業者により再設定されたラベルに更新する(S328)。
【0061】
ここで、終了判定部248が、教師データセットと評価データセットの置き換えが所定回数行われたか否かを判定する(S332)。教師データセットと評価データセットの置き換え回数が所定回数未満である場合(S332/No)、S312からの処理が繰り返される。
【0062】
一方、教師データセットと評価データセットの置き換えが所定回数行われた場合(S332/Yes)、終了判定部248は、作業者にラベルの再設定を依頼するデータの数(再設定依頼数)が収束したか否かを判定する(S336)。再設定依頼数が収束している場合(S336/Yes)、終了判定部248は、上述した一連の処理の終了を制御する。一方、再設定依頼数が収束していない場合(S336/No)、S304からの処理が繰り返される。
【0063】
次に、
図7を参照し、S324に示した判定処理をより詳細に説明する。
【0064】
図7は、終了判定部248による判定処理を示すフローチャートである。終了判定部248は、まず、あるデータについての分類部254による予測結果が正解であったか否かを判定する(S410)。予測結果が不正解であった場合(S410/No)、終了判定部248は、当該データのラベルが自動で設定されたラベルであるか否かを判定する(S420)。
【0065】
そして、当該データのラベルが自動で設定されたラベルである場合(S420/Yes)、終了判定部248は、当該データのラベルの再設定を作業者に依頼すると判定する(S430)。一方、当該データのラベルが作業者により手動で設定されたラベルである場合(S420/No)、終了判定部248は、ラベル設定の信頼性が所定の基準を満たすか否かを判定する(S440)。ラベル設定の信頼性が所定の基準を満たす場合(S440/Yes)、終了判定部248は、当該データのラベルの再設定を依頼しないと判定する。一方、ラベル設定の信頼性が所定の基準を満たさない場合(S440/No)、終了判定部248は、当該データのラベルの再設定を作業者に依頼すると判定する(S470)。
【0066】
S410において、予測結果が正解であった場合(S410/Yes)、終了判定部248は、当該データのラベルが自動で設定されたラベルであるか否かを判定する(S450)。当該データのラベルが作業者により手動で設定されたラベルである場合(S450/No)、処理は先に説明したS440に進む。
【0067】
一方、当該データのラベルが自動で設定されたラベルである場合(S450/Yes)、終了判定部248は、当該データのラベルの予測結果が変化した回数が閾値以上であるか否かを判定する(S460)。予測結果が変化した回数が閾値以上である場合(S460/Yes)、終了判定部248は、当該データのラベルの再設定を作業者に依頼すると判定する(S470)。一方、予測結果が変化した回数が閾値未満である場合(S460/No)、終了判定部248は、当該データのラベルの再設定を依頼しないと判定する。
【0068】
<5.作用効果>
以上説明した本発明の一実施形態によれば、多様な作用効果が得られる。例えば、本発明の一実施形態によれば、特徴空間における各クラスの境界付近に位置するデータを抽出し、当該データのラベルの手動での設定を作業者に依頼することにより、ラベルの精度を向上することが可能である。
【0069】
また、本発明の一実施形態によれば、予測結果が不正解であったラベルであっても、ラベル設定の信頼性が所定の基準を満たす場合には、当該ラベルの再設定の依頼が行われない。このため、作業者が何度も同じデータについてラベルが正しいかを確認するケースの発生を抑制できる。一方で、予測結果が不正解であり、かつ自動でラベルが設定されたデータ、および、ラベル設定の信頼性が所定の基準を満たさないデータに関してはラベルの再設定を作業者に依頼することにより、効率的にラベルの品質を向上することが可能である。また、本発明の一実施形態によれば、ラベル設定部230が自動で設定したラベルに基づいて学習を進めることが可能であるので、作業者が全てのデータにラベルを設定しなくてもよい点でも効率的である。
【0070】
<6.ハードウェア構成>
以上、本発明の各実施形態を説明した。上述した学習、分類、評価および判定などの情報処理は、ソフトウェアと、以下に説明する情報処理装置20のハードウェアとの協働により実現される。
【0071】
図8は、情報処理装置20のハードウェア構成を示したブロック図である。情報処理装置20は、CPU(Central Processing Unit)201と、ROM(Read Only Memory)202と、RAM(Random Access Memory)203と、ホストバス204と、を備える。また、情報処理装置20は、ブリッジ205と、外部バス206と、インターフェース207と、入力装置208と、表示装置209と、音声出力装置210と、ストレージ装置(HDD)211と、ドライブ212と、ネットワークインターフェース215とを備える。
【0072】
CPU201は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置20内の動作全般を制御する。また、CPU201は、マイクロプロセッサであってもよい。ROM202は、CPU201が使用するプログラムや演算パラメータ等を記憶する。RAM203は、CPU201の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはCPUバスなどから構成されるホストバス204により相互に接続されている。これらCPU201、ROM202およびRAM203とソフトウェアとの協働により、上述したラベル設定部230、制御部240、学習部252、分類部254および評価部256などの機能が実現され得る。
【0073】
ホストバス204は、ブリッジ205を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス206に接続されている。なお、必ずしもホストバス204、ブリッジ205および外部バス206を分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。
【0074】
入力装置208は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、センサー、スイッチおよびレバーなどユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、CPU201に出力する入力制御回路などから構成されている。情報処理装置20のユーザは、該入力装置208を操作することにより、情報処理装置20に対して各種のデータを入力したり処理動作を指示したりすることができる。
【0075】
表示装置209は、例えば、液晶ディスプレイ(LCD)装置、プロジェクター装置、OLED(Organic Light Emitting Diode)装置およびランプなどの表示装置を含む。また、音声出力装置210は、スピーカおよびヘッドホンなどの音声出力装置を含む。
【0076】
ストレージ装置211は、本実施形態にかかる情報処理装置20の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置211は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。ストレージ装置211は、例えば、HDD(Hard Disk Drive)またはSSD(Solid Strage Drive)、あるいは同等の機能を有するメモリ等で構成される。このストレージ装置211は、ストレージを駆動し、CPU201が実行するプログラムや各種データを格納する。
【0077】
ドライブ212は、記憶媒体用リーダライタであり、情報処理装置20に内蔵、あるいは外付けされる。ドライブ212は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体24に記録されている情報を読み出して、RAM203またはストレージ装置211に出力する。また、ドライブ212は、リムーバブル記憶媒体24に情報を書き込むこともできる。
【0078】
ネットワークインターフェース215は、例えば、ネットワークに接続するための通信デバイス等で構成された通信インターフェースである。また、ネットワークインターフェース215は、無線LAN(Local Area Network)対応通信装置であっても、有線による通信を行うワイヤー通信装置であってもよい。
【0079】
<7.補足>
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
【0080】
例えば、ラベルの再設定を依頼するか否かの依頼判定部244による判定に関し、依頼判定部244は、上述した処理に加えて、または代えて、各データの各クラスの重心からの距離、または境界面からの距離を計算することで各データが各クラスの境界付近に位置するか否かを判定し、境界面付近に位置するデータのラベルの再設定を依頼すると判定してもよい。
【0081】
また、上記ではラベル設定部230が半教師あり学習によりラベルを設定する例を説明したが、ラベル設定部230は、k-means法などの教師なし学習によりラベルを設定してもよい。
【0082】
また、上記では教師データセットと評価データセットの置き換えが所定回数行われた場合にラベル設定部230がラベルを自動で再設定する例を説明したが、ラベル設定部230は、作業者による指示に従ってラベルの再設定を実行してもよい。
【0083】
また、本明細書の情報処理装置20の処理における各ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、情報処理装置20の処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。
【0084】
また、情報処理装置20に内蔵されるCPU、ROMおよびRAMなどのハードウェアに、上述した情報処理装置20の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。
【符号の説明】
【0085】
20 情報処理装置
220 記憶部
224 表示部
228 操作部
230 ラベル設定部
240 制御部
242 データセット形成部
244 依頼判定部
246 更新部
248 終了判定部
252 学習部
254 分類部
256 評価部