(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-04
(45)【発行日】2024-10-15
(54)【発明の名称】情報処理装置及び情報処理方法
(51)【国際特許分類】
G06N 20/00 20190101AFI20241007BHJP
G06N 3/091 20230101ALI20241007BHJP
【FI】
G06N20/00 130
G06N3/091
(21)【出願番号】P 2021157626
(22)【出願日】2021-09-28
【審査請求日】2023-07-18
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】110004222
【氏名又は名称】弁理士法人創光国際特許事務所
(74)【代理人】
【識別番号】100166006
【氏名又は名称】泉 通博
(74)【代理人】
【識別番号】100154070
【氏名又は名称】久恒 京範
(74)【代理人】
【識別番号】100153280
【氏名又は名称】寺川 賢祐
(72)【発明者】
【氏名】西村 康孝
(72)【発明者】
【氏名】武田 直人
(72)【発明者】
【氏名】南川 敦宣
【審査官】北川 純次
(56)【参考文献】
【文献】特開2020-140518(JP,A)
【文献】特開2021-110974(JP,A)
【文献】中国特許出願公開第113239996(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 20/00-20/20
G06N 3/02- 3/10
(57)【特許請求の範囲】
【請求項1】
所定の事象を予測するための要素となる複数の要素データを含み、前記所定の事象を予測するモデル
であって、入力データの入力に対し、前記所定の事象に対応する複数のクラスそれぞれの生起確率を示す出力データを出力する前記モデルに入力する入力データを複数取得する入力データ取得部と、
前記複数のクラスそれぞれを識別するためのクラス識別情報と、当該クラス識別情報が示すクラスに対応する一以上の前記要素を識別するための要素識別情報とを関連付けて記憶する記憶部と、
前記入力データ取得部が取得した複数の前記入力データのそれぞれを前記モデルに入力し、前記モデルが出力した前記所定の事象の予測結果である、
前記所定の事象に対応する複数のクラスそれぞれの生起確率を示す出力データを、複数の前記入力データのそれぞれに対応して取得する出力データ取得部と、
前記出力データが示す前記予測結果の算定に対する、前記入力データに含まれる複数の前記要素データそれぞれの重要度を、複数の前記入力データのそれぞれに対応して特定する重要度特定部と、
前記重要度特定部が特定した複数の前記入力データそれぞれに
対し、当該入力データに含まれる複数の前記要素データ
のうち、相対的に高い重要度を有する要素データに対応する前記要素識別情報が、当該入力データに対応する前記出力データにおいて前記生起確率が最も高いクラスに関連付けられて前記記憶部に記憶されている割合を特定し、複数の入力データそれぞれに対して特定した前記割合に基づいて、複数の前記入力データの中から、前記所定の事象の正解を示す正解データを付与する対象の前記入力データを選択する選択部と、
前記選択部が選択した前記入力データを示す情報を出力する出力部と、
を有する情報処理装置。
【請求項2】
前記選択部は、複数の前記入力データのうち、特定した前記割合が相対的に小さい入力データを、前記正解データを付与する対象の前記入力データとして選択する、
請求項
1に記載の情報処理装置。
【請求項3】
所定の事象を予測するための要素となる複数の要素データを含み、前記所定の事象を予測するモデルに入力する入力データを複数取得する入力データ取得部と、
前記入力データ取得部が取得した複数の前記入力データのそれぞれを前記モデルに入力し、前記モデルが出力した前記所定の事象の予測結果を示す出力データを、複数の前記入力データのそれぞれに対応して取得する出力データ取得部と、
前記出力データが示す前記予測結果の算定に対する、前記入力データに含まれる複数の前記要素データそれぞれの重要度を、複数の前記入力データのそれぞれに対応して特定する重要度特定部と、
前記重要度特定部が特定した複数の前記入力データそれぞれに
対し、当該入力データに対して特定された最大の重要度と最小の重要度との差を算出し、複数の前記入力データそれぞれに対して算出した前記最大の重要度と最小の重要度との差に基づいて、複数の前記入力データの中から、前記所定の事象の正解を示す正解データを付与する対象の前記入力データを選択する選択部と、
前記選択部が選択した前記入力データを示す情報を出力する出力部と、
を有する情報処理装置。
【請求項4】
前記選択部は、複数の前記入力データのうち、算出した前記最大の重要度と最小の重要度との差が相対的に小さい入力データを、前記正解データを付与する対象の前記入力データとして選択する、
請求項
3に記載の情報処理装置。
【請求項5】
所定の事象を予測するための要素となる複数の要素データを含み、前記所定の事象を予測するモデルに入力する入力データを複数取得する入力データ取得部と、
前記入力データ取得部が取得した複数の前記入力データのそれぞれを前記モデルに入力し、前記モデルが出力した前記所定の事象の予測結果を示す出力データを、複数の前記入力データのそれぞれに対応して取得する出力データ取得部と、
前記出力データが示す前記予測結果の算定に対する、前記入力データに含まれる複数の前記要素データそれぞれの重要度を、複数の前記入力データのそれぞれに対応して特定する重要度特定部と、
前記重要度特定部が特定した複数の前記入力データそれぞれに
対し、当該入力データに対して特定された複数の前記重要度の分散を算出し、複数の前記入力データそれぞれに対して算出した前記分散に基づいて、複数の前記入力データの中から、前記所定の事象の正解を示す正解データを付与する対象の前記入力データを選択する選択部と、
前記選択部が選択した前記入力データを示す情報を出力する出力部と、
を有する情報処理装置。
【請求項6】
前記選択部は、複数の前記入力データのうち、算出した前記分散が相対的に小さい入力データを、前記正解データを付与する対象の前記入力データとして選択する、
請求項
5に記載の情報処理装置。
【請求項7】
前記重要度特定部は、前記入力データに含まれる複数の前記要素データのそれぞれの前記重要度を示す重要度データを出力する重要度出力モデルに、前記出力データ取得部が取得した出力データに対応する入力データを入力し、前記重要度出力モデルが出力した前記重要度データを取得することにより、当該入力データに含まれる複数の要素データそれぞれの重要度を特定する、
請求項1から
6のいずれか1項に記載の情報処理装置。
【請求項8】
コンピュータが実行する、
所定の事象を予測するための要素となる複数の要素データを含み、前記所定の事象を予測するモデル
であって、入力データの入力に対し、前記所定の事象に対応する複数のクラスそれぞれの生起確率を示す出力データを出力する前記モデルに入力する入力データを複数取得するステップと、
取得した複数の前記入力データのそれぞれを前記モデルに入力し、前記モデルが出力した前記所定の事象の予測結果である、
前記所定の事象に対応する複数のクラスそれぞれの生起確率を示す出力データを、複数の前記入力データのそれぞれに対応して取得するステップと、
前記出力データが示す前記予測結果の算定に対する、前記入力データに含まれる複数の前記要素データそれぞれの重要度を、複数の前記入力データのそれぞれに対応して特定するステップと、
前記複数のクラスそれぞれを識別するためのクラス識別情報と、当該クラス識別情報が示すクラスに対応する一以上の前記要素を識別するための要素識別情報とを関連付けて記憶する記憶部を参照し、特定した複数の前記入力データそれぞれに
対し、当該入力データに含まれる複数の前記要素データ
のうち、相対的に高い重要度を有する要素データに対応する前記要素識別情報が、当該入力データに対応する前記出力データにおいて前記生起確率が最も高いクラスに関連付けられて前記記憶部に記憶されている割合を特定し、複数の入力データそれぞれに対して特定した前記割合に基づいて、複数の前記入力データの中から、前記所定の事象の正解を示す正解データを付与する対象の前記入力データを選択するステップと、
選択した前記入力データを示す情報を出力するステップと、
を有する情報処理方法。
【請求項9】
コンピュータが実行する、
所定の事象を予測するための要素となる複数の要素データを含み、前記所定の事象を予測するモデルに入力する入力データを複数取得するステップと、
取得した複数の前記入力データのそれぞれを前記モデルに入力し、前記モデルが出力した前記所定の事象の予測結果を示す出力データを、複数の前記入力データのそれぞれに対応して取得するステップと、
前記出力データが示す前記予測結果の算定に対する、前記入力データに含まれる複数の前記要素データそれぞれの重要度を、複数の前記入力データのそれぞれに対応して特定するステップと、
特定した複数の前記入力データそれぞれに
対し、当該入力データに対して特定された最大の重要度と最小の重要度との差を算出し、複数の前記入力データそれぞれに対して算出した前記最大の重要度と最小の重要度との差に基づいて、複数の前記入力データの中から、前記所定の事象の正解を示す正解データを付与する対象の前記入力データを選択するステップと、
選択した前記入力データを示す情報を出力するステップと、
を有する情報処理方法。
【請求項10】
コンピュータが実行する、
所定の事象を予測するための要素となる複数の要素データを含み、前記所定の事象を予測するモデルに入力する入力データを複数取得するステップと、
取得した複数の前記入力データのそれぞれを前記モデルに入力し、前記モデルが出力した前記所定の事象の予測結果を示す出力データを、複数の前記入力データのそれぞれに対応して取得するステップと、
前記出力データが示す前記予測結果の算定に対する、前記入力データに含まれる複数の前記要素データそれぞれの重要度を、複数の前記入力データのそれぞれに対応して特定するステップと、
特定した複数の前記入力データそれぞれに
対し、当該入力データに対して特定された複数の前記重要度の分散を算出し、複数の前記入力データそれぞれに対して算出した前記分散に基づいて、複数の前記入力データの中から、前記所定の事象の正解を示す正解データを付与する対象の前記入力データを選択するステップと、
選択した前記入力データを示す情報を出力するステップと、
を有する情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置及び情報処理方法に関する。
【背景技術】
【0002】
機械学習モデルの性能を向上させるためには、機械学習モデルが多量の教師データを用いて学習する必要がある。これに対し、教師データのラベリング作業は、人手を介して行われるため、多くのコストがかかるという問題があった。
【0003】
これに対し、正解データが付された少量の教師データを用いて機械学習モデルを構築した後、正解データが付されていないデータの中から、学習効果が高いデータを選択することが行われている。例えば、非特許文献1には、正解データが付与されていない複数の入力データを機械学習モデルに入力し、機械学習モデルから出力された、複数のクラスそれぞれの生起確率を示す複数の出力データのうち、最も高い生起確率と、二番目に高い生起確率との差分が相対的に小さい出力データに対応する入力データを、機械学習にとって自信がない入力データとして選択する方法が開示されている。機械学習にとって自信がない入力データに限定して正解データを付与するラベリングを行い、機械学習を行うことにより、効率的に機械学習モデルの学習を行うことができるとともに、ラベリングに係るコストを低減させることができる。
【先行技術文献】
【非特許文献】
【0004】
【文献】Anita Krishnakumar “Active Learning Literature Survey” In: Technical Report. University of California, 2007
【発明の概要】
【発明が解決しようとする課題】
【0005】
少量の教師データに偏りがある場合、教師データによって構築された機械学習モデルにも偏りが生じる。このため、従来の技術のように、出力データが示す生起確率の差分に基づいて、正解データを付与する対象となるデータを選択するだけでなく、他の手法により、ラベルを付与する対象となるデータを選択する必要がある。
【0006】
そこで、本発明はこれらの点に鑑みてなされたものであり、出力データが示す生起確率の差分を用いずに、正解データを付与する対象となるデータを選択することを目的とする。
【課題を解決するための手段】
【0007】
本発明の第1の態様に係る情報処理装置は、所定の事象を予測するための要素となる複数の要素データを含み、前記所定の事象を予測するモデルに入力する入力データを複数取得する入力データ取得部と、前記入力データ取得部が取得した複数の前記入力データのそれぞれを前記モデルに入力し、前記モデルが出力した前記所定の事象の予測結果を示す出力データを、複数の前記入力データのそれぞれに対応して取得する出力データ取得部と、前記出力データが示す前記予測結果の算定に対する、前記入力データに含まれる複数の前記要素データそれぞれの重要度を、複数の前記入力データのそれぞれに対応して特定する重要度特定部と、前記重要度特定部が特定した複数の前記入力データそれぞれに含まれる複数の前記要素データに対応する複数の前記重要度に基づいて、複数の前記入力データの中から、前記所定の事象の正解を示す正解データを付与する対象の前記入力データを選択する選択部と、前記選択部が選択した前記入力データを示す情報を出力する出力部と、を有する。
【0008】
前記モデルは、前記入力データの入力に対し、前記所定の事象に対応する複数のクラスそれぞれの生起確率を示す前記出力データを出力し、前記情報処理装置は、前記複数のクラスそれぞれを識別するためのクラス識別情報と、当該クラス識別情報が示すクラスに対応する一以上の前記要素を識別するための要素識別情報とを関連付けて記憶する記憶部をさらに有し、前記選択部は、複数の前記入力データそれぞれに対し、当該入力データに含まれる複数の前記要素データのうち、相対的に高い重要度を有する要素データに対応する前記要素識別情報が、当該入力データに対応する前記出力データにおいて前記生起確率が最も高いクラスに関連付けられて前記記憶部に記憶されている割合を特定し、複数の入力データそれぞれに対して特定した前記割合に基づいて、複数の前記入力データの中から前記正解データを付与する対象の前記入力データを選択してもよい。
【0009】
前記選択部は、複数の前記入力データのうち、特定した前記割合が相対的に小さい入力データを、前記正解データを付与する対象の前記入力データとして選択してもよい。
【0010】
前記選択部は、複数の前記入力データそれぞれに対し、当該入力データに対して特定された最大の重要度と最小の重要度との差を算出し、複数の前記入力データそれぞれに対して算出した前記最大の重要度と最小の重要度との差に基づいて、複数の前記入力データの中から前記正解データを付与する対象の前記入力データを選択してもよい。
【0011】
前記選択部は、複数の前記入力データのうち、算出した前記最大の重要度と最小の重要度との差が相対的に小さい入力データを、前記正解データを付与する対象の前記入力データとして選択してもよい。
【0012】
前記選択部は、複数の前記入力データそれぞれに対し、当該入力データに対して特定された複数の前記重要度の分散を算出し、複数の前記入力データそれぞれに対して算出した前記分散に基づいて、複数の前記入力データの中から前記正解データを付与する対象の前記入力データを選択してもよい。
【0013】
前記選択部は、複数の前記入力データのうち、算出した前記分散が相対的に小さい入力データを、前記正解データを付与する対象の前記入力データとして選択してもよい。
【0014】
前記重要度特定部は、前記入力データに含まれる複数の前記要素データのそれぞれの前記重要度を示す重要度データを出力する重要度出力モデルに、前記出力データ取得部が取得した出力データに対応する入力データを入力し、前記重要度出力モデルが出力した前記重要度データを取得することにより、当該入力データに含まれる複数の要素データそれぞれの重要度を特定してもよい。
【0015】
本発明の第2の態様に係る情報処理方法は、コンピュータが実行する、所定の事象を予測するための要素となる複数の要素データを含み、前記所定の事象を予測するモデルに入力する入力データを複数取得するステップと、取得した複数の前記入力データのそれぞれを前記モデルに入力し、前記モデルが出力した前記所定の事象の予測結果を示す出力データを、複数の前記入力データのそれぞれに対応して取得するステップと、前記出力データが示す前記予測結果の算定に対する、前記入力データに含まれる複数の前記要素データそれぞれの重要度を、複数の前記入力データのそれぞれに対応して特定するステップと、特定した複数の前記入力データそれぞれに含まれる複数の前記要素データに対応する複数の前記重要度に基づいて、複数の前記入力データの中から、前記所定の事象の正解を示す正解データを付与する対象の前記入力データを選択するステップと、選択した前記入力データを示す情報を出力するステップと、を有する。
【発明の効果】
【0016】
本発明によれば、出力データが示す生起確率の差分を用いずに、正解データを付与する対象となるデータを選択することができるという効果を奏する。
【図面の簡単な説明】
【0017】
【
図1】本実施形態に係る情報処理装置の概要を説明する図である。
【
図2】本実施形態に係る情報処理装置の構成を示す図である。
【
図4】
図3に示す入力データに対応する重要度データを示す図である。
【発明を実施するための形態】
【0018】
[情報処理装置の概要]
図1は、本実施形態に係る情報処理装置1の概要を説明する図である。情報処理装置1は、機械学習モデルに入力する複数の入力データであって、正解データ(正解ラベル)が付されていない複数の入力データのうち、機械学習モデルの学習に利用するために正解データを付与する入力データを選択するためのコンピュータである。
【0019】
図1に示すように、情報処理装置1は、所定の事象を予測するための要素となる複数の要素データを含み、機械学習モデルに入力するための複数の入力データを取得する(
図1における(1))。機械学習モデルは、入力データの入力に対して所定の事象を予測し、予測結果を示す出力データを出力するモデルである。情報処理装置1は、取得した複数の入力データのそれぞれを機械学習モデルに入力し、機械学習モデルが複数の入力モデルのそれぞれに対して出力した複数の出力データを取得する(
図1における(2)、(3))。
【0020】
情報処理装置1は、XAI(Explainable AI)モデルを用いて、取得した出力データが示す所定の事象の予測結果の算定に対する、入力データに含まれる複数の要素データそれぞれの重要度を、複数の入力データのそれぞれに対して特定する(
図1における(4))。XAIモデルは、入力データに含まれる複数の要素データのそれぞれの、当該入力データに対応する出力データが示す所定の事象の予測結果の算定に対する重要度を示す重要度データを出力するモデルである。XAIモデルは、入力データが入力されると、当該入力データから複数の疑似データを生成し、複数の模擬データのそれぞれを機械学習モデルに入力し、機械学習モデルから出力される出力データの変化を観察することにより、入力データに含まれる複数の要素データのそれぞれの重要度を示す重要度データを出力する。
【0021】
情報処理装置1は、複数の入力データそれぞれに含まれる複数の要素データに対応する複数の重要度を特定すると、これらの重要度に基づいて、複数の入力データの中から、所定の事象の正解を示す正解データを付与する対象の入力データを選択する(
図1における(5))。情報処理装置1は、選択した入力データを示す選択結果情報を出力する(
図1における(6))。このようにすることで、情報処理装置1は、出力データが示す所定の事象に対応する複数のクラスそれぞれの生起確率の差分を用いずに、正解データを付与する対象となる入力データを選択することができる。
【0022】
[情報処理装置1の構成例]
続いて、情報処理装置1の構成について説明する。
図2は、本実施形態に係る情報処理装置1の構成を示す図である。情報処理装置1は、通信部11と、記憶部12と、制御部13とを有する。制御部13は、入力データ取得部131と、出力データ取得部132と、重要度特定部133と、選択部134と、出力部135とを有する。
【0023】
通信部11は、インターネット等のネットワークを介して外部装置とデータを送受信するための通信インターフェースである。
記憶部12は、例えば、ROM(Read Only Memory)及びRAM(Random Access Memory)等である。記憶部12は、情報処理装置1を機能させるための各種プログラムを記憶する。例えば、記憶部12は、情報処理装置1の制御部13を、入力データ取得部131、出力データ取得部132、重要度特定部133、選択部134、及び出力部135として機能させるプログラムを記憶する。
【0024】
制御部13は、例えばCPU(Central Processing Unit)である。制御部13は、記憶部12に記憶されている各種プログラムを実行することにより、情報処理装置1に係る機能を制御する。制御部13は、記憶部12に記憶されているプログラムを実行することにより、入力データ取得部131、出力データ取得部132、重要度特定部133、選択部134、及び出力部135として機能する。
【0025】
入力データ取得部131は、所定の事象を予測するための複数の要素データを含み、所定の事象を予測する機械学習モデルに入力する入力データを複数取得する。例えば、入力データ取得部131は、情報処理装置1を利用するユーザが使用するユーザ端末(不図示)から複数の入力データを取得する。
図3は、入力データの一例を示す図である。
図3に示す入力データX
1及びX
2のそれぞれは、所定の事象として、宅内に存在する人の行動を予測するための要素データを含んでいる。具体的には、入力データX
1及びX
2のそれぞれは、宅内に設けられている複数のセンサそれぞれの作動状況を示し、センサが作動した順に並べられた複数の要素データx
1_1~x
1_10、x
2_1~x
2_10を含んでいる。例えば、要素データx
1_1の「キッチン人感ON」は、キッチン人感センサがONになったことを示している。なお、要素データには、要素を識別する要素IDと、イベントが発生した時刻を示す時刻情報とが含まれているものとするが、これに限らず、時刻情報が含まれていなくてもよい。
【0026】
なお、情報処理装置1は、複数の入力データの中から正解データを付与する入力データを選択するために複数の入力データを取得することから、入力データ取得部131は、正解データが付与されていない複数の入力データを取得するが、本実施形態において、以降の説明を簡単にするため、入力データ取得部131が取得した入力データX1、X2には、正解データとして、宅内に存在する人の行動の一つである「料理」が付与されているものとする。
【0027】
出力データ取得部132は、入力データ取得部131が取得した複数の入力データのそれぞれを機械学習モデルに入力し、機械学習モデルが出力した所定の事象の予測結果を示す出力データを、複数の入力データのそれぞれに対応して取得する。
【0028】
図3に示す入力データに基づいて人の行動を予測する場合、機械学習モデルは、例えば、入力データと、当該入力データに対応する正解データである、人の行動を示す行動情報とを関連付けた少数の教師データに基づいて学習済であるものとする。機械学習モデルは、例えば、記憶部12に記憶されているものとする。機械学習モデルは、
図3に示す、複数のセンサそれぞれの作動状況を示す入力データの入力に対し、宅内の人が取り得る複数の行動それぞれの生起確率を出力する。
【0029】
出力データ取得部132は、例えば、
図3に示す入力データX
1、X
2を機械学習モデルに入力し、機械学習モデルから、以下に示す出力データY
1、Y
2を取得する。出力データY
1において、例えば、「仕事」に対応する0.5は、宅内の人が仕事を行っている確率が50%であることを示している。
出力データY
1={外出:0.05,睡眠:0.05,料理:0.2,食事:0.1,仕事:0.5,リラックス:0.1}
出力データY
2={外出:0.05,睡眠:0.05,料理:0.4,食事:0.3,仕事:0.1,リラックス:0.1}
【0030】
上述したように、入力データX1、X2には、正解データとしていずれも「料理」が付与されているところ、出力データY1では、「料理」ではなく「仕事」の生起確率が最も高く、機械学習モデルが誤った判定結果を出力していることが確認できる。
【0031】
なお、機械学習モデルとして機能するプログラムは、記憶部12に記憶されているものとするが、これに限らない。出力データ取得部132は、機械学習モデルとして機能する外部装置に入力データを送信し、外部機能から出力データを取得してもよい。
【0032】
重要度特定部133は、出力データ取得部132が取得した出力データが示す予測結果の算定に対する、入力データに含まれる複数の要素データそれぞれの重要度を、複数の入力データのそれぞれに対応して特定する。具体的には、重要度特定部133は、入力データに含まれる複数の要素データのそれぞれの重要度を示す重要度データを出力するXAIモデルに、出力データ取得部132が取得した出力データに対応する入力データを入力するとともに、重要度を算出する対象となるクラスを指定し、XAIモデルが出力した、当該クラスに対応する重要度データを取得することにより、当該入力データに含まれる複数の要素データそれぞれの、指定したクラスに対応する重要度を特定する。
【0033】
例えば、重要度特定部133は、
図3に示すX
1をXAIモデルに入力するとともに、生起確率が最も高い行動「仕事」を指定し、XAIモデルから「仕事」に対応する重要度データI
1を取得する。同様に、重要度特定部133は、
図3に示すX
2をXAIモデルに入力するとともに、生起確率が最も高い行動「料理」を指定し、XAIモデルから「料理」に対応する重要度データI
2を取得する。
図4は、
図3に示す入力データX
1、X
2に対応する重要度データI
1、I
2を示す図である。
図4に示す重要度データI
1は、
図3に示す要素データx
1_1~x
1_10それぞれに対応する重要度i
1_1~i
1_10を含んでおり、重要度データI
2は、
図3に示す要素データx
2_1~x
2_10それぞれに対応する重要度i
2_1~i
2_10を含んでいる。
【0034】
重要度の値が大きいほど、出力データにおいて指定されたクラス(最も生起確率が高いクラス)の生起確率を増加させたことを意味する。
図3に示す入力データX
1と
図4に示す重要度データI
1とから、出力データY
1において最も生起確率が高い行動「仕事」に対し、要素データx
1_1(キッチン人感ON)、x
1_5(仕事部屋人感ON)、x
1_7(キッチン冷蔵庫OPEN)が重要な要素データであると機械学習モデルが判定していることが確認できる。すなわち、機械学習モデルが「仕事」という行動に対し、「キッチン人感ON」や「キッチン冷蔵庫OPEN」といった「仕事」とは関係がないセンサの作動に対して高い重要度を与えていることが確認できる。また、
図3に示す入力データX
2と
図4に示す重要度データI
2とから、出力データY
2において最も生起確率が高い行動「料理」に対し、要素データx
2_1(キッチン人感ON)、x
2_3(キッチン冷蔵庫OPEN)、x
2_8(キッチン人感ON)が重要な要素データであると機械学習モデルが判定していることが確認できる。
【0035】
選択部134は、重要度特定部133が特定した複数の入力データそれぞれに含まれる複数の要素データに対応する複数の重要度に基づいて、複数の入力データの中から、所定の事象の正解を示す正解データを付与する対象の入力データを選択する。
【0036】
例えば、記憶部12に、所定の事象に対応する複数のクラスそれぞれを識別するためのクラス識別情報と、当該クラス識別情報が示すクラスに対応する一以上の要素を識別するための要素識別情報とを関連付けた対応情報を記憶させておく。
図5は、対応情報の一例を示す図である。
図5に示す例では、所定の事象に対応する複数のクラスのクラス識別情報として、宅内の人が取り得る行動「外出」、「睡眠」、「料理」、「食事」、「仕事」、「リラックス」が設けられていることが確認できる。また、複数のクラス識別情報のそれぞれに、要素識別情報として、宅内に設けられているセンサの名称が関連付けられていることが確認できる。
【0037】
選択部134は、入力データ取得部131が取得した複数の入力データそれぞれに対し、当該入力データに含まれる複数の要素データのうち、相対的に高い重要度を有する要素データに対応する要素識別情報が、当該入力データに対応する出力データにおいて生起確率が最も高いクラスに関連付けられて記憶部12に記憶されている割合を特定する。
【0038】
出力結果Y
1において生起確率が最も高い行動は「仕事」であり、
図5に示す対応情報において、「仕事」に関連付けられている要素識別情報は、「仕事部屋人感センサ」、「仕事部屋温度センサ」、「仕事部屋照明センサ」である。これに対し、
図4に示す重要度データI
1において相対的に高い3つの重要度それぞれに対応する要素データは、要素データx
1_1(キッチン人感ON)、x
1_5(仕事部屋人感ON)、x
1_7(キッチン冷蔵庫OPEN)であり、x
1_5(仕事部屋人感ON)のみ、「仕事」に関連付けて記憶されている。このため、選択部134は、入力データX
1に含まれる複数の要素データのうち、相対的に高い重要度を有する要素データに対応する要素識別情報が、出力データY
1において生起確率が最も高いクラス「行動」に関連付けられて記憶部12に記憶されている割合を1/3と特定する。
【0039】
一方、出力結果Y
2において生起確率が最も高い行動は「料理」であり、
図5に示す対応情報において、「料理」に関連付けられている要素識別情報は、「キッチン人感センサ」、「キッチン温度センサ」、「キッチン照明センサ」、「冷蔵庫開閉センサ」である。これに対し、
図4に示す重要度データI
2において相対的に高い3つの重要度それぞれに対応する要素データは、要素データx
2_1(キッチン人感ON)、x
2_3(キッチン冷蔵庫OPEN)、x
2_8(キッチン人感ON)であり、3つの要素データが、「料理」に関連付けて記憶されている。このため、選択部134は、入力データX
2に含まれる複数の要素データのうち、相対的に高い重要度を有する要素データに対応する要素識別情報が、出力データY
2において生起確率が最も高いクラス「料理」に関連付けられて記憶部12に記憶されている割合を3/3と特定する。
【0040】
選択部134は、複数の入力データそれぞれに対して特定した割合に基づいて、複数の入力データの中から正解データを付与する対象の入力データを選択する。選択部134は、複数の入力データのうち、特定した割合が相対的に低い入力データを、正解データを付与する対象の入力データとして選択する。選択部134が、複数の入力データX1、X2のいずれか一方の入力データを、正解データを付与する対象の入力データを選択する場合、割合が低い入力データX1を、正解データを付与する対象の入力データとして選択する。
【0041】
上述したように、入力データX1に対応する出力データY1では、正解である「料理」ではなく「仕事」の生起確率が最も高く、機械学習モデルが誤った判定結果を出力しているところ、選択部134は、正解データを付与する対象の入力データとして入力データX1を選択する。
【0042】
このようにすることで、情報処理装置1は、生起確率が最も高いクラスと、重要度が相対的に高い要素データとが関連付けられておらず、機械学習モデルにおいて自信がなく、誤って判定している確率が相対的に高いと考えられる出力データに対応する入力データに限定してラベリングを行い、機械学習を行うことにより、効率的に機械学習モデルの学習を行うことができるとともに、ラベリングに係るコストを低減させることができる。
【0043】
なお、選択部134は、入力データに含まれる複数の要素データのうち、相対的に高い重要度を有する要素データに対応する要素識別情報が、当該入力データに対応する出力データにおいて生起確率が最も高いクラスに関連付けられて記憶部に記憶されている割合に基づいて、正解データを付与する対象の入力データを選択したが、これに限らない。選択部134は、重要度を用いた他の方法を用いて、正解データを付与する対象の入力データを選択したり、複数の方法を組み合わせて、正解データを付与する対象の入力データを選択したりしてもよい。
【0044】
例えば、機械学習モデルの学習が進むと、機械学習モデルは、クラスの特定に対してどの要素データが重要であるかを理解する。これにより、重要である要素データに対して、重要度特定部133が特定する重要度が高くなり、それ以外の要素データの重要度が低くなると考えられる。一方、機械学習モデルの学習が進んでいない段階では、機械学習モデルがどの要素データに着目すべきか分からず、重要度特定部133が特定する全ての要素データそれぞれの重要度が同程度になると考えられる。
【0045】
これに対し、選択部134は、複数の入力データそれぞれに対し、当該入力データに対して特定された最大の重要度と最小の重要度との差を算出し、複数の入力データそれぞれに対して算出した最大の重要度と最小の重要度との差に基づいて、複数の入力データの中から正解データを付与する対象の入力データを選択する。
【0046】
具体的には、選択部134は、複数の入力データのうち、算出した最大の重要度と最小の重要度との差が相対的に小さい入力データを、正解データを付与する対象の入力データとして選択する。また、選択部134は、複数の入力データのうち、算出した最大の重要度と最小の重要度との差が第1の閾値以下である入力データを、正解データを付与する対象の入力データとして選択する。
【0047】
図4に示す重要度データI
1の最大の重要度は0.15、最小の重要度は0.01であることから、選択部134は、重要度データI
1に対応する最大の重要度と最小の重要度との差を0.14と算出する。また、重要度データI
2の最大の重要度は0.3、最小の重要度は-0.05であることから、選択部134は、重要度データI
2に対応する最大の重要度と最小の重要度との差を0.35と算出する。選択部134が、複数の入力データX
1、X
2のいずれか一方の入力データを、正解データを付与する対象の入力データを選択する場合、算出した最大の重要度と最小の重要度との差が相対的に小さい入力データX
1を、正解データを付与する対象の入力データとして選択する。
【0048】
また、選択部134は、複数の入力データそれぞれに対し、当該入力データに対して特定された複数の重要度の分散を算出し、複数の入力データそれぞれに対して算出した分散に基づいて、複数の入力データの中から正解データを付与する対象の入力データを選択してもよい。具体的には、選択部134は、複数の入力データのうち、算出した分散が相対的に小さい入力データを、正解データを付与する対象の入力データとして選択してもよい。また、選択部134は、複数の入力データのうち、算出した分散が第2の閾値以下である入力データを、正解データを付与する対象の入力データとして選択してもよい。
【0049】
このようにすることで、情報処理装置1は、どの要素データに着目すべきかを十分に判定できていない要素データを含む入力データを、学習対象の入力データとして選択することができる。
【0050】
出力部135は、選択部134が選択した入力データを示す選択結果情報を出力する。例えば、出力部135は、選択部134が選択した入力データを示す情報と、当該入力データに正解データを付与することにより、機械学習モデルの精度が向上することを示すメッセージとを含む選択結果情報をユーザ端末に送信する。
【0051】
[本実施形態における効果]
以上の通り、本実施形態に係る情報処理装置1は、所定の事象を予測するための要素となる複数の要素データを含み、所定の事象を予測するモデルに入力する入力データを複数取得し、当該複数の入力データのそれぞれをモデルに入力し、モデルが出力した所定の事象の予測結果を示す出力データを、複数の入力データのそれぞれに対応して取得する。情報処理装置1は、出力データが示す予測結果の算定に対する、入力データに含まれる複数の要素データそれぞれの重要度を、複数の入力データのそれぞれに対応して特定し、特定した複数の入力データそれぞれに含まれる複数の要素データに対応する複数の重要度に基づいて、複数の入力データの中から、所定の事象の正解を示す正解データを付与する対象の入力データを選択し、選択された入力データを示す情報を出力する。このようにすることで、情報処理装置1は、出力データが示す生起確率の差分を用いずに、正解データを付与する対象となる入力データを選択することができる。
【0052】
なお、本発明により、国連が主導する持続可能な開発目標(SDGs)の目標9「産業と技術革新の基盤をつくろう」に貢献することが可能となる。
【0053】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。
【符号の説明】
【0054】
1 情報処理装置
11 通信部
12 記憶部
13 制御部
131 入力データ取得部
132 出力データ取得部
133 重要度特定部
134 選択部
135 出力部