(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-12
(45)【発行日】2024-12-20
(54)【発明の名称】情報処理装置、プログラム及び情報処理方法
(51)【国際特許分類】
G06N 20/00 20190101AFI20241213BHJP
【FI】
G06N20/00
(21)【出願番号】P 2024528024
(86)(22)【出願日】2022-06-16
(86)【国際出願番号】 JP2022024125
(87)【国際公開番号】W WO2023243036
(87)【国際公開日】2023-12-21
【審査請求日】2024-07-04
【早期審査対象出願】
(73)【特許権者】
【識別番号】000006013
【氏名又は名称】三菱電機株式会社
(74)【代理人】
【識別番号】100116964
【氏名又は名称】山形 洋一
(74)【代理人】
【識別番号】100120477
【氏名又は名称】佐藤 賢改
(74)【代理人】
【識別番号】100135921
【氏名又は名称】篠原 昌彦
(74)【代理人】
【識別番号】100203677
【氏名又は名称】山口 力
(72)【発明者】
【氏名】曲 佳
(72)【発明者】
【氏名】三輪 祥太郎
【審査官】新井 則和
(56)【参考文献】
【文献】特表2021-531529(JP,A)
【文献】中国特許出願公開第109714322(CN,A)
【文献】中国特許出願公開第110287439(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
注意機構の学習モデルである注意機構学習モデルを用いて、時系列である複数の変数に重み付けをして加算することでコンテクスト変数を算出する注意機構部と、
前記コンテクスト変数及び前記複数の変数に含まれる最新の一つの変数から算出される、複数の判断の信頼度に基づいて、前記複数の判断に含まれる一つの判断を推定する判断部と、
前記コンテクスト変数及び前記一つの判断を対応付けた結果情報を記憶する記憶部と、
前記結果情報から、少なくとも前記注意機構学習モデルの学習状態の評価を行う評価部と、を備えること
を特徴とする情報処理装置。
【請求項2】
前記判断部は、前記コンテクスト変数から前記一つの判断を推定するための学習モデルである判断学習モデルを用いて前記一つの判断を推定し、
前記評価部は、前記判断学習モデル及び前記注意機構学習モデルの前記評価を行うこと
を特徴とする請求項1に記載の情報処理装置。
【請求項3】
入力データから前記変数を抽出する変数抽出部をさらに備えること
を特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記変数抽出部は、前記入力データから前記変数を抽出するための学習モデルである抽出学習モデルを用いて前記変数を抽出し、
前記評価部は、前記抽出学習モデル、前記判断学習モデル及び前記注意機構学習モデルの前記評価を行うこと
を特徴とする請求項3に記載の情報処理装置。
【請求項5】
入力データから前記変数を抽出する変数抽出部をさらに備えること
を特徴とする請求項1に記載の情報処理装置。
【請求項6】
前記変数抽出部は、前記入力データから前記変数を抽出するための学習モデルである抽出学習モデルを用いて前記変数を抽出し、
前記評価部は、前記抽出学習モデル及び前記注意機構学習モデルの前記評価を行うこと
を特徴とする請求項5に記載の情報処理装置。
【請求項7】
前記評価部は、前記複数の判断の各々でクラスタリングを行うことで、複数のクラスタを特定し、前記複数のクラスタ間の距離又は類似度により前記評価を行うこと
を特徴とする請求項1から6の何れか一項に記載の情報処理装置。
【請求項8】
前記評価が予め定められた閾値よりも低い場合に、追加の学習データである追加学習データを用いて、少なくとも前記注意機構学習モデルを学習する追加学習部をさらに備えること
を特徴とする請求項1から6の何れか一項に記載の情報処理装置。
【請求項9】
前記追加学習部は、前記複数の判断の内、前記評価が前記予め定められた閾値よりも低い判断を正解とする学習データを前記追加学習データとして用いること
を特徴とする請求項8に記載の情報処理装置。
【請求項10】
前記評価に従って、少なくとも前記注意機構学習モデルを学習するための学習データの選択を行う学習データ選択部と、
前記選択された学習データを用いて、少なくとも前記注意機構学習モデルを学習する学習部と、をさらに備えること
を特徴とする請求項1から6の何れか一項に記載の情報処理装置。
【請求項11】
前記学習データ選択部は、前記一つの判断における前記評価が低いほど、前記一つの判断を正解とする前記学習データの数が多くなるように、前記選択を行うこと
を特徴とする請求項10に記載の情報処理装置。
【請求項12】
前記評価に従って、少なくとも前記注意機構学習モデルの学習を継続するか否かを判断する学習継続判断部と、
前記学習を継続すると判断された場合に、少なくとも前記注意機構学習モデルを学習するための学習データを用いて前記学習を継続し、前記学習を継続しないと判断された場合に、前記学習を終了する学習部と、をさらに備えること
を特徴とする請求項1から6の何れか一項に記載の情報処理装置。
【請求項13】
前記学習継続判断部は、前記複数の判断の全部又は一部の前記評価が予め定められた閾値よりも低い場合に、前記学習を継続すると判断すること
を特徴とする請求項12に記載の情報処理装置。
【請求項14】
コンピュータを、
注意機構の学習モデルである注意機構学習モデルを用いて、時系列である複数の変数に重み付けをして加算することでコンテクスト変数を算出する注意機構部、
前記コンテクスト変数及び前記複数の変数に含まれる最新の一つの変数から算出される、複数の判断の信頼度に基づいて、前記複数の判断に含まれる一つの判断を推定する判断部、
前記コンテクスト変数及び前記一つの判断を対応付けた結果情報を記憶する記憶部、及び、
前記結果情報から、少なくとも前記注意機構学習モデルの学習状態の評価を行う評価部、として機能させること
を特徴とするプログラム。
【請求項15】
注意機構部が、注意機構の学習モデルである注意機構学習モデルを用いて、時系列である複数の変数に重み付けをして加算することでコンテクスト変数を算出し、
判断部が、前記コンテクスト変数及び前記複数の変数に含まれる最新の一つの変数から算出される、複数の判断の信頼度に基づいて、前記複数の判断に含まれる一つの判断を推定し、
記憶部が、前記コンテクスト変数及び前記一つの判断を対応付けた結果情報を記憶し、
評価部が、前記結果情報から、少なくとも前記注意機構学習モデルの学習状態の評価を行うこと
を特徴とする情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、プログラム及び情報処理方法に関する。
【背景技術】
【0002】
学習モデルによる推定精度を高める技術として、注意機構がある。例えば、非特許文献1は、ニューラルネットワークによる自然言語の翻訳に、注意機構を用いることで、その翻訳精度を向上できることが記載されている。
【先行技術文献】
【非特許文献】
【0003】
【文献】Minh-Thang Luong et al., “Effective Approaches to Attention-based Neural Machine Translation”、 arXiv preprent arXiv:1508.04025, 18 Aug 2015
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、深層強化学習を用いた学習モデルは、内部処理がブラックボックスで見えない。このため、学習モデルの学習が有効に行われたか否かをユーザが容易に判断することができない。
【0005】
そこで、本開示の一又は複数の態様は、注意機構を用いた学習モデルの学習状態を容易に把握できるようにすることを目的とする。
【課題を解決するための手段】
【0006】
本開示の一態様に係る情報処理装置は、注意機構の学習モデルである注意機構学習モデルを用いて、時系列である複数の変数に重み付けをして加算することでコンテクスト変数を算出する注意機構部と、前記コンテクスト変数及び前記複数の変数に含まれる最新の一つの変数から算出される、複数の判断の信頼度に基づいて、前記複数の判断に含まれる一つの判断を推定する判断部と、前記コンテクスト変数及び前記一つの判断を対応付けた結果情報を記憶する記憶部と、前記結果情報から、少なくとも前記注意機構学習モデルの学習状態の評価を行う評価部と、を備えることを特徴とする。
【0007】
本開示の一態様に係るプログラムは、コンピュータを、注意機構の学習モデルである注意機構学習モデルを用いて、時系列である複数の変数に重み付けをして加算することでコンテクスト変数を算出する注意機構部、前記コンテクスト変数及び前記複数の変数に含まれる最新の一つの変数から算出される、複数の判断の信頼度に基づいて、前記複数の判断に含まれる一つの判断を推定する判断部、前記コンテクスト変数及び前記一つの判断を対応付けた結果情報を記憶する記憶部、及び、前記結果情報から、少なくとも前記注意機構学習モデルの学習状態の評価を行う評価部、として機能させることを特徴とする。
【0008】
本開示の一態様に係る情報処理方法は、注意機構部が、注意機構の学習モデルである注意機構学習モデルを用いて、時系列である複数の変数に重み付けをして加算することでコンテクスト変数を算出し、判断部が、前記コンテクスト変数及び前記複数の変数に含まれる最新の一つの変数から算出される、複数の判断の信頼度に基づいて、前記複数の判断に含まれる一つの判断を推定し、記憶部が、前記コンテクスト変数及び前記一つの判断を対応付けた結果情報を記憶し、評価部が、前記結果情報から、少なくとも前記注意機構学習モデルの学習状態の評価を行うことを特徴とする。
【発明の効果】
【0009】
本開示の一又は複数の態様によれば、注意機構を用いた学習モデルの学習状態を容易に把握することができる。
【図面の簡単な説明】
【0010】
【
図1】実施の形態1に係る情報処理装置の構成を概略的に示すブロック図である。
【
図2】(A)及び(B)は、ハードウェア構成例を示すブロック図である。
【
図3】実施の形態1に係る情報処理装置での処理を説明するための概略図である。
【
図4】実施の形態2に係る情報処理装置の構成を概略的に示すブロック図である。
【
図5】実施の形態2に係る情報処理装置での処理を説明するための概略図である。
【
図6】実施の形態3に係る情報処理装置の構成を概略的に示すブロック図である。
【
図7】実施の形態3に係る情報処理装置での処理を説明するための概略図である。
【
図8】実施の形態4に係る情報処理装置の構成を概略的に示すブロック図である。
【
図9】実施の形態4に係る情報処理装置での処理を説明するための概略図である。
【発明を実施するための形態】
【0011】
実施の形態1.
図1は、実施の形態1に係る情報処理装置100の構成を概略的に示すブロック図である。
情報処理装置100は、記憶部101と、通信部102と、入力部103と、表示部104と、制御部110とを備える。
【0012】
記憶部101は、情報処理装置100での処理に必要なプログラム及びデータを記憶する。
例えば、記憶部101は、制御部110で実行する注意機構で用いる学習モデルである注意機構学習モデルを少なくとも記憶する。なお、実施の形態1では、記憶部101は、後述するように、抽出学習モデル及び判断学習モデルも記憶する。
また、記憶部101は、注意機構による推定結果を用いて制御部110で判断された判断結果と、その推定結果とを対応付けた結果情報を記憶する。
【0013】
通信部102は、他の装置との通信を行う。例えば、通信部102は、インターネット等のネットワークを介して、他の装置と通信を行う。
【0014】
入力部103は、情報処理装置100のユーザからの入力を受け付ける。
表示部104は、情報処理装置100のユーザに情報を表示する。例えば、表示部104は、各種画面画像を表示する。
【0015】
制御部110は、情報処理装置100での処理を制御する。例えば、制御部110は、判断を行うために必要な変数である状態変数を、注意機構により重み加算を行うことで、コンテクスト状態変数を算出し、そのコンテクスト状態変数からある判断を推定する。そして、制御部110は、そのコンテクスト状態変数及びそのコンテクスト状態変数から推定された判断を対応付けて、結果情報として記憶部101に記憶させる。
なお、以下では、状態変数を、単に変数ともいい、コンテクスト状態変数を、単にコンテクスト変数ともいう。
【0016】
さらに、制御部110は、記憶部101に記憶されている結果情報を用いて、少なくとも注意機構で用いられる学習モデルの学習状態の評価を行う。なお、実施の形態1では、制御部110は、後述するように、抽出学習モデル、注意機構学習モデル及び判断学習モデルの学習状態の評価を行う。
【0017】
制御部110は、データ取得部111と、変数抽出部112と、注意機構部113と、判断部114と、評価部115とを備える。
データ取得部111は、入力データを取得する。データ取得部111は、例えば、通信部102を介して入力データを取得してもよい。また、入力データが記憶部101に記憶されている場合、データ取得部111は、記憶部101から入力データを取得してもよい。
【0018】
変数抽出部112は、データ取得部111で取得された入力データから、判断を行うことのできる変数である状態変数を抽出する。
ここでは、変数抽出部112は、入力データから状態変数を抽出するための学習モデルである抽出学習モデルを用いて、状態変数を抽出する。
【0019】
注意機構部113は、変数抽出部112で抽出された状態変数に対して、公知の注意機構による重み付け和を行うことで、コンテクスト状態変数を算出する。例えば、注意機構部113は、変数抽出部112で抽出された状態変数に対して、記憶部101に記憶されている学習モデルを用いて重み付けを行い、重み付けされた状態変数を加算することで、推定結果としてのコンテクスト状態変数を算出する。
【0020】
判断部114は、注意機構部113で推定されたコンテクスト状態変数及び複数の状態変数に含まれる最新の一つの状態変数から算出される、複数の判断の信頼度に基づいて、その複数の判断に含まれる一つの判断から、複数の判断に含まれる一つの判断を推定する。そして、判断部114は、その一つの判断と、コンテクスト状態変数とを対応付けて結果情報として記憶部101に記憶させる。
ここでは、判断部114は、コンテクスト変数から一つの判断を推定するための学習モデルである判断学習モデルを用いて推定を行う。
【0021】
評価部115は、記憶部101に記憶されている結果情報から、少なくとも注意機構部113が使用する学習モデルである注意機構学習モデルの学習状態を評価する。
なお、実施の形態1では、評価部115は、抽出学習モデル、注意機構学習モデル及び判断学習モデルの学習状態を評価する。但し、入力データから状態変数の抽出が行われない場合には、評価部115は、注意機構学習モデル及び判断学習モデルの学習状態を評価する。
【0022】
例えば、評価部115は、複数の判断の各々でクラスタリングを行うことで、複数のクラスタを特定し、複数のクラスタ間の距離又は類似度により評価を行う。この場合、距離が短いほど、又は、類似度が高いほど、評価が低いことになる。
【0023】
以上に記載された制御部110の一部又は全部は、例えば、
図2(A)に示されているように、メモリ10と、メモリ10に格納されているプログラムを実行するCPU(Central Processing Unit)等のプロセッサ11とにより構成することができる。言い換えると、情報処理装置100は、いわゆるコンピュータにより実現することができる。このようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。
【0024】
また、制御部110の一部又は全部は、例えば、
図2(B)に示されているように、単一回路、複合回路、プログラムで動作するプロセッサ、プログラムで動作する並列プロセッサ、ASIC(Application Specific Integrated Circuit)又はFPGA(Field Programmable Gate Array)等の処理回路12で構成することもできる。
以上のように、制御部110は、処理回路網により実現することができる。
【0025】
なお、記憶部101は、HDD(Hard Disk Drive)又はSSD(Solid state Drive)等の記憶装置により実現することができる。
通信部102は、NIC(Network Interface Card)等の通信インタフェースにより実現することができる。
入力部103は、キーボード又はマウス等の入力インタフェースにより実現することができる。
表示部104は、ディスプレイにより実現することができる。
【0026】
図3は、実施の形態1に係る情報処理装置100での処理を説明するための概略図である。
まず、データ取得部111は、入力データX
t-n、X
t-n+1、X
t-1、X
tを取得する(S10)。ここでは、入力データX
t-n、X
t-n+1、X
t-1、X
tは、観測値としてのセンサ値であり、時系列t-n、t-n+1、t-1、t(t及びnは、正の整数)のデータであるものとする。例えば、入力データとしては、画像データを使用することができる。
データ取得部111は、取得された入力データX
t-n、X
t-n+1、X
t-1、X
tを変数抽出部112に与える。
【0027】
変数抽出部112は、入力データXt-n、Xt-n+1、Xt-1、Xtから、判断部114が判断を行うのに有利な変数である状態変数St-n、St-n+1、St-1、Stを抽出する(S11)。
ここでは、変数抽出部112は、記憶部101に記憶されているニューラルネットワークモデルである抽出学習モデルを用いて、入力データXt-n、Xt-n+1、Xt-1、Xtから状態変数St-n、St-n+1、St-1、Stを抽出する。
変数抽出部112は、抽出された状態変数St-n、St-n+1、St-1、Stを注意機構部113に与える。
なお、ここでは、変数抽出部112は、抽出学習モデルを用いているが、実施の形態1はこのような例に限定されず、何らかの関数を用いて状態変数St-n、St-n+1、St-1、Stが抽出されればよい。
【0028】
注意機構部113は、状態変数St-n、St-n+1、St-1、Stに対して、学習モデルを用いて重み値を推定して、重み付け和を算出することで、コンテクスト状態変数を算出する(S12)。
注意機構部113は、算出されたコンテクスト状態変数を判断部114に与える。
【0029】
判断部114は、コンテクスト状態変数及び最新の状態変数Stから判断を行う(S13)。
ここでは、判断部114は、記憶部101に記憶されているニューラルネットワークモデルである判断学習モデルを用いて、コンテクスト状態変数及び最新の状態変数から判断を推定する。
【0030】
そして、判断部114は、その判断と、コンテクスト状態変数とを対応付けて結果情報として記憶部101に記憶させることで、結果情報を蓄積する(S14)。
【0031】
評価部115は、記憶部101に記憶されている結果情報を用いて、少なくとも注意機構部113が使用する学習モデルの学習状態を評価する。
例えば、評価部115は、評価を行いやすくするため、結果情報を判断毎にクラスタリングしたN次元データをより低次元のデータに変換する(S15)。具体的には、評価部115は、そのN次元データを、T-sne(T-Eistributed Stochastic Neighbor Enbedding)を用いて、二次元データに変換することで、判断毎のクラスタを可視化する。
【0032】
そして、評価部115は、例えば、クラスタ間の距離又は類似度を評価値として算出することで、学習状態を評価する(S16)。
例えば、評価部115は、クラスタ間の評価値を閾値と比較することで、評価を行う。具体的には、評価部115は、クラスタ間の距離が予め定められた閾値未満である場合、又は、クラスタ間の類似度が予め定められた閾値よりも高い場合に、学習が不十分であると判断する。
なお、評価部115の判断結果は、例えば、表示部104に表示されてもよい。
【0033】
以上のように、実施の形態1によれば、注意機構を用いた学習モデルの学習状態を容易に把握することができる。
【0034】
実施の形態2.
図4は、実施の形態2に係る情報処理装置200の構成を概略的に示すブロック図である。
情報処理装置200は、記憶部101と、通信部102と、入力部103と、表示部104と、制御部210とを備える。
実施の形態2に係る情報処理装置200の記憶部101、通信部102、入力部103及び表示部104は、実施の形態1に係る情報処理装置100の記憶部101、通信部102、入力部103及び表示部104と同様である。
【0035】
制御部210は、情報処理装置200での処理を制御する。
実施の形態2における制御部210は、実施の形態1の制御部110と同様の処理を行う他、以下の処理を行う。
制御部210は、学習状態の評価結果に応じて、追加の学習データである追加学習データを用いて、学習モデルの学習を行う。
【0036】
制御部210は、データ取得部111と、変数抽出部112と、注意機構部113と、判断部114と、評価部215と、追加学習部216とを備える。
実施の形態2における制御部210のデータ取得部111、変数抽出部112、注意機構部113及び判断部114は、実施の形態1における制御部110のデータ取得部111、変数抽出部112、注意機構部113及び判断部114と同様である。
【0037】
評価部215は、記憶部101に記憶されている結果情報を用いて、少なくとも注意機構部113が使用する学習モデルの学習状態を評価する。
そして、評価部215は、その評価結果を追加学習部216に与える。例えば、評価部215は、二つのクラスタの組み合わせ毎に、評価値を閾値と比較することで、学習が十分であるか否かを示す評価情報を生成し、その評価情報を追加学習部216に与える。
【0038】
追加学習部216は、評価部215からの評価情報を参照して、追加学習データを変数抽出部112に与えることで、追加の学習を行う。
ここでは、追加学習部216は、評価部215による評価が予め定められた閾値よりも低い場合に、追加の学習データである追加学習データを用いて、少なくとも注意機構学習モデルを学習する。実施の形態2では、追加学習部216は、抽出学習モデル、判断学習モデル及び注意機構学習モデルを学習する。
【0039】
例えば、追加学習部216は、複数の判断の内、評価が予め定められた閾値よりも低い判断を正解とする学習データを追加学習データとして用いて、学習を行う。言い換えると、追加学習部216は、学習が不十分と判断された二つのクラスタに分類される学習データを追加学習データとして変数抽出部112に与えればよい。ここで、追加学習データは、例えば、通信部102を介して、他の装置から取得されてもよく、記憶部101に記憶されていてもよい。どこから追加学習データを取得するかは、例えば、入力部103を介して、ユーザが指示してもよい。
【0040】
図5は、実施の形態2に係る情報処理装置200での処理を説明するための概略図である。
図5のS10~S15までの処理については、
図3に示されているS10~S15までの処理と同様である。
【0041】
実施の形態2では、評価部215は、例えば、クラスタ間の距離又は類似度を評価値として算出することで、学習状態を評価して、その評価結果を示す評価情報を生成する(S26)。評価情報は、二つのクラスタの組み合わせ毎に、学習が十分であるか否かを示す情報である。生成された評価情報は、追加学習部216に与えられる。
【0042】
追加学習部216は、評価情報を参照して、学習が不十分であると判断されたクラスタに分類される学習データを追加学習データとして生成し(S27)、その追加学習データを変数抽出部112に与えることで、追加の学習を行う。
【0043】
以上のように、実施の形態2によれば、注意機構を用いた学習モデルにおいて、学習が不十分であるクラスタを追加で学習することができる。
【0044】
ここで、評価部215は、一つの閾値を用いて、学習が十分であるか否かを判断してもよいが、例えば、複数の閾値を用いることで、判断のリスク管理を行うことができる。具体的には、判断として、車両を「止める」と「加速する」といったように、間違ってはいけないクラスタ間については、距離が長く、又は、類似度が低くなければならないため、閾値を調整することで、判断のリスク管理を行うことができる。
【0045】
実施の形態3.
図6は、実施の形態3に係る情報処理装置300の構成を概略的に示すブロック図である。
情報処理装置300は、記憶部101と、通信部102と、入力部103と、表示部104と、制御部310とを備える。
実施の形態3に係る情報処理装置300の記憶部101、通信部102、入力部103及び表示部104は、実施の形態1に係る情報処理装置100の記憶部101、通信部102、入力部103及び表示部104と同様である。
【0046】
制御部310は、情報処理装置300での処理を制御する。
実施の形態3における制御部310は、実施の形態1の制御部110と同様の処理を行う他、以下の処理を行う。
制御部310は、学習状態の評価結果に応じて学習データを選択して、選択された学習データを用いて、学習モデルの学習を行う。
【0047】
制御部310は、データ取得部111と、変数抽出部112と、注意機構部113と、判断部114と、評価部315と、学習データ選択部317と、学習部318とを備える。
実施の形態3における制御部310のデータ取得部111、変数抽出部112、注意機構部113及び判断部114は、実施の形態1における制御部110のデータ取得部111、変数抽出部112、注意機構部113及び判断部114と同様である。
【0048】
評価部315は、実施の形態1と同様に、記憶部101に記憶されている結果情報を用いて、少なくとも注意機構部113が使用する学習モデルの学習状態を評価する。
実施の形態3では、評価部315は、二つのクラスタの組み合わせ毎に評価値を示す評価値情報を学習データ選択部317に与える。
【0049】
学習データ選択部317は、評価部315からの評価値情報を参照して、少なくとも注意機構学習モデルを学習するための学習データを選択する。
ここでは、学習データ選択部317は、一つの判断に対応する評価が低いほど、その一つの判断を正解とする学習データの数が多くなるように、選択を行う。言い換えると、学習データ選択部317は、評価値情報で示される評価値による評価が低いほど、言い換えると、距離が短いほど、又は、類似度が高いほど、そのクラスタに分類される学習データの数が多くなるように、学習データを選択する。なお、学習データについては、記憶部101に記憶されていても、他の装置に記憶されていてもよい。他の装置に学習データが記憶されている場合には、学習データ選択部317は、通信部102を介して、その他の装置にアクセスして、学習データを選択すればよい。
【0050】
学習部318は、学習データ選択部317により選択された学習データを用いて、少なくとも注意機構学習モデルを学習する。
例えば、学習部318は、学習データ選択部317が選択した学習データを変数抽出部112に与えることで学習を行う。
【0051】
図7は、実施の形態3に係る情報処理装置300での処理を説明するための概略図である。
図7は、情報処理装置300において学習データを用いて学習する場合の処理を示している。
なお、前提として、学習データ選択部317は、評価値情報を参照しないで選択した学習データを初期学習データとして、学習部318に与える。学習部318は、その初期学習データを、変数抽出部112に与えることで、初期学習を行い、その初期学習における評価結果に応じて、学習データが選択される。
【0052】
図7のS11~S15までの処理については、
図3に示されているS11~S15までの処理と同様である。
【0053】
実施の形態3では、評価部315は、例えば、クラスタ間の距離又は類似度を評価値として算出することで、学習状態を評価するとともに、二つのクラスタの組み合わせ毎に、その評価値を示す評価値情報を生成する(S36)。生成された評価値情報は、学習データ選択部317に与えられる。
【0054】
学習データ選択部317は、評価値情報を参照して、評価値情報で示される評価値による評価が低いほど、そのクラスタに分類される学習データの数が多くなるように、学習データを選択する(S37)。そして、学習データ選択部317は、選択された学習データを学習部318に与える。
【0055】
学習部318は、学習データ選択部317が選択した学習データを変数抽出部112に与えることで、学習を行う(S38)。
【0056】
以上のように、実施の形態3によれば、注意機構を用いた学習モデルを学習する際に、重点的に学習すべき学習データを選択することで、効率的に学習を行うことができる。
【0057】
なお、学習データ選択部317は、評価値情報で示される評価値による評価が低いほど、そのクラスタに分類される学習データの数が多くなるように、学習データを選択しているが、実施の形態3は、このような例に限定されるものではない。例えば、判断として、車両を「止める」と「加速する」といったように、間違ってはいけないクラスタ間については、予め重点的に学習すべきクラスタとして、学習データ選択部317に設定しておくことで、学習データ選択部317は、このようなクラスタの学習データが多くなるように、選択を行うことができる。具体的には、学習データ選択部317は、重点的に学習すべきクラスタについては、評価値が低くなるような重み値を加算又は乗算することで、選択される学習データが多くなるようにすることができる。このような設定は、例えば、ユーザが入力部103を介して行ってもよい。
【0058】
実施の形態4.
図8は、実施の形態4に係る情報処理装置400の構成を概略的に示すブロック図である。
情報処理装置400は、記憶部101と、通信部102と、入力部103と、表示部104と、制御部410とを備える。
実施の形態4に係る情報処理装置400の記憶部101、通信部102、入力部103及び表示部104は、実施の形態1に係る情報処理装置100の記憶部101、通信部102、入力部103及び表示部104と同様である。
【0059】
制御部410は、情報処理装置400での処理を制御する。
実施の形態4における制御部410は、実施の形態1の制御部110と同様の処理を行う他、以下の処理を行う。
制御部410は、学習状態の評価結果に応じて学習を継続するか否かを判断し、学習を継続すると判断した場合に、学習を継続し、学習を継続しないと判断した場合に、学習を終了する。
【0060】
制御部410は、データ取得部111と、変数抽出部112と、注意機構部113と、判断部114と、評価部215と、学習部418と、学習継続判断部419とを備える。
実施の形態4における制御部410のデータ取得部111、変数抽出部112、注意機構部113及び判断部114は、実施の形態1における制御部110のデータ取得部111、変数抽出部112、注意機構部113及び判断部114と同様である。
また、実施の形態4における評価部215は、実施の形態2における評価部215と同様である。但し、実施の形態4においては、評価部215は、評価情報を学習継続判断部419に与える。
【0061】
学習継続判断部419は、評価部215からの評価情報を参照して、少なくとも注意機構学習モデルの学習を継続するか否かを判断する。
例えば、学習継続判断部419は、評価情報で示される評価値による全ての評価又は一部の評価が予め定められた閾値よりも低い場合に、言い換えると、距離が予め定められた閾値よりも短い、又は、類似度が予め定められた閾値よりも高い場合に、学習を継続すると判断する。
【0062】
なお、一部の評価は、予め定められた数の評価でもよく、予め定められたクラスタの評価でもよい。例えば、間違えることの許されないような重要なクラスタの全ての評価が閾値以上となった場合に、学習継続判断部419は、学習を継続しないと判断してもよい。
【0063】
学習部418は、学習継続判断部419が学習を継続すると判断した場合には、学習データを変数抽出部112に与えることで、学習を行う。一方、学習部418は、学習継続判断部419が学習を継続しないと判断した場合には、学習データを変数抽出部112に与えずに、学習を終了する。
なお、学習データについては、記憶部101に記憶されていても、他の装置に記憶されていてもよい。他の装置に学習データが記憶されている場合には、学習部418は、通信部102を介して、その他の装置にアクセスして、学習データを取得すればよい。
【0064】
図9は、実施の形態4に係る情報処理装置400での処理を説明するための概略図である。
図9は、情報処理装置400において学習データを用いて学習する場合の処理を示す。
なお、前提として、学習部418は、学習データを初期学習データとして、変数抽出部112に与えることで、初期学習を行い、その初期学習の評価結果に応じて、学習を継続するか否かが判断される。
【0065】
図9のS11~S15までの処理については、
図3に示されているS11~S15までの処理と同様である。
【0066】
実施の形態4では、評価部215は、例えば、クラスタ間の距離又は類似度を評価値として算出することで、学習状態を評価して、その評価結果を示す評価情報を生成する(S46)。評価情報は、二つのクラスタの組み合わせ毎に、学習が十分であるか否かを示す情報である。生成された評価情報は、学習継続判断部419に与えられる。
【0067】
学習継続判断部419は、評価部215からの評価情報を参照して、学習を継続するか否かを判断する(S47)。
【0068】
そして、学習部418は、学習継続判断部419が学習を継続すると判断した場合には、学習データを変数抽出部112に与えることで、学習を行う(S48)。
【0069】
以上のように、実施の形態4によれば、注意機構を用いた学習モデルを学習する際に、学習が十分に行われた場合には、学習を終了することができる。このため、効率的に学習を行うことができる。
【0070】
なお、実施の形態2と同様に、評価部215は、一つの閾値を用いて、学習が十分であるか否かを判断してもよいが、例えば、複数の閾値を用いることで、判断のリスク管理を行うことができる。具体的には、判断として、車両を「止める」と「加速する」といったように、間違ってはいけないクラスタ間については、距離が長く、又は、類似度が小さくなければならないため、閾値を調節することで、判断のリスク管理を行うことができる。
【符号の説明】
【0071】
100,200,300,400 情報処理装置、 101 記憶部、 102 通信部、 103 入力部、 104 表示部、 110,210,310,410 制御部、 111 データ取得部、 112 変数抽出部、 113 注意機構部、 114 判断部、 115,215,315 評価部、 216 追加学習部、 317 学習データ選択部、 318,418 学習部、 419 学習継続判断部。