IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社デンソーアイティーラボラトリの特許一覧

特開2023-156633推論装置、アンサンブルモデル生成装置、推論方法、アンサンブルモデル生成方法およびプログラム
<>
  • 特開-推論装置、アンサンブルモデル生成装置、推論方法、アンサンブルモデル生成方法およびプログラム 図1
  • 特開-推論装置、アンサンブルモデル生成装置、推論方法、アンサンブルモデル生成方法およびプログラム 図2
  • 特開-推論装置、アンサンブルモデル生成装置、推論方法、アンサンブルモデル生成方法およびプログラム 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023156633
(43)【公開日】2023-10-25
(54)【発明の名称】推論装置、アンサンブルモデル生成装置、推論方法、アンサンブルモデル生成方法およびプログラム
(51)【国際特許分類】
   G06N 20/20 20190101AFI20231018BHJP
   G06N 20/00 20190101ALI20231018BHJP
【FI】
G06N20/20
G06N20/00 130
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2022066115
(22)【出願日】2022-04-13
(71)【出願人】
【識別番号】502324066
【氏名又は名称】株式会社デンソーアイティーラボラトリ
(74)【代理人】
【識別番号】100113549
【弁理士】
【氏名又は名称】鈴木 守
(74)【代理人】
【識別番号】100115808
【弁理士】
【氏名又は名称】加藤 真司
(72)【発明者】
【氏名】八嶋 晋吾
(57)【要約】      (修正有)
【課題】識別の頑健性や汎化性能を向上したアンサンブルモデルを生成する推論装置、アンサンブルモデル生成装置、推論方法、アンサンブルモデル生成方法及びプログラムを提供する。
【解決手段】アンサンブルモデル生成装置10は、入力されたデータから異なる特徴を抽出する複数の特徴抽出器hwを有する特徴抽出部12と、特徴抽出部12にて求めた複数の特徴量の各々に基づいてデータの識別を行い、複数の識別結果を出力する1つの識別部14と、識別部14から出力される複数の識別結果と教師ラベルとの損失を計算する損失計算部16と、複数の特徴抽出器hwのパラメータを更新するのに用いられ、損失計算部16にて求めた損失と特徴量の多様化を促進する正則化項を有する勾配を計算する特徴抽出器勾配計算部20と、を備え、特徴抽出器勾配計算部20にて計算した勾配を用いて特徴抽出部12のパラメータを更新する。
【選択図】図1
【特許請求の範囲】
【請求項1】
入力されたデータから異なる特徴を抽出する複数の特徴抽出器を有する特徴抽出部と、
前記特徴抽出部にて求めた複数の特徴量の各々に基づいてデータの識別を行い、複数の識別結果を出力する1つの識別部と、
前記識別部にて求めた複数の識別結果を統合する識別結果統合部と、
を備える推論装置。
【請求項2】
前記特徴抽出部の各特徴抽出器は、教師データを入力したときに各特徴抽出器から出力される複数の特徴量と前記識別部から出力される識別結果と教師ラベルとの損失とを用いて、前記損失を低減させると共に前記複数の特徴量を多様化させる学習により生成されている請求項1に記載の推論装置。
【請求項3】
前記特徴抽出部は、前記識別部から出力される識別結果Tiと教師ラベルYとの損失L1(Ti,Y)と、特徴量Ziを多様化させる項L2と、特徴量の発散を抑える正則項L3とを含む次の式により計算した特徴量Ziの勾配ΔZiを用いた学習により生成されている請求項2に記載の推論装置。
【数1】
【請求項4】
前記識別部は、教師データを入力したときに前記識別部から出力される識別結果と教師ラベルとの損失とを用いた学習により生成されている請求項1に記載の推論装置。
【請求項5】
前記識別部は、次の式により計算した前記識別部のパラメータθの勾配Δθiを用いた学習により生成されている請求項4に記載の推論装置。
【数2】
【請求項6】
入力されたデータから異なる特徴を抽出する複数の特徴抽出器を有する特徴抽出部と、
前記特徴抽出部にて求めた複数の特徴量の各々に基づいてデータの識別を行い、複数の識別結果を出力する1つの識別部と、
前記識別部から出力される複数の識別結果と教師ラベルとの損失を計算する損失計算部と、
前記複数の特徴抽出器のパラメータを更新するのに用いる勾配を計算する特徴抽出器勾配計算部であって、前記損失計算部にて求めた損失と前記特徴量の多様化を促進する正則化項を有する勾配を計算する特徴抽出器勾配計算部と、
を備え、
前記特徴抽出器勾配計算部にて計算した勾配を用いて前記特徴抽出部のパラメータを更新するアンサンブルモデル生成装置。
【請求項7】
前記特徴抽出器勾配計算部は、前記識別部から出力される識別結果Tiと教師ラベルYとの損失L1(Ti,Y)と、特徴量Ziを多様化させる項L2と、特徴量の発散を抑える正則項L3とを含む次の式により、前記複数の特徴抽出器のパラメータを更新するのに用いる勾配ΔZiを計算する請求項6に記載のアンサンブルモデル生成装置。
【数3】
【請求項8】
前記損失計算部にて求めた損失に基づいて、前記識別部のパラメータを更新するのに用いる勾配を計算する識別部勾配計算部を備え、
前記識別部勾配計算部にて計算した勾配を用いて前記識別部のパラメータを更新する請求項6に記載のアンサンブルモデル生成装置。
【請求項9】
前記識別部勾配計算部は、前記識別部のパラメータθを更新するための勾配Δθを以下の式により計算する請求項8に記載のアンサンブルモデル生成装置。
【数4】
【請求項10】
複数の特徴抽出器と共通の識別器とを有する推論装置を用いて推論を行う方法であって、
入力されたデータを複数の特徴抽出器に入力し、前記複数の特徴抽出器にて複数の異なる特徴量を求めるステップと、
複数の特徴量の各々を共通の識別器に入力して、前記複数の特徴量の各々に対応する複数の識別結果を求めるステップと、
前記共通の識別部にて求めた各々の特徴量に対する識別結果を統合するステップと、
を備える推論方法。
【請求項11】
複数の特徴抽出器と共通の識別器とを有する推論装置の前記複数の特徴抽出器と前記識別器のパラメータを学習によって求める方法であって、
入力されたデータを前記複数の特徴抽出器に入力して、前記複数の特徴抽出器の各々にて特徴量を求めるステップと、
前記複数の特徴抽出器にて求めた複数の特徴量の各々を前記共通の識別器に入力して、前記複数の特徴量の各々に対応する複数の識別結果を求めるステップと、
前記共通の識別器から出力される複数の識別結果と教師ラベルとの損失を計算するステップと、
前記複数の特徴抽出器のパラメータを更新するのに用いる勾配を計算するステップであって、前記損失と前記特徴量の多様化を促進する正則化項とを有する勾配を計算するステップと、
前記勾配を用いて前記複数の特徴抽出器のパラメータを更新するステップと、
を備えるアンサンブルモデル生成方法。
【請求項12】
入力されたデータの推論を行うためのプログラムであって、コンピュータに、
入力されたデータを複数の特徴抽出器に入力し、前記複数の特徴抽出器にて複数の異なる特徴量を求めるステップと、
複数の特徴量の各々を共通の識別器に入力して、前記複数の特徴量の各々に対応する複数の識別結果を求めるステップと、
前記共通の識別部にて求めた各々の特徴量に対する識別結果を統合するステップと、
を実行させるプログラム。
【請求項13】
複数の特徴抽出器と共通の識別器とを有する推論装置の前記複数の特徴抽出器と前記識別器のパラメータを学習によって求めるためのプログラムであって、コンピュータに、
入力されたデータを前記複数の特徴抽出器に入力して、前記複数の特徴抽出器の各々にて特徴量を求めるステップと、
前記複数の特徴抽出器にて求めた複数の特徴量の各々を前記共通の識別器に入力して、前記複数の特徴量の各々に対応する複数の識別結果を求めるステップと、
前記共通の識別器から出力される複数の識別結果と教師ラベルとの損失を計算するステップと、
前記複数の特徴抽出器のパラメータを更新するのに用いる勾配を計算するステップであって、前記損失と前記特徴量の多様化を促進する正則化項とを有する勾配を計算するステップと、
前記勾配を用いて前記複数の特徴抽出器のパラメータを更新するステップと、
を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、推論を行うためのアンサンブルモデルを生成する技術に関する。
【背景技術】
【0002】
ディープニューラルネットワーク(DNN)はさまざまな認識タスクで高い性能を示す一方で、(1)出力確率の信頼性の低さ、(2)ノイズに対する脆弱さといった課題を持つ。出力確率の信頼性の低さとは、認識結果が間違っている場合でも信頼度が高めに出てしまうことである。また、ノイズに対する脆弱さとは、画像の意味を変えない細かいノイズにより性能が大幅に低下することである。
【0003】
これらの課題は、自動運転などに代表される、認識結果を判断に用いる実世界での運用において大きな問題になり得る。上記の問題を軽減させる方法として、学習した複数のDNNを統合して予測に用いる、モデルアンサンブルが有効であることが知られている。
【0004】
モデルアンサンブルは、単体モデルと比べ、推論時の計算量が大きくなるという欠点はあるものの、計算資源に余裕がある環境では各モデルの推論を並列に行うことにより単体モデルと同程度の時間で推論が可能である。また、知識蒸留と呼ばれる技術により、学習したアンサンブルモデルの性能を単体モデルに転移させることで、直接学習するよりも性能のいい単体モデルを実現できることも知られている。
【0005】
ところで、アンサンブルに含まれる各モデルが全く同じであれば、それらを統合することによる性能向上は見込めない。モデルアンサンブルにおいては、アンサンブル内の各モデルの予測がある程度多様化されていることが重要である。DNNにおいて、そのような多様なモデルをアンサンブルするための代表的な手法として、それぞれのモデルのパラメータを異なる値で初期化しそれらを独立に学習するDeep Ensembles(非特許文献1)と呼ばれる方法が提案され、標準的な方法となっている。一般にDNNの訓練は初期値に大きく依存する。Deep Ensemblesは、異なる初期値から各モデルを学習すれば得られたモデルは多様になる、という性質を利用している。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】Lakshminarayanan他「Simple and scalable predictive uncertainty estimation using deep ensembles.」Advances in neural information processing systems 30 (2017).
【非特許文献2】Liu, Qiang他「Stein variational gradient descent: A general purpose bayesian inference algorithm.」Advances in neural information processing systems 29 (2016).
【非特許文献3】Wang, Ziyu他「Function Space Particle Optimization for Bayesian Neural Networks.」International Conference on Learning Representations (2019).
【発明の概要】
【発明が解決しようとする課題】
【0007】
上記したDeep Ensemblesは、(1)出力確率の信頼性、(2)ノイズに対する頑健さ、の両面で高い性能を見せているが、モデルの多様性を初期値の違いのみに頼っているという性質上、達成したい性能に対して必要なモデル数が大きくなってしまう可能性がある。つまり、モデルの多様性を陽に促進しないため、似たようなモデルからなるアンサンブルが得られてしまう可能性が否定できない。
【0008】
また、モデルのパラメータを多様化するアンサンブル学習手法(非特許文献2)や、モデルの出力確率を多様化するようなアンサンブル学習手法(非特許文献3)も存在するが、DNNはパラメータが膨大であり、パラメータの多様性がモデルとしての多様性を必ずしも意味しない。また、出力確率を直接多様化することは現実データでは未学習を引き起こすといった理由から、一般にはそれらの効果は限定的である。
本発明は、上記背景に鑑み、モデルアンサンブルの新しい手法を提案する。
【課題を解決するための手段】
【0009】
本発明の推論装置は、入力されたデータから異なる特徴を抽出する複数の特徴抽出器を有する特徴抽出部と、前記特徴抽出部にて求めた複数の特徴量の各々に基づいてデータの識別を行い、複数の識別結果を出力する1つの識別部と、前記識別部にて求めた複数の識別結果を統合する識別結果統合部とを備える。
【0010】
この構成により、複数の特徴抽出器で求めた異なる特徴量の各々に基づく識別結果を統合して適切な識別結果を得ることができる。
【0011】
本発明の推論装置において、前記特徴抽出部の各特徴抽出器は、教師データを入力したときに各特徴抽出器から出力される複数の特徴量と前記識別部から出力される識別結果と教師ラベルとの損失とを用いて、前記損失を低減させると共に前記複数の特徴量を多様化させる学習により生成されている構成を備えてもよい。
【0012】
本発明の推論装置において、前記特徴抽出部は、前記識別部から出力される識別結果Tiと教師ラベルYとの損失L1(Ti,Y)と、特徴量Ziを多様化させる項L2と、特徴量の発散を抑える正則項L3とを含む次の式により計算した特徴量Ziの勾配ΔZiを用いた学習により生成されている構成を備えてもよい。
【0013】
【数1】
【0014】
本発明の推論装置において、前記識別部は、教師データを入力したときに前記識別部から出力される識別結果と教師ラベルとの損失とを用いた学習により生成されている構成を備えてもよい。
【0015】
本発明の推論装置において、前記識別部は、次の式により計算した前記識別部のパラメータθの勾配Δθを用いた学習により生成されている構成を備えてもよい。
【数2】
【0016】
本発明のアンサンブルモデル生成装置は、入力されたデータから異なる特徴を抽出する複数の特徴抽出器を有する特徴抽出部と、前記特徴抽出部にて求めた複数の特徴量の各々に基づいてデータの識別を行い、複数の識別結果を出力する1つの識別部と、前記識別部から出力される複数の識別結果と教師ラベルとの損失を計算する損失計算部と、前記複数の特徴抽出器のパラメータを更新するのに用いる勾配を計算する特徴抽出器勾配計算部であって、前記損失計算部にて求めた損失と前記特徴量の多様化を促進する正則化項を有する勾配を計算する特徴抽出器勾配計算部とを備え、前記特徴抽出器勾配計算部にて計算した勾配を用いて前記特徴抽出部のパラメータを更新する。
【0017】
この構成により、複数の特徴抽出部で求めた異なる特徴量の各々に対し、1つの共通の識別部にて識別結果を求めるので、損失計算部では異なる特徴量が識別結果に与える影響を評価することができる。このため、損失計算部で求めた損失と特徴量の多様化を促進する勾配を用いて特徴抽出部のパラメータを更新することができる。特徴抽出部が有する複数の特徴抽出器を多様化することで、識別の頑健性や汎化性能を向上したアンサンブルモデルを生成することができる。
【0018】
本発明のアンサンブルモデル生成装置において、前記特徴抽出器勾配計算部は、前記識別部から出力される識別結果Tiと教師ラベルYとの損失L1(Ti,Y)と、特徴量Ziを多様化させる項L2と、特徴量の発散を抑える正則項L3とを含む次の式により、前記複数の特徴抽出器のパラメータを更新するのに用いる勾配ΔZiを計算してもよい。
【数3】
【0019】
本発明のアンサンブルモデル生成装置は、前記損失計算部にて求めた損失に基づいて、前記識別部のパラメータを更新するのに用いる勾配を計算する識別部勾配計算部を備え、前記識別部勾配計算部にて計算した勾配を用いて前記識別部のパラメータを更新してもよい。
【0020】
本発明のアンサンブルモデル生成装置において、前記識別部勾配計算部は、前記識別部のパラメータθを更新するための勾配Δθを以下の式により計算してもよい。
【数4】
【0021】
本発明の推論方法は、複数の特徴抽出器と共通の識別器とを有する推論装置を用いて推論を行う方法であって、入力されたデータを複数の特徴抽出器に入力し、前記複数の特徴抽出器にて複数の異なる特徴量を求めるステップと、複数の特徴量の各々を共通の識別器に入力して、前記複数の特徴量の各々に対応する複数の識別結果を求めるステップと、前記共通の識別部にて求めた各々の特徴量に対する識別結果を統合するステップとを備える。
【0022】
本発明のアンサンブルモデル生成方法は、複数の特徴抽出器と共通の識別器とを有する推論装置の前記複数の特徴抽出器と前記識別器のパラメータを学習によって求める方法であって、入力されたデータを前記複数の特徴抽出器に入力して、前記複数の特徴抽出器の各々にて特徴量を求めるステップと、前記複数の特徴抽出器にて求めた複数の特徴量の各々を前記共通の識別器に入力して、前記複数の特徴量の各々に対応する複数の識別結果を求めるステップと、前記共通の識別器から出力される複数の識別結果と教師ラベルとの損失を計算するステップと、前記複数の特徴抽出器のパラメータを更新するのに用いる勾配を計算するステップであって、前記損失と前記特徴量の多様化を促進する正則化項とを有する勾配を計算するステップと、前記勾配を用いて前記複数の特徴抽出器のパラメータを更新するステップとを備える。
【0023】
本発明のプログラムは、入力されたデータの推論を行うためのプログラムであって、コンピュータに、入力されたデータを複数の特徴抽出器に入力し、前記複数の特徴抽出器にて複数の異なる特徴量を求めるステップと、複数の特徴量の各々を共通の識別器に入力して、前記複数の特徴量の各々に対応する複数の識別結果を求めるステップと、前記共通の識別部にて求めた各々の特徴量に対する識別結果を統合するステップとを実行させる。
【0024】
本発明の別の態様にかかるプログラムは、複数の特徴抽出器と共通の識別器とを有する推論装置の前記複数の特徴抽出器と前記識別器のパラメータを学習によって求めるためのプログラムであって、コンピュータに、入力されたデータを前記複数の特徴抽出器に入力して、前記複数の特徴抽出器の各々にて特徴量を求めるステップと、前記複数の特徴抽出器にて求めた複数の特徴量の各々を前記共通の識別器に入力して、前記複数の特徴量の各々に対応する複数の識別結果を求めるステップと、前記共通の識別器から出力される複数の識別結果と教師ラベルとの損失を計算するステップと、前記複数の特徴抽出器のパラメータを更新するのに用いる勾配を計算するステップであって、前記損失と前記特徴量の多様化を促進する正則化項とを有する勾配を計算するステップと、前記勾配を用いて前記複数の特徴抽出器のパラメータを更新するステップとを実行させる。
【発明の効果】
【0025】
本発明によれば、識別の頑健性と汎化性能を向上した推論を行うことができる。
【図面の簡単な説明】
【0026】
図1】アンサンブルモデル生成装置の構成を示す図である。
図2】独立な特徴抽出器について説明するための図である。
図3】推論装置の構成を示す図である。
【発明を実施するための形態】
【0027】
以下、本実施の形態のアンサンブルモデル生成装置および推論装置について図面を参照して説明する。なお、以下の説明はあくまでも好ましい態様の一例を示したものであり、特許請求の範囲に記載された発明を限定する意図ではない。
【0028】
図1は、アンサンブルモデルを生成するアンサンブルモデル生成装置10の構成を示す図である。アンサンブルモデル生成装置10は、特徴抽出部12と、識別部14と、損失計算部16と、特徴抽出器勾配計算部18と、識別器勾配計算部20とを備えている。以下、各構成について説明する。
【0029】
(特徴抽出部)
特徴抽出部12は、独立なN個の特徴抽出器hwi(i=1,・・・,N)を有する。特徴抽出器hwiの具体的な構造としては、畳み込みニューラルネットワークや多層パーセプトロンが考えられる。また、他のデータセットで事前学習されたネットワークを用いてもよい。各特徴抽出器hwiが独立であるとは、各々の特徴抽出器hwiが他の特徴抽出器hwiの影響を受けないで特徴量Ziを計算できることを意味する。換言すれば、各特徴抽出器hwiは、アンサンブルされるモデルに対応し、それぞれが異なる構成を備えている。
【0030】
図2(a)及び図2(b)は、独立な特徴抽出器hwiについて説明するための図である。図2(a)に示すように、入力層からのデータを受けるレイヤが2つのグループに分けられ、お互いのグループのニューロンどうしが接続していない場合には、特徴抽出器A,Bは独立である。図2(b)のように、一見すると2つのグループに分かれているようでも、グループ間の接続があってすべてのニューロンが接続している場合には、全体で一つの特徴抽出器Cを構成する。図2(a)及び図2(b)では、複数のニューロンを有するニューラルネットワークの例を挙げたが、ここで説明した内容は、DNNにも当てはまる。
【0031】
各特徴抽出器hwiは、重みパラメータwiを有する。この重みパラメータwiは、アンサンブルモデル生成装置10による学習の対象である。各特徴抽出器hwiは、教師画像のバッチXを入力とし、実数ベクトルで表される特徴量Zi(次式)を出力する。
【数5】
【0032】
(識別部)
識別部14は、複数の特徴抽出器hwiからの出力Ziの入力を受け付ける共通の識別器cθを有する。図1では、説明の便宜上、各特徴抽出器hwiに対応させる形で識別器cθを複数記載しているが、重みパラメータθが同じであることからも分かるように、これらの識別器cθは一つの識別器である。識別器cθの具体的な構造としては、畳み込みニューラルネットワークや多層パーセプトロンが考えられる。
【0033】
識別器cθは、重みパラメータθを有する。重みパラメータθは、アンサンブルモデル生成装置10の学習の対象である。識別器cθは、特徴抽出器hwiからの出力Zi(i=1,・・・,N)を入力とし、次式に示すように、各特徴量Ziに対して問題のクラス数次元のベクトルTiを出力する。
【数6】
【0034】
(損失計算部)
損失計算部16は、識別器cθからの出力Ti(i=1,・・・,N)のそれぞれについて、教師出力Yへの当てはまり度合いを表す損失関数L1(Ti,Y)を計算する。損失関数としては、識別問題であれば多値クロスエントロピー損失、回帰問題であれば二乗損失などを用いることができる。
【0035】
(特徴抽出器勾配計算部)
特徴抽出器勾配計算部18は、各特徴抽出器hwiのパラメータwiを更新するのに用いる勾配を計算する。損失計算部16で計算された損失L1(Ti,Y)に、各特徴抽出器hwiの特徴量Zi(i=1,・・・,N)が多様になるようなL2の項(次式)を加えることで、各特徴抽出器hwiがデータ分類に互いに異なる特徴を使うように促進する。
【数7】
【0036】
さらに、勾配の式に、特徴量が発散しないように正則化項L3(Zi)も加える。以上により、特徴量Ziを更新するための勾配ΔZiは以下のように計算できる。
【数8】
ここで、L2,L3の設定は任意であるが、例えば非特許文献3に記載されているようなベイズ推論における粒子最適化の枠組みで考えると、以下のように設定できる。
【数9】
【0037】
ここでkは例えばガウスカーネルなどの正定値カーネル、pは特徴量に課される事前分布(ガウス分布、コーシー分布、ラプラス分布など)である。特徴量の勾配ΔZiを用い、特徴抽出器hwiのパラメータwiの勾配Δwiは以下のように計算できる。
【数10】
この勾配を、一般のDNNで用いられる最適化手法(Nesterov SGDやAdam等)に適用して特徴抽出器hwiのパラメータwiを更新する。
【0038】
(識別器勾配計算部)
識別器勾配計算部20は、共通の識別器cθのパラメータθの更新に用いる勾配Δθを計算する。具体的には、損失計算部16で計算された損失L1(Ti,Y)を全ての特徴抽出器hwi(i=1,・・・,N)について平均をとったもののθに対する勾配Δθを次式により計算する。
【数11】
【0039】
識別器勾配計算部20は、特徴抽出器hwiの場合と同様に、この勾配Δθを最適化手法に適用してパラメータを更新する。
【0040】
以上の構成により、教師データの損失を低減させると同時に特徴抽出部12を構成する各々の特徴抽出器hwiを多様化させるパラメータwi,θを決定することができる。このように多様性を高めることができるのは、各特徴抽出器hwiから出力された特徴量Zi(i=1,・・・,N)を共通に識別器cθに入力して、同じ特徴空間において各特徴量Ziに基づく識別を行うためである。この構成により、各特徴量Ziと識別境界との位置関係を定量化できるので、モデルの多様化と損失低減を両立した学習が可能となる。もし、共通の識別器cθがないとすると、各特徴抽出器hwiから出力される特徴量Ziの特徴空間が異なるため、各特徴量Ziが識別境界からどの程度離れているかを比較して評価することができない。
【0041】
なお、上記のアンサンブルの学習において、N個の特徴抽出器hwiのパラメータを同時に学習することもできるし、すでに学習済みの特徴抽出器hwiのパラメータを固定し、新たに特徴抽出器hwiを追加して学習することで、逐次的に特徴抽出器hwiを増やしていくこともできる。逐次的に特徴抽出器hwiの学習を行う方法は、学習時の計算資源が限られている場合に有用である。
【0042】
図3は、アンサンブルモデルを用いて推論を行う推論装置30の構成を示す図である。
推論装置30は、特徴抽出部12と、識別部14と、推論結果統合部32とを備えている。特徴抽出部12および識別部14は、アンサンブルモデル生成装置10によって学習されたパラメータwi,θを有するニューラルネットワークのモデルである。
【0043】
(特徴抽出部)
特徴抽出部12は、アンサンブルモデル生成装置10によって学習されたパラメータwi(i=1,・・・,N)を有するN個の特徴抽出器hwiを有している。特徴抽出部12は、推論の対象となるテスト画像の入力を受け、各々の特徴抽出器hwiにて特徴量Zi(i=1,・・・,N)を計算し、求めた特徴量Ziを識別部14に対して出力する。
【0044】
(識別部)
識別部14は、アンサンブルモデル生成装置10によって学習されたパラメータθを有する識別器cθを有する。識別器cθは、各々の特徴抽出器hwiから出力された特徴量Zi(i=1,・・・,N)に基づく識別を行って、クラス数次元のベクトルTi(i=1,・・・,N)を出力する。
【0045】
(推論結果統合部)
推論結果統合部32は、識別器にて出力された出力Ti(i=1,・・・,N)を統合し、一つの識別結果Pを出力する。識別結果Pとしては、典型的には、次式に示すように、ソフトマックス関数に通した後の平均が考えられる。
【数12】
【0046】
推論結果を統合する方法としては、他にも、各々の特徴抽出器hwiの何らかの信頼度に基づき、重み付けして和をとる方法が考えられる。
【0047】
以上、本実施の形態のアンサンブルモデル生成装置10と推論装置30について説明したが、上記したアンサンブルモデル生成装置10および推論装置30のハードウェアの例は、CPU、RAM、ROM、ハードディスク、ディスプレイ、キーボード、マウス、通信インターフェース等を備えたコンピュータである。上記した各機能を実現するモジュールを有するプログラムをRAMまたはROMに格納しておき、CPUによって当該プログラムを実行することによって、上記したアンサンブルモデル生成装置10および推論装置30が実現される。このようなプログラムも本発明の範囲に含まれる。
【0048】
また、上記したアンサンブルモデル生成装置10を用いてアンサンブルモデルを生成する方法および生成したアンサンブルモデルを用いて推論装置30によって推論を行う方法も本発明の範囲に含まれる。すなわち、アンサンブルモデルを生成する方法は、教師画像を複数の特徴抽出器hwiに入力して、複数の特徴抽出器hwiの各々にて特徴量を求めるステップと、複数の特徴抽出器hwiにて求めた複数の特徴量の各々を共通の識別器14に入力して、複数の特徴量の各々に対応する複数の識別結果を求めるステップと、共通の識別器14から出力される複数の識別結果と教師ラベルとの損失を計算するステップと、複数の特徴抽出器hwiのパラメータwiを更新するのに用いる勾配を計算するステップであって、損失と特徴量の多様化を促進する正則化項とを有する勾配を計算するステップと、勾配を用いて複数の特徴抽出器hwiのパラメータwiを更新するステップとを備える。
【0049】
アンサンブルモデルを用いた推論方法は、テスト画像を複数の特徴抽出器hwiに入力し、複数の特徴抽出器hwiにて複数の異なる特徴量を求めるステップと、複数の特徴量の各々を共通の識別器14に入力して、複数の特徴量の各々に対応する複数の識別結果を求めるステップと、共通の識別部14にて求めた各々の特徴量に対する識別結果32を統合するステップとを備える。
【0050】
本実施の形態のアンサンブルモデル生成装置10は、特徴抽出器勾配計算部20にて、各特徴抽出器hwiで求める特徴量Zi(i=1,・・・,N)が多様化するように、パラメータwiを更新するために用いる勾配Δwiを計算し、この勾配を用いて特徴抽出器hwiの学習を行う。これにより、特徴抽出部12を構成する各々の特徴抽出器hwiの多様性が高くなり、多様性の高い特徴量Zi(i=1,・・・,N)をアンサンブルすることで、識別の頑健性や汎化性能を向上した推論を行うことができる。
【0051】
この作用機序は、画像認識タスクの例を考えると理解しやすい。画像認識タスクでは、与えられた画像のラベルを予測する手がかりとなる特徴は複数あることが多い。例えば、ラベルが車の画像を認識するにあたって、モデルはタイヤやミラーなど、車のさまざまなパーツを手がかりとすることができる。アンサンブルにおいて、各モデルがその中の一つの特徴に頼るのではなく、それぞれ異なる特徴を手がかりとすることで、例えば一部が隠れた車の画像に対しても正しい認識ができるようになることは直感的にも理解できるであろう。
【0052】
本実施の形態の推論装置30は、特徴抽出器hwiが出力する特徴量を多様化させ、その特徴量を共通の識別器で識別することにより、未知の画像に対してよりロバストな判断が可能になり汎化性能が向上する。
【0053】
(変形例)
上記した実施の形態では、ラベル識別問題を例として説明したが、アンサンブルモデル生成装置10は、識別器の出力に空間解像度を持たせることで(一例として、画素ごとに識別を行うことで)、意味領域分割などのタスクへも自然に適用できる。
【実施例0054】
本実施の形態のアンサンブルモデル生成装置を用いて生成したモデルを用いた推論を用いた実験結果について説明する。実験では、本実施の形態のアンサンブルモデル生成装置で生成したモデルを用いた推論を実施例、ゴールドスタンダードのDEEP ENSEMBLESとアンサンブルを行わない単一モデルとを比較例とした。標準的なクロスバリデーションで決定される推論空間と事前パラメータが異なる以外は、全ての手法で同じ学習スキームを採用した。
【0055】
ResNet-50をアンサンブルサイズ5で学習させた。表1は、実施例(「FEATURE-WGD」と記載)とDEEP ENSEMBLESと単一モデル(「SINGLE」と記載)の評価結果を示す。
【表1】
【0056】
表1に示す評価基準について説明すると、ACCURACYはテスト精度、NLLは負対数尤度、BRIERはBrierスコア(Brier, 1950)、ECEは予想校正誤差(Naeini et al.、2015)である。
【0057】
実施例と単一モデルの例を比較すると、実施例において精度が大きく向上した。また、実施例と比較例のDEEP ENSEMBLESの例を比較すると、領域内精度やキャリブレーションスコアはほぼ同等であったが、実施例において破損に対する頑健性が大きく向上した(すなわち、精度が+1.5%)。
【符号の説明】
【0058】
10 アンサンブルモデル生成装置
12 特徴抽出部
14 識別部
16 損失計算部
18 識別器勾配計算部
20 特徴抽出器勾配計算部
30 推論装置
32 結果統合部
図1
図2
図3