IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7367867情報処理装置、情報処理方法、及びプログラム
<>
  • 特許-情報処理装置、情報処理方法、及びプログラム 図1
  • 特許-情報処理装置、情報処理方法、及びプログラム 図2
  • 特許-情報処理装置、情報処理方法、及びプログラム 図3
  • 特許-情報処理装置、情報処理方法、及びプログラム 図4
  • 特許-情報処理装置、情報処理方法、及びプログラム 図5
  • 特許-情報処理装置、情報処理方法、及びプログラム 図6
  • 特許-情報処理装置、情報処理方法、及びプログラム 図7
  • 特許-情報処理装置、情報処理方法、及びプログラム 図8
  • 特許-情報処理装置、情報処理方法、及びプログラム 図9
  • 特許-情報処理装置、情報処理方法、及びプログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-10-16
(45)【発行日】2023-10-24
(54)【発明の名称】情報処理装置、情報処理方法、及びプログラム
(51)【国際特許分類】
   G06N 3/08 20230101AFI20231017BHJP
   G06N 3/045 20230101ALI20231017BHJP
【FI】
G06N3/08
G06N3/045
【請求項の数】 10
(21)【出願番号】P 2022523668
(86)(22)【出願日】2019-11-19
(65)【公表番号】
(43)【公表日】2022-12-28
(86)【国際出願番号】 JP2019045281
(87)【国際公開番号】W WO2021100121
(87)【国際公開日】2021-05-27
【審査請求日】2022-04-21
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100103894
【弁理士】
【氏名又は名称】家入 健
(72)【発明者】
【氏名】ソンバトシリ サリター
【審査官】佐藤 実
(56)【参考文献】
【文献】米国特許出願公開第2018/0046898(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/08
G06N 3/04
(57)【特許請求の範囲】
【請求項1】
訓練データを用いてANN(人工ニューラルネットワーク)モデルを訓練するためのANNモデル訓練器手段と、
前記ANNモデル訓練器手段によって抽出された訓練情報を用いて前記訓練データ内の各サンプルの情報行列を計算するための情報行列計算手段と、
前記訓練データ及び前記情報行列を用いて、閾値と前記情報行列との比較により決定できるポリシーベクトルを教師データとして、ポリシーモデルを訓練するためのポリシーモデル訓練器手段と、を備える、情報処理装置。
【請求項2】
入力ANNモデルから、インクリメンタル訓練段階のための訓練及び妥当性検証の入力と出力のペアからなる新たな訓練データを用いてインクリメンタルにANNモデルを訓練するためのインクリメンタルANNモデル訓練器手段と、
前記訓練情報を用いて前記新たな訓練データ内の各サンプルの前記情報行列を計算するための前記情報行列計算手段と、
前記新たな訓練データ及び前記情報行列を用いて、閾値と前記情報行列との比較により決定できるポリシーベクトルを教師データとして、入力ポリシーモデルからインクリメンタルに前記ポリシーモデルを訓練するためのインクリメンタルポリシーモデル訓練器手段と、を更に備える、請求項1に記載の情報処理装置。
【請求項3】
前記ANNモデル及び前記ポリシーモデルを共同で微調整する共同微調整器手段を更に備える、請求項1又は請求項2に記載の情報処理装置。
【請求項4】
前記ポリシーモデルは教師あり学習による伝統的機械学習モデルに基づいた軽量ポリシーモデルである、請求項1~3のいずれか一項に記載の情報処理装置。
【請求項5】
訓練データを用いてANN(人工ニューラルネットワーク)モデルを訓練し、
前記ANNモデルの訓練中に抽出された訓練情報を用いて前記訓練データ内の各サンプルの情報行列を計算し、
前記訓練データ及び前記情報行列を用いて、閾値と前記情報行列との比較により決定できるポリシーベクトルを教師データとして、ポリシーモデルを訓練する、情報処理方法。
【請求項6】
インクリメンタル訓練段階の訓練及び妥当性検証のための入力と出力のペアからなる新たな訓練データを用いて、入力ANNモデルからANNモデルをインクリメンタルに訓練し、
前記訓練情報を用いて前記新たな訓練データの各サンプルの情報行列を計算し、
前記新たな訓練データ及び前記情報行列を用いて、閾値と前記情報行列との比較により決定できるポリシーベクトルを教師データとして、入力ポリシーモデルからインクリメンタルにポリシーモデルを訓練する
請求項5に記載の情報処理方法。
【請求項7】
前記ANNモデル及び前記ポリシーモデルを共同で微調整する、請求項5又は6に記載の情報処理方法。
【請求項8】
前記ポリシーモデルは、教師あり学習による伝統的な機械学習モデルに基づいた軽量ポリシーモデルである、
請求項5~7のいずれか一項に記載の情報処理方法。
【請求項9】
訓練データを用いてANN(人工ニューラルネットワーク)モデルを訓練する処理と、
前記ANNモデルの訓練中に抽出された訓練情報を用いて前記訓練データ内の各サンプルの情報行列を計算する処理と、
前記訓練データ及び前記情報行列を用いて、閾値と前記情報行列との比較により決定できるポリシーベクトルを教師データとして、ポリシーモデルを訓練する処理と、
を、コンピュータに実行させるプログラム。
【請求項10】
インクリメンタル訓練段階の訓練及び妥当性検証のための入力と出力のペアからなる新たな訓練データを用いて、入力ANNモデルからインクリメンタルにANNモデルを訓練する処理と、
前記訓練データを用いて前記新たな訓練データの各サンプルの前記情報行列を計算する処理と、
前記新たな訓練データ及び前記情報行列を用いて、閾値と前記情報行列との比較により決定できるポリシーベクトルを教師データとして、入力ポリシーモデルからインクリメンタルにポリシーモデルを訓練する処理と、をコンピュータに実行させる、請求項9に記載のプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置,情報処理方法,プログラムに関し、特に、人工ニューラルネットワーク(NN)推論を増速(accelerating)し、特に、ポリシーモデル及びANNモデルを構築可能な情報処理装置,情報処理方法及びプログラムに関する。
【背景技術】
【0002】
<第1部 DL及びNNは大量の計算の原因となる>
近年、ディープラーニング(DL)が、コンピュータビジョン、自然言語処理、信号処理などのアプリケーションの様々な分野のタスクに研究及び応用されている。タスクは、例えば、分類(画像分類,正常/異常(abnormal)分類など)、認識(発話認識など)、検出(オブジェクト検出、変則(anomaly)検出など)、回帰(価格予測など)及び生成(音声/テキスト/画像生成など)を含むことができる。タスクの問題は以下の通り、公式化される。
入力XはN個のインスタンスの集合である。
インスタンスx∈Xは、インスタンスtのD次元入力(x∈RDx))であり,
この場合、t={1,2,3,…,N}
出力YはN個のインスタンスの出力ベクトルの集合であり、
出力y∈YはインスタンスtのD次元出力である。
目的はf:X→Yを見つけること、すなわち、XをYにマッピングする関数fを見つけることにあることである。
【0003】
ここで、yはタスクに依存する任意の形態であり得る。例えば、yは、画像分類用の画像、音声認識用の文内のオブジェクトのクラスであってもよいし、画像ベースのオブジェクト検出用の画像内のオブジェクトのクラス及びバウンディングボックスであってもよい。ディープラーニングにおいて、関数fは、多層パーセプトロン(MLP),畳み込みニューラルネットワーク(CNN),リカレントニューラルネットワーク(RNN)などを含む人工ニューラルネットワーク(ANN)を用いて表現される。これらのモデルはいくつかの種類の層からなり、例えば、完全接続層、畳み込み層、リカレント層、サブサンプリング層(プーリング層)、正規化層,及び非線形関数層である。一般に、層は特に、完全接続層、畳み込み層及びリカレント層,積和演算(MAC;multiply-accumulate)動作を実行するための重み又はカーネルとも呼ばれる訓練可能なANNパラメータを含むことができる。
【0004】
ANNの処理は、訓練段階と推論段階という2つの段階に分かれる。訓練段階では、訓練データは、集合{(x,y)|x∈X,y∈Y}で定義され、ANNパラメータを調整(訓練)するために使用される。訓練データは、画像と画像のラベルなど入力データとそのラベルである。推論段階では、新たなデータ{x’|x’∈X’}の集合が与えられると、ANN推論処理が実行され、ANN推論結果として出力{y’}を予測する。新たなデータの集合は、単一の新たなデータ又は複数の新たなデータを含むことができる。
【0005】
図9及び図10はANN及びその訓練可能なパラメータθの2つの例を示す。図9はMLPの例を示す。要素201はMLPのアーキテクチャを示す。記号は以下の通りに定義される。
は入力を示す。
はこのMLPの層を示し、Nは層の数であり、
θは訓練可能なパラメータを示し、要素202として定義される。
θLiはLの訓練可能なパラメータを示し、要素203に定義される。
θWLiは、Lの訓練可能な重みパラメータ行列を示し、要素204に定義される。
θbLiはLの訓練可能なバイアスパラメータベクトルを示し、要素205に定義される。
θWLi(j,k)はθWLiの位置(j,k)内のLの重み値を示す。
ここで、
及び
LiはL内のニューロンの数であり、hL0は入力ベクトルx内の要素の数である。
θbLi(k)は、θbLiのk番目の位置におけるLのバイアス値を示す(図9では簡略化のため省略される)。
【0006】
図10はCNNの例を示す。要素301はCNNのアーキテクチャを示す。記号は以下のように定義される。
は入力を示す。
はこのMLPの層を示し、Nは層の数であり、
θは訓練可能なパラメータを示し、要素202と同じように定義される。;
θLiは、Lの訓練可能なパラメータを示し、要素203と同じように定義される。
θWLiはLの多次元訓練可能な重みパラメータテンソルを示し、要素302で定義される。
θbLiはLの訓練可能なバイアスパラメータベクトルを示し、要素303で定義される。
θWLi(j,k,l,m)はθWLiの位置(j,k,l,m)におけるLの重み値である。
ここで、

はLのチャネルの数であり、khi,kviはLのカーネルのサイズである。
θbLi(j)はθbLiのj番目の位置におけるLのバイアス値を示す(図10では簡略化のため省略される)。
【0007】
<第2部 入力に応じた計算の削減>
最近の最先端ディープラーニングモデルは、多量のパラメータ及び計算を伴う巨大なANNモデルにより、複雑な入力の予測のための優れた特徴を抽出するため、目覚ましい分類又は検出精度を実現する。しかしながら、全ての入力が複雑とは限らないので、かかる多量のパラメータや計算は必要とされない。一部の計算を省略することができる。この可能性について、以下の非特許文献に示されている。
【0008】
非特許文献1及び非特許文献2はNNを増速するための適応的計算時間法を開示している。非特許文献1に記載の方法は、層ごとに停止スコアを計算することでRNNの推論処理を停止する。非特許文献2に記載の方法は、層ごと、及び層の入力画素ごとに停止スコアを計算することでCNNの推論処理を停止する。いずれの文献も停止スコアは、別個の行列乗算又は畳み込み層によりNN自体内で計算される。NN及び停止スコア関数を同時に訓練することが簡単ではあるが、2つの問題がある。第1に、停止スコア関数自体はまた行列乗算又は畳み込みのような計算量の多い計算である。第2に、停止スコア関数は最初の層から後続の層に累計されるので、停止スコアが初期の層で停止閾値に達した場合には深い特徴が計算されない場合があり、これにより、精度が低下する場合がある。
【0009】
非特許文献3及び非特許文献4は、各入力データの推論段階中にResNetのどの残差ブロック(residual block)を省略できるか決定するため、ポリシーモデルと呼ばれるネットワークを開示する。
【0010】
非特許文献3は、各ResNetの残差ブロックを層ごとに計算又は省略するポリシーを決定するゲーティングネットワークを紹介する。訓練段階では、ゲーティングネットワークは、推論段階の計算を最少にするため、教師あり学習(分類/検出タスクの真のラベルに対する逆伝搬)と強化学習(一部の残差ブロックの計算をランダムにドロップする)とのハイブリッド方法により訓練される。推論段階では、各層のゲーティングネットワークは層ごとのポリシーを計算し、当該ポリシーにしたがって、各残差ブロックの計算が行われ、又は省略される。
【0011】
非特許文献4はすべてのResNetの残差ブロックの計算又は省略するポリシーを決定するポリシーネットワークを紹介する。訓練段階では、ポリシーネットワークは強化学習により訓練される。推論段階では、ポリシーネットワークは、残差ブロックのポリシーを決定し、その後、推論(ResNetを用いた予測)はポリシーにしたがって、計算される。
【0012】
非特許文献3及び非特許文献4の問題としては、(1)ゲーティングネットワーク及びポリシーネットワークは、畳み込み層、リカレント層、及び完全接続層を含むため、計算量が多い、(2)強化学習は、ゲーティングネットワーク及びポリシーネットワークのサーチスペースが大きいので、精度を維持しつつ計算量を最少化する優れたポリシーをもたらさない。
【0013】
<第3部 FIM>
フィッシャー情報行列(Fisher information matrix:FIM)は、観測可能な確率変数Xがモデル内の分布の未知のパラメータθに関して伝える情報量を表す。それは、スコアの分散又は観測された情報の期待値である。非特許文献5は、インクリメンタル学習の破局的忘却(catastrophic forgetting)を解決するために、ANNのどの層が各タスクにとって重要であるかを特定するに際し、FIMを使用する。FIMは訓練段階中の勾配から取得され得る。しかしながら、勾配は推論段階中に抽出できないので、FIMの使用は推論の増速(acceleration)に適用されていない。
【先行技術文献】
【非特許文献】
【0014】
【文献】" Adaptive Computation Time for Recurrent Neural Networks" written by Alex Graves, published in 2016 by arXiv preprint arXiv: 1603.08983
【文献】" Spatially Adaptive Computation Time for Residual Networks" written by Figurnov et al., published in 2017 at CVPR2017
【文献】" SkipNet: Learning Dynamic Routing in Convolutional Networks" written by Wang et al., published in 2018 at ECCV2018
【文献】" BlockDrop: Dynamic Inference Paths in Residual Networks" written by Wu et al., published in 2018 at CVPR2018
【文献】" Overcoming catastrophic forgetting in neural networks" written by Kirkpatrick et al., published in 2016 by arXiv preprint arXiv: 1612.00796
【発明の概要】
【発明が解決しようとする課題】
【0015】
第1の課題は、予測精度をできる限り維持しつつ、入力ごとにANNモデルの一部の計算を省略するための優れたポリシーを生成するポリシーモデルを発見することが難しいことである。優れたポリシーは、予測は依然として正しいまま、できるだけ多くの計算量を省略することができるポリシーを意味する。
【0016】
第1の課題は、ポリシーモデルを訓練する方法が入力データごとにANNモデルの計算をランダムに省略するので、発生し得る。ANNモデルの一部の計算を省略することにより、推論の時間と精度のトレードオフが発生する。すなわち、推論時間が短ければ、精度は低くなる。入力インスタンスごとに計算を省略する特定のポリシーは存在しない。ポリシーモデルのサーチスペースは、非常に巨大であるので、既存の非特許文献3及び非特許文献4のようなANNモデルの計算をランダムに省略するのは時間がかかり、優れたポリシーモデルが得られない場合がある。
【0017】
第2の課題は、既存の文献の入力インスタンスごとにポリシーを生成する計算は、計算量が多いことである。
【0018】
第2の課題は、既存の文献(非特許文献1,非特許文献2,非特許文献3,非特許文献4)のポリシーモデルはANNモデルであるので発生し得る。結果として、ポリシーモデルの計算及び推論時間は相当膨大である。
【0019】
本開示は上述の課題の少なくとも1つに鑑みてなされたものであり、本開示の目的は、ポリシーネットワークを訓練する効果的な方法を提供することにある。
【0020】
本開示の他の目的は、ポリシーを生成する伝統的な機械学習モデルを使用することにより、軽量のポリシーモデルを提供することにある。
【課題を解決するための手段】
【0021】
本開示の一態様は、
訓練データを用いてANNモデル(人工ニューラルネットワーク)を訓練するためのANNモデル訓練器手段と、
前記ANNモデル訓練器手段によって抽出された訓練情報を用いて前記訓練データ内の各サンプルの情報行列を計算するための情報行列計算手段と、
前記訓練データ及び前記情報行列を用いてポリシーモデルを訓練するためのポリシーモデル訓練器手段と、を備える、情報処理装置である。
【0022】
本開示の一態様は、
訓練データを用いてANNモデルを訓練し、
前記ANNモデルの訓練中に抽出された訓練情報を用いて前記訓練データ内の各サンプルの情報行列を計算し、
前記訓練データ及び前記情報行列を用いてポリシーモデルを訓練する、情報処理方法である。
【0023】
本開示の一態様は、
訓練データを用いてANNモデルを訓練する処理と、
前記ANNモデルの訓練中に抽出された訓練情報を用いて前記訓練データ内の各サンプルの前記情報行列を計算する処理と、
前記訓練データ及び前記情報行列を用いてポリシーモデルを訓練する処理と、
を、コンピュータに実行させるプログラムを格納する非一時的コンピュータ可読媒体である。
【発明の効果】
【0024】
第1の効果はポリシーモデルが、できる限り予測精度を維持しつつ、ANNモデルの一部の計算を省略する優れたポリシーを生成することを確実にすることである。
この効果の理由はポリシーモデルが、ANN訓練情報に基づいて重要なANNパラメータを考慮することによって構築され、それが、各訓練データの推論処理にとって重要なANNパラメータを示唆するからである。
第2の効果はポリシーモデルが少ない計算量で新たなデータごとに優れたポリシーを生成することを確実にすることである。この効果の理由はポリシーモデルが伝統的な軽量な機械学習(non-DL)モデルを使用することで構築され、それは、ANN訓練情報に基づいて適切に訓練される。
【図面の簡単な説明】
【0025】
図1図1は本開示の第1の例示的な実施形態に係る構成を説明するブロック図である。
図2図2は本開示の第1の例示的な実施形態の動作を説明するフロー図である。
図3図3はフィッシャー情報行列を説明する図である。
図4図4は本開示の第2の例示的な実施形態の構成を説明するブロック図である。
図5図5は本開示の第2の例示的な実施形態の動作を説明するフロー図である。
図6図6は本開示の第3の例示的な実施形態の構成を説明するブロック図である。
図7図7は本開示の第3の例示的な実施形態の動作を説明するフロー図である。
図8図8は情報処理装置100,200,300の構成例を示すブロック図である。
図9図9はMLPの構成及びパラメータを説明する図である。
図10図10はCNNの構成及びパラメータを説明する図である。
【発明を実施するための形態】
【0026】
以下に、添付図面を参照して本開示の例示的な実施形態を説明する。
【0027】
<第1の例示的な実施形態>
図1を参照して、本開示の第1の例示的な実施形態にかかるモデル訓練システム100を説明する。モデル訓練システム100は、ANNモデル訓練器手段101、訓練情報からの情報行列計算手段102及びポリシーモデル訓練器手段103を含む。モデル訓練器システム100は、限定されないが、汎用プロセッサシステム又はGPU(Graphic Processing Unit)、ASIC(Application-Specific Instruction set Processor)及びASIP(Application-Specific Instruction set Processor)及びFPGA(フィールドプログラマブルゲートアレイ)など再構成可能デバイスなどの特定の回路を用いて実装され得る。モデル訓練器システムは、汎用プロセッサ又は特定用途チップなどの情報処理装置内の1つ又は複数の機能モジュールによって実装され得る。
【0028】
モデル訓練システム100は訓練データ10を受信する。訓練データ10は、訓練段階での訓練及び妥当性検証(validation)のためのタスクの入力及びラベルと呼ばれる期待される出力の一対のセット({(x,y)|x∈X,y∈Y})で定義される。このセットは、タスクの入力及び出力からなる1つ又は複数のペアを含みうる。モデル訓練システム100はANNモデル12及びポリシーモデル13を出力する。ポリシーモデルは入力ごとのポリシーを生成する。ANNモデル12は、ポリシーに応じて演算を計算又は省略することによって推論段階でタスクの出力(y)を予測する。ポリシーモデルは、ANN推論中に関わっている又は省略される、重み又はカーネルと呼ばれるANNパラメータを決定するために使用される。ANNモデルは、ラベル付け,分類,回帰,検出等のようなタスクの出力を生成する/予測するために使用される。ANN推論の計算は、ポリシーモデルから生成されたポリシーに従う。ポリシーは層ごとに各ResNetの残差ブロックを計算又は省略するために使用される。本発明は、ポリシーネットワークを訓練するためのANN訓練からの情報を活用し、それによって、ポリシーネットワークを訓練し、各入力データに応じた一部の推論計算を省略する優れた入力毎のポリシーを短時間で生成する。したがって、本実施の形態に係るポリシーモデルは、できる限り予測精度を維持しつつ、入力毎にANNモデルの一部の計算を省略するための優れたポリシーを生成することができる。
【0029】
モデル訓練システム100は与えられたタスクに対してANNモデル12及びポリシーモデル13を訓練することができる。モデル訓練システム100は、ANN訓練段階において情報を収集し(以下、訓練情報と称される)、(数式2を用いて後述する)訓練情報から各ANNパラメータの重要度を抽出し、ANNパラメータの重要度を使用し(情報行列とも称され得る)、ポリシーモデルを訓練する。「訓練情報」はANN訓練中に生成される任意の値又は情報であり、例えば、パラメータ、勾配,移動平均などである。その結果、ポリシーモデル訓練は、軽量の伝統的な機械学習ポリシーモデルは優れた入力毎のポリシーを効果的に生成するために訓練することができるので、短時間しかかからず、容易になる。これにより、当該ポリシーを用いたANN推論はANNモデルにおける一部の計算をスキップすることができ、ANN推論システムは、予測精度を維持し、ポリシーを計算するための小さなオーバーヘッドを抑制しつつ、計算時間を縮減することができる。
【0030】
上述の手段は、概ね以下のように動作する。
ANNモデル訓練器手段101は訓練データ10を用いて勾配ベースの訓練アルゴリズムによりANNモデル12を訓練する。ANN訓練後、訓練情報はANNモデル訓練器手段101から導出される。訓練情報は、各ANNパラメータの重要度を示し、上記に定義した訓練データとは異なる。情報行列計算手段102は訓練情報を用いて情報行列を計算することができる。情報行列は、訓練データにおける各xを処理する推論におけるANNパラメータの重要度を意味する。ポリシーモデル訓練器手段103はポリシーモデル13を訓練する。ポリシーモデル13は、サポートベクトルマシーン(Support Vector Machine:SVM),近傍法(nearest neighbors),ランダムフォレストなど伝統的な機械学習方法のうちの1つから選択されたモデルである。ポリシーモデル訓練器手段103は、重要なANNパラメータを示すベクトル又は行列を生成し、それは、各入力の推論処理のためのANN-推論ポリシーとも呼ばれ得る。ANN推論ポリシーはANN推論段階において計算する又は計算を省略するパラメータを示す。ポリシーモデル訓練は、訓練データのxを入力として、ポリシーモデルの期待される出力を示すラベルとして情報行列を使用する。
【0031】
<動作の説明>
次に、図2のフローチャートを参照して、本例示の実施形態の一般的な動作を説明する。
まず、モデル訓練手段101は勾配ベースのANN訓練アルゴリズム、具体的には、勾配降下法(例えば、確率的勾配降下法(SGD),モーメンタムによるSGD、Nesterov勾配降下法、AdaGrad、RMSProp及びAdam勾配降下法など)により、訓練データを用いてANNモデルを訓練する(図2のステップA1)。ANN訓練が終わった後、訓練情報、具体的には、各サンプルの勾配を取得する。zを訓練データの各サンプルとする。z=(x,y),及びl(z,θ)は、ANNモデルのパラメータが値θをとる場合におけるサンプルzのANNモデルの損失とする。ANNモデルの損失は、限定されないが、対数尤度関数、平均二乗誤差などとして定義され得る。サンプルzの勾配は、g(z,θ)により表され、訓練されたANNモデルを用いた重みの更新なしに、ANN訓練中に計算される各zの勾配、又は順方向及び逆方向伝搬により計算される各zの勾配から収集され得る。勾配は損失の一次導関数であり、以下の等式を用いて計算される。
(数式1)

訓練情報は情報行列計算手段102に送信される。ANNモデル訓練器手段101は訓練されたANNモデルをモデル訓練システム100の出力として付与する。
【0032】
その後、情報行列計算手段102は、ANNモデル訓練器手段101から受信した訓練情報から情報行列を計算する(図2のステップA2)。情報行列,具体的には、フィッシャー(Fisher)情報行列(FIM)は、各サンプルzの各ANNパラメータに関する情報の量を表す。情報行列は各パラメータの重要度を示唆する。ANNモデルのパラメータが値θをとる場合におけるサンプルzのフィッシャー情報行列I(z ,θ)は、以下の等式により計算される。
(数式2)

【0033】
I(z,θ)は重要なANNパラメータを決定するのに使用される。ANNパラメータは、I(z,θ)におけるその対応する値が大きい場合、xの推論処理に一層重要となり、その値が小さい場合は、それほど重要ではない。図3はポリシーモデル訓練器手段103に送信される情報行列の例を示す。情報行列は訓練データのすべてのzに対するFIM値を含む。
【0034】
次に、ポリシーモデル訓練器手段103は伝統的な軽量な機械学習(非DL)に基づくポリシーモデルを訓練し(図2のステップA3)、その結果、ポリシーモデルはANNモデルの一部の推論計算を省略するための重要なANNパラメータを示すポリシーを生成することができる。軽量な機械学習は、SVMモデル,近傍法モデル,ランダムフォレストモデルなどを含むが、これらに限定されない。ポリシーモデル訓練器手段103は、ポリシーモデルの入力として、訓練データのx又はxの特徴量を、ラベルと呼ばれるポリシーモデルの期待される出力として、ポリシーベクトルMを用いて、教師あり学習方法によりポリシーモデルを訓練する。ここで、xの特徴量は、sにより表され、xの特徴抽出関数の出力を意味し、以下のように記述することができる。
ここで、
は特徴抽出関数である。特徴抽出関数は、限定されないが、主成分分析(PCA),HOG(histogram of oriented gradients),又はSIFT(Scale-invariant feature transform)であり得る。Mにおける各要素は、各ANNパラメータが重要か否かを示す2進値{0,1}であり、zの推論処理(例えば、0は重要ではなく、1は重要である、又はその逆)で関与されるはずである。ポリシーベクトルMは、限定されないが、閾値を有する情報行列から決定される。FIM内の要素は閾値より大きい場合、同じANNパラメータに対応するM内の要素は1であり、そうでなければ、M内の要素は0である。ポリシーモデル訓練器手段103は訓練されたポリシーモデル13を、モデル訓練システム100の出力として付与する。
【0035】
なお、ステップA1内のANN訓練アルゴリズムは、別の勾配ベースの訓練アルゴリズム、例えば、共役勾配訓練アルゴリズム、又はニュートン法又は準ニュートン法などの他の非勾配訓練アルゴリズムであってもよい。非勾配訓練アルゴリズムの場合には、勾配は順方向及び逆方向の伝搬により抽出され得る。
【0036】
なお、ステップA1から得られた訓練情報は、例えば、損失、中間値などANN訓練段階中の他の情報であってもよく、又はそれを含む。
【0037】
なお、ステップA2から得られた情報行列は、他の行列、例えば、ヘシアン行列、ヤコビアン行列などであってもよい。なお、ステップA3のポリシーモデルはまた、ANNの一種であってもよい。ステップA3のMの2進値は、{-1,1}などの他の値であってもよい。ステップA3の2進値の決定は、閾値以外であってもよい。例えば、上位k個のFIM値に対応するM内の要素を1として決定し、他の要素は0とする。なお、ステップA3においてポリシーモデルを訓練する際に、Mは情報行列そのものであってもよいし、値のスケーリング、正規化など、変換後の形式であってもよい。値kは各サンプルxに対して変化することができるので、残りの計算数は最少となり、予測は依然として正しい。ポリシーベクトルMはこれらの情報行列のうち2つ以上の組み合わせから決定され得る。例えば、FIM及びヤコビアン行列の組み合わせを使用して、ポリシーベクトルMを決定する。
【0038】
ステップA3では、M内の要素はANNパラメータグループのポリシー、例えば、同じチャネル,層、又は複数の層(例えば、ResNetのブロック)内のANNパラメータのグループのポリシーを表すことができる。この場合、フィッシャー情報値は、限定されないが、同じグループ内のパラメータの各フィッシャー情報値の平均値、最大値、又は合計値であってもよい。例えば、ANNが4つの層([L,L,L,L])を含むと仮定すると、ポリシーM=[0,1,1,1]及びMの各要素は層のすべてパラメータ用である。
【0039】
推論段階は、2つのステップ、すなわち、ポリシー抽出とANN推論処理を含む。推論データx’が与えられる。ポリシー抽出ステップでは、ポリシーモデルは入力としてx’を取得し、ポリシーベクトルM’を生成し、各要素は層内の各ANNパラメータ用のポリシーである。例えば、ANNが4つの層([L,L,L,L])を含むと仮定すると、ポリシーモデルは推論データx’に対してポリシーM’=[0,1,1,1]を生成する。ANN推論処理では、ポリシーが1である層の計算が行われ、ポリシーが0である層の計算はスキップされる。本実施例では、ANNモデルの推論処理は、層L,L,Lのみを計算し、Lの計算はスキップする。
【0040】
<効果の説明>
次に、例示的な実施形態の効果を説明する。
本例示的な実施形態は、モデル訓練システム100が訓練段階からの情報を用いてポリシーモデルを訓練するように構成され、それは重要なANNパラメータを示唆し得る。したがって、できる限り予測精度を維持しつつ、ANNモデルの一部の計算を省略するための優れたポリシーを生成することが可能となる。
【0041】
加えて、例示的な実施形態はポリシーモデルが軽量の伝統的な機械学習モデルから構築されるように構成されるので、ポリシーを計算するオーバーヘッドを縮減することができる。
【0042】
<第2の例示的な実施形態:インクリメンタル学習>
<構成の説明>
次に、添付図面を参照して本開示の第2の例示的な実施形態を説明する。
【0043】
図4を参照すると、本開示の第2の例示的な実施形態に係るインクリメンタルモデル訓練システム200は、インクリメンタルANNモデル訓練器手段201,情報行列計算手段202及びインクリメンタルポリシーモデル訓練器手段203を含む。
【0044】
インクリメンタルモデル訓練システム200は、新たな訓練データ21,ANNモデル12及びポリシーモデル13を受信する。新たな訓練データは、訓練するためのタスク及び第1の実施形態の訓練データに加えてインクリメンタル訓練段階の訓練及び妥当性検証の、入力及びラベルとも呼ばれる期待される出力のペアからなるセットである。セットは、タスクの入力及び出力からなる1つ又は複数のペアを含みうる。ANNモデル22及びポリシーモデル23はそれぞれ、第1の実施形態から訓練されたANNモデル及びポリシーモデルである。
【0045】
インクリメンタルモデル訓練システム200は新たなANNモデル24及び新たなポリシーモデル25を出力する。新たなANNモデル24及び新たなポリシーモデル25は新たな訓練データ21を用いてANNモデル22及びポリシーモデル23からインクリメンタルに訓練されたモデルである。
【0046】
インクリメンタルモデル訓練システム200は、新たな訓練データにより、インクリメンタルにANNモデル及び/又はポリシーモデルを微調整することが可能であるので、モデルは他の新たなデータに適応することができ、新たな訓練データが新たなカテゴリー(例えば、分類問題における新たな分類のデータなど)を含む場合、モデルは新たなカテゴリーも学習することができる。
【0047】
上述の手段は概ね以下のように動作する。
インクリメンタルANNモデル訓練器手段201は、新たな訓練データ21により、入力ANNモデルからANNモデルをインクリメンタルに訓練する。
情報行列計算手段202は図1の情報行列計算手段102と同じように動作する。
インクリメンタルポリシーモデル訓練器手段203は、新たな訓練データ21により、入力ポリシーモデルからポリシーモデルをインクリメンタルに訓練する。
【0048】
<動作の説明>
次に、図5のフローチャートを参照して、本例示的実施形態の一般的な動作を説明する。
まず、インクリメンタルANNモデル訓練器手段201は新たな訓練データを用いて入力ANNモデルからANNモデルをインクリメンタルに訓練する(ステップB1)。インクリメンタルANNモデル訓練器手段201は、インクリメンタル学習方法又は図1の情報行列計算手段101と同じ方法でANNモデルを訓練する。インクリメンタルANNモデル訓練器手段201は、新たなANNモデル24を、インクリメンタルモデル訓練システム200の出力として付与する。
【0049】
その後、ステップB2では、情報行列計算手段202は新たな訓練データ21に対して、図1の情報行列計算手段102と同様に動作する。
【0050】
最後に、ステップB3では、インクリメンタルポリシーモデル訓練器手段203は、新たな訓練データ21を用いて、入力ポリシーモデルからインクリメンタルにポリシーモデルを訓練する。インクリメンタルポリシーモデル訓練器手段203はインクリメンタル学習方法により、又は図1のポリシーモデル訓練器手段103と同様に、ポリシーモデルを訓練する。インクリメンタルポリシーモデル訓練器手段203は新たなポリシーモデル25をインクリメンタルモデル訓練システム200の出力として付与する。
【0051】
なお、第1の実施形態の訓練データは、第2の実施形態におけるインクリメンタルにも使用することができる。新たな訓練データにおいて新たなカテゴリーがない場合には、ステップB1をスキップすることができる。
【0052】
<効果の説明>
次に、本例示的な実施形態の効果を説明する。
本例示的な実施形態はシステム200がインクリメンタルもANNモデル及びポリシーモデルを微調整できるように構成されるので、新たなデータ及び新たなラベルを取り扱うことが可能になる。
【0053】
<第3の例示的な実施形態:微調整>
<構成の説明>
次に、添付図面を参照して、発明の第3の例示的な実施形態を以下に説明する。
【0054】
図6を参照すると、モデル訓練システム300はANNモデル訓練器手段301、情報行列計算手段302及びポリシーモデル訓練器303を含む。また、モデル訓練システム300は、共同微調整器手段304を更に含む。共同微調整器手段304はANNモデル及びポリシーモデルを共同で微調整する。共同微調整器手段304は微調整されたANNモデル32及び微調整されたポリシーモデル33を出力する。本実施形態によれば、よりアグレッシブなポリシーを実現できるので、より多くの計算を省略することができる。
【0055】
<動作の説明>
次に、図7のフローチャートを参照して、本例示的な実施形態の一般的な動作を説明する。ステップC4では、共同微調整器手段304は、ポリシーモデルから生成されたポリシーに従ってANNモデル及びポリシーモデル(任意選択)を微調整する。
【0056】
図8は情報処理装置100,200,300の構成例を示すブロック図を示す。図8を参照すると、情報処理装置100,200,300はネットワークインターフェース1201,プロセッサ1202,及びメモリ1203を含む。ネットワークインターフェース1201は、ネットワークノード(例えば、eNB,MME,SGW,P-GW)と通信するために使用される。ネットワークインターフェース1201は、例えば、IEEE802.3シリーズに準拠するネットワークインターフェースカード(NIC)を含み得る。
【0057】
プロセッサ1202はメモリ1203からソフトウェア(コンピュータプログラム)をロードし、ロードされたソフトウェアを実行することで、前述の実施形態におけるシーケンス図及びフローチャートを参照して説明した情報処理装置100,200,300の処理を実行する。プロセッサ1202は例えば、マイクロプロセッサ、MPU又はCPUであってもよい。プロセッサ1202は、複数のプロセッサを含むことができる。情報処理装置100,200,300はまた、GPU,FPGA又は他のASICアクセラレータを含むことができる。
【0058】
メモリ1203は揮発性メモリ及び不揮発性メモリの組み合わせからなる。メモリ1203はプロセッサ1202から離れて配置されたストレージを含むことができる。この場合、プロセッサ1202はI/Oインターフェース(図示せず)を経由してメモリ1203にアクセスすることができる。
【0059】
図8に示す例では、メモリ1203はソフトウェアモジュールを格納するのに使用される。プロセッサ1202は、これらのソフトウェアモジュールをメモリ1203からロードし、これらのロードされたソフトウェアモジュールを実行し、それによって、前述の実施形態に記載の情報処理装置100,200,300の処理を実行する。
【0060】
上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、DVD(Digital Versatile Disc)、BD(Blu-ray(登録商標) Disc)、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
【0061】
例示的な実施形態を参照して本発明を説明してきたが、本発明は上記例示的な実施形態に限定されない。本発明の構成及び詳細は、発明の範囲内において当業者により理解され得る様々な方法で変形することができる。
【0062】
上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
(付記1)
訓練データを用いてANN(人工ニューラルネットワーク)モデルを訓練するためのANNモデル訓練器手段と、
前記ANNモデル訓練器手段によって抽出された訓練情報を用いて前記訓練データ内の各サンプルの情報行列を計算するための情報行列計算手段と、
前記訓練データ及び前記情報行列を用いてポリシーモデルを訓練するためのポリシーモデル訓練器手段と、を備える、情報処理装置。
(付記2)
前記入力ANNモデルから新たな訓練データを用いてインクリメンタルにANNモデルを訓練するためのインクリメンタルANNモデル訓練器手段と、
前記訓練情報を用いて前記新たな訓練データ内の各サンプルの前記情報行列を計算するための前記情報行列計算手段と、
前記新たな訓練データを用いて前記入力ポリシーモデルからインクリメンタルに前記ポリシーモデルを訓練するためのインクリメンタルポリシーモデル訓練器手段と、を更に備える、付記1に記載の情報処理装置。
(付記3)
前記ANNモデル及び前記ポリシーモデルを共同で微調整する共同微調整器手段を更に備える、付記1又は付記2に記載の情報処理装置。
(付記4)
前記ポリシーモデルは教師あり学習による伝統的機械学習モデルに基づいた軽量ポリシーモデルである、付記1~3のいずれか一項に記載の情報処理装置。
(付記5)
訓練データを用いてANNモデルを訓練し、
前記ANNモデルの訓練中に抽出された訓練情報を用いて前記訓練データ内の各サンプルの情報行列を計算し、
前記訓練データ及び前記情報行列を用いてポリシーモデルを訓練する、情報処理方法。
(付記6)
新たな訓練データを用いて、前記入力ANNモデルからANNモデルをインクリメンタルに訓練し、
前記新たな訓練データ及び/又は訓練データの情報行列を計算し、
前記新たな訓練データを用いて、前記入力ポリシーモデルからインクリメンタルにポリシーモデルを訓練する
付記5に記載の情報処理方法。
(付記7)
前記ANNモデル及び前記ポリシーモデルを共同で微調整する、付記5又は6に記載の情報処理方法。
(付記8)
前記ポリシーモデルは、教師あり学習による伝統的な機械学習モデルに基づいた軽量ポリシーモデルである、
付記5~7のいずれか一項に記載の情報処理方法。
(付記9)
訓練データを用いてANNモデルを訓練する処理と、
前記ANNモデルの訓練中に抽出された訓練情報を用いて前記訓練データ内の各サンプルの前記情報行列を計算する処理と、
前記訓練データ及び前記情報行列を用いてポリシーモデルを訓練する処理と、
を、コンピュータに実行させるプログラムを格納する非一時的コンピュータ可読媒体。
(付記10)
前記プログラムは、
新たな訓練データを用いて前記入力されたANNモデルからインクリメンタルにANNモデルを訓練する処理と、
前記新たな訓練データ及び/又は訓練データの前記情報行列を計算する処理と、
前記新たな訓練データを用いて前記入力ポリシーモデルからインクリメンタルにポリシーモデルを訓練する処理と、を実行させる、付記9に記載の非一時的コンピュータ可読媒体。
(付記11)
前記ANNモデル及び前記ポリシーモデルを共同で微調整する処理をコンピュータに更に実行させる、付記9又は付記10に記載の非一時的コンピュータ可読媒体。
(付記12)
前記ポリシーモデルは、教師あり学習による伝統的な機械学習モデルに基づいた軽量ポリシーモデルである、付記9~11のいずれか一項に記載の非一時的コンピュータ可読媒体。
【産業上の利用可能性】
【0063】
本発明はANNベースの分類/検出/認識システムのためのシステム及び装置に適用可能である。本発明はまた、画像分類,オブジェクト検出,人の追跡、シーンラベリング及び分類の他のアプリケーション及び人工知能などのアプリケーションに適用可能である。
【符号の説明】
【0064】
10 訓練データ
12,22 ANNモデル
13,23 ポリシーモデル
21 新たな訓練データ
24 新たなANNモデル
25 新たなANNモデル
100 モデル訓練システム
101 ANNモデル訓練器手段
102 情報行列計算手段
103 ポリシーモデル訓練器手段
200 インクリメンタルモデル訓練システム
201 インクリメンタルANNモデル訓練器手段
202 情報行列計算手段
203 インクリメンタルポリシーモデル訓練器手段
300 モデル訓練システム
301 ANNモデル訓練器手段
302 情報行列計算手段
303 ポリシーモデル訓練器手段
304 共同微調整器手段
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10