特開2023-130651 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2023-130651情報処理プログラム，情報処理方法および情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023130651

(43)【公開日】2023-09-21

(54)【発明の名称】情報処理プログラム，情報処理方法および情報処理装置

(51)【国際特許分類】

G06N 3/08 20230101AFI20230913BHJP

G06N 3/045 20230101ALI20230913BHJP

【ＦＩ】

G06N3/08

G06N3/04 154

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2022035067

(22)【出願日】2022-03-08

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】100092978

【弁理士】

【氏名又は名称】真田有

(74)【代理人】

【識別番号】100189201

【弁理士】

【氏名又は名称】横田功

(72)【発明者】

【氏名】鎌田裕一

(57)【要約】

【課題】機械学習を効率的に実施する。
【解決手段】複数のニューラルネットワークモジュールに対して機械学習による訓練におけるデータ入力を行なった場合の、各ニューラルネットワークモジュールの出力の重みに基づいて、入力データを1以上のグループに分類し、分類後の機械学習処理において、同一のグループに含まれる入力データが同一のミニバッチに含まれるように、入力データのミニバッチを生成する。
【選択図】図１０

【特許請求の範囲】

【請求項1】

複数のニューラルネットワークモジュールに対して機械学習による訓練におけるデータ入力を行なった場合の、各ニューラルネットワークモジュールの出力の重みに基づいて、入力データを1以上のグループに分類し、
前記分類後の機械学習処理において、同一のグループに含まれる入力データが同一のミニバッチに含まれるように、前記入力データのミニバッチを生成する
処理をプロセッサに実行させることを特徴とする、情報処理プログラム。

【請求項2】

前記複数のニューラルネットワークモジュールが、モジュール型ニューラルネットワークに含まれる
ことを特徴とする、請求項１に記載の情報処理プログラム。

【請求項3】

前記分類する処理は、
前記入力データを前記モジュール型ニューラルネットワークに入力し、前記複数のニューラルネットワークモジュールの出力に対する重みに基づいて生成したベクトルと、クラスタを表す基準情報との距離に基づいて、当該入力データのグループを決定する
処理を含むことを特徴とする、請求項２に記載の情報処理プログラム。

【請求項4】

前記基準情報を、競合学習により最近傍の特徴量方向に更新する
処理を前記プロセッサに実行させることを特徴とする、請求項３に記載の情報処理プログラム。

【請求項5】

前記グループの分類誤差と前記基準情報との距離誤差との和を学習損失とする誤差逆伝搬法による教師あり機械学習で、前記ニューラルネットワークモジュールの訓練を行なう
処理を前記プロセッサに実行させることを特徴とする、請求項３または４に記載の情報処理プログラム。

【請求項6】

複数のニューラルネットワークモジュールに対して機械学習による訓練におけるデータ入力を行なった場合の、各ニューラルネットワークモジュールの出力の重みに基づいて、入力データを1以上のグループに分類し、
前記分類後の機械学習処理において、同一のグループに含まれる入力データが同一のミニバッチに含まれるように、前記入力データのミニバッチを生成する
処理をプロセッサが実行することを特徴とする、情報処理方法。

【請求項7】

複数のニューラルネットワークモジュールに対して機械学習による訓練におけるデータ入力を行なった場合の、各ニューラルネットワークモジュールの出力の重みに基づいて、入力データを1以上のグループに分類し、
前記分類後の機械学習処理において、同一のグループに含まれる入力データが同一のミニバッチに含まれるように、前記入力データのミニバッチを生成する
処理を実行する制御部を備えることを特徴とする、情報処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、機械学習技術に関する。

【背景技術】

【0002】

近年、基本的な機能を担う複数のニューラルネットワークモジュール（モジュール群）を、タスク内容に応じて組み合わせることでニューラルネットワークを構築する手法が知られている。ニューラルネットワークモジュールをＮＮモジュールといってもよい。ＮＮはNeural Networkの略語である。また、複数のＮＮモジュールを組み合わせて構築されるニューラルネットワークをモジュール型ニューラルネットワークといってもよい。

【0003】

例えば、find, and, compare等の想定した機能を学習する複数種類のＮＮモジュールを用意し、文章の要求に回答するために必要となるモジュール処理の組み合わせを決定することが知られている。この際、モジュール処理の組み合わせを制御する重みを機械学習により自動生成することも知られている。

【0004】

また、並列化された一般的なＣＮＮ（Convolutional Neural Network）モジュールを選択・利用してＶＱＡ（Visual Question Answering）タスクを解く手法も知られている。当該手法においては、ＣＮＮ処理と同時にＮＮモジュールの選択方法も学習する。なお、モジュール選択のための重み算出に、例えば、Gumbel - Softmaxを利用することも行なわれている。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開２０２０－６０８３８号公報

【特許文献2】特開２０２０－１９０８９５号公報

【非特許文献】

【0006】

【非特許文献1】Ronghang Hu, Jacob Andreas, Trevor Darrell, and Kate Saenko「Explainable Neural Computation via Stack Neural Module Networks」ECCV 2018

【非特許文献2】Yanze Wu, Qiang Sun, Jianqi Ma, Bin Li, Yanwei Fu, Yao Peng, Xiangyang Xue「Question Guided Modular Routing Networks for Visual Question Answering」 arXiv:1904.08324

【発明の概要】

【発明が解決しようとする課題】

【0007】

しかしながら、このような従来のモジュール型ニューラルネットワークの構築手法においては、毎回、全てのＮＮモジュールに機械学習用データを入力し、計算処理を行なうことで出力に重みをかける。機械学習の終盤では、特定のＮＮモジュールのみに強い重みが生じているため、関係しない（重みがゼロとなる）ＮＮモジュールに対する計算処理は無駄になる。

【0008】

また、特定のＮＮモジュールのみに機械学習用データの入力を限定して計算処理しようとした場合に、入力データ毎に選択されるべきＮＮモジュールが異なる。そのため、通常の機械学習で学習効率化のために多用されるミニバッチ処理（複数データをまとめて一括処理）が適用できない。

【0009】

１つの側面では、本発明は、機械学習を効率的に実施できるようにすることを目的とする。

【課題を解決するための手段】

【0010】

このため、この情報処理プログラムは、複数のニューラルネットワークモジュールに対して機械学習による訓練におけるデータ入力を行なった場合の、各ニューラルネットワークモジュールの出力の重みに基づいて、入力データを１以上のグループに分類し、前記分類後の機械学習処理において、同一のグループに含まれる入力データが同一のミニバッチに含まれるように、前記入力データのミニバッチを生成する処理をプロセッサに実行させる。

【発明の効果】

【0011】

一実施形態によれば、機械学習を効率的に実施できる。

【図面の簡単な説明】

【0012】

【図1】実施形態の一例としての情報処理装置の構成を模式的に示す図である。

【図2】実施形態の一例としての情報処理装置のハードウェア構成を示す図である。

【図3】モジュール型ニューラルネットワークのネットワーク構造を例示する図である。

【図4】実施形態の一例としての情報処理装置のＮＮモジュールを説明するための図である。

【図5】実施形態の一例としての情報処理装置における訓練データの所属クラスタ決定方法を説明するための図である。

【図6】実施形態の一例としての情報処理装置における選択ＮＮモジュールと所属クラスタとの関係を示す図である。

【図7】実施形態の一例としての情報処理装置における処理の概要を説明するためのフローチャートである。

【図8】実施形態の一例としての情報処理装置における確率的訓練フェーズにおける処理を説明するためのフローチャートである。

【図9】実施形態の一例としての情報処理装置における決定的訓練フェーズにおける処理を説明するためのフローチャートである。

【図10】実施形態の一例としての情報処理装置により訓練が行なわれたモジュール型ニューラルネットワークを例示する図である。

【発明を実施するための形態】

【0013】

以下、図面を参照して本情報処理プログラム，情報処理方法および情報処理装置にかかる実施の形態を説明する。ただし、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。

【0014】

（Ａ）構成
図１は実施形態の一例としての情報処理装置１の構成を模式的に示す図、図２はそのハードウェア構成を例示する図である。

【0015】

情報処理装置１は、機械学習装置であって、モジュール型ニューラルネットワークの訓練（機械学習）を行なうモジュール型ニューラルネットワーク訓練部１００としての機能を備える。

【0016】

モジュール型ニューラルネットワーク訓練部１００は、図１に示すように、ミニバッチ作成部１０１，ニューラルモジュール処理部１０２，訓練処理部１０３，訓練データ記憶部１０４，所属クラスタ記憶部１０５および重み・コードブック記憶部１０６としての機能を有する。

【0017】

図３はモジュール型ニューラルネットワークのネットワーク構造を例示する図である。

【0018】

この図３に例示するモジュール型ニューラルネットワークは、Ｌ個の層を有し、各層がＭ個のＮＮモジュール（Module #1～#M）を有する。

【0019】

１層目の各ＮＮモジュール（Module #1～#M）の重みをw₁₁～w_1Mで表す。また、Ｌ層目の各ＮＮモジュール（Module #1～#M）の重みをw_L1～w_LMで表す。以下、各ＮＮモジュールの重みを特に区別しない場合には、重みwと表記する。

【0020】

本情報処理装置１においては、モジュール型ニューラルネットワーク訓練部１００が、モジュール型ニューラルネットワークの訓練（機械学習）を行なうことで、各ＮＮモジュールの重みwが更新される。

【0021】

各層において、訓練初期の段階では、複数のＮＮモジュール（Module #1～#M）に重みが広く分布していても、訓練の最終段階では、複数のＮＮモジュール（Module #1～#M）のうちいずれか一つのＮＮモジュールに重みが集中される。すなわち、各ＮＮモジュールが獲得する機能が明確化される。

【0022】

以下においては、モジュール型ニューラルネットワークをＶＱＡタスクに適用する例を示す。モジュール型ニューラルネットワークの訓練に用いる訓練データは、質問文，画像および正解データを備えてよい。

【0023】

モジュール型ニューラルネットワークの１層目の各ＮＮモジュールには、質問文と画像とが入力される。

【0024】

各ＮＮモジュールは、既知のニューラルネットワークモジュールであってよく、例えば、Transformerブロックであってもよい。

【0025】

情報処理装置１は、例えば、図２に示すように、プロセッサ１１，メモリ１２，記憶装置１３，グラフィック処理装置１４，入力インタフェース１５，光学ドライブ装置１６，機器接続インタフェース１７およびネットワークインタフェース１８を構成要素として有する。これらの構成要素１１～１８は、バス１９を介して相互に通信可能に構成される。

【0026】

プロセッサ（制御部）１１は、情報処理装置１全体を制御する。プロセッサ１１は、マルチプロセッサであってもよい。プロセッサ１１は、例えばＣＰＵ，ＭＰＵ（Micro Processing Unit），ＤＳＰ（Digital Signal Processor），ＡＳＩＣ（Application Specific Integrated Circuit），ＰＬＤ（Programmable Logic Device），ＦＰＧＡ（Field Programmable Gate Array），ＧＰＵ（Graphics Processing Unit）のいずれか一つであってもよい。また、プロセッサ１１は、ＣＰＵ，ＭＰＵ，ＤＳＰ，ＡＳＩＣ，ＰＬＤ，ＦＰＧＡ，ＧＰＵのうちの２種類以上の要素の組み合わせであってもよい。

【0027】

そして、プロセッサ１１が情報処理装置１用の制御プログラム（情報処理プログラム，ＯＳプログラム）を実行することにより、図１に例示する、モジュール型ニューラルネットワーク訓練部１００として機能する。ＯＳはOperating Systemの略語である。

【0028】

情報処理装置１は、例えばコンピュータ読み取り可能な非一時的な記録媒体に記録されたプログラム（情報処理プログラム，ＯＳプログラム）を実行することにより、モジュール型ニューラルネットワーク訓練部１００としての機能を実現する。

【0029】

情報処理装置１に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことができる。例えば、情報処理装置１に実行させるプログラムを記憶装置１３に格納しておくことができる。プロセッサ１１は、記憶装置１３内のプログラムの少なくとも一部をメモリ１２にロードし、ロードしたプログラムを実行する。

【0030】

また、情報処理装置１（プロセッサ１１）に実行させるプログラムを、光ディスク１６ａ，メモリ装置１７ａ，メモリカード１７ｃ等の非一時的な可搬型記録媒体に記録しておくこともできる。可搬型記録媒体に格納されたプログラムは、例えばプロセッサ１１からの制御により、記憶装置１３にインストールされた後、実行可能になる。また、プロセッサ１１が、可搬型記録媒体から直接プログラムを読み出して実行することもできる。

【0031】

メモリ１２は、ＲＯＭ（Read Only Memory）およびＲＡＭ（Random Access Memory）を含む記憶メモリである。メモリ１２のＲＡＭは情報処理装置１の主記憶装置として使用される。ＲＡＭには、プロセッサ１１に実行させるプログラムの少なくとも一部が一時的に格納される。また、メモリ１２には、プロセッサ１１による処理に必要な各種データが格納される。さらに、メモリ１２は、重み・コードブック記憶部１０６および所属クラスタ記憶部１０５としての機能を実現してもよい。

【0032】

記憶装置１３は、ハードディスクドライブ（Hard Disk Drive：ＨＤＤ）、ＳＳＤ（Solid State Drive）、ストレージクラスメモリ（Storage Class Memory：ＳＣＭ）等の記憶装置であって、種々のデータを格納するものである。記憶装置１３は、情報処理装置１の補助記憶装置として使用される。記憶装置１３には、ＯＳプログラム，制御プログラムおよび各種データが格納される。制御プログラムには情報処理プログラムが含まれる。また、記憶装置１３は、訓練データ記憶部１０４としての機能を実現する。

【0033】

なお、補助記憶装置としては、ＳＣＭやフラッシュメモリ等の半導体記憶装置を使用することもできる。また、複数の記憶装置１３を用いてＲＡＩＤ（Redundant Arrays of Inexpensive Disks）を構成してもよい。

【0034】

また、記憶装置１３には、上述したミニバッチ作成部１０１，ニューラルモジュール処理部１０２および訓練処理部１０３が各処理を実行する際に生成される各種データを格納してもよい。記憶装置１３が、重み・コードブック記憶部１０６および所属クラスタ記憶部１０５としての機能を実現してもよい。

【0035】

グラフィック処理装置１４には、モニタ１４ａが接続されている。グラフィック処理装置１４は、プロセッサ１１からの命令に従って、画像をモニタ１４ａの画面に表示させる。モニタ１４ａとしては、ＣＲＴ（Cathode Ray Tube）を用いた表示装置や液晶表示装置等が挙げられる。

【0036】

入力インタフェース１５には、キーボード１５ａおよびマウス１５ｂが接続されている。入力インタフェース１５は、キーボード１５ａやマウス１５ｂから送られてくる信号をプロセッサ１１に送信する。なお、マウス１５ｂは、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル，タブレット，タッチパッド，トラックボール等が挙げられる。

【0037】

光学ドライブ装置１６は、レーザ光等を利用して、光ディスク１６ａに記録されたデータの読み取りを行なう。光ディスク１６ａは、光の反射によって読み取り可能にデータを記録された可搬型の非一時的な記録媒体である。光ディスク１６ａには、ＤＶＤ（Digital Versatile Disc），ＤＶＤ－ＲＡＭ，ＣＤ－ＲＯＭ（Compact Disc Read Only Memory），ＣＤ－Ｒ（Recordable）／ＲＷ（ReWritable）等が挙げられる。

【0038】

機器接続インタフェース１７は、情報処理装置１に周辺機器を接続するための通信インタフェースである。例えば、機器接続インタフェース１７には、メモリ装置１７ａやメモリリーダライタ１７ｂを接続することができる。メモリ装置１７ａは、機器接続インタフェース１７との通信機能を搭載した非一時的な記録媒体、例えばＵＳＢ（Universal Serial Bus）メモリである。メモリリーダライタ１７ｂは、メモリカード１７ｃへのデータの書き込み、またはメモリカード１７ｃからのデータの読み出しを行なう。メモリカード１７ｃは、カード型の非一時的な記録媒体である。

【0039】

ネットワークインタフェース１８は、ネットワークに接続される。ネットワークインタフェース１８は、ネットワークを介してデータの送受信を行なう。ネットワークには他の情報処理装置や通信機器等が接続されてもよい。例えば、訓練データ記憶部１０４としての機能は、ネットワークを介して接続される他の情報処理装置やストレージ装置に備えられてもよい。

【0040】

本情報処理装置１は、複数のＮＮモジュールを組み合わせてモジュール型ニューラルネットワークを構築する。

【0041】

モジュール型ニューラルネットワーク訓練部１００は、確率的訓練フェーズと決定的訓練フェーズとの２段階のフェーズでモジュール型ニューラルネットワークの訓練を行なう。確率的訓練フェーズを訓練前半といってもよく、また、決定的訓練フェーズを訓練後半といってもよい。決定的訓練フェーズにおいては、同一層の複数（M個）のＮＮモジュールの中からＮＮモジュールを一つだけ選択して訓練が行なわれる。

【0042】

ミニバッチ作成部１０１は、モジュール型ニューラルネットワークに含まれる各ＮＮモジュールの訓練に用いられるミニバッチを作成する。

【0043】

ミニバッチ作成部１０１は、確率的訓練フェーズにおいて、訓練データ記憶部１０４に格納された複数の訓練データの中から所定数の訓練データを抽出することでミニバッチ（第１ミニバッチ）を作成する。ミニバッチ作成部１０１は、例えば、複数の訓練データの中からランダムに所定数の訓練データを抽出することで第１ミニバッチを作成してもよい。作成された第１ミニバッチを訓練データ記憶部１０４に記憶させてもよい。
また、ミニバッチ作成部１０１は、決定的訓練フェーズにおいて、後述する訓練処理部１０３により設定された所属クラスタが同一の複数の訓練データの中から所定数（ミニバッチ数）の訓練データを抽出することでミニバッチ（第２ミニバッチ）を作成する。所属クラスタはグループである。所属クラスタをクラスといってもよい。ミニバッチ作成部１０１は、例えば、所属クラスタが同一の複数の訓練データの中からランダムに所定数の訓練データを抽出することで第２ミニバッチを作成してもよい。

【0044】

このように、ミニバッチ作成部１０１は、同一のグループに含まれる訓練データが同一のミニバッチに含まれるように、訓練データのミニバッチ（第２ミニバッチ）を生成する。作成された第２ミニバッチを訓練データ記憶部１０４に記憶させてもよい。

【0045】

ニューラルモジュール処理部１０２は、確率的訓練フェーズおよび決定的訓練フェーズのそれぞれにおいて、モジュール型ニューラルネットワークに含まれる複数のＮＮモジュールに対する処理を行なう。

【0046】

モジュール型ニューラルネットワークの各層に含まれるＮＮモジュールの数（モジュール数）をMとする。Mは自然数である。
ニューラルモジュール処理部１０２は、確率的訓練フェーズにおいて、M個の全てのＮＮモジュールに対して訓練データを入力し、それぞれ出力を得る。

【0047】

ニューラルモジュール処理部１０２は、ＮＮモジュールにおいて、入力される質問文データの先頭トークン（[BOS]トークン）に基づき、多層パーセプトロン（ＭＬＰ：Multilayer perceptron）処理により、当該ＮＮモジュール出力に対する重み分布を計算させる。

【0048】

図４は実施形態の一例としての情報処理装置１のＮＮモジュールを説明するための図である。

【0049】

この図４においては、ＮＮモジュールがTransformerブロックの例を示す。Transformerブロックには、質問文の単語埋め込み（embedding）列と、画像データの物体特徴量列とが入力される。単語埋め込み列の[BOS]はＭＬＰにも入力され、重みwの算出に用いられる。

【0050】

ニューラルモジュール処理部１０２は、各層のM個のＮＮモジュールにおいて重み付き平均した出力を後続する層（次層）への入力とし、ＮＮモジュール出力に対する重み分布を計算させる。ニューラルモジュール処理部１０２は、モジュール型ニューラルネットワークの各層に対して、重み分布の計算をそれぞれ行なわせる。

【0051】

ニューラルモジュール処理部１０２は、モジュール型ニューラルネットワークの最終層の各ＮＮモジュールの出力をＭＬＰ処理して、選択肢からのクラス分類として回答出力を得る。

【0052】

確率的訓練フェーズにおいて、ニューラルモジュール処理部１０２による上記処理は、規定回数（例えば、学習データ量でN_f epoch分）だけ繰り返し実行される。
また、ニューラルモジュール処理部１０２は、決定的訓練フェーズにおいて、ミニバッチ作成部１０１が作成した第２ミニバッチの訓練データを用いて、各ＮＮモジュールの処理を行なう。

【0053】

ニューラルモジュール処理部１０２は、第２ミニバッチ内から訓練データを一つだけ選択する。

【0054】

そして、ニューラルモジュール処理部１０２は、ＮＮモジュールに対して、選択した訓練データの先頭トークンから、第１層を構成するM個のＮＮモジュール出力に対する重みの分布をＭＬＰ処理で計算させ、重みが最大値となったＮＮモジュールを選択する。これにより、当該第１層において選択されるＮＮモジュールが決定される。モジュール型ニューラルネットワークの一つの層に備えられるM個のＮＮモジュールのうち、重みが最大となり選択されたＮＮモジュールを選択ＮＮモジュールといってもよい。

【0055】

ニューラルモジュール処理部１０２は、選択ＮＮモジュールのみにミニバッチ全ての訓練データを与えて出力を計算させる。ニューラルモジュール処理部１０２は、各層の選択ＮＮモジュールの出力を次層への入力とする。

【0056】

ニューラルモジュール処理部１０２は、決定的訓練フェーズにおいて、上述した、M個のＮＮモジュールへのデータ入力と、ＭＬＰ処理によるM個のＮＮモジュール出力に対する重みの分布の計算と、重みが最大値となったＮＮモジュールの選択等を、Ｌ層に至る全ての層に対して行なう。

【0057】

このように、ニューラルモジュール処理部１０２は、決定的訓練フェーズ（訓練後半）において、同一クラスタ内から抽出された訓練データで構成されたミニバッチでまとめて計算処理を行なう。

【0058】

決定的訓練フェーズ（訓練後半）では、同じクラスタ内の訓練データは選択されるＮＮモジュールも同一であると決定することで、同一クラスタのデータを用いて特定のＮＮモジュールのみに計算処理を限定したミニバッチ処理が実現される。

【0059】

そして、ニューラルモジュール処理部１０２は、モジュール型ニューラルネットワークの最終層の出力をＭＬＰ処理し、回答選択肢からのクラス分類を得る。

【0060】

訓練処理部１０３は、確率的訓練フェーズにおいて、ランダム値でK個の特徴量コードブック{c₁, ... , c_K}を作成する。Kはクラスタ数である。各特徴量コードブックは、いずれかのクラスタ（グループ）に対応する。

【0061】

また、訓練処理部１０３は、確率的訓練フェーズにおいて、全層分（Ｌ層分）のＮＮモジュール出力に対する重みを一列に並べたベクトルを特徴量として、当該特徴量に基づき、特徴量コードブックとの距離から各訓練データの所属クラスタを決定する。訓練データの所属クラスタを決定することは、入力データ（訓練データ）をグループに分類することに相当する。

【0062】

図５は実施形態の一例としての情報処理装置１における訓練データの所属クラスタ決定方法を説明するための図である。

【0063】

この図５においては、重み分布の特徴空間（R^LM）に配置された複数の訓練データを示している。図５中において、複数のバツ（×）は訓練データの重み分布のベクトルをそれぞれ表し、複数の△は特徴量コードブックをそれぞれ表す。

【0064】

複数の訓練データは、特徴量コードブック{c₁, ... , c_K}からの距離に応じてクラスタ分けされている。

【0065】

訓練処理部１０３は、例えば、特徴量コードブック{c₁, ... , c_K}の中から訓練データの重み分布ベクトルに最も近い（最近傍の）特徴量コードブックを選択し、この選択した特徴量コードブックが対応するクラスタを、訓練データの所属クラスタとして決定してもよい。

【0066】

特徴量コードブックは、クラスタを表す基準情報に相当する。

【0067】

図６は実施形態の一例としての情報処理装置１における選択ＮＮモジュールと所属クラスタとの関係を示す図である。

【0068】

この図６においては、ＮＮモジュールの組み合わせと出力の所属クラスタとを対応付けて示している。図６中のModule #1～#4はそれぞれＮＮモジュールを表し、モジュール型ニューラルネットワークにおける部分的に前後する３つの層を示している。

【0069】

モジュール型ニューラルネットワークにおいては、訓練データを処理するＮＮモジュールの組み合わせに応じて、当該モジュール型ニューラルネットワークの出力の所属クラスタが決定される。

【0070】

例えば、モジュール型ニューラルネットワークにおいて、訓練データをModule #1で処理した後にModule #2で処理し、その後Module #4で処理する場合に、このモジュール型ニューラルネットワークの出力がクラスタc₁となる（符号Ｐ１参照）。

【0071】

訓練処理部１０３は、確率的訓練フェーズ（訓練前半）で、重み分布を特徴量として訓練データをクラスタリングする。訓練処理部１０３は、各ＮＮモジュールの出力の重みに基づいて、入力データを1以上のクラスタ（グループ）に分類する。

【0072】

訓練処理部１０３は、訓練データ（入力データ）をモジュール型ニューラルネットワークに入力し、複数のＮＮモジュールの出力に対する重みに基づいて生成したベクトル（特徴量）と、特徴量コードブック（基準情報）との距離に基づいて、当該訓練データの所属クラスタ（グループ）を決定するのである。

【0073】

訓練処理部１０３は、決定した各訓練データの所属クラスタを所属クラスタ記憶部１０５に記憶させる。

【0074】

所属クラスタ記憶部１０５は、複数の訓練データのそれぞれについて、訓練処理部１０３によって決定された所属クラスタを対応付けて記憶する。所属クラスタ記憶部１０５には、訓練データについてのクラスタ情報が記憶される。所属クラスタ記憶部１０５を参照することで、特定のクラスタに所属する訓練データを得ることができる。

【0075】

訓練処理部１０３は、競合学習により特徴量コードブックの値を最近傍の特徴量方向に更新する。

【0076】

ミニバッチ内のデータnでの重み分布の特徴量w⁽ⁿ⁾に最近傍の特徴量コードブックc⁽ⁿ⁾とすると、競合学習による特徴量コードブックc⁽ⁿ⁾の更新を以下の式（１）で表すことができる。

【0077】

c⁽ⁿ⁾← (1-β)c⁽ⁿ⁾+ βw⁽ⁿ⁾ ・・・（１）
βは訓練の調整係数であり、任意に設定されてよい。

【0078】

訓練処理部１０３は、誤差逆伝搬法による教師あり学習でＮＮモジュールの機械学習を行ない、各ＮＮモジュールの重みを更新する。

【0079】

訓練処理部１０３は、確率的訓練フェーズにおいて、学習損失として、「ＶＱＡでのクラス分類誤差」＋「特徴量コードブックとの距離誤差」を用いる。

【0080】

訓練処理部１０３は、確率的訓練フェーズにおいて、ＶＱＡでのクラス分類誤差（グループの分類誤差）と特徴量コードブック（基準情報）との距離誤差との和を学習損失とする誤差逆伝搬法による教師あり機械学習で、ＮＮモジュールの訓練を行なう。

【0081】

ＶＱＡでのクラス分類誤差は、ミニバッチ内のデータnの正解クラスでのネットワークの確率出力p⁽ⁿ⁾とすると、以下の式で表わされる。

【0082】

【数1】

また、特徴量コードブックとの距離誤差は、以下の式で表される。

【0083】

【数2】

上記式において、w⁽ⁿ⁾はミニバッチ内のデータnでの重み分布の特徴量であり、c⁽ⁿ⁾は、最近傍の特徴量コードブックである。また、γは学習の調整係数であり、任意に設定することができる。

【0084】

確率的訓練フェーズにおいて、訓練処理部１０３による上記処理は、規定回数（例えば、訓練データ量でN_f epoch分）だけ繰り返し実行される。

【0085】

訓練処理部１０３が設定した特徴量コードブックの各値や重みの値は、重み・コードブック記憶部１０６に記憶される。
また、訓練処理部１０３は、決定的訓練フェーズにおいて、モジュール型ニューラルネットワークから得られた、回答選択肢からのクラス分類（出力データ）に基づき、教師あり学習で各ＮＮモジュールの重みを更新する。

【0086】

（Ｂ）動作
上述の如く構成された実施形態の一例としての情報処理装置1における処理の概要を図７に示すフローチャート（ステップＡ１～Ａ７）に従って説明する。

【0087】

ステップＡ１において、例えば、訓練処理部１０３が、各ＮＮモジュールの重みと特徴量コードブックをランダム値で初期化する。

【0088】

ステップＡ２では、訓練回数が規定回数（N_f epoch）に到達するまで、ステップＡ３の処理を繰り返し実施するループ処理を開始する。

【0089】

ステップＡ３では確率的訓練が実行される。確率的訓練の詳細は図８を用いて後述する。

【0090】

ステップＡ４において、ステップＡ２に対応するループ端処理が実施される。ここで、訓練回数が規定回数（N_f epoch）に到達すると、制御がステップＡ５に進む。

【0091】

ステップＡ５では、訓練回数が規定回数（N_l epoch）に到達するまで、ステップＡ６の処理を繰り返し実施するループ処理を開始する。

【0092】

ステップＡ６では決定的訓練が実行される。決定的訓練の詳細は図９を用いて後述する。

【0093】

ステップＡ７において、ステップＡ５に対応するループ端処理が実施される。ここで、訓練回数が規定回数（N_l epoch）に到達すると、処理が終了する。

【0094】

次に、実施形態の一例としての情報処理装置1における確率的訓練フェーズにおける処理を図８に示すフローチャート（ステップＢ１～Ｂ９）に従って説明する。

【0095】

ステップＢ１において、ミニバッチ作成部１０１が、複数の訓練データの中から所定数の訓練データを抽出することでミニバッチ（第１ミニバッチ）を作成する。

【0096】

ステップＢ２において、モジュール型ニューラルネットワークの全ての層（Ｌ層）に対して、ステップＢ６までの制御を繰り返し実施するループ処理を開始する。ステップＢ２～Ｂ６の処理は、モジュール型ニューラルネットワークに含まれる複数の層に対して、第１層（入力層）から第Ｌ層（出力層）に向けて順番（昇順）に処理される
ステップＢ３において、ニューラルモジュール処理部１０２が、処理対象の層を構成するM個の全てのＮＮモジュールに対して訓練データ（入力データ）を与えて、各ＮＮモジュールに出力を計算させる。

【0097】

ステップＢ４において、ニューラルモジュール処理部１０２は、選択した訓練データの先頭トークンからＭＬＰ処理でＮＮモジュール出力に対する重み分布を計算させる。

【0098】

ステップＢ５において、ニューラルモジュール処理部１０２は、各ＮＮモジュール重み付き平均したモジュール出力を次層への入力データとして設定する。

【0099】

ステップＢ６では、ステップＢ２に対応するループ端処理が実施される。ここで、全層（Ｌ層）についての処理が完了すると、制御がステップＢ７に進む。

【0100】

ステップＢ７において、ニューラルモジュール処理部１０２は、モジュール型ニューラルネットワークの最終層の出力をＭＬＰ処理し、回答選択肢からのクラス分類を得る。

【0101】

ステップＢ８において、訓練処理部１０３は、各ＮＮモジュールの出力の重み分布と特徴量コードブックとの距離に基づいて、各訓練データの所属クラスタを決定する。

【0102】

ステップＢ９において、訓練処理部１０３は、競合学習により特徴量コードブックの値を最近傍の特徴量方向に更新する。また、訓練処理部１０３は、教師あり学習でＮＮモジュールの機械学習を行ない、各ＮＮモジュールの重みを更新する。その後、処理を終了する。

【0103】

次に、実施形態の一例としての情報処理装置1における決定的訓練フェーズにおける処理を図９に示すフローチャート（ステップＣ１～Ｃ８）に従って説明する。

【0104】

ステップＣ１において、ミニバッチ作成部１０１は、訓練処理部１０３により設定された所属クラスタが同一の複数の訓練データの中から所定数（ミニバッチ数）の訓練データを抽出することでミニバッチ（第２ミニバッチ）を作成する。

【0105】

ステップＣ２において、モジュール型ニューラルネットワークの全ての層（Ｌ層）に対して、ステップＣ６までの制御を繰り返し実施するループ処理を開始する。ステップＣ２～Ｃ６の処理は、モジュール型ニューラルネットワークに含まれる複数の層に対して、第１層（入力層）から第Ｌ層（出力層）に向けて順番（昇順）に処理される。
ステップＣ３において、ニューラルモジュール処理部１０２は、ミニバッチ作成部１０１が作成した第２ミニバッチ内から訓練データを一つ選択する。ニューラルモジュール処理部１０２は、ＮＮモジュールに対して、選択した訓練データの先頭トークンから、第１層を構成するM個のＮＮモジュール出力に対する重みの分布をＭＬＰ処理で計算させる。

【0106】

ステップＣ４において、ニューラルモジュール処理部１０２は、重みが最大値となったＮＮモジュール（選択ＮＮモジュール）を選択し、この選択ＮＮモジュールに対してミニバッチ全ての訓練データを与えて出力を計算させる。

【0107】

ステップＣ５において、ニューラルモジュール処理部１０２は、選択ＮＮモジュールの出力を次層への入力に設定する。

【0108】

ステップＣ６では、ステップＣ２に対応するループ端処理が実施される。ここで、全層（Ｌ層）についての処理が完了すると、制御がステップＣ７に進む。

【0109】

ステップＣ７において、ニューラルモジュール処理部１０２は、モジュール型ニューラルネットワークの最終層の出力をＭＬＰ処理し、クラス分類の回答を得る。

【0110】

ステップＣ８において、訓練処理部１０３は、モジュール型ニューラルネットワークから得られた、回答選択肢からのクラス分類（出力データ）に基づき、教師あり学習で各ＮＮモジュールの重みを更新する。その後、処理を終了する。

【0111】

（Ｃ）効果
このように、実施形態の一例としての情報処理装置１によれば、確率的訓練フェーズにおいて、複数の訓練データを、重み分布を特徴量としてクラスタリングする。そして、決定的訓練フェーズにおいて、ミニバッチ作成部１０１が、同一のクラスタ（グループ）に含まれる訓練データが同一のミニバッチに含まれるように、訓練データのミニバッチ（第２ミニバッチ）を生成する。

【0112】

決定的訓練フェーズにおいて、訓練データについてのクラスタ情報を用いて同一クラスタ内の訓練データは選択されるＮＮモジュールも同一と決定する。これにより、同一クラスタ内の訓練データを用いて特定のＮＮモジュールのみに計算処理を限定したミニバッチ処理を実現することができる。また、モジュール型ニューラルネットワークの訓練効率を向上させることができる。

【0113】

確率的訓練フェーズにおいて、訓練処理部１０３が、学習損失として、「ＶＱＡでのクラス分類誤差」＋「特徴量コードブックとの距離誤差」を用いて、誤差逆伝搬法による教師あり学習でＮＮモジュールの機械学習を行ない、各ＮＮモジュールの重みを更新する。

【0114】

これにより、モジュール型ニューラルネットワークにおいて、訓練により最終的に選択される各層のＮＮモジュールに、ＶＱＡでのクラス分類誤差と特徴量コードブックとの距離誤差が反映される。そして、同一クラスタに属する訓練データのみで構成されるミニバッチを用いたミニバッチ処理を行なうことが可能となる。

【0115】

決定的訓練フェーズにおいて、ニューラルモジュール処理部１０２が、各層において、重みが最大値となったＮＮモジュール（選択ＮＮモジュール）を選択し、この選択ＮＮモジュールに対してミニバッチ全ての訓練データを与えて出力を計算させる。

【0116】

選択ＮＮモジュールに対して、当該ＮＮモジュールへの影響が大きいクラスタに属する訓練データのみを含むミニバッチで訓練を行なうことで、各ＮＮモジュールの訓練を効率的に行なうことができる。

【0117】

図１０は実施形態の一例としての情報処理装置１により訓練が行なわれたモジュール型ニューラルネットワークを例示する図である。

【0118】

この図１０においては、data1とdata112とを、それぞれモジュール型ニューラルネットワークに入力した例を示す。これらのdata1とdata112とは同じクラスタに属するので、各層において選択されるＮＮモジュールも同一となる。

【0119】

本情報処理装置１（モジュール型ニューラルネットワーク訓練部１００）においては、モジュール型ニューラルネットワークの各層において同一のＮＮモジュールを選択させる複数の訓練データを集めた第２ミニバッチを作成することで、ミニバッチ処理が可能となる。従って、モジュール型ニューラルネットワークの訓練を効率的に行なうことができる。

【0120】

（Ｄ）その他
本実施形態の各構成および各処理は、必要に応じて取捨選択することができ、あるいは適宜組み合わせてもよい。

【0121】

そして、開示の技術は上述した実施形態に限定されるものではなく、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。

【0122】

また、上述した開示により本実施形態を当業者によって実施・製造することが可能である。

【0123】

（Ｅ）付記
以上の実施形態に関し、さらに以下の付記を開示する。

【0124】

（付記１）
複数のニューラルネットワークモジュールに対して機械学習による訓練におけるデータ入力を行なった場合の、各ニューラルネットワークモジュールの出力の重みに基づいて、入力データを１以上のグループに分類し、
前記分類後の機械学習処理において、同一のグループに含まれる入力データが同一のミニバッチに含まれるように、前記入力データのミニバッチを生成する
処理をプロセッサに実行させることを特徴とする、情報処理プログラム。

【0125】

（付記２）
前記複数のニューラルネットワークモジュールが、モジュール型ニューラルネットワークに含まれる
ことを特徴とする、付記１に記載の情報処理プログラム。

【0126】

（付記３）
前記分類する処理は、
前記入力データを前記モジュール型ニューラルネットワークに入力し、前記複数のニューラルネットワークモジュールの出力に対する重みに基づいて生成したベクトルと、クラスタを表す基準情報との距離に基づいて、当該入力データのグループを決定する
処理を含むことを特徴とする、付記２に記載の情報処理プログラム。

【0127】

（付記４）
前記基準情報を、競合学習により最近傍の特徴量方向に更新する
処理を前記プロセッサに実行させることを特徴とする、付記３に記載の情報処理プログラム。

【0128】

（付記５）
前記グループの分類誤差と前記基準情報との距離誤差との和を学習損失とする誤差逆伝搬法による教師あり機械学習で、前記ニューラルネットワークモジュールの訓練を行なう
処理を前記プロセッサに実行させることを特徴とする、付記３または４に記載の情報処理プログラム。

【0129】

（付記６）
複数のニューラルネットワークモジュールに対して機械学習による訓練におけるデータ入力を行なった場合の、各ニューラルネットワークモジュールの出力の重みに基づいて、入力データを１以上のグループに分類し、
前記分類後の機械学習処理において、同一のグループに含まれる入力データが同一のミニバッチに含まれるように、前記入力データのミニバッチを生成する
処理をプロセッサが実行することを特徴とする、情報処理方法。

【0130】

（付記７）
前記複数のニューラルネットワークモジュールが、モジュール型ニューラルネットワークに含まれる
ことを特徴とする、付記６に記載の情報処理方法。

【0131】

（付記８）
前記分類する処理は、
前記入力データを前記モジュール型ニューラルネットワークに入力し、前記複数のニューラルネットワークモジュールの出力に対する重みに基づいて生成したベクトルと、クラスタを表す基準情報との距離に基づいて、当該入力データのグループを決定する
処理を含むことを特徴とする、付記７に記載の情報処理方法。

【0132】

（付記９）
前記基準情報を、競合学習により最近傍の特徴量方向に更新する
処理を前記プロセッサが実行することを特徴とする、付記８に記載の情報処理方法。

【0133】

（付記１０）
前記グループの分類誤差と前記基準情報との距離誤差との和を学習損失とする誤差逆伝搬法による教師あり機械学習で、前記ニューラルネットワークモジュールの訓練を行なう
処理を前記プロセッサが実行することを特徴とする、付記８または９に記載の情報処理方法。

【0134】

（付記１１）
複数のニューラルネットワークモジュールに対して機械学習による訓練におけるデータ入力を行なった場合の、各ニューラルネットワークモジュールの出力の重みに基づいて、入力データを１以上のグループに分類し、
前記分類後の機械学習処理）において、同一のグループに含まれる入力データが同一のミニバッチに含まれるように、前記入力データのミニバッチを生成する
処理を実行する制御部を備えることを特徴とする、情報処理装置。

【0135】

（付記１２）
前記複数のニューラルネットワークモジュールが、モジュール型ニューラルネットワークに含まれる
ことを特徴とする、付記１１に記載の情報処理装置。

【0136】

（付記１３）
前記分類する処理は、
前記入力データを前記モジュール型ニューラルネットワークに入力し、前記複数のニューラルネットワークモジュールの出力に対する重みに基づいて生成したベクトルと、クラスタを表す基準情報との距離に基づいて、当該入力データのグループを決定する
処理を含むことを特徴とする、付記１２に記載の情報処理装置。

【0137】

（付記１４）
前記制御部が、
前記基準情報を、競合学習により最近傍の特徴量方向に更新する
処理を実行することを特徴とする、付記１３に記載の情報処理装置。

【0138】

（付記１５）
前記制御が、
前記グループの分類誤差と前記基準情報との距離誤差との和を学習損失とする誤差逆伝搬法による教師あり機械学習で、前記ニューラルネットワークモジュールの訓練を行なう
処理を実行することを特徴とする、付記１３または１４に記載の情報処理装置。

【符号の説明】

【0139】

１情報処理装置
１１プロセッサ（制御部）
１２メモリ
１３記憶装置
１４グラフィック処理装置
１４ａモニタ
１５入力インタフェース
１５ａキーボード
１５ｂマウス
１６光学ドライブ装置
１６ａ光ディスク
１７機器接続インタフェース
１７ａメモリ装置
１７ｂメモリリーダライタ
１７ｃメモリカード
１８ネットワークインタフェース
１８ａネットワーク
１９バス
１００モジュール型ニューラルネットワーク訓練部
１０１ミニバッチ作成部
１０２ニューラルモジュール処理部
１０３訓練処理部
１０４訓練データ記憶部
１０５所属クラスタ記憶部
１０６重み・コードブック記憶部

【図1】