特開2024-131342 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧 ▶ 東芝ソリューション株式会社の特許一覧

特開2024-131342情報処理装置、情報処理方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024131342

(43)【公開日】2024-09-30

(54)【発明の名称】情報処理装置、情報処理方法およびプログラム

(51)【国際特許分類】

G06F 18/214 20230101AFI20240920BHJP

G06N 20/00 20190101ALI20240920BHJP

G06F 16/906 20190101ALI20240920BHJP

G06F 18/23 20230101ALI20240920BHJP

G06F 18/15 20230101ALI20240920BHJP

【ＦＩ】

G06F18/214

G06N20/00

G06F16/906

G06F18/23

G06F18/15

【審査請求】未請求

【請求項の数】17

【出願形態】ＯＬ

(21)【出願番号】P 2023041547

(22)【出願日】2023-03-16

(71)【出願人】

【識別番号】000003078

【氏名又は名称】株式会社東芝

(71)【出願人】

【識別番号】301063496

【氏名又は名称】東芝デジタルソリューションズ株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】高橋信太郎

【テーマコード（参考）】

5B175

【Ｆターム（参考）】

5B175FA03

5B175FB01

5B175FB04

(57)【要約】

【課題】より高精度に学習を行う学習データを生成する。
【解決手段】情報処理装置は、処理部を備える。処理部は、モデルの学習に用いられた複数の第１学習データに基づいて、複数の第１学習データのサンプル数より少ないサンプル数のデータであって、複数の第１学習データの要約を表す複数の第１要約データを生成する要約処理を実行する。処理部は、複数の第１要約データに基づいて、複数の第１要約データのサンプル数より多いサンプル数のデータであって、モデルの学習に用いる複数の第２学習データを生成する。
【選択図】図１

【特許請求の範囲】

【請求項1】

モデルの学習に用いられた複数の第１学習データに基づいて、複数の前記第１学習データのサンプル数より少ないサンプル数のデータであって、複数の前記第１学習データの要約を表す複数の第１要約データを生成する要約処理を実行し、
複数の前記第１要約データに基づいて、複数の前記第１要約データのサンプル数より多いサンプル数のデータであって、前記モデルの学習に用いる複数の第２学習データを生成する、
処理部、
を備える情報処理装置。

【請求項2】

前記処理部は、
複数の前記第１学習データそれぞれを複数のクラスタのいずれかに分類し、
複数の前記クラスタの少なくとも一部について、前記クラスタに含まれる前記第１学習データを代表する１つ以上のデータを、前記第１要約データとして生成する、
請求項１に記載の情報処理装置。

【請求項3】

前記処理部は、前記クラスタの重心を示すデータ、または、前記クラスタの重心に対する距離または類似度に関する尺度に基づいて選択される前記第１学習データを、前記第１要約データとして生成する、
請求項２に記載の情報処理装置。

【請求項4】

前記処理部は、
複数の前記クラスタのうち２つ以上について、
同じサンプル数の前記第１要約データを生成する、または、複数の前記クラスタそれぞれに分類された複数の前記第１学習データの属性に応じたサンプル数の前記第１要約データを生成する、
請求項２に記載の情報処理装置。

【請求項5】

前記属性は、複数の前記第１学習データのサンプル数、または、複数の前記第１学習データの多様性を示す指標である、
請求項４に記載の情報処理装置。

【請求項6】

前記処理部は、複数の前記第１要約データに対して、複数の前記クラスタそれぞれに分類された複数の前記第１学習データの統計情報に応じたノイズを付与することにより、複数の前記第２学習データを生成する、
請求項２に記載の情報処理装置。

【請求項7】

前記統計情報は、複数の前記第１学習データに含まれる１つ以上の変数それぞれの標準偏差である、
請求項６に記載の情報処理装置。

【請求項8】

前記処理部は、
複数の前記第１学習データを、複数の前記第１要約データと、複数の前記第１要約データを入力して複数の前記第１学習データに近似する複数の近似データを出力する近似関数と、に分解し、
複数の前記第１要約データを前記近似関数に入力して得られる複数の前記近似データを、前記第２学習データとして生成する、
請求項１に記載の情報処理装置。

【請求項9】

前記処理部は、行列分解またはオートエンコーダを用いて、複数の前記第１学習データを、複数の前記第１要約データと前記近似関数とに分解する、
請求項８に記載の情報処理装置。

【請求項10】

前記処理部は、
複数の前記第１学習データの次元を圧縮し、
次元が圧縮された複数の前記第１学習データを用いて、複数の前記第１要約データを生成し、
複数の前記第２学習データの次元を、複数の前記第１学習データの次元に復元する、
請求項１に記載の情報処理装置。

【請求項11】

前記処理部は、
複数の前記第１学習データに基づいて、複数の前記第１学習データのサンプル数より少ないサンプル数のデータであって、複数の前記第１学習データの要約を表す複数の第２要約データを生成し、
複数の前記第２要約データを、複数の前記第２要約データのサンプル数より少ないサンプル数のデータであって、複数の前記第２要約データの要約を表す複数の前記第１要約データと、複数の前記第１要約データを入力して複数の前記第２要約データの近似データを出力する近似関数と、に分解し、
複数の前記第１要約データを前記近似関数に入力して得られる複数の近似データを生成し、
複数の前記近似データを、複数の前記第１要約データとして用いて、複数の第２学習データを生成する、
請求項１に記載の情報処理装置。

【請求項12】

前記処理部は、行列分解またはオートエンコーダを用いて、複数の前記第１要約データを、複数の前記第１要約データと前記近似関数とに分解する、
請求項１１に記載の情報処理装置。

【請求項13】

前記処理部は、
複数の前記第１学習データのデータサイズに対する、生成された複数の前記第１要約データのデータサイズの割合を表す圧縮率、および、複数の前記第２学習データを用いて学習された前記モデルの性能を表すスコアのうち少なくとも一方に基づく評価値を算出し、
前記評価値が予め定められた条件を満たすまで、前記要約処理を繰り返し実行する、
請求項１に記載の情報処理装置。

【請求項14】

前記処理部は、複数の前記第２学習データを用いて前記モデルを学習する、
請求項１に記載の情報処理装置。

【請求項15】

前記処理部は、
前記要約処理を実行する要約部と、
複数の前記第２学習データを生成するデータ生成部と、
を備える、
請求項１に記載の情報処理装置。

【請求項16】

情報処理装置で実行される情報処理方法であって、
モデルの学習に用いられた複数の第１学習データに基づいて、複数の前記第１学習データのサンプル数より少ないサンプル数のデータであって、複数の前記第１学習データの要約を表す複数の第１要約データを生成する要約処理を実行し、
複数の前記第１要約データに基づいて、複数の前記第１要約データのサンプル数より多いサンプル数のデータであって、前記モデルの学習に用いる複数の第２学習データを生成する、
ことを含む情報処理方法。

【請求項17】

コンピュータに、
モデルの学習に用いられた複数の第１学習データに基づいて、複数の前記第１学習データのサンプル数より少ないサンプル数のデータであって、複数の前記第１学習データの要約を表す複数の第１要約データを生成する要約処理を実行するステップと、
複数の前記第１要約データに基づいて、複数の前記第１要約データのサンプル数より多いサンプル数のデータであって、前記モデルの学習に用いる複数の第２学習データを生成するステップと、
を実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態は、情報処理装置、情報処理方法およびプログラムに関する。

【背景技術】

【0002】

機械学習モデルを新たな学習データで再学習するとき、過去に学習された知識を忘却する破滅的忘却が生じる場合がある。破滅的忘却への対策としては、過去の学習データを記憶しておき、再学習時に新たな学習データとともに過去の学習データを学習に用いる方法がある。

【0003】

このような方法では、学習データの大規模化、および、再学習の繰り返し適用によるストレージの圧迫などの問題が生じうる。そこで、学習データにクラスタリングを適用し代表的なデータを選択することで学習データを要約し、要約した学習データを再学習に用いる技術が提案されている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０２２－１５９７２０号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、従来技術では、学習を高精度に実行できない場合があった。例えば、要約した学習データを用いる技術では、再学習時に学習データのサンプル数が少ないことに起因して過学習に陥るという課題、および、新しい学習データとのインバランスによって破滅的忘却を抑制する効果が薄れるという課題があった。

【0006】

本発明は、より高精度に学習を行う学習データを生成することができる情報処理装置、情報処理方法およびプログラムを提供することを目的とする。

【課題を解決するための手段】

【0007】

実施形態の情報処理装置は、処理部を備える。処理部は、モデルの学習に用いられた複数の第１学習データに基づいて、複数の第１学習データのサンプル数より少ないサンプル数のデータであって、複数の第１学習データの要約を表す複数の第１要約データを生成する要約処理を実行する。処理部は、複数の第１要約データに基づいて、複数の第１要約データのサンプル数より多いサンプル数のデータであって、モデルの学習に用いる複数の第２学習データを生成する。

【図面の簡単な説明】

【0008】

【図1】第１の実施形態の情報処理装置のブロック図。

【図2】データセットの一例を示す図。

【図3】代表データの一例を示す図。

【図4】コアデータの一例を示す図。

【図5】第１の実施形態の情報処理のフローチャート。

【図6】第１の実施形態の要約処理のフローチャート。

【図7】第１の実施形態の生成処理のフローチャート。

【図8】変形例１における設定処理のフローチャート。

【図9】第２の実施形態の情報処理装置のブロック図。

【図10】第２の実施形態の要約処理のフローチャート。

【図11】第２の実施形態の生成処理のフローチャート。

【図12】実施形態の情報処理装置のハードウェア構成図。

【発明を実施するための形態】

【0009】

以下に添付図面を参照して、この発明にかかる情報処理装置の好適な実施形態を詳細に説明する。

【0010】

（第１の実施形態）
第１の実施形態の情報処理装置は、学習データに対するクラスタリングにより生成される複数の要約データに対して、複製およびノイズ付与などによるデータ生成処理を実行し、要約データよりサンプル数が多い学習データを生成する。これにより、上記のような過学習および破滅的忘却の抑制効果が薄れるという問題を解消可能となる。サンプル数とは、データの個数を表す。従って、要約データよりサンプル数が多い学習データとは、要約データの個数より、学習データの個数が多いことを意味する。個々の学習データが、複数の要素（変数など）を含む場合がある。この場合、要素の個数は次元数という。サンプル数（データの個数）を変えずに、次元数を減らすことを次元の圧縮といい、次元数を増やすことを次元の復元という。

【0011】

また、本実施形態では、クラスタリングの前に学習データの次元圧縮を行う。これにより、記憶する学習データ（要約データ）のデータサイズをより削減することができる。

【0012】

図１は、第１の実施形態の情報処理装置１００の構成の一例を示すブロック図である。図１に示すように、情報処理装置１００は、記憶部１５０と、要約部１１０と、データ生成部１２０と、学習部１３１と、評価部１３２と、出力制御部１３３と、を備える。

【0013】

なお、要約部１１０は、学習に用いた既存のデータセットを少ないサイズのデータ（要約データ）に要約する機能に相当する。また、データ生成部１２０は、要約データから再学習のための学習データを生成する機能に相当する。また、学習部１３１は、機械学習モデルを学習する機能に相当する。

【0014】

記憶部１５０は、情報処理装置１００で用いられる各種データを記憶する。例えば記憶部１５０は、以下のデータを記憶する。
（１）モデルＭ：学習の対象となる機械学習モデルを示すデータ。このデータは、例えば、モデルＭの構造を表すデータ、および、モデルＭのパラメータである。
（２）圧縮・復元モデルＤＲＭ：次元の圧縮および圧縮した次元を復元するモデルを示すデータ。このデータは、例えば、圧縮・復元モデルＤＲＭの構造を表すデータ、および、圧縮・復元モデルＤＲＭのパラメータである。
（３）データセットＤ１：過去に学習に用いられた複数の学習データ（第１学習データ）を含むデータセット。データセットＤ１が要約の対象となる。
（４）圧縮データセットＤ２：データセットＤ１に含まれる複数の学習データの次元を圧縮した複数の学習データを含むデータセット。
（５）クラスタリング結果Ｃ：圧縮データセットＤ２をクラスタリングした結果を示すデータ。
（６）代表データＲＤ：圧縮データセットＤ２に含まれる複数の学習データを代表する１つ以上のデータ。代表データＲＤは、データセットＤ１に含まれる複数の学習データのサンプル数より少ないサンプル数のデータであって、複数の学習データの要約を表す複数の要約データＳＤ＿Ａ（第２要約データ）に相当する。
（７）コアデータＣＤ：代表データＲＤよりさらに少ないサンプル数となるように代表データＲＤを分解して得られるデータ。コアデータＣＤは、複数の要約データＳＤ＿Ａのサンプル数より少ないサンプル数のデータであって、複数の学習データの要約を表す複数の要約データＳＤ＿Ｂ（第１要約データ）に相当する。コアデータＣＤは、データセットＤ１に含まれる複数の学習データを要約した複数の要約データＳＤ＿Ａをさらに要約したデータであるため、データセットＤ１に含まれる複数の学習データを要約した複数の要約データであると解釈することもできる。
（８）近似関数Ｆ：コアデータＣＤから代表データＲＤの近似データＡＰを求めるための関数。
（９）近似データＡＰ：コアデータＣＤと近似関数Ｆとにより求められる代表データＲＤを近似するデータ。
（１０）生成データＧＤ：近似データＡＰに基づいて生成されるデータ。例えば、生成データＧＤは、近似データＡＰの複製およびノイズの付与などにより生成される。
（１１）復元データＲＥＣ：生成データＧＤをデータセットＤ１と同じ次元数に復元したデータ。
（１２）データセットＤＮ：モデルＭの再学習のために新たに用意される複数の学習データ。モデルＭの再学習時には、例えばデータセットＤＮと、復元データＲＥＣと、が学習データとして用いられる。

【0015】

図２は、データセットＤ１の一例を示す図である。図２に示すように、データセットＤ１は、Ｎ０個（Ｎ０は１以上の整数）の学習データである学習データＤ＿１～Ｄ＿Ｎ０を含む。各学習データは、ｄ０個（ｄ０は１以上の整数）の変数である変数Ｐ＿１～Ｐ＿ｄ０を含む。図２の例では、データセットＤ１に含まれる複数の学習データのサンプル数はＮ０であり、各学習データの次元数はｄ０である。

【0016】

図２では、変数名を表すヘッダ行と学習データの識別情報を表すインデックス列とが表されているが、これらは無くても構わない。変数の値は数値に限られない。なお、データセットＤＮも、図２のデータセットＤ１と同様のデータ構造とすることができる。

【0017】

なお、図２では各学習データが各行に対応する表形式のデータとしてデータセットＤ１が表現されているが、データセットＤ１の形式はこれに限られない。各学習データは、どのような形式のデータであってもよい。例えば学習データは、画像、音声、および、テキストデータであってもよいし、これらの形式のデータから抽出された特徴量を示すデータであってもよい。

【0018】

圧縮データセットＤ２は、データセットＤ１に含まれる各学習データの次元数ｄ０をｄ（ｄは１≦ｄ＜ｄ０を満たす整数）に圧縮したデータセットである。圧縮データセットＤ２に含まれる学習データのサンプル数はＮ０である。

【0019】

次元圧縮後の次元数ｄは、予め定められてもよいし、ユーザ等による指定に応じて設定されてもよいし、変形例１（後述）のように繰り返し処理などで決定されてもよい。

【0020】

代表データＲＤは、圧縮データセットＤ２から生成される、サンプル数Ｎ１（Ｎ１は１≦Ｎ１＜Ｎ０を満たす整数）のデータである。図３は、代表データＲＤの一例を示す図である。図３は、Ｎ１個の代表データＲＤである代表データ３０１－１～３０１－Ｎ１を行列形式で表現した例である。図３では、各列が、１つの代表データＲＤに相当する。各代表データＲＤの次元数はｄである。なお、代表データＲＤからコアデータＣＤを生成する分解部１１４（後述）には、列単位ではなく、行単位のデータが入力される。すなわち、分解部１１４（後述）には、図３のような行列形式のデータの各行に相当するｄ個のデータ３０２－１～３０２－ｄが入力される。

【0021】

図４は、図３のような代表データＲＤを分解して得られるコアデータＣＤの一例を示す図である。コアデータＣＤのサンプル数Ｎ２は、代表データＲＤのサンプル数Ｎ１より小さい（１≦Ｎ２＜Ｎ１）。図４は、Ｎ２個のコアデータＣＤであるコアデータ４０１－１～４０１－Ｎ２を行列形式で表現した例である。図４では、各列が、１つのコアデータＣＤに相当する。各コアデータＣＤの次元数はｄである。分解部１１４（後述）は、図３のｄ個のデータ３０２－１～３０２－ｄを入力し、ｄ個のデータ４０２－１～４０２－ｄを出力するように構成される。

【0022】

なお、記憶部１５０は、フラッシュメモリ、メモリカード、ＲＡＭ（Random Access Memory）、ＨＤＤ（Hard Disk Drive）、および、光ディスクなどの一般的に利用されているあらゆる記憶媒体により構成することができる。

【0023】

記憶部１５０は、物理的に異なる複数の記憶媒体で実現されてもよいし、物理的に同一の記憶媒体の複数の記憶領域で実現されてもよい。例えば記憶部１５０に記憶された各データの一部または全部は、複数の記憶媒体または複数の記憶領域に分散して記憶されてもよい。

【0024】

要約部１１０は、データセットＤ１に基づいて、データセットＤ１に含まれる複数の学習データのサンプル数より少ないサンプル数のデータであって、複数の学習データの要約を表す複数の要約データを生成する要約処理を実行する。例えばコアデータＣＤが要約データに相当するが、変形例３で後述するように、代表データＲＤが要約データとなるように構成することもできる。

【0025】

要約部１１０は、圧縮部１１１、クラスタリング部１１２、代表生成部１１３、および、分解部１１４を備える。

【0026】

圧縮部１１１は、データセットＤ１に含まれる複数の学習データの次元を圧縮した複数の学習データを含む圧縮データセットＤ２を生成する。例えば圧縮部１１１は、記憶部１５０からデータセットＤ１を読み出し、圧縮・復元モデルＤＲＭを用いてデータセットＤ１の次元を圧縮した圧縮データセットＤ２を生成する。圧縮・復元モデルＤＲＭは、学習済の既存の圧縮・復元モデルであってもよいし、新たに学習して生成されてもよい。新たに圧縮・復元モデルＤＲＭを学習した場合は、圧縮部１１１は、学習した圧縮・復元モデルＤＲＭを記憶部１５０に記憶する。圧縮部１１１は、圧縮・復元モデルＤＲＭのうち、復元部１２２による次元の復元処理に用いる部分（次元復元機能）を復元モデルＤＥＣとして記憶部１５０に記憶してもよい。

【0027】

圧縮・復元モデルＤＲＭは、例えば行列分解を用いたモデルでもよいし、オートエンコーダであってもよい。圧縮・復元モデルＤＲＭは、要約対象のデータセットＤ１を学習させたモデルであることが望ましい。例えば、再学習する対象のモデルＭが、異常検知を目的としたオートエンコーダであったとする。このような場合、モデルＭのオートエンコーダを、圧縮・復元モデルＤＲＭとしても利用することができる。すなわち、既にデータセットＤ１により学習されているモデルＭは、圧縮・復元モデルＤＲＭとしても利用することができる。

【0028】

既存の圧縮・復元モデルＤＲＭが存在しなければ、例えば圧縮部１１１は、データセットＤ１を用いて新たに圧縮・復元モデルＤＲＭを学習すればよい。圧縮部１１１は、行列分解またはオートエンコーダなどによる圧縮・復元モデルＤＲＭを、何らかのアルゴリズムによりデータセットＤ１を用いて学習する。

【0029】

新たに圧縮・復元モデルＤＲＭが学習された場合、後に使用するために、圧縮部１１１は、圧縮・復元モデルＤＲＭのうち次元復元のための機能に関する部分のデータに相当する復元モデルＤＥＣを記憶部１５０に記憶する。例えば、圧縮・復元モデルＤＲＭがオートエンコーダであれば、圧縮部１１１は、デコーダの部分を記憶する。

【0030】

クラスタリング部１１２は、圧縮データセットＤ２をクラスタリングする。例えばクラスタリング部１１２は、圧縮データセットＤ２に含まれる複数の学習データそれぞれを複数のクラスタのいずれかに分類する。クラスタリング部１１２は、クラスタリングの結果を、クラスタリング結果Ｃとして記憶部１５０に記憶する。クラスタリング結果Ｃは、例えば、複数のクラスタを識別する識別情報（クラスタ番号など）と、各クラスタにいずれの学習データが分類されたかを示す情報と、を含む。例えばクラスタリング結果Ｃには、圧縮データセットＤ２に含まれる学習データの順に、分類されたクラスタのクラスタ番号が設定される。

【0031】

代表生成部１１３は、クラスタリング結果Ｃに基づいて代表データＲＤを生成する。例えば代表生成部１１３は、複数のクラスタの少なくとも一部について、当該クラスタに含まれる学習データを代表する１つ以上の代表データＲＤを生成する。

【0032】

代表データＲＤは、例えば、以下のようなデータとして生成することができる。
・クラスタの重心を示すデータ
・クラスタの重心を示すデータに対する距離または類似度に関する尺度に基づいて選択される学習データ

【0033】

分解部１１４は、代表生成部１１３が出力した複数の代表データＲＤを、より少ないサンプル数の複数のコアデータＣＤと、近似関数Ｆと、に分解する。近似関数Ｆは、コアデータＣＤから、代表データＲＤを近似した近似データＡＰを求めるために用いられる。近似関数Ｆの入力は、例えば、のちの例に示すように、複数のコアデータＣＤから特定の変数を抽出して並べた１つのベクトルである。このとき、近似関数Ｆの出力は、例えば、近似関数Ｆの入力を構成する際にコアデータＣＤから抽出した変数に対応する変数を、代表データＲＤから抽出して並べた１つのベクトルを近似したデータである。分解部１１４は、複数のコアデータＣＤと近似関数Ｆとを、記憶部１５０に記憶する。コアデータＣＤは、要約部１１０が出力する要約データに相当する。

【0034】

データ生成部１２０は、要約部１１０（分解部１１４）により記憶部１５０に記憶された複数の要約データ（コアデータＣＤ）に基づいて、モデルＭの学習に用いる複数の生成データＧＤを生成する。データ生成部１２０は、近似部１２１および復元部１２２を備える。

【0035】

近似部１２１は、要約データ（コアデータＣＤ）と近似関数Ｆとを用いて代表データＲＤの近似データＡＰを生成する。例えば近似部１２１は、記憶部１５０から複数のコアデータＣＤと近似関数Ｆとを読み出し、複数のコアデータＣＤを近似関数Ｆに入力して得られる複数の近似データＡＰを生成する。

【0036】

データ生成部１２０は、近似部１２１により生成された複数の近似データＡＰに対して、複製、ノイズの付与、または、類似するデータの生成、のうちいずれか１つ以上の処理を適用して複数の生成データＧＤを生成する。

【0037】

復元部１２２は、生成データＧＤに含まれる複数の生成データそれぞれの次元を、データセットＤ１に含まれる複数の学習データと同じ次元数に復元した複数の復元データＲＥＣを生成する。例えば復元部１２２は、既存の圧縮・復元モデルＤＲＭ、または、記憶部１５０に記憶された復元モデルを用いて、生成データＧＤを、データセットＤ１と同じ次元数の復元データＲＥＣに復元する。復元データＲＥＣは、代表データＲＤのサンプル数より多いサンプル数のデータであって、モデルＭの学習に用いる複数の学習データ（第２学習データ）に相当する。

【0038】

学習部１３１は、モデルＭを学習する。例えば学習部１３１は、復元データＲＥＣと、データセットＤＮと、を用いてモデルＭに対する再学習を実行する。

【0039】

評価部１３２は、各部の処理を評価する構成部であり、評価結果が予め定められた条件を満たすまで要約処理等を繰り返す場合（後述する変形例１）に用いられる。例えば評価部１３２は、データセットＤ１に含まれる複数の学習データのデータサイズに対する、要約部１１０により生成された複数の要約データのデータサイズの割合を表す圧縮率を算出する。この場合、例えば要約部１１０は、圧縮率が予め定められた条件を満たすまで、要約処理の設定を変更しながら要約処理を繰り返し実行する。

【0040】

出力制御部１３３は、情報処理装置１００による各種データの出力を制御する。例えば出力制御部１３３は、学習（再学習）により得られたモデルＭを、モデルＭを利用する外部の情報処理装置等に出力する。

【0041】

上記各部（要約部１１０、データ生成部１２０、学習部１３１、評価部１３２、および、出力制御部１３３）の少なくとも一部は、１つの処理部により実現されてもよい。上記各部は、例えば、１または複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵ（Central Processing Unit）などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣ（Integrated Circuit）などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２つ以上を実現してもよい。

【0042】

次に、第１の実施形態の情報処理装置１００による情報処理について説明する。図５は、第１の実施形態における情報処理の全体の流れの例を示すフローチャートである。

【0043】

図５の情報処理は、モデルＭをデータセットＤ１で学習した後に、新しいデータセットＤＮで再学習する際の破滅的忘却を抑制するために、学習に用いたデータセットＤ１を要約して記憶しておく状況に適用できる。

【0044】

要約部１１０は、学習データの要約処理を実行する（ステップＳ１０１）。例えば、要約部１１０は、学習部１３１によるモデルＭの学習に用いられた複数の学習データを含むデータセットＤ１を対象として、要約処理を実行し、複数のコアデータＣＤを複数の要約データとして生成する。

【0045】

データ生成部１２０は、次にモデルＭを再学習するときに用いる学習データの生成処理を実行する（ステップＳ１０２）。例えば、データ生成部１２０は、複数のコアデータＣＤと近似関数Ｆとから得られる複数の近似データＡＰを用いて複数の生成データＧＤを生成する。その後、データ生成部１２０は、生成データＧＤの次元を復元し、データセットＤ１と同じ次元数の復元データＲＥＣを生成する。

【0046】

学習部１３１は、複数の復元データＲＥＣと、新たな学習データを含むデータセットＤＮと、を用いて、モデルＭを再学習する（ステップＳ１０３）。

【0047】

なお、ステップＳ１０１の要約処理は、モデルＭをデータセットＤ１で学習した後であればどのようなタイミングで実行されてもよいが、例えば、モデルＭをデータセットＤ１で学習した直後に行われる。また、ステップＳ１０２、Ｓ１０３は、ステップＳ１０１の要約処理に続けて実行される必要はなく、例えば、新しいデータセットＤＮによりモデルＭを再学習するタイミングで実行されればよい。

【0048】

次に、図５のステップＳ１０１の要約処理の詳細についてさらに説明する。図６は、要約処理の一例を示すフローチャートである。

【0049】

圧縮部１１１は、データセットＤ１に含まれる複数の学習データそれぞれの次元を圧縮し、圧縮後の複数のデータを圧縮データセットＤ２として記憶部１５０に記憶する（ステップＳ２０１）。例えば、圧縮部１１１は、要約対象のデータセットＤ１を記憶部１５０から読み出す。既存の圧縮・復元モデルＤＲＭが存在する場合、圧縮部１１１は、その圧縮・復元モデルＤＲＭを記憶部１５０から読み出す。

【0050】

圧縮部１１１は、読み出した圧縮・復元モデルＤＲＭの次元圧縮機能を用いて、データセットＤ１に含まれる複数の学習データそれぞれを次元圧縮して圧縮データセットＤ２を生成し、記憶部１５０に記憶する。例えば圧縮・復元モデルＤＲＭがオートエンコーダであれば、圧縮部１１１は、エンコーダ部分を用いてデータセットＤ１の複数の学習データそれぞれをエンコードする。この処理は、オートエンコーダに各学習データを入力したときの、オートエンコーダの中間層の出力を抽出することで実現できる。オートエンコーダの中間層のユニット数を、データセットＤ１の各学習データの次元数よりも小さくすることにより、次元圧縮が実現できる。

【0051】

図６のフローチャートに戻る。クラスタリング部１１２は、圧縮データセットＤ２をクラスタリングする（ステップＳ２０２）。例えばクラスタリング部１１２は、圧縮データセットＤ２を記憶部１５０から読み出し、圧縮データセットＤ２に含まれる複数の学習データをｋ個（ｋは２以上の整数）のクラスタに分割する。

【0052】

クラスタリングはどのような手法で実行されてもよいが、例えば、ｋ‐ｍｅａｎｓ法、および、行列分解を用いる方法などを適用できる。また、階層構造を有するクラスタリング結果を出力する手法が適用されてもよい。複数のクラスタリング手法を適用し、複数のクラスタリング手法それぞれの結果を組み合わせてもよい。

【0053】

クラスタ数ｋは、予め定められてもよいし、ユーザ等による指定に応じて設定されてもよいし、変形例１（後述）のように繰り返し処理などで決定されてもよい。

【0054】

図６のフローチャートに戻る。代表生成部１１３は、クラスタリング結果Ｃに基づき代表データＲＤを生成し、記憶部１５０に記憶する（ステップＳ２０３）。

【0055】

例えば、代表生成部１１３は、まず圧縮データセットＤ２およびクラスタリング結果Ｃを記憶部１５０から読み出す。代表生成部１１３は、クラスタリング結果Ｃに含まれる１つ以上のクラスタを選択する。代表生成部１１３は、すべてのクラスタを選択してもよい。代表生成部１１３は、選択したクラスタそれぞれから１つ以上の代表データＲＤを生成する。

【0056】

例えば、代表生成部１１３は、クラスタそれぞれのクラスタ重心を算出し、クラスタ重心を代表データＲＤとして生成する。クラスタ重心は、そのクラスタに属する学習データそれぞれを多次元ベクトルととらえたとき、それらの多次元ベクトルの重心の点に対応するデータである。

【0057】

代表生成部１１３は、選択したクラスタそれぞれについて、クラスタの重心を示すデータに対する距離または類似度に関する尺度に基づいて、該当するクラスタに属する学習データから１つ以上の学習データを選択し、選択した学習データを代表データＲＤとして生成してもよい。

【0058】

クラスタ重心からの距離は、例えば、ユークリッド距離であってもよいし、マンハッタン距離であってもよいし、これら以外のどのような距離尺度であってもよい。クラスタ重心に対する類似度は、例えば、コサイン類似度などのどのような類似度の尺度であってもよい。

【0059】

クラスタ重心からの距離に基づいて代表データＲＤを選択するとき、代表生成部１１３は、例えば以下のような選択方法を用いることができる。
（Ｍ１）クラスタ重心に近い順に１つ以上の学習データを選択する。
（Ｍ２）クラスタ重心に遠い順に１つ以上の学習データを選択する。
（Ｍ３）クラスタ重心からの距離に基づいて学習データを順位づけして、１つ以上の特定の順位に該当する学習データを選択する（例えば、上位１０％から１つ、上位２０％から１つ・・・というように選択する）。
（Ｍ４）クラスタ重心からの距離または類似度に関する尺度が閾値以下または閾値以上となる１つ以上の学習データを選択する。

【0060】

クラスタから生成（学習データを選択することを含む）する代表データＲＤの数は、予め定められてもよいし、ユーザ等による指定に応じて設定されてもよいし、変形例１（後述）のように繰り返し処理などで決定されてもよい。

【0061】

複数のクラスタからそれぞれ代表データＲＤを生成する場合、クラスタのそれぞれで生成する代表データＲＤの数は、均等（同じサンプル数）とされてもよい。この場合、データ生成部１２０により生成される生成データＧＤの分布と、圧縮データセットＤ２に含まれる学習データの分布との差は大きく成りうるが、データ生成部１２０により、様々な性質のデータをより均等に生成することが可能となる。

【0062】

クラスタのそれぞれで生成する代表データＲＤの数は、複数のクラスタそれぞれに分類された複数の学習データの属性に応じて決定されてもよい。属性は、例えば、各クラスタに属する複数の学習データのサンプル数、または、複数の学習データの多様性を示す指標である。多様性を示す指標は、例えば、学習データに含まれる複数の変数ごとの標準偏差などである。この場合、圧縮データセットＤ２のデータ分布により近い分布の生成データＧＤをデータ生成部１２０により生成すること、および、より多様なデータが含まれるクラスタにより多くの代表データＲＤを割り当てること、が可能となる。

【0063】

代表生成部１１３は、生成した代表データＲＤを記憶部１５０に記憶するときに、例えばクラスタごとに、クラスタに含まれる学習データの各変数の標準偏差のデータＳＴＤを記憶してもよい。データＳＴＤは、例えば、データ生成部１２０によるノイズ付与の処理で使用することができる。データＳＴＤは、クラスタリング部１１２により記憶部１５０に記憶されてもよい。

【0064】

図６のフローチャートに戻る。分解部１１４は、代表データＲＤをコアデータＣＤと近似関数Ｆとに分解する（ステップＳ２０４）。

【0065】

例えば分解部１１４は、代表データＲＤを記憶部１５０から読み出す。分解部１１４は、Ｎ１件の代表データＲＤ（例えば図３）を、Ｎ１より少ないＮ２件のコアデータＣＤ（例えば図４）と、コアデータＣＤを入力とする近似関数Ｆで表現する。分解部１１４は、例えば、オートエンコーダまたは行列分解を用いて、代表データＲＤの分解を実現することができる。

【0066】

まず、オートエンコーダでの実現方法を説明する。次元数ｄのＮ１件の代表データＲＤが得られた場合、分解部１１４は、この代表データＲＤを、図３に示すようなｄ×Ｎ１の行列で表現する。分解部１１４は、例えば図３の行列の各行に相当する、ｄ件のＮ１次元のベクトルをそれぞれ入力し、Ｎ２次元のベクトルを出力するようにオートエンコーダを学習する。

【0067】

分解部１１４は、複数の代表データＲＤを示す行列（例えば図３）のすべての行に対して、各行に相当するベクトルを学習済のオートエンコーダに入力し、各行に該当する中間層の出力を抽出し、得られた結果の集合をＮ２件のコアデータＣＤとして記憶する。Ｎ２件のコアデータＣＤは、例えば図４のように、行方向が変数に対応し、列方向が個々のコアデータに対応する行列形式とする。オートエンコーダの中間層のユニット数Ｎ２（図４の列数に対応）をＮ１よりも小さくすれば、複数の代表データＲＤを、より少ないサンプル数のコアデータＣＤで表現できたことになる。分解部１１４は、学習したオートエンコーダのデコーダ部分を近似関数Ｆとして記憶部１５０に記憶する。

【0068】

オートエンコーダでの実現方法では、コアデータＣＤのサンプル数Ｎ２は、コアデータＣＤの集合を示す行列（例えば図４）の列数であり、オートエンコーダの中間層のユニット数に対応する。Ｎ２は、予め定められてもよいし、ユーザ等による指定に応じて設定されてもよいし、変形例１（後述）のように繰り返し処理などで決定されてもよい。

【0069】

このとき、データをより圧縮するという目的から、コアデータＣＤおよび近似関数Ｆの記憶データサイズが、代表データＲＤの記憶データサイズよりも小さくなるようにＮ２を決定することが望ましい。Ｎ２は、例えば以下の方法により決定することができる。
・コアデータＣＤの要素数およびオートエンコーダのデコーダ部分のパラメータ数などの合計と、代表データＲＤの要素数とを比較して、前者が小さくなるようにＮ２を決定する。
・Ｎ２を変更しながら複数回処理を行い、コアデータＣＤと近似関数Ｆの記憶データサイズが代表データＲＤの記憶データサイズよりも小さくなるようなＮ２を選択する。

【0070】

次に、行列分解を用いる実現方法の例を説明する。以下では、行列分解として特異値分解（singular value decomposition：ＳＶＤ）を用いる例を説明する。次元数ｄのＮ１件の代表データＲＤが得られた場合、分解部１１４は、この代表データＲＤを、（図３とは異なり）Ｎ１×ｄの行列で表現する。以下、この行列をＸ_ｓとする。分解部１１４は、行列Ｘ_ｓに特異値分解を適用し、以下の（１）式に示すように、行列Ｘ_ｓを行列Ｕ、ＶおよびΣに分解する。
Ｘ_ｓ＝ＵΣＶ・・・（１）

【0071】

ＵおよびＶはそれぞれＮ１×Ｎ１およびｄ×ｄの行列である。Σは、以下の（２）式で表される、ｉ番目の対角成分（第ｉ行ｉ列目）に第ｉ番目の特異値σ_ｉを持ち、他の要素が０であるＮ１×ｄの行列である。

【数1】

【0072】

ここで、σ_１≧σ_２≧・・・≧σ_ｒであるとする。ＵおよびＶの各要素も、この不等式に応じた並びになっているものとする。分解部１１４は、行列Ｘ_ｓを、以下の（３）式に示すように行列Ｕ′、Σ′およびＶ′で近似する。
Ｘ_ｓ≒Ｕ′Σ′Ｖ′・・・（３）

【0073】

Σ′は、、特異値を大きい順にＮ２番目まで選び、対角成分に順に並べ、他の要素を０としたＮ２×Ｎ２行列である。Ｕ′は、Ｕの左からＮ２番目までの列を取り出したＮ１×Ｎ２行列である。Ｖ′は、Ｖの上からＮ２番目までの行を取り出したＮ２×ｄ行列である。

【0074】

例えばＶ′がコアデータＣＤに相当し、Ｕ′およびΣ′が近似関数Ｆに相当すると解釈することができる。コアデータＣＤ（Ｖ′）および近似関数Ｆ（Ｕ′およびΣ′）の記憶データサイズが、代表データＲＤの記憶データサイズよりも小さくなるようにＮ２を定めれば、特異値分解に基づくデータの圧縮が可能となる。

【0075】

Ｕ′、Σ′およびＶ′のうち、コアデータＣＤおよび近似関数Ｆと解釈する行列のパターンは、上記に限られず、いずれの行列をコアデータＣＤおよび近似関数Ｆと解釈してもよい。例えば、Σ′Ｖ′をコアデータＣＤ、Ｕ′を近似関数Ｆと解釈してもよい。

【0076】

行列の積に相当するコアデータＣＤ（例えば、Σ′Ｖ′）または近似関数Ｆ（例えば、Ｕ′Σ′）を記憶するとき、行列の積を算出した結果が記憶されてもよいし、積を算出せずに、各行列（例えば、Ｕ′、Σ′、Ｖ′）が個別に記憶されてもよい。行列を個別に記憶する場合は、Σ′は対角成分以外は０となるため、対角成分の値のみを記憶しておくと効率がよい。なお、３つの行列の積であるＵ′Σ′Ｖ′の形式で記憶すると行列の行数および列数が代表データＲＤと変わらないため、圧縮の意味がなくなることに注意が必要である。

【0077】

Ｎ２はデータの圧縮が可能となるように選択する必要がある。例えば、コアデータＣＤおよび近似関数Ｆの要素数の合計と、代表データＲＤの要素数とを比較して、前者が小さくなるようにＮ２が決定される。

【0078】

Ｎ２の設定と、要素数の比較の例について説明する。例えば、Ｎ１＝１００、ｄ＝５０とすると、代表データＲＤは、Ｎ１×ｄ＝１００×５０＝５，０００の要素を持つ行列である。Ｎ２を例えば１０に設定すると、コアデータＣＤであるＶ′の要素数はＮ２×ｄ＝１０×５０＝５００、近似関数ＦであるＵ′Σ′の要素数はＮ１×Ｎ２＝１００×１０＝１，０００となる。従って、コアデータＣＤと近似関数Ｆの要素数の合計は１，５００となり、代表データＲＤよりも少ないデータで近似されたことになる。

【0079】

一方、例えばＮ２＝５０などに設定すると、コアデータＣＤであるＶ′の要素数はＮ２×ｄ＝５０×５０＝２，５００、近似関数ＦであるＵ′Σ′の要素数はＮ１×Ｎ２＝１００×５０＝５，０００となる。従って、コアデータＣＤと近似関数Ｆの要素数の合計は７，５００となり、代表データＲＤの要素数よりも多くなる。

【0080】

ここで、クラスタリング部１１２または代表生成部１１３が、例えばクラスタごとに、クラスタに含まれる学習データの各変数の標準偏差のデータＳＴＤを記憶した場合は、分解部１１４は、代表データＲＤと同様にオートエンコーダまたは行列分解によって、データＳＴＤをコアデータＣＤ２と近似関数Ｆ２に分解してもよい。

【0081】

図６のフローチャートに戻る。要約部１１０は、必要に応じて、データセットＤ１、圧縮データセットＤ２、クラスタリング結果Ｃ、および、代表データＲＤを記憶部１５０から削除する（ステップＳ２０５）。このような削除処理により、記憶するデータのサイズを削減できる。なお、データ生成部１２０による生成処理などで使用される以下のようなデータは、削除せずに記憶部１５０に残される。
・コアデータＣＤ
・近似関数Ｆ
・復元モデルＤＥＣ

【0082】

クラスタリング部１１２または代表生成部１１３により標準偏差のデータＳＴＤが記憶され、さらにコアデータＣＤ２と近似関数Ｆ２に分解された場合は、要約部１１０は、データＳＴＤを削除してコアデータＣＤ２と近似関数Ｆ２を記憶部１５０に残せばよい。クラスタリング部１１２または代表生成部１１３により標準偏差のデータＳＴＤが記憶され、データＳＴＤが分解されない場合は、要約部１１０は、データＳＴＤをそのまま記憶部１５０に残せばよい。

【0083】

次に、図５のステップＳ１０２の生成処理の詳細についてさらに説明する。図７は、生成処理の一例を示すフローチャートである。

【0084】

近似部１２１は、コアデータＣＤと近似関数Ｆとを用いて、代表データＲＤの近似データＡＰを生成する（ステップＳ３０１）。近似部１２１は、生成した近似データＡＰを記憶部１５０に記憶する。

【0085】

例えば近似部１２１は、コアデータＣＤと近似関数Ｆとを記憶部１５０から読み出し、読み出したコアデータＣＤと近似関数Ｆとを用いて、代表データＲＤの近似データＡＰを生成する。例えば近似関数Ｆがオートエンコーダのデコーダ部分の場合、近似部１２１は、このデコーダ部分に、複数のコアデータＣＤの集合を示す行列の各行を入力し、デコーダの出力を近似データＡＰとして生成する。

【0086】

例えば、コアデータＣＤの集合を示す行列は、図４に示すように、行方向が変数に対応し、列方向が個々のコアデータＣＤに対応する形式である。近似部１２１は、この行列のすべての行について、各行を入力して得られたデコーダの出力を各行に持つ行列を生成する。生成された行列を転置することにより、各行が、個々の近似データＡＰに対応する行列に変換することができる。

【0087】

図７のフローチャートに戻る。データ生成部１２０は、近似データＡＰに対して、複製、ノイズの付与、または、類似するデータの生成、のうちいずれか１つ以上の処理を適用して生成データＧＤを生成する（ステップＳ３０２）。データ生成部１２０は、生成データＧＤを記憶部１５０に記憶する。

【0088】

例えばデータ生成部１２０は、まず、近似データＡＰを記憶部１５０から読み出す。データ生成部１２０は、読み出した複数の近似データＡＰそれぞれに対して、複製、ノイズの付与、または、類似するデータの生成、のうちいずれか１つ以上の処理を適用して１つ以上の生成データＧＤを生成する。

【0089】

データ生成部１２０は、再学習の際に使用する新しいデータセットＤＮに含まれる学習データのサンプル数に基づいて、近似データＡＰそれぞれに対して生成する生成データＧＤのサンプル数を決定してもよい。例えば生成データＧＤの総数が、新しいデータセットＤＮに含まれる学習データのサンプル数とほぼ同等になるようにサンプル数を決定すれば、新しいデータセットＤＮの学習データと、データセットＤ１を元に得られた学習データ（生成データＧＤ）とを、再学習のための学習データとしてバランスよく用意することができる。

【0090】

また、例えば、データ生成部１２０は、データセットＤ１に含まれる学習データのサンプル数に基づいて、近似データＡＰそれぞれに対して生成する生成データＧＤのサンプル数を決定してもよい。そのほか、データ生成部１２０は、例えば、近似データＡＰそれぞれに対して、対応する代表データＲＤが生成されるもととなったクラスタに含まれていたデータのサンプル数や標準偏差などに応じて、近似データＡＰそれぞれに対して生成する生成データＧＤのサンプル数を決定してもよい。

【0091】

データ生成部１２０は、近似データＡＰ、または、近似データＡＰを複製した複製データに対して、ノイズを付与して生成データＧＤを生成してもよい。ノイズは、例えばガウシアンノイズであるが、その他のどのような種類のノイズであってもよい。ノイズの強さに関わる振幅は、予め定められた値であってもよいし、ユーザの設定に応じて定められた値であってもよい。また、変形例１（後述）のように、データ生成部１２０は、圧縮処理の段階でノイズの振幅を変えながら繰り返し生成処理を行うことで適切なノイズの振幅を求めておき、その値を使用してもよい。

【0092】

データ生成部１２０は、各クラスタに分類された複数の学習データの統計情報に応じたノイズを付与してもよい。統計情報は、例えば、複数の学習データに含まれる１つ以上の変数それぞれの標準偏差である。

【0093】

例えば、クラスタに含まれる学習データの各変数の標準偏差のデータＳＴＤがクラスタごとに記憶部１５０に記憶されている場合、データ生成部１２０は、データＳＴＤを用いてのノイズの振幅を決定してもよい。

【0094】

具体的には、データ生成部１２０は、近似データＡＰ（または、近似データＡＰの複製データ）それぞれに対して、対応するクラスタを求める。例えば、各近似データＡＰが、いずれの代表データＲＤの近似であるか、および、各代表データＲＤがいずれのクラスタから生成されたかを示すデータを記憶しておけば、データ生成部１２０は、このデータを用いて近似データＡＰに対応するクラスタを求めることができる。

【0095】

そしてデータ生成部１２０は、近似データＡＰ（または、近似データＡＰの複製データ）の変数ごとに、対応するクラスタに含まれていた学習データの該当変数の標準偏差が大きいほど、付与するノイズの振幅を大きくする。これにより、各クラスタおよび各変数の値の広がり具合に応じたノイズの振幅の設定が可能となる。ここで、データＳＴＤが、分解部１１４によりコアデータＣＤ２と近似関数Ｆ２に分解されていた場合は、近似データＡＰの生成と同様の方法でコアデータＣＤ２と近似関数Ｆ２からデータＳＴＤの近似データＡＰ２を生成し、近似データＡＰ２をデータＳＴＤとみなして、上述の方法でノイズの振幅を設定することが可能となる。

【0096】

類似するデータの生成は、例えば以下のような処理である。
・１つのクラスタから複数の近似データＡＰが得られる場合、複数の近似データＡＰを重み付け加算したデータを類似するデータとして生成する。
・学習データが画像の場合、画像の上下反転、画像の左右反転、画像の拡大、または、画像の縮小により、類似するデータを生成する。

【0097】

図７のフローチャートに戻る。復元部１２２は、生成された生成データＧＤの次元を復元する（ステップＳ３０３）。

【0098】

例えば復元部１２２は、生成データＧＤを記憶部１５０から読み出す。復元部１２２は、圧縮部１１１が既存の圧縮・復元モデルＤＲＭを利用した場合は圧縮・復元モデルＤＲＭを、圧縮部１１１が新たに圧縮・復元モデルを学習して復元モデルＤＥＣを記憶していた場合は復元モデルＤＥＣを記憶部１５０から読み出す。復元部１２２は、圧縮・復元モデルＤＲＭの次元復元機能、または、復元モデルＤＥＣを用いて、複数の生成データＧＤのそれぞれを、データセットＤ１に含まれる学習データと同じ次元数に復元し、復元データＲＥＣを得る。

【0099】

復元部１２２は、復元データＲＥＣを記憶部１５０に記憶する。記憶部１５０に記憶された復元データＲＥＣは、新しいデータセットＤＮとともに、再学習のための学習データとして利用される。

【0100】

次に、図５のステップＳ１０３の学習部１３１による学習処理の詳細についてさらに説明する。

【0101】

例えば学習部１３１は、再学習の対象となるモデルＭのデータを記憶部１５０から読み出す。また学習部１３１は、新しいデータセットＤＮと、複数の復元データＲＥＣとを、記憶部１５０から読み出す。そして学習部１３１は、新しいデータセットＤＮおよび複数の復元データＲＥＣの両方を用いて、モデルＭを再学習する。学習部１３１は、再学習により得られたモデルＭのデータを記憶部１５０に記憶する。

【0102】

以上のように、本実施形態によれば、データセットＤ１を元に高い圧縮率、かつ、破滅的忘却に対する高い抑制効果を持つ学習データを生成し、再学習に用いることができる。すなわち、より高精度に学習を行う学習データを生成することができる。

【0103】

また、本実施形態では、複数の学習データから代表データを生成するのみでなく、学習データの次元圧縮も行うことができる。このため、クラスタリングによる代表データの生成のみでデータの圧縮率を高めると破滅的忘却を十分に抑制できない場合があるという問題を回避可能となる。

【0104】

なお、破滅的忘却を抑制するための技術として、ＧｅｎｅｒａｔｉｖｅＲｅｐｌａｙ、および、ＥＷＣ（Elastic Weight Consolidation）が提案されている。ＧｅｎｅｒａｔｉｖｅＲｅｐｌａｙは、変分オートエンコーダ（Variational Auto Encoder：ＶＡＥ）、および、敵対的生成ネットワーク（Generative Adversarial Network：ＧＡＮ）などの生成モデルを用いて破滅的忘却を抑制する技術である。ＥＷＣは、再学習の際に正則化を適用することで破滅的忘却を抑制する技術である。

【0105】

ＧｅｎｅｒａｔｉｖｅＲｅｐｌａｙは、生成モデルの学習の制御が難しく適切にデータを生成できないリスクが高い。ＧＡＮは、ＭｏｄｅＣｏｌｌａｐｓｅと呼ばれる、数種類のパターンしかデータを生成できなくなる現象に陥り、破滅的忘却の抑制のために多様なデータを用いることができない可能性がある。変分オートエンコーダは、離散データなどを適切に学習できず、元のデータセットから性質が逸脱したデータが生成される可能性がある。

【0106】

本実施形態を用いれば、これらの欠点を解消可能である。例えば本実施形態は、クラスタリングを用いることで、多様なデータを要約データとして生成して破滅的忘却に用いることができる。また本実施形態は、要約データを元にノイズの付与などにより生成データを生成するため、制御が容易であり元のデータセットから逸脱したデータを生成することを防ぐことができる。

【0107】

ＥＷＣなどの正則化による手法は、正則化の強さを調整することが難しいという問題がある。また、元のデータセットに由来するデータを再学習時に用いないため、破滅的忘却が抑制できているか否かを再学習時に推定することができない。

【0108】

これに対して本実施形態は、元のデータセットに由来するデータを再学習時に用いるため、破滅的忘却が抑制されているか否かを再学習時に推定することが可能である。

【0109】

（変形例１）
次に、評価部１３２を用いる変形例１について説明する。本変形例では、各部の設定について適切な設定値を得るために、評価部１３２により算出される評価値が条件を満たすまで、要約処理および生成処理が繰り返し実行される。

【0110】

まず、以下の２種類の処理済みデータを定義する。
・処理済みデータＭＤ＿Ａ：要約部１１０に含まれるすべての機能またはその一部で処理されたデータ
・処理済みデータＭＤ＿Ｂ：処理済みデータＭＤ＿Ａを、データ生成部１２０に含まれるすべての機能またはその一部で処理したデータ

【0111】

評価部１３２は、以下の圧縮率またはスコアのうち少なくとも一方に基づく評価値を算出する。
・圧縮率：処理済みデータＭＤ＿Ａが、処理前のデータに対してどれほどのデータサイズであるかを表す指標
・スコア：処理済みデータＭＤ＿Ｂを使用して学習または再学習されたモデルＭの性能を表す指標

【0112】

以下では、処理済みデータＭＤ＿Ａは、コアデータＣＤ、近似関数Ｆ、および、復元モデルＤＥＣであるものとする。例えば評価部１３２は、これらの処理済みデータＭＤ＿Ａのデータサイズの合計と、データセットＤ１のデータサイズの比率として、圧縮率を以下の（４）式のように算出する。
圧縮率＝（処理済みデータＭＤ＿Ａのデータサイズの合計）／
（データセットＤ１のデータサイズ）・・・（４）

【0113】

また、以下では、処理済みデータＭＤ＿Ｂは、復元データＲＥＣであるものとする。また、復元データＲＥＣを使用して、モデルＭを再学習して得られたモデルをモデルＭ＿Ｂとする。評価部１３２は、モデルＭ＿Ｂの性能を、例えばデータセットＤ１を使用して評価し、性能を示すスコアを求める。

【0114】

スコアは、例えばデータセットＤ１に対するモデルＭ＿Ｂの推定精度または推定誤差に関する指標である。このスコアは、データセットＤ１に含まれる一部の学習データのみに基づいて算出されてもよい。

【0115】

なお、処理済みデータＭＤ＿Ａの生成のために、要約部１１０に含まれる一部の機能のみが適用される形態も考えられる。例えば、圧縮部１１１のみ、または、圧縮部１１１、クラスタリング部１１２および代表生成部１１３のみが適用される場合がある。このような場合は、処理済みデータＭＤ＿Ｂの生成には、データ生成部１２０に含まれる機能のうち、処理済みデータＭＤ＿Ａの生成に用いられた機能に対応する機能のみを適用すればよい。

【0116】

以下、本変形例による情報処理について説明する。図８は、本変形例における設定処理の全体の流れの例を示すフローチャートである。

【0117】

まず、要約部１１０およびデータ生成部１２０は、処理済みデータＭＤ＿Ａおよび処理済みデータＭＤ＿Ｂを生成する際の、各部の機能の設定を仮決めする（ステップＳ４０１）。設定は、例えば以下のような項目である。これらの設定の一部または全部は、変更可能とされる。
・圧縮部１１１の次元圧縮後の次元数ｄ
・クラスタリング部１１２のクラスタ数ｋおよびクラスタリング方法
・代表生成部１１３が各クラスタから生成する代表データＲＤの数および生成方法
・分解部１１４のコアデータＣＤの数Ｎ２
・データ生成部１２０が生成する生成データＧＤのサンプル数、生成方法、ノイズの振幅およびノイズの設定方法

【0118】

要約部１１０は、仮決めした設定に従い、学習データの要約処理を実行し（ステップＳ４０２）、処理済みデータＭＤ＿Ａを生成する。本ステップは図５のステップＳ１０１と同様であるため、詳細な説明は省略する。

【0119】

データ生成部１２０は、仮決めした設定に基づいて、学習データの生成処理を実行し（ステップＳ４０３）、処理済みデータＭＤ＿Ａから処理済みデータＭＤ＿Ｂを生成する。本ステップは図５のステップＳ１０２と同様であるため、詳細な説明は省略する。

【0120】

評価部１３２は、圧縮率を評価値として算出する（ステップＳ４０４）。評価値としてスコアも用いる場合は、学習部１３１は、処理済みデータＭＤ＿Ｂ（復元データＲＥＣ）を用いた再学習を実行し、評価部１３２は再学習されたモデルＭの性能を表すスコアを算出する。なお、圧縮率だけを評価値として算出する場合は、処理済みデータＭＤ＿Ａのみが必要で処理済みＭＤ＿Ｂは不要であるため、ステップＳ４０３は省略できる。

【0121】

評価部１３２は、算出した評価値が予め定められた条件を満たすか否か判定する（ステップＳ４０５）。例えば評価部１３２は、評価値が閾値より大きい場合、条件を満たすと判定する。この条件は、複数の閾値を用いたり、複数の条件を複合したものであってもよい。例えば、評価部１３２は、圧縮率に対する閾値ＴＨ１とスコアに対する閾値ＴＨ２を設け、圧縮率が閾値ＴＨ１よりも小さく、かつスコアが閾値ＴＨ２よりも大きい場合に条件を満たすと判定してもよい。条件が満たされない場合（ステップＳ４０５：Ｎｏ）、評価部１３２は、ステップＳ４０２およびＳ４０３の繰り返し回数が規定値に達したか否かを判定する（ステップＳ４０６）。
繰り返し回数が規定値に達していない場合（ステップＳ４０６：Ｎｏ）、評価部１３２は、各部の設定を変更し（ステップＳ４０７）、ステップＳ４０２に戻る。

【0122】

評価値の条件が満たされる場合（ステップＳ４０５：Ｙｅｓ）、または、繰り返し回数が規定値に達した場合（ステップＳ４０６：Ｙｅｓ）、評価部１３２は、現在の設定で生成された処理済みデータＭＤ＿Ａを、最終的なコアデータＣＤ、近似関数Ｆ、および、復元モデルＤＥＣとして出力するとともに、現在の設定の設定値を例えば記憶部１５０に記憶する。

【0123】

以降は、設定された設定値を用いて処理が実行される。例えば、データ生成部１２０は、ステップＳ４０８で記憶されたコアデータＣＤ、近似関数Ｆ、復元モデルＤＥＣ、および、設定値を用いて、学習データの生成処理を実行し、復元データＲＥＣを生成する。学習部１３１は、復元データＲＥＣと新しいデータセットＤＮとを用いて、モデルＭを再学習する。

【0124】

本変形例によれば、与えられた条件を満たすような各部の設定を決定することができ、破滅的忘却の抑制効果がより高く、高い圧縮率のデータの要約および復元が可能になる。なお、本変形例を用いない場合、情報処理装置１００は、評価部１３２を備えなくてもよい。

【0125】

（変形例２）
上記実施形態および変形例１では、データセットＤ１を圧縮部１１１によって次元圧縮してからクラスタリングを行っていたが、圧縮部１１１を備えずデータセットＤ１を直接クラスタリング部１１２がクラスタリングする構成であってもよい。この場合、圧縮部１１１に対応する復元部１２２も不要となる。クラスタリング部１１２以降の処理は、圧縮データセットＤ２をデータセットＤ１に置き換えて実行されればよい。

【0126】

本変形例では、データ生成部１２０（近似部１２１）により生成される生成データＧＤがデータセットＤ１と同じ次元数となる。学習部１３１は、復元データＲＥＣの代わりに生成データＧＤを用いて、モデルＭの再学習時を実行する。

【0127】

（変形例３）
上記実施形態および各変形例において、分解部１１４を備えず、コアデータＣＤと近似関数Ｆの代わりに代表データＲＤを要約データとして記憶するとともに、対応する近似部１２１を備えず、データ生成部１２０が代表データＲＤから生成データＧＤを生成するように構成されてもよい。

【0128】

このように、複数の学習データの要約を表す複数の要約データは、コアデータＣＤであってもよいし、代表データＲＤであってもよい。

【0129】

（第２の実施形態）
第２の実施形態の情報処理装置は、第１の実施形態と異なる手法で要約データを生成する。具体的には、本実施形態の情報処理装置は、クラスタリングを実行せず、学習データの分解により要約データを生成する。

【0130】

図９は、第２の実施形態の情報処理装置１００－２の構成の一例を示すブロック図である。図９に示すように、情報処理装置１００－２は、記憶部１５０－２と、要約部１１０－２と、データ生成部１２０－２と、学習部１３１と、評価部１３２と、出力制御部１３３と、を備える。

【0131】

第２の実施形態では、要約部１１０－２とデータ生成部１２０－２の機能、および、記憶部１５０－２に記憶されるデータが、第１の実施形態と異なっている。その他の構成および機能は、第１の実施形態の情報処理装置１００のブロック図である図１と同様であるので、同一符号を付し、ここでの説明は省略する。

【0132】

記憶部１５０－２は、クラスタリング結果Ｃおよび代表データＲＤを記憶しない点が、第１の実施形態の記憶部１５０と異なっている。

【0133】

要約部１１０－２は、圧縮部１１１と、分解部１１４－２と、を備える。すなわち、要約部１１０－２は、クラスタリング部１１２と代表生成部１１３とを備えないこと、および、分解部１１４－２の機能が、第１の実施形態の要約部１１０と異なっている。

【0134】

分解部１１４－２は、代表データＲＤの代わりに、圧縮データセットＤ２に含まれる複数の学習データに対して、複数のコアデータＣＤと近似関数Ｆとに分解する処理を実行する。

【0135】

データ生成部１２０－２は、近似部１２１－２および復元部１２２を備える。データ生成部１２０－２は、近似部１２１－２の機能が、第１の実施形態のデータ生成部１２０と異なっている。

【0136】

近似部１２１－２は、要約データ（コアデータＣＤ）と近似関数Ｆとを用いて学習データの近似データＡＰを生成する。すなわち、第１の実施形態の近似部１２１は代表データＲＤの近似データＡＰを生成するのに対し、本実施形態の近似部１２１－２は、圧縮データセットＤ２に含まれる複数の学習データを近似する複数の近似データＡＰを生成する。

【0137】

次に、第２の実施形態の情報処理装置１００－２による情報処理について説明する。情報処理の全体の流れは第１の実施形態の図５と同様であるため、説明を省略する。第２の実施形態では、ステップＳ１０１の要約処理、および、ステップＳ１０２の生成処理が第１の実施形態と異なっている。以下、これらの処理について説明する。

【0138】

図１０は、第２の実施形態の要約処理の一例を示すフローチャートである。ステップＳ５０１は図６のステップＳ２０１と同様であるため、説明を省略する。

【0139】

分解部１１４－２は、圧縮データセットＤ２に含まれる複数の学習データを、複数のコアデータＣＤと近似関数Ｆとに分解する（ステップＳ５０２）。例えば分解部１１４－２は、圧縮部１１１により得られた圧縮データセットＤ２を記憶部１５０から読み出す。分解部１１４－２は、圧縮データセットＤ２を、より少ないサンプル数Ｎ２のコアデータＣＤと、コアデータＣＤを入力とする近似関数Ｆで表現する。分解部１１４－２は、得られたＮ２件のコアデータＣＤと近似関数Ｆとを、複数の要約データとして記憶部１５０に記憶する。

【0140】

要約部１１０－２は、必要に応じて、データセットＤ１および圧縮データセットＤ２を記憶部１５０から削除する（ステップＳ５０３）。

【0141】

図１１は、第２の実施形態の生成処理の一例を示すフローチャートである。

【0142】

近似部１２１－２は、コアデータＣＤと近似関数Ｆとを記憶部１５０から読み出し、読み出したコアデータＣＤと近似関数Ｆとを用いて、圧縮データセットＤ２に含まれる複数の学習データを近似する複数の近似データＡＰを生成する（ステップＳ６０１）。近似部１２１－２は、生成した複数の近似データＡＰを記憶部１５０に記憶する。

【0143】

ステップＳ６０２、Ｓ６０３は、図７のステップＳ３０２、Ｓ３０３と同様であるため、説明を省略する。なお、第２の実施形態では、近似データＡＰが圧縮データセットＤ２と同様のサンプル数のデータを含み、近似データＡＰがデータの多様性を保っている可能性があるため、ステップＳ６０２のデータ生成処理は省略することも考えられる。その場合、復元部１２２は、ステップＳ６０３において近似データＡＰから直接復元データＲＥＣを生成する。

【0144】

以上のように、第２の実施形態では、クラスタリング部と代表生成部の代わりに、学習データをコアデータと近似関数とに分解する分解部を用いて要約データを生成する。これにより、学習に用いた学習データをより少ないサンプル数の要約のデータで効率的に表現し、多様性を有する生成データを得ることができる。

【0145】

（適用可能なモデルの例）
上記実施形態（および各変形例）は、様々なモデルを再学習するときに適用可能である。以下に適用可能なモデルの例について説明する。

【0146】

適用例１：異常検知モデル
例えばインフラ設備および製造設備など設備の異常検知モデルをモデルＭとし、当該設備から得られるセンサデータを元に得られるデータセットをデータセットＤ１とする形態に、上記実施形態を適用可能である。

【0147】

このとき、データセットＤ１の各学習データは、ある一時刻の複数のセンサの変数を並べたデータであってもよい。また、各学習データは、１つ以上のセンサデータを含む単変量データまたは多変量データを、決められた時間幅のウィンドウにより切り出し、切り出されたデータを並べたベクトルで構成されてもよい。

【0148】

適用例２：識別モデル
例えば画像識別などの識別モデルをモデルＭとし、画像などである各学習データに対して正解のクラスがラベルとして付与されたデータセットによって教師あり学習により識別モデル（モデルＭ）を学習する形態にも、上記実施形態が適用できる。

【0149】

復元データに現れるクラスの多様性を保つために、例えば、データセットＤ１に含まれる各学習データをクラスごとに分割して複数のデータセットを生成し、それらの各々に個別に上記実施形態を適用してもよい。これにより、再学習の際に、データセットＤ１に含まれていたすべてのクラスについての復元データを使用することができる。または、データセットＤ１に含まれる各学習データをクラスごとに分割しなくても、クラスタリング部１１２がクラスタリングを行う際にクラスラベルを考慮してクラスタを構成することによっても、同様の効果が得られる。

【0150】

適用例３：回帰モデル
需要予測モデルおよび株価予測モデルなどの回帰モデルをモデルＭとする形態にも上記実施形態を適用できる。この場合、データセットＤ１は、例えば、予測のための説明変数と予測対象の目的変数とを含む。復元データに現れる目的変数の値の多様性を保つために、例えば目的変数の値の範囲によってデータセットＤ１を分割し、それらの各々に個別に上記実施形態が適用されてもよい。または、クラスタリング部１１２がクラスタリングを行う際に、各学習データの目的変数の値を考慮してクラスタを構成してもよい。

【0151】

以上説明したとおり、第１から第２の実施形態によれば、より高精度に学習を行う学習データを生成することができる。

【0152】

次に、第１または第２の実施形態の情報処理装置のハードウェア構成について図１２を用いて説明する。図１２は、第１または第２の実施形態の情報処理装置のハードウェア構成例を示す説明図である。

【0153】

第１または第２の実施形態の情報処理装置は、ＣＰＵ５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、各部を接続するバス６１を備えている。

【0154】

第１または第２の実施形態の情報処理装置で実行されるプログラムは、ＲＯＭ５２等に予め組み込まれて提供される。

【0155】

第１または第２の実施形態の情報処理装置で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ－ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ－Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

【0156】

さらに、第１または第２の実施形態の情報処理装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第１または第２の実施形態の情報処理装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

【0157】

第１または第２の実施形態の情報処理装置で実行されるプログラムは、コンピュータを上述した情報処理装置の各部として機能させうる。このコンピュータは、ＣＰＵ５１がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

【0158】

実施形態の構成例について以下に記載する。
（構成例１）
モデルの学習に用いられた複数の第１学習データに基づいて、複数の前記第１学習データのサンプル数より少ないサンプル数のデータであって、複数の前記第１学習データの要約を表す複数の第１要約データを生成する要約処理を実行し、
複数の前記第１要約データに基づいて、複数の前記第１要約データのサンプル数より多いサンプル数のデータであって、前記モデルの学習に用いる複数の第２学習データを生成する、
処理部、
を備える情報処理装置。
（構成例２）
前記処理部は、
複数の前記第１学習データそれぞれを複数のクラスタのいずれかに分類し、
複数の前記クラスタの少なくとも一部について、前記クラスタに含まれる前記第１学習データを代表する１つ以上のデータを、前記第１要約データとして生成する、
構成例１に記載の情報処理装置。
（構成例３）
前記処理部は、前記クラスタの重心を示すデータ、または、前記クラスタの重心に対する距離または類似度に関する尺度に基づいて選択される前記第１学習データを、前記第１要約データとして生成する、
構成例２に記載の情報処理装置。
（構成例４）
前記処理部は、
複数の前記クラスタのうち２つ以上について、
同じサンプル数の前記第１要約データを生成する、または、複数の前記クラスタそれぞれに分類された複数の前記第１学習データの属性に応じたサンプル数の前記第１要約データを生成する、
構成例２または３に記載の情報処理装置。
（構成例５）
前記属性は、複数の前記第１学習データのサンプル数、または、複数の前記第１学習データの多様性を示す指標である、
構成例４に記載の情報処理装置。
（構成例６）
前記処理部は、複数の前記第１要約データに対して、複数の前記クラスタそれぞれに分類された複数の前記第１学習データの統計情報に応じたノイズを付与することにより、複数の前記第２学習データを生成する、
構成例２に記載の情報処理装置。
（構成例７）
前記統計情報は、複数の前記第１学習データに含まれる１つ以上の変数それぞれの標準偏差である、
構成例６に記載の情報処理装置。
（構成例８）
前記処理部は、
複数の前記第１学習データを、複数の前記第１要約データと、複数の前記第１要約データを入力して複数の前記第１学習データに近似する複数の近似データを出力する近似関数と、に分解し、
複数の前記第１要約データを前記近似関数に入力して得られる複数の前記近似データを、前記第２学習データとして生成する、
構成例１に記載の情報処理装置。
（構成例９）
前記処理部は、行列分解またはオートエンコーダを用いて、複数の前記第１学習データを、複数の前記第１要約データと前記近似関数とに分解する、
構成例８に記載の情報処理装置。
（構成例１０）
前記処理部は、
複数の前記第１学習データの次元を圧縮し、
次元が圧縮された複数の前記第１学習データを用いて、複数の前記第１要約データを生成し、
複数の前記第２学習データの次元を、複数の前記第１学習データの次元に復元する、
構成例１から９のいずれか１つに記載の情報処理装置。
（構成例１１）
前記処理部は、
複数の前記第１学習データに基づいて、複数の前記第１学習データのサンプル数より少ないサンプル数のデータであって、複数の前記第１学習データの要約を表す複数の第２要約データを生成し、
複数の前記第２要約データを、複数の前記第２要約データのサンプル数より少ないサンプル数のデータであって、複数の前記第２要約データの要約を表す複数の前記第１要約データと、複数の前記第１要約データを入力して複数の前記第２要約データの近似データを出力する近似関数と、に分解し、
複数の前記第１要約データを前記近似関数に入力して得られる複数の近似データを生成し、
複数の前記近似データを、複数の前記第１要約データとして用いて、複数の第２学習データを生成する、
構成例１から１０のいずれか１つに記載の情報処理装置。
（構成例１２）
前記処理部は、行列分解またはオートエンコーダを用いて、複数の前記第１要約データを、複数の前記第１要約データと前記近似関数とに分解する、
構成例１１に記載の情報処理装置。
（構成例１３）
前記処理部は、
複数の前記第１学習データのデータサイズに対する、生成された複数の前記第１要約データのデータサイズの割合を表す圧縮率および、複数の前記第２学習データを用いて学習された前記モデルの性能を表すスコアのうち少なくとも一方に基づく評価値を算出し、
前記評価値が予め定められた条件を満たすまで、前記要約処理を繰り返し実行する、
構成例１から１２のいずれか１つに記載の情報処理装置。
（構成例１４）
前記処理部は、複数の前記第２学習データを用いて前記モデルを学習する、
構成例１から１３のいずれか１つに記載の情報処理装置。
（構成例１５）
前記処理部は、
前記要約処理を実行する要約部と、
複数の前記第２学習データを生成するデータ生成部と、
を備える、
構成例１から１４のいずれか１つに記載の情報処理装置。
（構成例１６）
情報処理装置で実行される情報処理方法であって、
モデルの学習に用いられた複数の第１学習データに基づいて、複数の前記第１学習データのサンプル数より少ないサンプル数のデータであって、複数の前記第１学習データの要約を表す複数の第１要約データを生成する要約処理を実行し、
複数の前記第１要約データに基づいて、複数の前記第１要約データのサンプル数より多いサンプル数のデータであって、前記モデルの学習に用いる複数の第２学習データを生成する、
ことを含む情報処理方法。
（構成例１７）
コンピュータに、
モデルの学習に用いられた複数の第１学習データに基づいて、複数の前記第１学習データのサンプル数より少ないサンプル数のデータであって、複数の前記第１学習データの要約を表す複数の第１要約データを生成する要約処理を実行するステップと、
複数の前記第１要約データに基づいて、複数の前記第１要約データのサンプル数より多いサンプル数のデータであって、前記モデルの学習に用いる複数の第２学習データを生成するステップと、
を実行させるためのプログラム。

【0159】

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

【符号の説明】

【0160】

１００、１００－２情報処理装置
１１０、１１０－２要約部
１１１圧縮部
１１２クラスタリング部
１１３代表生成部
１１４、１１４－２分解部
１２０、１２０－２データ生成部
１２１、１２１－２近似部
１２２復元部
１３１学習部
１３２評価部
１３３出力制御部
１５０記憶部

【図1】