特開2023-128056 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日本総合研究所の特許一覧

特開2023-128056プログラム、情報処理装置、及び情報処理方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023128056

(43)【公開日】2023-09-14

(54)【発明の名称】プログラム、情報処理装置、及び情報処理方法

(51)【国際特許分類】

G06N 20/00 20190101AFI20230907BHJP

G06Q 30/02 20230101ALI20230907BHJP

G06N 3/02 20060101ALI20230907BHJP

【ＦＩ】

G06N20/00 130

G06Q30/02

G06N3/02

【審査請求】未請求

【請求項の数】12

【出願形態】ＯＬ

(21)【出願番号】P 2022032109

(22)【出願日】2022-03-02

(71)【出願人】

【識別番号】302064762

【氏名又は名称】株式会社日本総合研究所

(74)【代理人】

【識別番号】100114557

【弁理士】

【氏名又は名称】河野英仁

(74)【代理人】

【識別番号】100078868

【弁理士】

【氏名又は名称】河野登夫

(72)【発明者】

【氏名】近藤浩史

(72)【発明者】

【氏名】森毅

【テーマコード（参考）】

5L049

【Ｆターム（参考）】

5L049BB01

(57)【要約】

【課題】非重複特徴量の情報を連合学習に活用可能とするプログラム等を提供すること。
【解決手段】プログラムは、複数のエンティティで共通する重複特徴量を取得し、複数のエンティティで共通しない非重複特徴量を取得し、前記非重複特徴量に基づき集約特徴量を生成し、生成した前記集約特徴量及び前記重複特徴量と目的変数とに基づきモデルを生成する処理をコンピュータに実行させる。
【選択図】図１０

【特許請求の範囲】

【請求項1】

複数のエンティティで共通する重複特徴量を取得し、
複数のエンティティで共通しない非重複特徴量を取得し、
前記非重複特徴量に基づき集約特徴量を生成し、
生成した前記集約特徴量及び前記重複特徴量と目的変数とに基づきモデルを生成する
処理をコンピュータに実行させるプログラム。

【請求項2】

前記モデルを、前記複数のエンティティ間で連合学習を実行する情報処理装置へ送信し、
該情報処理装置で各エンティティのモデルで連合学習された後のモデルを受信する
請求項１に記載のプログラム。

【請求項3】

非重複特徴量グループに基づき前記目的変数を予測する第１モデルを生成し、
異なる非重複特徴量グループ及び生成した前記第１モデルに基づき前記集約特徴量を生成する
請求項１又は請求項２に記載のプログラム。

【請求項4】

非重複特徴量グループ毎に前記第１モデルを生成し、
異なる非重複特徴量及び生成した各第１モデルに基づきグループ毎に前記集約特徴量を生成し、
生成した全グループの前記集約特徴量及び前記重複特徴量と前記目的変数とに基づきモデルを生成する
請求項３に記載のプログラム。

【請求項5】

第１のエンティティの非重複特徴量に基づき、前記目的変数を予測する第２モデルを生成し、
第２モデルの予測に寄与する非重複特徴量の項目を特定し、
重複特徴量から特定した項目に対応する非重複特徴量を予測する第２の２モデルを生成し、
生成した第２の２モデルに重複特徴量を入力して前記項目の集約特徴量を生成する
請求項１又は請求項２に記載のプログラム。

【請求項6】

前記第２の２モデルを第２のエンティティへ送信する
請求項５に記載のプログラム。

【請求項7】

前記第２のエンティティにおいて、前記第２の２モデルへ重複特徴量を入力して前記項目の集約特徴量を生成する
請求項６に記載のプログラム。

【請求項8】

第１のエンティティの非重複特徴量を入力した場合に重複特徴量又は目的変数を生成するエンコーダ及びデコーダを含む第３モデルを生成し、
非重複特徴量を前記エンコーダに入力して集約特徴量を出力し、
デコーダを第２のエンティティへ出力する
請求項１に記載のプログラム。

【請求項9】

前記第２のエンティティにおいて、前記デコーダを含む第４の２モデル生成し、
生成した第４の２モデルに非重複特徴量を入力して集約特徴量を生成する
生成する請求項８に記載のプログラム。

【請求項10】

第２のエンティティの非重複特徴量を入力した場合に重複特徴量を生成するエンコーダ及びデコーダを含む第４モデルを生成し、
非重複特徴量を前記エンコーダに入力して集約特徴量を出力し、
デコーダを第１のエンティティへ出力する
請求項１に記載のプログラム。

【請求項11】

複数のエンティティで共通する重複特徴量を取得する第１取得部と、
複数のエンティティで共通しない非重複特徴量を取得する第２取得部と、
前記非重複特徴量に基づき集約特徴量を生成する生成部と、
生成した前記集約特徴量及び前記重複特徴量と目的変数とに基づきモデルを生成するモデル生成部とを
備える情報処理装置。

【請求項12】

第１のエンティティ及び第２のエンティティで共通しない第１非重複特徴量に基づき、前記第１のエンティティが第１集約特徴量を生成しており、生成された第１集約特徴量、及び、前記第１のエンティティと第２のエンティティとで共通する第１重複特徴量と、第１目的変数とに基づき生成された第１モデルを取得し、
前記第１のエンティティ及び第２のエンティティで共通しない第２非重複特徴量に基づき、前記第２のエンティティが第２集約特徴量を生成しており、生成させた第２集約特徴量、及び、前記第１のエンティティと第２のエンティティとで共通する第２重複特徴量と、第２目的変数とに基づき生成された第２モデルを取得し、
取得した第１モデル及び第２モデルに基づき連合モデルを生成し、
生成した連合モデルを前記第１のエンティティ及び第２のエンティティに出力する
情報処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、連合学習に関するプログラム等に関する。

【背景技術】

【0002】

情報処理技術の進化に伴い、データ分析などを目的として異なる事業者間でデータを共有することが重要視されている。しかし、プライバシ保護の観点から、顧客の同意を得ることなく個人の特定につながるデータを事業者間で共有することはできない。そこで、プライバシを保護した状態のままデータを分析する手法が提案されている。例えば特許文献１には、連合学習を行う連合サーバが開示されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特表２０２０－５２８５８９号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

連合学習では、異なるエンティティ間でどのようなデータの共通性があるかによって、２種類の学習方法がある。各エンティティが異なる特徴量のデータを保有し、全てのエンティティが保有するデータは同一の対象のものである場合、垂直連合学習を行う。すべてのエンティティが同じ特徴量のデータを多く保有し、各エンティティが異なる対象についてのデータを保有している場合、水平連合学習を行う。

【0005】

水平連合学習を行う場合、学習に使用できる特徴量は、エンティティ間で共通する特徴量に限られる。以下、共通する特徴量を重複特徴量、共通しない特徴量を非重複特徴量という。一般に、複数の企業間で水平連合学習を行う場合、同一業界に属する企業間であれば、複数の重複特徴量があることが期待される。しかしながら、機械学習モデルの構築において、非重複特徴量に重要な情報が含まれていた場合、重要な情報が欠落してしまうことで、学習モデルの性能が低下してしまう。本発明はこのような状況に鑑みてなされたものである。その目的は、非重複特徴量の情報を連合学習に活用可能とするプログラム等の提供である。

【課題を解決するための手段】

【0006】

本願の一態様に係るプログラムは、複数のエンティティで共通する重複特徴量を取得し、複数のエンティティで共通しない非重複特徴量を取得し、前記非重複特徴量に基づき集約特徴量を生成し、生成した前記集約特徴量及び前記重複特徴量と目的変数とに基づきモデルを生成する処理をコンピュータに実行させる。

【発明の効果】

【0007】

本願の一観点によれば、非重複特徴量の情報が連合学習に活用可能となる。

【図面の簡単な説明】

【0008】

【図1】連合学習システムの構成例を示す説明図である。

【図2】第１情報処理装置のハードウェア構成例を示す説明図である。

【図3】第２情報処理装置のハードウェア構成例を示す説明図である。

【図4】中央サーバのハードウェア構成例を示す説明図である。

【図5】Ａ社の顧客ＤＢの例を示す説明図である。

【図6】Ｂ社の顧客ＤＢの例を示す説明図である。

【図7】顧客情報の対比例を示す説明図である。

【図8】顧客情報の分割状況を示す説明図である。

【図9】予測モデルの訓練、予測スコアの算出を示す説明図である。

【図10】連合学習処理の手順例を示すフローチャートである。

【図11】予測スコア算出処理の手順例を示すフローチャートである。

【図12】第０予測モデルの学習に関する説明図である。

【図13】第１の１予測モデルと、第１の２予測モデルの構築に関する説明図である。

【図14】連合学習処理の他の手順例を示すフローチャートである。

【図15】パターン１モデル及びパターン２モデルの構造を示す説明図である。

【図16】パターン１モデルＢＡ及びパターン２モデルＢＡの構造を示す説明図である。

【図17】中間表現を得る処理を示す説明図である。

【図18】学習に用いる特徴量の例を示す説明図である。

【図19】連合学習処理の他の手順例を示すフローチャートである。

【発明を実施するための形態】

【0009】

以下実施の形態を、図面を参照して説明する。図１は連合学習システムの構成例を示す説明図である。連合学習システム１００には複数の企業が参加している。各企業は既存顧客の情報を用いて生成した学習モデルを保有している。当該学習モデルを用いることより、新規顧客に対する営業戦略等を立案している。例えば、Ａ社は顧客情報を記憶する第１情報処理装置１を利用している。同様にＢ社は第２情報処理装置２を、Ｃ社は第３情報処理装置３を、Ｄ社は第４情報処理装置４を利用している。第１情報処理装置１等は必ずしも各企業が保有し、各企業の事務所に設置されていなくともよい。第１情報処理装置１等をデータセンタに設置してもよいし、各企業は情報処理装置を保有することなく、情報処理装置が備えるべき機能をクラウドサービスで提供を受けてもよい。また、各企業が保有する顧客情報を第１情報処理装置１等に記憶させるのではなく、データセンタのデータベースやクラウドストレージに記憶させてもよい。連合学習システム１００は参加している複数の企業が共同利用する中央サーバＣＳを含む。中央サーバＣＳは必須ではなく、中央サーバＣＳが担う機能を、第１情報処理装置１や第２情報処理装置２等、代表の企業が利用する情報処理装置が担ってもよい。

【0010】

以下の説明においては、金融機関であるＡ社及びＢ社が水平連合学習を用いて個人ローンのデフォルト（債務不履行）予測を行う与信モデルを構築する場合を例に説明する。なお、本明細書において、エンティティとは、組織や団体など実存する概念のことを指す。ここではエンティティの例として、会社であるＡ社、Ｂ社を挙げているが、病院などの医療機関や、学校などの教育機関もエンティティに該当する。おな、Ａ社は第１のエンティティの一例であり、Ｂ社は第２のエンティティの一例である。

【0011】

図２は第１情報処理装置のハードウェア構成例を示す説明図である。第１情報処理装置１はサーバコンピュータ等で構成する。第１情報処理装置１は制御部１１、主記憶部１２、補助記憶部１３、通信部１５及び読み取り部１６を含む。制御部１１、主記憶部１２、補助記憶部１３、通信部１５及び読み取り部１６はバスＢにより接続されている。

【0012】

制御部１１は、一又は複数のＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro-Processing Unit）、ＧＰＵ（Graphics Processing Unit）等の演算処理装置を有する。制御部１１は、補助記憶部１３に記憶された制御プログラム１Ｐ（プログラム、プログラム製品）を読み出して実行することにより、第１情報処理装置１に係る所定の情報処理、制御処理等を行い、各種の機能部を実現する。

【0013】

主記憶部１２は、ＳＲＡＭ（Static Random Access Memory）、ＤＲＡＭ（Dynamic Random Access Memory）、フラッシュメモリ等である。主記憶部１２は主として制御部１１が演算処理を実行するために必要なデータを一時的に記憶する。

【0014】

補助記憶部１３はハードディスク又はＳＳＤ（Solid State Drive）等であり、制御部１１が処理を実行するために必要な制御プログラム１Ｐや各種ＤＢ（Database）を記憶する。補助記憶部１３は、顧客ＤＢ１３１を記憶する。また、補助記憶部１３は与信モデル１４１及び予測モデル１４２を記憶する。

【0015】

通信部１５はネットワークＮを介して、第２情報処理装置２等と通信を行う。また、制御部１１が通信部１５を用い、ネットワークＮ等を介して他のコンピュータから制御プログラム１Ｐをダウンロードし、補助記憶部１３に記憶してもよい。

【0016】

読み取り部１６はＣＤ（Compact Disc）－ＲＯＭ及びＤＶＤ（Digital Versatile Disc）－ＲＯＭを含む可搬型記憶媒体１ａを読み取る。制御部１１が読み取り部１６を介して、制御プログラム１Ｐを可搬型記憶媒体１ａより読み取り、補助記憶部１３に記憶してもよい。また、半導体メモリ１ｂから、制御部１１が制御プログラム１Ｐを読み込んでもよい。

【0017】

図３は第２情報処理装置のハードウェア構成例を示す説明図である。第２情報処理装置２は制御部２１、主記憶部２２、補助記憶部２３、通信部２５及び読み取り部２６を含む。制御部２１、主記憶部２２、補助記憶部２３、通信部２５及び読み取り部２６はバスＢにより接続されている。

【0018】

制御部２１は、一又は複数のＣＰＵ、ＭＰＵ、ＧＰＵ等の演算処理装置を有する。制御部２１は、補助記憶部２３に記憶された制御プログラム２Ｐ（プログラム、プログラム製品）を読み出して実行することにより、第２情報処理装置２に係る所定の情報処理、制御処理等を行い、各種の機能部を実現する。

【0019】

主記憶部２２は、ＳＲＡＭ、ＤＲＡＭ、フラッシュメモリ等である。主記憶部２２は主として制御部２１が演算処理を実行するために必要なデータを一時的に記憶する。

【0020】

補助記憶部２３はハードディスク又はＳＳＤ等であり、制御部２１が処理を実行するために必要な制御プログラム２Ｐや各種ＤＢを記憶する。補助記憶部２３は、顧客ＤＢ２３１を記憶する。また、補助記憶部２３は与信モデル２４１及び予測モデル２４２を記憶する。

【0021】

通信部２５はネットワークＮを介して、第１情報処理装置１等と通信を行う。また、制御部２１が通信部２５を用い、ネットワークＮ等を介して他のコンピュータから制御プログラム２Ｐをダウンロードし、補助記憶部２３に記憶してもよい。

【0022】

読み取り部２６はＣＤ－ＲＯＭ及びＤＶＤ－ＲＯＭを含む可搬型記憶媒体２ａを読み取る。制御部２１が読み取り部２６を介して、制御プログラム２Ｐを可搬型記憶媒体２ａより読み取り、補助記憶部２３に記憶してもよい。また、半導体メモリ２ｂから、制御部２１が制御プログラム２Ｐを読み込んでもよい。

【0023】

図４は中央サーバのハードウェア構成例を示す説明図である。中央サーバＣＳは制御部Ｃ１、主記憶部Ｃ２、補助記憶部Ｃ３、通信部Ｃ５及び読み取り部Ｃ６を含む。制御部Ｃ１、主記憶部Ｃ２、補助記憶部Ｃ３、通信部Ｃ５及び読み取り部Ｃ６はバスＢにより接続されている。

【0024】

制御部Ｃ１は、一又は複数のＣＰＵ、ＭＰＵ、ＧＰＵ等の演算処理装置を有する。制御部Ｃ１は、補助記憶部Ｃ３に記憶された制御プログラムＣＰ（プログラム、プログラム製品）を読み出して実行することにより、中央サーバＣＳに係る所定の情報処理、制御処理等を行い、各種の機能部を実現する。

【0025】

主記憶部Ｃ２は、ＳＲＡＭ、ＤＲＡＭ、フラッシュメモリ等である。主記憶部Ｃ２は主として制御部Ｃ１が演算処理を実行するために必要なデータを一時的に記憶する。

【0026】

補助記憶部Ｃ３はハードディスク又はＳＳＤ等であり、制御部Ｃ１が処理を実行するために必要な制御プログラムＣＰや各種ＤＢを記憶する。補助記憶部Ｃ３は与信モデルＣ４１及び予測モデルＣ４２を記憶する。

【0027】

通信部Ｃ５はネットワークＮを介して、第１情報処理装置１等と通信を行う。また、制御部Ｃ１が通信部Ｃ５を用い、ネットワークＮ等を介して他のコンピュータから制御プログラムＣＰをダウンロードし、補助記憶部Ｃ３に記憶してもよい。

【0028】

読み取り部Ｃ６はＣＤ－ＲＯＭ及びＤＶＤ－ＲＯＭを含む可搬型記憶媒体Ｃａを読み取る。制御部Ｃ１が読み取り部Ｃ６を介して、制御プログラムＣＰを可搬型記憶媒体Ｃａより読み取り、補助記憶部Ｃ３に記憶してもよい。また、半導体メモリＣｂから、制御部Ｃ１が制御プログラムＣＰを読み込んでもよい。

【0029】

図５はＡ社の顧客ＤＢの例を示す説明図である。顧客ＤＢ１３１は顧客への個人ローンの履歴を記憶する。当該履歴は与信モデル１４１の訓練データとなりうるものである。顧客ＤＢ１３１は顧客ＩＤ列、住所列、職業列、資産額列、年齢列、年収列、借入額列及びデフォルト列を含む。顧客ＩＤ列はＡ社において顧客を特定する顧客ＩＤを記憶する。顧客ＩＤ列はなくともよい。住所列は顧客の住所を記憶する。職業列は顧客の職業を記憶する。資産額列は顧客の保有資産の額を記憶する。年齢列は顧客の年齢を記憶する。年収列は顧客の年収を記憶する。借入額列は顧客が借り入れた額を記憶する。デフォルト列は顧客への融資がデフォルトとなったか否かを記憶する。１は「デフォルトとなった」ことを、０は「デフォルトとならなかった」ことを示す。住所列、職業列、資産額列、年齢列及び年収列の値は、顧客が融資の審査を受けた時点のものである。

【0030】

図６はＢ社の顧客ＤＢの例を示す説明図である。顧客ＤＢ２３１は顧客への個人ローンの履歴を記憶する。当該履歴は与信モデル２４１の訓練データとなりうるものである。顧客ＤＢ２３１は顧客ＩＤ列、年齢列、年収列、借入額列、性別列、学歴列、配偶者列及びデフォルト列を含む。顧客ＩＤ列はＢ社において顧客を特定する顧客ＩＤを記憶する。顧客ＩＤ列はなくともよい。年齢列は顧客の年齢を記憶する。年収列は顧客の年収を記憶する。借入額列は顧客が借り入れた額を記憶する。性別列は顧客の性別を記憶する。学歴列は顧客の最終学歴を記憶する。配偶者列は顧客の配偶者の有無を記憶する。デフォルト列は顧客への融資がデフォルトとなったか否かを記憶する。１は「デフォルトとなった」ことを、０は「デフォルトとならなかった」ことを示す。年齢列、年収列、借入額列、性別列、学歴列及び配偶者列の値は、顧客が融資の審査を受けた時点のものである。

【0031】

図７は顧客情報の対比例を示す説明図である。Ａ社とＢ社との重複特徴量は、年齢、年収、借入額である。Ａ社、Ｂ社共に、デフォルト列は目的変数、すなわち与信モデルが出力するべき値である。ここでの目的変数は２値分類問題における目的変数となっているが、以下に説明する連合学習の手法は、多値分類問題や回帰問題における目的変数を求める場合にも適用可能である。また、Ａ社とＢ社の２社での連合学習について説明するが、３社以上で連合学習を行ってもよい。図７では顧客ＩＤ列は省略している。以降に説明する処理において顧客ＩＤは不要であるので、顧客ＩＤ列は示さない。

【0032】

（実施の形態１）
本実施の形態では、非重複特徴量から目的変数を予測したときの予測確率を集約特徴量として利用する。集約特徴量とは、目的変数の予測に寄与する特徴量で、複数のエンティティで共通する特徴量のことである。Ａ社とＢ社と同じ処理を行うが、以下の説明ではＡ社を例に説明する。

【0033】

第１情報処理装置１は顧客情報をＮ群に分割する。図８は顧客情報の分割状況を示す説明図である。図８に示す例では顧客情報を３分割している。分割した後の各群は、非重複特徴量グループの一例である。

【0034】

第１情報処理装置１は分割した顧客情報のうち、Ｎ－１群のデータを用いて、目的変数を予測する予測モデル１４２を訓練する。このとき、入力する特徴量は非重複特徴量（第１非重複特徴量）の一部又は全部とする。重複特徴量（第１重複特徴量）の一部又は全部を入力する特徴量に含めてもよい。予測モデル１４２はニューラルネットワーク、決定木、ランダムフォレスト等、目的変数を予測可能な任意のモデルでよい。予測モデル１４２は第１モデルの一例である。

【0035】

次に第１情報処理装置１は訓練した予測モデル１４２を用いて、目的変数の予測を行う。訓練に使用しなかった残り１群の顧客情報のうち、デフォルト列を除く特徴量を予測モデル１４２に入力する。入力する特徴量は訓練時と同じ特徴量である。第１情報処理装置１は、予測モデル１４２の出力として、予測スコア（デフォルトの予測確率）（第１目的変数）を得る。

【0036】

図９は予測モデルの訓練、予測スコアの算出を示す説明図である。図９の上段は、予測モデル１４２の訓練について示している。図９の下段は予測スコアの算出を示している。

【0037】

Ｎ群の顧客情報のうち、訓練データとするＮ－１群と予測に用いる残り１群との組み合わせを入れ替え、合計Ｎ個の組み合わせについて、訓練と予測を行う。予測に用いる１群は重複しないようにする。合計Ｎ個の組み合わせについての処理が完了すると、すべての顧客情報について、予測モデル１４２による予測スコアの算出が行なわれる。

【0038】

以上に示したＡ社の第１情報処理装置１が行った処理を、Ｂ社の第２情報処理装置２でも行う。第２情報処理装置２の処理で用いる顧客情報は、Ｂ社が保有する顧客情報である。なお、Ａ社とＢ社との作業は独立して行うことが可能である。また、Ａ社が使用する予測モデル１４２と、Ｂ社が使用する予測モデル２４２とは、異なるモデルでもよい。

【0039】

第１情報処理装置１と第２情報処理装置２とがそれぞれ計算した予測スコアを集約特徴量とする。予測スコアを求める際に用いた予測モデル１４２、予測モデル２４２を訓練する際に、非重複特徴量（第２非重複特徴量）を訓練データとして用いたことにより、予測スコアには非重複特徴量の情報が含まれているとみなせるからである。中央サーバＣＳ、Ａ社の第１情報処理装置１、及びＢ社の第２情報処理装置２は水平連合学習を行う。水平連合学習で使用するのは、重複特徴量と予測スコア（＝集約特徴量）である。水平連合学習の結果として得られたモデル（連合モデル）は、第１情報処理装置１へ送られ、与信モデル１４１として記憶される。また、同じモデルが第２情報処理装置２へ送られ、与信モデル２４１として記憶される。

【0040】

連合学習の手順をフローチャートにて説明する。図１０は連合学習処理の手順例を示すフローチャートである。中央サーバＣＳの制御部Ｃ１はＡ社の第１情報処理装置１及びＢ社の第２情報処理装置２へ保有する特徴量の項目を要求する（ステップＳ１）。第１情報処理装置１の制御部１１は要求を受信する（ステップＳ１１）。制御部１１は特徴量の項目を中央サーバＣＳへ送信する（ステップＳ１２）。第２情報処理装置２の制御部２１は要求を受信する（ステップＳ２１）。制御部２１は特徴量の項目を中央サーバＣＳへ送信する（ステップＳ２２）。第１情報処理装置１及び第２情報処理装置２は保有する特徴量の項目を特定する情報として、例えば、項目名を送信する。同一の項目について、各社毎に異なる項目名を付けている場合も考えられるため、中央サーバＣＳへ送信する項目名は統一されていることが望ましい。顧客が借りた金額を「借入額」とする場合や、「借入金額」とする場合が考えられるが、いずれであっても、中央サーバＣＳへ送信する際には「借入額」とする。また、同一の内容の項目に対して、同一のＩＤを付与して、第１情報処理装置１及び第２情報処理装置２から中央サーバＣＳへＩＤを送信してもよい。中央サーバＣＳの制御部Ｃ１は項目を受信する（ステップＳ２）制御部Ｃ１は返信された項目を対照し、重複特徴量と非重複特徴量との切り分けを行う（ステップＳ３）。中央サーバＣＳの制御部Ｃ１は結果、例えば重複特徴量の項目名を第１情報処理装置１及び第２情報処理装置２へ送信する（ステップＳ４）。第１情報処理装置１の制御部１１は結果を受信する（ステップＳ１３）。制御部１１は予測スコア（第１集約特徴量）の算出を行う（ステップＳ１４）。第２情報処理装置２の制御部２１は結果を受信する（ステップＳ２３）。制御部２１は予測スコア（第２集約特徴量）の算出を行う（ステップＳ２４）。その後、水平連合学習を行い（ステップＳ３０）、処理を終了する。水平連合学習は、例えば以下のような処理である。第１情報処理装置１の制御部１１は算出した予測スコアと重複特徴量とを特徴量として、与信モデル１４１の学習を行う。制御部１１は学習済み与信モデル１４１の重みパラメータを、中央サーバＣＳへ送信する。第２情報処理装置２の制御部２１は算出した予測スコアと、重複特徴量とを特徴量として、与信モデル２４１の学習を行う。制御部２１は学習済み与信モデル２４１の重みパラメータを、中央サーバＣＳへ送信する。中央サーバＣＳの制御部Ｃ１は、第１情報処理装置１から受信した与信モデル１４１の重みパラメータと、第２情報処理装置２から受信した与信モデル２４１の重みパラメータの平均を計算し、計算結果を第１情報処理装置１及び第２情報処理装置２へ送信する。第１情報処理装置１の制御部１１は受信した重みパラメータで与信モデル１４１を更新する。制御部１１は更新した与信モデル１４１の学習を行い、重みパラメータを中央サーバＣＳへ送信する。同様に、第２情報処理装置２の制御部２１は受信した重みパラメータで与信モデル２４１を更新する。制御部２１は更新した与信モデル２４１の学習を行い、重みパラメータを中央サーバＣＳへ送信する。中央サーバＣＳは重みパラメータの平均を、第１情報処理装置１及び第２情報処理装置２へ送信する。学習、パラメータの送信、パラメータの平均値の算出、パラメータ更新の処理をパラメータの値が収束するまで繰り返す。

【0041】

図１１は予測スコア算出処理の手順例を示すフローチャートである。予測スコア算出処理は図１０のステップＳ１４、ステップＳ２４に対応する処理である。予測スコア算出処理は、第１情報処理装置１及び第２情報処理装置２が行うが、処理内容は同様である。ここでは、第１情報処理装置１が行う場合について説明する。第１情報処理装置１の制御部１１は顧客ＤＢ１３１に記憶している全レコードをＮ分割する（ステップＳ３１）。分割した各一群に順番号を振るものとする。第１群から第Ｎ群までのＮ個のグルーブができる。制御部１１はループ変数ｉに１を代入する（ステップＳ３２）。制御部１１は予測モデル１４２の訓練を行う（ステップＳ３３）。制御部１１は第ｉ群以外のレコードを用いて、予測モデルの訓練を行う。訓練は学習ともいう。制御部１１は訓練した後の予測モデル１４２に第ｉ群の各レコードを順に入力し、予測スコアの算出を行う（ステップＳ３４）。なお、入力には目的変数の値は含めない。制御部１１は予測スコアを記憶する（ステップＳ３５）。制御部１１はループ変数ｉを１増加させる（ステップＳ３６）。制御部１１はループ変数ｉがＮより大きいか否かを判定する（ステップＳ３７）。制御部１１はループ変数ｉがＮ以下と判定した場合（ステップＳ３７でＮＯ）、処理をステップＳ３３へ戻し、処理を継続する。制御部１１はループ変数ｉがＮより大きいと判定した場合（ステップＳ３７でＹＥＳ）、予測スコア算出処理を終了し、処理を呼び出し元へ戻す。

【0042】

本実施の形態では、以下の効果を奏する。各社の非重複特徴量から、各社で共通の意味を持つ集約特徴量を生成し、重複特徴量と集約特徴量とを使って水平連合学習を行うので、非重複特徴量に重要な情報が含まれていた場合であっても、重要な情報が欠落してしまうことがない。それより、モデルの性能が低下することを防ぐことが可能となる。

【0043】

（実施の形態２）
本実施の形態では、非重複特徴量の予測値を集約特徴量として利用する。本実施の形態において、各装置のハードウェア構成等は、実施の形態１と同様であるので、以下の説明においては、実施の形態１と異なる点を主として述べる。

【0044】

第１情報処理装置１は非重複特徴量の全項目を用いて、目的変数を予測する第０予測モデルを学習して生成する。第０予測モデルは重回帰モデル、決定木、勾配ブースティング決定木などのモデルから特徴量の重要度を解釈可能なモデルを選択して用いる。図１２は第０予測モデルの学習に関する説明図である。第０予測モデル（第２モデル）は非重複特徴量を入力した場合に、目的変数を出力するように学習されて生成される。

【0045】

第１情報処理装置１は学習した第０予測モデルを分析して、目的変数の予測に寄与している重要度の高い上位Ｎ件の非重複特徴量を選択する。重要度の判定は、例えば以下のように行う。第０予測モデルを重回帰モデルで構成した場合は、各特徴量の係数により判定可能である。第０予測モデルを決定木モデルで構成した場合は、木の分割時のジニ係数に基づく情報利得（gain）から判定可能である。ここでは、図１２に示した非重複特徴量のうち、重要度１位の資産額と同２位の職業とが選択されたとする。なお、重要度による非重複特徴量の選択は行なわなくともよい。

【0046】

次に、第１情報処理装置１は選択した非重複特徴量それぞれを、重複特徴量から予測する第１予測モデル（第２の２モデル）を学習して生成する。選択した非重複特徴量それぞれの予測を行う、１個の第１予測モデルを構築するため、重要度の高いＮ個の非重複特徴量を選択した場合は、Ｎ個の第１予測モデルが学習されて構築される。個々のモデルを、第１の１予測モデル、第１の２予測モデル、…第１のＮ予測モデルという。図１３は第１の１予測モデルと、第１の２予測モデルの構築に関する説明図である。第１の１予測モデルは重複特徴量（年齢、年収、借入額）から資産額を予測するモデルである。第１の２予測モデルは重複特徴量（年齢、年収、借入額）から職業を予測するモデルである。なお、重要度による非重複特徴量の選択を行なわない場合、第１情報処理装置１は、すべての非重複特徴量それぞれを予測する第１予測モデルを学習して構築する。非重複特徴量の選択を行なわない場合、図１３の例では、重複特徴量（年齢、年収、借入額）から住所を予測する第１の３予測モデルを第１情報処理装置１はさらに構築する。

【0047】

続いて、第１情報処理装置１は、構築した第１予測モデルを用いて、選択した非重複特徴量を推測する。そして得られる値を予測スコアという。ここでは、第１情報処理装置１は、第１の１予測モデルを用いて、重複特徴量（年齢、年収、借入額）から資産額を推測する。また、第１情報処理装置１は、第１の２予測モデルを用いて、重複特徴量（年齢、年収、借入額）から職業を推測する。また、第１情報処理装置１は、第１の１予測モデル、第１の２予測モデル、…第１のＮ予測モデルを第２情報処理装置２へ送信する。

【0048】

次に行う処理は、主体がＡ社の第１情報処理装置１から、Ｂ社の第２情報処理装置２へ切り替わる。第２情報処理装置２は、受信した第１の１予測モデル、第１の２予測モデル、…第１のＮ予測モデルを用いて、自社の重複特徴量から予測スコアを算出する。ここでは、第２情報処理装置２は、第１の１予測モデルへ重複特徴量（年齢、年収、借入額）を入力して、資産額を推定する。また、第２情報処理装置２は、第１の２予測モデルへ重複特徴量（年齢、年収、借入額）を入力して、職業を推定する。

【0049】

中央サーバＣＳ、第１情報処理装置１及び第２情報処理装置２は水平連合学習を行う。水平連合学習の結果として得られたモデルは、第１情報処理装置１へ送られ、与信モデル１４１として記憶される。また、同じモデルが第２情報処理装置２へ送られ、与信モデル２４１として記憶される。

【0050】

連合学習の手順をフローチャートにて説明する。図１４は連合学習処理の他の手順例を示すフローチャートである。図１４に示す連合学習処理の一部は、図１０に示した連合学習処理と共通する。図１４において、図１０と共通する部分については同一のステップ番号を付し、説明を省略する。第１情報処理装置１の制御部１１は中央サーバＣＳから重複特徴量と非重複特徴量との切り分けの結果を受信した後（ステップＳ１３後）、第０予測モデルを構築する（ステップＳ４１）。上述のように、第０予測モデルは非重複特徴量を入力した場合に、目的変数を出力するモデルである。制御部１１は第０予測モデルを分析し、目的変数の予測に寄与している重要度の高い上位Ｎ件の非重複特徴量を選択する（ステップＳ４２）。制御部１１は選択した非重複特徴量それぞれに対応した複数の第１予測モデル、すなわち、第１の１予測モデル、第１の２予測モデル、…第１のＮ予測モデルを構築する（ステップＳ４３）。制御部１１は構築した複数の第１予測モデルを予測可能な非重複特徴量と対応付けて、第２情報処理装置２へ送信する（ステップＳ４４）。制御部１１は複数の第１予測モデルを用いて、重複特徴量から、選択した非重複特徴量の予測スコアを算出する（ステップＳ４５）。一方、第２情報処理装置２の制御部２１は第１情報処理装置１より、複数の第１予測モデルを受信する（ステップＳ５１）。制御部２１は受信した複数の第１予測モデルをそれぞれと、予測に用いた重複特徴量とを用いて、非重複特徴量の予測スコアを算出する（ステップＳ５２）。その後、水平連合学習を行い（ステップＳ６０）、処理を終了する。水平連合学習では重複特徴量と予測スコアとを特徴量として学習を行う。

【0051】

本実施の形態では、以下の効果を奏する。Ａ社において、重複特徴量から非重複特徴量を推測する第１予測モデルを作成する。作成した第１予測モデルはＢ社へ送信され、Ｂ社において、非重複特徴量の推測に利用される。第１予測モデルを介して、Ａ社の非重複特徴量に関する情報が伝達される。Ｂ社で第１予測モデルを用いて、重複特徴量をから非重複特徴量の予測スコアを算出することで、Ｂ社の非重複特徴量に関する情報が予測スコアに伝達される。Ａ社及びＢ社の予測スコア（集約特徴量）を使って水平連合学習を行うので、非重複特徴量に重要な情報が含まれていた場合であっても、重要な情報が欠落してしまうことがない。それより、モデルの性能が低下することを防ぐことが可能となる。

【0052】

本実施の形態において、Ａ社が第１予測モデルを作成してＢ社へ送信したが、逆でもよい。すなわち、Ｂ社が第１予測モデルを作成してＡ社へ送信してもよい。また、Ａ社及びＢ社が第１予測モデルを作成し、互いの第１予測モデルを交換し、交換して得た第１予測モデルを用いて、予測スコアを算出してもよい。

【0053】

（実施の形態３）
本実施の形態では、非重複特徴量の変換器を利用する。本実施の形態において、各装置のハードウェア構成等は、実施の形態１と同様であるので、以下の説明においては、実施の形態１と異なる点を主として述べる。

【0054】

Ａ社の第１情報処理装置１は、非重複特徴量から重複特徴量を予測するパターン１モデル（第３モデル）を構築する。また、第１情報処理装置１は非重複特徴量から目的変数を予測するパターン２モデルを構築する。本実施の形態において、パターン１モデル及びパターン２モデルは、エンコーダ－デコーダ形式のモデルとする。学習したエンコーダ－デコーダをエンコーダＡとデコーダＡという。ここでのＡはＡ社を意味する。

【0055】

図１５はパターン１モデル及びパターン２モデルの構造を示す説明図である。図１５Ａはパターン１モデルの構造を示す。パターン１モデルのＰ１エンコーダＡへ非重複特徴量を入力すると、Ｐ１エンコーダＡは中間表現を出力する。中間表現をＰ１デコーダＡへ入力するとＰ１デコーダＡの出力として、重複特徴量の予測値が得られる。図１５Ｂはパターン２モデルの構造を示す。パターン２モデルのＰ２エンコーダＡへ非重複特徴量を入力すると、Ｐ２エンコーダＡから中間表現が出力される。中間表現をＰ２デコーダＡへ入力するとＰ２デコーダＡの出力として、目的変数の予測値が得られる。第１情報処理装置１は自社のデータを用いて、パターン１モデル及びパターン２モデルの学習を行う。

【0056】

一方、Ｂ社の第２情報処理装置２においても、同様に非重複特徴量から重複特徴量を予測するパターン１モデル（第４モデル）と、非重複特徴量から目的変数を予測するパターン２モデルとを構築する。第２情報処理装置２は、パターン１モデルを構成するＰ１エンコーダＢ及びＰ１デコーダＢを、パターン２モデルを構成するＰ２エンコーダＢ及びＰ２デコーダＢを構築する。

【0057】

第１情報処理装置１は、第２情報処理装置２へＰ１デコーダＡ及びＰ２デコーダＡを送信する。第２情報処理装置２はＰ１エンコーダＢとＰ１デコーダＡとを組み合わせて、新たなパターン１モデルＢＡ（第４の２モデル）を、Ｐ２エンコーダＢとＰ２デコーダＡとを組み合わせて、新たなパターン２モデルＢＡを構成する。図１６はパターン１モデルＢＡ及びパターン２モデルＢＡの構造を示す説明図である。図１６Ａはパターン１モデルＢＡの構造を示す。パターン１モデルＢＡへ非重複特徴量を入力すると、重複特徴量が出力される。図１６Ｂはパターン２モデルＢＡの構造を示す。パターン２モデルＢＡへ非重複特徴量を入力すると、重複特徴量が出力される。第２情報処理装置２は自社のデータを用いて、パターン１モデルＢＡ及びパターン２モデルＢＡの学習を行う。

【0058】

第１情報処理装置１は、Ｐ２エンコーダＡを用いて、自社データの非重複特徴量から中間表現を得る。第２情報処理装置２は、Ｐ２エンコーダＢを用いて、自社データの非重複特徴量から中間表現を得る。図１７は中間表現を得る処理を示す説明図である。図１７の上段は、Ａ社の第１情報処理装置１が行う内容を示す。下段は、Ｂ社の第２情報処理装置２が行う内容を示す。Ｐ２エンコーダＡへの入力はＡ社が保有する非重複特徴量であるから、Ｐ２エンコーダＡが出力する中間表現は、非重複特徴量の内容が反映されている。同様に、Ｐ２エンコーダＢへの入力はＢ社が保有する非重複特徴量であるから、Ｐ２エンコーダＢが出力する中間表現は、非重複特徴量の内容が反映されている。なお、図１７において、Ｐ２エンコーダＡに替えて、Ｐ１エンコーダＡを用いてもよい。同様に、Ｐ２エンコーダＢに替えて、Ｐ１エンコーダＢを用いてもよい。Ｐ１エンコーダＡ、Ｐ１エンコーダＢも学習により非重複特徴量の情報が含まれているからである。

【0059】

第１情報処理装置１及び第２情報処理装置２は、重複特徴量と中間表現とを入力すると、目的変数を出力する与信モデルをそれぞれ学習により生成する。図１８は学習に用いる特徴量の例を示す説明図である。与信モデルの学習においては、重複特徴量と中間表現とを特徴量として用いる。与信モデルの学習に、非重複特徴量から生成した中間表現を利用することにより、与信モデルは、非重複特徴量の情報が考慮されたモデルとなる。

【0060】

連合学習の手順をフローチャートにて説明する。図１９は連合学習処理の他の手順例を示すフローチャートである。図１９に示す連合学習処理の一部は、図１０に示した連合学習処理と共通する。図１９において、図１０と共通する部分については同一のステップ番号を付し、説明を省略する。第１情報処理装置１の制御部１１は中央サーバＣＳから重複特徴量と非重複特徴量との切り分けの結果を受信した後（ステップＳ１３後）、モデルを構築する（ステップＳ７１）。制御部１１が構築するモデルは、図１５に示したパターン１モデル及びパターン２モデルである。制御部１１はモデルを構成するデコーダを第２情報処理装置２へ送信する（ステップＳ７２）。制御部１１が送信するデコーダは、パターン１モデルを構成するＰ１デコーダＡ、及び、パターン２モデルを構成するＰ２デコーダＡである。制御部１１はＰ１デコーダＡへ非重複特徴量を入力して、中間表現作成する（ステップＳ７３）。一方、第２情報処理装置２の制御部２１は中央サーバＣＳから重複特徴量と非重複特徴量との切り分けの結果を受信した後（ステップＳ２３後）、モデルを構築する（ステップＳ８１）。制御部２１が構築するモデルは、図１５に示したパターン１モデル及びパターン２モデルと同じ構成であって、自社データを用いて学習したモデルである。第２情報処理装置２の制御部２１は第１情報処理装置１からデコーダを受信する（ステップＳ８２）。制御部２１は既に構築した自社のパターン１モデル及びパターン２モデルを構成するデコーダを受信したデコーダに入れ替えたモデルを、自社データを用いて学習し、新モデルを構築する（ステップＳ８３）。新モデルは図１６に示したパターン１モデルＢＡ及びパターン２モデルＢＡである。制御部２１は学習した後のパターン２モデルＢＡのＰ２エンコーダＢへ、非重複特徴量を入力して、中間表現作成する（ステップＳ８４）。その後、水平連合学習を行い（ステップＳ９０）、処理を終了する。水平連合学習では重複特徴量と中間表現とを特徴量として学習を行う。

【0061】

本実施の形態では、以下の効果を奏する。非重複特徴量から得た中間表現を用いて、与信モデルの学習を行う。それにより、与信モデルは非重複特徴量の情報が考慮されたモデルとなる。その結果、実施の形態１及び実施の形態２と同様に、モデルの性能が低下することを防ぐことが可能となる。

【0062】

上述の説明では、Ａ社からＢ社へモデル（本実施の形態ではデコーダ）を渡すとしたが、Ｂ社からＡ社へモデルを渡してもよい。この場合、Ａ社のパターン１モデルを構成するデコーダをＢ社デコーダに入れ替えたパターン１モデルＡＢ（第３の２モデル）、及び、Ａ社のパターン２モデルを構成するデコーダをＢ社デコーダに入れ替えたパターン２モデルＡＢが第１情報処理装置１にて構築される。また、両社でモデルを交換してもよい。

【0063】

本実施の形態においては、２社に限らず、３社以上で連合学習を行ってもよい。この場合、所定の方法で選択した１社のみのデコーダを他社に送信するのが、簡便かつ効率的である。処理量が増加するが、全ての者でデコーダを相互に交換してもよい。

【0064】

各実施の形態で記載されている技術的特徴（構成要件）はお互いに組み合わせ可能であり、組み合わせすることにより、新しい技術的特徴を形成することができる。
今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

【符号の説明】

【0065】

１００連合学習システム
１第１情報処理装置
１１制御部
１２主記憶部
１３補助記憶部
１３１顧客ＤＢ
１４１与信モデル
１４２予測モデル
１５通信部
１６読み取り部
１Ｐ制御プログラム
２第２情報処理装置
２１制御部
２２主記憶部
２３補助記憶部
２３１顧客ＤＢ
２４１与信モデル
２４２予測モデル
２５通信部
２６読み取り部
ＣＳ中央サーバ
Ｃ１制御部
Ｃ２主記憶部
Ｃ３補助記憶部
Ｃ４１与信モデル
Ｃ４２予測モデル
Ｃ５通信部
Ｃ６読み取り部
ＣＰ制御プログラム
Ｂバス
Ｎネットワーク
３第３情報処理装置
４第４情報処理装置

【図1】