特許6768681 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ナショナル・アイシーティ・オーストラリア・リミテッドの特許一覧

特許6768681分散データからの学習

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6768681

(24)【登録日】2020年9月25日

(45)【発行日】2020年10月14日

(54)【発明の名称】分散データからの学習

(51)【国際特許分類】

G06N 20/00 20190101AFI20201005BHJP

【ＦＩ】

G06N20/00 130

【請求項の数】18

【全頁数】25

(21)【出願番号】特願2017-542168(P2017-542168)

(86)(22)【出願日】2016年2月12日

(65)【公表番号】特表2018-511109(P2018-511109A)

(43)【公表日】2018年4月19日

(86)【国際出願番号】AU2016050088

(87)【国際公開番号】WO2016127218

(87)【国際公開日】20160818

【審査請求日】2018年11月19日

(31)【優先権主張番号】2015900463

(32)【優先日】2015年2月13日

(33)【優先権主張国】AU

(73)【特許権者】

【識別番号】507074133

【氏名又は名称】ナショナル・アイシーティ・オーストラリア・リミテッド

(74)【代理人】

【識別番号】100108855

【弁理士】

【氏名又は名称】蔵田昌俊

(74)【代理人】

【識別番号】100103034

【弁理士】

【氏名又は名称】野河信久

(74)【代理人】

【識別番号】100153051

【弁理士】

【氏名又は名称】河野直樹

(74)【代理人】

【識別番号】100179062

【弁理士】

【氏名又は名称】井上正

(74)【代理人】

【識別番号】100189913

【弁理士】

【氏名又は名称】鵜飼健

(74)【代理人】

【識別番号】100199565

【弁理士】

【氏名又は名称】飯野茂

(72)【発明者】

【氏名】ノック、リチャード

(72)【発明者】

【氏名】パトリーニ、ジョルジオ

【審査官】多胡滋

(56)【参考文献】

【文献】特開２０１１−１００２２９（ＪＰ，Ａ）

【文献】米国特許第０６５３９３９１（ＵＳ，Ｂ１）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｎ２０／００

(57)【特許請求の範囲】

【請求項1】

複数の第１のデータサンプルから複数の第１のトレーニングサンプルを決定するためのコンピュータ実装された方法であって、前記複数の第１のデータサンプルのそれぞれが、複数の第１の特徴値、およびその第１のデータサンプルを分類する第１のラベルを備える方法において、
前記複数の第１のデータサンプルの第１のサブセットが前記複数の第１の特徴値のうちの対応する１つまたは複数を有するデータサンプルを備えるように、前記第１のサブセットを選択することと、
前記第１のサブセットの前記第１のデータサンプルのそれぞれの前記第１のラベルに基づいて、前記第１のサブセットの前記データサンプルの前記第１の特徴値を結合することと、
によって、前記複数の第１のトレーニングサンプルのそれぞれを決定することを備える、方法。

【請求項2】

前記複数の第１のデータサンプルが、第１のデータセットのデータサンプルであり、前記複数の第１の特徴値のうちの前記対応する１つまたは複数が、第２のデータセットの複数の第２のデータサンプルの第２のサブセットの対応する特徴値でもある、請求項１に記載の方法。

【請求項3】

結合されたトレーニングサンプルをそれによって決定するために、前記複数の第１のトレーニングサンプルのうちの２つ以上を結合することをさらに備える、請求項１または２に記載の方法。

【請求項4】

前記複数の第１のトレーニングサンプルのうちの前記２つ以上を結合することが、前記複数の第１のトレーニングサンプルのうちの前記２つ以上を追加することを備える、請求項３に記載の方法。

【請求項5】

前記第１のサブセットを選択することが、前記複数の特徴値のうちの対応する１つまたは複数を有する前記複数の第１のデータサンプルの全てを選択することを備える、請求項１から４のいずれか１項に記載の方法。

【請求項6】

前記複数の第１のデータサンプルの第１のサブセットを選択することが、前記複数の第１のデータサンプルの第１のサブセットが前記複数の第１の特徴値のうちの対応する２つ以上を有するデータサンプルを備えるように前記第１のサブセットを選択することを備える、請求項１から５のいずれか１項に記載の方法。

【請求項7】

前記複数の第１のデータサンプルの第１のサブセットを選択することが、前記第１のラベルが前記複数の第１のデータサンプルの第１のサブセットについて一致するように前記複数の第１のデータサンプルの前記第１のサブセットを選択することを備える、請求項１から６のいずれか１項に記載の方法。

【請求項8】

前記データサンプルの前記第１の特徴値を結合することが、前記第１のトレーニングサンプルの特徴の前記特徴値が前記データサンプルのその特徴の前記第１の特徴値の合計であるように、前記第１のデータサンプルの前記第１の特徴値の前記合計を決定することを備える、請求項１から７のいずれか１項に記載の方法。

【請求項9】

前記合計を決定することが、前記第１のデータサンプルのそれぞれの前記第１のラベルに基づいて重み付けされる、重み付け合計を決定することを備える、請求項８に記載の方法。

【請求項10】

前記第１のデータサンプルが、第１の特徴値として符号付き実数値を有し、
前記第１のラベルが、「−１」および「＋１」のうちの１つである、請求項１から９のいずれか１項に記載の方法。

【請求項11】

前記第１のサブセットを選択することが、前記第１のサブセットが前記複数の第１の特徴値のうちの一致する１つまたは複数を有するデータサンプルのみを備えるように前記第１のサブセットを選択することを備える、請求項１から１０のいずれか１項に記載の方法。

【請求項12】

第１のトレーニングデータセットを第２のトレーニングデータセットと融合するための方法であって、
複数の第１のトレーニングサンプルを決定するために、前記第１のトレーニングデータセットについて請求項１から１１のいずれか１項に記載の方法を実行することと、
複数の第２のトレーニングサンプルを決定するために、前記第２のトレーニングデータセットについて請求項１から１１のいずれか１項に記載の方法を実行することと、
前記複数の第１のトレーニングサンプルのそれぞれを、その第１のトレーニングサンプルと同一の一致する特徴値に基づく前記複数の第２のトレーニングサンプルのうちの１つとマージすることと、を備える方法。

【請求項13】

前記複数の第１のトレーニングサンプルのそれぞれを、前記複数の第２のトレーニングサンプルのうちの１つとマージすることが、
前記１つまたは複数の一致する特徴値と、
前記対応する１つまたは複数の特徴値以外の、その第１のトレーニングサンプルの前記第１の特徴値と、
前記対応する１つまたは複数の特徴値以外の、前記複数の第２のトレーニングサンプルのうちの前記１つの前記第２の特徴値と、
を備える第３のトレーニングサンプルを決定することを備える、請求項１２に記載の方法。

【請求項14】

コンピュータ上にインストールされているときに、前記コンピュータに請求項１から１３のいずれか１項に記載の方法を実行させる、ソフトウェア。

【請求項15】

複数の第１のトレーニングサンプルを決定するためのコンピュータシステムであって、
複数のデータサンプルを受信する入力ポートと、前記複数のデータサンプルのそれぞれが、複数の特徴値、およびそのデータサンプルを分類するラベルを備える、
前記複数のデータサンプルのサブセットが前記複数の第１の特徴値のうちの対応する１つまたは複数を有するデータサンプルを備えるように前記サブセットを選択すること、および、
前記サブセットの前記データサンプルのそれぞれの前記ラベルに基づいて前記サブセットの前記データサンプルの前記特徴値を結合すること
によって、前記複数の第１のトレーニングサンプルのそれぞれを決定するプロセッサと、を備えるコンピュータシステム。

【請求項16】

複数の結合されたトレーニングサンプルを決定するための方法であって、
複数の第１のトレーニングサンプルを受信することと、前記複数の第１のトレーニングサンプルのそれぞれが複数のデータサンプルのサブセットの結合であり、ここにおいて、前記複数のデータサンプルの前記サブセットが複数の特徴値のうちの対応する１つまたは複数を有するデータサンプルを備え、
前記複数の第１のトレーニングサンプルのサブセットをランダムに選択すること、および、
前記サブセットの前記第１のトレーニングサンプルの前記特徴値を結合することによって、前記複数の結合されたトレーニングサンプルのそれぞれを決定することと、
を備える、方法。

【請求項17】

コンピュータ上にインストールされているときに、前記コンピュータに請求項１６に記載の方法を実行させる、ソフトウェア。

【請求項18】

複数の結合されたトレーニングサンプルを決定するためのコンピュータシステムであって、
複数の第１のトレーニングサンプルを受信する入力ポートと、前記複数の第１のトレーニングサンプルのそれぞれが複数のデータサンプルのサブセットの結合であり、ここにおいて、前記複数のデータサンプルの前記サブセットが複数の特徴値のうちの対応する１つまたは複数を有するデータサンプルを備え、
前記複数の第１のトレーニングサンプルのサブセットをランダムに選択すること、および、
前記サブセットの前記第１のトレーニングサンプルの前記特徴値を結合することによって、前記複数の結合されたトレーニングサンプルのそれぞれを決定するプロセッサと、を備える、コンピュータシステム。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互参照
本出願は、その内容が参照により本明細書に組み込まれる、２０１５年２月１３日に出願したオーストラリア仮特許出願第２０１５９００４６３号からの優先権を主張する。

【0002】

本開示は、分散データからの学習に関する。

【背景技術】

【0003】

インターネット上でサービスまたは製品を提供する会社はしばしば、彼らの顧客から幅広いデータを収集し、このデータを処理して、クライアントの行動への集約された見通しを取得する。

【0004】

多くの場合、１人の個人顧客に関するデータが、複数の別々のデータベース内で発見され得る。しかしながら、これらのデータベースの多くが、社会保障番号などの共通の一意の識別子を共有していない。したがって、学習のためにこれら２つのデータベースからデータを使用することは困難である。

【0005】

図１は、個人１０２、会社などのデータアグリゲータ１０４、第１のデータベース１０６、および第２のデータベース１０８を備える、先行技術のシナリオ１００を示す。矢印１１０および１１２によって示されるように、個人１０２に関するデータは、データベース１０６と１０８の両方に含まれている。

【0006】

本明細書に含まれている文書、行為、材料、デバイス、製品などのいかなる議論も、これらの事項のいずれかまたは全てが、先行技術の基礎の一部を形成するか、または、本出願の各請求項の優先日前に存在していた本開示に関連する分野において共通の一般的知識であったことを認めるものと受け取られるべきではない。

【0007】

本明細書全体を通じて、「備える（ｃｏｍｐｒｉｓｅ）」という語、または「備える（ｃｏｍｐｒｉｓｅｓ）」、もしくは「備えている（ｃｏｍｐｒｉｓｉｎｇ）」などの変化形は、記述した要素、整数、もしくはステップ、または要素、整数、もしくはステップの群を含むが、いかなる他の要素、整数、もしくはステップ、または要素、整数、もしくはステップの群も除外しないことを示唆すると理解されるであろう。

【発明の概要】

【0008】

複数の第１のデータサンプルから複数の第１のトレーニングサンプルを決定するためのコンピュータ実装された方法が提供される。複数の第１のデータサンプルのそれぞれが、複数の第１の特徴値（ｍｕｌｔｉｐｌｅｆｉｒｓｔｆｅａｔｕｒｅｖａｌｕｅｓ）、およびその第１のデータサンプルを分類する第１のラベルを備える。方法は、
複数の第１のデータサンプルの第１のサブセットが複数の第１の特徴値のうちの対応する１つまたは複数を有するデータサンプルを備えるように第１のサブセットを選択することと、
第１のサブセットの第１のデータサンプルのそれぞれの第１のラベルに基づいて、第１のサブセットのデータサンプルの第１の特徴値を結合することと、によって、複数の第１のトレーニングサンプルのそれぞれを決定することを備える。

【0009】

対応する特徴を共有するデータサンプルは、結合され、すなわち、データセットの同一ブロックにあるため、結果となるトレーニングサンプルは、同一の対応する特徴を共有する、他のデータベースからのトレーニングサンプルと結合され得る。その結果、エンティティマッチングは必要なく、それは、別々のデータセットからの学習時に、他の方法と比較して精度が高く、計算複雑性が低いことを意味する。

【0010】

複数の第１のデータサンプルが、第１のデータセットのデータサンプルであってもよく、複数の第１の特徴値のうちの対応する１つまたは複数が、第２のデータセットの複数の第２のデータサンプルの第２のサブセットの対応する特徴値でもあってもよい。

【0011】

方法は、結合されたトレーニングサンプルをそれによって決定するために、複数の第１のトレーニングサンプルのうちの２つ以上を結合することをさらに備えてもよい。

【0012】

複数の第１のトレーニングサンプルのうちの２つ以上を結合することが、複数の第１のトレーニングサンプルのうちの２つ以上を追加することを備えてもよい。

【0013】

第１のサブセットを選択することが、複数の特徴値のうちの対応する１つまたは複数を有する複数の第１のデータサンプルの全てを選択することを備えてもよい。

【0014】

複数の第１のデータサンプルの第１のサブセットを選択することが、複数の第１のデータサンプルの第１のサブセットが複数の第１の特徴値のうちの対応する２つ以上を有するデータサンプルを備えるように第１のサブセットを選択することを備えてもよい。

【0015】

複数の第１のデータサンプルの第１のサブセットを選択することが、第１のラベルが複数の第１のデータサンプルの第１のサブセットについて一致するように、複数の第１のデータサンプルの第１のサブセットを選択することを備えてもよい。

【0016】

データサンプルの第１の特徴値を結合することが、第１のトレーニングサンプルの特徴の特徴値がデータサンプルのその特徴の第１の特徴値の合計であるように、第１のデータサンプルの第１の特徴値の合計を決定することを備えてもよい。

【0017】

合計を決定することが、第１のデータサンプルのそれぞれの第１のラベルに基づいて重み付けされる、重み付け合計を決定することを備えてもよい。

【0018】

第１のデータサンプルが、第１の特徴値として符号付き実数値を有してもよく、第１のラベルが、「−１」および「＋１」のうちの１つであってもよい。

【0019】

第１のサブセットを選択することが、第１のサブセットが複数の第１の特徴値のうちの一致する１つまたは複数を有するデータサンプルのみを備えるように、第１のサブセットを選択することを備えてもよい。

【0020】

第１のトレーニングデータセットを第２のトレーニングデータセットと融合するための方法が、
複数の第１のトレーニングサンプルを決定するために、第１のトレーニングデータセットについて請求項１から１１のいずれか１項に記載の方法を実行することと、
複数の第２のトレーニングサンプルを決定するために、第２のトレーニングデータセットについて請求項１から１１のいずれか１項に記載の方法を実行することと、
複数の第１のトレーニングサンプルのそれぞれを、その第１のトレーニングサンプルと同一の一致する特徴値に基づく複数の第２のトレーニングサンプルのうちの１つとマージすることと、を備える。

【0021】

複数の第１のトレーニングサンプルのそれぞれを、複数の第２のトレーニングサンプルのうちの１つとマージすることが、
１つまたは複数の一致する特徴値と、
対応する１つまたは複数の特徴値以外の、その第１のトレーニングサンプルの第１の特徴値と、
対応する１つまたは複数の特徴値以外の、複数の第２のトレーニングサンプルのうちの１つの第２の特徴値と、を備える第３のトレーニングサンプルを決定することを備えてもよい。

【0022】

ソフトウェアが、コンピュータ上にインストールされているときに、コンピュータに上記方法を実行させる。

【0023】

複数の第１のトレーニングサンプルを決定するためのコンピュータシステムが、
複数のデータサンプルを受信する入力ポートと、複数のデータサンプルのそれぞれが、複数の特徴値、およびそのデータサンプルを分類するラベルを備える、
複数のデータサンプルのサブセットが複数の第１の特徴値のうちの対応する１つまたは複数を有するデータサンプルを備えるように、サブセットを選択すること、および、
サブセットのデータサンプルのそれぞれのラベルに基づいて、サブセットのデータサンプルの特徴値を結合することによって、複数の第１のトレーニングサンプルのそれぞれを決定するためのプロセッサと、を備える。

【0024】

複数の結合されたトレーニングサンプルを決定するための方法が、
複数の第１のトレーニングサンプルを受信することと、複数のデータサンプルのサブセットが複数の特徴値のうちの対応する１つまたは複数を有するデータサンプルを備えるように、複数の第１のトレーニングサンプルのそれぞれがサブセットの結合である、
複数の第１のトレーニングサンプルのサブセットをランダムに選択すること、および、
サブセットの第１のトレーニングサンプルの特徴値を結合することによって、複数の結合されたトレーニングサンプルのそれぞれを決定することと、を備える。

【0025】

ソフトウェアが、コンピュータ上にインストールされているときに、コンピュータに、複数の結合されたトレーニングサンプルを決定するための上記方法を実行させる。

【0026】

複数の結合されたトレーニングサンプルを決定するためのコンピュータシステムが、
複数の第１のトレーニングサンプルを受信する入力ポートと、複数のデータサンプルのサブセットが複数の特徴値のうちの対応する１つまたは複数を有するデータサンプルを備えるように、複数の第１のトレーニングサンプルのそれぞれがサブセットの結合である、
複数の第１のトレーニングサンプルのサブセットをランダムに選択すること、および、
サブセットの第１のトレーニングサンプルの特徴値を結合することによって、複数の結合されたトレーニングサンプルのそれぞれを決定するプロセッサと、を備える。

【図面の簡単な説明】

【0027】

【図1】個人データを別々のデータベース上に記憶するデータアグリゲータの先行技術のシナリオを示す図。

【0028】

例が、以下を参照して説明される。

【図2】分散データから学習するためのコンピュータシステム２００を示す図。

【図3】融合されるべき２つのデータセットを示す図。

【図4】図３のデータセットのうちの１つのデータサンプルからトレーニングサンプルを決定するための方法を示す図。

【図5】複数のトレーニングサンプルから複数の結合されたトレーニングサンプルを決定するための方法を示す図。

【図6】ロジスティック回帰のためのアルゴリズムを示す図。

【図7】ブロック型観測のサンプリングのためのアルゴリズムを示す図。

【図8】データ融合および学習のためのアルゴリズムを示す図。

【発明を実施するための形態】

【0029】

図２は、複数のデータサンプルから複数のトレーニングサンプルを決定することによって分散データから学習するためのコンピュータシステム２００を示す。コンピュータシステム２００は、携帯電話であってもよく、プログラムメモリ２０４、データメモリ２０６、通信ポート２０８、およびユーザポート２１０に接続されたプロセッサ２０２を備える。プログラムメモリ２０４は、ハードドライブ、ソリッドステートディスク、またはＣＤ−ＲＯＭなどの、非一時的コンピュータ可読媒体である。

【0030】

ソフトウェア、すなわち、プログラムメモリ２０４上に記憶された実行可能なプログラムは、プロセッサ２０２に図３の方法を実行させる。すなわち、プロセッサ４０２は、サブセットが、対応する特徴値を有するデータサンプルを備えるように、複数のデータサンプルのサブセットを選択することによって、複数のトレーニングサンプルのそれぞれを決定する。次いで、プロセッサ２０２は、そのトレーニングサンプルを決定するために、選択されたデータサンプルの特徴値を結合する。

【0031】

一例では、１つのデータセットが、データメモリ２０６上に記憶されている。そのときに、第２のデータセットおよびさらなるデータセットが、コンピュータシステム２００に類似の他のコンピュータシステム上に記憶されてもよい。いくつかの例では、全てのデータセットが、データメモリ２０６上に記憶され、またはデータセットは、データメモリ２０６上に記憶されない。データセットは、分散ハッシュテーブル（ＤＨＴ）などのクラウドストレージ上に記憶されてもよい。

【0032】

プロセッサ２０２は、決定されたトレーニングサンプルまたは分類係数を、ＲＡＭまたはプロセッサレジスタなどのデータストア２０６上に記憶してもよい。プロセッサ２０２は、また、決定されたトレーニングサンプルまたは分類係数を、通信ポート２０８を介して、別の携帯電話などの別のコンピュータシステムに送信してもよい。次いで、プロセッサ２０２、またはトレーニングサンプルを受信する別のコンピュータシステムは、分類子を決定するために、正規凸学習アルゴリズムまたはロジスティック回帰アルゴリズムなどの学習アルゴリズムを実行することができる。

【0033】

プロセッサ２０２は、データメモリ２０６から、ならびに通信ポート２０８およびユーザポート２１０から、データサンプルまたはトレーニングサンプルのデータなどのデータを受信してもよい。ユーザポート２１０は、データセットまたはデータセットの特徴の視覚表示２１４をユーザ２１６に見せるディスプレイ２１２に接続される。一例では、プロセッサ２０２は、ＩＥＥＥ８０２．１１によるＷｉ−Ｆｉネットワークを使用することなどによって、通信ポート２０８を介して記憶デバイスからデータを受信する。Ｗｉ−Ｆｉネットワークは、ルータなどの専用管理基盤が必要ないように、集中型でないアドホックネットワークであってもよく、またはネットワークを管理するルータもしくはアクセスポイントを有する集中型ネットワークであってもよい。

【0034】

一例では、プロセッサ２０２は、リアルタイムでデータセットを受信し、処理する。これは、プロセッサ２０２が、新たなデータサンプルを受信する度にトレーニングサンプルを決定し、次のデータ更新が提供される前にこの計算を完了することを意味する。

【0035】

通信ポート２０８およびユーザポート２１０は、別個のエンティティとして示されているが、ネットワーク接続、メモリインターフェース、プロセッサ２０２のチップパッケージのピン、またはＩＰソケット、もしくはプログラムメモリ２０４上に記憶され、プロセッサ２０２によって実行される関数のパラメータなどの論理ポートなどの、任意の種類のデータポートが、データを受信するために使用されてもよいと理解されるべきである。これらのパラメータは、データメモリ２０６上に記憶されてもよく、値によって、または参照によって、すなわちポインタとして、ソースコード内で扱われてもよい。

【0036】

プロセッサ２０２は、これら全てのインターフェースを通じてデータを受信してもよく、キャッシュもしくはＲＡＭなどの揮発性メモリ、または光ディスクドライブ、ハードディスクドライブ、ストレージサーバ、もしくはクラウドストレージなどの不揮発性メモリのメモリアクセスを含む。コンピュータシステム２００は、動的な数の仮想機械をホストする相互接続されたサーバの管理されたグループなどの、クラウドコンピューティング環境内でさらに実装されてもよい。

【0037】

任意の受信ステップは、プロセッサ２０２が、後で受信されるデータを決定し、または計算することによって先行されてもよいことが理解されるべきである。例えば、プロセッサ２０２は、トレーニングサンプルまたは分類係数を決定し、ＲＡＭまたはプロセッサレジスタなどのデータメモリ２０６にそれらを記憶する。次いで、プロセッサ２０２は、メモリアドレスと共に読み出し信号を提供することなどによって、データメモリ２０６からデータを要求する。データメモリ２０６は、物理ビット線上の電圧信号としてデータを提供し、プロセッサ２０２は、メモリインターフェースを介してトレーニングサンプルまたは分類係数を受信する。

【0038】

図３は、融合されるべき第１のデータセット３０２および第２のデータセット３０４を示す。２つのデータセット３０２および３０４は、異なる観点からの同一の実世界エンティティの特徴、例えば、同一の顧客ベースの銀行および保険会社の記録を含む。この例では、第１のデータセット３０２は、郵便番号３０６、性別３０８、毎月のクレジットカード支出３１０、この個人の自動車の毎月の推定コスト３１２（モデル、製造メーカなどに基づく）の特徴のための列、および最近１２か月間にこの個人が債務の履行を怠ったかどうかを示すラベル３１４のための列を備える。

【0039】

第２のデータセットもまた、郵便番号３１６、性別３１８のための特徴列、およびラベル列３２４を備える。第２のデータセット３０４は、年収３２０および結婚歴３２２についてのさらなる特徴列を備える。表現を単純化するために、データセット３０２と３０４の両方が、郵便番号および性別でソートされて示される。一方、他の例では、データセットは、ソートされていなくともよい。

【0040】

目的は、共有される識別子が、２つのソース３０２および３０４の間のビューにマッピングされていない難しい場合において、データの全てを活用する分類子を学習することである。図３の例では、双方向矢印３３０などの双方向矢印で示されるように、何人かの個人がデータセット３０２と３０４の両方に共通である。結果として、対応する行が、同一の郵便番号３０６／３１６、性別３０８／３１８、およびラベル３１４を共有する。しかしながら、これらの行は、同一の郵便番号、性別、およびラベルを共有する２人の異なる個人に属することもあることに留意すべきである。

【0041】

エンティティマッチングは、同一の個人に関連するマッチング行を識別することを目的とする。一方、行が、社会保障番号などの一意の識別子を含まない場合において、エンティティマッチングは、正確ではない。結果として、行の特徴は、それらが、異なる個人に関係するとしても、単一の観測に属するように考えられる。これは、完全なマッチングから得られるオラクル分類子（ｏｒａｃｌｅｃｌａｓｓｉｆｉｅｒ）とは著しく異なる、重大な欠陥のある分類子を学習することに繋がり得る。

【0042】

図４は、第１のデータセット３０２のデータサンプルからトレーニングサンプルを決定するための方法４００を示す。記述は、エンティティマッチングなしにデータセット３０２および３０４から学習する学習方法において、これらのトレーニングサンプルがどのように使用され得るかを、以下でさらに説明する。方法４００は、コンパイルされ、プログラムメモリ２０４上に記憶されるＣ＋＋、Ｊａｖａ（登録商標）、Ｐｙｔｈｏｎ、または他の言語で実装され得るコンピュータプログラムについてのブループリントまたは疑似コードである。プロセッサ２０２は、そこで、方法４００を実行するためにコンピュータプログラムの個々のコマンドを実行する。

【0043】

上述されたように、データセット３０２のデータサンプルのそれぞれは、特徴値３０６、３０８、３１０、および３１２、ならびにそのデータサンプルを分類するラベル３１４を備える。プロセッサ２０２は、以下のステップを実行することによって、各トレーニングサンプルを個々に決定する。

【0044】

サブセット３３２が、複数の第１の特徴値のうちの対応する１つまたは複数を有するデータサンプルを備えるように、プロセッサ４０２は、まず、データセット３０２内のデータサンプルのサブセット３３２を選択する。下記の例では、「対応する（ｃｏｒｒｅｓｐｏｎｄｉｎｇ）」という用語は、「一致する（ｉｄｅｎｔｉｃａｌ）」と交換可能に使用される。

【0045】

一方、他の例では、選択されたサンプルが、それらのそれぞれの特徴値間でいくらかの類似性を示すように、プロセッサ２０２は、サブセットを選択する。一例では、名前および姓は、共有特徴であり、プロセッサ２０２は、同一のサブセットとして、特徴値「ＪｏｈｎＳｍｉｔｈ」、「Ｊ．Ｓｍｉｔｈ」、または「ＪｏｈｎＣ．Ｓｍｉｔｈ」を有するデータサンプルを選択する。言い換えると、これらのわずかに異なるが十分に類似する特徴値が、「対応する」特徴値と呼ばれる。別の例では、郵便番号が共有され、プロセッサ２０２は、サブセットとして、「２０００」、「２ＯＯＯ」（数字のゼロに代えて文字の「Ｏ」）、または「２０＊＊」を有するデータサンプルを選択する。再度、これらのわずかに異なるが十分に類似する特徴値が、「対応する」特徴値と呼ばれる。このように、プロセッサ２０２は、共有特徴内のノイズまたは欠落値を扱う。

【0046】

「サブセット」および「ブロック」という用語は、特段の記載がない限り、本明細書において交換可能に使用されていることに留意すべきである。図３の例では、郵便番号列３０６および性別列３０８についての特徴値が、サブセット３３２の２つのデータサンプルについて一致するため、プロセッサ２０２は、サブセット３３２を選択する。この例では、ラベル３１４もまた、これらのデータサンプルについて一致する。プロセッサ２０２は、１つの対応する特徴値、２つの対応する特徴値、または任意の他の数の対応する特徴値に基づいて、サブセットを選択してもよいことに留意すべきである。

【0047】

図３の例では、データセット３０２内のデータサンプルの数が、少ない数しかなく、したがって、各サブセット内に少ない数のサンプルしかないことに留意すべきである。一方、多くの適用では、データサンプルの数は、１００，０００など、より著しく大きく、したがって、サブセットは、より多くのデータサンプルを含む。

【0048】

次いで、プロセッサ２０２は、サブセット３３２のデータサンプルのそれぞれのラベル３１４に基づいて、サブセット３３２のデータサンプルの特徴値３０６、３０８、３１０、および３１２を結合４０２する。一例では、プロセッサ２０２は、ラベル３１４によって重み付けされる重み付け合計を計算することによって、各列の特徴値３０６、３０８、３１０、および３１２を追加する。さらなる例では、プロセッサ２０２は、サブセット３３２内の一致しない特徴値のみの重み付け合計を計算する。

【0049】

図３の例では、サブセット３３２についての計算は、
年間支出特徴３１０については、５６＊（−１）＋９８７＊（−１）、
自動車コスト特徴３１２については、２２，５７８＊（−１）＋１３，８８６（−１）となる。

【0050】

結果となるトレーニングサンプルは、（２００４，Ｍ，−１，０４３，−３６，４６４）であり、それは、以下で「基本ｒａｄｏ」とも呼ばれる。この計算は、定義１において、以下でより形式的に述べられる。

【0051】

同様に、第２のデータセット３０４は、サブセット３３４を備える。サブセット３３２について対応する特徴値３０６および３０８は、また、サブセット３３４についても対応する。すなわち、これらのサンプルは、郵便番号２００４の男性に関係する。方法４００が開始する前に、プロセッサ２０２は、第１のサブセット３３２および第２のサブセット３３４について一致する特徴値の識別子を受信してもよい。これらの識別子は、データセット３０２および３０４が、サブセットまたはブロックを定義するために最も適当な特徴について分析される、前処理ステップにおいて決定されてもよい。一例では、プロセッサ２０２は、第１のデータセット３０２の特徴のうちのどれが、第２のデータセット３０４の特徴でもあるかを簡単にチェックする。図３の例では、プロセッサ２０２は、郵便番号および性別が両方のデータセット内に出現すると決定する。

【0052】

サブセット３３４についての計算は、
７８，６４３＊（−１）＋１１，２１１＊（−１）、および（−１）＊（−１）＋（−１）＊（−１）であり、結果として、
（２００４，Ｍ，−８９，８５４，２）がトレーニングサンプルとして得られる。

【0053】

対応する特徴値を繰り返すことなく、サブセット３３２および３３４それぞれからのトレーニングサンプルをマージすることは、結果として、
（２００４，Ｍ，−１，０４３，−３６，４６４，−８９，８５４，２）を生じる。

【0054】

上記の例は、非共有特徴をマージし、共有特徴、すなわち、対応する特徴、定数を維持する。これは、共有特徴についての決定木、および非共有特徴についての線形分離子を学習するのに有用であり得る。

【0055】

別の例では、線形分離子のみに依拠するために、共有される特徴は、非共有特徴と同じやり方で取り扱われる。したがって、それは、非共有特徴の共有特徴への変換を拡張することを示唆する。

【0056】

図３の例では、サブセット３３２についての計算は、
郵便番号特徴３０６については、２００４＊（−１）＋２００４＊（−１）、
性別特徴３０８については、（−１）＊（−１）＋（−１）＊（−１）、
年間支出特徴３１０については、５６＊（−１）＋９８７＊（−１）、
自動車コスト特徴３１２については、２２，５７８＊（−１）＋１３，８８６（−１）となる。

【0057】

そこで、結果となるトレーニングサンプルは、（−４００８，２，−１，０４３，−３６，４６４）であり、それは、以下で「基本ｒａｄｏ（ｂａｓｉｃｒａｄｏ）」とも呼ばれる。

【0058】

サブセット３３４についての計算は、
２００４＊（−１）＋２００４＊（−１）、および（−１）＊（−１）＋（−１）＊（−１）および７８，６４３＊（−１）＋１１，２１１＊（−１）、および（−１）＊（−１）＋（−１）＊（−１）であり、結果として、（−４００８，２，−８９，８５４，２）がトレーニングサンプルとして得られる。

【0059】

サブセット３３２および３３４それぞれからのトレーニングサンプルをマージすることは、（−４００８，２，−１，０４３，−３６，４６４，−８９，８５４，２）という結果となる。

【0060】

プロセッサ２０２は、バイナリ値などに値の数を減少させるために、基本ｒａｄｏを後処理することができる。一例では、非対応特徴値の支出３１０、自動車コスト３１２、収入３２０は、閾値を適用することによって、バイナリ値「＋１」および「−１」に変換される。一例では、クレジットカード支出３１０についての閾値は５００であり、自動車コスト３１２については、３０，０００であり、収入３２０については、５０，０００である。

【0061】

サブセット３３２についての簡易化計算は、そこで、
クレジットカード支出３１０については、（−１）＊（−１）＋１＊（−１）＝０であり、それは、クレジットカード支出３１０が、郵便番号２００４の男性についての不履行リスクに影響を及ぼさないことを示す。自動車コスト３１２については、（−１）＊（−１）＋（−１）＊（−１）＝２であり、それは、自身の自動車により多くのコストを費やす、郵便番号２００４の選択された男性は、履行を怠りそうにないことを示す。

【0062】

同様に、サブセット３３４についての簡易化計算は、そこで、
年収３２０については、１＊（−１）＋（−１）＊（−１）＝０であり、それは、年収３２０が、郵便番号２００４の男性についての不履行リスクに影響を及ぼさないことを示す。結婚歴３２２については、（−１）＊（−１）＋（−１）＊（−１）＝２であり、それは、結婚していることが、郵便番号２００４の男性についての不履行リスクを増加させることを示す。

【0063】

共有特徴および非共有特徴が、異なった取り扱いをされる例において、マージされたトレーニングサンプルは、（２００４，Ｍ，０，２，０，２）であり、上述されたように共有特徴が非共有特徴と同様に取り扱われる例においては、（−４００８，２，０，２，０，２）である。共有値は、例えば、それが間隔［２０００，２０５０］の間に属する場合は「＋１」、そうでなければ「−１」などといったように、２つのバイナリ値「＋１」および「−１」に郵便番号を減少させるようになど、さらに後処理され得る。

【0064】

図３の例では、第１のデータセット３０２内にさらなるサブセット３３６があり、それは結果として、（２０１２，Ｍ，２，−２）（または共有および非共有特徴の同等の処理の場合（４０２４，−２，２，−２））の（マージ前の）トレーニングサンプルを生じる。第２のデータセット３０４内にさらなるサブセット３３８があり、それは結果として（２０１２，Ｍ，０，０）（または共有および非共有特徴の同等の処理の場合（４０２４，−２，０，０））のトレーニングサンプルを生じる。したがって、マージされた第２のトレーニングサンプルは、（２０１２，Ｍ，２，−２，０，０）（または共有および非共有特徴の同等の処理の場合（４０２４，−２，２，−２，０，０））であることになる。

【0065】

このことが示すように、各データセット内の２つのサブセットから２つのマージされたトレーニングサンプルが存在する。言い換えると、トレーニングサンプルの数は、サブセットまたはブロックの数に一致する。一方、トレーニングサンプルの数がより大きい場合、学習アルゴリズムにとって、しばしばより良い性能をもたらす。

【0066】

図５は、プロセッサ２０２によって実行される、複数の結合されたトレーニングサンプルを決定するための方法５００を示す。方法５００は、トレーニングサンプルを生成するための方法４００を実行するプロセッサとは異なるコンピュータシステムの異なるプロセッサによって実行されてもよいことに留意すべきである。一例では、方法５００は、方法４００とは関係なく実行される。

【0067】

方法５００を実行すると、プロセッサ２０２は、複数の第１のトレーニングサンプルを受信する。上述されるように、複数のデータサンプルのサブセットが複数の特徴値のうちの対応する１つまたは複数を有するデータサンプルを備えるように、複数のトレーニングサンプルのそれぞれがサブセットの結合である。

【0068】

次いで、プロセッサ２０２は、結合されたトレーニングサンプルを決定するために、複数の第１のトレーニングサンプルのサブセットをランダムに選択し、サブセットの第１のトレーニングサンプルの特徴値を結合する。

【0069】

これは、プロセッサ２０２が、１つまたは複数のサブセットの結合が存在するのと同じ数の結合されたトレーニングサンプルを生成することを可能にする。図３の例では、２つのサブセットのただ１つの結合が存在し、すなわち、プロセッサ２０２は、第３のトレーニングサンプルを決定する。一方、２つの異なる郵便番号を有するより大きなデータセットの場合、性別特徴を考慮する８個のサブセットが存在し、ラベルは、サブセットの数をそれぞれ２倍する。これは、２５５の異なる結合を可能にし、プロセッサ２０２は、さらなる結合されたトレーニングサンプルを決定するために、これらのランダムな結合を選択する。

【0070】

プロセッサ２０２は、特徴値を追加することによって、結合されたトレーニングサンプルを決定してもよい。すなわち、上記２つのトレーニングサンプルを結合することが、第３の結合されたトレーニングサンプルとして、（２０１２，Ｍ，２，０，０，２）（または共有および非共有特徴の同等の処理の場合（４０２４，−２，２，０，０，２））を与えることとなる。

【0071】

共有および非共有特徴の同等の処理の場合の計算を含む上記変換は、下記の定義２と整合することに留意すべきである。

【0072】

一例では、プロセッサ２０２は、バイナリ分類子を学習し、すなわち、２つのドメイン３０２と３０４の間でエンティティマッチングを実行する必要なく、ドメイン３０２と３０４の両方のクロス積空間において、分類係数を決定する。学習は、ある集計された統計値の関数としてのロジスティック損失の公式化に基づいてもよく、それは、ラーデマッヘル観測（Ｒａｄｅｍａｃｈｅｒｏｂｓｅｒｖａｔｉｏｎ）（ｒａｄｏ）と呼ばれる。一度分類子が学習されると、すなわち、分類係数が決定されると、プロセッサ２０２は、ラベルなしの新たなデータサンプルのために推定されるラベルを決定することができる。例えば、プロセッサ２０２は、個人の郵便番号、性別、クレジットカード支出、自動車コスト、収入および結婚歴を受信し、その個人が、履行を怠りそうであるかどうかを、分類係数に基づいて決定することができる。

【0073】

元の観測についてのロジスティック損失の最小化は、これらのｒａｄｏについての指数ｒａｄｏ損失の最小化と等価である。したがって、それらは実際上知られていないため、プロセッサ２０２は、個々の観測を無視する分類子を学習することができる。

【0074】

既存のインスタンスについての新たな特徴を取得する手段として、データセットをマージすることは、予測力を大幅に高める可能性を有することに留意すべきである。保険および銀行データはともに、不正利用検出を向上させ得る。買物記録は、病気のリスクを推定するための病歴をうまく補完し得る。データ融合、ノイズのある異種のデータセットのエンティティをマージするプロセスは、いくつかのドメイン内、例えば、ゲノミクスにおいて、予測問題に対して効果的であり得る。

【0075】

一例では、データセット３０２および３０４は、（一方の組織にその個々の顧客の他方のビューを明らかにすることとなる）共通ＩＤを共有することなく、彼らのデータ資産の共同力を活用したい別々の組織によって保持される。

【0076】

ｒａｄｏは、学習サンプルのサブセットについての集計された統計値である。その評価のために個々の例が必要とされないように、それらは、便利な形態でロジスティック損失に基づいて代理リスクを表現することを可能にする。そのような集計されたレベルで動作すると、エンティティ照合は必要とされない。

【0077】

２つの基本的な結果は、学習動作を容易にする。第１に、その数が、サンプルの大きさにおいて指数的であり、したがって扱いにくい、ｒａｄｏの全てのセットについて、損失間で等価が保持される。しかしながら、統計的観点から、下記で提示される集中特性を考慮すると、多数のｒａｄｏは、学習には必要ではない。

【0078】

第２に、上述したように、エンティティ分析は必要とされないが、複数のデータセットからｒａｄｏを構築することは、簡単ではない。例えば、性別、郵便番号などの特徴のうちのいくつかが、データセット間で共有されるとき、プロセッサ２０２は、例のサブセット（ブロック）、したがってそれらのｒａｄｏを照合することが分かる。必要とされる情報は、エンティティの照合方法を知るよりももっと粗い。

【0079】

ｎ∈Ｎ_*および［ｎ］＝｛１，２，．．．，ｎ｝とする。ベクトルを示すためにｖのように太字を使用し、その座標は、ｉ∈［ｎ］についてのｖ_iと示される。線形モデルθを用いたバイナリ分類のタスクは、学習サンプルＳ＝｛（ｘ_i，ｙ_i），ｉ∈［ｍ］｝からラベルｙについての予測因子を学習することを備える。各例は、

【0080】

【数1】

【0081】

である観測ラベルのペア（ｘ_i，ｙ_i）∈Ｘ×｛−１，＋１｝であり、それは、未知の分散Ｄから独立同分布で表される。ラベルは、θ^Τｘの符号によって予測される。エンティティという語は、エンティティマッチングのオブジェクトとして、データセット内の全体的な記録をいい、属性は、その値を指す。

【0082】

図３における設定は、次の意味で異なる。２つの互いに素な（学習）サンプルＳ_j，ｊ∈［２］が与えられる。それぞれが、それ自体の特徴空間、

【0083】

【数2】

【0084】

であって

【0085】

【数3】

【0086】

、ｄ＝ｄ₁＋ｄ₂内で定義され、

【0087】

【数4】

【0088】

は、ビューｊの特徴ｉによって張られる空間である。

【0089】

【数5】

【0090】

における例は、ρ（ｉ）によって、

【0091】

【数6】

【0092】

におけるそれらのビューにマッピングされる。目的は、ｘ∈Ｘについての線形分類器θを学習することである。提案される方法は、カーネルで拡張されてもよい。

【0093】

以下の仮定が用いられてもよい。
・互いに素なサンプルは、同一のｍ個の観測のビューである。すなわち、ρ：［ｍ］→［ｍ］は、Ｓ₁とＳ₂との間の１対１マッピングである。ρは未知である。
・ラベルは、互いに素であるサンプル

【0094】

【数7】

【0095】

の間で整合している。
・欠けているラベルはない。
マッピングρが既知であった場合、３つの仮定は、プロセッサ２０２が、

【0096】

【数8】

【0097】

のような連結によってサンプルＳを形成することを可能にすることとなる。

【0098】

理想化されたプロセスは、図３のＳ₁３０２およびＳ₂３０４をＳ（図示せず）から生成してもよい。１）特徴空間ＸをＸ₁およびＸ₂に分配する。２）全ての観測ｘ_iをそれに従って分割し、それらをＳ₁およびＳ₂に割り当てる。３）ｙ_iを、Ｓ₁およびＳ₂の関係する分割観測に割り当てる。４）ρを通じてＳ₂を並べ替える。

【0099】

学習のためにデータセットをマージするためのおおよその順列を見つけることは、結果として、真の順列で得られるものとは著しく異なる分類子を生じることがある。

【0100】

ラーデマッヘル観測およびロジスティック損失
Σ_m＝｛−１，１｝^mとする。そのとき［１］である。

【0101】

定義１：任意のσ∈Σ_mについて、記号σを有するラーデマッヘル観測π_σは、

【0102】

【数9】

【0103】

である。

【0104】

Ｓへの参照は、π_σの定義において陰伏的である。したがって、ラーデマッヘル観測は、ｙ_i＝σ_iである例のサブセットについての項ｙ_iｘ_iを合計する。σ＝ｙが、クラスのベクトルであるとき、π_σ＝ｍμ_Sは、平均演算子のｍ倍である。σ＝−ｙのとき、ヌルベクトルπ_σ＝０を得る。

【0105】

Ｓについてθを学習する手法は、ロジスティック損失から構築される代理リスクＦ_log（Ｓ，θ）の最小化にそれを適合させることである。

【0106】

【数10】

【0107】

指数ｒａｄｏリスク（ｅｘｐｏｎｅｎｔｉａｌｒａｄｏ−ｒｉｓｋ）

【0108】

【数11】

【0109】

は、任意のＵ⊆Σ_mについてプロセッサ２０２によって以下のように計算されてもよい。

【0110】

【数12】

【0111】

Ｕ＝Σ_mであるとき、Ｆ_logおよび

【0112】

【数13】

【0113】

は、単純な単調関係によって関係しており、したがって、１つの基準を最小化することは、他の基準を最小化することと等価であり、逆もまた同様であることが分かる。

【0114】

任意のθおよびＳについて、以下が成り立つ。

【0115】

【数14】

【0116】

これは、ロジスティック損失についての学習サンプルＳに関するラーデマッヘル観測のセット全体の十分性の説明であり得る。これは、ラベル変数についての平均演算子の十分性を導き出す。

【0117】

しかしながら、Σ_mのサイズがｍにおいて指数関数的であると、指数関数的に多くのｒａｄｏが学習に必要とされるために上記等価は実際的でないことがある。したがって、プロセッサ２０２は、｜Ｕ｜＝ｎ＝２^mｒａｄｏのみを使用して代理リスクの近似を定量化する。

【0118】

次の結果は、｜Ｆ_log（Ｓ，θ，Ｕ）−Ｆ_log（Ｓ，θ）｜の確率境界を詳細に述べる。ここで、

【0119】

【数15】

【0120】

方程式（３）は、近似Ｆ_log（Ｓ，θ，Ｕ）が、Ｆ_log（Ｓ，θ）の周囲にはっきりと集中されることを示す。

【0121】

図６は、ソフトウェアとして実装され、プロセッサ２０２によって実行されるアルゴリズム６００を示す。１）１つのデータセットのみが与えられ、したがって、２）ｒａｄｏが、全て自由に計算され得るとき、それが「初期ケース」における問題を解くため、アルゴリズム６００は、背景情報として提供される。ブロックは、以下でさらに考慮される。

【0122】

上述の集中特性は、標準的な分類設定においてラーデマッヘル観測を用いてＳから学習するためのアルゴリズム６００を容易にする。以下の説明は、プロセッサ２０２が、互いに素である学習サンプルからのｒａｄｏをどのようにしてマージするかを述べる。

【0123】

互いに素であるサンプルから集中されるｒａｄｏのセットを

【0124】

【数16】

【0125】

として表すとする。

【0126】

同一のσは、Ｓ₁とＳ₂の両方をサブサンプリングするために使用されることに留意する。一般的にはρ（ｉ）≠ｉであるため、集中の結果、インコヒーレントなサブサンプリングとなり、セット｛π_σ：σ∈Ｕ｝に等しくない。そのような等式は、４つの特定の記号、すなわち、全てのｉについてのσ_i＝±１，±ｙ_iについてのみ真である。これらは、それぞれ、負および正の観測のサブセット、（非正規形）平均演算子ｍμおよびヌルベクトルに基づいて構築されたｒａｄｏである。

【0127】

Σ_mに対応するｒａｄｏのセット全体についての誤りのない連結は、本質的に完全ＥＲを意味し、実際にはｒａｄｏのｍが、１つの例のみについての合計である。したがって、｜Ｕ｜＝２^mは、扱いにくいだけでなく、実際にＥＲなしでは達成できない。それにもかかわらず、上記で説明したように、統計的にはこれは必要ですらない。以下の説明は、プロセッサ２０２が、事前知識に基づいて、ｒａｄｏのサブセットについての誤りのない連結をどのようにして取得するかを示している。

【0128】

ブロッキング（ｂｌｏｃｋｉｎｇ）は、ＥＲプロセス内の一段階である。データセットからのエンティティは、それらが同一の値のブロッキングキー（ｂｌｏｃｋｉｎｇｋｅｙ）を共有する場合に、同一のブロック内に挿入される。ブロッキングキーは、例えば、郵便番号などいずれか１つの属性の値、または郵便番号および性別などデータセットによって共有される複数の属性、または姓の最初の文字のようにそれらの機能から導き出され得る。言い換えると、１つのブロックからのサンプルのみを考慮することによって、サブセットが、特徴値、すなわち、ブロッキングキーのうちの対応する１つまたは複数を有するサンプルを備えるように、プロセッサ２０２は、データサンプルのサブセット（そのブロック）を選択する。

【0129】

ブロッキングキーは、データサンプルのサブセットを選択することと等価であるデータの一部を誘導する。

【0130】

後で説明されるように、プロセッサ２０２は、「基本ブロック」、すなわちサブセットの、全ての可能性のある和集合をとることによって、ブロックの拡大されたセットを考慮してもよい。「基本ブロック」は、上記で説明されたように定義されるものである。

【0131】

より形式的には、正の数Ｋ≦ｍｉｎ（ｄ₁，ｄ₂）の特徴は、２つのデータセット間で共有され、それぞれの共有される特徴ｋは、濃度Ｃ_k＞１を有する。一例では、プロセッサ２０２は、実数値特徴を定量化する。ラベルは、追加の共有属性としての役割をする。基本ブロックは、あらゆる共有特徴およびラベル、例えば、郵便番号＝２０００、性別＝「Ｆ」、およびｙ＝１について同一の値と共に発生する、例のサブセットである。より一般的には、ブロックは、基本ブロックの和集合であり、郵便番号∈［２０００，２９９９］、性別＝「Ｆ」、およびｙ∈｛−１，１｝を有する例を含みうる。

【0132】

基本ブロックの数は、

【0133】

【数17】

【0134】

である。２は、２つのラベルに起因し、それは、常に２つの基本ブロックを誘導する。数字は、別個の基本ブロックの数量についての上限を与える。実際に、いくつかの共有特徴は、新たなブロックを構築する追加の情報をもたらすことはない。

【0135】

【数18】

【0136】

が、別個の基本ブロックの数であるように、割引因子は、

【0137】

【数19】

【0138】

である。例えば、ｋ’が、ｋの複製であるとき、内部合計は、Ｃ_kである。それは、外部合計によって２倍にカウントされるため、全ての項が２で割られ、したがって、α＝Ｃ_kである。その結果、各基本ブロックが選択されるか、または和集合内にないため、ブロックは、２^H−１の数のうちにあり、１は、空のブロックに相当する。

【0139】

各ブロックは、ｒａｄｏを定義する。

【0140】

定義２：Ｂ＝｛ｂ_t⊆Ｓ，ｔ∈［Ｔ］｝とする、ブロックのシーケンスである。ブロックラーデマッヘル観測π_t（ｂ_tと整合する）は、

【0141】

【数20】

【0142】

として定義される。また、Π（Ｂ）｛ｂ_t∈Ｂと整合するπ_t｝とする。定義２は、基本ブロックにも特化され、１つが、和集合による他の全てを生成する。基本ブロックの和集合のｒａｄｏが、基本ｒａｄｏの合計であるから、この最後の特性は、基本（ブロック）ｒａｄｏのセットに移行する。したがって、基本ｒａｄｏΠ（ＢＢ）のセットは、全てのブロックｒａｄｏΠ（Ｂ）についての生成元であり、その大きさは、指数関数的に大きい。これは、次の補助定理を証明する。

【0143】

ブロックＢのセットおよび基本ブロックＢＢ⊂Ｂとすると、

【0144】

【数21】

【0145】

であるように

【0146】

【数22】

【0147】

となる。

【0148】

図７は、この補助定理に基づくさらなるアルゴリズム７００を示し、それは、Π（Ｂ）からのサンプリングの非常に容易な実装を可能にする。Π（ＢＢ）から全ての要素が一度計算されると、データセットへのいかなる他のコストのかかる訪問も回避することができる。分散された設定も、大いに利益があり得る。

【0149】

データ融合に戻って、以下の完全ブロッキングの仮定が使用されてもよい。互いに素である学習サンプルについて定義される、対応するブロック（ｂ₁，ｂ₂）のそれぞれのペアについて、

【0150】

【数23】

【0151】

となる。すなわち、２つのブロックは、同一の例のビューを正確に含む。ブロックｒａｄｏの連結は、誤りがない。

【0152】

【数24】

【0153】

とする。

【0154】

Ｕ（Ｂ）＝｛σ：π_σ∈Π（Ｂ）｝とする。任意のＵ⊆Ｕ（Ｂ）を選ぶと、次のように等価性を得る。

【0155】

【数25】

【0156】

下記の方程式は、上記のロジスティック損失の式に対する証明を提供する。

【0157】

【数26】

【0158】

ここで、（２０，２２）においてＵ＝Ｕ（Ｂ）を、（２１）において上記完全ブロッキングの仮定を使用している。

【0159】

図８は、ｒａｄｏをサンプリングするための、図７のアルゴリズム７００を使用するさらなるアルゴリズム８００を示す。

【0160】

プロセッサ２０２は、Ｌ−ＢＦＧＳを用いて凸問題を解いてもよい。最適化の間、ｒａｄｏは、方程式（１８）におけるべき乗を分岐させることができる。それによって、それぞれのｒａｄｏは、ｒａｄｏによって合計されたトレーニングサンプルの数またはサンプルサイズｍのいずれかによって正規化されてもよい。

【0161】

上記で示されるように、分類のための基準としてｒａｄｏリスクを最小化することは、効果的である。別の例では、特徴空間は、例えば、年齢、出生国などの人口統計学の変数のサブセットと、例えば、時間当たりの賃金、キャピタルゲインなどの、収入関連の変数のサブセットの間で分割される。３つの特徴、すなわち、性別、年齢、人種は、共有されると仮定されてもよい。年齢は、連続的な変数であり、したがって、プロセッサ２０２は、その分位値を考慮する。タスクは、人が、１年に５万ドルより多く稼ぐかどうかを分類することである。

【0162】

ｎ∈｛５０，５０００｝である。アルゴリズム５００によってサンプリングされたｒａｄｏの数は、５０から５０００の間であってもよい。プロセッサ２０２は、別個のものを保持するだけで、より小さなセットでトレーニングを実行してもよい。一例では、正則化は適用されない。

【0163】

第２に、実際には、別の適切な状況が存在する。Ｘ₁またはＸ₂のいずれかにおいてのみ予測することが可能であるが、依然としてＸ全体についてのモデルを学習したと仮定する。提示した損失関数が、この問題に取り組むために設計されていないとしても、関連するサブ空間Ｘ_jによってモデルを単に分割してもよい。この稚拙な発見的教授法は、ジョンソン−リンデンストラウス（Ｊｏｈｎｓｏｎ−Ｌｉｎｄｅｎｓｔｒａｕｓｓ）の定理に鑑みてうまく動作し得る。

【0164】

並列および分散型学習。ｒａｄｏは、線形演算子であり、したがって、並列化可能である。並行計算は、この方法に大いに利益をもたらす。これは、データが分配され、効果的にマージされないことによって、容易となる。

【0165】

通信プロトコルは、データが存在する場合に一度ｒａｄｏが計算されると、それらは、１回で中央の学習者に送信される。Ｈ個の基本ｒａｄｏのみが必要であり、データにはもはやアクセスされる必要はない。ブロックｒａｄｏのサンプリングは、必要であれば、同様に分散され得る。

【0166】

リソースが、中央ユニットにおいて不足していないとの仮定の下で、学習の大部分は、標準凸最適化によって実行される。ｒａｄｏは、また、データ圧縮を助け、ｎは、ｍよりも著しく小さく、したがって、中央オプティマイザのスケーラビリティに肯定的な効果を有し得る。

【0167】

一例では、２つのデータプロバイダは、予測モデルを改善することに関心があるが、共有する情報を最小化することを目的とする。学習者は、ｒａｄｏを受信し、モデルをトレーニングする。学習者は、第３のエージェント、またはデータプロバイダの一方のいずれかであり得る。プロバイダは、潜在的な中間者攻撃と学習者それ自体の両方に対して保護する必要がある。チャネルを通じて送信される情報のみが、ｒａｄｏからなり、例は、全く共有されない。σまたはｍについての情報は、どちらも交換されないことに留意する。データセットを再構成するためのいかなる試みも、十分な情報が不足することになる。

【0168】

一例では、データセットは、同一の観測のビューを含み、それらのラベルは、整合しており、常に存在し、ブロッキングは完全である。ｒａｄｏが持っている統計的特性のおかげで、それらの仮定全てが、アルゴリズムに対し必須ではない。

【0169】

ラベル以外のいかなる共有特徴もなしで、プロセッサ２０２は、４つのｒａｄｏのみを決定する。それらのうちの１つは、ロジスティック損失を最小化するためのラベルに関する十分な統計値である。学習のための全ての管理は、この量に組み込まれる。

【0170】

特許請求の範囲で定義される範囲から逸脱することなく、多数の変形および／または修正が、特定の実施形態に対して行われ得ると、当業者により理解されるであろう。

【0171】

本開示の技術は、様々な技術を用いて実施されてもよいと、理解されるべきである。例えば、本明細書に記載された方法は、適当なコンピュータ可読媒体上に存在する一連のコンピュータ実行可能命令によって実施されてもよい。適当なコンピュータ可読媒体は、揮発性（例えば、ＲＡＭ）および／または不揮発性（例えば、ＲＯＭ、ディスク）メモリ、搬送波、ならびに伝送媒体を含んでもよい。例示的な搬送波は、ローカルネットワーク、またはインターネットなどの公開アクセス可能なネットワークに沿って、デジタルデータストリームを伝達する電気、電磁気、または光信号の形態をとってもよい。

【0172】

特段の記載がない限り、以下の議論全体を通して明らかなように、「推定する（ｅｓｔｉｍａｔｉｎｇ）」、または「処理する（ｐｒｏｃｅｓｓｉｎｇ）」、または「計算する（ｃｏｍｐｕｔｉｎｇ）」、または「計算する（ｃａｌｃｕｌａｔｉｎｇ）」、「最適化する（ｏｐｔｉｍｉｚｉｎｇ）」、または「決定する（ｄｅｔｅｒｍｉｎｉｎｇ）」、または「表示する（ｄｉｓｐｌａｙｉｎｇ）」、または「最大化する（ｍａｘｉｍｉｓｉｎｇ）」などの用語を利用する議論は、コンピュータシステムのレジスタおよびメモリ内の物理（電子）量として表されるデータを処理し、コンピュータシステムのメモリもしくはレジスタ、または他のそのような情報記憶装置、伝送または表示デバイス内の物理量として同様に表される他のデータに変換する、コンピュータシステム、または類似の電子コンピューティングデバイスの動作および処理を指すことを理解されたい。

【0173】

したがって、本実施形態は、全ての点において、例示的であり、限定的ではないと考えられるべきである。以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
［１］複数の第１のデータサンプルから複数の第１のトレーニングサンプルを決定するためのコンピュータ実装された方法であって、前記複数の第１のデータサンプルのそれぞれが、複数の第１の特徴値、およびその第１のデータサンプルを分類する第１のラベルを備える方法において、
前記複数の第１のデータサンプルの第１のサブセットが前記複数の第１の特徴値のうちの対応する１つまたは複数を有するデータサンプルを備えるように、前記第１のサブセットを選択することと、
前記第１のサブセットの前記第１のデータサンプルのそれぞれの前記第１のラベルに基づいて、前記第１のサブセットの前記データサンプルの前記第１の特徴値を結合することと、
によって、前記複数の第１のトレーニングサンプルのそれぞれを決定することを備える、方法。
［２］前記複数の第１のデータサンプルが、第１のデータセットのデータサンプルであり、前記複数の第１の特徴値のうちの前記対応する１つまたは複数が、第２のデータセットの複数の第２のデータサンプルの第２のサブセットの対応する特徴値でもある、［１］に記載の方法。
［３］結合されたトレーニングサンプルをそれによって決定するために、前記複数の第１のトレーニングサンプルのうちの２つ以上を結合することをさらに備える、［１］または［２］に記載の方法。
［４］前記複数の第１のトレーニングサンプルのうちの前記２つ以上を結合することが、前記複数の第１のトレーニングサンプルのうちの前記２つ以上を追加することを備える、［３］に記載の方法。
［５］前記第１のサブセットを選択することが、前記複数の特徴値のうちの対応する１つまたは複数を有する前記複数の第１のデータサンプルの全てを選択することを備える、［１］から［４］のいずれか１項に記載の方法。
［６］前記複数の第１のデータサンプルの第１のサブセットを選択することが、前記複数の第１のデータサンプルの第１のサブセットが前記複数の第１の特徴値のうちの対応する２つ以上を有するデータサンプルを備えるように前記第１のサブセットを選択することを備える、［１］から［５］のいずれか１項に記載の方法。
［７］前記複数の第１のデータサンプルの第１のサブセットを選択することが、前記第１のラベルが前記複数の第１のデータサンプルの第１のサブセットについて一致するように前記複数の第１のデータサンプルの前記第１のサブセットを選択することを備える、［１］から［６］のいずれか１項に記載の方法。
［８］前記データサンプルの前記第１の特徴値を結合することが、前記第１のトレーニングサンプルの特徴の前記特徴値が前記データサンプルのその特徴の前記第１の特徴値の合計であるように、前記第１のデータサンプルの前記第１の特徴値の前記合計を決定することを備える、［１］から［７］のいずれか１項に記載の方法。
［９］前記合計を決定することが、前記第１のデータサンプルのそれぞれの前記第１のラベルに基づいて重み付けされる、重み付け合計を決定することを備える、［８］に記載の方法。
［１０］前記第１のデータサンプルが、第１の特徴値として符号付き実数値を有し、
前記第１のラベルが、「−１」および「＋１」のうちの１つである、［１］から［９］のいずれか１項に記載の方法。
［１１］前記第１のサブセットを選択することが、前記第１のサブセットが前記複数の第１の特徴値のうちの一致する１つまたは複数を有するデータサンプルのみを備えるように前記第１のサブセットを選択することを備える、［１］から［１０］のいずれか１項に記載の方法。
［１２］第１のトレーニングデータセットを第２のトレーニングデータセットと融合するための方法であって、
複数の第１のトレーニングサンプルを決定するために、前記第１のトレーニングデータセットについて［１］から［１１］のいずれか１項に記載の方法を実行することと、
複数の第２のトレーニングサンプルを決定するために、前記第２のトレーニングデータセットについて［１］から［１１］のいずれか１項に記載の方法を実行することと、
前記複数の第１のトレーニングサンプルのそれぞれを、その第１のトレーニングサンプルと同一の一致する特徴値に基づく前記複数の第２のトレーニングサンプルのうちの１つとマージすることと、を備える方法。
［１３］前記複数の第１のトレーニングサンプルのそれぞれを、前記複数の第２のトレーニングサンプルのうちの１つとマージすることが、
前記１つまたは複数の一致する特徴値と、
前記対応する１つまたは複数の特徴値以外の、その第１のトレーニングサンプルの前記第１の特徴値と、
前記対応する１つまたは複数の特徴値以外の、前記複数の第２のトレーニングサンプルのうちの前記１つの前記第２の特徴値と、
を備える第３のトレーニングサンプルを決定することを備える、［１２］に記載の方法。
［１４］コンピュータ上にインストールされているときに、前記コンピュータに［１］から［１３］のいずれか１項に記載の方法を実行させる、ソフトウェア。
［１５］複数の第１のトレーニングサンプルを決定するためのコンピュータシステムであって、複数のデータサンプルを受信する入力ポートと、前記複数のデータサンプルのそれぞれが、複数の特徴値、およびそのデータサンプルを分類するラベルを備える、
前記複数のデータサンプルのサブセットが前記複数の第１の特徴値のうちの対応する１つまたは複数を有するデータサンプルを備えるように前記サブセットを選択すること、および、
前記サブセットの前記データサンプルのそれぞれの前記ラベルに基づいて前記サブセットの前記データサンプルの前記特徴値を結合すること
によって、前記複数の第１のトレーニングサンプルのそれぞれを決定するプロセッサと、を備えるコンピュータシステム。
［１６］複数の結合されたトレーニングサンプルを決定するための方法であって、
複数の第１のトレーニングサンプルを受信することと、複数のデータサンプルのサブセットが複数の特徴値のうちの対応する１つまたは複数を有するデータサンプルを備えるように前記複数の第１のトレーニングサンプルのそれぞれが前記サブセットの結合である、前記複数の第１のトレーニングサンプルのサブセットをランダムに選択すること、および、
前記サブセットの前記第１のトレーニングサンプルの前記特徴値を結合することによって、前記複数の結合されたトレーニングサンプルのそれぞれを決定することと、
を備える、方法。
［１７］コンピュータ上にインストールされているときに、前記コンピュータに［１６］に記載の方法を実行させる、ソフトウェア。
［１８］複数の結合されたトレーニングサンプルを決定するためのコンピュータシステムであって、
複数の第１のトレーニングサンプルを受信する入力ポートと、複数のデータサンプルのサブセットが複数の特徴値のうちの対応する１つまたは複数を有するデータサンプルを備えるように前記複数の第１のトレーニングサンプルのそれぞれが前記サブセットの結合である、
前記複数の第１のトレーニングサンプルのサブセットをランダムに選択すること、および、
前記サブセットの前記第１のトレーニングサンプルの前記特徴値を結合することによって、前記複数の結合されたトレーニングサンプルのそれぞれを決定するプロセッサと、を備える、コンピュータシステム。

【図1】