(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-26
(45)【発行日】2024-08-05
(54)【発明の名称】分散データ処理装置、端末、分散データ処理プログラム、端末制御プログラム、分散データ処理方法及び端末制御方法
(51)【国際特許分類】
G06F 16/906 20190101AFI20240729BHJP
G06F 21/62 20130101ALI20240729BHJP
【FI】
G06F16/906
G06F21/62 354
(21)【出願番号】P 2020127477
(22)【出願日】2020-07-28
【審査請求日】2023-05-02
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成30年度、国立研究開発法人新エネルギー・産業技術総合開発機構次世代人工知能・ロボット中核技術開発/次世代人工知能技術の日米共同研究開発委託研究、産業技術力強化法第17条の適用を受ける特許出願
(73)【特許権者】
【識別番号】504171134
【氏名又は名称】国立大学法人 筑波大学
(74)【代理人】
【識別番号】100106909
【氏名又は名称】棚井 澄雄
(74)【代理人】
【識別番号】100188558
【氏名又は名称】飯田 雅人
(74)【代理人】
【識別番号】100169764
【氏名又は名称】清水 雄一郎
(72)【発明者】
【氏名】今倉 暁
(72)【発明者】
【氏名】櫻井 鉄也
(72)【発明者】
【氏名】稲葉 弘明
(72)【発明者】
【氏名】岡田 幸彦
【審査官】甲斐 哲雄
(56)【参考文献】
【文献】特開2003-016098(JP,A)
【文献】特開2004-302623(JP,A)
【文献】特開2020-035066(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06F 21/62
G06Q 10/00-99/00
(57)【特許請求の範囲】
【請求項1】
端末により保有されているアンカーデータに抽象化処理を施すことにより生成された抽象化アンカーデータを受信する処理と、複数の前記端末に分かれて保有されている全体データに含まれているデータの一部及び前記全体データに含まれている特徴量の一部を含んでいる部分データに抽象化処理を施すことにより生成された抽象化部分データを受信する処理と、を前記端末ごとに実行する受信部と、
前記端末ごとに受信された前記抽象化アンカーデータを使用して複数の前記抽象化部分データを統合することにより統合データを生成し、前記統合データに含まれる要素が示す内容に対応する第一ラベルデータを前記統合データに基づいて出力する第一統合解析モデルを生成し、前記端末ごとに受信された前記抽象化アンカーデータを使用して複数の前記アンカーデータを統合することにより統合アンカーデータを生成し、前記統合アンカーデータを前記第一統合解析モデルに入力して前記統合アンカーデータに含まれる要素が示す内容に対応する第二ラベルデータを生成する生成部と、
前記第二ラベルデータを前記端末に送信する送信部と、
を備える分散データ処理装置。
【請求項2】
前記受信部は、前記抽象化アンカーデータを受信する処理として、前記端末により保有されている第一アンカーデータに抽象化処理を施すことにより生成された第一抽象化アンカーデータを受信する処理と、前記端末により保有されており、前記第一アンカーデータと同じである第二アンカーデータに抽象化処理を施すことにより生成された第二抽象化アンカーデータを受信する処理と、を前記端末ごとに実行し、
前記生成部は、前記端末ごとに受信された前記第一抽象化アンカーデータを使用して複数の前記抽象化部分データを統合することにより前記統合データを生成し、前記端末ごとに受信された前記第二抽象化アンカーデータを使用して複数の前記アンカーデータを統合することにより前記統合アンカーデータを生成する、
請求項1に記載の分散データ処理装置。
【請求項3】
前記受信部は、前記抽象化アンカーデータを受信する処理として、前記端末により保有されている第一アンカーデータに抽象化処理を施すことにより生成された第一抽象化アンカーデータを受信する処理と、前記端末により保有されており、前記第一アンカーデータと異なる第二アンカーデータに抽象化処理を施すことにより生成された第二抽象化アンカーデータを受信する処理と、を前記端末ごとに実行し、
前記生成部は、前記端末ごとに受信された前記第一抽象化アンカーデータを使用して複数の前記抽象化部分データを統合することにより前記統合データを生成し、前記端末ごとに受信された前記第二抽象化アンカーデータを使用して複数の前記アンカーデータを統合することにより前記統合アンカーデータを生成する、
請求項1に記載の分散データ処理装置。
【請求項4】
前記受信部は、正方行列又は矩形行列で表される前記アンカーデータに抽象化処理を施すことにより生成され、正方行列又は矩形行列で表される前記抽象化アンカーデータを受信する処理と、正方行列又は矩形行列で表される前記部分データに抽象化処理を施すことにより生成され、正方行列又は矩形行列で表される前記抽象化部分データを受信する処理と、を前記端末ごとに実行する、
請求項1から請求項3のいずれか一つに記載の分散データ処理装置。
【請求項5】
前記受信部は、正方行列の要素の一部が欠損している行列又は矩形行列の要素の一部が欠損している行列で表される前記アンカーデータに抽象化処理を施すことにより生成され、正方行列の要素の一部が欠損している行列又は矩形行列の要素の一部が欠損している行列で表される前記抽象化アンカーデータを受信する処理と、正方行列の要素の一部が欠損している行列又は矩形行列の要素の一部が欠損している行列で表される前記部分データに抽象化処理を施すことにより生成され、正方行列の要素の一部が欠損している行列又は矩形行列の要素の一部が欠損している行列で表される前記抽象化部分データを受信する処理と、を少なくとも一つの前記端末について実行する、
請求項1から請求項3のいずれか一つに記載の分散データ処理装置。
【請求項6】
アンカーデータに抽象化処理を施すことにより生成された抽象化アンカーデータと、複数の端末に分かれて保有されている全体データに含まれているデータの一部及び前記全体データに含まれている特徴量の一部を含んでいる部分データに抽象化処理を施すことにより生成された抽象化部分データとを分散データ処理装置に送信する送信部と、
前記端末ごとに前記分散データ処理装置により受信された前記抽象化アンカーデータを使用して、複数の前記抽象化部分データを統合することにより生成された統合データに含まれる要素が示す内容に対応する第一ラベルデータを前記統合データに基づいて出力する第一統合解析モデルに、前記端末ごとに前記分散データ処理装置により受信された前記抽象化アンカーデータを使用して、複数の前記アンカーデータを統合することにより生成された統合アンカーデータを入力して、前記統合アンカーデータに含まれる要素が示す内容に対応する第二ラベルデータを前記分散データ処理装置から受信する受信部と、
前記アンカーデータ及び前記第二ラベルデータを使用して第二統合解析モデルを生成する生成部と、
を備える端末。
【請求項7】
コンピュータに、
端末により保有されているアンカーデータに抽象化処理を施すことにより生成された抽象化アンカーデータを受信する処理と、複数の前記端末に分かれて保有されている全体データに含まれているデータの一部及び前記全体データに含まれている特徴量の一部を含んでいる部分データに抽象化処理を施すことにより生成された抽象化部分データを受信する処理と、を前記端末ごとに実行する受信機能と、
前記端末ごとに受信された前記抽象化アンカーデータを使用して複数の前記抽象化部分データを統合することにより統合データを生成し、前記統合データに含まれる要素が示す内容に対応する第一ラベルデータを前記統合データに基づいて出力する第一統合解析モデルを生成し、前記端末ごとに受信された前記抽象化アンカーデータを使用して複数の前記アンカーデータを統合することにより統合アンカーデータを生成し、前記統合アンカーデータを前記第一統合解析モデルに入力して前記統合アンカーデータに含まれる要素が示す内容に対応する第二ラベルデータを生成する生成機能と、
前記第二ラベルデータを前記端末に送信する送信機能と、
を実行させる分散データ処理プログラム。
【請求項8】
一つの端末に、
アンカーデータに抽象化処理を施すことにより生成された抽象化アンカーデータと、複数の端末に分かれて保有されている全体データに含まれているデータの一部及び前記全体データに含まれている特徴量の一部を含んでいる部分データに抽象化処理を施すことにより生成された抽象化部分データとを分散データ処理装置に送信する送信機能と、
前記端末ごとに前記分散データ処理装置により受信された前記抽象化アンカーデータを使用して、複数の前記抽象化部分データを統合することにより生成された統合データに含まれる要素が示す内容に対応する第一ラベルデータを前記統合データに基づいて出力する第一統合解析モデルに、前記端末ごとに前記分散データ処理装置により受信された前記抽象化アンカーデータを使用して、複数の前記アンカーデータを統合することにより生成された統合アンカーデータを入力して、前記統合アンカーデータに含まれる要素が示す内容に対応する第二ラベルデータを前記分散データ処理装置から受信する受信機能と、
前記アンカーデータ及び前記第二ラベルデータを使用して第二統合解析モデルを生成する生成機能と、
を実行させる端末制御プログラム。
【請求項9】
ソフトウエアの制御によってコンピュータ装置である分散データ処理装置が行う情報処理の方法であって、
前記分散データ処理装置が、端末により保有されているアンカーデータに抽象化処理を施すことにより生成された抽象化アンカーデータを受信する処理と、複数の前記端末に分かれて保有されている全体データに含まれているデータの一部及び前記全体データに含まれている特徴量の一部を含んでいる部分データに抽象化処理を施すことにより生成された抽象化部分データを受信する処理と、を前記端末ごとに実行し、
前記分散データ処理装置が、前記端末ごとに受信された前記抽象化アンカーデータを使用して複数の前記抽象化部分データを統合することにより統合データを生成し、前記統合データに含まれる要素が示す内容に対応する第一ラベルデータを前記統合データに基づいて出力する第一統合解析モデルを生成し、前記端末ごとに受信された前記抽象化アンカーデータを使用して複数の前記アンカーデータを統合することにより統合アンカーデータを生成し、前記統合アンカーデータを前記第一統合解析モデルに入力して前記統合アンカーデータに含まれる要素が示す内容に対応する第二ラベルデータを生成し、
前記分散データ処理装置が、前記第二ラベルデータを前記端末に送信する、
分散データ処理方法。
【請求項10】
ソフトウエアの制御によってコンピュータ装置である端末が行う情報処理の方法であって、
前記端末が、アンカーデータに抽象化処理を施すことにより生成された抽象化アンカーデータと、複数の端末に分かれて保有されている全体データに含まれているデータの一部及び前記全体データに含まれている特徴量の一部を含んでいる部分データに抽象化処理を施すことにより生成された抽象化部分データとを分散データ処理装置に送信し、
前記端末が、前記端末ごとに前記分散データ処理装置により受信された前記抽象化アンカーデータを使用して、複数の前記抽象化部分データを統合することにより生成された統合データに含まれる要素が示す内容に対応する第一ラベルデータを前記統合データに基づいて出力する第一統合解析モデルに、前記端末ごとに前記分散データ処理装置により受信された前記抽象化アンカーデータを使用して、複数の前記アンカーデータを統合することにより生成された統合アンカーデータを入力して、前記統合アンカーデータに含まれる要素が示す内容に対応する第二ラベルデータを前記分散データ処理装置から受信し、
前記端末が、前記アンカーデータ及び前記第二ラベルデータを使用して第二統合解析モデルを生成する、
端末制御方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、分散データ処理装置、端末、分散データ処理プログラム、端末制御プログラム、分散データ処理方法及び端末制御方法
【背景技術】
【0002】
近年、社会のネットワーク化が急速に進展しており、社会の様々な分野でデータを収集する環境が整備されている。例えば、医療機関、金融機関等の様々な機関は、独自に多量のデータを収集して保有している。このような背景の下、個人情報、営業秘密等を保護しつつ、これらのデータを統合し、ビッグデータとして解析する技術により生産性の向上を図ることが期待されている。例えば、このような技術として、特許文献1に開示されているサービス利用者情報共有システムが挙げられる。
【0003】
このサービス利用者情報共有システムは、提供情報取得端末と、共有装置とを備える。提供情報取得端末は、識別情報の履歴を送信可能な利用者の端末と、利用者の端末から受信した識別情報と利用者によって設定された提供可能な情報に、利用者が利用したサービスに関する情報を付加して送信可能な端末である。共有装置は、受信履歴記憶手段と、関連付け手段とを有する。受信履歴記憶手段は、提供情報取得端末から送信された情報を記憶する。関連付け手段は、利用者の端末から送信された識別情報の履歴に基づいて、受信履歴記憶手段に記憶された受信情報において抽出された共通の利用者の受信情報に対して共通の利用者の情報であることを関連付ける。
【先行技術文献】
【特許文献】
【0004】
【0005】
しかし、上述したサービス利用者情報共有システムは、保護されるべきデータが削除されており、標準規格に従っている形式を有するデータを統合する。このため、サービス利用者情報共有システムは、複数の端末から受信したデータを統合して解析する目的等を考慮してデータ標準規格を制定し、当該標準規格に従った形式に変換されているデータであることを確認した上でデータを統合する必要がある。
【0006】
また、標準規格を使用すること無く複数のデータを統合して解析する技術として、例えば、データコラボレーション解析が挙げられる。ところが、データコラボレーション解析は、抽象化されたデータを使用した多段階構造を有する統合解析モデルを出力する。このような統合解析モデルは、解釈性及び説明性が比較的低く、統合解析の各結果が出た理由をユーザに理解させることが難しいことが多い。
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明は、このような事情に鑑みてなされたものであり、解釈性及び説明性の少なくとも一方が比較的高い統合解析モデルを生成することができる分散データ処理装置、端末、分散データ処理プログラム、端末制御プログラム、分散データ処理方法及び端末制御方法を提供することを課題とする。
【課題を解決するための手段】
【0008】
本発明の一態様は、端末により保有されているアンカーデータに抽象化処理を施すことにより生成された抽象化アンカーデータを受信する処理と、複数の前記端末に分かれて保有されている全体データに含まれているデータの一部及び前記全体データに含まれている特徴量の一部を含んでいる部分データに抽象化処理を施すことにより生成された抽象化部分データを受信する処理と、を前記端末ごとに実行する受信部と、前記端末ごとに受信された前記抽象化アンカーデータを使用して複数の前記抽象化部分データを統合することにより統合データを生成し、前記統合データに含まれる要素が示す内容に対応する第一ラベルデータを前記統合データに基づいて出力する第一統合解析モデルを生成し、前記端末ごとに受信された前記抽象化アンカーデータを使用して複数の前記アンカーデータを統合することにより統合アンカーデータを生成し、前記統合アンカーデータを前記第一統合解析モデルに入力して前記統合アンカーデータに含まれる要素が示す内容に対応する第二ラベルデータを生成する生成部と、前記第二ラベルデータを前記端末に送信する送信部と、を備える分散データ処理装置である。
【0009】
また、上述した分散データ処理装置において、前記受信部は、前記抽象化アンカーデータを受信する処理として、前記端末により保有されている第一アンカーデータに抽象化処理を施すことにより生成された第一抽象化アンカーデータを受信する処理と、前記端末により保有されており、前記第一アンカーデータと同じである第二アンカーデータに抽象化処理を施すことにより生成された第二抽象化アンカーデータを受信する処理と、を前記端末ごとに実行し、前記生成部は、前記端末ごとに受信された前記第一抽象化アンカーデータを使用して複数の前記抽象化部分データを統合することにより前記統合データを生成し、前記端末ごとに受信された前記第二抽象化アンカーデータを使用して複数の前記アンカーデータを統合することにより前記統合アンカーデータを生成する。
【0010】
また、上述した分散データ処理装置において、前記受信部は、前記抽象化アンカーデータを受信する処理として、前記端末により保有されている第一アンカーデータに抽象化処理を施すことにより生成された第一抽象化アンカーデータを受信する処理と、前記端末により保有されており、前記第一アンカーデータと異なる第二アンカーデータに抽象化処理を施すことにより生成された第二抽象化アンカーデータを受信する処理と、を前記端末ごとに実行し、前記生成部は、前記端末ごとに受信された前記第一抽象化アンカーデータを使用して複数の前記抽象化部分データを統合することにより前記統合データを生成し、前記端末ごとに受信された前記第二抽象化アンカーデータを使用して複数の前記アンカーデータを統合することにより前記統合アンカーデータを生成する。
【0011】
また、上述した分散データ処理装置において、前記受信部は、正方行列又は矩形行列で表される前記アンカーデータに抽象化処理を施すことにより生成され、正方行列又は矩形行列で表される前記抽象化アンカーデータを受信する処理と、正方行列又は矩形行列で表される前記部分データに抽象化処理を施すことにより生成され、正方行列又は矩形行列で表される前記抽象化部分データを受信する処理と、を前記端末ごとに実行する。
【0012】
また、上述した分散データ処理装置において、前記受信部は、正方行列の要素の一部が欠損している行列又は矩形行列の要素の一部が欠損している行列で表される前記アンカーデータに抽象化処理を施すことにより生成され、正方行列の要素の一部が欠損している行列又は矩形行列の要素の一部が欠損している行列で表される前記抽象化アンカーデータを受信する処理と、正方行列の要素の一部が欠損している行列又は矩形行列の要素の一部が欠損している行列で表される前記部分データに抽象化処理を施すことにより生成され、正方行列の要素の一部が欠損している行列又は矩形行列の要素の一部が欠損している行列で表される前記抽象化部分データを受信する処理と、を少なくとも一つの前記端末について実行する。
【0013】
本発明の一態様は、アンカーデータに抽象化処理を施すことにより生成された抽象化アンカーデータと、複数の端末に分かれて保有されている全体データに含まれているデータの一部及び前記全体データに含まれている特徴量の一部を含んでいる部分データに抽象化処理を施すことにより生成された抽象化部分データとを分散データ処理装置に送信する送信部と、前記端末ごとに前記分散データ処理装置により受信された前記抽象化アンカーデータを使用して、複数の前記抽象化部分データを統合することにより生成された統合データに含まれる要素が示す内容に対応する第一ラベルデータを前記統合データに基づいて出力する第一統合解析モデルに、前記端末ごとに前記分散データ処理装置により受信された前記抽象化アンカーデータを使用して、複数の前記アンカーデータを統合することにより生成された統合アンカーデータを入力して、前記統合アンカーデータに含まれる要素が示す内容に対応する第二ラベルデータを前記分散データ処理装置から受信する受信部と、前記アンカーデータ及び前記第二ラベルデータを使用して第二統合解析モデルを生成する生成部と、を備える端末である。
【0014】
本発明の一態様は、コンピュータに、端末により保有されているアンカーデータに抽象化処理を施すことにより生成された抽象化アンカーデータを受信する処理と、複数の前記端末に分かれて保有されている全体データに含まれているデータの一部及び前記全体データに含まれている特徴量の一部を含んでいる部分データに抽象化処理を施すことにより生成された抽象化部分データを受信する処理と、を前記端末ごとに実行する受信機能と、前記端末ごとに受信された前記抽象化アンカーデータを使用して複数の前記抽象化部分データを統合することにより統合データを生成し、前記統合データに含まれる要素が示す内容に対応する第一ラベルデータを前記統合データに基づいて出力する第一統合解析モデルを生成し、前記端末ごとに受信された前記抽象化アンカーデータを使用して複数の前記アンカーデータを統合することにより統合アンカーデータを生成し、前記統合アンカーデータを前記第一統合解析モデルに入力して前記統合アンカーデータに含まれる要素が示す内容に対応する第二ラベルデータを生成する生成機能と、前記第二ラベルデータを前記端末に送信する送信機能と、を実行させる分散データ処理プログラムである。
【0015】
本発明の一態様は、一つの端末に、アンカーデータに抽象化処理を施すことにより生成された抽象化アンカーデータと、複数の端末に分かれて保有されている全体データに含まれているデータの一部及び前記全体データに含まれている特徴量の一部を含んでいる部分データに抽象化処理を施すことにより生成された抽象化部分データとを分散データ処理装置に送信する送信機能と、前記端末ごとに前記分散データ処理装置により受信された前記抽象化アンカーデータを使用して、複数の前記抽象化部分データを統合することにより生成された統合データに含まれる要素が示す内容に対応する第一ラベルデータを前記統合データに基づいて出力する第一統合解析モデルに、前記端末ごとに前記分散データ処理装置により受信された前記抽象化アンカーデータを使用して、複数の前記アンカーデータを統合することにより生成された統合アンカーデータを入力して、前記統合アンカーデータに含まれる要素が示す内容に対応する第二ラベルデータを前記分散データ処理装置から受信する受信機能と、前記アンカーデータ及び前記第二ラベルデータを使用して第二統合解析モデルを生成する生成機能と、を実行させる端末制御プログラムである。
【0016】
本発明の一態様は、ソフトウエアの制御によってコンピュータ装置である分散データ処理装置が行う情報処理の方法であって、前記分散データ処理装置が、端末により保有されているアンカーデータに抽象化処理を施すことにより生成された抽象化アンカーデータを受信する処理と、複数の前記端末に分かれて保有されている全体データに含まれているデータの一部及び前記全体データに含まれている特徴量の一部を含んでいる部分データに抽象化処理を施すことにより生成された抽象化部分データを受信する処理と、を前記端末ごとに実行し、前記分散データ処理装置が、前記端末ごとに受信された前記抽象化アンカーデータを使用して複数の前記抽象化部分データを統合することにより統合データを生成し、前記統合データに含まれる要素が示す内容に対応する第一ラベルデータを前記統合データに基づいて出力する第一統合解析モデルを生成し、前記端末ごとに受信された前記抽象化アンカーデータを使用して複数の前記アンカーデータを統合することにより統合アンカーデータを生成し、前記統合アンカーデータを前記第一統合解析モデルに入力して前記統合アンカーデータに含まれる要素が示す内容に対応する第二ラベルデータを生成し、前記分散データ処理装置が、前記第二ラベルデータを前記端末に送信する、分散データ処理方法である。
【0017】
本発明の一態様は、ソフトウエアの制御によってコンピュータ装置である端末が行う情報処理の方法であって、前記端末が、アンカーデータに抽象化処理を施すことにより生成された抽象化アンカーデータと、複数の端末に分かれて保有されている全体データに含まれているデータの一部及び前記全体データに含まれている特徴量の一部を含んでいる部分データに抽象化処理を施すことにより生成された抽象化部分データとを分散データ処理装置に送信し、前記端末が、前記端末ごとに前記分散データ処理装置により受信された前記抽象化アンカーデータを使用して、複数の前記抽象化部分データを統合することにより生成された統合データに含まれる要素が示す内容に対応する第一ラベルデータを前記統合データに基づいて出力する第一統合解析モデルに、前記端末ごとに前記分散データ処理装置により受信された前記抽象化アンカーデータを使用して、複数の前記アンカーデータを統合することにより生成された統合アンカーデータを入力して、前記統合アンカーデータに含まれる要素が示す内容に対応する第二ラベルデータを前記分散データ処理装置から受信し、前記端末が、前記アンカーデータ及び前記第二ラベルデータを使用して第二統合解析モデルを生成する、端末制御方法である。
【発明の効果】
【0018】
本発明によれば、解釈性及び説明性の少なくとも一方が比較的高い統合解析モデルを生成することができる分散データ処理装置、端末、分散データ処理プログラム、端末制御プログラム、分散データ処理方法及び端末制御方法を提供することができる。
【図面の簡単な説明】
【0019】
【
図1】本発明の第一実施形態に係る統合解析モデル生成システムの一例を示す図である。
【
図2】本発明の第一実施形態に係る端末及び分散データ処理装置が実行する処理の一例を示すシーケンス図である。
【
図3】本発明の比較例に係る分散データ処理装置が四つの機関各々から受信した四つの抽象化部分データを統合して生成した統合データに含まれる要素が示す内容に対応する第一ラベルデータを当該統合データに基づいて出力する統合解析モデルの一例を示す図である。
【
図4】
図3に示した統合解析モデルを使用して人工データを分類した結果の一例を示す図である。
【
図5】本発明の比較例に係る分散データ処理装置が一つの機関から受信した部分データが示す内容に対応する第一ラベルデータを当該部分データに基づいて出力する解析モデルの一例を示す図である。
【
図6】
図5に示した解析モデルを使用して人工データを分類した結果の一例を示す図である。
【
図7】本発明の比較例に係る分散データ処理装置が一つの機関から受信した部分データが示す内容に対応する第一ラベルデータを当該部分データに基づいて出力する解析モデルの一例を示す図である。
【
図8】
図7に示した解析モデルを使用して人工データを分類した結果の一例を示す図である。
【
図9】本発明の比較例に係る分散データ処理装置が一つの機関から受信した部分データが示す内容に対応する第一ラベルデータを当該部分データに基づいて出力する解析モデルの一例を示す図である。
【
図10】
図9に示した解析モデルを使用して人工データを分類した結果の一例を示す図である。
【
図11】本発明の比較例に係る分散データ処理装置が一つの機関から受信した部分データが示す内容に対応する第一ラベルデータを当該部分データに基づいて出力する解析モデルの一例を示す図である。
【
図12】
図11に示した解析モデルを使用して人工データを分類した結果の一例を示す図である。
【
図13】本発明の第一実施形態に係る分散データ処理装置が四つの機関各々から受信した四つの抽象化部分データに基づいて生成した第二ラベルデータを使用して端末により生成された第二統合解析モデルの一例を示す図である。
【
図14】
図13に示した第二統合解析モデルを使用して人工データを分類した結果の一例を示す図である。
【
図15】本発明の第一実施形態に係る企業識別コード、財務データ、業種ラベル及び格付けの一例を示す図である。
【
図16】本発明の比較例に係る分散データ処理装置が四つの機関各々から受信した四つの抽象化部分データを統合して生成した統合データに含まれる要素が示す内容に対応する第一ラベルデータを当該統合データに基づいて出力する統合解析モデルの一例を示す図である。
【
図17】本発明の比較例に係る分散データ処理装置が一つの機関から受信した部分データが示す内容に対応する第一ラベルデータを当該部分データに基づいて出力する解析モデルの一例を示す図である。
【
図18】本発明の比較例に係る分散データ処理装置が一つの機関から受信した部分データが示す内容に対応する第一ラベルデータを当該部分データに基づいて出力する解析モデルの一例を示す図である。
【
図19】本発明の比較例に係る分散データ処理装置が一つの機関から受信した部分データが示す内容に対応する第一ラベルデータを当該部分データに基づいて出力する解析モデルの一例を示す図である。
【
図20】本発明の比較例に係る分散データ処理装置が一つの機関から受信した部分データが示す内容に対応する第一ラベルデータを当該部分データに基づいて出力する解析モデルの一例を示す図である。
【
図21】本発明の第一実施形態に係る分散データ処理装置が四つの機関各々から受信した四つの抽象化部分データに基づいて生成した第二ラベルデータを使用して端末により生成された第二統合解析モデルの一例を示す図である。
【
図22】本発明の第三実施形態に係る部分データを示す部分行列の一例を示す図である。
【
図23】本発明の他の実施形態に係る部分データを示す部分行列の一例を示す図である。
【発明を実施するための形態】
【0020】
[第一実施形態]
図1を参照しながら、第一実施形態に係る統合解析モデル生成システムの一例について説明する。
図1は、本発明の第一実施形態に係る統合解析モデル生成システムの一例を示す図である。
図1に示すように、統合解析モデル生成システム1は、端末111と、端末112と、端末121と、…、端末1cd(c:1以上n未満の自然数、d:1以上m未満の自然数、ただしc×dは2以上とする)と、分散データ処理装置20とを備える。端末111、…、端末1cd及び分散データ処理装置20は、いずれもネットワークNWに接続されており、互いに通信を実行することが可能である。ネットワークNWは、例えば、インターネット、WAN(Wide Area Network)、イントラネット、LAN(Local Area Network)である。
【0021】
端末111、…、端末1cdは、互いに異なる組織、機関等により管理されているコンピュータであり、例えば、サーバである。ここで言う機関は、例えば、医療機関、企業の格付け機関である。
図1に示すように、端末111は、生成部1111、送信部1211及び受信部1311を備える。同様に、端末112と、…、端末1cdとは、それぞれ生成部1112、送信部1212及び受信部1312と、…、生成部11cd、送信部12cd及び受信部13cdとを備える。また、
図1に示すように、分散データ処理装置20は、受信部210、生成部220及び送信部230を備える。
【0022】
端末111、端末112、端末121、…、端末1cdは、それぞれ部分行列X1,1で表される部分データ、部分行列X1,2で表される部分データ、部分行列X2,1で表される部分データ、…、部分行列Xc,dで表される部分データを保有している。また、これらの部分行列は、正方行列又は矩形行列であり、全体データを表すn行m列(n:全体データに含まれるデータの数、m:全体データに含まれる特徴量の数)の行列Xの部分行列である。したがって、行列Xと、部分行列X1,1、部分行列X1,2、部分行列X2,1、…、部分行列Xc,dとの関係は、例えば、次の式(1)により表される。また、式(1)の右辺に含まれる部分行列Xi,j(i:1以上c以下の自然数、j:1以上d以下の自然数)は、ni行mj列の行列である。
【0023】
【0024】
上述した部分データは、いずれも全体データに含まれる特徴量の一部を含んでおり、互いに異なるデータである。
【0025】
また、行列Xの各行ベクトルにより示される内容に対応する行ベクトルを有する行列Yは、例えば、次の式(2)で表される。行列Yは、n行l(l:1以上の自然数)列の行列である。式(2)の右辺に含まれるri行mj列の部分行列Yiは、式(1)の右辺に含まれる部分行列Xi,jと行の数が等しい。また、以下の説明では、行列Yの各行に対応する内容を示すデータを第一ラベルデータと称することがある。
【0026】
【0027】
端末111、端末112、端末121、…、端末1cdは、それぞれ部分行列Xanc
1,1で表されるアンカーデータ、部分行列Xanc
1,2で表されるアンカーデータ、部分行列Xanc
2,1で表されるアンカーデータ、…、部分行列Xanc
c,dで表されるアンカーデータを保有している。これらのアンカーデータは、後述する統合データを生成するために使用される第一アンカーデータと、後述する統合アンカーデータを生成するために使用される第二アンカーデータとを兼ねている。すなわち、第一アンカーデータと、第二アンカーデータとは、同じである。
【0028】
また、これらの部分行列は、正方行列又は矩形行列であり、全アンカーデータを表すr行m列(r:n未満の自然数)の行列Xancの部分行列である。したがって、行列Xancと、部分行列Xanc
1,1、部分行列Xanc
1,2、部分行列Xanc
2,1、…、部分行列Xanc
c,dとの関係は、例えば、次の式(3)により表される。また、式(3)に含まれる部分行列Xanc
i,jは、ri行mj列の行列である。なお、式(3)に含まれる部分行列Xanc
:,jは、部分行列Xanc
1,j、部分行列Xanc
2,j、…、部分行列Xanc
c,jを列方向に結合させたr行mj列の部分行列である。
【0029】
【0030】
上述したアンカーデータは、端末111、端末112、端末121、…、端末1cdに共通して配布されているデータであり、秘匿すべき情報を示していないデータである。また、端末111により保有されているアンカーデータは、端末111により保有されている部分データに近いデータであることが好ましい。同様に、端末112により保有されているアンカーデータ、…、端末1cdにより保有されているアンカーデータは、それぞれ端末112により保有されている部分データ、…、端末1cdにより保有されている部分データに近いデータであることが好ましい。
【0031】
ここで、アンカーデータが部分データに近いデータであるとは、アンカーデータに含まれる数値がとり得る範囲が部分データに含まれる数値がとり得る範囲に近いことを意味する。或いは、アンカーデータが部分データに近いデータであるとは、アンカーデータに含まれる属性が部分データに含まれる属性に近いことを意味する。ただし、アンカーデータは、無作為に生成されたデータであってもよい。或いは、アンカーデータは、端末111、端末112、端末121、…、端末1cd各々により生成され、端末111、端末112、端末121、…、端末1cdの間で相互に交換されたデータであってもよい。
【0032】
また、アンカーデータは、例えば、比較的明瞭に書かれている手書きの数字を描出している手書き数字画像、所定の疾病に特有の病変を描出している医用画像、所定の検査により取得された医用データ、企業の財務面に関するデータである。また、ここで言う医用画像は、例えば、X線画像、CT(Computed Tomography)画像、MRI(Magnetic Resonance Imaging)画像、PET(Positron Emission Tomography)画像、超音波画像である。また、ここで言う医用データは、例えば、血液検査により取得された中性脂肪の値を示す数値である。
【0033】
また、アンカーデータにより示される特徴及び部分データにより示される特徴は、例えば、アンカーデータや部分データが上述した手書き数字画像又は医用画像である場合、手書き数字画像に描出されている数字又は医用画像に描出されている病変である。また、この場合、特徴量は、手書き数字画像に含まれる画素又は医用画像に含まれる画素である。或いは、アンカーデータにより示される特徴及び部分データにより示される特徴は、アンカーデータや部分データが上述した医用データである場合、正常な範囲から外れた値である。また、この場合、特徴量は、医用データに含まれる数値である。或いは、アンカーデータにより示される特徴及び部分データにより示される特徴は、アンカーデータや部分データが上述した企業の財務面に関するデータである場合、企業の格付けである。また、この場合、特徴量は、企業の財務面に関するデータである。
【0034】
なお、端末111は、例えば、自身がアクセス可能な記憶媒体にアンカーデータ及び部分データを保有している。また、この記憶媒体は、端末111からアクセス可能であればよく、端末111に含まれていてもよいし、端末111に含まれていなくてもよい。端末112、端末121、…、端末1cdは、同様の態様により、それぞれ記憶媒体にアンカーデータ及び部分データを保有している。
【0035】
生成部1111は、部分行列X1,1で表される部分データに関数f1,1で表される独自の抽象化処理を施すことにより部分行列W1,1で表される抽象化部分データを生成する。同様に、生成部11ijは、次の式(4)で示されるように、部分行列Xi,jで表される部分データに関数fi,jで表される独自の抽象化処理を施すことにより部分行列Wi,jで表される抽象化部分データを生成する。部分行列Wi,jは、ni行pi,j列の部分行列である。
【0036】
【0037】
部分行列W1,1で表される抽象化部分データは、関数f1,1で表される独自の抽象化処理により部分行列X1,1で表される部分データに含まれている特徴量を抽象化することで得られる数値データである。同様に、部分行列Wi,jで表される抽象化部分データは、関数fi,jで表される独自の抽象化処理により部分行列Xi,jで表される部分データに含まれている特徴量を抽象化することで得られる数値データである。
【0038】
生成部1111は、部分行列Xanc
:,1に関数f1,1で表される独自の抽象化処理を施すことにより部分行列Wanc
1,1で表される抽象化アンカーデータを生成する。同様に、生成部11ijは、次の式(5)で示されるように、部分行列Xanc
:,jに関数fi,jで表される独自の抽象化処理を施すことにより部分行列Wanc
i,jで表される抽象化アンカーデータを生成する。部分行列Wanc
i,jは、r行pi,j列の部分行列である。また、これらの抽象化アンカーデータは、第一抽象化アンカーデータ及び第二抽象化アンカーデータに該当する。
【0039】
【0040】
部分行列Wanc
1,1で表される抽象化アンカーデータは、関数f1,1で表される独自の抽象化処理により部分行列Xanc
1,1で表されるアンカーデータに含まれている特徴量の中から選択された特徴量の線形結合を示すデータである。同様に、部分行列Wanc
i,jで表される抽象化アンカーデータは、関数fi,jで表される独自の抽象化処理により部分行列Xanc
i,jで表されるアンカーデータに含まれている特徴量を抽象化することで得られる数値データである。
【0041】
上述した抽象化処理は、目的関数を使用する線形もしくは非線形の次元削減法を使用する。次元削減法は、教師あり次元削減法と教師なし次元削減法とに大別される。教師あり次元削減法の例としては、線形判別分析(Linear Discriminant Analysis)、局所フィッシャー判別分析(Local Fisher Discriminant Analysis)が挙げられる。教師なし次元削減法の例としては、主成分分析(Principal Component Analysis)、局所線形埋め込み(Local Linear Embedding)、局所接線空間アラインメント(Local Tangent Space Alignment)、局所性保存射影(Locality Preserving Projections)が挙げられる。或いは、上述した抽象化処理は、ディープラーニングの部分構造を使用する。
【0042】
送信部1211は、部分行列W1,1で表される抽象化部分データ及び部分行列Wanc
1,1で表される抽象化アンカーデータをネットワークNW経由で分散データ処理装置20に送信する。同様に、送信部1212、…、送信部12cdは、それぞれ部分行列W1,2で表される抽象化部分データ及び部分行列Wanc
c,dで表される抽象化アンカーデータ、…、部分行列W1,2で表される抽象化部分データ及び部分行列Wanc
c,dで表される抽象化アンカーデータをネットワークNW経由で分散データ処理装置20に送信する。
【0043】
また、送信部1211、送信部1212、…、送信部121dは、部分行列Y1を示すデータをネットワークNW経由で分散データ処理装置20に送信する。同様に、送信部12i1、送信部12i2、…、送信部12idは、部分行列Y1を示すデータをネットワークNW経由で分散データ処理装置20に送信する。
【0044】
受信部210は、部分行列W1,1で表される抽象化部分データ及び部分行列Wanc
1,1で表される抽象化アンカーデータをネットワークNW経由で端末111から受信する。同様に、受信部210は、部分行列W1,2で表される抽象化部分データ及び部分行列Wanc
c,dで表される抽象化アンカーデータ、…、部分行列W1,2で表される抽象化部分データ及び部分行列Wanc
c,dで表される抽象化アンカーデータをネットワークNW経由で端末112、…、端末1cdから受信する。
【0045】
また、受信部210は、部分行列Y1を示すデータをネットワークNW経由で送信部1211、送信部1212、…、送信部121d各々から受信する。同様に、部分行列Y1を示すデータをネットワークNW経由で送信部12i1、送信部12i2、…、送信部12id各々から受信する。
【0046】
生成部220は、次の式(6)に示すように、部分行列Wanc
i,1で表される抽象化アンカーデータ、…、部分行列Wanc
i,dで表される抽象化アンカーデータを行方向に結合させてr行pi列の部分行列Wanc
iを生成する。
【0047】
【0048】
そして、生成部220は、部分行列Wanc
iを使用して後述する統合データを生成するために使用する統合用関数giを生成する。
【0049】
具体的には、生成部220は、仮統合用関数e1を使用して部分行列Wanc
1を部分行列Wanc
1´で表される仮統合用データに変換する。同様に、生成部220は、仮統合関数e2、…、仮統合用関数ecを使用して部分行列Wanc
2、…、部分行列Wanc
cをそれぞれ部分行列Wanc
2´で表される仮統合用データ、…、部分行列Wanc
c´で表される仮統合用データに変換する。仮統合用関数e1、…、仮統合用関数ecは、線形又は非線形の関数である。
【0050】
次に、生成部220は、部分行列Wanc
1´で表される仮統合用データ、…、部分行列Wanc
c´で表される仮統合用データ相互の差が小さくなる仮統合用関数e1、…、仮統合用関数ecを統合用関数g1、…、統合用関数gcとして算出する。また、生成部220は、部分行列Wanc
1´で表される仮統合用データ、…、部分行列Wanc
c´で表される仮統合用データ相互の差が出来る限り小さくなる仮統合用関数e1、…、仮統合用関数ecを統合用関数g1、…、統合用関数gcとして算出することが好ましい。
【0051】
上述した統合用関数g1、…、統合用関数gcを算出する問題は、例えば、最小化問題に帰着する。特に、仮統合用関数が線形の関数である場合、この問題は、一般化された総最小二乗法(TLS:Total Least Squares)問題に帰着する。
【0052】
一方、生成部220は、次の式(7)に示すように、部分行列Wi,1で表される抽象化部分データ、…、部分行列Wi,dで表される抽象化部分データを行方向に結合させてni行pi列の部分行列Wiを生成する。
【0053】
【0054】
生成部220は、次の式(8)に示すように、統合用関数giを使用することにより部分行列Wiからni行q列の部分行列Ziで表される統合データを生成する。
【0055】
【0056】
生成部220は、次の式(9)に示すように、部分行列Z1、…、部分行列Zcを列方向に結合させてn行q列の行列Zを生成する。
【0057】
【0058】
生成部220は、部分行列Z1で表される統合データ、…、部分行列Zcで表される統合データに含まれる要素が示す内容に対応し、上述した式(2)で表される行列Yの各行に対応する内容を示すデータである第一ラベルデータを統合データに基づいて出力する第一統合解析モデルhを生成する。行列Z、第一統合解析モデルh及び行列Yの関係は、次の式(10)で表される。
【0059】
【0060】
第一統合解析モデルhは、抽象化アンカーデータ及び抽象化部分データを使用して生成された多段階の構造を有する解析モデルであり、解釈性及び説明性が比較的低い解析モデルである。解釈性は、解析モデルの大域的な説明を与える指標であり、解析モデルによる解析結果が出力される理由をユーザが理解する上での難易度を示している。説明性は、解析モデルの局所的な説明を与える指標であり、解析モデルに入力された各説明変数が解析モデルによる解析結果に与えた影響の大きさを示している。
【0061】
生成部220は、次の式(11)に示すように、統合用関数giを使用することにより上述した式(6)で表される部分行列Wanc
iからr行p列の部分行列Zanc
iで表される統合アンカーデータを生成する。
【0062】
【0063】
生成部220は、次の式(12)に示すように、部分行列Zanc
iで表される統合アンカーデータを上述した第一統合解析モデルhに入力して当該統合アンカーデータに含まれる要素が示す内容に対応する第二ラベルデータを生成する。第二ラベルデータは、式(12)の左辺の行列Yanc
iの各行に対応する内容を示すデータである。
【0064】
【0065】
送信部230は、行列Yanc
1の各行に対応する内容を示す第二ラベルデータを端末111、端末112、…、端末11dに送信する。同様に、送信部230は、行列Yanc
2の各行に対応する内容を示す第二ラベルデータを端末121、端末122、…、端末12dに送信する。また、同様に、送信部230は、行列Yanc
cの各行に対応する内容を示す第二ラベルデータを端末1c1、端末1c2、…、端末1cdに送信する。なお、これらは、行列Yanc
3の各行に対応する内容を示す第二ラベルデータ、…、行列Yanc
c-1の各行に対応する内容を示す第二ラベルデータについても同様である。
【0066】
受信部1311、受信部1312、…、端末131dは、それぞれ行列Yanc
1の各行に対応する内容を示す第二ラベルデータを分散データ処理装置20から受信する。同様に、受信部1321、受信部1322、…、受信部132dは、それぞれ行列Yanc
2の各行に対応する内容を示す第二ラベルデータを分散データ処理装置20から受信する。また、同様に、受信部13c1、受信部13c2、…、受信部13cdは、それぞれ行列Yanc
cの各行に対応する内容を示す第二ラベルデータを分散データ処理装置20から受信する。なお、これらの処理は、行列Yanc
3の各行に対応する内容を示す第二ラベルデータ、…、行列Yanc
c-1の各行に対応する内容を示す第二ラベルデータについても同様である。
【0067】
そして、生成部1111、生成部1112、…、生成部111dは、部分行列Xancで表される第二アンカーデータ及び行列Yanc
1の各行に対応する内容を示す第二ラベルデータ使用して第二統合解析モデルt1を生成する。同様に、生成部1121、生成部1122、…、生成部112dは、部分行列Xancで表される第二アンカーデータ及び行列Yanc
2の各行に対応する内容を示す第二ラベルデータ使用して第二統合解析モデルt2を生成する。また、同様に、生成部11c1、生成部11c2、…、生成部11cdは、部分行列Xancで表される第二アンカーデータ及び行列Yanc
cの各行に対応する内容を示す第二ラベルデータ使用して第二統合解析モデルtcを生成する。これらの処理は、他の生成部についても同様であり、次の式(13)で表される。
【0068】
【0069】
第二統合解析モデルtiは、第二統合解析モデルtiを生成した端末1i1、端末1i2、…、端末1idが保有していない特徴量を含んでいる部分データを考慮して生成された第一統合解析モデルhを改変して生成された解析モデルである。このため、第二統合解析モデルtiは、解釈性及び説明性の少なくとも一方が比較的高い解析モデルである。
【0070】
次に、
図2を参照しながら、端末111、端末112、端末121、…、端末1cdと、分散データ処理装置20とが実行する処理の一例を説明する。
図2は、本発明の第一実施形態に係る端末及び分散データ処理装置が実行する処理の一例を示すシーケンス図である。
図2を使用した説明では、端末111を例に挙げるが、端末112、端末121、…、端末1cdについても同様である。
【0071】
ステップS10において、生成部1111は、アンカーデータに抽象化処理を施すことにより抽象化アンカーデータを生成する。
【0072】
ステップS20において、生成部1111は、部分データに抽象化処理を施すことにより抽象化部分データを生成する。
【0073】
ステップS30において、送信部1211は、抽象化アンカーデータ及び抽象化部分データを送信する。
【0074】
ステップS40において、受信部210は、抽象化アンカーデータ及び抽象化部分データを受信する。
【0075】
ステップS50において、生成部220は、複数の抽象化アンカーデータを使用して複数の抽象化部分データを統合することにより統合データを生成する。
【0076】
ステップS60において、生成部220は、統合データに含まれる要素が示す内容に対応する第一ラベルデータを統合データに基づいて出力する第一統合解析モデルを生成する。
【0077】
ステップS70において、生成部220は、複数の抽象化アンカーデータを使用して複数のアンカーデータを統合することにより統合アンカーデータを生成する。
【0078】
ステップS80において、生成部220は、統合アンカーデータを第一統合解析モデルに入力して統合アンカーデータに含まれる要素が示す内容に対応する第二ラベルデータを生成する。
【0079】
ステップS90において、送信部230は、第二ラベルデータを送信する。
【0080】
ステップS100において、生成部1111は、アンカーデータ及び第二ラベルデータを使用して第二統合解析モデルを生成する。
【0081】
以上、第一実施形態に係る統合解析モデル生成システム1について説明した。分散データ処理装置20は、端末ごとに受信した抽象化アンカーデータを使用して複数の抽象化部分データを統合することにより統合データを生成し、統合データに含まれる要素が示す内容に対応する第一ラベルデータを統合データに基づいて出力する第一統合解析モデルを生成する。次に、分散データ処理装置20は、端末ごとに受信された抽象化アンカーデータを使用して複数のアンカーデータを統合することにより統合アンカーデータを生成し、統合アンカーデータを第一統合解析モデルに入力して統合アンカーデータに含まれる要素が示す内容に対応する第二ラベルデータを生成する。そして、分散データ処理装置20は、第二ラベルデータを端末111等に送信する。例えば、端末111は、アンカーデータ及び第二ラベルデータを使用して第二統合解析モデルを生成する。
【0082】
これにより、統合解析モデル生成システム1は、解釈性及び説明性の少なくとも一方が比較的高い統合解析モデルを生成することができる。
【0083】
また、分散データ処理装置20は、統合データを生成する場合と統合アンカーデータを生成する場合とで同じアンカーデータを使用している。
【0084】
これにより、統合解析モデル生成システム1は、アンカーデータを処理する負荷を低減しつつ、解釈性及び説明性の少なくとも一方が比較的高い統合解析モデルを生成することができる。
【0085】
次に、
図3から
図14を参照しながら、第一実施形態に係る統合解析モデル生成システムを第一事例に適用した場合について説明する。
【0086】
第一事例は、各データが特徴量「1」から特徴量「20」を有している3200個の人工データを特徴量「1」及び特徴量「11」に基づいて二つのクラスに分類する事例である。この人工データは、上述した全体データの一例である。また、第一事例において、特徴量「2」から特徴量「10」及び特徴量「12」から特徴量「20」は、乱数であり、3200個のデータを二つのクラスに分類する上で必要が無い特徴量である。
【0087】
1番目から1600番目のデータの特徴量「1」から特徴量「10」は、機関A1に保有されている。1番目から1600番目のデータの特徴量「11」から特徴量「20」は、機関A2に保有されている。1601番目から3200番目のデータの特徴量「1」から特徴量「10」は、機関B1に保有されている。1601番目から3200番目のデータの特徴量「11」から特徴量「20」は、機関B2に保有されている。
【0088】
図3は、本発明の比較例に係る分散データ処理装置が四つの機関各々から受信した四つの抽象化されていない部分データを統合して生成した統合データに含まれる要素が示す内容に対応する第一ラベルデータを当該統合データに基づいて出力する統合解析モデルの一例を示す図である。
図4は、
図3に示した統合解析モデルを使用して人工データを分類した結果の一例を示す図である。
図4では、縦軸が特徴量「1」の値を示しており、横軸が特徴量「11」の値を示している。また、
図4は、一方のクラスに属するデータを黒丸で示しており、他方のクラスに属するデータを白丸で示している。
【0089】
図3に示した決定木は、機関A1により保有されている部分データ、機関A2により保有されている部分データ、機関B1により保有されている部分データ及び機関B2により保有されている部分データに基づいて生成された統合解析モデルである。この決定木は、
図3に示すように、特徴量「1」及び特徴量「11」に基づいて人工データを分類する統合解析モデルを概念的に表したものである。したがって、
図3に示した決定木は、
図4に示すように、特徴量「1」が-0.5以上であり、特徴量「11」が-0.5以上である領域に含まれるデータと、当該領域以外の領域に含まれるデータとを適切に分類することができている。ただし、
図3に示した決定木により実行される処理は、抽象化されていない部分データを共有するという実行不可能な処理を必要としているため、実際には実行され得ない。
【0090】
図5は、本発明の比較例に係る分散データ処理装置が一つの機関から受信した部分データが示す内容に対応する第一ラベルデータを当該部分データに基づいて出力する解析モデルの一例を示す図である。
図6は、
図5に示した解析モデルを使用して人工データを分類した結果の一例を示す図である。
図6では、縦軸が特徴量「1」の値を示しており、横軸が特徴量「11」の値を示している。また、
図6は、一方のクラスに属するデータを黒丸で示しており、他方のクラスに属するデータを白丸で示している。
【0091】
図5に示した決定木は、機関A1により保有されている部分データに基づいて生成された統合解析モデルである。この決定木は、
図5に示すように、特徴量「1」から特徴量「10」の少なくとも一つに基づいて人工データを分類する決定木であり、特徴量「11」を考慮しない。したがって、
図5に示した決定木は、
図6に示すように、特徴量「1」が-0.5以上である領域に含まれるデータと、当該領域以外の領域に含まれるデータとに分類してしまい、特徴量「11」が-0.5となる直線を境界とした分類を実行できない。
【0092】
図7は、本発明の比較例に係る分散データ処理装置が一つの機関から受信した部分データが示す内容に対応する第一ラベルデータを当該部分データに基づいて出力する解析モデルの一例を示す図である。
図8は、
図7に示した解析モデルを使用して人工データを分類した結果の一例を示す図である。
図8では、縦軸が特徴量「1」の値を示しており、横軸が特徴量「11」の値を示している。また、
図8は、一方のクラスに属するデータを黒丸で示しており、他方のクラスに属するデータを白丸で示している。
【0093】
図7に示した決定木は、機関A2により保有されている部分データに基づいて生成された統合解析モデルである。この決定木は、
図7に示すように、特徴量「11」から特徴量「20」の少なくとも一つに基づいて人工データを分類する決定木であり、特徴量「1」を考慮しない。したがって、
図7に示した決定木は、
図8に示すように、特徴量「11」が-0.5以上である領域に含まれるデータと、当該領域以外の領域に含まれるデータとに分類してしまい、特徴量「1」が-0.5となる直線を境界とした分類を実行できない。このため、
図8に示すように、特徴量「11」が-0.5以上となる領域には、白丸に混じって黒丸が点在している。
【0094】
図9は、本発明の比較例に係る分散データ処理装置が一つの機関から受信した部分データが示す内容に対応する第一ラベルデータを当該部分データに基づいて出力する解析モデルの一例を示す図である。
図10は、
図9に示した解析モデルを使用して人工データを分類した結果の一例を示す図である。
図10では、縦軸が特徴量「1」の値を示しており、横軸が特徴量「11」の値を示している。また、
図10は、一方のクラスに属するデータを黒丸で示しており、他方のクラスに属するデータを白丸で示している。
【0095】
図9に示した決定木は、機関B1により保有されている部分データに基づいて生成された統合解析モデルである。この決定木は、
図9に示すように、特徴量「2」から特徴量「10」の少なくとも一つに基づいて人工データを分類する決定木であり、特徴量「1」及び特徴量「11」を考慮しない。したがって、
図9に示した決定木は、
図10に示すように、特徴量「1」が-0.5となる直線を境界とした分類及び特徴量「11」が-0.5となる直線を境界とした分類を実行できない。このため、
図10に示すように、白丸に混じって黒丸が点在している。
【0096】
図11は、本発明の比較例に係る分散データ処理装置が一つの機関から受信した部分データが示す内容に対応する第一ラベルデータを当該部分データに基づいて出力する解析モデルの一例を示す図である。
図12は、
図11に示した解析モデルを使用して人工データを分類した結果の一例を示す図である。
図12では、縦軸が特徴量「1」の値を示しており、横軸が特徴量「11」の値を示している。また、
図12は、一方のクラスに属するデータを黒丸で示しており、他方のクラスに属するデータを白丸で示している。
【0097】
図11に示した決定木は、機関B2により保有されている部分データに基づいて生成された統合解析モデルである。この決定木は、
図11に示すように、特徴量「11」から特徴量「20」の少なくとも一つに基づいて人工データを分類する決定木であり、特徴量「1」を考慮しない。したがって、
図11に示した決定木は、
図12に示すように、特徴量「11」が-0.5以上である領域に含まれるデータと、当該領域以外の領域に含まれるデータとに分類してしまい、特徴量「1」が-0.5となる直線を境界とした分類を実行できない。
【0098】
図13は、本発明の第一実施形態に係る分散データ処理装置が四つの機関各々から受信した四つの抽象化部分データに基づいて生成した第二ラベルデータを使用して端末により生成された第二統合解析モデルの一例を示す図である。
図14は、
図13に示した第二統合解析モデルを使用して人工データを分類した結果の一例を示す図である。
図14では、縦軸が特徴量「1」の値を示しており、横軸が特徴量「11」の値を示している。また、
図14は、一方のクラスに属するデータを黒丸で示しており、他方のクラスに属するデータを白丸で示している。
【0099】
図13に示した決定木は、機関A1により保有されている部分データ、機関A2により保有されている部分データ、機関B1により保有されている部分データ及び機関B2により保有されている部分データに基づいて生成された第二統合解析モデルである。この決定木は、
図13に示すように、特徴量「1」及び特徴量「11」に基づいて人工データを分類する決定木である。したがって、
図13に示した決定木は、
図14に示すように、
図3に示した決定木と同様、特徴量「1」が-0.5以上であり、特徴量「11」が-0.5以上である領域に含まれるデータと、当該領域以外の領域に含まれるデータとを適切に分類することができている。また、
図13に示した決定木は、解釈性及び説明性の少なくとも一方が比較的高い。
【0100】
次に、
図15から
図21を参照しながら、第一実施形態に係る統合解析モデル生成システムを第二事例に適用した場合について説明する。
【0101】
図15は、本発明の第一実施形態に係る企業識別コード、財務データ、業種ラベル及び格付けの一例を示す図である。
【0102】
第二事例は、各データ及び各特徴量が固有の企業識別コードを有する各企業の運転資本/総資産、内部留保/総資産、税引前利払前利益/総資産、株式時価総額/全債務の簿価、売上高/総資産又は業種ラベルであり、各企業を格付けに応じて分類する事例である。
図15に示した表が示す内容は、上述した全体データの一例である。また、第二事例においては、各企業を格付けに応じて精度良く分類する上で税引前利払前利益/総資産及び株式時価総額/全債務の簿価が特に重要である。
【0103】
図15に示した各データのうち、企業識別コード「ID0001」から企業識別コード「ID3000」が割り当てられている各企業のデータが解析モデル又は第二解析モデルの生成に使用される教師データである。一方、
図15に示した各データのうち、企業識別コード「ID3001」から企業識別コード「ID3932」が割り当てられている各企業のデータが解析モデル又は第二解析モデルのテストデータとして使用されている。
【0104】
図15の左から二列目に記載されている「aa0001」、…、「aa3932」は、それぞれ企業識別コード「ID0001」、…、「ID3932」が割り当てられている企業の運転資本/総資産を表している。
図15の左から三列目に記載されている「bb0001」、…、「bb3932」は、それぞれ企業識別コード「ID0001」、…、「ID3932」が割り当てられている企業の内部留保/総資産を表している。
図15の左から四列目に記載されている「cc0001」、…、「cc3932」は、それぞれ企業識別コード「ID0001」、…、「ID3932」が割り当てられている企業の税引前利払前利益/総資産を表している。
【0105】
図15の左から五列目に記載されている「dd0001」、…、「dd3932」は、それぞれ企業識別コード「ID0001」、…、「ID3932」が割り当てられている企業の株式時価総額/全債務の簿価を表している。
図15の左から六列目に記載されている「ee0001」、…、「ee3932」は、それぞれ企業識別コード「ID0001」、…、「ID3932」が割り当てられている企業の売上高/総資産を表している。
図15の左から七列目に記載されている数字は、それぞれ企業識別コード「ID0001」、…、「ID3932」が割り当てられている企業の業種を示す業種ラベルを表している。
図15の左から八列目に記載されている英字は、それぞれ企業識別コード「ID0001」、…、「ID3932」が割り当てられている企業を財務的な観点から評価した場合における格付けを表している。
【0106】
第二事例では、企業識別コード「ID0001」から企業識別コード「ID1500」が割り当てられている各企業の運転資本/総資産を示すデータ、内部留保/総資産を示すデータ及び税引前利払前利益/総資産を示すデータが機関A1に保有されている。企業識別コード「ID0001」から企業識別コード「ID1500」が割り当てられている各企業の株式時価総額/全債務の簿価を示すデータ、売上高/総資産を示すデータ及び業種ラベルを示すデータが機関A2に保有されている。
【0107】
企業識別コード「ID1501」から企業識別コード「ID3000」が割り当てられている各企業の運転資本/総資産を示すデータ、内部留保/総資産を示すデータ及び税引前利払前利益/総資産を示すデータが機関B1に保有されている。企業識別コード「ID1501」から企業識別コード「ID3000」が割り当てられている各企業の株式時価総額/全債務の簿価を示すデータ、売上高/総資産を示すデータ及び業種ラベルを示すデータが機関B2に保有されている。
【0108】
図16は、本発明の比較例に係る分散データ処理装置が四つの機関各々から受信した四つの抽象化されていない部分データを統合して生成した統合データに含まれる要素が示す内容に対応する第一ラベルデータを当該統合データに基づいて出力する統合解析モデルの一例を示す図である。
図16に示した決定木は、主に税引前利払前利益/総資産及び株式時価総額/全債務の簿価に基づいて
図15に示した各企業を格付けに応じて分類する解析モデルであるため、これらの企業を比較的精度良く分類することができる。ただし、
図16に示した決定木により実行される処理は、抽象化されていない部分データを共有するという実行不可能な処理を必要としているため、実際には実行され得ない。
【0109】
図17は、本発明の比較例に係る分散データ処理装置が一つの機関から受信した部分データが示す内容に対応する第一ラベルデータを当該部分データに基づいて出力する解析モデルの一例を示す図である。
図17に示した決定木は、運転資本/総資産、内部留保/総資産及び税引前利払前利益/総資産の少なくとも一つに基づいて
図15に示した各企業を格付けに応じて分類する解析モデルであるため、これらの企業を精度良く分類することができないことがある。
【0110】
図18は、本発明の比較例に係る分散データ処理装置が一つの機関から受信した部分データが示す内容に対応する第一ラベルデータを当該部分データに基づいて出力する解析モデルの一例を示す図である。
図17に示した決定木は、株式時価総額/全債務の簿価、売上高/総資産及び業種ラベルの少なくとも一つに基づいて
図15に示した各企業を格付けに応じて分類する解析モデルであるため、これらの企業を精度良く分類することができないことがある。
【0111】
図19は、本発明の比較例に係る分散データ処理装置が一つの機関から受信した部分データが示す内容に対応する第一ラベルデータを当該部分データに基づいて出力する解析モデルの一例を示す図である。
図19に示した決定木は、運転資本/総資産、内部留保/総資産及び税引前利払前利益/総資産の少なくとも一つに基づいて
図15に示した各企業を格付けに応じて分類する解析モデルであるため、これらの企業を精度良く分類することができないことがある。
【0112】
図20は、本発明の比較例に係る分散データ処理装置が一つの機関から受信した部分データが示す内容に対応する第一ラベルデータを当該部分データに基づいて出力する解析モデルの一例を示す図である。
図20に示した決定木は、株式時価総額/全債務の簿価、売上高/総資産及び業種ラベルの少なくとも一つに基づいて
図15に示した各企業を格付けに応じて分類する解析モデルであるため、これらの企業を精度良く分類することができないことがある。
【0113】
図21は、本発明の第一実施形態に係る分散データ処理装置が四つの機関各々から受信した四つの抽象化部分データに基づいて生成した第二ラベルデータを使用して端末により生成された第二統合解析モデルの一例を示す図である。
図21に示した決定木は、主に税引前利払前利益/総資産及び株式時価総額/全債務の簿価に基づいて
図15に示した各企業を格付けに応じて分類する解析モデルであるため、これらの企業を比較的精度良く分類することができる。また、
図21に示した決定木は、解釈性及び説明性の少なくとも一方が比較的高い。
【0114】
[第二実施形態]
次に、第二実施形態に係る統合解析モデル生成システムの一例について説明する。第二実施形態に係る統合解析モデル生成システムは、第一アンカーデータと第二アンカーデータとで異なるアンカーデータを使用する点が第一実施形態に係る統合解析モデル生成システムと異なる。そこで、第二実施形態では、第一実施形態と異なる点を中心に説明し、第一実施形態と同じ符号及び数学記号を使用し、第一実施形態と重複する事項に関する説明を適宜省略する。
【0115】
端末111、端末112、端末121、…、端末1cdは、それぞれ部分行列Xanc‐a
1,1で表されるアンカーデータ、部分行列Xanc‐a
1,2で表されるアンカーデータ、部分行列Xanc‐a
2,1で表されるアンカーデータ、…、部分行列Xanc‐a
c,dで表されるアンカーデータを保有している。これらのアンカーデータは、統合データを生成するために使用される第一アンカーデータである。
【0116】
また、これらの部分行列は、正方行列又は矩形行列であり、全アンカーデータを表すra行m列(ra:n未満の自然数)の行列Xanc‐aの部分行列である。したがって、行列Xanc‐aと、部分行列Xanc‐a
1,1、部分行列Xanc‐a
1,2、部分行列Xanc‐a
2,1、…、部分行列Xanc‐a
c,dとの関係は、例えば、次の式(14)により表される。また、式(14)に含まれる部分行列Xanc‐a
i,jは、ra,i行mj列の行列である。なお、式(14)に含まれる部分行列Xanc‐a
:,jは、部分行列Xanc‐a
1,j、部分行列Xanc‐a
2,j、…、部分行列Xanc‐a
c,jを列方向に結合させたra行mj列の部分行列である。
【0117】
【0118】
また、端末111、端末112、端末121、…、端末1cdは、それぞれ部分行列Xanc‐b
1,1で表されるアンカーデータ、部分行列Xanc‐b
1,2で表されるアンカーデータ、部分行列Xanc‐b
2,1で表されるアンカーデータ、…、部分行列Xanc‐b
c,dで表されるアンカーデータを保有している。これらのアンカーデータは、統合アンカーデータを生成するために使用される第二アンカーデータであり、第一アンカーデータと異なる。
【0119】
また、これらの部分行列は、正方行列又は矩形行列であり、全アンカーデータを表すrb行m列(ra:n未満の自然数)の行列Xanc‐bの部分行列である。したがって、行列Xanc‐bと、部分行列Xanc‐b
1,1、部分行列Xanc‐b
1,2、部分行列Xanc‐b
2,1、…、部分行列Xanc‐b
c,dとの関係は、例えば、次の式(15)により表される。また、式(15)に含まれる部分行列Xanc‐b
i,jは、rb,i行mj列の行列である。なお、式(15)に含まれる部分行列Xanc‐b
:,jは、部分行列Xanc‐b
1,j、部分行列Xanc‐b
2,j、…、部分行列Xanc‐b
c,jを列方向に結合させたrb行mj列の部分行列である。
【0120】
【0121】
生成部1111は、部分行列X1,1で表される部分データに関数f1,1で表される独自の抽象化処理を施すことにより部分行列W1,1で表される抽象化部分データを生成する。同様に、生成部11ijは、上述した式(4)で示されるように、部分行列Xi,jで表される部分データに関数fi,jで表される独自の抽象化処理を施すことにより部分行列Wi,jで表される抽象化部分データを生成する。
【0122】
生成部1111は、部分行列Xanc‐a
:,1に関数f1,1で表される独自の抽象化処理を施すことにより部分行列Wanc‐a
1,1で表される抽象化アンカーデータを生成する。同様に、生成部11ijは、次の式(16)で示されるように、部分行列Xanc‐a
:,jに関数fi,jで表される独自の抽象化処理を施すことにより部分行列Wanc‐a
i,jで表される抽象化アンカーデータを生成する。部分行列Wanc‐a
i,jは、ra行pi,j列の部分行列である。また、これらの抽象化アンカーデータは、第一抽象化アンカーデータである。
【0123】
【0124】
生成部1111は、部分行列Xanc‐b
:,1に関数f1,1で表される独自の抽象化処理を施すことにより部分行列Wanc‐b
1,1で表される抽象化アンカーデータを生成する。同様に、生成部11ijは、次の式(17)で示されるように、部分行列Xanc‐b
:,jに関数fi,jで表される独自の抽象化処理を施すことにより部分行列Wanc‐b
i,jで表される抽象化アンカーデータを生成する。部分行列Wanc‐b
i,jは、rb行pi,j列の部分行列である。また、これらの抽象化アンカーデータは、第二抽象化アンカーデータである。
【0125】
【0126】
送信部1211は、部分行列W1,1で表される抽象化部分データ及び部分行列Wanc‐a
1,1で表される抽象化アンカーデータをネットワークNW経由で分散データ処理装置20に送信する。同様に、送信部1212、…、送信部12cdは、それぞれ部分行列W1,2で表される抽象化部分データ及び部分行列Wanc‐a
c,dで表される抽象化アンカーデータ、…、部分行列W1,2で表される抽象化部分データ及び部分行列Wanc‐a
c,dで表される抽象化アンカーデータをネットワークNW経由で分散データ処理装置20に送信する。
【0127】
送信部1211は、部分行列W1,1で表される抽象化部分データ及び部分行列Wanc‐b
1,1で表される抽象化アンカーデータをネットワークNW経由で分散データ処理装置20に送信する。同様に、送信部1212、…、送信部12cdは、それぞれ部分行列W1,2で表される抽象化部分データ及び部分行列Wanc‐b
c,dで表される抽象化アンカーデータ、…、部分行列W1,2で表される抽象化部分データ及び部分行列Wanc‐b
c,dで表される抽象化アンカーデータをネットワークNW経由で分散データ処理装置20に送信する。
【0128】
また、送信部1211、送信部1212、…、送信部121dは、部分行列Y1を示すデータをネットワークNW経由で分散データ処理装置20に送信する。同様に、送信部12i1、送信部12i2、…、送信部12idは、部分行列Y1を示すデータをネットワークNW経由で分散データ処理装置20に送信する。
【0129】
受信部210は、部分行列W1,1で表される抽象化部分データ及び部分行列Wanc‐a
1,1で表される抽象化アンカーデータをネットワークNW経由で端末111から受信する。同様に、受信部210は、部分行列W1,2で表される抽象化部分データ及び部分行列Wanc‐a
c,dで表される抽象化アンカーデータ、…、部分行列W1,2で表される抽象化部分データ及び部分行列Wanc‐a
c,dで表される抽象化アンカーデータをネットワークNW経由で端末112、…、端末1cdから受信する。
【0130】
受信部210は、部分行列W1,1で表される抽象化部分データ及び部分行列Wanc‐b
1,1で表される抽象化アンカーデータをネットワークNW経由で端末111から受信する。同様に、受信部210は、部分行列W1,2で表される抽象化部分データ及び部分行列Wanc‐b
c,dで表される抽象化アンカーデータ、…、部分行列W1,2で表される抽象化部分データ及び部分行列Wanc‐b
c,dで表される抽象化アンカーデータをネットワークNW経由で端末112、…、端末1cdから受信する。
【0131】
また、受信部210は、部分行列Y1を示すデータをネットワークNW経由で送信部1211、送信部1212、…、送信部121d各々から受信する。同様に、部分行列Y1を示すデータをネットワークNW経由で送信部12i1、送信部12i2、…、送信部12id各々から受信する。
【0132】
生成部220は、次の式(18)に示すように、部分行列Wanc‐a
i,1で表される抽象化アンカーデータ、…、部分行列Wanc‐a
i,dで表される抽象化アンカーデータを行方向に結合させてra行pi列の部分行列Wanc‐a
iを生成する。
【0133】
【0134】
また、生成部220は、次の式(19)に示すように、部分行列Wanc‐b
i,1で表される抽象化アンカーデータ、…、部分行列Wanc‐b
i,dで表される抽象化アンカーデータを行方向に結合させてra行pi列の部分行列Wanc‐b
iを生成する。
【0135】
【0136】
そして、生成部220は、部分行列Wanc‐a
iを使用して後述する統合データを生成するために使用する統合用関数giを生成する。
【0137】
一方、生成部220は、上述した式(7)に示すように、部分行列Wi,1で表される抽象化部分データ、…、部分行列Wi,dで表される抽象化部分データを行方向に結合させてni行pi列の部分行列Wiを生成する。
【0138】
生成部220は、上述した式(8)に示すように、統合用関数giを使用することにより部分行列Wiからni行p列の部分行列Ziで表される統合データを生成する。
【0139】
生成部220は、部分行列Z1で表される統合データ、…、部分行列Zcで表される統合データに含まれる要素が示す内容に対応し、上述した式(2)で表される行列Yの各行に対応する内容を示すデータである第一ラベルデータを統合データに基づいて出力する第一統合解析モデルhを生成する。行列Z、第一統合解析モデルh及び行列Yの関係は、上述した式(10)で表される。
【0140】
生成部220は、次の式(20)に示すように、統合用関数giを使用することにより上述した式(19)で表される部分行列Wanc‐b
iからrb行q列の部分行列Zanc‐b
iで表される統合アンカーデータを生成する。
【0141】
【0142】
生成部220は、次の式(21)に示すように、部分行列Zanc‐b
iで表される統合アンカーデータを上述した第一統合解析モデルhに入力して当該統合アンカーデータに含まれる要素が示す内容に対応する第二ラベルデータを生成する。第二ラベルデータは、式(21)の左辺の行列Yanc‐b
iの各行に対応する内容を示すデータである。
【0143】
【0144】
送信部230は、行列Yanc‐b
1の各行に対応する内容を示す第二ラベルデータを端末111、端末112、…、端末11dに送信する。同様に、送信部230は、行列Yanc‐b
2の各行に対応する内容を示す第二ラベルデータを端末121、端末122、…、端末12dに送信する。また、同様に、送信部230は、行列Yanc‐b
cの各行に対応する内容を示す第二ラベルデータを端末1c1、端末1c2、…、端末1cdに送信する。なお、これらは、行列Yanc‐b
3の各行に対応する内容を示す第二ラベルデータ、…、行列Yanc‐b
c-1の各行に対応する内容を示す第二ラベルデータについても同様である。
【0145】
受信部1311、受信部1312、…、端末131dは、それぞれ行列Yanc‐b
1の各行に対応する内容を示す第二ラベルデータを分散データ処理装置20から受信する。同様に、受信部1321、受信部1322、…、受信部132dは、それぞれ行列Yanc‐b
2の各行に対応する内容を示す第二ラベルデータを分散データ処理装置20から受信する。また、同様に、受信部13c1、受信部13c2、…、受信部13cdは、それぞれ行列Yanc‐b
cの各行に対応する内容を示す第二ラベルデータを分散データ処理装置20から受信する。なお、これらの処理は、行列Yanc‐b
3の各行に対応する内容を示す第二ラベルデータ、…、行列Yanc‐b
c-1の各行に対応する内容を示す第二ラベルデータについても同様である。
【0146】
そして、生成部1111、生成部1112、…、生成部111dは、部分行列Xanc‐bで表される第二アンカーデータ及び行列Yanc‐b
1の各行に対応する内容を示す第二ラベルデータ使用して第二統合解析モデルt1を生成する。同様に、生成部1121、生成部1122、…、生成部112dは、部分行列Xanc‐bで表される第二アンカーデータ及び行列Yanc‐b
2の各行に対応する内容を示す第二ラベルデータ使用して第二統合解析モデルt2を生成する。また、同様に、生成部11c1、生成部11c2、…、生成部11cdは、部分行列Xanc‐bで表される第二アンカーデータ及び行列Yanc‐b
cの各行に対応する内容を示す第二ラベルデータ使用して第二統合解析モデルtcを生成する。これらの処理は、他の生成部についても同様であり、次の式(22)で表される。
【0147】
【0148】
以上、第二実施形態に係る統合解析モデル生成システム1について説明した。第二実施形態に係る統合解析モデル生成システム1は、第一アンカーデータと第二アンカーデータとが異なる点を除いて、第一実施形態に係る統合解析モデル生成システム1と同様の処理を実行する。これにより、統合解析モデル生成システム1は、解釈性及び説明性の少なくとも一方が比較的高い統合解析モデルを生成することができる。
【0149】
また、第二実施形態に係る分散データ処理装置20は、統合データを生成する場合と統合アンカーデータを生成する場合とで異なるアンカーデータを使用している。これにより、統合解析モデル生成システム1は、統合データを生成する上で好ましいアンカーデータ及び統合アンカーデータを生成する上で好ましいアンカーデータを併用し、解釈性及び説明性の少なくとも一方が更に高い統合解析モデルを生成することができる。
【0150】
[第三実施形態]
次に、第三実施形態に係る統合解析モデル生成システムの一例について説明する。第三実施形態に係る統合解析モデル生成システムは、全体データを表す行列内において、部分データを表し、互いに隣接する部分行列の行及び列の少なくとも一方が異なることがある点が第一実施形態に係る統合解析モデル生成システムと異なる。そこで、第三実施形態では、第一実施形態と異なる点を中心に説明し、第一実施形態と同じ符号及び数学記号を使用し、第一実施形態と重複する事項に関する説明を適宜省略する。
【0151】
端末111、端末112、端末121、…、端末1cdは、それぞれ部分行列X1,1で表される部分データ、部分行列X1,2で表される部分データ、部分行列X2,1で表される部分データ、…、部分行列Xc,dで表される部分データを保有している。また、これらの部分行列は、互いに隣接する部分行列の行及び列の少なくとも一方が異なることがある。したがって、部分行列Xi,jは、データ分割に関するインデックス集合I1、インデックス集合I2、…、インデックス集合Ic及び特徴量分割に関するインデックス集合J1、インデックス集合J2、…、インデックス集合Jcを含む次の式(23)で表される。
【0152】
【0153】
また、上述したデータ分割に関するインデックス集合は、次の式(24)、式(25)及び式(26)で表される性質を有する。式(24)は、部分行列Xi,jの各行に対応する内容が他の部分行列Xi´,jのいずれの行にも対応することが無いことを表している。式(25)は、全体データに含まれるn個のデータの全てにデータ分割に関するインデックス集合I1、インデックス集合I2、…又はインデックス集合Icが割り当てられていることを表している。式(26)は、インデックス集合Iiに含まれる要素の数が部分行列Xi,jの行の数niに等しいことを表している。
【0154】
【0155】
【0156】
【0157】
また、上述した特徴量分割に関するインデックス集合は、次の式(27)及び式(28)で表される性質を有する。式(27)は、全体データに含まれるm個の特徴量の全部又は一部に特徴量分割に関するインデックス集合J1、インデックス集合J2、…又はインデックス集合Jdiが割り当てられていることを表している。式(28)は、インデックス集合Jiに含まれる要素の数が部分行列Xi,jの列の数mjに等しいことを表している。
【0158】
【0159】
【0160】
図22は、本発明の第三実施形態に係る部分データを示す部分行列の一例を示す図である。
図22に示した六行八列のマス目は、全体データを表す六行八列の矩形行列の各要素を表している。
【0161】
図22に示した事例の場合、部分行列X
1,1は、データ分割に関するインデックス集合I
1及び特徴量分割に関するインデックス集合J
1,1で示されている通り、三行四列の矩形行列である。また、
図22に示した白丸は、部分行列X
1,1で表される部分データが第一機関の第一部署により保有されていることを示している。
【0162】
部分行列X
1,2は、データ分割に関するインデックス集合I
1及び特徴量分割に関するインデックス集合J
1,2で示されている通り、三行三列の正方行列である。また、
図22に示した米印は、部分行列X
1,2で表される部分データが第一機関の第二部署により保有されていることを示している。
【0163】
部分行列X
2,1は、データ分割に関するインデックス集合I
2及び特徴量分割に関するインデックス集合J
2,1で示されている通り、三行三列の正方行列である。また、
図22に示したクローバー印は、部分行列X
2,1で表される部分データが第二機関の第一部署により保有されていることを示している。
【0164】
部分行列X
2,2は、データ分割に関するインデックス集合I
2及び特徴量分割に関するインデックス集合J
2,2で示されている通り、三行二列の矩形行列である。また、
図22に示したハート印は、部分行列X
2,2で表される部分データが第二機関の第二部署により保有されていることを示している。
【0165】
部分行列X
2,3は、データ分割に関するインデックス集合I
2及び特徴量分割に関するインデックス集合J
2,3で示されている通り、三行三列の正方行列である。また、
図22に示したハート印は、部分行列X
2,2で表される部分データが第二機関の第三部署により保有されていることを示している。
【0166】
また、
図22に示した事例の場合、全体データを表す六行八列の矩形行列の要素のうち一行八列、二行八列及び三行八列の要素が欠損している。
【0167】
また、行列Xの各行ベクトルにより示される内容に対応する行ベクトルを有する行列Yは、例えば、上述した式(2)で表される。
【0168】
端末111、端末112、端末121、…、端末1cdは、それぞれ部分行列Xanc
1,1で表されるアンカーデータ、部分行列Xanc
1,2で表されるアンカーデータ、部分行列Xanc
2,1で表されるアンカーデータ、…、部分行列Xanc
c,dで表されるアンカーデータを保有している。これらのアンカーデータは、後述する統合データを生成するために使用される第一アンカーデータと、後述する統合アンカーデータを生成するために使用される第二アンカーデータとを兼ねている。すなわち、第一アンカーデータと、第二アンカーデータとは、同じである。
【0169】
生成部1111は、部分行列X1,1で表される部分データに関数f1,1で表される独自の抽象化処理を施すことにより部分行列W1,1で表される抽象化部分データを生成する。同様に、生成部11ijは、上述した式(4)で示されるように、部分行列Xi,jで表される部分データに関数fi,jで表される独自の抽象化処理を施すことにより部分行列Wi,jで表される抽象化部分データを生成する。
【0170】
生成部1111は、部分行列Xanc
:,1に関数f1,1で表される独自の抽象化処理を施すことにより部分行列Wanc
1,1で表される抽象化アンカーデータを生成する。同様に、生成部11ijは、上述した式(5)で示されるように、部分行列Xanc
:,jに関数fi,jで表される独自の抽象化処理を施すことにより部分行列Wanc
i,jで表される抽象化アンカーデータを生成する。部分行列Wanc
i,jは、r行pi,j列の部分行列である。また、これらの抽象化アンカーデータは、第一抽象化アンカーデータ及び第二抽象化アンカーデータに該当する。
【0171】
送信部1211は、部分行列W1,1で表される抽象化部分データ及び部分行列Wanc
1,1で表される抽象化アンカーデータをネットワークNW経由で分散データ処理装置20に送信する。同様に、送信部1212、…、送信部12cdは、それぞれ部分行列W1,2で表される抽象化部分データ及び部分行列Wanc
c,dで表される抽象化アンカーデータ、…、部分行列W1,2で表される抽象化部分データ及び部分行列Wanc
c,dで表される抽象化アンカーデータをネットワークNW経由で分散データ処理装置20に送信する。
【0172】
また、送信部1211、送信部1212、…、送信部121dは、部分行列Y1を示すデータをネットワークNW経由で分散データ処理装置20に送信する。同様に、送信部12i1、送信部12i2、…、送信部12idは、部分行列Y1を示すデータをネットワークNW経由で分散データ処理装置20に送信する。
【0173】
受信部210は、部分行列W1,1で表される抽象化部分データ及び部分行列Wanc
1,1で表される抽象化アンカーデータをネットワークNW経由で端末111から受信する。同様に、受信部210は、部分行列W1,2で表される抽象化部分データ及び部分行列Wanc
c,dで表される抽象化アンカーデータ、…、部分行列W1,2で表される抽象化部分データ及び部分行列Wanc
c,dで表される抽象化アンカーデータをネットワークNW経由で端末112、…、端末1cdから受信する。
【0174】
また、受信部210は、部分行列Y1を示すデータをネットワークNW経由で送信部1211、送信部1212、…、送信部121d各々から受信する。同様に、部分行列Y1を示すデータをネットワークNW経由で送信部12i1、送信部12i2、…、送信部12id各々から受信する。
【0175】
生成部220は、次の式(29)に示すように、部分行列Wanc
i,1で表される抽象化アンカーデータ、…、部分行列Wanc
i,diで表される抽象化アンカーデータを行方向に結合させてr行pi列の部分行列Wanc
iを生成する。
【0176】
【0177】
そして、生成部220は、部分行列Wanc
iを使用して後述する統合データを生成するために使用する統合用関数giを生成する。
【0178】
一方、生成部220は、次の式(30)に示すように、部分行列Wi,1で表される抽象化部分データ、…、部分行列Wi,diで表される抽象化部分データを行方向に結合させてni行pi列の部分行列Wiを生成する。
【0179】
【0180】
生成部220は、上述した式(8)に示すように、統合用関数giを使用することにより部分行列Wiからni行p列の部分行列Ziで表される統合データを生成する。
【0181】
生成部220は、部分行列Z1で表される統合データ、…、部分行列Zcで表される統合データに含まれる要素が示す内容に対応し、上述した式(2)で表される行列Yの各行に対応する内容を示すデータである第一ラベルデータを統合データに基づいて出力する第一統合解析モデルhを生成する。行列Z、第一統合解析モデルh及び行列Yの関係は、上述した式(10)で表される。
【0182】
生成部220は、上述した式(11)に示すように、統合用関数giを使用することにより上述した式(6)で表される部分行列Wanc
iからr行p列の部分行列Zanc
iで表される統合アンカーデータを生成する。
【0183】
生成部220は、上述した式(12)に示すように、部分行列Zanc
iで表される統合アンカーデータを上述した第一統合解析モデルhに入力して当該統合アンカーデータに含まれる要素が示す内容に対応する第二ラベルデータを生成する。
【0184】
送信部230は、行列Yanc
1の各行に対応する内容を示す第二ラベルデータを端末111、端末112、…、端末11dに送信する。同様に、送信部230は、行列Yanc
2の各行に対応する内容を示す第二ラベルデータを端末121、端末122、…、端末12dに送信する。また、同様に、送信部230は、行列Yanc
cの各行に対応する内容を示す第二ラベルデータを端末1c1、端末1c2、…、端末1cdに送信する。なお、これらは、行列Yanc
3の各行に対応する内容を示す第二ラベルデータ、…、行列Yanc
c-1の各行に対応する内容を示す第二ラベルデータについても同様である。
【0185】
受信部1311、受信部1312、…、端末131dは、それぞれ行列Yanc
1の各行に対応する内容を示す第二ラベルデータを分散データ処理装置20から受信する。同様に、受信部1321、受信部1322、…、受信部132dは、それぞれ行列Yanc
2の各行に対応する内容を示す第二ラベルデータを分散データ処理装置20から受信する。また、同様に、受信部13c1、受信部13c2、…、受信部13cdは、それぞれ行列Yanc
cの各行に対応する内容を示す第二ラベルデータを分散データ処理装置20から受信する。なお、これらの処理は、行列Yanc
3の各行に対応する内容を示す第二ラベルデータ、…、行列Yanc
c-1の各行に対応する内容を示す第二ラベルデータについても同様である。
【0186】
そして、生成部1111、生成部1112、…、生成部111dは、部分行列Xancで表される第二アンカーデータ及び行列Yanc
1の各行に対応する内容を示す第二ラベルデータ使用して第二統合解析モデルt1を生成する。同様に、生成部1121、生成部1122、…、生成部112dは、部分行列Xancで表される第二アンカーデータ及び行列Yanc
2の各行に対応する内容を示す第二ラベルデータ使用して第二統合解析モデルt2を生成する。また、同様に、生成部11c1、生成部11c2、…、生成部11cdは、部分行列Xancで表される第二アンカーデータ及び行列Yanc
cの各行に対応する内容を示す第二ラベルデータ使用して第二統合解析モデルtcを生成する。これらの処理は、他の生成部についても同様であり、上述した式(13)で表される。
【0187】
以上、第三実施形態に係る統合解析モデル生成システム1について説明した。第三実施形態に係る統合解析モデル生成システム1は、全体データを表す行列内において、部分データを表し、互いに隣接する部分行列の行及び列の少なくとも一方が異なることがある点を除いて、第一実施形態に係る統合解析モデル生成システム1と同様の処理を実行する。これにより、統合解析モデル生成システム1は、解釈性及び説明性の少なくとも一方が比較的高い統合解析モデルを生成することができる。
【0188】
また、第三実施形態に係る分散データ処理装置20は、部分データを表し、互いに隣接する部分行列の行及び列の少なくとも一方が異なることがある全体データについて上述した処理を実行している。これにより、統合解析モデル生成システム1は、複数の機関に分かれて保有されている部分データが
図22に示した事例等のように分かれて保有されている場合であっても解釈性及び説明性の少なくとも一方が比較的高い統合解析モデルを生成することができる。
【0189】
なお、第三実施形態では、部分データを示す部分行列が正方行列又は矩形行列である場合を例に挙げて説明したが、これに限定されない。
図23は、本発明の他の実施形態に係る部分データを示す部分行列の一例を示す図である。
図23に示した白丸は、当該箇所に要素が存在することを示している。一方、
図23に示した横線は、当該箇所から要素が欠損していることを示している。
図23に示すように、部分データを示す部分行列は、正方行列の要素の一部が欠損している行列又は矩形行列の要素の一部が欠損している行列であってもよい。
【0190】
この場合、抽象化アンカーデータは、正方行列の要素の一部が欠損している行列又は矩形行列の要素の一部が欠損している行列で表されるアンカーデータに抽象化処理を施すことにより生成され、正方行列の要素の一部が欠損している行列又は矩形行列の要素の一部が欠損している行列で表される。
【0191】
また、この場合、抽象化部分データは、正方行列の要素の一部が欠損している行列又は矩形行列の要素の一部が欠損している行列で表される部分データに抽象化処理を施すことにより生成され、正方行列の要素の一部が欠損している行列又は矩形行列の要素の一部が欠損している行列で表される。
【0192】
また、端末111、…、端末1cd、分散データ処理装置20が有する機能の少なくとも一部は、回路部(circuitry)を含むハードウェアがプログラムを実行することにより実現されてもよい。ここで言うハードウェアは、例えば、CPU(Central Processing Unit)、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)である。また、上述したプログラムは、記憶媒体を備える記憶装置に格納されている。ここで言う記憶媒体は、例えば、HDD(Hard Disk Drive)、フラッシュメモリ、ROM(Read Only Memory)、DVD(Digital Versatile Disc)である。さらに、上述したプログラムは、端末111、…、端末1cd、分散データ処理装置20が有する機能の一部を実現する差分プログラムであってもよい。
【0193】
以上、本発明の実施形態について図面を参照しながら説明した。ただし、統合解析モデル生成システム1は、上述した実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形、置換、組み合わせ又は設計変更を加えることができる。
【符号の説明】
【0194】
1…統合解析モデル生成システム、11,…,1n…端末、111,…11n…送信部、121,…,12n…受信部、131,…,13n…生成部、20…分散データ処理装置、210…受信部、220…生成部、230…送信部