特許7697509 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7697509情報処理装置、情報処理方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-06-16

(45)【発行日】2025-06-24

(54)【発明の名称】情報処理装置、情報処理方法、およびプログラム

(51)【国際特許分類】

G06F 16/9536 20190101AFI20250617BHJP

【ＦＩ】

G06F16/9536

【請求項の数】 6

(21)【出願番号】P 2023527179

(86)(22)【出願日】2021-06-07

(86)【国際出願番号】 JP2021021639

(87)【国際公開番号】W WO2022259336

(87)【国際公開日】2022-12-15

【審査請求日】2023-12-04

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100103894

【弁理士】

【氏名又は名称】家入健

(72)【発明者】

【氏名】草野元紀

【審査官】原秀人

(56)【参考文献】

【文献】特開２００６－３０１９２０（ＪＰ，Ａ）

【文献】特開２０１８－０５５５５１（ＪＰ，Ａ）

【文献】特開２００６－１６３９４１（ＪＰ，Ａ）

【文献】草野元紀外，行動パターンを基にした異なるドメインに対するユーザ同定技術，第１３回データ工学と情報マネジメントに関するフォーラム（第１９回日本データベース学会年次大会）［Ｏｎｌｉｎｅ］，日本，日本データベース学会，2021年05月06日，pp. 1-7

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１６／００－１６／９５８

(57)【特許請求の範囲】

【請求項1】

少なくとも１つのデータを含み、自然言語で表された第１の属性が関連付けられた第１のデータセットと、複数のデータを含み、自然言語で表された第２の属性が関連付けられた第２のデータセットのうち、前記第２のデータセットに含まれるデータについて、前記第２の属性に関する第２の特徴量を算出する特徴量算出手段と、
前記第１の属性と前記第２の属性との関係性に基づき、前記第２の特徴量を前記第１の属性に関する第１の特徴量に変換する変換手段と、を備え、
前記特徴量算出手段は、前記第２のデータセットに含まれる前記データが、当該第２のデータセットに関連付けられた前記第２の属性に該当する程度を示す第２のスコアを、前記第２の特徴量として算出し、
前記変換手段は、前記第１の属性と前記第２の属性との関係性に基づいて生成された変換規則を適用して、前記第２のスコアを、前記第１の属性に該当する程度を示す第１のスコアに変換したものを前記第１の特徴量とする、情報処理装置。

【請求項2】

前記第１の属性と前記第２の属性との類似の程度が高いほど前記第２のスコアが前記第１のスコアに強く反映される前記変換規則を生成する変換規則生成手段を備える、請求項１に記載の情報処理装置。

【請求項3】

前記第１の属性と前記第２の属性から最適輸送理論により前記変換規則を生成する変換規則生成手段を備える、請求項１に記載の情報処理装置。

【請求項4】

前記変換手段による変換により生成された、前記第２のデータセットに含まれる前記データについての前記第１の特徴量と、前記第１のデータセットに含まれる複数のデータの前記第１の属性に関する特徴量とに基づき、前記第１のデータセットに含まれる複数のデータの中から、前記第２のデータセットに含まれる前記データと類似した類似データを抽出する類似データ抽出手段を備える、請求項１から３の何れか１項に記載の情報処理装置。

【請求項5】

少なくとも１つのプロセッサが、
少なくとも１つのデータを含み、自然言語で表された第１の属性が関連付けられた第１のデータセットと、複数のデータを含み、自然言語で表された第２の属性が関連付けられた第２のデータセットのうち、前記第２のデータセットに含まれるデータについて、前記第２の属性に関する第２の特徴量を算出することと、
前記第１の属性と前記第２の属性との関係性に基づき、前記第２の特徴量を前記第１の属性に関する第１の特徴量に変換することと、を含み、
前記第２の特徴量の算出において、前記少なくとも１つのプロセッサは、前記第２のデータセットに含まれる前記データが、当該第２のデータセットに関連付けられた前記第２の属性に該当する程度を示す第２のスコアを、前記第２の特徴量として算出し、
前記変換において、前記少なくとも１つのプロセッサは、前記第１の属性と前記第２の属性との関係性に基づいて生成された変換規則を適用して、前記第２のスコアを、前記第１の属性に該当する程度を示す第１のスコアに変換したものを前記第１の特徴量とする、情報処理方法。

【請求項6】

コンピュータを、
少なくとも１つのデータを含み、自然言語で表された第１の属性が関連付けられた第１のデータセットと、複数のデータを含み、自然言語で表された第２の属性が関連付けられた第２のデータセットのうち、前記第２のデータセットに含まれるデータについて、前記第２の属性に関する第２の特徴量を算出する特徴量算出手段、および
前記第１の属性と前記第２の属性との関係性に基づき、前記第２の特徴量を前記第１の属性に関する第１の特徴量に変換する変換手段、として機能させ、
前記特徴量算出手段は、前記第２のデータセットに含まれる前記データが、当該第２のデータセットに関連付けられた前記第２の属性に該当する程度を示す第２のスコアを、前記第２の特徴量として算出し、
前記変換手段は、前記第１の属性と前記第２の属性との関係性に基づいて生成された変換規則を適用して、前記第２のスコアを、前記第１の属性に該当する程度を示す第１のスコアに変換したものを前記第１の特徴量とする、プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、データ分析に利用可能な情報処理装置等に関する。

【背景技術】

【0002】

近年では、多種多様なデータソースのデータを利用することが可能になっており、そのような多種多様なデータソースのデータを分析し、利用するための技術の開発も進められている。例えば、下記の特許文献１には、情報提供対象のユーザと類似する嗜好を有する複数の類似ユーザを抽出すると共に、情報提供対象のユーザが、自分と同じ傾向の趣味・嗜好を有する他のユーザを追加の類似ユーザとして選択することを可能にした情報提供方法について開示されている。

【0003】

具体的には、特許文献１の情報提供方法では、データベースに登録されている飲食店等に対するユーザの評価値に基づいて、ユーザと類似する嗜好を有する複数の類似ユーザを抽出して、類似ユーザが高い評価を付けた飲食店等の情報をユーザに提供する。また、特許文献１の情報提供方法では、類似ユーザとして抽出されなかったユーザに関する情報も提供し、類似ユーザに加えるユーザを選択させる。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２０２０－３８７２７号

【発明の概要】

【発明が解決しようとする課題】

【0005】

特許文献１の技術は、１つのデータベースに登録されている情報に基づいて類似ユーザを抽出するものである。このため、当該技術では、複数のデータセットが存在する場合に、あるデータセットに含まれるデータと類似したデータを、他のデータセットから抽出すること、つまり異なるデータセットを横断して類似データを抽出することはできない。

【0006】

また、近年では、データ解析において、解析結果についての解釈性が求められることも多い。例えば、類似したデータを自動で抽出する場合であれば、そのデータが抽出された理由や根拠を解釈できたり、説明できたりすることが望まれる。

【0007】

本発明は、異なるデータセットを横断して類似データを抽出することを可能にすると共に、抽出の理由を解釈し、説明することも可能にする情報処理装置等を提供することを目的としている。

【課題を解決するための手段】

【0008】

本発明の一側面に係る情報処理装置は、少なくとも１つのデータを含み、自然言語で表された第１の属性が関連付けられた第１のデータセットと、複数のデータを含み、自然言語で表された第２の属性が関連付けられた第２のデータセットのうち、前記第２のデータセットに含まれるデータについて、前記第２の属性に関する第２の特徴量を算出する特徴量算出手段と、前記第１の属性と前記第２の属性との関係性に基づき、前記第２の特徴量を前記第１の属性に関する第１の特徴量に変換する変換手段と、を備える。

【0009】

本発明の一側面に係る情報処理方法は、少なくとも１つのプロセッサが、少なくとも１つのデータを含み、自然言語で表された第１の属性が関連付けられた第１のデータセットと、複数のデータを含み、自然言語で表された第２の属性が関連付けられた第２のデータセットのうち、前記第２のデータセットに含まれるデータについて、前記第２の属性に関する第２の特徴量を算出することと、前記第１の属性と前記第２の属性との関係性に基づき、前記第２の特徴量を前記第１の属性に関する第１の特徴量に変換することと、を含む。

【0010】

本発明の一側面に係るプログラムは、コンピュータを、少なくとも１つのデータを含み、自然言語で表された第１の属性が関連付けられた第１のデータセットと、複数のデータを含み、自然言語で表された第２の属性が関連付けられた第２のデータセットのうち、前記第２のデータセットに含まれるデータについて、前記第２の属性に関する第２の特徴量を算出する特徴量算出手段、および前記第１の属性と前記第２の属性との関係性に基づき、前記第２の特徴量を前記第１の属性に関する第１の特徴量に変換する変換手段、として機能させる。

【発明の効果】

【0011】

本発明の一態様によれば、異なるデータセットを横断して類似データを抽出することを可能にすると共に、抽出の理由を解釈し、説明することも可能にすることができる。

【図面の簡単な説明】

【0012】

【図1】本発明の例示的実施形態１に係る情報処理装置の構成を示すブロック図である。

【図2】本発明の例示的実施形態１に係る情報処理方法の流れを示すフロー図である。

【図3】本発明の例示的実施形態２に係る情報処理装置の構成を示すブロック図である。

【図4】特徴量算出の具体例を示す図である。

【図5】変換規則生成の具体例を示す図である。

【図6】図５に示した行列を用いた特徴量の変換の例を示す図である。

【図7】類似データの抽出例を示す図である。

【図8】上記情報処理装置が、特徴量の変換および類似データ抽出を行う前の準備段階で実行する処理の流れを示すフロー図である。

【図9】上記準備段階の後に行われる情報処理方法の流れを示すフロー図である。

【図10】類似データの特徴量の特徴を可視化した特徴画像の生成例を示す図である。

【図11】本発明の各例示的実施形態に係る情報処理装置の各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータの一例を示す図である。

【発明を実施するための形態】

【0013】

〔例示的実施形態１〕
本発明の第１の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。

【0014】

（情報処理装置の構成）
本例示的実施形態に係る情報処理装置１の構成について、図１を参照して説明する。図１は、情報処理装置１の構成を示すブロック図である。図示のように、情報処理装置１は、特徴量算出部（特徴量算出手段）１１と変換部（変換手段）１２を備えている。

【0015】

特徴量算出部１１は、第１のデータセットと第２のデータセットのうち、第２のデータセットに含まれるデータについて、第２の属性に関する第２の特徴量を算出する。なお、第１のデータセットは、複数のデータを含み、第１のデータセットには自然言語で表された第１の属性が関連付けられている。また、第２のデータセットは、少なくとも１つのデータを含み、第２のデータセットには自然言語で表された第２の属性が関連付けられている。

【0016】

変換部１２は、第１の属性と第２の属性との関係性に基づき、特徴量算出部１１が算出する第２の特徴量を第１の属性に関する第１の特徴量に変換する。

【0017】

以上のように、本例示的実施形態に係る情報処理装置１においては、複数のデータを含み、自然言語で表された第１の属性が関連付けられた第１のデータセットと、少なくとも１つのデータを含み、自然言語で表された第２の属性が関連付けられた第２のデータセットのうち、前記第２のデータセットに含まれるデータについて、前記第２の属性に関する第２の特徴量を算出する特徴量算出部１１と、前記第１の属性と前記第２の属性との関係性に基づき、前記第２の特徴量を前記第１の属性に関する第１の特徴量に変換する変換部１２と、を備えるという構成が採用されている。

【0018】

つまり、上記の構成によれば、第１の属性と第２の属性という異なる属性が関連付けられた、第１のデータセットに含まれるデータと、第２のデータセットに含まれるデータの両方について、第１の属性という共通の尺度で特徴量を算出することが可能になる。そして、これにより、第１のデータセットに含まれる複数のデータの中から、第２のデータセットに含まれるデータと特徴量が類似したデータを抽出することも可能になる。

【0019】

また、上記抽出の基準となる特徴量は、第１のデータセットに関連付けられた第１の属性に関する特徴量であるから、抽出の理由を自然言語で表された第１の属性で説明することや、解釈することができる。

【0020】

以上のとおり、本例示的実施形態に係る情報処理装置１によれば、第１のデータセットと第２のデータセットという異なるデータセットを横断して類似データを抽出することが可能になり、また抽出の理由を説明・解釈することが可能になるという効果が得られる。

【0021】

（プログラム）
上述の情報処理装置１の機能は、プログラムによって実現することもできる。本例示的実施形態に係るプログラムは、コンピュータを、複数のデータを含み、自然言語で表された第１の属性が関連付けられた第１のデータセットと、少なくとも１つのデータを含み、自然言語で表された第２の属性が関連付けられた第２のデータセットのうち、前記第２のデータセットに含まれるデータについて、前記第２の属性に関する第２の特徴量を算出する特徴量算出手段、および前記第１の属性と前記第２の属性との関係性に基づき、前記第２の特徴量を前記第１の属性に関する第１の特徴量に変換する変換手段として機能させる、という構成が採用されている。このため、本例示的実施形態に係るプログラムによれば、異なるデータセットを横断して類似データを抽出することを可能にすると共に、抽出の理由を解釈し、説明することも可能にすることができる、という効果が得られる。

【0022】

（情報処理方法の流れ）
本例示的実施形態に係る情報処理方法の流れについて、図２を参照して説明する。図２は、情報処理方法の流れを示すフロー図である。なお、この情報処理方法における各ステップの実行主体は、情報処理装置１が備えるプロセッサであってもよいし、他の装置が備えるプロセッサであってもよく、各ステップの実行主体がそれぞれ異なる装置に設けられたプロセッサであってもよい。

【0023】

Ｓ１１では、少なくとも１つのプロセッサが、複数のデータを含み、自然言語で表された第１の属性が関連付けられた第１のデータセットと、少なくとも１つのデータを含み、自然言語で表された第２の属性が関連付けられた第２のデータセットのうち、前記第２のデータセットに含まれるデータについて、前記第２の属性に関する第２の特徴量を算出する。

【0024】

Ｓ１２では、少なくとも１つのプロセッサが、前記第１の属性と前記第２の属性との関係性に基づき、前記第２の特徴量を前記第１の属性に関する第１の特徴量に変換する。

【0025】

以上のように、本例示的実施形態に係る情報処理方法においては、少なくとも１つのプロセッサが、複数のデータを含み、自然言語で表された第１の属性が関連付けられた第１のデータセットと、少なくとも１つのデータを含み、自然言語で表された第２の属性が関連付けられた第２のデータセットのうち、前記第２のデータセットに含まれるデータについて、前記第２の属性に関する第２の特徴量を算出することと、前記第１の属性と前記第２の属性との関係性に基づき、前記第２の特徴量を前記第１の属性に関する第１の特徴量に変換することと、を含む、という構成が採用されている。このため、本例示的実施形態に係る情報処理方法によれば、異なるデータセットを横断して類似データを抽出することを可能にすると共に、抽出の理由を解釈し、説明することも可能にすることができるという効果が得られる。

【0026】

〔例示的実施形態２〕
本発明の第２の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態１にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。

【0027】

（情報処理装置の構成）
本例示的実施形態に係る情報処理装置２の構成について、図３を参照して説明する。図３は、情報処理装置２の構成を示すブロック図である。図示のように、情報処理装置２は、情報処理装置２の各部を統括して制御する制御部２０と、情報処理装置２が使用する各種データを記憶する記憶部２１を備えている。また、情報処理装置２は、情報処理装置２に対する各種データの入力を受け付ける入力部２２、情報処理装置２が各種データを出力するための出力部２３を備えている。

【0028】

また、制御部２０には、特徴量算出部（特徴量算出手段）２０１、変換規則生成部２０２、変換部（変換手段）２０３、および類似データ抽出部２０４が含まれている。また、記憶部２１には、データセット２１１、変換規則２１２、および結果データ２１３が記憶されている。

【0029】

特徴量算出部２０１は、自然言語で表された属性が関連付けられたデータセットに含まれるデータについて、当該属性に関する特徴量を算出する。より詳細には、記憶部２１に記憶されるデータセット２１１には、第１のデータセットと第２のデータセットとが含まれており、特徴量算出部２０１は、これらのデータセットのそれぞれに含まれるデータについて特徴量を算出する。

【0030】

第１のデータセットは、例えば１つの企業、１つの法人、１つのグループ、あるいは一人のユーザに関するデータを集めたものであってもよい。また、第１のデータセットに含まれるデータは、例えば上記企業等の取扱商品の販売個数や売上高等を示すものであってもよい。第２のデータセットも同様である。

【0031】

上記属性は、上記データセットに含まれるデータに関連するものであり、かつ、自然言語で表されたもの、つまり人が内容を認識できるものであればよい。例えば、データの大分類、中分類、小分類等の分類をそのデータの属性としてもよいし、データが商品やサービスであれば商品名やサービス名をそのデータの属性としてもよい。また、例えば商品やサービスの説明文を形態素解析して得られた語を属性としてもよいし、商品名や口コミの文章を集約したものを属性としてもよい。

【0032】

また、ユーザに関するデータについては、そのユーザの職業や性質、特性等をそのデータの属性としてもよい。例えば、サラリーマン、ブランド志向、定期購入者、等を属性としてもよい。このような属性は、例えば、ユーザに対するアンケート結果等から特定することもできる。

【0033】

また、近時では、データセットのデータに対して、そのデータに関連する付加情報を付与するデータエンリッチメントと呼ばれるサービスが利用できるようになっている。このようなサービスにより付加された付加情報を属性として利用することもできる。上述したユーザの属性もデータエンリッチメントと同様に外部のサービスを利用して特定してもよい。

【0034】

変換規則生成部２０２は、２つの属性間の関係性に基づいて、一方の属性に関する特徴量を他方の属性に関する特徴量に変換するための変換規則を生成する。変換規則生成部２０２により生成された変換規則は、変換規則２１２として記憶部２１に記憶される。

【0035】

変換部２０３は、２つの属性間の関係性に基づいて、一方の属性に関する特徴量を他方の属性に関する特徴量に変換する。具体的には、変換部２０３は、上述の変換規則２１２を用いて上記の変換を行う。

【0036】

類似データ抽出部２０４は、第１のデータセットに含まれる複数のデータの中から、第２のデータセットに含まれるデータと類似した類似データを抽出する。詳細は後述するが、類似データの抽出は、変換部２０３による変換による変換により得られた第１の特徴量と、第１のデータセットに含まれる複数のデータについての第１の属性に関する特徴量とに基づいて行われる。類似データ抽出部２０４が抽出した類似データは、結果データ２１３として記憶部２１に記憶される。

【0037】

類似データ抽出部２０４は、情報処理装置２の必須の構成ではない。しかし、類似データ抽出部２０４を設けることにより、第１のデータセットに含まれる複数のデータの中から、第２のデータセットに含まれるデータと類似したデータを自動で抽出することができるという利点がある。このため、情報処理装置２は、類似データ抽出部２０４を備えていることが好ましい。

【0038】

（特徴量算出の具体例）
図４は、特徴量算出部２０１による特徴量算出の具体例を示す図である。より詳細には、図４には、ソースデータセット（第２のデータセット）Ｄ^ｓとターゲットデータセット（第１のデータセット）Ｄ^ｔから特徴量を算出する例を示している。

【0039】

ソースデータセットＤ^ｓは、ユーザＩＤとアイテムＩＤと利用金額とが対応付けられたテーブル形式のデータセットである。このソースデータセットＤ^ｓは、クレジットカードの利用履歴を示すものである。つまり、ソースデータセットＤ^ｓは、ユーザＩＤで特定されるユーザについて、アイテムＩＤで特定される利用店舗におけるクレジットカードの利用金額を示している。

【0040】

また、関連データＭ^ｓは、ソースデータセットＤ^ｓに関連付けられたデータであり、ソースデータセットＤ^ｓに含まれるデータの属性を示す自然言語を含む。具体的には、関連データＭ^ｓは、ソースデータセットＤ^ｓに含まれる各アイテムＩＤで特定される利用店舗の分類を自然言語で示していると共に、その分類に該当するか否かを０または１の数値で示している。例えば、関連データＭ^ｓでは、アイテムＩＤが「i01_s」の店舗について、「小売」および「バイク屋」の属性値が「１」であり、その他の属性値は「０」となっている。これは、「i01_s」の店舗が、小売およびバイク屋であり、おもちゃ屋、旅館、および病院ではないことを示している。

【0041】

一方のターゲットデータセットＤ^ｔは、ユーザＩＤとアイテムＩＤと購入個数とが対応付けられたテーブル形式のデータセットである。このターゲットデータセットＤ^ｔは、通販サイトでの購入履歴を示すものである。つまり、ターゲットデータセットＤ^ｔは、ユーザＩＤで特定されるユーザについて、アイテムＩＤで特定される商品の購入個数を示している。

【0042】

また、関連データＭ^ｔは、ターゲットデータセットＤ^ｔに関連付けられたデータであり、ターゲットデータセットＤ^ｔに含まれるデータの属性を示す自然言語を含む。関連データＭ^ｔは、ターゲットデータセットＤ^ｔに含まれる各アイテムＩＤで特定される商品の分類を自然言語で示していると共に、その分類に該当するか否かを０または１の数値で示している。例えば、関連データＭ^ｔでは、アイテムＩＤが「i01_t」の商品が、オートバイ用品かつ車部品であり、地図およびおもちゃではないことが示されている。なお、以下では、関連データＭ^ｓに含まれる属性名の集合を属性集合Ａ^ｓと呼ぶ。同様に、関連データＭ^ｔに含まれる属性名の集合を属性集合Ａ^ｔと呼ぶ。

【0043】

特徴量算出部２０１は、ソースデータセットＤ^ｓに含まれるデータについて、関連データＭ^ｓに示される属性、すなわちクレジットカードの利用店舗の分類に関する特徴量を算出する。より詳細には、特徴量算出部２０１は、ソースデータセットＤ^ｓに含まれるデータが、クレジットカードの利用店舗の分類に該当する程度を示すスコアを特徴量（第２の特徴量）として算出する。

【0044】

具体的には、ソースデータセットＤ^ｓに含まれる１つ目のデータは、アイテムＩＤが「i01_s」であり、関連データＭ^ｓによりこのアイテム（具体的には店舗）の属性が「小売」および「バイク屋」であることが示されている。また、ソースデータセットＤ^ｓに含まれる２つ目のデータは、アイテムＩＤが「i03_s」であり、関連データＭ^ｓによりこのアイテムの属性が「旅館」であることが示されている。よって、特徴量算出部２０１は、ソースデータセットＤ^ｓに含まれるデータが「小売」、「バイク屋」および「旅館」に該当する程度を示すスコアを特徴量として算出する。

【0045】

また、特徴量の算出の際に、特徴量算出部２０１は、ソースデータセットＤ^ｓに含まれるデータに応じた重み付けを行ってもよい。例えば、ソースデータセットＤ^ｓにおいては、利用金額の値が大きいほどスコアが大きくなるように重み付けしてもよい。このような重み付けの例を図４にはテーブルＴ１で示している。テーブルＴ１において、ｆ（ｗ）が重み値である。ｗの値をソースデータセットＤ^ｓに含まれる何れのデータの値とするかは、ソースデータセットに含まれるデータ（例えばユーザやアイテム）等に応じて予め定めておけばよい。関数ｆ（ｗ）についても同様であり、ソースデータセットに含まれるデータ等に応じて任意の関数を予め定めておけばよい。

【0046】

上述のスコアは、ソースデータセットＤ^ｓに含まれる各データｕを関連データＭ^ｓの属性次元のベクトルに変換する写像φ^ｓを求めることにより算出することができる。同様に、ターゲットデータセットＤ^ｔに含まれる各データｕ’のスコアは、当該データｕ’を関連データＭ^ｔの属性次元のベクトルに変換する写像φ^ｔを求めることにより算出することができる。

【0047】

なお、以下では、ソースデータセットＤ^ｓとターゲットデータセットＤ^ｔに共通する事項については、「ｓ」と「ｔ」の添え字の代わりに「Ｚ」の添え字で表す場合がある。例えば、ソースデータセットＤ^ｓとターゲットデータセットＤ^ｔは、データセットＤ^Ｚと表記する場合がある。また、上述の写像φ^ｓと写像φ^ｔは、写像φ^Ｚと表記する場合がある。

【0048】

写像φ^Ｚの構成方法は任意であり、例えば以下の数式で示される写像φ^Ｚを用いてもよい。

【0049】

【数1】

ここで、ｆは値の変換則であり、実数値を実数値に変換する。値を変化させない恒等写像をｆとしてもよい。例えば、ターゲットデータセットＤ^ｔにおける購入個数の値をｗとする場合には、その対数を取って、ｆ（ｗ）=ｌｏｇ（ｗ＋１）としてもよい。

【0050】

また、ｇ^Ｚはアイテムを属性次元のベクトルへ変換する写像である。上述した関連データＭ^ｓ、Ｍ^ｔに示される属性値を行列で表した属性行列をそのまま活用してｇ^Ｚ＝Ｍ^Ｚ［ｉ］としてもよい。また、例えば、属性行列にTFIDFやBM25などの重みを付けた行列から定まるベクトル（例えば、ｇ^Ｚ（ｉ）＝Ｍ^Ｚ _{ｔｆｉｄｆ}［ｉ］）を用いてもよい。

【0051】

また、ｈは、集合を属性次元のベクトルに変換する写像である。ｈとしては、ノルムが１になるように正規化する写像を設定する。例えば、以下の数式で示すように、ｆ（ｗ）ｇ（ｉ）の和をｈとしてもよいし、平均等を適用してもよい。

【0052】

【数2】

以上のような処理により、図４に特徴量データｆ^ｓに示すように、各アイテムＩＤのアイテムについて、各属性のスコアが算出される。そして、各アイテムのスコアをｈで総合することにより、特徴量データＦ^ｓに示すようなスコアすなわち特徴量が算出される。この特徴量は、特徴量ベクトルとして表すことができる。

【0053】

また、同様の処理により、ターゲットデータセットＤ^ｔおよび関連データＭ^ｔから特徴量データＦ^ｔに示すようなスコアすなわち特徴量が算出される。ターゲットデータセットＤ^ｔに含まれるデータの特徴量も特徴量ベクトルとして表すことができる。

【0054】

（変換規則生成の生成方法）
変換規則生成部２０２は、ソースデータセットＤ^ｓの属性についての特徴量を、ターゲットデータセットＤ^ｔの属性についての特徴量に変換する変換規則２１２を生成する。なお、上記の各特徴量はベクトルで表されるから、以下ではこれらの特徴量を特徴量ベクトルと呼ぶ。

【0055】

上記の変換には、ソースデータセットＤ^ｓの属性に関する特徴量ベクトルφ^ｓ（ｕ）を、ターゲットデータセットＤ^ｔの属性に関する特徴量ベクトルに変換する写像ψを求めればよい。例えば、下記の数式に示すように、後述する行列Ｒと、φ^ｓ（ｕ）との行列積を写像ψ（φ^ｓ（ｕ））とみなすことができる。Ｒφ^ｓ（ｕ）は、下記の数式に示すように、ターゲットデータセットＤ^ｔの属性に関する特徴量ベクトル（ｄ^ｔ次元の特徴量）となる。

【0056】

【数3】

また、行列Ｒを、ある閾値θで０と１に二値化したものとしてもよい。この場合、ψ（φ^ｓ（ｕ））は下記の数式で表される。行列Ｒを二値化したものとすることにより、属性の関係性の強弱を際立たせることができる。つまり、行列Ｒを二値化したものとする場合、ソースデータセットＤ^ｓの属性とターゲットデータセットＤ^ｔの属性の関係性が強いときにはＲの値が１になり、関係性が弱いときには０になる。これにより、変換後のスコアと、変換前のソースデータセットＤ^ｓの属性との関係性が明確になるので、解釈性・説明性をさらに高めることができる。

【0057】

【数4】

上記行列Ｒは、ソースデータセットＤ^ｓの属性と、ターゲットデータセットＤ^ｔの属性との関係性に基づいて生成することができる。変換規則生成部２０２は、ソースデータセットＤ^ｓの属性と、ターゲットデータセットＤ^ｔの属性に基づいて行列Ｒを生成し、これを変換規則２１２として記憶部２１に記憶させる。

【0058】

また、行列Ｒを、ある閾値θ以下の値を０に変換するものとしてもよい。この場合、ψ（φ^ｓ（ｕ））は下記の数式で表される。行列Ｒを閾値θで区切られたものとし、閾値θ以下の値を０に変換することにより、関連性の低い属性が変換後のスコアに影響を及ぼすことを防ぐことができる。

【0059】

【数5】

ソースデータセットＤ^ｓの属性と、ターゲットデータセットＤ^ｔの属性との関係性に基づく行列Ｒは、例えば類似度関数や最適輸送理論等により生成することができる。

【0060】

例えば、変換規則生成部２０２は、文字列の類似度に基づいて行列Ｒを生成してもよい。この場合、変換規則生成部２０２は、下記の数式に示す行列Ｒ_ｓｔｒを生成すればよい。文字列の類似度としては、例えば、ジャッカード類似度、レーベンシュタイン類似度、およびn-gramによる類似度などを適用することができる。

【0061】

【数6】

また、類似度の計算は、属性名をベクトル化した空間の中で行ってもよい。この場合、変換規則生成部２０２は、下記の数式に示す行列Ｒ_ｅｍｂを生成すればよい。なお、下記の数式におけるｅｍｂ（ａ）は、属性名ａに対して自然言語処理における埋め込みベクトルを適用して得られるベクトルである。ベクトル化の方法としては、例えばword2vecやfasttextなどの自然言語処理における埋め込みモデルを適用してもよい。そして、類似度としては、コサイン類似度やユークリッド距離による類似度などを適用することができる。

【0062】

【数7】

以上のように、変換規則生成部２０２は、ソースデータセットＤ^ｓの属性とターゲットデータセットＤ^ｔの属性との類似の程度が高いほど変換前のスコアが変換後のスコアに強く反映される変換規則２１２を生成してもよい。

【0063】

上記の構成によれば、変換規則２１２を自動で生成することができる。また、生成する変換規則２１２は、ソースデータセットＤ^ｓの属性とターゲットデータセットＤ^ｔの属性との類似の程度が高いほど変換前のスコアが変換後のスコアに強く反映される、というものであるから、属性間の類似の程度に応じた妥当な変換を行うことができる。

【0064】

また、最適輸送理論を適用する場合、変換規則生成部２０２は、下記の数式に示す行列Ｒ_ｏｔを生成すればよい。なお、下記の数式は、一行目の右辺において列方向（ｊ）に正規化を行っている点で、一般的な最適輸送行列で用いられる数式と相違している。この正規化により、ソースデータセットＤ^ｓの属性集合Ａ^ｓに含まれる各属性のスコアが、ターゲットデータセットＤ^ｔの属性集合Ａ^ｔにおいて、スコアの和が１になるように配分される。

【0065】

この場合、Word Mover's DistanceやWord Rotator's Distance等の、単語の類似度に応じたマッピングを実現する輸送行列Ｔを変換規則２１２として用いる。なお、行列Ｒ_ｏｔの生成例については図５に基づいて後述する。また、Word Mover's DistanceおよびWord Rotator's Distanceの詳細は、例えば下記の文献に記載されている。
Matt Kusnerら，“From Word Embeddings To Document Distances”，2015年，PMLR 37：957-966
Sho Yokoiら，“Word Rotator's Distance”，2020年，Association for Computational Linguistics，pp.2944-2960

【0066】

【数8】

以上のように、変換規則生成部２０２は、ソースデータセットＤ^ｓの属性とターゲットデータセットＤ^ｔの属性から最適輸送理論により変換規則２１２を生成してもよい。

【0067】

上記の構成によれば、変換規則を自動で生成することができる。また、最適輸送理論により変換規則を生成するので、ソースデータセットＤ^ｓの属性とターゲットデータセットＤ^ｔの属性の関係性の強弱を際立たせることができる。例えば、これらの属性間の関係性が強いときには、変換前のスコアを変換後のスコアに強く反映させ、一方、これらの属性間の関係性が弱いときには、変換前のスコアを変換後のスコアに反映させないようにすることもできる。これにより、変換後のスコアと、変換前のソースデータセットＤ^ｓの属性との関係性が明確になるので、解釈性・説明性をさらに高めることができる。

【0068】

また、上述した種々の行列を重み付きで組み合わせたものを変換に用いる行列Ｒとしてもよい。この場合、行列Ｒは下記の数式で表される。

【0069】

【数9】

（変換規則生成の具体例）
図５は、変換規則生成部２０２による変換規則生成の具体例を示す図である。より詳細には、図５には、図４に示した関連データＭ^ｓの属性集合Ａ^ｓと関連データＭ^ｔの属性集合Ａ^ｔから行列Ｒを生成する例を示している。この行列Ｒは、最適輸送理論により生成したものであり、上述のＲ_ｏｔに対応している。

【0070】

図５の例では、変換規則生成部２０２は、ソースデータセットＤ^ｓに関連付けられた属性集合Ａ^ｓに含まれる各属性名と、ターゲットデータセットＤ^ｔに関連付けられた属性集合Ａ^ｔに含まれる各属性名に対して、埋め込み表現を生成している。より詳細には、変換規則生成部２０２は、ｎ次元のユークリッド空間ＳＰ１に、属性集合Ａ^ｓに含まれる各属性名と、属性集合Ａ^ｔに含まれる各属性名を埋め込んでいる。ｎは例えば３００程度に設定してもよい。

【0071】

ユークリッド空間ＳＰ１において、相互に類似した単語（属性名）は相互に近接した位置に埋め込まれる。このため、「おもちゃ」と「おもちゃ屋」は近接した位置に埋め込まれ、「オートバイ用品」と「バイク屋」と「車部品」は近接した位置に埋め込まれている。このような埋め込み表現は、例えばfasttext等で生成することができる。

【0072】

次に、変換規則生成部２０２は、上記の埋め込み表現に対して、World Rotator's Distanceを計算し、その最適輸送行列Ｔを行列Ｒとする。行列Ｒは、属性間の類似度を０から１までの数値で示す行列である。なお、１に近いほど類似度が高い。例えば、図５に示す行列Ｒでは、「オートバイ用品」と「バイク屋」のような類似した概念の属性の組み合わせについての値は１となっている。一方、「オートバイ用品」と「おもちゃ屋」のような非類似の概念の属性の組み合わせについての値は０となっている。このような行列Ｒが変換規則２１２として記憶部２１に記憶される。

【0073】

図５の例のように、最適輸送理論に基づいて生成した行列Ｒにおいては、類似した概念の組み合わせは１になり、非類似の概念の組み合わせは０になることが多く、中間的な数値となることが少ない。このため、最適輸送理論に基づいて変換規則を生成する場合、ソースデータセットＤ^ｓの属性と、ターゲットデータセットＤ^ｔの属性との関係を理解しやすい。つまり、最適輸送行列を変換規則２１２として用いる場合、上述のように、最終的な分類の結果の説明性および解釈性が高くなるという利点がある。一方、例えば、変換規則２１２としてコサイン類似度（Ｒ_ｃｏｓ）等を用いた場合、－１から１までの間における中間的な値が多く出力されることになるため、最適輸送行列を用いる場合と比べて説明性等が落ちる場合がある。

【0074】

（変換の具体例）
図６は、図５に示した行列Ｒを用いた特徴量の変換の例を示す図である。図示のように、行列Ｒと特徴量ベクトルＦ^ｓとの行列積を取ることにより、特徴量ベクトルＦ^ｓをターゲットデータセットＤ^ｔの属性の特徴量ベクトルＦ^ｓ’に変換することができる。

【0075】

具体的には、特徴量ベクトルＦ^ｓにおける「小売」のスコア「０．０５」は、行列Ｒにより「車部品」のスコア「０．０５」に変換されている。また、「バイク屋」のスコア「０．５５」は、行列Ｒにより「オートバイ用品」のスコア（０．５５）に変換され、「旅館」のスコア「０．４」は、行列Ｒにより「オートバイ用品」のスコア（０．１）に変換される。これにより、特徴量ベクトルＦ^ｓ’における「オートバイ用品」のスコアは「０．６５」となっている。

【0076】

特徴量ベクトルＦ^ｓは、特徴量ベクトルＦ^ｓに対応するユーザ（図４におけるユーザＩＤが「u01_s」のユーザ）は、「小売」、「バイク屋」、および「旅館」について、０．０５、０．５５、および０．４の割合でクレジットカードを利用していることを示している。

【0077】

そして、特徴量ベクトルＦ^ｓ’は、上記のユーザが、通販サイトにおいて、「オートバイ用品」、「車部品」、および「地図」について、０．６５、０．０５、および０．３の割合で関心があるという推論結果を示している。

【0078】

以上のように、特徴量算出部２０１は、ソースデータセットＤ^ｓに含まれるデータが、当該ソースデータセットＤ^ｓに関連付けられた属性に該当する程度を示すスコアを算出してもよい。そして、変換部２０３は、ターゲットデータセットＤ^ｔの属性とソースデータセットＤ^ｓの属性との関係性に基づいて生成された変換規則２１２を適用して、ソースデータセットＤ^ｓのスコアを、ターゲットデータセットＤ^ｔの属性に該当する程度を示すスコアに変換してもよい。

【0079】

上記の構成によれば、ソースデータセットＤ^ｓのスコアを、ターゲットデータセットＤ^ｔの属性に該当する程度を示すスコアに変換するので、このスコアの値の大きさに基づいて、ターゲットデータセットＤ^ｔとソースデータセットＤ^ｓを横断して類似データを容易に抽出することが可能になる。また、抽出の理由についても、スコアの値の大きさに基づいて容易に説明・解釈することが可能になる。

【0080】

（類似データ抽出の具体例）
類似データ抽出部２０４は、ターゲットデータセットＤ^ｔに含まれる複数のデータの中から、ソースデータセットＤ^ｓに含まれるデータと類似した類似データを抽出する。類似データを抽出するためには、下記のｇのような写像を構成すればよい。写像ｇは、与えられたソースデータセットＤ^ｓに含まれるユーザの集合Ｕ^ｓをターゲットデータセットＤ^ｔに含まれるユーザの集合Ｕ^ｔの部分集合２^Ｕｔに変換し、ソースデータセットＤ^ｓに含まれる要素ｕをユーザＵ^ｔの集合に含まれる要素Ｃに変換するものである。写像ｇは、ソースデータセットＤ^ｓのデータと類似したターゲットデータセットＤ^ｔのデータ群を返すものであるともいえる。

【0081】

【数10】

例えば、類似データ抽出部２０４は、下記の和集合を生成してもよい。

【0082】

【数11】

上記の和集合は、ソースデータセットＤ^ｓのデータｕに関連付けられた属性に関する特徴量φ^ｓ（ｕ）を、ターゲットデータセットＤ^ｔの属性に関する特徴量に変換した特徴量ψ（φ^ｓ（ｕ））の集合と、ターゲットデータセットＤ^ｔのデータｕ’に関連付けられた属性に関する特徴量φ^ｔ（ｕ’）の集合との和集合である。

【0083】

そして、類似データ抽出部２０４は、この和集合においてクラスタリングを行い、データｕが属するクラスタに含まれるデータｕ’を類似データとして抽出してもよい。なお、このクラスタリングの方法は任意であり、例えばK-Means法、Ward法、DBSCAN等を適用することもできる。

【0084】

また、例えば、類似データ抽出部２０４は、上記のように類似データの抽出を一度に実行する代わりに、ターゲットデータセットのデータｕ’に関連付けられた属性に関する特徴量φ^ｔ（ｕ’）の集合である

【数12】

を対象としたクラスタリングを行ってもよい。この場合、類似データ抽出部２０４は、ソースデータセットＤ^ｓのデータφ^ｓ（ｕ）が何れのクラスタに属するかを判定すればよい。この方式であれば、ソースデータセットＤ^ｓのデータがターゲットデータセットＤ^ｔの何れかと必ず同じクラスタに属する。

【0085】

この方式を適用した例を図７に示している。図７は、類似データの抽出例を示す図である。この抽出例においては、まず、ターゲットデータセットＤ^ｔに含まれる各ユーザについては、特徴量算出部２０１により、対応する属性（具体的には、「オートバイ用品」～「おもちゃ」）に基づく特徴量ベクトルが算出される。そして、類似データ抽出部２０４は、算出された特徴量ベクトルに基づいて、同図の［１］に示すように、各ユーザを特徴空間ＳＰ２においてクラスタリングする。

【0086】

一方、ソースデータセットＤ^ｓに含まれるユーザ（ユーザＩＤが「u01_s」のユーザ）については、特徴量算出部２０１により、同図の［２］に示すように、対応する属性（具体的には、「小売」～「病院」）に基づく特徴量ベクトルＦ^ｓが生成される。また、同図の［３］に示すように、特徴量ベクトルＦ^ｓは、変換部２０３により特徴量ベクトルＦ^ｓ’に変換される。

【0087】

ここで、特徴量ベクトルＦ^ｓ’は、ターゲットデータセットＤ^ｔの属性で表されているから、上述した［１］の処理で生成された特徴空間ＳＰ２上のクラスタの何れかに分類することができる。

【0088】

そして、類似データ抽出部２０４は、特徴量ベクトルＦ^ｓ’が属するクラスタに含まれる各ユーザを、ソースデータセットＤ^ｓに含まれるユーザと類似したユーザとして抽出する。図７の例では、同図の［４］に示すように、ユーザＩＤが「u01_t」、「u05_t」、「u012_t」の３人のユーザが抽出されている。これらのユーザの特徴量のスコアは、同図のテーブルＴ２に示すように互いに類似した値となっており、また、それらのスコアはソースデータセットＤ^ｓのユーザの特徴量ベクトルＦ^ｓ’とも類似した値となっている。

【0089】

なお、上記の例のように、データがユーザの場合には、オーディエンス拡張技術を応用して類似ユーザを抽出してもよい。オーディエンス拡張技術の処理は、各ユーザにスコアを与えて、スコアが大きい順に並び替えて、その上位のユーザを類似ユーザとして返すというものであり、クラスタリングと類似している。オーディエンス拡張技術の詳細は、例えば下記の文献に記載されている。
Stephanie deWetら，“Finding Users Who Act Alike: Transfer Learning for Expanding Advertiser Audiences”，2019年7月，Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pp.2251-2259
（情報処理方法の流れ：準備段階）
情報処理装置２が実行する情報処理方法の流れを図８に基づいて説明する。図８は、情報処理装置２が、特徴量の変換および類似データ抽出を行う前の準備段階で実行する処理の流れを示すフロー図である。

【0090】

Ｓ２１では、情報処理装置２は、第１および第２のデータセットの読み込みを行う。第１および第２のデータセットは、例えば入力部２２を介して入力されて、記憶部２１にデータセット２１として記憶される。

【0091】

第１のデータセットは複数のデータを含み、第１のデータセットには自然言語で表された第１の属性が関連付けられている。第１のデータセットは、上述のターゲットデータセットに対応している。第１の属性は、第１のデータセットに示されていてもよいし、示されていなくてもよい。後者の場合、第１のデータセットとは別に、第１の属性を示すデータ（例えば上述した関連データＭ^ｔのようなデータ）を読み込んでおけばよい。

【0092】

一方、第２のデータセットには自然言語で表された、第１の属性とは異なる第２の属性が関連付けられている。第２のデータセットは、上述のソースデータセットに対応している。第２のデータセットについては、準備段階では属性のみ使用されるから、第２のデータセットのデータ自体はＳ２１では読み込む必要がない。Ｓ２１では、第２のデータセットについて、第２の属性を示すデータ（例えば上述した関連データＭ^ｓのようなデータ）を読み込んでおけばよい。

【0093】

Ｓ２２では、特徴量算出部２０１が、Ｓ２１で読み込まれた第１のデータセットの各データについて、第１の属性に関する特徴量を算出する。例えば、特徴量算出部２０１は、図４に示したような特徴ベクトルＦ^ｔを算出してもよい。

【0094】

Ｓ２３では、変換部２０３が、Ｓ２１で読み込まれた第２のデータセットにおける第２の属性に関する第２の特徴量を、同じくＳ２１で読み込まれた第１のデータセットにおける第１の属性に関する第１の特徴量に変換する変換規則を生成する。例えば、変換部２０３は、図５に示した行列Ｒを変換規則として生成してもよい。生成した変換規則は、変換規則２１２として記憶部２１に記憶される。以上より、準備段階の処理は終了となる。なお、Ｓ２２とＳ２３の処理は同時並行で行ってもよいし、Ｓ２３の方を先に行ってもよい。

【0095】

（情報処理方法の流れ：推論段階）
図９は、上述した準備段階の処理の後に行われる情報処理方法の流れを示すフロー図である。図９のフローでは、準備段階で生成された変換規則２１２を用いた変換が行われた上で、類似データの抽出（推論）が行われる。

【0096】

Ｓ３１では、情報処理装置２は、第２のデータセットのデータの読み込みを行う。当該データは、例えば入力部２２を介して入力されて、記憶部２１にデータセット２１として記憶される。Ｓ３１では、第２のデータセットに含まれるデータを少なくとも１つ読み込めばよい。なお、図８のＳ２１で第２のデータセットのデータについても読み込みが終了している場合には、Ｓ３１の処理は省略される。

【0097】

Ｓ３２では、特徴量算出部２０１が、Ｓ３１で読み込まれた第２のデータセットのデータについて、第２の属性に関する第２の特徴量を算出する。例えば、特徴量算出部２０１は、図４に示したような特徴ベクトルＦ^ｓを算出してもよい。

【0098】

Ｓ３３では、変換部２０３が、図８のＳ２３で生成された変換規則２１２を読み込む。そして、Ｓ３４では、変換部２０３は、Ｓ３３で読み込んだ変換規則２１２を用いて、Ｓ３２で算出された第２の特徴量を、第１の属性に関する第１の特徴量に変換する。例えば、変換部２０３は、図６の例のように、変換規則２１２である行列Ｒと、第２の特徴量である特徴ベクトルＦ^ｓとを積算して、第１の特徴量である特徴ベクトルＦ^ｓ’に変換してもよい。

【0099】

Ｓ３５では、類似データ抽出部２０４が、図８のＳ２２で算出された特徴量、すなわち第１のデータセットに含まれる各データについての第１の属性に関する特徴量を読み込む。そして、Ｓ３６では、類似データ抽出部２０４は、Ｓ３５で読み込んだ特徴量と、Ｓ３４の変換により生成された第１の特徴量とに基づき、第１のデータセットに含まれる複数のデータの中から、第２のデータセットに含まれるデータと類似した類似データを抽出する。また、類似データ抽出部２０４は、抽出したデータを結果データ２１３として記憶部２１に記憶させる。

【0100】

以上より、図９の処理は終了する。Ｓ３１で読み込むデータを変更することにより、第２のデータセットに含まれる各データについて、第１のデータセットから類似データを抽出することができる。なお、Ｓ３１、Ｓ３３、およびＳ３５の処理は同時並行で行ってもよく、また、これらの処理の実行順序を適宜変更してもよい。

【0101】

〔変形例〕
上述の例示的実施形態では、変換後の特徴量を用いて類似データを抽出し、抽出した類似データを結果データ２１３として記憶する例を説明したが、変換後の特徴量の用途は任意であり、この例に限られない。

【0102】

例えば、変換後の特徴量を用いて類似データを抽出した後、抽出した類似データの特徴量の特徴を可視化した特徴画像を生成してもよい。これについて、図１０に基づいて説明する。図１０は、類似データの特徴量の特徴を可視化した特徴画像の生成例を示す図である。

【0103】

図１０の例では、図７に示したテーブルＴ２に示される３人のユーザの特徴量から、特徴画像ＩＭＧを生成している。このような特徴画像ＩＭＧは、３人のユーザの各属性の値の平均値を算出し、その値の大きさに応じて属性の文字列を描画することにより生成することができる。例えば、WordCloudを用いることにより、このような特徴画像を生成することができる。

【0104】

このような特徴画像は、変換後の特徴量について生成することもできる。例えば、ソースデータセットのデータについての変換後の特徴量から特徴画像を生成すると共に、ターゲットデータセットのデータの特徴量から特徴画像を生成し、それらを結果データ２１３として記憶してもよい。この場合、ターゲットデータセットのデータと、ソースデータセットのデータの関連性が特徴画像によって表される。なお、この場合、ターゲットデータセットのデータとソースデータセットのデータは各１つであってもよい。

【0105】

〔応用例〕
上述の情報処理装置２は、様々な用途に利用することができる。例えば、情報処理装置２は、あるユーザＡのソースデータセットを用いて、ターゲットデータセットに含まれる各データに対応する複数のユーザの中から、ユーザＡと類似した類似ユーザを抽出することができる。

【0106】

ここで、情報処理装置２は、ターゲットデータセットに含まれるデータの中から、類似ユーザに関するデータを取得することができる。例えば、ターゲットデータセットが通販サイトの購入履歴を示すものである場合、情報処理装置２は、類似ユーザが購入した商品を示すデータを取得することができる。

【0107】

そして、情報処理装置２は、取得したデータが示す商品の購入を勧める情報（例えば広告等）をユーザＡに提示することができる。例えば、ソースデータセットがクレジットカードの利用履歴を示すものである場合、情報処理装置２は、そのクレジットカード会社におけるユーザＡのマイページ等に広告を表示させてもよい。この際、ユーザＡが上記の通販サイトを全く利用していなかったとしても、その商品の購入を勧めた理由を、ソースデータセットの属性をもとに説明することができる。

【0108】

また、情報処理装置２によれば、例えば、ある店舗におけるクレジットカードの利用履歴を示すソースデータセットを用いて、その店舗で買い物をしたユーザが、通販サイトではどのような属性に反応するかを分析することもできる。言い換えれば、情報処理装置２によれば、通販サイトにおけるどのような商品属性のスコアが高くなるかを分析することができる。このような分析結果は、店舗で販売する商品の決定などに有用である。

【0109】

また、情報処理装置２は、業種を横断した各種の分析に利用することもできる。例えば、衣料品の小売業のＡ社が他業種である車業界に進出することを考えているとする。この場合、例えば、ソースデータセットとしてＡ社の取引企業に関するデータを使用し、ターゲットデータセットとして車用品の販売を行うＢ社の取引企業および取扱商品に関するデータを使用すればよい。また、ターゲットデータセットの属性は、取扱商品の分類とすればよい。この場合、情報処理装置２は、Ａ社の取引企業と類似したＢ社の取引企業を抽出することができる。

【0110】

ここで、抽出したＢ社の取引企業の属性は、それらの取引企業の取扱商品の分類を示している。このような属性のうち、スコアが高いものは、衣料品業界と車業界の両方に関連性が高いといえる。例えば、情報処理装置２は、上記のような分析を行った結果、「シート」という属性のスコアが高かった場合、Ａ社に推奨する取扱商品を、車両用のシートと決定してもよい。Ａ社はこの推奨に基づいて、自社の取引企業に車両用のシートの製造を依頼すればよい。このように、情報処理装置２は、業種を横断した各種の分析に利用することもできる。

【0111】

〔変形例〕
上述の各例示的実施形態で説明した各処理の実行主体は任意であり、上述の例に限られない。つまり、相互に通信可能な複数の装置により、情報処理装置１、２と同様の機能を有する情報処理システムを構築することができる。また、例えば、ＳａａＳ（Software as a Service）等の形態で上述の各例示的実施形態で説明した各処理を実現することもできる。

【0112】

〔ソフトウェアによる実現例〕
情報処理装置１、２の一部又は全部の機能は、集積回路（ＩＣチップ）等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。

【0113】

後者の場合、情報処理装置１、２は、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例（以下、コンピュータＣと記載する）を図１１に示す。コンピュータＣは、少なくとも１つのプロセッサＣ１と、少なくとも１つのメモリＣ２と、を備えている。メモリＣ２には、コンピュータＣを情報処理装置１、２として動作させるためのプログラムＰが記録されている。コンピュータＣにおいて、プロセッサＣ１は、プログラムＰをメモリＣ２から読み取って実行することにより、情報処理装置１、２の各機能が実現される。

【0114】

プロセッサＣ１としては、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphic Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＭＰＵ（Micro Processing Unit）、ＦＰＵ（Floating point number Processing Unit）、ＰＰＵ（Physics Processing Unit）、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリＣ２としては、例えば、フラッシュメモリ、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、又は、これらの組み合わせなどを用いることができる。

【0115】

なお、コンピュータＣは、プログラムＰを実行時に展開したり、各種データを一時的に記憶したりするためのＲＡＭ（Random Access Memory）を更に備えていてもよい。また、コンピュータＣは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータＣは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。

【0116】

また、プログラムＰは、コンピュータＣが読み取り可能な、一時的でない有形の記録媒体Ｍに記録することができる。このような記録媒体Ｍとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータＣは、このような記録媒体Ｍを介してプログラムＰを取得することができる。また、プログラムＰは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータＣは、このような伝送媒体を介してプログラムＰを取得することもできる。

【0117】

〔付記事項１〕
本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。

【0118】

〔付記事項２〕
上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。

【0119】

（付記１）
少なくとも１つのデータを含み、自然言語で表された第１の属性が関連付けられた第１のデータセットと、複数のデータを含み、自然言語で表された第２の属性が関連付けられた第２のデータセットのうち、前記第２のデータセットに含まれるデータについて、前記第２の属性に関する第２の特徴量を算出する特徴量算出手段と、前記第１の属性と前記第２の属性との関係性に基づき、前記第２の特徴量を前記第１の属性に関する第１の特徴量に変換する変換手段と、を備える情報処理装置。

【0120】

上記の構成によれば、第１のデータセットと第２のデータセットという異なるデータセットを横断して類似データを抽出することが可能になり、また抽出の理由を説明・解釈することが可能になる。

【0121】

（付記２）
前記特徴量算出手段は、前記第２のデータセットに含まれる前記データが、当該第２のデータセットに関連付けられた前記第２の属性に該当する程度を示す第２のスコアを、前記第２の特徴量として算出し、前記変換手段は、前記第１の属性と前記第２の属性との関係性に基づいて生成された変換規則を適用して、前記第２のスコアを、前記第１の属性に該当する程度を示す第１のスコアに変換したものを前記第１の特徴量とする、付記１に記載の情報処理装置。

【0122】

上記の構成によれば、第１の属性に該当する程度を示す第１のスコアを第１の特徴量とするので、第１のスコアの値の大きさに基づいて、第１のデータセットと第２のデータセットを横断して類似データを容易に抽出することが可能になる。また、抽出の理由についても、第１のスコアの値の大きさに基づいて容易に説明・解釈することが可能になる。

【0123】

（付記３）
前記第１の属性と前記第２の属性との類似の程度が高いほど前記第２のスコアが前記第１のスコアに強く反映される前記変換規則を生成する変換規則生成手段を備える、付記２に記載の情報処理装置。

【0124】

上記の構成によれば、変換規則を自動で生成することができる。また、生成する変換規則は、第１の属性と第２の属性との類似の程度が高いほど第２のスコアが第１のスコアに強く反映される、というものであるから、第１の属性と第２の属性との類似の程度に応じた妥当な変換を行うことができる。

【0125】

（付記４）
前記第１の属性と前記第２の属性から最適輸送理論により前記変換規則を生成する変換規則生成手段を備える、付記２に記載の情報処理装置。

【0126】

上記の構成によれば、変換規則を自動で生成することができる。また、最適輸送理論により変換規則を生成するので、第１の属性と第２の属性の関係性の強弱を際立たせて、解釈性・説明性をさらに高めることができる。

【0127】

（付記５）
前記変換手段による変換により生成された、前記第２のデータセットに含まれる前記データについての前記第１の特徴量と、前記第１のデータセットに含まれる複数のデータの前記第１の属性に関する特徴量とに基づき、前記第１のデータセットに含まれる複数のデータの中から、前記第２のデータセットに含まれる前記データと類似した類似データを抽出する類似データ抽出手段を備える、付記１から４の何れかに記載の情報処理装置。

【0128】

上記の構成によれば、第２のデータセットに含まれる複数のデータの中から、第１のデータセットに含まれるデータと類似したデータを自動で抽出することができる。

【0129】

（付記６）
少なくとも１つのプロセッサが、少なくとも１つのデータを含み、自然言語で表された第１の属性が関連付けられた第１のデータセットと、複数のデータを含み、自然言語で表された第２の属性が関連付けられた第２のデータセットのうち、前記第２のデータセットに含まれるデータについて、前記第２の属性に関する第２の特徴量を算出することと、前記第１の属性と前記第２の属性との関係性に基づき、前記第２の特徴量を前記第１の属性に関する第１の特徴量に変換することと、を含む情報処理方法。

【0130】

上記情報処理方法によれば、第１のデータセットと第２のデータセットという異なるデータセットを横断して類似データを抽出することが可能になり、また抽出の理由を説明・解釈することが可能になる。

【0131】

（付記７）
コンピュータを、少なくとも１つのデータを含み、自然言語で表された第１の属性が関連付けられた第１のデータセットと、複数のデータを含み、自然言語で表された第２の属性が関連付けられた第２のデータセットのうち、前記第２のデータセットに含まれるデータについて、前記第２の属性に関する第２の特徴量を算出する特徴量算出手段、および前記第１の属性と前記第２の属性との関係性に基づき、前記第２の特徴量を前記第１の属性に関する第１の特徴量に変換する変換手段、として機能させるプログラム。

【0132】

上記プログラムによれば、第１のデータセットと第２のデータセットという異なるデータセットを横断して類似データを抽出することが可能になり、また抽出の理由を説明・解釈することが可能になる。

【0133】

〔付記事項３〕
上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。少なくとも１つのプロセッサを備え、前記プロセッサは、少なくとも１つのデータを含み、自然言語で表された第１の属性が関連付けられた第１のデータセットと、複数のデータを含み、自然言語で表された第２の属性が関連付けられた第２のデータセットのうち、前記第２のデータセットに含まれるデータについて、前記第２の属性に関する第２の特徴量を算出する特徴量算出処理と、前記第１の属性と前記第２の属性との関係性に基づき、前記第２の特徴量を前記第１の属性に関する第１の特徴量に変換する変換処理とを実行する情報処理装置。

【0134】

なお、この情報処理装置は、更にメモリを備えていてもよく、このメモリには、前記特徴量算出処理と、前記変換処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。

【符号の説明】

【0135】

１情報処理装置
１１特徴量算出部
１２変換部
２情報処理装置
２０１特徴量算出部
２０２変換規則生成部
２０３変換部
２０４類似データ抽出部
２１１データセット（第１のデータセット、第２のデータセット）
２１２変換規則

【図1】