(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-06-16
(45)【発行日】2025-06-24
(54)【発明の名称】情報処理装置、情報処理方法、およびプログラム
(51)【国際特許分類】
G06F 16/9536 20190101AFI20250617BHJP
【FI】
G06F16/9536
(21)【出願番号】P 2023527179
(86)(22)【出願日】2021-06-07
(86)【国際出願番号】 JP2021021639
(87)【国際公開番号】W WO2022259336
(87)【国際公開日】2022-12-15
【審査請求日】2023-12-04
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100103894
【氏名又は名称】家入 健
(72)【発明者】
【氏名】草野 元紀
【審査官】原 秀人
(56)【参考文献】
【文献】特開2006-301920(JP,A)
【文献】特開2018-055551(JP,A)
【文献】特開2006-163941(JP,A)
【文献】草野 元紀 外,行動パターンを基にした異なるドメインに対するユーザ同定技術,第13回データ工学と情報マネジメントに関するフォーラム (第19回日本データベース学会年次大会) [Online] ,日本,日本データベース学会,2021年05月06日,pp. 1-7
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
少なくとも1つのデータを含み、自然言語で表された第1の属性が関連付けられた第1のデータセットと、複数のデータを含み、自然言語で表された第2の属性が関連付けられた第2のデータセットのうち、前記第2のデータセットに含まれるデータについて、前記第2の属性に関する第2の特徴量を算出する特徴量算出手段と、
前記第1の属性と前記第2の属性との関係性に基づき、前記第2の特徴量を前記第1の属性に関する第1の特徴量に変換する変換手段と、を備え
、
前記特徴量算出手段は、前記第2のデータセットに含まれる前記データが、当該第2のデータセットに関連付けられた前記第2の属性に該当する程度を示す第2のスコアを、前記第2の特徴量として算出し、
前記変換手段は、前記第1の属性と前記第2の属性との関係性に基づいて生成された変換規則を適用して、前記第2のスコアを、前記第1の属性に該当する程度を示す第1のスコアに変換したものを前記第1の特徴量とする、情報処理装置。
【請求項2】
前記第1の属性と前記第2の属性との類似の程度が高いほど前記第2のスコアが前記第1のスコアに強く反映される前記変換規則を生成する変換規則生成手段を備える、請求項
1に記載の情報処理装置。
【請求項3】
前記第1の属性と前記第2の属性から最適輸送理論により前記変換規則を生成する変換規則生成手段を備える、請求項
1に記載の情報処理装置。
【請求項4】
前記変換手段による変換により生成された、前記第2のデータセットに含まれる前記データについての前記第1の特徴量と、前記第1のデータセットに含まれる複数のデータの前記第1の属性に関する特徴量とに基づき、前記第1のデータセットに含まれる複数のデータの中から、前記第2のデータセットに含まれる前記データと類似した類似データを抽出する類似データ抽出手段を備える、請求項1から
3の何れか1項に記載の情報処理装置。
【請求項5】
少なくとも1つのプロセッサが、
少なくとも1つのデータを含み、自然言語で表された第1の属性が関連付けられた第1のデータセットと、複数のデータを含み、自然言語で表された第2の属性が関連付けられた第2のデータセットのうち、前記第2のデータセットに含まれるデータについて、前記第2の属性に関する第2の特徴量を算出することと、
前記第1の属性と前記第2の属性との関係性に基づき、前記第2の特徴量を前記第1の属性に関する第1の特徴量に変換することと、を含
み、
前記第2の特徴量の算出において、前記少なくとも1つのプロセッサは、前記第2のデータセットに含まれる前記データが、当該第2のデータセットに関連付けられた前記第2の属性に該当する程度を示す第2のスコアを、前記第2の特徴量として算出し、
前記変換において、前記少なくとも1つのプロセッサは、前記第1の属性と前記第2の属性との関係性に基づいて生成された変換規則を適用して、前記第2のスコアを、前記第1の属性に該当する程度を示す第1のスコアに変換したものを前記第1の特徴量とする、情報処理方法。
【請求項6】
コンピュータを、
少なくとも1つのデータを含み、自然言語で表された第1の属性が関連付けられた第1のデータセットと、複数のデータを含み、自然言語で表された第2の属性が関連付けられた第2のデータセットのうち、前記第2のデータセットに含まれるデータについて、前記第2の属性に関する第2の特徴量を算出する特徴量算出手段、および
前記第1の属性と前記第2の属性との関係性に基づき、前記第2の特徴量を前記第1の属性に関する第1の特徴量に変換する変換手段、として機能させ
、
前記特徴量算出手段は、前記第2のデータセットに含まれる前記データが、当該第2のデータセットに関連付けられた前記第2の属性に該当する程度を示す第2のスコアを、前記第2の特徴量として算出し、
前記変換手段は、前記第1の属性と前記第2の属性との関係性に基づいて生成された変換規則を適用して、前記第2のスコアを、前記第1の属性に該当する程度を示す第1のスコアに変換したものを前記第1の特徴量とする、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ分析に利用可能な情報処理装置等に関する。
【背景技術】
【0002】
近年では、多種多様なデータソースのデータを利用することが可能になっており、そのような多種多様なデータソースのデータを分析し、利用するための技術の開発も進められている。例えば、下記の特許文献1には、情報提供対象のユーザと類似する嗜好を有する複数の類似ユーザを抽出すると共に、情報提供対象のユーザが、自分と同じ傾向の趣味・嗜好を有する他のユーザを追加の類似ユーザとして選択することを可能にした情報提供方法について開示されている。
【0003】
具体的には、特許文献1の情報提供方法では、データベースに登録されている飲食店等に対するユーザの評価値に基づいて、ユーザと類似する嗜好を有する複数の類似ユーザを抽出して、類似ユーザが高い評価を付けた飲食店等の情報をユーザに提供する。また、特許文献1の情報提供方法では、類似ユーザとして抽出されなかったユーザに関する情報も提供し、類似ユーザに加えるユーザを選択させる。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1の技術は、1つのデータベースに登録されている情報に基づいて類似ユーザを抽出するものである。このため、当該技術では、複数のデータセットが存在する場合に、あるデータセットに含まれるデータと類似したデータを、他のデータセットから抽出すること、つまり異なるデータセットを横断して類似データを抽出することはできない。
【0006】
また、近年では、データ解析において、解析結果についての解釈性が求められることも多い。例えば、類似したデータを自動で抽出する場合であれば、そのデータが抽出された理由や根拠を解釈できたり、説明できたりすることが望まれる。
【0007】
本発明は、異なるデータセットを横断して類似データを抽出することを可能にすると共に、抽出の理由を解釈し、説明することも可能にする情報処理装置等を提供することを目的としている。
【課題を解決するための手段】
【0008】
本発明の一側面に係る情報処理装置は、少なくとも1つのデータを含み、自然言語で表された第1の属性が関連付けられた第1のデータセットと、複数のデータを含み、自然言語で表された第2の属性が関連付けられた第2のデータセットのうち、前記第2のデータセットに含まれるデータについて、前記第2の属性に関する第2の特徴量を算出する特徴量算出手段と、前記第1の属性と前記第2の属性との関係性に基づき、前記第2の特徴量を前記第1の属性に関する第1の特徴量に変換する変換手段と、を備える。
【0009】
本発明の一側面に係る情報処理方法は、少なくとも1つのプロセッサが、少なくとも1つのデータを含み、自然言語で表された第1の属性が関連付けられた第1のデータセットと、複数のデータを含み、自然言語で表された第2の属性が関連付けられた第2のデータセットのうち、前記第2のデータセットに含まれるデータについて、前記第2の属性に関する第2の特徴量を算出することと、前記第1の属性と前記第2の属性との関係性に基づき、前記第2の特徴量を前記第1の属性に関する第1の特徴量に変換することと、を含む。
【0010】
本発明の一側面に係るプログラムは、コンピュータを、少なくとも1つのデータを含み、自然言語で表された第1の属性が関連付けられた第1のデータセットと、複数のデータを含み、自然言語で表された第2の属性が関連付けられた第2のデータセットのうち、前記第2のデータセットに含まれるデータについて、前記第2の属性に関する第2の特徴量を算出する特徴量算出手段、および前記第1の属性と前記第2の属性との関係性に基づき、前記第2の特徴量を前記第1の属性に関する第1の特徴量に変換する変換手段、として機能させる。
【発明の効果】
【0011】
本発明の一態様によれば、異なるデータセットを横断して類似データを抽出することを可能にすると共に、抽出の理由を解釈し、説明することも可能にすることができる。
【図面の簡単な説明】
【0012】
【
図1】本発明の例示的実施形態1に係る情報処理装置の構成を示すブロック図である。
【
図2】本発明の例示的実施形態1に係る情報処理方法の流れを示すフロー図である。
【
図3】本発明の例示的実施形態2に係る情報処理装置の構成を示すブロック図である。
【
図6】
図5に示した行列を用いた特徴量の変換の例を示す図である。
【
図8】上記情報処理装置が、特徴量の変換および類似データ抽出を行う前の準備段階で実行する処理の流れを示すフロー図である。
【
図9】上記準備段階の後に行われる情報処理方法の流れを示すフロー図である。
【
図10】類似データの特徴量の特徴を可視化した特徴画像の生成例を示す図である。
【
図11】本発明の各例示的実施形態に係る情報処理装置の各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータの一例を示す図である。
【発明を実施するための形態】
【0013】
〔例示的実施形態1〕
本発明の第1の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。
【0014】
(情報処理装置の構成)
本例示的実施形態に係る情報処理装置1の構成について、
図1を参照して説明する。
図1は、情報処理装置1の構成を示すブロック図である。図示のように、情報処理装置1は、特徴量算出部(特徴量算出手段)11と変換部(変換手段)12を備えている。
【0015】
特徴量算出部11は、第1のデータセットと第2のデータセットのうち、第2のデータセットに含まれるデータについて、第2の属性に関する第2の特徴量を算出する。なお、第1のデータセットは、複数のデータを含み、第1のデータセットには自然言語で表された第1の属性が関連付けられている。また、第2のデータセットは、少なくとも1つのデータを含み、第2のデータセットには自然言語で表された第2の属性が関連付けられている。
【0016】
変換部12は、第1の属性と第2の属性との関係性に基づき、特徴量算出部11が算出する第2の特徴量を第1の属性に関する第1の特徴量に変換する。
【0017】
以上のように、本例示的実施形態に係る情報処理装置1においては、複数のデータを含み、自然言語で表された第1の属性が関連付けられた第1のデータセットと、少なくとも1つのデータを含み、自然言語で表された第2の属性が関連付けられた第2のデータセットのうち、前記第2のデータセットに含まれるデータについて、前記第2の属性に関する第2の特徴量を算出する特徴量算出部11と、前記第1の属性と前記第2の属性との関係性に基づき、前記第2の特徴量を前記第1の属性に関する第1の特徴量に変換する変換部12と、を備えるという構成が採用されている。
【0018】
つまり、上記の構成によれば、第1の属性と第2の属性という異なる属性が関連付けられた、第1のデータセットに含まれるデータと、第2のデータセットに含まれるデータの両方について、第1の属性という共通の尺度で特徴量を算出することが可能になる。そして、これにより、第1のデータセットに含まれる複数のデータの中から、第2のデータセットに含まれるデータと特徴量が類似したデータを抽出することも可能になる。
【0019】
また、上記抽出の基準となる特徴量は、第1のデータセットに関連付けられた第1の属性に関する特徴量であるから、抽出の理由を自然言語で表された第1の属性で説明することや、解釈することができる。
【0020】
以上のとおり、本例示的実施形態に係る情報処理装置1によれば、第1のデータセットと第2のデータセットという異なるデータセットを横断して類似データを抽出することが可能になり、また抽出の理由を説明・解釈することが可能になるという効果が得られる。
【0021】
(プログラム)
上述の情報処理装置1の機能は、プログラムによって実現することもできる。本例示的実施形態に係るプログラムは、コンピュータを、複数のデータを含み、自然言語で表された第1の属性が関連付けられた第1のデータセットと、少なくとも1つのデータを含み、自然言語で表された第2の属性が関連付けられた第2のデータセットのうち、前記第2のデータセットに含まれるデータについて、前記第2の属性に関する第2の特徴量を算出する特徴量算出手段、および前記第1の属性と前記第2の属性との関係性に基づき、前記第2の特徴量を前記第1の属性に関する第1の特徴量に変換する変換手段として機能させる、という構成が採用されている。このため、本例示的実施形態に係るプログラムによれば、異なるデータセットを横断して類似データを抽出することを可能にすると共に、抽出の理由を解釈し、説明することも可能にすることができる、という効果が得られる。
【0022】
(情報処理方法の流れ)
本例示的実施形態に係る情報処理方法の流れについて、
図2を参照して説明する。
図2は、情報処理方法の流れを示すフロー図である。なお、この情報処理方法における各ステップの実行主体は、情報処理装置1が備えるプロセッサであってもよいし、他の装置が備えるプロセッサであってもよく、各ステップの実行主体がそれぞれ異なる装置に設けられたプロセッサであってもよい。
【0023】
S11では、少なくとも1つのプロセッサが、複数のデータを含み、自然言語で表された第1の属性が関連付けられた第1のデータセットと、少なくとも1つのデータを含み、自然言語で表された第2の属性が関連付けられた第2のデータセットのうち、前記第2のデータセットに含まれるデータについて、前記第2の属性に関する第2の特徴量を算出する。
【0024】
S12では、少なくとも1つのプロセッサが、前記第1の属性と前記第2の属性との関係性に基づき、前記第2の特徴量を前記第1の属性に関する第1の特徴量に変換する。
【0025】
以上のように、本例示的実施形態に係る情報処理方法においては、少なくとも1つのプロセッサが、複数のデータを含み、自然言語で表された第1の属性が関連付けられた第1のデータセットと、少なくとも1つのデータを含み、自然言語で表された第2の属性が関連付けられた第2のデータセットのうち、前記第2のデータセットに含まれるデータについて、前記第2の属性に関する第2の特徴量を算出することと、前記第1の属性と前記第2の属性との関係性に基づき、前記第2の特徴量を前記第1の属性に関する第1の特徴量に変換することと、を含む、という構成が採用されている。このため、本例示的実施形態に係る情報処理方法によれば、異なるデータセットを横断して類似データを抽出することを可能にすると共に、抽出の理由を解釈し、説明することも可能にすることができるという効果が得られる。
【0026】
〔例示的実施形態2〕
本発明の第2の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。
【0027】
(情報処理装置の構成)
本例示的実施形態に係る情報処理装置2の構成について、
図3を参照して説明する。
図3は、情報処理装置2の構成を示すブロック図である。図示のように、情報処理装置2は、情報処理装置2の各部を統括して制御する制御部20と、情報処理装置2が使用する各種データを記憶する記憶部21を備えている。また、情報処理装置2は、情報処理装置2に対する各種データの入力を受け付ける入力部22、情報処理装置2が各種データを出力するための出力部23を備えている。
【0028】
また、制御部20には、特徴量算出部(特徴量算出手段)201、変換規則生成部202、変換部(変換手段)203、および類似データ抽出部204が含まれている。また、記憶部21には、データセット211、変換規則212、および結果データ213が記憶されている。
【0029】
特徴量算出部201は、自然言語で表された属性が関連付けられたデータセットに含まれるデータについて、当該属性に関する特徴量を算出する。より詳細には、記憶部21に記憶されるデータセット211には、第1のデータセットと第2のデータセットとが含まれており、特徴量算出部201は、これらのデータセットのそれぞれに含まれるデータについて特徴量を算出する。
【0030】
第1のデータセットは、例えば1つの企業、1つの法人、1つのグループ、あるいは一人のユーザに関するデータを集めたものであってもよい。また、第1のデータセットに含まれるデータは、例えば上記企業等の取扱商品の販売個数や売上高等を示すものであってもよい。第2のデータセットも同様である。
【0031】
上記属性は、上記データセットに含まれるデータに関連するものであり、かつ、自然言語で表されたもの、つまり人が内容を認識できるものであればよい。例えば、データの大分類、中分類、小分類等の分類をそのデータの属性としてもよいし、データが商品やサービスであれば商品名やサービス名をそのデータの属性としてもよい。また、例えば商品やサービスの説明文を形態素解析して得られた語を属性としてもよいし、商品名や口コミの文章を集約したものを属性としてもよい。
【0032】
また、ユーザに関するデータについては、そのユーザの職業や性質、特性等をそのデータの属性としてもよい。例えば、サラリーマン、ブランド志向、定期購入者、等を属性としてもよい。このような属性は、例えば、ユーザに対するアンケート結果等から特定することもできる。
【0033】
また、近時では、データセットのデータに対して、そのデータに関連する付加情報を付与するデータエンリッチメントと呼ばれるサービスが利用できるようになっている。このようなサービスにより付加された付加情報を属性として利用することもできる。上述したユーザの属性もデータエンリッチメントと同様に外部のサービスを利用して特定してもよい。
【0034】
変換規則生成部202は、2つの属性間の関係性に基づいて、一方の属性に関する特徴量を他方の属性に関する特徴量に変換するための変換規則を生成する。変換規則生成部202により生成された変換規則は、変換規則212として記憶部21に記憶される。
【0035】
変換部203は、2つの属性間の関係性に基づいて、一方の属性に関する特徴量を他方の属性に関する特徴量に変換する。具体的には、変換部203は、上述の変換規則212を用いて上記の変換を行う。
【0036】
類似データ抽出部204は、第1のデータセットに含まれる複数のデータの中から、第2のデータセットに含まれるデータと類似した類似データを抽出する。詳細は後述するが、類似データの抽出は、変換部203による変換による変換により得られた第1の特徴量と、第1のデータセットに含まれる複数のデータについての第1の属性に関する特徴量とに基づいて行われる。類似データ抽出部204が抽出した類似データは、結果データ213として記憶部21に記憶される。
【0037】
類似データ抽出部204は、情報処理装置2の必須の構成ではない。しかし、類似データ抽出部204を設けることにより、第1のデータセットに含まれる複数のデータの中から、第2のデータセットに含まれるデータと類似したデータを自動で抽出することができるという利点がある。このため、情報処理装置2は、類似データ抽出部204を備えていることが好ましい。
【0038】
(特徴量算出の具体例)
図4は、特徴量算出部201による特徴量算出の具体例を示す図である。より詳細には、
図4には、ソースデータセット(第2のデータセット)D
sとターゲットデータセット(第1のデータセット)D
tから特徴量を算出する例を示している。
【0039】
ソースデータセットDsは、ユーザIDとアイテムIDと利用金額とが対応付けられたテーブル形式のデータセットである。このソースデータセットDsは、クレジットカードの利用履歴を示すものである。つまり、ソースデータセットDsは、ユーザIDで特定されるユーザについて、アイテムIDで特定される利用店舗におけるクレジットカードの利用金額を示している。
【0040】
また、関連データMsは、ソースデータセットDsに関連付けられたデータであり、ソースデータセットDsに含まれるデータの属性を示す自然言語を含む。具体的には、関連データMsは、ソースデータセットDsに含まれる各アイテムIDで特定される利用店舗の分類を自然言語で示していると共に、その分類に該当するか否かを0または1の数値で示している。例えば、関連データMsでは、アイテムIDが「i01_s」の店舗について、「小売」および「バイク屋」の属性値が「1」であり、その他の属性値は「0」となっている。これは、「i01_s」の店舗が、小売およびバイク屋であり、おもちゃ屋、旅館、および病院ではないことを示している。
【0041】
一方のターゲットデータセットDtは、ユーザIDとアイテムIDと購入個数とが対応付けられたテーブル形式のデータセットである。このターゲットデータセットDtは、通販サイトでの購入履歴を示すものである。つまり、ターゲットデータセットDtは、ユーザIDで特定されるユーザについて、アイテムIDで特定される商品の購入個数を示している。
【0042】
また、関連データMtは、ターゲットデータセットDtに関連付けられたデータであり、ターゲットデータセットDtに含まれるデータの属性を示す自然言語を含む。関連データMtは、ターゲットデータセットDtに含まれる各アイテムIDで特定される商品の分類を自然言語で示していると共に、その分類に該当するか否かを0または1の数値で示している。例えば、関連データMtでは、アイテムIDが「i01_t」の商品が、オートバイ用品かつ車部品であり、地図およびおもちゃではないことが示されている。なお、以下では、関連データMsに含まれる属性名の集合を属性集合Asと呼ぶ。同様に、関連データMtに含まれる属性名の集合を属性集合Atと呼ぶ。
【0043】
特徴量算出部201は、ソースデータセットDsに含まれるデータについて、関連データMsに示される属性、すなわちクレジットカードの利用店舗の分類に関する特徴量を算出する。より詳細には、特徴量算出部201は、ソースデータセットDsに含まれるデータが、クレジットカードの利用店舗の分類に該当する程度を示すスコアを特徴量(第2の特徴量)として算出する。
【0044】
具体的には、ソースデータセットDsに含まれる1つ目のデータは、アイテムIDが「i01_s」であり、関連データMsによりこのアイテム(具体的には店舗)の属性が「小売」および「バイク屋」であることが示されている。また、ソースデータセットDsに含まれる2つ目のデータは、アイテムIDが「i03_s」であり、関連データMsによりこのアイテムの属性が「旅館」であることが示されている。よって、特徴量算出部201は、ソースデータセットDsに含まれるデータが「小売」、「バイク屋」および「旅館」に該当する程度を示すスコアを特徴量として算出する。
【0045】
また、特徴量の算出の際に、特徴量算出部201は、ソースデータセットD
sに含まれるデータに応じた重み付けを行ってもよい。例えば、ソースデータセットD
sにおいては、利用金額の値が大きいほどスコアが大きくなるように重み付けしてもよい。このような重み付けの例を
図4にはテーブルT1で示している。テーブルT1において、f(w)が重み値である。wの値をソースデータセットD
sに含まれる何れのデータの値とするかは、ソースデータセットに含まれるデータ(例えばユーザやアイテム)等に応じて予め定めておけばよい。関数f(w)についても同様であり、ソースデータセットに含まれるデータ等に応じて任意の関数を予め定めておけばよい。
【0046】
上述のスコアは、ソースデータセットDsに含まれる各データuを関連データMsの属性次元のベクトルに変換する写像φsを求めることにより算出することができる。同様に、ターゲットデータセットDtに含まれる各データu’のスコアは、当該データu’を関連データMtの属性次元のベクトルに変換する写像φtを求めることにより算出することができる。
【0047】
なお、以下では、ソースデータセットDsとターゲットデータセットDtに共通する事項については、「s」と「t」の添え字の代わりに「Z」の添え字で表す場合がある。例えば、ソースデータセットDsとターゲットデータセットDtは、データセットDZと表記する場合がある。また、上述の写像φsと写像φtは、写像φZと表記する場合がある。
【0048】
写像φZの構成方法は任意であり、例えば以下の数式で示される写像φZを用いてもよい。
【0049】
【数1】
ここで、fは値の変換則であり、実数値を実数値に変換する。値を変化させない恒等写像をfとしてもよい。例えば、ターゲットデータセットD
tにおける購入個数の値をwとする場合には、その対数を取って、f(w)=log(w+1)としてもよい。
【0050】
また、gZはアイテムを属性次元のベクトルへ変換する写像である。上述した関連データMs、Mtに示される属性値を行列で表した属性行列をそのまま活用してgZ=MZ[i]としてもよい。また、例えば、属性行列にTFIDFやBM25などの重みを付けた行列から定まるベクトル(例えば、gZ(i)=MZ
tfidf[i])を用いてもよい。
【0051】
また、hは、集合を属性次元のベクトルに変換する写像である。hとしては、ノルムが1になるように正規化する写像を設定する。例えば、以下の数式で示すように、f(w)g(i)の和をhとしてもよいし、平均等を適用してもよい。
【0052】
【数2】
以上のような処理により、
図4に特徴量データf
sに示すように、各アイテムIDのアイテムについて、各属性のスコアが算出される。そして、各アイテムのスコアをhで総合することにより、特徴量データF
sに示すようなスコアすなわち特徴量が算出される。この特徴量は、特徴量ベクトルとして表すことができる。
【0053】
また、同様の処理により、ターゲットデータセットDtおよび関連データMtから特徴量データFtに示すようなスコアすなわち特徴量が算出される。ターゲットデータセットDtに含まれるデータの特徴量も特徴量ベクトルとして表すことができる。
【0054】
(変換規則生成の生成方法)
変換規則生成部202は、ソースデータセットDsの属性についての特徴量を、ターゲットデータセットDtの属性についての特徴量に変換する変換規則212を生成する。なお、上記の各特徴量はベクトルで表されるから、以下ではこれらの特徴量を特徴量ベクトルと呼ぶ。
【0055】
上記の変換には、ソースデータセットDsの属性に関する特徴量ベクトルφs(u)を、ターゲットデータセットDtの属性に関する特徴量ベクトルに変換する写像ψを求めればよい。例えば、下記の数式に示すように、後述する行列Rと、φs(u)との行列積を写像ψ(φs(u))とみなすことができる。Rφs(u)は、下記の数式に示すように、ターゲットデータセットDtの属性に関する特徴量ベクトル(dt次元の特徴量)となる。
【0056】
【数3】
また、行列Rを、ある閾値θで0と1に二値化したものとしてもよい。この場合、ψ(φ
s(u))は下記の数式で表される。行列Rを二値化したものとすることにより、属性の関係性の強弱を際立たせることができる。つまり、行列Rを二値化したものとする場合、ソースデータセットD
sの属性とターゲットデータセットD
tの属性の関係性が強いときにはRの値が1になり、関係性が弱いときには0になる。これにより、変換後のスコアと、変換前のソースデータセットD
sの属性との関係性が明確になるので、解釈性・説明性をさらに高めることができる。
【0057】
【数4】
上記行列Rは、ソースデータセットD
sの属性と、ターゲットデータセットD
tの属性との関係性に基づいて生成することができる。変換規則生成部202は、ソースデータセットD
sの属性と、ターゲットデータセットD
tの属性に基づいて行列Rを生成し、これを変換規則212として記憶部21に記憶させる。
【0058】
また、行列Rを、ある閾値θ以下の値を0に変換するものとしてもよい。この場合、ψ(φs(u))は下記の数式で表される。行列Rを閾値θで区切られたものとし、閾値θ以下の値を0に変換することにより、関連性の低い属性が変換後のスコアに影響を及ぼすことを防ぐことができる。
【0059】
【数5】
ソースデータセットD
sの属性と、ターゲットデータセットD
tの属性との関係性に基づく行列Rは、例えば類似度関数や最適輸送理論等により生成することができる。
【0060】
例えば、変換規則生成部202は、文字列の類似度に基づいて行列Rを生成してもよい。この場合、変換規則生成部202は、下記の数式に示す行列Rstrを生成すればよい。文字列の類似度としては、例えば、ジャッカード類似度、レーベンシュタイン類似度、およびn-gramによる類似度などを適用することができる。
【0061】
【数6】
また、類似度の計算は、属性名をベクトル化した空間の中で行ってもよい。この場合、変換規則生成部202は、下記の数式に示す行列R
embを生成すればよい。なお、下記の数式におけるemb(a)は、属性名aに対して自然言語処理における埋め込みベクトルを適用して得られるベクトルである。ベクトル化の方法としては、例えばword2vecやfasttextなどの自然言語処理における埋め込みモデルを適用してもよい。そして、類似度としては、コサイン類似度やユークリッド距離による類似度などを適用することができる。
【0062】
【数7】
以上のように、変換規則生成部202は、ソースデータセットD
sの属性とターゲットデータセットD
tの属性との類似の程度が高いほど変換前のスコアが変換後のスコアに強く反映される変換規則212を生成してもよい。
【0063】
上記の構成によれば、変換規則212を自動で生成することができる。また、生成する変換規則212は、ソースデータセットDsの属性とターゲットデータセットDtの属性との類似の程度が高いほど変換前のスコアが変換後のスコアに強く反映される、というものであるから、属性間の類似の程度に応じた妥当な変換を行うことができる。
【0064】
また、最適輸送理論を適用する場合、変換規則生成部202は、下記の数式に示す行列Rotを生成すればよい。なお、下記の数式は、一行目の右辺において列方向(j)に正規化を行っている点で、一般的な最適輸送行列で用いられる数式と相違している。この正規化により、ソースデータセットDsの属性集合Asに含まれる各属性のスコアが、ターゲットデータセットDtの属性集合Atにおいて、スコアの和が1になるように配分される。
【0065】
この場合、Word Mover's DistanceやWord Rotator's Distance等の、単語の類似度に応じたマッピングを実現する輸送行列Tを変換規則212として用いる。なお、行列R
otの生成例については
図5に基づいて後述する。また、Word Mover's DistanceおよびWord Rotator's Distanceの詳細は、例えば下記の文献に記載されている。
Matt Kusnerら,“From Word Embeddings To Document Distances”,2015年,PMLR 37:957-966
Sho Yokoiら,“Word Rotator's Distance”,2020年,Association for Computational Linguistics,pp.2944-2960
【0066】
【数8】
以上のように、変換規則生成部202は、ソースデータセットD
sの属性とターゲットデータセットD
tの属性から最適輸送理論により変換規則212を生成してもよい。
【0067】
上記の構成によれば、変換規則を自動で生成することができる。また、最適輸送理論により変換規則を生成するので、ソースデータセットDsの属性とターゲットデータセットDtの属性の関係性の強弱を際立たせることができる。例えば、これらの属性間の関係性が強いときには、変換前のスコアを変換後のスコアに強く反映させ、一方、これらの属性間の関係性が弱いときには、変換前のスコアを変換後のスコアに反映させないようにすることもできる。これにより、変換後のスコアと、変換前のソースデータセットDsの属性との関係性が明確になるので、解釈性・説明性をさらに高めることができる。
【0068】
また、上述した種々の行列を重み付きで組み合わせたものを変換に用いる行列Rとしてもよい。この場合、行列Rは下記の数式で表される。
【0069】
【数9】
(変換規則生成の具体例)
図5は、変換規則生成部202による変換規則生成の具体例を示す図である。より詳細には、
図5には、
図4に示した関連データM
sの属性集合A
sと関連データM
tの属性集合A
tから行列Rを生成する例を示している。この行列Rは、最適輸送理論により生成したものであり、上述のR
otに対応している。
【0070】
図5の例では、変換規則生成部202は、ソースデータセットD
sに関連付けられた属性集合A
sに含まれる各属性名と、ターゲットデータセットD
tに関連付けられた属性集合A
tに含まれる各属性名に対して、埋め込み表現を生成している。より詳細には、変換規則生成部202は、n次元のユークリッド空間SP1に、属性集合A
sに含まれる各属性名と、属性集合A
tに含まれる各属性名を埋め込んでいる。nは例えば300程度に設定してもよい。
【0071】
ユークリッド空間SP1において、相互に類似した単語(属性名)は相互に近接した位置に埋め込まれる。このため、「おもちゃ」と「おもちゃ屋」は近接した位置に埋め込まれ、「オートバイ用品」と「バイク屋」と「車部品」は近接した位置に埋め込まれている。このような埋め込み表現は、例えばfasttext等で生成することができる。
【0072】
次に、変換規則生成部202は、上記の埋め込み表現に対して、World Rotator's Distanceを計算し、その最適輸送行列Tを行列Rとする。行列Rは、属性間の類似度を0から1までの数値で示す行列である。なお、1に近いほど類似度が高い。例えば、
図5に示す行列Rでは、「オートバイ用品」と「バイク屋」のような類似した概念の属性の組み合わせについての値は1となっている。一方、「オートバイ用品」と「おもちゃ屋」のような非類似の概念の属性の組み合わせについての値は0となっている。このような行列Rが変換規則212として記憶部21に記憶される。
【0073】
図5の例のように、最適輸送理論に基づいて生成した行列Rにおいては、類似した概念の組み合わせは1になり、非類似の概念の組み合わせは0になることが多く、中間的な数値となることが少ない。このため、最適輸送理論に基づいて変換規則を生成する場合、ソースデータセットD
sの属性と、ターゲットデータセットD
tの属性との関係を理解しやすい。つまり、最適輸送行列を変換規則212として用いる場合、上述のように、最終的な分類の結果の説明性および解釈性が高くなるという利点がある。一方、例えば、変換規則212としてコサイン類似度(R
cos)等を用いた場合、-1から1までの間における中間的な値が多く出力されることになるため、最適輸送行列を用いる場合と比べて説明性等が落ちる場合がある。
【0074】
(変換の具体例)
図6は、
図5に示した行列Rを用いた特徴量の変換の例を示す図である。図示のように、行列Rと特徴量ベクトルF
sとの行列積を取ることにより、特徴量ベクトルF
sをターゲットデータセットD
tの属性の特徴量ベクトルF
s’に変換することができる。
【0075】
具体的には、特徴量ベクトルFsにおける「小売」のスコア「0.05」は、行列Rにより「車部品」のスコア「0.05」に変換されている。また、「バイク屋」のスコア「0.55」は、行列Rにより「オートバイ用品」のスコア(0.55)に変換され、「旅館」のスコア「0.4」は、行列Rにより「オートバイ用品」のスコア(0.1)に変換される。これにより、特徴量ベクトルFs’における「オートバイ用品」のスコアは「0.65」となっている。
【0076】
特徴量ベクトルF
sは、特徴量ベクトルF
sに対応するユーザ(
図4におけるユーザIDが「u01_s」のユーザ)は、「小売」、「バイク屋」、および「旅館」について、0.05、0.55、および0.4の割合でクレジットカードを利用していることを示している。
【0077】
そして、特徴量ベクトルFs’は、上記のユーザが、通販サイトにおいて、「オートバイ用品」、「車部品」、および「地図」について、0.65、0.05、および0.3の割合で関心があるという推論結果を示している。
【0078】
以上のように、特徴量算出部201は、ソースデータセットDsに含まれるデータが、当該ソースデータセットDsに関連付けられた属性に該当する程度を示すスコアを算出してもよい。そして、変換部203は、ターゲットデータセットDtの属性とソースデータセットDsの属性との関係性に基づいて生成された変換規則212を適用して、ソースデータセットDsのスコアを、ターゲットデータセットDtの属性に該当する程度を示すスコアに変換してもよい。
【0079】
上記の構成によれば、ソースデータセットDsのスコアを、ターゲットデータセットDtの属性に該当する程度を示すスコアに変換するので、このスコアの値の大きさに基づいて、ターゲットデータセットDtとソースデータセットDsを横断して類似データを容易に抽出することが可能になる。また、抽出の理由についても、スコアの値の大きさに基づいて容易に説明・解釈することが可能になる。
【0080】
(類似データ抽出の具体例)
類似データ抽出部204は、ターゲットデータセットDtに含まれる複数のデータの中から、ソースデータセットDsに含まれるデータと類似した類似データを抽出する。類似データを抽出するためには、下記のgのような写像を構成すればよい。写像gは、与えられたソースデータセットDsに含まれるユーザの集合UsをターゲットデータセットDtに含まれるユーザの集合Utの部分集合2Utに変換し、ソースデータセットDsに含まれる要素uをユーザUtの集合に含まれる要素Cに変換するものである。写像gは、ソースデータセットDsのデータと類似したターゲットデータセットDtのデータ群を返すものであるともいえる。
【0081】
【数10】
例えば、類似データ抽出部204は、下記の和集合を生成してもよい。
【0082】
【数11】
上記の和集合は、ソースデータセットD
sのデータuに関連付けられた属性に関する特徴量φ
s(u)を、ターゲットデータセットD
tの属性に関する特徴量に変換した特徴量ψ(φ
s(u))の集合と、ターゲットデータセットD
tのデータu’に関連付けられた属性に関する特徴量φ
t(u’)の集合との和集合である。
【0083】
そして、類似データ抽出部204は、この和集合においてクラスタリングを行い、データuが属するクラスタに含まれるデータu’を類似データとして抽出してもよい。なお、このクラスタリングの方法は任意であり、例えばK-Means法、Ward法、DBSCAN等を適用することもできる。
【0084】
また、例えば、類似データ抽出部204は、上記のように類似データの抽出を一度に実行する代わりに、ターゲットデータセットのデータu’に関連付けられた属性に関する特徴量φ
t(u’)の集合である
【数12】
を対象としたクラスタリングを行ってもよい。この場合、類似データ抽出部204は、ソースデータセットD
sのデータφ
s(u)が何れのクラスタに属するかを判定すればよい。この方式であれば、ソースデータセットD
sのデータがターゲットデータセットD
tの何れかと必ず同じクラスタに属する。
【0085】
この方式を適用した例を
図7に示している。
図7は、類似データの抽出例を示す図である。この抽出例においては、まず、ターゲットデータセットD
tに含まれる各ユーザについては、特徴量算出部201により、対応する属性(具体的には、「オートバイ用品」~「おもちゃ」)に基づく特徴量ベクトルが算出される。そして、類似データ抽出部204は、算出された特徴量ベクトルに基づいて、同図の[1]に示すように、各ユーザを特徴空間SP2においてクラスタリングする。
【0086】
一方、ソースデータセットDsに含まれるユーザ(ユーザIDが「u01_s」のユーザ)については、特徴量算出部201により、同図の[2]に示すように、対応する属性(具体的には、「小売」~「病院」)に基づく特徴量ベクトルFsが生成される。また、同図の[3]に示すように、特徴量ベクトルFsは、変換部203により特徴量ベクトルFs’に変換される。
【0087】
ここで、特徴量ベクトルFs’は、ターゲットデータセットDtの属性で表されているから、上述した[1]の処理で生成された特徴空間SP2上のクラスタの何れかに分類することができる。
【0088】
そして、類似データ抽出部204は、特徴量ベクトルF
s’が属するクラスタに含まれる各ユーザを、ソースデータセットD
sに含まれるユーザと類似したユーザとして抽出する。
図7の例では、同図の[4]に示すように、ユーザIDが「u01_t」、「u05_t」、「u012_t」の3人のユーザが抽出されている。これらのユーザの特徴量のスコアは、同図のテーブルT2に示すように互いに類似した値となっており、また、それらのスコアはソースデータセットD
sのユーザの特徴量ベクトルF
s’とも類似した値となっている。
【0089】
なお、上記の例のように、データがユーザの場合には、オーディエンス拡張技術を応用して類似ユーザを抽出してもよい。オーディエンス拡張技術の処理は、各ユーザにスコアを与えて、スコアが大きい順に並び替えて、その上位のユーザを類似ユーザとして返すというものであり、クラスタリングと類似している。オーディエンス拡張技術の詳細は、例えば下記の文献に記載されている。
Stephanie deWetら,“Finding Users Who Act Alike: Transfer Learning for Expanding Advertiser Audiences”,2019年7月,Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pp.2251-2259
(情報処理方法の流れ:準備段階)
情報処理装置2が実行する情報処理方法の流れを
図8に基づいて説明する。
図8は、情報処理装置2が、特徴量の変換および類似データ抽出を行う前の準備段階で実行する処理の流れを示すフロー図である。
【0090】
S21では、情報処理装置2は、第1および第2のデータセットの読み込みを行う。第1および第2のデータセットは、例えば入力部22を介して入力されて、記憶部21にデータセット21として記憶される。
【0091】
第1のデータセットは複数のデータを含み、第1のデータセットには自然言語で表された第1の属性が関連付けられている。第1のデータセットは、上述のターゲットデータセットに対応している。第1の属性は、第1のデータセットに示されていてもよいし、示されていなくてもよい。後者の場合、第1のデータセットとは別に、第1の属性を示すデータ(例えば上述した関連データMtのようなデータ)を読み込んでおけばよい。
【0092】
一方、第2のデータセットには自然言語で表された、第1の属性とは異なる第2の属性が関連付けられている。第2のデータセットは、上述のソースデータセットに対応している。第2のデータセットについては、準備段階では属性のみ使用されるから、第2のデータセットのデータ自体はS21では読み込む必要がない。S21では、第2のデータセットについて、第2の属性を示すデータ(例えば上述した関連データMsのようなデータ)を読み込んでおけばよい。
【0093】
S22では、特徴量算出部201が、S21で読み込まれた第1のデータセットの各データについて、第1の属性に関する特徴量を算出する。例えば、特徴量算出部201は、
図4に示したような特徴ベクトルF
tを算出してもよい。
【0094】
S23では、変換部203が、S21で読み込まれた第2のデータセットにおける第2の属性に関する第2の特徴量を、同じくS21で読み込まれた第1のデータセットにおける第1の属性に関する第1の特徴量に変換する変換規則を生成する。例えば、変換部203は、
図5に示した行列Rを変換規則として生成してもよい。生成した変換規則は、変換規則212として記憶部21に記憶される。以上より、準備段階の処理は終了となる。なお、S22とS23の処理は同時並行で行ってもよいし、S23の方を先に行ってもよい。
【0095】
(情報処理方法の流れ:推論段階)
図9は、上述した準備段階の処理の後に行われる情報処理方法の流れを示すフロー図である。
図9のフローでは、準備段階で生成された変換規則212を用いた変換が行われた上で、類似データの抽出(推論)が行われる。
【0096】
S31では、情報処理装置2は、第2のデータセットのデータの読み込みを行う。当該データは、例えば入力部22を介して入力されて、記憶部21にデータセット21として記憶される。S31では、第2のデータセットに含まれるデータを少なくとも1つ読み込めばよい。なお、
図8のS21で第2のデータセットのデータについても読み込みが終了している場合には、S31の処理は省略される。
【0097】
S32では、特徴量算出部201が、S31で読み込まれた第2のデータセットのデータについて、第2の属性に関する第2の特徴量を算出する。例えば、特徴量算出部201は、
図4に示したような特徴ベクトルF
sを算出してもよい。
【0098】
S33では、変換部203が、
図8のS23で生成された変換規則212を読み込む。そして、S34では、変換部203は、S33で読み込んだ変換規則212を用いて、S32で算出された第2の特徴量を、第1の属性に関する第1の特徴量に変換する。例えば、変換部203は、
図6の例のように、変換規則212である行列Rと、第2の特徴量である特徴ベクトルF
sとを積算して、第1の特徴量である特徴ベクトルF
s’に変換してもよい。
【0099】
S35では、類似データ抽出部204が、
図8のS22で算出された特徴量、すなわち第1のデータセットに含まれる各データについての第1の属性に関する特徴量を読み込む。そして、S36では、類似データ抽出部204は、S35で読み込んだ特徴量と、S34の変換により生成された第1の特徴量とに基づき、第1のデータセットに含まれる複数のデータの中から、第2のデータセットに含まれるデータと類似した類似データを抽出する。また、類似データ抽出部204は、抽出したデータを結果データ213として記憶部21に記憶させる。
【0100】
以上より、
図9の処理は終了する。S31で読み込むデータを変更することにより、第2のデータセットに含まれる各データについて、第1のデータセットから類似データを抽出することができる。なお、S31、S33、およびS35の処理は同時並行で行ってもよく、また、これらの処理の実行順序を適宜変更してもよい。
【0101】
〔変形例〕
上述の例示的実施形態では、変換後の特徴量を用いて類似データを抽出し、抽出した類似データを結果データ213として記憶する例を説明したが、変換後の特徴量の用途は任意であり、この例に限られない。
【0102】
例えば、変換後の特徴量を用いて類似データを抽出した後、抽出した類似データの特徴量の特徴を可視化した特徴画像を生成してもよい。これについて、
図10に基づいて説明する。
図10は、類似データの特徴量の特徴を可視化した特徴画像の生成例を示す図である。
【0103】
図10の例では、
図7に示したテーブルT2に示される3人のユーザの特徴量から、特徴画像IMGを生成している。このような特徴画像IMGは、3人のユーザの各属性の値の平均値を算出し、その値の大きさに応じて属性の文字列を描画することにより生成することができる。例えば、WordCloudを用いることにより、このような特徴画像を生成することができる。
【0104】
このような特徴画像は、変換後の特徴量について生成することもできる。例えば、ソースデータセットのデータについての変換後の特徴量から特徴画像を生成すると共に、ターゲットデータセットのデータの特徴量から特徴画像を生成し、それらを結果データ213として記憶してもよい。この場合、ターゲットデータセットのデータと、ソースデータセットのデータの関連性が特徴画像によって表される。なお、この場合、ターゲットデータセットのデータとソースデータセットのデータは各1つであってもよい。
【0105】
〔応用例〕
上述の情報処理装置2は、様々な用途に利用することができる。例えば、情報処理装置2は、あるユーザAのソースデータセットを用いて、ターゲットデータセットに含まれる各データに対応する複数のユーザの中から、ユーザAと類似した類似ユーザを抽出することができる。
【0106】
ここで、情報処理装置2は、ターゲットデータセットに含まれるデータの中から、類似ユーザに関するデータを取得することができる。例えば、ターゲットデータセットが通販サイトの購入履歴を示すものである場合、情報処理装置2は、類似ユーザが購入した商品を示すデータを取得することができる。
【0107】
そして、情報処理装置2は、取得したデータが示す商品の購入を勧める情報(例えば広告等)をユーザAに提示することができる。例えば、ソースデータセットがクレジットカードの利用履歴を示すものである場合、情報処理装置2は、そのクレジットカード会社におけるユーザAのマイページ等に広告を表示させてもよい。この際、ユーザAが上記の通販サイトを全く利用していなかったとしても、その商品の購入を勧めた理由を、ソースデータセットの属性をもとに説明することができる。
【0108】
また、情報処理装置2によれば、例えば、ある店舗におけるクレジットカードの利用履歴を示すソースデータセットを用いて、その店舗で買い物をしたユーザが、通販サイトではどのような属性に反応するかを分析することもできる。言い換えれば、情報処理装置2によれば、通販サイトにおけるどのような商品属性のスコアが高くなるかを分析することができる。このような分析結果は、店舗で販売する商品の決定などに有用である。
【0109】
また、情報処理装置2は、業種を横断した各種の分析に利用することもできる。例えば、衣料品の小売業のA社が他業種である車業界に進出することを考えているとする。この場合、例えば、ソースデータセットとしてA社の取引企業に関するデータを使用し、ターゲットデータセットとして車用品の販売を行うB社の取引企業および取扱商品に関するデータを使用すればよい。また、ターゲットデータセットの属性は、取扱商品の分類とすればよい。この場合、情報処理装置2は、A社の取引企業と類似したB社の取引企業を抽出することができる。
【0110】
ここで、抽出したB社の取引企業の属性は、それらの取引企業の取扱商品の分類を示している。このような属性のうち、スコアが高いものは、衣料品業界と車業界の両方に関連性が高いといえる。例えば、情報処理装置2は、上記のような分析を行った結果、「シート」という属性のスコアが高かった場合、A社に推奨する取扱商品を、車両用のシートと決定してもよい。A社はこの推奨に基づいて、自社の取引企業に車両用のシートの製造を依頼すればよい。このように、情報処理装置2は、業種を横断した各種の分析に利用することもできる。
【0111】
〔変形例〕
上述の各例示的実施形態で説明した各処理の実行主体は任意であり、上述の例に限られない。つまり、相互に通信可能な複数の装置により、情報処理装置1、2と同様の機能を有する情報処理システムを構築することができる。また、例えば、SaaS(Software as a Service)等の形態で上述の各例示的実施形態で説明した各処理を実現することもできる。
【0112】
〔ソフトウェアによる実現例〕
情報処理装置1、2の一部又は全部の機能は、集積回路(ICチップ)等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。
【0113】
後者の場合、情報処理装置1、2は、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例(以下、コンピュータCと記載する)を
図11に示す。コンピュータCは、少なくとも1つのプロセッサC1と、少なくとも1つのメモリC2と、を備えている。メモリC2には、コンピュータCを情報処理装置1、2として動作させるためのプログラムPが記録されている。コンピュータCにおいて、プロセッサC1は、プログラムPをメモリC2から読み取って実行することにより、情報処理装置1、2の各機能が実現される。
【0114】
プロセッサC1としては、例えば、CPU(Central Processing Unit)、GPU(Graphic Processing Unit)、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、FPU(Floating point number Processing Unit)、PPU(Physics Processing Unit)、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリC2としては、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、又は、これらの組み合わせなどを用いることができる。
【0115】
なお、コンピュータCは、プログラムPを実行時に展開したり、各種データを一時的に記憶したりするためのRAM(Random Access Memory)を更に備えていてもよい。また、コンピュータCは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータCは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。
【0116】
また、プログラムPは、コンピュータCが読み取り可能な、一時的でない有形の記録媒体Mに記録することができる。このような記録媒体Mとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータCは、このような記録媒体Mを介してプログラムPを取得することができる。また、プログラムPは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータCは、このような伝送媒体を介してプログラムPを取得することもできる。
【0117】
〔付記事項1〕
本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。
【0118】
〔付記事項2〕
上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。
【0119】
(付記1)
少なくとも1つのデータを含み、自然言語で表された第1の属性が関連付けられた第1のデータセットと、複数のデータを含み、自然言語で表された第2の属性が関連付けられた第2のデータセットのうち、前記第2のデータセットに含まれるデータについて、前記第2の属性に関する第2の特徴量を算出する特徴量算出手段と、前記第1の属性と前記第2の属性との関係性に基づき、前記第2の特徴量を前記第1の属性に関する第1の特徴量に変換する変換手段と、を備える情報処理装置。
【0120】
上記の構成によれば、第1のデータセットと第2のデータセットという異なるデータセットを横断して類似データを抽出することが可能になり、また抽出の理由を説明・解釈することが可能になる。
【0121】
(付記2)
前記特徴量算出手段は、前記第2のデータセットに含まれる前記データが、当該第2のデータセットに関連付けられた前記第2の属性に該当する程度を示す第2のスコアを、前記第2の特徴量として算出し、前記変換手段は、前記第1の属性と前記第2の属性との関係性に基づいて生成された変換規則を適用して、前記第2のスコアを、前記第1の属性に該当する程度を示す第1のスコアに変換したものを前記第1の特徴量とする、付記1に記載の情報処理装置。
【0122】
上記の構成によれば、第1の属性に該当する程度を示す第1のスコアを第1の特徴量とするので、第1のスコアの値の大きさに基づいて、第1のデータセットと第2のデータセットを横断して類似データを容易に抽出することが可能になる。また、抽出の理由についても、第1のスコアの値の大きさに基づいて容易に説明・解釈することが可能になる。
【0123】
(付記3)
前記第1の属性と前記第2の属性との類似の程度が高いほど前記第2のスコアが前記第1のスコアに強く反映される前記変換規則を生成する変換規則生成手段を備える、付記2に記載の情報処理装置。
【0124】
上記の構成によれば、変換規則を自動で生成することができる。また、生成する変換規則は、第1の属性と第2の属性との類似の程度が高いほど第2のスコアが第1のスコアに強く反映される、というものであるから、第1の属性と第2の属性との類似の程度に応じた妥当な変換を行うことができる。
【0125】
(付記4)
前記第1の属性と前記第2の属性から最適輸送理論により前記変換規則を生成する変換規則生成手段を備える、付記2に記載の情報処理装置。
【0126】
上記の構成によれば、変換規則を自動で生成することができる。また、最適輸送理論により変換規則を生成するので、第1の属性と第2の属性の関係性の強弱を際立たせて、解釈性・説明性をさらに高めることができる。
【0127】
(付記5)
前記変換手段による変換により生成された、前記第2のデータセットに含まれる前記データについての前記第1の特徴量と、前記第1のデータセットに含まれる複数のデータの前記第1の属性に関する特徴量とに基づき、前記第1のデータセットに含まれる複数のデータの中から、前記第2のデータセットに含まれる前記データと類似した類似データを抽出する類似データ抽出手段を備える、付記1から4の何れかに記載の情報処理装置。
【0128】
上記の構成によれば、第2のデータセットに含まれる複数のデータの中から、第1のデータセットに含まれるデータと類似したデータを自動で抽出することができる。
【0129】
(付記6)
少なくとも1つのプロセッサが、少なくとも1つのデータを含み、自然言語で表された第1の属性が関連付けられた第1のデータセットと、複数のデータを含み、自然言語で表された第2の属性が関連付けられた第2のデータセットのうち、前記第2のデータセットに含まれるデータについて、前記第2の属性に関する第2の特徴量を算出することと、前記第1の属性と前記第2の属性との関係性に基づき、前記第2の特徴量を前記第1の属性に関する第1の特徴量に変換することと、を含む情報処理方法。
【0130】
上記情報処理方法によれば、第1のデータセットと第2のデータセットという異なるデータセットを横断して類似データを抽出することが可能になり、また抽出の理由を説明・解釈することが可能になる。
【0131】
(付記7)
コンピュータを、少なくとも1つのデータを含み、自然言語で表された第1の属性が関連付けられた第1のデータセットと、複数のデータを含み、自然言語で表された第2の属性が関連付けられた第2のデータセットのうち、前記第2のデータセットに含まれるデータについて、前記第2の属性に関する第2の特徴量を算出する特徴量算出手段、および前記第1の属性と前記第2の属性との関係性に基づき、前記第2の特徴量を前記第1の属性に関する第1の特徴量に変換する変換手段、として機能させるプログラム。
【0132】
上記プログラムによれば、第1のデータセットと第2のデータセットという異なるデータセットを横断して類似データを抽出することが可能になり、また抽出の理由を説明・解釈することが可能になる。
【0133】
〔付記事項3〕
上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。少なくとも1つのプロセッサを備え、前記プロセッサは、少なくとも1つのデータを含み、自然言語で表された第1の属性が関連付けられた第1のデータセットと、複数のデータを含み、自然言語で表された第2の属性が関連付けられた第2のデータセットのうち、前記第2のデータセットに含まれるデータについて、前記第2の属性に関する第2の特徴量を算出する特徴量算出処理と、前記第1の属性と前記第2の属性との関係性に基づき、前記第2の特徴量を前記第1の属性に関する第1の特徴量に変換する変換処理とを実行する情報処理装置。
【0134】
なお、この情報処理装置は、更にメモリを備えていてもよく、このメモリには、前記特徴量算出処理と、前記変換処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。
【符号の説明】
【0135】
1 情報処理装置
11 特徴量算出部
12 変換部
2 情報処理装置
201 特徴量算出部
202 変換規則生成部
203 変換部
204 類似データ抽出部
211 データセット(第1のデータセット、第2のデータセット)
212 変換規則