特許7686923 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7686923情報処理装置、情報処理方法及び情報処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-05-26

(45)【発行日】2025-06-03

(54)【発明の名称】情報処理装置、情報処理方法及び情報処理プログラム

(51)【国際特許分類】

G06F 16/2455 20190101AFI20250527BHJP

【ＦＩ】

G06F16/2455

【請求項の数】 9

(21)【出願番号】P 2024502726

(86)(22)【出願日】2022-02-28

(86)【国際出願番号】 JP2022008227

(87)【国際公開番号】W WO2023162206

(87)【国際公開日】2023-08-31

【審査請求日】2024-07-30

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100103894

【弁理士】

【氏名又は名称】家入健

(72)【発明者】

【氏名】林勝悟

(72)【発明者】

【氏名】小山田昌史

(72)【発明者】

【氏名】草野元紀

【審査官】早川学

(56)【参考文献】

【文献】特開２０１９－１８５２４４（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１７／００９１２７４（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０２１／０３７４１８６（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０２１／０３７４１６４（ＵＳ，Ａ１）

【文献】特開２０２１－１７４３００（ＪＰ，Ａ）

【文献】特表２０２２－５１０８１８（ＪＰ，Ａ）

【文献】LI, Yuliang et al.，Deep Entity Matching with Pre-Trained Language Models，Cornell University，2020年09月02日，pp.1-15，[検索日 2022.05.02], Internet:<URL: https://arxiv.org/pdf/2004.00584.pdf>

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１６／００－１６／９５８

(57)【特許請求の範囲】

【請求項1】

レコード対を取得する取得手段と、
前記レコード対を変換することによって変換済レコード対を生成する変換手段と、
前記変換済レコード対をモデルに入力することによって、前記変換済レコード対に関する類似度を算出する類似度算出手段と、
前記類似度算出手段が算出した類似度を出力する出力手段と
を備え、
前記変換手段は、前記レコード対の特徴に応じて複数のモデル候補からモデルを選択し、選択したモデルの入力に対応する形式に当該レコード対を変換することによって前記変換済レコード対を生成する、
情報処理装置。

【請求項2】

レコード対を取得する取得手段と、
前記レコード対を変換することによって変換済レコード対を生成する変換手段と、
前記変換済レコード対をモデルに入力することによって、前記変換済レコード対に関する類似度を算出する類似度算出手段と、
前記類似度算出手段が算出した類似度を出力する出力手段と、
を備え、
前記モデルには、画像分類モデルが含まれており、
前記変換手段による変換処理には、前記レコード対を画像に変換することによって前記変換済レコード対を生成する処理が含まれる
情報処理装置。

【請求項3】

レコード対を取得する取得手段と、
前記レコード対を変換することによって変換済レコード対を生成する変換手段と、
前記変換済レコード対をモデルに入力することによって、前記変換済レコード対に関する類似度を算出する類似度算出手段と、
前記類似度算出手段が算出した類似度を出力する出力手段と、
を備え、
前記モデルには、音声分類モデルが含まれており、
前記変換手段による変換処理には、前記レコード対を音声に変換することによって前記変換済レコード対を生成する処理が含まれる
情報処理装置。

【請求項4】

レコード対を取得する取得手段と、
前記レコード対を変換することによって変換済レコード対を生成する変換手段と、
前記変換済レコード対をモデルに入力することによって、前記変換済レコード対に関する類似度を算出する類似度算出手段と、
前記類似度算出手段が算出した類似度を出力する出力手段と、
を備え、
前記モデルには、グラフ分類モデルが含まれており、
前記変換手段による変換処理には、前記レコード対をグラフに変換することによって前記変換済レコード対を生成する処理が含まれる、
情報処理装置。

【請求項5】

レコード対を取得する取得手段と、
前記レコード対を変換することによって変換済レコード対を生成する変換手段と、
前記変換済レコード対をモデルに入力することによって、前記変換済レコード対に関する類似度を算出する類似度算出手段と、
前記類似度算出手段が算出した類似度を出力する出力手段と、
を備え、
前記取得手段は、補助レコードを更に取得し、
前記変換手段は、前記補助レコードを変換することによって変換済補助レコードを生成し、
前記類似度算出手段は、前記変換済レコード対及び前記変換済補助レコードを前記モデルに入力することによって、前記変換済レコード対に関する類似度を算出する
情報処理装置。

【請求項6】

前記モデルには、質問文と応答文とを入力とする質問応答モデルが含まれており、
前記変換手段は、前記レコード対に含まれる一方のレコードを質問文に変換し、前記レコード対に含まれる他方のレコード及び前記補助レコードの各々を応答文に変換することによって前記変換済レコード対を生成する
請求項５に記載の情報処理装置。

【請求項7】

レコード対を取得する取得手段と、
前記レコード対を変換することによって変換済レコード対を生成する変換手段と、
前記変換済レコード対をモデルに入力することによって、前記変換済レコード対に関する類似度を算出する類似度算出手段と、
前記類似度算出手段が算出した類似度を出力する出力手段と、
を備え、
前記類似度算出手段は、前記レコード対に関して複数の類似度を算出し、
前記出力手段は、前記複数の類似度を統合して得られる統合後の類似度を出力し、
前記モデルは、当該モデルに入力される２つの要素の互いの入れ替えに対して非対称性を有するモデルであり、
前記類似度算出手段は、
前記モデルに対して、前記レコード対に含まれる２つのレコードを互いに入れ替えずに入力することによって第１の類似度を算出し、
前記モデルに対して、前記レコード対に含まれる２つのレコードを互いに入れ替えてから入力することによって第２の類似度を算出する
情報処理装置。

【請求項8】

少なくとも１つのプロセッサが、
レコード対を取得することと、
前記レコード対を変換することによって変換済レコード対を生成することと、
前記変換済レコード対をモデルに入力することによって、前記変換済レコード対に関する類似度を算出することと、
前記算出した類似度を出力することと
を含み、
前記変換済レコード対を生成する工程において、前記少なくとも１つのプロセッサが、前記レコード対の特徴に応じて複数のモデル候補からモデルを選択し、選択したモデルの入力に対応する形式に当該レコード対を変換することによって前記変換済レコード対を生成する、
情報処理方法。

【請求項9】

コンピュータに、
レコード対を取得する取得処理と、
前記レコード対を変換することによって変換済レコード対を生成する変換処理と、
前記変換済レコード対をモデルに入力することによって、前記変換済レコード対に関する類似度を算出する類似度算出処理と、
前記類似度算出処理において算出した類似度を出力する出力処理と
を実行させ、
前記変換処理は、前記レコード対の特徴に応じて複数のモデル候補からモデルを選択し、選択したモデルの入力に対応する形式に当該レコード対を変換することによって前記変換済レコード対を生成する、
情報処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。

【背景技術】

【0002】

異なるデータセットに格納されたレコードから同一の又は類似するレコードの組み合わせを特定して対応付ける処理が行われている。このような処理は名寄せ処理とも呼ばれる。名寄せ処理によりテーブルの一元管理及びデータの拡張等が可能となる。名寄せ処理を行う技術として、機械学習によるマッチングを行う技術がある。例えば、特許文献１には、レコード対の類似度を計算する類似度関数を複数用いてレコード対の類似度を計算し、訓練データを用いた教師あり機械学習により類似度の重みを学習する装置が記載されている。ここで、訓練データは、レコードの組み合わせとそれらが同一であるかどうかを示すラベルが付与されたデータセットである。また、非特許文献１には、教師あり機械学習により名寄せを行うＤＩＴＴＯと呼ばれる技術が記載されている。また、非特許文献２には、訓練データを用いない教師なし機械学習によりレコードを照合するＺｅｒｏＥＲと呼ばれる技術が記載されている。

【0003】

また、近年、機械学習により生成されるモデルとして言語モデル（例えば、非特許文献３～５）及び画像分類モデル（例えば、非特許文献６）等が提案されている。

【先行技術文献】

【特許文献】

【0004】

【文献】日本国特開２０１９－１８５２４４号公報

【非特許文献】

【0005】

【文献】Yuliang Li, et. al.，Deep Entity Matching with Pre-Trained Language Models，PVLDB 2021

【文献】Renzhi Wu, et. al.，ZeroER: Entity Resolution using Zero Labeled Examples，SIGMOD, 2020

【文献】Yinhan Liu, et. al.，RoBERTa: A Robustly Optimized BERT Pretraining Approach，arXiv 2019

【文献】Sinong Wang, et. al.，Entailment as Few-Shot Learner，arXiv 2021

【文献】Siddhant Garg, et. al.，TANDA: Transfer and Adapt Pre-Trained Transformer Models for Answer Sentence Selection，AAAI 2020

【文献】Kaiming He, et. al.，Deep Residual Learning for Image Recognition，CVPR 2016

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかしながら、教師あり機械学習は多量の訓練データを必要とするため、特許文献１及び非特許文献１に記載の技術においては、訓練データの収集のためのコスト及び時間がかさんでしまい、また異質データに対応できないという問題があった。ここで、異質データとは、レコードの組み合わせであり、データの形式が同一でないものを指す。また、非特許文献２に記載の教師なし機械学習であるＺｅｒｏＥＲでは、訓練データは不要であるものの、属性がアライメントされている必要があるため、属性が異なる異質データに対し適用できない、という問題があった。

【0007】

本発明の一態様は、上記の問題に鑑みてなされたものであり、その目的の一例は、レコード対の類似度を算出する技術として、レコード対に関する訓練データを必要とせず、かつ、異質データにも対応可能な技術を提供することである。

【課題を解決するための手段】

【0008】

本発明の一側面に係る情報処理装置は、レコード対を取得する取得手段と、前記レコード対を変換することによって変換済レコード対を生成する変換手段と、前記変換済レコード対をモデルに入力することによって、前記変換済レコード対に関する類似度を算出する類似度算出手段と、前記類似度算出手段が算出した類似度を出力する出力手段とを備える。

【0009】

本発明の一側面に係る情報処理方法は、少なくとも１つのプロセッサが、レコード対を取得することと、前記レコード対を変換することによって変換済レコード対を生成することと、前記変換済レコード対をモデルに入力することによって、前記変換済レコード対に関する類似度を算出することと、前記算出した類似度を出力することとを含む。

【0010】

本発明の一側面に係る情報処理プログラムは、コンピュータに、レコード対を取得する取得処理と、前記レコード対を変換することによって変換済レコード対を生成する変換処理と、前記変換済レコード対をモデルに入力することによって、前記変換済レコード対に関する類似度を算出する類似度算出処理と、前記類似度算出処理において算出した類似度を出力する出力処理とを実行させる。

【発明の効果】

【0011】

本発明の一態様によれば、レコード対の類似度を算出する技術として、レコード対に関する訓練データを必要とせず、かつ、異質データにも対応可能な技術を提供することができる。

【図面の簡単な説明】

【0012】

【図1】例示的実施形態１に係る情報処理装置の構成を示すブロック図である。

【図2】例示的実施形態１に係る情報処理方法の流れを示すフロー図である。

【図3】例示的実施形態２に係る情報処理装置の構成を示すブロック図である。

【図4】例示的実施形態２に係るレコードが含まれるデータの具体例を示す図である。

【図5】例示的実施形態２に係る情報処理装置が行う処理の流れの概要を示す図である。

【図6】例示的実施形態２に係る同一性の判定結果の具体例を示す図である。

【図7】例示的実施形態２に係る情報処理方法の流れを示すフロー図である。

【図8】例示的実施形態２に係る文書の含意関係を概略的に示す図である。

【図9】例示的実施形態２に係る変換部により変換された画像の一例を示す図である。

【図10】例示的実施形態３に係る情報処理装置の構成を示すブロック図である。

【図11】例示的実施形態３に係る情報処理方法の流れを示すフロー図である。

【図12】例示的実施形態３に係る質問応答モデルを用いた類似度の算出処理の概念図である。

【図13】例示的実施形態４に係る情報処理装置の構成を示すブロック図である。

【図14】例示的実施形態４に係る類似度算出部が算出する類似度の具体例を示す図である。

【図15】例示的実施形態４に係る類似度算出部が算出する類似度の具体例を示す図である。

【図16】例示的実施形態５に係る情報処理装置の構成を示すブロック図である。

【図17】例示的実施形態５に係る画面表示の具体例を示す図である。

【図18】グラフデータの一例を示す図である。

【図19】グラフデータベースの一例を示す図である。

【図20】学習済み変換器をモデルの出力の前後に設けた構成を概略的に示す図である。

【図21】各例示的実施形態に係る情報処理装置として機能するコンピュータの構成を示すブロック図である。

【発明を実施するための形態】

【0013】

〔例示的実施形態１〕
本発明の第１の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。

【0014】

＜情報処理装置１の構成＞
本例示的実施形態に係る情報処理装置１の構成について、図１を参照して説明する。図１は、情報処理装置１の構成を示すブロック図である。情報処理装置１は、レコード同士の類似度を算出する装置である。ここで、レコードは、類似度の算出対象であるデータの単位である。レコードが含まれるデータとしては、例えば、テーブルデータ等の構造データ、ＪＳＯＮ（JavaScript Object Notation：登録商標）又はＸＭＬ（Extensible Markup Language）等のデータ記述言語で記述された半構造データ、及び自然言語で記された文書を表す非構造データが挙げられる。レコードは一例として、テーブルの行であり、テーブルの列に対応する１又は複数の属性名及び属性値のセットを含む。また、レコードはグラフデータであってもよい。

【0015】

情報処理装置１は、取得部１１、変換部１２、類似度算出部１３及び出力部１４を備える。

【0016】

（取得部１１）
取得部１１は、レコード対を取得する。レコード対はレコードのセットであり、一例として、第１のテーブルに含まれるレコードと、第２のテーブルに含まれるレコードとのセットである。第１のテーブル及び第２のテーブルは、一例として、事業者の顧客情報を保存したテーブル、又は、商品情報を保存したテーブルである。ただし、第１のテーブル及び第２のテーブルは上述した例に限られず、他のテーブルであってもよい。また、第１のテーブルと第２のテーブルとは同じであってもよく、また、異なっていてもよい。

【0017】

レコード対に含まれる複数のレコードは、データ形式がそれぞれ異なっていてもよい。より具体的には例えば、レコードがテーブルの行である場合、レコードに含まれる属性名のうちの一部が異なっていてもよく、また、レコードに含まれる全ての属性名が異なっていてもよい。

【0018】

取得部１１は、記憶装置からレコード対を読み出すことによりレコード対を取得してもよく、また、通信インタフェースを介して接続された他の装置からレコード対を受信することによりレコード対を取得してもよい。また、取得部１１は、入出力インタフェースを介して入力装置から入力されたレコード対を取得してもよい。

【0019】

（変換部１２）
変換部１２は、上記レコード対を変換することによって変換済レコード対を生成する。変換部１２は、一例として、レコード対に含まれるレコードを文書、画像、音声又はグラフを表すデータに変換する。より具体的には、変換部１２は、一例として、レコードを肯定文又は質問文に変換する。ただし、変換部１２がレコード対を変換する手法は上述した例に限られず、変換部１２は他の手法によりレコード対を変換してもよい。

【0020】

（類似度算出部１３）
類似度算出部１３は、上記変換済レコード対をモデルに入力することによって、上記変換済レコード対に関する類似度を算出する。ここで、モデルは、類似度を算出するためのモデルであり、一例として、一般に公開されて任意のユーザが利用可能なモデルである。モデルは、機械学習により生成されたモデルであってもよく、また、人間が作成したルールベースのモデルであってもよい。具体的には、モデルは一例として、文書分類モデル、画像分類モデル、音声分類モデル、又はグラフ分類モデルである。文書分類モデルは、文書データを分類するモデルである。画像分類モデルは、画像データを分類するモデルである。音声分類モデルは、音声データを分類するモデルである。グラフ分類モデルは、グラフデータを分類するモデルである。

【0021】

文書分類モデルとしては、例えば、文書埋め込みモデル、含意認識モデル、言い換え予測モデル、質問応答モデル、及びマスク言語モデルが挙げられる。文書埋め込みモデルは、文書又は単語をベクトル空間に埋め込むモデルである。含意認識モデルは、複数の文書の含意関係を予測するモデルである。言い換え予測モデルは、２つの文書が言い換え表現かどうかを予測するモデルである。質問応答モデルは、質問に対し与えられた文書の中から回答を抽出し出力するモデルである。マスク言語モデルは、文書内のマスクに当てはまる単語を予測するためのモデルである。

【0022】

画像分類モデルとしては、例えば、画像埋め込みモデルが挙げられる。画像埋め込みモデルは、画像データをベクトル空間に埋め込むモデルである。音声分類モデルとしては、例えば、音声埋め込みモデルが挙げられる。音声埋め込みモデルは、音声データをベクトル空間に埋め込むモデルである。

【0023】

上記モデルの入力は、一例として、テキストデータ、画像データ、音声データ、グラフ、及びベクトルの少なくともいずれかを含む。上記モデルの出力は、一例として、ベクトル、又は確信度を示すスコアを含む。スコアは、一例として、文書の包含関係に関する確信度を示すスコア、又は、言い換え表現であるかの確信度を示すスコアである。ただし、モデルの入力及び出力は上述した例に限られず、他の情報を含んでいてもよい。

【0024】

上記モデルが機械学習により生成される場合、上記モデルとして、例えば、非特許文献３～５に記載の言語モデル、非特許文献６に記載の画像分類モデル、又は音声データを分類する音声分類モデル等が挙げられるが、これらに限られない。また、上記モデルは、情報処理装置１のメモリに記憶されていてもよいし、情報処理装置１と通信可能な他の装置に記憶されていてもよい。

【0025】

類似度は、レコード対に含まれるレコード同士の類似の度合いに関する情報であり、一例として、ベクトル対のコサイン類似度である。また、類似度は、モデルが出力するスコアから算出される値であってもよい。

【0026】

（出力部１４）
出力部１４は、類似度算出部１３が算出した類似度を出力する。出力部１４は、一例として、類似度を記憶装置に書き込むことにより出力してもよく、また、通信インタフェースを介して他の装置に類似度を送信することにより類似度を出力してもよい。また、出力部１４は、入出力インタフェースを介して接続された出力装置（図示略）に類似度を出力してもよい。出力装置は、一例として、ディスプレイ、プリンタ、プロジェクタ又はスピーカである。

【0027】

出力部１４が出力する類似度は、例えばテーブルの統合処理、又は情報検索処理に用いられる。テーブルの統合処理の場合、類似度算出部１３が算出した類似度に基づき同一であると予測されたレコードを連携することで、複数のテーブルを統合しデータの一元管理を行うことができる。また、情報検索において、検索キーとするレコード（例えば、ユーザにより指定されたレコード）と、所定のテーブルに登録された他の任意のレコードとのレコード対について類似度算出部１３が類似度の算出を行ってもよい。この場合、類似度算出部１３が算出した類似度に基づき同一であると予測されたレコード対に含まれるレコードを、検索結果として情報処理装置１が出力してもよい。これにより、検索キーであるレコードと連携されていないテーブルにおいても、検索キーによる検索処理が可能となる。

【0028】

＜情報処理装置１の効果＞
以上のように、本例示的実施形態に係る情報処理装置１においては、レコード対を取得する取得部１１と、上記レコード対を変換することによって変換済レコード対を生成する変換部１２と、上記変換済レコード対をモデルに入力することによって、上記変換済レコード対に関する類似度を算出する類似度算出部１３と、類似度算出部１３が算出した類似度を出力する出力部１４とを備える構成が採用されている。このため、本例示的実施形態に係る情報処理装置１によれば、レコード対の類似度を算出する技術として、レコード対に関する訓練データを必要とせず、かつ、異質データにも対応可能な技術を提供できるという効果が得られる。

【0029】

＜情報処理プログラム＞
上述の情報処理装置１の機能は、プログラムによって実現することもできる。本例示的実施形態に係る情報処理プログラムは、コンピュータに、レコード対を取得する取得処理と、上記レコード対を変換することによって変換済レコード対を生成する変換処理と、上記変換済レコード対をモデルに入力することによって、上記変換済レコード対に関する類似度を算出する類似度算出処理と、上記類似度算出処理において算出した類似度を出力する出力処理とを実行させる。

【0030】

＜情報処理方法Ｓ１の流れ＞
本例示的実施形態に係る情報処理方法Ｓ１の流れについて、図２を参照して説明する。図２は、情報処理方法Ｓ１の流れを示すフロー図である。情報処理方法Ｓ１における各ステップの実行主体は、情報処理装置１が備えるプロセッサであってもよいし、他の装置が備えるプロセッサであってもよく、各ステップの実行主体がそれぞれ異なる装置に設けられたプロセッサであってもよい。

【0031】

ステップＳ１１では、少なくとも１つのプロセッサが、レコード対を取得する。ステップＳ１２では、少なくとも１つのプロセッサが、上記レコード対を変換することによって変換済レコード対を生成する。ステップＳ１３では、少なくとも１つのプロセッサが、上記変換済レコード対をモデルに入力することによって、上記変換済レコード対に関する類似度を算出する。ステップＳ１４では、少なくとも１つのプロセッサが、上記算出した類似度を出力する。

【0032】

＜情報処理方法Ｓ１の効果＞
以上のように、本例示的実施形態に係る情報処理方法Ｓ１においては、少なくとも１つのプロセッサが、レコード対を取得することと、上記レコード対を変換することによって変換済レコード対を生成することと、上記変換済レコード対をモデルに入力することによって、上記変換済レコード対に関する類似度を算出することと、上記算出した類似度を出力することとを含む構成が採用されている。このため、本例示的実施形態に係る情報処理方法Ｓ１によれば、レコード対の類似度を算出する技術として、レコード対に関する訓練データを必要とせず、かつ、異質データにも対応可能な技術を提供できるという効果が得られる。

【0033】

〔例示的実施形態２〕
本発明の第２の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態１にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を繰り返さない。

【0034】

＜情報処理装置１Ａの概要＞
図３は、本例示的実施形態に係る情報処理装置１Ａの構成を示すブロック図である。情報処理装置１Ａは、レコード同士の同一性を判定する機能を有する。レコードが含まれるデータは、一例として、テーブルデータ等の構造データ、ＪＳＯＮ又はＸＭＬ等のデータ記述言語で記述された半構造データ、又は、自然言語で記された文書を表す非構造データである。

【0035】

図４は、レコードが含まれるデータの具体例を示す図である。図４において、データＤ１はテーブルである。この場合、レコードはテーブルの各行である。また、図４において、データＤ２は、マークアップ言語等のデータ記述言語で記述された半構造データである。この場合、レコードは一例としてウェブページである。データＤ３は、自然言語で記された文書を表す非構造データである。この場合、レコードは一例として、所定のファイル形式で生成されたファイルである。

【0036】

ここで、本例示的実施形態に係る情報処理装置１Ａが行う処理の概要について、図５を参照しつつ説明する。図５は、情報処理装置１Ａが行う処理の流れの概要を示す図である。情報処理装置１Ａは、大別して（ｉ）レコード対の生成処理、（ｉｉ）類似度の算出処理、及び（ｉｉｉ）同一性の判定処理、を行う。

【0037】

（ｉ）レコード対の生成処理において、情報処理装置１Ａは、複数のレコードｅを含む第１データｘと、複数のレコードｅ´を含む第２データｘ´とからレコード対を生成する。情報処理装置１Ａは一例として、第１データｘに含まれるレコードｅと第２データｘ´に含まれるレコードｅ´との全ての組み合わせを生成する。また、情報処理装置１Ａは、レコード対の生成において、ブロッキングと呼ばれる技術により第１データｘのレコードｅについての第２データｘ´の同一性判定の候補をしぼってもよい。

【0038】

（ｉｉ）類似度の算出処理において、情報処理装置１Ａは、レコード対に含まれるレコード同士の類似度を算出する。本例示的実施形態において、情報処理装置１Ａは、レコードを変換した変換済レコード対をモデルに入力することにより類似度を算出する。類似度の算出処理の詳細については後述する。

【0039】

（ｉｉｉ）同一性の判定処理において、情報処理装置１Ａは、算出した類似度に基づき、レコード対に含まれるレコード同士の同一性を判定する。一例として、情報処理装置１Ａは、類似度が閾値以上である場合にレコード同士が同一であると判定する。ただし、同一性の判定の手法は上述した手法に限定されず、情報処理装置１Ａは他の手法によりレコード同士の同一性を判定してもよい。

【0040】

図６は、同一性の判定結果の具体例を示す図である。図６において、テーブルＴＢＬ１は第１データｘの一例であり、複数の行及び複数の列を含む。また、テーブルＴＢＬ２は第２データｘ´の一例であり、複数の行及び複数の列を含む。テーブルＴＢＬ１及びテーブルＴＢＬ２において、レコードはテーブルの行である。テーブルＴＢＬ１はレコードｌ１、ｌ２、ｌ３及びｌ４を含み、テーブルＴＢＬ２はレコードｒ１、ｒ２、ｒ３を含む。

【0041】

図６の例では、情報処理装置１Ａは、上記（ｉ）～（ｉｉｉ）の処理により、レコードｌ１とレコードｒ２とが同一であると判定し、レコードｌ２とレコードｒ３とが同一であると判定し、レコードｌ３とレコードｒ１とが同一であると判定する。

【0042】

＜情報処理装置１Ａの構成＞
情報処理装置１Ａは、図３に示すように、制御部１０Ａ、記憶部２０Ａ、通信部３０Ａ及び入出力部４０Ａを備える。

【0043】

（通信部３０Ａ）
通信部３０Ａは、情報処理装置１Ａの外部の装置と通信回線を介して通信する。通信回線の具体的構成は本例示的実施形態を限定するものではないが、通信回線は一例として、無線ＬＡＮ（Local Area Network）、有線ＬＡＮ、ＷＡＮ（Wide Area Network）、公衆回線網、モバイルデータ通信網、又は、これらの組み合わせである。通信部３０Ａは、制御部１０Ａから供給されたデータを他の装置に送信したり、他の装置から受信したデータを制御部１０Ａに供給したりする。

【0044】

（入出力部４０Ａ）
入出力部４０Ａには、キーボード、マウス、ディスプレイ、プリンタ、タッチパネル等の入出力機器が接続される。入出力部４０Ａは、接続された入力機器から情報処理装置１Ａに対する各種の情報の入力を受け付ける。また、入出力部４０Ａは、制御部１０Ａの制御の下、接続された出力機器に各種の情報を出力する。入出力部４０Ａとしては、例えばＵＳＢ（Universal Serial Bus）などのインタフェースが挙げられる。

【0045】

（制御部１０Ａ）
制御部１０Ａは、図３に示すように、取得部１１、変換部１２、類似度算出部１３、出力部１４、同一性判定部１５Ａ及び統合部１６Ａを備える。

【0046】

（取得部１１）
本例示的実施形態において、取得部１１は、レコードｅを含む第１データｘとレコードｅ´を含む第２データｘ´とから、レコードｅとレコードｅ´を含むレコード対を生成する。ただし、取得部１１がレコード対を生成する処理を行わなくてもよい。取得部１１は、一例として、記憶部２０Ａ又は他の外部記憶装置からレコード対を読み出すことにより取得してもよく、また、通信部３０Ａを介して他の装置から受信されるレコード対を取得してもよい。また、取得部１１は、入出力部４０Ａに接続された入力装置から入力されるレコード対を取得してもよい。

【0047】

（変換部１２）
変換部１２は、レコード対を変換することによって変換済レコード対を生成する。変換部１２は一例として、レコード対に含まれるレコードを文書データ、画像データ、音声データ又はグラフに変換する。変換部１２が実行する変換処理については後述する。

【0048】

（類似度算出部１３）
類似度算出部１３は、上記変換済レコード対をモデルＭＡに入力することによって、上記変換済レコード対に関する類似度ｓを算出する。類似度ｓは、レコード対に含まれるレコード同士の類似の度合いに関する情報であり、一例として、ベクトル対のコサイン類似度、又は、モデルＭＡが出力するスコアに基づき計算される値である。類似度算出部１３が類似度ｓを算出する処理の詳細については後述する。

【0049】

（出力部１４）
出力部１４は、類似度算出部１３が算出した類似度ｓを出力する。出力部１４は、一例として、類似度を記憶部２０Ａに書き込むことにより出力する。ただし、出力部１４が類似度を出力する手法は上述した例に限定されず、他の手法により類似度ｓを出力してもよい。一例として、出力部１４は、通信部３０Ａを介して接続された他の装置に類似度を送信してもよく、また、入出力部４０Ａを介して接続された出力装置に類似度を出力してもよい。

【0050】

（同一性判定部１５Ａ）
同一性判定部１５Ａは、類似度ｓに基づきレコード対に含まれるレコード同士の同一性を判定する。一例として、同一性判定部１５Ａは、類似度ｓが閾値以上である場合にレコード同士が同一であると判定する。また、同一性判定部１５Ａは、類似度の上位ｘ個のレコード対を同一と判定する、といったように、レコード対を類似度の高い順位ソートした場合の順位に基づき同一性を判定してもよい。また、同一性判定部１５Ａは、一例として、安定結婚問題アルゴリズム等のマッチングアルゴリズムを適用して同一性を判定してもよい。

【0051】

また、同一性判定部１５Ａが同一性を判定する手法は上述した例に限られず、同一性判定部１５Ａは他の手法により同一性の判定を行ってもよい。一例として、同一性判定部１５Ａは、機械学習により生成された予測モデルにレコード対と類似度とを入力することによりレコード対の同一性予測を行ってもよい。この場合、予測モデルの入力は、一例として、レコード対と類似度とを含む。また、予測モデルの出力は、一例として、同一性の予測結果を含む。この場合、予測モデルの機械学習の手法は限定されず、一例として、決定木ベース、線形回帰、又はニューラルネットワークの手法が用いられてもよく、また、これらのうちの２以上の手法が用いられてもよい。

【0052】

（統合部１６Ａ）
統合部１６Ａは、同一性判定部１５Ａの判定結果に基づき、第１データｘと第２データｘ´とを統合する。統合部１６Ａは、一例として、レコード数を増やす、及び／又はデータの属性数を増やすことにより第１データｘと第２データｘ´とを統合する。統合部１６Ａが実行するデータ統合としては、例えば、（ｉ）エンティティ統合、（ｉｉ）データクレンジング、（ｉｉｉ）スキーママッチング、が挙げられる。（ｉ）エンティティ統合は、同一のレコード集合が与えられたときに異なる属性とその値の表記を統一することをいう。（ｉｉ）データクレンジングは、社名、住所、局番等の記載形式の違い（「（株）」と「株式会社」、等）を統一することをいう。（ｉｉｉ）スキーママッチングは、表記が異なる複数の属性のアライメント（マッチング）をとることをいう。

【0053】

（記憶部２０Ａ）
記憶部２０Ａには、第１データｘ及び第２データｘ´が記憶されるとともに、類似度算出部１３が算出する類似度ｓが記憶される。また、記憶部２０Ａには、モデルＭＡが記憶される。なお、モデルＭＡが記憶部２０Ａに記憶されているとは、モデルＭＡを規定するパラメータが記憶部２０Ａに記憶されていることをいう。

【0054】

（モデルＭＡ）
モデルＭＡは、類似度を算出するためのモデルであり、一例として、一般に公開されて任意のユーザが利用可能なモデルである。モデルＭＡは、機械学習により生成されたモデルであってもよく、また、人間が作成したルールベースのモデルであってもよい。

【0055】

モデルＭＡは一例として、文書分類モデル、画像分類モデル、音声分類モデル及びグラフ分類モデルの少なくともいずれかを含む。文書分類モデルとしては例えば、文書埋め込みモデル、含意認識モデル、言い換え予測モデル、及びマスク言語モデルが挙げられる。画像分類モデルとしては例えば、画像データをベクトル空間に埋め込む画像埋め込みモデルが挙げられる。音声分類モデルとしては例えば、音声データをベクトル空間に埋め込む音声埋め込みモデルが挙げられる。

【0056】

モデルＭＡの入力は、一例として、文書データ、画像データ、音声データ、グラフ、及びベクトルの少なくともいずれかを含む。モデルＭＡの出力は、一例として、ベクトル及びスコアの少なくともいずれかを含む。

【0057】

（文書分類モデルの例１：文書埋め込みモデル）
文書埋め込みモデルは、文書又は単語をベクトル空間に埋め込むモデルである。文書埋め込みモデルは、一例として非特許文献３に記載されたＲｏＢＥＲＴａにより生成される。文書埋め込みモデルの入力は、一例として文書又は単語（例えば、「老人男性が公園で歩いている。」という文）である。出力は、一例としてベクトルである。

【0058】

（文書分類モデルの例２：含意認識モデル）
含意認識モデルは「文書１であれば文書２である」という含意関係かどうかを予測するモデルである。含意認識モデルは、一例として非特許文献４に記載された技術により生成される。含意認識モデルの入力は、一例として２つの文書である。２つの文書は、例えば、「老人男性が公園で歩いている」という文書１、及び「男性が公園にいる」という文書２である。この場合、文書２は文書１を含意する。図８は、文書の含意関係を概略的に示す図である。図８の例では、文書２が文書１を含意する。

【0059】

また、含意認識モデルの出力は、一例として含意性スコアである。含意性スコアは、含意関係の確信度を示す数値であり、例えば０～１の実数である。含意性スコアは、一例として、値が大きいほど、含意関係の確信度が高いことを示す。

【0060】

（文書分類モデルの例３：言い換え予測モデル）
言い換え予測モデルは、２つの文書が言い換え表現かどうかを予測するモデルである。言い換え予測モデルは、一例として非特許文献３に記載されたＲｏＢＥＲＴａにより生成される。言い換え予測モデルの入力は、一例として２つの文書である。２つの文書は例えば「ＮＥＣはＩＴの会社である。」という文書１、及び「日本電気株式会社はＩＴ事業を行っている。」という文書２である。モデルの出力は、一例として、言い換えスコアを含む。言い換えスコアは、２つの文書が言い換え表現であることの確信度を示すスコアであり、一例として、０～１の実数である。言い換えスコアは、一例として、値が大きいほど２つの文書が言い換え表現であることの確信度が高いことを示す。

【0061】

（文書分類モデルの例４：マスク言語モデル）
マスク言語モデルは、文書内のマスクに当てはまる単語を予測するモデルである。マスク言語モデルは、一例として例えば非特許文献３に記載されたＲｏＢＥＲＴａにより生成されたモデルである。文書分類モデルの入力は、一例として、文書（例えば、「このピザはとても美味しい。私はこのピザが[mask]。」という文）である。モデルの出力は、単語（例えば、「好き」）とスコアとを含む。スコアは、その単語がマスクに当てはまる確信度を示す値であり、一例として、０～１の実数である。

【0062】

（画像分類モデル）
画像分類モデルは、画像を分類するモデルである。画像分類モデルは、一例として非特許文献６に記載された技術により生成されたモデルである。画像分類モデルの入力は、一例として、画像（例えば、犬の画像）である。また、モデルの中間出力は、一例として、画像のベクトル表現であり、モデルの出力は、一例として、ラベル（例えば、「犬」を示すラベル）とスコアである。スコアはラベルの確信度を示す値であり、例えば０～１の実数である。本例示的実施形態では、類似度算出部１３は、画像のベクトル表現を利用して類似度ｓを算出する。

【0063】

（音声分類モデル）
音声分類モデルは、音声を分類するモデルである。音声分類モデルの入力は、一例として音声データ（例えば犬の鳴き声）である。モデルの中間出力は、一例として音声のベクトル表現であり、モデルの出力は、一例としてラベル（例えば、音声が犬の鳴き声であることを示すラベル）とスコアである。スコアはラベルの確信度を示す値であり、例えば０～１の実数である。本例示的実施形態では、類似度算出部１３は、中間出力である音声のベクトル表現を利用して類似度ｓを算出する。

【0064】

（グラフ分類モデル）
グラフ分類モデルは、グラフを分類するモデルである。グラフ分類モデルの入力は、一例としてグラフデータ（例えば顔の特徴を表すグラフ）である。モデルの中間出力は、一例としてグラフのベクトル表現であり、モデルの出力は、一例としてラベル（例えば人物を示すラベル）とスコアである。スコアはラベルの確信度を示す値であり、例えば０～１の実数である。本例示的実施形態では、類似度算出部１３は、中間出力であるグラフのベクトル表現を利用して類似度ｓを算出する。

【0065】

＜情報処理方法Ｓ１００Ａの流れ＞
図７は、情報処理装置１Ａが実行する情報処理方法Ｓ１００Ａの流れを示すフロー図である。なお、情報処理方法Ｓ１００Ａに含まれるステップのうち、一部のステップは並行して又は順序を換えて実行されてもよい。また、既に説明した内容についてはその説明を繰り返さない。

【0066】

（ステップＳ１０１）
ステップＳ１０１において、取得部１１は、モデルＭＡを読み込む。本例示的実施形態において、モデルＭＡは、複数のモデル候補から選択されたものである。複数のモデル候補は、一例として、文書埋め込みモデル、含意認識モデル等の文書分類モデル、画像分類モデル、及び音声分類モデルの少なくともいずれかを含む。モデルＭＡの選択は、一例としてユーザ操作に基づき行われてもよく、また、所定のアルゴリズムに従って行われてもよい。モデルＭＡは、ひとつのモデルであってもよく、また、複数のモデルの集合であってもよい。

【0067】

（ステップＳ１０２）
ステップＳ１０２において、取得部１１は、レコード対を読み込む。レコード対に含まれるレコードｅとレコードｅ´とは、一例として、
ｅ＝（（ａ＿ｊ，ｖ＿ｊ））＿｛ｊ＝１，…，ｄ｝，
ｅ´＝（（ａ´＿ｊ，ｖ´＿ｊ））＿｛ｊ＝１，…，ｄ´｝
と表される。ここで、属性名ａ＿ｊ∈Ａ＿ｊであり、Ａ＿ｊは、一例として文字列空間である。属性値ｖ＿ｊ∈Ｖ＿ｊであり、Ｖ＿ｊは、一例として文字列空間又は実数空間である。この例で、図６のレコードｌ１は、
ｌ１＝（（title, sims 2 glamour life stuff pack），（manufacturer, aspyr media），（price, 24.99））であり、レコードｒ２は、
ｒ２＝（（title, aspyr media inc sims 2 glamour life stuff pack），（price, NaN））
である。

【0068】

本例示的実施形態において、取得部１１は、第１データｘ及び第２データｘ´からレコード対を生成する。取得部１１は、一例として、第１データｘに含まれるレコードｅと第２データｘ´に含まれるレコードｅ´の全ての組み合わせを生成する。また、取得部１１は、レコード対の生成において、ブロッキングと呼ばれる技術により第１データｘのレコードｅについての第２データｘ´の同一性判定の候補をしぼってもよい。

【0069】

（ステップＳ１０３）
ステップＳ１０３において、変換部１２は、レコード対（ｅ，ｅ´）をモデルＭＡの入力に対応する形式に変換することによって変換済レコード対を生成する。一例として、モデルＭＡには、文書分類モデルが含まれており、変換部１２による変換処理には、レコード対（ｅ，ｅ´）を文書に変換することによって変換済レコード対を生成する処理が含まれる。また、一例として、モデルＭＡには、画像分類モデルが含まれており、変換部１２による変換処理には、レコード対（ｅ，ｅ´）を画像に変換することによって変換済レコード対を生成する処理が含まれる。また、一例として、モデルＭＡには、音声分類モデルが含まれており、変換部１２による変換処理には、レコード対を音声に変換することによって変換済レコード対を生成する処理が含まれる。また、一例として、モデルＭＡには、グラフ分類モデルが含まれており、変換部１２による変換処理には、レコード対をグラフに変換することによって変換済レコード対を生成する処理が含まれる。

【0070】

（ステップＳ１０４）
ステップＳ１０４において、類似度算出部１３は、変換済レコード対をモデルＭＡに入力することによって、変換済レコード対に関する類似度ｓを算出する。

【0071】

（ステップＳ１０１～Ｓ１０４の処理例１～５）
ここで、ステップＳ１０１～Ｓ１０４の処理例として、処理例１～５を説明する。処理例１は、文書埋め込みモデルを用いる場合の処理例である。処理例２は、画像分類モデルを用いる場合の処理例である。処理例３は、音声分類モデルを用いる場合の処理例である。処理例４は、含意認識モデルを用いる場合の処理例である。処理例５は、言い換え予測モデルを用いる場合の処理例である。

【0072】

（処理例１：文書埋め込みモデル）
この例では、ステップＳ１０１において、取得部１１は、文書埋め込みモデルを読み込む。また、ステップＳ１０３において、変換部１２は、レコード対（ｅ，ｅ´）を文書対（ｔ，ｔ´）に変換する。変換部１２は、一例として、
ｅ＝（（title, sims 2 glamour life stuff pack），（manufacturer, aspyr media），（price, 24.99））
ｅ´＝（（title, aspyr media inc sims 2 glamour life stuff pack），（price, NaN））
であるレコードｅとレコードｅ´とを含むレコード対（ｅ，ｅ´）を、
ｔ＝“Title is sims 2 glamour life stuff pack. Manufacturer is aspyr media. Price is 24.99.”
ｔ´＝“Title is aspyr media inc sims 2 glamour life stuff pack.”
である文書ｔ及び文書ｔ´を含む文書対（ｔ，ｔ´）に変換する。

【0073】

また、ステップＳ１０４において、類似度算出部１３は、文書埋め込みモデルにより文書対（ｔ，ｔ´）をベクトル対（ｖ，ｖ´）に変換する。ここで、ｖ＝Ｍ（ｔ），ｖ´＝Ｍ（ｔ´）である。また、類似度算出部１３は、ベクトル対（ｖ，ｖ´）から類似度ｓを算出する。類似度ｓは、一例として、ｓ＝ｅｘｐ（－||ｖ－ｖ´||／ｃ）であり、ここでｃ＞０である。また、類似度ｓは、コサイン類似度ｓ＝ｖ＾Ｔｖ´／（||ｖ|| ||ｖ´||）であってもよい。ここで、＾Ｔは転置を表す記号である。

【0074】

（処理例２：画像埋め込みモデル）
この例では、ステップＳ１０１において、取得部１１は、画像埋め込みモデルを読み込む。ステップＳ１０３において、変換部１２は、レコード対（ｅ，ｅ´）を画像対（ｉ，ｉ´）に変換する。

【0075】

図９は、変換部１２により変換された画像の一例を示す図である。変換部１２は、一例として、
ｅ＝（（title, sims 2 glamour life stuff pack），（manufacturer, aspyr media），（price, 24.99））
ｅ´＝（（title, aspyr media inc sims 2 glamour life stuff pack），（price, NaN））
であるレコードｅとレコードｅ´とを含むレコード対（ｅ，ｅ´）を、図９に示す画像ｉ、ｉ´に変換する。

【0076】

また、ステップＳ１０４において、類似度算出部１３は、画像埋め込みモデルにより画像対（ｉ，ｉ´）をベクトル対（ｖ，ｖ´）に変換する。ここで、ｖ＝Ｍ（ｉ），ｖ´＝Ｍ（ｉ´）である。更に、類似度算出部１３は、ベクトル対（ｖ，ｖ´）から類似度ｓを算出する。類似度ｓは、一例として、＝ｅｘｐ（－||ｖ－ｖ´||／ｃ）であり、ここで、ｃ＞０である。

【0077】

画像埋め込みモデルを用いる場合において、変換部１２は、１つのレコードを１つの画像に変換してもよく、また、レコードに含まれる要素（例えば、単語）ごとに画像変換を行ってもよい。変換部１２が要素ごとに画像変換する場合、類似度算出部１３は、要素ごとの画像の集合を用いて類似度ｓを算出する。また、要素ごとに画像変換を行う場合において、変換部１２は、レコードの欠損値については画像変換しないようにしてもよい。

【0078】

（処理例３：音声埋め込みモデル）
この例では、ステップＳ１０１において、取得部１１は、音声埋め込みモデルを読み込む。また、ステップＳ１０３において、変換部１２は、レコード対（ｅ，ｅ´）を音声対（ｉ，ｉ´）に変換する。変換部１２は、一例として、
ｅ＝（（title, sims 2 glamour life stuff pack），（manufacturer, aspyr media），（price, 24.99））
ｅ´＝（（title, aspyr media inc sims 2 glamour life stuff pack），（price, NaN））
であるレコードｅとレコードｅ´とを含むレコード対（ｅ，ｅ´）を、レコードｅを読み上げた音声を表す音声データｉと、レコードｅ´を読み上げた音声を表す音声データｉ´とに変換する。

【0079】

また、ステップＳ１０４において、類似度算出部１３は、音声埋め込みモデルにより音声データ対（ｉ，ｉ´）をベクトル対（ｖ，ｖ´）に変換する。ここで、ｖ＝Ｍ（ｉ），ｖ´＝Ｍ（ｉ´）である。更に、類似度算出部１３は、ベクトル対（ｖ，ｖ´）から類似度ｓを算出する。類似度ｓは、一例として、＝ｅｘｐ（－||ｖ－ｖ´||／ｃ）であり、ここで、ｃ＞０である。

【0080】

（処理例４：含意認識モデル）
この例では、ステップＳ１０１において、取得部１１は、含意認識モデルを読み込む。また、ステップＳ１０３において、変換部１２は、レコード対（ｅ，ｅ´）を文書対（ｔ，ｔ´）に変換する。

【0081】

変換部１２は、一例として、
レコードｅ＝（（ａ＿ｊ，ｖ＿ｊ））＿｛ｊ＝１，…，ｄ｝を、
文書ｔ＝「ａ＿１ｉｓｖ＿１．… ａ＿ｄｉｓｖ＿ｄ．」に変換する。ただし、変換部１２は欠損値を文書ｔに含めない。

【0082】

変換部１２は、一例として、
ｅ＝（（title, sims 2 glamour life stuff pack），（manufacturer, aspyr media），（price, 24.99））
ｅ´＝（（title, aspyr media inc sims 2 glamour life stuff pack），（price, NaN））
であるレコードｅとレコードｅ´とを含むレコード対（ｅ，ｅ´）を、
ｔ＝“Title is sims 2 glamour life stuff pack. Manufacturer is aspyr media. Price is 24.99.”
ｔ´＝“Title is aspyr media inc sims 2 glamour life stuff pack.”
である文書ｔと文書ｔ´とを含む文書対（ｔ，ｔ´）に変換する。

【0083】

また、ステップＳ１０４において、類似度算出部１３は、含意認識モデルを用いて文書対（ｔ，ｔ´）の含意性スコアを計算する。更に、類似度算出部１３は、含意性スコアを用いて類似度ｓを算出する。類似度ｓは、一例として、ｓ＝Ｍ（ｔ，ｔ´）×Ｍ（ｔ´，ｔ）である。換言すると、類似度ｓは、「文書ｔであれば文書ｔ´である」という含意関係の含意性スコアＭ（ｔ，ｔ´）と、「文書ｔ´であれば文書ｔである」という含意関係の含意性スコアＭ（ｔ´，ｔ）との乗算値である。ただし、類似度ｓは上述した例に限られず、他の値であってもよい。類似度ｓは、例えば、含意性スコアＭ（ｔ，ｔ´）と含意性スコアＭ（ｔ´，ｔ）のうちの最大値、又は、含意性スコアＭ（ｔ，ｔ´）と含意性スコアＭ（ｔ´，ｔ）との和であってもよい。

【0084】

レコード対（ｅ，ｅ´）に含まれるレコードｅとレコードｅ´とが同一であれば、ｅ⊂ｅ´かつｅ´⊂ｅである。この処理例では、類似度算出部１３はこの関係を利用して類似性の算出を行う。

【0085】

（処理例５：言い換え予測モデル）
この例では、ステップＳ１０１において、取得部１１は言い換え予測モデルを読み込む。また、ステップＳ１０３において、変換部１２は、レコード対（ｅ，ｅ´）を文書対（ｔ，ｔ´）に変換する。

【0086】

変換部１２は、一例として、
レコードｅ＝（（ａ＿ｊ，ｖ＿ｊ））＿｛ｊ＝１，…，ｄ｝を、
文書ｔ＝「ｖ＿１ … ｖ＿ｄ」に変換する。ただし、変換部１２は欠損値を文書に含めない。

【0087】

変換部１２は、一例として、
ｅ＝（（title, sims 2 glamour life stuff pack），（manufacturer, aspyr media），（price, 24.99））
ｅ´＝（（title, aspyr media inc sims 2 glamour life stuff pack），（price, NaN））
であるレコードｅとレコードｅ´とを含むレコード対（ｅ，ｅ´）を、
ｔ＝“sims 2 glamour life stuff pack aspyr media 24.99”
ｔ´＝“aspyr media inc sims 2 glamour life stuff pack”
である文書ｔと文書ｔ´とを含む文書対（ｔ，ｔ´）に変換する。

【0088】

また、ステップＳ１０４において、類似度算出部１３は、言い換え予測モデルを用いて文書対（ｔ，ｔ´）の言い換えスコアを計算し、計算した言い換えスコアをレコード対の類似度ｓとする。すなわち、この処理例では、類似度算出部１３は、レコード対を言い換え表現かを問う形式に落とし込むことにより、類似度ｓを算出する。

【0089】

（ステップＳ１０５・Ｓ１０６）
ステップＳ１０５において、出力部１４は、類似度算出部１３が算出した類似度ｓを出力する。出力部１４は、一例として、類似度ｓを記憶部２０Ａに書き込むことにより出力する。ステップＳ１０６において、同一性判定部１５Ａは、類似度ｓに基づきレコード対に含まれるレコード同士の同一性を判定する。

【0090】

（ステップＳ１０７）
ステップＳ１０６において、統合部１６Ａは、同一性判定部１５Ａの判定結果を参照して、第１データｘと第２データｘ´とから統合済データを生成する。統合済データは、一例として、同一性判定部１５Ａが同一であると判定したレコード対に含まれるレコード同士を統合したレコードを含む。

【0091】

＜情報処理装置１Ａの効果＞
ところで、近年、自然言語処理及び画像処理分野の様々なタスク（テキスト分類、質問応答、画像分類など）に対して、巨大データセットで訓練された高精度なモデル（推論モデル）が公開され、応用されている。例えば、教師あり機械学習の名寄せモデルであるＤＩＴＴＯ（非特許文献１を参照。）は、ＢＥＲＴ（Bidirectional Encoder Representations from Transformers）の事前学習済み言語モデルを部分的に応用している。しかしながら、タスクによりデータの形式は様々であるため、既存の推論モデルだけで名寄せを行うことはできなかった。特に、想定されていない属性を含むレコードについて既存の推論モデルで名寄せを行うことはできなかった。

【0092】

それに対し本例示的実施形態によれば、情報処理装置１Ａはレコード対をモデルＭＡの入力に対応する形式に変換してモデルＭＡに入力することによってレコード対に関する類似度ｓを算出する。レコードを変換して名寄せタスクを自然言語処理分野又は画像処理分野等のタスクに落とし込むことにより、大量のデータで学習された推論モデルの活用を可能にする。すなわち、本例示的実施形態によれば、モデルＭＡの訓練データを必要とすることなく、かつ、様々な属性を有するレコードについて同一性を判定することができる。

【0093】

また、本例示的実施形態に係る情報処理装置１Ａにおいては、モデルＭＡは、複数のモデル候補から選択されたものであり、変換部１２は、レコード対（ｅ，ｅ´）をモデルＭＡの入力に対応する形式に変換することによって変換済レコード対を生成する構成が採用されている。変換部１２がレコード対を変換することにより、レコード対はモデルＭＡに入力可能な形式のデータとなる。すなわち、類似度の算出対象であるレコードがどのような属性を含む場合であっても、類似度算出部１３はモデルＭＡに変換済レコード対を入力することにより類似度ｓを算出することができる。これにより、本例示的実施形態に係る情報処理装置１Ａによれば、モデルＭＡの訓練データを必要とすることなく、モデルＭＡを用いて様々な属性を有するレコードについて類似度を算出することができるという効果が得られる。

【0094】

また、本例示的実施形態に係る情報処理装置１Ａにおいては、モデルＭＡには、文書分類モデルが含まれており、変換部１２による変換処理には、レコード対を文書に変換することによって変換済レコード対を生成する処理が含まれるという構成が採用されている。このため、本例示的実施形態に係る情報処理装置１Ａによれば、文書分類モデルであるモデルＭＡを訓練することなく、モデルＭＡを用いて様々な属性を有するレコードの類似度を算出できるという効果が得られる。

【0095】

また、本例示的実施形態に係る情報処理装置１Ａにおいては、モデルＭＡには、画像分類モデルが含まれており、変換部１２による変換処理には、レコード対を画像に変換することによって変換済レコード対を生成する処理が含まれるという構成が採用されている。情報処理装置１Ａがレコード対を画像に変換することにより、文字としては異なるが表記が似ているレコード同士の類似度をより好適に算出できる。例えば、「glamour」という単語を含むレコードと「glqmour」という単語を含むレコードの場合、レコードに含まれる文字列は異なっているものの、文字の形状が類似しているため、高い類似度が算出される。このように、本例示的実施形態に係る情報処理装置１Ａによれば、例示的実施形態１に係る情報処理装置１の奏する効果に加えて、文字の形状の類似の度合いを反映した類似度を算出できるという効果が得られる。

【0096】

また、本例示的実施形態に係る情報処理装置１Ａにおいては、モデルＭＡには、音声分類モデルが含まれており、変換部１２による変換処理には、レコード対を音声に変換することによって変換済レコード対を生成する処理が含まれるという構成が採用されている。情報処理装置１Ａがレコード対を音声に変換することにより、文字としては異なるが音素が似ているレコード同士の類似度をより好適に算出できる。例えば、「glamour」という単語を含むレコードと「glamar」という単語を含むレコードの場合、レコードに含まれる文字列は異なっているものの、単語の発音が類似しているため、高い類似度が算出される。このように、本例示的実施形態に係る情報処理装置１Ａによれば、例示的実施形態１に係る情報処理装置１の奏する効果に加えて、音の類似度の度合いを反映した類似度を算出できるという効果が得られる。

【0097】

また、本例示的実施形態に係る情報処理装置１Ａにおいては、モデルＭＡには、グラフ分類モデルが含まれており、変換部１２による変換処理には、レコード対をグラフに変換することによって変換済レコード対を生成する処理が含まれるという構成が採用されている。情報処理装置１Ａがレコード対をグラフに変換することにより、グラフ分類モデルであるモデルＭＡを訓練することなく、モデルＭＡを用いて様々な属性を有するレコードの類似度を算出できるという効果が得られる。

【0098】

〔例示的実施形態３〕
本発明の第３の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態１～２にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。

【0099】

＜情報処理装置１Ｂの構成＞
図１０は、本例示的実施形態に係る情報処理装置１Ｂの構成を示すブロック図である。情報処理装置１Ｂの制御部１０Ｂは、取得部１１Ｂ、変換部１２Ｂ、類似度算出部１３Ｂ、出力部１４、同一性判定部１５Ａ、及び統合部１６Ａを備える。また、記憶部２０Ｂは、第１データｘ、第２データｘ´及び類似度ｓに加えてモデルＭＢを記憶する。

【0100】

取得部１１Ｂは、レコード対（ｅ，ｅ´）に加えて、補助レコードを更に取得する。補助レコードは、レコード対（ｅ，ｅ´）の類似度を計算するために用いられる補助的なレコードである。補助レコードは、一例として、第１データｘに含まれるレコードであってレコード対（ｅ，ｅ´）に含まれるレコードｅ以外のレコードである。また、補助レコードは、一例として、第２データｘ´に含まれるレコードであってレコード対（ｅ，ｅ´）に含まれるレコードｅ´以外のレコードである。

【0101】

変換部１２Ｂは、取得部１１Ｂが取得したレコード対を変換して変換済レコード対を生成する。また、変換部１２Ｂは、補助レコードを変換することによって変換済補助レコードを生成する。変換部１２Ｂは、一例として、補助レコードを文書、画像、音声、又はグラフを表すデータに変換する。

【0102】

より具体的には、変換部１２Ｂは、一例として、レコード対（ｅ，ｅ´）に含まれる一方のレコードｅを質問文に変換し、レコード対（ｅ，ｅ´）に含まれる他方のレコードｅ及び補助レコードの各々を応答文に変換することによって上記変換済レコード対を生成する。

【0103】

類似度算出部１３Ｂは、変換済レコード対及び変換済補助レコードをモデルＭＢに入力することによって、変換済レコード対に関する類似度を算出する。モデルＭＢは、一例として、質問文と応答文とを入力とする質問応答モデルを含む。

【0104】

（質問応答モデル）
質問応答モデルは、質問文に対し与えられた文書の中から回答文を抽出して出力するモデルである。質問応答モデルは、一例として非特許文献５に記載されたＴＡＮＤＡと呼ばれる技術により生成されたモデルである。質問応答モデルの入力は、一例として、質問文と、文書とを含む。質問文は、一例として「ＮＥＣの本社はどこですか？」という文である。文書は、一例として「日本電気株式会社（にっぽんでんき、英: NEC Corporation）は、東京都港区芝五丁目に本社を置く住友グループの電機メーカー。日経平均株価の構成銘柄の一つ。」という文書である。

【0105】

モデルの出力は、一例として、回答文及びスコアを含む。回答文は、一例として「東京都港区芝五丁目」という文である。スコアは一例として、０～１の実数である。ここで、モデルの出力を求める際に、各単語のスコアが計算されてもよい。例えば、質問応答モデルにより、日本電気株式会社」のスコア「0.1」、「住友グループ」のスコア「0.02」、及び「日経平均株価」のスコア「0.08」が計算される。

【0106】

＜情報処理方法Ｓ１００Ｂの流れ＞
図１１は、情報処理装置１Ｂが実行する情報処理方法Ｓ１００Ｂの流れを示すフロー図である。なお、一部のステップは並行して、又は順序を換えて実行されてもよい。また、既に説明した内容についてはその説明を繰り返さない。

【0107】

情報処理方法Ｓ１００Ｂは、ステップＳ１０１Ｂ、ステップＳ１０２、ステップＳ１０２Ｂ、ステップＳ１０３Ｂ、ステップＳ１０４Ｂ、ステップＳ１０５、ステップＳ１０６、及びステップＳ１０７を含む。

【0108】

ステップＳ１０１Ｂにおいて、取得部１１ＢはモデルＭＢを読み込む。ステップＳ１０２Ｂにおいて、取得部１１Ｂは補助レコードを読み込む。

【0109】

ステップＳ１０３Ｂにおいて、変換部１２Ｂは、レコード対を変換することによって変換済レコード対を生成するとともに、補助レコードを変換することによって変換済補助レコードを生成する。ステップＳ１０４Ｂにおいて、類似度算出部１３Ｂは、変換済レコード対及び変換済補助レコードをモデルＭＢに入力することによって、変換済レコード対に関する類似度を算出する。

【0110】

（ステップＳ１０１～Ｓ１０４Ｂの処理例６：質問応答モデル）
ここで、ステップＳ１０１からＳ１０４Ｂの処理例として、質問応答モデルを用いる場合の処理例を説明する。この例では、ステップＳ１０１において、類似度算出部１３Ｂは、質問応答モデルを読み込む。また、ステップＳ１０２及びＳ１０２Ｂにおいて、取得部１１Ｂは、レコード対（ｅ，ｅ´）及び補助レコードＲ＝｛ｅ＿１，…，ｅ＿ｋ｝（ｋは自然数）を読み込む。補助レコードＲは、一例として、第２データｘ´に含まれる全てのレコードの集合である。ただし、補助レコードＲは上述した例に限られず、他のレコードの集合であってもよい。例えば、補助レコードＲは、第２データｘ´から乱択アルゴリズムにより選択されたレコードの集合であってもよい。また、補助レコードＲは、第２データｘ´からレコードｅと共通する単語を含むレコードを抽出したレコード集合等、ブロッキングされたレコード集合であってもよい。

【0111】

この処理例において、補助レコードＲは、レコード対（ｅ，ｅ´）に含まれるレコードｅ´を含む。補助レコードは、一例として、図６のテーブルＴＢＬ２のレコードｒ１～ｒ３の集合、すなわち、
Ｒ＝｛((title, adobe photoshop elements 4.0 photo-editing software for mac), (price, 85.95)), ((title, aspyr media inc sims 2 glamour life stuff pack), (price, NaN)), ((title, final-draft final draft av 2.5 screenwriting software mac/win screen writing software), (price, 199.95))｝
である。

【0112】

この処理例では、ステップＳ１０３Ｂにおいて、変換部１２Ｂは、レコードｅと補助レコードＲ（ｅ´∈Ｒ）とを変換する。より具体的には、変換部１２Ｂは、レコードｅを質問文ｑ＝Ｔ１（ｅ）に変換する。ここで、質問文ｑは、いわゆる５Ｗ１Ｈのオープンクエスチョン型が好ましい。また、変換部１２Ｂは、補助レコードＲを複数の回答文を含む文書に変換する。

【0113】

変換部１２Ｂは、一例として、レコードｅ＝（（a_1, v_1），…，（a_d, v_d））を、
Ｔ１（ｅ）＝“What is characterized as v_1 of a_1, … and v_d of a_d?’’
に変換する。また、変換部１２Ｂは、補助レコードＲ＝｛ｅ＿１，…，ｅ＿ｋ｝を、文書Ｔ２（Ｒ）＝“T3(e_1). T3(e_2). … T3(e_k).’’
に変換する。ここで、文書Ｔ２（Ｒ）に含まれる回答文Ｔ３（ｅ＿ｊ）（１≦ｊ≦ｋ）は、
Ｔ３（ｅ＿ｊ）＝``{ID of e_j} is characterized as v_1 of a_1, …, and v_d of a_d’’
である。ここで、｛ID of e_j｝は、レコードｅ＿ｊ∈Ｒに割り当てられる固有のＩＤである。ただし、変換部１２Ｂは、変換の際に欠損値を文書に含めない。

【0114】

変換部１２Ｂは、一例として、
ｅ＝（（title, sims 2 glamour life stuff pack），（manufacturer, aspyr media），（price, 24.99））
を、
ｑ＝“What is characterized as title of sims 2 glamour life stuff pack, manufacturer of aspyr media, and price of 24.99?”
に変換する。また、補助レコードＲ＝｛((title, adobe photoshop elements 4.0 photo-editing software for mac), (price, 85.95)), ((title, aspyr media inc sims 2 glamour life stuff pack), (price, NaN)), ((title, final-draft final draft av 2.5 screenwriting software mac/win screen writing software), (price, 199.95))｝
を、文書ｃ＝“r1 is characterized as title of adobe photoshop elements 4.0 photo-editing software for mac and price of 85.95. r2 is characterized as title of aspyr media inc sims 2 glamour life stuff pack. r3 is characterized as title of final-draft final draft av 2.5 screenwriting software mac/win screen writing software and price of 199.95.”
に変換する。

【0115】

また、ステップＳ１０４Ｂにおいて、類似度算出部１３Ｂは、質問応答モデルに質問文ｑと文書ｃとを入力する。質問応答モデルは、入力された質問文ｑの回答が文書ｃから抽出した回答文Ｔ３（ｅ＿ｊ）（１≦ｊ≦ｋ）である確信度を示すスコアを出力する。類似度算出部１３Ｂは、質問応答モデルが出力したスコアに基づき類似度ｓを算出する。類似度ｓは、一例として、ＭＢ（ｑ，ｃ，｛ID of ｅ´｝）、すなわちレコード対（ｅ，ｅ´）に含まれるレコードｅ´が回答文である確信度である。ただし、類似度ｓはこの例に限られず、類似度算出部１３Ｂは他の手法により類似度ｓを算出してもよい。類似度算出部１３Ｂは、一例として、レコードｅを質問文にした際のスコアと、レコードｅ´を質問文にした際のスコアとの和を類似度としてもよい。

【0116】

図１２は、質問応答モデルを用いた類似度の算出処理の概念図である。図１２の例では、変換部１２Ｂがレコードｅと補助レコードＲとを質問文と文書に変換し、類似度算出部１３Ｂが質問文と文書とを質問応答モデルであるモデルＭＢに入力することにより、類似度ｓを算出する。このように、本処理例では、情報処理装置１Ｂは、レコードを質問応答の形式に落とし込むことによって、レコードの類似度を算出する。

【0117】

＜情報処理装置１Ｂの効果＞
以上のように、本例示的実施形態に係る情報処理装置１Ｂにおいては、取得部１１Ｂは補助レコードを更に取得し、変換部１２Ｂは補助レコードを変換することによって変換済補助レコードを生成し、類似度算出部１３Ｂは上記変換済レコード対及び上記変換済補助レコードをモデルＭＢに入力することによって、上記変換済レコード対に関する類似度を算出する構成が採用されている。このため、本例示的実施形態に係る情報処理装置１Ｂによれば、モデルＭＢを訓練することなく、モデルＭＢを用いて様々な属性を有するレコードについて類似度を算出できるという効果が得られる。

【0118】

また、本例示的実施形態に係る情報処理装置１Ｂにおいては、モデルＭＢには、質問文と応答文とを入力とする質問応答モデルが含まれており、変換部１２Ｂは、上記レコード対に含まれる一方のレコードを質問文に変換し、上記レコード対に含まれる他方のレコード及び上記補助レコードの各々を応答文に変換することによって上記変換済レコード対を生成するという構成が採用されている。このため、本例示的実施形態に係る情報処理装置１Ｂによれば、質問応答モデルを訓練することなく、様々な属性を有するレコードについて質疑応答モデルを用いて類似度を算出できるという効果が得られる。

【0119】

〔例示的実施形態４〕
本発明の第４の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態１～３にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。

【0120】

＜情報処理装置１Ｃの構成＞
図１３は、本例示的実施形態に係る情報処理装置１Ｃの構成を示すブロック図である。情報処理装置１Ｃの制御部１０Ｃは、取得部１１、変換部１２、類似度算出部１３Ｃ、類似度統合部１７Ｃ、出力部１４Ｃ、同一性判定部１５Ａ及び統合部１６Ａを備える。また、記憶部２０Ｃは、第１データｘ、第２データｘ´及び類似度ｓに加えてモデルＭＣを記憶する。

【0121】

（類似度算出部１３Ｃ）
類似度算出部１３Ｃは、ひとつのレコード対（ｅ，ｅ´）に関して複数の類似度ｓｉを算出する。類似度算出部１３Ｃは、一例として、モデルＭＣに対して、レコード対（ｅ，ｅ´）に含まれる２つのレコードを互いに入れ替えずに入力することによって第１の類似度ｓ１を算出する。また、類似度算出部１３Ｃは、モデルＭＣに対して、レコード対（ｅ，ｅ´）に含まれる２つのレコードを互いに入れ替えてから入力することによって第２の類似度ｓ２を算出する。

【0122】

上述の例示的実施形態２で説明した処理例４～５、及び例示的実施形態３で説明した処理例６では、レコード対（ｅ，ｅ´）の類似度は、レコード対（ｅ´，ｅ）の類似度と異なる。そこで、本例示的実施形態では、類似度算出部１３Ｃは、レコード対（ｅ，ｅ´）の類似度とレコード対（ｅ´，ｅ）の類似度とをそれぞれ算出し、それらの類似度を参照して同一性を判定する。

【0123】

ただし、類似度算出部１３Ｃが複数の類似度ｓｉを算出する手法は上述した例に限られず、類似度算出部１３Ｃは他の手法により複数の類似度ｓｉを算出してもよい。例えば、類似度算出部１３Ｃは複数のモデルを用いて複数の類似度ｓｉを算出してもよい。この場合、例えば、変換部１２が１つのレコード対に対して複数の変換を施し、類似度算出部１３Ｃが変換後のレコード対をそれぞれのモデル（文書分類モデル、画像分類モデル、・・・）に入力することにより、複数の類似度ｓｉを算出してもよい。

【0124】

また、類似度算出部１３Ｃは、ひとつのレコード対を複数の変換方法で変換することにより複数の変換済レコード対を生成し、複数の変換済レコード対をひとつのモデルに入力することにより、複数の類似度ｓｉを算出してもよい。

【0125】

（類似度統合部１７Ｃ）
類似度統合部１７Ｃは、複数の類似度ｓｉを統合して統合後の類似度ｓとする。類似度統合部１７Ｃは、一例として、複数の類似度ｓｉの平均又は加重平均をとることによって統合後の類似度ｓを算出する。ただし、類似度統合部１７Ｃが複数の類似度ｓｉを統合する手法は上述した例に限られず、類似度統合部１７Ｃは他の手法により統合後の類似度ｓを算出してもよい。例えば、類似度統合部１７Ｃは、複数の類似度ｓｉの総和又は積算値を統合後の類似度ｓとしてもよい。

【0126】

本明細書において、類似度統合部１７Ｃは、対象レコード対に関する複数の類似度ｓｉに基づき、当該対象レコード対に関する同一性を判定する構成であるともいえる。

【0127】

（出力部１４Ｃ）
出力部１４Ｃは、上記複数の類似度ｓｉを統合して得られる統合後の類似度ｓを出力する。出力部１４Ｃは、一例として、記憶部２０Ｃに類似度ｓを書き込むことにより出力する。

【0128】

（モデルＭＣ）
モデルＭＣは、類似度を算出するためのモデルである。モデルＭＣは、一例として、当該モデルに入力される２つの要素の互いの入れ替えに対して非対称性を有するモデルである。モデルＭＣは、一例として、含意認識モデル、言い換え予測モデル、及び質問応答モデルの少なくともいずれかひとつを含む。

【0129】

図１４は、類似度算出部１３Ｃが算出する類似度ｓｉの具体例を示す図である。図１４において、レコード対（Ｌ１，Ｒ１）について類似度算出部１３Ｃが算出した第１の類似度ｓ１は「９」であり、２つのレコードを互いに入れ替えたレコード対（Ｒ１，Ｌ１）について類似度算出部１３Ｃが算出した第２の類似度ｓ２は「１０」である。このように、類似度算出部１３Ｃはひとつのレコード対について第１の類似度ｓ１と第２の類似度ｓ２とを算出し、同一性判定部１５Ａは第１の類似度ｓ１と第２の類似度ｓ２とが共に他のレコード対と比較して最も高ければレコードが同一であると判定する。図１４の例では、同一性判定部１５Ａは、レコードＬ１とレコードＲ１が同一であると判定するとともに、レコードＬ２とレコードＲ３が同一であると判定する。

【0130】

図１５は、類似度算出部１３Ｃが算出する類似度ｓｉの他の例を示す図である。図１５において、類似度統合部１７Ｃは、双方向の類似度を集約する。類似度統合部１７Ｃは、一例として、レコード対（Ｌ１，Ｒ１）の類似度ｓ１と、レコード対（Ｒ１，Ｌ１）の類似度ｓ２との和を類似度ｓとする。図１５の例では、レコード対（Ｌ１，Ｒ１）の類似度ｓは「１０」と「９」の和、すなわち「１９」であり、レコード対（Ｌ１，Ｒ２）の類似度ｓは「９」と「７」の和、すなわち「１６」である。また、レコード対（Ｌ２，Ｒ２）の類似度ｓは「９」と「４」との和、すなわち「１３」であり、レコード対（Ｌ２，Ｒ３）の類似度ｓは「８」と「８」との和、すなわち「１６」である。

【0131】

図１５の例では、同一性判定部１５Ａは、図１４の例と同様に、レコードＬ１とレコードＲ１が同一であると判定するとともに、レコードＬ２とレコードＲ３が同一であると判定する。この例では更に、同一性判定部１５Ａは、同一であると判定したレコード対の中で類似度ｓが所定の閾値以上であるレコード対についても、同一であると判定する。ここで、閾値は例えば、同一であると判定されたレコード対の類似度ｓのうちの最小値（図１５の例では、「１３」）である。閾値は、同一と非同一の割合が既知であるなら、その割合に基づいて決められてもよい。図１５の例において閾値が「１３」である場合、同一性判定部１５Ａは、類似度ｓが「１３」以上であるレコード対、すなわち類似度ｓが「１６」であるレコード対（Ｌ１，Ｒ２）についてもレコード同士が同一であると判定する。

【0132】

＜情報処理装置１Ｃの効果＞
以上のように、本例示的実施形態に係る情報処理装置１Ｃにおいては、類似度算出部１３Ｃは、上記レコード対に関して複数の類似度ｓｉを算出し、出力部１４Ｃは、複数の類似度ｓｉを統合して得られる統合後の類似度ｓを出力する構成が採用されている。このため、本例示的実施形態に係る情報処理装置１Ｃによれば、レコード対の類似度ｓをより精度よく算出できるという効果が得られる。

【0133】

また、本例示的実施形態に係る情報処理装置１Ｃにおいては、モデルＭＣは、当該モデルに入力される２つの要素の互いの入れ替えに対して非対称性を有するモデルであり、類似度算出部１３Ｃは、モデルＭＣに対して、レコード対（ｅ，ｅ´）に含まれる２つのレコードを互いに入れ替えずに入力することによって第１の類似度ｓ１を算出し、モデルＭＣに対して、レコード対（ｅ，ｅ´）に含まれる２つのレコードを互いに入れ替えてから入力することによって第２の類似度ｓ２を算出する構成が採用されている。このため、本例示的実施形態に係る情報処理装置１Ｃによれば、第１の類似度ｓ１と第２の類似度ｓ２とを統合することにより、レコードの類似度ｓをより精度よく算出できるという効果が得られる。

【0134】

〔例示的実施形態５〕
本発明の第５の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態１～３にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。

【0135】

＜情報処理装置１Ｄの構成＞
図１６は、本例示的実施形態に係る情報処理装置１Ｄの構成を示すブロック図である。情報処理装置１Ｄの制御部１０Ｄは、取得部１１、変換部１２、類似度算出部１３、出力部１４、同一性判定部１５Ａ及び検索結果出力部１８Ｄを備える。

【0136】

本例示的実施形態に係る取得部１１は、レコード対（ｅ，ｅ´）に含まれる第１のレコードｅとして、ユーザからの入力データを取得する。ユーザからの入力データは、一例として、入出力部４０Ａに接続された入力装置（例えば、キーボード、マウス、等）により入力される。

【0137】

また、取得部１１は、レコード対（ｅ，ｅ´）に含まれる第２のレコードｅ´として、対象データに含まれる複数のレコードの１つを取得する。対象データは、検索対象のデータであり、一例として、１又は複数のテーブルを含む。

【0138】

同一性判定部１５Ａは、第１のレコードｅと、対象データに含まれる複数のレコードの各々とのレコード対に対して同一性予測を行う。

【0139】

検索結果出力部１８Ｄは、類似度算出部１３が算出した類似度ｓに基づき、入力データに基づく検索結果であって、対象データを検索対象とする検索結果を出力する。検索結果出力部１８Ｄは、一例として、同一性判定部１５Ａの判定結果を参照して、入力データに基づく検索結果であって、対象データを検索対象とする検索結果を出力する。検索結果出力部１８Ｄは、一例として、入出力部４０Ａに接続された出力装置（ディスプレイ、プリンタ、等）に検索結果を出力する。また、検索結果出力部１８Ｄは、通信部３０Ａを介して接続された他の装置に検索結果を送信することにより、検索結果を出力してもよい。また、検索結果出力部１８Ｄは、検索結果を記憶部２０Ａ又は外部記憶装置に記憶することにより検索結果を出力してもよい。

【0140】

図１７は、検索結果出力部１８Ｄが出力する画面表示の具体例を示す図である。図１７の例で、入力データは、ユーザがテキストボックス５１に入力する文字列であり、対象データは複数のレコードを有するテーブルＴ１及びテーブルＴ２である。同一性判定部１５Ａは、ユーザの入力データである第１のレコードｅと、テーブルＴ１に含まれるレコード及びテーブルＴ２に含まれるレコードｅ´の各々とのレコード対に対して同一性を判定する。

【0141】

図１７の例において、検索結果出力部１８Ｄは、同一性判定部１５Ａの判定結果を参照して、入力データに基づく検索結果５３、及び検索結果５４を出力する。検索結果５３は、「ポテチ」の文字列を入力データとして、テーブルＴ１から検索された検索結果である。検索結果５４は、「ポテチ」の文字列を入力データとして、テーブルＴ２から検索された検索結果である。

【0142】

＜情報処理装置１Ｄの効果＞
以上のように、本例示的実施形態に係る情報処理装置１Ｄにおいては、同一性判定部１５Ａの判定結果を参照して、入力データに基づく検索結果であって、対象データを検索対象とする検索結果を出力する構成が採用されている。このため、本例示的実施形態に係る情報処理装置１Ｄによれば、例示的実施形態１に係る情報処理装置１の奏する効果に加えて、入力データに基づく対象データからの検索をより好適に行うことができるという効果が得られる。

【0143】

情報処理装置１Ｄは、以下のようにも記載され得る。
ユーザからの入力データと、対象データに含まれる複数のレコードの１つとをレコード対として取得する取得手段と、
前記レコード対を変換することによって変換済レコード対を生成する変換手段と、
前記変換済レコード対をモデルに入力することによって、変換済レコード対に関する類似度を算出する類似度算出手段と、
前記類似度算出手段が算出した類似度を参照して、前記入力データに基づく検索結果であって、前記対象データを検索対象とする検索結果を出力する出力手段と、
を備えている情報処理装置。

【0144】

〔変形例〕
＜変形例１＞
上述の各例示的実施形態では、情報処理装置１、１Ａ、１Ｂ、１Ｃ、１Ｄ（以下「情報処理装置１等」という）は、第１データｘに含まれるレコードｅと第２データｘ´に含まれるレコードｅ´との同一性を判定した。情報処理装置１等が判定の対象とする複数のレコードはそれぞれ異なるデータに含まれるレコードであってもよく、また、共通のデータに含まれるレコードであってもよい。換言すると、情報処理装置１等は、１つのデータベースから同一のレコードを探し出す処理を実行してもよい。また、上述の例示的実施形態では、第１データｘと第２データｘ´とを統合する場合について説明したが、情報処理装置１等は３つ以上のデータを統合してもよい。

【0145】

＜変形例２＞
上述の各例示的実施形態において、情報処理装置１等が複数のモデル候補からモデルＭＡ、ＭＢ、ＭＣ（以下「モデルＭ」という）を選択してもよく、また、ユーザが複数のモデル候補からモデルＭを選択してもよい。情報処理装置１等がモデルＭを選択するアルゴリズムは限定されないが、一例として、情報処理装置１等はルールベースでモデルＭを選択してもよい。例えば、情報処理装置１等はレコード対の特徴に応じてモデルＭを選択してもよい。ここで、レコード対の特徴は、一例として、レコード対に含まれるレコードの属性、レコードのデータサイズ、レコードが属するデータベースの種別、データベースの属性を含む。

【0146】

＜変形例３＞
上述の各例示的実施形態において、レコードｅ、ｅ´が含まれるデータは、ＪＳＯＮ又はＸＭＬ等の半構造データであってもよい。半構造データに上記例示的実施形態に係る情報処理装置を適用することにより、書類データ又はウェブページの同一性判定を行うことができる。例えば、住宅情報を提供する住宅情報サイトにおいては、同一の物件についてのウェブページが複数作成されている場合がある。この場合、ウェブページについて同一性判定を行うことにより、ウェブページを物件ごとにまとめることができる。

【0147】

この例において、レコードは一例として、対象であるサイトに含まれるウェブページである。例えば、レコードｅ＝{id1: value1, id2: {id2-1: value2-1, id2-2: value2-1}, id3: value3}
である場合、変換後の文書は、一例として、
“id1 is value1. id2-1 of id2 is value2-1. id2-2 of id2 is value2-1. id3 is value3.”
である。

【0148】

＜変形例４＞
また、本明細書に係るレコードは、例えば図１８に示すようなグラフデータであってもよい。図１８は、グラフデータの一例を示す図である。グラフデータに本明細書に係る情報処理装置１等を適用することにより、例えば顔照合を行うことができる。例えば、レコードが図１８に示すグラフである場合、変換後の文書は、一例として、
“1 and 2 are linked. 1 and 4 are linked. 2 and 3 are linked. 2 and 4 are linked.”
である。

【0149】

＜変形例５＞
また、レコードが含まれるデータは、例えば図１９に示すようなグラフデータベースであってもよい。グラフデータベースに本明細書に係る情報処理装置１等を適用することにより、例えば異なるＳＮＳ（Social Networking Service）のコミュニティの同一性を判定することができ、例えば犯罪組織の調査に応用できる。この例で、グラフデータベースが図１９に示すものである場合、変換後の文書は一例として、
“Taro of age 23 follows Sakura of age 26. Taro of age 23 follows Emi of age 25. Sakura of age 26 follows Emi of age 25. Sakura of age 26 wrote via smartphone tweet of text “I’m sleepy.” date 20XX/YY/ZZ. Emi of age 25 follows Sakura of age 26. Emi of age 25 follows Taro of age 23.”
である。

【0150】

＜変形例６＞
上述の各例示的実施形態において、情報処理装置１等がモデルＭを学習する学習フェーズを実行する構成であってもよい。モデルＭの機械学習の手法は限定されないが、一例として、決定木ベース、線形回帰、又はニューラルネットワークの手法が用いられてもよく、また、これらのうちの２以上の手法が用いられてもよい。

【0151】

＜変形例７＞
上述の各例示的実施形態において、モデルＭの出力の前後に、学習可能なパラメータを備えた変換器を加える構成としてもよい。図２０は、学習可能なパラメータを備えた学習済み変換器１２１、１２２をモデルＭの出力の前後に設けた構成を概略的に示す図である。学習済み変換器１２１、１２２は学習可能なパラメータを備え、学習部（図示略）が訓練データを用いてレコード変換の仕方（文章の作り方又は補助レコードの数、等）、及び／又は、変換のパラメータを最適化するモデルである。学習済み変換器１２１、１２２を設けることにより、レコードの類似度をより精度よく算出することができる。

【0152】

学習済み変換器１２１、１２２の機械学習の手法は限定されないが、一例として、決定木ベース、線形回帰、又はニューラルネットワークの手法が用いられてもよく、また、これらのうちの２以上の手法が用いられてもよい。また、学習済み変換器１２１、１２２は能動学習により生成されたモデルであってもよい。

【0153】

〔ソフトウェアによる実現例〕
情報処理装置１、１Ａ、１Ｂ、１Ｃ、１Ｄの一部又は全部の機能は、集積回路（ＩＣチップ）等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。

【0154】

後者の場合、情報処理装置１、１Ａ、１Ｂ、１Ｃ、１Ｄは、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例（以下、コンピュータＣと記載する）を図１８に示す。コンピュータＣは、少なくとも１つのプロセッサＣ１と、少なくとも１つのメモリＣ２と、を備えている。メモリＣ２には、コンピュータＣを情報処理装置１、１Ａ、１Ｂ、１Ｃ、１Ｄとして動作させるためのプログラムＰが記録されている。コンピュータＣにおいて、プロセッサＣ１は、プログラムＰをメモリＣ２から読み取って実行することにより、情報処理装置１、１Ａ、１Ｂ、１Ｃ、１Ｄの各機能が実現される。

【0155】

プロセッサＣ１としては、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphic Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＭＰＵ（Micro Processing Unit）、ＦＰＵ（Floating point number Processing Unit）、ＰＰＵ（Physics Processing Unit）、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリＣ２としては、例えば、フラッシュメモリ、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、又は、これらの組み合わせなどを用いることができる。

【0156】

なお、コンピュータＣは、プログラムＰを実行時に展開したり、各種データを一時的に記憶したりするためのＲＡＭ（Random Access Memory）を更に備えていてもよい。また、コンピュータＣは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータＣは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。

【0157】

また、プログラムＰは、コンピュータＣが読み取り可能な、一時的でない有形の記録媒体Ｍに記録することができる。このような記録媒体Ｍとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータＣは、このような記録媒体Ｍを介してプログラムＰを取得することができる。また、プログラムＰは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータＣは、このような伝送媒体を介してプログラムＰを取得することもできる。

【0158】

〔付記事項１〕
本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。

【0159】

〔付記事項２〕
上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。
（付記１）
レコード対を取得する取得手段と、
前記レコード対を変換することによって変換済レコード対を生成する変換手段と、
前記変換済レコード対をモデルに入力することによって、前記変換済レコード対に関する類似度を算出する類似度算出手段と、
前記類似度算出手段が算出した類似度を出力する出力手段と、
を備えている情報処理装置。

【0160】

（付記２）
前記モデルは、複数のモデル候補から選択されたものであり、
前記変換手段は、前記レコード対を前記モデルの入力に対応する形式に変換することによって前記変換済レコード対を生成する、
付記１に記載の情報処理装置。

【0161】

（付記３）
前記モデルには、文書分類モデルが含まれており、
前記変換手段による変換処理には、前記レコード対を文書に変換することによって前記変換済レコード対を生成する処理が含まれる、
付記１又は２に記載の情報処理装置。

【0162】

（付記４）
前記モデルには、画像分類モデルが含まれており、
前記変換手段による変換処理には、前記レコード対を画像に変換することによって前記変換済レコード対を生成する処理が含まれる、
付記１から３の何れか１つに記載の情報処理装置。

【0163】

（付記５）
前記モデルには、音声分類モデルが含まれており、
前記変換手段による変換処理には、前記レコード対を音声に変換することによって前記変換済レコード対を生成する処理が含まれる、
付記１から４の何れか１つに記載の情報処理装置。

【0164】

（付記６）
前記モデルには、グラフ分類モデルが含まれており、
前記変換手段による変換処理には、前記レコード対をグラフに変換することによって前記変換済レコード対を生成する処理が含まれる、
付記１から５の何れか１つに記載の情報処理装置。

【0165】

（付記７）
前記取得手段は、補助レコードを更に取得し、
前記変換手段は、前記補助レコードを変換することによって変換済補助レコードを生成し、
前記類似度算出手段は、前記変換済レコード対及び前記変換済補助レコードを前記モデルに入力することによって、前記変換済レコード対に関する類似度を算出する、
付記１から６の何れか１つに記載の情報処理装置。

【0166】

（付記８）
前記モデルには、質問文と応答文とを入力とする質問応答モデルが含まれており、
前記変換手段は、前記レコード対に含まれる一方のレコードを質問文に変換し、前記レコード対に含まれる他方のレコード及び前記補助レコードの各々を応答文に変換することによって前記変換済レコード対を生成する、
付記７に記載の情報処理装置。

【0167】

（付記９）
前記類似度算出手段は、前記レコード対に関して複数の類似度を算出し、
前記出力手段は、前記複数の類似度を統合して得られる統合後の類似度を出力する、
付記１から８の何れか１つに記載の情報処理装置。

【0168】

（付記１０）
前記モデルは、当該モデルに入力される２つの要素の互いの入れ替えに対して非対称性を有するモデルであり、
前記類似度算出手段は、
前記モデルに対して、前記レコード対に含まれる２つのレコードを互いに入れ替えずに入力することによって第１の類似度を算出し、
前記モデルに対して、前記レコード対に含まれる２つのレコードを互いに入れ替えてから入力することによって第２の類似度を算出する、
付記９に記載の情報処理装置。

【0169】

（付記１１）
少なくとも１つのプロセッサが、
レコード対を取得することと、
前記レコード対を変換することによって変換済レコード対を生成することと、
前記変換済レコード対をモデルに入力することによって、前記変換済レコード対に関する類似度を算出することと、
前記算出した類似度を出力することと、
を含む情報処理方法。

【0170】

（付記１２）
コンピュータに、
レコード対を取得する取得処理と、
前記レコード対を変換することによって変換済レコード対を生成する変換処理と、
前記変換済レコード対をモデルに入力することによって、前記変換済レコード対に関する類似度を算出する類似度算出処理と、
前記類似度算出処理において算出した類似度を出力する出力処理と、
を実行させる情報処理プログラム。

【0171】

（付記１３）
ユーザからの入力データと、対象データに含まれる複数のレコードの１つとをレコード対として取得する取得手段と、
前記レコード対を変換することによって変換済レコード対を生成する変換手段と、
前記変換済レコード対をモデルに入力することによって、変換済レコード対に関する類似度を算出する類似度算出手段と、
前記類似度算出手段が算出した類似度を参照して、前記入力データに基づく検索結果であって、前記対象データを検索対象とする検索結果を出力する出力手段と、
を備えている情報処理装置。

【0172】

〔付記事項３〕
上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。

【0173】

少なくとも１つのプロセッサを備え、前記プロセッサは、レコード対を取得する取得処理と、前記レコード対を変換することによって変換済レコード対を生成する変換処理と、前記変換済レコード対をモデルに入力することによって、前記変換済レコード対に関する類似度を算出する類似度算出処理と、前記類似度算出処理において算出した類似度を出力する出力処理とを実行する情報処理装置。

【0174】

なお、この情報処理装置は、更にメモリを備えていてもよく、このメモリには、前記取得処理と、前記変換処理と、前記類似度算出処理と、前記出力処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。

【符号の説明】

【0175】

１、１Ａ、１Ｂ、１Ｃ、１Ｄ情報処理装置
１１、１１Ｂ取得部
１２、１２Ｂ変換部
１３、１３Ｂ、１３Ｃ類似度算出部
１４、１４Ｃ出力部
１６Ａ統合部

【図1】