(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022176389
(43)【公開日】2022-11-28
(54)【発明の名称】名寄せ処理装置、名寄せリストの作成方法、及び名寄せ処理方法
(51)【国際特許分類】
G06F 16/36 20190101AFI20221118BHJP
G06Q 50/18 20120101ALI20221118BHJP
【FI】
G06F16/36
G06Q50/18 310
【審査請求】未請求
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2021082844
(22)【出願日】2021-05-15
(71)【出願人】
【識別番号】720008911
【氏名又は名称】IPDefine株式会社
(74)【代理人】
【識別番号】100190274
【弁理士】
【氏名又は名称】山下 滋之
(72)【発明者】
【氏名】岡本 光弘
【テーマコード(参考)】
5B175
5L049
【Fターム(参考)】
5B175DA01
5B175GB04
5B175HB03
5L049CC33
(57)【要約】
【課題】企業名間の類似性の程度にかかわらず高精度な名寄せを実現する名寄せ処理装置、名寄せ処理プログラム、記録媒体、名寄せリストの作成方法、及び名寄せ処理方法を提供すること。
【解決手段】名寄せ処理装置は、知財データベースにアクセスし、リスト化の対象とされている複数の産業財産権に関する情報に含まれる名称データ及びファミリーIDを収集し、収集した複数の名称データをファミリーIDに基づいて整理して名寄せリストを作成する。知財データベースは、1の発明又は考案に係る出願人又は権利者を示す1又は複数の名称データに1つのファミリーIDが紐づけられたものである。
【選択図】
図1
【特許請求の範囲】
【請求項1】
1の発明又は考案に係る出願人又は権利者を示す1又は複数の名称データに1つのファミリーIDが紐づけられた知財データベースにアクセスし、リスト化の対象とされている複数の産業財産権に関する情報に含まれる前記名称データ及びファミリーIDを収集し、収集した複数の前記名称データをファミリーIDに基づいて整理して名寄せリストを作成する制御部を有する、名寄せ処理装置。
【請求項2】
前記制御部は、
前記名称データの取捨選択を行うための抽出条件に従って、同一の出願人又は権利者を示す1又は複数の前記名称データを抽出し、抽出した前記名称データに固有の識別情報を付与することにより前記名寄せリストを作成するものである、請求項1に記載の名寄せ処理装置。
【請求項3】
前記制御部は、
同一のファミリーIDが紐付く1又は複数の名称データで構成される名称データ群のうち、任意の前記名称データを含む全ての前記名称データ群を選定すると共に、選定した全名称データ群における各名称データそれぞれの出現率を求め、前記出現率に対応する前記抽出条件に従って、同一の出願人又は権利者を示す1又は複数の前記名称データを抽出するものである、請求項2に記載の名寄せ処理装置。
【請求項4】
前記制御部は、
同一のファミリーIDが紐付く1又は複数の名称データで構成される名称データ群のうち、任意の複数の前記名称データのうちの少なくとも1つを含む全ての前記名称データ群を選定すると共に、選定した全名称データ群における各名称データそれぞれの出現率を求め、前記出現率を用いた前記抽出条件に従って、同一の出願人又は権利者を示す1又は複数の前記名称データを抽出するものである、請求項2に記載の名寄せ処理装置。
【請求項5】
前記制御部は、
企業名を示す複数の企業データを含む依頼情報を前記名寄せリストと照合し、同一の識別情報が紐付く名称データと一致する前記企業データに対し共通データを付与して整理する提供手段を有する、請求項2~4の何れか一項に記載の名寄せ処理装置。
【請求項6】
前記提供手段は、
前記照合の際、前記名寄せリスト内の各名称データの何れとも一致しない前記企業データのうち、前記名寄せリスト内に類似する名称データが存在するものについては、その類似する名称データに紐付く識別情報に基づいて整理するものである、請求項5に記載の名寄せ処理装置。
【請求項7】
前記制御部は、
企業名を示す複数の企業データがリスト化された外部データベースを前記名寄せリストと照合し、同一の識別情報が紐付く名称データと一致する前記外部データベース内の前記企業データに対し共通データを付与して整理するものである、請求項2~4の何れか一項に記載の名寄せ処理装置。
【請求項8】
前記制御部は、
前記照合の際、前記知財データベース内の各名称データの何れとも一致しない前記企業データのうち、前記知財データベース内に類似する名称データが存在するものについては、その類似する名称データに紐付く識別情報に基づいて整理するものである、請求項7に記載の名寄せ処理装置。
【請求項9】
企業名を示す複数の企業データがリスト化された外部データベースを、1の発明又は考案に係る出願人又は権利者を示す1又は複数の名称データに1つのファミリーIDが紐づけられた知財データベースと照合し、同一のファミリーIDが紐付く名称データと一致する前記外部データベース内の前記企業データに対し共通データを付与して整理する制御部を有する、名寄せ処理装置。
【請求項10】
前記制御部は、
前記照合の際、前記知財データベース内の各名称データの何れとも一致しない前記企業データのうち、前記知財データベース内に類似する名称データが存在するものについては、その類似する名称データに紐付くファミリーIDに基づいて整理するものである、請求項9に記載の名寄せ処理装置。
【請求項11】
1の発明又は考案に係る出願人又は権利者を示す1又は複数の名称データに1つのファミリーIDが紐づけられた知財データベースにアクセスし、リスト化の対象とされている複数の産業財産権に関する情報に含まれる前記名称データ及びファミリーIDを収集し、
収集した複数の前記名称データをファミリーIDに基づいて整理して名寄せリストを作成する、名寄せリストの作成方法。
【請求項12】
企業名を示す複数の企業データがリスト化された外部データベースを、1の発明又は考案に係る出願人又は権利者を示す1又は複数の名称データに1つのファミリーIDが紐づけられた知財データベースと照合し、
同一のファミリーIDが紐付く前記名称データと一致する前記外部データベース内の前記企業データに対し共通データを付与して整理する、名寄せ処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、企業名等の名寄せを行う名寄せ処理装置、名寄せリストの作成方法、及び名寄せ処理方法に関する。
【背景技術】
【0002】
金融機関などの企業のデータベースには、企業名や個人名に紐付けて様々な情報が格納されている。こうしたデータベースでは、会社名の略称の存在、社名変更、会社の合併に伴うデータ統合、又は入力ミスなどに起因する表記ゆれにより、同じ企業が別の企業として管理されていることがある。
【0003】
かかる状況は、企業の社会的な信用やマーケティングのROI(Return On Investment:投資収益率)の低下等に繋がるため、従来から、同一企業に共通の名称や識別情報を付与する名寄せ処理が行われている(例えば、特許文献1参照)。特許文献1のシステムは、1つの企業が複数の口座を持っているような場合に、口座名義間の表記ゆれを修正して、同一企業の入出金情報の一元管理を図ろうとするものである。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1の名寄せ条件データは、法人の表記ゆれ解消、アルファベットの共通化、支店名の削除等の簡易なクレンジングにしか対応していない。つまり、特許文献1のような従来の手法では、名称間の類似性が低い場合、すなわち名称間の共通点が少ない場合には、名寄せが困難となる。特にグローバル企業にあっては、企業名の表記が各国で異なるのが通常であり、各国の企業名間の類似性が低いケースも多い。こうした実情から、同一企業に異なる名称が紐付けられ、かつ名称間の類似性が低いような場合でも、高精度な名寄せを実現する手法が望まれている。
【0006】
本発明は、上述のような課題を解決するためになされたもので、企業名間の類似性の程度にかかわらず高精度な名寄せを実現する名寄せ処理装置、名寄せリストの作成方法、及び名寄せ処理方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の一態様に係る名寄せ処理装置は、1の発明又は考案に係る出願人又は権利者を示す1又は複数の名称データに1つのファミリーIDが紐づけられた知財データベースにアクセスし、リスト化の対象とされている複数の産業財産権に関する情報に含まれる名称データ及びファミリーIDを収集し、収集した複数の名称データをファミリーIDに基づいて整理して名寄せリストを作成する制御部を有するものである。
【0008】
本発明の一態様に係る名寄せ処理装置は、企業名を示す複数の企業データがリスト化された外部データベースを、1の発明又は考案に係る出願人又は権利者を示す1又は複数の名称データに1つのファミリーIDが紐づけられた知財データベースと照合し、同一のファミリーIDが紐付く名称データと一致する外部データベース内の企業データに対し共通データを付与して整理する制御部を有するものである。
【0009】
本発明の一態様に係る名寄せリストの作成方法は、1の発明又は考案に係る出願人又は権利者を示す1又は複数の名称データに1つのファミリーIDが紐づけられた知財データベースにアクセスし、リスト化の対象とされている複数の産業財産権に関する情報に含まれる名称データ及びファミリーIDを収集し、収集した複数の名称データをファミリーIDに基づいて整理して名寄せリストを作成する、という手法を採っている。
【0010】
本発明の一態様に係る名寄せ処理方法は、企業名を示す複数の企業データがリスト化された外部データベースを、1の発明又は考案に係る出願人又は権利者を示す1又は複数の名称データに1つのファミリーIDが紐づけられた知財データベースと照合し、
同一のファミリーIDが紐付く名称データと一致する外部データベース内の企業データに対し共通データを付与して整理する、という手法を採っている。
【発明の効果】
【0011】
本発明は、1の発明又は考案に係る出願人又は権利者を示す1又は複数の名称データに1つのファミリーIDが紐づけられた知財データベースを活用した名寄せ処理を行うようになっている。昨今は、多くの企業が同じ発明等を複数の国へ特許出願等しており、このような特許出願のまとまりのことをパテントファミリーという。ファミリーIDは、パテントファミリー間に共通に付与される識別情報であり、企業名の表記がどんなにかけ離れていても、同一の企業には同一のファミリーIDが付与される。したがって、本発明によれば、企業名間の類似性の程度にかかわらず、高精度な名寄せ処理を実現することができる。
【図面の簡単な説明】
【0012】
【
図1】本発明の実施の形態1に係る名寄せ処理装置及びその周辺構成を例示したブロック図である。
【
図2】
図1の名寄せ処理装置が抽出した複数の名称データとそれらに紐付くファミリーIDとを例示した表である。
【
図3】
図1の名寄せ処理装置が作成する名寄せリストの一例を示す表である。
【
図4】
図1の名寄せ処理装置が抽出した1つの企業等に対応する複数の名称データとそれらに紐付くファミリーIDとの一例を示す表である。
【
図5】
図1の名寄せ処理装置が最多抽出条件に従って作成した名寄せリストの一例を示す表である。
【
図6】
図1の名寄せ処理装置が全抽出条件又は出現率条件に従って作成した名寄せリストの一例を示す表である。
【
図7】
図1の名寄せ処理装置が抽出した1つの企業等に対応する複数の名称データとそれらに紐付くファミリーIDとの他の例を示す表である。
【
図8】
図1の名寄せ処理装置が抽出した1つの企業等に対応する複数の名称データとそれらに紐付くファミリーIDとの例示であって、共同出願の相手先企業等の名称データを含む表である。
【
図9】本発明の実施の形態1に係る名寄せリストの作成方法及び名寄せ処理方法の動作例を示すフローチャートである。
【
図10】本発明の実施の形態1の変形例1に係る名寄せ処理装置及びその周辺構成を例示したブロック図である。
【
図11】本発明の実施の形態1の変形例1に係る名寄せリストの作成方法及び名寄せ処理方法の動作例を示すフローチャートである。
【
図12】
図10の名寄せ処理装置が名寄せリスト内の名称データと企業データベース内の名称データとの照合処理を行っている様子を例示した説明図である。
【
図13】
図10の名寄せ処理装置が名寄せリストに企業データを追加した様子を例示した説明図である。
【
図14】本発明の実施の形態1の変形例2に係る名寄せ処理装置及びその周辺構成を例示したブロック図である。
【
図15】本発明の実施の形態1の変形例2に係る名寄せ処理方法の動作例を示すフローチャートである。
【
図16】
図14の名寄せ処理装置が名寄せリスト内の名称データと企業データベース内の名称データとの照合処理を行っている様子を例示した説明図である。
【
図17】
図14の名寄せ処理装置が同一の識別情報の紐付く名称データと一致する企業データに固有の共通データを付与した様子を例示した説明図である。
【
図18】
図14の名寄せ処理装置が名寄せリスト内の名称データと類似する企業データに共通データを付与した様子を例示した説明図である。
【
図19】本発明の実施の形態2に係る名寄せ処理装置及びその周辺構成を例示したブロック図である。
【
図20】本発明の実施の形態2に係る名寄せ処理方法の動作例を示すフローチャートである。
【
図21】
図19の名寄せ処理装置が知財データベース内の名称データと外部入力した企業データとの照合処理を行っている様子を例示した説明図である。
【
図22】本発明の実施の形態3に係る名寄せ処理装置及びその周辺構成を例示したブロック図である。
【
図23】本発明の実施の形態3に係る名寄せ処理方法の動作例を示すフローチャートである。
【
図24】
図22の名寄せ処理装置が知財データベース内の名称データと企業データベース内の企業データとの照合処理を行っている様子を例示した説明図である。
【
図25】
図22の名寄せ処理装置が知財データベース内の名称データと一致する企業データを企業データベース内で整理した様子を例示した説明図である。
【
図26】
図22の名寄せ処理装置が知財データベース内の名称データと類似する企業データを企業データベース内で整理した様子を例示した説明図である。
【発明を実施するための形態】
【0013】
実施の形態1.
図1を参照して、本実施の形態1における名寄せ処理装置及びその周辺構成の一例について説明する。
図1に示すように、名寄せ処理装置10は、インターネットなどのネットワークNを介して管理端末50及び情報提供サーバ500と通信可能に接続されている。管理端末50は、例えば名寄せ処理装置10内のソフトウェア及びデータなどを管理する企業が使用するPC(Personal Computer)である。PCには、タブレットPC、ノートPC、デスクトップ型PCなどが含まれる。
【0014】
情報提供サーバ500は、世界各国の特許庁などが運営するサーバ装置であり、例えばAPI(Application Programming Interface)を通じて産業財産権に関する情報を提供するものである。情報提供サーバ500は、複数の産業財産権に関する情報を格納する知財データベース510を有している。知財データベース510では、1の発明又は考案に係る出願人又は権利者を示す1又は複数の名称データに1つのファミリーIDが紐づけられている。つまり、産業財産権に関する情報では、少なくとも、出願番号と名称データとファミリーIDとが紐付けられている。以降では、発明又は考案のことを「発明等」ともいい、出願人又は権利者のことを「出願人等」ともいう。情報提供サーバ500は、クラウドコンピューティングに基づくクラウドサーバ、もしくはオンプレミス型の物理サーバ、又はこれらを組み合わせたシステムなどにより構成される。
【0015】
産業財産権とは、知的財産権のうちの、特許権、実用新案権、意匠権、及び商標権のことであるが、本実施の形態1では、特に特許権及び実用新案権のことを指す。産業財産権に関する情報は、原則として1つの出願に対応し、権利化された出願(存続期間満了等により消滅したものも含む)に関する情報だけでなく、権利化されなかった出願に関する情報や、権利化前の審査中もしくは審査待ちの出願に関する情報も含む。以降では、産業財産権に関する情報のことを「権利関連情報」ともいう。権利関連情報は、少なくとも、出願人等を示す名称データと、名称データに紐づけられたファミリーIDとを含む。
【0016】
本実施の形態1の名寄せ処理装置10は、ファミリーIDをもとに整理された名寄せリストL1を作成するものである。名寄せ処理装置10は、作成した名寄せリストL1をネットワークNを介して外部へ提供してもよい。名寄せ処理装置10は、オンプレミス型の物理サーバ、もしくはクラウドコンピューティングに基づくクラウドサーバ、又はこれらを組み合わせたシステムなどにより構成される。名寄せ処理装置10は、PCあるいはPCの内部構成であってもよい。
【0017】
より具体的に、名寄せ処理装置10は、通信部11と、記憶部12と、データベース部13と、制御部14と、を有している。通信部11は、制御部14が管理端末50及び情報提供サーバ500などの外部機器との間で有線又は無線による通信を行うためのインタフェースである。記憶部12は、名寄せ処理プログラムP1のような制御部14の動作プログラムの他、名寄せ処理に要する種々のデータを記憶する。記憶部12は、RAM(Random Access Memory)及びROM(Read Only Memory)、フラッシュメモリ等のPROM(Programmable ROM)、SSD(Solid State Drive)、又はHDD(Hard Disk Drive)等により構成することができる。
【0018】
データベース部13は、ファミリーIDに紐づく名称データをリスト化した名寄せリストL1を格納する記憶装置である。データベース部13は、RAM及びROM、フラッシュメモリ等のPROM、SSD、又はHDD等により構成される。もっとも、データベース部13は、名寄せ処理装置10の外部に設けられた記憶装置であってもよい。
【0019】
制御部14は、知財データベース510にアクセスし、リスト化の対象とされている複数の権利関連情報に含まれる名称データ及びファミリーIDを収集し、収集した複数の名称データをファミリーIDに基づいて整理して名寄せリストL1を作成するものである。以降では、リスト化の対象とされている権利関連情報のことを「対象情報」ともいい、制御部14が知財データベース510から収集する情報を「リスト用データ」ともいう。
【0020】
例えば、10年間や20年間といった指定期間の権利関連情報、国単位あるいは地域単位などによる指定範囲の権利関連情報、又は指定範囲における指定期間の権利関連情報などがリスト化の対象とされる。もっとも、知財データベース内の全ての権利関連情報をリスト化の対象としてもよい。リスト化の対象は、管理端末50等から設定することができ、適宜変更することができる。
【0021】
より具体的に、制御部14は、情報処理手段14aと名寄せ手段14bとを有している。情報処理手段14aは、知財データベース510からリスト用データを収集してデータベース部13に記憶させる。すなわち、情報処理手段14aは、複数の対象情報の各々について、名称データとファミリーIDとが対になった情報を含むリスト用データを収集する。リスト用データは、各対象情報についての出願日及び登録日の情報などを含んでいてもよい。
【0022】
名寄せ手段14bは、情報処理手段14aが収集してデータベース部13内に格納した情報について、ファミリーIDごとに名称データを整理すると共に、同一の出願人等、つまり同一の企業等を示す1又は複数の名称データを抽出する前処理を行う。以降では、同一の出願人等(企業等)を示す1又は複数の名称データのことを「同一企業データ」ともいう。すなわち、名寄せ手段14bは、データベース部13内にてランダムに並んでいる、名称データとファミリーIDとが対になった情報を、ファミリーIDごとに並べ替えた後、予め設定された抽出条件に従って同一企業データを抽出する。そして、名寄せ手段14bは、抽出した同一企業データにおける1又は複数の名称データに対して固有の識別情報を付与することにより名寄せリストL1を作成する。
【0023】
識別情報は、同一のファミリーIDが紐付く複数の名称データのうちの何れか1つであってもよく、これらの名称データに共通する文字列等であってもよい。名寄せ手段14bは、名称データとは関連性のない識別情報を別途生成してもよく、識別情報は個別のID等であってもよい。1の発明等に係る出願しか行っていない企業等の場合、表示や印刷等の用途がなければ、ファミリーIDをそのまま識別情報として用いてもよい。
【0024】
ここで、
図2及び
図3を参照して、1つの企業等が1の発明等についての出願(パテントファミリーを含む。以下1出願ともいう。)だけを行っている場合の名寄せリストL1の作成方法について説明する。
図2及び
図3では、便宜上、ファミリーIDを「F
N(Nは任意の自然数)」のように表記している。名称データの例は、説明のための便宜上の記載である。以降の各図においても同様である。
【0025】
図2は、情報処理手段14aによってデータベース部13に格納されたリスト用データの一覧を例示した表である。
図2に例示するように、データベース部13内では、名称データとこれに紐付くファミリーIDとがランダムに配置されている。名寄せ手段14bは、データベース部13において、
図2のようにランダムに配置された名称データとファミリーIDとが対になった情報を、
図3のように、ファミリーIDごとに並べ替える。
【0026】
1つの企業等が1出願だけを行っている場合、ファミリーIDが共通する名称データは同一の企業等を指し、ファミリーIDが共通しない名称データは異なる企業等を指す。そのため、名寄せ手段14bは、
図3に示すように、同一のファミリーIDに紐付く複数の名称データに共通の識別情報を付与する。名寄せ手段14bは、同一のファミリーIDに紐付く複数の名称データの中に、重複する名称データがあれば、1つだけを残し、他を削除する機能を有している。名寄せ手段14bは、1つの名称データだけに紐付くファミリーIDがある場合(同じファミリーIDが紐付けられた名称データが他にない場合)であっても、その名称データに固有の識別情報を付与する。
【0027】
上記においては、1つの企業等が1出願だけを行っている前提で説明したが、実際には、1つの企業等が複数の出願を行うことも多く、複数のファミリーIDが紐付けられている企業等も多数存在する。つまり、1つの企業等が複数の出願を行っている場合は、1つの企業等に複数のファミリーIDが付与されることになる。そのため、名寄せ手段14bは、名称データの取捨選択を行うための抽出条件に従って同一企業データを抽出する前処理を実行する。抽出条件は、管理端末50等から設定することができ、適宜変更することができる。
【0028】
本実施の形態1において、名寄せ手段14bは、同一のファミリーIDが紐付く1又は複数の名称データで構成される名称データ群のうち、設定された任意の名称データを含む全ての名称データ群を選定すると共に、選定した全名称データ群における各名称データそれぞれの出現率を求める機能を有している。なお、名称データ群は、1つの名称データだけで構成されることもある。そして、名寄せ手段14bは、出現率に対応する抽出条件に従い、求めた出現率を用いることにより、同一の出願人又は権利者を示す1又は複数の名称データを抽出することができる。
【0029】
例えば、名寄せ手段14bは、名称データ群のうち、任意の名称データを含む全ての名称データ群を選定すると共に、選定した全名称データ群における各名称データそれぞれの出現率を求めるようにしてもよい。任意の名称データは、予め設定されてもよく、名寄せ手段14bが各名称データ群における名称データの構成等をもとに選定してもよい。名寄せ手段14bは、名称データ群のうち、任意の複数の名称データのうちの少なくとも1つを含む全ての名称データ群を選定すると共に、選定した全名称データ群における各名称データそれぞれの出現率を求めるようにしてもよい。
【0030】
ここで、
図4~
図8を参照して、名寄せ手段14bが行う前処理の具体例について説明する。
図4~
図7では、3つの出願を行っている企業等を想定し、出願ごとに固有のファミリーIDが付与されている状況を例示している。例えば、紐付く名称データの数が多いファミリーIDを抽出する、という抽出条件(最多抽出条件)が設定されている場合、名寄せ手段14bは、最多抽出条件を満たす名称データを抽出する。
図4の場合、名寄せ手段14bは、ファミリーID「12345555」に紐付く5つの名称データを抽出し、
図5のように、抽出した5つの名称データに固有の識別情報を付与する。
【0031】
共通する名称データを含む全ての名称データ群内の名称データを重複を排除して抽出する、という抽出条件(全抽出条件)が設定されている場合、名寄せ手段14bは、全抽出条件を満たす名称データを抽出する。
図4の場合、名寄せ手段14bは、ファミリーID「12345555」「12345666」「12345777」に共通する3つの名称データ「〇〇〇〇」「〇〇〇〇 G」「〇〇〇〇 K」と、ファミリーID「12345555」だけに紐付く名称データ「〇〇〇〇 ㏇Ltd.」と、ファミリーID「12345555」「12345777」に共通する名称データ「〇〇〇〇 A」と、ファミリーID「12345777」だけに紐付く名称データ「〇〇▽△ Co」とを、
図6のように抽出する。そして、名寄せ手段14bは、抽出した6つの名称データに固有の識別情報を付与する。
【0032】
出現率が予め設定された閾値よりも高い名称データを重複を排除して抽出する、という抽出条件(出現率条件)が設定されている場合、名寄せ手段14bは、共通する名称データを含む全ての名称データ群から、出現率条件を満たす名称データを抽出する。
図4では、表の右側に、括弧書きで出現率の例を記載している。すなわち、例えば閾値が20%(1/5)に設定されていれば、名寄せ手段14bは、
図6のように、全ての名称データを重複を排除して抽出する。閾値が40%(2/5)に設定されていれば、名寄せ手段14bは、4つの名称データ「〇〇〇〇」「〇〇〇〇 G」「〇〇〇〇 K」「〇〇〇〇 A」を抽出することになる。
【0033】
名寄せ手段14bは、
図4のように、全ての名称データ群に共通する名称データが存在する場合に限らず、
図7のように、少なくとも2つの名称データ群に共通する名称データが存在することを選定条件として、共通する名称データを含む名称データ群を選定してもよい。すなわち、名寄せ手段14bは、任意の複数の名称データのうちの少なくとも1つを含む全ての名称データ群を選定すると共に、選定した全名称データ群における各名称データそれぞれの出現率を求めるようにしてもよい。任意の複数の名称データは、予め設定されてもよく、名寄せ手段14bが各名称データ群における名称データの構成等をもとに選定してもよい。名寄せ手段14bは、他の名称データ群についても、各抽出条件に従って上記同様の前処理を施し、固有の識別情報を付与することにより名寄せリストL1を作成する。
【0034】
ところで、特許等の出願は、複数の企業等が1つの発明等について共同で行う場合もある。このような場合は、複数の企業等の名称に対して1つのファミリーIDが紐付けられることになる。そのため、特に最多抽出条件や全抽出条件が設定されている場合など、名寄せリストL1に複数の企業等の名称が混入することも想定される。共同出願によって多くの国へ出願したこと等に起因して表記ゆれが多くなっている場合、最多抽出条件の設定により、複数の企業等の名称が名寄せリストL1内にリスト化されるおそれがある。全抽出条件が設定されている場合も、共同出願の相手先企業等の名称が名寄せリストL1内にリスト化されるおそれがある。
【0035】
そのため、本実施の形態1の名寄せ手段14bは、共同出願の存在も考慮して、出現率条件に基づく前処理が基本処理となっている。
図8は、
図4と同様、1つの企業等の名称データ群について、ファミリーIDごとに名称データをソートした状態を示し、2つの共同出願に係る情報を含む例である。
図8の表の右側に括弧書きで示すように、名寄せ手段14bは、共同出願の場合、出願名義人等の各々についての出現率を求めるようになっている。
【0036】
共同出願の件数は、一般に単独出願よりも少なく、かつ共同出願の相手先企業等は、発明等の内容や時期などに応じて適宜変更され得る。そのため、ある企業等の名称を基準として名称データ群をピックアップした場合、共同出願の相手先企業等が含まれる名称データ群の数は比較的少なくなる。よって、出現率条件を設定し、発明等の分野や業界の動向などを考慮して閾値を設定することにより、共同出願の相手先企業等の名寄せリストL1への混入を防ぐことができる。なお、
図8の例では、閾値を10%に設定すれば、共同出願の相手先企業等を全て排除することができる。
【0037】
ところで、出現率の演算手法は、上記の例に限定されない。名寄せ手段14bは、1つの名称データを基準として出現率の演算を行ってもよい。名寄せ手段14bは、例えば、相対的に出現数が多い名称データの出現数に対する、それ以外の名称データの出現数の割合を、出現率として求めてもよい。
図8の例にいおいて、名称データ「〇〇〇〇」を基準とした場合の、名称データ「〇〇〇〇 G」の出現率は約60%(56/94)となり、名称データ「◆◆◆ K」の出現率は約5%(5/94)となる。このようにしても、同一の企業等を的確に抽出し、グループ会社等の他企業等を排除することができる。
【0038】
制御部14は、CPU(Central Processing Unit)又はGPU(Graphics Processing Unit)などの演算装置と、こうした演算装置と協働して上記の各種機能を実現させる名寄せ処理プログラムP1とにより構成することができる。すなわち、名寄せ処理プログラムP1は、コンピュータとしての制御部14及び記憶部12を、情報処理手段14a及び名寄せ手段14bとして機能させるためのプログラムである。記憶部12は、名寄せ処理プログラムを記録したコンピュータ読み取り可能な記録媒体に相当する。
【0039】
次に、
図9を参照して、本実施の形態1に係る名寄せリストの作成方法及び名寄せ処理方法の動作例について説明する。
【0040】
まず、制御部14は、知財データベース510からリスト用データを収集し、データベース部13に格納する(ステップS101)。次いで、制御部14は、データベース部13内の各名称データを、ファミリーIDごとに並べ替える(ステップS102)。
【0041】
次に、制御部14は、設定された抽出条件に基づく前処理を実行し、企業等ごとの同一企業データを抽出して整理する。すなわち、企業等を示す1又は複数の名称データを企業等ごとに整理したテーブル情報を作成する(ステップS103)。そして、制御部14は、同一企業データごとに、内包する1又は複数の名称データに固有の識別情報を付与して名寄せリストL1を作成する(ステップS104)。
【0042】
制御部14は、予め設定された更新期間が経過するまで待機し(ステップS105/No)、更新期間が経過したとき(ステップS105/Yes)、名寄せリストL1の更新処理を実行する。更新期間は、1日、1週間、又は1ヵ月などに設定され、管理端末50等から適宜変更することができる。例えば、制御部14は、更新期間中に増えた対象情報に含まれる名称データのうち名寄せリストL1内に存在しないものを、必要に応じて名寄せリストL1に追加する(ステップS106)。
【0043】
以上のように、本実施の形態1における名寄せ処理装置10は、1の発明又は考案に係る出願人又は権利者を示す1又は複数の名称データに1つのファミリーIDが紐づけられた知財データベース510を活用して、ファミリーIDに基づく名寄せリストL1を作成する。すなわち、本実施の形態1における制御部14は、知財データベース510にアクセスし、複数の対象情報に含まれる名称データ及びファミリーIDを収集する。そして、制御部14は、収集した複数の名称データをファミリーIDに基づいて整理して名寄せリストL1を作成する。ここで、ファミリーIDは、パテントファミリー間に共通に付与される識別情報であり、企業名の表記がどんなにかけ離れていても、同一の企業には同一のファミリーIDが付与される。したがって、名寄せ処理装置10によれば、ファミリーIDに基づく名称データの整理により、企業名間の類似性の程度を問わない高精度な名寄せを実現させる名寄せリストL1を作成し、提供することができる。
【0044】
本実施の形態1において、制御部14は、名称データの取捨選択を行うための抽出条件に従って、同一の出願人又は権利者を示す1又は複数の名称データを抽出し、抽出した名称データに固有の識別情報を付与することにより名寄せリストL1を作成するようになっている。すなわち、制御部14は、名寄せリストL1の作成の一環として、名称データの重複排除等の有用な前処理を行うことから、必要十分な情報量の名寄せリストL1を作成することができるため、ユーザの利便性向上と共にメモリ資源の削減を図ることができる。また、固有の識別情報の付与により、名寄せリストL1における同一企業ごとの統一感が増すため、名寄せリストL1のアクセシビリティ確保に繋がると共に、名寄せリストL1の表示又はプリントアウト等での活用の際の視認性向上を図ることができる。
【0045】
例えば、制御部14は、任意の名称データを含む全ての名称データ群を選定し、選定した全名称データ群における各名称データそれぞれの出現率を求めるようにしてもよい。また、制御部14は、任意の複数の名称データのうちの少なくとも1つを含む全ての名称データ群を選定し、選定した全名称データ群における各名称データそれぞれの出現率を求めるようにしてもよい。そして、制御部14は、出現率に対応する抽出条件(出現率条件)に従い、求めた出現率を用いて同一の出願人等を示す1又は複数の名称データを抽出するとよい。このようにすれば、共同出願における相手先企業等の名称、出現頻度の低い表記ゆれ、及び明らかな誤記などを排除することができるため、より精度のよい名寄せリストL1を作成し、提供することができる。
【0046】
名寄せリストL1は、ネットワークNを介してPCやサーバ等に提供してもよい。この場合、名寄せリストL1は、MICROSOFT EXCEL(登録商標)のXLSファイル、CSV(Comma-Separated Values)ファイル、テキストファイルなどのデータファイルで提供してもよい。もっとも、名寄せリストL1は、紙媒体にプリントアウトして提供してもよい。
【0047】
<変形例1>
図10を参照して、本実施の形態1の変形例1における名寄せ処理装置及びその周辺構成の一例について説明する。本変形例1の名寄せ処理装置10Aは、名寄せリストの名称データを類似範囲にまで拡張する機能を有している。
図1等をもとに上述した各構成と同等の構成については同一の符号を用いて説明は省略する。
【0048】
本変形例1の名寄せ処理装置10Aは、ネットワークNを介して通信可能な企業サーバ600の企業データベース610内の企業データをもとに、名寄せリストL1を拡張する機能を有している。企業サーバ600は、日本平均株価(日経225)もしくはS&P500(S&P500種指数)等の株価指数の構成銘柄、又はモルガン・スタンレーなどの金融機関の取扱銘柄など、企業名とこれに紐付く情報を管理するサーバ等である。企業サーバ600は、MSCI(Morgan Stanley Capital International)、FTSE、又はSustainalyticsなどの格付機関が使用し管理するサーバ等であってもよい。企業サーバ600は、クラウドコンピューティングに基づくクラウドサーバ、もしくは物理サーバ、又はこれらを組み合わせたシステムなどにより構成される。
【0049】
企業データベース610は、企業名を示す複数の企業データがリスト化されたものである。記憶部12には、制御部14の動作プログラムとして、名寄せ処理プログラムP2が格納されている。制御部14は、情報処理手段14aと、名寄せ手段140bと、を有している。名寄せ手段140bは、データベース部13内の名称データに類似し、かつデータベース部13内にない企業データが存在していれば、これをデータベース部13に取り込んで名寄せリストL2を完成させる。
【0050】
本変形例1の名寄せ手段140bは、企業データが名称データに類似するか否かを、企業データの文字列と名称データの文字列との一致率をもとに判定する。すなわち、名寄せ手段140bは、企業データの文字列と名称データの文字列との一致率が、予め設定された類似閾値以上であれば、両者が類似すると判定し、類似閾値未満であれば、両者が非類似であると判定する。他の構成及び代替構成は、
図1等を用いて説明した上記の例と同様である。
【0051】
次に、
図11~
図13を参照して、本変形例1に係る名寄せリストの作成方法及び名寄せ処理方法の動作例について説明する。
図9における各工程と同等の工程については同一のステップ番号を付して説明は省略する。
【0052】
まず、制御部14は、ステップS101~S103の処理を、
図9の例と同様に実行する。このとき、記憶部12内のテーブル情報は、
図12のように、固有の識別情報ごとに名称データがソートされた状態となっている。かかる状態のテーブル情報を仮リストという。
【0053】
次いで、名寄せ手段140bは、仮リストの名称データと企業データベース610の企業データとを照合し、仮リストの名称データと類似する企業データのうち、仮リストに存在しないもの抽出する。
図12では、名称データ及びこれと同一の企業データを破線で囲って結んでいる。また、類似する名称データが存在する企業データを破線(六角形)で囲い、そこから類似する名称データに向けて白抜き矢印を延ばしている。すなわち、
図12において、名寄せ手段140bは、企業データ「〇〇〇〇 K」と名称データ「〇〇〇〇」とが類似すると判定している(ステップS201)。
【0054】
次に、名寄せ手段140bは、抽出した企業データを、これに類似する名称データと隣接する箇所に挿入する(ステップS202)。そして、名寄せ手段140bは、
図13の例のように、挿入した企業データに対し、類似する名称データと同一の識別情報を付与して名寄せリストL2を作成する(ステップS203)。
【0055】
名寄せ手段140bは、更新期間が経過したとき(ステップS105/Yes)、名寄せリストL2の更新処理を実行する。名寄せ手段140bは、更新処理において、更新期間中に増えた対象情報に含まれる名称データのうち、名寄せリストL2内に存在しないものを追加する(ステップS204)。
【0056】
以上のように、本変形例1の名寄せ処理装置10Aは、知財データベース510から収集した名称データと類似する企業データに、該名称データと同一の識別情報を付与して名寄せリストL2を作成する。すなわち、名寄せリストL2では、名称データとこれに類似する企業データが固有の識別情報によってグループ化されている。このように、名寄せ処理装置10Aによれば、知財データベース510から取得した複数の名称データで構成された名寄せリストを、名称データと類似する企業データにまで拡張させることができる。そのため、名寄せリストL2を種々の方法で外部に供給することにより、名寄せ処理を迅速かつ効率的に行う環境を提供することができる。他の効果等については、前述した実施の形態1の本編と同様である。
【0057】
<変形例2>
図14を参照して、本実施の形態1の変形例2における名寄せ処理装置及びその周辺構成の一例について説明する。本変形例2の名寄せ処理装置10Bは、外部からの要求に応じて、名寄せリストを用いた名寄せ処理を提供する機能を有している。
図1等をもとに説明した各構成と同等の構成については同一の符号を用いて説明は省略する。
【0058】
本変形例2の名寄せ処理装置10Bにおいて、記憶部12には、制御部14の動作プログラムとして、名寄せ処理プログラムP3が格納されている。制御部14は、情報処理手段14aと、リスト化手段241及び提供手段242を含む名寄せ手段240bと、を有している。リスト化手段241は、上述した名寄せ手段14bと同様に機能して名寄せリストL1を作成する。
【0059】
提供手段242は、企業名を示す複数の企業データを含む依頼情報を情報端末80等から取得する。依頼情報は、複数の企業データのそれぞれが種々の情報と関連付けられたものである。情報端末80はPC等により構成される。提供手段242は、外部から取得した依頼情報を名寄せリストL1と照合し、名寄せリストL1内の同一の識別情報が紐付く名称データと一致する企業データに対し共通データを付与して整理する。共通データは、同一の企業等の名称に付与する固有の情報である。
【0060】
提供手段242は、上記の一致するか否かの照合の際、名寄せリストL1内の各名称データの何れとも一致しない企業データのうち、名寄せリストL1内に類似する名称データが存在するものについては、その類似する名称データに紐付く識別情報を用いて整理する。ここで、上記の照合において各名称データの何れとも一致しない企業データのことを「不一致データ」とする。
【0061】
すなわち、提供手段242は、不一致データに類似する名称データと同じ識別情報が紐付く他の名称データと一致する企業データが存在する場合、その企業データと同じ共通データを該不一致データに付与して整理する。一方、提供手段242は、不一致データに類似する名称データと同じ識別情報が紐付く他の名称データと一致する企業データが存在しない場合、該不一致データに新たな共通データを付与して整理する。ただし、提供手段242は、複数の不一致データが同じ名称データと類似する場合は、これらの不一致データには同じ共通データを付与する。
【0062】
次に、
図15~
図18を参照して、本変形例2の名寄せ処理方法における動作の一例について説明する。
【0063】
制御部14は、外部から、名寄せの要求と共に、名寄せの対象となる依頼情報を取得する(ステップS301)。制御部14は、依頼情報の各企業データと名寄せリストL1の各名称データとを照合し(ステップS302)、各名称データのうちの何れかと一致する企業データを、名称データの識別情報に基づいて整理する。
図16では、名称データ及びこれと同一の企業データを破線で囲って結んでいる。かかる状況において、制御部14は、
図17に示すように、識別情報が共通する企業データ「〇〇〇〇 G」「〇〇〇〇 A」「〇〇▽△ Co」に共通データを付与して整理する(ステップS303)。
【0064】
さらに、制御部14は、不一致データが存在すれば(ステップS304/Yes)、不一致データに類似する名称データが名寄せリストL1内に存在するか否かを判定する(ステップS305)。制御部14は、不一致データに類似する名称データが存在すれば(ステップS305/Yes)、該名称データに紐付く識別情報に基づいて該不一致データを整理する。すなわち、制御部14は、例えば
図16において白抜き矢印で例示するように、不一致データであり且つ「〇〇〇〇」と類似すると判定した「〇〇〇〇 K」を、識別情報が「〇〇〇〇」である名称データと一致する企業データに隣接させて、
図18のように配置し、共通データを付与する(ステップS306)。
【0065】
そして、制御部14は、依頼情報の企業データをファミリーIDに基づいて整理した名寄せデータを外部へ提供する。例えば、制御部14は、名寄せデータを情報端末80等に返送する。名寄せデータは、XLSファイル、CSVファイル、テキストファイルなどのデータファイルで提供してもよく、紙媒体にプリントアウトして提供してもよい(ステップS307)。なお、ステップS304において不一致データが存在しなかった場合、又はステップS305において不一致データに類似する名称データが存在しなかった場合は、ステップS307の処理へ移行する。
【0066】
以上のように、本変形例2の名寄せ処理装置10Bは、外部からの要求に応じて、名寄せリストL1を用いた名寄せ処理を提供する機能を有している。すなわち、制御部14は、複数の企業データを含む依頼情報を名寄せリストL1と照合し、同一の識別情報に紐付く名称データと一致又は類似する企業データに対し共通データを付与して整理する。ここで、ファミリーIDは、企業名間の類似性の程度によらず、同一の企業には必ず同一のものが付与されるものであり、識別情報は、ファミリーIDに基づいて付与されたものである。そのため、名寄せ処理装置10Bによれば、ファミリーIDに基づく高精度な名寄せ処理を提供することができる。
【0067】
ところで、リスト化手段241は、前述の変形例1の名寄せ手段140bと同様に機能し、名寄せリストL2を作成するものであってもよい。つまり、提供手段242は、名寄せリストL2を使用して上記同様の名寄せ処理を行ってもよい。また、名寄せ処理装置10Bは、リスト化手段241を設けずに構成し、外部で作成されてデータベース部13に格納された名寄せリストL1又はL2を使用してもよい。
【0068】
さらに、提供手段242は、名称データと企業データとの類似度を判別する機能を有しなくてもよい。すなわち、本変形例2の名寄せ処理装置10Bは、例えば
図17のような、名称データと一致する企業データに対して識別情報に基づく共通データを付与して整理した名寄せデータを、外部へ提供するものであってよい。この場合、提供手段242は、依頼情報を名寄せリストL1又はL2と照合し、同一のファミリーIDが紐付く名称データと一致する企業データに対し共通データを付与して整理するものとなる。他の構成、代替構成、及び動作などについては、上述した実施の形態1の本編及び変形例1と同様である。
【0069】
実施の形態2.
図19を参照して、本実施の形態2における名寄せ処理装置及びその周辺構成の一例について説明する。本実施の形態2の名寄せ処理装置110は、名寄せリストL1又はL2と同様に知財データベース510内の情報を活用するようになっている。上述した実施の形態1と同等の構成については同一の符号を付して説明は省略する。
【0070】
本実施の形態2の名寄せ処理装置110において、記憶部12には、制御部140の動作プログラムとして、名寄せ処理プログラムP4が格納されている。制御部140は、情報処理手段340aと名寄せ手段340bとを有している。すなわち、名寄せ処理プログラムP4は、コンピュータとしての制御部140及び記憶部12を、情報処理手段340a及び名寄せ手段340bとして機能させるためのプログラムである。情報処理手段340aは、情報端末80等から名寄せ処理を要求する信号と共に、企業名を示す複数の企業データを含む依頼情報を取得する。
【0071】
名寄せ手段340bは、依頼情報を知財データベース510と照合し、同一のファミリーIDに紐付く名称データと一致する企業データに対して同じ共通データを付与して整理するものである。名寄せ手段340bは、依頼情報を知財データベース510と照合し、同一のファミリーIDに紐付く名称データと一致又は類似する企業データに対して固有の共通データを付与して整理するものであってよい。ただし、1つの企業等が複数の出願を行うこと場合を考慮すると、名寄せ手段340bは、最多抽出条件、全抽出条件、又は出現率条件などの抽出条件に従って知財データベース510を整理してから照合処理を行うようにするとよい。共同出願の存在を考慮すると、名寄せ手段340bは、出現率条件に従って知財データベース510を整理するように構成するとよい。他の構成及び代替構成については、上述した実施の形態1の各例と同様である。
【0072】
次に、
図20と
図21の他、
図17及び
図18も参照して、本実施の形態2の名寄せ処理方法における動作の一例について説明する。上記の
図15の各工程と同等の工程については同一のステップ番号を付して説明は省略する。
【0073】
制御部140は、外部から、名寄せの要求と共に、名寄せの対象となる依頼情報を取得する(ステップS301)。制御部140は、依頼情報の各企業データと知財データベース510とを照合する。その際、制御部140は、
図21の例のように、知財データベース510内の情報を抽出条件に従って整理するとよい(ステップS401)。
【0074】
制御部140は、知財データベース510内の各名称データのうちの何れかと一致する企業データを、名称データのファミリーIDもしくは識別情報に基づいて整理する。すなわち、
図17の例ように、ファミリーIDもしくは識別情報が共通する企業データに同じ共通データを付与して整理する(ステップS402)。制御部140は、不一致データが存在すれば(ステップS403/Yes)、不一致データに類似する名称データが知財データベース510内に存在するか否かを判定する(ステップS404)。
【0075】
制御部140は、不一致データに類似する名称データが存在すれば(ステップS404/Yes)、該名称データに紐付くファミリーIDもしくは識別情報に基づいて該不一致データを整理する。すなわち、制御部140は、不一致データに類似する名称データ(「〇〇〇〇」:
図21)と同じファミリーIDもしくは識別情報が紐付く名称データ(「〇〇〇〇 G」「〇〇〇〇 A」「〇〇▽△ Co」:
図21)と一致する企業データに、該不一致データを隣接させて配置し、共通データを付与する(ステップS405/
図18)。
【0076】
そして、制御部140は、依頼情報の企業データをファミリーIDもしくは識別情報に基づいて整理した名寄せデータ330を外部へ提供する(ステップS307)。制御部140は、生成した名寄せデータ330をバックアップ用にデータベース部13に格納してもよい。もっとも、名寄せ処理装置110は、データベース部13を設けずに構成してもよい。ステップS403において不一致データが存在しなかった場合、又はステップS404において不一致データに類似する名称データが存在しなかった場合は、ステップS307の処理へ移行する。
【0077】
以上のように、本実施の形態2の名寄せ処理装置110は、外部からの要求に応じて、知財データベース510を用いた名寄せ処理を提供するようになっている。すなわち、制御部140は、複数の企業データを含む依頼情報を知財データベース510と照合し、同一のファミリーIDもしくは識別情報が紐付く名称データと一致又は類似する企業データに対して同じ共通データを付与して整理する。ここで、ファミリーIDは、企業名間の類似性の程度によらず、同一の企業には必ず同一のものが付与される識別子であるため、名寄せ処理装置110によれば、ファミリーIDに基づく高精度な名寄せ処理を提供することができる。他の効果等については、上述した実施の形態1と同様である。
【0078】
実施の形態3.
図22を参照して、本実施の形態3における名寄せ処理装置及びその周辺構成の一例について説明する。本実施の形態3の名寄せ処理装置210は、名寄せリストL1又はL2と同様に知財データベース510内の情報を活用して、外部のデータベース内の名寄せ処理を行うよう構成されている。上述した実施の形態1及び2と同等の構成については同一の符号を付して説明は省略する。
【0079】
名寄せ処理装置210は、複数の企業データがリスト化された外部データベース810を格納する外部サーバ800と、ネットワークNを介して通信可能に接続されている。外部サーバ800は、種々の企業が、取引先などの企業の名称とこれに紐付く情報とを管理するものである。なお、外部サーバ800は、上述した企業サーバ600を含む概念である。外部サーバ800は、クラウドコンピューティングに基づくクラウドサーバ、もしくは物理サーバ、又はこれらを組み合わせたシステムなどにより構成される。
【0080】
本実施の形態3の名寄せ処理装置210において、記憶部12には、制御部240の動作プログラムとして、名寄せ処理プログラムP5が格納されている。制御部240は、情報処理手段440aと名寄せ手段440bとを有している。すなわち、名寄せ処理プログラムP5は、コンピュータとしての制御部240及び記憶部12を、情報処理手段440a及び名寄せ手段440bとして機能させるためのプログラムである。情報処理手段440aは、外部から名寄せ処理を要求する信号を受信したとき、その信号を名寄せ手段440bへ出力する。
【0081】
名寄せ手段440bは、複数の企業データがリスト化された外部データベース810を知財データベース510と照合し、同一のファミリーIDが紐付く名称データと一致する外部データベース810内の企業データに対し固有の共通データを付与して整理するものである。また、名寄せ手段440bは、上記の照合の際、知財データベース510内の各名称データの何れとも一致しない企業データのうち、知財データベース510内に類似する名称データが存在するものについては、その類似する名称データに紐付くファミリーIDに基づいて整理するものである。ただし、1つの企業等が複数の出願を行うこと場合を考慮すると、名寄せ手段440bは、最多抽出条件、全抽出条件、又は出現率条件などの抽出条件に従って知財データベース510を整理してから照合処理を行うようにするとよい。共同出願の存在を考慮すると、名寄せ手段440bは、出現率条件に従って知財データベース510を整理するように構成するとよい。
【0082】
上記の照合において、各名称データの何れとも一致しない企業データのことを「不一致データ」とする。すなわち、名寄せ手段440bは、不一致データに類似する名称データと同じファミリーID等が紐付く他の名称データと一致する企業データが存在する場合、その企業データと同じ共通データを該不一致データに付与して整理する。一方、名寄せ手段440bは、不一致データに類似する名称データと同じファミリーID等が紐付く他の名称データと一致する企業データが存在しない場合、該不一致データに新たな共通データを付与して整理する。ただし、名寄せ手段440bは、複数の不一致データが同じ名称データと類似する場合は、これらの不一致データには同じ共通データを付与する。
【0083】
次に、
図23~
図26を参照して、本実施の形態3の名寄せ処理方法における動作の一例について説明する。上述した変形例2に係る
図15の各工程及び実施の形態2に係る
図20の各工程と同等の工程については、同一のステップ番号を付して説明は省略する。
【0084】
制御部240は、外部からの名寄せの要求に応じて、知財データベース510と外部データベース810とにアクセスする。その際、制御部240は、例えば
図24のように、知財データベース510内の情報を抽出条件に従って整理するとよい。そして、制御部240は、外部データベース810の各企業データと、知財データベース510の各企業データとを照合する(ステップS501)。
【0085】
制御部240は、知財データベース510の各名称データのうちの何れかと一致する企業データを、名称データのファミリーIDもしくは識別情報に基づいて整理する。
図24では、名称データ及びこれと同一の企業データを破線で囲って結んでいる。かかる状況において、制御部240は、
図25に例示するように、ファミリーIDもしくは識別情報が共通する企業データ「〇〇〇〇」及び「〇〇〇〇 Co」に同じ共通データ(111)を付与し、ファミリーIDもしくは識別情報が共通する企業データ「××× A」及び「××× Inc」に同じ共通データ(222)を付与して整理する(ステップS402)。
【0086】
さらに、制御部240は、不一致データが存在すれば(ステップS304/Yes)、不一致データに類似する名称データが知財データベース510に存在するか否かを判定する(ステップS305)。制御部240は、不一致データに類似する名称データが存在すれば(ステップS305/Yes)、該名称データに紐付くファミリーIDに基づいて該不一致データを整理する。すなわち、制御部240は、不一致データに類似する名称データと同じファミリーIDもしくは識別情報が紐付く名称データと一致する企業データに、該不一致データを隣接させて配置する。より具体的に、制御部240は、
図24において白抜き矢印で例示するように、不一致データであり且つ「〇〇〇〇」と類似すると判定した「〇〇〇〇 K」を、識別情報が「〇〇〇〇」である名称データと一致する企業データに隣接させて、
図26のように配置し、共通データ(111)を付与する(ステップS405)。
【0087】
なお、ステップS304において不一致データが存在しなかった場合、又はステップS305において不一致データに類似する名称データが存在しなかった場合は、制御部240は、名寄せ処理を終了する。制御部240は、外部データベース810において名寄せした各名称データとこれらに紐付けた共通データとを取得し、バックアップ用の名寄せデータ430としてデータベース部13に格納してもよい。もっとも、名寄せ処理装置210は、データベース部13を設けずに構成してもよい。
【0088】
以上のように、本実施の形態3の名寄せ処理装置210は、外部のデータベースに対し、知財データベース510を用いた名寄せ処理を提供するよう構成されている。すなわち、制御部240は、外部データベース810を知財データベース510と照合し、同一のファミリーIDもしくは識別情報に紐付く名称データと一致又は類似する企業データに対して同じ共通データを付与して整理する。ここで、ファミリーIDは、企業名間の類似性の程度によらず、同一の企業には必ず同一のものが付与される識別子であるため、名寄せ処理装置210によれば、高精度な名寄せ処理を提供することができる。
【0089】
ところで、制御部240は、名称データと企業データとの類似度を判別する機能を有しなくてもよい。すなわち、名寄せ処理装置210は、例えば
図20のように、名称データと一致する企業データに対してファミリーIDもしくは識別情報に基づく共通データを付与して整理した段階で名寄せ処理を終了してもよい。この場合、制御部240は、外部データベース810を知財データベース510と照合し、同一のファミリーIDもしくは識別情報が紐付く名称データと一致する外部データベース810内の企業データに対し固有の共通データを付与して整理するものとなる。他の効果等については、上述した実施の形態1及び2と同様である。
【0090】
上述した各実施の形態は、名寄せ処理装置、名寄せ処理プログラム、記録媒体、名寄せリストの作成方法、及び名寄せ処理方法における具体例であり、本発明の技術的範囲は、これらの態様に限定されるものではない。例えば、データベース部13は、名寄せ処理装置10、10A、10B、110、210(以下単に「名寄せ処理装置」という。)の外部に設けられてもよい。また、管理端末50が各実施の形態等における名寄せ処理装置として機能するよう構成してもよい。
【0091】
上述した変形例1では、名寄せ手段140bが、企業データの文字列と名称データの文字列との一致率をもとに、企業データが名称データに類似するか否かを判定する例を示したが、これに限定されない。名寄せ手段140bは、Word2Vecなどの自然言語処理により、企業データが名称データに類似するか否かを判定するようにしてもよい。すなわち、名寄せ手段140bは、各企業データ及び各名称データのそれぞれに形態素解析を施して品詞情報付きの形態素に分解し、各形態素を分散表現にした上でベクトル同士を比較することにより、企業データと名称データとの類否を判定してもよい。同様に、提供手段242、名寄せ手段340b、及び名寄せ手段440bは、Word2Vecなどの自然言語処理により、企業データ(不一致データ)と名称データとが類似するか否かを判定してもよい。
【0092】
上述した各実施の形態(変形例も含む)における各構成は適宜組み合わせることができ、これにより新たな名寄せ処理装置を構築することができる。例えば、実施の形態3の名寄せ処理装置210は、知財データベース510の代わりに、実施の形態1の名寄せリストL1又はL2を用いて、外部データベース810内の企業名の名寄せ処理を行うようにしてもよい。すなわち、該名寄せ処理装置210の制御部240は、企業名を示す複数の企業データがリスト化された外部データベース810を名寄せリストL1又はL2と照合し、同一の識別情報が紐付く名称データと一致する外部データベース810内の企業データに対し共通データを付与して整理するものであってよい。また、該制御部240は、上記照合の際、知財データベース510内の各名称データの何れとも一致しない企業データのうち、知財データベース510内に類似する名称データが存在するものについては、その類似する名称データに紐付く識別情報に基づいて整理するようにしてもよい。該制御部240は、Word2Vecなどの自然言語処理により、企業データと名称データとが類似するか否かを判定するとよい。
【符号の説明】
【0093】
10、10A、10B、110、210 名寄せ処理装置、11 通信部、12 記憶部、13 データベース部、14、140、240 制御部、14a、340a、440a 情報処理手段、14b、140b、240b、340b、440b 名寄せ手段、50 管理端末、80 情報端末、241 リスト化手段、242 提供手段、330、430 名寄せデータ、500 情報提供サーバ、510 知財データベース、600 企業サーバ、610 企業データベース、800 外部サーバ、810 外部データベース、L1、L2 名寄せリスト、N ネットワーク、P1~P5 名寄せ処理プログラム。