(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023102088
(43)【公開日】2023-07-24
(54)【発明の名称】エンティティ同定装置及びエンティティ同定方法
(51)【国際特許分類】
G06F 16/383 20190101AFI20230714BHJP
【FI】
G06F16/383
【審査請求】有
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2022002448
(22)【出願日】2022-01-11
(11)【特許番号】
(45)【特許公報発行日】2022-05-24
(71)【出願人】
【識別番号】512313953
【氏名又は名称】株式会社ビズリーチ
(74)【代理人】
【識別番号】110002815
【氏名又は名称】IPTech弁理士法人
(72)【発明者】
【氏名】友部 博教
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA01
5B175FB03
5B175HA01
(57)【要約】
【課題】 テキスト文書に出現する人物を適切に同定することを可能とするエンティティ同定装置及びエンティティ同定方法を提供する。
【解決手段】 エンティティ同定装置は、テキスト文書において出現する人物に関する第1用語を抽出する抽出部と、人物に関する呼称を格納するデータベースを用いて、前記第1用語に相当する人物呼称を特定し、特定された人物呼称に基づいて、前記第1用語が示す対象人物を同定する同定部と、を備える。
【選択図】
図2
【特許請求の範囲】
【請求項1】
テキスト文書において出現する人物に関する第1用語を抽出する抽出部と、
人物に関する呼称を格納するデータベースを用いて、前記第1用語に相当する人物呼称を特定し、特定された人物呼称に基づいて、前記第1用語が示す対象人物を同定する同定部と、を備える、エンティティ同定装置。
【請求項2】
前記抽出部は、前記テキスト文書において前記第1用語からの距離が所定距離内に出現する第2用語を抽出し、
前記同定部は、
人物の所属に関する呼称を格納するデータベースを用いて、前記第2用語に相当する所属呼称を特定し、特定された所属呼称に基づいて、前記人物呼称に基づいて特定された対象人物の候補の所属を特定し、
前記人物呼称に基づいて特定された対象人物の候補の中から、特定された所属に基づいて前記対象人物を同定する、請求項1に記載のエンティティ同定装置。
【請求項3】
前記同定部は、前記人物呼称が氏及び名の少なくとも一部を含む第1呼称である場合に、前記特定された所属を優先的に用いて前記対象人物を同定する、請求項2に記載のエンティティ同定装置。
【請求項4】
前記テキスト文書は、前記テキスト文書の記述者を特定可能な文書であり、
前記同定部は、
人物の相関に関する相関関係を格納するデータベースを用いて、前記人物呼称に基づいて特定された対象人物の候補と前記記述者との相関関係を特定し、
前記人物呼称に基づいて特定された対象人物の候補の中から、特定された相関関係に基づいて前記対象人物を同定する、請求項1乃至請求項3のいずれか1項に記載のエンティティ同定装置。
【請求項5】
前記同定部は、前記人物呼称が氏及び名の少なくとも一部を含む呼称以外の第2呼称である場合に、前記特定された相関関係を優先的に用いて前記対象人物を同定する、請求項4に記載のエンティティ同定装置。
【請求項6】
前記抽出部は、前記テキスト文書において前記第1用語からの距離が所定距離内に出現する第2用語を抽出し、
前記同定部は、
人物に関する特徴語を格納するデータベースを用いて、前記第2用語に相当する特徴語を特定し、
前記人物呼称に基づいて特定された対象人物の候補の中から、特定された特徴語に基づいて前記対象人物を同定する、請求項1乃至請求項5のいずれか1項に記載のエンティティ同定装置。
【請求項7】
テキスト文書において出現する人物に関する第1用語を抽出するステップと、
人物に関する呼称を格納するデータベースを用いて、前記第1用語に相当する人物呼称を特定するステップと、
特定された人物呼称に基づいて、前記第1用語が示す対象人物を同定するステップと、を備える、エンティティ同定方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、エンティティ同定装置及びエンティティ同定方法に関する。
【背景技術】
【0002】
従来、会社などの組織において、チャットやメールなどのコミュニケーションツールの導入が進んでいる。このようなコミュニケーションツールを用いると、メッセージなどのテキスト文書が膨大な量になる。
【0003】
また、テキスト文書を解析することによって、テキスト文書の分類などに活用する利用シーンが想定される。例えば、テキスト文書に含まれる単語の置換、追加又は削除によってテキスト文書の意味を変更し、機械学習を用いてテキスト文書を階層的に分類する技術が提案されている(例えば、特許文献1)。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
上述した背景下において、発明者等は、鋭意検討の結果、組織で用いるコミュニケーションツールについて、テキスト文書に出現する人物を同定することが極めて重要であることを見出した。例えば、テキスト文書に出現する人物を同定することによって、その人物に関するテキスト文書を抽出することができ、業務の円滑化などを図ることができる。
【0006】
しかしながら、コミュニケーションツールにおいては、テキスト文書において人物の氏名(フルネーム)が用いられることは希であり、人物の名字のみが用いられたり、人物の異名(ニックネームなど)が用いられたりすることも多い。
【0007】
一方で、上述した機械学習では、教師データが必要とされ、人物の同定に特化したものでもないため、教師データの生成が煩雑であり、適切に人物を同定することができない。
【0008】
そこで、本発明は、上述した課題を解決するためになされたものであり、テキスト文書に出現する人物を適切に同定することを可能とするエンティティ同定装置及びエンティティ同定方法を提供することを目的とする。
【課題を解決するための手段】
【0009】
開示の一態様は、テキスト文書において出現する人物に関する第1用語を抽出する抽出部と、人物に関する呼称を格納するデータベースを用いて、前記第1用語に相当する人物呼称を特定し、特定された人物呼称に基づいて、前記第1用語が示す対象人物を同定する同定部と、を備える、エンティティ同定装置である。
【0010】
開示の一態様は、テキスト文書において出現する人物に関する第1用語を抽出するステップと、人物に関する呼称を格納するデータベースを用いて、前記第1用語に相当する人物呼称を特定するステップと、特定された人物呼称に基づいて、前記第1用語が示す対象人物を同定するステップと、を備える、エンティティ同定方法である。
【発明の効果】
【0011】
本発明によれば、テキスト文書に出現する人物を適切に同定することを可能とするエンティティ同定装置及びエンティティ同定方法を提供することができる。
【図面の簡単な説明】
【0012】
【
図1】
図1は、実施形態に係るエンティティ同定システム100を示す図である。
【
図2】
図2は、実施形態に係るエンティティ同定装置30を示す図である。
【
図3】
図3は、実施形態に係る管理部32に格納されたデータの一例を示す図である。
【
図4】
図4は、実施形態に係る具体例を説明するための図である。
【
図5】
図5は、実施形態に係る具体例を説明するための図である。
【
図6】
図6は、実施形態に係る具体例を説明するための図である。
【
図7】
図7は、実施形態に係る具体例を説明するための図である。
【
図8】
図8は、実施形態に係る具体例を説明するための図である。
【
図9】
図9は、実施形態に係るスコアを説明するための図である。
【
図10】
図10は、実施形態に係るエンティティ同定方法を示す図である。
【発明を実施するための形態】
【0013】
以下において、実施形態について図面を参照しながら説明する。なお、以下の図面の記載において、同一又は類似の部分には、同一又は類似の符号を付している。
【0014】
但し、図面は模式的なものであり、各寸法の比率などは現実のものとは異なる場合があることに留意すべきである。従って、具体的な寸法などは以下の説明を参酌して判断すべきである。また、図面相互間においても互いの寸法の関係又は比率が異なる部分が含まれている場合があることは勿論である。
【0015】
[開示の概要]
開示の概要に係るエンティティ同定装置は、テキスト文書において出現する人物に関する第1用語を抽出する抽出部と、人物に関する呼称を格納するデータベースを用いて、前記第1用語に相当する人物呼称を特定し、特定された人物呼称に基づいて、前記第1用語が示す対象人物を同定する同定部と、を備える。
【0016】
開示の概要に係るエンティティ同定方法は、テキスト文書において出現する人物に関する第1用語を抽出するステップと、人物に関する呼称を格納するデータベースを用いて、前記第1用語に相当する人物呼称を特定するステップと、特定された人物呼称に基づいて、前記第1用語が示す対象人物を同定するステップと、を備える。
【0017】
開示の概要によれば、エンティティ同定装置は、テキスト文書において出現する人物に関する第1用語を抽出し、第1用語に相当する人物呼称を特定し、特定された人物呼称に基づいて、第1用語が示す対象人物を同定する。このような構成によれば、テキスト文書において出現する対象人物(エンティティ)を適切に同定することができる。
【0018】
特に限定されるものではないが、テキスト文書は、チャットやメールなどのコミュニケーションツールの内容であってもよい。従って、テキスト文書の差出人については既知であってもよい。同様に、テキスト文書の宛名人についても既知であってもよい。なお、差出人は、記述者又は発話者などと読み替えられてもよい。このような想定下において、エンティティ同定装置によって同定される対象人物は、差出人及び宛名人以外の人物であってもよい。
【0019】
[実施形態]
(エンティティ同定システム)
以下において、実施形態に係るエンティティ同定システムについて説明する。
図1は、実施形態に係るエンティティ同定システム100を示す図である。特に限定されるものではないが、エンティティ同定システム100は、テキスト文書において出現する第1用語が示す対象人物を同定する。テキスト文書は、チャットやメールなどのコミュニケーションツールの内容であってもよい。
【0020】
さらに、コミュニケーションツールは、組織で用いられるツールであってもよい。組織は、法人格を有する団体であってもよく、法人格を有していない団体であてもよい。人物は、組織と雇用関係を有する人物であってもよく、組織と契約関係を有する人物であってもよい。特に限定されるものではないが、以下においては、組織が法人であり、人物が従業員であるケースについて例示する。
【0021】
図1に示すように、エンティティ同定システム100は、第1端末10と、第2端末20と、エンティティ同定装置30と、を有する。第1端末10、第2端末20、エンティティ同定装置30は、ネットワーク200によって接続される。特に限定されるものではないが、ネットワーク200は、インターネット網によって構成されてもよい。ネットワーク200は、ローカルエリアネットワークを含んでもよく、移動体通信網を含んでもよく、VPN(Virtual Private Network)を含んでもよい。
【0022】
第1端末10は、テキスト文書の差出人が使用する端末である。例えば、第1端末10は、パーソナルコンピュータであってもよく、スマートフォンであってもよく、タブレット端末であってもよい。特に限定されるものではないが、差出人は、第1端末10を用いて、テキスト文書を入力してもよい。
【0023】
第2端末20は、テキスト文書の宛名人が使用する端末である。第2端末20は、パーソナルコンピュータであってもよく、スマートフォンであってもよく、タブレット端末であってもよい。特に限定されるものではないが、宛名人は、第2端末20を用いて、テキスト文書を閲覧してもよい。
【0024】
特に限定されるものではないが、宛名人は、2以上の宛名人であってもよい。例えば、コミュニケーションツールがメールである場合には、TOで指定された宛名人だけではなく、CC(Carbon Copy)又はBCC(Blind Carbon Copy)で指定された宛名人を含んでもよい。コミュニケーションツールがグループチャットである場合には、宛名人は、グループチャットに含まれるメンバーであってもよい。或いは、宛名人が特定する機能(メンション機能)が用いられる場合には、宛名人は、メンション機能で指定されたメンバーであってもよい。
【0025】
エンティティ同定装置30は、テキスト文書において出現する第1用語が示す対象人物を同定する装置である。エンティティ同定装置30の詳細については後述する。
【0026】
(エンティティ同定装置)
以下において、実施形態に係るエンティティ同定装置について説明する。
図2は、実施形態に係るエンティティ同定装置30を示す図である。
図2に示すように、エンティティ同定装置30は、通信部31と、管理部32と、制御部33と、を有する。
【0027】
通信部31は、通信モジュールによって構成される。通信モジュールは、IEEE802.11a/b/g/n/ac/ax、LTE、5G、6Gなどの規格に準拠する無線通信モジュールであってもよく、IEEE802.3などの規格に準拠する有線通信モジュールであってもよい。
【0028】
実施形態では、通信部31は、テキスト文書を受信する。例えば、通信部31は、コミュニケーションツールを用いて送信又は受信されるテキスト文書を格納するデータベースからテキスト文書を受信してもよい。或いは、通信部31は、コミュニケーションツールと連携しており、コミュニケーションツールを用いてテキスト文書が送信又は受信された段階でテキスト文書を受信してもよい。
【0029】
管理部32は、SSD(Solid State Drive)、HDD(Hard Disk Drive)などの記憶媒体によって構成されており、様々な情報を格納する。
【0030】
実施形態では、管理部32は、人物に関する呼称を格納するデータベース(以下、第1DB)を有してもよい。管理部32は、人物の所属に関する呼称を格納するデータベース(以下、第2DB)を有してもよい。管理部32は、人物の相関に関する相関関係を格納するデータベース(以下、第3DB)を有してもよい。管理部32は、人物に関する特徴語を格納するデータベース(以下、第4DB)を有してもよい。特に限定されるものではないが、第1DB、第2DB、第3DB及び第4DBは、法人に属する従業員の人事に関するデータを格納する人事DBに含まれてもよい。
【0031】
例えば、管理部32は、
図3に示すデータを格納する人事DBを有してもよい。
図3に示すように、管理部32は、第1呼称、第2呼称、所属呼称、相関関係、特徴語を対応付けるデータを管理してもよい。
【0032】
第1呼称は、氏及び名の少なくとも一部を含む呼称である。第1呼称は、本名、実名などと称されてもよい。実施形態では、”氏”のみを第1呼称と考えてもよく、”名”のみを第1呼称と考えてもよい。第1呼称は、人物呼称の一例である。
【0033】
第2呼称は、氏及び名の少なくとも一部を含む呼称以外の呼称である。第2呼称は、愛称(ニックネーム)、別名、異名、別名などと称されてもよい。第2呼称は、少なくtoo第1呼称と対応付けられる。第2呼称は、人物呼称の一例である。
【0034】
所属呼称は、第1呼称を有する人物の所属に関する呼称である。所属呼称は、少なくとも第1呼称と対応付けられる。特に限定されるものではないが、所属呼称は、第1呼称と階層的に対応付けられてもよい。例えば、XX本部、XX部、XX課、XX担当などの階層毎の所属呼称が第1呼称と対応付けられてもよい。
【0035】
相関関係は、第1呼称を有する人物と相関関係を有する人物を特定する情報である。相関関係は、少なくとも第1呼称と対応付けられる。相関関係は、第1呼称を有する人物に対する相関距離を表す情報を含む。例えば、第1呼称を有する人物と同じ部署に属する人物に対する相関距離は近く、第1呼称を有する人物と異なる部署に属する人物に対する相関距離は遠くてもよい。第1呼称を有する人物と業務上の繋がりを有する人物に対する相関距離は近く、第1呼称を有する人物と業務上の繋がりを有していない人物に対する相関距離は遠くてもよい。第1呼称を有する人物と個人的に親しい人物に対する相関距離は近く、第1呼称を有する人物と個人的に親しくない人物に対する相関距離は遠くてもよい。相関関係は、組織を構成する部署の相関図(例えば、組織図)に基づいて特定されてもよく、第1呼称を有する人物によって入力されてもよく、人事担当者などの第三者によって入力されてもい。
【0036】
特徴語は、第1呼称を有する人物に関する特徴語である。特徴語は、少なくとも第1呼称と対応付けられる。特徴語は、第1呼称を有する人物の業務に関する特徴を表す用語を含んでもよく、第1呼称を有する人物の個人的な特徴を表す用語を含んでもよい。特徴語は、これらの用語の略称を含んでもよい。
【0037】
図3では、氏が「AA」で共通する3名の従業員が存在するケースが例示されている。第1呼称が「AA XX」である人物は、マーケティング部に所属しており、第1呼称が「AA YY」である人物は、法務室に所属しており、第1呼称が「AA ZZ」である人物は、セールス部に所属している。
【0038】
制御部33は、少なくとも1つのプロセッサを含んでもよい。少なくとも1つのプロセッサは、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、1以上のIntegrated Circuit、1以上のDiscrete Circuit、及び、これらの組合せによって構成されてもよい。
【0039】
実施形態では、制御部33は、抽出部33A及び同定部33Bを有する。
【0040】
抽出部33Aは、テキスト文書において出現する人物に関する第1用語を抽出する抽出部を構成する。第1用語は、テキスト文書において出現する用語であるため、第1呼称(氏のみ、名のみ、氏名)である可能性があり、第2呼称である可能性もある。特に限定されるものではないが、第1用語は、既知の形態素解析などによって抽出されてもよい。
【0041】
同定部33Bは、管理部32の人事DB(第1DB)を用いて、第1用語に相当する人物呼称を特定し、特定された人物呼称に基づいて、第1用語が示す対象人物を同定する同定部を構成する。
【0042】
このような前提下において、第1用語に相当する人物呼称によって対象人物を1名に絞り込めないケースが考えられる。言い換えると、第1用語に相当する人物呼称によって絞り込まれた対象人物の候補が2名以上であるケースが考えられる。このようなケースにおいて、抽出部33A及び同定部33Bは、以下に示す動作を実行してもよい。
【0043】
オプション1では、抽出部33Aは、テキスト文書において第1用語からの距離が所定距離内に出現する第2用語を抽出してもよい。第2用語は、既知の形態素解析などによって抽出されてもよい。第2用語は、周辺語と称されてもよい。距離及び所定距離は、文字数によって定義されてもよく、単語数によって定義されてもよく、文節数によって定義されてもよく、文数によって定義されてもよい。
【0044】
同定部33Bは、管理部32の人事DB(第2DB)を用いて、第2用語に相当する所属呼称を特定し、特定された所属呼称に基づいて、人物呼称に基づいて特定された対象人物の候補の所属を特定する。同定部33Bは、人物呼称に基づいて特定された対象人物の候補の中から、特定された所属に基づいて対象人物を同定する。
【0045】
オプション2では、同定部33Bは、管理部32の人事DB(第3DB)を用いて、人物呼称に基づいて特定された対象人物の候補と記述者との相関関係を特定する。同定部33Bは、人物呼称に基づいて特定された対象人物の候補の中から、特定された相関関係に基づいて対象人物を同定する。例えば、同定部33Bは、記述者に対する相関距離が最も近い人物を対象人物として同定してもよい。
【0046】
オプション3では、抽出部33Aは、テキスト文書において第1用語からの距離が所定距離内に出現する第2用語を抽出してもよい。第2用語は、既知の形態素解析などによって抽出されてもよい。第2用語は、周辺語と称されてもよい。距離及び所定距離は、文字数によって定義されてもよく、単語数によって定義されてもよく、文節数によって定義されてもよく、文数によって定義されてもよい。
【0047】
同定部33Bは、管理部32の人事DB(第4DB)を用いて、人物に関する特徴語を格納するデータベースを用いて、第2用語に相当する特徴語を特定する。同定部33Bは、人物呼称に基づいて特定された対象人物の候補の中から、特定された特徴語に基づいて対象人物を同定する。
【0048】
ここで、上述したオプション1(所属呼称)、オプション2(相関関係)及びオプション3(特徴語)の中から選択された2以上のオプションが組み合わされてもよい。例えば、オプション1(所属呼称)に基づいて対象人物の候補の各々のスコアが算出されてもよい。オプション2(相関関係)に基づいて対象人物の候補の各々のスコアが算出されてもよい。オプション3(特徴語)に基づいて対象人物の候補の各々のスコアが算出されてもよい。スコアは、対象人物の候補が対象人物である可能性を表す指標であると考えてもよい。同定部33Bは、オプション1~オプション3の中から選択された2以上のオプションに基づいたスコアの合計が最も大きい対象人物の候補を対象人物として同定してもよい。
【0049】
このようなケースにおいて、オプション1~オプション3に基づいたスコアに対して重付値が適用されてもよい。重付値は、オプション1~オプション3の優先順位を定めるための値である。
【0050】
例えば、同定部33Bは、人物呼称が第1呼称である場合に、特定された所属(すなわち、オプション1)を優先的に用いて対象人物を同定してもよい。「優先的に」とは、オプション1がオプション2及びオプション3よりも優先されることを意味してもよい。「優先的に」とは、オプション1に適用される重付値がオプション2及びオプション3に適用される重付値よりも大きいことを意味してもよい。このようなケースにおいては、テキスト文書に出願する第1用語が氏又は名などの第1呼称であるため、テキスト文書がオフィシャルである蓋然性が高いため、第2オプションが優先的に用いられてもよい。
【0051】
或いは、同定部33Bは、人物呼称が第2呼称である場合に、相関関係(すなわち、オプション2)を優先的に用いて対象人物を同定してもよい。「優先的に」とは、オプション2がオプション1及びオプション3よりも優先されることを意味してもよい。「優先的に」とは、オプション2に適用される重付値がオプション1及びオプション3に適用される重付値よりも大きいことを意味してもよい。このようなケースにおいては、テキスト文書に出願する第1用語が愛称などの第2呼称であるため、記述者に近しい人物が対象人物である蓋然性が高いため、第2オプションが優先的に用いられてもよい。
【0052】
但し、これらの例は一例に過ぎず、例えば、同定部33Bは、人物呼称が第1呼称であっても、人物呼称が名のみである場合には、記述者に近しい人物が対象人物である蓋然性が高いため、第2オプションを優先的に用いてもよい。
【0053】
(具体例)
以下において、実施形態の具体例について説明する。以下においては、「特許の件については法務室のAAさんにご相談下さい」というテキスト文書を例に挙げて、「AAさん」が示す対象人物の同定方法について説明する。テキスト文書の記述者は「PP QQ」である。
【0054】
第1に、抽出部33Aは、
図4に示すように、テキスト文書の形態素解析などによって、「特許」、「法務室」、「AAさん」、「ご相談」などの用語を抽出する。「AAさん」は、第1用語の一例である。「特許」、「法務室」及び「ご相談」は、第2用語(周辺語)の一例である。
【0055】
第2に、同定部33Bは、
図5に示すように、管理部32の人事DB(第1DB)を用いて、第1用語「AAさん」に相当する人物呼称「AA」を特定し、特定された人物呼称に基づいて、第1用語が示す対象人物の同定を試みる。ここでは、
図3で例示したように、「AA XX」、「AA YY」、「AA ZZ」の3名が対象人物の候補として特定され、人物呼称のみでは対象人物を同定することができないケースが例示されている。
【0056】
上述したオプション1が用いられる場合には、同定部33Bは、
図6に示すように、管理部32の人事DB(第2DB)を用いて、第2用語「法務室」に相当する所属呼称「法務室」を特定し、特定された所属呼称「法務室」に基づいて、人物呼称に基づいて特定された対象人物の候補の所属を特定する。同定部33Bは、人物呼称に基づいて特定された対象人物の候補の中から、特定された所属に基づいて対象人物を同定する。ここでは、法務室に所属する「AA YY」が対象人物として同定されてもよい。
【0057】
或いは、オプション1に基づいたスコアとして、特定された所属呼称を有する対象人物の候補(ここでは、「AA YY」)のスコア”1”が算出され、特定された所属呼称を有していない対象人物の候補(ここでは、「AA XX」、「AA-ZZ」)のスコア”0”が算出されてもよい。
【0058】
上述したオプション2が用いられる場合には、同定部33Bは、
図7に示すように、管理部32の人事DB(第3DB)を用いて、人物呼称に基づいて特定された対象人物の候補と記述者との相関関係を特定する。同定部33Bは、人物呼称に基づいて特定された対象人物の候補の中から、特定された相関関係に基づいて対象人物を同定する。ここでは、記述者「PP QQ」に対する相関距離が最も近い「AA YY」が対象人物として同定されてもよい。
【0059】
或いは、オプション2に基づいたスコアとして、相関距離に基づいたスコアが算出されてもよい。相関距離に基づいたスコアは、1/(1+相関距離)で表されてもよい。相関距離は、記述者と対象人物の候補との間のパスの数によって定義されてもよい。例えば、「AA YY」のスコアは、0.5(=1/(1+1))であり、「AA ZZ」のスコアは、0.33(=1/(1+2))であり、「AA XX」のスコアは、0.25(=1/(1+3))であってもよい。
【0060】
上述したオプション3が用いられる場合には、同定部33Bは、
図8に示すように、管理部32の人事DB(第4DB)を用いて、第2用語「特許」に相当する特徴語「特許」を特定する。同定部33Bは、人物呼称に基づいて特定された対象人物の候補の中から、特定された特徴語「特許」に基づいて対象人物を同定する。ここでは、「特許」を特徴語として有する「AA YY」が対象人物として同定されてもよい。
【0061】
或いは、オプション3に基づいたスコアとして、特定された特徴語を有する対象人物の候補(ここでは、「AA YY」)のスコア”1”が算出され、特定された特徴語を有していない対象人物の候補(ここでは、「AA XX」、「AA-ZZ」)のスコア”0”が算出されてもよい。
【0062】
ここで、オプション1~オプション3が組み合わされる場合には、
図9に示すように、オプション1~オプション3に基づいたスコアの合計が算出され、スコアの合計が最も大きい対象人物の候補(ここでは、「AA YY」)を対象人物として同定してもよい。
【0063】
さらに、上述したように、オプション1~オプション3に基づいたスコアに重付値が適用されてもよい。重付値は、オプション1~オプション3の優先順位を定めるための値である。例えば、人物呼称が第1呼称である場合に、オプション1に適用される重付値がオプション2及びオプション3に適用される重付値よりも大きくてもよい。或いは、人物呼称が第2呼称である場合に、オプション2に適用される重付値がオプション1及びオプション3に適用される重付値よりも大きくてもよい。
【0064】
(エンティティ同定方法)
以下において、実施形態に係るエンティティ同定方法について説明する。ここでは、第1用語に相当する人物呼称によって絞り込まれた対象人物の候補が2名以上であり、オプション1~オプション3を用いて対象人物が同定されるケースについて説明する。
【0065】
図10に示すように、ステップS10において、エンティティ同定装置30は、テキスト文書の形態素解析などによって、第1用語及び第2用語(周辺語)を抽出する。
【0066】
ステップS12において、エンティティ同定装置30は、管理部32の人事DB(第1DB)を用いて、第1用語に相当する人物呼称を特定する。
【0067】
ステップS14において、エンティティ同定装置30は、管理部32の人事DB(第2DB)を用いて、第2用語に相当する所属呼称を特定し、特定された所属呼称に基づいて、人物呼称に基づいて特定された対象人物の候補の所属を特定する(オプション1)。
【0068】
ステップS16において、エンティティ同定装置30は、管理部32の人事DB(第3DB)を用いて、人物呼称に基づいて特定された対象人物の候補と記述者との相関関係を特定する(オプション2)。
【0069】
ステップS18において、エンティティ同定装置30は、管理部32の人事DB(第4DB)を用いて、第2用語に相当する特徴語を特定する(オプション3)。
【0070】
ステップS20において、エンティティ同定装置30は、人物呼称に基づいて特定された対象人物の候補の中から、オプション1~オプション3に基づいたスコアに基づいて対象人物を特定する。オプション1~オプション3に基づいたスコアに重付値が適用されてもよい。
【0071】
(作用及び効果)
実施形態では、エンティティ同定装置30は、テキスト文書において出現する人物に関する第1用語を抽出し、第1用語に相当する人物呼称を特定し、特定された人物呼称に基づいて、第1用語が示す対象人物を同定する。このような構成によれば、テキスト文書において出現する対象人物(エンティティ)を適切に同定することができる。
【0072】
実施形態では、エンティティ同定装置30は、人物呼称に基づいて特定された対象人物の候補の中から、オプション1~オプション3の中から選択された1以上のオプションに基づいて対象人物を特定してもよい。このような構成によれば、第1用語に相当する人物呼称によって絞り込まれた対象人物の候補が2名以上であっても、テキスト文書において出現する対象人物(エンティティ)を適切に同定することができる。
【0073】
実施形態では、オプション1~オプション3に基づいたスコアに重付値が適用されてもよい。このような構成によれば、オプション1~オプション3の優先順位を適切に定めることができる。従って、テキスト文書において出現する対象人物(エンティティ)を適切に同定することができる。
【0074】
[その他の実施形態]
本発明は上述した実施形態によって説明したが、この開示の一部をなす論述及び図面は、この発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施形態、実施例及び運用技術が明らかとなろう。
【0075】
上述した開示では特に触れていないが、第1用語に相当する人物呼称によって対象人物を1名に絞り込める場合には、オプション1~オプション3は用いられなくてもよい。
【0076】
上述した開示では、テキスト文書において出現する対象人物が従業員であるケースについて主として例示した。しかしながら、実施形態はこれに限定されるものではない。対象人物は、第1呼称、第2呼称、所属呼称、相関関係、特徴語などが管理部32によって管理される人物であればよい。例えば、対象人物は、法人の取引業者に属する人物を含んでもよい。
【0077】
上述した開示では特に触れていないが、人物呼称は人称代名詞を含んでもよい。人称代名詞は、上述した第2呼称と同様に取り扱われてもよい。
【0078】
上述した開示では特に触れていないが、「第1用語に相当する人物呼称」、「第2用語に相当する所属呼称」、「第2用語に相当する特徴語」などにおいて、「相当」は、両者の完全一致を意味する用語であってもよく、両者の部分一致を意味する用語であってもよい。或いは、「相当」は、両者の類似度がスコア化可能である場合に、両者の類似度が閾値以上であることを意味してもよい。類似度のスコア化は、各用語のユーグリッド距離を用いたスコア化、各用語のコサイン類似度を用いたスコア化など、既知の方法が用いられてもよい。
【0079】
上述した開示では、第1DB~第4DBがエンティティ同定装置30に設けられるケースについて例示した。しかしながら、上述した開示はこれに限定されるものではない。第1DB~第4DBは、エンティティ同定装置30とは別体として、エンティティ同定装置30と通信可能な同一の外部サーバに含まれてもよく、エンティティ同定装置30と通信可能な別々の外部サーバに含まれてもよい。第1DB~第4DBの少なくともいずれか1は、SaaS(Service as a Software)によって実現されてもよい。
【0080】
上述した開示では特に触れていないが、エンティティ同定装置30が行う各処理をコンピュータに実行させるプログラムが提供されてもよい。また、プログラムは、コンピュータ読取り可能媒体に記録されていてもよい。コンピュータ読取り可能媒体を用いれば、コンピュータにプログラムをインストールすることが可能である。ここで、プログラムが記録されたコンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD-ROMやDVD-ROM等の記録媒体であってもよい。
【0081】
或いは、エンティティ同定装置30が行う各処理を実行するためのプログラムを記憶するメモリ及びメモリに記憶されたプログラムを実行するプロセッサによって構成されるチップが提供されてもよい。
【符号の説明】
【0082】
10…第1端末、20…第2端末、30…エンティティ同定装置、31…通信部、32…管理部、33…制御部、100…エンティティ同定システム、200…ネットワーク
【手続補正書】
【提出日】2022-04-18
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
テキスト文書において出現する人物に関する第1用語を抽出する抽出部と、
人物に関する呼称を格納するデータベースを用いて、前記第1用語に相当する人物呼称を特定し、特定された人物呼称に基づいて特定された対象人物の候補の中から、前記テキスト文書に関する情報に基づいて、前記第1用語が示す対象人物を同定する同定部と、を備える、エンティティ同定装置。
【請求項2】
前記抽出部は、前記テキスト文書において前記第1用語からの距離が所定距離内に出現する第2用語を抽出し、
前記同定部は、
人物の所属に関する呼称を格納するデータベースを用いて、前記第2用語に相当する所属呼称を特定し、特定された所属呼称に基づいて、前記人物呼称に基づいて特定された対象人物の候補の所属を特定し、
前記人物呼称に基づいて特定された対象人物の候補の中から、特定された所属に基づいて前記対象人物を同定する、請求項1に記載のエンティティ同定装置。
【請求項3】
前記同定部は、前記人物呼称が氏及び名の少なくとも一部を含む第1呼称である場合に、前記特定された所属を優先的に用いて前記対象人物を同定する、請求項2に記載のエンティティ同定装置。
【請求項4】
前記テキスト文書は、前記テキスト文書の記述者を特定可能な文書であり、
前記同定部は、
人物の相関に関する相関関係を格納するデータベースを用いて、前記人物呼称に基づいて特定された対象人物の候補と前記記述者との相関関係を特定し、
前記人物呼称に基づいて特定された対象人物の候補の中から、特定された相関関係に基づいて前記対象人物を同定する、請求項1乃至請求項3のいずれか1項に記載のエンティティ同定装置。
【請求項5】
前記同定部は、前記人物呼称が氏及び名の少なくとも一部を含む呼称以外の第2呼称である場合に、前記特定された相関関係を優先的に用いて前記対象人物を同定する、請求項4に記載のエンティティ同定装置。
【請求項6】
前記抽出部は、前記テキスト文書において前記第1用語からの距離が所定距離内に出現する第2用語を抽出し、
前記同定部は、
人物に関する特徴語を格納するデータベースを用いて、前記第2用語に相当する特徴語を特定し、
前記人物呼称に基づいて特定された対象人物の候補の中から、特定された特徴語に基づいて前記対象人物を同定する、請求項1乃至請求項5のいずれか1項に記載のエンティティ同定装置。
【請求項7】
エンティティ同定装置が、テキスト文書において出現する人物に関する第1用語を抽出するステップと、
前記エンティティ同定装置が、人物に関する呼称を格納するデータベースを用いて、前記第1用語に相当する人物呼称を特定するステップと、
前記エンティティ同定装置が、特定された人物呼称に基づいて特定された対象人物の候補の中から、前記テキスト文書に関する情報に基づいて、前記第1用語が示す対象人物を同定するステップと、を備える、エンティティ同定方法。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0033
【補正方法】変更
【補正の内容】
【0033】
第2呼称は、氏及び名の少なくとも一部を含む呼称以外の呼称である。第2呼称は、愛称(ニックネーム)、別名、異名、別名などと称されてもよい。第2呼称は、少なくとも第1呼称と対応付けられる。第2呼称は、人物呼称の一例である。