特開2024-8244 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-8244抽出プログラム、抽出方法および情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024008244

(43)【公開日】2024-01-19

(54)【発明の名称】抽出プログラム、抽出方法および情報処理装置

(51)【国際特許分類】

G06F 40/295 20200101AFI20240112BHJP

G06F 40/216 20200101ALI20240112BHJP

【ＦＩ】

G06F40/295

G06F40/216

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2022109952

(22)【出願日】2022-07-07

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】田中一成

【テーマコード（参考）】

5B091

【Ｆターム（参考）】

5B091CA01

5B091CC01

5B091CC05

5B091EA01

(57)【要約】

【課題】適切にエンティティを抽出すること。
【解決手段】情報処理装置は、テキストに含まれる複数の物質名をそれぞれ検出する。情報処理装置は、複数の物質名それぞれについて、物質名に対応する物質の複数の機能を推定し、推定した複数の機能を物質名に関連付ける。情報処理装置は、複数の物質名に関連付けた複数の機能の組み合わせ情報を作成する。情報処理装置は、組み合わせ情報に含まれる複数の物質名の機能の組が同一のテキストで共起する共起確率を基にして、複数の物質名が１つのエンティティであるか否かを判定する。
【選択図】図２

【特許請求の範囲】

【請求項1】

テキストに含まれる複数の物質名をそれぞれ検出し、
前記複数の物質名それぞれについて、前記物質名に対応する物質の複数の機能を推定し、推定した前記複数の機能を前記物質名に関連付け、
前記複数の物質名に関連付けた複数の機能の組み合わせ情報を作成し、
前記組み合わせ情報に含まれる複数の物質名の機能の組が同一のテキストで共起する共起確率を基にして、前記複数の物質名が１つのエンティティであるか否かを判定する
処理をコンピュータに実行させることを特徴とする抽出プログラム。

【請求項2】

前記複数の物質名には、第１の物質名と、第２の物質名とが含まれ、前記組み合わせ情報を作成する処理は、前記第１の物質名に関連付けられた複数の機能と、前記第２の物質名に関連付けられた複数の機能との組み合わせ情報を生成し、前記判定する処理は、いずれかの機能の組の共起確率が閾値以上となる場合に、前記第１の物質名と、前記第２の物質名とが１つのエンティティであると判定することを特徴とする請求項１に記載の抽出プログラム。

【請求項3】

複数の機能の共起確率を設定した共起確率情報を基にして、前記共起確率と比較する前記閾値を算出する処理を更にコンピュータに実行させることを特徴とする請求項２に記載の抽出プログラム。

【請求項4】

前記判定する処理によって判定されたエンティティの情報を表示部に表示させる処理を更にコンピュータに実行させることを特徴とする請求項１に記載の抽出プログラム。

【請求項5】

テキストに含まれる複数の物質名をそれぞれ検出し、
前記複数の物質名それぞれについて、前記物質名に対応する物質の複数の機能を推定し、推定した前記複数の機能を前記物質名に関連付け、
前記複数の物質名に関連付けた複数の機能の組み合わせ情報を作成し、
前記組み合わせ情報に含まれる複数の物質名の機能の組が同一のテキストで共起する共起確率を基にして、前記複数の物質名が１つのエンティティであるか否かを判定する
処理をコンピュータが実行することを特徴とする抽出方法。

【請求項6】

テキストに含まれる複数の物質名をそれぞれ検出し、
前記複数の物質名それぞれについて、前記物質名に対応する物質の複数の機能を推定し、推定した前記複数の機能を前記物質名に関連付け、
前記複数の物質名に関連付けた複数の機能の組み合わせ情報を作成し、
前記組み合わせ情報に含まれる複数の物質名の機能の組が同一のテキストで共起する共起確率を基にして、前記複数の物質名が１つのエンティティであるか否かを判定する
処理を実行する制御部を有する情報処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、抽出プログラム等に関する。

【背景技術】

【0002】

マテリアルインフォマティクスでは、材料の特性を計算するためのベースとなる学習データを大量に利用するため、如何にして、学習データを収集するのかが重要となる。たとえば、材料の実験を行って、学習データを作成するには多大なコストがかかるため、実験によって、大量の学習データを入手することは難しい。

【0003】

一方、特許文献や論文等に記載された物性データを形式化して収集することで、実験を行う場合と比較して、低コストで、大量に学習データを収集することが期待できる。

【0004】

ここで、特許文献や論文等に記載された物性データを形式化するためには、テキストデータの中でどこからどこまでが対象物を表していて、どの部分がその対象物に対応する物性値であるかを抽出することが求められる。以下の説明では、対象物を「エンティティ」と表記する。物性値を「バリュー」と表記する。

【0005】

図１７は、エンティティの一例を示す図である。図１７に示すテキストデータ１０において、エンティティは、「PAA」、「PAP」である。エンティティに対応する物性名は「glass transition temperatures」である。エンティティに対応するバリューは「373K」である。テキストデータ１０では、２つのエンティティについて、物性情報（物性名、バリュー）が記載されているといえる。特に、複数のエンティティが並列に記載されている場合には、複数のエンティティが別々のエンティティなのか、複数のエンティティを１つの混合物として扱うのかを正しく解釈することが求められる。

【0006】

たとえば、テキストデータからエンティティを抽出する場合には、固有表現抽出技術と、並列表現の解析技術とが用いられる。固有表現抽出技術は、テキストデータから、エンティティとなりうる化合物名を抽出する。並列表現の解析技術は、テキストデータに対して品詞解析を実行し、解説結果として得られた単語や句の記述パターンや、単語や句が同列かどうかを判定するなどして、並列表現か否かを判定する。

【0007】

図１８は、並列表現の解析技術を説明するための図である。図１８に示す例では、テキストデータ１１から、エンティティ１１ａ，１１ｂが抽出されている。たとえば、並列表現の解析技術では、エンティティ１１ａ，１１ｂの記述のパターンが同じで、ともに具体的な物質名である場合には、エンティティ１１ａ，１１ｂを並列表現であると判定する。すなわち、エンティティ１１ａ，１１ｂは、１つの混合物ではなく、別々のエンティティであると判定される。

【先行技術文献】

【特許文献】

【0008】

【特許文献1】特開２０１４－２４０９９９号公報

【発明の概要】

【発明が解決しようとする課題】

【0009】

文法的な並列表現と、エンティティが並列に書かれているかどうかには乖離があり、上述した固有表現抽出技術、並列表現の解析技術では、適切にエンティティを抽出することができない場合がある。

【0010】

図１９は、従来技術の問題点を説明するための図である。図１９に示すテキストデータ１２には、２つの化学物１２ａ，１２ｂが類似のパターンで並列に記載されているため、上記の並列表現の解析技術では、化学物１２ａ，１２ｂを別々のエンティティとして判定してしまう。しかし、実際には、物性情報との関係から、化学物１２ａ，１２ｂは、１つの混合物として抽出すべきエンティティである。

【0011】

化合物名が単体でエンティティになる場合もあれば、複数の化合物名の組み合わせで１つのエンティティとなる場合もあり、単純に固有表現をエンティティとして抽出しても、適切なエンティティとはならない。

【0012】

１つの側面では、本発明は、適切にエンティティを抽出することができる抽出プログラム、抽出方法および情報処理装置を提供することを目的とする。

【課題を解決するための手段】

【0013】

第１の案では、コンピュータに次の処理を実行させる。コンピュータは、テキストに含まれる複数の物質名をそれぞれ検出する。コンピュータは、複数の物質名それぞれについて、物質名に対応する物質の複数の機能を推定し、推定した複数の機能を物質名に関連付ける。コンピュータは、複数の物質名に関連付けた複数の機能の組み合わせ情報を作成する。コンピュータは、組み合わせ情報に含まれる複数の物質名の機能の組が同一のテキストで共起する共起確率を基にして、複数の物質名が１つのエンティティであるか否かを判定する。

【発明の効果】

【0014】

適切にエンティティを抽出することができる。

【図面の簡単な説明】

【0015】

【図1】図１は、本実施例に係る情報処理装置の処理の一例を説明するための図（１）である。

【図2】図２は、本実施例に係る情報処理装置の処理の一例を説明するための図（２）である。

【図3】図３は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。

【図4】図４は、機能特定辞書データのデータ構造の一例を示す図である。

【図5】図５は、共起確率辞書データのデータ構造の一例を示す図である。

【図6】図６は、機能特定辞書データを生成する処理を説明するための図である。

【図7】図７は、共起確率辞書データを生成する処理を説明するための図である。

【図8】図８は、エンティティ候補推定部の処理を説明するための図である。

【図9】図９は、生成部の処理を説明するための図である。

【図10】図１０は、判定部の処理を説明するための図である。

【図11】図１１は、表示制御部が表示する画面情報の一例を示す図である。

【図12】図１２は、本実施例に係る情報処理装置の処理手順を示すフローチャートである。

【図13】図１３は、辞書作成処理の処理手順を示すフローチャートである。

【図14】図１４は、組み合わせデータ生成処理の処理手順を示すフローチャートである。

【図15】図１５は、エンティティ確定処理の処理手順を示すフローチャートである。

【図16】図１６は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

【図17】図１７は、エンティティの一例を示す図である。

【図18】図１８は、並列表現の解析技術を説明するための図である。

【図19】図１９は、従来技術の問題点を説明するための図である。

【発明を実施するための形態】

【0016】

以下に、本願の開示する抽出プログラム、抽出方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

【実施例0017】

本実施例に係る情報処理装置の処理の一例について説明する。図１および図２は、本実施例に係る情報処理装置の処理を説明するための図である。まず、図１について説明する。情報処理装置は、テキストデータ１３を解析して、テキストデータ１３に含まれる物質名「elemental titanium」をエンティティ候補１３ａとして特定し、物質名「the bisphenol」をエンティティ候補１３ｂとして特定する。

【0018】

情報処理装置は、エンティティ候補１３ａに対応する物質の機能（役割）と、エンティティ候補１３ｂに対応する物質の機能とを基にして、混合物としての妥当性を評価する。たとえば、物質「elemental titanium（チタン）」の機能は「金属材料」である。物質「the bisphenol（ビスフェノール硬化剤）」の機能は「有機添加剤」である。

【0019】

情報処理装置は、機能「金属材料」と、機能「有機添加物」とが同一のテキストで共起する共起確率が、混合物として妥当である場合には、「elemental titanium and the bisphenol」をエンティティとして抽出する。一方、情報処理装置は、機能「金属材料」と、機能「有機添加物」との共起確率が、混合物として妥当でない場合には、「elemental titanium」と「the bisphenol」とを別々のエンティティとして抽出する。たとえば、情報処理装置は、機能の共起確率をコーパス等から抽出しておく。

【0020】

ここで、１つのエンティティ候補に対応する物質には複数の機能があり、機能にも抽象度があるため、単純な共起確率によって、混合物としての妥当性を判定することは難しい。たとえば、物質「elemental titanium（チタン）」の機能には、図１で示した「金属材料」の他に、「充填剤」、「無機充填剤」、「導電性材料」、「触媒」等がある。物質「the bisphenol（ビスフェノール硬化剤）」の機能には、図１で示した「有機添加剤」の他に、「潜在型硬化剤」「酸化防止剤」等がある。

【0021】

「無機充填剤」および「硬化剤」の共起確率と、「金属材料」および「酸化防止剤」との共起確率とはそれぞれ異なる共起確率となり、どちらの共起確率を用いるかによって、混合物として妥当であるか否かの判定が揺らいでしまう。また、「充填剤」と「無機充填剤」のように、抽象度が異なる機能名がある場合には、どちらの機能を使うかによって、共起確率が異なり、判定結果も異なる。

【0022】

このため、本実施例に係る情報処理装置は、各エンティティ候補の複数の機能の組み合わせ情報を生成し、組み合わせ情報に含まれる各機能の組の共起確率に基づいて、各エンティティ候補を１つのエンティティとして抽出するか否かを判定する。

【0023】

図２の説明に移行する。図２に示す例では、テキストデータ１４に、「Ａ and Ｂ and Ｃ」というエンティティ候補が含まるものとする。エンティティ候補「Ａ」の機能をａ（１）、ａ（２）、ａ（３）とする。エンティティ候補「Ｂ」の機能をｂ（１）、ｂ（２）、ｂ（３）とする。エンティティ候補「Ｃ」の機能をｃ（１）、ｃ（２）、ｃ（３）とする。なお、機能Ｘと、機能Ｙの共起確率を、「Ｘ：Ｙの共起確率」と表記する。

【0024】

情報処理装置は、機能ａ（１）、ｂ（１）、ｃ（１）の組について、次のように共起確率の和を算出する。下記の例では、共起確率の和を「０．５」とする。
ａ（１）：ｂ（１）の共起確率＋ｂ（１）：ｃ（１）の共起確率＋ｃ（１）：ａ（１）の共起確率→０．５

【0025】

情報処理装置は、機能ａ（１）、ｂ（１）、ｃ（２）の組について、次のように共起確率の和を算出する。下記の例では、共起確率の和を「０．２」とする。
ａ（１）：ｂ（１）の共起確率＋ｂ（１）：ｃ（２）の共起確率＋ｃ（２）：ａ（１）の共起確率→０．２

【0026】

情報処理装置は、機能ａ（１）、ｂ（１）、ｃ（３）の組について、次のように共起確率の和を算出する。下記の例では、共起確率の和を「０．１」とする。
ａ（１）：ｂ（１）の共起確率＋ｂ（１）：ｃ（３）の共起確率＋ｃ（３）：ａ（１）の共起確率→０．１

【0027】

情報処理装置は、機能ａ（１）、ｂ（２）、ｃ（１）の組について、次のように共起確率の和を算出する。下記の例では、共起確率の和を「０．４」とする。
ａ（１）：ｂ（２）の共起確率＋ｂ（２）：ｃ（１）の共起確率＋ｃ（１）：ａ（１）の共起確率→０．４

【0028】

図２では、図示を省略するが、情報処理装置は、その他の機能の組についても、上記計算を行うことで、その他の機能の組に関する共起確率の和を算出する。エンティティ候補が３種類で、各エンティティ候補について、３種類の機能が存在する場合には、２７種類の共起確率の和が算出される。情報処理装置は、各機能の組からそれぞれ算出した共起確率の和のうち、最大の共起確率の和を特定する。情報処理装置は、最大の共起確率の和が閾値以上である場合に、エンティティ候補Ａ、Ｂ、Ｃを、１つのエンティティとして抽出する。

【0029】

たとえば、情報処理装置は、複数の機能の組のうち、機能ａ（１）、ｂ（１）、ｃ（１）の組の共起確率の和「０．５」が最大の共起確率の和であり、かつ、共起確率の和が閾値以上である場合には、エンティティ候補Ａ、Ｂ、Ｃを、１つのエンティティとして抽出する。

【0030】

ここで、複数の機能の組のうち、共起確率の和が最大となる機能の組は、より一般的に共起する機能の組であるといえる。また、機能によって混合される分量が異なる場合でも、共起確率の和を用いることで、分量に合った機能の組を選択することができる。たとえば、充填剤か触媒かによって、使われる分量は異なるが、分量の情報を利用しなくても、共起確率の和から、ある程度妥当な機能の組を選択することができる。すなわち、各機能の組からそれぞれ算出した共起確率の和のうち、最大の共起確率の和を利用することで、エンティティを適切に抽出することができる。

【0031】

次に、図１、図２で説明した処理を実行する情報処理装置の構成例について説明する。図３は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。図３に示すように、情報処理装置１００は、通信部１１０、入力部１２０、表示部１３０、記憶部１４０、制御部１５０を有する。

【0032】

通信部１１０は、ネットワークを介して、外部装置等との間でデータ通信を実行する。後述する制御部１５０は、通信部１１０を介して、外部装置との間でデータをやり取りする。

【0033】

入力部１２０は、情報処理装置１００の制御部１５０に各種の情報を入力する入力装置である。入力部１２０は、キーボードやマウス、タッチパネル等に対応する。

【0034】

表示部１３０は、制御部１５０から出力される情報を表示する表示装置である。

【0035】

記憶部１４０は、機能特定辞書データ１４１、共起確率辞書データ１４２、抽出モデル１４３、訓練データテーブル１４４を有する。記憶部１４０は、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）などの半導体メモリ素子や、ＨＤＤ（Hard Disk Drive）などの記憶装置に対応する。

【0036】

機能特定辞書データ１４１は、物質の機能を定義する。図４は、機能特定辞書データのデータ構造の一例を示す図である。図４に示すように、この機能特定辞書データ１４１は、物質名（物質）と、機能とを対応付ける。たとえば、チタン（elemental titanium）の機能は、金属材料、充填剤、触媒等である。ビスフェノール（the bisphenol）の機能は、硬化剤、酸化防止剤等である。

【0037】

共起確率辞書データ１４２は、機能の共起確率を定義する。図５は、共起確率辞書データのデータ構造の一例を示す図である。図５に示すように、この共起確率辞書データ１４２は、機能の組に対する共起確率を示す。たとえば、機能「金属材料」と、機能「硬化剤」との共起確率が「０．１」であることが示される。これは、コーパスに含まれる全件のうち、１文中で、機能「金属材料」と、機能「硬化剤」とが共起する確率が「０．１（％）」であることを意味する。

【0038】

抽出モデル１４３は、テキストデータを入力とし、テキストデータに含まれるエンティティ候補及びバリュー候補を出力する訓練済みの機械学習モデルである。抽出モデル１４３は、ＮＮ（Neural Network）等である。

【0039】

訓練データテーブル１４４は、テキストデータと、後述する制御部１５０の処理によって特定されるエンティティ、バリューとの関係を保持するテーブルである。

【0040】

制御部１５０は、前処理部１５１、エンティティ候補推定部１５２、機能推定部１５３、生成部１５４、判定部１５５、表示制御部１５６、学習部１５７を有する。制御部１５０は、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などのハードワイヤードロジック等によって実現される。

【0041】

前処理部１５１は、外部装置等からコーパスのデータを取得し、コーパスを基にして、機能特定辞書データ１４１、共起確率辞書データ１４２を生成する。コーパスには、特許文献のテキストデータや、論文のテキストデータ等が含まれる。

【0042】

前処理部１５１が、機能特定辞書データ１４１を生成する処理の一例について説明する。図６は、機能特定辞書データを生成する処理を説明するための図である。前処理部１５１は、テキストデータを分析して、予め定義された手がかり語が含まれるか否かを判定する。前処理部１５１は、所定の手がかり語が含まれる場合、テキストデータに対して、固有表現抽出処理を実行し、手がかり語の前後の固有表現を、物質名と機能との関係として抽出し、機能特定辞書データ１４１に登録する。

【0043】

図６に示す例では、前処理部１５１は、テキストデータ１５を分析すると、手がかり語１５ａ「としては」が含まれるため、テキストデータ１５に対して、固有表現抽出処理を実行する。たとえば、前処理部１５１は、手がかり語１５ａの前後の固有表現１５ｂ「ビスフェノール」と、固有表現１５ｃ「硬化剤」を抽出する。前処理部１５１は、物質名「ビスフェノール」と、機能「硬化剤」との関係を、機能特定辞書データ１４１に登録する。

【0044】

続いて、前処理部１５１が、共起確率辞書データ１４２を生成する処理の一例について説明する。図７は、共起確率辞書データを生成する処理を説明するための図である。前処理部１５１は、共起確率の算出対象となる機能の組を特定し、コーパスに含まれる全てのテキストデータについて、特定した機能の組が含まれるか否かを判定する。前処理部１５１は、全てのテキストデータのうち、特定した機能の組が含まれるテキストデータの割合を、共起確率として算出する。たとえば、前処理部１５１は、機能特定辞書データ１４１に含まれる複数の機能の組み合わせから、共起確率の算出対象となる機能の組を特定してもよいし、ユーザが入力部１２０を操作して、対象となる機能の組を指定してもよい。

【0045】

図７に示す例では、テキストデータ１６に、機能「硬化剤」と、機能「無機質充填剤」とが共起している例を示す。

【0046】

上記の例では、前処理部１５１が、コーパスを基にして、機能特定辞書データ１４１、共起確率辞書データ１４２を生成する場合について説明したが、これに限定されない。たとえば、前処理部１５１が、外部装置から、機能特定辞書データ１４１、共起確率辞書データ１４２を取得して、記憶部１４０に登録してもよい。

【0047】

エンティティ候補推定部１５２は、エンティティ候補を抽出する対象となるテキストデータを取得する。エンティティ候補推定部１５２は、取得したテキストデータを、抽出モデル１４３に入力することで、テキストデータに含まれるエンティティ候補、バリュー候補を抽出する。エンティティ候補推定部１５２は、エンティティ候補を抽出する対象となるテキストデータを、入力部１２０から取得してもよいし、外部装置等から取得してもよい。

【0048】

図８は、エンティティ候補推定部の処理を説明するための図である。エンティティ候補推定部１５２は、エンティティ候補を抽出する対象となるテキストデータ１７を、抽出モデル１４３に入力することで、エンティティ候補１７ａ，１７ｂと、バリュー候補１７ｃとを抽出する。エンティティ候補１７ａは、「elemental titanium（チタン）」である。エンティティ候補１７ｂは、「the bisphenol（ビスフェノール硬化剤）」である。バリュー候補１７ｃは、「high network density」である。

【0049】

エンティティ候補推定部１５２は、テキストデータ１７から抽出したエンティティ候補１７ａ，１７ｂを、機能推定部１５３に出力する。また、エンティティ候補推定部１５２は、テキストデータ１７と、エンティティ候補１７ａ，１７ｂと、バリュー候補１７ｃとのデータを、判定部１５５に出力する。

【0050】

機能推定部１５３は、機能特定辞書データ１４１を基にして、エンティティ候補に対応する機能を推定する。機能推定部１５３は、エンティティ候補（物質名）と、機能特定辞書データ１４１とを比較することで、エンティティ候補に対応する機能を推定する。

【0051】

たとえば、機能推定部１５３は、エンティティ候補１７ａ（elemental titanium（チタン））と、図４に示す機能特定辞書データ１４１との比較により、エンティティ候補１７ａに対応する機能として、金属材料、充填剤、触媒を推定する。機能推定部１５３は、エンティティ候補１７ｂ（the bisphenol（ビスフェノール硬化剤））と、機能特定辞書データ１４１との比較により、エンティティ候補１７ｂに対応する機能として、硬化剤、酸化防止剤を推定する。

【0052】

機能推定部１５３は、エンティティ候補と、機能とを対応付けたデータを、生成部１５４に出力する。

【0053】

生成部１５４は、複数のエンティティ候補に対応する複数の機能の組み合わせデータを作成する。図９は、生成部の処理を説明するための図である。図９に示す例では、エンティティ候補を「elemental titanium（チタン）」と、「the bisphenol（ビスフェノール硬化剤）」とする。エンティティ候補「elemental titanium（チタン）」に対応する機能を「金属材料」、「充填剤」、「触媒」とする。エンティティ候補「the bisphenol（ビスフェノール硬化剤）」に対応する機能を「硬化剤」、「酸化防止剤」とする。

【0054】

生成部１５４は、機能「金属材料」、「充填剤」、「触媒」と、機能「硬化剤」、「酸化防止剤」との組み合わせデータ５０を生成する。組み合わせデータ５０には、６通りの機能の組が含まれる。具体的に、機能の組には「金属材料：硬化剤」、「金属材料：酸化防止剤」、「充填剤：硬化剤」、「充填剤：酸化防止剤」、「触媒：硬化剤」、「触媒：酸化防止剤」が含まれる。

【0055】

生成部１５４は、組み合わせデータ５０に含まれる各機能の組の共起確率を、共起確率辞書データ１４２を基にして特定する。生成部１５４は、組み合わせデータ５０の各機能の組に、特定した共起確率を設定する。

【0056】

図５に示した共起確率辞書データ１４２に基づくと、「金属材料：硬化剤」の共起確率は「０．１」となる。「金属材料：酸化防止剤」の共起確率は「０．０５」となる。「充填剤：硬化剤」の共起確率は「０．３」となる。「充填剤：酸化防止剤」の共起確率は「０．２」となる。「触媒：硬化剤」の共起確率は「０．１」となる。「触媒：酸化防止剤」の共起確率は「０．１５」となる。

【0057】

生成部１５４は、機能の組と、共起確率とを対応付けた組み合わせデータ５０を基にして、共起確率が最大となる機能の組と、その共起確率とを特定する。図９に示す例では、共起確率が最大となる機能の組は、「充填剤：硬化剤」であり、その共起確率は「０．３」となる。生成部１５４は、特定した機能の組と、共起確率とを判定部１５５に出力する。

【0058】

ところで、図９で説明した例では、説明の便宜上、２つのエンティティ候補を用いて説明したが、エンティティ候補が３つ以上となる場合もある。生成部１５４は、エンティティ候補が３つ以上の場合には、図２で説明したように、各機能の組の共起確率を合計し、共起確率の合計が最大となる各機能の組と、その共起確率を特定する。たとえば、共起確率の和の最大値を「０．５」とすると、生成部１５４は、機能ａ（１）、ｂ（１）、ｃ（１）の組と、共起確率の和「０．５」を特定する。

【0059】

判定部１５５は、生成部１５４によって特定された機能の組に対応する共起確率と比較する閾値Ｔｈを算出する。便宜的に、特定された機能の組を、第１の機能と、第２の機能とする。たとえば、判定部１５５は、式（１）を基にして、閾値Ｔｈを算出する。第１の機能の最大共起確率は、共起確率辞書データ１４２に設定された第１の機能に対応する行（あるいは列）の各共起確率のうち、最大の共起確率となる。第２の機能の最大共起確率は、共起確率辞書データ１４２に設定された第２の機能に対応する行（あるいは列）の各共起確率のうち、最大の共起確率となる。αは、予め設定される係数である。

【0060】

閾値Ｔｈ＝α×（第１の機能の最大共起確率＋第２の機能の最大共起確率）・・・（１）

【0061】

たとえば、特定された機能の組が「充填剤：硬化剤」であり、充填剤の最大共起確率を「０．４」、硬化剤の最大共起確率を「０．８」、係数を「０．２」とすると、閾値Ｔｈは、次のように計算され、閾値Ｔｈ＝０．２４となる。
閾値Ｔｈ＝０．２×（０．４＋０．８）＝０．２４

【0062】

判定部１５５は、生成部１５４によって特定された機能の組の共起確率が、閾値Ｔｈ以上である場合に、機能の組に対応する複数のエンティティ候補が１つのエンティティであると判定する。一方、判定部１５５は、生成部１５４によって特定された機能の組の共起確率が、閾値Ｔｈ未満である場合に、機能の組に対応する複数のエンティティ候補が別々のエンティティであると判定する。

【0063】

たとえば、上記のように、特定された機能の組「充填剤：硬化剤」の共起確率が「０．３」であり、閾値Ｔｈを「０．２４」とすると、共起確率が閾値Ｔｈ以上となる。このため、判定部１５５は、機能「充填剤」に対応するエンティティ候補「elemental titanium（チタン）」と、機能「硬化剤」に対応するエンティティ候補「the bisphenol（ビスフェノール硬化剤）」とが１つのエンティティであると判定する。

【0064】

ところで、判定部１５５は、生成部１５４によって特定された機能の組が、図９で説明したように、第１の機能と、第２の機能、第３の機能の組である場合には、第１～３の機能の最大共起確率の合計値に、係数を乗算することで、閾値Ｔｈを算出する。また、判定部１５５は、各共起確率の和が、閾値Ｔｈ以上である場合に、機能の組に対応する複数のエンティティ候補が１つのエンティティであると判定する。一方、判定部１５５は、生成部１５４によって特定された機能の組の共起確率の和が、閾値Ｔｈ未満である場合に、機能の組に対応する複数のエンティティ候補が別々のエンティティであると判定する。

【0065】

判定部１５５は、判定結果を基にして、エンティティを確定する。たとえば、判定部１５５は、判定結果を基にして、エンティティ候補推定部１５２の推定結果を修正する。図１０は、判定部の処理を説明するための図である。図１０において、エンティティ候補推定部１５２の推定結果では、テキストデータ１７から、エンティティ候補１７ａ，１７ｂが推定されている。判定部１５５は、上記の処理によって、エンティティ候補１７ａ，１７ｂが１つのエンティティであると判定した場合には、エンティティ候補１７ａの先頭から、エンティティ候補１７ｂの最後までを含む文字列となるエンティティ１７ｄを設定する。図１０に示す例では、エンティティ１７ｄは「elemental titanium and the bisphenol」となる。判定部１５５は、テキストデータ１７のエンティティの位置を示すタグを再付与することで、エンティティ１７ｄの位置を再設定してもよい。

【0066】

判定部１５５は、テキストデータに含まれるエンティティと、バリューのデータを、表示制御部１５６に出力する。かかるバリューは、エンティティ候補推定部１５２から取得するバリュー候補である。

【0067】

表示制御部１５６は、判定部１５５から取得したテキストデータに含まれるエンティティと、バリューとを表示部１３０に出力して表示させる。表示制御部１５６は、テキストデータに含まれるエンティティと、バリューとを表示部１３０に出力して表示させ、入力部１２０から、登録要求等を受け付けた場合に、入力データ「テキストデータ」、正解ラベル「エンティティ、バリュー」の関係を、訓練データテーブル１４４に登録する。

【0068】

なお、表示制御部１５６は、修正前のエンティティと、修正後のエンティティとを表示する画面情報を表示し、適切なエンティティをユーザに選択させてもよい。図１１は、表示制御部が表示する画面情報の一例を示す図である。図１１に示すように、表示画面６０には、対象となるテキストデータ３０ａと、テーブル３０ｂとが含まれる。

【0069】

テーブル３０ｂでは、候補と、スコアと、エンティティと、バリューとが対応付けられる。候補は、エンティティとバリューとの候補を区別する情報である。候補１に対応するエンティティは、１つのエンティティ「elemental titanium and the bisphenol」でる。候補１に対応するバリューは「high network density」である。候補２に対応するエンティティは、二つのエンティティ「elemental titanium」、「bisphenol」である。候補２に対応するバリューは、「high network density」である。

【0070】

候補１のエンティティは、判定部１５５の判定結果に基づくエンティティである。候補２のエンティティは、抽出モデル１４３を用いた推定結果に基づくエンティティである。

【0071】

スコアは、エンティティの評価値であり、値が大きいほど、より適切なエンティティであると情報処理装置１００が判定していることを示す。図１１では、表示制御部１５６は、候補１のスコアを「１０」を設定し、候補２のスコアを「７」に設定した例を示す。

【0072】

表示制御部１５６は、入力部１２０を操作するユーザによって、候補１が選択された場合には、テキストデータ３０ａと、エンティティ「elemental titanium and the bisphenol」、バリュー「high network density」との組を、訓練データテーブル１４４に登録する。一方、表示制御部１５６は、入力部１２０を操作するユーザによって、候補２が選択された場合には、テキストデータ３０ａと、エンティティ「elemental titanium」、「bisphenol」、バリュー「high network density」との組を、訓練データテーブル１４４に登録する。

【0073】

学習部１５７は、訓練データテーブル１４４に登録されたテキストデータ（入力データ）と、エンティティおよびバリュー（正解ラベル）とのを基にして、対象となる機械学習モデルを訓練する。学習部１５７は、テキストデータを入力し、機械学習モデルから出力されるエンティティおよびバリューが正解ラベルに近づくように、機械学習モデルのパラメータを調整する。なお、学習部１５７は、訓練データテーブル１４４を基にして、抽出モデル１４３の再訓練を行ってもよい。

【0074】

次に、本実施例に係る情報処理装置１００の処理手順の一例について説明する。図１２は、本実施例に係る情報処理装置の処理手順を示すフローチャートである。図１２に示すように、情報処理装置１００の前処理部１５１は、辞書作成処理を実行する（ステップＳ１０１）。

【0075】

情報処理装置１００のエンティティ候補推定部１５２は、テキストデータを取得する（ステップＳ１０２）。エンティティ候補推定部１５２は、抽出モデル１４３にテキストデータを入力することで、エンティティ候補を推定する（ステップＳ１０３）。

【0076】

情報処理装置１００の機能推定部１５３は、エンティティ候補と、機能特定辞書データ１４１とを基にして、エンティティ候補の機能を推定する（ステップＳ１０４）。

【0077】

情報処理装置１００の生成部１５４は、組み合わせデータ生成処理を実行する（ステップＳ１０５）。情報処理装置１００の判定部１５５は、閾値を算出する（ステップＳ１０６）。

【0078】

判定部１５５は、組み合わせデータの共起確率（共起確率の和）の最大値と、閾値とを基にして、複数のエンティティ候補が、１つのエンティティであるか否かを判定する（ステップＳ１０７）。判定部１５５は、エンティティ確定処理を実行する（ステップＳ１０８）。情報処理装置１００の表示制御部１５６は、確定したエンティティを表示部１３０に表示させる（ステップＳ１０９）。

【0079】

次に、図１２のステップＳ１０１で説明した辞書作成処理の処理手順の一例について説明する。図１３は、辞書作成処理の処理手順を示すフローチャートである。図１３に示すように、情報処理装置１００の前処理部１５１は、コーパスを取得する（ステップＳ２０１）。前処理部１５１は、コーパスに含まれる１つのテキストデータを取得する（ステップＳ２０２）。

【0080】

前処理部１５１は、テキストデータに手がかり語が含まれるか否かを判定する（ステップＳ２０３）。前処理部１５１は、テキストデータに手がかり語が含まれない場合には（ステップＳ２０３，Ｎｏ）、ステップＳ２０６に移行する。

【0081】

一方、前処理部１５１は、テキストデータに手がかり語が含まれる場合には（ステップＳ２０３，Ｙｅｓ）、固有表現抽出処理を行い、テキストデータから固有表現を抽出する（ステップＳ２０４）。

【0082】

前処理部１５１は、手がかり語の前後の固有表現を対応付けて、機能特定辞書データ１４１に登録する（ステップＳ２０５）。

【0083】

前処理部１５１は、コーパスから全てのテキストデータを取得していない場合には（ステップＳ２０６，Ｎｏ）、ステップＳ２０２に移行する。前処理部１５１は、コーパスから全てのテキストデータを取得した場合には（ステップＳ２０６，Ｙｅｓ）、辞書作成処理を終了する。

【0084】

次に、図１２のステップＳ１０５で説明した組み合わせデータ生成処理の処理手順の一例について説明する。図１４は、組み合わせデータ生成処理の処理手順を示すフローチャートである。図１４に示すように、情報処理装置１００の生成部１５４は、複数のエンティティ候補を取得する（ステップＳ３０１）。生成部１５４は、各エンティティ候補の機能を取得する（ステップＳ３０２）。

【0085】

生成部１５４は、２つのエンティティ候補を選択する（ステップＳ３０３）。生成部１５４は、選択した各エンティティ候補から、１つずつ機能を選択する（ステップＳ３０４）。生成部１５４は、共起確率辞書データ１４２を基にして、選択した機能の組の共起確率を取得する（ステップＳ３０５）。

【0086】

生成部１５４は、全ての機能を処理していない場合には（ステップＳ３０６，Ｎｏ）、ステップＳ３０４に移行する。一方、生成部１５４は、全ての機能を処理した場合には（ステップＳ３０６，Ｙｅｓ）、ステップＳ３０７に移行する。

【0087】

生成部１５４は、全てのエンティティ候補の組み合わせを処理していない場合には（ステップＳ３０７，Ｎｏ）、ステップＳ３０３に移行する。一方、生成部１５４は、全てのエンティティ候補の組み合わせを処理した場合には（ステップＳ３０７，Ｙｅｓ）、各エンティティ候補の各機能の組み合わせについて、共起確率の和を算出する（ステップＳ３０８）。生成部１５４は、共起確率の和の最大値を選択する（ステップＳ３０９）。

【0088】

次に、図１２のステップＳ１０８で説明したエンティティ確定処理の処理手順の一例について説明する。図１５は、エンティティ確定処理の処理手順を示すフローチャートである。図１５に示すように、情報処理装置１００の判定部１５５は、複数のエンティティ候補を１つのエンティティと判定していない場合には（ステップＳ４０１，Ｎｏ）、そのまま処理を終了する。

【0089】

一方、判定部１５５は、複数のエンティティ候補を１つのエンティティと判定した場合には（ステップＳ４０１，Ｙｅｓ）、テキストデータの複数のエンティティ候補を特定する（ステップＳ４０２）。

【0090】

判定部１５５は、特定した複数のエンティティ候補それぞれのタグを削除し、複数のエンティティ候補に対し、まとめて１つのタグを再付与する（ステップＳ４０３）。

【0091】

次に、本実施例に係る情報処理装置１００の効果について説明する。情報処理装置１００は、テキストデータに含まれる複数のエンティティ候補とエンティティ候補の複数の機能を推定し、複数の機能の組み合わせデータを生成する。情報処理装置１００は、組み合わせ情報に含まれる機能の組の共起確率（機能が３つ以上の場合には、共起確率の和）を基にして、複数のエンティティ候補が１つのエンティティであるか否かを判定する。これによって、テキストに含まれるエンティティを適切に抽出することができる。

【0092】

たとえば、複数の機能の組のうち、共起確率の和が最大となる機能の組は、より一般的に共起する機能の組であるといえる。また、機能によって混合される分量が異なる場合でも、共起確率の和を用いることで、分量に合った機能の組を選択することができる。たとえば、充填剤か触媒かによって、使われる分量は異なるが、分量の情報を利用しなくても、共起確率の和から、ある程度妥当な機能の組を選択することができる。すなわち、各機能の組からそれぞれ算出した共起確率の和のうち、最大の共起確率の和を利用することで、エンティティを適切に抽出することができる。

【0093】

情報処理装置１００は、複数の機能の共起確率を設定した共起確率辞書データ１４２を基にして、共起確率と比較する閾値を算出する。たとえば、情報処理装置１００は、式（１）を基にして、閾値Ｔｈを算出する。たとえば、溶媒のような機能は、様々な機能の物質と混ざることが多く、混合物でありながら、共起確率の和が低くなる場合がある。そのような場合に、固定の閾値を用いると、複数のエンティティ候補が、混合物であるにも関わらず、複数のエンティティ候補を１つのエンティティと誤判定する場合がある。これに対して、上記のように、対象となる機能の共起確率の傾向から、閾値Ｔｈを算出することで、複数のエンティティ候補が１つのエンティティであるか否かを判定することができる。

【0094】

情報処理装置１００は、判定されたエンティティの情報を表示部に表示させる。これによって、エンティティの判定結果をユーザに確認させることができる。

【0095】

次に、上述した情報処理装置１００と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図１６は、実施例の情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

【0096】

図１６に示すように、コンピュータ２００は、各種演算処理を実行するＣＰＵ２０１と、ユーザからのデータの入力を受け付ける入力装置２０２と、ディスプレイ２０３とを有する。また、コンピュータ２００は、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行う通信装置２０４と、インタフェース装置２０５とを有する。また、コンピュータ２００は、各種情報を一時記憶するＲＡＭ２０６と、ハードディスク装置２０７とを有する。そして、各装置２０１～２０７は、バス２０８に接続される。

【0097】

ハードディスク装置２０７は、前処理プログラム２０７ａ、エンティティ候補推定プログラム２０７ｂ、機能推定プログラム２０７ｃ、生成プログラム２０７ｄ、判定プログラム２０７ｅ、表示制御プログラム２０７ｆ、学習プログラム２０７ｇを有する。また、ＣＰＵ２０１は、各プログラム２０７ａ～２０７ｇを読み出してＲＡＭ２０６に展開する。

【0098】

前処理プログラム２０７ａは、前処理プロセス２０６ａとして機能する。エンティティ候補推定プログラム２０７ｂは、エンティティ候補推定プロセス２０６ｂとして機能する。機能推定プログラム２０７ｃは、機能推定プロセス２０６ｃとして機能する。生成プログラム２０７ｄは、生成プロセス２０６ｄとして機能する。特定プログラム２０７ｅは、特定プロセス２０６ｅとして機能する。表示制御プログラム２０７ｆは、表示制御プロセス２０６ｆとして機能する。学習プログラム２０７ｇは、学習プロセス２０６ｇとして機能する。

【0099】

前処理プロセス２０６ａの処理は、前処理部１５１の処理に対応する。エンティティ候補推定プロセス２０６ｂの処理は、エンティティ候補推定部１５２の処理に対応する。機能推定プロセス２０６ｃの処理は、機能推定部１５３の処理に対応する。生成プロセス２０６ｄの処理は、生成部１５４の処理に対応する。判定プロセス２０６ｅの処理は、判定部１５５の処理に対応する。表示制御プロセス２０６ｆの処理は、表示制御部１５６の処理に対応する。学習プロセス２０６ｇの処理は、学習部１５７の処理に対応する。

【0100】

なお、各プログラム２０７ａ～２０７ｇについては、必ずしも最初からハードディスク装置２０７に記憶させておかなくても良い。例えば、コンピュータ２００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤ、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ２００が各プログラム２０７ａ～２０７ｇを読み出して実行するようにしてもよい。

【0101】

以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。

【0102】

（付記１）テキストに含まれる複数の物質名をそれぞれ検出し、
前記複数の物質名それぞれについて、前記物質名に対応する物質の複数の機能を推定し、推定した前記複数の機能を前記物質名に関連付け、
前記複数の物質名に関連付けた複数の機能の組み合わせ情報を作成し、
前記組み合わせ情報に含まれる複数の物質名の機能の組が同一のテキストで共起する共起確率を基にして、前記複数の物質名が１つのエンティティであるか否かを判定する
処理をコンピュータに実行させることを特徴とする抽出プログラム。

【0103】

（付記２）前記複数の物質名には、第１の物質名と、第２の物質名とが含まれ、前記組み合わせ情報を作成する処理は、前記第１の物質名に関連付けられた複数の機能と、前記第２の物質名に関連付けられた複数の機能との組み合わせ情報を生成し、前記判定する処理は、いずれかの機能の組の共起確率が閾値以上となる場合に、前記第１の物質名と、前記第２の物質名とが１つのエンティティであると判定することを特徴とする付記１に記載の抽出プログラム。

【0104】

（付記３）複数の機能の共起確率を設定した共起確率情報を基にして、前記共起確率と比較する前記閾値を算出する処理を更にコンピュータに実行させることを特徴とする付記２に記載の抽出プログラム。

【0105】

（付記４）前記判定する処理によって判定されたエンティティの情報を表示部に表示させる処理を更にコンピュータに実行させることを特徴とする付記１に記載の抽出プログラム。

【0106】

（付記５）テキストに含まれる複数の物質名をそれぞれ検出し、
前記複数の物質名それぞれについて、前記物質名に対応する物質の複数の機能を推定し、推定した前記複数の機能を前記物質名に関連付け、
前記複数の物質名に関連付けた複数の機能の組み合わせ情報を作成し、
前記組み合わせ情報に含まれる複数の物質名の機能の組が同一のテキストで共起する共起確率を基にして、前記複数の物質名が１つのエンティティであるか否かを判定する
処理をコンピュータが実行することを特徴とする抽出方法。

【0107】

（付記６）前記複数の物質名には、第１の物質名と、第２の物質名とが含まれ、前記組み合わせ情報を作成する処理は、前記第１の物質名に関連付けられた複数の機能と、前記第２の物質名に関連付けられた複数の機能との組み合わせ情報を生成し、前記判定する処理は、いずれかの機能の組の共起確率が閾値以上となる場合に、前記第１の物質名と、前記第２の物質名とが１つのエンティティであると判定することを特徴とする付記５に記載の抽出方法。

【0108】

（付記７）複数の機能の共起確率を設定した共起確率情報を基にして、前記共起確率と比較する前記閾値を算出する処理を更にコンピュータが実行することを特徴とする付記６に記載の抽出方法。

【0109】

（付記８）前記判定する処理によって判定されたエンティティの情報を表示部に表示させる処理を更にコンピュータが実行することを特徴とする付記５に記載の抽出方法。

【0110】

（付記９）テキストに含まれる複数の物質名をそれぞれ検出し、
前記複数の物質名それぞれについて、前記物質名に対応する物質の複数の機能を推定し、推定した前記複数の機能を前記物質名に関連付け、
前記複数の物質名に関連付けた複数の機能の組み合わせ情報を作成し、
前記組み合わせ情報に含まれる複数の物質名の機能の組が同一のテキストで共起する共起確率を基にして、前記複数の物質名が１つのエンティティであるか否かを判定する
処理を実行する制御部を有する情報処理装置。

【0111】

（付記１０）前記複数の物質名には、第１の物質名と、第２の物質名とが含まれ、前記組み合わせ情報を作成する処理は、前記第１の物質名に関連付けられた複数の機能と、前記第２の物質名に関連付けられた複数の機能との組み合わせ情報を生成し、前記判定する処理は、いずれかの機能の組の共起確率が閾値以上となる場合に、前記第１の物質名と、前記第２の物質名とが１つのエンティティであると判定することを特徴とする付記９に記載の情報処理装置。

【0112】

（付記１１）前記制御部は、複数の機能の共起確率を設定した共起確率情報を基にして、前記共起確率と比較する前記閾値を算出する処理を更に実行することを特徴とする付記１０に記載の情報処理装置。

【0113】

（付記１２）前記制御部は、前記判定する処理によって判定したエンティティの情報を表示部に表示させる処理を更に実行することを特徴とする付記９に記載の情報処理装置。

【符号の説明】

【0114】

１００情報処理装置
１１０通信部
１２０入力部
１３０表示部
１４０記憶部
１４１機能特定辞書データ
１４２共起確率辞書データ
１４３抽出モデル
１４４訓練データテーブル
１５０制御部
１５１前処理部
１５２エンティティ候補推定部
１５３機能推定部
１５４生成部
１５５判定部
１５６表示制御部
１５７学習部

【図1】