特開2024-46883 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日立金属株式会社の特許一覧 ▶ 国立大学法人九州大学の特許一覧

特開2024-46883文書解析システム、文書解析方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024046883

(43)【公開日】2024-04-05

(54)【発明の名称】文書解析システム、文書解析方法、及びプログラム

(51)【国際特許分類】

G06F 40/295 20200101AFI20240329BHJP

【ＦＩ】

G06F40/295

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2022152232

(22)【出願日】2022-09-26

(71)【出願人】

【識別番号】000005083

【氏名又は名称】株式会社プロテリアル

(71)【出願人】

【識別番号】504145342

【氏名又は名称】国立大学法人九州大学

(74)【代理人】

【識別番号】100096091

【弁理士】

【氏名又は名称】井上誠一

(72)【発明者】

【氏名】千綿伸彦

(72)【発明者】

【氏名】峯恒憲

(72)【発明者】

【氏名】酒井敏彦

【テーマコード（参考）】

5B091

【Ｆターム（参考）】

5B091AA15

5B091AB06

5B091CA01

5B091EA01

(57)【要約】

【課題】技術文書の理解を容易にする文書解析システム等を提供する。
【解決手段】文書解析システム１は、特定の技術分野の文書群である限定文書群に対して、固有表現タグのアノテーション設定を受け付け、アノテーション済みのアノテーションデータ５を生成するアノテーション部１６であって、固有表現タグとしてある一つの意味的関係を形成する固有表現タグ列を区切る文字情報に付与する区切りタグＳが設定可能なアノテーション部１６と、アノテーションデータ５を用いて、固有表現抽出モデル８を生成する固有表現抽出モデル学習部１７と、技術分野の文書を解析対象として入力する文書入力部１１と、固有表現抽出モデル８を用いて、解析対象の文書から区切りタグＳの情報を他の固有表現タグの情報と共に抽出する固有表現抽出部１２と、を備える。
【選択図】図２

【特許請求の範囲】

【請求項1】

特定の技術分野の文書群である限定文書群に対して、固有表現タグのアノテーション設定を受け付け、アノテーション済みの教師データを生成するアノテーション部であって、前記固有表現タグとしてある一つの意味的関係を形成する固有表現タグ列を区切る文字情報に付与する区切りタグが設定可能な前記アノテーション部と、
前記教師データを用いて、固有表現抽出モデルを生成する固有表現抽出モデル学習部と、
前記技術分野の文書を解析対象として入力する文書入力部と、
前記固有表現抽出モデルを用いて、解析対象の前記文書から区切りタグの情報を他の固有表現タグの情報と共に抽出する固有表現抽出部と、
を備えることを特徴とする文書解析システム。

【請求項2】

前記固有表現抽出部により抽出された前記区切りタグを参照して、前記文書の構造解析を行う構造解析部、を更に備える
ことを特徴とする請求項１に記載の文書解析システム。

【請求項3】

前記アノテーション部は、主従関係を有する固有表現タグのアノテーション設定を受け付ける
ことを特徴とする請求項１に記載の文書解析システム。

【請求項4】

前記アノテーション部は、固有表現タグ間を関連付ける手掛かり語に対して関連固有表現タグのアノテーション設定を受け付ける
ことを特徴とする請求項１に記載の文書解析システム。

【請求項5】

前記固有表現抽出モデル学習部は、大規模文書群を用いて事前学習された事前学習モデルを前記教師データでファインチューニングし、前記固有表現抽出モデルを生成する
ことを特徴とする請求項１に記載の文書解析システム。

【請求項6】

特定の技術分野の文書群である限定文書群を用いて、前記事前学習モデルを再事前学習して再事前学習モデルを生成する再事前学習部、を更に備え、
前記固有表現抽出モデル学習部は、前記再事前学習モデルと前記教師データを用いて、前記固有表現抽出モデルを生成する
ことを特徴とする請求項５に記載の文書解析システム。

【請求項7】

特定の技術分野の文書群である限定文書群を前記固有表現抽出モデルに入力し抽出された固有表現タグに対して、タグ付けの訂正操作を受け付ける再アノテーション部と、
訂正された固有表現タグが設定された前記限定文書群を用いて、前記固有表現抽出モデルを再ファインチューニングする固有表現抽出モデル再ファインチューニング部と、
を更に備えることを特徴とする請求項５に記載の文書解析システム。

【請求項8】

前記限定文書群及び解析対象の前記文書は、知的財産関連の文書群及び文書である
ことを特徴とする請求項１に記載の文書解析システム。

【請求項9】

コンピュータが、
特定の技術分野の文書群である限定文書群に対して、固有表現タグのアノテーション設定を受け付け、アノテーション済みの教師データを生成するアノテーション工程であって、前記固有表現タグとしてある一つの意味的関係を形成する固有表現タグ列を区切る文字情報に付与する区切りタグが設定可能な前記アノテーション工程と、
前記教師データを用いて、固有表現抽出モデルを生成する固有表現抽出モデル学習工程と、
前記技術分野の文書を解析対象として入力する文書入力工程と、
前記固有表現抽出モデルを用いて、解析対象の前記文書から区切りタグの情報を他の固有表現タグの情報と共に抽出する固有表現抽出工程と、
を実行することを特徴とする文書解析方法。

【請求項10】

コンピュータを、
特定の技術分野の文書群である限定文書群に対して、固有表現タグのアノテーション設定を受け付け、アノテーション済みの教師データを生成するアノテーション部であって、前記固有表現タグとしてある一つの意味的関係を形成する固有表現タグ列を区切る文字情報に付与する区切りタグが設定可能な前記アノテーション部と、
前記教師データを用いて、固有表現抽出モデルを生成する固有表現抽出モデル学習部と、
前記技術分野の文書を解析対象として入力する文書入力部と、
前記固有表現抽出モデルを用いて、解析対象の前記文書から区切りタグの情報を他の固有表現タグの情報と共に抽出する固有表現抽出部と、
して機能させることを特徴とするプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、技術文書の文書解析システム等に関する。

【背景技術】

【0002】

膨大な技術文書群から、必要となる技術要素を抽出するのは大きな課題である。例えば、技術文書としては特許公報をはじめとする多くの知的財産関連文書がある。これらの知的財産関連文書は、電子文書化が進み、さらには分類付けも行われており、このような分類やフリーキーワードによる機械検索によって目的とする文書群の抽出が容易になっている。

【0003】

また近年、文書を機械学習させることで、必要とする情報を整理して出力する解析手法が開発されてきた。例えば、BERT（Bidirectional Encoder Representations
from Transformers）という手法の発展は、文章で使用される単語の様々な配置位置、類似表現を学習し、語句への適切な固有表現タグの付与を行うことができる手法として注目されている(非特許文献１)。また、知財関連文書として特許データに着目した、PatentBERTの報告もある（非特許文献２）。

【先行技術文献】

【非特許文献】

【0004】

【非特許文献1】Gururangan, S., Marasovic, A., Swayamdipta, S., Lo, K., Beltagy,I., Downey, D., & Smith, N. A. (2020, July). Don’tStop Pretraining: Adapt Language Models to Domains and Tasks. In Proceedings ofthe 58th Annual Meeting of the Association for Computational Linguistics (pp.8342-8360).

【非特許文献2】Lee, J.-S. and Hsiang, J.: Patentbert: Patent classificationwithfine-tuning a pre-trained bert model, arXiv preprint arXiv:1906.02124 (2019).

【発明の概要】

【発明が解決しようとする課題】

【0005】

上述した解析手法は、適切な固有表現を抽出できるため、単純なキーワード検索による検索洩れの低減が期待できる。さらに、知的財産関連文書に対して人手によって行われた分類付けの自動化も期待できる。このように最近の機械学習の手法は、技術文書の解析に対して万能のように思われる。しかし、技術文書には分野ごとに特定の表現方法が用いられるケースも少なくなく、解析精度の更なる向上の課題があった。

【0006】

また、研究者にとっては、関連する文書群を抽出することだけで目的が達成されるわけではなく、いかなる技術が開示されているのかを把握するために、自ら文書を読み込み理解する必要がある。また、知的財産の権利を確認しようとする者は、特許権の侵害防止や、新たな研究領域の策定をするために、知的財産関連文書である特許文献等に開示されている権利範囲を速やかに理解する必要がある。

【0007】

本発明は、前述した問題点に鑑みてなされたものであり、技術文書の理解を容易にする文書解析システム等を提供することを目的とする。

【課題を解決するための手段】

【0008】

前述した目的を達成するための第１の発明は、特定の技術分野の文書群である限定文書群に対して、固有表現タグのアノテーション設定を受け付け、アノテーション済みの教師データを生成するアノテーション部であって、前記固有表現タグとしてある一つの意味的関係を形成する固有表現タグ列を区切る文字情報に付与する区切りタグが設定可能な前記アノテーション部と、前記教師データを用いて、固有表現抽出モデルを生成する固有表現抽出モデル学習部と、前記技術分野の文書を解析対象として入力する文書入力部と、前記固有表現抽出モデルを用いて、解析対象の前記文書から区切りタグの情報を他の固有表現タグの情報と共に抽出する固有表現抽出部と、を備えることを特徴とする文書解析システムである。

【0009】

第１の発明によれば、特定の技術分野の文書群である限定文書群に対して、固有表現タグのアノテーション設定を受け付け、アノテーション済みの教師データを用いて固有表現抽出モデルを生成する。特に本発明では、アノテーション設定の際に、固有表現タグとしてある一つの意味的関係を形成する固有表現タグ列を区切る文字情報に付与する区切りタグを設定可能とし、固有表現抽出モデルによって解析対象の文書から区切りタグの情報を他の固有表現タグの情報と共に抽出する。抽出された区切りタグに基づいて文書から意味のまとまり（固有表現タグ例）を特定できるので、技術文書の理解や解析が容易となる。

【0010】

また、前記固有表現抽出部により抽出された前記区切りタグを参照して、前記文書の構造解析を行う構造解析部、を更に備えてもよい。区切りタグによって解析対象の文書の構造解析を容易に行うことができる。

【0011】

また、前記アノテーション部は、主従関係を有する固有表現タグのアノテーション設定を受け付けてもよい。これにより、固有表現タグ同士に主従関係を持たせたアノテーション設定を行うことができる。

【0012】

また、前記アノテーション部は、固有表現タグ間を関連付ける手掛かり語に対して関連固有表現タグのアノテーション設定を受け付けてもよい。固有表現タグ同士を関連付ける語に対してタグを設定することで、固有表現タグの抽出性能を向上させることができる。

【0013】

また、前記固有表現抽出モデル学習部は、大規模文書群を用いて事前学習された事前学習モデルを前記教師データでファインチューニングし、前記固有表現抽出モデルを生成してもよい。大規模文書群により事前学習された事前学習モデルをアノテーション済みの教師データでファインチューニングさせることで、解析対象の文書に適合した固有表現抽出モデルを効率的かつ高精度に生成することができる。なお、ファインチューニング(fine tuning)とは、教師なしデータを使って言語モデルを学習させたあと、解きたい特定のタスク（本発明では固有表現抽出）の教師データを使って、言語モデルのパラメータを調整する手法のことをいう。

【0014】

また、特定の技術分野の文書群である限定文書群を用いて、前記事前学習モデルを再事前学習して再事前学習モデルを生成する再事前学習部、を更に備え、前記固有表現抽出モデル学習部は、前記再事前学習モデルと前記教師データを用いて、前記固有表現抽出モデルを生成してもよい。汎用的な事前学習モデルではなく、特定の技術分野に絞った限定文書群を用いて事前学習モデルを再事前学習させた再事前学習モデルを固有表現抽出モデルのベースとすることで、固有表現抽出モデルをさらに効率的かつ高精度に生成することができる。

【0015】

また、特定の技術分野の文書群である限定文書群を前記固有表現抽出モデルに入力し抽出された固有表現タグに対して、タグ付けの訂正操作を受け付ける再アノテーション部と、訂正された固有表現タグが設定された前記限定文書群を用いて、前記固有表現抽出モデルを再ファインチューニングする固有表現抽出モデル再ファインチューニング部と、を更に備えてもよい。固有表現のタグ付けの誤りを訂正し、固有表現抽出モデルを再度学習させるため、固有表現抽出モデルの性能がさらに向上する。

【0016】

また、前記限定文書群及び解析対象の前記文書は、知的財産関連の文書群及び文書であることが望ましい。知的財産関連文書は一般的に難解な文書であることが多いが、本発明の区切りタグを学習させた固有表現抽出モデルを適用することで文書の理解が容易となる。

【0017】

第２の発明は、コンピュータが、特定の技術分野の文書群である限定文書群に対して、固有表現タグのアノテーション設定を受け付け、アノテーション済みの教師データを生成するアノテーション工程であって、前記固有表現タグとしてある一つの意味的関係を形成する固有表現タグ列を区切る文字情報に付与する区切りタグが設定可能な前記アノテーション工程と、前記教師データを用いて、固有表現抽出モデルを生成する固有表現抽出モデル学習工程と、前記技術分野の文書を解析対象として入力する文書入力工程と、前記固有表現抽出モデルを用いて、解析対象の前記文書から区切りタグの情報を他の固有表現タグの情報と共に抽出する固有表現抽出工程と、を実行することを特徴とする文書解析方法である。

【0018】

第３の発明は、コンピュータを、特定の技術分野の文書群である限定文書群に対して、固有表現タグのアノテーション設定を受け付け、アノテーション済みの教師データを生成するアノテーション部であって、前記固有表現タグとしてある一つの意味的関係を形成する固有表現タグ列を区切る文字情報に付与する区切りタグが設定可能な前記アノテーション部と、前記教師データを用いて、固有表現抽出モデルを生成する固有表現抽出モデル学習部と、前記技術分野の文書を解析対象として入力する文書入力部と、前記固有表現抽出モデルを用いて、解析対象の前記文書から区切りタグの情報を他の固有表現タグの情報と共に抽出する固有表現抽出部と、して機能させることを特徴とするプログラムである。

【発明の効果】

【0019】

本発明により、技術文書の理解を容易にする文書解析システム等が提供される。

【図面の簡単な説明】

【0020】

【図1】文書解析システム１の学習機能を示す図である。

【図2】区切りタグを含む各固有表現タグのアノテーション設定例を示す図である。

【図3】主固有表現タグ、従固有表現タグ、関連固有表現タグのアノテーション設定例を示す図である。

【図4】文書解析システム１の再実学習機能を示す図である。

【図5】文書解析システム１の解析機能を示す図である。

【図6】固有表現抽出例を示す図である。

【図7】タグ列パターンテーブル９０の例を示す図である。

【図8】構造解析例を示す図である。

【図9】文書抽出ＤＢ１００のデータ構成例を示す図である。

【図10】区切りタグを設定しない場合における固有表現抽出例を示す図である。

【図11】区切りタグを設定しない場合における構造解析例を示す図である。（ａ）は正しい構造解析例、（ｂ）は誤った構造解析例を示す。

【図12】コンピュータ３０のハードウェア構成を示す図である。

【図13】学習処理の流れを示すフローチャートである。

【図14】再実学習処理の流れを示すフローチャートである。

【図15】解析処理の流れを示すフローチャートである。

【図16】文書解析システム１の検索機能を示す図である。

【図17】検索処理の流れを示すフローチャートである。

【発明を実施するための形態】

【0021】

以下、図面に基づいて本発明の好適な実施形態について詳細に説明する。

【0022】

（１．学習機能）
まず、図１を参照して、文書解析に用いる固有表現抽出モデル８を学習する学習機能について説明する。学習機能は「事前学習」「再事前学習」「実学習」からなり、これら学習を実施することにより、固有表現抽出モデル８が生成される。各学習機能について説明する。

【0023】

（１－１．事前学習）
事前学習は、文書解析システム１が備える事前学習部１４によって実行される。具体的には図１に示すように、事前学習部１４は、大規模文書群３を用いて教師なし事前学習を行い、事前学習モデル６を生成する。

【0024】

大規模文書群３とは、Web、書籍などに書かれている文章を構造化して大規模に集積したデータベース（汎用目的の大規模コーパス）であり、事前学習モデル６を学習するための学習データとなる。本実施形態では、大規模文書群３として、日本語版Wikipediaの記事を構造化して大規模に集積したデータベース（大規模コーパス）を利用する。

【0025】

事前学習部１４が行う事前学習モデル６の学習は、ニューラルネットワークをベースとした深層学習であることが望ましい。この際、深層学習モデルとしてトランスフォーマ(Transformer)を用いると、並列処理が可能であり、学習時間が短縮できる。このような深層学習は、例えば、BERTとして知られている公知の自然言語処理技術を利用して実行可能である。本実施形態では、事前学習部１４は、BERTの技術を利用し、日本語Wikipediaから得た大量の文書データを用いて事前学習モデル６を学習する。

【0026】

なお、事前学習は、大量のデータを用いた計算負荷の高い処理であるため、予め実施されていることが望ましい。すなわち、事前学習モデル６が予め用意され、コンピュータ３０の記憶装置３２（図１２）に保存されていることが望ましい。この場合、本実施形態から、事前学習モデル６を学習する機能・工程は省略され得る。

【0027】

（１－２．再事前学習）
再事前学習は、文書解析システム１が備える再事前学習部１５によって実行される。具体的には図１に示すように、再事前学習部１５は、特定の技術分野の文書群である限定文書群４Ａを用いて、事前学習モデル６を再事前学習して再事前学習モデル７を生成する。ここで、技術分野の文書は、例えば、技術論文や技術レポートといった文書や、知的財産関連文書などである。

【0028】

限定文書群４Ａは、解析したい特定の技術分野の文章を構造化して集積したデータベース（特殊目的のコーパス）であり、事前学習モデル６を再事前学習するための学習データである。限定文書群４Ａは、解析対象の対象文書２（図５参照）と同じ技術分野の文書群である。

【0029】

また限定文書群４Ａは、知的財産関連文書であることが望ましい。知的財産関連文書とは、特許出願や実用新案登録出願の内容を掲載した文献であり、例えば、公開特許公報、特許公報（特許掲載公報）、登録実用新案公報などである。限定文書群４Ａが、知的財産関連文書である場合、特定の技術分野とは、例えば、ＩＰＣやＦＩやＦターム等からなる特許分類記号で分類される技術分野である。

【0030】

再事前学習は、事前学習と同様にBERTとして知られている公知の技術により実行可能である。限定文書群４Ａを用いて、事前学習モデル６を再事前学習することで、特定の技術分野の解析に適合した学習モデル（再事前学習モデル７）を得ることができる。また、限定文書群４Ａの利用は、大規模な事前学習による学習精度を効率的に向上させる。

【0031】

なお、大規模文書群３を用いずに、はじめから限定文書群４Ａを用いてBERTにより事前学習モデルを学習することも可能ではあるが、限定した範囲で多くの学習サンプルを準備して作業しなくてはならず効率が悪い。その点、本実施形態のように、汎用的に利用可能な事前学習モデル６をベースに、さらに再事前学習により精度を向上させることは、精度と効率を両立する上で有効である。

【0032】

なお、再事前学習は実施されなくてもよい。すなわち、事前学習モデル６が予め用意され、コンピュータ３０の記憶装置３２（図１２）に保存されていてもよい。この場合、本実施形態から、再事前学習モデル７を学習する機能・工程は省略され得る。

【0033】

（１－３．実学習）
実学習は、固有表現抽出モデル８を学習するための教師データ（アノテーションデータ）を生成する処理と、教師データ（アノテーションデータ）を用いて事前学習モデル６または再事前学習モデル７をファインチューニングし、固有表現抽出モデル８を生成する処理からなる。具体的には、実学習は、文書解析システム１が備えるアノテーション部１６、固有表現抽出モデル学習部１７によって実行される。

【0034】

アノテーション部１６は、特定の技術分野の文書群である限定文書群４Ｂに対して、各種固有表現タグのアノテーション設定をユーザから受け付け、アノテーション済みの教師データ（以下、「アノテーションデータ５」と表記）を生成する。

【0035】

限定文書群４Ｂは、解析対象の対象文書２及び限定文書群４Ａと同じ技術分野の文書群である。また限定文書群４Ｂは、知的財産関連文書であることが望ましい。また限定文書群４Ｂの文書群は、限定文書群４Ａの文書群と同一、または一部共通していてもよい。

【0036】

本実施形態において、アノテーション部１６は、固有表現タグとして、ある一つの意味的関係を形成する固有表現タグ列を区切る文字情報（文字、記号、又はそれらの組み合わせ）に付与する区切りタグを設定することができる。

【0037】

図２は、区切りタグを含む各固有表現タグのアノテーション設定例について説明する図である。図２は、知的財産関連文書である「特許請求の範囲」における請求項の例文『質量%で、Cを0.03～1.5%、Niを5～10%またはCuを0.7～2%含み、さらにCoを0.1～4%、Siを5%以下からなる組成を有する鋼材。』に対して、アノテーション設定を行う例を示している。

【0038】

図２の例では、文に対して５種類の固有表現タグをユーザが設定している。「Ｅ」は元素名に設定する「元素タグ」、「ＬＦ」は数値範囲の下限値に設定する「下限数値タグ」、「ＵＦ」は数値範囲の上限値に設定する「上限数値タグ」、「Ｕ」は数値の単位表現に設定する「単位タグ」を表す。そして「Ｓ」が「区切りタグ」を表す。

【0039】

区切りタグＳは、ある一つの意味的関係を形成する固有表現タグ列を区切る文字情報に設定する。
図２の場合、
（ａ）『Cを0.03～1.5%』（固有表現タグ列：「Ｅ」「ＬＦ」「ＵＦ」「Ｕ」）
（ｂ）『Niを5～10%』（固有表現タグ列：「Ｅ」「ＬＦ」「ＵＦ」「Ｕ」）
（ｃ）『Cuを0.7～2%』（固有表現タグ列：「Ｅ」「ＬＦ」「ＵＦ」「Ｕ」）
（ｄ）『Coを0.1～4%』（固有表現タグ列：「Ｅ」「ＬＦ」「ＵＦ」「Ｕ」）
（ｅ）『Siを5%以下』
（固有表現タグ列：「Ｅ」「ＵＦ」「Ｕ」）
は、鋼材に含まれる各元素の含有量を規定する記載であり、上記（ａ）～（ｅ）は、それぞれ、一つの意味的関係を形成している。区切りタグＳは、上記（ａ）～（ｅ）のそれぞれの固有表現タグ列を区切る文字情報に設定する。

【0040】

例えば、図２の場合には、上記（ａ）～（ｅ）のそれぞれの固有表現タグ列を区切る文字情報である『で、』『、』『または』『含み、』『さらに』『、』『からなる』に対して区切りタグＳを設定している。なお、区切りタグＳを設定する文字情報は、特定の文字や記号等に限定されず、一つの意味的関係を形成する固有表現タグ列を区切る任意の文字や記号等であってよい。

【0041】

またアノテーション部１６は、主従関係を有する固有表現タグのアノテーション設定を受け付けてもよい。具体的には、アノテーション部１６は、主固有表現タグＴ１と主固有表現タグＴ１と従属関係にある従固有表現タグＴ２とを関連付けたアノテーション設定を受け付ける。

【0042】

主固有表現タグＴ１とは、限定文書群４Ｂの文書中の固有表現に対して設定されるある固有表現タグである。従固有表現タグＴ２とは、限定文書群４Ｂの文書中の固有表現に対して、主固有表現タグＴ１に従属して設定される１以上の固有表現タグである。設定された主固有表現タグＴ１及び従固有表現タグＴ２は、互いに関連付けられてアノテーションデータ５中に格納される。

【0043】

具体的には、限定文書群４Ｂが、知的財産関連文書である「特許請求の範囲」の場合、請求項に記載された特定の発明特定事項に係る固有表現に対して主固有表現タグＴ１を設定し、主固有表現タグＴ１が設定された発明特定事項の性質や構造等をより具体的に表す固有表現に対して従固有表現タグＴ２を設定することができる。

【0044】

例えば、化学分野の場合であれば、特定元素や特定特性を表す固有表現（発明特定事項）に対して主固有表現タグＴ１を設定し、特定元素や特定特性の範囲や程度を表す固有表現に対して主固有表現タグＴ１に関連付けて従固有表現タグＴ２を設定する。これにより、特定元素や特定特性（主固有表現）に対してどのような範囲や程度（従固有表現）が開示されているかの情報が学習されるため、対象文書２の詳細な解析が行えるようになる。知的財産関連文書では、主従関係で権利範囲を表すことが多いため、このようなタグ付けは特に有効である。

【0045】

またアノテーション部１６は、固有表現タグ間を関連付ける手掛かり語に対して関連固有表現タグＴｒの設定をユーザから受け付けてもよい。例えば、特定元素に係る固有表現に対して主固有表現タグＴ１、特定元素の数値範囲に係る固有表現に対して従固有表現タグＴ２を設定したとする。この場合、数値範囲の上限、下限を意味する記号や語句表現などの範囲や程度を補足する固有表現（手掛かり語）に対して関連固有表現タグＴｒを設定する。このように関連固有表現タグＴｒを設定することで、固有表現抽出モデル８の更なる性能の向上が期待できる。

【0046】

図３は、主固有表現タグＴ１、従固有表現タグＴ２、関連固有表現タグＴｒのアノテーション設定例について説明する図である。図３では、図２と同じ請求項の例文に対して、元素名を主固有表現とし、下限数値、上限数値、及び単位表現を従固有表現としてアノテーション設定を行った例を示している。

【0047】

具体的には、元素名には主固有表現タグＴ１である元素タグＴ１_Ｅを設定し、元素の含有量を規定する下限数値、上限数値、及び単位表現には従固有表現タグＴ２である下限数値タグＴ２_ＬＦ、上限数値タグＴ２_ＵＦ、及び単位タグＴ２_Ｕをそれぞれ設定している。また、範囲を表す「～」には、下限数値タグＴ２_ＬＦと上限数値タグＴ２_ＵＦを関連付ける手掛かり語として、関連固有表現タグＴｒである範囲タグＴｒ_Ｒを設定している。

【0048】

固有表現抽出モデル学習部１７は、事前学習モデル６または再事前学習モデル７を、アノテーションデータ５（限定文書群４Ｂに固有表現タグが設定された教師データ）でファインチューニングすることで、固有表現抽出モデル８を生成する。ファインチューニングは、BERTとして知られている公知の技術を利用して実行可能である。

【0049】

本実施形態では、日本語Wikipediaの教師なしデータを用いて言語モデル（事前学習モデル６）を事前学習、更には限定文書群４Ａを用いて言語モデル（再事前学習モデル７）を再事前学習させたあとに、固有表現抽出タスクのデータセットであるアノテーションデータ５（教師データ）を用いて、ファインチューニングにより再事前学習モデル７のパラメータを調整し、固有表現抽出モデル８を生成する。

【0050】

以上説明した学習機能により、文書から固有表現の情報を抽出する固有表現抽出モデル８が生成される。なお、大規模文書群３、事前学習モデル６、再事前学習モデル７を用いずに固有表現抽出モデル８を生成してもよい。すなわち、限定文書群４Ｂに対してアノテーション設定を行ったアノテーションデータ５をもとに機械学習により固有表現抽出モデル８を直接学習し生成してもよい。

【0051】

（１－４．再実学習）
次に、図４を参照して、固有表現抽出モデル８の学習精度を更に高める再実学習について説明する。図４に示すように、再実学習は、文書解析システム１が備える、文書入力部１１、固有表現抽出部１２、再アノテーション部１８、固有表現抽出モデル再ファインチューニング部１９によって実行される。

【0052】

文書入力部１１は、特定の技術分野の文書群である限定文書群４Ｃの入力を受け付ける。限定文書群４Ｃは、対象文書２及び限定文書群４Ａ、４Ｂと同じ技術分野の文書群である。また限定文書群４Ｃは、知的財産関連文書であることが望ましい。

【0053】

固有表現抽出部１２は、限定文書群４Ｃに対して、固有表現抽出モデル８を用いて、各文書から固有表現の情報を抽出し、抽出データ９を出力する。本実施形態において、抽出される固有表現の情報には、区切りタグＳを含む各固有表現タグの情報が含まれる。

【0054】

再アノテーション部１８は、抽出データ９を表示装置３４に表示し、抽出された各固有表現タグに対して、タグ付けの訂正操作（区切りタグＳを含む各固有表現タグの訂正操作）を受け付け、訂正された固有表現タグが設定された限定文書群４Ｃ（以下、「再アノテーションデータ２０」と表記）を教師データとして再生成する。

【0055】

固有表現抽出モデル再ファインチューニング部１９は、再アノテーションデータ２０を用いて、固有表現抽出モデル８を再ファインチューニングする。再ファインチューニングは、BERTとして知られている公知の技術を利用して実行可能である。再ファインチューニングは、所定の学習性能が得られるまで繰り返し実行することができる。

【0056】

なお、再事前学習、実学習、及び再実学習を通して、対象文書２の解析に適合するモデルの構築を行うが、過学習により対象文書２からの抽出精度が低下する場合がある。そのため、再事前学習、実学習、及び再実学習の各学習過程において、交差検証により汎化性能評価を適宜実施することが望ましい。

【0057】

（２．解析機能）
次に、図５を参照して、文書解析システム１の解析機能について説明する。解析機能は、主に、文書入力部１１、固有表現抽出部１２、構造解析部１３から構成される。

【0058】

文書入力部１１は、解析対象の文書である１または複数の対象文書２の入力を受け付ける。対象文書２は解析したい特定の技術分野の文書であり、限定文書群４Ａ、４Ｂ、４Ｃと同じ技術分野の文書である。また対象文書２は、知的財産関連文書であることが望ましい。

【0059】

固有表現抽出部１２は、固有表現抽出モデル８を用いて対象文書２から固有表現の情報を抽出し、固有表現の情報が抽出された抽出データ１０を構造解析部１３に出力する。本実施形態において、抽出される固有表現の情報には、区切りタグＳを含む各固有表現タグの情報が含まれる。

【0060】

図６は、固有表現抽出の一例を示す図である。図６は、知的財産関連文書である「特許請求の範囲」における請求項の例文『質量%で、Cを0.01～2.0%、Niを3～10%またはCuを0.5～1%含み、さらにCoを0.1～3%、Siを3%以下からなる組成を有する鋼材。』に対して固有表現抽出を行った例を示している。図に示すように、固有表現抽出結果として、区切りタグＳを含む各固有表現タグの情報が抽出された抽出データ１０が得られる。

【0061】

構造解析部１３は、固有表現抽出部１２により抽出された抽出データ１０に基づいて対象文書２の構造解析を行い、構造化データ４０を生成する。具体的には、構造解析部１３は、抽出データ１０に含まれる区切りタグＳから、区切りタグＳにより区切られている各固有表現タグ列を、一つの意味的関係を形成している固有表現タグ列（意味のまとまり）として取得する。そして構造解析部１３は、タグ列パターンテーブル９０（図７）を参照して、取得した各固有表現タグ列のパターンをパターンマッチングにより特定し、各固有表現タグ列の情報を、各パターンに対応するデータフォーマットの構造化データ４０に変換する。

【0062】

図７は、タグ列パターンテーブル９０の例を示す図である。タグ列パターンテーブル９０は、固有表現タグ列のパターンと構造化データのデータフォーマットとを予め対応付けて保持するテーブルである。図７に示すように、固有表現タグ列のパターン毎に、構造化データのデータフォーマットが予め定められている。例えば、パターン１は、「元素タグＥ」→「下限数値タグＬＦ」→「上限数値タグＵＦ」→「単位タグＵ」からなる固有表現タグ列のパターンであり、このパターンの構造化データのデータフォーマットは(E： LF, UF, U)である。

【0063】

なお、請求項において元素の含有量を規定する場合、『Cuを0.3%～1％含む』のように元素→数値の順に記載する場合や、『0.3%～1%のCuを含む』のように数値→元素の順に記載する場合があり、いずれの記載もパターンマッチングにより認識できるようにする必要がある。

【0064】

そのため、図７に示すタグ列パターンテーブル９０には、パターン１（「元素タグＥ→下限数値タグＬＦ→上限数値タグＵＦ→単位タグＵ」）やパターン３（「元素タグＥ→上限数値タグＵＦ→単位タグＵ」）のように元素タグＥがタグ列の先頭に出現するパターンと、パターン２（「下限数値タグＬＦ→上限数値タグＵＦ→単位タグＵ→元素タグＥ」）やパターン４（「上限数値タグＵＦ→単位タグＵ→元素タグＥ」）のように元素タグＥがタグ列の末尾に出現するパターンが用意されている。

【0065】

なお、タグ列パターンテーブル９０のパターンは、図７の例に限定されず、任意の固有表現タグ列のパターンを構造化データのデータフォーマットと対応付けて保持することができる。

【0066】

図８は、文書の構造解析の一例を示す図である。図８は、図６の抽出データ１０に基づいて構造解析を行った例を示す。図８に示すように、構造解析部１３は、まず、抽出データ１０に含まれる固有表現タグ列から、区切りタグＳにより区切られている各固有表現タグ列Ｔｃ１～Ｔｃ５を、一つの意味的関係を形成している固有表現タグ列（意味のまとまり）として取得する。そして構造解析部１３は、タグ列パターンテーブル９０（図７）を参照して、各固有表現タグ列Ｔｃ１～Ｔｃ５のパターンをパターンマッチングにより特定し、各固有表現タグ列Ｔｃ１～Ｔｃ５の情報を、各パターンに対応するデータフォーマットの構造化データ４０に変換する。

【0067】

例えば、固有表現タグ列Ｔｃ１～Ｔｃ４は、「元素タグＥ」→「下限数値タグＬＦ」→「上限数値タグＵＦ」→「単位タグＵ」からなるタグ列であり、タグ列パターンテーブル９０（図７）のパターン１に対応する。したがって、固有表現タグ列Ｔｃ１～Ｔｃ４の情報は、パターン１に対応するデータフォーマット(E： LF, UF, U)に従って、(C:
0.01, 2.0, mass%)，(Ni: 3, 10, mass%)， (Cu: 0.5, 1, mass%)，(Co: 0.1, 3, mass%)という構造化データ４０に変換される。

【0068】

また、固有表現タグ列Ｔｃ５は、「元素タグＥ」→「上限数値タグＵＦ」→「単位タグＵ」からなるタグ列であり、タグ列パターンテーブル９０のパターン３に対応する。したがって、固有表現タグ列Ｔｃ５の情報は、パターン３に対応するデータフォーマット(E： , UF, U)に従って、(Si:
, 3, mass%)という構造化データ４０に変換される。

【0069】

構造解析部１３は、生成した構造化データ４０を、文書を一意に識別する文書ＩＤや文書属性等と紐づけて文書抽出ＤＢ１００に保存する。

【0070】

図９は構造化データ４０を記憶する文書抽出ＤＢ１００のデータ構成例を示す図である。図９に示すように、文書ＩＤ４１、文書名４３、文書属性４５等と紐づけて、構造化データ４０が文書毎に格納される。例えば、文書ＩＤ４１「T001」の文書（文書名４３：特許請求の範囲、文書属性４５：特許公報）の場合、構造化データ４０として、(C: 0.01, 2.0, mass%)，(Cu: 0.5, 1, mass%)，(Co: 0.1, 3, mass%)，(Si: , 3, mass%)…が格納されている。

【0071】

ここで比較として、本実施形態とは異なり、区切りタグＳを設定せずに固有表現抽出を行った場合の文書の構造解析について補足する。
図１０は固有表現の情報を抽出した抽出データ１０の例を示す。抽出対象の例文は図６と同じである。図１０に示すように、区切りタグＳが未設定のため、当然ながら区切りタグＳは抽出されない。区切りタグＳ以外の固有表現タグについては、図６の抽出結果と同様に抽出される。

【0072】

図１１は、図１０の抽出データ１０に対して、タグ列パターンテーブル９０（図７）を参照して構造解析を行った例を示す。区切りタグＳが存在しない場合、固有表現タグ列とマッチングするパターンの組み合わせが多くなるため、誤って構造解析される可能性がある。例えば、図１１（ａ）のように、パターンマッチングによって「パターン１→パターン１→パターン１→パターン１→パターン３」と認識された場合には、図８（本実施形態の構造解析結果の例）と同様に、正しい構造化データ４０が得られる。しかし、図１１（ｂ）に示すように、パターンマッチングによって「パターン２→パターン２→パターン２→パターン２」と認識された場合には、請求項の文脈に合わない誤った構造化データ４０が得られる。

【0073】

このように区切りタグＳがない場合、固有表現タグ列とマッチングするパターンの組み合わせが多くなるため、パターンマッチングが複雑となり、誤った構造解析が行われる可能性がある。この点、本実施形態のように区切りタグＳを導入することで、区切りタグＳにより区切られた固有表現タグ列のパターンのマッチングだけを考慮すればよいため（図８参照）、パターンマッチングの複雑度を低減させることができ、容易かつ正確に文書の構造解析を行うことが可能となる。

【0074】

（３．ハードウェア構成）
次に、図１２を参照して、文書解析システム１を適用するコンピュータ３０のハードウェア構成について説明する。図１２に示すように、コンピュータ３０は、制御部３１、記憶装置３２、入力装置３３、表示装置３４、メディア入出力装置３５、通信Ｉ／Ｆ部３６、周辺機器Ｉ／Ｆ部３７等がバス３９を介して接続されて構成される。但し、これに限ることなく、適宜様々な構成をとることができる。また、コンピュータ３０は１以上のコンピュータから構成されてもよい。

【0075】

制御部３１は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等により構成される。制御部３１は、記憶装置３２、ＲＯＭ、記録媒体（メディア）等に格納されるプログラムをＲＡＭ上のワークメモリ領域に呼び出して実行し、バス３９を介して接続された各部を駆動制御する。

【0076】

ＲＯＭは、コンピュータ３０のブートプログラムやＢＩＯＳ等のプログラム、データ等を恒久的に保持する。ＲＡＭは、ロードしたプログラムやデータを一時的に保持するとともに、制御部３１が後述する各種処理を行うために使用するワークエリアを備える。

【0077】

また、制御部３１は、記憶装置３２に記憶されている処理プログラムに従って、図１３、１４に示す学習処理や図１５に示す解析処理、図１７に示す検索処理等を実行する。各処理を実行するプログラムは、予めコンピュータ３０の記憶装置３２やＲＯＭ等に記憶されていてもよいし、ネットワーク等を介してダウンロードされ、記憶装置３２等に記憶されたものでもよい。

【0078】

記憶装置３２は、ＨＤＤ（ハードディスクドライブ）等であり、制御部３１が実行するプログラムや、プログラム実行に必要なデータ（事前学習モデル６、再事前学習モデル７、固有表現抽出モデル８、文書抽出ＤＢ１００等）、ＯＳ（オペレーティング・システム）等が格納されている。これらのプログラムコードは、制御部３１により必要に応じて読み出されてＲＡＭに移され、ＣＰＵに読み出されて実行される。

【0079】

入力装置３３は、例えば、キーボード、マウス、タッチパネル、タブレット等のポインティング・デバイス、テンキー等の入力装置であり、入力されたデータを制御部３１へ出力する。

【0080】

表示装置３４は、例えば液晶パネル、ＣＲＴモニタ等のディスプレイ装置と、ディスプレイ装置と連携して表示処理を実行するための論理回路（ビデオアダプタ等）で構成され、制御部３１の制御により入力された表示情報をディスプレイ装置上に表示させる。なお、入力装置３３と表示装置３４とが一体的に構成されたタッチパネル式の入出力部としてもよい。

【0081】

メディア入出力装置３５は、例えば、ＣＤ／ＤＶＤドライブ等の各種記録媒体（メディア）の入出力装置であり、データの入出力を行う。通信Ｉ／Ｆ部３６は、通信制御装置、通信ポート等を有し、ネットワークを介して通信接続された外部装置との通信を媒介するインタフェースであり、通信制御を行う。

【0082】

周辺機器Ｉ／Ｆ部３７は、コンピュータ３０に周辺機器を接続させるためのポートであり、コンピュータ３０は周辺機器Ｉ／Ｆ部３７を介して周辺機器とのデータの送受信を行う。周辺機器Ｉ／Ｆ部３７は、ＵＳＢやＩＥＥＥ１３９４等で構成されている。周辺機器との接続形態は有線、無線を問わない。バス３９は、各装置間の制御信号、データ信号等の授受を媒介する経路である。

【0083】

（４．文書解析システム１の処理）
次に、文書解析システム１の処理について説明する。文書解析システム１において、コンピュータ３０の制御部３１は、事前学習モデル６、再事前学習モデル７、及び固有表現抽出モデル８を学習する学習処理（図１３、１４）を実行する。また、制御部３１は、学習処理により学習した固有表現抽出モデル８を用いて、解析対象の対象文書２から固有表現の情報を抽出し、抽出データ１０に基づいて対象文書２の解析処理（図１５）を実行する。

【0084】

（４－１．学習処理）
まず、図１３を参照して、学習処理について説明する。コンピュータ３０の制御部３１（事前学習部１４）は、大規模文書群３を用いて教師なし事前学習を行い、事前学習モデル６を生成する（ステップＳ１１、事前学習処理）。生成した事前学習モデル６は記憶装置３２に保存される。

【0085】

次に、コンピュータ３０の制御部３１（再事前学習部１５）は、特定の技術分野の文書群である限定文書群４Ａを用いて、ステップＳ１１にて生成された事前学習モデル６を再事前学習し、再事前学習モデル７を生成する（ステップＳ１２、再事前学習処理）。生成した再事前学習モデル７は記憶装置３２に保存される。

【0086】

次に、固有表現抽出モデル８を学習するための教師データ（アノテーションデータ）を生成し、教師データ（アノテーションデータ）で事前学習モデル６または再事前学習モデル７をファインチューニングし固有表現抽出モデル８を生成する実学習処理について説明する。

【0087】

まず、コンピュータ３０の制御部３１（アノテーション部１６）は、特定の技術分野の文書群である限定文書群４Ｂに対して、各種固有表現タグのアノテーション設定をユーザから受け付け、アノテーション済みの教師データ（アノテーションデータ５）を生成する（ステップＳ１３）。

【0088】

特に本実施形態では、コンピュータ３０の制御部３１（アノテーション部１６）は、固有表現タグとして、ある一つの意味的関係を形成する固有表現タグ列を区切る文字情報に付与する区切りタグＳの設定を受け付ける（図２参照）。

【0089】

また、制御部３１（アノテーション部１６）は、主固有表現タグＴ１と該主固有表現タグＴ１と従属関係にある従固有表現タグＴ２とを関連付けたアノテーションの設定をユーザから受け付けてもよい（図３参照）。また、制御部３１（アノテーション部１６）は、固有表現タグ間を関連付ける手掛かり語に対して関連固有表現タグＴｒの設定をユーザから受け付けてもよい（図３参照）。

【0090】

次に、コンピュータ３０の制御部３１（固有表現抽出モデル学習部１７）は、ステップＳ１１において生成された事前学習モデル６、またはステップＳ１２において生成された再事前学習モデル７を、アノテーションデータ５でファインチューニングすることで、固有表現抽出モデル８を生成する（ステップＳ１４、ファインチューニング処理）。
以上の処理により、固有表現抽出モデル８が生成される。生成した固有表現抽出モデル８は記憶装置３２に保存される。

【0091】

図１４は、固有表現抽出モデル８の学習性能を更に高める再実学習処理について説明するフローチャートである。コンピュータ３０の制御部３１（文書入力部１１）は、特定の技術分野の文書群である限定文書群４Ｃの入力を受け付ける（ステップＳ３１）。次に、コンピュータ３０の制御部３１（固有表現抽出部１２）は、限定文書群４Ｃに対して、固有表現抽出モデル８を用いて各文書から固有表現の情報を抽出し、抽出データ９を出力する。本実施形態において、抽出される固有表現の情報には、区切りタグＳを含む各固有表現タグの情報が含まれる。

【0092】

次に、コンピュータ３０の制御部３１（再アノテーション部１８）は、抽出データ９を表示装置３４に表示し、抽出された各固有表現タグに対して、タグ付けの訂正操作（区切りタグＳを含む各固有表現タグの訂正操作）を受け付け、訂正された固有表現タグが設定された限定文書群４Ｃ（再アノテーションデータ２０）を教師データとして再生成する（ステップＳ３３）。

【0093】

そして、コンピュータ３０の制御部３１（固有表現抽出モデル再ファインチューニング部１９）は、再アノテーションデータ２０を用いて、固有表現抽出モデル８を再ファインチューニングする（ステップＳ３４）。ステップＳ３１～Ｓ３４は、所望の学習性能が得られるまで繰り返し実行することができる。

【0094】

（４－２．解析処理）
次に、図１５を参照して、解析処理について説明する。まずコンピュータ３０の制御部３１（文書入力部１１）が、解析対象の文書である１または複数の対象文書２の入力を受け付ける（ステップＳ５１）。

【0095】

次に、コンピュータ３０の制御部３１（固有表現抽出部１２）は、固有表現抽出モデル８を用いて、対象文書２から固有表現の情報を抽出し、抽出データ１０を出力する（ステップＳ５２）。本実施形態において、抽出される固有表現の情報には、区切りタグＳを含む各固有表現タグの情報が含まれる。

【0096】

次に、コンピュータ３０の制御部３１（構造解析部１３）は、抽出データ１０に基づいて対象文書２の構造解析を行い、構造化データ４０を生成する（ステップＳ５３）。具体的には、制御部３１（構造解析部１３）は、抽出データ１０に含まれる区切りタグＳから、区切りタグＳにより区切られている各固有表現タグ列を、一つの意味的関係を形成している固有表現タグ列（意味のまとまり）として取得する。そして制御部３１（構造解析部１３）は、タグ列パターンテーブル９０（図７）を参照して、取得した各固有表現タグ列のパターンを特定し、各固有表現タグ列の情報を、各パターンに対応するデータフォーマットの構造化データ４０に変換する（図８参照）。

【0097】

そして、コンピュータ３０の制御部３１（構造解析部１３）は、生成した構造化データ４０を、文書を一意に識別する文書ＩＤや文書属性等と紐づけて文書抽出ＤＢ１００に保存する（ステップＳ５４）。

【0098】

以上説明したように、本実施形態では、特定の技術分野の文書群である限定文書群４Ｂに対して、固有表現タグのアノテーション設定を受け付け、アノテーション済みの教師データを用いて固有表現抽出モデル８を生成する。特に本実施形態では、アノテーション設定の際に、固有表現タグとしてある一つの意味的関係を形成する固有表現タグ列を区切る文字情報に付与する区切りタグＳを設定可能とすることで、固有表現抽出モデル８によって解析対象の対象文書２から区切りタグＳの情報を他の固有表現タグの情報と共に抽出する。これにより、対象文書２から一つの意味を形成している固有表現タグ列（意味のまとまり）を区切りタグＳに基づいて特定できるので、技術文書の理解や構造解析が容易となる。

【0099】

（５．文書検索）
図１５の解析処理を多数の対象文書２について実行することで、文書抽出ＤＢ１００（図９参照）には文書毎に構造化データ４０が多数蓄積されていく。ここでは、文書抽出ＤＢ１００の活用例として文書検索について補足する。

【0100】

図１６は、文書解析システム１の文書検索機能を示す機能ブロック図である。文書検索機能は、主に、検索条件設定部２１、検索部２２、及び検索結果表示部２３から構成される。

【0101】

検索条件設定部２１は、検索キーワード、数値条件、単位条件等の入力をユーザから受け付け、検索条件を設定する。検索部２２は、文書抽出ＤＢ１００から、検索条件を満たす構造化データを含む文書を検索する。検索結果表示部２３は、検索された文書の情報を表示する。

【0102】

図１７を参照して、検索処理の流れについて説明する。まず、コンピュータ３０の制御部３１（検索条件設定部２１）は、検索キーワード、数値条件、単位条件等の入力をユーザから受け付け、検索条件を設定する（ステップＳ７１）。次に、制御部３１（検索部２２）は、文書抽出ＤＢ１００から、ステップＳ７１において設定された検索条件を満たす構造化データを含む文書を検索する（ステップＳ７２）。そして、制御部３１（検索結果表示部２３）は、文書の検索結果を表示装置３４に表示する（ステップＳ７３）。

【0103】

以上、添付図面を参照しながら、本発明に係る文書解析システム１等の好適な実施形態について説明したが、本発明はかかる例に限定されない。当業者であれば、本願で開示した技術的思想の範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。

【符号の説明】

【0104】

１………………文書解析システム
２………………対象文書
３………………大規模文書群
４Ａ～４Ｃ……限定文書群
５………………アノテーションデータ
６………………事前学習モデル
７………………再事前学習モデル
８………………固有表現抽出モデル
９、１０………抽出データ
１１……………文書入力部
１２……………固有表現抽出部
１３……………構造解析部
１４……………事前学習部
１５……………再事前学習部
１６……………アノテーション部
１７……………固有表現抽出モデル学習部
１８……………再アノテーション部
１９……………固有表現抽出モデル再ファインチューニング部
２０……………再アノテーションデータ
２１……………検索条件設定部
２２……………検索部
２３……………検索結果表示部
３０……………コンピュータ
４０……………構造化データ
９０……………タグ列パターンテーブル
１００…………文書抽出ＤＢ
Ｓ………………区切りタグ
Ｔ１……………主固有表現タグ
Ｔ２……………従固有表現タグ
Ｔｒ……………関連固有表現タグ

【図1】