(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024046883
(43)【公開日】2024-04-05
(54)【発明の名称】文書解析システム、文書解析方法、及びプログラム
(51)【国際特許分類】
G06F 40/295 20200101AFI20240329BHJP
【FI】
G06F40/295
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022152232
(22)【出願日】2022-09-26
(71)【出願人】
【識別番号】000005083
【氏名又は名称】株式会社プロテリアル
(71)【出願人】
【識別番号】504145342
【氏名又は名称】国立大学法人九州大学
(74)【代理人】
【識別番号】100096091
【弁理士】
【氏名又は名称】井上 誠一
(72)【発明者】
【氏名】千綿 伸彦
(72)【発明者】
【氏名】峯 恒憲
(72)【発明者】
【氏名】酒井 敏彦
【テーマコード(参考)】
5B091
【Fターム(参考)】
5B091AA15
5B091AB06
5B091CA01
5B091EA01
(57)【要約】
【課題】技術文書の理解を容易にする文書解析システム等を提供する。
【解決手段】文書解析システム1は、特定の技術分野の文書群である限定文書群に対して、固有表現タグのアノテーション設定を受け付け、アノテーション済みのアノテーションデータ5を生成するアノテーション部16であって、固有表現タグとしてある一つの意味的関係を形成する固有表現タグ列を区切る文字情報に付与する区切りタグSが設定可能なアノテーション部16と、アノテーションデータ5を用いて、固有表現抽出モデル8を生成する固有表現抽出モデル学習部17と、技術分野の文書を解析対象として入力する文書入力部11と、固有表現抽出モデル8を用いて、解析対象の文書から区切りタグSの情報を他の固有表現タグの情報と共に抽出する固有表現抽出部12と、を備える。
【選択図】
図2
【特許請求の範囲】
【請求項1】
特定の技術分野の文書群である限定文書群に対して、固有表現タグのアノテーション設定を受け付け、アノテーション済みの教師データを生成するアノテーション部であって、前記固有表現タグとしてある一つの意味的関係を形成する固有表現タグ列を区切る文字情報に付与する区切りタグが設定可能な前記アノテーション部と、
前記教師データを用いて、固有表現抽出モデルを生成する固有表現抽出モデル学習部と、
前記技術分野の文書を解析対象として入力する文書入力部と、
前記固有表現抽出モデルを用いて、解析対象の前記文書から区切りタグの情報を他の固有表現タグの情報と共に抽出する固有表現抽出部と、
を備えることを特徴とする文書解析システム。
【請求項2】
前記固有表現抽出部により抽出された前記区切りタグを参照して、前記文書の構造解析を行う構造解析部、を更に備える
ことを特徴とする請求項1に記載の文書解析システム。
【請求項3】
前記アノテーション部は、主従関係を有する固有表現タグのアノテーション設定を受け付ける
ことを特徴とする請求項1に記載の文書解析システム。
【請求項4】
前記アノテーション部は、固有表現タグ間を関連付ける手掛かり語に対して関連固有表現タグのアノテーション設定を受け付ける
ことを特徴とする請求項1に記載の文書解析システム。
【請求項5】
前記固有表現抽出モデル学習部は、大規模文書群を用いて事前学習された事前学習モデルを前記教師データでファインチューニングし、前記固有表現抽出モデルを生成する
ことを特徴とする請求項1に記載の文書解析システム。
【請求項6】
特定の技術分野の文書群である限定文書群を用いて、前記事前学習モデルを再事前学習して再事前学習モデルを生成する再事前学習部、を更に備え、
前記固有表現抽出モデル学習部は、前記再事前学習モデルと前記教師データを用いて、前記固有表現抽出モデルを生成する
ことを特徴とする請求項5に記載の文書解析システム。
【請求項7】
特定の技術分野の文書群である限定文書群を前記固有表現抽出モデルに入力し抽出された固有表現タグに対して、タグ付けの訂正操作を受け付ける再アノテーション部と、
訂正された固有表現タグが設定された前記限定文書群を用いて、前記固有表現抽出モデルを再ファインチューニングする固有表現抽出モデル再ファインチューニング部と、
を更に備えることを特徴とする請求項5に記載の文書解析システム。
【請求項8】
前記限定文書群及び解析対象の前記文書は、知的財産関連の文書群及び文書である
ことを特徴とする請求項1に記載の文書解析システム。
【請求項9】
コンピュータが、
特定の技術分野の文書群である限定文書群に対して、固有表現タグのアノテーション設定を受け付け、アノテーション済みの教師データを生成するアノテーション工程であって、前記固有表現タグとしてある一つの意味的関係を形成する固有表現タグ列を区切る文字情報に付与する区切りタグが設定可能な前記アノテーション工程と、
前記教師データを用いて、固有表現抽出モデルを生成する固有表現抽出モデル学習工程と、
前記技術分野の文書を解析対象として入力する文書入力工程と、
前記固有表現抽出モデルを用いて、解析対象の前記文書から区切りタグの情報を他の固有表現タグの情報と共に抽出する固有表現抽出工程と、
を実行することを特徴とする文書解析方法。
【請求項10】
コンピュータを、
特定の技術分野の文書群である限定文書群に対して、固有表現タグのアノテーション設定を受け付け、アノテーション済みの教師データを生成するアノテーション部であって、前記固有表現タグとしてある一つの意味的関係を形成する固有表現タグ列を区切る文字情報に付与する区切りタグが設定可能な前記アノテーション部と、
前記教師データを用いて、固有表現抽出モデルを生成する固有表現抽出モデル学習部と、
前記技術分野の文書を解析対象として入力する文書入力部と、
前記固有表現抽出モデルを用いて、解析対象の前記文書から区切りタグの情報を他の固有表現タグの情報と共に抽出する固有表現抽出部と、
して機能させることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、技術文書の文書解析システム等に関する。
【背景技術】
【0002】
膨大な技術文書群から、必要となる技術要素を抽出するのは大きな課題である。例えば、技術文書としては特許公報をはじめとする多くの知的財産関連文書がある。これらの知的財産関連文書は、電子文書化が進み、さらには分類付けも行われており、このような分類やフリーキーワードによる機械検索によって目的とする文書群の抽出が容易になっている。
【0003】
また近年、文書を機械学習させることで、必要とする情報を整理して出力する解析手法が開発されてきた。例えば、BERT(Bidirectional Encoder Representations
from Transformers)という手法の発展は、文章で使用される単語の様々な配置位置、類似表現を学習し、語句への適切な固有表現タグの付与を行うことができる手法として注目されている(非特許文献1)。また、知財関連文書として特許データに着目した、PatentBERTの報告もある(非特許文献2)。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Gururangan, S., Marasovic, A., Swayamdipta, S., Lo, K., Beltagy,I., Downey, D., & Smith, N. A. (2020, July). Don’tStop Pretraining: Adapt Language Models to Domains and Tasks. In Proceedings ofthe 58th Annual Meeting of the Association for Computational Linguistics (pp.8342-8360).
【非特許文献2】Lee, J.-S. and Hsiang, J.: Patentbert: Patent classificationwithfine-tuning a pre-trained bert model, arXiv preprint arXiv:1906.02124 (2019).
【発明の概要】
【発明が解決しようとする課題】
【0005】
上述した解析手法は、適切な固有表現を抽出できるため、単純なキーワード検索による検索洩れの低減が期待できる。さらに、知的財産関連文書に対して人手によって行われた分類付けの自動化も期待できる。このように最近の機械学習の手法は、技術文書の解析に対して万能のように思われる。しかし、技術文書には分野ごとに特定の表現方法が用いられるケースも少なくなく、解析精度の更なる向上の課題があった。
【0006】
また、研究者にとっては、関連する文書群を抽出することだけで目的が達成されるわけではなく、いかなる技術が開示されているのかを把握するために、自ら文書を読み込み理解する必要がある。また、知的財産の権利を確認しようとする者は、特許権の侵害防止や、新たな研究領域の策定をするために、知的財産関連文書である特許文献等に開示されている権利範囲を速やかに理解する必要がある。
【0007】
本発明は、前述した問題点に鑑みてなされたものであり、技術文書の理解を容易にする文書解析システム等を提供することを目的とする。
【課題を解決するための手段】
【0008】
前述した目的を達成するための第1の発明は、特定の技術分野の文書群である限定文書群に対して、固有表現タグのアノテーション設定を受け付け、アノテーション済みの教師データを生成するアノテーション部であって、前記固有表現タグとしてある一つの意味的関係を形成する固有表現タグ列を区切る文字情報に付与する区切りタグが設定可能な前記アノテーション部と、前記教師データを用いて、固有表現抽出モデルを生成する固有表現抽出モデル学習部と、前記技術分野の文書を解析対象として入力する文書入力部と、前記固有表現抽出モデルを用いて、解析対象の前記文書から区切りタグの情報を他の固有表現タグの情報と共に抽出する固有表現抽出部と、を備えることを特徴とする文書解析システムである。
【0009】
第1の発明によれば、特定の技術分野の文書群である限定文書群に対して、固有表現タグのアノテーション設定を受け付け、アノテーション済みの教師データを用いて固有表現抽出モデルを生成する。特に本発明では、アノテーション設定の際に、固有表現タグとしてある一つの意味的関係を形成する固有表現タグ列を区切る文字情報に付与する区切りタグを設定可能とし、固有表現抽出モデルによって解析対象の文書から区切りタグの情報を他の固有表現タグの情報と共に抽出する。抽出された区切りタグに基づいて文書から意味のまとまり(固有表現タグ例)を特定できるので、技術文書の理解や解析が容易となる。
【0010】
また、前記固有表現抽出部により抽出された前記区切りタグを参照して、前記文書の構造解析を行う構造解析部、を更に備えてもよい。区切りタグによって解析対象の文書の構造解析を容易に行うことができる。
【0011】
また、前記アノテーション部は、主従関係を有する固有表現タグのアノテーション設定を受け付けてもよい。これにより、固有表現タグ同士に主従関係を持たせたアノテーション設定を行うことができる。
【0012】
また、前記アノテーション部は、固有表現タグ間を関連付ける手掛かり語に対して関連固有表現タグのアノテーション設定を受け付けてもよい。固有表現タグ同士を関連付ける語に対してタグを設定することで、固有表現タグの抽出性能を向上させることができる。
【0013】
また、前記固有表現抽出モデル学習部は、大規模文書群を用いて事前学習された事前学習モデルを前記教師データでファインチューニングし、前記固有表現抽出モデルを生成してもよい。大規模文書群により事前学習された事前学習モデルをアノテーション済みの教師データでファインチューニングさせることで、解析対象の文書に適合した固有表現抽出モデルを効率的かつ高精度に生成することができる。なお、ファインチューニング(fine tuning)とは、教師なしデータを使って言語モデルを学習させたあと、解きたい特定のタスク(本発明では固有表現抽出)の教師データを使って、言語モデルのパラメータを調整する手法のことをいう。
【0014】
また、特定の技術分野の文書群である限定文書群を用いて、前記事前学習モデルを再事前学習して再事前学習モデルを生成する再事前学習部、を更に備え、前記固有表現抽出モデル学習部は、前記再事前学習モデルと前記教師データを用いて、前記固有表現抽出モデルを生成してもよい。汎用的な事前学習モデルではなく、特定の技術分野に絞った限定文書群を用いて事前学習モデルを再事前学習させた再事前学習モデルを固有表現抽出モデルのベースとすることで、固有表現抽出モデルをさらに効率的かつ高精度に生成することができる。
【0015】
また、特定の技術分野の文書群である限定文書群を前記固有表現抽出モデルに入力し抽出された固有表現タグに対して、タグ付けの訂正操作を受け付ける再アノテーション部と、訂正された固有表現タグが設定された前記限定文書群を用いて、前記固有表現抽出モデルを再ファインチューニングする固有表現抽出モデル再ファインチューニング部と、を更に備えてもよい。固有表現のタグ付けの誤りを訂正し、固有表現抽出モデルを再度学習させるため、固有表現抽出モデルの性能がさらに向上する。
【0016】
また、前記限定文書群及び解析対象の前記文書は、知的財産関連の文書群及び文書であることが望ましい。知的財産関連文書は一般的に難解な文書であることが多いが、本発明の区切りタグを学習させた固有表現抽出モデルを適用することで文書の理解が容易となる。
【0017】
第2の発明は、コンピュータが、特定の技術分野の文書群である限定文書群に対して、固有表現タグのアノテーション設定を受け付け、アノテーション済みの教師データを生成するアノテーション工程であって、前記固有表現タグとしてある一つの意味的関係を形成する固有表現タグ列を区切る文字情報に付与する区切りタグが設定可能な前記アノテーション工程と、前記教師データを用いて、固有表現抽出モデルを生成する固有表現抽出モデル学習工程と、前記技術分野の文書を解析対象として入力する文書入力工程と、前記固有表現抽出モデルを用いて、解析対象の前記文書から区切りタグの情報を他の固有表現タグの情報と共に抽出する固有表現抽出工程と、を実行することを特徴とする文書解析方法である。
【0018】
第3の発明は、コンピュータを、特定の技術分野の文書群である限定文書群に対して、固有表現タグのアノテーション設定を受け付け、アノテーション済みの教師データを生成するアノテーション部であって、前記固有表現タグとしてある一つの意味的関係を形成する固有表現タグ列を区切る文字情報に付与する区切りタグが設定可能な前記アノテーション部と、前記教師データを用いて、固有表現抽出モデルを生成する固有表現抽出モデル学習部と、前記技術分野の文書を解析対象として入力する文書入力部と、前記固有表現抽出モデルを用いて、解析対象の前記文書から区切りタグの情報を他の固有表現タグの情報と共に抽出する固有表現抽出部と、して機能させることを特徴とするプログラムである。
【発明の効果】
【0019】
本発明により、技術文書の理解を容易にする文書解析システム等が提供される。
【図面の簡単な説明】
【0020】
【
図1】文書解析システム1の学習機能を示す図である。
【
図2】区切りタグを含む各固有表現タグのアノテーション設定例を示す図である。
【
図3】主固有表現タグ、従固有表現タグ、関連固有表現タグのアノテーション設定例を示す図である。
【
図4】文書解析システム1の再実学習機能を示す図である。
【
図5】文書解析システム1の解析機能を示す図である。
【
図7】タグ列パターンテーブル90の例を示す図である。
【
図9】文書抽出DB100のデータ構成例を示す図である。
【
図10】区切りタグを設定しない場合における固有表現抽出例を示す図である。
【
図11】区切りタグを設定しない場合における構造解析例を示す図である。(a)は正しい構造解析例、(b)は誤った構造解析例を示す。
【
図12】コンピュータ30のハードウェア構成を示す図である。
【
図13】学習処理の流れを示すフローチャートである。
【
図14】再実学習処理の流れを示すフローチャートである。
【
図15】解析処理の流れを示すフローチャートである。
【
図16】文書解析システム1の検索機能を示す図である。
【
図17】検索処理の流れを示すフローチャートである。
【発明を実施するための形態】
【0021】
以下、図面に基づいて本発明の好適な実施形態について詳細に説明する。
【0022】
(1.学習機能)
まず、
図1を参照して、文書解析に用いる固有表現抽出モデル8を学習する学習機能について説明する。学習機能は「事前学習」「再事前学習」「実学習」からなり、これら学習を実施することにより、固有表現抽出モデル8が生成される。各学習機能について説明する。
【0023】
(1-1.事前学習)
事前学習は、文書解析システム1が備える事前学習部14によって実行される。具体的には
図1に示すように、事前学習部14は、大規模文書群3を用いて教師なし事前学習を行い、事前学習モデル6を生成する。
【0024】
大規模文書群3とは、Web、書籍などに書かれている文章を構造化して大規模に集積したデータベース(汎用目的の大規模コーパス)であり、事前学習モデル6を学習するための学習データとなる。本実施形態では、大規模文書群3として、日本語版Wikipediaの記事を構造化して大規模に集積したデータベース(大規模コーパス)を利用する。
【0025】
事前学習部14が行う事前学習モデル6の学習は、ニューラルネットワークをベースとした深層学習であることが望ましい。この際、深層学習モデルとしてトランスフォーマ(Transformer)を用いると、並列処理が可能であり、学習時間が短縮できる。このような深層学習は、例えば、BERTとして知られている公知の自然言語処理技術を利用して実行可能である。本実施形態では、事前学習部14は、BERTの技術を利用し、日本語Wikipediaから得た大量の文書データを用いて事前学習モデル6を学習する。
【0026】
なお、事前学習は、大量のデータを用いた計算負荷の高い処理であるため、予め実施されていることが望ましい。すなわち、事前学習モデル6が予め用意され、コンピュータ30の記憶装置32(
図12)に保存されていることが望ましい。この場合、本実施形態から、事前学習モデル6を学習する機能・工程は省略され得る。
【0027】
(1-2.再事前学習)
再事前学習は、文書解析システム1が備える再事前学習部15によって実行される。具体的には
図1に示すように、再事前学習部15は、特定の技術分野の文書群である限定文書群4Aを用いて、事前学習モデル6を再事前学習して再事前学習モデル7を生成する。ここで、技術分野の文書は、例えば、技術論文や技術レポートといった文書や、知的財産関連文書などである。
【0028】
限定文書群4Aは、解析したい特定の技術分野の文章を構造化して集積したデータベース(特殊目的のコーパス)であり、事前学習モデル6を再事前学習するための学習データである。限定文書群4Aは、解析対象の対象文書2(
図5参照)と同じ技術分野の文書群である。
【0029】
また限定文書群4Aは、知的財産関連文書であることが望ましい。知的財産関連文書とは、特許出願や実用新案登録出願の内容を掲載した文献であり、例えば、公開特許公報、特許公報(特許掲載公報)、登録実用新案公報などである。限定文書群4Aが、知的財産関連文書である場合、特定の技術分野とは、例えば、IPCやFIやFターム等からなる特許分類記号で分類される技術分野である。
【0030】
再事前学習は、事前学習と同様にBERTとして知られている公知の技術により実行可能である。限定文書群4Aを用いて、事前学習モデル6を再事前学習することで、特定の技術分野の解析に適合した学習モデル(再事前学習モデル7)を得ることができる。また、限定文書群4Aの利用は、大規模な事前学習による学習精度を効率的に向上させる。
【0031】
なお、大規模文書群3を用いずに、はじめから限定文書群4Aを用いてBERTにより事前学習モデルを学習することも可能ではあるが、限定した範囲で多くの学習サンプルを準備して作業しなくてはならず効率が悪い。その点、本実施形態のように、汎用的に利用可能な事前学習モデル6をベースに、さらに再事前学習により精度を向上させることは、精度と効率を両立する上で有効である。
【0032】
なお、再事前学習は実施されなくてもよい。すなわち、事前学習モデル6が予め用意され、コンピュータ30の記憶装置32(
図12)に保存されていてもよい。この場合、本実施形態から、再事前学習モデル7を学習する機能・工程は省略され得る。
【0033】
(1-3.実学習)
実学習は、固有表現抽出モデル8を学習するための教師データ(アノテーションデータ)を生成する処理と、教師データ(アノテーションデータ)を用いて事前学習モデル6または再事前学習モデル7をファインチューニングし、固有表現抽出モデル8を生成する処理からなる。具体的には、実学習は、文書解析システム1が備えるアノテーション部16、固有表現抽出モデル学習部17によって実行される。
【0034】
アノテーション部16は、特定の技術分野の文書群である限定文書群4Bに対して、各種固有表現タグのアノテーション設定をユーザから受け付け、アノテーション済みの教師データ(以下、「アノテーションデータ5」と表記)を生成する。
【0035】
限定文書群4Bは、解析対象の対象文書2及び限定文書群4Aと同じ技術分野の文書群である。また限定文書群4Bは、知的財産関連文書であることが望ましい。また限定文書群4Bの文書群は、限定文書群4Aの文書群と同一、または一部共通していてもよい。
【0036】
本実施形態において、アノテーション部16は、固有表現タグとして、ある一つの意味的関係を形成する固有表現タグ列を区切る文字情報(文字、記号、又はそれらの組み合わせ)に付与する区切りタグを設定することができる。
【0037】
図2は、区切りタグを含む各固有表現タグのアノテーション設定例について説明する図である。
図2は、知的財産関連文書である「特許請求の範囲」における請求項の例文『質量%で、Cを0.03~1.5%、Niを5~10%またはCuを0.7~2%含み、さらにCoを0.1~4%、Siを5%以下からなる組成を有する鋼材。』に対して、アノテーション設定を行う例を示している。
【0038】
図2の例では、文に対して5種類の固有表現タグをユーザが設定している。「E」は元素名に設定する「元素タグ」、「LF」は数値範囲の下限値に設定する「下限数値タグ」、「UF」は数値範囲の上限値に設定する「上限数値タグ」、「U」は数値の単位表現に設定する「単位タグ」を表す。そして「S」が「区切りタグ」を表す。
【0039】
区切りタグSは、ある一つの意味的関係を形成する固有表現タグ列を区切る文字情報に設定する。
図2の場合、
(a)『Cを0.03~1.5%』(固有表現タグ列:「E」「LF」「UF」「U」)
(b)『Niを5~10%』 (固有表現タグ列:「E」「LF」「UF」「U」)
(c)『Cuを0.7~2%』 (固有表現タグ列:「E」「LF」「UF」「U」)
(d)『Coを0.1~4%』 (固有表現タグ列:「E」「LF」「UF」「U」)
(e)『Siを5%以下』
(固有表現タグ列:「E」「UF」「U」)
は、鋼材に含まれる各元素の含有量を規定する記載であり、上記(a)~(e)は、それぞれ、一つの意味的関係を形成している。区切りタグSは、上記(a)~(e)のそれぞれの固有表現タグ列を区切る文字情報に設定する。
【0040】
例えば、
図2の場合には、上記(a)~(e)のそれぞれの固有表現タグ列を区切る文字情報である『で、』『、』『または』『含み、』『さらに』『、』『からなる』に対して区切りタグSを設定している。なお、区切りタグSを設定する文字情報は、特定の文字や記号等に限定されず、一つの意味的関係を形成する固有表現タグ列を区切る任意の文字や記号等であってよい。
【0041】
またアノテーション部16は、主従関係を有する固有表現タグのアノテーション設定を受け付けてもよい。具体的には、アノテーション部16は、主固有表現タグT1と主固有表現タグT1と従属関係にある従固有表現タグT2とを関連付けたアノテーション設定を受け付ける。
【0042】
主固有表現タグT1とは、限定文書群4Bの文書中の固有表現に対して設定されるある固有表現タグである。従固有表現タグT2とは、限定文書群4Bの文書中の固有表現に対して、主固有表現タグT1に従属して設定される1以上の固有表現タグである。設定された主固有表現タグT1及び従固有表現タグT2は、互いに関連付けられてアノテーションデータ5中に格納される。
【0043】
具体的には、限定文書群4Bが、知的財産関連文書である「特許請求の範囲」の場合、請求項に記載された特定の発明特定事項に係る固有表現に対して主固有表現タグT1を設定し、主固有表現タグT1が設定された発明特定事項の性質や構造等をより具体的に表す固有表現に対して従固有表現タグT2を設定することができる。
【0044】
例えば、化学分野の場合であれば、特定元素や特定特性を表す固有表現(発明特定事項)に対して主固有表現タグT1を設定し、特定元素や特定特性の範囲や程度を表す固有表現に対して主固有表現タグT1に関連付けて従固有表現タグT2を設定する。これにより、特定元素や特定特性(主固有表現)に対してどのような範囲や程度(従固有表現)が開示されているかの情報が学習されるため、対象文書2の詳細な解析が行えるようになる。知的財産関連文書では、主従関係で権利範囲を表すことが多いため、このようなタグ付けは特に有効である。
【0045】
またアノテーション部16は、固有表現タグ間を関連付ける手掛かり語に対して関連固有表現タグTrの設定をユーザから受け付けてもよい。例えば、特定元素に係る固有表現に対して主固有表現タグT1、特定元素の数値範囲に係る固有表現に対して従固有表現タグT2を設定したとする。この場合、数値範囲の上限、下限を意味する記号や語句表現などの範囲や程度を補足する固有表現(手掛かり語)に対して関連固有表現タグTrを設定する。このように関連固有表現タグTrを設定することで、固有表現抽出モデル8の更なる性能の向上が期待できる。
【0046】
図3は、主固有表現タグT1、従固有表現タグT2、関連固有表現タグTrのアノテーション設定例について説明する図である。
図3では、
図2と同じ請求項の例文に対して、元素名を主固有表現とし、下限数値、上限数値、及び単位表現を従固有表現としてアノテーション設定を行った例を示している。
【0047】
具体的には、元素名には主固有表現タグT1である元素タグT1_Eを設定し、元素の含有量を規定する下限数値、上限数値、及び単位表現には従固有表現タグT2である下限数値タグT2_LF、上限数値タグT2_UF、及び単位タグT2_Uをそれぞれ設定している。また、範囲を表す「~」には、下限数値タグT2_LFと上限数値タグT2_UFを関連付ける手掛かり語として、関連固有表現タグTrである範囲タグTr_Rを設定している。
【0048】
固有表現抽出モデル学習部17は、事前学習モデル6または再事前学習モデル7を、アノテーションデータ5(限定文書群4Bに固有表現タグが設定された教師データ)でファインチューニングすることで、固有表現抽出モデル8を生成する。ファインチューニングは、BERTとして知られている公知の技術を利用して実行可能である。
【0049】
本実施形態では、日本語Wikipediaの教師なしデータを用いて言語モデル(事前学習モデル6)を事前学習、更には限定文書群4Aを用いて言語モデル(再事前学習モデル7)を再事前学習させたあとに、固有表現抽出タスクのデータセットであるアノテーションデータ5(教師データ)を用いて、ファインチューニングにより再事前学習モデル7のパラメータを調整し、固有表現抽出モデル8を生成する。
【0050】
以上説明した学習機能により、文書から固有表現の情報を抽出する固有表現抽出モデル8が生成される。なお、大規模文書群3、事前学習モデル6、再事前学習モデル7を用いずに固有表現抽出モデル8を生成してもよい。すなわち、限定文書群4Bに対してアノテーション設定を行ったアノテーションデータ5をもとに機械学習により固有表現抽出モデル8を直接学習し生成してもよい。
【0051】
(1-4.再実学習)
次に、
図4を参照して、固有表現抽出モデル8の学習精度を更に高める再実学習について説明する。
図4に示すように、再実学習は、文書解析システム1が備える、文書入力部11、固有表現抽出部12、再アノテーション部18、固有表現抽出モデル再ファインチューニング部19によって実行される。
【0052】
文書入力部11は、特定の技術分野の文書群である限定文書群4Cの入力を受け付ける。限定文書群4Cは、対象文書2及び限定文書群4A、4Bと同じ技術分野の文書群である。また限定文書群4Cは、知的財産関連文書であることが望ましい。
【0053】
固有表現抽出部12は、限定文書群4Cに対して、固有表現抽出モデル8を用いて、各文書から固有表現の情報を抽出し、抽出データ9を出力する。本実施形態において、抽出される固有表現の情報には、区切りタグSを含む各固有表現タグの情報が含まれる。
【0054】
再アノテーション部18は、抽出データ9を表示装置34に表示し、抽出された各固有表現タグに対して、タグ付けの訂正操作(区切りタグSを含む各固有表現タグの訂正操作)を受け付け、訂正された固有表現タグが設定された限定文書群4C(以下、「再アノテーションデータ20」と表記)を教師データとして再生成する。
【0055】
固有表現抽出モデル再ファインチューニング部19は、再アノテーションデータ20を用いて、固有表現抽出モデル8を再ファインチューニングする。再ファインチューニングは、BERTとして知られている公知の技術を利用して実行可能である。再ファインチューニングは、所定の学習性能が得られるまで繰り返し実行することができる。
【0056】
なお、再事前学習、実学習、及び再実学習を通して、対象文書2の解析に適合するモデルの構築を行うが、過学習により対象文書2からの抽出精度が低下する場合がある。そのため、再事前学習、実学習、及び再実学習の各学習過程において、交差検証により汎化性能評価を適宜実施することが望ましい。
【0057】
(2.解析機能)
次に、
図5を参照して、文書解析システム1の解析機能について説明する。解析機能は、主に、文書入力部11、固有表現抽出部12、構造解析部13から構成される。
【0058】
文書入力部11は、解析対象の文書である1または複数の対象文書2の入力を受け付ける。対象文書2は解析したい特定の技術分野の文書であり、限定文書群4A、4B、4Cと同じ技術分野の文書である。また対象文書2は、知的財産関連文書であることが望ましい。
【0059】
固有表現抽出部12は、固有表現抽出モデル8を用いて対象文書2から固有表現の情報を抽出し、固有表現の情報が抽出された抽出データ10を構造解析部13に出力する。本実施形態において、抽出される固有表現の情報には、区切りタグSを含む各固有表現タグの情報が含まれる。
【0060】
図6は、固有表現抽出の一例を示す図である。
図6は、知的財産関連文書である「特許請求の範囲」における請求項の例文『質量%で、Cを0.01~2.0%、Niを3~10%またはCuを0.5~1%含み、さらにCoを0.1~3%、Siを3%以下からなる組成を有する鋼材。』に対して固有表現抽出を行った例を示している。図に示すように、固有表現抽出結果として、区切りタグSを含む各固有表現タグの情報が抽出された抽出データ10が得られる。
【0061】
構造解析部13は、固有表現抽出部12により抽出された抽出データ10に基づいて対象文書2の構造解析を行い、構造化データ40を生成する。具体的には、構造解析部13は、抽出データ10に含まれる区切りタグSから、区切りタグSにより区切られている各固有表現タグ列を、一つの意味的関係を形成している固有表現タグ列(意味のまとまり)として取得する。そして構造解析部13は、タグ列パターンテーブル90(
図7)を参照して、取得した各固有表現タグ列のパターンをパターンマッチングにより特定し、各固有表現タグ列の情報を、各パターンに対応するデータフォーマットの構造化データ40に変換する。
【0062】
図7は、タグ列パターンテーブル90の例を示す図である。タグ列パターンテーブル90は、固有表現タグ列のパターンと構造化データのデータフォーマットとを予め対応付けて保持するテーブルである。
図7に示すように、固有表現タグ列のパターン毎に、構造化データのデータフォーマットが予め定められている。例えば、パターン1は、「元素タグE」→「下限数値タグLF」→「上限数値タグUF」→「単位タグU」からなる固有表現タグ列のパターンであり、このパターンの構造化データのデータフォーマットは(E: LF, UF, U)である。
【0063】
なお、請求項において元素の含有量を規定する場合、『Cuを0.3%~1%含む』のように元素→数値の順に記載する場合や、『0.3%~1%のCuを含む』のように数値→元素の順に記載する場合があり、いずれの記載もパターンマッチングにより認識できるようにする必要がある。
【0064】
そのため、
図7に示すタグ列パターンテーブル90には、パターン1(「元素タグE→下限数値タグLF→上限数値タグUF→単位タグU」)やパターン3(「元素タグE→上限数値タグUF→単位タグU」)のように元素タグEがタグ列の先頭に出現するパターンと、パターン2(「下限数値タグLF→上限数値タグUF→単位タグU→元素タグE」)やパターン4(「上限数値タグUF→単位タグU→元素タグE」)のように元素タグEがタグ列の末尾に出現するパターンが用意されている。
【0065】
なお、タグ列パターンテーブル90のパターンは、
図7の例に限定されず、任意の固有表現タグ列のパターンを構造化データのデータフォーマットと対応付けて保持することができる。
【0066】
図8は、文書の構造解析の一例を示す図である。
図8は、
図6の抽出データ10に基づいて構造解析を行った例を示す。
図8に示すように、構造解析部13は、まず、抽出データ10に含まれる固有表現タグ列から、区切りタグSにより区切られている各固有表現タグ列Tc1~Tc5を、一つの意味的関係を形成している固有表現タグ列(意味のまとまり)として取得する。そして構造解析部13は、タグ列パターンテーブル90(
図7)を参照して、各固有表現タグ列Tc1~Tc5のパターンをパターンマッチングにより特定し、各固有表現タグ列Tc1~Tc5の情報を、各パターンに対応するデータフォーマットの構造化データ40に変換する。
【0067】
例えば、固有表現タグ列Tc1~Tc4は、「元素タグE」→「下限数値タグLF」→「上限数値タグUF」→「単位タグU」からなるタグ列であり、タグ列パターンテーブル90(
図7)のパターン1に対応する。したがって、固有表現タグ列Tc1~Tc4の情報は、パターン1に対応するデータフォーマット(E: LF, UF, U)に従って、(C:
0.01, 2.0, mass%),(Ni: 3, 10, mass%), (Cu: 0.5, 1, mass%),(Co: 0.1, 3, mass%)という構造化データ40に変換される。
【0068】
また、固有表現タグ列Tc5は、「元素タグE」→「上限数値タグUF」→「単位タグU」からなるタグ列であり、タグ列パターンテーブル90のパターン3に対応する。したがって、固有表現タグ列Tc5の情報は、パターン3に対応するデータフォーマット(E: , UF, U)に従って、(Si:
, 3, mass%)という構造化データ40に変換される。
【0069】
構造解析部13は、生成した構造化データ40を、文書を一意に識別する文書IDや文書属性等と紐づけて文書抽出DB100に保存する。
【0070】
図9は構造化データ40を記憶する文書抽出DB100のデータ構成例を示す図である。
図9に示すように、文書ID41、文書名43、文書属性45等と紐づけて、構造化データ40が文書毎に格納される。例えば、文書ID41「T001」の文書(文書名43:特許請求の範囲、文書属性45:特許公報)の場合、構造化データ40として、(C: 0.01, 2.0, mass%),(Cu: 0.5, 1, mass%),(Co: 0.1, 3, mass%),(Si: , 3, mass%)…が格納されている。
【0071】
ここで比較として、本実施形態とは異なり、区切りタグSを設定せずに固有表現抽出を行った場合の文書の構造解析について補足する。
図10は固有表現の情報を抽出した抽出データ10の例を示す。抽出対象の例文は
図6と同じである。
図10に示すように、区切りタグSが未設定のため、当然ながら区切りタグSは抽出されない。区切りタグS以外の固有表現タグについては、
図6の抽出結果と同様に抽出される。
【0072】
図11は、
図10の抽出データ10に対して、タグ列パターンテーブル90(
図7)を参照して構造解析を行った例を示す。区切りタグSが存在しない場合、固有表現タグ列とマッチングするパターンの組み合わせが多くなるため、誤って構造解析される可能性がある。例えば、
図11(a)のように、パターンマッチングによって「パターン1→パターン1→パターン1→パターン1→パターン3」と認識された場合には、
図8(本実施形態の構造解析結果の例)と同様に、正しい構造化データ40が得られる。しかし、
図11(b)に示すように、パターンマッチングによって「パターン2→パターン2→パターン2→パターン2」と認識された場合には、請求項の文脈に合わない誤った構造化データ40が得られる。
【0073】
このように区切りタグSがない場合、固有表現タグ列とマッチングするパターンの組み合わせが多くなるため、パターンマッチングが複雑となり、誤った構造解析が行われる可能性がある。この点、本実施形態のように区切りタグSを導入することで、区切りタグSにより区切られた固有表現タグ列のパターンのマッチングだけを考慮すればよいため(
図8参照)、パターンマッチングの複雑度を低減させることができ、容易かつ正確に文書の構造解析を行うことが可能となる。
【0074】
(3.ハードウェア構成)
次に、
図12を参照して、文書解析システム1を適用するコンピュータ30のハードウェア構成について説明する。
図12に示すように、コンピュータ30は、制御部31、記憶装置32、入力装置33、表示装置34、メディア入出力装置35、通信I/F部36、周辺機器I/F部37等がバス39を介して接続されて構成される。但し、これに限ることなく、適宜様々な構成をとることができる。また、コンピュータ30は1以上のコンピュータから構成されてもよい。
【0075】
制御部31は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等により構成される。制御部31は、記憶装置32、ROM、記録媒体(メディア)等に格納されるプログラムをRAM上のワークメモリ領域に呼び出して実行し、バス39を介して接続された各部を駆動制御する。
【0076】
ROMは、コンピュータ30のブートプログラムやBIOS等のプログラム、データ等を恒久的に保持する。RAMは、ロードしたプログラムやデータを一時的に保持するとともに、制御部31が後述する各種処理を行うために使用するワークエリアを備える。
【0077】
また、制御部31は、記憶装置32に記憶されている処理プログラムに従って、
図13、14に示す学習処理や
図15に示す解析処理、
図17に示す検索処理等を実行する。各処理を実行するプログラムは、予めコンピュータ30の記憶装置32やROM等に記憶されていてもよいし、ネットワーク等を介してダウンロードされ、記憶装置32等に記憶されたものでもよい。
【0078】
記憶装置32は、HDD(ハードディスクドライブ)等であり、制御部31が実行するプログラムや、プログラム実行に必要なデータ(事前学習モデル6、再事前学習モデル7、固有表現抽出モデル8、文書抽出DB100等)、OS(オペレーティング・システム)等が格納されている。これらのプログラムコードは、制御部31により必要に応じて読み出されてRAMに移され、CPUに読み出されて実行される。
【0079】
入力装置33は、例えば、キーボード、マウス、タッチパネル、タブレット等のポインティング・デバイス、テンキー等の入力装置であり、入力されたデータを制御部31へ出力する。
【0080】
表示装置34は、例えば液晶パネル、CRTモニタ等のディスプレイ装置と、ディスプレイ装置と連携して表示処理を実行するための論理回路(ビデオアダプタ等)で構成され、制御部31の制御により入力された表示情報をディスプレイ装置上に表示させる。なお、入力装置33と表示装置34とが一体的に構成されたタッチパネル式の入出力部としてもよい。
【0081】
メディア入出力装置35は、例えば、CD/DVDドライブ等の各種記録媒体(メディア)の入出力装置であり、データの入出力を行う。通信I/F部36は、通信制御装置、通信ポート等を有し、ネットワークを介して通信接続された外部装置との通信を媒介するインタフェースであり、通信制御を行う。
【0082】
周辺機器I/F部37は、コンピュータ30に周辺機器を接続させるためのポートであり、コンピュータ30は周辺機器I/F部37を介して周辺機器とのデータの送受信を行う。周辺機器I/F部37は、USBやIEEE1394等で構成されている。周辺機器との接続形態は有線、無線を問わない。バス39は、各装置間の制御信号、データ信号等の授受を媒介する経路である。
【0083】
(4.文書解析システム1の処理)
次に、文書解析システム1の処理について説明する。文書解析システム1において、コンピュータ30の制御部31は、事前学習モデル6、再事前学習モデル7、及び固有表現抽出モデル8を学習する学習処理(
図13、14)を実行する。また、制御部31は、学習処理により学習した固有表現抽出モデル8を用いて、解析対象の対象文書2から固有表現の情報を抽出し、抽出データ10に基づいて対象文書2の解析処理(
図15)を実行する。
【0084】
(4-1.学習処理)
まず、
図13を参照して、学習処理について説明する。コンピュータ30の制御部31(事前学習部14)は、大規模文書群3を用いて教師なし事前学習を行い、事前学習モデル6を生成する(ステップS11、事前学習処理)。生成した事前学習モデル6は記憶装置32に保存される。
【0085】
次に、コンピュータ30の制御部31(再事前学習部15)は、特定の技術分野の文書群である限定文書群4Aを用いて、ステップS11にて生成された事前学習モデル6を再事前学習し、再事前学習モデル7を生成する(ステップS12、再事前学習処理)。生成した再事前学習モデル7は記憶装置32に保存される。
【0086】
次に、固有表現抽出モデル8を学習するための教師データ(アノテーションデータ)を生成し、教師データ(アノテーションデータ)で事前学習モデル6または再事前学習モデル7をファインチューニングし固有表現抽出モデル8を生成する実学習処理について説明する。
【0087】
まず、コンピュータ30の制御部31(アノテーション部16)は、特定の技術分野の文書群である限定文書群4Bに対して、各種固有表現タグのアノテーション設定をユーザから受け付け、アノテーション済みの教師データ(アノテーションデータ5)を生成する(ステップS13)。
【0088】
特に本実施形態では、コンピュータ30の制御部31(アノテーション部16)は、固有表現タグとして、ある一つの意味的関係を形成する固有表現タグ列を区切る文字情報に付与する区切りタグSの設定を受け付ける(
図2参照)。
【0089】
また、制御部31(アノテーション部16)は、主固有表現タグT1と該主固有表現タグT1と従属関係にある従固有表現タグT2とを関連付けたアノテーションの設定をユーザから受け付けてもよい(
図3参照)。また、制御部31(アノテーション部16)は、固有表現タグ間を関連付ける手掛かり語に対して関連固有表現タグTrの設定をユーザから受け付けてもよい(
図3参照)。
【0090】
次に、コンピュータ30の制御部31(固有表現抽出モデル学習部17)は、ステップS11において生成された事前学習モデル6、またはステップS12において生成された再事前学習モデル7を、アノテーションデータ5でファインチューニングすることで、固有表現抽出モデル8を生成する(ステップS14、ファインチューニング処理)。
以上の処理により、固有表現抽出モデル8が生成される。生成した固有表現抽出モデル8は記憶装置32に保存される。
【0091】
図14は、固有表現抽出モデル8の学習性能を更に高める再実学習処理について説明するフローチャートである。コンピュータ30の制御部31(文書入力部11)は、特定の技術分野の文書群である限定文書群4Cの入力を受け付ける(ステップS31)。次に、コンピュータ30の制御部31(固有表現抽出部12)は、限定文書群4Cに対して、固有表現抽出モデル8を用いて各文書から固有表現の情報を抽出し、抽出データ9を出力する。本実施形態において、抽出される固有表現の情報には、区切りタグSを含む各固有表現タグの情報が含まれる。
【0092】
次に、コンピュータ30の制御部31(再アノテーション部18)は、抽出データ9を表示装置34に表示し、抽出された各固有表現タグに対して、タグ付けの訂正操作(区切りタグSを含む各固有表現タグの訂正操作)を受け付け、訂正された固有表現タグが設定された限定文書群4C(再アノテーションデータ20)を教師データとして再生成する(ステップS33)。
【0093】
そして、コンピュータ30の制御部31(固有表現抽出モデル再ファインチューニング部19)は、再アノテーションデータ20を用いて、固有表現抽出モデル8を再ファインチューニングする(ステップS34)。ステップS31~S34は、所望の学習性能が得られるまで繰り返し実行することができる。
【0094】
(4-2.解析処理)
次に、
図15を参照して、解析処理について説明する。まずコンピュータ30の制御部31(文書入力部11)が、解析対象の文書である1または複数の対象文書2の入力を受け付ける(ステップS51)。
【0095】
次に、コンピュータ30の制御部31(固有表現抽出部12)は、固有表現抽出モデル8を用いて、対象文書2から固有表現の情報を抽出し、抽出データ10を出力する(ステップS52)。本実施形態において、抽出される固有表現の情報には、区切りタグSを含む各固有表現タグの情報が含まれる。
【0096】
次に、コンピュータ30の制御部31(構造解析部13)は、抽出データ10に基づいて対象文書2の構造解析を行い、構造化データ40を生成する(ステップS53)。具体的には、制御部31(構造解析部13)は、抽出データ10に含まれる区切りタグSから、区切りタグSにより区切られている各固有表現タグ列を、一つの意味的関係を形成している固有表現タグ列(意味のまとまり)として取得する。そして制御部31(構造解析部13)は、タグ列パターンテーブル90(
図7)を参照して、取得した各固有表現タグ列のパターンを特定し、各固有表現タグ列の情報を、各パターンに対応するデータフォーマットの構造化データ40に変換する(
図8参照)。
【0097】
そして、コンピュータ30の制御部31(構造解析部13)は、生成した構造化データ40を、文書を一意に識別する文書IDや文書属性等と紐づけて文書抽出DB100に保存する(ステップS54)。
【0098】
以上説明したように、本実施形態では、特定の技術分野の文書群である限定文書群4Bに対して、固有表現タグのアノテーション設定を受け付け、アノテーション済みの教師データを用いて固有表現抽出モデル8を生成する。特に本実施形態では、アノテーション設定の際に、固有表現タグとしてある一つの意味的関係を形成する固有表現タグ列を区切る文字情報に付与する区切りタグSを設定可能とすることで、固有表現抽出モデル8によって解析対象の対象文書2から区切りタグSの情報を他の固有表現タグの情報と共に抽出する。これにより、対象文書2から一つの意味を形成している固有表現タグ列(意味のまとまり)を区切りタグSに基づいて特定できるので、技術文書の理解や構造解析が容易となる。
【0099】
(5.文書検索)
図15の解析処理を多数の対象文書2について実行することで、文書抽出DB100(
図9参照)には文書毎に構造化データ40が多数蓄積されていく。ここでは、文書抽出DB100の活用例として文書検索について補足する。
【0100】
図16は、文書解析システム1の文書検索機能を示す機能ブロック図である。文書検索機能は、主に、検索条件設定部21、検索部22、及び検索結果表示部23から構成される。
【0101】
検索条件設定部21は、検索キーワード、数値条件、単位条件等の入力をユーザから受け付け、検索条件を設定する。検索部22は、文書抽出DB100から、検索条件を満たす構造化データを含む文書を検索する。検索結果表示部23は、検索された文書の情報を表示する。
【0102】
図17を参照して、検索処理の流れについて説明する。まず、コンピュータ30の制御部31(検索条件設定部21)は、検索キーワード、数値条件、単位条件等の入力をユーザから受け付け、検索条件を設定する(ステップS71)。次に、制御部31(検索部22)は、文書抽出DB100から、ステップS71において設定された検索条件を満たす構造化データを含む文書を検索する(ステップS72)。そして、制御部31(検索結果表示部23)は、文書の検索結果を表示装置34に表示する(ステップS73)。
【0103】
以上、添付図面を参照しながら、本発明に係る文書解析システム1等の好適な実施形態について説明したが、本発明はかかる例に限定されない。当業者であれば、本願で開示した技術的思想の範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
【符号の説明】
【0104】
1………………文書解析システム
2………………対象文書
3………………大規模文書群
4A~4C……限定文書群
5………………アノテーションデータ
6………………事前学習モデル
7………………再事前学習モデル
8………………固有表現抽出モデル
9、10………抽出データ
11……………文書入力部
12……………固有表現抽出部
13……………構造解析部
14……………事前学習部
15……………再事前学習部
16……………アノテーション部
17……………固有表現抽出モデル学習部
18……………再アノテーション部
19……………固有表現抽出モデル再ファインチューニング部
20……………再アノテーションデータ
21……………検索条件設定部
22……………検索部
23……………検索結果表示部
30……………コンピュータ
40……………構造化データ
90……………タグ列パターンテーブル
100…………文書抽出DB
S………………区切りタグ
T1……………主固有表現タグ
T2……………従固有表現タグ
Tr……………関連固有表現タグ