特開2023-72885 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立ハイテクノロジーズの特許一覧

特開2023-72885文書構造化装置、文書構造化方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023072885

(43)【公開日】2023-05-25

(54)【発明の名称】文書構造化装置、文書構造化方法

(51)【国際特許分類】

G06F 40/211 20200101AFI20230518BHJP

G06F 40/242 20200101ALI20230518BHJP

G06F 40/279 20200101ALI20230518BHJP

G06F 16/36 20190101ALI20230518BHJP

【ＦＩ】

G06F40/211

G06F40/242

G06F40/279

G06F16/36

【審査請求】未請求

【請求項の数】11

【出願形態】ＯＬ

(21)【出願番号】P 2021185584

(22)【出願日】2021-11-15

(71)【出願人】

【識別番号】501387839

【氏名又は名称】株式会社日立ハイテク

(74)【代理人】

【識別番号】110002365

【氏名又は名称】弁理士法人サンネクスト国際特許事務所

(72)【発明者】

【氏名】我妻正太郎

(72)【発明者】

【氏名】照屋絵理

(72)【発明者】

【氏名】竹内理

【テーマコード（参考）】

5B091

5B175

【Ｆターム（参考）】

5B091AA15

5B091AB08

5B091CA06

5B091CC02

5B091CC16

5B175DA01

5B175GB04

5B175KA11

(57)【要約】

【課題】少ないデータ量から省工数で高精度に単語間の関連付けを行う。
【解決手段】文書構造化装置１００は、１つまたは複数の文により構成される文書データの各文から単語を抽出する専門用語辞書作成処理部１３０と、文書データの各文の文節にそれぞれ対応する複数のノードと、複数のノード間を接続する枝とを用いて、単語同士の係り受け関係を木構造で表した構文木を作成する構文解析処理部１４０と、構文解析処理部１４０により作成された構文木における枝の本数に基づいて単語間の関係性距離を計算し、その関係性距離に基づいて単語間での関係性の有無を判定して、関係性があると判定した単語同士を互いに関連付ける専門用語関係性推定処理部１５０と、とを有する。
【選択図】図１

【特許請求の範囲】

【請求項1】

プロセッサとメモリとを備え、
前記プロセッサは、
１つまたは複数の文により構成される文書データの各文から単語を抽出する辞書作成処理部と、
前記文書データの各文の文節にそれぞれ対応する複数のノードと、前記複数のノード間を接続する枝とを用いて、前記単語同士の係り受け関係を木構造で表した構文木を作成する構文解析処理部と、
前記構文解析処理部により作成された前記構文木における前記枝の本数に基づいて前記単語間の関係性距離を計算し、前記関係性距離に基づいて前記単語間での関係性の有無を判定して、関係性があると判定した単語同士を互いに関連付ける関係性推定処理部と、として機能する、文書構造化装置。

【請求項2】

請求項１に記載の文書構造化装置において、
前記関係性推定処理部は、前記構文木の各ノードに対応する各単語をカテゴリごとに分類し、前記カテゴリが異なる単語間で前記関係性距離を計算する、文書構造化装置。

【請求項3】

請求項２に記載の文書構造化装置において、
前記関係性推定処理部は、前記文書データの同一の文から抽出された各単語について、前記構文解析処理部により作成された複数の前記構文木の中から当該単語に対応するノードを頂点とする構文木を取得し、取得した構文木における前記頂点と他の各ノードとの間で前記カテゴリごとに前記関係性距離を計算する、文書構造化装置。

【請求項4】

請求項３に記載の文書構造化装置において、
前記関係性推定処理部は、前記構文木において前記頂点に対する前記関係性距離が最も近いノードを前記カテゴリごとに抽出し、抽出したノードに対応する単語と前記頂点に対応する単語との間に関係性があると判定する、文書構造化装置。

【請求項5】

請求項３に記載の文書構造化装置において、
前記関係性推定処理部は、前記構文木において親子関係にある複数のノードが同一の前記カテゴリに属する場合、当該複数のノードの前記関係性距離を同じ値に設定する、文書構造化装置。

【請求項6】

請求項２に記載の文書構造化装置において、
前記関係性推定処理部は、前記構文木の各ノードに対応する各単語の中で、前記関係性距離および前記カテゴリが予め設定された条件をそれぞれ満たす単語のペアを抽出し、抽出した前記単語のペア同士の間に関係性があると判定する、文書構造化装置。

【請求項7】

請求項６に記載の文書構造化装置において、
前記条件をユーザに編集させるためのユーザインタフェースを表示装置に表示する、文書構造化装置。

【請求項8】

請求項１に記載の文書構造化装置において、
前記関係性推定処理部による単語同士の関連付けの結果を表す文書構造データを出力するデータ出力部を備える、文書構造化装置。

【請求項9】

請求項８に記載の文書構造化装置において、
前記文書構造データは、各単語のカテゴリを表す複数の列と、各単語の関連付けの結果を表す複数の行と、を有し、互いに関連付けられた単語同士が同一の行内で当該単語が属するカテゴリの列にそれぞれ格納される表形式のデータである、文書構造化装置。

【請求項10】

請求項８に記載の文書構造化装置において、
前記文書構造データをユーザに編集させるためのユーザインタフェースを表示装置に表示する、文書構造化装置。

【請求項11】

コンピュータを用いて１つまたは複数の文により構成される文書データを構造化する文書構造化方法であって、
前記コンピュータにより、
前記文書データの各文から単語を抽出し、
前記文書データの各文の文節にそれぞれ対応する複数のノードと、前記複数のノード間を接続する枝とを用いて、前記単語同士の係り受け関係を木構造で表した構文木を作成し、
前記構文木における前記枝の本数に基づいて前記単語間の関係性距離を計算し、
前記関係性距離に基づいて前記単語間での関係性の有無を判定し、
関係性があると判定した単語同士を互いに関連付けて記録する、文書構造化方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、文書中の単語同士を関連付けして文書を構造化するための装置および方法に関する。

【背景技術】

【0002】

近年、様々な分野において機械学習の利用が進んでいる。こうした機械学習の利用形態の一つに、多数の文書から様々な単語を抽出し、抽出した単語同士の関連性を学習して文書の構造を解析する文書解析技術があり、例えば特許文献１、２に記載の技術が知られている。

【0003】

特許文献１には、文書中の２つのエンティティ間の関係抽出を行う装置について記載されている。上記装置では、大量のテキストコーパスから近接して共起するエンティティペアを抽出し、抽出された大量のエンティティペアをそのエンティティ周辺の語彙パターンと合わせて教師なし学習によるクラスタリングを行うことにより、その結果として有意な関係種別を有するエンティティペア集合を代表クラスタとして抽出する。そしてその代表クラスタの関係種別を推定することで、エンティティペアがどのような関係性なのかを効率的に判定する。

【0004】

特許文献２には、自然言語で記載された仕様書からプログラムを自動生成する際、仕様書に不備がないか検知することを目的とした仕様検証装置について記載されている。仕様検証装置では、仕様書に係り受け解析を行った結果に対し、複数の仕様解析ルールを適用することで、動詞の単語を含む文節毎に、前動詞と、前記動詞に対する主語と、前記動詞に対する目的語と、前記動詞と前記目的とにより定まる動作が行われる前に成立している必要がある事前条件とに関する項目を含む意味表現データを生成する。意味表現データを検査することで仕様書の不備を特定する。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開２０１１－２２７６８８号公報

【特許文献2】特開２０１４－８１６８０号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

例えば、企業等における製品保守部門においては、次世代製品設計へのフィードバックを目的として、過去の製品故障事例を分析することがある。過去の故障事例分析では、あらかじめ蓄積された製品保守文書の中から過去の製品故障事例に関する単語を抽出することが求められる。この際、ある故障を示す単語やその故障の原因を示す単語など、何らかの故障事例に関連する単語群を、例えば表のような構造データに整理しておくことで、故障事例分析を効率化することが出来る。

【0007】

ところで、上記のような単語抽出や単語同士を関連付けた上で構造データ化する試みは多くの場合人手で行われており、大きな工数がかかっている。このため、文書データから効率良く任意の事例に関する単語を抽出し、さらに抽出した単語同士の関連付けを行う仕組みが求められている。単語の抽出は多くの既存手法が開示されているが、単語同士の関連付けを行う仕組みについては、現時点でまだ発展途上である。

【0008】

前述の特許文献１では、エンティティ周辺の語彙を用いた教師なし学習によるクラスタリングを行い、このクラスタリングの結果を用いて、文書中の２つのエンティティ間の関係を推定するようにしている。エンティティには単語も含まれるため、同技術は単語同士の関連付けにも応用可能と考えられる。しかしながら、このような手法で単語同士の高精度な関連付けを行うには、膨大な量の文書データを用意する必要がある。そのため、例えば製品保守文書のような特定の技術に特化した文書データ中の単語の関連付けを行う場合は、学習データを十分に確保できず、関連付け精度の向上が難しい。

【0009】

また、前述の特許文献２では、仕様書に係り受け解析を行った結果に対し、複数の仕様解析ルールを適用することで、仕様書中の単語の品詞に関連した意味表現データを生成するようにしている。しかしながら、このような手法を採用するためには、文書の種類ごとに人手で仕様解析ルールを調整する必要がある。例えば、対象となる文書が製品保守文書である場合、対象とする製品ごとに文書中で用いられる単語が異なるため、対象とする製品ごとにルールを設定する必要がある。そのため、ルールの設定に要する人的負荷が大きい。

【0010】

本発明は上記事情に鑑みなされたものであり、その目的は、少ないデータ量から省工数で高精度に単語間の関連付けを行うことができる技術を提供することである。

【課題を解決するための手段】

【0011】

本発明による文書構造化装置は、プロセッサとメモリとを備え、前記プロセッサは、１つまたは複数の文により構成される文書データの各文から単語を抽出する辞書作成処理部と、前記文書データの各文の文節にそれぞれ対応する複数のノードと、前記複数のノード間を接続する枝とを用いて、前記単語同士の係り受け関係を木構造で表した構文木を作成する構文解析処理部と、前記構文解析処理部により作成された前記構文木における前記枝の本数に基づいて前記単語間の関係性距離を計算し、前記関係性距離に基づいて前記単語間での関係性の有無を判定して、関係性があると判定した単語同士を互いに関連付ける関係性推定処理部と、として機能する。
本発明による文書構造化方法は、コンピュータを用いて１つまたは複数の文により構成される文書データを構造化する文書構造化方法であって、前記コンピュータにより、前記文書データの各文から単語を抽出し、前記文書データの各文の文節にそれぞれ対応する複数のノードと、前記複数のノード間を接続する枝とを用いて、前記単語同士の係り受け関係を木構造で表した構文木を作成し、前記構文木における前記枝の本数に基づいて前記単語間の関係性距離を計算し、前記関係性距離に基づいて前記単語間での関係性の有無を判定し、関係性があると判定した単語同士を互いに関連付けて記録する。

【発明の効果】

【0012】

本発明によれば、少ないデータ量から省工数で高精度に単語間の関連付けを行うことができる。

【図面の簡単な説明】

【0013】

【図1】本発明の一実施形態に係る文書構造化システムの全体構成図である。

【図2】図１の文書構造化システムの構成に用いる情報処理装置の一例である。

【図3】図１の文書構造化システムの処理の全体概要図である。

【図4】図１の文書情報テーブルの一例である。

【図5】図１の単語カテゴリリストの一例ある。

【図6】図１の専門用語辞書の一例である。

【図7】図１の構文木テーブルの一例である。

【図8】図１の構造データテーブルの一例である。

【図9】図１の構文木内専門用語テーブルの一例である。

【図10】図１のユーザ設定ルールテーブルの一例である。

【図11】図１のシステムの全体の処理を示すフローチャートである。

【図12】図１１の専門用語辞書作成処理を示すフローチャートである。

【図13】図１１の構文解析処理を示すフローチャートである。

【図14】図１１の専門用語関係性推定処理を示すフローチャートである。

【図15】図１４の最小関係性距離ルール適用処理を示すフローチャートである。

【図16】図１４のユーザ設定ルール適用処理を示すフローチャートである。

【図17】図８の構造データテーブルを修正する機能と図１４で使用する専門用語を関連付けるためのルールを選択する機能を持つユーザインタフェースの具体例を示す図である。

【図18】図１０のユーザ設定ルールテーブルをユーザが修正するためのユーザインタフェースの具体例を示す図である。

【発明を実施するための形態】

【0014】

以下、発明の実施形態について図面を参照しつつ説明する。以下の記載および図面は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略および簡略化がなされている。本発明は、他の種々の形態でも実施することが可能である。とくに限定しない限り、各構成要素は単数でも複数でも構わない。

【0015】

以下の説明において、同一または類似の構成について同一の符号を付して重複した説明を省略することがある。また、以下の説明において、符号の前に付した「Ｓ」の文字は処理ステップを意味する。また、以下の説明では、「テーブル」、「情報」等の表現にて各種情報を説明することがあるが、情報はこれら以外のデータ構造で表現されていてもよい。

【0016】

図１に、本発明の一実施形態に係る情報処理システム（以下「文書構造化システム」と称する）の構成の例を示す。この文書構造化システムでは、各種文書（製品保守文書など）を表す文書データから単語を抽出し、単語同士に意味上の関係性が有るか判定する。判定した結果を元に、意味上の関係性が有る単語を表形式のデータに整理して出力する。

【0017】

以下の説明において、２つの単語の組合せのことを「単語ペア」と称する。また以下の説明において、所定のトピックについて記述された、１つ以上の文や１つ以上の文章が纏まったものを文書と称し、この文書を表すデータを文書データと称する。以下で説明する各種の処理は、原則として文書データを単位として行われるものとして説明するが、処理の単位は必ずしも限定されない。

【0018】

図１では、本発明の一実施形態に係る文書構造化システム１の概略的な構成を示している。同図に示すように、文書構造化システム１は、文書構造化装置１００、ユーザ装置２、およびデータ管理装置４を含む。これらはいずれも情報処理装置（コンピュータ）を用いて構成されており、通信媒体５を介して互いに双方向通信が可能な状態で接続されている。通信媒体５は、有線または無線による通信機能を提供する通信基盤であり、例えば、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）、インターネット、専用線、各種の公衆通信網等の各種通信ネットワーク、ＵＳＢ（Universal Serial Bus）規格に準拠した各種通信機器等である。

【0019】

文書構造化装置１００は、処理対象とする文書データを取得し、その文書データから単語カテゴリリスト１１２に記載されたカテゴリに属する単語を抽出する。そして、異なるカテゴリ間の単語同士における文中の意味上の関係性を推定し、関係性があるとされた単語ペア、あるいは単語群を構造データテーブル１１７に登録する。単語の抽出元の文書データは、例えば、ＯＴ知識（OT：Operational Technology）が記述されている製品保守文書等を電子化したデータである。文書構造化装置１００によって生成された構造データテーブル１１７は、例えば、ＯＴ知識から有用な情報を効率よく検索してユーザに提供するサービスに用いられる。

【0020】

同図に示すように、文書構造化装置１００は、主な機能として、記憶部１１０、専門用語辞書作成処理部１３０、構文解析処理部１４０、専門用語関係性推定処理部１５０、データ出力部１６０を含む。

【0021】

記憶部１１０は、主な情報（データ）として、文書情報テーブル１１１、単語カテゴリリスト１１２、単語カテゴリ判定モデル１１３、専門用語辞書１１４、構文木テーブル１１６、構造データテーブル１１７、構文木内専門用語テーブル１１８、ユーザ設定ルールテーブル１２０を記憶する。これらの詳細については後述する。

【0022】

ユーザ装置２は、文書構造化装置１００が参照もしくは更新する各種の情報を管理するためのユーザインタフェース（画面（画像）表示装置や音声入出力装置等）を提供する。ユーザ装置２は、例えば、専門用語辞書１１４、構造データテーブル１１７、ユーザ設定ルールテーブル１２０などをユーザが参照もしくは編集するためのユーザインタフェースを表示装置に表示してユーザに提供する。

【0023】

データ管理装置４は、データ管理通信部４１を備える。データ管理通信部４１は、単語ペアの抽出元となる文書データを文書情報テーブル４２に記憶して管理する。また、データ管理通信部４１は、文書構造化装置１００と通信し、文書構造化装置１００に文書データを適宜提供（送信）する。これにより、文書構造化装置１００において処理対象とする文書データを取得することができる。

【0024】

文書構造化装置１００には、通信媒体５を介して、１つまたは複数のデータ管理装置４が接続されている。図１では２つのデータ管理装置４が接続されている例を示しているが、データ管理装置４の数はこれに限定されない。各データ管理装置４は、文書情報テーブル４２に管理される文書データを、例えば、通信媒体５を介して取得することができる。また、上記の文書データは、ユーザ装置２が提供するユーザインタフェースを介してユーザが登録することもできる。

【0025】

図２に、文書構造化システム１において用いられる情報処理装置（文書構造化装置１００、ユーザ装置２、データ管理装置４等）の構成の一例を示す。同図に例示する情報処理装置１０は、プロセッサ１１、主記憶装置１２、補助記憶装置１３、入力装置１４、出力装置１５、および通信装置１６を備える。情報処理装置１０の例として、パーソナルコンピュータ、サーバ装置、スマートフォン、タブレット等がある。

【0026】

情報処理装置１０は、その全部または一部が、例えば、クラウドシステムによって提供される仮想サーバのように、仮想化技術やプロセス空間分離技術等を用いて提供される仮想的な情報処理資源を用いて実現されるものであってもよい。また、情報処理装置１０によって提供される機能の全部または一部は、例えば、クラウドシステムがＡＰＩ（Application Programming Interface）等を介して提供するサービスによって実現してもよい。また、情報処理装置１０によって提供される機能の全部または一部は、例えば、ＳａａＳ（Software as a Service）、ＰａａＳ（Platform as a Service）、ＩａａＳ（Infrastructure as a Service）等を利用して実現されるものであってもよい。

【0027】

文書構造化装置１００とユーザ装置２は、同じ情報処理装置１０（共通のハードウェア）によって実現してもよい。また、文書構造化装置１００は、例えば、通信可能に接続された複数の情報処理装置１０を用いて実現してもよい。

【0028】

同図に示すプロセッサ１１は、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＦＰＧＡ（Field Programmable Gate Array）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＡＩ（Artificial Intelligence）チップ等を用いて構成されている。

【0029】

主記憶装置１２は、プログラムやデータを記憶する装置であり、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、不揮発性メモリ（ＮＶＲＡＭ（Non Volatile RAM））等である。

【0030】

補助記憶装置１３は、例えば、ＳＳＤ（Solid State Drive）、ハードディスクドライブ、光学式記憶装置（ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）等）、ストレージシステム、ＩＣカード、ＳＤカードや光学式記録媒体等の記録媒体の読取／書込装置、クラウドサーバの記憶領域等である。補助記憶装置１３には、記録媒体の読取装置や通信装置１６を介してプログラムやデータを読み込むことができる。補助記憶装置１３に格納（記憶）されているプログラムやデータは、プロセッサ１１によって主記憶装置１２に随時読み込まれ、プロセッサ１１が実行する処理において利用される。

【0031】

入力装置１４は、外部からの入力を受け付けるインタフェースであり、例えば、キーボード、マウス、タッチパネル、カードリーダ、ペン入力方式のタブレット、音声入力装置等である。

【0032】

出力装置１５は、プロセッサ１１の処理経過や処理結果等の各種情報を出力するインタフェースである。出力装置１５は、例えば、上記の各種情報を可視化する表示装置（液晶モニタ、ＬＣＤ（Liquid Crystal Display）、グラフィックカード等）、上記の各種情報を音声化する装置（音声出力装置（スピーカ等））、上記の各種情報を文字化する装置（印字装置等）である。なお、例えば、情報処理装置１０が通信装置１６を介して他の装置との間で情報の入力や出力を行う構成としてもよい。

【0033】

入力装置１４と出力装置１５は、ユーザとの間での対話処理（情報の受け付け、情報の提示等）を実現するユーザインタフェースを構成する。

【0034】

通信装置１６は、他の装置との間の通信を実現する装置である。通信装置１６は、通信媒体５を介して他の装置との間の通信を実現する、有線方式または無線方式の通信インタフェースであり、例えば、ＮＩＣ（Network Interface Card）、無線通信モジュール、ＵＳＢモジュール等である。

【0035】

情報処理装置１０には、例えば、オペレーティングシステム、ファイルシステム、ＤＢＭＳ（DataBase Management System）（リレーショナルデータベース、ＮｏＳＱＬ等）、ＫＶＳ（Key-Value Store）等が導入されていてもよい。

【0036】

文書構造化装置１００、ユーザ装置２、およびデータ管理装置４の機能は、夫々のプロセッサ１１が、夫々の主記憶装置１２に格納されているプログラムを読み出して実行することにより、もしくは、これらの装置を構成するハードウェア（ＦＰＧＡ、ＡＳＩＣ、ＡＩチップ等）自体によって実現される。

【0037】

文書構造化装置１００が提供する各種の機能は、例えば、テキストデータマイニング等の公知の各種データマイニング手法、公知の各種自然言語処理手法（形態素解析、構文解析、意味解析、文脈解析、特徴量抽出、単語分散表現、固有表現抽出、テキスト分類、系列ラベリング）、公知の各種機械学習手法（深層学習（ＤＮＮ（Deep Neural Network）、ＲＮＮ（Recurrent Neural Network）等）を用いて実現される。文書構造化装置１００は、前述した各種の情報（データ）を、例えば、データベースのテーブルやファイルシステムが管理するファイルとして記憶する。

【0038】

図３は、文書構造化システム１の基本的な動作を説明するシステムフロー図である。以下、同図並びに図１とともに、文書構造化システム１の基本的な動作について説明する。文書構造化システム１は、文書情報テーブル１１１に格納された文書データ内の各文から単語を抽出するとともに、文書データの各文に対して構文解析を行い、各文における文節同士の係り受け関係を木構造で表した構文木を作成する。そして、抽出された各単語について構文木を探索することにより、各文の単語間に関係性が存在するか否かを判定して、関係性がある単語同士を表形式で表した構造データテーブル１１７を出力する。

【0039】

同図に示すように、文書構造化装置１００の専門用語辞書作成処理部１３０は、文書情報テーブル１１１に格納された文書データの各文から単語を抽出し、抽出した単語が属するカテゴリを、単語カテゴリリスト１１２および単語カテゴリ判定モデル１１３を用いて特定する。専門用語辞書作成処理部１３０は、例えば、文書データに対して周知の固有表現抽出（ＮＥＲ:Named Entity Recognition）技術を適用することにより、様々な専門用語を含む単語を抽出することができる。専門用語辞書作成処理部１３０は、抽出した単語とその単語が属するカテゴリ、および文書情報テーブル１１１における単語の抽出元の文章（テキストデータ）を、専門用語辞書１１４に登録する。

【0040】

構文解析処理部１４０は、文書情報テーブル１１１に格納された文書データが表す文章を文単位に分割し、その各文に対して構文解析を実施した結果により、文中の単語同士の係り受け関係を木構造で表した構文木を作成して、各構文木の情報を構文木テーブル１１６に格納する。ここで、構文木とは、文書データの各文の文節にそれぞれ対応する複数のノードと、各ノード間を接続する枝とを用いた木構造により、各文における単語同士の係り受け関係を表したものである。構文木テーブル１１６には、構文木を構成する各ノードのＩＤ、各ノードが表す文節のテキスト、構文木中で各ノードと親子関係にあるノードのＩＤ、構文木の頂点ノードのＩＤ、当該文節に含まれる単語（専門用語）とそのカテゴリ、当該文節の抽出元の文テキストなどが格納される。なお、単語とそのカテゴリは、当該文節が専門用語辞書１１４内の単語を含む場合に設定される情報である。

【0041】

専門用語関係性推定処理部１５０は、構文木テーブル１１６に示された構文木を探索し、文書データの各文中に含まれる単語（専門用語）同士の関係性の有無を推定する。単語同士の関係性は、構文木中のノード間の枝の本数（以下、関係性距離と呼称）を用いたルールにより推定される。例えば、構文木を探索して専門用語Ａを発見した場合、Ａとは異なるカテゴリに属し、かつ関係性距離が最も近い専門用語Ｂを、Ａと関係性のある専門用語として抽出するルールを用いて関係性推定を行う。なお、関係性推定に用いるルールは必ずしも上記のルールには限定されず、ユーザ装置２を用いて、ユーザがその内容を任意に編集することが可能である。また、関係性距離の算出には、ノード間の枝の本数ではなく、構文木中のノード間に含まれるノードの数を参照してもよい。そして、この関係性の推定結果に基づき、関係性のある単語同士を互いに関連付けてカテゴリごとに表形式でまとめた文書構造データを作成して、構造データテーブル１１７に格納する。構造データテーブル１１７にまとめられた文書構造データは、データ出力部１６０により、文書構造化装置１００からユーザ装置２へ出力されてユーザに提示される。

【0042】

なお、文書構造化装置１００において、以上説明した専門用語辞書作成処理部１３０、構文解析処理部１４０および専門用語関係性推定処理部１５０の各機能は、文書構造化装置１００として用いられる図２の情報処理装置１０においてプロセッサ１１が所定のプログラムを実行することにより実現される。すなわち、情報処理装置１０のプロセッサ１１は、専門用語辞書作成処理部１３０、構文解析処理部１４０および専門用語関係性推定処理部１５０として機能することができる。

【0043】

また、データ出力部１６０の機能は、文書構造化装置１００として用いられる図２の情報処理装置１０において、通信装置１６により実現される。すなわち、情報処理装置１０の通信装置１６は、データ出力部１６０として機能し、文書構造化装置１００からユーザ装置２へ構造データテーブル１１７を出力することができる。

【0044】

情報処理装置１０からユーザ装置２へ出力された構造データテーブル１１７の内容は、ユーザ装置２として用いられる図２の情報処理装置１０において、出力装置１５に含まれる表示装置において表示される。これにより、文書データ中の各単語間の関係性をユーザに提示するとともに、その内容を編集するためのユーザインタフェースをユーザに提供することができる。

【0045】

続いて、文書構造化装置１００の記憶部１１０が管理する主な情報（データ）について具体的に説明する。

【0046】

図４は、図１に示した記憶部１１０が管理する文書情報テーブル１１１の一例である。文書情報テーブル１１１には、単語ペアの抽出元である文書データ（例えば、テキストデータや文書の内容を所定のデータフォーマットで記述したデータ）が管理される。例示する文書情報テーブル１１１は、文書ＩＤ１１１１およびテキスト１１１２の各項目を有する一つ以上のレコードで構成される。

【0047】

上記項目のうち、文書ＩＤ１１１１には、文書データの識別子（以下、「文書ＩＤ」と称する。）が格納される。テキスト１１１２には、文書データの実体が格納される。なお、テキスト１１１２に文書データの所在のみを格納し、文書データの実体については上記所在で特定される記憶領域（例えば、文書構造化装置１００と通信可能に接続されたストレージ装置等）に管理するようにしてもよい。

【0048】

図５は、記憶部１１０が管理する単語カテゴリリスト１１２の一例である。単語カテゴリリスト１１２には、単語の分類先となるカテゴリの一覧（リスト）が管理される。例示する単語カテゴリリスト１１２は、カテゴリの一覧が格納される項目であるカテゴリ１１２１を有する。単語カテゴリリスト１１２の内容は、例えば、ユーザ装置２が提供するユーザインタフェースを介してユーザが設定する。

【0049】

図１に示した記憶部１１０が管理する単語カテゴリ判定モデル１１３は、文書情報テーブル１１１から抽出しようとする単語が単語カテゴリリスト１１２のいずれのカテゴリに属するかを判定するモデルである。単語カテゴリ判定モデル１１３は、入力された単語が単語カテゴリリスト１１２の各カテゴリに属する確率（以下、「カテゴリ関連確率」と称する。）を求め、求めたカテゴリ関連確率が最も大きいカテゴリを単語が属するカテゴリと判定し、判定した単語と当該単語のカテゴリ関連確率を出力する。単語カテゴリ判定モデル１１３は、例えば、行列式や数式で表される。単語カテゴリ判定モデル１１３は、例えば、公知の各種自然言語処理手法（形態素解析、構文解析、意味解析、文脈解析、特徴量抽出、単語分散表現、固有表現抽出、テキスト分類、系列ラベリング）や、公知の各種機械学習手法（深層学習（ＤＮＮ（Deep Neural Network）、ＲＮＮ（Recurrent Neural Network）等）を用いて実現される。但し、単語カテゴリ判定モデル１１３の実現方法は必ずしも限定されない。

【0050】

図６は、図１に示した記憶部１１０が管理する専門用語辞書１１４の一例である。同図に示すように、専門用語辞書１１４には、単語１１４１、単語カテゴリ１１４２、および抽出元テキスト１１４３の各項目を有する複数のレコードで構成される。専門用語辞書１１４の一つのレコードは一つの単語に対応する。

【0051】

上記項目のうち、単語１１４１には、文書情報テーブル１１１のテキスト１１１２から専門用語辞書作成処理部１３０が抽出した単語のテキストデータが格納される。単語カテゴリ１１４２には、単語カテゴリ判定モデル１１３により判定された、当該単語が属するカテゴリが格納される。抽出元テキスト１１４３には、当該単語の抽出元の文書データであるテキストデータが格納される。

【0052】

図７は、図１に示した記憶部１１０が管理する構文木テーブル１１６の一例である。構文木テーブル１１６には、文書情報テーブル１１１のテキスト１１１２を構文解析することによって取得した各構文木の構造を表す情報が格納される。同図に示すように、例示する構文木テーブル１１６は、行ＩＤ１１６１、文節１１６２、親ノードＩＤ１１６３、子ノードＩＤ１１６４、構文木頂点ＩＤ１１６５、専門用語１１６６、および抽出元の文１１６７の各項目を有する複数のレコードで構成される。

【0053】

上記項目のうち、行ＩＤ１１６１にはその行を示すＩＤが格納される。なお、行ＩＤ１１６１に格納されるＩＤは、当該行に対応するノードのＩＤに相当する。文節１１６２には、構文木を構成するノードとなる文節の内容が格納される。親ノードＩＤ１１６３には、構文木において親子関係にあるノードのうち、親ノードの情報が格納されたレコードの行ＩＤ１１６１の値が格納される。子ノードＩＤ１１６４には、構文木において親子関係にあるノードのうち、子ノードの情報が格納されたレコードの行ＩＤ１１６１の値が格納される。構文木頂点ＩＤ１１６５には、当該行に対応するノードが属する構文木の頂点に位置するノードのＩＤ、すなわち、当該頂点ノードの情報が格納されたレコードの行ＩＤ１１６１の値が格納される。専門用語１１６６には、文節１１６２に含まれる単語（専門用語）と、その単語が属するカテゴリとのペアが格納される。このペアは例えば複数格納されていても良い。抽出元の文１１６７には、文節１１６２の抽出元のテキスト１１１２中の一文が格納される。

【0054】

図８は、図１に示した記憶部１１０が管理する構造データテーブル１１７の一例である。構造データテーブル１１７には、専門用語関係性推定処理部１５０にて関係性有りと判定された同一構文木上の各ノードに対応する単語の情報が格納される。同図に示すように、例示する構造データテーブル１１７は、行ＩＤ１１７１、単語：部品名１１７２、単語：現象名１１７３、単語：原因名１１７４、単語：処置名１１７５、抽出元の文１１７６の各項目を有する複数のレコードで構成される。

【0055】

上記項目のうち、行ＩＤ１１７１にはその行を示すＩＤが格納される。単語：部品名１１７２、単語：現象名１１７３、単語：原因名１１７４、単語：処置名１１７５には、互いに関係性があるとして関連付けされた専門用語の組み合わせがカテゴリごとに格納される。なお、専門用語を格納するこれらのカラムは例示した４種類に限定されず、単語カテゴリリスト１１２に記載された各カテゴリにつき、それぞれ一つずつカラムを構造データテーブル１１７に設定しても良い。抽出元の文１１７６には、各専門用語の抽出元であるテキストが格納される。これは、構文木テーブル１１６の抽出元の文１１６７に対応している。また、ユーザは、文書構造化システム１が提供するユーザインタフェースを介して、構造データテーブル１１７の内容の参照、編集等を行うことができる。

【0056】

図９は、図１に示した記憶部１１０が管理する構文木内専門用語テーブル１１８の一例である。構文木内専門用語テーブル１１８は、専門用語関係性推定処理部１５０にて作成された木構造データが表す構文木の中に含まれる各ノードに対応する単語の情報が格納される。同図に示すように、例示する構文木内専門用語テーブル１１８は、専門用語１１８１、カテゴリ１１８２、構文木頂点との関係性距離１１８３、抽出元の文１１８４の各項目を有する複数のレコードで構成される。

【0057】

上記項目のうち、専門用語１１８１には、ノードに対応する単語（専門用語）の情報が格納される。これは、構文木テーブル１１６の専門用語１１６６に対応している。カテゴリ１１８２には、専門用語１１８１が属するカテゴリが格納される。構文木頂点との関係性距離１１８３には、専門用語１１８１が属するノードから構文木の頂点に位置するノードまでの関係性距離が格納される。抽出元の文１１８４には、専門用語１１８１の抽出元であるテキストが格納される。これは、構文木テーブル１１６の抽出元の文１１６７や、構造データテーブル１１７の抽出元の文１１７６に対応している。

【0058】

図１０は、図１に示した記憶部１１０が管理するユーザ設定ルールテーブル１２０の一例である。ユーザ設定ルールテーブル１２０には、後述する文書構造化ルール編集画面２１００にてユーザが設定した専門用語同士の関連付けのルールを示す値が格納される。同図に示すように、例示するユーザ設定ルールテーブル１２０は、構文木上の関係性距離１２０１、カテゴリＡ１２０２、カテゴリＢ１２０３の各項目を有する複数のレコードで構成される。

【0059】

上記項目のうち、構文木上の関係性距離１２０１には、構文木上の任意の２つのノードに対する関係性距離の条件が格納される。カテゴリＡ１２０２には、構文木上の任意の２つのノードのうち一方のノードに含まれる専門用語が属するカテゴリの条件が格納される。カテゴリＢ１２０３には、もう一方のノードに含まれる専門用語が属するカテゴリの条件が格納される。これらの内容は、文書構造化ルール編集画面２１００にてユーザが指定することができる。

【0060】

続いて、文書構造化システム１において行われる処理について説明する。

【0061】

図１１は、文書情報テーブル１１１に管理されている文書データに基づき、当該文書データに含まれる複数の単語のうち関係性がある単語の組み合わせを抽出して互いに関連付け、その結果を表す構造データテーブル１１７を生成することで文書データの構造化を行う処理（以下、「文書構造化処理Ｓ１３００」と称する。）を説明するフローチャートである。以下、同図とともに文書構造化処理Ｓ１３００について説明する。文書構造化処理Ｓ１３００は、例えば、ユーザ装置２を介してユーザから明示的な指示があったことや予めスケジューリングされたタイミングが到来したこと等を契機として、文書構造化装置１００のプロセッサ１１により開始される。

【0062】

同図に示すように、まず専門用語辞書作成処理部１３０が、文書情報テーブル１１１に管理されている文書データから単語を抽出し、抽出した単語を専門用語辞書１１４に登録する処理（以下、「専門用語辞書作成処理Ｓ１３１１」と称する。）を行う。専門用語辞書作成処理Ｓ１３１１の詳細については後述する。

【0063】

続いて、構文解析処理部１４０が、文書情報テーブル１１１のテキスト１１１２に対して構文解析を実施した結果から、テキスト１１１２中の文節の係り受け情報を木構造データにまとめた構文木を取得し、構文木の構成を構文木テーブル１１６に格納する処理（以下、「構文解析処理Ｓ１３１２」と称する。）を行う。構文解析処理Ｓ１３１２の詳細については後述する。

【0064】

続いて、専門用語関係性推定処理部１５０が、専門用語辞書１１４に登録された専門用語について、構文木テーブル１１６に格納された構文木の構成情報を用いて専門用語同士に関係性が有るかを判定し、判定の結果に応じて関係性が有る単語群をカテゴリごとに構造データテーブル１１７に格納する処理（以下、「専門用語関係性推定処理Ｓ１３１３」と称する。）を行う。専門用語関係性推定処理Ｓ１３１３の詳細については後述する。

【0065】

なお、以上の処理のうち、専門用語辞書作成処理Ｓ１３１１については、例えば、構文解析処理Ｓ１３１２および専門用語関係性推定処理Ｓ１３１３とは独立したタイミングで実行するようにしてもよい。例えば、専門用語辞書作成処理Ｓ１３１１の処理は、文書情報テーブル１１１が更新されたことを契機として実行し、一方、構文解析処理Ｓ１３１２および専門用語関係性推定処理Ｓ１３１３の処理については、例えば、ユーザ装置２を介してユーザからの文書構造化要求（構造データテーブル１１７の作成要求）を受け付けたことを契機として実行するようにしてもよい。

【0066】

図１２は、図１１に示した専門用語辞書作成処理Ｓ１３１１の詳細を説明するフローチャートである。以下、同図とともに専門用語辞書作成処理Ｓ１３１１について説明する。

【0067】

まず、専門用語辞書作成処理部１３０が、文書情報テーブル１１１を取得する（Ｓ１４１１）。

【0068】

続いて、専門用語辞書作成処理部１３０は、文書情報テーブル１１１のレコードを一つ選択する（Ｓ１４１２）。

【0069】

続いて、専門用語辞書作成処理部１３０は、選択したレコードのテキスト１１１２に格納されているテキストデータから単語を抽出する。なお、専門用語辞書作成処理部１３０は、例えば、上記テキストデータについて形態素解析を行うことにより単語を抽出する。そして専門用語辞書作成処理部１３０は、抽出した単語の一つ（以下、「単語Ｗ」と称する。）を選択する（Ｓ１４１３）。

【0070】

続いて、専門用語辞書作成処理部１３０は、単語カテゴリ判定モデル１１３を取得する（Ｓ１４１４）。

【0071】

続いて、専門用語辞書作成処理部１３０は、単語カテゴリリスト１１２を取得する（Ｓ１４１５）。

【0072】

続いて、専門用語辞書作成処理部１３０は、Ｓ１４１４，Ｓ１４１５でそれぞれ取得した単語カテゴリ判定モデル１１３と単語カテゴリリスト１１２を用いて、単語Ｗが属するカテゴリを算出する（Ｓ１４１６）。

【0073】

続いて、専門用語辞書作成処理部１３０は、単語Ｗと、Ｓ１４１６で求めた単語Ｗのカテゴリと、文書情報テーブル１１１において単語Ｗの抽出元の文を表すテキスト１１１２に格納されているテキストデータとに基づき、これらに対応する各項目（単語１１４１、単語カテゴリ１１４２、抽出元テキスト１１４３）が設定されたレコードを生成して、専門用語辞書１１４に登録する（Ｓ１４１７）。

【0074】

続いて、専門用語辞書作成処理部１３０は、Ｓ１４１３でテキストデータから抽出した全ての単語を単語Ｗとして選択済みか否かを判定する（Ｓ１４１８）。全ての単語を選択済みでなければ（Ｓ１４１８：ＮＯ）、処理はＳ１４１３に戻り、未選択の単語を単語Ｗとして選択して、以上と同様の処理（Ｓ１４１３～Ｓ１４１７の処理）を行う。一方、抽出した全ての単語を単語Ｗとして選択済みであれば（Ｓ１４１８：ＹＥＳ）、処理はＳ１４１９に進む。

【0075】

Ｓ１４１９では、専門用語辞書作成処理部１３０は、文書情報テーブル１１１の全てのレコードをＳ１４１２で選択済みか否かを判定する。全てのレコードを選択済みでなければ（Ｓ１４１９：ＮＯ）、処理はＳ１４１２に戻り、未選択のレコードを選択して以上と同様の処理（Ｓ１４１２～Ｓ１４１８の処理）を行う。一方、全てのレコードを選択済みであれば（Ｓ１４１９：ＹＥＳ）、専門用語辞書作成処理Ｓ１３１１を終了する。その後は、文書構造化処理Ｓ１３００の次のステップ（構文解析処理Ｓ１３１２）に進む。

【0076】

専門用語辞書作成処理部１３０は、以上説明した処理を実行することにより、文書情報テーブル１１１に格納された文書データの各文から単語を抽出し、抽出した単語とそのカテゴリの情報を専門用語辞書１１４に登録することができる。

【0077】

図１３は、図１１に示した構文解析処理Ｓ１３１２の詳細を説明するフローチャートである。以下、同図とともに構文解析処理Ｓ１３１２について説明する。

【0078】

まず、構文解析処理部１４０が、文書情報テーブル１１１および専門用語辞書１１４を取得する（Ｓ１５１１）。

【0079】

続いて、構文解析処理部１４０は、文書情報テーブル１１１のレコードを一つ選択する（Ｓ１５１２）。

【0080】

続いて、構文解析処理部１４０は、選択したレコードのテキスト１１１２に格納されている一つ以上の文からなるテキストデータから、文を一つ抽出する。（Ｓ１５１３）。

【0081】

続いて、構文解析処理部１４０は、抽出した文に対して形態素解析と構文解析を行い、その文に含まれる文節同士の依存関係を推定することで、文節同士の係り受け関係を特定する。その後、特定した文節同士の係り受け関係をノードと枝を組み合わせた木構造で表現することにより、抽出した文の構文木を取得する（Ｓ１５１４）。具体的には、抽出した文に含まれる各文節をそれぞれノードに対応付け、依存関係のある文節のノード同士を枝で繋ぐことにより、構文木を作成する。なお、形態素解析や構文解析の手法は必ずしも限定されず、例えば、公知の各種自然言語処理手法（固有表現抽出、単語依存関係解析、意味解析等）や、公知の各種機械学習手法（深層学習（ＤＮＮ（Deep Neural Network）、ＲＮＮ（Recurrent Neural Network）等）を用いることができる。

【0082】

続いて、構文解析処理部１４０は、取得した構文木中のノードを一つ選択する（Ｓ１５１５）。

【0083】

続いて、構文解析処理部１４０は、選択したノードに含まれる専門用語を、専門用語辞書１１４を用いて検知する（Ｓ１５１６）。

【0084】

続いて、構文解析処理部１４０は、選択したノードに対応する構文木の情報を構文木テーブル１１６に格納する（Ｓ１５１７）。ここでは、当該ノードのＩＤ、当該ノードに含まれる文節、当該ノードに対応する親ノードや子ノードのＩＤ、当該ノードが属する構文木の頂点ノードのＩＤ、当該ノードに含まれる文節中の専門用語とそのカテゴリのペア、構文木の抽出元となった文書データの文を取得し、これらに対応する各項目（行ＩＤ１１６１、文節１１６２、親ノードＩＤ１１６３、子ノードＩＤ１１６４、構文木頂点ＩＤ１１６５、専門用語１１６６、抽出元の文１１６７）が設定されたレコードを生成して、構文木テーブル１１６に登録する。なお、レコードの各項目について、値が存在しない項目には「Null」を格納する。

【0085】

続いて、構文解析処理部１４０は、Ｓ１５１４で取得した構文木中のノードを、Ｓ１５１５ですべて選択済みであるか否かを判定する（Ｓ１５１８）。構文木中に未選択のノードが存在する場合（Ｓ１５１８：ＮＯ）、処理はＳ１５１５に戻り、未選択のノードのいずれかを選択して、以上と同様の処理（Ｓ１５１５～Ｓ１５１７の処理）を行う。一方、全てのノードを選択済であれば（Ｓ１５１８：ＹＥＳ）、処理はＳ１５１９に進む。

【0086】

続いて、構文解析処理部１４０は、Ｓ１５１２で選択したレコード内のテキスト１１１２に含まれる文を、Ｓ１５１３ですべて選択済みであるか否かを判定する（Ｓ１５１９）。当該レコードのテキスト１１１２に未選択の文が存在する場合（Ｓ１５１９：ＮＯ）、処理はＳ１５１３に戻り、未選択の文のいずれかを選択して、以上と同様の処理（Ｓ１５１３～Ｓ１５１８の処理）を行う。一方、全ての文を選択済みであれば（Ｓ１５１９：ＹＥＳ）、処理はＳ１５２０へ進む。

【0087】

続いて、構文解析処理部１４０は、Ｓ１５１１で取得した文書情報テーブル１１１内のレコードを、Ｓ１５１２ですべて選択済みであるか否かを判定する（Ｓ１５２０）。文書情報テーブル１１１に未選択のレコードが存在する場合（Ｓ１５２０：ＮＯ）、処理はＳ１５１２に戻り、未選択のレコードのいずれかを選択して、以上と同様の処理を行う（Ｓ１５１２～Ｓ１５１９）。一方、全てのレコードを選択済みであれば（Ｓ１５２０：ＹＥＳ）、構文解析処理Ｓ１３１２を終了する。その後は、文書構造化処理Ｓ１３００の次のステップ（専門用語関係性推定処理Ｓ１３１３）に進む。

【0088】

構文解析処理部１４０は、以上説明した処理を実行することにより、文書データに含まれる各文の単語同士の係り受け関係を木構造で表した構文木を作成し、作成した構文木の情報を構文木テーブル１１６に登録することができる。

【0089】

図１４は、図１１に示した専門用語関係性推定処理Ｓ１３１３の詳細を説明するフローチャートである。以下、同図とともに専門用語関係性推定処理Ｓ１３１３について説明する。

【0090】

まず、専門用語関係性推定処理部１５０が、構文木テーブル１１６を取得し、構文木テーブル１１６に含まれる複数のレコードのうち抽出元の文１１６７が共通しているレコード同士をまとめて、一つまたは複数のレコード群を生成する（Ｓ１６１１）。

【0091】

続いて、生成したレコード群を一つ選択する（Ｓ１６１２）。

【0092】

続いて、専門用語関係性推定処理部１５０は、選択したレコード群から、専門用語１１６６の値が「Null」でないレコードを一つ（以下「レコードＲ」と称する）選択する（Ｓ１６１３）。

【0093】

続いて、専門用語関係性推定処理部１５０は、選択したレコード群から、レコードＲを頂点とする構文木情報を取得する（Ｓ１６１４）。ここでは、構文木テーブル１１６においてレコードＲの行ＩＤ１１６１と同じ値が構文木頂点ＩＤ１１６５に格納されている各レコードを、レコードＲを頂点とする構文木情報として取得する。

【0094】

続いて、専門用語関係性推定処理部１５０は、ユーザから最小関係性距離ルール適用の要求があるか否かを判定する（Ｓ１６１５）。最小関係性距離ルールとは、構文木中の各単語（専門用語）の組み合わせのうち、構文木上での関係性距離が最も近く、かつカテゴリが互いに異なる単語同士の間に関係性が有ると判定するルールである。例えば、ユーザ装置２に実装された後述する構造データ編集画面２０００を介して、ユーザが最小関係性距離ルールの適用を指示する所定の入力操作を行うと、この入力操作の内容が、ユーザ装置２から文書構造化装置１００内の専門用語関係性推定処理部１５０に送信される。これにより、ユーザは文書構造化装置１００に対して、最小関係性距離ルールの適用を要求することが可能である。ユーザから最小関係性距離ルール適用の要求が無い場合（Ｓ１６１５：ＮＯ）、処理はＳ１６１７に進む。ユーザから最小関係性距離ルール適用の要求がある場合（Ｓ１６１５：ＹＥＳ）、処理はＳ１６１６に進む。

【0095】

Ｓ１６１６では、専門用語関係性推定処理部１５０は、最小関係性距離ルール適用処理を実行する。最小関係性距離ルール適用処理の詳細については、図１５を参照して後述する。最小関係性距離ルール適用処理を終了したら、処理はＳ１６１７に進む。

【0096】

続いて、専門用語関係性推定処理部１５０は、ユーザからユーザ設定ルールの適用の要求があるか否かを判定する（Ｓ１６１７）。ユーザ設定ルールとは、構文木中の各単語（専門用語）の組み合わせの中に、ユーザ設定ルールテーブル１２０に記載された構文木上の関係性距離１２０１、カテゴリＡ１２０２、カテゴリＢ１２０３の各条件を満たすペアが存在する場合、そのペアの単語間に関係性が有ると判定するルールである。例えば、ユーザ装置２に実装された後述する構造データ編集画面２０００を介して、ユーザがユーザ設定ルールの適用を指示する所定の入力操作を行うと、この入力操作の内容が、ユーザ装置２から文書構造化装置１００内の専門用語関係性推定処理部１５０に送信される。これにより、ユーザは文書構造化装置１００に対して、ユーザ設定ルールの適用を要求することが可能である。ユーザからユーザ設定ルール適用の要求が無い場合（Ｓ１６１７：ＮＯ）、処理はＳ１６１９に進む。ユーザからユーザ設定ルール適用の要求がある場合（Ｓ１６１７：ＹＥＳ）、処理はＳ１６１８に進む。なお、ユーザ設定ルールテーブル１２０は、例えば、ユーザ装置２に実装された後述する文書構造化ルール編集画面２１００を用いて、ユーザが任意に編集可能である。

【0097】

Ｓ１６１８では、専門用語関係性推定処理部１５０は、ユーザ設定ルール適用処理を実行する。ユーザ設定ルール適用処理の詳細については、図１６を参照して後述する。ユーザ設定ルール適用処理を終了したら、処理はＳ１６１９に進む。

【0098】

続いて、専門用語関係性推定処理部１５０は、Ｓ１６１２で選択したレコード群中の全レコードを選択済みであるか否かを判定する（Ｓ１６１９）。当該レコード群に未選択のレコードが存在する場合（Ｓ１６１９：ＮＯ）、処理はＳ１６１３に戻り、未選択のレコードを選択して、以上と同様の処理を行う（Ｓ１６１３～Ｓ１６１８）。一方、全てのレコードを選択済であれば（Ｓ１６１９：ＹＥＳ）、処理はＳ１６２０に進む。

【0099】

続いて、専門用語関係性推定処理部１５０は、Ｓ１６１１で生成したレコード群の全てを選択済みであるか否かを判定する（Ｓ１６２０）。未選択のレコード群が存在する場合（Ｓ１６２０：ＮＯ）、処理はＳ１６１２に戻り、未選択のレコード群を選択して、以上と同様の処理を行う（Ｓ１６１２～Ｓ１６１９）。一方、全てのレコードを選択済であれば（Ｓ１６２０：ＹＥＳ）、専門用語関係性推定処理Ｓ１３１３を終了する。そして、文書構造化処理Ｓ１３００を終了する。

【0100】

図１５は、図１４のＳ１６１６で実行される最小関係性距離ルール適用処理の詳細を説明するフローチャートである。以下同図とともに、最小関係性距離ルール適用処理について説明する。なお、最小関係性距離ルール適用処理には、Ｓ１６１４で取得したレコードＲを頂点とする構文木情報が入力される。

【0101】

まず、専門用語関係性推定処理部１５０は、入力された構文木情報に基づき、その構文木中に出現するいずれかの単語が属する専門用語カテゴリ（以下「カテゴリＣ」と称する）を選択する（Ｓ１７１１）。

【0102】

続いて、専門用語関係性推定処理部１５０は、構文木の頂点にあるレコードＲのノードと、カテゴリＣに属する各ノードとの間で、それぞれの関係性距離を計算する（Ｓ１７１２）。ここでは、入力された構文木情報においてカテゴリＣに属する単語が専門用語１１６６に格納されているレコードを抽出し、当該レコードが表すノードとレコードＲが表す頂点ノードとの間に存在する枝の本数を、構文木情報における各レコードの親ノードＩＤ１１６３や子ノードＩＤ１１６４の値から求めることにより、関係性距離を計算することができる。なお、構文木の頂点ノードを表すレコードＲの専門用語１１６６において、カテゴリＣに属する単語が格納されている場合は、頂点ノードとカテゴリＣに属するノードとの関係性距離は０として扱う。

【0103】

続いて、専門用語関係性推定処理部１５０は、カテゴリＣに属するノードが構文木上で親子関係にあるか否かを判定する（Ｓ１７１３）。ここでは、入力された構文木情報においてカテゴリＣに属する単語が専門用語１１６６に格納されているレコードを抽出し、その中で親子関係にあるノードを表すレコードの組み合わせが存在するか否かを、各レコードの親ノードＩＤ１１６３や子ノードＩＤ１１６４の値から判断することができる。カテゴリＣに属して親子関係にあるノードの組み合わせが一つも存在しない場合（Ｓ１７１３：ＮＯ）、処理はＳ１７１５に進む。カテゴリＣに属して親子関係にあるノードの組み合わせが少なくとも一つ存在する場合（Ｓ１７１３：ＹＥＳ）、処理はＳ１７１４に進む。

【0104】

Ｓ１７１４において、専門用語関係性推定処理部１５０は、Ｓ１７１３で親子関係にあると判定したノードの組み合わせについて、子ノードの構文木頂点からの関係性距離を、Ｓ１７１２で計算した親ノードの関係性距離と同じ値に更新する。この処理により、親ノードと子ノードの両方に属する専門用語に対して最小関係性距離ルールを適用し、他の単語を関連付けることが可能になる。

【0105】

Ｓ１７１５において、専門用語関係性推定処理部１５０は、カテゴリＣに属する単語の中で構文木の頂点との関係性距離が最小の単語群を取得する。ここでは、Ｓ１７１２で頂点ノードとの関係性距離を計算したカテゴリＣに属する各ノードの中で、その値が最小のノード群を選択する。このとき、Ｓ１７１３で親子関係にあると判定された子ノードについては、Ｓ１７１４で親ノードと同じ値に更新された関係性距離を用いる。これにより、構文木において頂点ノードに対する関係性距離が最も近いノードをカテゴリＣについて抽出し、抽出した各ノードに対応する単語と頂点ノードに対応する単語との間に関係性があると判定することができる。

【0106】

続いて、専門用語関係性推定処理部１５０は、Ｓ１７１５で取得した単語群の情報を構文木内専門用語テーブル１１８に格納する（Ｓ１７１６）。ここでは、Ｓ１７１５で選択したノード群を表す各レコードの専門用語１１６６と抽出元の文１１６７にそれぞれ格納されている情報や、Ｓ１７１２で計算した関係性距離の値から、専門用語、専門用語が属するカテゴリ、専門用語が属するノードの構文木頂点との関係性距離、抽出元の文を取得し、これらに対応する各項目（専門用語１１８１、カテゴリ１１８２、構文木頂点との関係性距離１１８３、抽出元の文１１８４）が設定されたレコードを生成して、構文木内専門用語テーブル１１８に登録する。

【0107】

続いて、専門用語関係性推定処理部１５０は、入力された構文木情報に含まれる全ての単語のカテゴリを、Ｓ１７１１でカテゴリＣとして選択済みであるか否かを判定する（Ｓ１７１７）。構文木情報において未選択のカテゴリが存在する場合（Ｓ１７１７：ＮＯ）、処理はＳ１７１１に戻り、未選択のカテゴリのいずれかをカテゴリＣとして選択して、以上と同様の処理を行う（Ｓ１７１１～Ｓ１７１６）。一方、全てのカテゴリを選択済みであれば（Ｓ１７１７：ＹＥＳ）、処理はＳ１７１８に進む。

【0108】

Ｓ１７１８では、専門用語関係性推定処理部１５０は、構文木内専門用語テーブル１１８に登録された各レコードが表す単語の中から、いずれかの単語をカテゴリごとに一つずつ選択する。ここでは、単語カテゴリリスト１１２に記載のカテゴリごとに、一つずつ単語を選択する。なお、構文木内専門用語テーブル１１８において該当する単語が存在しないカテゴリがある場合、そのカテゴリにおいて単語選択は行わない。

【0109】

続いて、専門用語関係性推定処理部１５０は、Ｓ１７１８でカテゴリごとに選択した単語の情報を構造データテーブル１１７に格納する（Ｓ１７１９）。ここでは、選択した各単語およびそのカテゴリの組み合わせと、構文木内専門用語テーブル１１８において当該単語に対応するレコードの抽出元の文１１８４の内容から、これらの単語間に関係性があることを表す各項目（行ＩＤ１１７１、単語：部品名１１７２、単語：現象名１１７３、単語：原因名１１７４、単語：処置名１１７５、抽出元の文１１７６）が設定されたレコードを生成して、構造データテーブル１１７に登録する。このとき、単語カテゴリリスト１１２の内容に応じて、レコード中の単語をどの項目に格納するか（例えば、単語：部品名１１７２、単語：現象名１１７３、単語：原因名１１７４、単語：処置名１１７５）が変化する。

【0110】

続いて、専門用語関係性推定処理部１５０は、構文木内専門用語テーブル１１８に登録された各レコードが表す単語のカテゴリごとの全ての組み合わせを、Ｓ１７１８で選択済みであるか否かを判定する（Ｓ１７２０）。構文木内専門用語テーブル１１８においてカテゴリごとに取りうる単語の組み合わせの中に未選択の組み合わせが存在する場合（Ｓ１７２０：ＮＯ）、処理はＳ１７１８に戻り、未選択の組み合わせのいずれかを選択して、以上と同様の処理を行う（Ｓ１７１８～Ｓ１７１９）。一方、全ての組み合わせを選択済みであれば（Ｓ１７２０：ＹＥＳ）、最小関係性距離ルール適用処理を終了する。その後は、専門用語関係性推定処理Ｓ１３１３の次のステップ（Ｓ１６１７）に進む。

【0111】

専門用語関係性推定処理部１５０は、以上説明した処理を実行することにより、構文木において頂点ノードに対する関係性距離が最も近いノードをカテゴリごとに抽出し、抽出したノードに対応する単語と頂点ノードに対応する単語との間に関係性があると判定して、構造データテーブル１１７に登録することができる。

【0112】

図１６は、図１４のＳ１６１８で実行されるユーザ設定ルール適用処理の詳細を説明するフローチャートである。以下同図とともに、ユーザ設定ルール適用処理について説明する。なお、ユーザ設定ルール適用処理には、Ｓ１６１４で取得したレコードＲを頂点とする構文木情報が入力される。

【0113】

まず、専門用語関係性推定処理部１５０は、入力された構文木情報に基づき、構文木上で専門用語を含む各ノード間の関係性距離を計算する（Ｓ１８１１）。ここでは図１５のＳ１７１２と同様に、各ノード間に存在する枝の本数を、構文木情報における各レコードの親ノードＩＤ１１６３や子ノードＩＤ１１６４の値から求めることにより、関係性距離を計算することができる。

【0114】

続いて、専門用語関係性推定処理部１５０は、ユーザ設定ルールテーブル１２０を取得する（Ｓ１８１２）。

【0115】

続いて、専門用語関係性推定処理部１５０は、取得したユーザ設定ルールテーブル１２０からレコードを一つ選択する（Ｓ１８１３）。

【0116】

続いて、専門用語関係性推定処理部１５０は、選択したレコードに記載された各条件を満たすノードのペアが構文木上に存在するか否かを判定する（Ｓ１８１４）。ここでは、入力された構文木情報が表す各構文木において、Ｓ１８１３で選択したレコードの構文木上の関係性距離１２０１、カテゴリＡ１２０２、カテゴリＢ１２０３にそれぞれ格納されている条件を満たすノードのペアが存在するか否かを判定する。具体的には、例えば、構文木上のある単語Ａと単語Ｂにそれぞれ対応するノードのペアについて、これらの間に存在する枝の本数が選択したレコードに記載されている構文木上の関係性距離１２０１の値と同値であり、かつ、単語Ａのカテゴリが当該レコードに記載されているカテゴリＡ１２０２と一致し、単語Ｂのカテゴリが当該レコードに記載されているカテゴリＢ１２０３と一致する場合に、これらのノードのペアが選択したレコードの条件を満たしていると判定する。このような判定の結果、選択したレコードに記載の値を満たすノードのペアが存在しない場合（Ｓ１８１４：ＮＯ）、処理はＳ１８１６に進む。一方、選択したレコードに記載の値を満たすノードのペアが存在する場合（Ｓ１８１４：ＹＥＳ）、処理はＳ１８１５に進む。

【0117】

続いて、専門用語関係性推定処理部１５０は、ユーザ設定ルールテーブル１２０中で選択したレコードの値を満たすとＳ１８１４で判定されたノードのペアに対応する単語のペアの情報を構造データテーブル１１７に格納する（Ｓ１８１５）。ここでは、Ｓ１８１３で選択したレコードの構文木上の関係性距離１２０１、カテゴリＡ１２０２、カテゴリＢ１２０３にそれぞれ格納されている条件の内容と、構文木内専門用語テーブル１１８において当該単語のペアにそれぞれ対応するレコードの抽出元の文１１８４の内容から、これらの単語間に関係性があることを表す各項目（行ＩＤ１１７１、単語：部品名１１７２、単語：現象名１１７３、単語：原因名１１７４、単語：処置名１１７５、抽出元の文１１７６）が設定されたレコードを生成して、構造データテーブル１１７に登録する。このとき、図１５のＳ１７１９の場合と同様に、単語カテゴリリスト１１２の内容に応じて、レコード中の単語をどの項目に格納するか（例えば、単語：部品名１１７２、単語：現象名１１７３、単語：原因名１１７４，単語：処置名１１７５）が変化する。

【0118】

続いて、専門用語関係性推定処理部１５０は、Ｓ１８１２で取得したユーザ設定ルールテーブル１２０内の全てのレコードを、Ｓ１８１３で選択済みであるか否かを判定する（Ｓ１８１６）。ユーザ設定ルールテーブル１２０において未選択のレコードが存在する場合（Ｓ１８１６：ＮＯ）、処理はＳ１８１３に戻り、未選択のレコードのいずれかを選択して、以上と同様の処理を行う（Ｓ１８１３～Ｓ１８１５）。一方、全てのレコードを選択済みであれば（Ｓ１８１６：ＹＥＳ）、ユーザ設定ルール適用処理を終了する。その後は、専門用語関係性推定処理Ｓ１３１３の次のステップ（Ｓ１６１９）に進む。

【0119】

専門用語関係性推定処理部１５０は、以上説明した処理を実行することにより、構文木の各ノードに対応する各単語の中で、関係性距離およびカテゴリが予め設定された条件をそれぞれ満たす単語のペアを抽出し、抽出した単語のペア同士の間に関係性があると判定して、構造データテーブル１１７に登録することができる。

【0120】

続いて、文書構造化処理Ｓ１３００の出力結果である構造データテーブル１１７の編集や、専門用語関係性推定処理Ｓ１３１３で用いるユーザ設定ルールテーブル１２０の編集を行うことが出来るユーザインタフェースについて説明する。

【0121】

図１７に、構造データ編集画面２０００の一例を示す。図１７に例示する構造データ編集画面２０００は、構造データテーブル１１７に格納された文書構造データをユーザに提示して編集させるための画面であり、データ出力部１６０により文書構造化装置１００から出力されるデータに基づいてユーザ装置２に表示される。構造データ編集画面２０００は、文書構造化実施ボタン２００１、文書入力フォーム２００２、構造化に使用するルール選択欄２００３、ルール編集ボタン２００４、構造データ表示欄２００５、構造データ修正ボタン２００６、構造データ保存ボタン２００７を有する。

【0122】

ユーザは、例えば、文書入力フォーム２００２に構造化したい文書を入力し、ルール選択欄２００３の少なくとも一つ以上のルールを選択してから、文書構造化実施ボタン２００１を押すことにより、入力した文書に関して選択されたルールを用いて文書構造化処理Ｓ１３００を文書構造化装置１００に実施させ、その処理結果を示す文書構造データを構造データテーブル１１７から取得して、構造データ表示欄２００５に表示させることができる。そしてユーザは、構造データ表示欄２００５の行ごとに設置された構造データ修正ボタン２００６を押すことで、文書構造データの対応する行の内容を修正することができる。修正した文書構造データは、構造データ保存ボタン２００７を押すことにより、構造データテーブル１１７に保存してその内容を更新できる。なお、文書構造化処理Ｓ１３００を行うためのユーザ設定ルールは、後述する文書構造化ルール編集画面２１００にて編集が可能である。ユーザは、ルール編集ボタン２００４を押すことにより、ユーザ装置２に表示される画面を、構造データ編集画面２０００から文書構造化ルール編集画面２１００に遷移させることができる。

【0123】

図１８に、文書構造化ルール編集画面２１００の一例を示す。図１８に例示する文書構造化ルール編集画面２１００は、ユーザ設定ルールテーブル１２０に新たなユーザ条件を登録するとともに、ユーザ設定ルールテーブル１２０において既に格納されているユーザ条件をユーザに提示して編集させるための画面であり、データ出力部１６０により文書構造化装置１００から出力されるデータに基づいてユーザ装置２に表示される。文書構造化ルール編集画面２１００は、構造データ編集画面２０００にて入力された文書中の各行が表示されるテキスト表示欄２１０１、テキスト表示欄２１０１の行ごとに設置される行選択ボタン２１０２、選択された行の構文木２１０３、選択された行内の専門用語２１０４とそのカテゴリ２１０５、構文木２１０３中でユーザが選択した２つのノード間の関係性距離２１０６、２つのノードにそれぞれ含まれる専門用語のカテゴリＡ２１０７およびカテゴリＢ２１０８、ルール追加ボタン２１０９、既存のユーザ設定ルールテーブル１２０の表示欄２１１０、ルール修正ボタン２１１１、ルール更新ボタン２１１２を有する。

【0124】

ユーザは、例えば、行選択ボタン２１０２を押してテキスト表示欄２１０１の行を一つ選択することで、その行の構文木２１０３と、構文木に含まれる専門用語２１０４と、専門用語が属するカテゴリ２１０５とを表示できる。そしてユーザは、構文木中の専門用語が含まれるノードを２つ選択することにより、これらのノード間の構文木上の関係性距離２１０６と、一方のノード中の専門用語が属するカテゴリＡ２１０７と、もう一方のノード中の専門用語が属するカテゴリＢ２１０８とを表示できる。さらにユーザは、ルール追加ボタン２１０９を押すことで、これらの項目からなるレコードをユーザ設定ルールテーブル１２０に追加することができる。文書構造化ルール編集画面２１００の下部には、既存のユーザ設定ルールテーブル１２０の内容が表示欄２１１０に表示される。ユーザは、表示欄２１１０の各行に対し、ルール修正ボタン２１１１を押すことで、その行の内容を任意に修正できる。その後、ルール更新ボタン２１１２を押すことで、修正内容をユーザ設定ルールテーブル１２０に保存することができる。

【0125】

以上に説明したように、本実施形態の文書構造化システム１は、文書データから作成した専門用語辞書１１４と、文書データを構文解析した結果により得られた構文木テーブル１１６とを用いて、文書データを構造データテーブル１１７に示す意味上の関係性がある専門用語をまとめた表形式のデータに構造化する。このとき、専門用語の意味上の関係性の推定に構文木上の関係性距離を用いたルールを用いることで、ユーザは少ない負荷で効率良く構造データテーブル１１７の作成が出来る。また、構文解析で得られる構文木上の関係性距離を用いて関係性の推定を行うため、文書データの量によらず、高精度に専門用語同士の関連付けが可能である。

【0126】

以上説明した本発明の実施形態によれば、以下の作用効果を奏する。

【0127】

（１）文書構造化装置１００は、プロセッサ１１とメモリである主記憶装置１２とを備える。プロセッサ１１は、１つまたは複数の文により構成される文書データの各文から単語を抽出する専門用語辞書作成処理部１３０（専門用語辞書作成処理Ｓ１３１１）と、文書データの各文の文節にそれぞれ対応する複数のノードと、複数のノード間を接続する枝とを用いて、単語同士の係り受け関係を木構造で表した構文木を作成する構文解析処理部１４０（構文解析処理Ｓ１３１２）と、構文解析処理部１４０により作成された構文木における枝の本数に基づいて単語間の関係性距離を計算し、その関係性距離に基づいて単語間での関係性の有無を判定して、関係性があると判定した単語同士を互いに関連付ける専門用語関係性推定処理部１５０（専門用語関係性推定処理Ｓ１３１３）と、として機能する。このようにしたので、少ないデータ量から省工数で高精度に単語間の関連付けを行うことができる。

【0128】

（２）専門用語関係性推定処理部１５０は、構文木の各ノードに対応する各単語をカテゴリごとに分類し（Ｓ１７１１）、カテゴリが異なる単語間で関係性距離を計算する（Ｓ１７１２）。具体的には、専門用語関係性推定処理部１５０は、文書データの同一の文から抽出された各単語について、構文解析処理部１４０により作成された複数の構文木の中から当該単語に対応するノードを頂点とする構文木を取得し（Ｓ１６１３，Ｓ１６１４）、取得した構文木における頂点と他の各ノードとの間でカテゴリごとに関係性距離を計算する（Ｓ１７１１，Ｓ１７１２）。このようにしたので、構文木を利用して各カテゴリの単語間の関係性距離を適切に計算することができる。

【0129】

（３）専門用語関係性推定処理部１５０は、構文木において頂点に対する関係性距離が最も近いノードをカテゴリごとに抽出し、抽出したノードに対応する単語と頂点に対応する単語との間に関係性があると判定する（Ｓ１７１５）。このようにしたので、最小関係性距離ルール適用処理において、構文木上のノード間の関係性距離から単語間の関係性の有無を適切に判断することができる。

【0130】

（４）専門用語関係性推定処理部１５０は、構文木において親子関係にある複数のノードが同一のカテゴリに属する場合（Ｓ１７１３：ＹＥＳ）、当該複数のノードの関係性距離を同じ値に設定する（Ｓ１７１４）。このようにしたので、構文木上で親と子の関係にある同一カテゴリのノードについて、これらのノードに対応する単語と他の単語間での関係性距離を適切に求めることができる。

【0131】

（５）専門用語関係性推定処理部１５０は、構文木の各ノードに対応する各単語の中で、関係性距離およびカテゴリが予め設定された条件をそれぞれ満たす単語のペアを抽出し、抽出した単語のペア同士の間に関係性があると判定する（Ｓ１８１４）。このようにしたので、ユーザ設定ルール適用処理において、予め設定された任意の条件を用いて単語間の関連付けを行うことができる。

【0132】

（６）文書構造化装置１００は、上記の条件をユーザに編集させるためのユーザインタフェースである文書構造化ルール編集画面２１００を、ユーザ装置２の表示装置に表示することができる。このようにしたので、ユーザ設定ルール適用処理において単語間の関連付けを行うための条件をユーザが任意に編集することが可能となる。

【0133】

（７）文書構造化装置１００は、専門用語関係性推定処理部１５０による単語同士の関連付けの結果を表す文書構造データを出力するデータ出力部１６０を備える。この文書構造データは、図８に示すように、各単語のカテゴリを表す複数の列（単語：部品名１１７２、単語：現象名１１７３、単語：原因名１１７４、単語：処置名１１７５）と、各単語の関連付けの結果を表す複数の行（レコード）とを有し、互いに関連付けられた単語同士が同一の行内で当該単語が属するカテゴリの列にそれぞれ格納される表形式のデータ構造（構造データテーブル１１７）である。このようにしたので、文書データに含まれる単語同士の関連付けを文書構造データにおいて適切に表現し、ユーザに提示することができる。

【0134】

（８）文書構造化装置１００は、上記の文書構造データをユーザに編集させるためのユーザインタフェースである構造データ編集画面２０００を、ユーザ装置２の表示装置に表示することができる。このようにしたので、得られた文書構造データをユーザが任意に編集することが可能となる。

【0135】

（９）文書構造化装置１００では、コンピュータであるプロセッサ１１により、文書データの各文から単語を抽出し（Ｓ１４１３）、文書データの各文の文節にそれぞれ対応する複数のノードと、複数のノード間を接続する枝とを用いて、単語同士の係り受け関係を木構造で表した構文木を作成する（Ｓ１５１４）。そして、構文木における枝の本数に基づいて単語間の関係性距離を計算し（Ｓ１７１２，Ｓ１８１１）、この関係性距離に基づいて単語間での関係性の有無を判定し（Ｓ１７１５，Ｓ１８１４）、関係性があると判定した単語同士を互いに関連付けて記録する（Ｓ１７１９，Ｓ１８１５）。このようにしたので、少ないデータ量から省工数で高精度に単語間の関連付けを行うことができる。

【0136】

以上、本発明の一実施形態について説明したが、本発明は上記の実施形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。例えば、上記の実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、上記実施形態の構成の一部について、他の構成の追加や削除、置換をすることが可能である。

【0137】

また、上記の各構成、機能部、処理部、処理手段等は、それらの一部または全部を、例えば、集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリやハードディスク、ＳＳＤ（Solid State Drive）等の記録装置、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

【0138】

また、以上に説明した文書構造化装置１００の各種機能部、各種処理部、各種データベースの配置形態は一例に過ぎない。各種機能部、各種処理部、各種データベースの配置形態は、これらの装置が備えるハードウェアやソフトウェアの性能、処理効率、通信効率等の観点から最適な配置形態に変更し得る。

【0139】

また、前述した各種のデータを格納するデータベースの構成（スキーマ（Schema）等）は、リソースの効率的な利用、処理効率向上、アクセス効率向上、検索効率向上等の観点から柔軟に変更し得る。

【0140】

本発明は上記実施形態や変形例に限定されるものではなく、その要旨を逸脱しない範囲内で、任意の構成要素を用いて実施可能である。また、各実施形態や変形例は任意に組み合わせて実施することも可能である。

【0141】

上記の実施形態や変形例はあくまで一例であり、発明の特徴が損なわれない限り、本発明はこれらの内容に限定されるものではない。また、上記では種々の実施形態や変形例を説明したが、本発明はこれらの内容に限定されるものではない。本発明の技術的思想の範囲内で考えられるその他の態様も本発明の範囲内に含まれる。

【符号の説明】

【0142】

１：文書構造化システム、２：ユーザ装置、４：データ管理装置、１００：文書構造化装置、１１０：記憶部、１１１：文書情報テーブル、１１２：単語カテゴリリスト、１１３：単語カテゴリ判定モデル、１１４：専門用語辞書、１１６：構文木テーブル、１１７：構造データテーブル、１１８：構文木内専門用語テーブル、１２０：ユーザ設定ルールテーブル、１３０：専門用語辞書作成処理部、１４０：構文解析処理部、１５０：専門用語関係性推定処理部、１６０：データ出力部、２０００：構造データ編集画面、２１００：文書構造化ルール編集画面、Ｓ１３００：文書構造化処理、Ｓ１３１１：専門用語辞書作成処理、Ｓ１３１２：構文解析処理、Ｓ１３１３：専門用語関係性推定処理

【図1】