特許7243402 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特許7243402文書処理方法、文書処理プログラムおよび情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-03-13

(45)【発行日】2023-03-22

(54)【発明の名称】文書処理方法、文書処理プログラムおよび情報処理装置

(51)【国際特許分類】

G06F 16/35 20190101AFI20230314BHJP

【ＦＩ】

G06F16/35

【請求項の数】 6

(21)【出願番号】P 2019075907

(22)【出願日】2019-04-11

(65)【公開番号】P2020173673

(43)【公開日】2020-10-22

【審査請求日】2022-01-11

(73)【特許権者】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】齊藤孝広

【審査官】原秀人

(56)【参考文献】

【文献】特開２０１３－１４５４６１（ＪＰ，Ａ）

【文献】特開２０１８－０４５５５９（ＪＰ，Ａ）

【文献】特開２０１４－２１５６５８（ＪＰ，Ａ）

【文献】特開２００２－２３００１２（ＪＰ，Ａ）

【文献】特開２００７－１７２２４９（ＪＰ，Ａ）

【文献】特開２０１０－１４６２２２（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１６／０２３２２２２（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１６／００－１６／９５８

(57)【特許請求の範囲】

【請求項1】

コンピュータが実行する文書処理方法であって、
一文または複数文から構成される複数の文書を取得し、
前記複数の文書の中から予め設定された条件を満たす一文から構成される第一着目文を特定し、
前記複数の文書の中から、特定した前記第一着目文を含む複数文から構成される複数の第一文書を取得し、
取得した前記複数の第一文書の中から、特定した前記第一着目文以外の一文から構成される第二着目文を特定し、
前記複数の文書の中から、前記第二着目文を含む複数文から構成される複数の第二文書を取得し、
前記複数の第一文書および前記複数の第二文書のそれぞれに含まれる同一文書の数と、同一文書以外の文書の数との関係に基づいて、前記複数の文書の中から前記第二着目文を除外する
処理を実行することを特徴とする文書処理方法。

【請求項2】

前記除外する処理によって、前記第二着目文の除外された複数の文書を、文書間の類似度を基にして複数のクラスタに分類する処理を更に実行することを特徴とする請求項１に記載の文書処理方法。

【請求項3】

前記第一着目文は、障害内容に関して記述された文であり、前記複数のクラスタに属する文書の数を基にして、前記障害内容に関して記述された文に関連するクラスタを検出する処理を更に実行することを特徴とする請求項２に記載の文書処理方法。

【請求項4】

前記複数の文書に含まれる複数の文のうち、前記第一着目文に類似する文を正例とした学習を行うことで、前記第一着目文に類似する文か否かを判別する判別モデルを生成する処理を更に実行し、前記第一文書を取得する処理は、前記判別モデルを基にして、前記複数の文書の中から、特定した第一着目文を含む複数文から構成される前記複数の第一文書を取得することを特徴とする請求項１、２または３に記載の文書処理方法。

【請求項5】

コンピュータに、
一文または複数文から構成される複数の文書を取得し、
前記複数の文書の中から予め設定された条件を満たす一文から構成される第一着目文を特定し、
前記複数の文書の中から、特定した前記第一着目文を含む複数文から構成される複数の第一文書を取得し、
取得した前記複数の第一文書の中から、特定した前記第一着目文以外の一文から構成される第二着目文を特定し、
前記複数の文書の中から、前記第二着目文を含む複数文から構成される複数の第二文書を取得し、
前記複数の第一文書および前記複数の第二文書のそれぞれに含まれる同一文書の数と、同一文書以外の文書の数との関係に基づいて、前記複数の文書の中から前記第二着目文を除外する
処理を実行させることを特徴とする文書処理プログラム。

【請求項6】

一文または複数文から構成される複数の文書を取得し、
前記複数の文書の中から予め設定された条件を満たす一文から構成される第一着目文を特定する第一特定部と、
前記複数の文書の中から、特定した前記第一着目文を含む複数文から構成される複数の第一文書を取得し、取得した前記複数の第一文書の中から、特定した前記第一着目文以外の一文から構成される第二着目文を特定する第二特定部と、
前記複数の文書の中から、前記第二着目文を含む複数文から構成される複数の第二文書を取得し、前記複数の第一文書および前記複数の第二文書のそれぞれに含まれる同一文書の数と、同一文書以外の文書の数との関係に基づいて、前記複数の文書の中から前記第二着目文を除外する除外処理部と
を有することを特徴とする情報処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、文書処理方法等に関する。

【背景技術】

【0002】

フィールドで稼働する製品に障害が発生した場合、保守作業員は、対象製品の修理を行うと共に、障害内容を記載した障害レポート（ＭＲ：Maintenance Report）を作成し、保守管理部門等に報告する。

【0003】

保守管理部門では、報告された複数のＭＲに対して分析を行い、たとえば、発生件数の多い障害を検出する。保守管理部門では、検出した発生件数の多い障害内容および対策を文書化し、フィールドに周知させることで、製品に起こり得る障害を未然に防止する。

【0004】

製品を販売する会社は、上記のような取り組みを繰り返し実行することで、製品の保守性や品質を向上させている。かかる取り組みのサイクルを迅速に行うため、現状では人手に頼っているＭＲの分析作業をＡＩ（artificial intelligence）を用いて効率化することが求められている。

【0005】

これまで、ＭＲの記述内容は、表記揺れや同義語、類義語を含んでおり、同一の障害のＭＲであるか否かの判断を、コンピュータが実行することは難しかった。しかし、単語の分散表現を活用することで、単語をベクトル化し、表記揺れや同義語、類義語を含むＭＲを対応付けることが可能となっている。たとえば、各単語のベクトルを重み付き合成によって文書（ＭＲ）のベクトルを算出し、文書間の類似性を定量化する従来技術もある。

【0006】

また、文書のベクトルを用いて、文書間の類似度を算出し、類似度の高い文書同士を同一のクラスタに分類する従来技術（クラスタリング）がある。たとえば、各ＭＲの類似度を基にして、クラスタリングを行い、所定数以上のＭＲが含まれるクラスタを、発生件数の多い障害に対応するＭＲのクラスタとして見なすことが可能である。

【0007】

たとえば、互いに類似度が１となるＭＲのみで構成されるクラスタは、同一障害のクラスタと見なすことができるが、多発障害の検出漏れを抑制するためには、類似度の閾値を１未満にしたほうがよい。

【先行技術文献】

【特許文献】

【0008】

【文献】特開２００９－１４６３９７号公報

【文献】特開２０１７－１９４７２７号公報

【文献】特開２０１８－１０６３９０号公報

【発明の概要】

【発明が解決しようとする課題】

【0009】

ＭＲには障害内容を記述した文以外の文が含まれている場合もあり、かかるＭＲに対してクラスタリングを実行すると、共通する障害内容を記述していないＭＲ同士が同一のクラスタに分類され、適切なクラスタが生成されない。

【0010】

ＭＲは、一般的な文書と比べ文字数および文数が非常に少ないという特徴があり、ＭＲに含まれる障害内容と関係のない文の存在が、クラスタリングの結果に影響を与えやすい。

【0011】

たとえば、ＭＲ「syn flood攻撃の検知が頻発。対処方法を教えて欲しい。」には、文Ａ「syn flood攻撃の検知が頻発。」と、文Ｂ「対処方法を教えて欲しい。」とを含んでいる。この文Ａ、文Ｂのうち、文Ａは、障害内容を記述した文であり、文Ｂは、障害内容を記述した文ではない。

【0012】

ここで、文Ａを含むＭＲの件数よりも、文Ｂを含むＭＲの件数の方が多い場合、障害内容に関わりなく、文Ｂを含むＭＲが一つのクラスタ（第１クラスタ）に分類される。第１クラスタに含まれるＭＲの件数は多くなるが、かかる第１クラスタは、障害内容とは関わりのない文Ｂを共通に持つＭＲのクラスタであるため、かかる第１クラスタを検出すると、誤検知の発生に繋がる。

【0013】

また、文Ａを含み、文Ｂを含まないＭＲは、文Ｂを含むＭＲとは別のクラスタ（第２クラスタ）に分類される。第２クラスタは、障害内容に対応するＭＲを分類したクラスタであるにもかかわらず、文Ａと文Ｂ両方を含むＭＲは第１クラスタに属してしまうため、第２クラスタに含まれるＭＲの件数が少なくなるので、かかる第２クラスタは検出対象から除外され、検出漏れが発生する。

【0014】

このため、ＭＲ等の文書から、障害内容等を記述した所定の文を残しつつ、他の文を文書から除外することが求められている。

【0015】

１つの側面では、本発明は、障害内容を記述した文を残しつつ、障害内容とは関係のない他の文を文書から除外することができる文書処理方法、文書処理プログラムおよび情報処理装置を提供することを目的とする。

【課題を解決するための手段】

【0016】

第１の案では、コンピュータは、以下の処理を実行する。コンピュータは、一文または複数文から構成される複数の文書を取得する。コンピュータは、複数の文書の中から予め設定された条件を満たす一文から構成される第一着目文を特定する。コンピュータは、複数の文書の中から、特定した第一着目文を含む複数文から構成される複数の第一文書を取得する。コンピュータは、取得した複数の第一文書の中から、特定した第一着目文以外の一文から構成される第二着目文を特定する。コンピュータは、複数の文書の中から、第二着目文を含む複数文から構成される複数の第二文書を取得する。コンピュータは、複数の第一文書および複数の第二文書のそれぞれに含まれる同一文書の数と、同一文書以外の文書の数との関係に基づいて、複数の文書の中から第二着目文を除外する。

【発明の効果】

【0017】

障害内容を記述した文を残しつつ、障害内容とは関係のない他の文を文書から除外することができる。

【図面の簡単な説明】

【0018】

【図1】図１は、本実施例に係る情報処理装置の処理を説明するための図である。

【図2】図２は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。

【図3】図３は、文書ＤＢのデータ構造の一例を示す図である。

【図4】図４は、セットＳテーブルのデータ構造の一例を示す図である。

【図5】図５は、セットＭテーブルのデータ構造の一例を示す図である。

【図6】図６は、セットＭ’テーブルのデータ構造の一例を示す図である。

【図7】図７は、判別モデルテーブルのデータ構造の一例を示す図である。

【図8】図８は、除外処理部の処理の一例を説明するための図（１）である。

【図9】図９は、除外処理部の処理の一例を説明するための図（２）である。

【図10】図１０は、除外処理部の処理の一例を説明するための図（３）である。

【図11】図１１は、除外処理部の処理の一例を説明するための図（４）である。

【図12】図１２は、除外処理部の処理の一例を説明するための図（５）である。

【図13】図１３は、検出結果の一例を示す図（１）である。

【図14】図１４は、検出結果の一例を示す図（２）である。

【図15】図１５は、本実施例に係る情報処理装置の処理手順を示すフローチャート（１）である。

【図16】図１６は、本実施例に係る情報処理装置の処理手順を示すフローチャート（２）である。

【図17】図１７は、本実施例に係る情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

【発明を実施するための形態】

【0019】

以下に、本願の開示する文書処理方法、文書処理プログラムおよび情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

【実施例】

【0020】

図１は、本実施例に係る情報処理装置の処理を説明するための図である。情報処理装置は、複数の文書（たとえば、ＭＲ）から、障害内容を記述した文１ａを含み、他の文を含まない文書Ｓ１を検出する。

【0021】

また、情報処理装置は、文１ａと他の文を含む文書Ｍ１，Ｍ２，Ｍ３（および他の文書）と、文１ａを含まないＭ４、Ｍ５（および他の文書）とを検出する。図１において、文１ａ，文２ａは、それぞれ異なる障害内容を記述した文とする。文１ｂ，文１ｃ、他の文は、障害内容が記述された文か否かが不明な文とする。

【0022】

同一の文書において、障害内容を記述した文１ａと共起する他の文は、障害内容を記述した文、または、障害内容を記述していない文のいずれかとなる。また、障害内容を記述していない文は、特定の障害内容とは関わりなく、障害内容を記述した文と共起することが多いという特徴がある。逆に言えば、様々な障害を記述する文と共起する文は障害内容を記述していないといえる。

【0023】

ここで、各文書Ｍ１～Ｍ５を、区分１０Ａ，１０Ｂ，１０Ｃに分類する。区分１０Ａは、文１ａと、文１ｂとが共起しており、かつ、文１ｃを含まない文書Ｍ２，Ｍ３（図示しない他の文書）を含む。区分１０Ｂは、文２ａと、文１ｃとが共起している文書Ｍ４，Ｍ５（図示しない他の文書）を含む。区分１０Ｃは、文１ａと、文１ｂと、文１ｃとが共起している文書Ｍ１を含む。

【0024】

ここで、区分１０Ａに含まれる、文書Ｍ２、Ｍ３および図示しない他の文書は、文１ａと、文１ｂとが共起しており「文１ｂは、文１ａの障害内容と関係のある文」と言える。一方、区分１０Ｂにおいて、文１ｃは、文１ａとは異なる障害内容を記述した、文２ａと共起しているため、「文１ｃは、文１ａの障害内容と関係のない文」と言える。このため、情報処理装置は、文書Ｍ１から、文１ｃを除外する。

【0025】

上記のように、本実施例に係る情報処理装置は、着目した障害内容を記述した文を含む文書を検出し、検出した文書のうち、複数の文を含む文書について、着目した障害内容に関係のある文（障害内容を記述した文）を残す。また、情報処理装置は、着目した障害内容に関係のない文（障害内容を記述していない文）を削除する処理を行う。このように、障害内容を記述した文に関連する文を残し、関連しない文を削除することができるので、クラスタリング処理による障害検出において、誤検知や検出もれを抑止することができる。

【0026】

次に、本実施例に係る情報処理装置の構成の一例について説明する。図２は、本実施例に係る情報処理装置の構成を示す機能ブロック図である。図２に示すように、この情報処理装置１００は、通信部１１０と、入力部１２０と、表示部１３０と、記憶部１４０と、制御部１５０とを有する。

【0027】

通信部１１０は、ネットワークを介して外部装置とデータ通信を実行する処理部である。通信部１１０は、通信装置の一例である。後述する制御部１５０は、通信部１１０を介して、データをやり取りする。たとえば、通信部１１０は、障害内容を記述した文書の情報を外部装置から受信する。

【0028】

入力部１２０は、情報処理装置１００に各種の情報を入力するための入力装置である。たとえば、入力部１２０は、キーボードやマウス、タッチパネル等に対応する。利用者は、入力部１２０を操作して、障害内容を記述した文書の情報を、情報処理装置１００に入力してもよい。

【0029】

表示部１３０は、制御部１５０から出力される各種の情報を表示する表示装置である。表示部１３０は、液晶ディスプレイ、タッチパネル等の表示装置に対応する。

【0030】

記憶部１４０は、文書ＤＢ（Data Base）１４１と、セットＳテーブル１４２と、セットＭテーブル１４３と、判別モデルテーブル１４５とを有する。記憶部１４０は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ（Flash Memory）などの半導体メモリ素子や、ＨＤＤ（Hard Disk Drive）などの記憶装置に対応する。

【0031】

文書ＤＢ１４１は、障害内容を記述した複数の文書（ＭＲ）の情報を登録するデータベースである。図３は、文書ＤＢのデータ構造の一例を示す図である。図３に示すように、この文書ＤＢ１４１は、文書識別情報と、文書情報とを対応付ける。文書識別情報は、文書を一意に識別する情報である。文書情報は、障害内容を記述した一つの文または複数の文を含む文書の情報である。たとえば、一つの文書情報に含まれる各文は、句読点によって、他の文と区分される。

【0032】

図３において、文書識別情報「ＭＲ１」に対応する文書情報は「syn flood攻撃が検知されました。対処方法を教えてください。」である。この文書情報には、文「syn flood攻撃が検知されました。」と、文「対処方法をおしえてください。」とを含む。

【0033】

図３において、文書識別情報「ＭＲ１００」に対応する文書情報は「syn flood攻撃が検知されました。」である。この文書情報は、文「syn flood攻撃が検知されました。」を含む。このように、文書情報に一つの文しか含まれない場合、かかる一つの文は、障害内容を記述した文と見なす事ができる。

【0034】

セットＳテーブル１４２は、文書ＤＢ１４１に登録された各文書情報のうち、一つの文を含む文書情報を登録するテーブルである。図４は、セットＳテーブルのデータ構造の一例を示す図である。図４に示すように、このセットＳテーブル１４２は、文書識別情報と、文書情報（一つの文）とを対応付ける。

【0035】

セットＭテーブル１４３は、文書ＤＢ１４１に登録された各文書情報のうち、複数の文を含む文書情報を登録するテーブルである。図５は、セットＭテーブルのデータ構造の一例を示す図である。図５に示すように、このセットＭテーブル１４３は、文書識別情報と、文書情報（複数の文）とを対応付ける。

【0036】

セットＭ’テーブル１４４は、セットＭテーブル１４３に登録される文書情報を、一文毎に分割した情報を登録するテーブルである。図６は、セットＭ’テーブルのデータ構造の一例を示す図である。図６に示すように、このセットＭ’テーブル１４４は、文書識別情報と、文書サブ識別情報と、削除フラグと、文書情報とを対応付ける。文書識別情報は、図５で説明した文書識別情報に対応する。文書サブ識別情報は、複数文の文書情報に含まれる各文をそれぞれ識別する情報である。削除フラグは、対応する文書情報を削除するか否かを示すフラグである。削除する場合には「オン」となり、削除しない場合には「オフ」となる。削除フラグは、後述する除外処理部１５４に設定される。削除フラグの初期値は「オフ」である。文書情報は、一つの文の情報である。

【0037】

判別モデルテーブル１４５は、対象文書情報と類似する文書であるか否かを判定するモデルを登録するテーブルである。図７は、判別モデルテーブルのデータ構造の一例を示す図である。図７に示すように、この判別モデルテーブル１４５は、対象文書識別情報と、判別モデルとを対応付ける。対象文書識別情報は、判別モデルの対象となった文書情報の文書識別情報、または、文書サブ識別情報（後述する）を示す情報である。判別モデルは、対象文書識別情報の文書と類似する文書を判別するための判別モデルの情報である。

【0038】

図２の説明に戻る。制御部１５０は、取得部１５１と、第一特定部１５２と、第二特定部１５３と、除外処理部１５４と、検出部１５５とを有する。制御部１５０は、ＣＰＵやＭＰＵ（Micro Processing Unit）などによって実現できる。また、制御部１５０は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などのハードワイヤードロジックによっても実現できる。

【0039】

取得部１５１は、ネットワークを介して、外部装置等から、障害内容を記述した文書情報を取得し、取得した文書情報を、文書ＤＢ１４１に登録する。文書情報に対応する文書識別情報は、文書情報に予め設定されていてもよいし、取得部１５１が、文書情報にユニークな文書識別情報を割り当ててもよい。取得部１５１は、入力部１２０を介して、文書情報を取得してもよい。

【0040】

第一特定部１５２は、文書ＤＢ１４１に含まれる複数の文書情報のうち、一文から構成される文書情報を特定し、特定した文書情報および文書識別情報を、セットＳテーブル１４２に登録する。

【0041】

また、第一特定部１５２は、セットＳテーブル１４２に登録された各文書情報（文）から一つの文Ｓ１を選択し、下記の処理を実行することにより、文Ｓ１と類似する文を判別する判別モデルを生成する。

【0042】

第一特定部１５２が、判別モデルを生成する処理の一例について説明する。第一特定部１５２は、文Ｓ１と、セットＳテーブル１４２に含まれる各文（文Ｓ１を含む）との類似度をそれぞれ算出し、セットＳテーブル１４２に含まれる各文のうち、類似度上位の文を特定する。

【0043】

たとえば、第一特定部１５２は、word2vec等と同様にして、文に含まれる各単語のベクトルを算出し、文に含まれる各単語のベクトルを積算することで、文のベクトルを算出する。第一特定部１５２は、文Ｓ１のベクトルと、セットＳテーブル１４２に登録された各文のベクトルとの距離をそれぞれ類似度として算出する。第一特定部１５２は、ベクトル間の距離が近いほど、類似度を大きくする。第一特定部１５２は、類似度の降順に、文をソートし、上位ｎに含まれる文を、類似度上位の文として特定する。

【0044】

第一特定部１５２は、特定した類似度上位の文を「正例」としたＰＵ（Positive Unlabeled）学習を行い、文Ｓ１に類似する文であるか否かを判別する判別モデルを生成する。第一特定部１５２は、文Ｓ１を識別する対象文書識別情報と、判別モデルの情報とを対応付けて、判別モデルテーブル１４５に登録する。

【0045】

ここで、ＰＵ学習は、訓練データとして、一部の正例のみが与えられている場合に機械学習を行う学習法である。ＰＵ学習により学習される判別モデルは、正負不明のデータに対して正例確率を推定する推定モデルである。また、ＰＵ学習により学習される判別モデルは、算出された正例確率によって重みづけされた判別モデルである。なお、以降の処理においてはこのＰＵ学習を用いているが、類似度が低い文を負例とみなして通常の機械学習方式を用いて判別モデルを構築することもできる。

【0046】

たとえば、第一特定部１５２は、ＰＵ学習を行う場合に、確率変数ｘ、ｙ、ｚを定義する。ここで、ｘ∈Ｒ（実数全体），ｙ∈｛－１，１｝，ｓ∈｛０，１｝とする。ｘは、入力（文のベクトル）、ｙはクラスラベル（負例＝－１，正例＝１）、ｓはデータがラベリングされているか否か（ラベリングされていないｓ＝０，ラベルされている＝１）を示す。

【0047】

まず、第一特定部１５２は、ｐ（ｓ＝１｜ｘ）の推定モデルを学習する。上記のように、類似度上位の文には「正例」ラベルが付与され（ｓ＝１）、他の文にはラベルが付与されていない（ｓ＝０）ので、ラベルが付与されているデータ（文のベクトル）は、正例である。このため、ｐ（ｓ＝１｜ｘ）の推定モデルは、「正例らしさの確率」を推定するモデルであると言える。第一特定部１５２は、たとえば、ＮＮ（Neural Network）のパラメータを調整する学習を行うことで、ｐ（ｓ＝１｜ｘ）の推定モデルを学習する。

【0048】

続いて、第一特定部１５２は、ｐ（ｓ＝１｜ｘ）の推定モデルの出力を正例らしさと見なして、判別モデルｐ（ｙ＝１｜ｘ）＝ｐ（ｓ＝１｜ｘ）／ｐ（ｓ＝１｜ｙ＝１）を学習する。第一特定部１５２は、ＮＮのパラメータを調整する学習を行うことで、ｐ（ｙ＝１｜ｘ）の判別モデルを学習する。この判別モデルに、文のベクトルを入力すると、文Ｓ１に類似する文である確からしさが出力される。

【0049】

第一特定部１５２は、セットＳテーブル１４２に登録された他の文（Ｓ２～Ｓｎ）についても、文Ｓ１と同様の処理を実行することで、判別モデルを生成し、対象文識別情報と、判別モデルの情報とを対応付けて、判別モデルテーブル１４５に登録する。

【0050】

第二特定部１５３は、文書ＤＢ１４１に含まれる複数の文書情報のうち、複数文から構成される文書情報を特定し、特定した文書情報および文書識別情報を、セットＭテーブル１４３に登録する。

【0051】

第二特定部１５３は、セットＭテーブル１４３を基にして、セットＭ’テーブル１４４を生成する。たとえば、第二特定部１５３は、セットＭテーブル１４３のレコードを選択し、選択したレコードに含まれる複数文を、一文毎に分割し、各文に文書サブ識別情報を割り当てる。第二特定部１５３は、文書識別情報と、文書サブ識別情報と、文書情報（一つの文）とを対応付けて、セットＭ’テーブル１４４に登録する。

【0052】

第二特定部１５３は、判別モデルテーブル１４５に含まれる各文の判別モデルから、文Ｓ１の判別モデルを取得する。第二特定部１５３は、セットＭ’テーブル１４４に含まれる各文書情報（一つの文）を、文Ｓ１の判別モデルに適用することで、セットＭ’テーブル１４４に含まれる各文書情報のうち、文Ｓ１と類似する文書情報を特定する。

【0053】

たとえば、第二特定部１５３は、セットＭ’テーブル１４４に含まれる文書情報のベクトルを、判別モデルに入力し、判別モデルから出力される確からしさの値が、閾値以上である場合に、文書情報が、文Ｓ１と類似する文書情報として特定する。

【0054】

第二特定部１５３は、特定した文Ｓ１と類似する文書情報の文書サブ識別情報と、セットＭ’テーブル１４４とを比較して、係る文書サブ識別情報に対応する文書識別情報を特定し、特定した文書識別情報を、リストＬ１（Ｓ１）として生成する。

【0055】

第二特定部１５３は、文Ｓ２～Ｓｎについても、文Ｓ１と同様の処理を行い、リストＬ１（Ｓ２）～リストＬ１（Ｓｎ）を生成する。

【0056】

除外処理部１５４は、下記の処理を実行することで、セットＭテーブル１４３の文書情報（複数文）から、障害内容と関係のない文を除外する処理部である。たとえば、除外処理部１５４は、判別モデルを生成する処理、リストＬ２を生成する処理、削除フラグを設定する処理、除外する処理を行う。

【0057】

除外処理部１５４が実行する「判別モデルを生成する処理」について説明する。ここでは一例として、リストＬ１（Ｓ１）を用いて説明する。除外処理部１５４は、リストＬ１（Ｓ１）に含まれる文書情報に含まれる複数文のうち、文Ｓ１と類似しない文を選択し、選択した文の判別モデルを生成する。

【0058】

図８は、除外処理部の処理の一例を説明するための図（１）である。図８に示すように、たとえば、リストＬ１（Ｓ１）には、文書識別情報ＭＲ１、ＭＲ２、・・・、ＭＲ１０が登録されているものとする。また、文書識別情報ＭＲ１の文書には、文書サブ識別情報Ｔ１１，Ｔ１２が含まれる。文書サブ識別情報Ｔ１１の文が、文Ｓ１と類似する文とすると、除外処理部１５４は、文書サブ識別情報Ｔ１２の文を選択し、選択した文の判別モデルを生成する。除外処理部１５４は、リストＬ１（Ｓ１）に含まれる文書識別情報ＭＲ２、・・・ＭＲ１０の文書についても、文Ｓ１と類似しない文を選択し、選択した文の判別モデルを生成する。

【0059】

一例として、文書サブ識別情報Ｔ１１の判別モデルを生成する処理の一例について説明する。以下の説明では、文書サブ識別情報Ｔ１２の文書情報を「文Ｔ１２」と表記する。除外処理部１５４は、文Ｔ１２と、セットＭ’データに含まれる各文（文Ｔ１２を含む）との類似度をそれぞれ算出し、セットＭ’テーブルに含まれる各文のうち、類似度上位の文を特定する。除外処理部１５４が、各文の類似度を算出する処理は、第一特定部１５２と同様にして、文のベクトルを用いる。

【0060】

除外処理部１５４は、特定した類似度上位の文を「正例」としたＰＵ学習を行い、文Ｔ１２に類似する文であるか否かを判別する判別モデルを生成する。除外処理部１５４は、文Ｔ１２を識別する対象文書識別情報と、判別モデルの情報とを対応付けて、判別モデルテーブル１４５に登録する。除外処理部１５４が実行するＰＵ学習は、第一特定部１５２が実行するＰＵ学習と同様である。

【0061】

除外処理部１５４は、リストＬ１（Ｓ１）に含まれる、文Ｓ１と類似しない他の文についても、文Ｔ１１と同様の処理を実行することで、判別モデルを生成し、対象文書識別情報と、判別モデルの情報とを対応付けて、判別モデルテーブル１４５に登録する。

【0062】

除外処理部１５４は、リストＬ１（Ｓ２～Ｓｎ）に含まれる、文Ｓ２～Ｓｎと類似しない他の文についても、文Ｔ１２と同様の処理を実行することで、判別モデルを生成し、対象文書識別情報と、判別モデルの情報とを対応付けて、判別モデルテーブル１４５に登録する。

【0063】

続いて、除外処理部１５４が実行する「リストＬ２を生成する処理」について説明する。除外処理部１５４は、各リストＬ１（Ｓ１～Ｓｎ）に対して、複数のリストＬ２を生成する。たとえば、一つのリストＬ１（Ｓ１）に対応するリストＬ２の数は、リストＬ１（Ｓ１）の各文のうち、文Ｓ１と類似しない文の数となる。

【0064】

図９は、除外処理部の処理の一例を説明するための図（２）である。たとえば、リストＬ１（Ｓ１）には、文書識別情報ＭＲ１、ＭＲ２、ＭＲ１０が登録されているものとする。また、文書識別情報ＭＲ１の文書には、文書サブ識別情報Ｔ１１，Ｔ１２が含まれており、文書サブ識別情報Ｔ１１の文は、文Ｓ１に類似しているものとする。

【0065】

文書識別情報ＭＲ２の文書には、文書サブ識別情報Ｔ２１，Ｔ２２が含まれており、文書サブ識別情報Ｔ２１の文は、文Ｓ１に類似しているものとする。文書識別情報ＭＲ１０の文書には、文書サブ識別情報Ｔ１０１，Ｔ１０２が含まれており、文書サブ識別情報Ｔ１０１の文は、文Ｓ１に類似しているものとする。この場合、除外処理部１５４は、リストＬ１（Ｓ１）に対応するリストＬ２として、文書サブ識別情報Ｔ１２，Ｔ２２，Ｔ１０２に基づく、リストＬ２（Ｔ１２）、リストＬ２（Ｔ２２）、リストＬ２（Ｔ１０２）を生成する。

【0066】

ここでは一例として、文Ｓ１と類似しない文（Ｔ１２）のリストＬ２（Ｔ１２）を生成する場合について説明する。

【0067】

除外処理部１５４は、判別モデルテーブル１４５に含まれる各文の判別モデルから文Ｔ１２の判別モデルを取得する。除外処理部１５４は、セットＭ’テーブル１４４に含まれる各文書情報（一つの文）を、文Ｔ１２の判別モデルに適用することで、セットＭ’テーブル１４４に含まれる各文書情報のうち、文Ｔ１１と類似する文書情報を特定する。

【0068】

たとえば、除外処理部１５４は、セットＭ’テーブル１４４に含まれる文書情報のベクトルを、判別モデルに入力し、判別モデルから出力される確からしさの値が、閾値以上である場合に、文書情報が、文Ｔ１２と類似する文書情報として特定する。

【0069】

除外処理部１５４は、特定した文Ｔ１２と類似する文書情報の文書サブ識別情報と、セットＭ’テーブル１４４とを比較して、係る文書サブ識別情報に対応する文書識別情報を特定し、特定した文書識別情報を、リストＬ２（Ｔ１２）として生成する。

【0070】

除外処理部１５４は、リストＬ２（Ｔ１２）を生成する処理と同様にして、文Ｔ２２の判別モデルを用いて、リストＬ２（Ｔ２２）を生成する。除外処理部１５４は、文Ｔ１０２の判別モデルを用いて、リストＬ２（Ｔ１０２）を生成する。

【0071】

また、除外処理部１５４は、リストＬ１（Ｓ１）に対する複数のリストＬ２を生成する処理と同様にして、各リストＬ１（Ｓ２～Ｓｎ）に対する、複数のリストＬ２を生成する。

【0072】

続いて、除外処理部１５４が実行する「削除フラグを設定する処理」について説明する。一例として、リストＬ１（Ｓ１）と、リストＬ２（Ｔ１２）とを基にして、文書サブ識別情報Ｔ１２の文を除外するか否かを判定する処理について説明する。たとえば、除外処理部１５４は、リストＬ１（Ｓ１）とリストＬ２（Ｔ１２）とで共通する文書情報の件数が多い場合に、文Ｓ１と文Ｔ１２とが関連し、文Ｔ１２を残すと判定する。

【0073】

一方、除外処理部１５４は、リストＬ１（Ｓ１）とリストＬ２（Ｔ１２）とで共通する文書情報の件数が少ない場合に、文Ｓ１と文Ｔ１２とが関連せず、文Ｔ１２を除外すると判定する。除外処理部１５４は、文Ｔ１２を除外すると判定した場合、セットＭ’テーブル１４４の文書サブ識別情報「Ｔ１２」の削除フラグを「オン」に設定する。また、除外処理部１５４は、文書サブ識別情報「Ｔ１２」の判別モデルを基にして、文Ｔ１２に類似する他の文（類似文）をセットＭ’テーブル１４４から検出し、検出した他の文（類似文）に対応する削除フラグを「オン」に設定する。

【0074】

図１０は、除外処理部の処理の一例を説明するための図（３）である。図１０に示す例では、リストＬ１（Ｓ１）には、文書識別情報「ＭＲ１，ＭＲ２，・・・，ＭＲ１０」の文書情報が登録されているものとする。リストＬ２（Ｔ１２）には、文書識別番号「ＭＲ１，ＭＲ２，ＭＲ３，ＭＲ１１，・・・，ＭＲ２０」の文書情報が含まれているもとする。

【0075】

また、除外処理部１５４は、リストＬ１（Ｓ１）と、リストＬ２（Ｔ１２）とを比較し、表２０Ａの得るものとする。図１０に示すように、リストＬ１（Ｓ１）に含まれ、かつ、リストＬ２（Ｔ１２）に含まれる文書情報の数を「３件」とする。リストＬ１（Ｓ１）に含まれ、かつ、リストＬ２（Ｔ１２）に含まれない文書情報の数を「７件」とする。リストＬ１（Ｓ１）に含まれず、かつ、リストＬ２（Ｔ１２）に含まれる文書情報の数を「１０件」とする。リストＬ１（Ｓ１）に含まれず、かつ、リストＬ２（Ｔ１２）に含まれない文書情報の数を「９８０件」とする。

【0076】

除外処理部１５４は、表２０Ａに対して検定（正解確率検定、カイ二乗検定等）を行い、文Ｓ１と、文Ｔ１２との関連性の有無を判定する。たとえば、表２０Ａに対する検定では、危険度５％で、ｐ値＝１．９６×１０^－４となり、ｐ値の値が閾値未満であり、関連性ありと判定する。この場合、除外処理部１５４は、文Ｔ１２を除外しないと判定する。

【0077】

図１１は、除外処理部の処理の一例を説明するための図（４）である。図１１に示す例では、リストＬ１（Ｓ１）には、文書識別情報「ＭＲ１，ＭＲ２，・・・，ＭＲ１０」の文書情報が登録されているものとする。リストＬ２（Ｔ１０２）には、文書識別番号「ＭＲ１，ＭＲ２１，ＭＲ２２，・・・，ＭＲ４０」の文書情報が含まれているもとする。

【0078】

また、除外処理部１５４は、リストＬ１（Ｓ１）と、リストＬ２（Ｔ１０２）とを比較し、表２０Ｂを得るものとする。図１１に示すように、リストＬ１（Ｓ１）に含まれ、かつ、リストＬ２（Ｔ１０２）に含まれる文書情報の数を「１件」とする。リストＬ１（Ｓ１）に含まれ、かつ、リストＬ２（Ｔ１０２）に含まれない文書情報の数を「９件」とする。リストＬ１（Ｓ１）に含まれず、かつ、リストＬ２（Ｔ１０２）に含まれる文書情報の数を「２０件」とする。リストＬ１（Ｓ１）に含まれず、かつ、リストＬ２（Ｔ１０２）に含まれない文書情報の数を「９７０件」とする。

【0079】

除外処理部１５４は、表２０Ｂに対して検定（正解確率検定、カイ二乗検定等）を行い、文Ｓ１と、文Ｔ１０２との関連性の有無を判定する。表２０Ｂに対する検定では、危険度５％で、ｐ値＝０．１９６となり、ｐ値の値が閾値以上であるため、関連性なしと判定する。除外処理部１５４は、セットＭ’テーブル１４４の文書サブ識別情報Ｔ１０２に対応する削除フラグを「オン」に設定する。

【0080】

除外処理部１５４は、リストＬ１（Ｓ１～Ｓｎ）と、対応するリストＬ２とを比較して、各文が関連するか否かを判定し、関連しないと判定した文については、削除フラグを「オン」にする処理を繰り返し実行する。

【0081】

続いて、除外処理部１５４が実行する「除外する処理」について説明する。除外処理部１５４は、文書ＤＢ１４１と、セットＭ’テーブル１４４とを比較して、削除フラグが「オン」となる文を、文書ＤＢ１４１から削除する処理を実行する。

【0082】

図１２は、除外処理部の処理の一例を説明するための図（５）である。図１２に示すように、文書サブ識別情報Ｔ１２に対応する削除フラグが「オン」となっているため、除外処理部１５４は、文書識別情報「ＭＲ１」に対応する文書情報から、文書サブ識別情報Ｔ１２に対応する文「対処方法を教えてください。」を削除する。

【0083】

除外処理部１５４は、文書サブ識別情報Ｔ２２に対応する削除フラグが「オン」となっているため、文書識別情報「ＭＲ２」に対応する文書情報から、文書サブ識別情報Ｔ１２に対応する文「対処方法が不明です。」を削除する。

【0084】

除外処理部１５４は、他の文書情報についても、削除フラグが「オン」となっている文を削除する処理を繰り返し実行することで、文書ＤＢ１４１を更新する。更新した文書ＤＢ１４１を、文書ＤＢ１４１ａと表記する。ここで、除外処理部１５４は、文書ＤＢ１４１ａを参照し、文書ＤＢ１４１ａに含まれる文書情報のうち、上記の除外する処理により、一つの文となった文書情報を、セットＳテーブル１４２に登録する。

【0085】

図２の説明に戻る。検出部１５５は、文書ＤＢ１４１ａに対してクラスタリングを行うことで、文書ＤＢ１４１ａに含まれる各文書情報を複数のクラスタに分類する。検出部１５５は、複数のクラスタのうち、クラスタに属する文書情報の数か所定数以上となるクラスタを検出する。所定数以上の文書情報が属するクラスタは、障害内容を記述した文書情報といえる。

【0086】

たとえば、検出部１５５は、文書ＤＢ１４１ａの各文書情報のベクトルを算出する。文書情報に一つの文が含まれている場合には、文書情報のベクトルは、かかる文のベクトルとなる。文書情報に、複数の文が含まれている場合には、各文のベクトルを積算することで、文書情報のベクトルを算出する。検出部１５５は、各文書情報のベクトルの類似度を算出し、類似度が閾値以上となる文書情報が同一のクラスタに属するようにクラスタリングを行う。

【0087】

検出部１５５は、検出結果を表示部１３０に出力して表示させてもよいし、ネットワークを介して、外部装置に通知してもよい。図１３は、検出結果の一例を示す図（１）である。図１３に示すように、検出部１５５は、更新された文書ＤＢ１４１ａをクラスタリングすることで、複数のクラスタ３０Ａ～３０Ｃを生成する。たとえば、検出部１５５は、クラスタ３０Ａに属する文書情報の数が所定数以上の場合には、クラスタ３０Ａを、検出結果として検出する。管理者は、クラスタ３０Ａを参照すると「syn flood（シンフラット）攻撃」に関する文書情報の数が所定数以上であるため「syn flood攻撃」を多発障害として特定することができる。

【0088】

ところで、仮に、更新していない文書ＤＢ１４１に対してそのままクラスタリングを行い、同様にクラスタを検出すると、図１４に示すものとなる。図１４は、検出結果の一例を示す図（２）である。図１４に示すように、仮に、検出部１５５は、文書ＤＢ１４１をクラスタリングすることで、複数のクラスタ３１Ａ～３１Ｃを生成する。たとえば、検出部１５５は、クラスタ３１Ａに属する文書情報の数が所定数以上の場合には、クラスタ３１Ａを、検出結果として検出する。クラスタ３１Ａに含まれる各文書情報は、障害内容に関係のない、文「対象方法を教えてください」の影響により同一のクラスタに属しているため、管理者は、クラスタ３１Ａを参照しても、それぞれの障害の発生件数が所定数に満たないため、多発障害なしと判断してしまう。

【0089】

次に、本実施例に係る情報処理装置１００の処理手順の一例について説明する。図１５及び図１６は、本実施例に係る情報処理装置の処理手順を示すフローチャートである。図１５に示すように、情報処理装置１００の第一特定部１５２は、文書ＤＢ１４１の各文書情報のうち、１文で構成される文書情報をセットＳテーブル１４２に登録する（ステップＳ１０１）。情報処理装置１００の第二特定部１５３は、文書ＤＢ１４１の各文書情報のうち、複数の文で構成される文書情報を、セットＭテーブル１４３に登録する（ステップＳ１０２）。

【0090】

第二特定部１５３は、セットＭテーブル１４３を基にして、セットＭ’テーブル１４４を生成する（ステップＳ１０３）。第一特定部１５２は、セットＳテーブル１４２から、１文（たとえば、文Ｓ１）を抽出する（ステップＳ１０４）。情報処理装置１００は、セットＳテーブル１４２の全ての文を抽出している場合（抽出に成功しない場合）には（ステップＳ１０５，Ｎｏ）、処理を終了する。

【0091】

一方、第一特定部１５２は、セットＳテーブル１４２の文の抽出に成功した場合には（ステップＳ１０５，Ｙｅｓ）、文の判別モデルを生成する（ステップＳ１０６）。第二特定部１５３は、文の判定モデルをセットＭ’テーブル１４４に適用し、文の類似文を含む複数の文書情報を検出し、リストＬ１に登録する（ステップＳ１０７）。

【0092】

情報処理装置１００の除外処理部１５４は、リストＬ１の文書情報から、類似文以外の１文（たとえば、Ｔ１１）を抽出し（ステップＳ１０８）、図１６のステップＳ１０９に移行する。

【0093】

図１６の説明に移行する。除外処理部１５４は、抽出に成功した場合には（ステップＳ１０９，Ｙｅｓ）、リストＬ１から抽出した文の判別モデルを生成する（ステップＳ１１０）。除外処理部１５４は、リストＬ１から抽出した文の判別モデルをセットＭ’テーブルに適用し、文の類似文を含む文書情報を検出し、リストＬ２に登録する（ステップＳ１１１）。

【0094】

除外処理部１５４は、リストＬ１およびリストＬ２を基にして、抽出した各文（たとえば、文Ｓ１と、文Ｔ１２）との関連の有無を判定する（ステップＳ１１２）。除外処理部１５４は、各文が関連しない場合には（ステップＳ１１３，Ｎｏ）、ステップＳ１１５に移行する。

【0095】

一方、除外処理部１５４は、各文が関連する場合には（ステップＳ１１３，Ｙｅｓ）、リストＬ１から抽出した文およびこの文に類似する類似文に対応する削除フラグをオンに設定する（ステップＳ１１４）。

【0096】

除外処理部１５４は、リストＬ１から、未選択の文を抽出し（ステップＳ１１５）、ステップＳ１０９に移行する。

【0097】

ところで、除外処理部１５４は、抽出に成功しない場合には（ステップＳ１０９，Ｎｏ）、文書ＤＢ１４１の各文書情報から、削除フラグがオンとなる文を削除する（ステップＳ１１６）。除外処理部１５４は、削除により１文となって文書情報を、セットＳテーブル１４２に追加し（ステップＳ１１７）、図１５のステップＳ１０４に移行する。

【0098】

次に、本実施例に係る情報処理装置１００の効果について説明する。情報処理装置１００は、着目した障害内容を記述した文を含む文書を検出し、検出した文書のうち、複数の文を含む文書について、着目した障害内容に関係のある文（障害内容を記述した文）を残す。また、情報処理装置は、着目した障害内容に関係のない文（障害内容を記述していない文）を削除する処理を行う。このように、障害内容を記述した文に関連する文を残し、関連しない文を削除することができるので、クラスタリング処理による障害検出において、誤検知や検出もれを抑止することができる。

【0099】

たとえば、図１３で説明したように、障害内容を記述した文書情報を残し、障害内容を記述していない文書情報を削除することで、類似する障害内容に関連する文書情報をクラスタに分類することができるので、多発障害を特定することが容易となる。図１４で説明したように、仮に、障害内容を記述していない文書情報が残っていると、障害内容を記述していない文書情報を共通に含む文書情報が同一のクラスタに分類されてしまい、多発障害を検出することが難しい。

【0100】

また、情報処理装置１００は、文と類似する他の文を判別する場合に、ＰＵ学習を基にして、文の判別モデルを生成し、かかる判別モデルを基にして、類似する他の文を判別する。これによって、文に関する教師データが少ない場合でも、類似する文を判別することができる。

【0101】

次に、本実施例に示した情報処理装置１００と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図１７は、本実施例に係る情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

【0102】

図１７に示すように、コンピュータ５００は、各種演算処理を実行するＣＰＵ５０１と、ユーザからのデータの入力を受け付ける入力装置５０２と、ディスプレイ５０３とを有する。また、コンピュータ５００は、記憶媒体からプログラム等を読み取る読み取り装置５０４と、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行うインタフェース装置５０５とを有する。コンピュータ５００は、各種情報を一時記憶するＲＡＭ５０６と、ハードディスク装置５０７とを有する。そして、各装置５０１～５０７は、バス５０８に接続される。

【0103】

ハードディスク装置５０７は、取得プログラム５０７ａ、第一特定プログラム５０７ｂ、第二特定プログラム５０７ｃ、除外処理プログラム５０７ｄ、検出プログラム５０７ｅを有する。ＣＰＵ５０１は、取得プログラム５０７ａ、第一特定プログラム５０７ｂ、第二特定プログラム５０７ｃ、除外処理プログラム５０７ｄ、検出プログラム５０７ｅを読み出してＲＡＭ５０６に展開する。

【0104】

取得プログラム５０７ａは、取得プロセス５０６ａとして機能する。第一特定プログラム５０７ｂは、第一特定プロセス５０６ｂとして機能する。第二特定プログラム５０７ｃは、第二特定プロセス５０６ｃとして機能する。除外処理プログラム５０７ｄは、除外処理プロセス５０６ｄとして機能する。検出プログラム５０７ｅは、検出プロセス５０６ｅとして機能する。

【0105】

取得プロセス５０６ａの処理は、取得部１５１の処理に対応する。第一特定プロセス５０６ｂの処理は、第一特定部１５２の処理に対応する。第二特定プロセス５０６ｃの処理は、第二特定部５５０ｃの処理に対応する。除外処理プロセス５０６ｄの処理は、除外処理部１５４の処理に対応する。検出プロセス５０６ｅの処理は、検出部１５５の処理に対応する。

【0106】

なお、各プログラム５０７ａ～５０７ｅついては、必ずしも最初からハードディスク装置５０７に記憶させておかなくてもよい。例えば、コンピュータ５００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ５００が各プログラム５０７ａ～５０７ｅを読み出して実行するようにしてもよい。

【0107】

以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。

【0108】

（付記１）コンピュータが実行する文書処理方法であって、
一文または複数文から構成される複数の文書を取得し、
前記複数の文書の中から予め設定された条件を満たす一文から構成される第一着目文を特定し、
前記複数の文書の中から、特定した前記第一着目文を含む複数文から構成される複数の第一文書を取得し、
取得した前記複数の第一文書の中から、特定した前記第一着目文以外の一文から構成される第二着目文を特定し、
前記複数の文書の中から、前記第二着目文を含む複数文から構成される複数の第二文書を取得し、
前記複数の第一文書および前記複数の第二文書のそれぞれに含まれる同一文書の数と、同一文書以外の文書の数との関係に基づいて、前記複数の文書の中から前記第二着目文を除外する
処理を実行することを特徴とする文書処理方法。

【0109】

（付記２）前記除外する処理によって、前記第二着目文の除外された複数の文書を、文書間の類似度を基にして複数のクラスタに分類する処理を更に実行することを特徴とする付記１に記載の文書処理方法。

【0110】

（付記３）前記第一着目文は、障害内容に関して記述された文であり、前記複数のクラスタに属する文書の数を基にして、前記障害内容に関して記述された文に関連するクラスタを検出する処理を更に実行することを特徴とする付記２に記載の文書処理方法。

【0111】

（付記４）前記複数の文書に含まれる複数の文のうち、前記第一着目文に類似する文を正例とした学習を行うことで、前記第一着目文に類似する文か否かを判別する判別モデルを生成する処理を更に実行し、前記第一文書を取得する処理は、前記判別モデルを基にして、前記複数の文書の中から、特定した第一着目文を含む複数文から構成される複数の第一文書を取得することを特徴とする付記１、２または３に記載の文書処理方法。

【0112】

（付記５）コンピュータに、
一文または複数文から構成される複数の文書を取得し、
前記複数の文書の中から予め設定された条件を満たす一文から構成される第一着目文を特定し、
前記複数の文書の中から、特定した前記第一着目文を含む複数文から構成される複数の第一文書を取得し、
取得した前記複数の第一文書の中から、特定した前記第一着目文以外の一文から構成される第二着目文を特定し、
前記複数の文書の中から、前記第二着目文を含む複数文から構成される複数の第に文書を取得し、
前記複数の第一文書および前記複数の第二文書のそれぞれに含まれる同一文書の数と、同一文書以外の文書の数との関係に基づいて、前記複数の文書の中から前記第二着目文を除外する
処理を実行させることを特徴とする文書処理プログラム。

【0113】

（付記６）前記除外する処理によって、前記第二着目文の除外された複数の文書を、文書間の類似度を基にして複数のクラスタに分類する処理を更に実行することを特徴とする付記５に記載の文書処理プログラム。

【0114】

（付記７）前記第一着目文は、障害内容に関して記述された文であり、前記複数のクラスタに属する文書の数を基にして、前記障害内容に関して記述された文に関連するクラスタを検出する処理を更に実行することを特徴とする付記６に記載の文書処理プログラム。

【0115】

（付記８）前記複数の文書に含まれる複数の文のうち、前記第一着目文に類似する文を正例とした学習を行うことで、前記第一着目文に類似する文か否かを判別する判別モデルを生成する処理を更に実行し、前記第一文書を取得する処理は、前記判別モデルを基にして、前記複数の文書の中から、特定した第一着目文を含む複数文から構成される複数の第一文書を取得することを特徴とする付記５、６または７に記載の文書処理プログラム。

【0116】

（付記９）一文または複数文から構成される複数の文書を取得し、
前記複数の文書の中から予め設定された条件を満たす一文から構成される第一着目文を特定する第一特定部と、
前記複数の文書の中から、特定した前記第一着目文を含む複数文から構成される複数の第一文書を取得し、取得した前記複数の第一文書の中から、特定した前記第一着目文以外の一文から構成される第二着目文を特定する第二特定部と、
前記複数の第一文書および前記複数の第二文書のそれぞれに含まれる同一文書の数と、同一文書以外の文書の数との関係に基づいて、前記複数の文書の中から前記第二着目文を除外する除外処理部と
を有することを特徴とする情報処理装置。

【0117】

（付記１０）前記除外処理部によって、前記第二着目文の除外された複数の文書を、文書間の類似度を基にして複数のクラスタに分類する検出部を更に有することを特徴とする付記９に記載の情報処理装置。

【0118】

（付記１１）前記第一着目文は、障害内容に関して記述された文であり、前記検出部は、前記複数のクラスタに属する文書の数を基にして、前記障害内容に関して記述された文に関連するクラスタを検出する処理を更に実行することを特徴とする付記１０に記載の情報処理装置。

【0119】

（付記１２）前記第一特定部は、複数の文書に含まれる複数の文のうち、前記第一着目文に類似する文を正例とした学習を行うことで、前記第一着目文に類似する文か否かを判別する判別モデルを生成する処理を更に実行し、前記第二特定部は、前記判別モデルを基にして、前記複数の文書の中から、特定した第一着目文を含む複数文から構成される複数の第一文書を取得することを特徴とする付記９、１０または１１に記載の情報処理装置。

【符号の説明】

【0120】

１００情報処理装置
１１０通信部
１２０入力部
１３０表示部
１４０記憶部
１４１文書ＤＢ
１４２セットＳテーブル
１４３セットＭテーブル
１４４セットＭ’テーブル
１４５判別モデルテーブル
１５０制御部
１５１取得部
１５２第一特定部
１５３第二特定部
１５４除外処理部
１５５検出部

【図1】