特許7243079 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特許7243079処理方法、処理プログラムおよび情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10A
10B
10C
11
12
13
14
15
16
17
18
19
20
21

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-03-13

(45)【発行日】2023-03-22

(54)【発明の名称】処理方法、処理プログラムおよび情報処理装置

(51)【国際特許分類】

G06F 40/45 20200101AFI20230314BHJP

G06F 40/247 20200101ALI20230314BHJP

【ＦＩ】

G06F40/45

G06F40/247

【請求項の数】 8

(21)【出願番号】P 2018154218

(22)【出願日】2018-08-20

(65)【公開番号】P2020030481

(43)【公開日】2020-02-27

【審査請求日】2021-05-13

(73)【特許権者】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】100104190

【弁理士】

【氏名又は名称】酒井昭徳

(72)【発明者】

【氏名】山越幸太

(72)【発明者】

【氏名】工藤淳真

(72)【発明者】

【氏名】宮城俊秀

(72)【発明者】

【氏名】廣田佳祐

(72)【発明者】

【氏名】塙大紀

【審査官】成瀬博之

(56)【参考文献】

【文献】特開２００７－２３３４４６（ＪＰ，Ａ）

【文献】下畑光夫他3名，パラレルコーパスからの機械翻訳向け同義表現抽出，情報処理学会論文誌，日本，社団法人情報処理学会，2003年11月15日，第44巻第11号，2854-2863頁，ISSN 0387-5806

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ４０／００－４０／５８

(57)【特許請求の範囲】

【請求項1】

Ｍ個の単語を含む第１の単語列と、Ｎ個の単語を含み、前記第１の単語列と同じ意味を表す第２の単語列とを取得し、
複数の位置を含む位置群から選ばれたＭ個の位置の組み合わせごとに、各組み合わせに含まれるＭ個の位置それぞれを、前記第１の単語列に含まれるＭ個の単語のいずれに対応付けるかを示す第１の情報を生成し、
前記位置群から選ばれたＮ個の位置の組み合わせごとに、各組み合わせに含まれるＮ個の位置それぞれを、前記第２の単語列に含まれるＮ個の単語のいずれに対応付けるかを示す第２の情報を生成し、
前記第１の情報および前記第２の情報の複数のペアのそれぞれについて、位置ごとに、前記第１の単語列に含まれる、該位置に対応付けられた単語と、前記第２の単語列に含まれる、該位置に対応付けられた単語とを比較して、前記複数のペアより、単語が一致する位置の数が基準を満たす第１の情報および第２の情報のペアを特定し、
特定した前記ペアに基づき、前記第１の単語列に含まれるＭ個の単語のうち、前記ペアの第１の情報において単語が一致する前記位置以外の第１の位置に対応付けられた単語を、前記第２の単語列に含まれるＮ個の単語のうち、前記ペアの第２の情報において単語が一致する前記位置以外の位置であって前記第１の位置と同じ位置である第２の位置に対応付けられた単語に対応付けて記憶部に記憶する、
処理をコンピュータが実行することを特徴とする処理方法。

【請求項2】

前記複数の位置は順序付けられており、前記第１の単語列に含まれる単語のうち、第１の単語に対応付けられる位置の順序は、前記第１の単語よりも後に出現するいずれの単語に対応付けられる位置の順序よりも若く、前記第２の単語列に含まれる単語のうち、第２の単語に対応付けられる位置の順序は、前記第２の単語よりも後に出現するいずれの単語に対応付けられる位置の順序よりも若い、
ことを特徴とする請求項１に記載の処理方法。

【請求項3】

前記特定する処理は、
前記複数のペアのうち、単語が一致する位置の数が最大の第１の情報および第２の情報のペアを特定する、ことを特徴とする請求項１または２に記載の処理方法。

【請求項4】

前記記憶する処理は、
前記第１の単語列に含まれるＭ個の単語のうち、単語が一致する前記位置以外の位置にそれぞれ対応付けられ、目的語と述語との関係にある第１の単語と第２の単語とを抽出し、
前記第２の単語列に含まれるＮ個の単語のうち、単語が一致する前記位置以外の位置にそれぞれ対応付けられ、目的語と述語との関係にある第３の単語と第４の単語とを抽出し、
前記第１の単語を前記第３の単語に対応付けて前記記憶部に記憶し、前記第２の単語を前記第４の単語に対応付けて前記記憶部に記憶する、ことを特徴とする請求項１～３のいずれか一つに記載の処理方法。

【請求項5】

前記第１の単語列は、第１の文章に含まれるいずれかの単語列であり、
前記第２の単語列は、前記第１の文章と同じ意味の文章として指定された第２の文章に含まれる単語列のうち、前記第１の単語列との編集距離が最小の単語列である、ことを特徴とする請求項１～４のいずれか一つに記載の処理方法。

【請求項6】

前記記憶部に対応付けて記憶された単語の組み合わせを出力し、
出力した前記単語の組み合わせが、表記ゆれであることの選択を受け付けた場合、前記単語の組み合わせを辞書に登録する、ことを特徴とする請求項１～５のいずれか一つに記載の処理方法。

【請求項7】

Ｍ個の単語を含む第１の単語列と、Ｎ個の単語を含み、前記第１の単語列と同じ意味を表す第２の単語列とを取得し、
複数の位置を含む位置群から選ばれたＭ個の位置の組み合わせごとに、各組み合わせに含まれるＭ個の位置それぞれを、前記第１の単語列に含まれるＭ個の単語のいずれに対応付けるかを示す第１の情報を生成し、
前記位置群から選ばれたＮ個の位置の組み合わせごとに、各組み合わせに含まれるＮ個の位置それぞれを、前記第２の単語列に含まれるＮ個の単語のいずれに対応付けるかを示す第２の情報を生成し、
前記第１の情報および前記第２の情報の複数のペアのそれぞれについて、位置ごとに、前記第１の単語列に含まれる、該位置に対応付けられた単語と、前記第２の単語列に含まれる、該位置に対応付けられた単語とを比較して、前記複数のペアより、単語が一致する位置の数が基準を満たす第１の情報および第２の情報のペアを特定し、
特定した前記ペアに基づき、前記第１の単語列に含まれるＭ個の単語のうち、前記ペアの第１の情報において単語が一致する前記位置以外の第１の位置に対応付けられた単語を、前記第２の単語列に含まれるＮ個の単語のうち、前記ペアの第２の情報において単語が一致する前記位置以外の位置であって前記第１の位置と同じ位置である第２の位置に対応付けられた単語に対応付けて記憶部に記憶する、
処理をコンピュータに実行させることを特徴とする処理プログラム。

【請求項8】

Ｍ個の単語を含む第１の単語列と、Ｎ個の単語を含み、前記第１の単語列と同じ意味を表す第２の単語列とを取得する取得部と、
複数の位置を含む位置群から選ばれたＭ個の位置の組み合わせごとに、各組み合わせに含まれるＭ個の位置それぞれを、前記第１の単語列に含まれるＭ個の単語のいずれに対応付けるかを示す第１の情報を生成し、前記位置群から選ばれたＮ個の位置の組み合わせごとに、各組み合わせに含まれるＮ個の位置それぞれを、前記第２の単語列に含まれるＮ個の単語のいずれに対応付けるかを示す第２の情報を生成する生成部と、
前記第１の情報および前記第２の情報の複数のペアのそれぞれについて、位置ごとに、前記第１の単語列に含まれる、該位置に対応付けられた単語と、前記第２の単語列に含まれる、該位置に対応付けられた単語とを比較して、前記複数のペアより、単語が一致する位置の数が基準を満たす第１の情報および第２の情報のペアを特定する特定部と、
前記特定部によって特定された前記ペアに基づき、前記第１の単語列に含まれるＭ個の単語のうち、前記ペアの第１の情報において単語が一致する前記位置以外の第１の位置に対応付けられた単語を、前記第２の単語列に含まれるＮ個の単語のうち、前記ペアの第２の情報において単語が一致する前記位置以外の位置であって前記第１の位置と同じ位置である第２の位置に対応付けられた単語に対応付けて記憶部に記憶する登録部と、
を有することを特徴とする情報処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、処理方法、処理プログラムおよび情報処理装置に関する。

【背景技術】

【0002】

インシデント管理システムにおいて、類似するインシデントの件数を把握することは重要である。例えば、問い合わせの件数が多いインシデントの内容について、ＦＡＱ（ＦｒｅｑｕｅｎｔｌｙＡｓｋｅｄＱｕｅｓｔｉｏｎ）を作成することで、問い合わせ件数の削減につなげることができる。また、問い合わせ件数の多い機能を修正することで、問い合わせ件数の削減につなげることができる。

【0003】

先行技術としては、類似の電子カルテの記述に出現する診療に関する単語を抽出し、抽出された各単語のうち、各電子カルテに共通して出現する共通語以外でかつ異なる電子カルテから抽出された単語の組を対象に、各単語の概念が同一であるかを判定し、同義語と判定された単語の組を出力する技術がある。また、文書データから抽出された用語のペアの類似度を算出し、類似度に基づいて、用語のペアが表記ゆれ候補であるかを判定する技術がある。また、用語集合の中から表記揺れ候補と考えられる用語を予め選別しておき、表記揺れ候補となった用語に対してコストを調整した編集距離を測ることにより、表記揺れの候補となった用語の中から表記揺れと考えられる用語を収集する技術がある。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２００９－１２８９６８号公報

【文献】特開２０１２－２５６１９７号公報

【文献】特開２００５－３５２８８８号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、従来技術では、表記が異なるが同じ意味を表すような、異なる単語間の対応付けを行うことが難しい。例えば、意味が同じ異なる単語間の対応関係を把握できなければ、表記ゆれを統一して文章同士を比較することができず、文章の類似判別を行うことが難しくなる。

【0006】

一つの側面では、本発明は、異なる単語間の対応付けの精度を高めることを目的とする。

【課題を解決するための手段】

【0007】

１つの実施態様では、Ｍ個の単語を含む第１の単語列と、Ｎ個の単語を含む第２の単語列とを取得し、複数の位置を含む位置群から選ばれたＭ個の位置の組み合わせごとに、各組み合わせに含まれるＭ個の位置それぞれを、前記第１の単語列に含まれるＭ個の単語のいずれに対応付けるかを示す第１の情報を生成し、前記位置群から選ばれたＮ個の位置の組み合わせごとに、各組み合わせに含まれるＮ個の位置それぞれを、前記第２の単語列に含まれるＮ個の単語のいずれに対応付けるかを示す第２の情報を生成し、前記第１の情報および前記第２の情報の複数のペアのそれぞれについて、位置ごとに、前記第１の単語列に含まれる、該位置に対応付けられた単語と、前記第２の単語列に含まれる、該位置に対応付けられた単語とを比較して、前記複数のペアより、単語が一致する位置の数が基準を満たす第１の情報および第２の情報のペアを特定し、特定した前記ペアに基づき、前記第１の単語列に含まれるＭ個の単語のうち、単語が一致する前記位置以外の位置に対応付けられた単語を、前記第２の単語列に含まれるＮ個の単語のうち、単語が一致する前記位置以外の位置に対応付けられた単語に対応付けて記憶部に記憶する、処理方法が提供される。

【発明の効果】

【0008】

本発明の一側面によれば、異なる単語間の対応付けの精度を高めることができる。

【図面の簡単な説明】

【0009】

【図1】図１は、実施の形態にかかる処理方法の一実施例を示す説明図である。

【図2】図２は、システム２００のシステム構成例を示す説明図である。

【図3】図３は、情報処理装置１０１のハードウェア構成例を示すブロック図である。

【図4】図４は、インシデントＤＢ２２０の記憶内容の一例を示す説明図である。

【図5】図５は、表記ゆれ辞書２３０の記憶内容の一例を示す説明図である。

【図6】図６は、情報処理装置１０１の機能的構成例を示すブロック図である。

【図7】図７は、文章の分割例を示す説明図である。

【図8】図８は、第１の情報の具体例を示す説明図である。

【図9】図９は、第２の情報の具体例を示す説明図である。

【図10A】図１０Ａは、一致スコアの算出例を示す説明図（その１）である。

【図10B】図１０Ｂは、一致スコアの算出例を示す説明図（その２）である。

【図10C】図１０Ｃは、一致スコアの算出例を示す説明図（その３）である。

【図11】図１１は、不一致部分の抽出例を示す説明図である。

【図12】図１２は、目的語と述語との関係にある単語の組み合わせの抽出例を示す説明図である。

【図13】図１３は、左右両側の単語が一致する単語の組み合わせの抽出例を示す説明図である。

【図14】図１４は、表記ゆれ候補テーブル１４００の記憶内容の一例を示す説明図である。

【図15】図１５は、単文の具体例を示す説明図である。

【図16】図１６は、表記ゆれ確認画面１６００の画面例を示す説明図である。

【図17】図１７は、情報処理装置１０１の表記ゆれ候補抽出処理手順の一例を示すフローチャート（その１）である。

【図18】図１８は、情報処理装置１０１の表記ゆれ候補抽出処理手順の一例を示すフローチャート（その２）である。

【図19】図１９は、情報処理装置１０１の表記ゆれ登録処理手順の一例を示すフローチャートである。

【図20】図２０は、スコア算出処理の具体的処理手順の一例を示すフローチャートである。

【図21】図２１は、スコア算出処理の動作イメージを示す説明図である。

【発明を実施するための形態】

【0010】

以下に図面を参照して、本発明にかかる処理方法、処理プログラムおよび情報処理装置の実施の形態を詳細に説明する。

【0011】

（実施の形態）
図１は、実施の形態にかかる処理方法の一実施例を示す説明図である。図１において、情報処理装置１０１は、異なる単語間の対応付けを行うコンピュータである。ここで、異なる単語の組み合わせは、例えば、表記が異なるが同じ意味を表す単語の組み合わせ、すなわち、表記ゆれの候補となる単語の組み合わせである。

【0012】

文章の類似判別を行うにあたり、表記ゆれがあると、同じ意味の文章であるか否かを判断することが難しくなる。例えば、「３６５日連続で稼働しても問題ありません」と「長期間起動させても問題は発生しません」とは、同じような意味の文章であるが、ほとんどの単語が一致しない。

【0013】

この場合、このままの状態ではコンピュータが同じ意味の文章であると判断することは難しいが、「３６５日」と「長期間」などの表記ゆれを統一した文章同士を比較することができれば、文章の類似判別の精度を向上させることができる。すなわち、文章の類似判別を行うにあたり、表記ゆれとなる単語の組み合わせを辞書等に登録しておくことは重要である。

【0014】

例えば、インシデント管理システムにおいて、インシデントに関する文章の表記ゆれを統一することができれば、クラスタリングによって類似するインシデントをまとめることができる。そして、問い合わせの件数が多いインシデントを把握できれば、ＦＡＱを作成したり、機能を修正したりして、問い合わせ件数の削減につなげることができる。

【0015】

なお、文章中の表記ゆれを判断するにあたり、既存の類義語辞書を利用することが考えられる。しかしながら、既存の類義語辞書では、システム固有の言葉には対応することができない。また、人手により、システムにおいて特徴的な表記ゆれを探して、類義語辞書に登録することも考えられるが、手間や時間がかかる。

【0016】

そこで、本実施の形態では、表記が異なるが同じ意味を表すような、異なる単語間の対応付けの精度を高める処理方法について説明する。以下、情報処理装置１０１の処理例について説明する。

【0017】

（１）情報処理装置１０１は、Ｍ個の単語を含む第１の単語列と、Ｎ個の単語を含む第２の単語列とを取得する。Ｍ，Ｎは、自然数である。ここで、第１の単語列および第２の単語列は、それぞれ文を構成する一連の単語である。例えば、第１の単語列と第２の単語列とは、意味が同じ異なる文の組み合わせである。

【0018】

図１の例では、第１の単語列として、４個の単語を含む「ＡＢＣＤ」が取得され、第２の単語列として、４個の単語を含む「ＢＦＣＥ」が取得された場合を想定する。ただし、Ａ，Ｂ，Ｃ，Ｄ，Ｅ，Ｆは、それぞれ単語を示す。第１の単語列「ＡＢＣＤ」と第２の単語列「ＢＦＣＥ」は、意味が同じ異なる文の組み合わせとする。

【0019】

（２）情報処理装置１０１は、複数の位置を含む位置群から選ばれたＭ個の位置の組み合わせごとに、各組み合わせに含まれるＭ個の位置それぞれを、第１の単語列に含まれるＭ個の単語のいずれに対応付けるかを示す第１の情報を生成する。また、情報処理装置１０１は、複数の位置を含む位置群から選ばれたＮ個の位置の組み合わせごとに、各組み合わせに含まれるＮ個の位置それぞれを、第２の単語列に含まれるＮ個の単語のいずれに対応付けるかを示す第２の情報を生成する。

【0020】

ここで、複数の位置は順序付けられており、第１の単語列に含まれる単語のうち、第１の単語に対応付けられる位置の順序は、第１の単語よりも後に出現するいずれの単語に対応付けられる位置の順序よりも若いものとする。また、第２の単語列に含まれる単語のうち、第２の単語に対応付けられる位置の順序は、第２の単語よりも後に出現するいずれの単語に対応付けられる位置の順序よりも若いものとする。

【0021】

また、位置群に含まれる位置の数は、任意に設定可能であり、例えば、（Ｍ＋Ｎ）に設定される。図１の例では、第１の単語列に含まれる単語の数は「Ｍ＝４」である。また、第２の単語列に含まれる単語の数は「Ｎ＝４」である。このため、位置群に含まれる位置の数は、「８」となる。

【0022】

この場合、情報処理装置１０１は、位置群１～８から選ばれた４個（Ｍ＝４）の位置の組み合わせごとに、各組み合わせに含まれる４個の位置それぞれを、第１の単語列「ＡＢＣＤ」に含まれる４個の単語のいずれに対応付けるかを示す第１の情報を生成する。

【0023】

一例として、位置群１～８から選ばれた４個（Ｍ＝４）の位置の組み合わせを「１，２，３，４」とする。この場合、情報処理装置１０１は、位置１を単語Ａに、位置２を単語Ｂに、位置３を単語Ｃに、位置４を単語Ｄに対応付けたことを示す第１の情報１１１を生成する。また、位置群１～８から選ばれた４個（Ｍ＝４）の位置の組み合わせを「１，２，４，５」とする。この場合、情報処理装置１０１は、位置１を単語Ａに、位置２を単語Ｂに、位置４を単語Ｃに、位置５を単語Ｄに対応付けたことを示す第１の情報１１２を生成する。

【0024】

すなわち、第１の情報を生成することは、文（第１の単語列）中の単語の並び（順序）は維持しつつ、単語の出現位置を変化させた単語列を生成することに相当する。

【0025】

また、情報処理装置１０１は、位置群１～８から選ばれた４個（Ｎ＝４）の位置の組み合わせごとに、各組み合わせに含まれる４個の位置それぞれを、第２の単語列「ＢＦＣＥ」に含まれる４個の単語のいずれに対応付けるかを示す第２の情報を生成する。

【0026】

一例として、位置群１～８から選ばれた４個（Ｎ＝４）の位置の組み合わせを「１，２，３，４」とする。この場合、情報処理装置１０１は、位置１を単語Ｂに、位置２を単語Ｆに、位置３を単語Ｃに、位置４を単語Ｅに対応付けることを示す第２の情報１１３を生成する。また、位置群１～８から選ばれた４個（Ｎ＝４）の位置の組み合わせを「２，３，４，５」とする。この場合、情報処理装置１０１は、位置２を単語Ｂに、位置３を単語Ｆに、位置４を単語Ｃに、位置５を単語Ｅに対応付けることを示す第２の情報１１４を生成する。

【0027】

すなわち、第２の情報を生成することは、文（第２の単語列）中の単語の並び（順序）は維持しつつ、単語の出現位置を変化させた単語列を生成することに相当する。

【0028】

（３）情報処理装置１０１は、第１の情報および第２の情報の複数のペアのそれぞれについて、位置ごとに、第１の単語列に含まれる、該位置に対応付けられた単語と、第２の単語列に含まれる、該位置に対応付けられた単語とを比較する。そして、情報処理装置１０１は、第１の情報および第２の情報の複数のペアより、単語が一致する位置の数が基準を満たす第１の情報および第２の情報のペアを特定する。ただし、同じ位置に比較する相手が存在しない場合を許容する。この場合、単語が一致しないとする。

【0029】

ここで、単語が一致する位置の数に関する基準は、任意に設定可能である。具体的には、例えば、情報処理装置１０１は、単語が一致する位置の数が最大の第１の情報および第２の情報のペアを特定してもよい。また、情報処理装置１０１は、単語が一致する位置の数が閾値以上の第１の情報および第２の情報のペアを特定してもよい。

【0030】

図１の例では、単語が一致する位置の数が最大の第１の情報および第２の情報のペアを特定する場合を想定する。ここで、第１の情報１１１および第２の情報１１３のペアについて、位置ごとに単語を比較すると、単語が一致する位置の数は「１」となる。第１の情報１１１および第２の情報１１４のペアについて、位置ごとに単語を比較すると、単語が一致する位置の数は「１」となる。第１の情報１１２および第２の情報１１３のペアについて、位置ごとに単語を比較すると、単語が一致する位置の数は「０」となる。第１の情報１１２および第２の情報１１４のペアについて、位置ごとに単語を比較すると、単語が一致する位置の数は「２」となる。この場合、情報処理装置１０１は、単語が一致する位置の数が最大の第１の情報１１２および第２の情報１１４のペアを特定する。

【0031】

（４）情報処理装置１０１は、特定したペアに基づき、第１の単語列に含まれるＭ個の単語のうち、単語が一致する位置以外の位置に対応付けられた単語を、第２の単語列に含まれるＮ個の単語のうち、単語が一致する位置以外の位置に対応付けられた単語に対応付けて記憶部１１０に記憶する。

【0032】

ここで、記憶部１１０に記憶される単語の組み合わせは、例えば、表記ゆれの候補となる単語の組み合わせである。具体的には、例えば、情報処理装置１０１は、第１の単語列に含まれるＭ個の単語のうち、単語が一致する位置以外の第１の位置に対応付けられた単語を、第２の単語列に含まれるＮ個の単語のうち、第１の位置に対応付けられた単語に対応付けて記憶部１１０に記憶してもよい。

【0033】

図１の例では、情報処理装置１０１は、第１の情報１１２および第２の情報１１４のペアに基づき、第１の単語列「ＡＢＣＤ」のうち、単語が一致する位置以外の位置に対応付けられた単語を、第２の単語列「ＢＦＣＥ」のうち、単語が一致する位置以外の位置に対応付けられた単語に対応付けて記憶部１１０に記憶する。

【0034】

例えば、情報処理装置１０１は、第１の単語列「ＡＢＣＤ」のうち、単語が一致しない位置５に対応付けられた単語「Ｄ」を、第２の単語列「ＢＦＣＥ」のうち、単語が一致しない位置５に対応付けられた単語「Ｅ」に対応付けて記憶部１１０に記憶する。すなわち、情報処理装置１０１は、単語「Ｄ」と単語「Ｅ」との組み合わせを、表記ゆれの候補として登録する。

【0035】

このように、情報処理装置１０１によれば、表記が異なるが同じ意味を表すような、異なる単語間の対応付けの精度を高めることができる。具体的には、例えば、情報処理装置１０１は、各文（第１の単語列、第２の単語列）中の単語の順序を変更しないで、単語の位置を変化させることで、文間で一致する部分を適切に除いて、不一致部分を抽出することができる。このため、表記ゆれ候補となる単語の組み合わせを精度よく抽出することができる。

【0036】

図１の例では、単語「Ｄ」と単語「Ｅ」との組み合わせは、意味が同じ異なる文間で、より多くの一致する部分を除いて得られた、不一致の単語の組み合わせである。したがって、単語「Ｄ」と単語「Ｅ」との組み合わせは、同じ意味のものである可能性が高く、表記ゆれ候補として精度の高いものといえる。

【0037】

なお、文中の単語の順序を入れ替えてしまうと、文の意味が変わってしまうおそれがある。一方、本処理方法では、各単語列（第１の単語列、第２の単語列）における単語の並び（単語の順序）は維持しつつ、単語の位置を変化させるため、各単語列の意味が変わってしまうことはない。

【0038】

（システム２００のシステム構成例）
つぎに、図１に示した情報処理装置１０１を含むシステム２００のシステム構成例について説明する。システム２００は、表記ゆれ辞書の作成を支援するコンピュータシステムである。システム２００は、例えば、インシデントを管理するインシデント管理システムに適用される。

【0039】

図２は、システム２００のシステム構成例を示す説明図である。図２において、システム２００は、情報処理装置１０１と、クライアント装置２０１と、を含む。システム２００において、情報処理装置１０１およびクライアント装置２０１は、有線または無線のネットワーク２１０を介して接続される。ネットワーク２１０は、例えば、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、インターネットなどである。

【0040】

ここで、情報処理装置１０１は、インシデントＤＢ（Ｄａｔａｂａｓｅ）２２０および表記ゆれ辞書２３０を有する。情報処理装置１０１は、例えば、インシデント管理システムのサーバーである。インシデントＤＢ２２０および表記ゆれ辞書２３０の記憶内容については、図４および図５を用いて後述する。

【0041】

クライアント装置２０１は、システム２００のユーザが使用するコンピュータである。システム２００のユーザは、例えば、インシデント管理システムの管理者である。クライアント装置２０１は、例えば、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、タブレット型ＰＣなどである。

【0042】

なお、上述した説明では、情報処理装置１０１とクライアント装置２０１とが別体に設けられることにしたが、これに限らない。例えば、情報処理装置１０１は、クライアント装置２０１により実現されることにしてもよい。

【0043】

（情報処理装置１０１のハードウェア構成例）
図３は、情報処理装置１０１のハードウェア構成例を示すブロック図である。図３において、情報処理装置１０１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３０１と、メモリ３０２と、ディスクドライブ３０３と、ディスク３０４と、通信Ｉ／Ｆ（Ｉｎｔｅｒｆａｃｅ）３０５と、可搬型記録媒体Ｉ／Ｆ３０６と、可搬型記録媒体３０７と、を有する。また、各構成部は、バス３００によってそれぞれ接続される。

【0044】

ここで、ＣＰＵ３０１は、情報処理装置１０１の全体の制御を司る。ＣＰＵ３０１は、複数のコアを有していてもよい。メモリ３０２は、例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）およびフラッシュＲＯＭなどを有する。具体的には、例えば、フラッシュＲＯＭがＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）のプログラムを記憶し、ＲＯＭがアプリケーションプログラムを記憶し、ＲＡＭがＣＰＵ３０１のワークエリアとして使用される。メモリ３０２に記憶されるプログラムは、ＣＰＵ３０１にロードされることで、コーディングされている処理をＣＰＵ３０１に実行させる。

【0045】

ディスクドライブ３０３は、ＣＰＵ３０１の制御に従ってディスク３０４に対するデータのリード／ライトを制御する。ディスク３０４は、ディスクドライブ３０３の制御で書き込まれたデータを記憶する。ディスク３０４としては、例えば、磁気ディスク、光ディスクなどが挙げられる。

【0046】

通信Ｉ／Ｆ３０５は、通信回線を通じてネットワーク２１０に接続され、ネットワーク２１０を介して外部のコンピュータ（例えば、図２に示したクライアント装置２０１）に接続される。そして、通信Ｉ／Ｆ３０５は、ネットワーク２１０と装置内部とのインターフェースを司り、外部のコンピュータからのデータの入出力を制御する。通信Ｉ／Ｆ３０５には、例えば、モデムやＬＡＮアダプタなどを採用することができる。

【0047】

可搬型記録媒体Ｉ／Ｆ３０６は、ＣＰＵ３０１の制御に従って可搬型記録媒体３０７に対するデータのリード／ライトを制御する。可搬型記録媒体３０７は、可搬型記録媒体Ｉ／Ｆ３０６の制御で書き込まれたデータを記憶する。可搬型記録媒体３０７としては、例えば、ＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）－ＲＯＭ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリなどが挙げられる。

【0048】

なお、情報処理装置１０１は、上述した構成部のほかに、例えば、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、入力装置、ディスプレイ等を有することにしてもよい。また、情報処理装置１０１は、上述した構成部のうち、例えば、ディスクドライブ３０３、ディスク３０４、可搬型記録媒体Ｉ／Ｆ３０６、可搬型記録媒体３０７を有していなくてもよい。また、図２に示したクライアント装置２０１についても、情報処理装置１０１と同様のハードウェア構成により実現することができる。ただし、クライアント装置２０１は、上述した構成部のほかに、入力装置、ディスプレイを有する。

【0049】

（インシデントＤＢ２２０の記憶内容）
つぎに、情報処理装置１０１が有するインシデントＤＢ２２０の記憶内容について説明する。インシデントＤＢ２２０は、例えば、図３に示した情報処理装置１０１のメモリ３０２、ディスク３０４等の記憶装置により実現される。

【0050】

図４は、インシデントＤＢ２２０の記憶内容の一例を示す説明図である。図４において、インシデントＤＢ２２０は、インシデントＩＤ、Ｑｕｅｓｔｉｏｎ、ＡｎｓｗｅｒおよびＲｅｌａｔｉｏｎのフィールドを有し、各フィールドに情報を設定することで、インシデントデータ（例えば、インシデントデータ４００－１～４００－５）をレコードとして記憶する。

【0051】

ここで、インシデントＩＤは、インシデントを一意に識別する識別子である。インシデントは、例えば、コンピュータやネットワークの不具合を引き起こす事象や、セキュリティを脅かす事象などである。Ｑｕｅｓｔｉｏｎは、インシデントに関する質問（問い合わせ）を示す。Ａｎｓｗｅｒは、質問に対する回答を示す。

【0052】

ＱｕｅｓｔｉｏｎおよびＡｎｓｗｅｒは、例えば、ユーザとオペレータとの間でメールやチャットでやり取りされた質問や回答である。Ｒｅｌａｔｉｏｎは、関連するインシデントデータを紐付ける情報である。関連するインシデントデータとは、インシデントの内容が同じあるいは類似するインシデントデータである。Ｒｅｌａｔｉｏｎによれば、同じ意味の文章（質問、回答）を特定することができる。

【0053】

例えば、オペレータが、インシデントＡの質問に対して回答するにあたり、過去のインシデントＢの情報を引用することがある。この場合、インシデントＡのインシデントデータと、インシデントＢのインシデントデータとを紐付ける情報（Ｒｅｌａｔｉｏｎ）が登録される。また、同じ時間帯に問い合わせがあったものは、同じ事象についての問い合わせである可能性がある。このため、同じ時間帯に問い合わせがあったインシデントデータ同士を紐付けることにしてもよい。

【0054】

例えば、インシデントデータ４００－５は、インシデントＩＤ「ＩＮＣ＿０００５」のインシデントに関する質問「長期にわたる連続稼働を・・・」および回答「稼働テストで、３６５日連続で・・・」を示す。また、インシデントデータ４００－５は、インシデントＩＤ「ＩＮＣ＿０００１」のインシデントデータ４００－１と関連することを示す。

【0055】

なお、インシデントＤＢ２２０に記憶されるインシデントデータは、例えば、インシデント管理システムにおいて管理される情報である。

【0056】

（表記ゆれ辞書２３０の記憶内容）
つぎに、情報処理装置１０１が有する表記ゆれ辞書２３０の記憶内容について説明する。表記ゆれ辞書２３０は、例えば、図３に示した情報処理装置１０１のメモリ３０２、ディスク３０４等の記憶装置により実現される。

【0057】

図５は、表記ゆれ辞書２３０の記憶内容の一例を示す説明図である。図５において、表記ゆれ辞書２３０は、単語テーブル５１０と、類義語クラステーブル５２０とを含む。単語テーブル５１０は、単語ＩＤ、単語およびクラスＩＤのフィールドを有し、各フィールドに情報を設定することで、単語情報（例えば、単語情報５１０－１～５１０－４）をレコードとして記憶する。

【0058】

ここで、単語ＩＤは、単語を一意に識別する識別子である。単語は、単語ＩＤに対応する単語である。クラスＩＤは、単語ＩＤに対応する単語が属する類義語クラスを一意に識別する識別子である。類義語クラスは、語形は異なっているが、意味が似通っている単語、すなわち、表記ゆれの単語が属するクラスである。

【0059】

類義語クラステーブル５２０は、クラスＩＤを記憶する。例えば、類義語クラステーブル５２０内のいずれかのクラスＩＤを指定することで、単語テーブル５１０から、指定されたクラスＩＤに対応する単語の組み合わせを、表記ゆれの単語の組み合わせとして抽出することができる。

【0060】

（情報処理装置１０１の機能的構成例）
図６は、情報処理装置１０１の機能的構成例を示すブロック図である。図６において、情報処理装置１０１は、取得部６０１と、分割部６０２と、第１の特定部６０３と、第２の特定部６０４と、抽出部６０５と、登録部６０６と、出力部６０７と、記憶部６１０と、を含む。具体的には、例えば、取得部６０１～出力部６０７は、図３に示したメモリ３０２、ディスク３０４、可搬型記録媒体３０７などの記憶装置に記憶されたプログラムをＣＰＵ３０１に実行させることにより、または、通信Ｉ／Ｆ３０５により、その機能を実現する。各機能部の処理結果は、例えば、メモリ３０２、ディスク３０４などの記憶装置に記憶される。また、記憶部６１０は、例えば、メモリ３０２、ディスク３０４などの記憶装置により実現される。例えば、記憶部６１０は、後述の図１４に示すような表記ゆれ候補テーブル１４００を記憶する。

【0061】

取得部６０１は、処理対象の複数の文章を取得する。ここで、処理対象の複数の文章は、表記ゆれ候補となる単語の組み合わせを抽出する抽出元の文章である。処理対象の複数の文章は、例えば、文章同士は一致していないものの、同じ意味を表す複数の文章である。

【0062】

具体的には、例えば、取得部６０１は、図４に示したインシデントＤＢ２２０から、関連するインシデントデータ、すなわち、Ｒｅｌａｔｉｏｎにより紐付けされたインシデントデータを取得する。そして、取得部６０１は、取得したインシデントデータそれぞれのＱｕｅｓｔｉｏｎおよびＡｎｓｗｅｒを、一つの文章としてそれぞれ取得する。

【0063】

一例として、インシデントデータ４００－５のＲｅｌａｔｉｏｎ「ＩＮＣ＿０００１」により紐付けされたインシデントデータ４００－１，４００－５が取得されたとする。この場合、取得部６０１は、インシデントデータ４００－１のＱｕｅｓｔｉｏｎおよびＡｎｓｗｅｒを含む文章「数週間停止せずに連続で稼働させても問題ないでしょうか？稼働テストで、３６５日連続で稼働しても問題ないことを確認しています。」を取得する。また、取得部６０１は、インシデントデータ４００－５のＱｕｅｓｔｉｏｎおよびＡｎｓｗｅｒを含む文章「長期にわたる連続稼働を計画していますが、問題ないでしょうか？稼働テストで、３６５日連続で稼働しても問題ないことを確認しています。それ以下であれば、問題はありません。」を取得する。

【0064】

これにより、意味が同じと推定される複数の文章を、処理対象の文章として取得することができる。なお、取得部６０１は、例えば、不図示の入力装置を用いたユーザの操作入力により、または、外部のコンピュータ（例えば、図２に示したクライアント装置２０１）から受信することにより、処理対象の複数の文章を取得することにしてもよい。

【0065】

分割部６０２は、取得された複数の文章それぞれを単文に分割する。ここで、単文は、主語・述語の関係が１回だけで成り立っている文である。具体的には、例えば、分割部６０２は、取得された文章に自然言語処理（形態素解析、係り受け解析など）を施して、係り受け関係にある形態素をまとめたものを単文として分割する。この際、分割部６０２は、複数にかかる形態素は、一つの単文として分割することにしてもよい。

【0066】

ここで、図７を用いて、文章の分割例について説明する。ここでは、文章として、質問（Ｑｕｅｓｔｉｏｎ）を例に挙げて説明する。

【0067】

図７は、文章の分割例を示す説明図である。図７において、処理対象の文章７１０，７２０，７３０が示されている。この場合、分割部６０２は、各文章７１０，７２０，７３０を単文に分割する。ここでは、文章７１０が、単文７１１と、単文７１２と、単文７１３と、単文７１４とに分割されている。また、文章７２０が、単文７２１と、単文７２２と、単文７２３とに分割されている。また、文章７３０が、単文７３１と、単文７３２と、単文７３３とに分割されている。

【0068】

図６の説明に戻り、第１の特定部６０３は、複数の文章それぞれから分割された単文のうち、意味が類似する単文の組み合わせを特定する。ただし、第１の特定部６０３は、異なる文章から分割された単文の組み合わせを特定する。すなわち、第１の特定部６０３は、同じ文章に含まれる単文同士の組み合わせではなく、異なる文章にそれぞれ含まれる単文の組み合わせを特定する。

【0069】

以下の説明では、処理対象の複数の文章から選ばれた２つの文章を「文章Ａ」と「文章Ｂ」と表記する場合がある。また、文章Ａに含まれる単文を「｛Ａ１，Ａ２，…｝」と表記し、文章Ｂに含まれる単文を「｛Ｂ１，Ｂ２，…｝」と表記する場合がある。また、文章Ａに含まれる任意の単文を「単文Ａｉ」と表記し（ｉ＝１，２，…）、文章Ｂに含まれる任意の単文を「単文Ｂｊ」と表記する場合がある（ｊ＝１，２，…）。

【0070】

具体的には、例えば、第１の特定部６０３は、構文解析などを用いて、文章Ａから分割された各単文Ａｉと、文章Ｂから分割された各単文Ｂｊとをそれぞれ単語に分割する。これにより、各単文Ａｉ，Ｂｊは、単語を順に並べた単語列となる。

【0071】

なお、どのような単位を単語として分割するかは任意に設定可能である。例えば、単語は、形態素単位でもよい。また、意味的に連続する語を一単語として分割してもよい。例えば、「し」、「まし」、「た」という意味的に連続する語を、「しました」という一単語として分割することにしてもよい。

【0072】

以下の説明では、単文Ａｉの単語列を｛ａ_i,1，ａ_i,2，…，ａ_i,M｝と表記し、単文Ｂｊの単語列を｛ｂ_j,1，ｂ_j,2，…，ｂ_j,N｝と表記する場合がある（Ｍ，Ｎは、自然数）。

【0073】

つぎに、第１の特定部６０３は、単語が１つ以上一致する全ての単文Ａｉと単文Ｂｊとの組み合わせについて、単語レベルの編集距離ｌ_Ai,Bjを算出する。ただし、句読点は、無視することにしてもよい。ここで、編集距離ｌ_Ai,Bjは、単文Ａｉと単文Ｂｊとがどの程度異なっているかを示す距離である。

【0074】

編集距離ｌ_Ai,Bjは、例えば、１単語の挿入・削除・置換によって、一方の単文を他方の単文に変形するのに必要な手順の最小回数として定義される。例えば、単文Ａｉを「○×△□」とし、単文Ｂｊを「●×△■」とする。ただし、○，×，△，□，●，■は、それぞれ単語を示す記号とする。この場合、単文Ｂｊの●を○に置換し、単文Ｂｊの■を□に置換すると、単文Ａｉと一致するため、編集距離ｌ_Ai,Bjは「２」となる。

【0075】

具体的には、例えば、図７に示した文章７１０を文章Ａとし、文章７２０を文章Ｂとする。この場合、文章７１０に含まれる単文７１１は、文章７２０に含まれる単文７２１と単語が１つ以上一致する。より詳細に説明すると、「／」で単語を区切ると、単文７１１は、「ＶＭ／の／起動／リクエスト／を／送信／し／まし／た／。」の単語列となる。単文７２１は、「サーバー／の／起動／ＡＰＩ／を／実行／し／た／ところ／、」の単語列となる。単文７１１は、例えば、「起動」という単語が、単文７２１と一致する。このため、第１の特定部６０３は、単文７１１と単文７２１とについて編集距離を算出する。

【0076】

なお、編集距離ｌ_Ai,Bjを算出するにあたり、単文Ａｉ，Ｂｊ間で連続する語が一致する場合には、編集距離ｌ_Ai,Bjが短くなるように重み付けすることにしてもよい。例えば、図７に示した文章７２０を文章Ａとし、文章７３０を文章Ｂとする。この場合、文章７２０に含まれる単文７２１は、文章７３０に含まれる単文７３２と、３つの連続する語「起動／ＡＰＩ／を」が一致する。この場合、第１の特定部６０３は、例えば、３つの連続する語「起動／ＡＰＩ／を」を、１つの単語として扱って、単文７２１，７３２間の編集距離を算出することにしてもよい。これにより、連続する語の一致を重要視して、単文Ａｉ，Ｂｊ間の編集距離ｌ_Ai,Bjを算出することができる。

【0077】

そして、第１の特定部６０３は、算出した算出結果に基づいて、各単文Ａｉについて、編集距離ｌ_Ai,Bjが最小となる単文Ｂｊを特定する。これにより、意味が類似する単文Ａｉと単文Ｂｊとの組み合わせを特定することができる。

【0078】

なお、第１の特定部６０３は、各単文Ａｉについて、編集距離ｌ_Ai,Bjが最小となる単文Ｂｊを特定するにあたり、編集距離ｌ_Ai,Bjが少なくとも閾値ｌ_TH以下となる単文Ｂｊを特定することにしてもよい。閾値ｌ_THは、任意に設定可能である。これにより、意味が類似していない単文の組み合わせが特定されるのを防ぐことができる。

【0079】

また、単文Ａｉについて、編集距離ｌ_Ai,Bjが最小となる単文Ｂが複数存在する場合がある。この場合、どの組み合わせが確からしいかを区別できない。このため、第１の特定部６０３は、単文Ａｉについて、編集距離ｌ_Ai,Bjが最小となるいずれの単文Ｂとの組み合わせも採用しないことにしてもよい。

【0080】

図７に示した例では、文章７１０を文章Ａとし、文章７２０を文章Ｂとすると、意味が類似する単文の組み合わせとして、単文７１１と単文７２１との組み合わせ、単文７１３と単文７２２との組み合わせ、および、単文７１４と単文７２３との組み合わせが特定される。単文７１２については、一致する単語がないため（句読点を除く）、単文の組み合わせは特定されない。

【0081】

また、文章７２０を文章Ａとし、文章７３０を文章Ｂとすると、意味が類似する単文の組み合わせとして、単文７２１と単文７３２との組み合わせ、および、単文７２３と単文７３１との組み合わせが特定される。また、文章７１０を文章Ａとし、文章７３０を文章Ｂとすると、意味が類似する単文の組み合わせとして、単文７１３と単文７３３との組み合わせが特定される。

【0082】

以下の説明では、単文Ａｉについて、編集距離ｌ_Ai,Bjが最小となる単文Ｂｊを「単文Ｂ_Ai__min」と表記する場合がある。また、単文Ａｉと単文Ｂ_Ai__minとの組み合わせを「単文ペアＰｉ」と表記する場合がある。また、単文ペアＰｉを「Ｐｉ＝｛Ａｉ，Ｂ_Ai__min｝＝｛｛ａ_j,1，ａ_j,2，…，ａ_j,N｝，｛ｂ_i__min,1，ｂ_i__min,2，…，ｂ_i__min,N｝｝」と表記する場合がある。

【0083】

第２の特定部６０４は、単文ペアＰｉについて、単文Ａｉ，Ｂ_Ai__min間で、単語が一致する位置の数が基準を満たす単語の組み合わせを特定する。ここで、単語の組み合わせとは、単文Ａｉ，Ｂ_Ai__min間の位置ごとの単語の組み合わせである。ただし、各単文Ａｉ，Ｂ_Ai__min中の単語の順序は変更しないものとする。

【0084】

具体的には、例えば、第２の特定部６０４は、各単文Ａｉ，Ｂ_Ai__minに空文字を挿入することで、各単文Ａｉ，Ｂ_Ai__min中の単語の順序を変更しないで、単語の位置を変化させて、単文Ａｉ，Ｂ_Ai__min間の位置ごとに、どれだけ単語が一致するかを調べる。空文字は、１つの単語に相当する。

【0085】

ここで、第２の特定部６０４は、単語列取得部６１１と、生成部６１２と、算出部６１３と、を含む。

【0086】

単語列取得部６１１は、Ｍ個の単語を含む第１の単語列と、Ｎ個の単語を含む第２の単語列とを取得する。ここで、Ｍ個の単語を含む第１の単語列は、例えば、単文ペアＰｉのうちの単文Ａｉの単語列である。また、Ｎ個の単語を含む第２の単語列は、例えば、単文ペアＰｉのうちの単文Ｂ_Ai__minの単語列である。

【0087】

なお、単語列取得部６１１は、例えば、不図示の入力装置を用いたユーザの操作入力により、または、外部のコンピュータ（例えば、図２に示したクライアント装置２０１）から受信することにより、Ｍ個の単語を含む第１の単語列と、Ｎ個の単語を含む第２の単語列とを取得することにしてもよい。

【0088】

生成部６１２は、複数の位置を含む位置群から選ばれたＭ個の位置の組み合わせごとに、各組み合わせに含まれるＭ個の位置それぞれを、取得された第１の単語列に含まれるＭ個の単語のいずれに対応付けるかを示す第１の情報を生成する。また、生成部６１２は、複数の位置を含む位置群から選ばれたＮ個の位置の組み合わせごとに、各組み合わせに含まれるＮ個の位置それぞれを、取得された第２の単語列に含まれるＮ個の単語のいずれに対応付けるかを示す第２の情報を生成する。

【0089】

ただし、複数の位置は順序付けられており、第１の単語列に含まれる単語のうち、第１の単語に対応付けられる位置の順序は、第１の単語よりも後に出現するいずれの単語に対応付けられる位置の順序よりも若いものとする。また、第２の単語列に含まれる単語のうち、第２の単語に対応付けられる位置の順序は、第２の単語よりも後に出現するいずれの単語に対応付けられる位置の順序よりも若いものとする。

【0090】

位置群に含まれる位置の数は、任意に設定可能であり、例えば、（Ｍ＋Ｎ）に設定される。一例として、第１の単語列に含まれる単語の数を「Ｍ＝３」とし、第２の単語列に含まれる単語の数を「Ｎ＝４」とすると、位置群に含まれる位置の数は「７」となる。

【0091】

この場合、生成部６１２は、位置群１～７から選ばれた３個（Ｍ＝３）の位置の組み合わせごとに、各組み合わせに含まれる３個の位置それぞれを、第１の単語列に含まれる３個の単語のいずれに対応付けるかを示す第１の情報を生成する。

【0092】

より詳細に説明すると、例えば、第１の単語列を単文Ａｉの単語列｛ａ_i,1，ａ_i,2，ａ_i,3｝とし、位置群１～７から選ばれた３個（Ｍ＝３）の位置の組み合わせを｛１，３，５｝とする。この場合、生成部６１２は、位置１を単語ａ_i,1に、位置３を単語ａ_i,2に、位置５を単語ａ_i,3に対応付けたことを示す第１の情報を生成する。

【0093】

ここで、第１の情報の具体例について説明する。

【0094】

図８は、第１の情報の具体例を示す説明図である。図８において、第１の情報８００は、位置群１～７から選ばれた３個（Ｍ＝３）の位置１，３，５それぞれを、単文Ａｉの単語列｛ａ_i,1，ａ_i,2，ａ_i,3｝に含まれる３個の単語のいずれに対応付けるかを示す情報である。

【0095】

第１の情報８００を、空文字を用いた単語列によって表現すると、下記（ｉ）のようになる。ただし、ｅは、空文字を示す。括弧内の数字は、位置を示す。

【0096】

｛ａ_i,1（１），ｅ（２），ａ_i,2（３），ｅ（４），ａ_i,3（５）｝・・・（ｉ）

【0097】

すなわち、第１の情報を生成することは、単文Ａｉに空文字「ｅ」を挿入することで、単文Ａｉ中の単語の順序を変更しないで、単語の位置を変化させた単語列を生成することに相当する。なお、位置群１～７から選ばれる３個（Ｍ＝３）の位置の組み合わせは、３５パターン存在する。この場合、第１の情報は、３５個生成される。

【0098】

また、生成部６１２は、位置群１～７から選ばれた４個（Ｎ＝４）の位置の組み合わせごとに、各組み合わせに含まれる４個の位置それぞれを、第２の単語列に含まれる４個の単語のいずれに対応付けるかを示す第２の情報を生成する。

【0099】

より詳細に説明すると、例えば、第２の単語列を単文Ｂ_Ai__minの単語列｛ｂ_i__min,1，ｂ_i__min,2，ｂ_i__min,3，ｂ_i__min,4｝とし、位置群１～７から選ばれた４個（Ｎ＝４）の位置の組み合わせを｛１，３，５，７｝とする。この場合、生成部６１２は、位置１を単語ｂ_i__min,1に、位置３を単語ｂ_i__min,2に、位置５を単語ｂ_i__min,3に、位置７を単語ｂ_i__min,4に対応付けることを示す第２の情報を生成する。

【0100】

ここで、第２の情報の具体例について説明する。

【0101】

図９は、第２の情報の具体例を示す説明図である。図９において、第２の情報９００は、位置群１～７から選ばれた４個（Ｎ＝４）の位置１，３，５，７それぞれを、単文Ｂ_Ai__minの単語列｛ｂ_i__min,1，ｂ_i__min,2，ｂ_i__min,3，ｂ_i__min,4｝に含まれる４個の単語のいずれに対応付けるかを示す情報である。

【0102】

第２の情報９００を、空文字を用いた単語列によって表現すると、下記（ｉｉ）のようになる。

【0103】

｛ｂ_i__min,1（１），ｅ（２），ｂ_i__min,2（３），ｅ（４），ｂ_i__min,3（５），ｅ（６），ｂ_i__min,4（７）｝・・・（ｉｉ）

【0104】

すなわち、第２の情報を生成することは、単文Ｂ_Ai__minに空文字「ｅ」を挿入することで、単文Ｂ_Ai__min中の単語の順序を変更しないで、単語の位置を変化させた単語列を生成することに相当する。なお、位置群１～７から選ばれる４個（Ｎ＝４）の位置の組み合わせは、３５パターン存在する。この場合、第２の情報は、３５個生成される。

【0105】

算出部６１３は、生成された第１の情報および第２の情報の複数のペアのそれぞれについて、位置ごとに、第１の単語列に含まれる、該位置に対応付けられた単語と、第２の単語列に含まれる、該位置に対応付けられた単語とを比較して、単語が一致する位置の数を算出する。

【0106】

具体的には、例えば、算出部６１３は、第１の情報８００および第２の情報９００のペアについて、位置ごとに、単文Ａｉの単語列に含まれる、該位置に対応付けられた単語と、単文Ｂ_Ai__minの単語列に含まれる、該位置に対応付けられた単語とを比較して、単語が一致する位置の数を算出する。換言すれば、算出部６１３は、上記（ｉ）の単語列と、上記（ｉｉ）の単語列とを、位置ごとに比較して、単語が一致する位置の数を算出する。

【0107】

ここで、第１の情報および第２の情報のペアについて、単語が一致する位置の数の算出例について説明する。以下の説明では、単語が一致する位置の数を「一致スコア」と表記する場合がある。

【0108】

図１０Ａ、図１０Ｂおよび図１０Ｃは、一致スコアの算出例を示す説明図である。図１０Ａにおいて、第１の単語列１００１および第２の単語列１００２は、ペアとなる第１の情報および第２の情報をそれぞれ単語列で表したものである。ただし、括弧内の数字は、単語の位置を示す。また、点線枠は、空文字を示す。算出部６１３は、第１の単語列１００１と第２の単語列１００２とについて、位置ごとに、第１の単語列１００１に含まれる、該位置に対応付けられた単語と、第２の単語列１００２に含まれる、該位置に対応付けられた単語とを比較する。この場合、一致スコアは「２」となる。

【0109】

図１０Ｂにおいて、第１の単語列１００３および第２の単語列１００４は、ペアとなる第１の情報および第２の情報をそれぞれ単語列で表したものである。算出部６１３は、第１の単語列１００３と第２の単語列１００４とについて、位置ごとに、第１の単語列１００３に含まれる、該位置に対応付けられた単語と、第２の単語列１００４に含まれる、該位置に対応付けられた単語とを比較する。この場合、一致スコアは「３」となる。

【0110】

図１０Ｃにおいて、第１の単語列１００５および第２の単語列１００６は、ペアとなる第１の情報および第２の情報をそれぞれ単語列で表したものである。算出部６１３は、第１の単語列１００５と第２の単語列１００６とについて、位置ごとに、第１の単語列１００５に含まれる、該位置に対応付けられた単語と、第２の単語列１００６に含まれる、該位置に対応付けられた単語とを比較する。この場合、一致スコアは「３」となる。

【0111】

図６の説明に戻り、第２の特定部６０４は、第１の情報および第２の情報の複数のペアのそれぞれについて算出された一致スコアに基づいて、第１の情報および第２の情報の複数のペアより、一致スコアが基準を満たす第１の情報および第２の情報のペアを特定する。ここで、一致スコアに関する基準は、任意に設定可能である。

【0112】

具体的には、例えば、第２の特定部６０４は、一致スコアが最大の第１の情報および第２の情報のペアを、一致スコアが基準を満たす第１の情報および第２の情報のペアとして特定する。これにより、単文ペアＰｉについて、単文Ａｉ，Ｂ_Ai__min間で、一致スコアが最大となる単語の組み合わせを特定することができる。

【0113】

また、第２の特定部６０４は、一致スコアが閾値Ｓ_TH以上となる第１の情報および第２の情報のペアを、一致スコアが基準を満たす第１の情報および第２の情報のペアとして特定することにしてもよい。閾値Ｓ_THは、任意に設定可能である。これにより、単文ペアＰｉについて、単文Ａｉ，Ｂ_Ai__min間で、一致スコアが閾値Ｓ_TH以上となる単語の組み合わせを特定することができる。

【0114】

また、第２の特定部６０４は、一致スコアが最大で、かつ、閾値Ｓ_TH以上となる第１の情報および第２の情報のペアを、一致スコアが基準を満たす第１の情報および第２の情報のペアとして特定することにしてもよい。これにより、単文ペアＰｉについて、単文Ａｉ，Ｂ_Ai__min間で、一致スコアが最大かつ閾値Ｓ_TH以上となる単語の組み合わせを特定することができる。

【0115】

抽出部６０５は、特定された第１の情報および第２の情報のペアに基づき、不一致部分を抽出する。ここで、不一致部分とは、第１の単語列に含まれるＭ個の単語のうち、単語が一致する位置以外の位置に対応付けられた単語と、第２の単語列に含まれるＮ個の単語のうち、単語が一致する位置以外の位置に対応付けられた単語との組み合わせである。不一致部分は、表記ゆれの候補となる単語の組み合わせに相当する。

【0116】

具体的には、例えば、抽出部６０５は、第１の単語列に含まれるＭ個の単語のうち、単語が一致する位置以外の第１の位置に対応付けられた単語と、第２の単語列に含まれるＮ個の単語のうち、第１の位置に対応付けられた単語との組み合わせを、不一致部分（不一致の単語ペア）として抽出する。

【0117】

ただし、不一致部分は、一単語と一単語との組み合わせであってもよく、一単語と複数の単語との組み合わせであってもよく、複数の単語と複数の単語との組み合わせであってもよい。ここで、不一致部分の抽出例について説明する。

【0118】

図１１は、不一致部分の抽出例を示す説明図である。図１１において、単文ペア１１１０，１１２０，１１３０は、一致スコアが基準を満たす第１の情報および第２の情報のペアのそれぞれを単語列で表したものである。

【0119】

単文ペア１１１０は、第１の単語列１１１１と第２の単語列１１１２との組み合わせである。単文ペア１１１０について、位置ごとに単語を比較すると、第１の単語列１１１１の「の」、「起動」、「を」および「し」が、第２の単語列１１１２の「の」、「起動」、「を」および「し」とそれぞれ一致する。

【0120】

この場合、例えば、抽出部６０５は、第１の単語列１１１１の位置１に対応付けられた「ＶＭ」と、第２の単語列１１１２の位置１に対応付けられた「サーバー」との組み合わせを、不一致部分として抽出する。また、抽出部６０５は、第１の単語列１１１１の位置４に対応付けられた「リクエスト」と、第２の単語列１１１２の位置４に対応付けられた「ＡＰＩ」との組み合わせを、不一致部分として抽出する。また、抽出部６０５は、第１の単語列１１１１の位置６に対応付けられた「送信」と、第２の単語列１１１２の位置６に対応付けられた「実行」との組み合わせを、不一致部分として抽出する。

【0121】

また、抽出部６０５は、平仮名だけの単語と単語との組み合わせは抽出しないことにしてもよい。例えば、抽出部６０５は、第１の単語列１１１１の位置８に対応付けられた「まし」と、第２の単語列１１１２の位置８に対応付けられた「た」との組み合わせは、平仮名だけのため抽出しない。また、抽出部６０５は、第１の単語列１１１１の位置９に対応付けられた「た」と、第２の単語列１１１２の位置９に対応付けられた「ところ」との組み合わせは、平仮名だけのため抽出しない。これにより、表記ゆれの候補である可能性が低い単語の組み合わせが抽出されるのを防ぐことができる。

【0122】

つぎに、単文ペア１１２０は、第１の単語列１１２１と第２の単語列１１２２との組み合わせである。単文ペア１１２０について、位置ごとに単語を比較すると、第１の単語列１１２１の「起動」が、第２の単語列１１２２の「起動」と一致する。

【0123】

この場合、例えば、抽出部６０５は、単語が一致する位置の次の位置以降に対応付けられた部分の組み合わせを、不一致部分として抽出することにしてもよい。ここでは、第１の単語列１１２１のうち単語が一致する位置３の次の位置以降に対応付けられた「できません」と、第２の単語列１１２２のうち単語が一致する位置３の次の位置以降に対応付けられた「に失敗しました」との組み合わせが抽出される。

【0124】

これにより、表記ゆれの候補である単語の組み合わせとして、単語が連続して一つのまとまった意味を表す部分（句）の組み合わせを抽出することができる。

【0125】

つぎに、単文ペア１１３０は、第１の単語列１１３１と第２の単語列１１３２との組み合わせである。単文ペア１１３０について、位置ごとに単語を比較すると、第１の単語列１１３１の「エラー」および「が」が、第２の単語列１１３２の「エラー」および「が」とそれぞれ一致する。

【0126】

この場合、例えば、抽出部６０５は、単語が一致する位置より前の位置以前に対応付けられた部分の組み合わせを、不一致部分として抽出することにしてもよい。さらに、抽出部６０５は、単語が一致する位置の次の位置以降に対応付けられた部分の組み合わせを、不一致部分として抽出することにしてもよい。

【0127】

ここでは、第１の単語列１１３１のうち単語が一致する位置３，４より前の位置以前に対応付けられた「５００」と、第２の単語列１１３２のうち単語が一致する位置３，４より前の位置以前に対応付けられた「インターナルサーバー」との組み合わせが抽出される。さらに、第１の単語列１１３１のうち単語が一致する位置３，４の次の位置以降に対応付けられた「返却され」と、第２の単語列１１３２のうち単語が一致する位置３，４の次の位置以降に対応付けられた「出て」との組み合わせが抽出される。

【0128】

図６の説明に戻り、抽出部６０５は、第１の単語列に含まれるＭ個の単語のうち、単語が一致する位置以外の位置にそれぞれ対応付けられ、目的語と述語との関係にある第１の単語と第２の単語とを抽出することにしてもよい。なお、各単語の品詞は、例えば、単語と品詞とを対応付けて表す単語辞書から特定することができる。

【0129】

また、抽出部６０５は、第２の単語列に含まれるＮ個の単語のうち、単語が一致する位置以外の位置にそれぞれ対応付けられ、目的語と述語との関係にある第３の単語と第４の単語とを抽出することにしてもよい。この際、抽出部６０５は、第３の単語として第１の単語と位置が同じ単語を抽出し、第４の単語として第２の単語と位置が同じ単語を抽出することにしてもよい。

【0130】

そして、抽出部６０５は、第１の単語と第３の単語との組み合わせを、不一致部分（不一致の単語ペア）として抽出することにしてもよい。また、抽出部６０５は、第２の単語と第４の単語との組み合わせを、不一致部分（不一致の単語ペア）として抽出することにしてもよい。

【0131】

ここで、目的語と述語との関係にある単語の組み合わせの抽出例について説明する。

【0132】

図１２は、目的語と述語との関係にある単語の組み合わせの抽出例を示す説明図である。図１２において、単文ペア１２１０は、一致スコアが基準を満たす第１の情報および第２の情報のペアのそれぞれを単語列で表したものである。単文ペア１２１０は、第１の単語列１２１１と第２の単語列１２１２との組み合わせである。

【0133】

単文ペア１２１０について、位置ごとに単語を比較すると、第１の単語列１２１１の位置５，７，９に対応付けられた「起動」、「を」、「する」が、第２の単語列１２１２の位置５，７，９に対応付けられた「起動」、「を」、「する」とそれぞれ一致する。

【0134】

この場合、例えば、抽出部６０５は、第１の単語列１２１１のうち、単語が一致する位置以外の位置６，８にそれぞれ対応付けられ、目的語と述語との関係にある「リクエスト」と「送信」の組み合わせを、不一致部分として抽出する。また、抽出部６０５は、第２の単語列１２１２のうち、単語が一致する位置以外の位置６，８にそれぞれ対応付けられ、目的語と述語との関係にある「ＡＰＩ」と「実行」の組み合わせを、不一致部分として抽出する。そして、抽出部６０５は、「リクエスト」と「ＡＰＩ」との組み合わせを、不一致部分として抽出する。また、抽出部６０５は、「送信」と「実行」との組み合わせを、不一致部分として抽出する。

【0135】

これにより、目的語同士の単語の組み合わせや、述語同士の単語の組み合わせを抽出することができ、表記ゆれ候補を精度よく抽出することが可能となる。

【0136】

なお、ここでは目的語と述語との関係にある単語の組み合わせを例に挙げて説明したが、これに限らない。例えば、抽出部６０５は、第１の単語列に含まれるＭ個の単語のうち、単語が一致する位置以外の位置にそれぞれ対応付けられ、主語と述語との関係にある第１の単語と第２の単語とを抽出することにしてもよい。また、抽出部６０５は、第２の単語列に含まれるＮ個の単語のうち、単語が一致する位置以外の位置にそれぞれ対応付けられ、主語と述語との関係にある第３の単語と第４の単語とを抽出することにしてもよい。

【0137】

図６の説明に戻り、抽出部６０５は、第１の単語列に含まれるＭ個の単語のうち、単語が一致する位置以外の位置に対応付けられた第１の単語を抽出する。また、抽出部６０５は、第２の単語列に含まれるＮ個の単語のうち、単語が一致する位置以外の位置に対応付けられ、かつ、左右両側の単語が第１の単語と一致する第２の単語を抽出することにしてもよい。そして、抽出部６０５は、第１の単語と第２の単語との組み合わせを、不一致部分として抽出することにしてもよい。なお、抽出部６０５は、第２の単語を抽出するにあたり、第１の単語と位置が同じ単語を抽出することにしてもよい。

【0138】

ここで、左右両側の単語が一致する単語の組み合わせの抽出例について説明する。

【0139】

図１３は、左右両側の単語が一致する単語の組み合わせの抽出例を示す説明図である。図１３において、単文ペア１３１０は、一致スコアが基準を満たす第１の情報および第２の情報のペアのそれぞれを単語列で表したものである。単文ペア１３１０は、第１の単語列１３１１と第２の単語列１３１２との組み合わせである。

【0140】

単文ペア１３１０について、位置ごとに単語を比較すると、第１の単語列１３１１の位置５，７，９に対応付けられた「起動」、「を」、「する」が、第２の単語列１３１２の位置５，７，９に対応付けられた「起動」、「を」、「する」とそれぞれ一致する。

【0141】

この場合、例えば、抽出部６０５は、単語が一致する位置以外の位置６に対応付けられ、かつ、左右両側の単語が一致する「リクエスト」と「ＡＰＩ」との組み合わせを、不一致部分として抽出する。また、抽出部６０５は、単語が一致する位置以外の位置８に対応付けられ、かつ、左右両側の単語が一致する「送信」と「実行」との組み合わせを、不一致部分として抽出する。

【0142】

これにより、不一致部分の単語の組み合わせとして、左右両側の単語が一致する単語の組み合わせを抽出することができ、同じ意味の可能性が高い単語の組み合わせを抽出することができる。

【0143】

図６の説明に戻り、登録部６０６は、抽出された不一致部分を記憶部６１０に記憶する。具体的には、例えば、登録部６０６は、第１の単語列に含まれるＭ個の単語のうち、単語が一致する位置以外の位置に対応付けられた単語と、第２の単語列に含まれるＮ個の単語のうち、単語が一致する位置以外の位置に対応付けられた単語とを、図１４に示すような表記ゆれ候補テーブル１４００に記憶する。

【0144】

ここで、表記ゆれ候補テーブル１４００の記憶内容について説明する。

【0145】

図１４は、表記ゆれ候補テーブル１４００の記憶内容の一例を示す説明図である。図１４において、表記ゆれ候補テーブル１４００は、表記ゆれ候補となる単語の組み合わせ、および、登録日時を示す候補情報（例えば、候補情報１４００－１～１４００－７）を記憶する。

【0146】

ここで、表記ゆれ候補となる単語は、１または複数の単語から形成される。登録日時は、表記ゆれ候補テーブル１４００に候補情報が登録された日時を示す。例えば、候補情報１４００－１は、表記ゆれ候補となる「ＶＭ」と「サーバー」との組み合わせ、および、登録日時「２０１８／０７／３０１５：００」を示す。また、候補情報１４００－４は、表記ゆれ候補となる「できません」と「に失敗しました」との組み合わせ、および、登録日時「２０１８／０７／３０１５：００」を示す。

【0147】

出力部６０７は、記憶部６１０に対応付けて記憶された単語の組み合わせを出力する。具体的には、例えば、出力部６０７は、図１４に示した表記ゆれ候補テーブル１４００を参照して、表記ゆれ候補となる単語の組み合わせを、図２に示したクライアント装置２０１に表示することにしてもよい。

【0148】

より具体的には、例えば、出力部６０７は、後述の図１６に示すような表記ゆれ確認画面１６００を、クライアント装置２０１に表示することにしてもよい。表記ゆれ確認画面１６００は、表記ゆれ候補となる単語の組み合わせを提示して、表記ゆれであるか否かの選択を受け付ける操作画面である。

【0149】

また、出力部６０７は、表記ゆれ候補テーブル１４００を参照して、表記ゆれ候補となる単語の組み合わせごとの出現回数を算出することにしてもよい。そして、出力部６０７は、算出した出現回数が多い単語の組み合わせを優先的に出力することにしてもよい。具体的には、例えば、出力部６０７は、出現回数が多い単語の組み合わせから順に、クライアント装置２０１に表示することにしてもよい。また、例えば、出力部６０７は、出現回数が所定数以上の単語の組み合わせを、クライアント装置２０１に表示することにしてもよい。

【0150】

図１４に示した候補情報１４００－１～１４００－７を例に挙げると、「ＶＭ」と「サーバー」との組み合わせの出現回数が「２」であり、他の組み合わせよりも多い。この場合、出力部６０７は、例えば、「ＶＭ」と「サーバー」との組み合わせを、クライアント装置２０１に表示する。これにより、出現回数が多く、より確度の高い表記ゆれ候補を優先して提示することができる。

【0151】

なお、出力部６０７は、出現頻度が高い単語を含む単語の組み合わせについては、出現回数にかかわらず、優先的に出力することにしてもよい。出現頻度が高い単語は、例えば、表記ゆれ候補テーブル１４００に出現する回数が相対的に多い単語である。これにより、頻繁に使用される単語を含む表記ゆれ候補を提示することができる。

【0152】

また、出力部６０７は、所定期間（例えば、直近６ヶ月）における、表記ゆれ候補となる単語の組み合わせごとの出現回数を算出することにしてもよい。具体的には、例えば、出力部６０７は、表記ゆれ候補テーブル１４００内の登録日時に基づいて、所定期間における、表記ゆれ候補となる単語の組み合わせごとの出現回数を算出する。

【0153】

これにより、時間の経過とともに使用される単語が変化するようなシステムに適用した場合であっても、使用されなくなった単語が提示されてしまうのを防いで、表記ゆれ候補の情報鮮度を確保することができる。

【0154】

また、登録部６０６は、出力された単語の組み合わせが、表記ゆれであることの選択を受け付けた場合、出力された単語の組み合わせを表記ゆれ辞書に登録する。具体的には、例えば、登録部６０６は、クライアント装置２０１に表記ゆれ候補の単語の組み合わせが表示された結果、クライアント装置２０１から表記ゆれであることの選択結果を受け付けた場合、表記ゆれ候補の単語の組み合わせを、図５に示した表記ゆれ辞書２３０に登録する。

【0155】

より詳細に説明すると、例えば、登録部６０６は、各単語に単語ＩＤを付与するとともに、単語の組み合わせにクラスＩＤを付与する。そして、登録部６０６は、各単語を単語ＩＤおよびクラスＩＤと対応付けて、単語テーブル５１０に登録する。また、登録部６０６は、クラスＩＤを類義語クラステーブル５２０に登録する。

【0156】

これにより、例えば、類義語クラステーブル５２０に新たに登録したクラスＩＤを指定することで、単語テーブル５１０から、指定されたクラスＩＤに対応する単語を、表記ゆれの単語として抽出することができる。なお、登録部６０６は、クライアント装置２０１から表記ゆれではないことの選択結果を受け付けた場合、表記ゆれ候補の単語の組み合わせを登録しない。

【0157】

（Ｂ_Ai__min＝Ｂ_Aj__minとなる場合）
ここで、単文Ａｉに対する単文Ｂ_Ai__minと、単文Ａｊに対する単文Ｂ_Aj__minとが一致する場合がある。この場合、単文Ａｉと単文Ａｊとが意味的に類似しているということになるが、同一文章中（文章Ａ）に同じ意味の単文が複数含まれることは想定しにくい。そこで、第１の特定部６０３は、Ｂ_Ai__min＝Ｂ_Aj__minとなる場合、編集距離ｌ_Ai,B(Ai__min)と編集距離ｌ_Aj,B(Aj__min)とを比較して、大きい方の単文ペアを除外することにしてもよい。なお、Ｂ（）の（）内の文字列は、下付き文字を示す。

【0158】

ここで、Ｂ_Ai__min＝Ｂ_Aj__minとなる場合の、単文ペアの除外例について説明する。

【0159】

図１５は、単文の具体例を示す説明図である。図１５において、単文Ａ１～Ａ３は、文章１５０１（文章Ａに相当）に含まれる単文である。単文Ｂ１，Ｂ２は、文章１５０２（文章Ｂに相当）に含まれる単文である。ここでは、単文Ａ２に対する単文Ｂ_A2__minを「単文Ｂ２」とし、単文Ａ３に対する単文Ｂ_A3__minを「単文Ｂ２」とする。すなわち、「Ｂ_A2__min＝Ｂ_A3__min」となる。

【0160】

ここで、単文Ａ２と単文Ｂ２とを一致させるには、１１回の編集操作が必要である（を→は、長期・にわたって→（削除）、さ→テスト、せ→実施、て→済み、も→です、問題・あり・ませ・ん→（削除））。このため、編集距離ｌ_A2,B(A2__min)は、「ｌ_A2,B(A2__min)＝１１」となる。

【0161】

一方、単文Ａ３と単文Ｂ２とを一致させるには、４回の編集操作が必要である（Ｘシステム・を→（削除）、長期→長期間、にわたって→（削除））。このため、編集距離ｌ_A3,B(A3__min)は、「ｌ_A3,B(A3__min)＝４」となる。この場合、第１の特定部６０３は、編集距離ｌ_A2,B(A2__min)とｌ_A3,B(A3__min)とを比較して、大きい方の単文ペア｛Ａ２，Ｂ_A2__min｝を除外する。

【0162】

これにより、単文Ａ２，Ａ３のうち、単文Ｂ２との類似度合いが低い単文Ａ２の方を除外して、もっともらしい単文ペア｛Ａ３，Ｂ_A3__min｝を残すことができる。

【0163】

（表記ゆれ確認画面１６００の画面例）
つぎに、クライアント装置２０１に表示される表記ゆれ確認画面１６００の画面例について説明する。

【0164】

図１６は、表記ゆれ確認画面１６００の画面例を示す説明図である。図１６において、表記ゆれ確認画面１６００は、表記ゆれ候補である「ＡＰＩ」と「リクエスト」との組み合わせが、同じ意味で使われる単語の組み合わせ、すなわち、表記ゆれであるか否かの選択を受け付ける操作画面である。

【0165】

表記ゆれ確認画面１６００において、クライアント装置２０１の不図示の入力装置を用いたユーザの操作入力により、ボタン１６０１を選択すると、「ＡＰＩ」と「リクエスト」との組み合わせが、表記ゆれであると選択することができる。この場合、「ＡＰＩ」と「リクエスト」との組み合わせが表記ゆれであることの選択結果が、クライアント装置２０１から情報処理装置１０１に送信される。

【0166】

また、表記ゆれ確認画面１６００において、ユーザの操作入力により、ボタン１６０２を選択すると、「ＡＰＩ」と「リクエスト」との組み合わせが表記ゆれではないと選択することができる。この場合、「ＡＰＩ」と「リクエスト」との組み合わせが表記ゆれではないことの選択結果が、クライアント装置２０１から情報処理装置１０１に送信される。

【0167】

（情報処理装置１０１の表記ゆれ候補抽出処理手順）
つぎに、情報処理装置１０１の表記ゆれ候補抽出処理手順について説明する。

【0168】

図１７および図１８は、情報処理装置１０１の表記ゆれ候補抽出処理手順の一例を示すフローチャートである。図１７のフローチャートにおいて、まず、情報処理装置１０１は、インシデントＤＢ２２０から、Ｒｅｌａｔｉｏｎにより紐付けされたインシデントデータを取得する（ステップＳ１７０１）。

【0169】

ここでは、Ｒｅｌａｔｉｏｎにより紐付けされたインシデントデータそれぞれの内容（Ｑｕｅｓｔｉｏｎ、Ａｎｓｗｅｒ）を「文章Ａ」と「文章Ｂ」と表記する。

【0170】

つぎに、情報処理装置１０１は、係り受け解析などを用いて、文章Ａ，Ｂそれぞれを単文に分割する（ステップＳ１７０２）。そして、情報処理装置１０１は、構文解析などを用いて、文章Ａ，Ｂから分割した単文それぞれを単語に分割する（ステップＳ１７０３）。

【0171】

つぎに、情報処理装置１０１は、文章Ａから分割された単文｛Ａ１，Ａ２，…｝のうち選択されていない未選択の単文Ａｉを選択する（ステップＳ１７０４）。そして、情報処理装置１０１は、文章Ｂから分割された単文｛Ｂ１，Ｂ２，…｝のうち、選択した単文Ａｉと単語が１つ以上一致する単文Ｂｊを選択する（ステップＳ１７０５）。

【0172】

つぎに、情報処理装置１０１は、選択した単文Ａｉと単文Ｂｊとの組み合わせについて、単語レベルの編集距離ｌ_Ai,Bjを算出する（ステップＳ１７０６）。そして、情報処理装置１０１は、文章Ｂから分割された単文｛Ｂ１，Ｂ２，…｝のうち、単文Ａｉと単語が１つ以上一致する未選択の単文Ｂｊがあるか否かを判断する（ステップＳ１７０７）。

【0173】

ここで、未選択の単文Ｂｊがある場合（ステップＳ１７０７：Ｙｅｓ）、情報処理装置１０１は、ステップＳ１７０５に戻る。一方、未選択の単文Ｂｊがない場合（ステップＳ１７０７：Ｎｏ）、情報処理装置１０１は、編集距離ｌ_Ai,Bjが最小となる単文Ｂ_Ai__minを特定する（ステップＳ１７０８）。

【0174】

そして、情報処理装置１０１は、単文Ａｉと単文Ｂ_Ai__minとの組み合わせを、単文ペアＰｉとして単文ペア群Ｐに追加する（ステップＳ１７０９）。ただし、単文ペアＰｉは、「Ｐｉ＝｛Ａｉ，Ｂ_Ai__min｝＝｛｛ａ_j,1，ａ_j,2，…，ａ_j,N｝，｛ｂ_i__min,1，ｂ_i__min,2，…，ｂ_i__min,N｝｝」である。

【0175】

つぎに、情報処理装置１０１は、文章Ａから分割された単文｛Ａ１，Ａ２，…｝のうち選択されていない未選択の単文Ａｉがあるか否かを判断する（ステップＳ１７１０）。ここで、未選択の単文Ａｉがある場合（ステップＳ１７１０：Ｙｅｓ）、情報処理装置１０１は、ステップＳ１７０４に戻る。

【0176】

一方、未選択の単文Ａｉがない場合（ステップＳ１７１０：Ｎｏ）、情報処理装置１０１は、図１８に示すステップＳ１８０１に移行する。なお、ステップＳ１７０９において、Ｂ_Ai__min＝Ｂ_Aj__minとなる場合は、情報処理装置１０１は、編集距離ｌ_Ai,B(Ai__min)と編集距離ｌ_Aj,B(Aj__min)とを比較して、大きい方の単文ペアを単文ペア群Ｐから除外することにしてもよい。

【0177】

図１８のフローチャートにおいて、まず、情報処理装置１０１は、単文ペア群Ｐから選択されていない未選択の単文ペアＰｉを選択する（ステップＳ１８０１）。ここでは、単文ペアＰｉのうち、単文Ａｉの単語列を「Ｍ個の単語を含む第１の単語列」とし、単文Ｂ_Ai__minの単語列を「Ｎ個の単語を含む第２の単語列」とする。

【0178】

つぎに、情報処理装置１０１は、複数の位置を含む位置群から選ばれたＭ個の位置の組み合わせごとに、各組み合わせに含まれるＭ個の位置それぞれを、第１の単語列に含まれるＭ個の単語のいずれに対応付けるかを示す第１の情報を生成する（ステップＳ１８０２）。

【0179】

つぎに、情報処理装置１０１は、複数の位置を含む位置群から選ばれたＮ個の位置の組み合わせごとに、各組み合わせに含まれるＮ個の位置それぞれを、第２の単語列に含まれるＮ個の単語のいずれに対応付けるかを示す第２の情報を生成する（ステップＳ１８０３）。

【0180】

そして、情報処理装置１０１は、生成した第１の情報および第２の情報の複数のペアのそれぞれについて、一致スコアを算出する（ステップＳ１８０４）。一致スコアは、単語が一致する位置の数を示す。すなわち、情報処理装置１０１は、第１の情報および第２の情報のペアについて、位置ごとに、第１の単語列に含まれる、該位置に対応付けられた単語と、第２の単語列に含まれる、該位置に対応付けられた単語とを比較して、一致スコアを算出する。

【0181】

つぎに、情報処理装置１０１は、第１の情報および第２の情報の複数のペアより、算出した一致スコアが最大の第１の情報および第２の情報のペアを特定する（ステップＳ１８０５）。そして、情報処理装置１０１は、特定した第１の情報および第２の情報のペアに基づき、不一致部分を抽出する（ステップＳ１８０６）。

【0182】

ここで、一致スコアが最大の第１の情報および第２の情報のペアから特定される、単文ペアＰｉの位置ごとの単語の組み合わせを「｛｛ｘ_j，ｙ_l｝，｛ｘ_k，ｙ_m｝，…；ｊ＜ｋ，ｌ＜ｍ，ｘ_j∈｛ａ_i,j，ｅ｝，ｙ_l∈｛ｂ_i__min,l，ｅ｝｝」とする（ただし、ｅは空文字）。この場合、情報処理装置１０１は、例えば、｛ｘ_j，ｙ_l；ｘ_j≠ｙ_l，ｘ_j≠ｅ，ｙ_l≠ｅ｝の単語のペアを不一致部分として抽出する。一例として、単文Ａｉを｛Ａｉ：“起動”、“し”、“て”、“い”、“ない”、“サーバー”、“に”、“起動”、“ＡＰＩ”、“を”、“実行”、“し”、“まし”、“た｝とする。また、単文Ｂ_Ai__minを｛“起動”、“リクエスト”、“を”、“ＶＭ”、“に”、“送信”、“し”、“まし”、“た”｝とする。この場合、｛“ＡＰＩ”、“リクエスト”｝の単語の組み合わせと、｛“実行”、“送信”｝の単語の組み合わせが、不一致部分として抽出される。

【0183】

つぎに、情報処理装置１０１は、抽出した不一致部分を、表記ゆれ候補テーブル１４００に登録する（ステップＳ１８０７）。そして、情報処理装置１０１は、単文ペア群Ｐから選択されていない未選択の単文ペアＰｉがあるか否かを判断する（ステップＳ１８０８）。

【0184】

ここで、未選択の単文ペアＰｉがある場合（ステップＳ１８０８：Ｙｅｓ）、情報処理装置１０１は、ステップＳ１８０１に戻る。一方、未選択の単文ペアＰｉがない場合（ステップＳ１８０８：Ｎｏ）、情報処理装置１０１は、本フローチャートによる一連の処理を終了する。

【0185】

これにより、表記ゆれ候補となる単語の組み合わせを抽出して、表記ゆれ候補テーブル１４００に登録することができる。なお、第１の情報および第２の情報の各ペアについての一致スコアを算出するより具体的な処理手順例については、図２０を用いて後述する。

【0186】

（情報処理装置１０１の表記ゆれ登録処理手順）
つぎに、情報処理装置１０１の表記ゆれ登録処理手順について説明する。

【0187】

図１９は、情報処理装置１０１の表記ゆれ登録処理手順の一例を示すフローチャートである。図１９のフローチャートにおいて、まず、情報処理装置１０１は、表記ゆれ候補テーブル１４００から選択されていない、表記ゆれ候補の単語の組み合わせを選択する（ステップＳ１９０１）。

【0188】

つぎに、情報処理装置１０１は、クライアント装置２０１に、選択した表記ゆれ候補の単語の組み合わせを表示する（ステップＳ１９０２）。そして、情報処理装置１０１は、クライアント装置２０１から、出力した単語の組み合わせが表記ゆれであることの選択を受け付けたか否かを判断する（ステップＳ１９０３）。

【0189】

ここで、表記ゆれではないことの選択を受け付けた場合（ステップＳ１９０３：Ｎｏ）、情報処理装置１０１は、ステップＳ１９０５に移行する。一方、表記ゆれであることの選択を受け付けた場合（ステップＳ１９０３：Ｙｅｓ）、情報処理装置１０１は、表示した単語の組み合わせを、表記ゆれ辞書２３０に登録する（ステップＳ１９０４）。

【0190】

そして、情報処理装置１０１は、表記ゆれ候補テーブル１４００から選択されていない未選択の単語の組み合わせがあるか否かを判断する（ステップＳ１９０５）。ここで、未選択の単語の組み合わせがある場合（ステップＳ１９０５：Ｙｅｓ）、情報処理装置１０１は、ステップＳ１９０１に戻る。一方、未選択の単語の組み合わせがない場合（ステップＳ１９０５：Ｎｏ）、情報処理装置１０１は、本フローチャートによる一連の処理を終了する。

【0191】

これにより、クライアント装置２０１のユーザに表記ゆれ候補となる単語の組み合わせを提示し、ユーザによる表記ゆれであるか否かの選択に応じて、表記ゆれの単語の組み合わせを表記ゆれ辞書２３０に登録することができる。

【0192】

（スコア算出処理の具体的な処理手順）
ここで、スコア算出処理の具体的な処理手順について説明する。スコア算出処理は、第１の情報および第２の情報の各ペアについての一致スコアを算出する処理であり、例えば、図１８に示したステップＳ１８０２～Ｓ１８０４の処理に対応する。

【0193】

図２０は、スコア算出処理の具体的処理手順の一例を示すフローチャートである。図２０のフローチャートにおいて、まず、情報処理装置１０１は、ＡとＢとを取得する（ステップＳ２００１）。ただし、Ａは、「Ａ＝［ａ０，…，ａｌ］」の単語列である。Ｂは、「Ｂ＝［ｂ０，…，ｂｍ］」の単語列である。Ａは、単文Ａｉに対応し、Ｂは、単文Ｂ_Ai__minに対応する。

【0194】

つぎに、情報処理装置１０１は、Ａ∩Ｂの要素数が「０」であるか否かを判断する（ステップＳ２００２）。ここで、Ａ∩Ｂの要素数が「０」ではない場合（ステップＳ２００２：Ｎｏ）、情報処理装置１０１は、Ａ∩Ｂのａｉの数分ステップＳ２００３～Ｓ２００８の処理を繰り返して、ステップＳ２０１０に移行する。

【0195】

情報処理装置１０１は、Ｔｓ←［］とし（ステップＳ２００３）、Ｂ中のａｉの出現位置をＪに列挙する（ステップＳ２００４）。ただし、Ｊを「Ｊ＝［ｊ０，…，ｊｎ］」とする。情報処理装置１０１は、Ｊに含まれるｊ分ステップＳ２００５～Ｓ２００７の処理を繰り返す。

【0196】

情報処理装置１０１は、Ａ’←［ａ０，…，ａ（ｉ－１）］とし、Ａ”←［ａ（ｉ＋１），…，ａｌ］とし、Ｂ’←［ｂ０，…，ｂ（ｊ－１）］とし、Ｂ”←［ｂ（ｊ＋１），…，ｂｍ］とし、Ｔ←Ｔｒｅｅ（）とし、Ｔ．ｖａｌｕｅ←［ａｉ，ｂｊ］とし、Ｔ．ｌｅｆｔ←ｓｅａｒｃｈ（Ａ’，Ｂ’）とし、Ｔ．ｒｉｇｈｔ←ｓｅａｒｃｈ（Ａ”，Ｂ”）とし、Ｔｓ←Ｔｓ＋［Ｔ］とする（ステップＳ２００６）。

【0197】

これにより、ｓｅａｒｃｈ（Ａ，Ｂ）が再帰的に呼び出される。ｓｅａｒｃｈ（Ａ，Ｂ）は、単語の組み合わせを木構造として抽出する関数である（図２０中、点線枠部分）。

【0198】

また、ステップＳ２００２において、Ａ∩Ｂの要素数が「０」の場合（ステップＳ２００２：Ｙｅｓ）、情報処理装置１０１は、Ｔｓ←ｃｏｍｂｉｎａｔｉｏｎ（Ａ，Ｂ）とする（ステップＳ２００９）。すなわち、情報処理装置１０１は、ＡとＢとの単語の順序を変更せずにできる全ての組み合わせを求めて、木構造のｖａｌｕｅに保持する。

【0199】

そして、情報処理装置１０１は、Ｔｓを返却する（ステップＳ２０１０）。つぎに、情報処理装置１０１は、Ｔｓ内の全ての木構造を辿ることで、単語の組み合わせ一覧を取得する（ステップＳ２０１１）。単語の組み合わせ一覧は、例えば、第１の情報および第２の情報の複数のペアに相当する。

【0200】

そして、情報処理装置１０１は、単語の組み合わせ一覧について一致スコアを算出して（ステップＳ２０１２）、本フローチャートによる一連の処理を終了する。これにより、第１の情報および第２の情報の各ペアについての一致スコアを算出することができる。

【0201】

ここで、図２１を用いて、スコア算出処理の動作イメージについて説明する。

【0202】

図２１は、スコア算出処理の動作イメージを示す説明図である。ここでは、図２０に示したステップＳ２００１において取得されるＡを「文１＝ＡＢＡＣＢＡ」とし、Ｂを「文２＝ＢＢＡＣＤ」とする。Ａ，Ｂ，Ｃ，Ｄは、単語を示す。

【0203】

この場合、ステップＳ２００２において、Ａ∩Ｂの要素数が「０」ではないため、ステップＳ２００３に移行する。ステップＳ２００３において、Ａ∩Ｂの要素ａｉのうち、文１の一番左の「Ａ」に着目すると、Ｊは「Ｊ＝［１，３，６］」となる（ステップＳ２００４）。

【0204】

ステップＳ２００５において、「Ｊ＝１」に着目すると、ステップＳ２００６において、Ａ’は［ｅ」となり、Ａ”は［ＢＡＣＢＡ」となり、Ｂ’は［ＢＢ］となり、Ｂ”は［ＣＤ］となる。この場合、Ｔ．ｖａｌｕｅは［Ａ，Ａ］となる。

【0205】

また、Ｔ．ｌｅｆｔはｓｅａｒｃｈ（ｅ，ＢＢ）となり、ｓｅａｒｃｈ（ｅ，ＢＢ）が呼び出される。この場合、ステップＳ２００２において、Ａ∩Ｂの要素数が「０」となり、ステップＳ２００９において、ｃｏｍｂｉｎａｔｉｏｎ（ｅ，ＢＢ）が計算される。この結果、単語の組み合わせ「［ｅ，Ｂ］、［ｅ，Ｂ］」が得られ、木構造のｖａｌｕｅに保持される。

【0206】

また、Ｔ．ｒｉｇｈｔはｓｅａｒｃｈ（ＢＡＣＢＡ，ＣＤ）となり、ｓｅａｒｃｈ（ＢＡＣＢＡ，ＣＤ）が読み出される。この場合、ステップＳ２００２において、Ａ∩Ｂの要素数が「０」ではないため、ステップＳ２００３に移行する。ステップＳ２００３において、Ａ∩Ｂの要素ａｉのうち、文１の「ＢＡＣＢＡ」の左から３番目の「Ｃ」に着目すると、Ｊは「Ｊ＝［１］」となる（ステップＳ２００４）。

【0207】

ステップＳ２００５において、「Ｊ＝１」に着目すると、ステップＳ２００６において、Ａ’は［ＢＡ」となり、Ａ”は［ＢＡ」となり、Ｂ’は［ｅ］となり、Ｂ”は［Ｄ］となる。この場合、Ｔ．ｖａｌｕｅは［Ｃ，Ｃ］となる。

【0208】

また、Ｔ．ｌｅｆｔはｓｅａｒｃｈ（ＢＡ，ｅ）となり、ｓｅａｒｃｈ（ＢＡ，ｅ）が呼び出される。この場合、ステップＳ２００２において、Ａ∩Ｂの要素数が「０」となり、ステップＳ２００９において、ｃｏｍｂｉｎａｔｉｏｎ（ＢＡ，ｅ）が計算される。この結果、単語の組み合わせ「［Ｂ，ｅ］、［Ａ，ｅ］」が得られ、木構造のｖａｌｕｅに保持される。

【0209】

また、Ｔ．ｒｉｇｈｔはｓｅａｒｃｈ（ＢＡ，Ｄ）となり、ｓｅａｒｃｈ（ＢＡ，Ｄ）が読み出される。この場合、ステップＳ２００２において、Ａ∩Ｂの要素数が「０」となり、ステップＳ２００９において、ｃｏｍｂｉｎａｔｉｏｎ（ＢＡ，Ｄ）が計算される。この結果、単語の組み合わせ「［Ｂ，ｅ］、［Ａ，ｅ］、［ｅ，Ｄ］」、「［Ｂ，Ｄ］、［Ａ，ｅ］」および「［Ｂ，ｅ］、［Ａ，Ｄ］」が得られ、木構造のｖａｌｕｅに保持される。

【0210】

これにより、図２１中、符号２１００部分がＴｓとして返却される。符号２１００部分は、符号２１０１と符号２１０２，２１０３，２１０４それぞれとの組み合わせを表す。例えば、符号２１０１と符号２１０２との組み合わせは、「［ｅ，Ｂ］、［ｅ，Ｂ］、［Ａ，Ａ］、［Ｂ，ｅ］、［Ａ，ｅ］、［Ｃ，Ｃ］、［Ｂ，ｅ］、［Ａ，ｅ］［ｅ，Ｄ］」という単語の組み合わせに対応する。この場合、一致スコアは「２」となる。

【0211】

以上説明したように、実施の形態にかかる情報処理装置１０１によれば、Ｍ個の単語を含む第１の単語列と、Ｎ個の単語を含む第２の単語列とを取得し、複数の位置を含む位置群から選ばれたＭ個の位置の組み合わせごとに、各組み合わせに含まれるＭ個の位置それぞれを、第１の単語列に含まれるＭ個の単語のいずれに対応付けるかを示す第１の情報を生成し、該位置群から選ばれたＮ個の位置の組み合わせごとに、各組み合わせに含まれるＮ個の位置それぞれを、第２の単語列に含まれるＮ個の単語のいずれに対応付けるかを示す第２の情報を生成することができる。ここで、複数の位置は順序付けられており、第１の単語列に含まれる単語のうち、第１の単語に対応付けられる位置の順序は、第１の単語よりも後に出現するいずれの単語に対応付けられる位置の順序よりも若く、第２の単語列に含まれる単語のうち、第２の単語に対応付けられる位置の順序は、第２の単語よりも後に出現するいずれの単語に対応付けられる位置の順序よりも若いものとする。

【0212】

これにより、各単文（第１の単語列、第２の単語列）中の単語の順序を変更しないで、単語の位置を変化させた複数の単語列をそれぞれ生成することができる。

【0213】

また、情報処理装置１０１によれば、第１の情報および第２の情報の複数のペアのそれぞれについて、位置ごとに、第１の単語列に含まれる、該位置に対応付けられた単語と、第２の単語列に含まれる、該位置に対応付けられた単語とを比較して、複数のペアより、単語が一致する位置の数（一致スコア）が基準を満たす第１の情報および第２の情報のペアを特定することができる。そして、情報処理装置１０１によれば、特定したペアに基づき、第１の単語列に含まれるＭ個の単語のうち、単語が一致する位置以外の位置に対応付けられた単語を、第２の単語列に含まれるＮ個の単語のうち、単語が一致する位置以外の位置に対応付けられた単語に対応付けて、表記ゆれ候補テーブル１４００に記憶することができる。

【0214】

これにより、単文間で一致する部分を適切に除いて不一致部分を抽出することができ、表記ゆれ候補となる単語の組み合わせを精度よく抽出することができる。このため、各システム（例えば、インシデント管理システム）に固有の言葉に対応可能となり、システムにおいて特徴的な表記ゆれの候補を効果的に抽出することができる。

【0215】

また、情報処理装置１０１によれば、第１の情報および第２の情報の複数のペアのうち、単語が一致する位置の数（一致スコア）が最大の第１の情報および第２の情報のペアを特定することができる。

【0216】

これにより、単文間で一致する部分をできるだけ多く除いて不一致部分を抽出することができ、表記ゆれ候補の抽出精度を向上させることができる。

【0217】

また、情報処理装置１０１によれば、第１の単語列に含まれるＭ個の単語のうち、単語が一致する位置以外の位置にそれぞれ対応付けられ、目的語と述語との関係にある第１の単語と第２の単語とを抽出し、第２の単語列に含まれるＮ個の単語のうち、単語が一致する位置以外の位置にそれぞれ対応付けられ、目的語と述語との関係にある第３の単語と第４の単語とを抽出することができる。そして、情報処理装置１０１によれば、第１の単語を第３の単語に対応付けて、第２の単語を第４の単語に対応付けて、表記ゆれ候補テーブル１４００に記憶することができる。

【0218】

これにより、各単文において目的語と述語との関係にある不一致部分の単語の組み合わせを抽出して、目的語同士の単語と述語同士の単語を対応付けることができ、表記ゆれ候補の抽出精度を向上させることができる。

【0219】

また、情報処理装置１０１によれば、第１の単語列に含まれるＭ個の単語のうち、単語が一致する位置以外の位置に対応付けられた第１の単語を、第２の単語列に含まれるＮ個の単語のうち、単語が一致する位置以外の位置に対応付けられ、かつ、左右両側の単語が第１の単語と一致する第２の単語に対応付けて、表記ゆれ候補テーブル１４００に記憶することができる。

【0220】

これにより、不一致部分の単語の組み合わせとして、左右両側の単語が一致する単語の組み合わせを抽出することができ、表記ゆれ候補の抽出精度を向上させることができる。また、左右両側の単語が一致する単語は、文における役割が同じ、すなわち、品詞が同じである可能性が高い。このため、単語の品詞を解析しなくても、同じ品詞同士の単語の組み合わせを抽出しやすくなる。

【0221】

また、情報処理装置１０１によれば、第１の単語列に含まれるＭ個の単語のうち、単語が一致する位置以外の第１の位置に対応付けられた単語を、第２の単語列に含まれるＮ個の単語のうち、第１の位置に対応付けられた単語に対応付けて、表記ゆれ候補テーブル１４００に記憶することができる。

【0222】

これにより、各単文において同じ位置にある一致しない単語の組み合わせを表記ゆれ候補として抽出することができる。

【0223】

また、情報処理装置１０１によれば、第１の単語列を、第１の文章に含まれるいずれかの単語列とし、第２の単語列を、第１の文章と同じ意味の文章として指定された第２の文章に含まれる単語列のうち、第１の単語列との編集距離が最小の単語列とすることができる。

【0224】

これにより、同じ意味の可能性が高い単文同士を比較して、表記ゆれ候補となる単語の組み合わせを抽出でき、表記ゆれ候補の抽出精度を向上させることができる。

【0225】

また、情報処理装置１０１によれば、表記ゆれ候補テーブル１４００に対応付けて記憶された単語の組み合わせを出力し、出力した単語の組み合わせが、表記ゆれであることの選択を受け付けた場合、出力した単語の組み合わせを表記ゆれ辞書２３０に登録することができる。

【0226】

これにより、クライアント装置２０１のユーザなどに表記ゆれ候補の単語の組み合わせを確認させて、表記ゆれの単語の組み合わせを登録することができる。この際、システムにおいて特徴的な表記ゆれの候補を効果的に抽出できるため、ユーザが確認する表記ゆれの候補の数を抑えて、表記ゆれ辞書２３０を効率的に作成することができる。

【0227】

これらのことから、情報処理装置１０１によれば、表記ゆれ候補となる単語の組み合わせを精度よく抽出して、個々のシステムにおいて特徴的な表記ゆれを効率的に登録することができる。これにより、文章の類似判別を行うにあたり、表記ゆれを統一して文章同士を比較することが可能となり、文章の類似判別の精度を向上させることができる。

【0228】

例えば、インシデント管理システムにおいて、表記ゆれ辞書２３０に基づき、インシデントに関する文章の表記ゆれを統一して文章同士を比較することで、類似するインシデントの件数を効率的に把握することが可能となる。この結果、問い合わせの件数が多いインシデントについて、ＦＡＱを作成したり、機能を修正したりして、問い合わせ件数の削減につなげることができる。

【0229】

なお、本実施の形態で説明した処理方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本処理プログラムは、ハードディスク、フレキシブルディスク、ＣＤ－ＲＯＭ、ＭＯ（Ｍａｇｎｅｔｏ－Ｏｐｔｉｃａｌｄｉｓｋ）、ＤＶＤ、ＵＳＢメモリ等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、本処理プログラムは、インターネット等のネットワークを介して配布してもよい。

【0230】

また、本実施の形態で説明した情報処理装置１０１は、スタンダードセルやストラクチャードＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などの特定用途向けＩＣやＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）などのＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）によっても実現することができる。

【0231】

上述した実施の形態に関し、さらに以下の付記を開示する。

【0232】

（付記１）Ｍ個の単語を含む第１の単語列と、Ｎ個の単語を含む第２の単語列とを取得し、
複数の位置を含む位置群から選ばれたＭ個の位置の組み合わせごとに、各組み合わせに含まれるＭ個の位置それぞれを、前記第１の単語列に含まれるＭ個の単語のいずれに対応付けるかを示す第１の情報を生成し、
前記位置群から選ばれたＮ個の位置の組み合わせごとに、各組み合わせに含まれるＮ個の位置それぞれを、前記第２の単語列に含まれるＮ個の単語のいずれに対応付けるかを示す第２の情報を生成し、
前記第１の情報および前記第２の情報の複数のペアのそれぞれについて、位置ごとに、前記第１の単語列に含まれる、該位置に対応付けられた単語と、前記第２の単語列に含まれる、該位置に対応付けられた単語とを比較して、前記複数のペアより、単語が一致する位置の数が基準を満たす第１の情報および第２の情報のペアを特定し、
特定した前記ペアに基づき、前記第１の単語列に含まれるＭ個の単語のうち、単語が一致する前記位置以外の位置に対応付けられた単語を、前記第２の単語列に含まれるＮ個の単語のうち、単語が一致する前記位置以外の位置に対応付けられた単語に対応付けて記憶部に記憶する、
処理をコンピュータが実行することを特徴とする処理方法。

【0233】

（付記２）前記複数の位置は順序付けられており、前記第１の単語列に含まれる単語のうち、第１の単語に対応付けられる位置の順序は、前記第１の単語よりも後に出現するいずれの単語に対応付けられる位置の順序よりも若く、前記第２の単語列に含まれる単語のうち、第２の単語に対応付けられる位置の順序は、前記第２の単語よりも後に出現するいずれの単語に対応付けられる位置の順序よりも若い、
ことを特徴とする付記１に記載の処理方法。

【0234】

（付記３）前記特定する処理は、
前記複数のペアのうち、単語が一致する位置の数が最大の第１の情報および第２の情報のペアを特定する、ことを特徴とする付記１または２に記載の処理方法。

【0235】

（付記４）前記記憶する処理は、
前記第１の単語列に含まれるＭ個の単語のうち、単語が一致する前記位置以外の位置にそれぞれ対応付けられ、目的語と述語との関係にある第１の単語と第２の単語とを抽出し、
前記第２の単語列に含まれるＮ個の単語のうち、単語が一致する前記位置以外の位置にそれぞれ対応付けられ、目的語と述語との関係にある第３の単語と第４の単語とを抽出し、
前記第１の単語を前記第３の単語に対応付けて前記記憶部に記憶し、前記第２の単語を前記第４の単語に対応付けて前記記憶部に記憶する、ことを特徴とする付記１～３のいずれか一つに記載の処理方法。

【0236】

（付記５）前記記憶する処理は、
前記第１の単語列に含まれるＭ個の単語のうち、単語が一致する前記位置以外の位置に対応付けられた第１の単語を、前記第２の単語列に含まれるＮ個の単語のうち、単語が一致する前記位置以外の位置に対応付けられ、かつ、左右両側の単語が前記第１の単語と一致する第２の単語に対応付けて前記記憶部に記憶する、ことを特徴とする付記１～４のいずれか一つに記載の処理方法。

【0237】

（付記６）前記記憶する処理は、
前記第１の単語列に含まれるＭ個の単語のうち、単語が一致する前記位置以外の第１の位置に対応付けられた単語を、前記第２の単語列に含まれるＮ個の単語のうち、前記第１の位置に対応付けられた単語に対応付けて前記記憶部に記憶する、ことを特徴とする付記１～５のいずれか一つに記載の処理方法。

【0238】

（付記７）前記第１の単語列は、第１の文章に含まれるいずれかの単語列であり、
前記第２の単語列は、前記第１の文章と同じ意味の文章として指定された第２の文章に含まれる単語列のうち、前記第１の単語列との編集距離が最小の単語列である、ことを特徴とする付記１～６のいずれか一つに記載の処理方法。

【0239】

（付記８）前記記憶部に対応付けて記憶された単語の組み合わせを出力し、
出力した前記単語の組み合わせが、表記ゆれであることの選択を受け付けた場合、前記単語の組み合わせを辞書に登録する、ことを特徴とする付記１～７のいずれか一つに記載の処理方法。

【0240】

（付記９）Ｍ個の単語を含む第１の単語列と、Ｎ個の単語を含む第２の単語列とを取得し、
複数の位置を含む位置群から選ばれたＭ個の位置の組み合わせごとに、各組み合わせに含まれるＭ個の位置それぞれを、前記第１の単語列に含まれるＭ個の単語のいずれに対応付けるかを示す第１の情報を生成し、
前記位置群から選ばれたＮ個の位置の組み合わせごとに、各組み合わせに含まれるＮ個の位置それぞれを、前記第２の単語列に含まれるＮ個の単語のいずれに対応付けるかを示す第２の情報を生成し、
前記第１の情報および前記第２の情報の複数のペアのそれぞれについて、位置ごとに、前記第１の単語列に含まれる、該位置に対応付けられた単語と、前記第２の単語列に含まれる、該位置に対応付けられた単語とを比較して、前記複数のペアより、単語が一致する位置の数が基準を満たす第１の情報および第２の情報のペアを特定し、
特定した前記ペアに基づき、前記第１の単語列に含まれるＭ個の単語のうち、単語が一致する前記位置以外の位置に対応付けられた単語を、前記第２の単語列に含まれるＮ個の単語のうち、単語が一致する前記位置以外の位置に対応付けられた単語に対応付けて記憶部に記憶する、
処理をコンピュータに実行させることを特徴とする処理プログラム。

【0241】

（付記１０）Ｍ個の単語を含む第１の単語列と、Ｎ個の単語を含む第２の単語列とを取得する取得部と、
複数の位置を含む位置群から選ばれたＭ個の位置の組み合わせごとに、各組み合わせに含まれるＭ個の位置それぞれを、前記第１の単語列に含まれるＭ個の単語のいずれに対応付けるかを示す第１の情報を生成し、前記位置群から選ばれたＮ個の位置の組み合わせごとに、各組み合わせに含まれるＮ個の位置それぞれを、前記第２の単語列に含まれるＮ個の単語のいずれに対応付けるかを示す第２の情報を生成する生成部と、
前記第１の情報および前記第２の情報の複数のペアのそれぞれについて、位置ごとに、前記第１の単語列に含まれる、該位置に対応付けられた単語と、前記第２の単語列に含まれる、該位置に対応付けられた単語とを比較して、前記複数のペアより、単語が一致する位置の数が基準を満たす第１の情報および第２の情報のペアを特定する特定部と、
前記特定部によって特定された前記ペアに基づき、前記第１の単語列に含まれるＭ個の単語のうち、単語が一致する前記位置以外の位置に対応付けられた単語を、前記第２の単語列に含まれるＮ個の単語のうち、単語が一致する前記位置以外の位置に対応付けられた単語に対応付けて記憶部に記憶する登録部と、
を有することを特徴とする情報処理装置。

【符号の説明】

【0242】

１０１情報処理装置
１１０，６１０記憶部
１１１，１１２，８００第１の情報
１１３，１１４，９００第２の情報
２００システム
２０１クライアント装置
２１０ネットワーク
２２０インシデントＤＢ
２３０表記ゆれ辞書
３００バス
３０１ＣＰＵ
３０２メモリ
３０３ディスクドライブ
３０４ディスク
３０５通信Ｉ／Ｆ
３０６可搬型記録媒体Ｉ／Ｆ
３０７可搬型記録媒体
５１０単語テーブル
５２０類義語クラステーブル
６０１取得部
６０２分割部
６０３第１の特定部
６０４第２の特定部
６０５抽出部
６０６登録部
６０７出力部
６１１単語列取得部
６１２生成部
６１３算出部
１４００表記ゆれ候補テーブル
１６００表記ゆれ確認画面
１６０１，１６０２ボタン

【図1】