特開2024-145586 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士フイルム株式会社の特許一覧

特開2024-145586情報処理装置、情報処理方法、及び情報処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024145586

(43)【公開日】2024-10-15

(54)【発明の名称】情報処理装置、情報処理方法、及び情報処理プログラム

(51)【国際特許分類】

G06F 40/247 20200101AFI20241004BHJP

G06F 40/216 20200101ALI20241004BHJP

【ＦＩ】

G06F40/247

G06F40/216

【審査請求】未請求

【請求項の数】11

【出願形態】ＯＬ

(21)【出願番号】P 2023058010

(22)【出願日】2023-03-31

(71)【出願人】

【識別番号】306037311

【氏名又は名称】富士フイルム株式会社

(74)【代理人】

【識別番号】110001519

【氏名又は名称】弁理士法人太陽国際特許事務所

(72)【発明者】

【氏名】三沢翔太郎

(72)【発明者】

【氏名】狩野竜示

(72)【発明者】

【氏名】鑓水大和

(72)【発明者】

【氏名】谷口友紀

(72)【発明者】

【氏名】小野田浩平

(57)【要約】

【課題】同義語のペアを精度良く抽出することができる情報処理装置、情報処理方法、及び情報処理プログラムを得る。
【解決手段】情報処理装置は、文書データと、互いに対応付けられた項目及び数値とを取得し、取得した第１の数値を含む許容範囲内の第２の数値が文書データに含まれる場合、文書データに含まれる第２の数値の周辺に存在する語句を項目の同義語の候補として抽出する。
【選択図】図４

【特許請求の範囲】

【請求項1】

少なくとも一つのプロセッサを備える情報処理装置であって、
前記プロセッサは、
文書データと、互いに対応付けられた項目及び数値とを取得し、
取得した第１の数値を含む許容範囲内の第２の数値が前記文書データに含まれる場合、前記文書データに含まれる第２の数値の周辺に存在する語句を前記項目の同義語の候補として抽出する
情報処理装置。

【請求項2】

前記プロセッサは、
複数組の前記項目及び前記数値が蓄積された蓄積データにおける、抽出した語句の統計値に基づいて、前記同義語の候補から同義語リストを生成する
請求項１に記載の情報処理装置。

【請求項3】

前記統計値は、前記蓄積データにおける、抽出した語句の出現回数であり、
前記プロセッサは、
抽出した語句のうち、前記統計値が閾値以上の語句を前記同義語リストに追加する
請求項２に記載の情報処理装置。

【請求項4】

前記統計値は、前記蓄積データにおける、抽出した語句の出現回数であり、
前記プロセッサは、
抽出した語句の候補のうち、前記統計値が相対的に大きい語句を前記同義語リストに追加する
請求項２に記載の情報処理装置。

【請求項5】

前記プロセッサは、
前記項目に対応する基準値を取得し、
前記基準値に対する、取得した数値の大小関係に対応する単語が前記文書データに含まれる場合、前記文書データに含まれる単語の周辺に存在する語句を抽出し、
前記統計値は、前記蓄積データにおける、前記単語の周辺に存在する語句の統計値を更に含む
請求項２から請求項４の何れか１項に記載の情報処理装置。

【請求項6】

前記プロセッサは、
前記数値に単位が付与されていて、かつ前記第２の数値と前記単位とが前記文書データに含まれることによって抽出された語句の統計値の重み係数を、前記第２の数値のみが前記文書データに含まれることによって抽出された語句の統計値の重み係数よりも大きい値にすることによって重みづけを行う
請求項１から請求項４の何れか１項に記載の情報処理装置。

【請求項7】

前記プロセッサは、
前記第２の数値の周辺に存在する語句を抽出する際に、長さ又は位置が異なる複数の語句を同義語の候補として抽出する
請求項１から請求項４の何れか１項に記載の情報処理装置。

【請求項8】

前記プロセッサは、
前記蓄積データにおける、取得した数値の統計値に基づいて、前記語句の統計値の重みづけを行う
請求項２から請求項４の何れか１項に記載の情報処理装置。

【請求項9】

前記プロセッサは、
取得した前記項目と、抽出した前記語句との類似度を導出し、
前記類似度が一定値以上の前記語句の前記統計値の重み係数を前記類似度が前記一定値未満の前記語句の前記統計値の重み係数よりも大きい値にすることによって重みづけを行う
請求項２から請求項４の何れか１項に記載の情報処理装置。

【請求項10】

文書データと、互いに対応付けられた項目及び数値とを取得し、
取得した第１の数値を含む許容範囲内の第２の数値が前記文書データに含まれる場合、前記文書データに含まれる第２の数値の周辺に存在する語句を前記項目の同義語の候補として抽出する
処理を情報処理装置が備えるプロセッサが実行する情報処理方法。

【請求項11】

文書データと、互いに対応付けられた項目及び数値とを取得し、
取得した第１の数値を含む許容範囲内の第２の数値が前記文書データに含まれる場合、前記文書データに含まれる第２の数値の周辺に存在する語句を前記項目の同義語の候補として抽出する
処理を情報処理装置が備えるプロセッサに実行させるための情報処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、情報処理装置、情報処理方法、及び情報処理プログラムに関する。

【背景技術】

【0002】

特許文献１には、複数の同義語に共通する文字列パターンを抽出して同義語辞書を生成する技術が開示されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２００７－１７２３１５号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

文字列パターンの共通性から同義語のペアを抽出する場合、同義語のペアを精度良く抽出できない場合がある。

【0005】

本開示は、以上の事情を鑑みてなされたものであり、同義語のペアを精度良く抽出することができる情報処理装置、情報処理方法、及び情報処理プログラムを提供することを目的とする。

【課題を解決するための手段】

【0006】

本開示の情報処理装置は、少なくとも一つのプロセッサを備える情報処理装置であって、プロセッサは、文書データと、互いに対応付けられた項目及び数値とを取得し、取得した第１の数値を含む許容範囲内の第２の数値が文書データに含まれる場合、文書データに含まれる第２の数値の周辺に存在する語句を項目の同義語の候補として抽出する。

【0007】

また、本開示の情報処理方法は、文書データと、互いに対応付けられた項目及び数値とを取得し、取得した第１の数値を含む許容範囲内の第２の数値が文書データに含まれる場合、文書データに含まれる第２の数値の周辺に存在する語句を項目の同義語の候補として抽出する処理を情報処理装置が備えるプロセッサが実行するものである。

【0008】

また、本開示の情報処理プログラムは、文書データと、互いに対応付けられた項目及び数値とを取得し、取得した第１の数値を含む許容範囲内の第２の数値が文書データに含まれる場合、文書データに含まれる第２の数値の周辺に存在する語句を項目の同義語の候補として抽出する処理を情報処理装置が備えるプロセッサに実行させるためのものである。

【発明の効果】

【0009】

本開示によれば、同義語のペアを精度良く抽出することができる。

【図面の簡単な説明】

【0010】

【図1】情報処理装置のハードウェア構成の一例を示すブロック図である。

【図2】検査結果ＤＢの一例を示す図である。

【図3】情報処理装置の機能的な構成の一例を示すブロック図である。

【図4】同義語候補の抽出処理を説明するための図である。

【図5】変形例に係る同義語候補の抽出処理を説明するための図である。

【図6】同義語リストの生成処理を説明するための図である。

【図7】重みづけ処理を説明するための図である。

【図8】変形例に係る同義語候補の抽出処理を説明するための図である。

【図9】変形例に係る同義語候補の抽出処理を説明するための図である。

【図10】同義語リスト生成処理の一例を示すフローチャートである。

【発明を実施するための形態】

【0011】

以下、図面を参照して、本開示の技術を実施するための形態例を詳細に説明する。

【0012】

まず、図１を参照して、本実施形態に係る情報処理装置１０のハードウェア構成を説明する。情報処理装置１０の例としては、パーソナルコンピュータ又はサーバコンピュータ等のコンピュータが挙げられる。図１に示すように、情報処理装置１０は、ＣＰＵ（Central Processing Unit）２０、メモリ２１、記憶部２２、ディスプレイ２３、入力装置２４、及びネットワークＩ／Ｆ（InterFace）２５を含む。

【0013】

ＣＰＵ２０は、後述する記憶部２２に記憶されるプログラムを実行することにより、後述する機能的な構成を実現する。ＣＰＵ２０は、開示の技術に係るプロセッサの一例である。

【0014】

メモリ２１は、記憶部２２及びＲＡＭ(Random Access Memory)２６を含む。ＲＡＭ２６は、一次記憶用のメモリであり、例えば、ＳＲＡＭ（Static Random Access Memory）又はＤＲＡＭ(Dynamic Random Access Memory)等のＲＡＭである。

【0015】

記憶部２２は、不揮発性のメモリであり、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、及びフラッシュメモリ等の少なくとも１つによって実現される。記憶媒体としての記憶部２２には、情報処理プログラム３０が記憶される。ＣＰＵ２０は、記憶部２２から情報処理プログラム３０を読み出してからメモリ２１に展開し、展開した情報処理プログラム３０を実行する。

【0016】

また、記憶部２２には、検査結果ＤＢ３２及び複数の文書データ３４が記憶される。図２に示すように、検査結果ＤＢ３２には、病院において検査が行われた検査日、検査項目、及び検査結果が対応付けられて格納される。検査結果は、検査項目に対応する数値を表す。検査項目及び検査結果が、開示の技術に係る互いに対応付けられた項目及び数値の一例である。検査結果ＤＢ３２には、複数組の検査日、検査項目、及び検査結果が格納される。検査結果ＤＢ３２は、開示の技術に係る複数組の項目及び数値が蓄積された蓄積データの一例である。検査結果ＤＢ３２において、患者ＩＤ等の検査対象の患者の識別情報が更に対応付けられていてもよい。本実施形態に係る文書データ３４は、電子カルテ等の医療文書である。

【0017】

ディスプレイ２３は、ＣＰＵ２０による制御によって各種画面を表示する装置であり、例えば、液晶ディスプレイ又はＥＬ（Electro Luminescence）ディスプレイである。入力装置２４は、ユーザが入力を行うための装置であり、例えば、キーボード、マウス、音声入力用のマイク、接触を含む近接入力用のタッチパッド、ジェスチャー入力用のカメラの少なくともいずれかである。ネットワークＩ／Ｆ２５は、ネットワークに接続するためのインタフェースである。バス２７は、ＣＰＵ２０、メモリ２１、記憶部２２、ディスプレイ２３、入力装置２４、及びネットワークＩ／Ｆ２５を接続する。

【0018】

次に、図３を参照して、情報処理装置１０の機能的な構成について説明する。図３に示すように、情報処理装置１０は、取得部４０、抽出部４２、及び生成部４４を含む。ＣＰＵ２０が情報処理プログラム３０を実行することにより、取得部４０、抽出部４２、及び生成部４４として機能する。

【0019】

図４に示すように、取得部４０は、複数の文書データ３４を記憶部２２から取得し、互いに対応付けられた検査項目及び検査結果を検査結果ＤＢ３２から取得する。取得部４０は、検査項目及び検査結果を検査結果ＤＢ３２から順次取得してもよいし、ユーザにより指定された検査項目及び検査結果を検査結果ＤＢ３２から取得してもよい。

【0020】

図４に示すように、抽出部４２は、取得部４０により取得された検査結果が、取得部４０により取得された複数の文書データ３４に含まれるか否かを判定する。抽出部４２は、検査結果が文書データ３４に含まれる場合、その文書データ３４に含まれる検査結果の周辺に存在する語句を、検査項目の同義語の候補として抽出する。本実施形態では、抽出部４２は、検査結果の直前に存在する複合名詞を、検査項目の同義語の候補として抽出する。図４の例では、「検査項目：心拍数」及び「検査結果：１０８」が検査結果ＤＢ３２から取得され、文書データ３４における「１０８」の直前の「ＨＲ」が「心拍数」の同義語の候補として抽出された例を示している。この際、抽出部４２は、複合名詞の前半に存在する数値は無視してもよい。

【0021】

なお、抽出部４２は、取得された検査結果が示す第１の数値を含む許容範囲内の第２の数値が文書データ３４に含まれるか否かを判定してもよい。この場合の第２の数値の例としては、第１の数値にマージンを加味した範囲の値、及び第１の数値を丸めた数値等が挙げられる。この場合、抽出部４２は、第２の数値が文書データ３４に含まれる場合、文書データ３４に含まれる第２の数値の周辺に存在する語句を、検査項目の同義語の候補として抽出してもよい。

【0022】

また、抽出部４２が抽出対象とする語句は、検査結果の直前に存在する語句に限定されず、検査結果の直後に存在する語句でもよいし、検査結果の直前及び直後のそれぞれに存在する語句でもよい。

【0023】

また、抽出部４２は、検査結果の周辺に存在する語句を抽出する際に、長さ又は位置が異なる複数の語句を同義語の候補として抽出してもよい。この場合、具体的には、図５に示すように、抽出部４２は、検査結果の直前に存在する語句の文字数が一定値以上の場合、ｎ－ｇｒａｍ等の公知の技術によって、検査結果の直前に存在する語句を長さが異なる複数の語句に分割する。そして、抽出部４２は、分割して得られた複数の語句それぞれを同義語の候補とする。

【0024】

また、この場合、抽出部４２は、「／」、「：」、「（」、及び「）」等の区切り文字の位置で検査結果の周辺に存在する語句を複数の語句に分割してもよい。

【0025】

また、抽出部４２は、語句の抽出対象の文書データ３４を、複数の文書データ３４のうち、検査項目及び検査結果と同一の患者について記載された文書データ３４のみとしてもよい。また、抽出部４２は、語句の抽出対象の文書データ３４を、複数の文書データ３４のうち、検査項目及び検査結果に対応する検査日以降に作成された文書データ３４のみとしてもよい。

【0026】

生成部４４は、検査結果ＤＢ３２における、抽出部４２により抽出された語句の統計値に基づいて、同義語の候補から同義語リストを生成する。本実施形態では、この統計値として、検査結果ＤＢ３２における、抽出部４２により抽出された語句の出現回数を適用した例を説明する。

【0027】

すなわち、図６に示すように、生成部４４は、検査結果ＤＢ３２における、抽出部４２により抽出された語句の統計値として出現回数をカウントする。そして、生成部４４は、抽出部４２により抽出された語句のうち、統計値が閾値以上の語句を同義語リストに追加することによって同義語リストを生成する。図６では、「心拍数」の同義語の候補として「ＨＲ」、「心拍」、及び「血圧」が抽出され、統計値が閾値（例えば、５０）以上の「ＨＲ」及び「心拍」が「心拍数」の同義語として同義語リストに追加される例を示している。

【0028】

なお、生成部４４は、抽出部４２により抽出された語句のうち、「上位○件」又は「上位○％」等のように、統計値が相対的に大きい語句を同義語リストに追加してもよい。

【0029】

また、生成部４４は、統計値を導出する際に、検査結果ＤＢ３２ではなく、複数の文書データ３４を参照してもよいし、検査結果ＤＢ３２及び複数の文書データ３４の双方を参照してもよい。すなわち、複数組の項目及び数値が蓄積された蓄積データは、データベースの形式のデータに限定されず、文書データ３４等のテキスト形式のデータでもよい。具体的には、生成部４４は、検査レポート等の文書データ３４から項目及び数値の組み合わせを抽出し、その項目及び数値の組み合わせを他の文書データ３４から抽出した項目及び数値の組み合わせの統計値の導出に用いてもよい。

【0030】

また、生成部４４は、出現回数をカウントする際に、入院期間単位等の特定の期間単位でカウントしてもよい。例えば、生成部４４は、同じ入院期間内の２つの文書データ３４それぞれに同じ語句が含まれる場合において、出現回数を１回とカウントしてもよい。具体的には、生成部４４は、検査項目が「心拍数」で、「１０８」という検査結果及び「９０」という検査結果それぞれについて、同じ入院期間内の２つの文書データ３４それぞれから同義語の候補として「ＨＲ」が得られた場合、出現回数を１回とカウントしてもよい。なお、生成部４４は、出現回数をカウントする際に、文書データ単位でカウントしても良い。つまり、生成部４４は、同一文書データ内で同一の検査項目と検査結果の組み合わせが複数回使用される場合において、当該組み合わせの出現回数を１回とカウントしても良い。

【0031】

また、生成部４４は、異なる検査結果について、同一の同義語の候補の組が得られた場合、語句のみの出現回数をカウントしてもよいし、語句及び検査結果の組の出現回数をカウントしてもよい。具体的には、生成部４４は、検査項目が「心拍数」で、「１０８」という検査結果及び「９０」という検査結果それぞれについて、同義語の候補として「ＨＲ」が得られた場合、生成部４４は、以下に示すように出現回数をカウントしてもよい。すなわち、この場合、生成部４４は、「１０８」に対応する「ＨＲ」の出現回数と「９０」に対応する「ＨＲ」の出現回数とを別々にカウントしてもよいし、合算してカウントしてもよい。

【0032】

また、図７に示すように、生成部４４は、検査結果に単位が付与されていて、かつ検査結果に対応する数値と単位とが文書データ３４に含まれることによって抽出された語句の統計値の重み係数を、数値のみが文書データ３４に含まれることによって抽出された語句の統計値の重み係数よりも大きい値にすることによって重みづけを行ってもよい。数値だけではなく、単位も一致する場合、同義語の可能性が比較的高いと考えられるため、この重みづけを行うことにより、同義語のペアを精度良く抽出することができる。

【0033】

また、生成部４４は、検査結果ＤＢ３２における検査結果の統計値に基づいて、抽出部４２により抽出された語句の統計値の重みづけを行ってもよい。具体的には、例えば、生成部４４は、検査項目が「心拍数」で、「１０８」という検査結果について同義語の候補として「ＨＲ」が得られた場合、検査結果ＤＢ３２における検査結果の統計値として、「１０８」の出現回数をカウントする。この場合、生成部４４は、検査結果の出現回数が多いほど、抽出部４２により抽出された語句の統計値の重み係数を小さくしてもよい。これは、検査結果の出現回数が多いほど、一般的に用いられる数値であると考えられるためである。一般的に用いられる数値に基づいて抽出された語句の重み係数を小さくすることにより、同義語のペアを精度良く抽出することができる。

【0034】

また、生成部４４は、取得部４０により取得された検査項目と、抽出部４２により抽出された語句との類似度を導出してもよい。この場合における類似度の例としては、編集距離又はレーベンシュタイン距離等が挙げられる。この場合、生成部４４は、類似度が一定値以上の語句の統計値の重み係数を類似度が一定値未満の語句の統計値の重み係数よりも大きい値にすることによって重みづけを行ってもよい。これにより、例えば、「心拍数」と「心拍」のように、類似する語句同士が同義語のペアとして抽出される可能性が高くなる。

【0035】

また、生成部４４は、検査結果ＤＢ３２における検査結果が得られた検査日と、文書データ３４の作成日との差分が小さいほど、抽出部４２により抽出された語句の統計値に対する重み係数を大きくしてもよい。

【0036】

また、生成部４４は、同一患者に対して同一検査が複数回行われている場合、相対的に前の検査日の検査結果について、相対的に後の検査日以降に作成された文書データ３４から抽出された語句の統計値の重み係数を、相対的に前の検査日から後の検査日までに作成された文書データ３４から抽出された語句の統計値の重み係数よりも小さい値にすることによって重みづけを行ってもよい。これは、例えば、第１回の検査結果が「９０」であり、第２回の検査結果が「１３０」である場合、第２回の検査日以降に作成された文書データ３４において、「１３０」よりも「９０」が出現する可能性が低いと考えられるためである。

【0037】

また、図８に示すように、取得部４０は、検査項目に対応する基準値を更に取得してもよい。この場合の基準値は、検査結果ＤＢ３２に保存されていてもよいし、記憶部２２に保存されていてもよい。この場合、抽出部４２は、基準値に対する、取得部４０により取得された検査結果の大小関係に対応する単語が文書データ３４に含まれる場合、文書データ３４に含まれる単語の周辺に存在する語句を抽出してもよい。また、この場合、前述した統計値には、この単語の周辺に存在する語句の統計値を更に含んでもよい。図８では、検査結果が基準値よりも高いため、「高」の直後に存在する「ＢＰ」が「血圧」の同義語の候補として抽出された例を示している。この場合の基準値に対する検査結果の大小関係に対応する単語は、「高」、「高い」、及び「高め」等の複数パターンあってもよい。また、基準値に対する検査結果の大小関係に対応する単語は、「高」に限定されず、「低」、「大」、「小」、「多」、及び「少」等でもよい。

【0038】

また、図９に示すように、抽出部４２は、検査結果ＤＢ３２において、同一患者の同一の検査項目が複数存在し、検査結果が異なり、かつその複数の検査結果の差分を表す単語が文書データ３４に含まれる場合、文書データ３４に含まれる単語の周辺に存在する語句を抽出してもよい。また、この場合、前述した統計値には、この単語の周辺に存在する語句の統計値を更に含んでもよい。図９では、「心拍数」という検査項目について、１回目の検査結果が「９０」であり、２回目の検査結果が「１０８」であり、心拍数が上昇しているため、「上昇」の直前に存在する「ＣＲＰ」が「心拍数」の同義語の候補として抽出された例を示している。複数の検査結果の差分を表す単語は、「上昇」に限定されず、「下降」、「低下」、「減少」、及び「増加」等でもよい。

【0039】

次に、図１０を参照して、情報処理装置１０の作用を説明する。ＣＰＵ２０が情報処理プログラム３０を実行することによって、図１０に示す同義語リスト生成処理が実行される。図１０に示す同義語リスト生成処理は、例えば、ユーザにより実行開始の指示が入力された場合に実行される。

【0040】

図１０のステップＳ１０で、取得部４０は、複数の文書データ３４を記憶部２２から取得し、互いに対応付けられた検査項目及び検査結果を検査結果ＤＢ３２から取得する。ステップＳ１２で、抽出部４２は、前述したように、ステップＳ１０で取得された検査結果が、ステップＳ１０で取得された文書データ３４に含まれる場合、その文書データ３４に含まれる検査結果の周辺に存在する語句を、検査項目の同義語の候補として抽出する。

【0041】

ステップＳ１４で、生成部４４は、前述したように、検査結果ＤＢ３２における、ステップＳ１２で抽出された語句の統計値に基づいて、同義語の候補から同義語リストを生成する。ステップＳ１４の処理が終了すると、同義語リスト生成処理が終了する。

【0042】

以上説明したように、本実施形態によれば、同義語のペアを精度良く抽出することができる。

【0043】

なお、上記実施形態において、例えば、情報処理装置１０の各機能部のような各種の処理を実行する処理部（processing unit）のハードウェア的な構造としては、次に示す各種のプロセッサ（processor）を用いることができる。上記各種のプロセッサには、前述したように、ソフトウェア（プログラム）を実行して各種の処理部として機能する汎用的なプロセッサであるＣＰＵに加えて、ＦＰＧＡ（Field Programmable Gate Array）等の製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス（Programmable Logic Device：PLD）、ＡＳＩＣ（Application Specific Integrated Circuit）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。

【0044】

１つの処理部は、これらの各種のプロセッサのうちの１つで構成されてもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡの組み合わせや、ＣＰＵとＦＰＧＡとの組み合わせ）で構成されてもよい。また、複数の処理部を１つのプロセッサで構成してもよい。

【0045】

複数の処理部を１つのプロセッサで構成する例としては、第１に、クライアント及びサーバ等のコンピュータに代表されるように、１つ以上のＣＰＵとソフトウェアの組み合わせで１つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第２に、システムオンチップ（System on Chip：SoC）等に代表されるように、複数の処理部を含むシステム全体の機能を１つのＩＣ（Integrated Circuit）チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサの１つ以上を用いて構成される。

【0046】

更に、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子などの回路素子を組み合わせた電気回路（circuitry）を用いることができる。

【0047】

また、上記実施形態では、情報処理プログラム３０が記憶部２２に予め記憶（インストール）されている態様を説明したが、これに限定されない。情報処理プログラム３０は、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＤＶＤ－ＲＯＭ（Digital Versatile Disc Read Only Memory）、及びＵＳＢ（Universal Serial Bus）メモリ等の記録媒体に記録された形態で提供されてもよい。また、情報処理プログラム３０は、ネットワークを介して外部装置からダウンロードされる形態としてもよい。

【0048】

以上の実施形態に関し、更に以下の付記を開示する。
（付記１）
少なくとも一つのプロセッサを備える情報処理装置であって、
前記プロセッサは、
文書データと、互いに対応付けられた項目及び数値とを取得し、
取得した第１の数値を含む許容範囲内の第２の数値が前記文書データに含まれる場合、前記文書データに含まれる第２の数値の周辺に存在する語句を前記項目の同義語の候補として抽出する
情報処理装置。

【0049】

（付記２）
前記プロセッサは、
複数組の前記項目及び前記数値が蓄積された蓄積データにおける、抽出した語句の統計値に基づいて、前記同義語の候補から同義語リストを生成する
付記１に記載の情報処理装置。

【0050】

（付記３）
前記統計値は、前記蓄積データにおける、抽出した語句の出現回数であり、
前記プロセッサは、
抽出した語句のうち、前記統計値が閾値以上の語句を前記同義語リストに追加する
付記２に記載の情報処理装置。

【0051】

（付記４）
前記統計値は、前記蓄積データにおける、抽出した語句の出現回数であり、
前記プロセッサは、
抽出した語句の候補のうち、前記統計値が相対的に大きい語句を前記同義語リストに追加する
付記２に記載の情報処理装置。

【0052】

（付記５）
前記プロセッサは、
前記項目に対応する基準値を取得し、
前記基準値に対する、取得した数値の大小関係に対応する単語が前記文書データに含まれる場合、前記文書データに含まれる単語の周辺に存在する語句を抽出し、
前記統計値は、前記蓄積データにおける、前記単語の周辺に存在する語句の統計値を更に含む
付記２から付記４の何れか１つに記載の情報処理装置。

【0053】

（付記６）
前記プロセッサは、
前記数値に単位が付与されていて、かつ前記第２の数値と前記単位とが前記文書データに含まれることによって抽出された語句の統計値の重み係数を、前記第２の数値のみが前記文書データに含まれることによって抽出された語句の統計値の重み係数よりも大きい値にすることによって重みづけを行う
付記１から付記５の何れか１つに記載の情報処理装置。

【0054】

（付記７）
前記プロセッサは、
前記第２の数値の周辺に存在する語句を抽出する際に、長さ又は位置が異なる複数の語句を同義語の候補として抽出する
付記１から付記６の何れか１つに記載の情報処理装置。

【0055】

（付記８）
前記プロセッサは、
前記蓄積データにおける、取得した数値の統計値に基づいて、前記語句の統計値の重みづけを行う
付記２から付記５の何れか１つに記載の情報処理装置。

【0056】

（付記９）
前記プロセッサは、
取得した前記項目と、抽出した前記語句との類似度を導出し、
前記類似度が一定値以上の前記語句の前記統計値の重み係数を前記類似度が前記一定値未満の前記語句の前記統計値の重み係数よりも大きい値にすることによって重みづけを行う
付記２から付記５の何れか１つに記載の情報処理装置。

【0057】

（付記１０）
文書データと、互いに対応付けられた項目及び数値とを取得し、
取得した第１の数値を含む許容範囲内の第２の数値が前記文書データに含まれる場合、前記文書データに含まれる第２の数値の周辺に存在する語句を前記項目の同義語の候補として抽出する
処理を情報処理装置が備えるプロセッサが実行する情報処理方法。

【0058】

（付記１１）
文書データと、互いに対応付けられた項目及び数値とを取得し、
取得した第１の数値を含む許容範囲内の第２の数値が前記文書データに含まれる場合、前記文書データに含まれる第２の数値の周辺に存在する語句を前記項目の同義語の候補として抽出する
処理を情報処理装置が備えるプロセッサに実行させるための情報処理プログラム。

【符号の説明】

【0059】

１０情報処理装置
２０ＣＰＵ
２１メモリ
２２記憶部
２３ディスプレイ
２４入力装置
２５ネットワークＩ／Ｆ
２６ＲＡＭ
２７バス
３０情報処理プログラム
３２検査結果ＤＢ
３４文書データ
４０取得部
４２抽出部
４４生成部

【図1】