(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024145586
(43)【公開日】2024-10-15
(54)【発明の名称】情報処理装置、情報処理方法、及び情報処理プログラム
(51)【国際特許分類】
G06F 40/247 20200101AFI20241004BHJP
G06F 40/216 20200101ALI20241004BHJP
【FI】
G06F40/247
G06F40/216
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2023058010
(22)【出願日】2023-03-31
(71)【出願人】
【識別番号】306037311
【氏名又は名称】富士フイルム株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】三沢 翔太郎
(72)【発明者】
【氏名】狩野 竜示
(72)【発明者】
【氏名】鑓水 大和
(72)【発明者】
【氏名】谷口 友紀
(72)【発明者】
【氏名】小野田 浩平
(57)【要約】
【課題】同義語のペアを精度良く抽出することができる情報処理装置、情報処理方法、及び情報処理プログラムを得る。
【解決手段】情報処理装置は、文書データと、互いに対応付けられた項目及び数値とを取得し、取得した第1の数値を含む許容範囲内の第2の数値が文書データに含まれる場合、文書データに含まれる第2の数値の周辺に存在する語句を項目の同義語の候補として抽出する。
【選択図】
図4
【特許請求の範囲】
【請求項1】
少なくとも一つのプロセッサを備える情報処理装置であって、
前記プロセッサは、
文書データと、互いに対応付けられた項目及び数値とを取得し、
取得した第1の数値を含む許容範囲内の第2の数値が前記文書データに含まれる場合、前記文書データに含まれる第2の数値の周辺に存在する語句を前記項目の同義語の候補として抽出する
情報処理装置。
【請求項2】
前記プロセッサは、
複数組の前記項目及び前記数値が蓄積された蓄積データにおける、抽出した語句の統計値に基づいて、前記同義語の候補から同義語リストを生成する
請求項1に記載の情報処理装置。
【請求項3】
前記統計値は、前記蓄積データにおける、抽出した語句の出現回数であり、
前記プロセッサは、
抽出した語句のうち、前記統計値が閾値以上の語句を前記同義語リストに追加する
請求項2に記載の情報処理装置。
【請求項4】
前記統計値は、前記蓄積データにおける、抽出した語句の出現回数であり、
前記プロセッサは、
抽出した語句の候補のうち、前記統計値が相対的に大きい語句を前記同義語リストに追加する
請求項2に記載の情報処理装置。
【請求項5】
前記プロセッサは、
前記項目に対応する基準値を取得し、
前記基準値に対する、取得した数値の大小関係に対応する単語が前記文書データに含まれる場合、前記文書データに含まれる単語の周辺に存在する語句を抽出し、
前記統計値は、前記蓄積データにおける、前記単語の周辺に存在する語句の統計値を更に含む
請求項2から請求項4の何れか1項に記載の情報処理装置。
【請求項6】
前記プロセッサは、
前記数値に単位が付与されていて、かつ前記第2の数値と前記単位とが前記文書データに含まれることによって抽出された語句の統計値の重み係数を、前記第2の数値のみが前記文書データに含まれることによって抽出された語句の統計値の重み係数よりも大きい値にすることによって重みづけを行う
請求項1から請求項4の何れか1項に記載の情報処理装置。
【請求項7】
前記プロセッサは、
前記第2の数値の周辺に存在する語句を抽出する際に、長さ又は位置が異なる複数の語句を同義語の候補として抽出する
請求項1から請求項4の何れか1項に記載の情報処理装置。
【請求項8】
前記プロセッサは、
前記蓄積データにおける、取得した数値の統計値に基づいて、前記語句の統計値の重みづけを行う
請求項2から請求項4の何れか1項に記載の情報処理装置。
【請求項9】
前記プロセッサは、
取得した前記項目と、抽出した前記語句との類似度を導出し、
前記類似度が一定値以上の前記語句の前記統計値の重み係数を前記類似度が前記一定値未満の前記語句の前記統計値の重み係数よりも大きい値にすることによって重みづけを行う
請求項2から請求項4の何れか1項に記載の情報処理装置。
【請求項10】
文書データと、互いに対応付けられた項目及び数値とを取得し、
取得した第1の数値を含む許容範囲内の第2の数値が前記文書データに含まれる場合、前記文書データに含まれる第2の数値の周辺に存在する語句を前記項目の同義語の候補として抽出する
処理を情報処理装置が備えるプロセッサが実行する情報処理方法。
【請求項11】
文書データと、互いに対応付けられた項目及び数値とを取得し、
取得した第1の数値を含む許容範囲内の第2の数値が前記文書データに含まれる場合、前記文書データに含まれる第2の数値の周辺に存在する語句を前記項目の同義語の候補として抽出する
処理を情報処理装置が備えるプロセッサに実行させるための情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、情報処理方法、及び情報処理プログラムに関する。
【背景技術】
【0002】
特許文献1には、複数の同義語に共通する文字列パターンを抽出して同義語辞書を生成する技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
文字列パターンの共通性から同義語のペアを抽出する場合、同義語のペアを精度良く抽出できない場合がある。
【0005】
本開示は、以上の事情を鑑みてなされたものであり、同義語のペアを精度良く抽出することができる情報処理装置、情報処理方法、及び情報処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本開示の情報処理装置は、少なくとも一つのプロセッサを備える情報処理装置であって、プロセッサは、文書データと、互いに対応付けられた項目及び数値とを取得し、取得した第1の数値を含む許容範囲内の第2の数値が文書データに含まれる場合、文書データに含まれる第2の数値の周辺に存在する語句を項目の同義語の候補として抽出する。
【0007】
また、本開示の情報処理方法は、文書データと、互いに対応付けられた項目及び数値とを取得し、取得した第1の数値を含む許容範囲内の第2の数値が文書データに含まれる場合、文書データに含まれる第2の数値の周辺に存在する語句を項目の同義語の候補として抽出する処理を情報処理装置が備えるプロセッサが実行するものである。
【0008】
また、本開示の情報処理プログラムは、文書データと、互いに対応付けられた項目及び数値とを取得し、取得した第1の数値を含む許容範囲内の第2の数値が文書データに含まれる場合、文書データに含まれる第2の数値の周辺に存在する語句を項目の同義語の候補として抽出する処理を情報処理装置が備えるプロセッサに実行させるためのものである。
【発明の効果】
【0009】
本開示によれば、同義語のペアを精度良く抽出することができる。
【図面の簡単な説明】
【0010】
【
図1】情報処理装置のハードウェア構成の一例を示すブロック図である。
【
図3】情報処理装置の機能的な構成の一例を示すブロック図である。
【
図4】同義語候補の抽出処理を説明するための図である。
【
図5】変形例に係る同義語候補の抽出処理を説明するための図である。
【
図6】同義語リストの生成処理を説明するための図である。
【
図8】変形例に係る同義語候補の抽出処理を説明するための図である。
【
図9】変形例に係る同義語候補の抽出処理を説明するための図である。
【
図10】同義語リスト生成処理の一例を示すフローチャートである。
【発明を実施するための形態】
【0011】
以下、図面を参照して、本開示の技術を実施するための形態例を詳細に説明する。
【0012】
まず、
図1を参照して、本実施形態に係る情報処理装置10のハードウェア構成を説明する。情報処理装置10の例としては、パーソナルコンピュータ又はサーバコンピュータ等のコンピュータが挙げられる。
図1に示すように、情報処理装置10は、CPU(Central Processing Unit)20、メモリ21、記憶部22、ディスプレイ23、入力装置24、及びネットワークI/F(InterFace)25を含む。
【0013】
CPU20は、後述する記憶部22に記憶されるプログラムを実行することにより、後述する機能的な構成を実現する。CPU20は、開示の技術に係るプロセッサの一例である。
【0014】
メモリ21は、記憶部22及びRAM(Random Access Memory)26を含む。RAM26は、一次記憶用のメモリであり、例えば、SRAM(Static Random Access Memory)又はDRAM(Dynamic Random Access Memory)等のRAMである。
【0015】
記憶部22は、不揮発性のメモリであり、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、及びフラッシュメモリ等の少なくとも1つによって実現される。記憶媒体としての記憶部22には、情報処理プログラム30が記憶される。CPU20は、記憶部22から情報処理プログラム30を読み出してからメモリ21に展開し、展開した情報処理プログラム30を実行する。
【0016】
また、記憶部22には、検査結果DB32及び複数の文書データ34が記憶される。
図2に示すように、検査結果DB32には、病院において検査が行われた検査日、検査項目、及び検査結果が対応付けられて格納される。検査結果は、検査項目に対応する数値を表す。検査項目及び検査結果が、開示の技術に係る互いに対応付けられた項目及び数値の一例である。検査結果DB32には、複数組の検査日、検査項目、及び検査結果が格納される。検査結果DB32は、開示の技術に係る複数組の項目及び数値が蓄積された蓄積データの一例である。検査結果DB32において、患者ID等の検査対象の患者の識別情報が更に対応付けられていてもよい。本実施形態に係る文書データ34は、電子カルテ等の医療文書である。
【0017】
ディスプレイ23は、CPU20による制御によって各種画面を表示する装置であり、例えば、液晶ディスプレイ又はEL(Electro Luminescence)ディスプレイである。入力装置24は、ユーザが入力を行うための装置であり、例えば、キーボード、マウス、音声入力用のマイク、接触を含む近接入力用のタッチパッド、ジェスチャー入力用のカメラの少なくともいずれかである。ネットワークI/F25は、ネットワークに接続するためのインタフェースである。バス27は、CPU20、メモリ21、記憶部22、ディスプレイ23、入力装置24、及びネットワークI/F25を接続する。
【0018】
次に、
図3を参照して、情報処理装置10の機能的な構成について説明する。
図3に示すように、情報処理装置10は、取得部40、抽出部42、及び生成部44を含む。CPU20が情報処理プログラム30を実行することにより、取得部40、抽出部42、及び生成部44として機能する。
【0019】
図4に示すように、取得部40は、複数の文書データ34を記憶部22から取得し、互いに対応付けられた検査項目及び検査結果を検査結果DB32から取得する。取得部40は、検査項目及び検査結果を検査結果DB32から順次取得してもよいし、ユーザにより指定された検査項目及び検査結果を検査結果DB32から取得してもよい。
【0020】
図4に示すように、抽出部42は、取得部40により取得された検査結果が、取得部40により取得された複数の文書データ34に含まれるか否かを判定する。抽出部42は、検査結果が文書データ34に含まれる場合、その文書データ34に含まれる検査結果の周辺に存在する語句を、検査項目の同義語の候補として抽出する。本実施形態では、抽出部42は、検査結果の直前に存在する複合名詞を、検査項目の同義語の候補として抽出する。
図4の例では、「検査項目:心拍数」及び「検査結果:108」が検査結果DB32から取得され、文書データ34における「108」の直前の「HR」が「心拍数」の同義語の候補として抽出された例を示している。この際、抽出部42は、複合名詞の前半に存在する数値は無視してもよい。
【0021】
なお、抽出部42は、取得された検査結果が示す第1の数値を含む許容範囲内の第2の数値が文書データ34に含まれるか否かを判定してもよい。この場合の第2の数値の例としては、第1の数値にマージンを加味した範囲の値、及び第1の数値を丸めた数値等が挙げられる。この場合、抽出部42は、第2の数値が文書データ34に含まれる場合、文書データ34に含まれる第2の数値の周辺に存在する語句を、検査項目の同義語の候補として抽出してもよい。
【0022】
また、抽出部42が抽出対象とする語句は、検査結果の直前に存在する語句に限定されず、検査結果の直後に存在する語句でもよいし、検査結果の直前及び直後のそれぞれに存在する語句でもよい。
【0023】
また、抽出部42は、検査結果の周辺に存在する語句を抽出する際に、長さ又は位置が異なる複数の語句を同義語の候補として抽出してもよい。この場合、具体的には、
図5に示すように、抽出部42は、検査結果の直前に存在する語句の文字数が一定値以上の場合、n-gram等の公知の技術によって、検査結果の直前に存在する語句を長さが異なる複数の語句に分割する。そして、抽出部42は、分割して得られた複数の語句それぞれを同義語の候補とする。
【0024】
また、この場合、抽出部42は、「/」、「:」、「(」、及び「)」等の区切り文字の位置で検査結果の周辺に存在する語句を複数の語句に分割してもよい。
【0025】
また、抽出部42は、語句の抽出対象の文書データ34を、複数の文書データ34のうち、検査項目及び検査結果と同一の患者について記載された文書データ34のみとしてもよい。また、抽出部42は、語句の抽出対象の文書データ34を、複数の文書データ34のうち、検査項目及び検査結果に対応する検査日以降に作成された文書データ34のみとしてもよい。
【0026】
生成部44は、検査結果DB32における、抽出部42により抽出された語句の統計値に基づいて、同義語の候補から同義語リストを生成する。本実施形態では、この統計値として、検査結果DB32における、抽出部42により抽出された語句の出現回数を適用した例を説明する。
【0027】
すなわち、
図6に示すように、生成部44は、検査結果DB32における、抽出部42により抽出された語句の統計値として出現回数をカウントする。そして、生成部44は、抽出部42により抽出された語句のうち、統計値が閾値以上の語句を同義語リストに追加することによって同義語リストを生成する。
図6では、「心拍数」の同義語の候補として「HR」、「心拍」、及び「血圧」が抽出され、統計値が閾値(例えば、50)以上の「HR」及び「心拍」が「心拍数」の同義語として同義語リストに追加される例を示している。
【0028】
なお、生成部44は、抽出部42により抽出された語句のうち、「上位○件」又は「上位○%」等のように、統計値が相対的に大きい語句を同義語リストに追加してもよい。
【0029】
また、生成部44は、統計値を導出する際に、検査結果DB32ではなく、複数の文書データ34を参照してもよいし、検査結果DB32及び複数の文書データ34の双方を参照してもよい。すなわち、複数組の項目及び数値が蓄積された蓄積データは、データベースの形式のデータに限定されず、文書データ34等のテキスト形式のデータでもよい。具体的には、生成部44は、検査レポート等の文書データ34から項目及び数値の組み合わせを抽出し、その項目及び数値の組み合わせを他の文書データ34から抽出した項目及び数値の組み合わせの統計値の導出に用いてもよい。
【0030】
また、生成部44は、出現回数をカウントする際に、入院期間単位等の特定の期間単位でカウントしてもよい。例えば、生成部44は、同じ入院期間内の2つの文書データ34それぞれに同じ語句が含まれる場合において、出現回数を1回とカウントしてもよい。具体的には、生成部44は、検査項目が「心拍数」で、「108」という検査結果及び「90」という検査結果それぞれについて、同じ入院期間内の2つの文書データ34それぞれから同義語の候補として「HR」が得られた場合、出現回数を1回とカウントしてもよい。なお、生成部44は、出現回数をカウントする際に、文書データ単位でカウントしても良い。つまり、生成部44は、同一文書データ内で同一の検査項目と検査結果の組み合わせが複数回使用される場合において、当該組み合わせの出現回数を1回とカウントしても良い。
【0031】
また、生成部44は、異なる検査結果について、同一の同義語の候補の組が得られた場合、語句のみの出現回数をカウントしてもよいし、語句及び検査結果の組の出現回数をカウントしてもよい。具体的には、生成部44は、検査項目が「心拍数」で、「108」という検査結果及び「90」という検査結果それぞれについて、同義語の候補として「HR」が得られた場合、生成部44は、以下に示すように出現回数をカウントしてもよい。すなわち、この場合、生成部44は、「108」に対応する「HR」の出現回数と「90」に対応する「HR」の出現回数とを別々にカウントしてもよいし、合算してカウントしてもよい。
【0032】
また、
図7に示すように、生成部44は、検査結果に単位が付与されていて、かつ検査結果に対応する数値と単位とが文書データ34に含まれることによって抽出された語句の統計値の重み係数を、数値のみが文書データ34に含まれることによって抽出された語句の統計値の重み係数よりも大きい値にすることによって重みづけを行ってもよい。数値だけではなく、単位も一致する場合、同義語の可能性が比較的高いと考えられるため、この重みづけを行うことにより、同義語のペアを精度良く抽出することができる。
【0033】
また、生成部44は、検査結果DB32における検査結果の統計値に基づいて、抽出部42により抽出された語句の統計値の重みづけを行ってもよい。具体的には、例えば、生成部44は、検査項目が「心拍数」で、「108」という検査結果について同義語の候補として「HR」が得られた場合、検査結果DB32における検査結果の統計値として、「108」の出現回数をカウントする。この場合、生成部44は、検査結果の出現回数が多いほど、抽出部42により抽出された語句の統計値の重み係数を小さくしてもよい。これは、検査結果の出現回数が多いほど、一般的に用いられる数値であると考えられるためである。一般的に用いられる数値に基づいて抽出された語句の重み係数を小さくすることにより、同義語のペアを精度良く抽出することができる。
【0034】
また、生成部44は、取得部40により取得された検査項目と、抽出部42により抽出された語句との類似度を導出してもよい。この場合における類似度の例としては、編集距離又はレーベンシュタイン距離等が挙げられる。この場合、生成部44は、類似度が一定値以上の語句の統計値の重み係数を類似度が一定値未満の語句の統計値の重み係数よりも大きい値にすることによって重みづけを行ってもよい。これにより、例えば、「心拍数」と「心拍」のように、類似する語句同士が同義語のペアとして抽出される可能性が高くなる。
【0035】
また、生成部44は、検査結果DB32における検査結果が得られた検査日と、文書データ34の作成日との差分が小さいほど、抽出部42により抽出された語句の統計値に対する重み係数を大きくしてもよい。
【0036】
また、生成部44は、同一患者に対して同一検査が複数回行われている場合、相対的に前の検査日の検査結果について、相対的に後の検査日以降に作成された文書データ34から抽出された語句の統計値の重み係数を、相対的に前の検査日から後の検査日までに作成された文書データ34から抽出された語句の統計値の重み係数よりも小さい値にすることによって重みづけを行ってもよい。これは、例えば、第1回の検査結果が「90」であり、第2回の検査結果が「130」である場合、第2回の検査日以降に作成された文書データ34において、「130」よりも「90」が出現する可能性が低いと考えられるためである。
【0037】
また、
図8に示すように、取得部40は、検査項目に対応する基準値を更に取得してもよい。この場合の基準値は、検査結果DB32に保存されていてもよいし、記憶部22に保存されていてもよい。この場合、抽出部42は、基準値に対する、取得部40により取得された検査結果の大小関係に対応する単語が文書データ34に含まれる場合、文書データ34に含まれる単語の周辺に存在する語句を抽出してもよい。また、この場合、前述した統計値には、この単語の周辺に存在する語句の統計値を更に含んでもよい。
図8では、検査結果が基準値よりも高いため、「高」の直後に存在する「BP」が「血圧」の同義語の候補として抽出された例を示している。この場合の基準値に対する検査結果の大小関係に対応する単語は、「高」、「高い」、及び「高め」等の複数パターンあってもよい。また、基準値に対する検査結果の大小関係に対応する単語は、「高」に限定されず、「低」、「大」、「小」、「多」、及び「少」等でもよい。
【0038】
また、
図9に示すように、抽出部42は、検査結果DB32において、同一患者の同一の検査項目が複数存在し、検査結果が異なり、かつその複数の検査結果の差分を表す単語が文書データ34に含まれる場合、文書データ34に含まれる単語の周辺に存在する語句を抽出してもよい。また、この場合、前述した統計値には、この単語の周辺に存在する語句の統計値を更に含んでもよい。
図9では、「心拍数」という検査項目について、1回目の検査結果が「90」であり、2回目の検査結果が「108」であり、心拍数が上昇しているため、「上昇」の直前に存在する「CRP」が「心拍数」の同義語の候補として抽出された例を示している。複数の検査結果の差分を表す単語は、「上昇」に限定されず、「下降」、「低下」、「減少」、及び「増加」等でもよい。
【0039】
次に、
図10を参照して、情報処理装置10の作用を説明する。CPU20が情報処理プログラム30を実行することによって、
図10に示す同義語リスト生成処理が実行される。
図10に示す同義語リスト生成処理は、例えば、ユーザにより実行開始の指示が入力された場合に実行される。
【0040】
図10のステップS10で、取得部40は、複数の文書データ34を記憶部22から取得し、互いに対応付けられた検査項目及び検査結果を検査結果DB32から取得する。ステップS12で、抽出部42は、前述したように、ステップS10で取得された検査結果が、ステップS10で取得された文書データ34に含まれる場合、その文書データ34に含まれる検査結果の周辺に存在する語句を、検査項目の同義語の候補として抽出する。
【0041】
ステップS14で、生成部44は、前述したように、検査結果DB32における、ステップS12で抽出された語句の統計値に基づいて、同義語の候補から同義語リストを生成する。ステップS14の処理が終了すると、同義語リスト生成処理が終了する。
【0042】
以上説明したように、本実施形態によれば、同義語のペアを精度良く抽出することができる。
【0043】
なお、上記実施形態において、例えば、情報処理装置10の各機能部のような各種の処理を実行する処理部(processing unit)のハードウェア的な構造としては、次に示す各種のプロセッサ(processor)を用いることができる。上記各種のプロセッサには、前述したように、ソフトウェア(プログラム)を実行して各種の処理部として機能する汎用的なプロセッサであるCPUに加えて、FPGA(Field Programmable Gate Array)等の製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device:PLD)、ASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。
【0044】
1つの処理部は、これらの各種のプロセッサのうちの1つで構成されてもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGAの組み合わせや、CPUとFPGAとの組み合わせ)で構成されてもよい。また、複数の処理部を1つのプロセッサで構成してもよい。
【0045】
複数の処理部を1つのプロセッサで構成する例としては、第1に、クライアント及びサーバ等のコンピュータに代表されるように、1つ以上のCPUとソフトウェアの組み合わせで1つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第2に、システムオンチップ(System on Chip:SoC)等に代表されるように、複数の処理部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサの1つ以上を用いて構成される。
【0046】
更に、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子などの回路素子を組み合わせた電気回路(circuitry)を用いることができる。
【0047】
また、上記実施形態では、情報処理プログラム30が記憶部22に予め記憶(インストール)されている態様を説明したが、これに限定されない。情報処理プログラム30は、CD-ROM(Compact Disc Read Only Memory)、DVD-ROM(Digital Versatile Disc Read Only Memory)、及びUSB(Universal Serial Bus)メモリ等の記録媒体に記録された形態で提供されてもよい。また、情報処理プログラム30は、ネットワークを介して外部装置からダウンロードされる形態としてもよい。
【0048】
以上の実施形態に関し、更に以下の付記を開示する。
(付記1)
少なくとも一つのプロセッサを備える情報処理装置であって、
前記プロセッサは、
文書データと、互いに対応付けられた項目及び数値とを取得し、
取得した第1の数値を含む許容範囲内の第2の数値が前記文書データに含まれる場合、前記文書データに含まれる第2の数値の周辺に存在する語句を前記項目の同義語の候補として抽出する
情報処理装置。
【0049】
(付記2)
前記プロセッサは、
複数組の前記項目及び前記数値が蓄積された蓄積データにおける、抽出した語句の統計値に基づいて、前記同義語の候補から同義語リストを生成する
付記1に記載の情報処理装置。
【0050】
(付記3)
前記統計値は、前記蓄積データにおける、抽出した語句の出現回数であり、
前記プロセッサは、
抽出した語句のうち、前記統計値が閾値以上の語句を前記同義語リストに追加する
付記2に記載の情報処理装置。
【0051】
(付記4)
前記統計値は、前記蓄積データにおける、抽出した語句の出現回数であり、
前記プロセッサは、
抽出した語句の候補のうち、前記統計値が相対的に大きい語句を前記同義語リストに追加する
付記2に記載の情報処理装置。
【0052】
(付記5)
前記プロセッサは、
前記項目に対応する基準値を取得し、
前記基準値に対する、取得した数値の大小関係に対応する単語が前記文書データに含まれる場合、前記文書データに含まれる単語の周辺に存在する語句を抽出し、
前記統計値は、前記蓄積データにおける、前記単語の周辺に存在する語句の統計値を更に含む
付記2から付記4の何れか1つに記載の情報処理装置。
【0053】
(付記6)
前記プロセッサは、
前記数値に単位が付与されていて、かつ前記第2の数値と前記単位とが前記文書データに含まれることによって抽出された語句の統計値の重み係数を、前記第2の数値のみが前記文書データに含まれることによって抽出された語句の統計値の重み係数よりも大きい値にすることによって重みづけを行う
付記1から付記5の何れか1つに記載の情報処理装置。
【0054】
(付記7)
前記プロセッサは、
前記第2の数値の周辺に存在する語句を抽出する際に、長さ又は位置が異なる複数の語句を同義語の候補として抽出する
付記1から付記6の何れか1つに記載の情報処理装置。
【0055】
(付記8)
前記プロセッサは、
前記蓄積データにおける、取得した数値の統計値に基づいて、前記語句の統計値の重みづけを行う
付記2から付記5の何れか1つに記載の情報処理装置。
【0056】
(付記9)
前記プロセッサは、
取得した前記項目と、抽出した前記語句との類似度を導出し、
前記類似度が一定値以上の前記語句の前記統計値の重み係数を前記類似度が前記一定値未満の前記語句の前記統計値の重み係数よりも大きい値にすることによって重みづけを行う
付記2から付記5の何れか1つに記載の情報処理装置。
【0057】
(付記10)
文書データと、互いに対応付けられた項目及び数値とを取得し、
取得した第1の数値を含む許容範囲内の第2の数値が前記文書データに含まれる場合、前記文書データに含まれる第2の数値の周辺に存在する語句を前記項目の同義語の候補として抽出する
処理を情報処理装置が備えるプロセッサが実行する情報処理方法。
【0058】
(付記11)
文書データと、互いに対応付けられた項目及び数値とを取得し、
取得した第1の数値を含む許容範囲内の第2の数値が前記文書データに含まれる場合、前記文書データに含まれる第2の数値の周辺に存在する語句を前記項目の同義語の候補として抽出する
処理を情報処理装置が備えるプロセッサに実行させるための情報処理プログラム。
【符号の説明】
【0059】
10 情報処理装置
20 CPU
21 メモリ
22 記憶部
23 ディスプレイ
24 入力装置
25 ネットワークI/F
26 RAM
27 バス
30 情報処理プログラム
32 検査結果DB
34 文書データ
40 取得部
42 抽出部
44 生成部