特開2024-30216 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士ゼロックス株式会社の特許一覧

特開2024-30216情報処理装置及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024030216

(43)【公開日】2024-03-07

(54)【発明の名称】情報処理装置及びプログラム

(51)【国際特許分類】

G06V 30/412 20220101AFI20240229BHJP

【ＦＩ】

G06V30/412

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2022132899

(22)【出願日】2022-08-24

(71)【出願人】

【識別番号】000005496

【氏名又は名称】富士フイルムビジネスイノベーション株式会社

(74)【代理人】

【識別番号】110001210

【氏名又は名称】弁理士法人ＹＫＩ国際特許事務所

(72)【発明者】

【氏名】鈴木裕介

【テーマコード（参考）】

5B029

【Ｆターム（参考）】

5B029CC21

5B029CC26

(57)【要約】

【課題】電子ファイルにおいて、属性キーに対応する文字列が存在する領域として特定した領域にある文字列中に、別の属性キーに対応する文字列が含まれていても、属性キーに対応する文字列を抽出可能とする。
【解決手段】情報処理装置はプロセッサを備える。プロセッサは、電子ファイルから、属性キー１０を取得するとともに属性キー１０に対応する領域１６を特定し、特定した領域１６から文字列を抽出する。プロセッサは、抽出した文字列中に属性キー１０の属性パターンに該当しない文字列が含まれる場合、抽出した文字列を構成する文字列の中から属性パターンに該当する文字列のみを属性キー１０に対応する文字列１２として特定する。
【選択図】図２

【特許請求の範囲】

【請求項1】

プロセッサを備え、
前記プロセッサは、
電子ファイルから、属性キーを取得するとともに前記属性キーに対応する領域を特定し、
特定した前記領域から文字列を抽出し、
抽出した前記文字列中に前記属性キーの属性パターンに該当しない文字列が含まれる場合、抽出した前記文字列を構成する文字列の中から前記属性パターンに該当する文字列のみを前記属性キーに対応する文字列として特定する、
情報処理装置。

【請求項2】

請求項１に記載の情報処理装置であって、
前記プロセッサは、
抽出した前記文字列の中から、前記電子ファイルから抽出されるべき他の属性キーの属性パターンに該当する文字列を除外して、残った文字列を前記属性キーに対応する文字列として特定する、
情報処理装置。

【請求項3】

請求項２に記載の情報処理装置であって、
前記プロセッサは、
前記電子ファイルにおいて対応する文字列がすでに見つかっている属性キーの属性パターンに該当する文字列を、前記抽出した前記文字列の中から除外する文字列としない、
情報処理装置。

【請求項4】

請求項１に記載の情報処理装置であって、
前記プロセッサは、
抽出した前記文字列に含まれる文字列のうち、前記電子ファイルから抽出されるべき他の属性キーの属性パターンに該当する文字列を、前記他の属性キーに対応する文字列として特定する、
情報処理装置。

【請求項5】

請求項１に記載の情報処理装置であって、
前記プロセッサは、
抽出した前記文字列に含まれる文字列のうち、前記電子ファイルから取得された他の属性キーであってそれに対応する文字列が取得されなかった他の属性キーの属性パターンに該当する文字列を、当該他の属性キーに対応する文字列として特定する、
情報処理装置。

【請求項6】

請求項１に記載の情報処理装置であって、
前記プロセッサは、
抽出した前記文字列に含まれる各文字列の位置関係に基づいて前記属性キーと他の属性キーに対応する文字列を特定する、
情報処理装置。

【請求項7】

請求項１～６のいずれか１つに記載の情報処理装置であって、
前記属性キーとそれに対応する文字列は表の形式で記載されており、
前記領域は、表を構成する１つのセルである、
情報処理装置。

【請求項8】

電子ファイルから、属性キーを取得するとともに前記属性キーに対応する領域を特定し、
特定した前記領域から文字列を抽出し、
抽出した前記文字列中に前記属性キーの属性パターンに該当しない文字列が含まれる場合、抽出した前記文字列を構成する文字列の中から前記属性パターンに該当する文字列のみを前記属性キーに対応する文字列として特定する、
処理をコンピュータに実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置及びプログラムに関する。

【背景技術】

【0002】

帳票等の文書を表す電子ファイルに対して文字認識処理を実行し、文書中の項目名を表す属性キーと、その属性キーに対応する文字列とを抽出する技術が知られている。

【0003】

特許文献１には、項目名の単語を事前に辞書登録しておき、この辞書の項目名単語と帳票内の文字列とを照合し、照合に成功したものを項目名文字列とみなし、照合に失敗したものをデータ文字列とみなす装置が開示されている。この装置では、さらに、項目名文字列とデータ文字列との配置関係を解析することで、データ文字列と項目名文字列との対応関係を認識している。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２００８－２０４２２６号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

文書を表す電子ファイルにおいて、属性キーに対応する文字列が存在する領域として特定した領域にある文字列中に、別の属性キーに対応する文字列が含まれている場合がある。このような場合であっても、属性キーに対応する文字列を抽出できるようにすることが望まれている。

【0006】

本発明は、電子ファイルにおいて、属性キーに対応する文字列が存在する領域として特定した領域にある文字列中に、別の属性キーに対応する文字列が含まれていても、属性キーに対応する文字列を抽出できるようにすることを目的とする。

【課題を解決するための手段】

【0007】

請求項１に係る発明は、プロセッサを備え、前記プロセッサは、電子ファイルから、属性キーを取得するとともに前記属性キーに対応する領域を特定し、特定した前記領域から文字列を抽出し、抽出した前記文字列中に前記属性キーの属性パターンに該当しない文字列が含まれる場合、抽出した前記文字列を構成する文字列の中から前記属性パターンに該当する文字列のみを前記属性キーに対応する文字列として特定する、情報処理装置である。

【0008】

請求項２に係る発明は、請求項１に記載の情報処理装置であって、前記プロセッサは、抽出した前記文字列の中から、前記電子ファイルから抽出されるべき他の属性キーの属性パターンに該当する文字列を除外して、残った文字列を前記属性キーに対応する文字列として特定する、情報処理装置である。

【0009】

請求項３に係る発明は、請求項２に記載の情報処理装置であって、前記プロセッサは、前記電子ファイルにおいて対応する文字列がすでに見つかっている属性キーの属性パターンに該当する文字列を、前記抽出した前記文字列の中から除外する文字列としない、情報処理装置である。

【0010】

請求項４に係る発明は、請求項１に記載の情報処理装置であって、前記プロセッサは、抽出した前記文字列に含まれる文字列のうち、前記電子ファイルから抽出されるべき他の属性キーの属性パターンに該当する文字列を、前記他の属性キーに対応する文字列として特定する、情報処理装置である。

【0011】

請求項５に係る発明は、請求項１に記載の情報処理装置であって、前記プロセッサは、抽出した前記文字列に含まれる文字列のうち、前記電子ファイルから取得された他の属性キーであってそれに対応する文字列が取得されなかった他の属性キーの属性パターンに該当する文字列を、当該他の属性キーに対応する文字列として特定する、情報処理装置である。

【0012】

請求項６に係る発明は、請求項１に記載の情報処理装置であって、前記プロセッサは、抽出した前記文字列に含まれる各文字列の位置関係に基づいて前記属性キーと他の属性キーに対応する文字列を特定する、情報処理装置である。

【0013】

請求項７に係る発明は、請求項１～６のいずれか１つに記載の情報処理装置であって、前記属性キーとそれに対応する文字列は表の形式で記載されており、前記領域は、表を構成する１つのセルである、情報処理装置である。

【0014】

請求項８に係る発明は、電子ファイルから、属性キーを取得するとともに前記属性キーに対応する領域を特定し、特定した前記領域から文字列を抽出し、抽出した前記文字列中に前記属性キーの属性パターンに該当しない文字列が含まれる場合、抽出した前記文字列を構成する文字列の中から前記属性パターンに該当する文字列のみを前記属性キーに対応する文字列として特定する、処理をコンピュータに実行させるプログラムである。

【発明の効果】

【0015】

請求項１又は８に係る発明によれば、電子ファイルにおいて、属性キーに対応する文字列が存在する領域として特定した領域にある文字列中に、別の属性キーに対応する文字列が含まれていても、属性キーに対応する文字列が抽出される。

【0016】

請求項２に係る発明によれば、電子ファイルから抽出されるべき他の属性キーの属性パターンにより、属性キーに対応する文字列が抽出される。

【0017】

請求項３に係る発明によれば、属性キーに対応する文字列として特定されるべき文字列の一部又は全部が除外される事態が抑制される。

【0018】

請求項４に係る発明によれば、電子ファイルから抽出されるべき他の属性キーに対応する文字列が特定される。

【0019】

請求項５に係る発明によれば、電子ファイルから取得された他の属性キーに対応する文字列が特定される。

【0020】

請求項６に係る発明によれば、抽出した文字列に含まれる各文字列の位置関係により、属性キーと他の属性キーに対応する文字列が特定される。

【0021】

請求項７に係る発明によれば、電子ファイル内の表部分から、属性キーが取得されるとともに属性キーに対応する文字列が特定される。

【図面の簡単な説明】

【0022】

【図1】属性キーとその対応文字列が対となった形態（データ（Ａ））と、１つの属性キーと複数の属性キーの対応文字列が対となった形態（データ（Ｂ））を例示する図である。

【図2】属性キーの対応文字列を特定する方法を説明するための図である。

【図3】情報処理装置の機能ブロック図である。

【図4】情報処理装置が行う処理を示すフローチャートである。

【図5】属性キーの対応文字列を特定する方法を説明するための図である。

【図6】データを例示する図である。

【図7】属性キーの対応文字列を特定する方法を説明するための図である。

【図8】属性キーの対応文字列を特定する方法を説明するための図である。

【図9】コンピュータのハードウエア構成を例示する図である。

【発明を実施するための形態】

【0023】

以下、本発明に係る実施形態について添付図面を確認しながら詳細に説明する。以下で述べる構成は、説明のための例示であって、情報処理装置の仕様等に合わせて適宜変更が可能である。また、以下において複数の実施形態や変形例などが含まれる場合、それらの特徴部分を適宜に組み合わせて用いることは当初から想定されている。全ての図面において同一の要素には同一の符号を付し、重複する説明を省略する。

【0024】

以下では、電子ファイルから、属性キーを取得するとともに属性キーに対応する領域を特定し、特定した領域から文字列を抽出して、属性キーに対応する文字列を特定する情報処理装置についての実施形態を説明する。

【0025】

図１は、属性キー１０とその対応文字列１２が対となった形態（データ（Ａ））と、１つの属性キー１０と複数の属性キーの対応文字列１２が対となった形態（データ（Ｂ））を例示する図である。情報処理装置は、文書を表す電子ファイルに対して文字認識処理を実行し、文書中の属性キー１０と、その属性キーに対応する文字列１２（対応文字列１２と言う）を抽出する。属性キーは、文字列の属性を表す項目名である。

【0026】

電子ファイルは、情報処理装置で扱われる電子データである。電子ファイルは、特に限定されないが、例えば紙文書を画像読取装置で読み取って得られた画像ファイルやＰＤＦ（ＰｏｒｔａｂｌｅＤｏｃｕｍｅｎｔＦｏｒｍａｔ）ファイル等であってよい。画像読取装置で読み取られる紙文書は、例えば手書きされた文書、印刷装置で印刷された文書、スタンプ（ゴム印等）が押された文書等であってよい。

【0027】

属性キー１０と対応文字列１２は、例えば図１に示すように表の形式で記載されている。なお、属性キー１０と対応文字列１２は、それらの対応関係が認識できるように記載されていればよく、表の形式で記載されていなくてもよい。属性キー１０と対応文字列１２は、罫線を伴わずに記載されていてもよい。なお、以下、文書における属性キー１０と対応文字列１２が記載された部分を「データ」と記す。

【0028】

図１のデータ（Ａ）に示すように、データには、上下に属性キー１０を並べて、各属性キー１０の右側に対応文字列１２を記載したものがある。また、図示されていないが、データには、左右に属性キー１０を並べて、各属性キー１０の下側に対応文字列１２を記載したものもある。このようなデータの中には、図１のデータ（Ｂ）に示すように、属性キー１０に対応する文字列（対応文字列１２）が存在する領域に、別の属性キーに対応する文字列が含まれていることがある。

【0029】

データ（Ｂ）では、属性キー１０「氏名」に対応する文字列が存在する領域に、その属性キーの対応文字列１２である「富士玄太郎」に加えて、別の属性キー「生年月日」の対応文字列「平成３０年２月９日」と、さらに別の属性キー「年齢」の対応文字列「（３歳）」が含まれている。以下説明するように、情報処理装置は、このようなデータであっても、属性キー１０の対応文字列１２を特定することが可能となっている。

【0030】

図２は、属性キー１０の対応文字列１２を特定する方法を概略的に説明するための図である。情報処理装置は、データ（１）に示すように、文書から属性キー１０を取得するとともに属性キー１０に対応する領域１６（対応領域１６と言う）を特定する。そして、情報処理装置は、対応領域１６に含まれる文字列を一体として抽出する。以下、対応領域１６に含まれる１つ又は複数の文字列の一体物を、対応文字列候補１４と言う。

【0031】

そして、情報処理装置は、対応文字列候補１４の中に属性キー１０の属性パターンに該当しない文字列が含まれている場合には、属性辞書２０（詳細は後述）を用いて、対応文字列候補１４を構成する文字列の中から属性キー１０の属性パターンに該当する文字列のみを属性キー１０の対応文字列１２として特定する。一例として、情報処理装置は、対応文字列候補１４の中から、文書から抽出されるべき他の属性キーの属性パターンに該当する文字列を除外して、残った文字列を属性キー１０の対応文字列１２として特定する。なお、図２のデータ（１）では、除外された文字例に取消線が付されている。

【0032】

なお、以下で説明する各図のデータは、図２のデータ（１）のように属性キー１０の右側に対応文字列１２を記載した形態であるが、データは、図２のデータ（２）のように属性キー１０の下側に対応文字列１２を記載した形態であってもよい。情報処理装置が扱うデータの形態は、限定されない。

【0033】

図３は、情報処理装置の機能ブロック図である。情報処理装置は、ファイル入力部１０２、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅａｄｅｒ）部１０４、属性抽出部１０６、属性辞書２０、および属性情報出力部１０８を備える。各部は、プロセッサ１００２（図９参照）を用いて実現することができ、属性辞書２０は、例えば補助記憶装置１００６（図９参照）に記憶される。

【0034】

ファイル入力部１０２は、文書を表す電子ファイルを受け付けて、ＯＣＲ部１０４に転送する。ＯＣＲ部１０４は、電子ファイルのデータに対して文字認識処理を実行し、文字情報を抽出する。なお、情報処理装置は、電子ファイルのデータが表の形式で記載されている場合には、ファイル入力部１０２と属性抽出部１０６の間に表解析部をさらに備えてもよい。表解析部は、ファイル入力部１０２から電子ファイルを受け取り、電子ファイルのデータの表構造を解析して、セルの位置を特定する。

【0035】

属性抽出部１０６は、ＯＣＲ部１０４からの文字情報と、属性辞書２０とを用いて、属性キー１０を取得する。また、属性抽出部１０６は、文書内において取得された属性キー１０の位置情報を用いて、属性キー１０に対応する領域（対応領域１６）を特定する。例えば、属性抽出部１０６は、データが表の形式で記載されていない場合には、文書内において属性キー１０から予め定められた方向に、予め定められた距離だけ離れた位置にある、予め定められた大きさ及び形状の領域を、対応領域１６としてもよい。また、例えば、属性抽出部１０６は、データが表の形式で記載されている場合には、表解析部からのセルの位置情報を用いて、属性キー１０から予め定められた方向にあるセルの領域を、対応領域１６としてもよい。

【0036】

そして、属性抽出部１０６は、対応領域１６から対応文字列候補１４を抽出する。次に、属性抽出部１０６は、属性辞書２０を用いて対応文字列候補１４から、属性キー１０に対応する対応文字列１２を特定する。

【0037】

属性情報出力部１０８は、属性抽出部１０６で特定された、属性キー１０と対応文字列１２の組み合わせを、属性情報として出力する。なお、情報処理装置は、属性情報を、例えば表示装置（ディスプレイ）、印刷装置、他の情報処理装置等に出力してもよい。

【0038】

図４は、情報処理装置が行う処理を示すフローチャートである。図５は、図４のフローチャートの説明で例示する属性辞書２０Ａとデータ（ａ）である。

【0039】

ここでは、まず、属性辞書について詳しく説明する。図５に示すように、属性辞書２０Ａは、属性キー毎に、「属性キー」、「属性キー文字列」、「属性パターン」、および「出現回数」を紐付けた情報である。属性辞書２０Ａは、予め作成されて、例えば補助記憶装置１００６（図９参照）に記憶される。

【0040】

「属性キー文字列」は、同じ属性キーとして認識されるべき複数の文字列を規定したものである。「属性キー文字列」の各文字列を、データの文字列と照合することで、データ内の属性キー１０が検出される。例えば、データ（ａ）において、「氏名」に代えて、「名前」や「お名前」等と記載された場合であっても、それが属性辞書２０Ａの「属性キー文字列」と照合されることで、「氏名」の属性キーとして検出されることになる。

【0041】

「属性パターン」は、属性キーに対応する文字列（対応文字列）がとり得る形態について規定した情報である。「属性パターン」は、例えば、属性キーの対応文字列を構成する文字の種類（漢字、ひらがな、カタカナ等）、文字を区切る記号等の情報を含んでよい。また、「属性パターン」は、例えば、属性キーの対応文字列が日付、時刻等であることを示す情報を含んでもよい。また、「属性パターン」は、例えば、属性キーの対応文字列において予め定められた文字又は文字列が予め定められた順番で出現することを示す情報を含んでもよい。例えば、属性キー「住所」の「属性パターン」は、「都道府県」のうちの１字が出現した後、「市区町村」のうちの１字が出現することを示す情報を含んでもよい。

【0042】

「出現回数」は、属性キー１０の対応領域１６で、その属性キー１０の対応文字列１２が出現する回数を規定した情報である。例えば、データにおける属性キー１０「氏名」の対応領域１６で、対応文字列１２が２つ現れるべき（人の名前が２回現れるべき）場合には、属性辞書２０Ａにおいて属性キー「氏名」に紐付けられた出現回数は「２回」となる。なお、例えば、データにおいて各属性キーの対応文字列の出現回数が常に「１回」となる場合には、属性辞書２０Ａの「出現回数」は省略されてもよい。

【0043】

なお、属性辞書は、以下の２つの形態をとり得る。
形態（１）：文書から抽出されるべき属性キーのみが規定された属性辞書。
形態（２）：文書から抽出されるべき属性キーに加えて、他の属性キーも規定された属性辞書。

【0044】

図５には、形態（２）の属性辞書２０Ａが示されている。具体的には、データ（ａ）から抽出されるべき属性キーは「氏名」、「住所」、「電話番号」、「生年月日」「年齢」である。なお、文書から抽出されるべき属性キーは、例えば補助記憶装置１００６（図９参照）に予め記憶しておくとよい。そして、属性辞書２０Ａには、データ（ａ）から抽出されるべき属性キー（「氏名」、「住所」、「電話番号」、「生年月日」「年齢」）に加えて、「郵便番号」の属性キーが規定されている。よって、属性辞書２０Ａは、形態（２）である。

【0045】

次に、図４のフローチャートを用いて、情報処理装置が行う具体的な処理について説明する。

【0046】

図４のＳ１００で、情報処理装置は、文書を表す電子ファイルに対して文字認識処理を実行する。

【0047】

Ｓ１０２で、情報処理装置は、図５の（ｉ）に示すように、属性辞書２０Ａの属性キー文字列と、データ（ａ）内で認識された文字例を照合することで、データ（ａ）における属性キー１０を検出（取得）する。これにより、図５のデータ（ａ）では、「氏名」、「住所」、「電話番号」の属性キー１０が検出されることになる。

【0048】

Ｓ１０４で、情報処理装置は、データ（ａ）で検出された各属性キー１０の位置から、各属性キー１０の対応領域１６を特定する。そして、情報処理装置は、各対応領域１６から対応文字列候補１４を抽出する。これにより、図５のデータ（ａ）では、各属性キー１０「氏名」、「住所」、「電話番号」の対応文字列候補１４が取得されることになる。

【0049】

Ｓ１０６で、情報処理装置は、データから抽出されるべき属性キーが、Ｓ１０２で全て検出されたか否かを確認する。図５の例では、データ（ａ）から抽出されるべき属性キーは、上記したように「氏名」、「住所」、「電話番号」、「生年月日」「年齢」である。それに対し、Ｓ１０２で検出された属性キー１０は、「氏名」、「住所」、「電話番号」のみである。そのため、図５の例では、データ（ａ）から抽出されるべき属性キーが全て検出されていないので、Ｓ１０６がＮｏとなる。

【0050】

なお、Ｓ１０６で、データから抽出されるべき属性キーが全て検出されている場合（Ｓ１０６：Ｙｅｓ）には、情報処理装置は、各属性キー１０の対応文字列候補１４を、各属性キー１０の対応文字列１２として、処理を終了する。

【0051】

Ｓ１０６がＮｏの場合には、Ｓ１０８に進む。Ｓ１０８以降は、データの各属性キー１０の対応文字列候補１４に対する処理であり、対応文字列候補１４のそれぞれに対して順番に処理を行う。図５の例では、まず、データ（ａ）の属性キー１０「氏名」の対応文字列候補１４に対して処理を行う。

【0052】

Ｓ１０８で、情報処理装置は、対応文字列候補１４が、属性辞書２０Ａの属性パターン（対応文字列候補１４の属性キーに紐付けられた属性パターン）に一致するか否かを確認する。これは、対応文字列候補１４の中に、属性辞書２０Ａの属性パターン（対応文字列候補１４の属性キーに紐付けられた属性パターン）に該当しない文字列が含まれるか否かを確認するものである。

【0053】

図５の例では、情報処理装置は、データ（ａ）の属性キー１０「氏名」の対応文字列候補１４「富士玄太郎平成３０年２月９日（３歳）」が、属性辞書２０Ａの属性キー「氏名」に紐付けられた属性パターン「空白区切り、漢字・ひらがな・カタカナ」に一致するか否かを確認する。この場合、対応文字列候補１４が数字（アラビア数字）を含むので、属性パターン「空白区切り、漢字・ひらがな・カタカナ」に一致しない。そのため、Ｓ１０８がＮｏとなる。

【0054】

Ｓ１０８がＮｏの場合には、Ｓ１１２に進む。Ｓ１１２で、情報処理装置は、対応文字列候補１４を複数の文字列に分割する。図５の例では、情報処理装置は、データ（ａ）の属性キー１０「氏名」の対応文字列候補１４「富士玄太郎平成３０年２月９日（３歳）」を、複数の文字列「富士玄太郎」、「平成３０年２月９日」「（３歳）」に分割する。

【0055】

なお、分割方法としては、例えば対応文字列候補１４の中の改行、空白、カッコ等の位置で、対応文字列候補１４を複数の文字列に分けるやり方がある。また、機械学習等によりトレーニングされたＯＣＲエンジンにより、所定の意味を持つ単語を認識して、その単語ごとに分割するようにしてもよい。

【0056】

次に、Ｓ１１４で、情報処理装置は、データから未検出の属性キーの属性パターンを、属性辞書から取得する。図５の例では、データ（ａ）から抽出されるべき属性キーは、上記したように「氏名」、「住所」、「電話番号」、「生年月日」「年齢」であるのに対し、Ｓ１０２で検出された属性キー１０は、「氏名」、「住所」、「電話番号」である。よって、データ（ａ）から未検出の属性キーは、「生年月日」と「年齢」である。そのため、情報処理装置は、属性キー「生年月日」の属性パターンと、属性キー「年齢」の属性パターンを、属性辞書２０Ａから取得する。なお、図４のフローでは、Ｓ１１４で、情報処理装置が、１つの属性キーの属性パターンを取得して次のＳ１１６に進み、次のＳ１１４を実行するタイミングで、別の１つの属性キーの属性パターンを取得するようにして、属性パターンを順番に取得するようにしている。

【0057】

Ｓ１１６で、情報処理装置は、対応文字列候補１４の分割（Ｓ１１２）により得られた文字列が、未検出の属性キーの属性パターンと一致するか否かを確認する。図５の例では、データ（ａ）の文字例「平成３０年２月９日」が、未検出の属性キー「生年月日」の属性パターン「日付」と一致するため、Ｓ１１６がＹｅｓとなる。

【0058】

Ｓ１１６がＹｅｓの場合には、Ｓ１１８に進む。Ｓ１１８で、情報処理装置は、対応文字列候補１４から、Ｓ１１６で属性パターンと一致した文字列を除外する。図５の例では、対応文字列候補１４「富士玄太郎平成３０年２月９日（３歳）」から、Ｓ１１６で属性パターンと一致した文字列「平成３０年２月９日」を除外する。これにより、対応文字列候補１４は、「富士玄太郎（３歳）」に更新される。

【0059】

次に、Ｓ１０８に戻り、情報処理装置は、現在の対応文字列候補１４が、属性辞書２０Ａの属性パターン（対応文字列候補１４の属性キーに紐付けられた属性パターン）に一致するか否かを再び確認する。図５の例では、情報処理装置は、現在の対応文字列候補１４「富士玄太郎（３歳）」が、属性辞書２０Ａの属性キー「氏名」に紐付けられた属性パターン「空白区切り、漢字・ひらがな・カタカナ」に一致するか否かを確認する。この場合、現在の対応文字列候補１４が数字（アラビア数字）を含むので、属性パターン「空白区切り、漢字・ひらがな・カタカナ」に一致しない。そのため、Ｓ１０８がＮｏとなる。

【0060】

Ｓ１０８がＮｏの場合には、情報処理装置は、Ｓ１１２～Ｓ１１８を再び実行する。図５の例では、情報処理装置は、現在の対応文字列候補１４「富士玄太郎（３歳）」を、複数の文字列「富士玄太郎」、「（３歳）」に分割する（Ｓ１１２）。そして、情報処理装置は、未検出の属性キー「年齢」の属性パターンを取得する（Ｓ１１４）。なお、未検出であった属性キー「生年月日」は前回のＳ１１６で検出済みである。

【0061】

次に、情報処理装置は、対応文字列候補１４の分割（Ｓ１１２）により得られた文字列「富士玄太郎」、「（３歳）」が、未検出の属性キー「年齢」の属性パターンと一致するか否かを確認する（Ｓ１１６）。この場合、文字例「（３歳）」が、未検出の属性キー「年齢」の属性パターン「数字＋（歳／才）」と一致するため、Ｓ１１６がＹｅｓとなる。次に、Ｓ１１８で、情報処理装置は、現在の対応文字列候補１４「富士玄太郎（３歳）」から、Ｓ１１６で属性パターンと一致した文字列「（３歳）」を除外する。これにより、対応文字列候補１４は、「富士玄太郎」に更新される。

【0062】

次に、Ｓ１０８に戻り、情報処理装置は、現在の対応文字列候補１４「富士玄太郎」が、属性辞書２０Ａの属性パターン（対応文字列候補１４の属性キーに紐付けられた属性パターン）に一致するか否かを確認する。図５の例では、現在の対応文字列候補１４「富士玄太郎」が、属性キー「氏名」に紐付けられた属性パターン「空白区切り、漢字・ひらがな・カタカナ」に一致するか否かを確認する。これらは一致するため、Ｓ１０８がＹｅｓとなる。

【0063】

Ｓ１０８がＹｅｓの場合、情報処理装置は、属性キー１０「氏名」の現在の対応文字列候補１４「富士玄太郎」を、属性キー１０「氏名」の対応文字列１２として特定する。

【0064】

Ｓ１０８がＹｅｓの場合には、Ｓ１１０に進む。Ｓ１１０で、情報処理装置は、全ての対応文字列候補１４について処理を行ったかを確認する。図５の例では、データ（ａ）の属性キー１０「住所」の対応文字列候補１４と、属性キー１０「電話」の対応文字列候補１４については処理を行っていないので、Ｓ１１０がＮｏとなる。

【0065】

Ｓ１１０がＮｏの場合には、Ｓ１０８に進む。Ｓ１０８で、情報処理装置は、残りの対応文字列候補１４について処理を行う。図５の例では、Ｓ１０８で、情報処理装置は、データ（ａ）の属性キー１０「住所」の対応文字列候補１４「神奈川県横浜市△△区〇〇〇〇〇」（一部、文字を△又は〇に置き換えている）が、属性辞書２０Ａの属性キー「住所」に紐付けられた属性パターン「漢字・ひらがな・数字都道府県＋市区町村＋番地」に一致するか否かを確認する。この場合、属性パターンに一致するため、Ｓ１０８がＹｅｓとなる。よって、情報処理装置は、属性キー１０「住所」の対応文字列候補１４「神奈川県横浜市△△区〇〇〇〇〇」を、属性キー１０「住所」の対応文字列１２として特定する。

【0066】

また、図５の例では、Ｓ１０８で、情報処理装置は、データ（ａ）の属性キー１０「電話」の対応文字列候補１４「０４５（△△△）□□□□」（一部、文字を△又は□に置き換えている）が、属性辞書２０Ａの属性キー「電話番号」に紐付けられた属性パターン「数字＋区切り文字（－または（））」に一致するか否かを確認する。この場合、属性パターンに一致するため、Ｓ１０８がＹｅｓとなる。よって、情報処理装置は、属性キー１０「電話」の対応文字列候補１４「０４５（△△△）□□□□」を、属性キー１０「電話」の対応文字列１２として特定する。

【0067】

以上説明した実施形態によれば、文書を表す電子ファイルにおいて、属性キーに対応する文字列が存在する領域として特定した対応領域１６にある文字列（対応文字列候補１４）の中に、別の属性キーに対応する文字列が含まれている場合であっても（図５の例における属性キー１０「氏名」の対応文字列候補１４のような場合であっても）、属性キー１０の対応文字列１２を抽出することができる。

【0068】

なお、以上説明した実施形態では、属性キー１０の対応文字列候補１４（図５の例では属性キー１０「氏名」の対応文字列候補１４）の中から、文書から抽出されるべき他の属性キー（図５の例では属性キー「生年月日」、「年齢」）の属性パターンに該当する文字列を除外して、残った文字列を属性キー１０の対応文字列１２（図５の例では属性キー１０「氏名」の対応文字列１２）とした。ここで、文書から抽出されるべき他の属性キーとしては、以下の２つの形態が考えられる。
形態（Ａ）：文書において属性キーの文字例自体が検出されなかった属性キー。
形態（Ｂ）：文書において属性キーの文字例自体は検出されたが、その属性キーの対応領域に文字列が存在しなかった属性キー。

【0069】

形態（Ａ）は、図５のデータ（ａ）における未検出の属性キー「生年月日」、「年齢」のような属性キーである。形態（Ａ）は例えば、文書の属性上、属性キーの文字列が検出されるはずなのにそれが検出されない属性キーである。

【0070】

形態（Ｂ）は、図６のデータ（ｂ）における属性キー１０「年齢」のように、属性キー１０の文字例自体は検出されるが、属性キー１０の対応領域１６に文字列が存在しない属性キーである。形態（Ｂ）は例えば、他の領域に対応文字列を記載しているため、対応領域１６に対応文字列が記載されなかった属性キーである。

【0071】

なお、情報処理装置は、文書から抽出されるべき他の属性キーの対応文字列を、複数の属性キーの対応文字列を含む対応文字列候補１４から特定してもよい。すなわち、情報処理装置は、データの属性キー１０の対応領域１６から抽出した対応文字列候補１４に含まれる文字列のうち、データから抽出されるべき他の属性キーの属性パターンに該当する文字列を、他の属性キーの対応文字列として特定してもよい。

【0072】

図５の例では、情報処理装置は、データ（ａ）の属性キー１０「氏名」の対応文字列候補１４に含まれる文字列のうち、抽出されるべき属性キー「生年月日」の属性パターン「日付」に該当する文字列「平成３０年２月９日」を、属性キー「生年月日」の対応文字列として特定してもよい。また、情報処理装置は、データ（ａ）の属性キー１０「氏名」の対応文字列候補１４に含まれる文字列のうち、抽出されるべき属性キー「年齢」の属性パターン「数字＋（歳／才）」に該当する文字列「（３歳）」を、属性キー「年齢」の対応文字列として特定してもよい。なお、これは、例えば、図４のフローのＳ１１６で、対応文字列候補１４を分割して得られた文字列が、未検出の属性キーの属性パターンと一致した際（Ｓ１１６：Ｙｅｓ）に行うとよい。

【0073】

また、形態（Ｂ）に関し、情報処理装置は、データの属性キー１０の対応領域１６から抽出した対応文字列候補１４に含まれる文字列のうち、データから検出（取得）された他の属性キーであってそれに対応する文字列（対応文字列）が検出（取得）されなかった他の属性キーの属性パターンに該当する文字列を、当該他の属性キーの対応文字列として特定してもよい。図６の例では、情報処理装置は、データ（ｂ）の属性キー１０「氏名」の対応文字列候補１４に含まれる文字列のうち、属性キーの文字例自体は検出されたが対応文字列が検出されなかった属性キー「年齢」の属性パターン「数字＋（歳／才）」に該当する文字列「（３歳）」を、属性キー「年齢」の対応文字列として特定してもよい。

【0074】

次に、別の実施形態について説明する。図７には、属性辞書２０Ｂとデータ（ｃ）が示されている。データ（ｃ）において、属性キー１０「作業者」の対応領域１６にある対応文字列候補１４は、属性キー「作業者」の対応文字列１２「富士ポール玄太郎」と、別の属性キー「部門」の対応文字列「横浜事業所みなとみらい支部」を含む。対応文字列候補１４において、属性キー１０「作業者」の対応文字列１２は下側にあり、属性キー「部門」の対応文字列は上側にある。属性辞書２０Ｂは、各属性キー「担当者」、「部門」に紐付けられた位置関係（下、上）を含む。位置関係は、対応文字列候補１４の中における属性キーの対応文字列の相対的位置を規定している。

【0075】

情報処理装置は、図７のデータ（ｃ）のように、対応文字列候補１４が二段に分かれて記載されている場合には、対応文字列候補１４が２つの文字列からなるものと判断し、上側の文字列と、下側の文字列に分割してもよい。そして、情報処理装置は、属性辞書２０Ｂに規定された位置関係を用いて、属性キー１０の対応文字列１２と、他の属性キーの対応文字列を特定してもよい。図７の例では、情報処理装置は、属性辞書２０Ｂの各属性キーに紐付けられた位置関係を用いて、属性キー１０「作業者」の対応文字列１２として、対応文字列候補１４の中の下側の文字列「富士ポール玄太郎」を特定し、他の属性キー「部門」の対応文字列として、対応文字列候補１４の中の上側の文字列「横浜事業所みなとみらい支部」を特定してもよい。

【0076】

このような位置関係に基づいて対応文字列１２を特定する方法は、例えば、図７の属性辞書２０Ｂに示すように各属性キー「担当者」、「部門」の属性パターンが似ており、図４のフローにおいて、対応文字列候補から除外する文字列（Ｓ１１８）を特定できない場合等に有効である。

【0077】

なお、対応文字列候補１４は、三段以上の文字列を含んでもよく、属性辞書にはそれに合わせた位置関係が規定されてもよい。また、対応文字列候補１４は、左右に並んだ２つ以上の文字列を含んでもよく、属性辞書にはそれに合わせた位置関係が規定されてもよい。

【0078】

次に、さらに別の実施形態について説明する。図８には、属性辞書２０Ｃとデータ（ｄ）が示されている。データ（ｄ）において、属性キー１０「担当者」の対応領域１６にある対応文字列候補１４は、属性キー「担当者」の対応文字列１２「二四ＥＬＩＺＡＢＥＴＨ」と、別の属性キー「作業日」の対応文字列「平成３０年２月９日」を含む。また、データ（ｃ）において、属性キー１０「商品番号」の対応領域１６には、その属性キー１０の対応文字列１２「令和あ１５６８号」が記載されている。

【0079】

ここで、図４のフローを用いて、データ（ｄ）の属性キー１０「担当者」の対応文字列１２を特定することを考える。図４のフローでは、対応文字列候補１４から、他の属性キーの属性パターンに該当する文字列を除外することで、残った文字列を属性キー１０の対応文字列１２として特定する。この場合、情報処理装置は、データにおいて対応文字列がすでに見つかっている属性キーの属性パターンに該当する文字列を、対応文字列候補１４の中から除外する文字列としない、とするとよい。

【0080】

図８の属性辞書２０Ｃに示すように、複数の属性キー「担当者」、「商品番号」の属性パターンがよく似ていることがある。そのため、データ（ｄ）の属性キー１０「担当者」の対応文字列１２を特定する際に、対応文字列候補１４の中から、他の属性キー「商品番号」の属性パターンに該当する文字列を除外すると、属性キー１０「担当者」の対応文字列１２が意図せず除外されてしまう可能性がある。よって、情報処理装置は、データ（ｄ）において対応文字列がすでに見つかっている属性キー「商品番号」の属性パターンに該当する文字列を、対応文字列候補１４の中から除外する文字列としないことで、属性キー１０「担当者」の対応文字列１２として特定されるべき文字列が除外されてしまう事態を抑制することができる。

【0081】

上記実施形態の情報処理装置は、例えば、汎用のコンピュータを用いて構成される。図９に例示するように、情報処理装置のベースとなるコンピュータは、プロセッサ１００２、ランダムアクセスメモリ（ＲＡＭ）等のメモリ（主記憶装置）１００４、フラッシュメモリやＳＳＤ（ソリッドステートドライブ）、ＨＤＤ（ハードディスクドライブ）等の不揮発性記憶装置である補助記憶装置１００６を制御するコントローラ、各種の入出力装置１００８とのインタフェース、ローカルエリアネットワークなどのネットワークとの接続のための制御を行うネットワークインタフェース１０１０等が、例えばバス１０１２等のデータ伝送路を介して接続された回路構成を有する。上記実施形態の処理の内容が記述されたプログラムが、ネットワーク等を経由してそのコンピュータにインストールされ、補助記憶装置１００６に記憶される。補助記憶装置１００６に記憶されたプログラムが、プロセッサ１００２によりメモリ１００４を用いて実行されることにより、本実施形態の情報処理装置が構成される。

【0082】

なお、上記プログラムは、インターネット等のネットワークを介して提供することはもちろん、光ディスクやＵＳＢメモリ等のコンピュータ読み取り可能な記録媒体に格納して提供することが可能である。

【0083】

上記実施形態において、プロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ（例えばＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、等）や、専用のプロセッサ（例えばＧＰＵ：ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＡＳＩＣ：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、ＦＰＧＡ：ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、プログラマブル論理デバイス、等）を含むものである。

【0084】

また上記実施形態におけるプロセッサの動作は、１つのプロセッサによってなすのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働してなすものであってもよい。また、プロセッサの各動作は、以上の実施形態において説明した順序のみに限定されるものではなく、適宜に変更してもよい。

【0085】

（付記）
（（（１）））
プロセッサを備え、
前記プロセッサは、
電子ファイルから、属性キーを取得するとともに前記属性キーに対応する領域を特定し、
特定した前記領域から文字列を抽出し、
抽出した前記文字列中に前記属性キーの属性パターンに該当しない文字列が含まれる場合、抽出した前記文字列を構成する文字列の中から前記属性パターンに該当する文字列のみを前記属性キーに対応する文字列として特定する、
情報処理装置。
（（（２）））
（（（１）））に記載の情報処理装置であって、
前記プロセッサは、
抽出した前記文字列の中から、前記電子ファイルから抽出されるべき他の属性キーの属性パターンに該当する文字列を除外して、残った文字列を前記属性キーに対応する文字列として特定する、
情報処理装置。
（（（３）））
（（（２）））に記載の情報処理装置であって、
前記プロセッサは、
前記電子ファイルにおいて対応する文字列がすでに見つかっている属性キーの属性パターンに該当する文字列を、前記抽出した前記文字列の中から除外する文字列としない、
情報処理装置。
（（（４）））
（（（１）））に記載の情報処理装置であって、
前記プロセッサは、
抽出した前記文字列に含まれる文字列のうち、前記電子ファイルから抽出されるべき他の属性キーの属性パターンに該当する文字列を、前記他の属性キーに対応する文字列として特定する、
情報処理装置。
（（（５）））
（（（１）））に記載の情報処理装置であって、
前記プロセッサは、
抽出した前記文字列に含まれる文字列のうち、前記電子ファイルから取得された他の属性キーであってそれに対応する文字列が取得されなかった他の属性キーの属性パターンに該当する文字列を、当該他の属性キーに対応する文字列として特定する、
情報処理装置。
（（（６）））
（（（１）））～（（（５）））のいずれか１つに記載の情報処理装置であって、
前記プロセッサは、
抽出した前記文字列に含まれる各文字列の位置関係に基づいて前記属性キーと他の属性キーに対応する文字列を特定する、
情報処理装置。
（（（７）））
（（（１）））～（（（６）））のいずれか１つに記載の情報処理装置であって、
前記属性キーとそれに対応する文字列は表の形式で記載されており、
前記領域は、表を構成する１つのセルである、
情報処理装置。
（（（８）））
電子ファイルから、属性キーを取得するとともに前記属性キーに対応する領域を特定し、
特定した前記領域から文字列を抽出し、
抽出した前記文字列中に前記属性キーの属性パターンに該当しない文字列が含まれる場合、抽出した前記文字列を構成する文字列の中から前記属性パターンに該当する文字列のみを前記属性キーに対応する文字列として特定する、
処理をコンピュータに実行させるプログラム。

【0086】

（（（１）））又は（（（８）））に係る発明によれば、電子ファイルにおいて、属性キーに対応する文字列が存在する領域として特定した領域にある文字列中に、別の属性キーに対応する文字列が含まれていても、属性キーに対応する文字列が抽出される。
（（（２）））に係る発明によれば、電子ファイルから抽出されるべき他の属性キーの属性パターンにより、属性キーに対応する文字列が抽出される。
（（（３）））に係る発明によれば、属性キーに対応する文字列として特定されるべき文字列の一部又は全部が除外される事態が抑制される。
（（（４）））に係る発明によれば、電子ファイルから抽出されるべき他の属性キーに対応する文字列が特定される。
（（（５）））に係る発明によれば、電子ファイルから取得された他の属性キーに対応する文字列が特定される。
（（（６）））に係る発明によれば、抽出した文字列に含まれる各文字列の位置関係により、属性キーと他の属性キーに対応する文字列が特定される。
（（（７）））に係る発明によれば、電子ファイル内の表部分から、属性キーが取得されるとともに属性キーに対応する文字列が特定される。

【符号の説明】

【0087】

１０属性キー、１２対応文字列（文字列）、１４対応文字列候補、１６対応領域（領域，属性キーに対応する領域）、２０，２０Ａ，２０Ｂ，２０Ｃ属性辞書、１０２ファイル入力部、１０４ＯＣＲ部、１０６属性抽出部、１０８属性情報出力部、１００２プロセッサ、１００４メモリ、１００６補助記憶装置、１００８入出力装置、１０１０ネットワークインタフェース、１０１２バス。

【図1】