IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士ゼロックス株式会社の特許一覧

<>
  • 特許-情報処理装置及び情報処理プログラム 図1
  • 特許-情報処理装置及び情報処理プログラム 図2
  • 特許-情報処理装置及び情報処理プログラム 図3
  • 特許-情報処理装置及び情報処理プログラム 図4
  • 特許-情報処理装置及び情報処理プログラム 図5
  • 特許-情報処理装置及び情報処理プログラム 図6
  • 特許-情報処理装置及び情報処理プログラム 図7
  • 特許-情報処理装置及び情報処理プログラム 図8
  • 特許-情報処理装置及び情報処理プログラム 図9
  • 特許-情報処理装置及び情報処理プログラム 図10
  • 特許-情報処理装置及び情報処理プログラム 図11
  • 特許-情報処理装置及び情報処理プログラム 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-07-24
(45)【発行日】2023-08-01
(54)【発明の名称】情報処理装置及び情報処理プログラム
(51)【国際特許分類】
   G06F 16/583 20190101AFI20230725BHJP
   G06F 40/12 20200101ALI20230725BHJP
   G06F 40/123 20200101ALI20230725BHJP
   G06F 16/93 20190101ALI20230725BHJP
【FI】
G06F16/583
G06F40/12
G06F40/123
G06F16/93
【請求項の数】 11
(21)【出願番号】P 2019052609
(22)【出願日】2019-03-20
(65)【公開番号】P2020154725
(43)【公開日】2020-09-24
【審査請求日】2022-02-28
(73)【特許権者】
【識別番号】000005496
【氏名又は名称】富士フイルムビジネスイノベーション株式会社
(74)【代理人】
【識別番号】110001210
【氏名又は名称】弁理士法人YKI国際特許事務所
(72)【発明者】
【氏名】岡田 茂
(72)【発明者】
【氏名】久保 周作
(72)【発明者】
【氏名】吉塚 公則
【審査官】早川 学
(56)【参考文献】
【文献】特開2010-108208(JP,A)
【文献】特開2007-233913(JP,A)
【文献】特開2007-148569(JP,A)
【文献】特開2018-137518(JP,A)
【文献】米国特許出願公開第2015/0286630(US,A1)
【文献】特開2007-189351(JP,A)
【文献】国際公開第2007/080642(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06F 40/00-40/58
G06Q 10/00-99/00
G06V 30/00-30/424
(57)【特許請求の範囲】
【請求項1】
文書の表題を特定する表題特定部と、
前記文書に対して処理が行われた日付又は文書に記載されている日付である第1日付よりも後の日付であって、前記文書に記載された日付であり当該日付の周辺領域に前記表題の少なくとも一部を含む文字列が存在する日付、又は、前記第1日付から前記文書に記載された期間後の日付であり当該期間の周辺領域に前記表題の少なくとも一部を含む文字列が存在する期間後の日付を第2日付として特定し、前記第2日付を当該文書の属性情報として付与する属性付与部と、
を備えることを特徴とする情報処理装置。
【請求項2】
前記属性付与部は、複数の前記第2日付が特定された場合、前記文書に記載された前記第2日付の周辺領域に特定文字列が存在する前記第2日付を当該文書の属性情報とする、
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記特定文字列は、期限を示す文字列である、
ことを特徴とする請求項2に記載の情報処理装置。
【請求項4】
複数の前記第2日付が特定された場合に、複数の前記第2日付のうち、当該文書の属性情報として付与する日付を利用者に選択させるための画面を表示部に表示させる表示制御部、
をさらに備えることを特徴とする請求項1に記載の情報処理装置。
【請求項5】
前記表示制御部は、複数の前記第2日付、及び、各前記第2日付に対応する前記文書の記載の周辺領域を表示させる、
ことを特徴とする請求項に記載の情報処理装置。
【請求項6】
前記表示制御部は、前記周辺領域に期限を示す文字列が存在しない前記第2日付に比して、前記周辺領域に期限を示す文字列が存在する前記第2日付を強調表示させる、
ことを特徴とする請求項4又は5に記載の情報処理装置。
【請求項7】
前記属性付与部は、複数の前記第2日付が特定された場合、複数の前記第2日付のうち、前記第1日付との差が少ない前記第2日付を当該文書の属性情報とする、
ことを特徴とする請求項1に記載の情報処理装置。
【請求項8】
前記文書を取得する文書取得部と、
をさらに備え、
前記第1日付は、当該文書を取得した日付である、
ことを特徴とする請求項1に記載の情報処理装置。
【請求項9】
前記第1日付は、前記文書に記載されている情報から特定された、前記文書の作成日である、
ことを特徴とする請求項1に記載の情報処理装置。
【請求項10】
前記属性付与部は、前記文書のフォーマットに基づいて特定された、前記文書の作成日が記載される日付領域に記載されている日付を前記第1日付とする、
ことを特徴とする請求項に記載の情報処理装置。
【請求項11】
コンピュータを、
文書の表題を特定する表題特定部と、
前記文書に対して処理が行われた日付又は文書に記載されている日付である第1日付よりも後の日付であって、前記文書に記載された日付であり当該日付の周辺領域に前記表題の少なくとも一部を含む文字列が存在する日付、又は、前記第1日付から前記文書に記載された期間後の日付であり当該期間の周辺領域に前記表題の少なくとも一部を含む文字列が存在する期間後の日付を第2日付として特定し、前記第2日付を当該文書の属性情報として付与する属性付与部と、
として機能させることを特徴とする情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置及び情報処理プログラムに関する。
【背景技術】
【0002】
特許文献1には、電子文書から年月日や時刻を表す部分を抽出し、抽出した年月日や時刻に関するデータから当該電子文書が作成された時期を推定し、推定した時期を当該電子文書の属性情報として付与する文書管理装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2004-240488号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
文書が将来必要となる可能性がある日付を当該文書の属性情報として付与したい場合がある。
【0005】
本発明の目的は、文書に対して、当該文書が将来必要となる可能性がある日付を当該文書の属性情報として付与することにある。
【課題を解決するための手段】
【0006】
請求項1に係る発明は、文書の表題を特定する表題特定部と、前記文書に対して処理が行われた日付又は文書に記載されている日付である第1日付よりも後の日付であって、前記文書に記載された日付であり当該日付の周辺領域に前記表題の少なくとも一部を含む文字列が存在する日付、又は、前記第1日付から前記文書に記載された期間後の日付であり当該期間の周辺領域に前記表題の少なくとも一部を含む文字列が存在する期間後の日付を第2日付として特定し、前記第2日付を当該文書の属性情報として付与する属性付与部と、を備えることを特徴とする情報処理装置である。
【0007】
請求項2に係る発明は、前記属性付与部は、複数の前記第2日付が特定された場合、前記文書に記載された前記第2日付の周辺領域に特定文字列が存在する前記第2日付を当該文書の属性情報とする、ことを特徴とする請求項1に記載の情報処理装置である。
【0008】
請求項3に係る発明は、前記特定文字列は、期限を示す文字列である、ことを特徴とする請求項2に記載の情報処理装置である。
【0010】
請求項に係る発明は、複数の前記第2日付が特定された場合に、複数の前記第2日付のうち、当該文書の属性情報として付与する日付を利用者に選択させるための画面を表示部に表示させる表示制御部、をさらに備えることを特徴とする請求項1に記載の情報処理装置である。
【0011】
請求項に係る発明は、前記表示制御部は、複数の前記第2日付、及び、各前記第2日付に対応する前記文書の記載の周辺領域を表示させる、ことを特徴とする請求項に記載の情報処理装置である。
【0012】
請求項に係る発明は、前記表示制御部は、前記周辺領域に期限を示す文字列が存在しない前記第2日付に比して、前記周辺領域に期限を示す文字列が存在する前記第2日付を強調表示させる、ことを特徴とする請求項4又は5に記載の情報処理装置である。
【0016】
請求項に係る発明は、前記属性付与部は、複数の前記第2日付が特定された場合、複数の前記第2日付のうち、前記第1日付との差が少ない前記第2日付を当該文書の属性情報とする、ことを特徴とする請求項1に記載の情報処理装置である。
【0017】
請求項に係る発明は、前記文書を取得する文書取得部と、をさらに備え、前記第1日付は、当該文書を取得した日付である、ことを特徴とする請求項1に記載の情報処理装置である。
【0018】
請求項に係る発明は、前記第1日付は、前記文書に記載されている情報から特定された、前記文書の作成日である、ことを特徴とする請求項1に記載の情報処理装置である。
【0019】
請求項10に係る発明は、前記属性付与部は、前記文書のフォーマットに基づいて特定された、前記文書の作成日が記載される日付領域に記載されている日付を前記第1日付とする、ことを特徴とする請求項に記載の情報処理装置である。
【0020】
請求項11に係る発明は、コンピュータを、文書の表題を特定する表題特定部と、前記文書に対して処理が行われた日付又は文書に記載されている日付である第1日付よりも後の日付であって、前記文書に記載された日付であり当該日付の周辺領域に前記表題の少なくとも一部を含む文字列が存在する日付、又は、前記第1日付から前記文書に記載された期間後の日付であり当該期間の周辺領域に前記表題の少なくとも一部を含む文字列が存在する期間後の日付を第2日付として特定し、前記第2日付を当該文書の属性情報として付与する属性付与部と、として機能させることを特徴とする情報処理プログラムである。
【発明の効果】
【0021】
請求項1又は11に係る発明によれば、文書に対して、当該文書が将来必要となる可能性がある日付を当該文書の属性情報として付与することができる。
【0022】
請求項2に係る発明によれば、特定された複数の第2日付のうち、より将来必要となる可能性が高い第2日付を文書属性として付与することができる。
【0023】
請求項3に係る発明によれば、特定された複数の第2日付のうち、期限に関連する第2日付を文書属性として付与することができる。
できる。
【0025】
請求項に係る発明によれば、特定された複数の第2日付のうち、利用者が選択した第2日付を文書属性として付与することができる。
【0026】
請求項に係る発明によれば、利用者は、特定された複数の第2日付の周辺領域の記載に基づいて、文書属性として付与する第2日付を選択することができる。
【0027】
請求項に係る発明によれば、特定された複数の第2日付のうち、期限に関連する第2日付を強調表示することができる。
【0031】
請求項に係る発明によれば、特定された複数の第2日付のうち、第1日付に近い日付を文書属性として付与することができる。
【0032】
請求項に係る発明によれば、文書を取得した日付を第1日付とすることができる。
【0033】
請求項に係る発明によれば、文書の作成日を第1日付とすることができる。
【0034】
請求項10に係る発明によれば、文書の日付領域に記載された日付を第1日付とすることができる。
【図面の簡単な説明】
【0035】
図1】本実施形態に係る情報処理システムの構成概略図である。
図2】本実施形態に係る情報処理装置の構成概略図である。
図3】対象文書の第1の例を示す第1の図である。
図4】対象文書の第2の例を示す図である。
図5】対象文書の第3の例を示す図である。
図6】対象文書の第4の例を示す図である。
図7】日付選択画面の第1の例である。
図8】日付選択画面の第2の例である。
図9】対象文書の第1の例を示す第2の図である。
図10】本実施形態に係る情報処理装置の処理の流れを示す第1のフローチャートである。
図11】本実施形態に係る情報処理装置の処理の流れを示す第2のフローチャートである。
図12】本実施形態に係る情報処理装置の処理の流れを示す第3のフローチャートである。
【発明を実施するための形態】
【0036】
図1は、本実施形態に係る情報処理システム10の構成概略図である。情報処理システム10は、利用者(ユーザ)に対して文書管理サービスを提供する文書管理サーバ12、及び、情報処理装置14とを含んで構成される。文書管理サーバ12と情報処理装置14とは、インターネットあるいはLANを含む通信回線16を介して通信可能に接続されている。情報処理システム10は、複数の文書管理サーバ12を含んでいてよい。また、情報処理装置14は、複数の装置から構成されるようにしてもよい。
【0037】
文書管理サーバ12は、一般的なサーバコンピュータにより構成される。文書管理サーバ12は、情報処理装置14から送信された電子文書を格納し、ユーザからの要求に応じて、記憶した電子文書を情報処理装置14へ送信し、あるいは、ユーザからの要求に応じて、記憶した電子文書を編集するなどのサービスをユーザに提供する。
【0038】
本実施形態に係る情報処理装置14は、マルチファンクションプリンタであるが、情報処理装置14はその他の装置であってもよい。例えば、情報処理装置14は、パーソナルコンピュータあるいはタブレット端末などであってよい。情報処理装置14は、取得した電子文書を文書管理サーバ12に送信することができ、また、文書管理サーバ12に格納された電子文書に対して処理を行うことができる。
【0039】
図2は、情報処理装置14の構成概略図である。
【0040】
通信部20は、例えば通信モジュールなどを含んで構成される。通信部20は、文書管理サーバ12及び他の装置と通信するために用いられる。通信部は、文書管理サーバ12あるいは他の装置から、本実施形態において処理対象となる電子文書(本明細書では「対象文書」と記載する)を受信することができる。すなわち、通信部20は文書取得部としての機能を発揮する。
【0041】
記憶部22は、例えばROM、RAM、あるいはハードディスクなどを含んで構成される。記憶部22には、情報処理装置14の各部を動作させるための情報処理プログラムが記憶される。また記憶部22には、情報処理装置14が取得した対象文書が一時的に記憶される。さらに、図2に示すように、記憶部22には、文字列DB(データベース)26が記憶される。
【0042】
文字列DB24には、対象文書の作成日を表す文字列を示す作成日文字情報が格納される。作成日を表す文字列とは、例えば、「作成日」あるいは「日付」などである。もちろん、作成日を表す文字列はこれには限られない。
【0043】
文字列DB24には、期限に関連する文字列を示す期限文字情報が格納される。期限に関連する文字列とは、例えば、「支払」、「期限」、あるいは「有効」などである。もちろん、期限に関連する文字列はこれには限られない。
【0044】
また、文字列DB24には、期間に関連する文字列を示す期間文字情報が格納される。期間に関連する文字列とは、例えば、「週間」、「ヶ月」、あるいは「日間」などである。もちろん、期間に関連する文字列はこれには限られない。
【0045】
さらに、文字列DB24には、文書作成者名に関連する文字列を示す作成者文字情報が格納される。本実施形態では、文書作成者は会社名で表されるため、作成者文字情報として会社名を示す文字情報が格納される。会社名を示す文字列とは、例えば、「株式会社」、「(株)」、「殿」、「様」あるいは「御中」などである。ちろん、会社名を示す文字列はこれには限られない。また、作成者文字情報として、情報処理装置14を利用するユーザの所属する会社名を表す文字列が含まれていてもよい。
【0046】
文字列DB24は、情報処理装置14の管理者などによって予め用意される。
【0047】
読み取り部26は、例えば光源、CCD(Charge Coupled Device)イメージセンサ、あるいは撮像部などを含んで構成される。読み取り部26は、紙文書に対してスキャン処理を行うことで、当該紙文書に対応する電子文書(すなわち対象文書)を生成する。また、読み取り部26は、紙文書を撮影することで、当該紙文書に対応する電子文書(すなわち対象文書)を生成する。このように、読み取り部26も文書取得部としての機能を発揮する。
【0048】
表示部28は、例えば液晶パネルなどを含んで構成される。表示部28には、種々の画面が表示され、これによりユーザに対して種々の情報を提供する。
【0049】
入力部30は、タッチパネルやボタンなどを含んで構成される。また、情報処理装置14がパーソナルコンピュータである場合には、入力部30としてキーボードやマウスが含まれていてもよい。入力部30は、ユーザの指示を情報処理装置14に入力するために用いられる。
【0050】
計時部32は、例えばタイマICや水晶振動子、あるいはクロックモジュールなどを含んで構成される。計時部32は、年月日を含む現在時刻を計時して、それを示す現在時刻情報を後述の制御部34に出力する。
【0051】
制御部34は、例えばCPUあるいはマイクロコントローラを含んで構成される。制御部34は、記憶部22に記憶された情報処理プログラムに従って、情報処理装置14の各部を制御する。また、図2に示されるように、制御部34は、OCR処理部36、属性付与部38、表題特定部40、表示制御部42、及び、作成者名付与部44としても機能する。なお、情報処理装置14がパーソナルコンピュータやタブレット端末である場合、制御部34は、文書作成部としての機能も有していてもよい。文書作成部は、情報処理装置14で文書作成アプリケーションを実行して、ユーザからの指示に基づいて電子文書(すなわち対象文書)を作成する。すなわち、当該文書作成部も文書取得部としての機能を発揮する。
【0052】
OCR処理部36は、OCR(光学的文字認識)技術を用いて、対象文書から文字列を抽出する。OCR技術としては、従来の技術を利用することができる。
【0053】
属性付与部38は、対象文書に対して属性情報を付与する。特に、属性付与部38は、OCR処理部36が抽出した対象文書の記載に基づいて、対象文書が将来必要となる可能性がある日付を特定し、当該日付を対象文書の属性情報として付与する。なお、日付を対象文書の属性情報として付与する、とは、例えば、対象文書のファイル名に当該日付を含めてもよいし、対象文書のメタデータに当該日付を含めるようにしてもよい。以下、属性付与部38の処理の詳細について説明する。
【0054】
まず、属性付与部38は、対象文書についての第1日付を特定する。ここで、第1日付とは、対象文書に対して処理が行われた日付、又は、対象文書に記載されている日付である。
【0055】
対象文書に対して処理が行われた日付とは、例えば、対象文書に対して電子的な処理が行われた日付を含む。電子的な処理が行われた日付の例としては、文書に対して何らかの更新処理が行われた日付があり、文書に対して何らかの更新処理が行われた日付のその一例として、文書に対応づく更新日時が変更される処理が行われた日付でもよい。電子的な処理が行われた日付の類型としては、対象文書が取得された日付、及び、対象文書を文書管理サーバ12に格納した日付などがある。対象文書が取得された日付には、例えば、通信部20が対象文書を受信した日付、読み取り部26が対象文書を生成した日付、及び、制御部34の文書作成部が対象文書を作成した日付が含まれる。対象文書が取得された日付は、属性付与部38が、対象文書が取得された時に計時部32が計時した時刻を保持しておくことで取得することができる。また、対象文書を文書管理サーバ12に格納した日付は、属性付与部38が、対象文書を文書管理サーバ12に通信部20が送信した時に計時部32が計時した時刻を保持しておくことで取得することができる。
【0056】
対象文書には、複数の日付が記載されている場合も考えられるところ、対象文書に記載されている日付を第1日付とする場合、属性付与部38は、対象文書に記載されている情報に基づいて、対象文書の作成日である日付を特定し、特定した作成日を第1日付とする。例えば、属性付与部38は、文字列DB24に格納された作成日文字情報を参照して、対象文書から抽出された各日付の周辺領域から、「作成日」あるいは「日付」などの、対象文書の作成日を表す文字列が抽出されたか否かを判定し、属性付与部38は、周辺領域から対象文書の作成日を表す文字列が抽出された日付を作成日であると特定し、当該日付を第1日付とする。
【0057】
周辺領域は、抽出された日付を含む所定の大きさの領域であってもよい。あるいは、属性付与部38が、対象文書の文の構造に応じて周辺領域を決定してもよい。例えば、対象文書のうち、抽出された日付を含む段落を全て含む領域を周辺領域としてもよい。また、日付を含む箇所が表になっている場合は、当該表を全て含む領域を周辺領域としてもよい。
【0058】
図3は、対象文書の第1の例である。図3に示す対象文書は請求書であり、請求書の作成日が日付50として、支払期限が日付52として記載されている。まず、属性付与部38は、OCR処理部36によるOCR処理によって抽出された文字列から、日付50(「2018年8月27日」)、及び、日付52(「2018年10月25日」)を抽出する。次いで、属性付与部38は、日付50の周辺領域50a、及び、日付52の周辺領域52aにおいて、それぞれ、文字列DB24に格納された作成日文字情報が示す文字列が存在するか否かを判定する。図3の例では、周辺領域50aに「作成日」という文字列が存在し、周辺領域52aには作成日文字情報が示す文字列が存在しないから、属性付与部38は、日付50を第1日付とする。
【0059】
また、ユーザから対象文書のフォーマットに関する情報が予め与えられている、あるいは、情報処理装置14が処理する対象文書のフォーマットが予め決まっていることなどによって、属性付与部38が対象文書のフォーマットを予め把握可能な場合には、属性付与部38は、対象文書のフォーマットに基づいて、対象文書において作成日が記載される日付領域を特定することができる。そして、属性付与部38は、特定した日付領域に存在する日付を対象文書の作成日、つまり第1日付とすることができる。
【0060】
例えば、図3の例において、対象文書のフォーマットに基づいて、対象文書の右隅に位置する一定領域である右上領域54が日付領域であると特定された場合には、属性付与部38は、右上領域54に存在する日付50を第1日付とする。
【0061】
また、対象文書のフォーマットに基づいて、文書の作成日のフォントサイズが、対象文書におけるその他の文字列のフォントサイズよりも小さい場合には、属性付与部38は、対象文書から抽出された複数の日付のうち、フォントサイズが小さい日付を第1日付としてもよい。対象文書から抽出された複数の日付のうち、「作成日」という文字列があり、かつフォントサイズが小さい日付があった場合に、当該日付を第1日付としてもよい。
【0062】
次いで、属性付与部38は、第1日付よりも後の日付である第2日付を特定する。具体的には、属性付与部38は、対象文書に記載されている情報に基づいて、第2日付を特定する。その上で、特定した第2日付を対象文書の属性情報として付与する。対象文書の属性情報として付与する第2日付は、以下に説明する種々の方法で特定することができる。
【0063】
まず、属性付与部38は、対象文書から第2日付が抽出されたか否か、つまり、対象文書に第2日付が記載されていたか否かを判定する。例えば、図3に示す対象文書の場合、第1日付が日付50だとすると、日付50よりも後の日付である日付52が第2日付として特定される。図3に示す対象文書のように、対象文書から第2日付が1つだけ特定された場合は、当該第2日付を対象文書の属性情報として付与することができる。なお、第2日付とは、上述の通り、あくまで第1日付よりも後の日付を意味し、第2日付が現時点に比して過去の日付であってもよい。
【0064】
対象文書に期間が記載されている場合は、属性付与部38は、第1日付から対象文書に記載された期間後の日付を第2日付とすることもできる。
【0065】
図4は、対象文書の第2の例である。図4に示す対象文書も請求書であるが、支払期限が日付ではなく期間58として記載されている。ここでは、日付56が第1日付として特定されているとする。属性付与部38は、文字列DB24に格納された期間文字情報を参照して、OCR処理部36のOCR処理により抽出された文字列の中から期間を示す文字列を抽出する。その結果、図4の例では期間58が抽出される。したがって、属性付与部38は、第1日付である日付(2018年8月27日)から期間58(2週間)後の日付である2018年9月10日を第2日付として特定する。その上で、当該第2日付を対象文書の属性情報として付与する。
【0066】
好適には、属性付与部38は、文字列DB24に格納された期限文字情報を参照して、対象文書から抽出された期間58の周辺領域58aから、「支払」、「期限」、あるいは「有効」などの、特定文字列としての期限を示す文字列が抽出されたか否かを判定し、属性付与部38は、第1日付から、周辺領域58aに期限を表す文字列が存在する期間58後の日付を対象文書の属性情報として付与するようにしてもよい。これによれば、対象文書に複数の期間が記載され、第1日付と複数の期間により複数の第2日付が特定され得る場合であっても、より適切な、すなわち対象文書がより必要となる可能性が高い第2日付を特定することができる。
【0067】
なお、属性付与部38は、まず、対象文書から第2日付が抽出されたか否かを判定し、対象文書から第2日付が抽出されてなかった場合に、対象文書から抽出された期間に基づいて第2日付を特定するようにしてもよい。
【0068】
対象文書から複数の第2日付が抽出される場合、すなわち、対象文書に複数の第2日付が記載されている場合も考えられる。この場合、属性付与部38は、文字列DB24に格納された期限文字情報を参照して、対象文書から抽出された各第2日付の周辺領域から、「支払」、「期限」、あるいは「有効」などの、特定文字列としての、期限を示す文字列が抽出されたか否かを判定し、属性付与部38は、周辺領域に期限を表す文字列が存在する第2日付を対象文書の属性情報として付与することができる。
【0069】
図5は、対象文書の第3の例である。図5に示す対象文書も請求書である。図5の例において、対象文書に記載されていないが、対象文書を取得した日である「2018年8月27日」が、第1日付として特定されているとする。したがって、図5に示す対象文書から抽出される2つの日付60及び62は、いずれも第2日付となる。この場合、属性付与部38は、日付60の周辺領域60a、及び、日付62の周辺領域62aにおいて、それぞれ、文字列DB24に格納された期限文字情報が示す文字列が存在するか否かを判定する。図5の例では、周辺領域62aに「支払」という文字列が存在しており、周辺領域60aには期限文字情報が示す文字列が存在しないから、属性付与部38は、日付62を対象文書の属性情報として付与する。
【0070】
また、対象文書から複数の第2日付が特定された場合、複数の第2日付のうち、第1日付との差が少ない第2日付を対象文書の属性情報として付与するようにしてもよい。例えば、対象文書に10年後の日付が記載されているような場合、そのような日付は当該対象文書の属性情報として付与する価値が低い場合があるためである。なお、対象文書に記載された複数の期間に基づいて複数の第2日付が特定された場合も同様に、特定された複数の第2日付のうち、第1日付との差が少ない第2日付を対象文書の属性情報として付与するようにしてもよい。
【0071】
また、対象文書のフォーマットが予め分かっている場合であって、対象文書から複数の第2日付が抽出され、その一部が対象文書において作成日が記載される日付領域に存在する場合、属性付与部38は、複数の第2日付のうち、日付領域以外に存在する第2日付を対象文書の属性情報として付与するようにしてもよい。これは、日付領域に存在する第2日付は、文書の作成日である可能性が高く、当該文書が将来必要となる日付である可能性が低いからである。
【0072】
さらに、対象文書から複数の第2日付が抽出された場合、複数の第2日付のフォントに応じて、対象文書の属性情報として付与する第2日付を決定するようにしてもよい。例えば、複数の第2日付のうち、太字あるいは下線が引かれている第2日付を属性情報として付与するようにしてもよい。対象文書に記載された複数の期間に基づいて複数の第2日付が特定された場合も同様に、複数の期間のうち、太字あるいは下線が引かれている期間に基づいて特定された第2日付を属性情報に付与するようにしてもよい。
【0073】
図2に戻り、表題特定部40は、対象文書の表題を特定する。対象文書の表題は、種々の方法で取得することができる。例えば、文書においては、表題は文書の上領域に比較的大きめのフォントで記載されていることが多いから、表題特定部40は、対象文書の上領域から抽出された文字列であって、フォントが特定条件を満たす(例えばフォントサイズが所定値以上)の文字列を表題とすることができる。
【0074】
図6は、対象文書の第4の例である。図6に示す対象文書は車検の見積書である。表題特定部40は、対象文書の所定の上領域70から文字列「御見積書」を取得し、当該文字列のフォントを判定して、フォントが特定条件を満たす場合に、「御見積書」を当該対象文書の表題として特定する。
【0075】
また、対象文書のファイル名に表題を含めることが義務付けられている場合には、表題特定部40は、対象文書のファイル名を表題として特定するようにしてもよい。また、対象文書のメタデータに表題を含めることが義務付けられている場合には、表題特定部40は、対象文書のメタデータを参照して表題を特定するようにしてもよい。
【0076】
属性付与部38は、表題特定部40が特定した表題に基づいて、対象文書の属性情報として付与する第2日付を特定するようにしてもよい。対象文書から複数の第2日付が抽出された場合、すなわち、対象文書に複数の第2日付が記載されていた場合、属性付与部38は、対象文書から抽出された各第2日付の周辺領域において、特定文字列としての、表題特定部40が特定した当該対象文書の表題の少なくとも一部が存在するか否かを判定し、属性付与部38は、周辺領域に表題の少なくとも一部が存在する第2日付を対象文書の属性情報として付与するようにしてもよい。
【0077】
例えば、図6の例において、表題として「御見積書」が特定され、日付64が第1日付として特定され、対象文書から複数の日付である日付66及び68が抽出されたとする。この場合、属性付与部38は、日付66の周辺領域66a、及び、日付68の周辺領域68aに、それぞれ、表題である「御見積書」の少なくとも一部が存在するか否かを判定する。図6の例では、周辺領域68aに「見積」という文字列が存在しており、周辺領域66aには表題の少なくとも一部が存在していないから、属性付与部38は、日付68を対象文書の属性情報として付与する。
【0078】
また、対象文書から複数の期間が抽出された場合、すなわち、対象文書に複数の期間が記載されていた場合、属性付与部38は、対象文書から抽出された各期間の周辺領域において、特定文字列としての、表題特定部40が特定した当該対象文書の表題の少なくとも一部が存在するか否かを判定し、属性付与部38は、第1日付から、周辺領域に表題の少なくとも一部が存在する期間後の日付を対象文書の属性情報として付与するようにしてもよい。
【0079】
図2に戻り、表示制御部42は、種々の画面を表示部28に表示させる。具体的には、表示制御部42は、属性付与部38の処理によって複数の第2日付が特定された場合に、複数の第2日付のうち、対象文書の属性情報として付与する第2日付をユーザに選択させるための日付選択画面を表示部28に表示させる。ここで、複数の第2日付が特定された場合には、対象文書に複数の第2日付が記載されていた場合、対象文書に複数の期間が記載されていた場合、及び、対象文書に第2日付と期間とが両方記載されていた場合が含まれる。なお、複数の第2日付が特定された場合に日付選択画面を表示するか否かは、ユーザが予め設定しておくことができる。
【0080】
図7には、日付選択画面の例が示されている。図7に示されるように、日付選択画面には、特定された複数の第2日付80,82が含まれる。ユーザは、ラジオボタンでいずれかの第2日付を選択してOKボタンを押すことで、対象文書に付与する第2日付を選択することができる。
【0081】
日付選択画面には、各第2日付に対応する対象文書の記載の周辺領域も含まれるのが好ましい。ここで、各第2日付に対応する対象文書の記載の周辺領域とは、対象文書に第2日付が記載されている場合には、当該第2日付の周辺領域であるし、対象文書に期間が記載されている場合には、当該期間の周辺領域である。以下、そのような周辺領域を単に「周辺領域」と記載する。周辺領域を表示させることで、ユーザは、より適切な第2日付を選択できるようになる。図7には、第2日付80に対応する周辺領域84、及び、第2日付82に対応する周辺領域86が表示された例が示されている。
【0082】
また、表示制御部42は、文字列DB24に格納された期限文字情報を参照して、周辺領域に期限を示す文字列が存在しない第2日付に比して、周辺領域に期限を示す文字列が存在する第2日付を強調表示させるのが好ましい。図7の例では、周辺領域84に「支払」の文字列が存在し、周辺領域86には期限を示す文字列が存在しないから、周辺領域86に対応する第2日付82に比して、周辺領域84に対応する第2日付80を強調表示する。
【0083】
また、対象文書における第2日付のフォントに応じて、日付選択画面において強調表示する第2日付を決定してもよい。例えば、対象文書において太字でない第2日付に比して、対象文書において太字で記載されている第2日付を強調表示するようにしてもよい。あるいは、対象文書において下線が引かれていない第2日付に比して、対象文書において下線が引かれている第2日付を強調表示するようにしてもよい。同様に、対象文書における期間のフォントに応じて、日付選択画面において強調表示する、当該期間に対応する第2日付を決定してもよい。
【0084】
なお、強調表示の態様は、種々の態様が考えられる。例えば、図7に示すように、第2日付82に比して第2日付80を上に表示してもよいし、第2日付82と第2日付80のフォントを異なるものにしてもよいし、第2日付80に特定のアイコンあるいはメッセージを付してもよい。
【0085】
また、表示制御部42は、表題特定部40が特定した対象文書の表題の少なくとも一部が周辺領域に存在しない第2日付に比して、当該表題の少なくとも一部が周辺領域に存在する第2日付を強調表示するようにしてもよい。
【0086】
また、表示制御部42は、周辺領域に期限を示す文字列が存在しない第2日付しか特定できなかった場合、あるいは、周辺領域に対象文書の表題の少なくとも一部が存在しない第2日付しか特定できなかった場合、当該第2日付が、対象文書の属性情報として付与する日付として適切でない可能性があると判定して、特定した第2日付と、対象文書の属性情報として付与する日付をユーザに入力させる入力欄を有する日付選択画面を表示部28に表示させてもよい。
【0087】
図8に、入力欄88を有する日付選択画面が示されている。ユーザは、当該日付選択画面において、属性付与部38が特定した第2日付で適切であると判断すれば、当該第2日付を選択することができるし、当該第2日付が適切でないと判断すれば、入力欄88に属性情報として付与する日付を入力することができる。
【0088】
また、表示制御部42は、第1日付との差が所定の閾値以上の第2日付しか特定できなかった場合にも、図8に示すような、特定した第2日付と、入力欄88を有する日付選択画面を表示するようにしてもよい。
【0089】
図2に戻り、作成者名付与部44は、対象文書から、当該対象文書の作成者名を抽出して、抽出した作成者名を対象文書の属性情報として付与する。上述のように、本実施形態では、文書作成者は会社名で表されるため、作成者名付与部44は、対象文書から会社名を抽出して対象文書の属性情報として付与する。
【0090】
図9には、再度対象文書の第1の例が示されている。作成者名付与部44は、文字列DB24に格納された作成者文字情報に基づいて、OCR処理部36が抽出した文字列の中から、「株式会社」や「(株)」といった、会社名を表す文字列に基づいて、対象文書から会社名を抽出する。図9の例では、「xxxx株式会社殿」という文字列である会社名100と、「yyyy株式会社」という文字列である会社名102が抽出される。
【0091】
図9の例では、会社名が複数抽出されたため、作成者名付与部44は、再度、作成者文字情報を参照して、抽出した会社名のうち、「殿」、「様」、あるいは「御中」で終わる文字列は、ユーザが所属する会社名であると判定する。また、作成者文字情報にユーザの所属する会社名が登録されている場合には、対象文書から抽出した会社名と、ユーザの所属する会社名が一致あるいは類似する場合には、当該会社名がユーザの所属する会社名であると判定するようにしてもよい。図9の例では、会社名100がユーザの所属する会社名であると判定される。作成者名付与部44は、残った会社名102、すなわち「yyyy株式会社」を対象文書の属性情報として付与する。
【0092】
本実施形態に係る情報処理装置14の構成は以上の通りである。以下、図10図12に示されたフローチャートに従って、情報処理装置14の処理の流れについて説明する。
【0093】
ステップS10において、OCR処理部36は、対象文書から文字列を抽出する。
【0094】
ステップS12において、属性付与部38は、第1日付を特定する。上述の通り、第1日付とは、対象文書に対して処理が行われた日付、又は、対象文書に記載されている日付である。
【0095】
ステップS14において、属性付与部38は、ステップS12で特定した第1日付よりも後の日付である第2日付が対象文書に記載されているか否かを判定する。対象文書に第2日付が記載されていない場合、図11のステップS16に進む。
【0096】
本例では、属性付与部38は、対象文書に記載されている第1日付と、対象文書に記載された期間とに基づいて、第2日付を特定する。ステップS16において、属性付与部38は、ステップS12で特定した第1日付が対象文書に記載されたものであるか否かを判定する。第1日付が対象文書に記載されていない場合ステップS18に進み、ステップ18において、表示制御部42は、第2日付の特定が失敗したことを示す画面を表示部28に表示する。これにより、第2日付の特定を失敗したことをユーザに通知する。ステップS18の後は、ステップS50(図10、後述)に進む。
【0097】
第1日付が対象文書に記載されている場合、ステップS20に進む。
【0098】
ステップS20において、属性付与部38は、文字列DB24に格納した期間文字情報を参照して、対象文書から期間を表す文字列が抽出されたか否かを判定する。期間を表す文字列が抽出されなかった場合は、ステップS18に進み、期間を表す文字列が抽出された場合は、ステップS22に進む。
【0099】
ステップS22において、属性付与部38は、文字列DB24に格納した期限文字情報を参照して、ステップS22で抽出された期間を表す文字列の周辺領域に期限を示す文字列が存在するか否かを判定する。周辺領域に期限を示す文字列が存在しない場合は、ステップS18に進み、周辺領域に期限を示す文字列が存在する場合は、ステップS24に進む。
【0100】
ステップS24において、属性付与部38は、ステップS12で特定した第1日付から、ステップS20で抽出した期間後の日付を第2日付として特定する。ステップS24の後、図10のステップS26に進む。
【0101】
ステップS26において、属性付与部38は、複数の第2日付が特定されたか否かを判定する。ここで、複数の第2日付が特定された場合には、対象文書に複数の第2日付が記載されていた場合、対象文書に複数の期間が記載されていた場合、及び、対象文書に第2日付と期間とが両方記載されていた場合が含まれる。1つの第2日付のみが特定された場合には、ステップS28に進む。
【0102】
ステップS28において、属性付与部38は、特定した第2日付をユーザに確認させるか否かを判定する。例えば、周辺領域に期限を示す文字列が存在しない第2日付しか特定できなかった場合、あるいは、周辺領域に対象文書の表題の少なくとも一部が存在しない第2日付しか特定できなかった場合には、属性付与部38は、特定した第2日付をユーザに確認させると判定する。
【0103】
特定した第2日付をユーザに確認させない場合はステップS30に進み、ステップS30において、属性付与部38は、特定した第2日付を対象文書の属性情報として付与する。
【0104】
特定した第2日付をユーザに確認させる場合はステップS32に進み、ステップS32において、表示制御部42は、特定した第2日付と、ユーザが日付を入力する入力欄88を含む日付選択画面(図8参照)を表示部28に表示させる。
【0105】
ステップS34において、属性付与部38は、ステップS32で表示された日付選択画面にてユーザが選択した第2日付あるいはユーザが入力欄88に入力した日付を対象文書の属性情報として付与する。
【0106】
ステップS26に戻り、ステップS26で複数の第2日付が特定された場合には、ステップS36に進む。
【0107】
ステップS36において、属性付与部38は、特定された複数の第2日付をユーザに選択させるか否かを判定する。上述のように、複数の第2日付をユーザに選択させるか否かは、ユーザが予め設定しておくことができる。複数の第2日付をユーザが選択するという設定になっている場合にはステップS38に進む。
【0108】
ステップS38において、表示制御部42は、複数の第2日付を含む日付選択画面(図7参照)を表示部28に表示させる。
【0109】
ステップS40において、属性付与部38は、ステップS38で表示された日付選択画面にてユーザが選択した第2日付を対象文書の属性情報として付与する。
【0110】
ステップS36に戻り、ステップS36で、複数の第2日付をユーザが選択しないという設定になっている場合にはステップS42に進む。
【0111】
ステップS42において、属性付与部38は、文字列DB24に格納した期限文字情報を参照して、特定した各第2日付に対応する対象文書に記載された情報の各周辺領域に、期限を表す文字列が存在するか否かを判定する。第2日付に対応する対象文書に記載された情報とは、対象文書に第2日付が記載されていれば、当該第2日付そのものであるし、第1日付と対象文書に記載された期間とに基づいて第2日付が特定されている場合は、対象文書に記載された期間である。
【0112】
複数の第2日付に対応する複数の周辺領域のうちのいずれかに期限を表す文字列が存在している場合はステップS44に進み、ステップS44において、属性付与部38は、期限を表す文字列が存在する周辺領域に対応する第2日付を対象文書の属性情報として付与する。期限を表す文字列が存在する周辺領域に対応する第2日付が複数ある場合は、表示制御部42が図7に示すような日付選択画面を表示部28に表示させて、ユーザに選択させる。
【0113】
複数の第2日付に対応する複数の周辺領域の全てにおいて期限を表す文字列が存在しない場合はステップS46に進む。
【0114】
ステップS46において、属性付与部38は、再度、特定された複数の第2日付をユーザに選択させるか否かを判定する。ステップS46においてユーザに選択させるか否かも、ユーザが予め設定しておくことができる。複数の第2日付をユーザが選択するという設定になっている場合はステップS38に進み、複数の第2日付をユーザが選択しないという設定になっている場合はステップS48に進む。
【0115】
ステップS48において、属性付与部38は、対象文書のフォーマットに基づいて対象文書の日付領域を特定し、複数の第2日付のうち、日付領域以外に存在する第2日付を対象文書の属性情報として付与する。日付領域以外に存在する第2日付が複数ある場合は、表示制御部42が図7に示すような日付選択画面を表示部28に表示させて、ユーザに選択させる。
【0116】
ステップS50において、作成者名付与部44は、対象文書の作成者を対象文書の属性情報として付与するか否かを判定する。対象文書の作成者を対象文書の属性情報として付与するか否かは、ユーザが予め設定しておくことができる。対象文書の作成者を対象文書の属性情報として付与するという設定になっている場合には図12のステップS52に進み、付与しないという設定になっている場合には処理を終了する。
【0117】
ステップS52において、作成者名付与部44は、文字列DB24に格納された作成者文字情報に基づいて、対象文書に会社名が記載されているか否かを判定する。対象文書に会社名が記載されている場合は、ステップS54に進む。
【0118】
ステップS54において、作成者名付与部44は、対象文書に複数の会社名が記載されているか否かを判定する。対象文書に複数の会社名が記載されていない場合、つまり、対象文書に1つの会社名が記載されている場合には、ステップS56に進み、ステップS56において、作成者名付与部44は、当該会社名を対象文書の属性情報に付与する。
【0119】
ステップS54で対象文書に複数の会社名が記載されている場合には、ステップS58に進む。
【0120】
ステップS58において、作成者名付与部44は、再度作成者文字情報を参照して、特定の文字、例えば、「殿」、「様」、あるいは「御中」で終わる会社名を特定する。その上で、対象文書に含まれる複数の会社名のうち、特定された会社名以外の会社名を対象文書の属性情報として付与する。
【0121】
ステップS52に戻り、ステップS52において対象文書に会社名が記載されていない場合は、ステップS60に進む。
【0122】
ステップS60において、表示制御部42は、会社名の抽出を失敗したことを示すメッセージを表示部28に表示させる。これにより、会社名の抽出を失敗したことをユーザに通知する。
【0123】
ステップS62において、作成者名付与部44は、「会社」という文字列を特定文字、例えば「###」などで囲んだ文字列を対象文書の属性情報として付与する。これにより、後に当該対象文書の属性情報を見たユーザが、当該対象文書から会社名の抽出が失敗したことを把握することができる。なお、ユーザは、手動で会社名を対象文書の属性情報に付与することも可能である。
【0124】
以上、本発明に係る実施形態を説明したが、本発明は上記実施形態に限られるものではなく、本発明の趣旨を逸脱しない限りにおいて種々の変更が可能である。
【符号の説明】
【0125】
10 情報処理システム、12 文書管理サーバ、14 情報処理装置、16 通信回線、20 通信部、22 記憶部、24 文字列DB24 読み取り部、28 表示部、30 入力部、32 計時部、34 制御部、36 OCR処理部、38 属性付与部、40 表題特定部、42 表示制御部、44 作成者名付与部。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12