(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2023-09-08
(45)【発行日】2023-09-19
(54)【発明の名称】情報処理装置、データ連携方法、およびデータ連携プログラム
(51)【国際特許分類】
G06F 40/174 20200101AFI20230911BHJP
【FI】
G06F40/174
(21)【出願番号】P 2023038096
(22)【出願日】2023-03-10
【審査請求日】2023-04-12
【早期審査対象出願】
(73)【特許権者】
【識別番号】397038266
【氏名又は名称】株式会社スカイコム
(74)【代理人】
【識別番号】100131853
【氏名又は名称】澤邉 由美子
(72)【発明者】
【氏名】李 暁東
【審査官】木村 大吾
(56)【参考文献】
【文献】米国特許出願公開第2021/0012060(US,A1)
【文献】米国特許第08392472(US,B1)
【文献】中国特許出願公開第113297837(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-40/58
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
文書種別情報と、項目名と前記項目名それぞれの項目値の入力領域を示す項目値の位置情報とを記述した設定ファイルと、を対応付けて記憶する設定ファイル記憶手段と、
前記文書種別情報を含むPDFファイルに基づき、前記文書種別情報に対応付けられた設定ファイルを前記設定ファイル記憶手段から取得し、取得した前記設定ファイルを用いてフォームを生成するフォーム生成手段と、
前記フォーム生成手段によって生成した前記フォームを前記PDFファイルに付与するフォーム付与手段と、
前記フォームを用いて前記PDFファイルから項目名それぞれの項目値を抽出し、抽出した前記項目値を前記フォームに格納する項目値抽出手段と、
を備える情報処理装置。
【請求項2】
前記PDFファイルのページコンテンツが画像である場合、前記画像に対する文字認識処理によって生成したテキストデータを前記PDFファイルに格納する文字認識手段、を備える請求項1に記載の情報処理装置。
【請求項3】
前記文書種別情報と、前記項目名と、前記項目名それぞれの項目値の入力領域を示す項目値の位置情報と、の入力を受付ける受付手段と、
前記受付手段によって受付けた前記文書種別情報に対応付けて、前記項目名と前記項目値の位置情報とを記述する設定ファイルを前記設定ファイル記憶手段に格納する設定ファイル生成手段と、を備える請求項1に記載の情報処理装置。
【請求項4】
前記PDFファイルから、前記フォームに記憶する前記項目名と前記項目値を抽出し、抽出した前記項目名と前記項目値とを対応付けた連携データを生成する連携データ生成手段、を備える請求項1に記載の情報処理装置。
【請求項5】
前記フォームに記憶する前記項目値を表示画面に表示する表示手段と、
前記表示手段によって表示した前記項目値の変更を受付ける受付手段と、
前記受付手段によって受付けた前記項目値の変更をフォームに格納する格納手段と、を備える請求項1~3のいずれか1つに記載の情報処理装置。
【請求項6】
項目名と、項目名の表示位置を基準とした、項目値の入力領域を示す相対位置情報と、を対応付けて記憶する位置情報記憶手段と、
PDFファイルから前記位置情報記憶手段に記憶する項目名および前記項目名の位置情報を抽出し、抽出した前記項目名に対応付けられた前記相対位置情報と、前記項目名の位置情報から前記項目値の位置情報を算出する位置算出手段と、
前記PDFファイルから抽出した前記項目名と、前記位置算出手段によって算出した前記項目名それぞれの項目値の位置情報とを用いてフォームを生成するフォーム生成手段と、
前記フォーム生成手段によって生成した前記フォームを前記PDFファイルに付与するフォーム付与手段と、
前記フォームを用いて前記PDFファイルから項目名それぞれの項目値を抽出し、抽出した前記項目値を前記フォームに格納する項目値抽出手段と、
を備える情報処理装置。
【請求項7】
前記項目名と、前記項目名それぞれの項目値の入力領域を示す項目値の位置情報と、からなるフォームの入力を受付ける受付手段、を備え、
前記位置算出手段は、前記PDFファイルから前記項目名の表示領域を示す位置情報を抽出し、抽出した前記位置情報と前記項目値の入力領域を示す位置情報から、前記項目値の相対位置情報を算出し、算出した前記項目値の相対位置情報を前記項目名と対応付けて前記位置情報記憶手段に格納する、を請求項6に記載の情報処理装置。
【請求項8】
文書種別情報と、項目名と前記項目名それぞれの項目値の入力領域を示す項目値の位置情報とを記述した設定ファイルと、を対応付けて記憶する設定ファイル記憶部
を備えるコンピュータが実行する連携データ生成方法であって、
前記文書種別情報を含むPDFファイルに基づき、前記文書種別情報に対応付けられた設定ファイルを前記設定ファイル記憶部から取得し、取得した前記設定ファイルを用いてフォームを生成するフォーム生成ステップと、
前記フォーム生成ステップによって生成した前記フォームを前記PDFファイルに付与するフォーム付与ステップと、
前記フォームを用いて前記PDFファイルから項目名それぞれの項目値を抽出し、抽出した前記項目値を前記フォームに格納する項目値抽出ステップと、
を含む連携データ生成方法。
【請求項9】
項目名と、項目名の表示位置を基準とした、項目値の入力領域を示す相対位置情報と、を対応付けて記憶する位置情報記憶部
を備えるコンピュータが実行する連携データ生成方法であって、
PDFファイルから前記位置情報記憶部に記憶する項目名および前記項目名の位置情報を抽出し、抽出した前記項目名に対応付けられた前記相対位置情報と、前記項目名の位置情報から前記項目値の位置情報を算出する位置算出ステップと、
前記PDFファイルから抽出した前記項目名と、前記位置算出ステップによって算出した前記項目名それぞれの項目値の位置情報とを用いてフォームを生成するフォーム生成ステップと、
前記フォーム生成ステップによって生成した前記フォームを前記PDFファイルに付与するフォーム付与ステップと、
前記フォームを用いて前記PDFファイルから項目名それぞれの項目値を抽出し、抽出した前記項目値を前記フォームに格納する項目値抽出ステップと、
を含む連携データ生成方法。
【請求項10】
請求項8または請求項9に記載の連携データ生成方法をコンピュータに実行させる連携データ生成プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、データ連携方法、およびデータ連携プログラムに関する。
【背景技術】
【0002】
企業や個人での取引において電子化が進むなか、申請書や申込書、見積書、請求書、契約書等のような書き換え不可な文書にPDF(Portable Document Format)ファイルが多く利用されている。一方、PDFファイルには、他のシステムと連携したいさまざまの文字や数値等が記載されているが、PDFファイルからデータを抽出し、他のシステムに連携することは容易ではなかった。このような課題を解決するため、出願人は、抽出ルールに基づいて抽出したデータをPDFファイルに記憶しておくことによって、PDFファイルからデータを容易に抽出する技術を考案した(特許文献1)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1に記載する技術は、書式の異なるPDFファイルそれぞれに応じて位置情報等を記述した抽出ルールを生成し、生成した抽出ルールを用いてデータを抽出する必要があった。
【0005】
本発明は、上記に鑑みてなされたものであり、PDFファイルからデータを容易に抽出することができる情報処理装置、データ連携方法、およびデータ連携プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上述した課題を解決するために、本発明では、文書種別情報と、項目名と項目名それぞれの項目値の入力領域を示す項目値の位置情報とを記述した設定ファイルと、を対応付けて記憶する設定ファイル記憶部を備え、文書種別情報を含むPDFファイルに基づき、文書種別情報に対応付けられた設定ファイルを設定ファイル記憶部から取得し、取得した設定ファイルを用いてフォームを生成し、生成したフォームをPDFファイルに付与し、フォームを用いてPDFファイルから項目名それぞれに応じた項目値を抽出し、抽出した項目値を項目名に対応付けてフォームに格納することを特徴とする。
【0007】
また、本発明の他の態様では、項目名と、項目名の表示位置を基準とした、項目値の入力領域を示す相対位置情報と、を対応付けて記憶する位置情報記憶部、を備え、PDFファイルから位置情報記憶部に記憶する項目名および項目名の位置情報を抽出し、抽出した項目名に対応付けられた相対位置情報と、項目名の位置情報から項目値の位置情報を算出し、PDFファイルから抽出した項目名と、算出した項目名それぞれの項目値の位置情報とを用いてフォームを生成し、生成したフォームをPDFファイルに付与し、フォームを用いてPDFファイルから項目名それぞれの項目値を抽出し、抽出した項目値をフォームに格納することを特徴とする。
【発明の効果】
【0008】
上述したように構成した本発明によれば、PDFファイルからデータを容易に抽出することができるという効果を奏する。
【図面の簡単な説明】
【0009】
【
図1】実施例1にかかる情報処理装置100と情報処理装置200と情報処理装置300とを備えるデータ連携システム10の構成を示すブロック図である。
【
図2】設定ファイル記憶部121のデータ構成の一例を示す説明図である。
【
図3】情報処理装置100が実行するフォーム付与・データ抽出処理手順を示すフローチャートである。
【
図4】PDFファイルにフォームを付与し、付与したフォームを用いてPDFファイルから項目値を抽出する流れを模式的に示す説明図である。
【
図5】情報処理装置100が実行する連携データ生成処理手順を示すフローチャートである。
【
図6】情報処理装置100が実行する設定ファイル生成処理手順を示すフローチャートである。
【
図7】情報処理装置100が実行する項目値変更処理手順を示すフローチャートである。
【
図8】実施例2にかかる情報処理装置400と情報処理装置200と情報処理装置300とを備えるデータ連携システム20の構成を示すブロック図である。
【
図9】情報処理装置400が実行するフォーム付与・データ抽出処理手順を示すフローチャートである。
【
図10】情報処理装置400が実行する位置算出処理手順を示すフローチャートである。
【発明を実施するための形態】
【0010】
以下に、添付図面を参照し本願にかかる情報処理装置、データ連携方法、およびデータ連携プログラムを実施するための形態である実施例を説明する。以下の説明は、本願の実施の形態の例示であり、本願にかかる情報処理装置、データ連携方法、およびデータ連携プログラムは、これらの実施例に限定されるものではない。
【0011】
<実施例1>
図1は、実施例1にかかる情報処理装置100と情報処理装置200と情報処理装置300とを備えるデータ連携システム10の構成を示すブロック図である。情報処理装置100は、PDFファイルに付与したフォームを用いてデータを抽出し、フォームに格納したデータから連携データを生成するコンピュータである。情報処理装置100は、他の情報処理装置(例えば、情報処理装置200-1~200-n)から受信したPDFファイルに対し、上記処理を実行し、フォームにデータを格納したPDFファイルまたは連携データを情報処理装置に送信してもよい。
【0012】
情報処理装置200-1~200-n(以下「情報処理装置200」と示す。)は、PDFファイルを情報処理装置100に送信し、他のシステムに連携可能なデータをフォームに格納したPDFファイル、または連携データを受信する。情報処理装置300は、1または複数のPDFファイルから抽出された連携データを受信し、情報処理装置300で動作する他システムの入力データとする。なお、情報処理装置100、情報処理装置200、情報処理装置300は、例えばパーソナルコンピュータ(以下「PC」と示す。)やサーバ、タブレット端末、スマートフォン等である。
【0013】
情報処理装置100は、
図1に示すように、制御部110と、記憶部120と、入出力部130と、通信部140とを備える。
【0014】
制御部110は、記憶部120に記憶する種々のプログラムおよび制御情報を展開して実行することにより、情報処理装置100全体および各部の動作を制御する。制御部110は、文字認識部111、フォーム生成部112、フォーム付与部113、項目値抽出部114、連携データ生成部115、設定ファイル生成部116、ファイル格納部117のそれぞれとして機能する。
【0015】
記憶部120は、設定ファイル記憶部121と、図示しない、各部を制御するためのプログラム、アプリケーションプログラム、各種制御情報、中間ファイル、PDFファイル等を記憶する。
【0016】
図2は、設定ファイル記憶部121のデータ構成の一例を示す説明図である。設定ファイル記憶部121は、文書種別情報と、設定ファイルと、その他の情報とを対応付けて記憶する。ここで、文書種別情報とは、文書であるPDFファイルの種別を示す情報であり、PDFファイルにフォームを付与する際に使用する設定ファイルを選択するために使用する。文書種別情報は、例えば、特定の文書(例えば、A申込書)の文書種別情報であっても、複数の文書(例えば、A申込書、B申込書、C申込書や、A申込書、B見積書、C請求書)で共通の文書種別情報であってもよい。文書種別情報は、PDFファイルの不可視領域に記述する、または、PDFファイルの名称の一部に文書種別情報を記述することによって、PDFファイルそれぞれにおいて、どの設定ファイルを用いてフォームを付与するかを判断することができる。
【0017】
設定ファイルは、PDFファイルへのデータの入力を受付けるフォームを生成する際に使用する情報を記述したファイルである。より具体的には、設定ファイルは、PDFファイル上のフォームの入力領域を示す位置情報と、その領域に格納するデータの名称(内容)を示す項目名とを対応付けて記述する。設定ファイルには、さらにフォームの入力形態(例えば、テキスト入力や数値入力、ラジオボタン、チェックボックス、プルダウンメニュー、手書き入力領域等)の情報を含んでもよい。なお、設定ファイルは、PDFファイルの項目名のすべてについて設定する必要はなく、PDFファイルに記載された項目名の一部について設定してもよい。連携システムごとに求められるデータが異なるような場合は、連携データとして必要な項目値を抽出できるよう、必要に応じて文書種別情報に対応付けられた設定ファイルの内容を変更してもよい。また、複数ページからなるPDFファイルの場合は、ページ情報を加えて位置情報を記述する。
【0018】
入出力部130は、ユーザによる操作を受付け、操作結果やさまざまな処理の実行結果等を表示する。入出力部130は、操作メニューやPDFファイル等を表示画面に表示する。入出力部130は、例えばPCの場合は、液晶ディスプレイ(LCD:Liquid Crystal Display)や有機EL(electroluminescence)ディスプレイ等の表示装置、キーボード、マウス等の入力装置を含み、タブレット端末、スマートフォンの場合は、液晶ディスプレイとタッチセンサを重畳して構成するタッチパネル等を含む。通信部140は、ネットワークNを介して他の装置と互いに通信可能に接続し、他の装置との間でデータを送受信する。
【0019】
次に、制御部110で機能する、文字認識部111、フォーム生成部112、フォーム付与部113、項目値抽出部114、連携データ生成部115、設定ファイル生成部116、ファイル格納部117について説明する。
【0020】
文字認識部111は、PDFファイルのページコンテンツが画像である場合、画像から文字を認識し、認識した文字を画像上の文字の位置にほぼ重なるように配置したテキストデータを生成する。文字認識部111は、画像から生成したテキストデータをPDFファイルの一部としてPDFファイルに格納する。
【0021】
フォーム生成部112は、PDFファイルに記憶する文書種別情報(または、ファイル名に含まれる文書種別情報)を取得し、取得した文書種別情報に対応付けられた設定ファイルを設定ファイル記憶部121から取得する。フォーム生成部112は、設定ファイル記憶部121から取得した設定ファイルを用いてフォームを生成する。フォームとは、PDFファイルへのデータの入力を受付ける、1または複数の入力領域である。なお、フォームの仕様は、世界標準化機構(ISO)規格に準拠する。
【0022】
フォーム付与部113は、フォーム生成部112によって生成したフォームをPDFファイルに付与する。より具体的には、フォーム付与部113は、PDFファイルの一部としてフォームをPDFファイルに格納する。なお、項目名に対応する項目値が入力されていないフォームは、「空のフォーム」という。
【0023】
項目値抽出部114は、フォームを用いて項目名に対応する項目値を抽出する。より具体的には、項目値抽出部114は、空のフォームに含まれる項目名ごとの入力領域に位置するテキストデータから項目名ごとの項目値を抽出する。項目値抽出部114は、項目値ごとの項目値をPDFファイルに付与したフォームに格納する。
【0024】
連携データ生成部115は、PDFファイルからフォームに記憶する項目名と項目値とを抽出し、抽出した項目名と項目値とを対応付けた連携データを生成する。
【0025】
設定ファイル生成部116は、フォームの入力として受付けた、項目名と項目名それぞれの項目値の入力領域から設定ファイルを生成する。設定ファイル生成部116は、文書種別情報と設定ファイルとを対応付けて設定ファイル記憶部121に格納する。なお、設定ファイル生成部116は、既存のフォームを含むPDFファイルを指示し、文書種別情報の入力を受付けることによって設定ファイルを生成し、生成した設定ファイルと文書種別情報とを対応付けて設定ファイル記憶部121に格納してもよい。
【0026】
ファイル格納部117は、PDFファイルに対する保存の指示を受付けた場合に、保存の指示に応じて、画面上のフォームを表示した項目値を項目名に対応付けてフォームに格納する。
【0027】
上述したように構成されたデータ連携システム10の情報処理装置100で実行する処理について説明する。
図3は、情報処理装置100が実行するフォーム付与・データ抽出処理手順を示すフローチャートである。
【0028】
情報処理装置100の入出力部130は、PDFファイルの指示を受付ける(ステップS301)。PDFファイルの指示は、1であっても複数であってもよい。文字認識部111は、指示されたPDFファイルのページコンテンツが画像であるか否かを判断する(ステップS302)。指示されたPDFファイルのページコンテンツが画像であると判断した場合(ステップS302:Yes)、文字認識部111は、画像に対し文字認識処理を実行する(ステップS303)。より具体的には、文字認識部111は、画像から文字を認識し、認識した文字を画像に重なる位置に配置したテキストデータを生成し、生成したテキストデータをPDFファイルに格納する。
【0029】
指示されたPDFファイルのページコンテンツが画像でないと判断した場合(ステップS302:No)、すなわちテキストデータを含むPDFファイルであると判断した場合、文字認識処理は実行せず、ステップS304を実行する。
【0030】
フォーム生成部112は、PDFファイルから文書種別情報を取得する(ステップS304)。なお、入出力部130は、PDFファイルが文書種別情報を含まない場合、文書種別情報を含むPDFファイルのファイル名への変更を受付ける、または文書種別情報の入力を受付け、受付けた文書種別情報をPDFファイルの不可視領域に格納したうえで、文書種別情報を取得してもよい。
【0031】
フォーム生成部112は、文書種別情報に対応付けられた設定ファイルを設定ファイル記憶部121から取得する(ステップS305)。フォーム生成部112は、設定ファイルを用いてフォームを生成する(ステップS306)。フォーム付与部113は、PDFファイルに生成したフォームを付与する(ステップS307)。このときのフォームは、項目値がブランクの空のフォームである。
【0032】
図4は、PDFファイルにフォームを付与し、付与したフォームを用いてPDFファイルから項目値を抽出する流れを模式的に示す説明図である。
図4(a)は、フォームを付与する前のPDFファイルのデータ構成を示す。
図4(a)のPDFファイルは、テキストデータを含むPDFファイルであり、1または複数のページからなるページコンテンツを含む一般的なPDFファイルである。ページコンテンツは、一般的なPDFビュア等でPDFファイルを読み込んだときに、PDFファイルを画面上に表示するために必要なデータであり、テキストデータ(、画像データ)、フォーム等を含む。
【0033】
ページコンテンツのテキストデータは、
図4(a)に示すように、“姓名”、“空田 晴雄”等の文字がそれぞれの領域に記載されている。
図4(b)は、空のフォームを付与したPDFファイルのデータ構成を示す。空のフォームを含むPDFファイルを画面表示した場合、ページコンテンツのテキストデータとフォームが重畳して表示され、
図4(b)に示すように、項目名とブランクの項目値(空欄)が表示される。
【0034】
項目値抽出部114は、フォームを用いてPDFファイルから項目名に対応する項目値を抽出する(ステップS308)。より具体的には、項目値抽出部114は、空のフォームに記述された、項目名と、項目名に対応するPDFファイルにおける項目値の入力領域の位置情報に基づいて、テキストデータの文字や数字等を抽出する。項目値抽出部114は、項目名ごとに抽出した項目値をPDFファイルに付与したフォームに格納する(ステップS309)。なお、項目値が抽出できない場合、すなわち項目値が入力されていない場合は、項目値をブランクとする。
図4(c)は、フォームに項目値を格納したPDFファイルのデータ構成の一例を示す。項目名“姓名”の入力領域に位置する“空田 晴雄”の文字を項目名“姓名”の項目値としてテキストデータから抽出し、フォームに格納する。他の項目名と項目値も同様に抽出し、フォームに格納する。項目値を格納したフォームを含むPDFファイルを画面表示した場合、
図4(c)の画面表示に示すように、項目名と項目値が表示される。
【0035】
このように、文書種別それぞれに応じた設定ファイルを用いてフォームを生成し、生成したフォームを用いて項目名それぞれの項目値を抽出することができる。また、PDFファイルのテキストデータから抽出した項目名ごとの項目値をフォームというISOに準拠した形式でPDFファイルに格納することによって項目値の変更等が容易になる。
【0036】
次に、フォームを付与したPDFファイルから連携データを生成する処理について説明する。
図5は、情報処理装置100が実行する連携データ生成処理手順を示すフローチャートである。
【0037】
情報処理装置100の入出力部130は、PDFファイルの指示を受付ける(ステップS501)。PDFファイルの指示は、1であっても複数であってもよい。また、
図3の処理(ステップS309)に連続して実行することによって、PDFファイルの指示を省略してもよい。連携データ生成部115は、PDFファイルを付与したフォームから項目名と項目値を抽出する(ステップS502)。連携データ生成部115は、抽出した項目名と項目値とを対応付けした連携データを生成する(ステップS503)。連携データは、例えば、XML(Extensible Markup Language)、Json(JavaScript Object Notation)、csv(Comma Separated Value)等の一般的な形式、または連携するシステムにそのまま入力できる形式等で生成する。通信部140は、連携データを入力するシステムが動作する情報処理装置300に連携データを送信する(ステップS504)。
【0038】
このように、PDFファイルに付与したフォームから項目名と項目値を抽出することによって、PDFファイルから他のシステムへの連携データを容易に生成することができる。これにより、改造が難しい既存システムがPDFファイルのみを出力する場合であっても、PDFファイルから容易に他のシステムで利用できる連携データを生成することができる。また、申請書や申込書、見積書、請求書、契約書等のような書面(電子データ)をPDFファイルで受け取った場合であっても、PDFファイルから項目名と項目値を対応付けた連携データを生成することができる。これにより、PDFファイルに記載されたデータを再入力することなく利用することができ、作業の効率化や転記ミスの防止等を図ることができる。
【0039】
次に、情報処理装置100が実行する、設定ファイル記憶部121に記憶する設定ファイルの生成について説明する。
図6は、情報処理装置100が実行する設定ファイル生成処理手順を示すフローチャートである。
【0040】
情報処理装置100の入出力部130は、PDFファイルの指示を受付ける(ステップS601)。ここでは、フォームを含まないPDFファイルを指定する。入出力部130は、PDFファイルを表示画面に表示する(ステップS602)。入出力部130は、画面上に表示されたPDFファイルに対しフォームの入力を受付ける(ステップS603)。より具体的には、入出力部130は、項目名の入力を受付け、表示画面上のPDFファイルにおける項目名に対応する項目値の入力領域の入力を受付ける。また、入出力部130は、入力を受付けたフォームをPDFファイルに付与する。
【0041】
入出力部130は、文書種別情報の入力を受付ける(ステップS604)。設定ファイル生成部116は、フォームを用いて設定ファイルを生成する(ステップS605)。設定ファイルは、項目名と、項目名に対応する項目値の入力領域から求められる項目値の位置情報を含む。項目値の位置情報は、より具体的には、PDFファイルのページごとの基準点(例えば、A4縦の用紙の左上)からの項目値の入力領域の各座標や基準座標と幅、高さ等である。設定ファイル生成部116は、文書種別情報と設定ファイルとを対応付けて設定ファイル記憶部121に格納する(ステップS606)。なお、設定ファイル記憶部121には、設定ファイルに代えて、ステップS603において、入力を受付けたフォームを付与したPDFファイルを格納してもよい。フォームを付与したPDFファイル(以下「フォーム付きPDFファイル」と示す。)を用いることによって、フォームの位置と項目名をPDFビュア等でフォームとして可視化することができるため、ユーザが確認しやすくなり、修正しやすくなる。なお、フォーム付きPDFファイルを用いてPDFファイルにフォームを付与する場合は、フォーム付きPDFファイルから設定ファイルを生成し、PDFファイルにフォームを付与する。
【0042】
このように、文書種別情報に対応した設定ファイルを予め生成して設定ファイル記憶部121に記憶しておくことによって、さまざまな書式のPDFファイルに対し容易にフォームを付与することができる。上述した設定ファイルから生成したフォームを用いてデータを抽出することにより、PDFファイルから連携データを容易に生成することができる。
【0043】
他の実施例として、フォームを含むPDFファイルの項目値を変更する処理について説明する。
図7は、情報処理装置100が実行する項目値変更処理手順を示すフローチャートである。
【0044】
情報処理装置100の入出力部130は、PDFファイルの指示を受付ける(ステップS701)。ここでは、
図3で生成したフォームを付与したPDFファイルを指定する。PDFファイルの指示は、1であっても複数であってもよい。また、
図3の処理(ステップS309)に連続して実行することによって、PDFファイルの指示を省略してもよい。入出力部130は、フォーム付きPDFファイルを表示画面に表示する(ステップS702)。入出力部130は、フォームの入力領域に表示した項目値の変更を受付ける(ステップS703)。例えば、項目名“住所”の項目値“東京都・・・”を“宮崎県・・・”に変更する。項目値がブランクの場合に、新たな項目値を入力してもよく、既存の項目値を削除してブランクにしてもよい。
【0045】
入出力部130は、PDFファイルに対する保存を受付ける(ステップS704)。ファイル格納部117は、表示画面上の項目名に対応する項目値の入力領域に入力された変更内容をフォームに格納する(ステップS705)。
【0046】
これにより、フォームに記憶する項目値を変更して保存することができる。また、
図3のフォーム付与・データ抽出処理に続けて、ステップS702を実行することにより、フォームを付与していないPDFファイルについてもデータを抽出したうえで、必要な項目値を修正することができる。例えば、姓名等をそのまま使用し、住所のみを変更することができる。
【0047】
他の実施例として、ステップS704でPDFファイルに対する保存を受付けた場合、PDFファイルに含むフォームに変更内容を格納することに加え、PDFファイルに変更内容を追記してもよい。これによって、フォームに格納した内容と一致したPDFファイルを生成することができる。また、変更内容の追記は、変更履歴となる。
【0048】
<実施例2>
図8は、実施例2にかかる情報処理装置400と情報処理装置200と情報処理装置300とを備えるデータ連携システム20の構成を示すブロック図である。情報処理装置400は、
図8に示すように、制御部410と、記憶部420と、入出力部130と、通信部140とを備える。各装置および各部において、実施例1で示した番号と同一である場合は、ほぼ同一の機能および構成であるため、ここでの説明は省略し、上述した説明を参照する。
【0049】
位置情報記憶部422は、PDFファイルにおける、項目名の表示位置と項目値の入力領域との相対的な位置関係を示す情報を記憶する。位置情報記憶部422は、項目名と、項目値の相対位置情報とを対応付けて記憶する。項目値の相対位置情報は、項目名の表示位置を基準とした、項目値の入力領域を示す位置情報である。
【0050】
位置算出部418は、PDFファイルから項目名を抽出し、抽出した項目名に対応付けられた、位置情報記憶部422に記憶する項目値の相対位置情報から、PDFファイルにおける項目名ごとの項目値の位置情報を算出する。また、位置算出部418は、項目値の相対位置情報を算出する際に、PDFファイルにおける項目名の位置情報を取得する。位置算出部418は、項目名の位置情報と、フォームの入力時に受付けた項目値の入力領域から項目値の相対位置情報を算出し、項目名と項目値の相対位置情報とを対応付けて位置情報記憶部422に格納する。
【0051】
上述したように構成されたデータ連携システム20の情報処理装置400で実行するフォーム付与・データ抽出処理について説明する。
図9は、情報処理装置400が実行するフォーム付与・データ抽出処理手順を示すフローチャートである。
【0052】
情報処理装置400の入出力部130は、PDFファイルの指示を受付ける(ステップS901)。位置算出部418は、項目名と項目名に対応付けられた項目値の相対位置情報を位置情報記憶部422から取得する(ステップS902)。
【0053】
位置算出部418は、PDFファイルから項目名と項目名の位置情報を抽出する(ステップS903)。より具体的には、位置算出部418は、位置情報記憶部422に記憶する項目名をPDFファイルから抽出するとともに、抽出した項目名の表示位置を示す位置情報を抽出する。位置算出部418は、項目名の位置情報と項目名に対応付けられた項目値の相対位置情報からフォーム付与対象であるPDFファイルにおける項目値の位置情報を算出する(ステップS904)。フォーム生成部112は、項目名と項目名それぞれの項目値の位置情報を用いてフォームを生成する(ステップS905)。このとき、フォーム生成部112でフォームを生成する際に使用した項目名と項目値の位置情報は、新たな設定ファイルとして、新たな文書種別情報と対応付けて設定ファイル記憶部121に格納してもよい。
【0054】
フォーム付与部113は、生成したフォームをPDFファイルに付与する(ステップS906)。項目値抽出部114は、付与されたフォームを用いてPDFファイルから項目名それぞれの項目値を抽出する(ステップS907)。項目値抽出部114は、抽出した項目値をPDFファイルに付与したフォームに格納する(ステップS908)。
【0055】
このように、項目名と項目値の相対位置情報を用いることによって、項目名がPDFファイル上のどの位置にあってもフォームを生成でき、項目値を抽出することができる。また、文書種別ごとの設定ファイルを予め生成しておくことなく、実施例1と同様に連携データを生成することができる。
【0056】
実施例2においても、実施例1と同様に、PDFファイルを情報処理装置200から情報処理装置400に送信し、情報処理装置400で上述した処理を実行し、実行した結果を情報処理装置200に送信してもよい。
【0057】
上述したように構成されたデータ連携システム20の情報処理装置400で実行する項目値ごとの相対位置情報を算出する処理について説明する。
図10は、情報処理装置400が実行する相対位置算出処理手順を示すフローチャートである。
【0058】
情報処理装置400の入出力部130は、PDFファイルの指示を受付ける(ステップS1001)。入出力部130は、PDFファイルを表示画面に表示する(ステップS1002)。入出力部130は、画面上に表示されたPDFファイルに対しフォームの入力を受付ける(ステップS1003)。より具体的には、入出力部130は、項目名の入力を受付け、表示画面上のPDFファイルにおける項目名に対応する項目値の入力領域の入力を受付ける。
【0059】
位置算出部418は、項目名の位置情報をPDFファイルから抽出する(ステップS1004)。より具体的には、位置算出部418は、項目名の文字列が配置されたPDFファイルにおける表示領域を示す位置情報を抽出する。位置算出部418は、項目名の位置情報とフォームの入力時に受付けた項目値の入力領域の位置情報から項目値の相対位置情報を算出する(ステップS1005)。項目値の相対位置情報は、例えば項目名の表示領域の右下の位置情報を基準とした、項目値の入力領域を相対的に示す位置情報等である。位置算出部418は、項目名と項目値の相対位置情報を対応付けて位置情報記憶部422に格納する(ステップS1006)。
【0060】
このように、項目名に対する項目値の入力領域の相対位置情報を算出しておくことにより、設定ファイルを事前に生成することなくフォームを生成することができる。
【0061】
上述した実施例にかかる情報処理装置100、情報処理装置200、情報処理装置300、情報処理装置400のハードウェア構成は、CPU(Central Processing Unit)、MPU(Micro-Processing Unit)又はGPU(Graphics Processing Unit)等の1又は複数のプロセッサを含み、ROM(Read Only Memory)やRAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリ、SSD(Solid State Drive)等の外部記憶装置、通信制御装置等を備えた通常のコンピュータであり、ROMやRAM、HDD等に記憶されたプログラムをCPU等が読み出し動作させることによって、上述した構成や機能を実現する。なお、制御部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)等の電子回路であってもよい。
【0062】
情報処理装置100、情報処理装置200、情報処理装置300、情報処理装置400で動作するプログラムは、インターネット等のネットワークに接続されたコンピュータ上に格納しておき、ネットワーク経由でダウンロードさせることにより提供したり、インストール可能な形式又は実行可能な形式のファイルでCD-ROM、DVD、USBメモリ、SDカード等のコンピュータで読取り可能な記録媒体に記録し提供してもよい。また、上述した機能や処理を実現するプログラムは、API(Application Programming Interface)やSaaS(Software as a Service)、クラウドコンピューティングという利用形態で提供してもよい。
【0063】
上述した実施例では、情報処理装置100、情報処理装置200、情報処理装置300、情報処理装置400を別々の装置として説明したが、情報処理装置100、情報処理装置200、情報処理装置300、情報処理装置400の機能を1つの装置として構成してもよく、それぞれの装置の機能を組合せて構成してもよい。
【0064】
なお、本発明は、上述した実施例そのままに限定されるものではなく、必ずしも物理的に図示したように構成されている必要はない。また、本発明は、実施例で説明した構成要素の全部または一部を、各種の負荷や使用状況などに応じ、任意の単位で機能的または物理的に分割、統合、入替、変形または削除して構成することができる。
【符号の説明】
【0065】
100…情報処理装置、110…制御部、111…文字認識部、112…フォーム生成部、113…フォーム付与部、114…項目値抽出部、115…連携データ生成部、116…設定ファイル生成部、117…ファイル格納部、120…記憶部、121…設定ファイル記憶部、130…入出力部、140…通信部、200…情報処理装置、300…情報処理装置、400…情報処理装置、410…制御部、418…位置算出部、420…記憶部、422…位置情報記憶部
【要約】
【課題】PDFファイルからデータを容易に抽出することができる情報処理装置、データ連携方法、およびデータ連携プログラムを提供する。
【解決手段】情報処理装置100は、文書種別情報と、項目名と項目名それぞれの項目値の入力領域を示す項目値の位置情報とを記述した設定ファイルと、を対応付けて記憶する設定ファイル記憶部121を備え、フォーム生成部112は、文書種別情報を含むPDFファイルに基づき、文書種別情報に対応付けられた設定ファイルを設定ファイル記憶部121から取得し、取得した設定ファイルを用いてフォームを生成し、フォーム付与部113は、フォームをPDFファイルに付与し、項目値抽出部114は、フォームを用いてPDFファイルから項目名それぞれの項目値を抽出し、抽出した項目値をフォームに格納する。
【選択図】
図1