(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2021-163363(P2021-163363A)
(43)【公開日】2021年10月11日
(54)【発明の名称】情報処理装置、データ連携システム、方法およびプログラム
(51)【国際特許分類】
G06F 16/583 20190101AFI20210913BHJP
G06Q 10/10 20120101ALI20210913BHJP
【FI】
G06F16/583
G06Q10/10
【審査請求】有
【請求項の数】12
【出願形態】OL
【全頁数】19
(21)【出願番号】特願2020-66621(P2020-66621)
(22)【出願日】2020年4月2日
(11)【特許番号】特許第6818923号(P6818923)
(45)【特許公報発行日】2021年1月27日
(71)【出願人】
【識別番号】397038266
【氏名又は名称】株式会社スカイコム
(74)【代理人】
【識別番号】100131853
【弁理士】
【氏名又は名称】澤邉 由美子
(72)【発明者】
【氏名】木村 正光
【テーマコード(参考)】
5B175
5L049
【Fターム(参考)】
5B175DA02
5B175FB02
5L049EE08
(57)【要約】
【課題】文書をユーザ環境に影響されることなく所定のレイアウトで印刷および画面表示することができるとともに、ユーザの必要とするデータを容易に取得することができる情報処理装置、データ連携システム、方法およびプログラムを提供する。
【解決手段】抽出ルール記憶部121は、PDFファイルにおける領域と、データの意味を示す項目名と、を対応付けて記憶し、データ抽出部111は、入力されたPDFファイルから抽出ルール記憶部121に記憶する項目名に対応付けられた領域に含まれるデータを抽出し、連携PDFファイル生成部112は、PDFファイルに、項目名と、抽出したデータとを対応付けた連携データを追記した連携PDFファイルを生成する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
PDFファイルにおける領域と、データの意味を示す項目名と、を対応付けて記憶する抽出ルール記憶手段と、
入力されたPDFファイルから前記抽出ルール記憶手段に記憶する前記項目名に対応付けられた前記領域に含まれるデータを抽出するデータ抽出手段と、
前記PDFファイルに、前記項目名と、前記データ抽出手段によって抽出した前記データとを対応付けた連携データを追記した連携PDFファイルを生成する連携PDFファイル生成手段と、
を備えることを特徴とする情報処理装置。
【請求項2】
前記抽出ルール記憶手段は、前記項目名に対応付けて、前記データを抽出するためのフォーマットをさらに記憶し、
前記データ抽出手段は、前記抽出ルール記憶手段に記憶する前記フォーマットを用いて、前記データを抽出すること、を特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記連携データを示すQRコードを生成するQRコード生成手段、をさらに備え、
前記連携PDFファイル生成手段は、前記QRコード生成手段によって生成した前記QRコードを前記連携PDFファイルに追記すること、を特徴とする請求項1または請求項2に記載の情報処理装置。
【請求項4】
前記連携PDFファイル生成手段は、前記連携データを前記PDFファイルの不可視領域に追記すること、を特徴とする請求項1または請求項2に記載の情報処理装置。
【請求項5】
前記連携データの表示指示を受付ける表示指示受付手段と、
前記連携データを表示する連携データ表示手段と、をさらに備え、
前記連携PDFファイル生成手段は、前記連携データを前記PDFファイルの可視領域に追記し、
前記連携データ表示手段は、前記表示指示受付手段によって前記連携データの表示指示を受付けた場合に、前記連携PDFファイルから前記連携データを読出して表示すること、を特徴とする請求項1または請求項2に記載の情報処理装置。
【請求項6】
前記連携PDFファイルにタイムスタンプを付与するタイムスタンプ付与手段、をさらに備えることを特徴とする請求項1〜5のいずれか1つに記載の情報処理装置。
【請求項7】
前記連携PDFファイルに電子署名を付与する電子署名付与手段、をさらに備えることを特徴とする請求項1〜6のいずれか1つに記載の情報処理装置。
【請求項8】
前記連携PDFファイルから前記連携データを取得するデータ連携手段と、
前記データ連携手段によって取得した前記連携データを他のシステムに送信する送信手段と、を備えることを特徴とする請求項1〜7のいずれか1つに記載の情報処理装置。
【請求項9】
PDFファイルを表示するPDFファイル表示手段と、
前記PDFファイル表示手段によって表示するPDFファイルにおける、前記項目名それぞれの領域を受付ける領域受付手段と、
前記領域受付手段によって受付けた前記項目名それぞれの領域を、前記項目名に対応付けて前記抽出ルール記憶手段に格納する抽出ルール格納手段と、を備えることを特徴とする請求項1〜8のいずれか1つに記載の情報処理装置。
【請求項10】
PDFファイルを取得するPDFファイル取得手段と、
1または複数のページにおける、データの意味を示す項目名と前記項目名に応じたデータが記述された領域を含む教師データに基づいて学習した学習モデルを用いて、前記PDFファイル取得手段によって取得した前記PDFファイルにおける、前記項目名とデータを抽出するデータ抽出手段と、
前記PDFファイルに、前記項目名と、前記データとを対応付けた連携データを追記した連携PDFファイルを生成する連携PDFファイル生成手段と、
を備えることを特徴とする情報処理装置。
【請求項11】
情報処理装置と、ネットワークを介して接続するサーバ装置と、を備えるデータ連携システムであって、
前記情報処理装置は、
PDFファイルにおける領域と、データの意味を示す項目名と、を対応付けて記憶する抽出ルール記憶手段と、
入力されたPDFファイルから前記抽出ルール記憶手段に記憶する前記項目名に対応付けられた前記領域に含まれるデータを抽出するデータ抽出手段と、
前記PDFファイルに、前記項目名と、前記データ抽出手段によって抽出した前記データとを対応付けた連携データを追記した連携PDFファイルを生成する連携PDFファイル生成手段と、
前記連携PDFファイル生成手段によって生成した前記連携PDFファイルを前記サーバ装置に送信する送信手段と、
前記サーバ装置は、
前記連携PDFファイルを前記情報処理装置から受信する受信手段と、
前記受信手段によって受信した前記連携PDFファイルから前記連携データを取得するデータ連携手段と、
前記データ連携手段によって取得した前記連携データを、ネットワークを介して接続する他のシステムに送信する送信手段と、を備えることを特徴とするデータ連携システム。
【請求項12】
PDFファイルにおける領域と、データの意味を示す項目名と、を対応付けて記憶する抽出ルール記憶手段、を備えるコンピュータで実行される方法であって、
入力されたPDFファイルから前記抽出ルール記憶手段に記憶する前記項目名に対応付けられた前記領域に含まれるデータを抽出するデータ抽出ステップと、
前記PDFファイルに、前記項目名と、前記データ抽出ステップによって抽出した前記データとを対応付けた連携データを追記した連携PDFファイルを生成する連携PDFファイル生成ステップと、を含むことを特徴とする方法。
【請求項13】
コンピュータで実行される方法であって、
PDFファイルを表示するPDFファイル表示ステップと、
前記PDFファイル表示ステップによって表示するPDFファイルにおける、前記項目名それぞれの領域を受付ける領域受付ステップと、
前記領域受付ステップによって受付けた前記項目名それぞれの領域を、前記項目名に対応付けて抽出ルール記憶手段に格納する抽出ルール格納ステップと、を含むことを特徴とする方法。
【請求項14】
請求項12および請求項13に記載した方法をコンピュータに実行させることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、データ連携システム、方法およびプログラムに関する。
【背景技術】
【0002】
PDF(Portable Document Format)ファイルは、ユーザの操作する端末の使用環境に影響されることがなく、ページ単位での印刷また画面表示ができレイアウトが崩れないため、ビジネス文書として広く利用されている。PDFファイルは、表計算や文書作成等のアプリケーションプログラムによって文書内容を記述した文書ファイルを作成し、作成した文書ファイルをPDF形式に変換して生成することが一般的である。
【0003】
このようにして生成したPDFファイルは、文書ファイルの作成の仕方によって内部のデータ構造が若干異なり、キーワード検索でユーザが意図する検索ができない場合があるという問題があった。かかる問題に対し、PDFファイルから抽出した文字情報を含む検索用ファイルとPDFファイルとを対応付け一つの帳票ファイルとしてデータベースに登録し、登録した帳票ファイルに対する閲覧要求に応じ、ユーザが選択する任意の矩形領域と検索条件から判断した検索対象とすべき行に対し検索を実行する技術が開示されている(特許文献1参照)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2014-119939号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上述した特許文献1に記載した技術では、検索用ファイルとPDFファイルとを対応付けて一つの帳票ファイルとしてデータベースに格納するため、ファイル管理が煩雑になるという問題があった。
【0006】
また、請求書のように文書の形式がある程度決まっており、ユーザが必要とするデータが予め決まっているようなPDFファイルに対しても、任意の文言が検索できるよう検索用ファイルを生成し、検索用ファイルとPDFファイルを対応付けてデータベースに格納する必要があり、事前準備作業が多く、データベースを含むファイル管理システムが必要となるため、簡易な処理でPDFファイルから必要なデータを取得することができないという問題があった。
【0007】
本発明は、上記に鑑みてなされたものであり、文書をユーザ環境に影響されることなく所定のレイアウトで印刷および画面表示することができるとともに、ユーザの必要とするデータを容易に取得することができる情報処理装置、データ連携システム、方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上述した課題を解決するために、本発明では、PDFファイルにおける領域と、データの意味を示す項目名と、を対応付けて記憶する抽出ルール記憶手段、を備え、入力されたPDFファイルから抽出ルール記憶手段に記憶する項目名に対応付けられた領域に含まれるデータを抽出し、PDFファイルに、項目名と、抽出したデータとを対応付けた連携データを追記した連携PDFファイルを生成することを特徴とする。
【発明の効果】
【0009】
上述したように構成した本発明によれば、文書をユーザ環境に影響されることなく所定のレイアウトで印刷および画面表示することができるとともに、ユーザの必要とするデータを容易に取得することができるという効果を奏する。
【図面の簡単な説明】
【0010】
【
図1】本実施例にかかるデータ連携システム10の構成および情報処理装置100の構成を示すブロック図である。
【
図2】抽出ルール記憶部121に記憶する抽出ルール定義ファイルの一例を示す説明図である。
【
図3】データ連携システム10が備える情報処理装置200および情報処理装置300の構成を示すブロック図である。
【
図4】情報処理装置100が実行する連携PDFファイル生成処理手順を示すフローチャートである。
【
図5】連携PDFファイルのデータ構成の一例を示す説明図である。
【
図6】情報処理装置200が実行するデータ連携処理手順を示すフローチャートである。
【
図7】連携PDFファイルのデータ構成の一例を示す説明図である。
【
図8】情報処理装置100が実行する連携PDFファイルおよび連携データの表示処理手順を示すフローチャートである
【
図9】情報処理装置300が実行する抽出ルール生成処理手順を示すフローチャートである。
【
図10】画面に表示したPDFファイルにおける項目名ごとの領域の指示の一例を示す説明図である。
【
図11】情報処理装置100が実行する連携PDFファイル生成処理手順を示すフローチャートである。
【
図12】連携PDFファイルのデータ構成の一例を示す説明図である。
【発明を実施するための形態】
【0011】
添付図面を参照し本開示での1または複数の実施例を説明する。以下の説明は、本開示の実施の形態の例示であり、本開示はこれらの実施例に限定されるものではない。
【0012】
図1は、本実施例にかかるデータ連携システム10の構成および情報処理装置100の構成を示すブロック図である。データ連携システム10は、情報処理装置100と、情報処理装置200と、情報処理装置300と、他のシステムが動作する情報処理装置400と、を備える。情報処理装置100と情報処理装置200と情報処理装置300と情報処理装置400とは、
図1に示すように、ネットワークNを介して互いに通信可能に接続する。ネットワークNは、インターネット、イントラネット、LAN(Local Area Network)やVPN(Virtual Private Network)、移動体通信網等の任意の通信ネットワークおよびその組合せであり、その一部または全部が有線または無線であってもよい。
【0013】
情報処理装置100は、連携データを追記したPDFファイル(以下、連携PDFファイルという)を生成するコンピュータであり、パーソナルコンピュータ(以下、PCという)、タブレット端末、スマートフォン、サーバ等である。情報処理装置100は、情報処理装置100は、
図1に示すように、制御部110、記憶部120、操作表示部130、通信部140等を備える。
【0014】
制御部110は、記憶部120に記憶する種々のプログラムおよび制御情報を展開して実行することにより、情報処理装置100全体の動作を制御する。制御部110は、データ抽出部111、連携PDFファイル生成部112、タイムスタンプ付与部113、電子署名付与部114、QRコード生成部115として機能する。
【0015】
記憶部120は、抽出ルール記憶部121と、図示しない、各部を制御するためのプログラム、アプリケーションプログラム、各種制御情報や中間ファイル等を記憶する。
【0016】
抽出ルール記憶部121は、PDFファイルからデータを抽出するためのルールを記述した抽出ルール定義ファイルを記憶する。より具体的には、抽出ルール定義ファイルは、位置情報と、項目名と、フォーマットとを対応付けて記憶する。
図2は、抽出ルール記憶部121に記憶する抽出ルール定義ファイルの一例を示す説明図である。
図2に示す例では、抽出ルール定義ファイルをJSON形式で記述しており、抽出するデータごとに、位置情報21と、項目名22と、フォーマット23との組合せで記述する。抽出ルール定義ファイルは、JSON形式に限らず、抽出ルールを定義できれば、どのような形式であってもよい。また、抽出ルール定義ファイルは、PDFファイルの種別に応じ複数の抽出ルール定義ファイルを抽出ルール記憶部121に記憶してもよい。
【0017】
ここで、位置情報とは、ページごとに管理されるPDFファイルをページごとに印刷または表示した画像のなかでの抽出対象のデータが配置された領域を示す情報であり、
図2に示す抽出ルール定義ファイル例では、PDFファイルの1ページにおける領域を矩形の座標として記述している。位置情報は、PDFファイルの所定の位置(例えば、PDFファイルの左上)を原点とし、X軸方向の座標、Y軸方向の座標として記載するほか、PDFファイルの長辺における割合と短辺における割合(例えば、原点から短辺方向15%、長辺方向20%の位置等)で示してもよい。なお、位置情報は、矩形での4点に限る必要はなく、多角形や円、楕円等であってもよい。
【0018】
項目名とは、PDFファイルから抽出するデータ(文字や数字等)の意味を示す情報であり、例えば、データ抽出対象であるPDFファイルが“請求書”であれば、項目名の一例として“会社名”、“金額”、“請求No”、“日付”、“消費税”等を項目名としてもよい。フォーマットとは、位置情報に含まれるデータを抽出する際に抽出するデータの形式を示すものであり、位置情報に含まれる、または位置情報に一部が重なるとして抽出されたデータのなかから、フォーマットに合致するデータを抽出してもよい。
【0019】
操作表示部130は、ユーザによる操作等を受付け、操作等に対する結果を表示する。操作表示部130は、アプリケーションプログラムで作成した文書ファイルやPDFファイルの画像等を表示する。操作表示部130は、例えばPCの場合は、液晶ディスプレイ(LCD:Liquid Crystal Display)や有機EL(electroluminescence)ディスプレイ等の表示装置、キーボード、マウス等であり、タブレット端末、スマートフォンの場合は、液晶ディスプレイとタッチセンサを重畳して構成するタッチパネル等である。通信部140は、ネットワークNを介して他の装置と互いに通信可能に接続し、他の装置とデータを送受信する。
【0020】
次に、制御部110で機能する、データ抽出部111、連携PDFファイル生成部112、タイムスタンプ付与部113、電子署名付与部114、QRコード生成部115について説明する。
【0021】
データ抽出部111は、データ抽出対象であるPDFファイルから、抽出ルール記憶部121に記憶する抽出ルール定義ファイルに記述した位置情報と項目名とフォーマットに基づいて、項目名ごとのデータ(以下、連携データという)を抽出する。データ抽出部111は、抽出した連携データをXML(Extensible Markup Language)形式(またはCSV形式、その他の形式)に変換する。
【0022】
連携PDFファイル生成部112は、連携データをPDFファイルの不可視領域(または可視領域)に追記したPDFファイルである連携PDFファイルを生成する。連携PDFファイル生成部112は、後述するQRコード生成部115によって生成したQRコード(登録商標)をPDFファイルに追記した連携PDFファイルを生成する。
【0023】
タイムスタンプ付与部113は、連携PDFファイルのハッシュ値を時刻認証局に送信することによって発行されるタイムスタンプを連携PDFファイルに付与する。
【0024】
電子署名付与部114は、連携PDFファイルのハッシュ値を用いた電子署名を生成し、連携PDFファイルに付与する。なお、電子署名付与部114は、電子署名に代えて、認証局が発行する電子証明書を付与してもよい。さらに、個人(自然人)が作成したことを示す電子署名(または電子証明書)を連携PDFファイルに付与することに代えて、法人や組織が作成したことを示すeシールを付与してもよい。
【0025】
QRコード生成部115は、データ抽出部111が抽出した連携データを示すQRコードを生成する。
【0026】
次に、情報処理装置100とともに、データ連携システム10を構成する情報処理装置200および情報処理装置300について説明する。
図3は、データ連携システム10が備える情報処理装置200および情報処理装置300の構成を示すブロック図である。情報処理装置200は、連携PDFファイルから連携データを取得し他のシステムに送信するコンピュータであり、サーバやPC、タブレット端末、スマートフォン等である。情報処理装置200は、制御部210、記憶部220、操作表示部230、通信部240等を備える。操作表示部230、通信部240の機能は、上述した操作表示部130、通信部140と同様であるため、操作表示部130、通信部140の説明を参照し、ここでの説明は省略する。
【0027】
記憶部220は、連携PDFファイル記憶部221と、連携データ記憶部222と、図示しない、各部を制御するためのプログラム、アプリケーションプログラム、各種制御情報や中間ファイル等を記憶する。連携PDFファイル記憶部221は、連携データを抽出する連携PDFファイルを記憶する。連携PDFファイル記憶部221は、ネットワークNを介して接続する、1または複数の情報処理装置100から連携PDFファイルを受信し格納する。連携データ記憶部222は、連携PDFファイルから抽出した連携データを格納する。
【0028】
制御部210は、データ連携部211、タイムスタンプ検証部212、電子署名検証部213として機能する。各部について説明する。
【0029】
データ連携部211は、連携PDFファイル記憶部221に記憶する連携PDFファイルから、連携PDFファイルの不可視領域(または可視領域)に記憶する連携データを取得する。データ連携部211は、取得した連携データを連携データ記憶部222に格納する。
【0030】
タイムスタンプ検証部212は、連携PDFファイルに付与されたタイムスタンプを検証する。より具体的には、タイムスタンプ検証部212は、連携PDFファイルのハッシュ値と、タイムスタンプに含まれるハッシュ値を比較し検証する。
【0031】
電子署名検証部213は、連携PDFファイルに付与された電子署名を検証する。より具体的には、電子署名検証部213は、連携PDFファイルのハッシュ値と、電子署名を公開鍵で復号したハッシュ値を比較し検証する。
【0032】
情報処理装置300は、情報処理装置100において連携PDFファイルから連携データを抽出する際の抽出ルールを生成するコンピュータであり、サーバやPC等である。情報処理装置300は、制御部310、記憶部320、操作表示部330、通信部340等を備える。操作表示部330、通信部340の機能は、上述した操作表示部130、通信部140と同様であるため、操作表示部130、通信部140の説明を参照し、ここでの説明は省略する。
【0033】
記憶部320は、教師データ記憶部321と、抽出ルール記憶部322と、図示しない、各部を制御するためのプログラム、アプリケーションプログラム、各種制御情報や中間ファイル等を記憶する。教師データ記憶部321は、抽出ルールを生成する際に用いるPDFファイルを記憶する。教師データ記憶部321に記憶するPDFファイルは、ユーザの操作する基幹システム等から収集しても、ネットワークNを介して接続する多くの情報処理装置からクローラで収集してもよい。抽出ルール記憶部322は、抽出ルール定義ファイルを記憶する。
【0034】
ルール生成部311は、読み込んだPDFファイルから抽出ルール定義ファイルを生成し、抽出ルール記憶部322に格納する。なお、抽出ルール定義ファイルは、PDFファイルの種別ごとに生成し、抽出ルール記憶部322に格納してもよい。
【0035】
上述したように構成されたデータ連携システム10の情報処理装置100、情報処理装置200、情報処理装置300で実行する処理について説明する。
図4は、情報処理装置100が実行する連携PDFファイル生成処理手順を示すフローチャートである。
【0036】
情報処理装置100は、アプリケーションプログラム上でユーザによる操作を受付け、受付けた操作に応じた処理を実行する(ステップS401)。操作表示部130は、アプリケーションプログラムの終了指示を受付けたか否かを判断する(ステップS402)。アプリケーションプログラムの終了指示を受付けたと判断した場合(ステップS402:Yes)、アプリケーションプログラムを終了する。
【0037】
アプリケーションプログラムの終了指示を受付けていないと判断した場合(ステップS402:No)、操作表示部130は、PDFファイル生成指示を受付けたか否かを判断する(ステップS403)。PDFファイル生成指示を受付けていないと判断した場合(ステップS403:No)、ステップS401に戻り、アプリケーションプログラム上の操作および処理を実行する。
【0038】
PDFファイル生成指示を受付けたと判断した場合(ステップS403:Yes)、アプリケーションプログラム上で作成した文書からPDFファイルを生成する(ステップS404)。データ抽出部111は、生成したPDFファイルから連携データを抽出する(ステップS405)。より具体的には、データ抽出部111は、抽出ルール記憶部121に記憶する抽出ルール定義ファイルの記述に従い、PDFファイルにおける位置情報が示す領域に含まれるデータのなかから、フォーマットに従いデータを抽出する。なお、領域に含まれるデータには、データが領域に一部かかるものを含めてもよい。データ抽出部111は、抽出したデータと項目名を対応付けた連携データを生成する。連携データの形式は、XML形式、CSV形式、またはその他の形式である。
【0039】
連携PDFファイル生成部112は、PDFファイルに連携データを埋め込んだ連携PDFファイルを生成する(ステップS406)。より具体的には、連携PDFファイル生成部112は、PDFファイルから抽出した連携データをPDFファイルの不可視領域に埋め込む。
【0040】
図5は、連携PDFファイルのデータ構成の一例を示す説明図である。
図5(a)連携PDFファイルのデータ構成例に示すように、連携PDFファイルは、可視領域にページコンテンツを記憶し、不可視領域に連携データを記憶する。連携PDFファイルを画面に表示すると、画面表示例に示すように、可視領域に記憶するページコンテンツに記述された内容が表示される。なお、ページコンテンツは、1ページに限らず、複数ページであってもよい。連携データは、連携データ例に示すようなデータがPDFファイル内に格納されているが、不可視領域に格納されているため、画面には表示されない。抽出ルール定義ファイルに、ページ番号を含んでもよく、ページごとに記述したデータを抽出してもよい。
【0041】
タイムスタンプ付与部113は、連携PDFファイルにタイムスタンプを付与する(ステップS407)。より具体的には、タイムスタンプ付与部113は、連携PDFファイルのハッシュ値を算出し、算出したハッシュ値を時刻認証局に送信し、時刻認証局から受信したタイムスタンプを連携PDFファイルに付与する。
【0042】
電子署名付与部114は、連携PDFファイルに電子署名を付与する(ステップS408)。より具体的には、電子署名付与部114は、連携PDFファイルのハッシュ値を算出し、算出したハッシュ値を秘密鍵で暗号化した電子署名を生成し、生成した電子署名を連携PDFファイルに付与する。
図5(b)は、連携PDFファイルにタイムスタンプおよび電子署名を付加した例である。なお、連携PDFファイルには、タイムスタンプおよび電子署名の両方を付与しても、いずれか一方を付与しても、どちらも付与しなくてもよい。
【0043】
このように、印刷や画面表示においてレイアウトが崩れることがないPDFファイルから、抽出ルール定義ファイルに記述された項目名ごとの領域に基づいて連携データを抽出し、抽出したデータをPDFファイル内に格納することによって、PDFファイルを介して他のシステムにPDFファイルに含まれるデータをデータの意味を示す項目名とともに容易に受け渡しすることができる。これにより、他のシステムでもPDFファイルに含まれるデータを容易に利用することができる。また、PDFファイルに連携データが埋め込まれているため、1つのファイルとして送受信することができ、取り扱いが容易であるとともに、PDFファイルをPDFビューアで表示または印刷することでデータの根拠を容易に確認することができる。
【0044】
また、連携PDFファイルにタイムスタンプを付与することによって、タイムスタンプに刻印されている時刻以前に連携PDFファイルが存在し、改ざんされていないことを確認することができる。連携PDFファイルに電子署名を付与し、受取先で電子署名を検証することによって、連携PDFファイルが改ざんされていないことや連携PDFファイルを生成したユーザがなりすましではない正当なユーザであることを確認することができる。
【0045】
次に、情報処理装置200で実行するデータ連携処理について説明する。
図6は、情報処理装置200が実行するデータ連携処理手順を示すフローチャートである。
【0046】
データ連携部211は、連携PDFファイル記憶部221から連携PDFファイルを読込む(ステップS601)。データ連携部211は、連携PDFファイル記憶部221から連携PDFファイルを読込むことに代えて、他の情報処理装置からネットワークNを介して送信される連携PDFファイルを受信して読込んでもよい。
【0047】
タイムスタンプ検証部212は、連携PDFファイルに付与されたタイムスタンプを検証する(ステップS602)。より具体的には、タイムスタンプ検証部212は、連携PDFファイルからハッシュ値を算出し、タイムスタンプに含まれるハッシュ値と比較し、合致すると判断した場合、タイムスタンプに含まれる時刻以降連携PDFファイルが改ざんされていないと判断する。タイムスタンプが検証できない、すなわちハッシュ値が合致しないと判断した場合は、連携PDFファイルを識別する情報とともに、タイムスタンプが検証できなかった旨をログファイルに書き込み、ステップS606に進む。
【0048】
電子署名検証部213は、連携PDFファイルに付与された電子署名を検証する(ステップS603)。より具体的には、電子署名検証部213は、連携PDFファイルのハッシュ値と、電子署名を公開鍵で復号して得られるハッシュ値と比較し、合致するか否かを判断する。電子署名が検証できない、すなわちハッシュ値が合致しないと判断した場合は、連携PDFファイルを識別する情報とともに、電子署名が検証できなかった旨をログファイルに書き込み、ステップS606に進む。
【0049】
データ連携部211は、連携PDFファイルに含まれる連携データを取得する(ステップS604)。データ連携部211は、取得した連携データを連携データ記憶部222に格納する(ステップS605)。データ連携部211は、連携PDFファイルの読込みを終了するか否かを判断する(ステップS606)。より具体的には、データ連携部211は、抽出対象で、かつ、データを抽出されていない連携PDFファイルが連携PDFファイル記憶部221に記憶されているか否かを判断する。その他、所定時間までに受信した連携PDFファイルであるか否か等によって、連携データ抽出を終了するか否かを判断してもよい。
【0050】
連携PDFファイルの読込みを終了しないと判断した場合(ステップS606:No)、ステップS601に戻り、連携データの抽出処理を続行する。連携PDFファイルの読込みを終了すると判断した場合(ステップS606:Yes)、連携データ記憶部222に記憶する連携データを他のシステムに送信する(ステップS607)。他のシステム(例えば、会計システムや業務管理システム等)が動作する情報処理装置400にネットワークNを介して連携データを送信し、他のシステムでは、受信した連携データを用いた処理を実行する。
【0051】
このように、
図5に示すような連携PDFファイルのデータ構造を採ることによって、連携PDFファイルから連携データを容易に取得することができる。連携PDFファイルは、PDF形式の1つのファイルであるため、コンピュータ間で容易に送受信することができ、データベースのような仕組みを利用する必要もなく、1つのファイルでデータを管理することができる。
【0052】
また、連携PDFファイルにタイムスタンプや電子署名を付与し、連携データを抽出する際に、タイムススタンプや電子署名を検証することによって改ざんやなりすましがないデータであることを確認することができる。なお、連携PDFファイルにタイムスタンプや電子署名を付与しない場合は、タイムスタンプや電子署名の検証処理は実行せず、連携データを抽出する。
【0053】
他の実施例について説明する。上述した
図4の連携PDFファイル生成処理でのステップS406において、連携PDFファイル生成部112は、PDFファイルから抽出した連携データをPDFファイルの不可視領域に埋め込んだが、不可視領域に代えて可視領域に連携データを埋め込んでもよい。以下に、連携データを可視領域に埋め込む場合のデータ構成および表示処理について説明する。
【0054】
図7は、連携PDFファイルのデータ構成の一例を示す説明図である。
図7に示す連携PDFファイルでは、ページコンテンツを可視領域1に、連携データを可視領域2に記憶する。可視領域1に記憶するページコンテンツは、
図5と同様に画面に表示され、可視領域2に連携データを記憶する場合は、画面のPDFファイル上にデータが存在することを示すマーク71を表示する。
【0055】
連携PDFファイルの可視領域2に連携データを埋め込んだ場合の、情報処理装置100での連携PDFファイルの表示処理について説明する。
図8は、情報処理装置100が実行する連携PDFファイルの表示処理手順を示すフローチャートである。
【0056】
操作表示部130は、表示対象である連携PDFファイルの指示を受付ける(ステップS801)。操作表示部130は、連携PDFファイルのページコンテンツを画面に表示する(ステップS802)。その際、
図7に示す画面表示例のように、ページコンテンツの内容を表示することに加え、可視領域2に連携データを記憶することを示すマーク71を表示する。マーク71は、
図7に示すようなピンのほか円やその他の図形でもよく、連携データが存在することを示すものであればどのようなものでもよい。
【0057】
操作表示部130は、連携データの表示指示を受付けたか否かを判断する(ステップS803)。
図7に示す例では、連携データを記憶することを示すマーク71の指示を受付けたか否かを判断する。連携データの表示指示を受付けたと判断した場合(ステップS803:Yes)、操作表示部130は、連携PDFファイルの可視領域2に記憶する連携データを読み出し画面に表示する(ステップS804)。連携データは、連携データのテキストをそのまま表示しても、XML形式の場合、例えばXSLT(Extensible Stylesheet Language Transformations)スタイルシートを不可視領域に格納しておき、スタイルシートを用いてXMLデータを変換して表示してもよい。また、連携データは別ウィンドウや吹き出し等で表示してもよい。連携データの表示指示を受付けないと判断した場合(ステップS803:No)、処理を終了する。
【0058】
このように、連携データをページコンテンツと別の可視領域に格納しておき、表示指示を受付けた場合に連携データを表示することによって、PDFファイルに含まれるデータのうちのどのデータが抽出されて連携データとして格納されたのかをユーザが容易に確認することができる。
【0059】
次に、PDFファイルから連携データを抽出するためのルールを生成する処理について説明する。
図9は、情報処理装置300が実行する抽出ルール生成処理手順を示すフローチャートである。
【0060】
ルール生成部311は、ルールを生成するために参照するPDFファイルを教師データ記憶部321から読み出す(ステップS901)。操作表示部330は、読み出したPDFファイルを画面に表示する(ステップS902)。操作表示部330は、項目名の入力を受付ける(ステップS903)。項目名は、キーボード等から入力しても、予め設定された項目名をプルダウンメニュー等で表示し、表示した項目名を選択するようにしてもよい。
【0061】
操作表示部330は、項目名に応じたPDFファイル上の領域の指示を受付ける(ステップS904)。
図10は、画面に表示したPDFファイルにおける項目名ごとの領域の指示の一例を示す説明図である。画面に表示されたPDFファイル11において、項目名“会社名”に対する領域12、 項目名“請求No”に対する領域13、項目名“日付”に対する領域14、項目名“金額”に対する領域15、項目名“件名”に対する領域16、 項目名“項目”に対する領域17を指示した様子を示す。
【0062】
ルール生成部311は、指示された領域からPDFファイルにおける領域の位置情報を算出する(ステップS905)。ルール生成部311は、指示された領域に含まれるデータを取得する(ステップS906)。例えば、項目名“会社名”のデータとして“AAA株式会社様”を取得する。ルール生成部311は、領域の位置情報と項目名とを対応付けて中間ファイルに格納する。ルール生成部311は、教師データ記憶部321に記憶するPDFファイルをすべて読出したか否かを判断する(ステップS907)。教師データ記憶部321に記憶するPDFファイルをすべて読出していないと判断した場合(ステップS907:No)、ステップS901に戻り、次のPDFファイルを読出す。
【0063】
教師データ記憶部321に記憶するPDFファイルをすべて読み出したと判断した場合(ステップS907:Yes)、ルール生成部311は、中間ファイルに格納した項目名ごとの領域の位置情報から、項目ごとの位置情報の平均値を算出する(ステップS908)。ルール生成部311は、中間ファイルに格納した項目名ごとのデータから、項目ごとのフォーマットを生成する(ステップS909)。例えば、項目名“会社名”のデータにおいて“様”が共通すると判断した場合、フォーマットを“XXXX様”とし、“XXXX”を連携データとして抽出する。
【0064】
ルール生成部311は、項目名ごとに、位置情報の平均値とフォーマットを対応付けた抽出ルール定義ファイルを抽出ルール記憶部322に格納する(ステップS910)。このような処理で生成された抽出ルール記憶部322に記憶する抽出ルール定義ファイルは、所定のタイミング、または情報処理装置100の要求に応じて情報処理装置100に送信し、情報処理装置100の抽出ルール記憶部121に格納する。
【0065】
このように、数多くのPDFファイルを参照し、項目名ごとに指示した領域の位置情報の平均値を算出するとともに、項目名ごとのフォーマットを生成することによって、PDFファイルから連携データを抽出する際に、項目名の内容に応じた適切なデータを抽出することができる。
【0066】
他の実施例として、項目名ごとの領域の位置情報の平均値を算出することに代えて、項目名ごとの領域の位置情報のすべてを含む最大領域の位置情報を算出してもよい。また、項目名ごとに、1つの領域に限らず複数の領域の位置情報を算出してもよい。
【0067】
抽出ルール生成処理は、上述した教師データから項目名ごとの領域の位置情報の平均値や最大値を算出することに代えて、項目名に対応するデータを数多くのPDFファイルの項目名ごとの領域の指示によって学習した学習済みモデルを生成してもよい。これにより、PDFファイルに含まれる連携データをAI(Artificial Intelligence:人工知能)を用いて抽出することができる。学習済みモデルを生成した場合には、情報処理装置100の抽出ルール記憶部121に学習済みモデルを格納し、PDFファイルを入力することによって学習済みモデルを用いて項目名ごとのデータを出力する。
【0068】
他の実施例として、
図4を用いて説明した、連携データをPDFファイルに埋め込むことによって連携PDFファイルを生成する処理に代えて、または加えて、連携データを示すQRコードを生成し、生成したQRコードをPDFファイルに追記して連携PDFファイルを生成する処理について説明する。
【0069】
図11は、情報処理装置100が実行する連携PDFファイル生成処理手順を示すフローチャートである。
図11のフローチャートにおけるステップS1101〜ステップS1105、ステップS1108、ステップS1109は、上述した
図4のステップS401〜ステップS405、ステップS407、ステップS408と同様であるため、上述した説明を参照し、ここでの説明は省略する。
【0070】
QRコード生成部115は、ステップS1105において、データ抽出部111がPDFファイルから抽出した連携データを示すQRコードを生成する(ステップS1106)。連携PDFファイル生成部112は、PDFファイルにQRコードを埋め込んだ連携PDFファイルを生成する(ステップS1107)。より具体的には、連携PDFファイル生成部112は、PDFファイルから抽出したQRコードをPDFファイルの可視領域に埋め込む。
【0071】
図12は、連携PDFファイルのデータ構成の一例を示す説明図である。
図12の連携PDFファイルのデータ構成例に示すように、連携PDFファイルは、可視領域にページコンテンツと連携データを記述したQRコードを記憶する。連携PDFファイルを画面に表示すると、画面表示例に示すように、ページコンテンツに記述された内容とQRコード21が表示される。
【0072】
このように、連携データをQRコードに変換してPDFファイルに埋め込むことによって、画像として表示(または認識)されるQRコードを読取ることで連携データを取得することができ、他のシステムに容易に受け渡すことができる。また、紙に印刷したPDFファイルであっても、QRコードを読取ることによって連携データを取得することができる。また、スマートフォン等によってQRコードを読取ることができ、容易に連携データの内容を確認することができる。
【0073】
上述した実施例にかかる情報処理装置100、情報処理装置200、情報処理装置300のハードウェア構成は、CPU(Central Processing Unit)、MPU(Micro-Processing Unit)又はGPU(Graphics Processing Unit)等の1又は複数のプロセッサを含み、ROM(Read Only Memory)やRAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリ、SSD(Solid State Drive)等の外部記憶装置、通信制御装置等を備えた通常のコンピュータであり、ROMやRAM、HDD等に記憶されたプログラムをCPUが読み出し動作させることによって、上述した構成や機能を実現する。なお、制御部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)等の電子回路であってもよい。
【0074】
情報処理装置100、情報処理装置200、情報処理装置300で動作するプログラムは、インターネット等のネットワークに接続されたコンピュータ上に格納しておき、ネットワーク経由でダウンロードさせることにより提供したり、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、DVD、USBメモリ、SDカード等のコンピュータで読取り可能な記録媒体に記録し提供してもよい。また、上述した機能や処理を実現するプログラムは、API(Application Programming Interface)やSaaS(Software as a Service)、クラウドコンピューティングという利用形態で提供してもよい。
【0075】
上述した実施例では、情報処理装置100、情報処理装置200、情報処理装置300を別々の装置として説明したが、情報処理装置100、情報処理装置200、情報処理装置300の機能を1つの装置として構成してもよく、いずれか2つの装置の機能を組合せて構成してもよい。
【0076】
なお、本発明は、上述した実施例そのままに限定されるものではなく、必ずしも物理的に図示のように構成されている必要はない。また、本発明は、実施例で説明した構成要素の全部または一部を、各種の負荷や使用状況などに応じ、任意の単位で機能的または物理的に分割、統合、入替、変形または削除して構成することができる。
【符号の説明】
【0077】
10…データ連携システム、100…情報処理装置、110…制御部、111…データ抽出部、112…連携PDFファイル生成部、113…タイムスタンプ付与部、114…電子署名付与部、115…QRコード生成部、120…記憶部、121…抽出ルール記憶部、130…操作表示部、140…通信部、200…情報処理装置、210…制御部、211…データ連携部、212…タイムスタンプ検証部、213…電子署名検証部、220…記憶部、221…連携PDFファイル記憶部、222…連携データ記憶部、230…操作表示部、240…通信部、300…情報処理装置、310…制御部、311…ルール生成部、320…記憶部、321…教師データ記憶部、322…抽出ルール記憶部、330…操作表示部、340…通信部、400…情報処理装置(他のシステム)
【手続補正書】
【提出日】2020年10月5日
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
文書を生成するアプリケーションプログラムが動作する情報処理装置において、
PDFファイルにおける領域と、データの意味を示す項目名と、前記データを抽出する際のデータの形式を示すフォーマットと、を対応付けて記憶する抽出ルール記憶手段と、
前記アプリケーションプログラムで作成した文書に対しPDFファイル生成指示を受付けたと判断した場合に、アプリケーションプログラム上で作成した文書からPDFファイルを生成するPDFファイル生成手段と、
前記PDFファイル生成手段によって生成したPDFファイルから前記抽出ルール記憶手段に記憶する前記項目名に対応付けられた前記領域に少なくとも一部が重なるデータのうちの、前記抽出ルール記憶手段に記憶する前記フォーマットに合致するデータを抽出するデータ抽出手段と、
前記PDFファイルに、前記項目名と、前記データ抽出手段によって抽出した前記データとを対応付けた連携データを追記した連携PDFファイルを生成する連携PDFファイル生成手段と、
を備えることを特徴とする情報処理装置。
【請求項2】
前記連携データを示すQRコードを生成するQRコード生成手段、をさらに備え、
前記連携PDFファイル生成手段は、前記QRコード生成手段によって生成した前記QRコードを前記連携PDFファイルに追記すること、を特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記連携PDFファイル生成手段は、前記連携データを前記PDFファイルの不可視領域に追記すること、を特徴とする請求項1または請求項2に記載の情報処理装置。
【請求項4】
前記連携データの表示指示を受付ける表示指示受付手段と、
前記連携データを表示する連携データ表示手段と、をさらに備え、
前記連携PDFファイル生成手段は、前記連携データを前記PDFファイルの可視領域に追記し、
前記連携データ表示手段は、前記表示指示受付手段によって前記連携データの表示指示を受付けた場合に、前記連携PDFファイルから前記連携データを読出して表示すること、を特徴とする請求項1または請求項2に記載の情報処理装置。
【請求項5】
前記連携PDFファイルにタイムスタンプを付与するタイムスタンプ付与手段、をさらに備えることを特徴とする請求項1〜5のいずれか1つに記載の情報処理装置。
【請求項6】
前記連携PDFファイルに電子署名を付与する電子署名付与手段、をさらに備えることを特徴とする請求項1〜6のいずれか1つに記載の情報処理装置。
【請求項7】
前記連携PDFファイルから前記連携データを取得するデータ連携手段と、
前記データ連携手段によって取得した前記連携データを他のシステムに送信する送信手段と、を備えることを特徴とする請求項1〜7のいずれか1つに記載の情報処理装置。
【請求項8】
PDFファイルを表示するPDFファイル表示手段と、
前記PDFファイル表示手段によって表示するPDFファイルにおける、前記項目名それぞれの領域を受付ける領域受付手段と、
前記領域受付手段によって受付けた領域に含まれるデータを前記PDFファイルから取得し、取得した前記データからフォーマットを生成するフォーマット生成手段と、
前記領域受付手段によって受付けた前記項目名それぞれの領域、および前記フォーマット生成手段によって生成した前記フォーマットを、前記項目名に対応付けて前記抽出ルール記憶手段に格納する抽出ルール格納手段と、を備えることを特徴とする請求項1〜7のいずれか1つに記載の情報処理装置。
【請求項9】
文書を生成するアプリケーションプログラムが動作する情報処理装置と、ネットワークを介して接続するサーバ装置と、を備えるデータ連携システムであって、
前記情報処理装置は、
PDFファイルにおける領域と、データの意味を示す項目名と、前記データを抽出する際のデータの形式を示すフォーマットと、を対応付けて記憶する抽出ルール記憶手段と、
前記アプリケーションプログラムで作成した文書に対しPDFファイル生成指示を受付けたと判断した場合に、アプリケーションプログラム上で作成した文書からPDFファイルを生成するPDFファイル生成手段と、
前記PDFファイル生成手段によって生成されたPDFファイルから前記抽出ルール記憶手段に記憶する前記項目名に対応付けられた前記領域に少なくとも一部が重なるデータのうちの、前記抽出ルール記憶手段に記憶する前記フォーマットに合致するデータを抽出するデータ抽出手段と、
前記PDFファイルに、前記項目名と、前記データ抽出手段によって抽出した前記データとを対応付けた連携データを追記した連携PDFファイルを生成する連携PDFファイル生成手段と、
前記連携PDFファイル生成手段によって生成した前記連携PDFファイルを前記サーバ装置に送信する送信手段と、
前記サーバ装置は、
前記連携PDFファイルを前記情報処理装置から受信する受信手段と、
前記受信手段によって受信した前記連携PDFファイルから前記連携データを取得するデータ連携手段と、
前記データ連携手段によって取得した前記連携データを他のシステムに送信する送信手段と、を備えることを特徴とするデータ連携システム。
【請求項10】
PDFファイルにおける領域と、データの意味を示す項目名と、前記データを抽出する際のデータの形式を示すフォーマットと、を対応付けて記憶する抽出ルール記憶手段、を備えるコンピュータで実行される方法であって、
アプリケーションプログラムで作成した文書に対しPDFファイル生成指示を受付けたと判断した場合に、アプリケーションプログラム上で作成した文書からPDFファイルを生成するPDFファイル生成ステップと、
前記PDFファイル生成ステップによって生成されたPDFファイルから前記抽出ルール記憶手段に記憶する前記項目名に対応付けられた前記領域に少なくとも一部が重なるデータのうちの、前記抽出ルール記憶手段に記憶する前記フォーマットに合致するデータを抽出するデータ抽出ステップと、
前記PDFファイルに、前記項目名と、前記データ抽出ステップによって抽出した前記データとを対応付けた連携データを追記した連携PDFファイルを生成する連携PDFファイル生成ステップと、を含むことを特徴とする方法。
【請求項11】
コンピュータで実行される方法であって、
PDFファイルを表示するPDFファイル表示ステップと、
前記PDFファイル表示ステップによって表示するPDFファイルにおける、項目名それぞれの領域を受付ける領域受付ステップと、
前記領域受付ステップによって受付けた領域に含まれるデータを前記PDFファイルから取得し、取得した前記データからフォーマットを生成するフォーマット生成ステップと、
前記領域受付ステップによって受付けた前記項目名それぞれの領域、および前記フォーマット生成ステップによって生成した前記フォーマットを、前記項目名に対応付けて抽出ルール記憶手段に格納する抽出ルール格納ステップと、を含むことを特徴とする方法。
【請求項12】
請求項10および請求項11に記載した方法をコンピュータに実行させることを特徴とするプログラム。