特開2024-25219 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＪＦＥシステムズ株式会社の特許一覧

特開2024-25219ＰＤＦ帳票の読取装置、読取方法及び読取プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024025219

(43)【公開日】2024-02-26

(54)【発明の名称】ＰＤＦ帳票の読取装置、読取方法及び読取プログラム

(51)【国際特許分類】

G06Q 10/00 20230101AFI20240216BHJP

G06F 16/532 20190101ALI20240216BHJP

G06Q 30/04 20120101ALI20240216BHJP

G06V 30/412 20220101ALI20240216BHJP

【ＦＩ】

G06Q10/00

G06F16/532

G06Q30/04

G06V30/412

【審査請求】未請求

【請求項の数】15

【出願形態】ＯＬ

(21)【出願番号】P 2022128480

(22)【出願日】2022-08-10

(71)【出願人】

【識別番号】000200253

【氏名又は名称】ＪＦＥシステムズ株式会社

(74)【代理人】

【識別番号】110002963

【氏名又は名称】弁理士法人ＭＴＳ国際特許事務所

(72)【発明者】

【氏名】白石千明

(72)【発明者】

【氏名】伊東昭

(72)【発明者】

【氏名】▲高▼木優花

【テーマコード（参考）】

5B029

5B175

5L049

【Ｆターム（参考）】

5B029CC26

5B175FA01

5B175GB05

5L049AA00

5L049BB11

(57)【要約】

【課題】紙に印刷する代わりにＰＤＦ化した様式不明の様々な帳票をそのまま読取り、帳票の種別を自動的に判定した上で、必要な情報を抽出して、ＰＤＦ化した帳票と一緒に保存できるようにする。
【解決手段】様式不明の様々なＰＤＦ帳票２００から必要なデータを抽出するための、ＰＤＦ帳票の読取に際し、帳票を同定できる特徴情報を帳票種別情報としてデータベース２２０化し、該データベースを参照し、帳票の種類に対して、その帳票種別ＩＤ２１０を付加し、帳票から必要なデータを抽出するためのキー定義を検索キー（２０２、２０４）として自動的に作成し、帳票を読込み、前記帳票種別情報から、読込まれた帳票の特徴と合致する帳票種別ＩＤを検索することにより、読込まれた帳票毎に、その種別を自動的に判定し、判定した帳票種別ＩＤに対応する検索キーを取得し、読込まれた帳票をヘッダ部分２００Ａと明細部分２００Ｂに分け、取得した検索キーを用いてデータを抽出する。
【選択図】図３

【特許請求の範囲】

【請求項1】

様式不明の様々なＰＤＦ帳票から必要なデータを抽出するための、ＰＤＦ帳票の読取装置であって、
帳票を同定できる特徴情報を帳票種別情報としてデータベース化する手段と、
該データベースを参照し、帳票の種類に対して、その帳票種別ＩＤを付加する手段と、
帳票から必要なデータを抽出するためのキー定義を検索キーとして自動的に作成する手段と、
帳票を読込む手段と、
前記帳票種別情報から、読込まれた帳票の特徴と合致する帳票種別ＩＤを検索することにより、読込まれた帳票毎に、その種別を自動的に判定する手段と、
判定した帳票種別ＩＤに対応する検索キーを取得する手段と、
読込まれた帳票をヘッダ部分と明細部分に分け、取得した検索キーを用いてデータを抽出する手段と、
を含むことを特徴とするＰＤＦ帳票の読取装置。

【請求項2】

前記検索キーを、キー定義の名称をキー名として、データが出現する位置の明細内の座標と、明細の中の何行目かを示す段落内行指定に関する情報をＰＤＦ解析ライブラリを利用して抽出することにより自動的に作成することを特徴とする請求項１に記載のＰＤＦ帳票の読取装置。

【請求項3】

前記検索キーが、ページ内に単一出現する情報を定義するためのページキーと、ページ内に複数出現する情報を定義するためのラインキーとを含むことを特徴とする請求項２に記載のＰＤＦ帳票の読取装置。

【請求項4】

前記ラインキーの作成を、帳票から表になっている部分を抽出し、表のヘッダ部分の名称や、各列、行の座標を抽出することにより行うことを特徴とする請求項３に記載のＰＤＦ帳票の読取装置。

【請求項5】

前記ページキーが、取引先企業名、取引番号、請求合計金額、取引年月日及び担当者の少なくとも一部を含むことを特徴とする請求項３に記載のＰＤＦ帳票の読取装置。

【請求項6】

前記ラインキーが、注文番号、品目、数量、単価の少なくとも一部を含む注文明細データを含むことを特徴とする請求項３に記載のＰＤＦ帳票の読取装置。

【請求項7】

前記データを抽出する手段が、前記検索キーを用いて、表になっている部分のヘッダ部分の名称や、各列、各行の位置により、各列、各行の数値をデータとして抽出することを特徴とする請求項１に記載のＰＤＦ帳票の読取装置。

【請求項8】

前記データの抽出に際して、一枚の帳票中に表が複数存在する場合は、あらかじめ決めたルールに基づき明細部分と判定することを特徴とする請求項１に記載のＰＤＦ帳票の読取装置。

【請求項9】

前記データの抽出に際して、表中のセル内で改行されている場合は、別データとして扱い、別キーを用いて抽出することを特徴とする請求項１に記載のＰＤＦ帳票の読取装置。

【請求項10】

前記データの抽出に際して、表中のセル内のデータが数字の場合は、ヘッダ行でなくデータ行とみなすことを特徴とする請求項１に記載のＰＤＦ帳票の読取装置。

【請求項11】

前記データの抽出に際して、表中に複数列を含む列が存在する場合は、座標を修正することを特徴とする請求項１に記載のＰＤＦ帳票の読取装置。

【請求項12】

抽出されたデータをチェックして修正する手段を更に含む、請求項１に記載のＰＤＦ帳票の読取装置。

【請求項13】

帳票にイメージが埋込まれているか、文字コードが埋込まれているかを判別し、イメージが埋込まれている時はＯＣＲ処理する手段を更に含む、請求項１に記載のＰＤＦ帳票の読取装置。

【請求項14】

様式不明の様々なＰＤＦ帳票から必要なデータを抽出するための、ＰＤＦ帳票の読取方法であって、
帳票を同定できる特徴情報を帳票種別情報としてデータベース化する手順と、
該データベースを参照し、帳票の種類に対して、その帳票種別ＩＤを付加する手順と、
帳票から必要なデータを抽出するためのキー定義を検索キーとして自動的に作成する手順と、
帳票を読込む手順と、
前記帳票種別情報から、読込まれた帳票の特徴と合致する帳票種別ＩＤを検索することにより、読込まれた帳票毎に、その種別を自動的に判定する手順と、
判定した帳票種別ＩＤに対応する検索キーを取得する手順と、
読込まれた帳票をヘッダ部分と明細部分に分け、取得した検索キーを用いてデータを抽出する手順と、
を含むことを特徴とするＰＤＦ帳票の読取方法。

【請求項15】

様式不明の様々なＰＤＦ帳票から必要なデータを抽出するための、ＰＤＦ帳票の読取方法をコンピュータにより実行させるＰＤＦ帳票の読取プログラムであって、
帳票を同定できる特徴情報を帳票種別情報としてデータベース化する工程と、
該データベースを参照し、帳票の種類に対して、その帳票種別ＩＤを付加する工程と、
帳票から必要なデータを抽出するためのキー定義を検索キーとして自動的に作成する工程と、
帳票を読込む工程と、
前記帳票種別情報から、読込まれた帳票の特徴と合致する帳票種別ＩＤを検索することにより、読込まれた帳票毎に、その種別を自動的に判定する工程と、
判定した帳票種別ＩＤに対応する検索キーを取得する工程と、
読込まれた帳票をヘッダ部分と明細部分に分け、取得した検索キーを用いてデータを抽出する工程と、
を含むことを特徴とするＰＤＦ帳票の読取プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ＰＤＦ（ポータブル・ドキュメント・フォーマット）帳票の読取装置、読取方法及び読取プログラムに係り、特に、様々な様式のＰＤＦ帳票から必要なデータを抽出することが可能な、ＰＤＦ帳票の読取装置、読取方法及び読取プログラムに関する。

【背景技術】

【0002】

電子帳簿保存法により、発注書や請求書等の取引の証憑（帳票とも称する）を電子化して保存することが義務付けられるようになる。その際、単に帳票イメージを保存すればよいわけではなく、「取引先」、「金額」、「取引日付」等の情報とセットで保存することが求められる。

【0003】

従来は、例えば特許文献１や２に記載されたような技術を用いて、紙の帳票をＯＣＲ（光学式文字読み取り装置）で読み取って情報を読み出している。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２００７－１６４６０９号公報

【特許文献2】特開昭５８－６４５７３号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、従来の技術は、ＡＩ（人工知能）技術などを使っても、例えば０（ゼロ）とＯ（オー）の判別ができない等、誤認識が多く、人手による確認や修正が必要であった。これは、たとえＰＤＦ帳票であっても、ＯＣＲで画像に変換してから解析するため、同じである。

【0006】

なお、自社の帳票であれば、予めどのような帳票が来るか分かっており、ファイル名などを判定するためのキーを組込むことも可能であるが、他社から送られてくる様々な様式の帳票の場合、どのような様式の帳票が取込まれるのか不明であるという問題がある。

【0007】

本発明は、前記従来の問題点を解消するべくなされたもので、紙に印刷する代わりにＰＤＦ化した様式不明の様々な帳票をそのまま読取り、帳票の種別を自動的に判定した上で、必要な情報を抽出して、ＰＤＦ化した帳票と一緒に保存できるようにすることを課題とする。

【課題を解決するための手段】

【0008】

本発明は、様式不明の様々なＰＤＦ帳票から必要なデータを抽出するための、ＰＤＦ帳票の読取装置であって、帳票を同定できる特徴情報を帳票種別情報としてデータベース化する手段と、該データベースを参照し、帳票の種類に対して、その帳票種別ＩＤを付加する手段と、帳票から必要なデータを抽出するためのキー定義を検索キーとして自動的に作成する手段と、帳票を読込む手段と、前記帳票種別情報から、読込まれた帳票の特徴と合致する帳票種別ＩＤを検索することにより、読込まれた帳票毎に、その種別を自動的に判定する手段と、判定した帳票種別ＩＤに対応する検索キーを取得する手段と、読込まれた帳票をヘッダ部分と明細部分に分け、取得した検索キーを用いてデータを抽出する手段と、を含むことを特徴とするＰＤＦ帳票の読取装置により前記課題を解決するものである。

【0009】

ここで、前記検索キーを、キー定義の名称をキー名として、データが出現する位置の明細内の座標と、明細の中の何行目かを示す段落内行指定に関する情報をＰＤＦ解析ライブラリを利用して抽出することにより自動的に作成することができる。

【0010】

又、前記検索キーが、ページ内に単一出現する情報を定義するためのページキーと、ページ内に複数出現する情報を定義するためのラインキーとを含むことができる。

【0011】

又、前記ラインキーの作成を、帳票から表になっている部分を抽出し、表のヘッダ部分の名称や、各列、行の座標を抽出することにより行うことができる。

【0012】

又、前記ページキーが、取引先企業名、取引番号、請求合計金額、取引年月日及び担当者の少なくとも一部を含むことができる。

【0013】

又、前記ラインキーが、注文番号、品目、数量、単価の少なくとも一部を含む注文明細データを含むことができる。

【0014】

又、前記データを抽出する手段が、前記検索キーを用いて、表になっている部分のヘッダ部分の名称や、各列、各行の位置により、各列、各行の数値をデータとして抽出することができる。

【0015】

又、前記データの抽出に際して、一枚の帳票中に表が複数存在する場合は、あらかじめ決めたルールに基づき明細部分と判定することができる。

【0016】

又、前記データの抽出に際して、表中のセル内で改行されている場合は、別データとして扱い、別キーを用いて抽出することができる。

【0017】

又、前記データの抽出に際して、表中のセル内のデータが数字の場合は、ヘッダ行でなくデータ行とみなすことができる。

【0018】

又、前記データの抽出に際して、表中に複数列を含む列が存在する場合は、座標を修正することができる。

【0019】

又、抽出されたデータをチェックして修正する手段を更に含むことができる。

【0020】

又、帳票にイメージが埋込まれているか、文字コードが埋込まれているかを判別し、イメージが埋込まれている時はＯＣＲ処理する手段を更に含むことができる。

【0021】

本発明は、又、様式不明の様々なＰＤＦ帳票から必要なデータを抽出するための、ＰＤＦ帳票の読取方法であって、帳票を同定できる特徴情報を帳票種別情報としてデータベース化する手順と、該データベースを参照し、帳票の種類に対して、その帳票種別ＩＤを付加する手順と、帳票から必要なデータを抽出するためのキー定義を検索キーとして自動的に作成する手順と、帳票を読込む手順と、前記帳票種別情報から、読込まれた帳票の特徴と合致する帳票種別ＩＤを検索することにより、読込まれた帳票毎に、その種別を自動的に判定する手順と、判定した帳票種別ＩＤに対応する検索キーを取得する手順と、読込まれた帳票をヘッダ部分と明細部分に分け、取得した検索キーを用いてデータを抽出する手順と、を含むことを特徴とするＰＤＦ帳票の読取方法により同様に前記課題を解決するものである。

【0022】

本発明は、又、様式不明の様々なＰＤＦ帳票から必要なデータを抽出するための、ＰＤＦ帳票の読取方法をコンピュータにより実行させるＰＤＦ帳票の読取プログラムであって、帳票を同定できる特徴情報を帳票種別情報としてデータベース化する工程と、該データベースを参照し、帳票の種類に対して、その帳票種別ＩＤを付加する工程と、帳票から必要なデータを抽出するためのキー定義を検索キーとして自動的に作成する工程と、帳票を読込む工程と、前記帳票種別情報から、読込まれた帳票の特徴と合致する帳票種別ＩＤを検索することにより、読込まれた帳票毎に、その種別を自動的に判定する工程と、判定した帳票種別ＩＤに対応する検索キーを取得する工程と、読込まれた帳票をヘッダ部分と明細部分に分け、取得した検索キーを用いてデータを抽出する工程と、を含むことを特徴とするＰＤＦ帳票の読取プログラムにより同様に前記課題を解決するものである。

【発明の効果】

【0023】

本発明によれば、多種類の様式不明の様々な帳票が取込まれる場合であっても、帳票の種別を自動的に判定した上で、必要な情報を抽出して、ＰＤＦ化した帳票と一緒に保存することが可能となる。更に、ＰＤＦ内の構造を直接覗き込んでデータを抽出するため、定義が正しく設定できれば、１００％に近い識字率が期待できる。

【図面の簡単な説明】

【0024】

【図1】本発明の実施形態に係るＰＤＦ帳票システムの全体を示す概略構成図

【図2】図１に示すクライアントＰＣ、サーバのハードウェア構成を示すブロック図

【図3】本発明の実施形態の手順を示すフローチャート

【図4】実施形態で自動仕分けされる帳票の一例を示す図

【図5】実施形態の帳票仕分けにおける帳票種別情報の一例を示す図

【図6】同じく帳票種別判定の様子を示す図

【図7】同じく検索キーの種類の一例を示す図

【図8】同じくデータ抽出における抽出定義の一例を示す図

【図9】同じく検索キーの自動作成における検索キーの一例を示す図

【図10】同じくラインキー作成の仕組みを示す図

【図11】同じく表が２つ以上ある場合の一例を示す図

【図12】同じくセル内で改行されている場合の一例を示す図

【図13】同じくセルのデータが数字の場合の一例を示す図

【図14】同じく複数列を含む列が存在する場合の一例を示す図

【図15】同じくデータ抽出の様子を示す図

【図16】同じくデータ抽出の一例を示す図

【図17】図１６からデータ抽出した結果を示す図

【図18】同じくデータ抽出の他の例を示す図

【図19】図１８からデータ抽出した結果を示す図

【図20】実施例の機能構成を示す図

【図21】同じくデータの流れを示す図

【図22】同じくＵＩイメージの一例を示す図

【発明を実施するための形態】

【0025】

以下、図面を参照して、本発明の実施の形態について詳細に説明する。なお、本発明は以下の実施形態及び実施例に記載した内容により限定されるものではない。また、以下に記載した実施形態及び実施例における構成要件には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。更に、以下に記載した実施形態及び実施例で開示した構成要素は適宜組み合わせてもよいし、適宜選択して用いてもよい。

【0026】

図１は、本発明の実施形態に係るＰＤＦ帳票システムを示す概略構成図である。

【0027】

図１に示す如く、ＰＤＦ帳票システム１は、読込まれたＰＤＦ帳票を格納するサーバ１０１と、複数のＰＤＦ帳票を表示・印刷するクライアントＰＣ（パーソナルコンピュータ）１０２と、を備えて構成されている。サーバ１０１とクライアントＰＣ１０２とは、ネットワーク１０３を介して互いに通信可能に接続されている。なお、ネットワーク１０３の形態としては、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などがある。ネットワーク１０３上に接続される各種装置の構成は一例であり、用途や目的に応じて様々な構成例があることは言うまでもない。なお、ＰＤＦ帳票は、文字データを有する複数のフィールドを備えた帳票の電子ファイルであり、単数又は複数のページで構成されている。

【0028】

サーバ１０１は、ＰＤＦ帳票を読取る帳票読取プログラムを具備することで、ＰＤＦ帳票の読取装置として機能する。又、サーバ１０１は、クライアントＰＣ１０２によりＰＤＦ帳票から抽出したデータに対する修正を行うことができる。修正されたデータは、サーバ１０１に登録される。

【0029】

ここで、サーバ１０１には、データファイル１０４とユーザ情報格納部１０５とが設けられている。データファイル１０４には、登録されるＰＤＦ帳票が複数格納されている。データファイル１０４では、同一種類のＰＤＦ帳票がグループ化され管理されている。ユーザ情報格納部１０５には、各ＰＤＦ帳票に対する表示や印刷が可能なユーザ情報が格納されている。つまり、サーバ１０１は、クライアントＰＣ１０２からサーバ１０１へ送信されるユーザ情報に従い、各ＰＤＦ帳票へのアクセスを判定している。

【0030】

クライアントＰＣ１０２は、ＰＤＦ帳票の閲覧者などが使用するＰＣであり、ＰＤＦ帳票から抽出したデータの確認・修正を行うだけでなく、ＰＤＦ帳票を表示・印刷する帳票閲覧プログラムを具備することで、ＰＤＦ帳票を表示・印刷する出力装置としても機能する。

【0031】

クライアントＰＣ１０２によるＰＤＦ帳票を閲覧・印刷する概略手順は、以下のようになる。

【0032】

まず、クライアントＰＣ１０２から、サーバ１０１にユーザ情報と閲覧・印刷希望する
ＰＤＦ帳票のリクエストを送信する。サーバ１０１では、そのユーザ情報をユーザ情報格納部１０５で参照する。そして、そのユーザ情報がユーザ情報格納部１０５に存在し、且つリクエストのあったＰＤＦ帳票がそのユーザ情報に対応していれば、サーバ１０１はそのリクエストのあったＰＤＦ帳票をクライアントＰＣ１０２に送信する。クライアントＰＣ１０２は、送信されたＰＤＦ帳票を受信し、帳票閲覧プログラムを用いて、表示や印刷を行う。

【0033】

次に、サーバ１０１とクライアントＰＣ１０２のハードウェア構成を、図２を用いて説明する。なお、本実施形態に係るサーバ１０１とクライアントＰＣ１０２はいずれも同様のハードウェア構成を有するコンピュータである。このため、以下クライアントＰＣ１０２のハードウェア構成についてのみ説明し、重複した説明は省略する。

【0034】

クライアントＰＣ１０２は、ＣＰＵ１１０と、ＲＡＭ１１２と、ＲＯＭ１１４と、入力コントローラ１１８と、表示コントローラ１２０と、印刷コントローラ１２２と、外部メモリコントローラ１２４と、通信Ｉ／Ｆ（インターフェイス）コントローラ１２６と、を備える。

【0035】

ＣＰＵ１１０は、クライアントＰＣ１０２を構成する上記各デバイスを、システムバス１１６を介して統括的に制御している。ＲＡＭ１１２は、ＣＰＵ１１０の主メモリ、ワークエリア、一時待避領域等として機能する。また、ＲＡＭ１１２には、送信されたＰＤＦ帳票が格納される。ＲＯＭ１１４は、ＣＰＵ１１０の動作を可能にする初期データなどを記憶している。

【0036】

入力コントローラ１１８は、キーボード、マウス、タッチパネル、入力タブレット等のポインティングデバイスで構成される入力部１２８からの入力を制御する。

【0037】

表示コントローラ１２０は、ＣＲＴや液晶表示装置、ＥＬ表示装置等の表示部１３０への出力を制御する。

【0038】

印刷コントローラ１２２は、レーザプリンタやインクジェットプリンタ等の印刷部１３２への出力を制御する。

【0039】

外部メモリコントローラ１２４は、ハードディスク（ＨＤ）やスマートメディア等から構成される外部メモリ１３４と接続されている。そして、外部メモリコントローラ１２４は、外部メモリ１３４へのアクセスを制御し、且つ外部メモリ１３４への各種データの書き込みと外部メモリ１３４からの各種データの読み出しを制御する。

【0040】

通信Ｉ／Ｆコントローラ１２６は、図示せぬネットワーク１０３を介して外部機器との通信制御処理を実行する。このため、印刷コントローラ１２２を使わずに、通信Ｉ／Ｆコ
ントローラ１２６が、図示せぬネットワーク１０３に接続された印刷部（図示せず）を制御してもよい。

【0041】

クライアントＰＣ１０２の外部メモリ１３４は、プログラム１３６と、後出帳票種別情報データベース（ＤＢ）２２０と、を格納している。

【0042】

次に、クライアントＰＣ１０２におけるＰＤＦ帳票読取りの主な手順を図３に示す。

【0043】

帳票によって抽出したいデータが変わってくるため、どの帳票から来たのかを事前に自動的に仕分ける。

【0044】

図４に例示する如く、発行元企業Ａ及び注文書等の帳票種別Ｂを取得することで帳票を自動仕分けすることができる。

【0045】

そこで、帳票を仕分けるため、入力部１２８等の操作により、ステップＳ２で、帳票を同定できる帳票種別情報（企業名、帳票種類）を帳票種別（ＩＤ）情報としてデータベース（ＤＢ）化する。

【0046】

具体的には、図５に示す如く、帳票の種類に対して、予め帳票種別ＩＤ２１０（図では帳票０１、帳票０２・・・）を付加し、帳票を同定できる帳票種別情報（企業名、帳票種類）と共にデータベース化して帳票種別情報ＤＢ２２０（図６参照）とする。

【0047】

そして、ステップＳ４で、図６に示す如く、帳票種別情報ＤＢ２２０に記憶された帳票種別ＩＤ２１０から、読込まれたＰＤＦ帳票２００の帳票種別情報と合致する帳票種別ＩＤを検索し、ＰＤＦ帳票毎に帳票種別ＩＤを特定して、付加し、後出のデータ抽出に備える。

【0048】

次いでステップＳ６に進み、キー定義を検索キーとして自動的に作成する。

【0049】

検索キーには、図７に示す如く、ページ内に単一出現する情報を定義するためのページキー２０２と、ページ内に複数出現する情報を定義するためのラインキー２０４がある。ページキー２０２には、例えば取引先企業名、取引番号、請求合計金額、取引年月日、担当者などが含まれ、ラインキー２０４には注文番号、品目、数量、単価などの注文明細データが含まれる。

【0050】

具体的には、図８に示す如く、帳票種別ＩＤ２１０毎に、抽出するデータ項目を定義し、ヘッダ部分（ページに１項目）２００Ａに適用するページキー２０２なのか、明細部分（ページ内で繰り返し）２００Ｂに適用するラインキー２０４なのかを指定する。

【0051】

そして、例えば図９の情報を抽出することで、ページキー２０２とラインキー２０４で構成される検索キーを自動で作成する。この際、例えばプログラミング言語pythonのＰＤＦ解析ライブラリの一つである、テキスト取得、表抽出、座標取得、サイズ取得、メタデータ取得などを行う事が可能なcamelotを用いることができる。

【0052】

例えば図１０に示す如く、ＰＤＦ帳票２００から表になっている明細部分を認識し、取得する。次いで、表のヘッダ部分の名称や、各列、行の座標を抽出する。そして得た情報をもとに、データを分析、加工してラインキー２０４を作成する。

【0053】

この際、図１１に例示する如く、表が２つ以上ある場合は、あらかじめ決めたルールに基づき、例えば大きい方を明細部分と判断する。

【0054】

又、図１２に示す如く、セル内で改行されている場合は、別キーとして扱う。

【0055】

更に、図１３に示す如く、金額などセルのデータが数字の場合は、ヘッダ行ではなくデータ行とみなす。

【0056】

又、図１４に示す如く、複数列を含む列が存在する場合には、座標を修正する。具体的には、例えばcamelotで座標を取り出すと、「品目名称」のＸ座標の右端は、１列目の座標が抽出されてしまうため、２列目の座標に修正する。

【0057】

図３のステップＳ６でキー定義を自動的に作成した後、ステップＳ８に進み、ＰＤＦ帳票２００を読込む。

【0058】

次いでステップＳ１０に進み、帳票種別情報から読み込まれた帳票の特徴と合致する帳票種別ＩＤ２１０を検索して、帳票の種別を判定する。

【0059】

次いでステップＳ１２に進み、図１５に示す如く、帳票種別情報ＤＢ２２０より、抽出定義を取得して、帳票種別ＩＤ２１０に対応する検索キーを取得する。

【0060】

次いでデータ抽出のステップＳ１４に進み、帳票をヘッダ部分と明細部分に分け、取得した検索キー（ページキー２０２とラインキー２０４）を用いてデータを抽出する。

【0061】

具体的には、図１６にデータ抽出の一例を示す如く、読み込まれたＰＤＦ帳票である注文書のヘッダ部分２００Ａは、ページに１項目しかないものとして抽出項目をページキー２０２で定義する。一方、明細部分２００Ｂは、抽出定義を繰返されるものとしてラインキー２０４を設定することで、表として抽出する。

【0062】

図１６からデータ抽出した結果の一例を図１７に示す。ヘッダ部分２００Ａからは、ページキー２０２により会社名、担当者名、発行番号、発行日などが抽出される。一方、明細部分２００Ｂからは、ラインキー２０４により、注文ナンバー、型番、メーカー、数量等が抽出される。

【0063】

データ抽出の他の例を図１８に示す。新規注文書におけるヘッダ部分２００Ａは、ページに１項目しかないものとして、抽出項目をページキー２０２で定義する。一方、明細部分２００Ｂについては、図１８のように４行１レコードの明細行の場合、抽出項目を、例えば「４行１明細の中の１行目」と定義して、１行１レコードと同様にラインキー２０４でデータを抽出する。これに対してＡＩ－ＯＣＲでは図１８のように複数行１明細となっている帳票では、識字率が極端に低下していた。

【0064】

図１８からデータ抽出した結果の一例を図１９に示す。ヘッダ部分２００Ａからは、ページキー２０２により仕入先コード、会社名、購買担当、発行日などが抽出される。一方、明細部分２００Ｂからは、ラインキー２０４により注文番号、納期、数量、確定注文予定日などが抽出される。

【0065】

次に、本発明を適用した具体的な実施例の機能構成を図２０に示す。この実施例は、外部システム１９０からＰＤＦ帳票２００を読込んで、ＰＤＦ取得、メール抽出、復号処理、必要に応じてＡＩ－ＯＣＲを行う前処理部２３０と、帳票仕分及び抽出定義を行うＡＩ自動設定部２４２、帳票変換及びデータ抽出を行う処理ベース２４４、抽出定義編集及び抽出結果確認を行うための管理画面（Ｗｅｂクライアント）２４６を含むデータ解析部２４０と、データ加工、直列化、他システム連携などを行ってデータデリバリ３００にデータを送る後処理部２５０と、を主に備えている。

【0066】

前記帳票仕分では、発行元企業判定や、適格請求書発行事業者コードによる法人チェックなどを行う。

【0067】

図２０の実施例におけるデータの流れを図２１に示す。

【0068】

まず、ステップＳ１００で、ＰＤＦ帳票２００を取り込む。具体的には、電子メールに添付されたＰＤＦファイルを取り出したり、電子データ交換ＥＤＩからＰＤＦファイルを取り出す。

【0069】

次いでステップＳ１０２に進み、ＰＤＦ帳票２００の種類を判別し、イメージ埋込ＰＤＦか文字コード埋込ＰＤＦか判断する。

【0070】

次いでステップＳ１０４に進み、イメージＰＤＦの場合にはＯＣＲ処理を行う。

【0071】

次いでステップＳ１０６に進み、注文書、納品書、請求書など帳票を仕分けする。

【0072】

次いでステップＳ１０８で変換設定し、ステップＳ１１０で検索定義、フォーム定義などの抽出定義を行い、次いでステップＳ１１２で、抽出、結果チェック、修正を行う。

【0073】

次いでステップＳ１１４に進み、ＣＳＶ化やデータ加工などの直列化を行う。

【0074】

そしてステップＳ１１６でデータ連携を行う。

【0075】

実施例のＵＩ（ユーザインタフェース）イメージを図２２に示す。データや抽出条件の確認・修正を１画面で行うことができる。

【0076】

本実施例ではＯＣＲ処理を併用しているので、ＰＤＦから直接データを取得できる文字コード埋込ＰＤＦと異なり、ＰＤＦから直接データを取得できないイメージ埋込ＰＤＦに対しても高精度のデータ抽出を行うことができる。

【0077】

前記実施形態では、情報の抽出にpythonのＰＤＦ解析ライブラリcamelotを用いていたが、情報の抽出に用いる手段は、これに限定されない。

【0078】

又、処理対象も電子帳簿保存法に対応するためのものに限定されない。キーの種類もページキーとラインキーに限定されない。ＵＩイメージも図２２に限定されない。

【符号の説明】

【0079】

１…ＰＤＦ帳票システム
１０１…サーバ
１０２…クライアントＰＣ
１０３…ネットワーク
１０４…データファイル
１０５…ユーザ情報格納部
１１０…ＣＰＵ
１１２…ＲＡＭ
１１４…ＲＯＭ
１１６…システムバス
１１８…入力コントローラ
１２０…表示コントローラ
１２２…印刷コントローラ
１２４…外部メモリコントローラ
１２６…通信Ｉ／Ｆコントローラ
１２８…入力部
１３０…表示部
１３２…印刷部
１３４…外部メモリ
１３６…プログラム
１９０…外部システム
２００…ＰＤＦ帳票
２００Ａ…ヘッダ部分
２００Ｂ…明細部分
２０２…ページキー（検索キー）
２０４…ラインキー（検索キー）
２１０…帳票種別情報（ＩＤ）
２２０…帳票種別情報データベース（ＤＢ）
２３０…前処理部
２４０…データ解析部
２５０…後処理部
３００…データデリバリ

【図1】