(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-09
(45)【発行日】2024-05-17
(54)【発明の名称】会計支援装置、会計支援プログラム及び会計支援方法
(51)【国際特許分類】
G06Q 40/12 20230101AFI20240510BHJP
G06V 30/142 20220101ALI20240510BHJP
G06V 30/14 20220101ALI20240510BHJP
【FI】
G06Q40/12 420
G06V30/142
G06V30/14 340K
(21)【出願番号】P 2019115191
(22)【出願日】2019-06-21
【審査請求日】2022-06-01
(73)【特許権者】
【識別番号】504283633
【氏名又は名称】辻・本郷税理士法人
(73)【特許権者】
【識別番号】514181185
【氏名又は名称】株式会社スキャる
(74)【代理人】
【識別番号】100090033
【氏名又は名称】荒船 博司
(74)【復代理人】
【識別番号】110001254
【氏名又は名称】弁理士法人光陽国際特許事務所
(74)【代理人】
【識別番号】100093045
【氏名又は名称】荒船 良男
(72)【発明者】
【氏名】上野 裕史
(72)【発明者】
【氏名】西垣 良宣
【審査官】松田 岳士
(56)【参考文献】
【文献】特開平11-184949(JP,A)
【文献】特開2006-309611(JP,A)
【文献】国際公開第2014/103024(WO,A1)
【文献】特開2012-003670(JP,A)
【文献】特開2009-003496(JP,A)
【文献】特開2015-135576(JP,A)
【文献】特開2017-228092(JP,A)
【文献】特開2016-189174(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
G06F 40/00-40/197
G06V 30/00-30/416
G06V 30/42-30/424
H04N 1/00
(57)【特許請求の範囲】
【請求項1】
変換対象となる証憑の画像データである証憑画像データを取得する取得手段と、
前記証憑画像データから罫線によって囲まれた領域であるコマを識別するコマ識別手段と、
前記証憑画像データから、前記コ
マを抽出した画像データであるコマ画像データを作成するコマ画像データ作成手段と、
OCRソフトウェアを使用して、前記コマ画像データを文字コードに変換し、コマ画像変換結果データを取得する変換手段と、
前記コマ画像変換結果データを基に、前記コマ画像データに含まれる文字列の行数を特定する行数特定手段と、
前記コマ画像データに複数行の文字列が含まれる場合に、前記コマ画像データを行毎に分割した行毎コマ画像データを作成する行毎コマ画像データ作成手段と、
を備えることを特徴とする会計支援装置。
【請求項2】
変換対象となる証憑の画像データである証憑画像データを取得する取得手段と、
前記証憑画像データから罫線によって囲まれた領域であるコマを識別するコマ識別手段と、
前記証憑画像データから、前記コマを抽出した画像データであるコマ画像データを作成するコマ画像データ作成手段と、
OCRソフトウェアを使用して、前記コマ画像データを文字コードに変換し、コマ画像変換結果データを取得する変換手段と、
前記コマ画像データと、前記コマ画像データに対応するコマ画像変換結果データとを、前記コマ画像データ毎に別個の作業者端末へと送信する送信手段と、
前記作業者端末から、作業者による確認及び修正後の前記コマ画像変換結果データを受信する受信手段と、
を備えることを特徴とする会計支援装置。
【請求項3】
変換対象となる証憑の画像データである証憑画像データを取得する取得手段と、
前記証憑画像データから罫線によって囲まれた領域であるコマを識別するコマ識別手段と、
前記証憑画像データから、前記コマを抽出した画像データであるコマ画像データを作成するコマ画像データ作成手段と、
OCRソフトウェアを使用して、前記コマ画像データを文字コードに変換し、コマ画像変換結果データを取得する変換手段と、
前記コマ画像変換結果データを用いて前記コマ画像データに所定の項目名が含まれるかを判定し、所定の項目名が含まれる前記コマ画像データである項目名コマ画像データを抽出する項目名コマ抽出手段と、
前記項目名コマ画像データに、隣接するコマのコマ画像データを合成して二コマ画像データを作成する二コマ画像データ作成手段と、
前記コマ画像変換結果データから、所定の抽出項目に係るデータである抽出項目データと合致する項目についてのデータを抽出するデータ抽出手段と、
を備え、
前記データ抽出手段は、
前記二コマ画像データの項目名コマ画像データに対応するコマ画像変換結果データに、前記抽出項目データと合致する項目名が含まれる場合に、当該項目名コマ画像データと合成されたコマ画像データに係るコマ画像変換結果データを抽出し、
前記二コマ画像データの項目名コマ画像データに対応するコマ画像変換結果データに、前記抽出項目データと合致する項目名が含まれなかった場合に、全ての前記コマ画像変換結果データから、前記抽出項目データと合致する項目についてのデータを抽出することを特徴とする会計支援装置。
【請求項4】
変換対象となる証憑の画像データである証憑画像データを取得する取得手段と、
前記証憑画像データから罫線によって囲まれた領域であるコマを識別するコマ識別手段と、
前記証憑画像データから、前記コマを抽出した画像データであるコマ画像データを作成するコマ画像データ作成手段と、
OCRソフトウェアを使用して、前記コマ画像データを文字コードに変換し、コマ画像変換結果データを取得する変換手段と、
前記コマ画像変換結果データから、所定の抽出項目に係るデータである抽出項目データと合致する項目についてのデータを抽出するデータ抽出手段と、
を備え、
前記データ抽出手段は、前記抽出項目データと合致する項目についてのデータのうち、その記載形式が、前記データ抽出手段によって抽出するデータの記載形式に係るデータである抽出項目形式データと合致するデータを抽出することを特徴とする会計支援装置。
【請求項5】
変換対象となる証憑の画像データである証憑画像データを取得する取得手段と、
前記証憑画像データから罫線によって囲まれた領域であるコマを識別するコマ識別手段と、
前記証憑画像データから、前記コマを抽出した画像データであるコマ画像データを作成するコマ画像データ作成手段と、
前記証憑画像データから、前記コマの記載を削除した画像データである枠外画像データを作成する枠外画像データ作成手段と、
OCRソフトウェアを使用して、前記コマ画像データを文字コードに変換し、コマ画像変換結果データを取得し、OCRソフトウェアを使用して、前記枠外画像データを文字コードに変換し、枠外画像変換結果データを取得する変換手段と、
前記コマ画像変換結果データから所定の抽出項目に係るデータである抽出項目データと合致する項目についてのデータを抽出し、前記コマ画像変換結果データから前記抽出項目データと合致する項目についてのデータが抽出されなかった場合に、前記枠外画像変換結果データから前記抽出項目データと合致する項目についてのデータを抽出するデータ抽出手段と、
を備えることを特徴とする会計支援装置。
【請求項6】
前記コマ識別手段は、
前記証憑画像データから直線を検出の上、
当該直線によって囲まれた領域を前記コマとして識別することを特徴とする請求項1
から5のいずれか一項に記載の会計支援装置。
【請求項7】
前記証憑画像データから、前記コ
マの記載を削除した画像データである枠外画像データを作成する枠外画像データ作成手段を備え、
前記変換手段は、OCRソフトウェアを使用して、前記枠外画像データを文字コードに変換し、枠外画像変換結果データを取得することを特徴とする請求項1
から6のいずれか一項に記載の会計支援装置。
【請求項8】
前記コマ画像変換結果データを用いて前記コマ画像データに所定の項目名が含まれるかを判定し、所定の項目名が含まれる前記コマ画像データである項目名コマ画像データを抽出する項目名コマ抽出手段を備えることを特徴とする請求項1から
7のいずれか一項に記載の会計支援装置。
【請求項9】
前記項目名コマ画像データに、隣接するコマのコマ画像データを合成して二コマ画像データを作成する二コマ画像データ作成手段を備えることを特徴とする請求項
8に記載の会計支援装置。
【請求項10】
前記コマ画像変換結果データを基に、前記コマ画像データに含まれる文字列の行数を特定する行数特定手段を備えることを特徴とする請求項1から
9のいずれか一項に記載の会計支援装置。
【請求項11】
前記コマ画像変換結果データを用いて前記コマ画像データに所定の項目名が含まれるかを判定し、所定の項目名が含まれる前記コマ画像データである項目名コマ画像データを抽出する項目名コマ抽出手段を備え、
前記項目名コマ抽出手段は、
前記行毎コマ画像データが作成されたコマについては、前記行毎コマ画像データに所定の項目名が含まれるかを判定し、所定の項目名が含まれる前記行毎コマ画像データを、前記項目名コマ画像データとして抽出し、
前記行毎コマ画像データが作成されていないコマについては、前記コマ画像データに所定の項目名が含まれるかを判定し、所定の項目名が含まれる前記コマ画像データを、前記項目名コマ画像データとして抽出することを特徴とする請求項
1に記載の会計支援装置。
【請求項12】
前記項目名コマ画像データに、隣接するコマのコマ画像データを合成して二コマ画像データを作成する二コマ画像データ作成手段を備え、
前記二コマ画像データ作成手段は、
前記行毎コマ画像データが前記項目名コマ画像データとして抽出された場合には、
当該行毎コマ画像データが含まれるコマと、これと隣接するコマとの行数が一致するかを判定の上、一致する場合に、当該行毎コマ画像データと、右に隣接するコマの同一行の行毎コマ画像データとを合成し、
前記コマ画像データが前記項目名コマ画像データとして抽出された場合には、
当該コマ画像データに係るコマと、下に隣接するコマとの左右方向の幅が一致するかを判定の上、これが一致する場合に、当該コマ画像データと、下に隣接するコマのコマ画像データとを合成することを特徴とする請求項
11に記載の会計支援装置。
【請求項13】
前記コマ画像変換結果データから、所定の抽出項目に係るデータである抽出項目データと合致する項目についてのデータを抽出するデータ抽出手段を備えることを特徴とする請求項1から1
2のいずれか一項に記載の会計支援装置。
【請求項14】
前記コマ画像変換結果データから、所定の抽出項目に係るデータである抽出項目データと合致する項目についてのデータを抽出するデータ抽出手段を備え、
前記データ抽出手段は、前記二コマ画像データの項目名コマ画像データに対応するコマ画像変換結果データに、前記抽出項目データと合致する項目名が含まれる場合に、当該項目名コマ画像データと合成されたコマ画像データに係るコマ画像変換結果データを抽出することを特徴とする請求項
3、9又は
12に記載の会計支援装置。
【請求項15】
コンピュータを、
変換対象となる証憑の画像データである証憑画像データを取得する取得手段、
前記証憑画像データから罫線によって囲まれた領域であるコマを識別するコマ識別手段、
前記証憑画像データから、前記コ
マを抽出した画像データであるコマ画像データを作成するコマ画像データ作成手段、
OCRソフトウェアを使用して、前記コマ画像データを文字コードに変換し、コマ画像変換結果データを取得する変換手段、
前記コマ画像変換結果データを基に、前記コマ画像データに含まれる文字列の行数を特定する行数特定手段、
前記コマ画像データに複数行の文字列が含まれる場合に、前記コマ画像データを行毎に分割した行毎コマ画像データを作成する行毎コマ画像データ作成手段、
として機能させる会計支援プログラム。
【請求項16】
コンピュータを、
変換対象となる証憑の画像データである証憑画像データを取得する取得手段、
前記証憑画像データから罫線によって囲まれた領域であるコマを識別するコマ識別手段、
前記証憑画像データから、前記コマを抽出した画像データであるコマ画像データを作成するコマ画像データ作成手段、
OCRソフトウェアを使用して、前記コマ画像データを文字コードに変換し、コマ画像変換結果データを取得する変換手段、
前記コマ画像データと、前記コマ画像データに対応するコマ画像変換結果データとを、前記コマ画像データ毎に別個の作業者端末へと送信する送信手段、
前記作業者端末から、作業者による確認及び修正後の前記コマ画像変換結果データを受信する受信手段、
として機能させる会計支援プログラム。
【請求項17】
コンピュータを、
変換対象となる証憑の画像データである証憑画像データを取得する取得手段、
前記証憑画像データから罫線によって囲まれた領域であるコマを識別するコマ識別手段、
前記証憑画像データから、前記コマを抽出した画像データであるコマ画像データを作成するコマ画像データ作成手段、
OCRソフトウェアを使用して、前記コマ画像データを文字コードに変換し、コマ画像変換結果データを取得する変換手段、
前記コマ画像変換結果データを用いて前記コマ画像データに所定の項目名が含まれるかを判定し、所定の項目名が含まれる前記コマ画像データである項目名コマ画像データを抽出する項目名コマ抽出手段、
前記項目名コマ画像データに、隣接するコマのコマ画像データを合成して二コマ画像データを作成する二コマ画像データ作成手段、
前記コマ画像変換結果データから、所定の抽出項目に係るデータである抽出項目データと合致する項目についてのデータを抽出するデータ抽出手段、
として機能させ、
前記データ抽出手段は、
前記二コマ画像データの項目名コマ画像データに対応するコマ画像変換結果データに、前記抽出項目データと合致する項目名が含まれる場合に、当該項目名コマ画像データと合成されたコマ画像データに係るコマ画像変換結果データを抽出し、
前記二コマ画像データの項目名コマ画像データに対応するコマ画像変換結果データに、前記抽出項目データと合致する項目名が含まれなかった場合に、全ての前記コマ画像変換結果データから、前記抽出項目データと合致する項目についてのデータを抽出することを特徴とする会計支援プログラム。
【請求項18】
コンピュータを、
変換対象となる証憑の画像データである証憑画像データを取得する取得手段、
前記証憑画像データから罫線によって囲まれた領域であるコマを識別するコマ識別手段、
前記証憑画像データから、前記コマを抽出した画像データであるコマ画像データを作成するコマ画像データ作成手段、
OCRソフトウェアを使用して、前記コマ画像データを文字コードに変換し、コマ画像変換結果データを取得する変換手段、
前記コマ画像変換結果データから、所定の抽出項目に係るデータである抽出項目データと合致する項目についてのデータを抽出するデータ抽出手段、
として機能させ、
前記データ抽出手段は、前記抽出項目データと合致する項目についてのデータのうち、その記載形式が、前記データ抽出手段によって抽出するデータの記載形式に係るデータである抽出項目形式データと合致するデータを抽出することを特徴とする会計支援プログラム。
【請求項19】
コンピュータを、
変換対象となる証憑の画像データである証憑画像データを取得する取得手段、
前記証憑画像データから罫線によって囲まれた領域であるコマを識別するコマ識別手段、
前記証憑画像データから、前記コマを抽出した画像データであるコマ画像データを作成するコマ画像データ作成手段、
前記証憑画像データから、前記コマの記載を削除した画像データである枠外画像データを作成する枠外画像データ作成手段、
OCRソフトウェアを使用して、前記コマ画像データを文字コードに変換し、コマ画像変換結果データを取得し、OCRソフトウェアを使用して、前記枠外画像データを文字コードに変換し、枠外画像変換結果データを取得する変換手段、
前記コマ画像変換結果データから所定の抽出項目に係るデータである抽出項目データと合致する項目についてのデータを抽出し、前記コマ画像変換結果データから前記抽出項目データと合致する項目についてのデータが抽出されなかった場合に、前記枠外画像変換結果データから前記抽出項目データと合致する項目についてのデータを抽出するデータ抽出手段、
として機能させる会計支援プログラム。
【請求項20】
会計支援装置が実行する会計支援方法において、
変換対象となる証憑の画像データである証憑画像データを取得する取得ステップと、
前記証憑画像データから罫線によって囲まれた領域であるコマを識別するコマ識別ステップと、
前記証憑画像データから、前記コマを抽出した画像データであるコマ画像データを作成するコマ画像データ作成ステップと、
OCRソフトウェアを使用して、前記コマ画像データを文字コードに変換し、コマ画像変換結果データを取得する変換ステップと、
前記コマ画像変換結果データを基に、前記コマ画像データに含まれる文字列の行数を特定する行数特定ステップと、
前記コマ画像データに複数行の文字列が含まれる場合に、前記コマ画像データを行毎に分割した行毎コマ画像データを作成する行毎コマ画像データ作成ステップと、
を含む会計支援方法。
【請求項21】
会計支援装置が実行する会計支援方法において、
変換対象となる証憑の画像データである証憑画像データを取得する取得ステップと、
前記証憑画像データから罫線によって囲まれた領域であるコマを識別するコマ識別ステップと、
前記証憑画像データから、前記コマを抽出した画像データであるコマ画像データを作成するコマ画像データ作成ステップと、
OCRソフトウェアを使用して、前記コマ画像データを文字コードに変換し、コマ画像変換結果データを取得する変換ステップと、
前記コマ画像データと、前記コマ画像データに対応するコマ画像変換結果データとを、前記コマ画像データ毎に別個の作業者端末へと送信する送信ステップと、
前記作業者端末から、作業者による確認及び修正後の前記コマ画像変換結果データを受信する受信ステップと、
を含む会計支援方法。
【請求項22】
会計支援装置が実行する会計支援方法において、
変換対象となる証憑の画像データである証憑画像データを取得する取得ステップと、
前記証憑画像データから罫線によって囲まれた領域であるコマを識別するコマ識別ステップと、
前記証憑画像データから、前記コマを抽出した画像データであるコマ画像データを作成するコマ画像データ作成ステップと、
OCRソフトウェアを使用して、前記コマ画像データを文字コードに変換し、コマ画像変換結果データを取得する変換ステップと、
前記コマ画像変換結果データを用いて前記コマ画像データに所定の項目名が含まれるかを判定し、所定の項目名が含まれる前記コマ画像データである項目名コマ画像データを抽出する項目名コマ抽出ステップと、
前記項目名コマ画像データに、隣接するコマのコマ画像データを合成して二コマ画像データを作成する二コマ画像データ作成ステップと、
前記コマ画像変換結果データから、所定の抽出項目に係るデータである抽出項目データと合致する項目についてのデータを抽出するデータ抽出ステップと、
を含み、
前記データ抽出ステップにおいては、
前記二コマ画像データの項目名コマ画像データに対応するコマ画像変換結果データに、前記抽出項目データと合致する項目名が含まれる場合に、当該項目名コマ画像データと合成されたコマ画像データに係るコマ画像変換結果データを抽出し、
前記二コマ画像データの項目名コマ画像データに対応するコマ画像変換結果データに、前記抽出項目データと合致する項目名が含まれなかった場合に、全ての前記コマ画像変換結果データから、前記抽出項目データと合致する項目についてのデータを抽出することを特徴とする会計支援方法。
【請求項23】
会計支援装置が実行する会計支援方法において、
変換対象となる証憑の画像データである証憑画像データを取得する取得ステップと、
前記証憑画像データから罫線によって囲まれた領域であるコマを識別するコマ識別ステップと、
前記証憑画像データから、前記コマを抽出した画像データであるコマ画像データを作成するコマ画像データ作成ステップと、
OCRソフトウェアを使用して、前記コマ画像データを文字コードに変換し、コマ画像変換結果データを取得する変換ステップと、
前記コマ画像変換結果データから、所定の抽出項目に係るデータである抽出項目データと合致する項目についてのデータを抽出するデータ抽出ステップと、
を含み、
前記データ抽出ステップにおいては、前記抽出項目データと合致する項目についてのデータのうち、その記載形式が、前記データ抽出ステップにおいて抽出するデータの記載形式に係るデータである抽出項目形式データと合致するデータを抽出することを特徴とする会計支援方法。
【請求項24】
会計支援装置が実行する会計支援方法において、
変換対象となる証憑の画像データである証憑画像データを取得する取得ステップと、
前記証憑画像データから罫線によって囲まれた領域であるコマを識別するコマ識別ステップと、
前記証憑画像データから、前記コマを抽出した画像データであるコマ画像データを作成するコマ画像データ作成ステップと、
前記証憑画像データから、前記コマの記載を削除した画像データである枠外画像データを作成する枠外画像データ作成ステップと、
OCRソフトウェアを使用して、前記コマ画像データを文字コードに変換し、コマ画像変換結果データを取得し、OCRソフトウェアを使用して、前記枠外画像データを文字コードに変換し、枠外画像変換結果データを取得する変換ステップと、
前記コマ画像変換結果データから所定の抽出項目に係るデータである抽出項目データと合致する項目についてのデータを抽出し、前記コマ画像変換結果データから前記抽出項目データと合致する項目についてのデータが抽出されなかった場合に、前記枠外画像変換結果データから前記抽出項目データと合致する項目についてのデータを抽出するデータ抽出ステップと、
を含む会計支援方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、会計支援装置、会計支援プログラム及び会計支援方法に関する。
【背景技術】
【0002】
請求書、領収書等、ユーザの取引を示す紙媒体の証憑を種々の会計処理に用いるためには、その記載内容を文字コードに変換し、電子的な文字データにすることが望ましい。
そこで、従来、税理士、公認会計士等は、医療領収書の記載内容を逐一読み取った上で、手作業でコンピュータに入力していた。
【0003】
しかし、このような手作業による証憑の記載内容の入力は、非常に手間が掛かる上に、入力ミスが生じることが避け難く、精度の上でも十分なものとは言い難かった。
そこで、OCR(光学文字認識、Optical Character Recognition/Reader)ソフトウェアを用いて、所定の証憑の記載内容を自動的に文字コードに変換することを可能としたシステムが知られている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
OCRソフトウェアを用いての証憑の記載内容の文字コードへの変換は、通常、証憑の左から右、上から下へと順次変換していくことから、文字が規則的に配置されている証憑であれば、変換の精度を高め易かった。
しかし、例えば、医療領収書、給与の明細、社会保険の納付書等の証憑については、罫線に囲まれた複数の記載欄(以下、「コマ」という。)が不規則に配置されている場合が多く、このような証憑については、正確な変換が困難であった。
【0006】
本発明の課題は、複数の記載欄が不規則に配置された証憑について、OCRソフトウェアによる変換精度を高めることができる会計支援装置、会計支援プログラム及び会計支援方法を提供することである。
【課題を解決するための手段】
【0007】
上記課題を解決するために、請求項1に記載の発明は、会計支援装置において、
変換対象となる証憑の画像データである証憑画像データを取得する取得手段と、
前記証憑画像データから罫線によって囲まれた領域であるコマを識別するコマ識別手段と、
前記証憑画像データから、前記コマを抽出した画像データであるコマ画像データを作成するコマ画像データ作成手段と、
OCRソフトウェアを使用して、前記コマ画像データを文字コードに変換し、コマ画像変換結果データを取得する変換手段と、
前記コマ画像変換結果データを基に、前記コマ画像データに含まれる文字列の行数を特定する行数特定手段と、
前記コマ画像データに複数行の文字列が含まれる場合に、前記コマ画像データを行毎に分割した行毎コマ画像データを作成する行毎コマ画像データ作成手段と、
を備えることを特徴とする。
請求項2に記載の発明は、会計支援装置において、
変換対象となる証憑の画像データである証憑画像データを取得する取得手段と、
前記証憑画像データから罫線によって囲まれた領域であるコマを識別するコマ識別手段と、
前記証憑画像データから、前記コマを抽出した画像データであるコマ画像データを作成するコマ画像データ作成手段と、
OCRソフトウェアを使用して、前記コマ画像データを文字コードに変換し、コマ画像変換結果データを取得する変換手段と、
前記コマ画像データと、前記コマ画像データに対応するコマ画像変換結果データとを、前記コマ画像データ毎に別個の作業者端末へと送信する送信手段と、
前記作業者端末から、作業者による確認及び修正後の前記コマ画像変換結果データを受信する受信手段と、
を備えることを特徴とする。
請求項3に記載の発明は、会計支援装置において、
変換対象となる証憑の画像データである証憑画像データを取得する取得手段と、
前記証憑画像データから罫線によって囲まれた領域であるコマを識別するコマ識別手段と、
前記証憑画像データから、前記コマを抽出した画像データであるコマ画像データを作成するコマ画像データ作成手段と、
OCRソフトウェアを使用して、前記コマ画像データを文字コードに変換し、コマ画像変換結果データを取得する変換手段と、
前記コマ画像変換結果データを用いて前記コマ画像データに所定の項目名が含まれるかを判定し、所定の項目名が含まれる前記コマ画像データである項目名コマ画像データを抽出する項目名コマ抽出手段と、
前記項目名コマ画像データに、隣接するコマのコマ画像データを合成して二コマ画像データを作成する二コマ画像データ作成手段と、
前記コマ画像変換結果データから、所定の抽出項目に係るデータである抽出項目データと合致する項目についてのデータを抽出するデータ抽出手段と、
を備え、
前記データ抽出手段は、
前記二コマ画像データの項目名コマ画像データに対応するコマ画像変換結果データに、前記抽出項目データと合致する項目名が含まれる場合に、当該項目名コマ画像データと合成されたコマ画像データに係るコマ画像変換結果データを抽出し、
前記二コマ画像データの項目名コマ画像データに対応するコマ画像変換結果データに、前記抽出項目データと合致する項目名が含まれなかった場合に、全ての前記コマ画像変換結果データから、前記抽出項目データと合致する項目についてのデータを抽出することを特徴とする。
請求項4に記載の発明は、会計支援装置において、
変換対象となる証憑の画像データである証憑画像データを取得する取得手段と、
前記証憑画像データから罫線によって囲まれた領域であるコマを識別するコマ識別手段と、
前記証憑画像データから、前記コマを抽出した画像データであるコマ画像データを作成するコマ画像データ作成手段と、
OCRソフトウェアを使用して、前記コマ画像データを文字コードに変換し、コマ画像変換結果データを取得する変換手段と、
前記コマ画像変換結果データから、所定の抽出項目に係るデータである抽出項目データと合致する項目についてのデータを抽出するデータ抽出手段と、
を備え、
前記データ抽出手段は、前記抽出項目データと合致する項目についてのデータのうち、その記載形式が、前記データ抽出手段によって抽出するデータの記載形式に係るデータである抽出項目形式データと合致するデータを抽出することを特徴とする。
請求項5に記載の発明は、会計支援装置において、
変換対象となる証憑の画像データである証憑画像データを取得する取得手段と、
前記証憑画像データから罫線によって囲まれた領域であるコマを識別するコマ識別手段と、
前記証憑画像データから、前記コマを抽出した画像データであるコマ画像データを作成するコマ画像データ作成手段と、
前記証憑画像データから、前記コマの記載を削除した画像データである枠外画像データを作成する枠外画像データ作成手段と、
OCRソフトウェアを使用して、前記コマ画像データを文字コードに変換し、コマ画像変換結果データを取得し、OCRソフトウェアを使用して、前記枠外画像データを文字コードに変換し、枠外画像変換結果データを取得する変換手段と、
前記コマ画像変換結果データから所定の抽出項目に係るデータである抽出項目データと合致する項目についてのデータを抽出し、前記コマ画像変換結果データから前記抽出項目データと合致する項目についてのデータが抽出されなかった場合に、前記枠外画像変換結果データから前記抽出項目データと合致する項目についてのデータを抽出するデータ抽出手段と、
を備えることを特徴とする。
【0008】
請求項6に記載の発明は、請求項1から5のいずれか一項に記載の会計支援装置において
前記コマ識別手段は、
前記証憑画像データから直線を検出の上、
当該直線によって囲まれた領域を前記コマとして識別することを特徴とする。
【0009】
請求項7に記載の発明は、請求項1から6のいずれか一項に記載の会計支援装置において、
前記証憑画像データから、前記コマの記載を削除した画像データである枠外画像データを作成する枠外画像データ作成手段を備え、
前記変換手段は、OCRソフトウェアを使用して、前記枠外画像データを文字コードに変換し、枠外画像変換結果データを取得することを特徴とする。
【0010】
請求項8に記載の発明は、請求項1から7のいずれか一項に記載の会計支援装置において、
前記コマ画像変換結果データを用いて前記コマ画像データに所定の項目名が含まれるかを判定し、所定の項目名が含まれる前記コマ画像データである項目名コマ画像データを抽出する項目名コマ抽出手段を備えることを特徴とする。
【0011】
請求項9に記載の発明は、請求項8に記載の会計支援装置において、
前記項目名コマ画像データに、隣接するコマのコマ画像データを合成して二コマ画像データを作成する二コマ画像データ作成手段を備えることを特徴とする。
【0012】
請求項10に記載の発明は、請求項1から9のいずれか一項に記載の会計支援装置において、
前記コマ画像変換結果データを基に、前記コマ画像データに含まれる文字列の行数を特定する行数特定手段を備えることを特徴とする。
【0014】
請求項11に記載の発明は、請求項1に記載の会計支援装置において、
前記コマ画像変換結果データを用いて前記コマ画像データに所定の項目名が含まれるかを判定し、所定の項目名が含まれる前記コマ画像データである項目名コマ画像データを抽出する項目名コマ抽出手段を備え、
前記項目名コマ抽出手段は、
前記行毎コマ画像データが作成されたコマについては、前記行毎コマ画像データに所定の項目名が含まれるかを判定し、所定の項目名が含まれる前記行毎コマ画像データを、前記項目名コマ画像データとして抽出し、
前記行毎コマ画像データが作成されていないコマについては、前記コマ画像データに所定の項目名が含まれるかを判定し、所定の項目名が含まれる前記コマ画像データを、前記項目名コマ画像データとして抽出することを特徴とする。
【0015】
請求項12に記載の発明は、請求項11に記載の会計支援装置において、
前記項目名コマ画像データに、隣接するコマのコマ画像データを合成して二コマ画像データを作成する二コマ画像データ作成手段を備え、
前記二コマ画像データ作成手段は、
前記行毎コマ画像データが前記項目名コマ画像データとして抽出された場合には、
当該行毎コマ画像データが含まれるコマと、これと隣接するコマとの行数が一致するかを判定の上、一致する場合に、当該行毎コマ画像データと、右に隣接するコマの同一行の行毎コマ画像データとを合成し、
前記コマ画像データが前記項目名コマ画像データとして抽出された場合には、
当該コマ画像データに係るコマと、下に隣接するコマとの左右方向の幅が一致するかを判定の上、これが一致する場合に、当該コマ画像データと、下に隣接するコマのコマ画像データとを合成することを特徴とする。
【0017】
請求項13に記載の発明は、請求項1から12のいずれか一項に記載の会計支援装置において、
前記コマ画像変換結果データから、所定の抽出項目に係るデータである抽出項目データと合致する項目についてのデータを抽出するデータ抽出手段を備えることを特徴とする。
【0018】
請求項14に記載の発明は、請求項3、9又は12に記載の会計支援装置において、
前記コマ画像変換結果データから、所定の抽出項目に係るデータである抽出項目データと合致する項目についてのデータを抽出するデータ抽出手段を備え、
前記データ抽出手段は、前記二コマ画像データの項目名コマ画像データに対応するコマ画像変換結果データに、前記抽出項目データと合致する項目名が含まれる場合に、当該項目名コマ画像データと合成されたコマ画像データに係るコマ画像変換結果データを抽出することを特徴とする。
【0022】
請求項15に記載の発明は、会計支援プログラムにおいて、
コンピュータを、
変換対象となる証憑の画像データである証憑画像データを取得する取得手段、
前記証憑画像データから罫線によって囲まれた領域であるコマを識別するコマ識別手段、
前記証憑画像データから、前記コマを抽出した画像データであるコマ画像データを作成するコマ画像データ作成手段、
OCRソフトウェアを使用して、前記コマ画像データを文字コードに変換し、コマ画像変換結果データを取得する変換手段、
前記コマ画像変換結果データを基に、前記コマ画像データに含まれる文字列の行数を特定する行数特定手段、
前記コマ画像データに複数行の文字列が含まれる場合に、前記コマ画像データを行毎に分割した行毎コマ画像データを作成する行毎コマ画像データ作成手段、
として機能させることを特徴とする。
請求項16に記載の発明は、会計支援プログラムにおいて、
コンピュータを、
変換対象となる証憑の画像データである証憑画像データを取得する取得手段、
前記証憑画像データから罫線によって囲まれた領域であるコマを識別するコマ識別手段、
前記証憑画像データから、前記コマを抽出した画像データであるコマ画像データを作成するコマ画像データ作成手段、
OCRソフトウェアを使用して、前記コマ画像データを文字コードに変換し、コマ画像変換結果データを取得する変換手段、
前記コマ画像データと、前記コマ画像データに対応するコマ画像変換結果データとを、前記コマ画像データ毎に別個の作業者端末へと送信する送信手段、
前記作業者端末から、作業者による確認及び修正後の前記コマ画像変換結果データを受信する受信手段、
として機能させることを特徴とする。
請求項17に記載の発明は、会計支援プログラムにおいて、
コンピュータを、
変換対象となる証憑の画像データである証憑画像データを取得する取得手段、
前記証憑画像データから罫線によって囲まれた領域であるコマを識別するコマ識別手段、
前記証憑画像データから、前記コマを抽出した画像データであるコマ画像データを作成するコマ画像データ作成手段、
OCRソフトウェアを使用して、前記コマ画像データを文字コードに変換し、コマ画像変換結果データを取得する変換手段、
前記コマ画像変換結果データを用いて前記コマ画像データに所定の項目名が含まれるかを判定し、所定の項目名が含まれる前記コマ画像データである項目名コマ画像データを抽出する項目名コマ抽出手段、
前記項目名コマ画像データに、隣接するコマのコマ画像データを合成して二コマ画像データを作成する二コマ画像データ作成手段、
前記コマ画像変換結果データから、所定の抽出項目に係るデータである抽出項目データと合致する項目についてのデータを抽出するデータ抽出手段、
として機能させ、
前記データ抽出手段は、
前記二コマ画像データの項目名コマ画像データに対応するコマ画像変換結果データに、前記抽出項目データと合致する項目名が含まれる場合に、当該項目名コマ画像データと合成されたコマ画像データに係るコマ画像変換結果データを抽出し、
前記二コマ画像データの項目名コマ画像データに対応するコマ画像変換結果データに、前記抽出項目データと合致する項目名が含まれなかった場合に、全ての前記コマ画像変換結果データから、前記抽出項目データと合致する項目についてのデータを抽出することを特徴とする。
請求項18に記載の発明は、会計支援プログラムにおいて、
コンピュータを、
変換対象となる証憑の画像データである証憑画像データを取得する取得手段、
前記証憑画像データから罫線によって囲まれた領域であるコマを識別するコマ識別手段、
前記証憑画像データから、前記コマを抽出した画像データであるコマ画像データを作成するコマ画像データ作成手段、
OCRソフトウェアを使用して、前記コマ画像データを文字コードに変換し、コマ画像変換結果データを取得する変換手段、
前記コマ画像変換結果データから、所定の抽出項目に係るデータである抽出項目データと合致する項目についてのデータを抽出するデータ抽出手段、
として機能させ、
前記データ抽出手段は、前記抽出項目データと合致する項目についてのデータのうち、その記載形式が、前記データ抽出手段によって抽出するデータの記載形式に係るデータである抽出項目形式データと合致するデータを抽出することを特徴とする。
請求項19に記載の発明は、会計支援プログラムにおいて、
コンピュータを、
変換対象となる証憑の画像データである証憑画像データを取得する取得手段、
前記証憑画像データから罫線によって囲まれた領域であるコマを識別するコマ識別手段、
前記証憑画像データから、前記コマを抽出した画像データであるコマ画像データを作成するコマ画像データ作成手段、
前記証憑画像データから、前記コマの記載を削除した画像データである枠外画像データを作成する枠外画像データ作成手段、
OCRソフトウェアを使用して、前記コマ画像データを文字コードに変換し、コマ画像変換結果データを取得し、OCRソフトウェアを使用して、前記枠外画像データを文字コードに変換し、枠外画像変換結果データを取得する変換手段、
前記コマ画像変換結果データから所定の抽出項目に係るデータである抽出項目データと合致する項目についてのデータを抽出し、前記コマ画像変換結果データから前記抽出項目データと合致する項目についてのデータが抽出されなかった場合に、前記枠外画像変換結果データから前記抽出項目データと合致する項目についてのデータを抽出するデータ抽出手段、
として機能させることを特徴とする。
【0023】
請求項20に記載の発明は、会計支援装置が実行する会計支援方法において、
変換対象となる証憑の画像データである証憑画像データを取得する取得ステップと、
前記証憑画像データから罫線によって囲まれた領域であるコマを識別するコマ識別ステップと、
前記証憑画像データから、前記コマを抽出した画像データであるコマ画像データを作成するコマ画像データ作成ステップと、
OCRソフトウェアを使用して、前記コマ画像データを文字コードに変換し、コマ画像変換結果データを取得する変換ステップと、
前記コマ画像変換結果データを基に、前記コマ画像データに含まれる文字列の行数を特定する行数特定ステップと、
前記コマ画像データに複数行の文字列が含まれる場合に、前記コマ画像データを行毎に分割した行毎コマ画像データを作成する行毎コマ画像データ作成ステップと、
を含むことを特徴とする。
請求項21に記載の発明は、会計支援装置が実行する会計支援方法において、
変換対象となる証憑の画像データである証憑画像データを取得する取得ステップと、
前記証憑画像データから罫線によって囲まれた領域であるコマを識別するコマ識別ステップと、
前記証憑画像データから、前記コマを抽出した画像データであるコマ画像データを作成するコマ画像データ作成ステップと、
OCRソフトウェアを使用して、前記コマ画像データを文字コードに変換し、コマ画像変換結果データを取得する変換ステップと、
前記コマ画像データと、前記コマ画像データに対応するコマ画像変換結果データとを、前記コマ画像データ毎に別個の作業者端末へと送信する送信ステップと、
前記作業者端末から、作業者による確認及び修正後の前記コマ画像変換結果データを受信する受信ステップと、
を含むことを特徴とする。
請求項22に記載の発明は、会計支援装置が実行する会計支援方法において、
変換対象となる証憑の画像データである証憑画像データを取得する取得ステップと、
前記証憑画像データから罫線によって囲まれた領域であるコマを識別するコマ識別ステップと、
前記証憑画像データから、前記コマを抽出した画像データであるコマ画像データを作成するコマ画像データ作成ステップと、
OCRソフトウェアを使用して、前記コマ画像データを文字コードに変換し、コマ画像変換結果データを取得する変換ステップと、
前記コマ画像変換結果データを用いて前記コマ画像データに所定の項目名が含まれるかを判定し、所定の項目名が含まれる前記コマ画像データである項目名コマ画像データを抽出する項目名コマ抽出ステップと、
前記項目名コマ画像データに、隣接するコマのコマ画像データを合成して二コマ画像データを作成する二コマ画像データ作成ステップと、
前記コマ画像変換結果データから、所定の抽出項目に係るデータである抽出項目データと合致する項目についてのデータを抽出するデータ抽出ステップと、
を含み、
前記データ抽出ステップにおいては、
前記二コマ画像データの項目名コマ画像データに対応するコマ画像変換結果データに、前記抽出項目データと合致する項目名が含まれる場合に、当該項目名コマ画像データと合成されたコマ画像データに係るコマ画像変換結果データを抽出し、
前記二コマ画像データの項目名コマ画像データに対応するコマ画像変換結果データに、前記抽出項目データと合致する項目名が含まれなかった場合に、全ての前記コマ画像変換結果データから、前記抽出項目データと合致する項目についてのデータを抽出することを特徴とする。
請求項23に記載の発明は、会計支援装置が実行する会計支援方法において、
変換対象となる証憑の画像データである証憑画像データを取得する取得ステップと、
前記証憑画像データから罫線によって囲まれた領域であるコマを識別するコマ識別ステップと、
前記証憑画像データから、前記コマを抽出した画像データであるコマ画像データを作成するコマ画像データ作成ステップと、
OCRソフトウェアを使用して、前記コマ画像データを文字コードに変換し、コマ画像変換結果データを取得する変換ステップと、
前記コマ画像変換結果データから、所定の抽出項目に係るデータである抽出項目データと合致する項目についてのデータを抽出するデータ抽出ステップと、
を含み、
前記データ抽出ステップにおいては、前記抽出項目データと合致する項目についてのデータのうち、その記載形式が、前記データ抽出ステップにおいて抽出するデータの記載形式に係るデータである抽出項目形式データと合致するデータを抽出することを特徴とする。
請求項24に記載の発明は、会計支援装置が実行する会計支援方法において、
変換対象となる証憑の画像データである証憑画像データを取得する取得ステップと、
前記証憑画像データから罫線によって囲まれた領域であるコマを識別するコマ識別ステップと、
前記証憑画像データから、前記コマを抽出した画像データであるコマ画像データを作成するコマ画像データ作成ステップと、
前記証憑画像データから、前記コマの記載を削除した画像データである枠外画像データを作成する枠外画像データ作成ステップと、
OCRソフトウェアを使用して、前記コマ画像データを文字コードに変換し、コマ画像変換結果データを取得し、OCRソフトウェアを使用して、前記枠外画像データを文字コードに変換し、枠外画像変換結果データを取得する変換ステップと、
前記コマ画像変換結果データから所定の抽出項目に係るデータである抽出項目データと合致する項目についてのデータを抽出し、前記コマ画像変換結果データから前記抽出項目データと合致する項目についてのデータが抽出されなかった場合に、前記枠外画像変換結果データから前記抽出項目データと合致する項目についてのデータを抽出するデータ抽出ステップと、
を含むことを特徴とする。
【発明の効果】
【0024】
本発明によれば、複数の記載欄が不規則に配置された証憑について、OCRソフトウェアによる変換精度を高めることができる会計支援装置、会計支援プログラム及び会計支援方法を提供することができる。
【図面の簡単な説明】
【0025】
【
図1】実施形態に係る会計支援システムの構成を示すブロック図である。
【
図2】実施形態に係る会計支援システムにおける、データの流れを示すブロック図である。
【
図3】実施形態に係る会計支援システムにおける、動作の流れの概略を示すフローチャートである。
【
図4】実施形態に係る会計支援システムにおける、事前登録の流れを示すフローチャートである。
【
図5】実施形態に係る会計支援システムにおける、医療領収書の変換の流れを示すフローチャートである。
【
図6】実施形態に係る会計支援システムにおける、クラウドワーカによるチェックの流れを示すフローチャートである。
【
図7】実施形態に係る会計支援システムにおける、医療費控除申請用データの抽出の流れを示すフローチャートである。
【
図8】医療領収書画像データの一例を示す図である。
【
図9】医療領収書画像データの一例を示す図である。
【
図15】行毎コマ画像データの一例を示す図である。
【
図16】行毎コマ画像データの一例を示す図である。
【発明を実施するための形態】
【0026】
以下、
図1から
図18に基づいて、本発明の実施形態である会計支援システム100について説明する。なお、以下においては、OCRソフトウェアによる変換対象とする証憑が医療領収書であり、変換結果から医療費控除申請に必要となる項目についてのデータを抽出する場合を例として説明するが、本発明の技術的範囲はこれに限定されるものではない。
【0027】
[第1 構成の説明]
まず、会計支援システム100の構成につき、
図1に基いて説明する。
会計支援システム100は、
図1に示すように、医療領収書の画像データ(医療領収書画像データD2)の記載内容の文字コードへの変換等を行う会計支援装置1と、会計支援装置1による変換結果を確認する複数の作業者Wがそれぞれ使用する作業者端末2と、会計支援システム100のユーザUがそれぞれ使用するユーザ端末3と、を備え、会計支援装置1と各作業者端末2との間、及び会計支援装置1と各ユーザ端末3との間は、通信ネットワークNを介して接続されている。
【0028】
[1 会計支援装置]
会計支援装置1は、例えば、会計支援システム100を運用する企業や税理士法人等に設置されたPC(Personal Computer)、WS(Work Station)等の情報機器であり、
図1に示すように、制御部11と、記憶部12と、通信部13と、表示部14と、操作部15と、を備えて構成されている。
【0029】
[(1)制御部]
制御部11は、会計支援装置1の動作を制御する部分であり、具体的には、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等を備えて構成され、RAMの作業領域に展開されたROMや記憶部12に記憶されたプログラムとCPUとの協働により、会計支援装置1の各部を統括制御する。
【0030】
[(2)記憶部]
記憶部12は、会計支援装置1の運用に必要となる各種情報が記憶される部分であり、例えば、HDD(Hard Disk Drive)、半導体メモリ等により構成され、プログラムデータ、各種設定データ等のデータを、制御部11から読み書き可能に記憶する。
【0031】
記憶部12には、ユーザデータ記憶部121と、変換対象データ記憶部122と、変換データ記憶部123と、医療費控除申請用抽出データ記憶部124と、抽出項目データ記憶部125と、抽出項目形式データ記憶部126と、医療領収書変換エンジン127と、医療費控除申請用データ抽出エンジン128と、OCRソフトウェア129と、が備えられている。
【0032】
なお、これらのデータベース、ソフトウェア等は、必ずしもそれ自体が記憶部12内に備えられている必要はなく、会計支援装置1とは別個のサーバ等に備えられ、記憶部12内には、これらにアクセスするためのURL、パスワード等のみが記憶され、必要に応じて、会計支援装置1が通信ネットワークNを介して情報を取得して用いるようにしてもよい。
【0033】
ユーザデータ記憶部121は、会計支援システム100を利用するユーザUについてのデータであるユーザデータD1を記憶するデータベースである。
ユーザデータD1は、例えば、ユーザUの氏名、企業名等の種々の情報が、ユーザU毎に設定されたID及びログインパスワードに紐付けて記憶されたデータである。
【0034】
変換対象データ記憶部122は、会計支援装置1において文字コードに変換される対象である医療領収書画像データD2を、当該医療領収書画像データD2に係るユーザUのユーザデータD1及び変換有無データD3と紐対応付けて記憶するデータベースである。
【0035】
医療領収書画像データD2は、例えば、
図8及び
図9に示すような、病院、薬局等が発行する医療領収書を画像データ化したデータであり、PDF、JPEG等、一般的な所定のデジタル静止画像データに係るファイル形式の画像を用いることができる。医療領収書画像データD2は、例えば、紙媒体である医療費領収書を、一般的なイメージスキャナを用いてデジタル静止画像情報化することで得られる。
変換有無データD3は、医療領収書画像データD2が既に会計支援装置1における文字コードへの変換等の処理がなされたデータであるかを示すデータであり、後述のように変換等の処理が完了する前には未変換である旨が記憶されており、変換等の処理が完了すると、記憶内容が、既変換である旨の記憶に切り替わる。
【0036】
変換データ記憶部123は、OCRソフトウェア129による変換後のデータが記憶されるデータベースであり、後述のように、コマ画像データD7、コマ位置情報データD8、枠外画像データD9、コマ画像変換結果データD10、枠外画像変換結果データD11、行毎コマ画像データD12、行毎コマ画像変換結果データD13、項目名コマ画像データD14、項目名コマ画像変換結果データD15及び二コマ画像データD16が記憶される。
【0037】
医療費控除申請用抽出データ記憶部124は、後述のように、医療領収書画像データD2の変換結果から抽出された医療費控除申請に必要となる項目に係るデータである医療費控除申請用抽出データD21を、当該データに係るユーザUのユーザデータD1と紐付けて記憶するデータベースである。
医療費控除申請用抽出データD21は、日付に係るデータである日付データD21-1と、氏名に係るデータである氏名データD21-2と、支払先に係るデータである支払先データD21-3と、使用医薬品に係るデータである使用医薬品データD21-4と、支払金額に係るデータである支払金額データD21-5と、医療・治療の点数に係るデータである医療・治療点数データD21-6と、医療品購入の点数に係るデータである医療品購入点数データD21-7と、介護保険サービスの点数に係るデータである介護保険サービス点数データD21-8と、を含む。
【0038】
抽出項目データ記憶部125は、医療費控除申請に必要な抽出項目に係るデータである抽出項目データD4が予め記憶されているデータベースである。
抽出項目データD4は、日付項目データD4-1と、氏名項目データD4-2と、医療機関データD4-3と、医薬品項目データD4-4と、第一支払項目データD4-5と、第二支払項目データD4-6と、医療・治療項目データD4-7と、医療品購入項目データD4-8と、介護保険サービス項目データD4-9と、を含む。なお、抽出項目データD4の内容はこれらに限られず、医療費控除申請に必要なデータに増減が生じた場合等には、それに対応して、適宜追加又は省略することが可能である。
【0039】
日付項目データD4-1は、医療領収書において、日付の記載に付される項目名のリストであり、例えば、「診療日」、「発行日」等の項目名が記憶されている。
氏名項目データD4-2は、医療領収書において、氏名の記載を抽出するための記載内容を記憶したデータであり、例えば、「様」という文字が記憶されている。
医療機関データD4-3は、病院、薬局等の医療機関名と、当該医療機関に係る電話番号とが紐づけて記憶されたデータである。
医薬品項目データD4-4は、医療領収書に登場する可能性のある所定の医薬品名が記憶されたデータである。
第一支払項目データD4-5は、医療領収書において、支払金額の記載に付される項目名のリストであり、例えば、「領収金額」、「請求金額」、「支払金額」等の項目名が記憶されている。後述のように、第一支払項目データD4-5は、第二支払項目データD4-6よりも優先的に使用されるデータである。
第二支払項目データD4-6は、医療領収書において、支払金額の記載を抽出するための記載内容を記憶したデータであり、例えば、「¥」、「円」、「計」等の文字が記憶されている。
医療・治療項目データD4-7は、医療領収書において、医療・治療の記載に付される項目名のリストであり、例えば、「診療」、「治療」、「針きゅう」、「検査費用」、「付添人料」等の項目名が記憶されている。
医療品購入項目データD4-8は、医療領収書において、医療品購入の記載に付される項目名のリストであり、例えば、「調剤技術」、「薬学管理」、「薬剤」、「特定保健医療材料」、「医療材料」等の項目名が記憶されている。
介護保険サービス項目データD4-9は、医療領収書において、介護保険サービスの記載に付される項目名のリストであり、例えば、「訪問介護」、「ホームヘルプサービス」、「訪問入浴介護」、「訪問リハビリテーション」、「デイサービス」等の項目名が記憶されている。
【0040】
抽出項目形式データ記憶部126は、医療費控除申請に必要な項目ごとに、抽出すべきデータの記載形式を記憶したデータである抽出項目形式データD5が予め記憶されているデータベースである。
抽出項目形式データD5は、日付形式データD5-1と、氏名形式データD5-2と、電話番号形式データD5-3と、支払金額形式データD5-4と、医療・治療点数形式データD5-5と、医療品購入点数形式データD5-6と、介護保険サービス点数形式データD5-7と、を含む。なお、抽出項目形式データD5の内容はこれらに限られず、医療費控除申請に必要なデータに増減が生じた場合等には、それに対応して、適宜追加又は省略することが可能である。
【0041】
日付形式データD5-1は、日付として抽出すべき記載の記載形式に係るデータであり、例えば、複数の数字が「/」で区切られた形式や、複数の数字が「年」、「月」及び/又は「日」で区切られた形式が記憶されている。
氏名形式データD5-2は、氏名として抽出すべき記載の記載形式に係るデータであり、例えば、算用数字や記号を含まない文字列の形式が記憶されている。
電話番号形式データD5-3は、電話番号として抽出すべき記載の記載形式に係るデータであり、例えば、複数の数字が「-」で区切られた形式や、複数の数字の間に「()」で括られた数字が存在する形式や、複数の数字の間に「-」及び「()」の両者が存在する形式が記憶されている。
支払金額形式データD5-4は、支払金額として抽出すべき記載の記載形式に係るデータであり、例えば、数字の間が「-」、「()」又は「/」で区切られずに記載された形式が記憶されている。
医療・治療点数形式データD5-5は、医療・治療点数として抽出すべき記載の記載形式に係るデータであり、例えば、数字のみ又は数字の後に「点」が続く形式が記憶されている。
医療品購入点数形式データD5-6は、医療品購入点数として抽出すべき記載の記載形式に係るデータであり、例えば、数字のみ又は数字の後に「点」が続く形式が記憶されている。
介護保険サービス点数形式データD5-7は、介護保険サービス点数として抽出すべき記載の記載形式に係るデータであり、例えば、数字のみ又は数字の後に「点」が続く形式が記憶されている。
【0042】
医療領収書変換エンジン127は、後述の医療領収書画像データD2の変換等から作業者Wによる確認・修正までの所定のプロセスにおける会計支援装置1への指令内容が組み合わされたプログラムである。
【0043】
医療費控除申請用データ抽出エンジン128は、後述の医療費控除申請に必要となるデータの抽出に係る所定のプロセスにおける会計支援装置1への指令内容が組み合わされたプログラムである。
【0044】
OCRソフトウェア129は、一般的なOCR(光学文字認識、Optical Character Recognition/Reader)に係るソフトウェアであり、活自の文書の画像を文字コードの列に変換するソフトウェアである。
ただし、上記のように、OCRソフトウェア129そのものが記憶部12内に記憶されていることは必須ではなく、例えばクラウド型のOCRサービスを利用し、OCRソフトウェア129そのものは、所定のクラウドサーバ上に記憶され、記憶部12内には、このようなOCRソフトウェア129を呼び出すための、URL、パスワード等の情報のみ記憶されており、会計支援装置1が、通信ネットワークNを介して、クラウドサーバ上のOCRソフトウェア129にアクセスして、これを使用するようにしてもよい。
【0045】
[(3)通信部]
通信部13は、会計支援装置1と作業者端末2との間の通信及び会計支援装置1とユーザ端末3との間の通信に用いられる部分であり、例えば、通信用IC(Integrated Circuit)及び通信コネクタなどを有する通信インターフェイスであり、制御部11の制御の元、所定の通信プロトコルを用いて、通信ネットワークNを介したデータ通信を行う。
【0046】
[(4)表示部]
表示部14は、例えば、LCD(Liquid Crystal Display)等のディスプレイを備え、制御部11から出力された表示制御信号に基づいた画像を表示画面に表示する。
【0047】
[(5)操作部]
操作部15は、例えば、文字入力キー、数字入力キー、その他各種機能に対応付けられたキーなどを有するキーボード、マウス等のポインティングデバイス等を備え、例えば、会計支援システム100を運用する企業や税理士法人等の従業員からの操作入力を受け付けて、操作入力に応じた操作信号を制御部11へと出力する。なお、操作部15は、例えば、表示部14と一体的に形成されたタッチパネル等であってもよい。
【0048】
[2 作業者端末]
作業者端末2は、会計支援装置1による変換結果を確認する複数の作業者Wがそれぞれ使用するPC、WS(Work Station)等の情報機器であり、例えば、
図1に示すように、会計支援装置1と同様に、制御部21と、記憶部22と、通信部23と、表示部24と、操作部25と、を備えて構成されている。
ただし、
図1に示すように、記憶部22には、会計支援装置1と異なり、後述のように、会計支援装置1から受信したデータをあてはめた上で、作業者Wに対して表示する画面のデータである表示画面データD6が記憶される表示画面データ記憶部221が備えられている。
なお、表示画面データ記憶部221は、会計支援装置1の記憶部12に備えられ、会計支援装置1においてこれに所定のデータをあてはめて、作業者端末2に表示される画面を完成させた上で、作業者端末2へと送信するようにしてもよい。
【0049】
[3 ユーザ端末]
ユーザ端末3は、会計支援システム100の複数のユーザUがそれぞれ使用するPC、スマートフォン、タブレット端末等の情報機器であり、例えば、
図1に示すように、会計支援装置1と同様に、制御部31と、記憶部32と、通信部33と、表示部34と、操作部35と、を備えて構成されている。
【0050】
[4 通信ネットワーク]
通信ネットワークNは、例えば、インターネット、電話回線網、携帯電話通信網等であり、会計支援装置1と作業者端末2との間でのデータの送受信、及び会計支援装置1とユーザ端末3との間でのデータの送受信を行うことが可能なものであれば特に限定されない。
【0051】
[第2 動作の説明]
以下、実施形態に係る会計支援システム100の使用時の流れについて、
図2から
図18に基づいて説明する。なお、以下においては、
図8及び
図9に示すように医療領収書の上下及び左右を定め、かつ、医療領収書の横(左右)方向をX軸方向、縦(上下)方向をY軸方向と定めて説明する。
【0052】
会計支援システム100使用時の流れは、大別すると、
図3に示すように、事前登録(ステップS1)、医療領収書の変換(ステップS2)、クラウドワーカによるチェック(ステップS3)、医療費控除申請用データの抽出(ステップS4)の4つの過程からなる。以下、それぞれの過程について詳細に説明する。
【0053】
[1 ステップS1:事前登録]
まず、会計支援システム100を使用するユーザUは、以下の事前登録を行う。事前登録の過程は、
図4に示すように、ステップS1-1からS1-2の2つのステップからなる。
【0054】
[(1) ステップS1-1:ユーザデータの登録]
会計支援システム100を使用するユーザUは、システム使用開始前に、まずユーザデータD1の登録を行う。具体的には、ユーザUは、ユーザ端末3の操作部35を用いて、例えば、氏名、住所、連絡先、システム使用時のID、パスワード等を含む所定の情報からなるユーザデータD1を入力する。
これらのデータが入力されると、ユーザ端末3は、入力されたデータを、通信部33から通信ネットワークNを介して、
図2に示すように会計支援装置1に送信し、通信部13によってこれを受信した会計支援装置1においては、制御部11が、受信したユーザデータD1を、記憶部12のユーザデータ記憶部121に記憶する。
【0055】
[(2) ステップS1-2:医療領収書画像データの登録]
会計支援システム100を使用するユーザUは、続いて、医療領収書画像データD2の登録を行う。
具体的には、ユーザUは、任意の方法でスキャンすることで医療領収書画像データD2を作成の上、ユーザ端末3に記憶された医療領収書画像データD2を、通信部33から通信ネットワークNを介して、
図2に示すように会計支援装置1に送信する。
通信部13によってこれを受信した会計支援装置1においては、制御部11が、受信した医療領収書画像データD2を、当該ユーザに係るユーザデータD1及び変換有無データD3と紐付けて、記憶部12の変換対象データ記憶部122に記憶する。なお、登録された段階では、変換有無データD3は、全て未変換である旨のデータとなる。
【0056】
なお、上記のような過程を経ることなく、例えば、会計支援システム100を運用する企業や税理士法人等の従業員によって、会計支援装置1に直接接続されたスキャナ等を用いて、ユーザUから預かった医療領収書の原本又はそのコピーをスキャンすることで、会計支援装置1が、直接医療領収書画像データD2を取得するようにしてもよい。
【0057】
[2 ステップS2:医療領収書の変換]
続いて、会計支援装置1において、医療領収書画像データD2に対するOCRソフトウェア129による文字コードへの変換等の処理がなされる。医療領収書の変換の過程は、
図5に示すように、ステップS2-1からS2-8の8つのステップからなる。
なお、これらの過程は、医療領収書変換エンジン127に従って、制御部11によって自動的に行われる。
【0058】
[(1)ステップS2-1:変換対象データの抽出]
会計支援装置1は、まず、変換対象データ記憶部122から、変換対象となる、未変換の医療領収書画像データD2を抽出する。
具体的には、制御部11が、記憶部12の変換対象データ記憶部122から、変換有無データD3によって、医療領収書画像データD2のそれぞれにつき、既にOCRソフトウェア129による変換等の後述の処理がなされたデータであるかを判別の上、未変換のデータを選択して抽出する。
【0059】
[(2)ステップS2-2:コマ画像データの生成]
会計支援装置1において、変換の対象となる未変換の医療領収書画像データD2が抽出されると、制御部11は、続いて、抽出された医療領収書画像データD2につき、コマC、すなわち罫線Lで囲まれた領域ごとに分割し、コマ画像データD7を生成する。具体的には、以下のとおりである。
【0060】
[ステップS2-2-1:直線検出]
まず、制御部11は、医療領収書画像データD2から、直線を検出する。直線の検出の手法は特に限定されないが、例えば、モノクロに変換した医療領収書画像データD2からエッジ(明るさの変化が大きい箇所)を抽出することで直線を検出すればよい。
【0061】
[ステップS2-2-2:コマの識別]
続いて、制御部11は、ステップS2-2-1において検出された直線に基づき、コマCを識別する。具体的には、検出された直線の位置から、四方が直線で囲まれ、長方形が形成された領域を算出の上、当該領域を、罫線Lによって囲まれたコマCと識別する。
なお、
図9に示すように、罫線Lによって囲まれた領域には、長方形の一部の角部に曲線部分が存在する領域も存在するが、このような領域についても、例えば、四辺それぞれの少なくとも一部が直線である場合にはコマCとして識別されるようにすることで、コマCとして識別することができる。このような領域についても、上下左右の四辺それぞれの少なくとも一部が直線である限り、本発明においては、直線によって囲まれているものとする。
【0062】
[ステップS2-2-3:コマ画像データの生成]
続いて、制御部11は、ステップS2-2-2において識別されたコマCごとに医療領収書画像データD2から切り出すようにして、
図10から
図13に示すような、コマ画像データD7を生成する。なお、
図10から
図13に示したコマ画像データD7は一例に過ぎず、これらの他にステップS2-2-2においてコマCと識別された全ての部分につき、コマ画像データD7が作成される。
【0063】
コマ画像データD7の作成の際には、ステップS2-2-2において識別されたコマCの周囲まで僅かに切り出すようにして、各コマCよりも一回り大きい画像を生成することが好ましい。
医療領収書等の証憑においては、印字の位置が証憑内の表に対してずれた結果として、本来表の枠内に収まるべき印字が表から僅かにはみ出していることがあるが、コマ画像データD7を、各コマCよりも大きく作成することで、印字が表からはみ出した医療領収書に係る医療領収書画像データD2にも対応し易くなる。
【0064】
また、コマ画像データD7の生成の際には、同時に、各コマCについて、例えばその4隅について医療領収書画像データD2に係る画像上におけるX軸方向及びY軸方向の座標を記録する等の方法により、各コマ画像データD7に係るコマCにつき、医療領収書画像データD2上での位置を判別可能としたデータであるコマ位置情報データD8を作成する。
コマ画像データD7とコマ位置情報データD8とは、例えば、コマ画像データD7に係る各コマCに番号を振ると共に、コマ画像データD7とこれに対応するコマ位置情報データD8の両者に当該番号を記憶する等の方法によって対応付けられる。
【0065】
[(3)ステップS2-3:枠外画像データの生成]
コマ画像データD7が生成されると、会計支援装置1の制御部11は、続いて、ステップS2-2でコマ画像データD7が生成された医療領収書画像データD2につき、コマC、すなわちステップS2-2-2で直線によって囲まれた領域として識別された部分を除いた画像データである枠外画像データD9を生成する。
【0066】
具体的には、ステップS2-2-2において識別されたコマC部分の記載を全て消去し、例えば
図14に示すような、コマC以外の部分のみが記載された画像を生成する。当該画像のデータが、枠外画像データD9である。
【0067】
[(4)ステップS2-4:OCR処理]
ステップS2-2においてコマ画像データD7が生成され、ステップS2-3において枠外画像データD9が生成されると、続いて、OCR処理がなされる。
具体的には、会計支援装置1の制御部11は、OCRソフトウェア129を用いて、コマ画像データD7のそれぞれ及び枠外画像データD9につき、個別に文字コードに変換し、コマ画像データD7のそれぞれに対応した、OCRソフトウェア129による変換結果のデータである複数のコマ画像変換結果データD10と、枠外画像データD9に対応した、OCRソフトウェア129による変換結果のデータである枠外画像変換結果データD11と、を作成する。すなわち、制御部11が、コマ画像データD7及び枠外画像データD9の変換手段として機能することとなる。
【0068】
なお、例えば、OCRソフトウェア129そのものは、会計支援装置1の記憶部12に記憶されずに所定のクラウドサーバ上に記憶され、記憶部12内には、このようなOCRソフトウェア129を呼び出すためのURL、パスワード等の情報のみ記憶されており、クラウドサーバ上のOCRソフトウェア129を逐一呼び出して変換が行われる場合においても、このような呼び出しは制御部11が行うことから、この場合も、制御部11が、コマ画像データD7及び枠外画像データD9の変換手段として機能することとなる。
また、本発明におけるコマ画像変換結果データD10及び枠外画像変換結果データD11の取得には、OCRソフトウェア129を使用して、制御部11自らがコマ画像データD7及び枠外画像データD9を変換する場合と、クラウドサーバ上のOCRソフトウェア129によってコマ画像データD7及び枠外画像データD9が変換されたデータを、通信部13を介して受信する場合の両者が含まれる。
【0069】
なお、コマ画像データD7と、これを変換した結果であるコマ画像変換結果データD10とは、例えば、コマ画像データD7に係る各コマCに番号を振ると共に、コマ画像データD7とこれに対応するコマ画像変換結果データD10の両者に当該番号を記憶する等の方法によって対応付けられる。
【0070】
[(5)ステップS2-5:コマ画像の分割]
ステップS2-4において、コマ画像変換結果データD10と、枠外画像変換結果データD11とが作成されると、続いて、制御部11は、コマ画像データD7のうち、複数行の文字列が含まれるものにつき分割を行う。
具体的には、以下のステップS2-5-1からステップS2-5-4の4つの過程を経て、分割が行われる。
【0071】
[ステップS2-5-1:文字列の存否の判定]
まず、制御部11は、各コマ画像データD7につき、ステップS2-4において作成されたコマ画像変換結果データD10に、OCRソフトウェア129によって生成された文字コードが含まれているか否かを判定する。
【0072】
ここで、コマ画像変換結果データD10に、OCRソフトウェア129によって生成された文字コードが含まれていると判定されたコマ画像データD7は、文字列が存在しているコマCに係るデータを意味しており、ステップS2-5-2に進む。
これに対し、ここで、コマ画像変換結果データD10に、OCRソフトウェア129によって生成された文字コードが含まれていないと判定されたコマ画像データD7は、文字列が存在しない空欄となっているコマCに係るデータを意味しており、ステップS2-5におけるこの後の処理から除外され、ステップS2-6に進む。
【0073】
[ステップS2-5-2:行数の判定]
続いて、制御部11は、各コマ画像データD7と、これに対応したコマ画像変換結果データD10とを用いて、各コマ画像データD7に複数行の文字列が含まれるか否かを判定する。
【0074】
具体的には、OCR処理によって取得された文字コードの列には1文字ごとに元画像(ここではコマ画像データD7)に対する位置情報が付与されていることから、この位置情報を基に、X軸方向(横方向)において近い位置にある文字列を行と推定し、このような行のY軸方向(縦方向)の数から、行数を判定する。
そして、このようにして行数が複数と判定されたコマ画像変換結果データD10に対応するコマ画像データD7を、
図10及び
図11に示すような、複数行の文字列を含むコマ画像データD7であると判定し、行数が一行のみとされたコマ画像変換結果データD10に対応するコマ画像データD7を、
図12及び
図13に示すような、複数行の文字列を含まないコマ画像データD7であると判定する。
ここで複数行の文字列を含まないと判定されたコマ画像データD7は、ステップS2-5におけるこの後の処理から除外され、ステップS2-6に進む。
【0075】
[ステップS2-5-3:隣接コマとの行数の一致の判定]
続いて、制御部11は、複数行の文字列が含まれると判定されたコマ画像データD7につき、当該コマ画像データD7に係るコマCと、その右側に隣接するコマCとの行数が一致するか否かを判定する。
【0076】
具体的には、コマ位置情報データD8に基づき、複数行の文字列が含まれると判定されたコマ画像データD7に係るコマCの右に、これに隣接するコマC、すなわち、左に位置するコマCの右の罫線と、右に位置するコマCの左の罫線とが共通するコマCが存在するかを判定の上、存在すると判定された場合に、さらにこのような2つのコマCにつき、上端及び下端のY軸方向の位置が一致するかを判定する。
その上で、これが一致する場合に、さらに、これら2つのコマCにつき、ステップS2-5-2において判定された行数を比較し、行数が一致するかを判定する。
【0077】
[ステップS2-5-4:行分割画像の生成]
続いて、制御部11は、ステップS2-5-2において複数行の文字列が含まれると判定されたコマ画像データD7について、これを行ごとに分割し、
図15及び
図16に示すような、行毎コマ画像データD12を生成する。なお、
図15は
図10に係るコマ画像データD7の一行目を切り出したものであり、
図16は
図11に係るコマ画像データD7の一行目を切り出したものである。
また、行毎コマ画像データD12が生成されたコマCに係るコマ画像変換結果データD10については、行毎コマ画像データD12に合わせて分割され、行毎コマ画像変換結果データD13が生成される。
【0078】
なお、行毎コマ画像データD12と、行毎コマ画像変換結果データD13とは、例えば、上記のように、コマ画像データD7に係る各コマCに番号を振ると共に、行毎コマ画像データD12とこれに対応する行毎コマ画像変換結果データD13に、当該番号に加え、当該コマC内で上から何行目の行のデータであるかを記憶する等の方法によって紐付けられる。
【0079】
[(6)ステップS2-6:項目名コマの判定]
続いて、制御部11は、各コマ画像データD7又は行毎コマ画像データD12が、所定の項目名を含むかを判定する。
【0080】
まず、制御部11は、ステップS2-5-4において行毎コマ画像データD12に分割されたコマCについて、行毎コマ画像データD12が、所定の項目名を含むかを判定する。
具体的には、項目名に該当する所定の文字列についてのデータを予め記憶部12に記憶しておき、当該データに含まれる文字列と一致する文字列が行毎コマ画像変換結果データD13に含まれるかを判定し、含まれる場合に、当該行毎コマ画像変換結果データD13に対応する行毎コマ画像データD12につき、所定の項目名を含むものと判定する。
【0081】
続いて、制御部11は、ステップS2-5-4において行毎コマ画像データD12に分割されなかったコマCについて、コマ画像データD7が、所定の項目名を含むかを判定する。
この場合も同様に、項目名に該当する所定の文字列についてのデータを記憶部12に記憶しておき、当該データに含まれる文字列と一致する文字列がコマ画像変換結果データD10に含まれるかを判定し、含まれる場合に、当該コマ画像変換結果データD10に対応するコマ画像データD7につき、所定の項目名を含むものと判定する。
【0082】
本実施形態においては、抽出項目データD4のうち、日付項目データD4-1、第一支払項目データD4-5、医療・治療項目データD4-7、医療品購入項目データD4-8、介護保険サービス項目データD4-9が、項目名に該当する所定の文字列についてのデータに該当する。
なお、項目名を含むものと判定された行毎コマ画像データD12及びコマ画像データD7を、まとめて項目名コマ画像データD14という。また、項目名コマ画像データD14に対応する行毎コマ画像変換結果データD13及びコマ画像変換結果データD10を、項目名コマ画像変換結果データD15という。
【0083】
[(7)ステップS2-7:コマ画像の合成]
ステップS2-6において、項目名コマ画像データD14が抽出されると、続いて、制御部11は、コマ画像の合成を行う。
なお、合成された画像データを、コマ画像データD7同士が合成されたものか、行毎コマ画像データD12同士が合成されたものかを問わず、二コマ画像データD16という。
【0084】
[ステップS2-7-1:行毎コマ画像同士の合成]
まず、複数行の文字列を含み、かつ同一行数のコマCが左右に隣接する場合、左右のコマCの同一行目の行毎コマ画像データD12同士が合成される。
具体的には、まず、ステップS2-5-2において複数行の文字列が含まれると判定され、ステップS2-5-3において隣接するコマCと行数が一致するものと判定されたコマ画像データD7が、ステップS2-5-4において分割されて生成された行毎コマ画像データD12を抽出の上、更にその中から、ステップS2-6において、項目名コマ画像データD14に該当すると判定されたものを抽出する。
その上で、当該項目名コマ画像データD14と、ステップS2-5-3において行数が一致する隣接するコマCに係るものと判定されたコマ画像データD7が、ステップS2-5-4において分割されて生成された行毎コマ画像データD12のうち、上から数えて同一行目の行毎コマ画像データD12と、を合成する。
【0085】
図17においては、一例として、
図10に示すコマ画像データD7の上から数えて一行目に該当する行毎コマ画像データD12が項目名コマ画像データD14に該当すると判定され、その右に隣接する
図11に示すコマ画像データD7の上から数えて同一行目、すなわち一行目に該当する行毎コマ画像データD12と合成された二コマ画像データD16を図示している。
【0086】
[ステップS2-7-2:コマ画像同士の合成]
続いて、複数行の文字列を含まないコマCが上下に隣接し、かつこれらのX軸方向の幅が等しい場合、上下に隣接するコマCのコマ画像データD7同士が合成される。
具体的には、まず、ステップS2-5-2において複数行の文字列が含まれると判定されなかったコマ画像データD7を抽出の上、更にその中から、ステップS2-6において、項目名コマ画像データD14に該当すると判定されたものを抽出する。
その上で、当該項目名コマ画像データD14の下に、これと隣接するコマC、すなわち、上に位置するコマCの下の罫線と、下に位置するコマCの上の罫線とが共通するコマCが存在するかを判定の上、存在した場合に、さらにX軸方向の幅並びに左端部及び右端部のX軸方向の位置が一致するかを判定し、これらが一致する場合に、項目名コマ画像データD14に該当するコマ画像データD7と、その下に隣接するコマ画像データD7とを合成する。
【0087】
図18においては、一例として、
図12に示すコマ画像データD7が項目名コマ画像データD14に該当すると判定され、かつ、その下に隣接する
図13に示すコマ画像データD7とX軸方向の幅並びに左端部及び右端部のX軸方向の位置が一致するものと判定され、これらが合成された二コマ画像データD16を図示している。
【0088】
[(8)ステップS2-8:データの保存]
ステップS2-7まで完了すると、制御部11は、生成されたデータの保存を行う。
【0089】
具体的には、制御部11は、ステップS2-5において分割されず、かつステップS2-7において合成もされていないコマCについては、コマ画像データD7につき、これに対応するコマ画像変換結果データD10と紐付けて、記憶部12の変換データ記憶部123に記憶させる。
また、ステップS2-5において分割され、ステップS2-7において合成されていないコマCについては、行毎コマ画像データD12につき、これに対応する行毎コマ画像変換結果データD13と紐付けて、記憶部12の変換データ記憶部123に記憶させる。
また、ステップS2-5において分割され、ステップS2-7において合成されたコマCについては、二コマ画像データD16につき、これに対応する行毎コマ画像変換結果データD13と紐付けて、記憶部12の変換データ記憶部123に記憶させる。
また、ステップS2-5において分割されず、ステップS2-7において合成されたコマCについては、二コマ画像データD16につき、これに対応するコマ画像変換結果データD10と紐付けて、記憶部12の変換データ記憶部123に記憶させる。
なお、このようにして記憶された、コマ画像データD7、行毎コマ画像データD12及び二コマ画像データD16を、合わせて分割・合成後コマ画像データD17といい、これらに対応付けて記憶されたコマ画像変換結果データD10及び行毎コマ画像変換結果データD13を、分割・合成後コマ画像変換結果データD18という。
なお、分割・合成後コマ画像データD17は、いずれも、医療領収書画像データD2上での位置を判別できるように、これ対応したコマ位置情報データD8と紐付けて記憶される。また、このうち、行毎コマ画像データD12に該当するものついては、分割前のコマ画像データD7において上から何行目の行のデータであるかについてのデータも記憶される。
【0090】
また、制御部11は、枠外画像データD9についても、これに対応する枠外画像変換結果データD11と紐付けて、記憶部12の変換データ記憶部123に記憶させる。
【0091】
[3 ステップS3:クラウドワーカによるチェック]
続いて、ステップS2における変換結果のクラウドワーカ(作業者W)によるチェックがなされる。クラウドワーカ(作業者W)によるチェックの過程は、
図6に示すように、ステップS3-1からS3-5の5つのステップからなる。
なお、これらの過程も、会計支援装置1において行われるものは、制御部11によって医療領収書変換エンジン127に従って、自動的に行われる。
【0092】
[(1)ステップS3-1:作業者端末への送信]
まず、会計支援装置1の制御部11は、チェック対象となるデータの作業者端末2への送信を行う。
【0093】
具体的には、制御部11は、
図2に示すように、ステップS2-8において記憶部12の変換データ記憶部123に記憶された分割・合成後コマ画像データD17につき、これに対応した分割・合成後コマ画像変換結果データD18と共に、通信部13から、通信ネットワークNを介して、データ毎に別個の作業者端末2へと送信する。また、枠外画像データD9についても、枠外画像変換結果データD11と共に、分割・合成後コマ画像データD17が送信されたのとは別の作業者端末2へと送信する。
【0094】
[(2)ステップS3-2:作業者端末における表示]
会計支援装置1から送信された分割・合成後コマ画像データD17及びこれに対応した分割・合成後コマ画像変換結果データD18を、通信部23によって受信した作業者端末2においては、制御部21が、受信した分割・合成後コマ画像データD17及びこれに対応した分割・合成後コマ画像変換結果データD18を、記憶部22の表示画面データ記憶部221に記憶された表示画面データD6にあてはめた上で、表示部24に表示する。
具体的には、分割・合成後コマ画像データD17と、これに対応した分割・合成後コマ画像変換結果データD18とが、同一の画面上に並べて表示される。この際には、分割・合成後コマ画像変換結果データD18については、作業者Wが、操作部25を用いて修正可能に表示される。
なお二コマ画像データD16については、2つのコマに係るコマ画像データD7又は行毎コマ画像データD12と、これらに係る2つのコマ画像変換結果データD10又は行毎コマ画像変換結果データD13の計4つが同時に表示されることとなる。
【0095】
また枠外画像データD9及びこれに対応した枠外画像変換結果データD11を、通信部23によって受信した作業者端末2においては、制御部21が、受信した枠外画像データD9及びこれに対応した枠外画像変換結果データD11を、記憶部22の表示画面データ記憶部221に記憶された表示画面データD6にあてはめた上で、表示部24に表示する。
具体的には、枠外画像データD9と、これに対応した枠外画像変換結果データD11とが、同一の画面上に並べて表示される。また、この際には、枠外画像変換結果データD11については、作業者Wが、操作部25を用いて修正可能に表示される。
【0096】
なお、コマ画像、枠外画像のいずれについても、画像データと変換結果データの両者が同一の画面上に表示され、かつ変換結果データにつき作業者Wにより修正可能に表示されるものであれば、具体的な表示形式等は特に限定されない。
また、上記のように、表示画面データD6を会計支援装置1の記憶部12に記憶し、これに各データをあてはめた画面のデータを会計支援装置1において生成の上、作業者端末2へと送信するようにしてもよい。
【0097】
[(3)ステップS3-3:作業者によるチェック]
続いて、ステップS3-2において分割・合成後コマ画像データD17及びこれに対応した分割・合成後コマ画像変換結果データD18が表示された各作業者端末2を使用する作業者Wは、分割・合成後コマ画像データD17と、これに対応した分割・合成後コマ画像変換結果データD18とを対比の上、変換内容に誤変換がある箇所の分割・合成後コマ画像変換結果データD18について修正を行う。
【0098】
また、ステップS3-2において枠外画像データD9及びこれに対応した枠外画像変換結果データD11が表示された作業者端末2を使用する作業者Wは、枠外画像データD9と、これに対応した枠外画像変換結果データD11とを対比の上、変換内容に誤変換がある箇所の枠外画像変換結果データD11について修正を行う。
【0099】
なお、分割・合成後コマ画像変換結果データD18につき作業者Wによるチェック及び誤変換があった場合にその修正が行われたものを、チェック後コマ画像変換結果データD19といい、枠外画像変換結果データD11につき作業者Wによるチェック及び誤変換があった場合にその修正が行われたものを、チェック後枠外画像変換結果データD20という。
【0100】
[(4)ステップS3-4:会計支援装置への送信]
ステップS3-3において作業者Wによるチェックが行われ、チェック後コマ画像変換結果データD19又はチェック後枠外画像変換結果データD20が生成されると、各作業者端末2の制御部21は、
図2に示すように、チェック後コマ画像変換結果データD19又はチェック後枠外画像変換結果データD20を、通信部23から、通信ネットワークNを介して、会計支援装置1へと送信する。
【0101】
[(5)ステップS3-5:変換データ記憶部の更新]
会計支援装置1は、通信部13によってチェック後コマ画像変換結果データD19を受信すると、制御部11が、記憶部12の変換データ記憶部123に記憶された分割・合成後コマ画像変換結果データD18を、チェック後コマ画像変換結果データD19に更新する。
また、会計支援装置1は、通信部13によってチェック後枠外画像変換結果データD20を受信すると、制御部11が、記憶部12の変換データ記憶部123に記憶された枠外画像変換結果データD11を、チェック後枠外画像変換結果データD20に更新する。
【0102】
[4 ステップS4:医療費控除申請用データの抽出]
続いて、会計支援装置1において、変換結果からの医療費控除申請に必要なデータの抽出がなされる。医療費控除申請用データの抽出過程は、
図7に示すように、ステップS4-1からS4-10の10のステップからなり、これらのステップを経て、医療費控除申請用のデータが抽出される。
なお、これらの過程は、医療費控除申請用データ抽出エンジン128に従って、制御部11によって自動的に行われる。
【0103】
[(1)ステップS4-1:日付の抽出]
制御部11は、チェック後コマ画像変換結果データD19及びチェック後枠外画像変換結果データD20から、医療費控除申請に必要となる日付に係るデータを抽出する。具体的には以下の通りである。
【0104】
まず、制御部11は、チェック後コマ画像変換結果データD19のうち、二コマ画像データD16に対応するデータを抽出する。
続いて、制御部11は、抽出された二コマ画像データD16に対応するチェック後コマ画像変換結果データD19のうち、項目名コマ画像変換結果データD15に該当するデータを検索し、その中に、記憶部12の抽出項目データ記憶部125に記憶された抽出項目データD4に含まれる日付項目データD4-1に一致するデータ、すなわち、「診療日」又は「発行日」の文字列がある場合に、二コマ画像データD16において、当該項目名コマ画像変換結果データD15に対応する項目名コマ画像データD14に係るコマCと合成されているコマCに係るチェック後コマ画像変換結果データD19を抽出する。
【0105】
さらに、抽出されたチェック後コマ画像変換結果データD19を、抽出項目形式データ記憶部126に記憶された抽出項目形式データD5のうち日付形式データD5-1と対照の上、形式が一致する場合に、当該チェック後コマ画像変換結果データD19を、日付データD21-1として抽出する。
【0106】
この場合、例えば、「診療日」又は「発行日」と記載されたコマCと合成されたコマCの記載内容が、例えば、複数の数字が「/」で区切られた形式や、複数の数字が「年」、「月」及び/又は「日」で区切られた形式である場合に、当該記載が抽出されることとなる。
図9及び
図18の例であれば、は「発行日」と記載されたコマCの下のコマCの記載内容が、複数の数字が「年」、「月」及び「日」で区切られた形式であることから、当該コマCの記載内容である「平成30年8月24日」が抽出される。
【0107】
抽出された二コマ画像データD16に対応するチェック後コマ画像変換結果データD19のうち、項目名コマ画像変換結果データD15に該当するデータを検索しても、日付項目データD4-1に一致するデータが発見されなかった場合、制御部11は、チェック後コマ画像変換結果データD19及びチェック後枠外画像変換結果データD20の全てから、日付形式データD5-1と形式が一致する記載を検索し、発見された場合に、当該記載を、日付データD21-1として抽出する。この場合、まずチェック後コマ画像変換結果データD19から、日付形式データD5-1と形式が一致する記載を検索し、発見されなかった場合に、チェック後枠外画像変換結果データD20から日付形式データD5-1と形式が一致する記載を検索することが好ましい。
図8の例であれば、チェック後枠外画像変換結果データD20に、複数の数字が「年」、「月」及び「日」で区切られた形式の記載が存在することから、当該記載の内容である「平成30年01月17日」が抽出される。
【0108】
[(2)ステップS4-2:氏名の抽出]
制御部11は、チェック後コマ画像変換結果データD19及びチェック後枠外画像変換結果データD20から、医療費控除申請に必要となる氏名に係るデータを抽出する。具体的には以下の通りである。
【0109】
まず、制御部11は、全てのチェック後コマ画像変換結果データD19を検索し、その中に、記憶部12の抽出項目データ記憶部125に記憶された抽出項目データD4に含まれる氏名項目データD4-2に一致するデータ、すなわち、末尾に「様」という文字を含む文字列がある場合に、当該文字列の「様」の前の部分のデータを抽出する。
【0110】
さらに、抽出されたデータを、抽出項目形式データ記憶部126に記憶された抽出項目形式データD5のうち氏名形式データD5-2と対照の上、形式が一致する場合に、当該データを、氏名データD21-2として抽出する。
【0111】
この場合、例えば、末尾に「様」という文字を含む記載内容が、算用数字や記号を含まない文字列の形式である場合に、当該記載が抽出されることとなる。
図8の例であれば、「様」という文字を含むコマCにおいて、「様」の前に記載されている記載内容が、算用数字や記号を含まない文字列の形式であることから、当該コマCの「様」の前の記載内容である「A山A一」が抽出される。
また、
図9の例であれば、「様」という文字を含むコマCにおいて、「様」の前に記載されている記載内容が、算用数字や記号でない文字列の形式であることから、当該コマCの「様」の前の記載内容である「B村B子」が抽出される。
なお、例えば、氏名形式データD5-2をアルファベットも除外するように設定してもよいが、ここではアルファベットは除外されないものとして説明する。
【0112】
チェック後コマ画像変換結果データD19を検索しても、末尾に「様」という文字を含み、かつ氏名形式データD5-2と形式が一致する文字列の形式のデータが発見されなかった場合、制御部11は、チェック後枠外画像変換結果データD20から、末尾に「様」という文字を含む文字列の形式のデータを検索し、発見された場合に、さらに氏名形式データD5-2と対照の上、形式が一致する場合に、当該記載の「様」の前の部分のデータを、氏名データD21-2として抽出する。
[(3)ステップS4-3:支払先の抽出]
制御部11は、チェック後コマ画像変換結果データD19及びチェック後枠外画像変換結果データD20から、医療費控除申請に必要となる支払先に係るデータを抽出する。具体的には以下の通りである。
【0113】
まず、制御部11は、全てのチェック後コマ画像変換結果データD19及びチェック後枠外画像変換結果データD20を検索し、その中に、電話番号形式データD5-3に形式が一致する記載がある場合に当該記載を電話番号の記載として抽出する。
例えば、複数の数字が「-」で区切られた形式、複数の数字の間に「()」で括られた数字が存在する形式、又は複数の数字の間に「-」及び「()」の両者が存在する形式である場合に、当該記載が抽出されることとなる。
【0114】
さらに、制御部11は、抽出された電話番号の記載を用いて、記憶部12の抽出項目データ記憶部125に記憶された抽出項目データD4に含まれる医療機関データD4-3を検索の上、抽出された電話番号の記載と一致する電話番号が発見された場合に、当該電話番号と紐付けて記憶された医療機関名を、支払先データD21-3として抽出する。
【0115】
図8の例であれば、「(01)2345-6789」という記載が電話番号の記載として抽出された上で、医療機関データD4-3に、当該電話番号と、「A病院」という医療機関名が紐付けて記憶されていた場合に、「A病院」が抽出される。
図9の例であれば、「987-654-3210」という記載が電話番号の記載として抽出された上で、医療機関データD4-3に、当該電話番号と、「B眼科」という医療機関名が紐付けて記憶されていた場合に、「B眼科」が抽出される。
【0116】
[(4)ステップS4-4:医薬品の名称の抽出]
制御部11は、チェック後コマ画像変換結果データD19及びチェック後枠外画像変換結果データD20から、医療費控除申請に必要となる医薬品名に係るデータを抽出する。具体的には以下の通りである。
【0117】
まず、制御部11は、チェック後コマ画像変換結果データD19及びチェック後枠外画像変換結果データD20を検索し、その中から、記憶部12の抽出項目データ記憶部125に記憶された抽出項目データD4に含まれる医薬品項目データD4-4に含まれる医薬品名と一致する記載を検索の上、これが発見された場合に、使用医薬品データD21-4として抽出する。
【0118】
[(5)ステップS4-5:支払金額の抽出]
制御部11は、チェック後コマ画像変換結果データD19及びチェック後枠外画像変換結果データD20から、医療費控除申請に必要となる支払金額に係るデータを抽出する。具体的には以下の通りである。
【0119】
[ステップS4-5-1:第一支払項目データとの対照]
まず、制御部11は、チェック後コマ画像変換結果データD19のうち、二コマ画像データD16に対応するデータを抽出する。
続いて、制御部11は、抽出された二コマ画像データD16に対応するチェック後コマ画像変換結果データD19のうち、項目名コマ画像変換結果データD15に該当するデータを検索し、その中に、記憶部12の抽出項目データ記憶部125に記憶された抽出項目データD4に含まれる第一支払項目データD4-5に一致するデータ、すなわち、「領収金額」、「請求金額」又は「支払金額」の文字がある場合に、二コマ画像データD16において、当該項目名コマ画像変換結果データD15に対応する項目名コマ画像データD14に係るコマCと合成されているコマCに係るチェック後コマ画像変換結果データD19を抽出する。
【0120】
さらに、抽出されたチェック後コマ画像変換結果データD19を、抽出項目形式データ記憶部126に記憶された抽出項目形式データD5のうち支払金額形式データD5-4と対照の上、形式が一致する場合に、当該チェック後コマ画像変換結果データD19の数字部分を、支払金額データD21-5として抽出する。
【0121】
この場合、例えば、「領収金額」、「請求金額」又は「支払金額」と記載されたコマCと合成されたコマCの記載内容が、例えば、複数桁の数字を含み、かつ、数字の間が「-」、「()」又は「/」で区切られずに記載された形式である場合に、当該数字の記載が抽出されることとなる。
図9の例であれば、「領収金額」と記載されたコマCの下のコマCの記載内容及び「請求金額」と記載されたコマCの下のコマCの記載内容が、複数桁の数字が「-」、「()」又は「/」で区切られずに記載された形式の記載を含むことから、当該コマCの記載の数字部分である「200」が抽出される。
【0122】
[ステップS4-5-2:第二支払項目データとの対照]
ステップS4-5-1において支払金額データD21-5が抽出されなかった場合、続いて、制御部11は、全てのチェック後コマ画像変換結果データD19を検索し、その中に、記憶部12の抽出項目データ記憶部125に記憶された抽出項目データD4に含まれる第二支払項目データD4-6に一致するデータ、すなわち、冒頭に「¥」という文字を含む記載、末尾に「円」という文字を含む記載、又は冒頭に「計」という文字を含む記載がある場合に、当該記載の「¥」、「円」又は「計」以外の部分のデータを抽出する。なお、「¥」、「円」、「計」のうち複数を含む記載についても同様に「¥」、「円」又は「計」以外の部分を抽出する。
全てのチェック後コマ画像変換結果データD19から、第二支払項目データD4-6に一致するデータが抽出されなかった場合には、続いて、チェック後枠外画像変換結果データD20から、第二支払項目データD4-6に一致するデータを抽出する。
【0123】
さらに、抽出されたデータを、抽出項目形式データ記憶部126に記憶された抽出項目形式データD5のうち支払金額形式データD5-4と対照の上、形式が一致する場合に、当該データを、支払金額データD21-5として抽出する。
【0124】
この場合、例えば、冒頭に「¥」という文字を含む記載、末尾に「円」という文字を含む記載、又は冒頭に「計」という文字を含む記載の「¥」、「円」又は「計」以外の部分の記載内容が、例えば、複数桁の数字を含み、かつ、数字の間が「-」、「()」又は「/」で区切られずに記載された形式である場合に、当該数字の記載が抽出されることとなる。
【0125】
なお、冒頭に「¥」という文字を含む記載、末尾に「円」という文字を含む記載、又は冒頭に「計」という文字を含む記載であっても、必ずしも支払金額を表すとは限らず、抽出の精度は第一支払項目データD4-5との対照を行うステップS4-5-1と比較して劣ることとなる。
そこで、本実施形態においては、上記のように、抽出精度の高い第一支払項目データD4-5との対照を行うステップと、抽出精度は劣るものの、何らかの記載を抽出できる可能性の高い第二支払項目データD4-6との対照を行うステップとの2段階を設けることで、抽出精度と、データが抽出されない可能性の低減の両立を図っている。
【0126】
[(6)ステップS4-6:医療・治療点数の抽出]
制御部11は、チェック後コマ画像変換結果データD19から、医療費控除申請に必要となる医療・治療の点数に係るデータを抽出する。具体的には以下の通りである。
【0127】
まず、制御部11は、チェック後コマ画像変換結果データD19のうち、二コマ画像データD16に対応するデータを抽出する。
続いて、制御部11は、抽出された二コマ画像データD16に対応するチェック後コマ画像変換結果データD19のうち、項目名コマ画像変換結果データD15に該当するデータを検索し、その中に、記憶部12の抽出項目データ記憶部125に記憶された抽出項目データD4に含まれる医療・治療項目データD4-7に一致するデータ、すなわち、「診療」、「治療」、「針きゅう」、「検査費用」又は「付添人料」の文字がある場合に、二コマ画像データD16において、当該項目名コマ画像変換結果データD15に対応する項目名コマ画像データD14に係るコマCと合成されているコマCに係るチェック後コマ画像変換結果データD19を抽出する。
【0128】
さらに、抽出されたチェック後コマ画像変換結果データD19を、抽出項目形式データ記憶部126に記憶された抽出項目形式データD5のうち医療・治療点数形式データD5-5と対照の上、形式が一致する場合に、当該チェック後コマ画像変換結果データD19の数字部分を、医療・治療点数データD21-6として抽出する。
【0129】
この場合、例えば、「診療」、「治療」、「針きゅう」、「検査費用」又は「付添人料」と記載されたコマCと合成されたコマCの記載内容が、例えば、数字のみ又は数字の後に「点」が続く形式である場合に、当該数字の記載が抽出されることとなる。
図8及び
図17の例であれば、は「放射線治療」と記載された行毎コマ画像データD12の右に位置する行毎コマ画像データD12の記載内容が、数字の後に「点」が続く形式であることから、当該コマCの記載内容の数字部分である「0」が抽出される。
また、
図9の例であれば、「放射線治療」と記載されたコマ画像データD7の下に位置するコマ画像データD7の記載内容が、数字の後に「点」が続く形式であることから、当該コマCの記載内容の数字部分である「0」が抽出される。
【0130】
[(7)ステップS4-7:医療品購入点数の抽出]
制御部11は、チェック後コマ画像変換結果データD19から、医療費控除申請に必要となる医療品購入の点数に係るデータを抽出する。具体的には以下の通りである。
【0131】
まず、制御部11は、チェック後コマ画像変換結果データD19のうち、二コマ画像データD16に対応するデータを抽出する。
続いて、制御部11は、抽出された二コマ画像データD16に対応するチェック後コマ画像変換結果データD19のうち、項目名コマ画像変換結果データD15に該当するデータを検索し、その中に、記憶部12の抽出項目データ記憶部125に記憶された抽出項目データD4に含まれる医療品購入項目データD4-8に一致するデータ、すなわち、「調剤技術」、「薬学管理」、「薬剤」、「特定保健医療材料」又は「医療材料」の文字がある場合に、二コマ画像データD16において、当該項目名コマ画像変換結果データD15に対応する項目名コマ画像データD14に係るコマCと合成されているコマCに係るチェック後コマ画像変換結果データD19を抽出する。
【0132】
さらに、抽出されたチェック後コマ画像変換結果データD19を、抽出項目形式データ記憶部126に記憶された抽出項目形式データD5のうち医療品購入点数形式データD5-6と対照の上、形式が一致する場合に、当該チェック後コマ画像変換結果データD19の数字部分を、医療品購入点数データD21-7として抽出する。
【0133】
この場合、例えば、「調剤技術」、「薬学管理」、「薬剤」、「特定保健医療材料」又は「医療材料」と記載されたコマCと合成されたコマCの記載内容が、例えば、数字のみ又は数字の後に「点」が続く形式である場合に、当該数字の記載が抽出されることとなる。
【0134】
[(8)ステップS4-8:介護保険サービス点数の抽出]
制御部11は、チェック後コマ画像変換結果データD19から、医療費控除申請に必要となる介護保険サービスの点数に係るデータを抽出する。具体的には以下の通りである。
【0135】
まず、制御部11は、チェック後コマ画像変換結果データD19のうち、二コマ画像データD16に対応するデータを抽出する。
続いて、制御部11は、抽出された二コマ画像データD16に対応するチェック後コマ画像変換結果データD19のうち、項目名コマ画像変換結果データD15に該当するデータを検索し、その中に、記憶部12の抽出項目データ記憶部125に記憶された抽出項目データD4に含まれる介護保険サービス項目データD4-9に一致するデータ、すなわち、「訪問介護」、「ホームヘルプサービス」、「訪問入浴介護」、「訪問リハビリテーション」又は「デイサービス」の文字がある場合に、二コマ画像データD16において、当該項目名コマ画像変換結果データD15に対応する項目名コマ画像データD14に係るコマCと合成されているコマCに係るチェック後コマ画像変換結果データD19を抽出する。
【0136】
さらに、抽出されたチェック後コマ画像変換結果データD19を、抽出項目形式データ記憶部126に記憶された抽出項目形式データD5のうち介護保険サービス点数形式データD5-7と対照の上、形式が一致する場合に、当該チェック後コマ画像変換結果データD19の数字部分を、介護保険サービス点数データD21-8として抽出する。
【0137】
この場合、例えば、「訪問介護」、「ホームヘルプサービス」、「訪問入浴介護」、「訪問リハビリテーション」又は「デイサービス」と記載されたコマCと合成されたコマCの記載内容が、例えば、数字のみ又は数字の後に「点」が続く形式である場合に、当該数字の記載が抽出されることとなる。
【0138】
[(9)ステップS4-9:抽出データの記憶]
日付データD21-1、氏名データD21-2、支払先データD21-3、使用医薬品データD21-4、支払金額データD21-5、医療・治療点数データD21-6、医療品購入点数データD21-7、介護保険サービス点数データD21-8からなる医療費控除申請用抽出データD21が抽出されると、制御部11は、これを、記憶部12の医療費控除申請用抽出データ記憶部124に、当該データに係るユーザUのユーザデータD1と紐付けて記憶する。
【0139】
なお、抽出する医療費控除申請用抽出データD21の内容は、上記のものに限られず、医療費控除申請の制度上、申請に必要となるデータに増減が生じた場合等には、それに対応して、適宜追加又は省略することが可能である。
この際には、抽出項目データD4及び抽出項目形式データD5についても、抽出される医療費控除申請用抽出データD21に合わせて、新たな項目についてのデータの追加又は不要な項目についてのデータの削除を行うこととなる。
【0140】
[(10)ステップS4-10:変換有無データの更新]
ステップS4-9まで完了すると、制御部11は、記憶部12の変換対象データ記憶部122の、当該医療領収書画像データD2に対応する変換有無データD3を、未変換から既変換に更新する。
【0141】
[第3 効果の説明]
OCRソフトウェアを用いての証憑の記載内容の文字コードへの変換は、通常、証憑の左から右、上から下へと順次変換していくことから、文字が規則的に配置されている証憑であれば変換精度を高め易いが、記載が不規則な証憑については、変換精度を高めることが困難であった。
また、OCRソフトウェアへの入力画像は、ノイズとなる文字列以外の情報が少なく、かつ文字列が記載されている領域が画像全体に対し大きいほど精度が向上するが、複数の記載欄が不規則に配置された証憑については、一般に文字列以外の情報が多く、かつ文字列が記載されている領域が画像全体に対し小さいことから、この点からも変換精度の向上が困難であった。
【0142】
この点、本実施形態によれば、医療領収書画像データD2につき、複数のコマ画像データD7に分割した上で、コマ画像データD7毎に、OCRソフトウェア129使用して文字コードへの変換を行う。
証憑の画像データ(医療領収書画像データD2)自体は、複数の記載欄が不規則に配置されたものであっても、個々のコマC内の記載は証憑全体と比較して規則的なものとなり、また、個々のコマC内を見れば、証憑全体を見る場合と比較して、ノイズとなる文字列以外の情報が少なく、かつ文字列が記載されている領域が画像全体に対し大きい場合が多い。
したがって、本実施形態によれば、コマ画像データD7毎に文字コードへの変換を行うことで、OCRソフトウェア129による変換精度を高めることができる。
【0143】
また、本実施形態によれば、医療領収書画像データD2から、コマ画像データD7部分を除いた枠外画像データD9を作成の上、これについてもコマ画像データD7とは別個にOCRソフトウェア129使用して文字コードへの変換がなされることから、コマCの外側の領域についても、ノイズの減少等により、OCRソフトウェア129による変換精度を高めることができる。
【0144】
また、コマ画像データD7の変換結果であるコマ画像変換結果データD10を基に、所定の項目名が含まれるコマ画像データD7である項目名コマ画像データD14を抽出の上、これと隣接するコマCのコマ画像データD7とを合成して二コマ画像データD16を作成することで、証憑の記載において、所定の項目名の記載と、それに対応する記載内容との対応関係を判別し易くすることができる。
【0145】
また、コマ画像データD7の変換結果であるコマ画像変換結果データD10を基に、コマ画像データD7に含まれる文字列の行数を特定の上、コマ画像データD7に複数行の文字列が含まれる場合に、コマ画像データD7を行毎に分割した行毎コマ画像データD12を作成の上、行毎コマ画像データD12に分割されたコマCについては、行毎コマ画像データD12を基に二コマ画像データD16を作成することで、複数行の文字列が含まれるコマCについても、所定の項目名の記載と、それに対応する記載内容との対応関係を判別し易くすることができる。
【0146】
また、所定の分割、合成処理後のコマ画像のデータである分割・合成後コマ画像データD17及びこれに対応した変換結果のデータである分割・合成後コマ画像変換結果データD18を、分割・合成後コマ画像データD17毎に別個の作業者端末2へと送信し、作業者Wに確認及び修正させることで、証憑の記載内容の全体像を作業者Wに秘匿しつつ、変換精度を高めることができる。
【0147】
また、医療領収書画像データD2から抽出する必要のある所定の項目についてのデータ(抽出項目データD4)を用いて、当該データと一致する項目についてのデータを抽出することで、医療領収書画像データD2から、所定の申請等(本実施形態では医療費控除申請)に必要となるデータを抽出することが容易となる。
【0148】
この際に、項目名コマ画像データD14と、これと隣接するコマCのコマ画像データD7とを合成して二コマ画像データD16が作成されていることで、項目名コマ画像データD14に、抽出項目データD4のうち特定の項目と合致する項目名が含まれる場合に、当該項目名コマ画像データD14と合成されたコマ画像データD7に係るコマ画像変換結果データD10からデータを抽出可能となり、所定の申請等(本実施形態では医療費控除申請)に必要となるデータを抽出することがさらに容易となる。
【0149】
また二コマ画像データD16から抽出項目データD4のうち特定の項目についてのデータが抽出されなかった場合に、二コマ画像データD16が作成されていないコマCに係るコマ画像変換結果データD10を含めて、抽出項目データD4と一致する項目についてのデータを抽出することで、まず、抽出の精度が他の部分のデータと比較して高い二コマ画像データD16内からの抽出を試みつつ、二コマ画像データD16内から抽出できなかった項目に係るデータについても抽出することが可能となる。
【0150】
また、抽出項目データD4を用いて、当該データと一致する項目についてのデータを抽出する際に、さらに、抽出項目形式データD5と合致する形式のデータのみを抽出するようにすることで、明らかに形式が合致しないデータの抽出を防止でき、データの抽出精度を向上することができる。
【0151】
また、コマ画像変換結果データD10から抽出項目データD4のうち特定の項目についてのデータが抽出されなかった場合に、枠外画像データD9に係る枠外画像変換結果データD11を含めて、抽出項目データD4と一致する項目についてのデータを抽出することで、まず、抽出の精度がコマC以外の部分と比較して高いコマ画像データD7内からの抽出を試みつつ、コマ画像データD7内から抽出できなかった項目に係るデータについても抽出することが可能となる。
【0152】
[第4 変形例]
上記実施形態においては、医療領収書画像データD2の記載内容を文字コードに変換する場合について説明したが、本発明の対象となる証憑は、医療領収書に限られない。
複数の記載欄が設けられた証憑であれば、例えば給与の明細、社会保険の納付書等、医療領収書以外の証憑であっても、本発明によって、コマ画像データD7及び枠外画像データD9に分割の上、OCRソフトウェア129による変換を行うことで、その記載内容の文字コードへの変換精度を高めることができる。
【0153】
また、上記実施形態においては、医療費控除申請に必要となる項目に係るデータを抽出する場合について説明したが、証憑の記載内容の文字コードへの変換後に抽出する項目もこれには限定されず、必要となる項目が明らかとなっている申請等に必要となるデータであれば、それに合わせて抽出項目データを構成することで、医療費控除申請以外の申請等に必要となる項目に係るデータを抽出することも可能である。
【0154】
また、上記実施形態においては、クラウドワーカによるチェック(ステップS3)を含む場合について説明したが、変換の精度は低下するものの、当該過程を経ることなく、ステップS2において記憶部12の変換データ記憶部123に記憶された分割・合成後コマ画像変換結果データD18及び枠外画像変換結果データD11から、医療費控除申請用データの抽出を行うようにすることも可能である。
【符号の説明】
【0155】
100 会計支援システム
1 会計支援装置
11 制御部(コマ識別手段、コマ画像データ作成手段、変換手段、枠外画像データ作成手段、項目名コマ抽出手段、二コマ画像データ作成手段、行数特定手段、行毎コマ画像データ作成手段、データ抽出手段)
12 記憶部
127 医療領収書変換エンジン(会計支援プログラム)
128 医療費控除申請用データ抽出エンジン(会計支援プログラム)
129 OCRソフトウェア
13 通信部(取得手段、送信手段、受信手段)
2 作業者端末
D2 医療領収書画像データ(証憑画像データ)
D4 抽出項目データ
D5 抽出項目形式データ
D7 コマ画像データ
D9 枠外画像データ
D10 コマ画像変換結果データ
D11 枠外画像変換結果データ
D12 行毎コマ画像データ
D14 項目名コマ画像データ
D16 二コマ画像データ
L 罫線
C コマ
W 作業者