(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2022-11-04
(45)【発行日】2022-11-14
(54)【発明の名称】データ処理装置、データ処理方法及びプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20221107BHJP
G06Q 30/04 20120101ALI20221107BHJP
【FI】
G06T7/00 300F
G06Q30/04
(21)【出願番号】P 2022514751
(86)(22)【出願日】2022-03-04
(86)【国際出願番号】 JP2022009374
【審査請求日】2022-03-04
【早期審査対象出願】
(73)【特許権者】
【識別番号】516380407
【氏名又は名称】ファーストアカウンティング株式会社
(74)【代理人】
【識別番号】100166006
【氏名又は名称】泉 通博
(74)【代理人】
【識別番号】100154070
【氏名又は名称】久恒 京範
(74)【代理人】
【識別番号】100153280
【氏名又は名称】寺川 賢祐
(72)【発明者】
【氏名】葛 鴻鵬
(72)【発明者】
【氏名】松田 顕
(72)【発明者】
【氏名】小俣 智
(72)【発明者】
【氏名】森 啓太郎
(72)【発明者】
【氏名】早川 将和
【審査官】小池 正彦
(56)【参考文献】
【文献】特許第6712738(JP,B1)
【文献】特表2008-517371(JP,A)
【文献】特開2021-168106(JP,A)
【文献】特開2017-174309(JP,A)
【文献】国際公開第2021/205619(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06Q 30/04
(57)【特許請求の範囲】
【請求項1】
証憑の複数の発行元に関連付けて、正規証憑データに含まれる所定の文字又は画像の
位置を示す複数の判定用データを記憶する記憶部と、
証憑データを取得する取得部と、
前記取得部が取得した取得証憑データに含まれる
発行元を示す文字列又はタグに基づいて、前記証憑データの発行元を特定する特定部と、
前記特定部が特定した前記発行元に関連付けて前記記憶部に記憶された前記判定用データに含まれる前記所定の文字又は画像の
前記位置と、前記取得証憑データに含まれる前記所定の文字又は画像の
位置を比較することにより、前記取得証憑データが真正なデータであるか否かを判定する判定部と、
前記判定部の判定結果を出力する出力部と、
を備えるデータ処理装置。
【請求項2】
前記取得部は、データ構造を指定するためのマークアップ言語を含む電子インボイスを前記証憑データとして取得し、
前記判定部は、前記特定部が特定した前記発行元に関連付けて前記記憶部に記憶された前記判定用データに含まれる前記所定の文字と、前記取得証憑データに含まれる前記所定の文字とを比較することにより、前記取得証憑データが真正なデータであるか否かを判定する、
請求項
1に記載のデータ処理装置。
【請求項3】
前記判定部は、前記特定部が特定した前記発行元に関連付けて前記記憶部に記憶された前記判定用データに含まれる前記所定の文字と、前記取得証憑データに含まれる前記所定の文字との一致度を特定し、特定した当該一致度に基づいて、前記取得証憑データが真正なデータであるか否かを判定する、
請求項
2に記載のデータ処理装置。
【請求項4】
前記判定部は、前記証憑データと当該証憑データの発行元を示す情報とを入力データとし、当該証憑データが当該発行元により発行された真正なものであるか否かを示す情報を出力データとする学習済みの機械学習モデルに対し、前記取得部が取得した前記取得証憑データ及び前記特定部が特定した前記発行元を示す情報を入力し、当該機械学習モデルが出力した前記証憑データが当該発行元により発行された真正なものであるか否かを示す情報に基づいて、前記取得証憑データが真正なデータであるか否かを判定する、
請求項1に記載のデータ処理装置。
【請求項5】
真正な発行元から取得したことを示すラベルに関連付けられた前記証憑データと、偽の発行元から取得したことを示すラベルに関連付けられた前記証憑データとを含む学習データを機械学習させることにより、前記機械学習モデルを生成する生成部をさらに備える、
請求項
4に記載のデータ処理装置。
【請求項6】
前記判定結果が正しいか否かのユーザの入力を受け付ける受付部をさらに備え、
前記生成部は、前記取得証憑データが真正であるという前記判定結果が正しいことを示すユーザの入力を受け付けた場合に、対応する前記証憑データが真正であることを示すラベルに関連付けて当該証憑データを前記学習データに加えた新たな学習データを用いて機械学習することにより、前記機械学習モデルを生成する、
請求項
5に記載のデータ処理装置。
【請求項7】
証憑の複数の発行元に関連付けて、正規証憑データに含まれる所定の文字又は画像の
位置を示す複数の判定用データを記憶する記憶部と、
証憑データを取得する取得部と、
前記記憶部に記憶された複数の前記判定用データそれぞれに含まれる前記所定の文字又は画像
の前記位置と、前記取得部が取得した取得証憑データに含まれる前記所定の文字又は画像の
位置とを比較することにより、前記取得証憑データに最も類似する特徴を示す前記判定用データを特定する特定部と、
前記取得証憑データに含まれる
発行元を示す文字列又はタグに基づいて特定される発行元が、前記特定部が特定した前記判定用データに対応する前記発行元と一致するか否かを判定する判定部と、
前記判定部の判定結果を出力する出力部と、
を備えるデータ処理装置。
【請求項8】
コンピュータが実行する、
証憑データを取得するステップと、
取得した取得証憑データに含まれる
発行元を示す文字列又はタグに基づいて、前記証憑データの発行元を特定するステップと、
証憑の複数の発行元に関連付けて、正規証憑データに含まれる所定の文字又は画像の
位置を示す複数の判定用データを記憶する記憶部を参照して、特定した前記発行元に関連付けて前記記憶部に記憶された前記判定用データに含まれる前記所定の文字又は画像の
前記位置と、前記取得証憑データに含まれる前記所定の文字又は画像の
位置とを比較することにより、前記取得証憑データが真正なデータであるか否かを判定するステップと、
判定結果を出力するステップと、
を備えるデータ処理方法。
【請求項9】
コンピュータが実行する、
証憑データを取得するステップと、
証憑の複数の発行元に関連付けて、正規証憑データに含まれる所定の文字又は画像の
位置を示す複数の判定用データを記憶する記憶部を参照して、前記記憶部に記憶された複数の前記判定用データそれぞれに含まれる前記所定の文字又は画像の
前記位置と、取得した取得証憑データに含まれる前記所定の文字又は画像の
位置とを比較することにより、前記取得証憑データに最も類似する前記判定用データを特定するステップと、
前記取得証憑データに含まれる発行元を示す
文字列又はタグに基づいて特定される発行元が、特定した前記判定用データに対応する前記発行元と一致するか否かを判定するステップと、
判定結果を出力するステップと、
を備えるデータ処理方法。
【請求項10】
コンピュータに、
証憑データを取得するステップと、
取得した取得証憑データに含まれる
発行元を示す文字列又はタグに基づいて、前記証憑データの発行元を特定するステップと、
証憑の複数の発行元に関連付けて、正規証憑データに含まれる所定の文字又は画像の
位置を示す複数の判定用データを記憶する記憶部を参照して、特定した前記発行元に関連付けて前記記憶部に記憶された前記判定用データに含まれる前記所定の文字又は画像の
前記位置と、前記取得証憑データに含まれる前記所定の文字又は画像の
位置とを比較することにより、前記取得証憑データが真正なデータであるか否かを判定するステップと、
判定結果を出力するステップと、
を実行させる、プログラム。
【請求項11】
コンピュータに、
証憑データを取得するステップと、
証憑の複数の発行元に関連付けて、正規証憑データに含まれる所定の文字又は画像の
位置を示す複数の判定用データを記憶する記憶部を参照して、前記記憶部に記憶された複数の前記判定用データそれぞれに含まれる前記所定の文字又は画像の
前記位置と、取得した取得証憑データに含まれる前記所定の文字又は画像の
位置とを比較することにより、前記判定用データに最も類似する前記判定用データを特定するステップと、
前記取得証憑データに含まれる
発行元を示す文字列又はタグに基づいて特定される発行元が、特定した前記判定用データに対応する前記発行元と一致するか否かを判定するステップと、
判定結果を出力するステップと、
を実行させる、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、請求データを処理するためのデータ処理装置、データ処理方法及びプログラムに関する。
【背景技術】
【0002】
従来、証憑データ等の帳票データの発行元の真偽を判定することが行われている(例えば、特許文献1を参照)。特許文献1には、帳票データに埋め込まれた電子署名を検証することにより、帳票データの真正性を検証することが記載されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1に記載された技術では、証憑データに電子署名が埋め込まれていない場合、証憑データが真正なものであるか否かを判定することができないという問題があった。
【0005】
そこで、本発明はこれらの点に鑑みてなされたものであり、証憑データが真正なものであるか否かを判定することができる情報出力装置、情報出力方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の第1の態様に係るデータ処理装置は、証憑の複数の発行元に関連付けて、正規証憑データに含まれる所定の文字又は画像の少なくともいずれかの特徴を示す複数の判定用データを記憶する記憶部と、証憑データを取得する取得部と、前記取得部が取得した取得証憑データに含まれる文字又は画像の少なくともいずれかに基づいて、前記証憑データの発行元を特定する特定部と、前記特定部が特定した前記発行元に関連付けて前記記憶部に記憶された前記判定用データに含まれる前記所定の文字又は画像の少なくともいずれかの特徴と、前記取得証憑データに含まれる前記所定の文字又は画像の少なくともいずれかの特徴とを比較することにより、前記取得証憑データが真正なデータであるか否かを判定する判定部と、前記判定部の判定結果を出力する出力部と、を備える。
【0007】
前記判定部は、前記特定部が特定した前記発行元に関連付けて前記記憶部に記憶された前記判定用データに含まれる前記所定の文字又は画像の位置と、前記取得証憑データに含まれる前記所定の文字又は画像の位置とを比較することにより、前記取得証憑データが真正なデータであるか否かを判定してもよい。前記取得部は、データ構造を指定するためのマークアップ言語を含む電子インボイスを前記証憑データとして取得し、前記判定部は、前記特定部が特定した前記発行元に関連付けて前記記憶部に記憶された前記判定用データに含まれる前記所定の文字と、前記取得証憑データに含まれる前記所定の文字とを比較することにより、前記取得証憑データが真正なデータであるか否かを判定してもよい。
【0008】
前記判定部は、前記特定部が特定した前記発行元に関連付けて前記記憶部に記憶された前記判定用データに含まれる前記所定の文字と、前記取得証憑データに含まれる前記所定の文字との一致度を特定し、特定した当該一致度に基づいて、前記取得証憑データが真正なデータであるか否かを判定してもよい。前記判定部は、前記証憑データと当該証憑データの発行元を示す情報とを入力データとし、当該証憑データが当該発行元により発行された真正なものであるか否かを示す情報を出力データとする学習済みの機械学習モデルに対し、前記取得部が取得した前記取得証憑データ及び前記特定部が特定した前記発行元を示す情報を入力し、当該機械学習モデルが出力した前記証憑データが当該発行元により発行された真正なものであるか否かを示す情報に基づいて、前記取得証憑データが真正なデータであるか否かを判定してもよい
【0009】
前記データ処理装置は、真正な発行元から取得したことを示すラベルに関連付けられた前記証憑データと、偽の発行元から取得したことを示すラベルに関連付けられた前記証憑データとを含む学習データを機械学習させることにより、前記機械学習モデルを生成する生成部をさらに備えてもよい。前記データ処理装置は、前記判定結果が正しいか否かのユーザの入力を受け付ける受付部をさらに備え、前記生成部は、前記取得証憑データが真正であるという前記判定結果が正しいことを示すユーザの入力を受け付けた場合に、対応する前記証憑データが真正であることを示すラベルに関連付けて当該証憑データを前記学習データに加えた新たな学習データを用いて機械学習することにより、前記機械学習モデルを生成してもよい。
【0010】
本発明の第2の態様に係るデータ処理装置は、証憑の複数の発行元に関連付けて、正規証憑データに含まれる所定の文字又は画像の少なくともいずれかの特徴を示す複数の判定用データを記憶する記憶部と、証憑データを取得する取得部と、前記記憶部に記憶された複数の前記判定用データそれぞれに含まれる前記所定の文字又は画像の少なくともいずれかの特徴と、前記取得部が取得した取得証憑データに含まれる前記所定の文字又は画像の少なくともいずれかの特徴とを比較することにより、前記取得証憑データに最も類似する特徴を示す前記判定用データを特定する特定部と、前記取得証憑データに含まれる文字又は画像の少なくともいずれかに基づいて特定される発行元が、前記特定部が特定した前記判定用データに対応する前記発行元と一致するか否かを判定する判定部と、前記判定部の判定結果を出力する出力部と、を備える。
【0011】
本発明の第3の態様に係るデータ処理方法は、コンピュータが実行する、証憑データを取得するステップと、取得した取得証憑データに含まれる文字又は画像の少なくともいずれかに基づいて、前記証憑データの発行元を特定するステップと、証憑の複数の発行元に関連付けて、正規証憑データに含まれる所定の文字又は画像の少なくともいずれかの特徴を示す複数の判定用データを記憶する記憶部を参照して、特定した前記発行元に関連付けて前記記憶部に記憶された前記判定用データに含まれる前記所定の文字又は画像の少なくともいずれかの特徴と、前記取得証憑データに含まれる前記所定の文字又は画像の少なくともいずれかの特徴とを比較することにより、前記取得証憑データが真正なデータであるか否かを判定するステップと、判定結果を出力するステップと、を備える。
【0012】
本発明の第4の態様に係るデータ処理方法は、コンピュータが実行する、証憑データを取得するステップと、証憑の複数の発行元に関連付けて、正規証憑データに含まれる所定の文字又は画像の少なくともいずれかの特徴を示す複数の判定用データを記憶する記憶部を参照して、前記記憶部に記憶された複数の前記判定用データそれぞれに含まれる前記所定の文字又は画像の少なくともいずれかの特徴と、取得した取得証憑データに含まれる前記所定の文字又は画像の少なくともいずれかの特徴とを比較することにより、前記取得証憑データに最も類似する前記判定用データを特定するステップと、前記取得証憑データに含まれる文字又は画像の少なくともいずれかに基づいて特定される発行元が、特定した前記判定用データに対応する前記発行元と一致するか否かを判定するステップと、判定結果を出力するステップと、を備える。
【0013】
本発明の第5の態様に係るプログラムは、コンピュータに、証憑データを取得するステップと、取得した取得証憑データに含まれる文字又は画像の少なくともいずれかに基づいて、前記証憑データの発行元を特定するステップと、証憑の複数の発行元に関連付けて、正規証憑データに含まれる所定の文字又は画像の少なくともいずれかの特徴を示す複数の判定用データを記憶する記憶部を参照して、特定した前記発行元に関連付けて前記記憶部に記憶された前記判定用データに含まれる前記所定の文字又は画像の少なくともいずれかの特徴と、前記取得証憑データに含まれる前記所定の文字又は画像の少なくともいずれかの特徴とを比較することにより、前記取得証憑データが真正なデータであるか否かを判定するステップと、判定結果を出力するステップと、を実行させる。
【0014】
本発明の第6の態様に係るプログラムは、コンピュータに、証憑データを取得するステップと、証憑の複数の発行元に関連付けて、正規証憑データに含まれる所定の文字又は画像の少なくともいずれかの特徴を示す複数の判定用データを記憶する記憶部を参照して、前記記憶部に記憶された複数の前記判定用データそれぞれに含まれる前記所定の文字又は画像の少なくともいずれかの特徴と、取得した取得証憑データに含まれる前記所定の文字又は画像の少なくともいずれかの特徴とを比較することにより、前記判定用データに最も類似する前記判定用データを特定するステップと、前記取得証憑データに含まれる文字又は画像の少なくともいずれかに基づいて特定される発行元が、特定した前記判定用データに対応する前記発行元と一致するか否かを判定するステップと、判定結果を出力するステップと、を実行させる。
【発明の効果】
【0015】
本発明によれば、証憑データが真正なものであるか否かを判定するという効果を奏する。
【図面の簡単な説明】
【0016】
【
図1】第1の実施形態に係るデータ処理システムの概要を説明するための図である。
【
図7】データ処理装置による証憑データの発行元の真偽判定の処理手順を示すフローチャートである。
【
図8】変形例のデータ処理装置2による証憑データの真偽判定の処理手順を示すフローチャートである。こ
【
図9】第2の実施形態のデータ処理装置の構成を示す。
【
図10】データ処理装置による証憑データの発行元の真偽判定の処理手順を示すフローチャートである。
【発明を実施するための形態】
【0017】
[データ処理システムSの概要]
図1は、第1の実施形態に係るデータ処理システムSの概要を説明するための図である。データ処理システムSは、外部装置1、データ処理装置2及び担当者端末3を備える。データ処理システムSは、複数の担当者端末3を備えてもよい。
【0018】
外部装置1は、例えば、取引先等の事業者の施設に設置されたコンピュータ、データ処理装置2を使用する事業者の従業員のコンピュータ、又は電子インボイスが送受信されるネットワークのアクセスポイントである。外部装置1は、ネットワークを介して、データ処理装置2と通信する。外部装置1は、請求書データ等の証憑データをデータ処理装置2へ送信する。証憑データは、例えば、請求書データ、領収書データである。証憑データは、電子インボイスであってもよく、PDF(Portable Document Format)データ等の電子データであってもよい。証憑データは、紙の請求書をOCR(Optical Character Recognition)で読み取ったものであってもよい。担当者端末3が外部装置1として機能してもよい。
【0019】
担当者端末3は、例えば、データ処理装置2を使用する経理部門の担当者が使用するコンピュータである。担当者端末3は、ネットワークを介してデータ処理装置2と通信する。なお、担当者端末3は、ネットワークを介して外部装置1との間でデータを送受信してもよい。
【0020】
データ処理装置2は、ネットワークNを介して、外部装置1及び担当者端末3と通信する。データ処理装置2は、例えば事業者のローカルネットワークに接続されたサーバであるが、クラウドサーバであってもよい。データ処理装置2は、外部装置1から証憑データ(以下、「取得証憑データ」ともいう)を取得する(
図1中の(1)))。データ処理装置2は、担当者端末3が外部装置1から証憑データを受信した場合には、担当者端末3からこの証憑データを取得してもよい。
【0021】
データ処理装置2は、取得した取得証憑データに含まれる会社を示す文字又は画像等(以下、「文字等」という)に基づいて、取得証憑データの発行元を特定する(
図1中の(2))。データ処理装置2は、証憑の複数の発行元に関連付けて、正規証憑データに含まれる所定の文字等の特徴を示す複数の判定用データを含む判定用データテーブルを記憶している。データ処理装置2は、記憶している判定用データテーブルを参照して、特定した発行元に関連付けて記憶されている判定用データを特定する。
【0022】
データ処理装置2は、特定した判定用データに含まれる所定の文字等の特徴と、取得証憑データに含まれる対応する所定の文字等の特徴とを比較することにより、取得証憑データ発行元が真正であるか否かを判定する(
図1中の(3))。データ処理装置2は、取得証憑データが真正であるか否かの判定結果を担当者端末3へ出力する(
図1中の(4))。
【0023】
このようにして、データ処理装置2は、取得証憑データに含まれる文字又は画像の少なくともいずれかの特徴に基づいて、請求データが真正であるか否かの判定結果を出力するので、発行元を偽った証憑データを受信した場合に、ユーザが詐欺の被害にあうことを抑制することができる。
【0024】
[データ処理装置2の構成]
図2は、データ処理装置2の構成を示す。データ処理装置2は、通信部21、記憶部22及び制御部23を備える。制御部23は、取得部231、特定部232、判定部233及び出力部234を備える。
【0025】
通信部21は、担当者端末3と通信するためのインターフェースである。記憶部22は、例えばROM(Read Only Memory)、RAM(Random Access Memory)及びハードディスク等の記憶媒体を有する。記憶部22は、制御部23が実行するプログラムを記憶する。記憶部22には、証憑データの発行元と、証憑データの発行元を示すロゴ等の画像とを関連付けた発行元情報が記憶されている。
【0026】
記憶部22には、証憑の複数の発行元を示す情報と、正規証憑データに含まれる所定の文字又は画像の少なくともいずれかの特徴を示す複数の判定用データとが関連付けられた判定用データテーブルが記憶されている。正規証憑データは、正規の発行元が発行したことが予め分かっている証憑データである。判定用データは、例えば、発行元を示す文字列の位置を、正規証憑データに含まれる所定の文字又は画像の特徴として示す。発行元を示す文字列の位置は、一例としては発行元を示す文字列の位置の紙面の左端からの距離と、発行元を示す文字列の位置の紙面の上端からの距離とを含み、ミリメートル単位で表現される。
【0027】
図3は、判定用データテーブルの一例を示す。
図4は、取得証憑データの特徴抽出の例を示す。
図3に示す判定用データテーブルでは、正規証憑データの発行元と、正規証憑データに含まれる発行元名の位置の紙面左端からの距離を示す第1判定用データと、正規証憑データに含まれる発行元名の位置の紙面上端からの距離を示す第2判定用データとが関連付けられている。
【0028】
発行元名の位置の紙面左端からの距離は、例えば
図4に示すD1である。
図4に示す例においては、発行元名を示す文字列の左端を発行元名の位置としているが、発行元名の位置は発行元名を示す文字列の右端であってもよく、文字列の中央であってもよい。同様に、発行元名の位置の紙面上端からの距離は、例えば
図4に示すD2である。
図4に示す例においては、発行元名を示す文字列の上端を発行元名の位置としているが、発行元名の位置は発行元名を示す文字列の下端であってもよく、文字列の中央であってもよい。
【0029】
図3の上から1段目の例では、発行元「AB商事」が発行した正規証憑データにおいて発行元名を示す文字列の紙面左端からの距離は、201ミリメートルであり、発行元名を示す文字列の位置の紙面上端からの距離は、60ミリメートルであることを示す。
図3の上から2段目の例では、発行元「CD製造所」が発行した正規証憑データにおいて発行元名を示す文字列の位置の紙面左端からの距離は、170ミリメートルであり、発行元名を示す文字列の位置の紙面上端からの距離は、30ミリメートルであることを示す。
【0030】
図4は、証憑データの特徴の抽出の例を示す。
図4中には、発行元名の会社名「AB商事」を破線の枠線で示す。
図4の例では、取得証憑データに含まれる発行元の会社名を示す文字列「AB商事」の位置の紙面左端からの距離D1は、後述する判定部233により特徴として抽出される。取得証憑データに含まれる発行元を示す文字列「AB商事」の位置の紙面上端からの距離D2は、判定部233により特徴として抽出される。
【0031】
図5は、判定用データの別の一例を示す。
図6は、証憑データの特徴抽出の別の一例を示す。
図5に示す判定用データでは、正規証憑データの発行元と、正規証憑データに含まれる発行元を示すロゴ画像の位置の紙面左端からの距離を示す第1判定用データと、正規証憑データに含まれる発行元を示すロゴ画像の位置の紙面上端からの距離を示す第2判定用データとが関連付けられている。
【0032】
発行元を示すロゴ画像の位置の紙面左端からの距離は、例えば
図6に示すD1’である。
図6に示す例においては、発行元を示すロゴ画像の左端をロゴ画像の位置としているが、発行元を示すロゴ画像の位置は発行元を示すロゴ画像右端であってもよく、ロゴ画像の中央であってもよい。同様に、ロゴ画像の位置の紙面上端からの距離は、例えば
図6に示すD2’である。
図6に示す例においては、発行元を示すロゴ画像の上端をロゴ画像の位置としているが、ロゴ画像の位置は発行元を示すロゴ画像の下端であってもよく、ロゴ画像の中央であってもよい。
【0033】
図5の上から1段目の例では、発行元「AB商事」が発行した正規証憑データにおいて発行元を示すロゴ画像の位置の紙面左端からの距離は、20ミリメートルであり、発行元を示すロゴ画像の紙面上端からの距離は、16ミリメートルであることを示す。
図5の上から2段目の例では、発行元「CD製造所」が発行した正規証憑データにおいて発行名を示すロゴ画像の位置の紙面左端からの距離は、17ミリメートルであり、発行元を示すロゴ画像の紙面上端からの距離は、30ミリメートルであることを示す。
【0034】
図6は、取得証憑データの特徴の抽出の別の例を示す。
図6の例に示すように、取得証憑データに含まれる発行元「AB商事」の「AB」をかたどったロゴ画像の位置の紙面左端からの距離D1’は、後述する判定部233により特徴として抽出される。取得証憑データに含まれる発行元「AB商事」の「AB」をかたどったロゴ画像の位置の紙面上端からの距離D2’は、判定部233により特徴として抽出される。
【0035】
図2の制御部23は、例えばCPU(Central Processing Unit)である。制御部23は、記憶部22に記憶されたプログラムを実行することにより、取得部231、特定部232、判定部233及び出力部234として機能する。
【0036】
取得部231は、通信部21を介して、外部装置1又は担当者端末3と通信する。取得部231は、外部装置1を介して証憑データを取得する。取得部231は、データ構造を指定するためのマークアップ言語を含む電子インボイスを証憑データとして取得してもよい。例えば、取得部231は、XML形式で記述された電子インボイスを証憑データとして取得してもよい。取得部231は、担当者端末3が外部装置1から証憑データを受信した場合には、担当者端末3から証憑データを取得してもよい。取得部231は、取得した証憑データを特定部232へ出力する。
【0037】
[発行元の特定]
特定部232は、取得部231が取得した取得証憑データに含まれる文字又は画像の少なくともいずれかに基づいて、証憑データの発行元を特定する。例えば、特定部232は、取得証憑データに含まれる企業名のうち、宛先を示す「御中」等のキーワードが付されていない企業名を証憑データの発行元として特定する。特定部232は、証憑データが電子インボイスである場合には、発行元であることを示すタグが付された文字列を発行元名として特定する。
【0038】
特定部232は、証憑データの発行元を示すロゴ画像に基づいて、証憑データの発行元を特定してもよい。まず、特定部232は、証憑データの発行元と、証憑データの発行元を示すロゴ画像とを関連付けた発行元情報を記憶部22から読み出す。特定部232は、読み出した発行元情報を参照して、取得証憑データに含まれるロゴ画像との類似度が閾値以上のロゴ画像に発行元情報において関連付けて記憶されている発行元を特定してもよい。閾値は、例えば、取得証憑データに含まれる企業名に基づいて証憑データの発行元を特定する場合と同等の精度で発行元を特定するために必要な値として定められた値である。特定部232は、特定した発行元を示す情報を判定部233へ出力する。
【0039】
[取得証憑データの発行元の真偽判定]
判定部233は、取得証憑データが真正であるか否かを判定する。まず、判定部233は、取得証憑データに含まれる所定の文字又は画像の少なくともいずれかの特徴を抽出する。例えば、判定部233は、取得証憑データに含まれる所定の文字又は画像の位置、サイズ又は書体等を特徴として抽出する。
【0040】
判定部233は、記憶部22に記憶されている判定用データテーブルを参照して、特定部232が特定した発行元に関連付けて記憶されている判定用データを特定する。この判定データには、正規証憑データから抽出された所定の文字又は画像の位置、サイズ又は書体等の特徴が含まれている。判定部233は、取得証憑データから抽出した所定の文字又は画像の位置、サイズ又は書体等の特徴と、特定した判定用データに含まれる対応する特徴とを比較することにより、取得証憑データが真正なデータであるか否かを判定する。
【0041】
図4の例では、判定部233は、上述のように、取得証憑データに含まれる発行元の会社名を示す文字列「AB商事」の位置の紙面左端からの距離D1を特徴として抽出する。判定部233は、取得証憑データに含まれる発行元を示す文字列「AB商事」の位置の紙面上端からの距離D2を特徴として抽出する。
【0042】
判定部233は、記憶部22に記憶されている判定用データテーブル(
図3参照)を参照して、特定部232が特定した発行元「AB商事」に関連付けて記憶されている第1判定用データが示す正規証憑データに含まれる発行元名の位置の紙面左端からの距離が201ミリメートルであることを特定する。
【0043】
判定部233は、記憶部22に記憶されている判定用データテーブルを参照して、特定部232が特定した発行元「AB商事」に関連付けて記憶されている第2判定用データが示す正規証憑データに含まれる発行元名の位置の紙面上端からの距離が160ミリメートルであることを特定する。判定部233は、抽出した距離D1と、特定した第1判定用データが示す距離(201ミリメートル)との差が閾値以下であるか否かを判定する。判定部233は、抽出した距離D2と、特定した第2判定用データが示す距離(160ミリメートル)との差が閾値以下であるか否かを判定する。
【0044】
判定部233は、抽出した距離D1と、特定した第1判定用データが示す距離との差が閾値以下であり、且つ、抽出した距離D2と、特定した第2判定用データが示す距離との差が閾値以下である場合に、取得証憑データが発行元「AB商事」により発行された真正の証憑データであると判定する。一方、判定部233は、抽出した距離D1と、特定した第1判定用データが示す距離との差が閾値を超える場合、又は、抽出した距離D2と、特定した第2判定用データが示す距離との差が閾値を超える場合に、取得証憑データが発行元「AB商事」により発行された真正の証憑データではないと判定する。
【0045】
図6の例に示すように、判定部233は、上述のとおり、取得証憑データに含まれる発行元「AB商事」の「AB」をかたどったロゴ画像の位置の紙面左端からの距離D1’を特徴として抽出してもよい。判定部233は、取得証憑データに含まれる発行元「AB商事」の「AB」をかたどったロゴ画像の位置の紙面上端からの距離D2’を特徴として抽出してもよい。判定部233が抽出したロゴ画像の位置の紙面左端及び上端からの距離D1’及び距離D2’を利用して取得証憑データの発行元の真偽を判定する方法については、発行元名の位置の紙面の左端及び上端からの距離D1及び距離D2を利用して取得証憑データの発行元の真偽を判定する方法と同様であるため、説明を省略する。
【0046】
また、判定部233は、取得証憑データに含まれる発行元を示す文字列の位置に基づいて、発行元の真偽を判定する例に限定されない。判定部233は、振込先口座名を示す文字列のように、発行元と一対一に対応する文字列の位置に基づいて、発行元の真偽を判定してもよい。
【0047】
[電子インボイスの発行元の真偽判定]
判定部233は、取得部231が取得した証憑データが電子インボイスである場合には、特定部232が特定した発行元に関連付けて記憶部22に記憶された判定用データに含まれる所定の文字と、取得証憑データに含まれる所定の文字とを比較することにより、取得証憑データが真正なデータであるか否かを判定する。
【0048】
まず、判定部233は、取得証憑データにおいて発行元を示す文字列又はロゴ画像に対応するタグ情報又はレイアウト情報を示すXMLテキストを抽出する。判定部233は、取得証憑データにおいて振込先口座を示す文字列に対応するタグ情報又はレイアウト情報を示すXMLテキストを抽出してもよい。
【0049】
判定部233は、記憶部22に記憶されている判定用データテーブルを参照して、特定部232が特定した発行元に関連付けて記憶されている判定用データを特定する。この判定用データには、発行元を示す文字列又はロゴ画像に対応するタグ情報又はレイアウト情報を示すXMLテキストが所定の文字の特徴として含まれている。判定部233は、特定した判定用データに含まれるタグ情報又はレイアウト情報を示すXMLテキストと、抽出したタグ情報又はレイアウト情報を示すXMLテキストとを比較することにより、取得証憑データの発行元が真正であるか否かを判定する。
【0050】
より詳しくは、判定部233は、特定した判定用データに含まれるタグ情報等を示すXMLテキストと、抽出したタグ情報等を示すXMLテキストとが一致する場合に、取得証憑データの発行元が真正であると判定する。判定部233は、特定した判定用データに含まれるタグ情報等を示すXMLテキストと、抽出した対応するタグ情報等を示すXMLテキストとが一致しない場合に、取得証憑データの発行元が真正ではないと判定する。
【0051】
判定部233は、特定部232が特定した発行元に関連付けて記憶部22に記憶された判定用データに含まれる所定の文字と、取得証憑データに含まれる所定の文字との一致度を特定する。判定部233は、特定した一致度に基づいて、取得証憑データが真正な証憑データであるか否かを判定してもよい。
【0052】
例えば、判定部233は、取得証憑データにおいて発行元を示す文字列に対応する複数のタグ情報又はレイアウト情報を示す文字列を所定の文字として抽出した場合には、取得証憑データから抽出した複数のタグ情報又はレイアウト情報を示す文字列のうち、特定した判定用データに含まれる複数のタグ情報又はレイアウト情報を示す文字列のいずれかと一致する文字列の割合を一致度として特定する。判定部233は、特定した一致度が閾値以上である場合に、取得証憑データが真正な証憑データであると判定してもよい。判定部233は、特定した一致度が閾値未満である場合に、取得証憑データが真正な証憑データでないと判定してもよい。閾値は、例えば、ユーザにより指定される。
【0053】
[判定結果の出力]
出力部234は、通信部21を介して、担当者端末3と通信する。出力部234は、取得証憑データの発行元が真正であるか否かの判定部233の判定結果を出力する。例えば、出力部234は、特定部232が特定した発行元と、判定部233の判定結果を担当者端末3のディスプレイに表示させる。
【0054】
[データ処理装置2による証憑データの真偽判定の処理手順]
図7は、データ処理装置2による証憑データの発行元の真偽判定の処理手順を示すフローチャートである。この処理手順は、例えば、取得部231が外部装置1から証憑データを取得したときに開始する。まず、取得部231は、取得した証憑データが電子インボイスであるか否かを判定する(S101)。特定部232は、取得した証憑データが電子インボイスではないと取得部231が判定した場合に(S101のNO)、取得部231が取得した取得証憑データに含まれる文字に基づいて、取得証憑データの発行元を特定する(S102)。
【0055】
判定部233は、取得証憑データに含まれる所定の文字の位置を特徴として抽出する。判定部233は、記憶部22に記憶されている判定用データテーブルを参照して、特定部232が特定した発行元に関連付けて記憶されている判定用データを特定する。判定部233は、取得証憑データから抽出した所定の文字の位置と、特定した判定用データに含まれる所定の文字の位置とのずれが閾値以下であるか否かを判定する(S103)。
【0056】
判定部233は、取得証憑データから抽出した所定の文字の位置と、特定した判定用データに含まれる所定の文字の位置とのずれが閾値以下である場合に(S103のYES)、取得証憑データの発行元が真正であると判定する(S104)。出力部234は、判定部233の判定結果を担当者端末3へ出力し(S105)、処理を終了する。
【0057】
取得部231は、S101の判定において取得証憑データが電子インボイスであると判定した場合に(S101のYES)、取得証憑データに含まれるXMLテキストを取得する(S106)。特定部232は、取得したXMLテキストに基づいて、取得証憑データの発行元を特定する(S107)。判定部233は、取得証憑データにおいて発行元を示す文字列に対応するタグ情報又はレイアウト情報を示すXMLテキストを所定の文字の特徴として抽出する。
【0058】
判定部233は、記憶部22に記憶されている判定用データテーブルを参照して、特定部232が特定した発行元に関連付けて記憶されている判定用データを特定する。判定部233は、特定した判定用データに含まれるタグ情報又はレイアウト情報を示す文字列と、抽出したタグ情報又はレイアウト情報を示す文字列とが一致するか否かを判定する(S108)。判定部233は、特定した判定用データに含まれるタグ情報又はレイアウト情報を示す文字列と、抽出したタグ情報又はレイアウト情報を示す文字列とが一致しない場合に(S108のNO)、取得証憑データの発行元は真正ではないと判定し(S109)、S105の処理に進む。
【0059】
判定部233は、S103の判定において取得証憑データから抽出した所定の文字の位置と、特定した判定用データに含まれる所定の文字の位置とのずれが閾値より大きい場合に(S103のNO)、取得証憑データの発行元は真正ではないと判定し(S109)、S105の処理に進む。判定部233は、S108の判定において、特定した判定用データに含まれるタグ情報等と、抽出したタグ情報等とが一致する場合に(S108のYES)、取得証憑データの発行元は真正であると判定し(S110)、S105の処理に進む。
【0060】
[第1の実施形態のデータ処理装置2による効果]
第1の実施形態のデータ処理装置2では、出力部234は、取得証憑データに含まれる文字又は画像の少なくともいずれかの特徴に基づいて、請求データの発行元が真正であるか否かの判定結果を出力する。このため、出力部234は、発行元を偽った証憑データを取得部231が取得した場合に、証憑データを受け取った事業者が詐欺の被害にあうことを抑制することができる。
【0061】
<変形例>
第1の実施形態では、特定部232が証憑データの発行元を特定した後に、特定した証憑データの発行元が真正であるか否かを判定部233が判定する場合の例について説明したが、本発明はこれに限定されない。例えば、特定部232は、取得証憑データから抽出した特徴と最も類似する特徴を有する正規証憑データを特定し、特定した正規証憑データの発行元を取得証憑データの発行元として特定してもよい。
【0062】
本変形例の特定部232は、第1の実施形態と同様に、取得部231が取得した取得証憑データに含まれる所定の文字又は画像の少なくともいずれかの特徴を抽出する。特定部232は、記憶部22に記憶されている判定用データテーブルを参照して、記憶部22の判定用データテーブルに記憶された複数の判定用データそれぞれに含まれる所定の文字又は画像の少なくともいずれかの特徴と、取得証憑データから抽出した特徴とを比較することにより、取得証憑データに最も類似する特徴を示す判定用データを特定する。
【0063】
特定部232は、記憶部22に記憶されている判定用データテーブルを参照して、取得証憑データに最も類似する特徴を含む判定用データに対応する第1発行元を特定する。特定部232は、第1の実施形態と同様に、取得証憑データに含まれる発行元名等の文字列又は画像の少なくともいずれかに基づいて、取得証憑データの第2発行元を特定する。
【0064】
判定部233は、特定部232が特定した第1発行元と、第2発行元とが一致するか否かを判定する。判定部233は、第1発行元と第2発行元とが一致する場合に、取得証憑データの発行元が真正であると判定する。判定部233は、第1発行元と第2発行元とが一致しない場合に、取得証憑データの発行元が真正ではないと判定する。
【0065】
図8は、本変形例のデータ処理装置2による証憑データの真偽判定の処理手順を示すフローチャートである。この処理手順は、例えば、取得部231が外部装置1から取得証憑データを取得したときに開始する。まず、取得部231は、取得した証憑データが電子インボイスか否かを判定する(S201)。特定部232は、取得した証憑データが電子インボイスではないと取得部231が判定した場合に(S201のNO)、取得部231が取得した取得証憑データに含まれる所定の文字の位置を特徴として抽出する。
【0066】
特定部232は、記憶部22に記憶された複数の判定用データそれぞれに含まれる所定の文字の位置と、取得証憑データから抽出した所定の文字の位置とを比較することにより、取得証憑データに最も類似する所定の文字の位置を示す判定用データを特定する(S202)。特定部232は、記憶部22に記憶されている判定用データテーブルを参照して、取得証憑データに最も類似する特徴を含む判定用データに関連付けて記憶されている第1発行元を特定する。
【0067】
特定部232は、第1の実施形態と同様に、取得証憑データに含まれる文字又は画像の少なくともいずれかに基づいて、取得証憑データの第2発行元を特定する。判定部233は、特定部232が特定した第2発行元が、判定用データに関連付けて記憶されている第1発行元と一致するか否かを判定する(S203)。判定部233は、特定部232が特定した第2発行元が第1発行元と一致する場合に(S203のYES)、取得証憑データの発行元が真正であると判定する(S204)。出力部234は、判定部233の判定結果を担当者端末3へ出力し(S205)、処理を終了する。
【0068】
取得部231は、S201の判定において取得した証憑データが電子インボイスであると取得部231が判定した場合(S201のYES)、取得証憑データに含まれるXMLテキストを取得する(S206)。特定部232は、取得証憑データにおいて発行元を示す文字列に対応する複数のタグ情報又はレイアウト情報を示すXMLテキストを所定の文字の特徴として抽出する。特定部232は、記憶部22の判定用データテーブルに記憶されている複数の判定用データのうち、特定部232が特定したタグ情報又はレイアウト情報との一致度が最も高いタグ情報等を示す判定用データを特定する(S207)。
【0069】
特定部232は、記憶部22に記憶されている判定用データテーブルを参照して、一致度が最も高いタグ情報等を示す判定用データに関連付けて記憶されている第1発行元を特定する。特定部232は、第1の実施形態と同様にして、取得証憑データから取得したXMLテキストに基づいて、取得証憑データの第2発行元を特定し、S203の判定に進む。
【0070】
判定部233は、S203の判定において特定部232が特定した第2発行元が第1発行元と一致しない場合に(S203のNO)、取得証憑データの発行元が真正ではないと判定し(S208)、S205の処理に進む。
【0071】
<第2の実施形態>
第2の実施形態では、学習済みの機械学習モデルを用いて、取得証憑データの真偽を判定する場合の例について説明する。
図9は、第2の実施形態のデータ処理装置300の構成を示す。第2の実施形態のデータ処理装置300では、制御部23が判定部301、生成部302及び受付部303を備える点を除いて、
図4と同様である。
図4と同様の機能ブロックについては
図4と同じ符号を付して説明を省略する。
【0072】
判定部301は、証憑データとこの証憑データの発行元を示す情報とを入力データとし、証憑データが発行元により発行された真正なものであるか否かを示す情報を出力データとする学習済みの機械学習モデルを用いて、取得証憑データが真正なものであるか否かを判定する。証憑データは、電子インボイスであってもよい。まず、判定部301は、この学習済みの機械学習モデルを記憶部22から読み出す。判定部301は、読み出した機械学習モデルに対し、取得部231が取得した取得証憑データ及び特定部232が特定した発行元を示す情報を入力し、取得証憑データがこの発行元により発行された真正なものであるか否かを示す機械学習モデルが出力した情報を取得する。判定部301は、この機械学習モデルが出力した情報に基づいて、取得証憑データが真正なデータであるか否かを判定する。
【0073】
[機械学習モデルの学習時の処理手順]
以下、記憶部22に記憶されている機械学習モデルの学習時の処理について説明する。生成部302は、証憑データとこの証憑データの発行元を示す情報とを入力データとし、証憑データが発行元により発行された真正なものであるか否かを示す情報を出力データとする機械学習モデルを生成する。生成部302は、真正な発行元から取得したことを示すラベルに関連付けられた証憑データと、偽の発行元から取得したことを示すラベルに関連付けられた証憑データとを含む学習データを機械学習することにより、機械学習モデルを生成する。
【0074】
偽の発行元から取得したラベルに関連付けられた証憑データとしては、例えば、証憑データに含まれる発行元名、発行元を示すロゴ画像又は振込先口座名の位置が、真正な発行元から取得したことを示すラベルに関連付けられた証憑データの発行元名等の位置とは閾値以上ずれている複数の証憑データを用いる。閾値は、例えば、学習済みの機械学習モデルによる証憑データの発行元の真偽判定に要求される精度に応じて当分野の専門家が定める。
【0075】
偽の発行元から取得したラベルに関連付けられた証憑データとしては、この証憑データに含まれる発行元名等のサイズ又は書体が、真正な発行元から取得したことを示すラベルに関連付けられた証憑データの発行元名のサイズ又は書体と異なる複数の証憑データを用いてもよい。証憑データは、電子インボイスであってもよい。
【0076】
また、第2の実施形態のデータ処理装置は、判定部301において取得証憑データが真正なデータであるか否かを判定した後、判定部301による取得証憑データの発行元が真正であるか否かを示す判定結果が正しいか否かのユーザの入力を受け付ける受付部303を備えてもよい。生成部302は、判定部301による発行元が真正であるか否かを示す情報が正しいことを示すユーザの入力を受付部303が受け付けた場合に、判定部301による判定結果に対応する新たな学習データを作成する。
【0077】
生成部302は、証憑データが真正であるという判定部301による判定結果が正しいことを示すユーザの入力を受付部303が受け付けた場合に、判定部301が判定した対象の取得証憑データが真正であることを示すラベルに関連付けて当該取得証憑データを学習データに加える。生成部302は、証憑データが真正でないという判定部301による判定結果が正しいことを示すユーザの入力を受付部303が受け付けた場合に、判定部301が判定した対象の取得証憑データが真正でないことを示すラベルに関連付けて当該取得証憑データを学習データに加える。
【0078】
生成部302は、証憑データが真正であるという判定部301の判定結果が正しくないことを示すユーザの入力を受け付けた場合に、判定部301が判定した対象の取得証憑データが真正でないことを示すラベルに関連付けて当該取得証憑データを学習データに加える。生成部302は、証憑データが真正でないという判定部301による判定結果が正しくないことを示すユーザの入力を受付部303が受け付けた場合に、判定部301が判定した対象の取得証憑データが真正であることを示すラベルに関連付けて当該取得証憑データを学習データに加える。
【0079】
生成部302は、このようにしてユーザにより真正であるか否かが判断された証憑データを加えた後の新たな学習データを機械学習させることにより、機械学習モデルを生成してもよい。このようにして、生成部302は、学習済みの機械学習モデルによる証憑データの発行元の真偽判定の精度をより向上させることができる。生成部302は、生成した学習済みの機械学習モデルを記憶部22に記憶させる。
【0080】
[データ処理装置300による証憑データの真偽判定の処理手順]
図10は、データ処理装置300による証憑データの発行元の真偽判定の処理手順を示すフローチャートである。この処理手順は、例えば、データ処理装置300が外部装置1と通信している状態において開始する。まず、取得部231は、外部装置1から証憑データを取得する(S301)。特定部232は、取得証憑データの発行元を特定する(S302)。特定部232は、取得証憑データが電子インボイスである場合には、取得証憑データに含まれるXMLテキストに基づいて、取得証憑データの発行元を特定する。
【0081】
判定部233は、証憑データとこの証憑データの発行元を示す情報とを入力データとし、証憑データが発行元により発行された真正なものであるか否かを示す情報を出力データとする学習済みの機械学習モデルを記憶部22から読み出す。判定部233は、読み出した機械学習モデルに対し、取得部231が取得した取得証憑データ及び特定部232が特定した発行元を示す情報を入力し(S303)、取得証憑データがこの発行元により発行された真正なものであるか否かを示す機械学習モデルが出力した情報を取得する。判定部301は、この機械学習モデルが出力した情報に基づいて、取得証憑データが真正なデータであるか否かを判定する(S304)。出力部234は、取得証憑データが真正なデータであるか否かの判定部233による判定結果を担当者端末3へ出力し(S305)、処理を終了する。
【0082】
[第2の実施形態のデータ処理装置2による効果]
第2の実施形態のデータ処理装置2では、出力部234は、学習済みの機械学習モデルにより、取得証憑データの発行元の真偽の判定精度が向上するので、発行元を偽った証憑データによりユーザが詐欺の被害にあうことを抑制することができる。
【0083】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。
【符号の説明】
【0084】
1 外部装置
2 データ処理装置
3 担当者端末
21 通信部
22 記憶部
23 制御部
231 取得部
232 特定部
233 判定部
234 出力部
300 データ処理装置
301 判定部
302 生成部
303 受付部
【要約】
データ処理装置1は、証憑の複数の発行元に関連付けて、正規証憑データに含まれる所定の文字又は画像の少なくともいずれかの特徴を示す複数の判定用データを記憶する記憶部22と、証憑データを取得する取得部231と、取得部231が取得した取得証憑データに含まれる文字又は画像の少なくともいずれかに基づいて、証憑データの発行元を特定する特定部232と、特定部232が特定した発行元に関連付けて記憶部22に記憶された判定用データに含まれる所定の文字又は画像の少なくともいずれかの特徴と、取得証憑データに含まれる所定の文字又は画像の少なくともいずれかの特徴とを比較することにより、取得証憑データが真正なデータであるか否かを判定する判定部233と、判定部233の判定結果を出力する出力部234と、を備える。