IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ファーストアカウンティング株式会社の特許一覧

特許7610190証憑情報処理システム、証憑情報処理方法及び証憑情報処理プログラム
<>
  • 特許-証憑情報処理システム、証憑情報処理方法及び証憑情報処理プログラム 図1
  • 特許-証憑情報処理システム、証憑情報処理方法及び証憑情報処理プログラム 図2
  • 特許-証憑情報処理システム、証憑情報処理方法及び証憑情報処理プログラム 図3
  • 特許-証憑情報処理システム、証憑情報処理方法及び証憑情報処理プログラム 図4
  • 特許-証憑情報処理システム、証憑情報処理方法及び証憑情報処理プログラム 図5
  • 特許-証憑情報処理システム、証憑情報処理方法及び証憑情報処理プログラム 図6
  • 特許-証憑情報処理システム、証憑情報処理方法及び証憑情報処理プログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-12-24
(45)【発行日】2025-01-08
(54)【発明の名称】証憑情報処理システム、証憑情報処理方法及び証憑情報処理プログラム
(51)【国際特許分類】
   G06V 30/196 20220101AFI20241225BHJP
   G06V 30/194 20220101ALI20241225BHJP
【FI】
G06V30/196 B
G06V30/194
【請求項の数】 9
(21)【出願番号】P 2024112957
(22)【出願日】2024-07-12
【審査請求日】2024-08-13
【早期審査対象出願】
(73)【特許権者】
【識別番号】516380407
【氏名又は名称】ファーストアカウンティング株式会社
(72)【発明者】
【氏名】藤武 将人
(72)【発明者】
【氏名】小俣 智
(72)【発明者】
【氏名】ルオン ズイ
【審査官】高野 美帆子
(56)【参考文献】
【文献】特開2018-005462(JP,A)
【文献】特開2020-016946(JP,A)
【文献】特開2022-032831(JP,A)
【文献】国際公開第2023/062798(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/196
G06V 30/194
(57)【特許請求の範囲】
【請求項1】
一般項目を機械学習済みであり、証憑データを入力した場合一般項目に該当する情報を出力するよう機械学習した学習モデルと、
項目、当該項目の抽出指示及び証憑データを入力すると、当該項目に該当する情報を出力する言語モデルと、を備え、
前記学習モデルに抽出の対象となる証憑の証憑データを入力して一般項目に該当する情報を出力する一般項目抽出部と、
前記言語モデルに抽出の対象となり、前記学習モデルで機械学習されていない追加項目、当該追加項目の抽出指示及び抽出の対象となる証憑の証憑データを入力して当該追加項目に該当する情報を出力する追加項目抽出部と、を有する、
証憑情報処理システム。
【請求項2】
前記学習モデルは、証憑画像データを入力した場合一般項目に該当する情報を出力するよう機械学習した学習モデルであり、
前記言語モデルは、項目、当該項目の抽出指示及び証憑画像データを入力すると、当該項目に該当する情報を出力する言語モデルであり、
前記一般項目抽出部は、前記学習モデルに抽出の対象となる証憑の証憑画像データを入力すると一般項目に該当する情報を出力し、
前記追加項目抽出部は、前記言語モデルに抽出の対象となり前記学習モデルにおいて機械学習されていない追加項目、当該追加項目の抽出指示及び抽出の対象となる証憑画像データを入力すると当該追加項目に該当する情報を出力する、
請求項1記載の証憑情報処理システム。
【請求項3】
前記学習モデルは、証憑画像データを入力した場合一般項目に該当する情報を出力するよう機械学習した学習モデルであり、
前記言語モデルは、項目、当該項目の抽出指示及び証憑テキストデータを入力すると、当該項目に該当する情報を出力する言語モデルであり、
前記一般項目抽出部は、前記学習モデルに抽出の対象となる証憑の証憑画像データを入力すると一般項目に該当する情報を出力し、
前記追加項目抽出部は、前記言語モデルに抽出の対象となり、前記学習モデルにおいて機械学習されていない追加項目、当該追加項目の抽出指示及び抽出の対象となる証憑テキストデータを入力すると当該追加項目に該当する情報を出力する、
請求項1記載の証憑情報処理システム。
【請求項4】
前記追加項目抽出部において、前記言語モデルに入力する証憑テキストデータは、抽出の対象となる証憑の証憑画像データに文字認識技術を適用した結果得られた証憑テキストデータである、
請求項3記載の証憑情報処理システム。
【請求項5】
前記証憑は、見積書、注文書、請求書、領収書、納品書、検品書、契約書又は通帳である、
請求項1から3のいずれかに記載の証憑情報処理システム。
【請求項6】
前記追加項目抽出部に入力する抽出の対象となる追加項目は、利用者が指定した追加項目である、
請求項1から3のいずれかに記載の証憑情報処理システム。
【請求項7】
前記追加項目抽出部に、前記追加項目の具体例を入力する、
請求項1から3のいずれかに記載の証憑情報処理システム。
【請求項8】
コンピュータが実行する、
一般項目を機械学習済みであり、証憑データを入力した場合一般項目に該当する情報を出力するよう機械学習した学習モデルに抽出の対象となる証憑データを入力して一般項目に該当する情報を出力する一般項目抽出ステップと、
項目、当該項目の抽出指示及び証憑データを入力すると、当該項目に該当する情報を出力する言語モデルに抽出の対象となる前記学習モデルにおいて機械学習していない追加項目、当該追加項目の抽出指示及び抽出の対象となる証憑データを入力して当該追加項目に該当する情報を出力する追加項目抽出ステップと、を有する、
証憑情報処理方法。
【請求項9】
コンピュータに、
一般項目を機械学習済みであり、証憑画像データ又は証憑テキストデータを入力した場合一般項目に該当する情報を出力するよう機械学習した学習モデルに抽出の対象となる証憑画像データ又は抽出の対象となる証憑テキストデータを入力して一般項目に該当する情報を出力する一般項目抽出ステップと、
項目、当該項目の抽出指示及び証憑データを入力すると、当該項目に該当する情報を出力する言語モデルに抽出の対象となり前記学習モデルにおいて機械学習されていない追加項目、当該追加項目の抽出指示及び抽出の対象となる証憑データを入力して当該追加項目に該当する情報を出力する追加項目抽出ステップと、
を実行させる証憑情報処理プログラム。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、証憑情報処理システム、証憑情報処理方法及び証憑情報処理プログラムに関する。
【背景技術】
【0002】
AI-OCR機能を使用して、請求書の読み取りを行う技術が提案されている(非特許文献1)。
【先行技術文献】
【非特許文献】
【0003】
【文献】https://www.ricoh.co.jp/service/cloud-ocr/special/invoice
【発明の概要】
【発明が解決しようとする課題】
【0004】
請求書等の証憑の画像データと証憑の一般的な項目に該当する情報のセットを含む教師データを機械学習させて、証憑データを入力すると学習させた項目に該当する情報を出力する学習モデルを作成し、その学習モデルに証憑データを入力すると、あらかじめ機械学習させた項目に該当する情報については高い精度で出力し、推定することができる。例えば、請求書を例にして説明すると、請求書処理で一般的に使用されている「請求元会社名」、「請求金額」等の項目についてはそれらの項目に該当する情報を出力するよう学習モデルを構築しているため、高い精度でこれらの項目に該当する情報を出力することができる。
【0005】
しかしながら、ユーザー特有の使用項目については、学習モデルにおいて十分に機械学習されておらず、推定することができない。例えば、運輸業界特有の項目である「船便名」、「荷主」等の項目に該当する情報は、証憑データを学習モデルに入力しても得ることができない。
【0006】
そこで、本発明は、これらの点に鑑みてなされたものであり、学習モデルにおいて十分に学習されていないユーザー特有の使用項目がある場合でも、これらの項目に該当する情報を得ることができる証憑情報処理装置、証憑情報処理方法及び証憑情報処理プログラム証憑情報処理装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の第1の態様の情報処理システムにおいては、一般項目を機械学習済みであり、証憑データを入力した場合一般項目に該当する情報を出力するよう機械学習した学習モデルと、項目、当該項目の抽出指示及び証憑データを入力すると、当該項目に該当する情報を出力する言語モデルと、を備え、前記学習モデルに抽出の対象となる証憑の証憑データを入力して一般項目に該当する情報を出力する一般項目抽出部と、前記言語モデルに抽出の対象となり、前記学習モデルで機械学習されていない追加項目、当該追加項目の抽出指示及び抽出の対象となる証憑の証憑データを入力して当該追加項目に該当する情報を出力する追加項目抽出部と、を有する。
【0008】
前記学習モデルは、証憑画像データを入力した場合一般項目に該当する情報を出力するよう機械学習した学習モデルであり、前記言語モデルは、項目、当該項目の抽出指示及び証憑画像データを入力すると、当該項目に該当する情報を出力する言語モデルであり、前記一般項目抽出部は、前記学習モデルに抽出の対象となる証憑の証憑画像データを入力すると一般項目に該当する情報を出力し、前記追加項目抽出部は、前記言語モデルに抽出の対象となり前記学習モデルにおいて機械学習されていない追加項目、当該追加項目の抽出指示及び抽出の対象となる証憑画像データを入力すると当該追加項目に該当する情報を出力するものとしてもよい。
【0009】
前記学習モデルは、証憑画像データを入力した場合一般項目に該当する情報を出力するよう機械学習した学習モデルであり、前記言語モデルは、項目、当該項目の抽出指示及び証憑テキストデータを入力すると、当該項目に該当する情報を出力する言語モデルであり、前記一般項目抽出部は、前記学習モデルに抽出の対象となる証憑の証憑画像データを入力すると一般項目に該当する情報を出力し、前記追加項目抽出部は、前記言語モデルに抽出の対象となり、前記学習モデルにおいて機械学習されていない追加項目、当該追加項目の抽出指示及び抽出の対象となる証憑テキストデータを入力すると当該追加項目に該当する情報を出力するものとしてよい。
【0010】
前記追加項目抽出部において、前記言語モデルに入力する証憑テキストデータは、抽出の対象となる証憑の証憑画像データに文字認識技術を適用した結果得られた証憑テキストデータとしてもよい。
【0011】
前記証憑は、見積書、注文書、請求書、領収書、納品書、検品書、契約書又は通帳としてもよい。
【0012】
前記追加項目抽出部に入力する抽出の対象となる追加項目は、利用者が指定した追加項目としてもよい。
【0013】
前記追加項目抽出部に、前記追加項目の具体例を入力してもよい。
【0014】
本発明の第2の態様の情報処理方法においては、コンピュータが実行する、一般項目を機械学習済みであり、証憑データを入力した場合一般項目に該当する情報を出力するよう機械学習した前記学習モデルに抽出の対象となる証憑データを入力して一般項目に該当する情報を出力する一般項目抽出ステップと、項目、当該項目の抽出指示及び証憑データを入力すると、当該項目に該当する情報を出力する言語モデルに抽出の対象となる前記学習モデルにおいて機械学習していない追加項目、当該追加項目の抽出指示及び抽出の対象となる証憑データを入力して当該追加項目に該当する情報を出力する追加項目抽出ステップと、を有する。
【0015】
本発明の第3の態様の証憑情報処理プログラムにおいては、コンピュータに、一般項目を機械学習済みであり、証憑画像データ又は証憑テキストデータを入力した場合一般項目に該当する情報を出力するよう機械学習した前記学習モデルに抽出の対象となる証憑画像データ又は抽出の対象となる証憑テキストデータを入力して一般項目に該当する情報を出力する一般項目抽出ステップと、項目、当該項目の抽出指示及び証憑データを入力すると、当該項目に該当する情報を出力する言語モデルに抽出の対象となり前記学習モデルにおいて機械学習されていない追加項目、当該追加項目の抽出指示及び抽出の対象となる証憑データを入力して当該追加項目に該当する情報を出力する追加項目抽出ステップと、を実行させる。
【発明の効果】
【0016】
本発明によれば、学習モデルにおいて十分に学習されていない利用者特有の使用項目がある場合でも、これらの項目に該当する情報を得ることができる証憑情報処理システム、証憑情報処理方法及び証憑情報処理プログラム証憑情報処理装置を提供することができる。
【図面の簡単な説明】
【0017】
図1】本発明の実施形態に係る証憑情報処理システムの構成を示す図である。
図2】本発明の実施形態に係るコンピュータの構成を示す図である。
図3】請求書画像の例を示す図である。
図4】発注書画像の例を示す図である。
図5】実施例1の証憑情報処理のフローチャートを示す図である。
図6】実施例2の証憑情報処理のフローチャートを示す図である。
図7】本発明の実施形態により抽出した項目該当情報を示す図である。
【発明を実施するための形態】
【0018】
以下、本発明の実施形態を説明する。図1は、本発明の実施形態にかかる証憑情報処理システム1の構成を示す図である。証憑情報処理システム1は、一般項目(「既存項目」ともいうことがある。)を機械学習済みであり、証憑データ(証憑画像データと証憑テキストデータを併せて「証憑データ」という。)を入力した場合一般項目に該当する情報を出力するよう機械学習した学習モデル11と、項目、当該項目の抽出指示及び証憑データを入力すると、当該項目に該当する情報を出力する言語モデル12と、を備え、前記学習モデル11に抽出の対象となる証憑の証憑データ15を入力して一般項目に該当する情報18を出力する一般項目抽出部13と、前記言語モデルに抽出の対象となり、前記学習モデルで機械学習されていない追加項目16、当該追加項目の抽出指示17及び抽出の対象となる証憑の証憑データ15を入力して当該追加項目に該当する情報19を出力する追加項目抽出部14と、を有する。
【0019】
本明細書において、「証憑」とは、金銭の移動や権利義務の変動に関する書類をいい、例えば、契約書、稟議書、見積書、発注書、注文書、納品書、検品書、検収書、請求書、預金通帳等の通帳等がある。また、本明細書において、「会計証憑」とは、商品、サービスの代金の支払いに関する証憑であり、例えば見積書、発注書、注文書、請求書等がある。本発明は、特に会計証憑に適用すると利用者が欲しい情報が高精度で取得できるため、高い効果を有する。
【0020】
本明細書において、「一般項目」とは、ほとんどの利用者が使用する典型的な項目のことをいう。例えば、請求書であれば、「請求元会社名」、「請求額」等の項目である。「追加項目」は、特定の利用者しか使用しない項目であり、学習モデルにおいて機械学習されていない項目をいう。例えば、運輸会社が使用する発注書における「荷主」、「船便名」等の項目である。
【0021】
本明細書において、「証憑画像データ」とは、証憑の画像形式のデータのことをいう。証憑画像データは、例えば、証憑画像の画素ごとの位置座標、画素の色、濃さ等によって表現される。「証憑テキストデータ」は、証憑の内容を表すテキストデータのことをいう。証憑テキストデータは、典型的には、例えば証憑の内容が「AAA株式会社S1000224管理部御中2024年7月1日・・・」のように、連続する1行の文字、数字、記号等のテキストで表現される。「証憑データ」とは、証憑に関するデータであって、証憑画像データと証憑テキストデータを総称したものをいう。証憑テキストデータは、人が証憑画像データを見て入力することによって得ることもできるし、証憑画像データにOCR(Optical Character Recognition、光学的文字認識)等の文字認識技術を適用することによっても得ることができる。
【0022】
本実施形態における学習モデルは、証憑データと証憑の一般項目に該当する情報の対となる教師データ(正解データ)を大量に記憶させ、機械学習させることによって構築されるものであり、証憑データを学習モデルに入力すると、項目に該当する情報が出力されるものである。
【0023】
本実施形態における言語モデルは、人間の言語を単語の出現確率を用いてモデル化したものである。言語モデルに言語によって指示を与えると、回答が出力される。指示は、本実施形態においては、例えば「抽出対象となる証憑の証憑データから項目〇〇に該当する情報を抽出せよ。」といった内容となる。言語モデルは、モデルサイズ(パラメータ数)が大きいほど回答精度が向上するが、パラメータ数が1000万を超えると実用可能な精度となる。言語モデルには、画像データを処理することができるvision-LLM(Large language Models、大規模言語モデル)や、テキストデータのみしか処理することができない言語モデルがある。
【0024】
本実施形態に係る証憑情報処理システム1の機能は、コンピュータ2により実現される。図2は、コンピュータの構成を示す図である。入力部21は、記憶部に情報を入力する部品であり、例えばキーボード 、マウス、デジタルカメラ、インターネット回線、イントラネット回線等がある。記憶部23は情報を記憶(記録)する部品である。入力部21により記憶部23に証憑データを入力する方法としては、デジタルカメラで証憑を撮影する、サーバに保存された証憑データをサーバからイントラネット回線経由でアップロードする等の方法がある。記憶部23には、学習モデル11、言語モデル12が保存されている。演算部24は情報処理を行う部品である。演算部24は、記憶部23に記憶された証憑データ、学習モデルに基づいて情報処理を行うことにより一般項目該当情報を出力し、記憶部23に記憶された証憑データ、追加項目、追加項目抽出指示に基づいて、追加項目該当情報を出力する。出力部22は、例えばディスプレイである。ディスプレイには、演算部24が出力した抽出対象となる証憑の一般項目に該当する情報や追加項目に該当する情報が表示される。
【0025】
図3は、一般的な請求書画像の例である。請求書画像301には、項目として、「書類タイトル」(302)、「宛先」(303)、「請求元」(304)、「請求書番号」(305)、「請求年月日」(306)、「請求期間」(307)、「品名」、「数量」、「単価」、「金額」及び「請求額」(308)、「振込先口座」(309)が存在する。これらの項目は、全て請求書において典型的な項目であり、一般項目に該当する。一般項目については学習モデルにおいて機械学習済みであるから、請求書画像データ301を学習モデルに入力すれば、利用者が必要なこれらの項目は全て高い精度で得ることができる。
図4は、運送業者が使用する発注書画像の例である。402は、「宛先」であり、一般項目であるから、発注書画像データ401を学習モデルに入力すれば、「宛先」に該当する情報として「AAA運輸株式会社」を高い精度で抽出することができる。しかしながら、「荷主名」(403)、「船名」(404)は、運輸業者が使用する発注書特有の項目であり、学習モデルにおいて機械学習されていないことから、発注画像データ401を学習モデルに入力しても、「荷主名」、「船名」に該当する情報を抽出することができない。本実施形態においては、発注書画像データ401、追加項目として「荷主名」、「船名」、「発注画像データ401から、「荷主名」、「船名」を抽出せよ。」という内容の追加項目の抽出指示を言語モデルに入力することにより、追加項目である「荷主名」、「船名」に該当する情報を抽出することができる。
【0026】
学習モデルに「荷主名」、「船名」の具体例を入力すると、さらに高精度に追加項目に該当する情報を推定することができる。
【0027】
図7は、発注書画像データ401から抽出した一般項目該当情報及び追加項目該当情報である。抽出した項目該当情報を必要に応じてディスプレイに表示することもできるし、期限管理システムと連携させて期限管理を行い、入港日が近づいてきたらアラートを表示したり、項目やキーワードを指定して必要な証憑を検索することもできる。
【0028】
以上、本実施形態によれば、学習モデルにおいて十分に学習されていない利用者特有の使用項目である追加項目がある場合でも、これらの項目に該当する情報を得ることができる。
【実施例1】
【0029】
以下、図5により、実施例1にかかる証憑情報処理方法を説明する。
【0030】
まず、利用者により、一般的ではない利用者特有の使用項目である追加項目をシステムに入力する(S50)。
【0031】
次に、抽出対象となる証憑の証憑画像データを取得する(S51)。証憑画像データの取得方法としては、例えば、紙の証憑をデジタルカメラで撮影する、電子メールに添付されている証憑画像データを所定のフォルダに保存する、サーバに保存されている証憑画像データをダウンロードする等の方法がある。
【0032】
取得した証憑画像データを、証憑画像データを入力すると一般項目が出力されるように機械学習された学習モデルに入力する(S52)。すると、一般項目に該当する情報が抽出、出力される(S54)。
【0033】
一方で、証憑画像データ、追加項目、追加項目抽出指示を、画像情報を処理することができる言語モデルに入力する(S55)。すると、追加項目に該当する情報が言語モデルから出力される(S56)。
【0034】
出力された一般項目、追加項目に該当する情報は、記憶部に記憶され、必要に応じて必要な項目該当情報をディスプレイに表示することもできるし、キーワードで検索して必要な証憑を探し出すこともできる。
【0035】
本実施例では、画像情報を処理できる言語モデルを使用して追加項目に該当する情報を抽出しているため、証憑の項目のレイアウトを加味して追加項目に該当する情報を抽出することができ、高い精度で追加項目に該当する情報を抽出することができる。特に、見積書、請求書、領収書のような会計証憑は、項目のレイアウトが定型化しているため、本実施例によれば高い精度で追加項目該当情報を抽出することができる。
【実施例2】
【0036】
以下、図6により、実施例2にかかる証憑情報処理方法を説明する。ステップS60~S64は実施例1と同じであるから、説明を省略する。
【0037】
本実施例が実施例1と異なるのは、ステップS65~S66である。本実施例では、証憑画像データを、OCR等の文字認識技術によって、テキストデータに変換している(S65)。
【0038】
変換した証憑テキストデータ、追加項目、追加項目抽出指示を、画像データを処理できず、テキストデータしか処理できない言語モデルに入力する(S66)。すると、言語モデルが追加情報該当情報を出力する。
【0039】
一般に、画像情報を処理できる言語モデルを構築するには長い時間と多大なコストがかかる。本実施例によれば、テキストデータしか処理できない言語モデルが使用できるため、画像が処理できる言語モデルを構築する時間とコストが削減できる。
【0040】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。
【符号の説明】
【0041】
1 証憑情報処理システム
11 学習モデル
12 言語モデル
13 一般項目抽出部
14 追加項目抽出部
15 証憑データ
17 追加項目の抽出指示
18 一般項目に該当する情報
19 追加項目に該当する情報
21 入力部
22 出力部
23 記憶部
24 演算部
301 請求書画像
401 発注書画像
【要約】      (修正有)
【課題】学習モデルにおいて十分に学習されていないユーザー特有の使用項目がある場合でも、これらの項目に該当する情報を得る証憑情報処理システム、証憑情報処理方法及び証憑情報処理プログラムを提供する。
【解決手段】証憑情報処理システム1は、一般項目を機械学習済みであり、証憑データを入力した場合一般項目に該当する情報を出力するよう機械学習した学習モデル11を備え、学習モデルに抽出の対象となる証憑の証憑データを入力して一般項目に該当する情報を出力する一般項目抽出部13と、項目、当該項目の抽出指示及び証憑データを入力すると、当該項目に該当する情報を出力する言語モデル12を備え、言語モデルに抽出の対象となり、学習モデルで機械学習されていない追加項目、当該追加項目の抽出指示及び抽出の対象となる証憑の証憑データを入力して当該追加項目に該当する情報を出力する追加項目抽出部14と、を有する。
【選択図】図1
図1
図2
図3
図4
図5
図6
図7