(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022047925
(43)【公開日】2022-03-25
(54)【発明の名称】情報処理装置、情報処理方法及びプログラム
(51)【国際特許分類】
G06Q 40/00 20120101AFI20220317BHJP
【FI】
G06Q40/00 400
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2020153977
(22)【出願日】2020-09-14
(71)【出願人】
【識別番号】500466142
【氏名又は名称】リスクモンスター株式会社
(74)【代理人】
【識別番号】110000338
【氏名又は名称】特許業務法人HARAKENZO WORLD PATENT & TRADEMARK
(72)【発明者】
【氏名】森田 孝男
【テーマコード(参考)】
5L055
【Fターム(参考)】
5L055BB64
5L055EE01
(57)【要約】
【課題】決算書のデータを入力する場合におけるユーザの利便性、及び入力精度を向上させるための情報処理装置を実現する。
【解決手段】情報処理装置(1)は、決算書の画像を取得する取得部(14)と、前記取得部(14)が取得した画像に対して、前記決算書の種類に応じた所定の前処理を行う前処理部(15)と、前記前処理部(15)が前処理を行った画像に含まれるテキストデータを読み取り、且つ各テキストデータに対して、数値、又は事前に登録された勘定科目若しくは決算書におけるカテゴリ名の何れかを、近似度に基づいて当該テキストデータに割り当てる読取部(16)と、前記近似度が所定未満である各テキストデータを、ユーザが修正可能となるように提示する提示部(17)とを備えている。
【選択図】
図1
【特許請求の範囲】
【請求項1】
決算書の画像を取得する取得部と、
前記取得部が取得した画像に対して、前記決算書の種類に応じた所定の前処理を行う前処理部と、
前記前処理部が前処理を行った画像に含まれるテキストデータを読み取り、且つ各テキストデータに対して、数値、又は事前に登録された勘定科目若しくは決算書におけるカテゴリ名の何れかを、近似度に基づいて当該テキストデータに割り当てる読取部と、
前記近似度が所定未満である各テキストデータを、ユーザが修正可能となるように提示する提示部と
を備えていることを特徴とする情報処理装置。
【請求項2】
前記読取部は、
決算書の画像に含まれるテキストデータに対して決算書におけるカテゴリ名を割り当てた場合、続くテキストデータを、上記カテゴリ名が示すカテゴリに分類して読み取りを行う
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
決算書の勘定科目は、決算書におけるカテゴリ毎に事前に登録されており、
前記読取部は、
事前に登録された第1カテゴリ名と近似度が所定以上であるテキストデータを決算書中から読み取れない場合、読み取ったテキストデータと第2カテゴリの勘定科目との近似度が所定数以上連続して所定未満となる開始位置が、前記第1カテゴリの開始位置であるものとして読み取りを行う
ことを特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記取得部は、ウェブサーバ上にアップロードされた決算書の画像を取得し、
前記提示部は、当該画像を前記ウェブサーバ上にアップロードした端末装置に対して、前記近似度が所定未満である各テキストデータを示す情報を送信する
ことを特徴とする請求項1から3の何れか1項に記載の情報処理装置。
【請求項5】
前記読取部が読み取った各テキストデータに割り当てられた勘定科目と当該勘定科目に対応する数値とを参照して、与信管理に関する判定結果を算出する算出部を更に備える
ことを特徴とする請求項1から4の何れか1項に記載の情報処理装置。
【請求項6】
前記前処理部は、
前記取得部が取得した画像に含まれるテキストデータの少なくとも一部を、元の位置とは異なる位置に再配置する
ことを特徴とする請求項1から5の何れか1項に記載の情報処理装置。
【請求項7】
前記前処理部は、
前記取得部が取得した画像に含まれるテキストデータの少なくとも一部の文字の太さを、少なくとも一時的に変化させる処理を行う
ことを特徴とする請求項1から6の何れか1項に記載の情報処理装置。
【請求項8】
前記前処理部は、
単一の決算書の画像が複数の画像によって構成されると判定した場合に、上記複数の画像から上記単一の決算書の画像を合成する
ことを特徴とする請求項1から7の何れか1項に記載の情報処理装置。
【請求項9】
決算書の画像を取得する取得ステップと、
前記取得ステップにおいて取得した画像に対して、前記決算書の種類に応じた所定の前処理を行う前処理ステップと、
前記前処理ステップにおいて前処理を行った画像に含まれるテキストデータを読み取り、且つ各テキストデータに対して、数値、又は事前に登録された勘定科目若しくは決算書におけるカテゴリ名の何れかを、近似度に基づいて当該テキストデータに割り当てる読取ステップと、
前記近似度が所定未満である各テキストデータを、ユーザが修正可能となるように提示する提示ステップと
を含むことを特徴とする情報処理方法。
【請求項10】
請求項1から8の何れか1項に記載の情報処理装置としてコンピュータを機能させるためのプログラムであって、前記各部としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、決算書に関する情報処理に関する。
【背景技術】
【0002】
従来、画像データから文字情報を読み取る光学文字認識(OCR:Optical Character Recognition)技術が知られている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2004-246575号公報(2004年9月2日公開)
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上述のような従来技術において、特に不鮮明な決算書に対してOCR処理を行った場合、入力精度が低下し、意図した勘定科目或いは数値とは異なるデータが設定され得るという問題がある。一方で、入力精度を高くするために決算書のデータを手入力した場合には、時間やユーザの手間が掛かるという問題がある。
【0005】
本発明の一態様は、上記の問題に鑑みてなされたものであり、決算書のデータを入力する場合におけるユーザの利便性、及び入力精度を向上させるための情報処理装置を実現することを目的とする。
【課題を解決するための手段】
【0006】
上記の課題を解決するために、本発明の一態様に係る情報処理装置は、決算書の画像を取得する取得部と、前記取得部が取得した画像に対して、前記決算書の種類に応じた所定の前処理を行う前処理部と、前記前処理部が前処理を行った画像に含まれるテキストデータを読み取り、且つ各テキストデータに対して、数値、又は事前に登録された勘定科目若しくは決算書におけるカテゴリ名の何れかを、近似度に基づいて当該テキストデータに割り当てる読取部と、前記近似度が所定未満である各テキストデータを、ユーザが修正可能となるように提示する提示部とを備えている。
【発明の効果】
【0007】
本発明の一態様によれば、決算書のデータを入力する場合におけるユーザの利便性、及び入力精度を向上させるための情報処理装置を実現できる。
【図面の簡単な説明】
【0008】
【
図1】実施形態1に係る情報処理システムの機能ブロック図である。
【
図2】実施形態1の一態様に係る情報処理システムの概略図である。
【
図3】実施形態1に係る処理の流れを示すフローチャートである。
【
図4】実施形態1に係る前処理の一例を示す図である。
【
図5】前処理部がテキストデータを再配置した決算書の一部を示す図の一例である。
【
図6】読取部が決算書のテキストデータと記憶部に登録された勘定科目とをカテゴリ毎に突合する様子を示す概念図である。
【
図7】情報処理装置から送信された情報に基づき端末装置に表示される修正画面の一例を示す図である。
【
図8】実施形態2に係る処理の流れを示すフローチャートである。
【
図9】実施形態2に係る前処理の一例を示す図である。
【発明を実施するための形態】
【0009】
〔実施形態1〕
以下、本発明の一実施形態について、詳細に説明する。
【0010】
〔1.情報処理システムの構成例〕
本実施形態に係る情報処理システムは、情報処理装置が、端末装置から送信された決算書(財務諸表)の画像に対して所定の前処理を行った上で当該画像内におけるテキストデータの読み取りを行い、例えば与信管理に関する処理を行うシステムである。また、本明細書においてテキストデータとは、数字や勘定科目等の文字列を示すデータ、又は文字列自体を意味している。
【0011】
図1は、本実施形態に係る情報処理システム1の機能ブロック図である。情報処理システム1は、情報処理装置10及び端末装置30を有している。また、情報処理装置10と端末装置30とは、ネットワークを介して互いに通信可能に接続されている。
【0012】
情報処理装置10は、決算書の画像分析を行う装置であって、制御部12、記憶部20及び通信部22を備えている。
【0013】
制御部12は、情報処理装置10全体を統括するCPU又はそれに準ずる制御装置であって、取得部14、前処理部15、読取部16、提示部17及び算出部18としても機能する。
【0014】
取得部14は、決算書の画像を取得する。取得部14が決算書の画像を取得する取得先は、限定されず、例えば端末装置30からウェブサーバ上にアップロードされた画像を取得する構成であってもよい。
【0015】
前処理部15は、取得部14が取得した画像に対して、決算書の種類に応じた所定の前処理を行う。一例については後述するが、この前処理によって、読取部16がテキストデータを読み取る場合における精度を向上させることが可能となる。また、前処理部15は、前処理において決算書の読取を要する場合、読取部16を介した処理を行う。
【0016】
また、本明細書の例において決算書の種類は、貸借対照表、損益計算書及び販売管理費(表)の何れかであるものとして説明するが、これに限定されずその他の決算書が処理対象であってもよい。
【0017】
読取部16は、OCR処理を行う機構を有し、前処理部15が前処理を行った画像に含まれるテキストデータを読み取り、且つ各テキストデータに対して、数値、又は事前に記憶部20等に登録された勘定科目若しくは決算書におけるカテゴリ名の何れかを、近似度に基づいて当該テキストデータに割り当てる。また、読取部16は、画像内においてテキストデータや直線等の所定のオブジェクトを検出する処理を行う。
【0018】
また、読取部16による処理においては、Faster R-CNN(Regions with Convolutional Neural Networks)等を用いた機械学習手法が用いられる構成であってもよい。当該構成において、記憶部20は、読取部16が参照する学習モデルを規定する関数やパラメータを格納する。
【0019】
提示部17は、数値、又は事前に記憶部20等に登録された勘定科目若しくは決算書におけるカテゴリ名の何れとも近似度が所定未満である各テキストデータ等を、ユーザが修正可能となるように提示する。また、提示部17は、後述する各情報をユーザに対して提示する処理を行う。
【0020】
算出部18は、読取部16が読み取った各テキストデータに割り当てられた勘定科目と当該勘定科目に割り当てられた数値(金額)とを参照して、与信管理に関する判定結果を算出する。ここで、与信管理に関する判定結果とは、例えば対象となる決算書に係る企業の財務状況における信用度合いを示す格付け情報等である。
【0021】
記憶部20は、各種情報を記憶する記憶装置であって、例えば各決算書における勘定科目の一覧を示すデータベース等を格納する。
【0022】
また、勘定科目は、決算書の種類毎、或いは決算書におけるカテゴリ毎に記憶部20に登録されている。ここで、決算書のカテゴリとは、勘定科目の種類を大別する分類であって、例えば貸借対照表の例の場合、資産の部や負債の部等の各部における「流動資産」「固定資産」「流動負債」「固定負債」といった項目を意味する。ただし、上述した資産の部等の各部についても決算書のカテゴリに含むものとしてもよい。
【0023】
通信部22は、端末装置30等の外部装置との通信処理を行う。
【0024】
端末装置30は、パソコン、スマートフォン又はタブレット等の装置であって、表示部32及び通信部34等を備えている。
【0025】
表示部32は、動画像又はテキスト等を表示するディスプレイである。また、表示部32がタッチパネルとして実現され、表示部32を介した入力操作が可能な構成であってもよい。
【0026】
また、本実施形態において、提示部17によってテキストデータ等をユーザに提示する処理は、関係する情報が表示部32に表示されることによって行われる。換言すると、提示部17は、表示部32に表示されるデータを、通信部22を介して端末装置30に送信することによって、テキストデータ等をユーザに提示する処理を行う。
【0027】
通信部34は、情報処理装置10等の外部装置との通信処理を行う。例えば通信部34は、ユーザ操作に基づいて、端末装置30が少なくとも一時的に保持する、決算書を示す画像データを、情報処理装置10に対して送信する。
【0028】
なお、
図1に示す構成とは別の態様として、情報処理装置10は、例えばインターフェースとなるウェブサイトを提供するウェブサーバ、クラウドサーバ及びAPI(Application Programming Interface)サーバとして実現される構成であってもよい。換言すれば、情報処理装置10は、ウェブサーバ、クラウドサーバ及びAPIサーバによって構成されてもよい。
【0029】
図2は、当該構成を示す概略図である。
図2の例において、ウェブサーバは、自装置にアップロードされた決算書の画像を取得し、取得した決算書の画像を示す情報をクラウドサーバに送信する。また、クラウドサーバは、前処理部15及び読取部16に対応する処理を、上記APIを適宜呼び出すことによって実行した上で、読み取った文字情報をウェブサーバに対して送信する。続いて、ウェブサーバは、クラウドサーバから受信した情報に基づき、決算書におけるテキストデータを修正するための画面を示す情報を、決算書の画像を自装置にアップロードした端末装置30に対して送信する。
【0030】
〔2.情報処理システムの処理例〕
本実施形態に係る情報処理システム1における処理の流れについて、決算書が貸借対照表である場合を例に挙げて、
図3を参照して説明する。
図3は、本実施形態に係る処理の流れを示すフローチャートである。また、
図3のフローチャートに示す処理は、端末装置30が決算書(貸借対照表)の画像を情報処理装置10に送信した場合に実行される。
【0031】
ステップS101において、取得部14は、端末装置30から送信された決算書の1又は複数の画像を、通信部22を介して取得する。
【0032】
ステップS102において、前処理部15は、読取対象となる決算書が複数の画像にまたがっているか否か、即ち読み取り対象となる単一の決算書の画像が複数の画像によって構成されるか否かを判定する。前処理部15が、読取対象となる決算書が複数ページにまたがっていると判定した場合、続いてステップS103の処理が実行され、上記決算書が複数ページにまたがっていないと判定した場合、続いてステップS104の処理が実行される。
【0033】
また、読取対象となる決算書の画像は、ユーザの選択操作に基づいて決定される構成であってもよい。即ち上記構成においては、ユーザが複数の画像を選択した場合、続いてステップS103の処理が実行され、単一の画像を選択した場合、続いてステップS104の処理が実行される。
【0034】
ステップS103において、前処理部15は、複数の決算書の画像から単一の決算書の画像を合成する処理を行う。即ち前処理部15は、単一の決算書の画像が複数の画像によって構成されると判定した場合に、複数の画像から単一の決算書の画像を合成する。
【0035】
ステップS104において、制御部12は、読取対象となる決算書の種類を判別する。また、決算書の種類は、ユーザの選択操作に基づいて決定される構成であってもよい。本例において、制御部12は、決算書の種類が貸借対照表であると判別する。
【0036】
ステップS105において、前処理部15は、決算書の画像を、白黒の二値画像に変換する処理を行う。当該処理は、テキストデータの読取において色情報が特に不要であることに由来する。
【0037】
また、本ステップS105において前処理部15は、例えばその他の処理として
・画像ファイル形式の変換処理(PDF(登録商標)形式からJPG形式への変換等)
・テキストデータを明瞭化させる処理(コントラストの調整等)
等を行ってもよい。
【0038】
ステップS106において、前処理部15は、決算書の画像に「構成比」という文字列が含まれるか否かを判定する。「構成比」とは、決算書の金額の右列等に記載されることのある項目であって、対応する勘定科目の数値が合計値に対して占める割合を示す項目である。前処理部15が、画像に文字列「構成比」が含まれると判定した場合、続いてステップS107の処理が実行され、含まれていないと判定した場合、続いてステップS108の処理が実行される。なお、本ステップS106において判定の対象となる所定文字列は「構成比」であることに限定されず、決算書に含まれ得るその他の文字列であってもよい。
【0039】
ステップS107において、前処理部15は、決算書の画像において文字列「構成比」を含む列部分を削除する。また、或いは別の態様として、前処理部15は、画像に文字列「構成比」が含まれていることを示すフラグをオンにし、後述するステップS111等において上記列部分を削除する構成であってもよい。
【0040】
ステップS108において、前処理部15は、決算書の画像内におけるテキストデータの座標に基づき、画像の傾きを解消し、且つ決算書の不要部分を削除する処理を行う。具体例として、前処理部15は以下の処理を実行する。
【0041】
(1)決算書の画像において、数値を示すテキストデータの座標を算出する。
図4の説明
図51は、各テキストデータの四隅の座標に基づいて当該テキストデータを枠囲みした例を示している。
【0042】
(2)座標を算出したテキストデータについて、決算書を基準とした左右方向のX座標が同じである組み合わせが2以上の所定数以上存在するテキストデータの組を抽出する。これにより、例えば
図4の決算書左上の日付等は、本ステップS108における以降の処理から除外される。
【0043】
(3)抽出したテキストデータの各組について、最も上部に位置する数値55a及び55bと最も下部に位置する数値57a及び57bとに沿った直線59a及び59bをそれぞれ規定する。
【0044】
(4)上記(3)で規定した直線59a及び59bが、画像全体の垂直線61a及び61bと平行になるように、決算書を回転させる。
【0045】
ステップS109において、前処理部15は、決算書右列における数値55b及び57bと、決算書左列における数値55a及び57aのそれぞれに対応する勘定科目等の文字列63及び65とによって規定される領域67外側のデータを、不要なデータとして削除する。続いて前処理部15は、決算書を右列部分と左列部分とに二分割する。
【0046】
ステップS110において、前処理部15は、決算書の画像に含まれるテキストデータの少なくとも一部の文字の太さを、少なくとも一時的に変化させる処理を行う。例えば前処理部15は、画像内の白色部分を膨張させて文字ではないゴミ等のノイズを除去しつつ文字を細くし、続いて白色部分を収縮させて文字を太くすることで、白色の逆ノイズにより文字が僅かに欠けた箇所を好適に修正することができる。また、太くした文字に対して更に白色部分を膨張させ文字を細くさせることで認識精度の高い理想的な文字に近づけることができる。また、これにより、各テキストデータをより好適な範囲で抽出することが可能となる。
【0047】
ステップS111において、前処理部15は、太くされた各テキストデータの高さに基づき、必要なテキストデータを抽出する。具体的には、前処理部15は、分割した決算書の各列について、最も同一の高さが多いテキストデータの高さを算出し、当該高さと所定以上異なる高さを有するテキストデータ、又は当該高さと比べて所定以上分若しくは所定以下分だけ倍率が異なる高さを有するテキストデータを、以降の処理において不要なデータとして除外する。これにより、読取部16が読み取るべきテキストデータだけが処理対象として残ることとなる。
【0048】
ステップS112において、前処理部15は、決算書のテキストデータの少なくとも一部を、元の位置とは異なる位置に再配置する処理を行う。ここで、前処理部15は、各テキストデータを、元の画像とは別の白色画像に再配置してもよい。これにより、テキストデータに無関係なノイズを決算書の画像から除外することができる。
図5は、前処理部15がテキストデータを再配置した決算書の一部を示す図の一例である。
図5においては、各勘定科目と各数値との行頭が揃い、行間が調整され、読取に適した配置となっている。
【0049】
ステップS113~S115においては、決算書内の勘定科目のカテゴリを分類する処理が行われる。以下、決算書左列の資産の部の勘定科目を、流動資産と固定資産とのカテゴリに分類する処理を例に挙げて説明する。決算書右列についても、負債の部及び純資産の部の勘定科目のカテゴリを分類する処理が同様に実行される。
【0050】
ステップS113において、前処理部15は、決算書左列において「固定資産」という文字列を検出したか否かを判定する。換言すると、前処理部15は、決算書左列のテキストデータの何れかとカテゴリ名「固定資産」との近似度が所定以上であるか否かを判定する。これは、決算書において「流動資産」の勘定科目が「固定資産」の勘定科目よりも上部に位置し、「固定資産」カテゴリの開始位置が各カテゴリの境界となることに由来する。前処理部15が、決算書左列において文字列「固定資産」を検出した場合、続いてステップS114の処理が実行され、検出しなかった場合、続いてステップS115の処理が実行される。
【0051】
ステップS114において、前処理部15は、文字列「固定資産」から下方が、固定資産のカテゴリに属する勘定科目であり文字列「固定資産」の直前までが流動資産のカテゴリに属する勘定科目であるものとして設定する。また、読取部16は、読み取った文字列「固定資産」に、記憶部20に事前に登録された「固定資産」のカテゴリ名を割り当てる。
【0052】
ステップS115において、前処理部15は、決算書左列の各勘定科目と記憶部20に登録された流動資産の勘定科目とを比較して近似度が所定以上であるか否かを判定し、近似度が所定数以上連続して所定未満となる開始位置が、固定資産のカテゴリの開始位置であるものとして設定する。また、読取部16は、上記開始位置のテキストデータに「固定資産」のカテゴリ名を割り当てる。
【0053】
ステップS116において、読取部16は、前処理部15が前処理を行った画像におけるテキストデータの読取を行う。また、読取部16は、或るテキストデータに対して、ステップS114又はS115において決算書におけるカテゴリ名を割り当てた場合、当該テキストデータに続くテキストデータを、上記カテゴリ名が示すカテゴリに分類して読み取りを行う。
【0054】
また、ステップS115及びS116の処理は、読取部16が、記憶部20に事前に登録された第1カテゴリ名と近似度が所定以上であるテキストデータを決算書中から読み取れない場合、読み取ったテキストデータと第2カテゴリの勘定科目との近似度が所定数以上連続して所定未満となる開始位置が、前記第1カテゴリの開始位置であるものとして読み取りを行うことを示している。
【0055】
ステップS117において、読取部16は、対象となるテキストデータと、数値、又は事前に記憶部20に登録された勘定科目であって、当該テキストデータのカテゴリに属する勘定科目の何れかとの近似度が所定以上であるか否かを、各データを突合して判定する。
図6は、読取部16が決算書のテキストデータと記憶部20に登録された勘定科目とをカテゴリ毎に突合する様子を示す概念図である。
【0056】
読取部16が、上記近似度が所定以上であると判定した場合、続いてステップS118の処理が実行され、上記近似度が所定未満であると判定した場合、続いてステップS119の処理が実行される。
【0057】
ステップS118において、読取部16は、対象となるテキストデータに対して、最も近似度が高い勘定科目等の文字列を割り当てる。
【0058】
ステップS119において、読取部16は、対象となるテキストデータに対して、OCR処理を行う機構で読み取った通りの文字列を割り当てる。
【0059】
ステップS120において、提示部17は、ステップS118で文字列が割り当てられた、上述した近似度が所定未満である各テキストデータを、ユーザが修正可能となるように提示する。具体的には、提示部17は、決算書におけるテキストデータを修正するための画面を示す情報を生成し、通信部22を介して端末装置30に送信する。ただし、提示部17は、上記近似度が所定以上の各テキストデータについても、ユーザが修正可能となるように提示してもよい。
【0060】
図7は、情報処理装置10から送信された情報に基づき端末装置30に表示される上記画面の一例を示す図である。
図7の例においては、読取部16が読み取った決算書の勘定科目、及び当該勘定科目に対応する金額を示す数値が画面に示されている。また、削除ボタン71は、各行に示す項目をそれぞれ削除するためのボタンである。また、画面左側の入力科目73の欄は、決算書の各行に対応する項目を追加するためのオブジェクトである。
【0061】
また、
図7の画面においては、各勘定科目及び数値が修正可能である。なお、上述した近似度が所定未満である勘定科目についてはその旨を示すアイコン等が、例えば当該勘定科目の近傍に表示されてもよい。また、現時点における資産の部の合計値と負債の部及び純資産の部の合計値とが画面に示されているが、上記各合計値が互いに異なること、或いは一致していることをアイコン等によって示す構成であってもよい。
【0062】
図7の画面において、ユーザが各勘定科目及び数値を適宜修正し、上書きボタン77を選択した場合、制御部12は、読み取った決算書の内容を、上記の場合における
図7の画面に対応する内容に更新する。
【0063】
また、ユーザが登録ボタン79を選択した場合、算出部18は、決算書の各行に対応する項目、即ち読取部16が読み取った各テキストデータに割り当てられた勘定科目と当該勘定科目に対応する数値とを参照して、与信管理に関する判定結果を算出する。続いて提示部17は、算出部18が算出した判定結果を、
図7に準ずる画面等を介してユーザに提示する。
【0064】
以上、決算書の画像を取得する取得ステップと、前記取得ステップにおいて取得した画像に対して、前記決算書の種類に応じた所定の前処理を行う前処理ステップと、前記前処理ステップにおいて前処理を行った画像に含まれるテキストデータを読み取り、且つ各テキストデータに対して、数値、又は事前に登録された勘定科目若しくは決算書におけるカテゴリ名の何れかを、近似度に基づいて当該テキストデータに割り当てる読取ステップと、前記近似度が所定未満である各テキストデータを、ユーザが修正可能となるように提示する提示ステップとを含む情報処理方法について説明した。上記の方法によれば、決算書のデータを入力する場合におけるユーザの利便性、及び入力精度を向上させることができる。
【0065】
〔実施形態2〕
本発明の第2の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、重複する説明を繰り返さない。本実施形態においては、情報処理装置が損益計算書を読み取る場合の例について説明する。
【0066】
〔1.情報処理システムの構成例〕
本実施形態においても
図1に示す構成を用いる。
【0067】
〔2.情報処理システムの処理例〕
本実施形態に係る情報処理システム1における処理の流れについて、決算書が損益計算書である場合を例に挙げて、
図8を参照して説明する。
図8は、本実施形態に係る処理の流れを示すフローチャートである。また、
図8のフローチャートに示す処理は、端末装置30が決算書(損益計算書)の画像を情報処理装置10に送信した場合に実行される。
【0068】
ステップS101~S105においては、実施形態1と同様の処理が実行される。ただし、ステップS104において、制御部12は、読取対象となる決算書の種類が損益計算書であると判別する。ステップS105の処理に続いて、ステップS206の処理が実行される。
【0069】
ステップS206において、前処理部15は、決算書の枠線となる直線が画像に含まれるか否かを判定する。前処理部15が、上記直線が画像に含まれると判定した場合、続いてステップS207の処理が実行され、上記直線が画像に含まれないと判定した場合、続いてステップS209の処理が実行される。
【0070】
ステップS207において、前処理部15は、決算書の枠線となる垂直方向の直線のうち最も同一角度が多い直線が、画像全体の垂直線と平行になるように、決算書を回転させる。
【0071】
ステップS208において、前処理部15は、画像における最も広い範囲を囲む枠線外側のデータを、不要なデータとして削除する。
【0072】
ステップS209において、前処理部15は、ステップS108の処理と同様に、画像内における数値等のテキストデータの座標に基づき、画像の傾きを解消する処理を行う。
【0073】
ステップS210において、前処理部15は、各勘定科目と、金額を示す数値のうち最も左上及び右下に位置するものとを囲む矩形領域外側のデータを、不要なデータとして削除する。
【0074】
ステップS211において、前処理部15は、決算書のテキストデータの少なくとも一部を、元の位置とは異なる位置に再配置する処理を行う。具体例として、前処理部15は、
図9に示すような、以下の処理を実行する。
【0075】
(1)決算書の各列について、テキストデータそれぞれの座標を算出する。
【0076】
(2)決算書の各列について、テキストデータの行頭を揃え、行間を調整する処理を行う。
【0077】
ステップS212において、前処理部15は、画像内のテキストデータについて、上下方向のy座標が同じ勘定科目と数値とを関連付ける。
【0078】
ステップS213について、前処理部15は、画像に「構成比」「連結」「前事業」という文字列の何れかが含まれるか否かを判定する。前処理部15が、画像に上記文字列の何れかが含まれると判定した場合、続いてステップS214の処理が実行され、画像に上記文字列が含まれないと判定した場合、続いてステップS215の処理が実行される。ただし、本ステップS203において判定の対象となる文字列は、上記に例示したものに限定されない。
【0079】
ステップS214において、前処理部15は、画像に含まれる上記文字列を含む列部分、或いは上記文字列に対応する所定の列部分を削除する。
【0080】
ステップS215において、読取部16は、前処理部15が前処理を行った画像におけるテキストデータの読取を行う。
【0081】
ステップS216において、読取部16は、対象となるテキストデータと、数値、又は事前に記憶部20に登録された勘定科目であって、損益計算書の勘定科目の何れかとの近似度が所定以上であるか否かを、各データを突合して判定する。
【0082】
読取部16が、上記近似度が所定以上であると判定した場合、続いてステップS118の処理が実行され、上記近似度が所定未満であると判定した場合、続いてステップS119の処理が実行される。
【0083】
ステップS118~S120においては、実施形態1と同様の処理が実行される。以上、
図8のフローチャートに基づく処理の流れについて説明した。
【0084】
なお、決算書の種類が販売管理費である場合においても、前処理部15が上記種類に応じた前処理を行った上で、読取等の処理が実行される。決算書の種類が販売管理費である場合においては、例えば
図8のフローチャートに示す処理において、ステップS212の処理に続いてステップS215の処理が行われる構成であってもよい。
【0085】
なお、前処理部15が決算書の画像に対して行う、決算書の種類に応じた前処理は、各実施形態において上述した例に限定されない。例えば前処理部15は、所定の種類の決算書に含まれる一部の勘定科目に対応する項目を削除する等の処理を行う構成であってもよい。
【0086】
〔ソフトウェアによる実現例〕
情報処理装置10の制御ブロック(特に取得部14、前処理部15、読取部16、提示部17および算出部18)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、ソフトウェアによって実現してもよい。
【0087】
後者の場合、情報処理装置10は、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータを備えている。このコンピュータは、例えば1つ以上のプロセッサを備えていると共に、上記プログラムを記憶したコンピュータ読み取り可能な記録媒体を備えている。そして、上記コンピュータにおいて、上記プロセッサが上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記プロセッサとしては、例えばCPU(Central Processing Unit)を用いることができる。上記記録媒体としては、「一時的でない有形の媒体」、例えば、ROM(Read Only Memory)等の他、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムを展開するRAM(Random Access Memory)などをさらに備えていてもよい。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
【0088】
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
【符号の説明】
【0089】
1 情報処理システム
10 情報処理装置
12 制御部
14 取得部
15 前処理部
16 読取部
17 提示部
18 算出部
20 記憶部
22、34 通信部
30 端末装置
32 表示部