IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ VANDDD株式会社の特許一覧

特開2024-136122情報読取装置、情報読取方法、およびプログラム
<>
  • 特開-情報読取装置、情報読取方法、およびプログラム 図1
  • 特開-情報読取装置、情報読取方法、およびプログラム 図2
  • 特開-情報読取装置、情報読取方法、およびプログラム 図3
  • 特開-情報読取装置、情報読取方法、およびプログラム 図4
  • 特開-情報読取装置、情報読取方法、およびプログラム 図5
  • 特開-情報読取装置、情報読取方法、およびプログラム 図6
  • 特開-情報読取装置、情報読取方法、およびプログラム 図7
  • 特開-情報読取装置、情報読取方法、およびプログラム 図8
  • 特開-情報読取装置、情報読取方法、およびプログラム 図9
  • 特開-情報読取装置、情報読取方法、およびプログラム 図10
  • 特開-情報読取装置、情報読取方法、およびプログラム 図11
  • 特開-情報読取装置、情報読取方法、およびプログラム 図12
  • 特開-情報読取装置、情報読取方法、およびプログラム 図13
  • 特開-情報読取装置、情報読取方法、およびプログラム 図14
  • 特開-情報読取装置、情報読取方法、およびプログラム 図15
  • 特開-情報読取装置、情報読取方法、およびプログラム 図16
  • 特開-情報読取装置、情報読取方法、およびプログラム 図17
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024136122
(43)【公開日】2024-10-04
(54)【発明の名称】情報読取装置、情報読取方法、およびプログラム
(51)【国際特許分類】
   G06Q 99/00 20060101AFI20240927BHJP
   G06V 30/412 20220101ALI20240927BHJP
   G06V 30/12 20220101ALI20240927BHJP
【FI】
G06Q99/00
G06V30/412
G06V30/12 B
【審査請求】未請求
【請求項の数】25
【出願形態】OL
(21)【出願番号】P 2023047107
(22)【出願日】2023-03-23
(71)【出願人】
【識別番号】518421751
【氏名又は名称】VANDDD株式会社
(74)【代理人】
【識別番号】110003476
【氏名又は名称】弁理士法人瑛彩知的財産事務所
(72)【発明者】
【氏名】阿部 諒馬
【テーマコード(参考)】
5B029
5B064
5L049
【Fターム(参考)】
5B029AA01
5B029BB02
5B029BB12
5B029BB14
5B029BB17
5B029CC17
5B029CC26
5B029CC28
5B064AA01
5B064AB02
5B064BA01
5B064EA11
5B064EA15
5B064EA18
5B064EA27
5B064FA05
5B064FA10
5L049EE04
(57)【要約】
【課題】資料から所定の情報を読み取る改善された仕組みを提供する。
【解決手段】画像データから文字認識する文字認識手段と、所定の読取項目と、文字認識された文字列のうち前記読取項目に対応する値と、を出力する出力手段と、出力された前記値の承認を受け付ける承認受付手段と、承認された前記値を前記所定の読取項目に対応付けて記憶する記憶手段と、を備える情報読取システム。
【選択図】図14
【特許請求の範囲】
【請求項1】
画像データから文字認識する文字認識手段と、
所定の読取項目と、文字認識された文字列のうち前記読取項目に対応する値と、を出力する出力手段と、
出力された前記値の承認を受け付ける承認受付手段と、
承認された前記値を前記所定の読取項目に対応付けて記憶する記憶手段と、
を備える情報読取システム。
【請求項2】
文字認識された前記文字列が、所定の読取項目および/または当該読取項目に対応する値であるかを判定する判定手段を備える、請求項1に記載の情報読取システム。
【請求項3】
前記出力手段は、出力された前記値に対して強調表示する、請求項1または2に記載の情報読取システム。
【請求項4】
前記出力手段は、前記文字列の認識精度に応じて、出力された前記値に対する前記強調表示の方式を変化させる、請求項3に記載の情報読取システム。
【請求項5】
前記承認受付手段は、出力された前記値が選択された場合、当該値の承認または変更を受け付ける確認画面を表示する、請求項1または2に記載の情報読取システム。
【請求項6】
前記確認画面は、前記値と、前記画像データが表す画像のうち当該値に対応する部分を含む部分画像と、を含む、請求項5に記載の情報読取システム。
【請求項7】
前記判定手段は、文字認識された前記文字列が、前記所定の読取項目ごとに予め用意された、当該所定の読取項目と同一または同等の意味を有する用語からなる読取項目グループのいずれかと一致する場合、前記文字列を、前記所定の読取項目に置き換える、請求項2に記載の情報読取システム。
【請求項8】
前記所定の読取項目に対する値がない場合、新たな入力を受け付ける入力受付手段を備える、請求項1または2に記載の情報読取システム。
【請求項9】
前記出力手段は、前記所定の読取項目および前記値とともに、前記画像データに対応する画像を表示する、請求項1または2に記載の情報読取システム。
【請求項10】
前記出力手段は、前記画像データに対応する画像のうち、出力された前記値に対応する部分を強調表示する、請求項9に記載の情報読取システム。
【請求項11】
前記画像データに対応する画像において、前記所定の読取項目および前記値が表の欄内に記入されている場合、
前記出力手段は、出力された前記値に対応する欄の枠部および内部領域の少なくとも一方に対して強調表示する、請求項10に記載の情報読取システム。
【請求項12】
前記所定の読取項目に対する値が出力されない場合、前記値として新たな入力を受け付ける入力受付手段を備え、
前記入力受付手段が新たな入力を受け付けた場合、前記出力手段は、前記画像データに対応する画像のうち、受け付けられた前記新たな入力の値に対応する部分を強調表示する、請求項9に記載の情報読取システム。
【請求項13】
画像データから文字認識するステップ、
所定の読取項目と、文字認識された文字列のうち前記読取項目に対応する値と、を出力するステップ、
出力された前記値の承認を受け付けるステップ、
承認された前記値を前記所定の読取項目に対応付けて記憶するステップ、
を含む情報読取方法。
【請求項14】
文字認識された前記文字列が、所定の読取項目および/または当該読取項目に対応する値であるかを判定する判定ステップを含む、請求項13に記載の情報読取方法。
【請求項15】
前記出力ステップは、出力された前記値に対して強調表示する、請求項13または14に記載の情報読取方法。
【請求項16】
前記出力ステップは、前記文字列の認識精度に応じて、出力された前記値に対する前記強調表示の方式を変化させる、請求項15に記載の情報読取方法。
【請求項17】
前記承認受付ステップは、出力された前記値が選択された場合、当該値の承認または変更を受け付ける確認画面を表示する、請求項13または14に記載の情報読取方法。
【請求項18】
前記確認画面は、前記値と、前記画像データが表す画像のうち当該値に対応する部分を含む部分画像と、を含む、請求項17に記載の情報読取方法。
【請求項19】
前記判定ステップは、文字認識された前記文字列が、前記所定の読取項目ごとに予め用意された読取項目グループに含まれる項目名と一致する場合、前記文字列を、前記所定の読取項目に置き換える、請求項14に記載の情報読取方法。
【請求項20】
前記所定の読取項目に対する値がない場合、新たな入力を受け付ける入力受付ステップを含む、請求項13または14に記載の情報読取方法。
【請求項21】
前記出力ステップは、前記所定の読取項目および前記値とともに、前記画像データに対応する画像を表示する、請求項13または14に記載の情報読取方法。
【請求項22】
前記出力ステップは、前記画像データに対応する画像のうち、出力された前記値に対応する部分を強調表示する、請求項21に記載の情報読取方法。
【請求項23】
前記画像データに対応する画像において、前記所定の読取項目および前記値が表の欄内に記入されている場合、
前記出力ステップは、出力された前記値に対応する欄の枠部および内部領域の少なくとも一方に対して強調表示する、請求項22に記載の情報読取方法。
【請求項24】
前記所定の読取項目に対する値が出力されない場合、前記値として新たな入力を受け付ける入力受付ステップを含み、
前記入力受付ステップにおいて新たな入力を受け付けた場合、前記出力ステップは、前記画像データに対応する画像のうち、受け付けられた前記新たな入力の値に対応する部分を強調表示する、請求項21に記載の情報読取方法。
【請求項25】
コンピュータに請求項13または14に記載の情報読取方法の各ステップを実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報読取装置、情報読取方法、およびプログラムに関する。
【背景技術】
【0002】
本技術分野の背景技術として、特開2006-252575号公報(特許文献1)がある。この公報には、「諸表を、スキャナーによりイメージ入力した入力結果を、科目欄・金額欄別の認識処理し、イメージ情報の文字をデジタル化処理手段と、デジタル化認識の文字を文字列と数値を分割し、文字列を勘定科目辞書と突合わせチェックする突合わせ処理手段を備え、前記誤読文字と判定の文字列を正しい文字列に置換する処理手段と、デジタル化処理手段に、認識処理に際し、画面に表示された読み取り枠パターンから最も類似したパターンの選択により自動的に勘定科目、金額範囲を枠でくくる処理を含む」と記載されている(要約参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2006-252575号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
前記特許文献1には、活字文字で印書された財務諸表を、スキャナーを利用しイメージ情報として入力した後、自動的にイメージ情報の文字を認識し、デジタル文字に高精度で置換するための財務諸表自動入力装置が記載されている。しかしながら、特許文献1では、諸表等から予め定められた一部の情報を読み取る仕組みについては検討がなされていない。
そこで、本発明は、表等の資料から所定の情報を読み取る改善された仕組みを提供する。
【課題を解決するための手段】
【0005】
上記課題を解決するために、例えば特許請求の範囲に記載の構成を採用する。
本願は上記課題を解決する手段を複数含んでいるが、その一例を挙げるならば、画像データから文字認識する文字認識手段と、所定の読取項目と、文字認識された文字列のうち前記読取項目に対応する値と、を出力する出力手段と、出力された前記値の承認を受け付ける承認受付手段と、承認された前記値を前記所定の読取項目に対応付けて記憶する記憶手段と、を備える情報読取システムを提供することを特徴とする。
【発明の効果】
【0006】
本発明によれば、資料から所定の情報を読み取る改善された仕組みを提供することができる。
上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
【図面の簡単な説明】
【0007】
図1図1は、全体の情報読取システム100の構成の例である。
図2図2は、管理サーバ101のハードウェア構成の例である。
図3図3は、ユーザ端末102のハードウェア構成の例である。
図4図4は、ユーザ情報400の例である。
図5図5は、辞書情報500の例である。
図6図6は、貸借対照表辞書情報600の例である。
図7図7は、情報読取フロー700の例である。
図8図8は、情報表示フロー800の例である。
図9図9は、承認受付フロー900の例である。
図10図10は、入力受付フロー1000の例である。
図11図11は、読取前の表示画面1100の例である。
図12図12は、画像データに対応する画像1200の例である。
図13図13は、読取表1300の例である。
図14図14は、読取結果出力画面1400の例である。
図15図15は、確認画面を表示した読取表1500の例である。
図16図16の(A)および(B)は、承認受付表示1600の例である。
図17図17は、読取結果出力画面1700の他の例である。
【発明を実施するための形態】
【0008】
以下、実施例を図面を用いて説明する。なお各図面において、同一の機能を有する構成については、符号の付与と重ねての説明を省略する場合がある。
【実施例0009】
図1は、一実施形態に係る情報読取システム100の構成図の例である。
情報読取システム100は、1又は複数の管理サーバ101と、1又は複数のユーザ端末102と、を備えている。管理サーバ101は、本技術における情報読取装置の一例である。1又は複数のユーザ端末102はそれぞれ、ネットワークを介して1又は複数の管理サーバ101に接続可能に構成されている。なお、ネットワークは、有線、無線を問わず、それぞれの端末はネットワークを介して情報を送受信することができる。
【0010】
ユーザ端末102は、管理サーバ101から出力される情報読取コンテンツを利用して、認識した情報の確認や修正を実施するためにユーザが使用する端末である。また、本情報読取システム100において、ユーザ端末102は、管理サーバ101と別個に設けられていてもよいし、管理サーバ101と一体的に設けられていてもよい。また、管理サーバ101を単独で情報読取システム100とすることもできる。
【0011】
情報読取システム100のユーザ端末102や管理サーバ101は、例えば、スマートフォン、タブレット、携帯電話機、携帯情報端末(PDA)などの携帯端末(モバイル端末)でもよいし、メガネ型やヘッドマウント型、腕時計型、着衣型などのウェアラブル端末でもよい。また、これらは、据置型または携帯型のコンピュータや、クラウドやネットワーク上に配置されるサーバでもよい。また、機能としてはVR(仮想現実:Virtual Reality)端末、AR(拡張現実:Augmented Reality)端末、MR(複合現実:Mixed Reality)端末でもよい。あるいは、これらの複数の端末の組合せであってもよい。例えば、1台のスマートフォンと1台のウェアラブル端末との組合せが論理的に一つの端末として機能し得る。またこれら以外の情報処理端末であってもよい。
【0012】
情報読取システム100のそれぞれの端末や管理サーバ101は、それぞれオペレーティングシステムやアプリケーション、プログラムなどを実行するプロセッサと、RAM(Random Access Memory)等の主記憶装置と、ICカードやハードディスクドライブ、SSD(Solid State Drive)、フラッシュメモリ等の補助記憶装置と、ネットワークカードや無線通信モジュール、モバイル通信モジュール等の通信制御部と、タッチパネルやキーボード、マウス、音声入力装置、カメラ部の撮像による動き検知による入力装置などの入力装置と、モニタやディスプレイ、プリンタ、音声出力装置、発振器等の出力装置と、を備える。なお、出力装置、外部のモニタやディスプレイ、プリンタ、機器などに、出力するための情報を送信する装置や端子であってもよい。
【0013】
主記憶装置には、各種プログラムやアプリケーションなど(ソフトウェア・モジュール)が記憶されており、これらのプログラムやアプリケーションをプロセッサが実行することで全体システムの各機能要素が実現される。なお、各モジュールはそれぞれ独立したプログラムやアプリケーションであってもよいが、1つの統合プログラムやアプリケーションの中の一部のサブプログラムや関数などの形で実装されていてもよい。また、これらの各モジュールは回路を集積化したりマクロコンピュータを採用することなどにより、ハードウェアとして実装してもよい(ハードウェア・モジュール)。
【0014】
本明細書では、各モジュールが、処理を行う主体(主語)として記載されているが、実際には各種プログラムやアプリケーションなどを処理するプロセッサが処理を実行する。
【0015】
補助記憶装置には、各種データベース(DB)が記憶されている。「データベース」とは、プロセッサまたは外部のコンピュータからの任意のデータ操作(例えば、抽出、追加、削除、上書きなど)に対応できるように整理して収集されたデータ集合である。補助記憶装置は、1又は複数のデータ集合を記憶する機能要素(記憶部)である。データベースの実装方法は限定されず、例えばデータベース管理システムでもよいし、表計算ソフトウェアでもよいし、XML、JSONなどのテキストファイルでもよい。
【0016】
情報読取システム100が読取の対象とする情報は特に限定されない。本技術に係る情報読取システム100は、読取対象の情報を、例えば、紙媒体に各種情報が記載された資料をイメージデータ化(画像データ化)したものであってよい。読取対象の情報は、これに限定されるものではないが、典型的には、例えば、貸借対照表、損益計算書、利益処分案、キャッシュフロー計算書、株主資本等変動計算書、有価証券報告書、計算書類、会計帳簿、請求書等の財務諸表であってよい。また、読取の対象とする情報は、不動産鑑定評価書、不動産情報資料(例えば、不動産の概要,間取り図,契約情報などが取りまとめられている資料であって、一例として「マイソク」等と呼ばれるもの)等の不動産情報や、各種契約書、医療用カルテ、フローチャート等の各種資料であってよい。
【0017】
これらの資料は多くの情報を含み、それらの情報は、典型的には表形式で、項目ごとに内容が記載されている。あるいは、項目名とその値とが対応して記された記載を含む。ここで、これらの資料の用途の一つとして、当該資料に示されている多くの情報のうちから一部の情報のみを取得したい場合がある。例えば、企業のM&Aや相続に際して企業価値を算定する場合、資料中から企業価値の算定に必要または有用な情報のみを取得したい場合などである。このような場合、資料に含まれる全ての情報を読み取ったのち、読み取った情報の中から必要情報を抽出することが考えられる。なおここで、非上場企業の価値を算定する場合等には、例えば、同業の複数の上場企業の企業価値を参考にして算定する場合がある。
【0018】
本発明者らは、上記のような場合にいくつかの異なる課題が存在しうることに着目した。すなわち、資料に記載された情報を読み取るOCR技術は、高精度化および高速化しているが、非常に多くの情報をすべて取得するにはより多くの時間を要すること。また、OCR技術によって読み取られた情報が正確であるかどうかは、人手による確認作業が欠かせないこと。情報の確認作業において、多くの情報のうち一部の情報について正確性を確認すればよい場合であっても、ヒトは、提示されたすべての情報について、正確性を確認したがる性質があること。本技術は、上記課題のいずれか1以上を改善しながら、資料等から所定の情報を読み取る仕組みを提供する。
【0019】
以下では、情報読取システム100による主たる読取対象を貸借対照表とし、貸借対照表についてその一部の情報の読み取りを行う場合を例にして、本技術について説明する。
【0020】
図2は、管理サーバ101のハードウェア構成を例示している。
管理サーバ101は、本実施例の情報読取システム100を管理する要素である。管理サーバ101は、例えばクラウド上に配置されたサーバによって構成される。管理サーバ101は、主記憶装置201と、補助記憶装置202と、を備える。管理サーバ101はまた、上述のとおりのプロセッサ203と、入力装置204と、出力装置205(出力手段の一例)と、通信制御部206と、を備える。
【0021】
主記憶装置201には、ユーザ端末管理モジュール211、イメージ管理モジュール212、文字認識モジュール213、出力モジュール214、承認受付モジュール215、記憶モジュール216、判定モジュール217、入力受付モジュール218等のプログラムやアプリケーションが記憶されている。管理サーバ101の各機能要素は、主記憶装置201に記憶されたこれらのプログラムやアプリケーションをプロセッサ203が実行することによって実現される。
【0022】
補助記憶装置202には、情報読取システム100の動作に必要な情報が記憶される。補助記憶装置202には、例えば、ユーザ情報400、辞書情報500、貸借対照表辞書情報600等が記憶されている。補助記憶装置202にはまた、例えば、イメージデータ221(本技術における画像データの一例)、読取データ222等が記憶される。これらの情報の詳細については、後述する。
【0023】
まず、管理サーバ101の各機能要素について説明する。
ユーザ端末管理モジュール211は、ユーザ端末102の動作を管理する。ユーザ端末管理モジュール211は、ユーザ端末102のユーザ実行モジュール311と連携して、ユーザ端末102において情報読取システム100を用いて実行される、情報の読み取りのための基本的な動作を制御する。
【0024】
例えば、ユーザ端末管理モジュール211は、ユーザ実行モジュール311と連携して、ユーザ端末102のディスプレイ等の出力装置305に、管理サーバ101が実行する情報読取に使用するログインページ、ユーザ情報管理ページ等を出力(表示)する。また、ユーザ端末管理モジュール211は、例えば、ユーザ端末102のユーザ実行モジュール311と連携して、これらのページを経てユーザ端末102から入力された入力情報を取得する。ユーザ端末管理モジュール211は、例えば、取得した情報(各種情報、指示等)に基づいて動作したり、取得した情報をユーザ情報400等として補助記憶装置202に出力(記憶)したりする。
【0025】
イメージ管理モジュール212は、読取対象である情報についてのイメージデータ(画像データ)を管理する。イメージ管理モジュール212は、例えば、読取対象であるイメージデータを取得する。イメージ管理モジュール212は、例えば、入力装置204を介してイメージデータを取得してもよいし、通信制御部206を介して外部機器等からイメージデータを取得してもよい。一例として、イメージ管理モジュール212は、例えば、ユーザ端末102のユーザ実行モジュール311と連携し、ユーザ端末102を介して、イメージデータを取得する。イメージデータは、例えば、ユーザ端末102に保存されていてもよいし、ユーザ端末102の操作によってユーザ端末102のカメラ306やイメージスキャナ(入力装置304の一例)等によって生成されるものであってもよい。イメージ管理モジュール212はまた、例えば、ユーザ端末102とは異なる保存場所にアクセスすることにより、当該保存場所に保存されているイメージデータを取得してもよい。
【0026】
文字認識モジュール213は、画像データから文字認識する要素である。文字認識モジュール213は、例えば、光学文字認識(Optical Character Reader:OCR)機能やAI搭載OCR(Intelligent Character Recognition:ICR)に代表される文字認識機能を備えている。文字認識機能は、イメージデータ221から、文字列を認識してテキストデータに変換する機能である。ここで、本技術における「文字列」とは、1つ以上の文字または記号であり、文字(かな、漢字、アルファベット、数字等)および記号の少なくとも一つが単独で配されているか、または複数が連なって配されているものである。
【0027】
出力モジュール214は、所定の読取項目と、文字認識された文字列のうち読取項目に対応する値と、を出力する要素である。出力モジュール214は、例えば、ユーザ端末102のユーザ入力受付モジュール312と連携し、ユーザ端末102のディスプレイ(出力装置305の一例)に、文字認識モジュール213による読取結果に基づいて、読取項目とこれに対応する値とを出力する。出力モジュール214の具体的な動作については、後述する。
【0028】
ここで、「所定の読取項目」とは、資料に記載されている多くの情報のうち、読取るべき情報についての項目であって、この所定の読取項目は、資料の読取目的に応じて適宜設定される。例えば、一実施形態に係る企業価値算定の目的で貸借対照表を読み取る場合、「所定の読取項目」としては、「株主資本」、「長期借入金」等の勘定科目とすることが例示される。読取項目の数は特に制限されず、1または2以上であってよい。
【0029】
承認受付モジュール215は、出力された値の承認を受け付ける要素である。出力モジュール214は、例えば、ユーザ端末102のユーザ入力受付モジュール312と連携し、ユーザがユーザ端末102の入力装置304を介して入力する、出力された値に対する「承認」の指示を受け付ける。
【0030】
記憶モジュール216は、承認された値を所定の読取項目に対応付けて記憶する。記憶モジュール216は、例えば、承認受付モジュール215によって承認を受け付けた出力値を、読取項目と対応付けて出力(記憶)する。記憶モジュール216は、これらの読取項目と値との組み合わせを、例えば、読取データ222として記憶する。
【0031】
判定モジュール217は、管理サーバ101の付加的な要素であって、文字認識された文字列が、所定の読取項目および/または当該読取項目に対応する値であるかを判定する。判定モジュール217は、例えば、所定の読取項目と、この読取項目に対応する値との組み合わせを取得することができるように構成されている。この判定モジュール217は、例えば、出力モジュール214が実行する処理を補助する要素として機能することができる。判定モジュール217の具体的な動作については、後述する。
【0032】
入力受付モジュール218は、管理サーバ101の付加的な要素であって、値についての新たな入力を受け付ける。入力受付モジュール218は、例えば、所定の読取項目に対応する値がない場合、当該値についての新たな入力を受け付ける。入力受付モジュール218はまた、例えば、所定の読取項目ではない別の読取項目について対応する値がない場合に、当該値についての新たな入力を受け付けることができるように構成されていてもよい。入力受付モジュール218は、例えば、ユーザ端末102のユーザ入力受付モジュール312と連携して、ユーザ端末102を介したユーザによる値についての新たな入力を受け付ける。
【0033】
図3は、ユーザ端末102のハードウェア構成の例である。ユーザ端末102は、本情報読取システムを利用するユーザが操作する端末であり、例えばスマートフォン、タブレット、ノートPC、デスクトップPC等の端末で構成される。ユーザ端末102は、主記憶装置301と、補助記憶装置302と、を備える。ユーザ端末102はまた、上述のとおりのプロセッサ303と、入力装置304と、出力装置305と、カメラ306と、通信制御部307と、を備える。
【0034】
主記憶装置301には、ユーザ実行モジュール311、ユーザ入力受付モジュール312等のプログラムやアプリケーションが記憶されており、これらのプログラムやアプリケーションをプロセッサ303が実行することで、ユーザ端末102の各機能要素が実現される。
【0035】
ユーザ実行モジュール311は、ユーザ端末102の基本的な動作を制御する。ユーザ実行モジュール311は、例えば、管理サーバ101のユーザ端末管理モジュール211と連携して、情報読取システム100を用いて実行される、情報の読み取りのための基本的な動作を制御する。
【0036】
例えば、ユーザ実行モジュール311は、管理サーバ101のユーザ端末管理モジュール211と連携して、ユーザ端末102のディスプレイ等の出力装置305に、情報読取に使用するログインページ、ユーザ情報管理ページ、読取結果出力ページ等の所定の表示画面を出力(表示)する。また、ユーザ実行モジュール311は、例えば、管理サーバ101のイメージ管理モジュール212と連携して、補助記憶装置302に記憶された読取対象であるイメージデータ221を管理サーバ101に送信する。さらにユーザ実行モジュール311は、管理サーバ101のイメージ管理モジュール212と連携して、例えば、表示画面や入力装置304を介してユーザにより入力された基本的な入力情報を、管理サーバ101に送信する。
【0037】
ユーザ入力受付モジュール312は、ユーザ端末102の付加的な要素であり、情報の読取に関するユーザからの入力を受け付ける。ユーザ入力受付モジュール312は、例えば、管理サーバ101の入力受付モジュール218と連携して、例えば、表示画面や入力装置304を介してユーザにより入力された、値についての新たな入力情報を受け付けて管理サーバ101に送信する。
【0038】
補助記憶装置302には、ユーザ端末102の動作に必要な情報が記憶される。補助記憶装置302には、例えば、ユーザ情報400、イメージデータ221等が記憶されている。これらの情報は、管理サーバ101に記憶されたユーザ情報400、イメージデータ221等のうち、当該ユーザ端末102に関連する情報の一部または全部であってよい。
【0039】
図4図6は、管理サーバ101に記憶されている各種情報である。これに限定されるものではないが、これらの情報の一部又は全部は、JSON形式のファイルに記憶することを想定している。これらの情報の一部又は全部は、リレーショナルデータベースや、非リレーショナルデータベースに記憶される構成であってよい。
【0040】
図4は、ユーザ情報400の例である。
ユーザ情報400は、情報読取システム100を利用するユーザに関する情報である。ユーザ情報400は、例えば、ユーザID、ユーザ表示ID、ユーザ名、業種ID、業種、資本金、責任者、住所等の情報を含み、それぞれフィールド名(項目名)410に対してサンプル値420で例示するような値が入力されている。
【0041】
ユーザIDは、ユーザを識別するために各ユーザに付される記号であり、ハッシュ値等として自動的に生成される。各ユーザに関する情報は、基本的にはこのユーザIDによって紐づけられる。ユーザIDは、他の情報から参照される主キーである。ユーザ表示IDは、管理サーバ101やユーザ端末102等の画面に表示されるユーザの表示用のIDであり、任意に設定することができる。ユーザ表示IDは、例えばユーザが、所定の記号または文字を用い、所定の条件(例えば、10字以内)の範囲内で任意に設定することができる。ユーザ名、資本金、責任者、住所はそれぞれ、ユーザ(自然人および法人を含む。以下同じ。)についての、氏名または名称、資本金、情報読取システム100の利用責任者、住所または所在地、に関する情報である。業種ID、業種は、ユーザについての業種と、当該業種を識別するための記号に関する情報である。業種および業種IDは、これに限定されるものではないが、例えば、日本標準産業分類にしたがう分類と分類コード等を採用することができる。ユーザ情報400は、その他各種の手続情報,ユーザ登録情報等を含んでもよい。
【0042】
図5は、辞書情報500の例である。
辞書情報500は、情報読取システム100が読み取りの対象とする文字列(例えば、用語)等に関する辞書情報である。辞書情報500は、用途に応じて、例えば、(A)貸借対照表の読み取りに利用する貸借対照表用情報、(B)不動産情報資料の読み取りに利用する不動産資料用情報、等を含むことができる。辞書情報500は、例えば、辞書ID、辞書名、単語格納先URL、読取項目等の情報を含み、それぞれフィールド名510に対してサンプル値520で例示するような値が入力されている。
【0043】
辞書IDは、読取の対象となる資料に関連する用語情報(辞書)を識別するためのIDである。辞書名は、読取の対象となる資料に関連する辞書を示す情報である。単語格納先URLは、辞書情報の格納先を示す。例えば、辞書情報500が複数の資料または技術分野に関する用語辞書情報を備える場合、それぞれの用語辞書情報ごとに異なる格納先を用意することができる。
【0044】
読取項目は、上記の所定の読取項目を示す情報である。所定の読取項目は、例えば、読取の対象となる資料の種類ごとに予め定めることができる。読取項目は、例えば、読取対象である資料に記されている多数の項目の全部ではなく、多数の項目のうちの一部である場合に、この情報読取システム100の利点がよりよく発揮されるために好ましい。例えば、読取対象が(A)貸借対照表である場合と、(B)登記簿謄本である場合とでは、読取項目は異なり得る。また、例えば、読取対象が貸借対照表である場合、読取項目は、企業の所属する業界や業種ごとに定めることができる。読取項目は、例えば、後述する貸借対照表辞書情報600における項目610から選択される、いずれか1つまたは2つ以上とすることができる。辞書情報500には、後述する読取表に含まれる、好ましい読取項目を示す情報が記録されていてもよい。
【0045】
図6は、貸借対照表辞書情報600の例である。
貸借対照表辞書情報600は、情報読取システム100が貸借対照表を読み取る場合に利用する辞書情報である。貸借対照表辞書情報600は、例えば、項目610、対応項目620等の情報を含み、それぞれ項目610に対して対応項目620で例示するような値が入力されている。
【0046】
項目610は、貸借対照表の項目名として用いられる用語に関する情報である。項目610は、典型的には、読取対象の資料における項目名に関する情報を含む。貸借対照表辞書情報600の場合、例えば、具体的な勘定科目名(例えば、資産の部、流動資産、現金及び預金…)等に関する情報を含む。また、貸借対照表の項目欄に記入される用語として、例えば、普通預金口座1、普通預金口座2、○○銀行1、○○銀行2、当座預金等のような、預金種類、取引銀行、および口座を示す用語、ならびにこれらに序数を組み合わせた用語、を含むことができる。[A1]また、前期、今期、去年、今年、前年比などの用語を含んでもよい。一の貸借対照表辞書情報600における各項目610は、例えば、同一の意味、内容を示す文字列が2つ以上含まれることが無いように構成されている。本実施形態の貸借対照表辞書情報600は、項目610に、所定の読取項目を含むように構成されている。
【0047】
対応項目620は、項目610に示された項目名と同一または同等の意味、内容を示す用語(文字列)に関する情報である。対応項目620は、例えば、項目610に示された用語の他、その旧字体表現、慣用表現、表記揺れ表現、よくある誤記表現等を含む。対応項目620は、項目610に記録された一つの項目名に対して、複数の用語が記憶されている。この対応項目620に示された複数の用語は、本技術における項目グループ(読取項目グループの一例)を構成することができる。この貸借対照表辞書情報600を利用することで、対応項目620に示された文字列を、項目610に示された文字列に統合して表記揺れを抑制することができる。
【0048】
図12は、イメージデータ221に対応する画像1200の例である。イメージデータ221は、貸借対照表に対応した画像情報を備えている。
図13は、読取表1300の例である。読取表1300は、少なくとも読み取りが必要な所定の読取項目と、この読取項目に対応する値欄とを含む。読取表1300は、例えば、読み取ることが好ましい読取項目と、この読取項目に対応する値欄とを含む。
以下、情報読取システム100を用いて、この貸借対照表のイメージデータ221から、貸借対照表の記載情報を読取表1300読み取る方法について説明する。
【0049】
まず、ユーザの操作によって、ユーザ端末102のユーザ実行モジュール311が実行され、ユーザ端末102と管理サーバ101が接続される。管理サーバ101のユーザ端末管理モジュール211は、ユーザ端末102のユーザ実行モジュール311等と連携して、ユーザのログイン等の処理を実行する。
【0050】
図7は、情報読取フロー700の例である。情報読取システム100は、典型的には、情報読取フロー700の各ステップ(ステップ710~760)にしたがって、貸借対照表の記載情報を読み取る。なお、ステップ740は、付加的な工程であって、必須の工程ではない。
【0051】
[ステップ710]
まず、イメージ管理モジュール212は、情報の読取対象であるイメージデータ221を取得する。例えば、イメージ管理モジュール212は、管理サーバ101の入力装置204であるスキャナにより資料をスキャンすることで、イメージデータを取得する。また例えば、イメージ管理モジュール212は、補助記憶装置202に記憶されているイメージデータ221の中から、情報の読取対象となるイメージデータを選択することで取得してもよい。さらに、イメージ管理モジュール212は、例えば、ユーザ端末102から送信されたイメージデータを取得してもよい。イメージ管理モジュール212は、スマートフォン等のユーザ端末102のカメラ306によって貸借対照表を撮像することで生成されたイメージデータ221を取得するように構成されていてもよい。
【0052】
なお、イメージデータ221を取得するとき、イメージ管理モジュール212は、ユーザ端末102のユーザ実行モジュール311と連携して、ユーザ端末102のディスプレイに、読み取り対象であるイメージデータ221を指定するための画面を出力(表示)するように構成されていてもよい。ユーザは、ユーザ端末102を介して、読取対象の資料がどのような種類の資料であるかを、指定したり、選択できるように構成されていてもよい。
【0053】
イメージデータの指定方法は、例えば、ユーザ端末102の補助記憶装置302に既に格納されているイメージデータの中から、読取対象とするイメージデータ221を選択するものであってよい。あるいは、イメージデータの指定方法は、例えば、ユーザ端末102のスキャナ(入力装置304の一例)またはカメラ306を用いて、紙媒体からなる貸借対照表をスキャンまたは撮像することにより生成されたイメージデータを、読取対象のイメージデータ221とするものであってよい。さらに、管理サーバ101の補助記憶装置202に既に格納されているイメージデータの中から、読取対象とするイメージデータ221を選択するものであってよい。
【0054】
指定されたイメージデータ221がユーザ端末102の補助記憶装置302に格納されている場合、指定されたイメージデータ221は、ユーザ端末102から管理サーバ101に送られる。イメージ管理モジュール212は、イメージデータ221を受信し、例えば補助記憶装置202に格納する。
【0055】
イメージ管理モジュール212が取得するイメージデータ221の数は、1つまたは2つ以上であってよく、例えば一度に10以上のイメージデータ221を取得してもよい。これにより、ユーザは情報読取対象のイメージデータを指定することができる。
【0056】
図11は、情報の読取前の表示画面1100の例である。
これに限定されるものではないが、出力モジュール214は、ユーザ端末102のユーザ実行モジュール311と連携して、ユーザ端末102のディスプレイに、情報の読取前の表示画面1100を表示してもよい。出力モジュール214は、表示画面1100において、取得したイメージデータ221のいずれか1つに対応する画像1110と、読取表1120と、を並べて表示してもよい。なお、出力モジュール214は、表示画面1100において、読取表1120のみを表示してもよい。
【0057】
[ステップ720]
次いで、文字認識モジュール213は、イメージデータ221に含まれる文字情報を認識する。文字認識モジュール213は、文字認識機能によって、例えば、イメージデータ221に対応する画像の情報形態に基づいて、文字情報を認識し、テキストデータに変換する。このとき、文字認識モジュール213は、資料における文字の並び方向を識別し、その文字の並び方向に沿う文字の配列から、文節、単語(項目名を含む)等の意味をなす文字の並びを単位として文字列を認識する機能を有していてもよい。
【0058】
文字認識モジュール213が有する文字認識機能は、AI技術を含むものであってもよいし、AI技術を含まない非AI技術であってもよい。また、文字認識モジュール213が有する文字認識機能は、テキストデータ化された文字や記号を分析(AI的手法および非AI的手法を含む。以下同じ。)し、例えば、文節、単語、項目等の意味をなす単位で区切って認識することができる機能を備えていてもよい。また、文字認識モジュール213は、テキストデータ化された文字や記号を分析し、例えば、貸借対照表辞書情報600に含まれる項目等の意味をなす単位で区切って認識することができる機能を備えていてもよい。
【0059】
文字認識モジュール213は、このような読取結果を、例えば管理サーバ101の補助記憶装置202等に一時的に記憶することができる。
【0060】
[ステップ730]
そして、出力モジュール214は、所定の読取項目と、文字認識された文字列のうち前記読取項目に対応する値と、を出力する。
図14は、読取結果出力画面1400の例である。出力モジュール214は、例えば、ユーザ端末102のユーザ実行モジュール311と連携し、ユーザ端末102のディスプレイに、読取結果出力画面1400を出力(表示)する。
【0061】
出力モジュール214は、読取結果出力画面1400において、取得したイメージデータ221のいずれか1つに対応する画像1410と、読取表1420と、を並べて表示する。なお、出力モジュール214は、読取結果出力画面1400において、読取表1420のみを表示してもよい。
【0062】
本実施形態の読取表1420は、企業価値の算定(以下、単に「算定」という場合がある。)に使用するための貸借対照表の読取表である。この読取表1420は、貸借対照表に倣った科目欄(項目の一例)と金額欄(項目に対応する値の一例)とを含む。出力モジュール214は、科目欄に、一般的な勘定科目のうち、算定に必要な所定の読取項目を出力する。また、本実施形態における出力モジュール214は、付加的に、読取表1420の科目欄に、算定に用いると好ましい読取項目についても出力する。ここで、所定の読取項目と、好ましい読取項目とは、予め定められた項目名である。したがって、出力モジュール214は、読取表1420の科目欄に、貸借対照表の画像1410から読み取った勘定科目を表示するわけではない。また、出力モジュール214は、画像1410に示される貸借対照表中の全ての勘定科目またはこれに対応する項目名を表示するわけではない。
【0063】
そして出力モジュール214は、この読取表1420のうち、所定の読取項目に対応する金額欄に、文字認識された文字列のうち、当該所定の読取項目に対応する値を出力する。本実施例における所定の読取項目は、上記の通り、「株主資本」、「長期借入金」であり、出力モジュール214は、これら所定の読取項目に対応する金額を表す数字を、当該所定の読取項目に対応する金額欄に表示する。
【0064】
また、出力モジュール214は、この読取表1420のうち、所定の読取項目以外の、好ましい読取項目に対応する金額欄に、文字認識された文字列のうち、当該好ましい読取項目に対応する値を出力する。図14の例では、出力モジュール214は、好ましい読取項目のうち、「現金及び預金」、「売掛金」、「仕掛品」、「保険積立金」、「買掛金」、「資本金」に対応する金額を表す数字を、当該好ましい読取項目に対応する金額欄に表示している。読取表1420のうち、金額欄が空欄の個所は、文字認識された文字列の中に、対応する科目に相当する文字列が含まれていなかった(文字認識されなかった)ことを示す。
【0065】
[情報表示フロー]
ここで、出力モジュール214による、所定の読取項目およびこれに対応する値の表示について、判定モジュール217が協働する場合を例に、詳しく説明する。
図8は、情報表示フロー800の例である。出力モジュール214および判定モジュール217は、典型的には、情報表示フロー800の各ステップ(ステップ810~840)にしたがって、所定の読取項目およびこれに対応する値を表示する。
【0066】
まず、判定モジュール217が、文字認識モジュール213による文字認識の結果を取得する(ステップ810)。そして判定モジュール217は、例えば、文字認識モジュール213によって認識された結果から、貸借対照表における勘定科目(項目の一例)とその金額(値の一例)の組合せを取得する(ステップ820)。
【0067】
認識された文字列から項目とその値を対応づけて取得する手法としては、様々な手法を考慮することができる。一例として、以下のものが挙げられるが、文字列の対応づけの手法は、以下の例に限定されない。
【0068】
<項目と値の組合せの取得方法1>
まず、判定モジュール217は、文字認識された文字列を、例えば、数字のみからなる文字列と、文字のみからなる文字列と、に分類する。判定モジュール217は、文字のみからなる文字列については、意味のある単語、文節等に分けてさらに分類してもよい。これにより、文字認識された文字列を、その属性に基づいて大きく仕分け(例えば、「文字」または「数字」に仕分け)することができる。なお、上述のように、意味のある単語に連続して続く数字は序数と考えることができるため、単語と数字とで一つの文字列(例えば、属性が「文字」の文字列「○○銀行1」)として認識することができる。また、貸借対照表の記入慣習として、金額を表す数字中に桁区切りのコンマを加えたり、負債額を示す数字の前にマイナス記号や黒三角記号等を加えることがある。したがって、コンマで区切られた数字からなる文字列や、数字のみからなる文字列とこれに連続するマイナス記号や白三角、黒三角記号[A2]等とを一つの文字列(例えば、属性が「数字」の文字列「-100,000」)として認識することができる。
【0069】
次いで、判定モジュール217は、文字認識された文字列が、所定の項目ごとに予め用意された項目グループに含まれる項目名と一致するかどうかを判定する。具体的には、判定モジュール217は、例えば貸借対照表辞書情報600に基づいて、文字認識された文字列が、項目610および対応項目620に示された文字列に該当するかどうかを判定する。ここで、対応項目620に記録された勘定科目は、上記のとおり、項目610に記録された項目と同一または同等の意味を有する用語からなる項目グループを構成している。
【0070】
そして、文字認識された文字列が、項目610および対応項目620に示された文字列のいずれかと一致する場合、判定モジュール217は、この文字列を、項目610に示された文字列に置き換える。これにより、対応項目620に示された文字列に該当する文字列を、項目610に示された文字列に統合(換言すると、名寄せ)することができる。
【0071】
なお、判定モジュール217は、文字列を置き換えることに代えて、対応項目620に示された文字列に対して、項目610に示された文字列と共通の識別子を付与するなどしてもよい。このような構成によっても、対応項目620に示された文字列に該当する文字列を、項目610に示された文字列に統合することができる。
【0072】
また、判定モジュール217は、付加的に、文字認識された文字列について、文字認識の認識精度が相対的に高いものと、相対的に低いものと、の少なくとも一方を他方と区別するためのフラグを設けることができる。例えば、判定モジュール217は、文字認識された文字列と、貸借対照表辞書情報600に登録された用語とが完全に一致した場合、この文字列については文字の認識精度が相対的に高いことを示すフラグを付すことができる。この場合、フラグが付されていない文字列に関しては、文字の認識精度が相対的に低いと判断することができる。
【0073】
なお、文字認識において文字に比較して数字の認識精度は大幅に高いものの、読取対象である資料の状態等によっては認識精度が相対的に低くなり得る。そこで、判定モジュール217は、例えば、文字認識された数字からなる文字列の認識精度が十分に高い場合(典型的には95%以上、例えば100%)、この数字からなる文字列については文字の認識精度が相対的に高いことを示すフラグを付すことができる。この場合、フラグが付されていない当該文字列に関しては、数字の認識精度が相対的に低いと判断することができる。
【0074】
そして、判定モジュール217は、例えば以下のルールに基づいて、項目(勘定科目)とその値(金額)を対応付けることができる。
(1)例えば、文字列の属性が、順に「文字」、「数字」、「文字」、「数字」となった場合、最初の「文字」、「数字」を1つの組み合わせとして対応づけし、続く「文字」,「数字」を1つの組み合わせとして対応づける。
(2)例えば、文字列の属性が、順に「文字」、「数字」、「数字」、「文字」、「数字」となった場合、最初の「文字」、「数字」、「数字」を1つの組み合わせとして対応づけし、続く「文字」,「数字」を1つの組み合わせとして対応づける。
(3)例えば、文字列の属性が、順に「文字」、「数字」、「数字」、「数字」となった場合、「文字」を項目とし、続く3つの「数字」を値として当該項目に対応づける。同様に、一つの項目「文字」に対応する値「数字」の数は、3つ以上であってもよい。
(4)各組合せにおける最初の「文字」に属する文字列を項目とし、これに続く残りの文字列を「値」とする。
【0075】
判定モジュール217は、このような処理によって、文字認識した文字列を項目と値に簡便に分類し、対応づけることができる。文字列は、これに限定されるものではないが、例えば、キー・バリュー形式で対応づけることができる。キー・バリュー形式において、一つのキーに対応するバリューは、1つであってもよいし、2つ以上であってもよい。これにより、例えば大量の資料から情報を読み取る場合でも、予めスキーマを定義する必要なく、情報を記憶することができる。
【0076】
<項目と値の組合せの取得方法2>
判定モジュール217は、上記取得方法1に代えて、推定モデルを利用して項目と値の組合せを取得してもよい。すなわち、この推定モデルは、所定の業種を表すメッシュごとの貸借対照表の文字認識結果において、勘定科目(項目)と金額(値)の組合せの予測を行うための、機械学習により生成される学習済モデルである。この学習済みモデルは、業界ごとの貸借対照表の文字認識結果を含むテキストデータを入力値としたとき、文字認識結果に基づいて、業種ごとに関連付けられた所定の勘定科目とその金額との組み合わせを予測した予測組合せを出力する。貸借対照表は、業界ごとにそのフォーマットや、使用される勘定科目、および勘定科目の並び順がある程度共通する傾向がある。したがって、貸借対照表の文字認識結果から、その貸借対照表に記載された勘定科目と対応する金額との組合せを対応付けて取得することができる。かかる学習済みモデルを生成するための機械学習は、教師なし学習、教師あり学習、強化学習等のいずれであってもよい。また、所定の業種とは、任意に設定することができ、例えば複数の業種にまたがって共通する勘定科目(項目)と金額(値)の組合せや、その勘定科目の並び順があってよい。
【0077】
なお、上記の学習済モデルは、項目と値の組合せを予測して出力する際に、付加的に、文字認識された文字列について、文字認識の認識精度が相対的に高いものと、相対的に低いものと、の少なくとも一方を他方と区別するためのフラグを設けるように構成されていてもよい。例えば、学習済モデルは、文字認識された文字列と、業界ごとの貸借対照表に現れる用語とが高い確率で(典型的には95%以上、例えば100%)一致する場合、この文字列については文字の認識精度が相対的に高いことを示すフラグを付すことができる。この場合、フラグが付されていない文字列に関しては、文字の認識精度が相対的に低いと判断することができる。
【0078】
以上の項目と値の組合せは、貸借対照表辞書情報600に記憶された全ての項目610について取得してもよいし、項目610のうち、予め定められた所定の読取項目および好ましい読取項目についてのみ、取得するようにしてもよい。項目610に含まれる項目が所定の読取項目に該当するかどうかは、例えば、辞書情報500を参照することで把握することができる。
【0079】
その後、出力モジュール214は、所定の読取項目に対応する値を取得する(ステップ830)。具体的には、例えば出力モジュール214は、判定モジュール217によって取得された、文字認識文字列における項目と値の組合せと、所定の読取項目に関する情報とから、当該読取項目に対応付けられた値を取得することができる。そして、出力モジュール214は、読取表において、所定の読取項目に対応する値欄に、取得した値を表示する(ステップ840)。これにより、読取表1420に、所定の読取項目に対応する値を出力することができる。
【0080】
本明細書では、技術内容の把握を容易にするために、ステップ730において、出力モジュール214と判定モジュール217とが協働している。しかしながら、判定モジュール217が実行する処理ステップは、判定モジュール217に代えて、出力モジュール214が実行することもできる。
【0081】
[ステップ740]
次いで、出力モジュール214は、出力された値に対して強調表示する。例えば、出力モジュール214は、読取表1420において、所定の読取項目に対応する値欄1421,1422の枠部を、通常の枠線よりも太い太線や太点線等で描くことで強調表示している。このような構成によると、ヒトによる読取結果の確認に際し、確認すべき入力値がどこにあるのかを容易に把握することができる。
【0082】
また、出力モジュール214は、文字列の認識精度に応じて、読取表1420に出力された値に対する強調表示の方式を変化させることができる。例えば、出力モジュール214は、項目と値の組合せにおける両方の認識精度が相対的に高い場合(本実施形態の場合、両方の文字列にフラグが付されている場合)については、その値欄1421の枠部を太線で強調表示している。また、出力モジュール214は、項目と値の組合せにおける少なくとも一方の認識精度が相対的に低い場合(本実施形態の場合、少なくとも一方の文字列にフラグが付されていない場合)については、その値欄1422の枠部を太点線で強調表示している。このような構成によると、ヒトによる読取結果の確認に際し、認識精度の違いを一瞥して視認することができる。
【0083】
また、出力モジュール214は、文字列の認識精度に応じて、読取表1420に関する強調表示を色で変化させることができる。読取表1420の通常の枠線が黒ないしは灰色である場合、出力モジュール214は、例えば、項目と値の組合せに関する認識精度が相対的に高い場合に付された上記太線を識別しやすい緑色で表示し、認識精度が相対的に低い場合に付された上記太点線を注意喚起しやすい黄色で表示している。このような構成によると、ヒトによる読取結果の確認に際し、認識精度に応じて注意喚起の度合いを変化させることができる。例えば、認識精度が相対的に低い項目と値の組合せに関する出力について、より注意喚起を促すことができる。
【0084】
なお、読取表1420の強調表示の態様は上記例に限定されない。例えば、値欄の枠部の線種は特に制限されず、認識精度が相対的に高い文字列および相対的に低い文字列の一方または両方について、実線、点線、破線、一点鎖線などの任意の線種を採用することができる。あるいは、値欄の枠部の線種を変えることによる強調表示に代えて、他の強調表示を採用することができる。他の強調表示としては、これに限定されるものではないが、例えば、文字列に対して異なる字体(太字、斜体等)や着色などの装飾を施すこと、値欄の内部領域に対して着色などの装飾を施すこと、等が挙げられる。一例として、出力モジュール214は、例えば、認識精度が相対的に高い文字列については値欄を緑色で着色表示し、認識精度が相対的に低い文字列については値欄を黄色で着色表示することが挙げられる。
【0085】
また、出力モジュール214は、読取結果出力画面1400において、所定の読取項目および値とともに、イメージデータ221に対応する貸借対照表の画像1410を出力することができる。このとき出力モジュール214は、画像1410において、読取表1420に出力された値に対応する部分(つまり、読取領域1411,1412)を強調表示している。例えば、出力モジュール214は、画像1410のうち、読取表1420に出力された値欄とその所定の読取項目欄に対応する部分(読取領域1411,1412)を、着色表示している。
【0086】
このとき、出力モジュール214は、読取表1420における値欄の強調表示と同じ色で、貸借対照表の画像1410における上記読取領域1411,1412を着色している。例えば、出力モジュール214は認識精度が相対的に高かった読取領域1411については緑色で着色表示し、認識精度が相対的に低かった読取領域1412については黄色で着色表示している。このように、読取対象である資料の読取領域と、その読取結果の出力部分(要確認部分)とを、同じ色で強調表示することにより、ヒトによる文字認識結果の確認をより簡便に行うことができる。
【0087】
[ステップ750]
その後、承認受付モジュール215が、出力された値の承認を受け付ける。
図9は、承認受付フロー900の例である。承認受付モジュール215は、典型的には承認受付フロー900の各ステップ(ステップ910~930)にしたがって、出力された値の承認を受け付ける。
【0088】
まず、承認受付モジュール215は、出力された値の選択を受け付ける(ステップ910)。図15は、読取結果出力画面において、確認画面1530を表示した読取表1500の例である。この読取表1500において、項目「保険積立金」に対応する値欄1510には、値「353,819」が出力されている。ただし、読取表1500の値欄1510の枠部は黄色い太点線で表示されている。このような場合、貸借対照表の画像におけるこの項目「保険積立金」に対応する文字列の認識精度が相対的に低かったことが予想され、値欄1510に出力されている値「353,819」は、貸借対照表中の「保険積立金」とは異なる勘定科目に対応する金額である可能性がある。
【0089】
そこでユーザは、例えばカーソル1520等で読取表1500の値欄1510を選択することをもって、出力された値を選択する。これにより、承認受付モジュール215は、ユーザによる、出力された値の選択を受け付ける。
【0090】
出力された値が選択された場合、承認受付モジュール215は、当該値の承認または変更を受け付ける確認画面1530を表示する(ステップ920)。承認受付モジュール215は、例えば、読取表1500に重ねて確認画面1530を表示する。承認受付モジュール215は、例えば、選択された値欄1510には重ならないように確認画面1530を表示する。承認受付モジュール215は、確認画面1530において、例えば、値入力窓1532と、部分画像1531と、承認ボタン1533と、非承認ボタン1534と、を表示する。
【0091】
部分画像1531は、貸借対照表の画像1410についての部分画像であって、値欄1510に出力された値とその項目に対応する部分(読取領域)を含む。値入力窓1532は、数字の入力および編集が可能な文字入力ウィンドウであって、確認画面1530の表示の際には値欄1510に出力された数値が入力された状態となっている。承認受付モジュール215は、部分画像1531および値入力窓1532を互いに隣り合うように表示する。承認受付モジュール215は、部分画像1531および値入力窓1532における文字列を、画像1410および値欄1510に表示された当該文字列よりも、拡大して表示している。承認受付モジュール215が、読取対象画像と読取った値とを並べて表示することにより、ユーザは、目線を移動させることなく両者を容易に比較・確認することができる。これにより、ユーザの確認作業における負担を軽減することができる。
【0092】
承認受付モジュール215は、確認画面において、値の承認または値の変更を受け付ける(ステップ930)。
例えばユーザは、部分画像1531および値入力窓1532を確認することで、読取表1500における値「353,819」が、項目「保険積立金」に対応する値であるかどうかを確かめることができる。
【0093】
そして、値「353,819」が項目「保険積立金」に対応する値である場合、ユーザは、承認ボタン1533を選択することで、読取表1500の項目「保険積立金」に対する値「353,819」の入力が正しいと承認することができる。承認受付モジュール215は、ユーザによる承認ボタン1533の選択によって、上記入力の承認を受け付けることができる。
【0094】
一方で、例えば、項目「保険積立金」に対して、値「353,819」が誤りである場合、ユーザは、例えば、値入力窓1532に項目「保険積立金」に対応する正しい値を入力することで、値を変更することができる。承認受付モジュール215は、ユーザによる値入力窓1532への入力を受け付けることによって、値の変更を受け付けることができる。ユーザは、引き続き、承認ボタン1533を選択することで、値に対する変更を承認することができる。承認受付モジュール215は、ユーザによる承認ボタン1533の選択によって、値の変更を受け付けることができる。
【0095】
また、例えば、部分画像1531に含まれる項目が「保険積立金」ではない場合、ユーザは、非承認ボタン1534を選択することで、項目「保険積立金」に対応する値入力窓1532への入力を削除することができる。承認受付モジュール215は、ユーザによるは非承認ボタン1534の選択によって、上記値1532を承認せず、例えば上記値1532の削除を受け付けることができる。なお、ユーザは、項目「保険積立金」に対応する金額(値)がわかる場合は、当該値を値入力窓1532へ入力して、承認ボタン1533を選択してもよい。これにより、承認受付モジュール215は、ユーザによる値の変更と、変更された値の承認と、を受け付けることができる。
【0096】
<承認受け付けの変形例1>
なお、承認受付モジュール215による値の承認を受け付け手法は、上記例に限定されない。
図16の(A)および(B)はそれぞれ、承認受付表示1600の例である。承認受付モジュール215は、例えば、出力モジュール214が、所定の読取項目に対応する値を出力するのに合わせて、例えば、(A)および(B)に示すように、値欄1610,1620,1630の中に、承認受付表示1600を出力してもよい。
【0097】
図16(A)に示すように、承認受付モジュール215は、承認受付表示1600として、値欄1610内の左側に「確定する」ボタン1611を出力し、値欄1610の右側に「クリアする」ボタン1612を出力している。「クリアする」ボタン1612と重なる位置に、値が出力されている。承認受付表示1600は、「確定する」ボタン1611と、「クリアする」ボタン1612と、に区分されている。承認受付表示1600の輪郭は、他の枠部よりも太い太線で表示されている。
【0098】
そして承認受付モジュール215は、ユーザが「確定する」ボタン1611を選択することで、値欄1610に出力された値(ここでは、項目「現金及び預金」に対する値「53,116,631」)の承認を受け付けることができる。また、承認受付モジュール215は、ユーザが「クリアする」ボタン1612を選択することで、値欄1610に出力された値(ここでは、項目「現金及び預金」に対する値「53,116,631」)の削除を受け付けることができる。なお、値が削除された値欄1610は、数字の入力が可能な値入力窓となっている。ユーザは、値をクリアした場合であって、項目に対応する値欄1610に正しい数字を入力した場合は、「確定する」ボタン1611を選択して、入力した値を承認することができる。またユーザは、値をクリアした場合であって、値欄1610を空欄としたまま「確定する」ボタン1611を選択し、項目「現金及び預金」に対する値がないことを承認することもできる。
【0099】
承認受付モジュール215が、このように読取対象画像とボタン1611,1612とを並べて表示することにより、ユーザは、値欄の内容を確認した状態で目線を移動させることなくボタン1611,1612を視認することができる。このような構成によると、ユーザは、項目に対応する値欄に正しい数字が出力されていることを確認した場合に、「確定する」ボタン1611を選択するという一度の操作で、当該値を承認することができる。これにより、ユーザの確認作業における負担を軽減することができる。承認受付モジュール215は、ユーザによる「確定する」ボタン1611の選択を受け付けることによって、ユーザによる承認を受け付けることができる。
【0100】
<承認受け付けの変形例2>
また、図16(B)に示すように、文字認識された項目と値の組合せにおいて、項目の文字列の認識精度が相対的に低く、例えば、項目「○掛金」-値「42,004,001」のように認識されている場合の、出力モジュール214による出力例を示している。このとき、項目「○掛金」に該当する勘定科目の候補としては、「売掛金」、「買掛金」、「その他の売上債権」等が考えられるが、「買掛金」については、認識精度が相対的に高い項目と値の組合せが適用された。このような場合、出力モジュール214は、例えば、項目「売掛金」と「その他の売上債権」に対応する値欄1620,1630にそれぞれ、値「42,004,001」を出力することができる。
【0101】
このとき、出力モジュール214は、文字数や形態の一致度等に基づき認識精度がより高いと判断される項目「売掛金」に対応する値欄1620内の左側に、承認受付表示1600として、「確定する」ボタン1621と、「クリアする」ボタン1622と、を出力している。ここでは、ボタン1621,1622を上下に並べて配置する例を示している。そして、出力モジュール214は、文字数や形態の一致度等に基づき認識精度がより低いと判断される項目「その他の売上債権」に対応する値欄1630内の左側に、貸借対照表の画像1410についての部分画像1631を出力している。出力モジュール214が、このように読取対象画像と読取った値とを並べて表示することにより、ユーザは、目線を移動させることなく両者を容易に比較・確認することができる。これにより、ユーザの確認作業における負担を軽減することができる。
【0102】
部分画像1631は、画像1410における、値欄1630に出力された値とその項目に対応する部分(読取領域)を含む。値欄1620の輪郭は、例えば、注意喚起を促す黄色で、かつ、他の枠部よりも太い太線で表示されている。値欄1630の輪郭は、例えば、さらに注意喚起を促す赤色で、かつ、他の枠部よりも太い太線で表示されている。
【0103】
ユーザは、部分画像1631をみながら、文字認識された項目「○掛金」が、「売掛金」であるか「その他の売上債権」であるかを判断する。項目「○掛金」が「売掛金」であると判断した場合、ユーザは、値欄1620内の「確定する」ボタン1621を選択する。すると、承認受付モジュール215は、ユーザによる、「○掛金」が「売掛金」であるとの判断と、値欄1620の値の承認と、を受け付ける。また、承認受付モジュール215は、値欄1620内の承認受付表示1600、値欄1630内の部分画像1631および値「42,004,001」を削除する。さらに承認受付モジュール215は、値欄1620の輪郭の太線を緑色に変更し、値欄1630の輪郭を通常の黒ないしは灰色の線に変更する。
【0104】
一方で、項目「○掛金」が「その他の売上債権」であると判断した場合、ユーザは、値欄1620内の「クリアする」ボタン1622を選択する。すると、承認受付モジュール215は、ユーザによる、「○掛金」が「その他の売上債権」であるとの判断と、値欄1630の値の承認と、を受け付ける。また、承認受付モジュール215は、値欄1620内の承認受付表示1600および値「42,004,001」と、値欄1630内の部分画像1631と、を削除する。さらに、承認受付モジュール215は、値欄1620の輪郭を通常の黒ないしは灰色の線に変更し、値欄1630の輪郭を緑色の太線に変更する。これにより、読取表1500の読取精度を高めることができる。
【0105】
なおこのように、一の項目および値の読取結果の組み合わせについて、所定の項目の候補が複数ある場合、出力モジュール214は、複数の値欄1620,1630に同一の値を出力する。このとき、出力モジュール214は、一の読取結果に基づいて表示する複数の値欄1620,1630に対して共通する強調表示を施すことができる。例えば、出力モジュール214は、候補となる複数の値欄1620,1630の枠線および出力値の少なくとも一方を、例えば同時に点滅させるなどして強調表示することができる。これにより、比較すべき項目欄が視認しやすくなる。
【0106】
<承認受け付けの変形例3>
さらに、文字認識された項目と値の組合せにおいて、項目の文字列の認識精度が相対的に低く、例えば、項目「授取三型」-値「10,465,123」のように認識され、貸借対照表辞書情報600に対応する勘定科目が見つからない場合の、出力モジュール214および承認受付モジュール215の動作例について説明する。このような場合、まず、出力モジュール214は、項目「授取三型」-値「10,465,123」の組合せに対応する所定の読取項目または好ましい読取項目がないと判断して、その値「10,465,123」を読取表に出力することはしない。
【0107】
しかしここで、ユーザが、読取結果出力画面1400において出力された貸借対照表の画像1200を確認し、項目「受取手形」に対応する値が「10,465,123」であることを知見した場合、読取表における項目「受取手形」に対応する値欄に、値「10,465,123」を入力することができる。承認受付モジュール215は、ユーザによる値欄1640への値「10,465,123」の入力を受け付けると、入力値と同一の項目と値の組合せがないかを確認し、組合せがあった場合に、読取表に重ねて確認画面1650を出力する。承認受付モジュール215は、この確認画面1650において、例えば、部分画像1651、科目1652、OCR科目1653、OCR金額1654、Yesボタン1655、およびNoボタン1656を表示する。部分画像1651は、貸借対照表の画像についての部分画像1651であって、値が入力された値欄1640とその項目欄とに対応する読取領域の部分画像を含む。科目1652は、ユーザが値を入力した値欄1640に対応する科目欄の所定の読取項目を表示する。OCR科目1653は、部分画像1651の項目部分の読取結果を示し、ここでは「授取三型」となっている。OCR金額1654は、部分画像1651の金額部分の読取結果を示し、ここでは「10,465,123」となっている。承認受付モジュール215が、このように部分画像1651と、その他の、科目1652、OCR科目1653、OCR金額1654、Yesボタン1655、Noボタン1656とをまとめて表示することにより、ユーザは、目線を移動させることなく、容易に確認作業を行うことができる。
【0108】
承認受付モジュール215は、ユーザがYesボタン1655を選択することで、部分画像1651の読取結果が、項目「授取三型」-値「10,465,123」の組合せではなく、項目「受取手形」-値「10,465,123」の組合せであることを受け付ける。この場合、承認受付モジュール215は、すでに文字認識し誤った読取結果である「授取三型」を、所定の読取項目「受取手形」に置き換えて、項目「受取手形」-値「10,465,123」の組合せとして記録(例えば上書き)する。
【0109】
なお、文字認識モジュール213は、上記ユーザによる承認(Yes)/非承認(No)の受付に代えて、あるいは、上記ユーザによる承認/非承認の受付に加えて、文字認識結果を再認識するように構成されていてもよい。例えば、すでに文字認識した項目「授取三型」-値「10,465,123」の組合せに対応する認識領域について、必要に応じて再度文字認識を行い、当該領域に記載されている文字列が「受取手形」と認識できるかどうかを試してもよい。そして、項目「受取手形」-値「10,465,123」の組合せであると認識しなおした場合、承認受付モジュール215は、ユーザにより値欄1640へ入力された値「10,465,123」の承認を受け付ける。つまり、誤った読取結果である「授取三型」を、「受取手形」に置き換えて、項目「受取手形」-値「10,465,123」の組合せとして記録してもよい。
【0110】
ユーザによる承認または非承認を受け付けた場合、承認受付モジュール215は確認画面1650を閉じる。このような構成によっても、読取表1500の読取精度を高めることができる。
このようにOCRの精度が高くない場合や、元画像が汚れていてうまく読み取れない場合などに、出力モジュール214または承認受付モジュール215は、例えば以下のような表示を行うことができる。
・対応する科目が無い場合に、対応する科目が存在しない旨の表示を行う。
・対応する科目が無い場合に、類似度の高い科目に表示を行ったうえで、OCRで読み取った科目名が誤っている可能性がある旨の表示を行う。
・対応する科目が無い場合に、OCRで読み取った誤っている可能性のある科目を、科目一覧に追加して表示する。また、その際、誤っている可能性がある旨の表示を行う。
・ユーザがあらかじめ表示されている科目に値を入力した場合に、OCRで読み取った誤っている可能性のある科目を、値が入力された正しい科目で置き換える。
【0111】
<新たな入力の受け付け>
なお、読取表の読取項目(所定の読取項目または好ましい読取項目)に対する値がない場合、入力受付モジュール218は、上記のステップ730意向であって、ステップ760よりも前の任意のタイミングで、新たな入力を受け付けることができる。
【0112】
図10は、入力受付フロー1000の例である。入力受付モジュール218は、典型的には、入力受付フロー1000の各ステップ(ステップ1010~1040)にしたがって、新たな入力を受け付けることができる。
【0113】
図17は、読取結果出力画面1700の他の例である。
まず、読取結果出力画面1700に表示される読取表1720において、読取項目に対する値欄は、数字の入力および編集が可能な値入力窓となっている。したがって、ユーザは、例えば図17に示すように、元は空欄であった、項目「その他の仕入債務」に対応する値欄1730に対し、対応する値(ここでは、値「48,000」)を入力することができる。
【0114】
すると、入力受付モジュール218は、読取表1720の値欄1730への値の入力を受け付ける(ステップ1010)。そして入力受付モジュール218は、例えば、読取対象である貸借対照の画像1710に関する文字認識結果において、この入力値(ここでは、値「48,000」)に一致する文字列、または、対応する読取項目(ここでは、項目「その他の仕入債務」)に一致する文字列があるかどうかを確認する(ステップ1020)。
【0115】
そして、例えば、入力値に一致する文字列、および、対応する読取項目に一致する文字列の少なくとも一方がある場合(ステップ1020でY)、入力受付モジュール218は、画像1710における、その入力値に一致する文字列または読取項目に一致する文字列に対して強調表示するようになっている(ステップ1030)。
【0116】
図17では、貸借対照表の画像1710における項目「未払い法人税等」に対応する値「48,000」が、入力値と一致している。しかしながら、画像1710においてこの値に対応する項目「未払い法人税等」と、読取表1720における入力値に対応する項目「その他の仕入債務」と、は一致していない。このような場合、ユーザによる読取表1720への値「48,000」の入力には、何らかの誤りがある可能性がある。例えば、入力値の誤りや、入力欄の誤り等の誤入力の可能性が考えられる。
【0117】
入力受付モジュール218は、このような場合、画像1710における値「48,000」を、例えば、警告の意味を有し得る赤色の太字体で強調表示している。ユーザは、読取結果出力画面1700の画像1710において、値「48,000」が赤色で強調表示されることにより、読取表1720に対する入力値「48,000」に何らかの誤りがある可能性に気づくことができる。入力受付モジュール218は、このようにユーザによる入力の正確性をチェックすることができる。
【0118】
なお、具体的には示さないが、ユーザが読取表1720における項目「仕掛品」に対応する空欄の値欄に、値「2,336,173」を入力したとする。この場合、この入力値は、貸借対照表の画像1710における項目「仕掛品」に対応する値「2,336,173」と一致する。また、読取表1720における入力値に対応する項目「仕掛品」と、画像1710において上記値「2,336,173」に対応する項目「仕掛品」と、は一致している。このような場合、文字認識モジュール213による画像1710の文字認識が、何らかの理由でうまく実行されなかった可能性が考えらえる。入力受付モジュール218は、このような場合、画像1710における項目「仕掛品」と値「48,000」を含む領域を、例えば、緑色による着色で強調表示することができる。
【0119】
ユーザは、読取結果出力画面1700の画像1710において、項目「仕掛品」と値「48,000」を含む領域が緑色による着色で強調表示されたことにより、入力値の入力位置と値とが正しいことを把握することができる。
【0120】
一方で、例えば、入力値に一致する文字列、および、対応する読取項目に一致する文字列の両方がない場合(ステップ1020でN)、入力受付モジュール218は、例えば読取結果出力画面1700内に、「ユーザによる入力値が、貸借対照表の画像1710を文字認識して得られる情報と一致していない」ことを示す「不一致情報」を出力することができる(ステップ1040)。「不一致情報」としては、例えば、メッセージボックスにおいて上記不一致事由を表示することや、入力値「48,000」を赤色の太字で示すことなどであってよい。これにより、ユーザは、入力値が何らかの誤りを含む可能性があることを、把握することができる。
【0121】
[ステップ760]
以上から、認識精度が改善され、かつ、余分な項目と値の組合せを含まない読取表1720を得ることができる。記憶モジュール216は、このようにして承認された値を、所定の読取項目に対応付けて記憶する。記憶モジュール216は、このようにして承認された値を好ましい読取項目に対応付けて記憶する。記憶モジュール216は、これらの値と読取項目との組み合わせ、すなわち、読取情報を、例えばJSON形式のファイルに出力(記億)することができる。記憶モジュール216は、読取情報を、キー・バリュー型の構造化された項目と値として出力(記億)する。しかしながら、読取情報のデータ構造はこの例に限定されず、例えば、ソート済みカラム指向型、ドキュメント指向型、グラフ志向型等に代表される非リレーショナル型、階層型、ネットワーク型等の、キー・バリュー型以外の形式であってよい。
【0122】
以上の情報読取システム100によると、読取表において読取るべき所定の項目は、読取対象の資料に含まれる項目の数よりも少なくすることができる。また、読取精度が十分でなかった項目と値との組み合わせについては、読取表において必ずしも出力しない。従て、ヒトによる読取結果の確認において、余分な項目および値について確認する必要がない。また、読取表においては、確認する必要がない値が出力されていないことから、読取結果の確認の煩雑さを低減できるとともに、確認者(ユーザ)に対して読取結果の確認が用意となる環境を提供できる。情報読取システム100により記憶される項目に対応付けられた値のデータについても、余分な情報を含まない、よりスマートかつコンパクトなものとすることができる。
【0123】
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
【0124】
文字認識モジュール213が有する文字認識機能は、上記実施形態に例示したものに限定されず、文字認識のための様々な他の機能を有していてもよい。文字認識モジュール213が有し得る追加の機能の一例を以下に例示する。
・文字認識した文字列に含まれる全角または半角スペースは、単語、文節等の区切りに位置するものを除いて削除する。
・文字認識した文字列に含まれる旧漢字は、現代漢字に置き換える。
・文字認識した文字列の認識精度は、相対的に、2段階以上(例えば、3段階、4段階、5段階以上)に分けて評価することができる。
【0125】
・文字認識した文字列と、貸借対照表辞書情報600等の辞書に登録された単語と、が完全に一致する場合、その文字列の認識精度は最高レベル(例えば99.9%以上)であると判断することができる。
・文字認識した文字列が、貸借対照表辞書情報600等の辞書に登録された単語と2文字以上で部分一致している場合であって、OCR自動補正アルゴリズム(例えば、補正すべき文字と対応する正解文字とが登録された補正文字列辞書、および、補正すべきではない文字列が登録された過剰変更禁止辞書、とを用いた自動補正)による補正を施した場合に完全一致に変わる場合、その文字列の認識精度は、最高レベルに次ぐ第2番目のレベルであると判断することができる。
【0126】
・文字認識した文字列の認識精度が前記第2番目のレベルより低い場合、システム管理者またはユーザが登録した共通辞書から、正解文字列を推定する(例:売〇金→売掛金、売掛金金→売掛金)
・文字認識した文字列の認識精度が前記第2番目のレベルより低い場合、他の文字列の認識結果から正解文字列を推定する(例:〇掛金→売掛金または買掛金と予想されるが、買掛金については最高レベルまたは2番目のレベルで認識されている場合、〇掛金→売掛金と推定する)
・文字認識した文字列の認識精度が前記第2番目のレベルより低い場合、レーベンシュタイン距離に基づいて、正解文字列を推定する(例:1文字の挿入・削除・置換の最小回数の繰り返しによる文字列変換、授取三型→受取手形)
・文字認識した文字列の認識精度が前記第2番目のレベルより低い場合、読取対象である資料の属性に基づいて文字列を推定する(例:貸借対照表における「流動資産」の1つ下は、「現金および預金」となる可能性が高い、等)
・文字認識した文字列の認識精度が前記第2番目のレベルより低い場合、システム管理者またはユーザが登録した特徴量(例えば、読取項目の位置)から推論する(貸借対照表における「流動資産」の1つ下は、「現金および預金」となる可能性が高い、等)
【0127】
出力モジュール214は、値の出力に際し、文字認識モジュール213による認識精度に応じて、2通り以上(例えば、3通り、4通り、5通り以上)に分けて強調表示することができる。例えば、文字認識モジュール213による認識精度が3段階に区分される場合、出力モジュール214による値の強調表示はこの認識精度に応じて3通り(例えば、認識精度の高い方から、緑色、黄色、赤色)に分けることができる。
【0128】
ヒトが読取表に値を入力した場合、読取対象であるイメージデータの認識結果に同じ数値があるかどうかを確認し、(a)一致する数値が1つだけあった場合にはイメージデータの画像における当該一致する数値をハイライト表示する。(b)一致する数値が2つ以上あった場合には、イメージデータの画像における当該一致する2以上の数値を候補としてハイライト表示する。(c)一致する数値がない場合には、人間の入力ミスの可能性があるためアラートを表示する。
【0129】
本技術における一致,不一致の判断は、例えば、AIを利用して実行することができる。
ヒトによる読取表への値の入力によって、文字認識した文字列の認識精度が改善される場合、出力モジュール214は、文字認識した文字列に対して付す強調表示を、認識精度の完全度合いに応じて変化させる。(例:ハイライト表示を、赤色→黄色→緑色へと変化させる。)
【0130】
項目と値の組合せの取得において、値(数字)は認識できたが項目が認識できずに読取表における値欄が空欄となっている場合、ユーザが空いている値欄に数値を入力した段階で、認識できていない項目が、貸借対照表辞書情報600等の辞書に登録されているいずれの項目であるかを確認・確定させる(例:「授取三型」-「1389418」と文字認識された項目と値の組合せについて、ヒトが正解の項目「受取手形」に対応する値欄に「1389418」を入力した場合、文字認識モジュール213は、「授取三型」が、入力値「1389418」によって共通化された「受取手形」の誤認識であることの期待値を高めて予測し、「授取三型」が「受取手形」であることの精度が高まった場合に、「授取三型」を「受取手形」に置き換える)。
【0131】
出力モジュール1214が所定の読取項目に対応する値を出力しない場合であっても、例えば、企業価値の算定を実行することはできる。しかしながら、罹る算定の精度を向上するため、所定の読取項目に対応する値を出力しない場合、出力モジュール1214は、例えば所定の読取項目に対応する値欄(空欄)を強調表示し、ユーザに、新たな入力を促すように構成されていてもよい。
【0132】
ヒトによる読取表への値の入力が行われた場合、イメージデータの画像において当該入力値と一致する値とその項目とを含む読取り領域(部分画像)を強調表示(例えば、ハイライト表示)する。
文字認識した文字列の認識精度が十分でないときは、当該文字列を強調表示する(例:色を付ける)
【0133】
文字認識した文字列(特に項目)を名寄せし、名寄せした文字列(項目)に対応付けられた値を読取表に出力する場合、その値が出力される値欄を強調表示する(例:認識精度が上記第2番目のレベルであることを示す黄色へ着色する)
読取表の値欄を強調表示する場合、イメージデータの画像の対応する位置についても同一または同様の強調表示を施す。
【0134】
上記実施形態において、読取表は、科目欄において、所定の読取項目に加えて、好ましい読取項目を含んでいた。しかしながら、読取表は、好ましい読取項目に対応する欄を含まなくてもよい。
【0135】
出力モジュール214は、例えば図11,13~15,17に示すように、読取表において、「算定に反映」と記された選択アイコンを表示する。記憶モジュール216は、この選択アイコンがユーザによって選択されることをもって、読取情報の出力(記憶)を実行してもよい。
【0136】
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
【0137】
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
なお、上記の実施例は少なくとも特許請求の範囲に記載の構成を開示している。
【符号の説明】
【0138】
100…情報読取システム、101…管理サーバ、1102…ユーザ端末、1211…ユーザ端末管理モジュール、1212…イメージ管理モジュール、1213…文字認識モジュール、1214…出力モジュール、1215…承認受付モジュール、1216…記憶モジュール、1217…判定モジュール、1218…入力受付モジュール、1311…ユーザ実行モジュール、1312…ユーザ入力受付モジュール
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17