IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ Sumasen株式会社の特許一覧

特開2024-3769文字認識システム、コンピュータによる文字の認識方法、および文字検索システム
<>
  • 特開-文字認識システム、コンピュータによる文字の認識方法、および文字検索システム 図1
  • 特開-文字認識システム、コンピュータによる文字の認識方法、および文字検索システム 図2
  • 特開-文字認識システム、コンピュータによる文字の認識方法、および文字検索システム 図3
  • 特開-文字認識システム、コンピュータによる文字の認識方法、および文字検索システム 図4
  • 特開-文字認識システム、コンピュータによる文字の認識方法、および文字検索システム 図5
  • 特開-文字認識システム、コンピュータによる文字の認識方法、および文字検索システム 図6
  • 特開-文字認識システム、コンピュータによる文字の認識方法、および文字検索システム 図7
  • 特開-文字認識システム、コンピュータによる文字の認識方法、および文字検索システム 図8
  • 特開-文字認識システム、コンピュータによる文字の認識方法、および文字検索システム 図9
  • 特開-文字認識システム、コンピュータによる文字の認識方法、および文字検索システム 図10
  • 特開-文字認識システム、コンピュータによる文字の認識方法、および文字検索システム 図11
  • 特開-文字認識システム、コンピュータによる文字の認識方法、および文字検索システム 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024003769
(43)【公開日】2024-01-15
(54)【発明の名称】文字認識システム、コンピュータによる文字の認識方法、および文字検索システム
(51)【国際特許分類】
   G06V 30/12 20220101AFI20240105BHJP
   G06V 30/194 20220101ALI20240105BHJP
   G06V 30/412 20220101ALI20240105BHJP
【FI】
G06V30/12 C
G06V30/194
G06V30/412
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2023097010
(22)【出願日】2023-06-13
(31)【優先権主張番号】P 2022103084
(32)【優先日】2022-06-27
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】522256783
【氏名又は名称】Sumasen株式会社
(74)【代理人】
【識別番号】110000567
【氏名又は名称】弁理士法人サトー
(72)【発明者】
【氏名】宮田 明
【テーマコード(参考)】
5B029
5B064
【Fターム(参考)】
5B029AA01
5B029BB02
5B029BB06
5B029BB13
5B029BB17
5B029CC26
5B064AA01
5B064BA01
5B064EA11
5B064EA27
5B064FA05
5B064FA09
(57)【要約】
【課題】コンピュータによる文字認識の精度を高める技術を提供する。
【解決手段】文字認識システムは、それぞれが異なる特性を有する複数の人工知能を有し、前記複数の人工知能のそれぞれによって、書類の画像データに含まれる文字の画像に対する文字認識を実行する認識部と、前記複数の人工知能のそれぞれの特性に基づいて予め定められたアルゴリズムによって、前記複数の人工知能のそれぞれが出力する前記文字認識の結果を組み合わせて、前記書類全体の文字認識結果データを生成する認識結果生成部と、を備える。
【選択図】図4
【特許請求の範囲】
【請求項1】
文字認識システムであって、
それぞれが異なる特性を有する複数の人工知能を有し、前記複数の人工知能のそれぞれによって、書類の画像データに含まれる文字の画像に対する文字認識を実行する認識部と、
前記複数の人工知能のそれぞれの特性に基づいて予め定められたアルゴリズムによって、前記複数の人工知能のそれぞれが出力する前記文字認識の結果を組み合わせて、前記書類全体の文字認識結果データを生成する認識結果生成部と、を備える、文字認識システム。
【請求項2】
請求項1記載の文字認識システムであって、さらに、
文字の属性に関する情報をまとめたデータ群を格納する記憶部と、
前記データ群を参照して、前記書類における前記文字の属性を推定し、推定された前記文字の属性に基づいて、前記複数の人工知能のそれぞれの前記文字認識の結果、または、前記文字認識結果データの少なくとも一方を修正する矯正処理を実行する矯正処理実行部と、
を備える、文字認識システム。
【請求項3】
請求項2記載の文字認識システムであって、
前記記憶部は、前記データ群として、前記書類において所定の位置に配列される定型の文字列であるラベルの複数の例が登録されたラベルデータベースを有し、
前記矯正処理部は、前記書類における前記ラベルに相当する文字列を特定し、前記ラベルデータベースを参照して、前記ラベルに相当する文字列の文字認識の結果を、前記ラベルの複数の例の中で該当するものに一致するように修正する、文字認識システム。
【請求項4】
請求項3記載の文字認識システムであって、
前記記憶部は、さらに、前記データ群として、前記ラベルに関連付けられた情報を表す文字列の例が登録されたフィールドデータベースを有し、
前記認識結果生成部は、前記ラベルとして特定された前記文字列に続く所定の位置に配列された文字列について、前記フィールドデータベースを参照して、前記ラベルに関連付けられた情報を表す文字列の例に一致するように文字認識の結果を修正する、文字認識システム。
【請求項5】
請求項1記載の文字認識システムであって、さらに、
前記文字認識結果データに対するユーザーによる校正結果の入力を受け付ける校正処理部と、
前記校正処理部が受け付けた前記校正結果に基づいて、前記認識部における前記複数の人工知能の学習モデルの修正を実行するフィードバック処理部と、
を備える、文字認識システム。
【請求項6】
請求項2から請求項4のいずれか一項に記載の文字認識システムであって、
前記記憶部の前記データ群は、前記書類の提供元であるユーザーに合わせた内容で、前記ユーザーごとに予め準備されている、文字認識システム。
【請求項7】
コンピュータに書類の文字を認識させる方法であって、
コンピュータが、複数の人工知能のそれぞれによって、前記書類の画像データに含まれる文字の画像に対する文字認識を実行する工程と、
コンピュータが、前記複数の人工知能のそれぞれの特性に基づいて予め定められたアルゴリズムによって、前記複数の人工知能のそれぞれが出力する前記文字認識の結果を組み合わせて、前記書類全体の文字認識結果データを生成する工程と、
を備える、方法。
【請求項8】
請求項5記載の文字認識システムと、
前記校正処理部が受け付けた前記校正結果を反映した前記文字認識結果データに関する文書データを記憶する記憶処理部と、
前記ユーザーが前記文書データを検索するための検索画面を表示部に表示させる表示処理部と、
前記検索画面に入力された検索条件に基づいて前記文書データを検索する検索処理部と、を備え、
前記表示処理部は、前記文書データにおける前記検索条件に合致する箇所が分かる態様で検索結果を前記表示部に表示させる、文字検索システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文字認識システム、コンピュータによる文字の認識方法、および文字検索システムに関する。
【背景技術】
【0002】
従来から、様々な書類の電子化の際に、OCR(Optical Character Recognition)と呼ばれる文字認識の技術が活用されてきた。通常、文字認識では、例えば、下記の特許文献1に開示されているように、書類を光学的に読み取った画像データに含まれている活字や手書き文字を表す画像をコンピュータが認識し、デジタルテキストに変換する。近年では、機械学習やディープラーニングなどの人工知能(AI;Artificial Intelligence)技術の適用により、文字認識の精度は著しく向上してきている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2019-128690号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、書類によっては、複雑な図や表の中に文字が記載されているものもあるし、文字が不鮮明なものもあり、コンピュータによる文字の識別が困難な場合がある。また、手書き文字を文字認識する場合には、その手書き文字の状態や記載場所、書き手のクセ等によって、その認識精度が大きく変動する可能性もある。活字の文字認識の場合であっても、その活字のフォントの種類や、大きさ、文字間隔等の違いによって、認識精度が不安定になる場合もある。
【0005】
こうした課題に対して、例えば、上記の特許文献1では、特性の異なる複数のエンジンのそれぞれに、同じ書類のデータに対して文字認識を実行させ、出力された複数の文字認識結果のうちから、多数決により、最終的な文字認識の結果を決定している。しかしながら、特許文献1の技術の場合、多数決で決定された文字認識結果が必ずしも正解ではない可能性がある。コンピュータによる文字認識の精度を向上させることについては依然として改良の余地がある。
【課題を解決するための手段】
【0006】
本発明は、例えば、以下の形態として実現することが可能である。
【0007】
[第1形態]第1形態の文字認識システムは、それぞれが異なる特性を有する複数の人工知能を有し、前記複数の人工知能のそれぞれによって、書類の画像データに含まれる文字の画像に対する文字認識を実行する認識部と、前記複数の人工知能のそれぞれの特性に基づいて予め定められたアルゴリズムによって、前記複数の人工知能のそれぞれが出力する前記文字認識の結果を組み合わせて、前記書類全体の文字認識結果データを生成する認識結果生成部と、を備える。
第1形態の文字認識システムによれば、文字認識を実行する複数の人工知能の認識結果を、各人工知能の特性を反映させたアルゴリズムによって組み合わせるため、複数の人工知能のそれぞれの特性を活かして文字認識の精度を高めることができる。
【0008】
[第2形態]上記第1形態の文字認識は、文字の属性に関する情報をまとめたデータ群を格納する記憶部と、前記データ群を参照して、前記書類における前記文字の属性を推定し、推定された前記文字の属性に基づいて、前記複数の人工知能のそれぞれの前記文字認識の結果、または、前記文字認識結果データの少なくとも一方を修正する矯正処理を実行する矯正処理実行部とを備えてよい。
第2形態の文字認識システムによれば、認識部が、書類の種類や前後の文字との関係、書類における文字の位置などから定まる文字の属性に基づいて、各人工知能が出力する文字認識の結果、または、文字認識結果データが修正されるため、文字認識の精度をさらに向上させることができる。
【0009】
[第3形態]上記第2形態の文字認識システムにおいて、前記記憶部は、前記データ群として、前記書類において所定の位置に配列される定型の文字列であるラベルの複数の例が登録されたラベルデータベースを有し、前記矯正処理部は、前記書類における前記ラベルに相当する文字列を特定し、前記ラベルデータベースを参照して、前記ラベルに相当する文字列の文字認識の結果を、前記ラベルの複数の例の中で該当するものに一致するように修正してよい。
第3形態の文字認識システムによれば、定型的な書類のラベルを表す文字の認識精度を高めることができる。
【0010】
[第4形態]上記第3形態の文字認識システムにおいて、前記記憶部は、さらに、前記データ群として、前記ラベルに関連付けられた情報を表す文字列の例が登録されたフィールドデータベースを有し、前記認識結果生成部は、前記ラベルとして特定された前記文字列に続く所定の位置に配列された文字列について、前記フィールドデータベースを参照して、前記ラベルに関連付けられた情報を表す文字列の例に一致するように文字認識の結果を修正してよい。
第4形態の文字認識システムによれば、ラベルに関連付けられた情報を表す文字列についての文字の認識精度を高めることができる。
【0011】
[第5形態]上記第1形態、第2形態、第3形態、および、第4形態のうちのいずれかの文字認識システムは、さらに、前記文字認識結果データに対するユーザーによる校正結果の入力を受け付ける校正処理部と、前記校正処理部が受け付けた前記校正結果に基づいて、前記認識部における前記複数の人工知能の学習モデルの修正を実行するフィードバック処理部と、を備えてよい。
第5形態の文字認識システムによれば、ユーザーが文字認識結果データを校正することができるため、文字認識結果データにおいて文字の誤認識が生じたままになることを抑制できる。また、ユーザーによる校正結果に基づいて、人工知能の学習モデルを改善することができるため、文字認識の精度をさらに向上させることができる。
【0012】
[第6形態]上記第2形態、第3形態、および、第4形態のうちのいずれかの文字認識システムにおいて、前記記憶部の前記データ群は、前記書類の提供元であるユーザーに合わせた内容で、前記ユーザーごとに予め準備されていてよい。
第6形態の文字認識システムによれば、ユーザーに合わせたデータ群に基づいて文字認識の結果を修正する処理が実行されるため、ユーザーごとに高い文字認識の精度を安定して得ることが可能になる。
【0013】
[第7形態]第7形態は、コンピュータに書類の文字を認識させる方法として提供される。第7形態の方法は、コンピュータが、複数の人工知能のそれぞれによって、前記書類の画像データに含まれる文字の画像に対する文字認識を実行する工程と、コンピュータが、前記複数の人工知能のそれぞれの特性に基づいて予め定められたアルゴリズムによって、前記複数の人工知能のそれぞれが出力する前記文字認識の結果を組み合わせて、前記書類全体の文字認識結果データを生成する工程と、を備える。
第7形態の方法によれば、複数の人工知能による文字認識の結果が、各人工知能の特性を反映させたアルゴリズムによって組み合わせられるため、複数の人工知能のそれぞれの特性を活かして文字認識の精度を高めることができる。
【0014】
[第8形態]第8形態の文字検索システムは、上記第5形態の文字認識システムと、前記校正処理部が受け付けた前記校正結果を反映した前記文字認識結果データに関する文書データを記憶する記憶処理部と、前記ユーザーが前記文書データを検索するための検索画面を表示部に表示させる表示処理部と、前記検索画面に入力された検索条件に基づいて前記文書データを検索する検索処理部と、を備え、前記表示処理部は、前記文書データにおける前記検索条件に合致する箇所が分かる態様で検索結果を前記表示部に表示させる。
第8形態の文字検索システムによれば、ユーザーにとって関心度が高い文書データに効率良くアクセスできるようになるため、ユーザーにとって利便性の向上を図ることができる。
【0015】
本発明は、文字認識システムやコンピュータによる文字の認識方法以外の種々の形態で実現することも可能である。例えば、文字認識装置、文字認識システムや文字認識装置において用いられるアルゴリズムや学習モデル等の形態として実現することができる。また、文字認識システムや文字認識装置を制御するための制御プログラム、前記のアルゴリズムや学習モデル、プログラムを記録した記録媒体等の形態として実現することもできる。
【図面の簡単な説明】
【0016】
図1】第1実施形態の文字認識システムの構成を示す概略図。
図2】第1実施形態の文字認識処理装置の構成を示す概略ブロック図。
図3】第1実施形態の文字認識処理のフローチャート。
図4】第1実施形態の文字認識処理の処理内容を模式的に示す模式図。
図5】矯正処理のフローチャート。
図6】書類の一例を示す模式図。
図7】第2実施形態の文字認識処理のフローチャート。
図8】第3実施形態の文字検索システムにおける文字認識処理装置の構成を示す概略ブロック図。
図9】第3実施形態の文字検索システムについて、検索トップ画面の一例を示す模式図。
図10】第3実施形態の文字検索システムについて、検索結果画面の一例を示す模式図。
図11】第3実施形態の文字検索システムについて、検索結果画面上にポップアップが表示された場合の一例を示す模式図。
図12】第3実施形態の文字検索システムで実行される処理内容のフローチャート。
【0017】
1.第1実施形態:
図1は、本実施形態における文字認識システム10の構成を示す概略図である。文字認識システム10は、紙媒体への印刷等により作成された書類の電子化を実行する。文字認識システム10は、その書類の電子化の際に、書類の画像データに対してAI技術を活用した文字認識を実行する。ここでの「文字認識」とは、コンピュータが、書類の画像データを解析して、当該書類の画像に含まれる文字を表す画像を認識し、その文字をデジタルテキストデータに変換する処理を意味する。また、「デジタルテキストデータへの変換」とは、対象となる文字に一意に対応するキャラクターコードを特定する処理に相当する。
【0018】
文字認識システム10は、文字認識処理装置11と、書類読取装置12と、ユーザー端末13と、を備える。文字認識処理装置11と書類読取装置12とユーザー端末13とはそれぞれ、ネットワークNTに接続されており、ネットワークNTを介して互いにデータの通信を行う。本実施形態では、ネットワークNTとしてインターネットを利用する。他の実施形態では、ネットワークNTは、インターネットに限定されることはなく、LAN(Local Area Network)やWAN(Wide Area Network)であってもよい。
【0019】
文字認識処理装置11は、プロセッサーである中央処理装置(CPU;Central Processing Unit)と主記憶装置(RAM;Random Access Memory)とを備えるコンピュータによって構成される。文字認識処理装置11は、書類読取装置12から書類の画像データの入力を受け付け、後述する文字認識処理を実行し、その認識結果をユーザー端末13に出力する。文字認識処理装置11の構成の詳細および文字認識処理の内容については後述する。
【0020】
書類読取装置12は、例えば、CCD(Charged-Coupled Device)イメージセンサやCMOS(Complementary Metal Oxide Semiconductor)イメージセンサなどの固体撮像素子と光源素子とを備える。書類読取装置12は、光源素子により書類を照射したときの反射光を固体撮像素子によって受光することにより、書類を光学的に読み取り、書類の画像データを生成する。以下では、便宜上、書類の画像データを「書類データ」とも呼ぶ。
【0021】
書類読取装置12は、ネットワークNTを通じて文字認識処理装置11やユーザー端末13にその書類データを出力する。なお、書類読取装置12は、書類の束から電子化の対象となる書類を一枚ずつ繰り出すフィーダー装置を備えていてもよいし、生成した多量の書類データを分類して記憶するデータベースを備えていてもよい。
【0022】
ユーザー端末13は、CPUとRAMとを備えるコンピュータによって構成される。ユーザー端末13は、ユーザーに対して情報を表示する表示部14と、ユーザーの操作を受け付ける入力部15と、を備え、文字認識システム10のユーザーインターフェースとして機能する。文字認識システム10のユーザーは、ユーザー端末13を介して、文字認識処理装置11が提供する機能を利用することができる。詳細は後述するが、本実施形態の文字認識システム10では、ユーザーは、ユーザー端末13を介して、文字認識処理装置11が出力した文字認識結果を校正することができる。
【0023】
図2は、文字認識処理装置11の構成を示す概略ブロック図である。文字認識処理装置11は、制御部20と、記憶部30と、画像処理部40と、通信部45と、を備える。制御部20と記憶部30と画像処理部40と通信部45とは共通の信号線を介して互いに接続されている。
【0024】
文字認識処理装置11では、CPUがRAMに読み込んで展開した命令やプログラムを実行することにより、制御部20の様々な機能が実現される。制御部20は、文字認識処理装置11全体の処理動作を制御する機能を有する。また、制御部20は、文字認識処理を実行するための種々の機能部として、書類判別部21と、認識部22と、認識結果生成部23と、矯正処理部24と、校正処理部25と、フィードバック処理部26と、を有する。これらの機能部21,22,23,24,25,26については後述する。
【0025】
記憶部30は、外部記憶装置であり、例えば、ハードディスク(HD)やソリッドステートディスク(SSD)等の不揮発的な記憶装置によって構成される。記憶部30には、各種のデータベースが構築されており、そのデータベースに、文字認識処理において参照される文字の属性に関する情報をまとめたデータ群が格納されている。記憶部30のデータベースは、そのデータ群として、書式データベース31と、辞書データベース32と、コーパスデータベース33と、ラベルデータベース34と、フィールドデータベース35と、を有する。これらの各データベースに格納されているデータについては後述する。
【0026】
画像処理部40は、画像処理専用のプロセッサーによって構成され、制御部20の制御下において、超解像処理(Super Resolution)を実行する。画像処理部40は、超解像処理により、書類の画像データの解像度と鮮鋭度とを調整する。これにより、書類の画像データを高解像度化できるとともに、当該画像データに写る像の輪郭線が明瞭になり、文字認識の際の画像解析が容易になる。よって、文字認識の精度を高めることができる。
【0027】
通信部45は、制御部20の制御下において、ネットワークNTを通じた通信処理を実行する。文字認識処理装置11では、書類読取装置12やユーザー端末13との間のデータの通信は通信部45を介して行われる。
【0028】
図3および図4を参照して文字認識システム10で実行される文字認識処理を説明する。図3は、文字認識システム10において実行される文字認識処理のフローチャートである。図4は、文字認識処理の処理内容を模式的に示す模式図であり、図3に示されたS10~S70の処理の内容が順に図示されている。
【0029】
ステップS10では、文字認識処理装置11は、ネットワークNTを通じて書類読取装置12から書類データを取得する。文字認識処理装置11は、ネットワークNTを通じて、ユーザー端末13から書類データを取得してもよい。なお、文字認識処理装置11は、ネットワークNTを介することなく、記憶装置や記録媒体を通じて書類データの入力を受け付けてもよい。文字認識処理装置11は、書類読取装置12やユーザー端末13との一対一の通信により書類データの入力を受け付けてもよい。
【0030】
ステップS15では、文字認識処理装置11の画像処理部40に書類データが入力され、画像処理部40が書類データに対して超解像処理を実行する。これによって、書類データの解像度が予め定められた基準以上の高解像度に調整されるとともに、書類データの鮮鋭度が高められる。
【0031】
ステップS20では、制御部20の書類判別部21が、書類データが表す書類の種類を分類する処理を実行する。書類判別部21は、画像処理部40によって解像度が調整された書類データを解析して、書類の特徴点を抽出し、書類の種類を判別する。例えば、書類を、文章を主体とする書類、写真を主体とする書類、絵図や図表を主体とする書類、文章、写真、絵図、図表が混在している書類、絵図や写真の中に文字がレイアウトされている書類、手書き文字を含む書類などに分類する。
【0032】
また、書類判別部21は、論文や、法律文書、会計文書、公文書等のような定型の書式に従って作成された書類について、その書式ごとに分類する。文字認識処理装置11の書式データベース31には、様々な定型の書式に関するデータ群が格納されている。書類判別部21は、書式データベース31のデータ群を参照して、書類が、そのような定型の書式に従って作成されているものであるか否かを判別する。また、書類判別部21は、定型の書式に従った書類について、どのような書式に従っているのかを特定する。
【0033】
ステップS30では、認識部22において、書類データに対して複数のAIによる文字認識が実行される。認識部22は、複数の認識処理部28を有する。各認識処理部28は、AIを利用して実現された機能部であり、それぞれが独立に入力された画像データに対して文字認識を実行する。各認識処理部28のAIは、複数のノードで構成され、各ノードの接続が予め準備された学習モデルに基づいて規定されたニューラルネットワークを備えている。各認識処理部28のニューラルネットワークは、解析対象となるデータが入力される入力層と、解析結果を出力する出力層と、を有している。各認識処理部28は、入力された書類データにおける文字を表す画像の部分を特定し、各文字についての文字認識を実行する。
【0034】
各認識処理部28は、文字認識について異なる特性を有する。各認識処理部28の特性とは、書類や文字の種類に応じた認識精度の違いに基づく適性を意味する。各認識処理部28の特性とは、例えば、文章主体の文書の文字認識に優れている特性や、写真や図表と文章とが混在している文書の文字認識に優れている特性、特定の書式の文書の文字認識に優れている特性、手書き文字の認識に優れている特性などである。各認識処理部28の特性の違いは、例えば、学習モデルやノード構成の違いに基づくものとしてもよい。ステップS30では、各認識処理部28のそれぞれが上記したような特性に応じた異なる文字認識の結果を出力する。
【0035】
ステップS30の各認識処理部28による文字認識の際には、対応するデジタルテキストデータとして複数の候補が挙げられる。文字認識では、その候補の中から優先度の高い1つに特定された結果が出力されるが、複数の候補の中から誤ったものが最終結果として特定される場合もある。そこで、ステップS35では、矯正処理部24が、各認識処理部28が出力するそれぞれの文字認識の結果について矯正処理を実行し、そうした誤りを修正する。
【0036】
ステップS35の矯正処理では、矯正処理部24が、書類における文字の属性を推定し、その推定した属性に基づいて、当該文字についての文字認識の結果の妥当性を検証して修正する。「文字の属性」とは、書類における文字の位置づけを意味し、その文字が、書類に記録されたどのような情報を構成するものであるのかを表す。文字の属性としては、例えば、文章中の単語や助詞等を構成するもの、表の項目名であるラベルを構成するもの、フィールドとも呼ばれる、表中のラベルに関連する情報を構成するものなどがある。
【0037】
矯正処理部24は、書類における文字の位置や、周囲にある文字との関係から、各文字の属性を推定する。その後、矯正処理部24は、その推定した属性に適合するように文字認識の結果であるデジタルテキストデータを修正する。矯正処理部24は、その際に、記憶部30における辞書データベース32や、コーパスデータベース33、ラベルデータベース34、フィールドデータベース35を参照する。
【0038】
辞書データベース32には、様々な単語が登録されている。コーパスデータベース33には、品詞の変化のバリエーションなど、様々な品詞の使い方に関するデータ群が登録されている。ラベルデータベース34には、様々なラベルの例が登録されている。フィールドデータベース35には、ラベルデータベース34に登録されているラベルに関連付けされたフィールドの例が登録されている。
【0039】
図5および図6を参照して、矯正処理部24による矯正処理の具体的な処理手順の一例を説明する。図5は、矯正処理のフローチャートである。図6は、書類DCの一例を示す模式図である。図6では、書類DC中の各文字を「□」で図示してある。
【0040】
ステップS110では、矯正処理部24は、書類データにおいて、文字のみで構成されている文字ブロックCBを特定する。ステップS120では、文字ブロックCSを、文字が一列に配列された一行ごとの行ブロックLBに分割する。また、行ブロックLBを構成する文字列から、漢字とひらがなの組み合わせや、句読点や括弧等の記号による区切り等に基づいて、同じ文脈を構成していると推定される文字のグループである文脈ブロックSBに区分する。文脈ブロックSBは、多くの場合、名詞や動詞、形容詞、副詞、助詞などの品詞ごとに区分される。図6では、文字ブロックCBや、行ブロックLB、文脈ブロックSBの区分の例を一部のみ模式的に示してある。
【0041】
ステップS130では、矯正処理部24は、書類データに含まれる罫線RLを認識する。矯正処理部24は、例えば、書類データにおいて縦方向または横方向に延びている直線の画像を罫線RLとして認識してもよいし、文字の上や下、横にある直線を罫線RLとして認識してもよい。
【0042】
ステップS140では、矯正処理部24は、認識した罫線RLに基づいて文字ブロックCBや行ブロックLB、文脈ブロックSBを再構成する。例えば、矯正処理部24は、文脈ブロックSBを横切る罫線RLがある場合には、その罫線RLで区切られた文脈ブロックSBが形成されるように、文脈ブロックSBを再構成する。また、矯正処理部24は、罫線RLによって枠が形成されている場合、その罫線RLで囲まれた枠内の文字のグループを1つの文字ブロックCBとし、その枠内の文字ブロックCBの中で行ブロックLBに分割し直す。
【0043】
ステップS150では、矯正処理部24は、文脈ブロックSBとして区分された文字列のうちからラベルに相当する文字列を特定する。矯正処理部24は、例えば、罫線RLの枠で囲まれた文字列のうち、書類DCの左端に位置するものや、罫線RLで構成される表の上端に配列されているものをラベルとして特定する。矯正処理部24は、罫線RLがない領域でも、所定の文字数の文字列が書類DCの左端で上下に規則正しく配列されている場合、それらの文字列をラベルとして特定してもよい。
【0044】
ステップS160では、矯正処理部24は、ラベルとして特定された文字列に続く所定の位置に配列された文脈ブロックSBの文字列を、フィールドを構成するものと特定する。
【0045】
以上のS110~S160の処理は、矯正処理部24が書類における文字の属性を推定する処理であると解釈できる。
【0046】
ステップS170では、矯正処理部24は、辞書データベース32やコーパスデータベースを参照して、文脈ブロックSBに含まれる文字列によって構成される単語や助詞を構成する文字等の修正をする。矯正処理部24は、例えば、文字認識において複数の候補がある文脈ブロックSBの文字列ついて、文字認識の結果を、辞書データベース32に登録されている単語に一致するように修正する。また、辞書データベース32の単語にない文字列については、複数の候補の文字列について、コーパスデータベース33に一致する文字列が登録されているか否かを検証し、一致する文字列がある場合には、その態様に修正する。
【0047】
ステップS180では、矯正処理部24は、ラベルデータベース34を参照して、ラベルとして特定された文字列の矯正処理を実行する。ラベルデータベース34には、様々なラベルの複数の例が登録されている。矯正処理部24は、例えば、ラベルとして特定された文字列について、文字認識において複数の候補が上がっている場合に、文字認識の結果を、ラベルデータベース34に登録されている複数の例のうちで該当するものに一致するように修正する。
【0048】
ステップS190では、矯正処理部24は、フィールドデータベース35を参照して、ラベルに続く所定の位置に配列された文字列の矯正処理を実行する。フィールドデータベース35には、ラベルに関連付けられた情報を表す文字列の例、つまり、フィールドの例が登録されている。例えば、フィールドデータベース35には、ラベル「銀行名」に関連付けられた情報として、銀行の名称や、銀行固有の金融機関コードが登録されている。また、フィールドデータベース35には、ラベル「支店名」に関連付けられた情報として、支店名の名称や、支店名のID番号が登録されている。矯正処理部24は、ラベルと同じ行に配置された文字列や、ラベルの下に配列された文字列についての文字認識の結果を、フィールドデータベース35でそのラベルに紐づけられて登録されているものに一致するように修正する。
【0049】
以上により、矯正処理部24による矯正処理は完了する。矯正処理によれば、文字認識の結果が、書類における文字の属性に応じて修正されるため、文字認識の対象となる文字が、属性からかけ離れた文字に変換されてしまうことが抑制される。よって、文字認識処理装置11による文字認識の精度を高めることができる。
【0050】
なお、一般に、ユーザーの業種等に応じて、使用頻度が高い文字列は異なる。そのため、矯正処理で参照されるデータベースの内容は、文字認識システム10のユーザーに合わせた内容で、ユーザーごとに予め準備されたものであることが好ましい。つまり、データベースの内容はユーザーごとにカスタマイズされたものであることが好ましい。これによって、例えば、一般的ではない専門用語など、特殊な業務でのみ使用頻度が高い単語の誤認識が抑制されるため、ユーザーごとの利便性が高められる。
【0051】
図3および図4を参照して、ステップS40以降の処理を説明する。
【0052】
ステップS40では、認識結果生成部23が、各認識処理部28による文字認識の結果を組み合わせて、書類全体の文字認識結果データを生成する。認識結果生成部23は、各認識処理部28の特性に応じて予め定められた認識結果決定アルゴリズム29を備えている。認識結果生成部23は、各認識処理部28から文字認識の結果を表すデータが入力されると、認識結果決定アルゴリズム29に従って、それらの文字認識の結果を組み合わせた文字認識結果データを生成して出力する。
【0053】
認識結果決定アルゴリズム29は、例えば、認識処理部28ごとに予め定められた優先度に基づいて、認識処理部28の文字認識の結果の採用を決定して文字認識結果データを生成するものとしてよい。その優先度は、書類の種類に応じて定められていてもよい。また、その優先度は、書類の内容に応じて修正されてもよい。例えば、数字が多い書類については数字の文字認識精度が高い認識処理部28の優先度が高められるとしてもよい。認識結果決定アルゴリズム29は、手書き文字については、手書き文字の文字認識の精度が高い認識処理部28の優先度を高めてもよい。
【0054】
認識結果生成部23は、文字認識結果データを生成する際に、各認識処理部28の文字認識の結果にばらつきがあった文字について、そのばらつきの度合いに応じた誤認識の可能性を示すパラメータを文字認識結果データに含める。
【0055】
認識結果生成部23によれば、複数の認識処理部28の特性に基づいて複数の文字認識結果を組み合わせて文字認識結果データを生成することが可能になる。よって、認識部22のそれぞれの認識処理部28の特性を活かした文字認識の結果を得ることができ、文字認識の精度を高めることができる。
【0056】
ステップS50は、校正処理部25が実行する校正処理である。ステップS50では、校正処理部25は、まず、書類の画像データと、その書類の画像データに対して生成された文字認識結果データと、をユーザー端末13に出力する。ユーザー端末13には、ユーザーによる校正を受け付けるためのアプリケーションプログラムである校正処理プログラムが予めインストールされている。
【0057】
校正処理プログラムは、書類の画像データと、文字認識結果データとを表示部14に並べて表示する。この際、文字認識結果データにおいて文字の誤認識の可能性が高い文字につてはマーカー表示をするなどして、ユーザーに注意を喚起する。
【0058】
ステップS60では、ユーザーによる文字認識結果データの校正を受け付ける。ユーザーは、入力部15を操作して、校正処理プログラムが表示部14に表示している文字認識結果データに対して誤っている個所の修正をすることができる。ユーザーは、文字認識結果データに対して、誤認識された文字の修正だけでなく、罫線の追加や変更、削除といった修正を行うこともできる。校正処理プログラムは、ユーザーによるその修正内容を、ユーザーによる校正結果の入力として受け付け、文字認識処理装置11の校正処理部25に送信する。校正処理部25は、ユーザー端末13から送られてくるユーザーによる校正結果の入力を受け付け、文字認識結果データにその校正結果を反映させる。
【0059】
ステップS60では、校正処理部25は、ユーザーによる校正結果に罫線の修正が含まれているか否かを判定する。校正結果に罫線の修正が含まれていなければ、校正処理部25は、校正結果が反映された文字認識結果データを、ユーザー端末13に出力する。
【0060】
ユーザーによる校正結果に罫線の修正が含まれていた場合、校正処理部25は、その修正指示に応じて文字認識結果データの罫線を修正する。その後、罫線が修正された文字認識結果データに対して、ステップS30の各認識処理部28による文字認識が再度、実行される。そして、ステップS40において認識結果生成部23によって再度、文字認識結果データが生成される。罫線が修正された場合、その修正に応じて、文字ブロックCBや行ブロックLB、文脈ブロックSBの再構成がなされるため、文字認識の精度を向上させることができる。
【0061】
ステップS70では、フィードバック処理部26が、校正処理部25が受け付けたユーザーによる校正結果の内容に基づいて、認識部22の各認識処理部28を構成する人工知能の学習モデルの修正を実行する。これによって、各認識処理部28による文字認識の精度を高めることができる。
【0062】
以上のように、本実施形態の文字認識システム10によれば、複数の認識処理部28による文字認識の結果を組み合わせて書類全体の文字認識結果を生成される。よって、各認識処理部28を構成する人工知能のそれぞれの特性を活かして文字認識の精度を高めることが可能である。
【0063】
2.第2実施形態:
図7は、第2実施形態の文字認識システムにおいて実行される文字認識処理のフローチャートである。第2実施形態の文字認識システムの構成は、第1実施形態の文字認識システム10の構成とほぼ同じである。第2実施形態の文字認識処理は、矯正処理の実行タイミングが異なっている点が第1実施形態の文字認識処理と異なっている。
【0064】
第2実施形態では、矯正処理部24は、認識結果生成部23が生成した文字認識結果データに対して矯正処理を図5に示すフローで実行する。この構成によれば、文字認識結果データに文字の属性からかけ離れて誤認識された文字が含まれることを抑制することができ、文字認識システムにおける文字認識の精度を高めることができる。
【0065】
3.第3実施形態:
第3実施形態の文字検索システム1は、文字認識システム10によって生成される文字認識結果データに基づく文書データの検索を行うためのシステムであり、文字認識システム10を含んでいる。文字検索システム1は、記憶処理部51、検索処理部52、表示処理部53、及び文書データベース36を備えている。図8に示すように、文字認識処理装置20の制御部20は、例えば記憶処理部51、検索処理部52、及び表示処理部53を有している。記憶処理部51、検索処理部52、及び表示処理部53は、文字検索処理を実行するための機能部である。また、文字認識処理装置20の記憶部30は、例えば文書データベース36を有している。文字認識処理装置20は、文字検索処理装置として機能する。
【0066】
記憶処理部51は、校正処理部25が受け付けた校正結果を反映した文字認識結果データに関する文書データを、文書データベース36に記憶する処理を実行する。文書データは、例えばテキストデータ又は電子ファイル化された文書として記憶されている。文書データベース36は、文書データが格納される。記憶処理部51は、文書データに対応した書類データが表す書類の種類に分類して、文書データを記憶しても良い。
【0067】
検索処理部52は、例えばユーザー端末13から与えられる検索条件例えば検索キーワードを用いて、文書データベース36を検索することで、当該検索キーワードを含む文書データを抽出する処理を実行する。検索キーワードは、単語単位、文章単位、及びこれらの組合せ等で構成できる。また、検索処理部52は、抽出した文書データのうち検索キーワードに合致する箇所を含む書類データ上での位置情報例えばページ番号や行番号等を特定する。検索処理部52は、抽出した文書データに基づいて、検索結果情報を生成する。検索結果情報には、例えば文書データ中の検索キーワードのヒット件数等が含まれる。
【0068】
表示処理部53は、ユーザーが文書データを検索するための検索トップ画面61を例えば表示部14つまりユーザー端末13に表示させる処理を実行する。この場合、検索処理部52は、検索トップ画面61に入力された検索キーワードに基づいて文書データを検索する。検索トップ画面61は、検索画面として機能する。例えば文字認識処理装置20の表示処理部53は、ユーザー端末13に所定の情報を表示させるための命令を、ネットワークNTを介してユーザー端末13に送信できる。そして、ユーザー端末13は、文字認識処理装置20から所定の情報を表示する旨の命令を受信すると、その命令に基づいて表示部14に所定の情報を表示させる。また、表示処理部53は、検索処理部52によって生成された検索結果情報に基づいて、表示部14の表示内容を更新させる。
【0069】
検索トップ画面61では、図9に示すように、検索キーワード入力領域611及び文書データ表示領域612が配置される。検索キーワード入力領域611は、ユーザーが検索キーワードを入力する領域である。ユーザーは、入力部15を用いて、検索キーワード入力領域611に、検索キーワードを入力する。図9等では、2つの検索キーワードをそれぞれ「XXX」、「YYY」とし、各検索キーワード間をスペースで区切って示している。
【0070】
検索キーワード入力領域611に、2つの検索キーワードをスペースで区切って入力する場合、任意の指定間隔による近傍検索として検索されるように構成しても良い。指定間隔は、図示しない設定画面においてユーザーが適宜設定可能な構成にできる。また、検索キーワード入力領域611に入力された検索キーワードを含む文章に対して例えば単語単位に分割するいわゆる分かち書きを行い、分かち書きによって分割された各単語を用いて近傍検索を行う構成としても良い。分かち書きの際に用いる単語は、ユーザーによって予め登録することができる。
【0071】
文書データ表示領域612は、文書データベース36に格納された文書データに対応した書類データのファイル名が表示される領域である。図9における「A資料」、「B資料」、及び「C資料」は、ファイル名の一例である。なお、ファイル名には、ファイルの拡張子を含んでいても良い。
【0072】
表示処理部53は、検索トップ画面61において、検索キーワード入力領域611に検索キーワードが入力された状態で、検索キー613が操作されると、検索結果画面62を表示させる。図10に示すように、検索結果画面62には、結果表示領域621及びリスト表示領域622が配置される。結果表示領域621は、例えば検索結果の説明文が表示される。図10中の「検索キーワード「XXX YYY」 合計で、3件ヒットしました。」との文字は、検索結果の説明文の一例である。リスト表示領域622は、例えば検索キーワードが含まれる文書データが検索キーワードのヒット件数とともにリスト表示される。
【0073】
なお、検索結果画面62には、検索トップ画面61と同様に、検索キーワード入力領域611及び検索キー613を配置できる。ユーザーは、検索結果画面62が表示された状態で、検索条件つまり検索キーワードを変更したい場合、検索結果画面62に配置された検索キーワード入力領域611の入力内容を変更し、再度検索キー613を入力操作することで、変更後の検索キーワードを用いて検索を行うことができる。
【0074】
リスト表示では、例えば複数の文書データを検索キーワードのヒット件数の多い順に上から下へ並べて表示される。つまり、リスト表示領域622には、検索キーワードに関連の高い文書データが上から下へ並べて表示される。リスト表示される文書データは、例えば選択操作が可能な文書データボタン622aで構成される。文書データボタン622aは、ユーザーによって入力操作が可能な操作キーである。本実施形態では、検索結果画面62において、文書データボタン622aが選択されていない場合、文書データボタン622aの背景色は「白色」又は「無色」にて表示される。
【0075】
表示処理部53は、図10のハッチングで示すように、リスト表示領域622に表示された文書データボタン622aのうちいずれかの文書データボタン622aが選択されると、図11に示すように、ポップアップ63を検索結果画面62上に表示させる。ポップアップ63は、ユーザーが選択した文書データにおいて検索キーワードが合致する箇所を示すものである。例えばポップアップ63の上段には、選択された文書データが、チェックマーク及び検索キーワードのヒット件数とともに、背景色が「緑色」にて表示される。図11では、背景色をハッチングで表している。背景色は、「緑色」に限らず、「赤色」など他の色であっても良い。また、ポップアップ63には、概要欄631が配置される。概要欄631には、例えば検索キーワードが含まれる文章及び当該文章が存在するページ番号が表示される。このようにして、表示処理部53は、文書データにおける検索キーワードに合致する箇所が分かる態様で検索結果を表示部14に表示させる。
【0076】
表示処理部53は、ポップアップ63に対する表示操作例えばクリック操作が行われると、文書データの全文データを表示部14に表示させることができる。この場合、文書データにおける検索キーワードが含まれる文章が存在するページが優先的に表示され、検索キーワードに合致する箇所には例えばハイライト表示される。これにより、ユーザーにとって関心度が高い文章にアクセスしやすくできる。
【0077】
次に、図12を参照して、文字検索システム1において行われる制御内容の一例について説明する。なお、以下の説明では、制御部20が制御を行う主体として説明する。制御部20は、処理を開始すると、ステップA11において、検索トップ画面61をユーザー端末13の表示部14に表示させる。次に、制御部20は、ステップA12において、例えば検索キーワードの入力による検索操作を受け付ける。
【0078】
制御部20は、検索操作を受けると、ステップA13において、検索キーワードを含む文書データを抽出する検索処理を実行する。その後、制御部20は、ステップA14において、検索処理の結果に基づいて、検索結果画面62を表示させる。次に、制御部20は、ステップA15において、検索結果画面62上に表示された文書データボタン622aの選択操作を受け付ける。
【0079】
制御部20は、文書データボタン622aの選択操作を受けると、ステップA16において、検索結果画面62上にポップアップ63を表示させる。次に、制御部20は、ステップA17において、ポップアップ63に対する表示操作を受け付ける。制御部20は、ポップアップ63への表示操作を受けると、ステップA18において、文書データボタン622aに対応した文書データの全文データのうち、検索キーワードが含まれる文章が存在するページを表示部14に表示させて、一連の制御を終了する(END)。
【0080】
このような第3実施形態によれば、ユーザーにとって関心度が高い文書データに効率良くアクセスできるようになるため、ユーザーにとって利便性の向上を図ることができる。
【0081】
なお、矯正処理部24によって参照される辞書データベース32や、コーパスデータベース33、ラベルデータベース34、フィールドデータベース35に登録された内容は、例えば検索処理部52で用いられる検索キーワード等に基づいて更新可能な構成としても良い。つまり、矯正処理で参照されるデータベースの内容は、文字検索システム1のユーザーに合わせた内容で、ユーザーごとに準備できる構成にしても良い。
【0082】
4.他の実施形態:
本発明は、上述の各実施形態の構成に限定されることはない。例えば、各実施形態の構成を以下のように改変することも可能である。
【0083】
4-1.他の実施形態1:
例えば、矯正処理部24は、第1実施形態のように、認識部22における各認識処理部28の文字認識の結果に対して矯正処理を実行するとともに、認識結果生成部23が生成する文字認識結果データに対しても矯正処理を実行するものとしてもよい。
【0084】
4-2.他の実施形態2:
上記の各実施形態において文字認識処理装置11で実行されていた文字認識処理は、書類読取装置12やユーザー端末13において実行されてもよい。また、文字認識処理装置11は、ユーザーによる文字認識結果データを校正する操作を受け付ける機能を有していてもよい。
【0085】
4-3.他の実施形態3:
上記の各実施形態において、認識部22の認識処理部28以外の構成部にAI技術が適用されていてもよい。例えば、書類判別部21がAIによって書類の種類を判別するように構成されていてもよい。また、認識結果決定アルゴリズム29による文字認識結果データの生成が、AIによって実行されるように構成されていてもよい。
【0086】
4-4.他の実施形態4:
上記の各実施形態において、記憶部30の各データベース31,32,33,34,35,36は、文字認識処理装置11が備えていなくてもよく、例えば、ネットワークNTに接続された、文字認識処理装置11から独立したストレージ上に構築されていてもよい。
【符号の説明】
【0087】
10…文字認識システム、11…文字認識処理装置、12…書類読取装置、13…ユーザー端末、14…表示部、15…入力部、20…制御部、21…書類判別部、22…認識部、23…認識結果生成部、24…矯正処理部、25…校正処理部、26…フィードバック処理部、28…認識処理部、29…認識結果決定アルゴリズム、30…記憶部、31…書式データベース、32…辞書データベース、33…コーパスデータベース、34…ラベルデータベース、35…フィールドデータベース、36…文書データベース、40…画像処理部、45…通信部、51…記憶処理部、52…検索処理部、53…表示処理部、CB…文字ブロック、DC…書類、LB…行ブロック、NT…ネットワーク、RL…罫線、SB…文脈ブロック
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12