IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社リコーの特許一覧

特開2024-98498テーブル認識方法、装置およびコンピュータ読み取り可能な記憶媒体
<>
  • 特開-テーブル認識方法、装置およびコンピュータ読み取り可能な記憶媒体 図1
  • 特開-テーブル認識方法、装置およびコンピュータ読み取り可能な記憶媒体 図2
  • 特開-テーブル認識方法、装置およびコンピュータ読み取り可能な記憶媒体 図3
  • 特開-テーブル認識方法、装置およびコンピュータ読み取り可能な記憶媒体 図4
  • 特開-テーブル認識方法、装置およびコンピュータ読み取り可能な記憶媒体 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024098498
(43)【公開日】2024-07-23
(54)【発明の名称】テーブル認識方法、装置およびコンピュータ読み取り可能な記憶媒体
(51)【国際特許分類】
   G06T 7/60 20170101AFI20240716BHJP
【FI】
G06T7/60 200K
【審査請求】有
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2023222147
(22)【出願日】2023-12-28
(31)【優先権主張番号】202310034562.7
(32)【優先日】2023-01-10
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】レイ ディン
(72)【発明者】
【氏名】ビヌ ドォン
(72)【発明者】
【氏名】シャヌシャヌ ジアン
(72)【発明者】
【氏名】ジィアシ ジャン
(72)【発明者】
【氏名】ヨンウエイ ジャン
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096DA02
5L096FA26
5L096FA67
5L096FA69
5L096HA11
(57)【要約】      (修正有)
【課題】テーブル認識の正確性を向上させるテーブル認識方法、装置及びコンピュータ読取可能な記憶媒体を提供する。
【解決手段】本発明の一実施例にかかるテーブル認識方法は、第1のテーブル画像における、少なくとも横線と縦線を含む複数のテーブル要素を識別して各テーブル要素の第1のテーブル画像における位置を取得し、第1のテーブル画像のひずみが解消されるように、横線と縦線を含む第1のテーブル要素の第1のテーブル画像における位置に基づいて第1のテーブル画像に対して投影変換を行って第2のテーブル画像を得、第2のテーブル画像を識別してセル枠領域および前記セル枠領域における文字内容を得ることを含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
テーブル認識装置が実行するテーブル認識方法であって、
第1のテーブル画像における複数のテーブル要素を認識し、各テーブル要素の第1のテーブル画像における位置を取得することであって、前記複数のテーブル要素は、少なくとも横線と縦線を含む、ことと、
第1のテーブル要素の第1のテーブル画像における位置に基づいて前記第1のテーブル画像に対して投影変換を行って第2のテーブル画像を取得することであって、前記第1のテーブル要素は、横線と縦線を含み、前記投影変換は、前記第1のテーブル画像のひずみを除去するために用いられる、ことと、
前記第2のテーブル画像を認識してセル枠領域および前記セル枠領域における文字内容を取得することと、を含むことを特徴とするテーブル認識方法。
【請求項2】
前記第1のテーブル画像における複数のテーブル要素を認識することは、
前記第1のテーブル画像を予め訓練されたマルチタスク意味的分割モデルに入力し、前記マルチタスク意味的分割モデルから出力された各テーブル要素の前記第1のテーブル画像における位置を取得することを含むことを特徴とする請求項1に記載のテーブル認識方法。
【請求項3】
前記複数のテーブル要素は、テーブル全体領域とテキスト領域をさらに含むことを特徴とする請求項2に記載のテーブル認識方法。
【請求項4】
複数のサンプルテーブル画像と各サンプルテーブル画像のテーブル要素のタグ付け結果を取得することと、
前記複数のサンプルテーブル画像とタグ付け結果に基づいて、前記マルチタスク意味的分割モデルを訓練することと、をさらに含み、
前記マルチタスク意味的分割モデルは、テーブル画像を入力とすると共に、テーブル画像におけるテーブル要素およびその位置を出力とすることを特徴とする請求項2または3に記載のテーブル認識方法。
【請求項5】
前記第1のテーブル要素の第1テーブル画像における位置に基づいて前記第1のテーブル画像に対して投影変換を行って第2テーブル画像を取得することは、
投影変換された同一の横線上の点の縦方向座標が同一になり、かつ同一の縦線上の点の横方向座標が同一になるようにするための投影変換関係を取得するように、前記横線上と縦線上の点の第1のテーブル画像における位置座標に基づいてフィッティングを行うことと、
前記投影変換関係により前記第1のテーブル画像に対して変換を行って第2テーブル画像を取得することと、を含むことを特徴とする請求項1に記載のテーブル認識方法。
【請求項6】
前記横線は、表示されている横線と表示されていない横線を含み、
前記縦線は、表示されている縦線と表示されていない縦線を含むことを特徴とする請求項5に記載のテーブル認識方法。
【請求項7】
前記第2のテーブル画像を認識してセル枠領域および前記セル枠領域における文字内容を取得することは、
前記横線と縦線の第2のテーブル画像における位置に基づいて、第2のテーブル画像におけるセル枠領域を取得することと、
前記第2のテーブル画像における各セル枠領域内の文字内容を認識することと、を含むことを特徴とする請求項5または6に記載のテーブル認識方法。
【請求項8】
第1のテーブル画像における複数のテーブル要素を認識し、各テーブル要素の第1のテーブル画像における位置を取得する要素認識モジュールであって、前記複数のテーブル要素は、少なくとも横線と縦線を含む、要素認識モジュールと、
第1のテーブル要素の第1のテーブル画像における位置に基づいて前記第1のテーブル画像に対して投影変換を行って第2のテーブル画像を取得する投影変換モジュールであって、前記第1のテーブル要素は、横線と縦線を含み、前記投影変換は、前記第1のテーブル画像のひずみを除去するために用いられる、投影変換モジュールと、
前記第2のテーブル画像を認識してセル枠領域および前記セル枠領域における文字内容を取得する認識処理モジュールと、を含むことを特徴とするテーブル認識装置。
【請求項9】
前記要素認識モジュールは、前記第1のテーブル画像を予め訓練されたマルチタスク意味的分割モデルに入力し、前記マルチタスク意味的分割モデルから出力された各テーブル要素の前記第1のテーブル画像における位置を取得することを特徴とする請求項8に記載のテーブル認識装置。
【請求項10】
前記複数のテーブル要素は、テーブル全体領域とテキスト領域をさらに含むことを特徴とする請求項9に記載のテーブル認識装置。
【請求項11】
複数のサンプルテーブル画像と各サンプルテーブル画像のテーブル要素のタグ付け結果を取得し、前記複数のサンプルテーブル画像とタグ付け結果に基づいて前記マルチタスク意味的分割モデルを訓練するモデル訓練モジュール、をさらに含み、
前記マルチタスク意味的分割モデルは、テーブル画像を入力とすると共に、テーブル画像における各テーブル要素およびその位置を出力とすることを特徴とする請求項9または10に記載のテーブル認識装置。
【請求項12】
前記投影変換モジュールは、さらに、
投影変換された同一の横線上の点の縦方向座標が同一になり、かつ同一の縦線上の点の横方向座標が同一になるようにするための投影変換関係を取得するように、前記横線上と縦線上の点の第1のテーブル画像における位置座標に基づいてフィッティングを行い、
前記投影変換関係により前記第1のテーブル画像に対して変換を行って第2テーブル画像を取得することを特徴とする請求項8に記載のテーブル認識装置。
【請求項13】
前記横線は、表示されている横線と表示されていない横線を含み、
前記縦線は、表示されている縦線と表示されていない縦線を含むことを特徴とする請求項12に記載のテーブル認識装置。
【請求項14】
前記認識処理モジュールは、
前記横線と縦線の第2のテーブル画像における位置に基づいて、第2のテーブル画像におけるセル枠領域を取得し、
前記第2のテーブル画像における各セル枠領域内の文字内容を認識することを特徴とする請求項12または13に記載のテーブル認識装置。
【請求項15】
コンピュータ読み取り可能な記憶媒体であって、
前記記憶媒体にコンピュータプログラムが記憶されており、
前記コンピュータプログラムをプロセッサに実行させることにより、請求項1から3、及び5から6のいずれか1項に記載されたテーブル認識方法のステップが実現されることを特徴とする記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は画像処理と文字認識技術分野に関し、具体的にテーブル認識方法、装置およびコンピュータ読み取り可能な記憶媒体に関する。
【背景技術】
【0002】
テーブルは、ドキュメントに豊富な情報を含むデータ形式の一つである。しかし、多くのテーブルはコンピュータにとって、データ処理でスキャンまたは写真撮影により構造化された情報が失われる。そのため、従来からテーブル識別は文書解読の重要な技術である。高度なテーブル認識技術により、デジタル製品はドキュメントのコンテンツ情報を正確に把握し、信頼性の高いサービスが提供される。
【0003】
テーブル認識はテーブルの画像に基づいてテーブルの内容を認識することを目的とする。具体的には、テーブル認識はテーブル構造の認識(具体的にセル枠の位置領域)とセル枠内の文字内容の認識を含む。従来のテーブル認識の方法は、通常に目標検出または行/列分割の方法によって表の構造を識別するが、撮影またはスキャンして得られるテーブル画像にひずみ変形が存在する場合がある。このようなテーブル画像の認識では、通常に良好な結果が得にくい。そのため、テーブル画像のひずみ変形を補正してテーブル認識の正確性を向上させるテーブル認識技術が必要である。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明の実施例が解決しようとする問題はテーブル認識方法、装置およびコンピュータ読み取り可能な記憶媒体を提供し、テーブル認識の正確性を向上させることである。
【課題を解決するための手段】
【0005】
本発明の一つ形態である少なくとも一つの実施例は、第1のテーブル画像における複数のテーブル要素を認識し、各テーブル要素の第1のテーブル画像における位置を取得することであって、前記複数のテーブル要素は、少なくとも横線と縦線を含む、ことと、第1のテーブル要素の第1のテーブル画像における位置に基づいて前記第1のテーブル画像に対して投影変換を行って第2のテーブル画像を取得することであって、前記第1のテーブル要素は、横線と縦線を含み、前記投影変換は、前記第1のテーブル画像のひずみを除去するために用いられる、ことと、前記第2のテーブル画像を認識してセル枠領域および前記セル枠領域における文字内容を取得することと、を含むことを特徴とするテーブル認識方法を提供する。
【0006】
また、本発明の少なくとも一つの実施例によれば、前記第1のテーブル画像における複数のテーブル要素を認識することは、前記第1のテーブル画像を予め訓練されたマルチタスク意味的分割モデルに入力し、前記マルチタスク意味的分割モデルから出力された各テーブル要素の前記第1のテーブル画像における位置を取得することを含む。
【0007】
また、本発明の少なくとも一つの実施例によれば、前記複数のテーブル要素は、テーブル全体領域とテキスト領域をさらに含む。
【0008】
また、本発明の少なくとも一つの実施例によれば、前記方法は、複数のサンプルテーブル画像と各サンプルテーブル画像のテーブル要素のタグ付け結果を取得することと、前記複数のサンプルテーブル画像とタグ付け結果に基づいて、前記マルチタスク意味的分割モデルを訓練することと、をさらに含み、前記マルチタスク意味的分割モデルは、テーブル画像を入力とすると共に、テーブル画像におけるテーブル要素およびその位置を出力とする。
【0009】
また、本発明の少なくとも一つの実施例によれば、前記第1のテーブル要素の第1テーブル画像における位置に基づいて前記第1のテーブル画像に対して投影変換を行って第2テーブル画像を取得することは、投影変換された同一の横線上の点の縦方向座標が同一になり、かつ同一の縦線上の点の横方向座標が同一になるようにするための投影変換関係を取得するように、前記横線上と縦線上の点の第1のテーブル画像における位置座標に基づいてフィッティングを行うことと、前記投影変換関係により前記第1のテーブル画像に対して変換を行って第2テーブル画像を取得することと、を含む。
【0010】
また、本発明の少なくとも一つの実施例によれば、前記横線は、表示されている横線と表示されていない横線を含み、前記縦線は、表示されている縦線と表示されていない縦線を含む。
【0011】
また、本発明の少なくとも一つの実施例によれば、前記第2のテーブル画像を認識してセル枠領域および前記セル枠領域における文字内容を取得することは、前記横線と縦線の第2のテーブル画像における位置に基づいて、第2のテーブル画像におけるセル枠領域を取得することと、前記第2のテーブル画像における各セル枠領域内の文字内容を認識することと、を含む。
【0012】
本発明の別の形態である少なくとも一つの実施例は、第1のテーブル画像における複数のテーブル要素を認識し、各テーブル要素の第1のテーブル画像における位置を取得する要素認識モジュールであって、前記複数のテーブル要素は、少なくとも横線と縦線を含む、要素認識モジュールと、第1のテーブル要素の第1のテーブル画像における位置に基づいて前記第1のテーブル画像に対して投影変換を行って第2のテーブル画像を取得する投影変換モジュールであって、前記第1のテーブル要素は、横線と縦線を含み、前記投影変換は、前記第1のテーブル画像のひずみを除去するために用いられる、投影変換モジュールと、前記第2のテーブル画像を認識してセル枠領域および前記セル枠領域における文字内容を取得する認識処理モジュールと、を含むことを特徴とするテーブル認識装置を提供する。
【0013】
また、本発明の少なくとも一つの実施例によれば、前記要素認識モジュールは、前記第1のテーブル画像を予め訓練されたマルチタスク意味的分割モデルに入力し、前記マルチタスク意味的分割モデルから出力された各テーブル要素の前記第1のテーブル画像における位置を取得する。
【0014】
また、本発明の少なくとも一つの実施例によれば、前記複数のテーブル要素は、テーブル全体領域とテキスト領域をさらに含む。
【0015】
また、本発明の少なくとも一つの実施例によれば、複数のサンプルテーブル画像と各サンプルテーブル画像のテーブル要素のタグ付け結果を取得し、前記複数のサンプルテーブル画像とタグ付け結果に基づいて前記マルチタスク意味的分割モデルを訓練するモデル訓練モジュール、をさらに含み、前記マルチタスク意味的分割モデルは、テーブル画像を入力とすると共に、テーブル画像における各テーブル要素およびその位置を出力とする。
【0016】
また、本発明の少なくとも一つの実施例によれば、前記投影変換モジュールは、さらに、投影変換された同一の横線上の点の縦方向座標が同一になり、かつ同一の縦線上の点の横方向座標が同一になるようにするための投影変換関係を取得するように、前記横線上と縦線上の点の第1のテーブル画像における位置座標に基づいてフィッティングを行い、前記投影変換関係により前記第1のテーブル画像に対して変換を行って第2テーブル画像を取得する。
【0017】
また、本発明の少なくとも一つの実施例によれば、前記横線は、表示されている横線と表示されていない横線を含み、前記縦線は、表示されている縦線と表示されていない縦線を含む。
【0018】
また、本発明の少なくとも一つの実施例によれば、前記認識処理モジュールは、前記横線と縦線の第2のテーブル画像における位置に基づいて、第2のテーブル画像におけるセル枠領域を取得し、前記第2のテーブル画像における各セル枠領域内の文字内容を認識する。
【0019】
本発明の実施例は、コンピュータ読み取り可能な記憶媒体であって、前記記憶媒体にコンピュータプログラムが記憶されており、前記コンピュータプログラムをプロセッサに実行させることにより、上記のテーブル認識方法のステップが実現されることを特徴とする記憶媒体を提供する。
【発明の効果】
【0020】
従来の技術と比べ、本発明の実施例が提供するテーブル識別方法、装置およびコンピュータ読み取り可能な記憶媒体は、テーブル画像におけるひずみを除去することにより、テーブル識別の正確性を向上させる効果がある。
【図面の簡単な説明】
【0021】
以下は、本発明の実施形態の技術的解決策をより明確に説明するために、本発明の実施形態の説明に必要な図面を簡単に紹介する。本願の実施形態を理解するために、当業者であれば、創造的な労力を費やすことなく、これらの図面に基づいて他の図面を取得することもできる。
図1図1は本発明の実施例中のテーブル識別方法の流れ図である。
図2図2は本発明の実施例で第1のテーブル画像に対してテーブル要素識別を行うことを示す図である。
図3図3は本発明の実施例にかかるテーブル識別装置の構成を示す図である。
図4図4は本発明の実施例にかかるテーブル識別装置の別の構成を示す図である。
図5図5は本発明の実施例のテーブル識別装置の更に別の構成を示す図である。
【発明を実施するための形態】
【0022】
本発明が解決しようとする問題、技術的構想及びと効果をより明確にするために、以下に図面と具体的な実施例を組み合わせて詳しく説明する。以下の説明では、開示された具体的な構成と要素の特定の細部は本発明の実施例を正しく理解するのに助けるためのものに過ぎない。したがって、本発明が請求する範囲と趣旨から逸脱することなければ、ここに記述された実施例に対して様々な変更を行うことができることは当業者には明らかである。なお、明瞭さと簡潔さのため、既知の機能と構造の説明は省略する。
【0023】
明細書をわたって言及する「一つの実施例」または「一実施例」は、実施例に関連する特定の特徴、構造または特性が本発明の少なくとも一つの実施例に含まれることを意味する、と理解されるべきである。そのため、明細書において記載される「一つの実施例において」又は「一実施例において」とは必ずしも同じ実施例を指すとは限らない。なお、これらの特定の特徴、構造または特性は一つまたは複数の実施例において任意の適宜な方式で組み合わせることができる。
【0024】
本発明の各実施例において、下記の各プロセスの番号の大きさは実行順序の前後を意味するものではない。各プロセスの実行順序は、その機能と内在ロジックによって決定されるべきであり、本発明の実施例の実施プロセスに対していかなる限定を構成すべきではないことを理解すべきである。
【0025】
従来のテーブル認識方法は主にテーブル構成の識別とテーブルにおける文字内容の識別を含む。テーブル画像、特に撮影またはスキャンして得られたテーブル画像において、画像が変形したため、テーブルのセル間にずれが大きい。そのため、従来のテーブル認識方法では、正確なテーブル構造が得られず、テーブル認識の正確性が確保されない。
【0026】
従来のテーブル認識方法で画像の変形を解消し難い問題に対して、本発明の実施例は、マルチタスク意味的分割(セマンティックセグメンテーション:semantic segmentation)モデルに基づくテーブル認識方法を提供することにより、テーブル画像における変形を解消することができ、テーブル認識の正確性を向上させる。
【0027】
本発明の実施例にかかるテーブル認識方法は、テーブル画像を含む第1のテーブル画像に対して識別を行うことにより、第1のテーブル画像のテーブル構造と文字内容が得られる。図1に示すように、テーブル認識方法は、ステップ11~ステップ13を含む。
【0028】
ステップ11において、第1のテーブル画像における少なくとも横線と縦線を含む複数のテーブル要素を識別して各テーブル要素の第1のテーブル画像における位置を取得する。
【0029】
ここで、テーブル要素はテーブルを構成する要素である。本発明の実施例において、テーブル要素はテーブルを区切ってセルを構成する横線と縦線を含む。テーブルにおいて、横線と縦線が表示される場合と表示されない場合がある。表1に示すテーブルは、セル毎に横線と縦線が表示される。また、表2に示すテーブルは、一部のセルが表示されない横線と表示されない縦線で区切られている。そのため、本発明の実施例において、横線は表示される横線と表示されない横線に分類され、縦線は表示される縦線と表示されない縦線に分類される。
【0030】
【表1】
【0031】
【表2】
本発明の実施例において、テーブルの要素を識別するために、予めマルチタスク意味的分割モデルを訓練する。マルチタスク意味的分割モデルは特徴抽出層と複数の出力層を含む。出力層毎にテーブル要素に対応付けられる。特徴抽出層は入力されたテーブル画像から特徴を抽出する。特徴抽出層は出力層毎に抽出された特徴に基づいて、テーブル画像における画素を分類し、画素が当該出力層に対応するテーブル要素に属するか否かを分類し、さらに当該テーブル要素が位置する領域を出力する。すなわち、マルチタスクはモデルの複数の出力層が1つの特徴抽出層により抽出された特徴を共有し、異なる目標領域の分割を行うことである。このようなマルチタスク意味的分割モデルを導入することにより、特徴抽出層により抽出される特徴の効果を強化し、各出力層がテーブル要素に対する識別精度を向上させることができる。本発明の実施例においてマルチタスク意味的分割モデルはUNet、SegFormerなどのモデルを含むが、これらに限定されない。
【0032】
このように、ステップ11において、前記第1のテーブル画像を事前訓練して得られたマルチタスク意味的分割モデルに入力し、前記マルチタスク意味的分割モデルが出力した各種テーブル要素の前記第1のテーブル画像における位置を得る。
【0033】
ステップ12において、第1のテーブル画像のひずみが解消されるように、横線と縦線を含む第1のテーブル要素の第1のテーブル画像における位置に基づいて、前記第1のテーブル画像に対して投影変換を行って第2のテーブル画像を得る。
【0034】
ここで、本発明の実施例において、投影変換された同一横線上の点の縦方向座標(例えば、xy軸中のy座標)が同じく、かつ同一縦線上の点の横方向座標(例えば、xy軸中のx座標)が同じくなる投影変換関係を形成させるように、ステップ11で得られた横線と縦線上の点の第1のテーブル画像における位置座標に基づいてフィッティングを行う。このように、前記投影変換関係に基づいて、第1テーブル画像に対して変換を行うことができ、第1テーブル画像を第2テーブル画像に変換する。このように投影変換すると、第1のテーブル画像中の横線は第2テーブル画像中の横線に変換され、かつ横線上の点の前記第2のテーブル画像における縦方向座標はすべて同じであり、同様、第1のテーブル画像中の縦線は第2のテーブル画像中の縦線に変換され、かつ前記縦線上の点の前記第2のテーブル画像における横方向座標はすべて同じであることにより、テーブル画像における変形が解消される。
【0035】
ステップ12において、テーブル画像において同一横線上の点は縦座標が同じであり、同じ縦線上の点は横座標が同じであることを前提とする。射影変換のフィッティングは、同一横線上の点の縦座標を同じくし、同一縦線上の点の横座標を同じくすることである。投影変換のフィッティングにおいて、ステップ11で得られた第1のテーブル画像における横線と縦線に基づいて、各横線上の点の第1のテーブル画像における位置座標と各縦線上の点の第2のテーブル画像における位置座標を決定する。その中で、横線毎に対して横線上に等間隔にある複数の点を選択して点グループとする。点グループの点の第1テーブル画像における位置座標は既知である。また、点グループの点は、第2のテーブル画像における横方向座標と第1のテーブル画像における横方向座標が同じであり、第1のテーブル画像における縦方向座標の平均値を第2テーブル画像における縦方向座標とする。同様に、縦線毎に対して、縦線上に等間隔にある複数の点を選択して点グループとする。点グループの第1のテーブル画像における位置座標は既知である。また、点グループの点は、第1のテーブル画像における横方向座標の平均値を第2のテーブル画像における横方向座標とし、第2のテーブル画像における縦方向座標と第1のテーブル画像における縦方向座標と同じである。以上の方法により、複数の点の第1のテーブル画像における位置座標と第2のテーブル画像における位置座標が得られる。その後、複数の点の第1のテーブル画像における位置座標と第2のテーブル画像における位置座標に基づいてフィッティングを行い、第1のテーブル画像と第2のテーブル画像間の投影変換関係を得る。
【0036】
なお、実際のテーブル要素認識では、ステップ11で識別された横線と縦線は、線幅が1画素点の幅よりも大きくなる場合がある。この場合、横線の線幅方向における複数の点の縦方向座標の平均値を当該横線上の点の第1のテーブル画像における縦方向座標としてよく、同様に、縦線の線幅方向における複数の点の横方向座標の平均値を当該縦線上の点の第1テーブル画像における横方向座標としてよい。
【0037】
ステップ13において、第2のテーブル画像を識別してセル枠領域および前記セル枠領域内の文字内容を得る。
【0038】
ここで、投影変換関係に基づいて、第1のテーブル画像中の横線と縦線の第2のテーブル画像における位置を得、さらに第2のテーブル画像におけるセル枠領域を得る。例えば、第2のテーブル画像における横線と縦線を重ね合わせて横線と縦線で囲まれるセル枠領域を得る。セル枠領域の横縦座標範囲によりテーブルの構造が復活される。その後、第2のテーブル画像において各セル枠領域内の文字内容を識別し、例えば、光学文字認識(Optical Character Recognition、OCR)ツールによりセル枠領域内の文字内容を識別する。これによって、第1のテーブル画像の識別が完成する。
【0039】
本発明の実施例において、前記テーブル要素はさらにテキスト領域を含む。テキスト領域とはセル中のテキスト内容に対応する領域を指す。このように、ステップ11でテキスト領域の第1のテーブル画像における位置を取得する。さらに、ステップ12で得られた射影変換関係に基づいて、テキスト領域の第2のテーブル画像における位置を得る。ステップ13で、テキスト領域の第2のテーブル画像における位置に基づいて、テキスト領域に対して文字認識を行い、テキスト領域の文字内容を得る。その後、テキスト領域の第2のテーブル画像における位置に基づいて、第2のテーブル画像において当該文字内容が所属するセル枠領域を決定することにより、テーブル構造(セル枠)およびその文字内容が得られる。
【0040】
本発明の実施例は、以上のステップを通して、マルチタスク意味的分割モデルを利用して第1のテーブル画像におけるテーブル要素を識別し、識別されたテーブル要素に基づいて、射影変換関係により第1のテーブル画像のひずみを解消して第2のテーブル画像を得た後、第2のテーブル画像に対して識別を行うことにより、テーブル構造の識別の正確性が向上し、さらにテーブルの識別効果が向上される。
【0041】
以下に本発明の実施例にかかるマルチタスク意味的分割モデルの訓練について説明する。
【0042】
まず、複数のサンプルテーブル画像及びサンプルテーブル画像毎にテーブル要素のタグ付け結果を取得する。サンプルテーブル画像において各テーブル要素とその位置を手動でタグ付けする。その後、前記複数のサンプルテーブル画像とタグ付け結果に基づいて、マルチタスク意味的分割モデルに対して訓練を行う。そのうち、マルチタスク意味的分割モデルは、テーブル画像を入力とし、テーブル画像中の各テーブル要素およびその位置を出力とする。
【0043】
また、モデルによるテーブル構造の識別効果を向上させるために、本発明の実施例にかかるテーブル要素はテーブル全体領域を含む。テーブル全体領域とは、テーブルの周辺枠に対応する領域を指す。より多くのテーブル要素を導入することによりマルチタスク意味的分割モデルを訓練する。テーブル要素毎に一つのタスク(1つの出力層)が対応付けられることにより、複数の出力層で1つの特徴抽出層が抽出した特徴を共有し、異なる目標領域の分割を行うことで、特徴抽出層より抽出された特徴の効果が強化され、各出力層によるテーブル要素の識別正確性が向上される。図2は本発明にかかるマルチタスク意味的分割モデルを適用して第1のテーブル画像に対してテーブル要素識別を行うことを示す。最終的に、テーブル全体領域、横線、縦線及びテキスト領域の第1のテーブル画像における位置が得られる。
【0044】
このようなモデル構造に基づき、異なる種類のテーブル要素は画像特徴抽出において視覚情報を共有する。複数の出力層はそれぞれ画素毎に当該画素が所定の種類のテーブル要素に属するかを予測することができ、お互いに影響を与えない。例えば、横線と縦線の交差点は横線と縦線の両方に属しており、横線と縦線の予測結果を異なる出力層で出力することでラベルの混同が避けられる。
【0045】
また、以上の方法により、本発明の実施例は前記方法を実施する装置を提供する。図3に示すように、本発明の実施例は、第1のテーブル画像における、少なくとも横線と縦線を含む複数のテーブル要素を識別し、各テーブル要素の第1のテーブル画像における位置を取得する要素認識モジュール31と、前記第1のテーブル画像におけるひずみが解消されるように、横線と縦線を含む第1のテーブル要素の第1のテーブル画像における位置に基づいて前記第1のテーブル画像に対して投影変換を行って第2のテーブル画像を得る投影変換モジュール32と、前記第2のテーブル画像を識別してセル枠領域および前記セル枠領域における文字内容を得る認識処理モジュール33と、を含む、テーブル認識装置を提供する。
【0046】
本発明の実施例は、以上のモジュールにより、テーブル識別の正確性が向上される。
【0047】
また、好ましくは、要素認識モジュール31は、前記第1のテーブル画像を予め訓練されたマルチタスク意味的分割モデルに入力してマルチタスク意味的分割モデルから出力された各テーブル要素の前記第1のテーブル画像における位置を得る。
【0048】
また、好ましくは、図4に示すように、本発明の実施例にかかるテーブル識別装置は、さらに、複数のサンプルテーブル画像とサンプルテーブル画像毎のテーブル要素のタグ付け結果を取得し、前記複数のサンプルテーブル画像とタグ付け結果に基づいて前記マルチタスク意味的分割モデルを訓練するモデル訓練モジュール34を含む。
【0049】
また、好ましくは、前記複数のテーブル要素はテーブル全体領域とテキスト領域をさらに含む。
【0050】
また、好ましくは、前記投影変換モジュールは、さらに、投影変換された同一横線上の点の縦方向座標が同じく、かつ同一縦線上の点の横方向座標が同じくなる投影変換関係になるように、前記横線上と縦線上の点の第1のテーブル画像における位置座標に基づいてフィッティングを行い、前記投影変換関係により前記第1のテーブル画像に対して変換を行って第2テーブル画像を得る。
【0051】
また、好ましくは、前記横線は表示される横線と表示されない横線を含み、前記縦線が表示される縦線と表示されない縦線を含む。
【0052】
また、好ましくは、前記横線と縦線の第2のテーブル画像における位置に基づいて、第2のテーブル画像におけるセル枠領域を得、前記第2のテーブル画像におけるセル枠領域内の文字内容を識別する。
【0053】
更に、図5は本発明の実施例にかかるテーブル認識装置のハードウェア構成を示すブロック図である。図5に示すように、テーブル認識装置500は、プロセッサ502と、コンピュータプログラム指令が記憶されるメモリ504を備え、前記プロセッサ502が前記コンピュータプログラム命令を実行することにより、第1のテーブル画像における、少なくとも横線と縦線を含む複数のテーブル要素を識別して各テーブル要素の第1のテーブル画像における位置を取得し;前記第1のテーブル画像のひずみが解消されるように、横線と縦線を含む第1のテーブル要素の第1のテーブル画像における位置に基づいて前記第1のテーブル画像に対して投影変換を行って第2のテーブル画像を得;前記第2のテーブル画像を識別してセル枠領域および前記セル枠領域内の文字内容を得る、処理が実行される。
【0054】
また、図5に示すように、テーブル認識装置500はまたネットワークインタフェース501、入力装置503、ハードディスク505、表示装置506を含む。
【0055】
上記各インターフェースはバスアーキテクチャを介してそれぞれ各装置に接続される。バスアーキテクチャは任意の数の相互接続を含むことができるバスとブリッジである。具体的に、プロセッサ502に代表される1つ又は複数の中央処理器(CPU)と、メモリ504が代表される1つまたは複数のメモリの各種回路が接続される。また、バスアーキテクチャより、例えば外付け機器、レギュレータ―及び電力管理回路などの他の様々な回路が接続される。このように、バスアーキテクチャよりこれらの機器が通信可能に接続される。バスアーキテクチャは、データバス以外に、電源バス、制御バス及び状態信号バスを含む。これらは本発明分野の公知技術であり、本文において詳細な説明を省略する。
【0056】
ネットワークインタフェース501は、ネットワーク(例えば、インターネットやLANなど)に接続され、ネットワークから関連のデータを受け付け、ハードディスク505に記憶させるインタフェースである。
【0057】
入力装置503はユーザより入力される各種指令、例えば、あらかじめ設定される閾値や閾値の設定情報などを受け付け、プロセッサ502に送信して実行させる手段である。また、入力装置503はキーボードやクリック手段(例えば、マウス、トラックボール、タッチボード)、またはタッチパネルやタッチスクリーン等がある。
【0058】
表示装置506はプロセッサ502が指令を実行した結果を表示する手段である。例えば、後処理で得られた最終認識結果等を表示する。
【0059】
前記メモリ504はオペレティングシステム(OS)の実行に必要なプログラムとデータ、及びプロセッサ502の計算過程における中間結果等のデータを記憶するメモリである。
【0060】
本発明の実施例にかかるメモリ504は揮発性メモリ又は非揮発性メモリ、もしくは揮発性と非揮発性の両方を含むメモリである。その中に、非揮発性メモリはROM、PROM、EPROM、EEPROM、フラッシュメモリである。揮発性メモリはRAMであり、外部キャッシュとして使用される。しかし、本明細書に記載される装置及び方法に用いったメモリ504はこれらのメモリに限定されず、他の適切なタイプのメモリでもよい。
【0061】
一部の実施形態において、メモリ504に、実行可能なモジュール又はデータ構成若しくはこれらのサブモジュールや拡張モジュールであるOS5041及びアプリケーションプログラム5042が記憶される。
【0062】
その中に、OS5041は、各種システムプログラム、例えばフレームワーク層、コアライブラリ層、駆動層を含み、様々な基幹業務やハードウェアベースのタスクを実現するために用いられる。アプリケーションプログラム5042は各種アプリケーションプログラム、例えばウェブブラウザ―(Browser)等を含み、様々なアプリケーション業務を実現するためのものである。本実施例にかかる方法を実行するプログラムはアプリケーションプログラム5042に含む。
【0063】
上記本発明の実施例にかかる方法は、プロセッサ502に適用され、またはプロセッサ502によって実現される。プロセッサ502は信号を処理する能力を持つ集積回路基板である。上記方法の各ステップはプロセッサ502におけるハードウェアである集積論理回路又はソフトウェア形式の指令によって実現される。上記プロセッサ502は汎用プロセッサ、デジタル信号処理装置(DSP)、専用集積回路(ASIC)、既製プログラマブルゲートアレイ(FPGA)または他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタ論理デバイス、ディスクリートハードウェア部品であり、本発明の実施例に開示される各方法、ステップ及び論理ボックスを実現又は実行可能なものである。汎用処理器はマイクロプロセッサ又は任意の一般処理器などである。本発明の実施例にかかる方法の各ステップは、ハードウェアであるデコーダにより実行されることで実現されてもよく、または、デコーダにお行けるハードウェアとソフトウェアとの組み合わせによって実現されても良い。ソフトウェアモジュールはランダムメモリ、フラッシュメモリ、読出し専用メモリ、プログラマブル読出し専用メモリ、あるいは電気的消去可能なプログラマブルメモリ、レジスタなど、本分野で成熟した記憶媒体に記憶される。このソフトウェアが記憶される記憶媒体を備えるメモリ504から、プロセッサ502は情報を読み取り、ハードウェアに合わせて上記方法のステップを実現させる。
【0064】
以上に説明した実施例は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、またはそれらの組み合わせで実現される。その中に、ハードウェアの実現に関して、処理ユニットは一つまたは複数の専用集積回路(ASIC)、デジタル信号処理プロセッサ(DSP)、デジタル信号処理装置(DSPD)、プログラム可能論理回路(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、汎用プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、本発明の機能を実行する他の電子ユニット或はその組合せにより実現される。
【0065】
また、ソフトウェアの実現に関しては、以上で説明した機能を実現するモジュール(たとえばプロセス、関数など)により上記技術が実現される。ソフトウェアコードは、メモリに保存され、プロセッサによって実行される。なお、メモリはプロセッサの内部または外部で実現される。
【0066】
具体的には、コンピュータプログラムがプロセッサ502に実行されることにより、第1のテーブル画像を予め訓練されたマルチタスク意味的分割モデルに入力してマルチタスク意味的分割モデルから出力された各テーブル要素の前記第1のテーブル画像における位置を得るステップが実現される。
【0067】
また、具体的に、コンピュータプログラムがプロセッサ502に実行されることにより、複数のサンプルテーブル画像とサンプルテーブル画像毎のテーブル要素のタグ付け結果を取得し;前記複数のサンプルテーブル画像とタグ付け結果に基づいて、前記マルチタスク意味的分割モデルを訓練するステップがさらに実現される。前記マルチタスク意味的分割モデルは、テーブル画像を入力とすると共に、テーブル画像におけるテーブル要素およびその位置を出力とする。
【0068】
好ましくは、複数のテーブル要素はテーブル全体領域とテキスト領域をさらに含む。
【0069】
具体的には、コンピュータプログラムがプロセッサ502に実行されることにより、投影変換された同一横線上の点の縦方向座標が同じく、かつ同一縦線上の点の横方向座標が同じくなる投影変換関係を形成させるように、前記横線上と縦線上の点の第1のテーブル画像における位置座標に基づいてフィッティングを行い;前記投影変換関係により前記第1のテーブル画像に対して変換を行って、第2テーブル画像を得るステップが実現される。
【0070】
具体的に、前記横線は表示される横線と表示されない横線を含み、前記縦線が表示される縦線と表示されない縦線を含む。
【0071】
また、具体的に、コンピュータプログラムがプロセッサ502に実行されることにより、前記横線と縦線の第2のテーブル画像における位置に基づいて、第2のテーブル画像におけるセル枠領域を得;前記第2のテーブル画像におけるセル枠領域内の文字内容を識別するステップが実現される。
【0072】
本発明の技術分野の当業者は、以上で開示された実施例に記載された各例のユニットおよびアルゴリズムのステップが、電子ハードウェア、またはコンピュータソフトウェアと電子ハードウェアとの組み合わせで実現されることが容易に想到される。これらの機能はハードウェアまたはソフトウェアのいずれかで実行することは、発明の特定的な適用や設計制約に依存する。当業者が特定の適用に応じた方法で上記の機能を実現させることができるが、本発明の範囲を超えるべきではない。
【0073】
また、説明上便宜と簡潔性のため、上記のシステム、装置及びユニットの具体的な作業過程に関して、上記した実施例中の対応過程に参照することができることが、当業者とって明らかであるために、詳細な説明を省略する。
【0074】
本発明の複数の実施例より開示された方法及び装置は別の形態でも実現可能であることは容易に想到される。例えば、上記記載された装置は模式的なものに過ぎない。例えば、前記したユニットの分割は論理的な機能の割り当ての一例に過ぎず、実際に実現の時に別の分割方式を採用しても良い。例えば、複数のユニットまたはモジュールを組み合わせるか、別のシステムに集約し、または、一部の機能を省略し、若しくは実行しなくてもよい。なお、上記表示または開示された相互的な接続または直接な接続若しくは通信可能な接続は、インタフェースを介する接続である。装置やユニット同士の間接的な接続または通信可能な接続は、電気的または機械的もしくは他の形態の接続でよい。
【0075】
前記分離部材として説明したユニットは物理的に分離してもしなくてもよい。ユニットとして表示する部材は物理的なユニットであってもでなくてもよい。即ち、同一の場所にしてよく、複数のネットワークユニット上に分散してもよい。実際の需要に応じてその中の一部または全部のユニットを選択して本発明の実施例の目的を実現する。
【0076】
なお、本発明の実施例にかかる各機能的ユニットは、1つの処理ユニットに集約しても良く、物理的に単独でもよく、2つ以上で一つのユニットとして集約してもよい。
【0077】
上記した機能がソフトウェア機能ユニットの形式で実現され、かつ独立した製品として販売または使用される場合、前記機能はコンピュータで読み取り可能な記憶媒体に格納することができる。このような理解の基で、本発明の技術構想の本質あるいは従来技術に貢献する部分または前記技術構想の部分はソフトウェア製品の形式で具現することができる。このコンピュータソフトウェア製品は記憶媒体に記憶され、指令を含み、コンピュータ装置(パーソナルコンピュータ、サーバ、またはネットワーク装置などであってもよい)に本発明の各実施例に記載された方法の全部または一部のステップを実行させる。上記した記憶媒体はUSBメモリ、リムーバブルハードディスク、ROM、RAM、磁気ディスクまたは光ディスクなどの各種のプログラムコードを記憶できる媒体を含む。
【0078】
以上の説明は本発明の具体的な実施方式似すぎず、本発明を保護する範囲を限定するものではない。本発明に開示された範囲内で当業者に容易に想到される変更または置換は本発明の範囲に含まれる。従って、本発明を保護する範囲は権利請求の範囲を基準とすべきである。
図1
図2
図3
図4
図5