特表2024-547204 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 北京有竹居▲網▼絡技▲術▼有限公司の特許一覧

特表2024-547204テーブル認識方法、及び装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-12-26

(54)【発明の名称】テーブル認識方法、及び装置

(51)【国際特許分類】

G06T 7/60 20170101AFI20241219BHJP

【ＦＩ】

G06T7/60 200K

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2024540929

(86)(22)【出願日】2022-12-13

(85)【翻訳文提出日】2024-07-09

(86)【国際出願番号】 CN2022138631

(87)【国際公開番号】W WO2023130915

(87)【国際公開日】2023-07-13

(31)【優先権主張番号】202210018252.1

(32)【優先日】2022-01-07

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

(71)【出願人】

【識別番号】523037233

【氏名又は名称】北京有竹居▲網▼絡技▲術▼有限公司

(74)【代理人】

【識別番号】110004381

【氏名又は名称】弁理士法人ＩＴＯＨ

(72)【発明者】

【氏名】ジャン，ウェンチアン

(72)【発明者】

【氏名】ホアン，ツァン

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096BA18

5L096DA02

5L096FA16

5L096FA72

5L096HA11

5L096JA11

5L096KA04

(57)【要約】

本発明は、テーブル認識方法を開示し、テーブルを含む処理すべき画像を取得し、前記処理すべき画像における各々のセルの情報を決定することができ、前記各々のセルの情報は、前記各々のセルの周囲枠の位置を含む。その後、前記各々のセルの情報に基づいて、前記各々のセルの行方向における親セルおよび前記各々のセルの列方向における親セルを得る。さらに、前記各々のセルの行方向における親子関係および前記各々のセルの列方向における親子関係に基づいて、前記各々のセルの構造座標を得ることができ、ここで、前記構造座標は、開始行、開始列、終了行、および、終了列を含む。行方向におけるセルの親子関係および列方向におけるセルの親子関係は、グラフ構造に比べて単純である。したがって、本解決案を利用すれば、セルの構造座標を決定するための計算量を減らすことができる。
【選択図】図１

【特許請求の範囲】

【請求項1】

テーブルを含む処理すべき画像を取得し、前記処理すべき画像における各々のセルの情報を決定することであって、前記各々のセルの情報は前記各々のセルの周囲枠の位置を含むことと、
前記各々のセルの情報に基づいて、前記各々のセルの行方向における親セルおよび前記各々のセルの列方向における親セルを得ることと、
前記各々のセルの行方向における親子関係および前記各々のセルの列方向における親子関係に基づいて、前記各々のセルの構造座標を得ることであって、前記構造座標は、開始行、開始列、終了行、および、終了列を含むことと、を含む、
ことを特徴とするテーブル認識方法。

【請求項2】

前記各々のセルの情報は、
前記各々のセル内のテキストの単語埋め込みベクトル、および／または、前記各々のセルの視覚的特徴をさらに含む、ことを特徴とする請求項１に記載の方法。

【請求項3】

前記の前記各々のセルの情報に基づいて、前記各々のセルの行方向における親セルおよび前記各々のセルの列方向における親セルを得ることは、
前記各々のセルの情報を機械学習モデルに入力して、前記各々のセルの行方向における親セルおよび前記各々のセルの列方向における親セルを得ることを含む、ことを特徴とする請求項１または２に記載の方法。

【請求項4】

前記機械学習モデルは、
特徴抽出モジュールと、第１意思決定モジュールと、第２意思決定モジュールと、を備え、
前記特徴抽出モジュールは、前記各々のセルの情報に対して処理を実行して、特性シーケンスを得るために用いられ、
前記第１意思決定モジュールは、前記特徴シーケンスに基づいて、前記各々のセルの行方向における親セルを得るために用いられ、
前記第２意思決定モジュールは、前記特徴シーケンスに基づいて、前記各々のセルの列方向における親セルを得るために用いられる、ことを特徴とする請求項３に記載の方法。

【請求項5】

前記特徴抽出モジュールは、Ｔｒａｎｓｆｏｒｍｅｒモデルのエンコーダである、ことを特徴とする請求項４に記載の方法。

【請求項6】

前記第１意思決定モジュールおよび第２意思決定モジュールは、いずれもセルフアテンションｓｅｌｆ－ａｔｔｅｎｔｉｏｎモジュールである、ことを特徴とする請求項４に記載の方法。

【請求項7】

前記の前記各々のセルの行方向における親子関係および前記各々のセルの列方向における親子関係に基づいて、前記各々のセルの構造座標を得ることは、
前記各々のセルの行方向における親子関係に基づいて、前記各々のセルの開始行および終了行を決定することと、前記各々のセルの列方向における親子関係に基づいて、前記各々のセルの開始列および終了列を決定することと、を含む、ことを特徴とする請求項１に記載の方法。

【請求項8】

少なくとも１つのツリー構造は、前記各々のセルの行方向における親子関係を指示するために用いられ、１つのセルはツリーにおける１つのノードに対応され、前記の前記各々のセルの行方向における親子関係に基づいて、前記各々のセルの開始行および終了行を決定することは、
セルｉに対応する開始行座標ｂ＿ｉを決定し、セルｉがまたがる行数ｒ＿ｉを決定することと、
前記ｂ＿ｉおよび前記ｒ＿ｉに基づいて、セルｉに対応する終了行座標をｂ＿ｉ＋ｒ＿ｉ－１として決定することと、を含み、
ここで、セルｉが位置するツリーにおける当該セルｉに対応するノードにサブ分岐がないと、前記ｒ＿ｉは１であり、サブ分岐があると、セルｉに対応する行数は当該セルｉの各々のサブ分岐の対応する行数の和であり、
セルｉがテーブルヘッダーノードに対応すると、開始行ｂ＿ｉは、セルｉが位置するツリーの前の１つのツリーの終了行に１を加算したものに等しく、
当該セルｉがノードｑのｋ番目のサブノードに対応すると、開始行ｂ＿ｉは、ｂ＿ｑ＋ｓｕｍ１に等しく、ここで、ｂ＿ｑはノードｑの開始行であり、ｓｕｍ１はノードｑの（ｋ－１）個のサブ分岐の合計またがり行数の和である、ことを特徴とする請求項７に記載の方法。

【請求項9】

少なくとも１つのツリー構造は、前記各々のセルの行方向における親子関係を指示するために用いられ、１つのセルはツリーにおける１つのノードに対応し、前記の前記各々のセルの列方向における親子関係に基づいて、前記各々のセルの開始列および終了列を決定することは、
セルｉがまたがる列数ｓ＿ｉを決定し、セルｉに対応する開始列座標ａ＿ｉを決定することと、
前記ｓ＿ｉおよびａ＿ｉに基づいて、セルｉに対応する終了列座標をａ＿ｉ＋ｓ＿ｉ－１として決定することと、を含み、
ここで、セルｉが位置するツリーにおける当該セルｉに対応するノードにサブ分岐がないと、前記ｓ＿ｉは１であり、サブ分岐があると、セルｉに対応する列数は、当該セルｉの各々のサブ分岐の対応する列数の和であり、
当該セルｉがテーブルヘッダーノードに対応すると、開始列ａ＿ｉは、セルｉが位置するツリーの前の１つのツリーのテーブルヘッダーノードの終了列に１を加算したものに等しく、
当該セルｉがノードｐのｊ番目のサブノードに対応すると、開始列ａ＿ｉは、ａ＿ｐ＋ｓｕｍ２に等しく、ここで、ａ＿ｐはノードｐの開始列であり、ｓｕｍ２は、ノードｐの（ｊ－１）個のサブ分岐の合計またがり列数の和である、ことを特徴とする請求項７に記載の方法。

【請求項10】

前記各々のセルの構造座標および前記各々のセル内のテキストに基づいて、目標テーブルを生成することをさらに含む、
ことを特徴とする請求項１に記載の方法。

【請求項11】

テーブルを含む処理すべき画像を取得し、前記処理すべき画像における各々のセルの情報を決定するための取得ユニットであって、前記各々のセルの情報は前記各々のセルの周囲枠の位置を含む取得ユニットと、
前記各々のセルの情報に基づいて、前記各々のセルの行方向における親セルおよび前記各々のセルの列方向における親セルを得るための第１決定ユニットと、
前記各々のセルの行方向における親子関係および前記各々のセルの列方向における親子関係に基づいて、前記各々のセルの構造座標を得るための第２決定ユニットであって、前記構造座標は、開始行、開始列、終了行、および、終了列を含む第２決定ユニットと、を備える、
ことを特徴とするテーブル認識装置。

【請求項12】

デバイスであって、
プロセッサとメモリとを備え、
前記プロセッサは、前記メモリに記憶された命令を実行することによって、前記デバイスに請求項１～１０のいずれか１項に記載の方法を実行させるために用いられる、ことを特徴とするデバイス。

【請求項13】

デバイスに請求項１～１０のいずれか１項に記載の方法を実行させるように指示するための命令を含む、ことを特徴とするコンピュータ読み取り可能な記憶媒体。

【請求項14】

コンピュータ上で実行されると、コンピュータに請求項１～１０のいずれか１項に記載の方法を実行させる、ことを特徴とするコンピュータプログラム製品。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互引用
本出願は、２０２２年１月７日に中国国家知識産権局、出願番号が２０２２１００１８２５２.１、発明名称が「テーブル認識方法、及び装置」である中国特許出願の優先権を主張し、その全内容は参照として本出願に組み入れられる。
技術分野
本発明は、画像処理分野に関し、特に、テーブル認識方法、及び装置に関する。

【背景技術】

【0002】

テーブル認識は、テーブル構造認識（ＴａｂｌｅＳｔｒｕｃｔｕｒｅＲｅｃｏｇｎｉｔｉｏｎ、ＴＳＲ）とテーブルコンテンツ認識（Ｔａｂｌｅ
ＣｏｎｔｅｎｔＲｅｃｏｇｎｉｔｉｏｎ、ＴＣＲ）の２つの部分を含む。ここで、構造認識とは、テーブルを含む画像から各セルが位置する行と列の位置と具体的な囲み枠の物理的位置を解析することを指す。コンテンツ認識とは、各セル内のテキストを認識することを指す。構造認識とコンテンツ認識の２つのステップを通じて、各セルの構造座標および各セル内のテキスト内容を得ることができ、さらに当該テーブルをｅｘｃｅｌまたはｗｏｒｄなどのフォーマットに変換することができ、それにより、さらなる手動の校正と編集を容易にし、テーブル情報のデジタル化処理プロセスを大幅に容易にした。

【0003】

現在、テーブル構造を認識する方法は、より複雑であり、より多くの計算リソースを消費することになる。

【0004】

したがって、上記問題を解決できる解決案が急務となっている。

【発明の概要】

【0005】

本発明が解決しようとする技術的問題は、テーブル構造をいかに簡単に認識するかであり、テーブル認識方法、及び装置を提供する。

【0006】

第１態様によると、本発明の実施例は、テーブル認識方法を提供し、前記方法は、
テーブルを含む処理待ち画像を取得し、前記処理待ち画像における各々のセルの情報を決定することであって、前記各々のセルの情報は前記各々のセルの囲み枠の位置を含むことと、
前記各々のセルの情報に基づいて、前記各々のセルの行方向における親セルおよび前記各々のセルの列方向における親セルを得ることと、
前記各々のセルの行方向における親子関係および前記各々のセルの列方向における親子関係に基づいて、前記各々のセルの構造座標を得ることであって、前記構造座標は、開始行、開始列、終了行、および、終了列を含むことと、を含む。

【0007】

選択的に、前記各々のセルの情報は、
前記各々のセル内のテキストの単語埋め込みベクトル、および/または、前記各々のセルの視覚的特徴をさらに含む。

【0008】

選択的に、前記各々のセルの情報に基づいて、前記各々のセルの行方向における親セルおよび前記各々のセルの列方向における親セルを得ることは、
前記各々のセルの情報を機械学習モデルに入力して、前記各々のセルの行方向における親セルおよび前記各々のセルの列方向における親セルを得ることを含む。

【0009】

選択的に、前記機械学習モデルは、を含み：
特徴抽出モジュールと、第１意思決定モジュールと、第２意思決定モジュールと、を備え、
前記特徴抽出モジュールは、前記各々のセルの情報に対して処理を実行して、特性シーケンスを得るために用いられ、
前記第１意思決定モジュールは、前記特徴シーケンスに基づいて、前記各々のセルの行方向における親セルを得るために用いられ、
前記第２意思決定モジュールは、前記特徴シーケンスに基づいて、前記各々のセルの列方向における親セルを得るために用いられる。

【0010】

選択的に、前記特徴抽出モジュールは、Ｔｒａｎｓｆｏｒｍｅｒモデルのエンコーダである。

【0011】

選択的に、前記第１意思決定モジュールおよび第２意思決定モジュールは、いずれもセルフアテンション（ｓｅｌｆ－ａｔｔｅｎｔｉｏｎ）モジュールである。

【0012】

選択的に、前記各々のセルの行方向における親子関係および前記各々のセルの列方向における親子関係に基づいて、前記各々のセルの構造座標を得ることは、
前記各々のセルの行方向における親子関係に基づいて、前記各々のセルの開始行および終了行を決定することと、前記各々のセルの列方向における親子関係に基づいて、前記各々のセルの開始列および終了列を決定することと、を含む。

【0013】

選択的に、少なくとも１つのツリー構造は、前記各々のセルの行方向における親子関係を示すために用いられ、１つのセルはツリーにおける１つのノードに対応され、前記各々のセルの行方向における親子関係に基づいて、前記各々のセルの開始行および終了行を決定することは、
セルｉに対応する開始行座標ｂ＿ｉを決定し、セルｉにまたがる行数ｒ＿ｉを決定することと、
前記ｂ＿ｉおよび前記ｒ＿ｉに基づいて、セルｉに対応する終了行座標をｂ＿ｉ＋ｒ＿ｉ－１として決定することと、を含み、ここで、
セルｉが位置するツリーにおける当該セルｉに対応するノードにサブ分岐がないと、前記ｒ＿ｉは１であり、サブ分岐があると、セルｉに対応する行数は当該セルｉの各個のサブ分岐の対応する行数の合計であり、
セルｉがテーブルヘッダーノードに対応されると、開始行ｂ＿ｉは、セルｉが位置するツリーの前の１つのツリーの終了行に１を加算したものに等しく、
当該セルｉがノードｑのｋ番目のサブノードに対応されると、開始行ｂ＿ｉは、ｂ＿ｑ＋ｓｕｍ１に等しく、ここで、ｂ＿ｑはノードｑの開始行であり、ｓｕｍ１はノードｑの（ｋ－１）個のサブ分岐の全てにまたがる行数の合計である。

【0014】

選択的に、少なくとも１つのツリー構造は、前記各々のセルの行方向における親子関係を示すために用いられ、１つのセルはツリーにおける１つのノードに対応され、前記各々のセルの列方向における親子関係に基づいて、前記各々のセルの開始列および終了列を決定することは、
セルｉにまたがる列数ｓ＿ｉを決定し、セルｉに対応する開始列座標ａ＿ｉを決定することと、
前記ｓ＿ｉおよびａ＿ｉに基づいて、セルｉに対応する終了列座標をａ＿ｉ＋ｓ＿ｉ－１として決定することと、を含み、ここで、
セルｉが位置するツリーにおける当該セルｉに対応するノードにサブ分岐がないと、前記ｓ＿ｉは１であり、サブ分岐があると、セルｉに対応する列数は、当該セルｉの各個のサブ分岐の対応する列数の合計であり、
当該セルｉがテーブルヘッダーノードに対応されると、開始列ａ＿ｉは、セルｉが位置するツリーの前の１つのツリーのテーブルヘッダーノードの終了列に１を加算したものに等しく、
当該セルｉがノードｐのｊ番目のサブノードに対応されると、開始列ａ＿ｉは、ａ＿ｐ＋ｓｕｍ２に等しく、ここで、ａ＿ｐはノードｐの開始列であり、ｓｕｍ２は、ノードｐの（ｊ－１）個のサブ分岐の全てにまたがる列数の合計である。

【0015】

選択的に、前記方法は、
前記各々のセルの構造座標および前記各々のセル内のテキストに基づいて、目標テーブルを生成することをさらに含む。

【0016】

第２態様によると、本発明の実施例は、を提供しテーブル認識装置、前記装置は、
テーブルを含む処理待ち画像を取得し、前記処理待ち画像における各々のセルの情報を決定するための取得ユニットであって、前記各々のセルの情報は前記各々のセルの囲み枠の位置を含む取得ユニットと、
前記各々のセルの情報に基づいて、前記各々のセルの行方向における親セルおよび前記各々のセルの列方向における親セルを得るための第１決定ユニットと、
前記各々のセルの行方向における親子関係および前記各々のセルの列方向における親子関係に基づいて、前記各々のセルの構造座標を得るための第２決定ユニットであって、前記構造座標は、開始行、開始列、終了行、および、終了列を含む第２決定ユニットと、を備える。

【0017】

【0018】

選択的に、前記第１決定ユニットは、
前記各々のセルの情報を機械学習モデルに入力して、前記各々のセルの行方向における親セルおよび前記各々のセルの列方向における親セルを得る。

【0019】

選択的に、前記機械学習モデルは、
特徴抽出モジュールと、第１意思決定モジュールと、第２意思決定モジュールと、を備え、
前記特徴抽出モジュールは、前記各々のセルの情報に対して処理を実行して、特性シーケンスを得るために用いられ、
前記第１意思決定モジュールは、前記特徴シーケンスに基づいて、前記各々のセルの行方向における親セルを得るために用いられ、
前記第２意思決定モジュールは、前記特徴シーケンスに基づいて、前記各々のセルの列方向における親セルを得るために用いられる。

【0020】

選択的に、前記特徴抽出モジュールは、Ｔｒａｎｓｆｏｒｍｅｒモデルのエンコーダである。

【0021】

【0022】

選択的に、前記第２決定ユニットは、
前記各々のセルの行方向における親子関係に基づいて、前記各々のセルの開始行および終了行を決定し、前記各々のセルの列方向における親子関係に基づいて、前記各々のセルの開始列および終了列を決定する。

【0023】

【0024】

【0025】

選択的に、前記装置は、
前記各々のセルの構造座標および前記各々のセル内のテキストに基づいて、目標テーブルを生成するための生成ユニットをさらに備える。

【0026】

第３態様によると、本発明の実施例は、を提供しデバイス、前記デバイスは、プロセッサとメモリとを備え、
前記プロセッサは、前記メモリに記憶された命令を実行することによって、前記デバイスに上述した第１態様のいずれか１項に記載の方法を実行させる。

【0027】

第４態様によると、本発明の実施例は、コンピュータ読み取り可能な記憶媒体を提供し、命令を含み、前記命令は、上述した第１態様のいずれか１項に記載の方法を実行するようデバイスに指示する。

【0028】

第５態様によると、本発明の実施例は、コンピュータプログラム製品を提供し、前記コンピュータプログラム製品がコンピュータ上で実行されると、コンピュータにお上述した第１態様のいずれか１項に記載の方法を実行させる。

【0029】

本発明の実施例は、従来の技術と比べて以下の利点を有する。

【0030】

本発明の実施例は、テーブル認識方法を提供し、１例において、テーブルを含む処理待ち画像を取得し、前記処理待ち画像における各々のセルの情報を決定することができ、前記各々のセルの情報は、前記各々のセルの囲み枠の位置を含む。その後、前記各々のセルの情報に基づいて、前記各々のセルの行方向における親セルおよび前記各々のセルの列方向における親セルを得る。各々のセルの行方向における親セルを得、すなわち、前記各々のセルの行方向における親子関係を得た。各々のセルの列方向における親セルを得、すなわち、前記各々のセルの列方向における親子関係を得た。さらに、前記各々のセルの行方向における親子関係および前記各々のセルの列方向における親子関係に基づいて、前記各々のセルの構造座標を得ることができ、ここで、前記構造座標は、開始行、開始列、終了行、および、終了列を含む。このことからわかるように、本解決案を利用すれば、可以各々のセルの行方向における親子関係および前記各々のセルの列方向における親子関係に基づいて、前記各々のセルの構造座標を得る。行方向におけるセルの親子関係および列方向におけるセルの親子関係は、グラフ構造と比べて単純である。したがって、本解決案を利用すれば、セルの構造座標を決定するための計算量を減らすことができる。

【図面の簡単な説明】

【0031】

本発明の実施例または先行技術における技術的解決案をより明確に説明するために、以下では、実施例または先行技術説明において使用する必要のある図面を簡単に説明し、以下の説明における図面は、本発明に記載された実施例の一部に過ぎず、当該分野の通常の技術者にとっては、創造的な労力を要することなく、これらの図面に従って他の図面を得ることができることは明らかである。

【図1】本発明の実施例によって提供されるテーブル認識方法のプロセスの概略図である。

【図2】本発明の実施例によって提供される１つの例示的なシナリオの概略図である。

【図3】本発明の実施例によって提供されるもう１つの例示的なシナリオの概略図である。

【図4】本発明の実施例によって提供されるテーブル認識装置の構造の概略図である。

【発明を実施するための形態】

【0032】

当業者が本発明の解決案をより良く理解できるようにするため、以下では、本発明の実施例における技術的解決案を、本発明の実施例における図面と併せて、明確かつ完全に説明するが、説明した実施例は本発明の実施例の一部に過ぎず、実施例の全ではないことは明らかである。本発明の実施例に基づいて、当該分野の通常の技術者が創造的な労力を要することなく得られる全ての他の実施例はいずれも本発明の保護範囲に属する。

【0033】

本発明の発明者は、研究の結果、いくつかの方法において、セルをノードとみなし、テーブルをグラフ（Ｇｒａｐｈ）構造としてモデル化し、グラフニューラルネットワーク（Ｇｒａｐｈ
ＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ＧＮＮ）を利用してセル間の関係をモデル化して、例えば２つのセルが同じ行、同じ列にあるか否かを判断し、その後、セルが同じ行にあるか否か、セルが同じ列にあるか否かに基づいて、論理処理方法を用いてテーブルの構造座標を得ることができることを発見した。

【0034】

グラフ構造の場合、任意の２つのノード間にいずれも関係が存在する可能性があり、したがって、グラフでモデル化して得られるグラフ構造におけるノード間の関係はより複雑であり、リング構造さえ存在する可能性があることを理解するのは難しくない。したがって、グラフ構造を利用してテーブルの構造座標を得るためには、より複雑な論理処理方法を使用する必要があり、それに伴い、より多くの計算リソースを消費する必要がある。

【0035】

上記問題を解決するために、本発明の実施例は、テーブル認識方法を提供し、各々のセルの行方向における親子関係および前記各々のセルの列方向における親子関係に基づいて、前記各々のセルの構造座標を得ることができる。行方向におけるセルの親子関係および列方向におけるセルの親子関係は、グラフ構造と比べて単純である。したがって、本解決案を利用すれば、より簡単な論理処理方法を使用して、各々のセルの構造座標を決定することができ、計算リソースの消費を減らすことができる。

【0036】

以下では、図面と併せて、本発明の様々な非限定的な実施形態を詳細に説明する。

【0037】

例示的な方法
図１を参照すると、当該図面は、本発明の実施例によって提供されるテーブル認識方法のプロセスの概略図である。図１に示された方法は、クライアントによって実行されてもよいし、サーバによって実行されてもよく、本発明の実施例は具体的に限定しない。本実施例において、前記方法は、例えば、以下のステップＳ１０１～Ｓ１０３を含んでもよい。

【0038】

Ｓ１０１において、テーブルを含む処理待ち画像を取得し、前記処理待ち画像における各々のセルの情報を決定し、ここで、前記各々のセルの情報は前記各々のセルの囲み枠の位置を含む。

【0039】

本発明の実施例において、前記処理待ち画像を取得することは、具体的に実現するときに、撮影デバイスによって撮影して得られた前記処理待ち画像を取得してもよいし、ネットワークリソースから前記処理待ち画像を取得してもよいし、他の方式によって前記処理待ち画像を得てもよく、本発明の実施例は具体的に限定しない。

【0040】

本発明の実施例において、前記各々のセルの情報とは、各々のセルに関連する情報を指す。

【0041】

１例において、光学式文字認識（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒ
Ｒｅｃｏｇｎｉｔｉｏｎ、ＯＣＲ）技術を利用して前記処理待ち画像におけるテキストを認識し、その後、認識されたテキストに基づいて、各々のセルの囲み枠の位置を決定することができる。ここで、説明の便宜上、前記各々のセルにおける任意の１つのセルを「第１セル」と称する。すると、第１セルの囲み枠の位置は、前記第１セルにおけるテキストを囲むテキストボックスの位置である。

【0042】

１例において、前記各々のセルの情報は、前記各々のセルの囲み枠の位置に加えて、前記各々のセル内のテキストの単語埋め込みベクトルを含むことができる。１例として、ＯＣＲ技術を利用して各々のユニットにおけるテキストを認識して得ることができ、その後、ｂｅｒｔまたはｗｏｒｄ２ｖｅｃなどの単語埋め込みベクトルモデルを利用して前記各々のセルにおけるテキストに対して処理を実行して、前記各々のセル内のテキストの単語埋め込みベクトルを得ることができる。

【0043】

別の１例において、前記各々のセルの情報は、前記各々のセルの囲み枠の位置に加えて、前記各々のセルの視覚的特徴を含むことができ、ここで、前記各々のセルの視覚的特徴は、前記各々のセルが位置する画像領域に対して計算（例えば畳み込み計算）を実行して得られる特徴であってもよく、前記各々のセルの視覚的特徴は、前記各々のセルの背景色および/またはテクスチャなどの視覚情報を反映することができる。

【0044】

Ｓ１０２において、前記各々のセルの情報に基づいて、前記各々のセルの行方向における親セルおよび前記各々のセルの列方向における親セルを得る。

【0045】

１例において、前記各々のセルの横軸座標間の大きさ関係および前記各々のセルの縦軸座標との間の大きさ関係に基づいて、前記各々のセルの行方向における親セルおよび前記各々のセルの列方向における親セルを決定することができる。

【0046】

別の１例において、機械学習モデルを事前に訓練し、当該機械学習モデルを利用して前記各々のセルの行方向における親セルおよび前記各々のセルの列方向における親セルを決定することができる。具体的には、前記各々のセルの情報を機械学習モデルに入力して、前記各々のセルの行方向における親セルおよび前記各々のセルの列方向における親セルを得ることができる。

【0047】

前記機械学習モデルに関しては、１例において、前記機械学習モデルは、特徴抽出モジュールと第１意思決定モジュールと第２意思決定モジュールとを備えることができ、前記特徴抽出モジュールは、入力された各々のセルの情報に対して処理を実行して、特徴シーケンスを得るために用いられ、ここで、前記特徴シーケンスは前記第１意思決定モジュールと第２意思決定モジュールの両方への入力として使用されることを説明する必要がある。前記第１意思決定モジュールは、前記特徴シーケンスに基づいて、前記各々のセルの行方向における親セルを得るために用いられ、前記第２意思決定モジュールは、前記特徴シーケンスに基づいて、前記各々のセルの列方向における親セルを得るために用いられる。

【0048】

１例において、機械学習モデルの出力が、機械学習モデルを利用することによって各ノードの行方向における親セル及び各ノードの列方向におけるセルを決定する点で、機械学習モデルの入力に依存することを考慮すると、前記機械学習モデルは、自然言語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅ
Ｐｒｏｃｅｓｓｉｎｇ、ＮＬＰ）において一般的に使用されるＰｏｉｎｔｅｒＮｅｔの計算方式を使用することができる。また、従来のＰｏｉｎｔｅｒＮｅｔは、リカレントニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、ＲＮＮ）をベースとしており、当該機械学習モデルの長距離依存モデリング能力を強化するために、テーブルにおけるセル数がより多い場合にも、当該機械学習モデルが各セルの行方向における親セルおよび各セルの列方向における親セルを正確に決定できるようにし、本発明の実施例において、ＰｏｉｎｔｅｒＮｅｔをＴｒａｎｓｆｏｒｍｅｒに基づくエンコーダ（ｅｎｃｏｄｅｒ）に最適化することができる。言い換えれば、１例において、前記特徴抽出モジュールは、Ｔｒａｎｓｆｏｒｍｅｒモデルのエンコーダである。

【0049】

ここで、前記エンコーダは、セルフアテンションモジュール（ｓｅｌｆ－ａｔｔｅｎｔｉｏｎ）とフィードフォワードニューラルネットワーク（ｆｅｅｄｆｏｒｗａｒｄｎｅｕｒａｌｎｅｔｗｏｒｋ）モジュールとを含むことができる。当該セルフアテンションモジュールとフィードフォワードニューラルネットワークモジュールの計算方式は、従来のＴｒａｎｓｆｏｒｍｅｒモデルのエンコーダにおける計算方式と類似しており、ここでは詳細に説明しない。

【0050】

１例において、前記各々のセルの情報が前記特徴抽出モジュールを通過した後、特徴行列ＱとＫを得ることができ、ここで、機械学習モデルに入力した情報がｎ個のセルの情報を含むと仮定すると、前記ＱとＫはいずれもｎ＊ｍの行列である。

【0051】

１例において、前記第１意思決定モジュールおよび第２意思決定モジュールは、いずれもセルフアテンションモジュールである。

【0052】

１例において、第１意思決定モジュールは、ＱとＫの関連行列ＱＫ^Ｔを計算し、その後、関連行列の各行に対してそれぞれｓｏｆｔｍａｘ演算を実行して、ｎ＊ｎのα行列を得ることができる。ここで、α行列の要素α_ｉｊは、セルｊが行方向においてセルｉの親セルである確率値を示すために用いられる。

【0053】

同様に、第２意思決定モジュールも、ＱとＫに基づいて１つのｎ＊ｎのβ行列を計算し得ることができ、β行列の要素β_ｉｊは、セルｊが列方向においてセルｉの親セルである確率値を示すために用いられる。

【0054】

ルートノードとしてのセルには、１つの仮想ノード（例えば、ラベルが－１である）を導入して当該ルートノードの親ノードを表すことができることを説明する必要がある。

【0055】

各々のセルの行方向における親ノードに関しては、図２と併せて説明し、図２は本発明の実施例によって提供される１つの例示的なシナリオの概略図である。在図２において、セルはノードによって表される。

【0056】

図２に示されたように、ノード０の親ノードはノード－１であり、ノード１およびノード２の親ノードはいずれもノード０であり、ノード３の親ノードはノード２であり、ノード４の親ノードはノード３であり、図２に示された各ノードの行方向における親ノードに基づいて、図２に示されたツリー構造を得ることができる。

【0057】

各々のセルの列方向における親ノード、および、各々のセルの列方向における親ノードに基づいてツリー構造を決定することに関しては、ここではこれ以上例を挙げて説明しない。

【0058】

１例において、構造座標が既知の訓練テーブルを利用して前記機械学習モデルを訓練することができる。前記訓練テーブルの構造座標が既知であるため、当該訓練テーブルの各々のセル情報および各々のセルの行方向における親セルが既知であり、当該訓練テーブルの各々のセルの列方向における親セルも既知である。したがって、前記訓練テーブルに基づいて先に言及された機械学習モデルを訓練し得ることができる。

【0059】

Ｓ１０３において、前記各々のセルの行方向における親子関係および前記各々のセルの列方向における親子関係に基づいて、前記各々のセルの構造座標を得、ここで、前記構造座標は、開始行、開始列、終了行、および、終了列を含む。

【0060】

Ｓ１０２を実行した後に各々のセルの行方向における親セルを得、すなわち、前記各々のセルの行方向における親子関係を得、これに応じて、各々のセルの列方向における親セルを得、すなわち、前記各々のセルの列方向における親子関係を得た。さらに、Ｓ１０３を実行することによって、前記各々のセルの構造座標を得ることができる。

【0061】

ここで、前記各々のセルの行方向における親子関係は、行フォレストとして反映されることができ、当該行フォレストは、複数のツリーを含んでもよい。前記各々のセルの列方向における親子関係は、列フォレストとして反映されることができ、当該列フォレストは、複数のツリーを含んでもよい。

【0062】

１例において、Ｓ１０３を具体的に実現するときに、前記各々のセルの行方向における親子関係に基づいて、前記各々のセルの開始行および終了行を決定し、前記各々のセルの列方向における親子関係に基づいて、前記各々のセルの開始列および終了列を決定することができる。

【0063】

まず、「前記各々のセルの行方向における親子関係に基づいて、前記各々のセルの開始行および終了行を決定すること」の具体的な実施形態を説明する。

【0064】

前記各々のセルのうちのセルｉについては、セルｉに対応する開始行座標ｂ＿ｉを決定し、セルｉにまたがる行数ｒ＿ｉを決定することができ、ｂ＿ｉおよびｒ＿ｉに基づいて、セルｉの終了行座標をｂ＿ｉ＋ｒ＿ｉ－１として決定することができる。ここで、セルｉは、前記各々のセルのうちの任意の１つのセルである。

【0065】

ｒ＿ｉについて、説明する必要があるのは、
セルｉが位置するツリーにおける当該セルｉに対応するノードにサブ分岐がないと、当該セルｉが最も細かい粒度のセルであることを示す。このとき、前記ｒ＿ｉは、１であり、
セルｉが位置するツリーにおける当該セルｉに対応するノードにサブ分岐があると、すなわち、セルｉが複数のサブセルを含むと、このとき、セルｉに対応する行数は、当該セルｉの各個のサブ分岐の対応する行数の合計である。

【0066】

セルｉにまたがる行数ｒ＿ｉを決定する際には、右から左への方式を使用して前記セルｉが位置するツリーにおける各ノードにまたがる行数を決定することができる。

【0067】

ｂ＿ｉについて、説明する必要があるのは、
セルｉがテーブルヘッダーノードに対応されると、開始行ｂ＿ｉは、セルｉが位置するツリーの前の１つのツリーのテーブルヘッダーノードの終了行に１を加算したものに等しい。ここで、テーブルヘッダーノードの親ノードは、仮想ノードである。

【0068】

前述したように、前記各々のセルの行方向における親子関係に基づいて、行フォレストを得ることができ、行フォレストは複数のツリーを含むことができる。１例において、当該複数のツリー構造におけるテーブルヘッダーノードの縦座標の小さいものから大きいものへの順序で、当該複数のツリー構造をソートすることができる。前記セルｉが位置するツリーの前の１つのツリーとは、前述した順序で当該複数のツリー構造をソートした後に、セルｉが位置するツリーの前にソートされた１つのツリーを指す。

【0069】

当該セルｉがノードｑのｋ番目のサブノードに対応されると、開始行ｂ＿ｉは、ｂ＿ｑ＋ｓｕｍ１に等しく、ここで、ｂ＿ｑはノードｑの開始行であり、ｓｕｍ１はノードｑの（ｋ－１）個のサブ分岐の全てにまたがる行数の合計である。ここで、
ノードｑは、１つのサブノードを含んでもよく、このとき、ｋの値が１であり、ｓｕｍ１＝０、ｂ＿ｉ＝ｂ＿ｑであり、
ノードｑも、複数のサブノードを含んでもよく、このとき、ｋの値は１以上であってもよく、ｋの値が１であると、ｓｕｍ１＝０、ｂ＿ｉ＝ｂ＿ｑであり、ｋの値が１よりも大きいと、ｂ＿ｉ＝ｂ＿ｑ＋ｓｕｍ１である。

【0070】

左から右への順序で各々のセルに対応するノードの開始行を順に決定することができ、すなわち、まず、テーブルヘッダーノードの開始行を決定し、その後に、テーブルヘッダーノードの各個のサブノードの開始行を決定することができ、これに従って、ノードｑの開始行を取得することができ、これに応じて、ノードｑに対応するｋ番目のサブノードであるセルｉの開始行もこれに従って決定することができる。

【0071】

「前記各々のセルの行方向における親子関係に基づいて、前記各々のセルの開始行および終了行を決定すること」に関しては、図３と併せて説明する。図３は、本発明の実施例によって提供されるもう１つの例示的なシナリオの概略図である。

【0072】

図３に示されたように、図３に示されたテーブルを含む画像については、機械学習モデルを利用して図３の左下領域の行フォレストを得ることができる。当該行フォレストは、４つのツリーを含む。図３における１つのノードは、１つのセルに対応される。

【0073】

右から左への方式を使用して、１番目のツリーにおける各ノードにまたがる行数を決定する。ここで、
ノード５は１番目のツリーにおいて分岐がないので、ノード５にまたがる行数は１であり、
同様に、ノード６、ノード７、および、ノード８は１番目のツリーにおいて分岐がないので、ノード６、ノード７、および、ノード８にまたがる行数は１であり、
ノード１は１番目のツリーにおいて２つの分岐があり、それぞれノード５をルートノードとする分岐およびノード６をルートノードとする分岐であることに対応して、当該２つの分岐にまたがる行数はいずれも１であるので、ノード１にまたがる行数は２である。

【0074】

ノード１は１番目のツリーのテーブルヘッダーノードであるので、ノード１の開始行は０であり（または、１であり、本発明においてはノード１の開始行が０である例を説明する）、ノード１の終了行は０＋２－１＝１である。

【0075】

ノード５はノード１の１番目のサブノードであるので、ノード５の開始行はノード１の開始行に等しく、すなわち、ノード５の開始行は０であり、ノード５にまたがる行数は１であり、そのため、ノード５の終了行は０である。

【0076】

ノード６はノード１の２番目のサブノードであるので、ノード６の開始行はノード１の開始行にノード１の１番目のサブノードにまたがる行数に等しく、すなわち、ノード６の開始行は０＋１＝１に等しく、ノード６にまたがる行数が１であるので、ノード６の終了行は１である。

【0077】

ノード７はノード６の１番目のサブノードであるので、ノード７の開始行はノード６の開始行に等しく、すなわち、ノード７の開始行は１であり、ノード７にまたがる行数は１であり、そのため、ノード７の終了行は１である。

【0078】

ノード８はノード７の１番目のサブノードであるので、ノード８の開始行はノード７の開始行に等しく、すなわち、ノード８の開始行は１であり、ノード８にまたがる行数は１であり、そのため、ノード８の終了行は１である。

【0079】

右から左への方式を使用して、２番目のツリーにおける各ノードにまたがる行数を決定する。ここで、
ノード２、ノード９、ノード１０、および、ノード１１は２番目のツリーにおいて分岐がないので、ノード２、ノード９、ノード１０、および、ノード１１にまたがる行数は、１であり、
ノード２が２番目のツリーのテーブルヘッダーノードであるので、ノード２の開始行は２であり（１番目のツリーのテーブルヘッダーノードの終了行１に１を加算する）、ノード２の終了行は２＋１－１＝２である。

【0080】

ノード９はノード２の１番目のサブノードであるので、ノード９の開始行はノード２の開始行に等しく、すなわち、ノード９の開始行は２であり、ノード９にまたがる行数は１であり、そのため、ノード９の終了行は２である。

【0081】

ノード１０はノード９の１番目のサブノードであるので、ノード１０の開始行はノード９の開始行に等しく、すなわち、ノード１０の開始行は２であり、ノード１０にまたがる行数は１であり、そのため、ノード１０の終了行は２である。

【0082】

ノード１１はノード１０の１番目のサブノードであるので、ノード１１の開始行はノード１０の開始行に等しく、すなわち、ノード１１の開始行は２であり、ノード１１にまたがる行数は１であり、そのため、ノード１１の終了行は２である。

【0083】

これに従って、ノード３、ノード１２、ノード１３、および、ノード１４の開始行は３であり、終了行は３であり、ノード４、ノード１５、ノード１６、および、ノード１７の開始行は４であり、終了行は４であることを得ることができる。

【0084】

次に、「前記各々のセルの列方向における親子関係に基づいて、前記各々のセルの開始列および終了列を決定すること」の具体的な実施形態を説明する。

【0085】

前記各々のセルのうちのセルｉについては、セルｉにまたがる列数ｓ＿ｉを決定し、セルｉに対応する開始列座標ａ＿ｉを決定することができ、その後、前記ｓ＿ｉおよびａ＿ｉに基づいて、セルｉに対応する終了列座標をａ＿ｉ＋ｓ＿ｉ－１として決定する。

【0086】

前記ｓ＿ｉについて、説明する必要があるのは、
セルｉが位置するツリーにおける当該セルｉに対応するノードにサブ分岐がないと、セルｉが最も細かい粒度のセルであることを示し、このとき、前記ｓ＿ｉは、１であり、
セルｉが位置するツリーにおける当該セルｉに対応するノードにサブ分岐があると、セルｉに対応する列数は、当該セルｉの各個のサブ分岐の対応する列数の合計である。

【0087】

ａ＿ｉについて、説明する必要があるのは、
当該セルｉがテーブルヘッダーノードに対応されると、開始列ａ＿ｉは、セルｉが位置するツリーの前の１つのツリーのテーブルヘッダーノードの終了列に１を加算したものに等しい。

【0088】

前述したように、前記各々のセルの列方向における親子関係に基づいて、列フォレストを得ることができ、列フォレストは、複数のツリーを含むことができる。１例において、当該複数のツリー構造におけるテーブルヘッダーノードの横座標の小さいものから大きいものへの順序で当該複数のツリー構造をソートすることができる。前記セルｉが位置するツリーの前の１つのツリーとは、前述した順序で当該複数のツリー構造をソートした後に、セルｉが位置するツリーの前にソートされた１つのツリーである。

【0089】

当該セルｉがノードｐのｊ番目のサブノードに対応されると、開始列ａ＿ｉは、ａ＿ｐ＋ｓｕｍ２に等しく、ここで、ａ＿ｐはノードｐの開始列であり、ｓｕｍ２は、ノードｐの（ｊ－１）個のサブ分岐の全てにまたがる列数の合計である。ここで、
ノードｐは１つのサブノードを含むことができ、このとき、ｊの値は１であり、ｓｕｍ２＝０、ａ＿ｉ＝ａ＿ｐであり、
ノードｐも複数のサブノードを含むことができ、このとき、ｊの値は１以上であってもよく、ｊの値が１に等しいと、ｓｕｍ２＝０、ａ＿ｉ＝ａ＿ｐであり、ｊの値が１よりも大きいと、ａ＿ｉ＝ａ＿ｐ＋ｓｕｍ２である。

【0090】

上から下への順序で各々のセルに対応するノードの開始列を順に決定することができ、すなわち、まず、テーブルヘッダーノードの開始列を決定し、その後に、テーブルヘッダーノードの各個のサブノードの開始列を決定することができ、これに従って、ノードｐの開始列を取得することができ、これに応じて、ノードｐに対応するｊ番目のサブノードであるセルｉの開始列もこれに従って決定することができる。

【0091】

「前記各々のセルの列方向における親子関係に基づいて、前記各々のセルの開始列および終了列を決定すること」について、図３と併せて例を挙げて説明する。

【0092】

図３に示されたように、図３に示されたテーブルを含む画像については、機械学習モデルを利用して図３の右下領域の行フォレストを得ることができる。当該行フォレストは、２つのツリーを含む。

【0093】

下から上への方式を使用して、１番目のツリーにおける各ノードにまたがる列数を決定する。ここで、
ノード４、ノード３、ノード２、および、ノード１は１番目のツリーにおいて分岐がないので、ノード４、ノード３、ノード２、および、ノード１にまたがる列数は、１であり、
ノード１は１番目のツリーのテーブルヘッダーノードであるので、ノード１の開始列は０であり（または、１であり、本発明においてノード１の開始列が０である例を説明する）、ノード１の終了列は０＋１－１＝０である。

【0094】

ノード２はノード１の１番目のサブノードであるので、ノード２の開始列はノード１の開始列に等しく、すなわち、ノード２の開始列は０であり、ノード２にまたがる列数は１であり、そのため、ノード２の終了列は０である。

【0095】

ノード３はノード２の１番目のサブノードであるので、ノード３の開始列はノード２の開始列に等しく、すなわち、ノード３の開始列は０であり、ノード３にまたがる列数は１であり、そのため、ノード３の終了列は０である。

【0096】

ノード４はノード３の１番目のサブノードであるので、ノード４の開始列はノード３の開始列に等しく、すなわち、ノード４の開始列は０であり、ノード４にまたがる列数は１であり、そのため、ノード４の終了列は０である。

【0097】

下から上への方式を使用して、２番目のツリーにおける各ノードにまたがる列数を決定する。ここで、
ノード６、ノード７、ノード８、ノード９、ノード１０、ノード１１、ノード１２、ノード１３、ノード１４、ノード１５、ノード１６、および、ノード１７はいずれもサブ分岐がないため、ノード６、ノード７、ノード８、ノード９、ノード１０、ノード１１、ノード１２、ノード１３、ノード１４、ノード１５、ノード１６、および、ノード１７にまたがる列数は、いずれも１であり、
ノード５にまたがる列数は、その３つのサブノード（ノード６、ノード７、および、ノード８）にまたがる列数の合計であり、すなわち、ノード５にまたがる列数は３である。

【0098】

上から下への順序で、２番目のツリーにおける各ノードの開始列および終了列を決定する。

【0099】

ノード５の開始列は、１番目のツリーのテーブルヘッダーノードの終了列に１を加算したものであり、すなわち、ノード１の終了列０に１を加算してノード５の開始列が１であることを得、ノード５にまたがる列数は３であるので、ノード５の終了列は１＋３－１＝３である。

【0100】

ノード６はノード５の１番目のサブノードに対応されるので、ノード６の開始列はノード５の開始列に等しく、すなわち、ノード６の開始列は１であり、ノード６にまたがる列数は１であり、そのため、ノード６の終了列も１である。

【0101】

ノード９はノード６の１番目のサブノードであるので、ノード９の開始列はノード６の開始列に等しく、すなわち、ノード９の開始列は１であり、ノード９にまたがる列数は１であり、そのため、ノード９の終了列も１である。これに従って、ノード１２とノード１５の開始列および終了列はいずれも１であることを得ることができる。

【0102】

ノード７はノード５の２番目のサブノードに対応されるので、ノード７の開始列はノード５の開始列１にノード５の１番目のサブ分岐にまたがる列数１を加算したものに等しく、そのため、ノード７の開始列は２であり、ノード７にまたがる列数は１であり、そのため、ノード７の終了列も２である。

【0103】

ノード１０はノード７の１番目のサブノードであるので、ノード１０の開始列はノード７の開始列に等しく、すなわち、ノード１０の開始列は２であり、ノード１０にまたがる列数は１であり、そのため、ノード１０の終了列も２である。これに従って、ノード１３とノード１６の開始列および終了列はいずれも２であることを得ることができる。

【0104】

ノード８はノード５の３番目のサブノードに対応されるので、ノード８の開始列はノード５開始列１にノード５の前の２つの分岐にまたがる列数の合計２を加算したものに等しく、すなわち、ノード８の開始列は３であり、ノード８にまたがる列数は１であり、そのため、ノード８の終了列も３である。

【0105】

ノード１１はノード８の１番目のサブノードであるので、ノード１１の開始列はノード８の開始列に等しく、すなわち、ノード１１の開始列は３であり、ノード１１にまたがる列数は１であり、そのため、ノード１１の終了列も３である。これに従って、ノード１４とノード１７の開始列および終了列はいずれも３であるであることを得ることができる。

【0106】

以上の説明からわかるように、本解決案を利用すれば、各々のセルの行方向における親子関係および前記各々のセルの列方向における親子関係に基づいて、前記各々のセルの構造座標を得ることができる。行方向におけるセルの親子関係および列方向におけるセルの親子関係は、グラフ構造と比べて単純である。したがって、本解決案を利用すれば、セルの構造座標を決定するための計算量を減らすことができる。

【0107】

１例において、各々のセルの構造座標を決定した後、座標構造及び各々のセル内のテキストを組み合わせて、目標テーブルを生成することができる。ここで、前記各々のセル内のテキストは、ＯＣＲ技術を利用して得ることができる。

【0108】

本発明の実施例は、前記目標テーブルのフォーマットを具体的に限定しなく、前記目標テーブルは、ｅｘｃｅｌフォーマットであってもよいし、ｗｏｒｄフォーマットであってもよいし、他のフォーマットであってもよく、ここでは限定しない。

【0109】

前記目標テーブルがｅｘｃｅｌフォーマットであると、前記各々のセルの構造座標に基づいて、表の総列数および総行数を決定することも可能であり、これにより、目標テーブルを生成する際に、まず、総列数および総行数に従ってセルを分割し、その後、各々のセルの構造座標に基づいて、セルの操作を結合することによって、目標テーブルにおける各々のセルを得る。ここで、
前記総列数は、各々のセルの終了列の最大値から各々のセルの開始列の最小値を減算して得られる値に１を加算したものである。図３に示されたシナリオについては、各々のセルの終了列の最大値は３であり、各々のセルの開始列の最小値は０であるので、総列数は３－０＋１＝４である。

【0110】

前記総行数は、各々のセルの終了行の最大値から各々のセルの開始行の最小値を減算して得られる値に１を加算したものである。図３に示されたシナリオについては、各々のセルの終了行の最大値は４であり、各々のセルの開始行の最小値は０であるので、総行数は４－０＋１＝５である。

【0111】

例示的なデバイス
上述した実施例によって提供される方法に基づいて、本発明の実施例は、装置をさらに提供し、以下では図面と併せて当該装置を説明する。

【0112】

図４を参照すると、当該図面は、本発明の実施例によって提供されるテーブル認識装置の構造の概略図である。前記装置４００は、例えば、具体的には、取得ユニット４０１と、第１決定ユニット４０２と、第２決定ユニット４０３と、を備えてもよい。

【0113】

取得ユニット４０１は、テーブルを含む処理待ち画像を取得し、前記処理待ち画像における各々のセルの情報を決定し、前記各々のセルの情報は前記各々のセルの囲み枠の位置を含み、
第１決定ユニット４０２は、前記各々のセルの情報に基づいて、前記各々のセルの行方向における親セルおよび前記各々のセルの列方向における親セルを得、
第２決定ユニット４０３は、前記各々のセルの行方向における親子関係および前記各々のセルの列方向における親子関係に基づいて、前記各々のセルの構造座標を得、前記構造座標は、開始行、開始列、終了行、および、終了列を含む。

【0114】

【0115】

選択的に、前記第１決定ユニット４０２は、
前記各々のセルの情報を機械学習モデルに入力して、前記各々のセルの行方向における親セルおよび前記各々のセルの列方向における親セルを得る。

【0116】

【0117】

選択的に、前記特徴抽出モジュールは、Ｔｒａｎｓｆｏｒｍｅｒモデルのエンコーダである。

【0118】

【0119】

選択的に、前記第２決定ユニット４０３は、
前記各々のセルの行方向における親子関係に基づいて、前記各々のセルの開始行および終了行を決定し、前記各々のセルの列方向における親子関係に基づいて、前記各々のセルの開始列および終了列を決定する。

【0120】

【0121】

【0122】

【0123】

前記装置４００は、上述した方法の実施例によって提供されるテーブル認識方法に対応する装置であり、前記装置４００の各々のユニットの具体的な実現は、いずれも上述した方法の実施例に記載のテーブル認識方法と同じ考えであり、したがって、前記装置４００の各々のユニットの具体的な実現は、上述した方法の実施例の関連する説明部分を参照することができ、ここでは繰り返して説明しない。

【0124】

本発明の実施例は、デバイスをさらに提供し、前記デバイスは、プロセッサとメモリとを備え、
前記プロセッサは、前記メモリに記憶された命令を実行することによって、前記デバイスに上述した方法の実施例によって提供されるテーブル認識方法を実行させる。

【0125】

本発明の実施例は、コンピュータ読み取り可能な記憶媒体を提供し、命令を含み、前記命令は、上述した方法の実施例によって提供されるテーブル認識方法を実行するようデバイスに指示する。

【0126】

本発明の実施例は、コンピュータプログラム製品をさらに提供し、前記コンピュータプログラム製品がコンピュータ上で実行されると、コンピュータに上述した方法の実施例によって提供されるテーブル認識方法を実行させる。

【0127】

当業者は、本明細書を考慮し、ここに開示された発明を実践した後、本発明の他の実施案を容易に想到し得る。本発明は、本発明の任意の変形、用途または適応的変化をカバーし、これらの変形、用途または適応的変化は、本発明の一般的な原理に従い、本開示に開示されていない当技術分野における公知の常識または慣用技術手段を含む。本明細書及び実施例は、例示的なものとしてのみみなされ、本発明の真の範囲と精神は、以下の特許請求の範囲によって示される。

【0128】

本発明は、上述し図面に示した正確な構造に限定されるものではなく、その範囲を逸脱しない範囲で種々の修正及び変更を行うことができることを理解されたい。本発明の範囲は、添付の請求項のみによって制限される。

【0129】

上記は本発明の好適な実施例にすぎず、本発明を制限するためのものではなく、本発明の精神と原則の中で行われたいかなる変更、等価置換、改良などは、本発明の保護範囲に含まれるべきである。

【図1】

【図2】

【図3】

【図4】

【手続補正書】

【提出日】2024-07-09

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

【請求項2】

【請求項3】

前記の前記各々のセルの情報に基づいて、前記各々のセルの行方向における親セルおよび前記各々のセルの列方向における親セルを得ることは、
前記各々のセルの情報を機械学習モデルに入力して、前記各々のセルの行方向における親セルおよび前記各々のセルの列方向における親セルを得ることを含む、ことを特徴とする請求項１に記載の方法。

【請求項4】

【請求項5】

前記特徴抽出モジュールは、Ｔｒａｎｓｆｏｒｍｅｒモデルのエンコーダである、ことを特徴とする請求項４に記載の方法。

【請求項6】

【請求項7】

【請求項8】

【請求項9】

【請求項10】

【請求項11】

【請求項12】

【請求項13】

【請求項14】