【文献】
陳放歌 外2名,案内標識のリアルタイム検出および自動生成した学習データに基づく内容認識に関する研究,第23回 画像センシングシンポジウム SSII2017,日本,画像センシング技術研究会,2017年12月31日,p. SO3-IS3-09
(58)【調査した分野】(Int.Cl.,DB名)
プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、カテゴリー付きのテキスト領域情報を生成する前記ステップは、
前記プリセットのディープニューラルネットワーク検出モデルを用いて前記検出対象画像におけるテキスト領域に対して検出及び分類を行って、前記検出対象画像における前記第1のアンカーテキスト領域及び前記第1の非アンカーテキスト領域のテキスト領域情報を取得するステップを含む
ことを特徴とする請求項2又は3に記載の方法。
コンピュータ読取可能な記憶媒体であって、前記記憶媒体にはコンピュータプログラムが記憶されており、前記コンピュータプログラムは請求項1乃至9のいずれか一項に記載のテキスト検出分析方法を実行する
ことを特徴とするコンピュータ読取可能な記憶媒体。
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来技術における課題を解決するために、本発明の実施例は、テキスト検出分析方法、装置及びデバイスを提供する。当該技術案は以下の通りである。
【課題を解決するための手段】
【0005】
第1の態様によると、本発明の実施例はテキスト検出分析方法を提供する。当該方法は、プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、カテゴリー付きのテキスト領域情報を生成するステップと、ラベル付きのテンプレート情報及びカテゴリー付きのテキスト領域情報に基づいてテンプレートマッチングを行って、構造化情報データを生成するステップと、を含む。
【0006】
本発明の一部の実施例において、第1の態様に係る方法は、テンプレート画像に対してテンプレートラベリングを行うことによって、ラベル付きのテンプレート情報を生成するステップを更に含む。ここで、テンプレート画像と検出対象画像とは親テンプレートが同一であり、検出対象画像におけるテキスト領域は、第1のアンカーテキスト領域及び第1の非アンカーテキスト領域を含み、テンプレート画像におけるテキスト領域は、第2のアンカーテキスト領域及び第2の非アンカーテキスト領域を含む。
【0007】
本発明の一部の実施例において、テンプレート画像に対してテンプレートラベリングを行うことによって、ラベル付きのテンプレート情報を生成するステップは、テンプレート画像における第2のアンカーテキスト領域並びに第2の非アンカーテキスト領域の大きさ及び相対の位置と、実体と第2のアンカーテキスト領域及び第2の非アンカーテキスト領域との写像関係と、をラベリングすることによって、ラベル付きのテンプレート情報を生成するステップを含む。
【0008】
本発明の一部の実施例において、プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、カテゴリー付きのテキスト領域情報を生成するステップは、プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、検出対象画像における第1のアンカーテキスト領域及び第1の非アンカーテキスト領域のテキスト領域情報を取得するステップを含む。
【0009】
本発明の一部の実施例において、ラベル付きのテンプレート情報及びカテゴリー付きのテキスト領域情報に基づいてテンプレートマッチングを行って、構造化情報データを生成するステップは、第2のアンカーテキスト領域と第1のアンカーテキスト領域、及び、第2の非アンカーテキスト領域と第1の非アンカーテキスト領域、をそれぞれマッチングすることによって、検出対象画像における第1のアンカーテキスト領域及び第1の非アンカーテキスト領域の位置を特定するステップと、実体と第2のアンカーテキスト領域及び第2の非アンカーテキスト領域との写像関係に基づいて、実体と第1のアンカーテキスト領域及び第1の非アンカーテキスト領域との写像関係を確認し、第1のアンカーテキスト領域及び第1の非アンカーテキスト領域の位置に基づいて、検出対象画像におけるテキスト領域にある、非テキスト領域及び無関係なテキストを含む不要部分を除去して、構造化情報を生成するステップと、を含む。
本発明の一部の実施例において、第1の態様に係る方法は、検出対象画像に対して画像前処理を行うステップを更に含む。ここで、画像前処理は、画像修正及び/又はプリセット寸法に従うスケーリングを含む。
【0010】
本発明の一部の実施例において、第1の態様に係る方法は、プリセットのディープニューラルネットワーク検出モデルを訓練するステップを更に含む。
【0011】
本発明の一部の実施例において、プリセットのディープニューラルネットワーク検出モデルを訓練するステップは、サンプル生成ツールを用いてサンプルを生成するステップと、サンプルを用いてプリセットのディープニューラルネットワーク検出モデルを訓練するステップと、を含む。
【0012】
本発明の一部の実施例において、検出対象画像は新サンプルであり、第1の態様に係る方法は、新サンプルを用いてプリセットのディープニューラルネットワーク検出モデルに対して微調整を行うステップを更に含む。
【0013】
第2の態様によると、本発明の実施例はテキスト検出分析装置を提供する。当該装置は、プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、カテゴリー付きのテキスト領域情報を生成するテキスト領域検出モジュールと、ラベル付きのテンプレート情報及びカテゴリー付きのテキスト領域情報に基づいてテンプレートマッチングを行って、構造化情報データを生成するマッチングモジュールと、を備える。
【0014】
本発明の一部の実施例において、第2の態様に係る装置は、テンプレート画像に対してテンプレートラベリングを行うことによって、ラベル付きのテンプレート情報を生成するラベリングモジュールを更に備える。ここで、テンプレート画像と検出対象画像とは親テンプレートが同一であり、検出対象画像におけるテキスト領域は、第1のアンカーテキスト領域及び第1の非アンカーテキスト領域を含み、テンプレート画像におけるテキスト領域は、第2のアンカーテキスト領域及び第2の非アンカーテキスト領域を含む。
【0015】
本発明の一部の実施例において、ラベリングモジュールは、テンプレート画像における第2のアンカーテキスト領域並びに第2の非アンカーテキスト領域の大きさ及び相対の位置と、実体と第2のアンカーテキスト領域及び第2の非アンカーテキスト領域との写像関係と、をラベリングすることによって、ラベル付きのテンプレート情報を生成する。
【0016】
本発明の一部の実施例において、テキスト領域検出モジュールは、プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、検出対象画像における第1のアンカーテキスト領域及び第1の非アンカーテキスト領域のテキスト領域情報を取得する。
【0017】
本発明の一部の実施例において、マッチングモジュールは、第2のアンカーテキスト領域と第1のアンカーテキスト領域、及び、第2の非アンカーテキスト領域と第1の非アンカーテキスト領域、をそれぞれマッチングすることによって、検出対象画像における第1のアンカーテキスト領域及び第1の非アンカーテキスト領域の位置を特定するとともに、実体と第2のアンカーテキスト領域及び第2の非アンカーテキスト領域との写像関係に基づいて、実体と第1のアンカーテキスト領域及び第1の非アンカーテキスト領域との写像関係を確認し、第1のアンカーテキスト領域及び第1の非アンカーテキスト領域の位置に基づいて、検出対象画像におけるテキスト領域にある、非テキスト領域及び無関係なテキストを含む不要部分を除去して、構造化情報を生成する。
【0018】
本発明の一部の実施例において、第2の態様に係る装置は、検出対象画像に対して画像前処理を行う画像前処理モジュールを更に備える。なお、画像前処理は、画像修正及び/又はプリセット寸法に従うスケーリングを含む。
【0019】
本発明の一部の実施例において、第2の態様に係る装置は、プリセットのディープニューラルネットワーク検出モデルを訓練するモデル訓練モジュールを更に備える。
【0020】
本発明の一部の実施例において、モデル訓練モジュールは、サンプル生成ツールを用いてサンプルを生成するとともに、サンプルを用いてプリセットのディープニューラルネットワーク検出モデルを訓練する。
【0021】
本発明の一部の実施例において、検出対象画像は新サンプルであり、第2の態様に係る装置は、新サンプルを用いてプリセットのディープニューラルネットワーク検出モデルに対して微調整を行う微調整モジュールを更に備える。
【0022】
第3の態様によると、本発明の実施例はテキスト検出分析デバイスを提供する。当該デバイスは、プロセッサと、プロセッサによる実行可能な命令を記憶するメモリと、を備える。なお、プロセッサは実行可能な命令によって第1の態様に記載のテキスト検出分析方法を実行する。
【0023】
第4の態様によると、本発明の実施例はコンピュータ読取可能な記憶媒体を提供する。当該記憶媒体にはコンピュータプログラムが記憶されており、コンピュータプログラムは第1の態様に記載のテキスト検出分析方法を実行する。
【発明の効果】
【0024】
本発明の実施例は、テキスト検出分析方法、装置及びデバイスを提供する。プリセットのディープニューラルネットワーク検出モデルを用いて画像テキスト領域の検出及び分類を行い、さらにラベル付きのテンプレート情報と、検出分類によって取得するカテゴリー付きのテキスト領域情報とに基づいてテンプレートマッチングを行って、構造化情報データを生成する。よって、書類画像における様々なテキストラインに対して速やか且つ正確に検出分析を実現することができ、リアルタイム、正確率が高く、汎用性が良く、ロバスト性が高く、拡張可能である、などの長所を有する。
【発明を実施するための形態】
【0026】
本発明の目的、技術案及び長所をより明確にするために、以下、本発明の実施例による図面を参照しながら本発明の実施例に係る技術案について明確且つ完全な説明を行う。明らかに、ここで説明する実施例は本発明の一部の実施例に過ぎず、すべての実施例ではない。本発明の実施例に基づいて、当業者により創造的な労働をせずに得られる他の実施例は、すべて本発明の保護範囲に属する。なお、本発明の記述において、別途明確に詳しく限定する場合以外、「複数」とは2つ以上を意味する。
【0027】
以下、具体的な実施例及び図面を参照しながら、本発明の実施例により提供されるテキスト検出分析方法、装置及びデバイスについて詳しく説明する。
【0028】
<実施例1>
図1は、本発明の実施例1により提供されるテキスト検出分析方法の模式的フローチャートである。
図1に示すように、本発明の実施例により提供されるテキスト検出分析方法は以下の内容を含む。
【0029】
101:プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、カテゴリー付きのテキスト領域情報を生成する。
【0030】
ニューラルネットワーク(Neural Network)は人為的に設計されたネットワークアーキテクチャであり、その本質は多層パーセプトロン(Multi−layer Perceptron)である。パーセプトロンはいくつかのニューロン(Neuron)から構成されており、脳内のニューロンが行う信号伝播のように、いずれのニューロンも外部又は他のノードから入力信号を受信し、さらに活性化関数によって出力信号を取得する。ニューロンは階層構造によって連結されて、ネットワークアーキテクチャを形成する。神経細胞とは異なり、人工ニューロンの信号は逆伝播を実現することができる。このようなフィードバックメカニズムのおかげで、パーセプトロンは学習機能を有する。また、学習機能以外に、多層パーセプトロンは非線形写像を表すことができるため、ニューラルネットワークはテンプレート認識、自動制御、決定評価、予測などの複雑な問題を解決するために寄与することができる。
【0031】
畳み込みニューラルネットワーク(Convolutional Neural Network)は順伝播型ニューラルネットワークであり、そのニューロンは、カバー範囲内の一部の周辺ユニットに応答して、受容野(Receptive Field)を形成することができ、画像処理において優れた性能を有する。さらに、重み共有によって、畳み込みニューラルネットワークは従来の全結合型ニューラルネットワークと比べてよりスペースを節約する。畳み込みニューラルネットワークによる学習から得られる特徴はある程度の位置不変性とスケール不変性を有し、畳み込みニューラルネットワークにより訓練される光学文字認識(Optical Character Recognition,OCR)モデルは、フォントやフォントサイズの変化に対してロバスト性を有する。
【0032】
ディープラーニングにおける検出アルゴリズムは主に検出ウィンドウの選択、特徴の抽出及び分類器の選択の3つの部分を含む。初期のディープラーニングにおいては、ほとんどスライディングドウィンドウの方式によってウィンドウ抽出を行っていたが、最近の検出アルゴリズムは、例えばFaster R−CNNは、領域提案ネットワーク(Region Proposal Networks,RPN)を直接利用して候補ボックスを算出する。RPNは、一枚の任意サイズの画像を入力として一グループの矩形領域を出力し、各領域は1つのターゲット点数及び位置情報に対応する。畳み込みニューラルネットワークの強い非線形モデリング能力を利用すると、様々なサブミッションに適応する特徴を抽出することができる。さらに、ディープラーニングにおける検出アルゴリズムは、従来のスライディングボックスを突破して、回帰の方法によって検出課題を解決する。
【0033】
本実施例においては、プリセットのディープニューラルネットワーク検出モデルとして、Faster R−CNNネットワークモデル、Mask R−CNNネットワークモデル又は他の任意の可能なディープニューラルネットワークモデルを採用してもよく、本発明の実施例はそれについて特に制限しない。
【0034】
具体的に、検出対象画像は領収書、レシート、帳票などのテキスト情報を有する画像であってもよく、当該画像は、紙製の書類を撮影又はスキャンして得られるものであってもよく、元々電子バージョンであってもよい。
【0035】
例えば、検出対象画像は領収書であり、当該領収書には、「領収書コード」、「領収書番号」、「支払者名称」、「受領者名称」、「発行日付」などのいくつかの項目カテゴリーが記載されている。当該領収書の未記入バージョンを当該領収書の親テンプレートと称することができ、親テンプレートにあるテキスト情報は電子デバイスにより入力されたものであってもよい。一方、記入後(電子入力又は手書き記入であってもよい)の領収書から取得する画像を検出対象画像と称することができる。
【0036】
検出対象画像におけるテキスト領域は、元々親テンプレートにあるテキスト情報と、使用者により記入されたテキスト情報とを含んでもよい。
【0037】
ディープニューラルネットワーク検出モデルを用いることによって、様々なスケール(フォントサイズ)のテキスト領域を精度高く見出し、さらに文字内容を金額、項目名称、見出し語、帳票番号などのカテゴリーに初歩的に分類することができ、文書における文字を正確に検出することができる。
【0038】
一実施例において、テキスト領域情報のカテゴリーは、元々親テンプレートにあるテキスト情報と、使用者により記入されたテキスト情報とに分けることができる。さらに、テキスト領域情報のカテゴリーは、テキスト情報が日付、漢字、英語などであるというように分類されることができる。プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域を検出することによって、カテゴリー付きのテキスト領域情報を取得することができる。具体的に、カテゴリー付きのテキスト領域情報はテキストのカテゴリーや位置情報などを含んでもよい。
【0039】
プリセットのディープニューラルネットワーク検出モデルは、訓練されるサンプルのカテゴリーによって、1種類の親テンプレートの検出対象画像に対して検出及び分類を行ってもよく、複数種類の親テンプレートの検出対象画像に対してそれぞれ検出及び分類を行ってもよい。
【0040】
102:ラベル付きのテンプレート情報及びカテゴリー付きのテキスト領域情報に基づいて、テンプレートマッチングを行って、構造化情報データを生成する。ここで、ラベル付きのテンプレート情報は、使用者が取得しようとする実体の情報を含み、実体は使用者が検出対象画像から取得しようとする情報を含む。
【0041】
ラベル付きのテンプレート情報は、検出対象画像又は検出対象画像の親テンプレートがラベリングされて得られるものであってもよい。実体の情報は、実体のカテゴリー、位置情報などを含んでもよい。例えば、使用者が取得しようとする実体のカテゴリーは「支払者名称」であれば、ラベル付きのテンプレート情報は当該実体のカテゴリー及び検出対象画像における当該実体(支払者の具体的な名称)の位置情報を含む。ここで、当該位置情報は、絶対的位置情報であってもよく、他のテキスト情報に対する相対的位置情報であってもよい。
【0042】
位置情報が他のテキスト情報に対する相対的位置情報である場合、ラベル付きのテンプレート情報とカテゴリー付きのテキスト領域情報とに対してテンプレートマッチングを行うことによって、使用者が取得しようとする実体の位置を正確に取得することができる。つまり、検出対象画像における対応するテキスト領域をセマンティックオブジェクトの実例にマッピングして、検出対象画像の内容の構造化を実現する。
【0043】
ここで、使用者が取得しようとする実体は1つ又は複数であってもよい。実体の具体的な内容に対する認識プロセスは、ラベル付きのテンプレート情報とカテゴリー付きのテキスト領域情報とのマッチングが終了した後に実行してもよく、101において実行してもよい。また、当該認識プロセスにおいては、tesseract、CRNNなどの認識モデルを採用してもよく、本発明の実施例はそれについて特に制限しない。
【0044】
本発明の実施例により提供されるテキスト検出分析方法は、プリセットのディープニューラルネットワーク検出モデルを用いて画像テキスト領域に対する検出及び分類を行ってから、ラベル付きのテンプレート情報と、検出分類により得られたカテゴリー付きのテキスト領域情報とに基づいてテンプレートマッチングを行って、構造化情報データを生成する。よって、書類画像における様々なテキストラインに対して速やか且つ正確に検出分析を実現することができ、リアルタイム、正確率が高く、汎用性が良く、ロバスト性が高く、拡張可能である、などの長所を有する。
【0045】
本発明の一実施例によると、
図1の方法は、テンプレート画像に対してテンプレートラベリングを行うことによって、ラベル付きのテンプレート情報を生成するステップを更に含む。ここで、テンプレート画像と検出対象画像とは親テンプレートが同一であり、検出対象画像におけるテキスト領域は、第1のアンカーテキスト領域及び第1の非アンカーテキスト領域を含み、テンプレート画像におけるテキスト領域は、第2のアンカーテキスト領域及び第2の非アンカーテキスト領域を含む。
【0046】
具体的に、アンカーテキスト領域は、親テンプレートのテキスト情報に対応する領域であってもよい。非アンカーテキスト領域は、親テンプレートのテキスト情報以外の他のテキスト情報に対応する領域であってもよく、例えば、使用者により記入される必要があるテキスト領域であってもよい。
【0047】
アンカーテキスト領域は1つ又は複数のアンカーを含んでもよい。各アンカーはそれぞれ1つのテキストラインであってもよく、複数のアンカーは異なる位置に分布していてもよい。アンカーは各テンプレート画像における最も安定的な特徴であり、テーブルにおける表題のように、その内容及び相対的位置がどちらも変化しない。複数のアンカーを設置することによって、対象となるテンプレート画像における各領域の相対的位置関係を完全に特定することができる。
【0048】
テンプレート画像は空白の親テンプレートであってもよく、検出対象画像であってもよく、又は検出対象画像と同一な親テンプレートを有する他の画像(別の使用者により記入されたものであってもよい)であってもよい。テンプレート画像が空白の親テンプレートである場合、第2の非アンカーテキスト領域は、まだ使用者により記入されていない空白の領域であってもよい。
【0049】
さらに、テンプレート画像に対してテンプレートラベリングを行うことによって、ラベル付きのテンプレート情報を生成するステップは、テンプレート画像における第2のアンカーテキスト領域並びに第2の非アンカーテキスト領域の大きさ及び相対の位置と、実体と第2のアンカーテキスト領域及び第2の非アンカーテキスト領域との写像関係と、をラベリングすることによって、ラベル付きのテンプレート情報を生成するステップを含む。
【0050】
具体的に、当該テンプレートラベリングプロセスは、すべての認識する必要があるテキストラインの位置及びカテゴリーをラベリングするためのプロセスである。カテゴリーは、アンカーであるか否か、及び、テキスト情報が日付、漢字、英語などであるか否か、を含む。生成されるラベル付きのテンプレート情報は、後工程におけるテンプレートマッチングに用いられる。テンプレートラベリングによって、第2のアンカーと第2の非アンカーとの相対的位置関係、並びに、各第2のアンカー及び第2の非アンカーに対応するテキスト領域の大きさを確認することができる。第1のアンカーに対応するテキスト領域の大きさは、第1のアンカーに対応するテキスト領域の高さ及び幅によって表されてもよく、つまり、第1のアンカーに対応するテキスト領域の形状は矩形であってもよく、もちろん円形、楕円形又は他の形状であってもよく、本発明の実施例はそれについて具体的に制限しない。
【0051】
さらに、第2のアンカー及び第2の非アンカーが両方とも複数である場合、各第2のアンカーの間の相対的位置関係、及び、各第2の非アンカーの間の相対的位置関係もテンプレートラベリングによって確認することができる。
【0052】
プリセットのディープニューラルネットワーク検出モデルと同様に、ラベリングされるテンプレート画像の種類は1つ又は2つに限られない。実際の必要に応じて、複数種類のテンプレート画像を予め設置し、複数種類のラベル付きのテンプレート情報を取得してもよい。
【0053】
当該実施例において、101は、プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、検出対象画像における第1のアンカーテキスト領域及び第1の非アンカーテキスト領域のテキスト領域情報を取得するステップを含む。
【0054】
具体的に、カテゴリー付きのテキスト領域情報は、第1のアンカーテキスト領域及び第1の非アンカーテキスト領域のテキスト領域情報を含んでもよい。
【0055】
さらに、102は、第2のアンカーテキスト領域と第1のアンカーテキスト領域、及び、第2の非アンカーテキスト領域と第1の非アンカーテキスト領域、をそれぞれマッチングすることによって、検出対象画像における第1のアンカーテキスト領域及び第1の非アンカーテキスト領域の位置を特定するステップと、実体と第2のアンカーテキスト領域及び第2の非アンカーテキスト領域との写像関係に基づいて、実体と第1のアンカーテキスト領域及び第1の非アンカーテキスト領域との写像関係を確認し、第1のアンカーテキスト領域及び第1の非アンカーテキスト領域の位置に基づいて、検出対象画像におけるテキスト領域にある、非テキスト領域及び無関係なテキストを含む不要部分を除去して、構造化情報を生成するステップと、を含む。
【0056】
具体的に、プリセットのディープニューラルネットワーク検出モデルを利用すると、検出対象画像における各第1のアンカー及び第1の非アンカーの絶対的位置を特定することができる。しかしながら、実際に検出を行うとき、画像自身が傾斜しており、又は一部のテキストラインが不鮮明であることを原因として、一部の第1のアンカーと第1の非アンカーが検出されることができない、又は検出された位置が実際の位置と不一致になってしまう。本実施例においては、ラベル付きのテンプレート情報とカテゴリー付きのテキスト領域情報とを合わせて、すなわち絶対的位置と相対的位置とを合わせることによって、ずれてしまった第1のアンカーと第1の非アンカーの位置、又は検出されなかった第1のアンカーと第1の非アンカーの位置を調整することができ、ひいては把握しようとするテキスト領域位置及び内容情報を正確に特定することができる。
【0057】
さらに、テキスト領域の大きさに対するマッチングによって第1のアンカー及び第1の非アンカーの位置を特定することもできる。特に検出対象画像が手書き領収書から得られた画像である場合、情報を記入する使用者によって、情報の記入された位置はそれぞれ異なるズレが発生する。この場合には、第2の非アンカーに対応するテキスト領域の大きさと、第1の非アンカーに対応するテキスト領域の大きさとをマッチングすることができる。マッチ度が第1の閾値を満たすと、当該第1の非アンカーはマッチング成功と判定される。
【0058】
アンカー同士と非アンカー同士の間の相対的位置関係に基づいて、マッチング成功したアンカーと非アンカーの位置によって、マッチング成功していない他のアンカーと非アンカーの位置を特定することができ、マッチング結果の正確度を向上させて、認識率を向上させることができる。
【0059】
本実施例においては、位置及び内容情報が安定であるアンカーに対して正確なマッチングを実現して、マッチングプロセスにおける正確率を向上させることができる。また、非テキスト領域及び無関係なテキストを排除することによって、より効果的にコア情報を把握して、検出結果の正確率をより一層向上させることができる。
【0060】
本発明の一実施例によると、
図1の方法は、検出対象画像に対して画像前処理を行うステップを更に含む。ここで、画像前処理は画像修正及び/又はプリセット寸法に従うスケーリングを含む。
【0061】
具体的に、実際に検出される画像には、傾斜又は大きさの不一致などの問題が存在する可能性があるため、これらの問題は検出を行うときに、アンカー及び非アンカーの位置特定の精度に影響を与えてしまう。そこで、本実施例においては、101の前に検出対象画像に対して修正又はスケーリングを行うことができる。プリセットのディープニューラルネットワーク検出モデルの訓練におけるサンプルの寸法に従って検出対象画像をスケーリングすると、マッチングプロセスにおける正確率を向上させることができる。本実施例において、テンプレート画像の寸法はプリセットのディープニューラルネットワーク検出モデルの訓練におけるサンプルの寸法と一致してもよい。もちろん、画像前処理の操作に対応する設定を実際の状況に応じて行ってもよい。
【0062】
図2は、好適な一実施形態によるテンプレートマッチングプロセスの模式的フローチャートである。
図2に示すように、上述の102は以下の内容を更に含んでもよい。
【0063】
1021:ラベル付きのテンプレート情報及びカテゴリー付きのテキスト領域情報に基づいて、テンプレートマッチングを行う。
【0064】
具体的には、ラベル付きのテンプレート情報とカテゴリー付きのテキスト領域情報とをマッチングして、第1のアンカーテキスト領域及び第1の非アンカーテキスト領域の位置を特定し、すなわち複数第1のアンカー及び第1の非アンカーに対して位置特定を行う。本実施例においては、当該マッチングプロセスによって、プリセットのディープニューラルネットワーク検出モデルにより検出されなかった第1のアンカー及び第1の非アンカーを補充し、又は位置特定の結果が正確でない第1のアンカー及び第1の非アンカーの位置を調整することができる。
【0065】
1022:実体とテキスト領域とをマッピングすることによって不要部分を除去し、構造化情報データを生成する。
【0066】
第1のアンカー及び第1の非アンカーによってカテゴリー付きのテキスト領域をそれに対応する実体にマッピングし、非テキスト領域及び無関係なテキストを含む不要部分を除去し、実体に対応するアンカー及び非アンカーを特定する。非アンカーに位置するテキスト情報を認識によって確認することができ、さらに認識によって取得したテキスト情報とアンカーとの相対的位置に基づいて、当該テキスト情報の種類(すなわちアンカーのテキスト情報、例えば、名前、性別、年齢などを含む)を確認することができる。当該テキスト情報及び当該テキスト情報の種類に基づいて、構造化情報データを生成することができる。さらに、構造化情報データを出力して、関連の応用を実現することができる。
【0067】
本発明の一実施例によると、
図1の方法は、プリセットのディープニューラルネットワーク検出モデルを訓練するステップを更に含む。
【0068】
具体的に、プリセットのディープニューラルネットワーク検出モデルを訓練するためのサンプルは、予め標記されたアンカーの位置であってもよい。つまり、訓練するときにサンプルにおけるテキスト領域に対して分類(アンカー類と非アンカー類の分類を含むが、それに限られない)を行ってから、検出モデルを訓練する。
【0069】
一実施例において、プリセットのディープニューラルネットワーク検出モデルを訓練するステップは、サンプル生成ツールを用いてサンプルを生成するステップと、サンプルを用いてプリセットのディープニューラルネットワーク検出モデルを訓練するステップと、を含む。当該実施例においては、サンプル生成ツールによって大量のサンプルを速やかに取得することができる。
【0070】
本発明の一実施例によると、検出対象画像は新サンプルであり、
図1の方法は、新サンプルを用いてプリセットのディープニューラルネットワーク検出モデルに対して微調整を行うステップを更に含む。
【0071】
具体的には、検出アプリケーションにおいてデータの逆伝播フローを形成することによって、より多くの新サンプルを取得することができる。新サンプルを用いると、プリセットのディープニューラルネットワーク検出モデルに対して微調整(Fine−tuning)を行うことができる。したがって、訓練の初期段階においては、検出モデルを訓練するために大量のサンプルをラベリングしなくてもよく、データの逆伝播フローを形成した後、モデルの認識率も徐々に向上する。
【0072】
<実施例2>
図3は、本発明の実施例2により提供されるテキスト検出分析方法の模式的フローチャートである。
図3に示すように、本発明の実施例により提供されるテキスト検出分析方法は以下の内容を含む。
【0073】
201:プリセットのディープニューラルネットワーク検出モデルを訓練する。
具体的に、当該訓練プロセスについては
図1による説明を参照すればよい。
【0074】
検出アプリケーションにおいてデータの逆伝播フローを形成して、より多くの新サンプルを取得することができる。さらに、新サンプルを用いてプリセットのディープニューラルネットワーク検出モデルに対して微調整(Fine−tuning)を行う。
【0075】
当該訓練又は微調整のプロセスにおいては、サンプルにおけるテキストラインに対して分類(アンカー類と非アンカー類の分類を含むが、それに限られない)を行ってから、検出モデルを訓練する。
【0076】
なお、201は上述の実現方式以外にも、他の方式によって実現してもよく、本発明の実施例は具体的な方式について制限しない。
【0077】
202:テンプレート画像における第2のアンカーテキスト領域並びに第2の非アンカーテキスト領域の大きさ及び相対的位置と、実体と第2のアンカーテキスト領域及び第2の非アンカーテキスト領域との写像関係と、をラベリングすることによって、ラベル付きのテンプレート情報を生成する。
【0078】
このステップは、テンプレート画像におけるすべての認識する必要があるテキストラインの位置及びカテゴリーをラベリングするためのステップである。カテゴリーは、アンカーであるか否か、及び、テキスト情報が日付、漢字、英語などであるか否か、を含んでもよい。生成されるラベル付きのテンプレート情報は、後工程におけるテンプレートマッチングにおいて用いられる。なお、ラベリングされるテンプレート画像の種類は1つ又は2つに限られず、実際の必要に応じて、複数種類のテンプレート画像を予め設置して、複数種類のラベル付きのテンプレート情報を取得してもよい。
【0079】
なお、202は上述の実現方式以外にも、他の方式によって実現してもよく、本発明の実施例は具体的な方式について制限しない。
【0080】
203:検出対象画像に対して画像前処理を行う。ここで、画像前処理は画像修正及び/又はプリセット寸法に従うスケーリングを含む。なお、画像前処理の内容は、画像修正及び/又はプリセット寸法に従うスケーリングを含むが、それらに限られない。画像前処理の操作に対応する設定を実際の状況に応じて行ってもよい。
【0081】
なお、203は上述の実現方式以外にも、他の方式によって実現してもよく、本発明の実施例は具体的な方式について制限しない。
【0082】
204:プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、検出対象画像における第1のアンカーテキスト領域及び第1の非アンカーテキスト領域のテキスト領域情報を取得する。
【0083】
プリセットのディープニューラルネットワーク検出モデルは、Faster R−CNNネットワークモデル、Mask R−CNNネットワークモデル又は従来技術による他の任意の可能なディープニューラルネットワークモデルを採用してもよく、本発明の実施例はそれについて特に制限しない。
【0084】
ディープニューラルネットワーク物体検出アーキテクチャを用いると、様々なスケール(フォントサイズ)のテキスト領域を精度高く見出し、さらに文字内容を金額、項目名称、見出し語、帳票番号などのカテゴリーに初歩的に分類することができる。
【0085】
なお、204は上述の実現方式以外にも、他の方式によって実現してもよく、本発明の実施例は具体的な方式について制限しない。
【0086】
202は201の前に実行してもよく、201と同時に実行してもよく、本発明の実施例はそれについて制限しない。
【0087】
205:ラベル付きのテンプレート情報と、カテゴリー付きのテキスト領域情報とに対してテンプレートマッチングを行って、第1のアンカー及び第1の非アンカーの位置を特定し、第1のアンカー及び第1の非アンカーによってカテゴリー付きのテキスト領域をそれに対応する実体にマッピングし、非テキスト領域及び無関係なテキストを含む不要部分を除去して、構造化情報データを生成する。
【0088】
アンカーの位置特定が成功すると、画面全体における各テキストラインの相対的位置も確定となる。その後、上述のアンカー及び非アンカーのテキスト領域情報と画面との相対的位置を利用すれば、取得しようとするテキストラインの位置及び内容情報を正確に特定することができる。つまり、安定的なアンカーを用いることによって正確なマッチングを実現することができ、マッチングプロセスにおける正確率を向上させることができる。
【0089】
認識を行うことによって、非アンカーの位置におけるテキスト情報を確認することができるとともに、認識によって取得したテキスト情報及びアンカーの相対的位置に基づいて、当該テキスト情報の種類(すなわちアンカーのテキスト情報、例えば、名前、性別、年齢など)を特定することができる。さらに、当該テキスト情報及び当該テキスト情報の種類に基づいて、構造化情報データを生成することができる。また、関連の応用を実現するために、構造化情報データを出力してもよい。
【0090】
なお、205は上述の実現方式以外にも、他の方式によって実現してもよく、本発明の実施例は具体的な方式について制限しない。
【0091】
なお、本発明の実施例により提供されるテキスト検出分析方法の具体的なステップの実行順番は、上述方法において説明した順番に限られず、本発明の発明思想から逸脱しない前提で、実際の状況に応じて設計を変更してもよい。
【0092】
<実施例3>
図4は、本発明の実施例3により提供されるテキスト検出分析装置30の構成模式図である。
図4に示すように、本発明の実施例により提供されるテキスト検出分析装置30はテキスト領域検出モジュール31とマッチングモジュール32とを備える。
【0093】
テキスト領域検出モジュール31は、プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、カテゴリー付きのテキスト領域情報を生成する。マッチングモジュール32は、ラベル付きのテンプレート情報及びカテゴリー付きのテキスト領域情報に基づいてテンプレートマッチングを行って、構造化情報データを生成する。ここで、ラベル付きのテンプレート情報は使用者が取得しようとする実体の情報を含み、実体は使用者が検出対象画像から取得しようとする情報である。
【0094】
具体的に、最後には構造化情報を出力してもよく、他の外部モジュールが呼び出して使用できるように統一したインターフェースを提供することができる。
【0095】
本発明の実施例により提供されるテキスト検出分析装置は、プリセットのディープニューラルネットワーク検出モデルを用いて画像テキスト領域の検出及び分類を行ってから、ラベル付きのテンプレート情報と、検出分類により取得するカテゴリー付きのテキスト領域情報とに基づいてテンプレートマッチングを行って、構造化情報データを生成することによって、書類画像における様々なテキストラインに対して検出分析を速やか且つ正確に行うことができ、リアルタイム、正確率が高く、汎用性が良く、ロバスト性が高く、拡張可能である、などの長所を有する。
【0096】
本発明の一実施例によると、装置30は、テンプレート画像に対してテンプレートラベリングを行って、ラベル付きのテンプレート情報を生成するラベリングモジュール33を更に備える。ここで、テンプレート画像と検出対象画像とは親テンプレートが同一であり、検出対象画像におけるテキスト領域は第1のアンカーテキスト領域及び第1の非アンカーテキスト領域を含み、テンプレート画像におけるテキスト領域は第2のアンカーテキスト領域及び第2の非アンカーテキスト領域を含む。
【0097】
本発明の一実施例によると、ラベリングモジュール33は、テンプレート画像における第2のアンカーテキスト領域並びに第2の非アンカーテキスト領域の大きさ及び相対の位置と、実体と第2のアンカーテキスト領域及び第2の非アンカーテキスト領域との写像関係と、をラベリングすることによって、ラベル付きのテンプレート情報を生成する。
【0098】
本発明の一実施例によると、テキスト領域検出モジュール31は、プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、検出対象画像における第1のアンカーテキスト領域及び第1の非アンカーテキスト領域のテキスト領域情報を取得する。
【0099】
本発明の一実施例によると、マッチングモジュール32は、マッチング第2のアンカーテキスト領域と第1のアンカーテキスト領域、及び、第2の非アンカーテキスト領域と第1の非アンカーテキスト領域、をそれぞれマッチングすることによって、検出対象画像における第1のアンカーテキスト領域及び第1の非アンカーテキスト領域の位置を特定することと、実体と第2のアンカーテキスト領域及び第2の非アンカーテキスト領域との写像関係に基づいて、実体と第1のアンカーテキスト領域及び第1の非アンカーテキスト領域との写像関係を確認し、さらに第1のアンカーテキスト領域及び第1の非アンカーテキスト領域の位置に基づいて、検出対象画像におけるテキスト領域にある、非テキスト領域及び無関係なテキストを含む不要部分を除去して、構造化情報を生成することと、を行う。
【0100】
本発明の一実施例によると、装置30は、検出対象画像に対して画像前処理を行う画像前処理モジュール34を更に備える。なお、画像前処理は画像修正及び/又はプリセット寸法に従うスケーリングを含む。
【0101】
本発明の一実施例によると、装置30は、プリセットのディープニューラルネットワーク検出モデルを訓練するモデル訓練モジュール35を更に備える。
【0102】
本発明の一実施例によると、モデル訓練モジュール35は、サンプル生成ツールを用いてサンプルを生成することと、サンプルを用いてプリセットのディープニューラルネットワーク検出モデルを訓練することと、を行う。
【0103】
本発明の一実施例によると、検出対象画像は新サンプルであり、装置30は、新サンプルを用いてプリセットのディープニューラルネットワーク検出モデルに対して微調整を行う微調整モジュール36を更に備える。
【0104】
なお、上述の実施例によるテキスト領域検出モジュール31、マッチングモジュール32、ラベリングモジュール33、画像前処理モジュール34、モデル訓練モジュール35及び微調整モジュール36の動作及び機能については、上述の
図1、
図2及び
図3に係るテキスト検出分析方法の説明を参照すればよく、重複を避けるためにここでは説明を省略する。
【0105】
<実施例4>
図5は、本発明の実施例により提供されるテキスト検出分析デバイス40の構成模式図である。
図5に示すように、本発明の実施例により提供されるテキスト検出分析デバイス40はプロセッサ41とメモリ42とを備える。
【0106】
具体的に、メモリ42には、プロセッサ41による実行可能な命令が記憶されており、プロセッサ41は、実行可能な命令によって実施例1及び実施例2に記載のテキスト検出分析方法のステップを実行する。なお、具体的な実行プロセスについては実施例1と実施例2における対応する内容を参照すればよく、ここでは説明を省略する。
【0107】
<応用実例>
システムの構築においては、ハードウェアのニーズとソフトウェアのニーズがある。
ハードウェアについては、サーバ1台、計算デバイス1台及び画像入力デバイス1台が必要である。
ソフトウェアについては、帳票認識のwebサービスと、端末において表示される画面と、画像及び検出結果を記憶するデータベースと、をサーバに実装する必要がある。
【0108】
プロセスは、モデル生成プロセスと書類検出プロセスに分けられる。
モデル生成プロセスにおいては、最初にサンプル生成モジュールによって訓練サンプルを生成し、作業能力が十分である場合に手動で本当のサンプルをラベリングする。十分な訓練サンプル(一般的には10万の倍数規模)を取得した後、サーバにおいてディープニューラルネットワークによって帳票認識モデルを訓練してサーバに記憶し、webサービスを構築する。
【0109】
検出プロセスにおいては、最初に画像入力デバイスを用いて書類をスキャンする。書類画像を取得した後、端末から認識サービスの画面を開き、画像をサーバにアップロードする。サーバは画像を受信した後、画像前処理モジュール、テキスト検出モジュール及びテンプレートマッチングモジュールによって構造化検出結果を取得してから、認識モジュールを用いて対応する領域の具体的なテキスト内容に対して認識を行い、さらに実際の状況に応じて認識結果に対して後処理を行い、最後に認識結果を端末に返して使用者に向けて表示する。
【0110】
以下、具体的な医療帳票に対する認識を例とする。帳票における病院名称と、病院種類と、医療保険種類と、対応する項目及び金額とを認識する必要があると仮定すると、病院名称と、病院種類と、医療保険種類と、対応する項目及び金額とは、取得する必要がある実体となる。
【0111】
第1のステップ:
図6に示すような元の帳票画像を取得する。
【0112】
第2のステップ:
図7に示すように、帳票画像に対してテンプレート分析を行う。
帳票画像に対してテンプレート分析を行うことは、すなわちテンプレートラベリングを行って、ラベル付きのテンプレート情報を生成することである。ここで、検出対象画像とテンプレート画像とは同一の画像である。具体的に、同一の親テンプレートを有する複数枚の帳票に対する認識を行う場合、テンプレートラベリングを1回のみ実行してもよい。
【0113】
第3のステップ:
図8に示すように、各カテゴリーのテキスト領域を見出す。
具体的には、異なるカテゴリーのテキスト領域を区別するために、プリセットのディープニューラルネットワーク検出モデルを用いて検出対象画像におけるテキスト領域に対して検出及び分類を行って、カテゴリー付きのテキスト領域情報を生成することができる。
【0114】
第4のステップ:
図9に示すように、テンプレート分析及びテキスト領域分類に基づいて、認識する必要がある領域を抽出する。
具体的には、ラベル付きのテンプレート情報及びカテゴリー付きのテキスト領域情報に基づいてテンプレートマッチングを行って、認識する必要がある領域を抽出する。
【0115】
本実施例においては、実体とテキスト領域との写像関係に基づいて、非テキスト領域及び無関係なテキストを含む不要部分を除去する必要がある。例えば、
図8に示すように、矢印Aにより指されているテキスト領域は無関係なテキストであり、矢印Bにより指されているテキスト領域は非テキスト領域であるため、A及びBの位置におけるテキスト領域がすなわち除去される必要がある不要部分である。
【0116】
第5のステップ:対応する認識モデルを用いて上述の領域を認識する。
認識結果は以下の通りである。
「上海第1婦児保健院」
「三級甲等専科病院」
「医療保険自費」
「治療費(自費)」
「外来診療費」
「6.00」
「800」
上述の認識結果はtesseract、CRNNなどの認識モデルによって取得することができる。また、認識結果は実際の結果と比べてある程度の差が存在する可能性があるため、後処理によって認識結果に対して是正を行ってもよい。
【0117】
第6のステップ:認識結果に対して後処理を行う。
後処理結果は以下の通りである。
「上海市第1婦児保健院」(病院名称リストとのマッチングに基づく)
「三級甲等専科病院」
「医療保険自費」
「治療費(自費)」
「外来診療費」
「6.00」
「8.00」(金額ルールとのマッチングに基づく)
ここで、病院名称リストを照会することによって、認識結果の病院名称「上海第1婦児保健院」に対して是正を行うことができる。是正結果が「上海市第1婦児保健院」であり、つまり認識結果の病院名称には文字「市」が漏れている。同様に、認識結果における各情報それぞれに対して是正を行うことができる。例えば、認識結果における外来診療費が「800」であるが、それを金額ルールとのマッチングによって是正すると、「8.00」となる。
【0118】
第7のステップ:認識結果を構造化して、構造化情報データを生成する。
{
病院名称:上海市第1婦児保健院
病院種類:三級甲等専科病院
医療保険種類:医療保険自費
費用明細:
{
治療費(自費):6.00
外来診療費:8.00
}
}
【0119】
なお、上述の実施例により提供されるテキスト検出分析装置及びデバイスがテキスト検出分析を行うことについて、本明細書においては上述の各機能モジュールの分け方を例として説明を行ったが、実際の応用においては、必要に応じて上述の機能を異なる機能モジュールに配分して遂行することもできる。つまり、装置又はデバイスの内部構成を異なる機能モジュールに分割することによって、上述のすべて又は一部の機能を実現する。また、上述の実施例により提供されるテキスト検出分析装置及びデバイスは、テキスト検出分析方法の実施例と同一の発明思想に属するため、その具体的な実現プロセスについては方法の実施例を参照すればよく、ここでは説明を省略する。
【0120】
当業者が理解できる通り、上述の実施例のすべて又は一部のステップはハードウェアによって実現してもよく、プログラムを用いて関連のハードウェアに命令することによって実現してもよい。前記プログラムはコンピュータ読取可能な記憶媒体に記憶されてもよく、当該記憶媒体はリードオンリーメモリ、磁気ディスク又はコンパクトディスクであってもよい。
【0121】
本願においては、本願の実施例による方法、デバイス(システム)、コンピュータプログラム製品のフローチャート及び/又はダイアグラムなどを参照しながら実施例を説明した。フローチャート及び/又はダイアグラムにおける各ステップ及び/又はブロック、及び、フローチャート及び/又はダイアグラムにおけるステップ及び/又はブロックの組み合わせは、コンピュータプログラムの命令によって実現されることができることに留意されたい。一般コンピュータ、専用コンピュータ、埋め込みプロセッサ、又は他のプログラマブルデータ処理デバイスのプロセッサにこれらのコンピュータプログラムを実装すると、コンピュータ又は他のプログラマブルデータ処理データ処理デバイスのプロセッサが命令を実行することによって、フローチャートにおける1つ又は複数のステップ及び/又はダイアグラムにおける1つ又は複数のブロックにより指定される機能を実現することができる装置になる。
【0122】
これらのコンピュータプログラム命令はコンピュータ読取可能なメモリに記憶されてもよい。当該コンピュータ読取可能なメモリは、コンピュータ又は他のプログラマブルデータ処理デバイスに特定の方式で作業させることができる。したがって、当該コンピュータ読取可能なメモリに記憶されている命令が実行されると、フローチャートにおける1つ又は複数のステップ及び/又はダイアグラムにおける1つ又は複数のブロックにより指定される機能を実現することができる装置を備えた製品が形成される。
【0123】
これらのコンピュータプログラム命令はコンピュータ又は他のプログラマブルデータ処理デバイスに実装されてもよい。したがってコンピュータ又は他のプログラマブルデータ処理デバイスは一連の作業プロセスを実行してコンピュータによる処理を実現することによって、コンピュータ又は他のプログラマブルデータ処理デバイスにより実行される命令がフローチャートにおける1つ又は複数のステップ及び/又はダイアグラムにおける1つ又は複数のブロックにより指定される機能を実行するプロセスを提供する。
【0124】
本明細書においては本願の実施例のうちの好ましい実施例のみを説明したが、当業者であれば、基本的な創造的概念を把握できた以上、これらの実施例に対して他の変更や変動を行うことができる。そこで、本願は、好ましい実施例及び本願の実施例の範囲に属するすべての変更や変動を、特許請求の範囲によって解釈する。
【0125】
明らかに、当業者であれば、本発明の精神と範囲を逸脱せずに本発明に対して様々な変動や変形を実現することができる。このような変動や変形が本発明の特許請求の範囲又は同等な技術範囲に属する場合、それらの変動や変形は本発明の保護範囲に入るものになる。
【0126】
以上は本発明の好ましい実施例に過ぎず、本発明を制限するための内容ではない。本発明の精神と原則の範囲内で行われる任意の変更、同等な置換、更新などは、すべて本発明の保護範囲に属するべきである。