IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン オイローパ エヌ.ヴェー.の特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-03-22
(54)【発明の名称】テキスト分類
(51)【国際特許分類】
   G06V 30/413 20220101AFI20230314BHJP
   G06V 10/82 20220101ALI20230314BHJP
【FI】
G06V30/413
G06V10/82
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022561639
(86)(22)【出願日】2021-04-09
(85)【翻訳文提出日】2022-11-30
(86)【国際出願番号】 EP2021059315
(87)【国際公開番号】W WO2021205007
(87)【国際公開日】2021-10-14
(31)【優先権主張番号】16/845,720
(32)【優先日】2020-04-10
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】599041075
【氏名又は名称】キヤノン オイローパ エヌ.ヴェー.
(74)【代理人】
【識別番号】110003281
【氏名又は名称】弁理士法人大塚国際特許事務所
(72)【発明者】
【氏名】コレット, フレデリック
(72)【発明者】
【氏名】ロイ, ヴァンダナ
【テーマコード(参考)】
5B029
5L096
【Fターム(参考)】
5B029CC28
5L096HA11
5L096JA22
(57)【要約】
テキストの分類を実行するために、テキスト分類装置(100)、光学式文字認識部(1)、テキスト分類方法(S220)、及びプログラムが提供される。セグメント化部(110)は、画像をテキストの複数の行(401~412;451~457;501~504;701~705)にセグメント化する(S221)。選択部(120)は、テキストの複数の行からテキストの行を選択する(S222~S223)。識別部(130)は、テキストの選択された行に対応するクラスのシーケンスを識別する(S224)。記録部(140)は、テキストの選択された行について、クラスのシーケンスのうちのクラスに対応する大域クラスを記録する(S225~S226)。分類部(150)は、大域クラスの信頼レベルに基づいて、大域クラスに従って画像を分類する(S227~S228)。
【特許請求の範囲】
【請求項1】
テキスト分類装置であって、
画像をテキストの複数の行にセグメント化するための手段と、
テキストの前記複数の行からテキストの行を選択するための手段と、
テキストの前記選択された行に対応するクラスのシーケンスを識別するための手段と、
テキストの前記選択された行について、クラスの前記シーケンスのうちのクラスに対応する大域クラスを記録するための手段と、
前記大域クラスの信頼レベルに基づいて、前記大域クラスに従って前記画像を分類するための手段と、を備えるテキスト分類装置。
【請求項2】
請求項1に記載のテキスト分類装置であって、
前記記録手段は、テキストの前記選択された行について、
クラスの前記シーケンス内のクラスのそれぞれに関連付けられた頻度と、
前記大域クラスがクラスの前記シーケンスのうちの最高頻度のクラスに対応するかどうかを確立する前記信頼レベルと、を記録するように構成される、テキスト分類装置。
【請求項3】
請求項1又は2に記載のテキスト分類装置であって、
選択手段は、前記信頼レベルが閾値よりも下であるならば、テキストの別の行を選択するように構成され、
前記識別手段は、テキストの前記選択された行に対応するクラスの複数のシーケンスを識別するように構成され、
前記記録手段は、テキストの前記選択された行について、クラスの前記複数のシーケンスのうちのクラスに対応する前記大域クラスを記録するように構成される、テキスト分類装置。
【請求項4】
請求項1乃至3の何れか1項に記載のテキスト分類装置であって、
前記分類手段は、前記信頼レベルが閾値よりも上であるならば、前記大域クラスに従って前記画像を分類するように構成される、テキスト分類装置。
【請求項5】
請求項1乃至4の何れか1項に記載のテキスト分類装置であって、
前記分類手段は、前記信頼レベルが閾値よりも下であるならば、複数の大域クラスに従って前記画像を分類するように構成される、テキスト分類装置。
【請求項6】
請求項1乃至5の何れか1項に記載のテキスト分類装置であって、
前記選択手段は、テキストの前記行のアスペクト比に基づいてテキストの前記行を選択するように構成される、テキスト分類装置。
【請求項7】
請求項1乃至6の何れか1項に記載のテキスト分類装置であって、
前記クラスは、前記テキストの文字体系に対応する、テキスト分類装置。
【請求項8】
請求項1乃至7の何れか1項に記載のテキスト分類装置であって、
前記クラスは、前記テキストの方向に対応する、テキスト分類装置。
【請求項9】
請求項1乃至8の何れか1項に記載のテキスト分類装置であって、
前記テキストの前記方向に基づいて、前記ユーザに提示される前に画像の前記方向が修正される、テキスト分類装置。
【請求項10】
請求項1乃至9の何れか1項に記載のテキスト分類装置であって、
前記クラスは、
文字体系と、
前記テキストの方向と、に対応する、テキスト分類装置。
【請求項11】
請求項1乃至10の何れか1項に記載のテキスト分類装置であって、
テキストの複数のサンプルを含むデータセットを使用して前記クラスを認識するように訓練されたニューラル・ネットワークをさらに備える、テキスト分類装置。
【請求項12】
請求項11に記載のテキスト分類装置であって、
前記データセットは、テキストの前記複数のサンプルの複数の方向を含む、テキスト分類装置。
【請求項13】
請求項11又は12に記載のテキスト分類装置であって、前記ニューラル・ネットワークは、
テキストの前記行の画像認識を実行するように構成された畳み込みニューラル・ネットワークと、
テキストの前記行のシーケンス認識を実行するように構成された再帰型ニューラル・ネットワークと、を含む、テキスト分類装置。
【請求項14】
請求項1乃至13の何れか1項に記載のテキスト分類装置であって、
前記記録手段は、テキストの前記選択された行について、複数の大域クラスを記録するように構成され、前記複数の大域クラスのそれぞれの大域クラスは、クラスの前記シーケンスのうちのクラスに対応し、
前記分類部は、前記複数の大域クラスのそれぞれの信頼レベルに基づいて、前記複数の大域クラスに従って前記画像を分類するように構成される、テキスト分類装置。
【請求項15】
請求項1乃至14の何れか1項に記載のテキスト分類装置であって、前記識別されたクラスの前記頻度に基づいて前記信頼レベルを決定するための手段を備える、テキスト分類装置。
【請求項16】
請求項15に記載のテキスト分類装置であって、前記信頼レベルを決定するための前記手段は、最も高い頻度のクラス及び2番目に高い頻度のクラスの頻度に基づく、テキスト分類装置。
【請求項17】
光学式文字認識装置であって、
請求項1乃至16の何れか1項に記載のテキスト分類装置と、
前記画像を分類する前記大域クラスを適用することによって、前記画像に対して光学式文字認識を実行するように構成された光学式文字認識部と、を備える、光学式文字認識装置。
【請求項18】
テキスト分類方法であって、
画像をテキストの複数の行にセグメント化することと、
テキストの前記複数の行からテキストの行を選択することと、
テキストの前記選択された行に対応するクラスのシーケンスを識別することと、
テキストの前記選択された行について、クラスの前記シーケンスのうちのクラスに対応する大域クラスを記録することと、
前記大域クラスの信頼レベルに基づいて、前記大域クラスに従って前記画像を分類することと、を有するテキスト分類方法。
【請求項19】
テキストを分類するためのニューラル・ネットワークを訓練する、コンピュータで実施される方法であって、前記訓練は、テキストの前記文字体系及び方向に従ってグループ化された訓練データ項目の複数のグループを使用することを含む、方法。
【請求項20】
請求項19に記載の方法であって、訓練目的は、前記訓練データ内の文字を文字体系及び方向に関連付けることである、方法。
【請求項21】
請求項19又は20に記載の方法であって、前記訓練データ内のテキストの前記方向は、0度、90度、180度、及び270度のテキストを含む、方法。
【請求項22】
プログラム可能装置のためのコンピュータ・プログラム製品であって、前記プログラム可能装置にロードされ実行される場合に請求項18乃至21の何れか1項に記載の方法を実施するための命令のシーケンスを含む、コンピュータ・プログラム製品。
【請求項23】
デバイス内のマイクロプロセッサ又はコンピュータ・システムによって実行される場合に、前記デバイスに、請求項18乃至21の何れか1項に記載の方法を実行させるプログラムを記憶するコンピュータ可読媒体。
【請求項24】
実行時に、請求項18乃至21の何れか1項に記載の方法を実行させるコンピュータ・プログラム。
【請求項25】
テキスト分類装置によって実行される場合に、前記テキスト分類装置にテキスト分類方法を実行させるプログラムを記憶する非一時的コンピュータ可読媒体であって、前記テキスト分類方法は、
画像をテキストの複数の行にセグメント化することと、
テキストの前記複数の行からテキストの行を選択することと、
テキストの前記選択された行に対応するクラスのシーケンスを識別することと、
テキストの前記選択された行について、クラスの前記シーケンスのうちのクラスに対応する大域クラスを記録することと、
前記大域クラスの信頼レベルに基づいて、前記大域クラスに従って前記画像を分類することと、を有する、非一時的コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、テキスト分類に関する。特に、本開示は、テキスト分類装置、光学式文字認識装置、テキスト分類方法、訓練方法及びプログラムに関する。
【背景技術】
【0002】
光学式文字認識(OCR)は、画像に含まれるテキストをマシン符号化されたテキストに変換するために実行される。OCRソフトウェアを使用して分析されうる画像は、スキャンされた文書、文書の写真、シーンの写真、ビデオ記録、及び文書上に重ね合わされたテキストを含む。画像内の変換されうるテキストは、タイプされたテキスト、手書きのテキスト、及び印刷されたテキストを含む。マシン符号化されたテキストは、アスキー、ユニコード、及び絵文字のような電子通信のための任意の文字符号化標準を含む。
【0003】
OCRが実行された後、検出された画像の属性を抽出することが可能である。しかし、OCRは計算集約的であるため、画像の属性に基づいてOCRをカスタマイズすることの需要がある。したがって、OCRが実行される前にそのような属性のうちの1つ以上が知られているならば、OCRはより効率的に実行されうる。
【0004】
「属性」という用語は、画像に関連付けられうる様々な変数を指すために使用されるが、「クラス」という用語は、画像について識別されるそのような変数の特定の値を指す。
【0005】
属性の第1の例は、画像内のテキストの文字体系(script)である。文字体系属性について、文字体系クラスの例は、ラテン語である。
【0006】
属性の第2の例は、画像内のテキストの方向である。方向クラスの例は、水平に対して0度、90度、180度、及び270度付近の角度を有するテキストである。
【0007】
属性はOCRの前にユーザによって識別されることが可能であるが、これはユーザに負担をかける。よって、画像認識処理の一部として属性を記録できるテキスト分類ソフトウェアの需要がある。
【0008】
テキスト分類ソフトウェアによる属性記録の効率の向上の需要がある。その結果、テキスト分類ソフトウェアは、プロセッサに対してより低い処理負担を課す。テキスト分類を実行するための処理リソースの低減は、これらのリソースがテキスト分類の精度を向上させるために費やされることを可能にし、それゆえ、OCRの精度及び効率は、個々の画像の分析のためにカスタマイズされる。結果はテキスト分類の速度及び精度を高めることになり、さらに、OCRの性能のための速度及び精度を高めることに寄与する。
【0009】
フジイ文献(多言語OCRのためのシーケンス対ラベル言語体系識別、arXiv:1708.04671v2、Y.フジイ、K.ドリエセン、J.バカッシュ、A.ハースト、及びA.C.ポパット)は、行レベル文字体系識別方法を記載する。符号化器は、行画像を特徴シーケンスに変換する。その後、要約器は、行を分類するためにシーケンスを集約する。文字体系コードのシーケンスからの行の支配的な文字体系が記録される。過半数は、行ごとに一意の文字体系ラベルを決定する。
【0010】
フジイ文献によって提案された技術の問題は、任意の混合文字体系及び混合言語コンテンツを扱う多言語OCRシステムについて困難に遭遇することである。フジイ文献は、文字体系をより細かいレベルで検出することによって、又は行レベルのアプローチを維持し、複数の文字体系を考慮することによって、これが処理されうる可能性を残している。
【0011】
したがって、画像内で識別されたテキストの行の分析に基づいて画像を分類するテキスト分類技術が必要とされる。属性の検出におけるエラーを排除することによって、テキスト分類の効率を高め、それにより、画像についての大域クラスを、必要とされるレベルの信頼性で識別できることが望まれる。
【発明の概要】
【0012】
本開示の側面は、テキスト分類装置であって、画像をテキストの複数の行にセグメント化するように構成されたセグメント化部と、テキストの前記複数の行からテキストの行を選択するように構成された選択部と、テキストの前記選択された行に対応するクラスのシーケンスを識別するように構成された識別部と、テキストの前記選択された行について、クラスの前記シーケンスのうちのクラスに対応する大域クラスを記録するように構成された記録部と、前記大域クラスの信頼レベルに基づいて、前記大域クラスに従って前記画像を分類するように構成された分類部と、を備えるテキスト分類装置を含む。
【0013】
オプションとして、前記記録部は、テキストの前記選択された行について、クラスの前記シーケンス内のクラスのそれぞれに関連付けられた頻度と、前記大域クラスがクラスの前記シーケンスのうちの最高頻度のクラスに対応するかどうかを確立する前記信頼レベルと、を記録するように構成される。
【0014】
オプションとして、前記選択部は、前記信頼レベルが閾値よりも下であるならば、テキストの別の行を選択するように構成され、前記識別部は、テキストの前記選択された行に対応するクラスの複数のシーケンスを識別するように構成され、前記記録部は、テキストの前記選択された行について、クラスの前記複数のシーケンスのうちのクラスに対応する前記大域クラスを記録するように構成される。
【0015】
オプションとして、前記分類部は、前記信頼レベルが閾値よりも上であるならば、前記大域クラスに従って前記画像を分類するように構成される。
【0016】
オプションとして、前記分類部は、前記信頼レベルが閾値よりも下であるならば、複数の大域クラスに従って前記画像を分類するように構成される。
【0017】
オプションとして、前記選択部は、テキストの前記行のアスペクト比に基づいてテキストの前記行を選択するように構成される。
【0018】
オプションとして、前記クラスは、前記テキストの文字体系に対応する。
【0019】
オプションとして、前記クラスは、前記テキストの方向に対応する。
【0020】
オプションとして、前記テキストの前記方向に基づいて、前記ユーザに提示される前に前記画像の前記方向が修正される。
【0021】
オプションとして、前記クラスは、文字体系と、前記テキストの方向と、に対応する。
【0022】
オプションとして、テキスト分類装置は、テキストの複数のサンプルを含むデータセットを使用して前記クラスを認識するように訓練されたニューラル・ネットワークをさらに備える。
【0023】
オプションとして、前記データセットは、テキストの前記複数のサンプルの複数の方向を含む。
【0024】
オプションとして、前記ニューラル・ネットワークは、テキストの前記行の画像認識を実行するように構成された畳み込みニューラル・ネットワークと、テキストの前記行のシーケンス認識を実行するように構成された再帰型ニューラル・ネットワークと、を含む。
【0025】
オプションとして、前記記録部は、テキストの前記選択された行について、複数の大域クラスを記録するように構成され、前記複数の大域クラスのそれぞれの大域クラスは、クラスの前記シーケンスのうちのクラスに対応し、前記分類部は、前記複数の大域クラスのそれぞれの信頼レベルに基づいて、前記複数の大域クラスに従って前記画像を分類するように構成される。
【0026】
オプションとして、前記装置は、前記識別されたクラスの前記頻度に基づいて前記信頼レベルを決定するための手段をさらに備える。オプションとして、最も高い頻度のクラス及び2番目に高い頻度のクラスの頻度に基づく。
別の側面によれば、テキスト分類装置であって、画像をテキストの複数の行にセグメント化するように構成されたセグメント化部と、テキストの前記複数の行からテキストの行を選択するように構成された選択部と、テキストの前記選択された行に対応するクラスのシーケンスを識別するように構成された識別部と、テキストの前記選択された行について、クラスの前記シーケンスのうちのクラスに対応する大域クラスを記録するように構成された記録部と、前記大域クラスの信頼レベルに基づいて、前記大域クラスに従って前記画像を分類するように構成された分類部と、を備えるテキスト分類装置を備える光学式文字認識装置が提供される。
【0027】
別の側面によれば、テキスト分類方法であって、画像をテキストの複数の行にセグメント化することと、テキストの前記複数の行からテキストの行を選択することと、テキストの前記選択された行に対応するクラスのシーケンスを識別することと、テキストの前記選択された行について、クラスの前記シーケンスのうちのクラスに対応する大域クラスを記録することと、前記大域クラスの信頼レベルに基づいて、前記大域クラスに従って前記画像を分類することと、を有するテキスト分類方法が提供される。
【0028】
別の側面によれば、テキストを分類するためのニューラル・ネットワークを訓練する、コンピュータで実施される方法であって、前記訓練は、テキストの前記文字体系及び方向に従ってグループ化された訓練データ項目の複数のグループを使用することを含む、方法が提供される。
【0029】
オプションとして、訓練目的は、前記訓練データ内の文字を文字体系及び方向に関連付けることである。
【0030】
オプションとして、前記訓練データ内のテキストの前記方向は、0度、90度、180度、及び270度のテキストを含む。
【0031】
別の側面によれば、請求項22乃至25に記載のコンピュータ・プログラム製品、コンピュータ可読媒体、又はコンピュータ・プログラムが提供される。
【図面の簡単な説明】
【0032】
ここで、添付の図面を参照して、単なる例として、実施形態が説明される。
図1】光学式文字認識装置を説明する模式図。
図2】データセットの文字を文字体系及び方向に関連付けるためにニューラル・ネットワークがどのように訓練されうるかを説明するフローチャート。
図3】画像分類を説明するフローチャート。
図4A】、
図4B】画像の行セグメント化を説明する模式図。
図5A】、
図5B】、
図5C】、
図5D】行分類に続く出力であるクラスのシーケンスを説明する図。
図6A】、
図6B】、
図6C】、
図6D】テキスト分類の対象となる画像サンプルを提供する図。
図7A】、
図7B】、
図7C】画像サンプル(図7A)を、行セグメント化(図7B)及びテキスト分類(図7C)についての画像結果と共に提供する図。
【発明を実施するための形態】
【0033】
本開示の様々な実施形態、特徴及び側面が図面を参照して以下に詳細に記載される。以下に記載される実施形態のそれぞれは、単独で、又は必要に応じて若しくは単一の実施形態における個々の実施形態からの要素若しくは特徴の組合せが有益である複数の実施形態若しくはその特徴の組合せとして実施されうる。
【0034】
図1は、テキスト分類装置100と光学式文字認識部160とを備える光学式文字認識装置1を説明する模式図である。光学式認識装置1は、光学式文字認識(OCR)を実行するように構成される。
【0035】
テキスト分類装置100は、セグメント化部110と、選択部120と、識別部130と、記録部140と、分類部150とを備える。セグメント化部110は、画像をテキストの複数の行にセグメント化するように構成される。選択部120は、テキストの複数の行からテキストの行を選択するように構成される。識別部130は、テキストの選択された行に対応するクラスのシーケンスを識別するように構成される。記録部140は、テキストの選択された行について、クラスのシーケンスのうちのクラスに対応する大域クラスを記録するように構成される。記録部140は、頻度の降順に配置されたクラスの大域リストを保持するように構成されている。これは、分析中の各行の内容で更新される。記録部140における最上位クラスは、画像の大域クラスについての現在の最良候補である。画像の最終的な分類は、分類部によって行われる。分類部150は、記録部140によって提供されたデータに基づいて、それゆえ大域クラスの信頼レベルに基づいて、画像を分類するように構成される。
【0036】
テキスト分類装置100は、OCR部160によってOCRが実行される前に、画像の属性を識別するように構成される。よって、テキスト分類装置100によって識別された特定の属性に合わせたOCRを実行するようにOCR部160を構成することによって、OCR部160による処理需要が低減される。以下の属性のうちの1つ以上が最初に検出されたならば、OCRの効率が向上する。
‐テキストの文字体系(文字体系属性)、
‐テキストの言語(言語属性)、
‐テキストのフォント(フォント属性)、
‐テキストがイタリックであるかどうか(イタリック属性)、
‐テキストがボールドであるかどうか(ボールド属性)、
‐テキストが下線付きかどうか(下線属性)、
‐テキストの傾斜(傾斜属性)、
‐テキストの方向(方向属性)、及び
‐テキストのセグメント化された行が水平であるか垂直であるか(水平/垂直属性)。
【0037】
文字体系属性について、文字体系クラスの例は、ラテン語、キリル語、アラビア語、韓国語、中国語、日本語、ヘブライ語、ギリシャ語、インド語、ベンガル語、デーヴァナーガリー語、タミル語、タイ語、モールス符号、及び点字文字である。
【0038】
クラスは、複数のサブクラスを組み込むことが可能である。文字体系属性が中国語文字体系クラスとして識別されるならば、最初は、繁体字中国語サブクラスと簡体字中国語サブクラスとの間で区別は行われない。繁体字中国語サブクラス及び簡体字中国語サブクラスに書かれた表意文字の外観に重複が存在するため、テキスト分類ソフトウェアがこれらのサブクラスを区別することは困難である。代わりに、繁体字中国語及び簡体字中国語は、より広範な中国語文字体系として認識される。文字体系が簡体字中国語と繁体字中国語との混合であると仮定してOCRが実行される。その後、文字頻度に基づくナイーブベイズ分類器を使用して、簡体字中国語又は繁体字中国語としてOCR結果が分類される。これは、OCRが行われた後に繁体字中国語サブクラスと簡体字中国語サブクラスとが区別されると、より正確であることが分かっているからである。
【0039】
言語属性について、言語クラスの例は、英語、フランス語、及びスペイン語であり、これらについての文字体系属性は、ラテン語文字体系クラスに対応する。
【0040】
傾斜属性について、これは画像の水平軸に対するテキストの角度を測定することによって記録される。角度は、度又はラジアンで測定される連続変数である。角度は許容範囲内で測定されてもよく、その結果、許容範囲内の傾斜を有するテキストが特定の傾斜クラスに関連付けられる。傾斜属性の評価は、画像を回転することによって、傾斜を除去するように画像の表示が修正されることを可能にする。文書は、従来、水平に対して0度、180度、90度、及び270度の方向でテキストが提示される矩形ページ上に提示される。よって、方向属性は、傾斜属性の部分集合とみなされうる。
【0041】
方向属性の場合、クラスの例は、0度、90度、180度、及び270度であり、これらについて水平に対するテキストの方向を記録することが可能である。水平に対するテキストの角度は、許容範囲内で測定され、したがって、方向クラスの近傍内にあるテキストが分類される。さらに、方向属性が特定の0度、90度、180度、及び270度のクラスに限定される必要はなく、代わりに、角度が連続変数であることを認識できるようにテキスト分類装置が構成されうる。
【0042】
複数の属性の識別は、OCRの効率をさらに向上する。複数の属性は、画像の単一の属性分析において、又は複数の別個の属性分析ステップを実行することによって、一緒に識別されうる。組み合わせて検出される属性の例は以下を含む。
‐文字体系属性と方向属性との両方の識別、及び
‐方向属性と垂直/水平属性との両方の識別。
【0043】
テキストの文字体系属性及び方向属性の記録は、単一のステップで実行される。よって、(文字体系、方向)属性の例は、(ラテン語、0度)クラスである。組み合わされた属性としての(文字体系、方向)属性の記録は、文字体系属性とび方向属性との両方を有するものとして指定されているテキストのサンプルを認識するようにテキスト分類装置を訓練することによって実現される。
【0044】
文字体系属性の記録は、言語属性の記録の前に生じるステップである。例えば、文字体系属性がラテン語文字体系クラスに対応するという記録に続いて、言語属性の後続の評価は、言語属性が英語言語クラスに対応することを見出す。言語属性の検出前に文字体系属性を記録するは、言語属性記録ステップに課される処理負担を軽減する。文字体系クラスと言語クラスとの両方が知られると、検出された特定の言語クラスに制限された辞書が選択されうるため、OCRを実行する際の処理負担が軽減される。なお、言語クラスを記録する必要なく文字体系クラスを利用してOCRが実行されうるため、言語クラスの記録は必須のステップではない。
【0045】
画像分類は、異なるクラスを区別するように訓練されたニューラル・ネットワークを使用して画像を分析することによって実行される。ニューラル・ネットワークは、クラスのメンバの例を含むデータセットを使用してクラスを識別するように訓練される。ニューラル・ネットワークは、特定の文字体系クラスに属する文字を含むデータセットを使用して文字体系クラスを識別するように訓練される。ニューラル・ネットワークが単一のステップで文字体系クラスと方向クラスとの両方を認識するように訓練される特定の構成について、データセットは特定の文字体系クラスに属する文字を含み、これらの文字は、複数の異なる方向で入力される。
【0046】
ニューラル・ネットワークは、複数の畳み込みネットワーク層及び再帰型ネットワーク層を備える。畳み込み層は画像が通過する第1の層であり、手元の問題の学習に寄与する画像の特定の特徴量を規定する様々なフィルタを計算する。その後、畳み込まれた画像は、文字のシーケンスを認識するLSTM(ロング・ターム・ショート・メモリ)ベースの再帰型ネットワーク層を通過する。
【0047】
ニューラル・ネットワークは、ラテン語クラス内の文字を含むテキスト・サンプルを使用してラテン語クラスを認識するように訓練される。データセットは、多種多様なフォントにおいて、個々の機械可読文字を識別するアルファベットを含む複数のフォント・サンプルを含む。これに代えて又はこれに加えて、データセットは、テキスト文書のライブラリを含む。テキスト・サンプルは複数の方向で入力され、ラテン語クラスは0度、90度、180度、及び270度で入力される。この訓練は、他の特定の文字体系クラスに対して繰り返される。
【0048】
多くの言語における典型的な文書は従来、英語のテキストの場合のように、ユーザによって左から右に読み取られる。他の言語では、典型的な文書は、アラビア語のテキストの場合のように、ユーザによって右から左に読み取られる。画像の左から右又は右から左に読み取られるテキストについて、テキストは水平行として提示され、行と個々の文字との両方は0度の方向を有する。
【0049】
行テキストはユーザによって上から下に読み取られることがあり、これは、中国語のようないくつかの言語でより一般的に生じる。従来、水平行に沿って文書が読み取られる言語であっても、利用可能なスペースを有効に使用したり、テキストに注目を集めたりするなどの理由から、テキストが垂直に提示される場合がある。テキストの行がユーザによって下から上に読み取られることは稀である。画像の上から下又は下から上に読み取られるテキストについて、テキストは垂直行として提示され、行は90度の方向を有し、個々の文字は0度の方向を有する。
【0050】
訓練データセットは、テキストが従来提示される様々な方向に適応するためのサンプルを含む。訓練中、そして画像分析中も、両方向でテキスト分類を実行することによって、テキスト分類ソフトウェアの精度が向上する。よって、テキストの水平行は、テキスト分類ソフトウェアによって、左から右及び右から左の両方から読み取られる。同様に、テキストの垂直行は、テキスト分類ソフトウェアによって、上から下及び下から上の両方から読み取られる。よって、行の属性を記録するための画像分析は、特定の言語の読み取り慣習によって制約されない。したがって、テキストの行が水平方向を有すると識別されたならば、言語属性が英語クラスに対応するかアラビア語クラスに対応するかにかかわらず、テキスト分類は、テキストを左から右と右から左との両方から読み取ることによって属性分析を実行する。
【0051】
文書が傾いて方向付けられているならば、これを検出することができ、したがって、画像の正しい方向が記録されうる。したがって、方位属性が90度、180度、又は270度のクラスに対応するものとして記録されるならば、これは、画像が正しく方向付けられていないことを示し、したがって、記録された方向クラスを補償するために回転されるべきである。必要に応じて、テキスト認識ソフトウェアによって文書の回転が実行され、その結果、テキストは従来の方向でユーザに提示される。
【0052】
図2は、データセットの文字を1つ以上の属性に関連付けるためにニューラル・ネットワークがどのように訓練されうるかを示すフローチャート(S210)である。
【0053】
ステップS211において、テキストのサンプルを含むデータセットが編集され、各サンプルは、特定のクラスに対応するものとして識別される属性を有する。この例では、S211のデータセットは、特定の(文字体系、方向)クラスに属するものとしてそれぞれ識別されるテキストのサンプルを含む。
【0054】
ステップS212において、ニューラル・ネットワークは、データセットのサンプルを各特定のクラスに関連付けるように訓練される。訓練されると、ニューラル・ネットワークは、異なるクラスを有するサンプルを区別できる。よって、テキスト分類装置100は、訓練されたニューラル・ネットワークを利用して、以前に遭遇していない画像の属性を識別できるように構成される。
【0055】
図3は、画像分類を示すフローチャートS220である。ステップS221において、画像は、テキストの複数の行にセグメント化される。図4A及び図4Bは、画像セグメント化の例を示す。図4Aでは、画像400が水平行401~412にセグメント化される。図4Bでは、画像450が垂直行451~457にセグメント化される。テキストの行401~412、451~457は、セグメント化されたテキストを囲む境界ボックスによって示される。
【0056】
この構成は、テキストの行401~412、451~457を個々の文字にセグメント化することを必要としない。例えば、個々の文字が同じ接続された構成要素に対応すること、筆記が結合されたフォントで書かれているか、連字、リガンド又は下線テキストを含むことに起因して、文字セグメント化は多くのテキスト画像にとって特に困難である。文字セグメント化を実行せずに行単位のレベルの分析を実行すると、テキスト分類の精度が向上する。
【0057】
ステップS222において、テキストの複数の行が、テキスト認識が実行されるべき順序に並べられる。この目的は、分類が最も正確であると予想される行に対してテキスト分類が実行されるようにすることである。これは、画像が十分な信頼のレベルに分類されると属性分析が停止されるため、画像分類の実行時に処理負担を低減するのに役立つ。
【0058】
順序は、テキストの行のアスペクト比に基づいて記録される。テキストの各行の境界ボックスは、長辺を短辺で除算したものに等しいアスペクト比を有する長方形である。アスペクト比が高いテキストほど多くの文字を含む可能性が高いため、テキストの行は、最大から最小へアスペクト比によって順序付けられる。
【0059】
テキストの行に対応するセグメント化部110によってセグメント化された特徴の確率は、選択部120がアスペクト比の逆正接を計算する計算される。アスペクト比は、長方形の長辺を長方形の短辺で除算することによって計算されるため、1よりも大きい数である。「行の信頼性」測度は、アスペクト比の逆正接を取り、この結果をπ/2で除算することによって計算される。結果として、この数は0と1との間の確率測度を提供し、よって、検出された特徴がテキストの行に対応することの信頼性を示す。
行の信頼性= arctan(アスペクト比)×2/π
【0060】
arctan関数は、アスペクト比が増加することにつれて、行の信頼性の確率測度が単調増加するので有用である。アスペクト比は真に正の量であるため、この計算は0よりも大きい数をもたらす。arctan関数はラジアンを使用して構成されているため、π/2での除算は、1未満の数を提供する。結果として、テキストの行が識別されたかどうかを識別するために確率測度が提供される。行であると識別された候補について、行の信頼性の測度が最大である対応する行を選択することによって、最大のアスペクト比を有する行が選択される。
【0061】
ステップS223において、複数の行からテキストの行が選択される。最大のアスペクト比を有するテキストの行が選択される。テキストの更なる行を選択する必要があるならば、次に高い比を有するテキストの行が選択される。テキストの行の選択は、画像の大域クラスの識別が閾値信頼レベルを超えるまで、又はテキストのすべての行が分析されるまで続く。
【0062】
ステップS224において、テキストの行に対応するクラスのシーケンスが識別される。認識されたシーケンスの例が図5A図5Dに示され、これらは、いくつかの例示的な文書から抽出された行サンプル501~504の模式図を示す。行サンプル501~504のそれぞれについて、(文字体系、方向)属性が検出され、(文字体系、方向)クラスのシーケンスの記録がもたらされる。
【0063】
図5Aの行501について、クラス511~515のシーケンスは、以下のように出力される。
(文字体系、方向)=(ラテン語、0°)、(ラテン語、0°)、(句読文字、0°)、(ラテン語、180°)、 及び(ラテン語、0°)。
【0064】
図5Bの行502について、クラス521~525のシーケンスは、以下のように出力される。
(文字体系、方向)=(キリル語、90度)、(キリル語、90度)、(キリル語、90度)、(ラテン語、90度)、及び(キリル語、90度)。
【0065】
図5Cの行503について、クラス531~535のシーケンスは、以下のように出力される。
(文字体系、方向)=(韓国語、180度)、(韓国語、180度)、(中国語、180度)、(韓国語、180度)、及び(韓国語、180度)。
【0066】
図5Dの行504について、クラス541~545のシーケンスは、以下のように出力される。
(文字体系、方向)=(中国語、270度)、(中国語、270度)、(中国語、270度)、(中国語、270度)、及び(中国語、270度)。
【0067】
図5Aの行501のシーケンス513のメンバに関して、文字体系クラスは句読文字であると識別される。これは、画像の大域クラスの記録から句読文字、スペース、数字のような文字を排除することによって処理される。代替として、ニューラル・ネットワークは、句読文字分析が大域クラスの記録に寄与するように、異なる文字体系に使用される句読文字を区別するように訓練されうる。
【0068】
図5Aの行501におけるシーケンス514のメンバに関して、180度の方向クラスが誤って検出される。この正しくない方向が検出されることの考えられる理由は、文字対(u、n)、(p、d)、及び(M、W)のように、いくつかの文字対が逆方向で同じに見えることでありうる。これは、異なる方向で文字体系を認識するようにニューラル・ネットワークを訓練することによって緩和されえ、その結果、検出時に、ニューラル・ネットワークは文字対の存在を考慮に入れることができ、その結果、このような文字は大域クラスの検出から排除されうる。
【0069】
図5Bの行502におけるシーケンス524のメンバに関して、ラテン語の文字体系クラスが誤って検出される。この正しくない文字体系の記録の考えられる理由は、多くの文字体系が互いに同一又は類似の文字を有することである。これは、異なる文字体系のどの文字が互いに類似しているかを認識するようにニューラル・ネットワークを訓練することによって緩和されえ、その結果、このような文字が大域クラスの検出から排除されうる。
【0070】
図5Cの行503におけるシーケンス533のメンバに関して、中国語の文字体系クラスは正確に検出されているが、これは、追加のコンテキストを提供する中国語文字を含む韓国語文書に対応する。韓国語と同様に、多くの言語は一般に、他の言語の要素を含む。韓国語文字体系の検出に基づいてOCRをカスタマイズする場合に、曖昧さの解消のために韓国語テキストが中国語文字を含むことが通常であるという事実が考慮される。同様に、追加のコンテキストを提供するために英語テキストが含まれることが非常に一般的であるため、すべての言語に対するOCRのカスタマイズは、英語を読み取るようにカスタマイズされるようにも構成される。
【0071】
文字体系及び言語記録部140は、当該事実を認識しており、同じページ内の中国語及びフランス語を処理するのと同じ方法で同じページ内の中国語及び韓国語を処理しない。同じページの中国語及びフランス語は、フランス語及び中国語が混在するページとして分類され、(予想される割合を有する)同じページの中国語及び韓国語は純粋な韓国語として分類される。この処理は、「曖昧さの解決」として知られている。
【0072】
これは、対応する最大部分を有するすべての言語で受け入れられた外国語包含のテーブルを保持し、可能であればその当該外国語の文字を最良の言語に割り当てることによって行われる。最良の言語の文字数に対する外国語の文字数の比率が、許容される外国語のテーブルで指定された範囲内であるならば、包含は可能であるとみなされる。
【0073】
図5Dの行504におけるシーケンス541~545のメンバに関して、後続の属性分析は、中国語文字体系クラスが繁体字中国語サブクラスに対応するか簡体字中国語サブクラスに対応するかを記録するが、それは文字体系属性分析段階の後にサブクラスを記録することがより正確であることが分かっているからである。
【0074】
大域結果についての信頼レベルが閾値を超えるならば、特定の検出の誤りが排除されうる。よって、この誤りは、0度の十分な数の正しい結果が検出されたならば、大域クラスの最終結果に影響を与えない。
【0075】
ステップS225において、選択された行について、各クラスの頻度が記録される。
【0076】
図5Aの行501について、
‐クラス(ラテン語、0度)について、3の頻度が記録され、
‐クラス(句読文字、0度)について、1の頻度が記録され、
‐クラス(ラテン語、180度)について、1の頻度が記録される。
【0077】
図5Bの行502について、
‐クラス(キリル語、90度)について、4の頻度が記録され、
‐クラス(ラテン語、90度)について、1の頻度が記録される。
【0078】
図5Cの行503について、
‐クラス(韓国語、180度)について、5の頻度が記録される。
【0079】
図5Dの行504について、
‐クラス(中国語、270度)について、5の頻度が記録される。
【0080】
ステップS226において、文書の大域クラスが、信頼性の要求されたレベルまで検出されたかどうかの評価が行われる。信頼レベルは、分析されたテキストの行のすべてに基づいて計算される。この信頼レベルは、記録部140によって記録される。
【0081】
「大域クラス」は、画像に全体として関連付けられたクラスを識別する。大域クラスを評価するために使用される計算の詳細は、以下に提供される(図7Cの議論を参照されたい)。
【0082】
ステップS227において、信頼レベルが閾値を超えるかどうかの評価が行われる。信頼レベルが閾値を超えるならば、処理はステップS228に進む。信頼レベルが閾値を超えないならば、処理はステップS223に戻り、テキストの行のすべてが分析されるまで、テキストの別の行が選択される。
【0083】
テキストの行のすべてが分析されたならば、処理はステップS228に進み、テキストの行のすべてに利用可能な属性分析を利用する。信頼レベルが閾値を超えるならば、大域クラスが画像に関連付けられる。しかし、テキストの利用可能な行のすべてを分析した後、大域クラスが閾値を超えないならば、検出されたクラスをカバーするOCRの幅広いカスタマイズを選択する必要がある。この評価は、画像がテキストの単一の行を含む状況に適用される。
【0084】
ステップS228において、大域クラスの記録が行われる。大域クラスが高い信頼レベルで識別されるならば、これは、文書全体が属性の単一のクラスに関連付けられうることを示す。文書の大域クラスが画像に関連付けられ、大域クラスは特定の大域クラスに合わせてOCRを実行するためにOCR部106によって使用される。結果として、特定の大域クラスについて画像分析が実行され、これは処理によって使用される計算リソースを低減する。
【0085】
大域クラスが低い信頼レベルで識別されるならば、これは、属性分析における誤りを示すことができるか、又は複数のクラスに属するテキストを文書全体が含むことを示すことができる。この場合に、文書の大域クラスは、複数のクラスが検出されたことを識別する。この大域クラス情報は、画像に関連付けられ、OCR部106によって、後続の分析のためにより広い範囲のクラスを利用してOCRを実行するために使用される。その結果、OCR部150によるOCR画像分析は、特定のクラスに限定されず、広範な画像分析が実行されることを保証する。
【0086】
画像は、複数の大域クラスに関連付けられることが可能である。結果として、これは、複数のクラスを含む画像、又は適切な大域クラスを正確に識別することが不可能な画像の分類を可能にする。記録部140は、テキストの選択された行について、複数の大域クラスを記録するように構成され、複数の大域クラスの各大域クラスは、クラスのシーケンスのうちのクラスに対応する。分類部150は、複数の大域クラスのそれぞれの信頼レベルに基づいて、複数の大域クラスに従って画像を分類するように構成される。
【0087】
文字体系及び方向分類の対象となった文字体系のサンプルが図6A図6Dに示される。
【0088】
図6Aは、(韓国語、0度)クラスに(文字体系、方向)属性を有するものとして識別されるテキストのサンプルを示す。
【0089】
図6Bは、(キリル語、180度)クラスに(文字体系、方向)属性を有するものとして識別されるテキストのサンプルを示す。
【0090】
図6Cは、(アラビア語、90度)クラスに(文字体系、方向)属性を有するものとして識別されるテキストのサンプルを示す。
【0091】
図6Dは、(ラテン語、270度)クラスに(文字体系、方向)属性を有するものとして識別されるテキストのサンプルを示す。
【0092】
図7A~Cは、特定の画像サンプルの画像分類を説明するのに役立つ。図7Aは、キストの複数の行を含む文書の入力画像を示す。図7Bは、行セグメント化の結果を示し、行701~705は、それらのアスペクト比によって順序付けられている。最大のアスペクト比を有するものとして識別されるので、行701でテキスト分類が最初に実行される。更なるテキスト分類を実行する必要があるならば、行702が選択される。これは、信頼レベルが閾値を超えるか、又は行701~705のすべてがテキスト分類の対象となるまで続く。図7Bは、各行について、アスペクト比の逆正接として計算され、π/2で除算された行パラメータの信頼性についての値を含む。したがって、誤って特徴付けられた文書の断片、グラフィック、署名、ボックス、ノイズ、又は影のような、行ではない特徴を考慮から排除しながら、最大のアスペクト比を有する最も適切な行を選択することが可能である。
【0093】
図7Cは、テキスト分類の結果を示す表を提供する。テキストの各行は、文字体系及び方向に従って行を分類するためのニューラル・ネットワークを通過する。結果のリストが形成され、リストの各要素はフィールド(文字体系、方向、頻度)を含む。このリストは、各結果について頻度の降順に並べられている。行が処理された後、最良の結果の頻度と2番目に良い結果の頻度との間のパーセンテージ差として規定される結果の信頼値が計算される。
【0094】
結果の信頼性が、経験的に規定された閾値よりも大きかったならば、処理は停止し、画像は、最も高い頻度を有する(文字体系、方向)クラスに従って分類される。それ以外の場合に、テキストの行から次の行が処理され、新たな行からの結果で結果のリストが更新される。文字体系及び方向の結果が十分に高い信頼レベルで見つかるまで、又は行のすべてが処理されるまで、処理が続く。
【0095】
図7Cの行1(特徴701)について、(文字体系、方向)属性は、19の頻度を有する(キリル語、0度)クラス、及び18の頻度を有する(ラテン語、0度)クラスにあるものとして識別される。これは評価される唯一の行であるため、行1(特徴701)は全体的な結果に寄与する。
【0096】
信頼値は、パーセンテージ、すなわち(最も高い頻度のクラス-2番目に高い頻度のクラス)/2番目に高い頻度クラス、として計算される。
【0097】
この式は、分類が終了したか否かの評価を可能にする。信頼値のこの計算の統計的有意性は、最も高い頻度のクラスが、識別された他のクラスよりもはるかに高いならば、それが選択されることである。1つの特定のクラスが他のクラスよりもはるかに高い信頼性で検出されるならば、信頼値は高くなり、他のクラスが大域クラスの評価から無視されることを可能にする。
‐行1について、(19-18)/18=5.5%。
‐行2について、(35-25)/25=40%。
‐行3について、(53-34)/34=55.8%。
‐行4について、(63-45)/45=40%。
‐行5について、(72-45)/45=60%。
【0098】
本サンプルについて、信頼閾値は60%の値に設定される。したがって、図7Cの行5について大域結果が記録された後、テキスト分類が終了し、(文字体系、方向)属性が60%の信頼レベルで(キリル語、0度)大域クラスであると記録される大域結果を返す。
【0099】
表の行は、テキストの追加の行を含むように分析が進行するにつれて、候補の(文字体系、方向)クラスのリストが維持され、このリストは信頼性の降順に並べらえることを示す。このリストは、より多くの行が処理されるにつれて更新される。すでに存在する候補は、新たな候補が追加される際に、自身の信頼性が増加することがわかる。最終的に、リストは、画像の少なくとも一部に見出された文字体系及び方向のすべての分析を提供する。
【0100】
このリストから、最も高い信頼性に対応する結果が、画像の(文字体系、方向)大域クラスとして割り当てられる。OCR部106は、この大域クラスについてカスタマイズされる。
【0101】
最後に少数の候補が高い信頼性を有するならば、これらの(文字体系、方向)大域クラスの両方が返されうる。これは、クラスの混合が識別されたことを示す。この場合に、OCR部106は、返された(文字体系、方向)大域クラスのすべてに従ってカスタマイズされうる。よって、行レベルでは、画像上に1つの行のみが存在しない限り、曖昧さの解決は行われない
【0102】
例えば、文書がキリル語文字体系クラス及びラテン語文字体系クラスのテキストを含むならば、曖昧さの解決のために、異なる文字体系を区別するために個々の行をセグメント化する必要はない。これは、テキスト分類ソフトウェアがテキストの特定の行における複数の文字体系の存在を処理できるからである。個々のクラスのメンバの頻度は、大域クラスを記録するために、複数の行にわたって累積的に評価される。OCR部のカスタマイズに有益であることが記録されるならば、画像は、複数の大域クラスに関連付けられうる。
【0103】
本技術は、分析されたテキストの行からできるだけ多くの情報を利用し、それゆえ、テキスト分類の精度を向上する。これが実現されるのは、、収集されたデータのいずれも無視することなく、1つ以上の大域クラスの評価が累積頻度分析を利用するためである。例えば、図7A~Cは、各行に関連する(文字体系、方向、頻度)クラス・データのすべてと、各識別されたクラスとを利用して識別される(文字体系、方向)大域クラスを示す。画像に関するより多くの情報を収集することにより、大域クラス記録の精度を高めることができる。これは、テキストのより少ない行の分析を実行することによって大域クラスの正確な記録が実現されるため、処理速度を向上させる。
【0104】
また、上記の例は、上述の例の機能を実現するためにメモリ・デバイスに記録されたプログラムを読み出し実行するシステム又は装置(又はCPUやMPUのようなデバイス)のコンピュータによって、及び例えば上述の例の機能を実現するためにメモリ・デバイスに記録されたプログラムを読み出し実行することによって、システム又は装置のコンピュータによって実行されるステップを有する方法によって、実現されうる。このために、プログラムは例えば、ネットワークを介して、又はメモリ・デバイスとして機能する様々なタイプの記録媒体(例えば、非一時的なコンピュータ可読媒体のようなコンピュータ可読媒体)から、コンピュータに提供される。
【0105】
本開示は例示的な実施形態を説明してきたが、いくつかの実施形態は開示された実施形態に限定されないことが理解されよう。実施形態は、本開示の主要な特徴から逸脱することなく、様々な形態で実施されうる。以下の特許請求の範囲はそのようなすべての変形及び均等な構造及び機能を包含するように、最も広い解釈が与えられるべきである。
図1
図2
図3
図4A
図4B
図5A
図5B
図5C
図5D
図6A
図6B
図6C
図6D
図7A
図7B
図7C
【手続補正書】
【提出日】2022-11-30
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
テキスト分類装置であって、
画像をテキストの複数の行にセグメント化するように構成さえたセグメント化部と、
テキストの前記複数の行からテキストの行を選択するように構成された選択部と、
テキストの前記選択された行に対応するクラスのシーケンスを識別するように構成された識別部であって、各クラスは、文字体系と方向との両方を含む、識別部と、
テキストの前記選択された行について、クラスの前記シーケンスのうちのクラスに対応する大域クラスを記録するように構成された記録部と、
前記大域クラスの信頼レベルに基づいて、前記大域クラスに従って前記画像を分類するように構成された分類部と、を備えるテキスト分類装置。
【請求項2】
請求項1に記載のテキスト分類装置であって、
前記記録は、テキストの前記選択された行について、
クラスの前記シーケンス内のクラスのそれぞれに関連付けられた頻度と、
前記大域クラスがクラスの前記シーケンスのうちの最高頻度のクラスに対応するかどうかを確立する前記信頼レベルと、を記録するように構成される、テキスト分類装置。
【請求項3】
請求項に記載のテキスト分類装置であって、
前記選択は、前記信頼レベルが閾値よりも下であるならば、テキストの別の行を選択するように構成され、
前記識別は、テキストの前記選択された行に対応するクラスの複数のシーケンスを識別するように構成され、
前記記録は、テキストの前記選択された行について、クラスの前記複数のシーケンスのうちのクラスに対応する前記大域クラスを記録するように構成される、テキスト分類装置。
【請求項4】
請求項に記載のテキスト分類装置であって、
前記分類は、前記信頼レベルが閾値よりも上であるならば、前記大域クラスに従って前記画像を分類するように構成される、テキスト分類装置。
【請求項5】
請求項に記載のテキスト分類装置であって、
前記分類は、前記信頼レベルが閾値よりも下であるならば、複数の大域クラスに従って前記画像を分類するように構成される、テキスト分類装置。
【請求項6】
請求項に記載のテキスト分類装置であって、
前記選択は、テキストの前記行のアスペクト比に基づいてテキストの前記行を選択するように構成される、テキスト分類装置。
【請求項7】
請求項に記載のテキスト分類装置であって、
前記テキストの前記方向に基づいて、ユーザに提示される前に画像の前記方向が修正される、テキスト分類装置。
【請求項8】
請求項に記載のテキスト分類装置であって、
テキストの複数のサンプルを含むデータセットを使用して前記クラスを認識するように訓練されたニューラル・ネットワークをさらに備える、テキスト分類装置。
【請求項9】
請求項に記載のテキスト分類装置であって、
前記データセットは、テキストの前記複数のサンプルの複数の方向を含む、テキスト分類装置。
【請求項10】
請求項に記載のテキスト分類装置であって、前記ニューラル・ネットワークは、
テキストの前記行の画像認識を実行するように構成された畳み込みニューラル・ネットワークと、
テキストの前記行のシーケンス認識を実行するように構成された再帰型ニューラル・ネットワークと、を含む、テキスト分類装置。
【請求項11】
請求項に記載のテキスト分類装置であって、
前記記録は、テキストの前記選択された行について、複数の大域クラスを記録するように構成され、前記複数の大域クラスのそれぞれの大域クラスは、クラスの前記シーケンスのうちのクラスに対応し、
前記分類部は、前記複数の大域クラスのそれぞれの信頼レベルに基づいて、前記複数の大域クラスに従って前記画像を分類するように構成される、テキスト分類装置。
【請求項12】
光学式文字認識装置であって、
キスト分類装置であって、
画像をテキストの複数の行にセグメント化するように構成さえたセグメント化部と、
テキストの前記複数の行からテキストの行を選択するように構成された選択部と、
テキストの前記選択された行に対応するクラスのシーケンスを識別するように構成された識別部であって、各クラスは、文字体系と方向との両方を含む、識別部と、
テキストの前記選択された行について、クラスの前記シーケンスのうちのクラスに対応する大域クラスを記録するように構成された記録部と、
前記大域クラスの信頼レベルに基づいて、前記大域クラスに従って前記画像を分類するように構成された分類部と、を備えるテキスト分類装置と、
前記画像を分類する前記大域クラスを適用することによって、前記画像に対して光学式文字認識を実行するように構成された光学式文字認識部と、を備える、光学式文字認識装置。
【請求項13】
テキスト分類方法であって、
画像をテキストの複数の行にセグメント化することと、
テキストの前記複数の行からテキストの行を選択することと、
テキストの前記選択された行に対応するクラスのシーケンスを識別することであって、各クラスは、文字体系と方向との両方を含む、ことと、
テキストの前記選択された行について、クラスの前記シーケンスのうちのクラスに対応する大域クラスを記録することと、
前記大域クラスの信頼レベルに基づいて、前記大域クラスに従って前記画像を分類することと、を有するテキスト分類方法。
【請求項14】
テキスト分類装置によって実行される場合に、前記テキスト分類装置にテキスト分類方法を実行させるプログラムであって、前記テキスト分類方法は、
画像をテキストの複数の行にセグメント化することと、
テキストの前記複数の行からテキストの行を選択することと、
テキストの前記選択された行に対応するクラスのシーケンスを識別することであって、各クラスは、文字体系と方向との両方を含む、ことと、
テキストの前記選択された行について、クラスの前記シーケンスのうちのクラスに対応する大域クラスを記録することと、
前記大域クラスの信頼レベルに基づいて、前記大域クラスに従って前記画像を分類することと、を有する、プログラム
【国際調査報告】