特開2022-160140 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社シナモンの特許一覧

特開2022-160140テキスト行認識装置、テキスト行認識方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022160140

(43)【公開日】2022-10-19

(54)【発明の名称】テキスト行認識装置、テキスト行認識方法およびプログラム

(51)【国際特許分類】

G06V 30/194 20220101AFI20221012BHJP

G06V 30/24 20220101ALI20221012BHJP

【ＦＩ】

G06V30/194

G06V30/24 620Z

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2021064701

(22)【出願日】2021-04-06

【新規性喪失の例外の表示】新規性喪失の例外適用申請有り

(71)【出願人】

【識別番号】519112818

【氏名又は名称】株式会社シナモン

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(72)【発明者】

【氏名】チュンジェンペン

(72)【発明者】

【氏名】ティンホアン

(72)【発明者】

【氏名】ホアングエン

(72)【発明者】

【氏名】フントラン

【テーマコード（参考）】

5B064

【Ｆターム（参考）】

5B064AB13

5B064AB14

5B064AB16

5B064DA10

5B064DA27

5B064EA39

(57)【要約】

【課題】画像ベースの表語文字を効率的に認識するためのテキスト行認識技術を提供する。
【解決手段】画像ベースの表語文字を効率的に認識するためのテキスト行認識技術が開示されている。本開示の１つの態様は、第１のサブネットワークを使用して画像ベースの表語文字を所定の語根のうちの１つ以上から構成される分解ツリーに分解するように構成される文字分解ユニットと、第２のサブネットワークを使用して分解ツリーからの画像ベースの表語文字に対応するテキストベースの表語文字を予測するように構成される文字予測ユニットとを含む、テキスト行認識装置に関する。
【選択図】図１

【特許請求の範囲】

【請求項1】

第１のサブネットワークを使用して画像ベースの表語文字を所定の語根のうちの１つ以上から構成される分解ツリーに分解するように構成される文字分解ユニットと、
第２のサブネットワークを使用して前記分解ツリーから前記画像ベースの表語文字に対応するテキストベースの表語文字を予測するように構成される文字予測ユニットと、を含む、
テキスト行認識装置。

【請求項2】

前記画像ベースの表語文字は、ラテン語アルファベット、数字、中国語文字または日本語文字を含む、請求項１に記載のテキスト行認識装置。

【請求項3】

前記第１のサブネットワークは、前記画像ベースの表語文字のための特徴マップを生成するための畳み込みネットワークを含む、請求項１に記載のテキスト行認識装置。

【請求項4】

前記第１のサブネットワークは、前記特徴マップから前記所定の語根のそれぞれの発生確率を表す語根確率情報を生成するためのリカレントニューラルネットワークを含む、請求項１に記載のテキスト行認識装置。

【請求項5】

前記第２のサブネットワークは、前記語根確率情報のための特徴マップを生成するための畳み込みネットワークを含む、請求項４に記載のテキスト行認識装置。

【請求項6】

前記第２のサブネットワークは、前記特徴マップから表語文字のそれぞれの発生確率を表す文字確率情報を生成するためのリカレントニューラルネットワークを含む、請求項５に記載のテキスト行認識装置。

【請求項7】

コンピュータによって実装されるテキスト行認識方法であって、
第１のサブネットワークを使用して画像ベースの表語文字を所定の語根のうちの１つ以上から構成される分解ツリーに分解するステップと、
第２のサブネットワークを使用して前記分解ツリーから前記画像ベースの表語文字に対応するテキストベースの表語文字を予測するステップと、を含む、
テキスト行認識方法。

【請求項8】

コンピュータに、
第１のサブネットワークを使用して画像ベースの表語文字を所定の語根のうちの１つ以上から構成される分解ツリーに分解する動作と、
第２のサブネットワークを使用して前記分解ツリーから前記画像ベースの表語文字に対応するテキストベースの表語文字を予測する動作と、を実行させる、
プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、テキスト行認識(text line recognition)装置、テキスト行認識方法およびプログラムに関する。

【背景技術】

【0002】

文書(document)分析における必須フェーズである光学文字認識（ＯＣＲ：optical charchari recognition）は、デジタル化された画像からテキストコンテンツを転写することを目的としている。多くのタイプのデータの中でも、オフライン手書き表語文字（ＯＨＬ：offline handwriting logographic）テキスト行(テキストライン)は、そのようなタスクのための最も困難な入力の１つである。文献における最近の発展は、機械学習（ＭＬ：machine learning）のサブフィールドである深層学習（ＤＬ：deep learning）が最先端のアプローチであることを示している。それらは、特徴エンジニアリングを行うＭＬ法と比較して性能を向上させたが、課題は未解決のままである。

【0003】

ＯＨＬテキスト行認識のためのＤＬ技法の開発には、２つの主要な段階、すなわち、表語文字(logographic character)エンコーディングおよびＤＬアーキテクチャ構築がある。中国語および日本語スクリプトのような表語文字システム(logographic system)は、膨大な数の文字を有するので、それらを効果的に符号化する(encode)ことが重要である。最も素朴なアプローチは、ロググラム(logograms)のサブセットを選択し、ワンホットスキーム(one-hot scheme)を使用してそれらを符号化することである。しかしながら、そのようなアプローチは、ロググラムの意味関係を捉えることができない。

【0004】

倉頡(Cangjie)および表意文字記述シーケンス（ＩＤＳ：Ideographic Description Sequence）のような、表語文字のための幾つかの入力方法が出現している。朱邦復(Chu Bong-Foo)が１９７６年に発明した倉頡入力方法は、ＱＷＥＲＴＹキーボードに適用されることが意図された最初の中国語入力方法であった。入力方法は、５の最大長を持つアルファベットストリング(alphabet string)によって各表語文字を符号化する形状ベースのアプローチである。それにもかかわらず、それはその限定的な数の基礎要素（２６キー／アルファベット文字）のために全単射(bijection)マッピングを行うことができない。曖昧さを解決するために、それは重複コードを手動で選択するオプションをユーザに与える。

【0005】

他方、ＩＤＳは、表意記述文字（ＩＤＣ：ideographic description characters））および記述文字（ＤＣ：description character）から構成される別の符号化方法である。ＩＤＣおよびＤＣを用いるならば、ＩＤＳは、あらゆる表語文字の構成要素のための全ての可能なレイアウトを記述することができる。しかしながら、ＩＤＳ方法は、任意の表語文字を基礎的な基本ストロークに完全に分解するので、符号化されたストリング長は実質的に変化し、それは訓練において効率的でない。その上、２つの前述の入力方法は、表語文字をサポートするにすぎない。アルファベットおよび数字コンテンツは考慮されない。しかしながら、混在したタイプのテキストを持つ文書を有することは一般的である。

【0006】

加えて、表語文字デコーダからの意味データを利用するだけでなく、それらの基礎的な要素を元の表語文字に自動的に変換する、エンドツーエンドＤＬ訓練フレームワークを持つことが不可欠である。文献中の研究は、表語文字または基礎要素（すなわち、倉頡におけるアルファベット文字、またはＩＤＳにおける語根(radicals)もしくは基本ストローク）のいずれかを直接的に予測することを目的としている。後者の場合、それらの要素を元の表語文字に変換するために後処理ステップが必要とされる。各基礎要素を予測することはより容易であるが、テキスト行全体についての高性能を達成することは遙かに難しい。何故ならば、符号化されたストリングは、元のストリングよりもずっと長いからである。更に、そのようなアプローチにおけるそれらのモデルは、対応する表語文字を持たない無意味な基礎ストリングを予測することがある。

【先行技術文献】

【非特許文献】

【0007】

【非特許文献1】https://github.com/Jackchows/Cangjie5

【0008】

【非特許文献2】https://github.com/cjkvi/cjkvi-ids

【発明の概要】

【発明が解決しようとする課題】

【0009】

上記問題に照らして、本開示の１つの目的は、画像ベースの表語文字を効率的に認識するためのテキスト行認識技術を提供することである。

【課題を解決するための手段】

【0010】

本開示の１つの態様は、画像ベースの表語文字を所定の語根のうちの１つ以上から構成される分解ツリーに分解するために第１のサブネットワークを使用するように構成される文字分解ユニットと、分解ツリーから画像ベースの表語文字に対応するテキストベースの表語文字を予測するために第２のサブネットワークを使用するように構成される文字予測ユニットとを含む、テキスト行認識装置に関する。

【図面の簡単な説明】

【0011】

【図1】本開示の一実施形態によるテキスト行認識装置の例示的な機能的構成を図示するブロック図である。

【図2】（Ａ）及び（Ｂ）は、本開示の一実施形態による例示的な従来のＩＤＳ符号化および例示的な分解を図示する概略図である。

【図3】本開示の一実施形態による表語文字の例示的な分解を図示するフローチャート図である。

【図4】本開示の一実施形態によるテキスト行認識装置の訓練プロセスを図示する概略図である。

【図5】本開示の一実施形態によるテキスト行認識装置の推論プロセスを図示する概略図である。

【図6】本開示の一実施形態による文字再構成のための変換モジュールのサブネットワークを図示するための概略図である。

【図7】本開示の一実施形態によるテキスト行認識装置の例示的なハードウェア構成を図示するブロック図である。

【発明を実施するための形態】

【0012】

本開示の実施形態は、図面を参照して以下に記載される。

【0013】

以下の実施形態では、ラテン語アルファベット、数字、中国語文字、および日本語文字を符号化することができる符号化(encoding)方法、ならびにデジタル化された画像からそれらのスクリプトのコンテンツ(内容)を転写するためのテキスト行認識(text line recognition)装置が開示される。

【0014】

本開示の第１の例示的な目的は、中国語、日本語、アルファベットおよび数字を統一的な方法で符号化することができる、拡張された表語文字全単射符号化方法(logographic bijection encoding method)を提供することである。この目的を達成するために、上記タイプに属する各入力文字は、本開示を通じて分解ツリー(decomposition tree)と呼ばれるツリー構造(tree structure)として表現されることができる一意的なシーケンスに分解されることがある。日本語の平仮名、日本語の片仮名、アルファベット文字または数字の各々について、単一の層を有する対応するツリーが形成されることがある。中国語文字または日本語の漢字の各々について、少なくとも１つの層を有する対応するツリー(木)が形成されてよい。ツリーの各ノードは、位置要素(positional element)または基礎文字(fundamental characters)を表す。分解方法は、所定の文字セット中にある基礎文字に達するまで、ツリーの各内部ノードから分枝(branches)を分割する。

【0015】

また、本開示の第２の例示的な目的は、デジタル化された画像から中国語、日本語、アルファベット、数字コンテンツを転写することができる、テキスト行認識装置を提供することである。この目的を達成するために、テキスト行認識装置は、表語文字コンテンツおよび分解されたコンテンツからエンドツーエンド式に(end-to-end)学習されるべきモデルを含んで、両方のタイプの出力コンテンツを同時に生成するように設計される。

【0016】

訓練プロセスにおいて、入力データの各バッチは、デジタル化された画像およびそれらの対応するグラウンドトルース(ground truth)コンテンツを含む。第１に、第１の目的における符号化方法は、コンテンツを符号化されたシーケンスの一意的なシーケンスに分解する。次に、ニューラルネットワークまたは学習可能な非線形モデルが、入力画像の視覚的特徴(visual features)を抽出する。続いて、それらの抽出された特徴を使用して、基礎要素を予測し、別のニューラルネットワークまたは学習可能な非線形モデルについての入力の役割を果たして、表語文字を予測する。２つの逐次損失の加重和は、逆方向伝搬(backward propagation)が勾配の形態にあるフィードバックを予測される両方の分枝に即座に送ることを保証する。

【0017】

次に、推論プロセス(inference process)において、前述のセットアップは、基礎的レベルおよび全表語文字レベルの両方で、入力されるデジタル化された画像のコンテンツを生成することができる。

【0018】

本開示の概要では、テキスト行認識装置が、文字分解方法を使用して、テキスト行画像のような入ってくる画像内の視覚的な表語文字を所定の語根(radicals))の１つ以上に分解する（並びに分解された語根を認識する）。所定の語根は、２１４語根の康熙(Kangxi)辞典、１１５語根のＣＪＫ（中国語－日本語－韓国語）辞典、ならびに日本語の平仮名および片仮名のような、語根のセットから構成されることがある。次に、テキスト行認識装置におけるニューラルネットワークを訓練して、分解された語根シーケンスおよび元の文字の両方を認識し、且つ認識される語根から表語文字をテキストデータとして再構成する。

【0019】

このようにして、テキスト行認識装置は、各表語文字を語根の組成として扱うことができ、ニューラルネットワークを使用して、より単純な形状を有する語根をより良く認識し、且つ語根シーケンスにおける意味論的な意味を利用することによってテキスト行(テキストライン)を再構築することができる。語彙検索空間(vocabulary search space)は、（空間効率的な方法において）要素のより小さなセットから学習することによって視覚的な表語文字を認識するために、数千の中国語文字のセット全体からわずか数百の語根にまで減らされることができる。また、場合によっては使用頻度の低い文字を含む中国語文字セット全体についての訓練データを準備する代わりに、ニューラルネットワークは、より少ない数の手書き訓練データで訓練されることができる。何故ならば、各語根は、複数の文字で現れることができるからである。

【0020】

（テキスト行認識装置）
先ず、本開示の１つの実施形態によるテキスト行認識装置１００が、図１～図６を参照して記載される。図１は、本開示の１つの実施形態によるテキスト行認識装置の機能的構成を図示するブロック図である。

【0021】

図１に図示するように、テキスト行認識装置１００は、文字分解ユニット１１０と、テキスト行認識ユニット１２０とを含む。

【0022】

文字分解ユニット１１０は、第１のサブネットワークを使用して、画像ベースの表語文字を所定の語根のうちの１つ以上からなる分解ツリーに分解する。以下に記載する実施形態において、画像ベースの表語文字は、ラテン語アルファベット、数字、中国語文字または日本語文字を含んでよい。

【0023】

表語文字について、４つのレベル、すなわち、文字(character)、語根(radical)、基本構成要素(basic component)および字画(stroke)の分解がある。文字は、意味論的または音声的な意味を持つより小さな文字に分解されることができる。語根は、意味論的な意味を持つ基本単位(basic unit)である。基本構成要素は、字画よりも大きいが意味論的な意味のない中間単位である。最終的に、全ての中国語文字、語根、および構成要素の全てが、８つの基本字画に分解されることができる。

【0024】

関心のある文字を語根に分解した後に、文字分解ユニット１１０は、図２（Ａ）に図示するような基本構成要素レベルおよび字画レベルのようなより細かいレベルへの分解に更に進むことなく、図２（Ｂ）に図示するように分解を停止する。グラウンドトルース(ground truth)語根は、２１４の語根から構成される康熙辞典、または１１５の語根から構成されるＣＪＫ辞典であってよい。文字分解ユニット１１０は、日本語の平仮名文字およびカタカナ文字を、反復的な仮名構成要素ならびに追加的な濁点および半濁点に分解することもある。入ってくる文字が英数字(alphanumeric character)であるならば、文字分解ユニット１１０は、入ってくる文字をそのまま力してよい。

【0025】

１つの実施形態において、文字分解ユニット１１０は、画像ベースの表語文字のための特徴マップ(feature map)を生成するための畳み込みニューラルネットワーク(convolutional neural network)として実装されるサブネットワークを含んでよい。代替的に、文字分解ユニット１１０は、特徴マップから所定の語根のそれぞれの発生確率を表す語根確率情報を生成するためのリカレントニューラルネットワーク(recurrent neural network)として実装されるサブネットワークを含んでよい。

【0026】

例えば、文字分解ユニット１１０は、図２に図示する一例のように、入力表語文字を語根ベースのグラウンドトルースに分解する全単射機能として機能する。具体的には、ユーザからの１つ以上の表語文字の日本語文字または中国語文字を含む一行の手書き文字から構成される入ってくるテキスト行画像を受信した後に、文字分解ユニット１１０は、入力テキスト内の各文字を、図３を参照して以下に述べるような例示的な論理フローチャートに従って分解する。

【0027】

図３は、漢字のための分解プロセスを図示している。先ず、文字は、その文字が語根セット中の語根であるかどうかをチェックするために、条件文を通る（Ｓ３０１）。語根セットは、康熙辞典中の２１４のユニコード語根とＣＪＫ（中国語－日本語－韓国語）辞典中の１１５のユニコード語根とからなる。文字が語根であるならば、それは関数によって分解シーケンスに加えられる（Ｓ３０２）。

【0028】

その文字が条件文の後に語根セットに含まれていないならば（Ｓ３０１）、その文字は、その文字が等価な表意文字辞典に含まれているかどうかをチェックするために、条件文Ｓ３０３を通る（Ｓ３０３）。等価な表意文字辞典は、類似のユニコード字画または構成要素を専用の表意文字ユニコードにマッピングする。これは分解シーケンス内の同一または類似の要素について異なるコーディングを有することを防止する。その文字が等価な辞典中にあるならば、その文字は等価な文字と置き換えらる。等価な文字は、前述のように、等価な文字が語根セット中の語根であるかどうかをチェックするために、条件文を通る（Ｓ３０４）。その文字が語根であるならば、その文字は関数によって分解シーケンスに加えられる（Ｓ３０５）。

【0029】

その文字が条件文の後に等価な表意辞典中にないならば（Ｓ３０３）、あるいは置き換えられた等価な文字が条件文の後に語根セット中にないならば（Ｓ３０４）、文字はＩＤＳ辞典中のその分解ＩＤＳシーケンスにマッピングされる。

【0030】

ＩＤＳシーケンスが条件文中の文字のみを含むならばＳ３０６、分解は終了する。基礎文字は、その文字が等価な表意文字辞典中にあるかどうかをチェックするために、条件文を通る（Ｓ３０７）。基礎文字が等価な文字辞典中にあるならば、基礎文字は、等価な文字と置き換えられ、関数によって分解シーケンスに加えられる（Ｓ３０８）。基礎文字が等価な文字辞典中にないならば、それは関数によって分解シーケンスに直接的に加えられる（Ｓ３０９）。

【0031】

ＩＤＳシーケンスが条件文中の文字のみを含んでいないならば（Ｓ３０６）、ＩＤＳシーケンス中の各文字は、分解シーケンス中にそれ以上の文字がないまで、上記論理の全てを通る。

【0032】

テキスト行認識ユニット１２０は、第２のサブネットワークを使用して、分解ツリーからの画像ベースの表語文字に対応するテキストベースの表語文字を予測する。テキスト行認識ユニット１２０は、元の文字ラベルと文字分解ユニット１１０によって生成される対応する符号化されたシーケンスとの両方を利用して、デジタル化された画像コンテンツを転写するモデルを学習する。文字認識動作は、テキスト行認識ユニット１２０として機能するニューラルネットワークを含むテキスト行認識装置１００で実装されてよい。本開示の１つの実施形態によるニューラルネットワークは、図４および図５に図示するように、１つの例示的なアーキテクチャで実装されてよい。１つの実施形態において、テキスト行認識ユニット１２０は、語根確率情報のための特徴マップを生成するための畳み込みニューラルネットワークとして実装されるサブネットワークを含んでよい。代替的に、テキスト行認識ユニット１２０は、特徴マップからの表語文字のそれぞれの発生確率を表す文字確率情報を生成するためのリカレントニューラルネットワークとして実装されるサブネットワークを含んでよい。例えば、ニューラルネットワークは、各々が機能ユニットの少なくとも１つまたは一部として機能する幾つかのサブネットワーク、すなわち、視覚的特徴抽出器、逐次デコーダおよび変換モジュールから構成される。

【0033】

（訓練プロセス）
本開示の１つの実施形態によるテキスト行認識装置１００の訓練フェーズを図４中のフローチャートに記載することができる。訓練データセットは、入力画像(input images)と、ラベル(label)としての対応する入力テキスト(input texts)とから構成される。

【0034】

ステップＳ４０１で、入力テキストが与えられると、文字分解ユニット１１０は、各表語文字を分解し、語根ベースのグラウンドトルースを生成する。語根ベースのグラウンドトルースは、ステップＳ４０５において逐次損失(sequential loss)を計算するためにテキスト行認識ユニット１２０に提供される。

【0035】

ステップＳ４０２で、入力画像のバッチが与えられると、テキスト行認識ユニット１２０は、視覚的特徴抽出器(visual feature extractor)として機能するサブネットワークから特徴マップを取得する。１つの実施形態において、視覚的特徴抽出器は、畳み込みニューラルネットワーク（ＣＮＮ）で実装されてよい。しかしながら、本開示による視覚的特徴抽出器は、このタイプのＣＮＮアーキテクチャに限定されるものでなく、任意の他の適切なタイプのモデルまたはデバイスで実現されてよい。

【0036】

ステップＳ４０３で、テキスト行認識ユニット１２０は、視覚的特徴マップから符号化ベースの特徴マップを生成するために、逐次デコーダ(sequential decoder)としてサブネットワークを使用する。符号化ベースの特徴マップは、語根の発生確率を表す。１つの実施形態において、逐次デコーダは、双方向ゲート反復単位（ＢＧＲＵ：bidirectional Gated Recurrent Units）のようなリカレントニューラルネットワーク（ＲＮＮ：Recurrent Neural Networks）で実装されてよい。しかしながら、本開示による逐次デコーダは、このタイプのアーキテクチャに限定されるものでなく、長短期メモリ（ＬＳＴＭ：Long Short-Term Memory）ネットワークまたは時間畳み込みネットワーク（ＴＣＮ：Temporal Convolutional Network）のような、任意の他の適切なタイプのＲＮＮで実装されてよい。

【0037】

ステップＳ４０４で、テキスト行認識ユニット１２０は、変換モジュールとしてサブネットワークを使用して、符号化ベースの特徴マップから文字ベースの特徴マップを生成する。文字ベースの特徴マップは、表語文字の発生確率を表す。１つの実施形態において、変換モジュールは、図６のブロック図に詳細に示すように、一次元ＣＮＮの第１のサブネットワークおよび逐次デコーダとしての第２のサブネットワークで実装されてよい。

【0038】

図６に図示するように、変換モジュール中の第１のサブネットワークは、異なるフィルタサイズを有する並列畳み込み層から構成される。変換モジュールの第１のサブネットワークが符号化ベースの特徴マップから新しいテンソル(tensors)を生成した後に、変換モジュールは、それらを逐次デコーダの第２のサブネットワークに入力として送る前に、特徴マップを連結するための機能モジュールを取得してよい。変換モジュールは、生成された特徴マップを第２のサブネットワークに提供する。変換モジュールの１つの実施形態において、変換モジュール中の第２のサブネットワークは、双方向ＧＲＵから構成され、文字ベースの確率行列は、第１のサブネットワークから受信される特徴マップから生成される。この双方向ＧＲＵは、逐次デコーダ内のアーキテクチャと同じアーキテクチャを有してよい。しかしながら、本開示による変換モジュールの第１および第２のサブネットワークは、このタイプのアーキテクチャに限定されるものでなく、長短期メモリ（ＬＳＴＭ）ネットワークまたは時間畳み込みネットワーク（ＴＣＮ）のような、任意の他の適切なタイプの逐次ネットワークで実装されてよい。

【0039】

ステップＳ４０５で、テキスト行認識ユニット１２０は、２つの逐次損失を計算する。具体的には、入力画像および対応する入力テキストを受信した後に、テキスト行認識ユニット１２０は、２つのシーケンスの予測、すなわち、符号化ベースの予測および文字ベースの予測を生成する。符号化ベースの予測は、文字分解ユニット１１０によって生成される語根ベースのグラウンドトルースと比較される。文字ベースの予測は、元の入力テキストと比較される。符号化ベースの予測と語根ベースのグラウンドトルースとの間の差および文字ベースの予測と入力テキストとの間の差に対応する２つの逐次損失が計算される。テキスト行認識装置１００は、テキスト行認識ユニット１２０の重みを調整して、２つの逐次損失を最小限に抑え、それによって、符号化ベースの予測と語根ベースのグラウンドトルースとの間の差および文字ベースの予測と入力テキストとの間の差を最小限に抑える。ニューラルネットワークをエンドツーエンド式に訓練する過程において、サブネットワークも訓練されることがある。

【0040】

他の実施形態において、サブネットワークは、事前に訓練されてよく、次に、エンドツーエンド訓練を通じてニューラルネットワークに対して微調整されてよい。

【0041】

しかしながら、本開示によるニューラルネットワークの訓練動作は、上記に限定されるものでなく、任意の他の適切な訓練動作が適用されてよい。例えば、サブネットワークのうちの１つ以上は、予め訓練されてよく、予め訓練されるサブネットワークを含むニューラルネットワークのためのパラメータは、任意の訓練データで微調整されてよい。

【0042】

（推論プロセス）
図５に図示する推論フェーズの間に、テキスト行認識ユニット１２０は、入力画像に対応する符号化ベースの予測および文字ベースの予測の２つのシーケンスを予測する。詳細には、先ず、入力画像を視覚的特徴抽出器Ｓ５０１に通すことによって入力画像の特徴を抽出する。次に、逐次デコーダ５０２は、視覚的特徴を、入力テキスト行のＸ軸に亘る語根ベースの特徴を取り込む(キャプチャする)特徴マップのシーケンスに変換する。この目的を達成するために、派生した逐次特徴マップが、２つのプロセスの入力として使用される。同時に、それらからの語根文字を予測し、変換モジュールＳ５０３を通じてそれらを転送して、文字ベースの特徴を取得し、文字ベースの特徴は、引き続き、文字を予測するために利用される。文字分解ユニット１１０によって復号化される文字ベースの予測または語根ベースの予測は、入力画像内の表語文字シーケンスを記述する出力テキストとしてユーザに提供される。

【0043】

（ハードウェア構成）
図７は、本開示の１つの実施形態によるテキスト行認識装置１００のハードウェア構成のブロック図である。図示のように、テキスト行認識装置１００は、ＣＰＵ（中央処理装置）およびＧＰＵ（グラフィックス処理装置）のようなプロセッサ７０１と、メモリ７０２と、ハードディスク７０３と、入出力（Ｉ／Ｏ）インターフェース７０４とを備える、ハードウェア構成を有してよい。

【0044】

プロセッサ７０１は、上述のようなテキスト行認識装置１００のための様々な動作を行う。

【0045】

メモリ７０２は、テキスト行認識装置１００のための様々なデータおよびプログラムを一時的に格納するための作業メモリとして機能する。

【0046】

ハードディスク７０３は、テキスト行認識装置１００のための様々なデータおよびプログラムを格納する。

【0047】

Ｉ／Ｏインターフェース７０４は、外部デバイスからの入力データおよび外部デバイスへの出力データのためのインターフェースであり、ＵＳＢ（ユニバーサルシリアルバス）、通信回線、キーボード、マウス、ディスプレイまたは同等物のような、データを入出力するためのデバイスであってよい。

【0048】

しかしながら、本開示によるテキスト行認識装置１００は、上述のハードウェア構成に限定されるものでなく、任意の他の適切なハードウェア構成を有してよい。例えば、テキスト行認識装置１００による上記動作の一部または全部は、それらを実装するために配線接続されることがある処理回路または電子回路で実装されてよい。

【0049】

本開示の特定の実施形態を詳細に記載したが、本開示は上記特定の実施形態に限定されるものでなく、特許請求の範囲に定義されるような本開示の範囲内で様々な修正および変形を行うことができる。