IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社シナモンの特許一覧

特開2022-160140テキスト行認識装置、テキスト行認識方法およびプログラム
<>
  • 特開-テキスト行認識装置、テキスト行認識方法およびプログラム 図1
  • 特開-テキスト行認識装置、テキスト行認識方法およびプログラム 図2
  • 特開-テキスト行認識装置、テキスト行認識方法およびプログラム 図3
  • 特開-テキスト行認識装置、テキスト行認識方法およびプログラム 図4
  • 特開-テキスト行認識装置、テキスト行認識方法およびプログラム 図5
  • 特開-テキスト行認識装置、テキスト行認識方法およびプログラム 図6
  • 特開-テキスト行認識装置、テキスト行認識方法およびプログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022160140
(43)【公開日】2022-10-19
(54)【発明の名称】テキスト行認識装置、テキスト行認識方法およびプログラム
(51)【国際特許分類】
   G06V 30/194 20220101AFI20221012BHJP
   G06V 30/24 20220101ALI20221012BHJP
【FI】
G06V30/194
G06V30/24 620Z
【審査請求】未請求
【請求項の数】8
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2021064701
(22)【出願日】2021-04-06
【新規性喪失の例外の表示】新規性喪失の例外適用申請有り
(71)【出願人】
【識別番号】519112818
【氏名又は名称】株式会社シナモン
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】チュンジェン ペン
(72)【発明者】
【氏名】ティン ホアン
(72)【発明者】
【氏名】ホアン グエン
(72)【発明者】
【氏名】フン トラン
【テーマコード(参考)】
5B064
【Fターム(参考)】
5B064AB13
5B064AB14
5B064AB16
5B064DA10
5B064DA27
5B064EA39
(57)【要約】
【課題】画像ベースの表語文字を効率的に認識するためのテキスト行認識技術を提供する。
【解決手段】画像ベースの表語文字を効率的に認識するためのテキスト行認識技術が開示されている。本開示の1つの態様は、第1のサブネットワークを使用して画像ベースの表語文字を所定の語根のうちの1つ以上から構成される分解ツリーに分解するように構成される文字分解ユニットと、第2のサブネットワークを使用して分解ツリーからの画像ベースの表語文字に対応するテキストベースの表語文字を予測するように構成される文字予測ユニットとを含む、テキスト行認識装置に関する。
【選択図】図1
【特許請求の範囲】
【請求項1】
第1のサブネットワークを使用して画像ベースの表語文字を所定の語根のうちの1つ以上から構成される分解ツリーに分解するように構成される文字分解ユニットと、
第2のサブネットワークを使用して前記分解ツリーから前記画像ベースの表語文字に対応するテキストベースの表語文字を予測するように構成される文字予測ユニットと、を含む、
テキスト行認識装置。
【請求項2】
前記画像ベースの表語文字は、ラテン語アルファベット、数字、中国語文字または日本語文字を含む、請求項1に記載のテキスト行認識装置。
【請求項3】
前記第1のサブネットワークは、前記画像ベースの表語文字のための特徴マップを生成するための畳み込みネットワークを含む、請求項1に記載のテキスト行認識装置。
【請求項4】
前記第1のサブネットワークは、前記特徴マップから前記所定の語根のそれぞれの発生確率を表す語根確率情報を生成するためのリカレントニューラルネットワークを含む、請求項1に記載のテキスト行認識装置。
【請求項5】
前記第2のサブネットワークは、前記語根確率情報のための特徴マップを生成するための畳み込みネットワークを含む、請求項4に記載のテキスト行認識装置。
【請求項6】
前記第2のサブネットワークは、前記特徴マップから表語文字のそれぞれの発生確率を表す文字確率情報を生成するためのリカレントニューラルネットワークを含む、請求項5に記載のテキスト行認識装置。
【請求項7】
コンピュータによって実装されるテキスト行認識方法であって、
第1のサブネットワークを使用して画像ベースの表語文字を所定の語根のうちの1つ以上から構成される分解ツリーに分解するステップと、
第2のサブネットワークを使用して前記分解ツリーから前記画像ベースの表語文字に対応するテキストベースの表語文字を予測するステップと、を含む、
テキスト行認識方法。
【請求項8】
コンピュータに、
第1のサブネットワークを使用して画像ベースの表語文字を所定の語根のうちの1つ以上から構成される分解ツリーに分解する動作と、
第2のサブネットワークを使用して前記分解ツリーから前記画像ベースの表語文字に対応するテキストベースの表語文字を予測する動作と、を実行させる、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、テキスト行認識(text line recognition)装置、テキスト行認識方法およびプログラムに関する。
【背景技術】
【0002】
文書(document)分析における必須フェーズである光学文字認識(OCR:optical charchari recognition)は、デジタル化された画像からテキストコンテンツを転写することを目的としている。多くのタイプのデータの中でも、オフライン手書き表語文字(OHL:offline handwriting logographic)テキスト行(テキストライン)は、そのようなタスクのための最も困難な入力の1つである。文献における最近の発展は、機械学習(ML:machine learning)のサブフィールドである深層学習(DL:deep learning)が最先端のアプローチであることを示している。それらは、特徴エンジニアリングを行うML法と比較して性能を向上させたが、課題は未解決のままである。
【0003】
OHLテキスト行認識のためのDL技法の開発には、2つの主要な段階、すなわち、表語文字(logographic character)エンコーディングおよびDLアーキテクチャ構築がある。中国語および日本語スクリプトのような表語文字システム(logographic system)は、膨大な数の文字を有するので、それらを効果的に符号化する(encode)ことが重要である。最も素朴なアプローチは、ロググラム(logograms)のサブセットを選択し、ワンホットスキーム(one-hot scheme)を使用してそれらを符号化することである。しかしながら、そのようなアプローチは、ロググラムの意味関係を捉えることができない。
【0004】
倉頡(Cangjie)および表意文字記述シーケンス(IDS:Ideographic Description Sequence)のような、表語文字のための幾つかの入力方法が出現している。朱邦復(Chu Bong-Foo)が1976年に発明した倉頡入力方法は、QWERTYキーボードに適用されることが意図された最初の中国語入力方法であった。入力方法は、5の最大長を持つアルファベットストリング(alphabet string)によって各表語文字を符号化する形状ベースのアプローチである。それにもかかわらず、それはその限定的な数の基礎要素(26キー/アルファベット文字)のために全単射(bijection)マッピングを行うことができない。曖昧さを解決するために、それは重複コードを手動で選択するオプションをユーザに与える。
【0005】
他方、IDSは、表意記述文字(IDC:ideographic description characters))および記述文字(DC:description character)から構成される別の符号化方法である。IDCおよびDCを用いるならば、IDSは、あらゆる表語文字の構成要素のための全ての可能なレイアウトを記述することができる。しかしながら、IDS方法は、任意の表語文字を基礎的な基本ストロークに完全に分解するので、符号化されたストリング長は実質的に変化し、それは訓練において効率的でない。その上、2つの前述の入力方法は、表語文字をサポートするにすぎない。アルファベットおよび数字コンテンツは考慮されない。しかしながら、混在したタイプのテキストを持つ文書を有することは一般的である。
【0006】
加えて、表語文字デコーダからの意味データを利用するだけでなく、それらの基礎的な要素を元の表語文字に自動的に変換する、エンドツーエンドDL訓練フレームワークを持つことが不可欠である。文献中の研究は、表語文字または基礎要素(すなわち、倉頡におけるアルファベット文字、またはIDSにおける語根(radicals)もしくは基本ストローク)のいずれかを直接的に予測することを目的としている。後者の場合、それらの要素を元の表語文字に変換するために後処理ステップが必要とされる。各基礎要素を予測することはより容易であるが、テキスト行全体についての高性能を達成することは遙かに難しい。何故ならば、符号化されたストリングは、元のストリングよりもずっと長いからである。更に、そのようなアプローチにおけるそれらのモデルは、対応する表語文字を持たない無意味な基礎ストリングを予測することがある。
【先行技術文献】
【非特許文献】
【0007】
【非特許文献1】https://github.com/Jackchows/Cangjie5
【0008】
【非特許文献2】https://github.com/cjkvi/cjkvi-ids
【発明の概要】
【発明が解決しようとする課題】
【0009】
上記問題に照らして、本開示の1つの目的は、画像ベースの表語文字を効率的に認識するためのテキスト行認識技術を提供することである。
【課題を解決するための手段】
【0010】
本開示の1つの態様は、画像ベースの表語文字を所定の語根のうちの1つ以上から構成される分解ツリーに分解するために第1のサブネットワークを使用するように構成される文字分解ユニットと、分解ツリーから画像ベースの表語文字に対応するテキストベースの表語文字を予測するために第2のサブネットワークを使用するように構成される文字予測ユニットとを含む、テキスト行認識装置に関する。
【図面の簡単な説明】
【0011】
図1】本開示の一実施形態によるテキスト行認識装置の例示的な機能的構成を図示するブロック図である。
図2】(A)及び(B)は、本開示の一実施形態による例示的な従来のIDS符号化および例示的な分解を図示する概略図である。
図3】本開示の一実施形態による表語文字の例示的な分解を図示するフローチャート図である。
図4】本開示の一実施形態によるテキスト行認識装置の訓練プロセスを図示する概略図である。
図5】本開示の一実施形態によるテキスト行認識装置の推論プロセスを図示する概略図である。
図6】本開示の一実施形態による文字再構成のための変換モジュールのサブネットワークを図示するための概略図である。
図7】本開示の一実施形態によるテキスト行認識装置の例示的なハードウェア構成を図示するブロック図である。
【発明を実施するための形態】
【0012】
本開示の実施形態は、図面を参照して以下に記載される。
【0013】
以下の実施形態では、ラテン語アルファベット、数字、中国語文字、および日本語文字を符号化することができる符号化(encoding)方法、ならびにデジタル化された画像からそれらのスクリプトのコンテンツ(内容)を転写するためのテキスト行認識(text line recognition)装置が開示される。
【0014】
本開示の第1の例示的な目的は、中国語、日本語、アルファベットおよび数字を統一的な方法で符号化することができる、拡張された表語文字全単射符号化方法(logographic bijection encoding method)を提供することである。この目的を達成するために、上記タイプに属する各入力文字は、本開示を通じて分解ツリー(decomposition tree)と呼ばれるツリー構造(tree structure)として表現されることができる一意的なシーケンスに分解されることがある。日本語の平仮名、日本語の片仮名、アルファベット文字または数字の各々について、単一の層を有する対応するツリーが形成されることがある。中国語文字または日本語の漢字の各々について、少なくとも1つの層を有する対応するツリー(木)が形成されてよい。ツリーの各ノードは、位置要素(positional element)または基礎文字(fundamental characters)を表す。分解方法は、所定の文字セット中にある基礎文字に達するまで、ツリーの各内部ノードから分枝(branches)を分割する。
【0015】
また、本開示の第2の例示的な目的は、デジタル化された画像から中国語、日本語、アルファベット、数字コンテンツを転写することができる、テキスト行認識装置を提供することである。この目的を達成するために、テキスト行認識装置は、表語文字コンテンツおよび分解されたコンテンツからエンドツーエンド式に(end-to-end)学習されるべきモデルを含んで、両方のタイプの出力コンテンツを同時に生成するように設計される。
【0016】
訓練プロセスにおいて、入力データの各バッチは、デジタル化された画像およびそれらの対応するグラウンドトルース(ground truth)コンテンツを含む。第1に、第1の目的における符号化方法は、コンテンツを符号化されたシーケンスの一意的なシーケンスに分解する。次に、ニューラルネットワークまたは学習可能な非線形モデルが、入力画像の視覚的特徴(visual features)を抽出する。続いて、それらの抽出された特徴を使用して、基礎要素を予測し、別のニューラルネットワークまたは学習可能な非線形モデルについての入力の役割を果たして、表語文字を予測する。2つの逐次損失の加重和は、逆方向伝搬(backward propagation)が勾配の形態にあるフィードバックを予測される両方の分枝に即座に送ることを保証する。
【0017】
次に、推論プロセス(inference process)において、前述のセットアップは、基礎的レベルおよび全表語文字レベルの両方で、入力されるデジタル化された画像のコンテンツを生成することができる。
【0018】
本開示の概要では、テキスト行認識装置が、文字分解方法を使用して、テキスト行画像のような入ってくる画像内の視覚的な表語文字を所定の語根(radicals))の1つ以上に分解する(並びに分解された語根を認識する)。所定の語根は、214語根の康熙(Kangxi)辞典、115語根のCJK(中国語-日本語-韓国語)辞典、ならびに日本語の平仮名および片仮名のような、語根のセットから構成されることがある。次に、テキスト行認識装置におけるニューラルネットワークを訓練して、分解された語根シーケンスおよび元の文字の両方を認識し、且つ認識される語根から表語文字をテキストデータとして再構成する。
【0019】
このようにして、テキスト行認識装置は、各表語文字を語根の組成として扱うことができ、ニューラルネットワークを使用して、より単純な形状を有する語根をより良く認識し、且つ語根シーケンスにおける意味論的な意味を利用することによってテキスト行(テキストライン)を再構築することができる。語彙検索空間(vocabulary search space)は、(空間効率的な方法において)要素のより小さなセットから学習することによって視覚的な表語文字を認識するために、数千の中国語文字のセット全体からわずか数百の語根にまで減らされることができる。また、場合によっては使用頻度の低い文字を含む中国語文字セット全体についての訓練データを準備する代わりに、ニューラルネットワークは、より少ない数の手書き訓練データで訓練されることができる。何故ならば、各語根は、複数の文字で現れることができるからである。
【0020】
(テキスト行認識装置)
先ず、本開示の1つの実施形態によるテキスト行認識装置100が、図1図6を参照して記載される。図1は、本開示の1つの実施形態によるテキスト行認識装置の機能的構成を図示するブロック図である。
【0021】
図1に図示するように、テキスト行認識装置100は、文字分解ユニット110と、テキスト行認識ユニット120とを含む。
【0022】
文字分解ユニット110は、第1のサブネットワークを使用して、画像ベースの表語文字を所定の語根のうちの1つ以上からなる分解ツリーに分解する。以下に記載する実施形態において、画像ベースの表語文字は、ラテン語アルファベット、数字、中国語文字または日本語文字を含んでよい。
【0023】
表語文字について、4つのレベル、すなわち、文字(character)、語根(radical)、基本構成要素(basic component)および字画(stroke)の分解がある。文字は、意味論的または音声的な意味を持つより小さな文字に分解されることができる。語根は、意味論的な意味を持つ基本単位(basic unit)である。基本構成要素は、字画よりも大きいが意味論的な意味のない中間単位である。最終的に、全ての中国語文字、語根、および構成要素の全てが、8つの基本字画に分解されることができる。
【0024】
関心のある文字を語根に分解した後に、文字分解ユニット110は、図2(A)に図示するような基本構成要素レベルおよび字画レベルのようなより細かいレベルへの分解に更に進むことなく、図2(B)に図示するように分解を停止する。グラウンドトルース(ground truth)語根は、214の語根から構成される康熙辞典、または115の語根から構成されるCJK辞典であってよい。文字分解ユニット110は、日本語の平仮名文字およびカタカナ文字を、反復的な仮名構成要素ならびに追加的な濁点および半濁点に分解することもある。入ってくる文字が英数字(alphanumeric character)であるならば、文字分解ユニット110は、入ってくる文字をそのまま力してよい。
【0025】
1つの実施形態において、文字分解ユニット110は、画像ベースの表語文字のための特徴マップ(feature map)を生成するための畳み込みニューラルネットワーク(convolutional neural network)として実装されるサブネットワークを含んでよい。代替的に、文字分解ユニット110は、特徴マップから所定の語根のそれぞれの発生確率を表す語根確率情報を生成するためのリカレントニューラルネットワーク(recurrent neural network)として実装されるサブネットワークを含んでよい。
【0026】
例えば、文字分解ユニット110は、図2に図示する一例のように、入力表語文字を語根ベースのグラウンドトルースに分解する全単射機能として機能する。具体的には、ユーザからの1つ以上の表語文字の日本語文字または中国語文字を含む一行の手書き文字から構成される入ってくるテキスト行画像を受信した後に、文字分解ユニット110は、入力テキスト内の各文字を、図3を参照して以下に述べるような例示的な論理フローチャートに従って分解する。
【0027】
図3は、漢字のための分解プロセスを図示している。先ず、文字は、その文字が語根セット中の語根であるかどうかをチェックするために、条件文を通る(S301)。語根セットは、康熙辞典中の214のユニコード語根とCJK(中国語-日本語-韓国語)辞典中の115のユニコード語根とからなる。文字が語根であるならば、それは関数によって分解シーケンスに加えられる(S302)。
【0028】
その文字が条件文の後に語根セットに含まれていないならば(S301)、その文字は、その文字が等価な表意文字辞典に含まれているかどうかをチェックするために、条件文S303を通る(S303)。等価な表意文字辞典は、類似のユニコード字画または構成要素を専用の表意文字ユニコードにマッピングする。これは分解シーケンス内の同一または類似の要素について異なるコーディングを有することを防止する。その文字が等価な辞典中にあるならば、その文字は等価な文字と置き換えらる。等価な文字は、前述のように、等価な文字が語根セット中の語根であるかどうかをチェックするために、条件文を通る(S304)。その文字が語根であるならば、その文字は関数によって分解シーケンスに加えられる(S305)。
【0029】
その文字が条件文の後に等価な表意辞典中にないならば(S303)、あるいは置き換えられた等価な文字が条件文の後に語根セット中にないならば(S304)、文字はIDS辞典中のその分解IDSシーケンスにマッピングされる。
【0030】
IDSシーケンスが条件文中の文字のみを含むならばS306、分解は終了する。基礎文字は、その文字が等価な表意文字辞典中にあるかどうかをチェックするために、条件文を通る(S307)。基礎文字が等価な文字辞典中にあるならば、基礎文字は、等価な文字と置き換えられ、関数によって分解シーケンスに加えられる(S308)。基礎文字が等価な文字辞典中にないならば、それは関数によって分解シーケンスに直接的に加えられる(S309)。
【0031】
IDSシーケンスが条件文中の文字のみを含んでいないならば(S306)、IDSシーケンス中の各文字は、分解シーケンス中にそれ以上の文字がないまで、上記論理の全てを通る。
【0032】
テキスト行認識ユニット120は、第2のサブネットワークを使用して、分解ツリーからの画像ベースの表語文字に対応するテキストベースの表語文字を予測する。テキスト行認識ユニット120は、元の文字ラベルと文字分解ユニット110によって生成される対応する符号化されたシーケンスとの両方を利用して、デジタル化された画像コンテンツを転写するモデルを学習する。文字認識動作は、テキスト行認識ユニット120として機能するニューラルネットワークを含むテキスト行認識装置100で実装されてよい。本開示の1つの実施形態によるニューラルネットワークは、図4および図5に図示するように、1つの例示的なアーキテクチャで実装されてよい。1つの実施形態において、テキスト行認識ユニット120は、語根確率情報のための特徴マップを生成するための畳み込みニューラルネットワークとして実装されるサブネットワークを含んでよい。代替的に、テキスト行認識ユニット120は、特徴マップからの表語文字のそれぞれの発生確率を表す文字確率情報を生成するためのリカレントニューラルネットワークとして実装されるサブネットワークを含んでよい。例えば、ニューラルネットワークは、各々が機能ユニットの少なくとも1つまたは一部として機能する幾つかのサブネットワーク、すなわち、視覚的特徴抽出器、逐次デコーダおよび変換モジュールから構成される。
【0033】
(訓練プロセス)
本開示の1つの実施形態によるテキスト行認識装置100の訓練フェーズを図4中のフローチャートに記載することができる。訓練データセットは、入力画像(input images)と、ラベル(label)としての対応する入力テキスト(input texts)とから構成される。
【0034】
ステップS401で、入力テキストが与えられると、文字分解ユニット110は、各表語文字を分解し、語根ベースのグラウンドトルースを生成する。語根ベースのグラウンドトルースは、ステップS405において逐次損失(sequential loss)を計算するためにテキスト行認識ユニット120に提供される。
【0035】
ステップS402で、入力画像のバッチが与えられると、テキスト行認識ユニット120は、視覚的特徴抽出器(visual feature extractor)として機能するサブネットワークから特徴マップを取得する。1つの実施形態において、視覚的特徴抽出器は、畳み込みニューラルネットワーク(CNN)で実装されてよい。しかしながら、本開示による視覚的特徴抽出器は、このタイプのCNNアーキテクチャに限定されるものでなく、任意の他の適切なタイプのモデルまたはデバイスで実現されてよい。
【0036】
ステップS403で、テキスト行認識ユニット120は、視覚的特徴マップから符号化ベースの特徴マップを生成するために、逐次デコーダ(sequential decoder)としてサブネットワークを使用する。符号化ベースの特徴マップは、語根の発生確率を表す。1つの実施形態において、逐次デコーダは、双方向ゲート反復単位(BGRU:bidirectional Gated Recurrent Units)のようなリカレントニューラルネットワーク(RNN:Recurrent Neural Networks)で実装されてよい。しかしながら、本開示による逐次デコーダは、このタイプのアーキテクチャに限定されるものでなく、長短期メモリ(LSTM:Long Short-Term Memory)ネットワークまたは時間畳み込みネットワーク(TCN:Temporal Convolutional Network)のような、任意の他の適切なタイプのRNNで実装されてよい。
【0037】
ステップS404で、テキスト行認識ユニット120は、変換モジュールとしてサブネットワークを使用して、符号化ベースの特徴マップから文字ベースの特徴マップを生成する。文字ベースの特徴マップは、表語文字の発生確率を表す。1つの実施形態において、変換モジュールは、図6のブロック図に詳細に示すように、一次元CNNの第1のサブネットワークおよび逐次デコーダとしての第2のサブネットワークで実装されてよい。
【0038】
図6に図示するように、変換モジュール中の第1のサブネットワークは、異なるフィルタサイズを有する並列畳み込み層から構成される。変換モジュールの第1のサブネットワークが符号化ベースの特徴マップから新しいテンソル(tensors)を生成した後に、変換モジュールは、それらを逐次デコーダの第2のサブネットワークに入力として送る前に、特徴マップを連結するための機能モジュールを取得してよい。変換モジュールは、生成された特徴マップを第2のサブネットワークに提供する。変換モジュールの1つの実施形態において、変換モジュール中の第2のサブネットワークは、双方向GRUから構成され、文字ベースの確率行列は、第1のサブネットワークから受信される特徴マップから生成される。この双方向GRUは、逐次デコーダ内のアーキテクチャと同じアーキテクチャを有してよい。しかしながら、本開示による変換モジュールの第1および第2のサブネットワークは、このタイプのアーキテクチャに限定されるものでなく、長短期メモリ(LSTM)ネットワークまたは時間畳み込みネットワーク(TCN)のような、任意の他の適切なタイプの逐次ネットワークで実装されてよい。
【0039】
ステップS405で、テキスト行認識ユニット120は、2つの逐次損失を計算する。具体的には、入力画像および対応する入力テキストを受信した後に、テキスト行認識ユニット120は、2つのシーケンスの予測、すなわち、符号化ベースの予測および文字ベースの予測を生成する。符号化ベースの予測は、文字分解ユニット110によって生成される語根ベースのグラウンドトルースと比較される。文字ベースの予測は、元の入力テキストと比較される。符号化ベースの予測と語根ベースのグラウンドトルースとの間の差および文字ベースの予測と入力テキストとの間の差に対応する2つの逐次損失が計算される。テキスト行認識装置100は、テキスト行認識ユニット120の重みを調整して、2つの逐次損失を最小限に抑え、それによって、符号化ベースの予測と語根ベースのグラウンドトルースとの間の差および文字ベースの予測と入力テキストとの間の差を最小限に抑える。ニューラルネットワークをエンドツーエンド式に訓練する過程において、サブネットワークも訓練されることがある。
【0040】
他の実施形態において、サブネットワークは、事前に訓練されてよく、次に、エンドツーエンド訓練を通じてニューラルネットワークに対して微調整されてよい。
【0041】
しかしながら、本開示によるニューラルネットワークの訓練動作は、上記に限定されるものでなく、任意の他の適切な訓練動作が適用されてよい。例えば、サブネットワークのうちの1つ以上は、予め訓練されてよく、予め訓練されるサブネットワークを含むニューラルネットワークのためのパラメータは、任意の訓練データで微調整されてよい。
【0042】
(推論プロセス)
図5に図示する推論フェーズの間に、テキスト行認識ユニット120は、入力画像に対応する符号化ベースの予測および文字ベースの予測の2つのシーケンスを予測する。詳細には、先ず、入力画像を視覚的特徴抽出器S501に通すことによって入力画像の特徴を抽出する。次に、逐次デコーダ502は、視覚的特徴を、入力テキスト行のX軸に亘る語根ベースの特徴を取り込む(キャプチャする)特徴マップのシーケンスに変換する。この目的を達成するために、派生した逐次特徴マップが、2つのプロセスの入力として使用される。同時に、それらからの語根文字を予測し、変換モジュールS503を通じてそれらを転送して、文字ベースの特徴を取得し、文字ベースの特徴は、引き続き、文字を予測するために利用される。文字分解ユニット110によって復号化される文字ベースの予測または語根ベースの予測は、入力画像内の表語文字シーケンスを記述する出力テキストとしてユーザに提供される。
【0043】
(ハードウェア構成)
図7は、本開示の1つの実施形態によるテキスト行認識装置100のハードウェア構成のブロック図である。図示のように、テキスト行認識装置100は、CPU(中央処理装置)およびGPU(グラフィックス処理装置)のようなプロセッサ701と、メモリ702と、ハードディスク703と、入出力(I/O)インターフェース704とを備える、ハードウェア構成を有してよい。
【0044】
プロセッサ701は、上述のようなテキスト行認識装置100のための様々な動作を行う。
【0045】
メモリ702は、テキスト行認識装置100のための様々なデータおよびプログラムを一時的に格納するための作業メモリとして機能する。
【0046】
ハードディスク703は、テキスト行認識装置100のための様々なデータおよびプログラムを格納する。
【0047】
I/Oインターフェース704は、外部デバイスからの入力データおよび外部デバイスへの出力データのためのインターフェースであり、USB(ユニバーサルシリアルバス)、通信回線、キーボード、マウス、ディスプレイまたは同等物のような、データを入出力するためのデバイスであってよい。
【0048】
しかしながら、本開示によるテキスト行認識装置100は、上述のハードウェア構成に限定されるものでなく、任意の他の適切なハードウェア構成を有してよい。例えば、テキスト行認識装置100による上記動作の一部または全部は、それらを実装するために配線接続されることがある処理回路または電子回路で実装されてよい。
【0049】
本開示の特定の実施形態を詳細に記載したが、本開示は上記特定の実施形態に限定されるものでなく、特許請求の範囲に定義されるような本開示の範囲内で様々な修正および変形を行うことができる。
【符号の説明】
【0050】
110 文字分解ユニット
120 テキスト行認識ユニット
701 プロセッサ
702 メモリ
703 ハードディスク
704 I/Oインターフェース
図1
図2
図3
図4
図5
図6
図7
【外国語明細書】