(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022133474
(43)【公開日】2022-09-13
(54)【発明の名称】テキストの認識の方法、装置、電子機器、記憶媒体およびコンピュータプログラム
(51)【国際特許分類】
G06V 30/14 20220101AFI20220906BHJP
G06V 10/82 20220101ALI20220906BHJP
G06V 30/194 20220101ALI20220906BHJP
【FI】
G06V30/14 340A
G06V10/82
G06V30/194
【審査請求】有
【請求項の数】15
【出願形態】OL
【外国語出願】
【公開請求】
(21)【出願番号】P 2022111007
(22)【出願日】2022-07-11
(31)【優先権主張番号】202111504537.8
(32)【優先日】2021-12-10
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110000796
【氏名又は名称】弁理士法人三枝国際特許事務所
(72)【発明者】
【氏名】杜宇寧
(72)【発明者】
【氏名】楊▲イェ▼華
(72)【発明者】
【氏名】李晨霞
(72)【発明者】
【氏名】劉其文
(72)【発明者】
【氏名】胡曉光
(72)【発明者】
【氏名】于佃海
(72)【発明者】
【氏名】馬艷軍
(72)【発明者】
【氏名】畢然
(57)【要約】
【課題】軽量化ネットワークを用いてテキストの認識を行うことでテキスト認識効率を向上させることができ、しかもハードウェアへの要求が高くないテキストの認識の方法、装置、電子機器および記憶媒体を提供する。
【解決手段】上記方法は、目標画像を受信することと、予めトレーニングされた軽量化テキスト検出ネットワークを用いて目標画像のテキスト検出を行い、テキスト検出枠を得ることと、予めトレーニングされた軽量化テキスト認識ネットワークを用いてテキスト検出枠内のテキストの認識を行い、テキスト認識結果を得ることとを含む。
【選択図】
図2
【特許請求の範囲】
【請求項1】
目標画像を受信することと、
予めトレーニングされた軽量化テキスト検出ネットワークを用いて前記目標画像のテキスト検出を行い、テキスト検出枠を得ることと、
予めトレーニングされた軽量化テキスト認識ネットワークを用いて、前記テキスト検出枠内のテキストの認識を行い、テキスト認識結果を得ることと
を含むテキストの認識の方法。
【請求項2】
前記予めトレーニングされた軽量化テキスト認識ネットワークを用いて、前記テキスト検出枠内のテキストの認識を行うことは、
前記テキスト検出枠における各文字の配列方向を検出することと、
前記テキスト検出枠における各文字の配列方向が水平であると判断されたことに応答して、予めトレーニングされた軽量化テキスト認識ネットワークを用いて前記テキスト検出枠内のテキストの認識を行うことと
を含む請求項1に記載のテキストの認識の方法。
【請求項3】
前記テキスト検出枠における各文字の配列方向が水平でないと判断されたことに応答して、各文字の配列方向が水平になるように各文字の位置を調整することをさらに含む請求項2に記載のテキストの認識の方法。
【請求項4】
前記予めトレーニングされた軽量化テキスト認識ネットワークを用いて、前記テキスト検出枠内のテキストの認識を行うことは、
前記テキスト検出枠における各文字が正方向であるか否かを判断することと、
前記テキスト検出枠における各文字が正方向であると判断されたことに応答して、予めトレーニングされた軽量化テキスト認識ネットワークを用いて前記テキスト検出枠内のテキストの認識を行うことを含む請求項2に記載のテキストの認識の方法。
【請求項5】
前記軽量化テキスト検出ネットワークおよび/または前記軽量化テキスト認識ネットワークは、蒸留によりトレーニングすることで得る請求項1に記載のテキストの認識の方法。
【請求項6】
前記軽量化テキスト検出ネットワークおよび/または前記軽量化テキスト認識ネットワークのパラメータを整数型に変換することをさらに含む請求項1に記載のテキストの認識の方法。
【請求項7】
目標画像を受信するように構成される画像受信ユニットと、
予めトレーニングされた軽量化テキスト検出ネットワークを用いて前記目標画像のテキスト検出を行い、テキスト検出枠を得るように構成されるテキスト検出ユニットと、
予めトレーニングされた軽量化テキスト認識ネットワークを用いて、前記テキスト検出枠内のテキストの認識を行い、テキスト認識結果を得るように構成されるテキスト認識ユニットと、を備えるテキストの認識の装置。
【請求項8】
前記テキスト認識ユニットは、さらに
前記テキスト検出枠における各文字の配列方向を検出し、
前記テキスト検出枠における各文字の配列方向が水平であると判断されたことに応答して、予めトレーニングされた軽量化テキスト認識ネットワークを用いて前記テキスト検出枠内のテキストの認識を行うように構成される請求項7に記載のテキストの認識の装置。
【請求項9】
前記テキスト検出枠における各文字の配列方向が水平でないと判断されたことに応答して、各文字の配列方向が水平になるように各文字の位置を調整するように構成される位置調整ユニットをさらに備える請求項8に記載のテキストの認識の装置。
【請求項10】
前記テキスト認識ユニットは、さらに
前記テキスト検出枠における各文字が正方向であるか否かを判断し、
前記テキスト検出枠における各文字が正方向であると判断されたことに応答して、予めトレーニングされた軽量化テキスト認識ネットワークを用いて前記テキスト検出枠内のテキストの認識を行うように構成される請求項8に記載のテキストの認識の装置。
【請求項11】
前記軽量化テキスト検出ネットワークおよび/または前記軽量化テキスト認識ネットワークは、蒸留によりトレーニングすることで得る請求項7に記載のテキストの認識の装置。
【請求項12】
前記軽量化テキスト検出ネットワークおよび/または前記軽量化テキスト認識ネットワークのパラメータを整数型に変換するように構成されるパラメータ変換ユニットをさらに備える請求項7に記載のテキストの認識の装置。
【請求項13】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な指令が格納され、前記指令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項1~6のいずれか1項に記載のテキストの認識の方法を実行させる、電子機器。
【請求項14】
コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ指令は、コンピュータに請求項1~6のいずれか1項に記載のテキストの認識の方法を実行させるために用いられる非一時的コンピュータ可読記憶媒体。
【請求項15】
プロセッサによって実行されると、請求項1~6のいずれか1項に記載のテキストの認識の方法が実行されるコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、コンピュータ技術分野に関し、具体的には、深層学習技術分野に関し、特にテキストの認識の方法、装置、電子機器、記憶媒体およびコンピュータプログラムに関する。
【背景技術】
【0002】
OCR(Optical Character Recognition,光学的文字認識)は、画像から文字情報を抽出する技術である。現在、このタスクは応用シーンが広く、地図作成中の扁額道路標識のアノテート、カード証票情報の抽出入力審査、工場の自動化、政府部門と病院などの文書の電子化、オンライン教育などのテキスト抽出認識が必要なシーンを含む。しかし、現在使用されているOCRアルゴリズムは計算量が多く、計算用ハードウェアに対する要求が高い。
【発明の概要】
【0003】
本出願はテキストの認識の方法、装置、電子機器および記憶媒体を提供する。
【0004】
第1の態様によれば、目標画像を受信することと、予めトレーニングされた軽量化テキスト検出ネットワークを用いて目標画像のテキスト検出を行い、テキスト検出枠を得ることと、予めトレーニングされた軽量化テキスト認識ネットワークを用いてテキスト検出枠内のテキストの認識を行い、テキスト認識結果を得ることとを含むテキストの認識の方法を提供する。
【0005】
第2の態様によれば、目標画像を受信するように構成される画像受信ユニットと、予めトレーニングされた軽量化テキスト検出ネットワークを用いて目標画像のテキスト検出を行い、テキスト検出枠を得るように構成されるテキスト検出ユニットと、予めトレーニングされた軽量化テキスト認識ネットワークを用いて、テキスト検出枠内のテキストの認識を行い、テキスト認識結果を得るように構成されるテキスト認識ユニットと、を備えるテキストの認識の装置を提供する。
【0006】
第3の態様によれば、少なくとも1つのプロセッサと、上記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備える電子機器であって、メモリには、少なくとも1つのプロセッサによって実行可能な指令が格納され、指令が少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサに第1の態様に記載のテキストの認識の方法を実行させる、電子機器を提供する。
【0007】
第4の態様によれば、コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、上記コンピュータ指令は第1態様に記載のテキストの認識の方法をコンピュータに実行させるために用いられる非一時的コンピュータ可読記憶媒体を提供する。
【0008】
第5の態様によれば、プロセッサによって実行されると、第1の態様に記載のテキストの認識の方法が実現されるコンピュータプログラムを含む、コンピュータプログラム製品を提供する。
【0009】
本出願の技術によれば、軽量化ネットワークを用いてテキストの認識を行うことができるため、テキスト認識効率を向上させることができ、しかもハードウェアへの要求が高くない。
【0010】
なお、発明の概要に記載された内容は、本出願の実施形態のかなめとなる特徴または重要な特徴を限定することを意図するものではなく、本出願の範囲を限定するものでもない。本出願の他の特徴は、以下の説明によって理解が容易になる。
【図面の簡単な説明】
【0011】
図面は本出願をよりよく理解するために用いられ、本出願を限定するものではない。
【
図1】本出願の一実施形態を適用可能な例示的なシステムアーキテクチャを示す図である。
【
図2】本出願に係るテキストの認識の方法の一実施形態のフローチャートである。
【
図3】本出願に係るテキストの認識の方法の一応用シーンの概略図である。
【
図4】本出願に係るテキストの認識の方法のもう一つの実施形態のフローチャートである。
【
図5】本出願に係るテキストの認識の装置の一実施形態の構造概略図である。
【
図6】本出願の実施形態に係るテキストの認識の方法が実現されるための電子機器のブロック図である。
【発明を実施するための形態】
【0012】
以下は、図面を参照して本出願の例示的な実施形態を説明し、ここでは理解を助けるために、本出願の実施形態の様々な詳細を記載しているが、これらは単なる例示的なものに過ぎないと理解すべきである。従って、本出願の範囲および要旨を逸脱しない限り、当業者が本明細書の実施形態に対して様々な変更および修正を行うことができることを理解すべきである。なお、以下の説明では、明確化および簡略化のため、公知の機能および構成については説明を省略する。
【0013】
なお、本出願の実施形態および実施形態における特徴は、矛盾を生じない限り、相互に組み合わせることができる。以下、図面および実施形態を参照しながら本出願を詳細に説明する。
【0014】
図1は、本出願に係るテキストの認識の方法またはテキストの認識の装置の実施形態が適用可能な例示的なシステムアーキテクチャ100を示している。
【0015】
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103、ネットワーク104、およびサーバ105を含んでもよい。ネットワーク104は、端末装置101、102、103とサーバ105との間で通信リンクを提供するための媒体として使用される。ネットワーク104は、有線、無線通信リンクまたは光ファイバケーブルなどの様々なタイプの接続を含んでもよい。
【0016】
ユーザは、メッセージを送受信するために、端末装置101、102、103を使用してネットワーク104を介してサーバ105と情報のやり取りをすることができる。端末装置101、102、103には、例えば、スキャンアプリケーションまたは画像処理アプリケーションなどの様々な通信クライアントアプリケーションをインストールしてもよい。
【0017】
端末装置101、102、103は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置101、102、103がハードウェアである場合、様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、電子書籍リーダ、車載コンピュータ、ラップトップコンピュータおよびデスクトップコンピュータなどを含むことができるが、これらに限定されるものではない。端末装置101、102および103がソフトウェアである場合は、上記の電子機器にインストールされてもよい。複数のソフトウェアまたはソフトウェアモジュール(例えば、分散サービスを提供するためのもの)として実装されてもよく、または単一のソフトウェア若しくはソフトウェアモジュールとして実装されてもよい。ここでは具体的な限定はしない。
【0018】
サーバ105は、様々なサービスを提供するサーバ、例えば、端末装置101、102、103にテキスト処理のためのモデルを提供するバックエンドサーバであってもよい。バックエンドサーバは、様々な軽量化ネットワークモデルをトレーニングし、トレーニングされた軽量化ネットワークモデルを端末装置101、102、103にフィードバックしてもよい。
【0019】
なお、サーバ105は、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバ105がハードウェアである場合、複数のサーバから構成される分散サーバクラスターとしても、単一のサーバとしても実装可能である。サーバ105がソフトウェアである場合、複数のソフトウェア若しくはソフトウェアモジュール(例えば、分散サービスを提供するためのもの)として実装されてもよく、または単一のソフトウェア若しくはソフトウェアモジュールとして実装されてもよい。ここでは具体的な限定はしない。
【0020】
なお、本出願の実施形態に係るテキストの認識の方法は、端末装置101、102、103によって実行されてもよいし、サーバ105によって実行されてもよい。対応して、テキストの認識の装置は、端末装置101、102、103に設けられてもよいし、サーバ105に設けられてもよい。
【0021】
図1における端末装置、ネットワークおよびサーバの数は例示的なものに過ぎないことを理解すべきである。実装の必要に応じて、端末装置、ネットワークおよびサーバの数を任意に加減してもよい。
【0022】
次に、本出願に係るテキストの認識の方法の一実施形態のフロー200を示す
図2を参照する。この実施形態のテキストの認識の方法は、以下のステップを含む。
【0023】
ステップ201では、目標画像を受信する。
本実施形態では、テキストの認識の方法の実行主体は、様々な方法で目標画像を受信することができる。例えば、実行主体は、スキャンによって目標画像を取得してもよいし、種々の扁額を撮影して目標画像を取得してもよい。目標画像には、少なくとも1つのテキストが含まれてもよく、上記テキストは漢字、アルファベット等であってもよい。
【0024】
ステップ202では、予めトレーニングされた軽量化テキスト検出ネットワークを用いて、目標画像のテキスト検出を行い、テキスト検出枠を得る。
【0025】
実行主体は、目標画像を受信すると、予めトレーニングされた軽量化テキスト検出ネットワークを用いて目標画像のテキスト検出を行い、テキスト検出枠を得ることができる。ここで軽量化テキスト検出ネットワークは、モバイル側での利用に適したバックボーンネットワーク、例えば、MobileNet(MobileNetsは流線形アーキテクチャに基づいて、深層分離可能な畳み込みを用いて軽量な深層ニューラルネットワークを構築する)、ShuffleNetなどのシリーズのモデルであってもよい。また、ネットワークをさらに軽量化するために、検出ヘッド(detection head)のチャネル数を削減してもよい。上記軽量化テキスト検出ネットワークは、蒸留によりトレーニングすることで得るか、または、トレーニングサンプルを用いてトレーニングすることで得るか、様々な方法でトレーニングすることで得ることができる。上記軽量化テキスト検出ネットワークは、テキスト検出枠を用いて、検出されたテキストをアノテート(annotate)することができる。上記テキスト検出枠は、矩形であってもよく、上記矩形はテキストの連結領域の最小外接矩形であってもよい。
【0026】
ステップ203では、予めトレーニングされた軽量化テキスト認識ネットワークを用いて、テキスト検出枠内のテキストの認識を行い、テキスト認識結果を得る。
【0027】
実行主体は、テキスト検出枠を得た後、さらに、予めトレーニングされた軽量化テキスト認識ネットワークを用いて、テキスト検出枠内のテキストの認識を行い、テキスト認識結果を得ることができる。上記軽量化テキスト認識ネットワークは、モバイル側での使用に適したバックボーンネットワークであってもよく、その構成は軽量化テキスト検出ネットワークの構成と同じであってもよく異なっていてもよい。さらに、軽量化テキスト認識ネットワークのボリュームを小さくするために、検出ヘッドのチャネル数をさらに少なくしてもよい。テキスト認識結果には、認識された各種文字、例えば漢字、アルファベットなどが含まれてもよい。さらに、実行主体は、テキスト認識ネットワークの性能をユーザに理解させるために、各テキストの信頼度を表示するようにしてもよい。
【0028】
次に、本出願に係るテキストの認識の方法の一の応用シーンの概略図を示す
図3を参照する。
図3の応用シーンでは、ユーザが端末を介して書類の画像をスキャンし、上記画像を目標画像としてさらなる処理を行う。端末に軽量化テキスト検出ネットワークと軽量化テキスト認識ネットワークをインストールすることにより、端末は上記目標画像に対してテキスト検出とテキスト認識を行って、テキスト認識結果を得ることができる。ユーザは、上記テキスト認識結果に対して、編集、コピー等の操作を行って、テキスト認識結果を修正したり、編集したりすることができるようになる。
【0029】
本出願の上記実施形態に係るテキストの認識の方法は、軽量化ネットワークを用いてテキストの認識を行うことができ、それによってテキスト認識効率を向上させることができ、しかもハードウェアへの要求が高くない。
【0030】
さらに、本出願に係るテキストの認識の方法のもう一つの実施形態のフロー400を示す
図4を参照する。
図4に示すように、本実施形態に係る方法は以下のステップを含んでもよい。
【0031】
ステップ401では、目標画像を受信する。
【0032】
ステップ402では、予めトレーニングされた軽量化テキスト検出ネットワークを用いて、目標画像のテキスト検出を行い、テキスト検出枠を得る。
【0033】
ステップ403では、テキスト検出枠における各文字の配列方向を検出する。
【0034】
実行主体は、各テキスト検出枠を確定した後、さらに、テキスト検出枠における各文字の配列方向を確定することができる。具体的には、実行主体は、テキスト検出枠内のテキスト画像に対して様々な画像処理を行い、各文字の矩形枠を確定してもよい。各文字の矩形枠の位置に基づいて、各文字の配列方向を判断する。上記配列方向は、水平方向、垂直方向、斜め方向を含んでもよい。
【0035】
ステップ404では、テキスト検出枠における各文字の配列方向が水平であると判断されたことに応答して、テキスト検出枠内の各文字が正方向であるか否かを判断する。
【0036】
実行主体は、テキスト検出枠における各文字の配列方向が水平であると判断された場合、さらに、テキスト検出枠における各文字が正方向であるか否かを検出することができる。正方向とは、文字の正しい方向をいい、正方向でない場合は、横方向、逆方向などを含むことができ、つまり回転または鏡像変更によって正方向に変更する必要がある場合である。
【0037】
ステップ405では、テキスト検出枠内の各文字が正方向であると判断されたことに応答して、予めトレーニングされた軽量化テキスト認識ネットワークを用いてテキスト検出枠内のテキストの認識を行う。
【0038】
実行主体は、さらに、テキスト検出枠内の各文字が正方向であると判断された場合、予めトレーニングされた軽量化テキスト認識ネットワークを用いて、テキスト検出枠内のテキストの認識を行うことができる。これにより、テキスト認識の精度を効果的に向上させることができる。
【0039】
ステップ406では、テキスト検出枠における各文字の配列方向が水平でないと判断されたことに応答して、各文字の配列方向が水平になるように各文字の位置を調整する。
【0040】
本実施形態では、実行主体は、テキスト検出枠における各文字の配列方向が水平でないと判断された場合、各文字の配列方向が水平になるように各文字の位置を調整することができる。調整時には、実行主体は各文字列の頭文字を確定し、頭文字の位置を基準に他の文字の位置を変更してもよい。いくつかの具体的な実施形態において、実行主体は、同様に軽量化ネットワークを用いて文字位置の調整を行ってもよい。
【0041】
本実施形態のいくつかのオプション的な実施形態において、上記軽量化テキスト検出ネットワークおよび/または軽量化テキスト認識ネットワークは、蒸留によってトレーニングすることで得られる。このようなトレーニング方法により、軽量化ネットワークの性能または効果を確保しつつ、トレーニング効率を向上させることができる。
【0042】
本実施形態のいくつかのオプション的な実施形態において、上記軽量化テキスト検出ネットワークおよび/または軽量化テキスト認識ネットワークのボリュームをさらに小さくするために、上記軽量化テキスト検出ネットワークおよび/または軽量化テキスト認識ネットワークのパラメータを整数型に変換することができる。具体的には、実行主体は、様々な量子化方法によってパラメータのタイプを調整することができ、例えば、オフライン量子化、PACT等の量子化方法によって、モデルパラメータを浮動小数点型から整数型に量子化することにより、モデルサイズをより小さくする目的を達成できる。
【0043】
本出願の上記実施形態に係るテキストの認識の方法は、テキスト検出ネットワークおよびテキスト認識ネットワークのボリュームを様々な方法で低減させることができ、さらにOCRシステムの容量を圧縮して端末における適用に便宜を図る。
【0044】
さらに
図5を参照すると、上記の各図に示された方法の実施態様として、本出願は、テキストの認識の装置の一実施形態を提供し、当該装置の実施形態は、
図2に示された方法の実施形態に対応しており、当該装置は、具体的に様々な電子機器に適用することができる。
【0045】
図5に示すように、本実施形態のテキスト認識装置500は、画像受信ユニット501と、テキスト検出ユニット502と、テキスト認識ユニット503とを備える。
【0046】
画像受信ユニット501は目標画像を受信するように構成される。
【0047】
テキスト検出ユニット502は、予めトレーニングされた軽量化テキスト検出ネットワークを用いて目標画像のテキスト検出を行い、テキスト検出枠を得るように構成される。
【0048】
テキスト認識ユニット503は、予めトレーニングされた軽量化テキスト認識ネットワークを用いて、テキスト検出枠内のテキストの認識を行い、テキスト認識結果を得るように構成される。
【0049】
本実施形態のいくつかのオプション的な実施形態において、テキスト認識ユニット503は、さらに、テキスト検出枠における各文字の配列方向を検出し、テキスト検出枠における各文字の配列方向が水平であると判断されたことに応答して、予めトレーニングされた軽量化テキスト認識ネットワークを用いてテキスト検出枠内のテキストの認識を行うように構成されてもよい。
【0050】
本実施形態のいくつかのオプション的な実施形態において、装置500は、テキスト検出枠における各文字の配列方向が水平でないと判断されたことに応答して、各文字の配列方向が水平になるように各文字の位置を調整するように構成される位置調整ユニットをさらに備えてもよい。
【0051】
本実施形態のいくつかのオプション的な実施形態において、テキスト認識ユニット503は、テキスト検出枠における各文字が正方向であるか否かを判断し、テキスト検出枠における各文字が正方向であると判断されたことに応答して、予めトレーニングされた軽量化テキスト認識ネットワークを用いてテキスト検出枠内のテキストの認識を行うようにさらに構成されてもよい。
【0052】
本実施形態のいくつかのオプション的な実施形態において、軽量化テキスト検出ネットワークおよび/または軽量化テキスト認識ネットワークは、蒸留によってトレーニングすることで得られる。
【0053】
本実施形態のいくつかのオプション的な実施形態において、装置500は、軽量化テキスト検出ネットワークおよび/または軽量化テキスト認識ネットワークのパラメータを整数型に変換するように構成されるパラメータ変換ユニットをさらに備えてもよい。
【0054】
テキスト認識装置500に記載のユニット501~ユニット503はそれぞれ、
図2を参照して記述した方法の各ステップに対応することを理解すべきである。したがって、テキストの認識の方法について上記で説明した動作および特徴は、装置500およびその中に含まれるユニットに対しても同様に適用可能であり、ここではその説明を省略する。
【0055】
本出願の技術方案では、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供および公開などの処理は、いずれも関連する法律法規の規定に準拠し、且つ公序良俗には反しない。
【0056】
本出願の実施形態によれば、本出願は電子機器、読み取り可能な記憶媒体およびコンピュータプログラムをさらに提供する。
【0057】
図6は、本出願の実施形態に係るテキストの認識の方法を実行するための電子機器600のブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレード型サーバ、メインフレームコンピュータおよびその他の適切なコンピュータ等のような様々な形態のデジタルコンピュータを表すものである。また、電子機器は、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル機器およびその他の類似するコンピューティングデバイス等のような様々な形態のモバイルデバイスを表すことができる。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも一例であり、ここで記述および/または要求した本出願の実施形態を限定することを意図するものではない。
【0058】
図6に示すように、電子機器600は、読み出し専用メモリ(ROM)602に格納されているコンピュータプログラムまたはメモリ608からランダムアクセスメモリ(RAM)603にロードされたコンピュータプログラムによって様々な適切な動作および処理を実行可能なプロセッサ601を備える。RAM603には、電子機器600の動作に必要な様々なプログラムおよびデータがさらに格納可能である。プロセッサ601、ROM602およびRAM603は、バス604を介して互いに接続されている。I/Oインターフェース(入/出力インターフェース)605もバス604に接続されている。
【0059】
電子機器600において、キーボード、マウスなどの入力ユニット606と、様々なタイプのディスプレイ、スピーカなどの出力ユニット607と、磁気ディスク、光ディスクなどのメモリ608と、ネットワークカード、モデム、無線通信送受信機などの通信ユニット609とを含む複数のコンポーネントは、I/Oインターフェース605に接続されている。通信ユニット609は、電子機器600がインターネットなどのコンピュータネットワークおよび/または様々な電気通信ネットワークを介して他の装置と情報またはデータのやりとりを可能にする。
【0060】
プロセッサ601は、処理および計算能力を有する様々な汎用および/または専用処理モジュールであってもよい。プロセッサ601のいくつかの例示としては、中央処理装置(CPU)、グラフィックスプロセッシングユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々なプロセッサ、デジタル信号プロセッサ(DSP)、およびあらゆる適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。プロセッサ601は、テキストの認識の方法のような上述した様々な方法および処理を実行する。例えば、いくつかの実施形態では、テキストの認識の方法は、メモリ608などの機械可読記憶媒体に有形に含まれたコンピュータソフトウェアプログラムとして実装されてもよい。いくつかの実施形態では、コンピュータプログラムの一部または全部は、ROM602および/または通信ユニット609を介して電子機器600にロードおよび/またはインストールされてもよい。コンピュータプログラムがRAM603にロードされ、プロセッサ601によって実行されると、上述したテキストの認識の方法における1つまたは複数のステップが実行され得る。あるいは、他の実施形態では、プロセッサ601は、他の任意の適切な形態によって(例えば、ファームウェアを介して)テキストの認識の方法を実行するように構成されてもよい。
【0061】
ここで説明するシステムおよび技術の様々な実施形態はデジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせにおいて実装され得る。これらの各実施形態は、1つまたは複数のコンピュータプログラムに実装され、該1つまたは複数のコンピュータプログラムは少なくとも一つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行および/または解釈することができ、該プログラマブルプロセッサは専用または汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも一つの入力装置および少なくとも一つの出力装置からデータおよび指令を受信することができ、且つデータおよび指令を該記憶システム、該少なくとも一つの入力装置および該少なくとも一つの出力装置に伝送することを含み得る。
【0062】
本出願の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語のあらゆる組み合わせで作成され得る。上記プログラムコードは、コンピュータプログラムとしてパッケージ化されてもよい。これらのプログラムコードまたはコンピュータプログラムは、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供されることができ、これらのプログラムコードがプロセッサ601によって実行されると、フローチャートおよび/またはブロック図に規定された機能または動作が実施される。プログラムコードは、完全にデバイス上で実行されることも、部分的にデバイス上で実行されることも、スタンドアロンソフトウェアパッケージとして部分的にデバイス上で実行されながら部分的にリモートデバイス上で実行されることも、または完全にリモートデバイスもしくはサーバ上で実行されることも可能である。
【0063】
本出願のコンテキストでは、機械可読記憶媒体は、有形の媒体であってもよく、指令実行システム、装置または機器が使用するため、または指令実行システム、装置または機器と組み合わせて使用するためのプログラムを含むか、または格納することができる。機械可読記憶媒体は、機械可読信号記憶媒体または機械可読記憶媒体であり得る。機械可読記憶媒体は、電子的、磁気的、光学的、電磁的、赤外線の、または半導体のシステム、装置または機器、またはこれらのあらゆる適切な組み合わせを含むことができるが、これらに限定されない。機械可読記憶媒体のより具体的な例には、1本または複数本のケーブルに基づく電気的接続、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、コンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶装置、磁気記憶装置、またはこれらのあらゆる適切な組み合わせが含まれ得る。
【0064】
ユーザとのやりとりを提供するために、ここで記述するシステムと技術は、ユーザに情報を表示するための表示装置(例えば、陰極線管(Cathode Ray Tube,CRT)またはLCD(液晶ディスプレイ)モニタ)と、キーボードおよびポインティングデバイス(例えば、マウスまたはトラックボール)とを備えるコンピュータ上で実装することができ、ユーザが該キーボードおよび該ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置もユーザとのやりとりを行うことに用いることができる。例えば、ユーザに提供されるフィードバックは、例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであるいかなる形態のセンシングフィードバックであってもよく、且つ音入力、音声入力若しくは触覚入力を含むいかなる形態でユーザからの入力を受信してもよい。
【0065】
ここで記述したシステムおよび技術は、バックエンドコンポーネントを含む計算システム(例えば、データサーバ)に実施されてもよく、またはミドルウェアコンポーネントを含む計算システム(例えば、アプリケーションサーバ)に実施されてもよく、またはフロントエンドコンポーネントを含む計算システム(例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータ)に実施されてもよく、ユーザは当該グラフィカルユーザインターフェースまたはウェブブラウザを介して、ここで記述したシステムおよび技術の実施形態とやりとりを行っていてもよく、またはこのようなバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントのいずれかの組み合わせを含む計算システムに実施されてもよい。また、システムの各コンポーネントの間は、通信ネットワーク等の任意の形態または媒体を介してデジタルデータ通信により接続されていてもよい。通信ネットワークとしては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)およびインターネットなどを含む。
【0066】
コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してやりとりを行う。クライアントとサーバとの関係は、互いにクライアント-サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、従来の物理ホストとVPS(VPS、Virtual Private Server)サービスにおける管理の難度が大きく、ビジネス拡張性が弱いという欠陥を解決したクラウドコンピューティングサービスシステムにおけるホスト製品である。サーバは、分散システムのサーバ、あるいはブロックチェーンを結合したサーバであってもよい。
【0067】
上述した様々な形態のフローを用いて、ステップを改めて並び替え、追加または削除を行ってもよいことを理解すべきである。例えば、本出願に記載された各ステップは、本出願に開示された技術方案の所望の効果が達成できる限り、並行して実行されてもよく、順番に実行されてもよく、異なる順番で実行されてもよい。本明細書はここで制限はしない。
【0068】
上記具体的な実施形態は本出願の保護範囲を限定するものではない。当業者であれば、設計要件および他の要素に応じて、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを理解すべきである。本出願の趣旨および原理を逸脱せずに行われたあらゆる修正、均等な置換および改善などは、いずれも本出願の保護範囲内に含まれるべきである。
【外国語明細書】