(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-19
(45)【発行日】2023-12-27
(54)【発明の名称】テキスト認識モデルの訓練方法、テキスト認識方法及び装置
(51)【国際特許分類】
G06V 30/194 20220101AFI20231220BHJP
G06V 30/19 20220101ALI20231220BHJP
G06T 7/00 20170101ALI20231220BHJP
【FI】
G06V30/194
G06V30/19
G06T7/00 350C
(21)【出願番号】P 2022151153
(22)【出願日】2022-09-22
【審査請求日】2022-09-22
(31)【優先権主張番号】202210275278.4
(32)【優先日】2022-03-21
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【氏名又は名称】内藤 和彦
(74)【代理人】
【識別番号】100108213
【氏名又は名称】阿部 豊隆
(72)【発明者】
【氏名】チャン,チェンクァン
(72)【発明者】
【氏名】ルゥ,ポンユェン
(72)【発明者】
【氏名】リウ,シャンシャン
(72)【発明者】
【氏名】チィァォ,メイナー
(72)【発明者】
【氏名】スー,ヤンリィウ
(72)【発明者】
【氏名】ウー,リィァン
(72)【発明者】
【氏名】リウ,ジントゥオ
(72)【発明者】
【氏名】ハン,ジュンユ
(72)【発明者】
【氏名】ディン,エァールイ
(72)【発明者】
【氏名】ワン,ジンドン
【審査官】千葉 久博
(56)【参考文献】
【文献】特開2021-163456(JP,A)
【文献】特開2021-125138(JP,A)
【文献】特表2020-534604(JP,A)
【文献】中国特許出願公開第113762269(CN,A)
【文献】中国特許出願公開第113657399(CN,A)
【文献】中国特許出願公開第111898642(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/194
G06V 30/19
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
テキスト認識モデルの訓練方法であって、
取得されたサンプル画像の視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得て、取得されたサンプルテキストの語義特徴に対してマスク予測を行い、予測される語義特徴を得るステップであって、前記サンプル画像にはテキストが含まれるステップと、
前記予測される視覚的特徴に従って前記サンプル画像のテキストの第1の損失値を決定し、前記予測される語義特徴に従って前記サンプルテキストの第2の損失値を決定するステップと、
前記第1の損失値及び前記第2の損失値に従って訓練してテキスト認識モデルを得るステップであって、前記テキスト認識モデルが認識待ちのテキスト及び認識待ちの画像のうちの少なくとも一方に対してテキスト認識を行うためのものであるステップと、を含
み、
前記方法は、予め設定された基本ネットワークに適用され、前記基本ネットワークは、コンテキストエンハンスメントモジュール及びデコーディングモジュールを含み、
前記予測される視覚的特徴は、前記コンテキストエンハンスメントモジュールに基づいて前記サンプル画像の視覚的特徴に対してマスク予測を行うことにより得られたものであり、
前記第1の損失値は、前記予測される視覚的特徴及び前記デコーディングモジュールに基づいて決定されたものであり、
前記テキスト認識モデルは、前記第1の損失値及び前記第2の損失値に基づいて前記基本ネットワークのパラメータを調整して得られたものである、
テキスト認識モデルの訓練方法。
【請求項2】
前記予測される視覚的特徴に従って前記サンプル画像のテキストの第1の損失値を決定するステップは、
前記予測される視覚的特徴に対してデコーディング処理を行い、前記予測される視覚的特徴に対応する予測されるテキスト文字を得るステップと、
前記予測される視覚的特徴に対応する予測されるテキスト文字に従って前記第1の損失値を決定するステップと、を含む請求項1に記載の方法。
【請求項3】
前記予測される視覚的特徴に対応する予測されるテキスト文字に従って前記第1の損失値を決定するステップは、
前記サンプル画像のラベル付けされたテキスト文字を取得するステップと、
前記予測される視覚的特徴に対応する予測されるテキスト文字、及び前記サンプル画像のラベル付けされたテキスト文字に従って、前記第1の損失値を計算して得るステップと、を含む請求項2に記載の方法。
【請求項4】
前記予測される語義特徴に従って前記サンプルテキストの第2の損失値を決定するステップは、
前記予測される語義特徴に対してデコーディング処理を行い、前記予測される語義特徴に対応する予測されるテキスト文字を得るステップと、
前記予測される語義特徴に対応する予測されるテキスト文字に従って前記第2の損失値を決定するステップと、を含む請求項1~3のいずれか1項に記載の方法。
【請求項5】
前記予測される語義特徴に対応する予測されるテキスト文字に従って前記第2の損失値を決定するステップは、
前記サンプルテキストのラベル付けされたテキスト文字を取得するステップと、
前記予測される語義特徴に対応する予測されるテキスト文字、及び前記サンプルテキストのラベル付けされたテキスト文字に従って、前記第2の損失値を計算して得るステップと、を含む請求項4に記載の方法。
【請求項6】
前記第1の損失値及び前記第2の損失値に従って訓練してテキスト認識モデルを得るステップは、
前記第1の損失値と前記第2の損失値との平均値を決定し、前記平均値に基づいて訓練して前記テキスト認識モデルを得るステップを含む請求項1~3のいずれか1項に記載の方法。
【請求項7】
前記予測される語義特徴は、前記コンテキストエンハンスメントモジュールに基づいて前記サンプルテキストの語義特徴に対してマスク予測を行うことにより得られたものであり、
前記第2の損失値は、前記予測される語義特徴及び前記デコーディングモジュールに基づいて得られたもので
ある請求項1~3のいずれか1項に記載の方法。
【請求項8】
前記基本ネットワークは、さらに、コーディングモジュールを含み、
取得されたサンプル画像の視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得るステップの前、前記方法は、さらに、
取得されたサンプル画像を
前記基本ネットワークの
前記コーディングモジュールに入力し、前記視覚的特徴を出力するステップを含み、
前記第1の損失値及び前記第2の損失値に従って訓練してテキスト認識モデルを得るステップは、前記第1の損失値及び前記第2の損失値に従って前記コーディングモジュールのパラメータを調整し、前記テキスト認識モデルを得るステップを含む請求項1~3のいずれか1項に記載の方法。
【請求項9】
前記基本ネットワークは、さらに、テキスト埋め込みモジュールを含み、
取得されたサンプルテキストの語義特徴に対してマスク予測を行い、予測される語義特徴を得るステップの前、前記方法は、さらに、
取得されたサンプルテキストを
前記基本ネットワークの
前記テキスト埋め込みモジュールに入力し、前記語義特徴を出力するステップを含み、
前記第1の損失値及び前記第2の損失値に従って訓練してテキスト認識モデルを得るステップは、前記第1の損失値及び前記第2の損失値に従って前記テキスト埋め込みモジュールのパラメータを調整し、前記テキスト認識モデルを得るステップを含む請求項1~3のいずれか1項に記載の方法。
【請求項10】
テキスト認識方法であって、
認識待ちの対象を取得するステップであって、前記認識待ちの対象にはテキストが含まれ、前記認識待ちの対象が認識待ちの画像又は認識待ちのテキストであるステップと、
予め訓練されたテキスト認識モデルに基づいて前記認識待ちの対象に対してテキスト認識を行い、前記認識待ちの対象に対応するテキストコンテンツを得るステップと、を含み、
前記テキスト認識モデルが請求項1~3のいずれか1項に記載の方法に基づいて得られたものであるテキスト認識方法。
【請求項11】
前記認識待ちの対象が認識待ちの画像である場合、予め訓練されたテキスト認識モデルに基づいて前記認識待ちの対象に対してテキスト認識を行い、前記認識待ちの対象に対応するテキストコンテンツを得るステップは、
前記認識待ちの画像に対して特徴抽出処理を行い、前記認識待ちの画像の視覚的特徴を得るステップと、
前記テキスト認識モデルを使用して、前記認識待ちの画像の視覚的特徴に基づいて前記認識待ちの画像に対してテキスト認識を行い、前記認識待ちの画像に対応するテキストコンテンツを得るステップと、を含む請求項
10に記載の方法。
【請求項12】
前記認識待ちの対象が認識待ちのテキストである場合、予め訓練されたテキスト認識モデルに基づいて前記認識待ちの対象に対してテキスト認識を行い、前記認識待ちの対象に対応するテキストコンテンツを得るステップは、
前記認識待ちのテキストに対して特徴抽出処理を行い、前記認識待ちのテキストの語義特徴を得るステップと、
前記テキスト認識モデルを使用して、前記認識待ちのテキストの語義特徴に従って前記認識待ちのテキストに対してテキスト認識を行い、前記認識待ちのテキストに対応するテキストコンテンツを得るステップと、を含む請求項
10に記載の方法。
【請求項13】
テキスト認識モデルの訓練装置であって、
取得されたサンプル画像の視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得るための第1の予測ユニットであって、前記サンプル画像にはテキストが含まれる第1の予測ユニットと、
取得されたサンプルテキストの語義特徴に対してマスク予測を行い、予測される語義特徴を得るための第2の予測ユニットと、
前記予測される視覚的特徴に従って前記サンプル画像のテキストの第1の損失値を決定するための第1の決定ユニットと、
前記予測される語義特徴に従って前記サンプルテキストの第2の損失値を決定するための第2の決定ユニットと、
前記第1の損失値及び前記第2の損失値に従って訓練してテキスト認識モデルを得るための訓練ユニットであって、前記テキスト認識モデルが認識待ちのテキスト及び認識待ちの画像のうちの少なくとも一方に対してテキスト認識を行うためのものである訓練ユニットと、を含
み、
前記装置は、予め設定された基本ネットワークに適用され、前記基本ネットワークは、コンテキストエンハンスメントモジュール及びデコーディングモジュールを含み、
前記予測される視覚的特徴は、前記コンテキストエンハンスメントモジュールに基づいて前記サンプル画像の視覚的特徴に対してマスク予測を行うことにより得られたものであり、
前記第1の損失値は、前記予測される視覚的特徴及び前記デコーディングモジュールに基づいて決定されたものであり、
前記テキスト認識モデルは、前記第1の損失値及び前記第2の損失値に基づいて前記基本ネットワークのパラメータを調整して得られたものである、
テキスト認識モデルの訓練装置。
【請求項14】
前記第1の決定ユニットは、
前記予測される視覚的特徴に対してデコーディング処理を行い、前記予測される視覚的特徴に対応する予測されるテキスト文字を得るための第1のデコーディングサブユニットと、
前記予測される視覚的特徴に対応する予測されるテキスト文字に従って前記第1の損失値を決定するための第1の決定サブユニットと、を含む請求項
13に記載の装置。
【請求項15】
前記第1の決定サブユニットは、
前記サンプル画像のラベル付けされたテキスト文字を取得するための第1の取得モジュールと、
前記予測される視覚的特徴に対応する予測されるテキスト文字、及び前記サンプル画像のラベル付けされたテキスト文字に従って、前記第1の損失値を計算して得るための第1の計算モジュールと、を含む請求項
14に記載の装置。
【請求項16】
前記第2の決定ユニットは、
前記予測される語義特徴に対してデコーディング処理を行い、前記予測される語義特徴に対応する予測されるテキスト文字を得るための第2のデコーディングサブユニットと、
前記予測される語義特徴に対応する予測されるテキスト文字に従って前記第2の損失値を決定するための第2の決定サブユニットと、を含む請求項
13~15のいずれか1項に記載の装置。
【請求項17】
前記第2の決定サブユニットは、
前記サンプルテキストのラベル付けされたテキスト文字を取得するための第2の取得モジュールと、
前記予測される語義特徴に対応する予測されるテキスト文字、及び前記サンプルテキストのラベル付けされたテキスト文字に従って、前記第2の損失値を計算して得るための第2の計算モジュールと、を含む請求項
16に記載の装置。
【請求項18】
前記訓練ユニットは、
前記第1の損失値と前記第2の損失値との平均値を決定するための第3の決定サブユニットと、
前記平均値に基づいて訓練して前記テキスト認識モデルを得るための訓練サブユニットと、を含む請求項
13~15のいずれか1項に記載の装置。
【請求項19】
前記予測される語義特徴は、前記コンテキストエンハンスメントモジュールに基づいて前記サンプルテキストの語義特徴に対してマスク予測を行うことにより得られたものであり、
前記第2の損失値は、前記予測される語義特徴及び前記デコーディングモジュールに基づいて得られたもので
ある請求項
13~15のいずれか1項に記載の装置。
【請求項20】
前記基本ネットワークは、さらに、コーディングモジュールを含み、
前記装置は、さらに、
取得されたサンプル画像を
前記基本ネットワークの
前記コーディングモジュールに入力するための第1の入力ユニットと、
前記視覚的特徴を出力するための第1の出力ユニットと、を含み、
前記訓練ユニットが、前記第1の損失値及び前記第2の損失値に従って前記コーディングモジュールのパラメータを調整し、前記テキスト認識モデルを得るためのものである請求項
13~15のいずれか1項に記載の装置。
【請求項21】
前記基本ネットワークは、さらに、テキスト埋め込みモジュールを含み、
前記装置は、さらに、
取得されたサンプルテキストを
前記基本ネットワークの
前記テキスト埋め込みモジュールに入力するための第2の入力ユニットと、
前記語義特徴を出力するための第2の出力ユニットと、を含み、
前記訓練ユニットが、前記第1の損失値及び前記第2の損失値に従って前記テキストめ込みモジュールのパラメータを調整し、前記テキスト認識モデルを得るためのものである請求項
13~15のいずれか1項に記載の装置。
【請求項22】
テキスト認識装置であって、
認識待ちの対象を取得するための取得ユニットであって、前記認識待ちの対象にはテキストが含まれ、前記認識待ちの対象が認識待ちの画像又は認識待ちのテキストである取得ユニットと、
予め訓練されたテキスト認識モデルに基づいて前記認識待ちの対象に対してテキスト認識を行い、前記認識待ちの対象に対応するテキストコンテンツを得るための認識ユニットと、を含み、
前記テキスト認識モデルが請求項1~3のいずれか1項に記載の方法に基づいて得られたものであるテキスト認識装置。
【請求項23】
前記認識待ちの対象が認識待ちの画像である場合、前記認識ユニットは、
前記認識待ちの画像に対して特徴抽出処理を行い、前記認識待ちの画像の視覚的特徴を得るための第1の抽出サブユニットと、
前記テキスト認識モデルを使用して、前記認識待ちの画像の視覚的特徴に基づいて前記認識待ちの画像に対してテキスト認識を行い、前記認識待ちの画像に対応するテキストコンテンツを得るための第1の認識サブユニットと、を含む請求項
22に記載の装置。
【請求項24】
前記認識待ちの対象が認識待ちのテキストである場合、前記認識ユニットは、
前記認識待ちのテキストに対して特徴抽出処理を行い、前記認識待ちのテキストの語義特徴を得るための第2の抽出サブユニットと、
前記テキスト認識モデルを使用して、前記認識待ちのテキストの語義特徴に従って前記認識待ちのテキストに対してテキスト認識を行い、前記認識待ちのテキストに対応するテキストコンテンツを得るための第2の認識サブユニットと、を含む請求項
22に記載の装置。
【請求項25】
電子機器であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサが請求項1~3のいずれか1項に記載の方法を実行できるか、前記少なくとも1つのプロセッサが請求項
10に記載の方法を実行できる電子機器。
【請求項26】
コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、前記コンピュータ命令がコンピュータに請求項1~3のいずれか1項に記載の方法を実行させるためのものであるか、前記コンピュータ命令が前記コンピュータに請求項
10に記載の方法を実行させるためのものである非一時的な可読記憶媒体。
【請求項27】
コンピュータプログラムであって、当該コンピュータプログラムがプロセッサにより実行されると、請求項1~3のいずれか1項に記載の方法のステップは実現されるか、当該コンピュータプログラムがプロセッサにより実行されると、請求項
10に記載の方法のステップは実現されるコンピュータプログラム。
【発明の詳細な説明】
【技術の分野】
【0001】
本開示は、人工知能(Artificial Intelligence、AI)技術の分野、具体的には、深層学習、コンピュータビジョン技術の分野に関し、光学式文字認識(Optical Character Recognition、OCR)などのシーンに適用でき、特に、テキスト認識モデルの訓練方法、テキスト認識方法及び装置に関する。
【背景技術】
【0002】
OCR技術は、教育、金融、医療、交通及び保険など、様々な業界で広く注目及び応用されている。
【0003】
関連技術において、OCR技術と深層学習とを組み合わせてテキスト認識モデルを構築し、テキスト認識モデルに基づいて画像に対してテキスト認識を行うことができる。
【0004】
しかしながら、テキスト認識モデルは、通常、視覚的情報に依存して、視覚的情報に基づいて画像内のテキストコンテンツを判別するため、認識の正確性が低いという欠陥がある。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本開示は、テキスト認識の正確性を向上させるためのテキスト認識モデルの訓練方法、テキスト認識方法及び装置を提供する。
【課題を解決するための手段】
【0006】
第1の態様によれば、本開示は、テキスト認識モデルの訓練方法を提供し、前記方法は、
取得されたサンプル画像の視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得て、取得されたサンプルテキストの語義特徴に対してマスク予測を行い、予測される語義特徴を得るステップであって、前記サンプル画像にはテキストが含まれるステップと、
前記予測される視覚的特徴に従って前記サンプル画像のテキストの第1の損失値を決定し、前記予測される語義特徴に従って前記サンプルテキストの第2の損失値を決定するステップと、
前記第1の損失値及び前記第2の損失値に従って訓練してテキスト認識モデルを得るステップであって、前記テキスト認識モデルが認識待ちのテキスト及び認識待ちの画像のうちの少なくとも一方に対してテキスト認識を行うためのものであるステップと、を含む。
【0007】
第2の態様によれば、本開示は、テキスト認識方法を提供し、前記方法は、
認識待ちの対象を取得するステップであって、前記認識待ちの対象にはテキストが含まれ、前記認識待ちの対象が認識待ちの画像又は認識待ちのテキストであるステップと、
予め訓練されたテキスト認識モデルに基づいて前記認識待ちの対象に対してテキスト認識を行い、前記認識待ちの対象に対応するテキストコンテンツを得るステップと、を含み、
前記テキスト認識モデルが第1の態様に記載の方法に基づいて得られたものである。
【0008】
第3の態様によれば、本開示は、テキスト認識モデルの訓練装置を提供し、前記装置は、
取得されたサンプル画像の視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得るための第1の予測ユニットであって、前記サンプル画像にはテキストが含まれる第1の予測ユニットと、
取得されたサンプルテキストの語義特徴に対してマスク予測を行い、予測される語義特徴を得るための第2の予測ユニットと、
前記予測される視覚的特徴に従って前記サンプル画像のテキストの第1の損失値を決定するための第1の決定ユニットと、
前記予測される語義特徴に従って前記サンプルテキストの第2の損失値を決定するための第2の決定ユニットと、
前記第1の損失値及び前記第2の損失値に従って訓練してテキスト認識モデルを得るための訓練ユニットであって、前記テキスト認識モデルが認識待ちのテキスト及び認識待ちの画像のうちの少なくとも一方に対してテキスト認識を行うためのものである訓練ユニットと、を含む。
【0009】
第4の態様によれば、本開示は、テキスト認識装置を提供し、前記装置は、
認識待ちの対象を取得するための取得ユニットであって、前記認識待ちの対象にはテキストが含まれ、前記認識待ちの対象が認識待ちの画像又は認識待ちのテキストである取得ユニットと、
予め訓練されたテキスト認識モデルに基づいて前記認識待ちの対象に対してテキスト認識を行い、前記認識待ちの対象に対応するテキストコンテンツを得るための認識ユニットと、を含み、
前記テキスト認識モデルが第1の態様に記載の方法に基づいて訓練されたものである。
【0010】
第5の態様によれば、本開示は、電子機器を提供し、前記電子機器は、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサが第1の態様又は第2の態様に記載の方法を実行できる。
【0011】
第6の態様によれば、本開示は、コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体を提供し、前記コンピュータ命令がコンピュータに第1の態様又は第2の態様による方法を実行させるためのものである。
【0012】
第7の態様によれば、本開示は、コンピュータプログラムを提供し、前記コンピュータプログラムが可読記憶媒体に記憶されており、電子機器の少なくとも1つのプロセッサは前記可読記憶媒体から前記コンピュータプログラムを読み取ることができ、前記少なくとも1つのプロセッサが前記コンピュータプログラムを実行すると、電子機器が第1の態様又は第2の態様に記載の方法を実行する。
【発明の効果】
【0013】
本開示の実施例によれば、視覚的特徴及び語義特徴という2つの次元から訓練されたパラメータ(すなわち、第1の損失値及び第2の損失値)を共有して、訓練してテキスト認識モデルを得るという技術的解決手段により、テキスト認識モデルは視覚的情報のみならず、語義コンテキストロジックをもマイニングすることができるようになり、それにより、テキスト認識モデルに基づいてテキスト認識を行うとき、テキスト認識の多様性及び全面性を向上させることができる。
【0014】
なお、この部分に記載されている内容は、本開示の実施例の主要な又は重要な特徴を特定することを意図しておらず、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の詳細の説明を通じて容易に理解される。
【図面の簡単な説明】
【0015】
図面は、本技術案をよりよく理解するために使用され、本願を限定するものではない。
【
図4】本開示のテキスト認識モデルの訓練方法による原理概略図である。
【
図10】本開示の実施例のテキスト認識モデルの訓練方法及びテキスト認識方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0016】
以下、本開示の例示的な実施例について、図面を参照して説明し、理解を容易にするために、その中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、詳細の説明に記載れている実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
【0017】
いくつかの実施例では、テキスト認識モデルの訓練方法は、テキストが含まれるサンプル画像を取得し、サンプル画像に基づいて訓練してテキスト認識モデルを得るステップを含む。
【0018】
例示的に、サンプル画像に基づいて予め設定された基本ネットワークを訓練し、例えば、サンプル画像に基づいて基本ネットワークのモデルパラメータを調整し、テキスト認識モデルを得る。
【0019】
例えば、サンプル画像の視覚的情報と組み合わせて基本ネットワークを訓練することで、テキスト認識モデルを得ることができる。
【0020】
例示的に、サンプル画像に対して特徴抽出を行い、サンプル画像の視覚的特徴を得て、視覚的特徴に基づいて基本ネットワークを訓練することにより、基本ネットワークは、視覚的特徴に基づいてテキストコンテンツを抽出する能力を習得するようになり、テキスト認識モデルは得られる。
【0021】
視覚的特徴とは、テクスチャやカラーなど、サンプル画像の視覚的次元の特徴を指す。
【0022】
他のいくつかの実施例では、テキスト認識モデルの訓練方法は、サンプルテキストを取得し、サンプルテキストに基づいて訓練してテキスト認識モデルを得るステップを含む。
【0023】
例示的に、サンプルテキストに基づいて予め設定された基本ネットワークを訓練し、例えば、サンプルテキストに基づいて基本ネットワークのモデルパラメータを調整し、テキスト認識モデルを得る。
【0024】
例えば、サンプルテキストの語義情報に基づいて基本ネットワークを訓練することで、テキスト認識モデルを得る。
【0025】
例示的に、サンプルテキストに対して特徴抽出を行い、サンプルテキストの語義特徴を得て、語義特徴に基づいて基本ネットワークを訓練することにより、基本ネットワークは、語義特徴に基づいてテキストコンテンツを抽出する能力を習得するようになり、テキスト認識モデルは得られる。
【0026】
語義特徴とは、サンプルテキスト内の各文字列間の論理的関係の特徴である。
【0027】
しかしながら、上記実施例における、視覚的特徴に基づいて訓練してテキスト認識モデルを得る技術案、又は、語義特徴に基づいて訓練してテキスト認識モデルを得る技術案を使用する場合、テキスト認識モデルの認識次元は単一になる可能性があり、例えば、視覚的特徴に基づいて訓練して得られたテキスト認識モデルの認識次元は視覚的情報であり、テキスト特徴に基づいて訓練して得られたテキスト認識モデルの認識次元はテキスト情報であるため、テキスト認識モデルに対してテキスト認識を行うとき、認識の正確性が低いという欠陥がある。
【0028】
本開示の発明者は、上記問題の少なくとも1つを回避するために、創造的労働を通じて、視覚的特徴及び語義特徴という2つの次元から訓練してテキスト認識モデルを得て、訓練プロセスでは、2つの次元にそれぞれ対応するパラメータ(損失値など)が共有されるという本開示の発明構想に思いついた。
【0029】
本開示は、上記発明構想に基づき、テキスト認識の信頼性の向上を達成するテキスト認識モデルの訓練方法、テキスト認識方法及び装置を提供し、人工知能の分野における深層学習、コンピュータビジョン技術の分野に適用され、OCR認識などのシーンに適用できる。
【0030】
図1は、本開示の第1の実施例による概略図であり、
図1に示すように、本開示の実施例のテキスト認識モデルの訓練方法は、以下のステップを含む。
【0031】
S101では、取得されたサンプル画像の視覚的特徴を予測し、サンプル画像の予測されるテキスト文字を得る。
【0032】
サンプル画像にはテキストが含まれる。
【0033】
例示的に、本実施例の実行主体は、テキスト認識モデルの訓練装置(以下、訓練装置と略称)であってもよく、訓練装置は、サーバ(例えば、クラウドサーバ、又は、ローカルサーバ、又は、サーバクラスタ)であってもよいし、または、端末機器、コンピュータ、プロセッサ、チップなどであってもよく、本実施例は、それについて限定しない。
【0034】
当該ステップは、テキストを含むサンプル画像を取得し、サンプル画像に対して特徴抽出を行い、サンプル画像の視覚的特徴、具体的には、テクスチャ特徴、輪郭特徴、カラー特徴、及び形状特徴など、ここで一々例示しない、サンプル画像内のテキストの視覚的特徴を得るステップとして理解できる。
【0035】
本実施例は、視覚的特徴に基づいてサンプル画像のテキストを予測し、予測されるテキスト文字を得る手段について限定せず、エンコーダに基づいて実現する手段が挙げられる。
【0036】
S102では、取得されたサンプルテキストの語義特徴を予測し、サンプルテキストの予測されるテキスト文字を得る。
【0037】
同様に、当該ステップは、サンプルテキストを取得し、サンプルテキストが、サンプル画像に含まれるテキストなど、サンプル画像に対応するサンプルテキストであってもよいし、サンプル画像内のテキストと異なるサンプルテキストであってもよく、サンプルテキストに対して特徴抽出を行い、サンプルテキストの語義特徴、具体的には、テキストの各文字列間の論理的関係など、サンプルテキスト内のテキストの語義特徴を得るステップとして理解できる。
【0038】
同様に、本実施例は、語義特徴に基づいてサンプルテキストのテキストを予測し、予測されるテキスト文字を得る手段について限定せず、エンコーダに基づいて実現する手段が挙げられる。
【0039】
S103では、サンプル画像の予測されるテキスト文字に従ってサンプル画像に対応する第1の損失値を決定し、サンプルテキストの予測されるテキスト文字に従ってサンプルテキストに対応する第2の損失値を決定する。
【0040】
第1の損失値は、サンプル画像の実際のテキスト文字と予測されるテキスト文字との間の差分情報として理解できる。第2の損失値は、サンプルテキストの実際のテキスト文字と予測されるテキスト文字との間の差分情報として理解できる。
【0041】
S104では、第1の損失値及び第2の損失値に従って訓練してテキスト認識モデルを得る。
【0042】
テキスト認識モデルは、認識待ちのテキスト及び認識待ちの画像のうちの少なくとも一方に対してテキスト認識を行うためのものである。
【0043】
つまり、本実施例では、視覚的特徴及び語義特徴という2つの次元から訓練されたパラメータ(すなわち、第1の損失値及び第2の損失値)を共有して、訓練してテキスト認識モデルを得ることにより、テキスト認識モデルは視覚的情報のみならず、語義コンテキストロジックをもマイニングすることができるようになり、それにより、テキスト認識モデルに基づいてテキスト認識を行うとき、テキスト認識の多様性及び全面性を向上させることができる。
【0044】
上記分析に基づき、本開示の実施例は、テキスト認識モデルの訓練方法を提供し、当該方法は、取得されたサンプル画像の視覚的特徴を予測し、サンプル画像の予測されるテキスト文字を得て、サンプル画像にはテキストが含まれ、取得されたサンプルテキストの語義特徴を予測し、サンプルテキストの予測されるテキスト文字を得て、サンプル画像の予測されるテキスト文字に従ってサンプル画像に対応する第1の損失値を決定し、サンプルテキストの予測されるテキスト文字に従ってサンプルテキストに対応する第2の損失値を決定し、第1の損失値及び第2の損失値に従って訓練してテキスト認識モデルを得て、テキスト認識モデルが認識待ちのテキスト及び認識待ちの画像のうちの少なくとも一方に対してテキスト認識を行うためのものであるステップを含み、本実施例では、サンプル画像に対応する第1の損失値、及びサンプルテキストに対応する第2の損失値を決定し、第1の損失値及び第2の損失値を共有して訓練してテキスト認識モデルを得ることにより、単一な特徴次元(視覚的特徴次元又は語義特徴次元など)に基づいて訓練してテキスト認識モデルを得ることが原因となる信頼性が低いという欠陥は回避され、訓練の全面性及び多様性は向上し、テキスト認識モデルによるテキスト認識の正確性及び信頼性の技術的効果は向上する。
【0045】
図2は、本開示の第2の実施例による概略図であり、
図2に示すように、本開示の実施例のテキスト認識モデルの訓練方法は、以下のステップを含む。
【0046】
S201では、取得されたサンプル画像の視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得て、取得されたサンプルテキストの語義特徴に対してマスク予測を行い、予測される語義特徴を得る。
【0047】
サンプル画像にはテキストが含まれる。
【0048】
煩雑な記述を回避するために、上記実施例と同じである本実施例の技術的特徴について、本実施例では繰り返して説明しないことを理解すべきである。
【0049】
視覚的特徴に対してマスク予測を行うことは、視覚的特徴のマスキングとも呼ばれ、視覚的特徴の一部に対してマスク(mask)操作(又はマスキング操作とも呼ばれる)を行い、マスキングされた部分の視覚的特徴(すなわち、予測される視覚的特徴)を予測して得ることとして理解できる。
【0050】
同様に、語義特徴に対してマスク予測を行うことは、語義特徴のマスキングとも呼ばれ、語義特徴の一部に対してマスク(mask)操作(又はマスキング操作とも呼ばれる)を行い、マスキングされた部分の語義特徴(すなわち、予測される視覚的特徴)を予測して得ることとして理解できる。
【0051】
S202では、予測される視覚的特徴に従ってサンプル画像のテキストの第1の損失値を決定し、予測される語義特徴に従ってサンプルテキストの第2の損失値を決定する。
【0052】
S203では、第1の損失値及び第2の損失値に従って訓練してテキスト認識モデルを得る。
【0053】
テキスト認識モデルは、認識待ちのテキスト及び認識待ちの画像のうちの少なくとも一方に対してテキスト認識を行うためのものである。
【0054】
同様に、本実施例では、視覚的特徴及び語義特徴という2つの次元から訓練されたパラメータ(すなわち、第1の損失値及び第2の損失値)を共有して、訓練してテキスト認識モデルを得ることにより、テキスト認識モデルは視覚的情報のみならず、語義コンテキストロジックをもマイニングすることができるようになり、それにより、テキスト認識モデルに基づいてテキスト認識を行うとき、テキスト認識の多様性及び全面性を向上させることができる。
【0055】
以下、本開示の実現原理をより深く理解できるようにするために、
図3を参照して上記実施例(
図1及び
図2に示される少なくとも1つの実施例)についてさらに詳細に説明する。
【0056】
図3は、本開示の第3の実施例による概略図であり、
図3に示すように、本開示の実施例のテキスト認識モデルの訓練方法は、以下のステップを含む。
【0057】
S301では、基本ネットワークのコーディングモジュールにより、入力されたサンプル画像に対して視覚的特徴抽出処理を行い、サンプル画像の視覚的特徴を得る。
【0058】
サンプル画像にはテキストが含まれる。視覚的特徴は、具体的に、サンプル画像内のテキストの視覚的な特徴である。
【0059】
同様に、煩雑な記述を回避するために、上記実施例と同じである本実施例の技術的特徴について、本実施例では繰り返して説明しないことを理解すべきである。
【0060】
上記分析に基づき、テキスト認識モデルの訓練は、基本ネットワークを利用して実現できることがわかり、本実施例では、基本ネットワークは、
図4に示される第1のコーディングモジュール及び第2のコーディングモジュールなど、コーディングモジュール(Encoder Moule)を含み、サンプル画像は、
図4に示される「hello」のようなテキストを含む画像である。
【0061】
本実施例は、コーディングモジュールの構造について限定しない。例えば、コーディングモジュールは、畳み込みニューラルネットワークモデル(CNN)構造であってもよいし、ビジョントランスフォーマー(Vision Transformer、ViT)構造であってもよいし、トランスフォーマー(Transformer)構造などであってもよい。
【0062】
S302では、基本ネットワークの第1のコンテキストエンハンスメントモジュールにより、視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得る。
【0063】
同様に、基本ネットワークは、第1のコンテキストエンハンスメントモジュールを含む。第1のコンテキストエンハンスメントモジュールの「第1」は、後述する第2のコンテキストエンハンスメントモジュールと区別するためのものであり、第1のコンテキストエンハンスメントモジュールを限定するものとして理解できないことを理解すべきである。
【0064】
コンテキストエンハンスメントモジュールは、入力特徴シーケンス間の相互推論能力を強化するために使用でき、コンテキストエンハンスメントモジュールの構造は、リカレントニューラルネットワーク(Recurrent Neural Network、 RNN)構造又はTransformer構造などであってもよく、本実施例は、それについて限定しない。
【0065】
例示的に、基本ネットワークは、コンテキストエンハンスメントモジュール(Context Module)を含み、
図4に示すように、基本ネットワークは、2つのコンテキストエンハンスメントモジュールを含んでもよく、視覚的特徴を処理するためのコンテキストエンハンスメントモジュールは、
図4に示される第1のコンテキストエンハンスメントモジュールであってもよく、語義特徴を処理するためのコンテキストエンハンスメントモジュールは、
図4に示される第2のコンテキストエンハンスメントモジュールであってもよい。
【0066】
すなわち、
図4に示すように、上部にあるコンテキストエンハンスメントモジュールが第1のコンテキストエンハンスメントモジュールで、下部にあるコンテキストエンハンスメントモジュールが第2のコンテキストエンハンスメントモジュールである。
【0067】
相応に、本実施例では、第1のコンテキストエンハンスメントモジュールは、視覚的特徴間の相互推論能力を強化するために使用でき、視覚的特徴の一部により他の視覚的特徴を推論して得る能力が挙げられる。また、第1のコンテキストエンハンスメントモジュールの構造は、RNN構造又はTransformer構造などであってもよい。
【0068】
コンテキストエンハンスメントモジュールには、マスクフィーチャーモデリング(Mask Feature Modelling)を導入して、マスクフィーチャーモデリングによる入力から特徴予測出力のプロセスにより、コンテキストエンハンスメントモジュールは、入力された特徴のコンテキストへの理解を強めるようになる。
【0069】
例示的に、本実施例では、第1のコンテキストエンハンスメントモジュールには、マスクフィーチャーモデリングを導入して、マスクフィーチャーモデリングにより、視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得てもよい。
【0070】
マスクフィーチャーモデリングは、マスク言語モデリング(MLM)、マスク量子化予測(wav2vec 2.0)、マスク画像再構成(Masked Autoencoder、MAE)などであってもよい。
【0071】
図4のコンテキストエンハンスメントモジュールの数は例示的に説明するためのものにすぎず、他のいくつかの実施例では、コンテキストエンハンスメントモジュールの数が1つであってもよく、他のいくつかの実施例では、コンテキストエンハンスメントモジュールの数が複数であってもよいことを理解すべきである。
【0072】
S303では、基本ネットワークの第1のデコーディングモジュールにより、予測される視覚的特徴に対してデコーディング処理を行い、予測される視覚的特徴に対応する予測されるテキスト文字を得る。
【0073】
同様に、本実施例における第1のデコーディングモジュールの「第1」は、後述する第2のデコーディングモジュールと区別するためものであり、第1のデコーディングモジュールを限定するものとして理解できない。
【0074】
本実施例は、デコーディングモジュールのデコーディング手段について限定しない。例えば、デコーディングモジュールのデコーディング手段は、コネクショニスト時分類(Connectionist Temporal Classification、CTC)のデコーディング手段、又は注意機構(Attention)のデコーディング手段、又はトランスフォーマーデコーダ(transformer decoder)のデコーディング手段などであってもよい。
【0075】
例示的に、第1のデコーディングモジュールのデコーディング手段は、CTCのデコーディング手段であってもよく、
図4に示すように、
図4には、2つのデコーディングモジュール(Decoder Module)が含まれ、相応に、
図4の上部に示されるデコーディングモジュールは第1のデコーディングモジュールであってもよい。
【0076】
S304では、予測される視覚的特徴に対応する予測されるテキスト文字と、サンプル画像のラベル付けされたテキスト文字との間の第1の損失値を計算する。
【0077】
例示的に、当該ステップは、サンプル画像のラベル付けされたテキスト文字を取得し、予測される視覚的特徴に対応する予測されるテキスト文字、及びサンプル画像のラベル付けされたテキスト文字に従って、サンプル画像内のテキストの損失値(すなわち、第1の損失値)を計算して得るステップとして理解できる。
【0078】
サンプル画像のラベル付けされたテキスト文字は、サンプル画像の実際のテキスト文字として理解でき、手動でラベル付けされてもよいし、自動的にラベル付けされてもよく、本実施例は、それについて限定しない。
【0079】
【0080】
【0081】
本実施例では、予測される視覚的特徴に対してデコーディング処理を行い、予測される視覚的特徴に対応する予測されるテキスト文字を得て、予測される視覚的特徴に対応する予測されるテキスト文字に従って第1の損失値を決定することにより、第1の損失値は、サンプル画像のテキストに対応する損失値を比較的正確にキャラクタリゼーションすることができるようになり、訓練して得られたテキスト認識モデルは、視覚的特徴次元間の比較的強い推論能力を習得することができるようになり、それにより、テキスト認識モデルの正確性は向上する。
【0082】
好ましくは、サンプル画像のラベル付けされたテキスト文字と、予測される視覚的特徴に対応する予測されるテキスト文字とを組み合わせて第1の損失値を決定することにより、サンプル画像のラベル付けされたテキスト文字によってキャラクタリゼーションされるのは、サンプル画像内の実際のテキスト文字であるため、計算して得られた第1の損失値は、真実らしさが高く、適切性が強い。
【0083】
S305では、基本ネットワークのテキスト埋め込みモジュールにより、入力されたサンプルテキストの語義特徴を決定する。
【0084】
テキスト埋め込みモジュール(Text Embedding)は、ワンホット(one-hot)エンコーディング又はリードホット(word2vec)エンコーディングに基づいて語義特徴を決定してもよく、ひいては、学習可能な埋め込みモジュールを利用して語義特徴を決定してもよい。
図4に示すように、テキスト「hello」が含まれるサンプルテキストをテキスト埋め込みモジュールに入力し、サンプルテキストの語義特徴を得ることができる。
【0085】
S306では、基本ネットワークの第2のコンテキストエンハンスメントモジュールにより、語義特徴に対してマスク予測を行い、予測される語義特徴を得る。
【0086】
第2のコンテキストエンハンスメントモジュールの実現原理について、第1のコンテキストエンハンスメントモジュールに関する説明を参照することができ、ここで繰り返して説明しない。
【0087】
上記分析に基づき、
図4には2つのコンテキストエンハンスメントモジュールが含まれ、下部にあるコンテキストエンハンスメントモジュールが第2のコンテキストエンハンスメントモジュールである。
【0088】
S307では、基本ネットワークの第2のデコーディングモジュールにより、予測される語義特徴に対してデコーディング処理を行い、予測される語義特徴に対応する予測されるテキスト文字を得る。
【0089】
上記分析に基づき、
図4には2つのデコーディングモジュールが含まれ、下部に示されるデコーディングモジュールが
図4に示される第2のデコーディングモジュールである。
【0090】
S308では、予測される語義特徴に対応する予測されるテキスト文字と、サンプルテキストのラベル付けされたテキスト文字との間の第2の損失値を計算する。
【0091】
例示的に、当該ステップは、サンプルテキストのラベル付けされたテキスト文字を取得し、予測される語義特徴に対応する予測されるテキスト文字、及びサンプルテキストのラベル付けされたテキスト文字に従って、サンプルテキスト内のテキストの損失値(すなわち、第2の損失値)を計算して得るステップとして理解できる。
【0092】
サンプルテキストのラベル付けされたテキスト文字は、サンプルテキストの実際のテキスト文字として理解でき、手動でラベル付けされてもよいし、自動的にラベル付けされてもよく、本実施例は、それについて限定しない。
【0093】
【0094】
【0095】
同様に、本実施例では、予測される語義特徴に対してデコーディング処理を行い、予測される語義特徴に対応する予測されるテキスト文字を得て、予測される語義特徴に対応する予測されるテキスト文字に従って第2の損失値を決定することにより、第2の損失値は、サンプルテキストに対応する損失値を比較的正確にキャラクタリゼーションすることができるようになり、訓練して得られたテキスト認識モデルは、語義特徴次元間の比較的強い推論能力を習得することができるようになり、それにより、テキスト認識モデルの正確性は向上する。
【0096】
好ましくは、サンプルテキストのラベル付けされたテキスト文字と、予測される語義特徴に対応する予測されるテキスト文字とを組み合わせて第2の損失値を決定することにより、サンプルテキストのラベル付けされたテキスト文字によってキャラクタリゼーションされるのは、サンプルテキスト内の実際のテキスト文字であるため、計算して得られた第2の損失値は、真実らしさが高く、適切性が強い。
【0097】
S309では、第1の損失値と第2の損失値との平均値を計算する。
【0098】
S310では、平均値に従って基本ネットワークのパラメータを調整し、テキスト認識モデルを得る。
【0099】
テキスト認識モデルは、認識待ちのテキスト及び認識待ちの画像のうちの少なくとも一方に対してテキスト認識を行うためのものである。
【0100】
例示的に、平均値に基づいて基本ネットワークに対して反復訓練を行い、テキスト認識モデルを得る。
【0101】
例えば、平均値に基づき、例えば、
図4に示される入力されたテキストが「hello」で、出力されたテキストも「hello」であるか、反復回数がプリセットのしきい値に達するように、反復訓練が行われた基本ネットワークモデルから出力されたテキストが実際のテキストと同じになるまで、コーディングモジュール、コンテキストエンハンスメントモジュール(第1のコンテキストエンハンスメントモジュール及び第2のコンテキストエンハンスメントモジュールが含まれる)、デコーディングモジュール(第1のデコーディングモジュール及び第2のデコーディングモジュールが含まれる)、及びテキスト埋め込みモジュールのパラメータを調整し続ける。
【0102】
本実施例では、第1の損失値と第2の損失値との平均値を決定し、平均値に従って訓練してテキスト認識モデルを得て、第1の損失値及び第2の損失値を共有して訓練してテキスト認識モデルを得ることにより、テキスト認識モデルは、視覚的特徴次元の比較的強い推論能力、並びに語義特徴次元の比較的強い推論能力を備えるようになり、テキスト認識モデルのテキスト認識の信頼性及び正確性は向上する。
【0103】
図5は、本開示の第4の実施例による概略図であり、
図5に示すように、本開示の実施例のテキスト認識方法は、以下のステップを含む。
【0104】
S501では、認識待ちの対象を取得する。
【0105】
認識待ちの対象にはテキストが含まれ、認識待ちの対象が認識待ちの画像又は認識待ちのテキストである。
【0106】
例示的に、本実施例の実行主体は、テキスト認識装置であってもよく、テキスト認識装置は、訓練装置と同じ装置であってもよいし、異なる装置であってもよく、本実施例は、それについて限定しない。
【0107】
認識待ちの対象を取得するステップについて、下記の例を参照して実現されることができる。
【0108】
一例では、テキスト認識装置は、対象収集(画像収集など)装置に接続され、対象収集装置から送信された認識待ちの対象を受信してもよい。
【0109】
他の例では、テキスト認識装置は、認識待ちの対象をロードするためのツールを提供してもよく、ユーザは認識待ちの対象をロードするための当該ツールを使用して認識待ちの対象をテキスト認識装置に伝送してもよい。
【0110】
認識待ちの対象をロードするためのツールは、外部機器に接続するためのインタフェースであってもよく、例えば、他の記憶デバイスに接続するためのインタフェースが挙げられ、当該インタフェースを介して外部機器から伝送された認識待ちの対象を取得する。また、認識待ちの対象をロードするためのツールは、表示装置にしてもよく、例えば、テキスト認識装置により、表示装置に認識待ちの対象をロードする機能付きのインタフェースを入力することができ、ユーザは、当該インタフェースにおいて認識待ちの対象をテキスト認識装置にインポートすることができる。
【0111】
S502では、予め訓練されたテキスト認識モデルに基づいて認識待ちの対象に対してテキスト認識を行い、認識待ちの対象に対応するテキストコンテンツを得る。
【0112】
テキスト認識モデルは、上記いずれか1つの実施例に記載のテキスト認識モデルの訓練方法に基づいて得られたものである。
【0113】
本実施例では、上記方法に基づいて訓練して得られたテキスト認識モデルを使用し、認識待ちの対象に対してテキスト認識を行うことにより、視覚的コンテキストエンハンスメント及び語義コンテキストエンハンスメントの効果は達成され、推論過程では、テキスト認識モデルに追加の計算オーバーヘッドとコストをもたらしていない。挑戦的なビジネスシーンにおけるOCRによる製品認識の全体的な効果は強化でき、AI製品のエクスペリエンスは向上する。新たな文字認識方法により、視覚的特徴の自己監視再構成を兼ねて視覚的コンテキストを強化し、マスクテキスト文字/単語の予測用のサンプルテキストを共有して語義コンテキスト推論能力を強化し、テキスト認識モデルの精度が大幅に向上する。相応に、OCRによる製品認識に関する垂直技術の適用がより広く促進されることができ、開発コストを削減することができ、精度がより保証され、垂直適用性がより高くなり、例えば、金融(領収書画像のテキスト認識など)シーン、教育(問題用紙画像のテキスト認識など)シーン、医療(病歴画像のテキスト認識など)シーン、保険(保険証券画像のテキスト認識など)シーン、オフィス(企業の財務報告画像のテキスト認識など)シーンが挙げられる。
【0114】
いくつかの実施例では、認識待ちの対象が認識待ちの画像である場合、予め訓練されたテキスト認識モデルに基づいて認識待ちの対象に対してテキスト認識を行い、認識待ちの対象に対応するテキストコンテンツを得るが、当該ステップは、以下のステップを含む。
【0115】
第1のステップでは、認識待ちの画像に対して特徴抽出処理を行い、認識待ちの画像の視覚的特徴を得る。
【0116】
第2のステップでは、テキスト認識モデルを使用して、認識待ちの画像の視覚的特徴に従って認識待ちの画像に対してテキスト認識を行い、認識待ちの画像に対応するテキストコンテンツを得る。
【0117】
例示的に、上記分析に基づき、認識待ちの対象が認識待ちの画像である場合、認識待ちの画像をテキスト認識モデルの
図4に示されるコーディングモジュールに入力し、コーディングモジュールにより、認識待ちの画像に対してコーディング処理を行い、認識待ちの画像の視覚的特徴を得て、認識待ちの画像の視覚的特徴を、第1のコンテキストエンハンスメントモジュール又は第2のコンテキストエンハンスメントモジュールなど、テキスト認識モデルのコンテキストエンハンスメントモジュールに入力し、視覚的特徴次元での強力な推論能力及び語義特徴次元での強力な推論能力を備えた予測される視覚的特徴を出力し、当該視覚的特徴を、第1のデコーディングモジュール又は第2のデコーディングモジュールなど、テキスト認識モデルのデコーディングモジュールに入力し、高い正確性及び高い信頼性の、認識待ちの画像に対応するテキストコンテンツを出力してもよい。
【0118】
他のいくつかの実施例では、認識待ちの対象が認識待ちのテキストである場合、予め訓練されたテキスト認識モデルに基づいて認識待ちの対象に対してテキスト認識を行い、認識待ちの対象に対応するテキストコンテンツを得るが、当該ステップは、以下のステップを含む。
【0119】
第1のステップでは、認識待ちのテキストに対して特徴抽出処理を行い、認識待ちのテキストの語義特徴を得る。
【0120】
第2のステップでは、テキスト認識モデルを使用して、認識待ちのテキストの語義特徴に従って認識待ちのテキストに対してテキスト認識を行い、認識待ちのテキストに対応するテキストコンテンツを得る。
【0121】
例示的に、上記分析に基づき、認識待ちの対象が認識待ちのテキストである場合、認識待ちのテキストをテキスト認識モデルの
図4に示されるテキスト埋め込みモジュールに入力し、テキスト埋め込みモジュールにより、認識待ちのテキストに対してテキストマッピング処理を行い、認識待ちのテキストの語義特徴を得て、認識待ちのテキストの語義特徴を、第1のコンテキストエンハンスメントモジュール又は第2のコンテキストエンハンスメントモジュールなど、テキスト認識モデルのコンテキストエンハンスメントモジュールに入力し、視覚的特徴次元での強力な推論能力及び語義特徴次元での強力な推論能力を備えた予測される語義特徴を出力し、当該語義特徴を、第1のデコーディングモジュール又は第2のデコーディングモジュールなど、テキスト認識モデルのデコーディングモジュールに入力し、高い正確性及び高い信頼性の認識待ちのテキストに対応するテキストコンテンツを出力してもよい。
【0122】
つまり、
図4及び上記分析に基づき、訓練してテキスト認識モデルを得た後、テキスト認識モデルの適用を容易にするために、テキスト認識モデルから、冗長コンテキストエンハンスメントモジュール及びデコーディングモジュールなど、一部のブランチを取り除くことができる。
【0123】
図6は、本開示の第5の実施例による概略図であり、
図6に示すように、本開示の実施例のテキスト認識モデルの訓練装置600は、
取得されたサンプル画像の視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得るための第1の予測ユニット601であって、サンプル画像にはテキストが含まれる第1の予測ユニット601と、
取得されたサンプルテキストの語義特徴に対してマスク予測を行い、予測される語義特徴を得るための第2の予測ユニット602と、
予測される視覚的特徴に従ってサンプル画像のテキストの第1の損失値を決定するための第1の決定ユニット603と、
予測される語義特徴に従ってサンプルテキストの第2の損失値を決定するための第2の決定ユニット604と、
第1の損失値及び第2の損失値に従って訓練してテキスト認識モデルを得るための訓練ユニット605であって、テキスト認識モデルが認識待ちのテキスト及び認識待ちの画像のうちの少なくとも一方に対してテキスト認識を行うためのものである訓練ユニット605と、を含む。
【0124】
図7は、本開示の第6の実施例による概略図であり、
図7に示すように、本開示の実施例のテキスト認識モデルの訓練装置700は、以下のユニットを含む。
【0125】
第1の入力ユニット701は、取得されたサンプル画像を予め設定された基本ネットワークのコーディングモジュールに入力するためのものである。
【0126】
第1の出力ユニット702は、視覚的特徴を出力するためのものである。
【0127】
第2の入力ユニット703は、取得されたサンプルテキストを予め設定された基本ネットワークのテキスト埋め込みモジュールに入力するためのものである。
【0128】
第2の出力ユニット704は、語義特徴を出力するためのものである。
【0129】
第1の予測ユニット705は、取得されたサンプル画像の視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得るためのものであり、サンプル画像にはテキストが含まれる。
【0130】
第2の予測ユニット706は、取得されたサンプルテキストの語義特徴に対してマスク予測を行い、予測される語義特徴を得るためのものである。
【0131】
第1の決定ユニット707は、予測される視覚的特徴に従ってサンプル画像のテキストの第1の損失値を決定するためのものである。
【0132】
図7を参照して分かるように、いくつかの実施例では、第1の決定ユニット707は、
予測される視覚的特徴に対してデコーディング処理を行い、予測される視覚的特徴に対応する予測されるテキスト文字を得るための第1のデコーディングサブユニット7071と、
予測される視覚的特徴に対応する予測されるテキスト文字に従って第1の損失値を決定するための第1の決定サブユニット7072と、を含む。
【0133】
いくつかの実施例では、第1の決定サブユニット7072は、
サンプル画像のラベル付けされたテキスト文字を取得するための第1の取得モジュールと、
予測される視覚的特徴に対応する予測されるテキスト文字、及びサンプル画像のラベル付けされたテキスト文字に従って、第1の損失値を計算して得るための第1の計算モジュールと、を含む。
【0134】
第2の決定ユニット708は、予測される語義特徴に従ってサンプルテキストの第2の損失値を決定するためのものである。
【0135】
図7を参照して分かるように、いくつかの実施例では、第2の決定ユニット708は、
予測される語義特徴に対してデコーディング処理を行い、予測される語義特徴に対応する予測されるテキスト文字を得るための第2のデコーディングサブユニット7081と、
予測される語義特徴に対応する予測されるテキスト文字に従って第2の損失値を決定するための第2の決定サブユニット7082と、を含む。
【0136】
いくつかの実施例では、第2の決定サブユニット7082は、
サンプルテキストのラベル付けされたテキスト文字を取得するための第2の取得モジュールと、
予測される語義特徴に対応する予測されるテキスト文字、及びサンプルテキストのラベル付けされたテキスト文字に従って、第2の損失値を計算して得るための第2の計算モジュールと、を含む。
【0137】
訓練ユニット709は、第1の損失値及び第2の損失値に従って訓練してテキスト認識モデルを得るためのものであり、テキスト認識モデルが認識待ちのテキスト及び認識待ちの画像のうちの少なくとも一方に対してテキスト認識を行うためのものである。
【0138】
上記分析に基づき、いくつかの実施例では、訓練ユニット709は、第1の損失値及び第2の損失値に従ってコーディングモジュールのパラメータを調整し、テキスト認識モデルを得るためのものである。
【0139】
上記分析に基づき、いくつかの実施例では、訓練ユニット709は、第1の損失値及び第2の損失値に従って前記テキスト埋め込みモジュールのパラメータを調整し、テキスト認識モデルを得るためのものである。
【0140】
図7を参照して分かるように、いくつかの実施例では、訓練ユニット709は、
第1の損失値と第2の損失値との平均値を決定するための第3の決定サブユニット7091と、
平均値に従って訓練してテキスト認識モデルを得るための訓練サブユニット7092と、を含む。
【0141】
いくつかの実施例では、テキスト認識モデルの訓練装置700は、予め設定された基本ネットワークに適用され、基本ネットワークは、コンテキストエンハンスメントモジュール及びデコーディングモジュールを含み、
予測される視覚的特徴は、コンテキストエンハンスメントモジュールに基づいてサンプル画像の視覚的特徴に対してマスク予測を行うことにより得られたものである。
【0142】
例示的に、第1の予測ユニット705は、予め設定された基本ネットワークのコンテキストエンハンスメントモジュールに基づき、取得されたサンプル画像の視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得るために使用でき、
第1の損失値は、予測される視覚的特徴及びデコーディングモジュールに基づいて決定されたものである。
【0143】
例示的に、第1のデコーディングサブユニット7071は、基本ネットワークのデコーディングモジュールに基づいて予測される視覚的特徴に対してデコーディング処理を行い、予測される視覚的特徴に対応する予測されるテキスト文字を得て、予測される視覚的特徴に対応する予測されるテキスト文字に基づいて第1の損失値を決定するために使用でき、
テキスト認識モデルは、第1の損失値及び第2の損失値に基づいて基本ネットワークのパラメータを調整して得られたものである。
【0144】
例示的に、訓練ユニット709は、第1の損失値及び第2の損失値に従って、基本ネットワークのパラメータを調整し、テキスト認識モデルを得るために使用できる。
【0145】
いくつかの実施例では、テキスト認識モデルの訓練装置700は、予め設定された基本ネットワークに適用され、基本ネットワークは、コンテキストエンハンスメントモジュール及びデコーディングモジュールを含み、
予測される語義特徴は、コンテキストエンハンスメントモジュールに基づいてサンプルテキストの語義特徴に対してマスク予測を行うことにより得られたものである。
【0146】
例示的に、第2の予測ユニット706は、予め設定された基本ネットワークのコンテキストエンハンスメントモジュールに基づき、取得されたサンプルテキストの語義特徴に対してマスク予測を行い、予測される語義特徴を得るために使用でき、
第2の損失値は、予測される語義特徴及びデコーディングモジュールに基づいて得られたものである。
【0147】
例示的に、第2のデコーディングサブユニット7081は、基本ネットワークのデコーディングモジュールに基づいて予測される語義特徴に対してデコーディング処理を行い、予測される語義特徴に対応する予測されるテキスト文字を得て、予測される語義特徴に対応する予測されるテキスト文字、及びサンプルテキストのラベル付けされたテキスト文字に基づいて第2の損失値を得るために使用でき、
テキスト認識モデルは、第1の損失値及び第2の損失値に基づいて基本ネットワークのパラメータを調整して得られたものである。
【0148】
例示的に、訓練ユニット709は、第1の損失値及び第2の損失値に従って、基本ネットワークのパラメータを調整し、テキスト認識モデルを得るために使用できる。
【0149】
図8は、本開示の第7の実施例による概略図であり、
図8に示すように、本開示の実施例のテキスト認識装置800は、
認識待ちの対象を取得するための取得ユニット801であって、認識待ちの対象にはテキストが含まれ、認識待ちの対象が認識待ちの画像又は認識待ちのテキストである取得ユニット801と、
予め訓練されたテキスト認識モデルに基づいて認識待ちの対象に対してテキスト認識を行い、認識待ちの対象に対応するテキストコンテンツを得るための認識ユニット802と、を含み、
テキスト認識モデルは、上記いずれか1つの実施例に記載のテキスト認識モデルの訓練方法に基づいて得られたものである。
【0150】
いくつかの実施例では、認識待ちの対象が認識待ちの画像である場合、
図8に示すように、認識ユニット802は、
認識待ちの画像に対して特徴抽出処理を行い、認識待ちの画像の視覚的特徴を得るための第1の抽出サブユニット8021と、
テキスト認識モデルを使用して、認識待ちの画像の視覚的特徴に従って認識待ちの画像に対してテキスト認識を行い、認識待ちの画像に対応するテキストコンテンツを得るための第1の認識サブユニット8022と、を含む。
【0151】
いくつかの実施例では、認識待ちの対象が認識待ちのテキストである場合、
図8に示すように、認識ユニット802は、
認識待ちのテキストに対して特徴抽出処理を行い、認識待ちのテキストの語義特徴を得るための第2の抽出サブユニット8023と、
テキスト認識モデルを使用して、認識待ちのテキストの語義特徴に従って認識待ちのテキストに対してテキスト認識を行い、認識待ちのテキストに対応するテキストコンテンツを得るための第2の認識サブユニット8024と、を含む。
【0152】
図9は、本開示の第8の実施例による概略図であり、
図9に示すように、本開示における電子機器900は、プロセッサ901とメモリ902とを含むことができる。
【0153】
メモリ902は、プログラムを記憶するためのものであり、メモリ902は、ランダムアクセスメモリ(random-access memory、RAMと略称)、スタティックランダムアクセスメモリ(static random-access memory、SRAMと略称)、ダブルデータレートの同期ダイナミックランダムアクセスメモリ(Double Data Rate Synchronous Dynamic Random Access Memory、DDR SDRAMと略称)などの揮発性メモリ(volatile memory)を含んでもよいし、メモリは、フラッシュメモリ(flash memory)などの不揮発性メモリ(non-volatile memory)を含んでもよい。メモリ902は、コンピュータプログラム(例えば、上記方法を実現するためのアプリケーションプログラムや機能モジュールなど)やコンピュータ命令などを記憶するためのものであり、上記のコンピュータプログラムやコンピュータ命令などは、領域別に1つ又は複数のメモリ902内に記憶されることができる。また、上記のコンピュータプログラムや、コンピュータ命令、データなどはプロセッサ901によって呼び出されることができる。
【0154】
上記のコンピュータプログラムやコンピュータ命令などは、領域別に1つ又は複数のメモリ902内に記憶されることができる。また、上記のコンピュータプログラムや、コンピュータ命令、データなどはプロセッサ901によって呼び出されることができる。
【0155】
プロセッサ901は、メモリ902内に記憶されたコンピュータプログラムを実行するためのものであり、それによって上記実施例における方法の各ステップは実現される。
【0156】
具体的には、前述した方法の実施例の説明を参照することができる。
【0157】
プロセッサ901とメモリ902は独立した構造であってもよいし、集積された集積構造であってもよい。プロセッサ901とメモリ902は独立した構造である場合、メモリ902とプロセッサ901は、バス903を介して結合されて接続されることができる。
【0158】
本実施例に係る電子機器は、上記方法における技術案を実行することができ、その具体的な実現プロセス及び技術的原理が同じであるため、ここで繰り返して説明しない。
【0159】
本開示に係る技術案において、関連するユーザの個人情報の収集や、保存、使用、加工、伝送、提供、開示などの処理は、いずれも関連する法令の規定に準拠しており、公序良俗にも違反しない。
【0160】
本開示の実施例によれば、本開示は、さらに、電子機器、可読記憶媒体、及びコンピュータプログラムを提供する。
【0161】
本開示の実施例によれば、本開示は、さらに、コンピュータプログラムを提供し、コンピュータプログラムが可読記憶媒体に記憶されており、電子機器の少なくとも1つのプロセッサは、可読記憶媒体からコンピュータプログラムを読み取ることができ、少なくとも1つのプロセッサがコンピュータプログラムを実行すると、電子機器が上記いずれか1つの実施例により提供される技術案を実行する。
【0162】
図10は、本開示の実施例を実施するために使用可能な例示的な電子機器1000の概略ブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルアシスタント、セルラ電話、スマートフォン、ウェアラブルデバイス、他の類似する計算デバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本開示の実施を制限することを意図したものではない。
【0163】
図10に示すように、機器1000は、計算ユニット1001を含み、当該計算ユニット1001は、読み取り専用メモリ(ROM)1002に記憶されたコンピュータプログラム、または、記憶ユニット1008からランダムアクセスメモリ(RAM)1003にロードされたコンピュータプログラムに基づき、さまざまな、適当な動作及び処理を実行することができる。RAM 1003には、さらに、機器1000の操作に必要なさまざまなプログラム及びデータが記憶されることができる。計算ユニット1001、ROM 1002及びRAM 1003は、バス1004を介して接続される。入力/出力(I/O)インタフェース1005も、バス1004に接続される。
【0164】
キーボードやマウスなどの入力ユニット1006と、さまざまなタイプのモニタやスピーカーなどの出力ユニット1007と、磁気ディスクや光ディスクなどの記憶ユニット1008と、ネットワークカードや、モデム、無線通信トランシーバーなどの通信ユニット1009と、を含む、機器1000における複数のコンポーネントは、I/Oインタフェース1005に接続される。通信ユニット1009は、機器1000がインターネットなどのコンピュータネットワーク及び/又はさまざまな電気通信デットワークを介して他の機器と情報/データを交換することを可能にさせる。
【0165】
計算ユニット1001は、処理能力や計算能力を有するさまざまな汎用及び/又は専用処理コンポーネントであってもよい。計算ユニット1001のいくつかの例は、中央処理装置(CPU)、グラフィックスプロセッシングユニット(GPU)、さまざまな専用な人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行するさまざまな計算ユニット、デジタルシグナルプロセッサ(DSP)、および任意の適当なプロセッサ、コントローラー、マイクロコントローラーなどを含むが、それらに限定されない。計算ユニット1001は、テキスト認識モデルの訓練方法及びテキスト認識方法などの上記に記載の各方法や処理を実行する。例えば、いくつかの実施例において、テキスト認識モデルの訓練方法及びテキスト認識方法は、コンピュータソフトウェアプログラムとして実現されることができ、記憶ユニット1008などの機械可読媒体に有形的に含まれている。いくつかの実施例において、コンピュータプログラムの一部またはすべては、ROM 1002及び/又は通信ユニット1009を介して機器1000にロード及び/又はインストールされることができる。コンピュータプログラムは、RAM 1003にロードされて計算ユニット1001により実行されると、上記に記載のテキスト認識モデルの訓練方法及びテキスト認識方法の1つ又は複数のステップを実行することができる。選択的に、他の実施例において、計算ユニット1001は、他の任意の適当な手段(例えば、ファームウェアに頼る)を用いてテキスト認識モデルの訓練方法及びテキスト認識方法を実行するように構成されることができる。
【0166】
本明細書において、上記に記載のシステム及び技術のさまざまな実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップのシステム(SOC)、ロードプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにより実施されることができる。これらのさまざまな実施形態は、1つ又は複数のコンピュータプログラムに実施され、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサが含まれるプログラマブルシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、専用または汎用プログラマブルプロセッサであってもよく、記憶システムや、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータや命令を受信し、そして、データや命令を当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。
【0167】
本開示に係る方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせを採用してプログラミングすることができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又はその他のプログラマブルデータ処理装置のプロセッサ又はコントローラーに提供されることができ、これにより、プログラムコードは、プロセッサ又はコントローラーにより実行されると、フローチャート及び/又はブロック図に示される機能/操作が実施される。プログラムコードは、完全に機械で実行され、部分的に機械で実行されてもよく、独立したソフトウェアパッケージとして部分的に機械で実行され、且つ、部分的にリモートマシンで実行されるか、又は完全にリモートマシン又はサーバで実行されることができる。
【0168】
本開示のコンテキストでは、機械可読媒体は、有形的な媒体であってもよく、命令実行システム、装置又は機器に使用されるプログラム、または、命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含むか又は記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子的なもの、磁気的なもの、光学的なもの、電磁気的なもの、赤外線的なもの、又は半導体システム、装置又は機器、または上記に記載の任意の適合な組み合わせを含むが、それらに限定されない。機械可読記憶媒体のより具体的な例として、1つ又は複数の配線に基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光学的記憶デバイス、磁気的記憶デバイス、又は上記に記載の任意の適合な組み合わせを含む。
【0169】
ユーザとのインタラクションを提供するために、コンピュータ上で、本明細書に説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形態(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
【0170】
本明細書で説明されているシステム及び技術は、バックエンドコンポーネントを含む計算システム(例えば、データサーバとする)、或いは、ミドルウェアコンポーネントを含む計算システム(例えば、アプリケーションサーバ)、或いは、フロントエンドコンポーネントを含む計算システム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、或いは、当該バックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含む計算システムで実施することができる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの実例は、ローカルネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
【0171】
コンピュータシステムは、クライアント端末とサーバとを含むことができる。クライアント端末とサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント端末-サーバの関係を有するコンピュータプログラムによって、クライアント端末とサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおけるホスト製品であり、伝統的な物理ホスト及びVPSサービス(「VirtuaL Private Server」、又は「VPS」と略称)に存在する管理が難しく、ビジネスのスケーラビリティが弱い欠点を解決する。サーバは、さらに、分散システムのサーバか、またはブロックチェーンと組み合わせたサーバであってもよい。
【0172】
上記に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解すべきである。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定しない。
【0173】
上記の発明を実施するための形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本開示の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。