IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特開2023-62150文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体
<>
  • 特開-文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体 図1
  • 特開-文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体 図2
  • 特開-文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体 図3
  • 特開-文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体 図4
  • 特開-文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体 図5
  • 特開-文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体 図6
  • 特開-文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体 図7
  • 特開-文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体 図8
  • 特開-文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体 図9
  • 特開-文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023062150
(43)【公開日】2023-05-02
(54)【発明の名称】文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体
(51)【国際特許分類】
   G06V 30/194 20220101AFI20230425BHJP
【FI】
G06V30/194
【審査請求】有
【請求項の数】33
【出願形態】OL
【公開請求】
(21)【出願番号】P 2023025380
(22)【出願日】2023-02-21
(31)【優先権主張番号】202210983230.9
(32)【優先日】2022-08-16
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110002952
【氏名又は名称】弁理士法人鷲田国際特許事務所
(72)【発明者】
【氏名】ルー ペンユアン
(72)【発明者】
【氏名】チャン チェンチュエン
(72)【発明者】
【氏名】リュー シャンシャン
(72)【発明者】
【氏名】チャオ メイナ
(72)【発明者】
【氏名】シュー ヤンリュー
(72)【発明者】
【氏名】ウー リャング
(72)【発明者】
【氏名】ワン シャオヤン
(72)【発明者】
【氏名】ヤオ クン
(72)【発明者】
【氏名】ハン ジュンユ
(72)【発明者】
【氏名】ディング アールイ
(72)【発明者】
【氏名】ワン ジンドン
(72)【発明者】
【氏名】ウー ティアン
(72)【発明者】
【氏名】ワン ハイフォン
(57)【要約】      (修正有)
【課題】モデルによる認識の正確さを向上させる、文字検出認識技術などのシーンに適用する文字認識モデルトレーニング方法、文字認識方法、装置、機器及び媒体を提供する。
【解決手段】方法は、タグなしのトレーニングサンプルを少なくとも2つのサブサンプル画像に分割し201、少なくとも2つのサブサンプル画像を、可視的属性を有する第1のサブサンプル画像を含む第1のトレーニングセットと、不可視的属性を有する第2のサブサンプル画像を含む第2のトレーニングセットと、に分け202、第2のトレーニングセットを第1のトレーニングセットのタグとし、トレーニング対象エンコーダに対して自己監視トレーニングを実行し、ターゲットエンコーダを得る203。
【選択図】図2
【特許請求の範囲】
【請求項1】
文字認識モデルトレーニング方法であって、
タグなしのトレーニングサンプルを少なくとも2つのサブサンプル画像に分割するステップと、
少なくとも2つの前記サブサンプル画像を、可視的属性を有する第1のサブサンプル画像を含む第1のトレーニングセットと、不可視的属性を有する第2のサブサンプル画像を含む第2のトレーニングセットと、に分けるステップと、
前記第2のトレーニングセットを前記第1のトレーニングセットのタグとし、トレーニング対象エンコーダに対して自己監視トレーニングを実行し、ターゲットエンコーダを得るステップと、を含む、文字認識モデルトレーニング方法。
【請求項2】
前記第2のトレーニングセットを前記第1のトレーニングセットのタグとし、トレーニング対象エンコーダに対して自己監視トレーニングを実行し、ターゲットエンコーダを得るステップは、
前記トレーニング対象エンコーダを初期化し、第1のエンコーダを取得するステップと、
前記第1のエンコーダに基づき、前記第1のトレーニングセットにおける第1のサブサンプル画像の第1の視覚特徴と、前記第2のトレーニングセットにおける第2のサブサンプル画像の第2の視覚特徴と、を抽出するステップと、
前記第1の視覚特徴に対してマスク問い合わせ計算を行い、第3の視覚特徴を取得するステップと、
前記第3の視覚特徴と前記第2の視覚特徴との特徴誤差に従って、前記特徴誤差が第1の誤差条件を満たすまで、前記第1のエンコーダを更新し、最終的に更新される第1のエンコーダをターゲットエンコーダとして決定するステップと、を含む、請求項1に記載の方法。
【請求項3】
前記第3の視覚特徴と前記第2の視覚特徴との特徴誤差に従って、前記特徴誤差が第1の誤差条件を満たすまで、前記第1のエンコーダを更新し、最終的に更新される第1のエンコーダをターゲットエンコーダとして決定するステップは、
トレーニング対象デコーダを初期化し、第1のデコーダを取得するステップと、
前記第1のデコーダに基づき、前記第3の視覚特徴に対して画像再構築を実行することから生じる画像誤差を決定するステップと、
前記第3の視覚特徴と前記第2の視覚特徴との特徴誤差を決定するステップと、
前記特徴誤差と前記画像誤差に基づき、前記特徴誤差が前記第1の誤差条件を満たし且つ前記画像誤差が第2の誤差条件を満たすまで、前記第1のエンコーダを更新し前記画像誤差に基づいて前記第1のデコーダを更新し、最終的に取得された第1のエンコーダをターゲットエンコーダとして決定するステップと、を含む、請求項2に記載の方法。
【請求項4】
前記第1のデコーダに基づき、前記第3の視覚特徴に対して画像再構築を実行することから生じる画像誤差を決定するステップは、
前記第1のデコーダを利用して前記第3の視覚特徴に対してデコード計算処理を行い、第1のデコード特徴を取得するステップと、
前記第1のデコード特徴に対する画像再構築の結果に従って、前記画像誤差を得るステップと、を含む、請求項3に記載の方法。
【請求項5】
前記第1のデコード特徴に対する画像再構築の結果に従って、前記画像誤差を得るステップは、
前記第1のデコード特徴に対して画像再構築処理を行い、第1の予測結果を取得するステップと、
前記第2のサブサンプル画像と前記第1の予測結果を利用して画像誤差計算を行い、前記画像誤差を取得するステップと、を含む、請求項4に記載の方法。
【請求項6】
前記方法は、さらに、
マスク設定ポリシーに従って、少なくとも2つの問い合わせベクトルを第1の問い合わせベクトルと第2の問い合わせベクトルとに分けるステップを含み、前記マスク設定ポリシーは予め設定された第1のマスクレートに基づいて生成されたマスクデータを含み、前記少なくとも2つの問い合わせベクトルは基礎的文字列に対応する空間変換ベクトルであり、
前記第1の視覚特徴に対してマスク問い合わせ計算を行い、第3の視覚特徴を取得するステップは、
前記第2の問い合わせベクトルと前記第1の視覚特徴に基づく特徴予測計算によって、前記第1の視覚特徴の前記第2の問い合わせベクトルにおける出現確率に対応する特徴ベクトルを得るステップと、
前記第1の視覚特徴に対応する特徴ベクトルに対してベクトル組み合わせを行い、前記第3の視覚特徴を得るステップと、を含む、請求項2に記載の方法。
【請求項7】
少なくとも2つのサブサンプル画像を、第1のトレーニングセットと、第2のトレーニングセットと、に分けるステップは、
マスク設定ポリシーを利用して、少なくとも2つの前記サブサンプル画像を、第1のトレーニングセットと、第2のトレーニングセットと、に分けるステップを含む、請求項1に記載の方法。
【請求項8】
文字認識モデルトレーニング方法であって、
合成テキストタグを含む合成サンプルを、少なくとも2つのサブ合成画像に分割するステップと、
少なくとも2つの前記サブ合成画像を、可視的属性を有する第1のサブ合成画像を含む第1の合成セットと、不可視的属性を有する第2のサブ合成画像を含む第2の合成セットと、に分けるステップと、
前記第1の合成セットと前記第2の合成セットに基づき、トレーニング対象デコーダに対して監視付きトレーニングを実行し、前記トレーニング対象デコーダに対応するターゲットデコーダを取得するステップと、を含む、文字認識モデルトレーニング方法。
【請求項9】
前記第1の合成セットと前記第2の合成セットに基づき、トレーニング対象デコーダに対して監視付きトレーニングを実行し、前記トレーニング対象デコーダに対応するターゲットデコーダを取得するステップは、
ターゲットエンコーダを利用して前記第1の合成セットにおける第1のサブ合成画像の第1の特徴シーケンスを抽出するステップであって、前記ターゲットエンコーダは、請求項1~7のいずれか1項に記載の文字認識モデルトレーニング方法に基づいてトレーニングして取得されるものである、ステップと、
前記第2の合成セットにおける第2のサブ合成画像の、前記合成サンプルにおける画像位置に基づき、前記第1の特徴シーケンスに対して特徴補完を行い、第2の特徴シーケンスを取得するステップと、
トレーニング対象デコーダを用いて、前記第2の特徴シーケンスの予測テキストが、前記第2のサブ合成画像の前記合成テキストタグにおける合成テキストと同じであることを、トレーニングターゲットとしてトレーニングし、前記トレーニング対象デコーダに対応するターゲットデコーダを取得するステップと、を含む、請求項8に記載の方法。
【請求項10】
トレーニング対象デコーダを用いて、前記第2の特徴シーケンスの予測テキストが、前記第2のサブ合成画像の前記合成テキストタグにおける合成テキストと同じであることを、トレーニングターゲットとしてトレーニングし、前記トレーニング対象デコーダに対応するターゲットデコーダを取得するステップは、
前記トレーニング対象デコーダを初期化し、第2のデコーダを取得するステップと、
前記第2のデコーダに基づいて前記第2の特徴シーケンスの予測テキストを決定するステップと、
前記予測テキストと、前記第2のサブ合成画像の前記合成テキストタグにおける合成テキストと、を利用してテキスト誤差計算を行い、デコード誤差を取得するステップと、
前記デコード誤差が第3の誤差条件を満たすまで、前記デコード誤差に基づいて前記第2のデコーダを更新し、最終的に取得された前記第2のデコーダを前記ターゲットデコーダとして決定するステップと、を含む、請求項9に記載の方法。
【請求項11】
前記第2のデコーダに基づいて前記第2の特徴シーケンスの予測テキストを決定するステップは、
前記第2のサブ合成画像に基づき、トークンとして格納される第3の問い合わせベクトルを取得するステップと、
前記第3の問い合わせベクトルと前記第2の特徴シーケンスとを、前記第2のデコーダに入力し、第2のデコード特徴を取得するステップと、
前記第2のデコード特徴のテキスト認識処理によって、前記第2の特徴シーケンスの予測テキストを得るステップと、を含む、請求項10に記載の方法。
【請求項12】
前記第2のサブ合成画像に基づき、トークンとして格納される第3の問い合わせベクトルを取得するステップは、
前記第2のサブ合成画像の特徴を抽出するステップと、
トークン生成アルゴリズムに基づき、前記第2のサブ合成画像の特徴をトークン形式に変換し、前記第3の問い合わせベクトルを取得するステップと、を含む、請求項11に記載の方法。
【請求項13】
前記第2の合成セットにおける第2のサブ合成画像の、前記合成サンプルにおける画像位置に基づき、前記第1の特徴シーケンスに対して特徴補完を行い、第2の特徴シーケンスを取得するステップは、
前記第2のサブ合成画像の前記合成サンプルにおける画像位置に基づき、前記第2のサブ合成画像の、前記合成サンプルに対応する合成シーケンスにおけるシーケンス位置を決定するステップと、
前記第1の特徴シーケンスには、前記シーケンス位置に補完ベクトルを挿入し、前記第2の特徴シーケンスを取得するステップと、を含む、請求項9に記載の方法。
【請求項14】
少なくとも2つの前記サブ合成画像を、第1の合成セットと、第2の合成セットと、に分けるステップは、
マスク合成ポリシーに従って、少なくとも2つの前記サブ合成画像を前記第1の合成セットと前記第2の合成セットとに分けるステップを含み、前記マスク合成ポリシーは、予め設定された第2のマスクレートに基づいて生成されるマスクデータを含む、請求項8に記載の方法。
【請求項15】
文字認識方法であって、
ターゲットエンコーダと、ターゲットデコーダと、を決定するステップであって、前記ターゲットエンコーダは、請求項1~7のいずれか1項に記載の文字認識モデルトレーニング方法に基づいてトレーニングして取得されるものであり、前記ターゲットデコーダは、請求項8に記載の文字認識モデルトレーニング方法に基づいてトレーニングして取得されるものである、ステップと、
認識対象画像を少なくとも2つのサブ画像に分割するステップと、
前記ターゲットエンコーダを利用して前記サブ画像の画像特徴を抽出し、少なくとも2つの前記サブ画像にそれぞれ対応する画像特徴を取得するステップと、
前記ターゲットデコーダと少なくとも2つの問い合わせベクトルに基づき、少なくとも2つの前記サブ画像にそれぞれ対応する画像特徴に対してデコード計算を行い、少なくとも2つの前記サブ画像に対応するデコード特徴シーケンスを取得するステップと、
前記デコード特徴シーケンスに従って、前記認識対象画像のターゲットテキストを得るステップと、を含む、文字認識方法。
【請求項16】
文字認識モデルトレーニング装置であって、
タグなしのトレーニングサンプルを少なくとも2つのサブサンプル画像に分割するために用いられる第1の分割ユニットと、
少なくとも2つの前記サブサンプル画像を、可視的属性を有する第1のサブサンプル画像を含む第1のトレーニングセットと、不可視的属性を有する第2のサブサンプル画像を含む第2のトレーニングセットと、に分けるために用いられる第1の分けユニットと、
前記第2のトレーニングセットを前記第1のトレーニングセットのタグとし、トレーニング対象エンコーダに対して自己監視トレーニングを実行し、ターゲットエンコーダを得るために用いられる第1のトレーニングユニットと、を含む、文字認識モデルトレーニング装置。
【請求項17】
第1のトレーニングユニットは、
前記トレーニング対象エンコーダを初期化し、第1のエンコーダを取得するために用いられる第1の取得モジュールと、
前記第1のエンコーダに基づき、前記第1のトレーニングセットにおける第1のサブサンプル画像の第1の視覚特徴と、前記第1のトレーニングセットにおける第2のサブサンプル画像の第2の視覚特徴と、を抽出するために用いられる第1の抽出モジュールと、
前記第1の視覚特徴に対してマスク問い合わせ計算を行い、第3の視覚特徴を取得するために用いられる第1の計算モジュールと、
前記第3の視覚特徴と前記第2の視覚特徴との特徴誤差に従って、前記特徴誤差が第1の誤差条件を満たすまで、前記第1のエンコーダを更新し、最終的に更新される第1のエンコーダをターゲットエンコーダとして決定するために用いられる第1のトレーニングモジュールと、を含む、請求項16に記載の装置。
【請求項18】
前記第1のトレーニングモジュールは、
トレーニング対象デコーダを初期化し、第1のデコーダを取得するために用いられるデコード決定サブモジュールと、
前記第1のデコーダに基づき、前記第3の視覚特徴に対して画像再構築を実行することから生じる画像誤差を決定するために用いられる第1の誤差サブモジュールと、
前記第3の視覚特徴と前記第2の視覚特徴との特徴誤差を決定するために用いられる第2の誤差サブモジュールと、
前記特徴誤差と前記画像誤差に基づき、前記特徴誤差が前記第1の誤差条件を満たし且つ前記画像誤差が第2の誤差条件を満たすまで、前記第1のエンコーダを更新し前記画像誤差に基づいて前記第1のデコーダを更新し、最終的に取得された第1のエンコーダをターゲットエンコーダとして決定するために用いられる第1の更新サブモジュールと、を含む、請求項17に記載の装置。
【請求項19】
前記第1の誤差サブモジュールは、
前記第1のデコーダを利用して前記第3の視覚特徴に対してデコード計算処理を行い、第1のデコード特徴を取得すること、及び
前記第1のデコード特徴に対する画像再構築の結果に従って、前記画像誤差を得ること、に用いられる、請求項18に記載の装置。
【請求項20】
前記第1の誤差サブモジュールは、
前記第1のデコード特徴に対して画像再構築処理を行い、第1の予測結果を取得すること、及び
前記第2のサブサンプル画像と前記第1の予測結果を利用して画像誤差計算を行い、前記画像誤差を取得すること、に用いられる、請求項19に記載の装置。
【請求項21】
前記装置は、
マスク設定ポリシーに従って、少なくとも2つの問い合わせベクトルを第1の問い合わせベクトルと第2の問い合わせベクトルとに分けるために用いられる問い合わせ決定ユニットをさらに含み、前記マスク設定ポリシーは予め設定された第1のマスクレートに基づいて生成されたマスクデータを含み、前記問い合わせベクトルは基礎的文字列に対応する空間変換ベクトルであり、
前記第1の計算モジュールは、
前記第2の問い合わせベクトルと前記第1の視覚特徴に基づく特徴予測計算によって、前記第1の視覚特徴の前記第2の問い合わせベクトルにおける出現確率に対応する特徴ベクトルを得るために用いられるベクトル計算サブモジュールと、
前記第1の視覚特徴に対応する特徴ベクトルに対してベクトル組み合わせを行い、前記第3の視覚特徴を得るために用いられるベクトル組み合わせサブモジュールと、を含む、請求項17に記載の装置。
【請求項22】
前記第1の分けユニットは、
マスク設定ポリシーを利用して、少なくとも2つの前記サブサンプル画像を、第1のトレーニングセットと、第2のトレーニングセットと、に分けるために用いられる第1の分けモジュールを含む、請求項16に記載の装置。
【請求項23】
文字認識モデルトレーニング装置であって、
合成テキストタグを含む合成サンプルを、少なくとも2つのサブ合成画像に分割するために用いられる第2の分割ユニットと、
少なくとも2つの前記サブ合成画像を、可視的属性を有する第1のサブ合成画像を含む第1の合成セットと、不可視的属性を有する第2のサブ合成画像を含む第2の合成セットと、に分けるために用いられる第2の分けユニットと、
前記第1の合成セットと前記第2の合成セットに基づき、トレーニング対象デコーダに対して監視付きトレーニングを実行し、前記トレーニング対象デコーダに対応するターゲットデコーダを取得するために用いられる第2のトレーニングユニットと、を含む、文字認識モデルトレーニング装置。
【請求項24】
前記第2のトレーニングユニットは、
ターゲットエンコーダを利用して前記第1の合成セットにおける第1のサブ合成画像の第1の特徴シーケンスを抽出するために用いられる第2の抽出モジュールであって、前記ターゲットエンコーダは、請求項1~7のいずれか1項に記載の文字認識モデルトレーニング方法に基づいてトレーニングして取得されるものである、第2の抽出モジュールと、
前記第2の合成セットにおける第2のサブ合成画像の、前記合成サンプルにおける画像位置に基づき、前記第1の特徴シーケンスに対して特徴補完を行い、第2の特徴シーケンスを取得するために用いられる特徴補完モジュールと、
トレーニング対象デコーダを用いて、前記第2の特徴シーケンスの予測テキストが、前記第2のサブ合成画像の前記合成テキストタグにおける合成テキストと同じであることを、トレーニングターゲットとしてトレーニングし、前記トレーニング対象デコーダに対応するターゲットデコーダを取得するために用いられる第2のトレーニングモジュールと、を含む、請求項23に記載の装置。
【請求項25】
前記第2のトレーニングモジュールは、
前記トレーニング対象デコーダを初期化し、第2のデコーダを取得するために用いられる第1の取得サブモジュールと、
前記第2のデコーダに基づいて前記第2の特徴シーケンスの予測テキストを決定するために用いられるテキスト予測サブモジュールと、
前記予測テキストと、前記第2のサブ合成画像の前記合成テキストタグにおける合成テキストと、を利用してテキスト誤差計算を行い、デコード誤差を取得するために用いられる第3の誤差サブモジュールと、
前記デコード誤差が第3の誤差条件を満たすまで、前記デコード誤差に基づいて前記第2のデコーダを更新し、最終的に取得された前記第2のデコーダを前記ターゲットデコーダとして決定するために用いられる第2の更新サブモジュールと、を含む、請求項24に記載の装置。
【請求項26】
前記テキスト予測サブモジュールは、
前記第2のサブ合成画像に基づき、トークンとして格納される第3の問い合わせベクトルを取得することと、
前記第3の問い合わせベクトルと前記第2の特徴シーケンスとを、前記第2のデコーダに入力し、第2のデコード特徴を取得することと、
前記第2のデコード特徴のテキスト認識処理によって、前記第2の特徴シーケンスの予測テキストを得ることと、に用いられる、請求項25に記載の装置。
【請求項27】
前記テキスト予測サブモジュールは、
前記第2のサブ合成画像の特徴を抽出すること、及び
トークン生成アルゴリズムに基づき、前記第2のサブ合成画像をトークン形式に変換し、前記第3の問い合わせベクトルを取得すること、に用いられる、請求項26に記載の装置。
【請求項28】
前記特徴補完モジュールは、
前記第2のサブ合成画像の前記合成サンプルにおける画像位置に基づき、前記第2のサブ合成画像の、前記合成サンプルに対応する合成シーケンスにおけるシーケンス位置を決定するために用いられる位置決定サブモジュールと、
前記第1の特徴シーケンスには、前記シーケンス位置に補完ベクトルを挿入し、前記第2の特徴シーケンスを取得するために用いられるベクトル挿入サブモジュールと、を含む、請求項24に記載の装置。
【請求項29】
前記第2の分けユニットは、
マスク合成ポリシーに従って、少なくとも2つの前記サブ合成画像を前記第1の合成セットと前記第2の合成セットとに分けるために用いられる第2の分けモジュールを含み、前記マスク合成ポリシーは、予め設定された第2のマスクレートに基づいて生成されるマスクデータを含む、請求項23に記載の装置。
【請求項30】
文字認識装置であって、
ターゲットエンコーダと、ターゲットデコーダと、を決定するために用いられるターゲット決定ユニットであって、前記ターゲットエンコーダは、請求項1~7のいずれか1項に記載の文字認識モデルトレーニング方法に基づいてトレーニングして取得されるものであり、前記ターゲットデコーダは、請求項8に記載の文字認識モデルトレーニング方法に基づいてトレーニングして取得されるものである、ターゲット決定ユニットと、
認識対象画像について、前記認識対象画像を少なくとも2つのサブ画像に分割するために用いられる第3の分割ユニットと、
前記ターゲットエンコーダを利用して前記サブ画像の画像特徴を抽出し、少なくとも2つの前記サブ画像にそれぞれ対応する画像特徴を取得するために用いられるエンコード計算ユニットと、
前記ターゲットデコーダと少なくとも2つの問い合わせベクトルに基づき、少なくとも2つの前記サブ画像にそれぞれ対応する画像特徴に対してデコード計算を行い、少なくとも2つの前記サブ画像に対応するデコード特徴シーケンスを取得するために用いられるデコード計算ユニットと、
前記デコード特徴シーケンスに従って、前記認識対象画像のターゲットテキストを得るために用いられるテキスト認識ユニットと、を含む、文字認識装置。
【請求項31】
電子機器であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが請求項1~8のいずれか1項に記載の方法を実行することができるように、前記少なくとも1つのプロセッサにより実行される、電子機器。
【請求項32】
コンピュータ命令が記憶されている非一時的なコンピュータ可読記憶媒体であって、前記コンピュータ命令は、コンピュータに請求項1~8のいずれか1項に記載の方法を実行させるために用いられる、非一時的なコンピュータ可読記憶媒体。
【請求項33】
コンピュータプログラムであって、前記コンピュータプログラムがプロセッサにより実行されるとき、コンピュータに請求項1~8のいずれか1項に記載の方法を実現させる、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、人工知能技術の分野、具体的には、深層学習、画像処理、コンピュータ視覚技術の分野に関し、文字検出認識技術などのシーンに適用することができ、特に、文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体に関する。
【背景技術】
【0002】
現在、自然シーンでのOCR(optical character recognition、光学文字認識)技術は、幅広い応用の基盤を持っている。文字検出認識技術においては、文字認識モデルをトレーニングし、そして、トレーニングして得られた文字認識モデルを利用して入力された画像に対して文字認識を行うのが一般的である。
【0003】
しかし、文字認識モデルは、一般的に、監視付きトレーニングの方法を用いるが、監視付きのトレーニング方法を利用する場合、タグ付き画像の特徴を少ししか学習できず、取得された認識モデルによる画像の文字認識の正確率の向上に大きく寄与しない。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示は、文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体を提供する。
【課題を解決するための手段】
【0005】
本開示の第1の態様によれば、文字認識モデルトレーニング方法を提供し、前記方法は、
タグなしのトレーニングサンプルを少なくとも2つのサブサンプル画像に分割するステップと、
少なくとも2つのサブサンプル画像を、可視的属性を有する第1のサブサンプル画像を含む第1のトレーニングセットと、不可視的属性を有する第2のサブサンプル画像を含む第2のトレーニングセットと、に分けるステップと、
前記第2のトレーニングセットを前記第1のトレーニングセットのタグとし、トレーニング対象エンコーダに対して自己監視トレーニングを実行し、ターゲットエンコーダを得るステップと、を含む。
【0006】
本開示の第2の態様によれば、文字認識モデルトレーニング方法を提供し、前記方法は、
合成テキストタグを含む合成サンプルを、少なくとも2つのサブ合成画像に分割するステップと、
少なくとも2つの前記サブ合成画像を、可視的属性を有する第1のサブ合成画像を含む第1の合成セットと、不可視的属性を有する第2のサブ合成画像を含む第2の合成セットと、に分けるステップと、
前記第1の合成セットと前記第2の合成セットに基づき、トレーニング対象デコーダに対して監視付きトレーニングを実行し、前記トレーニング対象デコーダに対応するターゲットデコーダを取得するステップと、を含む。
【0007】
本開示の第3の態様によれば、文字認識方法を提供し、前記方法は、
第1の態様及び第1の態様の様々な可能な文字認識モデルトレーニング方法に従ってトレーニングして取得されるターゲットエンコーダと、第2の態様及び第2の態様の様々な可能な文字認識モデルトレーニング方法に従ってトレーニングして取得されるターゲットデコーダと、を決定するステップと、
認識対象画像を少なくとも2つのサブ画像に分割するステップと、
前記ターゲットエンコーダを利用して前記サブ画像の画像特徴を抽出し、少なくとも2つの前記サブ画像にそれぞれ対応する画像特徴を取得するステップと、
前記ターゲットデコーダと少なくとも2つの問い合わせベクトルに基づき、少なくとも2つの前記サブ画像にそれぞれ対応する画像特徴に対してデコード計算を行い、少なくとも2つの前記サブ画像に対応するデコード特徴シーケンスを取得するステップと、
前記デコード特徴シーケンスに従って、前記認識対象画像のターゲットテキストを得るステップと、を含む。
【0008】
本開示の第4の態様によれば、文字認識モデルトレーニング装置を提供し、前記装置は、
タグなしのトレーニングサンプルを少なくとも2つのサブサンプル画像に分割するために用いられる第1の分割ユニットと、
少なくとも2つのサブサンプル画像を、可視的属性を有する第1のサブサンプル画像を含む第1のトレーニングセットと、不可視的属性を有する第2のサブサンプル画像を含む第2のトレーニングセットと、に分けるために用いられる第1の分けユニットと、
前記第2のトレーニングセットを前記第1のトレーニングセットのタグとし、トレーニング対象エンコーダに対して自己監視トレーニングを実行し、ターゲットエンコーダを得るために用いられる第1のトレーニングユニットと、を含む。
【0009】
本開示の第5の態様によれば、文字認識モデルトレーニング装置を提供し、前記装置は、
合成テキストタグを含む合成サンプルを、少なくとも2つのサブ合成画像に分割するために用いられる第2の分割ユニットと、
少なくとも2つの前記サブ合成画像を、可視的属性を有する第1のサブ合成画像を含む第1の合成セットと、不可視的属性を有する第2のサブ合成画像を含む第2の合成セットと、に分けるために用いられる第2の分けユニットと、
前記第1の合成セットと前記第2の合成セットに基づき、トレーニング対象デコーダに対して監視付きトレーニングを実行し、前記トレーニング対象デコーダに対応するターゲットデコーダを取得するために用いられる第2のトレーニングユニットと、を含む。
【0010】
本開示の第6の態様によれば、文字認識装置を提供し、前記装置は、
第1の態様及び第1の態様の様々な可能な文字認識モデルトレーニング方法に従ってトレーニングして取得されるターゲットエンコーダと、第2の態様及び第2の態様の様々な可能な文字認識モデルトレーニング方法に従ってトレーニングして取得されるターゲットデコーダと、を決定するために用いられるターゲット決定ユニットと、
認識対象画像について、前記認識対象画像を少なくとも2つのサブ画像に分割するために用いられる第3の分割ユニットと、
前記ターゲットエンコーダを利用して前記サブ画像の画像特徴を抽出し、少なくとも2つの前記サブ画像にそれぞれ対応する画像特徴を取得するために用いられるエンコード計算ユニットと、
前記ターゲットデコーダと少なくとも2つの問い合わせベクトルに基づき、少なくとも2つの前記サブ画像にそれぞれ対応する画像特徴に対してデコード計算を行い、少なくとも2つの前記サブ画像に対応するデコード特徴シーケンスを取得するために用いられるデコード計算ユニットと、
前記デコード特徴シーケンスに従って、前記認識対象画像のターゲットテキストを得るために用いられるテキスト認識ユニットと、を含む。
【0011】
本開示の第7の態様によれば、電子機器を提供し、前記電子機器は、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが第1の態様、第2の態様又は第3の態様、及び各態様の様々な可能な方法を実行できるように、前記少なくとも1つのプロセッサにより実行される。
【0012】
本開示の第8の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ可読記憶媒体を提供し、前記コンピュータ命令は、コンピュータに第1の態様、第2の態様又は第3の態様、及び各態様の様々な可能な方法を実行させるために用いられる。
【0013】
本開示の第9の態様によれば、可読記憶媒体に記憶されているコンピュータプログラムを含むコンピュータプログラム製品を提供し、電子機器の少なくとも1つのプロセッサは前記可読記憶媒体から前記コンピュータプログラムを読み取ることができ、前記少なくとも1つのプロセッサは、電子機器が第1の態様、第2の態様又は第3の態様、及び各態様の様々な可能な方法を実行するように、前記コンピュータプログラムを実行する。
【発明の効果】
【0014】
本開示に係る技術を用いると、監視付きトレーニング方法を利用する場合にタグ付き画像の特徴を少ししか学習できず、取得された認識モデルによる画像の文字認識の正確さが低い、という問題が解決され、タグなしのトレーニングサンプルを用いてエンコーダに対して自己監視トレーニングを行い、タグ付きのトレーニングサンプルを用いてデコーダに対して監視付きトレーニングを行う方法を利用し、監視付きトレーニングと監視なしトレーニングとの組み合わせにより、モデルは、画像とテキスト事前情報を同時に学習し、モデルによる認識の正確さを向上させることができる。トレーニングして得られたターゲットエンコーダとターゲットデコーダを利用して認識対象画像に対してテキスト認識を行うと、取得されたターゲットテキストがより正確になり、認識の正確さがより向上する。
【0015】
なお、この部分に記載されているコンテンツは、本開示の実施例の主要な又は重要な特徴を特定することを意図しておらず、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の詳細の説明を通じて容易に理解される。
【図面の簡単な説明】
【0016】
図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
図1】本開示の実施例により提供される文字認識システムの応用例示図である。
図2】本開示の第1の実施例により提供される文字認識モデルトレーニング方法のフローチャートである。
図3】本開示の第2の実施例により提供される文字認識モデルトレーニング方法のフローチャートである。
図4】本開示の第3の実施例により提供される文字認識モデルトレーニング方法のフローチャートである。
図5】本開示の第4の実施例により提供される文字認識モデルトレーニング方法のフローチャートである。
図6】本開示の第5の実施例により提供される文字認識方法のフローチャートである。
図7】本開示の第6の実施例により提供される文字認識モデルトレーニング装置の構造図である。
図8】本開示の第7の実施例により提供される文字認識モデルトレーニング装置の構造図である。
図9】本開示の第8の実施例により提供される文字認識装置の構造図である。
図10】本開示の実施例に係る文字認識モデルトレーニング方法又は文字認識方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0017】
以下、本開示の例示的な実施例について、図面を参照して説明し、理解を容易にするために、その中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、詳細の説明に記載れている実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
【0018】
本開示に係る技術案は、画像文字認識の分野に適用されることができ、自己監視の手段を用いてエンコーダをトレーニングし、監視付きの手段を用いてデコーダをトレーニングすることで、高精度の画像特徴抽出モデルを取得し、高精度の特徴抽出を行うことで高正確度の文字認識を取得し、文字認識の正確さを向上させることができる。
【0019】
関連技術においては、画像認識方法を利用することができ、監視付きの文字認識及び監視なしの文字認識を利用することができる。監視付きの文字認識は、一般的に、データ合成でタグ付きデータを取得するが、合成データと実際に存在する画像との差異が大きいため、監視付きトレーニングによる画像認識の正確さの向上には限度がある。従来の監視なし行列の場合については、タグなしトレーニングサンプルを利用して事前情報を学習する必要があるが、従来の技術案においては、エンコーダの特徴抽出モジュールに対するプリトレーニングだけが着目点であり、テキスト語義に対するトレーニングへの注意を十分に払っておらず、その正確さが高くない。
【0020】
そこで、本開示は、従来の技術案の正確さが低いという技術的問題を解決するために、タグなしのトレーニングサンプルを利用してエンコーダに対して自己監視トレーニングを行い、タグ付きのトレーニングサンプルを利用してデコーダに対して監視付きトレーニングを行うことで、監視付きトレーニングと監視なしトレーニングの組み合わせにより、モデルは、画像とテキスト事前情報を同時に学習し、モデルによる認識の正確さを向上させることができる。トレーニングして得られたターゲットエンコーダとターゲットデコーダを利用して認識対象画像に対してテキスト認識を行い、取得されたターゲットテキストがより正確になり、認識の正確さがより向上する。
【0021】
本開示は、人工知能技術の分野に関し、具体的には、深層学習、画像処理、コンピュータ視覚技術の分野に関し、文字検出認識技術などのシーンに適用することができ、特に、文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体に関する。
【0022】
以下、図面を参照しながら本開示に係る技術案を詳細に説明する。
【0023】
図1に示すように、本開示の実施例により提供される文字認識システムの応用例示図であり、当該システムは、サーバM1を含んでもよく、サーバM1は、画像文字認識用のエンコーダとデコーダをトレーニングすることができる。
【0024】
図1を参照すると、エンコーダに対するトレーニングにおいては、タグなしのトレーニングサンプルを少なくとも2つのサブサンプル画像11に分割することができる。少なくとも2つのサブサンプル画像を、第1のサブサンプル画像に対応する第1のトレーニングセット111と、第2のサブサンプル画像に対応する第2のトレーニングセット112と、に分けることができる。第1のトレーニングセット111と第2のトレーニングセット112を用いてトレーニング対象エンコーダに対して自己監視トレーニングを行うことができる。具体的なトレーニングプロセスは、第1のサブサンプル画像と第2のサブサンプル画像を、それぞれ第1のエンコーダ12に入力し、第1のサブサンプル画像に対応する第1の視覚特徴13と第2のサブサンプル画像に対応する第2の視覚特徴14を取得する。マスク設定ポリシーによってタグ付けされた第2の問い合わせベクトル15と第1の視覚特徴13に基づいてマスク問い合わせ計算を行い、第3の視覚特徴16を取得することができる。第3の視覚特徴16と第2の視覚特徴14に対して特徴誤差計算を行い、第3の視覚特徴16が第2の視覚特徴14に無限に接近することを逆伝播のターゲットとすることができる。さらに、第3の視覚特徴16に対して、第1のデコーダ17によって計算された後、画像再構築を行い、画像再構築の結果を取得し、画像再構築の結果と第2のサブサンプル画像との画像誤差18を決定してもよい。特徴誤差と画像誤差を利用して第1のエンコーダを更新し、画像誤差を利用して第1のデコーダを更新し、すなわち、特徴誤差が第1の誤差条件を満たし且つ画像誤差が第2の誤差条件を満たすまで、第1のエンコーダ12と第1のデコーダ17に逆伝播し、ターゲットエンコーダとして最終的に更新される第1のエンコーダを取得する。
【0025】
選択的に、エンコーダトレーニング終了後、トレーニングして得られたターゲットエンコーダを利用してデコーダをトレーニングしてもよい。図1を参照すると、デコーダに対するトレーニングにおいて、タグ付きの合成サンプルを少なくとも2つのサブ合成画像21に分割し、少なくとも2つのサブ合成画像21を第1の合成セット211と第2の合成セット212に分けてもよい。ターゲットエンコーダ22を利用して第1の合成セット211の中の第1のサブ合成画像の第1の特徴シーケンス23を抽出し、第2の合成セット212の中の第2のサブ合成画像の合成サンプル21における画像位置を利用して、第1の特徴シーケンス23に対して特徴補完を行い、第2の特徴シーケンス24を取得してもよい。第2の特徴シーケンス24と第3の問い合わせベクトル25とを、第2のデコーダ26に入力し、第2のデコーダ26を用いて第2のデコード特徴27の特徴計算を行う。第2のデコード特徴27のテキスト認識処理に基づき、予測テキスト28を得る。予測テキスト28と第2のサブ合成画像との合成テキストタグにおける合成テキスト29に対してテキスト誤差計算を行い、デコード誤差を取得する。デコード誤差は、第3の誤差条件が満たされるまで、第2のデコーダを更新し、ターゲットデコーダを取得するために使用されることができる。
【0026】
実際の応用においては、サーバM1は、端末機器M2と通信接続を構築することができ、端末機器は、例えば、携帯電話、タブレットコンピュータなどの端末を含んでもよい。端末機器M2は、サーバM1に認識対象画像を送信することができる。サーバM1は、認識対象画像を取得した後、トレーニングして得られたターゲットエンコーダとターゲットデコーダを利用して認識対象画像に対して画像特徴抽出を行い、抽出された特徴に対してテキスト認識処理を行い、ターゲットテキストを取得する。サーバM1は、さらに、得られたターゲットテキストを端末機器M2にフィードバックすることもできる。端末機器とサーバとのインタラクションによって画像のオンラインでのテキスト認識を実現し、テキスト認識効率及び正確さを向上させる。
【0027】
図2は、本開示の第1の実施例により提供される文字認識モデルトレーニング方法のフローチャートであり、当該文字認識モデルトレーニング方法は、文字認識モデルトレーニング装置として実装されることができ、当該文字認識モデルトレーニング装置は、電子機器に位置することができる。文字認識モデルトレーニング方法は、以下のいくつかのステップを含むことができる。
【0028】
201では、タグなしのトレーニングサンプルを少なくとも2つのサブサンプル画像に分割する。
【0029】
選択的に、タグなしのトレーニングサンプルを少なくとも2つのサブサンプル画像に分割するステップは、画像分割ポリシーに基づき、タグなしのトレーニングサンプルを少なくとも2つのサブサンプル画像に分割するステップを含んでもよい。画像分割ポリシーは、画像の長さ分割数と幅分割数を含むことができ、画像の長さ分割数と幅分割数に従って、トレーニングサンプルを少なくとも2つのサブサンプル画像に均一に分割することができる。
【0030】
画像分割ポリシーは、具体的には、画像のpatch(シャード)処理であってもよく、画像をpatchによって少なくとも2つの画像ブロックに分けて、サブサンプル画像は、トレーニングサンプルがpatchされた画像ブロックであってもよい。
【0031】
トレーニングサンプルは、自然環境から収集された画像であってもよく、この場合、トレーニングサンプルはタグなしである。
【0032】
202では、少なくとも2つのサブサンプル画像を、可視的属性を有する第1のサブサンプル画像を含む第1のトレーニングセットと、不可視的属性を有する第2のサブサンプル画像を含む第2のトレーニングセットと、に分ける。
【0033】
第1のトレーニングセットには、1つ又は少なくとも2つの第1のサブサンプル画像が含まれてもよい。第2のトレーニングセットには、1つ又は少なくとも2つの第2のサブサンプル画像が含まれてもよい。
【0034】
203では、第2のトレーニングセットを第1のトレーニングセットのタグとし、トレーニング対象エンコーダに対して自己監視トレーニングを実行し、ターゲットエンコーダを得る。
【0035】
選択的に、第2のトレーニングセットを第1のトレーニングセットのタグとすることは、具体的には、第2のトレーニングセットにおける第2のサブサンプル画像を第1のサブサンプル画像のタグとすることにしてもよい。第2のサブサンプル画像は不可視的属性を有し第1のサブサンプル画像は可視的属性を有しているため、可視的属性を有する第1のサブサンプル画像の特徴表現を利用して、不可視的属性を有する第2のサブサンプル画像の特徴表現を予測し、第1のサブサンプル画像を利用して予測された特徴表現は第2のサブサンプル画像の特徴表現と同様にトレーニングターゲットとしてトレーニングし、トレーニング対象エンコーダに対して自己監視トレーニングを実行し、ターゲットエンコーダを得る。自己監視トレーニングは、具体的に、トレーニングサンプルのためにタグを設定する必要がなく、トレーニングサンプルそのものの第2のトレーニングセットを第1のトレーニングセットのタグとして、エンコーダに対するトレーニングを完成させることであってもよい。
【0036】
本開示の実施例においては、タグなしのトレーニングサンプルを少なくとも2つのサブサンプル画像に分割し、タグなしのサンプル画像については、可視的属性及び不可視的属性という分け基準に従ってトレーニングサンプルの少なくとも2つのサブサンプル画像を2つのトレーニングセットに分け、2つのトレーニングセットのうちの第2のトレーニングセットを第1のトレーニングセットのタグとすることで、タグが設定されていない第1のトレーニングセットをタグ付きものにし、第2のトレーニングセットと第1のトレーニングセットとの予測結果の差異を分析して、エンコーダに対して反復更新を行い、トレーニング対象エンコーダに対して自己監視トレーニングを実行し、ターゲットエンコーダを得る。トレーニングセットを分けることでエンコーダの自己監視トレーニングを実現し、エンコーダのトレーニング精度を向上させる。
【0037】
本実施例において、エンコーダトレーニング終了後、ターゲットエンコーダを取得した後、ターゲットエンコーダを利用してデコーダに対して監視付きトレーニングを行うことができることを理解できる。1つの選択的な実施形態として、本実施例に係る方法は、さらに、デコーダに対するトレーニングステップを含んでもよい。デコーダに対する具体的なトレーニングステップは、図4~5などの実施例を参照することができ、ここで繰り返して説明しない。本開示に係るトレーニング方法は、画像文字認識に適用できる。
【0038】
なお、本開示に係る文字認識モデルトレーニング方法は、画像文字認識の応用シーンに適用されることができ、すなわち、トレーニングして得られたターゲットエンコーダとターゲットデコーダを画像の文字認識に適用し、画像文字認識の精度を向上させる。
【0039】
エンコーダに対するトレーニングを実現するために、図3を参照すると、本開示の第2の実施例により提供される文字認識モデルトレーニング方法のフローチャートであり、前述の実施例との相違点は、第2のトレーニングセットを第1のトレーニングセットのタグとし、トレーニング対象エンコーダに対して自己監視トレーニングを実行し、ターゲットエンコーダを得ることであり、
トレーニング対象エンコーダを初期化し、第1のエンコーダを取得するステップ301と、
第1のエンコーダに基づき、第1のトレーニングセットにおける第1のサブサンプル画像の第1の視覚特徴と、第2のトレーニングセットにおける第2のサブサンプル画像の第2の視覚特徴と、を抽出するステップ302と、
第1の視覚特徴に対してマスク問い合わせ計算を行い、第3の視覚特徴を取得するステップ303と、
第3の視覚特徴と第2の視覚特徴との特徴誤差に従って、特徴誤差が第1の誤差条件を満たすまで、第1のエンコーダを更新し、最終的に更新される第1のエンコーダをターゲットエンコーダとして決定するステップ304と、を含む。
【0040】
選択的に、本開示におけるエンコーダは、VIT(Vision Transformer)ネットワークに対応するエンコーダを含んでもよい。トレーニング対象エンコーダのネットワーク構造は、VITネットワークを参照することができる。
【0041】
第1のエンコーダは、トレーニング対象エンコーダに対してパラメータ初期化を行うことで取得され得る。第1のエンコーダのパラメータは、トレーニング終了まで継続的に更新してもよい。
【0042】
第1のサブサンプル画像のembedding(埋め込み)ベクトルを第1のエンコーダに入力することで、第1のサブサンプル画像の第1の視覚特徴を抽出することができる。第2のサブサンプル画像のembedding(埋め込み)ベクトルを第1のエンコーダに入力することで、第2のサブサンプル画像の第2の視覚特徴を抽出することができる。
【0043】
選択的に、第3の視覚特徴と第2の視覚特徴との特徴誤差は、特徴距離及び類似度の尺度で示されることができ、具体的には、例えば、ユークリッド距離、ハミング距離など、任意の1つの距離式を用いて計算して取得されることができ、本実施例において、特徴誤差の具体的な計算方式について過度の限定をしない。
【0044】
第1の誤差条件は、特徴誤差が特徴しきい値より小さいことであってもよい。特徴しきい値は、使用上の必要に応じて設定されてもよい。
【0045】
本実施例において、トレーニング対象エンコーダについて、エンコーダに対してパラメータ更新を行うことによりエンコーダのパラメータを継続的にトレーニングしてもよい。エンコーダを更新する際、現在の第1のエンコーダが第1のトレーニングセットから抽出した第1の視覚特徴を利用して、当該第1の視覚特徴に対してマスク問い合わせ計算を行うことによって取得された第3の視覚特徴は、可視的第1のサブサンプル画像を利用して不可視的第2のサブサンプル画像を予測するための視覚特徴であってもよく、すなわち、取得された第3の視覚特徴は第2の視覚特徴に無限に接近する。第2の視覚特徴と第3の視覚特徴との特徴誤差は、この2つの特徴間の差異をキャラクタリゼーションすることができ、特徴誤差が第1の誤差条件を満たす場合に、エンコーダトレーニング終了を決定し、正確なターゲットエンコーダを取得する。第1の視覚特徴と第2の視覚特徴は、いずれもトレーニングサンプル由来であり、トレーニングサンプル自体のサブサンプル画像をタグとし、可視的特徴表示を用いて不可視的特徴表示を予測することを実現し、エンコーダに対する自己監視トレーニングを完成させ、エンコーダのトレーニング精度を向上させる。
【0046】
エンコーダを更新する際、画像誤差及び特徴誤差という2つの誤差を利用してエンコーダのトレーニングを逆伝播することができる。1つの実施例として、第3の視覚特徴と第2の視覚特徴との特徴誤差に従って、特徴誤差が第1の誤差条件を満たすまで、第1のエンコーダを更新し、最終的に更新される第1のエンコーダをターゲットエンコーダとして決定するステップは、
トレーニング対象デコーダを初期化し、第1のデコーダを取得するステップと、
第1のデコーダに基づき、第3の視覚特徴に対して画像再構築を実行することから生じる画像誤差を決定するステップと、
第3の視覚特徴と第2の視覚特徴との特徴誤差を決定するステップと、
特徴誤差と画像誤差に基づき、特徴誤差が第1の誤差条件を満たし且つ画像誤差が第2の誤差条件を満たすまで、第1のエンコーダを更新し、画像誤差に基づいて第1のデコーダを更新し、最終的に取得された第1のエンコーダをターゲットエンコーダとして決定するステップと、を含む。
【0047】
画像誤差は、第3の視覚特徴に対する画像再構築の結果に対応する画像誤差であってもよい。
【0048】
第2の誤差条件は、画像誤差が画像誤差しきい値より小さいことであってもよい。画像誤差しきい値は、使用上の必要に応じて設定されてもよい。
【0049】
本実施例において、特徴誤差を利用できるだけでなく、さらに、第3の視覚特徴が再構築された画像に対応する画像誤差と特徴誤差とを、エンコーダの逆フィードバック調整とし、より全面的でより詳細な誤差分析をすることによってエンコーダの逆調整を実現し、より高い精度のエンコーダを取得している。さらに、画像誤差を利用して第1のデコーダを更新することで、デコーダに対する正確な更新を実現し、これにより、より正確なデコーダを利用して視覚特徴に対するデコード計算を完成させ、より正確なデコーダを利用してエンコーダのトレーニングにより積極的な影響を与え、デコーダのトレーニング精度を向上させるようになっている。
【0050】
1つの可能な設計では、第1のデコーダに基づき、第3の視覚特徴に対して画像再構築を実行することから生じる画像誤差を決定するステップは、
第1のデコーダを利用して第3の視覚特徴に対してデコード計算処理を行い、第1のデコード特徴を取得するステップと、
第1のデコード特徴に対する画像再構築の結果に従って、画像誤差を得るステップと、を含む。
【0051】
選択的に、第1のデコーダは、トレーニング対象デコーダに対してパラメータ初期化を行うことで取得され得る。第1のデコーダのパラメータは、トレーニング終了まで、継続的に更新されてもよい。
【0052】
選択的に、本開示のエンコーダは、transformer(転送)ネットワークに対応するデコーダであってもよい。トレーニング対象デコーダのネットワーク構造は、transformerネットワークを参照することができる。
【0053】
本実施例において、第1のデコーダを利用した、第3の視覚特徴に対するデコード計算処理によって、第1のデコード特徴を取得することができ、第1のデコード特徴に対する画像再構築の結果に従って画像誤差を得ることができる。エンコーダトレーニング中に、トレーニング可能なデコーダを導入した結果、全面的且つ完全的なエンコード及びデコードの流れを用いて画像の正確な再構築を確保し、そして、画像再構築の結果を利用して画像誤差を有効的に取得する。
【0054】
いくつかの実施例において、第1のデコード特徴に対する画像再構築の結果に従って、画像誤差を得るステップは、
第1のデコード特徴に対して画像再構築処理を行い、第1の予測結果を取得するステップと、
第2のサブサンプル画像と第1の予測結果を利用して画像誤差計算を行い、画像誤差を取得するステップと、を含む。
【0055】
選択的に、画像再構築層において第1のデコード特徴に対して画像再構築処理を行い、第1の予測結果を取得し、第1の予測結果が予測画像となるようにしてもよい。画像再構築層は、テキスト学習ネットワークの中の1層であってもよく、これによって画像再構築を実現する。
【0056】
第1のデコード特徴は、学習された画像の特徴表現であり、第1のデコード特徴に対して逆画像再構築を行うことができ、具体的には、畳み込みニューラルネットワークに基づく画像再構築アルゴリズムなどの画像再構築アルゴリズムを使用することができ、本実施例においては、画像再構築アルゴリズムの具体的なタイプについて過度の限定をしない。
【0057】
選択的に、第2のサブサンプル画像と第1の予測結果との画像誤差の計算は、第2のサブサンプル画像と第1の予測結果との画像距離又は画像類似度を計算し、画像距離又は画像類似度によって画像誤差を決定することを含んでもよい。画像距離は、ユークリッド距離やマンハッタン距離などを含むことができ、本実施例においては、画像誤差の計算手段について過度の限定をしない。
【0058】
本実施例において、第1のデコード特徴を利用して画像再構築処理を行うと、第1の予測結果を取得することができる。画像再構築処理によって取得された第1の予測結果を第2のサブサンプル画像と比較すると、画像誤差を正確に決定することができる。
【0059】
第2のトレーニングセットと一致する問い合わせベクトルを取得し、エンコーダの自己監視トレーニングを実現するために、1つの実施例として、さらに、
マスク設定ポリシーに従って、少なくとも2つの問い合わせベクトルを第1の問い合わせベクトルと第2の問い合わせベクトルとに分けるステップであって、マスク設定ポリシーは予め設定された第1のマスクレートに基づいて生成されたマスクデータを含み、問い合わせベクトルは基礎的文字列に対応する空間変換ベクトルである、ステップを含み、
第1の視覚特徴に対してマスク問い合わせ計算を行い、第3の視覚特徴を取得するステップは、
第2の問い合わせベクトルと第1の視覚特徴に基づく特徴予測計算によって、第1の視覚特徴の第2の問い合わせベクトルにおける出現確率に対応する特徴ベクトルを得るステップと、
第1の視覚特徴に対応する特徴ベクトルに対してベクトル組み合わせを行い、第3の視覚特徴を得るステップと、を含む。
【0060】
選択的に、少なくとも2つの問い合わせベクトル(query)は、基礎的文字列に対応する空間変換ベクトルであってもよい。基礎的文字列は、1つ又は少なくとも2つの文字列からなるものであってもよく、文字は、アルファベット、数字、漢字及び/又は任意の言語の単一の符号を含んでもよい。基礎的文字列に対してembedding(埋め込みアルゴリズム)計算を行うと、問い合わせベクトルが取得される。なお、問い合わせベクトルは、さらに、予め設定された関数を用いて計算して取得され得る。例えば、予め設定された関数は、ベクトル生成関数であってもよい。
【数1】
【数2】
ここで、PEは生成される問い合わせベクトルを指し、posはベクトルの位置インデックス又はベクトルID(Identity document、アイデンティティ)であり、
【数3】
は、生成される問い合わせベクトルの合計ディメンションであり、iはベクトルのうちの1つの要素がベクトルに位置するディメンションは何番目であるかを示すものであり、すなわち、要素のディメンション順序又はディメンション座標を指す。
【0061】
1つの可能な設計では、本開示において、第2の問い合わせベクトルと第1の視覚特徴に基づく特徴予測計算は、マスク問い合わせ計算ネットワークによって計算して取得され得る。マスク問い合わせ計算ネットワークの入力データは、第2の問い合わせベクトルと第1の視覚特徴であり、出力データは第3の視覚特徴である。マスク問い合わせ計算ネットワークは、学習することができる計算ネットワークであり、逆伝播の手段を用いてマスク問い合わせ計算ネットワークを更新することができ、すなわち、画像誤差と特徴誤差を決定する場合、画像誤差と特徴誤差に基づいてマスク問い合わせ計算ネットワークを更新し、特徴誤差が第1の誤差条件を満たし且つ画像誤差が第2の誤差条件を満たすまで、マスク問い合わせ計算ネットワークに対する更新を停止する。
【0062】
選択的に、マスク設定ポリシーは、固定された第1のマスクレートに従って、画像を可視的部分と不可視的部分とに分けるものにしてもよい。マスク設定ポリシーは、さらに、少なくとも2つの問い合わせベクトルの第2の問い合わせベクトルの取得基礎とされ得る。第2の問い合わせベクトルは、第1のマスクレートによって決定されたmask queries(マスクベクトル)であってもよい。第1のマスクレートは、最小マスキング値より高く設定されたターゲットマスキング率(mask ratio)を含んでもよく、最小マスキング値は設定することによって取得され得る。例えば、最小マスキング値は、0.9に設定されてもよく、第1のマスクレートは、0.9より大きい任意の数値にされてもよいし、当然ながら、第1のマスクレートは1より小さくされてもよい。
【0063】
選択的に、マスクデータは、マスクベクトル又はマスク行列を含んでもよく、マスクベクトル又はマスク行列の中の要素値は、第1の数値又は第2の数値を含んでもよい。マスクデータを少なくとも2つの問い合わせベクトルと行列計算することで、第1の数値によってタグ付けされた第1の問い合わせベクトルと、第2の数値によってタグ付けされた第2の問い合わせベクトルと、を取得することができる。第1の数値及び第2の数値は、0又は1から選択されることができるが、異なる値にしている。
【0064】
選択的に、Latent contextual regressor(潜在的なコンテキストリグレッサー)によって第2の問い合わせベクトルと第1の視覚特徴との特徴予測計算を完成させてもよい。
【0065】
本実施例において、マスク設定ポリシーを利用して、少なくとも2つの問い合わせベクトルに対してマスク処理を行うことにより、画像の分割と一致するように少なくとも2つの問い合わせベクトルを分割する。第2の問い合わせベクトルと第1の視覚特徴との特徴予測計算は、第1の視覚特徴を利用して不可視的第2のサブサンプル画像の特徴に対して予測するプロセスになっており、取得された第3の視覚特徴を第2の視覚特徴と比較して特徴誤差を取得することができる。マスク設定ポリシーの設定により、計算に関わる第2の問い合わせベクトルを利用して不可視的第2のサブサンプル画像の特徴を正確に予測することは確保され、第2の視覚特徴により類似する第3の視覚特徴を取得し、第3の視覚特徴の特徴表現精度を向上させる。
【0066】
1つの可能な設計では、少なくとも2つのサブサンプル画像を、第1のトレーニングセットと、第2のトレーニングセットと、に分けるステップは、
マスク設定ポリシーを利用して、少なくとも2つのサブサンプル画像を、第1のトレーニングセットと、第2のトレーニングセットと、に分けるステップを含む。
【0067】
選択的に、マスク設定ポリシーを利用して少なくとも2つのサブサンプル画像を、第1のトレーニングセットと、第2のトレーニングセットと、に分けるステップは、固定された第1のマスクレートに従って画像を可視的第1のトレーニングセットと不可視的第2のトレーニングセットとに分けるステップを含んでもよい。
【0068】
選択的に、マスク設定ポリシーにおけるマスクデータを少なくとも2つのサブサンプル画像と行列計算することで、第1のトレーニングセットと第2のトレーニングセットとを取得してもよい。
【0069】
本実施例において、マスク設定ポリシーを利用して少なくとも2つのサブサンプル画像を第1のトレーニングセットと第2のトレーニングセットとに分けている。マスク設定ポリシーは、第1のマスクレートによって生成されるマスクデータが予め設定されたものであってもよく、マスク設定ポリシーを用いて少なくとも2つのサブサンプル画像を可視的第1のトレーニングセットと不可視的第2のトレーニングセットとに分けることができる。第1のトレーニングセットにおける画像は可視的属性を有し、第2のトレーニングセットにおける画像は不可視的属性を有するものとなる。マスク設定ポリシーを利用することで、少なくとも2つのサブサンプル画像を正確に分けることが実現されることができる。
【0070】
図4に示すように、本開示の第3の実施例により提供される文字認識モデルトレーニング方法のフローチャートであり、当該文字認識モデルトレーニング方法は、デコーダをトレーニングすることに適用されることができる。当該方法は、文字認識モデルトレーニング装置として実装されることができ、文字認識モデルトレーニング装置は電子機器に位置することができる。文字認識モデルトレーニング方法は、以下のステップを含むことができる。
【0071】
401では、合成テキストタグを含む合成サンプルを、少なくとも2つのサブ合成画像に分割する。
【0072】
タグ付きの合成サンプルを少なくとも2つのサブ合成画像に分割するステップは、画像分割ポリシーに従って、合成サンプルを、少なくとも2つのサブ合成画像に分割するステップを含むことができる。画像分割ポリシーは、画像の長さ分割数と幅分割数を含むことができ、画像の長さ分割数と幅分割数に基づき、合成サンプルを少なくとも2つのサブ合成画像に均一に分割することができる。
【0073】
画像分割ポリシーは、具体的に、画像のpatch(シャード)処理であってもよく、画像をpatchによって少なくとも2つの画像ブロックに分けることができ、サブ合成画像は合成サンプルがpatchされた画像ブロックであってもよい。
【0074】
合成サンプルは、合成テキストを利用して合成された画像であってもよく、合成サンプルのタグは、当該サンプルを合成したテキストである。
【0075】
402では、少なくとも2つのサブ合成画像を、可視的属性を有する第1のサブ合成画像を含む第1の合成セットと、不可視的属性を有する第2のサブ合成画像を含む第2の合成セットと、に分ける。
【0076】
第1の合成セットには、1つ又は少なくとも2つの第1のサブ合成画像が含まれることができる。第2の合成セットには、1つ又は少なくとも2つの第2のサブ合成画像が含まれる。
【0077】
403では、第1の合成セットと第2の合成セットに基づき、トレーニング対象デコーダに対して監視付きトレーニングを実行し、トレーニング対象デコーダに対応するターゲットデコーダを取得する。
【0078】
選択的に、各合成セットのそれぞれのテキストタグを用いてトレーニング対象デコーダに対して監視付きトレーニングを行い、トレーニング対象デコーダに対応するターゲットデコーダを取得してもよい。
【0079】
本実施例において、合成テキストタグ付き合成サンプルを用いてトレーニング対象デコーダをトレーニングしている。合成テキストタグにより、このデコーダに対するトレーニングは監視付きトレーニングであるように確保され、デコーダに対する監視付きトレーニングは実現される。
【0080】
1つの可能な設計では、固定されたエンコーダを利用してデコーダをトレーニングしてもよい。図5に示すように、図5は本開示の第4の実施例により提供される文字認識モデルトレーニング方法のフローチャートであり、第1の合成セットと第2の合成セットに基づき、トレーニング対象デコーダに対して監視付きトレーニングを実行し、トレーニング対象デコーダに対応するターゲットデコーダを取得するステップは、以下のステップを含むことができる。
【0081】
501では、ターゲットエンコーダを利用して第1の合成セットにおける第1のサブ合成画像の第1の特徴シーケンスを抽出し、ターゲットエンコーダは、上記実施例のいずれか1項に記載の文字認識モデルトレーニング方法を使用してトレーニングして取得されるものである。
【0082】
本実施例において、ターゲットエンコーダのトレーニングステップは、図2~3などに係る実施例でのトレーニングステップを参照することができ、ここで繰り返して説明しない。
【0083】
502では、第2の合成セットにおける第2のサブ合成画像の、合成サンプルにおける画像位置に基づき、第1の特徴シーケンスに対して特徴補完を行い、第2の特徴シーケンスを取得する。
【0084】
503では、トレーニング対象デコーダを用いて、第2の特徴シーケンスの予測テキストが、第2のサブ合成画像の合成テキストタグにおける合成テキストと同じであることを、トレーニングターゲットとしてトレーニングし、トレーニング対象デコーダに対応するターゲットデコーダを取得する。
【0085】
選択的に、ターゲットエンコーダを固定することにより、デコーダに対して監視付きトレーニングを行ってもよい。
【0086】
第2の特徴シーケンスの予測テキストは、第2のサブ合成画像の合成テキストタグにおける合成テキストと同じであってもよく、そのことをトレーニングターゲットとすることができる。
【0087】
本実施例において、デコーダに対して監視付きトレーニングを行う際、上記エンコーダのトレーニング結果、すなわち、ターゲットエンコーダを利用して、トレーニング対象デコーダに対して監視付きトレーニングを実行することができる。監視なしトレーニングで得られたターゲットエンコーダを利用して、デコーダに対して監視付きトレーニングを行い、デコーダのトレーニング精度及び効果を向上させる。
【0088】
1つの実施例として、トレーニング対象デコーダを用いて、第2の特徴シーケンスの予測テキストが、第2のサブ合成画像の合成テキストタグにおける合成テキストと同じであることを、トレーニングターゲットとしてトレーニングし、トレーニング対象デコーダに対応するターゲットデコーダを取得するステップは、
トレーニング対象デコーダを初期化し、第2のデコーダを取得するステップと、
第2のデコーダに基づいて第2の特徴シーケンスの予測テキストを決定するステップと、
予測テキストと、第2のサブ合成画像の合成テキストタグにおける合成テキストと、を利用してテキスト誤差計算を行い、デコード誤差を取得するステップと、
デコード誤差が第3の誤差条件を満たすまで、デコード誤差に基づいて第2のデコーダを更新し、最終的に取得された第2のデコーダをターゲットデコーダとして決定するステップと、を含むことができる。
【0089】
第2のデコーダは、第2の特徴シーケンスをデコードし、デコードの特徴を利用してテキスト予測を行い、予測テキストを取得することができる。
【0090】
テキスト誤差計算の手段として、テキスト類似度計算又はテキスト距離計算の手段を含むことができる。テキスト類似度計算の手段は、予測テキストと合成テキストとのテキスト類似度を計算することであってもよく、テキスト類似度アルゴリズムを利用してテキスト誤差を計算することができ、例えば、同一の文字の数の比率を計算するアルゴリズムが挙げられる。テキスト距離計算の手段は、予測テキストと合成テキストとのテキスト距離を計算することであってもよく、例えば、From Word Embeddings To Document Distances(ワードベクトルからテキスト距離に埋め込む)などのアルゴリズムを利用してテキスト距離を計算し、テキスト距離をテキスト誤差とする。
【0091】
選択的に、第3の誤差条件は、デコード誤差がテキスト誤差しきい値より小さいことを含んでもよい。テキスト誤差しきい値は設定することによって取得され得る。
【0092】
本実施例において、デコーダに対してパラメータ更新を行うことでデコーダを継続的にトレーニングしている。デコーダを更新する際、第2のデコーダを用いて第2の特徴シーケンスの予測テキストと第2のサブ合成画像の合成テキストとに対して、テキスト誤差計算を行うことによって取得されたデコード誤差を利用することができる。デコード誤差を計算することにより、デコーダを正確に逆フィードバックすることは実現され、パラメータの無効更新は回避され、パラメータ更新効率は向上するとともに、パラメータ更新の正確さも向上する。取得されるターゲットデコーダは、精度がより高いものとなる。
【0093】
1つの可能な設計では、第2のデコーダに基づいて第2の特徴シーケンスの予測テキストを決定するステップは、
第2のサブ合成画像に基づき、トークンとして格納される第3の問い合わせベクトルを取得するステップと、
第3の問い合わせベクトルと第2の特徴シーケンスとを、第2のデコーダに入力し、第2のデコード特徴を取得するステップと、
第2のデコード特徴のテキスト認識処理によって、第2の特徴シーケンスの予測テキストを得るステップと、を含む。
【0094】
選択的に、mask(マスク)合成ポリシーに従って第2のサブ合成画像の特徴に対してディメンションダウンを行い、学習可能なトークン(token)を利用するか、又は固定されたトークンを利用して、当該学習されたトークン又は固定されたトークンを第3の問い合わせベクトルとして得るようにしてもよい。
【0095】
第3の問い合わせベクトルと第2の特徴シーケンスとを、第2のデコーダに入力してデコード計算を行い、第2のデコード特徴を取得することができる。第2のデコード特徴の予測テキストと第2のサブ合成画像のテキストが同じであることをトレーニングターゲットとする。
【0096】
1つの可能な設計では、本開示において、第2のデコード特徴に対するテキスト認識処理は、テキスト認識ネットワークを使用して当該第2のデコード特徴に対してテキスト認識処理を実行することによって行ってもよい。テキスト認識ネットワークは、学習可能な計算ネットワークであり、デコード誤差が取得されたと決定する場合、デコード誤差が第3の誤差条件を満たすまで、デコード誤差を用いてテキスト認識ネットワークを更新することができる。
【0097】
本実施例において、少なくとも2つの問い合わせベクトルに対してトークンアイデンティティ処理を行うことで、トークン付けされた第3の問い合わせベクトルを取得することができる。第2のデコーダを用いて第3の問い合わせベクトルと第2の特徴シーケンスに対してデコード計算を行い、第2のデコード特徴を取得することができる。第2のデコード特徴のテキスト認識処理によって、第2の特徴シーケンスの予測テキストを取得し、第2の特徴シーケンスのテキスト認識の精度を向上させることができる。
【0098】
いくつかの実施例において、第2のサブ合成画像に基づき、トークンとして格納される第3の問い合わせベクトルを取得するステップは、
第2のサブ合成画像の特徴を抽出するステップと、
トークン生成アルゴリズムに基づき、第2の合成サブ画像の特徴をトークン形式に変換し、第3の問い合わせベクトルを取得するステップと、を含む。
【0099】
選択的に、トークン生成アルゴリズムは、具体的に、固定された又は学習可能なtokenをqueryとするアルゴリズムであってもよい。学習してtokenを取得することができる。トークン生成アルゴリズムは、さらに、固定されたトークン表記法であってもよく、第2のサブ合成画像のために、固定されたtokenを設定して第3の問い合わせベクトルとしてもよい。
【0100】
本実施例において、トークン変換処理によって第2のサブ合成画像を第3の問い合わせベクトルに変換し、正確なトークンアイデンティティを用いて、第3の問い合わせベクトルの正確さを向上させることができる。
【0101】
1つの可能な設計では、第2の合成セットにおける第2のサブ合成画像の、合成サンプルにおける画像位置に基づき、第1の特徴シーケンスに対して特徴補完を行い、第2の特徴シーケンスを取得するステップは、
第2のサブ合成画像の合成サンプルにおける画像位置に基づき、第2のサブ合成画像の、合成サンプルに対応する合成シーケンスにおけるシーケンス位置を決定するステップと、
第1の特徴シーケンスには、シーケンス位置に補完ベクトルを挿入し、第2の特徴シーケンスを取得するステップであって、補完ベクトルのベクトルディメンションが第1の特徴シーケンスのベクトルディメンションと同じである、ステップと、を含む。
【0102】
選択的に、補完ベクトルは、予め設定された値がすべて同じであるベクトルであってもよい。例えば、値がすべて0であるベクトル又は値がすべて1であるベクトルが挙げられる。
【0103】
シーケンス位置は、第2のサブ合成画像の合成シーケンスにおける位置であってもよい。第1の特徴シーケンスはmaskされたシーケンスであってもよく、具体的には、可視的画像に対応するシーケンスであってもよい。補完が必要である場合、maskされたシーケンスを補完し、例えば、仮に元の特徴シーケンスが「abcd」のようになっている4つのシーケンスが存在すると想定すると、maskされた後、第1の特徴シーケンスは、「ad」という2つのシーケンスとなる場合、maskされた2つのシーケンス「bc」を補完する必要があり、すべてが0ベクトルで補完されると、「a00d」というシーケンスを取得することができる。ここで、abcd又は0は、ベクトルを指すことができる。具体的には、図1の第1の特徴シーケンス23から第2の特徴シーケンス24の補完例を参照することができる。
【0104】
本実施例において、第2のサブ合成画像の合成サンプルにおける画像位置に基づき、第2のサブ合成画像の合成シーケンスにおけるシーケンス位置を決定し、画像位置からシーケンス位置への変換を実現し、第1の特徴シーケンスには、シーケンス位置に補完ベクトルを挿入し、第2の特徴シーケンスを取得することができる。シーケンス位置を決定することにより、ベクトルの位置決めされた補完を実現し、より正確な第2の特徴シーケンスを取得することができる。
【0105】
他の実施例として、少なくとも2つのサブ合成画像を第1のサブ合成画像と第2のサブ合成画像とに分けるステップは、
マスク合成ポリシーに従って、少なくとも2つのサブ合成画像を第1の合成セットと第2の合成セットとに分けるステップを含む。
【0106】
マスク合成ポリシーは、予め設定された第2のマスクレートに基づいて生成されるマスクデータを含む。第2のマスクレートは、上記実施例のマスクレートに関する説明を参照することができ、ここで繰り返して説明しない。
【0107】
選択的に、マスク合成ポリシーにおけるマスクデータを用いて少なくとも2つのサブ合成画像と行列計算し、第1の合成セットと第2の合成セットを取得することができる。第2のマスクレートは、最小マスキング値より高く設定されたターゲットマスキング率(mask ratio)を含んでもよく、最小マスキング値は設定することによって取得され得るものであり、例えば、0.9に設定されてもよく、第2のマスクレートは、0.9より大きい任意の数値にされてもよいし、当然ながら、第2のマスクレートは1より小さくされてもよい。当然ながら、関連技術における他のマスク分割の手段も本開示に係るセット分割に適用されてもよい。ここで繰り返して説明しない。
【0108】
本実施例において、マスク合成ポリシーを利用して少なくとも2つのサブ合成画像を第1の合成セットと第2の合成セットとに分けている。マスク合成ポリシーは、予め設定された第2のマスクレートによって生成されるマスクデータであってもよく、マスク合成ポリシーを用いて少なくとも2つのサブ合成画像を可視的第1の合成セットと不可視的第2の合成セットとに分けることができる。第1の合成セットにおける画像は可視的属性を有し、第2の合成セットにおける画像は不可視的属性を有するものとなっている。マスク合成ポリシーを利用することで、少なくとも2つのサブ合成画像を正確に分けることを実現することができる。
【0109】
具体的に応用する際、図6に示すように、本開示の第5の実施例により提供される文字認識方法のフローチャートであり、当該方法は、以下のステップを含むことができる。
【0110】
601では、ターゲットエンコーダと、ターゲットデコーダと、を決定する。ターゲットエンコーダは、上記実施例により提供される文字認識モデルトレーニング方法に基づいてトレーニングして取得されるものであり、ターゲットデコーダは、上記実施例により提供される文字認識モデルトレーニング方法に基づいてトレーニングして取得されるものである。
【0111】
602では、認識対象画像を少なくとも2つのサブ画像に分割する。
【0112】
603では、ターゲットエンコーダに基づいてサブ画像の画像特徴を抽出し、少なくとも2つのサブ画像にそれぞれ対応する画像特徴を取得する。
【0113】
604では、ターゲットデコーダと少なくとも2つの問い合わせベクトルに基づき、少なくとも2つのサブ画像にそれぞれ対応する画像特徴に対してデコード計算を行い、少なくとも2つのサブ画像に対応するデコード特徴シーケンスを取得する。
【0114】
605では、デコード特徴シーケンスに従って、認識対象画像のターゲットテキストを得る。
【0115】
本実施例において、ターゲットエンコーダとターゲットデコーダを利用して、認識対象画像に対して特徴シーケンス計算を行い、正確なデコード特徴シーケンスを取得することで、デコード特徴シーケンスを用いてテキスト認識を行い、ターゲットテキストを得る。ターゲットエンコーダとターゲットデコーダを利用してターゲットテキストを正確に認識することができる。
【0116】
図7に示すように、本開示の第6の実施例により提供される文字認識モデルトレーニング装置の構造図である。当該文字認識モデルトレーニング装置700は、
タグなしのトレーニングサンプルを少なくとも2つのサブサンプル画像に分割するために用いられる第1の分割ユニット701と、
少なくとも2つのサブサンプル画像を、可視的属性を有する第1のサブサンプル画像を含む第1のトレーニングセットと、不可視的属性を有する第2のサブサンプル画像を含む第2のトレーニングセットと、に分けるために用いられる第1の分けユニット702と、
第2のトレーニングセットを第1のトレーニングセットのタグとし、トレーニング対象エンコーダに対して自己監視トレーニングを実行し、ターゲットエンコーダを得るために用いられる第1のトレーニングユニット703と、を含むことができる。
【0117】
1つの実施例として、第1のトレーニングユニットは、
トレーニング対象エンコーダを初期化し、第1のエンコーダを取得するために用いられる第1の取得モジュールと、
第1のエンコーダに基づき、第1のトレーニングセットにおける第1のサブサンプル画像の第1の視覚特徴と、第2のトレーニングセットにおける第2のサブサンプル画像の第2の視覚特徴と、を抽出するために用いられる第1の抽出モジュールと、
第1の視覚特徴に対してマスク問い合わせ計算を行い、第3の視覚特徴を取得するために用いられる第1の計算モジュールと、
第3の視覚特徴と第2の視覚特徴との特徴誤差に従って、特徴誤差が第1の誤差条件を満たすまで、第1のエンコーダを更新し、最終的に更新される第1のエンコーダをターゲットエンコーダとして決定するために用いられる第1のトレーニングモジュールと、を含む。
【0118】
いくつかの実施例において、第1のトレーニングモジュールは、
トレーニング対象デコーダを初期化し、第1のデコーダを取得するために用いられるデコード決定サブモジュールと、
第1のデコーダに基づき、第3の視覚特徴に対して画像再構築を実行することから生じる画像誤差を決定するために用いられる第1の誤差サブモジュールと、
第3の視覚特徴と第2の視覚特徴との特徴誤差を決定するために用いられる第2の誤差サブモジュールと、
特徴誤差と画像誤差に基づき、特徴誤差が第1の誤差条件を満たし且つ画像誤差が第2の誤差条件を満たすまで、第1のエンコーダを更新し、画像誤差に基づいて第1のデコーダを更新し、最終的に取得された第1のエンコーダをターゲットエンコーダとして決定するために用いられる第1の更新サブモジュールと、を含む。
【0119】
1つの可能な設計では、第1の誤差サブモジュールは、具体的に、
第1のデコーダを利用して第3の視覚特徴に対してデコード計算処理を行い、第1のデコード特徴を取得すること、及び
第1のデコード特徴に対する画像再構築の結果に従って、画像誤差を得ること、に用いられる。
【0120】
1つの選択的な実施形態として、第1の誤差サブモジュールは、具体的に、
第1のデコード特徴に対して画像再構築処理を行い、第1の予測結果を取得すること、及び、
第2のサブサンプル画像と第1の予測結果を利用して画像誤差計算を行い、画像誤差を取得すること、に更に用いられる。
【0121】
1つの実施例として、さらに、
マスク設定ポリシーに従って、少なくとも2つの問い合わせベクトルを第1の問い合わせベクトルと第2の問い合わせベクトルとに分けるために用いられる問い合わせ決定ユニットを含み、マスク設定ポリシーは予め設定された第1のマスクレートに基づいて生成されたマスクデータを含み、問い合わせベクトルは基礎的文字列に対応する空間変換ベクトルであり、
第1の計算モジュールは、
第2の問い合わせベクトルと第1の視覚特徴に基づく特徴予測計算によって、第1の視覚特徴の第2の問い合わせベクトルにおける出現確率に対応する特徴ベクトルを得るために用いられるベクトル計算サブモジュールと、
第1の視覚特徴に対応する特徴ベクトルに対してベクトル組み合わせを行い、第3の視覚特徴を得るために用いられるベクトル組み合わせサブモジュールと、を含む。
【0122】
他の実施例として、第1の分けユニットは、
マスク設定ポリシーを利用して、少なくとも2つのサブサンプル画像を、第1のトレーニングセットと、第2のトレーニングセットと、に分けるために用いられる第1の分けモジュールを含む。
【0123】
図8に示すように、本開示の第7の実施例により提供される文字認識モデルトレーニング装置の構造図である。当該文字認識モデルトレーニング装置800は、
合成テキストタグを含む合成サンプルを、少なくとも2つのサブ合成画像に分割するために用いられる第2の分割ユニット801と、
少なくとも2つのサブ合成画像を、可視的属性を有する第1のサブ合成画像を含む第1の合成セットと、不可視的属性を有する第2のサブ合成画像を含む第2の合成セットと、に分けるために用いられる第2の分けユニット802と、
第1の合成セットと第2の合成セットに基づき、トレーニング対象デコーダに対して監視付きトレーニングを実行し、トレーニング対象デコーダに対応するターゲットデコーダを取得するために用いられる第2のトレーニングユニット803と、を含むことができる。
【0124】
1つの実施例として、第2のトレーニングユニットは、
ターゲットエンコーダを利用して第1の合成セットにおける第1のサブ合成画像の第1の特徴シーケンスを抽出するために用いられる第2の抽出モジュールであって、ターゲットエンコーダは、上記実施例に係る文字認識モデルトレーニング方法に基づいてトレーニングして取得されるものである、第2の抽出モジュールと、
第2の合成セットにおける第2のサブ合成画像の、合成サンプルにおける画像位置に基づき、第1の特徴シーケンスに対して特徴補完を行い、第2の特徴シーケンスを取得するために用いられる特徴補完モジュールと、
トレーニング対象デコーダを用いて、第2の特徴シーケンスの予測テキストが、第2のサブ合成画像の合成テキストタグにおける合成テキストと同じであることを、トレーニングターゲットとしてトレーニングし、トレーニング対象デコーダに対応するターゲットデコーダを取得するために用いられる第2のトレーニングモジュールと、を含む。
【0125】
いくつかの実施例において、第2のトレーニングモジュールは、
トレーニング対象デコーダを初期化し、第2のデコーダを取得するために用いられる第1の取得サブモジュールと、
第2のデコーダに基づいて第2の特徴シーケンスの予測テキストを決定するために用いられるテキスト予測サブモジュールと、
予測テキストと、第2のサブ合成画像の合成テキストタグにおける合成テキストと、を利用してテキスト誤差計算を行い、デコード誤差を取得するために用いられる第3の誤差サブモジュールと、
デコード誤差が第3の誤差条件を満たすまで、デコード誤差に基づいて第2のデコーダを更新し、最終的に取得された第2のデコーダをターゲットデコーダとして決定するために用いられる第2の更新サブモジュールと、を含む。
【0126】
1つの可能な設計では、テキスト予測サブモジュールは、具体的に、
第2のサブ合成画像に基づき、トークンとして格納される第3の問い合わせベクトルを取得することと、
第3の問い合わせベクトルと第2の特徴シーケンスとを、第2のデコーダに入力し、第2のデコード特徴を取得することと、
第2のデコード特徴のテキスト認識処理によって、第2の特徴シーケンスの予測テキストを得ることと、に用いられる。
【0127】
いくつかの実施例において、テキスト予測サブモジュールは、具体的に、
第2のサブ合成画像の特徴を抽出すること、及び
トークン生成アルゴリズムに基づき、第2のサブ合成画像の特徴をトークン形式に変換し、第3の問い合わせベクトルを取得すること、に用いられる。
【0128】
1つの可能な設計では、特徴補完モジュールは、
第2のサブ合成画像の合成サンプルにおける画像位置に基づき、第2のサブ合成画像の、合成サンプルに対応する合成シーケンスにおけるシーケンス位置を決定するために用いられる位置決定サブモジュールと、
第1の特徴シーケンスには、シーケンス位置に補完ベクトルを挿入し、第2の特徴シーケンスを取得するために用いられるベクトル挿入サブモジュールと、を含む。
【0129】
いくつかの実施例において、第2の分けユニットは、
マスク合成ポリシーに従って、少なくとも2つのサブ合成画像を、第1の合成セットと、第2の合成セットと、に分けるために用いられる第2の分けモジュールを含み、マスク合成ポリシーは、予め設定された第2のマスクレートに基づいて生成されるマスクデータを含む。
【0130】
図9に示すように、本開示の第8の実施例により提供される文字認識装置の構造図である。当該文字認識装置900は、
ターゲットエンコーダと、ターゲットデコーダと、を決定するために用いられるターゲット決定ユニット901であって、ターゲットエンコーダは、上記実施例に係る文字認識モデルトレーニング方法に基づいてトレーニングして取得されるものであり、ターゲットデコーダは、上記実施例に係る文字認識モデルトレーニング方法に基づいてトレーニングして取得されるものである、ターゲット決定ユニット901と、
認識対象画像について、認識対象画像を少なくとも2つのサブ画像に分割するために用いられる第3の分割ユニット902と、
ターゲットエンコーダに基づいてサブ画像の画像特徴を抽出し、少なくとも2つのサブ画像にそれぞれ対応する画像特徴を取得するために用いられるエンコード計算ユニット903と、
ターゲットデコーダと少なくとも2つの問い合わせベクトルに基づき、少なくとも2つのサブ画像にそれぞれ対応する画像特徴に対してデコード計算を行い、少なくとも2つのサブ画像に対応するデコード特徴シーケンスを取得するために用いられるデコード計算ユニット904と、
デコード特徴シーケンスに従って、認識対象画像のターゲットテキストを得るために用いられるテキスト認識ユニット905と、を含むことができる。
【0131】
本開示により提供される装置は、上記実施例に係る方法を実行するために用いられることができ、各ユニット、モジュール又はサブモジュールによって実行される内容は、上記実施例での説明を参照することができ、ここで繰り返して説明しない。
【0132】
なお、本実施例におけるエンコーダ及びデコーダは、特定のユーザ向けのものではなく、特定のユーザの個人情報を反映することができない。なお、本実施例におけるトレーニングサンプル、合成サンプル及び認識対象画像は、公開データセット由来である。
【0133】
本開示に係る技術案において、関連するユーザの個人情報の收集や、保存、使用、加工、伝送、提供、公開などの処理は、いずれも関連する法令の規定に準拠しており、公序良俗にも違反しない。
【0134】
本開示の実施例によれば、本開示は、さらに、電子機器、可読記憶媒体、及びコンピュータプログラム製品を提供する。
【0135】
本開示の実施例によれば、本開示は、さらに、コンピュータプログラムを含むコンピュータプログラム製品を提供し、コンピュータプログラムが可読記憶媒体に記憶されており、電子機器の少なくとも1つのプロセッサは、可読記憶媒体からコンピュータプログラムを読み取ることができ、少なくとも1つのプロセッサがコンピュータプログラムを実行すると、電子機器が上記いずれか1つの実施例により提供される技術案を実行する。
【0136】
図10は、本開示の実施例を実施するために使用可能な例示的な電子機器1000の概略ブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルアシスタント、セルラ電話、スマートフォン、ウェアラブルデバイス、他の類似する計算デバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本開示の実施を制限することを意図したものではない。
【0137】
図10に示すように、機器1000は、計算ユニット1001を含み、当該計算ユニット1001は、読み取り専用メモリ(ROM)1002に記憶されたコンピュータプログラム、または、記憶ユニット1008からランダムアクセスメモリ(RAM)1003にロードされたコンピュータプログラムに基づき、さまざまな、適当な動作及び処理を実行することができる。RAM 1003には、さらに、機器1000の操作に必要なさまざまなプログラム及びデータが記憶されることができる。計算ユニット1001、ROM 1002及びRAM 1003は、バス1004を介して接続される。入力/出力(I/O)インタフェース1005も、バス1004に接続される。
【0138】
キーボードやマウスなどの入力ユニット1006と、さまざまなタイプのモニタやスピーカーなどの出力ユニット1007と、磁気ディスクや光ディスクなどの記憶ユニット1008と、ネットワークカードや、モデム、無線通信トランシーバーなどの通信ユニット1009と、を含む、機器1000における少なくとも2つのコンポーネントは、I/Oインタフェース1005に接続される。通信ユニット1009は、機器1000がインターネットなどのコンピュータネットワーク及び/又はさまざまな電気通信ネットワークを介して他の機器と情報/データを交換することを可能にさせる。
【0139】
計算ユニット1001は、処理能力や計算能力を有するさまざまな汎用及び/又は専用処理コンポーネントであってもよい。計算ユニット1001のいくつかの例は、中央処理装置(CPU)、グラフィックスプロセッシングユニット(GPU)、さまざまな専用な人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行するさまざまな計算ユニット、デジタルシグナルプロセッサ(DSP)、および任意の適当なプロセッサ、コントローラー、マイクロコントローラーなどを含むが、それらに限定されない。計算ユニット1001は、文字認識モデルトレーニング方法又は文字認識方法などの上記に記載の各方法や処理を実行する。例えば、いくつかの実施例において、文字認識モデルトレーニング方法又は文字認識方法は、コンピュータソフトウェアプログラムとして実現されることができ、記憶ユニット1008などの機械可読媒体に有形的に含まれている。いくつかの実施例において、コンピュータプログラムの一部またはすべては、ROM 1002及び/又は通信ユニット1009を介して機器1000にロード及び/又はインストールされることができる。コンピュータプログラムは、RAM 1003にロードされて計算ユニット1001により実行されると、上記に記載の文字認識モデルトレーニング方法又は文字認識方法の1つ又は複数のステップを実行することができる。選択的に、他の実施例において、計算ユニット1001は、他の任意の適当な手段(例えば、ファームウェアに頼る)を用いて文字認識モデルトレーニング方法又は文字認識方法を実行するように構成されることができる。
【0140】
本明細書において、上記に記載のシステム及び技術のさまざまな実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップのシステム(SOC)、複雑なプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにより実施されることができる。これらのさまざまな実施形態において、1つ又は複数のコンピュータプログラムに実施され、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサが含まれるプログラマブルシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、専用または汎用プログラマブルプロセッサであってもよく、記憶システムや、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータや命令を受信し、そして、データや命令を当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。
【0141】
本開示に係る方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせを採用してプログラミングすることができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又はその他のプログラマブルデータ処理装置のプロセッサ又はコントローラーに提供されることができ、これにより、プログラムコードは、プロセッサ又はコントローラーにより実行されると、フローチャート及び/又はブロック図に示される機能/操作が実施される。プログラムコードは、完全に機械で実行され、部分的に機械で実行されてもよく、独立したソフトウェアパッケージとして部分的に機械で実行され、且つ、部分的にリモートマシンで実行されるか、又は完全にリモートマシン又はサーバで実行されることができる。
【0142】
本開示のコンテキストでは、機械可読媒体は、有形的な媒体であってもよく、命令実行システム、装置又は機器に使用されるプログラム、または、命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含むか又は記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子的なもの、磁気的なもの、光学的なもの、電磁気的なもの、赤外線的なもの、又は半導体システム、装置又は機器、または上記に記載の任意の適合な組み合わせを含むが、それらに限定されない。機械可読記憶媒体のより具体的な例として、1つ又は複数の配線に基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ(登録商標))、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光学的記憶デバイス、磁気的記憶デバイス、又は上記に記載の任意の適合な組み合わせを含む。
【0143】
ユーザとのインタラクションを提供するために、コンピュータ上で、本明細書に説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形態(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
【0144】
本明細書で説明されているシステム及び技術は、バックエンドコンポーネントを含む計算システム(例えば、データサーバとする)、或いは、ミドルウェアコンポーネントを含む計算システム(例えば、アプリケーションサーバ)、或いは、フロントエンドコンポーネントを含む計算システム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、或いは、当該バックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含む計算システムで実施することができる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの実例は、ローカルネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
【0145】
コンピュータシステムは、クライアント端末とサーバとを含むことができる。クライアント端末とサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント端末-サーバの関係を有するコンピュータプログラムによって、クライアント端末とサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおけるホスト製品であり、伝統的な物理ホスト及びVPSサービス(「VirtuaL Private Server」、又は「VPS」と略称)に存在する管理が難しく、ビジネスのスケーラビリティが弱い欠点を解決する。サーバは、さらに、分散システムのサーバか、またはブロックチェーンと組み合わせたサーバであってもよい。
【0146】
上記に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解すべきである。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定しない。
【0147】
上記の発明を実施するための形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本開示の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10