(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-05
(45)【発行日】2024-03-13
(54)【発明の名称】コンテンツアウェアおよびスタイルアウェアデータを増強することによる筆跡認識方法および装置
(51)【国際特許分類】
G06V 30/194 20220101AFI20240306BHJP
G06T 7/00 20170101ALI20240306BHJP
G06V 10/70 20220101ALI20240306BHJP
【FI】
G06V30/194
G06T7/00 350B
G06V10/70
【外国語出願】
(21)【出願番号】P 2022094191
(22)【出願日】2022-06-10
【審査請求日】2022-10-25
(32)【優先日】2021-06-30
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】519448326
【氏名又は名称】コニカ ミノルタ ビジネス ソリューションズ ユー.エス.エー., インコーポレイテッド
(74)【代理人】
【識別番号】110000671
【氏名又は名称】IBC一番町弁理士法人
(72)【発明者】
【氏名】ティング シュー
【審査官】新井 則和
(56)【参考文献】
【文献】特開2002-259981(JP,A)
【文献】中国特許出願公開第110866501(CN,A)
【文献】古代文字フォントの画像データに基づく手書き篆文文字の検索支援,人文科学とコンピュータシンポジウム 2017,2017年12月02日
【文献】個性を持った文字フォントシステム,電子情報通信学会技術研究報告 Vol.118 No.494,2019年03月06日
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/194
G06T 7/00
G06V 10/70
(57)【特許請求の範囲】
【請求項1】
コンピューターにより実行される方法であって、
i)複数のテキスト文字からテキスト文字を選択し、
ii)フォントセットから複数のフォントを選択し、
iii)コンテンツ参照セットを生成するために、複数のフォントの各々におけるテキスト文字を生成し、
iv)画像セットから複数の画像を選択して、複数のスタイルから選択されたスタイルを有するスタイル参照セットを生成し、
v)スタイルを複数のフォントのそれぞれにおけるテキスト文字に転移して、スタイル化された文字のセットを生成し、
vi)セットから複数のスタイル化された文字を選択し、
vii)複数のスタイル化された文字をランダムに配列して、増強データセットを形成し、
viii)増強データセットを訓練セットとして筆跡認識システムに適用すること、
を有する方法。
【請求項2】
前記複数のテキスト文字の各々について、i)~viii)を繰り返すことをさらに含む、請求項1に記載の、コンピューターにより実行される方法。
【請求項3】
前記複数のスタイルの各々について、i)~viii)を繰り返すことをさらに含む、請求項1に記載の、コンピューターにより実行される方法。
【請求項4】
前記コンテンツ参照セットは、前記スタイル参照セットの前に生成される、請求項1~3のいずれか一項に記載の、コンピューターにより実行される方法。
【請求項5】
前記スタイル参照セットは、前記コンテンツ参照セットの前に生成される、請求項1~3のいずれか一項に記載の、コンピューターにより実行される方法。
【請求項6】
前記コンテンツ参照セットおよび前記スタイル参照セットのうちの少なくとも1つは、以前に生成された参照セットから選択される、請求項1~3のいずれか一項に記載の、コンピューターにより実行される方法。
【請求項7】
回帰型ニューラルネットワーク(RNN)または長期短期記憶(LSTM)モデルを有する言語モデルから前記テキスト文字を生成することをさらに含む、請求項1~3のいずれか一項に記載の、コンピューターにより実行される方法。
【請求項8】
前記回帰型ニューラルネットワーク(RNN)/長期短期記憶(LSTM) 言語モデル(LM)は、クロスエントロピー損失計算を使用して重みを更新することによって訓練される、請求項7に記載の、コンピューターにより実行される方法。
【請求項9】
さらに、ix)筆跡を認識するために前記筆跡認識システムを使用し、前記筆跡認識
システムは、双方向LSTM(CRNN)と組み合わされた畳み込みニューラルネットワーク(CNN)と、変換器ニューラルネットワークと組み合わせたCNNと、からなる群から選択されるニューラルネットワークベースのシステムを使用する、請求項1~3のいずれか一項に記載の、コンピューターにより実行される方法。
【請求項10】
前記筆跡認識
システムは、クロスエントロピー損失およびコネクショニスト時間分類(CTC)損失からなる群から選択される損失計算を使用して重みを更新することによって訓練される、請求項9に記載の、コンピューターによる実行される方法。
【請求項11】
装置であって、
増強データセットを生成するための、ニューラルネットワークベースの増強データセット生成器を有し、
増強データセット生成器は、
複数のテキスト文字から選択されたテキスト文字を有するコンテンツ参照セットを生成するためのコンテンツエンコーダーであって、テキスト文字は、複数のフォントの各々において生成される、コンテンツエンコーダーと、
複数のスタイルから選択されたスタイルで表されたテキスト文字を有する複数の画像を有するスタイル参照セットを生成するためのスタイルエンコーダーと、
スタイルを複数のフォントのそれぞれのテキスト文字に転移して、スタイル化された文字のセットを生成するミキサーと、
セットから複数のスタイル化された文字を選択するセレクターと、
複数のスタイル化された文字をランダムに配列して、増強データセットを生成するランダム化ステッチャーと、を有し、
増強データセット生成器から増強データセットを訓練セットとして受け取って、筆跡を認識するためのニューラルネットワークベースの筆跡認識システムをさらに備える装置。
【請求項12】
前記増強データセット生成器は、前記複数のテキスト文字の各々に対して、複数の増強データセットを生成する、請求項11に記載の装置。
【請求項13】
前記増強データセット生成器は、前記複数のスタイルの各々に対して複数の増強データセットを生成する、請求項11に記載の装置。
【請求項14】
前記増強データセット生成器は前記テキスト文字を生成するために、回帰型ニューラルネットワーク(RNN)または長期短期記憶(LSTM)モデルが実装される言語モデルを備える、請求項11から13のいずれか一項に記載の装置。
【請求項15】
回帰型ニューラルネットワーク(RNN)/長期短期記憶言語(LSTM LM)モデルは、クロスエントロピー損失計算を使用して重みを更新することによって訓練される、請求項14に記載の装置。
【請求項16】
筆跡認識システムは、双方向LSTMと組み合わされた畳み込みニューラルネットワーク(CNN)(CRNN)と、変換器ニューラルネットワークと組み合わせたCNN(CNN+変換器)とからなる群から選択されるニューラルネットワークベースのモデルを有する、請求項11から13のいずれか一項に記載の装置。
【請求項17】
CRNNは、コネクショニスト時間分類(CTC)損失計算を使用して訓練される、請求項11から13のいずれか一項に記載の装置。
【請求項18】
CNN+変換器は、クロスエントロピー損失計算を使用して訓練される、請求項11~13のいずれか一項に記載の装置。
【請求項19】
前記ミキサーは、コンテンツ参照セットとスタイル参照セットとをマッピングして、スタイル化された文字セットを生成するバイリニアモデルを有する、請求項11~13のいずれか一項に記載の装置。
【請求項20】
コンテンツ参照セットを生成するために使用される複数のテキスト文字の一部または全部、および/または前記スタイル参照セットを生成するために使用される複数の画像の一部または全部を提供する撮像装置をさらに備える、請求項11から13のいずれか一項に記載の装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の分野
本発明の態様は筆跡認識に関し、特に、筆跡認識システムを訓練するためのデータセットの増強に関する。
【背景技術】
【0002】
発明の背景
筆跡認識における多くの課題の1つは、異なる筆跡スタイルを補償する必要があることである。同じ個人であっても、年をとるにつれて、異なる筆跡を有する可能性がある。同じ個人の筆跡は、異なる表面上において、またはその個人が異なる筆記具を使用する場合、またはその個人が狭いスペースで書くことを強いられる場合(例えば、そのフィールド内に非常に少ないスペースを提供するフォームに記入する)に、異なる可能性がある。
【0003】
これらの変化の1つの用語(term)はデータ分布シフトと呼ばれ、テストサンプルの確率分布は筆跡認識システムを訓練するために使用される訓練サンプル(x,y)の確率分布とは異なる。テストサンプルが異なる確率分布P(x,y)から引き出されると、筆跡認識システムが所望の結果から離れるように変化する可能性がある。この問題に対処する1つの方法は、元のモデルから新しいデータに転移学習する(to transfer learning)ことである。しかしながら、このアプローチをとることは、データの十分性およびデータプライバシーに関する問題を引き起こす可能性がある。
【0004】
筆跡サンプルがモデルを訓練するために使用されるとき、十分な有用なサンプルを得ることが困難であることがあり、したがって、データの十分性の問題となる可能性がある。さらに、サンプル自体に、手書きをした人(handwriter)が公開することを望まないタイプの情報を含むことがあり、したがって、データプライバシーの問題となる可能性がある。モデルサイズおよびモデルのどの部分を微調整する必要があるかに応じて、顧客データは依然として、転移学習(transfer learning)のためであっても十分でない可能性がある。さらに、顧客は、この顧客データを識別および/またはラベル付けする必要がある。さらに、データは、1つまたは複数の顧客デバイス上で、顧客に端を発するので、このデータをサービスプロバイダに転送する必要がある。この転送、データプライバシーの懸念を生じさせる方法になり得る。連合学習(fedrated learning)などの協調分散学習(collaborative distributed learning)を促進するための最近の努力は、この問題に対処するためのアプローチを提供する。この種のアプローチの例として、複数のソース(ローカルデバイス)は、中央サーバからモデルを受信し得る。各ソースは、ソースにローカルに記憶されたデータを使用して、モデルに更新を提供する。ローカルに記憶されるデータではなく更新が、中央サーバに返送される。
【0005】
筆跡認識に関しては、データ分布P(x,y)ドリフトの問題は、各個人が固有の筆跡スタイルをもつためにかなり顕著である。たとえば、同じ道具を用いても、異なる道具を用いても、異なる場所であっても(たとえば、紙の上の空きスペースと比較して、フォーム上の比較的狭くなっている領域)、同じ時間においても、あるいは異なる時間においても(人の筆跡は年齢とともに変化する傾向があるため)、人が異なれば、異なる方法で同じ文字を書く可能性がある。技術的には、これは「概念ドリフト(concept drift)」と呼ばれるデータドリフトの1つのタイプであり、つまり、y(文字)が発生したときにx(画像)が発生する確率を意味する条件付き確率または尤度P(x| y)であるが、生産のための訓練ごとに異なる可能性がある。別のタイプのドリフトは「事前ドリフト(prior drift)」であり、この場合、事前確率P(y)は、コンテンツ分布(content distribution)の変化の結果として変化する。例えば、漢字では、トピックに応じて、テキスト(text)に、異なる頻度(frequency)を有する異なる文字を使用し得る。前述の全ては、P(x,y)=P(x|y)P(y)というベイズの定理を考慮している。
【0006】
さらなる課題は、筆跡認識システム、特にニューラルネットワークベースのシステムを訓練するのに十分なデータを得る能力である。最も洗練された認識モデルでさえ、適切な関連性の十分な訓練データがない場合、うまく機能しない。
【発明の概要】
【0007】
発明の概要
前述のことに対処するために、本発明の態様は、増強データ(augmented data)を生成するために、スタイル(style)およびコンテンツ(content)の両方において顧客のデータと同様の訓練データを合成できるデータ増強技術を提供する。スタイルの類似性は、概念ドリフトを減少させ、P(x|y)を、顧客データの条件付き確率と同じか、ほぼ同じに保つ。コンテンツの関連性は事前ドリフトを低減し、P(y)を、顧客データの事前確率と同じまたはほぼ同じに保つ。
【0008】
増強データは人工的に生成されるので、データがクラウドにアップロードされても、データによりもたらされるプライバシー問題はより少なくなる。他方、合成データの実質的な利用可能性は、転移学習に関するデータ不足を除去する。
【図面の簡単な説明】
【0009】
図面の簡単な説明
次に、添付の図面に示される実施形態を参照して、本発明の態様を説明する。
【
図1】
図1は、一実施形態による、増強データセットを提供するためのハイレベルフローチャートを示す。
【
図2】
図2は、一実施形態による、増強データセットを提供するための構造のハイレベルブロック図を示す。
【
図3】
図3は、一実施形態による筆跡認識のための例示的な演算システムのハイレベルブロック図を示す。
【発明を実施するための形態】
【0010】
実施形態の詳細な説明
本発明の実施形態は、以下を有するコンピューターによる実行方法を提供し得る。
【0011】
複数のテキスト文字からテキスト文字を選択し、
フォントセットからの複数のフォントを選択し、
コンテンツ参照セットを生成するために、複数のフォントの各々におけるテキスト文字を生成し、
画像セットから複数の画像を選択して、複数のスタイルから選択されたスタイルを有するスタイル参照セットを生成し、
スタイルを複数のフォントのそれぞれにおけるテキスト文字に転移して、スタイル化された文字のセットを生成し、
セットから複数のスタイル化された文字を選択し、
複数のスタイル化された文字をランダムに配列して、増強データセットを形成し、
増強データセットを訓練セットとして筆跡認識システムに適用する
実施形態においては、挙げられたアクションが複数のテキスト文字の各々について、または複数のスタイルの各々について繰り返され得る。
【0012】
実施形態においてはコンテンツ参照セットがスタイル参照セットの前に生成されてもよく、またはスタイル参照セットがコンテンツ参照セットの前に生成されてもよい。
【0013】
一実施形態では、コンテンツ参照セットおよびスタイル参照セットのうちの少なくとも1つは以前に生成された参照セットから選択される。
【0014】
一実施形態では、選択されたテキスト文字が回帰型ニューラルネットワーク/長期短期記憶言語(RNN/LSTM LM)モデルを有する増強データセット生成器から生成され得る。一実施形態では、このモデルがクロスエントロピー損失計算を使用して重みを更新することによって訓練され得る。
【0015】
一実施形態では、上述の筆跡認識システムが筆跡を認識するために使用され得る。筆跡認識モデルは、双方向LSTM(CRNN)と組み合わされた畳み込みニューラルネットワーク(CNN)と、変圧器ニューラルネットワークと組み合わせたCNNとからなる群から選択されるニューラルネットワークベースのシステムを使用できる。実施形態では、筆跡認識モデルは、クロスエントロピー損失およびコネクショニスト時間分類(CTC)損失からなる群から選択される損失計算を使用して重みを更新することによって訓練され得る。
【0016】
本発明の実施形態はまた、以下を有する装置を提供することができる。
【0017】
増強データセットを生成するための、ニューラルネットワークベースの増強データセット生成器であって、増強データセットジェネレータは、
複数のテキスト文字から選択されたテキスト文字を有するコンテンツ参照セットを生成するためのコンテンツエンコーダーであって、テキスト文字は、複数のフォントの各々において生成される、コンテンツエンコーダーと、
複数のスタイルから選択されたスタイルで表されたテキスト文字を有する複数の画像を有するスタイル参照セットを生成するためのスタイルエンコーダーと、
スタイルを複数のフォントのそれぞれのテキスト文字に転移して、スタイル化された文字のセットを生成するミキサーと、
セットから複数のスタイル化された文字を選択するセレクターと、
複数のスタイル化された文字をランダムに配列して、増強データセットを生成するランダム化ステッチャーと、を有し、
一実施形態では、装置が増強データセット生成器から増強データセットを訓練セットとして受け取って、筆跡を認識するためのニューラルネットワークベースの筆跡認識システムをさらに備えることができる。
【0018】
一実施形態では、増強データセット生成器が複数のテキスト文字の各々についての、および/または複数のスタイルの各々についての、複数の増強データセットを生成することができる。
【0019】
一実施形態では、拡張データセット生成器は、テキスト文字を生成するために、回帰型ニューラルネットワーク/長期短期記憶言語(RNN/LSTM LM)モデルを有することができる。一実施形態では、モデルがクロスエントロピー損失計算を使用して重みを更新することによって訓練され得る。
【0020】
一実施形態では、筆跡認識システムは、双方向LSTMと組み合わされた畳み込みニューラルネットワーク(CNN)(CRNN)と、変換器ニューラルネットワークと組み合わせたCNN(CNN+変換器)とからなる群から選択されるニューラルネットワークベースのモデルを有することができる。
【0021】
一実施形態では、CRNNがコネクショニスト時間分類(CTC)損失計算を使用して訓練され得る。一実施形態では、CNN+変換器はクロスエントロピー損失計算を使用して訓練され得る。
【0022】
一実施形態では、ミキサーは、コンテンツ参照セットとスタイル参照セットとをマッピングして、スタイル化された文字セットを生成するためのバイリニアモデルを有することができる。
【0023】
一実施形態では、装置がコンテンツ参照セットを生成するために使用される複数のテキスト文字の一部または全部、および/またはスタイル参照セットを生成するために使用される複数の画像の一部または全部を提供する撮像装置をさらに有することができる。
【0024】
本発明の態様は、コンテンツおよびスタイルの両方においてより関連性のあるデータを生成することにより改善されたデータの増強によって、データシフト問題に対処する。このようにして、所定の顧客からのデータに関する転移学習の有効性を改善することが可能であり、その顧客のためのより正確な筆跡認識モデル、すなわち、効果的に、モデルのタイプのカスタマイズにつながる。
【0025】
説明される、本発明の態様による技術を使用して、センシティブな、顧客またはユーザのコンテンツを明かすことなく、ユーザーの筆跡スタイルで関連コンテンツを生成することが可能である。さらに、コンテンツおよびスタイル関連データ増強モデルは、顧客またはユーザーのデータについて訓練される必要はない。このようにして、筆跡認識モデルが特定のユーザーの筆跡を認識するように訓練されている場合であっても、システムのサーバ側における顧客またはユーザーのデータプライバシーを保護することができる。したがって、例えば、転移学習は、1つのタスクを達成するために開発されたモデルを、別のタスクを達成するために開発されるモデルの出発点として使用することができる機械学習方法である。
【0026】
以下では、表意文字(characters)および/または表音文字(letters)の線画像(いわゆる「関連」コンテンツ)の合成について、それらに重畳し、または結合した筆跡スタイルとともに説明する。
【0027】
中国語や日本語などのアジア言語では、アルファベットには漢字を中心に数千の文字(characters)が含まれている。例えば、そのような文字(characters)でスペルアウトされた単語は、どの文字(characters)が現れ得るかに対して実質的な影響をもち得る。異なる文字(character)は同じように発音され得るが、非常に異なる意味をもつことがあり、したがって、いくつかの文字(characters)はいくつかの単語において、他の文字よりも不適切である場合がある。その結果、文字(characters)(特に漢字)の事前確率分布は、対象(subject)に応じて変化する可能性がある。したがって、関連するテキスト(relevant text)を生成することは、事前分布P(y)を実際の顧客コンテンツのそれに、より類似させることができる。
【0028】
しかしながら、関連するテキストは、必ずしも完全に理解可能であることを意味しない。一実施形態では、生成されたテキストは人間の理解のためのものではなく、人間に理解されることを意図されたものではないので、文字レベル(character-level)回帰型ニューラルネットワーク(RNN)/長期短期記憶(LSTM)言語モデル(LM)を使用することができる。むしろ、アイデアは、誰かの筆跡、特に、人が書き得る異なる表意文字または表音文字を認識するようにシステムを訓練することができるというものである。その文脈において、単語列が意味をなすかどうかは、問題とする必要はない。より重要なことは、線画像内の単語および/または語句における文字(characters)および文字の組み合わせに関して、テキストコンテンツの適切なカバレッジである。個々の単語は意味をなし得る。ファイナンスのような所定の分野では、特定のタイプの文字(characters)が単語(words)で期待されることがあり、したがって、個々の単語に関して、事前確率分布は関連性があり、有用であることがある。しかしながら、個々の単語は意味をなし得る一方で、それらの単語の単語列(strings of word)は意味をなさないかもしれない。単語内では、事前確率分布を適用することができる。例えば、訓練セットを生成するための増強データ(augmented data)を作成するための単語のランダム生成では、単語列中の単語の存在が後続の単語の存在の可能性に影響を及ぼさないことがある。結果として生じる、単語または語句または文の理解され易さは、説明される実施形態のうちの1つまたは複数においてそれほど重要ではない。
【0029】
個々の単語が意味をなすように意図されている場合、文字列を形成する個々の文字(characters)が所定の規律(discipline)において依存性および文脈(context)を有するので、事前確率分布を適用することができる。しかし、一実施形態では、文字列は意味をなす必要はない。
【0030】
一実施形態では、テキストジェネレーターは、輸送、金融、医療、法律、科学(工学、化学、生物学)などの専門分野コーパス(topic-specific corpus)においてで訓練された標準RNN/LSTM文字レベル言語モデル(LM)であり得る。利用可能な専門分野コーパスのサイズに応じて、単層または多層のRNN/LSTMを使用できる。文字(characters)のシーケンスであるコーパスは、前の文字(characters)の存在が与えられると、各文字(characters)の確率分布を予測するためにLMに供給され得る。損失関数は、予測された確率分布と真の次の文字(ワンホットベクトル)との間のクロスエントロピーとして計算され得る。このキャラクターレベル(character-level)LMは、標準的なバックプロパゲーションにより、時間を通して訓練され得る。訓練入力は、アルファベットの文字インデックス(character index)を符号化する単純なワンホットベクトルであってもよい。文のバッチに対する損失関数および勾配の両方が計算され得る。一実施形態では勾配降下、またはより具体的な実施形態では確率的勾配降下を使用して、モデル重み(model weights)を更新できる。
【0031】
一実施形態では、ニューラルスタイルトランスファー(neural style transfer)を良好な利点のために使用することができる。ニューラルトランスファーでは、コンテンツ画像(content image)とスタイル画像(style image)とが結合され得る。スタイル化される入力画像が存在し得る。これは、コンテンツ画像であってもよいし、別の画像であってもよい。アルファベット、文字列などのコンテキスト(context)において、コンテンツ画像は、表音文字(letter)、または表意文字(character)であり得る。スタイル画像は、フォント、または手書きスタイルであり得る。コンテンツ画像とスタイル画像とを組付け(imposing)、重畳させ(superimposing)、または結合する(combining)ことによって、特定のユーザーからの特定の筆跡例が存在しなくても、文字(character)の筆跡スタイルを提供することが可能であり得る。
【0032】
実際、顧客の手書きスタイルが事前に知られていないことがあり、したがって、ターゲットスタイル転移モデル(targeted style transfer model)の訓練を妨げるので、テスト中に新しいスタイルに一般化することが可能でなければならない。
【0033】
柔軟な方法でコンテンツとスタイルを分離および/または融合することができる2つのファクタモデル(factor model)であるバイリニアモデル(bilinear model)がある。一実施形態では、このタイプの特性が転移モデル(transfer model)において有利であり得る。EMD(Encoder-Mixer-Decorder)と呼ばれる1つのそのようなモデルは、エンコーダー-デコーダーアーキテクチャにおけるコンテンツスタイルミキサ(content-style mixer)としてバイリニアモデルを利用する。このモデルは、コンテンツ参照セット(content reference set)およびスタイル参照セット(style reference set)を、対応するコンテンツ(文字(character)クラス)およびスタイルを有するターゲット画像にマッピングする。
【0034】
以下に説明するように、一実施形態では、そのようなモデルを利用して、いくつかの手書き文字画像のスタイルを、所望のコンテンツを有するいくつかのフォントレンダリング(font-rendered)された文字画像に転移(transfer)することができる。このように、モデルが訓練されると、新しいスタイルに一般化(generalize)することが可能である。一実施形態では、そのようなモデルを使用することにより、テスト中に新しいスタイルを再訓練する必要性をなくすことができる。
【0035】
再訓練を回避するこの能力は、筆跡スタイルの多様性のために特に有用であり得る。利用可能なスタイル画像に関しては、例えば、筆跡スタイルは、訓練データにおいて過小評価されるか、それどころか訓練データにないといったほど多様であり得る。
【0036】
一実施形態では、モデルは、フォントレンダリングされた文字画像と実際の手書き文字画像の両方を使用して訓練される。一実施形態では、フォントセットFをスタイル画像として選択することができる。手書き文字画像セットHもまた、スタイル情報(例えば、手書き者の識別)を有し得るが、文字画像も提供する。
【0037】
一実施形態では、手書き文字画像Tが、画像セットSから、個人Pによって書き込まれたその画像内の文字Cとともに、ターゲット画像としてランダムに選択され得る。一態様では、文字Cをレンダリングするために、フォントの数rもランダムに選択され得る。このようにして、結果は文字Cのr個の画像を有するコンテンツ参照セットである。同時に、個人Pによって書き込まれた、同じまたは類似する数rの画像(文字は文字Cであってもなくてもよい)も、スタイル参照セットとしてランダムに選択され得る。これらの2つのセット(コンテンツ参照セットおよびスタイル参照セット)は、モデルへの入力とすることができる。ターゲット画像Tは、スタイル転移モデル(style transfer model)を訓練するためのグラウンドトゥルースとして扱われ得る。
【0038】
一実施形態では、フォント間でスタイルを転移する代わりに、(手書き文字画像の)筆跡スタイルを、フォントによってレンダリングされるコンテンツ画像に転移することができる。コンテンツ画像は、フォントレンダリング画像(font rendered images)のみを使用してサンプリングされ得る。スタイル画像は、手書き文字画像からのみサンプリングされ得る。次いで、訓練されたEMDモデルを使用して、個人の手書き画像のスタイルをフォントレンダリング画像に転移し得る。
【0039】
一実施形態では、前述のように、テスト中のトレーニングサンプルの生成(テキスト生成およびスタイル転移を使用)においては、訓練は必要とされない。
【0040】
テスト中、文字(character)の初期入力を文字言語モデルに提供し得る。反復サンプリングによって、関連するテキストコンテンツ(textual content)を生成することが可能である。一実施形態では、出力としてのそのようなサンプリングされた文字が、順に、次の反復またはステップのための入力になり得る。
【0041】
一実施形態では生成されたテキストのセットにおける各文字がフォントセットFからランダムに選択されたr個のフォントによってレンダリングされる1つのコンテンツターゲット(content target)と見なされ得る。 次いで、r個のフォント画像は、スタイル転移装置(style transferrer)への2つの入力のうちの1つであるコンテンツ参照セットを形成する。したがって、コンテンツ参照セットは、異なるフォントにそれぞれ対応するr個のスタイルで再生成される単一の文字であり得る。
【0042】
次に、ターゲットスタイル(targeted style)は、個人のスキャンされた文書からセグメント化されたr個の文字画像からなるスタイル参照セットによって特定され得る。一実施形態では、手書き文字検出モデルを使用し得る。あるいは、文字は、1つまたは複数の既知の文字セグメント化アルゴリズムによって文書ライン画像(document line image)からセグメント化し得る。したがって、スタイル参照セットは、単一のスタイルで再生成される複数のr個の文字であってもよい。
【0043】
コンテンツ参照セットおよびスタイル参照セットが生成された後、これらは、ターゲットコンテンツ(targeted content)(文字クラス)および筆跡スタイルを有する文字画像を生成するスタイル転移モデルに入力され得る。
【0044】
個々の文字画像を生成した後、個々の文字画像のうちの様々な1つの文字画像をライン画像(line imege)として組み立てる(まとめる、または「スティッチングする」)ことができる。これらのライン画像は、転移学習を促進するための最終的な増強サンプルとなり得る。各ライン画像の対応するコンテンツは、そのサンプルのグランドトゥルースラベルであり得る。ライン画像を生成することには、ライン画像を形成するために文字画像がシーケンスに入れられるとき、個々の文字画像の位置、サイズ、および他の特性をランダム化することが含まれる。様々な文字画像特性のランダム化は、よりロバストな訓練セットをもたらし得る。
【0045】
画像のスティッチングは、シームレスなライン画像を提供するための、サイズおよびフォーマットのマッチングを包含し得る。そのようなシームレスさは、本発明の実施形態によるいくつかの状況では望ましくあり得る。しかし、今述べたように、文字画像のラインを生成することには、個々の文字画像の様々な特性のランダム化を含み得る。文字画像が組み立てられるとき、結果として得られるライン画像は、スティッチングにおけるシームレスさを反映してもよく、反映しなくてもよい。実際、いくつかの実施形態においては、筆跡は任意の数の理由によりランダムな変動を持ちうるので、ライン画像のシームレスな組み立てを可能にするための、文字画像の正規化を行わないことが望ましくあり得る。漢字やこれに類似する文字の場合、このことは特に当てはまり得る。例えば、英語または他のアルファベットに関する他のタイプの手書きの場合、スティッチングがシームレスであることが、より筆記体(cursive writing)に近い訓練セットを提供するために望ましくあり得る。
【0046】
図1は、一実施形態による、生成された、増強された訓練セットに関するハイレベルフローチャートを示す。この処理は、最初の文字C
Nを選択することによって始まる。これは、105および110において、カウンターにN=1を設定し、第1の文字をC
1として示すことによって行われ得る。115において、選択されたフォントセットFから、r個のフォントを選択し得る。120において、文字C
Nがr個のフォントの各々において生成されて、コンテンツ参照セットを作成し得る。この生成は、エンコード処理として実行され得る。
【0047】
プロセスの別の面において、第1のスタイルMが選択され得る。これは、125および130において、カウンターにM=1を設定することによって行われ得る。130において、スタイルMが選択される。135において、スタイルMにおけるr個の画像が生成されて、スタイル参照セットが作成される。一実施形態では、画像は、複数の表意文字(character)または表音文字(letter)であり得る。この生成は、エンコード処理として実行され得る。
【0048】
140において、スタイルMは、r個のフォントにおける文字CNに転移されて、スタイル化された(stylized)文字を生成する。先の議論から、この転移は、バイリニアモデルを使用して、ミキシングプロセスとして実行され得る。145および150において、文字CNのすべてが考慮されるまで、処理を繰り返し、110に戻り得る。これが行われると、155において、複数のP個の生成されたスタイル化された文字が、ミキシングプロセスによって生成されたQ個の文字から選択される。先の議論から、これは、デコード処理として理解され得る。160において、P個の生成されたスタイル化された文字のランダムシーケンスから、増強訓練セットを形成し得る。このプロセスは選択すべき少なくともP個のスタイル化された文字がまだ存在する限り、一度にP個の文字について、155および160を反復することによって繰り返される。Pは固定される必要はないが、様々なライン長を有するサンプルを生成するために、各反復において乱数であり得る。
【0049】
図1では、全てのスタイルが考慮されるまで、直前に検討したシーケンスを複数のスタイルの各々について繰り返すことができる。たとえば、
図1では180および185において、プロセスはすべてのスタイルが考慮されるまで、別のスタイルの選択のためにフローを130に戻しながら繰り返し得る。これが達成されると、195において、プロセスは終了する。しかし、特定の筆跡スタイルを認識するために筆跡認識システムを訓練する目的のために、プロセスは、その特定の筆跡スタイルのための増強された訓練セットだけに焦点を当てることができる。この実施形態では、複数のスタイルを選択し、当該複数のスタイルに対してプロセスを繰り返す必要がない場合がある。
【0050】
当業者は、スタイル参照セットおよびコンテンツ参照セットの作成が特定の順番で進められる必要がないことを理解するであろう。2つのセットは、並行して生成されてもよく、または一方が他方の前に生成されてもよい。別の代替として、スタイル参照セットおよび/または文字参照セットの「作成」が、複数のそのようなセットからの1つのそのようなセットの選択によりなされることで、複数のそのようなセットが事前に作成され得る。
【0051】
図2は、実施形態による、増強データセットを生成するための装置200の様々な要素のハイレベルブロック図を示す。コンテンツエンコーダー210およびスタイルエンコーダー220は、それぞれ、上述したコンテンツ参照セットおよびスタイル参照セットを提供する。一実施形態では、これらのエンコーダーの一方または両方に、一連の畳み込み層によるダウンサンプリングを使用し得る。一実施形態では、コンテンツエンコーダー210は、ストレージ(例えば、
図3のストレージ360)から必要なテキスト文字(text character)及びフォントを取得し得る。同様に、スタイルエンコーダー220は、ストレージ360から必要な画像及びスタイルを取得し得る。
【0052】
ミキサー230はコンテンツエンコーダー210からコンテンツ参照セットを受信し、スタイルエンコーダー220からスタイル参照セットを受信して、スタイル参照セットに反映されたスタイルをコンテンツ参照セットにおける文字(character)に転移する。一実施形態では、ミキサーは、上述したようなバイリニアモデルを使用し得る。
【0053】
デコーダー240は、ミキサー230の出力を受け取る。一実施形態では、デコーダーが一連のデコンボリューション層によるアップサンプリングを使用し得る。デコーダー240は、スタイル化された文字を出力する。一実施形態では、デコーダーは、出力されているスタイル化された文字のうちのいくつかの出力の選択を可能にするセレクターを含み得る。ランダム化ステッチャー250はデコーダー/セレクター240の出力を受け取り、選択されたスタイル化された文字のシーケンスをランダム化して、増強データセット260を出力する。ランダム化を用いることにより、筆跡認識モデルの訓練を改良する強化されたデータセットを生成することができる。
【0054】
図3は、一実施形態による筆跡認識モデルを訓練するための増強データセットを他のものとの間で使用できるコンピューティングシステム300のハイレベルブロック図である。システム300は、
図2の増強データセット生成器200を含み得る。増強データセット生成器200は筆跡認識システム400と直接通信することができ、または有線もしくは無線ネットワーク、または一実施形態ではクラウドとされ得るネットワーク320を介して通信し得る。システム300はまた、1つまたは複数のプロセッサ、1つまたは複数の記憶デバイス、および1つまたは複数のソリッドステートメモリシステム(記憶デバイスとは異なり、非一時的および一時的メモリの両方を含み得る)を含み得る処理システム340を含み得る。また、直接またはネットワーク320を介してアクセス可能な追加のストレージ360があってもよい。増強データセット生成器200はストレージ360と直接通信し、またはネットワーク320を介して通信し得る。
【0055】
一実施形態では、前述のように、ストレージ360はコンテンツエンコーダー210にコンテンツおよびフォントを提供し、および/またはスタイルエンコーダー220に画像およびスタイルを提供し得る。コンピューティングシステム300、特に処理システム340は、スキャナ、カメラ、または他の撮像機器345などの外部手段によって、ストレージ360に記憶されるコンテンツおよびフォント、ならびに画像およびスタイルを取得し得る。一実施形態では、処理システム340は、増強データセット生成器200に処理電力を提供し得る。代替的に、増強データセット生成器200の様々な要素は、それら自体の処理ユニットを使用し得る。
【0056】
ネットワーク320が通信のためのクラウドシステムである場合、コンピューティングシステム300の1つまたは複数の部分は、他の部分から離れていてもよい。一実施形態では様々な要素が同一場所に配置される場合であっても、ネットワーク320はクラウドベースのシステムであり得る。
【0057】
一実施形態では、筆跡認識システム400は双方向LSTMと連動した、畳み込みニューラルネットワーク(CNN)に基づき得る。そのようなアーキテクチャーは、CRNNとして当業者に知られている。一実施形態では、コネクショニスト時間分類(CTC)損失が計算されて、CRNNモデルを訓練するために使用され得る。当業者は、そのような構成が、対応するデコーダー構造をもたないエンコーダーを構成すると理解する。CTC損失の計算は、当業者に周知である。さらなる実施形態では、筆跡認識システム400は変換器ニューラルネットワーク(transformer neural network)と組み合わせたCNNに基づき得る。当業者は、そのような構成が、エンコーダー-デコーダーの組合せを構成すると理解する。一実施形態では、前述したクロスエントロピー損失が計算されて、CNN+変圧器モデルを訓練するために使用され得る。
【0058】
本出願は、筆跡認識システム400を実装するための、ならびに増強データセット生成器200を実装するための、いくつかのニューラルネットワークベースのアーキテクチャーに言及する。当業者は増強データセット生成器200と筆跡認識システム400との組合せが、本発明の態様による有益な効果をもたらすことを理解するであろう。筆跡認識システム400の訓練は、増強データセット生成器200が生成するデータセットを使用して容易にできる。特定の用途に応じて、増強データセット生成器200と筆跡認識システム400とのこの組み合わせは、上述のニューラルネットワークベースのアーキテクチャーのより具体的なバージョンを当業者に知らせることができる。個人の個人的にセンシティブな情報、または自然源から得ることができる訓練データセットに含まれ得る他の機密情報を明らかにすることなく、筆跡認識システムにおいてより良好な結果をもたらすのは、組み合わせ自体である。
【0059】
概して、本発明の態様による深層学習モデルは1つまたは複数の異なるタイプのニューラルネットワークが、場合によっては上述のものに加えて実装され得るが、上述のものは特に良好に、一緒に機能するように見える。上述のように、本発明の実施形態は、筆跡認識モデルに提供される訓練データの生成に着目している。
【0060】
上記では本発明の態様による実施形態を説明したが、本発明はそれらの実施形態または態様に限定されると見なされるべきではない。当業者は、添付の特許請求の範囲の範囲および精神の範囲内で本発明の変形を理解するであろう。