(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-12-20
(45)【発行日】2022-12-28
(54)【発明の名称】文字検出装置、文字検出方法及び文字検出システム
(51)【国際特許分類】
G06T 7/00 20170101AFI20221221BHJP
【FI】
G06T7/00 350B
(21)【出願番号】P 2021515507
(86)(22)【出願日】2019-07-17
(86)【国際出願番号】 KR2019008820
(87)【国際公開番号】W WO2020060019
(87)【国際公開日】2020-03-26
【審査請求日】2021-03-19
(31)【優先権主張番号】10-2018-0114369
(32)【優先日】2018-09-21
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】505205812
【氏名又は名称】ネイバー コーポレーション
【氏名又は名称原語表記】NAVER Corporation
(73)【特許権者】
【識別番号】321003371
【氏名又は名称】LINE株式会社
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】バク, ユンミン
(72)【発明者】
【氏名】イ, ファルスク
(72)【発明者】
【氏名】イ, バド
【審査官】新井 則和
(56)【参考文献】
【文献】中国特許出願公開第105574513(CN,A)
【文献】韓国登録特許第10-1805318(KR,B1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00-7/90
G06V 10/00-30/424
(57)【特許請求の範囲】
【請求項1】
文字検出装置による文字検出方法において、
神経網を含む文字検出モデルを訓練させる段階と、
前記訓練された文字検出モデルに
、入力イメージを入力し
、前記文字検出モデルから
出力される1以上の出力イメージを獲得する段階と、を含み、
前記出力イメージは、前記入力イメージ内において、文字が存在する確率
を示す確率値イメージを含
み、
前記訓練させる段階は、
少なくとも1の文字を含む単語領域の位置値が確認された第1学習用イメージから前記単語領域内の文字領域の位置値を決定する段階と、
前記決定された文字領域の位置値に基づいて前記第1学習用イメージに対応する疑似GTイメージを獲得する段階と、を含み、
前記第1学習用イメージに対応して前記文字検出モデルから出力される前記出力イメージと前記疑似GTイメージとの比較結果によって前記文字検出モデルが訓練されることを特徴とする文字検出方法。
【請求項2】
前記確率値イメージは、前記入力イメージ内で文字が存在する確率を前記入力イメージと対応する位置のイメージ空間上に示すことを特徴とする請求項1に記載の文字検出方法。
【請求項3】
前記出力イメージは、
前記入力イメージから検出された文字の連結性を示すリンクイメージをさらに含むことを特徴とする請求項1に記載の文字検出方法。
【請求項4】
前記リンクイメージは、前記入力イメージから検出された隣接文字の中心を連結したラインを含み、
前記ラインの太さは、前記検出された文字それぞれを含む文字領域の大きさを示すことを特徴とする請求項
3に記載の文字検出方法。
【請求項5】
前記訓練させる段階は、
文字領域の位置値が確認された第2学習用イメージからGTイメージを
獲得する段階
を含み、
前記第2学習用イメージに対応して前記文字検出モデルから出力される前記出力イメージと前記GTイメージとの比較結果によって前記文字検出モデルが訓練されることを特徴とする請求項1に記載の文字検出方法。
【請求項6】
前記疑似GTイメージを
獲得する段階は、
前記
第1学習用イメージから、前記単語領域の位置値に対応する単語領域イメージを抽出する段階と、
前記抽出された単語領域イメージを前記文字検出モデルに入力し、前記単語領域イメージに対応する中間出力イメージを獲得する段階と、
前記中間出力イメージから検出された各文字領域から、前記単語領域イメージ内の各文字領域の位置値を決定する段階と、
前記単語領域イメージ内の前記文字領域の位置値を利用し、前記
第1学習用イメージ内の文字領域の位置値を決定する段階と、
前記決定された文字領域の位置値に基づき、前記
第1学習用イメージに対応する疑似GTイメージを
獲得する段階と、を含むことを特徴とする請求項
1に記載の文字検出方法。
【請求項7】
前記
訓練させる段階は、
前記
第1学習用イメージ内の前記単語領域に含まれた文字の正解個数情報を獲得する段階と、
前記単語領域に含まれた文字の正解個数と、前記
単語領域の位置値に対応する単語領域イメージに基づいて獲得された中間出力イメージから検出された文字の個数とを比較し、補正ウェート値を決定する段階と、
前記決定された補正ウェート値を、前記文字検出モデルから出力される前記出力イメージと、前記疑似GTイメージとの比較結果に適用する段階と、をさらに含むことを特徴とする請求項
1に記載の文字検出方法。
【請求項8】
前記単語領域イメージ内の各文字領域の位置値を決定する段階は、
前記中間出力イメージから検出された文字の個数が所定個数未満である場合、前記単語領域イメージを前記文字の正解個数によって分割する段階と、
前記単語領域イメージから分割された各分割領域の位置値を、前記単語領域イメージ内の前記各文字領域の位置値と決定する段階と、を含むことを特徴とする請求項
6に記載の文字検出方法。
【請求項9】
前記中間出力イメージを獲得する段階は、
前記抽出された単語領域イメージをイメージ処理アルゴリズムによって変形する段階と、
前記変形された単語領域イメージを前記文字検出モデルに入力し、前記変形された単語領域イメージに対応する中間出力イメージを獲得する段階と、を含み、
前記単語領域イメージ内の各文字領域の位置値を決定する段階は、
前記変形された単語領域イメージ内の各文字領域の位置値を決定する段階を含み、
前記
第1学習用イメージ内の文字領域の位置値を決定する段階は、
前記変形された単語領域イメージ内の前記文字領域の位置値を利用し、前記
第1学習用イメージ内の前記文字領域の位置値を決定する段階を含むことを特徴とする請求項6に記載の文字検出方法。
【請求項10】
前記文字検出方法は、
前記確率値イメージにおいて、第1臨界値以上の確率値を有する少なくとも1つの地点を決定する段階と、
前記決定された少なくとも1つの地点それぞれから、前記第1臨界値より小さい第2臨界値以上の確率値を有する地点までバウンディング領域を増大させる段階と、
前記増大されたバウンディング領域に対応するバウンディングボックスを、前記
入力イメージ上に表示する段階と、をさらに含むことを特徴とする請求項2に記載の文字検出方法。
【請求項11】
プロセッサと、
少なくとも1つのインストラクションを保存するメモリと、を含み、
前記プロセッサは、前記少なくとも1つのインストラクションにより、
神経網を含む文字検出モデルを訓練させ、
前記訓練された文字検出モデルに入力イメージを入力し、前記文字検出モデルから出力される1つ以上の出力イメージを獲得し、
前記出力イメージは、前記入力イメージ内から文字が存在する確率を示す確率値イメージを含み、
前記プロセッサは、前記文字検出モデルの訓練のために、少なくとも1つの文字を含む単語領域の位置値が確認された第1学習用イメージから前記単語領域内の文字領域の位置値を決定し、前記決定された文字領域の位置値に基づいて前記第1学習用イメージに対応する疑似GTイメージを獲得し、
前記第1学習用イメージに対応して前記文字検出モデルで出力される前記出力イメージと前記疑似GTイメージとの比較結果によって前記文字検出モデルが訓練されることを特徴とする文字検出装置。
【請求項12】
少なくとも1つの文字を含む単語領域の位置値が確認された第1学習用イメージを利用し、神経網を含む文字検出モデルを訓練させるサーバ装置と、
前記サーバ装置から、前記文字検出モデルの実行のためのデータを受信し、入力イメージが獲得されれば、前記文字検出モデルに、前記入力イメージを入力し、前記文字検出モデルから、少なくとも1つの出力イメージを獲得するクライアント装置と、を含むが、
前記出力イメージは、前記入力イメージ内において、文字が存在する確率
を示す確率値イメージを含
み、
前記サーバ装置は、前記文字検出モデルの訓練のために、前記第1学習用イメージから前記単語領域内の文字領域の位置値を決定し、前記決定された文字領域の位置値に基づいて前記第1学習用イメージに対応する疑似GTイメージを獲得し、
前記第1学習用イメージに対応して前記文字検出モデルから出力される前記出力イメージと前記疑似GTイメージとの比較結果によって前記文字検出モデルが訓練されることを特徴とする文字検出システム。
【請求項13】
文字検出装置による文字検出方法において、
神経網を含む文字検出モデルに入力イメージを入力する段階と、
前記文字検出モデルから1以上の出力イメージを獲得する段階と、を含み、
前記出力イメージは、前記入力イメージ内で文字が存在する確率を示す確率値イメージ、及び前記入力イメージで検出された文字の連結性を示すリンクイメージを含み、
前記リンクイメージは、前記入力イメージで検出された隣接した文字の中心を連結したラインを含み、
前記ラインの厚さは、前記検出された文字それぞれを含む文字領域の大きさを示すことを特徴とする文字検出方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、イメージ処理分野に係り、さらに具体的には、マシンラーニングモデルを利用し、イメージに含まれた文字の位置を検出する装置、その方法及びそのシステムに関する。
【背景技術】
【0002】
イメージ内文字がどこにあるかということの検出は、HCI(human computer interaction)において重要な要素である。文字イメージからの文字検出は、比較的簡単であるが、看板、表示板、メニューのように、実生活で撮影されたイメージに含まれた文字は、さまざまなデザイン的要素だけではなく、映像変換、光反射などの影響により、検出に困難さが存在する。
【0003】
イメージ内において、さまざまな文字からなる単語の検出方法は、提案されているが、個別文字ではなく、単語中心に文字を検出する場合、曲線に配置された文字や、視点による歪曲が生じた文字の検出正確度が低くなる問題点がある。
【発明の概要】
【発明が解決しようとする課題】
【0004】
一実施形態による文字検出装置、その方法及びそのシステムは、さまざまな文字からなる単語ではないそれぞれの文字を高い正確度で検出することを技術的課題とする。
【0005】
また、一実施形態による文字検出装置、その方法及びそのシステムは、少ない量のGT(ground truth)を増大させることを技術的課題とする。
【0006】
また、一実施形態による文字検出装置、その方法及びそのシステムは、指導(教師あり)(supervision)学習過程及び弱指導(弱い教師あり)(weakly supervision)学習過程を介し、文字検出モデルを効率的に訓練させることを技術的課題とする。
【課題を解決するための手段】
【0007】
一実施形態による文字検出方法は、入力イメージを獲得する段階と、神経網を含む文字検出モデルに、前記入力イメージを入力して処理する段階と、前記文字検出モデルから、少なくとも1以上の出力イメージを獲得する段階と、を含み、前記出力イメージは、前記入力イメージ内において、文字が存在する確率を、前記入力イメージと対応する位置のイメージ空間上に示す確率値イメージを含むものである。
【発明の効果】
【0008】
一実施形態による文字検出装置、その方法及びそのシステムは、さまざまな文字からなる単語ではないそれぞれの文字を検出することにより、曲線に配置された文字や、視点による歪曲が生じた文字も、高い正確度で検出することができる。
【0009】
また、一実施形態による文字検出装置、その方法及びそのシステムは、単語領域の位置がアノテーションされた(annotated)学習用イメージを用いて、文字領域の位置情報を提供するGTを生成することができる。
【0010】
また、一実施形態による文字検出装置、その方法及びそのシステムは、指導学習過程及び弱指導学習過程を介し、文字検出モデルを効率的に訓練させることができる。
【0011】
しかしながら、一実施形態による文字検出装置、その方法及びそのシステムが達成することができる効果は、以上で言及したところに制限されるものではなく、言及されていないさらに他の効果は、以下の記載から、本開示が属する技術分野で当業者に明確に理解されるであろう。
【図面の簡単な説明】
【0012】
本明細書で引用される図面をさらに十分に理解するために、各図面の簡単な説明が提供される。
【
図1】一実施形態による文字検出装置を図示する図面である。
【
図2】一実施形態による文字検出方法について説明するためのフローチャートである。
【
図3】文字検出モデルに入力されたイメージと、文字検出モデルから出力されたイメージとを図示する図面である。
【
図4】一実施形態による文字検出モデルの神経網構造を図示する図面である。
【
図5】文字領域の位置値がアノテーションされた学習用イメージでもって、文字検出モデルを訓練させる方法について説明するためのフローチャートである。
【
図6】学習用イメージに基づく文字検出モデルの訓練過程について説明するための図面である。
【
図7】学習用イメージから、GTイメージを生成する過程について説明するための図面である。
【
図8】単語領域の位置値がアノテーションされた学習用イメージを用いて、文字検出モデルを訓練させる方法について説明するための図面である。
【
図9】学習用イメージに基づく文字検出モデルの訓練過程について説明するための図面である。
【
図10】単語領域の位置値がアノテーションされた学習用イメージにおいて、文字領域の位置値を決定する方法について説明するための図面である。
【
図11】単語領域イメージを文字検出モデルに入力したとき、出力される中間出力イメージをエポック(epoch)別に図示する図面である。
【
図12】単語領域イメージから文字領域を検出する他の方法について説明するための図面である。
【
図13】一実施形態による文字検出装置の構成を図示するブロック図である。
【
図14】一実施形態による文字検出装置の機能ブロック図である。
【
図15】一実施形態による文字検出装置が適用されるサーバ装置及びクライアント装置を図示する図面である。
【
図16】学習用イメージに基づく文字検出モデルの訓練過程について説明するための図面である。
【発明を実施するための形態】
【0013】
一実施形態による文字検出方法は、入力イメージを獲得する段階と、神経網を含む文字検出モデルに、前記入力イメージを入力して処理する段階と、前記文字検出モデルから、少なくとも1以上の出力イメージを獲得する段階と、を含み、前記出力イメージは、前記入力イメージ内において、文字が存在する確率を、前記入力イメージと対応する位置のイメージ空間上に示す確率値イメージを含むものである。
【0014】
一実施形態による文字検出装置は、プロセッサと、少なくとも1つのインストラクションを保存するメモリを含むものの、前記プロセッサは、前記少なくとも1つのインストラクションによって入力イメージを獲得し、神経網を含む文字検出モデルに、前記入力イメージを入力し、前記文字検出モデルから、少なくとも1つの出力イメージを獲得し、前記出力イメージは、前記入力イメージ内において、文字が存在する確率を、前記入力イメージと対応する位置のイメージ空間上に示す確率値イメージを含むものである。
【0015】
一実施形態による文字検出システムは、学習用イメージを利用し、神経網を含む文字検出モデルを訓練させるサーバ装置と、前記サーバ装置から、前記文字検出モデルの実行のためのデータを受信し、入力イメージが獲得されれば、前記文字検出モデルに、前記入力イメージを入力し、前記文字検出モデルから、少なくとも1つの出力イメージを獲得するクライアント装置を含むものの、前記出力イメージは、前記入力イメージ内において、文字が存在する確率を、前記入力イメージと対応する位置のイメージ空間上に示す確率値イメージを含むものである。
【0016】
本開示は、多様な変更を加えることができ、さまざまな実施形態を有することができるが、特定実施形態を図面に例示し、それらについて詳細な説明を介して説明する。しかし、それらは、本開示を特定の実施形態について限定するのではなく、本開示の思想及び技術範囲に含まれる全ての変更、均等物ないし代替物を含むものであると理解されなければならない。
【0017】
本実施形態についての説明におき、関連公知技術に係わる具体的な説明が、要旨を必要以上に不明確にし得ると判断される場合、その詳細な説明を省略する。また、本実施形態の説明過程で利用される数字(例えば、第1、第2など)は、1つの構成要素を、他の構成要素と区分するための識別記号に過ぎない。
【0018】
また、本明細書において、一構成要素が他の構成要素と「連結される」としたり、「接続される」としたりして言及されたときには、前述の一構成要素が、前述の他の構成要素と直接連結されたり、直接接続されたりもするが、特別に反対となる記載が存在しない以上、中間に他の構成要素を媒介し、連結されたり接続されたりもすると理解されなければならないのである。
【0019】
また、本明細書において、「~部(ユニット)」、「モジュール」などと表現される構成要素は、2個以上の構成要素が1つの構成要素に合わされるか、あるいは1つの構成要素がさらに細分化された、機能別に2個以上に分化されもする。また、以下で説明される構成要素それぞれは、自体が担当する主機能以外にも、他の構成要素が担当する機能のうち、一部または全部の機能を追加して遂行することもでき、構成要素それぞれが担当する主機能のうち、一部機能が他の構成要素によって専担されて遂行されうるということは、言うまでもない。
【0020】
また、本明細書において「文字」は、単語や文章を構成する基本文字単位を意味しうる。例えば、英語の場合には、それぞれのアルファベットが文字に該当し、数字の場合には、「0」ないし「9」の数字それぞれが文字に該当し、韓国語の場合には、子音と母音とが結合された文字(例えば、(外1)
)、子音、母音及び子音が結合された文字(例えば、(外2)
)、単独で記載された子音(例
えば、(外3)
)、単独で記載された母音(例えば、(外4)
)が文字に該当しうる。
【0021】
また、本明細書において「単語」は、少なくとも1つの文字を含む文字単位を意味しうる。「単語」は、少なくとも1つの文字を含み、言語的意味を有する文字単位とも参照される。また、「単語」を構成する文字は、互いに離隔されていないのである。ところで、「単語」は、1文字からもなる。例えば、英語の不定詞「a」は、1つの文字からなっているが、周辺文字と離隔されている場合、「単語」に該当しうる。
【0022】
以下、本開示の技術的思想による実施形態につき、順に詳細に説明する。
【0023】
図1は、一実施形態による文字検出装置100を図示する図面である。
【0024】
一実施形態による文字検出装置100は、文字検出モデルを含む。文字検出装置100は、該文字検出モデルを介し、入力イメージに含まれた文字を検出する。該文字検出モデルは、神経網を含むマシンラーニングモデルを含むものである。該文字検出モデルは、入力層、隠匿層及び出力層からなる神経網を介し、入力イメージ内の文字を検出することができる。該文字検出モデルは、CNN(convolutional neural network)を含むものである。
【0025】
図1を参照すれば、「Cold」を含むイメージ11に対し、従来の検出装置10は、1つの単語に該当する「Cold」を検出し、「Cold」に対応するバウンディングボックス15が表示されたイメージ11を出力することができるが、一実施形態による文字検出装置100は、「Cold」を、「C」、「o」、「l」、「d」それぞれの文字に区別して検出し、文字別にバウンディングボックス115が表示されたイメージ110を出力することができる。
【0026】
一実施形態による文字検出モデルは、イメージに含まれた文字を、単語単位ではない字単位で検出することができるので、単語単位で文字を検出する方法に比べ、正確性が向上しうる。
【0027】
以下においては、
図2以下を参照し、一実施形態による文字検出装置100の動作について詳細に説明する。
【0028】
図2は、一実施形態による文字検出方法について説明するためのフローチャートである。
【0029】
S210段階において、文字検出装置100は、少なくとも1つの文字を含むイメージを獲得する。文字検出装置100は、内部に保存されたイメージを獲得するか、あるいは外部装置から受信されるイメージを獲得することができる。
【0030】
S220段階において、文字検出装置100は、イメージを文字検出モデルに入力する。該文字検出モデルは、イメージに含まれた各文字の位置を検出するために訓練されるうる。
【0031】
S230段階において、文字検出装置100は、該文字検出モデルから出力される出力イメージを獲得する。出力イメージと入力イメージとの大きさ及び解像度は、互いに同一でもあり、あるいは出力イメージの大きさ及び解像度が、入力イメージよりも小さい。
【0032】
出力イメージは、入力イメージに含まれた文字の存在確率をイメージ空間上に示す。該出力イメージは、確率値イメージ及びリンクイメージのうち少なくとも一つを含むものである。
【0033】
該確率値イメージは、イメージ内文字の存在確率をピクセル値で示すことができる。該確率値イメージに含まれたピクセルは、各ピクセルが、文字に該当する確率に対応する値を有することができる。該確率値イメージに含まれたピクセルは、当該ピクセルの位置が、文字中心に該当する確率に対応するピクセル値を有することもできる。
【0034】
リンクイメージは、イメージ内文字の連結性を示す。該リンクイメージは、文字間の隣接いかんを示す少なくとも1本のラインを含むものである。
【0035】
図3を参照すれば、「p」、「e」、「a」、「c」、「e」の文字を含むイメージ310が文字検出モデルに入力されれば、該文字検出モデルは、イメージ310内文字の存在確率を空間上に示す確率値イメージ320と、イメージ310内文字の連結性を示すリンクイメージ330と、を出力することができる。
【0036】
確率値イメージ320のピクセルは、イメージ310内文字の存在確率に対応するピクセル値を有することができる。または、確率値イメージ320のピクセルは、文字の中心に該当する確率に対応するピクセル値を有することもできる。一例として、確率値イメージ320において特定ピクセル値を有するピクセルは、他のピクセル値を有するピクセルに比べ、文字の中心に該当する確率が高いということを意味し得る。
【0037】
確率値イメージ320のピクセル値により、イメージ310内において、文字の存在確率が高い地点、または文字中心に該当する確率が高い地点が確認され得るので、入力イメージ310に含まれた文字の位置値検出が可能になる。
【0038】
また、確率値が、第1臨界値より高い地点を中心にしたとき、第1臨界値より小さい第2臨界値以上の確率値を有する隣接領域の大きさは、イメージ310に含まれた文字の大きさに比例するので、確率値イメージ320に基づき、イメージ310内文字の大きさ検出も可能である。
【0039】
リンクイメージ330は、イメージ310内文字間の連結性を示す。リンクイメージ330は、ライン335,337を含むことにもなるが、ある1本のラインは、隣接文字の中心点を連結した線にも対応する。例えば、互いに隣接した「p」、「e」、「a」、「c」、「e」に対応するライン335がリンクイメージ330にも含まれる。イメージ310に含まれた「W」、「H」、「Y」は、「p」、「e」、「a」、「c」及び「e」から離隔されているので、「W」、「H」、「Y」に対応するライン337は、ライン335とは別個に、リンクイメージ330に含まれるのである。
【0040】
リンクイメージ330内ラインの太さは、イメージ310に含まれた文字の大きさにも比例する。例えば、リンクイメージ330内ラインの太さは、確率値イメージ320で確認される四角形状の文字領域の対角線長の平均にも比例する。
【0041】
図4は、一実施形態による文字検出モデルの神経網構造を図示する図面である。
【0042】
図4を参照すれば、文字検出モデルは、入力層、コンボリューション層、アップサンプリング層、アップコンボリューション層及び出力層を含んでもよい。
【0043】
入力層405にイメージが入力されれば、該イメージは、第1コンボリューション層410、第2コンボリューション層415、第3コンボリューション層420、第4コンボリューション層425、第5コンボリューション層430及び第6コンボリューション層435において、コンボリューション処理が施される。第6コンボリューション層435の出力と、第5コンボリューション層430の出力とが連接(concatenation)演算され、第1アップコンボリューション層440に入力され、第1アップコンボリューション層440に入力された値は、コンボリューション処理441、配置正規化(normalization)442、コンボリューション処理443及び配置正規化444を介し、第1アップサンプリング層445に入力される。第1アップサンプリング層445の出力は、第4コンボリューション層425の出力と連接演算され、第2アップコンボリューション層450及び第2アップサンプリング層455で処理される。第2アップサンプリング層455の出力は、第3コンボリューション層420の出力と連接演算され、第3アップコンボリューション層460と第3アップサンプリング層465とで処理され、該処理結果は、第2コンボリューション層415の出力と連接演算され、第4アップコンボリューション層470に入力される。そして、第4アップコンボリューション層470の出力と、第1コンボリューション層410の出力は、連接演算された後、さまざまなコンボリューション処理475,480,485,490を介し、出力層495から、確率値イメージ及びリンクイメージとして出力される。
【0044】
図4に図示された文字検出モデルの神経網構造は、例示であるのみ、コンボリューション層の層数やデータの処理方向は、当業者に自明な範囲内において、多様に変更されうるのでる。
【0045】
以下においては、
図5ないし
図12を参照し、文字検出モデルを訓練させる過程について詳細に述べる。
【0046】
図5は、文字領域の位置値がアノテーションされた学習用イメージを用いて、文字検出モデルを訓練させる方法について説明するためのフローチャートである。
図5に図示された過程は、指導(supervision)学習にも該当する。
【0047】
S510段階において、文字検出装置100は、文字領域の位置値がアノテーションされた学習用イメージを獲得する。文字領域の位置値は、学習用イメージ上における文字領域の座標値にも該当する。
【0048】
該学習用イメージは、少なくとも1つの文字を含むものである。文字検出装置100は、該学習用イメージ内の文字を含む各文字領域の位置値を獲得することができる。該学習用イメージ内の文字を含む文字領域が四角形状であるならば、文字検出装置100は、四角形の文字領域の各コーナーの座標値を獲得することができる。該文字領域は、四角形以外にも、三角形、五角形のような多角形、または円形の形態を有することができる。
【0049】
S520段階において、文字検出装置100は、学習用イメージに対応するGT(ground truth)イメージを生成する。該GTイメージは、GT確率値イメージ及びGTリンクイメージのうち少なくとも一つを含むものである。
【0050】
該GTイメージは、文字検出モデルの学習のために提供される正解データであり、該GTイメージの生成方法は、
図7を参照して説明する。
【0051】
S530段階において、文字検出装置100は、学習用イメージを文字検出モデルに入力する。該文字検出モデルは、学習用イメージが入力されることにより、学習用イメージに対応する出力イメージを出力する。該出力イメージは、確率値イメージ及びリンクイメージのうち少なくとも一つを含むものである。
【0052】
S540段階において、文字検出モデルは、出力イメージとGTイメージとの比較結果により、内部加重値を更新する。
【0053】
該出力イメージと該GTイメージとの比較結果により、ロス(loss)値が算出されうる。該ロス値は、例えば、L2 Loss値にも該当する。該ロス値は、それ以外にも、L1 loss、smooth L1 lossのような多様な方法を利用することができる。算出されたロス値は、文字検出モデルに入力され、文字検出モデルは、ロス値により、内部加重値を更新することができる。
【0054】
該文字検出モデルの学習過程を図式化させた
図6を参照して説明する。
【0055】
図6を参照すれば、学習用イメージ610が文字検出モデルに入力され、該文字検出モデルから、出力イメージ(確率値イメージ及びリンクイメージのうち少なくとも一つ)620が出力される。そして、学習用イメージ610内文字領域の位置値630に基づき、GTイメージ640が生成され、出力イメージ620とGTイメージ640とのロス(loss)650が算出される。算出されたロス650は、文字検出モデルに入力され、文字検出モデルの内部加重値が更新されうる。
【0056】
図7は、学習用イメージ710からGTイメージを生成する過程について説明するための図面である。
【0057】
学習用イメージ710に含まれた各文字領域715の位置値がアノテーションされてもいる。
図7は、「2」に対応する文字領域715のみを図示しているが、全ての文字につき、文字領域が決定されてもいる。文字検出装置100は、各文字領域715の位置値により、2Dガウシアンマップ(例えば、2Dヒートマップ)720をワーピング(warping)することにより、GT確率値イメージ730を生成することができる。例えば、文字検出装置100は、四角形状の文字領域715のコーナー座標値により、2Dガウシアンマップ720をワーピングすることができる。ワーピングとは、イメージのピクセル位置値を移動させる幾何学的イメージ処理を意味する。GT確率値イメージ730の大きさ及び解像度は、学習用イメージ710の大きさ及び解像度と同一でもあり、あるいはGT確率値イメージ730の大きさ及び解像度は、学習用イメージ710の大きさ及び解像度よりも小さい。
【0058】
また、文字検出装置100は、各文字領域715の中心をラインで連結し、GTリンクイメージ740を生成することができる。文字検出装置100は、隣接した中心と所定距離以内に位置する中心を1本のラインで連結し、隣接した中心と所定距離を超えて位置する中心を他のラインで連結し、GTリンクイメージ740を生成することができる。GTリンクイメージ740の大きさ及び解像度は、学習用イメージ710の大きさ及び解像度と同一でもあり、あるいはGTリンクイメージ740の大きさ及び解像度は、学習用イメージ710の大きさ及び解像度よりも小さい。
【0059】
文字検出装置100は、各文字領域715の大きさに基づき、GTリンクイメージ740内ラインの太さを調節することができる。例えば、文字検出装置100は、文字領域715の対角線長の平均値に比例し、ラインの太さが決定される。例えば、ある1つの文字に対応する第1文字領域の対角線長の平均値が10であり、他の1つの文字に対応する第2文字領域の対角線長の平均値が5である場合、文字検出装置100は、第1文字領域に対応するラインの太さを、第2文字領域に対応するラインの太さの2倍に決定することができる。
【0060】
なお、
図5ないし
図7と係わって説明された学習過程は、学習用イメージ710につき、文字領域715の位置値がアノテーションされている場合を考慮したものであるが、一般的に、文字領域の位置値がアノテーションされている学習用イメージの量は、多くないので、一実施形態においては、単語領域の位置値がアノテーションされている学習用イメージを利用し、文字検出モデルを学習させることもできる。
【0061】
図8は、単語領域の位置値がアノテーションされた学習用イメージでもって、文字検出モデルを訓練させる方法について説明するための図面である。
図8に図示された過程は、弱指導(weakly supervision)学習過程にも該当する。
【0062】
S810段階において、文字検出装置100は、単語領域の位置値がアノテーションされた学習用イメージを獲得する。該単語領域の位置値は、学習用イメージ内における単語領域の座標値にも該当する。
【0063】
前述のように、単語は、少なくとも1つの文字を含むものでもあり、該単語領域の位置値は、単語を含む多角形の位置値を意味しうる。例えば、該単語領域が四角形である場合、単語領域の位置値は、四角形コーナーの座標情報を意味しうる。該単語領域の形態は、四角形以外の多角形、または円形にも該当する。
【0064】
S820段階において、文字検出装置100は、学習用イメージから、単語領域に対応する単語領域イメージを抽出する。該学習用イメージに含まれた単語領域の個数が複数である場合、文字検出装置100は、複数の単語領域それぞれに対応する複数の単語領域イメージを抽出することができる。
【0065】
S830段階において、文字検出装置100は、単語領域イメージを文字検出モデルに入力する。該文字検出モデルは、単語領域イメージが入力されることにより、単語領域イメージに対応する中間出力イメージを出力する。前述のように、該文字検出モデルは、イメージ内に含まれた各文字の位置を検出するように訓練されたために、該文字検出モデルは、単語領域イメージに含まれた各文字の存在確率を示す中間出力イメージを出力することができる。該中間出力イメージは、確率値イメージ及びリンクイメージのうち少なくとも一つを含むものである。
【0066】
該単語領域イメージの個数が複数個である場合、文字検出装置100は、複数の単語領域イメージそれぞれを文字検出モデルに入力させ、複数の中間出力イメージを獲得することもできる。
【0067】
S840段階において、文字検出装置100は、中間出力イメージから、単語領域イメージ内文字領域の位置値を確認する。該文字領域の位置値は、学習用イメージ上における文字領域の座標値、または単語領域イメージ上における文字領域の座標値にも該当する。
【0068】
該単語領域イメージ上における文字領域の位置値が確認されれば、文字検出装置100は、確認された文字領域の位置値を、学習用イメージ上における文字領域の位置値に変更することができる。文字検出装置100は、単語領域イメージと学習用イメージとに含まれた単語領域間の座標関係を考慮し、該単語領域イメージ上における文字領域の位置値を、学習用イメージ上における文字領域の位置値に変更することができる。例えば、該単語領域イメージの左側最上端及び右側最上端の座標が確認され、学習用イメージに含まれた単語領域の左側最上端及び右側最上端の座標が確認されれば、文字検出装置100は、単語領域イメージにおける左側最上端及び右側最上端の座標値と、学習用イメージ上において、単語領域の左側最上端及び右側最上端の座標値との関係式に基づき、単語領域イメージに含まれた文字領域の座標値を、学習用イメージ上における座標値に変更することができるのである。
【0069】
S850段階において、文字検出装置100は、学習用イメージ内に含まれた文字領域の位置値が確認されれば、文字領域の位置値に基づき、疑似(pseudo)GTイメージを生成する。
【0070】
文字検出装置100は、
図7と係わって説明されたところと同一に、学習用イメージから検出された各文字領域の位置値により、2Dガウシアンマップをワーピングさせ、疑似GT確率値イメージを生成し、各文字領域の中心を連結し、疑似GTリンクイメージを生成することができる。
【0071】
一実施形態において、文字検出装置100は、中間出力イメージから文字領域を検出する過程を省略し、中間出力イメージそれ自体を疑似GTイメージとして利用することもできる。該中間出力イメージは、学習用イメージ内単語領域に対応するイメージであるので、文字検出装置100は、学習用イメージにおき、単語領域以外の領域に対応させ、特定のピクセル値を有するイメージを生成し、生成されたイメージと中間出力イメージとを結合させ、疑似GTイメージを生成することもできる。
【0072】
文字検出モデルの学習過程が図式化された
図9を参照して説明する。
【0073】
単語領域の位置値915がアノテーションされた学習用イメージ910から、単語領域に対応する単語領域イメージ920が抽出され、抽出された単語領域イメージ920は、文字検出モデルに入力される。単語領域イメージ920の入力により、該文字検出モデルから中間出力イメージ930が出力される。また、学習用イメージ910が文字検出モデルに入力され、文字検出モデルから、学習用イメージ910に対応する出力イメージ925が出力される。
【0074】
中間出力イメージ930から、学習用イメージ910内文字領域の位置値935が決定される。文字領域の位置値935に基づき、学習用イメージ910に対応する疑似GTイメージ940が生成される。
【0075】
図9を参照すれば、出力イメージ925と疑似GTイメージ940とのロス(loss)値950に、補正ウェート945が適用されているが、該補正ウェート945は、中間出力イメージ930の正確度を考慮して算出される値である。該文字検出モデルの訓練が不足している場合、中間出力イメージ930の検出正確度が低くなり、それを考慮し、ロス値950に補正ウェート945を適用するのである。
【0076】
補正ウェート945は、中間出力イメージ930から検出された文字の個数と、単語領域イメージ920に含まれた文字の正解個数との比較結果によっても算出される。単語領域イメージ920に含まれた文字の正解個数は、文字検出装置100が、単語領域イメージ920を分析して算出することもでき、または文字検出装置100に正解個数が入力されうる。
【0077】
文字検出装置100は、中間出力イメージ930において、確率値が臨界値以上に該当する地点につき、映像分割アルゴリズム(例えば、watershedアルゴリズム)を適用し、中間出力イメージ930を、少なくとも1つの領域に区分することができ、区分された領域の個数を、中間出力イメージ930から検出された文字の個数と決定することができる。該文字検出モデルの訓練が不足している場合、中間出力イメージ930から検出された文字の個数は、実際個数より少ない確率が高いために、中間出力イメージ930から検出された文字の個数と、単語領域イメージ920に含まれた文字の正解個数とを比較し、補正ウェート945が算出されうる。
【0078】
中間出力イメージ930から検出された文字の長さ(または、個数)をdetected_lengthと言い、単語領域イメージ920に含まれた文字の正解長(または、個数)をgt_lengthとするとき、エラー値は、下記数式1によって算出される。
【0079】
数式1:
【0080】
【数1】
学習用イメージ910から抽出された単語領域イメージ920の個数が複数である場合、前記detected_lengthは、複数の中間出力イメージ930から検出された全文字の長さ(または、個数)を意味し、gt_lengthは、複数の単語領域イメージ920に含まれた全文字の正解長(または、個数)を意味し得る。
【0081】
該エラー値に基づき、補正ウェートは、下記数式2によって算出される。
【0082】
数式2:
【0083】
【数2】
数式2においてalphaは、既設定値であり、例えば、0.9に設定される。その場合、errが0であるならば、weightは、0.9の値を有することになり、中間出力イメージ930において、10個の文字のうち7個の文字だけが検出された場合、weight=0.9*7/10=0.63になる。
【0084】
一実施形態において、weightは、errに反比例しても決定される。すなわち、errが大きい場合、weightは、小さくも決定され、errが小さい場合、weightは、大きくも決定される。weight値が大きくなるにつれ、weighted lossが大きくなるほど、文字検出モデルの学習がさらに多くなされ得るので、errの大きさと反比例し、学習強度を大きくすることができる。
【0085】
中間出力イメージ930から検出された文字の個数と、単語領域イメージ920に含まれた文字の正解個数との比較結果、算出された補正ウェート945は、文字検出モデルの出力である出力イメージ925と、疑似GTイメージ950とのロス値に乗算される。乗じられた結果(weighted loss)955は、文字検出モデルに入力され、文字検出モデルの加重値が更新され得る。
【0086】
図16は、前述の
図6及び
図9による訓練過程を図示した図面であり、
図16を参照すれば、単語領域の位置値がアノテーションされた(Word annotation)イメージと、当該イメージからクロッピングされた(cropped)単語領域イメージとが文字検出モデルに入力される。そして、単語領域イメージに対応し、文字検出モデルから出力される中間出力イメージに基づき、疑似GTイメージが生成され、単語領域の位置値がアノテーションされたイメージに対応し、文字検出モデルから出力される出力イメージと、疑似GTイメージとのロス(Loss)が算出され得る。
【0087】
また、文字領域の位置値がアノテーションされた(Character annotation)イメージが文字検出モデルに入力され、文字検出モデルから出力イメージが生成され、文字領域の位置値に基づいて生成されるGTイメージと、前記出力イメージとのロス(Loss)が算出され得る。
【0088】
算出されたロス(Loss)は、文字検出モデルに伝播され、文字検出モデルの内部加重値が更新され得る。
【0089】
図10は、単語領域1015の位置値がアノテーションされた学習用イメージ1010から、文字領域1065の位置値を決定する過程を図示している。
【0090】
前述のように、単語領域1015の位置値がアノテーションされた学習用イメージ1010から、単語領域1015に該当する単語領域イメージが抽出され得る。
【0091】
一実施形態において、文字検出装置100は、抽出された単語領域イメージを、所定のイメージ処理アルゴリズムによって変形することができる。所定のイメージ処理アルゴリズムは、例えば、イメージワーピングを含むものである。実際のイメージに含まれた単語領域は、視点の歪曲により、文字の配列方向や文字の大きさに、変動性が大きくなり得る。従って、一実施形態においては、文字検出の容易性のために、単語領域イメージを、例えば、長方形状の単語領域イメージに変形するのである。
図10を参照すれば、学習用イメージ1010内において「cold」を含む単語領域1015は、左側コーナーに比べ、右側コーナーの高さが高いということが分かる。文字検出装置100は、学習用イメージ1010から抽出された単語領域イメージを、イメージ処理アルゴリズムを介して変形し、左側コーナーと右側コーナーとの高さが同一である、変形された単語領域イメージ1020を獲得することができる。
【0092】
単語領域1015が複数個である場合には、複数個の単語領域イメージが抽出され、複数個の単語領域イメージそれぞれが、所定イメージ処理アルゴリズムによって変形され、複数個の変形された単語領域イメージ1020が獲得され得る。
【0093】
文字検出装置100は、変形された単語領域イメージ1020を文字検出モデルに入力し、文字検出モデルから出力される中間出力イメージ1030を獲得する。
【0094】
中間出力イメージ1030において文字領域を決定するために、領域グローイング(growing)技法が適用され得る。例えば、文字検出装置100は、中間出力イメージ1030において、第1臨界値以上の確率値に対応する地点を決定することができる。そして、文字検出装置100は、前記決定された地点を始めとし、第1臨界値より小さい第2臨界値以上の確率値を有する地点まで領域を増大させることができる。文字検出装置100は、最終的に増大された領域1045を含む多角形の領域を、文字領域1050と決定することができる。
【0095】
一実施形態において、文字検出装置100は、中間出力イメージ1030に対し、映像分割アルゴリズム(例えば、watershed方法)を適用し、文字レベルマップ1040で識別された領域1045を、文字領域1050と決定することもできる。
【0096】
変形単語領域イメージ1020と中間出力イメージ1030との大きさ及び解像度は、互いに対応するので、中間出力イメージ1030で決定された文字領域の位置値は、そのまま変形単語領域イメージ1020内の文字領域1050の位置値にもなる。文字検出装置100は、変形単語領域イメージ1020内の文字領域1050の位置値を、学習用イメージ1010の文字領域1065の位置値に変更することができる。
【0097】
一例において、文字検出装置100は、文字領域1050の位置値が検出された変形単語領域イメージ1020を、イメージ処理アルゴリズムによって逆変形(例えば、逆ワーピング)した後、逆変形された単語領域イメージを学習用イメージ1010に整合させ、学習用イメージ1010上における文字領域1065の位置値を決定することができる。
【0098】
他の例において、文字検出装置100は、変形された単語領域イメージ1020の所定地点の座標値と、学習用イメージ1010に含まれた単語領域1015の所定地点の座標値との関係を考慮し、変形された単語領域イメージ1020から検出された文字領域1050の位置値を、学習用イメージ1010の位置値に変更することもできる。
【0099】
学習用イメージ1010内の文字領域1065の位置値がアノテーションされれば、文字検出装置100は、学習用イメージ1010内の文字領域1065の位置値に基づき、疑似GTイメージを生成することができる。
【0100】
図11は、単語領域イメージを文字検出モデルに入力したとき、出力される中間出力イメージをエポック(epoch)別に図示する図面であり、
図12は、単語領域イメージから、文字領域の位置値を検出する他の方法について説明するための図面である。
図11及び
図12と係わり、以下において、単語領域イメージを対象にして説明されるが、単語領域イメージの代わりに、
図10と係わって説明された変形された単語領域イメージにも適用される。
【0101】
前述のように、文字検出モデルの訓練が十分になされていない場合、単語領域イメージに基づいて出力される中間出力イメージの正確性が低下してしまう。
図11を参照すれば、「Alice」を含む単語領域イメージが文字検出モデルに入力されたとき、出力される中間出力イメージの正確度が、エポック増大によって向上されることを確認することができる。例えば、最初エポックにおいては、1個の文字だけが検出され得る。10番目エポックにおいては、5個の文字が検出され得る。
【0102】
前述のように、文字検出装置100は、中間出力イメージから検出される文字の個数と、単語領域イメージに含まれた文字の正解個数とを比較し、ロス値に適用される補正ウェートを決定することができる。しかし、該中間出力イメージから検出される文字の個数が所定個数未満である場合、文字検出装置100は、文字領域の位置値決定におき、中間出力イメージを利用しないのである。
【0103】
例えば、文字検出装置100は、中間出力イメージから検出される文字の個数が、単語領域イメージに含まれた文字の正解個数の所定比率(例えば、0.5)未満である場合、中間出力イメージを利用しないのである。該中間出力イメージから検出される文字の個数が4個であり、単語領域イメージに含まれた文字の正解個数が10個である場合、文字検出装置100は、10個の0.5に該当する5個未満の文字だけが検出されたことを確認し、中間出力イメージを利用しないのである。
【0104】
文字検出装置100は、中間出力イメージから文字領域を識別する代わりに、単語領域イメージを正解個数によって分割し、分割された各領域を文字領域と決定することもできる。
図12を参照すれば、「Alice」は、5個の文字からなっているので、文字検出装置100は、単語領域イメージ1200を、均等に5個の領域1210,1220,1230,1240,1250に区分した後、各領域を文字領域と決定することができる。そして、文字検出装置100は、ロス値に適用される補正ウェートを、既設定値(例えば、0.5)に決定することができる。
【0105】
なお、文字検出装置100は、文字を含むイメージの入力により、確率値イメージ及びリンクイメージのうち少なくとも一つを含む出力イメージが獲得されれば、出力イメージに基づき、入力イメージにバウンディングボックスを表示することもできる。該バウンディングボックスは、文字単位または単語単位にも表示される。
【0106】
文字検出装置100は、出力された確率値イメージにおいて、第1臨界値以上の確率値に対応する地点を決定することができる。そして、文字検出装置100は、前記決定された地点を始めとし、第1臨界値より小さい第2臨界値以上の確率値を有する地点まで領域を増大させることができる。文字検出装置100は、最終的に増大された領域を含む多角形の領域を、文字領域と決定することができる。文字検出装置100は、確率値イメージにおいて決定された文字領域に対応するバウンディングボックスを、入力されたイメージに表示して出力することができる。
【0107】
また、文字検出装置100は、確率値イメージで決定された文字領域を、リンクイメージの連結性を考慮して結合させ、該結合結果として生成された領域を単語領域と決定することもできる。例えば、文字検出装置100は、確率値イメージで決定された文字領域のうち、リンクイメージにおいて、同一ラインに対応する文字領域を結合させることができる。そして、文字検出装置100は、単語領域に対応するバウンディングボックスを、入力されたイメージに表示して出力することができる。
【0108】
一実施形態において、文字検出装置100は、確率値イメージで決定された文字領域結合にあたり、確率値イメージにおいて、第1臨界値以上の確率値に対応する地点のうち、リンクイメージにおいて、第3臨界値以上の値を有する地点に対応する文字領域を結合させることもできる。
【0109】
一実施形態により、文字検出装置100は、文字検出モデルに追加し、単語検出モデルをさらに含んでもよい。該文字検出モデルは、いかなるアノテーションもなされていない学習用イメージが入力されれば、単語検出モデルを介し、学習用イメージから単語領域の位置値を検出し、検出された単語領域の位置値を利用し、文字検出モデルを訓練させることもできる。
【0110】
図13は、一実施形態による文字検出装置100の構成を図示する図面である。
【0111】
図13を参照すれば、一実施形態による文字検出装置100は、メモリ1310及びプロセッサ1330を含んでもよい。メモリ1310には、少なくとも1つのインストラクションが保存され、プロセッサ1330は、少なくとも1つのインストラクションにより、イメージ内文字検出、及び文字検出モデルの訓練を制御することができる。
【0112】
図13は、1つのメモリ1310、及び1つのプロセッサ1330だけを図示しているが、文字検出装置100は、複数のメモリ1310を含み、複数のプロセッサ1330を含んでもよい。
【0113】
文字検出装置100は、サーバ装置に含まれてもよい。また、文字検出装置100は、クライアント装置に含まれてもよい。また、文字検出装置100は、スタンドアローン(standalone)装置に含まれてもよい。
【0114】
図14は、一実施形態による文字検出装置100の機能ブロック図である。
【0115】
図14を参照すれば、文字検出装置100は、文字検出モデル1410、データ処理部1430及びモデル訓練制御部1450を含んでもよい。
【0116】
文字検出モデル1410、データ処理部1430及びモデル訓練制御部1450のうち少なくとも一つは、プロセッサ1330としても具現されし、文字検出モデル1410、データ処理部1430及びモデル訓練制御部1450のうち少なくとも1つの動作を制御するためのインストラクションが、メモリ1310にも保存される。
【0117】
一実施形態において、文字検出モデル1410は、メモリ1310にも保存され、データ処理部1430及びモデル訓練制御部1450は、プロセッサ1330としても具現される。または、一実施形態において、文字検出モデル1410は、神経網プロセッサとしても具現され、データ処理部1430及びモデル訓練制御部1450は、汎用のプロセッサとしても具現される。
【0118】
データ処理部1430は、文字検出を必要とするイメージを獲得し、文字検出モデル1410に入力する。また、データ処理部1430は、文字検出モデル訓練のために学習用イメージを獲得し、モデル訓練制御部1450に伝達することができる。学習用イメージは、単語領域の位置値がアノテーションされた学習用イメージ、または文字領域の位置値がアノテーションされた学習用イメージを含んでもよい。
【0119】
モデル訓練制御部1450は、学習用イメージを、文字検出モデル1410に入力する。モデル訓練制御部1450は、学習用イメージを、文字検出モデル1410に入力する前に前処理を行うこともできる。モデル訓練制御部1450は、学習用イメージから、GTイメージまたは疑似GTイメージを生成することができる。
【0120】
文字検出モデル1410は、モデル訓練制御部1450から、学習用イメージ及び正解イメージ(すなわち、GTイメージまたは疑似GTイメージ)を入力され、内部加重値を更新することができる。文字検出モデル1410は、学習用イメージに対応する出力イメージと正解イメージとを比較し、内部加重値を更新することができる。
【0121】
文字検出モデル1410に入力されたイメージに対応し、出力イメージが出力されれば、データ処理部1430は、出力イメージに基づき、入力イメージに、バウンディングボックスを表示することもできる。該バウンディングボックスは、文字単位または単語単位にも表示される。
【0122】
図示されていないが、文字検出装置100は、通信部をさらに含んでもよく、該通信部は、文字検出モデル1410から出力される出力イメージ、データ処理部1430によって処理されたイメージを外部装置で伝送することもできる。
【0123】
図15は、一実施形態による文字検出装置100が適用され得るサーバ装置1510及びクライアント装置1520を図示する図面である。
【0124】
前述のように、一実施形態による文字検出装置100は、サーバ装置1510としても具現される。その場合、サーバ装置1510は、クライアント装置1520から、処理を必要とするイメージを受信することができる。サーバ装置1510は、受信されたイメージを文字検出モデルに入力させ、出力イメージを獲得することができる。
【0125】
サーバ装置1510は、出力イメージをクライアント装置1520で伝送することができる。また、サーバ装置1510は、クライアント装置1520から受信されたイメージ内の文字領域または単語領域に対応するバウンディングボックスをイメージに表示し、クライアント装置1520で伝送することもできる。
【0126】
サーバ装置1510は、クライアント装置1520を含む外部装置から、学習用データを受信するか、あるいは内部に保存された学習用データを利用し、文字検出モデルの訓練を制御することもできる。
【0127】
一実施形態による文字検出装置100は、クライアント装置1520に含まれてもよい。クライアント装置1520は、文字検出モデル実行のためのデータを、サーバ装置1510から受信することができる。クライアント装置1520は、カメラモジュールを介して撮影されたイメージ、内部メモリに保存されたイメージ、または外部装置から受信されたイメージを文字検出モデルに入力させ、イメージ内の文字を検出することができる。
【0128】
クライアント装置1520は、外部装置から学習用データを受信するか、あるいは内部に保存された学習用データを利用し、文字検出モデル訓練を制御することもできる。位置具現例により、文字検出モデル実行のためのデータをクライアント装置1520に提供したサーバ装置1510が、学習用データに基づき、文字検出モデル訓練を制御することもできる。その場合、サーバ装置1510は、訓練結果として更新された加重値情報のみをクライアント装置1520に伝送し、クライアント装置1520は、受信された情報により、文字検出モデルを更新することもできる。
【0129】
図15は、クライアント装置1520として、デスクトップPC(personal computer)を図示しているが、それに限定されるものではなく、クライアント装置1520は、ノート型パソコン、スマートフォン、タブレットPC、AI(artificial intelligence)ロボット、AIスピーカ、ウェアラブル機器などを含んでもよい。
【0130】
一具現例により、文字検出装置100は、サーバ・クライアントモデルではなく、スタンドアローン装置に含まれてもよい。該スタンドアローン装置は、内蔵された文字検出モデルの訓練を制御し、獲得イメージを文字検出モデルに入力し、イメージ内の文字を検出することもできる。
【0131】
なお、前述の本開示の実施形態は、コンピュータによっても実行されるプログラムに作成可能あり、作成されたプログラムは、媒体にも保存される。
【0132】
該媒体は、コンピュータで実行可能なプログラムを続けて保存するか、あるいは実行またはダウンロードのために、臨時保存するものでもある。また、該媒体は、単一または数個のハードウェアが結合された形態の多様な記録手段または保存手段でもあるが、あるコンピュータシステムに直接接続される媒体に限定されるものではなく、ネットワーク上に分散されて存在するものでもある。該媒体の例示としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体;CD-ROM(compact disc read only memory)及びDVD(digital versatile disc)のような光記録媒体;フロプティカルディスク(floptical disk)のような磁気・光媒体(magneto-optical medium);及びROM(read only memory)、RAM(random access memory)、フラッシュメモリなどを含み、プログラム命令が保存されるように構成されたものでもある。また、他の媒体の例示として、アプリケーションを流通するアプリストアや、その他多様なソフトウェアを供給したり流通させたりするサイト、サーバなどで管理する記録媒体、あるいは保存の媒体も挙げることができる。
【0133】
以上、本開示の技術的思想につき、望ましい実施形態を挙げて詳細に説明されたが、本開示の技術的思想は、前述の実施形態に限定されるものではなく、本開示の技術的思想の範囲内において、当分野において当業者により、さまざまな変形及び変更が可能である。