IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧 ▶ 東芝ソリューション株式会社の特許一覧

特開2023-135784判定装置、判定方法、および判定プログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023135784
(43)【公開日】2023-09-29
(54)【発明の名称】判定装置、判定方法、および判定プログラム
(51)【国際特許分類】
   G06V 30/19 20220101AFI20230922BHJP
   G06V 30/194 20220101ALI20230922BHJP
   G06V 30/14 20220101ALI20230922BHJP
【FI】
G06V30/19 Z
G06V30/194
G06V30/14 340K
【審査請求】未請求
【請求項の数】18
【出願形態】OL
(21)【出願番号】P 2022041051
(22)【出願日】2022-03-16
(71)【出願人】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(71)【出願人】
【識別番号】301063496
【氏名又は名称】東芝デジタルソリューションズ株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】田中 遼平
【テーマコード(参考)】
5B029
5B064
【Fターム(参考)】
5B029AA01
5B064CA08
5B064DA29
(57)【要約】
【課題】画像に含まれる文字列が属するカテゴリを高精度に判定する。
【解決手段】判定装置10の算出部20Bは、カテゴリに属する尤もらしさのスコアを画像の要素領域ごとに表すカテゴリスコア情報を算出する。抽出部20Cは、画像に含まれる文字列領域を抽出する。判定部20Dは、カテゴリスコア情報に基づいて、文字列領域に含まれる文字列が属するカテゴリを判定する。算出部20Bは、画像および期待カテゴリ情報を入力としカテゴリスコア情報を出力とするNNWを用いてカテゴリスコア情報を算出する。NNWは、期待カテゴリ情報に含まれる期待カテゴリのスコアが高くなるように、カテゴリスコア情報を出力する。
【選択図】図1
【特許請求の範囲】
【請求項1】
文字列を含む画像と、予め定められた所定のカテゴリの内、出力として期待される前記カテゴリである期待カテゴリを含む期待カテゴリ情報と、を取得する取得部と、
前記カテゴリに属する尤もらしさのスコアを前記画像の1または複数の要素領域ごとに表すカテゴリスコア情報を算出する算出部と、
前記画像に含まれる文字列領域を抽出する抽出部と、
前記カテゴリスコア情報に基づいて、前記文字列領域に含まれる前記文字列が属する前記カテゴリを判定する判定部と、
を備え、
前記算出部は、
前記画像および前記期待カテゴリ情報を入力とし前記カテゴリスコア情報を出力とするニューラルネットワークを用いて、前記カテゴリスコア情報を算出し、
前記ニューラルネットワークは、
前記期待カテゴリ情報に含まれる前記期待カテゴリの前記スコアが高くなるように前記カテゴリスコア情報を出力する、
判定装置。
【請求項2】
前記取得部は、
前記期待カテゴリと、前記期待カテゴリに対する出力期待度と、を含む前記期待カテゴリ情報を取得し、
前記ニューラルネットワークは、
前記期待カテゴリ情報に含まれる前記期待カテゴリの前記スコアが前記出力期待度が高いほど高くなるように、前記カテゴリスコア情報を出力する、
請求項1に記載の判定装置。
【請求項3】
前記取得部は、
ユーザによって入力された前記期待カテゴリ情報を取得する、
請求項1または請求項2に記載の判定装置。
【請求項4】
前記取得部は、
前記画像から前記期待カテゴリ情報を導出するモデルを用いて前記期待カテゴリ情報を取得する、
請求項1~請求項3の何れか1項に記載の判定装置。
【請求項5】
前記期待カテゴリ情報は、
前記期待カテゴリおよび前記出力期待度を表すベクトル、
または、
前記画像の小領域ごとに、前記期待カテゴリ、または前記期待カテゴリおよび前記出力期待度を表すマップ、
によって表される
請求項2に記載の判定装置。
【請求項6】
前記算出部は、
プーリングによるダウンサンプリング、および畳み込み演算の2以上のストライド、の少なくとも一方が適用された、前記ニューラルネットワークである畳み込みニューラルネットワークを用いて、前記カテゴリスコア情報を算出する、
請求項1~請求項5の何れか1項に記載の判定装置。
【請求項7】
前記要素領域は、
1または複数の画素のサイズの領域である、
請求項1~請求項6の何れか1項に記載の判定装置。
【請求項8】
前記判定部は、
前記期待カテゴリ情報に含まれる前記期待カテゴリに応じた文字列の領域である前記文字列領域ごとに、前記カテゴリスコア情報に基づいて前記文字列領域に含まれる前記文字列が属する前記カテゴリを判定する、
請求項1~請求項7の何れか1項に記載の判定装置。
【請求項9】
前記ニューラルネットワークは、
前記画像および前記期待カテゴリ情報から、前記カテゴリスコア情報および前記文字列領域を出力し、
前記抽出部は、
前記ニューラルネットワークから出力された前記文字列領域を取得することによって前記文字列領域を抽出する、
請求項1~請求項8の何れか1項に記載の判定装置。
【請求項10】
前記ニューラルネットワークは、
第1のニューラルネットワーク、第2のニューラルネットワーク、および第3のニューラルネットワークを含み、
前記算出部は、
前記第1のニューラルネットワークを用いて、前記画像または前記画像および前記期待カテゴリ情報から前記要素領域ごとの特徴量を表す特徴マップを算出し、
前記第2のニューラルネットワークを用いて、前記特徴マップまたは前記特徴マップおよび前記期待カテゴリ情報から前記カテゴリスコア情報を算出し、
前記抽出部は、
前記第3のニューラルネットワークを用いて、前記特徴マップから前記文字列領域を抽出する、
請求項1~請求項9の何れか1項に記載の判定装置。
【請求項11】
前記判定部は、
前記文字列領域に含まれる前記要素領域の前記カテゴリごとの前記スコアの平均値が最大の前記カテゴリを、該文字列領域に含まれる前記文字列が属するカテゴリと判定する、
請求項1~請求項10の何れか1項に記載の判定装置。
【請求項12】
前記判定部は、
前記文字列領域に含まれる前記要素領域の各々ごとに最大の前記スコアに対応する前記カテゴリを特定し、
前記文字列領域内で最も多く特定した前記カテゴリを、該文字列領域に含まれる前記文字列が属するカテゴリと判定する、
請求項1~請求項11の何れか1項に記載の判定装置。
【請求項13】
前記判定部は、
前記文字列領域に含まれる前記要素領域の各々の前記カテゴリの前記スコアが前記文字列領域内で閾値以上変化する場合、前記閾値に応じて前記文字列領域を分割した分割文字列領域ごとに、属する前記カテゴリを判定する、
請求項1~請求項12の何れか1項に記載の判定装置。
【請求項14】
判定された前記カテゴリに応じて前記文字列領域に含まれる文字を文字認識する文字認識部、
を備える請求項1~請求項13の何れか1項に記載の判定装置。
【請求項15】
文字認識された前記文字と、前記文字を含む前記文字列領域に対して判定された前記カテゴリと、を対応付けた認識結果情報を出力する出力制御部、
を備える、
請求項14に記載の判定装置。
【請求項16】
前記ニューラルネットワークは、
前記画像および前記期待カテゴリ情報を入力とし、前記期待カテゴリ情報に含まれる前記期待カテゴリの前記スコアが高くなるように前記カテゴリスコア情報を出力とするように予め学習されてなる、
請求項1~請求項15の何れか1項に記載の判定装置。
【請求項17】
文字列を含む画像と、予め定められた所定のカテゴリの内、出力として期待される前記カテゴリである期待カテゴリを含む期待カテゴリ情報と、を取得する取得ステップと、
前記カテゴリに属する尤もらしさのスコアを前記画像の1または複数の要素領域ごとに表すカテゴリスコア情報を算出する算出ステップと、
前記画像に含まれる文字列領域を抽出する抽出ステップと、
前記カテゴリスコア情報に基づいて、前記文字列領域に含まれる前記文字列が属する前記カテゴリを判定する判定ステップと、
を含み、
前記算出ステップは、
前記画像および前記期待カテゴリ情報を入力とし前記カテゴリスコア情報を出力とするニューラルネットワークを用いて、前記カテゴリスコア情報を算出し、
前記ニューラルネットワークは、
前記期待カテゴリ情報に含まれる前記期待カテゴリの前記スコアが高くなるように前記カテゴリスコア情報を出力する、
判定方法。
【請求項18】
コンピュータに実行させるための判定プログラムであって、
文字列を含む画像と、予め定められた所定のカテゴリの内、出力として期待される前記カテゴリである期待カテゴリを含む期待カテゴリ情報と、を取得する取得ステップと、
前記カテゴリに属する尤もらしさのスコアを前記画像の1または複数の要素領域ごとに表すカテゴリスコア情報を算出する算出ステップと、
前記画像に含まれる文字列領域を抽出する抽出ステップと、
前記カテゴリスコア情報に基づいて、前記文字列領域に含まれる前記文字列が属する前記カテゴリを判定する判定ステップと、
を含み、
前記算出ステップは、
前記画像および前記期待カテゴリ情報を入力とし前記カテゴリスコア情報を出力とするニューラルネットワークを用いて、前記カテゴリスコア情報を算出し、
前記ニューラルネットワークは、
前記期待カテゴリ情報に含まれる前記期待カテゴリの前記スコアが高くなるように前記カテゴリスコア情報を出力する、
判定プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、判定装置、判定方法、および判定プログラムに関する。
【背景技術】
【0002】
画像に含まれる文字列が属するカテゴリを判断する技術が知られている。例えば、画像に含まれる文字列を抽出し、抽出した文字列の文字認識結果を用いて、該文字列の属するカテゴリを判断する技術が開示されている。
【0003】
しかしながら従来技術では、文字列の示す意味が複数種類に渡る場合、文字列の属するカテゴリを1つのカテゴリに絞り切れない場合があり、カテゴリの判定精度が低下する場合があった。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特許第4599896号公報
【特許文献2】特許第6795195号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、上記に鑑みてなされたものであって、画像に含まれる文字列が属するカテゴリを高精度に判定することができる、判定装置、判定方法、および判定プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
実施形態の判定装置は、取得部と、算出部と、抽出部と、判定部と、を備える。取得部は、文字列を含む画像と、予め定められた所定のカテゴリの内、出力として期待される前記カテゴリである期待カテゴリを含む期待カテゴリ情報と、を取得する。算出部は、前記カテゴリに属する尤もらしさのスコアを前記画像の1または複数の要素領域ごとに表すカテゴリスコア情報を算出する。抽出部は、前記画像に含まれる文字列領域を抽出する。判定部は、前記カテゴリスコア情報に基づいて、前記文字列領域に含まれる前記文字列が属する前記カテゴリを判定する。算出部は、前記画像および前記期待カテゴリ情報を入力とし前記カテゴリスコア情報を出力とするニューラルネットワークを用いて、前記カテゴリスコア情報を算出する。前記ニューラルネットワークは、前記期待カテゴリ情報に含まれる前記期待カテゴリの前記スコアが高くなるように前記カテゴリスコア情報を出力する。
【図面の簡単な説明】
【0007】
図1】判定装置の構成を示すブロック図。
図2】制御部による処理の全体の流れを示す模式図。
図3】取得部による処理の説明図。
図4】算出部による処理の説明図。
図5】学習データの模式図。
図6】NNWの内部処理の説明図。
図7】抽出部による処理の説明図。
図8】判定部による判定処理の説明図。
図9A】判定部による処理の説明図。
図9B】判定部による処理の説明図。
図10A】判定部による処理の説明図。
図10B】判定部による処理の説明図。
図10C】判定部による処理の説明図。
図11】情報処理の流れを示すフローチャート。
図12A】判定装置の効果の説明図。
図12B】判定装置の効果の説明図。
図13】マップによって表される期待カテゴリ情報の説明図。
図14】変形例の説明図。
図15】変形例の説明図。
図16】ハードウェア構成図。
【発明を実施するための形態】
【0008】
以下に添付図面を参照して、判定装置、判定方法、および判定プログラムを詳細に説明する。
【0009】
図1は、本実施形態の判定装置10の構成の一例を示すブロック図である。
【0010】
判定装置10は、画像に含まれる文字列の属するカテゴリを判定するための情報処理装置である。
【0011】
判定装置10は、記憶部12と、通信部14と、UI(ユーザ・インタフェース)部16と、制御部20と、を備える。記憶部12、通信部14、UI部16、および制御部20は、バス18などを介して通信可能に接続されている。
【0012】
記憶部12は、各種のデータを記憶する。記憶部12は、例えば、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリ素子、ハードディスク、光ディスク等である。なお、記憶部12は、判定装置10の外部に設けられた記憶装置であってもよい。
【0013】
通信部14は、ネットワーク等を介して外部の情報処理装置と通信する通信インターフェースである。
【0014】
UI部16は、ユーザによる操作入力を受付ける受付機能、および、各種の情報を表示する表示機能を有する。受付機能は、例えば、マウスなどのポインティングデバイスやキーボードなどによって実現される。表示機能は、例えば、ディスプレイによって実現される。なお、UI部16は、受付機能と表示機能を一体的に構成したタッチパネルであってよい。
【0015】
制御部20は、判定装置10において各種の情報処理を実行する。
【0016】
図2は、本実施形態の制御部20による処理の全体の流れの一例を示す模式図である。
【0017】
本実施形態の制御部20は、画像50に含まれる文字列52の文字列領域54ごとに、文字列領域54に含まれる文字列52の属するカテゴリを判定する処理などを実行する。
【0018】
画像50は、判定装置10による判定対象の画像である。図2には、画像50の一例として画像50Aを示す。
【0019】
画像50Aは、1または複数の文字列52を含む。文字列52とは、書字方向に沿って記入された1または複数の文字の群である。図2には、「川崎市 幸区 堀川町 72-34」の文字からなる文字列52Aと、「1234-5678」の文字からなる文字列52Bと、を一例として示す。文字列52Aおよび文字列52Bは、文字列52の一例である。
【0020】
文字列領域54とは、画像50に含まれる1行分の文字列52の領域である。図2には、文字列52Aの文字列領域54A、文字列52Bの文字列領域54Bを一例として示す。
【0021】
本実施形態の制御部20は、文字列領域54ごとに、文字列領域54に含まれる文字列52の属するカテゴリを判定する。図2には、文字列領域54Aに含まれる文字列52Aのカテゴリとして「住所」を判定し、文字列領域54Bに含まれる文字列52Bのカテゴリとして「電話番号」を判定した状態を一例として示す。
【0022】
以下、本実施形態の制御部20について詳細に説明する。
【0023】
図1に戻り説明を続ける。
【0024】
制御部20は、取得部20Aと、算出部20Bと、抽出部20Cと、判定部20Dと、文字認識部20Eと、出力制御部20Fと、を備える。
【0025】
取得部20A、算出部20B、抽出部20C、判定部20D、文字認識部20E、および出力制御部20Fは、例えば、1または複数のプロセッサにより実現される。例えば上記各部は、CPU(Central Processing Unit)などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のICなどのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち1つを実現してもよいし、各部のうち2以上を実現してもよい。
【0026】
取得部20Aは、文字列52を含む画像50と、期待カテゴリ情報と、を取得する。
【0027】
図3は、取得部20Aによる処理の一例の説明図である。
【0028】
期待カテゴリ情報62とは、期待カテゴリ62Aを少なくとも含む情報である。
【0029】
期待カテゴリ62Aとは、予め定められた所定の1または複数のカテゴリ60の内、出力として期待されるカテゴリ60である。言い換えると、期待カテゴリ62Aは、画像50に含まれる文字列52の属する期待値の高いカテゴリ60である。
【0030】
カテゴリ60とは、文字列52が示す意味の分類を表す情報である。言い換えると、カテゴリ60は、文字列52を予め定められた分類条件に沿って複数のグループに分類したときの、各グループのラベルとなる情報である。具体的には、カテゴリ60は、例えば、住所、氏名、電話番号、郵便番号、メールアドレス、FAX(Facsimile)番号、会社名、店舗名、URL(Uniform Resource Locator)、役職名、部署名などであるが、これらに限定されない。本実施形態では、複数のカテゴリ60が予め定められている形態を一例として説明する。複数のカテゴリ60の内の少なくとも一部が、期待カテゴリ62Aとして用いられる。
【0031】
なお、期待カテゴリ情報62は、期待カテゴリ62Aに加えて、出力期待度62Bを含む情報であってもよい。
【0032】
出力期待度62Bとは、対応する期待カテゴリ62Aに対する出力の期待値を表す情報である。出力期待度62Bは、1つの期待カテゴリ62Aに対して1つ対応付けられる。出力期待度62Bは、言い換えると、画像50に含まれる文字列52が期待カテゴリ62Aであると推定される確信度または度合いを表す情報である。
【0033】
本実施形態では、期待カテゴリ情報62が、1または複数の期待カテゴリ62Aと、1または複数の期待カテゴリ62Aの各々に対応する出力期待度62Bと、を含む情報である形態を一例として説明する。
【0034】
期待カテゴリ情報62のデータ形式は限定されない。例えば、期待カテゴリ情報62は、期待カテゴリ62Aおよび期待カテゴリ62Aに対する出力期待度62Bを表すベクトルによって表される。例えば、予め定められた所定の複数のカテゴリ60の数が、K個(Kは1以上の整数)である場合を想定する。そして、複数のカテゴリ60から選択された期待カテゴリ62Aの数がM個(Mは1以上の整数、且つ、K≧M)である場合を想定する。この場合、期待カテゴリ情報62は、例えば、カテゴリ60の数であるK次元のベクトルで表される。
【0035】
なお、K個のカテゴリ60の内、期待カテゴリ62Aとして用いられないカテゴリ60に対応する次元の値は、例えば、ゼロ(0)として表されればよい。図3の例で、住所に対応する次元を1番目の次元、氏名に対応する次元を2番目の次元、電話番号に対応する次元を3番目の次元、郵便番号に対応する次元を4番目の次元、メールアドレスに対応する次元を5番目の次元、FAX番号に対応する次元を6番目の次元、会社名に対応する次元を7番目の次元、店舗名に対応する次元を8番目の次元、URLに対応する次元を9番目の次元、役職名に対応する次元を10番目の次元、部署名に対応する次元を11番目の次元とした場合を想定する。この場合、K次元ベクトルは[0.9,0.1,0.7,0.5,0,0,0,0,0,0,0]Tとなる。Tは転置を意味する。
【0036】
取得部20Aは、例えば、ユーザによって入力された期待カテゴリ情報62をUI部16から取得する。例えば、制御部20は、予め定められた複数のカテゴリ60の一覧をUI部16へ表示する。ユーザは、表示されたカテゴリ60の一覧を視認しながらUI部16操作することで、出力として期待する1または複数の期待カテゴリ62Aを選択する。また、ユーザは、UI部16を操作することで、選択した1または複数の期待カテゴリ62Aの各々に対応する出力期待度62Bを入力する。ユーザが出力期待度62Bを入力する場合、出力期待度62Bは、例えば、”0”または”1”を表す数値などによって表される。これらの操作を受付けることで、取得部20Aは、ユーザによって入力された期待カテゴリ情報62を取得する。
【0037】
また、取得部20Aは、画像50から期待カテゴリ情報62を導出するモデルを用いて、期待カテゴリ情報62を取得してもよい。
【0038】
この場合、例えば、モデルには、深層学習モデル(DNN)、推定アルゴリズムを用いたモデル、等を用いればよい。
【0039】
モデルとしてDNNを用いる場合、画像50を入力とし期待カテゴリ情報62を出力とするDNNを用いればよい。
【0040】
モデルとして推定アルゴリズムを用いる場合、推定アルゴリズムには、例えば、推定対象の画像50と、該画像50に類似する他の複数の画像と、の各々の文字認識結果から、画像50に含まれる文字列52の属する期待カテゴリ62Aを統計的に推定するアルゴリズムが挙げられる。
【0041】
具体的には、例えば、推定対象の画像50が帳票である場合を想定する。この場合、該画像50と同じ領域に同じカテゴリに属する他の文字列52の記入された複数の画像を用意する。そして、画像50および複数の画像に含まれる同じ文字列領域54に含まれる文字列52の文字認識結果が、カテゴリ「住所」に属する文字認識結果を最も多く含む場合を想定する。この場合、画像50に含まれる同じ文字列領域54に含まれる文字列52の文字認識結果が、カテゴリ「住所」および「氏名」の双方に属する場合であっても、カテゴリ「住所」と推定することで、期待カテゴリ62A「住所」を統計的に推定する。
【0042】
また、推定アルゴリズムには、推定対象の画像50に含まれる文字列52の記入欄外に配置された文字の文字認識結果から、該文字列52の属する期待カテゴリ62Aを推定するアルゴリズムを用いてもよい。
【0043】
具体的には、例えば、推定対象の画像50の文字列52の記入欄外であって且つ該文字列52の近傍に文字「氏名」が配置されている場面を想定する。この場合、文字列52の期待カテゴリ62A「氏名」を推定する推定アルゴリズムを用いればよい。
【0044】
また、画像50から期待カテゴリ情報62を導出するモデルを用いる場合には、出力期待度62Bには、例えば、0以上1未満などの特定の範囲内の連続値を用いてよい。
【0045】
図1に戻り説明を続ける。
【0046】
算出部20Bは、カテゴリスコア情報を算出する。
【0047】
図4は、算出部20Bによる処理の一例の説明図である。
【0048】
算出部20Bは、NNW(ニューラルネットワーク)70を用いて、カテゴリスコア情報74を算出する。
【0049】
カテゴリスコア情報74とは、カテゴリ60に属する尤もらしさのスコアを画像50の1または複数の要素領域72ごとに表す情報である。言い換えると、カテゴリスコア情報74は、画像50の1または複数の要素領域72の各々ごとに、複数のカテゴリ60の各々ごとのスコアを表す情報である。
【0050】
要素領域72とは、NNW70による処理単位のサイズの領域である。詳細には、要素領域72のサイズは、NNW70の構造によって定まる。具体的には、例えば、要素領域72のサイズは、NNW70の処理時に用いられるカーネルによって定まる。カーネルは、フィルタと称される場合がある。例えば、要素領域72は、画像50の、1または複数の画素のサイズの領域に相当する。
【0051】
NNW70は、画像50および期待カテゴリ情報62を入力とし、カテゴリスコア情報74を出力とするNNWである。NNW70は、CNN(Convolutional Neural Network:畳み込みニューラルネットワーク)、GCN(Graph Convolutional Network)、またはRNN(Recurrent Neural Network)などのニューラルネットワークで構成される深層学習モデル(DNN)である。
【0052】
本実施形態のNNW70は、期待カテゴリ情報62に含まれる期待カテゴリ62Aのスコアが高くなるようにカテゴリスコア情報74を出力する。詳細には、NNW70は、期待カテゴリ情報62に含まれる期待カテゴリ62Aに一致するカテゴリ60のスコアが、期待カテゴリ情報62を用いずに該カテゴリ60のスコアを出力する場合に比べて高くなるように、カテゴリスコア情報74を出力する。
【0053】
また、本実施形態では、期待カテゴリ情報62には、期待カテゴリ62Aおよび出力期待度62Bが含まれる形態を一例として説明する。
【0054】
このため、本実施形態では、NNW70は、期待カテゴリ情報62に含まれる期待カテゴリ62Aのスコアが対応する出力期待度62Bが高いほど高くなるように、カテゴリスコア情報74を出力する。すなわち、NNW70は、期待カテゴリ情報62に含まれる期待カテゴリ62Aに一致するカテゴリ60のスコアが、期待カテゴリ情報62を用いずに該カテゴリ60のスコアを出力する場合に比べて高く、且つ、対応する出力期待度62Bに応じた高さの値を示す、カテゴリスコア情報74を出力する。
【0055】
NNW70は、上記関係を満たすカテゴリスコア情報74を出力するように、予め学習されていればよい。
【0056】
図5は、NNW70の学習に用いられる学習データ80の一例の模式図である。例えば、NNW70は、画像50および期待カテゴリ情報62を入力データとし、カテゴリスコア情報74を教師データとする学習データ80を複数用いて予め学習されてなる。学習データ80に含まれる教師データは、対応する入力データに含まれる期待カテゴリ62Aのスコアが、該期待カテゴリ62Aを用いない場合に比べて高くなるようなスコアを表すカテゴリスコア情報74である。
【0057】
例えば、上記条件を満たす複数の学習データ80をあらかじめ用意し、NNW70を予め学習すればよい。判定装置10が、複数の学習データ80を用いて予めNNW70を学習してもよい。また、判定装置10の外部の情報処理装置が、複数の学習データ80を用いて予めNNW70を学習してもよい。
【0058】
図4に戻り説明を続ける。算出部20Bは、取得部20Aで取得した画像50および期待カテゴリ情報62を取得部20Aから受付ける。上述したように、例えば、期待カテゴリ情報62は、K次元のベクトルによって表される。また、本実施形態では、画像50が白黒の画像、すなわちグレースケールの画像である形態を一例として説明する。
【0059】
この場合、算出部20Bは、K次元のベクトルによって表される期待カテゴリ情報62を、画像50に含まれる画素の数であるW×H個複製し、K枚の画像として束ねることで、W×H×(K+1)のテンソル64を生成する。
【0060】
Wは、NNW70による処理時に用いられる多次元空間に配置された画像50の画素の配列面である二次元平面における、特定の配列方向の画素の数である。Hは、該二次元平面における、Wに沿った方向に対して直交する配列方向の画素の数である。Kは上記と同様である。
【0061】
なお、画像50がRGBによって表されるカラー画像である場合には、算出部20Bは、W×H×(K+3)のテンソル64を生成すればよい。
【0062】
そして、算出部20Bは、テンソル64をNNW70へ入力する。そして、算出部20Bは、NNW70から出力されたカテゴリスコア情報74を取得することで、カテゴリスコア情報74を算出する。
【0063】
図6は、NNW70の内部処理の一例の説明図である。
【0064】
NNW70では、例えば、固定サイズ、固定ステップ幅のスライディングウィンドウで切り出した要素領域72ごとに、K個のカテゴリ60の各々に属する尤もらしさを表すスコアを算出する。上述したように、要素領域72のサイズやステップ幅は、NNW70の構造によって定まる。図6には、要素領域72が複数の画素に相当するサイズの領域である場合を一例として示す。
【0065】
なお、NNW70は、NNW70の処理空間における画像50のフレーム外の領域については所定値で埋めることで、要素領域72毎にスコアを算出すればよい。そして、NNW70は、複数の要素領域72の各々ごとに、複数のカテゴリ60の各々ごとのスコアを表すカテゴリスコア情報74を出力する。
【0066】
図4に戻り説明を続ける。NNW70は、画像50および期待カテゴリ情報62を入力とし、カテゴリスコア情報74を出力とするNNWであればよく、テンソル64の生成もNNW70内で行う形態であってもよい。
【0067】
算出部20Bは、NNW70からの出力としてカテゴリスコア情報74を取得する。すなわち、算出部20Bは、画像50の複数の要素領域72の各々ごとに、複数のカテゴリ60の各々ごとのスコアを表す情報であるカテゴリスコア情報74を取得する。なお、上述したように、期待カテゴリ情報62は、例えば、K次元のベクトルによって表される。このため、例えば、算出部20Bは、W′×H′×Kのテンソルによって表されるカテゴリスコア情報74を取得する。
【0068】
W′とH′はNNW70の構造によって決まる数であり、W′×H′は全要素領域72の数と等しくなる。本実施例ではW′=W、H′=Hとなる場合を考える。なお、W′、H′はW′=W、H′=Hに限定されない。
【0069】
図4には、要素領域72が1画素に相当するサイズの領域である場合を一例として示す。図4には、ある要素領域72では、カテゴリ60「フリガナ」のスコア「10」、およびその他のカテゴリのスコア「90」であった場合を示す。また、図4には、他のある要素領域72では、カテゴリ60「住所」のスコア「90」、およびカテゴリ60「氏名」のスコア「10」であった場合を示す。
【0070】
なお、NNW70が畳み込みニューラルネットワーク(CNN)である場合、算出部20Bは、プーリングによるダウンサンプリング、および、畳み込みの適用間隔である畳み込み演算の2以上のストライド、の少なくとも一方が適用されたNNW70を用いて、カテゴリスコア情報74を算出してもよい。
【0071】
プーリングによるダウンサンプリング、および、畳み込み演算の2以上のストライド、の少なくとも一方が適用されたNNW70を用いることで、W′=W/2、H′=H/2とすることが可能である。この場合、要素領域72の数はW′=W、H′=Hとなる場合と比較して1/4に間引くことができ、計算効率の向上を図ることができる。
【0072】
図1に戻り説明を続ける。抽出部20Cは、画像50に含まれる文字列領域54を抽出する。
【0073】
図7は、抽出部20Cによる処理の一例の説明図である。抽出部20Cは、画像50に含まれる文字列領域54を抽出する。抽出部20Cは、公知の方法により画像50に含まれる文字列領域54を抽出すればよい。例えば、以下の公知文献A~公知文献Cに表される方法などを用いて、画像50に含まれる文字列領域54を抽出すればよい。
【0074】
・公知文献A:R.Joseph,et al.,You Only Look Once:Unified,Real-Time Object Detection,2015([1506.02640]You Only Look Once:Unified,Real-Time Object Detection(arxiv.org))
・公知文献B:L.Minghui,et al.,Real-time Scene Text Detection with Differentiable Binarization, 2019([1911.08947] Real-time Scene Text Detection with Differentiable Binarization (arxiv.org))
・公知文献C:特開2020-135272号公報
【0075】
図7には、画像50Aから、文字列領域54A~文字列領域54Cの文字列領域54が抽出された状態を一例として示す。
【0076】
図1に戻り説明を続ける。判定部20Dは、算出部20Bで算出されたカテゴリスコア情報74に基づいて、抽出部20Cで抽出された文字列領域54に含まれる文字列52が属するカテゴリ60を判定する。
【0077】
図8は、判定部20Dによる判定処理の一例の説明図である。判定部20Dは、算出部20Bで算出されたカテゴリスコア情報74における、抽出部20Cで抽出された文字列領域54に対応する領域Eごとに、属するカテゴリ60を判定する。
【0078】
例えば、判定部20Dは、画像50に含まれる文字列領域54ごとに、文字列領域54に含まれる要素領域72の各々のカテゴリ60ごとのスコアの平均値が最大のカテゴリ60を、該文字列領域54に含まれる文字列52が属するカテゴリ60と判定する。
【0079】
詳細には、判定部20Dは、カテゴリスコア情報74における、文字列領域54に対応する領域Eを特定する。図8には、文字列領域54Aに対応する領域Eaを特定した状態を示す。領域Eaは領域Eの一例である。そして、判定部20Dは、カテゴリスコア情報74に基づいて、特定した領域Eaに含まれる要素領域72の各々に対する、複数のカテゴリ60の各々のスコアを特定する。更に、判定部20Dは、領域Eaに含まれる、要素領域72の各々毎に特定したスコアについて、同一のカテゴリ60ごとの平均値を算出する。判定部20Dは、算出した平均値が最大のカテゴリ60を、該領域Eaに対応する文字列領域54Aに含まれる文字列52が属するカテゴリ60と判定する。
【0080】
具体的には、判定部20Dは、以下の式(1)~式(3)を用いてカテゴリ60を判定する。
【0081】
例えば、画像50に含まれるi番目の文字列領域54をSiとし、要素領域72のカテゴリ60ごとのスコアを下記式(1)によって表されるpとする。
【0082】
【数1】
【0083】
この場合、判定部20Dは、i番目の文字列領域54に含まれる文字列52が属するカテゴリ60を、下記式(2)を用いて判定する。
【0084】
【数2】
【0085】
式(2)中、左辺は、i番目の文字列領域54に含まれる文字列52が属するカテゴリ60を表す。式(2)中のkは、カテゴリ60の番号であり、k=1,2,…,Kの値をとる。x,yはi番目の文字列領域54に含まれる要素領域72の番号である。
【0086】
また、判定部20Dは、画像50に含まれる文字列領域54ごとに、文字列領域54に含まれる要素領域72の各々ごとに最大のスコアに対応するカテゴリ60を特定し、文字列領域54内で最も多く特定したカテゴリ60を、該文字列領域54に含まれる文字列52が属するカテゴリ60と判定してもよい。
【0087】
詳細には、判定部20Dは、カテゴリスコア情報74における、文字列領域54に対応する領域Eを特定する。図8には、文字列領域54Aに対応する領域Eaを特定した状態を示す。そして、判定部20Dは、カテゴリスコア情報74に基づいて、特定した領域Eaに含まれる要素領域72の各々ごとに、最大のスコアのカテゴリ60を特定する。そして、判定部20Dは、領域Ea内で最も多く特定したカテゴリ60を、該領域Eaに対応する文字列領域54Aに含まれる文字列52が属するカテゴリ60と判定する。
【0088】
具体的には、判定部20Dは、以下の式(3)によって表される集合の最頻値を、カテゴリ60として判定する。
【0089】
【数3】
【0090】
式(3)中、k、x、y、Si、およびpの意味は、上記式(1)~式(2)と同様である。
【0091】
なお、判定部20Dは、期待カテゴリ情報62に含まれる期待カテゴリ62Aに応じた文字列52の領域である文字列領域54ごとに、カテゴリスコア情報74によって表されるスコアに基づいて文字列領域54に含まれる文字列52が属するカテゴリ60を判定すればよい。
【0092】
図9Aおよび図9Bは、判定部20Dによる処理の一例の説明図である。
【0093】
図9Aに示すように、例えば、取得部20Aが、文字列52「東芝 太郎」を含む画像50Cと、期待カテゴリ62A「姓名」を含む期待カテゴリ情報62と、を取得した場面を想定する。この場合、判定部20Dは、画像50Cにおける、期待カテゴリ62A「姓名」に応じた文字列52「東芝 太郎」の領域(姓名領域)である文字列領域54Dについて、カテゴリスコア情報74に基づいてカテゴリ60を判定する。
【0094】
また、図9Bに示すように、例えば、取得部20Aが、文字列52「東芝 太郎」を含む画像50Cと、期待カテゴリ62A「姓」および期待カテゴリ62A「名」を含む期待カテゴリ情報62と、を取得した場面を想定する。この場合、判定部20Dは、画像50Cにおける、期待カテゴリ62A「姓」に応じた文字列52「東芝」の領域(姓領域)である文字列領域54D1について、カテゴリスコア情報74に基づいてカテゴリ60を判定する。また、判定部20Dは、画像50Cにおける、期待カテゴリ62A「名」に応じた文字列52「太郎」の領域(名領域)である文字列領域54D2について、カテゴリスコア情報74に基づいてカテゴリ60を判定する。
【0095】
このように、判定部20Dが、期待カテゴリ情報62に含まれる期待カテゴリ62Aに応じた文字列52の領域である文字列領域54ごとにカテゴリ60を判定することで、期待カテゴリ62Aによって判定の粒度を調整することが可能となる。
【0096】
なお、文字列領域54に含まれる要素領域72の各々のカテゴリ60のスコアが文字列領域54内で閾値以上変化する場合がある。閾値は、予め定めればよい。この場合、判定部20Dは、閾値に応じて文字列領域54を分割した分割文字列領域ごとに、属するカテゴリ60を判定してもよい。
【0097】
図10A図10Cは、判定部20Dによる処理の一例の説明図である。
【0098】
図10Aに示すように、例えば、判定部20Dが、カテゴリスコア情報74における、抽出部20Cで抽出された文字列領域54Bに対応する領域Ebについて、カテゴリ60を判定する場面を想定する。領域Ebは、領域Eの一例である。
【0099】
また、図10Bに示すように、該領域Ebに含まれる要素領域72の各々のカテゴリ60のスコアが、該領域Eb内で閾値以上変化する場面を想定する。図10Bには、スコアが高いほど濃い黒色を示す。例えば、領域Ebでは、カテゴリ「電話番号」のスコアが上記Wに沿った方向の中央から一端側に向かって(矢印Wa方向参照)低く、中央から他端側に向かって(矢印Wb方向参照)高い場合を想定する。また、領域Ebでは、その他のカテゴリのスコアが上記Wに沿った方向の中央から他端側に向かって(矢印Wb方向参照)低く、中央から一端側に向かって(矢印Wa方向参照)高い場合を想定する。
【0100】
図10Cは、文字列52の一例の説明図である。図10Aおよび図10Bに示す状態の場合、判定部20Dは、閾値に応じて文字列領域54を複数の分割文字列領域53に分割する。例えば、文字列領域54におけるスコアが閾値以上変化する位置が、文字列領域54に対応する領域Ebの上記Wに沿った方向の中央であった場面を想定する。この場合、判定部20Dは、文字列領域54Bを、スコアが閾値以上変化する位置である該中央の位置で分割することで、分割文字領域53Aおよび分割文字領域53Bに分割する。
【0101】
そして、判定部20Dは、分割文字領域53Aおよび分割文字領域53Bの各々ごとに、上記と同様にして、カテゴリ60を判定すればよい。
【0102】
なお、文字列領域54を複数の分割文字列領域53に分割する処理は、判定部20Dで行ってもよいし、抽出部20Cで行ってもよい。
【0103】
図1に戻り説明を続ける。文字認識部20Eは、判定部20Dによって判定されたカテゴリに応じて、文字列領域54に含まれる文字を文字認識する。文字認識部20Eは、公知の方法により文字列領域54に含まれる文字を文字認識すればよい。例えば、文字認識部20Eは、画像50に含まれる文字列領域54ごとに、判定部20Dによって判定されたカテゴリ60に対応する文字認識辞書などを用いて、該文字列領域54に含まれる文字を文字認識すればよい。判定されたカテゴリ60に応じて文字認識を行うことで、文字認識部20Eは、高精度に文字認識を行うことができる。
【0104】
出力制御部20Fは、文字認識部20Eによって文字認識された文字と、該文字を含む文字列領域54に対して判定されたカテゴリ60と、を対応付けた認識結果情報を出力する。例えば、出力制御部20Fは、認識結果情報をUI部16へ出力する。ユーザは、UI部16に出力された認識結果情報を視認することで、文字認識結果および文字認識結果によって表される文字列52の属するカテゴリ60を確認することができる。なお、認識結果情報は、取得部20Aで取得した期待カテゴリ情報62および画像50の少なくとも一方を更に含んだ情報であってもよい。
【0105】
また、出力制御部20Fは、認識結果情報を、通信部14を介して外部の情報処理装置に送信してもよい。また、出力制御部20Fは、認識結果情報を記憶部12に記憶してもよい。
【0106】
次に、本実施形態の判定装置10の制御部20が実行する情報処理の流れの一例を説明する。
【0107】
図11は、本実施形態の判定装置10の制御部20が実行する情報処理の流れの一例を示すフローチャートである。
【0108】
取得部20Aは、画像50および期待カテゴリ情報62を取得する(ステップS100)。
【0109】
算出部20Bは、ステップS100で取得した画像50の複数の要素領域72ごとに複数のカテゴリ60の各々に属する尤もらしさのスコアを表すカテゴリスコア情報74を算出する(ステップS102)。すなわち、算出部20Bは、ステップS100で取得した画像50および期待カテゴリ情報62をNNW70へ入力し、NNW70から出力されたカテゴリスコア情報74を取得する。算出部20Bは、カテゴリスコア情報74を取得することで、該カテゴリスコア情報74を算出する。
【0110】
抽出部20Cは、ステップS100で取得した画像50に含まれる文字列領域54を抽出する(ステップS104)。判定部20Dは、ステップS102で算出されたカテゴリスコア情報74に基づいて、抽出部20Cで抽出された文字列領域54に含まれる文字列52が属するカテゴリ60を判定する(ステップS106)。
【0111】
文字認識部20Eは、ステップS106で文字列領域54ごとに判定されたカテゴリ60に応じて、文字列領域54に含まれる文字を文字認識する(ステップS108)。出力制御部20Fは、ステップS108で文字認識された文字と、該文字を含む文字列領域54に対して判定されたカテゴリ60と、を対応付けた認識結果情報を出力する(ステップS110)。そして、本ルーチンを終了する。
【0112】
以上説明したように、本実施形態の判定装置10は、取得部20Aと、算出部20Bと、抽出部20Cと、判定部20Dと、を備える。取得部20Aは、文字列52を含む画像50と、予め定められた所定のカテゴリ60の内、出力として期待されるカテゴリ60である期待カテゴリ62Aを含む期待カテゴリ情報62と、を取得する。算出部20Bは、カテゴリ60に属する尤もらしさのスコアを画像50の要素領域72ごとに表すカテゴリスコア情報74を算出する。抽出部20Cは、画像50に含まれる文字列領域54を抽出する。判定部20Dは、カテゴリスコア情報74に基づいて、文字列領域54に含まれる文字列52が属するカテゴリ60を判定する。算出部20Bは、画像50および期待カテゴリ情報62を入力としカテゴリスコア情報74を出力とするNNW70を用いてカテゴリスコア情報74を算出する。NNW70は、期待カテゴリ情報62に含まれる期待カテゴリ62Aのスコアが高くなるように、カテゴリスコア情報74を出力する。
【0113】
ここで、従来技術として、画像50に含まれる文字列52を抽出し、抽出した文字列52を文字認識した文字認識結果を用いて、該文字列52の属するカテゴリ60を判定する技術が開示されている。
【0114】
例えば、従来技術として、文字列52の文字認識結果に応じて複数のカテゴリ60を特定し、特定した複数のカテゴリ60の内の最も優先順位の高いカテゴリ60を画像50の属するカテゴリ60として判定する技術が開示されている。しかしながら、この従来技術では、文字列52の示す意味や文字列52の文字認識結果の示す内容によっては、属するカテゴリ60を1つのカテゴリ60に絞り切れない場合があった。このため、従来技術では、カテゴリ60の判定精度が低下する場合があった。
【0115】
また、従来技術では、文字列52の文字認識結果を用いて文字列52の属するカテゴリ60を判定するため、カテゴリ60に対応する何れの文字認識用辞書が学習対象か不明であり、文字認識精度の向上を図ることも困難であった。このため、従来技術では、結果的にカテゴリ60の判定精度が低下する場合があった。
【0116】
一方、本実施形態の判定装置10は、判定対象の画像50と、期待カテゴリ情報62と、を取得する。そして、本実施形態の判定装置10は、期待カテゴリ情報62に含まれる期待カテゴリ62Aのスコアが高くなるようにカテゴリスコア情報74を出力するNNW70を用いて、画像50および期待カテゴリ情報62からカテゴリスコア情報74を算出する。すなわち、本実施形態の判定装置10は、期待カテゴリ62Aのスコアが高くなるようにカテゴリスコア情報74を出力するNNW70を用いてカテゴリスコア情報74を算出する。そして、本実施形態の判定装置10は、カテゴリスコア情報74に基づいて、文字列領域54に含まれる文字列52が属するカテゴリ60を判定する。
【0117】
このため、本実施形態の判定装置10では、取得した期待カテゴリ62Aに属する尤もらしさが高くなるように、画像50に含まれる文字列52の各々が属するカテゴリ60を判定することができる。
【0118】
図12Aおよび図12Bは、本実施形態の判定装置10の効果の一例の説明図である。
【0119】
図12Aに示すように、例えば、取得部20Aが、文字列52「川崎」を含む画像50Bと、期待カテゴリ62A「住所」を含む期待カテゴリ情報62と、を取得した場面を想定する。画像50Bは、画像50の一例である。この場合、本実施形態の判定装置10では、画像50Bおよび期待カテゴリ情報62をNNW70へ入力することで、NNW70からの出力として、期待カテゴリ62A「住所」のスコアの高いカテゴリスコア情報74を得る。そして、判定装置10では、カテゴリスコア情報74を用いて、文字列領域54の文字列52「川崎」の属するカテゴリ60を判定することで、例えば、カテゴリ60「住所」を判定する。
【0120】
一方、図12Bに示すように、取得部20Aが、文字列52「川崎」を含む画像50Bと、期待カテゴリ62A「氏名」を含む期待カテゴリ情報62と、を取得した場面を想定する。画像50Bは、図12Aと同じ画像50である。この場合、本実施形態の判定装置10では、画像50Bおよび期待カテゴリ情報62をNNW70へ入力することで、NNW70からの出力として、期待カテゴリ62A「氏名」のスコアの高いカテゴリスコア情報74を得る。そして、判定装置10では、カテゴリスコア情報74を用いて、文字列領域54の文字列52「川崎」の属するカテゴリ60を判定することで、例えば、カテゴリ60「氏名」を判定する。
【0121】
このように、本実施形態の判定装置10は、画像50に加えて、期待カテゴリ62Aを含む期待カテゴリ情報62をNNW70へ入力することで、期待カテゴリ62Aの尤もらしさのスコアが高くなるように予測されたカテゴリスコア情報74を得る。そして、判定装置10は、カテゴリスコア情報74を用いて、文字列52のカテゴリ60を判定する。
【0122】
このため、本実施形態の判定装置10では、文字列52の示す意味が複数種類に渡り、1つのカテゴリ60に絞ることの困難な文字列52を含む画像50であっても、高精度に文字列52のカテゴリ60を判定することができる。
【0123】
従って、本実施形態の判定装置10は、画像50に含まれる文字列52が属するカテゴリ60を高精度に判定することができる。
【0124】
また、本実施形態の判定装置10は、画像50に含まれる文字列52の文字認識を行うことなく、文字列52が属するカテゴリ60を判定する。このため、本実施形態の判定装置10は、上記効果に加えて、少ない計算量、すなわち低負荷で、文字列52のカテゴリ60を判定することができる。
【0125】
(変形例1)
なお、上記実施形態では、期待カテゴリ情報62は、期待カテゴリ62Aおよび期待カテゴリ62Aに対する出力期待度62Bを表すK次元のベクトルによって表される形態を一例として説明した。しかし、上述したように、期待カテゴリ情報62のデータ形式は限定されない。例えば、期待カテゴリ情報62は、画像50の小領域ごとに、期待カテゴリ62A、または期待カテゴリ62Aおよび期待カテゴリ62Aに対する出力期待度62Bを表すマップであってもよい。
【0126】
図13は、マップによって表される期待カテゴリ情報62の一例の説明図である。
【0127】
図13に示すように、期待カテゴリ情報62は、画像50の小領域76ごとに、期待カテゴリ62A、または期待カテゴリ62Aおよび期待カテゴリ62Aに対する出力期待度62Bを表したマップであってもよい。マップは、例えば、W×H×Kのテンソルによって表される。W,H,Kは上記と同様である。
【0128】
図13には、一例として、小領域76Aおよび小領域76Bを小領域76として示す。小領域76の位置、サイズ、および形状は、例えば、ユーザによるUI部16の操作指示等によって指定される。また、期待カテゴリ情報62の導出に用いられるCNNが、公知の方法を用いて画像50に含まれる小領域76を調整して出力してもよい。
【0129】
この場合、算出部20Bは、取得部20Aで取得した画像50およびマップによって表される期待カテゴリ情報62を取得部20Aから受付ける。そして、上記実施形態と同様に、算出部20Bは、W×H×Kのテンソルとしてあらわされる期待カテゴリ情報62を、K枚の画像として束ねることで、W×H×(K+1)のテンソル64を生成する。そして、上記実施形態と同様に算出部20Bは、テンソル64をNNW70へ入力すればよい。
【0130】
(変形例2)
なお、上記実施形態では、抽出部20Cは公知の方法で画像50から文字列領域54を抽出する形態を一例として説明した。しかし、抽出部20Cは、NNW70から出力された文字列52Bを取得することで、画像50から文字列領域54を抽出してもよい。
【0131】
図14は、本変形例の一例の説明図である。
【0132】
例えば、上記実施形態と同様に、算出部20Bが、期待カテゴリ情報62を画像50に含まれる要素領域72の数であるW×H個複製し、K枚の画像として束ねることで、W×H×(K+1)のテンソル64を生成した場面を想定する。そして、上記実施形態と同様に算出部20Bが、テンソル64をNNW70へ入力する場面を想定する。この場合、NNW70は、カテゴリスコア情報74および文字列領域54を出力する。
【0133】
例えば、NNW70は、要素領域72ごとにカテゴリ60の各々のスコアを表し、且つ、背景領域以外の連結成分を文字列領域54の各々とした、W′×H′×(K+1)のテンソルを出力する。W′、H′は上記と同様である。
【0134】
この場合、抽出部20Cは、NNW70から出力された文字列領域54を取得することで、文字列領域54を抽出すればよい。
【0135】
このように、判定装置10は、1つのNNW70を用いて、カテゴリスコア情報74の算出および文字列領域54の抽出を行ってもよい。
【0136】
1つのNNW70を用いてカテゴリスコア情報74の算出および文字列領域54の抽出を行うことで、計算コストの削減を図ることができる。
【0137】
(変形例3)
また、NNW70を複数のNNWから構成し、算出部20Bおよび抽出部20Cが一部のNNWを共有して用いてもよい。
【0138】
図15は、本変形例の一例の説明図である。
【0139】
例えば、NNW70は、第1のNNW70A、第2のNNW70B、および第3のNNW70Cを含む。
【0140】
そして、算出部20Bは、第1のNNW70Aを用いて、画像50または画像50および期待カテゴリ情報62から、要素領域72ごとの特徴量を表す特徴マップ82を算出する。そして、算出部20Bは、更に、第2のNNW70Bを用いて、特徴マップ82または特徴マップ82および期待カテゴリ情報62からカテゴリスコア情報74を算出する。
【0141】
一方、抽出部20Cは、第3のNNW70Cを用いて、特徴マップ82から文字列領域54を抽出する。
【0142】
このように、判定装置10では、算出部20Bおよび抽出部20Cが一部のNNW70を共有して用いてもよい。
【0143】
次に、上記実施形態および変形例の判定装置10のハードウェア構成を説明する。
【0144】
図16は、上記実施形態および変形例の一例のハードウェア構成図である。
【0145】
上記実施形態および変形例の判定装置10は、CPU91などの制御装置と、ROM(Read Only Memory)92やRAM(Random Access Memory)93などの記憶装置と、ネットワークに接続して通信を行う通信I/F94と、各部を接続するバス95と、を備える。
【0146】
上記実施形態および変形例の判定装置10で実行されるプログラムは、ROM92等に予め組み込まれて提供される。
【0147】
上記実施形態および変形例で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD-ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD-R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。
【0148】
さらに、上記実施形態および変形例で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、上記実施形態および変形例で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
【0149】
上記実施形態および変形例で実行されるプログラムは、コンピュータを、本実施形態の判定装置10の各部として機能させうる。このコンピュータは、CPU91がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。
【0150】
上記には、本発明の実施形態および変形例を説明したが、本実施形態および変形例は、例として提示したものであり、発明の範囲を限定することは意図していない。上記新規な実施形態および変形例は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。本実施形態やその変形例は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【0151】
例えば、本実施形態の判定装置10は、文字認識部20Eおよび出力制御部20Fの少なくとも一方を備えない構成であってもよい。この場合、例えば、文字認識部20Eおよび出力制御部20Fの少なくとも一方を、通信部14を介して判定装置10に通信可能に接続された外部の情報処理装置に搭載した構成としてもよい。
【符号の説明】
【0152】
10 判定装置
20A 取得部
20B 算出部
20C 抽出部
20D 判定部
20E 文字認識部
20F 出力制御部
図1
図2
図3
図4
図5
図6
図7
図8
図9A
図9B
図10A
図10B
図10C
図11
図12A
図12B
図13
図14
図15
図16