特開2023-135784 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧 ▶ 東芝ソリューション株式会社の特許一覧

特開2023-135784判定装置、判定方法、および判定プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9A
9B
10A
10B
10C
11
12A
12B
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023135784

(43)【公開日】2023-09-29

(54)【発明の名称】判定装置、判定方法、および判定プログラム

(51)【国際特許分類】

G06V 30/19 20220101AFI20230922BHJP

G06V 30/194 20220101ALI20230922BHJP

G06V 30/14 20220101ALI20230922BHJP

【ＦＩ】

G06V30/19 Z

G06V30/194

G06V30/14 340K

【審査請求】未請求

【請求項の数】18

【出願形態】ＯＬ

(21)【出願番号】P 2022041051

(22)【出願日】2022-03-16

(71)【出願人】

【識別番号】000003078

【氏名又は名称】株式会社東芝

(71)【出願人】

【識別番号】301063496

【氏名又は名称】東芝デジタルソリューションズ株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】田中遼平

【テーマコード（参考）】

5B029

5B064

【Ｆターム（参考）】

5B029AA01

5B064CA08

5B064DA29

(57)【要約】

【課題】画像に含まれる文字列が属するカテゴリを高精度に判定する。
【解決手段】判定装置１０の算出部２０Ｂは、カテゴリに属する尤もらしさのスコアを画像の要素領域ごとに表すカテゴリスコア情報を算出する。抽出部２０Ｃは、画像に含まれる文字列領域を抽出する。判定部２０Ｄは、カテゴリスコア情報に基づいて、文字列領域に含まれる文字列が属するカテゴリを判定する。算出部２０Ｂは、画像および期待カテゴリ情報を入力としカテゴリスコア情報を出力とするＮＮＷを用いてカテゴリスコア情報を算出する。ＮＮＷは、期待カテゴリ情報に含まれる期待カテゴリのスコアが高くなるように、カテゴリスコア情報を出力する。
【選択図】図１

【特許請求の範囲】

【請求項1】

文字列を含む画像と、予め定められた所定のカテゴリの内、出力として期待される前記カテゴリである期待カテゴリを含む期待カテゴリ情報と、を取得する取得部と、
前記カテゴリに属する尤もらしさのスコアを前記画像の１または複数の要素領域ごとに表すカテゴリスコア情報を算出する算出部と、
前記画像に含まれる文字列領域を抽出する抽出部と、
前記カテゴリスコア情報に基づいて、前記文字列領域に含まれる前記文字列が属する前記カテゴリを判定する判定部と、
を備え、
前記算出部は、
前記画像および前記期待カテゴリ情報を入力とし前記カテゴリスコア情報を出力とするニューラルネットワークを用いて、前記カテゴリスコア情報を算出し、
前記ニューラルネットワークは、
前記期待カテゴリ情報に含まれる前記期待カテゴリの前記スコアが高くなるように前記カテゴリスコア情報を出力する、
判定装置。

【請求項2】

前記取得部は、
前記期待カテゴリと、前記期待カテゴリに対する出力期待度と、を含む前記期待カテゴリ情報を取得し、
前記ニューラルネットワークは、
前記期待カテゴリ情報に含まれる前記期待カテゴリの前記スコアが前記出力期待度が高いほど高くなるように、前記カテゴリスコア情報を出力する、
請求項１に記載の判定装置。

【請求項3】

前記取得部は、
ユーザによって入力された前記期待カテゴリ情報を取得する、
請求項１または請求項２に記載の判定装置。

【請求項4】

前記取得部は、
前記画像から前記期待カテゴリ情報を導出するモデルを用いて前記期待カテゴリ情報を取得する、
請求項１～請求項３の何れか１項に記載の判定装置。

【請求項5】

前記期待カテゴリ情報は、
前記期待カテゴリおよび前記出力期待度を表すベクトル、
または、
前記画像の小領域ごとに、前記期待カテゴリ、または前記期待カテゴリおよび前記出力期待度を表すマップ、
によって表される
請求項２に記載の判定装置。

【請求項6】

前記算出部は、
プーリングによるダウンサンプリング、および畳み込み演算の２以上のストライド、の少なくとも一方が適用された、前記ニューラルネットワークである畳み込みニューラルネットワークを用いて、前記カテゴリスコア情報を算出する、
請求項１～請求項５の何れか１項に記載の判定装置。

【請求項7】

前記要素領域は、
１または複数の画素のサイズの領域である、
請求項１～請求項６の何れか１項に記載の判定装置。

【請求項8】

前記判定部は、
前記期待カテゴリ情報に含まれる前記期待カテゴリに応じた文字列の領域である前記文字列領域ごとに、前記カテゴリスコア情報に基づいて前記文字列領域に含まれる前記文字列が属する前記カテゴリを判定する、
請求項１～請求項７の何れか１項に記載の判定装置。

【請求項9】

前記ニューラルネットワークは、
前記画像および前記期待カテゴリ情報から、前記カテゴリスコア情報および前記文字列領域を出力し、
前記抽出部は、
前記ニューラルネットワークから出力された前記文字列領域を取得することによって前記文字列領域を抽出する、
請求項１～請求項８の何れか１項に記載の判定装置。

【請求項10】

前記ニューラルネットワークは、
第１のニューラルネットワーク、第２のニューラルネットワーク、および第３のニューラルネットワークを含み、
前記算出部は、
前記第１のニューラルネットワークを用いて、前記画像または前記画像および前記期待カテゴリ情報から前記要素領域ごとの特徴量を表す特徴マップを算出し、
前記第２のニューラルネットワークを用いて、前記特徴マップまたは前記特徴マップおよび前記期待カテゴリ情報から前記カテゴリスコア情報を算出し、
前記抽出部は、
前記第３のニューラルネットワークを用いて、前記特徴マップから前記文字列領域を抽出する、
請求項１～請求項９の何れか１項に記載の判定装置。

【請求項11】

前記判定部は、
前記文字列領域に含まれる前記要素領域の前記カテゴリごとの前記スコアの平均値が最大の前記カテゴリを、該文字列領域に含まれる前記文字列が属するカテゴリと判定する、
請求項１～請求項１０の何れか１項に記載の判定装置。

【請求項12】

前記判定部は、
前記文字列領域に含まれる前記要素領域の各々ごとに最大の前記スコアに対応する前記カテゴリを特定し、
前記文字列領域内で最も多く特定した前記カテゴリを、該文字列領域に含まれる前記文字列が属するカテゴリと判定する、
請求項１～請求項１１の何れか１項に記載の判定装置。

【請求項13】

前記判定部は、
前記文字列領域に含まれる前記要素領域の各々の前記カテゴリの前記スコアが前記文字列領域内で閾値以上変化する場合、前記閾値に応じて前記文字列領域を分割した分割文字列領域ごとに、属する前記カテゴリを判定する、
請求項１～請求項１２の何れか１項に記載の判定装置。

【請求項14】

判定された前記カテゴリに応じて前記文字列領域に含まれる文字を文字認識する文字認識部、
を備える請求項１～請求項１３の何れか１項に記載の判定装置。

【請求項15】

文字認識された前記文字と、前記文字を含む前記文字列領域に対して判定された前記カテゴリと、を対応付けた認識結果情報を出力する出力制御部、
を備える、
請求項１４に記載の判定装置。

【請求項16】

前記ニューラルネットワークは、
前記画像および前記期待カテゴリ情報を入力とし、前記期待カテゴリ情報に含まれる前記期待カテゴリの前記スコアが高くなるように前記カテゴリスコア情報を出力とするように予め学習されてなる、
請求項１～請求項１５の何れか１項に記載の判定装置。

【請求項17】

文字列を含む画像と、予め定められた所定のカテゴリの内、出力として期待される前記カテゴリである期待カテゴリを含む期待カテゴリ情報と、を取得する取得ステップと、
前記カテゴリに属する尤もらしさのスコアを前記画像の１または複数の要素領域ごとに表すカテゴリスコア情報を算出する算出ステップと、
前記画像に含まれる文字列領域を抽出する抽出ステップと、
前記カテゴリスコア情報に基づいて、前記文字列領域に含まれる前記文字列が属する前記カテゴリを判定する判定ステップと、
を含み、
前記算出ステップは、
前記画像および前記期待カテゴリ情報を入力とし前記カテゴリスコア情報を出力とするニューラルネットワークを用いて、前記カテゴリスコア情報を算出し、
前記ニューラルネットワークは、
前記期待カテゴリ情報に含まれる前記期待カテゴリの前記スコアが高くなるように前記カテゴリスコア情報を出力する、
判定方法。

【請求項18】

コンピュータに実行させるための判定プログラムであって、
文字列を含む画像と、予め定められた所定のカテゴリの内、出力として期待される前記カテゴリである期待カテゴリを含む期待カテゴリ情報と、を取得する取得ステップと、
前記カテゴリに属する尤もらしさのスコアを前記画像の１または複数の要素領域ごとに表すカテゴリスコア情報を算出する算出ステップと、
前記画像に含まれる文字列領域を抽出する抽出ステップと、
前記カテゴリスコア情報に基づいて、前記文字列領域に含まれる前記文字列が属する前記カテゴリを判定する判定ステップと、
を含み、
前記算出ステップは、
前記画像および前記期待カテゴリ情報を入力とし前記カテゴリスコア情報を出力とするニューラルネットワークを用いて、前記カテゴリスコア情報を算出し、
前記ニューラルネットワークは、
前記期待カテゴリ情報に含まれる前記期待カテゴリの前記スコアが高くなるように前記カテゴリスコア情報を出力する、
判定プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態は、判定装置、判定方法、および判定プログラムに関する。

【背景技術】

【0002】

画像に含まれる文字列が属するカテゴリを判断する技術が知られている。例えば、画像に含まれる文字列を抽出し、抽出した文字列の文字認識結果を用いて、該文字列の属するカテゴリを判断する技術が開示されている。

【0003】

しかしながら従来技術では、文字列の示す意味が複数種類に渡る場合、文字列の属するカテゴリを１つのカテゴリに絞り切れない場合があり、カテゴリの判定精度が低下する場合があった。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特許第４５９９８９６号公報

【特許文献2】特許第６７９５１９５号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

本発明は、上記に鑑みてなされたものであって、画像に含まれる文字列が属するカテゴリを高精度に判定することができる、判定装置、判定方法、および判定プログラムを提供することを目的とする。

【課題を解決するための手段】

【0006】

実施形態の判定装置は、取得部と、算出部と、抽出部と、判定部と、を備える。取得部は、文字列を含む画像と、予め定められた所定のカテゴリの内、出力として期待される前記カテゴリである期待カテゴリを含む期待カテゴリ情報と、を取得する。算出部は、前記カテゴリに属する尤もらしさのスコアを前記画像の１または複数の要素領域ごとに表すカテゴリスコア情報を算出する。抽出部は、前記画像に含まれる文字列領域を抽出する。判定部は、前記カテゴリスコア情報に基づいて、前記文字列領域に含まれる前記文字列が属する前記カテゴリを判定する。算出部は、前記画像および前記期待カテゴリ情報を入力とし前記カテゴリスコア情報を出力とするニューラルネットワークを用いて、前記カテゴリスコア情報を算出する。前記ニューラルネットワークは、前記期待カテゴリ情報に含まれる前記期待カテゴリの前記スコアが高くなるように前記カテゴリスコア情報を出力する。

【図面の簡単な説明】

【0007】

【図1】判定装置の構成を示すブロック図。

【図2】制御部による処理の全体の流れを示す模式図。

【図3】取得部による処理の説明図。

【図4】算出部による処理の説明図。

【図5】学習データの模式図。

【図6】ＮＮＷの内部処理の説明図。

【図7】抽出部による処理の説明図。

【図8】判定部による判定処理の説明図。

【図9A】判定部による処理の説明図。

【図9B】判定部による処理の説明図。

【図10A】判定部による処理の説明図。

【図10B】判定部による処理の説明図。

【図10C】判定部による処理の説明図。

【図11】情報処理の流れを示すフローチャート。

【図12A】判定装置の効果の説明図。

【図12B】判定装置の効果の説明図。

【図13】マップによって表される期待カテゴリ情報の説明図。

【図14】変形例の説明図。

【図15】変形例の説明図。

【図16】ハードウェア構成図。

【発明を実施するための形態】

【0008】

以下に添付図面を参照して、判定装置、判定方法、および判定プログラムを詳細に説明する。

【0009】

図１は、本実施形態の判定装置１０の構成の一例を示すブロック図である。

【0010】

判定装置１０は、画像に含まれる文字列の属するカテゴリを判定するための情報処理装置である。

【0011】

判定装置１０は、記憶部１２と、通信部１４と、ＵＩ（ユーザ・インタフェース）部１６と、制御部２０と、を備える。記憶部１２、通信部１４、ＵＩ部１６、および制御部２０は、バス１８などを介して通信可能に接続されている。

【0012】

記憶部１２は、各種のデータを記憶する。記憶部１２は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、フラッシュメモリ等の半導体メモリ素子、ハードディスク、光ディスク等である。なお、記憶部１２は、判定装置１０の外部に設けられた記憶装置であってもよい。

【0013】

通信部１４は、ネットワーク等を介して外部の情報処理装置と通信する通信インターフェースである。

【0014】

ＵＩ部１６は、ユーザによる操作入力を受付ける受付機能、および、各種の情報を表示する表示機能を有する。受付機能は、例えば、マウスなどのポインティングデバイスやキーボードなどによって実現される。表示機能は、例えば、ディスプレイによって実現される。なお、ＵＩ部１６は、受付機能と表示機能を一体的に構成したタッチパネルであってよい。

【0015】

制御部２０は、判定装置１０において各種の情報処理を実行する。

【0016】

図２は、本実施形態の制御部２０による処理の全体の流れの一例を示す模式図である。

【0017】

本実施形態の制御部２０は、画像５０に含まれる文字列５２の文字列領域５４ごとに、文字列領域５４に含まれる文字列５２の属するカテゴリを判定する処理などを実行する。

【0018】

画像５０は、判定装置１０による判定対象の画像である。図２には、画像５０の一例として画像５０Ａを示す。

【0019】

画像５０Ａは、１または複数の文字列５２を含む。文字列５２とは、書字方向に沿って記入された１または複数の文字の群である。図２には、「川崎市幸区堀川町７２－３４」の文字からなる文字列５２Ａと、「１２３４－５６７８」の文字からなる文字列５２Ｂと、を一例として示す。文字列５２Ａおよび文字列５２Ｂは、文字列５２の一例である。

【0020】

文字列領域５４とは、画像５０に含まれる１行分の文字列５２の領域である。図２には、文字列５２Ａの文字列領域５４Ａ、文字列５２Ｂの文字列領域５４Ｂを一例として示す。

【0021】

本実施形態の制御部２０は、文字列領域５４ごとに、文字列領域５４に含まれる文字列５２の属するカテゴリを判定する。図２には、文字列領域５４Ａに含まれる文字列５２Ａのカテゴリとして「住所」を判定し、文字列領域５４Ｂに含まれる文字列５２Ｂのカテゴリとして「電話番号」を判定した状態を一例として示す。

【0022】

以下、本実施形態の制御部２０について詳細に説明する。

【0023】

図１に戻り説明を続ける。

【0024】

制御部２０は、取得部２０Ａと、算出部２０Ｂと、抽出部２０Ｃと、判定部２０Ｄと、文字認識部２０Ｅと、出力制御部２０Ｆと、を備える。

【0025】

取得部２０Ａ、算出部２０Ｂ、抽出部２０Ｃ、判定部２０Ｄ、文字認識部２０Ｅ、および出力制御部２０Ｆは、例えば、１または複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣなどのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２以上を実現してもよい。

【0026】

取得部２０Ａは、文字列５２を含む画像５０と、期待カテゴリ情報と、を取得する。

【0027】

図３は、取得部２０Ａによる処理の一例の説明図である。

【0028】

期待カテゴリ情報６２とは、期待カテゴリ６２Ａを少なくとも含む情報である。

【0029】

期待カテゴリ６２Ａとは、予め定められた所定の１または複数のカテゴリ６０の内、出力として期待されるカテゴリ６０である。言い換えると、期待カテゴリ６２Ａは、画像５０に含まれる文字列５２の属する期待値の高いカテゴリ６０である。

【0030】

カテゴリ６０とは、文字列５２が示す意味の分類を表す情報である。言い換えると、カテゴリ６０は、文字列５２を予め定められた分類条件に沿って複数のグループに分類したときの、各グループのラベルとなる情報である。具体的には、カテゴリ６０は、例えば、住所、氏名、電話番号、郵便番号、メールアドレス、ＦＡＸ（Ｆａｃｓｉｍｉｌｅ）番号、会社名、店舗名、ＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）、役職名、部署名などであるが、これらに限定されない。本実施形態では、複数のカテゴリ６０が予め定められている形態を一例として説明する。複数のカテゴリ６０の内の少なくとも一部が、期待カテゴリ６２Ａとして用いられる。

【0031】

なお、期待カテゴリ情報６２は、期待カテゴリ６２Ａに加えて、出力期待度６２Ｂを含む情報であってもよい。

【0032】

出力期待度６２Ｂとは、対応する期待カテゴリ６２Ａに対する出力の期待値を表す情報である。出力期待度６２Ｂは、１つの期待カテゴリ６２Ａに対して１つ対応付けられる。出力期待度６２Ｂは、言い換えると、画像５０に含まれる文字列５２が期待カテゴリ６２Ａであると推定される確信度または度合いを表す情報である。

【0033】

本実施形態では、期待カテゴリ情報６２が、１または複数の期待カテゴリ６２Ａと、１または複数の期待カテゴリ６２Ａの各々に対応する出力期待度６２Ｂと、を含む情報である形態を一例として説明する。

【0034】

期待カテゴリ情報６２のデータ形式は限定されない。例えば、期待カテゴリ情報６２は、期待カテゴリ６２Ａおよび期待カテゴリ６２Ａに対する出力期待度６２Ｂを表すベクトルによって表される。例えば、予め定められた所定の複数のカテゴリ６０の数が、Ｋ個（Ｋは１以上の整数）である場合を想定する。そして、複数のカテゴリ６０から選択された期待カテゴリ６２Ａの数がＭ個（Ｍは１以上の整数、且つ、Ｋ≧Ｍ）である場合を想定する。この場合、期待カテゴリ情報６２は、例えば、カテゴリ６０の数であるＫ次元のベクトルで表される。

【0035】

なお、Ｋ個のカテゴリ６０の内、期待カテゴリ６２Ａとして用いられないカテゴリ６０に対応する次元の値は、例えば、ゼロ（０）として表されればよい。図３の例で、住所に対応する次元を１番目の次元、氏名に対応する次元を２番目の次元、電話番号に対応する次元を３番目の次元、郵便番号に対応する次元を４番目の次元、メールアドレスに対応する次元を５番目の次元、ＦＡＸ番号に対応する次元を６番目の次元、会社名に対応する次元を７番目の次元、店舗名に対応する次元を８番目の次元、ＵＲＬに対応する次元を９番目の次元、役職名に対応する次元を１０番目の次元、部署名に対応する次元を１１番目の次元とした場合を想定する。この場合、Ｋ次元ベクトルは［０．９，０．１，０．７，０．５，０，０，０，０，０，０，０］Ｔとなる。Ｔは転置を意味する。

【0036】

取得部２０Ａは、例えば、ユーザによって入力された期待カテゴリ情報６２をＵＩ部１６から取得する。例えば、制御部２０は、予め定められた複数のカテゴリ６０の一覧をＵＩ部１６へ表示する。ユーザは、表示されたカテゴリ６０の一覧を視認しながらＵＩ部１６操作することで、出力として期待する１または複数の期待カテゴリ６２Ａを選択する。また、ユーザは、ＵＩ部１６を操作することで、選択した１または複数の期待カテゴリ６２Ａの各々に対応する出力期待度６２Ｂを入力する。ユーザが出力期待度６２Ｂを入力する場合、出力期待度６２Ｂは、例えば、”０”または”１”を表す数値などによって表される。これらの操作を受付けることで、取得部２０Ａは、ユーザによって入力された期待カテゴリ情報６２を取得する。

【0037】

また、取得部２０Ａは、画像５０から期待カテゴリ情報６２を導出するモデルを用いて、期待カテゴリ情報６２を取得してもよい。

【0038】

この場合、例えば、モデルには、深層学習モデル（ＤＮＮ）、推定アルゴリズムを用いたモデル、等を用いればよい。

【0039】

モデルとしてＤＮＮを用いる場合、画像５０を入力とし期待カテゴリ情報６２を出力とするＤＮＮを用いればよい。

【0040】

モデルとして推定アルゴリズムを用いる場合、推定アルゴリズムには、例えば、推定対象の画像５０と、該画像５０に類似する他の複数の画像と、の各々の文字認識結果から、画像５０に含まれる文字列５２の属する期待カテゴリ６２Ａを統計的に推定するアルゴリズムが挙げられる。

【0041】

具体的には、例えば、推定対象の画像５０が帳票である場合を想定する。この場合、該画像５０と同じ領域に同じカテゴリに属する他の文字列５２の記入された複数の画像を用意する。そして、画像５０および複数の画像に含まれる同じ文字列領域５４に含まれる文字列５２の文字認識結果が、カテゴリ「住所」に属する文字認識結果を最も多く含む場合を想定する。この場合、画像５０に含まれる同じ文字列領域５４に含まれる文字列５２の文字認識結果が、カテゴリ「住所」および「氏名」の双方に属する場合であっても、カテゴリ「住所」と推定することで、期待カテゴリ６２Ａ「住所」を統計的に推定する。

【0042】

また、推定アルゴリズムには、推定対象の画像５０に含まれる文字列５２の記入欄外に配置された文字の文字認識結果から、該文字列５２の属する期待カテゴリ６２Ａを推定するアルゴリズムを用いてもよい。

【0043】

具体的には、例えば、推定対象の画像５０の文字列５２の記入欄外であって且つ該文字列５２の近傍に文字「氏名」が配置されている場面を想定する。この場合、文字列５２の期待カテゴリ６２Ａ「氏名」を推定する推定アルゴリズムを用いればよい。

【0044】

また、画像５０から期待カテゴリ情報６２を導出するモデルを用いる場合には、出力期待度６２Ｂには、例えば、０以上１未満などの特定の範囲内の連続値を用いてよい。

【0045】

図１に戻り説明を続ける。

【0046】

算出部２０Ｂは、カテゴリスコア情報を算出する。

【0047】

図４は、算出部２０Ｂによる処理の一例の説明図である。

【0048】

算出部２０Ｂは、ＮＮＷ（ニューラルネットワーク）７０を用いて、カテゴリスコア情報７４を算出する。

【0049】

カテゴリスコア情報７４とは、カテゴリ６０に属する尤もらしさのスコアを画像５０の１または複数の要素領域７２ごとに表す情報である。言い換えると、カテゴリスコア情報７４は、画像５０の１または複数の要素領域７２の各々ごとに、複数のカテゴリ６０の各々ごとのスコアを表す情報である。

【0050】

要素領域７２とは、ＮＮＷ７０による処理単位のサイズの領域である。詳細には、要素領域７２のサイズは、ＮＮＷ７０の構造によって定まる。具体的には、例えば、要素領域７２のサイズは、ＮＮＷ７０の処理時に用いられるカーネルによって定まる。カーネルは、フィルタと称される場合がある。例えば、要素領域７２は、画像５０の、１または複数の画素のサイズの領域に相当する。

【0051】

ＮＮＷ７０は、画像５０および期待カテゴリ情報６２を入力とし、カテゴリスコア情報７４を出力とするＮＮＷである。ＮＮＷ７０は、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ：畳み込みニューラルネットワーク）、ＧＣＮ（ＧｒａｐｈＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ）、またはＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）などのニューラルネットワークで構成される深層学習モデル（ＤＮＮ）である。

【0052】

本実施形態のＮＮＷ７０は、期待カテゴリ情報６２に含まれる期待カテゴリ６２Ａのスコアが高くなるようにカテゴリスコア情報７４を出力する。詳細には、ＮＮＷ７０は、期待カテゴリ情報６２に含まれる期待カテゴリ６２Ａに一致するカテゴリ６０のスコアが、期待カテゴリ情報６２を用いずに該カテゴリ６０のスコアを出力する場合に比べて高くなるように、カテゴリスコア情報７４を出力する。

【0053】

また、本実施形態では、期待カテゴリ情報６２には、期待カテゴリ６２Ａおよび出力期待度６２Ｂが含まれる形態を一例として説明する。

【0054】

このため、本実施形態では、ＮＮＷ７０は、期待カテゴリ情報６２に含まれる期待カテゴリ６２Ａのスコアが対応する出力期待度６２Ｂが高いほど高くなるように、カテゴリスコア情報７４を出力する。すなわち、ＮＮＷ７０は、期待カテゴリ情報６２に含まれる期待カテゴリ６２Ａに一致するカテゴリ６０のスコアが、期待カテゴリ情報６２を用いずに該カテゴリ６０のスコアを出力する場合に比べて高く、且つ、対応する出力期待度６２Ｂに応じた高さの値を示す、カテゴリスコア情報７４を出力する。

【0055】

ＮＮＷ７０は、上記関係を満たすカテゴリスコア情報７４を出力するように、予め学習されていればよい。

【0056】

図５は、ＮＮＷ７０の学習に用いられる学習データ８０の一例の模式図である。例えば、ＮＮＷ７０は、画像５０および期待カテゴリ情報６２を入力データとし、カテゴリスコア情報７４を教師データとする学習データ８０を複数用いて予め学習されてなる。学習データ８０に含まれる教師データは、対応する入力データに含まれる期待カテゴリ６２Ａのスコアが、該期待カテゴリ６２Ａを用いない場合に比べて高くなるようなスコアを表すカテゴリスコア情報７４である。

【0057】

例えば、上記条件を満たす複数の学習データ８０をあらかじめ用意し、ＮＮＷ７０を予め学習すればよい。判定装置１０が、複数の学習データ８０を用いて予めＮＮＷ７０を学習してもよい。また、判定装置１０の外部の情報処理装置が、複数の学習データ８０を用いて予めＮＮＷ７０を学習してもよい。

【0058】

図４に戻り説明を続ける。算出部２０Ｂは、取得部２０Ａで取得した画像５０および期待カテゴリ情報６２を取得部２０Ａから受付ける。上述したように、例えば、期待カテゴリ情報６２は、Ｋ次元のベクトルによって表される。また、本実施形態では、画像５０が白黒の画像、すなわちグレースケールの画像である形態を一例として説明する。

【0059】

この場合、算出部２０Ｂは、Ｋ次元のベクトルによって表される期待カテゴリ情報６２を、画像５０に含まれる画素の数であるＷ×Ｈ個複製し、Ｋ枚の画像として束ねることで、Ｗ×Ｈ×（Ｋ＋１）のテンソル６４を生成する。

【0060】

Ｗは、ＮＮＷ７０による処理時に用いられる多次元空間に配置された画像５０の画素の配列面である二次元平面における、特定の配列方向の画素の数である。Ｈは、該二次元平面における、Ｗに沿った方向に対して直交する配列方向の画素の数である。Ｋは上記と同様である。

【0061】

なお、画像５０がＲＧＢによって表されるカラー画像である場合には、算出部２０Ｂは、Ｗ×Ｈ×（Ｋ＋３）のテンソル６４を生成すればよい。

【0062】

そして、算出部２０Ｂは、テンソル６４をＮＮＷ７０へ入力する。そして、算出部２０Ｂは、ＮＮＷ７０から出力されたカテゴリスコア情報７４を取得することで、カテゴリスコア情報７４を算出する。

【0063】

図６は、ＮＮＷ７０の内部処理の一例の説明図である。

【0064】

ＮＮＷ７０では、例えば、固定サイズ、固定ステップ幅のスライディングウィンドウで切り出した要素領域７２ごとに、Ｋ個のカテゴリ６０の各々に属する尤もらしさを表すスコアを算出する。上述したように、要素領域７２のサイズやステップ幅は、ＮＮＷ７０の構造によって定まる。図６には、要素領域７２が複数の画素に相当するサイズの領域である場合を一例として示す。

【0065】

なお、ＮＮＷ７０は、ＮＮＷ７０の処理空間における画像５０のフレーム外の領域については所定値で埋めることで、要素領域７２毎にスコアを算出すればよい。そして、ＮＮＷ７０は、複数の要素領域７２の各々ごとに、複数のカテゴリ６０の各々ごとのスコアを表すカテゴリスコア情報７４を出力する。

【0066】

図４に戻り説明を続ける。ＮＮＷ７０は、画像５０および期待カテゴリ情報６２を入力とし、カテゴリスコア情報７４を出力とするＮＮＷであればよく、テンソル６４の生成もＮＮＷ７０内で行う形態であってもよい。

【0067】

算出部２０Ｂは、ＮＮＷ７０からの出力としてカテゴリスコア情報７４を取得する。すなわち、算出部２０Ｂは、画像５０の複数の要素領域７２の各々ごとに、複数のカテゴリ６０の各々ごとのスコアを表す情報であるカテゴリスコア情報７４を取得する。なお、上述したように、期待カテゴリ情報６２は、例えば、Ｋ次元のベクトルによって表される。このため、例えば、算出部２０Ｂは、Ｗ′×Ｈ′×Ｋのテンソルによって表されるカテゴリスコア情報７４を取得する。

【0068】

Ｗ′とＨ′はＮＮＷ７０の構造によって決まる数であり、Ｗ′×Ｈ′は全要素領域７２の数と等しくなる。本実施例ではＷ′＝Ｗ、Ｈ′＝Ｈとなる場合を考える。なお、Ｗ′、Ｈ′はＷ′＝Ｗ、Ｈ′＝Ｈに限定されない。

【0069】

図４には、要素領域７２が１画素に相当するサイズの領域である場合を一例として示す。図４には、ある要素領域７２では、カテゴリ６０「フリガナ」のスコア「１０」、およびその他のカテゴリのスコア「９０」であった場合を示す。また、図４には、他のある要素領域７２では、カテゴリ６０「住所」のスコア「９０」、およびカテゴリ６０「氏名」のスコア「１０」であった場合を示す。

【0070】

なお、ＮＮＷ７０が畳み込みニューラルネットワーク（ＣＮＮ）である場合、算出部２０Ｂは、プーリングによるダウンサンプリング、および、畳み込みの適用間隔である畳み込み演算の２以上のストライド、の少なくとも一方が適用されたＮＮＷ７０を用いて、カテゴリスコア情報７４を算出してもよい。

【0071】

プーリングによるダウンサンプリング、および、畳み込み演算の２以上のストライド、の少なくとも一方が適用されたＮＮＷ７０を用いることで、Ｗ′＝Ｗ／２、Ｈ′＝Ｈ／２とすることが可能である。この場合、要素領域７２の数はＷ′＝Ｗ、Ｈ′＝Ｈとなる場合と比較して１／４に間引くことができ、計算効率の向上を図ることができる。

【0072】

図１に戻り説明を続ける。抽出部２０Ｃは、画像５０に含まれる文字列領域５４を抽出する。

【0073】

図７は、抽出部２０Ｃによる処理の一例の説明図である。抽出部２０Ｃは、画像５０に含まれる文字列領域５４を抽出する。抽出部２０Ｃは、公知の方法により画像５０に含まれる文字列領域５４を抽出すればよい。例えば、以下の公知文献Ａ～公知文献Ｃに表される方法などを用いて、画像５０に含まれる文字列領域５４を抽出すればよい。

【0074】

・公知文献Ａ：Ｒ．Ｊｏｓｅｐｈ，ｅｔａｌ．，ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅ：Ｕｎｉｆｉｅｄ，Ｒｅａｌ－ＴｉｍｅＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎ，２０１５（［１５０６．０２６４０］ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅ：Ｕｎｉｆｉｅｄ，Ｒｅａｌ－ＴｉｍｅＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎ（ａｒｘｉｖ．ｏｒｇ））
・公知文献Ｂ：Ｌ．Ｍｉｎｇｈｕｉ，ｅｔａｌ．，Ｒｅａｌ－ｔｉｍｅＳｃｅｎｅＴｅｘｔＤｅｔｅｃｔｉｏｎｗｉｔｈＤｉｆｆｅｒｅｎｔｉａｂｌｅＢｉｎａｒｉｚａｔｉｏｎ，２０１９（［１９１１．０８９４７］Ｒｅａｌ－ｔｉｍｅＳｃｅｎｅＴｅｘｔＤｅｔｅｃｔｉｏｎｗｉｔｈＤｉｆｆｅｒｅｎｔｉａｂｌｅＢｉｎａｒｉｚａｔｉｏｎ（ａｒｘｉｖ．ｏｒｇ））
・公知文献Ｃ：特開２０２０－１３５２７２号公報

【0075】

図７には、画像５０Ａから、文字列領域５４Ａ～文字列領域５４Ｃの文字列領域５４が抽出された状態を一例として示す。

【0076】

図１に戻り説明を続ける。判定部２０Ｄは、算出部２０Ｂで算出されたカテゴリスコア情報７４に基づいて、抽出部２０Ｃで抽出された文字列領域５４に含まれる文字列５２が属するカテゴリ６０を判定する。

【0077】

図８は、判定部２０Ｄによる判定処理の一例の説明図である。判定部２０Ｄは、算出部２０Ｂで算出されたカテゴリスコア情報７４における、抽出部２０Ｃで抽出された文字列領域５４に対応する領域Ｅごとに、属するカテゴリ６０を判定する。

【0078】

例えば、判定部２０Ｄは、画像５０に含まれる文字列領域５４ごとに、文字列領域５４に含まれる要素領域７２の各々のカテゴリ６０ごとのスコアの平均値が最大のカテゴリ６０を、該文字列領域５４に含まれる文字列５２が属するカテゴリ６０と判定する。

【0079】

詳細には、判定部２０Ｄは、カテゴリスコア情報７４における、文字列領域５４に対応する領域Ｅを特定する。図８には、文字列領域５４Ａに対応する領域Ｅａを特定した状態を示す。領域Ｅａは領域Ｅの一例である。そして、判定部２０Ｄは、カテゴリスコア情報７４に基づいて、特定した領域Ｅａに含まれる要素領域７２の各々に対する、複数のカテゴリ６０の各々のスコアを特定する。更に、判定部２０Ｄは、領域Ｅａに含まれる、要素領域７２の各々毎に特定したスコアについて、同一のカテゴリ６０ごとの平均値を算出する。判定部２０Ｄは、算出した平均値が最大のカテゴリ６０を、該領域Ｅａに対応する文字列領域５４Ａに含まれる文字列５２が属するカテゴリ６０と判定する。

【0080】

具体的には、判定部２０Ｄは、以下の式（１）～式（３）を用いてカテゴリ６０を判定する。

【0081】

例えば、画像５０に含まれるｉ番目の文字列領域５４をＳｉとし、要素領域７２のカテゴリ６０ごとのスコアを下記式（１）によって表されるｐとする。

【0082】

【数1】

【0083】

この場合、判定部２０Ｄは、ｉ番目の文字列領域５４に含まれる文字列５２が属するカテゴリ６０を、下記式（２）を用いて判定する。

【0084】

【数2】

【0085】

式（２）中、左辺は、ｉ番目の文字列領域５４に含まれる文字列５２が属するカテゴリ６０を表す。式（２）中のｋは、カテゴリ６０の番号であり、ｋ＝１，２，…，Ｋの値をとる。ｘ，ｙはｉ番目の文字列領域５４に含まれる要素領域７２の番号である。

【0086】

また、判定部２０Ｄは、画像５０に含まれる文字列領域５４ごとに、文字列領域５４に含まれる要素領域７２の各々ごとに最大のスコアに対応するカテゴリ６０を特定し、文字列領域５４内で最も多く特定したカテゴリ６０を、該文字列領域５４に含まれる文字列５２が属するカテゴリ６０と判定してもよい。

【0087】

詳細には、判定部２０Ｄは、カテゴリスコア情報７４における、文字列領域５４に対応する領域Ｅを特定する。図８には、文字列領域５４Ａに対応する領域Ｅａを特定した状態を示す。そして、判定部２０Ｄは、カテゴリスコア情報７４に基づいて、特定した領域Ｅａに含まれる要素領域７２の各々ごとに、最大のスコアのカテゴリ６０を特定する。そして、判定部２０Ｄは、領域Ｅａ内で最も多く特定したカテゴリ６０を、該領域Ｅａに対応する文字列領域５４Ａに含まれる文字列５２が属するカテゴリ６０と判定する。

【0088】

具体的には、判定部２０Ｄは、以下の式（３）によって表される集合の最頻値を、カテゴリ６０として判定する。

【0089】

【数3】

【0090】

式（３）中、ｋ、ｘ、ｙ、Ｓｉ、およびｐの意味は、上記式（１）～式（２）と同様である。

【0091】

なお、判定部２０Ｄは、期待カテゴリ情報６２に含まれる期待カテゴリ６２Ａに応じた文字列５２の領域である文字列領域５４ごとに、カテゴリスコア情報７４によって表されるスコアに基づいて文字列領域５４に含まれる文字列５２が属するカテゴリ６０を判定すればよい。

【0092】

図９Ａおよび図９Ｂは、判定部２０Ｄによる処理の一例の説明図である。

【0093】

図９Ａに示すように、例えば、取得部２０Ａが、文字列５２「東芝太郎」を含む画像５０Ｃと、期待カテゴリ６２Ａ「姓名」を含む期待カテゴリ情報６２と、を取得した場面を想定する。この場合、判定部２０Ｄは、画像５０Ｃにおける、期待カテゴリ６２Ａ「姓名」に応じた文字列５２「東芝太郎」の領域（姓名領域）である文字列領域５４Ｄについて、カテゴリスコア情報７４に基づいてカテゴリ６０を判定する。

【0094】

また、図９Ｂに示すように、例えば、取得部２０Ａが、文字列５２「東芝太郎」を含む画像５０Ｃと、期待カテゴリ６２Ａ「姓」および期待カテゴリ６２Ａ「名」を含む期待カテゴリ情報６２と、を取得した場面を想定する。この場合、判定部２０Ｄは、画像５０Ｃにおける、期待カテゴリ６２Ａ「姓」に応じた文字列５２「東芝」の領域（姓領域）である文字列領域５４Ｄ１について、カテゴリスコア情報７４に基づいてカテゴリ６０を判定する。また、判定部２０Ｄは、画像５０Ｃにおける、期待カテゴリ６２Ａ「名」に応じた文字列５２「太郎」の領域（名領域）である文字列領域５４Ｄ２について、カテゴリスコア情報７４に基づいてカテゴリ６０を判定する。

【0095】

このように、判定部２０Ｄが、期待カテゴリ情報６２に含まれる期待カテゴリ６２Ａに応じた文字列５２の領域である文字列領域５４ごとにカテゴリ６０を判定することで、期待カテゴリ６２Ａによって判定の粒度を調整することが可能となる。

【0096】

なお、文字列領域５４に含まれる要素領域７２の各々のカテゴリ６０のスコアが文字列領域５４内で閾値以上変化する場合がある。閾値は、予め定めればよい。この場合、判定部２０Ｄは、閾値に応じて文字列領域５４を分割した分割文字列領域ごとに、属するカテゴリ６０を判定してもよい。

【0097】

図１０Ａ～図１０Ｃは、判定部２０Ｄによる処理の一例の説明図である。

【0098】

図１０Ａに示すように、例えば、判定部２０Ｄが、カテゴリスコア情報７４における、抽出部２０Ｃで抽出された文字列領域５４Ｂに対応する領域Ｅｂについて、カテゴリ６０を判定する場面を想定する。領域Ｅｂは、領域Ｅの一例である。

【0099】

また、図１０Ｂに示すように、該領域Ｅｂに含まれる要素領域７２の各々のカテゴリ６０のスコアが、該領域Ｅｂ内で閾値以上変化する場面を想定する。図１０Ｂには、スコアが高いほど濃い黒色を示す。例えば、領域Ｅｂでは、カテゴリ「電話番号」のスコアが上記Ｗに沿った方向の中央から一端側に向かって（矢印Ｗａ方向参照）低く、中央から他端側に向かって（矢印Ｗｂ方向参照）高い場合を想定する。また、領域Ｅｂでは、その他のカテゴリのスコアが上記Ｗに沿った方向の中央から他端側に向かって（矢印Ｗｂ方向参照）低く、中央から一端側に向かって（矢印Ｗａ方向参照）高い場合を想定する。

【0100】

図１０Ｃは、文字列５２の一例の説明図である。図１０Ａおよび図１０Ｂに示す状態の場合、判定部２０Ｄは、閾値に応じて文字列領域５４を複数の分割文字列領域５３に分割する。例えば、文字列領域５４におけるスコアが閾値以上変化する位置が、文字列領域５４に対応する領域Ｅｂの上記Ｗに沿った方向の中央であった場面を想定する。この場合、判定部２０Ｄは、文字列領域５４Ｂを、スコアが閾値以上変化する位置である該中央の位置で分割することで、分割文字領域５３Ａおよび分割文字領域５３Ｂに分割する。

【0101】

そして、判定部２０Ｄは、分割文字領域５３Ａおよび分割文字領域５３Ｂの各々ごとに、上記と同様にして、カテゴリ６０を判定すればよい。

【0102】

なお、文字列領域５４を複数の分割文字列領域５３に分割する処理は、判定部２０Ｄで行ってもよいし、抽出部２０Ｃで行ってもよい。

【0103】

図１に戻り説明を続ける。文字認識部２０Ｅは、判定部２０Ｄによって判定されたカテゴリに応じて、文字列領域５４に含まれる文字を文字認識する。文字認識部２０Ｅは、公知の方法により文字列領域５４に含まれる文字を文字認識すればよい。例えば、文字認識部２０Ｅは、画像５０に含まれる文字列領域５４ごとに、判定部２０Ｄによって判定されたカテゴリ６０に対応する文字認識辞書などを用いて、該文字列領域５４に含まれる文字を文字認識すればよい。判定されたカテゴリ６０に応じて文字認識を行うことで、文字認識部２０Ｅは、高精度に文字認識を行うことができる。

【0104】

出力制御部２０Ｆは、文字認識部２０Ｅによって文字認識された文字と、該文字を含む文字列領域５４に対して判定されたカテゴリ６０と、を対応付けた認識結果情報を出力する。例えば、出力制御部２０Ｆは、認識結果情報をＵＩ部１６へ出力する。ユーザは、ＵＩ部１６に出力された認識結果情報を視認することで、文字認識結果および文字認識結果によって表される文字列５２の属するカテゴリ６０を確認することができる。なお、認識結果情報は、取得部２０Ａで取得した期待カテゴリ情報６２および画像５０の少なくとも一方を更に含んだ情報であってもよい。

【0105】

また、出力制御部２０Ｆは、認識結果情報を、通信部１４を介して外部の情報処理装置に送信してもよい。また、出力制御部２０Ｆは、認識結果情報を記憶部１２に記憶してもよい。

【0106】

次に、本実施形態の判定装置１０の制御部２０が実行する情報処理の流れの一例を説明する。

【0107】

図１１は、本実施形態の判定装置１０の制御部２０が実行する情報処理の流れの一例を示すフローチャートである。

【0108】

取得部２０Ａは、画像５０および期待カテゴリ情報６２を取得する（ステップＳ１００）。

【0109】

算出部２０Ｂは、ステップＳ１００で取得した画像５０の複数の要素領域７２ごとに複数のカテゴリ６０の各々に属する尤もらしさのスコアを表すカテゴリスコア情報７４を算出する（ステップＳ１０２）。すなわち、算出部２０Ｂは、ステップＳ１００で取得した画像５０および期待カテゴリ情報６２をＮＮＷ７０へ入力し、ＮＮＷ７０から出力されたカテゴリスコア情報７４を取得する。算出部２０Ｂは、カテゴリスコア情報７４を取得することで、該カテゴリスコア情報７４を算出する。

【0110】

抽出部２０Ｃは、ステップＳ１００で取得した画像５０に含まれる文字列領域５４を抽出する（ステップＳ１０４）。判定部２０Ｄは、ステップＳ１０２で算出されたカテゴリスコア情報７４に基づいて、抽出部２０Ｃで抽出された文字列領域５４に含まれる文字列５２が属するカテゴリ６０を判定する（ステップＳ１０６）。

【0111】

文字認識部２０Ｅは、ステップＳ１０６で文字列領域５４ごとに判定されたカテゴリ６０に応じて、文字列領域５４に含まれる文字を文字認識する（ステップＳ１０８）。出力制御部２０Ｆは、ステップＳ１０８で文字認識された文字と、該文字を含む文字列領域５４に対して判定されたカテゴリ６０と、を対応付けた認識結果情報を出力する（ステップＳ１１０）。そして、本ルーチンを終了する。

【0112】

以上説明したように、本実施形態の判定装置１０は、取得部２０Ａと、算出部２０Ｂと、抽出部２０Ｃと、判定部２０Ｄと、を備える。取得部２０Ａは、文字列５２を含む画像５０と、予め定められた所定のカテゴリ６０の内、出力として期待されるカテゴリ６０である期待カテゴリ６２Ａを含む期待カテゴリ情報６２と、を取得する。算出部２０Ｂは、カテゴリ６０に属する尤もらしさのスコアを画像５０の要素領域７２ごとに表すカテゴリスコア情報７４を算出する。抽出部２０Ｃは、画像５０に含まれる文字列領域５４を抽出する。判定部２０Ｄは、カテゴリスコア情報７４に基づいて、文字列領域５４に含まれる文字列５２が属するカテゴリ６０を判定する。算出部２０Ｂは、画像５０および期待カテゴリ情報６２を入力としカテゴリスコア情報７４を出力とするＮＮＷ７０を用いてカテゴリスコア情報７４を算出する。ＮＮＷ７０は、期待カテゴリ情報６２に含まれる期待カテゴリ６２Ａのスコアが高くなるように、カテゴリスコア情報７４を出力する。

【0113】

ここで、従来技術として、画像５０に含まれる文字列５２を抽出し、抽出した文字列５２を文字認識した文字認識結果を用いて、該文字列５２の属するカテゴリ６０を判定する技術が開示されている。

【0114】

例えば、従来技術として、文字列５２の文字認識結果に応じて複数のカテゴリ６０を特定し、特定した複数のカテゴリ６０の内の最も優先順位の高いカテゴリ６０を画像５０の属するカテゴリ６０として判定する技術が開示されている。しかしながら、この従来技術では、文字列５２の示す意味や文字列５２の文字認識結果の示す内容によっては、属するカテゴリ６０を１つのカテゴリ６０に絞り切れない場合があった。このため、従来技術では、カテゴリ６０の判定精度が低下する場合があった。

【0115】

また、従来技術では、文字列５２の文字認識結果を用いて文字列５２の属するカテゴリ６０を判定するため、カテゴリ６０に対応する何れの文字認識用辞書が学習対象か不明であり、文字認識精度の向上を図ることも困難であった。このため、従来技術では、結果的にカテゴリ６０の判定精度が低下する場合があった。

【0116】

一方、本実施形態の判定装置１０は、判定対象の画像５０と、期待カテゴリ情報６２と、を取得する。そして、本実施形態の判定装置１０は、期待カテゴリ情報６２に含まれる期待カテゴリ６２Ａのスコアが高くなるようにカテゴリスコア情報７４を出力するＮＮＷ７０を用いて、画像５０および期待カテゴリ情報６２からカテゴリスコア情報７４を算出する。すなわち、本実施形態の判定装置１０は、期待カテゴリ６２Ａのスコアが高くなるようにカテゴリスコア情報７４を出力するＮＮＷ７０を用いてカテゴリスコア情報７４を算出する。そして、本実施形態の判定装置１０は、カテゴリスコア情報７４に基づいて、文字列領域５４に含まれる文字列５２が属するカテゴリ６０を判定する。

【0117】

このため、本実施形態の判定装置１０では、取得した期待カテゴリ６２Ａに属する尤もらしさが高くなるように、画像５０に含まれる文字列５２の各々が属するカテゴリ６０を判定することができる。

【0118】

図１２Ａおよび図１２Ｂは、本実施形態の判定装置１０の効果の一例の説明図である。

【0119】

図１２Ａに示すように、例えば、取得部２０Ａが、文字列５２「川崎」を含む画像５０Ｂと、期待カテゴリ６２Ａ「住所」を含む期待カテゴリ情報６２と、を取得した場面を想定する。画像５０Ｂは、画像５０の一例である。この場合、本実施形態の判定装置１０では、画像５０Ｂおよび期待カテゴリ情報６２をＮＮＷ７０へ入力することで、ＮＮＷ７０からの出力として、期待カテゴリ６２Ａ「住所」のスコアの高いカテゴリスコア情報７４を得る。そして、判定装置１０では、カテゴリスコア情報７４を用いて、文字列領域５４の文字列５２「川崎」の属するカテゴリ６０を判定することで、例えば、カテゴリ６０「住所」を判定する。

【0120】

一方、図１２Ｂに示すように、取得部２０Ａが、文字列５２「川崎」を含む画像５０Ｂと、期待カテゴリ６２Ａ「氏名」を含む期待カテゴリ情報６２と、を取得した場面を想定する。画像５０Ｂは、図１２Ａと同じ画像５０である。この場合、本実施形態の判定装置１０では、画像５０Ｂおよび期待カテゴリ情報６２をＮＮＷ７０へ入力することで、ＮＮＷ７０からの出力として、期待カテゴリ６２Ａ「氏名」のスコアの高いカテゴリスコア情報７４を得る。そして、判定装置１０では、カテゴリスコア情報７４を用いて、文字列領域５４の文字列５２「川崎」の属するカテゴリ６０を判定することで、例えば、カテゴリ６０「氏名」を判定する。

【0121】

このように、本実施形態の判定装置１０は、画像５０に加えて、期待カテゴリ６２Ａを含む期待カテゴリ情報６２をＮＮＷ７０へ入力することで、期待カテゴリ６２Ａの尤もらしさのスコアが高くなるように予測されたカテゴリスコア情報７４を得る。そして、判定装置１０は、カテゴリスコア情報７４を用いて、文字列５２のカテゴリ６０を判定する。

【0122】

このため、本実施形態の判定装置１０では、文字列５２の示す意味が複数種類に渡り、１つのカテゴリ６０に絞ることの困難な文字列５２を含む画像５０であっても、高精度に文字列５２のカテゴリ６０を判定することができる。

【0123】

従って、本実施形態の判定装置１０は、画像５０に含まれる文字列５２が属するカテゴリ６０を高精度に判定することができる。

【0124】

また、本実施形態の判定装置１０は、画像５０に含まれる文字列５２の文字認識を行うことなく、文字列５２が属するカテゴリ６０を判定する。このため、本実施形態の判定装置１０は、上記効果に加えて、少ない計算量、すなわち低負荷で、文字列５２のカテゴリ６０を判定することができる。

【0125】

（変形例１）
なお、上記実施形態では、期待カテゴリ情報６２は、期待カテゴリ６２Ａおよび期待カテゴリ６２Ａに対する出力期待度６２Ｂを表すＫ次元のベクトルによって表される形態を一例として説明した。しかし、上述したように、期待カテゴリ情報６２のデータ形式は限定されない。例えば、期待カテゴリ情報６２は、画像５０の小領域ごとに、期待カテゴリ６２Ａ、または期待カテゴリ６２Ａおよび期待カテゴリ６２Ａに対する出力期待度６２Ｂを表すマップであってもよい。

【0126】

図１３は、マップによって表される期待カテゴリ情報６２の一例の説明図である。

【0127】

図１３に示すように、期待カテゴリ情報６２は、画像５０の小領域７６ごとに、期待カテゴリ６２Ａ、または期待カテゴリ６２Ａおよび期待カテゴリ６２Ａに対する出力期待度６２Ｂを表したマップであってもよい。マップは、例えば、Ｗ×Ｈ×Ｋのテンソルによって表される。Ｗ，Ｈ，Ｋは上記と同様である。

【0128】

図１３には、一例として、小領域７６Ａおよび小領域７６Ｂを小領域７６として示す。小領域７６の位置、サイズ、および形状は、例えば、ユーザによるＵＩ部１６の操作指示等によって指定される。また、期待カテゴリ情報６２の導出に用いられるＣＮＮが、公知の方法を用いて画像５０に含まれる小領域７６を調整して出力してもよい。

【0129】

この場合、算出部２０Ｂは、取得部２０Ａで取得した画像５０およびマップによって表される期待カテゴリ情報６２を取得部２０Ａから受付ける。そして、上記実施形態と同様に、算出部２０Ｂは、Ｗ×Ｈ×Ｋのテンソルとしてあらわされる期待カテゴリ情報６２を、Ｋ枚の画像として束ねることで、Ｗ×Ｈ×（Ｋ＋１）のテンソル６４を生成する。そして、上記実施形態と同様に算出部２０Ｂは、テンソル６４をＮＮＷ７０へ入力すればよい。

【0130】

（変形例２）
なお、上記実施形態では、抽出部２０Ｃは公知の方法で画像５０から文字列領域５４を抽出する形態を一例として説明した。しかし、抽出部２０Ｃは、ＮＮＷ７０から出力された文字列５２Ｂを取得することで、画像５０から文字列領域５４を抽出してもよい。

【0131】

図１４は、本変形例の一例の説明図である。

【0132】

例えば、上記実施形態と同様に、算出部２０Ｂが、期待カテゴリ情報６２を画像５０に含まれる要素領域７２の数であるＷ×Ｈ個複製し、Ｋ枚の画像として束ねることで、Ｗ×Ｈ×（Ｋ＋１）のテンソル６４を生成した場面を想定する。そして、上記実施形態と同様に算出部２０Ｂが、テンソル６４をＮＮＷ７０へ入力する場面を想定する。この場合、ＮＮＷ７０は、カテゴリスコア情報７４および文字列領域５４を出力する。

【0133】

例えば、ＮＮＷ７０は、要素領域７２ごとにカテゴリ６０の各々のスコアを表し、且つ、背景領域以外の連結成分を文字列領域５４の各々とした、Ｗ′×Ｈ′×（Ｋ＋１）のテンソルを出力する。Ｗ′、Ｈ′は上記と同様である。

【0134】

この場合、抽出部２０Ｃは、ＮＮＷ７０から出力された文字列領域５４を取得することで、文字列領域５４を抽出すればよい。

【0135】

このように、判定装置１０は、１つのＮＮＷ７０を用いて、カテゴリスコア情報７４の算出および文字列領域５４の抽出を行ってもよい。

【0136】

１つのＮＮＷ７０を用いてカテゴリスコア情報７４の算出および文字列領域５４の抽出を行うことで、計算コストの削減を図ることができる。

【0137】

（変形例３）
また、ＮＮＷ７０を複数のＮＮＷから構成し、算出部２０Ｂおよび抽出部２０Ｃが一部のＮＮＷを共有して用いてもよい。

【0138】

図１５は、本変形例の一例の説明図である。

【0139】

例えば、ＮＮＷ７０は、第１のＮＮＷ７０Ａ、第２のＮＮＷ７０Ｂ、および第３のＮＮＷ７０Ｃを含む。

【0140】

そして、算出部２０Ｂは、第１のＮＮＷ７０Ａを用いて、画像５０または画像５０および期待カテゴリ情報６２から、要素領域７２ごとの特徴量を表す特徴マップ８２を算出する。そして、算出部２０Ｂは、更に、第２のＮＮＷ７０Ｂを用いて、特徴マップ８２または特徴マップ８２および期待カテゴリ情報６２からカテゴリスコア情報７４を算出する。

【0141】

一方、抽出部２０Ｃは、第３のＮＮＷ７０Ｃを用いて、特徴マップ８２から文字列領域５４を抽出する。

【0142】

このように、判定装置１０では、算出部２０Ｂおよび抽出部２０Ｃが一部のＮＮＷ７０を共有して用いてもよい。

【0143】

次に、上記実施形態および変形例の判定装置１０のハードウェア構成を説明する。

【0144】

図１６は、上記実施形態および変形例の一例のハードウェア構成図である。

【0145】

上記実施形態および変形例の判定装置１０は、ＣＰＵ９１などの制御装置と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９２やＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ９４と、各部を接続するバス９５と、を備える。

【0146】

上記実施形態および変形例の判定装置１０で実行されるプログラムは、ＲＯＭ９２等に予め組み込まれて提供される。

【0147】

上記実施形態および変形例で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フレキシブルディスク（ＦＤ）、ＣＤ－Ｒ（ＣｏｍｐａｃｔＤｉｓｋＲｅｃｏｒｄａｂｌｅ）、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

【0148】

さらに、上記実施形態および変形例で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、上記実施形態および変形例で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

【0149】

上記実施形態および変形例で実行されるプログラムは、コンピュータを、本実施形態の判定装置１０の各部として機能させうる。このコンピュータは、ＣＰＵ９１がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

【0150】

上記には、本発明の実施形態および変形例を説明したが、本実施形態および変形例は、例として提示したものであり、発明の範囲を限定することは意図していない。上記新規な実施形態および変形例は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。本実施形態やその変形例は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

【0151】

例えば、本実施形態の判定装置１０は、文字認識部２０Ｅおよび出力制御部２０Ｆの少なくとも一方を備えない構成であってもよい。この場合、例えば、文字認識部２０Ｅおよび出力制御部２０Ｆの少なくとも一方を、通信部１４を介して判定装置１０に通信可能に接続された外部の情報処理装置に搭載した構成としてもよい。

【符号の説明】

【0152】

１０判定装置
２０Ａ取得部
２０Ｂ算出部
２０Ｃ抽出部
２０Ｄ判定部
２０Ｅ文字認識部
２０Ｆ出力制御部

【図1】