特許6592024 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ パナソニック株式会社の特許一覧

特許6592024文字認識システム、文字認識方法、及び文字認識サーバ

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13A
13B

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6592024

(24)【登録日】2019年9月27日

(45)【発行日】2019年10月16日

(54)【発明の名称】文字認識システム、文字認識方法、及び文字認識サーバ

(51)【国際特許分類】

H04N 5/232 20060101AFI20191007BHJP

G06K 9/62 20060101ALI20191007BHJP

G06K 9/03 20060101ALI20191007BHJP

G06K 9/38 20060101ALI20191007BHJP

G06F 17/28 20060101ALI20191007BHJP

【ＦＩ】

H04N5/232 300

G06K9/62 620D

G06K9/03 J

G06K9/38 A

G06F17/28 690

【請求項の数】8

【全頁数】26

(21)【出願番号】特願2017-21637(P2017-21637)

(22)【出願日】2017年2月8日

(65)【公開番号】特開2018-129689(P2018-129689A)

(43)【公開日】2018年8月16日

【審査請求日】2018年5月11日

【国等の委託研究の成果に係る記載事項】（出願人による申告）平成２８年度、総務省、グローバルコミュニケーション計画の推進 −多言語音声翻訳技術の研究開発及び社会実証− １．多言語音声翻訳技術の研究開発の委託事業、産業技術力強化法第１９条の適用を受ける特許出願

(73)【特許権者】

【識別番号】000005821

【氏名又は名称】パナソニック株式会社

(74)【代理人】

【識別番号】110002000

【氏名又は名称】特許業務法人栄光特許事務所

(72)【発明者】

【氏名】松尾崇史

【審査官】高野美帆子

(56)【参考文献】

【文献】特開２０１７−０１６５４９（ＪＰ，Ａ）

【文献】特開昭６３−１１１５９１（ＪＰ，Ａ）

【文献】特開２００３−１７８０６７（ＪＰ，Ａ）

【文献】特開２００６−０４８３２４（ＪＰ，Ａ）

【文献】特開２００６−２５４３８９（ＪＰ，Ａ）

【文献】特開平１１−２２０７４１（ＪＰ，Ａ）

【文献】特開平１１−２８４８４６（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｈ０４Ｎ５／２２２−５／２５７

Ｇ０６Ｆ１７／２８

Ｇ０６Ｋ９／０３

Ｇ０６Ｋ９／３８

Ｇ０６Ｋ９／６２

(57)【特許請求の範囲】

【請求項1】

ユーザ端末とサーバとが通信可能に接続された文字認識システムであって、
前記ユーザ端末は、
文字を有する被写体を撮像し、
前記被写体の撮像画像を含む認識要求を前記サーバに送信し、
前記サーバは、
前記ユーザ端末から送信された前記認識要求に従って、前記撮像画像を用いて、前記撮像画像に含まれる文字の二値画像を生成するための第１の二値化処理を実行し、
前記第１の二値化処理が成功した場合に、前記撮像画像に含まれる文字の二値画像に対する文字認識処理結果を、前記ユーザ端末に送信し、
前記第１の二値化処理が失敗した場合に、前記撮像画像のコントラストを調整し、コントラストを調整した前記撮像画像を用いて前記第１の二値化処理を再実行し、
再実行した前記第１の二値化処理が成功した場合に、前記撮像画像に含まれる文字の二値画像に対する文字認識処理結果を、前記ユーザ端末に送信し、
再実行した前記第１の二値化処理が失敗した場合に、前記撮像画像を用いて、前記撮像画像に含まれる文字の二値画像を生成するための第２の二値化処理を実行し、
前記第２の二値化処理が成功した場合に、前記撮像画像に含まれる文字の二値画像に対する文字認識処理結果を、前記ユーザ端末に送信する、
文字認識システム。

【請求項2】

前記ユーザ端末は、
前記第１の二値化処理又は前記第２の二値化処理が成功した場合に、前記被写体の撮像画像と前記サーバから送信された前記文字認識処理結果とを対比的に表示部に表示する、
請求項１に記載の文字認識システム。

【請求項3】

前記ユーザ端末は、
前記被写体の撮像画像に含まれる文字の認識を指示するための第１の指示部を表示部に表示し、
前記第１の指示部に対する操作に応じて、前記被写体の撮像画像を含む認識要求を前記サーバに送信する、
請求項１に記載の文字認識システム。

【請求項4】

前記ユーザ端末と通信可能に接続され、翻訳用辞書を有する翻訳サーバ、を更に備え、
前記ユーザ端末は、
前記文字認識処理結果に対応する文字の翻訳を指示するための第２の指示部を表示部に表示し、
前記第２の指示部に対する操作に応じて、前記文字認識処理結果を含む翻訳要求を前記翻訳サーバに送信し、
前記翻訳サーバは、
前記ユーザ端末から送信された前記翻訳要求に従って、前記翻訳用辞書を用いて前記文字認識処理結果を翻訳処理し、前記文字認識処理結果の翻訳処理結果を前記ユーザ端末に送信し、
前記ユーザ端末は、
前記翻訳サーバから送信された前記翻訳処理結果を前記表示部に表示する、
請求項１に記載の文字認識システム。

【請求項5】

前記ユーザ端末は、
前記撮像画像に含まれる文字の二値画像を前記被写体の撮像画像に重畳表示することを指示するための第３の指示部を表示部に表示し、
前記第３の指示部に対する操作に応じて、前記二値画像を前記被写体の撮像画像に重畳表示して前記表示部に表示する、
請求項１に記載の文字認識システム。

【請求項6】

前記ユーザ端末は、
前記第１の二値化処理、前記第２の二値化処理の実行をそれぞれ指示する第４の指示部、第５の指示部を表示部に表示し、
前記第４の指示部又は前記第５の指示部に対する操作に応じて、前記操作に対応する前記第１の二値化処理又は前記第２の二値化処理の実行要求を前記サーバに送信し、
前記サーバは、
前記ユーザ端末から送信された前記実行要求に応じて、前記撮像画像を用いて前記第１の二値化処理又は前記第２の二値化処理を実行する、
請求項１に記載の文字認識システム。

【請求項7】

ユーザ端末とサーバとが通信可能に接続された文字認識システムにおける文字認識方法であって、
前記ユーザ端末は、
文字を有する被写体を撮像し、
前記被写体の撮像画像を含む認識要求を前記サーバに送信し、
前記サーバは、
前記ユーザ端末から送信された前記認識要求に従って、前記撮像画像を用いて、前記撮像画像に含まれる文字の二値画像を生成するための第１の二値化処理を実行し、

前記第１の二値化処理が成功した場合に、前記撮像画像に含まれる文字の二値画像に対する文字認識処理結果を、前記ユーザ端末に送信し、
前記第１の二値化処理が失敗した場合に、前記撮像画像のコントラストを調整し、コントラストを調整した前記撮像画像を用いて前記第１の二値化処理を再実行し、
再実行した前記第１の二値化処理が成功した場合に、前記撮像画像に含まれる文字の二値画像に対する文字認識処理結果を、前記ユーザ端末に送信し、
再実行した前記第１の二値化処理が失敗した場合に、前記撮像画像を用いて、前記撮像画像に含まれる文字の二値画像を生成するための第２の二値化処理を実行し、
前記第２の二値化処理が成功した場合に、前記撮像画像に含まれる文字の二値画像に対する文字認識処理結果を、前記ユーザ端末に送信する、
文字認識方法。

【請求項8】

ユーザ端末と通信可能に接続された文字認識サーバであって、
文字を有する被写体が前記ユーザ端末により撮像された撮像画像を含む認識要求を受信する通信部と、
前記認識要求に従って、前記撮像画像を用いて、前記撮像画像に含まれる文字の二値画像を生成するための第１の二値化処理を実行し、前記第１の二値化処理が失敗した場合に、コントラストを調整した前記撮像画像を用いて前記第１の二値化処理を再実行する第１の二値化処理部と、
前記第１の二値化処理が成功した場合に、前記撮像画像に含まれる文字の二値画像を文字認識処理する文字認識部と、
再実行した前記第１の二値化処理が失敗した場合に、前記撮像画像を用いて、前記撮像画像に含まれる文字の二値画像を生成するための第２の二値化処理を実行する第２の二値化処理部と、を備え、
前記通信部は、
前記第１の二値化処理又は前記第２の二値化処理が成功した場合に、前記撮像画像に含まれる文字の二値画像に対する前記文字認識部の文字認識処理結果を、前記ユーザ端末に送信する、
文字認識サーバ。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、撮像画像に含まれる文字を検出して認識し、文字の二値画像を出力する文字認識システム、文字認識方法、及び文字認識サーバに関する。

【背景技術】

【0002】

昨今、仕事や観光等の用途に拘わらずに外国人訪問者の数が増大している傾向が見られ、この傾向に対応するように、あらゆる場面で言語の壁を感じる事なくコミュニケーションを可能とする多言語音声翻訳技術の進歩が期待され、開発が進められている。例えば様々な形式の情報案内板がある駅構内、移動用交通手段（例えばタクシー、バス、電車）内、店舗、オフィス又は病院等の各種施設において、外国人訪問者が気になる情報案内板に含まれる文字の意味を知りたいとする。この場合、外国人訪問者は、例えば自ら所持する端末（例えばスマートフォン）を用いて撮像した情報案内板の撮像画像内に含まれる文字を端末に認識させる事ができれば、その文字認識結果を自身の母国語に翻訳させる事で、意味を把握できる。但し、情報案内板の撮像画像内に含まれる文字の認識処理が可能となる事が条件となる。

【0003】

ここで、デジタルカメラで画像を撮像した場合に、撮影者の意図に沿ったデータが得られているかどうかを判別する技術として、特許文献１が提案されている。特許文献１では、デジタルカメラで画像の撮影後に、そのデジタルカメラの表示手段で画像が表示されるときに、画像内の白飛び又は黒潰れの領域を構成する画素の輝度や色を変えて表示させる事が開示されている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２００３−２５００６７号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

特許文献１によれば、デジタルカメラの撮像画像において輝度が所定の下限値より小さい部分が黒く塗りつぶされ、また、輝度が所定の上限値より大きい部分が白く表示される。従って、撮影者は、黒潰れ箇所や白飛び箇所がある事を簡易に判別でき、撮影者の意図に沿ったデータかどうかを把握できる。しかし、上述した外国人訪問者が情報案内板の文字部分の意味を知りたい場合に、特許文献１の構成では撮像画像内に含まれる文字の認識処理を行う事は考慮されていないため、情報案内板の撮像画像内に含まれる文字部分の意味を理解する事ができないという課題がある。このため、言語の壁を感じさせない多様なコミュニケーションの実現が困難となってしまう。

【0006】

本開示は、上述した従来の事情に鑑みて案出され、撮像画像内に含まれる文字を認識して高精度な文字の二値画像を出力し、文字の意味の理解を通じて多様なコミュニケーションの実現に寄与する文字認識システム、文字認識方法、及び文字認識サーバを提供する事を目的とする。

【課題を解決するための手段】

【0007】

本開示は、ユーザ端末とサーバとが通信可能に接続された文字認識システムであって、前記ユーザ端末は、文字を有する被写体を撮像し、前記被写体の撮像画像を含む認識要求を前記サーバに送信し、前記サーバは、前記ユーザ端末から送信された前記認識要求に従って、前記撮像画像を用いて、前記撮像画像に含まれる文字の二値画像を生成するための第１の二値化処理を実行し、前記第１の二値化処理が成功した場合に、前記撮像画像に含まれる文字の二値画像に対する文字認識処理結果を、前記ユーザ端末に送信し、前記第１の二値化処理が失敗した場合に、前記撮像画像のコントラストを調整し、コントラストを調整した前記撮像画像を用いて前記第１の二値化処理を再実行し、再実行した前記第１の二値化処理が成功した場合に、前記撮像画像に含まれる文字の二値画像に対する文字認識処理結果を、前記ユーザ端末に送信し、再実行した前記第１の二値化処理が失敗した場合に、前記撮像画像を用いて、前記撮像画像に含まれる文字の二値画像を生成するための第２の二値化処理を実行し、前記第２の二値化処理が成功した場合に、前記撮像画像に含まれる文字の二値画像に対する文字認識処理結果を、前記ユーザ端末に送信する、文字認識システムを提供する。

【0008】

また、本開示は、ユーザ端末とサーバとが通信可能に接続された文字認識システムにおける文字認識方法であって、前記ユーザ端末は、文字を有する被写体を撮像し、前記被写体の撮像画像を含む認識要求を前記サーバに送信し、前記サーバは、前記ユーザ端末から送信された前記認識要求に従って、前記撮像画像を用いて、前記撮像画像に含まれる文字の二値画像を生成するための第１の二値化処理を実行し、前記第１の二値化処理が成功した場合に、前記撮像画像に含まれる文字の二値画像に対する文字認識処理結果を、前記ユーザ端末に送信し、前記第１の二値化処理が失敗した場合に、前記撮像画像のコントラストを調整し、コントラストを調整した前記撮像画像を用いて前記第１の二値化処理を再実行し、再実行した前記第１の二値化処理が成功した場合に、前記撮像画像に含まれる文字の二値画像に対する文字認識処理結果を、前記ユーザ端末に送信し、再実行した前記第１の二値化処理が失敗した場合に、前記撮像画像を用いて、前記撮像画像に含まれる文字の二値画像を生成するための第２の二値化処理を実行し、前記第２の二値化処理が成功した場合に、前記撮像画像に含まれる文字の二値画像に対する文字認識処理結果を、前記ユーザ端末に送信する、文字認識方法を提供する。

【0009】

また、本開示は、ユーザ端末と通信可能に接続された文字認識サーバであって、文字を有する被写体が前記ユーザ端末により撮像された撮像画像を含む認識要求を受信する通信部と、前記認識要求に従って、前記撮像画像を用いて、前記撮像画像に含まれる文字の二値画像を生成するための第１の二値化処理を実行し、前記第１の二値化処理が失敗した場合に、コントラストを調整した前記撮像画像を用いて前記第１の二値化処理を再実行する第１の二値化処理部と、前記第１の二値化処理が成功した場合に、前記撮像画像に含まれる文字の二値画像を文字認識処理する文字認識部と、再実行した前記第１の二値化処理が失敗した場合に、前記撮像画像を用いて、前記撮像画像に含まれる文字の二値画像を生成するための第２の二値化処理を実行する第２の二値化処理部と、を備え、前記通信部は、前記第１の二値化処理又は前記第２の二値化処理が成功した場合に、前記撮像画像に含まれる文字の二値画像に対する前記文字認識部の文字認識処理結果を、前記ユーザ端末に送信する、文字認識サーバを提供する。

【発明の効果】

【0010】

本開示によれば、撮像画像内に含まれる文字を認識して高精度な文字の二値画像を出力でき、文字の意味の理解を通じて多様なコミュニケーションの実現に寄与できる。

【図面の簡単な説明】

【0011】

【図1】実施の形態１の文字認識システムを構成するスマートフォン、文字認識サーバ、翻訳サーバの内部構成の一例を詳細に示すブロック図

【図2】実施の形態１の文字認識サーバの二値化処理部の内部構成の一例を詳細に示すブロック図

【図3】局所安定領域に基づく二値画像生成処理の説明図

【図4】バイラテラルフィルタ処理の説明図

【図5】ブラックハット変換処理の説明図

【図6】撮像画像を構成するブロックにおける閾値の説明図

【図7】ブロックを構成するそれぞれの画素における閾値の説明図

【図8】実施の形態１の文字認識サーバにおける二値化処理の全体的な動作手順の一例を詳細に示すフローチャート

【図9】図８に示す輝度差補正二値化方法による二値画像生成処理の動作手順の一例を詳細に示すフローチャート

【図10】実施の形態１のスマートフォンにおける文字認識結果並びに翻訳結果のＵＩ画面の一例を示す図

【図11】実施の形態２の文字認識システムを構成するスマートフォン、文字認識サーバ、翻訳サーバの内部構成の一例を詳細に示すブロック図

【図12】実施の形態２の文字認識サーバにおける二値化処理の動作手順の一例を詳細に示すフローチャート

【図13A】二値画像を入力画像に重畳表示するＵＩ画面の一例を示す図

【図13B】二値化方法選択ボタンを表示するＵＩ画面の一例を示す図

【発明を実施するための形態】

【0012】

以下、適宜図面を参照しながら、本発明に係る文字認識システム、文字認識方法、文字認識サーバ及び文字認識端末を具体的に開示した各実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。

【0013】

（実施の形態１）
実施の形態１の文字認識システムでは、文字認識サーバは、ユーザが使用するスマートフォン１０により撮像された撮像画像に含まれる文字の認識処理を行うために必要となる二値画像を生成するため、予め規定の実行順序に従った二値画像生成処理（図８参照）を実行する。また、以下の説明において、二値画像生成処理を「二値化処理」と略記する場合もある。

【0014】

図１は、実施の形態１の文字認識システム１０００を構成するスマートフォン１０、文字認識サーバ２０、翻訳サーバ３０の内部構成の一例を詳細に示すブロック図である。

【0015】

ユーザ端末の一例としてのスマートフォン１０は、ユーザ（つまり、実施の形態１の文字認識システム１０００の利用者であって、例えば外国人訪問者）により所持され、ネットワークＮＷを介して、文字認識サーバ２０や翻訳サーバ３０との間で通信可能に接続される。スマートフォン１０は、例えばユーザの操作に応じて、文字を有する被写体（例えば背景画像に対して文字が重畳された内容を映し出す情報案内板）を撮像し、被写体の撮像画像を含む認識要求（つまり、文字認識要求）を文字認識サーバ２０に送信する。また、スマートフォン１０は、例えばユーザの操作に応じて、文字認識処理結果（後述参照）を含む翻訳要求（つまり、文字認識処理結果である文字の翻訳要求）を翻訳サーバ３０に送信する。

【0016】

なお、以下の説明では、ユーザ端末の一例としてスマートフォン１０を例示しているが、ユーザ端末はスマートフォン１０に限定されず、携帯可能であってカメラ機能及びデータ通信機能を備える通信機器であればよい。例えば、ユーザ端末は、携帯電話機、タブレット端末、ＰＤＡ（Personal Digital Assistant）、携帯可能なノート型ＰＣ（Personal Computer）でも構わない。

【0017】

ネットワークＮＷは、例えば無線ＬＡＮ（Local Area Network）を用いて構成されるネットワークであり、スマートフォン１０と文字認識サーバ２０との間、並びにスマートフォン１０と翻訳サーバ３０との間の無線通信が可能であれば、その無線通信方式は問わない。また、ネットワークＮＷは、有線を用いて構成されるネットワークでもよく、例えばＬＡＮ（Local Area Network）通信ネットワークであってもよい。

【0018】

文字認識サーバ２０は、スマートフォン１０から送信された認識要求に従って、その認識要求に含まれる撮像画像を用いて、撮像画像に含まれる文字の二値画像を生成するための二値化処理（後述参照）を実行する。文字認識サーバ２０は、二値化処理が成功した場合に、二値化処理により得た文字の二値画像を文字認識処理し、その文字認識処理結果をスマートフォン１０に送信する。

【0019】

翻訳サーバ３０は、翻訳用辞書の一例としての辞書ＤＢ３４を有し、スマートフォン１０から送信された翻訳要求に従って、辞書ＤＢ３４を用いて、その翻訳要求に含まれる文字認識処理結果（つまり、文字）を翻訳処理し、その翻訳処理結果をスマートフォン１０に送信する。

【0020】

次に、それぞれの内部構成について詳細に説明する。

【0021】

スマートフォン１０は、撮像部１１と、プロセッサ１２と、通信Ｉ／Ｆ１３と、メモリ１４と、操作部１５と、ディスプレイ１６とを含む構成である。

【0022】

撮像部１１は、例えばレンズとイメージセンサと信号処理部とを用いて構成される。レンズは、スマートフォン１０から入射した光をイメージセンサにおいて撮像可能に結像させる。イメージセンサは、例えばＣＣＤ（Charge Coupled Device）又はＣＭＯＳ（Complementary Metal Oxide Semiconductor）を用いて構成される。イメージセンサは、レンズを介して結像された光を光電変換することにより撮像し、撮像により得られた光学像の電気信号を信号処理部に出力する。信号処理部は、イメージセンサの出力（つまり、光学像の電気信号）を用いて既存の画像処理を施すことにより、所定の形式（例えばH.264）を満たす映像を構成するＲＧＢ画像又はＹＵＶ画像を生成する。撮像部１１は、上述したレンズ、イメージセンサ及び信号処理部を用いて、ユーザが注目した被写体を撮影（撮像）してその撮像により得られた撮像画像をプロセッサ１２に出力する。

【0023】

プロセッサ１２は、例えばＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）又はＤＳＰ（Digital Signal Processor）を用いて構成される。プロセッサ１２は、スマートフォン１０の各部の動作を統括して制御するための信号処理、他の各部との間のデータの入出力処理、データの演算処理及びデータの記憶処理を行う。プロセッサ１２は、例えば撮像部１１により撮像された被写体の撮像画像を含むＵＩ（User Interface）画面をディスプレイ１６に表示する（図１０参照）。図１０に示すＵＩ画面の詳細については後述する。

【0024】

通信部の一例としての通信Ｉ／Ｆ１３は、文字認識サーバ２０又は翻訳サーバ３０との間で、例えば所定の無線通信方式（無線ＬＡＮ、例えばＷｉｆｉ（登録商標））を用いた情報やデータの送受信を行う。また、通信Ｉ／Ｆ１３は、文字認識サーバ２０又は翻訳サーバ３０との間で、例えば所定の有線通信方式（例えば有線ＬＡＮ通信）を用いた情報やデータの送受信を行ってもよい。

【0025】

メモリ１４は、プロセッサ１２の動作（処理）時のワークメモリとして動作するＲＡＭ（Random Access Memory）と、プロセッサ１２を動作させるためのプログラム及びデータ（例えば各種のアプリケーション）を記憶するＲＯＭ（Read Only Memory）とを含む。また、メモリ１４は、スマートフォン１０の電源がオフされた場合でも、例えばプロセッサ１２により生成されたデータを記憶、保持するための半導体メモリ（例えばフラッシュメモリ）を含む。

【0026】

操作部１５は、ディスプレイ１６に表示された各種の画面（例えば図１０に示すＵＩ画面）上に対するユーザの操作（例えばタッチ、タップ）を受け付ける。操作部１５は、ユーザの操作に応じて、例えばＵＩ画面に表示されている撮像画像に含まれる文字の認識処理の実行指示、又はその文字の文字認識処理結果（テキスト）の翻訳処理の実行指示を検知してプロセッサ１２に出力する。

【0027】

表示部の一例としてのディスプレイ１６は、例えばＬＣＤ（Liquid Crystal Display）又は有機ＥＬ（Electroluminescence）を用いて構成され、ユーザの操作に応じて、スマートフォン１０において実行可能にインストールされている各種のアプリケーションの画面（例えば図１０に示すＵＩ画面）を表示する。なお、スマートフォン１０において、操作部１５及びディスプレイ１６においてタッチパネルＴＰが構成されてよい。

【0028】

文字認識サーバ２０は、プロセッサ２１と、通信Ｉ／Ｆ２２と、メモリ２３とを含む構成である。

【0029】

プロセッサ２１は、例えばＣＰＵ、ＭＰＵ又はＤＳＰを用いて構成される。プロセッサ２１は、文字認識サーバ２０の各部の動作を統括して制御するための信号処理、他の各部との間のデータの入出力処理、データの演算処理及びデータの記憶処理を行う。プロセッサ２１は、二値化処理部２１１と文字認識処理部２１２とを少なくとも有する。二値化処理部２１１の詳細については図２を参照して後述する。

【0030】

二値化処理部２１１は、スマートフォン１０から送信された認識要求に従って、その認識要求に含まれる撮像画像のデータを用いて、撮像画像のデータに含まれる文字の部分を有する二値画像（つまり、白黒画像）を生成するための二値化処理（後述参照）を実行する。二値化処理部２１１は、二値化処理により得た二値画像のデータを文字認識処理部２１２に渡す。

【0031】

文字認識部の一例としての文字認識処理部２１２は、二値化処理部２１１により生成された二値画像のデータ（つまり、イメージ形式のデータ）とメモリ２３に保持される文字認識用辞書（不図示）とを用いて、その二値画像に含まれる文字の部分を切り出して文字認識処理する。文字認識処理部２１２の処理方法は公知技術であり、その処理方法は特に限定されず、詳細な説明は省略する。通信Ｉ／Ｆ２２は、文字認識処理部２１２における文字認識処理結果（つまり、テキスト形式のデータ）を取得してスマートフォン１０に送信する。

【0032】

通信部の一例としての通信Ｉ／Ｆ２２は、スマートフォン１０との間で、例えば所定の無線通信方式（無線ＬＡＮ、例えばＷｉｆｉ（登録商標））を用いた情報やデータの送受信を行う。また、通信Ｉ／Ｆ２２は、スマートフォン１０との間で、例えば所定の有線通信方式（例えば有線ＬＡＮ通信）を用いた情報やデータの送受信を行ってもよい。

【0033】

メモリ２３は、プロセッサ２１の動作（処理）時のワークメモリとして動作するＲＡＭと、プロセッサ２１を動作させるためのプログラム及びデータ（例えば各種のアプリケーション）を記憶するＲＯＭとを含む。また、メモリ２３は、文字認識サーバ２０の電源がオフされた場合でも、例えばプロセッサ２１により生成されたデータを記憶、保持するための半導体メモリ（例えばフラッシュメモリ）を含む。また、メモリ２３は、文字認識処理部２１２における文字認識処理の際に使用される文字認識用辞書（不図示）を保持する。

【0034】

翻訳サーバ３０は、プロセッサ３１と、通信Ｉ／Ｆ３２と、メモリ３３と、辞書ＤＢ（Database）３４を含む構成である。

【0035】

プロセッサ３１は、例えばＣＰＵ、ＭＰＵ又はＤＳＰを用いて構成される。プロセッサ３１は、翻訳サーバ３０の各部の動作を統括して制御するための信号処理、他の各部との間のデータの入出力処理、データの演算処理及びデータの記憶処理を行う。プロセッサ３１は、翻訳処理部３１１を少なくとも有する。

【0036】

翻訳処理部３１１は、スマートフォン１０から送信された翻訳要求に従って、その翻訳要求に含まれる文字認識処理結果（つまり、テキスト形式のデータ）と辞書ＤＢ３４とを用いて、文字認識処理結果の翻訳処理を実行する。例えばどの言語に翻訳するかという情報が翻訳要求に含まれている場合、翻訳処理部３１１は、その情報に基づいて、文字認識処理結果を該当する言語（例えば英語、ドイツ語、フランス語など）に翻訳処理する。上述したどの言語に翻訳するかという情報は、例えばスマートフォン１０を使用するユーザの母国語に対応して設定されることが好ましく、スマートフォン１０は、自端末の使用言語として設定された言語の情報を、どの言語に翻訳するうかという情報として翻訳要求に含めて生成する。

【0037】

通信部の一例としての通信Ｉ／Ｆ３２は、スマートフォン１０との間で、例えば所定の無線通信方式（無線ＬＡＮ、例えばＷｉｆｉ（登録商標））を用いた情報やデータの送受信を行う。また、通信Ｉ／Ｆ３２は、スマートフォン１０との間で、例えば所定の有線通信方式（例えば有線ＬＡＮ通信）を用いた情報やデータの送受信を行ってもよい。

【0038】

メモリ３３は、プロセッサ３１の動作（処理）時のワークメモリとして動作するＲＡＭと、プロセッサ３１を動作させるためのプログラム及びデータ（例えば各種のアプリケーション）を記憶するＲＯＭとを含む。また、メモリ３３は、翻訳サーバ３０の電源がオフされた場合でも、例えばプロセッサ３１により生成されたデータを記憶、保持するための半導体メモリ（例えばフラッシュメモリ）を含む。

【0039】

翻訳用辞書の一例としての辞書ＤＢ３４は、翻訳処理部３１１における翻訳処理の際に参照される翻訳用辞書データベースである。

【0040】

図２は、実施の形態１の文字認識サーバ２０の二値化処理部２１１の内部構成の一例を詳細に示すブロック図である。

【0041】

二値化処理部２１１は、通信Ｉ／Ｆ２２から渡された撮像画像のデータを用いて、撮像画像のデータに含まれる文字の部分を有する二値画像（つまり、白黒画像）を生成するための二値化処理を実行する。二値化処理部２１１は、二値化制御部２１１１と、ＭＳＥＲ二値化処理部２１１２と、コントラスト調整部２１１３と、バイラテラルフィルタ部２１１４と、ブラックハット変換処理部２１１５、閾値決定部２１１６とを含む構成である。

【0042】

二値化制御部２１１１は、二値化処理部２１１における二値化処理の制御に関する各種の動作を実行する。二値化制御部２１１１は、通信Ｉ／Ｆ２２から渡された撮像画像のデータを、ＭＳＥＲ二値化処理部２１１２、コントラスト調整部２１１３、閾値決定部２１１６、及びバイラテラルフィルタ部２１１５にそれぞれ渡す。

【0043】

第１の二値化処理部の一例としてのＭＳＥＲ二値化処理部２１１２は、スマートフォン１０により撮像された撮像画像に含まれる文字の二値画像を生成するための第１の二値化処理の一例として、局所安定領域（ＭＳＥＲ：Maximally Stable Extremal region）に基づく二値画像生成の処理を実行する。この二値画像生成の処理について、図３を参照して説明する。

【0044】

図３は、局所安定領域に基づく二値画像生成処理の説明図である。

【0045】

図３の紙面中央第１段には、例えばグレースケール形式の撮像画像ＩＭＧ１が示されている。撮像画像の背景領域（つまり、背景画像の領域）では画素値（例えば輝度値。以下同様。）がまばらになり、撮像画像に含まれる文字領域（つまり、文字部分の領域）では画素値がほぼ等しくなるという性質がある。ＭＳＥＲ二値化処理部２１１２は、この性質を利用し、撮像画像ＩＭＧ１を構成するラインＬｎ１を矢印ＹＪ１の方向にシフトさせながら、それぞれのラインＬｎ１毎に、閾値（つまり、白又は黒のいずれと決定するかを定義付けるための閾値。以下同様。）を例えば０〜２５５まで上げた時の画素値（輝度値）の分布に対応した二値画像を生成する。二値画像では、閾値以下だと黒と表され、閾値より大きいと白と表される。

【0046】

つまり、上述した性質を利用すると、ある範囲で閾値を変化させたとき、撮像画像内に含まれる文字領域の面積はほぼ変化なく（言い換えると、文字領域の面積変化量は小さく）、一方、背景領域の面積は変化が大きい（言い換えると、背景領域の面積変化量は大きい）。そこで、ＭＳＥＲ二値化処理部２１１２は、閾値を±Δ（例えば図３の分布Ｃｖ１の窪み部分の深さの半分程度の値）の範囲にシフトさせた上で生成した二値画像の中で、連結成分（つまり、黒部分である文字部分）の面積変化量が既定値以下である連結部分を文字成分として抽出する事で、二値画像を生成する。

【0047】

図３の紙面左第２段には、閾値Ｔｈ１（つまり８０）とした場合の、撮像画像ＩＭＧ１のラインＬｎ１における画素値（輝度値）の分布Ｃｖ１が示されている。図３の紙面左第３段には、閾値Ｔｈ１（つまり８０）とした場合の、ＭＳＥＲ二値化処理部２１１２により生成された二値画像ＩＭＧａ１が示されている。

【0048】

図３の紙面中央第２段には、閾値Ｔｈ２（つまり１１０）とした場合の、撮像画像ＩＭＧ１のラインＬｎ１における画素値（輝度値）の分布Ｃｖ２が示されている。図３の紙面中央第３段には、閾値Ｔｈ２（つまり１１０）とした場合の、ＭＳＥＲ二値化処理部２１１２により生成された二値画像ＩＭＧａ２が示されている。閾値が８０より大きい１１０の場合には、撮像画像ＩＭＧ１内の背景部分が黒画素（つまり、閾値未満の画素）となり、細かいノイズが発生している。また、撮像画像ＩＭＧ１の文字領域「い」の中で、文字領域の輝度値はほぼ同じであるため、閾値が例えば８０から１１０に多少変わってもほぼ同じ形状が得られ、文字領域の面積の変化量が小さい（具体的には、上述した既定値より小さい）。

【0049】

図３の紙面右第２段には、閾値Ｔｈ３（つまり１４０）とした場合の、撮像画像ＩＭＧ１のラインＬｎ１における画素値（輝度値）の分布Ｃｖ３が示されている。図３の紙面右第３段には、閾値Ｔｈ３（つまり１４０）とした場合の、ＭＳＥＲ二値化処理部２１１２により生成された二値画像ＩＭＧａ３が示されている。閾値が１１０より大きい１４０の場合には、粗いノイズが増加し、撮像画像ＩＭＧ１内の黒画素（つまり、閾値未満の画素）が更に増えている。また、撮像画像ＩＭＧ１の文字領域「い」の中で、背景領域の輝度値はまばらであるため、閾値が例えば１１０から１４０に変わると、連結部分が急激に拡大し、文字領域の面積の変化量が大きい（具体的には、上述した既定値より大きい）。

【0050】

コントラスト調整部２１１３は、二値化制御部２１１１から渡された撮像画像のデータを用いて、その撮像画像におけるコントラストを増加するように調整し、コントラスト調整済みの撮像画像のデータを、二値化制御部２１１１を介してＭＳＥＲ二値化処理部２１１２に渡す。

【0051】

第２の二値化処理部の一例としてのバイラテラルフィルタ部２１１４は、スマートフォン１０により撮像された撮像画像に含まれる文字の二値画像を生成するための第２の二値化処理の一例として、予め設定された既定値としてのパラメータ（具体的には、カーネルサイズｋ、距離σ、色σ）を用いて、バイラテラルフィルタ処理を施す。具体的には、バイラテラルフィルタ部２１１４は、上述したパラメータを用いて、撮像画像内のある注目画素ｆ（ｐ）を中心としたカーネルサイズｋ×ｋの部分領域Ｒ（ｐ）に応じて、部分領域Ｒ（ｐ）内の参照画素ｆ（ｑ）をシフトさせながら、参照画素ｆ（ｑ）と注目画素ｆ（ｐ）との距離及び色差に応じた画素値ｇ（ｐ）を算出する。バイラテラルフィルタ部２１１４は、算出により得た画素値ｇ（ｐ）を有する撮像画像のデータを、二値化制御部２１１１を介してブラックハット変換処理部２１１５に渡す。ｐは撮像画像上の一点を指す２次元座標ベクトルを指す。

【0052】

具体的には、バイラテラルフィルタ部２１１４は、部分領域Ｒ（ｐ）内の各画素（つまり、参照画素）の画素値ｆ（ｑ）に、「空間的距離についての重み係数ｗ_ｓ」と「色差についての重み係数ｗ_ｃ」を積算し、その積算結果を部分領域について総和を算出する（数式（１），数式（２）参照）。

【0053】

数式（１），数式（２）において、ｗ_ｓは、分散（距離σ）^２となる２次元ガウス分布に応じた係数（つまり、距離σに応じたバイラテラルフィルタ部２１１４による画素毎の算出値）であり、注目画素から参照画素までの距離が遠い程、小さくなる。ｗ_ｃは、分散（色σ）^２となる１次元ガウス分布に応じた係数（つまり、色σに応じたバイラテラルフィルタ部２１１４による算出値）であり、注目画素と参照画素との色差が大きい程、小さくなる。これにより、バイラテラルフィルタ部２１１４は、撮像画像の部分領域Ｒ（ｐ）内の注目画素から距離が遠い又は色差が大きい画素との画素値の差を上げ（つまり、目立たせた）画像を生成でき、更に、距離が近い又は色差が小さい画素との画素値の差を小さくした（つまり、ぼかした）画像を生成できる。このバイラテラルフィルタ処理について、図４を参照して説明する。

【0054】

【数1】

【0055】

【数2】

【0056】

図４は、バイラテラルフィルタ処理の説明図である。

【0057】

図４の紙面左側には、撮像画像ＩＭＧ１が示され、更に、撮像画像ＩＭＧ１内に部分領域Ｒ（ｐ）とその部分領域Ｒ（ｐ）の注目画素ｆ（ｐ）とが示されている。図４の説明では、バイラテラルフィルタ部２１１４のパラメータとして、例えばカーネルサイズｋ＝５、距離σ＝１、色σ＝１である。従って、図４の部分領域Ｒ（ｐ）は、カーネルサイズ５×５の画素を有し、注目画素ｆ（ｐ）を５×５の画素の中心画素としている。

【0058】

例えば図４の紙面中央の第１段に示すように、参照画素ｆ（ｑ）が注目画素ｆ（ｐ）から最も離れており、かつ、注目画素ｆ（ｐ）が藍色かつ参照画素ｆ（ｑ）が灰色である場合には、参照画素ｆ（ｑ）に対応した係数ｗ_ｓ＝０となり、更に、色差（｜ｆ（ｐ）−ｆ（ｑ）｜）は大きくなるので係数ｗ_ｃは矢印Ｙ１の示す色差（｜ｆ（ｐ）−ｆ（ｑ）｜）に対応した値（つまり、とても小さい値）となる。

【0059】

例えば図４の紙面中央の第２段に示すように、参照画素ｆ（ｑ）が注目画素ｆ（ｐ）に少し近い位置にあり、かつ、注目画素ｆ（ｐ）が藍色かつ参照画素ｆ（ｑ）が薄い灰色である場合には、参照画素ｆ（ｑ）に対応した係数ｗ_ｓ＝０．０１３となり、更に、色差（｜ｆ（ｐ）−ｆ（ｑ）｜）は少し大きくなるので係数ｗ_ｃは矢印Ｙ２の示す色差（｜ｆ（ｐ）−ｆ（ｑ）｜）に対応した値（つまり、少し小さい値）となる。

【0060】

例えば図４の紙面中央の第３段に示すように、参照画素ｆ（ｑ）が注目画素ｆ（ｐ）に更に近い位置にあり、かつ、注目画素ｆ（ｐ）が藍色かつ参照画素ｆ（ｑ）が藍色である場合には、参照画素ｆ（ｑ）に対応した係数ｗ_ｓ＝０．０２２となり、更に、色差（｜ｆ（ｐ）−ｆ（ｑ）｜）はほぼ無いので係数ｗ_ｃは矢印Ｙ３の示す色差（｜ｆ（ｐ）−ｆ（ｑ）｜）に対応した値（つまり、とても大きい値）となる。

【0061】

第２の二値化処理部の一例としてのブラックハット変換処理部２１１５は、スマートフォン１０により撮像された撮像画像に含まれる文字の二値画像を生成するための第２の二値化処理の一例として、バイラテラルフィルタ部２１１４により生成された撮像画像（つまり、バイラテラルフィルタ処理された撮像画像）を入力画像として取得する。ブラックハット変換処理部２１１５は、その入力画像のデータを用いて、その入力画像にクロージング処理を施し、かつ、入力画像の各画素値からクロージング処理済みの撮像画像の各画素値を差し引いた画素値からなる画像を生成して出力する。

【0062】

ブラックハット変換処理部２１１５は、クロージング処理として具体的には、入力画像のデータに対してディレーション処理を施し、かつその出力（つまり、ディレーション処理済みの撮像画像のデータ）に対してエロージョン処理を施す。

【0063】

ディレーション処理は、入力画像における注目画素を中心としたカーネルサイズｋを直径とする円領域を構成する各画素の画素値の最大値を用いて注目画素の画素値に割り当てる処理である。ディレーション処理は、入力画像における全ての画素に対して実行される。

【0064】

エロージョン処理は、入力画像における注目画素を中心としたカーネルサイズｋを直径とする円領域を構成する各画素の画素値の最小値を用いて注目画素の画素値に割り当てる処理である。エロージョン処理は、入力画像における全ての画素に対して実行される。このブラックハット変換処理について、図５を参照して説明する。

【0065】

図５は、ブラックハット変換処理の説明図である。

【0066】

図５の紙面左上側には、例えばグレースケール形式の撮像画像ＩＭＧ２が示されている。この撮像画像ＩＭＧ２は、例えばバイラテラルフィルタ部２１１４によりバイラテラルフィルタ処理が施された画像である。ブラックハット変換処理部２１１５は、撮像画像ＩＭＧ２を構成するラインＬｎ１を矢印ＹＪ１の方向にシフトさせながら、カーネルサイズｋの円領域の画素値を用いて、それぞれのラインＬｎ１毎の画素値の分布Ｃｖ１ｆにクロージング処理を施す。

【0067】

つまり、ブラックハット変換処理部２１１５は、分布Ｃｖ１ｆにディレーション処理を施したラインＬｎ１毎の画素値の分布Ｃｖ１ｆｄを生成する。これにより、入力画像ＩＭＧ２のラインＬｎ１における文字領域「い」の部分の画素値の低下部分（窪み部分）は、ディレーション処理によってカーネルサイズｋ（つまり、直径ｋ）の円領域の中の最大画素値に割り当てられ、低下部分がほぼ無くなった形状の分布が得られる。

【0068】

更に、ブラックハット変換処理部２１１５は、同じラインＬｎ１毎の画素値の分布Ｃｖ１ｆｄにエロージョン処理を施したラインＬｎ１毎の画素値の分布Ｃｖ１ｆｄｅを生成する。これにより、入力画像ＩＭＧ２のラインＬｎ１におけるディレーション処理結果に対応する画素値の分布は、エロージョン処理によってカーネルサイズｋ（つまり、直径ｋ）の円領域の中の最小画素値に割り当てられ、ディレーション処理によって画素値の分布全体が多少低下した形状の分布が得られる。

【0069】

更に、ブラックハット変換処理部２１１５は、入力画像の各画素値からクロージング処理済みの撮像画像の各画素値を差し引いた（つまり、差分をとった）各画素値からなる画像を、ブラックハット変換処理済みの撮像画像として生成し、二値化制御部２１１１に渡す。二値化制御部２１１１は、ブラックハット変換処理部２１１５から渡された撮像画像のデータに対し、白黒反転処理した画像（例えば分布Ｃｖ１ｆｒｖ参照）を白黒反転画像として生成し、閾値決定部２１１６に渡す。分布Ｃｖ１ｆｒｖは、撮像画像ＩＭＧ２のラインＬｎ１に対応して生成された出力画像の同じラインＬｎ１の画素値の分布を示す。これにより、ブラックハット変換処理部２１１５は、撮像画像ＩＭＧ２に含まれる文字部分以外の背景領域をクロージング処理結果として生成でき、撮像画像ＩＭＧ２に含まれる文字部分を一層目立たせる画像を生成できる。

【0070】

閾値決定部２１１６は、二値化制御部２１１１から渡された白黒反転画像のデータを入力画像として取得する。閾値決定部２１１６は、その入力画像のデータを用いて、入力画像を例えばＮ×Ｎ（Ｎ：例えば２のべき乗）のブロックに分割し、ブロック単位で、公知技術である判別分析法（いわゆる、大津の手法）により、ブロックにおける閾値（つまり、白又は黒のいずれと決定するかを定義付けるための閾値）を算出する。つまり、閾値決定部２１１６は、入力画像のデータと公知技術である判別分析法（いわゆる、大津の手法）とを用いて、例えばＮ×Ｎ個のブロックにおけるそれぞれの閾値を算出する。なお、公知技術である判別分析法（いわゆる、大津の手法）の内容の説明は省略する。

【0071】

閾値決定部２１１６は、例えばＮ×Ｎのブロック毎に、算出により得たブロックにおける閾値より小さい（つまり、黒クラスの）画素値（輝度値）の平均値ｍ_ｂ、画素の数ω_ｂ、閾値より大きい（つまり、白クラスの）画素値（輝度値）の平均値ｍ_ｗ、画素の数ω_ｗとし、ブロックにおける閾値の分散σ_ｂｗ^２を算出する。つまり、閾値決定部２１１６は、画素値（輝度値）の平均値のバラツキ具合（言い換えると、ブロックにおける閾値の適格性）を見分けるために分散を算出する。

【0072】

図６は、撮像画像を構成するブロックにおける閾値の説明図である。図７は、ブロックを構成するそれぞれの画素における閾値の説明図である。

【0073】

図６及び図７には、それぞれ二値化制御部２１１１から閾値決定部２１１６に渡された入力画像ＩＭＧ３が示され、例えばＮ×Ｎ個のブロックＢＬＫに分割された様子が示されている。閾値決定部２１１６は、算出したブロックＢＬＫ１の分散σ_ｂｗ^２がσ_ε（σ_ε：正の既定値。以下同様。）を超えると判断した場合に、そのブロックＢＫＬ１における閾値は有効である（言い換えると、適格である）とみなし、その閾値を用いると判断する。一方、閾値決定部２１１６は、算出したブロックＢＬＫ２の分散σ_ｂｗ^２がσ_ε以下であると判断した場合に、そのブロックＢＫＬ２における閾値は無効である（言い換えると、適格でない）とみなし、ブロックＢＬＫ２の周囲のブロックにおける有効な閾値の平均値で置き換えて用いると判断する。

【0074】

また、第２の二値化処理部の一例としての閾値決定部２１１６は、スマートフォン１０により撮像された撮像画像に含まれる文字の二値画像を生成するための第２の二値化処理の一例として、全てのブロック（例えばＮ×Ｎ個のブロック）における閾値を算出した後、ブロックを構成する複数のそれぞれの画素（ピクセル）における閾値を算出する。具体的には、閾値決定部２１１６は、図７に示すそれぞれのブロックにおける閾値を、そのブロックの中心画素ＣＰＥにおける閾値として求め、更に、中心画素ＣＰＥではない他の画素における閾値Ｔｈ_{ＢＬＫｔｇ}については、その画素の周囲のブロック（例えば図７に示す４個のブロックＢＬＫ３，ＢＬＫ４，ＢＬＫ５，ＢＬＫ６）におけるそれぞれの閾値Ｔｈ_{ＢＬＫ３ｇｓ}，Ｔｈ_{ＢＬＫ４ｇｓ}，Ｔｈ_{ＢＬＫ５ｇｓ}，Ｔｈ_{ＢＬＫ６ｇｓ}，を用いた線形補間によって算出する。閾値決定部２１１６は、ブロックを構成する複数のそれぞれの画素（ピクセル）毎の閾値の算出結果を二値化制御部２１１１に渡す。

【0075】

これにより、二値化制御部２１１１は、スマートフォン１０により撮像された撮像画像に含まれる文字の二値画像を生成するための第２の二値化処理の一例として、閾値決定部２１１６により算出された、ブロックを構成する複数のそれぞれの画素（ピクセル）における閾値とそれぞれの画素（ピクセル）の画素値（輝度値）とを比較し、画素値が閾値より大きければその画素を白画素として生成し、一方、画素値が閾値より小さければその画素を黒画素として生成する事で、二値画像を生成できる。二値化制御部２１１１は、二値画像を文字認識処理部２１２に渡す。

【0076】

次に、実施の形態１における文字認識サーバ２０における二値化処理の全体的な動作手順について、図８を参照して説明する。

【0077】

図８は、実施の形態１の文字認識サーバ２０における二値化処理の全体的な動作手順の一例を詳細に示すフローチャートである。

【0078】

図８に示すそれぞれの処理は、文字認識サーバ２０のプロセッサ２１により実行される。また、図８の説明の前提として、スマートフォン１０により撮像された被写体の撮像画像を含む認識要求が文字認識サーバ２０に送信されて、文字認識サーバ２０はその認識要求を受信したとする。

【0079】

図８において、プロセッサ２１は、スマートフォン１０から送信された認識要求に従って、その認識要求に含まれる撮像画像のデータを用いて、スマートフォン１０により撮像された撮像画像に含まれる文字の二値画像を生成するための第１の二値化処理の一例として、局所安定領域（ＭＳＥＲ）に基づく二値画像生成の処理（図３参照）を実行する（Ｓ１）。プロセッサ２１は、ステップＳ１の局所安定領域（ＭＳＥＲ）に基づく二値画像生成の処理により生成された二値画像に含まれる白画素数を計数する（Ｓ２）。白画素数が撮像画像全体の画素数のＫ（Ｋ：既定値。以下同様。）％未満であると判断された場合（つまり、ステップＳ１の局所安定領域（ＭＳＥＲ）に基づく二値画像生成処理が成功した場合）には（Ｓ３、ＹＥＳ）、文字認識サーバ２０の処理負荷の増大が十分に抑制されつつ、ステップＳ１の二値画像生成処理結果で十分に文字認識可能であるとして、図８に示す二値化処理は終了する。

【0080】

一方、プロセッサ２１は、白画素数が撮像画像全体の画素数のＫ％以上であると判断した場合（つまり、ステップＳ１の局所安定領域（ＭＳＥＲ）に基づく二値画像生成処理が失敗した場合）には（Ｓ３、ＮＯ）、ステップＳ１により生成した二値画像をメモリ２３から破棄（削除）する（Ｓ４）。プロセッサ２１は、スマートフォン１０から送信された認識要求に含まれる撮像画像（例えばフルカラー形式）のデータのコントラストを増加するように調整する（Ｓ５）。プロセッサ２１は、例えば二値化制御部２１１１において、コントラストの調整済みの撮像画像（例えばフルカラー形式）のデータからグレースケール形式の撮像画像のデータを生成する（Ｓ６）。

【0081】

プロセッサ２１は、ステップＳ６により生成したグレースケール形式の撮像画像のデータを用いて、スマートフォン１０により撮像された撮像画像に含まれる文字の二値画像を生成するための第１の二値化処理の一例として、局所安定領域（ＭＳＥＲ）に基づく二値画像生成の処理を実行する（Ｓ７）。プロセッサ２１は、ステップＳ７の局所安定領域（ＭＳＥＲ）に基づく二値画像生成の処理により生成された二値画像に含まれる白画素数を計数する（Ｓ８）。白画素数が撮像画像全体の画素数のＫ％未満であると判断された場合（つまり、ステップＳ７の局所安定領域（ＭＳＥＲ）に基づく二値画像生成処理が成功した場合）には（Ｓ９、ＹＥＳ）、文字認識サーバ２０の処理負荷の増大が抑制されつつ、ステップＳ７の二値画像生成処理結果で十分に文字認識可能であるとして、図８に示す二値化処理は終了する。

【0082】

一方、プロセッサ２１は、白画素数が撮像画像全体の画素数のＫ％以上であると判断した場合（つまり、ステップＳ７の局所安定領域（ＭＳＥＲ）に基づく二値画像生成処理が失敗した場合）には（Ｓ９、ＮＯ）、ステップＳ７により生成した二値画像をメモリ２３から破棄する（Ｓ１０）。プロセッサ２１は、スマートフォン１０により撮像された撮像画像に含まれる文字の二値画像を生成するための第２の二値化処理の一例として、輝度差補正二値化方法による二値画像生成処理を実行する（Ｓ１１）。これにより、図８に示すプロセッサ２１の処理は終了する。

【0083】

なお、プロセッサ２１は、ステップＳ１１の後、輝度差補正二値化方法による二値画像生成処理が成功した場合に、輝度差補正二値化方法による二値画像生成処理により得た二値画像のデータ（つまり、イメージ形式のデータ）とメモリ２３に保持される文字認識用辞書（不図示）とを用いて、その二値画像に含まれる文字の部分を切り出して文字認識処理する。

【0084】

次に、実施の形態１における文字認識サーバ２０における輝度差補正二値化方法による二値画像生成処理の動作手順について、図９を参照して説明する。

【0085】

図９は、図８に示す輝度差補正二値化方法による二値画像生成処理の動作手順の一例を詳細に示すフローチャートである。

【0086】

図９に示すそれぞれの処理は、スマートフォン１０により撮像された撮像画像に含まれる文字の二値画像を生成するための第２の二値化処理の一例として、文字認識サーバ２０のプロセッサ２１の二値化処理部２１１（図２参照）により実行される。

【0087】

図９において、二値化処理部２１１は、例えばバイラテラルフィルタ部２１１４において、予め設定された既定値としてのパラメータ（具体的には、カーネルサイズｋ、距離σ、色σ）を用いて、バイラテラルフィルタ処理（図４参照）を施す（Ｓ２１）。二値化処理部２１１は、ステップＳ２１のバイラテラルフィルタ処理により得た撮像画像のデータを用いて、グレースケール形式の撮像画像のデータを生成する（Ｓ２２）。ステップＳ２２の処理は、例えば図２に示す二値化制御部２１１１により実行される。

【0088】

二値化処理部２１１は、例えばブラックハット変換処理部２１１５において、ステップＳ２２により生成したグレースケール形式の撮像画像のデータを用いて、クロージング処理（図５参照）を施し、クロージング処理済みの撮像画像を生成する（Ｓ２３）。二値化処理部２１１は、ステップＳ２２により生成したグレースケール形式の撮像画像とステップＳ２３により生成したクロージング処理済みの撮像画像との差分画像をブラックハット変換処理済みの撮像画像として生成する（Ｓ２４）。

【0089】

二値化処理部２１１は、ステップＳ２４により生成した差分画像の各画素の白黒を反転した画像（白黒反転画像）を生成する（Ｓ２５）。

【0090】

二値化処理部２１１は、ステップＳ２５において生成した白黒反転画像のデータを用いて、例えばＮ×Ｎ（Ｎ：例えば２のべき乗）のブロックに分割するとともに、公知技術である判別分析法（いわゆる、大津の手法）により、ブロック領域毎に二値化用の閾値（つまり、白又は黒のいずれと決定するかを定義付けるための閾値）を求めて決定する（Ｓ２６）。二値化処理部２１１は、算出した分散に応じて、ブロックにおける閾値の有効性を判断する。例えば、二値化処理部２１１は、有効な閾値（例えば分散算出値がσ_εを超えた場合の閾値）と判断した場合にはその閾値を用いる。一方、二値化処理部２１１は、無効な閾値（例えば分散算出値がσ_ε以下となった場合の閾値）と判断した場合には、該当するブロックの周囲のブロックにおける有効な閾値の平均値で置き換えて用いる。

【0091】

二値化処理部２１１は、全てのブロックにおける閾値を決定した後、ブロックを構成する複数のそれぞれの画素（ピクセル）における閾値を算出する。具体的には、二値化処理部２１１は、それぞれのブロックにおける閾値を、そのブロックの中心画素における閾値として求め、更に、中心画素ではない他の画素における閾値については、その画素の周囲のブロックにおけるそれぞれの閾値を用いた線形補間によって算出する（Ｓ２７）。二値化制御部２１１１は、閾値決定部２１１６により算出された、ブロックを構成する複数のそれぞれの画素（ピクセル）における閾値とそれぞれの画素（ピクセル）の画素値（輝度値）とを比較し、画素値が閾値より大きければその画素を白画素として生成し、一方、画素値が閾値より小さければその画素を黒画素として生成する事で、二値画像を生成する。

【0092】

これにより、二値化処理部２１１は、輝度差補正二値化方法による二値画像生成処理により、局所安定領域に基づく二値画像生成処理に比べて、撮像画像に含まれる文字を高精度に文字認識可能なかつ信頼性の高い白黒の二値画像を生成できる。

【0093】

図１０は、実施の形態１のスマートフォン１０における文字認識結果並びに翻訳結果のＵＩ画面の一例を示す図である。

【0094】

図１０に示すＵＩ画面は、スマートフォン１０のプロセッサ１２により、ディスプレイ１６上に表示される。具体的には、ＵＩ画面は、「あいうえ」の文字を有する撮像画像ＩＭＧ１０の表示領域ＡＲ１と、撮像画像ＩＭＧ１０に含まれる文字部分の文字認識処理結果（つまり、テキスト形式の文字「あいうえ」のデータ）の表示領域ＡＲ２と、文字認識処理結果に対する翻訳サーバ３０における翻訳処理結果（つまり、例えば英語に翻訳されたテキスト形式の文字「ＡＩＵＥ」のデータ）の表示領域ＡＲ３とを有する。

【0095】

また、図１０に示すＵＩ画面は、撮像画像ＩＭＧ１０に含まれる文字の認識を指示するための第１の指示部の一例としての認識アイコンＢＴ１と、撮像画像ＩＭＧ１０に含まれる文字部分の文字認識処理結果に対応する文字の翻訳を指示するための第２の指示部の一例としての翻訳アイコンＢＴ２とを有する。プロセッサ２１は、認識アイコンＢＴ１がユーザの操作により指定（例えばタッチ、タップ等の選択）されると、撮像画像を含む認識要求を生成して文字認識サーバ２０に送信する。プロセッサ２１は、翻訳アイコンＢＴ２がユーザの操作により指定（例えばタッチ、タップ等の選択）されると、文字認識サーバ２０における文字認識処理結果を含む翻訳要求を生成して翻訳サーバ３０に送信する。

【0096】

以上により、実施の形態１の文字認識システム１０００では、スマートフォン１０は、文字を有する被写体を撮像し、被写体の撮像画像を含む認識要求を文字認識サーバ２０に送信する。文字認識サーバ２０は、スマートフォン１０から送信された認識要求に従って、撮像画像を用いて、撮像画像に含まれる文字の二値画像を生成するための第１の二値化処理（例えば、局所安定領域に基づく二値画像生成処理、図３参照）を実行する。文字認識サーバ２０は、第１の二値化処理（例えば、局所安定領域に基づく二値画像生成処理）が成功した場合に、撮像画像に含まれる文字の二値画像に対する文字認識処理結果を、スマートフォン１０に送信する。文字認識サーバ２０は、第１の二値化処理（例えば、局所安定領域に基づく二値画像生成処理）が失敗した場合に、撮像画像を用いて、撮像画像に含まれる文字の二値画像を生成するための第２の二値化処理（例えば、輝度差補正二値化方法による二値画像生成処理、図９参照）を実行する。文字認識サーバ２０は、第２の二値化処理（例えば、輝度差補正二値化方法による二値画像生成処理）が成功した場合に、撮像画像に含まれる文字の二値画像に対する文字認識処理結果を、スマートフォン１０に送信する。

【0097】

これにより、文字認識サーバ２０は、ユーザ（例えば外国人訪問者）の操作によってスマートフォン１０により撮像された撮像画像内に含まれる文字を認識できて高精度な文字の二値画像を出力できる。従って、文字認識サーバ２０は、撮像画像内に含まれる文字の二値画像をユーザに教示できるので、ユーザに対する文字の意味の理解を通じて多様なコミュニケーションの実現に寄与する事が可能となる。

【0098】

また、スマートフォン１０は、第１の二値化処理（例えば、局所安定領域に基づく二値画像生成処理）又は第２の二値化処理（例えば、輝度差補正二値化方法による二値画像生成処理）が成功した場合に、被写体の撮像画像と文字認識サーバ２０から送信された文字認識処理結果とを対比的にディスプレイ１６に表示する（図１０参照）。これにより、スマートフォン１０は、被写体の撮像画像に含まれる文字とその文字の文字認識処理結果とをユーザに比較させて確認できるので、撮像画像に含まれる文字の的確な理解を促す事が可能となる。

【0099】

また、スマートフォン１０は、被写体の撮像画像に含まれる文字の認識を指示するための第１の指示部（例えば認識アイコンＢＴ１）をディスプレイ１６に表示する。スマートフォン１０は、認識アイコンＢＴ１に対するユーザの操作に応じて、被写体の撮像画像を含む認識要求を文字認識サーバに送信する。これにより、ユーザは、認識アイコンＢＴ１の指示という簡易な操作により、撮像画像に含まれる文字が文字認識サーバ２０によって文字認識処理された結果（つまり、テキスト形式のデータ）を簡単に確認できる。

【0100】

また、文字認識システム１０００は、スマートフォン１０と通信可能に接続され、翻訳用辞書を有する翻訳サーバ３０を更に備える。スマートフォン１０は、文字認識処理結果に対応する文字の翻訳を指示するための第２の指示部（例えば翻訳アイコンＢＴ２）をディスプレイ１６に表示する。スマートフォン１０は、翻訳アイコンＢＴ２に対するユーザの操作に応じて、文字認識処理結果を含む翻訳要求を翻訳サーバ３０に送信する。翻訳サーバ３０は、スマートフォン１０から送信された翻訳要求に従って、辞書ＤＢ３４を用いて文字認識処理結果を翻訳処理し、文字認識処理結果の翻訳処理結果をスマートフォン１０に送信する。スマートフォン１０は、翻訳サーバ３０から送信された翻訳処理結果をディスプレイ１６に表示する。これにより、ユーザ（例えば外国人訪問者）は、翻訳アイコンＢＴ２の指示という簡易な操作により、スマートフォン１０の設定（例えば、自分の母国語の使用設定）に対応した言語に翻訳された文字認識処理結果をディスプレイ１６に表示できるので、ユーザが自ら容易に可能な母国語に翻訳された文字認識処理結果を簡単に確認でき、多様なコミュニケーションを図る事ができる。

【0101】

（実施の形態２）
実施の形態２の文字認識システムでは、文字認識サーバは、実施の形態１の文字認識システムにおける動作（処理）に加え、スマートフォン１０により撮像された撮像画像内に含まれる文字の二値化方法をユーザに選択させて、ユーザにより選択された二値画像生成処理を実行する。文字認識サーバは、二値画像生成処理の実行結果である二値画像をスマートフォン１０に送信してスマートフォン１０に表示させ、ユーザにより文字の二値化方法が再び選択された場合には、その新たに選択された二値画像生成処理を実行する。

【0102】

図１１は、実施の形態２の文字認識システム１０００Ａを構成するスマートフォン１０、文字認識サーバ２０Ａ、翻訳サーバ３０の内部構成の一例を詳細に示すブロック図である。図１に示す実施の形態１の文字認識システム１０００の構成と同一の構成については、同一の符号を付与して説明を簡略化又は省略する。

【0103】

実施の形態２では、スマートフォン１０から送信される認識要求には、スマートフォン１０により撮像された被写体の撮像画像のデータと既定の二値化方法ＩＤ（例えば、後述する二値化方法ＩＤ＝「Ａ」）とが含まれる。また、ユーザの操作によって個別に選択された二値化方法ＩＤが、スマートフォン１０から送信されて文字認識サーバ２０Ａにおいて受信される。

【0104】

文字認識サーバ２０Ａは、実施の形態１における文字認識サーバ２０Ａの動作（処理）に加え、スマートフォン１０から送信された認識要求に従って、その認識要求に含まれる撮像画像及び既定の二値化方法ＩＤを用いて、撮像画像に含まれる文字の二値画像を生成するための二値化処理（後述参照）として、その既定の二値化方法ＩＤにより指定された二値化処理を実行する。文字認識サーバ２０Ａは、二値化処理結果の画像（つまり、二値画像）をスマートフォン１０に送信してスマートフォン１０のディスプレイ１６に表示させる。

【0105】

また、文字認識サーバ２０Ａは、例えば既定の二値化方法ＩＤにより指定された二値化処理の実行結果（つまり、二値画像）がユーザの意図に合わない場合に、ユーザによって他の二値化方法ＩＤが選択された場合には、スマートフォン１０から送信された二値化方法ＩＤ（つまり、ユーザによって選択された他の二値化方法ＩＤ）により指定された二値化処理を実行する。文字認識サーバ２０Ａは、二値化処理結果の画像（つまり、二値画像）をスマートフォン１０に送信してスマートフォン１０のディスプレイ１６に表示させる。文字認識サーバ２０Ａは、ユーザのスマートフォン１０に対する操作（例えばディスプレイ１６に表示された二値画像で了解した旨の操作）があると、スマートフォン１０から送信された二値画像の了解操作に応じて、メモリ２３に保持された二値画像を文字認識処理し、その文字認識処理結果をスマートフォン１０に送信する。

【0106】

文字認識サーバ２０Ａは、プロセッサ２１Ａと、通信Ｉ／Ｆ２２と、メモリ２３とを含む構成である。

【0107】

プロセッサ２１Ａは、二値化処理部２１１と文字認識処理部２１２と二値化処理変更部２１３とを少なくとも有する。

【0108】

二値化処理変更部２１３は、スマートフォン１０から送信された認識要求に含まれる既定の二値化方法ＩＤに基づいて、二値化処理部２１１において実行される二値化処理の方法を指定する。また、二値化処理変更部２１３は、スマートフォン１０から送信された二値化方法ＩＤに基づいて、他の二値化方法に変更して指定する。二値化処理変更部２１３は、二値化方法ＩＤを二値化処理部２１１に渡し、その二値化方法ＩＤにより指定される二値化方法の実行を指示する。二値化処理部２１１は、二値化処理変更部２１３から渡された指示に応じて、その指示に含まれる二値化方法ＩＤにより指定される二値化方法を実行する。

【0109】

二値化方法ＩＤにより指定される二値化方法は、例えば実施の形態１において説明した、「局所安定領域に基づく二値画像生成処理（図３参照）」（例えば図８のステップＳ１参照）と、コントラスト調整後の撮像画像に対する「局所安定領域に基づく二値画像生成処理（図３参照）」（例えば図８のステップＳ７参照）と、「輝度差補正二値化方法による二値画像生成処理（図９参照）」（例えば図８のステップＳ１１参照）である。

【0110】

実施の形態２では、「局所安定領域に基づく二値画像生成処理（図３参照）」（例えば図８のステップＳ１参照）の二値化方法ＩＤは「Ａ」、コントラスト調整後の撮像画像に対する「局所安定領域に基づく二値画像生成処理（図３参照）」（例えば図８のステップＳ７参照）の二値化方法ＩＤは「Ｂ」、「輝度差補正二値化方法による二値画像生成処理（図９参照）」（例えば図８のステップＳ１１参照）の二値化方法ＩＤは「Ｃ」と定義する。

【0111】

次に、実施の形態２における文字認識サーバ２０Ａにおける二値化処理の全体的な動作手順について、図１２を参照して説明する。

【0112】

図１２は、実施の形態２の文字認識サーバ２０Ａにおける二値化処理の動作手順の一例を詳細に示すフローチャートである。

【0113】

図１２に示すそれぞれの処理は、文字認識サーバ２０Ａのプロセッサ２１Ａにより実行される。また、図１２の説明の前提として、スマートフォン１０により撮像された被写体の撮像画像が文字認識サーバ２０Ａに送信されて、文字認識サーバ２０Ａはその撮像画像を受信したとする。

【0114】

図１２において、プロセッサ２１Ａは、メモリ２３内に既に生成した二値画像（例えば、既定の二値化方法ＩＤに対応する二値化処理によって生成された二値画像）が存在しているかどうかを判断する（Ｓ３１）。二値画像が存在していないと判断された場合には（Ｓ３１、ＮＯ）、プロセッサ２１Ａの処理はステップＳ３３に進む。

【0115】

一方、プロセッサ２１Ａは、二値画像が存在していると判断した場合には（Ｓ３１、ＹＥＳ）、新たに二値化処理を行って二値画像を生成するために、メモリ２３に保存されている二値画像を破棄（削除）する（Ｓ３２）。

【0116】

二値画像が存在していないと判断された場合には（Ｓ３１、ＮＯ）、又はステップＳ３２の後、プロセッサ２１Ａは、例えば二値化処理変更部２１３において、スマートフォン１０から送信された二値化方法ＩＤが「Ａ」であるかどうかを判断する（Ｓ３３）。このステップＳ３３は、例えばスマートフォン１０から送信された認識要求に含まれる既定の二値化方法ＩＤが「Ａ」であるかどうかの確認処理として位置付けられてもよい。

【0117】

プロセッサ２１Ａは、スマートフォン１０から送信された二値化方法ＩＤが「Ａ」であると判断した場合には（Ｓ３３、ＹＥＳ）、例えば二値化処理変更部２１３において、二値化方法ＩＤ＝「Ａ」に対応する二値化処理の実行を二値化処理部２１１に指示する。具体的には、プロセッサ２１Ａは、例えば二値化処理部２１１において、スマートフォン１０から送信された撮像画像のデータを用いて、グレースケール形式の撮像画像のデータを生成し（Ｓ３４）、そのグレースケール形式の撮像画像のデータを用いて、局所安定領域（ＭＳＥＲ）に基づく二値画像生成の処理（図３参照）を実行する（Ｓ３５）。プロセッサ２１Ａは、二値化処理により得た二値画像のデータ（つまり、イメージ形式のデータ）とメモリ２３に保持される文字認識用辞書（不図示）とを用いて、その二値画像に含まれる文字の部分を切り出して文字認識処理する。これにより、図１２に示すプロセッサ２１Ａの処理は終了する。

【0118】

一方、プロセッサ２１Ａは、スマートフォン１０から送信された二値化方法ＩＤが「Ａ」でないと判断した場合には（Ｓ３３、ＮＯ）、スマートフォン１０から送信された二値化方法ＩＤが「Ｂ」であるかどうかを判断する（Ｓ３６）。

【0119】

プロセッサ２１Ａは、スマートフォン１０から送信された二値化方法ＩＤが「Ｂ」であると判断した場合には（Ｓ３６、ＹＥＳ）、例えば二値化処理変更部２１３において、二値化方法ＩＤ＝「Ｂ」に対応する二値化処理の実行を二値化処理部２１１に指示する。具体的には、プロセッサ２１Ａは、例えば二値化処理部２１１において、スマートフォン１０から送信された撮像画像のデータのコントラストを増加するように調整する（Ｓ３７）。プロセッサ２１Ａは、例えば二値化処理部２１１において、コントラストの調整済みの撮像画像（例えばフルカラー形式）のデータからグレースケール形式の撮像画像のデータを生成し（Ｓ３８）、そのグレースケール形式の撮像画像のデータを用いて、局所安定領域（ＭＳＥＲ）に基づく二値画像生成の処理（図３参照）を実行する（Ｓ３９）。プロセッサ２１Ａは、二値化処理により得た二値画像のデータ（つまり、イメージ形式のデータ）とメモリ２３に保持される文字認識用辞書（不図示）とを用いて、その二値画像に含まれる文字の部分を切り出して文字認識処理する。これにより、図１２に示すプロセッサ２１Ａの処理は終了する。

【0120】

また、プロセッサ２１Ａは、スマートフォン１０から送信された二値化方法ＩＤが「Ｂ」でないと判断した場合には（Ｓ３６、ＮＯ）、例えば二値化処理変更部２１３において、二値化方法ＩＤ＝「Ｃ」に対応する二値化処理の実行を二値化処理部２１１に指示する。具体的には、プロセッサ２１Ａは、例えば二値化処理部２１１において、スマートフォン１０から送信された撮像画像のデータを用いて、輝度差補正二値化方法による二値画像生成処理（図９参照）を実行する（Ｓ４０）。プロセッサ２１Ａは、二値化処理により得た二値画像のデータ（つまり、イメージ形式のデータ）とメモリ２３に保持される文字認識用辞書（不図示）とを用いて、その二値画像に含まれる文字の部分を切り出して文字認識処理する。これにより、図１２に示すプロセッサ２１Ａの処理は終了する。

【0121】

図１３Ａは、二値画像を入力画像に重畳表示するＵＩ画面の一例を示す図である。図１３Ｂは、二値化方法選択ボタンを表示するＵＩ画面の一例を示す図である。

【0122】

図１３Ａ及び図１３Ｂにおいて、図１０の説明と重複する内容については同一の符号を付与して説明を簡略化又は省略する。

【0123】

図１３Ａに示すＵＩ画面は、スマートフォン１０のプロセッサ１２により、ディスプレイ１６上に表示される。図１３Ａに示すＵＩ画面は、図１０に示すＵＩ画面に加え、二値化オーバーレイ表示アイコンＮＴＶを更に表示する。プロセッサ２１は、二値化オーバーレイ表示アイコンＮＴＶがユーザの操作により指定（例えばタッチ、タップ等の選択）されると、スマートフォン１０により撮像された撮像画像ＩＭＧ１０の表示領域ＡＲ１に、文字認識サーバ２０Ａにより生成された二値画像ＩＭＧ１０ｖを重畳して表示する（図１３Ｂの表示領域ＡＲ１参照）。

【0124】

例えば図１３Ｂでは、二値画像がオーバーレイ表示された結果として、「うえ」の文字部分はユーザが正確に文字を理解できるので二値化処理の精度としては良いが、「あい」の文字部分はユーザが正確に文字を理解できないので二値化処理の精度としては良くない例である。従って、この場合、ユーザによって例えば現在選択されている二値化方法ＩＤ＝「Ａ」は他の二値化方法ＩＤに変更して選択される事が好ましい。

【0125】

図１３Ｂに示すＵＩ画面は、上述したように、例えば二値化オーバーレイ表示アイコンＮＴＶの指定に応じて、スマートフォン１０のプロセッサ１２により、ディスプレイ１６上に表示される。図１３Ｂに示すＵＩ画面は、図１３Ａに示すＵＩ画面に加え、二値化方法ＩＤを示す複数のアイコンＳＬ１，ＳＬ２，ＳＬ３を更に表示する。アイコンＳＬ１は、二値化方法ＩＤ＝「Ａ」に対応して表示される。アイコンＳＬ２は、二値化方法ＩＤ＝「Ｂ」に対応して表示される。アイコンＳＬ３は、二値化方法ＩＤ＝「Ｃ」に対応して表示される。

【0126】

図１３Ｂでは、現在、アイコンＳＬ１が他のアイコンＳＬ２，ＳＬ３と違って白黒反転して表示されているので、二値化方法ＩＤ＝「Ａ」が選択されている事が示されている。プロセッサ２１は、二値化方法ＩＤ＝「Ｂ」に対応するアイコンＳＬ２がユーザの操作により指定（例えばタッチ、タップ等の選択）されると、二値化方法ＩＤ＝「Ｂ」に対応する二値化処理（図１２に示すステップＳ３７〜Ｓ３９参照）を実行する。プロセッサ２１は、二値化方法ＩＤ＝「Ｃ」に対応するアイコンＳＬ３がユーザの操作により指定（例えばタッチ、タップ等の選択）されると、二値化方法ＩＤ＝「Ｃ」に対応する二値化処理（図１２に示すステップＳ４０参照）を実行する。

【0127】

以上により、実施の形態２の文字認識システム１０００Ａでは、文字認識サーバ２０Ａは、実施の形態１の文字認識システム１０００の文字認識サーバ２０における動作（処理）に加え、スマートフォン１０により撮像された撮像画像内に含まれる文字の二値化方法をユーザに選択させる。文字認識サーバ２０Ａは、ユーザにより選択された二値画像生成処理を実行する。文字認識サーバ２０Ａは、二値画像生成処理の実行結果である二値画像をスマートフォン１０に送信してスマートフォン１０に表示させ、ユーザにより文字の二値化方法が再び選択された場合には、その新たに選択された二値画像生成処理を実行する。

【0128】

これにより、ユーザは、自ら選択した二値化方法ＩＤに対応した二値化処理が文字認識サーバ２０Ａにおいて実行されるので、撮像画像の内容に応じて適切な二値化処理を選択して、高精度な文字認識処理結果をスマートフォン１０において簡易に確認できる。

【0129】

また、スマートフォン１０は、いずれかの二値化処理により生成された二値画像を被写体の撮像画像に重畳表示することを指示するための第３の指示部（例えば二値化オーバーレイ表示アイコンＮＴＶ）をディスプレイ１６に表示する。スマートフォン１０は、二値化オーバーレイ表示アイコンＮＴＶに対するユーザの操作に応じて、いずれかの二値化処理により生成された二値画像（具体的には、二値化方法ＩＤ＝「Ａ」，「Ｂ」，「Ｃ」のうちいずれかの二値化方法に対応する二値化処理により生成された二値画像）を被写体の撮像画像に重畳表示してディスプレイ１６に表示する。これにより、ユーザは、撮像画像内に含まれる文字の二値画像として容易に理解できるかどうか（言い換えると、二値画像を生成するための二値化処理を指定する二値化方法ＩＤが適切かどうか）を簡単に確認できる。

【0130】

また、スマートフォン１０は、第１の二値化処理（例えば、局所安定領域に基づく二値画像生成処理、図３参照）の実行を指示する第４の指示部の一例としてのアイコンＳＬ１，ＳＬ２や、第２の二値化処理（例えば、輝度差補正二値化方法による二値画像生成処理）の実行を指示する第５の指示部の一例としてのアイコンＳＬ３をそれぞれディスプレイ１６に表示する。スマートフォン１０は、アイコンＳＬ１，ＳＬ２，ＳＬ３に対するユーザの操作に応じて、その操作に対応する二値化処理の実行要求（例えば二値化方法ＩＤ）を文字認識サーバ２０Ａに送信する。文字認識サーバ２０Ａは、スマートフォン１０から送信された実行要求（例えば二値化方法ＩＤ）に応じて、撮像画像を用いて対応する二値化処理を実行する。これにより、ユーザは、撮像画像内に含まれる文字の二値画像として容易に理解できない（言い換えると、二値画像を生成するための二値化処理を指定する二値化方法ＩＤが適切でない）と判断した場合でも、ＵＩ画面に表示されたアイコンＳＬ１〜ＳＬ３の指定という簡易な操作により、二値画像を生成するための二値化処理のやり方を簡単に変更して文字認識サーバ２０Ａに指示できる。

【0131】

以上、図面を参照しながら各種の実施の形態について説明したが、本発明はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。また、発明の趣旨を逸脱しない範囲において、上述実施の形態における各構成要素を任意に組み合わせてもよい。

【産業上の利用可能性】

【0132】

本開示は、撮像画像内に含まれる文字を認識して高精度な文字の二値画像を出力し、文字の意味の理解を通じて多様なコミュニケーションの実現に寄与する文字認識システム、文字認識方法及び文字認識サーバとして有用である。

【符号の説明】

【0133】

１０スマートフォン（ユーザ端末）
１１撮像部
１２、２１、２１Ａ、３１プロセッサ
１３、２２、３２通信Ｉ／Ｆ
１４、２３、３３メモリ
１５操作部
１６ディスプレイ
２０、２０Ａ文字認識サーバ
３０翻訳サーバ
３４辞書ＤＢ
２１１二値化処理部
２１２文字認識処理部
２１３二値化処理変更部
３１１翻訳処理部
１０００、１０００Ａ文字認識システム
２１１１二値化制御部
２１１２ＭＳＥＲ二値化処理部
２１１３コントラスト調整部
２１１４バイラテラルフィルタ部
２１１５ブラックハット変換処理部
２１１６閾値決定部
ＴＰタッチパネル

【図1】