特許第6868052号(P6868052)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソフトバンクモバイル株式会社の特許一覧

特許6868052画像認識装置、画像認識方法、画像認識プログラム及び画像認識システム
<>
  • 特許6868052-画像認識装置、画像認識方法、画像認識プログラム及び画像認識システム 図000002
  • 特許6868052-画像認識装置、画像認識方法、画像認識プログラム及び画像認識システム 図000003
  • 特許6868052-画像認識装置、画像認識方法、画像認識プログラム及び画像認識システム 図000004
  • 特許6868052-画像認識装置、画像認識方法、画像認識プログラム及び画像認識システム 図000005
  • 特許6868052-画像認識装置、画像認識方法、画像認識プログラム及び画像認識システム 図000006
  • 特許6868052-画像認識装置、画像認識方法、画像認識プログラム及び画像認識システム 図000007
  • 特許6868052-画像認識装置、画像認識方法、画像認識プログラム及び画像認識システム 図000008
  • 特許6868052-画像認識装置、画像認識方法、画像認識プログラム及び画像認識システム 図000009
  • 特許6868052-画像認識装置、画像認識方法、画像認識プログラム及び画像認識システム 図000010
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6868052
(24)【登録日】2021年4月13日
(45)【発行日】2021年5月12日
(54)【発明の名称】画像認識装置、画像認識方法、画像認識プログラム及び画像認識システム
(51)【国際特許分類】
   G06K 9/62 20060101AFI20210426BHJP
   G06K 9/66 20060101ALI20210426BHJP
   G06T 7/00 20170101ALI20210426BHJP
【FI】
   G06K9/62 620B
   G06K9/66
   G06T7/00 350C
【請求項の数】6
【全頁数】13
(21)【出願番号】特願2019-75833(P2019-75833)
(22)【出願日】2019年4月11日
(65)【公開番号】特開2020-173669(P2020-173669A)
(43)【公開日】2020年10月22日
【審査請求日】2019年12月11日
(73)【特許権者】
【識別番号】501440684
【氏名又は名称】ソフトバンク株式会社
(74)【代理人】
【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【弁理士】
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【弁理士】
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【弁理士】
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】劉 牧
(72)【発明者】
【氏名】岡本 康宏
(72)【発明者】
【氏名】金 大柱
(72)【発明者】
【氏名】山田 聡
【審査官】 粕谷 満成
(56)【参考文献】
【文献】 特開平10−154208(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06K 9/62
G06K 9/66
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
文字列が写された画像を取得する取得部と、
前記画像を複数の部分画像に分割する分割部と、
前記複数の部分画像それぞれから特徴量を抽出する第1モデル及び前記特徴量を前記文字列の区切りを表す情報に順次変換する第2モデルを用いて、前記複数の部分画像それぞれについて前記文字列の区切りを表す情報を算出する算出部と、
前記文字列の区切りを表す情報を出力する出力部と、
を備え
前記第1モデルは、前記複数の部分画像それぞれから前記特徴量として特徴マップを算出するCNN(Convolutional Neural Network)であり、
前記第2モデルは、前記特徴マップを前記部分画像が前記文字列の区切りに対応するか否かを表す2値情報に順次変換するRNN(Recurrent Neural Network)である、
像認識装置。
【請求項2】
文字列が写された学習用画像に対して、前記文字列の区切りを表す情報が関連付けられた学習データを記憶する記憶部と、
前記学習データを用いて、前記第1モデル及び前記第2モデルを生成する生成部と、をさらに備える、
請求項1に記載の画像認識装置。
【請求項3】
前記生成部は、CTC(Connectionist Temporal Classification)損失関数を最小化するように、前記第1モデル及び前記第2モデルを生成する、
請求項に記載の画像認識装置。
【請求項4】
画像認識装置に、
文字列が写された画像を取得することと、
前記画像を複数の部分画像に分割することと、
前記複数の部分画像それぞれから特徴量を抽出する第1モデル及び前記特徴量を前記文字列の区切りを表す情報に順次変換する第2モデルを用いて、前記複数の部分画像それぞれについて前記文字列の区切りを表す情報を算出することと、
前記文字列の区切りを表す情報を出力することと、
を実行させるものであり、
前記第1モデルは、前記複数の部分画像それぞれから前記特徴量として特徴マップを算出するCNN(Convolutional Neural Network)であり、
前記第2モデルは、前記特徴マップを前記部分画像が前記文字列の区切りに対応するか否かを表す2値情報に順次変換するRNN(Recurrent Neural Network)である、
画像認識方法。
【請求項5】
画像認識装置に、
文字列が写された画像を取得することと、
前記画像を複数の部分画像に分割することと、
前記複数の部分画像それぞれから特徴量を抽出する第1モデル及び前記特徴量を前記文字列の区切りを表す情報に順次変換する第2モデルを用いて、前記複数の部分画像それぞれについて前記文字列の区切りを表す情報を算出することと、
前記文字列の区切りを表す情報を出力することと、
を実行させるものであり、
前記第1モデルは、前記複数の部分画像それぞれから前記特徴量として特徴マップを算出するCNN(Convolutional Neural Network)であり、
前記第2モデルは、前記特徴マップを前記部分画像が前記文字列の区切りに対応するか否かを表す2値情報に順次変換するRNN(Recurrent Neural Network)である、
画像認識プログラム。
【請求項6】
画像認識装置と、ユーザ端末とを備える画像認識システムであって、
前記画像認識装置は、
前記ユーザ端末から、文字列が写された画像を取得する取得部と、
前記画像を複数の部分画像に分割する分割部と、
前記複数の部分画像それぞれから特徴量を抽出する第1モデル及び前記特徴量を前記文字列の区切りを表す情報に順次変換する第2モデルを用いて、前記複数の部分画像それぞれについて前記文字列の区切りを表す情報を算出する算出部と、
前記文字列の区切りを表す情報を前記ユーザ端末に出力する出力部と、
を有
前記第1モデルは、前記複数の部分画像それぞれから前記特徴量として特徴マップを算出するCNN(Convolutional Neural Network)であり、
前記第2モデルは、前記特徴マップを前記部分画像が前記文字列の区切りに対応するか否かを表す2値情報に順次変換するRNN(Recurrent Neural Network)である、
画像認識システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像認識装置、画像認識方法、画像認識プログラム及び画像認識システムに関する。
【背景技術】
【0002】
従来、OCR(Optical Character Recognition)技術を用いて、画像に写された文字や数字を認識する画像認識装置が用いられている。
【0003】
例えば、下記特許文献1には、対象画像から文字情報を抽出し、文字情報の対象画像中の位置に基づいて、その文字情報と対をなす文字情報とを紐づけする画像分析装置が記載されている。
【0004】
また、下記非特許文献1には、日本語の手書き文字について、複数の手法を用いて文字列のセグメンテーションを行った研究が記載されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2018−92459号公報
【非特許文献】
【0006】
【非特許文献1】Kha Cong Nguyen and Nakagawa Masaki, "Text-Line and Character Segmentation for Off-line Recognition of Handwritten Japanese Text", 信学技報, vol. 115, no. 517, PRMU2015-173, pp. 53-58, 2016年3月
【発明の概要】
【発明が解決しようとする課題】
【0007】
例えば特許文献1に記載の技術では、画像のうち罫線で囲まれた領域を検出し、当該領域に記載された文字を認識している。また、非特許文献1に記載の技術では、手書きの漢字、平仮名及びカタカナについてセグメンテーションが試みられている。しかしながら、例えば「川」や「ル」のように2以上に分離可能な要素で構成される文字の場合、適切にセグメンテーションすることが困難だった。
【0008】
そこで、本発明は、2以上に分離可能な要素で構成される文字を含む場合であっても、文字列のセグメンテーションを適切に行うことができる画像認識装置、画像認識方法、画像認識プログラム及び画像認識システムを提供する。
【課題を解決するための手段】
【0009】
本発明の一態様に係る画像認識装置は、文字列が写された画像を取得する取得部と、画像を複数の部分画像に分割する分割部と、複数の部分画像それぞれから特徴量を抽出する第1モデル及び特徴量を文字列の区切りを表す情報に順次変換する第2モデルを用いて、複数の部分画像それぞれについて文字列の区切りを表す情報を算出する算出部と、文字列の区切りを表す情報を出力する出力部と、を備え、前記第1モデルは、前記複数の部分画像それぞれから前記特徴量として特徴マップを算出するCNN(Convolutional Neural Network)であり、前記第2モデルは、前記特徴マップを前記部分画像が前記文字列の区切りに対応するか否かを表す2値情報に順次変換するRNN(Recurrent Neural Network)である。
【0010】
この態様によれば、画像を複数の部分画像に分割し、第1モデルによって複数の部分画像の特徴を捉え、第2モデルによって特徴量を文字列の区切りを表す情報に変換することで、画像に写された文字列が2以上に分離可能な要素で構成される場合であっても、文字列のセグメンテーションを適切に行うことができる。
また、この態様によれば、2値情報に従って、画像を文字列の区切りに対応する領域と、文字列の区切りに対応しない領域とに分けることができ、文字列のセグメンテーションを適切に行うことができる。
さらに、この態様によれば、CNNによって算出される複数の部分画像の特徴マップによって、複数の部分画像の特徴を適切に捉え、RNNによって特徴マップの前後関係を考慮しつつ、特徴マップを文字列の区切りを表す情報に変換することができ、文字列のセグメンテーションをより適切に行うことができる。
【0015】
上記態様において、文字列が写された学習用画像に対して、文字列の区切りを表す情報が関連付けられた学習データを記憶する記憶部と、学習データを用いて、第1モデル及び第2モデルを生成する生成部と、をさらに備えてもよい。
【0016】
この態様によれば、学習用画像に対して、文字列の区切りを表す情報が関連付けられた学習データが与えられた場合に、画像に写された文字列の区切りを表す情報を適切に算出することができる第1モデル及び第2モデルを生成することができる。
【0017】
上記態様において、生成部は、CTC(Connectionist Temporal Classification)損失関数を最小化するように、第1モデル及び第2モデルを生成してもよい。
【0018】
この態様によれば、任意の文字間隔と大きさで記載された文字列について、文字列のセグメンテーションを適切に行う第1モデル及び第2モデルを生成することができる。
【0019】
本発明の他の態様に係る画像認識方法は、画像認識装置に、文字列が写された画像を取得することと、画像を複数の部分画像に分割することと、複数の部分画像それぞれから特徴量を抽出する第1モデル及び特徴量を文字列の区切りを表す情報に順次変換する第2モデルを用いて、複数の部分画像それぞれについて文字列の区切りを表す情報を算出することと、文字列の区切りを表す情報を出力することと、を実行させるものであり、前記第1モデルは、前記複数の部分画像それぞれから前記特徴量として特徴マップを算出するCNN(Convolutional Neural Network)であり、前記第2モデルは、前記特徴マップを前記部分画像が前記文字列の区切りに対応するか否かを表す2値情報に順次変換するRNN(Recurrent Neural Network)である
【0020】
この態様によれば、画像を複数の部分画像に分割し、第1モデルによって複数の部分画像の特徴を捉え、第2モデルによって特徴量を文字列の区切りを表す情報に変換することで、画像に写された文字列が2以上に分離可能な要素で構成される場合であっても、文字列のセグメンテーションを適切に行うことができる。
また、この態様によれば、2値情報に従って、画像を文字列の区切りに対応する領域と、文字列の区切りに対応しない領域とに分けることができ、文字列のセグメンテーションを適切に行うことができる。
さらに、この態様によれば、CNNによって算出される複数の部分画像の特徴マップによって、複数の部分画像の特徴を適切に捉え、RNNによって特徴マップの前後関係を考慮しつつ、特徴マップを文字列の区切りを表す情報に変換することができ、文字列のセグメンテーションをより適切に行うことができる。
【0021】
本発明の他の態様に係る画像認識プログラムは、画像認識装置に、文字列が写された画像を取得することと、画像を複数の部分画像に分割することと、複数の部分画像それぞれから特徴量を抽出する第1モデル及び特徴量を文字列の区切りを表す情報に順次変換する第2モデルを用いて、複数の部分画像それぞれについて文字列の区切りを表す情報を算出することと、文字列の区切りを表す情報を出力することと、を実行させるものであり、前記第1モデルは、前記複数の部分画像それぞれから前記特徴量として特徴マップを算出するCNN(Convolutional Neural Network)であり、前記第2モデルは、前記特徴マップを前記部分画像が前記文字列の区切りに対応するか否かを表す2値情報に順次変換するRNN(Recurrent Neural Network)である
【0022】
この態様によれば、画像を複数の部分画像に分割し、第1モデルによって複数の部分画像の特徴を捉え、第2モデルによって特徴量を文字列の区切りを表す情報に変換することで、画像に写された文字列が2以上に分離可能な要素で構成される場合であっても、文字列のセグメンテーションを適切に行うことができる。
また、この態様によれば、2値情報に従って、画像を文字列の区切りに対応する領域と、文字列の区切りに対応しない領域とに分けることができ、文字列のセグメンテーションを適切に行うことができる。
さらに、この態様によれば、CNNによって算出される複数の部分画像の特徴マップによって、複数の部分画像の特徴を適切に捉え、RNNによって特徴マップの前後関係を考慮しつつ、特徴マップを文字列の区切りを表す情報に変換することができ、文字列のセグメンテーションをより適切に行うことができる。
【0023】
本発明の他の態様に係る画像認識システムは、画像認識装置と、ユーザ端末とを備える画像認識システムであって、画像認識装置は、ユーザ端末から、文字列が写された画像を取得する取得部と、画像を複数の部分画像に分割する分割部と、複数の部分画像それぞれから特徴量を抽出する第1モデル及び特徴量を文字列の区切りを表す情報に順次変換する第2モデルを用いて、複数の部分画像それぞれについて文字列の区切りを表す情報を算出する算出部と、文字列の区切りを表す情報をユーザ端末に出力する出力部と、を有し前記第1モデルは、前記複数の部分画像それぞれから前記特徴量として特徴マップを算出するCNN(Convolutional Neural Network)であり、前記第2モデルは、前記特徴マップを前記部分画像が前記文字列の区切りに対応するか否かを表す2値情報に順次変換するRNN(Recurrent Neural Network)である。
【0024】
この態様によれば、画像を複数の部分画像に分割し、第1モデルによって複数の部分画像の特徴を捉え、第2モデルによって特徴量を文字列の区切りを表す情報に変換することで、画像に写された文字列が2以上に分離可能な要素で構成される場合であっても、文字列のセグメンテーションを適切に行うことができる。
また、この態様によれば、2値情報に従って、画像を文字列の区切りに対応する領域と、文字列の区切りに対応しない領域とに分けることができ、文字列のセグメンテーションを適切に行うことができる。
さらに、この態様によれば、CNNによって算出される複数の部分画像の特徴マップによって、複数の部分画像の特徴を適切に捉え、RNNによって特徴マップの前後関係を考慮しつつ、特徴マップを文字列の区切りを表す情報に変換することができ、文字列のセグメンテーションをより適切に行うことができる。
【発明の効果】
【0025】
本発明によれば、2以上に分離可能な要素で構成される文字を含む場合であっても、文字列のセグメンテーションを適切に行うことができる画像認識装置、画像認識方法、画像認識プログラム及び画像認識システムを提供することができる。
【図面の簡単な説明】
【0026】
図1】本発明の実施形態に係る画像認識システムのネットワーク構成を示す図である。
図2】本実施形態に係る画像認識装置の機能ブロックを示す図である。
図3】本実施形態に係る画像認識装置の物理的構成を示す図である。
図4】本実施形態に係る画像認識装置により取得される画像の一例を示す図である。
図5】本実施形態に係る画像認識装置により分割された部分画像の一例を示す図である。
図6】本実施形態に係る画像認識装置により用いられる第1モデル及び第2モデルの概念図である。
図7】本実施形態に係る画像認識装置により算出された文字列の区切りの一例を示す図である。
図8】本実施形態に係る画像認識装置により実行されるセグメンテーション処理のフローチャートである。
図9】本実施形態に係る画像認識装置により実行される学習処理のフローチャートである。
【発明を実施するための形態】
【0027】
添付図面を参照して、本発明の実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。
【0028】
図1は、本発明の実施形態に係る画像認識システム100のネットワーク構成を示す図である。画像認識システム100は、画像認識装置10及びユーザ端末20を備える。画像認識装置10は、通信ネットワークNを介してユーザ端末20から画像を受信して、画像に写された文字列のセグメンテーションを行う。ここで、文字列のセグメンテーションとは、文字列を一文字ずつに区切る処理をいう。本実施形態では、画像認識装置10によって、カタカナで記載された文字列のセグメンテーションを行う例について説明する。もっとも、画像認識装置10は、漢字や平仮名、数字のセグメンテーションを行うこともできるし、漢字、平仮名及びカタカナが混合した文字列のセグメンテーションを行うこともできる。また、英文字や他の言語の文字を含む文字列についてセグメンテーションを行うこともできる。
【0029】
ユーザ端末20は、汎用のコンピュータであり、例えばカメラ付きスマートフォンで構成されてよい。ユーザ端末20は、画像認識アプリケーションを実行し、文字列の画像を撮影して、通信ネットワークNを介して画像を画像認識装置10に送信し、文字列のセグメンテーション結果を画像認識装置10から受信する。なお、画像認識システム100は、セグメンテーション処理がされた文字列の画像に基づいて、OCR(Optical Character Recognition)を行うOCR装置を含んでもよい。その場合、文字列を撮影した画像がユーザ端末20から画像認識装置10に送信され、セグメンテーション処理された文字列の画像が画像認識装置10からOCR装置に送信され、OCR装置によって画像に写された文字列の認識が行われて、認識結果がOCR装置からユーザ端末20に送信されてよい。
【0030】
図2は、本実施形態に係る画像認識装置10の機能ブロックを示す図である。画像認識装置10は、取得部11、分割部12、算出部13、出力部14、記憶部15及び生成部16を備える。
【0031】
取得部11は、ユーザ端末20から画像を取得する。取得部11は、画像とあわせて、当該画像に関連付けられた検収に関する情報を取得してもよい。
【0032】
分割部12は、取得した画像を複数の部分画像に分割する。分割部12は、文字列が写された矩形の画像を、複数の矩形の部分画像に分割してよい。ここで、部分画像の形状は、文字列が並ぶ方向の辺の長さが、文字列が並ぶ方向に直交する方向の辺の長さより短い矩形であってよい。例えば、文字列が水平方向に一列並んでいる画像の大きさが幅Aピクセル×高さBピクセルである場合、分割部12は、画像を幅A/Nピクセル×高さBピクセルの複数の部分画像に分割してよい。ここで、Nは、A以上の数値である。なお、A/Nが割り切れない場合、部分画像の幅は、A/Nを四捨五入した値であったり、A/Nを繰り上げた値であったりしてよい。
【0033】
算出部13は、複数の部分画像それぞれから特徴量を抽出する第1モデル15b及び特徴量を文字列の区切りを表す情報に順次変換する第2モデル15cを用いて、複数の部分画像それぞれについて文字列の区切りを表す情報を算出する。第1モデル15b及び第2モデル15cにつては、後に詳細に説明する。
【0034】
出力部14は、文字列の区切りを表す情報を、ユーザ端末20に出力する。もっとも、出力部14は、文字列の区切りを表す情報をOCR装置等の他の機器に出力してもよい。このように、本実施形態に係る画像認識装置10によれば、画像を複数の部分画像に分割し、第1モデル15bによって複数の部分画像の特徴を捉え、第2モデル15cによって特徴量を文字列の区切りを表す情報に変換することで、画像に写された文字列が2以上に分離可能な要素で構成される場合であっても、文字列のセグメンテーションを適切に行うことができる。
【0035】
算出部13によって算出される文字列の区切りを表す情報は、部分画像が文字列の区切りに対応するか否かを表す2値情報であってよい。これにより、2値情報に従って、画像を文字列の区切りに対応する領域と、文字列の区切りに対応しない領域とに分けることができ、文字列のセグメンテーションを適切に行うことができる。
【0036】
記憶部15は、文字列が写された学習用画像に対して、文字列の区切りを表す情報が関連付けられた学習データ15aを記憶する。また、記憶部15は、第1モデル15b及び第2モデル15cを記憶する。
【0037】
生成部16は、学習データ15aを用いて、第1モデル15b及び第2モデル15cを生成する。生成部16は、学習データ15aを用いた教師あり学習によって、第1モデル15b及び第2モデル15cを生成してよい。すなわち、生成部16は、学習データ15aに含まれる学習用画像から第1モデル15bによって特徴量を算出し、特徴量を第2モデル15cによって文字列の区切りを表す情報に変換して、学習データ15aに含まれる文字列の区切りを表す情報と比較し、誤差が小さくなるように第1モデル15b及び第2モデル15cのパラメータを更新することで、第1モデル15b及び第2モデル15cを生成してよい。生成部16によって、学習用画像に対して、文字列の区切りを表す情報が関連付けられた学習データ15aが与えられた場合に、画像に写された文字列の区切りを表す情報を適切に算出することができる第1モデル15b及び第2モデル15cを生成することができる。
【0038】
第1モデル15bは、複数の部分画像それぞれから特徴量として特徴マップを算出するCNN(Convolutional Neural Network)であってよい。また、第2モデル15cは、特徴マップを、部分画像が文字列の区切りに対応するか否かを表す2値情報に順次変換するRNN(Recurrent Neural Network)であってよい。ここで、RNNは、例えば双方向LSTM(Long Short-Term Memory)で構成されてよい。このように、CNNによって算出される複数の部分画像の特徴マップによって、複数の部分画像の特徴を適切に捉え、RNNによって特徴マップの前後関係を考慮しつつ、特徴マップを文字列の区切りを表す情報に変換することができ、文字列のセグメンテーションをより適切に行うことができる。
【0039】
生成部16は、CTC(Connectionist Temporal Classification)損失関数を最小化するように、第1モデル15b及び第2モデル15cを生成してよい。生成部16は、例えば誤差逆伝播法によって、CTC損失関数を最小化するように第1モデル15bを構成するCNN及び第2モデル15cを構成するRNNのパラメータを最適化することで、第1モデル15b及び第2モデル15cを生成してよい。第1モデル15b及び第2モデル15cに含まれるCNNの構成や、RNNの構成は任意であり、例えば、LSTMブロックの代わりにGRU(Gated Recurrent Unit)を用いてもよい。CTC損失関数を用いることで、任意の文字間隔と大きさで記載された文字列について、文字列のセグメンテーションを適切に行う第1モデル15b及び第2モデル15cを生成することができる。
【0040】
図3は、本実施形態に係る画像認識装置10の物理的構成を示す図である。画像認識装置10は、演算部に相当するCPU(Central Processing Unit)10aと、記憶部に相当するRAM(Random Access Memory)10bと、記憶部に相当するROM(Read only Memory)10cと、通信部10dと、入力部10eと、表示部10fと、を有する。これらの各構成は、バスを介して相互にデータ送受信可能に接続される。なお、本例では画像認識装置10が一台のコンピュータで構成される場合について説明するが、画像認識装置10は、複数のコンピュータが組み合わされて実現されてもよい。また、図3で示す構成は一例であり、画像認識装置10はこれら以外の構成を有してもよいし、これらの構成のうち一部を有さなくてもよい。
【0041】
CPU10aは、RAM10b又はROM10cに記憶されたプログラムの実行に関する制御やデータの演算、加工を行う制御部である。CPU10aは、文字列が写された画像を分割し、複数の部分画像それぞれについて文字列の区切りを表す情報を算出するプログラム(画像認識プログラム)を実行する演算部である。CPU10aは、入力部10eや通信部10dから種々のデータを受け取り、データの演算結果を表示部10fに表示したり、RAM10bに格納したりする。
【0042】
RAM10bは、記憶部のうちデータの書き換えが可能なものであり、例えば半導体記憶素子で構成されてよい。RAM10bは、CPU10aが実行する画像認識プログラム、学習データといったデータを記憶してよい。なお、これらは例示であって、RAM10bには、これら以外のデータが記憶されていてもよいし、これらの一部が記憶されていなくてもよい。
【0043】
ROM10cは、記憶部のうちデータの読み出しが可能なものであり、例えば半導体記憶素子で構成されてよい。ROM10cは、例えば画像認識プログラムや、書き換えが行われないデータを記憶してよい。
【0044】
通信部10dは、画像認識装置10を他の機器に接続するインターフェースである。通信部10dは、インターネット等の通信ネットワークNに接続されてよい。
【0045】
入力部10eは、画像認識装置10の管理者からデータの入力を受け付けるものであり、例えば、キーボード及びタッチパネルを含んでよい。
【0046】
表示部10fは、CPU10aによる演算結果を視覚的に表示するものであり、例えば、LCD(Liquid Crystal Display)により構成されてよい。表示部10fは、取得した画像、算出された文字列の区切りを表す情報等を表示してよい。
【0047】
画像認識プログラムは、RAM10bやROM10c等のコンピュータによって読み取り可能な記憶媒体に記憶されて提供されてもよいし、通信部10dにより接続される通信ネットワークを介して提供されてもよい。画像認識装置10では、CPU10aが画像認識プログラムを実行することにより、図2を用いて説明した様々な動作が実現される。なお、これらの物理的な構成は例示であって、必ずしも独立した構成でなくてもよい。例えば、画像認識装置10は、CPU10aとRAM10bやROM10cが一体化したLSI(Large-Scale Integration)を備えていてもよい。
【0048】
図4は、本実施形態に係る画像認識装置10により取得される画像IMGの一例を示す図である。画像IMGは、「センタービル」というカタカナの文字列を含む。従来術を用いて画像IMGに記載された文字列をセグメンテーションすると、「ル」を「ノ」及び「レ」とセグメンテーションしてしまう場合がある。
【0049】
図5は、本実施形態に係る画像認識装置10により分割された部分画像DIV1,DIV2,…DIVNの一例を示す図である。同図では、画像IMGをNコの部分画像DIV1,DIV2,…DIVNに分割した例を示している。部分画像DIV1,DIV2,…DIVNの高さは、画像IMGと等しく、部分画像DIV1,DIV2,…DIVNの幅は、画像IMGの幅の1/N倍となっている。
【0050】
図6は、本実施形態に係る画像認識装置10により用いられる第1モデル15b及び第2モデル15cの概念図である。第1モデル15bは、CNNで構成され、画像IMGから分割された複数の部分画像DIV1,DIV2,…DIVNに基づいて、複数の部分画像DIV1,DIV2,…DIVNそれぞれの特徴マップFMを算出する。特徴マップFMは、任意の次元の配列であってよい。
【0051】
第2モデル15cは、双方向LSTMで構成され、特徴マップFMを文字列の区切りを表す2値情報Bに順次変換する。2値情報Bは、0及び1のビット列であり、各ビットは、部分画像が文字列の区切りに対応するか否かを表す。本例では、2値情報Bのうち「1」が、部分画像が文字列の区切りに対応することを表し、2値情報Bのうち「0」が、部分画像が文字列の区切りに対応しない(すなわち当該部分画像は文字列の一部を構成する)ことを表す。
【0052】
図7は、本実施形態に係る画像認識装置10により算出された文字列の区切りの一例を示す図である。本実施形態に係る画像認識装置10によれば、「センタービル」という文字列を含む画像IMGに対して、文字列の区切りを表す第1区切り情報SEP1、第2区切り情報SEP2、第3区切り情報SEP3、第4区切り情報SEP4、第5区切り情報SEP5、第6区切り情報SEP6及び第7区切り情報SEP7が出力される。これにより、「センタービル」という6文字の文字列が適切にセグメンテーションされる。
【0053】
画像認識装置10は、第2モデル15cにより算出された2値情報に基づいて、2値情報が「1」である部分画像に対応する画像IMGの領域を文字列の区切り領域と判定して、画像IMGに対して第1区切り情報SEP1、第2区切り情報SEP2、第3区切り情報SEP3、第4区切り情報SEP4、第5区切り情報SEP5、第6区切り情報SEP6及び第7区切り情報SEP7を付与してよい。
【0054】
図8は、本実施形態に係る画像認識装置10により実行されるセグメンテーション処理のフローチャートである。はじめに、画像認識装置10は、文字列が写された画像を取得する(S10)。そして、画像認識装置10は、画像を複数の部分画像に分割する(S11)。
【0055】
その後、画像認識装置10は、第1モデル15bによって、複数の部分画像それぞれから特徴量を抽出し(S12)、第2モデル15cによって、特徴量を文字列の区切りを表す情報に順次変換する(S13)。
【0056】
最後に、画像認識装置10は、複数の部分画像それぞれについて文字列の区切りを表す情報を算出し、ユーザ端末20に出力する。なお、画像認識装置10は、文字列の区切りを表す情報をOCR装置等の他の機器に出力してもよい。
【0057】
図9は、本実施形態に係る画像認識装置10により実行される学習処理のフローチャートである。はじめに、画像認識装置10は、文字列が写された学習用画像に対して、文字列の区切りを表す情報が関連付けられた学習データ15aを収集し、記憶部15に記憶する(S20)。
【0058】
その後、画像認識装置10は、学習データ15aを用いて、CTC損失関数を最小化するように、第1モデル15b及び第2モデル15cの学習処理を実行する(S21)。ここで、学習処理は、第1モデル15bを構成するCNNのパラメータ及び第2モデル15cを構成するRNNのパラメータを、誤差逆伝播法によって更新する処理であってよい。
【0059】
学習終了条件を満たさない場合(S22:NO)、画像認識装置10は、第1モデル15b及び第2モデル15cの学習処理を再び実行する(S21)。ここで、学習終了条件は、CTC損失関数の値が所定値以下となることであったり、学習処理のエポック数が所定回数以上となることであったりしてよい。
【0060】
一方、学習終了条件を満たす場合(S22:YES)、画像認識装置10は、生成された第1モデル15b及び第2モデル15cを記憶部15に記憶する。
【0061】
以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。
【符号の説明】
【0062】
10…画像認識装置、10a…CPU、10b…RAM、10c…ROM、10d…通信部、10e…入力部、10f…表示部、11…取得部、12…分割部、13…算出部、14…出力部、15…記憶部、15a…学習データ、15b…第1モデル、15c…第2モデル、16…生成部、20…ユーザ端末、100…画像認識システム
図1
図2
図3
図4
図5
図6
図7
図8
図9