IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ファーストアカウンティング株式会社の特許一覧

特許7565549情報処理装置、情報処理方法及びプログラム
<>
  • 特許-情報処理装置、情報処理方法及びプログラム 図1
  • 特許-情報処理装置、情報処理方法及びプログラム 図2
  • 特許-情報処理装置、情報処理方法及びプログラム 図3
  • 特許-情報処理装置、情報処理方法及びプログラム 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-10-03
(45)【発行日】2024-10-11
(54)【発明の名称】情報処理装置、情報処理方法及びプログラム
(51)【国際特許分類】
   G06V 30/194 20220101AFI20241004BHJP
   G06V 30/24 20220101ALI20241004BHJP
【FI】
G06V30/194
G06V30/24 630A
【請求項の数】 5
(21)【出願番号】P 2024080170
(22)【出願日】2024-05-16
【審査請求日】2024-05-16
(31)【優先権主張番号】P 2023135167
(32)【優先日】2023-08-23
(33)【優先権主張国・地域又は機関】JP
【新規性喪失の例外の表示】特許法第30条第2項適用 令和5年8月30日 ウェブサイトのアドレスhttps://arxiv.org/abs/2308.15996にて発表
【新規性喪失の例外の表示】特許法第30条第2項適用 令和6年1月4日~8日 学会「IEEE/CVF Winter Conference on Applications of Computer Vision(WACV)」にて発表
【早期審査対象出願】
(73)【特許権者】
【識別番号】516380407
【氏名又は名称】ファーストアカウンティング株式会社
(74)【代理人】
【識別番号】110004222
【氏名又は名称】弁理士法人創光国際特許事務所
(72)【発明者】
【氏名】藤武 将人
【審査官】伊知地 和之
(56)【参考文献】
【文献】特開2015-153240(JP,A)
【文献】特開2014-106961(JP,A)
【文献】濱田龍之介 外6名,運転行動予測に向けた運転操作時系列データへのノンパラメトリックベイズ法の適用,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2013年03月07日,第112巻 第486号,pp.265~270
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
G06V 10/00 - 20/90
G06V 30/00 - 30/12
G06V 30/14 - 30/168
G06V 30/18 - 30/222
G06V 30/224
G06V 30/226 - 30/32
G06V 30/40 - 30/416
G06V 30/418
G06V 30/42 - 30/424
G06V 40/16
G06V 40/20
CSDB(日本国特許庁)
(57)【特許請求の範囲】
【請求項1】
入力された複数のベクトルに基づいて、該複数のベクトルに基づいて予測される文字列を示すベクトルを出力する学習済みモデルを記憶する記憶部と、
文字列を含む画像データを取得する取得部と、
前記画像データを所定のサイズに分割した複数の分割画像データを生成する分割部と、
前記複数の分割画像データそれぞれをベクトルに変換することで、複数のベクトルを生成する変換部と、
前記変換部が生成した複数のベクトルそれぞれを前記学習済みモデルに入力し、前記学習済みモデルが出力したベクトルに対応する文字列を出力させる推論部と、
を有し、
前記学習済みモデルは、前記変換部が生成した複数のベクトルと、前記学習済みモデルが出力したベクトルと、を入力として、文字列を示すベクトルを出力する、
報処理装置。
【請求項2】
前記分割画像データから変換された複数のベクトルそれぞれは、前記画像データにおいて当該分割画像データが対応する範囲における特徴をそれぞれ示し、
前記学習済みモデルは、複数の分割画像データにまたがる範囲に含まれる被写体に関する特徴を示す特徴量の入力を受付けない、
請求項1に記載の情報処理装置。
【請求項3】
前記変換部が生成した複数のベクトルそれぞれは、前記分割画像データそれぞれにおける低レベルの特徴量を示し、
前記学習済みモデルは高レベルの特徴量の入力を受付けない、
請求項1又は2に記載の情報処理装置。
【請求項4】
コンピュータが実行する、
文字列を含む画像データを取得する取得ステップと、
前記画像データを所定のサイズに分割した複数の分割画像データを生成する分割ステップと、
前記複数の分割画像データそれぞれをベクトルに変換することで、複数のベクトルを生成する変換ステップと、
生成された複数のベクトルそれぞれを、入力された複数のベクトルに基づいて、該複数のベクトルに基づいて予測される文字列を示すベクトルを出力する学習済みモデルに入力し、前記学習済みモデルが出力したベクトルに対応する文字列を出力させる推論ステップと、
を有し、
前記学習済みモデルは、前記変換ステップにおいて生成された複数のベクトルと、前記学習済みモデルが出力したベクトルと、を入力として、文字列を示すベクトルを出力する、
情報処理方法。
【請求項5】
コンピュータに、
文字列を含む画像データを取得する取得ステップと、
前記画像データを所定のサイズに分割した複数の分割画像データを生成する分割ステップと、
前記複数の分割画像データそれぞれをベクトルに変換することで、複数のベクトルを生成する変換ステップと、
生成された複数のベクトルそれぞれを、入力された複数のベクトルに基づいて、該複数のベクトルに基づいて予測される文字列を示すベクトルを出力する学習済みモデルに入力し、前記学習済みモデルが出力したベクトルに対応する文字列を出力させる推論ステップと、
を実行させ、
前記学習済みモデルは、前記変換ステップにおいて生成された複数のベクトルと、前記学習済みモデルが出力したベクトルと、を入力として、文字列を示すベクトルを出力する、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法及びプログラムに関する。
【背景技術】
【0002】
言語モデルを用いてOCR(Optical Character Recognition)を提供する方法が知られている(例えば非特許文献1参照)。
【先行技術文献】
【非特許文献】
【0003】
【文献】Minghao Li, Tengchao Lv, Jingye Chen, Lei Cui, Yijuan Lu, Dinei Florencio, Cha Zhang, Zhoujun Li, and Furu Wei. Trocr: Transformer-baCsed optical character recognition with pre-trained models. arXiv preprint arXiv:2109.10282, 2021.
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来技術においてはエンコーダにおいて抽出した、画像に含まれる被写体の意味に関する特徴量を利用して画像中に含まれる文字列を認識するため、システムの構成が複雑になり、OCRを提供する負担が大きくなる問題が生じていた。
【0005】
そこで、本発明はこれらの点に鑑みてなされたものであり、簡易な構成によりOCRを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の第1の態様に係る情報処理装置は、入力された複数のベクトルに基づいて、該複数のベクトルに基づいて予測される文字列を示すベクトルを出力する学習済みモデルを記憶する記憶部と、文字列を含む画像データを取得する取得部と、前記画像データを所定のサイズに分割した複数の分割画像データを生成する分割部と、前記複数の分割画像データそれぞれをベクトルに変換することで、複数のベクトルを生成する変換部と、前記変換部が生成した複数のベクトルそれぞれを前記学習済みモデルに入力し、前記学習済みモデルが出力したベクトルに対応する文字列を出力させる推論部と、を有する。
【0007】
前記分割画像データから変換された複数のベクトルそれぞれは、前記画像データにおいて当該分割画像データが対応する範囲における特徴をそれぞれ示し、前記学習済みモデルは、複数の分割画像データにまたがる範囲に含まれる被写体に関する特徴を示す特徴量の入力を受付けなくてもよい。
【0008】
前記変換部が生成した複数のベクトルそれぞれは、前記分割画像データそれぞれにおける低レベルの特徴量を示し、前記学習済みモデルは高レベルの特徴量の入力を受付けなくてもよい。
【0009】
前記学習済みモデルは、前記変換部が生成した複数のベクトルと、前記学習済みモデルが出力したベクトルと、を入力として文字列を示すベクトルを出力してもよい。
【0010】
本発明の第2の態様の情報処理方法においては、コンピュータが実行する、文字列を含む画像データを取得する取得ステップと、前記画像データを所定のサイズに分割した複数の分割画像データを生成する分割ステップと、前記複数の分割画像データそれぞれをベクトルに変換することで、複数のベクトルを生成する変換ステップと、生成された複数のベクトルそれぞれを、入力された複数のベクトルに基づいて、該複数のベクトルに基づいて予測される文字列を示すベクトルを出力する学習済みモデルに入力し、前記学習済みモデルが出力したベクトルに対応する文字列を出力させる推論ステップと、を有する。
【0011】
本発明の第3の態様のプログラムにおいては、コンピュータに、文字列を含む画像データを取得する取得ステップと、前記画像データを所定のサイズに分割した複数の分割画像データを生成する分割ステップと、前記複数の分割画像データそれぞれをベクトルに変換することで、複数のベクトルを生成する変換ステップと、生成された複数のベクトルそれぞれを、入力された複数のベクトルに基づいて、該複数のベクトルに基づいて予測される文字列を示すベクトルを出力する学習済みモデルに入力し、前記学習済みモデルが出力したベクトルに対応する文字列を出力させる推論ステップと、を実行させる。
【発明の効果】
【0012】
本発明によれば、簡易な構成によりOCRを提供するという効果を奏する。
【図面の簡単な説明】
【0013】
図1】実施形態にかかる情報処理システムSの概要を説明するための図である。
図2】実施形態にかかる情報処理システムSの概要を説明するための図である。
図3】情報処理装置1の構成を示すブロック図である。
図4】情報処理装置1における処理の流れを示すフローチャートである。
【発明を実施するための形態】
【0014】
[情報処理システムSの概要]
図1及び図2は、実施形態にかかる情報処理システムSの概要を説明するための図である。情報処理システムSは、画像データに含まれる文字列を出力するOCRを提供する。情報処理システムSは、情報処理装置1及び情報端末2を有する。
【0015】
情報処理装置1は、OCRを提供する装置である。情報処理装置1は、学習済みモデルMを記憶している。学習済みモデルMは、画像データに含まれる文字列を予測するための機械学習モデルである。学習済みモデルMは、入力された複数のベクトルに基づいて、該複数のベクトルに基づいて予測される文字列を示すベクトルを出力する。学習済みモデルMは、Transformerをベースとしてデコーダのみで構成される。
【0016】
情報端末2は、情報処理システムSのユーザが使用する端末である。情報端末2は、例えばタブレット、スマートフォン又はパーソナルコンピュータである。一例として、情報端末2は、文字列を認識する指示を情報処理装置1に送信し、情報処理装置1が認識した文字列を取得し、表示部に表示する。
【0017】
図2を参照して情報処理システムSにおける処理を説明する。情報処理装置1は、画像データD1を取得する。画像データD1においては、情報処理システムSによって認識される対象となる文字列が写りこんでいる。
【0018】
情報処理装置1は、取得した画像データD1を所定のサイズごとに分割した画像である分割画像データD2を生成する。情報処理装置1は、分割画像データV2それぞれを複数のベクトルVに変換する。一例として、所定のサイズは、学習済みモデルMの入力層の次元数に基いて決定される。
【0019】
複数のベクトルVそれぞれは、画像データD1において当該ベクトルを生成する対象の分割画像データD2が対応する範囲における特徴を示す。また、複数のベクトルVそれぞれは、分割画像データD2それぞれにおける低レベルの特徴量を示す。低レベルの特徴量は、部分画像データD2における局所的な特徴を示す。低レベルの特徴量であるベクトルVは、当該ベクトルVを生成する対象の分割画像データにおける線の方向、色等の特徴を示す。これに対して高レベルの特徴量は、一例として、その画像に写りこんだ被写体や文字列の意味等の特徴を示す。高レベルの特徴量は、典型的には、複数の分割画像データD2にまたがる範囲に写りこんだ被写体に関する特徴量である。
【0020】
情報処理装置1は、入力するベクトルVの末尾にデータの区切りであることを示すデータ(図2における[SEP])を付加する。情報処理装置1は、複数のベクトルVを学習済みモデルMに入力し、画像データに含まれる文字列を学習済みモデルMに出力させる。学習済みモデルMは、入力された複数のベクトルVと、学習済みモデルMが出力したベクトルと、を入力として文字列を示すベクトルを出力する。より具体的には、学習済みモデルMは、入力された複数のベクトルVと、学習済みモデルMが出力したベクトルと、を入力として自己回帰的に予測することで、文字列を示すベクトルを出力する。
【0021】
具体的には、(ア)情報処理装置1は、ベクトルV1に学習済みモデルMが出力したベクトルV2を付加し、入力データを生成する。(イ)情報処理装置1は、生成した入力データを再度学習済みモデルMに入力する。情報処理装置1は、推論の終了を示すベクトル(図2における[EOS])を学習済みモデルMが出力するまで上記の(ア)及び(イ)の処理を繰り返す。
【0022】
図2の例においては、学習済みモデルMは、1回目の入力においては、ベクトルV1を入力として、文字「B」に対応するベクトルV2を出力する。学習済みモデルMは、2回目の入力においては、ベクトルV1に文字「B」に対応するベクトルV2を付加したベクトル群を入力し、文字「タイ」に対応するベクトルを出力させる。学習済みモデルMは、このような処理を[EOS]に対応する文字列が出力されるまで繰り返す。
【0023】
学習済みモデルMが推論の終了を示すベクトルを出力した場合、情報処理装置1は、学習済みモデルMが出力した文字列を情報端末2に出力する。
【0024】
なお、学習済みモデルMは、複数の分割画像データにまたがる領域における特徴を示す特徴量(高レベルの特徴量)の入力を受付けない。すなわち、学習済みモデルMにおいては、高レベルの特徴量を入力するための入力層を有さない。学習済みモデルMにおいては、前述のとおり低レベルの特徴量を示すベクトルVに基づいて出力し、高レベルの特徴量の入力を受付けない。そのため、情報処理装置1においては高レベルの特徴量を生成するためのエンコーダが不要となり、デコーダのみで画像に含まれる文字列を出力させることが可能となり、簡易な構成でOCRを提供することが可能となる。
【0025】
[情報処理装置1の構成]
図3は、情報処理装置1の構成を示すブロック図である。情報処理装置1は、通信部11、記憶部12及び制御部13を有する。制御部13は、取得部131、分割部132、変換部133及び推論部134を有する。
【0026】
通信部11は、ネットワークを介して他の装置とデータの送受信をするための通信インターフェースである。記憶部12は、ROM(Read Only Memory)、RAM(Random Access Memory)、SSD(Solid State Drive)、ハードディスクドライブ等を含む記憶媒体である。記憶部12は、制御部13が実行するプログラムを予め記憶している。
【0027】
記憶部12は、学習済みモデルを記憶する。学習済みモデルMは、分割画像データから生成した複数のベクトルと、当該複数のベクトルに対応する文字列の正解と、を関連付けた教師データに基づいて、事前学習済みモデルを学習させることで生成されている。事前学習済みモデルは、自然言語処理タスクを事前学習することで言語知識を獲得した機械学習モデルである。学習済みモデルMがこのように構成されることで、高レベルの特徴量を利用することなく分割画像データから抽出した低レベルの特徴量に基づいて、画像データに写りこんだ文字列を情報処理装置1が出力することが可能になる。
【0028】
学習済みモデルMが学習する画像データにおいては、手書き文字、印刷された文字列、情景画像中に含まれる文字列等の様々な態様の文字列が含まれていてもよい。また、学習済みモデルMは、横書きの文字列を含む画像データに基づいて生成されたベクトルを学習してもよいし、縦書きの文字列を含む画像データに基づいて生成されたベクトルを学習してもよい。
【0029】
制御部13は、例えばCPU(Central Processing Unit)等のプロセッサである。制御部13は、記憶部12に記憶されたプログラムを実行することにより、取得部131、分割部132、変換部133及び推論部134として機能する。
【0030】
取得部131は、文字列を含む画像データを取得する。取得部131は、情報端末2から画像データD1を取得してもよいし、外部装置から画像データD1を取得してもよい。
【0031】
分割部132は、画像データD1を所定のサイズに分割した複数の分割画像データD2を生成する。所定のサイズは、一例として、学習済みモデルMの入力層の次元数に等しい。
【0032】
変換部133は、複数の分割画像データD2それぞれをベクトルに変換することで、複数のベクトルVを生成する。変換部133は、複数の分割画像データD2それぞれを一次元のシークエンスデータに変換し、線形射影することで、複数の分割画像データD2それぞれをベクトルに変換する。
【0033】
ベクトルVの次元数は学習済みモデルMの入力層の次元数に等しい。変換部133は、生成したベクトルVが画像全体のどの部分に位置するかを示す位置情報をベクトルVに加えてもよい。
【0034】
推論部134は、変換部133が生成した複数のベクトルそれぞれを学習済みモデルMに入力し、学習済みモデルMが出力したベクトルに対応する文字列を出力させる。推論部134は、学習済みモデルMが出力した文字列を情報端末2に表示させてもよいし、不図示の外部装置に出力してもよい。
【0035】
[情報処理装置1における処理の流れ]
図4は、情報処理装置1における処理の流れを示すフローチャートである。図4に示すフローチャートは、情報処理装置1が画像データDを取得する時点から開始している。
【0036】
取得部131は、画像データD1を取得する(S01)。分割部132は、画像データD1を所定のサイズに分割し、分割画像データD2を生成する(S02)。
【0037】
変換部133は、複数の分割画像データD2それぞれに基づいてベクトルVを生成する(S03)。推論部134は、ベクトルVを学習済みモデルMに入力し、文字列を出力させる(S04)。そして、情報処理装置1は、処理を終了する。
【0038】
[情報処理装置1における効果]
以上説明したように情報処理装置1が構成されることで、高レベルの特徴量を用いることなく、簡易な構成によりOCRを提供するという効果を奏する。
【0039】
以上、実施の形態を用いて本発明を説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。
【符号の説明】
【0040】
1 情報処理装置
2 情報端末
11 通信部
12 記憶部
13 制御部
131 取得部
132 分割部
133 変換部
134 推論部
【要約】
【課題】簡易な構成によりOCRを提供する。
【解決手段】入力された複数のベクトルに基づいて、該複数のベクトルに基づいて予測される文字列を示すベクトルを出力する学習済みモデルを記憶する記憶部12と、文字列を含む画像データを取得する取得部131と、画像データを所定のサイズに分割した複数の分割画像データを生成する分割部132と、複数の分割画像データそれぞれをベクトルに変換することで、複数のベクトルを生成する変換部133と、変換部133が生成した複数のベクトルそれぞれを学習済みモデルに入力し、学習済みモデルが出力したベクトルに対応する文字列を出力させる推論部134と、を有する。
【選択図】図2

図1
図2
図3
図4