(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024148062
(43)【公開日】2024-10-17
(54)【発明の名称】画像処理装置、原稿種認識方法、プログラム
(51)【国際特許分類】
H04N 1/00 20060101AFI20241009BHJP
G06N 20/00 20190101ALI20241009BHJP
【FI】
H04N1/00 L
G06N20/00
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2023060959
(22)【出願日】2023-04-04
(71)【出願人】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】伊藤 真也
【テーマコード(参考)】
5C062
【Fターム(参考)】
5C062AA05
5C062AB17
5C062AB40
5C062AC02
(57)【要約】
【課題】効率的かつリソース逼迫を低減して原稿種認識を行うこと。
【解決手段】本発明は、原稿を読み取って生成した画像データをアプリケーションが処理する画像処理装置20であって、ユーザーによる前記アプリケーションの設定を受け付ける設定受付部と、前記設定受付部が受け付けた前記アプリケーションに対応付けられている原稿種の判別タイプを判断する原稿種判断部と、前記原稿種判断部が判断した前記原稿種の判別タイプに基づいて、前記画像データに対し段階的に原稿種の認識を行う原稿種認識部と、を有する。
【選択図】
図11
【特許請求の範囲】
【請求項1】
原稿を読み取って生成した画像データをアプリケーションが処理する画像処理装置であって、
ユーザーによる前記アプリケーションの設定を受け付ける設定受付部と、
前記設定受付部が受け付けた前記アプリケーションに対応付けられている原稿種の判別タイプを判断する原稿種判断部と、
前記原稿種判断部が判断した前記原稿種の判別タイプに基づいて、前記画像データに対し段階的に原稿種の認識を行う原稿種認識部と、
を有することを特徴とする画像処理装置。
【請求項2】
前記原稿種判断部が判断した前記原稿種の判別タイプに前記原稿種認識部が認識した原稿種が含まれている場合、前記原稿種認識部は、認識した原稿種が前記原稿の種類であると判断する請求項1に記載の画像処理装置。
【請求項3】
前記原稿種判断部が判断した前記原稿種の判別タイプに前記原稿種認識部が認識した原稿種が含まれていない場合、次の段階の原稿種認識を前記原稿種認識部に入力する次段認識原稿種決定部、を有することを特徴とする請求項1又は2に記載の画像処理装置。
【請求項4】
前記原稿種認識部は、認識できる前記原稿種が異なる原稿種認識を段階的に実施するものであり、
前記次段認識原稿種決定部は、予め設定されている順に、次の段階の原稿種認識を決定することを特徴とする請求項3に記載の画像処理装置。
【請求項5】
前記原稿種判断部が判断した前記原稿種の判別タイプに前記原稿種認識部が第一の原稿種認識により認識した原稿種が含まれておらず、かつ、
前記原稿種認識部が前記第一の原稿種認識により予め設定されている第一の原稿種を認識した場合、前記次段認識原稿種決定部は、前記第一の原稿種より細分化された第二の原稿種を認識する第二の原稿種認識を決定することを特徴とする請求項4に記載の画像処理装置。
【請求項6】
前記原稿種判断部が判断した前記原稿種の判別タイプに前記原稿種認識部が第二の原稿種認識により認識した前記第二の原稿種が含まれておらず、かつ、
前記原稿種認識部が前記第二の原稿種認識により予め設定されている第三の原稿種を認識した場合、前記次段認識原稿種決定部は、前記第三の原稿種より細分化された第四の原稿種を認識する第三の原稿種認識を決定することを特徴とする請求項5に記載の画像処理装置。
【請求項7】
前記原稿種判断部が判断した前記原稿種の判別タイプに前記原稿種認識部が第一の原稿種認識により認識した原稿種が含まれておらず、かつ、
前記原稿種認識部が前記第一の原稿種を認識しない場合、前記次段認識原稿種決定部は、前記原稿種を判断不能と判断することを特徴とする請求項5に記載の画像処理装置。
【請求項8】
前記原稿種認識部は、前記画像データと前記原稿種の対応を事前に学習した、ニューラルネットワークを用いた学習モデルにより前記原稿種を認識するか、
又は、前記画像データの特徴量をルールベースに基づいて判断することで前記原稿種を認識することを特徴とする請求項1に記載の画像処理装置。
【請求項9】
前記原稿種認識部は、段階によって、ニューラルネットワークを用いた認識と前記ルールベースを用いた認識を切り替えて前記原稿種を認識することを特徴とする請求項8に記載の画像処理装置。
【請求項10】
原稿を読み取って生成した画像データをアプリケーションが処理する画像処理装置が行う原稿種認識方法であって、
ユーザーによる前記アプリケーションの設定を受け付ける処理と、
受け付けた前記アプリケーションに対応付けられている原稿種の判別タイプを判断する処理と、
判断された前記原稿種の判別タイプに基づいて、前記画像データに対し段階的に原稿種の認識を行う処理と、
を行うことを特徴とする原稿種認識方法。
【請求項11】
原稿を読み取って生成した画像データをアプリケーションが処理する画像処理装置を、
ユーザーによる前記アプリケーションの設定を受け付ける設定受付部と、
前記設定受付部が受け付けた前記アプリケーションに対応付けられている原稿種の判別タイプを判断する原稿種判断部と、
前記原稿種判断部が判断した前記原稿種の判別タイプに基づいて、前記画像データに対し段階的に原稿種の認識を行う原稿種認識部、
として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置、原稿種認識方法、及びプログラムに関する。
【背景技術】
【0002】
画像処理装置がスキャナ等で読み取った原稿の画像データを解析することで原稿種を認識し、原稿種に応じて、後段の処理を切り替える手法が知られている。例えば、原稿種に応じた処理や最適な画像処理等が可能になる。しかし、日々、多種多様な原稿が画像処理装置に入力されるような環境では、汎用的な方法で細分化された原稿種を判別することは難しい。
【0003】
原稿種認識において、柔軟かつ精度よく原稿種を判断し、原稿種に応じて最適な画像処理を適用する技術が知られている(例えば、特許文献1参照。)。特許文献1には、予め決められた原稿種以外の原稿種をユーザーが任意に登録できる構成が開示されている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来の技術では、1つの画像処理装置がアプリケーションごとに原稿種認識の機能を持つことは効率が悪く、かつ、リソース逼迫の原因にもなるという問題がある。つまり、画像処理装置が各アプリケーションで様々な原稿種を認識する場合、アプリケーションごとに複数の原稿種認識の機能が必要になり、アプリケーションの開発が非効率である。また、各アプリケーションが共通の原稿種を認識する場合には、各アプリケーションが重複して原稿種認識の機能を保持するため、リソース逼迫の要因となっていた。
【0005】
本発明は、上記課題に鑑み、効率的かつリソース逼迫を低減して原稿種認識を行う技術を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明は、原稿を読み取って生成した画像データをアプリケーションが処理する画像処理装置であって、ユーザーによる前記アプリケーションの設定を受け付ける設定受付部と、前記設定受付部が受け付けた前記アプリケーションに対応付けられている原稿種の判別タイプを判断する原稿種判断部と、前記原稿種判断部が判断した前記原稿種の判別タイプに基づいて、前記画像データに対し段階的に原稿種の認識を行う原稿種認識部と、を有する。
【発明の効果】
【0007】
効率的かつリソース逼迫を低減して原稿種認識を行う技術を提供できる。
【図面の簡単な説明】
【0008】
【
図2】画像処理装置が行う原稿種認識の概略を説明する図である。
【
図3】原稿種認識を行う装置の一例である画像処理装置又は画像処理システムを示す図である。
【
図4】画像処理装置のハードウェア構成の一例を示す図である。
【
図5】画像処理装置の一例として、デジタル式のカラー画像形成装置の概略構成を示した機能ブロック図の一例である。
【
図6】原稿種認識実施部の機能構成図の一例である。
【
図7】原稿種認識により認識される複数の原稿種を組み合わせたパターン設定の例を示す図である。
【
図8】パターンA~Dの階層構造の一例を示す図である。
【
図9】アプリケーションと原稿種のパターンとの対応をユーザーが設定するパターン設定画面の一例を示す図である。
【
図10】アプリケーションが多段階に利用する原稿種認識をアプリケーション別に示す図の一例である。
【
図11】原稿種認識実施部が原稿種を判断する処理を説明するフローチャート図の一例である。
【
図12】パターンA、パターンB、パターンDに基づいて、原稿種認識実施部が原稿種を判断する処理を説明するフローチャート図の一例である。
【
図13】機械学習を使用した原稿種認識装置の機能ブロック図の一例である。
【発明を実施するための形態】
【0009】
以下、本発明を実施するための形態の一例として画像処理装置と、画像処理装置が行う原稿種認識方法について図面を参照しながら説明する。
【0010】
<処理の概略>
スキャナ等の画像処理装置で読み取られる原稿には、文書、帳票、図面、写真など様々な種類があることが知られている。そこで、スキャナで読み取られた原稿の種類を自動で判別する「原稿種認識」という技術が存在し、原稿種に応じて、後段の処理を切り替える手法はよく知られている。しかし、後段の処理によって、求められる原稿種も異なる。例えば、写真、文書、帳票などの原稿種を認識すれば済む場合もあれば、帳票である場合には更に、帳票の一種である明細書、請求書などに分類することを求められることもある。
【0011】
図1は、原稿種の一例を示す。
図1(a)の原稿種は文書、
図1(b)の原稿種は帳票、
図1(c)の原稿種は図面、
図1(d)の原稿種は写真である。
【0012】
日々、多種多様な原稿が画像処理装置に入力される環境では、画像処理装置が1つの方式で汎用的に全ての原稿種を判別することは難しい。また、画像処理装置が認識すべき原稿種が細かくなるほど、原稿種認識の処理は複雑となり、処理時間やメモリなどのリソース負荷も増大する傾向にある。
【0013】
更に、画像処理装置が複数の用途に使用される場合もある。用途とは、画像処理装置で読み取った原稿の画像データに対し行われる処理であり、例えばOCR、フォルダへの保存、又は、帳票処理などである。用途は画像処理装置で動作するアプリケーションにより特定される。画像処理装置が各アプリケーションで様々な原稿種を認識する場合、アプリケーションごとに複数の原稿種認識の機能が必要になり、アプリケーションの開発が非効率である。また、各アプリケーションが共通の原稿種を認識する場合には、各アプリケーションが重複して原稿種認識の機能を保持するため、リソース逼迫の要因となっていた。
【0014】
そこで、本実施形態では、1つの画像処理装置が様々な用途で原稿種を認識する(様々な原稿種タイプを判別したい)環境において、原稿種認識の構成を多段構成として、用途に応じて原稿種の認識結果を出力する。
【0015】
図2は、本実施形態の画像処理装置20が行う原稿種認識の概略を説明する図である。
(1) まず、画像処理装置20は、異なる原稿種認識の機能を多段構成により保持している。異なる原稿種認識は、用途(例えばアプリケーション)それぞれにより保持されているのではない。
(2) また、各アプリケーションには予め、このアプリケーションが処理する上で認識したい1つ以上の原稿種(このアプリケーションが処理できる原稿種)が対応付けられている。
(3) ユーザーが原稿を画像処理装置20に読み取らせる場合、複数のアプリケーションから所望のアプリケーションを設定する。
(4) 画像処理装置20は、ユーザーが設定したアプリケーションに応じて、このアプリケーションに対応付けられた原稿種が認識されるまで原稿種認識を繰り替えす。すなわち、アプリケーションがアプリDである場合、画像処理装置20は第一の原稿種認識を行うがアプリDに対応付けられた原稿種(A社の明細書、B社の明細書)が認識されないと判断する。また、第一の原稿種認識により、より細分化された原稿種を第二の原稿種認識で認識すべき原稿種(帳票)が認識された。
(5) このため、画像処理装置20は第二の原稿種認識を行うがアプリDに対応付けられた原稿種が認識されないと判断する。また、第二の原稿種認識により、より細分化された原稿種を第三の原稿種認識で認識すべき原稿種(明細書)が認識された。
(6) このため、画像処理装置20は第三の原稿種認識を行うことで、アプリDに対応付けられた原稿種(A社の明細書又はB社の明細書)が認識することができる。
【0016】
従って、本実施形態の画像処理装置20は、同じ原稿種認識の機能を用途別に有するのでなく、アプリケーションに対応付けられている原稿種を認識するまで、異なるアプリケーションに共通の多段構成の原稿種認識を繰り返す。よって、1つの画像処理装置が様々な用途で原稿種を認識する環境において、効率的にかつリソースを逼迫することなく多種多様な原稿種認識を実現することができる。
【0017】
<用語について>
アプリケーションとは、OS(Operating System)の上で動作するよう特定の目的をもって開発された専用のプログラムである。本実施形態では、アプリケーションは、予め設定されている原稿種に対し画像データを加工するものであればよい。また、アプリケーションはWebアプリでもよい。本実施形態では、アプリケーションを「アプリ」という場合がある。
【0018】
原稿種とは、原稿がどのような内容を有するかを識別するための原稿の種類である。原稿種は、例えば、文書、帳票、写真、図面、明細書、請求書などであるが、これらには限られない。原稿種の判別タイプとは、1つ以上の原稿種の組み合わせである。原稿種の判別タイプは、IDで原稿種の組み合わせを指定するものでもよい。本実施形態では、原稿種の判別タイプは、原稿種のパターンという用語で説明される。
【0019】
段階的とは、認識できる原稿種が異なる原稿種認識処理を行う繰り返すことをいう。画像処理装置20は、第一段階で文書、帳票、写真、図面のいずれか、第二段階で明細書、請求書のいずれか、第三段階でA社の明細書、B社の明細書、のように段階的に原稿種を認識する。
【0020】
<構成例>
図3は、原稿種認識を行う装置の一例である画像処理装置20又は画像処理システム100を示す。
図3(a)の画像処理装置20は、ユーザーが使用する、例えば、複合機やMFP(Multifunction Peripheral)と呼ばれる、複数の異なる機能を併せ持った装置である。画像処理装置20は、少なくともスキャナ機能を有している。スキャナとは、通信や記録のために画像や文書などをデジタル静止画像に変換する装置又は機能である。本実施形態では、デジタル静止画像はカラーでもモノクロでもよい。デジタル静止画像は、動画のスナップショットでもよい。
【0021】
画像処理装置20は、スキャナ機能の他、フアクス機能、プリント機能、及び、コピー機能等を有していてよい。画像処理装置20は、画像形成装置、印刷装置、プリンタ、又はスキャナ装置等と呼ばれてもよい。
【0022】
図3(a)の画像処理装置20は、単体で、原稿画像をスキャンして多階調の画像データを生成し、画像データに対し原稿種認識を行うことができる。画像処理装置20では複数のアプリケーションが動作でき、アプリケーションは原稿種に応じた処理を行う。
【0023】
一方、
図3(b)に示すように、画像データの生成と本実施形態の原稿種認識を異なる装置がそれぞれ行ってもよい。
図3(b)は、情報処理装置40が、原稿種認識を行う画像処理システム100の一例である。この画像処理システム100は、情報処理装置40と、画像処理装置20と、を有する。情報処理装置40と画像処理装置20は、施設内のLANやWi-Fi(登録商標)、又は、USBケーブルなどで通信可能に接続されている。
【0024】
ユーザーが原稿を画像処理装置20にセットしてスキャンを実行すると、画像処理装置20が画像データを、ネットワークNを介して情報処理装置40に送信する。情報処理装置40は、画像処理装置20が原稿をスキャンして生成した画像データを受信し、画像データに対し原稿種認識を行うことができる。
【0025】
また、
図3(c)に示すように、原稿種認識はワークフロー処理の一部として実行されてもよい。ワークフローとは、複数の処理(例えば、スキャン、クラウドへの保存、又はメール送信等)を組み合わせて実行する一連の処理である。例えば、画像処理装置20が原稿を読み取って生成した画像データに情報処理システム60が所定の処理を行った上で、クラウドに保存したりメール送信したりするサービスが知られている。
【0026】
図3(c)は、ワークフローを実行する画像処理システム100を示す。画像処理システム100は、情報処理システム60と、画像処理装置20と、を有する。情報処理システム60は、画像処理システム100に含まれていてもいなくてもよい。情報処理システム60と画像処理装置20は、インターネット等の広域的なネットワークN1を介して通信可能に接続されている。画像処理装置20は、企業などの施設に配置されており、施設に敷設されているネットワークN2に接続されている。ネットワークN2は、LAN、Wi-Fi(登録商標)、広域イーサネット(登録商標)、又は、4G、5G、6G等の携帯電話網、などでよい。
【0027】
情報処理システム60は、一台以上のコンピュータで実現されてよい。情報処理システム60は、クラウドコンピューティングにより実現されてもよいし、単一の情報処理装置によって実現されてもよい。クラウドコンピューティングとは、特定ハードウェア資源が意識されずにネットワーク上のリソースが利用される形態をいう。情報処理システム60は、インターネット上に存在しても、オンプレミスに存在してもよい。
【0028】
画像処理装置20と情報処理システム60は、Webアプリを実行してよい。Webアプリとは、Webブラウザ上で動作するプログラミング言語(例えばJavaScript(登録商標))によるプログラムとWebサーバー側のプログラムが協調することによって動作するアプリケーションである。これに対し、画像処理装置20にインストールされなければ実行されないアプリケーションをネイティブアプリという。本実施形態に関しても、画像処理装置20で実行されるアプリケーションはWebアプリでもネイティブアプリでもよい。
【0029】
情報処理システム60は、Webアプリの画面を画像処理装置20が表示するための画面情報を生成する。画面情報は、HTML、XML、スクリプト言語、及びCSS(Cascading Style Sheet)等で記述されたプログラムであり、主にHTMLによりWebページの構造が特定され、スクリプト言語によりWebページの動作が規定され、CSSによりWebページのスタイルが特定される。
【0030】
図3(c)の形態では、画像処理装置20がスキャナ機能により画像データを生成し、原稿種認識を行い、ネットワークN1,N2を介して情報処理システム60に送信する。情報処理システム60は、ユーザーが設定したワークフローを実行することで、メール送信したりクラウドに保存したりする。
【0031】
あるいは、
図3(c)の形態において、原稿種認識を情報処理システム60が行ってもよい。画像処理装置20がスキャナ機能により画像データを生成し、ネットワークN1,N2を介して画像データを情報処理システム60に送信する。情報処理システム60は、受信した画像データに対し原稿種認識を行い、以降のワークフローを実行する。
【0032】
情報処理システム60は、ワークフローの実行を受け付けることもできるが、ユーザーがワークフローに関する設定(ライセンスの割り当て、初期設定など)を行うために使用されてよい。
【0033】
また、
図3(b)の情報処理装置40や
図3(c)の情報処理システム60が原稿種認識を行う画像データは、画像処理装置20がスキャンしたものでなくてよい。例えば、画像処理装置20はデジタルカメラやスマートフォンでもよく、これらが文書等を撮像して生成した画像データに対し、情報処理装置40や情報処理システム60が原稿種認識を行ってもよい。また、ネットワーク上の任意の画像に対し、情報処理装置40や情報処理システム60が原稿種認識を行うことができる。
【0034】
なお、以下の説明では、特に言及しない場合、
図3(a)の画像処理装置20が原稿種認識を行うものとして説明する。
【0035】
<ハードウェア構成例>
図4は、本発明の実施形態に係る画像処理装置20のハードウェア構成の一例を示す図である。
図4に示すように、画像処理装置20は、コントローラ910、近距離通信回路920、エンジン制御部930、操作パネル940、ネットワークI/F950を備えている。ここで、画像処理装置20は、画像形成装置、MFP、Multifunction Peripheral/Product/Printerであってもよい。
【0036】
これらのうち、コントローラ910は、コンピュータの主要部であるCPU901、システムメモリ(MEM-P)902、ノースブリッジ(NB)903、サウスブリッジ(SB)904、ASIC(Application Specific Integrated Circuit)906、ローカルメモリ(MEM-C)907、HDDコントローラ908、及び、HD909を有し、NB903とASIC906との間をAGP(Accelerated Graphics Port)バス921で接続した構成となっている。
【0037】
これらのうち、CPU901は、画像処理装置20の全体を制御する。NB903は、CPU901と、MEM-P902、SB904、及びAGPバス921とを接続するためのブリッジであり、MEM-P902に対する読み書きなどを制御するメモリコントローラと、PCI(Peripheral Component Interconnect)マスタ及びAGPターゲットとを有する。
【0038】
MEM-P902は、コントローラ910の各機能を実現させるプログラムやデータの格納用メモリであるROM902a、プログラムやデータの展開、及びメモリ印刷時の描画用メモリなどとして用いるRAM902bとからなる。なお、RAM902bに記憶されているプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD-ROM、CD-R、DVD等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。
【0039】
SB904は、NB903とPCIデバイス、周辺デバイスとを接続するためのブリッジである。ASIC906は、画像処理用のハードウェア要素を有する画像処理用途向けのIC(Integrated Circuit)であり、AGPバス921、PCIバス922、HDDコントローラ908及びMEM-C907をそれぞれ接続するブリッジの役割を有する。このASIC906は、PCIターゲット及びAGPマスタ、ASIC906の中核をなすアービタ(ARB)、MEM-C907を制御するメモリコントローラ、ハードウェアロジックなどにより画像データの回転などを行う複数のDMAC(Direct Memory Access Controller)、並びに、スキャナ部931、プリンタ部932、及びファクス部933との間でPCIバス922を介したデータ転送を行うPCIユニットとからなる。なお、ASIC906には、USB(Universal Serial Bus)のインターフェースや、IEEE1394(Institute of Electrical and Electronics Engineers 1394)のインターフェースが接続されていてもよい。
【0040】
近距離通信回路920は、ICカードなどに記憶されたユーザーの認証情報などを読み込むためのカードリーダ920aを有する。
【0041】
操作パネル940は、ユーザーによる入力を受け付けるタッチパネル940aとテンキー940bを有する。また、タッチパネル940aは、画像処理装置20の設定画面などを表示する。
【0042】
<画像処理装置の機能構成>
図5は、画像処理装置20の一例として、デジタル式のカラー画像形成装置の概略構成を示した機能ブロック図である。デジタル式のカラー画像処理装置は、設定受付部6、読み取り部1、画像処理部2、画像データ記憶部3、印刷部4、及びアプリ処理部5を有している。画像処理装置20が有するこれら各機能部は、画像処理装置20にインストールされた1以上のプログラムに含まれる命令をCPU901が実行することで実現される機能又は手段である。あるいは、各機能部は、ASIC(Application Specific Integrated Circuit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)やハード的な回路モジュール等により実現されてもよい。
【0043】
設定受付部6は、ユーザーによるスキャン時の設定条件を受け付ける。ユーザーは、条件設定として、例えば使用するアプリケーションやアプリケーション内の任意の条件(ファイルフォーマット、解像度やOCR適用有無、保存先など)を設定する。以下、設定受付部6で設定されるアプリケーションの種類を、「設定条件」として記載する。本実施形態では、設定条件のうち、主に設定されたアプリケーションの種別が使用される。設定受付部6が受け付けた設定条件は、画像処理部2やアプリ処理部5にも入力される。
【0044】
ユーザーによるスキャン時の設定が完了して、処理が開始されると読み取り部1が原稿を読み取る。読み取り部1は、原稿を光学的に読み取って画像データを生成する装置である。読み取り部1は、設定受付部6が受け付けた設定条件に従って読み取った画像データを画像処理部2へ送る。
【0045】
画像処理部2は、ガンマ補正部21、領域検出部22、データインターフェース部23、色処理/UCR部24、及び、プリンタ補正部25を有する。スキャン画像の生成時、ガンマ補正部21、領域検出部22が順に画像データを処理する。コピー画像の生成時、ガンマ補正部21、領域検出部22、データインターフェース部23、色処理/UCR部24、及び、プリンタ補正部25が順に処理する。
【0046】
ガンマ補正部21は、読み取り部1が読み取ったデータ(A/D変換後のR,G,B各色8ビット)を、色ごとの諧調バランスを揃えるために各信号に一次元変換を施す手段である。ここでは説明のため、データは、変換後に濃度リニア信号(RGB信号:白を意味する信号値を0とする)に変換され、ガンマ補正部21の出力は、領域検出部22と、そのままデータインターフェース部23へ送られる。領域検出部22は、読み取られた画像データにおける注目画素又は画素ブロックが文字領域又は非文字領域(すなわち絵柄)であるかを判断し、また、有彩色か無彩色かを判断する。
【0047】
データインターフェース部23は、領域検出部22からの判断結果及びガンマ補正部21による処理後の画像データを画像データ記憶部3へ一時保存する際の、例えばHDD用のインターフェースである。
【0048】
なお、スキャン画像の処理フローでは、領域検出部22からの判断結果及びガンマ補正部21により処理された画像データを画像データ記憶部3へ一時保存して、画像データが画像データ記憶部3よりアプリ処理部5に入力され、各アプリケーションの処理が実施される。
【0049】
一方、コピー画像の生成時、データインターフェース部23から色処理/UCR部24へは、ガンマ補正後の画像データと領域検出部22からの判断結果が送られる。色処理/UCR部24は、画素領域あるいは画素ブロックごとの判断結果に基づいて、色処理やUCR処理を選択する手段である。更に、プリンタ補正部25は、色処理/UCR部24からのC,M,Y,Bkの画像信号を受け、プリンタ特性を考慮したガンマ補正処理とディザ処理を施し印刷部4へ送る。
【0050】
つまり、コピー画像の処理フローでは、領域検出部22が行った、読み取られた画像データの注目画素又は画素ブロックが文字領域又は非文字領域(すなわち絵柄)であるかを判断する文字判断と、有彩色か無彩色かを判断する色判断の結果を使用する。色処理/UCR部24は、文字判断と色判断の結果に応じて原稿に適した色再現処理を行う。
【0051】
画像処理部2が出力した画像データを印刷部4が用紙などの媒体に転写する。印刷部4は、転写印字ユニットを制御してコピー画像を出力する。
【0052】
アプリ処理部5は、画像データ記憶部3に一時保存された、ガンマ補正部21により処理された画像データを取得して、原稿種認識を行う。アプリ処理部5は、設定受付部6が受け付けた設定条件に従い、出力する原稿種のパターン(アプリに対応付けられた認識すべき1つ以上の原稿種)を決定して、該当する出力結果が得られるまで原稿種認識を行う。アプリ処理部5は、得られた結果を用いて、設定条件に従った処理(PDFなどのファイルフォーマット変換、OCRの実施、原稿種に応じて予め決められた保存先・宛先に送信など)を行う。
【0053】
アプリ処理部5は原稿種認識実施部51とアプリケーション実施部52とを有する。原稿種認識部512は、処理フローに基づいて原稿種認識を行う。処理フローは、例えば、原稿種認識を行い、その原稿種認識の結果を用いて、設定受付部6が受け付けた設定条件に従い処理を実行するためのフローである。
【0054】
原稿種認識実施部51は、設定受付部6が受け付けた設定条件から、予め設定条件に対応付けられた原稿種のパターンを確認して、画像データから確認した原稿種が出力されるまで原稿種認識を行う。原稿種認識実施部51で出力された原稿種情報は画像データ記憶部3より入力された画像データと併せて、アプリケーション実施部52に入力される。
【0055】
アプリケーション実施部52は、ガンマ補正部21が処理した画像データに対して、設定受付部6が受け付けた設定条件に従った処理(PDFなどのファイルフォーマット変換、OCRの実施、原稿種に応じて予め決められた保存先・宛先に送信など)を行う。
【0056】
次に、
図6に基づいて、原稿種認識部512について詳細に説明する。
図6は、原稿種認識実施部51の機能構成図である。原稿種認識実施部51は、原稿種判断部511と、原稿種認識部512と、次段認識原稿種決定部513と、を有している。
【0057】
原稿種判断部511は、設定受付部6が受け付けた設定条件に基づいて、後段の原稿種認識で出力される原稿種のパターンを取得する(
図7参照)。アプリケーションによって決まる原稿種の組み合わせを原稿種のパターンと称する。パターンと原稿種の対応の一例を
図7に示す。
【0058】
原稿種判断部511は、設定受付部6が受け付けた設定条件に予め対応付けられた原稿種のパターンを、画像データ記憶部3より入力された画像データに対して原稿種認識を実施する際の原稿種パターン情報として設定する。画像データ記憶部3より入力された画像データと原稿種パターン情報は原稿種認識部512に入力される。
【0059】
原稿種認識部512は、設定受付部6が受け付けた設定条件(アプリケーション)に対応付けられた原稿種のパターンを確認して、画像データに対して、確認した原稿種のパターンが出力されるまで原稿種認識を行う。原稿種認識部512が得た原稿種情報は後段のアプリケーション実施部52で使用する原稿種情報としてアプリケーション実施部52に入力される。原稿種認識部512は、いわゆる分類処理を行い、クラス(原稿種)を出力する。
【0060】
原稿種認識部512は、原稿種判断部511より入力された画像データに対して原稿種認識を行う。原稿種認識部512は、複数の原稿種認識の方式を含む。ここでは3つの原稿種認識の方式(パターンA、パターンB、パターンC)又は4つ(更にパターンDを含む)を持つ場合を例として説明するが、方式の個数について制限はない。詳細は
図7~
図9にて説明する。
【0061】
全て(例えば3つ又は4つ)の原稿種認識の方式を原稿種認識部512が有している。原稿種認識部512は、次段認識原稿種決定部513から要求される「実施する原稿種認識の方式の情報」に従い、使用する原稿種認識の方式を変更して原稿種認識を行う。原稿種認識の方式については、ルールベースの方式(例えば画像の特徴量から原稿種を判別する、など)、又は、ニューラルネットワークを用いた方式など制限はない。特徴量には背景部分の色のヒストグラム、文字数、直線の数、矩形の数等がある。
【0062】
原稿種認識部512は、第一の原稿種認識をニューラルネットワークで行い、第二の原稿種認識をルールベースで行うなど、段階ごとに認識方法を切り替えてもよい。また、原稿種認識部512は、原稿からOCRによりテキストを抽出し、形態素解析でキーワードに分割し、このキーワードに対する自然言語処理を用いて原稿種を認識してもよい。自然言語処理とは、例えば単に辞書をキーワードで検索し、キーワードに対応付けられている原稿種を推定する処理でもよいし、1つ以上のキーワードをニューラルネットワークに入力して原稿種を出力する処理でもよい。
【0063】
原稿種認識部512がニューラルネットワークを用いて原稿種を認識する場合、担当者が各原稿種の学習データセットを用意して、原稿種認識のための学習モデルを作成する。学習モデルはパターンごとに最適化することができる。例えば、パターンAの原稿種認識をニューラルネットワークで実施する場合、原稿種認識装置は、パターンAは「パターンAに含まれる原稿種の原稿」で構成された学習データセットAを学習して学習モデルAを生成する。同様に、原稿種認識装置は、パターンBは「パターンBに含まれる原稿種の原稿」で構成された学習データセットBを学習して学習モデルBを生成する、ということができる。また、パターンBがパターンAの後段に実施されることを前提とする場合、「パターンAで帳票と判別される原稿」かつ「パターンBに含まれる原稿種の原稿」で構成された学習データセットBを構築して学習モデルBを生成する、ということもできる。例えば、パターンAで判別される原稿が帳票であり、この帳票が「パターンBに含まれる原稿種の原稿」として更に明細書と請求書に認識される場合、パターンBは帳票と判別される学習データセットを学習した学習モデルにより認識される。
【0064】
これによりパターンAとの親和性が高い学習モデルを作ることができる。本実施形態では、パターンBの原稿種認識はパターンAの原稿種認識で「帳票」アプリが設定された場合に実施されるという前提で説明する。つまり、パターンBの原稿種認識を帳票に特化した原稿種認識の方式とすることができる。このような構成にできるのは、本実施形態が多段構成だからこそ実現できるものである。
【0065】
原稿種認識部512は、原稿種認識に必要な前処理(グレースケール変換や変倍など)についても行い、前処理の内容は実施する原稿種認識の方式に応じて切り替えることができる。
【0066】
次段認識原稿種決定部513は、原稿種認識部512より出力された原稿種認識結果が、設定受付部6が受け付けた設定条件に対応付けられた原稿種と一致するかの判断を行う。次段認識原稿種決定部513が一致すると判断した場合、原稿種認識部512より出力された原稿種認識結果と原稿種判断部511により入力された画像データはアプリケーション実施部52に出力される。次段認識原稿種決定部513が一致しないと判断した場合、多段構成の次の原稿種認識を原稿種認識部512に指示するか、原稿種を判断不能と判断する。
【0067】
<原稿種のパターンの一例>
図7は、原稿種認識により認識される複数の原稿種を組み合わせたパターン設定の例を示す。
図7によれば、パターンAは、原稿種として文書、帳票、写真、又は図面が認識されるパターンである。
図7のパターンは一例であり、パターン数に制限はない。また、各パターンにおいて原稿種の組み合わせも任意である。各パターンは、画像処理装置20の開発者などが予め設定することができる。
【0068】
図7のようなパターンの場合、原稿種のパターンの階層構造は
図8のように表すことができる。
図8はパターンA~Dの階層構造を示す。階層構造とは、上位のパターンにより認識された原稿種を、下位のパターンのより細分化された原稿種に細分化して認識する関係が、複数のパターンの間にあることをいう。
【0069】
すなわち、パターンAにより帳票であると認識された原稿は、パターンBにより更に明細書又は請求書と認識され得る。パターンBにより明細書と認識された原稿は、パターンCにより更に細分化して原稿種(A社の明細書、B社の明細書)が認識される。一方、パターンAにより写真であると認識された原稿は、パターンDにより更に細分化して原稿種(風景写真、顔写真)が認識される。
【0070】
次段認識原稿種決定部513は、
図8の階層構造と原稿種の認識結果に基づいて、次にどのパターンの原稿種を認識するかを制御する。
【0071】
一台の画像処理装置20が様々な用途で原稿種認識を行う場合、汎用的な方法でパターンA~Dの原稿種を全て判別することは難しい。本実施形態では、原稿種認識部512が、上位のパターンで認識された原稿種を更に細分化して認識するという段階的な認識を行うので、細かな原稿種判別を一台の画像処理装置20が行える。パターンA~Dに対応する原稿種認識の機能はそれぞれ1つあればよいので、効率的かつリソース逼迫も低減できる。
【0072】
図8の階層構造は一例であるが、原稿種の認識の順番は、上位の原稿種認識で認識される原稿種を、下位の原稿種認識がより細分化された原稿種に認識する順番であることが好ましい。
【0073】
<アプリケーションとパターンの対応付け>
図9は、アプリケーションと原稿種のパターンとの対応をユーザーが設定するパターン設定画面200を示す。このユーザーは主に画像処理装置20の開発者であるが、顧客側のユーザーでもよい。
【0074】
例えば、画像処理装置20が操作パネルに
図9のパターン設定画面200を表示させる。設定受付部6は、タッチパネル及びキーボード等に対するユーザーの操作を受け付ける。パターン設定画面200は、アプリケーションとパターンA~Dを対応付ける2次元テーブルを有している。ユーザーは、アプリケーションが必要とする原稿種を考慮して、各アプリケーションについてどのパターンで原稿種認識を行うかを設定する。すなわち、ユーザーは、アプリケーションで行いたい原稿種のパターンにチェックを設定する。
【0075】
図9のように各アプリケーションについて原稿種のパターンが設定された場合、各アプリケーションで実施される原稿種認識は
図10に示すようになる。
図10は、アプリケーションが多段階に利用する原稿種認識をアプリケーション別に示す。第一の原稿種認識は、パターンAに対応付けられた原稿種を認識する。第二の原稿種認識は、パターンB又はパターンDに対応付けられた原稿種を認識する。第三の原稿種認識は、パターンCに対応付けられた原稿種を認識する。なお、第一、第二、第三という順番は、段階的な原稿種認識の順番を示しており、特定のパターンの原稿種認識に対応しないことに注意されたい。
【0076】
本実施形態では、
図8に示したように原稿種認識部512が段階的な認識を行うので、パターンA→パターンB→パターンCの順、又は、パターンA→パターンDの順に、段階的に異なる原稿種認識が実施される。
【0077】
例えば、「スキャンtoフォルダ」というアプリケーション(以下、「スキャンtoフォルダ」アプリともいう)は、パターンAが対応付けられたので、
図8の階層構造によれば第一の原稿種認識のみが実施される。「スキャンtoフォルダ」アプリは、画像処理装置20が原稿を読み取って生成した画像データを例えばユーザーに対応するフォルダに保存するアプリである。
「OCR」というアプリケーション(以下、「OCR」アプリともいう)は、パターンAが対応付けられたので、
図8の階層構造によれば第一の原稿種認識のみが実施される。「OCR」アプリは、画像処理装置20が原稿を読み取って生成した画像データに対し文字認識を行うアプリである。
「帳票識別」というアプリケーション(以下、「帳票識別」アプリともいう)は、パターンBが対応付けられたので、
図8の階層構造によれば第一の原稿種認識と第二の原稿種認識が実施される。「帳票識別」アプリは、画像処理装置20が原稿を読み取って生成した画像データが帳票である場合に、どのような帳票か(例えば明細書、請求書)を識別するアプリである。「帳票識別」アプリは、例えば明細書、請求書を決まったフォルダに保存する。
「会計システム」というアプリケーション(以下、「会計システム」アプリともいう)は、パターンCが対応付けられたので、
図8の階層構造によれば第一の原稿種認識と第二の原稿種認識と第三の原稿種認識が実施される。「会計システム」アプリは、画像処理装置20が原稿を読み取って生成した画像データが明細書である場合に、どのような明細書か(例えばA社の明細書、B社の明細書)を識別するアプリである。「会計システム」アプリは、各社の明細書のフォーマットに基づいて、支払金額などを明細書から抽出する。
「アルバム」というアプリケーション(以下、「アルバム」アプリともいう)は、パターンDが対応付けられたので、
図8の階層構造によれば第一の原稿種認識と第二の原稿種認識が実施される。「アルバム」アプリは、画像処理装置20が原稿を読み取って生成した画像データが写真である場合に、どのような写真か(例えば風景写真、顔写真)を識別するアプリ(自動分類する)である。「アルバム」アプリは、例えば風景写真、顔写真を決まったフォルダに保存する。
【0078】
<
図7~
図9の場合の原稿種の認識>
図7~
図9の設定例に基づいて、原稿種認識部512と次段認識原稿種決定部513が行う処理について説明する。この説明では、原稿種認識部512が、パターンAの原稿種を認識する第一の原稿種認識、パターンBの原稿種を認識する第二の原稿種認識、パターンCの原稿種を認識する第三の原稿種認識、の機能を有するものとする。
【0079】
原稿種認識部512は、原稿種判断部511より画像データが入力されると、まずは第一の原稿種認識を実施する。原稿種認識部512は、第一の原稿種認識に対応付けられた前処理、後処理(画像データを加工して第一の原稿種認識を複数回行い多数決で原稿種を決定する場合などの各種結果の集計処理など)を実施する。原稿種認識部512は、原稿種判断部511より入力された画像データと第一の原稿種認識の結果であることを示す情報と第一の原稿種認識結果を次段認識原稿種決定部513に出力する。
【0080】
次段認識原稿種決定部513は、原稿種認識部512より入力された第一の原稿種認識結果と設定受付部6が受け付けた設定条件に対応付けられた原稿種と一致するかの判断を行う。設定受付部6が受け付けた設定条件に対応付けられた原稿種がパターンAに属する場合を説明する。言い換えると第一の原稿種認識の結果(
図7のパターンAに属する原稿種)が、設定受付部6が受け付けたアプリケーションに対応付けられた原稿種(「スキャンtoフォルダ」アプリ、「OCR」アプリに対応付けられたパターンAの原稿種群)に属する場合、次段認識原稿種決定部513は、入力された画像データと第一の原稿種認識の結果を、アプリケーション実施部52に出力する。
【0081】
設定受付部6が受け付けた設定条件に対応付けられた原稿種がパターンAに属さない場合について説明する。言い換えると第一の原稿種認識の結果(
図7のパターンAに属する原稿種)が、設定受付部6が受け付けたアプリケーションに対応付けられた原稿種(例えば「帳票識別」アプリに対応付けられたパターンBの原稿種群)に属さない場合、次段認識原稿種決定部513は、第一の原稿種認識の結果であることを示す情報と第一の原稿種認識結果の次に実施する原稿種認識の方式についての情報を作成する。
【0082】
原稿種認識部512が次に実施する原稿種認識の方式についての情報は直前の原稿種認識の結果(第一の原稿種認識結果)が「帳票」であるかを確認したうえで作成される。「帳票」の場合は、原稿種認識部512がパターンBの原稿種を認識するためである。「帳票」である場合は次に実施する原稿種認識の方式についての情報(ここでは第二の原稿種認識を行う、という情報)は、
図8の階層構造に基づいて次段認識原稿種決定部513から出力されて改めて原稿種認識部512に入力(要求)される。
【0083】
その一方で、第一の原稿種認識の結果(
図7のパターンAに属する原稿種)が「帳票」以外となった場合、つまり、ユーザーが設定したアプリで使用しない原稿種だった場合、次段認識原稿種決定部513は、「判断不能」と判断する。次段認識原稿種決定部513は、「判断不能」という結果と原稿種判断部511より入力された画像データと第一の原稿種認識の結果をアプリケーション実施部52に出力する。例えば、ユーザーが「帳票識別」アプリを設定した場合に、第一の原稿種認識の結果が「図面」となった場合など、である。「帳票識別」アプリを設定してユーザーが帳票の原稿を読み取らせたのに「図面」と認識されることは誤認識と推定される。
【0084】
原稿種認識部512は次段認識原稿種決定部513から入力された次に実施する原稿種認識の方式についての情報に従い、第二の原稿種認識を行う。原稿種認識部512は、原稿種判断部511より入力された画像データと第二の原稿種認識の結果であることを示す情報と第二の原稿種認識結果を出力する。このとき、第二の原稿種認識に対応付けられた前処理、後処理が実施される。
【0085】
設定受付部6が受け付けた設定条件に対応付けられた原稿種がパターンBに属する場合について説明する。言い換えると第二の原稿種認識の結果(
図7のパターンBに属する原稿種)が、設定受付部6が受け付けたアプリケーションに対応付けられた原稿種(設定受付部6で設定された「帳票識別」アプリに対応付けられたパターンBの原稿種群)に属する場合、次段認識原稿種決定部513より入力された画像データと第二の原稿種認識の結果が出力され、アプリケーション実施部52に入力される。
【0086】
設定受付部6が受け付けた設定条件に対応付けられた原稿種がパターンBに属さない場合について説明する。言い換えると第二の原稿種認識の結果(
図7のパターンBに属する原稿種)が、設定受付部6が受け付けたアプリケーションに対応付けられた原稿種(設定受付部6で設定された「帳票識別」アプリに対応付けられたパターンBの原稿種群)に属さない場合、次段認識原稿種決定部513は、第二の原稿種認識の結果であることを示す情報と第二の原稿種認識結果から次に実施する原稿種認識の方式についての情報を作成する。
【0087】
原稿種認識部512が次に実施する原稿種認識の方式についての情報は直前の原稿種認識の結果(第二の原稿種認識結果)が「明細書」であるかを確認したうえで作成される。「明細書」の場合は、原稿種認識部512がパターンCの原稿種を認識するためである。原稿種が「明細書」である場合、次に実施する原稿種認識の方式についての情報(ここでは第三の原稿種認識を行う、という情報)は、
図8の階層構造に基づいて次段認識原稿種決定部513から出力されて改めて原稿種認識部512に入力(要求)される。
【0088】
一方、第二の原稿種認識の結果(
図7のパターンBに属する原稿種)が「明細書」以外となった場合、つまり、ユーザーが設定したアプリで使用しない原稿種だった場合、次段認識原稿種決定部513は、「判断不能」と判断する。次段認識原稿種決定部513は、「判断不能」という結果と原稿種判断部511より入力された画像データと第二の原稿種認識の結果をアプリケーション実施部52に出力する。例えば、ユーザーが「会計システム」アプリを設定した場合に、第二の原稿種認識の結果が「請求書」となった場合など、である。「会計システム」アプリを設定してユーザーが明細書の原稿を読み取らせたのに「請求書」と認識されることは誤認識と推定される。
【0089】
原稿種認識部512は、次段認識原稿種決定部513から入力された次に実施する原稿種認識の方式についての情報に従い、第三の原稿種認識を行う。
【0090】
原稿種認識部512は、原稿種判断部511より入力された画像データと第三の原稿種認識の結果であることを示す情報と第三の原稿種認識結果を出力する。
【0091】
設定受付部6が受け付けた設定条件に対応付けられた原稿種がパターンCに属する場合について説明する。言い換えると第三の原稿種認識の結果(
図7のパターンCに属する原稿種)が、設定受付部6が受け付けたアプリケーションに対応付けられた原稿種(設定受付部6で設定された「会計システム」アプリに対応付けられたパターンCの原稿種群)に属する場合、次段認識原稿種決定部513より入力された画像データと第三の原稿種認識の結果が出力され、アプリケーション実施部52に入力される。
【0092】
設定受付部6が受け付けた設定条件に対応付けられた原稿種がパターンCに属さない場合について説明する。言い換えると第三の原稿種認識の結果(
図7のパターンCに属する原稿種)が、設定受付部6が受け付けたアプリケーションに対応付けられた原稿種(設定受付部6で設定された「会計システム」アプリに対応付けられたパターンCの原稿種群)に属さない場合、次の原稿種認識は存在しないため、次段認識原稿種決定部513は、「判断不能」と判断する。例えば、ユーザーが「会計システム」アプリを設定した場合に、第三の原稿種認識の結果がA社の明細書でもB社の明細書でもない場合である。
【0093】
次段認識原稿種決定部513は、「判断不能」という結果と原稿種判断部511より入力された画像データと第三の原稿種認識の結果をアプリケーション実施部52に入力する。
【0094】
以上のような構成とすることで、画像処理装置20は、類似する用途(アプリケーション)でそれぞれ個別の原稿種認識の方式を持つことが不要となり、リソース(メモリやROMの使用量)の節約にもつながる。また、画像処理装置20は、原稿種認識の方式ごとに認識結果を出力することで、柔軟性の高い原稿種認識を可能とする。
【0095】
また処理時間に関しても、設定受付部6が受け付けた設定条件に応じて必要最低限の処理で済むため、多段構成においても生産性が落ちることはない。加えて生産性に関しては設定受付部6が受け付けた設定条件と明らかに違う原稿種の場合は、該当する原稿種が認識された時点で処理を終了することもできる。この場合も不要な原稿種認識を行うことがなくなり、生産性に寄与するものである。
【0096】
また、上記では3つの原稿種認識の方式をシーケンシャルで処理する例を説明したが、複数の原稿種認識の方式は必ずしもシーケンシャルである必要はなく、原稿種認識部512は、例えば第一の原稿種認識と第二の原稿種認識を並列で実施して、第一の原稿種認識と第二の原稿種認識の結果に重みをかけて原稿種認識を行う、という方法でも良い。
【0097】
この並列方式における第一の原稿種認識と第二の原稿種認識は上記で説明している第一の原稿種認識、第二の原稿種認識とは別物である。例えば、ユーザーがパターンBの原稿種を認識させたい場合に、第一の原稿種認識をルールベースの原稿種認識で、第二の原稿種認識をニューラルネットワークの原稿種認識で並行に行い、それぞれの結果を統合することで原稿種を判別する、ということも可能である。
【0098】
<動作又は処理の手順>
図11は、原稿種認識実施部51が原稿種を判断する処理を説明するフローチャート図である。
図11では、原稿種認識実施部51が、3つの原稿種認識の方式(パターンAの原稿種を認識する第一の原稿種認識、パターンBを認識する第二の原稿種認識、パターンCを認識する第三の原稿種認識)を行う場合を例として説明する。
【0099】
まず、ユーザーがアプリの設定を行う(S600)。設定受付部6がアプリの設定を受け付ける。
【0100】
次に、原稿種判断部511が、設定受付部6が受け付けたアプリに対応付けられた原稿種のパターンを特定する(S601)。
図11の説明ではパターンA~Cのいずれかが特定される。画像データ記憶部3より入力された画像データがアプリ処理部5に入力されると、原稿種認識実施部51が画像データを取得する。また、設定受付部6が受け付けた設定条件(ユーザーが設定したアプリ)もアプリ処理部5に入力され、原稿種認識実施部51及びアプリケーション実施部52が取得する。
【0101】
次に、原稿種認識部512は、第一の原稿種認識の方式に合わせた前処理を行い、第一の原稿種認識を行う(S602)。原稿種認識部512は、認識した原稿種を次段認識原稿種決定部513に出力する。
【0102】
次段認識原稿種決定部513は、ユーザーが設定したアプリに対応付けられた(求めたい)原稿種が、パターンAの原稿種に属するか判断する(S603)。ステップS603の判断がYesの場合、パターンAの原稿種認識により原稿種が決定される。例えば、ユーザーが「スキャン to フォルダ」アプリを設定した場合に、第一の原稿種認識の結果が「文書」「帳票」「写真」「図面」のいずれかになった場合である。
【0103】
ステップS603の判断がYesの場合、原稿種認識実施部51(原稿種判断部511、原稿種認識部512、次段認識原稿種決定部513含む)における処理は終了する。
【0104】
ステップS603の判断がNoの場合、次段認識原稿種決定部513は、
図8の階層構造に基づいて、第一の原稿種認識の結果が「帳票」であるか判断する(S604)。「帳票」は第一の原稿種の一例である。
【0105】
第一の原稿種認識の結果が「帳票」でない場合(S604のNo)、処理はステップS610に進む。例えば、ユーザーが「帳票識別」アプリを設定して、第一の原稿種認識の結果が「文書」「写真」「図面」の場合である。帳票と全く異なる原稿種が認識されたので誤認識と推定される。
【0106】
第一の原稿種認識の結果が「帳票」である場合(S604のYes)、更に、どのような帳票かを認識するため、原稿種認識部512が、第二の原稿種認識の方式に合わせた前処理を行い、第二の原稿種認識を行う(S605)。
【0107】
次に、次段認識原稿種決定部513は、ユーザーが設定したアプリに対応付けられた(求めたい)原稿種が、パターンBの原稿種に属するか判断する(S606)。ステップS606の判断がYesの場合、パターンBの原稿種認識により原稿種が決定される。例えば、ユーザーが「帳票識別」アプリを設定して、第二の原稿種認識の結果が「明細書」又は「請求書」の場合である。「明細書」又は「請求書」は第二の原稿種の一例である。
【0108】
ステップS606の判断がYesの場合、原稿種認識実施部51(原稿種判断部511、原稿種認識部512、次段認識原稿種決定部513含む)における処理は終了する。
【0109】
ステップS606の判断がNoの場合、次段認識原稿種決定部513は、
図8の階層構造に基づいて、第二の原稿種認識の結果が「明細書」であるか判断する(S607)。「明細書」は第三の原稿種の一例である。
【0110】
第二の原稿種認識の結果が「明細書」でない場合(S607のNo)、処理はステップS610に進む。例えば、ユーザーが「会計システム」アプリを設定して、第二の原稿種認識の結果が「請求書」の場合である。明細書と全く異なる原稿種が認識されたので誤認識と推定される。
【0111】
第二の原稿種認識の結果が「明細書」である場合(S607のYes)、更に、どのような帳票かを認識するため、原稿種認識部512が、第三の原稿種認識の方式に合わせた前処理を行い、第三の原稿種認識を行う(S608)。
【0112】
次に、次段認識原稿種決定部513は、ユーザーが設定したアプリに対応付けられた(求めたい)原稿種が、パターンCの原稿種に属するか判断する(S609)。ステップS609の判断がYesの場合、パターンCの原稿種認識により原稿種が決定される。例えば、ユーザーが「会計システム」アプリを設定して、第三の原稿種認識の結果が「A社の明細書」又は「B社の明細書」の場合である。「A社の明細書」又は「B社の明細書」は第四の原稿種の一例である。
【0113】
ステップS609の判断がYesの場合、原稿種認識実施部51(原稿種判断部511、原稿種認識部512、次段認識原稿種決定部513含む)における処理は終了する。
【0114】
ステップS609の判断がNoの場合、処理はステップS610に進む。例えば、ユーザーが「会計システム」アプリを設定して、第三の原稿種認識の結果が「A社の明細書」でも「B社の明細書」でもない場合である。つまり、3段階の原稿種認識を行っても、ユーザーが設定したアプリケーションに対応付けられた原稿種が認識されなかったことになる。
【0115】
ステップS610では、第一の原稿種認識~第三の原稿種認識において認識された原稿種がアプリに対応付けられた(求めたい)原稿種に属さなかったので、次段認識原稿種決定部513は、「判断不能」という結果を出力して、原稿種認識実施部51での処理は終了する(S610)。
【0116】
このように、原稿種認識部512は、予め設定されている順に多段階に原稿種を認識し、ユーザーが設定したアプリに対応付けられた原稿種を認識できない場合、より細分化された原稿種を認識することを繰り返すことで、1つの画像処理装置20が様々な用途で原稿種認識を行うことができる。アプリケーションの開発効率の低下も抑制でき、リソースを逼迫することなく多種多様な原稿種認識を実現することができる。
【0117】
<パターンA、パターンB、パターンDを含む原稿種認識>
図12は、パターンA、パターンB、パターンDに基づいて、原稿種認識実施部51が原稿種を判断する処理を説明するフローチャート図である。
図12では、原稿種認識実施部51が、3つの原稿種認識の方式(パターンAの原稿種を認識する第一の原稿種認識、パターンB、Dを認識する第二の原稿種認識)を行う場合を例として説明する。
【0118】
図12の説明では主に
図11との相違を説明する。
図12のステップS700~S704、S706、S708は、
図11のステップS600~S604、S605、S606と同様でよい。
【0119】
ステップS704でNoと判断された場合、
図8の階層構造に基づいて、パターンDの原稿種を認識すべきか判断するため、次段認識原稿種決定部513は、第一の原稿種認識の結果が「写真」であるか判断する(S705)。
【0120】
第一の原稿種認識の結果が「写真」でない場合(S705のNo)、処理はステップS710に進む。例えば、ユーザーが「アルバム」アプリを設定して、第一の原稿種認識の結果が「文書」「図面」の場合である。「アルバム」アプリが処理の対象とする写真と全く異なる原稿種が認識されたので誤認識と推定される。
【0121】
第一の原稿種認識の結果が「写真」である場合(S705のYes)、更に、どのような写真かを認識するため、原稿種認識部512が、第二の原稿種認識(パターンD)の方式に合わせた前処理を行い、第二の原稿種認識を行う(S707)。
【0122】
次に、次段認識原稿種決定部513は、ユーザーが設定したアプリに対応付けられた(求めたい)原稿種が、パターンDの原稿種に属するか判断する(S709)。ステップS709の判断がYesの場合、パターンDの原稿種認識により原稿種が決定される。例えば、ユーザーが「アルバム」アプリを設定して、第二の原稿種認識の結果が「風景写真」又は「人物写真」の場合である。
【0123】
ステップS709の判断がYesの場合、原稿種認識実施部51(原稿種判断部511、原稿種認識部512、次段認識原稿種決定部513含む)における処理は終了する。
【0124】
ステップS709の判断がNoの場合、処理はステップS710に進む。例えば、ユーザーが「アルバム」アプリを設定して、第二の原稿種認識の結果が「風景写真」でも「顔写真」でもない場合である。
【0125】
ステップS710では、第一の原稿種認識~第二の原稿種認識において認識された原稿種がアプリに対応付けられた(求めたい)原稿種に属さなかったので、次段認識原稿種決定部513は、「判断不能」という結果を出力して、原稿種認識実施部51での処理は終了する(S710)。
【0126】
<機械学習による原稿種認識の補足>
本実施形態では、ニューラルネットワークを用いた原稿種認識を説明したが、原稿種認識にはニューラルネットワーク以外の機械学習により生成された学習モデルが使用されてよい。機械学習とは、コンピュータに人のような学習能力を獲得させるための技術であり、コンピュータが、データ識別等の判断に必要なアルゴリズムを、事前に取り込まれる学習データから自律的に生成し、新たなデータについてこれを適用して予測を行う技術のことをいう。機械学習のための学習方法は、教師あり学習、教師なし学習、半教師学習、強化学習、深層学習のいずれかの方法でもよく、更に、これらの学習方法を組み合わせた学習方法でもよく、機械学習のための学習方法は問わない。
【0127】
例えば、ニューラルネットワークの1つのディープラーニングは、入力されたデータに基づいて出力値を予測した後に、教師データとの誤差を減らすために誤差逆伝播法でニューラルネットワーク間の重みを調整するアルゴリズムである。機械学習の手法には、パーセプトロン、サポートベクターマシン、ロジスティック回帰、ナイーブベイズ、決定木、ランダムフォレストなどがあり、本実施形態で説明する手法には限られない。
【0128】
図13は、機械学習を使用した原稿種認識装置220の機能ブロック図である。
図13に示されるように、原稿種認識装置220は、画像データ取得部221、教師データ格納部222、機械学習部223、学習済みモデル格納部224、及び、推論部225を備えることができる。以下、それぞれについて説明する。
【0129】
画像データ取得部221は、画像データ記憶部3に記憶されている原稿の画像データを取得する。
【0130】
<<学習フェーズ>>
教師データ格納部222には、機械学習のための教師データが格納されている。教師データ格納部222内の教師データは、画像データ取得部221が一定期間取得して蓄積した、画像データ(入力)と、原稿種(出力)である。
【0131】
機械学習部223は、受信した画像データから、出力する原稿種を導出するための学習済みモデルを生成する。具体的には、機械学習部223は、受信した画像データを入力データとし、その画像データの原稿種を出力データとした教師データを用いて機械学習を行い、学習済みモデルを生成する。また、機械学習部223は、生成した学習済みモデルを学習済みモデル格納部224に格納する。
【0132】
学習済みモデル格納部224には、機械学習部223が生成した学習済みモデルが格納されている。
【0133】
<<推論フェーズ>>
推論部225は、現在の画像データを取得して、この画像データの原稿種を推論する。具体的には、推論部225は、画像データ取得部221から、画像データを取得する。また、推論部225は、学習済みモデル格納部224内の学習済みモデルに画像データを入力して、原稿種を出力させる。
【0134】
<主な効果>
本実施形態の画像処理装置20は、同じ原稿種認識の機能を用途別に有するのでなく、アプリケーションに対応付けられている原稿種を認識するまで、異なるアプリケーションに共通の多段構成の原稿種認識を繰り返す。よって、1つの画像処理装置が様々な用途で原稿種を認識する環境において、効率的にかつリソースを逼迫することなく多種多様な原稿種認識を実現することができる。
【0135】
<その他の適用例>
以上、本発明を実施するための最良の形態について実施例を用いて説明したが、本発明はこうした実施例に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
【0136】
図5,
図6などの構成例は、画像処理装置20による処理の理解を容易にするために、主な機能に応じて分割したものである。処理単位の分割の仕方や名称によって本願発明が制限されることはない。画像処理装置20の処理は、処理内容に応じて更に多くの処理単位に分割することもできる。また、1つの処理単位が更に多くの処理を含むように分割することもできる。
【0137】
上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)や従来の回路モジュール等のデバイスを含むものとする。
【0138】
<付記>
[付記1]
原稿を読み取って生成した画像データをアプリケーションが処理する画像処理装置であって、
ユーザーによる前記アプリケーションの設定を受け付ける設定受付部と、
前記設定受付部が受け付けた前記アプリケーションに対応付けられている原稿種の判別タイプを判断する原稿種判断部と、
前記原稿種判断部が判断した前記原稿種の判別タイプに基づいて、前記画像データに対し段階的に原稿種の認識を行う原稿種認識部と、
を有することを特徴とする画像処理装置。
[付記2]
前記原稿種判断部が判断した前記原稿種の判別タイプに前記原稿種認識部が認識した原稿種が含まれている場合、前記原稿種認識部は、認識した原稿種が前記原稿の種類であると判断する付記1に記載の画像処理装置。
[付記3]
前記原稿種判断部が判断した前記原稿種の判別タイプに前記原稿種認識部が認識した原稿種が含まれていない場合、次の段階の原稿種認識を前記原稿種認識部に入力する次段認識原稿種決定部、を有することを特徴とする付記1又は2に記載の画像処理装置。
[付記4]
前記原稿種認識部は、認識できる前記原稿種が異なる原稿種認識を段階的に実施するものであり、
前記次段認識原稿種決定部は、予め設定されている順に、次の段階の原稿種認識を決定することを特徴とする付記3に記載の画像処理装置。
[付記5]
前記原稿種判断部が判断した前記原稿種の判別タイプに前記原稿種認識部が第一の原稿種認識により認識した原稿種が含まれておらず、かつ、
前記原稿種認識部が前記第一の原稿種認識により予め設定されている第一の原稿種を認識した場合、前記次段認識原稿種決定部は、前記第一の原稿種より細分化された第二の原稿種を認識する第二の原稿種認識を決定することを特徴とする付記4に記載の画像処理装置。
[付記6]
前記原稿種判断部が判断した前記原稿種の判別タイプに前記原稿種認識部が第二の原稿種認識により認識した前記第二の原稿種が含まれておらず、かつ、
前記原稿種認識部が前記第二の原稿種認識により予め設定されている第三の原稿種を認識した場合、前記次段認識原稿種決定部は、前記第三の原稿種より細分化された第四の原稿種を認識する第三の原稿種認識を決定することを特徴とする付記5に記載の画像処理装置。
[付記7]
前記原稿種判断部が判断した前記原稿種の判別タイプに前記原稿種認識部が第一の原稿種認識により認識した原稿種が含まれておらず、かつ、
前記原稿種認識部が前記第一の原稿種を認識しない場合、前記次段認識原稿種決定部は、前記原稿種を判断不能と判断することを特徴とする付記5に記載の画像処理装置。
[付記8]
前記原稿種認識部は、前記画像データと前記原稿種の対応を事前に学習した、ニューラルネットワークを用いた学習モデルにより前記原稿種を認識するか、
又は、前記画像データの特徴量をルールベースに基づいて判断することで前記原稿種を認識することを特徴とする付記1~7のいずれか1項に記載の画像処理装置。
【符号の説明】
【0139】
20 画像処理装置
511 原稿種判断部
512 原稿種認識部
513 次段認識原稿種決定部
【先行技術文献】
【特許文献】
【0140】