特開2024-148062 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社リコーの特許一覧

特開2024-148062画像処理装置、原稿種認識方法、プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024148062

(43)【公開日】2024-10-17

(54)【発明の名称】画像処理装置、原稿種認識方法、プログラム

(51)【国際特許分類】

H04N 1/00 20060101AFI20241009BHJP

G06N 20/00 20190101ALI20241009BHJP

【ＦＩ】

H04N1/00 L

G06N20/00

【審査請求】未請求

【請求項の数】11

【出願形態】ＯＬ

(21)【出願番号】P 2023060959

(22)【出願日】2023-04-04

(71)【出願人】

【識別番号】000006747

【氏名又は名称】株式会社リコー

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(72)【発明者】

【氏名】伊藤真也

【テーマコード（参考）】

5C062

【Ｆターム（参考）】

5C062AA05

5C062AB17

5C062AB40

5C062AC02

(57)【要約】

【課題】効率的かつリソース逼迫を低減して原稿種認識を行うこと。
【解決手段】本発明は、原稿を読み取って生成した画像データをアプリケーションが処理する画像処理装置２０であって、ユーザーによる前記アプリケーションの設定を受け付ける設定受付部と、前記設定受付部が受け付けた前記アプリケーションに対応付けられている原稿種の判別タイプを判断する原稿種判断部と、前記原稿種判断部が判断した前記原稿種の判別タイプに基づいて、前記画像データに対し段階的に原稿種の認識を行う原稿種認識部と、を有する。
【選択図】図１１

【特許請求の範囲】

【請求項1】

原稿を読み取って生成した画像データをアプリケーションが処理する画像処理装置であって、
ユーザーによる前記アプリケーションの設定を受け付ける設定受付部と、
前記設定受付部が受け付けた前記アプリケーションに対応付けられている原稿種の判別タイプを判断する原稿種判断部と、
前記原稿種判断部が判断した前記原稿種の判別タイプに基づいて、前記画像データに対し段階的に原稿種の認識を行う原稿種認識部と、
を有することを特徴とする画像処理装置。

【請求項2】

前記原稿種判断部が判断した前記原稿種の判別タイプに前記原稿種認識部が認識した原稿種が含まれている場合、前記原稿種認識部は、認識した原稿種が前記原稿の種類であると判断する請求項１に記載の画像処理装置。

【請求項3】

前記原稿種判断部が判断した前記原稿種の判別タイプに前記原稿種認識部が認識した原稿種が含まれていない場合、次の段階の原稿種認識を前記原稿種認識部に入力する次段認識原稿種決定部、を有することを特徴とする請求項１又は２に記載の画像処理装置。

【請求項4】

前記原稿種認識部は、認識できる前記原稿種が異なる原稿種認識を段階的に実施するものであり、
前記次段認識原稿種決定部は、予め設定されている順に、次の段階の原稿種認識を決定することを特徴とする請求項３に記載の画像処理装置。

【請求項5】

前記原稿種判断部が判断した前記原稿種の判別タイプに前記原稿種認識部が第一の原稿種認識により認識した原稿種が含まれておらず、かつ、
前記原稿種認識部が前記第一の原稿種認識により予め設定されている第一の原稿種を認識した場合、前記次段認識原稿種決定部は、前記第一の原稿種より細分化された第二の原稿種を認識する第二の原稿種認識を決定することを特徴とする請求項４に記載の画像処理装置。

【請求項6】

前記原稿種判断部が判断した前記原稿種の判別タイプに前記原稿種認識部が第二の原稿種認識により認識した前記第二の原稿種が含まれておらず、かつ、
前記原稿種認識部が前記第二の原稿種認識により予め設定されている第三の原稿種を認識した場合、前記次段認識原稿種決定部は、前記第三の原稿種より細分化された第四の原稿種を認識する第三の原稿種認識を決定することを特徴とする請求項５に記載の画像処理装置。

【請求項7】

前記原稿種判断部が判断した前記原稿種の判別タイプに前記原稿種認識部が第一の原稿種認識により認識した原稿種が含まれておらず、かつ、
前記原稿種認識部が前記第一の原稿種を認識しない場合、前記次段認識原稿種決定部は、前記原稿種を判断不能と判断することを特徴とする請求項５に記載の画像処理装置。

【請求項8】

前記原稿種認識部は、前記画像データと前記原稿種の対応を事前に学習した、ニューラルネットワークを用いた学習モデルにより前記原稿種を認識するか、
又は、前記画像データの特徴量をルールベースに基づいて判断することで前記原稿種を認識することを特徴とする請求項１に記載の画像処理装置。

【請求項9】

前記原稿種認識部は、段階によって、ニューラルネットワークを用いた認識と前記ルールベースを用いた認識を切り替えて前記原稿種を認識することを特徴とする請求項８に記載の画像処理装置。

【請求項10】

原稿を読み取って生成した画像データをアプリケーションが処理する画像処理装置が行う原稿種認識方法であって、
ユーザーによる前記アプリケーションの設定を受け付ける処理と、
受け付けた前記アプリケーションに対応付けられている原稿種の判別タイプを判断する処理と、
判断された前記原稿種の判別タイプに基づいて、前記画像データに対し段階的に原稿種の認識を行う処理と、
を行うことを特徴とする原稿種認識方法。

【請求項11】

原稿を読み取って生成した画像データをアプリケーションが処理する画像処理装置を、
ユーザーによる前記アプリケーションの設定を受け付ける設定受付部と、
前記設定受付部が受け付けた前記アプリケーションに対応付けられている原稿種の判別タイプを判断する原稿種判断部と、
前記原稿種判断部が判断した前記原稿種の判別タイプに基づいて、前記画像データに対し段階的に原稿種の認識を行う原稿種認識部、
として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、画像処理装置、原稿種認識方法、及びプログラムに関する。

【背景技術】

【0002】

画像処理装置がスキャナ等で読み取った原稿の画像データを解析することで原稿種を認識し、原稿種に応じて、後段の処理を切り替える手法が知られている。例えば、原稿種に応じた処理や最適な画像処理等が可能になる。しかし、日々、多種多様な原稿が画像処理装置に入力されるような環境では、汎用的な方法で細分化された原稿種を判別することは難しい。

【0003】

原稿種認識において、柔軟かつ精度よく原稿種を判断し、原稿種に応じて最適な画像処理を適用する技術が知られている（例えば、特許文献１参照。）。特許文献１には、予め決められた原稿種以外の原稿種をユーザーが任意に登録できる構成が開示されている。

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、従来の技術では、１つの画像処理装置がアプリケーションごとに原稿種認識の機能を持つことは効率が悪く、かつ、リソース逼迫の原因にもなるという問題がある。つまり、画像処理装置が各アプリケーションで様々な原稿種を認識する場合、アプリケーションごとに複数の原稿種認識の機能が必要になり、アプリケーションの開発が非効率である。また、各アプリケーションが共通の原稿種を認識する場合には、各アプリケーションが重複して原稿種認識の機能を保持するため、リソース逼迫の要因となっていた。

【0005】

本発明は、上記課題に鑑み、効率的かつリソース逼迫を低減して原稿種認識を行う技術を提供することを目的とする。

【課題を解決するための手段】

【0006】

本発明は、原稿を読み取って生成した画像データをアプリケーションが処理する画像処理装置であって、ユーザーによる前記アプリケーションの設定を受け付ける設定受付部と、前記設定受付部が受け付けた前記アプリケーションに対応付けられている原稿種の判別タイプを判断する原稿種判断部と、前記原稿種判断部が判断した前記原稿種の判別タイプに基づいて、前記画像データに対し段階的に原稿種の認識を行う原稿種認識部と、を有する。

【発明の効果】

【0007】

効率的かつリソース逼迫を低減して原稿種認識を行う技術を提供できる。

【図面の簡単な説明】

【0008】

【図1】原稿種の一例を示す図である。

【図2】画像処理装置が行う原稿種認識の概略を説明する図である。

【図3】原稿種認識を行う装置の一例である画像処理装置又は画像処理システムを示す図である。

【図4】画像処理装置のハードウェア構成の一例を示す図である。

【図5】画像処理装置の一例として、デジタル式のカラー画像形成装置の概略構成を示した機能ブロック図の一例である。

【図6】原稿種認識実施部の機能構成図の一例である。

【図7】原稿種認識により認識される複数の原稿種を組み合わせたパターン設定の例を示す図である。

【図8】パターンＡ～Ｄの階層構造の一例を示す図である。

【図9】アプリケーションと原稿種のパターンとの対応をユーザーが設定するパターン設定画面の一例を示す図である。

【図10】アプリケーションが多段階に利用する原稿種認識をアプリケーション別に示す図の一例である。

【図11】原稿種認識実施部が原稿種を判断する処理を説明するフローチャート図の一例である。

【図12】パターンＡ、パターンＢ、パターンＤに基づいて、原稿種認識実施部が原稿種を判断する処理を説明するフローチャート図の一例である。

【図13】機械学習を使用した原稿種認識装置の機能ブロック図の一例である。

【発明を実施するための形態】

【0009】

以下、本発明を実施するための形態の一例として画像処理装置と、画像処理装置が行う原稿種認識方法について図面を参照しながら説明する。

【0010】

＜処理の概略＞
スキャナ等の画像処理装置で読み取られる原稿には、文書、帳票、図面、写真など様々な種類があることが知られている。そこで、スキャナで読み取られた原稿の種類を自動で判別する「原稿種認識」という技術が存在し、原稿種に応じて、後段の処理を切り替える手法はよく知られている。しかし、後段の処理によって、求められる原稿種も異なる。例えば、写真、文書、帳票などの原稿種を認識すれば済む場合もあれば、帳票である場合には更に、帳票の一種である明細書、請求書などに分類することを求められることもある。

【0011】

図１は、原稿種の一例を示す。図１（ａ）の原稿種は文書、図１（ｂ）の原稿種は帳票、図１（ｃ）の原稿種は図面、図１（ｄ）の原稿種は写真である。

【0012】

日々、多種多様な原稿が画像処理装置に入力される環境では、画像処理装置が１つの方式で汎用的に全ての原稿種を判別することは難しい。また、画像処理装置が認識すべき原稿種が細かくなるほど、原稿種認識の処理は複雑となり、処理時間やメモリなどのリソース負荷も増大する傾向にある。

【0013】

更に、画像処理装置が複数の用途に使用される場合もある。用途とは、画像処理装置で読み取った原稿の画像データに対し行われる処理であり、例えばＯＣＲ、フォルダへの保存、又は、帳票処理などである。用途は画像処理装置で動作するアプリケーションにより特定される。画像処理装置が各アプリケーションで様々な原稿種を認識する場合、アプリケーションごとに複数の原稿種認識の機能が必要になり、アプリケーションの開発が非効率である。また、各アプリケーションが共通の原稿種を認識する場合には、各アプリケーションが重複して原稿種認識の機能を保持するため、リソース逼迫の要因となっていた。

【0014】

そこで、本実施形態では、１つの画像処理装置が様々な用途で原稿種を認識する（様々な原稿種タイプを判別したい）環境において、原稿種認識の構成を多段構成として、用途に応じて原稿種の認識結果を出力する。

【0015】

図２は、本実施形態の画像処理装置２０が行う原稿種認識の概略を説明する図である。
(1) まず、画像処理装置２０は、異なる原稿種認識の機能を多段構成により保持している。異なる原稿種認識は、用途（例えばアプリケーション）それぞれにより保持されているのではない。
(2) また、各アプリケーションには予め、このアプリケーションが処理する上で認識したい１つ以上の原稿種（このアプリケーションが処理できる原稿種）が対応付けられている。
(3) ユーザーが原稿を画像処理装置２０に読み取らせる場合、複数のアプリケーションから所望のアプリケーションを設定する。
(4) 画像処理装置２０は、ユーザーが設定したアプリケーションに応じて、このアプリケーションに対応付けられた原稿種が認識されるまで原稿種認識を繰り替えす。すなわち、アプリケーションがアプリＤである場合、画像処理装置２０は第一の原稿種認識を行うがアプリＤに対応付けられた原稿種（Ａ社の明細書、Ｂ社の明細書）が認識されないと判断する。また、第一の原稿種認識により、より細分化された原稿種を第二の原稿種認識で認識すべき原稿種（帳票）が認識された。
(5) このため、画像処理装置２０は第二の原稿種認識を行うがアプリＤに対応付けられた原稿種が認識されないと判断する。また、第二の原稿種認識により、より細分化された原稿種を第三の原稿種認識で認識すべき原稿種（明細書）が認識された。
(6) このため、画像処理装置２０は第三の原稿種認識を行うことで、アプリＤに対応付けられた原稿種（Ａ社の明細書又はＢ社の明細書）が認識することができる。

【0016】

従って、本実施形態の画像処理装置２０は、同じ原稿種認識の機能を用途別に有するのでなく、アプリケーションに対応付けられている原稿種を認識するまで、異なるアプリケーションに共通の多段構成の原稿種認識を繰り返す。よって、１つの画像処理装置が様々な用途で原稿種を認識する環境において、効率的にかつリソースを逼迫することなく多種多様な原稿種認識を実現することができる。

【0017】

＜用語について＞
アプリケーションとは、ＯＳ（Operating System）の上で動作するよう特定の目的をもって開発された専用のプログラムである。本実施形態では、アプリケーションは、予め設定されている原稿種に対し画像データを加工するものであればよい。また、アプリケーションはＷｅｂアプリでもよい。本実施形態では、アプリケーションを「アプリ」という場合がある。

【0018】

原稿種とは、原稿がどのような内容を有するかを識別するための原稿の種類である。原稿種は、例えば、文書、帳票、写真、図面、明細書、請求書などであるが、これらには限られない。原稿種の判別タイプとは、１つ以上の原稿種の組み合わせである。原稿種の判別タイプは、ＩＤで原稿種の組み合わせを指定するものでもよい。本実施形態では、原稿種の判別タイプは、原稿種のパターンという用語で説明される。

【0019】

段階的とは、認識できる原稿種が異なる原稿種認識処理を行う繰り返すことをいう。画像処理装置２０は、第一段階で文書、帳票、写真、図面のいずれか、第二段階で明細書、請求書のいずれか、第三段階でＡ社の明細書、Ｂ社の明細書、のように段階的に原稿種を認識する。

【0020】

＜構成例＞
図３は、原稿種認識を行う装置の一例である画像処理装置２０又は画像処理システム１００を示す。図３（ａ）の画像処理装置２０は、ユーザーが使用する、例えば、複合機やＭＦＰ（Multifunction Peripheral）と呼ばれる、複数の異なる機能を併せ持った装置である。画像処理装置２０は、少なくともスキャナ機能を有している。スキャナとは、通信や記録のために画像や文書などをデジタル静止画像に変換する装置又は機能である。本実施形態では、デジタル静止画像はカラーでもモノクロでもよい。デジタル静止画像は、動画のスナップショットでもよい。

【0021】

画像処理装置２０は、スキャナ機能の他、フアクス機能、プリント機能、及び、コピー機能等を有していてよい。画像処理装置２０は、画像形成装置、印刷装置、プリンタ、又はスキャナ装置等と呼ばれてもよい。

【0022】

図３（ａ）の画像処理装置２０は、単体で、原稿画像をスキャンして多階調の画像データを生成し、画像データに対し原稿種認識を行うことができる。画像処理装置２０では複数のアプリケーションが動作でき、アプリケーションは原稿種に応じた処理を行う。

【0023】

一方、図３（ｂ）に示すように、画像データの生成と本実施形態の原稿種認識を異なる装置がそれぞれ行ってもよい。図３（ｂ）は、情報処理装置４０が、原稿種認識を行う画像処理システム１００の一例である。この画像処理システム１００は、情報処理装置４０と、画像処理装置２０と、を有する。情報処理装置４０と画像処理装置２０は、施設内のＬＡＮやWi－Fi（登録商標）、又は、ＵＳＢケーブルなどで通信可能に接続されている。

【0024】

ユーザーが原稿を画像処理装置２０にセットしてスキャンを実行すると、画像処理装置２０が画像データを、ネットワークＮを介して情報処理装置４０に送信する。情報処理装置４０は、画像処理装置２０が原稿をスキャンして生成した画像データを受信し、画像データに対し原稿種認識を行うことができる。

【0025】

また、図３（ｃ）に示すように、原稿種認識はワークフロー処理の一部として実行されてもよい。ワークフローとは、複数の処理（例えば、スキャン、クラウドへの保存、又はメール送信等）を組み合わせて実行する一連の処理である。例えば、画像処理装置２０が原稿を読み取って生成した画像データに情報処理システム６０が所定の処理を行った上で、クラウドに保存したりメール送信したりするサービスが知られている。

【0026】

図３（ｃ）は、ワークフローを実行する画像処理システム１００を示す。画像処理システム１００は、情報処理システム６０と、画像処理装置２０と、を有する。情報処理システム６０は、画像処理システム１００に含まれていてもいなくてもよい。情報処理システム６０と画像処理装置２０は、インターネット等の広域的なネットワークＮ１を介して通信可能に接続されている。画像処理装置２０は、企業などの施設に配置されており、施設に敷設されているネットワークＮ２に接続されている。ネットワークＮ２は、ＬＡＮ、Wi－Fi（登録商標）、広域イーサネット（登録商標）、又は、４Ｇ、５Ｇ、６Ｇ等の携帯電話網、などでよい。

【0027】

情報処理システム６０は、一台以上のコンピュータで実現されてよい。情報処理システム６０は、クラウドコンピューティングにより実現されてもよいし、単一の情報処理装置によって実現されてもよい。クラウドコンピューティングとは、特定ハードウェア資源が意識されずにネットワーク上のリソースが利用される形態をいう。情報処理システム６０は、インターネット上に存在しても、オンプレミスに存在してもよい。

【0028】

画像処理装置２０と情報処理システム６０は、Ｗｅｂアプリを実行してよい。Ｗｅｂアプリとは、Ｗｅｂブラウザ上で動作するプログラミング言語（例えばJavaScript（登録商標））によるプログラムとＷｅｂサーバー側のプログラムが協調することによって動作するアプリケーションである。これに対し、画像処理装置２０にインストールされなければ実行されないアプリケーションをネイティブアプリという。本実施形態に関しても、画像処理装置２０で実行されるアプリケーションはＷｅｂアプリでもネイティブアプリでもよい。

【0029】

情報処理システム６０は、Ｗｅｂアプリの画面を画像処理装置２０が表示するための画面情報を生成する。画面情報は、ＨＴＭＬ、ＸＭＬ、スクリプト言語、及びＣＳＳ（Cascading Style Sheet）等で記述されたプログラムであり、主にＨＴＭＬによりＷｅｂページの構造が特定され、スクリプト言語によりＷｅｂページの動作が規定され、ＣＳＳによりＷｅｂページのスタイルが特定される。

【0030】

図３（ｃ）の形態では、画像処理装置２０がスキャナ機能により画像データを生成し、原稿種認識を行い、ネットワークＮ１，Ｎ２を介して情報処理システム６０に送信する。情報処理システム６０は、ユーザーが設定したワークフローを実行することで、メール送信したりクラウドに保存したりする。

【0031】

あるいは、図３（ｃ）の形態において、原稿種認識を情報処理システム６０が行ってもよい。画像処理装置２０がスキャナ機能により画像データを生成し、ネットワークＮ１，Ｎ２を介して画像データを情報処理システム６０に送信する。情報処理システム６０は、受信した画像データに対し原稿種認識を行い、以降のワークフローを実行する。

【0032】

情報処理システム６０は、ワークフローの実行を受け付けることもできるが、ユーザーがワークフローに関する設定（ライセンスの割り当て、初期設定など）を行うために使用されてよい。

【0033】

また、図３（ｂ）の情報処理装置４０や図３（ｃ）の情報処理システム６０が原稿種認識を行う画像データは、画像処理装置２０がスキャンしたものでなくてよい。例えば、画像処理装置２０はデジタルカメラやスマートフォンでもよく、これらが文書等を撮像して生成した画像データに対し、情報処理装置４０や情報処理システム６０が原稿種認識を行ってもよい。また、ネットワーク上の任意の画像に対し、情報処理装置４０や情報処理システム６０が原稿種認識を行うことができる。

【0034】

なお、以下の説明では、特に言及しない場合、図３（ａ）の画像処理装置２０が原稿種認識を行うものとして説明する。

【0035】

＜ハードウェア構成例＞
図４は、本発明の実施形態に係る画像処理装置２０のハードウェア構成の一例を示す図である。図４に示すように、画像処理装置２０は、コントローラ９１０、近距離通信回路９２０、エンジン制御部９３０、操作パネル９４０、ネットワークＩ／Ｆ９５０を備えている。ここで、画像処理装置２０は、画像形成装置、ＭＦＰ、ＭｕｌｔｉｆｕｎｃｔｉｏｎＰｅｒｉｐｈｅｒａｌ／Ｐｒｏｄｕｃｔ／Ｐｒｉｎｔｅｒであってもよい。

【0036】

これらのうち、コントローラ９１０は、コンピュータの主要部であるＣＰＵ９０１、システムメモリ（ＭＥＭ－Ｐ）９０２、ノースブリッジ（ＮＢ）９０３、サウスブリッジ（ＳＢ）９０４、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）９０６、ローカルメモリ（ＭＥＭ－Ｃ）９０７、ＨＤＤコントローラ９０８、及び、ＨＤ９０９を有し、ＮＢ９０３とＡＳＩＣ９０６との間をＡＧＰ（ＡｃｃｅｌｅｒａｔｅｄＧｒａｐｈｉｃｓＰｏｒｔ）バス９２１で接続した構成となっている。

【0037】

これらのうち、ＣＰＵ９０１は、画像処理装置２０の全体を制御する。ＮＢ９０３は、ＣＰＵ９０１と、ＭＥＭ－Ｐ９０２、ＳＢ９０４、及びＡＧＰバス９２１とを接続するためのブリッジであり、ＭＥＭ－Ｐ９０２に対する読み書きなどを制御するメモリコントローラと、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ）マスタ及びＡＧＰターゲットとを有する。

【0038】

ＭＥＭ－Ｐ９０２は、コントローラ９１０の各機能を実現させるプログラムやデータの格納用メモリであるＲＯＭ９０２ａ、プログラムやデータの展開、及びメモリ印刷時の描画用メモリなどとして用いるＲＡＭ９０２ｂとからなる。なお、ＲＡＭ９０２ｂに記憶されているプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。

【0039】

ＳＢ９０４は、ＮＢ９０３とＰＣＩデバイス、周辺デバイスとを接続するためのブリッジである。ＡＳＩＣ９０６は、画像処理用のハードウェア要素を有する画像処理用途向けのＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）であり、ＡＧＰバス９２１、ＰＣＩバス９２２、ＨＤＤコントローラ９０８及びＭＥＭ－Ｃ９０７をそれぞれ接続するブリッジの役割を有する。このＡＳＩＣ９０６は、ＰＣＩターゲット及びＡＧＰマスタ、ＡＳＩＣ９０６の中核をなすアービタ（ＡＲＢ）、ＭＥＭ－Ｃ９０７を制御するメモリコントローラ、ハードウェアロジックなどにより画像データの回転などを行う複数のＤＭＡＣ（ＤｉｒｅｃｔＭｅｍｏｒｙＡｃｃｅｓｓＣｏｎｔｒｏｌｌｅｒ）、並びに、スキャナ部９３１、プリンタ部９３２、及びファクス部９３３との間でＰＣＩバス９２２を介したデータ転送を行うＰＣＩユニットとからなる。なお、ＡＳＩＣ９０６には、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）のインターフェースや、ＩＥＥＥ１３９４（ＩｎｓｔｉｔｕｔｅｏｆＥｌｅｃｔｒｉｃａｌａｎｄＥｌｅｃｔｒｏｎｉｃｓＥｎｇｉｎｅｅｒｓ１３９４）のインターフェースが接続されていてもよい。

【0040】

近距離通信回路９２０は、ＩＣカードなどに記憶されたユーザーの認証情報などを読み込むためのカードリーダ９２０ａを有する。

【0041】

操作パネル９４０は、ユーザーによる入力を受け付けるタッチパネル９４０ａとテンキー９４０ｂを有する。また、タッチパネル９４０ａは、画像処理装置２０の設定画面などを表示する。

【0042】

＜画像処理装置の機能構成＞
図５は、画像処理装置２０の一例として、デジタル式のカラー画像形成装置の概略構成を示した機能ブロック図である。デジタル式のカラー画像処理装置は、設定受付部６、読み取り部１、画像処理部２、画像データ記憶部３、印刷部４、及びアプリ処理部５を有している。画像処理装置２０が有するこれら各機能部は、画像処理装置２０にインストールされた１以上のプログラムに含まれる命令をＣＰＵ９０１が実行することで実現される機能又は手段である。あるいは、各機能部は、ASIC(Application Specific Integrated Circuit)、DSP（Digital Signal Processor）、FPGA（Field Programmable Gate Array）やハード的な回路モジュール等により実現されてもよい。

【0043】

設定受付部６は、ユーザーによるスキャン時の設定条件を受け付ける。ユーザーは、条件設定として、例えば使用するアプリケーションやアプリケーション内の任意の条件（ファイルフォーマット、解像度やＯＣＲ適用有無、保存先など）を設定する。以下、設定受付部６で設定されるアプリケーションの種類を、「設定条件」として記載する。本実施形態では、設定条件のうち、主に設定されたアプリケーションの種別が使用される。設定受付部６が受け付けた設定条件は、画像処理部２やアプリ処理部５にも入力される。

【0044】

ユーザーによるスキャン時の設定が完了して、処理が開始されると読み取り部１が原稿を読み取る。読み取り部１は、原稿を光学的に読み取って画像データを生成する装置である。読み取り部１は、設定受付部６が受け付けた設定条件に従って読み取った画像データを画像処理部２へ送る。

【0045】

画像処理部２は、ガンマ補正部２１、領域検出部２２、データインターフェース部２３、色処理/ＵＣＲ部２４、及び、プリンタ補正部２５を有する。スキャン画像の生成時、ガンマ補正部２１、領域検出部２２が順に画像データを処理する。コピー画像の生成時、ガンマ補正部２１、領域検出部２２、データインターフェース部２３、色処理/ＵＣＲ部２４、及び、プリンタ補正部２５が順に処理する。

【0046】

ガンマ補正部２１は、読み取り部１が読み取ったデータ（Ａ／Ｄ変換後のＲ,Ｇ,Ｂ各色8ビット）を、色ごとの諧調バランスを揃えるために各信号に一次元変換を施す手段である。ここでは説明のため、データは、変換後に濃度リニア信号（RGB信号：白を意味する信号値を0とする）に変換され、ガンマ補正部２１の出力は、領域検出部２２と、そのままデータインターフェース部２３へ送られる。領域検出部２２は、読み取られた画像データにおける注目画素又は画素ブロックが文字領域又は非文字領域（すなわち絵柄）であるかを判断し、また、有彩色か無彩色かを判断する。

【0047】

データインターフェース部２３は、領域検出部２２からの判断結果及びガンマ補正部２１による処理後の画像データを画像データ記憶部３へ一時保存する際の、例えばＨＤＤ用のインターフェースである。

【0048】

なお、スキャン画像の処理フローでは、領域検出部２２からの判断結果及びガンマ補正部２１により処理された画像データを画像データ記憶部３へ一時保存して、画像データが画像データ記憶部３よりアプリ処理部５に入力され、各アプリケーションの処理が実施される。

【0049】

一方、コピー画像の生成時、データインターフェース部２３から色処理/ＵＣＲ部２４へは、ガンマ補正後の画像データと領域検出部２２からの判断結果が送られる。色処理/ＵＣＲ部２４は、画素領域あるいは画素ブロックごとの判断結果に基づいて、色処理やＵＣＲ処理を選択する手段である。更に、プリンタ補正部２５は、色処理/ＵＣＲ部２４からのＣ,Ｍ,Ｙ,Bkの画像信号を受け、プリンタ特性を考慮したガンマ補正処理とディザ処理を施し印刷部４へ送る。

【0050】

つまり、コピー画像の処理フローでは、領域検出部２２が行った、読み取られた画像データの注目画素又は画素ブロックが文字領域又は非文字領域（すなわち絵柄）であるかを判断する文字判断と、有彩色か無彩色かを判断する色判断の結果を使用する。色処理/ＵＣＲ部２４は、文字判断と色判断の結果に応じて原稿に適した色再現処理を行う。

【0051】

画像処理部２が出力した画像データを印刷部４が用紙などの媒体に転写する。印刷部４は、転写印字ユニットを制御してコピー画像を出力する。

【0052】

アプリ処理部５は、画像データ記憶部３に一時保存された、ガンマ補正部２１により処理された画像データを取得して、原稿種認識を行う。アプリ処理部５は、設定受付部６が受け付けた設定条件に従い、出力する原稿種のパターン（アプリに対応付けられた認識すべき１つ以上の原稿種）を決定して、該当する出力結果が得られるまで原稿種認識を行う。アプリ処理部５は、得られた結果を用いて、設定条件に従った処理（ＰＤＦなどのファイルフォーマット変換、ＯＣＲの実施、原稿種に応じて予め決められた保存先・宛先に送信など）を行う。

【0053】

アプリ処理部５は原稿種認識実施部５１とアプリケーション実施部５２とを有する。原稿種認識部５１２は、処理フローに基づいて原稿種認識を行う。処理フローは、例えば、原稿種認識を行い、その原稿種認識の結果を用いて、設定受付部６が受け付けた設定条件に従い処理を実行するためのフローである。

【0054】

原稿種認識実施部５１は、設定受付部６が受け付けた設定条件から、予め設定条件に対応付けられた原稿種のパターンを確認して、画像データから確認した原稿種が出力されるまで原稿種認識を行う。原稿種認識実施部５１で出力された原稿種情報は画像データ記憶部３より入力された画像データと併せて、アプリケーション実施部５２に入力される。

【0055】

アプリケーション実施部５２は、ガンマ補正部２１が処理した画像データに対して、設定受付部６が受け付けた設定条件に従った処理（ＰＤＦなどのファイルフォーマット変換、ＯＣＲの実施、原稿種に応じて予め決められた保存先・宛先に送信など）を行う。

【0056】

次に、図６に基づいて、原稿種認識部５１２について詳細に説明する。図６は、原稿種認識実施部５１の機能構成図である。原稿種認識実施部５１は、原稿種判断部５１１と、原稿種認識部５１２と、次段認識原稿種決定部５１３と、を有している。

【0057】

原稿種判断部５１１は、設定受付部６が受け付けた設定条件に基づいて、後段の原稿種認識で出力される原稿種のパターンを取得する（図７参照）。アプリケーションによって決まる原稿種の組み合わせを原稿種のパターンと称する。パターンと原稿種の対応の一例を図７に示す。

【0058】

原稿種判断部５１１は、設定受付部６が受け付けた設定条件に予め対応付けられた原稿種のパターンを、画像データ記憶部３より入力された画像データに対して原稿種認識を実施する際の原稿種パターン情報として設定する。画像データ記憶部３より入力された画像データと原稿種パターン情報は原稿種認識部５１２に入力される。

【0059】

原稿種認識部５１２は、設定受付部６が受け付けた設定条件（アプリケーション）に対応付けられた原稿種のパターンを確認して、画像データに対して、確認した原稿種のパターンが出力されるまで原稿種認識を行う。原稿種認識部５１２が得た原稿種情報は後段のアプリケーション実施部５２で使用する原稿種情報としてアプリケーション実施部５２に入力される。原稿種認識部５１２は、いわゆる分類処理を行い、クラス（原稿種）を出力する。

【0060】

原稿種認識部５１２は、原稿種判断部５１１より入力された画像データに対して原稿種認識を行う。原稿種認識部５１２は、複数の原稿種認識の方式を含む。ここでは３つの原稿種認識の方式（パターンＡ、パターンＢ、パターンＣ）又は４つ（更にパターンＤを含む）を持つ場合を例として説明するが、方式の個数について制限はない。詳細は図７～図９にて説明する。

【0061】

全て（例えば３つ又は４つ）の原稿種認識の方式を原稿種認識部５１２が有している。原稿種認識部５１２は、次段認識原稿種決定部５１３から要求される「実施する原稿種認識の方式の情報」に従い、使用する原稿種認識の方式を変更して原稿種認識を行う。原稿種認識の方式については、ルールベースの方式（例えば画像の特徴量から原稿種を判別する、など）、又は、ニューラルネットワークを用いた方式など制限はない。特徴量には背景部分の色のヒストグラム、文字数、直線の数、矩形の数等がある。

【0062】

原稿種認識部５１２は、第一の原稿種認識をニューラルネットワークで行い、第二の原稿種認識をルールベースで行うなど、段階ごとに認識方法を切り替えてもよい。また、原稿種認識部５１２は、原稿からＯＣＲによりテキストを抽出し、形態素解析でキーワードに分割し、このキーワードに対する自然言語処理を用いて原稿種を認識してもよい。自然言語処理とは、例えば単に辞書をキーワードで検索し、キーワードに対応付けられている原稿種を推定する処理でもよいし、１つ以上のキーワードをニューラルネットワークに入力して原稿種を出力する処理でもよい。

【0063】

原稿種認識部５１２がニューラルネットワークを用いて原稿種を認識する場合、担当者が各原稿種の学習データセットを用意して、原稿種認識のための学習モデルを作成する。学習モデルはパターンごとに最適化することができる。例えば、パターンＡの原稿種認識をニューラルネットワークで実施する場合、原稿種認識装置は、パターンＡは「パターンＡに含まれる原稿種の原稿」で構成された学習データセットＡを学習して学習モデルＡを生成する。同様に、原稿種認識装置は、パターンＢは「パターンＢに含まれる原稿種の原稿」で構成された学習データセットＢを学習して学習モデルＢを生成する、ということができる。また、パターンＢがパターンＡの後段に実施されることを前提とする場合、「パターンＡで帳票と判別される原稿」かつ「パターンＢに含まれる原稿種の原稿」で構成された学習データセットＢを構築して学習モデルＢを生成する、ということもできる。例えば、パターンＡで判別される原稿が帳票であり、この帳票が「パターンＢに含まれる原稿種の原稿」として更に明細書と請求書に認識される場合、パターンＢは帳票と判別される学習データセットを学習した学習モデルにより認識される。

【0064】

これによりパターンＡとの親和性が高い学習モデルを作ることができる。本実施形態では、パターンＢの原稿種認識はパターンＡの原稿種認識で「帳票」アプリが設定された場合に実施されるという前提で説明する。つまり、パターンＢの原稿種認識を帳票に特化した原稿種認識の方式とすることができる。このような構成にできるのは、本実施形態が多段構成だからこそ実現できるものである。

【0065】

原稿種認識部５１２は、原稿種認識に必要な前処理（グレースケール変換や変倍など）についても行い、前処理の内容は実施する原稿種認識の方式に応じて切り替えることができる。

【0066】

次段認識原稿種決定部５１３は、原稿種認識部５１２より出力された原稿種認識結果が、設定受付部６が受け付けた設定条件に対応付けられた原稿種と一致するかの判断を行う。次段認識原稿種決定部５１３が一致すると判断した場合、原稿種認識部５１２より出力された原稿種認識結果と原稿種判断部５１１により入力された画像データはアプリケーション実施部５２に出力される。次段認識原稿種決定部５１３が一致しないと判断した場合、多段構成の次の原稿種認識を原稿種認識部５１２に指示するか、原稿種を判断不能と判断する。

【0067】

＜原稿種のパターンの一例＞
図７は、原稿種認識により認識される複数の原稿種を組み合わせたパターン設定の例を示す。図７によれば、パターンＡは、原稿種として文書、帳票、写真、又は図面が認識されるパターンである。図７のパターンは一例であり、パターン数に制限はない。また、各パターンにおいて原稿種の組み合わせも任意である。各パターンは、画像処理装置２０の開発者などが予め設定することができる。

【0068】

図７のようなパターンの場合、原稿種のパターンの階層構造は図８のように表すことができる。図８はパターンＡ～Ｄの階層構造を示す。階層構造とは、上位のパターンにより認識された原稿種を、下位のパターンのより細分化された原稿種に細分化して認識する関係が、複数のパターンの間にあることをいう。

【0069】

すなわち、パターンＡにより帳票であると認識された原稿は、パターンＢにより更に明細書又は請求書と認識され得る。パターンＢにより明細書と認識された原稿は、パターンＣにより更に細分化して原稿種（Ａ社の明細書、Ｂ社の明細書）が認識される。一方、パターンＡにより写真であると認識された原稿は、パターンＤにより更に細分化して原稿種（風景写真、顔写真）が認識される。

【0070】

次段認識原稿種決定部５１３は、図８の階層構造と原稿種の認識結果に基づいて、次にどのパターンの原稿種を認識するかを制御する。

【0071】

一台の画像処理装置２０が様々な用途で原稿種認識を行う場合、汎用的な方法でパターンＡ～Ｄの原稿種を全て判別することは難しい。本実施形態では、原稿種認識部５１２が、上位のパターンで認識された原稿種を更に細分化して認識するという段階的な認識を行うので、細かな原稿種判別を一台の画像処理装置２０が行える。パターンＡ～Ｄに対応する原稿種認識の機能はそれぞれ１つあればよいので、効率的かつリソース逼迫も低減できる。

【0072】

図８の階層構造は一例であるが、原稿種の認識の順番は、上位の原稿種認識で認識される原稿種を、下位の原稿種認識がより細分化された原稿種に認識する順番であることが好ましい。

【0073】

＜アプリケーションとパターンの対応付け＞
図９は、アプリケーションと原稿種のパターンとの対応をユーザーが設定するパターン設定画面２００を示す。このユーザーは主に画像処理装置２０の開発者であるが、顧客側のユーザーでもよい。

【0074】

例えば、画像処理装置２０が操作パネルに図９のパターン設定画面２００を表示させる。設定受付部６は、タッチパネル及びキーボード等に対するユーザーの操作を受け付ける。パターン設定画面２００は、アプリケーションとパターンＡ～Ｄを対応付ける２次元テーブルを有している。ユーザーは、アプリケーションが必要とする原稿種を考慮して、各アプリケーションについてどのパターンで原稿種認識を行うかを設定する。すなわち、ユーザーは、アプリケーションで行いたい原稿種のパターンにチェックを設定する。

【0075】

図９のように各アプリケーションについて原稿種のパターンが設定された場合、各アプリケーションで実施される原稿種認識は図１０に示すようになる。図１０は、アプリケーションが多段階に利用する原稿種認識をアプリケーション別に示す。第一の原稿種認識は、パターンＡに対応付けられた原稿種を認識する。第二の原稿種認識は、パターンＢ又はパターンＤに対応付けられた原稿種を認識する。第三の原稿種認識は、パターンＣに対応付けられた原稿種を認識する。なお、第一、第二、第三という順番は、段階的な原稿種認識の順番を示しており、特定のパターンの原稿種認識に対応しないことに注意されたい。

【0076】

本実施形態では、図８に示したように原稿種認識部５１２が段階的な認識を行うので、パターンＡ→パターンＢ→パターンＣの順、又は、パターンＡ→パターンＤの順に、段階的に異なる原稿種認識が実施される。

【0077】

例えば、「スキャンtoフォルダ」というアプリケーション（以下、「スキャンtoフォルダ」アプリともいう）は、パターンＡが対応付けられたので、図８の階層構造によれば第一の原稿種認識のみが実施される。「スキャンtoフォルダ」アプリは、画像処理装置２０が原稿を読み取って生成した画像データを例えばユーザーに対応するフォルダに保存するアプリである。
「ＯＣＲ」というアプリケーション（以下、「ＯＣＲ」アプリともいう）は、パターンＡが対応付けられたので、図８の階層構造によれば第一の原稿種認識のみが実施される。「ＯＣＲ」アプリは、画像処理装置２０が原稿を読み取って生成した画像データに対し文字認識を行うアプリである。
「帳票識別」というアプリケーション（以下、「帳票識別」アプリともいう）は、パターンＢが対応付けられたので、図８の階層構造によれば第一の原稿種認識と第二の原稿種認識が実施される。「帳票識別」アプリは、画像処理装置２０が原稿を読み取って生成した画像データが帳票である場合に、どのような帳票か（例えば明細書、請求書）を識別するアプリである。「帳票識別」アプリは、例えば明細書、請求書を決まったフォルダに保存する。
「会計システム」というアプリケーション（以下、「会計システム」アプリともいう）は、パターンＣが対応付けられたので、図８の階層構造によれば第一の原稿種認識と第二の原稿種認識と第三の原稿種認識が実施される。「会計システム」アプリは、画像処理装置２０が原稿を読み取って生成した画像データが明細書である場合に、どのような明細書か（例えばＡ社の明細書、Ｂ社の明細書）を識別するアプリである。「会計システム」アプリは、各社の明細書のフォーマットに基づいて、支払金額などを明細書から抽出する。
「アルバム」というアプリケーション（以下、「アルバム」アプリともいう）は、パターンＤが対応付けられたので、図８の階層構造によれば第一の原稿種認識と第二の原稿種認識が実施される。「アルバム」アプリは、画像処理装置２０が原稿を読み取って生成した画像データが写真である場合に、どのような写真か（例えば風景写真、顔写真）を識別するアプリ（自動分類する）である。「アルバム」アプリは、例えば風景写真、顔写真を決まったフォルダに保存する。

【0078】

＜図７～図９の場合の原稿種の認識＞
図７～図９の設定例に基づいて、原稿種認識部５１２と次段認識原稿種決定部５１３が行う処理について説明する。この説明では、原稿種認識部５１２が、パターンＡの原稿種を認識する第一の原稿種認識、パターンＢの原稿種を認識する第二の原稿種認識、パターンＣの原稿種を認識する第三の原稿種認識、の機能を有するものとする。

【0079】

原稿種認識部５１２は、原稿種判断部５１１より画像データが入力されると、まずは第一の原稿種認識を実施する。原稿種認識部５１２は、第一の原稿種認識に対応付けられた前処理、後処理（画像データを加工して第一の原稿種認識を複数回行い多数決で原稿種を決定する場合などの各種結果の集計処理など）を実施する。原稿種認識部５１２は、原稿種判断部５１１より入力された画像データと第一の原稿種認識の結果であることを示す情報と第一の原稿種認識結果を次段認識原稿種決定部５１３に出力する。

【0080】

次段認識原稿種決定部５１３は、原稿種認識部５１２より入力された第一の原稿種認識結果と設定受付部６が受け付けた設定条件に対応付けられた原稿種と一致するかの判断を行う。設定受付部６が受け付けた設定条件に対応付けられた原稿種がパターンＡに属する場合を説明する。言い換えると第一の原稿種認識の結果（図７のパターンＡに属する原稿種）が、設定受付部６が受け付けたアプリケーションに対応付けられた原稿種（「スキャンtoフォルダ」アプリ、「ＯＣＲ」アプリに対応付けられたパターンＡの原稿種群）に属する場合、次段認識原稿種決定部５１３は、入力された画像データと第一の原稿種認識の結果を、アプリケーション実施部５２に出力する。

【0081】

設定受付部６が受け付けた設定条件に対応付けられた原稿種がパターンＡに属さない場合について説明する。言い換えると第一の原稿種認識の結果（図７のパターンＡに属する原稿種）が、設定受付部６が受け付けたアプリケーションに対応付けられた原稿種（例えば「帳票識別」アプリに対応付けられたパターンＢの原稿種群）に属さない場合、次段認識原稿種決定部５１３は、第一の原稿種認識の結果であることを示す情報と第一の原稿種認識結果の次に実施する原稿種認識の方式についての情報を作成する。

【0082】

原稿種認識部５１２が次に実施する原稿種認識の方式についての情報は直前の原稿種認識の結果（第一の原稿種認識結果）が「帳票」であるかを確認したうえで作成される。「帳票」の場合は、原稿種認識部５１２がパターンＢの原稿種を認識するためである。「帳票」である場合は次に実施する原稿種認識の方式についての情報（ここでは第二の原稿種認識を行う、という情報）は、図８の階層構造に基づいて次段認識原稿種決定部５１３から出力されて改めて原稿種認識部５１２に入力（要求）される。

【0083】

その一方で、第一の原稿種認識の結果（図７のパターンＡに属する原稿種）が「帳票」以外となった場合、つまり、ユーザーが設定したアプリで使用しない原稿種だった場合、次段認識原稿種決定部５１３は、「判断不能」と判断する。次段認識原稿種決定部５１３は、「判断不能」という結果と原稿種判断部５１１より入力された画像データと第一の原稿種認識の結果をアプリケーション実施部５２に出力する。例えば、ユーザーが「帳票識別」アプリを設定した場合に、第一の原稿種認識の結果が「図面」となった場合など、である。「帳票識別」アプリを設定してユーザーが帳票の原稿を読み取らせたのに「図面」と認識されることは誤認識と推定される。

【0084】

原稿種認識部５１２は次段認識原稿種決定部５１３から入力された次に実施する原稿種認識の方式についての情報に従い、第二の原稿種認識を行う。原稿種認識部５１２は、原稿種判断部５１１より入力された画像データと第二の原稿種認識の結果であることを示す情報と第二の原稿種認識結果を出力する。このとき、第二の原稿種認識に対応付けられた前処理、後処理が実施される。

【0085】

設定受付部６が受け付けた設定条件に対応付けられた原稿種がパターンＢに属する場合について説明する。言い換えると第二の原稿種認識の結果（図７のパターンＢに属する原稿種）が、設定受付部６が受け付けたアプリケーションに対応付けられた原稿種（設定受付部６で設定された「帳票識別」アプリに対応付けられたパターンＢの原稿種群）に属する場合、次段認識原稿種決定部５１３より入力された画像データと第二の原稿種認識の結果が出力され、アプリケーション実施部５２に入力される。

【0086】

設定受付部６が受け付けた設定条件に対応付けられた原稿種がパターンＢに属さない場合について説明する。言い換えると第二の原稿種認識の結果（図７のパターンＢに属する原稿種）が、設定受付部６が受け付けたアプリケーションに対応付けられた原稿種（設定受付部６で設定された「帳票識別」アプリに対応付けられたパターンＢの原稿種群）に属さない場合、次段認識原稿種決定部５１３は、第二の原稿種認識の結果であることを示す情報と第二の原稿種認識結果から次に実施する原稿種認識の方式についての情報を作成する。

【0087】

原稿種認識部５１２が次に実施する原稿種認識の方式についての情報は直前の原稿種認識の結果（第二の原稿種認識結果）が「明細書」であるかを確認したうえで作成される。「明細書」の場合は、原稿種認識部５１２がパターンＣの原稿種を認識するためである。原稿種が「明細書」である場合、次に実施する原稿種認識の方式についての情報（ここでは第三の原稿種認識を行う、という情報）は、図８の階層構造に基づいて次段認識原稿種決定部５１３から出力されて改めて原稿種認識部５１２に入力（要求）される。

【0088】

一方、第二の原稿種認識の結果（図７のパターンＢに属する原稿種）が「明細書」以外となった場合、つまり、ユーザーが設定したアプリで使用しない原稿種だった場合、次段認識原稿種決定部５１３は、「判断不能」と判断する。次段認識原稿種決定部５１３は、「判断不能」という結果と原稿種判断部５１１より入力された画像データと第二の原稿種認識の結果をアプリケーション実施部５２に出力する。例えば、ユーザーが「会計システム」アプリを設定した場合に、第二の原稿種認識の結果が「請求書」となった場合など、である。「会計システム」アプリを設定してユーザーが明細書の原稿を読み取らせたのに「請求書」と認識されることは誤認識と推定される。

【0089】

原稿種認識部５１２は、次段認識原稿種決定部５１３から入力された次に実施する原稿種認識の方式についての情報に従い、第三の原稿種認識を行う。

【0090】

原稿種認識部５１２は、原稿種判断部５１１より入力された画像データと第三の原稿種認識の結果であることを示す情報と第三の原稿種認識結果を出力する。

【0091】

設定受付部６が受け付けた設定条件に対応付けられた原稿種がパターンＣに属する場合について説明する。言い換えると第三の原稿種認識の結果（図７のパターンＣに属する原稿種）が、設定受付部６が受け付けたアプリケーションに対応付けられた原稿種（設定受付部６で設定された「会計システム」アプリに対応付けられたパターンＣの原稿種群）に属する場合、次段認識原稿種決定部５１３より入力された画像データと第三の原稿種認識の結果が出力され、アプリケーション実施部５２に入力される。

【0092】

設定受付部６が受け付けた設定条件に対応付けられた原稿種がパターンＣに属さない場合について説明する。言い換えると第三の原稿種認識の結果（図７のパターンＣに属する原稿種）が、設定受付部６が受け付けたアプリケーションに対応付けられた原稿種（設定受付部６で設定された「会計システム」アプリに対応付けられたパターンＣの原稿種群）に属さない場合、次の原稿種認識は存在しないため、次段認識原稿種決定部５１３は、「判断不能」と判断する。例えば、ユーザーが「会計システム」アプリを設定した場合に、第三の原稿種認識の結果がＡ社の明細書でもＢ社の明細書でもない場合である。

【0093】

次段認識原稿種決定部５１３は、「判断不能」という結果と原稿種判断部５１１より入力された画像データと第三の原稿種認識の結果をアプリケーション実施部５２に入力する。

【0094】

以上のような構成とすることで、画像処理装置２０は、類似する用途（アプリケーション）でそれぞれ個別の原稿種認識の方式を持つことが不要となり、リソース（メモリやＲＯＭの使用量）の節約にもつながる。また、画像処理装置２０は、原稿種認識の方式ごとに認識結果を出力することで、柔軟性の高い原稿種認識を可能とする。

【0095】

また処理時間に関しても、設定受付部６が受け付けた設定条件に応じて必要最低限の処理で済むため、多段構成においても生産性が落ちることはない。加えて生産性に関しては設定受付部６が受け付けた設定条件と明らかに違う原稿種の場合は、該当する原稿種が認識された時点で処理を終了することもできる。この場合も不要な原稿種認識を行うことがなくなり、生産性に寄与するものである。

【0096】

また、上記では３つの原稿種認識の方式をシーケンシャルで処理する例を説明したが、複数の原稿種認識の方式は必ずしもシーケンシャルである必要はなく、原稿種認識部５１２は、例えば第一の原稿種認識と第二の原稿種認識を並列で実施して、第一の原稿種認識と第二の原稿種認識の結果に重みをかけて原稿種認識を行う、という方法でも良い。

【0097】

この並列方式における第一の原稿種認識と第二の原稿種認識は上記で説明している第一の原稿種認識、第二の原稿種認識とは別物である。例えば、ユーザーがパターンＢの原稿種を認識させたい場合に、第一の原稿種認識をルールベースの原稿種認識で、第二の原稿種認識をニューラルネットワークの原稿種認識で並行に行い、それぞれの結果を統合することで原稿種を判別する、ということも可能である。

【0098】

＜動作又は処理の手順＞
図１１は、原稿種認識実施部５１が原稿種を判断する処理を説明するフローチャート図である。図１１では、原稿種認識実施部５１が、３つの原稿種認識の方式（パターンＡの原稿種を認識する第一の原稿種認識、パターンＢを認識する第二の原稿種認識、パターンＣを認識する第三の原稿種認識）を行う場合を例として説明する。

【0099】

まず、ユーザーがアプリの設定を行う（Ｓ６００）。設定受付部６がアプリの設定を受け付ける。

【0100】

次に、原稿種判断部５１１が、設定受付部６が受け付けたアプリに対応付けられた原稿種のパターンを特定する（Ｓ６０１）。図１１の説明ではパターンＡ～Ｃのいずれかが特定される。画像データ記憶部３より入力された画像データがアプリ処理部５に入力されると、原稿種認識実施部５１が画像データを取得する。また、設定受付部６が受け付けた設定条件（ユーザーが設定したアプリ）もアプリ処理部５に入力され、原稿種認識実施部５１及びアプリケーション実施部５２が取得する。

【0101】

次に、原稿種認識部５１２は、第一の原稿種認識の方式に合わせた前処理を行い、第一の原稿種認識を行う（Ｓ６０２）。原稿種認識部５１２は、認識した原稿種を次段認識原稿種決定部５１３に出力する。

【0102】

次段認識原稿種決定部５１３は、ユーザーが設定したアプリに対応付けられた（求めたい）原稿種が、パターンＡの原稿種に属するか判断する（Ｓ６０３）。ステップＳ６０３の判断がＹｅｓの場合、パターンＡの原稿種認識により原稿種が決定される。例えば、ユーザーが「スキャン to フォルダ」アプリを設定した場合に、第一の原稿種認識の結果が「文書」「帳票」「写真」「図面」のいずれかになった場合である。

【0103】

ステップＳ６０３の判断がＹｅｓの場合、原稿種認識実施部５１（原稿種判断部５１１、原稿種認識部５１２、次段認識原稿種決定部５１３含む）における処理は終了する。

【0104】

ステップＳ６０３の判断がＮｏの場合、次段認識原稿種決定部５１３は、図８の階層構造に基づいて、第一の原稿種認識の結果が「帳票」であるか判断する（Ｓ６０４）。「帳票」は第一の原稿種の一例である。

【0105】

第一の原稿種認識の結果が「帳票」でない場合（Ｓ６０４のＮｏ）、処理はステップＳ６１０に進む。例えば、ユーザーが「帳票識別」アプリを設定して、第一の原稿種認識の結果が「文書」「写真」「図面」の場合である。帳票と全く異なる原稿種が認識されたので誤認識と推定される。

【0106】

第一の原稿種認識の結果が「帳票」である場合（Ｓ６０４のＹｅｓ）、更に、どのような帳票かを認識するため、原稿種認識部５１２が、第二の原稿種認識の方式に合わせた前処理を行い、第二の原稿種認識を行う（Ｓ６０５）。

【0107】

次に、次段認識原稿種決定部５１３は、ユーザーが設定したアプリに対応付けられた（求めたい）原稿種が、パターンＢの原稿種に属するか判断する（Ｓ６０６）。ステップＳ６０６の判断がＹｅｓの場合、パターンＢの原稿種認識により原稿種が決定される。例えば、ユーザーが「帳票識別」アプリを設定して、第二の原稿種認識の結果が「明細書」又は「請求書」の場合である。「明細書」又は「請求書」は第二の原稿種の一例である。

【0108】

ステップＳ６０６の判断がＹｅｓの場合、原稿種認識実施部５１（原稿種判断部５１１、原稿種認識部５１２、次段認識原稿種決定部５１３含む）における処理は終了する。

【0109】

ステップＳ６０６の判断がＮｏの場合、次段認識原稿種決定部５１３は、図８の階層構造に基づいて、第二の原稿種認識の結果が「明細書」であるか判断する（Ｓ６０７）。「明細書」は第三の原稿種の一例である。

【0110】

第二の原稿種認識の結果が「明細書」でない場合（Ｓ６０７のＮｏ）、処理はステップＳ６１０に進む。例えば、ユーザーが「会計システム」アプリを設定して、第二の原稿種認識の結果が「請求書」の場合である。明細書と全く異なる原稿種が認識されたので誤認識と推定される。

【0111】

第二の原稿種認識の結果が「明細書」である場合（Ｓ６０７のＹｅｓ）、更に、どのような帳票かを認識するため、原稿種認識部５１２が、第三の原稿種認識の方式に合わせた前処理を行い、第三の原稿種認識を行う（Ｓ６０８）。

【0112】

次に、次段認識原稿種決定部５１３は、ユーザーが設定したアプリに対応付けられた（求めたい）原稿種が、パターンＣの原稿種に属するか判断する（Ｓ６０９）。ステップＳ６０９の判断がＹｅｓの場合、パターンＣの原稿種認識により原稿種が決定される。例えば、ユーザーが「会計システム」アプリを設定して、第三の原稿種認識の結果が「Ａ社の明細書」又は「Ｂ社の明細書」の場合である。「Ａ社の明細書」又は「Ｂ社の明細書」は第四の原稿種の一例である。

【0113】

ステップＳ６０９の判断がＹｅｓの場合、原稿種認識実施部５１（原稿種判断部５１１、原稿種認識部５１２、次段認識原稿種決定部５１３含む）における処理は終了する。

【0114】

ステップＳ６０９の判断がＮｏの場合、処理はステップＳ６１０に進む。例えば、ユーザーが「会計システム」アプリを設定して、第三の原稿種認識の結果が「Ａ社の明細書」でも「Ｂ社の明細書」でもない場合である。つまり、３段階の原稿種認識を行っても、ユーザーが設定したアプリケーションに対応付けられた原稿種が認識されなかったことになる。

【0115】

ステップＳ６１０では、第一の原稿種認識～第三の原稿種認識において認識された原稿種がアプリに対応付けられた（求めたい）原稿種に属さなかったので、次段認識原稿種決定部５１３は、「判断不能」という結果を出力して、原稿種認識実施部５１での処理は終了する（Ｓ６１０）。

【0116】

このように、原稿種認識部５１２は、予め設定されている順に多段階に原稿種を認識し、ユーザーが設定したアプリに対応付けられた原稿種を認識できない場合、より細分化された原稿種を認識することを繰り返すことで、１つの画像処理装置２０が様々な用途で原稿種認識を行うことができる。アプリケーションの開発効率の低下も抑制でき、リソースを逼迫することなく多種多様な原稿種認識を実現することができる。

【0117】

＜パターンＡ、パターンＢ、パターンＤを含む原稿種認識＞
図１２は、パターンＡ、パターンＢ、パターンＤに基づいて、原稿種認識実施部５１が原稿種を判断する処理を説明するフローチャート図である。図１２では、原稿種認識実施部５１が、３つの原稿種認識の方式（パターンＡの原稿種を認識する第一の原稿種認識、パターンＢ、Ｄを認識する第二の原稿種認識）を行う場合を例として説明する。

【0118】

図１２の説明では主に図１１との相違を説明する。図１２のステップＳ７００～Ｓ７０４、Ｓ７０６、Ｓ７０８は、図１１のステップＳ６００～Ｓ６０４、Ｓ６０５、Ｓ６０６と同様でよい。

【0119】

ステップＳ７０４でＮｏと判断された場合、図８の階層構造に基づいて、パターンＤの原稿種を認識すべきか判断するため、次段認識原稿種決定部５１３は、第一の原稿種認識の結果が「写真」であるか判断する（Ｓ７０５）。

【0120】

第一の原稿種認識の結果が「写真」でない場合（Ｓ７０５のＮｏ）、処理はステップＳ７１０に進む。例えば、ユーザーが「アルバム」アプリを設定して、第一の原稿種認識の結果が「文書」「図面」の場合である。「アルバム」アプリが処理の対象とする写真と全く異なる原稿種が認識されたので誤認識と推定される。

【0121】

第一の原稿種認識の結果が「写真」である場合（Ｓ７０５のＹｅｓ）、更に、どのような写真かを認識するため、原稿種認識部５１２が、第二の原稿種認識（パターンＤ）の方式に合わせた前処理を行い、第二の原稿種認識を行う（Ｓ７０７）。

【0122】

次に、次段認識原稿種決定部５１３は、ユーザーが設定したアプリに対応付けられた（求めたい）原稿種が、パターンＤの原稿種に属するか判断する（Ｓ７０９）。ステップＳ７０９の判断がＹｅｓの場合、パターンＤの原稿種認識により原稿種が決定される。例えば、ユーザーが「アルバム」アプリを設定して、第二の原稿種認識の結果が「風景写真」又は「人物写真」の場合である。

【0123】

ステップＳ７０９の判断がＹｅｓの場合、原稿種認識実施部５１（原稿種判断部５１１、原稿種認識部５１２、次段認識原稿種決定部５１３含む）における処理は終了する。

【0124】

ステップＳ７０９の判断がＮｏの場合、処理はステップＳ７１０に進む。例えば、ユーザーが「アルバム」アプリを設定して、第二の原稿種認識の結果が「風景写真」でも「顔写真」でもない場合である。

【0125】

ステップＳ７１０では、第一の原稿種認識～第二の原稿種認識において認識された原稿種がアプリに対応付けられた（求めたい）原稿種に属さなかったので、次段認識原稿種決定部５１３は、「判断不能」という結果を出力して、原稿種認識実施部５１での処理は終了する（Ｓ７１０）。

【0126】

＜機械学習による原稿種認識の補足＞
本実施形態では、ニューラルネットワークを用いた原稿種認識を説明したが、原稿種認識にはニューラルネットワーク以外の機械学習により生成された学習モデルが使用されてよい。機械学習とは、コンピュータに人のような学習能力を獲得させるための技術であり、コンピュータが、データ識別等の判断に必要なアルゴリズムを、事前に取り込まれる学習データから自律的に生成し、新たなデータについてこれを適用して予測を行う技術のことをいう。機械学習のための学習方法は、教師あり学習、教師なし学習、半教師学習、強化学習、深層学習のいずれかの方法でもよく、更に、これらの学習方法を組み合わせた学習方法でもよく、機械学習のための学習方法は問わない。

【0127】

例えば、ニューラルネットワークの１つのディープラーニングは、入力されたデータに基づいて出力値を予測した後に、教師データとの誤差を減らすために誤差逆伝播法でニューラルネットワーク間の重みを調整するアルゴリズムである。機械学習の手法には、パーセプトロン、サポートベクターマシン、ロジスティック回帰、ナイーブベイズ、決定木、ランダムフォレストなどがあり、本実施形態で説明する手法には限られない。

【0128】

図１３は、機械学習を使用した原稿種認識装置２２０の機能ブロック図である。図１３に示されるように、原稿種認識装置２２０は、画像データ取得部２２１、教師データ格納部２２２、機械学習部２２３、学習済みモデル格納部２２４、及び、推論部２２５を備えることができる。以下、それぞれについて説明する。

【0129】

画像データ取得部２２１は、画像データ記憶部３に記憶されている原稿の画像データを取得する。

【0130】

＜＜学習フェーズ＞＞
教師データ格納部２２２には、機械学習のための教師データが格納されている。教師データ格納部２２２内の教師データは、画像データ取得部２２１が一定期間取得して蓄積した、画像データ（入力）と、原稿種（出力）である。

【0131】

機械学習部２２３は、受信した画像データから、出力する原稿種を導出するための学習済みモデルを生成する。具体的には、機械学習部２２３は、受信した画像データを入力データとし、その画像データの原稿種を出力データとした教師データを用いて機械学習を行い、学習済みモデルを生成する。また、機械学習部２２３は、生成した学習済みモデルを学習済みモデル格納部２２４に格納する。

【0132】

学習済みモデル格納部２２４には、機械学習部２２３が生成した学習済みモデルが格納されている。

【0133】

＜＜推論フェーズ＞＞
推論部２２５は、現在の画像データを取得して、この画像データの原稿種を推論する。具体的には、推論部２２５は、画像データ取得部２２１から、画像データを取得する。また、推論部２２５は、学習済みモデル格納部２２４内の学習済みモデルに画像データを入力して、原稿種を出力させる。

【0134】

＜主な効果＞
本実施形態の画像処理装置２０は、同じ原稿種認識の機能を用途別に有するのでなく、アプリケーションに対応付けられている原稿種を認識するまで、異なるアプリケーションに共通の多段構成の原稿種認識を繰り返す。よって、１つの画像処理装置が様々な用途で原稿種を認識する環境において、効率的にかつリソースを逼迫することなく多種多様な原稿種認識を実現することができる。

【0135】

＜その他の適用例＞
以上、本発明を実施するための最良の形態について実施例を用いて説明したが、本発明はこうした実施例に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

【0136】

図５，図６などの構成例は、画像処理装置２０による処理の理解を容易にするために、主な機能に応じて分割したものである。処理単位の分割の仕方や名称によって本願発明が制限されることはない。画像処理装置２０の処理は、処理内容に応じて更に多くの処理単位に分割することもできる。また、１つの処理単位が更に多くの処理を含むように分割することもできる。

【0137】

上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP（Digital Signal Processor）、FPGA（Field Programmable Gate Array）や従来の回路モジュール等のデバイスを含むものとする。

【0138】

＜付記＞
[付記１]
原稿を読み取って生成した画像データをアプリケーションが処理する画像処理装置であって、
ユーザーによる前記アプリケーションの設定を受け付ける設定受付部と、
前記設定受付部が受け付けた前記アプリケーションに対応付けられている原稿種の判別タイプを判断する原稿種判断部と、
前記原稿種判断部が判断した前記原稿種の判別タイプに基づいて、前記画像データに対し段階的に原稿種の認識を行う原稿種認識部と、
を有することを特徴とする画像処理装置。
[付記２]
前記原稿種判断部が判断した前記原稿種の判別タイプに前記原稿種認識部が認識した原稿種が含まれている場合、前記原稿種認識部は、認識した原稿種が前記原稿の種類であると判断する付記１に記載の画像処理装置。
[付記３]
前記原稿種判断部が判断した前記原稿種の判別タイプに前記原稿種認識部が認識した原稿種が含まれていない場合、次の段階の原稿種認識を前記原稿種認識部に入力する次段認識原稿種決定部、を有することを特徴とする付記１又は２に記載の画像処理装置。
[付記４]
前記原稿種認識部は、認識できる前記原稿種が異なる原稿種認識を段階的に実施するものであり、
前記次段認識原稿種決定部は、予め設定されている順に、次の段階の原稿種認識を決定することを特徴とする付記３に記載の画像処理装置。
[付記５]
前記原稿種判断部が判断した前記原稿種の判別タイプに前記原稿種認識部が第一の原稿種認識により認識した原稿種が含まれておらず、かつ、
前記原稿種認識部が前記第一の原稿種認識により予め設定されている第一の原稿種を認識した場合、前記次段認識原稿種決定部は、前記第一の原稿種より細分化された第二の原稿種を認識する第二の原稿種認識を決定することを特徴とする付記４に記載の画像処理装置。
[付記６]
前記原稿種判断部が判断した前記原稿種の判別タイプに前記原稿種認識部が第二の原稿種認識により認識した前記第二の原稿種が含まれておらず、かつ、
前記原稿種認識部が前記第二の原稿種認識により予め設定されている第三の原稿種を認識した場合、前記次段認識原稿種決定部は、前記第三の原稿種より細分化された第四の原稿種を認識する第三の原稿種認識を決定することを特徴とする付記５に記載の画像処理装置。
[付記７]
前記原稿種判断部が判断した前記原稿種の判別タイプに前記原稿種認識部が第一の原稿種認識により認識した原稿種が含まれておらず、かつ、
前記原稿種認識部が前記第一の原稿種を認識しない場合、前記次段認識原稿種決定部は、前記原稿種を判断不能と判断することを特徴とする付記５に記載の画像処理装置。
[付記８]
前記原稿種認識部は、前記画像データと前記原稿種の対応を事前に学習した、ニューラルネットワークを用いた学習モデルにより前記原稿種を認識するか、
又は、前記画像データの特徴量をルールベースに基づいて判断することで前記原稿種を認識することを特徴とする付記１～７のいずれか１項に記載の画像処理装置。

【符号の説明】

【0139】

２０画像処理装置
５１１原稿種判断部
５１２原稿種認識部
５１３次段認識原稿種決定部

【先行技術文献】

【特許文献】

【0140】

【特許文献1】特開2005－079940号公報

【図1】