IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ セイコーエプソン株式会社の特許一覧

特許7467999スキャンシステム、プログラム、およびスキャンシステムのスキャンデータ生成方法
<>
  • 特許-スキャンシステム、プログラム、およびスキャンシステムのスキャンデータ生成方法 図1
  • 特許-スキャンシステム、プログラム、およびスキャンシステムのスキャンデータ生成方法 図2
  • 特許-スキャンシステム、プログラム、およびスキャンシステムのスキャンデータ生成方法 図3
  • 特許-スキャンシステム、プログラム、およびスキャンシステムのスキャンデータ生成方法 図4
  • 特許-スキャンシステム、プログラム、およびスキャンシステムのスキャンデータ生成方法 図5
  • 特許-スキャンシステム、プログラム、およびスキャンシステムのスキャンデータ生成方法 図6
  • 特許-スキャンシステム、プログラム、およびスキャンシステムのスキャンデータ生成方法 図7
  • 特許-スキャンシステム、プログラム、およびスキャンシステムのスキャンデータ生成方法 図8
  • 特許-スキャンシステム、プログラム、およびスキャンシステムのスキャンデータ生成方法 図9
  • 特許-スキャンシステム、プログラム、およびスキャンシステムのスキャンデータ生成方法 図10
  • 特許-スキャンシステム、プログラム、およびスキャンシステムのスキャンデータ生成方法 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-08
(45)【発行日】2024-04-16
(54)【発明の名称】スキャンシステム、プログラム、およびスキャンシステムのスキャンデータ生成方法
(51)【国際特許分類】
   H04N 1/00 20060101AFI20240409BHJP
   G06T 7/00 20170101ALI20240409BHJP
   G10L 13/00 20060101ALI20240409BHJP
【FI】
H04N1/00 350
H04N1/00 L
G06T7/00 300D
G10L13/00 100K
【請求項の数】 9
(21)【出願番号】P 2020040699
(22)【出願日】2020-03-10
(65)【公開番号】P2021145160
(43)【公開日】2021-09-24
【審査請求日】2023-01-19
(73)【特許権者】
【識別番号】000002369
【氏名又は名称】セイコーエプソン株式会社
(74)【代理人】
【識別番号】100179475
【弁理士】
【氏名又は名称】仲井 智至
(74)【代理人】
【識別番号】100216253
【弁理士】
【氏名又は名称】松岡 宏紀
(74)【代理人】
【識別番号】100225901
【弁理士】
【氏名又は名称】今村 真之
(72)【発明者】
【氏名】大室 誠
【審査官】豊田 好一
(56)【参考文献】
【文献】特開平08-279020(JP,A)
【文献】特開平09-138802(JP,A)
【文献】特開2002-304629(JP,A)
【文献】国際公開第2008/152805(WO,A1)
【文献】特開2003-087447(JP,A)
【文献】米国特許出願公開第2017/0286058(US,A1)
【文献】米国特許出願公開第2019/0065449(US,A1)
【文献】特開2019-059022(JP,A)
【文献】特開2021-087146(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 1/00
G06V 30/00
G06T 7/00
G10L 13/00
(57)【特許請求の範囲】
【請求項1】
原稿をスキャンしてスキャンデータを生成する生成部と、
前記スキャンデータを画像認識する画像認識部と、
前記画像認識部の認識結果に含まれる第1要素に対応する言葉であって、前記原稿に含
まれている写真、絵および図のいずれかに対応する写真・絵・図対応言葉を、スピーカー
回路から発音させる発音部と、を備え、
前記発音部は、前記第1要素に対応する写真・絵・図対応言葉を、スピーカー回路から
発音させた後に、ユーザー操作に応じて、前記画像認識部の認識結果に含まれ前記第1要
素と異なる第2要素に対応する写真・絵・図対応言葉を、スピーカー回路から発音させる
ことを特徴とするスキャンシステム。
【請求項2】
前記発音部は、ユーザーが第1操作を行ったされたことに応じて前記第1要素に対応す
る写真・絵・図対応言葉を、スピーカー回路から発音させ、その後に再びユーザーが前記
第1操作を行ったされたことに応じて前記第2要素に対応する写真・絵・図対応言葉を、
スピーカー回路から発音させることを特徴とする請求項1に記載のスキャンシステム。
【請求項3】
第1キーを備え、
前記第1操作は前記第1キーを操作することであることを特徴とする請求項2に記載のス
キャンシステム。
【請求項4】
生成部は、第2要素に対応する写真・絵・図対応言葉をスピーカー回路から発音させた後
にユーザーによって第2操作が行われたことに応じて本スキャンを行うことを特徴とする
請求項1ないし3のいずれか1項に記載のスキャンシステム。
【請求項5】
前記原稿に前記第1要素が含まれず前記第2要素が含まれる場合に、前記第1要素に対応
する写真・絵・図対応言葉を、スピーカー回路から発音させずに、前記第2要素に対応す
る写真・絵・図対応言葉を、スピーカー回路から発音させることを特徴とする請求項1な
いし4のいずれか1項に記載のスキャンシステム。
【請求項6】
前記第1要素と前記第2要素とのそれぞれを予め設定する設定画面を備えることを特徴
とする請求項1ないし5のいずれか1項に記載のスキャンシステム。
【請求項7】
原稿をスキャンしてスキャンデータを生成する生成部と、
前記スキャンデータを画像認識する画像認識部と、
前記画像認識部の認識結果に含まれる第1要素に対応する言葉であって、前記原稿に含
まれている文字に対応する言葉ではなく、前記原稿に含まれているコードに対応する言葉
でもない文字・コード非対応言葉を、スピーカー回路から発音させる発音部と、を備え、
前記発音部は、前記第1要素に対応する文字・コード非対応言葉を、スピーカー回路か
ら発音させた後に、ユーザー操作に応じて、前記画像認識部の認識結果に含まれ前記第1
要素と異なる第2要素に対応する文字・コード非対応言葉を、スピーカー回路から発音さ
せることを特徴とするスキャンシステム。
【請求項8】
スキャンシステムに、
原稿をスキャンしてスキャンデータを生成するステップと、
前記スキャンデータを画像認識するステップと、
前記画像認識の認識結果に含まれる第1要素に対応する言葉であって、前記原稿に含ま
れている写真、絵および図のいずれかに対応する写真・絵・図対応言葉を、スピーカー回
路から発音させるステップと、
前記第1要素に対応する写真・絵・図対応言葉を、スピーカー回路から発音させた後に
、ユーザー操作に応じて、前記画像認の認識結果に含まれ前記第1要素と異なる第2要
素に対応する写真・絵・図対応言葉を、スピーカー回路から発音させるステップと、を実
行させるためのプログラム。
【請求項9】
原稿をスキャンしてスキャンデータを生成するステップと、
前記スキャンデータを画像認識するステップと、
前記画像認識の認識結果に含まれる第1要素に対応する言葉であって、前記原稿に含ま
れている写真、絵および図のいずれかに対応する写真・絵・図対応言葉を、スピーカー回
路から発音させるステップと、
前記第1要素に対応する文字・コード非対応言葉を、スピーカー回路から発音させた後
に、ユーザー操作に応じて、前記画像認の認識結果に含まれ前記第1要素と異なる第2
要素に対応する文字・コード非対応言葉を、スピーカー回路から発音させるステップと、
を実行することを特徴とするスキャンシステムのスキャンデータ生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、スキャンシステム、プログラム、およびスキャンシステムのスキャンデータ生成方法に関するものである。
【背景技術】
【0002】
特許文献1には、視覚障害を持つユーザーが複写する原稿の内容を把握できるように、原稿を光学的に読み取り、原稿に含まれている文字を発音させる複写装置が開示されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2006-163288号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1の技術では、文字が含まれていない原稿を読み取った場合に、内容を把握できない。
【課題を解決するための手段】
【0005】
本発明のスキャンシステムは、原稿をスキャンしてスキャンデータを生成する生成部と、スキャンデータを画像認識する画像認識部と、画像認識部の認識結果に対応する言葉であって、原稿に含まれている写真、絵および図のいずれかに対応する写真・絵・図対応言葉を、スピーカー回路から発音させる発音部と、を備える。
【0006】
本発明のプログラムは、スキャンシステムに、原稿をスキャンしてスキャンデータを生成するステップと、スキャンデータを画像認識するステップと、画像認識の認識結果に対応する言葉であって、原稿に含まれている写真、絵および図のいずれかに対応する写真・絵・図対応言葉を、スピーカー回路から発音させるステップと、を実行させる。
【0007】
本発明のスキャンシステムのスキャンデータ生成方法は、原稿をスキャンしてスキャンデータを生成するステップと、スキャンデータを画像認識するステップと、画像認識の認識結果に対応する言葉であって、原稿に含まれている写真、絵および図のいずれかに対応する写真・絵・図対応言葉を、スピーカー回路から発音させるステップと、を実行する。
【0008】
本発明のスキャンシステムは、原稿をスキャンしてスキャンデータを生成する生成部と、スキャンデータを画像認識する画像認識部と、画像認識部の認識結果に対応する言葉であって、原稿に含まれている文字に対応する言葉ではなく、原稿に含まれているコードに対応する言葉でもない文字・コード非対応言葉を、スピーカー回路から発音させる発音部と、を備える。
【図面の簡単な説明】
【0009】
図1】複合機のハードウェア構成を示すブロック図である。
図2】画像テンプレート記憶領域の説明図である。
図3】複合機の機能構成を示すブロック図である。
図4】第1設定画面の表示例を示す図である。
図5】第2設定画面の表示例を示す図である。
図6】第3設定画面の表示例を示す図である。
図7】原稿の一例を示す図である。
図8】スキャン処理の流れを示すフローチャートである。
図9図8に続く、スキャン処理の流れを示すフローチャートである。
図10図9に続く、スキャン処理の流れを示すフローチャートである。
図11図10に続く、スキャン処理の流れを示すフローチャートである。
【発明を実施するための形態】
【0010】
以下、一実施形態に係るスキャンシステム、プログラム、およびスキャンシステムのスキャンデータ生成方法について、添付図面を参照して説明する。図1は、複合機1のハードウェア構成を示すブロック図である。複合機1は、「スキャンシステム」の一例である。
【0011】
複合機1は、ハードウェア構成として、CPU(Central Processing Unit)11と、RAM(Random Access Memory)12と、ROM(Read Only Memory)13と、操作パネル14と、印刷機構15と、画像読取機構16と、スピーカー回路17と、通信インターフェース18と、を備え、これらはバス19を介して接続される。
【0012】
CPU11は、ROM13に記憶されている各種プログラムをRAM12に展開することにより、複合機1内の各部を制御する。なお、CPU11に代わるプロセッサーとして、ASIC(Application Specific Integrated Circuit)等のハードウェア回路を用いてもよい。また、プロセッサーは、1以上のCPUとASIC等のハードウェア回路が協働して動作する構成でもよい。
【0013】
ROM13は、不揮発性の記憶媒体であり、各種プログラムおよび各種データを記憶する。例えば、ROM13は、制御プログラム13aを記憶する。制御プログラム13aは、複合機1が各種処理を実行するためのファームウェアである。CPU11は、この制御プログラム13aに基づいて、後述するスキャン処理(図8図9参照)をはじめ、コピー処理や印刷処理等を実行する。また、本実施形態に係る複合機1は、スキャン処理において、視覚障害を持つユーザーがスキャンしようとする原稿50の内容を把握できるように、原稿50の読み上げ機能を有している。この原稿50の読み上げ機能は、CPU11が、原稿50(図7参照)をスキャンしたスキャンデータを画像認識し、その画像認識結果に対応する言葉を、スピーカー回路17から発音させることにより実現される。
【0014】
なお、「画像認識結果に対応する言葉」とは、スキャンデータを画像認識することにより得られる言葉を指す。また、「画像認識」とは、スキャンデータの中の画像が何を示しているのかを自動的に認識する処理を指す。例えば、スキャンデータに対し、画像マッチング処理や光学的文字認識処理を行うことを指し、AIを用いてもよい。例えば、CPU11は、スキャンデータに対し、画像マッチング処理を行うことにより、スキャンデータに含まれる画像のなかから、予め記憶されている画像テンプレートに対応する画像を抽出し、抽出した画像を示す言葉を、スピーカー回路17から発音させる。また、CPU11は、スキャンデータに対し、光学的文字認識処理を行うことにより、スキャンデータに含まれる文字に対応する言葉をスピーカー回路17から発音させる。
【0015】
また、CPU11は、制御プログラム13aに基づいて、原稿50の読み上げに関する各種設定を受け付ける。以下、原稿50の読み上げに関する各種設定を、「読み上げ設定」と称する。読み上げ設定については、図4等を参照して後述する。
【0016】
ROM13は、画像テンプレート記憶領域13bと、文字データ記憶領域13cと、宛先記憶領域13dと、設定値記憶領域13eと、を有する。画像テンプレート記憶領域13bは、「記憶部」の一例である。
【0017】
画像テンプレート記憶領域13bは、画像マッチング処理に用いられる画像テンプレートと、言葉と、を関連付けて記憶する。画像テンプレートは、「画像データ」の一例である。図2は、画像テンプレート記憶領域13bの説明図である。画像テンプレート記憶領域13bは、画像テンプレートに関連づける言葉として、「画像を示す言葉」と「画像の分類を示す言葉」とを記憶する。「画像の分類を示す言葉」とは、画像が示すものを規定の分類にしたがって仕分けした場合の分類を示す言葉であり、「画像を示す言葉」の上位概念となる言葉である。なお、「画像を示す言葉」および「画像の分類を示す言葉」は、「文字・コード非対応言葉」を含み、「文字・コード非対応言葉」は、「写真・絵・図対応言葉」を含む。
【0018】
例えば、「画像を示す言葉」は、人物の名前を示す言葉を含む。画像テンプレート記憶領域13bは、人物ごとに、人物の顔の画像テンプレートと、人物の名前を示す言葉と、を関連付けて記憶する。図2において、「画像テンプレートA」および「画像テンプレートB」は、人物の顔の画像テンプレートである。また、「山田 太郎」および「鈴木 花子」は、人物の名前を示す言葉である。人物の名前を示す言葉には、「画像の分類を示す言葉」として、例えば「人物」という言葉が関連付けられる。
【0019】
また、「画像を示す言葉」は、グラフの種類を示す言葉を含む。画像テンプレート記憶領域13bは、グラフの種類ごとに、グラフの画像テンプレートと、グラフの種類を示す言葉と、を関連付けて記憶する。図2において、「画像テンプレートC」および「画像テンプレートD」は、グラフの画像テンプレートである。また、「折れ線グラフ」および「棒グラフ」は、グラフの種類を示す言葉である。グラフの種類を示す言葉には、「画像の分類を示す言葉」として、例えば「グラフ」という言葉が関連付けられる。なお、グラフの種類を示す言葉としては、同図に示す「折れ線グラフ」や「棒グラフ」以外に、「円グラフ」、「帯グラフ」および「レーダーチャート」などを画像テンプレート記憶領域13bに記憶してもよい。
【0020】
また、画像テンプレート記憶領域13bは、「画像を示す言葉」として、人物の名前を示す言葉やグラフの種類を示す言葉以外にも、「レーザープリンター」や「柴犬」などの一般名称を記憶する。図2において、「画像テンプレートE」は、レーザープリンターの画像テンプレートであり、「画像テンプレートF」は、柴犬の画像テンプレートである。例えば、「レーザープリンター」という言葉には、「画像の分類を示す言葉」として、例えば「電化製品」という言葉が関連付けられる。なお、「画像の分類を示す言葉」として、「レーザープリンター」という言葉に、「プリンター」、「電化製品」および「電子機器」など、複数の言葉を関連付けてもよい。また、「柴犬」という言葉には、「画像の分類を示す言葉」として、例えば「犬」という言葉が関連付けられる。なお、「画像の分類を示す言葉」として、「柴犬」という言葉に、「犬」および「動物」など、複数の言葉を関連付けてもよい。
【0021】
文字データ記憶領域13cは、光学的文字認識処理に用いられる文字データを記憶する。CPU11は、光学的文字認識処理により、文字データ記憶領域13cに記憶されている文字データに該当する文字を抽出し、抽出した文字を「画像認識結果に対応する言葉」として、スピーカー回路17から発音させる。
【0022】
宛先記憶領域13dは、原稿50をスキャンしたスキャンデータの宛先を記憶する。本実施形態では、スキャンデータの宛先として、外部装置内の特定の記憶領域のアドレスを記憶する。外部装置内の特定の記憶領域は、「特定の宛先」の一例である。外部装置としては、PC(Personal Computer)、サーバーおよびプリンターなどが用いられる。
【0023】
設定値記憶領域13eは、上記の「読み上げ設定」の設定値を記憶する。以下、「読み上げ設定」の設定値を「読み上げ設定値」と称する。
【0024】
操作パネル14は、タッチパネル14aと、プレスキャンボタン14bと、本スキャンボタン14cと、キャンセルボタン14dと、を有する。
【0025】
タッチパネル14aは、ユーザーに各種情報を提示すると共に、ユーザーから各種操作を受け付ける。例えば、タッチパネル14aは、後述する読み上げ設定画面DA(図4等参照)を表示し、ユーザーによる読み上げ設定を受け付ける。また、プレスキャンボタン14bは、スキャン処理において、ユーザーがプレスキャンを指示するためのボタンである。「プレスキャン」とは、複合機1が原稿50の読み上げを行うための原稿50のスキャン動作を指す。また、本スキャンボタン14cは、スキャン処理において、ユーザーが本スキャンを指示するためのボタンである。「本スキャン」とは、スキャン処理において最終的にスキャンデータを得るための原稿50のスキャン動作を指す。
【0026】
このように、プレスキャンと本スキャンは、どちらも同じ原稿50のスキャン動作を指すものであるが、その目的が異なる。本実施形態において、プレスキャンは第1の解像度でスキャンし、本スキャンは第1の解像度より高解像度の第2の解像度でスキャンするものとする。以下、プレスキャンにより得られたスキャンデータを「プレスキャンデータ」、本スキャンにより得られたスキャンデータを「本スキャンデータ」と称する。なお、本スキャンボタン14cの操作は、「特定の操作」の一例である。また、プレスキャンデータは、「第1のスキャンデータ」の一例であり、本スキャンデータは、「第2のスキャンデータ」の一例である。
【0027】
キャンセルボタン14dは、ユーザーがスキャン処理(図8図9参照)の取り消しを指示するためのボタンである。
【0028】
印刷機構15は、印刷用紙等の印刷媒体に印刷を行う。また、画像読取機構16は、原稿50を読み取る。画像読取機構16は、シートフィード方式でもよいしフラットベッド方式でもよい。画像読取機構16は、原稿50が原稿台にセットされたことや原稿台から取り除かれたことを検出可能である。
【0029】
CPU11は、印刷機構15を動作させることにより印刷処理を実行する。また、CPU11は、画像読取機構16を動作させることによりスキャン処理を実行する。また、複合機1は、印刷機構15および画像読取機構16を動作させることによりコピー処理を実行する。
【0030】
スピーカー回路17は、言葉を発音する。CPU11は、プレスキャンデータの認識結果に対応する言葉を音声変換し、変換した音声データをスピーカー回路17に入力する。スピーカー回路17は、入力された音声データに基づいて音声出力することにより、言葉を発音する。
【0031】
通信インターフェース18は、インターネット等のネットワークを介して外部装置(図示省略)と通信する。CPU11は、本スキャンボタン14cの操作により、ユーザーから本スキャンが指示されると、通信インターフェース18を介して外部装置に本スキャンデータを送信する。
【0032】
次に、図3を参照し、複合機1の機能構成について説明する。複合機1は、機能構成として、生成部110と、画像認識部120と、発音部130と、送信部140と、を備える。これらの機能は、CPU11が、制御プログラム13aを実行することにより実現される。
【0033】
生成部110は、画像読取機構16により原稿50をスキャンすることによりスキャンデータを生成する。生成部110は、ユーザーによるプレスキャンの指示にしたがってプレスキャンデータを生成し、本スキャンの指示にしたがって本スキャンデータを生成する。
【0034】
画像認識部120は、生成部110により生成されたプレスキャンデータを画像認識する。画像認識部120は、画像マッチング処理により、人物の顔、グラフの種類および画像の分類を認識する。また、画像認識部120は、光学的文字認識処理により、文字を認識する。
【0035】
発音部130は、画像認識部120の認識結果に対応する言葉を、スピーカー回路17から発音させる。例えば、発音部130は、画像認識部120で認識された文字に対応する言葉を、スピーカー回路17から発音させる。
【0036】
また、発音部130は、画像認識部120の認識結果に対応する言葉であって、原稿50に含まれている文字に対応する言葉ではなく、原稿50に含まれているコードに対応する言葉でもない文字・コード非対応言葉を、スピーカー回路17から発音させる。ここで、「原稿50に含まれている文字」とは、原稿50を目視したときにユーザーが認識可能な文字だけでなく、ユーザーが認識不可能な文字、例えば隠し文字を含むものである。また、「原稿50に含まれているコード」とは、バーコード、二次元コードおよびカラーコードなどを含むものである。また、「コードに対応する言葉」とは、例えばバーコードの場合、「バーコード」という言葉ではなく、バーコードにコード化情報として含まれている言葉を指す。
【0037】
また、発音部130は、画像認識部120の認識結果に対応する言葉であって、原稿50に含まれている写真、絵および図のいずれかに対応する写真・絵・図対応言葉を、スピーカー回路17から発音させる。ここで、「写真」とは、カメラで撮影された画像を指す。また、「絵」とは、絵画など、物の形象や情景を描いた画像を指す。また、「図」とは、地図、図形および図面など、物の形や状態を描いた画像を指す。
【0038】
例えば、発音部130は、画像テンプレート記憶領域13bを参照し、画像認識部120で顔が認識された人物の名前を示す言葉を、文字・コード非対応言葉のうちの写真・絵・図対応言葉として、スピーカー回路17から発音させる。また、発音部130は、画像認識部120で認識されたグラフの種類を示す言葉、および画像の分類を示す言葉を、文字・コード非対応言葉のうちの写真・絵・図対応言葉として、スピーカー回路17から発音させる。
【0039】
送信部140は、発音部130による発音終了後の一定時間内に、本スキャンボタン14cが操作されたとき、生成部110により生成された本スキャンデータを、特定の宛先に送信する。送信部140は、宛先記憶領域13dに記憶されている宛先に、本スキャンデータを送信する。
【0040】
次に、図4ないし図6を参照し、読み上げ設定画面DAについて説明する。上記のとおり、読み上げ設定画面DAは、読み上げ設定を行うための画面である。本実施形態に係る複合機1は、3段階で読み上げ設定を行うことができる。以下、第1段階の読み上げ設定を「第1読み上げ設定」、第2段階の読み上げ設定を「第2読み上げ設定」、第3段階の読み上げ設定を「第3読み上げ設定」と称する。なお、以下の読み上げ設定画面DAの操作は、視覚障害を持たない健常者が行うことを想定しているが、複合機1が読み上げ設定画面DAに表示されている情報を読み上げることにより、視覚障害者による操作を可能としてもよい。
【0041】
複合機1は、後述するスキャン処理において、最初にプレスキャンボタン14bが操作されたとき、第1読み上げ設定にしたがって言葉を発音する。また、複合機1は、後述するスキャン処理において、2回目にプレスキャンボタン14bが操作されたとき、第2読み上げ設定にしたがって言葉を発音する。また、複合機1は、後述するスキャン処理において、3回目にプレスキャンボタン14bが操作されたとき、第3読み上げ設定にしたがって言葉を発音する。なお、本実施形態において複合機1は、最初にプレスキャンボタン14bが操作されたとき、第1読み上げ設定に該当する文字や画像が原稿50に含まれない場合、第2読み上げ設定にしたがって言葉を発音する。詳細については、スキャン処理(図8ないし図11)にて説明する。
【0042】
図4は、第1読み上げ設定を行うための第1読み上げ設定画面DA1の表示例を示す図である。第1読み上げ設定画面DA1には、画像選択肢群21と、文字選択肢群22と、第1画面移行ボタン31と、第1設定終了ボタン32と、が表示される。
【0043】
画像選択肢群21は、「画像分類」、「人物」および「グラフ」の3つの選択肢のいずれか1以上、または「全ての画像」の選択肢を選択可能となっている。また、文字選択肢群22は、「文字サイズ大」、「飾り付き文字」、「色付き文字」および「日付」の選択肢のいずれか1以上、または「全ての文字」の選択肢を選択可能となっている。
【0044】
例えば、複合機1は、画像選択肢群21の「画像分類」の選択肢が選択されると、画像認識部120で認識された画像の分類を示す言葉を発音する。すなわち、複合機1は、画像選択肢群21の「画像分類」の選択肢が選択されると、画像テンプレート記憶領域13bにおいて、画像認識部120で認識された画像の画像テンプレートに関連付けられた「画像の分類を示す言葉」を発音する。
【0045】
また、複合機1は、画像選択肢群21の「人物」の選択肢が選択されると、画像認識部120で顔が認識された人物の名前を示す言葉を発音する。画像選択肢群21の「人物」の選択肢が選択された場合、複合機1は、画像テンプレート記憶領域13bにおける「画像の分類を示す言葉」を発音しない。
【0046】
同様に、複合機1は、画像選択肢群21の「グラフ」の選択肢が選択されると、画像認識部120で認識されたグラフの種類を示す言葉を発音する。画像選択肢群21の「グラフ」の選択肢が選択された場合、複合機1は、画像テンプレート記憶領域13bにおける「画像の分類を示す言葉」を発音しない。
【0047】
また、複合機1は、画像選択肢群21の「全ての画像」の選択肢が選択されると、画像認識部120で認識された全ての画像を示す言葉、すなわち画像テンプレート記憶領域13bにおいて、画像認識部120で認識された全ての画像の画像テンプレートに関連付けられた「画像を示す言葉」を発音する。画像選択肢群21の「全ての画像」の選択肢が選択された場合、複合機1は、画像テンプレート記憶領域13bにおける「画像の分類を示す言葉」を発音しない。
【0048】
また、複合機1は、文字選択肢群22の「文字サイズ大」の選択肢が選択されると、画像認識部120で認識された文字のうち、文字サイズが大きい文字を発音する。また、複合機1は、文字選択肢群22の「飾り付き文字」の選択肢が選択されると、画像認識部120で認識された文字のうち、飾り付きの文字を発音する。
【0049】
また、複合機1は、文字選択肢群22の「色付き文字」の選択肢が選択されると、画像認識部120で認識された文字のうち、色付きの文字を発音する。また、複合機1は、文字選択肢群22の「日付」の選択肢が選択されると、画像認識部120で認識された文字のうち、日付を示す文字を発音する。
【0050】
また、複合機1は、文字選択肢群22の「全ての文字」の選択肢が選択されると、画像認識部120で認識された全ての文字に対応する言葉、すなわち光学的文字認識処理により認識された全ての文字に対応する言葉を発音する。
【0051】
なお、「文字サイズが大きい文字」とは、画像認識部120で認識された文字の大きさが閾値以上の文字を指す。若しくは、画像認識部120で認識された複数種類の文字の大きさのうち、最も大きい文字など、画像認識部120で認識された文字のなかで相対的に大きい文字を「文字サイズが大きい文字」としてもよい。
【0052】
また、「飾り付きの文字」とは、下線付き文字や網掛け文字など、文字装飾された文字を指す。また、「色付きの文字」とは、黒色または白色以外の色の文字を指す。例えば、「白色以外の色の文字」は、下地が白色の場合は、黒色以外の文字を指し、下地が黒色の場合は白色以外の色の文字を指す。また、「日付を示す文字」とは、数字と「年」または「年度」の組み合わせ、年号と数字と「年」の組み合わせ、1桁または2桁の数字と「月」の組み合わせ、1桁または2桁の数字と「日」の組み合わせ、などを指す。
【0053】
なお、本実施形態では、第1読み上げ設定画面DA1において、画像選択肢群21の「画像分類」の選択肢と、文字選択肢群22の「文字サイズ大」の選択肢とが選択されたものとする。
【0054】
複合機1は、第1読み上げ設定画面DA1において、第1画面移行ボタン31が選択されると、第2読み上げ設定画面DA2(図5参照)を表示する。また、複合機1は、第1設定終了ボタン32が選択されると、それまで読み上げ設定画面DAにおいて設定された読み上げ設定値を設定値記憶領域13eに記憶させ、読み上げ設定を終了する。
【0055】
図5は、第2読み上げ設定を行うための第2読み上げ設定画面DA2の表示例を示す図である。第2読み上げ設定画面DA2には、画像選択肢群21と、文字選択肢群22と、第2画面移行ボタン33と、第3画面移行ボタン34と、第2設定終了ボタン35と、が表示される。第2読み上げ設定画面DA2の画像選択肢群21および文字選択肢群22に含まれる選択肢は、第1読み上げ設定画面DA1と同様である。また、同図に示すように、本実施形態では、第2読み上げ設定画面DA2において、画像選択肢群21の「人物」の選択肢と、文字選択肢群22の「飾り付き文字」の選択肢とが選択されたものとする。
【0056】
複合機1は、第2読み上げ設定画面DA2において、第2画面移行ボタン33が選択されると、第1読み上げ設定画面DA1を表示する。また、複合機1は、第3画面移行ボタン34が選択されると、第3読み上げ設定画面DA3(図6参照)を表示する。また、複合機1は、第2設定終了ボタン35が選択されると、それまで読み上げ設定画面DAにおいて設定された読み上げ設定値を設定値記憶領域13eに記憶させ、読み上げ設定を終了する。
【0057】
図6は、第3読み上げ設定を行うための第3読み上げ設定画面DA3の表示例を示す図である。第3読み上げ設定画面DA3には、画像選択肢群21と、文字選択肢群22と、第4画面移行ボタン36と、第3設定終了ボタン37と、が表示される。第3読み上げ設定画面DA3の画像選択肢群21および文字選択肢群22に含まれる選択肢は、第1読み上げ設定画面DA1と同様である。また、同図に示すように、本実施形態では、第3読み上げ設定画面DA3において、画像選択肢群21の「グラフ」の選択肢と、文字選択肢群22の「日付」の選択肢とが選択されたものとする。
【0058】
複合機1は、第3読み上げ設定画面DA3において、第4画面移行ボタン36が選択されると、第2読み上げ設定画面DA2を表示する。また、複合機1は、第3設定終了ボタン37が選択されると、それまで読み上げ設定画面DAにおいて設定された読み上げ設定値を設定値記憶領域13eに記憶させ、読み上げ設定を終了する。
【0059】
次に、図7を参照し、図4ないし図6に示した読み上げ設定画面DAの設定に基づいて発音される言葉について説明する。図7は、原稿50の一例を示す図である。同図に示す原稿50は、人の顔を示す顔画像61と、レーザープリンターの外観を示す第1プリンター画像62と、インクジェットプリンターの外観を示す第2プリンター画像63と、レーザープリンターの月別印刷枚数のグラフを示す第1グラフ画像64と、インクジェットプリンターの月別印刷枚数のグラフを示す第2グラフ画像65と、を含む。また、原稿50は、表題を示す表題文字列71と、説明文を示す説明文文字列72と、項目名「レーザープリンター」を示す第1項目名文字列73と、項目名「インクジェットプリンター」を示す第2項目名文字列74と、を含む。
【0060】
複合機1は、図4ないし図6に示した読み上げ設定画面DAに基づく読み上げ設定値が設定値記憶領域13eに記憶されている場合であって、図7に示す原稿50をスキャンした場合、以下のように言葉を発音する。なお、以下の示す例では、文字の読み上げであるか画像の読み上げであるかをユーザーが区別できるように、複合機1は、画像認識部120で認識された文字や画像を示す言葉の前に、「文字」または「画像」と発音するものとする。
【0061】
複合機1は、スキャン処理において、最初にプレスキャンボタン14bが操作されたとき、第1読み上げ設定画面DA1(図4参照)の画像選択肢群21の選択結果に基づいて、顔画像61、第1プリンター画像62、第2プリンター画像63、第1グラフ画像64および第2グラフ画像65の画像分類を示す言葉を発音する。例えば、複合機1は、「画像、人物。画像、電化製品。画像、電化製品。画像、グラフ。画像、グラフ。」などと発音する。
【0062】
また、複合機1は、スキャン処理において、最初にプレスキャンボタン14bが操作されたとき、第1読み上げ設定画面DA1(図4参照)の文字選択肢群22の選択結果に基づいて、文字サイズが大きい表題文字列71を発音する。例えば、複合機1は、「文字、プリンターの使用状況のお知らせ。」などと発音する。
【0063】
また、複合機1は、スキャン処理において、2回目にプレスキャンボタン14bが操作されたとき、第2読み上げ設定画面DA2(図5参照)の画像選択肢群21の選択結果に基づいて、顔画像61の人物の名前を示す言葉を発音する。例えば、複合機1は、画像テンプレート記憶領域13bにおいて、顔画像61の人物の顔を示す画像テンプレートと、人物の名前を示す言葉である「山田 太郎」とが関連づけて記憶されている場合(図2参照)、「画像、山田 太郎。」などと発音する。
【0064】
また、複合機1は、スキャン処理において、2回目にプレスキャンボタン14bが操作されたとき、第2読み上げ設定画面DA2(図5参照)の文字選択肢群22の選択結果に基づいて、飾り付きの文字である第1項目名文字列73および第2項目名文字列74を発音する。例えば、複合機1は、「文字、レーザープリンター。文字、インクジェットプリンター。」などと発音する。
【0065】
また、複合機1は、スキャン処理において、3回目にプレスキャンボタン14bが操作されたとき、第3読み上げ設定画面DA3(図6参照)の画像選択肢群21の選択結果に基づいて、第1グラフ画像64および第2グラフ画像65のグラフの種類を示す言葉を発音する。例えば、複合機1は、「画像、折れ線グラフ。画像、折れ線グラフ。」などと発音する。なお、複合機1は、グラフの種類と共に、第1グラフ画像64および第2グラフ画像65に含まれる文字を発音してもよい。例えば、複合機1は、第1グラフ画像64に基づいて、「画像、折れ線グラフ。レーザープリンター。横軸、1月、6月、12月。縦軸、印刷枚数。」などと発音してもよい。また、複合機1は、グラフの種類と共に、グラフの要点を発音してもよい。例えば、複合機1は、第2グラフ画像65に基づいて、「画像、折れ線グラフ。印刷枚数のピークは8月。」などと発音してもよい。
【0066】
また、複合機1は、スキャン処理において、3回目にプレスキャンボタン14bが操作されたとき、第3読み上げ設定画面DA3(図6参照)の文字選択肢群22の選択結果に基づいて、日付を示す文字を含む説明文文字列72を発音する。例えば、複合機1は、「文字、2019年度におけるプリンターの月別印刷枚数は以下のとおりです。」などと発音する。なお、複合機1は、日付を示す文字のみを発音してもよい。例えば、複合機1は、「文字、2019年度。」などと発音してもよい。
【0067】
次に、図8ないし図11のフローチャートを参照し、スキャン処理の流れを説明する。複合機1は、原稿50が画像読取機構16の原稿台にセットされたことを検出したことに応じて、図8のフローチャートを開始する。まず、プレスキャンボタン14bの操作が検出されるまで、プレスキャンボタン14bの操作を定期的に監視する。以下に示すスキャン処理は、プレスキャンボタン14bの操作以降の処理を指すものである。なお、複合機1は、スキャン処理の前に、第1読み上げ設定、第2読み上げ設定および第3読み上げ設定の設定値を、設定値記憶領域13eに記憶しているものとする。また、複合機1は、本スキャンデータの宛先を、宛先記憶領域13dに記憶しているものとする。
【0068】
S01において、複合機1は、プレスキャンボタン14bが操作されたか否かを判断する。複合機1は、プレスキャンボタン14bが操作されたと判断した場合、S02に進む。また、複合機1は、プレスキャンボタン14bが操作されていないと判断した場合、S01を繰り返す。
【0069】
S02において、複合機1は、画像読取機構16により原稿50をスキャンし、読み取った結果としての画像データであるプレスキャンデータを生成する。
【0070】
S03において、複合機1は、S02で生成されたプレスキャンデータを画像認識する。これによって、原稿中にどのような画像が含まれているのかを認識し、各読み上げ設定に該当する文字や画像のリストを作成する。
【0071】
S04において、複合機1は、各読み上げ設定に該当する文字や画像のリストに基づいて、原稿50に、第1読み上げ設定に該当する文字や画像が含まれるか否かを判断する。複合機1は、原稿50に、第1読み上げ設定に該当する文字や画像が含まれると判断した場合、S05に進む。また、複合機1は、原稿50に、第1読み上げ設定に該当する文字や画像が含まれないと判断した場合、図10のS21に進む。
【0072】
S05において、複合機1は、第1読み上げ設定に該当する文字や画像に対応する言葉を発音する。
【0073】
図9のS11において、複合機1は、プレスキャンボタン14bが再操作されたか否かを判断する。複合機1は、スキャン処理の開始後、2回目以降のプレスキャンボタン14bの操作を、「プレスキャンボタン14bの再操作」と判断する。複合機1は、プレスキャンボタン14bが再操作されたと判断した場合、図10のS21に進む。また、複合機1は、プレスキャンボタン14bが再操作されていないと判断した場合、S12に進む。なお、複合機1は、プレスキャンボタン14bが再操作された場合、すなわちスキャン処理において2回目以降のプレスキャンボタン14bの操作に対しては、原稿50のスキャンを行わないものとする。
【0074】
S12において、複合機1は、本スキャンボタン14cが操作されたか否かを判断する。複合機1は、本スキャンボタン14cが操作されたと判断した場合、S13に進む。また、複合機1は、本スキャンボタン14cが操作されていないと判断した場合、S15に進む。
【0075】
S13において、複合機1は、画像読取機構16により原稿50を本スキャンし、本スキャンデータを生成する。本スキャンデータは、図8のS02で生成したプレスキャンより高解像度のスキャンデータである。なお、複合機1は、本スキャンボタン14cが操作される前に、読み取り解像度の設定など各種設定が行われた場合、その設定をS13における本スキャンデータの生成に反映し、特に設定が行われていない場合にはデフォルトの設定を本スキャンデータの生成に反映する。
【0076】
S14において、複合機1は、特定の宛先に、S13で生成した本スキャンデータを送信する。このとき複合機1は、ユーザーから宛先が指定されている場合には指定されている宛先に、本スキャンデータを送信する。また、複合機1は、特に宛先が指定されていない場合には、デフォルトの宛先に送信する。この宛先がプリンターであれば、送信先のプリンターで印刷が行われることになる。
【0077】
S15において、複合機1は、キャンセルボタン14dが操作されたか否かを判断する。複合機1は、キャンセルボタン14dが操作されたと判断した場合、スキャン処理を終了する。また、複合機1は、キャンセルボタン14dが操作されていないと判断した場合、S16に進む。
【0078】
S16において、複合機1は、発音終了後、一定時間が経過したかを判断する。ここで、「発音終了」とは、図8のS05における発音の終了を指す。複合機1は、発音終了後、一定時間が経過したと判断した場合、スキャン処理を終了する。また、複合機1は、発音終了後、一定時間が経過していないと判断した場合、S11に戻る。
【0079】
図10のS21において、複合機1は、各読み上げ設定に該当する文字や画像のリストに基づいて、原稿50に、第2読み上げ設定に該当する文字や画像が含まれるか否かを判断する。複合機1は、原稿50に、第2読み上げ設定に該当する文字や画像が含まれると判断した場合、S22に進む。また、複合機1は、原稿50に、第2読み上げ設定に該当する文字や画像が含まれないと判断した場合、図11のS31に進む。
【0080】
S22において、複合機1は、第2読み上げ設定に該当する文字や画像に対応する言葉を発音する。
【0081】
S23において、複合機1は、プレスキャンボタン14bが再操作されたか否かを判断する。複合機1は、プレスキャンボタン14bが再操作されたと判断した場合、図11のS31に進む。また、複合機1は、プレスキャンボタン14bが再操作されていないと判断した場合、S24に進む。
【0082】
S24において、複合機1は、本スキャンボタン14cが操作されたか否かを判断する。複合機1は、本スキャンボタン14cが操作されたと判断した場合、S25に進む。また、複合機1は、本スキャンボタン14cが操作されていないと判断した場合、S27に進む。
【0083】
S25において、複合機1は、画像読取機構16により原稿50を本スキャンし、本スキャンデータを生成する。その他、本工程は、図9のS13と同様である。
【0084】
S26において、複合機1は、特定の宛先に、S25で生成した本スキャンデータを送信する。その他、本工程は、図9のS14と同様である。
【0085】
S27において、複合機1は、キャンセルボタン14dが操作されたか否かを判断する。複合機1は、キャンセルボタン14dが操作されたと判断した場合、スキャン処理を終了する。また、複合機1は、キャンセルボタン14dが操作されていないと判断した場合、S28に進む。
【0086】
S28において、複合機1は、発音終了後、一定時間が経過したかを判断する。ここで、「発音終了」とは、S22における発音の終了を指す。複合機1は、発音終了後、一定時間が経過したと判断した場合、スキャン処理を終了する。また、複合機1は、発音終了後、一定時間が経過していないと判断した場合、S23に戻る。
【0087】
図11のS31において、複合機1は、各読み上げ設定に該当する文字や画像のリストに基づいて、原稿50に、第3読み上げ設定に該当する文字や画像が含まれるか否かを判断する。複合機1は、原稿50に、第3読み上げ設定に該当する文字や画像が含まれると判断した場合、S32に進む。また、複合機1は、原稿50に、第3読み上げ設定に該当する文字や画像が含まれないと判断した場合、S33に進む。
【0088】
S32において、複合機1は、第3読み上げ設定に該当する文字や画像に対応する言葉を発音する。
【0089】
S33において、複合機1は、プレスキャンボタン14bが再操作されたか否かを判断する。複合機1は、プレスキャンボタン14bが再操作されたと判断した場合、図8のS04に進む。また、複合機1は、プレスキャンボタン14bが再操作されていないと判断した場合、S34に進む。
【0090】
S34において、複合機1は、本スキャンボタン14cが操作されたか否かを判断する。複合機1は、本スキャンボタン14cが操作されたと判断した場合、S35に進む。また、複合機1は、本スキャンボタン14cが操作されていないと判断した場合、S37に進む。
【0091】
S35において、複合機1は、画像読取機構16により原稿50を本スキャンし、本スキャンデータを生成する。その他、本工程は、図9のS13と同様である。
【0092】
S36において、複合機1は、特定の宛先に、S35で生成した本スキャンデータを送信する。その他、本工程は、図9のS14と同様である。
【0093】
S37において、複合機1は、キャンセルボタン14dが操作されたか否かを判断する。複合機1は、キャンセルボタン14dが操作されたと判断した場合、スキャン処理を終了する。また、複合機1は、キャンセルボタン14dが操作されていないと判断した場合、S38に進む。
【0094】
S38において、複合機1は、発音終了後、一定時間が経過したかを判断する。ここで、「発音終了」とは、S32が実行された場合、S32における発音の終了を指し、S32が実行されていない場合、最後にプレスキャンボタン14bが操作されたときを指す。複合機1は、発音終了後、一定時間が経過したと判断した場合、スキャン処理を終了する。また、複合機1は、発音終了後、一定時間が経過していないと判断した場合、S33に戻る。
【0095】
以上説明したとおり、本実施形態に係る複合機1は、原稿50をスキャンしたスキャンデータを画像認識し、その認識結果に対応する言葉を、スピーカー回路17から発音させることができる。
【0096】
また、複合機1は、画像認識結果に対応する言葉であって、原稿50に含まれている様々な内容についても、スピーカー回路17から発音させることができる。このため、複合機1を操作するユーザーは、原稿50に含まれる文字以外の情報を把握することができる。また、ユーザーは、原稿50に含まれる情報を把握した上で、本スキャンを指示することができるため、所望しない原稿50を誤ってスキャンしてしまうなどのスキャンミスを軽減することができる。特に原稿50が写真や絵のみであって文字が書かれていないような場合に効果が大きい。
【0097】
また、複合機1は、発音処理における発音終了後の一定時間内に、本スキャンボタン14cが操作されたとき、本スキャンデータを生成し、生成した本スキャンデータを特定の宛先に送信することができる。すなわち、ユーザーは、本スキャンボタン14cを操作するだけの簡単な操作で、本スキャンデータを特定の宛先に送信することができる。
【0098】
なお、上記の実施形態によらず、以下の変形例を採用可能である。
[変形例1]
上記の実施形態において複合機1は、スキャン処理内で原稿50の読み上げを行ったが、コピー処理内で原稿50の読み上げを行ってもよい。この場合、複合機1は、本スキャン指示に代えて、コピー指示を受け付けたときに、原稿50をコピーすればよい。
【0099】
[変形例2]
原稿50内のどの画像をどのように読み上げるのか、読み上げ設定をどの分類で設定できるのか、は上記の実施形態に限られない。例えば、文字を含まないロゴマークを「ABC社のロゴマーク」等のように読み上げてもよい。
【0100】
[変形例3]
原稿50内に同一の読み上げ設定に該当する文字や画像が複数含まれている場合には、それらに対応する言葉をどのような順番で読み上げるかは、ユーザーが理解しやすい範囲で適宜設計することができる。例えば、横書きの原稿50であると判断された場合には、左上から右下に向かって順に読み上げ、縦書きの原稿50であると判断された場合には、右上から左下に向かって順に読み上げるようにしてもよい。
【0101】
[変形例4]
上記の実施形態において複合機1は、本スキャン指示を受け付けたときに、原稿50を本スキャンしたが、本スキャンを省略してもよい。この場合、複合機1は、スキャン指示を受け付けたときにスキャン処理を開始して本スキャンデータを生成し、生成した本スキャンデータに基づいて画像認識し、送信指示を受け付けたときに、生成した本スキャンデータを特定の宛先に送信すればよい。
【0102】
[変形例5]
上記の実施形態において複合機1は、発音終了後の一定時間内に、本スキャン指示を受け付けたとき、本スキャンデータを生成し、生成した本スキャンデータを特定の宛先に送信したが、発音処理における発音中にも本スキャン指示を受け付け可能としてもよい。すなわち、複合機1は、発音処理における発音中に本スキャン指示を受け付けた場合も、本スキャンデータを生成し、生成した本スキャンデータを特定の宛先に送信してもよい。
【0103】
[変形例6]
上記の実施形態において複合機1は、外部装置内の特定の記憶領域に本スキャンデータを送信したが、PCのメールアドレスを、本スキャンデータの送信先としてもよい。PCのメールアドレスは、「特定の宛先」の一例である。
また、さらなる変形例として、複合機1に着脱可能な外部記憶媒体や、複合機1を操作しているユーザーが所持するスマートフォン等の情報処理端末を、「特定の宛先」としてもよい。
【0104】
[変形例7]
上記の実施形態において複合機1は、2回目のプレスキャンボタン指示を受け付けたとき、第2読み上げ設定に該当する文字や画像に対応する言葉を発音したが、第1読み上げ設定に該当する文字や画像に対応する言葉を含めて発音してもよい。すなわち、複合機1は、2回目のプレスキャンボタン指示を受け付けたとき、第1読み上げ設定および第2読み上げ設定に該当する文字や画像に対応する言葉を発音し、3回目のプレスキャンボタン指示を受け付けたとき、第1読み上げ設定、第2読み上げ設定および第3読み上げ設定に該当する文字や画像に対応する言葉を発音してもよい。但し、画像選択肢群21において「全ての画像」が選択された場合、他の画像選択肢に該当する言葉であって、重複する言葉の発音を省略することが好ましい。同様に、文字選択肢群22において「全ての文字」が選択された場合、他の文字選択肢に該当する言葉であって、重複する言葉の発音を省略することが好ましい。
【0105】
[変形例8]
また、複合機1は、原稿50に、第1読み上げ設定に該当する文字や画像が含まれないと判断した場合、すなわち図8のS04:Noの場合、図10のS21に進んだが、その旨のメッセージを発音した後、S216に進んでもよい。同様に、複合機1は、図10のS21:Noの場合、原稿50に、第2読み上げ設定に該当する文字や画像が含まれない旨のメッセージを発音してもよいし、図11のS31:Noの場合、原稿50に、第3読み上げ設定に該当する文字や画像が含まれない旨のメッセージを発音してもよい。
【0106】
[変形例9]
上記の実施形態では、スキャン処理の途中でキャンセルボタン14dが操作されたとき、スキャン処理を終了したが、画像読取機構16の原稿台から原稿50が取り除かれたとき、スキャン処理を終了してもよい。
【0107】
[変形例10]
上記の実施形態では、複合機1は、原稿50が画像読取機構16の原稿台にセットされたことを検出した状態で、プレスキャンボタン14bが押されることで次の処理に進んだが、複合機1は、原稿50が画像読取機構16の原稿台にセットされたことを検出した状態で、プレスキャンボタン14bが押されることなく、本スキャンボタン14cが操作されたと判断した場合に、S13に進むようにしてもよい。
【0108】
[変形例11]
上記の実施形態では、スキャンシステムとして複合機1を例示したが、複合機1とサーバーとによりスキャンシステムを実現してもよい。この場合、図3に示した機能のうち、画像認識部120をサーバーに設け、それ以外の機能を複合機1に設ければよい。また、サーバーに代えて、スマートフォンなどの情報処理端末を用いてもよい。すなわち、複合機1と情報処理端末とにより、スキャンシステムを実現してもよい。
【0109】
[変形例12]
スキャンシステムは、複合機1の以外の電子機器でもよい。電子機器としては、スキャナー、コピー機、プロジェクター、書画カメラ、カメラ付き情報処理端末などを用いてもよい。例えば、スキャンシステムとしてプロジェクターを用いた場合、投影する原稿50の読み上げを行えばよい。また、スキャンシステムとして書画カメラおよびカメラ付き情報処理端末を用いた場合、カメラで原稿50を撮影し、撮影した画像データを、スキャンデータの代わりに用いればよい。
その他、発明の要旨を逸脱しない範囲で、適宜変更が可能である。
【0110】
[付記]
以下、スキャンシステム、プログラム、およびスキャンシステムのスキャンデータ生成方法について付記する。
スキャンシステムは、原稿50をスキャンしてスキャンデータを生成する生成部110と、スキャンデータを画像認識する画像認識部120と、画像認識部120の認識結果に対応する言葉であって、原稿50に含まれている写真、絵および図のいずれかに対応する写真・絵・図対応言葉を、スピーカー回路17から発音させる発音部130と、を備える。
【0111】
プログラムは、スキャンシステムに、原稿50をスキャンしてスキャンデータを生成するステップと、スキャンデータを画像認識するステップと、画像認識の認識結果に対応する言葉であって、原稿50に含まれている写真、絵および図のいずれかに対応する写真・絵・図対応言葉を、スピーカー回路17から発音させるステップと、を実行させる。
【0112】
スキャンシステムのスキャンデータ生成方法は、原稿50をスキャンしてスキャンデータを生成するステップと、スキャンデータを画像認識するステップと、画像認識の認識結果に対応する言葉であって、原稿50に含まれている写真、絵および図のいずれかに対応する写真・絵・図対応言葉を、スピーカー回路17から発音させるステップと、を実行する。
【0113】
この構成によれば、スキャンシステムは、画像認識結果に対応する言葉であって、原稿50に含まれている写真、絵および図のいずれかに対応する写真・絵・図対応言葉を、スピーカー回路17から発音させることができる。
【0114】
上記のスキャンシステムにおいて、原稿50に、人物の顔が含まれている場合、画像認識部120は、人物の顔を認識し、発音部130は、人物ごとに、顔の画像データと、名前を示す言葉とが関連付けて記憶された画像テンプレート記憶領域13bを参照し、画像認識部120で顔が認識された人物の名前を示す言葉を、写真・絵・図対応言葉として、スピーカー回路17から発音させることが好ましい。
【0115】
この構成によれば、スキャンシステムは、画像認識部120で顔が認識された人物の名前を示す言葉を、写真・絵・図対応言葉として、スピーカー回路17から発音させることができる。
【0116】
上記のスキャンシステムにおいて、原稿50に、グラフが含まれている場合、画像認識部120は、グラフの種類を認識し、発音部130は、グラフの種類ごとに、グラフの画像データと、グラフの種類を示す言葉とが関連付けて記憶された画像テンプレート記憶領域13bを参照し、画像認識部120で認識されたグラフの種類を示す言葉を、写真・絵・図対応言葉として、スピーカー回路17から発音させることが好ましい。
【0117】
この構成によれば、スキャンシステムは、画像認識部120で認識されたグラフの種類を示す言葉を、写真・絵・図対応言葉として、スピーカー回路17から発音させることができる。
【0118】
上記のスキャンシステムにおいて、原稿50に、画像が含まれている場合、画像認識部120は、画像の分類を認識し、発音部130は、画像ごとに、画像データと、画像の分類を示す言葉とが関連付けて記憶された画像テンプレート記憶領域13bを参照し、画像認識部120で認識された画像の分類を示す言葉を、写真・絵・図対応言葉として、スピーカー回路17から発音させることが好ましい。
【0119】
この構成によれば、スキャンシステムは、画像認識部120で認識された画像の分類を示す言葉を、写真・絵・図対応言葉として、スピーカー回路17から発音させることができる。
【0120】
上記のスキャンシステムにおいて、原稿50に、文字が含まれている場合、画像認識部120は、光学的文字認識処理により文字を認識し、発音部130は、画像認識部120で認識された文字に対応する言葉を、スピーカー回路17からさらに発音させることが好ましい。
【0121】
この構成によれば、スキャンシステムは、光学的文字認識処理により認識された文字に対応する言葉を、スピーカー回路17から発音させることができる。
【0122】
上記のスキャンシステムにおいて、生成部110は、第1のスキャンデータおよび第2のスキャンデータを生成し、画像認識部120は、第1のスキャンデータを画像認識し、発音部130による発音中、または発音部130による発音終了後の一定時間内に、特定の操作が行われたとき、第2のスキャンデータを、特定の宛先に送信する送信部140をさらに備えることが好ましい。
【0123】
この構成によれば、スキャンシステムは、発音部130による発音中、または発音部130による発音終了後の一定時間内に、特定の操作が行われたとき、第2のスキャンデータを、特定の宛先に送信することができる。
【0124】
スキャンシステムは、原稿50をスキャンしてスキャンデータを生成する生成部110と、スキャンデータを画像認識する画像認識部120と、画像認識部120の認識結果に対応する言葉であって、原稿50に含まれている文字に対応する言葉ではなく、原稿50に含まれているコードに対応する言葉でもない文字・コード非対応言葉を、スピーカー回路17から発音させる発音部130と、を備える。
【0125】
この構成によれば、スキャンシステムは、画像認識結果に対応する言葉であって、原稿50に含まれている文字に対応する言葉ではなく、原稿50に含まれているコードに対応する言葉でもない文字・コード非対応言葉を、スピーカー回路17から発音させることができる。
【符号の説明】
【0126】
1…複合機、110…生成部、120…画像認識部、130…発音部、140…送信部。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11