IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ コニカミノルタ株式会社の特許一覧

特許7187965画像処理装置、操作制御方法及び操作制御プログラム
<>
  • 特許-画像処理装置、操作制御方法及び操作制御プログラム 図1
  • 特許-画像処理装置、操作制御方法及び操作制御プログラム 図2
  • 特許-画像処理装置、操作制御方法及び操作制御プログラム 図3
  • 特許-画像処理装置、操作制御方法及び操作制御プログラム 図4
  • 特許-画像処理装置、操作制御方法及び操作制御プログラム 図5
  • 特許-画像処理装置、操作制御方法及び操作制御プログラム 図6
  • 特許-画像処理装置、操作制御方法及び操作制御プログラム 図7
  • 特許-画像処理装置、操作制御方法及び操作制御プログラム 図8
  • 特許-画像処理装置、操作制御方法及び操作制御プログラム 図9
  • 特許-画像処理装置、操作制御方法及び操作制御プログラム 図10
  • 特許-画像処理装置、操作制御方法及び操作制御プログラム 図11
  • 特許-画像処理装置、操作制御方法及び操作制御プログラム 図12
  • 特許-画像処理装置、操作制御方法及び操作制御プログラム 図13
  • 特許-画像処理装置、操作制御方法及び操作制御プログラム 図14
  • 特許-画像処理装置、操作制御方法及び操作制御プログラム 図15
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-12-05
(45)【発行日】2022-12-13
(54)【発明の名称】画像処理装置、操作制御方法及び操作制御プログラム
(51)【国際特許分類】
   B41J 29/38 20060101AFI20221206BHJP
   H04N 1/00 20060101ALI20221206BHJP
   G03G 21/00 20060101ALI20221206BHJP
   B41J 29/42 20060101ALI20221206BHJP
   G06F 3/16 20060101ALI20221206BHJP
   G06F 3/01 20060101ALI20221206BHJP
【FI】
B41J29/38 203
H04N1/00 350
G03G21/00 386
B41J29/42 F
G06F3/16 650
G06F3/16 690
G06F3/16 630
G06F3/01 510
【請求項の数】 18
(21)【出願番号】P 2018195644
(22)【出願日】2018-10-17
(65)【公開番号】P2020062796
(43)【公開日】2020-04-23
【審査請求日】2021-08-20
(73)【特許権者】
【識別番号】000001270
【氏名又は名称】コニカミノルタ株式会社
(74)【代理人】
【識別番号】110000671
【氏名又は名称】八田国際特許業務法人
(72)【発明者】
【氏名】西岡 大起
【審査官】佐藤 孝幸
(56)【参考文献】
【文献】特開2018-121134(JP,A)
【文献】米国特許出願公開第2015/0254053(US,A1)
【文献】特開2016-184095(JP,A)
【文献】特開2000-099088(JP,A)
【文献】特開2001-175278(JP,A)
【文献】特開2010-136335(JP,A)
【文献】特開2006-215206(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
B41J 29/38
H04N 1/00
G03G 21/00
B41J 29/42
G06F 3/16
G06F 3/01
(57)【特許請求の範囲】
【請求項1】
画像処理装置の動作に関する画面を表示すると共にユーザの前記画像処理装置の動作に関する操作を受け付けるユーザインターフェースと、
前記ユーザの音声情報を取得する音声入力部と、
前記ユーザの映像情報を取得する映像入力部と、を備える画像処理装置において、
前記音声入力部が取得した前記音声情報を解析して、操作コマンドを認識する音声解析部と、
前記映像入力部が取得した前記映像情報を解析して、前記ユーザの口の動きを検出する映像解析部と、
前記映像解析部が検出した前記ユーザの口の動きから発話内容を読唇する読唇処理部と、
記操作コマンドに従って前記画像処理装置の動作を制御する操作制御部と、を備え、
前記操作制御部は、前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示していない場合は、前記映像解析部が前記ユーザの口の動きを検出している時に、前記音声解析部が前記操作コマンドを認識した場合、認識した前記操作コマンドに従って前記画像処理装置の動作を制御し、
セキュリティに関する情報を入力する画面を表示している場合は、前記ユーザインターフェース又は音声出力部を介して、前記ユーザに無音での口の動きによる操作を指示し、および、前記読唇処理部が読唇した発話内容による前記操作コマンドに従って前記画像処理装置の動作を制御する、
ことを特徴とする画像処理装置。
【請求項2】
前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示していない場合において、前記操作制御部は、前記音声解析部が認識した前記操作コマンドと前記読唇処理部が読唇した前記発話内容とが一致する場合、前記操作コマンドに従って前記画像処理装置の動作を制御する、
ことを特徴とする請求項1に記載の画像処理装置。
【請求項3】
前記操作制御部は、前記音声解析部が認識した前記操作コマンドと前記読唇処理部が読唇した前記発話内容とが一致しない場合、前記ユーザインターフェースを介して、前記ユーザに再度の発話を指示する、
ことを特徴とする請求項2に記載の画像処理装置。
【請求項4】
前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示していない場合において、
前記操作制御部は、前記音声解析部が前記操作コマンドを認識できない場合、前記画像処理装置の動作の内の動作音が相対的に大きい動作を抑止する動作音抑止制御を実施する、
ことを特徴とする請求項1乃至3のいずれか一に記載の画像処理装置。
【請求項5】
前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示していない場合において、
前記操作制御部は、前記音声解析部が前記操作コマンドを認識できない場合、前記ユーザインターフェース又は音声出力部を介して、前記ユーザに前記ユーザインターフェースを用いた手動操作を指示する、
ことを特徴とする請求項1乃至3のいずれか一に記載の画像処理装置。
【請求項6】
前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示している場合において、
前記操作制御部は、前記音声出力部に、他のユーザが前記ユーザの音声を識別できないようにするマスク音を出力させる、
ことを特徴とする請求項1乃至5のいずれか一に記載の画像処理装置。
【請求項7】
前記操作制御部は、前記音声解析部が前記ユーザの音声を検出した場合は、前記音声出力部に前記マスク音を出力させる、
ことを特徴とする請求項に記載の画像処理装置。
【請求項8】
前記動作音が相対的に大きい動作は、スキャナ機能による画像読み取り動作、FAX機能による画像の送受信動作、プリント機能による画像形成動作のいずれかを含む、
ことを特徴とする請求項4に記載の画像処理装置。
【請求項9】
画像処理装置の動作に関する画面を表示すると共にユーザの前記画像処理装置の動作に関する操作を受け付けるユーザインターフェースと、
前記ユーザの音声情報を取得する音声入力部と、
前記ユーザの映像情報を取得する映像入力部と、を備える画像処理装置における操作制御方法であって、
前記音声入力部が取得した前記音声情報を解析して、操作コマンドを認識する音声解析処理と、
前記映像入力部が取得した前記映像情報を解析して、前記ユーザの口の動きを検出する映像解析処理と、
前記映像解析処理で検出した前記ユーザの口の動きから発話内容を読唇する読唇処理と、
記操作コマンドに従って前記画像処理装置の動作を制御する操作制御処理と、を実行し、
前記操作制御処理において、
前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示していない場合は、前記映像解析処理で前記ユーザの口の動きを検出している時に、前記音声解析処理で前記操作コマンドを認識した場合、認識した前記操作コマンドに従って前記画像処理装置の動作を制御し、
セキュリティに関する情報を入力する画面を表示している場合は、前記ユーザインターフェース又は音声出力部を介して、前記ユーザに無音での口の動きによる操作を指示し、および、前記読唇処理で読唇した発話内容による前記操作コマンドに従って前記画像処理装置の動作を制御する、
ことを特徴とする操作制御方法。
【請求項10】
前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示していない場合において、
前記操作制御処理では、前記音声解析処理で認識した前記操作コマンドと前記読唇処理で読唇した前記発話内容とが一致する場合、前記操作コマンドに従って前記画像処理装置の動作を制御する、
ことを特徴とする請求項に記載の操作制御方法。
【請求項11】
前記操作制御処理では、前記音声解析処理で認識した前記操作コマンドと前記読唇処理で読唇した前記発話内容とが一致しない場合、前記ユーザインターフェースを介して、前記ユーザに再度の発話を指示する、
ことを特徴とする請求項10に記載の操作制御方法。
【請求項12】
前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示していない場合において、
前記操作制御処理では、前記音声解析処理で前記操作コマンドを認識できない場合、前記画像処理装置の動作の内の動作音が相対的に大きい動作を抑止する動作音抑止制御を実施する、
ことを特徴とする請求項乃至11のいずれか一に記載の操作制御方法。
【請求項13】
前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示していない場合において、前記操作制御処理では、前記音声解析処理で前記操作コマンドを認識できない場合、前記ユーザインターフェース又は音声出力部を介して、前記ユーザに前記ユーザインターフェースを用いた手動操作を指示する、
ことを特徴とする請求項乃至11のいずれか一に記載の操作制御方法。
【請求項14】
前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示している場合において
前記操作制御処理では、前記音声出力部に、前記ユーザの音声を他のユーザが識別できないようにするマスク音を出力させる、
ことを特徴とする請求項9乃至13のいずれか一に記載の操作制御方法。
【請求項15】
前記操作制御処理では、前記音声解析処理で前記ユーザの音声を検出した場合は、前記音声出力部に前記マスク音を出力させる、
ことを特徴とする請求項14に記載の操作制御方法。
【請求項16】
前記動作音が相対的に大きい動作は、スキャナ機能による画像読み取り動作、FAX機能による画像の送受信動作、プリント機能による画像形成動作のいずれかを含む、
ことを特徴とする請求項12に記載の操作制御方法。
【請求項17】
通信ネットワークを介して、前記画像処理装置に解析サーバが接続され、
前記解析サーバが、前記音声解析処理、及び/又は、前記映像解析処理を実行する、
ことを特徴とする請求項9乃至16のいずれか一に記載の操作制御方法。
【請求項18】
画像処理装置の動作に関する画面を表示すると共にユーザの前記画像処理装置の動作に関する操作を受け付けるユーザインターフェースと、
前記ユーザの音声情報を取得する音声入力部と、
前記ユーザの映像情報を取得する映像入力部と、を備える画像処理装置で動作する操作制御プログラムであって、
前記画像処理装置に、
前記音声入力部が取得した前記音声情報を解析して、操作コマンドを認識する音声解析処理、
前記映像入力部が取得した前記映像情報を解析して、前記ユーザの口の動きを検出する映像解析処理、
前記映像解析処理で検出した前記ユーザの口の動きから発話内容を読唇する読唇処理、及び、
記操作コマンドに従って前記画像処理装置の動作を制御する操作制御処理、を実行させ
前記操作制御処理において、
前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示していない場合は、前記映像解析処理で前記ユーザの口の動きを検出している時に、前記音声解析処理で前記操作コマンドを認識した場合、認識した前記操作コマンドに従って前記画像処理装置の動作を制御させ、
セキュリティに関する情報を入力する画面を表示している場合は、前記ユーザインターフェース又は音声出力部を介して、前記ユーザに無音での口の動きによる操作を指示し、および、前記読唇処理で読唇した発話内容による前記操作コマンドに従って前記画像処理装置の動作を制御させる、
ことを特徴とする操作制御プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置、操作制御方法及び操作制御プログラムに関し、特に、音声での操作を可能にする画像処理装置、操作制御方法及び操作制御プログラムに関する。
【背景技術】
【0002】
近年、音声認識を行うAI(artificial intelligence)技術が急速に発展しており、音声認識を手がける各メーカーもオフィス向けの音声認識AIの投入を予定している。MFP(Multi-Functional Peripherals)などの画像形成装置を製造するメーカーも各種音声認識AIを用いた機能の投入に着手しており、音声操作や消耗品発注などを実現している。この音声認識AIを用いてMFPの操作を行う場合、オフィス環境では周囲の雑音の影響によって音声を誤認識するという問題がある。
【0003】
このような雑音の影響を抑制する技術に関して、例えば、下記特許文献1には、ユーザからの音による操作を受け付ける受付状態と音による操作を受け付けない非受付状態とを持つ音入力受付手段と、受け付けたジョブを記憶部に記録するジョブ記録手段と、前記記憶部に記録されたジョブが実行される際に自装置から発せられる音である稼動音の音量を判定する稼動音判定手段と、前記音入力受付手段が受付状態である場合に、前記記憶部に記録された実行前のジョブのうち、稼動音の音量が小さいジョブから優先して実行するジョブ制御手段と、を有する画像形成装置が開示されている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2010-068026号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1では、音声の入力操作中は、稼動音の音量が小さいジョブを優先的に行うことによって、ユーザの発話への影響を軽減している。しかしながら、音声入力の際の雑音としては、MFPが発する音以外にも周囲の音の影響も大きく、特許文献1では周囲の音の影響は考慮されていないため、音声の誤認識を確実に防止することができない。また、この問題はMFPに限らず、スキャナやFAXなどの画像処理装置に対しても同様に発生する。
【0006】
本発明は、上記問題点に鑑みてなされたものであって、その主たる目的は、音声の誤認識を抑制して確実に操作を行うことができる画像処理装置、操作制御方法及び操作制御プログラムを提供することにある。
【課題を解決するための手段】
【0007】
本発明の一側面は、画像処理装置の動作に関する画面を表示すると共にユーザの前記画像処理装置の動作に関する操作を受け付けるユーザインターフェースと、前記ユーザの音声情報を取得する音声入力部と、前記ユーザの映像情報を取得する映像入力部と、を備える画像処理装置において、前記音声入力部が取得した前記音声情報を解析して、操作コマンドを認識する音声解析部と、前記映像入力部が取得した前記映像情報を解析して、前記ユーザの口の動きを検出する映像解析部と、前記映像解析部が検出した前記ユーザの口の動きから発話内容を読唇する読唇処理部と、前記操作コマンドに従って前記画像処理装置の動作を制御する操作制御部と、を備え
前記操作制御部は、前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示していない場合は、前記映像解析部が前記ユーザの口の動きを検出している時に、前記音声解析部が前記操作コマンドを認識した場合、認識した前記操作コマンドに従って前記画像処理装置の動作を制御し、セキュリティに関する情報を入力する画面を表示している場合は、前記ユーザインターフェース又は音声出力部を介して、前記ユーザに無音での口の動きによる操作を指示し、および、前記読唇処理部が読唇した発話内容による前記操作コマンドに従って前記画像処理装置の動作を制御する、ことを特徴とする。
【0009】
本発明の一側面は、画像処理装置の動作に関する画面を表示すると共にユーザの前記画像処理装置の動作に関する操作を受け付けるユーザインターフェースと、前記ユーザの音声情報を取得する音声入力部と、前記ユーザの映像情報を取得する映像入力部と、を備える画像処理装置における操作制御方法であって、前記音声入力部が取得した前記音声情報を解析して、操作コマンドを認識する音声解析処理と、前記映像入力部が取得した前記映像情報を解析して、前記ユーザの口の動きを検出する映像解析処理と、前記映像解析処理で検出した前記ユーザの口の動きから発話内容を読唇する読唇処理と、前記操作コマンドに従って前記画像処理装置の動作を制御する操作制御処理と、を実行し、
前記操作制御処理において、前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示していない場合は、前記映像解析処理で前記ユーザの口の動きを検出している時に、前記音声解析処理で前記操作コマンドを認識した場合、認識した前記操作コマンドに従って前記画像処理装置の動作を制御し、セキュリティに関する情報を入力する画面を表示している場合は、前記ユーザインターフェース又は音声出力部を介して、前記ユーザに無音での口の動きによる操作を指示し、および、前記読唇処理で読唇した発話内容による前記操作コマンドに従って前記画像処理装置の動作を制御する、ことを特徴とする。
【0011】
本発明の一側面は、画像処理装置の動作に関する画面を表示すると共にユーザの前記画像処理装置の動作に関する操作を受け付けるユーザインターフェースと、前記ユーザの音声情報を取得する音声入力部と、前記ユーザの映像情報を取得する映像入力部と、を備える画像処理装置で動作する操作制御プログラムであって、前記画像処理装置に、前記音声入力部が取得した前記音声情報を解析して、操作コマンドを認識する音声解析処理、前記映像入力部が取得した前記映像情報を解析して、前記ユーザの口の動きを検出する映像解析処理、前記映像解析処理で検出した前記ユーザの口の動きから発話内容を読唇する読唇処理、及び、前記操作コマンドに従って前記画像処理装置の動作を制御する操作制御処理、を実行させ
前記操作制御処理において、前記ユーザインターフェースがセキュリティに関する情報を入力する画面を表示していない場合は、前記映像解析処理で前記ユーザの口の動きを検出している時に、前記音声解析処理で前記操作コマンドを認識した場合、認識した前記操作コマンドに従って前記画像処理装置の動作を制御させ、セキュリティに関する情報を入力する画面を表示している場合は、前記ユーザインターフェース又は音声出力部を介して、前記ユーザに無音での口の動きによる操作を指示し、および、前記読唇処理で読唇した発話内容による前記操作コマンドに従って前記画像処理装置の動作を制御させる、ことを特徴とする。
【発明の効果】
【0013】
本発明の画像処理装置、操作制御方法及び操作制御プログラムによれば、音声の誤認識を抑制して確実に操作を行うことができる。
【0014】
その理由は、情報を表示すると共にユーザの操作を受け付けるユーザインターフェースと、ユーザの音声情報を取得する音声入力部と、ユーザの映像情報を取得する映像入力部と、を備える画像処理装置に、音声入力部が取得した音声情報を解析して、操作コマンドを認識する音声解析部と、映像入力部が取得した映像情報を解析して、ユーザの口の動きを検出する映像解析部と、映像解析部がユーザの口の動きを検出している時に、音声解析部が操作コマンドを認識した場合、当該操作コマンドに従って画像処理装置の動作を制御する操作制御部と、を設けるからである。
【0015】
また、情報を表示すると共にユーザの操作を受け付けるユーザインターフェースと、ユーザの音声情報を取得する音声入力部と、ユーザの映像情報を取得する映像入力部と、を備える画像処理装置に、音声入力部が取得した音声情報を解析して、操作コマンドを認識する音声解析部と、映像入力部が取得した映像情報を解析して、ユーザを検出する映像解析部と、音声解析部が操作コマンドを認識した時に、映像解析部がユーザを検出していない場合、画像処理装置の動作の内の動作音が相対的に大きい動作を抑止する動作音抑止制御を実施、若しくは、ユーザインターフェース又は音声出力部を介して、ユーザにユーザインターフェースを用いた手動操作を指示する操作制御部と、を設けるからである。
【図面の簡単な説明】
【0016】
図1】本発明の第1の実施例に係る操作制御システムの構成を示す模式図である。
図2】本発明の第1の実施例に係る操作制御システムの他の構成を示す模式図である。
図3】本発明の第1の実施例に係る画像形成装置の構成を示すブロック図である。
図4】本発明の第1の実施例に係る画像形成装置の動作(基本動作)を示すフローチャート図である。
図5】本発明の第1の実施例に係る画像形成装置の動作(口の動きを読唇する場合の動作)を示すフローチャート図である。
図6】本発明の第1の実施例に係る画像形成装置の動作(音声認識に支障がある場合の動作)を示すフローチャート図である。
図7】本発明の第1の実施例に係る画像形成装置の動作(音声認識に支障がある場合の動作)を示すフローチャート図である。
図8】本発明の第1の実施例に係る画像形成装置の動作(セキュリティ情報を入力する場合の動作)を示すフローチャート図である。
図9】本発明の第1の実施例に係る画像形成装置の動作(セキュリティ情報を入力する場合の動作)を示すフローチャート図である。
図10】本発明の第1の実施例に係る画像形成装置の動作(セキュリティ情報を入力する場合の動作)を示すフローチャート図である。
図11】本発明の第1の実施例に係る画像形成装置に表示する通知画面の一例である。
図12】本発明の第1の実施例に係る画像形成装置に表示する通知画面の他の例である。
図13】本発明の第1の実施例に係る画像形成装置に表示する通知画面の他の例である。
図14】本発明の第2の実施例に係る画像形成装置の動作(音声認識に支障がある場合の動作)を示すフローチャート図である。
図15】本発明の第2の実施例に係る画像形成装置の動作(音声認識に支障がある場合の動作)を示すフローチャート図である。
【発明を実施するための形態】
【0017】
背景技術で示したように、MFPなどの画像形成装置を製造するメーカーも各種音声認識AIを用いた機能の投入に着手しており、音声操作や消耗品発注などを実現しているが、音声認識AIを用いてMFPの操作を行う場合、オフィス環境では周囲の雑音の影響によって音声を誤認識するという問題がある。
【0018】
この問題に対して、特許文献1では、音声の入力操作中は稼動音の音量が小さいジョブを優先的に行うことによって、ユーザの発話への影響を軽減しているが、音声入力の際の雑音としては、MFPが発する音以外にも周囲の音の影響も大きく、この周囲の音の影響は考慮されていないため、音声の誤認識を確実に防止することができない。また、この問題はMFPに限らず、スキャナやFAXなどの画像処理装置に対しても同様に発生する。
【0019】
そこで、本発明の一実施の形態では、ユーザが発した音声情報を取得するのみならず、ユーザを撮影した映像情報をも取得し、この音声情報と映像情報とを用いることによって、周囲の雑音の影響による音声の誤認識を防止して確実に操作を行うことができるようにする。
【0020】
具体的には、情報を表示すると共にユーザの操作を受け付けるユーザインターフェースと、ユーザの音声情報を取得する音声入力部と、ユーザの映像情報を取得する映像入力部と、を備える画像処理装置に、音声入力部が取得した音声情報を解析して、操作コマンドを認識する音声解析部と、映像入力部が取得した映像情報を解析して、ユーザの口の動きを検出する映像解析部と、映像解析部がユーザの口の動きを検出している時に、音声解析部が操作コマンドを認識した場合、当該操作コマンドに従って画像処理装置の動作を制御する操作制御部と、を設ける。また、映像解析部が検出したユーザの口の動きから発話内容を読唇する読唇処理部を設け、操作制御部は、音声解析部が認識した操作コマンドと読唇処理部が読唇した発話内容とが一致する場合、操作コマンドに従って画像処理装置の動作を制御する。
【0021】
また、情報を表示すると共にユーザの操作を受け付けるユーザインターフェースと、ユーザの音声情報を取得する音声入力部と、ユーザの映像情報を取得する映像入力部と、を備える画像処理装置に、音声入力部が取得した音声情報を解析して、操作コマンドを認識する音声解析部と、映像入力部が取得した映像情報を解析して、ユーザを検出する映像解析部と、音声解析部が操作コマンドを認識した時に、映像解析部がユーザを検出していない場合、画像処理装置の動作の内の動作音が相対的に大きい動作を抑止する動作音抑止制御を実施、若しくは、ユーザインターフェース又は音声出力部を介して、ユーザにユーザインターフェースを用いた手動操作を指示する操作制御部と、を設ける。
【0022】
このように、映像情報を解析して、ユーザ又はユーザの口の動きを検出したり、ユーザの口の動きから発話内容を読唇(読話)したりすることによって、音声入力中の周辺の雑音による音声の誤認識を防止することができ、確実に操作を行うことが可能となる。
【実施例1】
【0023】
上記した本発明の一実施の形態についてさらに詳細に説明すべく、本発明の第1の実施例に係る画像処理装置、操作制御方法及び操作制御プログラムについて、図1乃至図13を参照して説明する。図1及び図2は、本実施例の操作制御システムの構成を示す模式図であり、図3は、本実施例の画像形成装置の構成を示すブロック図である。また、図4乃至図10は、本実施例の画像形成装置の動作を示すフローチャート図であり、図11乃至図13は、本実施例の画像形成装置に表示する通知画面の一例である。
【0024】
図1に示すように、本実施例の操作制御システムは、スキャン機能やFAX機能、プリント機能などを備える画像処理装置(本実施例では、印刷エンジンを備える画像形成装置10とする。)などで構成される。なお、後述する音声解析部や映像解析部、読唇処理部などの機能は外部の装置で実現してもよい。その場合は、図2に示すように、操作制御システムは、画像形成装置10と解析サーバ30とで構成され、これらはイーサネット(登録商標)、トークンリング、FDDI(Fiber-Distributed Data Interface)等の規格により定められるLAN(Local Area Network)やWAN(Wide Area Network)等の通信ネットワーク40を介して通信可能に接続される。以下、図1の構成を前提にして説明する。
【0025】
[画像形成装置]
画像形成装置10は、図3(a)に示すように、制御部11、記憶部12、通信部13、表示操作部14、画像読取部15、画像処理部16、画像形成部17、音声入力部18、音声出力部19、映像入力部20などで構成される。
【0026】
制御部11は、CPU(Central Processing Unit)11aと、ROM(Read Only Memory)11bやRAM(Random Access Memory)11cなどのメモリとで構成され、CPU11aは、ROM11bや記憶部12に記憶した制御プログラムをRAM11cに展開して実行することにより、画像形成装置10全体の動作を制御する。
【0027】
記憶部12は、HDD(Hard Disk Drive)やSSD(Solid State Drive)などで構成され、CPU11aが各部を制御するためのプログラム、自装置の処理機能に関する情報、自装置の各部の状態情報などを記憶する。
【0028】
通信部13は、NIC(Network Interface Card)やモデムなどで構成され、画像形成装置10を通信ネットワーク40に接続し、図示しないクライアント装置などからジョブを受信したり、解析サーバ30に音声情報や映像情報を送信したり、解析サーバ30から音声情報や映像情報の解析結果(例えば、操作コマンドやユーザの口の動きの検出結果、読唇情報)を受信したりする。また、通信部13は、必要に応じて、ITU-T(International Telecommunication Union-Telecommunication)勧告T.30で規定される、PhaseA~Eの5つのフェーズのFAX通信制御シーケンスに従い、公衆回線網(PSNT:Public Switched Telephone Networks)を介して、相手方のFAX通信装置とのFAX通信(FAX画像の送受信動作)を行う。
【0029】
表示操作部14は、LCD(Liquid Crystal Display)や有機EL(Electro Luminescence)ディスプレイなどの表示部上に電極が格子状に配列されたタッチセンサなどの操作部が形成されたタッチパネルなどのユーザインターフェースであり、画像形成装置10の動作に関する各種画面(本実施例では、後述する通知画面やセキュリティに関する情報の入力画面を含む。)を表示し、画像形成装置10の動作に関する各種操作を受け付ける。なお、操作部として、ハードキーなどを備えていてもよく、表示部と操作部とを別々の装置としてもよい。
【0030】
画像読取部15は、ADF(Auto Document Feeder)と呼ばれる自動原稿給紙装置及び原稿画像走査装置(スキャナ)などで構成される。自動原稿給紙装置は、原稿トレイに載置された原稿を搬送機構により搬送して原稿画像走査装置へ送り出す。原稿画像走査装置は、自動原稿給紙装置からコンタクトガラス上に搬送された原稿又はコンタクトガラス上に載置された原稿を光学的に走査し、原稿からの反射光をCCD(Charge Coupled Device)センサの受光面上に結像させて原稿画像を読み取る。画像読取部15によって読み取られた画像(アナログ画像信号)は、画像処理部16において所定の画像処理が施される。
【0031】
画像処理部16は、アナログデジタル(A/D)変換処理を行う回路及びデジタル画像処理を行う回路などで構成される。画像処理部16は、画像読取部15からのアナログ画像信号にA/D変換処理を施すことによりデジタル画像データを生成する。また、画像処理部16は、外部の情報機器(例えばクライアント装置)から取得した印刷ジョブを解析し、原稿の各ページをラスタライズしてデジタル画像データを生成する。そして、画像処理部16は、必要に応じて、画像データに対して、色変換処理、初期設定又はユーザ設定に応じた補正処理(シェーディング補正等)、及び圧縮処理等の画像処理を施し、画像処理後の画像データを画像形成部17に出力する。
【0032】
画像形成部(印刷エンジン)17は、電子写真方式や静電記録方式等の作像プロセスを利用した画像形成に必要な構成要素で構成され、画像処理部16から出力された画像データに基づく画像を指定された用紙に印刷する。具体的には、帯電装置により帯電された感光体ドラムに露光装置から画像に応じた光を照射して静電潜像を形成し、現像装置で帯電したトナーを付着させて現像し、そのトナー像を転写ベルトに1次転写し、転写ベルトから用紙に2次転写し、更に定着装置で用紙上のトナー像を定着させる処理を行う。
【0033】
音声入力部18は、マイクなどで構成され、ユーザが発話した音声を検出して音声情報を取得し、制御部11(後述する音声解析部21)に出力する。
【0034】
音声出力部19は、スピーカなどで構成され、必要に応じて、画像形成装置10を操作するユーザに音声でメッセージを通知したり、マスク音(画像形成装置10を操作するユーザの音声を、画像形成装置10の周囲の他のユーザが識別できないようにする音)を出力したりする。
【0035】
映像入力部20は、CCDやCMOS(Complementary Metal Oxide Semiconductor)カメラなどで構成され、画像形成装置10に対して所定の位置(例えば、画像形成装置10の正面)にいるユーザ(特にユーザの口)を撮影して映像情報(動画又は一定間隔の静止画)を取得し、制御部11(後述する映像解析部22)に出力する。
【0036】
また、上記制御部11は、図3(b)に示すように、音声解析部21、映像解析部22、読唇処理部23、操作制御部24などとしても機能する。
【0037】
音声解析部21は、音声入力部18が取得した音声情報を解析して、公知の技術を利用して発話内容(特に、操作コマンド)を認識する。なお、操作コマンドの認識方法は特に限定されず、例えば、特開2013-153301号公報に記載されているように、認識した音声が音声ワードテーブルに含まれているか否かを判別し、音声ワードテーブルに含まれている場合は、その音声ワードテーブルに基づいて音声をコマンドに変換する方法などを利用することができる。
【0038】
映像解析部22は、映像入力部20が取得した映像情報を解析して、ユーザの口の動き(唇の形の変化)を検出する。なお、発話のために口を動かしているか否かは、唇の形が所定の時間間隔で変化しているか否かなどに基づいて判断することができる。
【0039】
読唇処理部23は、映像解析部22が検出したユーザの口の動き(唇の形の変化)に基づいて、公知の技術を利用して発話内容を読唇する。なお、唇の形の変化から発話内容を読唇する方法は特に限定されず、例えば、特開2015-220684号公報に記載されているように、映像データから特定した唇動パターンと、読唇用DBにおいて唇動モデルとして保存されている音節文字毎の唇動パターンと、を比較する方法などを利用することができる。
【0040】
操作制御部24は、映像解析部22がユーザの口の動きを検出している時に、音声解析部21が操作コマンドを認識した場合、その操作コマンドに従って画像形成装置10の動作を制御する。また、読唇情報を利用する場合は、操作制御部24は、読唇処理部23が読唇した発話内容と音声解析部21が認識した操作コマンドとが一致するかを判断し、一致する場合は、その操作コマンドに従って画像形成装置10の動作を制御し、一致しない場合は、表示操作部14を介して、ユーザに再度の発話を指示する。また、操作制御部24は、音声解析部21が操作コマンドを認識できない場合は、画像形成装置10の動作の内の動作音が相対的に大きい動作(例えば、画像読取部15による画像読み取り動作、通信部13によるFAX画像の送受信動作、画像形成部17による画像形成動作など)を抑止する制御(動作音抑止制御)を実施したり、表示操作部14や音声出力部19を介して、ユーザに表示操作部14を用いた手動操作を指示したりする。また、操作制御部24は、表示操作部14が、セキュリティに関する情報(例えば、パスワードや送信宛先情報など)を入力する画面を表示している場合は、無音での口の動きによる操作を指示したり、音声出力部19にマスク音を出力させたりする。
【0041】
上記音声解析部21、映像解析部22、読唇処理部23、操作制御部24は、ハードウェアとして構成してもよいし、制御部11を、音声解析部21、映像解析部22、読唇処理部23、操作制御部24(特に、音声解析部21、映像解析部22、操作制御部24)として機能させる操作制御プログラムとして構成し、当該操作制御プログラムをCPU11aに実行させる構成としてもよい。
【0042】
なお、図1乃至図3は、本実施例の操作制御システムの一例であり、その構成や制御は適宜変更可能である。
【0043】
例えば、図3では、画像形成装置10に、音声入力部18と映像入力部20とを設けたが、音声入力部18、又は、映像入力部20、又は、音声入力部18及び映像入力部20は、画像形成装置10とは別の装置(例えば、画像形成装置10をリモート操作する端末など)に設けてもよい。
【0044】
また、図3では、画像形成装置10の制御部11に、音声解析部21、映像解析部22、読唇処理部23を備える構成としたが、解析サーバ30に、音声解析部21、映像解析部22、読唇処理部23の少なくとも1つを備える構成としてもよい。
【0045】
以下、本実施例の画像形成装置10の具体的な動作について説明する。CPU11aは、ROM11b又は記憶部12に記憶した操作制御プログラムをRAM11cに展開して実行することにより、図4乃至図10のフローチャート図に示す各ステップの処理を実行する。
【0046】
[基本動作]
図4に示すように、制御部11(映像解析部22)は、映像入力部20が取得した映像情報を解析してユーザの口の動きを監視する(S101)。制御部11(映像解析部22)がユーザの口の動きを検出したら(S101のYes)、制御部11(音声解析部21)は、音声入力部18が取得した音声情報を解析して操作コマンドの入力を監視する(S102)。そして、制御部11(音声解析部21)が操作コマンドを認識したら(S102のYes)、制御部11(操作制御部24)は、操作コマンドを受け付け(S103)、その操作コマンドに従って画像形成装置10の動作を制御する。
【0047】
[口の動きを読唇する場合の動作]
図5に示すように、制御部11(映像解析部22)は、映像入力部20が取得した映像情報を解析してユーザの口の動きを監視する(S201)。制御部11(映像解析部22)がユーザの口の動きを検出したら(S201のYes)、制御部11(音声解析部21)は、音声入力部18が取得した音声情報を解析して操作コマンドの入力を監視する(S202)。そして、制御部11(音声解析部21)が操作コマンドを認識したら(S202のYes)、制御部11(読唇処理部23)は、ユーザの口の動きを読唇して発話内容を取得し(S203)、制御部11(操作制御部24)は、操作コマンドと発話内容とが一致するかを判断する(S204)。操作コマンドと発話内容とが一致する場合は(S204のYes)、制御部11(操作制御部24)は、操作コマンドを受け付け(S205)、操作コマンドに従って画像形成装置10の動作を制御する。一方、操作コマンドと発話内容とが一致しない場合は(S204のNo)、制御部11(操作制御部24)は、表示操作部14を介して、ユーザに再度の発話を指示する(S206)。例えば、表示操作部14に、図11に示すような通知画面25を表示させて、ユーザに再度の発話を指示する。
【0048】
[音声認識に支障がある場合の動作]
図6に示すように、制御部11(映像解析部22)は、映像入力部20が取得した映像情報を解析してユーザの口の動きを監視する(S301)。制御部11(映像解析部22)がユーザの口の動きを検出したら(S301のYes)、制御部11(音声解析部21)は、音声入力部18が取得した音声情報を解析して操作コマンドの入力を監視する(S302)。制御部11(音声解析部21)が操作コマンドを認識できなかった場合は(S302のNo)、画像形成装置10が発する動作音によってユーザの音声が聞こえにくくなっている可能性があることから、制御部11(操作制御部24)は、画像形成装置10の動作の内の動作音が相対的に大きい動作(例えば、画像読取部15による画像読み取り動作、通信部13によるFAX画像の送受信動作、画像形成部17による画像形成動作など)を抑止する制御(動作音抑止制御)を実施する(S305)。一方、制御部11(音声解析部21)が操作コマンドを認識できた場合は(S302のYes)、制御部11(操作制御部24)は、操作コマンドを受け付け(S303)、操作コマンドに従って画像形成装置10の動作を制御した後、動作音抑止制御を解除する(S304)。
【0049】
[音声認識に支障がある場合の動作]
図7に示すように、制御部11(映像解析部22)は、映像入力部20が取得した映像情報を解析してユーザの口の動きを監視する(S401)。制御部11(映像解析部22)がユーザの口の動きを検出したら(S401のYes)、制御部11(音声解析部21)は、音声入力部18が取得した音声情報を解析して操作コマンドの入力を監視する(S402)。制御部11(音声解析部21)が操作コマンドを認識できた場合は(S402のYes)、制御部11(操作制御部24)は、操作コマンドを受け付け(S403)、操作コマンドに従って画像形成装置10の動作を制御する。一方、制御部11(音声解析部21)が操作コマンドを認識できなかった場合は(S402のNo)、周囲の雑音によってユーザの音声が聞こえにくくなっている可能性があることから、制御部11(操作制御部24)は、表示操作部14や音声出力部19を介して、ユーザに表示操作部14を用いた手動操作を指示する(S404)。例えば、表示操作部14に、図12に示すような通知画面26を表示させて、ユーザに手動操作を指示する。その後、制御部11(操作制御部24)は、手動操作を受け付け(S405)、手動操作に従って画像形成装置10の動作を制御する。
【0050】
[セキュリティ情報を入力する場合の動作]
図8に示すように、制御部11は、表示操作部14に表示されている画面がセキュリティ情報(例えば、パスワードや送信宛先情報など)の入力画面であるかを判断する(S501)。セキュリティ情報の入力画面でない場合は(S501のNo)、図4乃至図6に示した操作コマンド受け付け処理を実施する(S502)。一方、セキュリティ情報の入力画面の場合は(S501のYes)、制御部11(操作制御部24)は、表示操作部14や音声出力部19を介して、ユーザに無音での口の動きによる操作を指示する(S503)。例えば、表示操作部14に、図13に示すような通知画面27を表示させて、ユーザに無音での口の動きによる操作を指示する。その後、制御部11(映像解析部22)は、映像入力部20が取得した映像情報を解析してユーザの口の動きを監視し(S504)、制御部11(映像解析部22)がユーザの口の動きを検出したら(S504のYes)、制御部11(読唇処理部23)は、ユーザの口の動きを読唇して発話内容を取得し(S505)、制御部11(操作制御部24)は、発話内容を操作コマンドとして受け付け(S506)、操作コマンドに従って画像形成装置10の動作を制御する。
【0051】
[セキュリティ情報を入力する場合の動作]
図9に示すように、制御部11は、表示操作部14に表示されている画面がセキュリティ情報の入力画面であるかを判断する(S601)。セキュリティ情報の入力画面でない場合は(S601のNo)、図4乃至図6に示した操作コマンド受け付け処理を実施する(S602)。一方、セキュリティ情報の入力画面の場合は(S601のYes)、制御部11(操作制御部24)は、表示操作部14や音声出力部19を介して、ユーザに無音での口の動きによる操作を指示する(S603)。次に、制御部11(音声解析部21)は、音声入力部18が取得した音声情報を解析してユーザの音声を監視し(S604)、ユーザの音声を検出した場合は(S604のYes)、セキュリティ情報が漏洩する恐れがあることから、制御部11(操作制御部24)は、音声出力部19からマスク音を出力する(S605)。このマスク音は、ユーザの音声を認識しにくくする音であればよく、例えば、所定の機械音としてもよいし、制御部11(音声解析部21)が解析した音声を打ち消す音(例えば、逆の位相を持つ音)としてもよい。その後、制御部11(映像解析部22)は、映像入力部20が取得した映像情報を解析してユーザの口の動きを監視し(S606)、制御部11(映像解析部22)がユーザの口の動きを検出したら(S606のYes)、制御部11(読唇処理部23)は、ユーザの口の動きを読唇して発話内容を取得し(S607)、制御部11(操作制御部24)は、発話内容を操作コマンドとして受け付け(S608)、操作コマンドに従って画像形成装置10の動作を制御する。
【0052】
[セキュリティ情報を入力する場合の動作]
図10に示すように、制御部11は、表示操作部14に表示されている画面がセキュリティ情報の入力画面であるかを判断する(S701)。セキュリティ情報の入力画面でない場合は(S701のNo)、図4乃至図6に示した操作コマンド受け付け処理を実施する(S702)。一方、セキュリティ情報の入力画面の場合は(S701のYes)、制御部11(操作制御部24)は、表示操作部14や音声出力部19を介して、ユーザに無音での口の動きによる操作を指示した後(S703)、音声出力部19からマスク音を出力する(S704)。その後、制御部11(映像解析部22)は、映像入力部20が取得した映像情報を解析してユーザの口の動きを監視し(S705)、制御部11(映像解析部22)がユーザの口の動きを検出したら(S705のYes)、制御部11(読唇処理部23)は、ユーザの口の動きを読唇して発話内容を取得し(S706)、制御部11(操作制御部24)は、発話内容を操作コマンドとして受け付け(S707)、操作コマンドに従って画像形成装置10の動作を制御する。
【0053】
以上説明したように、音声情報のみならず、映像情報を解析してユーザの口の動きを検出したり、ユーザの口の動きから発話内容を読唇したりすることによって、音声入力中の周辺の雑音による音声の誤認識を防止することができ、確実に画像形成装置10の操作を行うことが可能となる。
【実施例2】
【0054】
次に、本発明の第2の実施例に係る画像処理装置、操作制御方法及び操作制御プログラムについて、図14及び図15を参照して説明する。図14及び図15は、本実施例の画像形成装置の動作を示すフローチャート図である。
【0055】
前記した第1の実施例では、映像解析部22がユーザの口の動きを検出した時に、音声解析部21が認識した操作コマンドに従って画像形成装置10の動作を制御する場合について記載したが、ユーザが映像入力部20の撮影範囲内にいない場合、映像解析部22はユーザを検出することができず、画像形成装置10を音声操作することができない。そこで、本実施例では、ユーザが映像入力部20の撮影範囲内にいない場合であっても、画像形成装置10を適切に操作できるようにする。
【0056】
その場合、画像形成装置10の構成は第1の実施例と同様であるが、制御部11(操作制御部24)は、音声解析部21が操作コマンドを認識した時に、映像解析部22がユーザを検出していない場合、画像形成装置10の動作の内の動作音が相対的に大きい動作を抑止する動作音抑止制御を実施したり、表示操作部14又は音声出力部19を介して、ユーザに表示操作部14を用いた手動操作を指示したりする。
【0057】
以下、本実施例の画像形成装置10の具体的な動作について説明する。CPU11aは、ROM11b又は記憶部12に記憶した操作制御プログラムをRAM11cに展開して実行することにより、図14及び図15のフローチャート図に示す各ステップの処理を実行する。
【0058】
[音声認識に支障がある場合の動作]
図14に示すように、制御部11(音声解析部21)は、音声入力部18が取得した音声情報を解析して操作コマンドの入力を監視する(S801)。制御部11(音声解析部21)が操作コマンドを認識した場合は(S801のYes)、制御部11(映像解析部22)は、映像入力部20が取得した映像情報を解析してユーザを検出したかを判断する(S802)。制御部11(映像解析部22)がユーザを検出しなかった場合は(S802のNo)、ユーザが映像入力部20の撮影範囲から外れた場所(例えば、画像形成装置10の側方)から音声を発している可能性があり、画像形成装置10が発する動作音によって音声解析部21による操作コマンドの認識に支障が生じる恐れがあることから、制御部11(操作制御部24)は、画像形成装置10の動作の内の動作音が相対的に大きい動作(例えば、画像読取部15による画像読み取り動作、通信部13によるFAX画像の送受信動作、画像形成部17による画像形成動作など)を抑止する制御(動作音抑止制御)を実施する(S804)。一方、制御部11(映像解析部22)がユーザを検出した場合は(S802のYes)、ユーザが映像入力部20の撮影範囲内(例えば、画像形成装置10の正面)から音声を発しており、音声解析部21による操作コマンドの認識に支障がないと考えられることから、制御部11(操作制御部24)は、動作音抑止制御を解除する(S803)。その後、制御部11(操作制御部24)は、操作コマンドを受け付け(S805)、操作コマンドに従って画像形成装置10の動作を制御する。
【0059】
[音声認識に支障がある場合の動作]
図15に示すように、制御部11(音声解析部21)は、音声入力部18が取得した音声情報を解析して操作コマンドの入力を監視する(S901)。制御部11(音声解析部21)が操作コマンドを認識した場合は(S901のYes)、制御部11(映像解析部22)は、映像入力部20が取得した映像情報を解析してユーザを検出したかを判断する(S902)。制御部11(映像解析部22)がユーザを検出した場合は(S902のYes)、制御部11(操作制御部24)は、操作コマンドを受け付け(S903)、操作コマンドに従って画像形成装置10の動作を制御する。一方、制御部11(映像解析部22)がユーザを検出しなかった場合は(S902のNo)、ユーザが映像入力部20の撮影範囲から外れた場所(例えば、画像形成装置10の側方)から音声を発している可能性があり、音声解析部21による操作コマンドの認識に支障が生じる恐れがあることから、制御部11(操作制御部24)は、表示操作部14や音声出力部19を介して、ユーザに表示操作部14を用いた手動操作を指示する(S904)。例えば、表示操作部14に、図12に示すような通知画面26を表示させて、ユーザに手動操作を指示する。その後、制御部11(操作制御部24)は、手動操作を受け付け(S905)、手動操作に従って画像形成装置10の動作を制御する。
【0060】
以上説明したように、音声情報のみならず、映像情報を解析してユーザを検出することによって、音声入力中の周辺の雑音による音声の誤認識を防止することができ、確実に操作を行うことが可能となる。
【0061】
なお、本発明は上記実施例に限定されるものではなく、本発明の趣旨を逸脱しない限りにおいて、その構成や制御は適宜変更可能である。
【0062】
例えば、上記各実施例では、画像形成装置10について記載したが、本発明の対象は画像形成装置10に限定されず、動作時に音を発するスキャナ装置やFAX装置などの任意の画像処理装置に対して、本発明の操作制御方法を同様に適用することができる。
【産業上の利用可能性】
【0063】
本発明は、音声での操作を可能にする画像処理装置、操作制御方法、操作制御プログラム、及び当該操作制御プログラムを記録した記録媒体に利用可能である。
【符号の説明】
【0064】
10 画像形成装置
11 制御部
11a CPU
11b ROM
11c RAM
12 記憶部
13 通信部
14 表示操作部
15 画像読取部
16 画像処理部
17 画像形成部
18 音声入力部
19 音声出力部
20 映像入力部
21 音声解析部
22 映像解析部
23 読唇処理部
24 操作制御部
25、26、27 通知画面
30 解析サーバ
40 通信ネットワーク
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15