IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ コニカミノルタ株式会社の特許一覧

<>
  • 特許-画像処理装置及びプログラム 図1
  • 特許-画像処理装置及びプログラム 図2
  • 特許-画像処理装置及びプログラム 図3
  • 特許-画像処理装置及びプログラム 図4
  • 特許-画像処理装置及びプログラム 図5
  • 特許-画像処理装置及びプログラム 図6
  • 特許-画像処理装置及びプログラム 図7
  • 特許-画像処理装置及びプログラム 図8
  • 特許-画像処理装置及びプログラム 図9
  • 特許-画像処理装置及びプログラム 図10
  • 特許-画像処理装置及びプログラム 図11
  • 特許-画像処理装置及びプログラム 図12
  • 特許-画像処理装置及びプログラム 図13
  • 特許-画像処理装置及びプログラム 図14
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-20
(45)【発行日】2023-11-29
(54)【発明の名称】画像処理装置及びプログラム
(51)【国際特許分類】
   H04N 1/00 20060101AFI20231121BHJP
   G06F 3/16 20060101ALI20231121BHJP
   G06F 3/01 20060101ALI20231121BHJP
   G03G 21/00 20060101ALI20231121BHJP
   B41J 29/42 20060101ALI20231121BHJP
【FI】
H04N1/00 350
G06F3/16 650
G06F3/01 510
G03G21/00 386
B41J29/42 F
【請求項の数】 12
(21)【出願番号】P 2019103859
(22)【出願日】2019-06-03
(65)【公開番号】P2020198553
(43)【公開日】2020-12-10
【審査請求日】2022-05-17
(73)【特許権者】
【識別番号】000001270
【氏名又は名称】コニカミノルタ株式会社
(74)【代理人】
【識別番号】100099885
【弁理士】
【氏名又は名称】高田 健市
(72)【発明者】
【氏名】山本 憲三
【審査官】鈴木 圭一郎
(56)【参考文献】
【文献】特開昭62-039899(JP,A)
【文献】特開2007-193138(JP,A)
【文献】国際公開第2017/175351(WO,A1)
【文献】特開2004-184803(JP,A)
【文献】特開2004-354722(JP,A)
【文献】特許第6953762(JP,B2)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 1/00
G06F 3/16
G06F 3/01
G03G 21/00
B41J 29/42
(57)【特許請求の範囲】
【請求項1】
音声出力装置からユーザーに対する質問を音声出力させる第1の制御手段と、
前記質問に対して発話され音声入力装置に入力されたユーザーの音声を受け付ける受付手段と、
前記受付手段により受け付けた音声の内容に基づいて画像処理動作を制御する第2の制御手段と、
を備え、
ユーザーに対する前記質問の仕方として、第1のモードと、第1のモードよりも質問に対する回答候補が限定された第2のモードが設定されており、さらに
前記第1のモードと第2のモードを切り替える切替手段と、
過去のジョブの実行時の動作音をノイズ音として記憶する記憶手段と、を備え、
前記切替手段は、自装置の周囲のノイズ音の大きさを、前記記憶手段に記憶されている現在のジョブと同じ過去のジョブの実行時のノイズ音の大きさから予測するとともに、予測したノイズ音の大きさが閾値を超えた時点で第1のモードから第2のモードへ切り替え、閾値以下になった時点で第2のモードから第1のモードへ切り替え、
前記第1の制御手段は、前記切替手段により切り替えられた第1のモードまたは第2のモードで、前記音声出力装置からユーザーに対する質問を音声出力させることを特徴とする画像処理装置。
【請求項2】
音声出力装置からユーザーに対する質問を音声出力させる第1の制御手段と、
前記質問に対して発話され音声入力装置に入力されたユーザーの音声を受け付ける受付手段と、
前記受付手段により受け付けた音声の内容に基づいて画像処理動作を制御する第2の制御手段と、
を備え、
ユーザーに対する前記質問の仕方として、第1のモードと、第1のモードよりも質問に対する回答候補が限定された第2のモードが設定されており、さらに
前記第1のモードと第2のモードを切り替える切替手段と、
過去のジョブの実行時の動作音をノイズ音として記憶する記憶手段と、を備え、
前記切替手段は、自装置の周囲のノイズ音の大きさを、前記記憶手段に記憶されている現在のジョブと同じ過去のジョブの実行時のノイズ音の大きさから予測するとともに、予測したノイズ音の大きさが、ジョブの実行中のいずれかの時点で閾値を超えることが予測される場合、閾値を超える時点を待つことなくジョブの開始の時点から、第2のモードへの切り替えを行い、
前記第1の制御手段は、前記切替手段により切り替えられた第1のモードまたは第2のモードで、前記音声出力装置からユーザーに対する質問を音声出力させることを特徴とする画像処理装置。
【請求項3】
前記第1のモードは、回答候補を示すことなく質問を行いユーザーが回答を自由に発話できる自由発話モードであり、前記第2のモードはユーザーに回答候補を提示して選択させる選択式発話モードである請求項1または2に記載の画像処理装置。
【請求項4】
表示手段を備え、
前記第1の制御手段は、前記第2のモードにより音声出力装置から質問を出力させる場合、回答候補のリストを前記表示手段に表示し、
前記ユーザーは前記表示手段に表示された回答候補のリストの中から候補を選択して発話する請求項3に記載の画像処理装置。
【請求項5】
前記第1の制御手段は、前記第2のモードにより音声出力装置から質問を出力させる場合、回答候補のリストを音声により出力させ、
前記ユーザーは音声により出力された回答候補のリストの中から候補を選択して発話する請求項3または4に記載の画像処理装置。
【請求項6】
回答候補のリストは、過去の選択頻度の高い回答候補の順に作成されている請求項4または5に記載の画像処理装置。
【請求項7】
回答候補のリストは、自装置に登録された順に作成されている請求項4または5に記載の画像処理装置。
【請求項8】
前記切替手段は、ユーザーの切替操作に基づいて、第1のモードと第2のモードを切り替える請求項1~7のいずれかに記載の画像処理装置。
【請求項9】
複数のジョブを実行する場合、前記切替手段は、自装置の周囲のノイズ音の大きさを、前記記憶手段に記憶されている現在のジョブと同じ過去のそれぞれのジョブの実行時のノイズ音を組み合わせて予測する請求項1~8のいずれかに記載の画像処理装置。
【請求項10】
前記切替手段は、予め設定された動作の実行中は第1のモードから第2のモードへの切り替えは行わない請求項1~9のいずれかに記載の画像処理装置。
【請求項11】
過去のジョブの実行時の動作音をノイズ音として記憶する記憶手段を備えた画像処理装置のコンピュータに、
音声出力装置からユーザーに対する質問を出力させる第1の制御ステップと、
前記質問に対して発話され音声入力装置に入力されたユーザーの音声を受け付ける受付ステップと、
前記受付ステップにより受け付けた音声の内容に基づいて画像処理動作を制御する第2の制御ステップと、
を実行させ、
ユーザーに対する前記質問の仕方として、第1のモードと、第1のモードよりも質問に対する回答候補が限定された第2のモードが設定されており、さらに
前記第1のモードと第2のモードを切り替える切替ステップを前記コンピュータに実行させ、
前記切替ステップでは、自装置の周囲のノイズ音の大きさを、前記記憶手段に記憶されている現在のジョブと同じ過去のジョブの実行時のノイズ音の大きさから予測するとともに、予測したノイズ音の大きさが閾値を超えた時点で第1のモードから第2のモードへ切り替え、閾値以下になった時点で第2のモードから第1のモードへ切り替える処理を前記コンピュータに実行させ、
前記第1の制御ステップでは、前記切替ステップにより切り替えられた第1のモードまたは第2のモードで、前記音声出力装置からユーザーに対する質問を出力させる処理を前記コンピュータに実行させるためのプログラム。
【請求項12】
過去のジョブの実行時の動作音をノイズ音として記憶する記憶手段を備えた画像処理装置のコンピュータに、
音声出力装置からユーザーに対する質問を出力させる第1の制御ステップと、
前記質問に対して発話され音声入力装置に入力されたユーザーの音声を受け付ける受付ステップと、
前記受付ステップにより受け付けた音声の内容に基づいて画像処理動作を制御する第2の制御ステップと、
を実行させ、
ユーザーに対する前記質問の仕方として、第1のモードと、第1のモードよりも質問に対する回答候補が限定された第2のモードが設定されており、さらに
前記第1のモードと第2のモードを切り替える切替ステップを前記コンピュータに実行させ、
前記切替ステップでは、自装置の周囲のノイズ音の大きさを、前記記憶手段に記憶されている現在のジョブと同じ過去のジョブの実行時のノイズ音の大きさから予測するとともに、予測したノイズ音の大きさが、ジョブの実行中のいずれかの時点で閾値を超えることが予測される場合、閾値を超える時点を待つことなくジョブの開始の時点から、第2のモードへ切り替える処理を前記コンピュータに実行させ、
前記第1の制御ステップでは、前記切替ステップにより切り替えられた第1のモードまたは第2のモードで、前記音声出力装置からユーザーに対する質問を出力させる処理を前記コンピュータに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、複写機、プリンタあるいはMFP(Multi Function Peripheral)と称される多機能デジタル複合機等の画像処理装置、及びプログラムに関する。
【背景技術】
【0002】
上記のような画像処理装置として音声操作が可能な装置が増えてきている。具体的には、スピーカー等の音声出力装置を介して画像処理装置から出力された質問に対してユーザーが回答を発話し、発話したユーザーの音声をマイク等の音声入力装置を介して受け付けて音声認識処理を行い、音声の内容に応じた動作設定や動作指示等を行う。
【0003】
しかし、マイク等の音声入力装置には、発話したユーザーの音声のみならず、画像処理装置の周囲のノイズ音も入力される。このノイズ音には画像処理装置自身の動作音、例えば画像処理装置がスキャナ部やプリンタ部等を有する画像形成装置である場合は、スキャナ部やプリンタ部等の動作中はそれらの動作音がノイズ音として入力される。このため、ノイズ音が大きい場合は、マイク等に入力されたユーザーの音声に対する音声認識率が低下し、音声操作に誤りが生じる恐れがある。
【0004】
そこで、このような問題に対処するため、特許文献1には、ユーザーから操作に対する発話があった場合には、機器の動作を停止することにより、機器動作中に発生する動作音が騒音になることによる音声認識率の低下を回避した画像形成装置が提案されている。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2010-136335号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1のように、ユーザーから操作に対する発話があった場合に、機器の動作を停止する方法では、音声認識の度にジョブの実行が停止され遅延することになる。これでは、特に大量印刷時や緊急時においてジョブの実行に支障を来してしまうという課題がある。
【0007】
この発明は、このような技術的背景に鑑みてなされたものであって、画像処理装置の周囲のノイズ音が大きい場合であっても、マイク等の音声入力装置から入力されたユーザーの音声を高い認識率で音声認識でき、しかも音声入力時に自機の動作を停止させる必要がない画像処理装置及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上記目的は以下の手段によって達成される。
(1)音声出力装置からユーザーに対する質問を音声出力させる第1の制御手段と、前記質問に対して発話され音声入力装置に入力されたユーザーの音声を受け付ける受付手段と、前記受付手段により受け付けた音声の内容に基づいて画像処理動作を制御する第2の制御手段と、を備え、ユーザーに対する前記質問の仕方として、第1のモードと、第1のモードよりも質問に対する回答候補が限定された第2のモードが設定されており、さらに前記第1のモードと第2のモードを切り替える切替手段と、過去のジョブの実行時の動作音をノイズ音として記憶する記憶手段と、を備え、
前記切替手段は、自装置の周囲のノイズ音の大きさを、前記記憶手段に記憶されている現在のジョブと同じ過去のジョブの実行時のノイズ音の大きさから予測するとともに、予測したノイズ音の大きさが閾値を超えた時点で第1のモードから第2のモードへ切り替え、閾値以下になった時点で第2のモードから第1のモードへ切り替え、前記第1の制御手段は、前記切替手段により切り替えられた第1のモードまたは第2のモードで、前記音声出力装置からユーザーに対する質問を音声出力させることを特徴とする画像処理装置。
(2)音声出力装置からユーザーに対する質問を音声出力させる第1の制御手段と、前記質問に対して発話され音声入力装置に入力されたユーザーの音声を受け付ける受付手段と、前記受付手段により受け付けた音声の内容に基づいて画像処理動作を制御する第2の制御手段と、を備え、ユーザーに対する前記質問の仕方として、第1のモードと、第1のモードよりも質問に対する回答候補が限定された第2のモードが設定されており、さらに前記第1のモードと第2のモードを切り替える切替手段と、過去のジョブの実行時の動作音をノイズ音として記憶する記憶手段と、を備え、前記切替手段は、自装置の周囲のノイズ音の大きさを、前記記憶手段に記憶されている現在のジョブと同じ過去のジョブの実行時のノイズ音の大きさから予測するとともに、予測したノイズ音の大きさが、ジョブの実行中のいずれかの時点で閾値を超えることが予測される場合、閾値を超える時点を待つことなくジョブの開始の時点から、第2のモードへの切り替えを行い、前記第1の制御手段は、前記切替手段により切り替えられた第1のモードまたは第2のモードで、前記音声出力装置からユーザーに対する質問を音声出力させることを特徴とする画像処理装置。
(3)前記第1のモードは、回答候補を示すことなく質問を行いユーザーが回答を自由に発話できる自由発話モードであり、前記第2のモードはユーザーに回答候補を提示して選択させる選択式発話モードである前項1または2に記載の画像処理装置。
(4)表示手段を備え、前記第1の制御手段は、前記第2のモードにより音声出力装置から質問を出力させる場合、回答候補のリストを前記表示手段に表示し、前記ユーザーは前記表示手段に表示された回答候補のリストの中から候補を選択して発話する前項3に記載の画像処理装置。
(5)前記第1の制御手段は、前記第2のモードにより音声出力装置から質問を出力させる場合、回答候補のリストを音声により出力させ、前記ユーザーは音声により出力された回答候補のリストの中から候補を選択して発話する前項3または4に記載の画像処理装置。
(6)回答候補のリストは、過去の選択頻度の高い回答候補の順に作成されている前項4または5に記載の画像処理装置。
(7)回答候補のリストは、自装置に登録された順に作成されている前項4または5に記載の画像処理装置。
(8)前記切替手段は、ユーザーの切替操作に基づいて、第1のモードと第2のモードを切り替える前項1~7のいずれかに記載の画像処理装置。
(9)複数のジョブを実行する場合、前記切替手段は、自装置の周囲のノイズ音の大きさを、前記記憶手段に記憶されている現在のジョブと同じ過去のそれぞれのジョブの実行時のノイズ音を組み合わせて予測する前項1~8のいずれかに記載の画像処理装置。
(10)前記切替手段は、予め設定された動作の実行中は第1のモードから第2のモードへの切り替えは行わない前項1~9のいずれかに記載の画像処理装置。
(11)過去のジョブの実行時の動作音をノイズ音として記憶する記憶手段を備えた画像処理装置のコンピュータに、音声出力装置からユーザーに対する質問を出力させる第1の制御ステップと、前記質問に対して発話され音声入力装置に入力されたユーザーの音声を受け付ける受付ステップと、前記受付ステップにより受け付けた音声の内容に基づいて画像処理動作を制御する第2の制御ステップと、を実行させ、ユーザーに対する前記質問の仕方として、第1のモードと、第1のモードよりも質問に対する回答候補が限定された第2のモードが設定されており、さらに前記第1のモードと第2のモードを切り替える切替ステップを前記コンピュータに実行させ、前記切替ステップでは、自装置の周囲のノイズ音の大きさを、前記記憶手段に記憶されている現在のジョブと同じ過去のジョブの実行時のノイズ音の大きさから予測するとともに、予測したノイズ音の大きさが閾値を超えた時点で第1のモードから第2のモードへ切り替え、閾値以下になった時点で第2のモードから第1のモードへ切り替える処理を前記コンピュータに実行させ、前記第1の制御ステップでは、前記切替ステップにより切り替えられた第1のモードまたは第2のモードで、前記音声出力装置からユーザーに対する質問を出力させる処理を前記コンピュータに実行させるためのプログラム。
(12)過去のジョブの実行時の動作音をノイズ音として記憶する記憶手段を備えた画像処理装置のコンピュータに、音声出力装置からユーザーに対する質問を出力させる第1の制御ステップと、前記質問に対して発話され音声入力装置に入力されたユーザーの音声を受け付ける受付ステップと、前記受付ステップにより受け付けた音声の内容に基づいて画像処理動作を制御する第2の制御ステップと、を実行させ、ユーザーに対する前記質問の仕方として、第1のモードと、第1のモードよりも質問に対する回答候補が限定された第2のモードが設定されており、さらに前記第1のモードと第2のモードを切り替える切替ステップを前記コンピュータに実行させ、前記切替ステップでは、自装置の周囲のノイズ音の大きさを、前記記憶手段に記憶されている現在のジョブと同じ過去のジョブの実行時のノイズ音の大きさから予測するとともに、予測したノイズ音の大きさが、ジョブの実行中のいずれかの時点で閾値を超えることが予測される場合、閾値を超える時点を待つことなくジョブの開始の時点から、第2のモードへ切り替える処理を前記コンピュータに実行させ、前記第1の制御ステップでは、前記切替ステップにより切り替えられた第1のモードまたは第2のモードで、前記音声出力装置からユーザーに対する質問を出力させる処理を前記コンピュータに実行させるためのプログラム。
【発明の効果】
【0009】
前項(1)に記載の発明によれば、スピーカー等の音声出力装置からユーザーに対する質問を出力させると、質問に対してユーザーが発話する。発話されたユーザーの音声はマイク等の音声入力装置に入力され、画像処理装置で受け付けられる。受け付けられた音声の内容に基づいて画像処理動作が制御される。ユーザーに対する質問の仕方として、第1のモードと、第1のモードよりも質問に対する回答候補が限定された第2のモードが設定されており、第1のモードと第2のモードを切り替える切替手段が備えられている。そして、切替手段により切り替えられた第1のモードまたは第2のモードで、音声出力装置からユーザーに対する質問が音声出力される。
【0010】
ここで、第2のモードは第1のモードよりも質問に対する回答候補が限定されているから、音声認識に際しては回答候補の音声データをパターン化しておくことができ、このため音声認識率を高くできる。従って、画像処理装置の周囲のノイズ音が大きい場合等には切替手段により第2のモードに切り替えてユーザーに質問することにより、音声入力装置から入力されたユーザーの音声を高い認識率で音声認識することができる。しかも、切替手段により第2のモードに切り替えれば良く、音声入力時に自機の動作を停止させる必要もないから、大量印刷時や緊急時にジョブの実行に支障を来してしまうという不都合もない。
また、自装置の周囲のノイズ音の大きさが、記憶手段に記憶されている現在のジョブと同じ過去のジョブの実行時のノイズ音の大きさから予測されるから、ノイズ音の大きさを測定する必要はなくなる。
前項(2)に記載の発明によれば、ジョブの実行中のいずれかの時点でノイズ音の大きさが閾値を超えることが予測される場合、閾値を超える時点を待つことなくジョブの開始の時点から、第2のモードへの切り替えが行われるから、そのジョブの実行中はノイズ音の大きさを求める処理は不要となり、処理を簡素化できる。
【0011】
前項()に記載の発明によれば、第1のモードは、回答候補を示すことなく質問を行いユーザーが回答を自由に発話できる自自発話モードであり、第2のモードはユーザーに回答候補を選択させる選択式発話モードであるから、第2のモードの場合の音声認識率を第1のモードの場合よりも確実に高くすることができる。
【0012】
前項()に記載の発明によれば、第2のモードである選択式発話モードにて音声出力装置から質問を出力させる場合、回答候補のリストが表示手段に表示され、ユーザーは表示された回答候補のリストの中から候補を選択して発話すれば良いから、ユーザーは表示されたリストを目視で確認でき、回答候補を選択しやすくなる。
【0013】
前項()に記載の発明によれば、第2のモードである選択式発話モードにて音声出力装置から質問を出力させる場合、回答候補のリストが音声により出力され、ユーザーは音声により出力された回答候補のリストの中から候補を選択して発話するから、表示手段へのリスト表示は不要となる。
【0014】
前項()に記載の発明によれば、回答候補のリストは、過去の選択頻度の高い回答候補の順に作成されているから、ユーザーは回答候補を選択する際の参考となる。
【0015】
前項()に記載の発明によれば、回答候補のリストは、自装置に登録された順に作成されているから、ユーザーは回答候補を選択する際の参考となる。
【0016】
前項()に記載の発明によれば、ユーザーの切替操作に基づいて、第1のモードと第2のモードが切り替えられるから、ユーザーは音声操作を行う際に周囲のノイズ音が大きいと感じた場合等に切替操作を行うことにより、認識率の高い音声認識を行わせることができる。
【0021】
前項()に記載の発明によれば、複数のジョブを実行する場合、自装置の周囲のノイズ音の大きさが、記憶手段に記憶されている現在のジョブと同じ過去のそれぞれのジョブの実行時のノイズ音を組み合わせて予測されるから、現在のノイズ音の大きさを容易に求めることができる。
【0022】
前項(10)に記載の発明によれば、予め設定された動作の実行中は第1のモードから第2のモードへの切りえは行わないから、その動作中はノイズ音の大きさを求める処理は不要となり、処理を簡素化できる。
【0025】
前項(11)に記載の発明によれば、音声出力装置からユーザーに対する質問を出力させ、質問に対して発話され音声入力装置に入力されたユーザーの音声を受け付け、受け付けた音声の内容に基づいて画像処理動作を制御し、自装置の周囲のノイズ音の大きさを、前記記憶手段に記憶されている現在のジョブと同じ過去のジョブの実行時のノイズ音の大きさから予測するとともに、予測したノイズ音の大きさが閾値を超えた時点で第1のモードから第1のモードよりも質問に対する回答候補が限定された第2のモードへ切り替え、閾値以下になった時点で第2のモードから第1のモードへ切り替え、切り替えられた第1のモードまたは第2のモードで、音声出力装置からユーザーに対する質問を出力させる処理を、画像処理装置のコンピュータに実行させることができる。
【図面の簡単な説明】
【0026】
図1】この発明の一実施形態に係る画像処理装置の構成図である。
図2】第1のモードにおける画像処理装置からの質問と質問に対するユーザーの回答の一例を示す図である。
図3】画像処理装置の動作音の大きさの一例を示す図である。
図4】音声操作の途中で第2のモードに切り替えられたときの画像処理装置からの質問と質問に対するユーザーの回答の一例を示す図である。
図5】回答候補を表示手段に表示した状態を示す図である。
図6】音声操作の途中で第2のモードに切り替えられたときの画像処理装置からの質問と質問に対するユーザーの回答の他の例を示す図である。
図7】音声操作時に画像処理装置によって実行される第1のモードと第2のモードの切り替え動作の一例を示すフローチャートである。
図8】音声操作時に画像処理装置によって実行される第1のモードと第2のモードの切り替え動作の他の例を示すフローチャートである。
図9】ジョブ実行時の動作音(ノイズ音)の推移の一例を示すグラフである。
図10】過去のジョブ実行時の動作音に基づいてノイズ音を予測し、モード切り替えを行う際の画像処理装置の動作を示すフローチャートである。
図11】ジョブ実行時の動作音(ノイズ音)の推移の他の例を示すグラフである。
図12】ジョブの開始時前に第2のモードに切り替えておく場合の画像処理装置の動作を示すフローチャートである。
図13】第1のモードと第2のモードの切り替えを自動で行うか手動で行うかを、ユーザーが選択する場合の選択画面を示す図である。
図14図13の画面において「手動」が選択された場合に遷移するモード選択画面を示す図である。
【発明を実施するための形態】
【0027】
以下、この発明の実施形態を図面に基づいて説明する。
【0028】
図1は、この発明の一実施形態に係る画像処理装置としての画像形成装置1の構成を示すブロック図である。この実施形態では、画像形成装置1として、コピー機能、プリンタ機能、ファクシミリ機能、スキャン機能等を備えた多機能デジタル複合機が用いられている。
【0029】
図1に示すように、画像形成装置1は、制御部100、記憶装置110、画像読取装置120、操作パネル130、画像出力装置140、プリンタコントローラ150、ネットワークインターフェース(ネットワークI/F)160、無線通信インターフェース(無線通信I/F)170、認証部180、音声認識部190、音声端末装置200等を備え、互いにシステムバス175を介して接続されている。
【0030】
制御部100は、CPU(Central Processing Unit)101、ROM(Read Only Memory)102、S-RAM(Static Random Access Memory)103、NV-RAM(Non Volatile RAM)104及び時計IC105等を備えている。
【0031】
CPU101は、ROM102等に保存されている動作プログラムを実行することにより、画像形成装置1の全体を統括的に制御する。例えばコピー機能、プリンタ機能、スキャン機能、ファクシミリ機能等を実行可能に制御する。更にこの実施形態では、ユーザーによる画像形成装置1の操作に際し、音声端末装置200から音声による質問を出力させるとともに、その質問に対するユーザーの発話による音声データを音声端末装置200を介して受け付け、さらに、受け付けた音声入力データを音声認識部190で音声認識することによりユーザーの発話内容を特定し、特定された発話内容に応じた画像処理動作例えばジョブの設定値の設定、動作指示等を実行する等の処理を行う。さらには、音声端末装置200から出力される音声による質問の仕方を、第1のモードから第2のモードへあるいはその逆へ切り替える処理も行うが、これらの点については後述する。
【0032】
ROM102は、CPU101が実行するプログラムやその他のデータを格納する。
【0033】
S-RAM103は、CPU101がプログラムを実行する際の作業領域となるものであり、プログラムやプログラムを実行する際のデータ等を一時的に保存する。
【0034】
NV-RAM104は、バッテリでバックアップされた不揮発メモリであり、画像形成に係わる各種の設定等を記憶するものである。
【0035】
時計IC105は、時刻を計時すると共に、内部タイマーとして機能し処理時間の計測等を行う。
【0036】
記憶装置110はハードディスク等からなり、プログラムや各種データ等を保存する。特にこの実施形態では、音声端末装置200から出力させる質問の仕方として、第1のモードと第2のモードが設定されており、ユーザーが入力可能な操作項目毎に、第1のモードの質問と第2のモードの質問が記憶されている。
【0037】
画像読取装置120は、スキャナ等を備え、プラテンガラス上にセットされた原稿を走査することによって読み取り、読み取った原稿を画像データに変換する。
【0038】
操作パネル130は、ユーザーがMFP1へジョブ等の指示や各種設定を行う際に用いられるものであり、リセットキー131、スタートキー132、ストップキー133、表示部134及びタッチパネル135等を備えている。
【0039】
リセットキー131は、設定をリセットする際に使用されるものであり、スタートキー132はスキャン等の開始操作に使用されるものであり、ストップキー133は動作を中断する場合等に押下されるものである。
【0040】
表示部134は、例えば液晶表示装置からなりメッセージや各種の操作画面等を表示するものであり、タッチパネル135は表示部134の画面上に形成され、ユーザーのタッチ操作を検出する。
【0041】
画像出力装置140は、画像読取装置120で読み取られた原稿の画像データや、端末装置3から送信されたプリントデータから生成された複写画像を用紙上に印字し印刷物として出力するものである。
【0042】
プリンタコントローラ150は、ネットワークインターフェース160によって受信されたプリントデータから複写画像を生成するものである。
【0043】
ネットワークI/F160は、ユーザー端末等の外部装置との間でネットワーク3を介してデータの送受信を行う通信手段として機能し、無線通信I/F170は近距離無線通信により外部装置と通信を行うためのインターフェースである。
【0044】
認証部180はログインするユーザーの認証用情報を取得し、この認証用情報を予め固定記憶装置110等に保存されている照合用の情報と比較照合して認証を行うものである。なお、ユーザーの認証用情報と照合用の情報との比較照合は、外部の認証サーバーにより行い、認証部180が認証サーバーから認証結果を受信することにより認証が行われても良い。
【0045】
音声認識部190は、音声端末装置200を介して受け付けたユーザーの音声データを公知の方法にて音声認識処理し、音声(発話)の内容を特定するものである。なお、この音声認識は画像形成装置1で行われるのではなく、パーソナルコンピュータ等の他の外部装置で行われ、画像形成装置1は音声認識処理結果のみを取得する構成であっても良い。
【0046】
音声端末装置200は音声入力装置として機能するマイク部210と、音声出力装置として機能するスピーカー部220を備えている。マイク部210は、入力されたユーザーの音声データを入力すると共に画像形成装置1の動作音を含む周囲のノイズ音を集音し、制御部100の指示に従い音声認識部190に送信する。スピーカー部220は制御部100の指示に従い質問等の音声データを出力(発話)させる。
【0047】
なお、音声端末装置200は画像形成装置1の外部に備えられて、画像形成装置1と有線あるいは無線により接続され、あるいはネットワークを介して接続されていても良い。
【0048】
次に、図1に示した画像形成装置1において設定されている、画像形成装置1が音声端末装置2から音声出力させる質問の仕方としての第1のモードと第2のモードについて説明する。
【0049】
第1のモードとして、この実施形態では自由発話モードが設定されている。自由発話モードは、質問に対してユーザーが回答を自由に発話できる質問の仕方である。例えば、スキャンしたデータを送信するときの宛先を特定するときに「宛先は?」という質問の仕方である。この質問に対してユーザーは、「tanaka@xxx」「田中さんへ送って」「田中さんへメールして」等と発話して回答することができ、発話時の自由度が大きくユーザーにとっての利便性が高い。また、コピーを実施する場合に「部数は?」とか「用紙サイズは?」という質問の仕方である。この場合も、ユーザーは任意の宛先、任意の部数、任意の用意サイズを、それぞれ回答として自由に発話することができる。
【0050】
これに対し、第2のモードは、第1のモードよりも質問に対する回答候補が限定された質問の仕方であり、この実施形態では、ユーザーに回答候補を提示して選択させる選択式発話モードが設定されている。例えば、スキャンしたデータを送信するときの宛先を特定するときに「宛先を候補から選択して下さい」と発話すると共に、「1.tanaka@xxx、2:田中さん、3.鈴木さん、・・・」というように複数の回答候補を提示する質問の仕方である。この質問に対しては、ユーザーは提示された複数の回答候補から宛先を選択して発話する。この場合、宛先そのものを発話しても良いし宛先に対応する番号を発話しても良い。また、コピーを実施する場合であれば「部数を候補から選択して下さい」とか「用紙サイズを候補から選択して下さい」と発話して複数の回答候補を提示する質問の仕方である。この場合も、ユーザーは提示された複数の回答候補の中から選択して発話する。
【0051】
なお、第2のモードは、ユーザーが「はい」「いいえ」のいずれかで回答する質問の仕方であっても良い。この場合も、回答候補は「はい」「いいえ」の2つであり、第1のモードである自由発話モードに較べて回答候補が限定されている。例えば用紙サイズを特定するときは、「A4ですか?」と質問し、ユーザーが「いいえ」と回答すると「B4ですか?」というように、質問を繰り返しながら用紙サイズを特定する。
【0052】
画像形成装置1は、キーワードとそれに対応する音声特徴の辞書を持っており、この辞書を元に音声認識を行う。上述したように、第1のモードである自由発話モードは、ユーザーの発話の自由度が大きいという利点がある。しかし、画像形成装置1はユーザーの発話内容を一言一句漏らすことなく取得して、キーワードを抽出する必要があり、発話長さも予め知ることができない。さらに、画像形成装置1では、「コピー」「コピーガード」「コピープロテクト」等、類似した操作用語が多い。従って、画像形成装置1の周囲のノイズ音が大きいと、精度の高い音声認識を行えない場合があり、この場合は画像形成装置1の動作が停止してしまい、大量印刷時や緊急時にジョブの実行に支障を来してしまう。
【0053】
一方、第2のモードでは、画像形成装置1が提示した複数の回答候補の中から、ユーザーが選択するから、画像形成装置1は各回答候補のキーワードを予め把握している。第2のモードにおいて、画像形成装置1は、ユーザーが発話した音声の特徴がどのキーワードの音声特徴と最も近いかをパターンマッチングを行って調べることで、ユーザーが選択した回答候補を特定する。回答候補は限定されているため、ユーザーが発話した音声の途中で大きなノイズ音が発声したしても、パターンマッチングにより回答候補を容易に特定することができる。つまり、第2のモードは第1のモードよりもノイズ音に強いという特徴がある。
【0054】
そこで、この実施形態では、ユーザーによる音声操作が行われる際に、画像形成装置1の周囲のノイズ音に応じて、第1のモードと第2のモードを切り替えることができるようになっている。
【0055】
以下に、第1のモードと第2のモードの切り替えに関する動作を説明する。
【0056】
音声操作は、操作パネル130の表示部134に表示された図示しない音声操作モードの設定ボタンを押すことにより開始され、画像形成装置1からの質問と、質問に対するユーザーの回答が繰り返されることにより、ジョブの設定等がなされ操作が進行していく。
【0057】
画像形成装置1からの質問と質問に対するユーザーの回答の一例を図2に示す。図2の例は画像形成装置1の周囲のノイズ音が小さい場合を示している。画像形成装置1の周囲のノイズ音が小さい場合、画像形成装置1からの質問は第1のモードである自由発話モードで行われる。自由発話モードで行うことで、自由度の高い回答を発話できるというユーザーにとっての利便性が確保される。
【0058】
図2に示すように、まず画像形成装置1は、ユーザーを特定するために音声端末装置200のスピーカー部220から「ユーザー名は?」という質問Q1を出力させる。ユーザーが例えば「山田」と回答A1を発話すると、この音声データが音声端末装置200のマイク部210に入力され、画像形成装置1はユーザーの回答A1の音声データを受け付けるとともに、音声認識部190で音声認識処理を行い、ユーザーが「山田」であることを特定する。
【0059】
続いて、画像形成装置1はスピーカー部220から「何をしますか?」という質問Q2を出力させる。この質問に対し、ユーザーは使用したい機能として「スキャン、メール送信」と回答A2を発話すると、画像形成装置1は発話音声を受け付けて音声認識部190で音声認識処理を行い、ユーザーが使用したい機能がスキャン機能とメール送信機能であることを特定する。
【0060】
続いて、画像形成装置1はスピーカー部220から「カラーですか?グレースケールですか?」という質問Q3を出力させる。この質問に対し、ユーザーが「カラー」と回答A3を発話すると、画像形成装置1は音声認識部190で音声認識処理を行い、スキャン機能はカラーであることを特定する。
【0061】
続いて、画像形成装置1はスピーカー部220から「宛先は?」という質問Q4を出力させる。この質問に対し、ユーザーが具体的な宛先である「xxxx@yyy.com」の回答A4を発話すると、画像形成装置1は音声認識部190で音声認識処理を行い、宛先を特定する。
【0062】
こうして、画像形成装置1はユーザーの発話内容に従い、ユーザーが希望するジョブの設定や動作条件の設定等を行い、ジョブを実行させることができる。
上記の例において、ユーザーからの「カラー」という回答A3の発話音声を受け付けた後、タイミングT1で、画像形成装置1の画像読取装置120によるスキャン動作が開始されたとする。
【0063】
図3に画像形成装置1の動作音の大きさの一例を示す。この実施形態では、第1のモードと第2のモードの切り替えタイミングとなる、画像形成装置1の周囲のノイズ音の閾値が、例えば50デシベル(dB)に設定されているものとし、ウォームアップ時にはノイズ音は閾値よりも小さいが、スキャン動作時及びプリント時にはいずれも閾値を上回るノイズ音が発生するものとする。
【0064】
画像形成装置1は自機の周囲のノイズ音をマイク部210を介して集音しノイズ音の大きさを測定しており、ノイズ音の大きさが閾値を超えたかどうかを常時判定している。集音されるノイズ音には、自装置の動作音に加えて自装置以外から生じるノイズ音も含まれている。
【0065】
スキャン動作の開始により画像形成装置1の周囲のノイズ音が増大し、タイミングT1で、予め設定された閾値を超えたと判定すると、画像形成装置1は図4に示すように、第2のモードに切り替えて次からの質問を行う。
【0066】
図4の例では、宛先に関して第2のモードである選択式発話モードにより「宛先を番号で回答してください」という質問Q41をスピーカー部220から出力すると共に、複数の宛先候補を回答候補として提示する。この実施形態では、複数の宛先候補の提示を、図5に示すように操作パネル130の表示部134に画面表示させることにより行っている。図5の例では、番号1.田中tanaka@xxx、番号2.鈴木suzuki@xxx、番号3.佐藤:sato@xxx・・・が、宛先候補のリストとして例示されている。
【0067】
ユーザーは表示部134に表示された宛先候補のリストの中から、宛先を選択してその番号(例えば2番)を回答A41として発話すると、発話による音声がマイク部210に入力される。画像形成装置1はこの音声データを受け付けて音声認識処理を行い、ユーザーが選択した宛先を特定し、スキャン送信ジョブの宛先として設定する。前述したように、第2のモードである選択式発話モードの場合、パターンマッチングにより発話内容とキーワードが比較されるためノイズ音に強い。このため、ノイズ音が閾値を超えていても、ユーザーが選択した宛先を精度良く認識することができるから、第1のモードの場合の課題であるノイズ音が大きい場合に認識精度の低下により画像形成装置1の動作が停止し、大量印刷時や緊急時にジョブの実行に支障を来してしまうという不都合の発生を防止することができる。
【0068】
図4の例では、図5に示したように、複数の宛先候補を操作パネル130の表示部134に表示した場合を示したが、図6に示すように「宛先を番号で回答して下さい。1.田中、2.鈴木、・・・」と音声で回答候補(宛先候補)のリストを読み上げてもよい(質問Q42)。この場合も、ユーザーは読み上げられた宛先候補のリストの中から、宛先を選択してその番号(例えば2番)を回答A42として発話すれば良い。
【0069】
なお、表示部134に表示されまたは音声で読み上げられる回答候補のリストは、過去に宛先として使用された回数が多い順、換言すれば使用頻度の高い順に表示され、または読み上げられるように設定しても良い。あるいは、画像形成装置1に宛先として登録された順に表示され、または読み上げられるように設定しても良い。いずれの場合も、ユーザーが選択する際の参考とすることができる。
【0070】
なお、第2のモードに切り替え後にノイズ音が閾値以下になったときは、再度第1のモードに切り替えても良い。
【0071】
このように、この実施形態では、ノイズ音が閾値以下の場合は第1のモードである自由発話モードでの質問を行うことで、ユーザーの発話自由度を確保して使い勝手をよくし、ノイズ音が閾値を超えると第2のモードである選択発話モードに切り替えて、ノイズ音による音声認識の精度低下を防止するから、音声操作時に使い勝手が良く誤操作の少ない画像形成装置となる。なお、閾値については画像形成装置1の管理者等が変更できるようにしても良い。
【0072】
図7は、音声操作時に画像形成装置1によって実行される第1のモードと第2のモードの切り替え動作の一例を示すフローチャートである。図7のフローチャート及び他のフローチャートで示される動作は、画像形成装置1の制御部100のCPU101がROM102等の記録媒体に格納された動作プログラムに従って動作することにより実行される。
【0073】
ステップS01では、ユーザーが音声操作モードを選択したかどうかを調べ、音声操作モードが選択されなければ(ステップS01でNO)、処理を終了する。音声操作モードが選択されると(ステップS01でYES)、ステップS02で、現在のノイズ音をマイク部21を介して集音したのち、ステップS03でノイズ音の大きさを測定する。
【0074】
ステップS04では、ノイズ音の大きさが予め設定された閾値を超えたかどうかがを判断し、閾値を超えていれば(ステップS04でYES)、ステップS05で、現在のモードが第1のモード(自由発話モード)かどうかを判断する。第1のモードであれば(ステップS05でYES)、ステップS06で、第2のモードである選択式発話モードに切り替えた後、ステップS10に進む。ステップS05で現在のモードが第1のモードでない場合は(ステップS05でNO)、ステップS08でモードの切り替えを行うことなくステップS10に進む。この場合は第2のモードがそのまま維持される。
【0075】
ステップS04でノイズ音が閾値を超えていない場合は(ステップS04でNO)、ステップS07で現在のモードが第1のモードかどうかを判断し、第1のモードであれば(ステップS07でYES)、ステップS08でモードの切り替えを行うことなくステップS10に進む。従って、この場合は第1のモードが維持される。ステップS07で、現在のモードが第1のモードでなければ(ステップS07でNO)、ステップS09で第1のモードに切り替えた後、ステップS10に進む。
【0076】
ステップS10では、例えばジョブの実行により音声操作モードが終了したかどうかを判断し、終了すれば(ステップS10でYES)、処理を終了する。音声操作モードの終了でなければ(ステップS10でNO)、ステップS02に戻る。
【0077】
このように、ノイズ音が閾値を超えたかどうかに応じて、第1のモードと第2のモードとの間で切り換えが行われる。
【0078】
図8は、画像形成装置1によって実行される第1のモードと第2のモードの切り替え動作の他の例を示すフローチャートである。この実施形態では、画像形成装置1が動作音が小さい動作として予め設定された所定の動作の実行中の場合は、ノイズ音の測定やノイズ音が閾値を超えたかどうかを判断することなく、第1のモードを設定する構成となっている。周囲環境が静寂な場合、ノイズ音は主として画像形成装置1の動作音となるから、動作音が小さい動作の場合は閾値を超えることはないと考えられるからである。動作音が小さい動作として予め設定された所定の動作としては、例えば画像安定化動作やウォームアップ動作等を挙げることができる。
【0079】
ステップS01では、ユーザーが音声操作モードを選択したかどうかを調べ、音声操作モードが選択されなければ(ステップS01でNO)、処理を終了する。音声操作モードが選択されると(ステップS01でYES)、ステップS11で、自装置は画像安定化動作やウォームアップ動作等の所定動作中かどうかを判断する。所定動作中であれば(ステップS11でYES)、ステップS07に進み、現在のモードが第1のモードかどうかを判断し、第1のモードであれば(ステップS10でYES)、ステップS08でモードの切り替えを行うことなくステップS10に進む。ステップS07で、現在のモードが第1のモードでなければ(ステップS07でNO)、ステップS09で第1のモードに切り替える。従って、画像形成装置1が所定の動作中である場合、ノイズ音の測定等を行うことなく第1のモードが維持され、または第2のモードから第1のモードに切り替えられる。
【0080】
ステップS11で所定動作中でなければ(ステップS11でNO)、ステップS02に進む。
【0081】
なお、ステップS02~ステップS10の処理は図8のステップS02~ステップS10の処理と同じであるので、説明は省略する。
【0082】
次に、この発明のさらに他の実施形態を説明する。この実施形態では、ノイズ音を集音して大きさを測定するのではなく、画像形成装置1の過去のジョブ実行時の動作音をノイズ音として記憶装置110等に記憶しておき、実行しようとするジョブと同じ過去のジョブについての動作音(ノイズ音)を記憶装置110から読み出すことにより、実行しようとするジョブについてのノイズ音の大きさを予測し、この予測値と閾値とを比較する構成になっている。
【0083】
一例として、ジョブ実行時の動作音(ノイズ音)の推移を図9のグラフに示す。図9の例ではジョブがコピージョブである場合のノイズ音を示しており、縦軸が動作音(ノイズ音)、横軸が時間を示している。
【0084】
画像読取装置120による原稿の読み取り動作時の動作音は閾値以下であるが、印字動作が開始されると動作音が大きくなって閾値を超え、印字動作が終了すると、動作音は閾値以下となる。このような時間と動作音の大きさの推移データが、記憶装置110等に記憶されている。
【0085】
ユーザーが設定したジョブがコピージョブである場合、同じコピージョブについての過去のデータである図9に示した推移データが、記憶装置110から呼び出されて、現在のコピージョブの実行時のノイズ音と予測(推定)され、そのノイズ音の大きさと閾値とが比較され、閾値を超えたタイミングで第2のモードに切り替えられる。
【0086】
図10は、過去のジョブ実行時の動作音に基づいてノイズ音を予測し、モード切り替えを行う際の画像形成装置1の動作を示すフローチャートである。
【0087】
ステップS21では、ユーザーが音声操作モードを選択したかどうかを調べ、音声操作モードが選択されなければ(ステップS21でNO)、処理を終了する。音声操作モードが選択されると(ステップS21でYES)、ステップS22で、実行するジョブが決定したかどうかを判断する。決定されなければ(ステップS22でNO)、決定されるのを待つ。決定されると(ステップS22でYES)、ステップS23で、過去に同じジョブを実行したときの動作音の推移データを記憶装置110等から呼び出し、この動作音に基づいて現在のジョブの実行時の動作音を予測(推定)する。
【0088】
ジョブの実行開始後、ステップS24で、ジョブ実行途中の現在のノイズ音の大きさは閾値を超えているかどうかを、予測したノイズ音の大きさと閾値との比較から判断する。閾値を超えていれば(ステップS24でYES)、ステップS25で、現在のモードが第1のモード(自由発話モード)かどうかを判断する。第1のモードであれば(ステップS25でYES)、ステップS26で、第2のモードである選択式発話モードに切り替えた後、ステップS30に進む。ステップS25で現在のモードが第1のモードでない場合は(ステップS25でNO)、ステップS28でモードの切り替えを行うことなくステップS30に進む。この場合は第2のモードがそのまま維持される。
【0089】
ステップS24で、現在のノイズ音が閾値を超えていない場合は(ステップS24でNO)、ステップS27で現在のモードが第1のモードかどうかを判断し、第1のモードであれば(ステップS27でYES)、ステップS28でモードの切り替えを行うことなくステップS30に進む。従って、この場合は第1のモードが維持される。ステップS27で、現在のモードが第1のモードでなければ(ステップS27でNO)、ステップS29で第1のモードに切り替えた後、ステップS30に進む。
【0090】
ステップS30では、例えばジョブの実行により音声操作モードが終了したかどうかを判断し、終了すれば(ステップS30でYES)、処理を終了する。音声操作モードの終了でなければ(ステップS30でNO)、ステップS24に戻る。
【0091】
このように、ノイズ音を過去の動作音から予測して閾値と比較することにより、ノイズ音の集音や測定処理が不要となり、処理の簡素化を図ることができる。
【0092】
なお、図10のステップS23では、過去のジョブの実行時の動作音から現在のジョブ実行時のノイズ音を予測するものとしたが、過去の複数の動作音を組み合わせてノイズ音を予測しても良い。例えば、10枚印字後、印字した10枚をステープルを実施するジョブが設定された場合、プリント1枚の印字動作時の動作音と、ステープル1回分の動作音を組み合わせて、今回のジョブの動作音(ノイズ音)の推移データを予測する。具体的には、プリント1枚の印字動作音がプリント1枚当たりの動作時間×10の時間継続し、続いてステープル1回分の動作音が継続する推移データとなる。
【0093】
このように過去の複数の動作音を組み合わせることで、ジョブ全体についての過去の動作音が存在していなくても、ノイズ音を予測することができ、第1のモードと第2のモードを精度よく切り替えることができる。
【0094】
次に、この発明のさらに他の実施形態を説明する。この実施形態では、図8及び図9で説明した実施形態と同様に、画像形成装置1の過去のジョブ実行時の動作音に基づいて現在のジョブの動作音(ノイズ音)を予測するが、予測したノイズ音の大きさが動作中のいずれかの時点で閾値を超えることが予測される場合、閾値を超える時点を待つことなく動作開始の時点から、第2のモードへの切り替えを行う構成となっている。
【0095】
一例として、ジョブ実行時の動作音(ノイズ音)の推移を図11のグラフに示す。図11の例ではジョブがコピージョブである場合のノイズ音を示しており、縦軸が動作音(ノイズ音)、横軸が時間を示している。
【0096】
図11の推移データでは、動作音が大きくなって閾値を超える部分が存在する。このため、コピージョブを実行しようとする場合、ジョブの開始時前に第2のモードに切り替えておく。
【0097】
図12は、上記のようにジョブの開始時前に第2のモードに切り替えておく場合の画像形成装置1の動作を示すフローチャートである。
【0098】
ステップS41では、ユーザーが音声操作モードを選択したかどうかを調べ、音声操作モードが選択されなければ(ステップS41でNO)、処理を終了する。音声操作モードが選択されると(ステップS41でYES)、ステップS42で、実行するジョブが決定したかどうかを判断する。決定されなければ(ステップS42でNO)、決定されるのを待つ。決定されると(ステップS42でYES)、ステップS43で、過去に同じジョブを実行したときの動作音の推移データを記憶装置110等から呼び出し、この動作音に基づいて現在のジョブの実行時の動作音を予測(推定)する。この場合、複数の動作音を組み合わせて予測しても良い。
【0099】
次にステップS44では、予測したノイズ音の大きさが閾値を超える場合があるかどうかを判断する。閾値を超える場合があれば(ステップS44でYES)、ステップS45で、現在のモードが第1のモード(自由発話モード)かどうかを判断する。第1のモードであれば(ステップS45でYES)、ステップS46で、第2のモードである選択発話モードに切り替えた後、ステップS50に進む。ステップS45で現在のモードが第1のモードでない場合は(ステップS45でNO)、ステップS48でモードの切り替えを行うことなくステップS50に進む。この場合は第2のモードがそのまま維持される。
【0100】
ステップS44で、予測したノイズ音が閾値を超える場合がなければ(ステップS44でNO)、ステップS47で現在のモードが第1のモードかどうかを判断し、第1のモードであれば(ステップS47でYES)、ステップS48でモードの切り替えを行うことなくステップS50に進む。従って、この場合は第1のモードが維持される。ステップS47で、現在のモードが第1のモードでなければ(ステップS47でNO)、ステップS49で第1のモードに切り替えた後、ステップS50に進む。
【0101】
ステップS50では、例えばジョブの実行により音声操作モードが終了したかどうかを判断し、終了しなければ(ステップS50でNO)、ステップS24に留まり終了するまで待つ。終了すれば(ステップS50でYES)、処理を終了する。
【0102】
図11及び図12に示した実施形態では、動作中のいずれかの時点でノイズ音の大きさが閾値を超えることが予測される場合、閾値を超える時点を待つことなく動作開始の時点から、第2のモードへの切り替えが行われる。このため、画像形成装置1の動作中はノイズ音の大きさを求める処理は不要となり、処理を簡素化できる。
【0103】
以上、本発明の一実施形態を説明したが、本発明はこれらの実施形態に限定されることはない。
【0104】
例えば、第1のモードと第2のモードの切り替えを画像形成装置1が自動で行う場合を示したが、ユーザーが選択できるようにしても良い。この場合、音声操作モードが設定されると、図13に示すような選択画面を操作パネル130の表示部134に表示する。図13に示す画面には、第1のモード(自由発話モード)と第2のモード(選択式発話モード)の切り替え方法の選択を促すメッセージとともに、「自動」切替と「手動」切替の選択項目が表示され、いずれかの項目を選択するようになっている。ユーザーがいずれかを選択しOKボタンを押すと選択が有効となる。キャンセルボタンが押されるとひとつ前の画面に戻る。
【0105】
「自動」が選択された場合は図7図8図10図12などに示した処理が行われる。「手動」が選択された場合は図14に示すモード選択画面に遷移する。図14のモード選択画面には、「いずれかのモードを選択してください」のメッセージとともに、第1のモードと第2のモードの選択項目が表示され、いずれかのモードを選択するようになっている。ユーザーが第1のモードを選択しOKボタンを押すと、第1のモードに切り替えられ、第2のモードを選択しOKボタンを押すと、第2のモードに切り替えられる。キャンセルボタンを押すと図13の画面に戻る。
【0106】
いずれかのモードが選択されると、ノイズ音の大きさにかかわらず、選択したモードで質問が出力される。ただし、音声操作の途中でユーザーが手動でモードの切り替えをできるようにしても良い。
【0107】
このように、ユーザーの切替操作により第1のモードと第2のモードを切り替えることができるから、ユーザーは音声操作を行う際に周囲のノイズ音が大きいと感じた場合等に切替操作を行うことにより、自己の意思を反映でき認識率の高い音声認識を行わせることができる。
【符号の説明】
【0108】
1 画像形成装置(画像処理装置)
100 制御部
101 CPU
102 ROM
103 RAM
110 記憶装置
140 画像出力装置
160 ネットワークインターフェース
200 音声端末装置
210 マイク部(音声入力装置)
220 スピーカー部(音声出力装置)
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14