特許第6822374号(P6822374)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 京セラドキュメントソリューションズ株式会社の特許一覧

<>
  • 特許6822374-画像形成装置 図000002
  • 特許6822374-画像形成装置 図000003
  • 特許6822374-画像形成装置 図000004
  • 特許6822374-画像形成装置 図000005
  • 特許6822374-画像形成装置 図000006
  • 特許6822374-画像形成装置 図000007
  • 特許6822374-画像形成装置 図000008
  • 特許6822374-画像形成装置 図000009
  • 特許6822374-画像形成装置 図000010
  • 特許6822374-画像形成装置 図000011
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6822374
(24)【登録日】2021年1月12日
(45)【発行日】2021年1月27日
(54)【発明の名称】画像形成装置
(51)【国際特許分類】
   G10L 15/32 20130101AFI20210114BHJP
   G10L 15/00 20130101ALI20210114BHJP
   G10L 15/22 20060101ALI20210114BHJP
   G10L 15/28 20130101ALI20210114BHJP
   G06F 3/16 20060101ALI20210114BHJP
   G06F 3/0482 20130101ALI20210114BHJP
   G06F 3/0484 20130101ALI20210114BHJP
   B41J 29/38 20060101ALI20210114BHJP
   B41J 29/46 20060101ALI20210114BHJP
   G03G 21/00 20060101ALI20210114BHJP
   H04N 1/00 20060101ALI20210114BHJP
【FI】
   G10L15/32 220Z
   G10L15/00 200N
   G10L15/22 460Z
   G10L15/22 470Z
   G10L15/28 500
   G10L15/28 230Z
   G06F3/16 630
   G06F3/16 650
   G06F3/0482
   G06F3/0484
   B41J29/38 202
   B41J29/46 Z
   G03G21/00 370
   H04N1/00 C
【請求項の数】9
【全頁数】17
(21)【出願番号】特願2017-199661(P2017-199661)
(22)【出願日】2017年10月13日
(65)【公開番号】特開2019-74608(P2019-74608A)
(43)【公開日】2019年5月16日
【審査請求日】2019年9月24日
(73)【特許権者】
【識別番号】000006150
【氏名又は名称】京セラドキュメントソリューションズ株式会社
(74)【代理人】
【識別番号】100129997
【弁理士】
【氏名又は名称】田中 米藏
(72)【発明者】
【氏名】滝 浩介
【審査官】 大野 弘
(56)【参考文献】
【文献】 特開2014−203024(JP,A)
【文献】 特開平09−282418(JP,A)
【文献】 特開2008−256802(JP,A)
【文献】 特開2009−042298(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/32
B41J 29/38
B41J 29/46
G03G 21/00
G06F 3/0482
G06F 3/0484
G06F 3/16
G10L 15/00
G10L 15/22
G10L 15/28
H04N 1/00
(57)【特許請求の範囲】
【請求項1】
本画像形成装置に接続されたマイクから入力された音声信号の入力を受け付ける音声入力受付部と、
前記音声入力受付部で入力を受け付けた音声信号に基づく音声認識を行う音声認識部と、
携帯端末装置と通信を行う通信部と、
本画像形成装置の動作を制御する制御部と、を備え、
前記制御部は、前記通信部を介して受信した前記携帯端末装置で行われた音声認識結果と、前記音声認識部による音声認識結果とを照合した照合結果に基づいて、本画像形成装置の動作を制御し、
前記音声入力受付部で音声信号の入力を受け付けてから予め定められた第1期間内に、前記音声入力受付部で新たな音声信号の入力を受け付けると、
前記制御部は、前記音声入力受付部で新たに入力を受け付けた音声信号に対する前記音声認識部による音声認識結果と、前記音声入力受付部で先に入力を受け付けた音声信号に対する前記音声認識部による音声認識結果とを比較し、当該両音声認識結果において、予め定められた重要項目の内容すべてが一致する場合には、前記携帯端末装置で行われた音声認識結果との照合において、先の音声認識結果を無効にして、新たに入力を受け付けた音声信号についての音声認識結果を有効にする画像形成装置。
【請求項2】
本画像形成装置に接続されたマイクから入力された音声信号の入力を受け付ける音声入力受付部と、
前記音声入力受付部で入力を受け付けた音声信号に基づく音声認識を行う音声認識部と、
携帯端末装置と通信を行う通信部と、
本画像形成装置の動作を制御する制御部と、を備え、
前記制御部は、前記通信部を介して受信した前記携帯端末装置で行われた音声認識結果と、前記音声認識部による音声認識結果とを照合した照合結果に基づいて、本画像形成装置の動作を制御し、
前記携帯端末装置による音声認識結果を受信してから予め定められた第2期間内に、前記携帯端末装置による音声認識結果を新たに受信すると、
前記制御部は、新たに受信した前記携帯端末装置による音声認識結果と、先に受信した前記携帯端末装置による音声認識結果とを比較し、予め定められた重要項目の内容すべてが一致する場合には、前記音声入力受付部で入力を受け付けた音声信号についての音声認識結果との照合において、先の音声認識結果を無効にして、新たに受信した前記携帯端末装置による音声認識結果を有効にする画像形成装置。
【請求項3】
本画像形成装置に接続されたマイクから入力された音声信号の入力を受け付ける音声入力受付部と、
前記音声入力受付部で入力を受け付けた音声信号に基づく音声認識を行う音声認識部と、
携帯端末装置と通信を行う通信部と、
本画像形成装置の動作を制御する制御部と、を備え、
前記制御部は、前記通信部を介して受信した前記携帯端末装置で行われた音声認識結果と、前記音声認識部による音声認識結果とを照合した照合結果に基づいて、本画像形成装置の動作を制御し、
ユーザーに対して報知を行う報知部と、
ユーザーから指示を受け付ける操作部とを更に備え、
前記制御部は、前記照合結果が、前記音声認識部による音声認識結果と、前記携帯端末装置による音声認識結果とが一致しないことを示す場合、音声認識結果それぞれの予め定められたコマンドの内容を前記報知部によりユーザーに対して報知させると共に、実行対象とするコマンドを当該それぞれのコマンドから選択する指示を、前記操作部を介してユーザーから受け付け、当該指示に従ったコマンドを実行する画像形成装置。
【請求項4】
本画像形成装置に接続されたマイクから入力された音声信号の入力を受け付ける音声入力受付部と、
前記音声入力受付部で入力を受け付けた音声信号に基づく音声認識を行う音声認識部と、
携帯端末装置と通信を行う通信部と、
本画像形成装置の動作を制御する制御部と、
ユーザーに対して報知を行う報知部と、
ユーザーから指示を受け付ける操作部と、を備え、
前記制御部は、前記通信部を介して受信した前記携帯端末装置で行われた音声認識結果と、前記音声認識部による音声認識結果とを照合した照合結果に基づいて、本画像形成装置の動作を制御し、
前記音声認識部による音声認識及び前記携帯端末装置による音声認識のうちのいずれか一方だけが成功しているとき、
前記制御部は、成功している方の音声認識結果のコマンドを実行するか否かを前記報知部によりユーザーに対して報知させ、前記操作部を介してユーザーから選択指示を受け付けた方のコマンドを実行する画像形成装置。
【請求項5】
前記制御部は、前記照合結果が、前記音声認識部による音声認識結果と、前記携帯端末装置による音声認識結果とが一致することを示す場合、当該一致した音声認識結果に対応する予め定められたコマンドを実行する請求項1乃至請求項4のいずれかに記載の画像形成装置。
【請求項6】
前記音声認識部による音声認識及び前記携帯端末装置による音声認識の両方が成功していないとき、
前記制御部は、音声認識を失敗した原因を分析し、当該原因に応じた対処法を設定し、
前記音声認識部は、前記制御部が設定した対処法に従って、前記音声入力受付部で新たに入力を受け付けた音声信号に対する音声認識を行う請求項1乃至請求項のいずれかに記載の画像形成装置。
【請求項7】
前記音声認識部は、前記携帯端末装置から送信されてきた周波数帯域情報が示す周波数帯域においてのみ、前記音声入力受付部で入力を受け付けた音声信号に基づく音声認識を行う請求項1乃至請求項のいずれかに記載の画像形成装置。
【請求項8】
本画像形成装置に接続されたマイクから入力された音声信号の入力を受け付ける音声入力受付部と、
前記音声入力受付部で入力を受け付けた音声信号に基づく音声認識を行う音声認識部と、
携帯端末装置と通信を行う通信部と、
本画像形成装置の動作を制御する制御部と、を備え、
前記制御部は、前記音声認識部による音声認識結果を、前記通信部を介して前記携帯端末装置へ送信し、
前記制御部は、前記通信部を介して前記携帯端末装置から、当該携帯端末装置に接続されたマイクから入力された音声信号に基づく音声認識による音声認識結果と、本画像形成装置から送信されてきた前記音声認識部による音声認識結果と照合した照合結果を受信し、当該照合結果に基づいて、本画像形成装置の動作を制御し、
ユーザーに対して報知を行う報知部と、
ユーザーから指示を受け付ける操作部とを更に備え、
前記制御部は、前記照合結果が、前記音声認識部による音声認識結果と、前記携帯端末装置による音声認識結果とが一致しないことを示す場合、音声認識結果それぞれの予め定められたコマンドの内容を前記報知部によりユーザーに対して報知させると共に、実行対象とするコマンドを当該それぞれのコマンドから選択する指示を、前記操作部を介してユーザーから受け付け、当該指示に従ったコマンドを実行する画像形成装置。
【請求項9】
本画像形成装置に接続されたマイクから入力された音声信号の入力を受け付ける音声入力受付部と、
前記音声入力受付部で入力を受け付けた音声信号に基づく音声認識を行う音声認識部と、
携帯端末装置と通信を行う通信部と、
本画像形成装置の動作を制御する制御部と、
ユーザーに対して報知を行う報知部と、
ユーザーから指示を受け付ける操作部と、を備え、
前記制御部は、前記音声認識部による音声認識結果を、前記通信部を介して前記携帯端末装置へ送信し、
前記制御部は、前記通信部を介して前記携帯端末装置から、当該携帯端末装置に接続されたマイクから入力された音声信号に基づく音声認識による音声認識結果と、本画像形成装置から送信されてきた前記音声認識部による音声認識結果と照合した照合結果を受信し、当該照合結果に基づいて、本画像形成装置の動作を制御し、
前記音声認識部による音声認識及び前記携帯端末装置による音声認識のうちのいずれか一方だけが成功しているとき、
前記制御部は、成功している方の音声認識結果のコマンドを実行するか否かを前記報知部によりユーザーに対して報知させ、前記操作部を介してユーザーから選択指示を受け付けた方のコマンドを実行する画像形成装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像形成装置に関し、特に、音声入力での操作を可能とする技術に関する。
【背景技術】
【0002】
下記の特許文献1に、画像形成装置に接続されたマイクから入力された音声信号に基づく音声認識が成功した場合には、当該音声認識の結果を用いて画像形成装置を制御し、不成功の場合には、端末装置に接続されたマイクで新たに音声入力を受け付け、当該マイクから入力された音声信号に基づく音声認識の結果を用いて画像形成装置を制御することが記載されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2014−203024号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ユーザーが発声した音声信号に基づく音声認識が成功していたとしても、正しく認識されているとは限らず、誤って認識されることもある。例えば、「コピー10枚」とユーザーは発声しているのに、「コピー20枚」と誤って認識されることもあり得る。このような場合、上記の特許文献1に記載された発明では、ユーザーが意図したものとは異なるコマンドが実行されることになる。
【0005】
本発明は、上記の事情に鑑みなされたものであり、音声入力で操作可能な画像形成装置において、音声入力による指示の精度を向上させることを目的とする。
【課題を解決するための手段】
【0006】
本発明の一局面に係る画像形成装置は、本画像形成装置に接続されたマイクから入力された音声信号の入力を受け付ける音声入力受付部と、前記音声入力受付部で入力を受け付けた音声信号に基づく音声認識を行うための音声認識部と、携帯端末装置と通信を行うための通信部と、本画像形成装置の動作を制御する制御部と、を備え、前記制御部は、前記通信部を介して受信した前記携帯端末装置で行われた音声認識結果と、前記音声認識部による音声認識結果とを照合した照合結果に基づいて、本画像形成装置の動作を制御する。
【0007】
また、本発明の一局面に係る画像形成装置は、本画像形成装置に接続されたマイクから入力された音声信号の入力を受け付ける音声入力受付部と、前記音声入力受付部で入力を受け付けた音声信号に基づく音声認識を行う音声認識部と、携帯端末装置と通信を行う通信部と、本画像形成装置の動作を制御する制御部と、を備え、前記制御部は、前記音声認識部による音声認識結果を、前記通信部を介して前記携帯端末装置へ送信し、前記制御部は、前記通信部を介して前記携帯端末装置から、当該携帯端末装置に接続されたマイクから入力された音声信号に基づく音声認識による音声認識結果と、本画像形成装置から送信されてきた前記音声認識部による音声認識結果と照合した照合結果を受信し、当該照合結果に基づいて、本画像形成装置の動作を制御する。
【発明の効果】
【0008】
本発明によれば、本画像形成装置に接続されたマイクから入力された音声信号に基づく音声認識結果と、携帯端末装置に接続されたマイクから入力された音声信号に基づく音声認識結果との照合結果に基づいて、本画像形成装置の動作を制御するので、音声入力による指示の精度を向上させることができる。
【図面の簡単な説明】
【0009】
図1】本発明の第1実施形態に係る画像形成装置の主要内部構成を概略的に示した機能ブロック図である。
図2】携帯端末装置の主要内部構成を概略的に示した機能ブロック図である。
図3】第1実施形態に係る画像形成装置の制御ユニットで行われる動作概要の一例を示したフローチャートである。
図4】表示部に表示される表示画面の一例を示した図である。
図5】表示部に表示される表示画面の一例を示した図である。
図6】表示部に表示される表示画面の一例を示した図である。
図7】第2実施形態に係る画像形成装置の制御ユニットで行われる動作概要の一例を示したフローチャートである。
図8】携帯端末装置の主要内部構成を概略的に示した機能ブロック図である。
図9】第3実施形態に係る画像形成装置の制御ユニットで行われる動作概要の一例を示したフローチャートである。
図10】第4実施形態に係る画像形成装置の制御ユニットで行われる動作概要の一例を示したフローチャートである。
【発明を実施するための形態】
【0010】
以下、本発明の一実施形態に係る画像形成装置について図面を参照して説明する。図1は、本発明の第1実施形態に係る画像形成装置の主要内部構成を概略的に示した機能ブロック図である。図2は、画像形成装置を遠隔操作するための携帯端末装置の主要内部構成を概略的に示した機能ブロック図である。
【0011】
画像形成装置1は、例えば、コピー機能、プリンター機能、スキャナー機能、及びファクシミリ機能のような複数の機能を兼ね備えた複合機である。画像形成装置1は、制御ユニット10、原稿給送部6、原稿読取部5、画像形成部12、定着部13、給紙部14、操作部47、通信部80、及びマイク90を備える。
【0012】
画像形成装置1で原稿読取動作が行われる場合について説明する。原稿給送部6により搬送されてきた原稿、又はプラテンガラスに載置されている原稿の画像を、原稿読取部5が光学的に読み取り、そして画像データを生成する。原稿読取部5により生成された画像データは、図略の画像メモリー等に保存される。
【0013】
画像形成装置1で画像形成動作が行われる場合について説明する。原稿読取動作により生成された画像データや、ネットワーク接続された外部装置としてのコンピューターから受信した画像データ等に基づいて、画像形成部12が、給紙部14から給紙される記録媒体としての記録紙にトナー像を形成する。
【0014】
定着部13は、熱圧着によりトナー像を記録紙に定着させるものであり、定着処理が施された記録紙は排出トレイに排出される。給紙部14は、給紙カセットを備える。
【0015】
操作部47は、画像形成装置1が実行可能な各種動作及び処理について、操作者から、画像形成動作実行指示等の指示を受け付ける。操作部47は、操作者への操作案内等を表示する表示部473を備えている。表示部473はタッチパネルになっており、操作者は画面表示されるボタンやキーに触れて画像形成装置1に対する操作指示を入力する。
【0016】
通信部80は、LAN(Local Area Network)通信部81及び近距離無線通信を可能とするBLE(Bluetooth Low Energy)通信部82を含んで構成され、LAN通信部81を介して、ローカルエリア内、又はインターネット上のサーバー等の外部装置とデータの送受信を行い、更に、BLE通信部82を介して画像形成装置1の近くに存在する携帯端末装置2とデータの送受信を行う。なお、BLEとは、Bluetooth(登録商標)の拡張仕様の一つである。
【0017】
マイク90は、例えばマイクロフォンを備え、音声を画像形成装置1に入力する。マイク90は、操作部47の近くに取り付けられている。
【0018】
制御ユニット10は、プロセッサー、RAM(Random Access Memory)、ROM(Read Only Memory)、及び専用のハードウェア回路を含んで構成される。プロセッサーは、例えばCPU(Central Processing Unit)、ASIC(Application Specific Integrated Circuit)、又はMPU(Micro Processing Unit)等である。制御ユニット10は、制御部100と、操作受付部101と、音声入力受付部102と、音声認識部103とを備えている。
【0019】
制御ユニット10は、図示しないHDD(Hard disk drive)に記憶されている制御プログラムに従った動作により、制御部100、操作受付部101、音声入力受付部102、及び音声認識部103として機能する。但し、制御部100等は、制御ユニット10による制御プログラムに従った動作によらず、それぞれハードウェア回路により構成することも可能である。以下、特に触れない限り、各実施形態について同様である。
【0020】
制御部100は、画像形成装置1の全体的な動作制御を司る。制御部100は、原稿給送部6、原稿読取部5、画像形成部12、定着部13、給紙部14、操作部47、通信部80、及びマイク90と接続され、これら各部の駆動制御等を行う。
【0021】
操作受付部101は、操作部47を介したユーザーからの操作入力を受け付ける。
【0022】
音声入力受付部102は、マイク90から入力された音声信号の入力を受け付ける。
【0023】
音声認識部103は、音声入力受付部102で入力を受け付けた音声信号について音声認識を実行する。例えば、音声認識部103は、当該音声認識において、内蔵する音声認識辞書(文法や語彙を含む)を参照して、当該音声信号を文字列に変換する。
【0024】
携帯端末装置2は、例えば、スマートフォンなどのモバイル機器である。携帯端末装置2は、制御ユニット200と、操作部210と、通信部220と、記憶部230と、マイク240とを備えている。これらの各構成は、互いに通信バスによりデータ又は信号の送受信が可能とされている。
【0025】
操作部210は、携帯端末装置2が実行可能な各種動作及び処理について、操作者から各種指示を受け付ける。操作部210は、操作者への操作案内等を表示する表示部211を備えている。表示部211は、タッチパネル機能を備えており、タッチパネル機能は、画面表示されるボタンやキーに対するユーザーによるタッチ操作を認識する。また、携帯端末装置2は、ユーザー操作が入力される操作部210として、上記のタッチパネル機能に加えて物理キーを備えてもよい。
【0026】
通信部220は、不図示のLANチップなどの通信モジュールを備える通信インターフェイスである。携帯端末装置2は、ネットワークを介してサーバーなどの外部装置と接続される。また、通信部220は、BLE通信部を備え、近くの画像形成装置1との間でデータの送受信を行う。
【0027】
記憶部230は、不揮発性メモリーなどの記憶装置である。
【0028】
制御ユニット200は、プロセッサー、RAM、ROM、及び専用のハードウェア回路を含んで構成される。プロセッサーは、例えばCPU、ASIC、又はMPU等である。制御ユニット200は、制御部201と、操作受付部202と、音声入力受付部203と、音声認識部204とを備えている。
【0029】
制御ユニット200は、記憶部230に記憶されている制御プログラムや各アプリケーションが上記のプロセッサーに実行されることにより、制御部201、操作受付部202、音声入力受付部203、及び音声認識部204として機能する。記憶部230に記憶されているアプリケーションには、画像形成装置1を音声にて遠隔操作するための遠隔操作アプリケーションが含まれ、携帯端末装置2は当該遠隔操作アプリケーションを用いて画像形成装置1を遠隔操作することが可能である。但し、制御ユニット200の上記の各構成は、制御ユニット200による制御プログラム等に基づく動作によらず、それぞれハードウェア回路により構成することも可能である。以下、特に触れない限り、各実施形態について同様である。
【0030】
遠隔操作アプリケーションの起動方法には、携帯端末装置2にてアプリ起動用のアイコンを押下するといった方法や、携帯端末装置2を画像形成装置1に接近させることによって起動させるといった方法が挙げられる。
【0031】
携帯端末装置2の制御部201は、通信部220を介して、画像形成装置1のBLE通信部82から送信されてくる電波の強度を検出し、その強度が予め定められた大きさ以上(すなわち、画像形成装置1に接近している)と判定すると、画像形成装置1とのBLE通信を確立する。すなわち、BLE通信で、携帯端末装置2と画像形成装置1とが接続される。
【0032】
画像形成装置1の制御部100は、BLE通信で携帯端末装置2と接続されると、遠隔操作アプリケーションの起動コマンドを、BLE通信部82を介して携帯端末装置2へ送信する。携帯端末装置2の制御部201は、通信部220を介して、当該起動コマンドを受信すると、当該起動コマンドに従って、上記遠隔操作アプリケーションを起動する。
【0033】
携帯端末装置2の制御部201は、携帯端末装置2の全体的な動作制御を司る。制御部201は、操作部210、通信部220、記憶部230、及びマイク240と接続されており、接続されている上記各構成の動作制御や、各構成との間での信号またはデータの送受信を行う。
【0034】
操作受付部202は、ユーザー操作により操作部210に入力された指示や情報を受け付ける。
【0035】
音声入力受付部203は、マイク240から入力された音声信号の入力を受け付ける。
【0036】
音声認識部204は、音声入力受付部203で入力を受け付けた音声信号に基づく音声認識を行う。なお、音声認識機能については、サーバーが有し、制御部201が、当該音声信号をサーバーに送信し、音声認識については携帯端末装置2の代わりに、サーバーが行うようにしてもよい。
【0037】
次に、第1実施形態に係る画像形成装置1の制御ユニット100で行われる動作概要の一例について、図3に示したフローチャートに基づいて説明する。なお、ここでは携帯端末装置2を携帯するユーザーが画像形成装置1に近づき、遠隔操作アプリケーションが起動している状態で、画像形成装置1のマイク90と、携帯端末装置2のマイク240とに向けて、ユーザーが音声を発した場合について説明する。
【0038】
画像形成装置1の音声入力受付部102が、マイク90から入力された音声信号の入力を受け付けると(S1)、音声認識部103が、音声入力受付部102で入力を受け付けた音声信号に基づく音声認識を行い、当該音声認識により当該音声信号から変換された文字列に対応するコマンド(例えば、カラーコピー10枚)を、予め記憶しているコマンドの中から特定し、当該コマンドを生成する(S2)。当然のことであるが、音声認識が成功せず、失敗した場合には、コマンドは生成されない。
【0039】
一方、携帯端末装置2の音声入力受付部203が、マイク240から入力された音声信号の入力を受け付けると(S21)、音声認識部204が、音声入力受付部203で入力を受け付けた音声信号に基づく音声認識を行い、当該音声認識により当該音声信号から変換された文字列に対応するコマンドを予め記憶しているコマンドの中から特定し、当該コマンドを生成する(S22)。更に、制御部201が、当該音声認識を行うことによって得られた音声認識結果(コマンド)を、通信部220を介して画像形成装置1へ送信する(S23)。但し、音声認識が成功せず、コマンドが生成されない場合、制御部201は、音声認識結果として、音声認識に失敗した旨を示す情報を画像形成装置1へ送信する。
【0040】
画像形成装置1の制御部100は、通信部80を介して携帯端末装置2による音声認識結果を受信すると(S3)、画像形成装置1(音声認識部103)と携帯端末装置2(音声認識部204)との両方で音声認識が成功しているか否かを判断する(S4)。例えば、音声認識結果が画像形成装置1の動作指示として不適切なものであり、上記変換された文字列に対応する上記コマンドを特定できない場合、制御部100は音声認識が不成功であると判定する。
【0041】
制御部100は、画像形成装置1と携帯端末装置2との両方で音声認識が成功していると判断した場合(S4でYES)、画像形成装置1による音声認識結果(コマンド)と、携帯端末装置2による音声認識結果(コマンド)とを照合し、両者が一致するか否かを判断する(S5)。
【0042】
制御部100は、両者が一致する、すなわち、両コマンドが一致すると判断した場合(S5でYES)、画像形成装置1の動作を制御することによって、一致したコマンドを実行する(S6)。
【0043】
一方、制御部100は、両者は一致しないと判断した場合(S5でNO)、両者が一致しない旨、そして音声認識結果それぞれのコマンド内容を表示部473に表示させて、実行するコマンドをユーザーに選択させる(S7)。
【0044】
図4は、表示部473に表示される表示画面の一例を示した図である。制御部100による制御で表示部473に表示される表示画面D1には、「音声入力によるコマンドがMFPとモバイルとで一致しません。もう一度、音声入力を行うか、下記のいずれかのボタンを押下してください。」というメッセージM1と、画像形成装置1による音声認識結果のコマンドを表す「MFP:コピー10枚」というメッセージM2と、携帯端末装置2による音声認識結果のコマンドを表す「モバイル:コピー20枚」というメッセージM3とが表示されると共に、設定ボタンB1〜B3が形成される。設定ボタンB1〜B3にはそれぞれ、「MFPのコマンドを実行する」、「モバイルのコマンドを実行する」、「操作パネルから入力する」と記されている。
【0045】
制御部100は、操作受付部101がタッチパネル機能を介して、設定ボタンB1〜B3のいずれかに対する操作を受け付けると、操作受付部101が受け付けたユーザー操作(ユーザー選択)に応じた処理を実行する(S8)。但し、画像形成装置1のマイク90や携帯端末装置2のマイク240に向けて、ユーザーが新たに音声を発し、画像形成装置1の音声入力受付部102や携帯端末装置2の音声入力受付部203が音声信号の入力を受け付けた場合には、上記S1,S21の動作が行われる。
【0046】
操作受付部101が、設定ボタンB1に対する操作を受け付けると、制御部100は、画像形成装置1による音声認識結果が示すコマンドを実行し、操作受付部101が、設定ボタンB2に対する操作を受け付けると、制御部100は、携帯端末装置2による音声認識結果が示すコマンドを実行する。また、操作受付部101が、設定ボタンB3に対する操作を受け付けると、制御部100は、表示部473にメニュー画面を表示する。
【0047】
また、S4において、制御部100は、画像形成装置1と携帯端末装置2との少なくとも一方で音声認識が失敗していると判断した場合(S4でNO)、画像形成装置1及び携帯端末装置2のうちのいずれか一方で音声認識が成功しているか否かを判断する(S9)。
【0048】
制御部100は、画像形成装置1及び携帯端末装置2のうちのいずれか一方で音声認識が成功していると判断した場合(S9でYES)、音声認識が一方しか成功していない旨、そして成功している方の音声認識結果のコマンド内容を表示部473に表示すると共に、当該コマンドを実行するか否かをユーザーに選択させる(S10)。
【0049】
図5は、表示部473に表示される表示画面の一例を示した図である。制御部100による制御で表示部473に表示される表示画面D2には、「MFPとモバイルのいずれかで音声入力に失敗しました。もう一度、音声入力を行うか、下記のいずれかのボタンを押下してください。」というメッセージM4と、成功している音声認識結果のコマンドを表す「音声入力したコマンド:コピー10枚」というメッセージM5とが表示されると共に、設定ボタンB4,B5が形成される。設定ボタンB4,B5にはそれぞれ、「音声入力したコマンドを実行する」、「操作パネルから入力する」と記されている。
【0050】
制御部100は、操作受付部101が設定ボタンB4,B5のいずれかに対する操作を受け付けると、操作受付部101が受け付けたユーザー操作(ユーザー選択)に応じた処理を実行する(S11)。但し、画像形成装置1のマイク90や携帯端末装置2のマイク240に向けて、ユーザーが新たに音声を発し、画像形成装置1の音声入力受付部102や携帯端末装置2の音声入力受付部203が音声信号の入力を受け付けた場合には、上記S1,S21の動作が行われる。
【0051】
操作受付部101が、設定ボタンB4に対する操作を受け付けると、制御部100は、成功している音声認識結果のコマンドを実行し、操作受付部101が、設定ボタンB5に対する操作を受け付けると、制御部100は、表示部473にメニュー画面を表示する。
【0052】
また、S9において、制御部100は、画像形成装置1と携帯端末装置2との両方で音声認識が失敗していると判断した場合(S9でNO)、画像形成装置1の音声認識部103での音声認識失敗の原因を分析し、当該原因に応じた対処法を設定する(S12)。
【0053】
音声認識を失敗する原因としては、ユーザーの発声態様(音量や発声速度)に起因するものや、音声認識におけるソフトウェア上の問題などが挙げられる。そこで、制御部100は、ユーザー発声における出力の振幅が予め定められた閾値を一定時間連続して超えているか否かを判断し、振幅が当該閾値を一定時間連続して超えていないと判断した場合、音量が小さいことが音声認識の失敗原因であると判定する。
【0054】
また、制御部100は、ユーザー発声における一文字単位の発生時間が予め定められた閾値以下であるか否かを判断し、当該発生時間が当該閾値以下であると判断した場合、発声速度が速すぎることが音声認識の失敗原因であると判定する。そして、制御部100は、ユーザーの発声態様(音量や発声速度)に音声認識の失敗原因はないと判定した場合、音声認識部103の音声認識におけるソフトウェア上の問題が失敗原因であると判定する。
【0055】
音声認識失敗の原因が、ユーザーの発声態様に起因する場合、音声認識を成功させるための対処法としては、失敗の原因をユーザーに知らせることになる。
【0056】
一方、音声認識失敗の原因が、音声認識部103の音声認識におけるソフトウェア上の問題に起因する場合、音声認識を成功させるための対処法としては、例えば、音声認識辞書を参照して音声認識を行う際の正誤判定値を下げるといった方法が挙げられる。当該正誤判定値を下げると、音声認識の信頼性は落ちるが、音声認識の成功率は上がる。
【0057】
そこで、制御部100は、音声認識失敗の原因がユーザーの発声態様に起因すると判断した場合には、失敗の原因をユーザーに知らせることを対処法として設定し、一方、音声認識失敗の原因がユーザーの発声態様に起因しないと判断した場合には、当該正誤判定値を下げることを対処法として設定する。
【0058】
続いて、制御部100は、画像形成装置1と携帯端末装置2との両方で音声認識が失敗している旨、そして音声認識失敗の原因がユーザーの発声態様に起因していると判断した場合には、失敗の原因についても表示部473に表示する(S13)。
【0059】
図6は、表示部473に表示される表示画面の一例を示した図である。制御部100による制御で表示部473に表示される表示画面D3には、「MFPとモバイルの両方で音声入力に失敗しました。もう一度、音声入力を行うか、下記のボタンを押下してください。」というメッセージM6と、音声認識の対処法を表す「もう一度、音声入力を行う場合には、もう少し大きな声でお願いします。」というメッセージM7とが表示されると共に、設定ボタンB6が形成される。設定ボタンB6には「操作パネルから入力する」と記されている。
【0060】
制御部100は、操作受付部101が設定ボタンB6に対する操作を受け付けると、操作受付部101が受け付けたユーザー操作(ユーザー選択)に応じた処理を実行する(S14)。但し、画像形成装置1のマイク90や携帯端末装置2のマイク240に向けて、ユーザーが新たに音声を発し、画像形成装置1の音声入力受付部102や携帯端末装置2の音声入力受付部203が音声信号の入力を受け付けた場合には、上記S1,S21の動作が行われる。
【0061】
また、音声認識失敗の原因がユーザー発声態様に起因しない場合には、上記S2において、画像形成装置1の音声認識部103は、制御部100が設定した対処法に従い、上記正誤判定値を下げて、音声入力受付部102で新たに入力を受け付けた音声信号に対する音声認識を行う。
【0062】
上記第1実施形態によれば、画像形成装置1に接続されたマイク90から入力された音声信号に基づく音声認識結果と、携帯端末装置2に接続されたマイク240から入力された音声信号に基づく音声認識結果との両方を用いて、画像形成装置1の動作が制御されるので、音声入力による指示の精度を向上させることができる。
【0063】
画像形成装置1による音声認識結果と携帯端末装置2による音声認識結果とが一致する場合には、一致した音声認識結果のコマンドが実行されるが、両者が一致しない場合には、実行すべきコマンドをユーザーが選択する機会が与えられ、いずれかの音声認識が失敗している場合には、コマンドを実行するか否かをユーザーが選択する機会が与えられる。従って、ユーザーの意図しないコマンドが勝手に実行されるのを回避することができる。また、両方の音声認識が失敗した場合には、音声認識が失敗した原因に応じて、対処法が設定されるので、音声認識が成功する確率を高めることができる。
【0064】
ところで、画像形成装置1で対応可能な言語よりも、携帯端末装置2で対応可能な言語の方が多いのが一般的である。例えば、画像形成装置1がイタリア語に対応していないが、携帯端末装置2がイタリア語に対応している場合、画像形成装置1による音声認識は失敗するが、携帯端末装置2による音声認識は成功可能なので、画像形成装置1が対応していない言語についても、音声入力で操作することが可能となる。
【0065】
図7は、第2実施形態に係る画像形成装置1の制御ユニット100で行われる動作概要の一例を示したフローチャートである。当該第2実施形態に係る画像形成装置1における制御部100は、音声入力受付部102で音声信号の入力を受け付けてから予め定められた第1期間T1内に、音声入力受付部102で新たな音声信号の入力を受け付けると、音声入力受付部102で新たに入力を受け付けた音声信号に対する音声認識部103による音声認識結果と、音声入力受付部102で先に入力を受け付けた音声信号に対する音声認識部103による音声認識結果とを比較し、予め定められた重要項目の内容すべてが一致する場合には、先の音声認識結果を無効にして、新たに入力を受け付けた音声信号についての音声認識結果を有効にする。
【0066】
なお、予め定められた第1期間T1内は、図7に示した1点破線で囲まれた範囲内であり、S1において音声入力受付部102が音声信号の入力を受け付けてから、例えば、S6において制御部100が音声認識に基づくコマンドを実行するまでの期間である。
【0067】
更に、当該第2実施形態に係る画像形成装置1における制御部100は、携帯端末装置2による音声認識結果を受信してから予め定められた第2期間T2内に、携帯端末装置2による音声認識結果を新たに受信すると、新たに受信した携帯端末装置2による音声認識結果と、先に受信した携帯端末装置2による音声認識結果とを比較し、予め定められた重要項目の内容すべてが一致する場合には、先の音声認識結果を無効にして、新たに受信した携帯端末装置2による音声信号についての音声認識結果を有効にする。
【0068】
なお、予め定められた第2期間T2内は、図7に示した2点破線で囲まれた範囲内であり、S3において通信部80が携帯端末装置2による音声認識結果を受信してから、例えば、S6において制御部100が音声認識に基づくコマンドを実行するまでの期間である。
【0069】
重要項目としては、例えば、コピーやスキャン、ファクス送信などが挙げられるが、カラーやモノクロ、部数などは重要項目に含まれない。例えば、ユーザーが「カラーコピー10枚」と発声したすぐ後に、「モノクロコピー20枚」と発声した場合、重要項目である「コピー」は一致するので、制御部100は、先に発声された「カラーコピー10枚」を無効にし、後に発声された「モノクロコピー20枚」を有効にする。
【0070】
一方、ユーザーが「カラーコピー」と発声したすぐ後に、「カラースキャン」と発声した場合、重要項目は「コピー」と「スキャン」とで異なるので、制御部100は、先に発声された「カラーコピー」を無効にしない。また、先に発声されたものが無効にならなかった場合、制御部100は、先に発声された内容と後に発声された内容とを表示部473に表示し、ユーザーにいずれを有効にするのかを選択させる。
【0071】
上記第2実施形態によれば、ユーザーが誤った音声入力をしたことに気づき、すぐに音声入力をし直した場合には、先の音声入力を無効にすることが可能となるので、使い勝手のよいものとすることができる。
【0072】
図8は、第3実施形態に係る画像形成装置を遠隔操作するための携帯端末装置の主要内部構成を概略的に示した機能ブロック図である。携帯端末装置2Aは、制御ユニット200が検出部205を備える点で、図2に示した携帯端末装置2と相違する。検出部205は、携帯端末装置2Aに接続されたマイク240から入力された音声信号から既知の技術により周波数帯域を検出する。例えば、検出部205は、音声信号をフーリエ変換することによって、ユーザー音声の周波数帯域を検出する。そして、制御部201が、検出部205が検出したユーザー音声の周波数帯域を示す周波数帯域情報を、通信部220を介して画像形成装置1へ送信する。
【0073】
第3実施形態に係る画像形成装置1の制御ユニット100で行われる動作概要の一例について、図9に示したフローチャートに基づいて説明する。なお、ここでは携帯端末装置2Aを携帯するユーザーが画像形成装置1に近づき、遠隔操作アプリケーションが起動している状態で、画像形成装置1のマイク90と、携帯端末装置2Aのマイク240とに向けて、ユーザーが音声を発した場合について説明する。
【0074】
携帯端末装置2Aの音声入力受付部203が、マイク240から入力された音声信号の入力を受け付けると(S31)、音声認識部204が、音声入力受付部203で入力を受け付けた音声信号に基づく音声認識を行い、コマンドを生成し(S32)、検出部205が、当該音声信号から周波数帯域を検出し(S33)、制御部201が、音声認識を行うことによって得られた音声認識結果(コマンド)及び周波数帯域情報を、通信部220を介して画像形成装置1へ送信する(S34)。但し、音声認識が成功せず、コマンドが生成されない場合、制御部201は、音声認識結果として、音声認識に失敗した旨を示す情報を画像形成装置1へ送信する。
【0075】
一方、画像形成装置1の音声入力受付部102が、マイク90から入力された音声信号の入力を受け付け(S41)、通信部80が、携帯端末装置2Aによる音声認識結果及び周波数帯域情報を受信すると(S42)、音声認識部103が、当該周波数帯域情報が示す周波数帯域に絞って、音声入力受付部102で入力を受け付けた音声信号に基づく音声認識を行い、当該音声信号から変換された文字列に対応するコマンドを、予め記憶しているコマンドの中から特定し、当該コマンドを生成する(S43)。なお、これ以降については、図3に示した動作と同じであるため、説明を省略する。
【0076】
上記第3実施形態によれば、ユーザー音声の周波数帯域に絞って音声認識を行うことができるので、誤認識を防ぐことができる。
【0077】
また、上記第1乃至第3実施形態では、画像形成装置1が、画像形成装置1による音声認識結果と、携帯端末装置2による音声認識結果とを照合する場合について説明しているが、第4実施形態では、図10に示すように、携帯端末装置2が、上記照合を行うようにしてもよい。
【0078】
画像形成装置1の制御部100が、音声認識部103による音声認識結果を、通信部80を介して携帯端末装置2へ送信し(S51)、携帯端末装置2の制御部201は、通信部220を介して画像形成装置1による音声認識結果を受信すると(S61)、画像形成装置1による音声認識結果と、携帯端末装置2による音声認識結果とを照合し(S62)、照合することによって得られた照合結果を、通信部220を介して画像形成装置1へ送信する(S63)。
【0079】
なお、照合結果としては、例えば、画像形成装置1と携帯端末装置2との両方で音声認識が成功しているとの判断結果や、それぞれの音声認識結果が一致しているとの判断結果、一致した音声認識結果のコマンドが挙げられる。
【0080】
画像形成装置1の制御部100は、通信部80を介して携帯端末装置2による照合結果を受信すると(S52)、携帯端末装置2から送信されてきた照合結果に基づいて、画像形成装置1の動作を制御する(S53)。
【0081】
また、本発明は上記実施の形態の構成に限られず種々の変形が可能である。また、上記実施形態では、本発明に係る画像形成装置の一実施形態として複合機を用いて説明しているが、これは一例に過ぎず、例えば、コピー機能、ファクシミリ機能、スキャナー機能等を有した他の画像形成装置でもよい。
【0082】
また、上記実施形態では、図1乃至図10を用いて上記実施形態により示した構成及び処理は、本発明の一実施形態に過ぎず、本発明を当該構成及び処理に限定する趣旨ではない。
【符号の説明】
【0083】
1 画像形成装置
2 携帯端末装置
80 通信部
90 マイク
100 制御部
101 操作受付部
102 音声入力受付部
103 音声認識部
205 検出部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10