特許7193312 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ シャープ株式会社の特許一覧

特許7193312情報処理装置、制御方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-12-12

(45)【発行日】2022-12-20

(54)【発明の名称】情報処理装置、制御方法及びプログラム

(51)【国際特許分類】

G06F 3/0481 20220101AFI20221213BHJP

G10L 15/28 20130101ALI20221213BHJP

G06F 3/16 20060101ALI20221213BHJP

【ＦＩ】

G06F3/0481

G10L15/28 230Z

G06F3/16 630

G06F3/16 620

G06F3/16 610

【請求項の数】 12

(21)【出願番号】P 2018213191

(22)【出願日】2018-11-13

(65)【公開番号】P2020080062

(43)【公開日】2020-05-28

【審査請求日】2021-09-22

(73)【特許権者】

【識別番号】000005049

【氏名又は名称】シャープ株式会社

(74)【代理人】

【識別番号】100112335

【弁理士】

【氏名又は名称】藤本英介

(74)【代理人】

【識別番号】100101144

【弁理士】

【氏名又は名称】神田正義

(74)【代理人】

【識別番号】100101694

【弁理士】

【氏名又は名称】宮尾明茂

(74)【代理人】

【識別番号】100124774

【弁理士】

【氏名又は名称】馬場信幸

(72)【発明者】

【氏名】奥村允

【審査官】▲高▼瀬健太郎

(56)【参考文献】

【文献】特開２００５－２８４４９２（ＪＰ，Ａ）

【文献】国際公開第２０１５／０２９２９６（ＷＯ，Ａ１）

【文献】特開２００４－０３７９９８（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ３／０４８１

Ｇ１０Ｌ１５／２８

Ｇ０６Ｆ３／１６

(57)【特許請求の範囲】

【請求項1】

音声入力部と、音声出力部と、表示部と、制御部とを備えた情報処理装置において、
前記制御部は、
前記音声入力部を介して入力された音声による操作が可能な音声操作モードを実行し、
前記音声操作モードの実行が開始された場合であって、前記音声入力部を介して入力された音声に基づくジョブを実行するための情報が不足しているとき、前記音声出力部を介して音声の入力を促すための音声を出力し、
少なくとも前記音声出力部を介して音声を出力した後、前記ジョブの実行が完了するまで、前記表示部の視認性を低下させる制御を行う、
ことを特徴とする情報処理装置。

【請求項2】

前記制御部は、
前記入力された音声に所定のキーワードが含まれる場合、前記表示部の視認性を低下させる制御を行う、
ことを特徴とする請求項１に記載の情報処理装置。

【請求項3】

利用者の操作入力を受け付ける操作部を更に備え、
前記制御部は、
前記表示部の視認性を低下させた後、前記操作部により操作入力を受け付けた場合、前記表示部の視認性を戻す制御を行う、
ことを特徴とする請求項１又は２に記載の情報処理装置。

【請求項4】

前記制御部は、
前記音声入力部により、所定時間以上音声入力を検知しない場合、前記表示部の視認性を戻す制御を行う、
ことを特徴とする請求項１から３の何れか一項に記載の情報処理装置。

【請求項5】

発光部を更に備え、
前記制御部は、
前記表示部の視認性を低下させる制御を行う場合に、前記発光部を発光させる制御を行うことを特徴とする請求項１から４の何れか一項に記載の情報処理装置。

【請求項6】

前記発光部は、前記表示部近傍に設けられることを特徴とする請求項５に記載の情報処理装置。

【請求項7】

前記制御部は、前記表示部に利用者が操作する画面を表示させたまま、前記表示部の視認性を低下させることを特徴とする請求項１から６の何れか一項に記載の情報処理装置。

【請求項8】

会話サーバに接続可能な情報処理装置において、
前記情報処理装置は、音声入出力部と、表示部と、制御部とを備え、
前記制御部は、
前記音声入出力部により入力された音声に基づき、前記会話サーバとの間で会話が開始された場合であって、前記音声入出力部を介して入力された音声に基づくジョブを実行するための情報が不足しているとき、前記音声入出力部を介して音声の入力を促すための音声を出力し、
少なくとも前記音声入出力部を介して音声を出力した後、前記ジョブの実行が完了するまで、前記表示部の視認性を低下させる制御を行う、
ことを特徴とする情報処理装置。

【請求項9】

音声入力部と、音声出力部と、表示部と、制御部とを備えた情報処理装置における制御方法であって、
前記音声入力部を介して入力された音声による操作が可能な音声操作モードを実行するステップと、
前記音声操作モードの実行が開始された場合であって、前記音声入力部を介して入力された音声に基づくジョブを実行するための情報が不足しているとき、前記音声出力部を介して音声の入力を促すための音声を出力するステップと、
少なくとも前記音声出力部を介して音声を出力した後、前記ジョブの実行が完了するまで、前記表示部の視認性を低下させる制御を行うステップと、
を含むことを特徴とする制御方法。

【請求項10】

音声入出力部と、表示部と、制御部とを備え、会話サーバに接続可能な情報処理装置における制御方法であって、
前記音声入出力部により入力された音声に基づき、前記会話サーバとの間で会話が開始された場合であって、前記音声入出力部を介して入力された音声に基づくジョブを実行するための情報が不足しているとき、前記音声入出力部を介して音声の入力を促すための音声を出力するステップと、
少なくとも前記音声入出力部を介して音声を出力した後、前記ジョブの実行が完了するまで、前記表示部の視認性を低下させる制御を行うステップと、
を含むことを特徴とする制御方法。

【請求項11】

音声入力部と、音声出力部と、表示部と、制御部とを備えたコンピュータに、
前記音声入力部を介して入力された音声による操作が可能な音声操作モードを実現させ、
前記音声操作モードの実行が開始された場合であって、前記音声入力部を介して入力された音声に基づくジョブを実行するための情報が不足しているとき、前記音声出力部を介して音声の入力を促すための音声を出力する機能と、
少なくとも前記音声出力部を介して音声を出力した後、前記ジョブの実行が完了するまで、前記表示部の視認性を低下させる制御を行う機能と、
を実現させることを特徴とするプログラム。

【請求項12】

音声入出力部と、表示部と、制御部とを備え、会話サーバに接続可能なコンピュータに、
前記音声入出力部により入力された音声に基づき、前記会話サーバとの間で会話が開始された場合であって、前記音声入出力部を介して入力された音声に基づくジョブを実行するための情報が不足しているとき、前記音声入出力部を介して音声の入力を促すための音声を出力する機能と、
少なくとも前記音声入出力部を介して音声を出力した後、前記ジョブの実行が完了するまで、前記表示部の視認性を低下させる制御を行う機能と、
を実現させることを特徴とするプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置等に関する。

【背景技術】

【0002】

近年、音声認識技術の向上により、利用者による音声に基づいて、種々の処理を実行することができる装置が普及している。このような装置においては、利用者は、表示部を見ながら操作パネル等を介して行う操作に加え、音声による操作を行うことができる。利用者は、シンプルな指示を音声による操作により行い、詳細な指示が必要な場合は、操作パネルによる操作によって行うといった使い分けができる。

【0003】

また、表示部を有する装置において、操作の内容に応じて、表示部の証明を消灯する技術が提案されている。例えば、無線通信端末の稼動中に着信又は利用者による操作が検出されると、端末の表示部、操作部がともに照明される。その後、所定時間が経過した時点で動作中の通信モードが動画像通信か音声通話かが判定される。動画像通信である場合、操作部の照明は不要であるためその時点で消灯され、後に通信が完了した時点で表示部の照明も消灯される。一方、動作中の通信モードが音声通話である場合、表示部、操作部ともに照明は不要であるため、その時点で消灯されるといった制御を行う無線通信端末に関する技術が提案されている（例えば、特許文献１参照）。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２００２－９４６５６号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

音声による操作と、操作パネルによる操作とが存在する装置の利用者は、どちらの操作によって装置に対する指示が可能であるかを判別しづらいという問題がある。このような問題に対して、例えば、音声に基づく操作が可能である場合は、表示部を消灯させることで、音声に基づく操作を促すことが考えられる。しかし、特許文献１に記載の技術は、利用者の操作によって表示部や操作部を消灯させる技術であり、利用者に対して、どちらの操作が可能であるかを判別させることができない。

【0006】

上述した課題に鑑み、本発明は、音声による操作が実行された場合に、表示部の視認性を低下させる制御が可能な情報処理装置等を提供することを目的とする。

【課題を解決するための手段】

【0007】

上述した課題を解決するために、本発明の情報処理装置は、
音声入力部と、表示部と、制御部とを備えた情報処理装置において、
前記制御部は、
前記音声入力部を介して入力された音声による操作が可能な音声操作モードを実行し、
前記音声操作モードの実行が開始された場合、前記表示部の視認性を低下させる制御を行う、
ことを特徴とする。

【0008】

本発明の情報処理装置は、
会話サーバに接続可能な情報処理装置において、
前記情報処理装置は、音声入出力部と、表示部と、制御部とを備え、
前記制御部は、
前記音声入出力部により入力された音声に基づき、前記会話サーバとの間で会話が開始された場合は、前記表示部の視認性を低下させる制御を行う、
ことを特徴とする。

【0009】

本発明の制御方法は、
音声入力部と、表示部と、制御部とを備えた情報処理装置における制御方法であって、
前記音声入力部を介して入力された音声による操作が可能な音声操作モードを実行するステップと、
前記音声操作モードの実行が開始された場合、前記表示部の視認性を低下させる制御を行うステップと、
を含むことを特徴とする。

【0010】

本発明の制御方法は、
音声入出力部と、表示部と、制御部とを備え、会話サーバに接続可能な情報処理装置における制御方法であって、
前記音声入出力部により入力された音声に基づき、前記会話サーバとの間で会話が開始された場合は、前記表示部の視認性を低下させる制御を行うステップを含むことを特徴とする。

【0011】

本発明のプログラムは、
音声入力部と、表示部と、制御部とを備えたコンピュータに、
前記音声入力部を介して入力された音声による操作が可能な音声操作モードを実現させ、
前記音声操作モードの実行が開始された場合、前記表示部の視認性を低下させる制御を実現させることを特徴とする。

【0012】

本発明のプログラムは、
音声入出力部と、表示部と、制御部とを備え、会話サーバに接続可能なコンピュータに、前記音声入出力部により入力された音声に基づき、前記会話サーバとの間で会話が開始された場合は、前記表示部の視認性を低下させる制御を実現させることを特徴とする。

【発明の効果】

【0013】

本発明によれば、音声による操作が実行された場合に、表示部の視認性を低下させる制御を行う。したがって、情報処理装置の利用者は、表示部を見ながら操作を行うのではなく、音声に基づく操作を行うことを、明確に判別することができる。また、表示部の視認性が低下するため、利用者は、表示部の存在を気にとめることなく、音声による操作に集中することができる。

【図面の簡単な説明】

【0014】

【図1】第１実施形態における情報処理システムの全体構成を説明するための図である。

【図2】第１実施形態における画像形成装置の機能構成を説明するための図である。

【図3】第１実施形態におけるサーバ装置の機能構成を説明するための図である。

【図4】第１実施形態におけるシーケンス図である。

【図5】第１実施形態におけるシーケンス図である。

【図6】第１実施形態における音声操作モード移行処理の流れを示すフロー図である。

【図7】第１実施形態における画面操作モード移行処理の流れを示すフロー図である。

【図8】第１実施形態における動作例を示す図である。

【図9】第１実施形態における動作例を示す図である。

【図10】第２実施形態におけるシーケンス図である。

【図11】第３実施形態におけるシーケンス図である。

【図12】第３実施形態におけるシーケンス図である。

【図13】第３実施形態におけるシーケンス図である。

【図14】第４実施形態における画像形成装置の機能構成を説明するための図である。

【図15】第４実施形態における画像形成装置のメイン処理を説明するためのフロー図である。

【発明を実施するための形態】

【0015】

以下、本発明の実施の形態について、図面を参照して説明する。なお、本実施形態では、一例として、本発明の情報処理装置を備えた画像形成装置と、サーバ装置とを含む情報処理システムについて説明する。

【0016】

［１．第１実施形態］
［１．１全体構成］
まず、第１実施形態の全体構成について説明する。図１は、画像形成装置１０と、サーバ装置２０とによって構成される情報処理システム１を示した図である。画像形成装置１０と、サーバ装置２０とは、ネットワークＮＷを介して接続されている。ネットワークＮＷとしては、例えば、インターネット等の外部ネットワークが想定されるが、ＬＡＮ（Local Area Network）や、その他の公知の接続方法によるネットワークであってもよい。

【0017】

画像形成装置１０は、表示部と操作入力部とを備えている。画像形成装置１０の利用者は、表示部（画面）を確認しながら、操作入力部を介して、所望する処理に関する入力操作を行う。このように、利用者が画面を確認しながら操作を行うモードを、「画面操作モード」という。

【0018】

また、画像形成装置１０は、音声出力部と音声入力部とを備えている。画像形成装置１０の利用者は、音声出力部から出力された音声を聞いた上で、所望する処理に関する音声を、音声入力部を介して入力することで音声操作を行う。このように、利用者が音声によって操作を行うモードを「音声操作モード」という。

【0019】

画像形成装置１０は、利用者からの操作を受け付けるモード（動作モード）として、上述した画面操作モードと、音声操作モードとを切り替えることが可能である。そして、画像形成装置１０は、動作モードによって、利用者から受け付ける操作を変える。

【0020】

画像形成装置１０は、音声操作モードにより動作している場合において入力された音声を、音声データとしてサーバ装置２０に送信する。サーバ装置２０は、受信した音声データを解析し、画像形成装置１０が解釈可能なコマンドを生成する。コマンドは、例えば、音声データとして「スキャンをする」と受信した場合、「scan」のコマンドを生成する。なお、コマンドは特定の機能を示す文字列や数字などのコードであってもよいし、バイナリデータであってもよい。すなわち、コマンドは、画像形成装置１０に所定の処理の実行が指示可能な形式であれば、どのような形式であってもよい。

【0021】

また、画像形成装置１０は、サーバ装置２０が生成したコマンドによって、処理の実行が指示できない場合は、必要な情報に関する発言を利用者に促す音声を出力してもよい。例えば、原稿のスキャンデータを、画像形成装置１０に登録されている送信先であるＡＢＣに送信するジョブを実行する場合は、スキャンを実行することと、ＡＢＣという送信先との２つの情報が必要となる。ここで、サーバ装置２０は、画像形成装置１０から、「スキャンをする」という音声データを受信した場合、画像形成装置１０にスキャンを実行することを示すコマンドを生成する。画像形成装置１０は、スキャンを実行することを示すコマンドをサーバ装置２０から受信したら、音声出力部１６０から、送信先を問い合わせる音声（例えば、「どちらに送りますか？」）を出力する。

【0022】

ここで、サーバ装置２０は、画像形成装置１０から「ＡＢＣに送る」という音声データを受信した場合、画像形成装置１０に、ＡＢＣに送ることを示すコマンド（例えば、「send to "ABC"」）を生成する。画像形成装置１０は、ＡＢＣに送ることを示すコマンドを受信したら、既に受信したコマンドである「scan」と併せて、原稿のスキャンデータを、画像形成装置１０に登録されている送信先であるＡＢＣに送信するジョブを実行する。

【0023】

このようにして、画像形成装置１０は、所定の処理の実行が指示できるまで利用者に対して音声の入力を促し、サーバ装置２０は、コマンドの生成を繰り返すことで、実行するジョブを明確にすることができる。また、利用者としては、ジョブが実行されるまで、画像形成装置１０から出力される音声を聞きながら、必要な情報を音声によって、画像形成装置１０に入力することとなる。本実施形態では、サーバ装置２０を用いて、利用者と、画像形成装置１０との間において行われる音声によるやりとりを「対話」という。

【0024】

画像形成装置１０は、サーバ装置２０によって生成されたコマンドを取得することにより、利用者の音声に基づき、所定の処理を実行することが可能である。このように、画像形成装置１０は、サーバ装置２０と連携することにより、音声操作モードによる操作を実現する。

【0025】

［１．２機能構成］
［１．２．１画像形成装置］
画像形成装置１０の機能構成について、図２を参照して説明する。図２に示すように、画像形成装置１０は、制御部１００と、画像入力部１１０と、画像形成部１２０と、表示部１３０と、操作入力部１４０と、音声入力部１５０と、音声出力部１６０と、発光部１７０と、記憶部１８０と、通信部１９０とを備えて構成されている。

【0026】

制御部１００は、画像形成装置１０の全体を制御するための機能部である。制御部１００は、各種プログラムを読み出して実行することにより各種機能を実現しており、例えば、１又は複数の演算装置（ＣＰＵ（Central Processing Unit））等により構成されている。

【0027】

画像入力部１１０は、画像形成装置１０に入力される画像データを読み取るための機能部である。例えば、スキャナといった原稿読取装置接続され、原稿読取装置から出力される画像データを入力する。また、ＵＳＢ（Universal Serial Bus）メモリや、ＳＤカード等の記憶媒体から画像データを入力してもよい。

【0028】

画像形成部１２０は、画像データに基づく出力データを記録媒体（例えば、記録用紙）に形成するための機能部である。例えば、電子写真方式を利用したレーザプリンタ等により構成されている。

【0029】

表示部１３０は、利用者に各種情報を表示するための機能部である。例えば、ＬＣＤ（Liquid crystal display）等により構成されている。また、操作入力部１４０は、利用者が各種操作を行うための機能部である。例えば、表示部１３０の上に重ねて設けられるタッチパネルによって構成される。タッチパネルによるタッチの検出は、静電誘電方式であったり、感圧方式であったり、公知の技術によって実現する。なお、操作入力部１４０は、ハードキーによって実現してもよいし、タッチパネルとハードキーとを組み合わせてもよい。

【0030】

音声入力部１５０は、音声入力装置（例えば、マイク）から入力された音声を音声データに変換して制御部１００へ出力する機能部である。音声入力部１５０としては、画像形成装置１０に予め備えられたマイクであってもよいし、入力インターフェイスに接続された外部マイクであってもよい。

【0031】

音声出力部１６０は、音声データに基づく音声を出力する機能部である。音声出力部１６０としては、画像形成装置１０に予め備えられたスピーカーであってもよいし、外部装置に音声を出力させるための音声出力端子であってもよい。

【0032】

発光部１７０は、光源を制御して、光源の発光を行ったり、光源の発光を止めたりする機能部である。発光部１７０を構成する光源としては、例えば、蛍光管、ＬＥＤ（Light Emitting Diode）、ＳＬＤ（Super Luminescent Diode）等種々考えられるが、本実施形態ではＬＥＤを利用する。なお、発光部１７０は、表示部１３０とは異なる第２の表示部として、ＬＣＤによって構成されてもよい。発光部１７０によって制御される光源は、表示部１３０近傍に設けられてもよい。このようにすることで、画像形成装置１０の利用者は、表示部１３０と、発光部１７０によって制御される光源とを同時に視認することが可能となる。また、光源の近傍に音声入力部１５０を備えてもよい。このようにすることで、光源に向けて発せられた利用者の音声を、入力しやすくできる。

【0033】

なお、発光部１７０は光源と一体に構成されていてもよい。本実施形態では、発光部１７０は、光源を含むものとして説明する。したがって、利用者に発光部１７０を視認させるといった場合は、発光部１７０によって発光又は消灯された光源を視認させることを示す。

【0034】

記憶部１８０は、画像形成装置１０の動作に必要な各種プログラムや、各種データを記憶する機能部である。記憶部１８０は、例えば、半導体メモリであるＳＳＤ（Solid State Drive）や、ＨＤＤ（Hard Disk Drive）等により構成される。

【0035】

記憶部１８０には、音声入力部１５０から入力された音声を、音声データとして記憶する領域である音声データ記憶領域１８２が確保されている。

【0036】

通信部１９０は、画像形成装置１０が外部機器と通信を行うための機能部である。例えば、無線ＬＡＮで利用されるＮＩＣ（Network Interface Card）や、ＬＴＥ（Long Term Evolution）／ＬＴＥ－Ａ（LTE-Advanced）／ＬＡＡ（License-Assisted Access using LTE）／５Ｇ回線に接続可能な通信モジュールにより構成される。

【0037】

［１．２．２サーバ装置］
サーバ装置２０の機能構成について、図３を参照して説明する。図３に示すように、サーバ装置２０は、制御部２００と、通信部２１０と、記憶部２２０とを備えて構成されている。

【0038】

制御部２００は、サーバ装置２０の全体を制御するための機能部である。制御部２００は、各種プログラムを読み出して実行することにより各種機能を実現しており、例えば、１又は複数の演算装置（ＣＰＵ）等により構成されている。

【0039】

また、制御部２００は、記憶部２２０に記憶されたプログラムを読み出して実行することにより、音声解析部２０２及びコマンド生成部２０４として機能する。音声解析部２０２及びコマンド生成部２０４については後述する。

【0040】

通信部２１０は、サーバ装置２０が外部機器と通信を行うための機能部である。例えば、無線ＬＡＮで利用されるＮＩＣや、ＬＴＥ／ＬＴＥ－Ａ／ＬＡＡ／５Ｇ回線に接続可能な通信モジュールにより構成される。

【0041】

記憶部２２０は、サーバ装置２０の動作に必要な各種プログラムや、各種データを記憶する機能部である。記憶部２２０は、例えば、半導体メモリであるＳＳＤや、ＨＤＤ等により構成される。

【0042】

記憶部２２０には、通信部２１０を介して受信した音声データを記憶する領域である音声データ記憶領域２２２と、コマンド生成部２０４によって生成されたコマンドを記憶する領域である生成コマンド記憶領域２２４とが確保されている。生成コマンド記憶領域２２４は、例えば、コマンド生成部２０４によって生成された順に、生成されたコマンドを記憶するリストである。なお、生成コマンド記憶領域２２４は、コマンド生成部２０４によって生成されたコマンドをリスト形式で記憶したファイルを記憶して実現してもよいし、データベースによって実現してもよい。また、最後に生成コマンド記憶領域２２４が生成したコマンドのみを記憶してもよい。

【0043】

また、サーバ装置２０が、複数の画像形成装置１０から音声データを受信する場合は、コマンドと併せて、音声データを送信したサーバ装置２０を特定するための情報（例えば、ＩＰアドレスやシリアル番号等）を記憶してもよい。このようにすることで、コマンド生成部２０４によって生成されたコマンドを、画像形成装置１０毎に記憶することが可能となる。

【0044】

音声解析部２０２は、音声データ記憶領域２２２に記憶された音声データを読み出し、音声データを解析（認識）することで、音声データの解析結果を示す音声解析データを生成する機能部である。音声解析データは、例えば、音声データに基づく文字列、すなわち、利用者の発話内容を示した文字列である。なお、音声解析データには、発話内容以外にも、発話時間や、息継ぎ等の無音状態が発生したタイミング、音量等の情報を含めてもよい。また、音声データを解析する方法としては、周知の音声認識技術を用いればよい。

【0045】

コマンド生成部２０４は、音声解析部２０２によって生成された音声解析データに基づき、画像形成装置１０にするコマンドを生成する機能部である。また、コマンド生成部２０４は、生成したコマンドを、生成コマンド記憶領域２２４に記憶する。

【0046】

コマンド生成部２０４がコマンドを生成する方法としては、例えば、利用者の発話内容に含まれるキーワードに基づいて生成する。具体的には、コマンド生成部２０４は、音声解析部２０２によって生成された音声解析データに含まれる発話内容から、画像形成装置１０が実行可能なジョブを示すキーワード（例えば、「スキャン」「コピー」等）が含まれているか否かを判定する。キーワードが含まれていた場合は、キーワードを抽出し、キーワードに対応するコマンドを生成する。キーワードや、キーワードに対応するコマンドについては、予め記憶部２２０に記憶されていてもよいし、サーバ装置２０の管理者等によって設定されてもよい。

【0047】

別の方法としては、コマンド生成部２０４は、予め発話内容のパターンを記憶して、パターンと発話内容とから、発話内容に含まれる情報を抽出して、対応するコマンドを生成してもよい。例えば、コマンド生成部２０４は、発話内容から画像形成装置１０が実行すべきジョブを抽出するためのパターンとして「＜ジョブ内容＞をして」というパターンを記憶する。発話内容が「スキャンをして」であれば、ジョブを抽出するためのパターンと比較することで、パターンの＜ジョブ内容＞には、発話内容のうち「スキャン」が対応することを判定することができる。したがって、コマンド生成部２０４は、「スキャンをして」という発話内容から、画像形成装置１０が実行すべきジョブとして、「スキャン」を抽出することが可能である。そして、コマンド生成部２０４は、スキャンを実行するためのコマンドを生成する。

【0048】

また、コマンドには、ジョブの設定に関する情報が含まれていてもよい。ジョブの設定に関する情報としては、原稿のカラーモード（グレースケール読み込みか、カラー読み込み）、原稿の解像度、出力（印刷）部数、スキャンデータの送信先といった情報が含まれてもよい。

【0049】

更に、コマンドには、ジョブ以外の情報が含まれていてもよい。ジョブ以外の情報としては、音声操作モードを終了するためのコマンドや、音声データの解析に失敗したことを示すコマンドや、コマンドの生成に失敗したことを示すコマンドが含まれる。画像形成装置１０は、音声操作モードを終了するためのコマンドを受信した場合は、音声操作モードを終了する。また、画像形成装置１０は、音声データの解析に失敗したことを示すコマンドや、コマンドの生成に失敗したことを示すコマンドを受信した場合は、例えば、音声出力部１６０から「もう一度お願いします」といった音声を出力する。このようにすることで、利用者に対して、再度の発言を促すことができる。

【0050】

［１．３処理の流れ］
つづいて、本実施形態の処理の流れについて説明する。図４及び図５は、画像形成装置１０とサーバ装置２０とによって実行される処理と、画像形成装置１０とサーバ装置２０との間で送受信されるデータを示したシーケンス図である。

【0051】

はじめに、図４を参照して、画像形成装置１０の制御部１００は、音声入力部１５０を介して入力された音声に基づく音声データを、音声データ記憶領域１８２に記憶する（Ｓ１０２）。そして、制御部１００は、音声データ記憶領域１８２に記憶された音声データを、通信部１９０を介して、サーバ装置２０に送信する（Ｓ１０４）。制御部１００は、サーバ装置２０によって生成されたコマンドを取得するために、定期的にサーバ装置２０に接続して、コマンドの送信を要求するためのポーリングを行う（Ｓ１０６）。

【0052】

つづいて、サーバ装置２０の制御部２００は、画像形成装置１０から音声データを受信したら、受信した音声データを音声データ記憶領域２２２に記憶する。そして、制御部２００は、対話セッションが開始していないか否かを判定し、対話セッションが開始していない場合は、対話セッションを開始する（Ｓ１０８；Ｙｅｓ→Ｓ１１０）。

【0053】

対話セッションとは、サーバ装置２０が、対話を管理する単位である。対話セッションにおいて、制御部２００は、ジョブに関する情報（例えば、ジョブの種類やジョブの設定に関する情報）の抽出を行い、コマンドの生成を行う。対話セッションにおいてサーバ装置２０が実行する処理については、具体的には、サーバ装置２０に記憶された対話を管理するためのアプリケーションによって実現される。

【0054】

つづいて、制御部２００の音声解析部２０２は、画像形成装置１０から受信した音声データを解析し、音声解析データを生成することにより、音声データを解析する（Ｓ１１２）。そして、制御部２００のコマンド生成部２０４は、音声解析データに基づきコマンドを生成する（Ｓ１１４）。また、コマンド生成部２０４は、生成したコマンドを、生成コマンド記憶領域２２４に記憶する。

【0055】

制御部１００は、コマンドのポーリングにより、サーバ装置２０によって生成されたコマンドの送信を要求し、サーバ装置２０からコマンドを取得（受信）する（Ｓ１１６）。なお、サーバ装置２０の制御部２００は、画像形成装置１０からのコマンドの送信の要求を受信した場合は、生成コマンド記憶領域２２４に記憶されているコマンドを送信すればよい。

【0056】

制御部１００は、サーバ装置２０からコマンドを受信した場合は、現在の動作モードが画面操作モードであるか否かを判定する（Ｓ１１８）。現在の動作モードが画面操作モードである場合は、制御部１００は、音声操作モードに切り替えるため、音声操作モード移行処理を実行する（Ｓ１１８；Ｙｅｓ→Ｓ１２０）。

【0057】

音声操作モード移行処理について、図６を参照して説明する。まず、制御部１００は、画像形成装置１０の動作モードを、音声操作モードに変更する（切り替える）ことにより、音声操作モードを開始する（Ｓ１５２）。そして、制御部１００は、表示部１３０の視認性を低下させる処理を実行する（Ｓ１５４）。

【0058】

表示部１３０の視認性を低下させる処理として、例えば、以下の処理を行う。
（１）表示部１３０のバックライトを暗くする
表示部１３０が、ＬＣＤのようにバックライトを必要とする表示装置である場合は、バックライトを暗くしたり、バックライトを消灯したりする。

【0059】

（２）表示部１３０の表示部の輝度を上げる
表示部１３０の輝度を上げることにより、表示部１３０の画面全体を白くすることで、いわゆるホワイトアウトの状態にする。表示部１３０に表示された内容を、背景色と紛れさせることで、表示部１３０の表示内容を利用者にとって見づらくする。

【0060】

（３）表示部１３０のコントラストを低下・変更する
表示部１３０のコントラストの設定を低下したり、変更したりすることで、表示部１３０に表示されている内容を、利用者にとって見づらくする。例えば、表示部１３０のコントラストが、コントラストレベルといった数値によって指定することが可能であれば、制御部１００は、コントラストレベルとして、指定可能な最低の数値を指定する。なお、制御部１００は、コントラストレベルとして所定の値を指定してもよいし、音声操作モード用のコントラストレベルを指定してもよい。

【0061】

また、視認性を低下させるのではなく、画面操作モードでないことを示すような画面を表示部１３０に表示することで、音声操作モードに切り替わっていることを利用者に視認させてもよい。
（４）表示部１３０に別画面を表示する
表示部１３０の表示内容を別画面にする。例えば、タッチ操作が可能なボタンを表示せず、その代わりにジョブの設定に関する情報や、所定のメッセージ（例えば、「画面操作モードに切り替える場合は、画面をタッチして下さい。」）、画像形成装置１０のステータス等を含んだ画面を表示する。このようにすることで、利用者に対して、表示部１３０をタッチしても所定の操作が実行できないことを視認させることができる。

【0062】

（５）表示部１３０の表示内容に別の画像を重畳する
表示部１３０の表示内容に、網掛けの画像を重畳させたり、表示画面全体に透明度の低い色を重畳させたり、ジョブの設定に関する情報を重畳させたりすることで、表示部１３０の表示内容を利用者にとって見づらくする。例えば、表示部１３０にはタッチ操作が可能なボタンが表示されていた場合において、別の画像が重畳して表示することで、利用者に、別の画像が重畳して表示されているときは、ボタンがタッチ操作できないことを視認させる。

【0063】

なお、上述した方法以外であっても、表示部１３０に表示されている内容を利用者にとって見づらくすることで、表示部１３０の視認性を下げられれば、どのような方法によって実現されてもよい。また、制御部１００は、音声入力部１５０に入力された音声（利用者からの指示）に基づいて、表示部１３０の視認性を低下させてもよい。

【0064】

つづいて、制御部１００は、発光部１７０を介して、光源の点灯（発光）を実行する（Ｓ１５６）。発光部１７０の光源がＬＥＤであれば、制御部１００は、発光部１７０を制御して、光源の点灯を行う。このとき、発光部１７０は、光源の点灯の制御として、音声入力部１５０に入力された音声や操作に基づいて明減させてもよいし、音声出力部１６０が出力する音声に基づいて明減させてもよい。そして、音声操作モード移行処理を終了する。

【0065】

図４に戻り、つづいて、制御部１００は、サーバ装置２０から取得したコマンドに基づき、実行するジョブを特定する（Ｓ１２２）。そして、コマンドに基づき特定されたジョブが実行可能であれば、ジョブを実行する（Ｓ１２４；Ｙｅｓ→Ｓ１２８）。

【0066】

ジョブが実行可能でない場合は、利用者に対して、再度音声の入力を促すための音声を出力し（Ｓ１２４；Ｎｏ→Ｓ１２６）、ステップＳ１０２へ戻る。

【0067】

ジョブが実行可能でない場合とは、例えば、以下の場合である。
（１）ジョブを実行するために必要な情報が足りていない場合
必要な情報が足りていないために、ジョブが実行できない場合である。この場合は、制御部１００は、利用者に対して、更に必要な情報を音声により入力されるような音声を出力する。例えば、スキャンを実行する場合に、スキャンデータの宛先の情報が足りていない場合は、制御部１００は、ステップＳ１２６において、「どちらに送りますか？」といった音声を出力する。

【0068】

（２）応答が適切でない場合
制御部１００が、足りていない情報を補うための音声を出力したのにも関わらず、対話が適切でなかったために、情報が足りていない状態が続く場合である。この状態は、制御部１００が、サーバ装置２０から取得されたコマンドが、それよりも前に取得したコマンドと一致すると判定することにより、検出することが可能である。コマンドが一致する場合は、新たな情報が付加されていないことを示し、依然として、ジョブを実行するために必要な情報が足りていない。この場合は、制御部１００は、ステップＳ１２６において、「もう一度言っていただけますか？」といった音声を出力し、利用者に対して、再度の応答を促す。

【0069】

（３）音声が認識できなかった場合
サーバ装置２０から、音声が認識できなかったことを示すコマンド取得した場合である。このような場合も、ジョブを実行するために必要な情報が足りておらず、画像形成装置１０は、ジョブを実行することができない。この場合は、制御部１００は、ステップＳ１２６において、「もう一度言っていただけますか？」といった音声を出力する。

【0070】

図５を参照して、制御部１００が、コマンドに基づくジョブを実行した場合は、つづいて、制御部１００はコマンドのポーリングを実行する（Ｓ１３２）。そして、制御部１００は、サーバ装置２０に対して、通信部１９０を介して、音声操作モードを終了することを示す音声操作終了通知を送信する（Ｓ１３４）。音声操作終了通知とは、画像形成装置１０と、サーバ装置２０との間の対話を終了し、画像形成装置１０における音声操作モードを終了することをサーバ装置２０へ知らせるために、画像形成装置１０がサーバ装置２０に対して送信する通知である。音声操作終了通知には、音声操作モードを終了することを示す特定のデータや、特定のコマンドを含めてもよい。

【0071】

制御部２００は、画像形成装置１０から音声操作終了通知を受信した場合、対話セッションを終了する（Ｓ１３６）。例えば、制御部２００は、対話セッションにおいて記憶した音声データや、音声データから抽出した情報を削除したり、生成コマンド記憶領域２２４に記憶されたコマンドを削除したりする。そして、制御部２００は、対話を終了するコマンドを生成する（Ｓ１３８）。

【0072】

制御部１００は、コマンドのポーリングにより、サーバ装置２０によって生成された対話を終了するコマンドを取得する（Ｓ１４０）。そして、制御部１００は、画面操作モード移行処理を実行する（Ｓ１４２）。

【0073】

画面操作モード移行処理について、図７を参照して説明する。まず、制御部１００は、画像形成装置１０の動作モードを、画面操作モードに変更する（切り替える）ことにより、画面操作モードを開始する（Ｓ１７２）。そして、制御部１００は、ステップＳ１５４において実行した処理に対応して、表示部１３０の視認性を回復させる（視認性を戻す）処理を実行する（Ｓ１７４）。例えば、コントラストを低下させていた場合は、コントラストを増加させる。その他にも、バックライトを暗くしていた場合はバックライトを明るくしたり、輝度を上げていた場合は輝度を元に戻したり、画像を重畳させていた場合は重畳していた画像を削除するといった処理を実行する。また、制御部１００は、発光部１７０を介して、光源を消灯する（Ｓ１７６）。

【0074】

つづいて、制御部１００は、表示部１３０に表示する画面を、初期画面に戻したりすることにより、利用者による操作入力部１４０による操作が可能なように、画像形成装置１０を待機状態にする（Ｓ１７８）。そして、音声操作モード移行処理を終了する。

【0075】

［１．４動作例］
図８及び図９を参照して、本実施形態の動作例について説明する。図８（ａ）は、画像形成装置１０の動作モードが画面操作モードであるときに、利用者によって、画像形成装置１０に対して音声が入力された場合を示した図である。音声が入力された時点では、表示部１３０には、画像形成装置１０に関する情報や、ＵＩ画面が表示されている。また、発光部１７０は、光源を消灯させている。操作入力部１４０が表示部１３０の上に重ねて設けられるタッチパネルであれば、利用者は、タッチパネルである操作入力部１４０をタッチすることで、表示部１３０に表示されたボタンに対する操作をすることができる。

【0076】

図８（ｂ）は、音声が入力されることにより、画像形成装置１０の動作モードを音声操作モードに切り替えた場合を示した図である。この場合は、表示部１３０の視認性は低下されており、また、発光部１７０の制御により光源が点灯されている。このようにすることで、サーバ装置２０は、利用者に対して、画像形成装置１０の操作を、表示部１３０や操作入力部１４０によって行うのではなく、音声を介して行うことを明確に示す。そして、画像形成装置１０は、必要な情報を得るために、「どこに送りますか？」といった音声を出力することで、利用者に音声の入力を促す。

【0077】

図８（ｃ）は、ジョブの実行が完了し、画像形成装置１０の動作モードを画面操作モードに切り替えた場合を示した図である。画像形成装置１０は、表示部１３０の視認性を回復させる。また、発光部１７０の制御により、光源は消灯される。

【0078】

また、図９は、視認性を低下させる処理において、表示部１３０に表示される画面の別の例である。図９（ａ）は、表示部１３０の輝度を上げた場合の画面の例である。表示部１３０の画面全体が明るくなり、視認性が低下する。図９（ｂ）は、表示部１３０のコントラストを変更した場合の画面の例である。例えばコントラストを低くすることにより、背景とボタン等との色が似た色となり、視認性が低下する。図９（ｃ）は、表示部１３０に別画面を表示した場合の画面の例である。図９（ｃ）に示すように、そもそも利用者が選択できるボタンが存在しない画面を表示することで、利用者は音声による応答を行うこととなる。例えば、画像形成装置１０が「どこに送りますか」と音声出力した場合、利用者は送信先を表示部１３０を操作することで指定することができないため、音声による応答をすることとなる。なお、図９（ｃ）には、表示部１３０には、ジョブの設定（例えば、「Ｃｏｌｏｒ：Ｏｎ」）が表示されている。また、斜線部で示した箇所には、画面の下部には、画像形成装置１０のステータスや、音声入力を促す表示（例えば、「音声でしゃべりかけてください」）を表示してもよい。

【0079】

このように、本実施形態によれば、画像形成装置１０は、音声操作モードが実行される場合は、表示部１３０の視認性を低下させることで、画像形成装置１０の利用者に対する表示部１３０の存在感を下げることが可能となる。また、発光部１７０を点灯させることにより、画像形成装置１０の利用者の関心を、発光部１７０に惹き付けることができる。その結果、利用者は、音声を入力して操作するのか、表示部を介して操作するのかといったことを、判別しやすくなる。

【0080】

また、画像形成装置１０のように、装置がある程度の大きさである場合、利用者はどこに向かって話しかければよいか分からない場合がある。さらに、表示部に表示される情報の多さや、表示部の大きさ、表示部への操作の慣れにより、表示部の存在に気を取られてしまい、音声による応答に集中できないことがある。この結果、利用者は、操作のフィードバックを表示部に対して期待をしてしまったり、表示部に対して話しかけてしまったり、表示部の表示画面に集中してしまい、発光部の光応答や、音声出力部による音声応答を逃してしまうことがある。

【0081】

このような場合であっても、表示部１３０の視認性を低下させ、発光部１７０によって光源を発光させることで、画像形成装置１０の利用者の関心を、音声操作に誘導・集中させることが可能となる。この結果、利用者には、自然に音声による操作が可能であることを判別しやすくさせることが可能となる。また、利用者は、自然と画像形成装置１０と会話しているような感覚となる。更に、発光部の制御により発光を行うことで、利用者によって、画像形成装置１０に話しかける場所が意識され、音声データの認識率の向上を実現できる。

【0082】

なお、上述した説明以外であっても、矛盾のない範囲において、処理の順番を変更したり、一部のステップを省略・変更したりしても構わない。例えば、画像形成装置１０と、サーバ装置２０との対話を終了する場合として、サーバ装置２０が、画像形成装置１０から、音声操作終了通知を受信した場合であるとして説明したが、このような方法でなくてもよい。例えば、サーバ装置２０は、画像形成装置１０が所定のジョブを実行するために必要なコマンドを記憶し、コマンドを生成した時点で、生成コマンド記憶領域に、画像形成装置１０が所定のジョブを実行するために必要なコマンドを生成したか否かを判定する。画像形成装置１０が所定のジョブを実行するために必要なコマンドを生成した場合は、更に対話を終了するコマンドを生成してもよい。このようにすることで、画像形成装置１０は、サーバ装置２０に、音声操作終了通知を送信しなくても、音声操作モードを終了させることが可能となる。

【0083】

なお、本実施形態は、画像形成装置１０に適用した場合について説明したが、表示部を備え、音声による操作が可能な装置であれば、本発明を適用することが可能である。例えば、カーナビゲーション、レジ端末等の操作装置、工場等における工作装置に対して、本発明を適用することができる。

【0084】

［２．第２実施形態］
つづいて第２実施形態について説明する。第２実施形態は第１実施形態と異なり、音声操作モードに移行するためのキーワードが音声入力された場合に、画像形成装置１０の動作モードを音声操作モードに切り替える実施形態である。

【0085】

本実施形態は、第１実施形態の図４を図１０に置き換えたものである。なお、同一の機能部及び処理には同一の符号を付し、説明については省略する。

【0086】

本実施形態の処理の流れを、図１０を参照して説明する。はじめに、画像形成装置１０の制御部１００は、音声入力部１５０を介して入力された音声に、所定のキーワードが含まれているか否かを検出する（Ｓ２０２）。キーワードとは、例えば、画像形成装置１０に対する呼びかけの言葉（例えば、「ねえ」「ヘイ」「ＯＫ」）や、画像形成装置１０の名称や、それらの組み合わせである。なお、キーワードは予め設定されていてもよいし、利用者によって設定されてもよい。

【0087】

音声にキーワードが含まれているか否かは、制御部１００が簡易的な音声認識を実行することにより判定する。音声にキーワードが含まれている場合は、制御部１００は、音声操作モード移行処理を実行する（Ｓ２０４）。

【0088】

それ以降の処理は、第１実施形態と同様である。しかし、音声操作モードに移行したことを前提として処理を実行することが可能であるため、制御部１００は、サーバ装置２０からコマンドを受信した際に、現在の動作モードを判定する必要がない。

【0089】

本実施形態によれば、利用者によって、所定のキーワードが発音された場合に音声操作モードに移行する。したがって、利用者が音声操作モードによる操作を所望しない場合には、利用者はキーワードを発音しなければよいため、利用者は、操作方法を選択することが可能となる。

【0090】

また、画像形成装置１０は、操作に関係のない音声や雑音等の音声データをサーバ装置２０に送信したり、不要なコマンドのポーリングを行ったりすることを防ぐことができる。この結果、画像形成装置１０は、操作に関係のない音声や雑音等により、利用者が所望していないジョブを実行してしまうことを回避できる。

【0091】

なお、音声操作モードに移行する操作としては、上述した音声の入力操作以外であってもよい。例えば、タッチパネルに対する、所定のジェスチャ操作が検出された場合であってもよいし、音声操作モードに移行するためのボタンや、ハードキーが選択される操作であってもよい。

【0092】

［３．第３実施形態］
第３実施形態は、ジョブが完了したときでない場合であっても、画像形成装置１０の動作モードを音声操作モードから、画面操作モードに切り替える実施形態である。

【0093】

本実施形態の処理の流れを、図を参照して説明する。本実施形態では、音声操作モードから、画面操作モードに切り替える場合として、（１）音声操作モードを終了する操作がされた場合、（２）所定時間操作がされなかった場合、（３）対話終了条件を満たす場合について説明する。

【0094】

［３．１音声操作モードを終了する操作がされた場合］
図１１は、音声操作モードを終了する操作が検出された場合に、音声操作モードを終了する処理の流れを示したシーケンス図である。

【0095】

まず、制御部１００は、音声操作モードを終了するための操作を検出する（Ｓ３０２）。音声操作モードを終了するための操作とは、音声操作に関係しない操作である。例えば、利用者によって表示部１３０がタッチされる操作であったり、ハードキーが押される操作だったり、画像形成装置１０のドアの開け閉めがされるといった操作である。

【0096】

このような操作により、終了イベントが生成され、制御部１００に出力される。終了イベントとは、音声操作モードを終了することを示す信号やデータである。例えば、タッチされる操作がされることにより、表示部１３０から制御部１００に、タッチされたという信号が出力される。また、ドアの開け閉めの操作は、画像形成装置１０に備えられたセンサなどにより検出され、ドアが開け示されたことを示す信号が、センサから制御部１００に出力される。

【0097】

制御部１００が、終了イベントを検出した場合は（Ｓ３０４）、音声出力部１６０から、音声操作モードを終了する音声（例えば、「音声操作を終了します」）を出力する（Ｓ３０６）。そして、制御部１００は、通信部１９０を介して、サーバ装置２０に対して、音声操作終了通知を送信し、コマンドのポーリングを行う（Ｓ３０８→Ｓ３１０）。

【0098】

制御部２００は、音声操作終了通知を受信したら、対話セッションを終了し、対話を終了するコマンドを生成する（Ｓ３１２→Ｓ３１４）。

【0099】

制御部１００は、コマンドのポーリングにより、対話を終了するコマンドを受信したら、画面操作モード移行処理を実行する（Ｓ３１６→Ｓ３１８）。なお、本実施形態では、Ｓ３０４からＳ３１８まで（図１１において、点線の矩形内に含まれる処理）を、音声操作モード終了処理という。

【0100】

このようにすることで、画像形成装置１０の利用者は、意図的に音声操作モードを終了させることが可能となる。

【0101】

［３．２所定時間操作がされなかった場合］
本実施形態の別の処理の流れを、図１２を参照して説明する。図１２は、所定時間、利用者による操作がされなかった場合に、音声操作モードを終了する処理の流れを示したシーケンス図である。

【0102】

制御部１００は、利用者によって、音声が入力されたり、表示部１３０に対してタッチされたり、ハードキーを選択されたりする操作が、一定時間されていないと判定した場合は、終了イベントを生成する（Ｓ３４２→Ｓ３４４）。音声入力がされていないことは、所定の音量を超える音声が、音声入力部１５０から入力されていないことにより判定すればよい。また、利用者による操作がされていないと判定する時間については、予め定められていてもよいし、利用者によって設定可能であってもよい。

【0103】

つづいて、画像形成装置１０と、サーバ装置２０とにより、音声操作モード終了処理を実行する（Ｓ３４６）。なお、Ｓ３４４で生成された終了イベントは、音声操作モード終了処理に含まれるステップＳ３０４によって検出される。このようにして、一定時間、利用者による音声入力がされていない場合に、音声操作モードを終了することができる。

【0104】

このようにすることで、ある利用者が、画像形成装置１０の動作モードを音声操作モードにしたまま画像形成装置１０から離れてしまっても、画像形成装置１０は、所定の時間経過後に音声操作終了通知をサーバ装置２０に送信することができる。したがって、所定の時間経過後に、別の利用者が画像形成装置１０を操作する場合であっても、画像形成装置１０の操作モードを画面操作モードとすることができる。また、サーバ装置２０は、画像形成装置１０から送信される音声操作終了通知により、対話セッションを終了させ、前の利用者の情報を消去する。そのため、別の利用者は、前の利用者が入力した内容に関係なく、新たなジョブを実行することができる。

【0105】

［３．３対話終了条件を満たす場合］
本実施形態の別の処理の流れを、図１３を参照して説明する。図１３は、画像形成装置１０から送信される音声データに基づき、サーバ装置２０が画像形成装置１０に対して、音声操作モードを終了するコマンドを送信する処理の流れを示したシーケンス図である。なお、図１３に示したシーケンス図は、画像形成装置１０の動作モードが音声操作モードであることを前提とした処理の流れを示した図である。

【0106】

まず、画像形成装置１０によって、音声データの記憶、音声データの送信、コマンドのポーリングが行われる（Ｓ３６２→Ｓ３６４→Ｓ３６６）。つづいて、制御部２００は、画像形成装置１０から受信した音声データの解析をしたら（Ｓ３６８）、音声データの解析結果として、対話終了条件を満たす解析結果を検出したか否かを判定する（Ｓ３７０）。

【0107】

対話終了条件とは、サーバ装置２０と、画像形成装置１０との対話を終了する条件である。サーバ装置２０は、音声データの解析結果に基づき、対話終了条件を満たすか否かを判定する。

【0108】

対話終了条件として、例えば、以下に示す条件が考えられる。
（１）音声操作を所望しないことを示すキーワードを検出した場合
サーバ装置２０は、「分からない」「やめたい」といった利用者のフラストレーションに関わる表現や、「音声操作を終了したい」といった音声操作を終了する意思を示す表現をキーワードとして記憶部２２０に記憶する。そして、それらのキーワードが、画像形成装置１０から受信した音声データに含まれる場合には、対話終了条件を満たすと判定する。

【0109】

（２）音声操作を間違えていることを検出した場合
例えば、音声データを解析した結果として、同じ内容（例えば、設定の変更を所望することを示す内容）を示す音声が所定の閾値以上（例えば、１０回以上）入力されている場合は、対話が適切に行われていない可能性がある。これは、画像形成装置１０によって出力される音声による問いかけに対して、利用者によって適切な応答がされていない可能性が考えられる。また、制御部２００が、音声データに基づくコマンドを特定できない場合も、対話が適切に行われていない可能性が考えられる。このような場合は、利用者が音声操作を間違えていることが考えられる。したがって、制御部２００は、画面操作モードによる操作が適切であるとして、対話終了条件を満たすと判定する。なお、閾値は、サーバ装置２０に予め記憶されていてもよいし、画像形成装置１０に設定されてもよい。画像形成装置１０に閾値が設定されている場合は、画像形成装置１０は、音声データをサーバ装置２０に送信する場合に、閾値も併せて送信すればよい。

【0110】

（３）音声データの解析ができない場合
音声解析部２０２から出力される音声解析データとして、音声データの誤検知などにより、音声データが解析不能であった旨を示す情報を含んだ音声解析データを、所定の閾値の回数以上出力された場合である。このような場合は、画像形成装置１０において、音声操作モードに関する機能に異常が発生している可能性が考えられる。したがって、制御部２００は、画面操作モードによる操作が適切であるとして、対話終了条件を満たすと判定する。なお、閾値は、サーバ装置２０に予め記憶されていてもよいし、画像形成装置１０に設定されてもよい。

【0111】

なお、上述した対話終了条件を組み合わせて、複数の条件について判定してもよい。また、（２）の閾値と、（３）の閾値とは、異なる値であってもよい。なお、上述した例以外にも、異なる対話終了条件を設けてもよいことは勿論である。

【0112】

対話終了条件を満たす場合は、制御部２００は、通信部２１０を介して、画像形成装置１０に対話の終了を問い合わせるコマンドを生成する（Ｓ３７２）。

【0113】

制御部１００は、コマンドのポーリングにより、対話の終了を問い合わせるコマンドを受信したら、音声出力部１６０を介して、音声操作モードを終了するか否かを問い合わせる音声を出力する（例えば、「音声操作を終了しますか？」）（Ｓ３７８）。そして、利用者から音声が入力されるまで待機を行う。

【0114】

利用者から音声入力部１５０を介して音声が入力された場合は、入力された音声を音声データとして記憶し、記憶した音声データをサーバ装置２０へ送信する（Ｓ３７８；Ｙｅｓ→Ｓ３８０→Ｓ３８２）。なお、ここで入力される音声は、音声操作を終了する問い合わせに対する応答であるため、「はい」又は「いいえ」といった、肯定的又は否定的な表現の何れかである。したがって、肯定的又は否定的な表現以外の表現を示す音声が入力された場合は、制御部１００は、再度音声操作モードを終了するか否かを問い合わせる音声を出力してもよい。このようにすることで、画像形成装置１０は、利用者に対して、音声操作モードを終了させることについての合意を得ることが可能となる。そして、制御部１００は、サーバ装置２０で生成されるコマンドを取得するために、コマンドのポーリングを行う（Ｓ３８４）。

【0115】

制御部２００は、音声データを受信したら、音声データを解析して、解析結果に基づくコマンドを発行する（Ｓ３８６→Ｓ３８８）。この場合に、制御部２００が発行するコマンドは、音声操作モードを継続することを示すコマンドか、音声操作モードを終了することを示すコマンドの何れかである。

【0116】

制御部１００は、コマンドのポーリングにより、サーバ装置２０からコマンドを受信した場合は（Ｓ３９０）、そのコマンドが、音声操作モードを終了することを示すコマンドであるか否かを判定する（Ｓ３９２）。音声操作モードを終了することを示すコマンドであれば、制御部１００は終了イベントを生成し、音声操作モード終了処理を実行する（Ｓ３９２；Ｙｅｓ→Ｓ３９４→Ｓ３９６）。音声操作モードを継続するコマンドであれば、Ｓ３６２に戻り、音声操作モードを継続する。

【0117】

このようにすることで、利用者が、音声操作モードに対してフラストレーションを感じていたり、音声操作を間違えていたり、音声操作がわからない場合等に、サーバ装置２０の判定により、画面操作モードに切り替えることが可能となる。したがって、画像形成装置１０は、利用者による画面操作モードへの切り替えの意図に基づき、自動的に音声操作モードを終了し、画面操作モードに切り替えることが可能となる。

【0118】

このように、本実施形態によれば、ジョブの完了以外のタイミングによっても、音声操作モードから、画面操作モードに切り替えることが可能となる。

【0119】

［４．第４実施形態］
第４実施形態は、音声データの解析を画像形成装置１０で行う実施形態である。本実施形態は、第１実施形態の図２を図１４に置き換えたものである。なお、同一の機能部には同一の符号を付し、説明については省略する。

【0120】

図１４を参照して、本実施形態の画像形成装置１２の機能構成について説明する。画像形成装置１２は、画像形成装置１０と比較して、制御部１００が、音声データを解析する音声解析部１０２及びコマンド生成部１０４として機能する点が異なる。音声解析部１０２は音声解析部２０２に、コマンド生成部１０４はコマンド生成部２０４に、それぞれ相当する機能部である。

【0121】

また、記憶部１８０に、コマンド生成部１０４によって生成されたコマンドを記憶する領域である生成コマンド記憶領域１８４を確保している点が異なる。生成コマンド記憶領域１８４は、生成コマンド記憶領域２２４に相当する領域である。

【0122】

つづいて、図１５を参照して、画像形成装置１２のメイン処理について説明する。はじめに、制御部１００は、音声入力部１５０を介して、利用者から音声が入力された場合は、入力された音声を、音声データとして、音声データ記憶領域１８２に記憶する（ステップＳ４０２）。

【0123】

つづいて、音声解析部１０２は、音声データ記憶領域１８２に記憶された音声データを解析して、音声解析データを生成する（ステップＳ４０４）。そして、コマンド生成部１０４は、音声解析データに基づき、コマンドを生成する（ステップＳ４０６）。なお、コマンド生成部１０４は、生成したコマンドを、生成コマンド記憶領域１８４に記憶する。

【0124】

つづいて、制御部１００は、現在の画像形成装置１０の動作モードが画面操作モードであるか否かを判定し、画面操作モードである場合は、制御部１００は、音声操作モード移行処理を実行する（ステップＳ４０８；Ｙｅｓ→ステップＳ４１０）。

【0125】

つづいて、制御部１００は、生成コマンド記憶領域１８４に記憶されたコマンドに基づき、実行するジョブを特定し、ジョブが実行可能であるかを判定する（ステップＳ４１２→ステップＳ４１４）。ジョブが実行可能であれば、制御部１００はジョブを実行する（ステップＳ４１４；Ｙｅｓ→ステップＳ４１８）。そして、制御部１００は、画面操作モード移行処理を実行する（ステップＳ４２０）。

【0126】

ジョブが実行可能でなければ、ジョブを実行するために必要な情報が足りていない場合や、応答が適切でない場合、音声が認識できなかった場合が考えられる。このような場合は、制御部１００は、利用者に対して再度の応答を促すための音声を、音声出力部１６０から出力し、ステップＳ４０２へ戻る（ステップＳ４１４；Ｎｏ→ステップＳ４１６→ステップＳ４０２）。

【0127】

本実施形態によれば、サーバ装置２０との接続を行うことなく、画像形成装置１０単体で、音声操作モードの実行が開始された場合に、表示部の視認性を低下させる制御を行うことが可能となる。

【0128】

［５．変形例］
本発明は上述した各実施の形態に限定されるものではなく、種々の変更が可能である。すなわち、本発明の要旨を逸脱しない範囲内において適宜変更した技術的手段を組み合わせて得られる実施の形態についても本発明の技術的範囲に含まれる。

【0129】

また、上述した実施形態は、説明の都合上、それぞれ別に説明している部分があるが、技術的に可能な範囲で組み合わせて実行してもよいことは勿論である。

【0130】

また、実施形態において各装置で動作するプログラムは、上述した実施形態の機能を実現するように、ＣＰＵ等を制御するプログラム（コンピュータを機能させるプログラム）である。そして、これら装置で取り扱われる情報は、その処理時に一時的に一時記憶装置（例えば、ＲＡＭ）に蓄積され、その後、各種ＲＯＭ（Read Only Memory）やＨＤＤ等の記憶装置に格納され、必要に応じてＣＰＵによって読み出し、修正・書き込みが行なわれる。

【0131】

ここで、プログラムを格納する記録媒体としては、半導体媒体（例えば、ＲＯＭや、不揮発性のメモリカード等）、光記録媒体・光磁気記録媒体（例えば、ＤＶＤ（Digital Versatile Disc）、ＭＯ（Magneto Optical Disc）、ＭＤ（Mini Disc）、ＣＤ（Compact Disc）、ＢＤ（Blu-ray（登録商標） Disk）等）、磁気記録媒体（例えば、磁気テープ、フレキシブルディスク等）等の何れであってもよい。また、ロードしたプログラムを実行することにより、上述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、オペレーティングシステムあるいは他のアプリケーションプログラム等と共同して処理することにより、本発明の機能が実現される場合もある。

【0132】

また、市場に流通させる場合には、可搬型の記録媒体にプログラムを格納して流通させたり、インターネット等のネットワークを介して接続されたサーバコンピュータに転送したりすることができる。この場合、サーバコンピュータの記憶装置も本発明に含まれるのは勿論である。

【符号の説明】

【0133】

１情報処理システム
１０、１２画像形成装置
１００制御部
１０２音声解析部
１０４コマンド生成部
１１０画像入力部
１２０画像形成部
１３０表示部
１４０操作入力部
１５０音声入力部
１６０音声出力部
１７０発光部
１８０記憶部
１８２音声データ記憶領域
１８４生成コマンド記憶領域
１９０通信部
２０サーバ装置
２００制御部
２０２音声解析部
２０４コマンド生成部
２１０通信部
２２０記憶部
２２２音声データ記憶領域
２２４生成コマンド記憶領域

【図1】