特許7397633 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

特許7397633音声制御システム、音声制御方法、画像処理装置及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-12-05

(45)【発行日】2023-12-13

(54)【発明の名称】音声制御システム、音声制御方法、画像処理装置及びプログラム

(51)【国際特許分類】

H04N 1/00 20060101AFI20231206BHJP

G10L 15/10 20060101ALI20231206BHJP

G06F 3/16 20060101ALI20231206BHJP

B41J 29/38 20060101ALI20231206BHJP

G03G 21/00 20060101ALI20231206BHJP

【ＦＩ】

H04N1/00 350

G10L15/10 200W

G06F3/16 650

B41J29/38 202

G03G21/00 376

【請求項の数】 11

(21)【出願番号】P 2019209827

(22)【出願日】2019-11-20

(65)【公開番号】P2021082970

(43)【公開日】2021-05-27

【審査請求日】2022-11-16

(73)【特許権者】

【識別番号】000001007

【氏名又は名称】キヤノン株式会社

(74)【代理人】

【識別番号】110003281

【氏名又は名称】弁理士法人大塚国際特許事務所

(72)【発明者】

【氏名】松村武士

(72)【発明者】

【氏名】高橋徹

(72)【発明者】

【氏名】名屋佑治

【審査官】橋爪正樹

(56)【参考文献】

【文献】特開２０１９－０９６２９５（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｎ１／００

Ｂ４１Ｊ２９／３８

Ｇ０３Ｇ２１／００

Ｇ０６Ｆ３／１６

Ｇ１０Ｌ１５／０８－１５／１９７

(57)【特許請求の範囲】

【請求項1】

音声を取得するマイクロフォンと、
画像処理ユニットと、
前記画像処理ユニットにより過去に実行された１つ以上のジョブの履歴データを保持するデータベースと、
前記画像処理ユニットの設定を制御する制御手段と、
を備え、
前記履歴データは、各ジョブに設定された少なくとも１つの設定値を示し、
前記画像処理ユニットにより実行可能なジョブについて、前記履歴データから設定することが許容される設定項目が予め定義されており、
前記制御手段は、
前記マイクロフォンにより取得されるユーザの入力音声についての音声認識結果に基づいて前記履歴データを参照することにより、前記履歴データから設定することが許容される前記設定項目について前記画像処理ユニットにより実行されるべき新たなジョブのための設定値を取得し、
取得した前記設定値を前記新たなジョブに設定する、
音声制御システム。

【請求項2】

請求項１に記載の音声制御システムであって、前記制御手段は、前記音声認識結果により示されるキーワードであって、参照すべきジョブの実行タイミングを表す当該キーワードに基づいて、前記履歴データ内で参照すべきエントリを特定する、音声制御システム。

【請求項3】

請求項１に記載の音声制御システムであって、前記制御手段は、前記音声認識結果により示されるキーワードであって、最も利用頻度の高い設定値を取得するための当該キーワードに基づいて、前記履歴データ内の１つ以上のエントリを参照して、最も利用頻度の高い設定値を取得する、音声制御システム。

【請求項4】

請求項１乃至３のいずれか１項に記載の音声制御システムであって、前記制御手段は、前記音声認識結果に基づいて、前記履歴データ内の前記ユーザに関連付けられているエントリのみを参照するか、又は他のユーザに関連付けられているエントリをも参照するかを判定する、音声制御システム。

【請求項5】

請求項１乃至４のいずれか１項に記載の音声制御システムであって、
音声を出力するスピーカ、をさらに含み、
前記制御手段は、前記履歴データから設定することが許容されない設定項目の設定値を前記音声認識結果から取得できない場合に、当該設定値の入力を求める応答音声を前記スピーカから出力させる、
音声制御システム。

【請求項6】

請求項１乃至５のいずれか１項に記載の音声制御システムであって、前記制御手段は、前記履歴データを参照することにより取得した前記設定値で前記画像処理ユニットに前記新たなジョブを実行させる前に設定内容の確認をユーザに求めるか否かを、前記音声認識結果に基づいて判定する、音声制御システム。

【請求項7】

請求項１乃至６のいずれか１項に記載の音声制御システムであって、前記画像処理ユニットは、シートに画像を形成する画像形成機能及び原稿を読取って画像データを生成する原稿読取機能のうちの少なくとも一方の機能を有する、音声制御システム。

【請求項8】

請求項１乃至７のいずれか１項に記載の音声制御システムであって、前記制御手段は、前記画像処理ユニットが前記新たなジョブを実行した後に、前記新たなジョブに設定した設定値で前記履歴データを更新する、音声制御システム。

【請求項9】

画像処理ユニットの設定を、音声を取得するマイクロフォンと連携して制御する音声制御方法において、
前記画像処理ユニットにより実行可能なジョブについて、履歴データから設定することが許容される設定項目が予め定義されており、
前記音声制御方法は、
前記画像処理ユニットにより過去に実行された１つ以上のジョブの前記履歴データをデータベースにおいて保持することと、
前記マイクロフォンにより取得されるユーザの入力音声についての音声認識結果に基づいて前記履歴データを参照することにより、前記履歴データから設定することが許容される前記設定項目について前記画像処理ユニットにより実行されるべき新たなジョブのための設定値を取得することと、
取得した前記設定値を前記新たなジョブに設定することと、
を含む音声制御方法。

【請求項10】

画像処理ユニットと、
前記画像処理ユニットの設定を制御する制御手段と、
を備え、
前記制御手段は、前記画像処理ユニットにより過去に実行された１つ以上のジョブの履歴データを保持するデータベースへアクセス可能であり、
前記画像処理ユニットにより実行可能なジョブについて、前記履歴データから設定することが許容される設定項目が予め定義されており、
前記制御手段は、
マイクロフォンにより取得されるユーザの入力音声についての音声認識結果に基づいて前記履歴データを参照することにより、前記履歴データから設定することが許容される前記設定項目について前記画像処理ユニットにより実行されるべき新たなジョブのための設定値を取得し、
取得した前記設定値を前記新たなジョブに設定する、
画像処理装置。

【請求項11】

画像処理ユニットを備える画像処理装置のプロセッサを、
前記画像処理ユニットの設定を制御する制御部、
として動作させるためのコンピュータプログラムにおいて、
前記制御部は、前記画像処理ユニットにより過去に実行された１つ以上のジョブの履歴データを保持するデータベースへアクセス可能であり、
前記画像処理ユニットにより実行可能なジョブについて、前記履歴データから設定することが許容される設定項目が予め定義されており、
前記制御部は、
マイクロフォンにより取得されるユーザの入力音声についての音声認識結果に基づいて前記履歴データを参照することにより、前記履歴データから設定することが許容される前記設定項目について前記画像処理ユニットにより実行されるべき新たなジョブのための設定値を取得し、
取得した前記設定値を前記新たなジョブに設定する、
コンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、音声制御システム、音声制御方法、画像処理装置及びプログラムに関する。

【背景技術】

【0002】

シートに画像を形成する画像形成装置、及び原稿を読取る画像読取装置などの機器は、ユーザインタフェースを介して検知されるユーザ入力に従って、ジョブを実行する。それにより、ユーザが意図した通りの機器の動作が実現される。しかし、取扱可能な画質の向上と共に、機器の多機能化が年々進展しており、それにつれてジョブの設定項目が増加の一途を辿っている。設定項目の増加は、機器の設定方法に対するユーザの理解及びユーザの作業を煩雑化させ、ユーザに過剰な負担を強いる。

【0003】

ユーザにとって少ない負担でシステムと対話するための技術として、音声認識に基づくユーザインタフェース（以下、音声ＵＩともいう）が知られている。例えば、特許文献１は、画像形成装置の多様な操作キーの音声名称をユーザに予め登録させておき、ユーザの入力音声から認識される音声名称に対応する操作キーの動作を実行する技術を提案している。特許文献１の技術によれば、例えばコピー動作のための設定のセットを特定のソフトキーに割当て、そのソフトキーの音声名称を装置に登録しておくことで、ユーザは、その音声名称を発声するだけで同じ設定のセットを呼び出すことができる。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２００７－１１４２９７号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

特許文献１により提案された技術では、ユーザは、将来使用する設定のセットを予め特定のキーに割当てる作業を行わなければ、その設定のセットを後日呼び出すことができない。しかしながら、ユーザにとって都合のいい機器の設定は、必ずしも一定ではなく、事前に予測可能とも限らない。そのため、設定のセットを予めキーに割当てる作業をユーザに課すことは、ユーザの負担を却って増大させ、音声ＵＩの利用をユーザに躊躇わせる結果となる。割当て作業をユーザが行わない場合には、ユーザは、所望の設定を音声ＵＩで機器へ伝えるために多くの設定項目の内容を逐一発声するか、多機能化に起因して複雑化したＧＵＩを利用せざるを得ない。

【0006】

そこで、本開示は、多機能化した機器の設定に関連するユーザの負担を軽減する仕組みを提供することを目的とする。

【課題を解決するための手段】

【0007】

ある観点によれば、音声を取得するマイクロフォンと、画像処理ユニットと、前記画像処理ユニットにより過去に実行された１つ以上のジョブの履歴データを保持するデータベースと、前記画像処理ユニットの設定を制御する制御手段と、を備え、前記履歴データは、各ジョブに設定された少なくとも１つの設定値を示し、前記画像処理ユニットにより実行可能なジョブについて、前記履歴データから設定することが許容される設定項目が予め定義されており、前記制御手段は、前記マイクロフォンにより取得されるユーザの入力音声についての音声認識結果に基づいて前記履歴データを参照することにより、前記履歴データから設定することが許容される前記設定項目について前記画像処理ユニットにより実行されるべき新たなジョブのための設定値を取得し、取得した前記設定値を前記新たなジョブに設定する、音声制御システムが提供される。対応する方法、画像処理装置及びプログラムもまた提供される。

【発明の効果】

【0008】

本開示によれば、多機能化した機器の設定に関連するユーザの負担を軽減することができる。

【図面の簡単な説明】

【0009】

【図1】一実施形態に係る画像形成システムの構成の一例を示す概略図。

【図2】一実施形態に係る音声制御装置の物理的構成の一例を示すブロック図。

【図3】一実施形態に係る音声認識サーバの物理的構成の一例を示すブロック図。

【図4】一実施形態に係る画像処理装置の物理的構成の一例を示すブロック図。

【図5】一実施形態に係る音声制御装置の機能面の構成の一例を示すブロック図。

【図6】一実施形態に係る音声認識サーバの機能面の構成の一例を示すブロック図。

【図7】一実施形態に係る画像処理装置の機能面の構成の一例を示すブロック図。

【図8】インテント一覧の例を示す第１の説明図。

【図9】インテント一覧の例を示す第２の説明図。

【図10】エンティティ一覧の例を示す第１の説明図。

【図11】エンティティ一覧の例を示す第２の説明図。

【図12】エンティティ一覧の例を示す第３の説明図。

【図13】一実施形態に係る意図データのいくつかの例を示す説明図。

【図14】一実施形態に係る履歴データの構成の一例を示す説明図。

【図15】履歴データから設定することが許容される設定項目の定義の一例について説明するための説明図。

【図16】履歴データ内のエントリを参照する際の検索キーの一例について説明するための説明図。

【図17】一実施形態に係る音声制御処理の全体的な流れの一例を示すシーケンス図。

【図18】一実施形態に係る設定取得処理の詳細な流れの一例を示すフローチャート。

【図19】第１のシナリオに沿った音声対話の一例を示すシーケンス図。

【図20】第２のシナリオに沿った音声対話の一例を示すシーケンス図。

【図21】第３のシナリオに沿った音声対話の一例を示すシーケンス図。

【図22】第４のシナリオに沿った音声対話の一例を示すシーケンス図。

【図23】第５のシナリオに沿った音声対話の一例を示すシーケンス図。

【発明を実施するための形態】

【0010】

以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

【0011】

＜＜１．システムの構成例＞＞
＜１－１．システムの全体像＞
図１は、一実施形態に係る音声制御システム１０の構成の一例を示す概略図である。図１を参照すると、音声制御システム１０は、クライアント端末５０、音声制御装置１００、音声認識サーバ２００及び画像処理装置３００を含む。図１には、これらの装置及びサーバが１つずつ存在する例を示しているが、音声制御システム１０は、より多くの装置及びサーバを含んでもよい。

【0012】

ネットワーク２０は、クライアント端末５０、音声制御装置１００、音声認識サーバ２００及び画像処理装置３００を相互に接続する通信ネットワークである。ネットワーク２０は、有線ネットワークであっても無線ネットワークであってもよい。ネットワーク２０は、例えばインターネット、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）若しくはセルラーネットワーク、又はそれらの任意の組合せであってよい。ネットワーク２０は、図示しないルータ、ゲートウェイ、プロキシサーバ又は無線ＬＡＮアクセスポイントといった１つ以上のネットワーク機器を含んでもよい。

【0013】

クライアント端末５０は、音声制御システム１０のユーザにより使用される端末装置である。クライアント端末５０は、例えばＰＣ（Personal Computer）若しくはスマートフォンのような汎用的な情報端末であってもよく、又は特定の業務目的に特化した専用端末であってもよい。クライアント端末５０は、例えば、電子データを画像処理装置３００に印刷させるための印刷ジョブの発行、又は画像処理装置３００において原稿を読取ることにより生成される読取画像データの受信のために使用されてよい。

【0014】

音声制御装置１００は、ユーザの入力音声の取得と、音声制御システム１０からユーザへの応答音声の出力とを制御する装置である。音声制御装置１００は、例えばスマートスピーカのような、音声の入出力のための独立した装置であってもよい。また、音声制御装置１００は、音声の入出力のためのエージェント機能を搭載した、クライアント端末５０と同様の情報端末であってもよい。また、本明細書で説明する音声制御装置１００の機能は、画像処理装置３００に統合されてもよい。音声制御装置１００は、音声対話の開始が指示されると、マイクロフォンを介してユーザの入力音声を取得して入力音声データを生成し、入力音声データを（必要に応じて符号化した後）音声認識サーバ２００へ送信する。また、音声制御装置１００は、音声認識サーバ２００から受信される応答音声データを（必要に応じて復号した後）再生して、応答音声をスピーカを介して出力する。

【0015】

音声認識サーバ２００は、入力音声についての音声認識、及び応答音声の合成を行うサーバ装置である。音声認識サーバ２００は、コンピュータ又はワークステーションといった情報処理装置であってよい。音声認識サーバ２００は、音声制御装置１００から受信される音声データにより表される入力音声を認識して、ユーザの意図を解釈する。そして、音声認識サーバ２００は、ユーザが画像処理装置３００の操作を意図していると判定した場合に、ユーザの意図を表すデータ（以下、意図データという）を画像処理装置３００へ送信する。また、音声認識サーバ２００は、画像処理装置３００から受信される応答用テキストデータに基づいて応答音声データを合成し、応答音声データを音声制御装置１００へ送信する。

【0016】

画像処理装置３００は、例えば、画像形成（印刷）機能及び画像読取（スキャン）機能のうちの少なくとも一方の機能を有する装置である。画像処理装置３００の例は、コピー機、デジタルスキャナ、プリンタ、ファクシミリ送信機、及びこれら装置のうちの２つ以上の機能を組合せた複合機を含み得る。画像処理装置３００の画像形成機能は、例えばクライアント端末５０から受信される印刷ジョブに従って、シートに画像を形成する。原稿読取機能は、例えば原稿台に載置され又はＡＤＦ（Auto-Document Feeder）にセットされる原稿を読取って画像データを生成し、生成した画像データをクライアント端末５０へ送信する。なお、画像処理装置３００は、上述した例に限定されず、例えば撮像装置のような、画像を処理する任意の種類の装置であってよい。

【0017】

＜１－２．各装置の構成＞
（１）音声制御装置
図２は、本実施形態に係る音声制御装置１００の物理的構成の一例を示すブロック図である。図２を参照すると、音声制御装置１００は、コントローラ１１０、マイクロフォン１６０、スピーカ１７０及びＬＥＤ１８０を備える。コントローラ１１０は、ＣＰＵ１１１、ＲＡＭ１１２、ＲＯＭ１１３、二次記憶装置１１４、ネットワークＩ／Ｆ１１５、マイクロフォンＩ／Ｆ１１６、オーディオコントローラ１１７及び報知コントローラ１１８を含む。内部バス１２０は、ＣＰＵ１１１、ＲＡＭ１１２、ＲＯＭ１１３、二次記憶装置１１４、ネットワークＩ／Ｆ１１５、マイクロフォンＩ／Ｆ１１６、オーディオコントローラ１１７及び報知コントローラ１１８を相互に接続する信号線である。

【0018】

ＣＰＵ（Central Processing Unit）１１１は、音声制御装置１００の動作の全般を制御するプロセッサである。ＣＰＵ１１１の制御機能は、例えば、ＲＯＭ１１３又は二次記憶装置１１４に予め記憶され、ＲＡＭ１１２にロードされるコンピュータプログラムを実行することにより実現され得る。コンピュータプログラムは、音声制御装置１００の外部からダウンロードされてもよい。ＲＡＭ（Random Access Memory）１１２は、揮発性のメモリであり、ＣＰＵ１１１に作業用の一時的な記憶領域を提供する。ＲＯＭ（Read Only Memory）１１３は、不揮発性のメモリであり、例えば音声制御装置１００を起動させるためのブートプログラムを記憶する。二次記憶装置１１４は、ＲＡＭ１１２及びＲＯＭ１１３と比較して大規模な記憶領域を提供する、補助的な記憶装置である。二次記憶装置１１４は、例えばＳＤカードのような、取外し可能な記憶媒体を含んでもよい。ネットワークインタフェース（Ｉ／Ｆ）１１５は、音声制御装置１００による他の装置との通信のための通信インタフェースである。ネットワークＩ／Ｆ１１５は、例えばＷｉ－Ｆｉ若しくはＢｌｕｅｔｏｏｔｈ（登録商標）といった無線通信規格に従ってデータを無線で送受信してもよく、又はイーサネット（登録商標）のような有線通信規格に従ってデータを有線で送受信してもよい。無線通信の場合に、ネットワークＩ／Ｆ１１５は、アンテナ、ＲＦ（Radio Frequency）回路及びベースバンド回路を含んでもよい。

【0019】

マイクロフォンＩ／Ｆ１１６は、コントローラ１１０をマイクロフォン１６０へ接続するための接続インタフェースである。マイクロフォン１６０は、音声制御装置１００が設置されている環境内の音声を取得するための機器である。マイクロフォン１６０は、例えば、ＥＣＭ（Electret Condenser Microphones）又はＭＥＭＳ（Micro-Electrical-Mechanical Systems）マイクロフォンであってもよい。ＭＥＭＳマイクロフォンは、信頼性が高く小型であることから、例えばスマートフォンのような端末装置において広く採用されている。図２には音声制御装置１００が１つのマイクロフォン１６０を有する例を示しているが、音声制御装置１００は、例えば、入力音声の到来方向を推定するために異なる位置に３つ以上のマイクロフォンを有していてもよい。本実施形態は、マイクロフォンの特定の種類及び数には限定されない。マイクロフォン１６０は、例えば、ユーザにより発声された入力音声を取得して、取得した音声を表す音声信号をマイクロフォンＩ／Ｆ１１６を介してコントローラ１１０へ出力する。マイクロフォンＩ／Ｆ１１６は、音声信号を符号化して入力音声データを生成し、ＣＰＵ１１１による制御に従って、入力音声データをＲＡＭ１１２に書込む。

【0020】

オーディオコントローラ１１７は、スピーカ１７０へ接続され、音声制御装置１００によるスピーカ１７０を介した音声の出力を制御するためのコントローラである。スピーカ１７０は、音声を出力する（又は音声を再生する）ための機器である。図２には音声制御装置１００が１つのスピーカ１７０を有する例を示しているが、音声制御装置１００は、例えば、指向性のある音声を出力するために２つ以上のスピーカを有していてもよい。本実施形態は、スピーカの特定の種類及び数には限定されない。オーディオコントローラ１１７は、ＣＰＵ１１１による制御に従って、出力音声データ（例えば、応答音声データ）を復号してアナログ形式の音声信号を生成し、スピーカ１７０へ音声信号を出力する。スピーカ１７０は、入力された音声信号に基づいて、環境内へ（例えば、ユーザへ）音声を出力する。なお、本明細書において、音声との用語は、発声され又は合成された音声のみならず、より単純な音をも含むものとする。

【0021】

報知コントローラ１１８は、ＬＥＤ１８０へ接続され、音声制御装置１００によるＬＥＤ１８０を介したステータスの報知を制御するためのコントローラである。ＬＥＤ（Light-Emitting Diode）１８０は、光を発する素子であり、発光色及び点灯のパターン（例えば、点灯、点滅又は消灯）によって音声制御装置１００のステータスを表現する。報知コントローラ１１８は、ＣＰＵ１１１による制御に従って、例えば待機中、音声入力中及び応答中といった音声制御装置１００のステータスを、ＬＥＤ１８０を用いてユーザへ報知する。なお、音声制御装置１００は、ステータスの報知のために、ＬＥＤ１８０の代わりに、例えば文字、図形及び画像を表示可能なディスプレイを有していてもよい。

【0022】

（２）音声認識サーバ
図３は、本実施形態に係る音声認識サーバ２００の物理的構成の一例を示すブロック図である。図３を参照すると、音声認識サーバ２００は、ＣＰＵ２１１、ＲＡＭ２１２、ＲＯＭ２１３、二次記憶装置２１４及びネットワークＩ／Ｆ２１５を備える。内部バス２２０は、ＣＰＵ２１１、ＲＡＭ２１２、ＲＯＭ２１３、二次記憶装置２１４及びネットワークＩ／Ｆ２１５を相互に接続する信号線である。

【0023】

ＣＰＵ２１１は、音声認識サーバ２００の動作の全般を制御するプロセッサである。ＣＰＵ２１１の制御機能は、例えば、ＲＯＭ２１３又は二次記憶装置２１４に予め記憶され、ＲＡＭ２１２にロードされるコンピュータプログラムを実行することにより実現され得る。コンピュータプログラムは、音声認識サーバ２００の外部からダウンロードされてもよい。ＲＡＭ２１２は、揮発性のメモリであり、ＣＰＵ２１１に作業用の一時的な記憶領域を提供する。ＲＯＭ２１３は、不揮発性のメモリであり、例えば音声認識サーバ２００を起動させるためのブートプログラムを記憶する。二次記憶装置２１４は、ＲＡＭ２１２及びＲＯＭ２１３と比較して大規模な記憶領域を提供する、補助的な記憶装置である。二次記憶装置２１４は、例えばＨＤＤ（Hard Disk Drive）又はＳＳＤ（Solid State Drive）であってもよい。ネットワークＩ／Ｆ２１５は、音声認識サーバ２００による他の装置との通信のための通信インタフェースである。ネットワークＩ／Ｆ２１５は、データを無線で送受信してもよく又は有線で送受信してもよい。無線通信の場合に、ネットワークＩ／Ｆ２１５は、アンテナ、ＲＦ回路及びベースバンド回路を含んでもよい。

【0024】

（３）画像処理装置
図４は、本実施形態に係る画像処理装置３００の物理的構成の一例を示すブロック図である。図４を参照すると、画像処理装置３００は、コントローラ３１０、操作パネル３６０、スキャナ３８０及びプリンタ３９０を備える。コントローラ３１０は、ＣＰＵ３１１、ＲＡＭ３１２、ＲＯＭ３１３、二次記憶装置３１４、ネットワークＩ／Ｆ３１５、表示コントローラ３１６、操作Ｉ／Ｆ３１７、スキャナＩ／Ｆ３１８及びプリンタＩ／Ｆ３１９を含む。内部バス３２０は、ＣＰＵ３１１、ＲＡＭ３１２、ＲＯＭ３１３、二次記憶装置３１４、ネットワークＩ／Ｆ３１５、表示コントローラ３１６、操作Ｉ／Ｆ３１７、スキャナＩ／Ｆ３１８及びプリンタＩ／Ｆ３１９を相互に接続する信号線である。

【0025】

ＣＰＵ３１１は、画像処理装置３００の動作の全般を制御するプロセッサである。ＣＰＵ３１１の制御機能は、例えば、ＲＯＭ３１３又は二次記憶装置３１４に予め記憶され、ＲＡＭ３１２にロードされるコンピュータプログラムを実行することにより実現され得る。コンピュータプログラムは、画像処理装置３００の外部からダウンロードされてもよい。ＲＡＭ３１２は、揮発性のメモリであり、ＣＰＵ３１１に作業用の一時的な記憶領域を提供する。ＲＯＭ３１３は、不揮発性のメモリであり、例えば画像処理装置３００を起動させるためのブートプログラムを記憶する。二次記憶装置３１４は、ＲＡＭ３１２及びＲＯＭ３１３と比較して大規模な記憶領域を提供する、補助的な記憶装置である。二次記憶装置３１４は、例えばＨＤＤ又はＳＳＤであってもよい。本実施形態において、二次記憶装置３１４には、後に説明する履歴データベース３２６が実装される。なお、履歴データベース３２６は、かかる例に限定されず、画像処理装置３００（例えば、ＣＰＵ３１１）によりアクセス可能な外部の装置に実装されてもよい。ネットワークＩ／Ｆ３１５は、画像処理装置３００による他の装置との通信のための通信インタフェースである。ネットワークＩ／Ｆ３１５は、データを無線で送受信してもよく又は有線で送受信してもよい。無線通信の場合に、ネットワークＩ／Ｆ３１５は、アンテナ、ＲＦ回路及びベースバンド回路を含んでもよい。

【0026】

表示コントローラ３１６及び操作Ｉ／Ｆ３１７は、操作パネル３６０へ接続される。表示コントローラ３１６は、ＣＰＵ３１１による制御に従って、操作パネル３６０にユーザインタフェース（ＵＩ）画像を表示させる。操作パネル３６０は、画像を表示可能な表示デバイスである。操作パネル３６０は、例えば、ユーザによるタッチ入力を受付けるタッチパネルであってもよい。その代わりに、操作パネル３６０は、例えばキーパッド及びボタン等の入力デバイスを伴う、例えばＬＣＤ（Liquid Crystal Display）のようなディスプレイであってもよい。操作パネル３６０は、受付けたユーザ入力の内容を示す操作信号を、操作Ｉ／Ｆ３１７を介してコントローラ３１０へ出力する。操作Ｉ／Ｆ３１７は、ＣＰＵ３１１による制御に従って、操作信号により示されるユーザ入力の内容をＲＡＭ３１２へ書込む。

【0027】

スキャナＩ／Ｆ３１８は、コントローラ３１０をスキャナ３８０へ接続するための接続インタフェースである。スキャナ３８０は、原稿を読取って、読取画像の画像データを生成する画像処理ユニットである。即ち、スキャナ３８０は、画像処理装置３００の原稿読取機能を提供する。スキャナ３８０は、原稿を載置するための原稿台及び原稿を自動的に搬送するＡＤＦのうちの一方又は双方（図示せず）を有してよい。スキャナＩ／Ｆ３１８は、ＣＰＵ３１１による制御に従って、原稿の読取りを指示する制御コマンド（ジョブともいう）をスキャナ３８０へ送信し、スキャナ３８０から受信される画像データをＲＡＭ３１２へ書込む。

【0028】

プリンタＩ／Ｆ３１９は、コントローラ３１０をプリンタ３９０へ接続するための接続インタフェースである。プリンタ３９０は、コントローラ３１０から受信される画像データに基づいてシートに画像を形成する画像処理ユニットである。即ち、プリンタ３９０は、画像処理装置３００の画像形成機能を提供する。プリンタＩ／Ｆ３１９は、ＣＰＵ３１１による制御に従って、画像の形成を指示する制御コマンドをプリンタ３９０へ送信し、プリンタ３９０から受信される画像形成動作の結果をＲＡＭ３１２へ書込む。

【0029】

＜１－３．各装置の機能＞
（１）音声制御装置
図５は、本実施形態に係る音声制御装置１００の機能面の構成の一例を示すブロック図である。図５を参照すると、音声制御装置１００は、通信部１２１、データ管理部１２２、音声取得部１２３、開始検知部１２５、終了判定部１２６、音声再生部１２７、報知部１２８及び音声制御部１３０を備える。これら機能ブロックの各々は、例えば、音声制御装置１００のＣＰＵ１１１が他のハードウェアと連携しながら対応するコンピュータプログラムを実行することにより実現され得る。

【0030】

通信部１２１は、ネットワークＩ／Ｆ１１５を介して、ネットワーク２０に接続される他の装置へデータを送信し、及び他の装置からデータを受信する。例えば、通信部１２１は、後に説明する入力音声データを音声認識サーバ２００へ送信する。また、通信部１２１は、音声認識サーバ２００から応答音声データを受信する。

【0031】

データ管理部１２２は、音声制御装置１００による音声の入出力の制御のために必要とされるデータを二次記憶装置１１４を用いて管理する。本明細書において、データの管理とは、例えば所定の記憶領域へのデータの保存、データの更新、データへのアクセスの制限及びデータの読出しを含み得る。例えば、データ管理部１２２は、音声認識サーバ２００との通信に要する認証情報を二次記憶装置１１４の所定の記憶領域において管理する。

【0032】

音声取得部１２３は、マイクロフォン１６０により取得される音声のアナログ音声信号を音声データへ変換し、音声データをＲＡＭ１１２において一時的に保持する。音声取得部１２３は、例えば、音声制御装置１００及び音声認識サーバ２００の双方によりサポートされる音声ファイルフォーマット（例えば、ＭＰ３フォーマット）に従って音声データを整形してもよい。

【0033】

開始検知部１２５は、音声制御装置１００に対するユーザ入力を監視し、検知されるユーザ入力に基づいて、音声制御装置１００によるユーザとの音声ＵＩでの対話を開始すべきかを判定する。例えば、開始検知部１２５は、音声取得部１２３により取得される音声データに基づいて、ユーザが対話開始のためのウェイクワードを発声したと認識された場合に、ユーザとの対話を開始すべきであると判定してもよい。また、開始検知部１２５は、例えば、音声制御装置１００の入力デバイス（図示せず）に対してユーザが所定の操作を行った（例えば、ボタンを押下した）ことが検知された場合に、ユーザとの対話を開始すべきであると判定してもよい。開始検知部１２５は、ユーザとの対話を開始すべきであると判定すると、制御開始信号を音声制御部１３０へ出力する。上記ウェイクワードの文字列又は音声波形は、予め決定され、音声制御装置１００に登録される（データ管理部１２２によりデータとして管理される）。ユーザは、まずウェイクワードを発声し、続いて画像処理装置３００の動作を所望の設定内容と共に発声することにより、画像処理装置３００を自身の意図の通りに動作させ得る。

【0034】

終了判定部１２６は、ユーザからの個々の音声入力の終了タイミングを、音声取得部１２３により取得される音声データに基づいて判定する。一例として、終了判定部１２６は、入力される音声信号の特性を既知の音声の特性と比較して、少なくともある期間にわたりユーザ又は人間が発声していないと判定した場合に、個々の音声入力が終了した（発声が途切れた）と判定し得る。ここでの既知の音声の特性とは、音声制御システム１０を利用するユーザそれぞれについて予め登録されるユーザ固有の特性であってもよく、又は標準的な人間の（即ち、複数のユーザに共通の）音声の特性であってもよい。他の例として、終了判定部１２６は、音声取得部１２３により取得される音声データに基づいて、ユーザが特定のキーワードを発声したと認識された場合に、個々の音声入力が終了したと判定してもよい。また別の例として、終了判定は、音声データに基づいて認識されるユーザの入力音声の意味又は文脈を解析することにより行われてもよい。終了判定部１２６は、個々の音声入力が終了したと判定した場合、発声終了信号を音声制御部１３０へ出力する。なお、こうした終了判定は、終了判定部１２６の代わりに音声認識サーバ２００により行われてもよい。これ以降の説明において、音声取得部１２３により取得される音声にユーザの入力音声が含まれていない期間を空白期間と称する。

【0035】

音声再生部１２７は、音声制御部１３０による制御に従って、通信部１２１により受信される音声合成データにより表される出力音声を、オーディオコントローラ１１７及びスピーカ１７０を用いて再生する。

【0036】

報知部１２８は、音声制御部１３０による制御に従って、報知コントローラ１１８及びＬＥＤ１８０を用いて、ユーザへの様々な報知を行う。例えば、報知部１２８は、音声対話セッションが継続している期間中、個々の入力音声が検知されている期間中、又は応答音声が出力されている期間中に、ＬＥＤ１８０を点灯させ、点滅させ又は消灯させてもよい。また、報知部１２８は、音声対話セッションの開始及び終了といったイベントの発生をＬＥＤ１８０を用いてユーザへ報知してもよい。なお、ユーザへの報知は、効果音の出力又はバイブレーションといった他の手段でなされてもよい。

【0037】

音声制御部１３０は、音声認識サーバ２００と連携して、ユーザの入力音声の取得と、音声制御装置１００による応答音声の出力とを制御する。例えば、音声制御部１３０は、音声取得部１２３により取得される音声データを通信部１２１を介して音声認識サーバ２００へ送信して、ユーザの入力音声についての認識を音声認識サーバ２００へ要求する。また、音声制御部１３０は、上記要求への応答として音声認識サーバ２００から通信部１２１を介して応答音声データを受信し、受信した応答音声データに基づいて応答音声を音声再生部１２７に再生させる。

【0038】

ここで、音声制御部１３０による制御の下での、ユーザと音声制御装置１００との間の音声対話の様子について音声の例を挙げて説明する。音声制御部１３０による制御は、開始検知部１２５からの制御開始信号の入力に応じて開始される。音声制御部１３０は、例えば、終了判定部１２６から発声終了信号が入力されるまでに音声取得部１２３により取得される一連の音声の音声データを、ひとまとまりの入力音声データとして扱う。例えば、ユーザが、音声制御装置１００に向けてウェイクワードを発声し、続いて「２部フルカラーでコピー」と発声したとする。ウェイクワードは、開始検知部１２５により認識され、開始検知部１２５から音声制御部１３０へ制御開始信号が出力される。音声制御部１３０は、制御開始信号の入力に応じて、音声取得部１２３に入力音声の取得を開始させる。音声取得部１２３は、ウェイクワードに続いて発声された「２部フルカラーでコピー」という入力音声を取得する。終了判定部１２６は、「２部フルカラーでコピー」の後の空白期間を認識して、発声終了信号を音声制御部１３０へ出力する。音声制御部１３０は、発声終了信号の入力に応じて、音声取得部１２３に入力音声の取得を終了させる。音声取得部１２３がひとまとまりの入力音声を取得している期間中、報知部１２８は、例えばＬＥＤ１８０を点灯させて、音声入力中というステータスをユーザへ報知する。

【0039】

次いで、音声制御部１３０は、一時的にＲＡＭ１１２により保持されていた「２部フルカラーでコピー」という入力音声データを、通信部１２１を介して音声認識サーバ２００へ送信し、音声認識サーバ２００からの応答に向けて待機する。音声認識サーバ２００から通信部１２１を介して受信される応答は、後述する音声認識サーバ２００により生成される応答音声データを含み得る。応答音声データは、例えば、「原稿をセットして下さい」という応答音声を表すデータである。音声制御部１３０は、応答音声データを音声再生部１２７へ出力し、応答音声を音声再生部１２７に再生させる。その結果、スピーカ１７０から上記応答音声が出力される。音声再生部１２７が応答音声を再生している期間中、報知部１２８は、例えばＬＥＤ１８０を点滅させて、応答中というステータスをユーザへ報知する。

【0040】

音声認識サーバ２００からの上記応答は、音声対話セッションを継続するか又は終了するかを示すセッション制御情報を含み得る。音声制御部１３０は、例えば、セッション制御情報が音声対話セッションを継続すべきことを示す場合、応答音声の再生の終了後に、音声取得部１２３に入力音声の取得を再び開始させる。この場合、ユーザは、再度ウェイクワードを発声しなくとも、次の音声入力を行うことができる。それにより、ユーザと音声制御装置１００との間の自然な音声対話が促進され、ユーザは一連の対話を通じて画像処理装置３００の所望の動作のための設定及び指示をシステムに伝えることができる。セッション制御情報が音声対話セッションを終了すべきことを示す場合、音声制御部１３０は、例えば報知部１２８にＬＥＤ１８０を消灯させ、待機中のステータスへ遷移する。この場合、ユーザは、新たにウェイクワードを発声することにより（又は音声制御装置１００に対し所定の操作をすることにより）、音声対話を再開することができる。

【0041】

（２）音声認識サーバ
図６は、本実施形態に係る音声認識サーバ２００の機能面の構成の一例を示すブロック図である。図６を参照すると、音声認識サーバ２００は、通信部２２１、データ管理部２２２、装置管理部２２３、音声認識部２２４及び音声合成部２２５を備える。これら機能ブロックの各々は、例えば、音声認識サーバ２００のＣＰＵ２１１が他のハードウェアと連携しながら対応するコンピュータプログラムを実行することにより実現され得る。

【0042】

通信部２２１は、ネットワークＩ／Ｆ２１５を介して、ネットワーク２０に接続される他の装置へデータを送信し、及び他の装置からデータを受信する。例えば、通信部２２１は、入力音声データを音声制御装置１００から受信する。また、通信部２２１は、後に説明する音声認識部２２４により生成される意図データを、画像処理装置３００へ送信する。また、通信部２２１は、画像処理装置３００から応答用テキストデータを受信する。また、通信部２２１は、音声制御装置１００へ、上述したセッション制御情報を含み得る応答音声データを送信する。

【0043】

データ管理部２２２は、音声認識サーバ２００による音声の認識及び合成のために必要とされるデータを二次記憶装置２１４を用いて管理する。例えば、データ管理部２２２は、音声認識サーバ２００との通信に要する認証情報を二次記憶装置２１４の所定の記憶領域において管理する。また、データ管理部２２２は、入力音声データにより表される入力音声を、音声認識結果としてのテキストデータへ変換するための、例えば音響モデル、言語モデル及び単語辞書データを管理する。また、本実施形態において、データ管理部２２２は、音声認識結果として導出されるテキストデータから、ユーザの意図を表す意図データを生成するために使用される、後に図８～図１３を用いて説明する意図解釈用データセットを管理する。また、データ管理部２２２は、応答用テキストデータから応答音声データを生成するための音声合成辞書データを管理する。

【0044】

装置管理部２２３は、音声制御システム１０に含まれる装置の間の相互接続を管理する。例えば、装置管理部２２３は、クライアント端末５０、音声制御装置１００及び画像処理装置３００の各々の識別情報、アドレス情報及び認証情報を管理する。また、装置管理部２２３は、音声制御装置１００と画像処理装置３００との間の対応関係（例えば、１対多の関係）を、識別情報同士をマッピングする情報を保持することにより管理する。加えて、装置管理部２２３は、音声制御システム１０又は個々の装置を利用することが許容されるユーザの情報（例えば、識別情報、グループ情報、メールアドレス及び認証情報）を管理してもよい。

【0045】

音声認識部２２４は、音声制御装置１００から受信される入力音声データを、公知の音声認識技術を用いて、音声認識結果としての入力テキストデータへ変換する。例えば、音声認識部２２４は、入力音声データにより表される入力音声の波形及びその他の特徴量を音響モデルと照合し、一連の音素を抽出する。また、音声認識部２２４は、単語辞書データを用いた形態素解析、構文解析、意味解析及び文脈解析を通じて、一連の音素が表すテキストを認識する。音声認識結果として導出される入力テキストデータは、このように認識され得るテキストを表す。さらに、音声認識部２２４は、入力音声がユーザのどのような意図を表現しているのかを、後に詳しく説明する意図解釈用データセットを用いて認識する。そして、音声認識部２２４は、ユーザの意図の認識結果を示す意図データを生成し、生成した意図データを通信部２２１を介して画像処理装置３００へ送信する。

【0046】

音声合成部２２５は、画像処理装置３００から受信される応答用テキストデータに基づいて、応答音声を合成する。応答用テキストデータは、音声制御装置１００により読上げられるべき音声の内容をテキスト形式で表すデータである。より具体的には、音声合成部２２５は、データ管理部２２２により管理される音声合成辞書データを用いて、応答用テキストデータを音声制御装置１００により再生可能な音声データへと変換することにより、応答音声データを生成する。音声合成部２２５は、生成した応答音声データを、例えばＭＰ３フォーマットのような音声ファイルフォーマットに従って整形してもよい。

【0047】

音声認識部２２４による入力テキストデータに基づくユーザの意図の認識は、意図解釈用データセットに含まれるインテント一覧及びエンティティ一覧を用いて行われる。インテント一覧は、ユーザの入力音声の内容を、画像処理装置３００により実行可能な動作を基準としていくつかの意図の類型のうちの１つに分類するために、入力テキストデータと照合されるテキストの一覧である。以下の説明において、ユーザの意図の類型の各々をインテントと称する。

【0048】

図８及び図９は、インテント一覧の例を示している。インテント一覧は、インテントＩＤ（Intent ID）及び発話内容（Utterance）という２つのデータ項目を有する。インテントＩＤは、各インテントを識別するための識別子である。発話内容は、分類のために入力テキストデータと照合されるテキストのサンプルである。図８及び図９から理解されるように、インテント一覧において、１つのインテントＩＤについて複数の発話内容が定義可能である。これにより、同じ意図が異なる言い回しで表現される状況においてユーザの意図を正しい類型に分類することが可能となる。各発話内容は、図中で波括弧で囲まれたエンティティＩＤを含み得る。エンティティＩＤは、プレースホルダの役割を有し、このプレースホルダには、エンティティ一覧においてエンティティＩＤに関連付けられているいずれかの語が代入される。

【0049】

図１０～図１２は、エンティティ一覧の例を示している。エンティティ一覧は、エンティティＩＤ（Entity ID）、値ＩＤ（Value ID）、値（Value）及び同義語（Synonyms）という４つのデータ項目を有する。エンティティＩＤは、各エンティティを識別するための識別子である。値ＩＤは、各エンティティに関連付けられる語を識別するための識別子である。値は、値ＩＤにより識別される語を表す文字列である。同義語は、同じ語の言い換えを表す文字列である。このように、意味的には１つの語について表現の異なる１つ以上の同義語を定義可能とすることで、同じ動作又は同じ設定が異なる言い回しで表現される状況においてユーザの意図した指示内容を適切に解釈することが可能となる。

【0050】

具体的には、音声認識部２２４は、入力テキストデータと、インテント一覧に含まれる各インテントにエンティティ一覧に含まれる各エンティティの値又は同義語を代入して得られるテキストサンプルとの間の類似度を算出する。そして、音声認識部２２４は、予め設定される閾値を上回る類似度を示すテキストサンプルに対応するインテントに、入力音声を分類する。同時に、音声認識部２２４は、そのテキストサンプルが含むエンティティのエンティティＩＤ及び値ＩＤを取得する。複数のテキストサンプルの類似度が閾値を上回る場合には、類似度の最も高い１つのテキストサンプルが選択されてもよく、又は類似度の高い順に数個のテキストサンプルが認識結果の候補として選択されてもよい。このようにして、音声認識部２２４は、入力音声により表されるユーザの意図の知識表現を獲得する。例えば、「２部フルカラーでコピー」という入力音声が得られたものとする。音声認識部２２４は、「２部フルカラーでコピー」という入力テキストデータをインテント一覧及びエンティティ一覧と照合する。この入力テキストデータは、インテントＩＤ「Copy_with_2_settings」で識別される発話内容「{NUMBER}部{ColorMode}で{CopyOperation}」に一致する。当てはまるエンティティは、それぞれ{NUMBER}＝2、{ColorMode}＝cm_00005（フルカラー）、{CopyOperation}＝copy_00000（コピー）である。よって、ユーザの意図は、インテント「Copy_with_2_settings」、第１エンティティ「2」、第２エンティティ「cm_00005」及び第３エンティティ「copy_00000」の組合せとして認識される。音声認識部２２４は、このような認識結果を記述した意図データを生成する。なお、エンティティ一覧において、「コピー」も「複写」も共にエンティティＩＤ「copy_00000」に関連付けられているため、入力音声が「２部フルカラーで複写」であったとしても同じ認識結果が獲得され得る。

【0051】

図１３は、音声認識部２２４により生成され得る意図データのいくつかの例を示している。意図データは、構造化された複数のデータフィールドを含むデータである。意図データの１番目のデータフィールドは、入力音声が分類されたインテントを表し、フィールド名“Intent ID”及び区切り文字“:”に続いて、インテントＩＤが記述される。意図データの２番目のデータフィールドは、ゼロ又は１つ以上のエンティティを表し、フィールド名“Entities”及び区切り文字“:”に続いて、エンティティＩＤ及び値ＩＤのペアが列挙される。図１３の意図データ２３１は、インテント「Copy_with_noc」、並びに、２つのエンティティ{NUMBER}＝3及び{CopyOperation}＝copy_00000を含む。これは、画像処理装置３００に原稿を３部コピーすることを指示しようとしたユーザの意図を表す。意図データ２３２は、インテント「Send_history1」、並びに、２つのエンティティ{Timing}＝timing_00001及び{SendOperation}＝send_00000を含む。意図データ２３３は、インテント「Copy_history2」、並びに、２つのエンティティ{Frequency}＝freq_00000及び{CopyOperation}＝copy_00000を含む。意図データ２３４は、インテント「Recommend_setting」、並びに、２つのエンティティ{NUMBER}＝4及び{PrintOperation}＝print_00000を含む。意図データ２３２～２３４に関連するユーザの意図の解釈については、後に詳しく説明する。なお、意図データの構成は、図１３に示した例には限定されない。例えば、音声認識部２２４は、意図データに認識結果の複数の候補を含めてもよい。また、音声認識部２２４は、各インテント又は各エンティティについて算出した入力とサンプルとの間の類似度を意図データに追加的に含めてもよい。

【0052】

（３）画像処理装置
図７は、本実施形態に係る画像処理装置３００の機能面の構成の一例を示すブロック図である。図７を参照すると、画像処理装置３００は、通信部３２１、データ管理部３２２、表示制御部３２３、スキャナ制御部３２４、プリンタ制御部３２５、履歴データベース３２６及びジョブ制御部３３０を備える。これら機能ブロックの各々は、例えば、画像処理装置３００のＣＰＵ３１１が他のハードウェアと連携しながら対応するコンピュータプログラムを実行することにより実現され得る。

【0053】

通信部３２１は、ネットワークＩ／Ｆ３１５を介して、ネットワーク２０に接続される他の装置へデータを送信し、及び他の装置からデータを受信する。例えば、通信部３２１は、上述した意図データを音声認識サーバ２００から受信する。また、通信部３２１は、音声認識サーバ２００へ応答用テキストデータを送信する。また、通信部３２１は、クライアント端末５０からジョブの実行を指示する指示信号を受信する。また、通信部３２１は、クライアント端末５０へ読取画像データを送信する。

【0054】

データ管理部３２２は、画像処理装置３００による画像形成及び原稿読取りのために必要とされるデータを二次記憶装置３１４を用いて管理する。例えば、データ管理部３２２は、画像処理装置３００が有する画像処理機能の設定のための設定データ、実行すべきジョブのためのジョブデータ、及び音声認識サーバ２００との通信に要する認証情報を管理する。

【0055】

表示制御部３２３は、表示コントローラ３１６を介して操作パネル３６０による画像（例えば、ＵＩ画像）の表示を制御する。また、表示制御部３２３は、操作パネル３６０から操作Ｉ／Ｆ３１７を介して受付けられる操作信号により示されるユーザ入力の内容を解釈して、画像処理装置３００の適切な機能ブロックへユーザ入力を振り分ける。また、表示制御部３２３は、ジョブ制御部３３０からの要求に応じて、操作パネル３６０の表示内容を更新する。

【0056】

スキャナ制御部３２４は、ジョブ制御部３３０による制御に従って、スキャナＩ／Ｆ３１８を介してスキャナ３８０に原稿を読取らせ、生成される読取画像の画像データをデータ管理部３２２へ出力する。また、スキャナ制御部３２４は、スキャナＩ／Ｆ３１８を介してスキャナ３８０の動作ステータスを取得する。

【0057】

プリンタ制御部３２５は、ジョブ制御部３３０による制御に従って、プリンタＩ／Ｆ３１９を介してプリンタ３９０に画像を形成させる。また、プリンタ制御部３２５は、プリンタＩ／Ｆ３１９を介してプリンタ３９０の動作ステータスを取得する。

【0058】

履歴データベース３２６は、画像処理装置３００の画像処理ユニット、即ちスキャナ３８０及びプリンタ３９０により過去に実行された１つ以上のジョブの履歴データを保持するデータベースである。履歴データは、典型的には、過去に実行されたジョブごとのエントリを含む。各エントリは、対応するジョブが実行されたタイミング（例えば、日時）を示すタイミング情報と、当該ジョブに設定された少なくとも１つの設定値とを示す。

【0059】

図１４は、一実施形態に係る履歴データ１４００の構成の一例を示す説明図である。図１４を参照すると、履歴データ１４００は、オーナ１４０１、グループ１４０２、日時１４０３、タイプ１４０４及びジョブＩＤ１４０５に加えて、読取ジョブパラメータ群１４１０及び印刷ジョブパラメータ群１４２０を含む。オーナ１４０１は、ジョブを発行したユーザを識別するための識別情報（例えば、名称又はユーザＩＤ）である。グループ１４０２は、ジョブを発行したユーザが所属するグループを識別するための識別情報（例えば、グループＩＤ）である。日時１４０３は、ジョブが生成された日付及び時刻を示す。即ち、日時１４０３は、ジョブ実行のタイミングを示すタイミング情報である。タイプ１４０４は、ジョブの種別（例えば、「印刷」、「読取」、「コピー」又は「送信」）を示す。ジョブＩＤ１４０５は、各ジョブを一意に識別するための識別子である。読取ジョブパラメータ群１４１０は、読取ジョブに設定され得る設定項目の集合である。印刷ジョブパラメータ群１４２０は、印刷ジョブに設定され得る設定項目の集合である。コピージョブには、読取ジョブパラメータ群１４１０及び印刷ジョブパラメータ群１４２０の双方が設定され得る。送信ジョブは、読取画像データを指定された送信相手へ送信するためのジョブであってよく、送信ジョブには読取ジョブパラメータ群１４１０が設定され得る。図１４の中央の列には、各設定項目の説明が記述されている。右の列には、コピージョブのケースでのデータサンプルが示されている。なお、図１４に示した履歴データ１４００の構成は、一例に過ぎない。履歴データは、他の項目を追加的に含んでもよく、図示した項目のうちのいくつかを含まなくてもよい。また、後のジョブのために再利用されない設定項目は、履歴データの構成から省略されてもよく、又は空欄のまま残されてもよい。

【0060】

ジョブ制御部３３０は、音声制御システム１０によりユーザへ提供されるＵＩを用いてユーザと対話しながら、スキャナ３８０及びプリンタ３９０によるジョブの設定及び実行を制御する。音声制御システム１０によりユーザへ提供されるＵＩは、音声制御装置１００を介して提供される音声ＵＩ、及び画像処理装置３００の操作パネル３６０を介して提供されるＧＵＩを含み得る。ジョブ制御部３３０は、例えばユーザにより音声ＵＩ又はＧＵＩを介してジョブの実行が指示された場合に、スキャナ制御部３２４及びプリンタ制御部３２５の一方又は双方に、指示されたジョブに対応する動作を開始させる。また、ジョブ制御部３３０は、スキャナ制御部３２４及びプリンタ制御部３２５からスキャナ３８０及びプリンタ３９０の動作ステータスを収集し、収集した動作ステータスの情報を音声で出力し又は操作パネル３６０に表示させる。また、ジョブ制御部３３０は、スキャナ制御部３２４及びプリンタ制御部３２５により実行されたジョブに設定した設定値を示すエントリ（例えば、上述した履歴データ１４００のようなレコード）を履歴データベース３２６へ追加する。

【0061】

本実施形態において、音声ＵＩを介するユーザからの指示は、上述した意図データの形式で音声認識サーバ２００から受信される。例えば、{CopyOperation}というエンティティを含むインテントを記述した意図データは、コピージョブが実行されるべきことを示す。{ScanOperation}及び{PrintOperation}の双方を含むインテントを記述した意図データもまた、コピージョブが実行されるべきことを示す。{PrintOperation}というエンティティを含むインテントを記述した意図データは、印刷ジョブが実行されるべきことを示す。{ScanOperation}というエンティティを含むインテントを記述した意図データは、読取ジョブが実行されるべきことを示す。{SendOperation}というエンティティを含むインテントを記述した意図データは、送信ジョブが実行されるべきことを示す。

【0062】

ジョブ制御部３３０は、意図データに記述されているエンティティＩＤ及び値ＩＤに基づいて、ジョブに設定されるべき設定値を特定する。例えば、図１３に示した意図データ２３１が受信された場合、ジョブ制御部３３０は、コピージョブに設定値として印刷部数「３」を設定する。ジョブの実行が終了すると、ジョブ制御部３３０は、履歴データ１４００に、（他のいくつかの属性と共に）印刷部数（NomOfPrint）が３であったことを示すレコードを追記する。ジョブ制御部３３０は、意図データにより示されなかった（即ち、ユーザが入力音声で明示的に指定しなかった）設定項目の設定値として、既定値を使用してもよい。その代わりに、ジョブ制御部３３０は、不明な設定項目の設定値を指定することを、応答音声においてユーザに求めてもよい。なお、ジョブ制御部３３０は、スキャナ３８０及びプリンタ３９０の動作ステータスに依存して、指示されたジョブの実行を開始する代わりに、実行を保留し又は拒否してもよい。ジョブ制御部３３０は、意図データの受信に対する応答として、音声制御装置１００により読上げられるべき応答音声の内容を表す応答用テキストデータを生成し、生成した応答用テキストデータを音声認識サーバ２００へ返送する。この応答用テキストデータに基づいて音声認識サーバ２００により応答音声が合成され、音声制御装置１００のスピーカ１７０から応答音声が出力される。

【0063】

ジョブ制御部３３０は、応答用テキストデータと共に、音声対話セッションを継続するか否かを示すセッション制御情報を、通信部３２１を介して音声認識サーバ２００へ送信してもよい。ジョブ制御部３３０は、１つのセッションを通じて、対応するジョブの制御の状態（例えば、設定項目確認中といったジョブのステータス、並びにインテントＩＤ、エンティティＩＤ及び値ＩＤといったジョブパラメータ）をメモリ上に維持する。セッションは、例えばジョブの実行の終了又はジョブの中止といったタイミングで終了し得る。

【0064】

上で説明したような音声ＵＩを用いて画像処理ユニットの設定を制御するケースでは、ユーザは、既定値をそのまま使用できる場合を除いて、所望の設定値の数だけ設定値を繰り返し発声することを要する。特許文献１により提案された技術では、登録済みの音声名称を有するソフトキーに設定値のセットを予め割当てておくことで、ユーザは、その音声名称を発声するだけで同じ設定値のセットを呼び出すことができる。しかしながら、将来使用する設定値のセットを予め特定のキーに割当てる作業は、それ自体がユーザにとっての負担となる。また、ユーザにとって都合のいい機器の設定は、必ずしも一定ではなく、事前に予測可能とも限らない。

【0065】

そこで、本実施形態に係る音声制御システム１０は、履歴データベース３２６により保持される過去のジョブの履歴データから設定値を取得して再利用することで、ユーザによる設定値の発声の繰返しの負担を軽減する。具体的には、ジョブ制御部３３０は、ユーザの入力音声についての音声認識結果に基づいて履歴データ内の少なくとも１つのエントリを参照することにより、実行されるべき新たなジョブのための設定値を取得する。ここでの音声認識結果は、上述した意図データにより示される結果であってよい。そして、ジョブ制御部３３０は、取得した設定値を新たなジョブに設定して、対応する画像処理ユニットへジョブの実行を指示する。

【0066】

図１４を用いて説明したように、履歴データベース３２６内の履歴データ１４００は、ジョブＩＤ１４０５により識別されるジョブごとに１つのエントリを含む。本実施形態では、履歴データ１４００に含まれる複数のエントリのうち、音声認識結果に基づく条件に適合する１つ以上のエントリが、設定値の再利用のために参照され得る。

【0067】

一例として、ジョブ制御部３３０は、音声認識結果により示されるキーワードであって、参照すべきジョブの実行タイミングを表すキーワードに基づいて、履歴データ１４００内で参照すべきエントリを特定してもよい。例えば、図１３の意図データ２３２は、インテント「Send_history1」及びエンティティ{Timing}＝timing_00001を含む。インテント「Send_history1」は、履歴データに基づく送信ジョブの実行をユーザが意図していることを表し、エンティティ{Timing}＝timing_00001は、１日前に実行されたジョブを参照すべきことを表す。エンティティ{Timing}＝timing_00001は、ユーザにより発声された例えば「昨日」というキーワードに対応する。そこで、ジョブ制御部３３０は、履歴データ１４００の複数のエントリのうち、１日前に同じユーザにより発行されたジョブ種別が「送信」であるエントリを参照して、そのエントリが示す設定値を、新たな送信ジョブに設定し得る。

【0068】

他の例として、ジョブ制御部３３０は、音声認識結果により示されるキーワードであって、最も利用頻度の高い設定値を取得するためのキーワードに基づいて、履歴データ１４００内の１つ以上のエントリから最も利用頻度の高い設定値を取得してもよい。例えば、図１３の意図データ２３３は、インテント「Copy_history2」及びエンティティ{Frequency}＝freq_00000を含む。インテント「Copy_history2」は、履歴データに基づく印刷ジョブの実行をユーザが意図していることを表す。エンティティ{Frequency}＝freq_00000は、最も利用頻度の高い設定値を１つ以上のエントリから集計することにより取得して再利用すべきことを表す。エンティティ{Frequency}＝freq_00000は、ユーザにより発声された例えば「いつもの」というキーワードに対応する。そこで、ジョブ制御部３３０は、履歴データ１４００の複数のエントリのうち同じユーザにより発行されたジョブ種別が「コピー」である１つ以上のエントリを参照して、それらエントリが示す設定値の頻度（例えば、生起回数）を集計する。そして、ジョブ制御部３３０は、設定項目ごとに最も高い頻度を示した設定値を判定し、判定した設定値を新たな印刷ジョブに設定し得る。

【0069】

また別の例として、ジョブ制御部３３０は、音声認識結果に基づいて、履歴データ１４００内の同じユーザに関連付けられているエントリのみを参照するか、又は他のユーザに関連付けられているエントリをも参照するかを判定してもよい。例えば、図１３の意図データ２３４は、インテント「Recommend_setting」、エンティティ{Number}＝4及びエンティティ{PrintOperation}＝print_00000を含む。インテント「Recommend_setting」は、履歴データに基づいて推奨される設定値でジョブを実行することをユーザが望んでいることを表す。この場合、ジョブ制御部３３０は、新たなジョブの発行者であるユーザと同じユーザのみならず、他のユーザに関連付けられている履歴データ１４００のエントリをも参照して、新たなジョブのために推奨される設定値を取得する。ここで参照されるエントリは、例えば、新たなジョブの発行者であるユーザの所属グループと同じグループに関連付けられているエントリであってもよい。エンティティ{PrintOperation}＝print_00000は、実行すべきジョブが印刷ジョブであることを表す。そこで、ジョブ制御部３３０は、履歴データ１４００の複数のエントリのうち、ジョブ発行者と同じ所属グループに関連付けられているジョブ種別が「印刷」である１つ以上のエントリを参照して、それらエントリが示す設定値の頻度を集計する。そして、ジョブ制御部３３０は、設定項目ごとに最も高い頻度を示した設定値を判定し、判定した設定値を新たな印刷ジョブに設定し得る。

【0070】

ジョブ制御部３３０は、履歴データ１４００内の少なくとも１つのエントリを参照することにより取得した設定値で画像処理ユニットに新たなジョブを実行させる前に、設定内容の確認をユーザに求めるか否かを、音声認識結果に基づいて判定してもよい。例えば、ジョブ制御部３３０は、通常はジョブ実行前に設定内容の確認をユーザに求めるものとされ、入力音声が特定のキーワード（例えば、「すぐ」）を含む場合にユーザ確認を省略してもよい。それにより、ユーザの意図に応じて、音声対話が冗長となることを抑制して、音声ＵＩの利便性を向上させることができる。ここでの特定のキーワードがエンティティ一覧においてエンティティとして定義されてもよい。

【0071】

画像処理装置３００の画像処理ユニットにより実行可能なジョブについて、履歴データ１４００から設定することが許容される設定項目（即ち、過去のジョブから設定値を再利用することが許容される設定項目）が予め定義されてもよい。この場合、ジョブ制御部３３０は、履歴データ１４００から設定することが許容される設定項目の設定値を履歴データ１４００内のエントリを参照することにより取得し、それ以外の設定値として入力音声において明示的に指定された値又は既定値を利用し得る。ジョブ制御部３３０は、履歴データ１４００から取得した設定値を、ユーザの入力音声で明示的に指定された値で上書きしてもよい。

【0072】

図１５は、履歴データ１４００から設定することが許容される設定項目の定義の一例について説明するためのである。図１５（Ａ）では、図１４を用いて説明した履歴データ１４００の読取ジョブパラメータ群１４１０及び印刷ジョブパラメータ群１４２０の各設定項目について、履歴データからの設定が許容される場合に「ＹＥＳ」、許容されない場合に「ＮＯ」が示されている。例えば、読取ジョブパラメータ群１４１０の送信相手（destination）の名前（name）及びメールアドレス（mail_address）は、履歴データからの設定が許容されない。プレビュー要否（preview）及び読取濃度レベル（scan_density_level）は、履歴データからの設定が許容される。メール内容（mail_contents）の件名（subject）及び本文（body）は、履歴データからの設定が許容されない。画像ファイルフォーマット（image_file_format）、片面／両面（scan_sides）、読取りサイズ（scan_size）及びカラーモード（ColorMode）は、履歴データからの設定が許容される。印刷ジョブパラメータ群１４２０の印刷部数（NomOfPrint）、印刷用紙サイズ（PaperSize）及び片面／両面（Paper_sides）は、履歴データからの設定が許容される。文書フォーマット（document_format）は、印刷対象の文書データから自動的に決定される。カラーモード（ColorMode）は、履歴データからの設定が許容される。図１５（Ａ）の例では、送信ジョブの送信相手について履歴データからの設定を許容しないことで、データの誤送信による情報漏洩のリスクの低減が図られている。履歴データからの設定が許容されるか否かは、図１５（Ｂ）に示したように、ジョブ種別ごとに定義されてもよい。図１５（Ｂ）の例では、印刷ジョブ、送信ジョブ、読取ジョブ及びコピージョブについて別々に、履歴データから各項目の設定値を再利用することが許容されるか否かが定義されている。なお、図１５に示した定義は例に過ぎず、他の定義が用いられてもよい。

【0073】

ジョブ制御部３３０は、履歴データ１４００から設定することが許容されない設定項目の設定値を音声認識結果から取得できない場合に、当該設定値の入力を求める応答音声を音声制御装置１００のスピーカ１７０から出力させてもよい。例えば、図１３の意図データ２３２が受信された場合、ジョブ制御部３３０は、１日前の送信ジョブのエントリから、例えばプレビュー要否、読取濃度レベル、画像ファイルフォーマット、片面／両面、読取りサイズ及びカラーモードの設定値を取得し得る。しかし、送信相手及びメール内容は、意図データ２３２において指定されていない。そこで、ジョブ制御部３３０は、送信相手及びメール内容の入力を求める応答音声のための応答用テキストデータを生成し、生成した応答用テキストデータを音声認識サーバ２００へ送信し得る。なお、これら設定項目のユーザによる入力は、さらなる入力音声によって音声ＵＩで行われてもよく、又はＧＵＩ上で行われてもよい。

【0074】

図１６は、履歴データ内のエントリを参照する際の検索キーの一例について説明するための説明図である。図１６には、図１４を用いて説明した履歴データ１４００のデータ項目が再び示されており、対象のジョブ種別ごとに、履歴データ１４００の参照の際に検索キーとなり得る設定項目に記号「Ｋ」又は「（Ｋ）」が付与されている。例えば、どのジョブ種別についても、タイプ１４０４に加えて、オーナ１４０１、グループ１４０２及び日時１４０３が検索キーになり得る。実際には、ユーザ単位で履歴データを参照する際にはオーナ１４０１が、グループ単位で履歴データを参照する際にはグループ１４０２が検索キーになり、タイミング情報が指定された場合には日時１４０３が検索キーに追加される。また、印刷ジョブについては、文書フォーマット（document_format）もまた検索キーに追加され得る。例えば、印刷対象の文書のフォーマットが「pdf」である場合、過去にＰＤＦ文書を印刷した印刷ジョブの履歴データが優先的に参照され得る。送信ジョブについては、送信相手のメールアドレス（mail_address）もまた検索キーに追加され得る。即ち、新たな送信ジョブの送信相手が特定の宛て先である場合、過去に同じ相手を宛て先とした送信ジョブの履歴データが優先的に参照され得る。

【0075】

なお、音声対話中のユーザ（即ち、話者）がどのユーザであるのかは、公知の話者認識技術を用いて入力音声から特定されてもよく、又はユーザにより明示的に発声されてもよい。音声認識サーバ２００により話者認識が実行され、認識された話者のユーザＩＤが意図データに含められてもよい。代替的に、例えば音声制御装置１００又は画像処理装置３００に設けられる入力インタフェースをユーザが操作することにより、話者がどのユーザであるのかが明示的に指定されてもよい。

【0076】

上述した実施形態における処理の流れについて、典型的ないくつかのシナリオに沿って次節でさらに説明する。

【0077】

＜＜２．処理の流れ＞＞
＜２－１．全体的な流れ＞
図１７は、本実施形態に係る音声制御システム１０において実行され得る音声制御処理の全体的な流れの一例を示すシーケンス図である。ここでの音声制御処理には、音声制御装置１００、音声認識サーバ２００及び画像処理装置３００が関与する。なお、以下の説明では、処理ステップをＳ（ステップ）と略記する。

【0078】

まず、Ｓ１７０１で、音声制御装置１００は、ユーザからの音声入力の受付けを開始する。例えば、音声制御装置１００の開始検知部１２５は、ユーザがウェイクワードを発声したと認識したことに応じて、制御開始信号を音声制御部１３０へ出力し、それにより音声対話セッションが開始され得る。

【0079】

次いで、Ｓ１７０２で、音声制御装置１００のマイクロフォン１６０は、ユーザの入力音声を取得する。ここでは、ユーザは、画像処理装置３００による新たなジョブの実行を指示するための音声を発声するものとする。音声取得部１２３は、取得された入力音声の入力音声データを生成する。入力音声データの生成は、終了判定部１２６により音声入力の終了が検知されるまで継続され得る。

【0080】

次いで、Ｓ１７０３で、音声制御部１３０は、Ｓ１７０２で生成された入力音声データを音声認識サーバ２００へ送信する。なお、音声制御部１３０は、ひとまとまりの入力音声データを、終了判定部１２６により音声入力の終了が検知された後にまとめて送信してもよい。その代わりに、音声制御部１３０は、音声入力の終了タイミングを待つこと無く、入力音声データの断片を順次音声認識サーバ２００へ送信してもよい。音声認識サーバ２００の音声認識部２２４は、このような入力音声データを通信部２２１を介して受信する。

【0081】

次いで、Ｓ１７０４で、音声認識部２２４は、入力音声データについて音声認識を実行して入力音声データを入力テキストデータへ変換し、さらに入力テキストデータに基づいて意図データを生成する。

【0082】

次いで、Ｓ１７０５で、音声認識部２２４は、通信部２２１を介して画像処理装置３００へ意図データを送信する。画像処理装置３００のジョブ制御部３３０は、意図データを通信部３２１を介して受信する。

【0083】

次いで、Ｓ１７０６で、ジョブ制御部３３０は、受信した意図データに基づいて新たなジョブに設定されるべき設定値を取得するための設定取得処理を実行する。ここで実行される設定取得処理の詳細な流れの例を、後にさらに説明する。ジョブ制御部３３０は、設定取得処理において、ユーザへの応答として出力されるべき音声の内容を表す応答用テキストデータを生成する。また、Ｓ１７０７で、ジョブ制御部３３０は、意図データにより示されたユーザの意図に従って、画像処理装置３００の画像形成機能及び原稿読取機能の一方又は双方を制御する。なお、図中に点線で示したように、Ｓ１７０７はオプションである。即ち、画像処理装置３００の画像処理ユニットの制御は、必ずしも意図データが受信される都度行われなくてもよく、例えば音声対話セッションの最後に一度だけ行われてもよい。

【0084】

次いで、Ｓ１７０８で、ジョブ制御部３３０は、応答用テキストデータを通信部３２１を介して音声認識サーバ２００へ送信する。音声認識サーバ２００の音声合成部２２５は、応答用テキストデータを通信部２２１を介して受信する。なお、ジョブ制御部３３０は、Ｓ１７０８において、上述したように、応答用テキストデータと共にセッション制御情報を音声認識サーバ２００へ送信してもよい。

【0085】

次いで、Ｓ１７０９で、音声合成部２２５は、受信した応答用テキストデータを読上げる応答音声を合成し、合成した応答音声を表す応答音声データを生成する。

【0086】

次いで、Ｓ１７１０で、音声合成部２２５は、生成した応答音声データを、通信部２２１を介して音声制御装置１００へ送信する。音声制御装置１００の音声制御部１３０は、応答音声データを（セッション制御情報と共に）通信部１２１を介して受信する。

【0087】

次いで、Ｓ１７１１で、音声制御部１３０は、受信した応答音声データに基づいて音声再生部１２７に応答音声を再生させ、それにより応答音声がスピーカ１７０から出力される。

【0088】

図１７において符号Ｓ１７２０で示した１往復分の対話は、ユーザにより対話が中止される場合を除いて、音声対話セッションを継続すべきことをセッション制御情報が示している限り、反復的に行われ得る。音声対話セッションを終了すべきことをセッション制御情報が示す場合には、音声制御部１３０は、音声対話セッションを終了し、待機中の状態へ遷移し得る。開始検知部１２５により新たにウェイクワードが検知されると、音声対話セッションは再び開始する。

【0089】

＜２－２．設定取得処理＞
図１８は、図１７のＳ１７０６で実行され得る、本実施形態に係る設定取得処理の詳細な流れの一例を示すフローチャートである。ここでの設定取得処理は、例えば、画像処理装置３００のＣＰＵ３１１がＲＡＭ３１２にロードされるコンピュータプログラムを実行することにより、ジョブ制御部３３０の処理として実現され得る。

【0090】

まず、ジョブ制御部３３０は、図１７のＳ１７０５で音声認識サーバ２００から意図データが受信されたことをトリガとして、Ｓ１８０１で、画像処理装置３００の様々なステータスを収集する。例えば、ジョブ制御部３３０は、スキャナ３８０の動作ステータスをスキャナ制御部３２４から、プリンタ３９０の動作ステータスをプリンタ制御部３２５から、操作パネル３６０の表示ステータスを表示制御部３２３から取得し得る。

【0091】

次いで、Ｓ１８０２で、ジョブ制御部３３０は、収集した上記ステータスに基づいて、意図データにより示されているユーザにより意図された動作は実行可能であるか否かを判定する。例えば、意図データが印刷ジョブに関連付けられるインテントＩＤを含むにも関わらず、プリンタが何らかの原因（例えば、シート等の消耗材の不足又は先行する未完了のジョブの存在）で動作できない場合、意図された動作は実行可能ではないと判定され得る。ユーザにより意図された動作が実行可能ではないと判定された場合、処理はＳ１８０３へ進む。一方、ユーザにより意図された動作が実行可能であると判定された場合、処理はＳ１８０４へ進む。

【0092】

Ｓ１８０３で、ジョブ制御部３３０は、ユーザにより意図された動作が実行可能ではないため、動作実行不能を表す応答音声のための応答用テキストデータを生成する。例えば、コピージョブの実行が意図された場合において、コピージョブが実行不能である場合には、「現在、コピージョブを実行できません」という応答用テキストデータが生成され得る。なお、ここで生成される応答用テキストデータは、動作が実行不能である理由を読上げる音声を含んでもよい。

【0093】

一方、Ｓ１８０４では、ジョブ制御部３３０は、意図データ内のインテントＩＤにより識別されるインテントが、履歴データの参照を要するインテントであるかを判定する。履歴データの参照を要するインテントとは、例えば、図９に示したような「History」又は「Recommend」を部分文字列としてインテントＩＤに含むインテントであり得る。意図データが履歴データの参照を要するインテントを示す場合、処理はＳ１８０６へ進む。一方、意図データが履歴データの参照を要しないインテントを示す場合、処理はＳ１８０５へ進む。

【0094】

Ｓ１８０５では、ジョブ制御部３３０は、新たなジョブのために、履歴データを参照することなく、意図データにより示された設定値（及び、必要に応じて既定値）を取得する。

【0095】

一方、Ｓ１８０６では、ジョブ制御部３３０は、参照すべきジョブの実行タイミングを表すキーワードであるタイミングワードが入力音声に含まれていたかを、意図データ内のエントリに基づいて判定する。例えば、意図データが図１２に示したようなエンティティＩＤ「Timing」を含む場合、タイミングワードが入力音声に含まれていたと判定され得る。タイミングワードが入力音声に含まれていた場合、処理はＳ１８０７へ進む。一方、タイミングワードが入力音声に含まれていない場合、処理はＳ１８１０へ進む。

【0096】

Ｓ１８０７では、ジョブ制御部３３０は、現在対話中のユーザと同一ユーザ（又は同一グループ）の範囲内で、新たなジョブと同じジョブ種別を有し且つ指定されたタイミングにジョブの実行日時が適合する過去のジョブのエントリを、履歴データ内で特定する。次いで、ジョブ制御部３３０は、特定した履歴データのエントリにより示される設定値を、新たなジョブのための設定値として取得する。そして、処理はＳ１８１４へ進む。

【0097】

一方、Ｓ１８１０では、ジョブ制御部３３０は、現在対話中のユーザと同一ユーザ（又は同一グループ）の範囲内で、新たなジョブと同じジョブ種別を有する１つ以上の履歴データのエントリを特定する。次いで、Ｓ１８１１で、ジョブ制御部３３０は、特定したエントリから、設定項目ごとに値の頻度を集計する。次いで、Ｓ１８１２で、ジョブ制御部３３０は、履歴データから設定することが許容される項目の各々について、集計結果に基づき最も頻度の高い設定値を取得する。そして、処理はＳ１８１４へ進む。

【0098】

Ｓ１８１４で、ジョブ制御部３３０は、Ｓ１８０５、Ｓ１８０８又はＳ１８１２で取得した新たなジョブのための設定値に関連する応答用テキストデータを生成する。例えば、入力音声が新たなジョブの即時の実行を求めるキーワードを含んでいた場合には、ここで生成される応答用テキストデータは、単に新たなジョブの実行が開始されることをユーザへ通知する音声のためのテキストを含み得る。一方、新たなジョブの即時の実行がユーザにより求められていない場合には、ここで生成される応答用テキストデータは、新たなジョブの設定内容の確認をユーザに求める音声のためのテキストを含み得る。ジョブの実行に要する設定項目のうち設定値の不明な項目が残っている場合には、ここで生成される応答用テキストデータは、設定値の入力をユーザに求める音声のためのテキストを含み得る。

【0099】

ジョブ制御部３３０は、上述したＳ１８０３又はＳ１８１４において生成した応答用テキストデータを、図１７のＳ１７０８で音声認識サーバ２００へ送信する。

【0100】

＜２－３．様々な音声対話シナリオ＞
図１９～図２３は、それぞれ異なるシナリオに沿った、本実施形態における音声対話の一例を示すシーケンス図である。

【0101】

（１）第１のシナリオ（履歴データ参照なし）
図１９の第１のシナリオでは、ユーザは、履歴データの参照を求める内容の音声を発声しないため、新たなジョブの設定のために履歴データは参照されない。

【0102】

まず、Ｓ１９０１で、ユーザは、音声制御装置１００へ向けてウェイクワードを発声し、そのウェイクワードの検知をトリガとして音声対話セッションが開始される。ウェイクワードに続けて、ユーザは、Ｓ１９０２で、画像処理装置３００による実行を望む動作の内容を表す「コピーを３部」という音声を発声する。この音声は、音声制御装置１００のマイクロフォン１６０により入力音声として取得され、音声認識サーバ２００による音声認識の後、音声認識の結果を示す意図データが画像処理装置３００へ提供される。

【0103】

Ｓ１９０３で、画像処理装置３００のジョブ制御部３３０は、受信した意図データにより示されるユーザの意図に従って、図１８を用いて説明した設定取得処理を実行する。ここでは、履歴データの参照を要するインテントが示されないことから、ジョブ制御部３３０は、履歴データを参照することなく、意図データから新たなコピージョブのための設定値（例えば、３部という設定部数）を取得し得る。また、ジョブ制御部３３０は、設定内容の確認を求めるために、「３部コピーを実行してよろしいですか」という応答音声の内容を示す応答用テキストデータ生成する。Ｓ１９０４で、音声制御装置１００は、当該応答用テキストデータに基づいて合成された応答音声データを用いて、応答音声をスピーカ１７０から出力する。応答音声の出力の後、音声対話セッションは継続される。また、ジョブ制御部３３０は、未実行のジョブの設定値を一時的に保持しておく。

【0104】

次いで、Ｓ１９０５で、上記応答音声を聞いたユーザは、確認を求められた設定項目に誤りが無いことをシステムへ伝えるために、「はい」という音声を発声する。この音声もまた、マイクロフォン１６０により入力音声として取得され、音声認識サーバ２００による音声認識の後、音声認識の結果を示す意図データが画像処理装置３００へ提供される。

【0105】

Ｓ１９０６で、ジョブ制御部３３０は、設定項目に誤りが無いことが確認されたため、コピージョブの実行を開始する。その際、ジョブ制御部３３０は、指定されたジョブの実行開始をユーザに通知するために、例えば「コピーの実行を開始します」という応答音声の内容を示す応答用テキストデータを生成する。Ｓ１９０７で、当該応答用テキストデータにより示される内容の応答音声がスピーカ１７０から出力される。

【0106】

また、ジョブ制御部３３０は、Ｓ１９０８で、一時的に保持していた設定値を新たなコピージョブに設定して対応する画像処理ユニットへ出力することにより、ユーザが望んだ通りの制御を実行する。Ｓ１９０８は、Ｓ１９０７と並列的に実行されてよい。さらに、ジョブ制御部３３０は、ジョブの実行状況を示す実行状況画面３６１を、操作パネル３６０に表示させる。実行状況画面３６１の表示内容は、ジョブの進行に沿って適宜更新され得る。

【0107】

その後、画像処理装置３００においてコピージョブの実行が終了すると、ジョブ制御部３３０は、ジョブの実行終了をユーザに通知するために、例えば「コピーの実行を終了しました」という応答音声の内容を示す応答用テキストデータを生成する。そして、Ｓ１９０９で、当該応答用テキストデータにより示される内容の応答音声がスピーカ１７０から出力される。またジョブ制御部３３０は、Ｓ１９１０で、実行を終了したコピージョブに設定した設定値を示すエントリを、履歴データベース３２６に追記する。

【0108】

（２）第２のシナリオ（タイミング指定あり）
図２０の第２のシナリオでは、ユーザは、履歴データの参照を求める内容の音声を発声し、それにより音声制御システム１０が履歴データベース３２６から新たなジョブに設定される設定値を取得する。

【0109】

まず、Ｓ２００１で、ユーザは、音声制御装置１００へ向けてウェイクワードを発声し、そのウェイクワードの検知をトリガとして音声対話セッションが開始される。ウェイクワードに続けて、ユーザは、Ｓ２００２で、画像処理装置３００による実行を望む動作の内容を表す「昨日の設定で送信したい」という音声を発声する。この音声は、音声制御装置１００のマイクロフォン１６０により入力音声として取得され、音声認識サーバ２００による音声認識の後、音声認識の結果を示す意図データが画像処理装置３００へ提供される。

【0110】

Ｓ２００３で、画像処理装置３００のジョブ制御部３３０は、受信した意図データにより示されるユーザの意図に従って、図１８を用いて説明した設定取得処理を実行する。ここで受信される意図データは、図１３に示した意図データ２３２と同様のデータである。ジョブ制御部３３０は、新たな送信ジョブについて履歴データの参照を要するインテント「Send_history1」が示されたことから、新たな送信ジョブの設定値を取得するために、履歴データベース３２６を参照する。より具体的には、上記意図データは、参照すべきジョブの実行タイミングを示すエンティティ{Timing}＝timing_00001を含む。そのため、ジョブ制御部３３０は、ジョブ発行者が同一であって１日前の日時を有する送信ジョブのエントリを履歴データベース３２６内で特定する。そして、ジョブ制御部３３０は、履歴データから設定することが許容されている設定項目の設定値を、特定したエントリから取得する。下の表１は、一例として、本シナリオにおいて履歴データから取得され得る送信ジョブの設定値を太字で示している。

【0111】

【表1】

【0112】

また、ジョブ制御部３３０は、履歴データから設定することが許容されない送信相手（destination）の名前及びメールアドレスが意図データから取得できないため、送信相手の指定を求めるための応答用テキストデータ生成する。Ｓ２００４で、音声制御装置１００は、当該応答用テキストデータに基づいて合成された応答音声データを用いて、応答音声をスピーカ１７０から出力する。例えば、「昨日の送信の設定を使用します。宛て先はどうしますか」という応答音声が出力され得る。応答音声の出力の後、音声対話セッションは継続される。また、ジョブ制御部３３０は、未実行のジョブの設定値を一時的に保持しておく。

【0113】

Ｓ２００５で、上記応答音声を聞いたユーザは、所望の送信相手を指定するために、「鈴木さんで」という音声を発声する。この音声もまた、マイクロフォン１６０により入力音声として取得され、音声認識サーバ２００による音声認識の後、音声認識の結果を示す意図データが画像処理装置３００へ提供される。

【0114】

Ｓ２００６で、ジョブ制御部３３０は、送信相手を「鈴木さん」に設定すべきことを認識し、設定内容の確認を求めるために、「宛て先を鈴木さんに設定しました。間違いないですか」という応答音声の内容を示す応答用テキストデータ生成する。Ｓ２００７で、当該応答用テキストデータにより示される内容の応答音声がスピーカ１７０から出力される。また、ジョブ制御部３３０は、応答音声の出力に合わせて、設定確認画面３６２を操作パネル３６０に表示させる。図２０の例では、設定確認画面３６２に新たな送信ジョブのために取得された設定値の名称と値とが列挙されている。応答音声の出力の後、音声対話セッションは継続される。また、ジョブ制御部３３０は、未実行のジョブの設定値を一時的に保持しておく。

【0115】

その後のＳ２００８～Ｓ２０１３の対話は、図１９を用いて説明したＳ１９０５～Ｓ１９１０と同様であってよいため、ここでは説明を省略する。

【0116】

（３）第３のシナリオ（最頻値の再利用、即時実行）
図２１の第３のシナリオでは、ユーザは、履歴データの参照を求める内容の音声を発声し、それにより音声制御システム１０が履歴データベース３２６から新たなジョブに設定される設定値を取得する。但し、ユーザは、いつ実行されたジョブの履歴データを参照すべきかを指定せず、代わりに最も利用頻度の高い設定値の再利用を指示する。また、ユーザは、新たなジョブの即時の実行を指示する。

【0117】

まず、Ｓ２１０１で、ユーザは、音声制御装置１００へ向けてウェイクワードを発声し、そのウェイクワードの検知をトリガとして音声対話セッションが開始される。ウェイクワードに続けて、ユーザは、Ｓ２１０２で、「いつもの設定ですぐに３部コピー」という音声を発声する。この音声は、音声制御装置１００のマイクロフォン１６０により入力音声として取得され、音声認識サーバ２００による音声認識の後、音声認識の結果を示す意図データが画像処理装置３００へ提供される。

【0118】

Ｓ２１０３で、画像処理装置３００のジョブ制御部３３０は、受信した意図データにより示されるユーザの意図に従って、図１８を用いて説明した設定取得処理を実行する。ここでは、新たなコピージョブのために最も利用頻度の高い設定値の取得を指示するキーワード（「いつも」）が発声されたことから、ジョブ制御部３３０は、ジョブ発行者が同一の１つ以上のコピージョブのエントリを履歴データベース３２６内で特定する。また、ジョブ制御部３３０は、履歴データから設定することが許容されている設定項目ごとに、設定値の頻度を特定したエントリから集計する。そして、ジョブ制御部３３０は、各設定項目について最も高い頻度を集計結果において示した設定値を、新たなコピージョブに設定する。下の表２は、一例として、本シナリオにおいて履歴データから取得され得るコピージョブの設定値を太字で示している。なお、印刷部数の値はユーザにより明示的に発声されたため、新たなコピージョブの印刷部数は、意図データにより示された「３」という値に設定される（履歴データからの設定値は、上書きされ使用されない）。

【0119】

【表2】

【0120】

また、本シナリオでは、ジョブの即時実行を指示するキーワード（「すぐ」）が発声されたことから、ジョブ制御部３３０は、ジョブ実行前の設定内容の確認をユーザに求めない。ジョブ制御部３３０は、Ｓ２１０３の設定取得処理において、ジョブの実行開始をユーザに通知するための応答音声の内容を示す応答用テキストデータを生成する。Ｓ２１０４で、当該応答用テキストデータにより示される内容の応答音声がスピーカ１７０から出力される。ジョブ制御部３３０は、Ｓ２１０５で、コピージョブの実行を開始する。

【0121】

その後のＳ２１０６及びＳ２１０７は、図１９を用いて説明したＳ１９０９及びＳ１９１０と同様であってよいため、ここでは説明を省略する。

【0122】

（４）第４のシナリオ（タイミング指定あり、変更あり）
図２２の第４のシナリオでは、ユーザは、履歴データの参照を求める内容の音声を発声し、それにより音声制御システム１０が履歴データベース３２６から新たなジョブに設定される設定値を取得する。履歴データベース３２６から取得された設定値の１つは、ユーザとの音声対話を通じて変更される。

【0123】

まず、Ｓ２２０１で、ユーザは、音声制御装置１００へ向けてウェイクワードを発声し、そのウェイクワードの検知をトリガとして音声対話セッションが開始される。ウェイクワードに続けて、ユーザは、Ｓ２２０２で、「昨日の設定でＡさんへ送信したい」という音声を発声する。この音声は、音声制御装置１００のマイクロフォン１６０により入力音声として取得され、音声認識サーバ２００による音声認識の後、音声認識の結果を示す意図データが画像処理装置３００へ提供される。

【0124】

Ｓ２２０３で、画像処理装置３００のジョブ制御部３３０は、受信した意図データにより示されるユーザの意図に従って、図１８を用いて説明した設定取得処理を実行する。ジョブ制御部３３０は、新たな送信ジョブについて履歴データの参照を要するインテントが示されたことから、新たな送信ジョブの設定値を取得するために、履歴データベース３２６を参照する。より具体的には、受信された意図データは、参照すべきジョブの実行タイミングを示すエンティティ{Timing}＝timing_00001を含む。そのため、ジョブ制御部３３０は、ジョブ発行者が同一であって１日前の日時を有する送信ジョブのエントリを履歴データベース３２６内で特定する。そして、ジョブ制御部３３０は、履歴データから設定することが許容されている設定項目の設定値を、特定したエントリから取得する。本シナリオにおいて履歴データから当初取得され得る送信ジョブの設定値は、表１において太字で示したものと同様であってよい。また、ジョブ制御部３３０は、履歴データから設定することが許容されない送信相手の設定値を意図データに基づいて取得する。

【0125】

Ｓ２２０３の設定取得処理において、ジョブ制御部３３０は、設定内容の確認を求めるために、「昨日の送信の設定を使用します。設定に間違いはないですか」という応答音声の内容を示す応答用テキストデータ生成する。Ｓ２２０４で、当該応答用テキストデータにより示される内容の応答音声がスピーカ１７０から出力される。また、ジョブ制御部３３０は、応答音声の出力に合わせて、設定確認画面３６４ａを操作パネル３６０に表示させる。応答音声の出力の後、音声対話セッションは継続される。また、ジョブ制御部３３０は、未実行のジョブの設定値を一時的に保持しておく。

【0126】

Ｓ２２０５で、上記応答音声を聞いたユーザは、画像ファイルフォーマットをＪＰＥＧからＰＤＦへ変更することを指示する音声を発声する。この音声もまた、マイクロフォン１６０により入力音声として取得され、音声認識サーバ２００による音声認識の後、音声認識の結果を示す意図データが画像処理装置３００へ提供される。

【0127】

Ｓ２２０６で、ジョブ制御部３３０は、画像ファイルフォーマットをＪＰＥＧからＰＤＦへ変更すべきことを認識し、変更後の設定内容の確認を求めるために、「ＪＰＥＧをＰＤＦへ変更しました。間違いないですか」という応答音声の内容を示す応答用テキストデータ生成する。Ｓ２２０７で、当該応答用テキストデータにより示される内容の応答音声がスピーカ１７０から出力される。また、ジョブ制御部３３０は、応答音声の出力に合わせて、設定確認画面３６４ｂを操作パネル３６０に表示させる。応答音声の出力の後、音声対話セッションは継続される。また、ジョブ制御部３３０は、未実行のジョブの設定値を一時的に保持しておく。

【0128】

その後のＳ２２０８～Ｓ２２１３の対話は、図１９を用いて説明したＳ１９０５～Ｓ１９１０と同様であってよいため、ここでは説明を省略する。

【0129】

（５）第５のシナリオ（グループ単位の参照、最頻値の再利用）
上述した第２～第４のシナリオでは、履歴データのエントリがユーザ単位で参照された（即ち、ジョブ発行者が対話中のユーザと同一であるエントリから、新たなジョブの設定値が取得された）。これに対し、第５のシナリオでは、履歴データのエントリが、ユーザの所属グループの単位で参照される。また、ユーザは、最も利用頻度の高い設定値の再利用を指示する。

【0130】

まず、Ｓ２３０１で、ユーザは、音声制御装置１００へ向けてウェイクワードを発声し、そのウェイクワードの検知をトリガとして音声対話セッションが開始される。ウェイクワードに続けて、ユーザは、Ｓ２３０２で、「会議向けの設定で４部印刷」という音声を発声する。この音声は、音声制御装置１００のマイクロフォン１６０により入力音声として取得され、音声認識サーバ２００による音声認識の後、音声認識の結果を示す意図データが画像処理装置３００へ提供される。

【0131】

Ｓ２３０３で、画像処理装置３００のジョブ制御部３３０は、受信した意図データにより示されるユーザの意図に従って、図１８を用いて説明した設定取得処理を実行する。ここで受信される意図データは新たな印刷ジョブについて履歴データの参照を要するインテントを示し、よって、ジョブ制御部３３０は、新たな印刷ジョブの設定値を取得するために履歴データベース３２６を参照する。より具体的には、本シナリオにおいて、受信される意図データのインテントは、新たなジョブの発行者であるユーザの所属グループと同じグループに関連付けられているエントリを参照すべきことを表す。そのため、ジョブ制御部３３０は、ジョブ発行者の所属グループと同じグループＩＤを有する印刷ジョブの１つ以上のエントリを履歴データベース３２６内で特定する。また、ジョブ制御部３３０は、履歴データから設定することが許容されている設定項目ごとに、設定値の頻度を特定したエントリから集計する。そして、ジョブ制御部３３０は、各設定項目について最も高い頻度を集計結果において示した設定値を、新たな印刷ジョブに設定する。下の表３は、一例として、本シナリオにおいて履歴データから取得され得る印刷ジョブの設定値を太字で示している。なお、印刷部数の値はユーザにより明示的に発声されたため、新たな印刷ジョブの印刷部数は、意図データにより示された「４」という値に設定される（履歴データからの設定値は、上書きされ使用されない）。

【0132】

【表3】

【0133】

表３の例では、ジョブ制御部３３０は、新たな印刷ジョブの対象の文書データがＨＴＭＬデータであることから、本シナリオにおいて、文書フォーマットが「HTML」を示す履歴データのエントリを優先的に参照している。優先的な参照とは、例えば、文書フォーマットが「HTML」を示すエントリが存在する場合にそれらエントリのみを参照し、そのようなエントリが存在しない場合に他のエントリを参照することを含んでもよい。また、優先的な参照とは、「HTML」を示すエントリに他のエントリよりも大きい重みを付与して、頻度を重み付けと共に集計することを含んでもよい。

【0134】

Ｓ２３０３の設定取得処理において、ジョブ制御部３３０は、設定内容の確認を求めるために、「会議向けによく使用される印刷の設定を使用します。ＯＫですか」という応答音声の内容を示す応答用テキストデータ生成する。Ｓ２３０４で、当該応答用テキストデータにより示される内容の応答音声がスピーカ１７０から出力される。また、ジョブ制御部３３０は、応答音声の出力に合わせて、設定確認画面３６５を操作パネル３６０に表示させる。応答音声の出力の後、音声対話セッションは継続される。また、ジョブ制御部３３０は、未実行のジョブの設定値を一時的に保持しておく。

【0135】

その後のＳ２３０５～Ｓ２３１０の対話は、図１９を用いて説明したＳ１９０５～Ｓ１９１０と同様であってよいため、ここでは説明を省略する。

【0136】

＜＜３．変形例＞＞
本発明は上記実施形態に限定されず、様々な変形が可能である。ある変形例において、ジョブ制御部３３０は、履歴データから取得した設定値の確認を設定確認画面上でユーザに確認させる代わりに、履歴データから取得した設定値を読上げる応答音声をスピーカ１７０から出力させてもよい。

【0137】

上述したシナリオは、互いにどのように組合されてもよい。例えば、グループ単位の履歴データの参照は、どのような種類のインテントにおいて行われてもよい。また、ジョブの即時実行の指示は、どのような種類のインテントに付加されてもよい。

【0138】

本明細書において物理的に別個のものとして説明した２つ以上の装置は、互いにどのように組合されてもよい。また、単一の装置のものとして説明した複数の機能が、物理的に別個の装置へ分散されてもよい。例えば、音声認識サーバ２００の音声認識機能及び音声合成機能は、音声制御装置１００へ統合されてもよく、又は画像処理装置３００へ統合されてもよい。また、音声認識結果に基づいて履歴データから過去のジョブの設定値を取得する機能が、音声制御装置１００又は音声認識サーバ２００へ統合されてもよい。また、画像処理装置３００が、マイクロフォン及びスピーカと共に、音声制御装置１００の音声制御機能を有していてもよい。また、履歴データベースが、独立したデータサーバに実装サされてもよく、又は音声認識サーバ２００に統合されてもよい。その場合に、複数の画像処理装置３００におけるジョブの実行の履歴が共通的な履歴データベースにおいて保持され、装置間で相互に参照可能とされてもよい。

【0139】

＜＜４．まとめ＞＞
ここまで、図１～図２３を用いて、本開示の実施形態について詳細に説明した。上述した実施形態では、音声を取得するマイクロフォンと画像処理ユニットとを含む音声制御システムに、上記画像処理ユニットにより実行されたジョブの履歴データを保持するデータベースと、上記画像処理ユニットの設定を制御する制御手段とが設けられる。上記履歴データは、各ジョブに設定された少なくとも１つの設定値を示す。そして、上記制御手段は、上記マイクロフォンにより取得されるユーザの入力音声についての音声認識結果に基づいて上記履歴データを参照することにより、上記画像処理ユニットの新たなジョブに設定すべき設定値を取得する。かかる構成によれば、ユーザは、将来使用する設定のセットを予め特定のキーに割当てるような作業を行わずとも、自身にとって都合のいい設定のセットを音声ＵＩを介して履歴データから呼び出して使用することができる。それにより、多機能化した機器の設定に関連するユーザの負担が軽減される。

【0140】

また、上述した実施形態では、上記音声認識結果により示されるキーワードであって、参照すべきジョブの実行タイミングを表す当該キーワードに基づいて、上記履歴データ内で参照すべきエントリが特定され得る。かかる構成によれば、ユーザは、過去に使用した設定のセットを、例えば日時のようなタイミングを音声で指定して履歴データから呼び出すことができる。また、過去に異なるタイミングで使用した様々な設定のセットのうちの所望のセットをユーザが音声ＵＩを介して自在に呼び出すことも可能となる。

【0141】

また、上述した実施形態では、上記音声認識結果により示されるキーワードであって、最も利用頻度の高い設定値を取得するための当該キーワードに基づいて参照される上記履歴データ内の１つ以上のエントリから、最も利用頻度の高い設定値が取得され得る。かかる構成によれば、ユーザは、具体的なタイミングも設定値も発声することなく、普段使用することの多い設定のセットを短い音声で呼び出すことができる。

【0142】

また、上述した実施形態では、上記音声認識結果に基づいて、上記履歴データ内の上記ユーザに関連付けられているエントリのみを参照するか、又は他のユーザに関連付けられているエントリをも参照するかが判定され得る。かかる構成によれば、ユーザは、他のユーザにより使用されたことのある有用な設定のセットを、事前のキーへの割当て等の作業を行わずとも、簡易に呼び出して使用することができる。また、例えば、同一グループ内で推奨される設定のセットをグループ内の複数のユーザの間で共有することも容易となる。

【0143】

また、上述した実施形態では、上記画像処理ユニットにより実行可能なジョブについて、上記履歴データから設定することが許容される設定項目が予め定義され、許容されるそれら設定項目の設定値が上記履歴データを参照することにより取得され得る。かかる構成によれば、情報セキュリティ等の理由で又は設定の特性上、履歴データから再利用することが適切でない設定項目を、再利用の対象から確実に除外することができる。再利用の対象から除外される設定項目については、ユーザに設定値の入力（例えば、音声入力）を求めることで、必要とされるジョブの設定値を補うことができる。

【0144】

また、上述した実施形態では、上記履歴データから取得された設定値での新たなジョブの実行前に設定内容の確認をユーザに求めるか否かが、上記音声認識結果に基づいて判定され得る。かかる構成によれば、履歴データから取得される設定値での迅速なジョブの実行をユーザが望む場合に、音声対話が冗長となることを回避して直ちにジョブを実行することができる。

【0145】

＜＜５．その他の実施形態＞＞
上記実施形態は、１つ以上の機能を実現するプログラムをネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読み出して実行する処理の形式でも実現可能である。また、１つ以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

【0146】

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

【符号の説明】

【0147】

１０：音声制御システム、１００：音声制御装置、１６０：マイクロフォン、１７０：スピーカ、２００：音声認識サーバ、３００：画像処理装置、３１０：コントローラ（制御手段）、３２６：履歴データベース、３３０：ジョブ制御部、３８０：スキャナ（画像処理ユニット）、３９０：プリンタ（画像処理ユニット）

【図1】