IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

特許7397633音声制御システム、音声制御方法、画像処理装置及びプログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-05
(45)【発行日】2023-12-13
(54)【発明の名称】音声制御システム、音声制御方法、画像処理装置及びプログラム
(51)【国際特許分類】
   H04N 1/00 20060101AFI20231206BHJP
   G10L 15/10 20060101ALI20231206BHJP
   G06F 3/16 20060101ALI20231206BHJP
   B41J 29/38 20060101ALI20231206BHJP
   G03G 21/00 20060101ALI20231206BHJP
【FI】
H04N1/00 350
G10L15/10 200W
G06F3/16 650
B41J29/38 202
G03G21/00 376
【請求項の数】 11
(21)【出願番号】P 2019209827
(22)【出願日】2019-11-20
(65)【公開番号】P2021082970
(43)【公開日】2021-05-27
【審査請求日】2022-11-16
(73)【特許権者】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】110003281
【氏名又は名称】弁理士法人大塚国際特許事務所
(72)【発明者】
【氏名】松村 武士
(72)【発明者】
【氏名】高橋 徹
(72)【発明者】
【氏名】名屋 佑治
【審査官】橋爪 正樹
(56)【参考文献】
【文献】特開2019-096295(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 1/00
B41J 29/38
G03G 21/00
G06F 3/16
G10L 15/08-15/197
(57)【特許請求の範囲】
【請求項1】
音声を取得するマイクロフォンと、
画像処理ユニットと、
前記画像処理ユニットにより過去に実行された1つ以上のジョブの履歴データを保持するデータベースと、
前記画像処理ユニットの設定を制御する制御手段と、
を備え、
前記履歴データは、各ジョブに設定された少なくとも1つの設定値を示し、
前記画像処理ユニットにより実行可能なジョブについて、前記履歴データから設定することが許容される設定項目が予め定義されており、
前記制御手段は、
前記マイクロフォンにより取得されるユーザの入力音声についての音声認識結果に基づいて前記履歴データを参照することにより、前記履歴データから設定することが許容される前記設定項目について前記画像処理ユニットにより実行されるべき新たなジョブのための設定値を取得し、
取得した前記設定値を前記新たなジョブに設定する、
音声制御システム。
【請求項2】
請求項1に記載の音声制御システムであって、前記制御手段は、前記音声認識結果により示されるキーワードであって、参照すべきジョブの実行タイミングを表す当該キーワードに基づいて、前記履歴データ内で参照すべきエントリを特定する、音声制御システム。
【請求項3】
請求項1に記載の音声制御システムであって、前記制御手段は、前記音声認識結果により示されるキーワードであって、最も利用頻度の高い設定値を取得するための当該キーワードに基づいて、前記履歴データ内の1つ以上のエントリを参照して、最も利用頻度の高い設定値を取得する、音声制御システム。
【請求項4】
請求項1乃至3のいずれか1項に記載の音声制御システムであって、前記制御手段は、前記音声認識結果に基づいて、前記履歴データ内の前記ユーザに関連付けられているエントリのみを参照するか、又は他のユーザに関連付けられているエントリをも参照するかを判定する、音声制御システム。
【請求項5】
請求項1乃至4のいずれか1項に記載の音声制御システムであって、
音声を出力するスピーカ、をさらに含み、
前記制御手段は、前記履歴データから設定することが許容されない設定項目の設定値を前記音声認識結果から取得できない場合に、当該設定値の入力を求める応答音声を前記スピーカから出力させる、
音声制御システム。
【請求項6】
請求項1乃至のいずれか1項に記載の音声制御システムであって、前記制御手段は、前記履歴データを参照することにより取得した前記設定値で前記画像処理ユニットに前記新たなジョブを実行させる前に設定内容の確認をユーザに求めるか否かを、前記音声認識結果に基づいて判定する、音声制御システム。
【請求項7】
請求項1乃至のいずれか1項に記載の音声制御システムであって、前記画像処理ユニットは、シートに画像を形成する画像形成機能及び原稿を読取って画像データを生成する原稿読取機能のうちの少なくとも一方の機能を有する、音声制御システム。
【請求項8】
請求項1乃至7のいずれか1項に記載の音声制御システムであって、前記制御手段は、前記画像処理ユニットが前記新たなジョブを実行した後に、前記新たなジョブに設定した設定値で前記履歴データを更新する、音声制御システム。
【請求項9】
画像処理ユニットの設定を、音声を取得するマイクロフォンと連携して制御する音声制御方法において、
前記画像処理ユニットにより実行可能なジョブについて、履歴データから設定することが許容される設定項目が予め定義されており、
前記音声制御方法は、
前記画像処理ユニットにより過去に実行された1つ以上のジョブの前記履歴データをデータベースにおいて保持することと、
前記マイクロフォンにより取得されるユーザの入力音声についての音声認識結果に基づいて前記履歴データを参照することにより、前記履歴データから設定することが許容される前記設定項目について前記画像処理ユニットにより実行されるべき新たなジョブのための設定値を取得することと、
取得した前記設定値を前記新たなジョブに設定することと、
を含む音声制御方法。
【請求項10】
画像処理ユニットと、
前記画像処理ユニットの設定を制御する制御手段と、
を備え、
前記制御手段は、前記画像処理ユニットにより過去に実行された1つ以上のジョブの履歴データを保持するデータベースへアクセス可能であり、
前記画像処理ユニットにより実行可能なジョブについて、前記履歴データから設定することが許容される設定項目が予め定義されており、
前記制御手段は、
マイクロフォンにより取得されるユーザの入力音声についての音声認識結果に基づいて前記履歴データを参照することにより、前記履歴データから設定することが許容される前記設定項目について前記画像処理ユニットにより実行されるべき新たなジョブのための設定値を取得し、
取得した前記設定値を前記新たなジョブに設定する、
画像処理装置。
【請求項11】
画像処理ユニットを備える画像処理装置のプロセッサを、
前記画像処理ユニットの設定を制御する制御部、
として動作させるためのコンピュータプログラムにおいて、
前記制御部は、前記画像処理ユニットにより過去に実行された1つ以上のジョブの履歴データを保持するデータベースへアクセス可能であり、
前記画像処理ユニットにより実行可能なジョブについて、前記履歴データから設定することが許容される設定項目が予め定義されており、
前記制御部は、
マイクロフォンにより取得されるユーザの入力音声についての音声認識結果に基づいて前記履歴データを参照することにより、前記履歴データから設定することが許容される前記設定項目について前記画像処理ユニットにより実行されるべき新たなジョブのための設定値を取得し、
取得した前記設定値を前記新たなジョブに設定する、
コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、音声制御システム、音声制御方法、画像処理装置及びプログラムに関する。
【背景技術】
【0002】
シートに画像を形成する画像形成装置、及び原稿を読取る画像読取装置などの機器は、ユーザインタフェースを介して検知されるユーザ入力に従って、ジョブを実行する。それにより、ユーザが意図した通りの機器の動作が実現される。しかし、取扱可能な画質の向上と共に、機器の多機能化が年々進展しており、それにつれてジョブの設定項目が増加の一途を辿っている。設定項目の増加は、機器の設定方法に対するユーザの理解及びユーザの作業を煩雑化させ、ユーザに過剰な負担を強いる。
【0003】
ユーザにとって少ない負担でシステムと対話するための技術として、音声認識に基づくユーザインタフェース(以下、音声UIともいう)が知られている。例えば、特許文献1は、画像形成装置の多様な操作キーの音声名称をユーザに予め登録させておき、ユーザの入力音声から認識される音声名称に対応する操作キーの動作を実行する技術を提案している。特許文献1の技術によれば、例えばコピー動作のための設定のセットを特定のソフトキーに割当て、そのソフトキーの音声名称を装置に登録しておくことで、ユーザは、その音声名称を発声するだけで同じ設定のセットを呼び出すことができる。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2007-114297号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1により提案された技術では、ユーザは、将来使用する設定のセットを予め特定のキーに割当てる作業を行わなければ、その設定のセットを後日呼び出すことができない。しかしながら、ユーザにとって都合のいい機器の設定は、必ずしも一定ではなく、事前に予測可能とも限らない。そのため、設定のセットを予めキーに割当てる作業をユーザに課すことは、ユーザの負担を却って増大させ、音声UIの利用をユーザに躊躇わせる結果となる。割当て作業をユーザが行わない場合には、ユーザは、所望の設定を音声UIで機器へ伝えるために多くの設定項目の内容を逐一発声するか、多機能化に起因して複雑化したGUIを利用せざるを得ない。
【0006】
そこで、本開示は、多機能化した機器の設定に関連するユーザの負担を軽減する仕組みを提供することを目的とする。
【課題を解決するための手段】
【0007】
ある観点によれば、音声を取得するマイクロフォンと、画像処理ユニットと、前記画像処理ユニットにより過去に実行された1つ以上のジョブの履歴データを保持するデータベースと、前記画像処理ユニットの設定を制御する制御手段と、を備え、前記履歴データは、各ジョブに設定された少なくとも1つの設定値を示し、前記画像処理ユニットにより実行可能なジョブについて、前記履歴データから設定することが許容される設定項目が予め定義されており、前記制御手段は、前記マイクロフォンにより取得されるユーザの入力音声についての音声認識結果に基づいて前記履歴データを参照することにより、前記履歴データから設定することが許容される前記設定項目について前記画像処理ユニットにより実行されるべき新たなジョブのための設定値を取得し、取得した前記設定値を前記新たなジョブに設定する、音声制御システムが提供される。対応する方法、画像処理装置及びプログラムもまた提供される。
【発明の効果】
【0008】
本開示によれば、多機能化した機器の設定に関連するユーザの負担を軽減することができる。
【図面の簡単な説明】
【0009】
図1】一実施形態に係る画像形成システムの構成の一例を示す概略図。
図2】一実施形態に係る音声制御装置の物理的構成の一例を示すブロック図。
図3】一実施形態に係る音声認識サーバの物理的構成の一例を示すブロック図。
図4】一実施形態に係る画像処理装置の物理的構成の一例を示すブロック図。
図5】一実施形態に係る音声制御装置の機能面の構成の一例を示すブロック図。
図6】一実施形態に係る音声認識サーバの機能面の構成の一例を示すブロック図。
図7】一実施形態に係る画像処理装置の機能面の構成の一例を示すブロック図。
図8】インテント一覧の例を示す第1の説明図。
図9】インテント一覧の例を示す第2の説明図。
図10】エンティティ一覧の例を示す第1の説明図。
図11】エンティティ一覧の例を示す第2の説明図。
図12】エンティティ一覧の例を示す第3の説明図。
図13】一実施形態に係る意図データのいくつかの例を示す説明図。
図14】一実施形態に係る履歴データの構成の一例を示す説明図。
図15】履歴データから設定することが許容される設定項目の定義の一例について説明するための説明図。
図16】履歴データ内のエントリを参照する際の検索キーの一例について説明するための説明図。
図17】一実施形態に係る音声制御処理の全体的な流れの一例を示すシーケンス図。
図18】一実施形態に係る設定取得処理の詳細な流れの一例を示すフローチャート。
図19】第1のシナリオに沿った音声対話の一例を示すシーケンス図。
図20】第2のシナリオに沿った音声対話の一例を示すシーケンス図。
図21】第3のシナリオに沿った音声対話の一例を示すシーケンス図。
図22】第4のシナリオに沿った音声対話の一例を示すシーケンス図。
図23】第5のシナリオに沿った音声対話の一例を示すシーケンス図。
【発明を実施するための形態】
【0010】
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
【0011】
<<1.システムの構成例>>
<1-1.システムの全体像>
図1は、一実施形態に係る音声制御システム10の構成の一例を示す概略図である。図1を参照すると、音声制御システム10は、クライアント端末50、音声制御装置100、音声認識サーバ200及び画像処理装置300を含む。図1には、これらの装置及びサーバが1つずつ存在する例を示しているが、音声制御システム10は、より多くの装置及びサーバを含んでもよい。
【0012】
ネットワーク20は、クライアント端末50、音声制御装置100、音声認識サーバ200及び画像処理装置300を相互に接続する通信ネットワークである。ネットワーク20は、有線ネットワークであっても無線ネットワークであってもよい。ネットワーク20は、例えばインターネット、LAN(Local Area Network)、WAN(Wide Area Network)若しくはセルラーネットワーク、又はそれらの任意の組合せであってよい。ネットワーク20は、図示しないルータ、ゲートウェイ、プロキシサーバ又は無線LANアクセスポイントといった1つ以上のネットワーク機器を含んでもよい。
【0013】
クライアント端末50は、音声制御システム10のユーザにより使用される端末装置である。クライアント端末50は、例えばPC(Personal Computer)若しくはスマートフォンのような汎用的な情報端末であってもよく、又は特定の業務目的に特化した専用端末であってもよい。クライアント端末50は、例えば、電子データを画像処理装置300に印刷させるための印刷ジョブの発行、又は画像処理装置300において原稿を読取ることにより生成される読取画像データの受信のために使用されてよい。
【0014】
音声制御装置100は、ユーザの入力音声の取得と、音声制御システム10からユーザへの応答音声の出力とを制御する装置である。音声制御装置100は、例えばスマートスピーカのような、音声の入出力のための独立した装置であってもよい。また、音声制御装置100は、音声の入出力のためのエージェント機能を搭載した、クライアント端末50と同様の情報端末であってもよい。また、本明細書で説明する音声制御装置100の機能は、画像処理装置300に統合されてもよい。音声制御装置100は、音声対話の開始が指示されると、マイクロフォンを介してユーザの入力音声を取得して入力音声データを生成し、入力音声データを(必要に応じて符号化した後)音声認識サーバ200へ送信する。また、音声制御装置100は、音声認識サーバ200から受信される応答音声データを(必要に応じて復号した後)再生して、応答音声をスピーカを介して出力する。
【0015】
音声認識サーバ200は、入力音声についての音声認識、及び応答音声の合成を行うサーバ装置である。音声認識サーバ200は、コンピュータ又はワークステーションといった情報処理装置であってよい。音声認識サーバ200は、音声制御装置100から受信される音声データにより表される入力音声を認識して、ユーザの意図を解釈する。そして、音声認識サーバ200は、ユーザが画像処理装置300の操作を意図していると判定した場合に、ユーザの意図を表すデータ(以下、意図データという)を画像処理装置300へ送信する。また、音声認識サーバ200は、画像処理装置300から受信される応答用テキストデータに基づいて応答音声データを合成し、応答音声データを音声制御装置100へ送信する。
【0016】
画像処理装置300は、例えば、画像形成(印刷)機能及び画像読取(スキャン)機能のうちの少なくとも一方の機能を有する装置である。画像処理装置300の例は、コピー機、デジタルスキャナ、プリンタ、ファクシミリ送信機、及びこれら装置のうちの2つ以上の機能を組合せた複合機を含み得る。画像処理装置300の画像形成機能は、例えばクライアント端末50から受信される印刷ジョブに従って、シートに画像を形成する。原稿読取機能は、例えば原稿台に載置され又はADF(Auto-Document Feeder)にセットされる原稿を読取って画像データを生成し、生成した画像データをクライアント端末50へ送信する。なお、画像処理装置300は、上述した例に限定されず、例えば撮像装置のような、画像を処理する任意の種類の装置であってよい。
【0017】
<1-2.各装置の構成>
(1)音声制御装置
図2は、本実施形態に係る音声制御装置100の物理的構成の一例を示すブロック図である。図2を参照すると、音声制御装置100は、コントローラ110、マイクロフォン160、スピーカ170及びLED180を備える。コントローラ110は、CPU111、RAM112、ROM113、二次記憶装置114、ネットワークI/F115、マイクロフォンI/F116、オーディオコントローラ117及び報知コントローラ118を含む。内部バス120は、CPU111、RAM112、ROM113、二次記憶装置114、ネットワークI/F115、マイクロフォンI/F116、オーディオコントローラ117及び報知コントローラ118を相互に接続する信号線である。
【0018】
CPU(Central Processing Unit)111は、音声制御装置100の動作の全般を制御するプロセッサである。CPU111の制御機能は、例えば、ROM113又は二次記憶装置114に予め記憶され、RAM112にロードされるコンピュータプログラムを実行することにより実現され得る。コンピュータプログラムは、音声制御装置100の外部からダウンロードされてもよい。RAM(Random Access Memory)112は、揮発性のメモリであり、CPU111に作業用の一時的な記憶領域を提供する。ROM(Read Only Memory)113は、不揮発性のメモリであり、例えば音声制御装置100を起動させるためのブートプログラムを記憶する。二次記憶装置114は、RAM112及びROM113と比較して大規模な記憶領域を提供する、補助的な記憶装置である。二次記憶装置114は、例えばSDカードのような、取外し可能な記憶媒体を含んでもよい。ネットワークインタフェース(I/F)115は、音声制御装置100による他の装置との通信のための通信インタフェースである。ネットワークI/F115は、例えばWi-Fi若しくはBluetooth(登録商標)といった無線通信規格に従ってデータを無線で送受信してもよく、又はイーサネット(登録商標)のような有線通信規格に従ってデータを有線で送受信してもよい。無線通信の場合に、ネットワークI/F115は、アンテナ、RF(Radio Frequency)回路及びベースバンド回路を含んでもよい。
【0019】
マイクロフォンI/F116は、コントローラ110をマイクロフォン160へ接続するための接続インタフェースである。マイクロフォン160は、音声制御装置100が設置されている環境内の音声を取得するための機器である。マイクロフォン160は、例えば、ECM(Electret Condenser Microphones)又はMEMS(Micro-Electrical-Mechanical Systems)マイクロフォンであってもよい。MEMSマイクロフォンは、信頼性が高く小型であることから、例えばスマートフォンのような端末装置において広く採用されている。図2には音声制御装置100が1つのマイクロフォン160を有する例を示しているが、音声制御装置100は、例えば、入力音声の到来方向を推定するために異なる位置に3つ以上のマイクロフォンを有していてもよい。本実施形態は、マイクロフォンの特定の種類及び数には限定されない。マイクロフォン160は、例えば、ユーザにより発声された入力音声を取得して、取得した音声を表す音声信号をマイクロフォンI/F116を介してコントローラ110へ出力する。マイクロフォンI/F116は、音声信号を符号化して入力音声データを生成し、CPU111による制御に従って、入力音声データをRAM112に書込む。
【0020】
オーディオコントローラ117は、スピーカ170へ接続され、音声制御装置100によるスピーカ170を介した音声の出力を制御するためのコントローラである。スピーカ170は、音声を出力する(又は音声を再生する)ための機器である。図2には音声制御装置100が1つのスピーカ170を有する例を示しているが、音声制御装置100は、例えば、指向性のある音声を出力するために2つ以上のスピーカを有していてもよい。本実施形態は、スピーカの特定の種類及び数には限定されない。オーディオコントローラ117は、CPU111による制御に従って、出力音声データ(例えば、応答音声データ)を復号してアナログ形式の音声信号を生成し、スピーカ170へ音声信号を出力する。スピーカ170は、入力された音声信号に基づいて、環境内へ(例えば、ユーザへ)音声を出力する。なお、本明細書において、音声との用語は、発声され又は合成された音声のみならず、より単純な音をも含むものとする。
【0021】
報知コントローラ118は、LED180へ接続され、音声制御装置100によるLED180を介したステータスの報知を制御するためのコントローラである。LED(Light-Emitting Diode)180は、光を発する素子であり、発光色及び点灯のパターン(例えば、点灯、点滅又は消灯)によって音声制御装置100のステータスを表現する。報知コントローラ118は、CPU111による制御に従って、例えば待機中、音声入力中及び応答中といった音声制御装置100のステータスを、LED180を用いてユーザへ報知する。なお、音声制御装置100は、ステータスの報知のために、LED180の代わりに、例えば文字、図形及び画像を表示可能なディスプレイを有していてもよい。
【0022】
(2)音声認識サーバ
図3は、本実施形態に係る音声認識サーバ200の物理的構成の一例を示すブロック図である。図3を参照すると、音声認識サーバ200は、CPU211、RAM212、ROM213、二次記憶装置214及びネットワークI/F215を備える。内部バス220は、CPU211、RAM212、ROM213、二次記憶装置214及びネットワークI/F215を相互に接続する信号線である。
【0023】
CPU211は、音声認識サーバ200の動作の全般を制御するプロセッサである。CPU211の制御機能は、例えば、ROM213又は二次記憶装置214に予め記憶され、RAM212にロードされるコンピュータプログラムを実行することにより実現され得る。コンピュータプログラムは、音声認識サーバ200の外部からダウンロードされてもよい。RAM212は、揮発性のメモリであり、CPU211に作業用の一時的な記憶領域を提供する。ROM213は、不揮発性のメモリであり、例えば音声認識サーバ200を起動させるためのブートプログラムを記憶する。二次記憶装置214は、RAM212及びROM213と比較して大規模な記憶領域を提供する、補助的な記憶装置である。二次記憶装置214は、例えばHDD(Hard Disk Drive)又はSD(Solid State Drive)であってもよい。ネットワークI/F215は、音声認識サーバ200による他の装置との通信のための通信インタフェースである。ネットワークI/F215は、データを無線で送受信してもよく又は有線で送受信してもよい。無線通信の場合に、ネットワークI/F215は、アンテナ、RF回路及びベースバンド回路を含んでもよい。
【0024】
(3)画像処理装置
図4は、本実施形態に係る画像処理装置300の物理的構成の一例を示すブロック図である。図4を参照すると、画像処理装置300は、コントローラ310、操作パネル360、スキャナ380及びプリンタ390を備える。コントローラ310は、CPU311、RAM312、ROM313、二次記憶装置314、ネットワークI/F315、表示コントローラ316、操作I/F317、スキャナI/F318及びプリンタI/F319を含む。内部バス320は、CPU311、RAM312、ROM313、二次記憶装置314、ネットワークI/F315、表示コントローラ316、操作I/F317、スキャナI/F318及びプリンタI/F319を相互に接続する信号線である。
【0025】
CPU311は、画像処理装置300の動作の全般を制御するプロセッサである。CPU311の制御機能は、例えば、ROM313又は二次記憶装置314に予め記憶され、RAM312にロードされるコンピュータプログラムを実行することにより実現され得る。コンピュータプログラムは、画像処理装置300の外部からダウンロードされてもよい。RAM312は、揮発性のメモリであり、CPU311に作業用の一時的な記憶領域を提供する。ROM313は、不揮発性のメモリであり、例えば画像処理装置300を起動させるためのブートプログラムを記憶する。二次記憶装置314は、RAM312及びROM313と比較して大規模な記憶領域を提供する、補助的な記憶装置である。二次記憶装置314は、例えばHDD又はSDであってもよい。本実施形態において、二次記憶装置314には、後に説明する履歴データベース326が実装される。なお、履歴データベース326は、かかる例に限定されず、画像処理装置300(例えば、CPU311)によりアクセス可能な外部の装置に実装されてもよい。ネットワークI/F315は、画像処理装置300による他の装置との通信のための通信インタフェースである。ネットワークI/F315は、データを無線で送受信してもよく又は有線で送受信してもよい。無線通信の場合に、ネットワークI/F315は、アンテナ、RF回路及びベースバンド回路を含んでもよい。
【0026】
表示コントローラ316及び操作I/F317は、操作パネル360へ接続される。表示コントローラ316は、CPU311による制御に従って、操作パネル360にユーザインタフェース(UI)画像を表示させる。操作パネル360は、画像を表示可能な表示デバイスである。操作パネル360は、例えば、ユーザによるタッチ入力を受付けるタッチパネルであってもよい。その代わりに、操作パネル360は、例えばキーパッド及びボタン等の入力デバイスを伴う、例えばLCD(Liquid Crystal Display)のようなディスプレイであってもよい。操作パネル360は、受付けたユーザ入力の内容を示す操作信号を、操作I/F317を介してコントローラ310へ出力する。操作I/F317は、CPU311による制御に従って、操作信号により示されるユーザ入力の内容をRAM312へ書込む。
【0027】
スキャナI/F318は、コントローラ310をスキャナ380へ接続するための接続インタフェースである。スキャナ380は、原稿を読取って、読取画像の画像データを生成する画像処理ユニットである。即ち、スキャナ380は、画像処理装置300の原稿読取機能を提供する。スキャナ380は、原稿を載置するための原稿台及び原稿を自動的に搬送するADFのうちの一方又は双方(図示せず)を有してよい。スキャナI/F318は、CPU311による制御に従って、原稿の読取りを指示する制御コマンド(ジョブともいう)をスキャナ380へ送信し、スキャナ380から受信される画像データをRAM312へ書込む。
【0028】
プリンタI/F319は、コントローラ310をプリンタ390へ接続するための接続インタフェースである。プリンタ390は、コントローラ310から受信される画像データに基づいてシートに画像を形成する画像処理ユニットである。即ち、プリンタ390は、画像処理装置300の画像形成機能を提供する。プリンタI/F319は、CPU311による制御に従って、画像の形成を指示する制御コマンドをプリンタ390へ送信し、プリンタ390から受信される画像形成動作の結果をRAM312へ書込む。
【0029】
<1-3.各装置の機能>
(1)音声制御装置
図5は、本実施形態に係る音声制御装置100の機能面の構成の一例を示すブロック図である。図5を参照すると、音声制御装置100は、通信部121、データ管理部122、音声取得部123、開始検知部125、終了判定部126、音声再生部127、報知部128及び音声制御部130を備える。これら機能ブロックの各々は、例えば、音声制御装置100のCPU111が他のハードウェアと連携しながら対応するコンピュータプログラムを実行することにより実現され得る。
【0030】
通信部121は、ネットワークI/F115を介して、ネットワーク20に接続される他の装置へデータを送信し、及び他の装置からデータを受信する。例えば、通信部121は、後に説明する入力音声データを音声認識サーバ200へ送信する。また、通信部121は、音声認識サーバ200から応答音声データを受信する。
【0031】
データ管理部122は、音声制御装置100による音声の入出力の制御のために必要とされるデータを二次記憶装置114を用いて管理する。本明細書において、データの管理とは、例えば所定の記憶領域へのデータの保存、データの更新、データへのアクセスの制限及びデータの読出しを含み得る。例えば、データ管理部122は、音声認識サーバ200との通信に要する認証情報を二次記憶装置114の所定の記憶領域において管理する。
【0032】
音声取得部123は、マイクロフォン160により取得される音声のアナログ音声信号を音声データへ変換し、音声データをRAM112において一時的に保持する。音声取得部123は、例えば、音声制御装置100及び音声認識サーバ200の双方によりサポートされる音声ファイルフォーマット(例えば、MP3フォーマット)に従って音声データを整形してもよい。
【0033】
開始検知部125は、音声制御装置100に対するユーザ入力を監視し、検知されるユーザ入力に基づいて、音声制御装置100によるユーザとの音声UIでの対話を開始すべきかを判定する。例えば、開始検知部125は、音声取得部123により取得される音声データに基づいて、ユーザが対話開始のためのウェイクワードを発声したと認識された場合に、ユーザとの対話を開始すべきであると判定してもよい。また、開始検知部125は、例えば、音声制御装置100の入力デバイス(図示せず)に対してユーザが所定の操作を行った(例えば、ボタンを押下した)ことが検知された場合に、ユーザとの対話を開始すべきであると判定してもよい。開始検知部125は、ユーザとの対話を開始すべきであると判定すると、制御開始信号を音声制御部130へ出力する。上記ウェイクワードの文字列又は音声波形は、予め決定され、音声制御装置100に登録される(データ管理部122によりデータとして管理される)。ユーザは、まずウェイクワードを発声し、続いて画像処理装置300の動作を所望の設定内容と共に発声することにより、画像処理装置300を自身の意図の通りに動作させ得る。
【0034】
終了判定部126は、ユーザからの個々の音声入力の終了タイミングを、音声取得部123により取得される音声データに基づいて判定する。一例として、終了判定部126は、入力される音声信号の特性を既知の音声の特性と比較して、少なくともある期間にわたりユーザ又は人間が発声していないと判定した場合に、個々の音声入力が終了した(発声が途切れた)と判定し得る。ここでの既知の音声の特性とは、音声制御システム10を利用するユーザそれぞれについて予め登録されるユーザ固有の特性であってもよく、又は標準的な人間の(即ち、複数のユーザに共通の)音声の特性であってもよい。他の例として、終了判定部126は、音声取得部123により取得される音声データに基づいて、ユーザが特定のキーワードを発声したと認識された場合に、個々の音声入力が終了したと判定してもよい。また別の例として、終了判定は、音声データに基づいて認識されるユーザの入力音声の意味又は文脈を解析することにより行われてもよい。終了判定部126は、個々の音声入力が終了したと判定した場合、発声終了信号を音声制御部130へ出力する。なお、こうした終了判定は、終了判定部126の代わりに音声認識サーバ200により行われてもよい。これ以降の説明において、音声取得部123により取得される音声にユーザの入力音声が含まれていない期間を空白期間と称する。
【0035】
音声再生部127は、音声制御部130による制御に従って、通信部121により受信される音声合成データにより表される出力音声を、オーディオコントローラ117及びスピーカ170を用いて再生する。
【0036】
報知部128は、音声制御部130による制御に従って、報知コントローラ118及びLED180を用いて、ユーザへの様々な報知を行う。例えば、報知部128は、音声対話セッションが継続している期間中、個々の入力音声が検知されている期間中、又は応答音声が出力されている期間中に、LED180を点灯させ、点滅させ又は消灯させてもよい。また、報知部128は、音声対話セッションの開始及び終了といったイベントの発生をLED180を用いてユーザへ報知してもよい。なお、ユーザへの報知は、効果音の出力又はバイブレーションといった他の手段でなされてもよい。
【0037】
音声制御部130は、音声認識サーバ200と連携して、ユーザの入力音声の取得と、音声制御装置100による応答音声の出力とを制御する。例えば、音声制御部130は、音声取得部123により取得される音声データを通信部121を介して音声認識サーバ200へ送信して、ユーザの入力音声についての認識を音声認識サーバ200へ要求する。また、音声制御部130は、上記要求への応答として音声認識サーバ200から通信部121を介して応答音声データを受信し、受信した応答音声データに基づいて応答音声を音声再生部127に再生させる。
【0038】
ここで、音声制御部130による制御の下での、ユーザと音声制御装置100との間の音声対話の様子について音声の例を挙げて説明する。音声制御部130による制御は、開始検知部125からの制御開始信号の入力に応じて開始される。音声制御部130は、例えば、終了判定部126から発声終了信号が入力されるまでに音声取得部123により取得される一連の音声の音声データを、ひとまとまりの入力音声データとして扱う。例えば、ユーザが、音声制御装置100に向けてウェイクワードを発声し、続いて「2部フルカラーでコピー」と発声したとする。ウェイクワードは、開始検知部125により認識され、開始検知部125から音声制御部130へ制御開始信号が出力される。音声制御部130は、制御開始信号の入力に応じて、音声取得部123に入力音声の取得を開始させる。音声取得部123は、ウェイクワードに続いて発声された「2部フルカラーでコピー」という入力音声を取得する。終了判定部126は、「2部フルカラーでコピー」の後の空白期間を認識して、発声終了信号を音声制御部130へ出力する。音声制御部130は、発声終了信号の入力に応じて、音声取得部123に入力音声の取得を終了させる。音声取得部123がひとまとまりの入力音声を取得している期間中、報知部128は、例えばLED180を点灯させて、音声入力中というステータスをユーザへ報知する。
【0039】
次いで、音声制御部130は、一時的にRAM112により保持されていた「2部フルカラーでコピー」という入力音声データを、通信部121を介して音声認識サーバ200へ送信し、音声認識サーバ200からの応答に向けて待機する。音声認識サーバ200から通信部121を介して受信される応答は、後述する音声認識サーバ200により生成される応答音声データを含み得る。応答音声データは、例えば、「原稿をセットして下さい」という応答音声を表すデータである。音声制御部130は、応答音声データを音声再生部127へ出力し、応答音声を音声再生部127に再生させる。その結果、スピーカ170から上記応答音声が出力される。音声再生部127が応答音声を再生している期間中、報知部128は、例えばLED180を点滅させて、応答中というステータスをユーザへ報知する。
【0040】
音声認識サーバ200からの上記応答は、音声対話セッションを継続するか又は終了するかを示すセッション制御情報を含み得る。音声制御部130は、例えば、セッション制御情報が音声対話セッションを継続すべきことを示す場合、応答音声の再生の終了後に、音声取得部123に入力音声の取得を再び開始させる。この場合、ユーザは、再度ウェイクワードを発声しなくとも、次の音声入力を行うことができる。それにより、ユーザと音声制御装置100との間の自然な音声対話が促進され、ユーザは一連の対話を通じて画像処理装置300の所望の動作のための設定及び指示をシステムに伝えることができる。セッション制御情報が音声対話セッションを終了すべきことを示す場合、音声制御部130は、例えば報知部128にLED180を消灯させ、待機中のステータスへ遷移する。この場合、ユーザは、新たにウェイクワードを発声することにより(又は音声制御装置100に対し所定の操作をすることにより)、音声対話を再開することができる。
【0041】
(2)音声認識サーバ
図6は、本実施形態に係る音声認識サーバ200の機能面の構成の一例を示すブロック図である。図6を参照すると、音声認識サーバ200は、通信部221、データ管理部222、装置管理部223、音声認識部224及び音声合成部225を備える。これら機能ブロックの各々は、例えば、音声認識サーバ200のCPU211が他のハードウェアと連携しながら対応するコンピュータプログラムを実行することにより実現され得る。
【0042】
通信部221は、ネットワークI/F215を介して、ネットワーク20に接続される他の装置へデータを送信し、及び他の装置からデータを受信する。例えば、通信部221は、入力音声データを音声制御装置100から受信する。また、通信部221は、後に説明する音声認識部224により生成される意図データを、画像処理装置300へ送信する。また、通信部221は、画像処理装置300から応答用テキストデータを受信する。また、通信部221は、音声制御装置100へ、上述したセッション制御情報を含み得る応答音声データを送信する。
【0043】
データ管理部222は、音声認識サーバ200による音声の認識及び合成のために必要とされるデータを二次記憶装置214を用いて管理する。例えば、データ管理部222は、音声認識サーバ200との通信に要する認証情報を二次記憶装置214の所定の記憶領域において管理する。また、データ管理部222は、入力音声データにより表される入力音声を、音声認識結果としてのテキストデータへ変換するための、例えば音響モデル、言語モデル及び単語辞書データを管理する。また、本実施形態において、データ管理部222は、音声認識結果として導出されるテキストデータから、ユーザの意図を表す意図データを生成するために使用される、後に図8図13を用いて説明する意図解釈用データセットを管理する。また、データ管理部222は、応答用テキストデータから応答音声データを生成するための音声合成辞書データを管理する。
【0044】
装置管理部223は、音声制御システム10に含まれる装置の間の相互接続を管理する。例えば、装置管理部223は、クライアント端末50、音声制御装置100及び画像処理装置300の各々の識別情報、アドレス情報及び認証情報を管理する。また、装置管理部223は、音声制御装置100と画像処理装置300との間の対応関係(例えば、1対多の関係)を、識別情報同士をマッピングする情報を保持することにより管理する。加えて、装置管理部223は、音声制御システム10又は個々の装置を利用することが許容されるユーザの情報(例えば、識別情報、グループ情報、メールアドレス及び認証情報)を管理してもよい。
【0045】
音声認識部224は、音声制御装置100から受信される入力音声データを、公知の音声認識技術を用いて、音声認識結果としての入力テキストデータへ変換する。例えば、音声認識部224は、入力音声データにより表される入力音声の波形及びその他の特徴量を音響モデルと照合し、一連の音素を抽出する。また、音声認識部224は、単語辞書データを用いた形態素解析、構文解析、意味解析及び文脈解析を通じて、一連の音素が表すテキストを認識する。音声認識結果として導出される入力テキストデータは、このように認識され得るテキストを表す。さらに、音声認識部224は、入力音声がユーザのどのような意図を表現しているのかを、後に詳しく説明する意図解釈用データセットを用いて認識する。そして、音声認識部224は、ユーザの意図の認識結果を示す意図データを生成し、生成した意図データを通信部221を介して画像処理装置300へ送信する。
【0046】
音声合成部225は、画像処理装置300から受信される応答用テキストデータに基づいて、応答音声を合成する。応答用テキストデータは、音声制御装置100により読上げられるべき音声の内容をテキスト形式で表すデータである。より具体的には、音声合成部225は、データ管理部222により管理される音声合成辞書データを用いて、応答用テキストデータを音声制御装置100により再生可能な音声データへと変換することにより、応答音声データを生成する。音声合成部225は、生成した応答音声データを、例えばMP3フォーマットのような音声ファイルフォーマットに従って整形してもよい。
【0047】
音声認識部224による入力テキストデータに基づくユーザの意図の認識は、意図解釈用データセットに含まれるインテント一覧及びエンティティ一覧を用いて行われる。インテント一覧は、ユーザの入力音声の内容を、画像処理装置300により実行可能な動作を基準としていくつかの意図の類型のうちの1つに分類するために、入力テキストデータと照合されるテキストの一覧である。以下の説明において、ユーザの意図の類型の各々をインテントと称する。
【0048】
図8及び図9は、インテント一覧の例を示している。インテント一覧は、インテントID(Intent ID)及び発話内容(Utterance)という2つのデータ項目を有する。インテントIDは、各インテントを識別するための識別子である。発話内容は、分類のために入力テキストデータと照合されるテキストのサンプルである。図8及び図9から理解されるように、インテント一覧において、1つのインテントIDについて複数の発話内容が定義可能である。これにより、同じ意図が異なる言い回しで表現される状況においてユーザの意図を正しい類型に分類することが可能となる。各発話内容は、図中で波括弧で囲まれたエンティティIDを含み得る。エンティティIDは、プレースホルダの役割を有し、このプレースホルダには、エンティティ一覧においてエンティティIDに関連付けられているいずれかの語が代入される。
【0049】
図10図12は、エンティティ一覧の例を示している。エンティティ一覧は、エンティティID(Entity ID)、値ID(Value ID)、値(Value)及び同義語(Synonyms)という4つのデータ項目を有する。エンティティIDは、各エンティティを識別するための識別子である。値IDは、各エンティティに関連付けられる語を識別するための識別子である。値は、値IDにより識別される語を表す文字列である。同義語は、同じ語の言い換えを表す文字列である。このように、意味的には1つの語について表現の異なる1つ以上の同義語を定義可能とすることで、同じ動作又は同じ設定が異なる言い回しで表現される状況においてユーザの意図した指示内容を適切に解釈することが可能となる。
【0050】
具体的には、音声認識部224は、入力テキストデータと、インテント一覧に含まれる各インテントにエンティティ一覧に含まれる各エンティティの値又は同義語を代入して得られるテキストサンプルとの間の類似度を算出する。そして、音声認識部224は、予め設定される閾値を上回る類似度を示すテキストサンプルに対応するインテントに、入力音声を分類する。同時に、音声認識部224は、そのテキストサンプルが含むエンティティのエンティティID及び値IDを取得する。複数のテキストサンプルの類似度が閾値を上回る場合には、類似度の最も高い1つのテキストサンプルが選択されてもよく、又は類似度の高い順に数個のテキストサンプルが認識結果の候補として選択されてもよい。このようにして、音声認識部224は、入力音声により表されるユーザの意図の知識表現を獲得する。例えば、「2部フルカラーでコピー」という入力音声が得られたものとする。音声認識部224は、「2部フルカラーでコピー」という入力テキストデータをインテント一覧及びエンティティ一覧と照合する。この入力テキストデータは、インテントID「Copy_with_2_settings」で識別される発話内容「{NUMBER}部{ColorMode}で{CopyOperation}」に一致する。当てはまるエンティティは、それぞれ{NUMBER}=2、{ColorMode}=cm_00005(フルカラー)、{CopyOperation}=copy_00000(コピー)である。よって、ユーザの意図は、インテント「Copy_with_2_settings」、第1エンティティ「2」、第2エンティティ「cm_00005」及び第3エンティティ「copy_00000」の組合せとして認識される。音声認識部224は、このような認識結果を記述した意図データを生成する。なお、エンティティ一覧において、「コピー」も「複写」も共にエンティティID「copy_00000」に関連付けられているため、入力音声が「2部フルカラーで複写」であったとしても同じ認識結果が獲得され得る。
【0051】
図13は、音声認識部224により生成され得る意図データのいくつかの例を示している。意図データは、構造化された複数のデータフィールドを含むデータである。意図データの1番目のデータフィールドは、入力音声が分類されたインテントを表し、フィールド名“Intent ID”及び区切り文字“:”に続いて、インテントIDが記述される。意図データの2番目のデータフィールドは、ゼロ又は1つ以上のエンティティを表し、フィールド名“Entities”及び区切り文字“:”に続いて、エンティティID及び値IDのペアが列挙される。図13の意図データ231は、インテント「Copy_with_noc」、並びに、2つのエンティティ{NUMBER}=3及び{CopyOperation}=copy_00000を含む。これは、画像処理装置300に原稿を3部コピーすることを指示しようとしたユーザの意図を表す。意図データ232は、インテント「Send_history1」、並びに、2つのエンティティ{Timing}=timing_00001及び{SendOperation}=send_00000を含む。意図データ233は、インテント「Copy_history2」、並びに、2つのエンティティ{Frequency}=freq_00000及び{CopyOperation}=copy_00000を含む。意図データ234は、インテント「Recommend_setting」、並びに、2つのエンティティ{NUMBER}=4及び{PrintOperation}=print_00000を含む。意図データ232~234に関連するユーザの意図の解釈については、後に詳しく説明する。なお、意図データの構成は、図13に示した例には限定されない。例えば、音声認識部224は、意図データに認識結果の複数の候補を含めてもよい。また、音声認識部224は、各インテント又は各エンティティについて算出した入力とサンプルとの間の類似度を意図データに追加的に含めてもよい。
【0052】
(3)画像処理装置
図7は、本実施形態に係る画像処理装置300の機能面の構成の一例を示すブロック図である。図7を参照すると、画像処理装置300は、通信部321、データ管理部322、表示制御部323、スキャナ制御部324、プリンタ制御部325、履歴データベース326及びジョブ制御部330を備える。これら機能ブロックの各々は、例えば、画像処理装置300のCPU311が他のハードウェアと連携しながら対応するコンピュータプログラムを実行することにより実現され得る。
【0053】
通信部321は、ネットワークI/F315を介して、ネットワーク20に接続される他の装置へデータを送信し、及び他の装置からデータを受信する。例えば、通信部321は、上述した意図データを音声認識サーバ200から受信する。また、通信部321は、音声認識サーバ200へ応答用テキストデータを送信する。また、通信部321は、クライアント端末50からジョブの実行を指示する指示信号を受信する。また、通信部321は、クライアント端末50へ読取画像データを送信する。
【0054】
データ管理部322は、画像処理装置300による画像形成及び原稿読取りのために必要とされるデータを二次記憶装置314を用いて管理する。例えば、データ管理部322は、画像処理装置300が有する画像処理機能の設定のための設定データ、実行すべきジョブのためのジョブデータ、及び音声認識サーバ200との通信に要する認証情報を管理する。
【0055】
表示制御部323は、表示コントローラ316を介して操作パネル360による画像(例えば、UI画像)の表示を制御する。また、表示制御部323は、操作パネル360から操作I/F317を介して受付けられる操作信号により示されるユーザ入力の内容を解釈して、画像処理装置300の適切な機能ブロックへユーザ入力を振り分ける。また、表示制御部323は、ジョブ制御部330からの要求に応じて、操作パネル360の表示内容を更新する。
【0056】
スキャナ制御部324は、ジョブ制御部330による制御に従って、スキャナI/F318を介してスキャナ380に原稿を読取らせ、生成される読取画像の画像データをデータ管理部322へ出力する。また、スキャナ制御部324は、スキャナI/F318を介してスキャナ380の動作ステータスを取得する。
【0057】
プリンタ制御部325は、ジョブ制御部330による制御に従って、プリンタI/F319を介してプリンタ390に画像を形成させる。また、プリンタ制御部325は、プリンタI/F319を介してプリンタ390の動作ステータスを取得する。
【0058】
履歴データベース326は、画像処理装置300の画像処理ユニット、即ちスキャナ380及びプリンタ390により過去に実行された1つ以上のジョブの履歴データを保持するデータベースである。履歴データは、典型的には、過去に実行されたジョブごとのエントリを含む。各エントリは、対応するジョブが実行されたタイミング(例えば、日時)を示すタイミング情報と、当該ジョブに設定された少なくとも1つの設定値とを示す。
【0059】
図14は、一実施形態に係る履歴データ1400の構成の一例を示す説明図である。図14を参照すると、履歴データ1400は、オーナ1401、グループ1402、日時1403、タイプ1404及びジョブID1405に加えて、読取ジョブパラメータ群1410及び印刷ジョブパラメータ群1420を含む。オーナ1401は、ジョブを発行したユーザを識別するための識別情報(例えば、名称又はユーザID)である。グループ1402は、ジョブを発行したユーザが所属するグループを識別するための識別情報(例えば、グループID)である。日時1403は、ジョブが生成された日付及び時刻を示す。即ち、日時1403は、ジョブ実行のタイミングを示すタイミング情報である。タイプ1404は、ジョブの種別(例えば、「印刷」、「読取」、「コピー」又は「送信」)を示す。ジョブID1405は、各ジョブを一意に識別するための識別子である。読取ジョブパラメータ群1410は、読取ジョブに設定され得る設定項目の集合である。印刷ジョブパラメータ群1420は、印刷ジョブに設定され得る設定項目の集合である。コピージョブには、読取ジョブパラメータ群1410及び印刷ジョブパラメータ群1420の双方が設定され得る。送信ジョブは、読取画像データを指定された送信相手へ送信するためのジョブであってよく、送信ジョブには読取ジョブパラメータ群1410が設定され得る。図14の中央の列には、各設定項目の説明が記述されている。右の列には、コピージョブのケースでのデータサンプルが示されている。なお、図14に示した履歴データ1400の構成は、一例に過ぎない。履歴データは、他の項目を追加的に含んでもよく、図示した項目のうちのいくつかを含まなくてもよい。また、後のジョブのために再利用されない設定項目は、履歴データの構成から省略されてもよく、又は空欄のまま残されてもよい。
【0060】
ジョブ制御部330は、音声制御システム10によりユーザへ提供されるUIを用いてユーザと対話しながら、スキャナ380及びプリンタ390によるジョブの設定及び実行を制御する。音声制御システム10によりユーザへ提供されるUIは、音声制御装置100を介して提供される音声UI、及び画像処理装置300の操作パネル360を介して提供されるGUIを含み得る。ジョブ制御部330は、例えばユーザにより音声UI又はGUIを介してジョブの実行が指示された場合に、スキャナ制御部324及びプリンタ制御部325の一方又は双方に、指示されたジョブに対応する動作を開始させる。また、ジョブ制御部330は、スキャナ制御部324及びプリンタ制御部325からスキャナ380及びプリンタ390の動作ステータスを収集し、収集した動作ステータスの情報を音声で出力し又は操作パネル360に表示させる。また、ジョブ制御部330は、スキャナ制御部324及びプリンタ制御部325により実行されたジョブに設定した設定値を示すエントリ(例えば、上述した履歴データ1400のようなレコード)を履歴データベース326へ追加する。
【0061】
本実施形態において、音声UIを介するユーザからの指示は、上述した意図データの形式で音声認識サーバ200から受信される。例えば、{CopyOperation}というエンティティを含むインテントを記述した意図データは、コピージョブが実行されるべきことを示す。{ScanOperation}及び{PrintOperation}の双方を含むインテントを記述した意図データもまた、コピージョブが実行されるべきことを示す。{PrintOperation}というエンティティを含むインテントを記述した意図データは、印刷ジョブが実行されるべきことを示す。{ScanOperation}というエンティティを含むインテントを記述した意図データは、読取ジョブが実行されるべきことを示す。{SendOperation}というエンティティを含むインテントを記述した意図データは、送信ジョブが実行されるべきことを示す。
【0062】
ジョブ制御部330は、意図データに記述されているエンティティID及び値IDに基づいて、ジョブに設定されるべき設定値を特定する。例えば、図13に示した意図データ231が受信された場合、ジョブ制御部330は、コピージョブに設定値として印刷部数「3」を設定する。ジョブの実行が終了すると、ジョブ制御部330は、履歴データ1400に、(他のいくつかの属性と共に)印刷部数(NomOfPrint)が3であったことを示すレコードを追記する。ジョブ制御部330は、意図データにより示されなかった(即ち、ユーザが入力音声で明示的に指定しなかった)設定項目の設定値として、既定値を使用してもよい。その代わりに、ジョブ制御部330は、不明な設定項目の設定値を指定することを、応答音声においてユーザに求めてもよい。なお、ジョブ制御部330は、スキャナ380及びプリンタ390の動作ステータスに依存して、指示されたジョブの実行を開始する代わりに、実行を保留し又は拒否してもよい。ジョブ制御部330は、意図データの受信に対する応答として、音声制御装置100により読上げられるべき応答音声の内容を表す応答用テキストデータを生成し、生成した応答用テキストデータを音声認識サーバ200へ返送する。この応答用テキストデータに基づいて音声認識サーバ200により応答音声が合成され、音声制御装置100のスピーカ170から応答音声が出力される。
【0063】
ジョブ制御部330は、応答用テキストデータと共に、音声対話セッションを継続するか否かを示すセッション制御情報を、通信部321を介して音声認識サーバ200へ送信してもよい。ジョブ制御部330は、1つのセッションを通じて、対応するジョブの制御の状態(例えば、設定項目確認中といったジョブのステータス、並びにインテントID、エンティティID及び値IDといったジョブパラメータ)をメモリ上に維持する。セッションは、例えばジョブの実行の終了又はジョブの中止といったタイミングで終了し得る。
【0064】
上で説明したような音声UIを用いて画像処理ユニットの設定を制御するケースでは、ユーザは、既定値をそのまま使用できる場合を除いて、所望の設定値の数だけ設定値を繰り返し発声することを要する。特許文献1により提案された技術では、登録済みの音声名称を有するソフトキーに設定値のセットを予め割当てておくことで、ユーザは、その音声名称を発声するだけで同じ設定値のセットを呼び出すことができる。しかしながら、将来使用する設定値のセットを予め特定のキーに割当てる作業は、それ自体がユーザにとっての負担となる。また、ユーザにとって都合のいい機器の設定は、必ずしも一定ではなく、事前に予測可能とも限らない。
【0065】
そこで、本実施形態に係る音声制御システム10は、履歴データベース326により保持される過去のジョブの履歴データから設定値を取得して再利用することで、ユーザによる設定値の発声の繰返しの負担を軽減する。具体的には、ジョブ制御部330は、ユーザの入力音声についての音声認識結果に基づいて履歴データ内の少なくとも1つのエントリを参照することにより、実行されるべき新たなジョブのための設定値を取得する。ここでの音声認識結果は、上述した意図データにより示される結果であってよい。そして、ジョブ制御部330は、取得した設定値を新たなジョブに設定して、対応する画像処理ユニットへジョブの実行を指示する。
【0066】
図14を用いて説明したように、履歴データベース326内の履歴データ1400は、ジョブID1405により識別されるジョブごとに1つのエントリを含む。本実施形態では、履歴データ1400に含まれる複数のエントリのうち、音声認識結果に基づく条件に適合する1つ以上のエントリが、設定値の再利用のために参照され得る。
【0067】
一例として、ジョブ制御部330は、音声認識結果により示されるキーワードであって、参照すべきジョブの実行タイミングを表すキーワードに基づいて、履歴データ1400内で参照すべきエントリを特定してもよい。例えば、図13の意図データ232は、インテント「Send_history1」及びエンティティ{Timing}=timing_00001を含む。インテント「Send_history1」は、履歴データに基づく送信ジョブの実行をユーザが意図していることを表し、エンティティ{Timing}=timing_00001は、1日前に実行されたジョブを参照すべきことを表す。エンティティ{Timing}=timing_00001は、ユーザにより発声された例えば「昨日」というキーワードに対応する。そこで、ジョブ制御部330は、履歴データ1400の複数のエントリのうち、1日前に同じユーザにより発行されたジョブ種別が「送信」であるエントリを参照して、そのエントリが示す設定値を、新たな送信ジョブに設定し得る。
【0068】
他の例として、ジョブ制御部330は、音声認識結果により示されるキーワードであって、最も利用頻度の高い設定値を取得するためのキーワードに基づいて、履歴データ1400内の1つ以上のエントリから最も利用頻度の高い設定値を取得してもよい。例えば、図13の意図データ233は、インテント「Copy_history2」及びエンティティ{Frequency}=freq_00000を含む。インテント「Copy_history2」は、履歴データに基づく印刷ジョブの実行をユーザが意図していることを表す。エンティティ{Frequency}=freq_00000は、最も利用頻度の高い設定値を1つ以上のエントリから集計することにより取得して再利用すべきことを表す。エンティティ{Frequency}=freq_00000は、ユーザにより発声された例えば「いつもの」というキーワードに対応する。そこで、ジョブ制御部330は、履歴データ1400の複数のエントリのうち同じユーザにより発行されたジョブ種別が「コピー」である1つ以上のエントリを参照して、それらエントリが示す設定値の頻度(例えば、生起回数)を集計する。そして、ジョブ制御部330は、設定項目ごとに最も高い頻度を示した設定値を判定し、判定した設定値を新たな印刷ジョブに設定し得る。
【0069】
また別の例として、ジョブ制御部330は、音声認識結果に基づいて、履歴データ1400内の同じユーザに関連付けられているエントリのみを参照するか、又は他のユーザに関連付けられているエントリをも参照するかを判定してもよい。例えば、図13の意図データ234は、インテント「Recommend_setting」、エンティティ{Number}=4及びエンティティ{PrintOperation}=print_00000を含む。インテント「Recommend_setting」は、履歴データに基づいて推奨される設定値でジョブを実行することをユーザが望んでいることを表す。この場合、ジョブ制御部330は、新たなジョブの発行者であるユーザと同じユーザのみならず、他のユーザに関連付けられている履歴データ1400のエントリをも参照して、新たなジョブのために推奨される設定値を取得する。ここで参照されるエントリは、例えば、新たなジョブの発行者であるユーザの所属グループと同じグループに関連付けられているエントリであってもよい。エンティティ{PrintOperation}=print_00000は、実行すべきジョブが印刷ジョブであることを表す。そこで、ジョブ制御部330は、履歴データ1400の複数のエントリのうち、ジョブ発行者と同じ所属グループに関連付けられているジョブ種別が「印刷」である1つ以上のエントリを参照して、それらエントリが示す設定値の頻度を集計する。そして、ジョブ制御部330は、設定項目ごとに最も高い頻度を示した設定値を判定し、判定した設定値を新たな印刷ジョブに設定し得る。
【0070】
ジョブ制御部330は、履歴データ1400内の少なくとも1つのエントリを参照することにより取得した設定値で画像処理ユニットに新たなジョブを実行させる前に、設定内容の確認をユーザに求めるか否かを、音声認識結果に基づいて判定してもよい。例えば、ジョブ制御部330は、通常はジョブ実行前に設定内容の確認をユーザに求めるものとされ、入力音声が特定のキーワード(例えば、「すぐ」)を含む場合にユーザ確認を省略してもよい。それにより、ユーザの意図に応じて、音声対話が冗長となることを抑制して、音声UIの利便性を向上させることができる。ここでの特定のキーワードがエンティティ一覧においてエンティティとして定義されてもよい。
【0071】
画像処理装置300の画像処理ユニットにより実行可能なジョブについて、履歴データ1400から設定することが許容される設定項目(即ち、過去のジョブから設定値を再利用することが許容される設定項目)が予め定義されてもよい。この場合、ジョブ制御部330は、履歴データ1400から設定することが許容される設定項目の設定値を履歴データ1400内のエントリを参照することにより取得し、それ以外の設定値として入力音声において明示的に指定された値又は既定値を利用し得る。ジョブ制御部330は、履歴データ1400から取得した設定値を、ユーザの入力音声で明示的に指定された値で上書きしてもよい。
【0072】
図15は、履歴データ1400から設定することが許容される設定項目の定義の一例について説明するためのである。図15(A)では、図14を用いて説明した履歴データ1400の読取ジョブパラメータ群1410及び印刷ジョブパラメータ群1420の各設定項目について、履歴データからの設定が許容される場合に「YES」、許容されない場合に「NO」が示されている。例えば、読取ジョブパラメータ群1410の送信相手(destination)の名前(name)及びメールアドレス(mail_address)は、履歴データからの設定が許容されない。プレビュー要否(preview)及び読取濃度レベル(scan_density_level)は、履歴データからの設定が許容される。メール内容(mail_contents)の件名(subject)及び本文(body)は、履歴データからの設定が許容されない。画像ファイルフォーマット(image_file_format)、片面/両面(scan_sides)、読取りサイズ(scan_size)及びカラーモード(ColorMode)は、履歴データからの設定が許容される。印刷ジョブパラメータ群1420の印刷部数(NomOfPrint)、印刷用紙サイズ(PaperSize)及び片面/両面(Paper_sides)は、履歴データからの設定が許容される。文書フォーマット(document_format)は、印刷対象の文書データから自動的に決定される。カラーモード(ColorMode)は、履歴データからの設定が許容される。図15(A)の例では、送信ジョブの送信相手について履歴データからの設定を許容しないことで、データの誤送信による情報漏洩のリスクの低減が図られている。履歴データからの設定が許容されるか否かは、図15(B)に示したように、ジョブ種別ごとに定義されてもよい。図15(B)の例では、印刷ジョブ、送信ジョブ、読取ジョブ及びコピージョブについて別々に、履歴データから各項目の設定値を再利用することが許容されるか否かが定義されている。なお、図15に示した定義は例に過ぎず、他の定義が用いられてもよい。
【0073】
ジョブ制御部330は、履歴データ1400から設定することが許容されない設定項目の設定値を音声認識結果から取得できない場合に、当該設定値の入力を求める応答音声を音声制御装置100のスピーカ170から出力させてもよい。例えば、図13の意図データ232が受信された場合、ジョブ制御部330は、1日前の送信ジョブのエントリから、例えばプレビュー要否、読取濃度レベル、画像ファイルフォーマット、片面/両面、読取りサイズ及びカラーモードの設定値を取得し得る。しかし、送信相手及びメール内容は、意図データ232において指定されていない。そこで、ジョブ制御部330は、送信相手及びメール内容の入力を求める応答音声のための応答用テキストデータを生成し、生成した応答用テキストデータを音声認識サーバ200へ送信し得る。なお、これら設定項目のユーザによる入力は、さらなる入力音声によって音声UIで行われてもよく、又はGUI上で行われてもよい。
【0074】
図16は、履歴データ内のエントリを参照する際の検索キーの一例について説明するための説明図である。図16には、図14を用いて説明した履歴データ1400のデータ項目が再び示されており、対象のジョブ種別ごとに、履歴データ1400の参照の際に検索キーとなり得る設定項目に記号「K」又は「(K)」が付与されている。例えば、どのジョブ種別についても、タイプ1404に加えて、オーナ1401、グループ1402及び日時1403が検索キーになり得る。実際には、ユーザ単位で履歴データを参照する際にはオーナ1401が、グループ単位で履歴データを参照する際にはグループ1402が検索キーになり、タイミング情報が指定された場合には日時1403が検索キーに追加される。また、印刷ジョブについては、文書フォーマット(document_format)もまた検索キーに追加され得る。例えば、印刷対象の文書のフォーマットが「pdf」である場合、過去にPDF文書を印刷した印刷ジョブの履歴データが優先的に参照され得る。送信ジョブについては、送信相手のメールアドレス(mail_address)もまた検索キーに追加され得る。即ち、新たな送信ジョブの送信相手が特定の宛て先である場合、過去に同じ相手を宛て先とした送信ジョブの履歴データが優先的に参照され得る。
【0075】
なお、音声対話中のユーザ(即ち、話者)がどのユーザであるのかは、公知の話者認識技術を用いて入力音声から特定されてもよく、又はユーザにより明示的に発声されてもよい。音声認識サーバ200により話者認識が実行され、認識された話者のユーザIDが意図データに含められてもよい。代替的に、例えば音声制御装置100又は画像処理装置300に設けられる入力インタフェースをユーザが操作することにより、話者がどのユーザであるのかが明示的に指定されてもよい。
【0076】
上述した実施形態における処理の流れについて、典型的ないくつかのシナリオに沿って次節でさらに説明する。
【0077】
<<2.処理の流れ>>
<2-1.全体的な流れ>
図17は、本実施形態に係る音声制御システム10において実行され得る音声制御処理の全体的な流れの一例を示すシーケンス図である。ここでの音声制御処理には、音声制御装置100、音声認識サーバ200及び画像処理装置300が関与する。なお、以下の説明では、処理ステップをS(ステップ)と略記する。
【0078】
まず、S1701で、音声制御装置100は、ユーザからの音声入力の受付けを開始する。例えば、音声制御装置100の開始検知部125は、ユーザがウェイクワードを発声したと認識したことに応じて、制御開始信号を音声制御部130へ出力し、それにより音声対話セッションが開始され得る。
【0079】
次いで、S1702で、音声制御装置100のマイクロフォン160は、ユーザの入力音声を取得する。ここでは、ユーザは、画像処理装置300による新たなジョブの実行を指示するための音声を発声するものとする。音声取得部123は、取得された入力音声の入力音声データを生成する。入力音声データの生成は、終了判定部126により音声入力の終了が検知されるまで継続され得る。
【0080】
次いで、S1703で、音声制御部130は、S1702で生成された入力音声データを音声認識サーバ200へ送信する。なお、音声制御部130は、ひとまとまりの入力音声データを、終了判定部126により音声入力の終了が検知された後にまとめて送信してもよい。その代わりに、音声制御部130は、音声入力の終了タイミングを待つこと無く、入力音声データの断片を順次音声認識サーバ200へ送信してもよい。音声認識サーバ200の音声認識部224は、このような入力音声データを通信部221を介して受信する。
【0081】
次いで、S1704で、音声認識部224は、入力音声データについて音声認識を実行して入力音声データを入力テキストデータへ変換し、さらに入力テキストデータに基づいて意図データを生成する。
【0082】
次いで、S1705で、音声認識部224は、通信部221を介して画像処理装置300へ意図データを送信する。画像処理装置300のジョブ制御部330は、意図データを通信部321を介して受信する。
【0083】
次いで、S1706で、ジョブ制御部330は、受信した意図データに基づいて新たなジョブに設定されるべき設定値を取得するための設定取得処理を実行する。ここで実行される設定取得処理の詳細な流れの例を、後にさらに説明する。ジョブ制御部330は、設定取得処理において、ユーザへの応答として出力されるべき音声の内容を表す応答用テキストデータを生成する。また、S1707で、ジョブ制御部330は、意図データにより示されたユーザの意図に従って、画像処理装置300の画像形成機能及び原稿読取機能の一方又は双方を制御する。なお、図中に点線で示したように、S1707はオプションである。即ち、画像処理装置300の画像処理ユニットの制御は、必ずしも意図データが受信される都度行われなくてもよく、例えば音声対話セッションの最後に一度だけ行われてもよい。
【0084】
次いで、S1708で、ジョブ制御部330は、応答用テキストデータを通信部321を介して音声認識サーバ200へ送信する。音声認識サーバ200の音声合成部225は、応答用テキストデータを通信部221を介して受信する。なお、ジョブ制御部330は、S1708において、上述したように、応答用テキストデータと共にセッション制御情報を音声認識サーバ200へ送信してもよい。
【0085】
次いで、S1709で、音声合成部225は、受信した応答用テキストデータを読上げる応答音声を合成し、合成した応答音声を表す応答音声データを生成する。
【0086】
次いで、S1710で、音声合成部225は、生成した応答音声データを、通信部221を介して音声制御装置100へ送信する。音声制御装置100の音声制御部130は、応答音声データを(セッション制御情報と共に)通信部121を介して受信する。
【0087】
次いで、S1711で、音声制御部130は、受信した応答音声データに基づいて音声再生部127に応答音声を再生させ、それにより応答音声がスピーカ170から出力される。
【0088】
図17において符号S1720で示した1往復分の対話は、ユーザにより対話が中止される場合を除いて、音声対話セッションを継続すべきことをセッション制御情報が示している限り、反復的に行われ得る。音声対話セッションを終了すべきことをセッション制御情報が示す場合には、音声制御部130は、音声対話セッションを終了し、待機中の状態へ遷移し得る。開始検知部125により新たにウェイクワードが検知されると、音声対話セッションは再び開始する。
【0089】
<2-2.設定取得処理>
図18は、図17のS1706で実行され得る、本実施形態に係る設定取得処理の詳細な流れの一例を示すフローチャートである。ここでの設定取得処理は、例えば、画像処理装置300のCPU311がRAM312にロードされるコンピュータプログラムを実行することにより、ジョブ制御部330の処理として実現され得る。
【0090】
まず、ジョブ制御部330は、図17のS1705で音声認識サーバ200から意図データが受信されたことをトリガとして、S1801で、画像処理装置300の様々なステータスを収集する。例えば、ジョブ制御部330は、スキャナ380の動作ステータスをスキャナ制御部324から、プリンタ390の動作ステータスをプリンタ制御部325から、操作パネル360の表示ステータスを表示制御部323から取得し得る。
【0091】
次いで、S1802で、ジョブ制御部330は、収集した上記ステータスに基づいて、意図データにより示されているユーザにより意図された動作は実行可能であるか否かを判定する。例えば、意図データが印刷ジョブに関連付けられるインテントIDを含むにも関わらず、プリンタが何らかの原因(例えば、シート等の消耗材の不足又は先行する未完了のジョブの存在)で動作できない場合、意図された動作は実行可能ではないと判定され得る。ユーザにより意図された動作が実行可能ではないと判定された場合、処理はS1803へ進む。一方、ユーザにより意図された動作が実行可能であると判定された場合、処理はS1804へ進む。
【0092】
S1803で、ジョブ制御部330は、ユーザにより意図された動作が実行可能ではないため、動作実行不能を表す応答音声のための応答用テキストデータを生成する。例えば、コピージョブの実行が意図された場合において、コピージョブが実行不能である場合には、「現在、コピージョブを実行できません」という応答用テキストデータが生成され得る。なお、ここで生成される応答用テキストデータは、動作が実行不能である理由を読上げる音声を含んでもよい。
【0093】
一方、S1804では、ジョブ制御部330は、意図データ内のインテントIDにより識別されるインテントが、履歴データの参照を要するインテントであるかを判定する。履歴データの参照を要するインテントとは、例えば、図9に示したような「History」又は「Recommend」を部分文字列としてインテントIDに含むインテントであり得る。意図データが履歴データの参照を要するインテントを示す場合、処理はS1806へ進む。一方、意図データが履歴データの参照を要しないインテントを示す場合、処理はS1805へ進む。
【0094】
S1805では、ジョブ制御部330は、新たなジョブのために、履歴データを参照することなく、意図データにより示された設定値(及び、必要に応じて既定値)を取得する。
【0095】
一方、S1806では、ジョブ制御部330は、参照すべきジョブの実行タイミングを表すキーワードであるタイミングワードが入力音声に含まれていたかを、意図データ内のエントリに基づいて判定する。例えば、意図データが図12に示したようなエンティティID「Timing」を含む場合、タイミングワードが入力音声に含まれていたと判定され得る。タイミングワードが入力音声に含まれていた場合、処理はS1807へ進む。一方、タイミングワードが入力音声に含まれていない場合、処理はS1810へ進む。
【0096】
S1807では、ジョブ制御部330は、現在対話中のユーザと同一ユーザ(又は同一グループ)の範囲内で、新たなジョブと同じジョブ種別を有し且つ指定されたタイミングにジョブの実行日時が適合する過去のジョブのエントリを、履歴データ内で特定する。次いで、ジョブ制御部330は、特定した履歴データのエントリにより示される設定値を、新たなジョブのための設定値として取得する。そして、処理はS1814へ進む。
【0097】
一方、S1810では、ジョブ制御部330は、現在対話中のユーザと同一ユーザ(又は同一グループ)の範囲内で、新たなジョブと同じジョブ種別を有する1つ以上の履歴データのエントリを特定する。次いで、S1811で、ジョブ制御部330は、特定したエントリから、設定項目ごとに値の頻度を集計する。次いで、S1812で、ジョブ制御部330は、履歴データから設定することが許容される項目の各々について、集計結果に基づき最も頻度の高い設定値を取得する。そして、処理はS1814へ進む。
【0098】
S1814で、ジョブ制御部330は、S1805、S1808又はS1812で取得した新たなジョブのための設定値に関連する応答用テキストデータを生成する。例えば、入力音声が新たなジョブの即時の実行を求めるキーワードを含んでいた場合には、ここで生成される応答用テキストデータは、単に新たなジョブの実行が開始されることをユーザへ通知する音声のためのテキストを含み得る。一方、新たなジョブの即時の実行がユーザにより求められていない場合には、ここで生成される応答用テキストデータは、新たなジョブの設定内容の確認をユーザに求める音声のためのテキストを含み得る。ジョブの実行に要する設定項目のうち設定値の不明な項目が残っている場合には、ここで生成される応答用テキストデータは、設定値の入力をユーザに求める音声のためのテキストを含み得る。
【0099】
ジョブ制御部330は、上述したS1803又はS1814において生成した応答用テキストデータを、図17のS1708で音声認識サーバ200へ送信する。
【0100】
<2-3.様々な音声対話シナリオ>
図19図23は、それぞれ異なるシナリオに沿った、本実施形態における音声対話の一例を示すシーケンス図である。
【0101】
(1)第1のシナリオ(履歴データ参照なし)
図19の第1のシナリオでは、ユーザは、履歴データの参照を求める内容の音声を発声しないため、新たなジョブの設定のために履歴データは参照されない。
【0102】
まず、S1901で、ユーザは、音声制御装置100へ向けてウェイクワードを発声し、そのウェイクワードの検知をトリガとして音声対話セッションが開始される。ウェイクワードに続けて、ユーザは、S1902で、画像処理装置300による実行を望む動作の内容を表す「コピーを3部」という音声を発声する。この音声は、音声制御装置100のマイクロフォン160により入力音声として取得され、音声認識サーバ200による音声認識の後、音声認識の結果を示す意図データが画像処理装置300へ提供される。
【0103】
S1903で、画像処理装置300のジョブ制御部330は、受信した意図データにより示されるユーザの意図に従って、図18を用いて説明した設定取得処理を実行する。ここでは、履歴データの参照を要するインテントが示されないことから、ジョブ制御部330は、履歴データを参照することなく、意図データから新たなコピージョブのための設定値(例えば、3部という設定部数)を取得し得る。また、ジョブ制御部330は、設定内容の確認を求めるために、「3部コピーを実行してよろしいですか」という応答音声の内容を示す応答用テキストデータ生成する。S1904で、音声制御装置100は、当該応答用テキストデータに基づいて合成された応答音声データを用いて、応答音声をスピーカ170から出力する。応答音声の出力の後、音声対話セッションは継続される。また、ジョブ制御部330は、未実行のジョブの設定値を一時的に保持しておく。
【0104】
次いで、S1905で、上記応答音声を聞いたユーザは、確認を求められた設定項目に誤りが無いことをシステムへ伝えるために、「はい」という音声を発声する。この音声もまた、マイクロフォン160により入力音声として取得され、音声認識サーバ200による音声認識の後、音声認識の結果を示す意図データが画像処理装置300へ提供される。
【0105】
S1906で、ジョブ制御部330は、設定項目に誤りが無いことが確認されたため、コピージョブの実行を開始する。その際、ジョブ制御部330は、指定されたジョブの実行開始をユーザに通知するために、例えば「コピーの実行を開始します」という応答音声の内容を示す応答用テキストデータを生成する。S1907で、当該応答用テキストデータにより示される内容の応答音声がスピーカ170から出力される。
【0106】
また、ジョブ制御部330は、S1908で、一時的に保持していた設定値を新たなコピージョブに設定して対応する画像処理ユニットへ出力することにより、ユーザが望んだ通りの制御を実行する。S1908は、S1907と並列的に実行されてよい。さらに、ジョブ制御部330は、ジョブの実行状況を示す実行状況画面361を、操作パネル360に表示させる。実行状況画面361の表示内容は、ジョブの進行に沿って適宜更新され得る。
【0107】
その後、画像処理装置300においてコピージョブの実行が終了すると、ジョブ制御部330は、ジョブの実行終了をユーザに通知するために、例えば「コピーの実行を終了しました」という応答音声の内容を示す応答用テキストデータを生成する。そして、S1909で、当該応答用テキストデータにより示される内容の応答音声がスピーカ170から出力される。またジョブ制御部330は、S1910で、実行を終了したコピージョブに設定した設定値を示すエントリを、履歴データベース326に追記する。
【0108】
(2)第2のシナリオ(タイミング指定あり)
図20の第2のシナリオでは、ユーザは、履歴データの参照を求める内容の音声を発声し、それにより音声制御システム10が履歴データベース326から新たなジョブに設定される設定値を取得する。
【0109】
まず、S2001で、ユーザは、音声制御装置100へ向けてウェイクワードを発声し、そのウェイクワードの検知をトリガとして音声対話セッションが開始される。ウェイクワードに続けて、ユーザは、S2002で、画像処理装置300による実行を望む動作の内容を表す「昨日の設定で送信したい」という音声を発声する。この音声は、音声制御装置100のマイクロフォン160により入力音声として取得され、音声認識サーバ200による音声認識の後、音声認識の結果を示す意図データが画像処理装置300へ提供される。
【0110】
S2003で、画像処理装置300のジョブ制御部330は、受信した意図データにより示されるユーザの意図に従って、図18を用いて説明した設定取得処理を実行する。ここで受信される意図データは、図13に示した意図データ232と同様のデータである。ジョブ制御部330は、新たな送信ジョブについて履歴データの参照を要するインテント「Send_history1」が示されたことから、新たな送信ジョブの設定値を取得するために、履歴データベース326を参照する。より具体的には、上記意図データは、参照すべきジョブの実行タイミングを示すエンティティ{Timing}=timing_00001を含む。そのため、ジョブ制御部330は、ジョブ発行者が同一であって1日前の日時を有する送信ジョブのエントリを履歴データベース326内で特定する。そして、ジョブ制御部330は、履歴データから設定することが許容されている設定項目の設定値を、特定したエントリから取得する。下の表1は、一例として、本シナリオにおいて履歴データから取得され得る送信ジョブの設定値を太字で示している。
【0111】
【表1】
【0112】
また、ジョブ制御部330は、履歴データから設定することが許容されない送信相手(destination)の名前及びメールアドレスが意図データから取得できないため、送信相手の指定を求めるための応答用テキストデータ生成する。S2004で、音声制御装置100は、当該応答用テキストデータに基づいて合成された応答音声データを用いて、応答音声をスピーカ170から出力する。例えば、「昨日の送信の設定を使用します。宛て先はどうしますか」という応答音声が出力され得る。応答音声の出力の後、音声対話セッションは継続される。また、ジョブ制御部330は、未実行のジョブの設定値を一時的に保持しておく。
【0113】
S2005で、上記応答音声を聞いたユーザは、所望の送信相手を指定するために、「鈴木さんで」という音声を発声する。この音声もまた、マイクロフォン160により入力音声として取得され、音声認識サーバ200による音声認識の後、音声認識の結果を示す意図データが画像処理装置300へ提供される。
【0114】
S2006で、ジョブ制御部330は、送信相手を「鈴木さん」に設定すべきことを認識し、設定内容の確認を求めるために、「宛て先を鈴木さんに設定しました。間違いないですか」という応答音声の内容を示す応答用テキストデータ生成する。S2007で、当該応答用テキストデータにより示される内容の応答音声がスピーカ170から出力される。また、ジョブ制御部330は、応答音声の出力に合わせて、設定確認画面362を操作パネル360に表示させる。図20の例では、設定確認画面362に新たな送信ジョブのために取得された設定値の名称と値とが列挙されている。応答音声の出力の後、音声対話セッションは継続される。また、ジョブ制御部330は、未実行のジョブの設定値を一時的に保持しておく。
【0115】
その後のS2008~S2013の対話は、図19を用いて説明したS1905~S1910と同様であってよいため、ここでは説明を省略する。
【0116】
(3)第3のシナリオ(最頻値の再利用、即時実行)
図21の第3のシナリオでは、ユーザは、履歴データの参照を求める内容の音声を発声し、それにより音声制御システム10が履歴データベース326から新たなジョブに設定される設定値を取得する。但し、ユーザは、いつ実行されたジョブの履歴データを参照すべきかを指定せず、代わりに最も利用頻度の高い設定値の再利用を指示する。また、ユーザは、新たなジョブの即時の実行を指示する。
【0117】
まず、S2101で、ユーザは、音声制御装置100へ向けてウェイクワードを発声し、そのウェイクワードの検知をトリガとして音声対話セッションが開始される。ウェイクワードに続けて、ユーザは、S2102で、「いつもの設定ですぐに3部コピー」という音声を発声する。この音声は、音声制御装置100のマイクロフォン160により入力音声として取得され、音声認識サーバ200による音声認識の後、音声認識の結果を示す意図データが画像処理装置300へ提供される。
【0118】
S2103で、画像処理装置300のジョブ制御部330は、受信した意図データにより示されるユーザの意図に従って、図18を用いて説明した設定取得処理を実行する。ここでは、新たなコピージョブのために最も利用頻度の高い設定値の取得を指示するキーワード(「いつも」)が発声されたことから、ジョブ制御部330は、ジョブ発行者が同一の1つ以上のコピージョブのエントリを履歴データベース326内で特定する。また、ジョブ制御部330は、履歴データから設定することが許容されている設定項目ごとに、設定値の頻度を特定したエントリから集計する。そして、ジョブ制御部330は、各設定項目について最も高い頻度を集計結果において示した設定値を、新たなコピージョブに設定する。下の表2は、一例として、本シナリオにおいて履歴データから取得され得るコピージョブの設定値を太字で示している。なお、印刷部数の値はユーザにより明示的に発声されたため、新たなコピージョブの印刷部数は、意図データにより示された「3」という値に設定される(履歴データからの設定値は、上書きされ使用されない)。
【0119】
【表2】
【0120】
また、本シナリオでは、ジョブの即時実行を指示するキーワード(「すぐ」)が発声されたことから、ジョブ制御部330は、ジョブ実行前の設定内容の確認をユーザに求めない。ジョブ制御部330は、S2103の設定取得処理において、ジョブの実行開始をユーザに通知するための応答音声の内容を示す応答用テキストデータを生成する。S2104で、当該応答用テキストデータにより示される内容の応答音声がスピーカ170から出力される。ジョブ制御部330は、S2105で、コピージョブの実行を開始する。
【0121】
その後のS2106及びS2107は、図19を用いて説明したS1909及びS1910と同様であってよいため、ここでは説明を省略する。
【0122】
(4)第4のシナリオ(タイミング指定あり、変更あり)
図22の第4のシナリオでは、ユーザは、履歴データの参照を求める内容の音声を発声し、それにより音声制御システム10が履歴データベース326から新たなジョブに設定される設定値を取得する。履歴データベース326から取得された設定値の1つは、ユーザとの音声対話を通じて変更される。
【0123】
まず、S2201で、ユーザは、音声制御装置100へ向けてウェイクワードを発声し、そのウェイクワードの検知をトリガとして音声対話セッションが開始される。ウェイクワードに続けて、ユーザは、S2202で、「昨日の設定でAさんへ送信したい」という音声を発声する。この音声は、音声制御装置100のマイクロフォン160により入力音声として取得され、音声認識サーバ200による音声認識の後、音声認識の結果を示す意図データが画像処理装置300へ提供される。
【0124】
S2203で、画像処理装置300のジョブ制御部330は、受信した意図データにより示されるユーザの意図に従って、図18を用いて説明した設定取得処理を実行する。ジョブ制御部330は、新たな送信ジョブについて履歴データの参照を要するインテントが示されたことから、新たな送信ジョブの設定値を取得するために、履歴データベース326を参照する。より具体的には、受信された意図データは、参照すべきジョブの実行タイミングを示すエンティティ{Timing}=timing_00001を含む。そのため、ジョブ制御部330は、ジョブ発行者が同一であって1日前の日時を有する送信ジョブのエントリを履歴データベース326内で特定する。そして、ジョブ制御部330は、履歴データから設定することが許容されている設定項目の設定値を、特定したエントリから取得する。本シナリオにおいて履歴データから当初取得され得る送信ジョブの設定値は、表1において太字で示したものと同様であってよい。また、ジョブ制御部330は、履歴データから設定することが許容されない送信相手の設定値を意図データに基づいて取得する。
【0125】
S2203の設定取得処理において、ジョブ制御部330は、設定内容の確認を求めるために、「昨日の送信の設定を使用します。設定に間違いはないですか」という応答音声の内容を示す応答用テキストデータ生成する。S2204で、当該応答用テキストデータにより示される内容の応答音声がスピーカ170から出力される。また、ジョブ制御部330は、応答音声の出力に合わせて、設定確認画面364aを操作パネル360に表示させる。応答音声の出力の後、音声対話セッションは継続される。また、ジョブ制御部330は、未実行のジョブの設定値を一時的に保持しておく。
【0126】
S2205で、上記応答音声を聞いたユーザは、画像ファイルフォーマットをJPEGからPDFへ変更することを指示する音声を発声する。この音声もまた、マイクロフォン160により入力音声として取得され、音声認識サーバ200による音声認識の後、音声認識の結果を示す意図データが画像処理装置300へ提供される。
【0127】
S2206で、ジョブ制御部330は、画像ファイルフォーマットをJPEGからPDFへ変更すべきことを認識し、変更後の設定内容の確認を求めるために、「JPEGをPDFへ変更しました。間違いないですか」という応答音声の内容を示す応答用テキストデータ生成する。S2207で、当該応答用テキストデータにより示される内容の応答音声がスピーカ170から出力される。また、ジョブ制御部330は、応答音声の出力に合わせて、設定確認画面364bを操作パネル360に表示させる。応答音声の出力の後、音声対話セッションは継続される。また、ジョブ制御部330は、未実行のジョブの設定値を一時的に保持しておく。
【0128】
その後のS2208~S2213の対話は、図19を用いて説明したS1905~S1910と同様であってよいため、ここでは説明を省略する。
【0129】
(5)第5のシナリオ(グループ単位の参照、最頻値の再利用)
上述した第2~第4のシナリオでは、履歴データのエントリがユーザ単位で参照された(即ち、ジョブ発行者が対話中のユーザと同一であるエントリから、新たなジョブの設定値が取得された)。これに対し、第5のシナリオでは、履歴データのエントリが、ユーザの所属グループの単位で参照される。また、ユーザは、最も利用頻度の高い設定値の再利用を指示する。
【0130】
まず、S2301で、ユーザは、音声制御装置100へ向けてウェイクワードを発声し、そのウェイクワードの検知をトリガとして音声対話セッションが開始される。ウェイクワードに続けて、ユーザは、S2302で、「会議向けの設定で4部印刷」という音声を発声する。この音声は、音声制御装置100のマイクロフォン160により入力音声として取得され、音声認識サーバ200による音声認識の後、音声認識の結果を示す意図データが画像処理装置300へ提供される。
【0131】
S2303で、画像処理装置300のジョブ制御部330は、受信した意図データにより示されるユーザの意図に従って、図18を用いて説明した設定取得処理を実行する。ここで受信される意図データは新たな印刷ジョブについて履歴データの参照を要するインテントを示し、よって、ジョブ制御部330は、新たな印刷ジョブの設定値を取得するために履歴データベース326を参照する。より具体的には、本シナリオにおいて、受信される意図データのインテントは、新たなジョブの発行者であるユーザの所属グループと同じグループに関連付けられているエントリを参照すべきことを表す。そのため、ジョブ制御部330は、ジョブ発行者の所属グループと同じグループIDを有する印刷ジョブの1つ以上のエントリを履歴データベース326内で特定する。また、ジョブ制御部330は、履歴データから設定することが許容されている設定項目ごとに、設定値の頻度を特定したエントリから集計する。そして、ジョブ制御部330は、各設定項目について最も高い頻度を集計結果において示した設定値を、新たな印刷ジョブに設定する。下の表3は、一例として、本シナリオにおいて履歴データから取得され得る印刷ジョブの設定値を太字で示している。なお、印刷部数の値はユーザにより明示的に発声されたため、新たな印刷ジョブの印刷部数は、意図データにより示された「4」という値に設定される(履歴データからの設定値は、上書きされ使用されない)。
【0132】
【表3】
【0133】
表3の例では、ジョブ制御部330は、新たな印刷ジョブの対象の文書データがHTMLデータであることから、本シナリオにおいて、文書フォーマットが「HTML」を示す履歴データのエントリを優先的に参照している。優先的な参照とは、例えば、文書フォーマットが「HTML」を示すエントリが存在する場合にそれらエントリのみを参照し、そのようなエントリが存在しない場合に他のエントリを参照することを含んでもよい。また、優先的な参照とは、「HTML」を示すエントリに他のエントリよりも大きい重みを付与して、頻度を重み付けと共に集計することを含んでもよい。
【0134】
S2303の設定取得処理において、ジョブ制御部330は、設定内容の確認を求めるために、「会議向けによく使用される印刷の設定を使用します。OKですか」という応答音声の内容を示す応答用テキストデータ生成する。S2304で、当該応答用テキストデータにより示される内容の応答音声がスピーカ170から出力される。また、ジョブ制御部330は、応答音声の出力に合わせて、設定確認画面365を操作パネル360に表示させる。応答音声の出力の後、音声対話セッションは継続される。また、ジョブ制御部330は、未実行のジョブの設定値を一時的に保持しておく。
【0135】
その後のS2305~S2310の対話は、図19を用いて説明したS1905~S1910と同様であってよいため、ここでは説明を省略する。
【0136】
<<3.変形例>>
本発明は上記実施形態に限定されず、様々な変形が可能である。ある変形例において、ジョブ制御部330は、履歴データから取得した設定値の確認を設定確認画面上でユーザに確認させる代わりに、履歴データから取得した設定値を読上げる応答音声をスピーカ170から出力させてもよい。
【0137】
上述したシナリオは、互いにどのように組合されてもよい。例えば、グループ単位の履歴データの参照は、どのような種類のインテントにおいて行われてもよい。また、ジョブの即時実行の指示は、どのような種類のインテントに付加されてもよい。
【0138】
本明細書において物理的に別個のものとして説明した2つ以上の装置は、互いにどのように組合されてもよい。また、単一の装置のものとして説明した複数の機能が、物理的に別個の装置へ分散されてもよい。例えば、音声認識サーバ200の音声認識機能及び音声合成機能は、音声制御装置100へ統合されてもよく、又は画像処理装置300へ統合されてもよい。また、音声認識結果に基づいて履歴データから過去のジョブの設定値を取得する機能が、音声制御装置100又は音声認識サーバ200へ統合されてもよい。また、画像処理装置300が、マイクロフォン及びスピーカと共に、音声制御装置100の音声制御機能を有していてもよい。また、履歴データベースが、独立したデータサーバに実装サされてもよく、又は音声認識サーバ200に統合されてもよい。その場合に、複数の画像処理装置300におけるジョブの実行の履歴が共通的な履歴データベースにおいて保持され、装置間で相互に参照可能とされてもよい。
【0139】
<<4.まとめ>>
ここまで、図1図23を用いて、本開示の実施形態について詳細に説明した。上述した実施形態では、音声を取得するマイクロフォンと画像処理ユニットとを含む音声制御システムに、上記画像処理ユニットにより実行されたジョブの履歴データを保持するデータベースと、上記画像処理ユニットの設定を制御する制御手段とが設けられる。上記履歴データは、各ジョブに設定された少なくとも1つの設定値を示す。そして、上記制御手段は、上記マイクロフォンにより取得されるユーザの入力音声についての音声認識結果に基づいて上記履歴データを参照することにより、上記画像処理ユニットの新たなジョブに設定すべき設定値を取得する。かかる構成によれば、ユーザは、将来使用する設定のセットを予め特定のキーに割当てるような作業を行わずとも、自身にとって都合のいい設定のセットを音声UIを介して履歴データから呼び出して使用することができる。それにより、多機能化した機器の設定に関連するユーザの負担が軽減される。
【0140】
また、上述した実施形態では、上記音声認識結果により示されるキーワードであって、参照すべきジョブの実行タイミングを表す当該キーワードに基づいて、上記履歴データ内で参照すべきエントリが特定され得る。かかる構成によれば、ユーザは、過去に使用した設定のセットを、例えば日時のようなタイミングを音声で指定して履歴データから呼び出すことができる。また、過去に異なるタイミングで使用した様々な設定のセットのうちの所望のセットをユーザが音声UIを介して自在に呼び出すことも可能となる。
【0141】
また、上述した実施形態では、上記音声認識結果により示されるキーワードであって、最も利用頻度の高い設定値を取得するための当該キーワードに基づいて参照される上記履歴データ内の1つ以上のエントリから、最も利用頻度の高い設定値が取得され得る。かかる構成によれば、ユーザは、具体的なタイミングも設定値も発声することなく、普段使用することの多い設定のセットを短い音声で呼び出すことができる。
【0142】
また、上述した実施形態では、上記音声認識結果に基づいて、上記履歴データ内の上記ユーザに関連付けられているエントリのみを参照するか、又は他のユーザに関連付けられているエントリをも参照するかが判定され得る。かかる構成によれば、ユーザは、他のユーザにより使用されたことのある有用な設定のセットを、事前のキーへの割当て等の作業を行わずとも、簡易に呼び出して使用することができる。また、例えば、同一グループ内で推奨される設定のセットをグループ内の複数のユーザの間で共有することも容易となる。
【0143】
また、上述した実施形態では、上記画像処理ユニットにより実行可能なジョブについて、上記履歴データから設定することが許容される設定項目が予め定義され、許容されるそれら設定項目の設定値が上記履歴データを参照することにより取得され得る。かかる構成によれば、情報セキュリティ等の理由で又は設定の特性上、履歴データから再利用することが適切でない設定項目を、再利用の対象から確実に除外することができる。再利用の対象から除外される設定項目については、ユーザに設定値の入力(例えば、音声入力)を求めることで、必要とされるジョブの設定値を補うことができる。
【0144】
また、上述した実施形態では、上記履歴データから取得された設定値での新たなジョブの実行前に設定内容の確認をユーザに求めるか否かが、上記音声認識結果に基づいて判定され得る。かかる構成によれば、履歴データから取得される設定値での迅速なジョブの実行をユーザが望む場合に、音声対話が冗長となることを回避して直ちにジョブを実行することができる。
【0145】
<<5.その他の実施形態>>
上記実施形態は、1つ以上の機能を実現するプログラムをネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読み出して実行する処理の形式でも実現可能である。また、1つ以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
【0146】
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
【符号の説明】
【0147】
10:音声制御システム、100:音声制御装置、160:マイクロフォン、170:スピーカ、200:音声認識サーバ、300:画像処理装置、310:コントローラ(制御手段)、326:履歴データベース、330:ジョブ制御部、380:スキャナ(画像処理ユニット)、390:プリンタ(画像処理ユニット)
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23