特許7458716 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

特許7458716音声対話装置及びその制御方法、並びにプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-03-22

(45)【発行日】2024-04-01

(54)【発明の名称】音声対話装置及びその制御方法、並びにプログラム

(51)【国際特許分類】

G10L 15/06 20130101AFI20240325BHJP

G10L 15/10 20060101ALI20240325BHJP

G10L 15/22 20060101ALI20240325BHJP

【ＦＩ】

G10L15/06 200Z

G10L15/10 200W

G10L15/22 453

【請求項の数】 8

(21)【出願番号】P 2019121813

(22)【出願日】2019-06-28

(65)【公開番号】P2020038348

(43)【公開日】2020-03-12

【審査請求日】2022-06-27

(31)【優先権主張番号】P 2018165379

(32)【優先日】2018-09-04

(33)【優先権主張国・地域又は機関】JP

(73)【特許権者】

【識別番号】000001007

【氏名又は名称】キヤノン株式会社

(74)【代理人】

【識別番号】100125254

【弁理士】

【氏名又は名称】別役重尚

(72)【発明者】

【氏名】池田諭

【審査官】中村天真

(56)【参考文献】

【文献】特開２００８－２５７３８３（ＪＰ，Ａ）

【文献】特開２００７－１１４２９７（ＪＰ，Ａ）

【文献】特開２０１１－０６５１０８（ＪＰ，Ａ）

【文献】特開２００７－１０２０１２（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１５／００－１５／３４

Ｇ０６Ｇ３／１６

(57)【特許請求の範囲】

【請求項1】

入力された音声をジョブの実行に関する指示として受け付ける音声対話装置であって、
入力された第１の音声が示す設定値に基づいて前記ジョブを実行するジョブ実行手段と、
前記ジョブの実行を完了した後、入力された第２の音声が示す識別情報と当該ジョブの実行に使用した設定値とを対応付けて登録する登録手段と、
前記ジョブの実行を完了した後、当該ジョブの実行に使用した設定値を登録することをユーザが選択した場合に、前記設定値を登録する際に使用する前記識別情報の候補名を出力する手段とを備え、
前記ジョブ実行手段は、入力された第３の音声に前記識別情報が含まれている場合、前記識別情報に対応付けて登録された前記設定値に基づいて前記ジョブを実行することを特徴とする音声対話装置。

【請求項2】

前記設定値は、１または複数の種別の設定値であることを特徴とする請求項１に記載の音声対話装置。

【請求項3】

画像形成処理を行う画像形成装置であることを特徴とする請求項１又は２に記載の音声対話装置。

【請求項4】

前記設定値は、前記画像形成処理の実行に必要となる設定値であることを特徴とする請求項３に記載の音声対話装置。

【請求項5】

入力された第３の音声に前記識別情報が含まれている場合、前記ジョブを実行する前に、前記識別情報に対応付けて登録された前記設定値を出力することを特徴とする請求項１乃至４のいずれか１項に記載の音声対話装置。

【請求項6】

音声を出力する出力手段を有し、
前記設定値の出力は、前記出力手段による音声出力であることを特徴とする請求項５に記載の音声対話装置。

【請求項7】

入力された音声をジョブの実行に関する指示として受け付ける音声対話装置の制御方法であって、
入力された第１の音声が示す設定値に基づいて前記ジョブを実行するジョブ実行ステップと、
前記ジョブの実行を完了した後、入力された第２の音声が示す識別情報と当該ジョブの実行に使用した設定値とを対応付けて登録する登録ステップと、
前記ジョブの実行を完了した後、当該ジョブの実行に使用した設定値を登録することをユーザが選択した場合に、前記設定値を登録する際に使用する前記識別情報の候補名を出力するステップとを有し、
前記ジョブ実行ステップは、入力された第３の音声に前記識別情報が含まれている場合、前記識別情報に対応付けて登録された前記設定値に基づいて前記ジョブを実行することを特徴とする音声対話装置の制御方法。

【請求項8】

入力された音声をジョブの実行に関する指示として受け付ける音声対話装置の制御方法をコンピュータに実行させるプログラムであって、
前記音声対話装置の制御方法は、
入力された第１の音声が示す設定値に基づいて前記ジョブを実行するジョブ実行ステップと、
前記ジョブの実行を完了した後、入力された第２の音声が示す識別情報と当該ジョブの実行に使用した設定値とを対応付けて登録する登録ステップと、
前記ジョブの実行を完了した後、当該ジョブの実行に使用した設定値を登録することをユーザが選択した場合に、前記設定値を登録する際に使用する前記識別情報の候補名を出力するステップとを有し、
前記ジョブ実行ステップは、入力された第３の音声に前記識別情報が含まれている場合、前記識別情報に対応付けて登録された前記設定値に基づいて前記ジョブを実行することを特徴とするプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声対話装置及びその制御方法、並びにプログラムに関する。

【背景技術】

【0002】

対話エージェント機能を備える音声対話装置としてのＭＦＰが知られている。ＭＦＰは、対話エージェント機能を用いて、ユーザが発した音声をジョブの設定指示やジョブの実行指示等として受け付ける（例えば、特許文献１参照）。これにより、ユーザは、ＭＦＰの操作部を操作することなく、指示の内容を発話するだけで、ジョブの設定指示やジョブの実行指示を容易に行うことができる。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１４－２２２５１３号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、従来では、複数の種別の設定値を設定する必要があるジョブの実行指示を対話エージェント機能によって行う場合、ジョブ毎にユーザが複数の種別の設定値を発する必要があり、ユーザビリティが低下するという問題が生じる。

【0005】

本発明の目的は、対話エージェント機能のユーザビリティを向上することができる音声対話装置及びその制御方法、並びにプログラムを提供することにある。

【課題を解決するための手段】

【0006】

上記目的を達成するために、本発明の音声対話装置は、入力された音声をジョブの実行に関する指示として受け付ける音声対話装置であって、入力された第１の音声が示す設定値に基づいて前記ジョブを実行するジョブ実行手段と、前記ジョブの実行を完了した後、入力された第２の音声が示す識別情報と当該ジョブの実行に使用した設定値とを対応付けて登録する登録手段と、前記ジョブの実行を完了した後、当該ジョブの実行に使用した設定値を登録することをユーザが選択した場合に、前記設定値を登録する際に使用する前記識別情報の候補名を出力する手段とを備え、前記ジョブ実行手段は、入力された第３の音声に前記識別情報が含まれている場合、前記識別情報に対応付けて登録された前記設定値に基づいて前記ジョブを実行することを特徴とする。

【発明の効果】

【0007】

本発明によれば、対話エージェント機能のユーザビリティを向上することができる。

【図面の簡単な説明】

【0008】

【図1】本発明の実施の形態に係る音声対話装置としてのＭＦＰに搭載された対話エージェント機能を説明するための図である。

【図2】図１のＭＦＰのハードウェア構成を概略的に示すブロック図である。

【図3】図１のＭＦＰ、自然言語処理サービス、及び複合機管理サービスによって実行される音声識別情報生成処理の手順を示すシーケンス図である。

【図4】図１のＭＦＰとユーザとの対話の様子を示す図である。

【図5】図１のＭＦＰによって実行されるジョブ実行処理の手順を示すフローチャートである。

【図6】図１のＭＦＰとユーザとの対話の様子を示す図である。

【図7】図１のＭＦＰとユーザとの対話の様子を示す図である。

【図8】図１のＭＦＰが設定可能な機能設定情報の一例を示す図である。

【図9】ファックスジョブの実行に関するＭＦＰとユーザとの対話の様子を示す図である。

【図10】図１のＭＦＰにおける通知の一例を示す図である。

【図11】図１のＭＦＰが管理する管理テーブルの一例を示す図である。

【図12】ジョブの実行に使用された機能設定情報が既に登録されている場合のＭＦＰとユーザとの対話の様子を示す図である。

【図13】図１のＭＦＰが備える事前通知機能を説明するための図である。

【図14】図５のジョブ実行処理の変形例の手順を示すフローチャートである。

【図15】図１のＭＦＰとユーザとの対話の様子を示す図である。

【図16】自然言語処理サービス及び複合機管理サービスの機能を備えるＭＦＰの機能ブロック図である。

【発明を実施するための形態】

【0009】

以下、本発明の実施の形態について図面を参照しながら詳述する。なお、本実施の形態では、音声対話装置としてのＭＦＰに本発明を適用した場合について説明するが、本発明はＭＦＰに限られない。例えば、スマートスピーカー、スマートフォン、タブレット端末、及びＰＣといった対話エージェント機能を備える装置に本発明を適用してもよい。

【0010】

図１は、本発明の実施の形態に係る音声対話装置としてのＭＦＰ１０１に搭載された対話エージェント機能を説明するための図である。ＭＦＰ１０１は、画像形成処理を行う画像形成装置である。ＭＦＰ１０１は、コピー機能、スキャン機能、及びＦＡＸ機能等の画像形成処理の実行を伴うジョブを実行するための複数の機能を備える。また、ＭＦＰ１０１は、対話エージェント機能を備える。対話エージェント機能を利用することで、ユーザは、指示の内容を発話するだけでジョブの実行指示やジョブの設定指示を行うことができる。ＭＦＰ１０１は、ユーザが発した音声を受けると、当該音声を自然言語で表現したユーザ操作リクエストを、自然言語処理サービス１０２に送信する。自然言語処理サービス１０２は、クラウド１０３を構成するモジュールである。自然言語処理サービス１０２は、ＭＦＰ１０１からユーザ操作リクエストを受信すると、当該ユーザ操作リクエストに基づいて自然言語処理を行い、ユーザが発した音声に含まれる字句を解析する。また、自然言語処理サービス１０２は、解析結果を複合機管理サービス１０４に送信する。複合機管理サービス１０４も、自然言語処理サービスと同様に、クラウド１０３を構成するモジュールである。複合機管理サービス１０４は、自然言語処理サービス１０２から受信した解析結果に基づいて、ＭＦＰ１０１が上記音声を識別可能な音声識別情報を生成し、当該音声識別情報をＭＦＰ１０１に送信する。ＭＦＰ１０１は、受信した音声識別情報に基づいて、例えば、ＭＦＰ１０１が受けた音声が示す設定値をジョブの実行に必要となる機能設定情報として設定する。

【0011】

図２は、図１のＭＦＰ１０１のハードウェア構成を概略的に示すブロック図である。図２において、ＭＦＰ１０１は、ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０３、ｅＭＭＣ２０４、マイク・スピーカ２０５、プリンタ２０６、スキャナ２０７、操作部２０８、及びネットワーク制御部２０９を備える。ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０３、ｅＭＭＣ２０４、マイク・スピーカ２０５、プリンタ２０６、スキャナ２０７、操作部２０８、及びネットワーク制御部２０９はバス２１０を介して互いに接続されている。

【0012】

ＣＰＵ２０１は、ＭＦＰ１０１全体の動作を制御する。ＣＰＵ２０１は、ＲＯＭ２０２やｅＭＭＣ２０４に記憶されたプログラムを読み出し、読取制御、印刷制御、及び送信制御等の各種制御を行う。ＲＡＭ２０３は、ＣＰＵ２０１がプログラムを実行する際にワークエリア等として使用される揮発性のメモリである。ｅＭＭＣ２０４は、画像データや各種プログラムを記憶する。マイク・スピーカ２０５は、ユーザが発した音声を受ける。また、マイク・スピーカ２０５は、ユーザから受けた音声に対する応答メッセージを音声出力する。

【0013】

プリンタ２０６は、バス２１０を介して転送された画像データに基づいて印刷処理を行う。スキャナ２０７は、配置された原稿を読み取って画像データを生成する。操作部２０８は、表示部（不図示）やハードキー（不図示）等を備える。表示部は、ユーザが指で操作可能なタッチパネルとして動作する。ネットワーク制御部２０９は、ＬＡＮ２１１と接続するためのＮＩＣ（Network Interface Card）（不図示）を備える。

【0014】

図３は、図１のＭＦＰ１０１、自然言語処理サービス１０２、及び複合機管理サービス１０４によって実行される音声識別情報生成処理の手順を示すシーケンス図である。図３の処理は、マイク・スピーカ２０５で音声を受けた際に実行される。

【0015】

図３において、ＭＦＰ１０１は、マイク・スピーカ２０５で音声を受けると（ステップＳ３０１）、当該音声を自然言語で表現したユーザ操作リクエストを自然言語処理サービス１０２に送信する（ステップＳ３０２）。自然言語処理サービス１０２は、受信したユーザ操作リクエストに基づいて自然言語処理を実行し、マイク・スピーカ２０５で受けた音声に含まれる字句を解析する（ステップＳ３０３）。次いで、自然言語処理サービス１０２は、解析結果を複合機管理サービス１０４へ送信する（ステップＳ３０４）。複合機管理サービス１０４は、受信した解析結果に基づいて音声識別情報を生成し（ステップＳ３０５）、当該音声識別情報をＭＦＰ１０１へ送信する（ステップＳ３０６）。ＭＦＰ１０１は、受信した音声識別情報からユーザの指示を特定し、特定した指示に対する応答メッセージをマイク・スピーカ２０５から音声出力する。このように、本実施の形態では、図３の処理により、ＭＦＰ１０１は、マイク・スピーカ２０５で音声を受ける毎に受けた音声の音声識別情報を複合機管理サービス１０４から取得し、取得した音声識別情報に基づいてマイク・スピーカ２０５で受けた各音声の内容を把握することができる。以下では、図３の処理に関する動作の説明を省略し、ＭＦＰ１０１は、マイク・スピーカ２０５で音声を受けた際に当該音声の音声識別情報を複合機管理サービス１０４から取得することとして説明する。

【0016】

次に、対話エージェント機能を利用してジョブの実行指示を行う際のユーザ及びＭＦＰ１０１の対話について説明する。

【0017】

図４において、ＭＦＰ１０１は、例えば、音声入力動作を開始するための所定の音声入力キーワードを含む音声メッセージ４０１、及びコピー機能の利用を示す図４の音声メッセージ４０２をマイク・スピーカ２０５で受けると、コピージョブの機能設定情報の設定を促す音声メッセージ４０３をマイク・スピーカ２０５から出力する。以下では、コピージョブの機能設定情報をコピー設定情報とする。その後、コピー設定情報に関する音声メッセージ４０４～４０６をマイク・スピーカ２０５で受けると、ＭＦＰ１０１は、音声メッセージ４０４～４０６に基づいてコピー設定情報として「４ｉｎ１」、「カラー」、「両面」、「ステイプル」を設定する。ＭＦＰ１０１は、設定した内容を示す音声メッセージ４０７をマイク・スピーカ２０５から出力する。また、ＭＦＰ１０１は、設定したコピー設定情報でコピージョブを実行する。コピージョブの実行を完了すると、ＭＦＰ１０１は、音声メッセージ４０８を出力して、当該コピージョブで使用した機能設定情報をプリセットとして保存するか否かをユーザに選択させる。ユーザから上記機能設定情報をプリセットとして保存することを示す音声メッセージ４０９をマイク・スピーカ２０５で受けると、ＭＦＰ１０１は、プリセット名の設定を促す音声メッセージ４１０をマイク・スピーカ２０５から出力する。その後、ユーザからプリセット名を示す音声メッセージ４１１をマイク・スピーカ２０５で受けると、ＭＦＰ１０１は、上記プリセット名を上記機能設定情報に対応付けて登録する。これにより、ユーザは、次回から上記プリセット名を発するだけで、当該プリセット名に対応付けられた機能設定情報をＭＦＰ１０１に設定することが可能となる。なお、登録された情報は、ＲＯＭ２０２等に格納される。また、ＭＦＰ１０１は、次回から上記機能設定情報を上記プリセット名で呼び出し可能である旨を示す音声メッセージ４１２をマイク・スピーカ２０５から出力する。このとき、ＭＦＰ１０１は、上記機能設定情報の具体値である「４ｉｎ１」、「カラー」、「両面」、「ステイプル」や、プリセット名である「チーム内打ち合わせ」をマイク・スピーカ２０５から出力する。

【0018】

図５は、図１のＭＦＰ１０１によって実行されるジョブ実行処理の手順を示すフローチャートである。図５の処理は、ＣＰＵ２０１がＲＯＭ２０２やｅＭＭＣ２０４に記憶されたプログラムを実行することによって行われる。図５の処理は、例えば、ＭＦＰ１０１が起動した際に実行される。

【0019】

図５において、まず、ＣＰＵ２０１は、マイク・スピーカ２０５で音声を受けると、複合機管理サービス１０４から受信した上記音声の音声識別情報に基づいて上記音声に所定の音声入力キーワードが含まれているか否かを判別する（ステップＳ５０１）。上記音声に所定の音声入力キーワードが含まれていると（ステップＳ５０１でＹＥＳ）、ＣＰＵ２０１は、音声入力動作を開始する（ステップＳ５０２）。その後、ＣＰＵ２０１は、マイク・スピーカ２０５で別の音声を受けると、受けた音声の音声識別情報に基づいてユーザに指定された機能を特定する（ステップＳ５０３）。例えば、図６の音声メッセージ６０１を受けた場合、ＣＰＵ２０１は、音声メッセージ６０１の音声識別情報に基づいて、ユーザに指定された機能がコピー機能であることを特定する。次いで、ＣＰＵ２０１は、特定した機能を利用するジョブの機能設定情報の設定を促す図６の音声メッセージ６０２をマイク・スピーカ２０５から出力する。その後、ＣＰＵ２０１は、マイク・スピーカ２０５で別の音声を受けると、受けた音声に予め登録されたプリセット名が含まれているか否かを判別する（ステップＳ５０４）。

【0020】

ステップＳ５０４の判別の結果、受けた音声に予め登録されたプリセット名が含まれているとき（例えば、図６の音声メッセージ６０３を参照。）、ＣＰＵ２０１は、上記プリセット名に対応付けられた機能設定情報を設定する。機能設定情報は、例えば、音声メッセージ４１２に含まれるコピー設定情報のように、ジョブの実行に必要となる複数の種別の設定値を含む。次いで、ＣＰＵ２０１は、設定した機能設定情報でジョブを実行する（ステップＳ５０５）。また、ＣＰＵ２０１は、プリセット名に対応付けられた機能設定情報でジョブが実行された旨を示す音声メッセージ６０４を出力し、本処理を終了する。

【0021】

ステップＳ５０４の判別の結果、受けた音声に予め登録されたプリセット名が含まれていないとき（例えば、図７の音声メッセージ７０１を参照。）、ＣＰＵ２０１は上記音声に含まれる単語に類似するプリセット名の候補リストを出力する（ステップＳ５０６）。例えば、「打ち合わせ用４ｉｎ１」、「打ち合わせ用２ｉｎ１」がプリセット名として予め登録された状態で、マイク・スピーカ２０５で「打ち合わせ用」の単語を含む音声メッセージ７０１を受けた場合、ＣＰＵ２０１は、プリセット名の候補リストとして「打ち合わせ用４ｉｎ１」及び「打ち合わせ用２ｉｎ１」を含む図７の音声メッセージ７０２をマイク・スピーカ２０５から出力する。その後、ＣＰＵ２０１は、マイク・スピーカ２０５で別の音声を受けると、受けた音声の音声識別情報に基づいて候補リストの中から一つのプリセット名が選択されたか否かを判別する（ステップＳ５０７）。

【0022】

ステップＳ５０７の判別の結果、候補リストの中から一つのプリセット名が選択されたとき、ＣＰＵ２０１は、選択されたプリセット名に対応付けられた機能設定情報を設定し、ステップＳ５０５の処理を行う。

【0023】

ステップＳ５０７の判別の結果、候補リストの中から一つのプリセット名が選択されないとき、ＣＰＵ２０１は、プリセット名を使わずに機能設定情報を設定する。具体的に、ＣＰＵ２０１は、図４に示すように、ジョブの実行に必要となる各設定値を対話で確認し、マイク・スピーカ２０５で受けた各音声が示す複数の種別の設定値を機能設定情報として設定する。ＣＰＵ２０１は、設定した機能設定情報でジョブを実行する（ステップＳ５０８）。次いで、ＣＰＵ２０１は、音声メッセージ４０８をマイク・スピーカ２０５から出力して、上記ジョブで使用した機能設定情報をプリセットとして保存するか否かをユーザに選択させる。その後、ＣＰＵ２０１は、マイク・スピーカ２０５で別の音声を受けると、受けた音声の音声識別情報に基づいて上記ジョブで使用した機能設定情報をプリセットとして保存するか否かを判別する（ステップＳ５０９）。

【0024】

ステップＳ５０９の判別の結果、上記ジョブで使用した機能設定情報をプリセットとして保存しないとき、ＣＰＵ２０１は、本処理を終了する。ステップＳ５０９の判別の結果、上記ジョブで使用した機能設定情報をプリセットとして保存するとき、ＣＰＵ２０１は、上記機能設定情報に対応付けるプリセット名を示す音声をマイク・スピーカ２０５で受けたか否かを判別する（ステップＳ５１０）。

【0025】

ステップＳ５１０の判別の結果、上記機能設定情報に対応付けるプリセット名を示す音声をマイク・スピーカ２０５で受けたとき、ＣＰＵ２０１は、受けた音声が示すプリセット名を上記機能設定情報に対応付けて登録する（ステップＳ５１１）。その後、ＣＰＵ２０１は、本処理を終了する。

【0026】

ステップＳ５１０の判別の結果、上記機能設定情報に対応付けるプリセット名を示す音声をマイク・スピーカ２０５で受けないとき、ＣＰＵ２０１は、マイク・スピーカ２０５で最後に音声を受けてから予め設定された所定の時間を経過したか否かを判別する（ステップＳ５１２）。

【0027】

ステップＳ５１２の判別の結果、マイク・スピーカ２０５で最後に音声を受けてから所定の時間を経過しないとき、ＣＰＵ２０１は、ステップＳ５１０の処理に戻る。ステップＳ５１２の判別の結果、マイク・スピーカ２０５で最後に音声を受けてから所定の時間を経過したとき、ＣＰＵ２０１は、本処理を終了する。

【0028】

上述した実施の形態によれば、受けた音声にプリセット名が含まれている場合、プリセット名に対応付けて予め登録された複数の種別の設定値に基づいてジョブが実行される。すなわち、複数の種別の設定値を設定するジョブの実行指示を対話エージェント機能によって行う際に、ジョブ毎にユーザが複数の種別の設定値を発する必要がない。これにより、対話エージェント機能によるジョブの実行指示を行う際のユーザの手間を軽減することができ、もって、対話エージェント機能のユーザビリティを向上することができる。

【0029】

また、上述した実施の形態では、ジョブの実行を完了した後、当該ジョブの実行に使用した複数の種別の設定値に対応付けるプリセット名を登録するか否かがユーザに選択される。これにより、プリセット名の登録に関し、ユーザの意図を反映させることができる。

【0030】

さらに、上述した実施の形態では、プリセット名を登録する際に、当該プリセット名に対応付ける全ての設定値を含む音声メッセージ４１２がマイク・スピーカ２０５から出力される。これにより、プリセット名を登録する際に、当該プリセット名に対応付けられる設定値をユーザが把握することができる。

【0031】

上述した実施の形態では、複数の種別の設定値は、画像形成処理の実行に必要となる設定値である。これにより、画像形成処理の実行を伴うジョブの実行指示を対話エージェント機能によって行う際のユーザの手間を軽減することができる。

【0032】

以上、本発明について、上述した実施の形態を用いて説明したが、本発明は上述した実施の形態に限定されるものではない。例えば、プリセット名に対応付けられる機能設定情報は、コピー設定情報以外の機能設定情報、例えば、図８に示すコピー機能、ファックス機能、スキャンして送信機能、スキャンして保存機能、保存ファイルの利用機能、受信トレイ機能、セキュアプリント機能、及びプリント機能といったＭＦＰ１０１が備える機能を利用するジョブの機能設定情報であっても良い。例えば、ユーザからファックスジョブで使用した機能設定情報をプリセットとして保存することを示す図９の音声メッセージ９０１をマイク・スピーカ２０５で受け、その後、ユーザからプリセット名を示す音声メッセージ９０２をマイク・スピーカ２０５で受けると、ＭＦＰ１０１は、メッセージ９０２が示すプリセット名を上記ファックスジョブで使用した機能設定情報に対応付けて登録する。

【0033】

また、上述した実施の形態では、ＭＦＰ１０１が事前通知機能を備えていても良い。事前通知機能は、ジョブの機能設定情報の設定を促すメッセージの応答としてユーザから受けた音声にプリセット名が含まれている場合、ジョブを実行する前に、上記プリセット名に対応付けて予め登録された複数の種別の設定値をマイク・スピーカ２０５から出力する機能である。この機能により、ユーザがＭＦＰ１０１に設定された機能設定情報をジョブの実行前に確認することができる。

【0034】

さらに、上述した実施の形態では、事前通知機能によってマイク・スピーカ２０５から出力される設定値の種別数が所定の数より多い場合、ＭＦＰ１０１は、マイク・スピーカ２０５から上記設定値を音声出力せずに、図１０に示すように、上記設定値を操作部２０８に表示しても良い。また、この場合、マイク・スピーカ２０５から上記設定値を音声出力しつつ、上記設定値を操作部２０８に表示しても良い。このように上記設定値を操作部２０８に表示することで、プリセット名に機能設定情報として複数種の設定値が対応付けられても、ユーザが当該機能設定情報の内容を容易に把握することができる。

【0035】

上述した実施の形態では、図１１の管理テーブル１１００によってプリセット名及び機能設定情報がユーザ毎に管理されても良い。管理テーブル１１００は、ＭＦＰ１０１及びクラウド１０３の少なくとも一方に格納される。管理テーブル１１００では、各ユーザに対応付けしてプリセット名及び機能設定情報が登録されている。例えば、管理テーブル１１００には、図１１の「チーム内打ち合わせ」のように同一のプリセット名であっても、ユーザａ，ｃ毎に異なる内容の機能設定情報が登録されている。ＭＦＰ１０１は、プリセット名を示すメッセージをマイク・スピーカ２０５で受けた場合、ユーザがＭＦＰ１０１にログインした際に使用したログイン情報又はユーザの声紋認証の認証結果に基づいてユーザを特定する。ＭＦＰ１０１は、管理テーブル１１００の中から、マイク・スピーカ２０５で受けたメッセージが示すプリセット名に対応付けられた機能設定情報であって上記特定したユーザに関する機能設定情報を特定し、特定した機能設定情報を用いてジョブを実行する。機能設定情報をユーザ毎に管理することで、対話エージェント機能のユーザビリティを更に向上することができる。

【0036】

上述した実施の形態では、ジョブの実行に使用された機能設定情報がプリセットとして既に保存されている場合、ＭＦＰ１０１は、図１２のメッセージ１２０１をマイク・スピーカ２０５から出力して、上記機能設定情報に対応付けられたプリセット名を変更するか否かをユーザに選択させても良い。

【0037】

また、上述した実施の形態では、上記事前通知機能のＯＮ／ＯＦＦをユーザに設定させても良い。ユーザが設定した事前通知機能のＯＮ／ＯＦＦの何れかを示す設定値は、ＲＯＭ２０２等に格納される。事前通知機能をＯＮに設定されたＭＦＰ１０１は、ジョブの機能設定情報の設定を促すメッセージの応答としてユーザから受けた音声にプリセット名が含まれている場合、ジョブを実行する前に、例えば、図１３（ａ）のメッセージ１３０１をマイク・スピーカ２０５から出力する。メッセージ１３０１には、上記プリセット名に対応付けて登録された機能設定情報が含まれる。一方、事前通知機能をＯＦＦに設定されたＭＦＰ１０１は、ジョブの機能設定情報の設定を促すメッセージの応答としてユーザから受けた音声にプリセット名が含まれている場合、例えば、図１３（ｂ）に示すように、当該プリセット名に対応付けて登録された機能設定情報をマイク・スピーカ２０５から出力することなく、ジョブを実行する。

【0038】

図１４は、図５のジョブ実行処理の変形例の手順を示すフローチャートである。図１４の処理も、ＣＰＵ２０１がＲＯＭ２０２やｅＭＭＣ２０４に記憶されたプログラムを実行することによって行われる。図１４の処理も、例えば、ＭＦＰ１０１が起動した際に実行される。

【0039】

図１４において、ＣＰＵ２０１は、ステップＳ５０１～Ｓ５０４の処理を行う。ステップＳ５０４の判別の結果、受けた音声に予め登録されたプリセット名が含まれていないとき、ＣＰＵ２０１は、ステップＳ５０６、Ｓ５０７の処理を行う。

【0040】

ステップＳ５０７の判別の結果、候補リストの中から一つのプリセット名が選択されたとき、又はステップＳ５０４の判別の結果、受けた音声に予め登録されたプリセット名が含まれているとき、ＣＰＵ２０１は、事前通知機能がＯＮ及びＯＦＦの何れであるかを判別する（ステップＳ１４０１）。

【0041】

ステップＳ１４０１の判別の結果、事前通知機能がＯＮであるとき、ＣＰＵ２０１は、受けた音声に含まれるプリセット名に対応付けて予め登録された機能設定情報を示すメッセージ、例えば、図１３のメッセージ１３０１を通知する（ステップＳ１４０２）。ステップＳ１４０２の通知は、マイク・スピーカ２０５による音声出力及び操作部２０８へのメッセージ表示の少なくとも一方で行われる。次いで、ＣＰＵ２０１は、マイク・スピーカ２０５で別の音声を受けると、受けた音声の音声識別情報に基づいて、上記機能設定情報の内容を変更するか否かを判別する（ステップＳ１４０３）。

【0042】

ステップＳ１４０３の判別の結果、上記機能設定情報の内容を変更しないとき、又はステップＳ１４０１の判別の結果、事前通知機能がＯＦＦであるとき、ＣＰＵ２０１は、ステップＳ５０５以降の処理を行う。ステップＳ１４０３の判別の結果、上記機能設定情報の内容を変更するとき、又はステップＳ５０７の判別の結果、候補リストの中から一つのプリセット名が選択されないとき、ＣＰＵ２０１は、ステップＳ５０８～Ｓ５１０の処理を行う。

【0043】

ステップＳ５１０の判別の結果、上記機能設定情報に対応付けるプリセット名を示す音声をマイク・スピーカ２０５で受けたとき、ＣＰＵ２０１は、受けた音声が示すプリセット名と同じプリセット名が登録されているか否かを判別する（ステップＳ１４０４）。

【0044】

ステップＳ１４０４の判別の結果、受けた音声が示すプリセット名と同じプリセット名が登録されていないとき、ＣＰＵ２０１は、ステップＳ５１１以降の処理を行う。ステップＳ１４０４の判別の結果、受けた音声が示すプリセット名と同じプリセット名が登録されているとき、ＣＰＵ２０１は、例えば、図１５のメッセージ１５０１をマイク・スピーカ２０５から出力して、プリセット名の登録情報を上書きするか否かをユーザに選択させる（ステップＳ１４０５）。プリセット名の登録情報の上書きは、管理テーブル１１００において、上記プリセット名に関し、予め対応付けられた機能設定情報をステップＳ５０８で使用した機能設定情報に更新する処理である。

【0045】

ステップＳ１４０５において、ユーザからプリセット名の登録情報を上書きすることを示すメッセージをマイク・スピーカ２０５で受けたとき、ＣＰＵ２０１は、上記プリセット名の登録情報を上書きし（ステップＳ１４０６）、本処理を終了する。

【0046】

ステップＳ１４０５において、ユーザからプリセット名の登録情報を上書きしないことを示すメッセージをマイク・スピーカ２０５で受けたとき、ＣＰＵ２０１は、例えば、図１５のメッセージ１５０２をマイク・スピーカ２０５から出力して、上記プリセット名の候補を通知する（ステップＳ１４０７）。ステップＳ１４０７では、ＣＰＵ２０１は、受けた音声が示すプリセット名と登録済みのプリセット名との差分から特徴となる文字列を含むプリセット名の候補を生成し、当該プリセット名の候補を通知する。ステップＳ１４０７の通知は、マイク・スピーカ２０５による音声出力及び操作部２０８へのメッセージ表示の少なくとも一方で行われる。次いで、ＣＰＵ２０１は、ステップＳ５１２の処理を行う。

【0047】

上述した実施の形態では、ユーザが発した音声をＭＦＰ１０１のマイク・スピーカ２０５が受ける場合について説明したが、ＭＦＰ１０１以外の他の装置、例えば、スマートスピーカーといったモバイル端末（不図示）によってユーザが発した音声を受けても良い。モバイル端末は、ユーザが発した音声を受けると、例えば、無線ＬＡＮルータ２１２を介して上記ユーザ操作リクエストをＭＦＰ１０１に送信する。ＭＦＰ１０１は、ステップＳ３０２の処理として、受信したユーザ操作リクエストを自然言語処理サービス１０２に転送する。自然言語処理サービス１０２は、受信したユーザ操作リクエストに基づいてステップＳ３０３、Ｓ３０４の処理を行い、複合機管理サービス１０４は、ステップＳ３０５、Ｓ３０６の処理を行って、音声識別情報をＭＦＰ１０１に送信する。

【0048】

また、モバイル端末は、ユーザが発した音声を受けると、例えば、無線ＬＡＮルータ２１２を介して上記ユーザ操作リクエストを自然言語処理サービス１０２へ送信する。自然言語処理サービス１０２は、受信したユーザ操作リクエストに基づいてステップＳ３０３、Ｓ３０４の処理を行い、複合機管理サービス１０４は、ステップＳ３０５、Ｓ３０６の処理を行って、音声識別情報をＭＦＰ１０１に送信する。

【0049】

また、上述した実施の形態では、ＭＦＰが自然言語処理サービス１０２及び複合機管理サービス１０４の機能を備えていても良い。図１６は、自然言語処理サービス１０２及び複合機管理サービス１０４の機能を備えるＭＦＰ１６００の機能ブロック図である。

【0050】

音声入力部１６０１は、ユーザが発した音声を受けると、当該音声に関するデータ（以下、「音声データ」という。）を音質調整部１６０２へ送信する。音質調整部１６０２は、音質が調整された音声データを自然言語処理部１６０３及び声紋判定部１６０７へ送信する。自然言語処理部１６０３は、音質が調整された音声データをテキストデータに変換し、当該テキストデータを字句解析部１６０４へ送信する。字句解析部１６０４は、受信したテキストデータを字句に変換し、当該字句をコマンド解析部１６０５へ送信する。コマンド解析部１６０５は、受信した字句を解析して、ユーザが発した音声が示す指示を特定する。コマンド解析部１６０５は、特定した指示を示すコマンドデータをコマンドＤＢ１６０６に格納すると共に、当該コマンドデータを制御部１３１１へ送信する。声紋判定部１６０７は、音質が調整された音声データから声紋を判定し、判定した結果から特定したユーザに関する情報（以下、「ユーザ情報」という。）を生成し、当該ユーザ情報をユーザ識別部１６０８へ送信する。ユーザ識別部１６０８は、声紋判定部１６０７から取得したユーザ情報とユーザＤＢ１６０９に予め登録されたユーザ登録情報とに基づいてユーザ認証を行う。ユーザ識別部１６０８は、ユーザ情報及びユーザ認証の結果を示すユーザ識別情報を制御部１３１１へ送信する。機器状態管理部１６１０は、ＭＦＰ１６００の機器状態情報を制御部１３１１へ送信する。制御部１６１１は、音声出力部１６１２へ応答命令を送信し、設定部１６１３へ使用する設定値に関する設定コマンドを送信し、出力部１６１５へ利用する機能を示す機能コマンドを送信する。設定部１６１３は、プリセットに関する情報をプリセットＤＢ１６１４と送受信し、例えば、音声入力部１６０１が受けた音声が示すプリセット名に対応付けられた機能設定情報を出力部１６１５へ送信する。出力部１６１５は、機能コマンドが示す機能により、設定部１６１３から取得した機能設定情報を用いてジョブを実行する。例えば、出力部１６１５は、機能コマンドが示すＦＡＸ部１６１６により、設定部１６１３から取得した機能設定情報を用いてＦＡＸデータを外部装置へ送信する。

【0051】

本発明は、上述の実施の形態の１以上の機能を実現するプログラムをネットワーク又は記憶媒体を介してシステム又は装置に供給し、該システム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読み出して実行する処理でも実現可能である。また、本発明は、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

【符号の説明】

【0052】

１０１ＭＦＰ
２０１ＣＰＵ
４０８、４１２音声メッセージ

【図1】