IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 京セラドキュメントソリューションズ株式会社の特許一覧

特開2024-169870ジョブ命令生成システム、ジョブ命令生成プログラムおよび音声操作システム
<>
  • 特開-ジョブ命令生成システム、ジョブ命令生成プログラムおよび音声操作システム 図1
  • 特開-ジョブ命令生成システム、ジョブ命令生成プログラムおよび音声操作システム 図2
  • 特開-ジョブ命令生成システム、ジョブ命令生成プログラムおよび音声操作システム 図3
  • 特開-ジョブ命令生成システム、ジョブ命令生成プログラムおよび音声操作システム 図4
  • 特開-ジョブ命令生成システム、ジョブ命令生成プログラムおよび音声操作システム 図5
  • 特開-ジョブ命令生成システム、ジョブ命令生成プログラムおよび音声操作システム 図6
  • 特開-ジョブ命令生成システム、ジョブ命令生成プログラムおよび音声操作システム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024169870
(43)【公開日】2024-12-06
(54)【発明の名称】ジョブ命令生成システム、ジョブ命令生成プログラムおよび音声操作システム
(51)【国際特許分類】
   G10L 15/22 20060101AFI20241129BHJP
   G10L 15/00 20130101ALI20241129BHJP
【FI】
G10L15/22 470Z
G10L15/00 200Z
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2023086689
(22)【出願日】2023-05-26
(71)【出願人】
【識別番号】000006150
【氏名又は名称】京セラドキュメントソリューションズ株式会社
(74)【代理人】
【識別番号】100140796
【弁理士】
【氏名又は名称】原口 貴志
(72)【発明者】
【氏名】▲高▼橋 稔
(72)【発明者】
【氏名】中嶋 宏佑
(72)【発明者】
【氏名】川中 康平
(57)【要約】
【課題】 音声データを音声認識によってテキストデータに変換する音声受付デバイスが使用される場合に、ユーザーの意図通りに画像形成装置が動作する可能性を向上することができるジョブ命令生成システム、ジョブ命令生成プログラムおよび音声操作システムを提供する。
【解決手段】 ジョブ命令生成システムは、受け付けた音声を示す音声データを音声認識によってテキストデータに変換するスマートスピーカーによる音声認識の誤りを訂正するための誤り訂正モデルを管理し、スマートスピーカーから受信したテキストデータにおける音声認識の誤りを、誤り訂正モデルを使用して訂正し(S73)、画像形成装置が解釈可能なジョブの命令を、音声認識の誤りを訂正したテキストデータに基づいて生成する(S74)ことを特徴とする。
【選択図】 図7
【特許請求の範囲】
【請求項1】
受け付けた音声を示す音声データを音声認識によってテキストデータに変換する音声受付デバイスによる前記音声認識の誤りを訂正するための誤り訂正情報を管理し、
前記音声受付デバイスから受信した前記テキストデータにおける前記誤りを、前記誤り訂正情報を使用して訂正し、
画像形成装置が解釈可能なジョブの命令を、前記誤りを訂正した前記テキストデータに基づいて生成することを特徴とするジョブ命令生成システム。
【請求項2】
前記誤り訂正情報を前記音声受付デバイスの種類毎に管理し、
前記音声受付デバイスから受信した前記テキストデータにおける前記誤りを、この音声受付デバイスの種類に応じた前記誤り訂正情報を使用して訂正することを特徴とする請求項1に記載のジョブ命令生成システム。
【請求項3】
前記音声受付デバイスの種類と、前記音声受付デバイスのユーザーの識別情報との対応関係を管理し、
前記音声受付デバイスから受信した前記テキストデータにおける前記誤りを、このテキストデータに関連して前記音声受付デバイスから受信した前記識別情報に対応付けられた前記音声受付デバイスの種類に応じた前記誤り訂正情報を使用して訂正することを特徴とする請求項2に記載のジョブ命令生成システム。
【請求項4】
受け付けた音声を示す音声データを音声認識によってテキストデータに変換する音声受付デバイスによる前記音声認識の誤りを訂正するための誤り訂正情報を管理する動作と、
前記音声受付デバイスから受信した前記テキストデータにおける前記誤りを、前記誤り訂正情報を使用して訂正する動作と、
画像形成装置が解釈可能なジョブの命令を、前記誤りを訂正した前記テキストデータに基づいて生成する動作と
をコンピューターに実現させることを特徴とするジョブ命令生成プログラム。
【請求項5】
受け付けた音声を示す音声データを音声認識によってテキストデータに変換する音声受付デバイスと、
画像形成装置が解釈可能なジョブの命令を生成するジョブ命令生成システムと
を備え、
前記ジョブ命令生成システムは、前記音声受付デバイスによる前記音声認識の誤りを訂正するための誤り訂正情報を管理し、
前記ジョブ命令生成システムは、前記音声受付デバイスから受信した前記テキストデータにおける前記誤りを、前記誤り訂正情報を使用して訂正し、
前記ジョブ命令生成システムは、前記誤りを訂正した前記テキストデータに基づいて前記命令を生成することを特徴とする音声操作システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声受付デバイスによって生成されたテキストデータに基づいて、画像形成装置が解釈可能なジョブの命令を生成するジョブ命令生成システム、ジョブ命令生成プログラムおよび音声操作システムに関する。
【背景技術】
【0002】
従来、音声受付デバイスとしてのスマートスピーカーを介して画像形成装置を操作する音声操作システムが知られている(例えば、特許文献1参照。)。特許文献1に記載された音声操作システムにおいて、LAN(Local Area Network)などのネットワークを介して画像形成装置に接続されているクラウドサービス装置が、スマートスピーカーに入力された音声に基づいて、画像形成装置が解釈可能なジョブの命令を生成し、生成した命令を画像形成装置に送信する。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2020-087347号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1に記載された音声操作システムにおいては、スマートスピーカーに入力された音声を示す音声データをクラウドサービス装置が音声認識によってテキストデータに変換するので、音声データを音声認識によってテキストデータに変換するスマートスピーカーに対応していないという問題がある。また、前記特許文献1に記載された音声操作システムにおいては、音声認識に誤りがある場合に、ユーザーの意図通りに画像形成装置が動作しないという問題がある。
【0005】
そこで、本発明は、音声データを音声認識によってテキストデータに変換する音声受付デバイスが使用される場合に、ユーザーの意図通りに画像形成装置が動作する可能性を向上することができるジョブ命令生成システム、ジョブ命令生成プログラムおよび音声操作システムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明のジョブ命令生成システムは、受け付けた音声を示す音声データを音声認識によってテキストデータに変換する音声受付デバイスによる前記音声認識の誤りを訂正するための誤り訂正情報を管理し、前記音声受付デバイスから受信した前記テキストデータにおける前記誤りを、前記誤り訂正情報を使用して訂正し、画像形成装置が解釈可能なジョブの命令を、前記誤りを訂正した前記テキストデータに基づいて生成することを特徴とする。
【0007】
この構成により、本発明のジョブ命令生成システムは、受け付けた音声を示す音声データを音声認識によってテキストデータに変換する音声受付デバイスから受信したテキストデータにおける音声認識の誤りを、誤り訂正情報を使用して訂正し、画像形成装置が解釈可能なジョブの命令を、音声認識の誤りを訂正したテキストデータに基づいて生成するので、音声データを音声認識によってテキストデータに変換する音声受付デバイスが使用される場合に、ユーザーの意図通りに画像形成装置が動作する可能性を向上することができる。
【0008】
本発明のジョブ命令生成システムは、前記誤り訂正情報を前記音声受付デバイスの種類毎に管理し、前記音声受付デバイスから受信した前記テキストデータにおける前記誤りを、この音声受付デバイスの種類に応じた前記誤り訂正情報を使用して訂正しても良い。
【0009】
この構成により、本発明のジョブ命令生成システムは、音声受付デバイスから受信したテキストデータにおける音声認識の誤りを、この音声受付デバイスの種類に応じた誤り訂正情報を使用して訂正するので、音声データを音声認識によってテキストデータに変換する音声受付デバイスが使用される場合に、ユーザーの意図通りに画像形成装置が動作する可能性を向上することができる。
【0010】
本発明のジョブ命令生成システムは、前記音声受付デバイスの種類と、前記音声受付デバイスのユーザーの識別情報との対応関係を管理し、前記音声受付デバイスから受信した前記テキストデータにおける前記誤りを、このテキストデータに関連して前記音声受付デバイスから受信した前記識別情報に対応付けられた前記音声受付デバイスの種類に応じた前記誤り訂正情報を使用して訂正しても良い。
【0011】
この構成により、本発明のジョブ命令生成システムは、音声受付デバイスから受信したテキストデータにおける音声認識の誤りを、このテキストデータに関連して音声受付デバイスから受信したユーザーの識別情報に対応付けられた音声受付デバイスの種類に応じた誤り訂正情報を使用して訂正するので、音声受付デバイスから音声受付デバイスの種類が通知されなくても、ユーザーの意図通りに画像形成装置が動作する可能性を向上することができる。
【0012】
本発明のジョブ命令生成プログラムは、受け付けた音声を示す音声データを音声認識によってテキストデータに変換する音声受付デバイスによる前記音声認識の誤りを訂正するための誤り訂正情報を管理する動作と、前記音声受付デバイスから受信した前記テキストデータにおける前記誤りを、前記誤り訂正情報を使用して訂正する動作と、画像形成装置が解釈可能なジョブの命令を、前記誤りを訂正した前記テキストデータに基づいて生成する動作とをコンピューターに実現させることを特徴とする。
【0013】
この構成により、本発明のジョブ命令生成プログラムを実行するコンピューターは、受け付けた音声を示す音声データを音声認識によってテキストデータに変換する音声受付デバイスから受信したテキストデータにおける音声認識の誤りを、誤り訂正情報を使用して訂正し、画像形成装置が解釈可能なジョブの命令を、音声認識の誤りを訂正したテキストデータに基づいて生成するので、音声データを音声認識によってテキストデータに変換する音声受付デバイスが使用される場合に、ユーザーの意図通りに画像形成装置が動作する可能性を向上することができる。
【0014】
本発明の音声操作システムは、受け付けた音声を示す音声データを音声認識によってテキストデータに変換する音声受付デバイスと、画像形成装置が解釈可能なジョブの命令を生成するジョブ命令生成システムとを備え、前記ジョブ命令生成システムは、前記音声受付デバイスによる前記音声認識の誤りを訂正するための誤り訂正情報を管理し、前記ジョブ命令生成システムは、前記音声受付デバイスから受信した前記テキストデータにおける前記誤りを、前記誤り訂正情報を使用して訂正し、前記ジョブ命令生成システムは、前記誤りを訂正した前記テキストデータに基づいて前記命令を生成することを特徴とする。
【0015】
この構成により、本発明の音声操作システムは、受け付けた音声を示す音声データを音声認識によってテキストデータに変換する音声受付デバイスからジョブ命令生成システムが受信したテキストデータにおける音声認識の誤りを、ジョブ命令生成システムが誤り訂正情報を使用して訂正し、画像形成装置が解釈可能なジョブの命令を、音声認識の誤りを訂正したテキストデータに基づいてジョブ命令生成システムが生成するので、音声データを音声認識によってテキストデータに変換する音声受付デバイスが使用される場合に、ユーザーの意図通りに画像形成装置が動作する可能性を向上することができる。
【発明の効果】
【0016】
本発明のジョブ命令生成システム、ジョブ命令生成プログラムおよび音声操作システムは、音声データを音声認識によってテキストデータに変換する音声受付デバイスが使用される場合に、ユーザーの意図通りに画像形成装置が動作する可能性を向上することができる。
【図面の簡単な説明】
【0017】
図1】本発明の一実施の形態に係る音声操作システムのブロック図である。
図2図1に示すスマートスピーカーのブロック図である。
図3】1台のコンピューターによって構成される場合の図1に示すジョブ命令生成システムのブロック図である。
図4】MFPである場合の図1に示す画像形成装置のブロック図である。
図5】画像形成装置を操作するための音声操作を受け付ける場合の図2に示すスマートスピーカーの動作の一例のフローチャートである。
図6】画像形成装置を操作するための音声操作を受け付ける場合のスマートスピーカーの動作の、図5に示す例とは異なる一例のフローチャートである。
図7】スマートスピーカーからテキストデータを受信した場合の図3に示すジョブ命令生成システムの動作のフローチャートである。
【発明を実施するための形態】
【0018】
以下、本発明の実施の形態について、図面を用いて説明する。
【0019】
まず、本発明の一実施の形態に係る音声操作システムの構成について説明する。
【0020】
図1は、本実施の形態に係る音声操作システム10のブロック図である。
【0021】
図1に示すように、音声操作システム10は、ユーザーから入力された音声を受け付ける音声受付デバイスとしてのスマートスピーカー20を備えている。音声操作システム10は、スマートスピーカー20と同様の構成のスマートスピーカーをスマートスピーカー20以外に少なくとも1つ備えても良い。スマートスピーカーは、受け付けた音声を示す音声データを音声認識によってテキストデータに変換するものである。
【0022】
音声操作システム10は、スマートスピーカーによって生成されたテキストデータに基づいて、後述の画像形成装置が解釈可能なジョブの命令(以下「ジョブ命令」という。)を生成するジョブ命令生成システム30を備えている。ジョブ命令生成システム30は、1台のコンピューターによって構成されても良いし、複数台のコンピューターによって構成されても良い。
【0023】
音声操作システム10は、例えばプリンター専用機、MFP(Multifunction Peripheral)などの画像形成装置40を備えている。音声操作システム10は、画像形成装置40と同様の構成の画像形成装置を画像形成装置40以外に少なくとも1つ備えても良い。
【0024】
音声操作システム10において、スマートスピーカーは、ジョブ命令生成システム30と例えばLAN(Local Area Network)、インターネットなどのネットワーク11を介して通信可能である。
【0025】
音声操作システム10において、ジョブ命令生成システム30は、画像形成装置と例えばネットワーク11を介して互いに通信可能である。
【0026】
図2は、スマートスピーカー20のブロック図である。
【0027】
図2に示すように、スマートスピーカー20は、種々の操作が入力される例えばボタンなどの操作デバイスである操作部21と、スピーカー22と、マイク23と、LAN、インターネットなどのネットワーク経由で、または、ネットワークを介さずに有線または無線によって直接に、外部の装置と通信を行う通信デバイスである通信部24と、各種の情報を記憶する例えば半導体メモリー、HDD(Hard Disk Drive)などの不揮発性の記憶デバイスである記憶部25と、スマートスピーカー20全体を制御する制御部26とを備えている。
【0028】
記憶部25は、音声データに基づいてテキストデータを生成するためのテキストデータ生成プログラム25aを記憶している。テキストデータ生成プログラム25aは、例えば、スマートスピーカー20の製造段階でスマートスピーカー20にインストールされていても良いし、USB(Universal Serial Bus)メモリーなどの外部の記憶媒体からスマートスピーカー20に追加でインストールされても良いし、ネットワーク上からスマートスピーカー20に追加でインストールされても良い。
【0029】
記憶部25は、音声データを音声認識によってテキストデータに変換するための機械学習モデルであるテキストデータ変換モデル25bを記憶している。
【0030】
記憶部25は、スマートスピーカー20の種類を示すスピーカー種類情報25cを記憶している。スマートスピーカー20の種類としては、スマートスピーカー20の機種が採用されても良いし、スマートスピーカー20のメーカーの種類が採用されても良い。
【0031】
記憶部25は、スマートスピーカー20のユーザーの識別情報としてのユーザー識別情報25dを記憶している。ユーザー識別情報25dは、例えば、スマートスピーカー20のユーザーの電子メールアドレスでも良い。
【0032】
制御部26は、例えば、CPU(Central Processing Unit)と、プログラムおよび各種のデータを記憶しているROM(Read Only Memory)と、制御部26のCPUの作業領域として用いられるメモリーとしてのRAM(Random Access Memory)とを備えている。制御部26のCPUは、記憶部25または制御部26のROMに記憶されているプログラムを実行する。
【0033】
制御部26は、テキストデータ生成プログラム25aを実行することによって、音声データに基づいてテキストデータを生成するテキストデータ生成部26aを実現する。
【0034】
図3は、1台のコンピューターによって構成される場合のジョブ命令生成システム30のブロック図である。
【0035】
図3に示すように、ジョブ命令生成システム30は、種々の操作が入力される例えばキーボード、マウスなどの操作デバイスである操作部31と、種々の情報を表示する例えばLCD(Liquid Crystal Display)などの表示デバイスである表示部32と、LAN、インターネットなどのネットワーク経由で、または、ネットワークを介さずに有線または無線によって直接に、外部の装置と通信を行う通信デバイスである通信部33と、各種の情報を記憶する例えば半導体メモリー、HDDなどの不揮発性の記憶デバイスである記憶部34と、ジョブ命令生成システム30全体を制御する制御部35とを備えている。
【0036】
記憶部34は、テキストデータに基づいてジョブ命令を生成するためのジョブ命令生成プログラム34aを記憶している。ジョブ命令生成プログラム34aは、例えば、ジョブ命令生成システム30の製造段階でジョブ命令生成システム30にインストールされていても良いし、USBメモリーなどの外部の記憶媒体からジョブ命令生成システム30に追加でインストールされても良いし、ネットワーク上からジョブ命令生成システム30に追加でインストールされても良い。
【0037】
記憶部34は、ユーザーの識別情報としてのユーザー識別情報と、ユーザーが使用するスマートスピーカーの種類を示すスピーカー種類情報との対応関係を示すユーザースピーカー対応関係情報34bを記憶している。すなわち、ジョブ命令生成システム30は、スマートスピーカーの種類と、スマートスピーカーのユーザーのユーザー識別情報との対応関係を管理している。なお、制御部35は、ユーザー識別情報と、スピーカー種類情報との対応関係を、ユーザーからの指示に応じてユーザースピーカー対応関係情報34bに登録しても良いし、ユーザー識別情報と、スピーカー種類情報との対応関係を、これらの情報を記憶しているスマートスピーカーから通知されてユーザースピーカー対応関係情報34bに登録しても良い。
【0038】
記憶部34は、スマートスピーカーによる音声認識の誤りを訂正するための誤り訂正情報としての機械学習モデルである誤り訂正モデル34cを記憶している。記憶部34は、誤り訂正モデルを、誤り訂正モデル34c以外にも少なくとも1つ記憶することが可能である。記憶部34は、誤り訂正モデルをスマートスピーカーの種類毎に記憶している。すなわち、ジョブ命令生成システム30は、誤り訂正モデルをスマートスピーカーの種類毎に管理している。誤り訂正モデルは、スマートスピーカーによって音声認識で生成されたテキストデータと、このテキストデータに対する正解データとを含む学習データを大量に使用した機械学習によって生成されても良い。
【0039】
記憶部34は、テキストデータを解釈してジョブ命令を生成するための機械学習モデルであるジョブ命令生成モデル34dを記憶している。
【0040】
制御部35は、例えば、CPUと、プログラムおよび各種のデータを記憶しているROMと、制御部35のCPUの作業領域として用いられるメモリーとしてのRAMとを備えている。制御部35のCPUは、記憶部34または制御部35のROMに記憶されているプログラムを実行する。
【0041】
制御部35は、ジョブ命令生成プログラム34aを実行することによって、テキストデータに基づいてジョブ命令を生成するジョブ命令生成部35aを実現する。
【0042】
図4は、MFPである場合の画像形成装置40のブロック図である。
【0043】
図4に示すように、画像形成装置40は、種々の操作が入力される例えばボタンなどの操作デバイスである操作部41と、種々の情報を表示する例えばLCDなどの表示デバイスである表示部42と、用紙などの記録媒体に画像を印刷する印刷デバイスであるプリンター43と、原稿から画像を読み取る読取デバイスであるスキャナー44と、LAN、インターネットなどのネットワーク経由で、または、ネットワークを介さずに有線または無線によって直接に、外部の装置と通信を行う通信デバイスである通信部45と、図示していない外部のファクシミリ装置と公衆電話回線などの通信回線経由でファックス通信を行うファックスデバイスであるファックス通信部46と、各種の情報を記憶する例えば半導体メモリー、HDDなどの不揮発性の記憶デバイスである記憶部47と、画像形成装置40全体を制御する制御部48とを備えている。
【0044】
記憶部47は、ジョブを実行するためのジョブ実行プログラム47aを記憶している。ジョブ実行プログラム47aは、例えば、画像形成装置40の製造段階で画像形成装置40にインストールされていても良いし、USBメモリーなどの外部の記憶媒体から画像形成装置40に追加でインストールされても良いし、ネットワーク上から画像形成装置40に追加でインストールされても良い。
【0045】
制御部48は、例えば、CPUと、プログラムおよび各種のデータを記憶しているROMと、制御部48のCPUの作業領域として用いられるメモリーとしてのRAMとを備えている。制御部48のCPUは、記憶部47または制御部48のROMに記憶されているプログラムを実行する。
【0046】
制御部48は、ジョブ実行プログラム47aを実行することによって、ジョブを実行するジョブ実行部48aを実現する。
【0047】
次に、スマートスピーカーを介して画像形成装置が操作される場合の音声操作システム10の動作について説明する。
【0048】
以下においては、画像形成装置を操作するための音声操作を受け付けるスマートスピーカーがスマートスピーカー20であるものとして説明する。また、スマートスピーカー20によって受け付けられた音声操作の対象の画像形成装置が画像形成装置40であるものとして説明する。
【0049】
まず、画像形成装置40を操作するための音声操作を受け付ける場合のスマートスピーカー20の動作について説明する。
【0050】
図5は、画像形成装置40を操作するための音声操作を受け付ける場合のスマートスピーカー20の動作の一例のフローチャートである。
【0051】
ユーザーは、画像形成装置40に対する操作内容を示す音声をスマートスピーカー20のマイク23に入力することができる。
【0052】
スマートスピーカー20のテキストデータ生成部26aは、マイク23に音声が入力されると、図5に示すように、マイク23に入力された音声を受け付ける(S61)。
【0053】
テキストデータ生成部26aは、S61の処理が終了すると、S61において受け付けた音声を示す音声データをテキストデータ変換モデル25bを使用してテキストデータに変換する(S62)。例えば、S61において受け付けた音声が「両面でコピー」である場合に、テキストデータ生成部26aは、「両面でコピー」というテキストデータではなく、「両面でコーヒー」というテキストデータをS62において誤って生成する可能性がある。
【0054】
テキストデータ生成部26aは、S62の処理が終了すると、S62において生成したテキストデータと、スピーカー種類情報25cと同一の内容のスピーカー種類情報とをジョブ命令生成システム30に送信して(S63)、図5に示す動作を終了する。
【0055】
図6は、画像形成装置40を操作するための音声操作を受け付ける場合のスマートスピーカー20の動作の、図5に示す例とは異なる一例のフローチャートである。
【0056】
スマートスピーカー20のテキストデータ生成部26aは、マイク23に音声が入力されると、図5に示す動作に代えて、図6に示す動作を実行しても良い。
【0057】
図6に示す動作は、S63(図5参照。)の処理に代えて、S64の処理を実行する点を除いて、図5に示す動作と同様である。
【0058】
図6に示すように、テキストデータ生成部26aは、S62の処理が終了すると、S62において生成したテキストデータと、ユーザー識別情報25dと同一の内容のユーザー識別情報とをジョブ命令生成システム30に送信して(S64)、図6に示す動作を終了する。
【0059】
次に、スマートスピーカー20からテキストデータを受信した場合のジョブ命令生成システム30の動作について説明する。
【0060】
図7は、スマートスピーカー20からテキストデータを受信した場合のジョブ命令生成システム30の動作のフローチャートである。
【0061】
ジョブ命令生成システム30のジョブ命令生成部35aは、S63(図5参照。)またはS64(図6参照。)においてスマートスピーカー20から送信されてきたテキストデータを受信すると、図7に示すように、スマートスピーカー20からテキストデータとともにユーザー識別情報を受信したか否かを判断する(S71)。
【0062】
ジョブ命令生成部35aは、スマートスピーカー20からテキストデータとともにユーザー識別情報を受信したとS71において判断すると、スマートスピーカー20からテキストデータとともに受信したユーザー識別情報にユーザースピーカー対応関係情報34bにおいて対応付けられているスピーカー種類情報を特定する(S72)。
【0063】
ジョブ命令生成部35aは、スマートスピーカー20からテキストデータとともにユーザー識別情報を受信していない、すなわち、スマートスピーカー20からテキストデータとともにスピーカー種類情報を受信したとS71において判断するか、S72の処理が終了すると、スマートスピーカー20からテキストデータとともに受信したスピーカー種類情報、または、S72において特定したスピーカー種類情報に示されるスマートスピーカーの種類に応じた誤り訂正モデルを使用して、スマートスピーカー20から受信したテキストデータにおける音声認識の誤りを訂正する(S73)。例えば、スマートスピーカー20から受信したテキストデータが「両面でコーヒー」というテキストデータである場合に、ジョブ命令生成部35aは、S73において「両面でコピー」というテキストデータを生成する。
【0064】
ジョブ命令生成部35aは、S73の処理が終了すると、S73において生成したテキストデータをジョブ命令生成モデル34dを使用してジョブ命令に変換する(S74)。例えば、S73において生成したテキストデータが「両面でコピー」である場合に、ジョブ命令生成部35aは、S74において「ジョブ種別:コピー」、「印刷面:両面」を含んだジョブ命令を生成する。
【0065】
ジョブ命令生成部35aは、S74の処理が終了すると、S74において生成したジョブ命令を画像形成装置40に送信して(S75)、図7に示す動作を終了する。
【0066】
画像形成装置40のジョブ実行部48aは、S75においてジョブ命令生成システム30から送信されてきたジョブ命令を受信すると、受信したジョブ命令に応じたジョブを実行する。例えば、S75においてジョブ命令生成システム30から送信されてきたジョブ命令が「ジョブ種別:コピー」、「印刷面:両面」を含んだジョブ命令である場合に、ジョブ実行部48aは、両面コピーのジョブを実行する。
【0067】
以上に説明したように、ジョブ命令生成システム30は、S61において受け付けた音声を示す音声データをS62において音声認識によってテキストデータに変換するスマートスピーカー20から受信したテキストデータにおける音声認識の誤りを、誤り訂正モデルを使用して訂正し(S73)、画像形成装置が解釈可能なジョブの命令を、音声認識の誤りを訂正したテキストデータに基づいて生成する(S74)ので、音声データを音声認識によってテキストデータに変換するスマートスピーカー20が使用される場合に、ユーザーの意図通りに画像形成装置40が動作する可能性を向上することができる。
【0068】
特に、ジョブ命令生成システム30は、スマートスピーカー20から受信したテキストデータにおける音声認識の誤りを、スマートスピーカー20の種類に応じた誤り訂正モデルを使用して訂正する(S73)ので、音声データを音声認識によってテキストデータに変換するスマートスピーカー20が使用される場合に、ユーザーの意図通りに画像形成装置40が動作する可能性を向上することができる。
【0069】
なお、スマートスピーカー20における音声認識に誤りが生じるためにユーザーの意図通りに画像形成装置40が動作しない場合には、スマートスピーカー20における音声認識自体の精度を改善することも考えられる。しかしながら、スマートスピーカー20における音声認識自体の精度の改善は、スマートスピーカー20のメーカー以外の者によって実現することは通常困難である。ジョブ命令生成システム30は、スマートスピーカー20における音声認識自体の精度を改善しなくても、ユーザーの意図通りに画像形成装置40が動作する可能性を向上することができる。
【0070】
ジョブ命令生成システム30は、スマートスピーカー20から受信したテキストデータにおける音声認識の誤りを、このテキストデータに関連してスマートスピーカー20から受信したユーザー識別情報に対応付けられたスマートスピーカーの種類に応じた誤り訂正モデルを使用して訂正する(S71でYES、S72およびS73)ので、スマートスピーカー20からスマートスピーカー20の種類が通知されなくても、ユーザーの意図通りに画像形成装置40が動作する可能性を向上することができる。
【0071】
なお、ジョブ命令生成システム30は、本実施の形態において、スマートスピーカーの種類に応じた誤り訂正モデルを使用する。しかしながら、ジョブ命令生成システム30は、スマートスピーカーの種類によらない1つの誤り訂正モデルのみを使用しても良い。
【0072】
本発明の誤り訂正情報は、本実施の形態において誤り訂正モデルである。しかしながら、本発明の誤り訂正情報は、機械学習モデル以外の情報でも良い。例えば、本発明の誤り訂正情報は、「コーヒー」という文字列を「コピー」という文字列に単純に置換するための情報など、特定の文字列を特定の文字列に単純に置換するための情報でも良い。ジョブ命令生成システム30は、機械学習モデルが誤り訂正情報である場合、テキストデータにおける文章中の単語の位置など、文章の特徴を踏まえてテキストデータを訂正するので、特定の文字列を特定の文字列に単純に置換するための情報が誤り訂正情報である場合と比較して、テキストデータの訂正の精度を向上することができる。
【符号の説明】
【0073】
10 音声操作システム
20 スマートスピーカー(音声受付デバイス)
25c スピーカー種類情報(音声受付デバイスの種類を示す情報)
25d ユーザー識別情報(ユーザーの識別情報)
30 ジョブ命令生成システム(コンピューター)
34a ジョブ命令生成プログラム
34b ユーザースピーカー対応関係情報(音声受付デバイスの種類と、音声受付デバイスのユーザーの識別情報との対応関係を示す情報)
34c 誤り訂正モデル(誤り訂正情報)
40 画像形成装置
図1
図2
図3
図4
図5
図6
図7