(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024166861
(43)【公開日】2024-11-29
(54)【発明の名称】音声操作装置、音声操作プログラムおよび音声操作システム
(51)【国際特許分類】
G06F 3/16 20060101AFI20241122BHJP
G10L 15/065 20130101ALI20241122BHJP
G10L 15/00 20130101ALI20241122BHJP
【FI】
G06F3/16 650
G10L15/065 Z
G10L15/00 200F
【審査請求】未請求
【請求項の数】4
【出願形態】OL
(21)【出願番号】P 2023083247
(22)【出願日】2023-05-19
(71)【出願人】
【識別番号】000006150
【氏名又は名称】京セラドキュメントソリューションズ株式会社
(74)【代理人】
【識別番号】100140796
【弁理士】
【氏名又は名称】原口 貴志
(72)【発明者】
【氏名】中村 洋
(57)【要約】
【課題】 ユーザーの意図通りに被操作システムが動作する可能性を向上することができる音声操作装置、音声操作プログラムおよび音声操作システムを提供する。
【解決手段】 ユーザー端末20は、ユーザーから入力された音声を受け付け(S71)、S71において受け付けた音声を示す音声データに対する音声認識システム30による音声認識(S73)の結果としてのテキストデータを被操作システム40に送信し(S75)、被操作システム40は、ユーザー端末20から受信したテキストデータに応じて動作する(S76およびS78)ことを特徴とする。
【選択図】
図6
【特許請求の範囲】
【請求項1】
ユーザーから入力された音声を受け付け、
受け付けた音声を示す音声データに対する音声認識システムによる音声認識の結果を、前記結果に応じて動作する被操作システムに送信することを特徴とする音声操作装置。
【請求項2】
前記被操作システムの特有の専門用語を示す辞書データを前記被操作システムからダウンロードして、ダウンロードした前記辞書データを、前記辞書データを使用して音声認識を実行する前記音声認識システムに渡すことを特徴とする請求項1に記載の音声操作装置。
【請求項3】
ユーザーから入力された音声を受け付ける動作と、
受け付けた音声を示す音声データに対する音声認識システムによる音声認識の結果を、前記結果に応じて動作する被操作システムに送信する動作とを
コンピューターに実現させることを特徴とする音声操作プログラム。
【請求項4】
被操作システムと、
ユーザーから入力された音声を受け付けて前記被操作システムを操作する音声操作装置と
を備え、
前記音声操作装置は、受け付けた音声を示す音声データに対する音声認識システムによる音声認識の結果を前記被操作システムに送信し、
前記被操作システムは、前記結果に応じて動作することを特徴とする音声操作システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、被操作システムを操作する音声操作装置、音声操作プログラムおよび音声操作システムに関する。
【背景技術】
【0002】
従来、被操作システムと、ユーザーから入力された音声を受け付けて被操作システムを操作する音声操作装置とを備える音声操作システムが知られている(例えば、特許文献1参照。)。特許文献1に記載された音声操作装置は、受け付けた音声を示す音声データを被操作システムに送信する。そして、特許文献1に記載された被操作システムは、音声操作装置から送信されてきた音声データに対して音声認識を実行して、音声認識の結果に応じて動作する。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1に記載された音声操作システムにおいては、被操作システムが音声認識を実行するために全てのユーザーに対して共通の音声認識が実行されることになるので、ユーザーによっては音声認識の精度が低い可能性があり、その結果、ユーザーの意図通りに被操作システムが動作する可能性が低い場合があるという問題がある。
【0005】
そこで、本発明は、ユーザーの意図通りに被操作システムが動作する可能性を向上することができる音声操作装置、音声操作プログラムおよび音声操作システムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の音声操作装置は、ユーザーから入力された音声を受け付け、受け付けた音声を示す音声データに対する音声認識システムによる音声認識の結果を、前記結果に応じて動作する被操作システムに送信することを特徴とする。
【0007】
この構成により、本発明の音声操作装置は、ユーザーから入力された音声を示す音声データに対する音声認識を被操作システムとは別の音声認識システムに実行させるので、ユーザーの音声に対する音声認識の精度が高い音声認識システムが使用されることが可能であり、その結果、ユーザーの意図通りに被操作システムが動作する可能性を向上することができる。
【0008】
本発明の音声操作装置は、前記被操作システムの特有の専門用語を示す辞書データを前記被操作システムからダウンロードして、ダウンロードした前記辞書データを、前記辞書データを使用して音声認識を実行する前記音声認識システムに渡しても良い。
【0009】
この構成により、本発明の音声操作装置は、被操作システムの特有の専門用語を示す辞書データを被操作システムからダウンロードして、ダウンロードした辞書データを音声認識システムに渡すので、被操作システムの特有の専門用語を示す辞書データを音声認識システムが事前に保持していなくても、被操作システムの特有の専門用語を示す辞書データを使用した精度が高い音声認識を音声認識システムに実行させることができ、その結果、ユーザーの意図通りに被操作システムが動作する可能性を向上することができる。
【0010】
本発明の音声操作プログラムは、ユーザーから入力された音声を受け付ける動作と、受け付けた音声を示す音声データに対する音声認識システムによる音声認識の結果を、前記結果に応じて動作する被操作システムに送信する動作とをコンピューターに実現させることを特徴とする。
【0011】
この構成により、本発明の音声操作プログラムを実行するコンピューターは、ユーザーから入力された音声を示す音声データに対する音声認識を被操作システムとは別の音声認識システムに実行させるので、ユーザーの音声に対する音声認識の精度が高い音声認識システムが使用されることが可能であり、その結果、ユーザーの意図通りに被操作システムが動作する可能性を向上することができる。
【0012】
本発明の音声操作システムは、被操作システムと、ユーザーから入力された音声を受け付けて前記被操作システムを操作する音声操作装置とを備え、前記音声操作装置は、受け付けた音声を示す音声データに対する音声認識システムによる音声認識の結果を前記被操作システムに送信し、前記被操作システムは、前記結果に応じて動作することを特徴とする。
【0013】
この構成により、本発明の音声操作システムは、ユーザーから音声操作装置に入力された音声を示す音声データに対する音声認識を被操作システムとは別の音声認識システムに実行させるので、ユーザーの音声に対する音声認識の精度が高い音声認識システムが使用されることが可能であり、その結果、ユーザーの意図通りに被操作システムが動作する可能性を向上することができる。
【発明の効果】
【0014】
本発明の音声操作装置、音声操作プログラムおよび音声操作システムは、ユーザーの意図通りに被操作システムが動作する可能性を向上することができる。
【図面の簡単な説明】
【0015】
【
図1】本発明の一実施の形態に係る音声操作システムのブロック図である。
【
図2】
図1に示すユーザー端末のブロック図である。
【
図3】1台のコンピューターによって構成される場合の
図1に示す音声認識システムのブロック図である。
【
図4】MFPである場合の
図1に示す被操作システムのブロック図である。
【
図5】ユーザー端末と、被操作システムとの接続が確立される場合の
図1に示す音声操作システムの動作のシーケンス図である。
【
図6】ユーザー端末を介して被操作システムが操作される場合の
図1に示す音声操作システムの動作のシーケンス図である。
【
図7】音声認識システムからテキストデータを受信した場合の
図1に示すユーザー端末の動作のフローチャートである。
【発明を実施するための形態】
【0016】
以下、本発明の実施の形態について、図面を用いて説明する。
【0017】
まず、本発明の一実施の形態に係る音声操作システムの構成について説明する。
【0018】
図1は、本実施の形態に係る音声操作システム10のブロック図である。
【0019】
図1に示すように、音声操作システム10は、ユーザーから入力された音声を受け付けて被操作システムを操作する音声操作装置としてのユーザー端末20を備えている。ユーザー端末20は、受け付けた音声を示す音声データを生成する。ユーザー端末20は、例えば、スマートフォン、タブレットなどのコンピューターによって構成されている。
【0020】
音声操作システム10は、ユーザー端末20によって生成された音声データに対して音声認識を実行することによって、音声認識の結果としてのテキストデータを生成する音声認識システム30を備えている。音声認識システム30としては、ユーザー端末20のユーザーの音声に適した音声認識システムが採用される。例えば、音声認識システム30としては、ユーザー端末20のユーザーの音声を学習させた音声認識システムが採用されても良い。したがって、音声認識システム30は、ユーザー端末20のユーザーの声質、アクセント、発話の癖に対応した音声認識を実行することができる。音声認識システム30は、1台のコンピューターによって構成されても良いし、複数台のコンピューターによって構成されても良い。
【0021】
音声操作システム10は、ユーザー端末20から入力されたテキストデータによって示される操作内容に応じて動作する被操作システム40を備えている。被操作システム40は、例えば、MFP(Multifunction Peripheral)でも良い。
【0022】
音声操作システム10において、ユーザー端末20と、音声認識システム30とは、例えばLAN(Local Area Network)、インターネットなどのネットワーク11を介して互いに通信可能である。
【0023】
音声操作システム10において、ユーザー端末20と、被操作システム40とは、例えばLAN、インターネットなどのネットワーク12を介して互いに通信可能である。
【0024】
【0025】
図2に示すように、ユーザー端末20は、種々の操作が入力される例えばボタンなどの操作デバイスである操作部21と、種々の情報を表示する例えばLCD(Liquid Crystal Display)などの表示デバイスである表示部22と、マイク23と、スピーカー24と、LAN、インターネットなどのネットワーク経由で、または、ネットワークを介さずに有線または無線によって直接に、外部の装置と通信を行う通信デバイスである通信部25と、各種の情報を記憶する例えば半導体メモリー、HDD(Hard Disk Drive)などの不揮発性の記憶デバイスである記憶部26と、ユーザー端末20全体を制御する制御部27とを備えている。
【0026】
記憶部26は、ユーザーから入力された音声を受け付けて被操作システムを操作するための音声操作プログラム26aを記憶している。音声操作プログラム26aは、例えば、ユーザー端末20の製造段階でユーザー端末20にインストールされていても良いし、USB(Universal Serial Bus)メモリーなどの外部の記憶媒体からユーザー端末20に追加でインストールされても良いし、ネットワーク上からユーザー端末20に追加でインストールされても良い。
【0027】
制御部27は、例えば、CPU(Central Processing Unit)と、プログラムおよび各種のデータを記憶しているROM(Read Only Memory)と、制御部27のCPUの作業領域として用いられるメモリーとしてのRAM(Random Access Memory)とを備えている。制御部27のCPUは、記憶部26または制御部27のROMに記憶されているプログラムを実行する。
【0028】
制御部27は、音声操作プログラム26aを実行することによって、ユーザーから入力された音声を受け付けて被操作システムを操作する音声操作部27aを実現する。
【0029】
図3は、1台のコンピューターによって構成される場合の音声認識システム30のブロック図である。
【0030】
図3に示すように、音声認識システム30は、種々の操作が入力される例えばキーボード、マウスなどの操作デバイスである操作部31と、種々の情報を表示する例えばLCDなどの表示デバイスである表示部32と、LAN、インターネットなどのネットワーク経由で、または、ネットワークを介さずに有線または無線によって直接に、外部の装置と通信を行う通信デバイスである通信部33と、各種の情報を記憶する例えば半導体メモリー、HDDなどの不揮発性の記憶デバイスである記憶部34と、音声認識システム30全体を制御する制御部35とを備えている。
【0031】
記憶部34は、ユーザー端末20によって生成された音声データを音声認識によってテキストデータに変換するための音声認識プログラム34aを記憶している。音声認識プログラム34aは、例えば、音声認識システム30の製造段階で音声認識システム30にインストールされていても良いし、USBメモリーなどの外部の記憶媒体から音声認識システム30に追加でインストールされても良いし、ネットワーク上から音声認識システム30に追加でインストールされても良い。
【0032】
記憶部34は、音声データを音声認識によってテキストデータに変換するための機械学習モデルである音声認識モデル34bを記憶している。
【0033】
制御部35は、例えば、CPUと、プログラムおよび各種のデータを記憶しているROMと、制御部35のCPUの作業領域として用いられるメモリーとしてのRAMとを備えている。制御部35のCPUは、記憶部34または制御部35のROMに記憶されているプログラムを実行する。
【0034】
制御部35は、音声認識プログラム34aを実行することによって、ユーザー端末20によって生成された音声データを音声認識によってテキストデータに変換する音声認識部35aを実現する。
【0035】
図4は、MFPである場合の被操作システム40のブロック図である。
【0036】
図4に示すように、被操作システム40は、種々の操作が入力される例えばボタンなどの操作デバイスである操作部41と、種々の情報を表示する例えばLCDなどの表示デバイスである表示部42と、スピーカー43と、用紙などの記録媒体に画像を印刷する印刷デバイスであるプリンター44と、原稿から画像を読み取る読取デバイスであるスキャナー45と、LAN、インターネットなどのネットワーク経由で、または、ネットワークを介さずに有線または無線によって直接に、外部の装置と通信を行う通信デバイスである通信部46と、図示していない外部のファクシミリ装置と公衆電話回線などの通信回線経由でファックス通信を行うファックスデバイスであるファックス通信部47と、各種の情報を記憶する例えば半導体メモリー、HDDなどの不揮発性の記憶デバイスである記憶部48と、被操作システム40全体を制御する制御部49とを備えている。
【0037】
記憶部48は、ユーザー端末20から入力されたテキストデータによって示される操作内容に応じて動作するための被操作プログラム48aを記憶している。被操作プログラム48aは、例えば、被操作システム40の製造段階で被操作システム40にインストールされていても良いし、USBメモリーなどの外部の記憶媒体から被操作システム40に追加でインストールされても良いし、ネットワーク上から被操作システム40に追加でインストールされても良い。
【0038】
記憶部48は、被操作システム40の特有の専門用語を示す辞書データ48bを記憶している。
【0039】
制御部49は、例えば、CPUと、プログラムおよび各種のデータを記憶しているROMと、制御部49のCPUの作業領域として用いられるメモリーとしてのRAMとを備えている。制御部49のCPUは、記憶部48または制御部49のROMに記憶されているプログラムを実行する。
【0040】
制御部49は、被操作プログラム48aを実行することによって、被操作システム40の特有の専門用語を示す辞書データをユーザー端末20に送信する辞書データ送信部49aと、ユーザー端末20から入力されたテキストデータを自然言語処理によって被操作システム40用のコマンドに変換する自然言語処理部49bと、自然言語処理部49bによって生成されたコマンドに応じて動作するコマンド実行部49cとを実現する。
【0041】
次に、音声操作システム10の動作について説明する。
【0042】
まず、ユーザー端末20と、被操作システム40との接続が確立される場合の音声操作システム10の動作について説明する。
【0043】
図5は、ユーザー端末20と、被操作システム40との接続が確立される場合の音声操作システム10の動作のシーケンス図である。
【0044】
ユーザーは、ユーザー端末20と、被操作システム40との接続を確立することをユーザー端末20の操作部21を介してユーザー端末20に指示することができる。
【0045】
ユーザー端末20の音声操作部27aは、ユーザー端末20と、被操作システム40との接続を確立することが指示されると、
図5に示すように、被操作システム40との接続を確立する(S61)。
【0046】
被操作システム40の辞書データ送信部49aは、S61においてユーザー端末20との接続が確立すると、辞書データ48bと同一の辞書データをユーザー端末20に送信する(S62)。
【0047】
ユーザー端末20の音声操作部27aは、S62において被操作システム40から送信されてきた辞書データを受信すると、受信した辞書データを音声認識システム30に送信する(S63)。
【0048】
音声認識システム30の音声認識部35aは、S63においてユーザー端末20から送信されてきた辞書データを受信すると、受信した辞書データを記憶部34または制御部35のRAMに記憶する(S64)。
【0049】
次に、ユーザー端末20を介して被操作システム40が操作される場合の音声操作システム10の動作について説明する。
【0050】
図6は、ユーザー端末20を介して被操作システム40が操作される場合の音声操作システム10の動作のシーケンス図である。
【0051】
ユーザーは、ユーザー端末20と、被操作システム40との接続が確立されている場合に、例えば「コピーして」など、被操作システム40に対する操作内容を示す音声をユーザー端末20のマイク23に入力することができる。
【0052】
ユーザー端末20の音声操作部27aは、マイク23に音声が入力されると、
図6に示すように、マイク23に入力された音声を受け付ける(S71)。
【0053】
音声操作部27aは、S71の処理が終了すると、S71において受け付けた音声を示す音声データを音声認識システム30に送信する(S72)。
【0054】
音声認識システム30の音声認識部35aは、S72においてユーザー端末20から送信されてきた音声データを受信すると、受信した音声データに対して音声認識モデル34bを使用して音声認識を行うことによって、受信した音声データをテキストデータに変換する(S73)。S73における音声認識において、音声認識部35aは、S64において記憶部34または制御部35のRAMに記憶した辞書データを使用する。例えば、音声認識部35aは、S72においてユーザー端末20から送信されてきた音声データが「コピーして」という音声を示すデータである場合に、「コピーして」というテキストを示すテキストデータをS73において生成する可能性もあるし、「カピーして」というテキストを示すテキストデータをS73において誤って生成する可能性もある。
【0055】
音声認識部35aは、S73の処理が終了すると、S73において生成したテキストデータをユーザー端末20に送信する(S74)。
【0056】
ユーザー端末20の音声操作部27aは、S74において音声認識システム30から送信されてきたテキストデータを受信すると、受信したテキストデータを被操作システム40に送信する(S75)。
【0057】
被操作システム40の自然言語処理部49bは、S75においてユーザー端末20から送信されてきたテキストデータを受信すると、受信したテキストデータを自然言語処理によって被操作システム40用のコマンドに変換することを試みる(S76)。
【0058】
被操作システム40の自然言語処理部49bは、S76においてテキストデータをコマンドに変換することができなかった場合、S76においてテキストデータをコマンドに変換することができなかった旨をユーザーに通知する(S77)。S77における通知の方法としては、被操作システム40の表示部42およびスピーカー43の少なくとも一方による通知でも良い。自然言語処理部49bは、S77における通知を被操作システム40のスピーカー43によって実行する場合には、S75においてユーザー端末20から送信されてきたテキストデータに示されるテキストに対応する音声をスピーカー43によって出力しても良い。例えば、自然言語処理部49bは、S75においてユーザー端末20から送信されてきたテキストデータに示されるテキストが「カピーして」というテキストである場合、「カピーして」という音声をスピーカー43によって出力しても良い。
【0059】
被操作システム40のコマンド実行部49cは、S76においてテキストデータをコマンドに変換することができた場合、S76において生成されたコマンドに応じて動作する(S78)。例えば、コマンド実行部49cは、S75においてユーザー端末20から送信されてきたテキストデータが「コピーして」というテキストを示すデータである場合、スキャナー45によって原稿から画像を読み取って、スキャナー45によって原稿から読み取った画像をプリンター44によって記録媒体に印刷する。
【0060】
なお、
図6に示す例では、ユーザー端末20の音声操作部27aは、音声認識システム30から送信されてきたテキストデータを受信した場合に、音声認識システム30から受信したテキストデータを被操作システム40に必ず送信する(S75)。しかしながら、音声操作部27aは、音声認識システム30から送信されてきたテキストデータを受信した場合に、
図7に示すように、ユーザーからの指示があったときのみ、音声認識システム30から受信したテキストデータを被操作システム40に送信しても良い。
【0061】
図7は、音声認識システム30からテキストデータを受信した場合のユーザー端末20の動作のフローチャートである。
【0062】
ユーザー端末20の音声操作部27aは、音声認識システム30から送信されてきたテキストデータを受信した場合に、
図7に示す動作を実行する。
【0063】
図7に示すように、音声操作部27aは、音声認識システム30から受信したテキストデータを被操作システム40に送信するか否かの指示をユーザー端末20の操作部21を介して受け付けるための送信指示受付画面をユーザー端末20の表示部21に表示する(S81)。送信指示受付画面は、音声認識システム30から受信したテキストデータの内容を含んでいる。音声操作部27aは、送信指示受付画面を表示部21に表示する場合に、音声認識システム30から受信したテキストデータの内容をユーザー端末20のスピーカー24によって通知しても良い。音声操作部27aは、音声認識システム30から受信したテキストデータの内容をスピーカー24によって通知する場合には、音声認識システム30から受信したテキストデータに示されるテキストに対応する音声をスピーカー24によって出力する。例えば、音声操作部27aは、音声認識システム30から受信したテキストデータに示されるテキストが「カピーして」というテキストである場合、「カピーして」という音声をスピーカー24によって出力する。
【0064】
音声操作部27aは、S81の処理が終了すると、音声認識システム30から受信したテキストデータを被操作システム40に送信することを送信指示受付画面において受け付けたか否かを判断する(S82)。
【0065】
音声操作部27aは、音声認識システム30から受信したテキストデータを被操作システム40に送信することを送信指示受付画面において受け付けていないとS82において判断すると、音声認識システム30から受信したテキストデータを被操作システム40に送信しないことを送信指示受付画面において受け付けたか否かを判断する(S83)。
【0066】
音声操作部27aは、音声認識システム30から受信したテキストデータを被操作システム40に送信しないことを送信指示受付画面において受け付けていないとS83において判断すると、S82の処理を実行する。
【0067】
音声操作部27aは、音声認識システム30から受信したテキストデータを被操作システム40に送信することを送信指示受付画面において受け付けたとS82において判断すると、音声認識システム30から受信したテキストデータを被操作システム40に送信して(S84)、
図7に示す動作を終了する。
【0068】
音声操作部27aは、音声認識システム30から受信したテキストデータを被操作システム40に送信しないことを送信指示受付画面において受け付けたとS83において判断すると、音声認識システム30から受信したテキストデータを被操作システム40に送信することなく、
図7に示す動作を終了する。
【0069】
以上に説明したように、ユーザー端末20は、ユーザーから入力された音声を示す音声データに対する音声認識を被操作システム40とは別の音声認識システム30に実行させる(S73)ので、ユーザーの音声に対する音声認識の精度が高い音声認識システム30がユーザー自身によって用意されて使用されることが可能であり、その結果、ユーザーの意図通りに被操作システム40が動作する可能性を向上することができる。
【0070】
ユーザー端末20は、ユーザーの意図通りに被操作システム40が動作する可能性を向上することができるので、ユーザーが発話をやり直す必要性を低減することができ、その結果、利便性を向上することができる。
【0071】
ユーザー端末20は、ユーザーの音声データを被操作システム40に送信せずに、音声データから変換されたテキストデータを被操作システム40に送信するので、ユーザーのプライバシーを保護することができる可能性を向上することができる。
【0072】
ユーザー端末20は、被操作システム40の特有の専門用語を示す辞書データを被操作システム40からダウンロードして(S62)、ダウンロードした辞書データを音声認識システム30に渡す(S63)ので、被操作システム40の特有の専門用語を示す辞書データを音声認識システム30が事前に保持していなくても、被操作システム40の特有の専門用語を示す辞書データを使用した精度が高い音声認識(S73)を音声認識システム30に実行させることができ、その結果、ユーザーの意図通りに被操作システム40が動作する可能性を向上することができる。
【0073】
なお、音声認識システム30は、音声データをテキストデータに変換する場合に、被操作システム40の特有の専門用語を示す辞書データを使用しなくても良い。音声操作システム10は、被操作システム40の特有の専門用語を示す辞書データを音声認識システム30が使用しない場合、被操作システム40の特有の専門用語を示す辞書データを音声認識システム30にダウンロードしなくても良い。
【0074】
音声操作システム10は、本実施の形態においてユーザー端末20とは別に音声認識システム30を備えている。しかしながら、ユーザー端末20が音声認識システム30を兼ねても良い。
【符号の説明】
【0075】
10 音声操作システム
20 ユーザー端末(音声操作装置、コンピューター)
26a 音声操作プログラム
30 音声認識システム
40 被操作システム