特開2024-166861 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 京セラドキュメントソリューションズ株式会社の特許一覧

特開2024-166861音声操作装置、音声操作プログラムおよび音声操作システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024166861

(43)【公開日】2024-11-29

(54)【発明の名称】音声操作装置、音声操作プログラムおよび音声操作システム

(51)【国際特許分類】

G06F 3/16 20060101AFI20241122BHJP

G10L 15/065 20130101ALI20241122BHJP

G10L 15/00 20130101ALI20241122BHJP

【ＦＩ】

G06F3/16 650

G10L15/065 Z

G10L15/00 200F

【審査請求】未請求

【請求項の数】4

【出願形態】ＯＬ

(21)【出願番号】P 2023083247

(22)【出願日】2023-05-19

(71)【出願人】

【識別番号】000006150

【氏名又は名称】京セラドキュメントソリューションズ株式会社

(74)【代理人】

【識別番号】100140796

【弁理士】

【氏名又は名称】原口貴志

(72)【発明者】

【氏名】中村洋

(57)【要約】

【課題】ユーザーの意図通りに被操作システムが動作する可能性を向上することができる音声操作装置、音声操作プログラムおよび音声操作システムを提供する。
【解決手段】ユーザー端末２０は、ユーザーから入力された音声を受け付け（Ｓ７１）、Ｓ７１において受け付けた音声を示す音声データに対する音声認識システム３０による音声認識（Ｓ７３）の結果としてのテキストデータを被操作システム４０に送信し（Ｓ７５）、被操作システム４０は、ユーザー端末２０から受信したテキストデータに応じて動作する（Ｓ７６およびＳ７８）ことを特徴とする。
【選択図】図６

【特許請求の範囲】

【請求項1】

ユーザーから入力された音声を受け付け、
受け付けた音声を示す音声データに対する音声認識システムによる音声認識の結果を、前記結果に応じて動作する被操作システムに送信することを特徴とする音声操作装置。

【請求項2】

前記被操作システムの特有の専門用語を示す辞書データを前記被操作システムからダウンロードして、ダウンロードした前記辞書データを、前記辞書データを使用して音声認識を実行する前記音声認識システムに渡すことを特徴とする請求項１に記載の音声操作装置。

【請求項3】

ユーザーから入力された音声を受け付ける動作と、
受け付けた音声を示す音声データに対する音声認識システムによる音声認識の結果を、前記結果に応じて動作する被操作システムに送信する動作とを
コンピューターに実現させることを特徴とする音声操作プログラム。

【請求項4】

被操作システムと、
ユーザーから入力された音声を受け付けて前記被操作システムを操作する音声操作装置と
を備え、
前記音声操作装置は、受け付けた音声を示す音声データに対する音声認識システムによる音声認識の結果を前記被操作システムに送信し、
前記被操作システムは、前記結果に応じて動作することを特徴とする音声操作システム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、被操作システムを操作する音声操作装置、音声操作プログラムおよび音声操作システムに関する。

【背景技術】

【0002】

従来、被操作システムと、ユーザーから入力された音声を受け付けて被操作システムを操作する音声操作装置とを備える音声操作システムが知られている（例えば、特許文献１参照。）。特許文献１に記載された音声操作装置は、受け付けた音声を示す音声データを被操作システムに送信する。そして、特許文献１に記載された被操作システムは、音声操作装置から送信されてきた音声データに対して音声認識を実行して、音声認識の結果に応じて動作する。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０１９－１０９７５２号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、特許文献１に記載された音声操作システムにおいては、被操作システムが音声認識を実行するために全てのユーザーに対して共通の音声認識が実行されることになるので、ユーザーによっては音声認識の精度が低い可能性があり、その結果、ユーザーの意図通りに被操作システムが動作する可能性が低い場合があるという問題がある。

【0005】

そこで、本発明は、ユーザーの意図通りに被操作システムが動作する可能性を向上することができる音声操作装置、音声操作プログラムおよび音声操作システムを提供することを目的とする。

【課題を解決するための手段】

【0006】

本発明の音声操作装置は、ユーザーから入力された音声を受け付け、受け付けた音声を示す音声データに対する音声認識システムによる音声認識の結果を、前記結果に応じて動作する被操作システムに送信することを特徴とする。

【0007】

この構成により、本発明の音声操作装置は、ユーザーから入力された音声を示す音声データに対する音声認識を被操作システムとは別の音声認識システムに実行させるので、ユーザーの音声に対する音声認識の精度が高い音声認識システムが使用されることが可能であり、その結果、ユーザーの意図通りに被操作システムが動作する可能性を向上することができる。

【0008】

本発明の音声操作装置は、前記被操作システムの特有の専門用語を示す辞書データを前記被操作システムからダウンロードして、ダウンロードした前記辞書データを、前記辞書データを使用して音声認識を実行する前記音声認識システムに渡しても良い。

【0009】

この構成により、本発明の音声操作装置は、被操作システムの特有の専門用語を示す辞書データを被操作システムからダウンロードして、ダウンロードした辞書データを音声認識システムに渡すので、被操作システムの特有の専門用語を示す辞書データを音声認識システムが事前に保持していなくても、被操作システムの特有の専門用語を示す辞書データを使用した精度が高い音声認識を音声認識システムに実行させることができ、その結果、ユーザーの意図通りに被操作システムが動作する可能性を向上することができる。

【0010】

本発明の音声操作プログラムは、ユーザーから入力された音声を受け付ける動作と、受け付けた音声を示す音声データに対する音声認識システムによる音声認識の結果を、前記結果に応じて動作する被操作システムに送信する動作とをコンピューターに実現させることを特徴とする。

【0011】

この構成により、本発明の音声操作プログラムを実行するコンピューターは、ユーザーから入力された音声を示す音声データに対する音声認識を被操作システムとは別の音声認識システムに実行させるので、ユーザーの音声に対する音声認識の精度が高い音声認識システムが使用されることが可能であり、その結果、ユーザーの意図通りに被操作システムが動作する可能性を向上することができる。

【0012】

本発明の音声操作システムは、被操作システムと、ユーザーから入力された音声を受け付けて前記被操作システムを操作する音声操作装置とを備え、前記音声操作装置は、受け付けた音声を示す音声データに対する音声認識システムによる音声認識の結果を前記被操作システムに送信し、前記被操作システムは、前記結果に応じて動作することを特徴とする。

【0013】

この構成により、本発明の音声操作システムは、ユーザーから音声操作装置に入力された音声を示す音声データに対する音声認識を被操作システムとは別の音声認識システムに実行させるので、ユーザーの音声に対する音声認識の精度が高い音声認識システムが使用されることが可能であり、その結果、ユーザーの意図通りに被操作システムが動作する可能性を向上することができる。

【発明の効果】

【0014】

本発明の音声操作装置、音声操作プログラムおよび音声操作システムは、ユーザーの意図通りに被操作システムが動作する可能性を向上することができる。

【図面の簡単な説明】

【0015】

【図1】本発明の一実施の形態に係る音声操作システムのブロック図である。

【図2】図１に示すユーザー端末のブロック図である。

【図3】１台のコンピューターによって構成される場合の図１に示す音声認識システムのブロック図である。

【図4】ＭＦＰである場合の図１に示す被操作システムのブロック図である。

【図5】ユーザー端末と、被操作システムとの接続が確立される場合の図１に示す音声操作システムの動作のシーケンス図である。

【図6】ユーザー端末を介して被操作システムが操作される場合の図１に示す音声操作システムの動作のシーケンス図である。

【図7】音声認識システムからテキストデータを受信した場合の図１に示すユーザー端末の動作のフローチャートである。

【発明を実施するための形態】

【0016】

以下、本発明の実施の形態について、図面を用いて説明する。

【0017】

まず、本発明の一実施の形態に係る音声操作システムの構成について説明する。

【0018】

図１は、本実施の形態に係る音声操作システム１０のブロック図である。

【0019】

図１に示すように、音声操作システム１０は、ユーザーから入力された音声を受け付けて被操作システムを操作する音声操作装置としてのユーザー端末２０を備えている。ユーザー端末２０は、受け付けた音声を示す音声データを生成する。ユーザー端末２０は、例えば、スマートフォン、タブレットなどのコンピューターによって構成されている。

【0020】

音声操作システム１０は、ユーザー端末２０によって生成された音声データに対して音声認識を実行することによって、音声認識の結果としてのテキストデータを生成する音声認識システム３０を備えている。音声認識システム３０としては、ユーザー端末２０のユーザーの音声に適した音声認識システムが採用される。例えば、音声認識システム３０としては、ユーザー端末２０のユーザーの音声を学習させた音声認識システムが採用されても良い。したがって、音声認識システム３０は、ユーザー端末２０のユーザーの声質、アクセント、発話の癖に対応した音声認識を実行することができる。音声認識システム３０は、１台のコンピューターによって構成されても良いし、複数台のコンピューターによって構成されても良い。

【0021】

音声操作システム１０は、ユーザー端末２０から入力されたテキストデータによって示される操作内容に応じて動作する被操作システム４０を備えている。被操作システム４０は、例えば、ＭＦＰ（ＭｕｌｔｉｆｕｎｃｔｉｏｎＰｅｒｉｐｈｅｒａｌ）でも良い。

【0022】

音声操作システム１０において、ユーザー端末２０と、音声認識システム３０とは、例えばＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、インターネットなどのネットワーク１１を介して互いに通信可能である。

【0023】

音声操作システム１０において、ユーザー端末２０と、被操作システム４０とは、例えばＬＡＮ、インターネットなどのネットワーク１２を介して互いに通信可能である。

【0024】

図２は、ユーザー端末２０のブロック図である。

【0025】

図２に示すように、ユーザー端末２０は、種々の操作が入力される例えばボタンなどの操作デバイスである操作部２１と、種々の情報を表示する例えばＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）などの表示デバイスである表示部２２と、マイク２３と、スピーカー２４と、ＬＡＮ、インターネットなどのネットワーク経由で、または、ネットワークを介さずに有線または無線によって直接に、外部の装置と通信を行う通信デバイスである通信部２５と、各種の情報を記憶する例えば半導体メモリー、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）などの不揮発性の記憶デバイスである記憶部２６と、ユーザー端末２０全体を制御する制御部２７とを備えている。

【0026】

記憶部２６は、ユーザーから入力された音声を受け付けて被操作システムを操作するための音声操作プログラム２６ａを記憶している。音声操作プログラム２６ａは、例えば、ユーザー端末２０の製造段階でユーザー端末２０にインストールされていても良いし、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリーなどの外部の記憶媒体からユーザー端末２０に追加でインストールされても良いし、ネットワーク上からユーザー端末２０に追加でインストールされても良い。

【0027】

制御部２７は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）と、プログラムおよび各種のデータを記憶しているＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）と、制御部２７のＣＰＵの作業領域として用いられるメモリーとしてのＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）とを備えている。制御部２７のＣＰＵは、記憶部２６または制御部２７のＲＯＭに記憶されているプログラムを実行する。

【0028】

制御部２７は、音声操作プログラム２６ａを実行することによって、ユーザーから入力された音声を受け付けて被操作システムを操作する音声操作部２７ａを実現する。

【0029】

図３は、１台のコンピューターによって構成される場合の音声認識システム３０のブロック図である。

【0030】

図３に示すように、音声認識システム３０は、種々の操作が入力される例えばキーボード、マウスなどの操作デバイスである操作部３１と、種々の情報を表示する例えばＬＣＤなどの表示デバイスである表示部３２と、ＬＡＮ、インターネットなどのネットワーク経由で、または、ネットワークを介さずに有線または無線によって直接に、外部の装置と通信を行う通信デバイスである通信部３３と、各種の情報を記憶する例えば半導体メモリー、ＨＤＤなどの不揮発性の記憶デバイスである記憶部３４と、音声認識システム３０全体を制御する制御部３５とを備えている。

【0031】

記憶部３４は、ユーザー端末２０によって生成された音声データを音声認識によってテキストデータに変換するための音声認識プログラム３４ａを記憶している。音声認識プログラム３４ａは、例えば、音声認識システム３０の製造段階で音声認識システム３０にインストールされていても良いし、ＵＳＢメモリーなどの外部の記憶媒体から音声認識システム３０に追加でインストールされても良いし、ネットワーク上から音声認識システム３０に追加でインストールされても良い。

【0032】

記憶部３４は、音声データを音声認識によってテキストデータに変換するための機械学習モデルである音声認識モデル３４ｂを記憶している。

【0033】

制御部３５は、例えば、ＣＰＵと、プログラムおよび各種のデータを記憶しているＲＯＭと、制御部３５のＣＰＵの作業領域として用いられるメモリーとしてのＲＡＭとを備えている。制御部３５のＣＰＵは、記憶部３４または制御部３５のＲＯＭに記憶されているプログラムを実行する。

【0034】

制御部３５は、音声認識プログラム３４ａを実行することによって、ユーザー端末２０によって生成された音声データを音声認識によってテキストデータに変換する音声認識部３５ａを実現する。

【0035】

図４は、ＭＦＰである場合の被操作システム４０のブロック図である。

【0036】

図４に示すように、被操作システム４０は、種々の操作が入力される例えばボタンなどの操作デバイスである操作部４１と、種々の情報を表示する例えばＬＣＤなどの表示デバイスである表示部４２と、スピーカー４３と、用紙などの記録媒体に画像を印刷する印刷デバイスであるプリンター４４と、原稿から画像を読み取る読取デバイスであるスキャナー４５と、ＬＡＮ、インターネットなどのネットワーク経由で、または、ネットワークを介さずに有線または無線によって直接に、外部の装置と通信を行う通信デバイスである通信部４６と、図示していない外部のファクシミリ装置と公衆電話回線などの通信回線経由でファックス通信を行うファックスデバイスであるファックス通信部４７と、各種の情報を記憶する例えば半導体メモリー、ＨＤＤなどの不揮発性の記憶デバイスである記憶部４８と、被操作システム４０全体を制御する制御部４９とを備えている。

【0037】

記憶部４８は、ユーザー端末２０から入力されたテキストデータによって示される操作内容に応じて動作するための被操作プログラム４８ａを記憶している。被操作プログラム４８ａは、例えば、被操作システム４０の製造段階で被操作システム４０にインストールされていても良いし、ＵＳＢメモリーなどの外部の記憶媒体から被操作システム４０に追加でインストールされても良いし、ネットワーク上から被操作システム４０に追加でインストールされても良い。

【0038】

記憶部４８は、被操作システム４０の特有の専門用語を示す辞書データ４８ｂを記憶している。

【0039】

制御部４９は、例えば、ＣＰＵと、プログラムおよび各種のデータを記憶しているＲＯＭと、制御部４９のＣＰＵの作業領域として用いられるメモリーとしてのＲＡＭとを備えている。制御部４９のＣＰＵは、記憶部４８または制御部４９のＲＯＭに記憶されているプログラムを実行する。

【0040】

制御部４９は、被操作プログラム４８ａを実行することによって、被操作システム４０の特有の専門用語を示す辞書データをユーザー端末２０に送信する辞書データ送信部４９ａと、ユーザー端末２０から入力されたテキストデータを自然言語処理によって被操作システム４０用のコマンドに変換する自然言語処理部４９ｂと、自然言語処理部４９ｂによって生成されたコマンドに応じて動作するコマンド実行部４９ｃとを実現する。

【0041】

次に、音声操作システム１０の動作について説明する。

【0042】

まず、ユーザー端末２０と、被操作システム４０との接続が確立される場合の音声操作システム１０の動作について説明する。

【0043】

図５は、ユーザー端末２０と、被操作システム４０との接続が確立される場合の音声操作システム１０の動作のシーケンス図である。

【0044】

ユーザーは、ユーザー端末２０と、被操作システム４０との接続を確立することをユーザー端末２０の操作部２１を介してユーザー端末２０に指示することができる。

【0045】

ユーザー端末２０の音声操作部２７ａは、ユーザー端末２０と、被操作システム４０との接続を確立することが指示されると、図５に示すように、被操作システム４０との接続を確立する（Ｓ６１）。

【0046】

被操作システム４０の辞書データ送信部４９ａは、Ｓ６１においてユーザー端末２０との接続が確立すると、辞書データ４８ｂと同一の辞書データをユーザー端末２０に送信する（Ｓ６２）。

【0047】

ユーザー端末２０の音声操作部２７ａは、Ｓ６２において被操作システム４０から送信されてきた辞書データを受信すると、受信した辞書データを音声認識システム３０に送信する（Ｓ６３）。

【0048】

音声認識システム３０の音声認識部３５ａは、Ｓ６３においてユーザー端末２０から送信されてきた辞書データを受信すると、受信した辞書データを記憶部３４または制御部３５のＲＡＭに記憶する（Ｓ６４）。

【0049】

次に、ユーザー端末２０を介して被操作システム４０が操作される場合の音声操作システム１０の動作について説明する。

【0050】

図６は、ユーザー端末２０を介して被操作システム４０が操作される場合の音声操作システム１０の動作のシーケンス図である。

【0051】

ユーザーは、ユーザー端末２０と、被操作システム４０との接続が確立されている場合に、例えば「コピーして」など、被操作システム４０に対する操作内容を示す音声をユーザー端末２０のマイク２３に入力することができる。

【0052】

ユーザー端末２０の音声操作部２７ａは、マイク２３に音声が入力されると、図６に示すように、マイク２３に入力された音声を受け付ける（Ｓ７１）。

【0053】

音声操作部２７ａは、Ｓ７１の処理が終了すると、Ｓ７１において受け付けた音声を示す音声データを音声認識システム３０に送信する（Ｓ７２）。

【0054】

音声認識システム３０の音声認識部３５ａは、Ｓ７２においてユーザー端末２０から送信されてきた音声データを受信すると、受信した音声データに対して音声認識モデル３４ｂを使用して音声認識を行うことによって、受信した音声データをテキストデータに変換する（Ｓ７３）。Ｓ７３における音声認識において、音声認識部３５ａは、Ｓ６４において記憶部３４または制御部３５のＲＡＭに記憶した辞書データを使用する。例えば、音声認識部３５ａは、Ｓ７２においてユーザー端末２０から送信されてきた音声データが「コピーして」という音声を示すデータである場合に、「コピーして」というテキストを示すテキストデータをＳ７３において生成する可能性もあるし、「カピーして」というテキストを示すテキストデータをＳ７３において誤って生成する可能性もある。

【0055】

音声認識部３５ａは、Ｓ７３の処理が終了すると、Ｓ７３において生成したテキストデータをユーザー端末２０に送信する（Ｓ７４）。

【0056】

ユーザー端末２０の音声操作部２７ａは、Ｓ７４において音声認識システム３０から送信されてきたテキストデータを受信すると、受信したテキストデータを被操作システム４０に送信する（Ｓ７５）。

【0057】

被操作システム４０の自然言語処理部４９ｂは、Ｓ７５においてユーザー端末２０から送信されてきたテキストデータを受信すると、受信したテキストデータを自然言語処理によって被操作システム４０用のコマンドに変換することを試みる（Ｓ７６）。

【0058】

被操作システム４０の自然言語処理部４９ｂは、Ｓ７６においてテキストデータをコマンドに変換することができなかった場合、Ｓ７６においてテキストデータをコマンドに変換することができなかった旨をユーザーに通知する（Ｓ７７）。Ｓ７７における通知の方法としては、被操作システム４０の表示部４２およびスピーカー４３の少なくとも一方による通知でも良い。自然言語処理部４９ｂは、Ｓ７７における通知を被操作システム４０のスピーカー４３によって実行する場合には、Ｓ７５においてユーザー端末２０から送信されてきたテキストデータに示されるテキストに対応する音声をスピーカー４３によって出力しても良い。例えば、自然言語処理部４９ｂは、Ｓ７５においてユーザー端末２０から送信されてきたテキストデータに示されるテキストが「カピーして」というテキストである場合、「カピーして」という音声をスピーカー４３によって出力しても良い。

【0059】

被操作システム４０のコマンド実行部４９ｃは、Ｓ７６においてテキストデータをコマンドに変換することができた場合、Ｓ７６において生成されたコマンドに応じて動作する（Ｓ７８）。例えば、コマンド実行部４９ｃは、Ｓ７５においてユーザー端末２０から送信されてきたテキストデータが「コピーして」というテキストを示すデータである場合、スキャナー４５によって原稿から画像を読み取って、スキャナー４５によって原稿から読み取った画像をプリンター４４によって記録媒体に印刷する。

【0060】

なお、図６に示す例では、ユーザー端末２０の音声操作部２７ａは、音声認識システム３０から送信されてきたテキストデータを受信した場合に、音声認識システム３０から受信したテキストデータを被操作システム４０に必ず送信する（Ｓ７５）。しかしながら、音声操作部２７ａは、音声認識システム３０から送信されてきたテキストデータを受信した場合に、図７に示すように、ユーザーからの指示があったときのみ、音声認識システム３０から受信したテキストデータを被操作システム４０に送信しても良い。

【0061】

図７は、音声認識システム３０からテキストデータを受信した場合のユーザー端末２０の動作のフローチャートである。

【0062】

ユーザー端末２０の音声操作部２７ａは、音声認識システム３０から送信されてきたテキストデータを受信した場合に、図７に示す動作を実行する。

【0063】

図７に示すように、音声操作部２７ａは、音声認識システム３０から受信したテキストデータを被操作システム４０に送信するか否かの指示をユーザー端末２０の操作部２１を介して受け付けるための送信指示受付画面をユーザー端末２０の表示部２１に表示する（Ｓ８１）。送信指示受付画面は、音声認識システム３０から受信したテキストデータの内容を含んでいる。音声操作部２７ａは、送信指示受付画面を表示部２１に表示する場合に、音声認識システム３０から受信したテキストデータの内容をユーザー端末２０のスピーカー２４によって通知しても良い。音声操作部２７ａは、音声認識システム３０から受信したテキストデータの内容をスピーカー２４によって通知する場合には、音声認識システム３０から受信したテキストデータに示されるテキストに対応する音声をスピーカー２４によって出力する。例えば、音声操作部２７ａは、音声認識システム３０から受信したテキストデータに示されるテキストが「カピーして」というテキストである場合、「カピーして」という音声をスピーカー２４によって出力する。

【0064】

音声操作部２７ａは、Ｓ８１の処理が終了すると、音声認識システム３０から受信したテキストデータを被操作システム４０に送信することを送信指示受付画面において受け付けたか否かを判断する（Ｓ８２）。

【0065】

音声操作部２７ａは、音声認識システム３０から受信したテキストデータを被操作システム４０に送信することを送信指示受付画面において受け付けていないとＳ８２において判断すると、音声認識システム３０から受信したテキストデータを被操作システム４０に送信しないことを送信指示受付画面において受け付けたか否かを判断する（Ｓ８３）。

【0066】

音声操作部２７ａは、音声認識システム３０から受信したテキストデータを被操作システム４０に送信しないことを送信指示受付画面において受け付けていないとＳ８３において判断すると、Ｓ８２の処理を実行する。

【0067】

音声操作部２７ａは、音声認識システム３０から受信したテキストデータを被操作システム４０に送信することを送信指示受付画面において受け付けたとＳ８２において判断すると、音声認識システム３０から受信したテキストデータを被操作システム４０に送信して（Ｓ８４）、図７に示す動作を終了する。

【0068】

音声操作部２７ａは、音声認識システム３０から受信したテキストデータを被操作システム４０に送信しないことを送信指示受付画面において受け付けたとＳ８３において判断すると、音声認識システム３０から受信したテキストデータを被操作システム４０に送信することなく、図７に示す動作を終了する。

【0069】

以上に説明したように、ユーザー端末２０は、ユーザーから入力された音声を示す音声データに対する音声認識を被操作システム４０とは別の音声認識システム３０に実行させる（Ｓ７３）ので、ユーザーの音声に対する音声認識の精度が高い音声認識システム３０がユーザー自身によって用意されて使用されることが可能であり、その結果、ユーザーの意図通りに被操作システム４０が動作する可能性を向上することができる。

【0070】

ユーザー端末２０は、ユーザーの意図通りに被操作システム４０が動作する可能性を向上することができるので、ユーザーが発話をやり直す必要性を低減することができ、その結果、利便性を向上することができる。

【0071】

ユーザー端末２０は、ユーザーの音声データを被操作システム４０に送信せずに、音声データから変換されたテキストデータを被操作システム４０に送信するので、ユーザーのプライバシーを保護することができる可能性を向上することができる。

【0072】

ユーザー端末２０は、被操作システム４０の特有の専門用語を示す辞書データを被操作システム４０からダウンロードして（Ｓ６２）、ダウンロードした辞書データを音声認識システム３０に渡す（Ｓ６３）ので、被操作システム４０の特有の専門用語を示す辞書データを音声認識システム３０が事前に保持していなくても、被操作システム４０の特有の専門用語を示す辞書データを使用した精度が高い音声認識（Ｓ７３）を音声認識システム３０に実行させることができ、その結果、ユーザーの意図通りに被操作システム４０が動作する可能性を向上することができる。

【0073】

なお、音声認識システム３０は、音声データをテキストデータに変換する場合に、被操作システム４０の特有の専門用語を示す辞書データを使用しなくても良い。音声操作システム１０は、被操作システム４０の特有の専門用語を示す辞書データを音声認識システム３０が使用しない場合、被操作システム４０の特有の専門用語を示す辞書データを音声認識システム３０にダウンロードしなくても良い。

【0074】

音声操作システム１０は、本実施の形態においてユーザー端末２０とは別に音声認識システム３０を備えている。しかしながら、ユーザー端末２０が音声認識システム３０を兼ねても良い。

【符号の説明】

【0075】

１０音声操作システム
２０ユーザー端末（音声操作装置、コンピューター）
２６ａ音声操作プログラム
３０音声認識システム
４０被操作システム

【図1】