(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6572314
(24)【登録日】2019年8月16日
(45)【発行日】2019年9月4日
(54)【発明の名称】ロボットシステムの音声識別システム及び方法
(51)【国際特許分類】
G10L 15/28 20130101AFI20190826BHJP
G10L 15/10 20060101ALI20190826BHJP
B25J 13/00 20060101ALI20190826BHJP
G10L 15/00 20130101ALI20190826BHJP
G10L 25/84 20130101ALI20190826BHJP
G10L 25/30 20130101ALI20190826BHJP
G10L 15/04 20130101ALI20190826BHJP
G10L 15/30 20130101ALI20190826BHJP
【FI】
G10L15/28 230K
G10L15/10 500T
B25J13/00 Z
G10L15/00 200H
G10L15/10 200W
G10L25/84
G10L25/30
G10L15/04 300Z
G10L15/30
【請求項の数】1
【全頁数】10
(21)【出願番号】特願2017-537986(P2017-537986)
(86)(22)【出願日】2015年6月12日
(65)【公表番号】特表2018-507434(P2018-507434A)
(43)【公表日】2018年3月15日
(86)【国際出願番号】CN2015081409
(87)【国際公開番号】WO2016112634
(87)【国際公開日】20160721
【審査請求日】2017年9月8日
(31)【優先権主張番号】201510015421.6
(32)【優先日】2015年1月12日
(33)【優先権主張国】CN
(73)【特許権者】
【識別番号】517246379
【氏名又は名称】ユウトウ・テクノロジー(ハンジョウ)・カンパニー・リミテッド
(74)【代理人】
【識別番号】110001737
【氏名又は名称】特許業務法人スズエ国際特許事務所
(72)【発明者】
【氏名】カイ、ペン
(72)【発明者】
【氏名】ガオ、ペン
(72)【発明者】
【氏名】ジャン、タオ
(72)【発明者】
【氏名】チェン、イータン
(72)【発明者】
【氏名】シャン、ウェンジー
【審査官】
千本 潤介
(56)【参考文献】
【文献】
米国特許出願公開第2014/0163978(US,A1)
【文献】
中国特許出願公開第103714815(CN,A)
【文献】
中国特許出願公開第103839549(CN,A)
【文献】
特開2009−223172(JP,A)
【文献】
特開2004−341033(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00−15/34
G10L 25/00−25/93
B25J 13/00
(57)【特許請求の範囲】
【請求項1】
ロボットシステムの音声識別システムであって、
マイクと、ローカル音声検出器と、ローカル音声識別モジュールと、ローカル音声エンコードモジュールと、リモート音声デコードモジュールと、リモート音声識別モジュールとリモート言語処理モジュールと、実行モジュールとを含み、
前記ローカル音声検出器は、神経ネットワークアルゴリズムに基づいた音声検出器であり、
前記音声識別システムはまたマルチメディアモジュールを含み、前記マルチメディアモジュールにより操作指令が実行され、
前記マイクを使ってリアルタイムで外部からの音声信号を収集し、
前記ローカル音声検出器を使って、現在の音声信号は人間の声を含むか否かを判定して、人間の声を含んだら前記ローカル音声識別モジュールに出力し、
前記ローカル音声識別モジュールを使って、人間の声の音声信号を受け、人間の声の音声信号が呼び覚まし指令を含むか否かを判定して、呼び覚まし指令を含んだら、前記人間の声の音声信号を前記ローカル音声エンコードモジュールに出力し、
前記ローカル音声エンコードモジュールは人間の声の音声信号に対してエンコードを行って前記リモート音声デコードモジュールに出力し、
前記リモート音声デコードモジュールは収集した人間の声の音声信号をデコードした後、リモート音声識別モジュールに出力し、
前記リモート音声識別モジュールを使って前記リモート音声デコードモジュールから出力した人間の声の音声信号を変換させて、前記リモート言語処理モジュールに出力し、
前記リモート言語処理モジュールは変換した人間の声の音声信号により、相応する操作指令を生成させ、
前記実行モジュールは前記マルチメディアモジュールを制御することにより操作指令を実行し、
前記ローカル音声識別モジュールが、現在の人間の声の音声信号が呼び覚まし指令を含むことを確認した時、ローカル音声識別モジュールがオフ(off)して、人間の声の音声信号が前記ローカル音声エンコードモジュールにより符号化された後、直接に前記リモート音声デコードモジュールに転送して、復号化された後、前記リモート音声識別モジュールに転送する、音声識別システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は知能音声分野に関し、具体的に言えば、ロボットシステムの音声識別システム及び方法に関するものである。
【背景技術】
【0002】
ロボットシステムの音声識別システムは主に音声識別技術と自然音声処理技術に関するものである。
【0003】
音声識別技術は自動音声識別(Automatic Speech Recognition、ASR)とも言われ、その目標は人類の音声における語彙の内容をコンピューターの読むことができる入力、例えばキーボードでの入力、2進法コーディング、或いは文字列に転換する。
【0004】
自然言語処理技術(Natural Language Processing、略称NLP)は、人工知能と言語学の分枝の学科で、主要目的は人間とコンピュータとの自然言語での有効的な通信を実現することである。
【0005】
既存の主流ロボットシステムの音声識別システムはみんなこの二つの技術を使っている。
【0006】
ロボットシステムが音声を識別する過程は以下の四つの段階に分け、すなわち、音声の接収と、音声の識別と、自然言語の処理と、動作の実行とに分ける。
【0007】
既存のロボットシステムが音声を接収する方式は主に大体以下の三種類に分け、すなわち、1. 非リアルタイムで入力すること:ロボットはトリガー行動が追加されるの時しか接収しなく、トリガー行動が確認されてから、音声の入力を接収し始める。2. リアルタイムで入力すること:ロボットはずっと外部から入力した、あらゆる人間の声と判定された音声を接収する。3.リアルタイムで入力すること:ロボットはずっと外部から入力した音声を接収し、音声入力ごとに対して、固定されたステートメントにより触発する。
【0008】
どのような音声接収方式を使っても、ロボットが音声信号を接収した後、まず音声識別技術により音声をコンピュータの読める入力信号、普通は文字列、すなわち文字に転換し、そして、自然言語処理技術を使って音声識別をした結果を自然言語分析して、処理して、当該音声信号の本当の意味を得て、最後、自然言語処理をした結果により、相応する反応をして、命令及び動作を実行する。
【0009】
既存のロボットシステムの音声識別システムには主に以下のような欠陥があり、すなわち、
1. 追加されるトリガー行動があると、一番自然的な、インタラクティブな方式(interactive method)には余分のインタラクションを増えて、ユーザの経験は少なくなった。
【0010】
2. 本当に人間とロボットとの間自然言語を使って話すことではなく、固定のステートメント或いは固定の文のタイプ(sentence types)を使うのは普通であって、関連する使う範囲はとても有限であり、これらの固定のステートメント或いは固定の文のタイプを知らない人間はロボットと交流できない。
【0011】
3. リアルタイムでフィード・バックすることはできなく、或いは消耗のエネルギーは多過ぎで、また、誤って触発することは多過ぎで、人間とロボットとの間のインタラクションは流暢ではなく、ロボットとの交流は用心深くなった。
【発明の概要】
【0012】
既存技術に上記の欠陥があることに対して、本発明が提供したロボットシステムの音声識別システムは
マイクと、ローカル音声検出器と、ローカル音声識別モジュールと、ローカル音声コードモジュールと、リモート音声デコードモジュールと、リモート音声識別モジュールとリモート言語処理モジュールと、実行モジュールとを含み、
マイクはリアルタイムで外部から音声信号を接収し、
ローカル音声検出器は上記の音声信号を検出して、現在の音声信号は人間の声の音声信号を含むか否かを判定して、人間の声の音声信号を含んだら出力し、
ローカル音声識別モジュールは上記の音声検出器が出力する人間の声の音声信号を接収して審査弁別して、現在の人間の声の音声信号が呼び覚まし指令を含むか否かを判定して、呼び覚まし指令を含んだら、出力し、
ローカル音声コードモジュールは人間の声の音声信号に対してコードを行って出力し、
リモート音声デコードモジュールはローカル音声コードモジュールから出力した、コードを行った音声信号を接収してデコードして出力し、
リモート音声識別モジュールは、上記のリモート音声デコードモジュールから出力した、デコードした人間の声の音声信号を接収し、転換させた後、上記のリモート言語処理モジュールに出力し、上記のリモート言語処理モジュールは転換した人間の声の音声信号により、相応する操作指令を生成し、
実行モジュールは上記のリモート言語処理モジュールの操作指令を実行する。
【0013】
上記の音声識別システムにおいて
、上記のマイクはいつもオンしていて、中断しなくリアルタイムで外部からの音声信号を接収する。
【0014】
上記の音声識別システムにおいて、上記のシステムはまたマルチメディアモジュールを含み、上記のマルチメディアモジュールにより上記の操作指令が実行される。
【0015】
上記の音声識別システムにおいて、上記のローカル音声識別モジュールはデータストリームの方式により、人間の声の音声信号を上記のリモート音声識別モジュールに出力する。
【0016】
上記の音声識別システムにおいて、上記のシステムはまた呼び覚まし指令編集モジュールを含み、上記の呼び覚まし指令を編集する。
【0017】
上記の音声識別システムにおいて、上記のローカル音声検出器は神経ネットワークアルゴリズムに基づいた音声検出器である。
【0018】
上記の音声識別システムにおいて、上記のリモート言語処理モジュールが転換した人間の声の音声信号により相応した操作指令を生成する処理時間は10〜20msである。
【0019】
また、本発明が公開した上記の識別システムの識別方法は、以下のステップを含んで、すなわち、
上記のマイクを使ってリアルタイムで外部からの音声信号を接収し、
上記のローカル音声検出器を使って、現在の音声信号は人間の声の音声信号を含むか否かを判定して、人間の声の音声信号を含んだら上記のローカル音声識別モジュールに出力し、
上記のローカル音声識別モジュールを使って、人間の声の音声信号を審査弁別して、現在の人間の声の音声信号が呼び覚まし指令を含むか否かを判定して、呼び覚まし指令を含んだら、上記の人間の声の音声信号をローカル音声コードモジュールに出力し、
上記のローカル音声コードモジュールは人間の声の音声信号に対してコードを行って上記のリモート音声デコードモジュールに出力し、
上記のリモート音声デコードモジュールは接収した人間の声の音声信号に対してデコードした後、リモート音声識別モジュールに出力し、
上記のリモート音声識別モジュールを使って、上記のリモート音声デコードモジュールから出力した人間の声の音声信号を転換させ、上記のリモート言語処理モジュールに出力し、
上記のリモート言語処理モジュールは転換した人間の声の音声信号により、相応する操作指令を生成し、
上記の実行モジュールはマルチメディア・モジュールを制御することにより操作指令を実行する。
【0020】
上記の方法において、上記のローカル音声識別モジュールが審査弁別して、現在の人間の声の音声信号が呼び覚まし指令を含むことを確認した時、ローカル音声識別モジュールがオフ(off)して、人間の声の音声信号が上記のローカル音声コードモジュールによりエンコードされた後、直接に上記のリモート音声デコードモジュールに転送して、デコードされた後、上記のリモート音声識別モジュールに転送する。
【図面の簡単な説明】
【0021】
【
図1】
図1は本発明の音声識別システムの構成と実施例を示す。
【発明を実施するための形態】
【0022】
以下、図面と具体の実施例により本発明を詳しく説明するが、以下の説明は本発明に対しての限定ではない。
【0023】
以下の記載には本発明を理解するため、たくさんの具体的な細部を提供したが、本発明は一つの細部あるいは複数の細部がなくでもよく実施でき、これは当業者に対して理解しやすいことである。他の例では、本発明と混淆しないために、本領域の公知技術の一部分技術特徴を説明しなかった。
【0024】
もっとよく本発明を理解するため、以下の説明では、詳しいステップ及び詳細の構成を記載し、本発明の技術案を詳しく解釈する。本発明の好ましい実施例は以下の通りであり、以下の詳細記載以外、本発明は別の実施方式を有することも可能である。
【0025】
本発明のロボットシステムの耳は、ロボットが人間の言語をry理解し、一番自然的な人間と機器との交流を体験するもので、以下の三つの課題を解決すべきであり、すなわち、第1は、全く音声を利用して交流し、追加されるトリガー行動をしない。第2は、生活或いは仕事をする時、固定のステートメント或いは固定の文のタイプ(sentence types)を使わないように、人間とロボットとの間自然言語を使って話すことができる。3. リアルタイムでフィード・バックすることはでき、誤って触発したことは少ない場合、消耗のエネルギーは適当な量である。
【0026】
上記の技術問題を解決するため、本発明が提供したロボットシステムの音声識別システムは、マイクと、ローカル音声検出器と、ローカル音声識別モジュールと、ローカル音声コードモジュールと、リモート音声デコードモジュールと、リモート音声識別モジュールとリモート音声処理モジュールと、実行モジュールとを含み、
マイクはリアルタイムで外部からの音声信号を接収する。本発明の好ましい実施例では、マイクはいつもオンしていて、中断しなくリアルタイムで外部からの音声信号を接収する。マイクの機能は外部からの音声データを収集することであって、マイクはロボットシステムの耳と効くものである。
【0027】
ローカル音声検出器は音声信号を検出し、現在の音声信号が人間の声の音声を含んだか否かを判定し、人間の声の音声を含んだら、出力する。本発明のロボットシステムのマイクがいつもオンしているが、周辺の環境ではいろいろな音声があって、大部分は噪音で、ロボットシステムで音声識別する意味はなく、噪音の故性能がそがれること及び大量の大量の誤って触発することを免れるため、ロボットシステムは收集した音声を分析して人間の声の音声であるか否かを判定し、收集した音声が人間の声(人間が話す声)の場合しか、当該音声データを識別システムに転送しない。
【0028】
本発明の好ましい実施例では、ローカル音声検出器は神経ネットワークアルゴリズムに基づいた音声検出器であって、入力した音声データを正しく、速く判定して、人間の声の音声であるか否かを判定でき、噪音の故誤って触発することを免れ、ネットワーク及びサービス請求による費用を下げるカギ部材である。
【0029】
ローカル音声識別モジュールは音声検出器が出力する人間の声の音声信号を接収して審査弁別して、現在の人間の声の音声信号が呼び覚まし指令を含むか否かを判定して、呼び覚まし指令を含んだら、出力する。本発明のロボットシステムでは、音声検出器が収集した人間の声の音声と判定しても、もしこれはロボットに対しての話す声ではなかったら、この話す声をサービスポートに送って分析させると、多大の時間と設備の性能は無駄になった。そのため、まずローカル側でこの話す声がロボットに対しての話であるか快速的に判定しなければいけない。人と人の交流のように、まずこれは自分に対しての話か判定して、それから答えをするか決まる。
【0030】
本発明では、特に進化的な(Evolutionary)ローカル音声識別モジュールを使って入力した自然言語はロボットに対しての話か、快速的に識別でき、また、アクティブにする語彙あるいはフレーズ(本発明のロボットシステムでは人間の名前或いはペットの名前のように、ロボットの名前と定義し)を随時に、随意に更新或いは修正をすることができ、判定の正確率は90%に達する。本発明の好ましい実施例では、ロボットの名前を呼び覚まし指令と設定したら、呼び覚まし指令編集モジュールにより呼び覚まし指令が編集され、ユーザは便利で、快速的に自分の好みで随意にロボットの名前を設定できる。
【0031】
ローカル音声コードモジュールは人間の声の音声信号に対してコードを行って出力する。
リモート音声デコードモジュールはローカル音声コードモジュールが出力した、コードを行った音声信号をデコードして出力する。
【0032】
リモート音声識別モジュールとリモート言語処理モジュールとでは、リモート音声識別モジュールはリモート音声デコードモジュールが出力して、デコードした人間の声の音声信号を接収し、転換してリモート言語処理モジュールに出力し、リモート言語処理モジュールは転換した人間の声の音声信号により相応する操作指令を生成する。
【0033】
リモート音声識別モジュールはもっと完全な言語モデルと音響モデル(acoustical model)を有し、日常生活用の90%以上の常用語を識別でき、複数の言葉、例えば英語、中国語、日本語などが識別でき、また、複数の中国方言、例えば広東語、四川語、河南語なども識別できる。本発明のロボットシステムが関連した特定の領域も最適化になって、その音声識別の正確率は95%以上に達した。また、本発明の好ましい実施例では、本発明のローカル音声識別モジュールはデータストリームの方式で人間の声の音声信号をリモート音声識別モジュールに出力し、音声識別モジュールは第1フレームデータを接収してから、リアルタイムで識別し始めたため、音声が終わると、全体のセンテンスに対しての識別結果は出ていて、本当のリアルタイムで識別することになって、音声データを送ってから識別結果が出たまでの時間は100ms以内である。リモート自然言語処理のサービスは日常生活の80%の場面(scenes)を応対でき、入力した自然言語が関連したあらゆる領域に対して快速的に応対でき、処理時間は普通10〜20msだけである。そのため、ネットワークが安定の場合、本発明の音声識別過程の全体は500ms以内である。
【0034】
実行モジュールはリモート言語処理モジュールの操作指令を実行するものである。本発明の好ましい実施例では、当該実行モジュールはマルチメディアモジュールを制御してリモート言語処理モジュールからの操作指令を実行し、例えば、音楽、ナビゲート、メール、照明などの制御を実行する。
【0035】
ユーザの体験によると、人と人の間の交流方式として、音声、自然言語を使って充分である。上記のモジュールは一緒に本発明のロボットシステムが本当に完全自然言語を使ってリアルタイムで入力したり、リアルタイムでフィードバックしたりすることができるのを保証し、また、システムの性能と電力消費とのバランス及びシステムの安定を保証する。
【0036】
また、本発明が提供した上記の識別システムの識別方法は、以下のステップを含み、すなわち、
ステップS1:マイクを使ってリアルタイムで外部からの音声信号を接収し、
ステップS2:ローカル音声検出器を使って、現在の音声信号は人間の声を含むか否かを判定して、人間の声を含んだらローカル音声識別モジュールに出力し、
ステップS3:ローカル音声識別モジュールを使って、人間の声の音声信号を審査弁別して、現在の人間の声の音声信号が呼び覚まし指令を含むか否かを判定して、呼び覚まし指令を含んだら、人間の声の音声信号をローカル音声コードモジュールに出力し、
ステップS4:ローカル音声コードモジュールは人間の声の音声信号に対してコードを行ってリモート音声デコードモジュールに出力し、
ステップS5:リモート音声デコードモジュールはコードを行った人間の声の音声信号に対してデコードした後、リモート音声識別モジュールに出力し、
ステップS6:リモート音声識別モジュールを使って、リモート音声デコードモジュールから出力した人間の声の音声信号を転換させ、リモート言語処理モジュールに出力し、
ステップS7:リモート言語処理モジュールは転換した人間の声の音声信号により、相応する操作指令を生成し、
ステップS8:実行モジュールはマルチメディア・モジュールを制御することにより操作指令を実行する。
【0037】
好ましいのは、ローカル音声識別モジュールを使って、人間の声の音声信号を審査弁別して、現在の人間の声の音声信号が呼び覚まし指令を含むと判定した時、ローカル音声識別モジュールがオフして、ローカル音声コードモジュールにより人間の声の音声信号が符号化されて、それから、直接に上記のリモート音声デコードモジュールに出力して復号化されて、リモート音声識別モジュールに転送する。
【0038】
図1に示すように、ロボットをR2としたら,主人はロボットに対して、“R2さん、私はいま気持ち悪いから、音楽をしてくれ”、この時音声を接収している状態でのマイクが接収したデータはローカル音声検出器を経由して、ローカル音声検出器は、この時の声は環境噪音ではなく、人間の話す声であると判定したが、ロボットはこれは自分に対しての話かを知らなければいけないから、この部分の音声はローカル音声検出器に送られて識別られ、この時ローカル音声識別サービスは、これは自分に対しての話と判定し(ロボットの名前R2と呼んだから)、だからその後の話は自分に対しての話である。この文の意味を理解するため、まずこの部分の音声に対してローカル音声コードモジュールでコードを行って、其の後ネットワークを経由してリモート音声デコードモジュールに送って、デコードしてリモート音声識別サーバに送って識別し、それから、自然言語分析をして、分析した結果、この文の意味は、主人が“気持ち悪いから、音楽を聴きたい”ということであり、そすると、この結果をロボットの行為決定システム(どのように応対するかという決定システム)に送り、考えた後、ロボットは“治療するための音楽”を主人に放送することと決定し、また、この決定をローカルシステムに送りもとり,終にローカルシステムはこの結果により“治療するための音楽”を探し出して放送する。
【0039】
以上の記載のように、本発明が上記の技術案を使ったから、全部音声を使って交流でき、トリガー行動を追加する必要はない。また、ユーザは自然的な言語で人間とコンピュータとの間の話をすることができ、固定のステートメント或いは固定の文のタイプ(sentence types)を使う必要なくても、生活或いは仕事をするため交流できる。リアルタイムでフィード・バックすることはでき、誤って触発したことは少ない場合、消耗のエネルギーは適当な量である。
【0040】
以上は本発明の好ましい実施例を説明したが、本発明は上記の特定の実施方式に限定するものではなく、詳しく記載していない設備と構成は本領域の普通の方式とも言え、実施できる。当業者は本発明の技術案の範囲を超えない場合、上記の方法と技術内容を使って本発明の技術案をいろいろ変化させ、いろいろ修正でき、あるいは同じ変更の等価実施例にすることができる。そのようにしても本発明の実質内容は同じである。そのため、本発明の技術案を離れていない内容、本発明の技術の実質により上記の実施例に対しての簡単な修正、等価的な変更、修飾などはみんな本発明の技術案の保護範囲に属する。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[1] ロボットシステムの音声識別システムであって、
マイクと、ローカル音声検出器と、ローカル音声識別モジュールと、ローカル音声コードモジュールと、リモート音声デコードモジュールと、リモート音声識別モジュールとリモート言語処理モジュールと、実行モジュールとを含み、
マイクはリアルタイムで外部からの音声信号を接収し、
ローカル音声検出器は上記の音声信号を検出して、現在の音声信号は人間の声を含むか否かを判定して、人間の声を含んだら出力し、
ローカル音声識別モジュールは上記の音声検出器が出力する人間の声の音声信号を接収して審査弁別して、現在の人間の声の音声信号が呼び覚まし指令を含むか否かを判定して、もし呼び覚まし指令を含んだら、出力し、
ローカル音声コードモジュールは人間の声の音声信号に対してコードを行って出力し、リモート音声デコードモジュールはローカル音声コードモジュールから出力した、コードを行った音声信号を接収して、デコードをして出力し、
リモート音声識別モジュールとリモート言語処理モジュールとは、上記のリモート音声識別モジュールは上記のリモート音声デコードモジュールから出力した、デコードした人間の声の音声信号を接収し、転換させた後、上記のリモート言語処理モジュールに出力し、
上記のリモート言語処理モジュールは転換した人間の声の音声信号により、相応する操作指令を生成させ、
実行モジュールは上記のリモート言語処理モジュールの操作指令を実行する。
[2] 上記のマイクはいつもオンしていて、中断しなくリアルタイムで外部からの音声信号を接収することを特徴とする[1]に記載の音声識別システム。
[3] 上記の音声識別システムはまたマルチメディアモジュールを含み、上記のマルチメディアモジュールにより上記の操作指令が実行されることを特徴とする[1]に記載の音声識別システム。
[4] 上記のローカル音声識別モジュールはデータストリームの方式で、人間の声の音声信号を上記のリモート音声識別モジュールに出力することを特徴とする[1]に記載の音声識別システム。
[5] 上記の音声識別システムはまた呼び覚まし指令編集モジュールを含み、上記の呼び覚まし指令を編集することを特徴とする[1]に記載の音声識別システム。
[6] 上記のローカル音声検出器は神経ネットワークアルゴリズムに基づいた音声検出器であることを特徴とする[1]に記載の音声識別システム。
[7] 上記のリモート言語処理モジュールが転換した人間の声の音声信号により相応した操作指令を生成させる処理時間は10〜20msであることを特徴とする[1]に記載の音声識別システム。
[8] [1]〜[7]のいずれか一項に記載の音声識別システムの識別方法であって、以下のステップを含んで、すなわち、
上記のマイクを使ってリアルタイムで外部からの音声信号を接収し、
上記のローカル音声検出器を使って、現在の音声信号は人間の声を含むか否かを判定して、人間の声を含んだら上記のローカル音声識別モジュールに出力し、
上記のローカル音声識別モジュールを使って、人間の声の音声信号を審査弁別して、現在の人間の声の音声信号が呼び覚まし指令を含むか否かを判定して、呼び覚まし指令を含んだら、上記の人間の声の音声信号を上記のローカル音声コードモジュールに出力し、
上記のローカル音声コードモジュールは人間の声の音声信号に対してコードを行って上記のリモート音声デコードモジュールに出力し、
上記のリモート音声デコードモジュールは接収した人間の声の音声信号をデコードした後、リモート音声識別モジュールに出力し、
上記のリモート音声識別モジュールを使って上記のリモート音声デコードモジュールから出力した人間の声の音声信号を転換させて、上記のリモート言語処理モジュールに出力し、
上記のリモート言語処理モジュールは転換した人間の声の音声信号により、相応する操作指令を生成させ、
上記の実行モジュールは上記のマルチメディア・モジュールを制御することにより操作指令を実行する。
[9] 上記のローカル音声識別モジュールが審査弁別して、現在の人間の声の音声信号が呼び覚まし指令を含むことを確認した時、ローカル音声識別モジュールがオフ(off)して、人間の声の音声信号が上記のローカル音声コードモジュールにより符号化された後、直接に上記のリモート音声デコードモジュールに転送して、復号化された後、上記のリモート音声識別モジュールに転送することを特徴とする[8]に記載の音声識別方法。