(58)【調査した分野】(Int.Cl.,DB名)
前記音声認識部は、前記音データに含まれるトリガーワードの少なくとも最初の一部を認識した場合に前記ディレイ信号を送信し、前記音データに含まれる前記トリガーワードを認識した場合に、前記ミュート信号を送信する、
請求項1に記載の音声端末。
前記音データを取得し、前記音データに人の音声が含まれていない無音声状態であるか否かを判断し、前記無音声状態であると判断した場合には、前記音声制御部に無音声圧縮を指示する制御信号を送信する音声判定部を更に備えた、
請求項1乃至4のいずれか一つに記載の音声端末。
前記音声制御部は、前記ディレイ信号を受信すると、前記音データの出力を遅延させ、前記音データのディレイパケットに関するディレイ情報を前記音声判定部に送信する、
請求項5に記載の音声端末。
前記音声認識部が、前記トリガーワードの一部を認識して前記ディレイ信号を送信した後に、前記トリガーワードを認識しなかった場合には、前記音声制御部に前記出力の遅延を停止させるディレイ停止信号を送信する、
請求項3に記載の音声端末。
【発明を実施するための形態】
【0010】
[第1の実施形態]
本開示の第1の実施形態について、図面を用いて以下に説明する。
【0011】
[音声コマンド生成システム300]
図1は、本実施形態に係る音声コマンド生成システム300の概念図である。音声コマンド生成システム300は、
図1に示すように、通信機器190に接続された第1の音声端末100と、通信機器290に接続された第2の音声端末200とを含む。第1の音声端末100と第2の音声端末200は、異なる会議室などに配置されている。第1の音声端末100と第2の音声端末200は、ネットワーク400を介して各種信号の送受信を行う。
【0012】
ここで、音声コマンド生成システム300は、例えば音声会議システムとして用いられる。なお、音声会議システムは、必ずしも会議に用いられる必要はなく、異なる場所にいる複数のユーザーが、互いにコミュニケーションをとるために用いることができるシステムであればよい。
【0013】
[ネットワーク400]
ネットワーク400は、Wi−Fi(Wireless-Fidelity、登録商標)などの無線LAN(Local Area Network)、有線LAN、WAN(Wide Area Network)などを含み、第1の音声端末100と第2の音声端末200との間の信号伝達経路として利用される。
【0014】
[第1の音声端末100]
第1の音声端末100は、第1の音声端末100が配置された会議室にいる発話者の音声を収音し、アナログ音データを生成する収音部110を有する。収音部110により生成されたアナログ音データは、ADコンバーター120に送信され、ADコンバーター120にて、デジタル音データに変換される。デジタル音データは、第1の音声端末100に含まれる、音声認識部130、音声制御部140、及び音声判定部150に送信される。なお、第1の音声端末100が収音部110を含まず、第1の音声端末100の外部に配置された収音部110と接続される構成としても構わない。
【0015】
[音声認識部130]
音声認識部130は、ADコンバーター120から送信されたデジタル音データに含まれたトリガーワードの少なくとも最初の一部を受信すると、音声制御部140に対して、デジタル音データの出力を遅延させることを指示するディレイ信号を送信する。トリガーワードとは、音データからコマンド信号を生成させることを指示するキーワードである。なお、トリガーワードの最初の一部とは、トリガーワードの最初の音素、音節、単語等である。本実施形態においては、音声認識部130は、ADコンバーター120から送信されたデジタル音データに含まれたトリガーワードの最初の音素を受信すると、音声制御部140に対して、デジタル音データの出力を遅延させることを指示するディレイ信号を送信する例を説明する。
【0016】
また、音声認識部130は、デジタル音データからコマンド信号を生成するためのコマンド信号生成用データを記憶している。音声認識部130は、ADコンバーター120より送信されたデジタル音データの認識処理を行い、デジタル音データからテキストデータを生成する。音声認識部130は、この音声認識処理により生成したテキストデータと、予め記憶しているコマンド信号生成用データとを用いて、コマンド信号を生成し、このコマンド信号を、各種制御部170に送信する。なお、本実施形態においては、音声認識部130がコマンド信号生成用データを記憶し、コマンド信号を生成する構成を例に挙げて説明したが、音声認識部130外に、コマンド信号を生成する制御部を別途設ける構成としてもよい。
【0017】
更に、音声認識部130は、トリガーワードを受信すると、コマンド音ミュート部160に対し、デジタル音データの出力をミュート状態に切り替えるミュート信号を送信する。
【0018】
[音声制御部140]
音声制御部140は、音声認識部130から送信されたディレイ信号に応じて、ADコンバーター120より送信されたデジタル音データの出力を遅らせるディレイ機能を有する。また、音声制御部140は、ディレイを行った際、遅らせた分のパケット数に関するディレイ情報を音声判定部150に送信する。更に、音声制御部140は、音声判定部150から送信された無音圧縮指示信号に応じて、無音声部分のディレイパケットを削除し、後述する無音声圧縮を行う。また、音声制御部140は、削除したディレイパケットに関するディレイ情報を音声判定部150に送信する。音声制御部140は、後述するコマンド音ミュート部160とともに、出力制御部146を構成する。
【0019】
[音声判定部150]
音声判定部150は、ADコンバーター120より、人の音声に関するデジタル音データが送信されてきているか否かを判定する機能を有する。
【0020】
音声判定部150は、音声制御部140より上述したディレイ情報を受信しており、蓄積されたディレイパケット数を適宜更新する。音声判定部150は、蓄積されたディレイが残っている状態で、且つADコンバーター120から人の音声についてのデジタル音データが送信されてきていない、即ち無音声状態であると判断した場合、音声判定部150は、音声制御部140に無音声圧縮を指示する無音圧縮指示信号を送信する。
【0021】
また、コマンド音ミュート部160がミュート状態にあり、且つ無音声状態がある一定時間以上経過した場合、コマンド音ミュート部160に対して出力をオン状態にするミュート解除信号を送付する。
【0022】
[コマンド音ミュート部160]
コマンド音ミュート部160は、音声認識部130から送信されてきたミュート信号に応じて、音声制御部140から送信されてきたデジタル音データの出力をミュート状態に切り替える。また、コマンド音ミュート部160は、音声判定部150から送信されてきたミュート解除信号に応じて、音声制御部140から送信されてきたデジタル音データの出力をオン状態に切り替える。
【0023】
コマンド音ミュート部160は、上述した音声制御部140とともに、出力制御部146を構成する。
【0024】
[通信機器190]
通信機器190は、コマンド音ミュート部160がデジタル音データを出力する場合、ネットワーク400を介して、第2の音声端末200に接続された通信機器290にデジタル音データを送信する。また、第2の音声端末200から送信されたデジタル音データを、ネットワーク400を介して受信し、第1の音声端末100内のDAコンバーター180に送信する。
【0025】
なお、通信機器190は、例えば第1の音声端末100に接続されたパーソナルコンピューター等で構成してもよく、第1の音声端末100に内蔵される構成としてもよい。
【0026】
[DAコンバーター180]
DAコンバーター180は、第2の音声端末200から送信されたデジタル音データをアナログ音データに変換する。アナログ音データは、スピーカー186より出力され、第1の音声端末100が配置された会議室にいる参加者が、第2の音声端末200が配置された会議室にいる発話者の音声を聞くことができる。
【0027】
なお、スピーカー186は、第1の音声端末100に内蔵される構成としてもよく、第1の音声端末100に外部接続される構成としてもよい。
【0028】
[各種制御部170]
各種制御部170は、音声認識部130から送信されてきたコマンド信号を用いて、スピーカー186の音量の調整や、収音部110における音声入力の受付可否の切り替えを行う等、第1の音声端末100に対する各種パラメーター制御を行う。
【0029】
[第2の音声端末200]
第2の音声端末200は、第2の音声端末200が配置された会議室にいる発話者の音声を収音する収音部210を有する。収音部210により収音された発話者の音データは、ADコンバーター220に送信され、ADコンバーター220にて、デジタル音データに変換される。デジタル音データは、第2の音声端末200に接続された通信機器290によって、ネットワーク400を介して第1の音声端末100に送信される。なお、第2の音声端末200が収音部210を含まず、第2の音声端末200の外部に配置された収音部210と接続される構成としても構わない。
【0030】
また、通信機器290は、第1の音声端末100から送信されたデジタル音データを、ネットワーク400を介して受信し、第2の音声端末200内のDAコンバーター280に送信する。なお、通信機器290は、例えば第2の音声端末200に接続されたパーソナルコンピューター等で構成してもよく、第2の音声端末200に内蔵される構成としてもよい。
【0031】
DAコンバーター280は、第1の音声端末100から送信されたデジタル音データをアナログ音データに変換する。アナログ音データは、スピーカー286より出力され、第2の音声端末200が配置された会議室にいる参加者が、第1の音声端末100が配置された会議室にいる発話者の音声を聞くことができる。
【0032】
なお、スピーカー286は、第2の音声端末200が内蔵する構成としてもよく、第2の音声端末200に外部接続される構成としてもよい。
【0033】
[第1の音声端末の制御方法]
図2は、本実施形態に係る第1の音声端末100の制御方法を示すフローチャートである。
図3は、本実施形態に係る第1の音声端末100の無音声圧縮方法を示すフローチャートである。以下、
図2、3を用いて、本実施形態に係る第1の音声端末100の制御方法について説明する。
【0034】
[収音ステップS101]
図2に示すように、まず収音ステップS101が行われる。この収音ステップS101においては、第1の音声端末100が配置された会議室にいる発話者の音声を、第1の音声端末100に含まれる収音部110が収音し、アナログ音データを生成することにより行われる。
【0035】
[デジタル音データ入力ステップS102]
次に、デジタル音データ入力ステップS102が行われる。デジタル音データ入力ステップS102において、収音部110により生成されたアナログ音データは、ADコンバーター120に送信され、ADコンバーター120にて、デジタル音データに変換される。
【0036】
ADコンバーター120から送信されたデジタル音データは、第1の音声端末100に含まれる、音声認識部130、音声制御部140、及び音声判定部150に入力される。
【0037】
[トリガーワードの最初の音素の有無判定ステップS103]
次に、トリガーワードの最初の音素の有無判定ステップS103が行われる。トリガーワードとは、音声認識部130に、デジタル音データからコマンド信号を生成させるためのキーワードであり、例えば、「OK,(機器名)」や、「Hey,(機器名)」などが挙げられる。トリガーワードが「OK,(機器名)」(音素の並び:OW K EY)の場合は「OW」が、トリガーワードが「Hey,(機器名)」(音素の並び:HH EY)の場合「HH」が、トリガーワードの最初の音素となる。
【0038】
まず、音声認識部130は、受信したデジタル音データをテキストデータに変換する。即ち、音声認識部130は、デジタル音データの音声認識を行う。その結果、音声認識部130が、受信したデジタル音データから生成したテキストデータの中に、トリガーワードの最初の音素を認識した場合、音声認識部130は、音声制御部140に対して、デジタル音データの出力を遅延させることを指示するディレイ信号を送信する。このディレイ信号の送信により、制御フローは次のディレイステップS104に移行する。なお、音声認識部130がトリガーワードの最初の音素を認識しなかった場合、フローはデジタル音データ出力ステップS115に移行し、ADコンバーター120から出力されたデジタル音データが、音声制御部140から出力される。
【0039】
なお、本実施形態においては、音声認識部130が、デジタル音データから生成したテキストデータの中から、トリガーワードの最初の音素が含まれているか否かを判断する例を示したが、本開示はこの例に限定されない。例えば、音声認識部130が、トリガーワードの二つ目の音素までが、デジタル音データに含まれているか否かを判断する方法としてもよく、あるいは、音声認識部130が、トリガーワードに含まれる特定の音節、単語が、デジタル音データに含まれているか否かを判断する方法としてもよい。
【0040】
[ディレイステップS104]
次に、ディレイステップS104が行われる。音声制御部140は、トリガーワードの最初の音素を認識した音声認識部130から送信されたデジタル音データの出力を遅延させることを指示するディレイ信号を受信する。このディレイ信号を受信した音声制御部140は、ADコンバーター120から受信したデジタル音データの出力を遅延させた上で、コマンド音ミュート部160にデジタル音データを出力する。即ち、音声認識部130から送信されたディレイ信号により、出力制御部146内のデジタル音データの伝達が遅延される。
【0041】
また、音声制御部140がディレイを行った際、遅らせた分のパケット数に関するディレイ情報を、後述するディレイパケット数送信ステップS113において、音声判定部150に出力する。これにより、音声判定部150には、現在どれだけのディレイが生じているのかを認識することができる。
【0042】
[トリガーワードの有無判定ステップS105]
上述したトリガーワードの最初の音素の有無判定ステップS103において、音声認識部130が、トリガーワードの最初の音素がデジタル音データに含まれていると判断したとしても、最初の音素だけがトリガーワードと共通した、トリガーワード以外の音声が発話者から発せられている可能性がある。従って、このトリガーワードの有無判定ステップS105においては、音声認識部130が、トリガーワードの最初の音素のみならず、実際にトリガーワードが発せられたか否かを判定する。
【0043】
音声認識部130が、デジタル音データから生成したテキストデータの中から、トリガーワードを認識した場合、音声認識部130は、コマンド音ミュート部160に対し、デジタル音データの出力をミュート状態にさせるミュート信号を送信する。その後、制御フローはミュートステップS106に移行する。
【0044】
また、音声認識部130が、デジタル音データから生成したテキストデータの中から、トリガーワードを認識しなかった場合は、音声認識部130は、音声制御部140に対して、ディレイを停止することを指示するディレイ停止信号を送信し、制御フローはディレイ停止ステップS112に移行する。
【0045】
本実施形態においては、まず音声認識部130がトリガーワードを認識した場合のミュートステップS106について説明し、ディレイ停止ステップS112については後述する。
【0046】
[ミュートステップS106]
ミュートステップS106においては、コマンド音ミュート部160が、音声認識部130から、デジタル音データの出力のミュート状態にさせる制御信号であるミュート信号を受信する。このミュート信号を受信したコマンド音ミュート部160は、音声制御部140から送信されてきたデジタル音データの出力をミュート状態とする。ミュート状態とする方法としては適宜選択すればよく、例えば出力をオフ状態にする、又はコマンド音ミュート部160にキャッシュされているデジタル音データを削除するなどを行うことができる。
【0047】
このような制御方法とすることにより、発話者が、音声コマンドで操作する際の音声を、通話相手側、即ち第2の音声端末200に送信しない構成を実現することができる。
【0048】
このミュートステップS106の後、制御フローは蓄積ディレイ削除ステップS107に移行する。
【0049】
[蓄積ディレイ削除ステップS107]
蓄積ディレイ削除ステップS107においては、音声制御部140が、デジタル音データ出力のディレイを停止し、ミュート状態となっているコマンド音ミュート部160に対して、デジタル音データの出力を開始する。更に、音声制御部140が、ディレイステップS104からディレイさせていたデジタル音データをすべて削除する。
【0050】
このような制御方法とすることにより、ディレイステップS104から蓄積されてきたディレイを削除することができ、後述するミュート解除ステップS111後の発話者の音データを、第2の音声端末200に対してリアルタイムに近い状態で伝えることが可能となる。
【0051】
[コマンド音声認識ステップS108]
次に、制御フローは、コマンド音声認識ステップS108に移行する。
【0052】
音声認識部130は、ADコンバーター120より送信されたデジタル音データの認識処理を行い、デジタル音データからテキストデータを生成する。音声認識部130は、この音声認識処理により生成したテキストデータと、予め記憶しているコマンド信号生成用データとを用いて、コマンド信号を生成する。
【0053】
コマンド信号生成用データは、複数の音素(又は音節、単語)に関するデータと、コマンド信号と複数の音素(又は音節、単語)の並びとを対応付けるデータとを含む。音声認識部130は、デジタル音データから生成したテキストデータの音素解析(又は音節解析、単語解析)を行い、この音素解析から得られた音素(又は音節、単語)の並びと一致する、又は類似するデータをコマンド信号生成用データの中から抽出し、これに対応付けられたコマンド信号を生成する。
【0054】
音声認識部130が生成するコマンド信号は、例えば、スピーカー186の音量の調整や、収音部110における音声入力の受付可否の切り替えを、各種制御部170に対して指示する信号等である。音声認識部130は、生成したコマンド信号を、各種制御部170に送信する。
【0055】
コマンド信号を受信した各種制御部170は、音声認識部130から送信されてきたコマンド信号を用いて、スピーカー186の音量の調整や、収音部110における音声入力の受付可否の切り替え等を行うなど、第1の音声端末100のパラメーター制御を行う。
【0056】
[コマンド音声認識完了判定ステップS109]
コマンド音声認識完了判定ステップS109においては、音声認識部130又は音声判定部150が、発話者からの音声コマンドの入力が完了又は途中で終了したか否かを判定する。
【0057】
第1の例としては、音声認識部130が、ADコンバーター120から受信したデジタル音データが、予め用意されているコマンド信号生成用データと一致すると判断した時に、音声認識部130が、音声コマンドの入力が完了したと判定する。この時、制御フローは、第1の音声端末制御ステップS110、及びミュート解除ステップS111に移行する。
【0058】
第2の例としては、音声判定部150が、ADコンバーター120からのデジタル音データが送信されてこない状態、即ち無音声状態が一定時間以上継続したと判断した場合には、音声判定部150が、発話者からの音声コマンドの入力が途中で終了したと判断し、制御フローは、ミュート解除ステップS111に移行する。
【0059】
音声認識部130及び音声判定部150が、発話者からの音声コマンドの入力が完了又は途中で終了したと判断していない状態においては、制御フローはコマンド音声認識ステップS108に戻り、音声認識部130による音声認識が継続される。
【0060】
[第1の音声端末制御ステップS110]
第1の音声端末制御ステップS110においては、コマンド信号を受信した各種制御部170が、コマンド信号に応じた処理を行う。
【0061】
例えば、音声認識部130から送信されたコマンド信号に応じて、スピーカー186の音量の調整や、収音部110における音声入力の受付可否の切り替えを行う。
【0062】
[ミュート解除ステップS111]
ミュート解除ステップにおいては、音声判定部150又は音声認識部130が、ミュートステップS106よりミュート状態にある、コマンド音ミュート部160のミュートを解除するミュート解除信号を送信する。これは、発話者からの音声コマンドの入力が終了したと判断した音声判定部150又は音声認識部130が、コマンド音ミュート部160のミュートを解除することにより、その後の発話者からの音声に関するデジタル音データを、第2の音声端末200に向けて出力することができるようになる。
【0063】
この、第1の音声端末制御ステップS110とミュート解除ステップS111を経て、制御フローは終了し、収音ステップS101に戻る。
【0064】
[ディレイ停止ステップS112]
次に、ディレイ停止ステップS112について説明する。上述したトリガーワードの有無判定ステップS105において、音声認識部130が、デジタル音データの中からトリガーワードを認識しなかった場合、音声認識部130は、音声制御部140に対して、ディレイを停止することを指示するディレイ停止信号を送信する。
【0065】
即ち、デジタル音データの中にトリガーワードが含まれていなかった場合には、第2の音声端末200とのリアルタイムに近い音声会議を実現するために、ディレイステップS104から継続している音声制御部140のディレイを停止する。
【0066】
[ディレイパケット数送信ステップS113]
次に、音声制御部140は、ディレイパケット数送信ステップS113を実行する。このディレイパケット数送信ステップS113においては、上述したディレイ停止ステップS112においてディレイを停止した音声制御部140が、ディレイステップS104からディレイ停止ステップS112までのディレイパケット数Dpnに関するディレイ情報を音声判定部150に送信する。
【0067】
[総ディレイパケット更新ステップS114]
次に、総ディレイパケット更新ステップS114において、ディレイパケット数Dpnに関するディレイ情報を受信した音声判定部150は、総ディレイパケット数DpにDpnを加算し、総ディレイパケット数Dpを更新する。
【0068】
[デジタル音データ出力ステップS115]
音声制御部140から出力されたデジタル音データは、コマンド音ミュート部160を通過し、通信機器190に送信される。通信機器190は、ネットワーク400を介して、通信機器290にデジタル音データを送信する。通信機器290は、第1の音声端末100から送信されたデジタル音データを、ネットワーク400を介して受信し、第2の音声端末200内のDAコンバーター280に送信する。DAコンバーター280は、第1の音声端末100から送信されたデジタル音データをアナログ音データに変換する。アナログ音データは、スピーカー286より出力され、第2の音声端末200が配置された会議室にいる参加者が、第1の音声端末100が配置された会議室にいる発話者の音声を聞くことができる。
【0069】
この、デジタル音データ出力ステップS115を経て、制御フローは終了し、収音ステップS101に戻る。
【0070】
なお、以下に説明する無音声圧縮方法を利用することにより、第1の音声端末100と第2の音声端末200との間における音データ通信を、更にリアルタイムに近づけることが可能となる。
【0071】
[無音声圧縮方法]
以下、
図3を用いて、本開示の第1の音声端末100における無音声圧縮方法について説明する。この無音声圧縮フローは、
図2に示したデジタル音データ入力ステップS102とトリガーワードの最初の音素の有無判定ステップS103との間に含めることができる。
【0072】
[総ディレイパケット数判定ステップS201]
デジタル音データ入力ステップS102の後に、音声判定部150は、総ディレイパケット数判定ステップS201を行う。
【0073】
この総ディレイパケット数判定ステップS201において、音声判定部150は、現時点での総ディレイパケット数が0よりも大きいか否かを判定する。
【0074】
総ディレイパケット数が0の場合、無音声圧縮を行う必要はないため、制御フローは、
図2を用いて上述した、トリガーワードの最初の音素の有無判定ステップS103に移行する。
【0075】
総ディレイパケット数が0より大きい場合、制御フローは音声有無判定ステップS202に移行する。
【0076】
[音声有無判定ステップS202]
音声有無判定ステップS202においては、音声判定部150が、デジタル音データについて周波数分析を行うことにより、単なる雑音と人の声とを判別し、人の音声が発せられたか否かを判定する。具体例としては、音声判定部150は、デジタル音データを時間領域から周波数領域に変換し、人の声の周波数として適切な所定の範囲内(例えば0.2kHz〜4kHz)に含まれるデジタル音データを人の声と判断し、所定の範囲に含まれないデジタル音データは雑音であると判断する。
【0077】
デジタル音データに人の音声が含まれている場合、無音声圧縮を行うことができないため、制御フローはトリガーワードの最初の音素の有無判定ステップS103に移行する。
【0078】
デジタル音データに人の音声が含まれていない場合、無音声圧縮を実行することが可能であるため、制御フローは、無音声部分パケット削除ステップS203に移行する。
【0079】
[無音声部分パケット削除ステップS203]
無音声部分パケット削除ステップS203において、音声判定部150は、音声制御部140に無音声圧縮を指示する無音圧縮指示信号を送信する。この無音圧縮指示信号を受信した音声制御部140は、この無音圧縮指示信号に応じて、無音声部分のパケットを削除する。無音性部分のパケットを削除した音声制御部140は、音声判定部150に、削除したディレイパケット数Dpmに関するディレイ情報を送信する。
【0080】
[総ディレイパケット数更新ステップS204]
音声制御部140から、削除されたディレイパケット数Dpmに関するディレイ情報を受け取った音声判定部150は、総ディレイパケット数更新ステップS204を行う。総ディレイパケット数更新ステップS204において、音声判定部150は、総ディレイパケット数DpからDpmを減算し、総ディレイパケット数Dpを更新する。
【0081】
その後、制御フローはデジタル音データ入力S102へと移行する。その後、総ディレイパケット数判定ステップS201において、総ディレイパケット数が0と判断されるか、音声有無判定ステップS202において、デジタル音データに人の音声が含まれていると判断されるまで、デジタル音データ入力S102から総ディレイパケット数更新ステップS204までのフローが繰り返される。
【0082】
[第2の実施形態]
本開示の第2の実施形態について、図面を用いて以下に説明する。なお、第1の実施形態と同様の構成については、同じ符号を付して、その説明を省略する。
【0083】
[音声コマンド生成システム300A]
図4は、本実施形態に係る音声コマンド生成システム300Aの概念図である。音声コマンド生成システム300Aに含まれる第1の音声端末100Aは、音声認識部130の代わりに、トリガーワード判定部510、ネットワーク通信部520を含み、音声コマンド生成システム300Aは、サーバー530を備えている。また、ADコンバーター120から出力されるデジタル音データは、音声制御部140、音声判定部150、トリガーワード判定部510、及びネットワーク通信部520に送信される。
【0084】
[トリガーワード判定部510]
トリガーワード判定部510は、ADコンバーター120から送信されたデジタル音データに含まれたトリガーワードの少なくとも最初の一部を受信すると、音声制御部140に対して、デジタル音データの出力を遅延させることを指示するディレイ信号を送信する。
【0085】
また、トリガーワード判定部510は、トリガーワードを受信すると、コマンド音ミュート部160に対し、音声制御部140から送信されるデジタル音データの出力をミュート状態に切り替えるミュート信号を送信する。
【0086】
更に、トリガーワード判定部510は、トリガーワードを受信すると、ネットワーク通信部520に対し、トリガーワードの後に発せられたコマンド音声に関するデジタル音データをサーバー530へ送信することを指示する制御信号を送信する。
【0087】
なお、トリガーワード判定部510は、デジタル音データからコマンド信号を生成するためのコマンド信号生成用データを記憶している必要はない。即ち、本実施形態においては、トリガーワード判定部510は、トリガーワードの有無を判定するために、デジタル音データをテキストデータに変換する音声認識処理を行うが、この音声認識処理により生成したテキストデータを用いて、コマンド信号の生成を行う必要はない。
【0088】
なお、このトリガーワード判定部510が、音声認識処理自体を行わず、後述するサーバー530が音声認識処理を行い、トリガーワード判定部510は、サーバー530が音声認識処理により生成したテキストデータをネットワーク通信部520を介して取得し、当該テキストデータを用いて、トリガーワードの有無を判定する構成としてもよい。
【0089】
[ネットワーク通信部520]
ネットワーク通信部520は、ADコンバーター120から受信したコマンド音声に関するデジタル音データ(トリガーワード判定部510が音声認識処理を行う場合は、デジタル音データから生成されたテキストデータ)を、第1の音声端末100Aの外部に設けられたサーバー530に送信する。
【0090】
また、ネットワーク通信部520は、サーバー530から送信されてきたコマンド信号を受信し、そのコマンド信号を各種制御部170に送信する。なお、サーバー530との接続は、有線・無線どちらの形態でも構わない。
【0091】
[サーバー530]
サーバー530は、クラウドサーバー、社内サーバーなどであり、デジタル音データからコマンド信号を生成するためのコマンド信号生成用データを記憶する。
【0092】
サーバー530は、ネットワーク通信部520より送信されたデジタル音データを受信し、当該デジタル音データの音声認識処理を行い、テキストデータを生成する。なお、トリガーワード判定部510が音声認識処理を行う場合は、トリガーワード判定部510により生成されたテキストデータを、ネットワーク通信部520を介して取得する。
【0093】
サーバー530は、上述したコマンド信号生成用データと、デジタル音データより生成されたテキストデータとを用いて、コマンド信号を生成し、このコマンド信号を、ネットワーク通信部520に送信する。
【0094】
このように、コマンド信号生成機能を有するサーバー530を利用した構成とすることにより、トリガーワード判定部510がコマンド信号生成用データを記憶せず、コマンド信号を生成しない構成を実現することができる。
【0095】
なお、本実施形態においては、トリガーワード判定部510が、第1の音声端末100Aに含まれる構成を例に挙げて説明したが、サーバー530側にトリガーワード判定部510が含まれる構成としてもよい。サーバー530側にトリガーワード判定部510が含まれる場合、トリガーワード判定部510は、ネットワーク通信部520を介して、第1の音声端末100に含まれる各部と、音データ及び各種信号の送受信を行う。
【0096】
[第1の音声端末100Aの制御方法]
本実施形態における第1の音声端末100Aの制御方法が、第1の実施形態と異なるのは、
図2に示したコマンド音声認識ステップS108の部分である。それ以外のステップについては、
図2、
図3を用いて第1の実施形態において上述した通りであるため、その説明を割愛する。
【0097】
なお、第1の実施形態において説明した、デジタル音データ入力ステップS102からミュートステップS106までのステップ、コマンド音声認識完了判定ステップS109、及びディレイ停止ステップS112において、音声認識部130が行う制御は、第2の実施形態においてはトリガーワード判定部510が行う。また、第1の実施形態における第1の音声端末制御ステップS110の、「音声認識部130から送信されたコマンド信号」との表現は、第2の実施形態においては、「ネットワーク通信部520から送信されたコマンド信号」に読み替えるものとする。
【0098】
本実施形態においては、このコマンド音声認識ステップS108が、
図5に示す5つのステップによって行われる。本実施形態における第1の音声端末100Aの音声認識ステップを示すフローチャートである。以下、
図5を用いて、本実施形態における第1の音声端末100Aの音声認識ステップについて説明する。
【0099】
[ネットワーク通信部へのデジタル音データ送信ステップS301]
トリガーワード判定部510は、ADコンバーター120から受信したデジタル音声データの中にトリガーワードが含まれていると判断すると、ネットワーク通信部520へのデジタル音データ送信ステップS301を行う。このステップにおいて、トリガーワード判定部510は、ネットワーク通信部520に対し、トリガーワードの後に発せられたコマンド音声に関するデジタル音データをサーバー530へ送信することを指示する制御信号を送信する。なお、トリガーワード判定部510が音声認識を行う場合は、このステップS301において、トリガーワード判定部510が、デジタル音データから生成したテキストデータをネットワーク通信部520へ送信する。
【0100】
[サーバーへのデジタル音データ送信ステップS302]
次に、ネットワーク通信部520が、サーバーへのデジタル音データ送信ステップS302を行う。ネットワーク通信部520は、ネットワーク400を介して、サーバー530にコマンド音声に関するデジタル音データを送信する。
【0101】
[コマンド信号生成ステップS303]
ネットワーク通信部520から、コマンド音声に関するデジタル音データを受信したサーバー530は、コマンド信号生成ステップS303を行う。
【0102】
サーバー530は、クラウドサーバー、社内サーバーなどであり、デジタル音データからコマンド信号を生成するためのコマンド信号生成用データを記憶している。
【0103】
サーバー530は、ネットワーク通信部520より送信されたデジタル音データを受信し、当該デジタル音データについての音声認識処理を行い、テキストデータを生成する。なお、トリガーワード判定部510が音声認識処理を行う場合は、トリガーワード判定部510により生成されたテキストデータを、ネットワーク通信部520を介して取得する。サーバー530は、上述したコマンド信号生成用データと、デジタル音データより生成されたテキストデータとを用いて、コマンド信号を生成する。
【0104】
その後、制御フローは、ネットワーク通信部へのコマンド信号送信ステップS304へ移行する。
【0105】
[ネットワーク通信部へのコマンド信号送信ステップS304]
デジタル音データから生成されたテキストデータを用いて、コマンド信号を生成したサーバー530は、コマンド信号を、ネットワーク400を介してネットワーク通信部520に送信する。
【0106】
その後、制御フローは、各種制御部へのコマンド信号送信ステップS305へ移行する。
【0107】
[各種制御部へのコマンド信号送信ステップS305]
ネットワーク400を介してコマンド信号を受信したネットワーク通信部520は、各種制御部170へ、コマンド信号を送信する。
【0108】
コマンド信号を受信した各種制御部170は、サーバー530から送信されてきたコマンド信号を用いて、スピーカー186の音量の調整や、収音部110における音声入力の受付可否の切り替え等を行うなど、第1の音声端末100のパラメーター制御を行う。
【0109】
その後、制御フローは、第1の実施形態において説明した、コマンド音声認識完了判定ステップS109に移行する。