【課題を解決するための手段】
【0005】
本発明は、上記の課題を解決するために、音声制御システムのウェイクアップ方法を提供する。当該音声制御システムのウェイクアップ方法は、
音声情報を収集する、収集ステップと、
前記音声情報を処理して前記音声情報に人間の声を含むかどうかを判定し、含んでいる場合、人間の声を含む音声情報セグメントを分離して、認識ステップに移行する、処理ステップと、
人間の声を含む音声情報セグメントに対して、ウェイクアップワードの認識を行い、ウェイクアップワードが認識された場合、ウェイクアップステップに移行し、ウェイクアップワードが認識されない場合、前記収集ステップに戻る、認識ステップと、
音声認識プロセッサをウェイクアップする、ウェイクアップステップと、を含む。
【0006】
いくつかの実施例では、好ましくは、前記音声情報は、異なる期間に収集された複数の音声情報セグメントから構成され、全ての前記期間が繋がって完全かつ連続的なタイムチェーンになり、及び/又は、
前記収集ステップは、
アナログ信号フォーマットの音声情報を収集することと、
前記アナログ信号フォーマットの音声情報をデジタル変換してデジタル信号フォーマットの音声情報を得ることと、を含む。
【0007】
いくつかの実施例では、好ましくは、前記ウェイクアップステップの前に、前記ウェイクアップ方法は、ウェイクアップワード音声モデルを構築することをさらに含み、
前記認識ステップは、人間の声を含むデータを前記ウェイクアップワード音声モデルと照合し、照合が成功した場合、ウェイクアップワードが認識されたと判定し、照合が成功しなかった場合、ウェイクアップワードが認識されないと判定すること、を含む。
【0008】
いくつかの実施例では、好ましくは、前記の、ウェイクアップワード音声モデルを構築することは、
何人かの人間のウェイクアップ音声データを収集することと、
全ての前記ウェイクアップ音声データを処理して、トレーニングするにより、ウェイクアップワードモデルを得ることと、を含む。
【0009】
いくつかの実施例では、好ましくは、前記の、ウェイクアップワード音声モデルを構築することは、
オフライン状態で、様々な環境で録音された発話者からのウェイクアップワードを収集し、フレーム分割処理を行うことと、
フレーム分割の後、特徴パラメータを抽出することと、
前記特徴パラメータに対してクラスタリングを行って、隠れマルコフモデルHMM(Hidden Markov Model)の観測状態を確立することと、
Baum-Welchアルゴリズムにより隠れマルコフモデルHMMのパラメータを調整して、P(σ|λ)(ただし、λはモデルパラメータであり、σは観察状態である)を最大化し、モデルパラメータλを調整して、観察状態σの最大確率を得て、モデルトレーニングを完成させて、ウェイクアップワード音声モデルを記憶することと、を含む。
【0010】
前記認識ステップは、
人間の声を含むデータの音声フレームから特徴パラメータを抽出して、新しい観察値σ'の集合を新しい観察状態として得て、P(σ'|λ)を計算することと、
P(σ'|λ)を信頼閾値と比較して、ウェイクアップワードが認識されたかどうかを得ることと、を含む。
【0011】
いくつかの実施例では、好ましくは、前記処理工程は、
非ガウス値の最大である音声信号を分離するように、デジタル信号フォーマットの前記音声情報に対してブラインド音源分離処理を行う、第1の分離ステップと、
エネルギー閾値により前記音声信号に人間の声を含んでいるかどうかを判定し、エネルギー閾値を超える場合、人間の声を含んでいると判定して、第2の分離ステップに移行し、エネルギー閾値を超えない場合、人間の声を含んでいないと判定して、前記収集ステップに移行する、判定ステップと、
人間の声を含む音声情報を分離し、人間の声を含む音声情報セグメントを得る、第2の分離ステップと、を含む。
【0012】
いくつかの実施例では、好ましくは、前記第1の分離ステップにおいて、前記ブラインド音源分離処理が採用する方法は、負のエントロピーの最大化、4次の統計量の尖度、又は時間-周波数変換に基づいた独立成分分析のICAアルゴリズムである。
【0013】
また、本発明の他の態様は、コプロセッサを提供する。当該コプロセッサは、
収集された音声情報を処理して音声情報に人間の声を含むかどうかを判定し、含んでいる場合、人間の声を含む音声情報セグメントを分離するための、処理モジュールと、
前記処理モジュールによって分離された、人間の声を含む音声情報セグメントに対して、ウェイクアップワードの認識を行い、ウェイクアップワードが認識された場合、ウェイクアップコマンドを生成するための、認識モジュールと、
前記ウェイクアップコマンドに従って、音声認識プロセッサをウェイクアップするための、ウェイクアップモジュールと、を含む。
【0014】
いくつかの実施例では、好ましくは、前記処理モジュールは、分離ユニット、判定ユニットを含み、
前記分離ユニットは、非ガウス値の最大である音声信号を分離するように、デジタル信号フォーマットの前記音声情報に対してブラインド音源分離処理を行うためのものであり、
前記判定ユニットは、エネルギー閾値により前記音声信号に人間の声を含んでいるかどうかを判定し、エネルギー閾値を超える場合、人間の声を含む音声情報を分離して、人間の声を含む音声情報セグメントを得るためのものである。
【0015】
いくつかの実施例では、好ましくは、前記認識モジュールは、認識ユニット、記憶ユニットを含み、
前記記憶ユニットは、ウェイクアップワードモデルを記憶するためのものであり、
前記認識ユニットは、前記判定ユニットにより分離された人間の声を含む音声情報セグメント、と前記記憶ユニットに記憶されている前記ウェイクアップワードモデルに対してウェイクアップワードの照合を行い、照合が成功した場合、ウェイクアップコマンドを生成するためのものである。
【0016】
いくつかの実施例では、好ましくは、前記ウェイクアップワード音声モデルの構築は、
何人かの人間のウェイクアップ音声データを収集することと、
全ての前記ウェイクアップ音声データを処理して、トレーニングすることにより、ウェイクアップワードモデルを得ることと、を含む。
【0017】
いくつかの実施例では、好ましくは、前記の、ウェイクアップワード音声モデルを構築することは、
オフライン状態で、様々な環境で録音された発話者からのウェイクアップワードを収集し、フレーム分割処理を行うことと、
フレーム分割の後、特徴パラメータを抽出することと、
前記特徴パラメータに対してクラスタリングを行って、隠れマルコフモデルHMM(Hidden Markov Model)の観測状態を確立することと、
Baum-Welchアルゴリズムにより隠れマルコフモデルHMMのパラメータを調整して、P(σ|λ)(ただし、λはモデルパラメータであり、σは観察状態である)を最大化し、モデルパラメータλを調整して、観察状態σの最大確率を得て、モデルトレーニングを完成させて、ウェイクアップワード音声モデルを記憶することと、を含む。
【0018】
前記認識ステップは、
人間の声のデータを含む音声フレームから特徴パラメータを抽出して、新しい観察値σ'の集合を新しい観察状態として得て、P(σ'|λ)を計算することと、
P(σ'|λ)を信頼閾値と比較して、ウェイクアップワードが認識されたかどうかを得ることと、を含む。
【0019】
また、本発明の別の態様は、音声制御システムのウェイクアップ装置を提供する。当該音声制御システムのウェイクアップ装置は、音声収集アセンブリ、及び前記のコプロセッサを含み、そのうち、
前記音声収集アセンブリは音声情報を収集するためのものであり、
前記コプロセッサは、前記音声収集アセンブリにより収集された前記音声情報を処理して前記音声情報に人間の声を含むかどうかを判定し、含んでいる場合、人間の声を含む音声情報セグメントを分離して、人間の声を含む音声情報セグメントに対してウェイクアップワードの認識を行い、ウェイクアップワードが認識された場合、音声認識アセンブリをウェイクアップするためのものである。
【0020】
いくつかの実施例では、好ましくは、前記音声収集アセンブリは、音声収集モジュール、及びA/D変換モジュールを含み、
前記音声収集モジュールは、アナログ信号フォーマットの音声情報を収集するためのものであり、
前記A/D変換モジュールは、前記アナログ信号フォーマットの音声情報をデジタル変換して、デジタル信号フォーマットの音声情報を得るためのものである。
【0021】
また、本発明の別の態様は、音声制御システムを提供する。当該音声制御システムは、音声認識アセンブリ、及び前記のウェイクアップ装置を含み、前記音声認識アセンブリが、前記ウェイクアップ装置のコプロセッサに接続され、
前記音声認識アセンブリは、動作アクティブ状態の際、音声認識のために使用され、音声認識後、非動作の休眠状態に入り、
前記音声認識アセンブリの前記非動作の休眠状態から前記動作アクティブ状態への切り替えは、前記コプロセッサによりウェイクアップされる。
【0022】
いくつかの実施例では、好ましくは、前記音声認識アセンブリは、前記動作アクティブ状態から前記非動作の休眠状態への切り替えの前に、待ち状態に入る。
【0023】
設定された期間内に、前記音声認識アセンブリがウェイクアップされていない場合、前記非動作の休眠状態に入り、前記音声認識アセンブリがウェイクアップされた場合、前記動作アクティブ状態に入る。
【0024】
また、本発明の他の態様は、スマート家電製品を提供する。当該スマート家電製品は、前記音声制御システム、及び家電製品本体を含み、前記家電製品本体が、前記音声制御システムに接続される。