特許第6099556号(P6099556)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ▲華▼▲為▼終端有限公司の特許一覧

<>
  • 特許6099556-音声識別方法および装置 図000010
  • 特許6099556-音声識別方法および装置 図000011
  • 特許6099556-音声識別方法および装置 図000012
  • 特許6099556-音声識別方法および装置 図000013
  • 特許6099556-音声識別方法および装置 図000014
  • 特許6099556-音声識別方法および装置 図000015
  • 特許6099556-音声識別方法および装置 図000016
  • 特許6099556-音声識別方法および装置 図000017
  • 特許6099556-音声識別方法および装置 図000018
  • 特許6099556-音声識別方法および装置 図000019
  • 特許6099556-音声識別方法および装置 図000020
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6099556
(24)【登録日】2017年3月3日
(45)【発行日】2017年3月22日
(54)【発明の名称】音声識別方法および装置
(51)【国際特許分類】
   G10L 15/08 20060101AFI20170313BHJP
   G10L 15/10 20060101ALI20170313BHJP
【FI】
   G10L15/08 300Z
   G10L15/10 300G
【請求項の数】11
【全頁数】24
(21)【出願番号】特願2013-266716(P2013-266716)
(22)【出願日】2013年12月25日
(65)【公開番号】特開2014-142627(P2014-142627A)
(43)【公開日】2014年8月7日
【審査請求日】2013年12月25日
(31)【優先権主張番号】201310027326.9
(32)【優先日】2013年1月24日
(33)【優先権主張国】CN
【前置審査】
(73)【特許権者】
【識別番号】512165101
【氏名又は名称】▲華▼▲為▼終端有限公司
【氏名又は名称原語表記】HUAWEI DEVICE CO., LTD.
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100091214
【弁理士】
【氏名又は名称】大貫 進介
(72)【発明者】
【氏名】▲蒋▼ 洪睿
(72)【発明者】
【氏名】王 ▲細▼勇
(72)【発明者】
【氏名】梁 俊斌
(72)【発明者】
【氏名】▲鄭▼ ▲偉▼▲軍▼
(72)【発明者】
【氏名】周 均▲揚▼
【審査官】 安田 勇太
(56)【参考文献】
【文献】 再公表特許第2010/128560(JP,A1)
【文献】 特開2003−202887(JP,A)
【文献】 特開2003−241788(JP,A)
【文献】 特開2001−075595(JP,A)
【文献】 国際公開第2011/070972(WO,A1)
【文献】 特開2003−177781(JP,A)
【文献】 国際公開第2011/122522(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00 −15/34
(57)【特許請求の範囲】
【請求項1】
音声識別装置によって実行される音声識別方法であって:
音声データを取得する段階と;
前記音声データの音声識別結果および前記音声データに基づく前記音声識別結果の第一の信頼値を取得する段階と;
前記音声データに従ってノイズ・シナリオを取得する段階であって、前記ノイズ・シナリオは、ノイズ型およびノイズ大きさを含み、前記ノイズ型は前記音声データを入力しているときにユーザーが位置しているノイズ環境を示し、前記ノイズ大きさは、前記音声データを入力しているときに前記ユーザーが位置している前記ノイズ環境におけるノイズの大きさを表す、段階と;
前記音声識別結果の前記第一の信頼値に従って前記ノイズ・シナリオに対応する前記音声識別結果の第二の信頼値を取得する段階と;
前記音声識別結果の前記第二の信頼値とあらかじめ記憶されている信頼閾値を比較し、前記音声識別結果の信憑性の度合いを決定する段階とを含み、
前記音声識別結果の前記第一の信頼値に従って前記ノイズ・シナリオに対応する前記音声識別結果の第二の信頼値を取得する段階が:
前記ノイズ・シナリオに対応する信頼値の調整値を取得し;
前記信頼値の調整値に従って前記音声識別結果の前記第一の信頼値を調整して前記音声識別結果の前記第二の信頼値を取得することを含
前記ノイズ型との組み合わせにおいて、ノイズがより大きいときは前記信頼値の前記調整値は対応して増大させられ、前記ノイズ型との組み合わせにおいて、ノイズがより小さいときは前記信頼値の前記調整値は対応して減少させられる、
方法。
【請求項2】
前記音声データに従ってノイズ・シナリオを取得する段階は:
前記音声データに従って、前記音声データ中のノイズの周波数ケプストラム係数を取得し;
前記ノイズの周波数ケプストラム係数およびあらかじめ確立されたノイズ型モデルに従って前記音声データのノイズ型を取得することを含む、
請求項1記載の方法。
【請求項3】
前記あらかじめ確立されたノイズ型モデルを確立する方法が:
ノイズ・データを取得し;
前記ノイズ・データに従って前記ノイズ・データの周波数ケプストラム係数を取得し;
EMアルゴリズムに従って前記周波数ケプストラム係数を処理してノイズ型モデルを確立することを含む、
請求項2記載の方法。
【請求項4】
前記ノイズ大きさが:
音声データ・パワーとノイズ・データ・パワーの比である信号対雑音比;および
前記ユーザーの前記音声データにおけるノイズ・データのエネルギーの大きさを反映するために使用されるノイズ・エネルギー・レベルを含む、
請求項1記載の方法。
【請求項5】
音声識別装置であって:
音声データを取得するよう構成された取得ユニットと;
前記取得ユニットによって取得された前記音声データを受領し、前記音声データの音声識別結果および前記音声データに基づく前記音声識別結果の第一の信頼値を取得するよう構成された第一信頼値ユニットと;
前記取得ユニットによって取得された前記音声データを受領し、前記音声データに従ってノイズ・シナリオを取得するよう構成されたノイズ・シナリオ・ユニットであって、前記ノイズ・シナリオは、ノイズ型およびノイズ大きさを含み、前記ノイズ型は前記音声データを入力しているときにユーザーが位置しているノイズ環境を示し、前記ノイズ大きさは、前記音声データを入力しているときに前記ユーザーが位置している前記ノイズ環境におけるノイズの大きさを表す、ノイズ・シナリオ・ユニットと;
前記ノイズ・シナリオ・ユニットの前記ノイズ・シナリオおよび前記第一信頼値ユニットの前記第一の信頼値を受領し、前記音声識別結果の前記第一の信頼値に従って前記ノイズ・シナリオに対応する前記音声識別結果の第二の信頼値を取得するよう構成された第二信頼値ユニットと;
前記第二信頼値ユニットによって取得された前記音声識別結果の前記第二の信頼値とノイズ・シナリオ・ユニットによって取得されたあらかじめ記憶されている信頼閾値を比較し、前記音声識別結果の信憑性の度合いを決定するよう構成されている処理ユニットとを有しており、
前記第二信頼値ユニットは、前記ノイズ・シナリオに対応する信頼値の調整値を取得し;前記信頼値の調整値に従って前記音声識別結果の前記第一の信頼値を調整して前記音声識別結果の前記第二の信頼値を取得するよう構成されており
前記ノイズ型との組み合わせにおいて、ノイズがより大きいときは前記信頼値の前記調整値は対応して増大させられ、前記ノイズ型との組み合わせにおいて、ノイズがより小さいときは前記信頼値の前記調整値は対応して減少させられる、
装置。
【請求項6】
ノイズ・データを取得し、前記ノイズ・データに従って前記ノイズ・データの周波数ケプストラム係数を取得し、EMアルゴリズムに従って前記周波数ケプストラム係数を処理してノイズ型モデルを確立するよう構成されたモデル確立ユニットをさらに有する、
請求項5記載の装置。
【請求項7】
前記ノイズ・シナリオ・ユニットが:
前記取得ユニットの前記音声データに従って、前記音声データ中のノイズの周波数ケプストラム係数を取得し、前記ノイズの周波数ケプストラム係数および前記モデル確立ユニットの前記ノイズ型モデルに従って前記音声データのノイズ型を取得するよう構成されたノイズ型ユニットを有する、
請求項6記載の装置。
【請求項8】
前記ノイズ・シナリオ・ユニットがさらに:
前記取得ユニットの前記音声データに従って前記音声データの特徴パラメータを取得し、前記特徴パラメータに従って音声活動検出を実行し、前記音声活動検出の結果に従ってノイズ大きさを取得するよう構成されたノイズ大きさユニットを有する、
請求項5ないし7のうちいずれか一項記載の装置。
【請求項9】
プロセッサおよびマイクロホンを有するモバイル端末であって、
前記マイクロホンは音声データを取得するよう構成されており、
前記プロセッサは、前記音声データの音声識別結果および前記音声データに基づく前記音声識別結果の第一の信頼値を取得し、前記音声データに従ってノイズ・シナリオを取得し、前記音声識別結果の前記第一の信頼値に従って、前記ノイズ・シナリオに対応する前記音声識別結果の第二の信頼値を取得し、前記音声識別結果の前記第二の信頼値とあらかじめ記憶されている信頼閾値を比較し、前記音声識別結果の信憑性の度合いを決定するよう構成されており、前記ノイズ・シナリオは、ノイズ型およびノイズ大きさを含み、前記ノイズ型は前記音声データを入力しているときにユーザーが位置しているノイズ環境を示し、前記ノイズ大きさは、前記音声データを入力しているときに前記ユーザーが位置している前記ノイズ環境におけるノイズの大きさを表し、
前記プロセッサが、前記ノイズ・シナリオに対応する信頼値の調整値を取得し;前記信頼値の調整値に従って前記音声識別結果の前記第一の信頼値を調整して前記音声識別結果の前記第二の信頼値を取得するよう構成されており
前記ノイズ型との組み合わせにおいて、ノイズがより大きいときは前記信頼値の前記調整値は対応して増大させられ、前記ノイズ型との組み合わせにおいて、ノイズがより小さいときは前記信頼値の前記調整値は対応して減少させられる、
モバイル端末。
【請求項10】
信頼値の調整値の経験的データと前記信頼閾値とを記憶するよう構成されたメモリをさらに有する、請求項9記載のモバイル端末。
【請求項11】
前記プロセッサが、
前記音声データに従って前記第一の信頼値を取得する段階と;
前記音声データに従って前記ノイズ・シナリオを取得する段階と;
前記ノイズ・シナリオと前記経験的データとの間の対応に従って、前記ノイズ・シナリオに対応する信頼値の調整値を取得し;
前記信頼値の調整値に従って前記第一の信頼値を調整して前記第二の信頼値を取得し;
前記第二の信頼値が前記信頼閾値以上であれば、前記音声データを処理するよう構成されている、
請求項10記載のモバイル端末。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の諸実施形態は音声処理技術の分野に、詳細には音声識別方法および装置に関する。
【背景技術】
【0002】
ユーザーは一般に、携帯電話のような端末装置上の音声補助ソフトウェアを使って音声識別を実行する。音声補助のようなソフトウェアを使って音声識別を実行するプロセスは、ユーザーが音声データを得るために音声補助ソフトウェアを起動し、音声データがノイズ削減処理のためにノイズ削減モジュールに送られ、ノイズ削減処理後の音声データが音声識別エンジンに送られ、音声識別エンジンが識別結果を音声補助に返すというものであり、誤判定を減らすために、音声補助は信頼閾値に従って識別結果の正しさを判定し、次いで識別結果を表示する。
【0003】
現在のところ、音声補助のようなソフトウェアの使用効果は一般にオフィスのような静穏な環境においてよりよくなる。しかしながら、ノイズ環境(たとえば乗物環境)においては使用効果は貧弱である。業界では、音声識別率は一般に、ソフトウェア・ノイズ削減方法を使って改善されるが、改善効果は顕著ではなく、時に識別率が下がることさえある。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本技術的解決策は、音声識別率を改善し、同時にユーザー体験を改善するために使われる音声識別方法および装置を提供する。
【課題を解決するための手段】
【0005】
第一の側面では、音声識別方法が提供される。本方法は:音声データを取得し;前記音声データに従って第一の信頼値を取得し;前記音声データに従ってノイズ・シナリオを取得し;前記第一の信頼値に従って前記ノイズ・シナリオに対応する第二の信頼値を取得し;前記第二の信頼値があらかじめ記憶されている信頼閾値以上であれば、前記音声データを処理することを含む。
【0006】
第一の側面を参照しつつ、第一の側面の第一の可能な実装様式では、前記ノイズ・シナリオは具体的には:ノイズ型およびノイズ大きさを含む。
【0007】
第一の側面の第一の可能な実装様式を参照しつつ、第一の側面の第二の可能な実装様式では、前記ノイズ・シナリオは前記ノイズ型を含み、前記音声データに従ってノイズ・シナリオを取得することは、具体的には:前記音声データに従って、前記音声データ中のノイズの周波数ケプストラム係数を取得し;前記ノイズの周波数ケプストラム係数およびあらかじめ確立されたノイズ型モデルに従って前記音声データのノイズ型を取得することを含む。
【0008】
第一の側面の第二の可能な実装様式を参照しつつ、第一の側面の第三の可能な実装様式では、ノイズ型モデルを確立する方法が具体的に:ノイズ・データを取得し;前記ノイズ・データに従って前記ノイズ・データの周波数ケプストラム係数を取得し;EMアルゴリズムに従って前記周波数ケプストラム係数を処理し;前記ノイズ型モデルを確立することを含む。
【0009】
第一の側面の第三の可能な実装様式または第一の側面の第二の可能な実装様式を参照しつつ、第一の側面の第四の可能な実装様式では、前記ノイズ型モデルはガウス混合モデルである。
【0010】
第一の側面の第一の可能な実装様式を参照しつつ、第一の側面の第五の可能な実装様式では、前記ノイズ・シナリオはノイズ大きさを含み、前記音声データに従ってノイズ・シナリオを取得することは、具体的には:前記音声データに従って、前記音声データの特徴パラメータを取得し;前記特徴パラメータに従って音声活動検出を実行し;前記音声活動検出の結果に従って前記ノイズ大きさを取得することを含む。
【0011】
第一の側面の第一の可能な実装様式または第一の側面の第二の可能な実装様式または第一の側面の第三の可能な実装様式または第一の側面の第四の可能な実装様式または第一の側面の第五の可能な実装様式を参照しつつ、第一の側面の第六の可能な実装様式では、前記ノイズ大きさは具体的には:信号対雑音比およびノイズ・エネルギー・レベルを含む。
【0012】
第一の側面または第一の側面の第一の可能な実装様式または第一の側面の第二の可能な実装様式または第一の側面の第三の可能な実装様式または第一の側面の第四の可能な実装様式または第一の側面の第五の可能な実装様式または第一の側面の第六の可能な実装様式を参照しつつ、第一の側面の第七の可能な実装様式では、前記第一の信頼値に従って前記ノイズ・シナリオに対応する第二の信頼値を取得することは、具体的には:前記ノイズ・シナリオと、信頼値の調整値あらかじめ記憶されている経験的データとの間の対応に従って、前記ノイズ・シナリオに対応する信頼値の調整値を取得し;前記信頼値の前記調整値に従って前記第一の信頼値を調整して前記第二の信頼値を取得することを含む。ここで、前記調整は:増加させること、減少させることおよび不変のままであることを含む。
【0013】
第一の側面または第一の側面の第一の可能な実装様式または第一の側面の第二の可能な実装様式または第一の側面の第三の可能な実装様式または第一の側面の第四の可能な実装様式または第一の側面の第五の可能な実装様式または第一の側面の第六の可能な実装様式または第一の側面の第七の可能な実装様式を参照しつつ、第一の側面の第八の可能な実装様式では、前記第二の信頼値が前記信頼閾値より小さい場合にユーザーが促される。
【0014】
第二の側面では、音声識別装置が提供される。本装置は:音声データを取得するよう構成された取得ユニットと;前記取得ユニットによって取得された前記音声データを受領し、前記音声データに従って第一の信頼値を取得するよう構成された第一信頼値ユニットと;前記取得ユニットによって取得された前記音声データを受領し、前記音声データに従ってノイズ・シナリオを取得するよう構成されたノイズ・シナリオ・ユニットと;前記ノイズ・シナリオ・ユニットの前記ノイズ・シナリオおよび前記第一信頼値ユニットの前記第一の信頼値を受領し、前記第一の信頼値に従って前記ノイズ・シナリオに対応する第二の信頼値を取得するよう構成された第二信頼値ユニットと;前記第二信頼値ユニットによって取得された前記第二の信頼値を受領し、前記第二の信頼値があらかじめ記憶されている信頼閾値以上であれば、前記音声データを処理するよう構成されている処理ユニットとを含む。
【0015】
第二の側面を参照しつつ、第二の側面の第一の可能な実装様式では、当該装置はさらに:ノイズ・データを取得し、前記ノイズ・データに従って前記ノイズ・データの周波数ケプストラム係数を取得し、EMアルゴリズムに従って前記周波数ケプストラム係数を処理してノイズ型モデルを確立するよう構成されたモデル確立ユニットをさらに含む。
【0016】
第二の側面の第一の可能な実装様式を参照しつつ、第二の側面の第二の可能な実装様式では、前記ノイズ・シナリオ・ユニットは具体的には:前記取得ユニットの前記音声データに従って、前記音声データ中のノイズの周波数ケプストラム係数を取得し、前記ノイズの周波数ケプストラム係数および前記モデル確立ユニットの前記ノイズ型モデルに従って前記音声データのノイズ型を取得するよう構成されたノイズ型ユニットを含む。
【0017】
第二の側面または第二の側面の第一の可能な実装様式または第二の側面の第二の可能な実装様式を参照しつつ、第二の側面の第三の可能な実装様式では、前記ノイズ・シナリオ・ユニットはさらに:前記取得ユニットの前記音声データに従って前記音声データの特徴パラメータを取得し、前記特徴パラメータに従って音声活動検出を実行し、前記音声活動検出の結果に従って前記ノイズ大きさを取得するよう構成されたノイズ大きさユニットを含む。
【0018】
第二の側面または第二の側面の第一の可能な実装様式または第二の側面の第二の可能な実装様式または第二の側面の第三の可能な実装様式を参照しつつ、第二の側面の第四の可能な実装様式では、当該装置はさらに:信頼閾値と、信頼値の調整値の経験的データとを記憶するよう構成された記憶ユニットを含む。
【0019】
第二の側面の第四の可能な実装様式を参照しつつ、第二の側面の第五の可能な実装様式では、前記第二信頼値ユニットは、具体的には、
前記ノイズ・シナリオと前記経験的データとの間の対応に従って、前記ノイズ・シナリオに対応する信頼値の調整値を取得し;
前記信頼値の前記調整値に従って前記第一の信頼値を調整して前記第二の信頼値を取得するよう構成されており、
ここで、前記調整は:増加、減少および不変のままであることを含む。
【0020】
第三の側面では、モバイル端末が提供される。本モバイル端末はプロセッサおよびマイクロホンを含み、前記マイクロホンは音声データを取得するよう構成されており、前記プロセッサは、前記音声データに従って第一の信頼値を取得し、前記音声データに従ってノイズ・シナリオを取得し、前記第一の信頼値に従って、前記ノイズ・シナリオに対応する第二の信頼値を取得し、前記第二の信頼値があらかじめ記憶されている信頼閾値以上であれば、前記音声データを処理するよう構成されている。
【0021】
第三の側面を参照しつつ、第三の側面の第一の可能な実装様式では、前記モバイル端末はさらに、信頼値の調整値の経験的データと、信頼閾値とを記憶するよう構成されたメモリを含む。
【0022】
第三の側面の第一の可能な実装様式を参照しつつ、第三の側面の第二の可能な実装様式では、前記プロセッサは具体的には、前記音声データに従って前記第一の信頼値を取得し;前記音声データに従って前記ノイズ・シナリオを取得し;前記ノイズ・シナリオと前記経験的データとの間の対応に従って、前記ノイズ・シナリオに対応する信頼値の調整値を取得し;前記信頼値の前記調整値に従って前記第一の信頼値を調整して前記第二の信頼値を取得し;前記第二の信頼値が前記信頼閾値以上であれば、前記音声データを処理するよう構成されている。
【0023】
本発明の技術的解決策は、音声識別方法および装置を提供する。本方法および装置では、ノイズ・シナリオが取得され、信頼値の調整値のあらかじめ記憶された経験的データおよびノイズ・シナリオに従って第二の信頼値が取得される。ノイズ・シナリオに基づいて信頼値を柔軟に調整する本方法および装置はノイズ環境のもとでの音声識別率を大幅に改善する。
【図面の簡単な説明】
【0024】
本発明の実施形態におけるまたは従来技術における技術的解決策をより明瞭に記述するために、以下では実施形態を記述するために必要とされる付属の図面を簡単に紹介しておく。明らかだが、以下の記述における付属の図面は単に本発明のいくつかの実施形態を示すものであり、当業者は創造的な努力なしでもこれら付属の図面に基づいて他の図面を導出することがありうる。
図1】本発明の実施形態1に基づく音声識別方法のフローチャートである。
図2】本発明の実施形態1に基づく音声識別方法の別の実装様式のフローチャートである。
図3】本発明の実施形態2に基づく音声識別方法の別の実装様式のフローチャートである。
図4】本発明の実施形態3に基づく音声識別方法の別の実装様式のフローチャートである。
図5】本発明の実施形態4に基づく音声識別装置の概略的な構造図である。
図6】本発明の実施形態4に基づく音声識別装置の別の可能な概略構造図である。
図7】本発明の実施形態4に基づく音声識別装置の別の可能な概略構造図である。
図8】本発明の実施形態4に基づく音声識別装置の別の可能な概略構造図である。
図9】本発明の実施形態5に基づくモバイル端末の概略構造図である。
図10】本発明の実施形態5に基づくモバイル端末の別の可能な概略構造図である。
図11】本発明のある実施形態に基づく携帯電話の概略構造図である。
【発明を実施するための形態】
【0025】
本発明の実施形態の目的、技術的解決策および利点を一層明確にするため、以下では、本発明の実施形態における付属の図面を参照しつつ、本発明の実施形態における技術的解決策を明確かつ完備に記述する。明らかだが、記述される実施形態は本発明の全実施形態ではなく単に一部である。創造的な努力なしに本発明の実施形態に基づいて当業者によって得られる他のすべての実施形態が本発明の実施形態の保護範囲にはいる。
【0026】
本発明の実施形態において使われる用語は単に具体的な実施形態を記述することを意図したものであり、本発明を限定することを意図したものではない。本発明の実施形態および請求項において使われる単数形は、文脈が明らかに他の意味を表すのでない限り、複数形をも含むことを意図している。明細書において使用される「および/または」の用語は一つまたは複数の付随する挙げられる項目の任意のものまたはあらゆる可能な組み合わせを指す。明細書において採用されている用語「含む」は特徴、整数、段階、動作、要素および/またはコンポーネントの存在を特定するが、他の特徴、整数、段階、動作、コンポーネント、要素およびそれらの組み合わせの存在または追加を排除するものではないことも理解しておくべきである。
【0027】
本発明の実施形態において、装置は携帯電話、携帯情報端末(PDA: Personal Digital Assistant)、タブレット・コンピュータ、ポータブル・デバイス(たとえばポータブル・コンピュータ)、乗物搭載デバイスおよびATM機(Automatic Teller Machine[現金自動預入支払機])といったデバイスを含むがこれに限られない。本発明の実施形態ではこれらに限定されるものではない。
【実施例1】
【0028】
図1は、本発明の実施形態1に基づく音声識別方法のフローチャートである。
【0029】
図1に示されるように、本発明の実施形態1は音声識別方法を提供する。本方法は具体的には下記を含みうる。
【0030】
S100:音声データを取得
ユーザーが、該ユーザーによって入力される音声データをマイクロホンを通じて取得するために装置上の音声補助のようなソフトウェアを起動する。音声データは該ユーザーによって入力されなくてもよく、機械によって入力されてもよく、情報を含む任意のデータを含んでいてもよいことを理解しておくべきである。
【0031】
S101:音声データに従って第一の信頼値を取得
第一の信頼値は、特定の個人による特定の命題の正当性についての信じられる度合いをいい、本発明の本実施形態では、装置などによる音声データの識別結果の正当性の度合いである。すなわち、第一の信頼値は、音声識別結果の信憑性の度合いを示すために使われる数値である。たとえば、ユーザーによって入力された音声データは音声データ識別プロセス中の「Give Zhang San calling」であり、返される第一の信頼値は:文信頼度N1(「Give Zhang San calling」の全体的な信頼度)、前置コマンド語信頼度N2(「give」が前置コマンド語、すなわち「give」の第一の信頼値がN2)、人名信頼度N3(「Zhang San」が名前、すなわち「Zhang San」の信頼値がN3)および後置コマンド語信頼度N4(「calling」が後置コマンド語、すなわち「calling」の信頼値がN4)を含む。通例、文信頼度N1はN2、N3およびN4を統合することによって得られる。ある実験では、試験により、ユーザーによって入力された音声データ「Give Zhang San calling」の第一の信頼値がそれぞれN1=62、N2=50、N3=48およびN4=80であることが得られている。
【0032】
第一および第二といった用語が本発明の実施形態においてさまざまな信頼値を記述するために採用されることがあるが、信頼値はこれらの用語に限定されないことを理解しておくべきである。これらの用語は信頼値を互いから区別するために使われているだけである。たとえば、本発明の実施形態の範囲から外れることなく、第一の信頼値が第二の信頼値と呼ばれてもよいし、第二の信頼値が第一の信頼値と呼ばれてもよい。第一の信頼値および第二位の信頼値はいずれも信頼値である。
【0033】
S102:音声データに従ってノイズ・シナリオを取得
ユーザーによって入力された音声データに従って、ノイズ・シナリオが取得される。ノイズ・シナリオは、ユーザーが音声データを入力するときのノイズ状態である。すなわち、ノイズ・シナリオは、ユーザーが音声データを、道路上のノイズ環境、オフィス内のノイズ環境または乗物上のノイズ環境のいずれにおいて入力しているかおよびユーザーが位置している対応する環境におけるノイズが大きいか小さいかとして理解されてもよい。
【0034】
ステップS102はステップS101の前であってもよいし、ステップS102はステップS101の後であってもよいし、あるいはステップ102とステップS101が同時に実行されてもよいことは理解しておくべきである。本発明の実施形態においてこれらに限定されるものではない。
【0035】
S103:第一の信頼値に従ってノイズ・シナリオに対応する第二の信頼値を取得
第二の信頼値は得られた第一の信頼値に基づいて得られる。第二の信頼値は、ユーザーによって入力された音声データに基づいて直接得られるのではなく、第一の信頼値に基づいて得られる。音声データのノイズ・シナリオが得られたのちに、そのノイズ・シナリオに対応する第二の信頼値が、第一の信頼値に従って得られてもよい。
【0036】
S104:第二の信頼値があらかじめ記憶されている信頼閾値以上であれば、音声データを処理
あらかじめ記憶されている信頼閾値は、第二の信頼値が受け入れられるかどうかを評価するための指標として使われる。第二の信頼値が信頼閾値より大きければ、識別結果は正しいと考えられ、第二の信頼値が信頼閾値より小さければ、識別結果は正しくないと考えられ、該結果を信じることができない。
【0037】
第二の信頼値があらかじめ記憶されている信頼閾値以上であれば、音声データの識別結果は正しい、すなわち対応する音声データを処理するために正しいと考えられる。たとえば、ステップS103において得られた第二の信頼値N3が48であり、ステップS104においてあらかじめ記憶されている信頼閾値が40であるとすると、第二の信頼値は信頼閾値より大きく、音声データの識別結果は正しい。さらに、説明のために例を与えておく。音声データが「Give Zhang San calling」〔セン・サンに電話する〕、「Send Zhang San a short message」〔セン・サンにショートメッセージを送る〕および「Open an application program」〔アプリケーション・プログラムを開く〕のようなコマンド語を含む音声データであるとき、音声識別はコマンド語識別に属し、装置は、電話をかける、ショートメッセージを送信する、アプリケーション・プログラムを開くといった対応するコマンドを実行する。音声データがテキスト口述識別に属する場合には、識別結果テキストが表示される。すなわち、第二の信頼値があらかじめ記憶されている信頼閾値以上であれば、音声データが処理される。
【0038】
本発明の技術的解決策は、音声識別方法を提供する。本方法では、ノイズ・シナリオが取得され、信頼値の調整値のあらかじめ記憶された経験的データおよびノイズ・シナリオに従って第二の信頼値が取得される。ノイズ・シナリオに基づいて信頼値を柔軟に調整する本方法はノイズ環境のもとでの音声識別率を大幅に改善する。
【0039】
任意的に、
図2は、本発明の実施形態1に基づく音声識別方法の別の実装様式のフローチャートである。
【0040】
図2に示されるように、本方法はさらに以下を含む。
【0041】
S1041:第二の信頼値が信頼閾値より小さい場合、ユーザーに促す
第二の信頼値が信頼閾値より小さい場合は、音声データの識別結果が正しくないと考えられ、ユーザーが促される。たとえば、ステップS103で得られた第二の信頼値N3が48で、ステップS104におけるあらかじめ記憶されている信頼閾値が50であれば、第二の信頼値は信頼閾値より小さく、音声データの識別結果は正しくない。さらに、説明のために例を与えておく。音声データが「Give Zhang San calling」〔セン・サンに電話する〕であるとき、装置は音声データの識別結果が正しくないと判定し、システムはユーザーにもう一度話すよう促すおよび/またはユーザーに障害を通知する。すなわち、第二の信頼値が信頼閾値より小さい場合には、ユーザーは再入力するまたは障害を正すよう促される。
【0042】
本発明の技術的解決策は、音声識別方法を提供する。本方法では、ノイズ・シナリオが取得され、信頼値の調整値のあらかじめ記憶された経験的データおよびノイズ・シナリオに従って第二の信頼値が取得される。ノイズ・シナリオに基づいて信頼値を柔軟に調整する本方法はノイズ環境のもとでの音声識別率を大幅に改善する。
【実施例2】
【0043】
図3は、本発明の実施形態2に基づく音声識別方法の別の実装様式のフローチャートである。
【0044】
本発明の実施形態2は本発明の実施形態1をベースとして記述される。図3に示されるように、実施形態1のステップS102では、ノイズ・シナリオは具体的に:ノイズ型およびノイズ大きさを含む。
【0045】
ノイズ型は、音声データを入力しているときにユーザーが位置しているノイズ環境をいう。すなわち、それは、ユーザーが道路上のノイズ環境、オフィス内のノイズ環境または乗物上のノイズ環境のいずれにいるかとして理解されてもよい。
【0046】
ノイズ大きさは、音声データを入力しているときにユーザーが位置しているノイズ環境におけるノイズの大きさを表す。任意的に、ノイズ大きさは:信号対雑音比およびノイズ・エネルギー・レベルを含む。信号対雑音比は、音声データ・パワーとノイズ・データ・パワーの比であり、通例デシベルで表される。一般に、より高い信号対雑音比はより小さなノイズ・データ・パワーを示し、より低い信号対雑音比はより大きなノイズ・データ・パワーを示す。ノイズ・エネルギー・レベルは、ユーザーの音声データにおけるノイズ・データのエネルギーの大きさを反映するために使用される。信号対雑音比およびノイズ・エネルギー・レベルは組み合わされてノイズ大きさを示す。
【0047】
ノイズ・シナリオはノイズ型を含む。実施形態1のステップS102において、音声データに従ってノイズ・シナリオを取得することは具体的には下記を含む。
【0048】
S1021:音声データに従って、音声データ中のノイズの周波数ケプストラム係数を取得
ユーザーによって入力される音声データに従って、音声データ・フレームおよびノイズ・データ・フレームが音声活動検出(VAD: voice activity detection)を通じて決定され、ノイズ・データ・フレームが取得されたのち、ノイズ・データ・フレームの周波数ケプストラム係数が取得される。mel(メル)は主観的なピッチの単位であり、Hz(ヘルツ)は客観的なピッチの単位である。mel周波数は人間の耳の聴覚特徴に基づいて提案されており、Hz周波数と非線形な対応をもつ。周波数ケプストラム係数(MFCC: Mel Frequency Cepstrum Coefficient)はメル周波数上でのケプストラム係数であり、良好な識別パフォーマンスをもち、音声識別、声紋認識および言語識別のような分野に広く応用される。
【0049】
S1022:ノイズの周波数ケプストラム係数およびあらかじめ確立されているノイズ型モデルに従って、音声データのノイズ型を取得
周波数ケプストラム係数はそれぞれ事前に確立されている各ノイズ型モデルに計算のために代入され、あるノイズ型モデルの計算結果値が最大であれば、ユーザーは、音声データを入力するときに、そのノイズ型の環境に位置していたと考えられる。すなわち、音声データのノイズ型が取得される。
【0050】
ステップS1022におけるあらかじめ確立されているノイズ型モデルはガウス混合モデルである。
【0051】
ガウス密度関数推定はパラメータ化されたモデルであり、二つの型を含む。すなわち、単一ガウス・モデル(SGM: Single Gaussian Model)およびガウス混合モデル(GMM: Gaussian mixture model)である。ガウス・モデルは有効なクラスタリング・モデルであり、これは、異なるガウス確率密度関数パラメータに応じて、確立された各ガウス・モデルを型として考えてもよい。標本値xが入力されるとき、ガウス確率密度関数を使って値が計算され、次いで、閾値を通じて、その標本値が確立されたガウス・モデルに属するかどうかが判定される。GMMは、分割がより細かい複数のモデルを有し、複雑なオブジェクトの分割に適用可能であり、複雑なオブジェクト・モデルの確立に広く適用される。たとえば、音声識別では、GMMは種々のノイズ型の分類およびモデル確立に使われる。
【0052】
本発明の本実施形態では、あるノイズ型のGMMを確立するプロセスは:同じ型のノイズ・データの複数の群を入力し、該ノイズ・データに従ってGMMモデルを反復的にトレーニングし、最終的にそのノイズ型のGMMを得ることであってもよい。
【0053】
ガウス混合モデルは次の公式で表してもよい。
【0054】
【数1】
ガウス・モデルN(x;μ,Σ)は次の公式によって表されてもよい。
【0055】
【数2】
ここで、NはGMMモデルの混合の次数である。すなわち、N個のガウス・モデルによって組み合わされる。αiはi番目のガウス・モデルの重みであり、μは平均値であり、Σは共分散行列である。理論では、空間における任意の形がモデル確立のためにGMMモデルを使用しうる。ガウス・モデルの出力は0から1までの間の小数なので、計算の簡単のため、一般に、結果から自然対数(ln)が得られ、0より小さな浮動小数点数となる。
【0056】
S1022におけるあらかじめ確立されたノイズ型モデルを確立する方法は下記を含む:
ノイズ・データを取得する。同じ型のノイズ、たとえば乗物上のノイズ、街路ノイズおよびオフィス・ノイズの複数の群を取得する。それがノイズ・データの型のGMM、すなわちノイズ・データの当該型のノイズ型モデルを確立するために使われる。本発明において、別の型のノイズ・データが取得されてもよく、ノイズ・データの各型について対応するノイズ型モデルが確立されることは理解しておくべきである。本発明の本実施形態においてはそれに限定されるものではない;
ノイズ・データに従って、ノイズ・データの周波数ケプストラム係数を取得する。ノイズ・データからノイズの周波数ケプストラム係数を抽出する。mel(メル)は主観的なピッチの単位であり、Hz(ヘルツ)は客観的なピッチの単位である。mel周波数は人間の耳の聴覚特徴に基づいて提案されており、Hz周波数と非線形な対応をもつ。周波数ケプストラム係数(MFCC: Mel Frequency Cepstrum Coefficient)はメル周波数上でのケプストラム係数であり、良好な識別パフォーマンスをもち、音声識別、声紋認識および言語識別のような分野に広く応用される;
EMアルゴリズムに従って周波数ケプストラム係数を処理し、ノイズ型モデルを確立する。統計学では、観測不能な潜在変数に依存する確率モデルにおけるパラメータの最大尤度推定を探索するために、EMアルゴリズム(expectation-maximization algorithm[期待値最大化アルゴリズム])が使用される。統計計算では、期待値最大化(EM)アルゴリズムは、GMMが観測不能な潜在変数(latent variable)に依存する場合に、パラメータの最大尤度推定または最大事後推定を探索する。
【0057】
EMアルゴリズムでは、計算は交互に二つのステップにおいて実行される。第一のステップは、期待値(E)を計算するものである。未知パラメータの期待値を推定し、現在のパラメータ推定を与える。第二のステップは、最大化(M)を実行するものである。データの尤度を最大にするよう分布パラメータを再推定し、未知変数の期待される推定を与える。全体として、EMアルゴリズムの手順は次のようになる。1.分布パラメータを初期化する。2.収束するまで繰り返す。簡単にいうと、EMアルゴリズムは、二つのパラメータAおよびBが推定によって知られており、両者がいずれも開始状態では未知であるとして、Aの情報が知られれば、Bの情報が得られることがあり、逆にBの情報が知られればAの情報が得られることがあるというものである。まずAにある初期値を与え、それによりBの推定値を得て、次いでBの現在の値からAの値を再推定すると考えてもよい。このプロセスは収束するまで続けられる。EMアルゴリズムは、不完全なデータ・セットからパラメータについての最大尤度推定を実行し、きわめて単純かつ実際的な学習アルゴリズムである。EおよびMの二つのステップを交互に使うことにより、EMアルゴリズムは徐々にモデルのパラメータを修正し、それによりパラメータおよびトレーニング標本値の尤度確率が徐々に高まり、最終的には最大点で終わる。直観的に理解すると、EMアルゴリズムは逐次近似アルゴリズムと考えられてもよい。モデルのパラメータは前もって知られておらず、一組のパラメータがランダムに選択されてもよく、あるいはある初期パラメータが前もっておおまかに与えられてもよい。パラメータのある群に対応する最も可能性のある状態が決定され、各トレーニング標本値の可能な結果の確率が計算され、現在状態における標本値を通じてあるパラメータが訂正されて該パラメータが再推定され、モデルの状態が新たなパラメータのもとで再決定される。このようにして、複数の反復工程を通じて、ある収束条件が満たされるまで、巡回が実行される。それにより、モデルのパラメータは徐々に真のパラメータに近似する。
【0058】
得られた周波数ケプストラム係数はトレーニングのためにEMアルゴリズムに代入され、トレーニング・プロセスを通じて、ガウス混合モデルにおけるN、αi、μおよびΣのようなパラメータが得られ、それらのパラメータおよび
【0059】
【数3】
に従って、ガウス混合モデルが確立される。すなわち、ノイズ型に対応するノイズ型モデルが確立される。ここで、xは周波数ケプストラム係数である。
【0060】
たとえば、実施形態1におけるステップS102において、音声データに従ってノイズ・シナリオを取得することは、具体的には次のようになる。
【0061】
音声データに従って音声データのノイズ・フレームの周波数ケプストラム係数を取得する。ここで、周波数ケプストラム係数はガウス混合モデル
【0062】
【数4】
におけるxである。二つのノイズ型モデルがあると想定される。一つは乗物上ノイズ・トレーニングを通じて得られる乗物上ノイズのノイズ型モデルであり、他方は非乗物上型のノイズを通じて得られる非乗物上ノイズ(これはオフィス・ノイズ、街路ノイズ、スーパーマーケット・ノイズなどを含みうる)・トレーニングのノイズ型モデルである。ユーザーによって入力された音声データが10個のノイズ・フレームをもつとして、各ノイズ・フレームの周波数ケプストラム係数、すなわちxを二つのノイズ型モデル
【0063】
【数5】
(ここで、N、αi、μおよびΣのようなパラメータは既知)にそれぞれ代入して、計算結果を得、該計算結果から対数を取得し、次いで累積平均を実行する。最終結果を表1として示す。
【0064】
【表1】
最終結果は、乗物上ノイズのノイズ型モデルの計算結果値が非乗物上ノイズのノイズ型モデルの計算結果値より大きい(すなわち、−41.9>−46.8)ことを表示する。そのため、現在の音声データのノイズ型は乗物上ノイズである。
【0065】
本発明の技術的解決策は、ノイズ環境のもとでの音声識別率を改善する方法を提供する。本方法では、ノイズ・シナリオが取得され、信頼値の調整値のあらかじめ記憶された経験的データおよびノイズ・シナリオに従って第二の信頼値が取得される。ノイズ・シナリオに基づいて信頼値を柔軟に調整する本方法はノイズ環境のもとでの音声識別率を大幅に改善する。
【0066】
任意的に、
図3に示されるように、ノイズ・シナリオはノイズ大きさを含む。実施形態1のステップS102において、音声データに従ってノイズ・シナリオを取得することは、具体的には下記を含む。
【0067】
S1023:音声データに従って、音声データの特徴パラメータを取得
音声データの特徴パラメータが、音声データに従って抽出される。ここで、特徴パラメータは:サブバンド・エネルギー、基本音(fundamental tone)および巡回因子(cyclic factor)を含む。
【0068】
サブバンド・エネルギーについて、音声データの種々の帯域における種々の有用な成分に従って、0-8Kの帯域がN個のサブバンドに分割され、各サブバンドの音声の各フレームのエネルギーがそれぞれ計算される。サブバンド・エネルギーを計算する公式は
【0069】
【数6】
である。ここで、Lはフレーム長であり、音声データのフレームはx[0]x[1]からx[L−1]である。
【0070】
基本音および巡回因子は音声中の周期的成分を反映する。音声では、周期成分は無音セグメントおよび無声セグメントにおいて非常に貧弱であり、周期性は有声セグメントにおいて非常に良好である。この点に基づいて、音声フレーム検出が実行されてもよい。
【0071】
S1024:特徴パラメータに従って音声活動検出を実行
ユーザーによって入力された音声データに従って、音声データ・フレームおよびノイズ・データ・フレームが音声活動検出(VAD: voice activity detection)を通じて決定され、基本音、巡回因子およびサブバンド・エネルギーが組み合わされ、それにより音声フレームおよび無音フレームについての判定が実行される。
【0072】
VAD判定では、音声フレームおよびノイズ・フレームが、主として次の二つの要素に基づいて判定される。
1)音声フレームのエネルギーはノイズ・フレームのエネルギーより大きい;
2)より強い周期性をもつフレームは一般には音声フレームである。
【0073】
S1025:音声活動検出の結果に基づいてノイズ大きさを取得
VAD判定結果に従って、音声フレームおよびノイズ・フレームの平均エネルギーをそれぞれ計算して、音声エネルギー・レベル(speechLev)およびノイズ・エネルギー・レベル(noiseLev)を取得し、次いで、計算により、信号対雑音比(SNR: signal-to-noise ratio)を取得する。公式は次のとおり。
【0074】
【数7】
ここで、LnおよびLsはそれぞれノイズ・フレームの総数および音声フレームの総数を表し、ener[Ni]はi番目のノイズ・フレームのエネルギーを表し、ener[Sj]はj番目の音声フレームのエネルギーを表す。
【0075】
本発明の技術的解決策は、ノイズ環境のもとでの音声識別率を改善する方法を提供する。本方法では、ノイズ・シナリオが取得され、信頼値の調整値のあらかじめ記憶された経験的データおよびノイズ・シナリオに従って第二の信頼値が取得される。ノイズ・シナリオに基づいて信頼値を柔軟に調整する本方法はノイズ環境のもとでの音声識別率を大幅に改善する。
【実施例3】
【0076】
図4は、本発明の実施形態3に基づく音声識別方法の別の実装様式のフローチャートである。
【0077】
この実施形態は実施形態1をベースとして記述される。図4に示されるように、実施形態1のステップS103の方法は、具体的には以下を含む。
【0078】
S1031:ノイズ・シナリオと信頼値の調整値のあらかじめ記憶された経験的データとの間の対応に従って、ノイズ・シナリオに対応する信頼値の調整値を取得
ノイズ・シナリオに対応する信頼値の調整値は、ノイズ・シナリオにおけるノイズ型、ノイズ大きさおよび大量のエミュレートする測定を通じて得られた信頼値の調整値の経験的データに従って得られる。ノイズ型は、音声識別が実行されるときにユーザーが位置している環境の型を示し、ノイズ大きさはユーザーが位置している環境の型のノイズ大きさを示す。ノイズ型との組み合わせにおいて、ノイズがより大きいときは、信頼値は対応して増加させられ;ノイズ型との組み合わせにおいて、ノイズがより小さいときは、信頼値は対応して減少させられる。信頼値の調整値の特定の経験的データは、エミュレーション測定における統計的収集によって得られる。
【0079】
たとえば、
ノイズ型は乗物上環境である。ノイズがより大きいとき(すなわち、ノイズ・レベルが−30dBより小さく、信号対雑音比が10dBより小さい)、エミュレーション測定における統計収集によって、このノイズ・シナリオでは、信頼値の調整値が+15ないし+5であることが得られる。したがって、このノイズ・シナリオでは、信頼値の調整値は15から5までの間のある値だけ信頼値を増加させる効果がある。
【0080】
ノイズ型は乗物上環境である。ノイズがより小さいとき(すなわち、ノイズ・レベルが−30dBより大きく、−40dBより小さく、信号対雑音比が10dBより大きく20dBより小さい)、エミュレーション測定における統計収集によって、このノイズ・シナリオでは、信頼値の調整値が+10ないし+3であることが得られる。したがって、このノイズ・シナリオでは、信頼値の調整値は10から3までの間のある値だけ信頼値を増加させる効果がある。
【0081】
ノイズ型はオフィス環境である。ノイズがより小さいとき(すなわち、ノイズ・レベルが−40dBより大きく、信号対雑音比が20dBより大きい)、エミュレーション測定における統計収集によって、このノイズ・シナリオでは、信頼値の調整値が+5ないし0であることが得られる。したがって、このノイズ・シナリオでは、信頼値の調整値は5から0までの間のある値だけ信頼値を増加させる効果がある。
【0082】
S1032:信頼値の調整値に従って第一の信頼値を調整し、第二の信頼値を取得。調整は、増大、減少および不変のままを含む。
【0083】
ステップS101で得られた第一の信頼値が信頼値の調整値に従って調整される。第一の信頼値が信頼値の調整値に従って調整され、第二の信頼値が得られるとき、第一の信頼値はより大きくなるよう、またはより小さくなるよう、または不変のままであるよう調整されうる。
【0084】
本発明の技術的解決策は、ノイズ環境のもとでの音声識別率を改善する方法を提供する。本方法では、ノイズ・シナリオが取得され、信頼値の調整値のあらかじめ記憶された経験的データおよびノイズ・シナリオに従って第二の信頼値が取得される。ノイズ・シナリオに基づいて信頼値を柔軟に調整する本方法はノイズ環境のもとでの音声識別率を大幅に改善する。
【実施例4】
【0085】
図5は、本発明の実施形態4に基づく音声識別装置の概略的な構造図である。
【0086】
図5に示されるように、本装置は:
音声データを取得するよう構成された取得ユニット300と;
前記取得ユニット300によって取得された前記音声データを受領し、前記音声データに従って第一の信頼値を取得するよう構成された第一信頼値ユニット301と;
前記取得ユニット300によって取得された前記音声データを受領し、前記音声データに従ってノイズ・シナリオを取得するよう構成されたノイズ・シナリオ・ユニット302と;
前記ノイズ・シナリオ・ユニット302の前記ノイズ・シナリオおよび前記第一信頼値ユニット301の第一の信頼値を受領し、前記第一の信頼値に従って前記ノイズ・シナリオに対応する第二の信頼値を取得するよう構成された第二信頼値ユニット303と;
前記第二信頼値ユニット303によって取得された前記第二の信頼値を受領し、前記第二の信頼値があらかじめ記憶されている信頼閾値以上であれば、前記音声データを処理するよう構成されている処理ユニット304とを含む。
【0087】
取得ユニット300は音声データを取得する;第一信頼値ユニット301は前記取得ユニット300によって取得された前記音声データを受領し、前記音声データに従って第一の信頼値を取得する;ノイズ・シナリオ・ユニット302は、前記取得ユニット300によって取得された前記音声データを受領し、前記音声データに従ってノイズ・シナリオを取得する。ここで、ノイズ・シナリオはノイズ型およびノイズ大きさを含む。第二信頼値ユニット303は、ノイズ・シナリオ・ユニット302の前記ノイズ・シナリオおよび前記第一信頼値ユニット301の第一の信頼値を受領し、前記第一の信頼値に従って前記ノイズ・シナリオに対応する第二の信頼値を取得する;処理ユニット304は、前記第二の信頼値ユニット303によって取得された前記第二の信頼値を受領し、前記第二の信頼値があらかじめ記憶されている信頼閾値以上であれば、前記音声データを処理する。
【0088】
取得ユニット300、第一信頼値ユニット301、ノイズ・シナリオ・ユニット302、第二信頼値ユニット303および処理ユニット304は実施形態1におけるステップS100、S101、S102、S103およびS104に記述される方法を実行するよう構成されていてもよい。具体的な記述については、実施形態1の方法の記述が参照され、ここで繰り返して述べることはしない。
【0089】
本発明の技術的解決策は、音声識別装置を提供する。本装置では、ノイズ・シナリオが取得され、信頼値の調整値のあらかじめ記憶された経験的データおよびノイズ・シナリオに従って第二の信頼値が取得される。ノイズ・シナリオに基づいて信頼値を柔軟に調整する本装置はノイズ環境のもとでの音声識別率を大幅に改善する。
【0090】
任意的に、
図6は、本発明の実施形態4に基づく音声識別装置のもう一つの可能な概略的な構造図である。
【0091】
図6に示されるように、本装置はさらに:
ノイズ・データを取得し、前記ノイズ・データに従って前記ノイズ・データの周波数ケプストラム係数を取得し、EMアルゴリズムに従って前記周波数ケプストラム係数を処理してノイズ型モデルを確立するよう構成されたモデル確立ユニット305をさらに含む。
【0092】
モデル確立ユニット305は、実施形態2のステップS1022においてノイズ型モデルを事前確立するための方法を実行するよう構成されていてもよい。具体的な記述については、実施形態2の方法の記述が参照され、ここで繰り返して述べることはしない。
【0093】
本発明の技術的解決策は、音声識別装置を提供する。本装置では、ノイズ・シナリオが取得され、信頼値の調整値のあらかじめ記憶された経験的データおよびノイズ・シナリオに従って第二の信頼値が取得される。ノイズ・シナリオに基づいて信頼値を柔軟に調整する本装置はノイズ環境のもとでの音声識別率を大幅に改善する。
【0094】
任意的に、
図7は、本発明の実施形態4に基づく音声識別装置のもう一つの可能な概略的な構造図である。
【0095】
図7に示されるように、前記ノイズ・シナリオ・ユニットは具体的には:
前記取得ユニットの前記音声データに従って、前記音声データ中のノイズの周波数ケプストラム係数を取得し、前記ノイズの周波数ケプストラム係数および前記モデル確立ユニットの前記ノイズ型モデルに従って前記音声データのノイズ型を取得するよう構成されたノイズ型ユニット3021を含む。
【0096】
ここで、ノイズ型ユニット3021は、実施形態2のステップS1021およびS1022において記述される方法を実行するよう構成されていてもよい。具体的な記述については、実施形態2の方法の記述が参照され、ここで繰り返して述べることはしない。
【0097】
前記ノイズ・シナリオ・ユニットは具体的にはさらに:
前記取得ユニットの前記音声データに従って前記音声データの特徴パラメータを取得し、前記特徴パラメータに従って音声活動検出を実行し、前記音声活動検出の結果に従って前記ノイズ大きさを取得するよう構成されたノイズ大きさユニット3022を含む。
【0098】
ここで、ノイズ大きさユニット3022は、実施形態2のステップS1023、S1024およびS1025において記述される方法を実行するよう構成されていてもよい。具体的な記述については、実施形態2の方法の記述が参照され、ここで繰り返して述べることはしない。
【0099】
本発明の技術的解決策は、音声識別装置を提供する。本装置では、ノイズ・シナリオが取得され、信頼値の調整値のあらかじめ記憶された経験的データおよびノイズ・シナリオに従って第二の信頼値が取得される。ノイズ・シナリオに基づいて信頼値を柔軟に調整する本装置はノイズ環境のもとでの音声識別率を大幅に改善する。
【0100】
任意的に、
図8は、本発明の実施形態4に基づく音声識別装置のもう一つの可能な概略的な構造図である。
【0101】
図8に示されるように、本装置はさらに:
信頼閾値と、信頼値の調整値の経験的データとを記憶するよう構成された記憶ユニット306を含む。
【0102】
第二信頼値ユニット303は具体的には、前記ノイズ・シナリオと、前記記憶ユニット306によってあらかじめ記憶されている前記経験的データとの間の対応に従って、前記ノイズ・シナリオに対応する信頼値の調整値を取得し;
前記信頼値の調整値に従って前記第一の信頼値を調整して、第二の信頼値を取得するよう構成されている。ここで、前記調整は、増加、減少および不変のままを含む。
【0103】
第二信頼値ユニット303は、実施形態3のステップS1031およびS1032において記述される方法を実行するよう構成されていてもよい。具体的な記述については、実施形態3の方法の記述が参照され、ここで繰り返して述べることはしない。
【0104】
本発明の技術的解決策は、音声識別装置を提供する。本装置では、ノイズ・シナリオが取得され、信頼値の調整値のあらかじめ記憶された経験的データおよびノイズ・シナリオに従って第二の信頼値が取得される。ノイズ・シナリオに基づいて信頼値を柔軟に調整する本装置はノイズ環境のもとでの音声識別率を大幅に改善する。
【実施例5】
【0105】
図9は、本発明の実施形態5に基づくモバイル端末の概略的な構造図である。
【0106】
図9に示されるように、本モバイル端末はプロセッサおよびマイクロホンを含み、
前記マイクロホン501は音声データを取得するよう構成されており、
前記プロセッサ502は、前記音声データに従って第一の信頼値を取得し、前記音声データに従ってノイズ・シナリオを取得し、前記第一の信頼値に従って、前記ノイズ・シナリオに対応する第二の信頼値を取得し、前記第二の信頼値があらかじめ記憶された信頼閾値以上であれば、前記音声データを処理するよう構成されている。
【0107】
マイクロホン501およびプロセッサ502は、実施形態1のステップS100、S101、S102、S103およびS104に記述される方法を実行するよう構成されていてもよい。具体的な記述については、実施形態1の方法の記述が参照され、ここで繰り返して述べることはしない。
【0108】
本発明の技術的解決策は、モバイル端末を提供する。本モバイル端末では、ノイズ・シナリオが取得され、信頼値の調整値のあらかじめ記憶された経験的データおよびノイズ・シナリオに従って第二の信頼値が取得される。ノイズ・シナリオに基づいて信頼閾値を柔軟に調整する本モバイル端末はノイズ環境のもとでの音声識別率を大幅に改善する。
【0109】
任意的に、図10に示されるように、前記モバイル端末はさらに:信頼値の調整値の経験的データおよび前記信頼閾値を記憶するよう構成されたメモリ503を含む。
【0110】
前記プロセッサ502は具体的には、前記音声データに従ってノイズ・シナリオを取得し;前記ノイズ・シナリオと前記経験的データに従って、前記ノイズ・シナリオに対応する信頼値の調整値を取得し;前記信頼値の調整値に従って前記第一の信頼値を調整して前記第二の信頼値を取得し;前記第二の信頼値が前記信頼閾値以上であれば、前記音声データを処理するよう構成されている。
【0111】
以上の構造は、実施形態1、実施形態2および実施形態3の方法を実行するよう構成されていてもよい。具体的な記述については、実施形態1、実施形態2および実施形態3の方法の記述が参照され、ここで繰り返して述べることはしない。
【0112】
本発明の技術的解決策は、モバイル端末を提供する。本装置では、ノイズ・シナリオが取得され、信頼値の調整値のあらかじめ記憶された経験的データおよびノイズ・シナリオに従って第二の信頼値が取得される。ノイズ・シナリオに基づいて信頼値を柔軟に調整する本モバイル端末はノイズ環境のもとでの音声識別率を大幅に改善する。
【実施例6】
【0113】
図11に示されるように、この実施形態では、本発明の実施形態の具体的な記述のために携帯電話を例に取る。図における携帯電話は単に携帯電話の一例であり、携帯電話は図に示されるより多数または少数のコンポーネントを有していてもよく、二つ以上のコンポーネントを組み合わせていてもよく、あるいは異なるコンポーネント構成を有していてもよい。図に示されるさまざまなコンポーネントは、一つまたは複数の信号処理および/または専用の集積回路を含むハードウェアまたはソフトウェア、あるいはハードウェアとソフトウェアの組み合わせにおいて実装されてもよい。
【0114】
図11は、本発明のある実施形態に基づく携帯電話の概略的な構造図である。図11に示されるように、携帯電話は:タッチスクリーン41、メモリ42、CPU 43、電力管理チップ44、RF回路45、周辺インターフェース46、オーディオ回路47、マイクロホン48およびI/Oサブシステム49を含む。
【0115】
タッチスクリーン41は、携帯電話とユーザーとの間の入力インターフェース兼出力インターフェースであり、ユーザーのタッチ情報および制御情報を取得する機能に加えて、タッチスクリーンはユーザーに対する可視出力を表示することもする。ここで、可視出力は、グラフ、テキスト、アイコン、ビデオなどを含みうる。
【0116】
メモリ42は、処理の間にCPU 43によって使用される、信頼値の調整値の経験的データおよび前記信頼閾値を記憶するよう構成されていてもよい。メモリ42は、CPU 43および周辺インターフェース46によってアクセスされうる。メモリ42は高速ランダム・アクセス・メモリを含んでいてもよく、不揮発性メモリ、たとえば一つまたは複数の磁気ディスク記憶装置およびフラッシュ・メモリ・デバイス、あるいは別の揮発性半導体記憶デバイスをも含んでいてもよい。
【0117】
CPU 43は、オーディオ回路47およびマイクロホン48によって取得される音声データを処理して、音声データに従ってノイズ・シナリオおよび第一の信頼値を取得し;前記ノイズ・シナリオおよびメモリ42によってあらかじめ記憶されている信頼値の調整値の経験的データに従って第一の信頼値を調整して第二の信頼値を取得するよう構成されていてもよい。CPU 43は、携帯電話の制御センターであり、さまざまなインターフェースおよび線を使うことにより携帯電話全体の各部分を接続し、携帯電話のさまざまな機能を実行し、メモリ42に記憶されているソフトウェア・プログラムおよび/またはモジュールを走らせるもしくは実行し、メモリ42に記憶されているデータを呼び出すことによってデータを処理し、それにより携帯電話に対する全体的なモニタリングを実行する。任意的に、CPU 43は、一つまたは複数の処理ユニットを含んでいてもよい。好ましくは、CPU 43はアプリケーション・プロセッサおよび変調および復調プロセッサを統合していてもよい。任意的に、アプリケーション・プロセッサは主としてオペレーティング・システム、ユーザー・インターフェース、アプリケーション・プログラムなどを処理し、変調および復調プロセッサは主として無線通信を処理する。変調および復調プロセッサはCPU 43に統合されていなくてもよいことは理解されうる。さらに、以上の機能はCPU 43が実行できる機能のほんの一つであり、本発明の実施形態において他の機能は限定されないことは理解しておくべきである。
【0118】
電力管理チップ44は、CPU 43、I/Oサブシステム49および周辺インターフェース46に接続されたハードウェアのための電力供給および電力管理を実行するよう構成されていてもよい。
【0119】
RF回路45は主として、携帯電話と無線ネットワーク(すなわちネットワーク側)との間の通信を確立し、それにより携帯電話および無線ネットワークのデータ取得および送信、たとえばショートメッセージおよび電子メールの受信および送信を実装するよう構成されている。具体的には、RF回路45は、RF信号を取得し、送る。ここで、RF信号は電磁信号とも呼ばれる。RF回路45は電気信号を電磁信号に変換するまたは電磁信号を電気信号に変換し、該電磁信号を通じて通信ネットワークおよび他の装置との通信を実行する。RF回路45は、前記諸機能を実行するよう構成された既知の回路を含んでいてもよい。ここで、該回路はアンテナ・システム、RFトランシーバ、一つまたは複数の増幅器、チューナ、一つまたは複数の発振器、デジタル信号プロセッサ、コーデック・チップセット、加入者識別モジュール(SIM: Subscriber Identity Module)などを含むがこれに限られない。
【0120】
周辺インターフェース46は、装置の入力および出力周辺部をCPU 43およびメモリ42に接続してもよい。
【0121】
オーディオ回路47は主として周辺インターフェース46からオーディオ・データを取得し、該オーディオ・データを電気信号に変換するよう構成されていてもよい。
【0122】
マイクロホン48は音声データを取得するよう構成されていてもよい。
【0123】
I/Oサブシステム49は、前記装置上の入力および出力周辺を制御してもよい。I/Oサブシステム49はディスプレイ・コントローラ491および別の入力/制御装置を制御するよう構成された一つまたは複数の入力コントローラ492を含んでいてもよい。任意的に、一つまたは複数の入力コントローラ792は別の入力/制御装置から前記電気信号を取得する、または前記電気信号を別の入力/制御装置に送る。ここで、前記別の入力/制御装置は物理的なボタン(押しボタン、ロッカー・ボタンなど)、ダイヤル盤、スライド・スイッチ、ジョイスティックおよびクリッキング・ホイールを含んでいてもよい。入力コントローラ492は次のうちの任意のものに接続されうることを注意しておくべきである:キーボード、赤外線ポート、USBインターフェースおよびマウスのような指示装置。I/Oサブシステム49中のディスプレイ・コントローラ491は前記電気信号をタッチスクリーン41から取得するまたは前記電気信号をタッチスクリーン41に送る。タッチスクリーン41は該タッチスクリーン上のタッチを取得し、ディスプレイ・コントローラ491は得られたタッチをタッチスクリーン41上のユーザー・インターフェース・オブジェクトとの対話に変換する。すなわち、人‐機械対話を実装する。ここで、タッチスクリーン41上に表示されるユーザー・インターフェース・オブジェクトはゲーム実行のアイコン、対応するネットワークへの接続のアイコン、フィルタリング・モードなどであってもよい。前記装置が光学式マウスを含んでいてもよいことを注意しておくべきである。ここで、光学的マウスは可視出力を表示しないタッチ感応性表面である、またはタッチスクリーンによって形成されるタッチ感応性表面の延長である。
【0124】
マイクロホン48は大型スクリーン装置の音声データを取得し、該音声データを周辺インターフェース46およびオーディオ回路47を通じてCPU 43に送る。CPU 43は音声データを処理し、音声データに従ってノイズ・シナリオおよび第一の信頼値を取得し、ノイズ・シナリオおよびメモリ42によってあらかじめ記憶されている信頼値の調整値の経験的データに従って第一の信頼値を調整して第二の信頼値を取得し、第二の信頼値があらかじめ記憶されている信頼閾値以上であれば音声データを処理するよう構成されていてもよい。
【0125】
以上の構造は、実施形態1、実施形態2および実施形態3の方法を実行するよう構成されていてもよい。具体的な記述については、実施形態1、実施形態2および実施形態3の方法の記述が参照され、ここで繰り返して述べることはしない。
【0126】
本発明の技術的解決策は、音声識別のための携帯電話を提供する。本携帯電話では、ノイズ・シナリオが取得され、信頼値の調整値のあらかじめ記憶された経験的データおよびノイズ・シナリオに従って第二の信頼値が取得される。ノイズ・シナリオに基づいて信頼値を柔軟に調整する本携帯電話はノイズ環境の元での音声識別率を大幅に改善する。
【0127】
上記の実施形態における記述を通じて、当業者は、本発明の実施形態がハードウェアによって実装されても、あるいはファームウェアによって実装されても、あるいはハードウェアとファームウェアの組み合わせによって実装されてもよいことを明瞭に認識しうる。本発明がソフトウェアによって実装されるとき、以上の機能は装置可読媒体に記憶されていてもよいし、あるいは一つまたは複数のコマンドまたはコードとして前記装置可読媒体上で伝送されてもよい。前記装置可読媒体は装置記憶媒体および通信媒体を含む。任意的な通信媒体は、ある場所から別の場所への装置プログラムの伝送を容易にする任意の媒体を含む。記憶媒体は、装置がアクセスできる任意の使用可能な媒体でありうる。以下は、例として取られるべきであり、限定されるものではない。装置可読媒体は:RAM、ROM、EEPROM、CD-ROMまたは他の光ディスク・メモリ、ディスク記憶媒体または他のディスク記憶デバイスまたはコマンドもしくはデータ構造の形で期待されるプログラム・コードを担持もしくは記憶するために使用でき、装置によってアクセスできる他の任意の媒体を含みうる。さらに、任意の接続が適切に、装置可読媒体となりうる。たとえば、ソフトウェアが同軸ケーブル、光学式ケーブル、撚り対線、デジタル加入者線(DSL)または赤外線、電波もしくはマイクロ波のような無線技術を使って、ウェブサイト、サーバーまたは他のリモート源からの伝送を実装する場合、該同軸ケーブル、光学式ケーブル、撚り対線、DSLまたは赤外線、電波もしくはマイクロ波のような無線技術は、ホーム媒体の設備に含まれる。たとえば、本発明の実施形態において使用されるディスクは、コンパクトディスク(CD)、レーザー・ディスク、光ディスク、デジタル多用途ディスク(DVD)、フロッピー(登録商標)ディスクおよびブルーレイ・ディスクを含む。一般に、任意的なディスク(disk)はデータを磁気的に複製し、ディスク(disc)はレーザーを使って光学式にデータを複製する。以上の組み合わせも装置可読媒体の保護範囲にはいるべきである。
【0128】
最後に、上記の記述は単に本発明の実施形態であり、本発明の範囲を限定することは意図されていない。本発明の精神および原理の範囲内でなされる任意の修正、等価な置換および改善は本発明の保護範囲にはいる。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11