(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-04-28
(45)【発行日】2023-05-11
(54)【発明の名称】音声認識方法、装置、機器及び読み取り可能な記憶媒体
(51)【国際特許分類】
G10L 15/22 20060101AFI20230501BHJP
G10L 15/10 20060101ALI20230501BHJP
【FI】
G10L15/22 470F
G10L15/10 300J
(21)【出願番号】P 2020206159
(22)【出願日】2020-12-11
【審査請求日】2020-12-11
(31)【優先権主張番号】202010414058.6
(32)【優先日】2020-05-15
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】521208273
【氏名又は名称】阿波▲羅▼智▲聯▼(北京)科技有限公司
【氏名又は名称原語表記】APOLLO INTELLIGENT CONNECTIVITY(BEIJING)TECHNOLOGY CO.,LTD.
【住所又は居所原語表記】101, 1st Floor, Building 1, Yard 7, Ruihe West 2nd Road, Beijing Economic and Technological Development Zone, Beijing 100176, China
(74)【代理人】
【識別番号】110002952
【氏名又は名称】弁理士法人鷲田国際特許事務所
(72)【発明者】
【氏名】チョウ イー
(72)【発明者】
【氏名】イン チエ
(72)【発明者】
【氏名】チャン ロン
(72)【発明者】
【氏名】チェン チェン
【審査官】山下 剛史
(56)【参考文献】
【文献】中国特許出願公開第110619879(CN,A)
【文献】特開2016-91028(JP,A)
【文献】中国特許出願公開第109036420(CN,A)
【文献】特開2013-225115(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
音声認識方法であって、
取得した音声信号を認識することによって、第1のテキストを得ることと、
前記第1のテキストに対応する第1のピンインシーケンスを使用して、データベースの検索を行うことと、
前記データベースから前記第1のピンインシーケンスが検索されなかったことに応答して、前記第1のピンインシーケンスに基づいて、前記第1のピンインシーケンスにおける少なくとも1つのピンインを有する第2のピンインシーケンス及び前記第2のピンインシーケンスに対応する第2のテキストを探すためのファジー検索を行うことと、
前記音声信号の音声認識結果として前記ファジー検索によって得られた少なくとも1つの第2のテキストを選択することと、を含
み、
ユーザによって入力された、前記第2のテキストと第2のピンインシーケンスとの対応関係、及び前記第2のテキストの一般化テキストを示すための第2のデータストリームを認識することと、
前記第2のデータストリームをサーバに送信することと、をさらに含む音声認識方法。
【請求項2】
前記音声信号の音声認識結果として前記ファジー検索によって得られた少なくとも1つの第2のテキストを選択することは、
前記少なくとも1つの第2のテキストのうち各第2のテキストに対応する第2のピンインシーケンスと前記第1のピンインシーケンスとの類似度を決定することにより、複数の類似度を得ることと、
前記複数の類似度のうち最大の類似度に基づいて、前記少なくとも1つの第2のテキストから前記音声信号の音声認識結果を決定することと、を含む請求項1に記載の音声認識方法。
【請求項3】
前記複数の類似度のうち最大の類似度に基づいて、前記少なくとも1つの第2のテキストから前記音声信号の音声認識結果を決定することは、
前記最大の類似度が所定閾値以上である場合、前記最大の類似度に対応する第2のテキストを前記音声信号の音声認識結果として決定すること、又は
前記最大の類似度が前記所定閾値より小さい場合、前記第1のテキストを前記音声信号の音声認識結果として決定すること、を含む請求項2に記載の音声認識方法。
【請求項4】
前記最大の類似度が所定閾値以上である場合、前記最大の類似度に対応する第2のテキストを前記音声信号の音声認識結果として決定した後、さらに、
前記最大の類似度に対応する第2のテキストの一般化表に前記第1のテキストを追加し、前記一般化表は前記最大の類似度に対応する第2のテキストの一般化テキストを記憶するために用いられ、前記一般化テキストは前記第2のテキストと同じ意図を有することを含む、請求項3に記載の音声認識方法。
【請求項5】
前記最大の類似度に対応する第2のテキストと、前記第1のテキストと、前記第1のピンインシーケンスとの対応関係を持つ第1のデータストリームをサーバに送信することをさらに含む、請求項4に記載の音声認識方法。
【請求項6】
前記第1のテキストに対応する第1のピンインシーケンスを使用して、データベースの検索を行った後、さらに、
前記データベースから前記第1のピンインシーケンスが検索された場合、前記第1のピンインシーケンスに対応する第3のテキストを前記音声信号の音声認識結果として決定することを含む、請求項1~
5のいずれか1項に記載の音声認識方法。
【請求項7】
前記データベースから前記第1のピンインシーケンスが検索されなかったことに応答して、前記第1のピンインシーケンスに基づいてファジー検索を行う前に、さらに、
前記データベースに前記第1のテキストが存在しないことを決定することを含む、請求項1~
5のいずれか1項に記載の音声認識方法。
【請求項8】
音声認識装置であって、
取得した音声信号を認識することによって、第1のテキストを得るために用いられる認識モジュールと、
前記第1のテキストに対応する第1のピンインシーケンスを使用して、データベースの検索を行うために用いられる検索モジュールと、
前記データベースから前記第1のピンインシーケンスが検索されなかったことに応答して、前記第1のピンインシーケンスに基づいて、前記第1のピンインシーケンスにおける少なくとも1つのピンインを有する第2のピンインシーケンス及び前記第2のピンインシーケンスに対応する第2のテキストを探すためのファジー検索を行うために用いられるマッチングモジュールと、
前記音声信号の音声認識結果として前記ファジー検索によって得られた少なくとも1つの第2のテキストを選択するために用いられる決定モジュールと、を含
み、
前記音声認識装置は送信モジュールをさらに含み、前記認識モジュールは、さらに、ユーザによって入力された、前記第2のテキストと第2のピンインシーケンスとの対応関係、及び前記第2のテキストの一般化テキストを示すための第2のデータストリームを認識するために用いられ、
前記送信モジュールは、前記第2のデータストリームをサーバに送信するために用いられる、音声認識装置。
【請求項9】
前記マッチングモジュールは、前記少なくとも1つの第2のテキストのうち各第2のテキストに対応する第2のピンインシーケンスと前記第1のピンインシーケンスとの類似度を決定することにより、複数の類似度を得て、前記複数の類似度のうち最大の類似度に基づいて、前記少なくとも1つの第2のテキストから前記音声信号の音声認識結果を決定するために用いられる、請求項
8に記載の音声認識装置。
【請求項10】
前記決定モジュールは、前記複数の類似度のうち最大の類似度に基づいて、前記少なくとも1つの第2のテキストから前記音声信号の音声認識結果を決定するとき、前記最大の類似度が所定閾値以上である場合、前記最大の類似度に対応する第2のテキストを前記音声信号の音声認識結果と決定するために用いられ、又は、前記最大の類似度が前記所定閾値より小さい場合、前記第1のテキストを前記音声信号の音声認識結果として決定するために用いられる、請求項
9に記載の音声認識装置。
【請求項11】
前記最大の類似度が所定閾値以上である場合、前記決定モジュールが前記最大の類似度に対応する第2のテキストを前記音声信号の音声認識結果として決定した後、前記最大の類似度に対応する第2のテキストの一般化表に前記第1のテキストを追加するために用いられ、前記一般化表は前記最大の類似度に対応する第2のテキストの一般化テキストを記憶するために用いられ、前記一般化テキストは前記第2のテキストと同じ意図を有する追加モジュールをさらに含む、請求項
10に記載の音声認識装置。
【請求項12】
前記最大の類似度に対応する第2のテキストと、前記第1のテキストと、前記第1のピンインシーケンスとの対応関係を持つ第1のデータストリームをサーバに送信するために用いられる送信モジュールをさらに含む、請求項
11に記載の音声認識装置
。
【請求項13】
前記決定モジュールは、さらに、前記検索モジュールによって前記データベースから前記第1のピンインシーケンスが検索された場合、前記第1のピンインシーケンスに対応する第3のテキストを前記音声信号の音声認識結果として決定するために用いられる、請求項
8~
12のいずれか1項に記載の音声認識装置。
【請求項14】
前記決定モジュールは、さらに、前記マッチングモジュールが前記データベースから前記第1のピンインシーケンスが検索されなかったことに応答して、前記第1のピンインシーケンスに基づいてファジー検索を行う前に、前記データベースに前記第1のテキストが存在しないことを決定するために用いられる、請求項
8~
12のいずれか1項に記載の音声認識装置。
【請求項15】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されるメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行できる命令が記憶されており、前記少なくとも1つのプロセッサが請求項1~
7のいずれか1項に記載の音声認識方法を実行できるように、前記命令が前記少なくとも1つのプロセッサによって実行される、電子機器。
【請求項16】
コンピュータ命令を記憶している非一時的コンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項1~
7のいずれか1項に記載の音声認識方法を実行させるために用いられる非一時的コンピュータ読み取り可能な記憶媒体。
【請求項17】
音声認識方法であって、
音声信号を認識して第1のテキストを得ることと、
前記第1のテキストに対応する第1のピンインシーケンスに基づいてファジーマッチングを行って、前記第1のピンインシーケンスにおける少なくとも1つのピンインを有する複数の第2のピンインシーケンス及び前記第2のピンインシーケンスに対応する第2のテキストを得ることと、
前記複数の第2のテキストから前記音声信号の音声認識結果を決定することと、を含
み、
ユーザによって入力された、前記第2のテキストと第2のピンインシーケンスとの対応関係、及び前記第2のテキストの一般化テキストを示すための第2のデータストリームを認識することと、
前記第2のデータストリームをサーバに送信することと、をさらに含む音声認識方法。
【請求項18】
コンピュータに請求項1~
7のいずれか1項に記載の音声認識方法を実行させるコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本願の実施例は、人工知能(Artificial Intelligence、AI)に関し、特に音声認識方法、装置、機器及び読み取り可能な記憶媒体に関する。
【背景技術】
【0002】
人工知能の急速な発展に伴い、音声認識技術は携帯電話、車載端末などの製品に広く用いられている。音声認識技術は、実質上、ユーザが発した音声を文字に変換し、文字に基づいて対応する命令を実行するプロセスである。
【0003】
個人の発音及び地域の話し言葉の問題により、音声認識技術を使用して音声を認識すると、誤認しやすくなる。例えば、ユーザが発した「右座位加熱」(右の座席を温める)の音声信号を「有座位加熱」(温められた座席がある)とのテキストとして認識した場合、1つの誤認が1つの悪例と呼ばれる。誤認を避けるために、一般的には修正ファイルを作成し、新しい悪例が見つかるたびに、該悪例と該悪例の正しい結果との対応関係を修正ファイルに追加する。該修正ファイルは音声認識機能付きのアプリケーションプログラムのインストールパッケージにパッケージ化されており、ユーザがインストールパッケージをダウンロードしてインストールする。その後、ユーザが端末機器にインストールされた該アプリケーションの音声認識機能を使用する場合、誤認が発生すれば、端末機器は修正ファイルから正しい結果を探すことにより、音声認識の精度を向上させる。
【0004】
しかしながら、上記の修正ファイルを手作業で作成する方法では、全ての悪例をカバーするわけではないため、いくつかの悪例を見つけることが難しくなり、さらに、音声認識の精度が低くなる。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本願の実施例にて、誤認を自動的に修正することにより、音声認識の精度を向上させる音声認識方法、装置、機器及び読み取り可能な記憶媒体が提供される。
【課題を解決するための手段】
【0006】
第1の態様において、本願の実施例は、音声認識方法を提供し、電子機器が取得した音声信号を認識することによって、第1のテキストを得ることと、前記第1のテキストに対応する第1のピンインシーケンスを使用して、データベースの検索を行うことと、前記データベースから前記第1のピンインシーケンスが検索されなかったことに応答して、前記第1のピンインシーケンスに基づいて、前記第1のピンインシーケンスにおける少なくとも1つのピンインを有する第2のピンインシーケンス及び前記第2のピンインシーケンスに対応する第2のテキストを探すためのファジー検索を行うことと、前記音声信号の音声認識結果として前記ファジー検索によって得られた少なくとも1つの第2のテキストを選択することと、を含む。該解決手段によると、電子機器は音声信号を認識して第1のテキストを得て、データベースに該第1のテキストが存在しなければ、誤認が発生していることを意味し、この場合、電子機器はファジーマッチングなどにより誤認を自動的に修正し、正しい音声認識結果を得ることで、音声認識の精度を向上させる。また、異なるメーカーのコマンドセットに応じて、異なるデータベースを設定し、データベースを随時に調整することができ、人材と資材を節約するとともに、柔軟性が高い。
【0007】
第2の態様において、本願の実施例は音声認識装置を提供し、
取得した音声信号を認識することによって、第1のテキストを得るために用いられる認識モジュールと、
前記第1のテキストに対応する第1のピンインシーケンスを使用して、データベースの検索を行うために用いられる検索モジュールと、
前記データベースから前記第1のピンインシーケンスが検索されなかったことに応答して、前記第1のピンインシーケンスに基づいて、前記第1のピンインシーケンスにおける少なくとも1つのピンインを有する第2のピンインシーケンス及び前記第2のピンインシーケンスに対応する第2のテキストを探すためのファジー検索を行うために用いられるマッチングモジュールと、
前記音声信号の音声認識結果として前記ファジー検索によって得られた少なくとも1つの第2のテキストを選択するために用いられる決定モジュールと、を含む。
【0008】
第3の態様において、本願の実施例は電子機器を提供し、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されるメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行できる命令が記憶されており、前記少なくとも1つのプロセッサが第1の態様又は第2の態様の任意の実現可能な方法を実行できるように、前記命令が前記少なくとも1つのプロセッサによって実行される。
【0009】
第4の態様において、本願の実施例は、電子機器上で実行されるとき、電子機器コンピュータに、上記第1の態様又は第1の態様の各種の可能な実施形態における方法を実行させるようにする、命令を含むコンピュータプログラム製品を提供する。
【0010】
第5の態様において、本願の実施例は、前記電子機器に上記第1の態様又は第1の態様の各種の可能な実施形態における方法を実行させるために用いられるコンピュータ命令を記憶している非一時的コンピュータ読み取り可能な記憶媒体を提供する。
【0011】
第6の態様において、本願の実施例は音声認識方法を提供し、音声信号を認識して第1のテキストを得ることと、前記第1のテキストに対応する第1のピンインシーケンスに基づいてファジーマッチングを行って、前記第1のピンインシーケンスにおける少なくとも1つのピンインを有する複数の第2のピンインシーケンス及び前記第2のピンインシーケンスに対応する第2のテキストを得ることと、前記複数の第2のテキストから前記音声信号の音声認識結果を決定することとを含む。
【発明の効果】
【0012】
上記出願の1つの実施例は、電子機器は音声信号を認識して第1のテキストを得、データベースに該第1のテキストが存在しなければ、誤認が発生していることを意味し、この場合、電子機器はファジーマッチングなどにより誤認を自動的に修正して、正しい音声認識結果を得ることで、音声認識の精度を向上させ、また、異なるメーカーのコマンドセットに応じて、異なるデータベースを設定し、データベースを随時に調整することができ、人材と資材を節約するとともに、柔軟性が高いという利点又は有益な効果を有する。
【0013】
このセクションに記載された内容は、本開示の実施例の主要な特徴又は重要な特徴を特定することを意図しておらず、本開示の範囲を限定するものでもないことが理解されたい。本開示の他の特徴は、以下の説明によって容易に理解されるであろう。
【図面の簡単な説明】
【0014】
図面は、本発明の態様をよりよく理解するためのものであり、本発明を限定するものではない。
【
図1】本願の実施例にて提供される音声認識方法の環境を示す模式図である。
【
図2】本願の実施例にて提供される音声認識方法のフローチャートである。
【
図3】本願の実施例にて提供される音声認識方法のアルゴリズムブロック図である。
【
図4】本開示の実施例にて提供される音声認識装置の構成を示す模式図である。
【
図5】本開示の実施例にて提供される他の音声認識装置の構成を示す模式図である。
【
図6】本開示の実施例の音声認識方法を実現する電子機器のブロック図である。
【発明を実施するための形態】
【0015】
本発明の例示的な実施例は、理解を容易にするために本発明の実施例の様々な詳細を含む添付の図面と関連して以下に説明され、それらは単に例示的なものとみなされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載された実施例に対して様々な変更及び修正を行うことができることを認識するであろう。また、以下の説明では、明確及び簡明にするため、周知の機能及び構成についての記載は省略する。
【0016】
近年、音声認識機能を備えた電子製品、例えば音声アシスタント、スマートスピーカ、車両端末などが多くなってきている。音声認識の過程で、地域の話し言葉などにより、誤認が発生しやすく、1つの誤認は1つの悪例と呼ばれる。例えば、ユーザが発する音声は「右座位加熱」であり、電子製品は「有座位加入」であると認識し、ユーザが発する音声は「吸煙模式」(喫煙モード)であり、電子製品は「先模式」(先のモード)であると認識する。誤認を避けるために、修正ファイルの作成及び音声認識エンジンのトレーニングを含む処理方法が一般的である。
【0017】
修正ファイルの作成という方法では、音声アシスタントなどのインストールパッケージに悪例と正しい結果との対応関係が保存されている修正ファイルを作成する。新しい悪例が見つかるたびに、1つの該新しい悪例と該悪例の正しい結果との対応関係を修正ファイルに追加する。このような方式は新しいバージョンを継続的にリリースする必要があり、バージョンのメンテナンスに不利である。かつ、一部の業界では、例えば、自動車業界では、コマンドリスト(command list)におけるコマンドが数千以上あり、異なるメーカーの異なる車種のコマンドリストが異なるため、修正ファイルは様々なコマンドの悪例をカバーできない。誤認が発生した場合、正しい結果が修正ファイルに追加されていないと、音声認識エンジンはユーザが発する音声を認識できない。
【0018】
音声認識エンジンのトレーニングするという方法では、多数のサンプルを使用して音声認識エンジンをトレーニングすることで、音声認識エンジンは「右座位加熱」を発したのか、或いは「有座位加熱」を発したのかなどを区別できる。同様に、コマンドリスト(command list)におけるコマンドが多いため、各コマンドの悪例をすべてトレーニングすると、多くの人材と資材がかかる。
【0019】
本願の実施例は、これに鑑みてなされてもので、誤認を自動的に修正することにより、音声認識の精度を向上させる音声認識方法、装置、機器及び読み取り可能な記憶媒体を提供する。
【0020】
まず、本願の実施例に係る名詞を解釈する。
【0021】
第1のテキストとは、電子機器における音声認識エンジンが音声信号を認識して得られた漢字句である。例えば、ユーザが発する音声信号は「吸煙模式」である場合、ユーザが地域なまりを持たなければ、つまりユーザの標準語が非常に標準的であれば、音声認識エンジンが音声信号を認識して得られた第1のテキストは「吸煙模式」であり、ユーザの標準語が標準的ではなければ、音声認識エンジンが音声信号を認識して得られた第1のテキストは「先模式」である。
【0022】
第2のテキストとは、データベースに第1のテキストに対応する第1のピンインシーケンスが存在しない場合、ファジー検索によって得られたテキストであり、第2のテキストに対応する第2のピンインシーケンスは第1のピンインシーケンスにおける少なくとも1つのピンインを含む。
【0023】
第3のテキストについては、データベースに第1のテキストに対応する第1のピンインシーケンスが存在する場合、該第1のピンインシーケンスに対応する正しいテキストが第3のテキストである。電子機器に誤認が発生しなかった場合、第3のテキストは第1のテキストと同じであり、電子機器に誤認が発生した場合、第3のテキストは第1のテキストと異なる。該第3のテキストにさらに一般化テキストを有すれば、該第1のピンインシーケンスはさらに複数の一般化テキストに対応する。例えば、第1のピンインシーケンスは「you zuo wei jia re」であり、対応する正しいテキストは「右座位加熱」であり、一般化テキストは「有座位加熱」である。
【0024】
一般化テキストとは、音声認識エンジンが音声を認識して得られたエラー結果であり、例えばユーザは元々「右座位加熱」を表現したかったが、標準語が標準的ではなく、地域なまりなどが原因で、音声認識エンジンはユーザが発する音声を「有座位加熱」として誤って認識することになる。本願の実施例において、正しいテキストに対応するピンインシーケンスと一般化テキストに対応するピンインシーケンスは同じ又は類似であってよい。
【0025】
データベースとは、電子機器のローカルデータベースで、正しいテキストとピンインシーケンスとの対応関係、及び正しいテキストの一般化テキストを記憶するために用いられる。一般化テキストを有する正しいテキストも、一般化テキストを有していない正しいテキストもある。正しいテキストが一般化テキストを有する場合、該正しいテキストは、正しいテキストと同じ意図を持つテキストである一般化テキストを少なくとも1つ有する。例示的に、表1を参照する。
【0026】
【0027】
[表1]を参照すると、例えば、正しいテキストは「吸煙模式」であり、対応するピンインシーケンスは「xi yan mo shi」であり、一般化表に記憶されている一般化テキストは「先模式」、「西安模式」などを含む。
【0028】
車両端末について、データベースはメーカー毎の異なる車種の車のコマンドリスト(command list)などである。
【0029】
図1は本願の実施例にて提供される音声認識方法の環境を示す模式図である。
図1に示すように、ユーザが電子機器の音声感知範囲内で音声信号を発し、電子機器は該音声信号を取得し、取得した音声信号を認識して第1のテキストを得て、該第1のテキストを第1のピンインシーケンスに変換する。データベースに第1のピンインシーケンスが存在する場合、該第1のピンインシーケンスに対応する第3のテキストを音声認識結果とする。データベースに第1のピンインシーケンスが存在しない場合、ファジー検索により少なくとも1つの第2のテキストを得て、少なくとも1つの第2のテキストのうち1つ以上を音声認識結果とする。
【0030】
図1では、電子機器は、パーソナルコンピュータ、サーバなどの様々なタイプのコンピューティング機器としてもよく、例えば、携帯電話、スマートスピーカ、タブレットコンピュータ、車両端末、独立して配置されるサーバ又はサーバ群などが挙げられるが、本願の実施例は限定しない。本願の実施例は音声検索、買い物案内、インテリジェントナビゲーションなどの様々なシーンに適用することができる。
【0031】
図1の音声信号は電子機器の感知範囲内でユーザが発した音声信号であるが、本願の実施例はこれに限定されるものではないことが理解できる。例えば、電子機器はサーバから音声信号を取得することや、電子機器はローカルメモリから音声信号を取得することがある。
【0032】
以下、
図1に基づいて、本願の実施例に記載の音声認識方法を詳細に説明し、例示的に、
図2に示すとおりである。
【0033】
図2は本願の実施例にて提供される音声認識方法のフローチャートであり、本実施例は電子機器の観点から本願の実施例を詳細に説明し、本実施例は101~105を含む。
【0034】
101、取得した音声信号を認識することによって、第1のテキストを得る。
【0035】
例示的に、電子機器の音声感知範囲内でユーザが音声信号を発し、電子機器は該音声信号を収集して該音声信号を認識することによって、第1のテキストを得る。例えば、ユーザが発する音声信号は「世界之窓怎麼走」であるが、地域なまり、検索頻度などの問題の原因で、電子機器での音声認識エンジンが認識した第1のテキストは「視覚之窓怎麼走」である。
【0036】
102、前記第1のテキストに対応する第1のピンインシーケンスを使用して、データベースの検索を行う。
【0037】
例示的に、データベースにピンインシーケンスとテキストとの対応関係が記憶され、テキストは正しいテキスト及び一般化テキスト(存在すれば)を含む。電子機器は音声信号を認識して第1のテキストを得た後、漢字とピンインとの対応関係に基づいて、第1のテキストを第1のピンインシーケンスに変換する。変換過程において、電子機器は第1のテキスト全体を変換し、又は第1のテキストから重要な部分を抽出して変換する。例えば、第1のテキストは「可以増加空調温度麼」であると、第1のピンインシーケンスは「ke yi zeng jia kong tiao wen du me」又は「zeng jia kong tiao wen du」である。
【0038】
電子機器は該第1のテキストを第1のピンインシーケンスに変換した後、データベースを検索することにより、該データベースに第1のピンインシーケンスが存在するか否かを決定する。データベースに第1のピンインシーケンスが存在しない場合、ステップ103を実行し、データベースに第1のピンインシーケンスが存在する場合、ステップ105を実行する。
【0039】
103、前記データベースから前記第1のピンインシーケンスが検索されなかったことに応答して、前記第1のピンインシーケンスに基づいてファジー検索を行う。
【0040】
ここで、前記ファジー検索は前記第1のピンインシーケンスにおける少なくとも1つのピンインを有する第2のピンインシーケンス及び前記第2のピンインシーケンスに対応する第2のテキストを探すために用いられる。
【0041】
データベースに該第1のピンインシーケンスが存在しない場合、音声認識エンジンによって認識された第1のテキストは正しいテキストではないこと、又は、音声認識エンジンにとって、第1のテキストは、例えば、知らないコマンドのように、知らないテキストであることが示される。前者については、誤り修正処理を行う必要があり、すなわち、ピンイン規則に基づいてデータベースからユーザの本来の意図を決定し、音声認識結果としてデータベースから第2のテキストを決定する。後者については、該第1のテキストを新しい正しいテキストとしてデータベースに追加するか否かを考慮する必要がある。
【0042】
誤り修正処理が必要なシーンについて、電子機器は第1のテキストに対応する第1のピンインシーケンスに基づいてファジー検索を行って、第1のピンインシーケンスにおける少なくとも1つのピンインを含む複数の第2のピンインシーケンス及び各第2のピンインシーケンスに対応する第2のテキストを前記データベースから決定する。
【0043】
例示的に、ユーザが発した音声信号が音声認識エンジンによって認識された後、得られた第1のテキストは「先模式」であり、第1のテキストをピンイン変換して得られた第1のピンインシーケンスは「xian mo shi」である。電子機器はデータベースに「xian mo shi」というピンインシーケンスが存在しないことを見つける。この場合、電子機器は第1のピンインシーケンス「xian mo shi」に対して単語分割処理を行い、それを「xian」と「moshi」に分割する。次に、電子機器は「xian」と「moshi」のそれぞれに対してファジーマッチングを行う。
【0044】
データベースにすでに記憶された正しいテキストとピンインシーケンスとの対応関係は、1、xi an->西安と、2、xi yan mo shi->吸煙模式と、3、kong tiao mo shi->空調模式と、4、xiu xian mo shi->休閑模式とを含むと仮定する。ファジーマッチング過程において、電子機器は、データベースに「xian」が含まれるピンインが「xi an」を含み、対応する第2のテキストが「西安」であり、ピンイン「xian」と類似するピンインが「xi yan」及び「xiu xian」を含み、対応する第2のテキストが「休閑模式」、及び「吸煙模式」であることを見つける。電子機器が「xian」に基づいて決定した第2のテキストは西安、吸煙模式及び休閑模式を含む。同様に、電子機器が「moshi」に基づいて決定した第2のテキストは吸煙模式、空調模式及び休閑模式を含む。
【0045】
104、前記音声信号の音声認識結果として前記ファジー検索によって得られた少なくとも1つの第2のテキストを選択する。
【0046】
上記ステップ102の例を引き続き使用すると、第2のテキストは西安、吸煙模式、休閑模式、及び空調模式を含む。音声信号の音声認識結果を決定する過程において、電子機器は音声信号の認識結果として、これらの第2のテキストから1つ以上を選択し、例えば、音声認識結果として「吸煙模式」を選択する。
【0047】
105、第1のピンインシーケンスに対応する正しいテキストを音声認識結果とする。
【0048】
データベースに第1のピンインシーケンスが存在する場合、データベースに該第1のピンインシーケンスに対応する正しいテキストが存在することが示される。この場合、該第1のピンインシーケンスに対応する正しいテキストを音声認識結果とする。例えば、ユーザが発した音声信号が音声認識エンジンによって認識された後、得られた第1のテキストは「有座位加熱」であり、該第1のテキストに基づいて得られた第1のピンインシーケンスは「you zuo wei jia re」である。しかし、データベースに「you zuo wei jia re」に対応する正しいテキストは「右座位加熱」であり、従って、電子機器は「右座位加熱」を音声認識結果とする。
【0049】
本願の実施例にて提供される音声認識方法にて、電子機器は音声信号を認識して第1のテキストを得て、データベースに該第1のテキストに対応する第1のピンインシーケンスが存在すれば、第1のピンインシーケンスに対応する正しいテキストを音声認識結果とし、そうでなければ、第1のピンインシーケンスに対してファジーマッチングを行って、複数の第2のピンインシーケンス及び第2のピンインシーケンスに対応する第2のテキストを得て、複数の第2のテキストから音声認識結果を選択する。該過程において、電子機器は音声信号を認識して第1のテキストを得、データベースに該第1のテキストが存在しなければ、誤認が発生していることを意味し、この場合、電子機器はファジーマッチングなどにより誤認を自動的に修正して、正しい音声認識結果を得ることで、音声認識の精度を向上させる。また、異なるメーカーのコマンドセットに応じて、異なるデータベースを設定し、データベースを随時に調整することができ、人材と資材を節約するとともに、柔軟性が高い。
【0050】
上記実施例において、電子機器はデータベースに前記第1のテキストに対応する第1のピンインシーケンスが存在するか否かを決定する前に、さらに前記データベースに第1のテキストが存在するか否かを決定し、データベースに該第1のテキストが存在しなければ、本願の実施例に記載の解決手段を実施し、データベースに該第1のテキストが存在すれば、該第1のテキストが正しいテキストであるか一般化テキストであるかを決定し続け、該第1のテキストが正しいテキストであれば、該第1のテキストを音声認識結果とし、該第1のテキストが一般化テキストであれば、該一般化テキストに対応する正しいテキストを音声認識結果とする。
【0051】
例示的に、電子機器が第1のテキストを得た後、該第1のテキストが「先模式」であると仮定し、データベースにおいて該第1のテキスト「先模式」が存在しなければ、該第1のテキストが修正されていなく、修正する必要があることを示し、本願の方法を実行し、データベースに該第1のテキストが存在すれば、該第1のテキストがすでに修正されたこと、又は該第1のテキストが元々正しいテキストであることを示す。例えば、データベースに一般化テキスト「先模式」がすでに存在する場合、該一般化テキストに対応する正しいテキスト「吸煙模式」を直接音声認識結果とし、「先模式」に対してピンイン変換及びファジーマッチングなどを行う必要がない。該解決手段によると、全ての第1のテキストに対してピンイン変換などを行う必要がないため、音声認識の速度を向上させる。
【0052】
図3は本願の実施例にて提供される音声認識方法のアルゴリズムブロック図であり、本実施例は以下のフローを含む。
【0053】
まず、電子機器の音声認識エンジンの認識結果を修正アルゴリズムに入力させる。
【0054】
例示的に、音声認識エンジンの認識結果は上記第1のテキストである。
【0055】
次に、電子機器は修正アルゴリズムを使用して第1のテキストを処理する。
【0056】
例示的に、電子機器は第1のテキストを第1のピンインシーケンスに変換し、第1のピンインシーケンスに基づいて処理し、以下の2つの状況を含む。
【0057】
1つ目の状況:データベースに第1のピンインシーケンスが存在する。
【0058】
例示的に、電子機器はデータベースを問い合わせ、データベースに第1のピンインシーケンスが存在するか否かを判定し、存在すれば、該第1のピンインシーケンスに対応する正しいテキストを採点システムに返信する。例えば、第1のテキストが「有座位加熱」であり、第1のピンインシーケンスが「you zuo wei jia re」である場合、データベースは「you zuo wei jia re」に対応する正しいテキスト「右座位加熱」を採点システムに返信する。採点システムによる「右座位加熱」に対する採点が満点であれば、又は所定閾値を超えれば、第1のテキスト「右座位加熱」をデータベースに返信することで、データベースは該「有座位加熱」を「右座位加熱」の一般化テキストとする。該解決手段によると、データベース更新の目的が実現される。
【0059】
2つ目の状況:データベースに第1のピンインシーケンスが存在しない。
【0060】
電子機器は、第1のピンインシーケンスを単語分割処理して複数のピンインを得、前記複数のピンインにおける各ピンインに対して、前記データベースから該ピンインを含む第2のピンインシーケンス及び各第2のピンインシーケンスに対応する第2のテキストを決定する。
【0061】
例示的に、第1のピンインシーケンスが「xian mo shi」であり、「xian」と「moshi」に分割されると仮定すると、電子機器が「xian」に基づいて決定した第2のテキストは西安、吸煙模式及び休閑模式を含む。同様に、電子機器が「moshi」に基づいて決定した第2のテキストは吸煙模式、空調模式及び休閑模式を含む。該解決手段によると、単語のファジーマッチングにより複数の正しいテキストが決定され、マッチング範囲を小さくするという目的が実現される。
【0062】
電子機器は複数の第2のテキストを決定した後、これらの第2のテキストと第1のテキストを採点システムに送信し、採点システムはこれらの第2のテキスト及び第1のテキストに基づいて音声認識結果を決定する。
【0063】
例示的に、電子機器は前記複数の第2のテキストにおける各第2のテキストの第2のピンインシーケンスと前記第1のピンインシーケンスとの類似度を決定することによって、複数の類似度を得て、次に、前記複数の類似度のうち最大の類似度に基づいて、前記対象テキストを決定する。
【0064】
上記の例を引き続き使用すると、採点システムはピンイン規則に基づいて採点し、「xian mo shi」と、「xian」、「xi yan mo shi」、「xiu xian mo shi」、「kong tiao mo shi」のそれぞれとの類似度を判定し、複数の類似度を得る。
【0065】
複数の類似度を決定した後、電子機器はこれらの類似度のうち最大の類似度が所定閾値を超えるか否かを判定し、最大の類似度が所定閾値以上である場合、前記音声認識結果が前記最大の類似度に対応する第2のテキストであることを決定し、前記最大の類似度が前記所定閾値より小さい場合、第1のテキストを音声認識結果とする。
【0066】
例示的に、これらの類似度において、「xian mo shi」と「xi yan mo shi」との類似度が最高でかつ類似度が所定閾値を超えれば、「xi yan mo shi」に対応する第2のテキストを音声認識結果とする。つまり、電子機器の音声認識エンジンがユーザの音声信号を「先模式」と認識しても、修正した後、得た正しい音声認識結果は「吸煙模式」である。次に、電子機器はデータベースにおける第2のテキスト「吸煙模式」の一般化表に第1のテキスト「先模式」を追加する。その後、電子機器の音声認識エンジンは再び「先模式」が認識された場合、ピンイン変換を必要とせず、データベースを直接クエリーして、正しい音声認識結果が「吸煙模式」であることを決定することができる。該解決手段によると、採点規則によりデータベース全体を一般化することができ、人手による上書きを必要とせず、人件費を削減する。
【0067】
最大の類似度が所定閾値より小さい場合、第1のテキストを音声認識結果とする。例示的に、第1のテキストが「吸煙模式」であり、対応する第1のピンインシーケンスが「xi yan mo shi」であると仮定する。しかし、データベースに「xi yan mo shi」ピンインシーケンスが存在せず、単語のファジーマッチングによって得られた第2のテキストは「kong tiao mo shi」及び「xian」を含むが、採点システムは「xi yan mo shi」と「kong tiao mo shi」との類似度が所定閾値より小さく、「xi yan mo shi」と「xian」との類似度が所定閾値より小さいことを見つける。この場合、採点システムはデータベースに「吸煙模式」を返信することで、データベースが「吸煙模式」を正しいテキストとし、「吸煙模式」と「xi yan mo shi」との対応関係を記憶するようにする。
【0068】
上記実施例において、最大の類似度が所定閾値以上である場合、電子機器は最大の類似度に対応する第2のテキストを前記音声信号の音声認識結果とした後、さらに、前記最大の類似度に対応する第2のテキストの一般化表に前記第1のテキストを追加し、該一般化表は前記最大の類似度に対応する第2のテキストの一般化テキストを記憶するために用いられ、前記一般化テキストは前記第2のテキストと同じ意図を有する。次に、電子機器は、前記最大の類似度に対応する第2のテキストと、前記第1のテキストと、前記第1のピンインシーケンスとの対応関係を持つ第1のデータストリームをサーバに送信する。
【0069】
例示的に、電子装置は、クラウドのサーバが、異なる電子装置によって報告されたデータベースにおける正しいテキスト及び一般化テキストに対して、統合したり、重複を除去したりし、統合後のデータベースを対応する車種に配信するように、データベースをサーバに定期的に同期させることができる。例えば、電子機器は、本願の実施例に記載の方法を実行するための車両端末であり、車両端末は継続的に改善されるデータベースをクラウドのサーバに同期化し、クラウドは該データベースを統合したりして、他の車両端末機器に配信する。該過程において、送信側の車両端末と受信側の車両端末は、メーカー、車種が同じであっても、異なってもよく、本願の実施例は限定しない。該解決手段によると、オフラインで修正されたデータベースをクラウドに同期化し統合することにより、データ共有の目的が実現される。
【0070】
上記実施例において、電子機器は音声を認識する過程において、データベースを継続的に改善し、改善されたデータベースを、統合を行うクラウドで同期化する。しかしながら、本発明の実施例は限定せず、他の実行可能な実施形態において、電子機器は、ユーザによって入力された、前記第2のテキストと第2のピンインシーケンスとの対応関係、及び前記第2のテキストの一般化テキストを示すための第2のデータストリームをさらに認識し、前記第2のデータストリームをサーバに送信することができる。
【0071】
例示的に、ユーザは、端末機器により、第2のテキストと、第2のピンインシーケンスと、第2のテキストの一般化テキストとの対応関係を、端末ローカルの修正アルゴリズムを必要とせず、サーバに直接送信してもよい。該解決手段によると、サーバに悪例を柔軟に提供するという目的が実現される。
【0072】
以上は本開示の実施例で言及された音声認識方法の具体的な実施を説明し、以下は本開示に係る装置の実施例であり、本開示に係る方法の実施例を実行するためのものとしてもよい。本開示に係る装置の実施例に開示されていない詳細について、本開示に係る方法の実施例を参照する。
【0073】
図4は本開示の実施例にて提供される音声認識装置の構成を示す模式図である。該装置は電子機器に集積されてもよく、電子機器により実現されてもよい。
図4に示すとおり、本実施例において、該音声認識装置100は認識モジュール11と、検索モジュール12と、マッチングモジュール13と、決定モジュール14とを含みえる。
【0074】
認識モジュール11は、取得した音声信号を認識することによって、第1のテキストを得るために用いられる。
【0075】
検索モジュール12は、前記第1のテキストに対応する第1のピンインシーケンスを使用して、データベースの検索を行うために用いられる。
【0076】
マッチングモジュール13は、前記データベースから前記第1のピンインシーケンスが検索されなかったことに応答して、前記第1のピンインシーケンスに基づいて、前記第1のピンインシーケンスにおける少なくとも1つのピンインを有する第2のピンインシーケンス及び前記第2のピンインシーケンスに対応する第2のテキストを探すためのファジー検索を行うために用いられる。
【0077】
決定モジュール14は、前記音声信号の音声認識結果として前記ファジー検索によって得られた少なくとも1つの第2のテキストを選択するために用いられる。
【0078】
1つの可能な設計において、前記決定モジュール14は、前記少なくとも1つの第2のテキストのうち各第2のテキストに対応する第2のピンインシーケンスと前記第1のピンインシーケンスとの類似度を決定することにより、複数の類似度を得て、前記複数の類似度のうち最大の類似度に基づいて、前記少なくとも1つの第2のテキストから前記音声信号の音声認識結果を決定するために用いられる。
【0079】
1つの可能な設計において、前記決定モジュール14は、前記複数の類似度のうち最大の類似度に基づいて、前記少なくとも1つの第2のテキストから前記音声信号の音声認識結果を決定するとき、前記最大の類似度が所定閾値以上である場合、前記最大の類似度に対応する第2のテキストを前記音声信号の音声認識結果として決定するために用いられ、又は、前記最大の類似度が前記所定閾値より小さい場合、前記第1のテキストを前記音声信号の音声認識結果として決定するために用いられる。
【0080】
図5は本開示の実施例にて提供される他の音声認識装置の構成を示す模式図である。
図5に示すとおり、1つの可能な設計において、上記の音声認識装置100はさらに追加モジュール15を含む。
【0081】
追加モジュール15は、前記最大の類似度が所定閾値以上である場合、前記決定モジュール14が前記音声信号の音声認識結果として前記最大の類似度に対応する第2のテキストを決定した後、前記最大の類似度に対応する第2のテキストの一般化表に前記第1のテキストを追加するために用いられ、ここで前記一般化表は前記最大の類似度に対応する第2のテキストの一般化テキストを記憶するために用いられ、前記一般化表は前記第2のテキストと同じ意図を有する。
【0082】
図5に示すとおり、1つの可能な設計において、上記音声認識装置100はさらに送信モジュール16を含む。
【0083】
送信モジュール16は、前記最大の類似度に対応する第2のテキストと、前記第1のテキストと、前記第1のピンインシーケンスとの対応関係を持つ第1のデータストリームをサーバに送信するために用いられる。
【0084】
1つの可能な設計において、前記認識モジュール11はさらに、ユーザによって入力された、前記第2のテキストと第2のピンインシーケンスとの対応関係、及び前記第2のテキストの一般化テキストを示すための第2のデータストリームを認識するために用いられ、
前記送信モジュール16は、前記第2のデータストリームをサーバに送信するために用いられる。
【0085】
1つの可能な設計において、前記決定モジュール14は、前記認識モジュール11が音声信号を認識して第1のテキストを得た後、さらに、前記検索モジュール12によって前記データベースから前記第1のピンインシーケンスが検索された場合、前記第1のピンインシーケンスに対応する第3のテキストを前記音声信号の認識結果として決定するために用いられる。
【0086】
1つの可能な設計において、前記マッチングモジュール13によって前記データベースから前記第1のピンインシーケンスが検索されなかったことに応答して、前記第1のピンインシーケンスに基づいてファジー検索を行う前に、前記決定モジュール14は、さらに、前記データベースに前記第1のテキストが存在しないことを決定するために用いられる。
【0087】
本開示の実施例にて提供される音声認識装置は、以上の実施例において実行する方法に用いることができ、その実現原理と技術効果が類似し、ここでは省略する。
【0088】
本願の実施例によれば、本願はさらに電子機器及び読み取り可能な記憶媒体を提供する。
【0089】
図6は本開示の実施例の音声認識方法を実現する電子機器のブロック図である。電子機器はラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことが意図される。電子機器はさらに、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティング装置などの様々な形態の移動装置を表し得る。本明細書に示される構成要素、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記載及び/又は請求される本出願の実施を限定することを意図していない。
【0090】
図6に示すように、該電子機器は、1つ以上のプロセッサ21と、メモリ22と、高速インタフェースと低速インタフェースとを含む、各構成要素を接続させるためのインタフェースとを含む。各構成要素は、異なるバスで互いに接続され、共通のマザーボード上に実装されてもよいし、必要に応じて、他の形態で実装されてもよい。プロセッサは電子機器内で実行される命令を処理でき、前記命令は、外部入力/出力装置(例えば、インタフェースと結合する表示機器)上にGUIのグラフィック情報を表示するためのメモリ中又はメモリ上に記憶される命令を含む。他の実施形態において、複数のプロセッサ及び/又は複数のバスを、必要に応じて複数のメモリと共に使用してもよい。同様に、それぞれが一部の必要な操作(例えば、サーバアレイ、1群のブレードサーバ、又はマルチプロセッサシステムとして)を提供する複数の電子機器を接続してもよい。
図6では、1つのプロセッサ21を例に挙げる。
【0091】
メモリ22は本願にて提供される非一時的コンピュータ読み取り可能な記憶媒体である。ここで、前記メモリは、少なくとも1つのプロセッサによって実行される命令を記憶していることで、前記少なくとも1つのプロセッサに本願にて提供される音声認識方法を実行させる。本願の非一時的コンピュータ読み取り可能な記憶媒体は、コンピュータに本願にて提供される音声認識方法を実行させるためのコンピュータ命令を記憶する。
【0092】
メモリ22は、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム及びモジュール、例えば本願の実施例における音声認識方法に対応するプログラム命令/モジュール(例えば、
図4に示す認識モジュール11、検索モジュール12、マッチングモジュール13、決定モジュール14及び
図5に記載の追加モジュール15と送信モジュール16)を記憶するために使用され得る非一時的コンピュータ読み取り可能な記憶媒体として機能する。プロセッサ21はメモリ22に記憶された非一時的ソフトウェアプログラム、命令及びモジュールを実行することによって、様々な機能アプリケーション及びデータ処理を実行し、即ち、上記方法の実施例における音声認識方法を実現する。
【0093】
メモリ22は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションを記憶できるプログラム記憶領域と、電子機器の使用により作成されたデータなどを記憶できるデータ記憶領域とを含む。また、メモリ22は、高速ランダムアクセスメモリを含んでもよく、さらに、少なくとも1つの磁気ディスクメモリデバイス、フラッシュメモリデバイス、又は他の非一時的ソリッドステートメモリデバイスなどの非一時的メモリを含んでもよい。いくつかの実施形態において、メモリ22は、プロセッサ21に対して遠隔に配置されたメモリを任意選択で含み、これらの遠隔メモリは、ネットワークを介して電子機器に接続され得る。上記ネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク、及びそれらの組み合わせが挙げられるが、これらに限定されない。
【0094】
電子機器はさらに入力装置23及び出力装置24を含む。プロセッサ21、メモリ22、入力装置23及び出力装置24はバス又は他の方式により接続されてもよく、
図6ではバスによる接続を例とする。
【0095】
入力装置23は入力された数字又は文字情報を受信し、かつ、電子機器のユーザ設定及び機能制御と関連するキー信号入力を生成することができるもので、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ以上のマウスボタン、トラックボール、ジョイスティックなどの入力装置が挙げられる。出力装置24は表示機器、補助照明装置(例えば、LED)及び触覚フィードバック装置(例えば、振動モータ)などを含んでもよい。該表示機器は液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ及びプラズマディスプレイを含むが、これらに限定されないものとしてもよい。いくつかの実施形態において、表示機器はタッチスクリーンであってもよい。
【0096】
本明細書に記載のシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組合せで実現され得る。これらの様々な実施形態は、専用又は汎用のプログラマブルプロセッサであり得、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、該記憶システム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置にデータ及び命令を送信することができる少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈され得る1つ以上のコンピュータプログラム内で実施されることを含んでもよい。
【0097】
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、高度プロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語で実施され得る。本明細書で使用されるように、用語の「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」とは、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))であり、機械命令を機械読み取り可能な信号として受信する機械読み取り可能な媒体を含む。用語の「機械読み取り可能な信号」とは、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を言う。
【0098】
ユーザとの対話を提供するために、本明細書に記載されるシステム及び技術は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティング装置であって、ユーザが該キーボード及び該ポインティング装置を介してコンピュータに入力を提供し得るもの(例えば、マウス又はトラックボール)とを有するコンピュータ上で実施され得る。他の種類の装置も、ユーザとの対話を提供するために使用され得、例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、また、ユーザからの入力は、任意の形態(声入力、音声入力、又は触覚入力を含む)で受信され得る。
【0099】
本明細書で説明されるシステム及び技術は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとして)、又はミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド構成要素を含むコンピューティングシステム(例えば、グラフィックユーザインタフェース又はウェブブラウザを有するユーザコンピュータであって、ユーザは、該グラフィックユーザインタフェース又は該ウェブブラウザを介して、本明細書で説明されるシステム及び技術の実施形態と対話できる)、又はそのようなバックエンド構成要素、ミドルウェア構成要素若しくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムにおいて実施され得る。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)を介して互いに接続され得る。通信ネットワークの例には、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、及インターネットが含まれる。
【0100】
コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、一般に、互いに離れており、通常、通信ネットワークを介して対話する。クライアントとサーバの関係は、対応するコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生成される。
【0101】
本願の実施例はさらに音声認識方法を提供し、音声信号を認識して第1のテキストを得ることと、前記第1のテキストをファジーマッチングすることによって、それぞれが前記第1のテキストとピンインが同じ単語を少なくとも1つ含む複数の正しいテキストを得ることと、前記複数の正しいテキストから対象テキストを決定し、前記対象テキストを前記音声信号の音声認識結果として決定することとを含む。
【0102】
該実施例の具体的な実現原理は上記実施例の説明を参照してよく、ここでは省略する。
【0103】
本願の実施例の技術的解決手段によれば、電子機器は音声信号を認識して第1のテキストを得て、データベースに該第1のテキストに対応する第1のピンインシーケンスが存在すれば、第1のピンインシーケンスに対応する正しいテキストを音声認識結果とし、そうでなければ、第1のテキストをファジーマッチングして、複数の正しいテキストを得て、複数の正しいテキストから対象テキストを決定する。該過程において、電子機器は音声信号を認識して第1のテキストを得て、データベースに該第1のテキストが存在しなければ、誤認が発生していることを意味し、この場合、電子機器はファジーマッチングなどにより誤認を自動的に修正し、正しい音声認識結果を得ることで、音声認識の精度を向上させる。また、異なるメーカーのコマンドセットに応じて、異なるデータベースを設定し、データベースを随時に調整することができ、人材と資材を節約するとともに、柔軟性が高い。
【0104】
上で示された様々な態様のフローを使用して、ステップを並べ替え、追加、又は削除することができることが理解される。例えば、本願に記載された各ステップは、並列的に実行されてもよく、順番に実行されてもよく、異なる順番で実行されてもよく、本願に開示された技術的解決手段に期待される結果を実現できる限り、本明細書は限定しない。
【0105】
上記の具体的な実施形態は、本願の特許請求の範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な変更、組み合わせ、サブコンビネーション及び置換を行うことができることが了解される。本願の精神及び原則内に行われる変更、均等置換及び改良などは、いずれも本願の特許請求の範囲内に含まれる。