IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特許7264951オフライン音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム
<>
  • 特許-オフライン音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム 図1
  • 特許-オフライン音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム 図2
  • 特許-オフライン音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム 図3
  • 特許-オフライン音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム 図4
  • 特許-オフライン音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム 図5
  • 特許-オフライン音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム 図6
  • 特許-オフライン音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム 図7
  • 特許-オフライン音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-04-17
(45)【発行日】2023-04-25
(54)【発明の名称】オフライン音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラム
(51)【国際特許分類】
   G10L 15/18 20130101AFI20230418BHJP
   G10L 15/16 20060101ALI20230418BHJP
【FI】
G10L15/18 300H
G10L15/16
【請求項の数】 11
(21)【出願番号】P 2021131343
(22)【出願日】2021-08-11
(65)【公開番号】P2021176022
(43)【公開日】2021-11-04
【審査請求日】2021-08-11
(31)【優先権主張番号】202011535645.7
(32)【優先日】2020-12-23
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100101454
【弁理士】
【氏名又は名称】山田 卓二
(74)【代理人】
【識別番号】100189555
【弁理士】
【氏名又は名称】徳山 英浩
(74)【代理人】
【識別番号】100183232
【弁理士】
【氏名又は名称】山崎 敏行
(72)【発明者】
【氏名】付 暁寅
(72)【発明者】
【氏名】梁 鳴心
(72)【発明者】
【氏名】陳 志傑
(72)【発明者】
【氏名】臧 啓光
(72)【発明者】
【氏名】蒋 正翔
(72)【発明者】
【氏名】張 遼
(72)【発明者】
【氏名】張 奇
(72)【発明者】
【氏名】賈 磊
【審査官】山下 剛史
(56)【参考文献】
【文献】特開2012-68354(JP,A)
【文献】特開2020-112787(JP,A)
【文献】特開2001-337695(JP,A)
【文献】国際公開第2020/250443(WO,A1)
【文献】特開2019-159058(JP,A)
【文献】米国特許出願公開第2020/0327881(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
認識対象となる音声データを音節認識結果にデコードすることと、
前記音節認識結果を対応する文字に変換し、前記文字を前記音声データの音声認識結果とすることと、を含み、
前記音節認識結果を対応する文字に変換することは、
ストリーミング型の変換器Transformerモデルを利用して、前記音節認識結果を対応する文字に変換することを含み、
前記ストリーミング型のTransformerモデルを利用して、前記音節認識結果を対応する文字に変換することは、
前記Transformerモデルにおける各アテンション構造において、それぞれ時間マスク操作を追加し、前記時間マスク操作を利用して、ストリーミング型の音節変換を実現することを含む
オフライン音声認識方法。
【請求項2】
前記認識対象となる音声データを音節認識結果にデコードすることは、
音節デコーダを利用して、前記音声データをデコードし、前記音節認識結果を取得することを含み、
前記音節デコーダは音節に基づく音響モデル及び音節に基づく言語モデルを結合して前記音声データをデコードするために用いられる、
請求項1に記載の方法。
【請求項3】
前記音響モデルは、エンドツーエンドのストリーミング型多層切断アテンションSMLTAモデルを含む、及び/又は、
前記言語モデルは、長短期記憶ネットワークLSTM言語モデルを含む、
請求項2に記載の方法。
【請求項4】
4-ビット量子化方法を採用して、前記LSTM言語モデルのモデル体積を圧縮することをさらに含む、
請求項3に記載の方法。
【請求項5】
オフラインデコードモジュール及び音節変換モジュールを含み、
前記オフラインデコードモジュールは、認識対象となる音声データを音節認識結果にデコードするために用いられ、
前記音節変換モジュールは、前記音節認識結果を対応する文字に変換し、前記文字を前記音声データの音声認識結果とするために用いられ、
前記音節変換モジュールは、ストリーミング型の変換器Transformerモデルを利用して、前記音節認識結果を対応する文字に変換し、
前記音節変換モジュールは、前記Transformerモデルにおける各アテンション構造において、それぞれ時間マスク操作を追加し、前記時間マスク操作を利用して、ストリーミング型の音節変換を実現する
オフライン音声認識装置。
【請求項6】
前記オフラインデコードモジュールは、音節デコーダを利用して、前記音声データをデコードし、音節認識結果を取得し、
前記音節デコーダは、音節に基づく音響モデル及び音節に基づく言語モデルを結合して、前記音声データをデコードするために用いられる、
請求項に記載の装置。
【請求項7】
前記音響モデルは、エンドツーエンドのストリーミング型多層切断アテンションSMLTAモデルを含む、及び/又は、
前記言語モデルは、長短期記憶ネットワークLSTM言語モデルを含む、
請求項に記載の装置。
【請求項8】
前記オフラインデコードモジュールは、さらに、
4-ビット量子化方法を採用して、前記LSTM言語モデルのモデル体積を圧縮するために用いられる、
請求項に記載の装置。
【請求項9】
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶され、前記命令が前記少なくとも一つのプロセッサにより実行されることにより、前記少なくとも一つのプロセッサが請求項1~のいずれか一項に記載の方法を実行することができる、
電子機器。
【請求項10】
コンピュータに請求項1~のいずれか一項に記載の方法を実行させるために用いられるコンピュータ命令を記憶している、
非一時的なコンピュータ読取可能な記憶媒体。
【請求項11】
プロセッサにより実行される時に、請求項1~のいずれか一項に記載の方法を実現する、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は人工知能技術分野に関し、特に、音声認識、自然言語処理及びディープ・ラーニングなどの分野に関し、具体的には、オフライン音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラムに関する。
【背景技術】
【0002】
現在、音声認識は音声入力、音声ダイヤル、カーナビゲーションなどの様々なシーンに広く応用されている。
【0003】
音声認識方式は、主にオンライン音声認識及びオフライン音声認識に分類される。ここで、オンライン音声認識は一般的に音声データを、ネットワークを介してサーバにアップロードしてデコードする必要があり、音声認識の性能はネットワーク品質の影響を深刻に受け、かつ音声データをアップロードする必要があるため、個人情報の漏洩などを引き起こしやすい。すなわち、オンライン音声認識は信頼性及びプライバシー性等の面の要求を満たすことができない。
【0004】
オフライン音声認識は音声データをサーバにアップロードする必要がなく、直接に機器ローカルでデコードし、それにより信頼性及びプライバシー性等の面の要求を満たす。しかし、機器端の計算及び記憶リソース等が限られるため、一般的に認識モデルの体積を制限する必要があり、それにより音声認識結果の正確性が低いなどをもたらす。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本開示は、オフライン音声認識方法、装置、電子機器、記憶媒体及びコンピュータプログラムを提供する。
【課題を解決するための手段】
【0006】
本開示の一態様のオフライン音声認識方法は、
認識対象となる音声データを音節認識結果にデコードすることと、
前記音節認識結果を対応する文字に変換し、前記文字を前記音声データの音声認識結果とすることと、を含む。
【0007】
本開示の一態様のオフライン音声認識装置は、
オフラインデコードモジュール及び音節変換モジュールを含み、
前記オフラインデコードモジュールは、認識対象となる音声データを音節認識結果にデコードするために用いられ、
前記音節変換モジュールは、前記音節認識結果を対応する文字に変換し、前記文字を前記音声データの音声認識結果とするために用いられる。
【0008】
本開示の一態様の電子機器は、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
前記メモリに前記少なくとも一つのプロセッサにより実行可能な命令が記憶され、前記命令が前記少なくとも一つのプロセッサにより実行されることにより、前記少なくとも一つのプロセッサが上述した方法を実行することができる。
【0009】
本開示の一態様の記憶媒体は、
コンピュータに上述した方法を実行させるために用いられるコンピュータ命令を記憶している非一時的なコンピュータ読取可能である。
【0010】
本開示の一態様のコンピュータプログラムは、
プロセッサにより実行される時に、上述した方法を実現する。
【0011】
上述した記載における一つの実施例は、以下のような利点又は有益な効果を有する。音節に基づく二段式オフライン音声認識方式を提供し、オフライン音声認識プロセスを二つの段階に分割し、まずコンテキストと無関係の音節を基本的な音響モデリングユニットとし、認識対象となる音声データをデコードし、音節認識結果を得て、その後、認識結果の可読性を満たすために、音節認識結果を対応する文字に変換し、それにより必要な音声認識結果を取得し、この方式は計算及び記憶リソース等に対する占用を増大させず、かつ音声認識結果の正確性等を確保する。
【0012】
この部分で説明した内容は、本開示の実施例の肝心な又は重要な特徴を表記するためのものでもなく、本開示の範囲を限定するためのものでもないと理解すべきである。本開示の他の特徴は、以下の「発明を実施するための形態」によって理解し易くなるであろう。
【図面の簡単な説明】
【0013】
図面は、本技術案がよりよく理解されるためのものであり、本願に対する限定を構成しない。
図1図1は、本開示に記載のオフライン音声認識方法の実施例のフローチャートである。
図2図2は、従来のオフライン音声認識方式の概略図である。
図3図3は、本開示に記載の音節に基づくエンドツーエンドSMLTAモデルの構造概略図である。
図4図4は、本開示に記載の音節に基づくLSTM言語モデルの構造概略図である。
図5図5は、本開示に記載のストリーミング型のTransformerモデルの構造概略図である。
図6図6は、本開示に記載のオフライン音声認識の実現プロセスの概略図である。
図7図7は、本開示に記載のオフライン音声認識装置70の実施例の構成構造概略図である。
図8図8は、本開示の実施例を実施するために用いられる例示的な電子機器800を示す模式的なブロック図である。
【発明を実施するための形態】
【0014】
以下、図面に合わせて本開示の例示的な実施例について説明する。その中、理解に役立つように本開示の実施例の各詳細を含み、これらはあくまで例示的なものであると理解すべきである。そのため、当業者は、本開示の範囲及び趣旨から逸脱せずに、ここで説明した実施例に対して、様々な変更や、修正をなし得ることに認識すべきである。同様に、明確及び簡明のために、以下の説明において公知の機能及び構成に対する説明を省略している。
【0015】
なお、理解すべきことは、本明細書における術語「及び/又は」は、単に関連対象の関連関係を説明するものであり、三種類の関係が存在し得ることを示す。例えば、A及び/又はBは、Aが単独で存在すること、AとBとが同時に存在すること、Bが単独で存在することという三種類の状況を表すことができる。なお、本明細書における文字「/」は、一般的に前後の関連対象が「又は」の関係であることを表す。
【0016】
図1は本開示に記載のオフライン音声認識方法の実施例のフローチャートである。図1に示すように、以下の具体的な実現方式を含む。
【0017】
ステップ101において、認識対象となる音声データを音節認識結果にデコードする。
【0018】
ステップ102において、音節認識結果を対応する文字に変換し、得られた文字を音声データの音声認識結果とする。
【0019】
これから分かるように、本開示の方法実施例の前記技術案において、音節に基づく二段式オフライン音声認識方式を提供し、オフライン音声認識プロセスを二つの段階に分割し、まずコンテキストと無関係の音節(syllable)を基本的な音響モデリングユニットとし、認識対象となる音声データをデコードし、音節認識結果を得て、その後、認識結果の可読性を満たすために、音節認識結果を対応する文字に変換し、それにより必要な音声認識結果を取得し、この方式は計算及び記憶リソース等に対する占用を増大させず、かつ音声認識結果の正確性等を確保する。
【0020】
認識対象となる音声データを音節認識結果にデコードする場合、具体的には、音節デコーダを利用して音声データをデコードすることができ、それにより音節認識結果を得て、ここで、音節デコーダは音節に基づく音響モデル及び音節に基づく言語モデルを結合して音声データをデコードすることに用いられる。
【0021】
好ましくは、音響モデルはエンドツーエンドのストリーミング型多層切断アテンション(SMLTA、Streaming Multi-Layer Trancated Attention)モデルであってもよく、及び/又は、言語モデルは長短期記憶ネットワーク(LSTM、Long Short Term Memory)言語モデルであってもよい。
【0022】
従来のオフライン音声認識システムは一般的に音響モデル、言語モデル及びデコーダなどの三つの部分で構成される。図2に示すように、図2は、従来のオフライン音声認識方式の概略図であり、デコーダを利用して入力された音声データを言語モデル及び音響モデルに基づいてデコードすることができ、それにより音声認識結果を得て、機器端の計算及び記憶リソースが限られていることを考慮し、相対エントロピー(relative entropy)に基づく方法などを用いて言語モデルを裁断し、nグラム言語モデルを取得することができ、一般的にnグラム言語モデルの体積は数十M程度に制御され、オンライン言語認識におけるサーバ端の言語モデル体積より約1000倍減少し、言語モデルの体積を大幅に裁断することは、音声認識結果の正確性を大幅に低下させ、かつ、nグラム言語モデルを利用して認識する時にデコードの経路を拡張する必要があり、同じ発音に複数の対応可能な文字が存在するため、組み込み機器の計算リソースの要求を満たすために、認識された候補結果を裁断する必要があり、正確な認識結果は事前に裁断されやすく、それにより認識エラーを引き起こし、さらに音声認識結果の正確性等をさらに低下させる。
【0023】
本開示に記載のオフライン音声認識方式において、音節に基づくニューラルネットワーク言語モデルを利用してnグラム言語モデルを代替し、モデル体積を効果的に減少させると同時に、裁断等による問題を回避し、さらに言語認識結果の正確性等を向上させる。
【0024】
なお、音節に基づくニューラルネットワーク言語モデルを使用し、デコード時に音節認識結果を直接に出力し、さらに音節認識結果を対応する文字に変換し、発音から文字への変換を行う必要がなく、それによりデコーダのサーチスペースを大幅に減少させることができ、特にオフライン音声認識のデコードリソースが限られたシーンに適用し、オフライン音声認識の性能等を効果的に保証する。
【0025】
前述のように、本開示に記載のオフライン音声認識方式に用いられる音響モデルは音節に基づくエンドツーエンドSMLTAモデルであってもよい。
【0026】
図3は本開示に記載の音節に基づくエンドツーエンドSMLTAモデルの構造概略図である。図3に示すように、このモデルは主にエンコーダ(Encoder)、時系列類分類(CTC、Connectionist temporal classification)及びデコーダ(Decoder)の三つの部分で構成され、デコーダは音声から文字への(LAS、Listen、Attend and Spell)デコーダであってもよい。
【0027】
ここで、エンコーダには畳み込み(Conv)層及びN個のLSTM+バッチ正規化(BN、Batch Normalize)層が含まれていてもよく、Nの具体的な値は実際の需要に応じて決定されてもよく、例えば5であってもよい。CTCには、一つの線形変換(Linear)層と、一つの正規化(Softmax)層とが含まれていてもよい。LASデコーダには一つのアテンション(Attention)層、M個のLSTM+層正規化(LN、Layer Normalize)層及び一つのSoftmax層が含まれていてもよく、Mの具体的な値は同様に実際の需要に応じて決定されてもよく、例えば2であってもよい。
【0028】
図3に示すSMLTAモデルの入力(input)は音声データから抽出された特徴データであってもよく、出力(output)はCTC出力及びLAS出力を含み、いずれも音節デコーダに提供することができ、それにより音節デコーダはこの二つの出力結果に基づいて言語モデル等に合わせて、デコードして音節認識結果を取得する。
【0029】
処理効率などを向上させるために、図3に示すエンコーダ及びデコーダにおけるLSTMは、いずれも一方向LSTMであってもよい。なお、図3に示すSMLTAモデルは低フレームレートを採用したSMLTA(light-SMLTA)モデルであってもよく、このように処理効率を向上させると同時に、音響モデルの計算量等をさらに低減することができる。
【0030】
前述のように、本開示に記載のオフライン音声認識方式で使用された言語モデルは音節に基づくLSTM言語モデルであってもよい。
【0031】
図4は本開示に記載の音節に基づくLSTM言語モデルの構造概略図である。図4に示すように、N個のLSTM+LSTM層が含まれていてもよく、Nの具体的な値は実際の需要に応じて決定されてもよく、二つのLSTMは同じであってもよく、異なってもよく、例えばパラメータ配置が異なってもよい。
【0032】
なお、4-ビット(bit)量子化方法を用いて、LSTM言語モデルのモデル体積を圧縮することにより、LSTM言語モデルの体積をさらに低減してもよく、一般的な言語モデルに採用された32-bitの記憶構造に比べて、4-bit量子化圧縮を経た後のモデル体積は元の1/8だけになる。4-bit量子化方法の具体的な実現は従来の技術である。
【0033】
音節デコーダの出力は音節認識結果であり、すなわち一つの音節シーケンスであり、一般的なユーザにとって認識できないため、認識結果の可読性を満たすために、音節認識結果を対応する文字に変換する必要があり、即ち音節シーケンスを対応する文字シーケンスに変換する。
【0034】
具体的には、音節変換モデルを採用することができ、例えばストリーミング型の変換器(Transformer)モデルを利用し、音節認識結果を対応する文字に変換する。
【0035】
図5は本開示に記載のストリーミング型のTransformerモデルの構造概略図である。図5に示すように、本開示に記載のストリーミング型のTransformerモデルは標準的なTransformerモデルの構造と類似し、いずれもエンコーダ+デコーダの構造を採用し、かつ具体的な処理方式はいずれも以下のとおりである。音節認識結果は、まず入力符号化(Input Embedding)及び位置符号化(Positional Encoding)により特徴変換を行い、エンコーダのN階層カスケイド接続されたAttentionモジュール及び残差モジュールを利用して特徴符号化を行い、デコーダは履歴出力に対して同様に出力符号化(Output Embedding)及び位置符号化を行い、かつ履歴出力の符号化結果及びエンコーダ出力の特徴符号化等を結合し、M階層カスケイド接続されたAttentionモジュール及び残差モジュール等を利用して出力結果を得て、N及びMの具体的な値はいずれも実際の需要に応じて決定することができる。
【0036】
図5に示すように、標準的なTransformerモデルと異なり、本開示に記載のストリーミング型のTransformerモデルにおいて、各アテンション構造にそれぞれ時間マスク(Time mask)操作を追加し、それにより前記時間マスク操作を利用してストリーミング型の音節変換を実現し、それによりデコード結果のストリーミング型出力の機能を実現する。
【0037】
上記説明に基づいて、図6は本開示に記載のオフライン音声認識の実現プロセスの概略図である。
【0038】
図6に示すように、オフラインデコードシステム及び音節変換システムはオフライン音声認識システムを構成し、認識対象となる音声データに対して、まずオフラインデコードシステムにおける音節デコーダにより音節に基づく音響モデル及び音節に基づく言語モデルを結合して音声データをデコードし、それにより音節認識結果を取得する。
【0039】
音節デコーダはニューラルネットワーク(NN、Neural Network)言語モデルに基づく中国語・英語音節デコーダであってもよく、音響モデルは低フレームレートのエンドツーエンドのSMLTAモデルであってもよく、言語モデルはLSTMモデルであってもよく、かつ、4-bit量子化方法を用いてLSTM言語モデルのモデル体積を圧縮することができる。
【0040】
図6に示すように、オフラインデコードシステムから出力された音節認識結果について、音節変換システムにおけるストリーミング型のTransformerモデルを利用して、音節認識結果を対応する文字に変換し、それにより認識対象となる音声データの音声認識結果を取得することができる。
【0041】
説明すべきものとして、前述の方法実施例に対して、簡単に説明するために、それを一連の動作組合せと表記するが、当業者であれば、本開示は記述された動作順序に限定されるものではなく、本開示によれば、一部のステップは他の順序で又は同時に行うことができることを知っておくべきである。次に、当業者であれば、明細書に説明された実施例はいずれも好ましい実施例に属し、係る動作及びモジュールは必ずしも本開示に必要なものではないことも知っておくべきである。
【0042】
以上は方法実施例についての説明であり、以下に装置実施例により、本開示に記載の技術案をさらに説明する。
【0043】
図7は本開示に記載のオフライン音声認識装置70の実施例の構成構造概略図である。図7に示すように、オフラインデコードモジュール701と音節変換モジュール702とを含む。
【0044】
オフラインデコードモジュール701は、認識対象となる音声データを音節認識結果にデコードするために用いられる。
【0045】
音節変換モジュール702は、音節認識結果を対応する文字に変換し、得られた対応する文字を音声データの音声認識結果とするために用いられる。
【0046】
認識対象となる音声データを音節認識結果にデコードする時に、具体的には、オフラインデコードモジュール701は音節デコーダを利用して音声データをデコードすることができ、それにより音節認識結果を取得する。ここで、音節デコーダは音節に基づく音響モデル及び音節に基づく言語モデルを結合して音声データをデコードすることに用いられる。
【0047】
好ましくは、音響モデルはエンドツーエンドのSMLTAモデルであってもよく、及び/又は、言語モデルはLSTM言語モデルであってもよい。
【0048】
ここで、SMLTAモデルは低フレームレートのSMLTAモデルであってもよい。なお、オフラインデコードモジュール701はさらに4-bit量子化方法を用いてLSTM言語モデルのモデル体積を圧縮することにより、LSTM言語モデルの体積をさらに低減することができる。
【0049】
音節デコーダの出力は音節認識結果であり、すなわち一つの音節シーケンスであり、一般的なユーザにとって認識できないため、認識結果の可読性を満たすために、音節変換モジュール702はさらに音節認識結果を対応する文字に変換し、即ち音節シーケンスを対応する文字シーケンスに変換する必要がある。
【0050】
具体的には、音節変換モジュール702はストリーミング型のTransformerモデルを利用して、音節認識結果を対応する文字に変換することができる。
【0051】
ストリーミング型のTransformerモデルは標準的なTransformerモデルの構造と類似し、異なることは、音節変換モジュール702はさらにストリーミング型のTransformerモデルにおける各アテンション構造にそれぞれ時間マスク操作を追加することにより、前記時間マスク操作を利用してストリーミング型の音節変換を実現することができることである。
【0052】
図7に示す装置実施例の具体的な動作フローは前述の方法実施例における関連説明を参照し、説明を省略する。
【0053】
要するに、本開示の装置実施例に記載の技術案を採用し、音節に基づく二段式オフライン音声認識方式を提供し、オフライン音声認識プロセスを二つの段階に分割し、まずコンテキストと無関係の音節を基本的な音響モデリングユニットとし、認識対象となる音声データをデコードし、音節認識結果を得て、その後、認識結果の可読性を満たすために、音節認識結果を対応する文字に変換し、それにより必要な音声認識結果を得て、この方式は計算及び記憶リソース等に対する占用を増大させず、かつ音声認識結果の正確性等を確保する。
【0054】
本開示に記載の技術案は人工知能分野に応用することができ、特に音声認識、自然言語処理及びディープ・ラーニング等の分野に関する。
【0055】
人工知能は、コンピュータに人間のある思考過程及びインテリジェント行為(例えば、学習、推論、思考、計画など)をシミュレートさせることを研究する学科であり、ハードウェアレベルの技術もソフトウェアレベルの技術もあり、人工知能ハードウェア技術は、一般的にセンサ、専用人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などの技術を含み、人工知能ソフトウェア技術は、主にコンピュータ視覚技術、音声認識技術、自然言語処理技術及び機械学習/ディープ・ラーニング、ビッグデータ処理技術、知識グラフ技術などのいくつかの方向を含む。
【0056】
本開示の実施例によれば、本開示はさらに電子機器、コンピュータ読取可能な記憶媒体及びコンピュータプログラムを提供する。
【0057】
図8は、本開示の実施例を実施することが可能な例示的な電子機器800を示す模式的なブロック図である。電子機器は、様々な形式のデジタルコンピュータ、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、ワークベンチ、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータを表することを意図する。電子機器はさらに様々な形式の移動装置を表することができ、例えば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の計算装置である。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は例示に過ぎず、本明細書に記載された及び/又は要求された本開示の実現を限定するものではない。
【0058】
図8に示すように、電子機器800は計算ユニット801を含み、それはリードオンリーメモリ(ROM)802に記憶されたコンピュータプログラム又は記憶ユニット808からランダムアクセスメモリ(RAM)803にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる。RAM803において、さらに電子機器800の操作に必要な様々なプログラム及びデータを記憶することができる。計算ユニット801、ROM802、およびRAM803は、バス804により相互に接続されている。バス804には、さらに、入出力(I/O)インターフェース805が接続されている。
【0059】
電子機器800における複数の部品はI/Oインターフェース805に接続され、例えばキーボード、マウス等である入力ユニット806と、例えば様々なタイプのディスプレイ、スピーカ等である出力ユニット807と、例えば磁気ディスク、光ディスク等である記憶ユニット808と、例えばネットワークカード、モデム、無線通信トランシーバ等である通信ユニット809と、を含む。通信ユニット809は、電子機器800がインターネット等のコンピュータネットワーク及び/又は各種の電気通信ネットワークを介して、他の装置と情報/データをやり取りすることを可能にする。
【0060】
計算ユニット801は、各種の処理および計算能力を有する汎用及び/又は専用の処理コンポーネントであってもよい。計算ユニット801としては、中央処理ユニット(CPU)、図形処理ユニット(GPU)、各種専用の人工知能(AI)計算チップ、各種の機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号プロセッサ(DSP)、任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されるものではない。計算ユニット801は上記説明した各方法及び処理を実行し、例えば本開示に記載の方法を実行する。例えば、いくつかの実施例において、本開示に記載の方法はコンピュータソフトウェアプログラムとして実現されてもよく、それは機械読取可能な媒体、例えば記憶ユニット808に有形的に含まれる。いくつかの実施例において、コンピュータプログラムの一部又は全部はROM802及び/又は通信ユニット809を介して電子機器800にロード及び/又はインストールされる。コンピュータプログラムがRAM803にロードされ、かつ計算ユニット801により実行される場合、本開示に記載の方法の一つ又は複数のステップを実行することができる。代替として、他の実施例において、計算ユニット801は、他の任意の適切な方式により(例えば、ファームウェアによって)本開示に記載の方法を実行するように構成されてもよい。
【0061】
本文で以上に説明したシステム及び技術の各種実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、システム・オン・チップのシステム(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組合せで実現され得る。これらの各種実施形態は、1つ又は複数のコンピュータプログラムで実行されることを含んでもよく、この1つ又は複数のコンピュータプログラムが、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上に実行及び/又は解釈されてもよく、このプログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであり、記憶システムと、少なくとも1つの入力装置と、少なくとも1つの出力装置とから、データ及びコマンドを受信し、データ及びコマンドをこの記憶システムと、この少なくとも1つの入力装置と、この少なくとも1つの出力装置とに転送してもよい。
【0062】
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組合せによって書かれてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されて、プログラムコードがプロセッサ又はコントローラによって実行される時にフローチャート及び/又はブロック図に規定された機能・操作が実施されるようにしてもよい。プログラムコードは、完全に機器上に実行されてもよいし、部分的に機器上に実行されてもよく、独立ソフトウェアパッケージとして部分的に機器上に実行され且つ部分的に遠隔機器上に実行され、或いは完全に遠隔機器又はサーバ上に実行される。
【0063】
本開示のコンテキストにおいて、機器読取可能な媒体は、有形的な媒体であってもよく、それが、コマンド実行システム、装置又は機器に使用され、又はコマンド実行システム、装置又は機器と組合せて使用されるプログラムを含み、或いは記憶してもよい。機器読取可能な媒体は、機器読取可能な信号媒体や、機器読取可能な記憶媒体であってもよい。機器読取可能な媒体は、電子的なもの、磁性的なもの、光学的なもの、電磁的なもの、赤外のもの、又は半導体システム、装置又は機器、或いは上記内容の任意の適宜な組合せを含むが、これらに限られない。機器読取可能な記憶媒体のより具体的な例示は、1つ又は複数のラインによる電気接続、携帯コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、携帯コンパクトディスクリードオンリーメモリ(CD-ROM)、光学的記憶デバイス、磁気的記憶デバイス、又は上記内容の任意の適宜な組合せを含む。
【0064】
ユーザとのインタラクションを提供するために、コンピュータでここで説明したシステム及び技術を実施してもよく、このコンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及び指向装置(例えば、マウス又はトラックボール)とを有し、ユーザは、このキーボード及びこの指向装置によって、入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するためのものであってもよく、例えば、ユーザに提供するフィードバックは、任意の形式のセンサーフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(声入力、語音入力、又は触覚入力を含む)でユーザからの入力を受信してもよい。
【0065】
ここで説明したシステム及び技術は、バックグラウンド部品を含む計算システム(例えば、データサーバとする)、又はミドルウェア部品を含む計算システム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含む計算システム(例えば、グラフィカル・ユーザ・インターフェース又はネットワークブラウザを有するユーザコンピュータ、ユーザはこのグラフィカル・ユーザ・インターフェース又はこのネットワークブラウザを介してここで説明したシステム及び技術の実施形態とのインタラクションを実施することができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、或いはフロントエンド部品の任意の組合せを含む計算システムで実施されてもよい。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)を介してシステムの部品を相互に接続してもよい。通信ネットワークの例示は、ローカルエリアネットワーク(LAN)と、広域ネットワーク(WAN)と、インターネットとを含む。
【0066】
コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバとは、一般的に互いに離れて、且つ通常に通信ネットワークを介してインタラクションを実施する。相応するコンピュータで実行されるとともに、互いにクライアント-サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係を形成する。サーバはクラウドサーバであってもよく、クラウド計算サーバ又はクラウドホストと呼ばれ、クラウド計算サービスシステムのうちの一つのホスト製品であり、従来の物理ホストと仮想専用サーバ(VPS)において、存在する管理難度が大きく、サービス拡張性が弱いという欠陥を解決する。サーバは分散システムのサーバであってもよく、又はブロックチェーンを結合したサーバであってもよい。
【0067】
上記に示した様々な形式のフローを利用して、ステップを並び替え、追加又は削除することができると理解すべきである。例えば、本開示に記載された各ステップは、並行に実行されてもよいし、順に実行されてもよいし、異なる順序で実行されてもよく、本開示が開示した技術案が所望する結果を実現できる限り、本文はここで限定しない。
【0068】
上述した具体的な実施形態は、本開示の保護範囲に対する限定を構成しない。当業者は、設計要求や他の要因に応じて、さまざまな修正、組合、サブ組合及び置換を行うことができると理解すべきである。本開示の趣旨及び原則の範囲内になされた任意の修正、等価な置換、改進などは、いずれも本開示の保護範囲内に含まれるべきである。
【符号の説明】
【0069】
70 オフライン音声認識装置
701 オフラインデコードモジュール
702 音節変換モジュール
801 計算ユニット
802 ROM
803 RAM
808 記憶ユニット
図1
図2
図3
図4
図5
図6
図7
図8