(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-06
(45)【発行日】2024-12-16
(54)【発明の名称】音声認識方法および装置、ならびにコンピュータ可読記憶媒体
(51)【国際特許分類】
G10L 15/06 20130101AFI20241209BHJP
G10L 15/02 20060101ALI20241209BHJP
【FI】
G10L15/06 300Y
G10L15/02 300D
(21)【出願番号】P 2022516702
(86)(22)【出願日】2020-04-30
(86)【国際出願番号】 CN2020088229
(87)【国際公開番号】W WO2021057029
(87)【国際公開日】2021-04-01
【審査請求日】2023-04-28
(31)【優先権主張番号】201910904271.2
(32)【優先日】2019-09-24
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】521507084
【氏名又は名称】京▲東▼科技控股股▲フン▼有限公司
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】付 立
【審査官】土井 悠生
(56)【参考文献】
【文献】中国特許出願公開第108510979(CN,A)
【文献】Jinyu Li, et al.,Improving wideband speech recognition using mixed-bandwidth training data in CD-DNN-HMM,Spoken Language Technology Workshop,2012,IEEE,2012年02月02日,pp. 131-136,[online],<URL https://ieeexplore.ieee.org/document/6424210>, [検索日 2024年6月6日]
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-99/00
(57)【特許請求の範囲】
【請求項1】
異なるサンプリングレートの訓練すべき音響に対応する第1の線形スペクトルを取得するステップであって、前記第1の線形スペクトルの横座標が、スペクトルシーケンス連番数であり、前記第1の線形スペクトルの縦座標が、周波数領域連番数であり、前記横座標および前記縦座標によって決定される座標点の値が、前記訓練すべき音響に対応する元の振幅値である、ステップと、
前記異なるサンプリングレートの中で、最大サンプリングレート、および前記最大サンプリングレートではない他のサンプリングレートを決定するステップと、
前記他のサンプリングレートに対応する前記第1の線形スペクトルの最大周波数領域連番数を第1の周波数領域連番数として決定するステップと、
前記最大サンプリングレートに対応する前記第1の線形スペクトルの最大周波数領域連番数を第2の周波数領域連番数として決定するステップと、
前記他のサンプリングレートに対応する第2の線形スペクトルを得るために、前記他のサンプリングレートに対応する前記第1の線形スペクトルにおいて、前記第1の周波数領域連番数よりも大きく、前記第2の周波数領域連番数以下である各周波数領域連番数に対応する振幅値をゼロに設定するステップと、
前記最大サンプリングレートに対応する前記第1の線形スペクトルの第1のメルスペクトル特徴に従って、前記最大サンプリングレートの前記訓練すべき音響の第1の音声特徴を決定するステップと、
前記他のサンプリングレートに対応する前記第2の線形スペクトルの第2のメルスペクトル特徴に従って、前記他のサンプリングレートの前記訓練すべき音響の第2の音声特徴を決定するステップ
であって、前記第2の音声特徴を得るために、前記第2のメルスペクトル特徴に対して局所的正規化処理を行うステップと、
前記第1の音声特徴および前記第2の音声特徴を使用することによって、機械学習モデルを訓練するステップと
を含
み、
前記局所的正規化処理が、
前記他のサンプリングレートの前記訓練すべき音響に対応する最大線形スペクトル周波数に従って、前記最大線形スペクトル周波数に対応するメルスペクトル周波数を取得するステップと、
前記メルスペクトル周波数に対応する最大メルフィルタ連番数を計算するステップと、
前記第2のメルスペクトル特徴における各他のメルフィルタ連番数に対応する第1の振幅値を取得するステップであって、前記他のメルフィルタ連番数が、前記最大メルフィルタ連番数以下であるメルフィルタ連番数である、ステップと、
第1の振幅値すべての平均および標準偏差を局所的平均および局所的標準偏差としてそれぞれ計算するステップと、
前記第1の振幅値のそれぞれと前記第1の振幅値の前記局所的平均との第1の差を計算するステップと、
前記局所的標準偏差に対する各第1の差の比を、各第1の振幅値に対応する正規化された第1の振幅値として計算するステップと、
前記第2のメルスペクトル特徴における各第1の振幅値を、各第1の振幅値に対応する前記正規化された第1の振幅値と置き換えるステップと
を含む、音声認識方法。
【請求項2】
異なるサンプリングレートの訓練すべき音響に対応する第1の線形スペクトルを取得するステップであって、前記第1の線形スペクトルの横座標が、スペクトルシーケンス連番数であり、前記第1の線形スペクトルの縦座標が、周波数領域連番数であり、前記横座標および前記縦座標によって決定される座標点の値が、前記訓練すべき音響に対応する元の振幅値である、ステップと、
前記異なるサンプリングレートの中で、最大サンプリングレート、および前記最大サンプリングレートではない他のサンプリングレートを決定するステップと、
前記他のサンプリングレートに対応する前記第1の線形スペクトルの最大周波数領域連番数を第1の周波数領域連番数として決定するステップと、
前記最大サンプリングレートに対応する前記第1の線形スペクトルの最大周波数領域連番数を第2の周波数領域連番数として決定するステップと、
前記他のサンプリングレートに対応する第2の線形スペクトルを得るために、前記他のサンプリングレートに対応する前記第1の線形スペクトルにおいて、前記第1の周波数領域連番数よりも大きく、前記第2の周波数領域連番数以下である各周波数領域連番数に対応する振幅値をゼロに設定するステップと、
前記最大サンプリングレートに対応する前記第1の線形スペクトルの第1のメルスペクトル特徴に従って、前記最大サンプリングレートの前記訓練すべき音響の第1の音声特徴を決定するステップと、
前記他のサンプリングレートに対応する前記第2の線形スペクトルの第2のメルスペクトル特徴に従って、前記他のサンプリングレートの前記訓練すべき音響の第2の音声特徴を決定するステップと、
前記第1の音声特徴および前記第2の音声特徴を使用することによって、機械学習モデルを訓練するステップと
を含み、
前記大域的正規化処理が、
前記第1のメルスペクトル特徴における各メルフィルタ連番数に対応する第2の振幅値を取得するステップと、
第2の振幅値すべての平均および標準偏差を大域的平均および大域的標準偏差として計算するステップと、
前記第2の振幅値のそれぞれと前記第2の振幅値の前記大域的平均との第2の差を計算するステップと、
前記大域的標準偏差に対する各第2の差の比を、各第2の振幅値に対応する正規化された第2の振幅値として計算するステップと、
前記第1のメルスペクトル特徴における各第2の振幅値を、各第2の振幅値に対応する前記正規化された第2の振幅値と置き換えるステップと
を含
む、音声認識方法。
【請求項3】
異なるサンプリングレートの訓練すべき音響に対応する第1の線形スペクトルを前記取得するステップが、
短時間フーリエ変換を使用することによって、前記異なるサンプリングレートの前記訓練すべき音響に対応する前記第1の線形スペクトルをそれぞれ取得するステップ
を含む、請求項1
または2に記載の音声認識方法。
【請求項4】
異なるサンプリングレートの訓練すべき音響に対応する第1の線形スペクトルを前記取得するステップが、
前記異なるサンプリングレートの前記訓練すべき音響の音声信号オシログラムを取得するステップと、
前記異なるサンプリングレートの前記訓練すべき音響の前記音声信号オシログラムに対してプリエンファシス処理をそれぞれ行うステップと、
前記プリエンファシス処理後の前記音声信号オシログラムに従って、前記異なるサンプリングレートの前記訓練すべき音響に対応する前記第1の線形スペクトルを取得するステップと
を含む、請求項1
または2に記載の音声認識方法。
【請求項5】
前記第1のメルスペクトル特徴および前記第2のメルスペクトル特徴を得るために、複数の単位三角形フィルタを使用することによって、前記最大サンプリングレートに対応する前記第1の線形スペクトルおよび前記他のサンプリングレートに対応する前記第2の線形スペクトルに対してメルフィルタリング変換をそれぞれ行うステップ
をさらに含む、請求項1
または2に記載の音声認識方法。
【請求項6】
前記機械学習モデルが、ディープニューラルネットワーク(DNN)モデルを含む、請求項1
または2に記載の音声認識方法。
【請求項7】
前記異なるサンプリングレートが、16kHzおよび8kHzを含む、請求項1
または2に記載の音声認識方法。
【請求項8】
認識すべき音響を取得するステップと、
前記認識すべき音響の音声特徴を決定するステップと、
音声認識結果を得るために、前記認識すべき音響の前記音声特徴を前記機械学習モデルに入力するステップと
をさらに含む、請求項1
または2に記載の音声認識方法。
【請求項9】
前記認識すべき音響の音声特徴を前記決定するステップが、
前記認識すべき音響の第1の線形スペクトルの最大周波数領域連番数を、第3の周波数領域連番数として決定するステップと、
前記認識すべき音響の第2の線形スペクトルを得るために、前記認識すべき音響の前記第1の線形スペクトルにおいて、前記第3の周波数領域連番数よりも大きく、前記第2の周波数領域連番数以下である各周波数領域連番数に対応する振幅値をゼロに設定するステップと、
前記認識すべき音響の前記第2の線形スペクトルのメルスペクトル特徴に従って、前記認識すべき音響の前記音声特徴を決定するステップと
を含む、請求項
8に記載の音声認識方法。
【請求項10】
異なるサンプリングレートの訓練すべき音響に対応する第1の線形スペクトルを取得するように構成された第1の取得モジュールであって、前記第1の線形スペクトルの横座標が、スペクトルシーケンス連番数であり、前記第1の線形スペクトルの縦座標が、周波数領域連番数であり、前記横座標および前記縦座標によって決定される座標点の値が、前記訓練すべき音響に対応する元の振幅値である、第1の取得モジュールと、
前記異なるサンプリングレートの中で、最大サンプリングレート、および前記最大サンプリングレートではない他のサンプリングレートを決定するように構成された第1の決定モジュールと、
前記他のサンプリングレートに対応する前記第1の線形スペクトルの最大周波数領域連番数を、第1の周波数領域連番数として決定するように構成された第2の決定モジュールと、
前記最大サンプリングレートに対応する前記第1の線形スペクトルの最大周波数領域連番数を、第2の周波数領域連番数として決定するように構成された第3の決定モジュールと、
前記他のサンプリングレートに対応する第2の線形スペクトルを得るために、前記他のサンプリングレートに対応する前記第1の線形スペクトルにおいて、前記第1の周波数領域連番数よりも大きく、前記第2の周波数領域連番数以下である各周波数領域連番数に対応する振幅値をゼロに設定するように構成された設定モジュールと、
前記最大サンプリングレートに対応する前記第1の線形スペクトルの第1のメルスペクトル特徴に従って、前記最大サンプリングレートの前記訓練すべき音響の第1の音声特徴を決定するように構成された第4の決定モジュールと、
前記他のサンプリングレートに対応する前記第2の線形スペクトルの第2のメルスペクトル特徴に従って、前記他のサンプリングレートの前記訓練すべき音響の第2の音声特徴を決定するように構成された第5の決定モジュール
であって、前記第2の音声特徴を得るために、前記第2のメルスペクトル特徴に対して局所的正規化処理を行う第5の決定モジュールと、
前記第1の音声特徴および前記第2の音声特徴を使用することによって、機械学習モデルを訓練するように構成された訓練モジュールと
を備え
、
前記局所的正規化処理が、
前記他のサンプリングレートの前記訓練すべき音響に対応する最大線形スペクトル周波数に従って、前記最大線形スペクトル周波数に対応するメルスペクトル周波数を取得するステップと、
前記メルスペクトル周波数に対応する最大メルフィルタ連番数を計算するステップと、
前記第2のメルスペクトル特徴における各他のメルフィルタ連番数に対応する第1の振幅値を取得するステップであって、前記他のメルフィルタ連番数が、前記最大メルフィルタ連番数以下であるメルフィルタ連番数である、ステップと、
第1の振幅値すべての平均および標準偏差を局所的平均および局所的標準偏差としてそれぞれ計算するステップと、
前記第1の振幅値のそれぞれと前記第1の振幅値の前記局所的平均との第1の差を計算するステップと、
前記局所的標準偏差に対する各第1の差の比を、各第1の振幅値に対応する正規化された第1の振幅値として計算するステップと、
前記第2のメルスペクトル特徴における各第1の振幅値を、各第1の振幅値に対応する前記正規化された第1の振幅値と置き換えるステップと
を含む、音声認識装置。
【請求項11】
異なるサンプリングレートの訓練すべき音響に対応する第1の線形スペクトルを取得するように構成された第1の取得モジュールであって、前記第1の線形スペクトルの横座標が、スペクトルシーケンス連番数であり、前記第1の線形スペクトルの縦座標が、周波数領域連番数であり、前記横座標および前記縦座標によって決定される座標点の値が、前記訓練すべき音響に対応する元の振幅値である、第1の取得モジュールと、
前記異なるサンプリングレートの中で、最大サンプリングレート、および前記最大サンプリングレートではない他のサンプリングレートを決定するように構成された第1の決定モジュールと、
前記他のサンプリングレートに対応する前記第1の線形スペクトルの最大周波数領域連番数を、第1の周波数領域連番数として決定するように構成された第2の決定モジュールと、
前記最大サンプリングレートに対応する前記第1の線形スペクトルの最大周波数領域連番数を、第2の周波数領域連番数として決定するように構成された第3の決定モジュールと、
前記他のサンプリングレートに対応する第2の線形スペクトルを得るために、前記他のサンプリングレートに対応する前記第1の線形スペクトルにおいて、前記第1の周波数領域連番数よりも大きく、前記第2の周波数領域連番数以下である各周波数領域連番数に対応する振幅値をゼロに設定するように構成された設定モジュールと、
前記最大サンプリングレートに対応する前記第1の線形スペクトルの第1のメルスペクトル特徴に従って、前記最大サンプリングレートの前記訓練すべき音響の第1の音声特徴を決定するように構成された第4の決定モジュールと、
前記他のサンプリングレートに対応する前記第2の線形スペクトルの第2のメルスペクトル特徴に従って、前記他のサンプリングレートの前記訓練すべき音響の第2の音声特徴を決定するように構成された第5の決定モジュールと、
前記第1の音声特徴および前記第2の音声特徴を使用することによって、機械学習モデルを訓練するように構成された訓練モジュールと
を備え、
前記大域的正規化処理が、
前記第1のメルスペクトル特徴における各メルフィルタ連番数に対応する第2の振幅値を取得するステップと、
第2の振幅値すべての平均および標準偏差を大域的平均および大域的標準偏差として計算するステップと、
前記第2の振幅値のそれぞれと前記第2の振幅値の前記大域的平均との第2の差を計算するステップと、
前記大域的標準偏差に対する各第2の差の比を、各第2の振幅値に対応する正規化された第2の振幅値として計算するステップと、
前記第1のメルスペクトル特徴における各第2の振幅値を、各第2の振幅値に対応する前記正規化された第2の振幅値と置き換えるステップと
を含む、音声認識装置。
【請求項12】
メモリと、
前記メモリに結合されたプロセッサとを備え、前記プロセッサが、前記メモリに記憶されている
コンピュータプログラム命令に基づいて、請求項1から
9のいずれか一項に記載の音声認識方法を行うように構成されている、
音声認識装置。
【請求項13】
プロセッサによって実行されると、請求項1から
9のいずれか一項に記載の音声認識方法を実装するコンピュータプログラム命令を記憶したコンピュータ記憶可能媒体。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願の相互参照]
本出願は、2019年9月24日に出願された中国特許出願公開第201910904271.2号に基づき、それに対する優先権を主張するものであり、その開示は、その全体が本明細書によって本出願に組み込まれている。
【0002】
本開示は、機械学習の分野に関し、詳細には、音声認識方法および装置、ならびにコンピュータ記憶可能媒体に関する。
【背景技術】
【0003】
近年、人工知能技術の急速な発展に伴い、eコマース、物流、金融などの多数のサービス分野において、知能型の顧客サービスシステムが幅広く適用されるようになってきている。ASR(Automatic Speech Recognition)は、知能型顧客サービスシステムのコア技術のうちの1つであり、それは、ユーザの音声信号をテキスト情報に変換して、その後の自然言語処理の利便性につなげるように意図されている。そのため、知能型顧客サービスシステムが顧客の意図理解およびサービス対応を正確に行うことを保証するためには、正確でリアルタイムなASRが重要な前提となる。しかしながら、実際の知能型顧客サービスの場面においては、認識すべき音響にアクセント、方言、背景雑音干渉などの様々な複雑な要因が存在する場合があり、そのことは、高精度な音声認識にとって大きな課題となっている。
【0004】
知能型顧客サービスの場面における音声認識の論点については、従来の方法では、音声認識のための機械学習モデルは、複数のシリアルサブモデルに分解されることが通常であり、各サブモデルは、音声認識の機能の一部を実現するための機械学習モデルである。複数のシリアルサブモデルにおいては、前のサブモデルの出力が、次のサブモデルの入力となる。これらのシリアルサブモデルは、音響モデル、発音辞書モデル、および言語モデルを含むが、これらに限定するものではない。サブモデル設計、データ注釈、サブモデル訓練などの処理を経て、最終的な機械学習モデルが得られる。
【0005】
しかしながら、従来の方法には、主に次の2つの問題がある。第一に、各サブモデルを訓練するのに大量の注釈データが必要であり、サブモデルが増えるほど、注釈データを取得するための時間的費用および労働的費用が高くなる。第二に、複数のシリアルサブモデルによって得られる機械学習モデルを使用することによって音声認識が行われることにより、結果的に、サブモデルの誤差が累積的に伝送されやすくなる。たとえば、各サブモデルの精度は0.9であり、3つのシリアルサブモデルによって得られる機械学習モデルの精度は、0.93=72.9%になる。最終的な機械学習モデルの適用効果は、複数のシリアルサブモデルの方式を採用することによって著しく制限される。
【0006】
DL(Deep Learning)技術の急速な発展に伴い、従来の方法での複数のシリアルサブモデルを採用した機械学習モデルと比較して、エンドツーエンドDNN(Deep Neural Network)に基づく機械学習モデルは、その性能を著しく向上させる。DNNベースの音声認識は、1つの機械学習モデルのみを採用し、モデルの入力エンドは、音声音響データであり、モデルの出力エンドは、テキスト認識結果である。そのようなモデルにより、サブモデル設計費用の高さ、複数のサブモデルのデータの注釈費用の高さ、および複数のサブモデルの誤差が連続的に累積していくことによってもたらされる音声認識の精度の低さなどの従来の方法の機械学習モデルにおける問題が効果的に解決される。
【0007】
現在、DNNベースの機械学習モデルのフレームワークは、主にCTC(Connectionist Temporal Classification)フレームワーク、LAS(Listen Attention Spell)フレームワーク、およびRNNT(Recurrent Neural Network Transducer)フレームワークを含み、DNNベースの機械学習モデルの後発のネットワーク構造は、これらの3つのフレームワークに基づいて進化している。
【0008】
機械学習モデルを使用することによって音声認識を行うためのネットワーク構造は、通常、大きいので、大規模な音響データおよび注釈データを訓練データとして取得することは、音声認識に向けて優れた機械学習モデルを訓練するための重要な前提となる。そのため、大規模な音響データを訓練データとして得ることができるかどうかが、機械学習モデルの音声認識性能における決定的な一因となる。
【0009】
しかしながら、音響データは、画像およびテキストなどのデータを取得することとは異なり、プライバシーおよび著作権などの機密情報を含んでおり、通常、大規模な音響データを容易に得ることは困難である。さらには、注釈データを取得する過程においては、音響データの注釈を完了するのに音響データを少なくとも一度は手作業で聞く必要があり、それにより、注釈費用が高くなり、大規模な注釈データを得ることは困難になる。
【0010】
その上、大規模な音響データが得られた場合であっても、これらの音響データは、通常、異なる取得デバイスからもたらされ、その結果、これらの音響データのサンプリングレートがすべて同じであるとは限らず、また異なるサンプリングレートの音響データを同時に機械学習モデルの訓練に適用することは困難である。
【0011】
これに鑑みて、機械学習モデルを使用することによって音声認識を行う方法においては、単一のサンプリングレートの音響データが、そのサンプリングレートに対応する機械学習モデルを訓練し、得るために採用される。しかしながら、異なるサンプリングレートの音響データの音声特徴分布は異なるので、ある特定の音声特徴分布の下で訓練され得られる機械学習モデルが、別の音声特徴分布に対して効果的に適用されることは難しい場合が多く、それにより、あるサンプリングレートの音響データを使用することによって訓練され得られるDNNベースの機械学習モデルは、別のサンプリングレートの音響データに関しては音声認識効果が乏しくなる。
【0012】
より大規模な音響データを使用することによって機械学習モデルを訓練するために、関連技術においては、異なるサンプリングレートの音響データは、ダウンサンプリングまたはアップサンプリングを受け、それにより、異なるサンプリングレートが、同じサンプリングレートに変換された後、音響データの音声特徴が抽出され、次いで、抽出された音声特徴を使用することによって、機械学習モデルが訓練される。
【発明の概要】
【課題を解決するための手段】
【0013】
本開示の第1の態様によれば、音声認識方法が提供され、この方法は、異なるサンプリングレートの訓練すべき音響に対応する第1の線形スペクトルを取得するステップであって、第1の線形スペクトルの横座標が、スペクトルシーケンス連番数(spectrum-sequence serial number)であり、第1の線形スペクトルの縦座標が、周波数領域連番数(frequency-domain serial number)であり、横座標および縦座標によって決定される座標点の値が、訓練すべき音響に対応する元の振幅値である、ステップと、異なるサンプリングレートの中で、最大サンプリングレート、および最大サンプリングレートではない他のサンプリングレートを決定するステップと、他のサンプリングレートに対応する第1の線形スペクトルの最大周波数領域連番数を第1の周波数領域連番数として決定するステップと、最大サンプリングレートに対応する第1の線形スペクトルの最大周波数領域連番数を第2の周波数領域連番数として決定するステップと、他のサンプリングレートに対応する第2の線形スペクトルを得るために、他のサンプリングレートに対応する第1の線形スペクトルにおいて、第1の周波数領域連番数よりも大きく、第2の周波数領域連番数以下である各周波数領域連番数に対応する振幅値をゼロに設定するステップと、最大サンプリングレートに対応する第1の線形スペクトルの第1のメルスペクトル特徴に従って、最大サンプリングレートの訓練すべき音響の第1の音声特徴を決定するステップと、他のサンプリングレートに対応する第2の線形スペクトルの第2のメルスペクトル特徴に従って、他のサンプリングレートの訓練すべき音響の第2の音声特徴を決定するステップと、第1の音声特徴および第2の音声特徴を使用することによって、機械学習モデルを訓練するステップとを含む。
【0014】
いくつかの実施形態においては、最大サンプリングレートの訓練すべき音響の第1の音声特徴を決定するステップは、第1の音声特徴を得るために、第1のメルスペクトル特徴に対して大域的正規化処理を行うステップを含み、他のサンプリングレートの訓練すべき音響の第2の音声特徴を決定するステップは、第2の音声特徴を得るために、第2のメルスペクトル特徴に対して局所的正規化処理を行うステップを含む。
【0015】
いくつかの実施形態においては、局所的正規化処理は、他のサンプリングレートの訓練すべき音響に対応する最大線形スペクトル周波数に従って、最大線形スペクトル周波数に対応するメルスペクトル周波数を取得するステップと、メルスペクトル周波数に対応する最大メルフィルタ連番数を計算するステップと、第2のメルスペクトル特徴における各他のメルフィルタ連番数に対応する第1の振幅値を取得するステップであって、他のメルフィルタ連番数が、最大メルフィルタ連番数以下であるメルフィルタ連番数である、ステップと、第1の振幅値すべての平均および標準偏差を局所的平均および局所的標準偏差としてそれぞれ計算するステップと、第1の振幅値のそれぞれとその局所的平均との第1の差を計算するステップと、局所的標準偏差に対する各第1の差の比を各第1の振幅値に対応する正規化された第1の振幅値として計算するステップと、第2のメルスペクトル特徴における各第1の振幅値を、各第1の振幅値に対応する正規化された第1の振幅値と置き換えるステップとを含む。
【0016】
いくつかの実施形態においては、大域的正規化処理は、第1のメルスペクトル特徴における各メルフィルタ連番数に対応する第2の振幅値を取得するステップと、第2の振幅値すべての平均および標準偏差を大域的平均および大域的標準偏差として計算するステップと、第2の振幅値のそれぞれとその大域的平均との第2の差を計算するステップと、大域的標準偏差に対する各第2の差の比を各第2の振幅値に対応する正規化された第2の振幅値として計算するステップと、第1のメルスペクトル特徴における各第2の振幅値を、各第2の振幅値に対応する正規化された第2の振幅値と置き換えるステップとを含む。
【0017】
いくつかの実施形態においては、異なるサンプリングレートの訓練すべき音響に対応する第1の線形スペクトルを取得するステップは、短時間フーリエ変換を使用することによって、異なるサンプリングレートの訓練すべき音響に対応する第1の線形スペクトルをそれぞれ取得するステップを含む。
【0018】
いくつかの実施形態においては、異なるサンプリングレートの訓練すべき音響に対応する第1の線形スペクトルを取得するステップは、異なるサンプリングレートの訓練すべき音響の音声信号オシログラムを取得するステップと、異なるサンプリングレートの訓練すべき音響の音声信号オシログラムに対してプリエンファシス処理をそれぞれ行うステップと、プリエンファシス処理後の音声信号オシログラムに従って、異なるサンプリングレートの訓練すべき音響に対応する第1の線形スペクトルを取得するステップとを含む。
【0019】
いくつかの実施形態においては、音声認識方法は、第1のメルスペクトル特徴および第2のメルスペクトル特徴を得るために、複数の単位三角形フィルタ(unit triangle filter)を使用することによって、最大サンプリングレートに対応する第1の線形スペクトルおよび他のサンプリングレートに対応する第2の線形スペクトルに対してメルフィルタリング変換をそれぞれ行うステップをさらに含む。
【0020】
いくつかの実施形態においては、機械学習モデルは、ディープニューラルネットワーク(deep neural network、DNN)モデルを含む。
【0021】
いくつかの実施形態においては、異なるサンプリングレートは、16kHzおよび8kHzを含む。
【0022】
いくつかの実施形態においては、音声認識方法は、認識すべき音響を取得するステップと、認識すべき音響の音声特徴を決定するステップと、音声認識結果を得るために、認識すべき音響の音声特徴を機械学習モデルに入力するステップとをさらに含む。
【0023】
いくつかの実施形態においては、認識すべき音響の音声特徴を決定するステップは、認識すべき音響の第1の線形スペクトルの最大周波数領域連番数を第3の周波数領域連番数として決定するステップと、認識すべき音響の第2の線形スペクトルを得るために、認識すべき音響の第1の線形スペクトルにおいて、第3の周波数領域連番数よりも大きく、第2の周波数領域連番数以下である各周波数領域連番数に対応する振幅値をゼロに設定するステップと、認識すべき音響の第2の線形スペクトルのメルスペクトル特徴に従って、認識すべき音響の音声特徴を決定するステップとを含む。
【0024】
本開示の第2の態様によれば、音声認識装置が提供され、この音声認識装置は、異なるサンプリングレートの訓練すべき音響に対応する第1の線形スペクトルを取得するように構成された第1の取得モジュールであって、第1の線形スペクトルの横座標が、スペクトルシーケンス連番数であり、第1の線形スペクトルの縦座標が、周波数領域連番数であり、横座標および縦座標によって決定される座標点の値が、訓練すべき音響に対応する元の振幅値である、第1の取得モジュールと、異なるサンプリングレートの中で、最大サンプリングレート、および最大サンプリングレートではない他のサンプリングレートを決定するように構成された第1の決定モジュールと、他のサンプリングレートに対応する第1の線形スペクトルの最大周波数領域連番数を第1の周波数領域連番数として決定するように構成された第2の決定モジュールと、最大サンプリングレートに対応する第1の線形スペクトルの最大周波数領域連番数を第2の周波数領域連番数として決定するように構成された第3の決定モジュールと、他のサンプリングレートに対応する第2の線形スペクトルを得るために、他のサンプリングレートに対応する第1の線形スペクトルにおいて、第1の周波数領域連番数よりも大きく、第2の周波数領域連番数以下である各周波数領域連番数に対応する振幅値をゼロに設定するように構成された設定モジュールと、最大サンプリングレートに対応する第1の線形スペクトルの第1のメルスペクトル特徴に従って、最大サンプリングレートの訓練すべき音響の第1の音声特徴を決定するように構成された第4の決定モジュールと、他のサンプリングレートに対応する第2の線形スペクトルの第2のメルスペクトル特徴に従って、他のサンプリングレートの訓練すべき音響の第2の音声特徴を決定するように構成された第5の決定モジュールと、第1の音声特徴および第2の音声特徴を使用することによって、機械学習モデルを訓練するように構成された訓練モジュールとを備える。
【0025】
本開示の第3の態様によれば、音声認識装置が提供され、この音声認識装置は、メモリと、メモリに結合されたプロセッサとを備え、プロセッサは、メモリに記憶されている命令に基づいて、上記の実施形態のうちのいずれかによる音声認識方法を行うように構成されている。
【0026】
本開示の第4の態様によれば、プロセッサによって実行されると、実施形態のうちのいずれかによる音声認識方法を実装するコンピュータプログラム命令を記憶したコンピュータ記憶可能媒体が提供される。
【0027】
本明細書の一部を構成する添付の図面は、本開示の実施形態を示し、説明とともに、本開示の原理を説明するのに役立つ。
【0028】
本開示は、添付の図面と併せて作成される次の詳細な説明からより明確に理解することができる。
【図面の簡単な説明】
【0029】
【
図1】本開示のいくつかの実施形態による音声認識方法を示すフロー図である。
【
図2】本開示のいくつかの実施形態による、異なるサンプリングレートの訓練すべき音響に対応する第1の線形スペクトルを取得するステップを示すフロー図である。
【
図3A】本開示のいくつかの実施形態による、サンプリングレートが8kHzである訓練すべき音響の音声信号オシログラムを示す図である。
【
図3B】本開示のいくつかの実施形態による、サンプリングレートが16kHzである訓練すべき音響の音声信号オシログラムを示す図である。
【
図4A】本開示のいくつかの実施形態による、プリエンファシス処理後のサンプリングレートが8kHzである訓練すべき音響の音声信号オシログラムを示す図である。
【
図4B】本開示のいくつかの実施形態による、プリエンファシス処理後のサンプリングレートが16kHzである訓練すべき音響の音声信号オシログラムを示す図である。
【
図5A】本開示のいくつかの実施形態による、サンプリングレートが8kHzである訓練すべき音響に対応する第1の線形スペクトルを示す図である。
【
図5B】本開示のいくつかの実施形態による、サンプリングレートが16kHzである訓練すべき音響に対応する第1の線形スペクトルを示す図である。
【
図6】本開示のいくつかの実施形態による、サンプリングレートが8kHzである訓練すべき音響に対応する第2の線形スペクトルを示す図である。
【
図7】本開示のいくつかの実施形態による、最大サンプリングレートの訓練すべき音響の第1の音声特徴を決定するステップを示すフロー図である。
【
図8】本開示のいくつかの実施形態による、16kHzに対応する第1の線形スペクトルの第1のメルスペクトル特徴を示す図である。
【
図9A】本開示のいくつかの実施形態による大域的正規化処理を示すフロー図である。
【
図9B】本開示のいくつかの実施形態による、サンプリングレートが16kHzである訓練すべき音響に対応する第1の音声特徴を示す図である。
【
図10】本開示のいくつかの実施形態による、他のサンプリングレートの訓練すべき音響の第2の音声特徴を決定するステップを示すフロー図である。
【
図11】本開示のいくつかの実施形態による、8kHzに対応する第2の線形スペクトルの第2のメルスペクトル特徴を示す図である。
【
図12A】本開示のいくつかの実施形態による局所的正規化処理を示すフロー図である
【
図12B】本開示のいくつかの実施形態による、サンプリングレートが8kHzである訓練すべき音響に対応する第2の音声特徴を示す図である。
【
図13】本開示のいくつかの実施形態による音声認識装置を示すブロック図である。
【
図14】本開示の他の実施形態による音声認識装置を示すブロック図である。
【
図15】本開示のいくつかの実施形態を実装するためのコンピュータシステムを示すブロック図である。
【発明を実施するための形態】
【0030】
次に、本開示の様々な例示的な実施形態について、添付の図面を参照して詳細に説明する。これらの実施形態に記載される構成要素およびステップの相対的構成、数値表現および数値は、特に別段の断りがない限り、本開示の範囲を限定するものでないことに留意すべきである。
【0031】
一方、図面に示される様々な部分のサイズは、説明を容易にするために実際の縮尺で描かれていないことを理解すべきである。
【0032】
少なくとも1つの例示的な実施形態についての次の説明は、性質上、単なる例示にすぎず、本開示、その適用例、または使用法を限定することを何ら意図するものではない。
【0033】
当業者に知られている技法、方法、および装置については、詳細に論じていない場合があるが、適切な場合には、本明細書の一部と見なすべきである。
【0034】
本明細書に示され、論じられているすべての例においては、任意の特定の値は、単なる例示と解釈すべきであり、限定と解釈すべきではない。そのため、例示的な実施形態の他の例では、値が異なっている場合がある。
【0035】
同様の参照数字および文字が、次の図面における同様の項目を示し、そのため、ある図面に特定の項目が定義されると、その後の図面ではさらに論じる必要がないことに留意されたい。
【0036】
関連技術においては、大量の元の音響データ情報がダウンサンプリングにおいて失われ、他の音響データ情報がアップサンプリングにおいて挿入されることになり、それにより、異なるサンプリングレートの音響データの元の音声特徴を正確に抽出することができなくなり、そのため、機械学習モデルの音声認識性能を向上させることは困難である。
【0037】
これに鑑みて、本開示においては、異なるサンプリングレートの音響データの元の音声特徴を正確に抽出し、それによって、機械学習モデルの音声認識性能を向上させる音声認識方法が提供される。
【0038】
図1は、本開示のいくつかの実施形態による音声認識方法を示すフロー図である。
【0039】
図1に示されているように、音声認識方法は、ステップS110~S180を含む。たとえば、音声認識方法は、音声認識装置によって行われる。
【0040】
ステップS110においては、異なるサンプリングレートの訓練すべき音響に対応する第1の線形スペクトルが取得される。第1の線形スペクトルの横座標は、スペクトルシーケンス連番数であり、その縦座標は、周波数領域連番数である。第1の線形スペクトルの横座標および縦座標によって決定される座標点の値は、訓練すべき音響に対応する元の振幅値である。
【0041】
異なるサンプリングレートは、たとえば、16kHzおよび8kHzを含む。つまり、訓練すべき音響は、サンプリングレートが16kHzである音響、およびサンプリングレートが8kHzである音響を含む。本開示は、最も一般的なサンプリングレート16kHzおよび8kHzしか例としてとっていないが、サンプリングレートは、44.1kHz、50kHzなどの他のサンプリングレートも含むことができることを理解すべきである。
【0042】
いくつかの実施形態においては、サンプリングレートは、s、およびs∈[1,2]によって示される。s∈[1,2]は、サンプリングレートsの値が1または2であることを示す。サンプリングレートsの値が1であるという条件下では、訓練すべき音響のサンプリングレートは8kHzである。サンプリングレートsの値が2であるという条件下では、訓練すべき音響のサンプリングレートは16kHzである。
【0043】
たとえば、サンプリングレートが同じである訓練すべき音響は、複数の音響とすることができる。いくつかの実施形態においては、サンプリングレートが8kHzである訓練すべき音響の数はN1であり、ここで、N1は正の整数である。サンプリングレートが16kHzである訓練すべき音響の数はN2であり、ここで、N2は正の整数である。
【0044】
いくつかの実施形態においては、異なるサンプリングレートの訓練すべき音響に対応する第1の線形スペクトルは、短時間フーリエ変換(short-time Fourier transform、STFT)を使用することによってそれぞれ取得される。たとえば、音響の時間領域特徴は、短時間フーリエ変換を使用することによって、周波数領域特徴に変換することができる。音声認識の分野においては、周波数領域特徴は音声特徴表現がより優れており、異なる音声特徴は、スペクトルにおいて、より容易に識別される。そのため、訓練すべき音響の時間領域特徴を周波数領域特徴に変換することは、機械学習モデルの訓練にとってより有益である。
【0045】
いくつかの実施形態においては、
図1のステップS110における、異なるサンプリングレートの訓練すべき音響に対応する第1の線形スペクトルを取得するステップは、
図2に示されているような方式で実装してもよい。
【0046】
図2は、本開示のいくつかの実施形態による、異なるサンプリングレートの訓練すべき音響に対応する第1の線形スペクトルを取得するステップを示すフロー図である。
【0047】
図2に示されているように、異なるサンプリングレートの訓練すべき音響に対応する第1の線形スペクトルを取得するステップは、ステップS111~S113を含む。
【0048】
ステップS111においては、異なるサンプリングレートの訓練すべき音響の音声信号オシログラムが取得される。音声信号オシログラムは、音響の時間領域特徴を表す。
【0049】
たとえば、サンプリングレートが8kHzおよび16kHzである訓練すべき音響の音声信号オシログラムがそれぞれ取得される。
【0050】
サンプリングレートが8kHzおよび16kHzである訓練すべき音響の音声信号オシログラムについて、
図3Aおよび
図3Bと併せて詳細に後述する。
【0051】
図3Aは、本開示のいくつかの実施形態による、サンプリングレートが8kHzである訓練すべき音響の音声信号オシログラムを示している。
【0052】
図3Aに示されているように、サンプリングレートが8kHzである訓練すべき音響の音声信号オシログラムの横座標は、サンプリングポイント連番数であり、その縦座標は、音声信号の正規化された振幅値である。
図3Aに示されている音声信号オシログラムは、サンプリングレートが8kHzである訓練すべき音響の離散音声信号を可視化形態で表している。
【0053】
いくつかの実施形態においては、
図3Aに示されている、サンプリングレートが8kHzである訓練すべき音響の音声信号オシログラムの離散音声信号は、
【0054】
【0055】
と示すことができ、ここで、i∈[1,N1]である。
【0056】
【0057】
中の1は、サンプリングレートsの値である。
【0058】
たとえば、
図3Aの音声信号オシログラムの離散音声信号のサンプリングポイント連番数が、kによって示される。
【0059】
【0060】
であり、ここで、
【0061】
【0062】
は、離散音声信号
【0063】
【0064】
のサンプリングポイントの総数であるだけでなく、サンプリングポイント連番数の最大値でもある。いくつかの実施形態においては、各サンプリングポイントは、1つのサンプリング時間モーメントに対応し、それにより、
【0065】
【0066】
もまた、サンプリング時間モーメントの総数を示す。
【0067】
たとえば、
図3Aに示されているサンプリングレートが8kHzである訓練すべき音響の音声信号オシログラムの離散音声信号
【0068】
【0069】
におけるk番目のサンプリングポイントの振幅値は、
【0070】
【0071】
と示すことができる。
【0072】
図3Bは、本開示のいくつかの実施形態による、サンプリングレートが16kHzである訓練すべき音響の音声信号オシログラムを示している。
【0073】
図3Bに示されているように、サンプリングレートが16kHzである訓練すべき音響の音声信号オシログラムの横座標は、サンプリングポイント連番数であり、その縦座標は、音声信号の正規化された振幅値である。
図3Bに示されている音声信号オシログラムは、サンプリングレートが16kHzである訓練すべき音響の離散音声信号を可視化形態で表している。
【0074】
いくつかの実施形態においては、
図3Bに示されているサンプリングレートが16kHzである訓練すべき音響の音声信号オシログラムの離散音声信号は、
【0075】
【0076】
と示すことができ、ここで、j∈[1,N2]である。
【0077】
【0078】
中の2は、サンプリングレートsの値である。
【0079】
たとえば、
図3Bの音声信号オシログラムの離散音声信号のサンプリングポイント連番数が、k'によって示される。
【0080】
【0081】
であり、ここで、
【0082】
【0083】
は、離散音声信号
【0084】
【0085】
のサンプリングポイントの総数であるだけでなく、サンプリングポイント連番数の最大値でもある。いくつかの実施形態においては、各サンプリングポイントは、1つのサンプリング時間モーメントに対応し、それにより、
【0086】
【0087】
もまた、サンプリング時間モーメントの総数を示す。
【0088】
たとえば、
図3Bに示されているサンプリングレートが16kHzである訓練すべき音響の音声信号オシログラムの離散音声信号
【0089】
【0090】
におけるk'番目のサンプリングポイントの振幅値は、
【0091】
【0092】
と示すことができる。
【0093】
図2に戻ると、異なるサンプリングレートの訓練すべき音響の音声信号オシログラムが取得された後、ステップS112が実行される。ステップS112においては、異なるサンプリングレートの訓練すべき音響の音声信号オシログラムに対してプリエンファシス処理がそれぞれ行われる。プリエンファシス処理後の音声信号オシログラムは、依然として音響の時間領域特徴を表している。音声信号に対してプリエンファシス処理を行うことによって、音声信号の信号対雑音比が向上し、音声の高周波数分解能が高まり、元の訓練すべき音響の音声特徴がより良く復元される。
【0094】
たとえば、プリエンファシス処理は、サンプリングレートが8kHzおよび16kHzである音響の音声信号オシログラムに対してそれぞれ行われる。
【0095】
図3Aおよび
図3Bにおけるサンプリングレートが8kHzおよび16kHzである訓練すべき音響の音声信号オシログラム関して行われたプリエンファシス処理後の音声信号オシログラムについて、
図4Aおよび
図4Bと併せて詳細に後述する。
【0096】
図4Aは、本開示のいくつかの実施形態による、プリエンファシス処理後のサンプリングレートが8kHzである訓練すべき音響の音声信号オシログラムを示している。
【0097】
図4Aに示されているように、プリエンファシス処理後のサンプリングレートが8kHzである訓練すべき音響の音声信号オシログラムの横座標は、サンプリングポイント連番数であり、その縦座標は、プリエンファシス処理後の正規化された振幅値である。
【0098】
たとえば、
図4Aに示されているプリエンファシス処理後の音声信号オシログラムの離散音声信号は、
【0099】
【0100】
と示すことができる。αは、プリエンファシス重みであり、0<α<1である。たとえば、α=0.97である。
【0101】
図4Bは、本開示のいくつかの実施形態による、プリエンファシス処理後のサンプリングレートが16kHzである訓練すべき音響の音声信号オシログラムを示している。
【0102】
図4Bに示されているように、プリエンファシス処理後のサンプリングレートが16kHzである訓練すべき音響の音声信号オシログラムの横座標は、サンプリングポイント連番数であり、その縦座標は、プリエンファシス処理後の正規化された振幅値である。
【0103】
たとえば、
図4Bに示されているプリエンファシス処理後の音声信号オシログラムの離散音声信号は、
【0104】
【0105】
と示すことができる。α'は、プリエンファシス重みであり、0<α'<1である。たとえば、α'=0.97である。
【0106】
図2に戻ると、異なるサンプリングレートの訓練すべき音響の音声信号オシログラムに対してプリエンファシス処理が行われた後、ステップS113が実行される。ステップS113においては、プリエンファシス処理後の音声信号オシログラムに従って、異なるサンプリングレートの訓練すべき音響に対応する第1の線形スペクトルが取得される。たとえば、
図4Aおよび
図4Bに示されているプリエンファシス処理後の音声信号オシログラムに従って、サンプリングレートが8kHzおよび16kHzである訓練すべき音響に対応する第1の線形スペクトルが取得される。
【0107】
いくつかの実施形態においては、
図4Aおよび
図4Bに示されているプリエンファシス処理後の音声信号オシログラムの離散音声信号は、
【0108】
【0109】
および
【0110】
【0111】
とそれぞれ示される。たとえば、
図4Aおよび
図4Bに示されているプリエンファシス処理後の音声信号オシログラムの離散音声信号
【0112】
【0113】
および
【0114】
【0115】
は、サンプリングレートが8kHzおよび16kHzである訓練すべき音響に対応する第1の線形スペクトル
【0116】
【0117】
および
【0118】
【0119】
を得るために、短時間フーリエ変換をそれぞれ受ける。たとえば、短時間フーリエ変換式
【0120】
【0121】
および
【0122】
【0123】
を使用することによって、n1ポイント短時間フーリエ変換およびn2ポイント短時間フーリエ変換が、離散音声信号
【0124】
【0125】
および
【0126】
【0127】
に対してそれぞれ行われる。
【0128】
たとえば、STFTのスライディングウィンドウのサイズは20msであり、スライディングウィンドウのスライディングストライドは10msである。ウィンドウのスライディングストライドは、スライディングウィンドウ間の一定の重複エリアを確保するためにのみ必要であることを理解すべきである。
【0129】
いくつかの実施形態においては、サンプリングレートが8kHzおよび16kHzである訓練すべき音響に対して行われるプリエンファシス処理後の離散音声信号は、スライディングウィンドウ20msにおいて、20ms×8kHz=160ポイントおよび20ms×16kHz=320ポイントをそれぞれ有する。n1およびn2の値は、並列処理を実現し、処理速度を向上させるために、2という指数でなければならない。ただし、指数2における160よりも大きい最小数および320よりも大きい最小数は、それぞれ256および512である。そのため、n1=256およびn2=512である。
【0130】
計算されたn1およびn2によれば、サンプリングレートが8kHzおよび16kHzである訓練すべき音響に対して行われるプリエンファシス処理後の離散音声信号は、それぞれ256ポイントSTFTおよび512ポイントSTFTを受けることができる。
【0131】
サンプリング定理によれば、サンプリングレートが8kHzである訓練すべき音響は、最大でも4kHzのスペクトル情報しか有することができず、256ポイントSTFTは、-4kHz~4kHzを256個の部分に均等に分割することになっている。正の周波数4kHzと負の周波数-4kHzとを組み合わせることによって、スペクトルシーケンスの得られる次元は、256÷2+1=129である。
【0132】
256ポイントSTFTにより、サンプリングレートが8kHzである各離散音声信号の129次元スペクトルシーケンスは、サンプリングレートが8kHzである訓練すべき音響の第1の線形スペクトルとして得ることができる。
【0133】
図5Aは、本開示のいくつかの実施形態による、サンプリングレートが8kHzである訓練すべき音響に対応する第1の線形スペクトルを示している。
【0134】
図5Aに示されているように、サンプリングレートが8kHzである訓練すべき音響に対応する第1の線形スペクトルの横座標は、スペクトルシーケンス連番数であり、その縦座標は、周波数領域連番数である。横座標および縦座標によって決定される座標点の値は、サンプリングレートが8kHzである訓練すべき音響に対応する振幅値である。各周波数領域連番数は、1つの周波数範囲に対応する。
【0135】
たとえば、サンプリングレートが8kHzである訓練すべき音響の線形スペクトル周波数範囲は、0~4kHzであり、サンプリングレートが8kHzである訓練すべき音響に対応する第1の線形スペクトルの周波数領域連番数は、0~128であり、つまり、0~4kHzは、128個のセグメントに分割され、各周波数領域連番数は、1つの線形スペクトル周波数範囲に対応する。
【0136】
図4Bによれば、プリエンファシス処理後の離散音声信号の最大サンプリングポイント連番数は20000であり、つまり、8kHzの訓練すべき音響は、総計で20000個のサンプリングポイントを有することがわかり得る。8kHzは、秒当たり8000個のサンプリングポイントを示し、20000個のサンプリングポイントを有する8kHzの音響の総持続時間は20000/8000=2.5秒、すなわち2500ミリ秒である。
【0137】
たとえば、スライディングウィンドウの1ストライドは10ミリ秒であり、スライドストライドの数は、2500/10-1=249個のストライドである。そのため、サンプリングレートが8kHzである訓練すべき音響に対応する第1の線形スペクトルのスペクトルシーケンス連番数は、0~248である。周波数領域連番数は、0~128である。各スペクトルシーケンス連番数および各周波数領域連番数は、1つの振幅値を一意に決定する。各スペクトルシーケンス連番数に対応する129個の振幅値は、スペクトルシーケンス連番数に対応するスペクトルシーケンスを構成する。同様に、512ポイントSTFTにより、サンプリングレートが16kHzである各離散音声信号の257次元スペクトルシーケンスは、サンプリングレートが16kHzである訓練すべき音響の第1の線形スペクトルとして得ることができる。
【0138】
図5Bは、本開示のいくつかの実施形態による、サンプリングレートが16kHzである訓練すべき音響に対応する第1の線形スペクトルを示している。
【0139】
図5Bに示されているように、サンプリングレートが16kHzである訓練すべき音響に対応する第1の線形スペクトルの横座標は、スペクトルシーケンス連番数であり、その縦座標は、周波数領域連番数である。横座標および縦座標によって決定される座標点の値は、サンプリングレートが16kHzである音響に対応する振幅値である。サンプリングレートが16kHzである訓練すべき音響に対応する第1の線形スペクトルのスペクトルシーケンス連番数は0~498であり、周波数領域連番数は0~256である。各スペクトルシーケンス連番数および各周波数領域連番数は、1つの振幅値を一意に決定する。各スペクトルシーケンス連番数に対応する257個の振幅値は、スペクトルシーケンス連番数に対応するスペクトルシーケンスを構成する。
【0140】
図1に戻ると、異なるサンプリングレートの訓練すべき音響に対応する第1の線形スペクトルが取得された後、ステップS120が行われる。ステップS120においては、異なるサンプリングレートの中で、最大サンプリングレート、および最大サンプリングレートではない他のサンプリングレートが決定される。たとえば、異なるサンプリングレート8kHzおよび16kHzの訓練すべき音響を例としてとると、最大サンプリングレートは16kHzであり、他のサンプリングレートは8kHzである。
【0141】
ステップS130においては、他のサンプリングレートに対応する第1の線形スペクトルの最大周波数領域連番数は、第1の周波数領域連番数として決定される。いくつかの実施形態においては、8kHzに対応する第1の線形スペクトルの最大周波数領域連番数が、第1の周波数領域連番数として決定される。たとえば、
図5Aによる、異なるサンプリングレート8kHzおよび16kHzの訓練すべき音響を例としてとると、第1の周波数領域連番数は128である。
【0142】
ステップS140においては、最大サンプリングレートに対応する第1の線形スペクトルの最大周波数領域連番数は、第2の周波数領域連番数として決定される。いくつかの実施形態においては、16kHzに対応する第1の線形スペクトルの最大周波数領域連番数が、第2の周波数領域連番数として決定される。たとえば、
図5Bによる、異なるサンプリングレート8kHzおよび16kHzの訓練すべき音響を例としてとると、第2の周波数領域連番数は256である。
【0143】
ステップS150においては、他のサンプリングレートに対応する第2の線形スペクトルを得るために、他のサンプリングレートに対応する第1の線形スペクトルにおいて、第1の周波数領域連番数よりも大きく、第2の周波数領域連番数以下である各周波数領域連番数に対応する振幅値が、0に設定される。
【0144】
たとえば、
図5Aにおいては、
図6に示されているように、8kHzに対応する第2の線形スペクトルを得るために、128よりも大きく、256以下である各周波数領域連番数に対応する振幅値が、0に設定される。第2の線形スペクトルの周波数領域連番数の数は、16kHzに対応する第1の線形スペクトルの周波数領域連番数の数と同じであり、それにより、異なるサンプリングレートの訓練すべき音響を使用することによって、機械学習モデルに関して混合訓練を行うことができる。
【0145】
図6は、本開示のいくつかの実施形態による、サンプリングレートが8kHzである訓練すべき音響に対応する第2の線形スペクトルを示している。
【0146】
図6に示されているように、サンプリングレートが8kHzである訓練すべき音響に対応する第2の線形スペクトルの横座標は、スペクトルシーケンス連番数であり、その縦座標は、周波数領域連番数である。横座標および縦座標によって決定される座標点の値は、サンプリングレートが8kHzである音響に対応する振幅値である。
【0147】
図5Aと比較して、
図6においては、周波数領域連番数129~255に対応する振幅値が加えられ、振幅値はすべて0である。ゼロパディングは、音響の元のスペクトル情報を破壊せず、元の音声特徴を破壊しない。ゼロパディングは、8kHzの音響に対応する第1の線形スペクトルに対して行われるので、8kHzの訓練すべき音響の第2の線形スペクトルの周波数範囲と16kHzの訓練すべき音響の第1の線形スペクトルの周波数範囲はともに、0~8kHzである。
【0148】
図1に戻ると、他のサンプリングレートに対応する第2の線形スペクトルが得られた後、ステップS160が行われる。ステップS160においては、最大サンプリングレートの訓練すべき音響の第1の音声特徴が、最大サンプリングレートに対応する第1の線形スペクトルの第1のメルスペクトル特徴に従って決定される。メルスペクトル特徴は、メルスペクトログラムとも呼ばれる。
【0149】
図7は、本開示のいくつかの実施形態による、最大サンプリングレートの訓練すべき音響の第1の音声特徴を決定するステップを示すフロー図である。
【0150】
図7に示されているように、最大サンプリングレートの訓練すべき音響の第1の音声特徴を決定するステップは、ステップS161~S162を含む。
【0151】
ステップS161においては、第1のメルスペクトル特徴を得るために、複数の単位三角形フィルタまたは複数の単位方形波フィルタ(unit square-wave filter)を使用することによって、最大サンプリングレートに対応する第1の線形スペクトルに対してメルフィルタリング変換が行われる。単位三角形フィルタと単位方形波フィルタはともに、線形メルフィルタである。
【0152】
メルスペクトル特徴は、線形スペクトル特徴をフィルタリングし、変換することによって得られる別のスペクトル特徴であることは当業者であれば理解すべきである。メルフィルタリング変換により、線形スペクトル特徴をメルスペクトル特徴に変換することは、線形スペクトル特徴を対数線形スペクトルに変換することである。ただし、音声認識においては、高周波数と低周波数の特徴が異なることに起因して、低周波数部分の音声情報が高周波数部分の音声情報よりも豊富であることが一般に考えられる。線形スペクトルに対してメルフィルタリング変換を行うことによって得られるメルスペクトル特徴により、音響の低周波数部分に対応するメルスペクトルの分解能はより高くなり、高周波数部分に対応するメルスペクトルの分解能は相対的により低くなり、そのことは、音声認識の過程において音声特徴の抽出にとってより有益である。この場合、高周波数と低周波数は、相対的な概念であり、すなわち、低周波数よりも高い周波数はすべて、高周波数である。たとえば、0~2kHzが低周波数であれば、2kHzよりも大きい周波数は、高周波数である。
【0153】
いくつかの実施形態においては、メルスペクトル周波数と線形スペクトル周波数との間のマッピング関係は、
【0154】
【0155】
またはf=700(10m/2595-1)である。fは、線形スペクトル周波数であり、mは、メルスペクトル周波数である。
【0156】
いくつかの実施形態においては、線形メルフィルタの数を設計することによって、対応する次元特徴のメルスペクトル特徴を得ることができる。たとえば、複数の単位三角形フィルタを使用することによって、最大サンプリングレートに対応する第1の線形スペクトルに対してメルフィルタリング変換が行われる。いくつかの実施形態においては、単位三角形フィルタの数は80である。
【0157】
たとえば、式
【0158】
【0159】
を使用することによって、各単位三角形フィルタが計算される。Hn(g)は、n番目の単位三角形フィルタを示す。nは、1以上かつ80以下の整数である。mnは、各単位三角形フィルタの中心周波数である。gは、線形スペクトル周波数である。f(mn)は、中心周波数mnに対応する線形スペクトル周波数である。たとえば、f(mn)は、式f=700(10m/2595-1)を用いて計算される。
【0160】
本開示のいくつかの実施形態における各単位三角形フィルタの中心周波数mnの計算過程について、詳細に後述する。
【0161】
たとえば、各単位三角形フィルタの最大メルスペクトル周波数に対応する線形スペクトル周波数は、8kHzであり、すなわち、
【0162】
【0163】
である。各単位三角形フィルタの帯域幅は、
【0164】
【0165】
である。各単位三角形フィルタの中心周波数は、
【0166】
【0167】
である。
【0168】
たとえば、サンプリングレートが16kHzである音響の場合、単位三角形フィルタH
n(g)が計算された後、80個の単位三角形フィルタH
1(g)~H
n(g)を使用することによって、
図5Bに示されている第1の線形スペクトルに対してメルフィルタリング変換が行われる。たとえば、メルフィルタリング変換式
【0169】
【0170】
を使用することによって、
図8に示されているように、第1のメルスペクトル特徴が計算される。
【0171】
【0172】
は、第1のメルスペクトル特徴における第2の振幅値の行列である。
【0173】
図8は、本開示のいくつかの実施形態による、16kHzに対応する第1の線形スペクトルの第1のメルスペクトル特徴を示している。
【0174】
図8に示されているように、サンプリングレートが16kHzである訓練すべき音響に対応する第1の線形スペクトルの第1のメルスペクトル特徴の横座標は、スペクトルシーケンス連番数であり、それは第1の線形スペクトルのスペクトルシーケンス連番数と同じである。第1のメルスペクトル特徴の縦座標は、メルフィルタ連番数である。横座標および縦座標によって決定される座標点の値は、サンプリングレートが16kHzである訓練すべき音響に対応する第2の振幅値である。
【0175】
図7に戻ると、第1のメルスペクトル特徴が得られた後、ステップS162の実行が継続される。ステップS162においては、第1の音声特徴を得るために、第1のメルスペクトル特徴に対して大域的正規化処理が行われる。
【0176】
図9Aは、本開示のいくつかの実施形態による大域的正規化処理を示すフロー図である。
【0177】
図9Aに示されているように、大域的正規化処理は、ステップS1621~S1625を含む。
【0178】
ステップS1621においては、各メルフィルタ連番数に対応する第1のメルスペクトル特徴における第2の振幅値が取得される。たとえば、最大サンプリングレート16kHzを例としてとると、
図8における第1のメルスペクトル特徴の第2の振幅値の行列は、
【0179】
【0180】
である。
【0181】
ステップS1622においては、第2の振幅値の平均および標準偏差が、大域的平均および大域的標準偏差として計算される。たとえば、最大サンプリングレート16kHzを例としてとると、
図8における第1のメルスペクトル特徴に対応する大域的平均および大域的標準偏差は、それぞれ、
【0182】
【0183】
および
【0184】
【0185】
である。
【0186】
ステップS1623においては、第2の振幅値のそれぞれとその大域的平均との第2の差が計算される。たとえば、最大サンプリングレート16kHzを例としてとると、
図8における第1のメルスペクトル特徴に対応する第2の差は、
【0187】
【0188】
である。
【0189】
ステップS1624においては、大域的標準偏差に対する各第2の差の比が、各第2の振幅値に対応する正規化された第2の振幅値として計算される。たとえば、最大サンプリングレート16kHzを例としてとると、
図8における第1のメルスペクトル特徴の第2の振幅値の行列
【0190】
【0191】
に対応する正規化された第2の振幅値の行列は、
【0192】
【0193】
である。
【0194】
ステップS1625においては、第1のメルスペクトル特徴における各第2の振幅値は、各第2の振幅値に対応する正規化された第2の振幅値と置き換えられる。たとえば、最大サンプリングレート16kHzを例としてとると、
【0195】
【0196】
を使用することによって、
図8における第1のメルスペクトル特徴の第2の振幅値は、
図9Bに示されている第1の音声特徴を得るために、正規化された第2の振幅値と置き換えられる。大域的正規化処理後の第1のメルスペクトル特徴は、第1の音声特徴である。
【0197】
図9Bは、本開示のいくつかの実施形態による、サンプリングレートが16kHzである訓練すべき音響に対応する第1の音声特徴を示している。
【0198】
図9Bに示されているように、第1の音声特徴の横座標は、スペクトルシーケンス連番数であり、それは、16kHzの訓練すべき音響に対応する第1の線形スペクトルのスペクトルシーケンス連番数と同じである。その縦座標は、メルフィルタ連番数である。横座標および縦座標によって決定される座標点の値は、サンプリングレートが16kHzである訓練すべき音響に対応する大域的正規化後の第2の振幅値である。
【0199】
本開示においては、第1のメルスペクトル特徴に対して大域的正規化処理を行うことによって、機械学習モデルの訓練の収束効果が向上し、機械学習モデルの訓練に対する特異データの影響が抑えられる。
【0200】
図1に戻ると、最大サンプリングレートの訓練すべき音響の第1の音声特徴が決定された後、ステップS170が実行される。ステップS160およびステップS170を実行する順序は、必要に応じて設定可能であり、
図1に示されている実行順序は、単なる例示にすぎないことを理解すべきである。
【0201】
ステップS170においては、他のサンプリングレートの訓練すべき音響の第2の音声特徴が、他のサンプリングレートに対応する第2の線形スペクトルの第2のメルスペクトル特徴に従って決定される。
【0202】
図10は、本開示のいくつかの実施形態による、他のサンプリングレートの訓練すべき音響の第2の音声特徴を決定するステップを示すフロー図である。
【0203】
図10に示されているように、別のサンプリングレートの訓練すべき音響の第2の音声特徴を決定するステップは、ステップS171~S172を含む。
【0204】
ステップS171においては、第2のメルスペクトル特徴を得るために、複数の単位三角形フィルタまたは複数の単位方形波フィルタを使用することによって、他のサンプリングレートに対応する第2の線形スペクトルに対してメルフィルタリング変換が行われる。
【0205】
たとえば、サンプリングレートが8kHzである訓練すべき音響の場合、単位三角形フィルタH
n[g]が計算された後、80個の単位三角形フィルタH
1[g]~H
n[g]を使用することによって、
図6に示されているように、第2の線形スペクトルに対してメルフィルタリング変換が行われる。たとえば、
図11に示されているように、第2のメルスペクトル特徴は、メルフィルタリング変換式
【0206】
【0207】
を使用することによって計算される。
【0208】
【0209】
は、第2のメルスペクトル特徴における第1の振幅値の行列である。
【0210】
図11は、本開示のいくつかの実施形態による、8kHzに対応する第2の線形スペクトルの第2のメルスペクトル特徴を示している。
【0211】
図11に示されているように、サンプリングレートが8kHzである訓練すべき音響に対応する第2の線形スペクトルの第2のメルスペクトル特徴の横座標は、スペクトルシーケンス連番数であり、それは、第2の線形スペクトルのスペクトルシーケンス連番数と同じである。その縦座標は、メルフィルタ連番数である。横座標および縦座標によって決定される座標点の値は、サンプリングレートが8kHzである訓練すべき音響に対応する第1の振幅値である。
【0212】
図10に戻ると、第2のメルスペクトル特徴が得られた後、ステップS172が実行される。ステップS172においては、第2の音声特徴を得るために、第2のメルスペクトル特徴に対して局所的正規化処理が行われる。
【0213】
図12Aは、本開示のいくつかの実施形態による局所的正規化処理を示すフロー図である。
【0214】
図12Aに示されているように、局所的正規化処理は、ステップS1721~S1727を含む。
【0215】
ステップS1721においては、他のサンプリングレートの音響に対応する最大線形スペクトル周波数に従って、最大線形スペクトル周波数に対応するメルスペクトル周波数が取得される。最大線形スペクトル周波数はまた、最大音声信号周波数でもある。
【0216】
たとえば、他のサンプリングレート8kHzを例としてとると、サンプリング定理によれば、サンプリングレートが8kHzである訓練すべき音響に対応する第2の線形スペクトルの最大線形スペクトル周波数は、4kHzである。
【0217】
ステップS1722においては、メルスペクトル周波数に対応する最大メルスペクトルフィルタ連番数が計算される。たとえば、他のサンプリングレート8kHzを例としてとると、4kHzに対応するメルスペクトル周波数は、
【0218】
【0219】
である。式
【0220】
【0221】
によれば、メルスペクトル周波数m1に対応するメルフィルタ連番数は、
【0222】
【0223】
である。
【0224】
ステップS1723においては、各他のメルフィルタ連番数に対応する第2のメルスペクトル特徴における第1の振幅値が取得される。他のメルフィルタ連番数は、最大メルフィルタ連番数以下であるメルフィルタ連番数である。
【0225】
たとえば、他のサンプリングレート8kHzを例としてとると、他のメルフィルタ連番数は1~61である。いくつかの実施形態においては、
図11における第2のメルスペクトル特徴の他のメルフィルタ連番数に対応する第1の振幅値の行列は、
【0226】
【0227】
である。
【0228】
ステップS1724においては、第1の振幅値の平均および標準偏差は、局所的平均および局所的標準偏差としてそれぞれ計算される。たとえば、他のサンプリングレート8kHzを例としてとると、
図11における第2のメルスペクトル特徴に対応する局所的平均および局所的標準偏差は、それぞれ、
【0229】
【0230】
および
【0231】
【0232】
である。
【0233】
ステップS1725においては、第1の振幅値のそれぞれとその局所的平均との第1の差が計算される。たとえば、他のサンプリングレート8kHzを例としてとると、
図11における第2のメルスペクトル特徴に対応する第1の差は、
【0234】
【0235】
である。
【0236】
ステップS1726においては、局所的標準偏差に対する各第1の差の比が、各第1の振幅値に対応する正規化された第1の振幅値として計算される。たとえば、他のサンプリングレート8kHzを例としてとると、
図11における第2のメルスペクトル特徴における他のメルフィルタ連番数に対応する第1の振幅値の行列は、
【0237】
【0238】
であり、正規化された第1の振幅値の対応する行列は、
【0239】
【0240】
である。
【0241】
ステップS1727においては、第2のメルスペクトル特徴における各第1の振幅値が、各第1の振幅値に対応する正規化された第1の振幅値と置き換えられる。
【0242】
たとえば、他のサンプリングレート8kHzを例としてとると、
【0243】
【0244】
を使用することによって、
図11の第2のメルスペクトル特徴における他のメルフィルタ連番数に対応する第1の振幅値は、
図12Bに示されているように、第2の音声特徴を得るために、正規化された第1の振幅値と置き換えられる。
【0245】
1番目~61番目の次元ではない他の19個の次元がゼロパディングによって形成されている
図11の第2のメルスペクトル特徴の場合、第1の振幅値は変化しないままである。たとえば、
【0246】
【0247】
である。
【0248】
【0249】
は、第2のメルスペクトル特徴の62番目~80番目の次元の第1の振幅値の行列である。
【0250】
【0251】
は、局所的正規化処理後の19個の次元、すなわち、62番目~80番目の次元の第2のメルスペクトル特徴の第1の振幅値の行列である。
【0252】
図12Bは、本開示のいくつかの実施形態による、サンプリングレートが8kHzである訓練すべき音響に対応する第2の音声特徴を示す図である。
【0253】
図12Bに示されているように、第2の音声特徴の横座標は、スペクトルシーケンス連番数であり、それは、第2の線形スペクトルのスペクトルシーケンス連番数と同じである。縦座標は、メルフィルタ連番数である。横座標および縦座標によって決定される座標点の値は、サンプリングレートが8kHzである訓練すべき音響に対応する局所的正規化後の第1の振幅値である。
【0254】
高周波数ゼロパディングは、
図1に示されているようにステップS150において、他のサンプリングレートの訓練すべき音響の第1の線形スペクトルに対して行われるので、本開示においては、第2のメルスペクトル特徴に対して局所的正規化処理を行うことによって、第2のメルスペクトル特徴をゼロパディングすることによってもたらされる大きい数の平均および標準偏差0を有する特徴に関する正規化処理によって生じる、訓練すべき音響の元の音声特徴が抑制されるという問題が効果的に回避され、訓練すべき音響の元の音声特徴が抑制されるのをより良く防止することができる。この場合、高周波数は、第1の周波数領域連番数よりも大きく、第2の周波数領域連番数以下である周波数領域連番数に対応する線形スペクトル周波数を示す。
【0255】
図1に戻ると、第1の音声特徴および第2の音声特徴が決定された後、ステップS180が実行される。ステップS180においては、第1の音声特徴および第2の音声特徴を使用することによって、機械学習モデルが訓練される。いくつかの実施形態において、機械学習モデルは、DNN(Deep Neural Network)モデルを含む。たとえば、DNNモデルは、エンドツーエンドベースのDNNモデルである。
【0256】
たとえば、異なるサンプリングレート8kHzおよび16kHzを例としてとると、機械学習モデルは、
図9Bに示されているように第1の音声特徴を使用することによって、および
図12Bに示されているように第2の音声特徴を使用することによって訓練される。
【0257】
上記の実施形態においては、
図5A~
図6、
図8、
図11、
図9B、および
図12Bは単に模式図にすぎず、ここでは、振幅値の大きさは、輝度によって判断されることを理解すべきである。
【0258】
いくつかの実施形態においては、機械学習モデルが訓練された後、認識すべき音響に関する音声認識もまた、機械学習モデルを使用することによって行うことができる。
【0259】
機械学習モデルの使用による認識すべき音響に関する音声認識は、たとえば、次のやり方で実装される。
【0260】
まず、認識すべき音響が取得される。たとえば、認識すべき音響は、異なるサンプリングレートのうちの1つである。
【0261】
次いで、認識すべき音響の音声特徴が決定される。
【0262】
いくつかの実施形態においては、まず、認識すべき音響の第1の線形スペクトルの最大周波数領域連番数が、第3の周波数領域連番数として決定される。次いで、認識すべき音響の第2の線形スペクトルを得るために、認識すべき音響の第1の線形スペクトルにおいて、第3の周波数領域連番数よりも大きく、第2の周波数領域連番数以下である各周波数領域連番数に対応する振幅値が、ゼロに設定される。最後に、認識すべき音響の音声特徴は、認識すべき音響の第2の線形スペクトルのメルスペクトル特徴に従って決定される。
【0263】
音声認識プロセスにおいては、認識すべき音響の音声特徴を使用することによって音声認識を行うために、訓練すべき音響の音声特徴を得る方法と同様の方法を使用することによって、認識すべき音響の音声特徴を得ることも必要であることを理解すべきである。
【0264】
最後に、音声認識結果を得るために、認識すべき音響の音声特徴が機械学習モデルに入力される。たとえば、認識すべき音響は、テキスト情報に変換され、テキスト情報は、音声認識結果である。
【0265】
本開示においては、最大サンプリングレート未満の他のサンプリングレートの訓練すべき音響に対応する第1の線形スペクトルに対してゼロパディングを行うことによって、異なるサンプリングレートの訓練すべき音響に関して混合した訓練を行う効果は、音声特徴を加えることもまたは減らすこともしないことに基づいて獲得され、異なるサンプリングレートの音響データの元の音声特徴をより正確に抽出することができ、そのため、機械学習モデルの認識性能が向上する。機械学習モデルを単一のサンプリングレートの音響を使用することによって訓練する方式と比較して、本開示においては、単一のサンプリングレートの音響の数が限定されることによって生じる訓練サンプル不足の問題が解決され、単一のサンプリングレートの音響データを使用することによって訓練される機械学習モデルによる別のサンプリングレートの音響データに対する音声認識効果の低さによって生じる、機械学習モデルの普遍性の低さの問題が解決され、それにより、機械学習モデルの普遍性が向上する。
【0266】
図13は、本開示のいくつかの実施形態による音声認識装置を示すブロック図である。
【0267】
図13に示されているように、音声認識装置13は、第1の取得モジュール131、第1の決定モジュール132、第2の決定モジュール133、第3の決定モジュール134、設定モジュール135、第4の決定モジュール136、第5の決定モジュール137、および訓練モジュール138を備える。
【0268】
第1の取得モジュール131は、異なるサンプリングレートの訓練すべき音響に対応する第1の線形スペクトルを取得するように構成され、第1の線形スペクトルの横座標は、スペクトルシーケンス連番数であり、第1の線形スペクトルの縦座標は、周波数領域連番数であり、横座標および縦座標によって決定される座標点の値は、たとえば
図1に示されているようにステップS110を行うための訓練すべき音響に対応する元の振幅値である。
【0269】
第1の決定モジュール132は、異なるサンプリングレートの中で、最大サンプリングレート、および最大サンプリングレートではない他のサンプリングレートを決定して、たとえば、
図1に示されているようにステップS120を行うように構成されている。
【0270】
第2の決定モジュール133は、他のサンプリングレートに対応する第1の線形スペクトルの最大周波数領域連番数を第1の周波数領域連番数として決定して、たとえば、
図1に示されているステップS130を行うように構成されている。
【0271】
第3の決定モジュール134は、最大サンプリングレートに対応する第1の線形スペクトルの最大周波数領域連番数を第2の周波数領域連番数として決定して、たとえば、
図1に示されているステップS140を行うように構成されている。
【0272】
設定モジュール135は、他のサンプリングレートに対応する第2の線形スペクトルを得るために、他のサンプリングレートに対応する第1の線形スペクトルにおいて、第1の周波数領域連番数よりも大きく、第2の周波数領域連番数以下である各周波数領域連番数に対応する振幅値をゼロに設定して、たとえば、
図1に示されているステップS150を行うように構成されている。
【0273】
第4の決定モジュール136は、最大サンプリングレートに対応する第1の線形スペクトルの第1のメルスペクトル特徴に従って、最大サンプリングレートの訓練すべき音響の第1の音声特徴を決定して、たとえば、
図1に示されているようにステップS160を行うように構成されている。
【0274】
第5の決定モジュール137は、他のサンプリングレートに対応する第2の線形スペクトルの第2のメルスペクトル特徴に従って、他のサンプリングレートの訓練すべき音響の第2の音声特徴を決定して、たとえば、
図1に示されているステップS170を行うように構成されている。
【0275】
訓練モジュール138は、第1の音声特徴および第2の音声特徴を使用することによって機械学習モデルを訓練して、たとえば、
図1に示されているようにステップS180を行うように構成されている。
【0276】
図14は、本開示の他の実施形態による音声認識装置を示すブロック図である。
【0277】
図14に示されているように、音声認識装置14は、メモリ141、およびメモリ141に結合されているプロセッサ142を備える。メモリ141は、音声認識方法の対応する実施形態を行うための命令を記憶するように構成されている。プロセッサ142は、メモリ141に記憶されている命令に基づいて、本開示の任意の実施形態における音声認識方法を行うように構成されている。
【0278】
図15は、本開示のいくつかの実施形態を実装するためのコンピュータシステムを示すブロック図である。
【0279】
図15に示されているように、コンピュータシステム150は、汎用コンピューティングデバイスの形態をとることができる。コンピュータシステム150は、メモリ1510、プロセッサ1520、および相異なるシステム構成要素を接続するバス1500を備える。
【0280】
メモリ1510は、たとえば、システムメモリ、不揮発性記憶媒体などを含むことができる。システムメモリには、たとえば、オペレーティングシステム、アプリケーションプログラム、ブートローダ、他のプログラムなどが記憶されている。システムメモリは、ランダムアクセスメモリ(RAM)および/またはキャッシュメモリなどの揮発性記憶媒体を含むことができる。不揮発性記憶媒体には、たとえば、音声認識方法のうちの少なくとも1つの対応する実施形態を行うための命令が記憶されている。不揮発性記憶媒体として、磁気ディスクメモリ、光メモリ、フラッシュメモリなどが挙げられるが、これらに限定するものではない。
【0281】
プロセッサ1520は、汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)もしくは他のプログラマブル論理デバイス、離散ゲートもしくはトランジスタなどの離散ハードウェア構成要素によって実装することができる。したがって、判断モジュールおよび決定モジュールなどの各モジュールは、中央処理装置(CPU)によって、対応するステップを行うメモリ内の命令を実行することによって実装することができ、または対応するステップを行う専用の回路によって実装することができる。
【0282】
バス1500は、様々なバスアーキテクチャのうちのいずれかを使用することができる。たとえば、バスアーキテクチャとして、業界標準アーキテクチャ(ISA)バス、マイクロチャネルアーキテクチャ(MCA)バス、および周辺構成要素相互接続(PCI)バスが挙げられるが、これらに限定するものではない。
【0283】
コンピュータシステム150はまた、入力/出力インターフェース1530、ネットワークインターフェース1540、記憶インターフェース1550なども含むことができる。これらのインターフェース1530、1540、1550、ならびにメモリ1510およびプロセッサ1520は、バス1500を介して接続することができる。入力/出力インターフェース1530は、ディスプレイ、マウス、キーボードなどの入力/出力デバイスのための接続インターフェースを提供することができる。ネットワークインターフェース1540は、様々なネットワークデバイスの接続インターフェースを提供する。記憶インターフェース1550は、フロッピーディスク、USBディスク、SDカードなどの外部記憶デバイスのための接続インターフェースを提供する。
【0284】
本開示の様々な態様について、本開示の実施形態による方法、装置、およびコンピュータプログラム製品のフロー図および/またはブロック図を参照して本明細書に説明してきた。フロー図および/またはブロック図の各ブロック、ならびにブロックの組合せは、コンピュータ可読プログラム命令によって実装され得ることを理解すべきである。
【0285】
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータ、または他のプログラマブル装置のプロセッサに提供されて、機械を生成することができ、それにより、フロー図および/またはブロック図における1つまたは複数のブロックにおいて指定された機能を実装するための装置が、プロセッサによって命令を実行することによって生成されることになる。
【0286】
これらのコンピュータ可読プログラム命令はまた、コンピュータ可読メモリに記憶され、コンピュータに、フロー図および/またはブロック図における1つまたは複数のブロックにおいて指定された機能を実装する命令を含む製造品を生産するように特定の方式で動作させることを可能にする。
【0287】
本開示は、ハードウェア全体の実施形態、ソフトウェア全体の実施形態、またはソフトウェアとハードウェアの態様を組み合わせた実施形態の形態をとることができる。
【0288】
上記の実施形態における音声認識方法および装置、ならびにコンピュータ記憶可能媒体によって、異なるサンプリングレートの音響データの元の音声特徴を正確に抽出することができ、それによって、機械学習モデルの音声認識性能が向上する。
【0289】
これまで、本開示による音声認識方法および装置、ならびにコンピュータ記憶可能媒体について詳細に説明してきた。当技術分野においてよく知られているいくつかの詳細については、本開示の概念を曖昧にするのを避けるために説明していない。当業者なら、前述の説明に鑑みて、本明細書に開示された技術的解決策をどのように実装すべきであるかを十分に理解することができる。
【符号の説明】
【0290】
13 音声認識装置
14 音声認識装置
131 第1の取得モジュール
132 第1の決定モジュール
133 第2の決定モジュール
134 第3の決定モジュール
135 設定モジュール
136 第4の決定モジュール
137 第5の決定モジュール
138 訓練モジュール
141 メモリ
142 プロセッサ
150 コンピュータシステム
1500 バス
1510 メモリ
1520 プロセッサ
1530 入力/出力インターフェース
1540 ネットワークインターフェース
1550 記憶インターフェース