IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ▲騰▼▲訊▼科技(深▲セン▼)有限公司の特許一覧

特表2023-550405人工知能に基づく音声処理方法、装置、電子機器、及びコンピュータプログラム
<>
  • 特表-人工知能に基づく音声処理方法、装置、電子機器、及びコンピュータプログラム 図1
  • 特表-人工知能に基づく音声処理方法、装置、電子機器、及びコンピュータプログラム 図2
  • 特表-人工知能に基づく音声処理方法、装置、電子機器、及びコンピュータプログラム 図3
  • 特表-人工知能に基づく音声処理方法、装置、電子機器、及びコンピュータプログラム 図4
  • 特表-人工知能に基づく音声処理方法、装置、電子機器、及びコンピュータプログラム 図5
  • 特表-人工知能に基づく音声処理方法、装置、電子機器、及びコンピュータプログラム 図6
  • 特表-人工知能に基づく音声処理方法、装置、電子機器、及びコンピュータプログラム 図7
  • 特表-人工知能に基づく音声処理方法、装置、電子機器、及びコンピュータプログラム 図8
  • 特表-人工知能に基づく音声処理方法、装置、電子機器、及びコンピュータプログラム 図9
  • 特表-人工知能に基づく音声処理方法、装置、電子機器、及びコンピュータプログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-12-01
(54)【発明の名称】人工知能に基づく音声処理方法、装置、電子機器、及びコンピュータプログラム
(51)【国際特許分類】
   G10L 21/0208 20130101AFI20231124BHJP
   G10L 19/002 20130101ALI20231124BHJP
   G10L 25/30 20130101ALI20231124BHJP
【FI】
G10L21/0208 100Z
G10L19/002
G10L25/30
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023530056
(86)(22)【出願日】2021-11-17
(85)【翻訳文提出日】2023-05-17
(86)【国際出願番号】 CN2021131187
(87)【国際公開番号】W WO2022116825
(87)【国際公開日】2022-06-09
(31)【優先権主張番号】202011410814.4
(32)【優先日】2020-12-03
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.JAVA
2.ANDROID
3.iOS
(71)【出願人】
【識別番号】517392436
【氏名又は名称】▲騰▼▲訊▼科技(深▲セン▼)有限公司
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【弁理士】
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】▲呉▼ ▲ウェン▼
(72)【発明者】
【氏名】夏 咸▲軍▼
(57)【要約】
本願は、人工知能に基づく音声処理方法、装置、電子機器、コンピュータ可読記憶媒体、及びコンピュータプログラム製品を提供しており、クラウド技術と、人工知能技術とに関し、方法は、音声シーンの音声クリップを取得するステップであって、音声クリップ中には、ノイズが含まれる、ステップと、音声クリップに基づいて音声シーン分類処理を実行して、音声クリップ内のノイズと対応する音声シーンタイプを得るステップと、音声シーンタイプと対応するターゲット音声処理モードを決定し、且つ音声クリップ内のノイズによって引き起こされた干渉度に基づき、音声シーンの音声クリップに対してターゲット音声処理モードを応用するステップと、を含む。
【特許請求の範囲】
【請求項1】
人工知能に基づく音声処理方法であって、前記方法は、
音声シーンの音声クリップを取得するステップであって、前記音声クリップ中には、ノイズが含まれる、ステップと、
前記音声クリップに基づいて音声シーン分類処理を実行して、前記音声クリップ内のノイズと対応する音声シーンタイプを得るステップと、
前記音声シーンタイプと対応するターゲット音声処理モードを決定し、且つ前記音声クリップ内のノイズによって引き起こされた干渉度に基づき、前記音声クリップに対して前記ターゲット音声処理モードを応用するステップと、を含む、人工知能に基づく音声処理方法。
【請求項2】
前記ターゲット音声処理モードは、ノイズ低減処理モードを含み、
前記音声シーンタイプと対応するターゲット音声処理モードを決定する前記ステップは、
前記音声シーンに対応する音声シーンタイプに基づいて、異なる候補音声シーンタイプと候補ノイズ低減処理モードとの対応関係を問い合わせて、前記音声シーンタイプと対応するノイズ低減処理モードを得るステップを含む、請求項1に記載の方法。
【請求項3】
前記ターゲット音声処理モードは、ノイズ低減処理モードを含み、
前記音声シーンタイプと対応するターゲット音声処理モードを決定する前記ステップは、
前記音声シーンに対応する音声シーンタイプに基づいて、前記音声シーンタイプとマッチングするノイズタイプを決定するステップと、
前記音声シーンタイプとマッチングするノイズタイプに基づいて、異なる候補ノイズタイプと候補ノイズ低減処理モードとの対応関係を問い合わせて、前記音声シーンタイプと対応するノイズ低減処理モードを得るステップと、を含み、
異なる前記音声シーンタイプとマッチングするノイズタイプは、完全に同じではない、請求項1に記載の方法。
【請求項4】
前記音声クリップ内のノイズによって引き起こされた干渉度に基づき、前記音声クリップに対して前記ターゲット音声処理モードを応用する前記ステップは、
前記音声クリップ内のノイズによって引き起こされた干渉度を決定するステップと、
前記干渉度が干渉度閾値よりも大きいとき、前記音声クリップに対して前記音声シーンタイプと対応するノイズ低減処理モードを応用するステップと、を含む、請求項2または3に記載の方法。
【請求項5】
前記音声クリップに対して前記ターゲット音声処理モードを応用する前記ステップは、
前記音声シーンタイプにマッチングするノイズタイプに対して、前記音声クリップ内のノイズとマッチング処理するステップと、
前記ノイズタイプに成功にマッチングしたノイズに対して抑制処理を行って、抑制後の前記音声クリップを得るステップと、を含み、
抑制後の前記音声クリップ内のオーディオ信号強度とノイズ信号強度との比は、信号対雑音比の閾値よりも低い、請求項2または3に記載の方法。
【請求項6】
前記ターゲット音声処理モードは、ビットレート切り替え処理モードを含み、
前記音声シーンタイプと対応するターゲット音声処理モードを決定する前記ステップは、
前記音声シーンと対応する音声シーンタイプに基づいて、異なる候補音声シーンタイプと候補ビットレート切り替え処理モードとの対応関係を問い合わせて、前記音声シーンタイプと対応するビットレート切り替え処理モードを得るステップを含む、請求項1に記載の方法。
【請求項7】
前記ターゲット音声処理モードは、ビットレート切り替え処理モードを含み、
前記音声シーンタイプと対応するターゲット音声処理モードを決定する前記ステップは、
前記音声シーンに対応する音声シーンタイプを、予め設定した音声シーンタイプと比較するステップと、
比較により前記音声シーンタイプが前記予め設定した音声シーンタイプであると決定したときに、前記予め設定した音声シーンタイプに関連するビットレート切り替え処理モードを、前記音声シーンタイプと対応するビットレート切り替え処理モードとするステップと、を含む、請求項1に記載の方法。
【請求項8】
前記音声クリップに対して前記ターゲット音声処理モードを応用する前記ステップは、
前記音声シーンの通信信号強度を取得するステップと、
前記音声シーンの通信信号強度が通信信号強度閾値よりも小さいときに、第1設定比率、又は、第1設定値に応じて前記音声クリップの音声ビットレートを低減させるステップと、
前記音声シーンの通信信号強度が前記通信信号強度閾値以上であるときに、第2設定比率、又は、第2設定値に応じて前記音声クリップの音声ビットレートを増加させるステップと、を含む、請求項6または7に記載の方法。
【請求項9】
前記音声クリップに対して前記ターゲット音声処理モードを応用する前記ステップは、
前記音声シーンにおいて複数回のサンプリングにより得られた通信信号強度に基づいて、前記音声シーン内の通信信号強度のジッタ情報を決定するステップと、
前記ジッタ情報は、前記通信信号が不安定な状態にあることを表現しているときに、第3設定比率、又は、第3設定値に応じて前記音声クリップの音声ビットレートを低減させるステップと、を含む、請求項6または7に記載の方法。
【請求項10】
前記音声クリップに対して前記ターゲット音声処理モードを応用する前記ステップは、
前記音声クリップを伝送することに用いられる通信ネットワークのタイプが設定タイプに属するときに、第4設定比率、又は、設定値に応じて前記音声クリップの音声ビットレートを低減させるステップを含む、請求項6または7に記載の方法。
【請求項11】
前記音声シーン分類処理は、ニューラルネットワークモデルを通じて実現され、前記ニューラルネットワークモデルは、前記音声クリップ中に含まれたノイズと前記音声シーンタイプとの関連関係を学習し、
前記音声クリップに基づいて音声シーン分類処理を実行して、前記音声クリップ内のノイズと対応する音声シーンタイプを得る前記ステップは、
前記音声クリップに基づいて前記ニューラルネットワークモデルを呼び出して音声シーン分類処理を実行して、前記音声クリップ中に含まれたノイズと関連関係が存在する音声シーンタイプを得るステップを含む、請求項1に記載の方法。
【請求項12】
前記ニューラルネットワークモデルは、マッピングネットワークと、残差ネットワークと、プーリングネットワークとを含み、
前記音声クリップに基づいて前記ニューラルネットワークモデルを呼び出して音声シーン分類処理を実行する前記ステップは、
前記マッピングネットワークを通じて前記音声クリップに対して特徴抽出処理を行って、前記音声クリップ内のノイズの第1特徴ベクトルを得るステップと、
前記残差ネットワークを通じて前記第1特徴ベクトルに対してマッピング処理を行って、前記音声クリップのマッピングベクトルを得るステップと、
前記マッピングネットワークを通じて前記音声クリップのマッピングベクトルに対して特徴抽出処理を行って、前記音声クリップ内のノイズの第2特徴ベクトルを得るステップと、
前記プーリングネットワークを通じて前記第2特徴ベクトルに対してプーリング処理を行って、前記音声クリップのプーリングベクトルを得るステップと、
前記音声クリップのプーリングベクトルに対して非線形マッピング処理を行って、前記音声クリップ中に含まれたノイズと関連関係が存在する音声シーンタイプを得るステップと、を含む請求項11に記載の方法。
【請求項13】
前記マッピングネットワークは、複数のカスケード接続されたマッピング層を含み、
前記マッピングネットワークを通じて前記音声クリップに対して特徴抽出処理を行って、前記音声クリップ内のノイズの第1特徴ベクトルを得る前記ステップは、
前記複数のカスケード接続されたマッピング層における1番目のマッピング層を通じて、前記音声クリップに対して特徴マッピング処理を行うステップと、
前記1番目のマッピング層のマッピング結果を後続のカスケード接続されたマッピング層に出力し、最後の1つのマッピング層に出力されるまで、前記後続のカスケード接続されたマッピング層を通じて特徴マッピング、及びマッピング結果の出力を行い続けるステップと、且つ
前記最後の1つのマッピング層から出力されたマッピング結果を前記音声クリップ内のノイズの第1特徴ベクトルとするステップと、を含む、請求項12に記載の方法。
【請求項14】
前記残差ネットワークは、第1マッピングネットワークと、第2マッピングネットワークとを含み、
前記残差ネットワークを通じて前記第1特徴ベクトルに対してマッピング処理を行って、前記音声クリップのマッピングベクトルを得る前記ステップは、
前記第1マッピングネットワークを通じて前記第1特徴ベクトルに対してマッピング処理を行って、前記音声クリップの第1マッピングベクトルを得るステップと、
前記第1マッピングベクトルに対して非線形マッピング処理を行って、前記音声クリップの非マッピングベクトルを得るステップと、
前記第1マッピングネットワークを通じて前記音声クリップの非マッピングベクトルに対してマッピング処理を行って、前記音声クリップの第2マッピングベクトルを得るステップと、
前記音声クリップの第1特徴ベクトルと前記音声クリップの第2マッピングベクトルとの合計結果を前記音声クリップのマッピングベクトルとするステップと、を含む、請求項12に記載の方法。
【請求項15】
前記方法は、
ノイズのない音声信号と、複数の異なる音声シーンにそれぞれ対応するバックグラウンドノイズとに基づいて、前記複数の異なる音声シーンにそれぞれ対応する音声サンプルを構築するステップと、
前記複数の異なる音声シーンにそれぞれ対応する音声サンプルに基づいてニューラルネットワークモデルを訓練して、音声シーンを分類することに用いられるニューラルネットワークモデルを得るステップと、をさらに含む、請求項1に記載の方法。
【請求項16】
ノイズのない音声信号と、複数の異なる音声シーンにそれぞれ対応するバックグラウンドノイズとに基づいて、前記複数の異なる音声シーンにそれぞれ対応する音声サンプルを構築する前記ステップは、
前記複数の異なる音声シーンにおける任意の音声シーンに対して、
前記音声シーンのバックグラウンドノイズと前記ノイズのない音声信号との融合比率に基づいて、前記音声シーンのバックグラウンドノイズ、及び前記ノイズのない音声信号を融合して、前記音声シーンの第1融合音声信号を得る処理と、
前記第1融合音声信号において第1ランダム係数に対応する前記音声シーンのバックグラウンドノイズを融合して、前記音声シーンの第2融合音声信号を得る処理と、
前記第2融合音声信号において第2ランダム係数に対応する前記ノイズのない音声信号を融合して、前記音声シーンの音声サンプルを得る処理と、を実行するステップを含む、請求項15に記載の方法。
【請求項17】
前記複数の異なる音声シーンにそれぞれ対応する音声サンプルに基づいてニューラルネットワークモデルを訓練して、音声シーンを分類することに用いられるニューラルネットワークモデルを得る前記ステップは、
前記ニューラルネットワークモデルを通じて前記複数の異なる音声シーンにそれぞれ対応する音声サンプルに対して音声シーン分類処理を行って、前記音声サンプルの予測音声シーンタイプを得るステップと、
前記音声サンプルの予測音声シーンタイプ、前記音声サンプルの音声シーンマーク、及び前記音声サンプルの加重に基づいて、前記ニューラルネットワークモデルの損失関数を構築するステップと、
前記損失関数が収束するまで、前記ニューラルネットワークモデルのパラメータを更新し続け、前記損失関数が収束するときに前記ニューラルネットワークモデルの更新されたパラメータを、音声シーンを分類することに用いられるニューラルネットワークモデルのパラメータとするステップと、を含む、請求項15に記載の方法。
【請求項18】
前記音声クリップに基づいて音声シーン分類処理を実行する前記ステップの前に、前記方法は、
前記音声クリップの時間領域信号に対してフレーム分割処理を行って、マルチフレーム音声信号を得るステップと、
前記マルチフレーム音声信号に対してウィンドウィング処理を行い、且つウィンドウィング処理後の音声信号に対してフーリエ変換を行って、前記音声クリップの周波数領域信号を得るステップと、
前記周波数領域信号のメル周波数帯域に対して対数処理を行って、前記音声シーン分類を行うことに用いられる前記音声クリップを得るステップと、をさらに含む、請求項1に記載の方法。
【請求項19】
音声処理装置であって、前記装置は、
音声シーンの音声クリップを取得するように構成される取得モジュールであって、前記音声クリップ中には、ノイズが含まれる取得モジュールと、
前記音声クリップに基づいて音声シーン分類処理を実行して、前記音声クリップ内のノイズと対応する音声シーンタイプを得るように構成される分類モジュールと、
前記音声シーンタイプと対応するターゲット音声処理モードを決定し、且つ前記音声クリップ内のノイズによって引き起こされた干渉度に基づき、前記音声クリップに対して前記ターゲット音声処理モードを応用するように構成される処理モジュールと、を含む、音声処理装置。
【請求項20】
電子機器であって、前記電子機器は、
実行可能な指令を記憶することに用いられるメモリと、
前記メモリ中に記憶された実行可能な指令を実行するときに、請求項1~18のいずれか一項に記載の人工知能に基づく音声処理方法を実現することに用いられるプロセッサと、を含む、電子機器。
【請求項21】
コンピュータ可読記憶媒体であって、実行可能な指令が記憶されており、プロセッサに実行されるときに、請求項1~18のいずれか一項に記載の人工知能に基づく音声処理方法を実現することに用いられるコンピュータ可読記憶媒体。
【請求項22】
コンピュータプログラム製品であって、コンピュータプログラム、又は、指令を含み、前記コンピュータプログラム、又は、指令は、コンピュータに、請求項1~18のいずれか一項に記載の人工知能に基づく音声処理方法を実行させるコンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、クラウド技術、及び人工知能技術に関し、特に人工知能に基づく音声処理方法、装置、電子機器、コンピュータ可読記憶媒体、及びコンピュータプログラム製品に関する。
【0002】
本願実施例は、出願番号が第202011410814.4号であり、出願日が2020年12月3日である中国特許出願に基づいて提出され、且つ該中国特許出願の優先権を主張し、該中国特許出願の全内容は、ここで本願実施例に参考として導入される。
【背景技術】
【0003】
人工知能(AI、Artificial Intelligence)は、コンピュータ科学の1つの総合的な技術であり、各種の知能機器の設計原理と、実現方法とを研究することを通じて、機器が感知、推論、及び意思決定の機能を有することを可能にする。人工知能技術は、総合的な学科であり、関連する分野が広く、例えば、自然言語処理技術、及び機器学習/深層学習等の複数の方向がある。技術の発展に伴って、人工知能技術は、より多くの分野で応用され、且つますます重要な価値を発揮する。例えば、クラウド技術に基づくネットワークミーティングシーンにおいて、人工知能技術を導入することで音声品質を向上させる。
【0004】
しかし、関連技術において、音声に対する処理方式は比較的単一であり、音声内のノイズに対して抑制効果を形成するものの、音声内の有用な信号(例えばオーディオ信号)の品質を必然的に低減させる。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本願実施例は、人工知能に基づく音声処理方法、装置、電子機器、コンピュータ可読記憶媒体、及びコンピュータプログラム製品を提供し、音声シーンに基づいて的を得て音声処理して、音声品質を向上させることができる。
【課題を解決するための手段】
【0006】
本願実施例の技術的解決手段は、以下のように実現される:
【0007】
本願実施例は、人工知能に基づく音声処理方法を提供し、
音声シーンの音声クリップを取得するステップであって、前記音声クリップ中には、ノイズが含まれる、ステップと、
前記音声クリップに基づいて音声シーン分類処理を実行して、前記音声クリップ内のノイズと対応する音声シーンタイプを得るステップと、
前記音声シーンタイプと対応するターゲット音声処理モードを決定し、且つ前記音声クリップ内のノイズによって引き起こされた干渉度に基づき、前記音声クリップに対して前記ターゲット音声処理モードを応用するステップと、を含む。
【0008】
本願実施例は、音声処理装置を提供し、
音声シーンの音声クリップを取得するように構成される取得モジュールであって、前記音声クリップ中には、ノイズが含まれる、取得モジュールと、
前記音声クリップに基づいて音声シーン分類処理を実行して、前記音声クリップ内のノイズと対応する音声シーンタイプを得るように構成される分類モジュールと、
前記音声シーンタイプと対応するターゲット音声処理モードを決定し、且つ前記音声クリップ内のノイズによって引き起こされた干渉度に基づき、前記音声クリップに対して前記ターゲット音声処理モードを応用するように構成される処理モジュールと、を含む。
【0009】
本願実施例は、音声処理用の電子機器を提供し、前記電子機器は、
実行可能な指令を記憶することに用いられるメモリと、
前記メモリにおいて記憶された実行可能な指令を実行するときに、本願実施例により提供された人工知能に基づく音声処理方法を実現することに用いられるプロセッサと、を含む。
【0010】
本願実施例は、コンピュータ可読記憶媒体を提供し、実行可能な指令が記憶されており、プロセッサによる実行を引き起こすときに、本願実施例により提供された人工知能に基づく音声処理方法を実現することに用いられる。
【0011】
本願実施例は、コンピュータプログラム製品を提供し、コンピュータプログラム、又は、指令を含み、前記コンピュータプログラム、又は、指令により、コンピュータに、本願実施例により提供された人工知能に基づく音声処理方法を実行させる。
【0012】
本願実施例は、以下の有益な効果を有する:
ノイズと音声シーンタイプとの間の関連付けを通じて、音声に対応する音声シーンタイプを識別し、それにより音声シーンタイプに基づいて的を得た音声処理を行って、音声シーンにおいて導入された音声処理モードが音声シーン中に含まれたノイズと一致することを可能にし、それにより音声内の有用な情報を最大限に保存して、音声処理の正確さを向上させることができる。
【図面の簡単な説明】
【0013】
図1】本願実施例により提供された音声処理システムの応用シーン模式図である。
図2】本願実施例により提供された音声処理用の電子機器の構造模式図である。
図3】本願実施例により提供された人工知能に基づく音声処理方法のフロー模式図である。
図4】本願実施例により提供された人工知能に基づく音声処理方法のフロー模式図である。
図5】本願実施例により提供された人工知能に基づく音声処理方法のフロー模式図である。
図6】本願実施例により提供されたニューラルネットワークモデルの構造模式図である。
図7】本願実施例により提供された音声シーン識別の全体的なフロー模式図である。
図8】本願実施例により提供された時間領域の音響信号中から周波数スペクトル特徴を抽出するフロー模式図である。
図9】本願実施例により提供されたニューラルネットワークモデルの構造模式図である。
図10】本願実施例により提供されたResNetユニットの構造模式図である。
【発明を実施するための形態】
【0014】
本願実施例を更に詳細に説明する前に、本願実施例における関連する名詞、及び用語を説明する。本願実施例における関連する名詞、及び用語は、以下の解釈に適用される。
【0015】
1)畳み込みニューラルネットワーク(CNN、Convolutional Neural Networks):畳み込み計算を含み、且つ深層構造を有するフィードフォワードニューラルネットワーク(FNN、Feedforward Neural Networks)であり、深層学習(deep learning)の代表的なアルゴリズムの1つである。畳み込みニューラルネットワークは、表現学習(representation learning)能力を有し、その階層構造に応じて入力画像に対してシフト不変分類(shift-invariant classification)を行うことができる。
【0016】
2)残差ネットワーク(ResNet、Residual Network):最適化されやすく、且つかなりの深層の増加を通じて正確率を向上させる畳み込みニューラルネットワークである。その内部の残差ブロックは、ジャンプ接続を使用して、深層ニューラルネットワークにおいて深層を増加することによって引き起こされた勾配消失の問題を軽減する。
【0017】
3)音声処理モード:音声処理を行うことに用いられるモードであり、音声処理モードを音声クリップに応用すると、音声を最適化することができ、それにより、明瞭で、スムーズな音声を得ることができる。本願実施例における音声処理モードは、ノイズ低減処理モードと、ビットレート切り替え処理モードとを含む。
【0018】
関連技術において、ビデオビットレート適応技術(ABR、Adaptive Bitrate Streaming)は、ビデオビットレートを適応的に調節する。ビットレート調節アルゴリズムは、多くはビデオ再生に応用され、ネットワーク状況、又はクライアントの再生バッファ(buffer)状況に従ってビデオビットレート(すなわち解像度)を自動的に調整する。またユニバーサルノイズのノイズ低減アルゴリズムに基づいて、ノイズの多いオーディオの周波数スペクトル特徴をニューラルネットワーク入力として、クリーンオーディオ(clean speech)をニューラルネットワークの参照出力としてノイズ低減モデルを訓練し、最小平均二乗誤差(LMS、Least Mean Square)を最適化のターゲットとして使用し、ノイズ低減機能を起動した後には、各種のシーン環境に対していずれも同一種類のノイズ低減方法を使用する。
【0019】
出願人は、本願を実施する過程において、ネットワーク環境の品質が比較頻繁に変動して変化するためにネットワーク速度に基づくビットレート切り替えも対応して頻繁に変動するが、解像度を頻繁に切り替えると、ユーザー体験に大きく影響することを発見した。実際の環境においては、特定のシーンの特定ノイズは、ユニバーサルノイズに基づくノイズ低減アルゴリズムのロバスト性に対してより高い要件、及び挑戦を提示している。
【0020】
上記問題を解決するために、本願実施例は、人工知能に基づく音声処理方法、装置、電子機器、及びコンピュータ可読記憶媒体を提供しており、音声シーンに基づいて的を得て音声処理して、音声品質を向上させることができる。
【0021】
本願実施例により提供された人工知能に基づく音声処理方法は、端末/サーバによって独立して実現されてもよく、端末とサーバによって共同で実現されてもよい。例えば、端末は、以下に記載の人工知能に基づく音声処理方法を独立して行うか、又は、端末Aがサーバに音声に対する最適化要求(音声クリップを含む)を送信して、サーバが受信された音声に対する最適化要求に従って人工知能に基づく音声処理方法を実行し、音声に対する最適化要求に応答して、音声シーンの音声クリップに対してターゲット音声処理モード(ノイズ低減処理モードと、ビットレート切り替え処理モードとを含む)を応用し、且つ処理後の音声クリップを端末Bに送信し、それにより、端末Aと端末Bとの間に明瞭なオーディオ通話を行うことができる。
【0022】
本願実施例により提供される音声処理用の電子機器は、各種タイプの端末機器、又は、サーバであってもよい。ここで、サーバは、独立した物理サーバであってもよく、複数の物理サーバからなるサーバクラスター、又は、分散システムであってもよく、さらにクラウドコンピューティングサービスを提供するクラウドサーバであってもよい。端末は、知能携帯電話、タブレットコンピュータ、ノートパソコン、デスク型コンピュータ、知能スピーカー、知能ウォッチ等であってもいが、これらに制限されない。端末、及びサーバは、有線、又は、無線通信方式を通じて直接、又は、間接的に接続することができ、本願は、ここで制限しない。
【0023】
サーバを例とすると、例えばクラウド端に配置されたサーバクラスターであってもよく、ユーザーに人工知能クラウドサービス(AiaaS、AI as a Service)を公開し、AIaaSプラットフォームはいくつかの種類の一般的なAIサービスを分解し、且つクラウド端において独立、又は、パッケージ化されたサービスを提供する。このようなサービスモードは、1つのAIをテーマにしたモールと類似し、あらゆるユーザーは、いずれも、アプリケーションプログラムプログラミングインタフェース方式を通じてAIaaSプラットフォームにより提供された一種、又は、複数種の人工知能サービスにアクセスして使用することができる。
【0024】
例えば、そのうちの一種の人工知能クラウドサービスは、音声処理サービスであってもよく、すなわち、クラウド端のサーバに本願実施例により提供される音声処理プログラムがカプセル化される。ユーザーは、端末(クライアントが動作しており、例えば録音クライアント、インスタントメッセージクライアントである)を通じてクラウドサービスにおける音声処理サービスを呼び出すことで、クラウド端に配置されたサーバにカプセル化された音声処理プログラムを呼び出させ、音声シーンタイプとマッチングするターゲット音声処理モードに基づき、音声シーンの音声クリップに対してターゲット音声処理モードを応用する。
【0025】
1つの応用例として、録音クライアントに対しては、ユーザーは、あるオーディオブックの音声を定期的に発行する必要がある、ある音声プラットフォームの契約済みライブ配信者であってもよい。ライブ配信者録音のシーンは、変化する可能性があり、例えば、自宅において、図書館において、ひいては、室外で録音するが、これらのシーンには、それぞれ異なるノイズが存在する。現在の音声シーンを録音して、記録された音声クリップに対して音声シーン識別を行うことを通じて、音声シーンタイプを決定し、且つ音声シーンタイプに基づいて音声クリップに対して的を得たノイズ低減処理を行って、ノイズ除去された音声クリップを記憶し、ノイズ除去録音機能を実現する。
【0026】
他の応用例として、インスタントメッセージクライアントに対しては、ユーザーは、ある指定された友人にオーディオを送信してもよく、ある指定されたグループにオーディオを送信してもよいが、ユーザーが現在位置するシーンは、変化する可能性があり、例えば、オフィス、ショッピングモール等、異なるシーンに異なるノイズが存在する。現在のシーンのオーディオに対してオーディオシーン識別を行うことを通じて、オーディオシーンタイプを決定し、且つオーディオシーンタイプに基づいてオーディオに対して的を得たノイズ低減処理を行って、ノイズ除去後の音声クリップを送信して、ノイズ除去オーディオ送信機能を実現する。
【0027】
他の応用例として、ミーティングクライアントに対して、ミーティングに参加するユーザーは、異なる環境でオーディオ通話を行うことができ、例えばミーティングに参加しているユーザーAは、オフィスにいて、ミーティングに参加しているユーザーBは、高速鉄道上にいる。異なるシーンには異なるノイズが存在し、且つ通信信号が異なり、例えば高速鉄道に交通騒音が存在し、通信信号が比較的悪い。各ミーティングに参加しているユーザーのオーディオ通話に対してオーディオシーン識別を行うことを通じて、各ミーティングに参加しているユーザーのオーディオシーンタイプを決定し、且つオーディオシーンタイプに基づいて各ミーティングに参加しているユーザーのオーディオに対して的を得たビットレート切り替え処理を行って、適応ビットレート切り替えを実現し、ミーティング通話の通話品質を向上させる。
【0028】
図1を参照すると、図1は、本願実施例により提供された音声処理システム10の応用シーン模式図である。端末200は、ネットワーク300を通じてサーバ100に接続され、ネットワーク300は、広域エリアネットワーク、又は、ローカルエリアネットワークであってもよく、又は、両者の組み合わせであってもよい。
【0029】
端末200(クライアントが動作しており、例えば録音クライアント、インスタントメッセージクライアント、通話クライアント等である)は、音声に対する最適化要求を取得することに用いることができ、例えば、ユーザーは、端末200を通じて音声シーンの音声クリップを入力、又は、登録すると、端末200は、音声シーンの音声クリップを自動的に取得し、且つ音声に対する最適化要求を自動的に生成する。
【0030】
いくつかの実施例において、端末において動作しているクライアントにおいては、音声処理プラグインアセンブリが埋め込まれることができ、それによって、クライアントのローカルで人工知能に基づく音声処理方法を実現する。例えば、端末200は、音声に対する最適化要求(音声シーンの音声クリップを含む)を取得した後に、音声処理プラグインアセンブリを呼び出すことで、人工知能に基づく音声処理方法を実現し、音声クリップ内のノイズと対応する音声シーンタイプを識別し、且つ音声シーンタイプとマッチングするターゲット音声処理モードに基づき、音声シーンの音声クリップに対してターゲット音声処理モードを応用する。例えば、録音アプリケーションに対して、ユーザーは、現在の音声シーンで録音し、記録された音声クリップに対して音声シーン識別を行って、音声シーンタイプを決定し、且つ音声シーンタイプに基づいて音声クリップに対して的を得たノイズ低減処理を行って、ノイズ除去後の音声クリップを記憶し、ノイズ除去録音機能を実現する。
【0031】
いくつかの実施例において、端末200は、音声に対する最適化要求を取得した後に、サーバ100の音声処理インタフェース(クラウドサービス形式として提供することができ、すなわち音声処理サービス)を呼び出し、サーバ100は、音声クリップ内のノイズと対応する音声シーンタイプを識別し、且つ音声シーンタイプとマッチングするターゲット音声処理モードに基づき、音声シーンの音声クリップに対してターゲット音声処理モードを応用し、且つターゲット音声処理モードの音声クリップ(最適化後の音声クリップ)を通じて端末200、又は、その他の端末に送信する。例えば、録音アプリケーションに対して、ユーザーは、現在の音声シーンで録音し、端末200は、対応する音声クリップを取得し、且つ音声に対する最適化要求を自動的に生成し、且つ音声に対する最適化要求をサーバ100に送信する。サーバ100は、音声に対する最適化要求に基づいて、記録された音声クリップに対して音声シーン識別を行って、音声シーンタイプを決定し、且つ音声シーンタイプに基づいて音声クリップに対して的を得たノイズ低減処理を行って、ノイズ除去後の音声クリップを記憶し、ノイズ除去録音機能を実現する。インスタントメッセージアプリケーションに対して、ユーザーは、現在のオーディオシーンでオーディオ送信を行い、端末200は、対応する音声クリップを取得し、且つ音声に対する最適化要求を自動的に生成し、且つ音声に対する最適化要求をサーバ100に送信する。サーバ100は、音声に対する最適化要求に基づいて、音声クリップに対してオーディオシーン識別を行って、オーディオシーンタイプを決定し、且つオーディオシーンタイプに基づいて音声クリップに対して的を得たノイズ低減処理を行って、ノイズ除去後の音声クリップを送信し、ノイズ除去オーディオ送信機能を実現し、且つオーディオシーンタイプに基づいて音声クリップに対して的を得たビットレート切り替え処理を行って、適応ビットレート切り替えを実現し、オーディオ通話品質を向上させる。通話アプリケーションに対して、ユーザーAは、ユーザーBとオーディオ通話を行い、ユーザーAは、現在のオーディオシーンでオーディオ通話を行う。端末200は、ユーザーAに対応する音声クリップを取得し、且つ音声に対する最適化要求を自動的に生成し、且つ音声に対する最適化要求をサーバ100に送信する。サーバ100は、音声に対する最適化要求に基づいて、ユーザーAの音声クリップに対してオーディオシーン識別を行って、オーディオシーンタイプを決定し、且つオーディオシーンタイプに基づいて音声クリップに対して的を得たノイズ低減処理を行って、且つユーザーBにノイズ除去されたユーザーAの音声クリップを送信し、ノイズ除去オーディオ通話機能を実現する。
【0032】
以下、本願実施例により提供される音声処理用の電子機器の構造を説明する。図2を参照すると、図2は、本願実施例により提供された音声処理用の電子機器500の構造模式図である。電子機器500がサーバであることを例として説明すると、図2に示された音声処理用の電子機器500は、少なくとも1つのプロセッサ510と、メモリ550と、少なくとも1つのネットワークインタフェース520と、ユーザーインタフェース530とを含む。電子機器500における各アセンブリは、バスシステム540を通じて一体に結合される。理解できるように、バスシステム540は、これらのアセンブリの間の接続通信を実現することに用いられる。バスシステム540は、データバス以外、電源バスと、制御バスと、状態信号バスとをさらに含む。但し、明確に説明するために、図2において各種バスをいずれもバスシステム540としてマークする。
【0033】
プロセッサ510は、一種の集積回路チップであってもよく、信号処理能力を有し、例えば汎用プロセッサ、デジタル信号プロセッサ(DSP、Digital Signal Processor)、又は、その他のプログラマブルロジックデバイス、個別ゲート、又は、トランジスタロジック装置、個別ハードウェアアセンブリ等であり、ここで、汎用プロセッサは、マイクロプロセッサ、又は、いかなる通常のプロセッサ等であってもよい。
【0034】
メモリ550は、揮発性メモリ、又は、不揮発性メモリを含んでもよく、揮発性と不揮発性メモリの両者を含んでもよい。ここで、不揮発性メモリは、読み取り専用メモリ(ROM、Read Only Memory)であってもよく、揮発性メモリは、ランダムアクセスメモリ(RAM、Random Access Memory)であってもよい。本願実施例で記述されたメモリ550は、任意の適切なタイプのメモリを含むことを目的とする。メモリ550は、選択可能に、物理位置においてプロセッサ510から離れる1つ、又は、複数の記憶デバイスを含む。
【0035】
いくつかの実施例において、メモリ550は、各種操作をサポートするように、データを記憶することができ、これらのデータの例は、プログラム、モジュール、及びデータ構造、又は、そのサブセット、又は、スーパーセットを含み、以下、例示的に説明する。
【0036】
オペレーティングシステム551は、各種の基本的なシステムサービスを処理してハードウェアの関連タスクを実行することに用いられるシステムプログラム、例えばフレーム層、コアライブラリ層、駆動層等を含み、各種の基本サービスを実現し、且つハードウェアに基づくタスクを処理することに用いられる。
【0037】
ネットワーク通信モジュール552は、1つ、又は、複数の(有線、又は、無線)ネットワークインタフェース520を経由してその他の計算機器に到達することに用いられ、例示的なネットワークインタフェース520は、ブルートゥース(登録商標)、無線相容性認証(WiFi)、及び汎用シリアルバス(USB、Universal Serial Bus)等を含む。
【0038】
いくつかの実施例において、本願実施例により提供される音声処理装置は、ソフトウェア方式で実現されてもよく、例えば、以上に記載の端末における音声処理プラグインアセンブリであってもよく、以上に記載のサーバにおける音声処理サービスであってもよい。もちろん、これらに制限されず、本願実施例により提供される音声処理装置は、各種ソフトウェア実施例として提供することができ、アプリケーションプログラム、ソフトウェア、ソフトウェアモジュール、スクリプト、又は、コードを含む各種形式を含む。
【0039】
図2は、メモリ550において記憶されている音声処理装置555を示しており、それは、プログラム、及びプラグインアセンブリ等の形式のソフトウェアであってもよい。例えば音声処理プラグインアセンブリであり、取得モジュール5551、分類モジュール5552、処理モジュール5553、及び訓練モジュール5554を含む一連のモジュールを含む。ここで、取得モジュール5551、分類モジュール5552、処理モジュール5553は、本願実施例により提供される音声処理機能を実現することに用いられ、訓練モジュール5554は、ニューラルネットワークモデルを訓練することに用いられ、ここで、音声シーン分類処理は、ニューラルネットワークモデルを通じて実現される。
【0040】
上記のように、本願実施例により提供される人工知能に基づく音声処理方法は、各種タイプの電子機器によって実施することができる。図3を参照すると、図3は、本願実施例により提供された人工知能に基づく音声処理方法のフロー模式図である。図3に示されたステップを組み合わせて説明する。
【0041】
以下のステップにおいて、音声シーンとは、音声を発生させる環境を指し、例えば家庭環境、事務環境、高速鉄道等の各種乗り物に乗車するときの外部環境等である。
【0042】
ステップ101において、音声シーンの音声クリップを取得し、ここで、音声クリップ中には、ノイズが含まれる。
【0043】
音声クリップを取得する例としては、ユーザーが、現在の音声シーンで端末(クライアントが動作している)を通じて音声を入力する。端末200は、対応する音声クリップを取得し、且つ音声に対する最適化要求を自動的に生成し、且つ音声に対する最適化要求をサーバに送信する。サーバは、音声に対する最適化要求を解析して、音声シーンの音声クリップを取得し、それにより、続いて、音声クリップに基づいて音声シーン識別を行う。
【0044】
ステップ102において、音声クリップに基づいて音声シーン分類処理を実行して、音声クリップ内のノイズと対応する音声シーンタイプを得る。
【0045】
例えば、音声シーンの音声クリップを取得した後に、ニューラルネットワークモデルを通じて音声クリップに基づいて音声シーン分類処理を行って、音声クリップ内のノイズと対応する音声シーンタイプを得る。ここで、音声クリップをニューラルネットワークモデルに入力することができ、さらに音声クリップの時間領域特徴、又は、周波数領域特徴をニューラルネットワークモデルに入力することができる。ニューラルネットワークモデルは、音声クリップの時間領域特徴、又は、周波数領域特徴に基づいて音声シーン分類処理を行って、音声クリップ内のノイズと対応する音声シーンタイプを得る。音声クリップの周波数領域特徴を例とすると、音声クリップを取得した後に、先に音声クリップの時間領域信号に対してフレーム分割処理を行い、マルチフレーム音声信号を得て、次にマルチフレーム音声信号に対してウィンドウィング処理を行い、且つウィンドウィング処理後の音声信号に対してフーリエ変換を行って、音声クリップの周波数領域信号を得て、周波数領域信号のメル周波数帯域に対して対数処理を行って、音声クリップの周波数領域特徴を得る。すなわち、音声シーン分類を行うことに用いられる音声クリップである。
【0046】
ニューラルネットワークモデルがマルチチャネル入力を処理することができるようにするために、対数処理により得られた音声クリップの周波数領域特徴に対して微分処理を行うことができ、音声クリップの1次導関数を得る。次に1次導関数に対して微分処理を行って、音声クリップの2次導関数を得て、最終的に音声クリップの周波数領域特徴、1次導関数、及び2次導関数を3チャネル入力信号に合成し、且つ3チャネル入力信号を音声シーン分類を行うことに用いられる音声クリップとする。
【0047】
いくつかの実施例において、音声シーン分類処理は、ニューラルネットワークモデルを通じて実現される。ニューラルネットワークモデルが音声クリップ中に含まれたノイズと音声シーンタイプとの関連関係を学習し、音声クリップに基づいて音声シーン分類処理を実行して、音声クリップ内のノイズと対応する音声シーンタイプを得ることは、音声クリップに基づいてニューラルネットワークモデルを呼び出すことで音声シーン分類処理を実行して、音声クリップ中に含まれたノイズと関連関係が存在する音声シーンタイプを得ることを含む。
【0048】
例えば、図6に示すように、ニューラルネットワークモデルは、マッピングネットワークと、残差ネットワークと、プーリングネットワークとを含む。マッピングネットワークを通じて音声クリップに対して特徴抽出処理を行って、音声クリップ内のノイズの第1特徴ベクトルを得て、残差ネットワークを通じて第1特徴ベクトルに対してマッピング処理を行って、音声クリップのマッピングベクトルを得る。マッピングネットワークを通じて音声クリップのマッピングベクトルに対して特徴抽出処理を行って、音声クリップ内のノイズの第2特徴ベクトルを得て、プーリングネットワークを通じて第2特徴ベクトルに対してプーリング処理を行って、音声クリップのプーリングベクトルを得て、音声クリップのプーリングベクトルに対して非線形マッピング処理を行って、音声クリップ中に含まれたノイズと関連関係が存在する音声シーンタイプを得る。
【0049】
上記の例に基づき、マッピングネットワークは、複数のカスケード接続されたマッピング層を含み、マッピングネットワークを通じて音声クリップに対して特徴抽出処理を行って、音声クリップ内のノイズの第1特徴ベクトルを得ることは、複数のカスケード接続されたマッピング層における1番目のマッピング層を通じて、音声クリップに対して特徴マッピング処理を行うことと、1番目のマッピング層のマッピング結果を後続のカスケード接続されたマッピング層に出力し、最後の1つのマッピング層に出力されるまで、後続のカスケード接続されたマッピング層を通じて特徴マッピングとマッピング結果の出力を行い続け、且つ最後の1つのマッピング層から出力されたマッピング結果を音声クリップ内のノイズの第1特徴ベクトルとすることと、を含む。
【0050】
ここで、マッピングネットワークは、音声クリップにおけるシーンのノイズの特徴を効果的に抽出することができ、マッピング層は、畳み込みニューラルネットワークであってもよいが、本願実施例は、畳み込みニューラルネットワークに制限されず、その他のニューラルネットワークであってもよい。
【0051】
いくつかの実施例において、残差ネットワークは、第1マッピングネットワークと、第2マッピングネットワークとを含む。残差ネットワークを通じて第1特徴ベクトルに対してマッピング処理を行って、音声クリップのマッピングベクトルを得ることは、第1マッピングネットワークを通じて第1特徴ベクトルに対してマッピング処理を行って、音声クリップの第1マッピングベクトルを得ることと、第1マッピングベクトルに対して非線形マッピング処理を行って、音声クリップの非マッピングベクトルを得ることと、第1マッピングネットワークを通じて音声クリップの非マッピングベクトルに対してマッピング処理を行って、音声クリップの第2マッピングベクトルを得ることと、音声クリップの第1特徴ベクトルと音声クリップの第2マッピングベクトルとの合計結果を音声クリップのマッピングベクトルとすることと、を含む。
【0052】
ここで、残差ネットワークは、ニューラルネットワーク訓練誤差伝達における勾配消失問題を効果的に予防することができ、それによりニューラルネットワークモデルの訓練を加速する。
【0053】
いくつかの実施例において、ニューラルネットワークモデルを訓練する必要があることにより、訓練後のニューラルネットワークモデルが音声シーン分類を行うことができる。その訓練方法は、ノイズのない音声信号と、複数の異なる音声シーンにそれぞれ対応するバックグラウンドノイズとに基づいて、複数の異なる音声シーンにそれぞれ対応する音声サンプルを構築することと、複数の異なる音声シーンにそれぞれ対応する音声サンプルに基づいてニューラルネットワークモデルを訓練して、音声シーンを分類することに用いられるニューラルネットワークモデルを得ることと、を含む。
【0054】
サンプルデータの多様性を強化するために、その音声サンプル構築方法は、複数の異なる音声シーンにおける任意の音声シーンに対して音声シーンのバックグラウンドノイズとノイズのない音声信号との融合比率に基づいて、音声シーンのバックグラウンドノイズとノイズのない音声信号を融合して、音声シーンの第1融合音声信号を得る処理と、第1融合音声信号において第1ランダム係数に対応する音声シーンのバックグラウンドノイズを融合して、音声シーンの第2融合音声信号を得る処理と、第2融合音声信号において第2ランダム係数に対応するノイズのない音声信号を融合して、音声シーンの音声サンプルを得る処理と、を実行することを含む。
【0055】
例えば、保存された人間の声(ノイズのない音声信号)とバックグラウンドノイズを融合比率1:1で融合した後に、部分乱数比率を生成してデータを重畳させ、例えばノイズ重畳係数(第1ランダム係数)は、0.3~0.5における乱数であり、人間の声重畳係数(第2ランダム係数)は、0.5~0.7における乱数である。
【0056】
いくつかの実施例において、複数の音声シーンにそれぞれ対応する音声サンプルに基づいてニューラルネットワークモデルを訓練して、音声シーンを分類することに用いられるニューラルネットワークモデルを得ることは、ニューラルネットワークモデルを通じて複数の異なる音声シーンにそれぞれ対応する音声サンプルに対して音声シーン分類処理を行って、音声サンプルの予測音声シーンタイプを得ることと、音声サンプルの予測音声シーンタイプ、音声サンプルの音声シーンマーク、及び音声サンプルの加重に基づいて、ニューラルネットワークモデルの損失関数を構築することと、損失関数が収束するまで、ニューラルネットワークモデルのパラメータを更新し続け、損失関数が収束するときにニューラルネットワークモデルの更新されたパラメータを、音声シーンを分類することに用いられるニューラルネットワークモデルのパラメータとすることと、を含む。
【0057】
例えば、音声サンプルの予測音声シーンタイプ、音声サンプルの音声シーンマーク、及び音声サンプルの加重に基づいて、ニューラルネットワークモデルの損失関数の値を決定した後に、ニューラルネットワークモデルの損失関数の値が予め設定された閾値を超えるかどうかを判断することができ、ニューラルネットワークモデルの損失関数の値が予め設定された閾値を超えたときに、ニューラルネットワークモデルの損失関数に基づいてニューラルネットワークモデルの誤差信号を決定し、誤差情報をニューラルネットワークモデルにおいて逆方向に伝播し、且つ伝播過程において各層のモデルパラメータを更新する。
【0058】
ここでは、逆方向伝播について説明すると、訓練サンプルデータをニューラルネットワークモデルの入力層に入力し、隠れ層を通過し、最終的に出力層に達して結果を出力する。これは、ニューラルネットワークモデルの順伝播過程であり、ニューラルネットワークモデルの出力結果は、実際の結果と誤差があると、出力結果と実際の値との間の誤差を計算し、且つ、入力層に伝播するまで、該誤差を出力層から隠れ層へ逆方向に伝播し続けて、逆方向伝播過程において、誤差に従ってモデルパラメータの値を調整して収束するまで、上記過程を絶えず繰り返す。
【0059】
ステップ103において、音声シーンタイプと対応するターゲット音声処理モードを決定し、且つ音声クリップ内のノイズによって引き起こされた干渉度に基づき、音声クリップに対してターゲット音声処理モードを応用する。
【0060】
例えば、音声シーンタイプを取得した後に、まず、音声シーンタイプとマッチングするターゲット音声処理モードを決定し、次にターゲット音声処理モードを音声シーンの音声クリップに応用して、的を得た音声最適化を行い、音声処理の正確さを向上させる。
【0061】
図4を参照すると、図4は、本願実施例により提供された人工知能に基づく音声処理方法の1つの選択可能なフロー模式図である。図4は、図3におけるステップ103が図4に示されたステップ1031A~ステップ1032Aを通じて実現することができることを示している。ターゲット音声処理モードは、ノイズ低減処理モードを含む。ステップ1031Aにおいて、音声シーンに対応する音声シーンタイプに基づいて、異なる候補音声シーンタイプと候補ノイズ低減処理モードとの対応関係を問い合わせて、音声シーンタイプと対応するノイズ低減処理モードを得る。ステップ1032Aにおいて、音声シーンタイプとマッチングするノイズタイプに対して、音声クリップ内のノイズとマッチング処理を行い、ノイズタイプと成功にマッチングしたノイズに対して抑制処理を行って、抑制後の音声クリップを得る。ここで、抑制後の音声クリップ内のオーディオ信号強度とノイズ信号強度との比は、信号対雑音比の閾値よりも低い。
【0062】
例えば、実際の応用シーンに基づき、異なる候補音声シーンタイプと候補ノイズ低減処理モードとの対応関係を含むマッピングテーブルを予め構築し、且つ該マッピングテーブルを記憶スペースに記憶し、記憶スペースにおけるマッピングテーブルに含まれた、異なる候補音声シーンタイプと候補ノイズ低減処理モードとの対応関係を読み取ることを通じて、音声シーンに対応する音声シーンタイプに基づいて音声シーンタイプと対応するノイズ低減処理モードを迅速に問い合わせることができる。それにより、ノイズ低減処理モードを音声シーンの音声クリップに応用することで、音声シーンの音声クリップのノイズを除去することにより、的を得たノイズ除去を実現し、音声クリップの音声品質(すなわち音声の解像度)を向上させる。
【0063】
いくつかの実施例において、ターゲット音声処理モードは、ノイズ低減処理モードを含み、音声シーンタイプと対応するターゲット音声処理モードを決定することは、音声シーンに対応する音声シーンタイプに基づいて、音声シーンタイプとマッチングするノイズタイプを決定することと、音声シーンタイプとマッチングするノイズタイプに基づいて、異なる候補ノイズタイプと候補ノイズ低減処理モードとの対応関係を問い合わせて、音声シーンタイプと対応するノイズ低減処理モードを得ることと、を含み、ここで、異なる音声シーンタイプとマッチングするノイズタイプは、完全に同じではない。
【0064】
例えば、先に音声シーンに対応する音声シーンタイプを通じて、音声シーンタイプとマッチングするノイズタイプを決定し、次に音声シーンタイプとマッチングするノイズタイプを通じて、音声シーンタイプと対応するノイズ低減処理モードを取得する。すなわち、音声シーンタイプと候補ノイズ低減処理モードとの非干渉を実現し、それにより、続いて、音声シーンタイプと候補ノイズ低減処理モードとの対応関係を柔軟的に調整することができる。
【0065】
例えば、クライアントの開発者が異なるノイズに対してノイズ低減処理モードを割り当てる戦略は変化する可能性があるか、又は、異なるユーザーの異なるノイズに対するノイズ低減処理モードのニーズは変化する。従って、もしニューラルネットワークモデルを通じて音声クリップの音声シーンタイプとノイズ低減処理モードとのマッピング関係を実現すれば、大量のモデルを的を得て訓練する必要があり、且つ異なるノイズに対して割り当てたノイズ低減処理モードが変化すれば、ニューラルネットワークモデルを改めて訓練する必要があるために、大量の計算リソースを消費する。
【0066】
しかし、もしニューラルネットワークモデルのみを通じて音声クリップの音声シーンタイプとノイズとのマッピング関係を実現すれば、1つのニューラルネットワークモデルを訓練することで、実際の応用においてノイズ低減処理モードに対する各種のニーズを満たすことができる。クライアントにおいてノイズタイプとノイズ低減処理モードの戦略設定を実現する必要があればよく、異なるノイズに対して割り当てたノイズ低減処理モードが変化しても、クライアントにおいてノイズタイプとノイズ低減処理モードの戦略設定のみを調整すればよく、それにより、大量の計算リソースを消費してニューラルネットワークモデルを訓練することを回避する。
【0067】
いくつかの実施例において、音声クリップ内のノイズによって引き起こされた干渉度に基づき、音声クリップに対してターゲット音声処理モードを応用することは、音声クリップ内のノイズによって引き起こされた干渉度を決定することと、干渉度が干渉度閾値よりも大きいとき、音声シーンの音声クリップに対して音声シーンタイプと対応するノイズ低減処理モードを応用することとを含む。
【0068】
例えば、音声クリップ内のノイズは、音声クリップにほとんど影響を与えないときに、ノイズ低減処理を行わなくてもよく、音声クリップ内のノイズが音声クリップに影響を与えたときにのみ、音声クリップに対してノイズ低減処理を行えばよい。例えば、ユーザーが録音するときには、録音するときに音声シーンのいくつかのノイズを収録するが、これらのノイズが録音効果に影響を与えなければ、録音に対してノイズ低減処理を行わなくてもよく、これらのノイズが録音効果に影響を与える(例えば録音内容を聞こえない)ときには、録音に対してノイズ低減処理を行うことができる。
【0069】
図5を参照すると、図5は、本願実施例により提供された人工知能に基づく音声処理方法の1つの選択可能なフロー模式図である。図5は、図3におけるステップ103が図4に示されたステップ1031B-1032Bを通じて実現することができることを示している。ターゲット音声処理モードは、ビットレート切り替え処理モードを含む。ステップ1031Bにおいて、音声シーンと対応する音声シーンタイプに基づいて、異なる候補音声シーンタイプと候補ビットレート切り替え処理モードとの対応関係を問い合わせて、音声シーンタイプと対応するビットレート切り替え処理モードを得る。ステップ1032Bにおいて、音声クリップに対して音声シーンタイプと対応するビットレート切り替え処理モードを応用する。
【0070】
例えば、実際の応用シーンに基づき、異なる音声シーンタイプと候補ビットレート切り替え処理モードとの対応関係を含むマッピングテーブルを予め構築し、且つ該マッピングテーブルを記憶スペースに記憶し、記憶スペースにおけるマッピングテーブルに含まれた、異なる音声シーンタイプと候補ビットレート切り替え処理モードとの対応関係を読み取ることを通じて、音声シーンに対応する音声シーンタイプに基づいて音声シーンタイプとマッチングするビットレート切り替え処理モードを迅速に問い合わせることができる。それにより、ビットレート切り替え処理モードを音声シーンの音声クリップに応用して音声クリップのビットレートを切り替えることにより、的を得たビットレート切り替えを実現し、音声クリップの流暢性を向上させる。
【0071】
いくつかの実施例において、ターゲット音声処理モードは、ビットレート切り替え処理モードを含み、音声シーンタイプと対応するターゲット音声処理モードを決定することは、音声シーンタイプを予め設定した音声シーンタイプと比較することと、比較により音声シーンタイプが予め設定した音声シーンタイプであると決定したときに、予め設定した音声シーンタイプに関連するビットレート切り替え処理モードを、音声シーンタイプと対応するビットレート切り替え処理モードとすることとを含む。
【0072】
例えば、あらゆる音声シーンがいずれもビットレート切り替えを行う必要があるわけではなく、例えば事務環境の通信信号は、比較的安定しており、ビットレート切り替えを行う必要がないが、高速鉄道環境の信号は比較的弱く且つ不安定であり、ビットレート切り替えを行う必要がある。従って、ビットレート切り替え処理モードを決定する前に、音声シーンタイプを、ビットレート切り替えを行う必要がある、予め設定した音声シーンタイプと比較する必要があり、比較により音声シーンタイプがビットレート切り替えを行う必要がある、予め設定した音声シーンタイプに属すると決定したときに、予め設定した音声シーンタイプに関連するビットレート切り替え処理モードを、音声シーンタイプとマッチングするビットレート切り替え処理モードとして決定する。これは、すべてのシーンがいずれもビットレート切り替えを行うことにより起因するリソース浪費を回避する。
【0073】
いくつかの実施例において、音声シーンの音声クリップに対してターゲット音声処理モードを応用することは、音声シーンの通信信号強度が通信信号強度閾値よりも小さいときに、第1設定比率、又は、第1設定値に応じて音声クリップの音声ビットレートを低減させ、音声シーンの通信信号強度が通信信号強度閾値以上であるときに、第2設定比率、又は、第2設定値に応じて音声クリップの音声ビットレートを増加させることを含む。
【0074】
オーディオ通話シーンを例とすると、複数の人が異なる環境でオーディオ通話を行い、且つクライアントを通じてサーバに音声クリップを送信する。サーバは、各クライアントから送信された音声クリップを受信し、音声クリップに基づいて音声シーン分類処理を実行して、音声クリップ内のノイズと対応する音声シーンタイプを得て、且つ音声シーンタイプとマッチングするビットレート切り替え処理モードを決定した後に、音声シーンの通信信号強度を決定するが、音声シーンの通信信号強度が通信信号強度閾値よりも小さいときには、現在の音声シーンの信号が弱く、ビットレートを低減させる必要があることを意味する。従って、音声シーンタイプとマッチングするビットレート切り替え処理モードにおける第1設定比率、又は、第1設定値に応じて、音声クリップの音声ビットレートを低減させることで、後続の、流暢な音声インタラクションを行い、オーディオ通話の中断を回避する。音声シーンの通信信号強度が通信信号強度閾値以上であるときには、現在の音声シーンの通信信号が強く、ビットレートを低減させなくても通話を中断させず、ビットレートを低減させる必要がないことを意味する。従って、音声シーンタイプとマッチングするビットレート切り替え処理モードにおける第2設定比率、又は、第2設定値に応じて、音声クリップの音声ビットレートを増加させ、音声インタラクションの流暢性を向上させる。説明する必要がある点としては、第1設定比率と第2設定比率とは、同じであってもよく、異なってもよく、第1設定値比率と第2設定値とは、同じであってもよく、異なってもよい。第1設定比率、第2設定比率、第1設定値、第2設定値は、実際のニーズに従って設定されてもよい。
【0075】
ここで、音声シーンの通信信号強度を取得する方式の例については、音声シーンにおいて複数回のサンプリングにより得られた通信信号強度を平均化し、平均結果を音声シーンの通信信号強度とする。例えば、あるユーザーのオーディオ通話を開始させるときから現在までの複数回のサンプリング結果を平均化し、平均結果を該ユーザーの位置する音声シーンでの通信信号強度とする。
【0076】
いくつかの実施例において、音声シーンの音声クリップに対してターゲット音声処理モードを応用することは、音声シーンにおいて複数回のサンプリングにより得られた通信信号強度に基づいて、音声シーンにおける通信信号強度のジッタ情報を決定することと、ジッタ情報は、通信信号が不安定な状態にあることを表現しているときに、第3設定比率、又は、第3設定値に応じて音声クリップの音声ビットレートを低減させることと、を含む。
【0077】
例えば、音声シーンにおいて複数回のサンプリングにより通信信号強度を得て、正規分布方式を通じて音声シーンにおける通信信号強度のジッタ変化状況(すなわちジッタ情報)を取得する。ジッタ変化状況を表現する正規分布におけるバリアンスがバリアンス閾値よりも大きいときは、正規分布におけるデータ(すなわち通信信号)が比較的分散することを意味し、通信信号強度が激しくジッタし、通信信号が不安定であることを意味している。音声の流暢性を保証することを基礎として、後続の、音声ビットレートを繰り返し切り替えることを回避するために、音声シーンタイプとマッチングするビットレート切り替え処理モードにおける予め設定した比率、又は、デフォルト値に基づき、音声クリップの音声ビットレートを低減させることができる。ここで、第3設定比率、第3設定値は、実際のニーズに従って設定することができる。
【0078】
音声シーンにおける通信信号強度のジッタ変化状況を判断することを通じて、更にビットレートを切り替える必要があるかどうかを決定し、それにより、音声の流暢性を保証することを基礎として、音声ビットレートを頻繁に切り替えることを回避して、ユーザーの体験感を向上させる。
【0079】
いくつかの実施例において、音声シーンの音声クリップに対してターゲット音声処理モードを応用することは、音声クリップを伝送することに用いられる通信ネットワークのタイプが設定タイプに属するときに、第4設定比率、又は、第4設定値に応じて音声クリップの音声ビットレートを低減させることを含む。
【0080】
例えば、音声シーンタイプとマッチングするビットレート切り替え処理モードを決定した後に、さらに、先に音声クリップを伝送することに用いられる通信ネットワークのタイプが設定タイプ(例えばWiFiネットワーク、セルラーネットワーク等)に属するかどうかを決定する。例えば、音声クリップを伝送することに用いられる通信ネットワークのタイプがwifiネットワークに属すると決定すると、現在の音声クリップが不安定な環境にあることを意味しており、音声の流暢性を保証するために、音声シーンタイプとマッチングするビットレート切り替え処理モードにおける予め設定した比率、又は、デフォルト値に基づき、音声クリップの音声ビットレートを低減させることができる。ここで、第3設定比率、第3設定値は、実際のニーズに従って設定することができる。
【0081】
以下、本願実施例の1つの実際の応用シーン中での例示的な応用を説明する。
【0082】
本願実施例は、各種オーディオの応用シーンに応用することができ、例えば、録音アプリケーションに対して、ユーザーは、端末において動作している録音クライアントを通じて現在のオーディオシーンで録音し、録音クライアントは、記録された音声クリップに対してオーディオシーン識別を行い、オーディオシーンタイプを決定し、且つオーディオシーンタイプに基づいて音声クリップに対して的を得たノイズ低減処理を行って、ノイズ除去された音声クリップを記憶し、ノイズ除去録音機能を実現する。インスタントメッセージアプリケーションに対して、ユーザーは、端末において動作しているインスタントメッセージクライアントを通じて現在のオーディオシーンでオーディオ送信を行う。該インスタントメッセージクライアントは、対応する音声クリップを取得し、音声クリップに対してオーディオシーン識別を行って、オーディオシーンタイプを決定し、且つオーディオシーンタイプに基づいて音声クリップに対して的を得たノイズ低減処理を行って、インスタントメッセージクライアントを通じてノイズ除去された音声クリップを送信し、ノイズ除去オーディオ送信機能を実現する。通話アプリケーションに対して、ユーザーAは、ユーザーBとオーディオ通話を行い、ユーザーAは、端末において動作している通話クライアントを通じて現在のオーディオシーンでオーディオ通話を行い、通話クライアントは、ユーザーAの音声クリップを取得し、且つユーザーAの音声クリップに基づいて音声に対する最適化要求を自動的に生成し、且つ音声に対する最適化要求をサーバに送信する。サーバは、受信された音声に対する最適化要求に基づいてユーザーAの音声クリップに対してオーディオシーン識別を行い、オーディオシーンタイプを決定し、且つオーディオシーンタイプに基づいて音声クリップに対して的を得たノイズ低減処理を行って、且向ユーザーBにノイズ除去されたユーザーAの音声クリップを送信し、ノイズ除去オーディオ通話機能を実現する。
【0083】
本願実施例は、人工知能に基づく音声処理方法を提供し、音声クリップに対してメル周波数対数エネルギー特徴を抽出し、正規化された後の特徴をニューラルネットワークに入力して、音声クリップに対応するシーン予測を得る。通話シーンは、比較的安定しているため、シーンに基づくビットレート制御は、より優れた安定性を有する。異なるシーンに対するノイズ特性は、適応学習、転移学習等の方式を使用して特定のシーンに対するパーソナライズされたノイズ低減策を取得することができ、シーン識別の結果に基づいて特定のシーンの専用ノイズ低減モードを相応に切り替えると、より高いノイズ低減パフォーマンスを取得でき、通話品質、及びユーザー体験を向上させることができる。
【0084】
例えば、リアルタイム通信ミーティングにおいて、ミーティング移動端末の継続的な改善に伴って、ユーザーは、各種異なる環境(音声シーン、オーディオシーン)においてミーティングに参加する可能性があり、例えば、オフィス環境、家庭環境、地下鉄、高速鉄道等の移動乗り物環境等である。異なるシーンは、リアルタイム音声信号処理に対して、シーン特性を有する挑戦をもたらす。例えば、高速鉄道等のシーン信号が比較的弱く且つ不安定であり、音声コミュニケーションときに、常に遅延を生じ、通信品質に深刻な影響を与え、異なるシーンが有する特定バックグラウンドノイズ(例えば、家庭環境内で遊んでいる子供、テレビのバックグラウンドサウンド、キッチンのノイズ等)は、ノイズ低減アルゴリズムのロバスト性に対してより高い要求を提出する。
【0085】
ユーザーが各シーンにおいてミーティングを行うというニーズを満たし、ユーザーの複雑な環境下でのミーティング音声体験を向上させるために、環境特性に基づいてシーンパーソナライズを可能にする解決策を提供することは、音声処理アルゴリズム最適化における重要な傾向である。音声発生シーンを正確に識別することは、シーンパーソナライズ策を実現するための重要な根拠と基礎である。本願実施例は、音声シーン分類(Audio Scene Classification)策を提出し、音声シーンの分類結果に対してシーンのパーソナライズを可能にする音声処理アルゴリズムを起動する。例えば、信号が比較的弱く且つ不安定である高速鉄道シーンに対してビットレート(Bit rate)自動切り替えを行い、音声ビットレートを低減させて遅延が生じることを回避し、識別されたシーンに従って特定シーンに対するノイズ低減策を応用し、ユーザーがミーティングに参加する体験を向上させる。
【0086】
ここで、的を得たノイズ低減策は、主に、シーン特性のノイズに対して、例えば事務環境のキーボードの音、紙の摩擦音、家庭環境のキッチンのノイズ、遊んでいる子供、テレビのバックグラウンドサウンド、移動乗り物の駅名などを知らせることによる音等のシーン特性のノイズである。汎用ノイズ低減モデルに基づいて適応等の方式を通じて各シーンに対するノイズ低減モデル(シーン特性ノイズに対して重点として削除するモデル)を訓練し、シーンを識別した後にシーンに対応するノイズ低減モデルを起動してノイズ低減を行う。的を得たビットレート切り替えは、主に、特定シーン、例えば、高速鉄道等の信号が比較的弱い移動乗り物環境に対して、ミーティング通信のビットレートを低減させ(例えば、16kから8kまで低減させる)、伝送負荷を軽減させて遅延を減少し、ミーティングに参加している体験を向上させる。
【0087】
本願実施例により提出された音声シーン分類策は、まず収集された時間領域音声信号に基づき、対応する周波数領域周波数スペクトル特徴、すなわちメル周波数対数エネルギースペクトル(Mel Frequency Log Filterbank Energy)を抽出し、そして、これらの周波数スペクトル特徴に対して正規化(Normalization)処理を行う。正規化処理をした後に、これらの正規化後の周波数スペクトル特徴をニューラルネットワークモデル、例えば、畳み込みニューラルネットワーク(CNN、Convolutional Neural Network)に基づく深層残差ネットワーク(ResNet、Residue Network)に入力して、ニューラルネットワークモデルを通じて正規化後の周波数スペクトル特徴をモデリングする。実際のテストときに、まず音声信号を入力する対数エネルギースペクトルを正規化し、既に作成されたニューラルネットワークモデルに入力して、ニューラルネットワークモデルが、入力された各音声クリップ(Audio clip)に対してシーン分類結果を出力する。ニューラルネットワークモデルにより識別されたシーン結果に応じて、ミーティングシステムは、適応された音声ビットレートを自動的に切り換え、且つ該シーンに適した的を得たノイズ低減策等を起動し、全体としてオーディオ通話品質とユーザー体験を向上させることができる。
【0088】
図7に示すように、図7は、本願実施例により提供された音声シーン識別の全体的なフロー模式図である。音声シーン識別は、訓練とテストとの2つの段階を含み、その中には、5つのモジュールを含み、それぞれ、1)シーンノイズコーパス収集、2)訓練データの構築、3)訓練データ特徴抽出、4)ニューラルネットワークモデル訓練、5)シーン予測である。
【0089】
1)シーンノイズコーパス収集
異なるシーン下でのバックグラウンドノイズ、例えば事務環境でのキーボードの音、紙の摩擦音、家庭環境でのキッチンノイズ、遊んでいる子供、テレビのバックグラウンドサウンド、移動乗り物の駅名などを知らせることによる音等のシーン特性のノイズを収集する。
【0090】
2)訓練データの構築
収集された異なるシーン下でのバックグラウンドノイズを、異なるクリーン音声(ノイズのないオーディオ)と時間領域において互いに重畳させ、シーンノイズがクリーン音声と重畳した混合信号を生成して、ニューラルネットワークモデル訓練の入力コーパスとする。重畳させるときに、重畳後のオーディオ振幅がシステム閾値を超えることを防止するとともに、データの多様性を強化して、実際の環境下での音声をより良好にシミュレートするために、人間の声とノイズとが元の比率で1:1で重畳するデータを確保するとともに、一部の乱数比率の重畳データを生成し、例えば、人間の声重畳係数が0.5~0.7の中にある乱数であり、ノイズ重畳係数が0.3~0.5の中にある乱数である。
【0091】
3)訓練データ特徴抽出
訓練データにおける音声信号に対してフレーム分割、ウィンドウィング、フーリエ変換等の操作を行って、メル対数エネルギー周波数スペクトル特徴を得る。
【0092】
図8に示すように、図8は、本願実施例により提供された時間領域の音響信号から周波数スペクトル特徴を抽出するフロー模式図である。まず、短期過渡仮定に応じて時間領域信号に対してフレーム分割操作を行って、連続的な信号を離散ベクトルに変換し、その後、各フレームの音声信号に対してウィンドウィング平滑化を行って、エッジの不連続性を消去し、次に、各フレームに対してフーリエ変換(FT、Fourier Transform)を行って周波数領域信号を得て、そして、周波数領域信号に対してメル周波数帯域を応用して各帯域内のエネルギーを取得する。人間の耳の音声に対する応答非線形に基づいて、ここでメル周波数帯域を使用して線形周波数帯域を置換することで人間の耳応答をよりよくシミュレートし、最終的に対数求め操作を行ってメル対数周波数スペクトル特徴を得る。
【0093】
4)ニューラルネットワークモデル訓練
ニューラルネットワークモデルの入力は、シーンノイズがクリーン音声と重畳している3チャネルのメル対数エネルギー周波数スペクトル特徴であり、ニューラルネットワークモデルの出力は、シーン識別の分類結果である。訓練過程において、交差エントロピー誤差(Cross Entropy Loss)を損失関数として採用し、且つ最小化された損失関数を訓練ターゲットとし、すなわち[数1]である。ここで、tiは、入力音声の正確なシーンマークを示し、Oは、ニューラルネットワークモデル予測のシーンカテゴリである。
【0094】
【数1】
【0095】
図9に示すように、図9は、本願実施例により提供されたニューラルネットワークモデルの構造模式図である。ニューラルネットワークモデルは、2つのResNetユニット(残差ネットワーク)、複数のCNNネットワーク、及び平均プーリング層(Pooling Layer)からなり、メル対数エネルギー特徴、その1次導関数、及び2次導関数は、3チャネル入力信号からなり、最終的にシーン分類結果を出力する。
【0096】
ここで、ニューラルネットワークモデルは、ResNetユニットを使用する。図10に示すように、図10は、本願実施例により提供されたResNetユニットの構造模式図である。各ResNetユニットは、2層のCNNを含み、ここでxとyは、それぞれ残差ユニットの入力、及び出力であり、f、fは、それぞれ2つのCNN層の関数マッピングを示し、W、Wは、それぞれ2つのCNN層に対応する加重パラメータ(Weights)を示す。CNN層は、周波数スペクトル情報におけるシーンノイズ特徴を効果的に捕獲することができ、残差ネットワークは、ニューラルネットワーク訓練誤差伝達における勾配消失問題を効果的に予防することができる。
【0097】
5)シーン予測
ニューラルネットワークモデルの訓練が完了した後に、最適なモデルパラメータを選択して訓練されたモデルとして保存する。テストときに、ノイズの多いオーディオを正規化した後に周波数スペクトル特徴を抽出して訓練済みのモデルに入力し、訓練済みのモデルが予測された音声シーンを出力する。続いて、音声シーンの分類結果に対してシーンのパーソナライズを可能にする音声処理アルゴリズムを起動し、例えば、信号が比較的弱く且つ不安定である高速鉄道シーンに対してビットレート(Bit rate)自動切り替えを行い、音声ビットレートを低減させて遅延が生じることを回避し、識別されたシーンに従って特定シーンに対するノイズ低減策を応用し、ユーザーがミーティングに参加する体験を向上させる。
【0098】
よって、本願実施例は、軽量の音声シーン識別モデルを構築するものであり、記憶スペースに対する要求が低く、予測速度が速い。フロントエンドアルゴリズムとして、後続の複雑なアルゴリズム最適化の根拠、及び基礎とすることができる。音声シーン識別結果に従って音声ビットレートを調整して制御し、シーン特定ノイズ低減策等のシーンのパーソナライズを可能にする音声解決策を起動する。
【0099】
ここまでに、本願実施例により提供されるサーバの例示的な応用、及び実施を組み合わせて、本願実施例により提供される人工知能に基づく音声処理方法を説明した。本願実施例は、音声処理装置をさらに提供し、実際の応用において、音声処理装置における各機能モジュールは、電子機器(例えば、端末機器、サーバ、又は、サーバクラスター)のハードウェアリソース、例えば、プロセッサ等の計算リソース、通信リソース(例えば、ケーブル、セルラー等の各種方式の通信をサポートして実現することに用いられる)、メモリが共同で実現することができる。図2は、メモリ550に記憶されている音声処理装置555を示しており、それは、プログラム、及びプラグインアセンブリ等の形式のソフトウェアであってもよく、例えば、ソフトウェアC/C++、Java等のプログラミング言語により設計されたソフトウェアモジュール、C/C++、Java等のプログラミング言語により設計されたアプリケーションソフト、又は、大型ソフトウェアシステムにおける専用ソフトウェアモジュール、アプリケーションプログラムインタフェース、プラグインアセンブリ、クラウドサービス等の実現方式であり、以下、異なる実現方式に対して例を挙げて説明する。
【0100】
例1.音声処理装置は、移動端末アプリケーションプログラム、及びモジュールである
【0101】
本願実施例における音声処理装置555は、ソフトウェアC/C++、Java等のプログラミング言語を使用して設計されたソフトウェアモジュールとして提供することができ、Android、又は、iOS等のシステムに基づく各種移動端末アプリケーションに組み込まれ(実行可能な指令で移動端末の記憶媒体中に記憶されており、移動端末のプロセッサにより実行され)、それにより、移動端末自体の計算リソースを直接使用して関連する情報推薦タスクを完了し、且つ定期的に、又は、不定期に各種ネットワーク通信方式を通じて処理結果を遠隔サーバに転送し、又は、移動端末のローカルに保存する。
【0102】
例2.音声処理装置は、サーバアプリケーションプログラム、及びプラットフォームである
【0103】
本願実施例における音声処理装置555は、C/C++、Java等のプログラミング言語を使用して設計されたアプリケーションソフト、又は、大型ソフトウェアシステムにおける専用ソフトウェアモジュールとして提供することができ、サーバ側で動作しており(実行可能な指令方式でサーバ側の記憶媒体に記憶されており、且つサーバ側のプロセッサにより動作する)、サーバは、自体の計算リソースを使用して関連する情報推薦タスクを完了する。
【0104】
本願実施例は、さらに、複数台のサーバからなる分散型、並行計算プラットフォーム上に、カスタマイズされた、インタラクションしやすいネットワーク(Web)インタフェース、又は、その他の各ユーザーインタフェース(UI、User Interface)を搭載して、個人、グループ、又は、単位に使用される情報推薦プラットフォームを形成する(推薦リストに用いられる)等として提供することができる。
【0105】
例3.音声処理装置は、サーバ側アプリケーションプログラムインタフェース(API、Application Program Interface)、及びプラグインアセンブリである
【0106】
本願実施例における音声処理装置555は、サーバ側のAPI、又は、プラグインアセンブリとして提供することができ、それによりユーザーが呼び出すことで、本願実施例の人工知能に基づく音声処理方法を実行し、且つ各種アプリケーションプログラムに組み込まれている。
【0107】
例4.音声処理装置は、移動機器クライアントAPI、及びプラグインアセンブリである
【0108】
本願実施例における音声処理装置555は、移動機器端のAPI、又は、プラグインアセンブリとして提供することができ、それによりユーザーが呼び出すことで、本願実施例の人工知能に基づく音声処理方法を実行する。
【0109】
例5.音声処理装置は、クラウド端公開サービスである
【0110】
本願実施例における音声処理装置555は、ユーザーに開発された情報推薦クラウドサービスとして提供することができ、それにより個人、グループ、又は、単位が推薦リストを取得する。
【0111】
ここで、音声処理装置555は、一連のモジュールを含み、取得モジュール5551と、分類モジュール5552と、処理モジュール5553と、訓練モジュール5554とを含む。以下、本願実施例により提供される音声処理装置555における各モジュールが協働して音声処理策を実現することを継続して説明する。
【0112】
取得モジュール5551は、音声シーンの音声クリップを取得するように構成され、ここで、上記音声クリップ中には、ノイズが含まれ、分類モジュール5552は、上記音声クリップに基づいて音声シーン分類処理を実行して、上記音声クリップ内のノイズと対応する音声シーンタイプを得るように構成され、処理モジュール5553は、上記音声シーンタイプと対応するターゲット音声処理モードを決定し、且つ音声クリップ内のノイズによって引き起こされた干渉度に基づき、上記音声クリップに対して上記ターゲット音声処理モードを応用するように構成される。
【0113】
いくつかの実施例において、上記ターゲット音声処理モードは、ノイズ低減処理モードを含み、上記処理モジュール5553は、さらに、上記音声シーンと対応する音声シーンタイプに基づいて、異なる候補音声シーンタイプと候補ノイズ低減処理モードとの対応関係を問い合わせて、上記音声シーンタイプと対応するノイズ低減処理モードを得るように構成される。
【0114】
いくつかの実施例において、上記ターゲット音声処理モードは、ノイズ低減処理モードを含み、上記処理モジュール5553は、さらに、上記音声シーンと対応する音声シーンタイプに基づいて、上記音声シーンタイプとマッチングするノイズタイプを決定し、上記音声シーンタイプとマッチングするノイズタイプに基づいて、異なる候補ノイズタイプと候補ノイズ低減処理モードとの対応関係を問い合わせて、上記音声シーンタイプと対応するノイズ低減処理モードを得るように構成され、ここで、異なる上記音声シーンタイプとマッチングするノイズタイプは、完全に同じではない。
【0115】
いくつかの実施例において、上記音声シーンの音声クリップに対して上記ターゲット音声処理モードを応用する上記ステップの前に、上記処理モジュール5553は、さらに、上記音声クリップ内のノイズによって引き起こされた干渉度を決定し、上記干渉度が干渉度閾値よりも大きいとき、上記音声クリップに対して上記音声シーンタイプと対応するノイズ低減処理モードを応用するように構成される。
【0116】
いくつかの実施例において、上記処理モジュール5553は、さらに、上記音声シーンタイプにマッチングするノイズタイプに対して、上記音声クリップ内のノイズとマッチング処理し、上記ノイズタイプに成功にマッチングしたノイズに対して抑制処理を行って、抑制後の上記音声クリップを得るように構成され、ここで、抑制後の上記音声クリップ内のオーディオ信号強度とノイズ信号強度との比は、信号対雑音比の閾値よりも低い。
【0117】
いくつかの実施例において、上記ターゲット音声処理モードは、ビットレート切り替え処理モードを含み、上記処理モジュール5553は、さらに、上記音声シーンと対応する音声シーンタイプに基づいて、異なる候補音声シーンタイプと候補ビットレート切り替え処理モードとの対応関係を問い合わせて、上記音声シーンタイプと対応するビットレート切り替え処理モードを得るように構成される。
【0118】
いくつかの実施例において、上記ターゲット音声処理モードは、ビットレート切り替え処理モードを含み、上記処理モジュール5553は、さらに、上記音声シーンに対応する音声シーンタイプを、予め設定した音声シーンタイプと比較し、比較により上記音声シーンタイプが上記予め設定した音声シーンタイプであると決定したときに、上記予め設定した音声シーンタイプに関連するビットレート切り替え処理モードを、上記音声シーンタイプと対応するビットレート切り替え処理モードとするように構成される。
【0119】
いくつかの実施例において、上記処理モジュール5553は、さらに、上記音声シーンの通信信号強度を取得し、上記音声シーンの通信信号強度が通信信号強度閾値よりも小さいときに、第1設定比率、又は、第1設定値に応じて上記音声クリップの音声ビットレートを低減させ、上記音声シーンの通信信号強度が上記通信信号強度閾値以上であるときに、第2設定比率、又は、第2設定値に応じて上記音声クリップの音声ビットレートを増加させるように構成される。
【0120】
いくつかの実施例において、上記処理モジュール5553は、さらに、上記音声シーンにおいて複数回のサンプリングにより得られた通信信号強度に基づいて、上記音声シーン内の通信信号強度のジッタ情報を決定し、上記ジッタ情報が、上記通信信号が不安定な状態にあることを表現しているときに、第3設定比率、又は、第3設定値に応じて上記音声クリップの音声ビットレートを低減させるように構成される。
【0121】
いくつかの実施例において、上記処理モジュール5553は、さらに、上記音声クリップを伝送することに用いられる通信ネットワークのタイプが設定タイプに属するときに、第4設定比率、又は、第4設定値に応じて上記音声クリップの音声ビットレートを低減させるように構成される。
【0122】
いくつかの実施例において、上記音声シーン分類処理は、ニューラルネットワークモデルを通じて実現され、上記ニューラルネットワークモデルは、上記音声クリップ中に含まれたノイズと上記音声シーンタイプとの関連関係を学習し、上記分類モジュール5552は、さらに、上記音声クリップに基づいて上記ニューラルネットワークモデルを呼び出して音声シーン分類処理を実行して、上記音声クリップ中に含まれたノイズと関連関係が存在する音声シーンタイプを得るように構成される。
【0123】
いくつかの実施例において、上記ニューラルネットワークモデルは、マッピングネットワークと、残差ネットワークと、プーリングネットワークとを含み、上記分類モジュール5552は、さらに、上記マッピングネットワークを通じて上記音声クリップに対して特徴抽出処理を行って、上記音声クリップ内のノイズの第1特徴ベクトルを得て、上記残差ネットワークを通じて上記第1特徴ベクトルに対してマッピング処理を行って、上記音声クリップのマッピングベクトルを得て、上記マッピングネットワークを通じて上記音声クリップのマッピングベクトルに対して特徴抽出処理を行って、上記音声クリップ内のノイズの第2特徴ベクトルを得て、上記プーリングネットワークを通じて上記第2特徴ベクトルに対してプーリング処理を行って、上記音声クリップのプーリングベクトルを得て、上記音声クリップのプーリングベクトルに対して非線形マッピング処理を行って、上記音声クリップ中に含まれたノイズと関連関係が存在する音声シーンタイプを得るように構成される。
【0124】
いくつかの実施例において、上記マッピングネットワークは、複数のカスケード接続されたマッピング層を含み、上記分類モジュール5552は、さらに、上記複数のカスケード接続されたマッピング層における1番目のマッピング層を通じて、上記音声クリップに対して特徴マッピング処理を行い、上記1番目のマッピング層のマッピング結果を後続のカスケード接続されたマッピング層に出力し、最後の1つのマッピング層に出力されるまで、上記後続のカスケード接続されたマッピング層を通じて特徴マッピング、及びマッピング結果の出力を行い続け、且つ上記最後の1つのマッピング層から出力されたマッピング結果を上記音声クリップ内のノイズの第1特徴ベクトルとするように構成される。
【0125】
いくつかの実施例において、上記残差ネットワークは、第1マッピングネットワークと、第2マッピングネットワークとを含み、上記分類モジュール5552は、さらに、上記第1マッピングネットワークを通じて上記第1特徴ベクトルに対してマッピング処理を行って、上記音声クリップの第1マッピングベクトルを得て、上記第1マッピングベクトルに対して非線形マッピング処理を行って、上記音声クリップの非マッピングベクトルを得て、上記第1マッピングネットワークを通じて上記音声クリップの非マッピングベクトルに対してマッピング処理を行って、上記音声クリップの第2マッピングベクトルを得て、上記音声クリップの第1特徴ベクトルと上記音声クリップの第2マッピングベクトルとの合計結果を上記音声クリップのマッピングベクトルとするように構成される。
【0126】
いくつかの実施例において、上記装置は、訓練モジュール5554をさらに含み、ノイズのない音声信号と、複数の異なる音声シーンにそれぞれ対応するバックグラウンドノイズとに基づいて、上記複数の異なる音声シーンにそれぞれ対応する音声サンプルを構築し、上記複数の異なる音声シーンにそれぞれ対応する音声サンプルに基づいてニューラルネットワークモデルを訓練して、音声シーンを分類することに用いられるニューラルネットワークモデルを得るように構成される。
【0127】
いくつかの実施例において、上記訓練モジュール5554は、さらに、上記複数の異なる音声シーンにおける任意の音声シーンに対して、上記音声シーンのバックグラウンドノイズと上記ノイズのない音声信号との融合比率に基づいて、上記音声シーンのバックグラウンドノイズ、及び上記ノイズのない音声信号を融合して、上記音声シーンの第1融合音声信号を得る処理と、上記第1融合音声信号において第1ランダム係数に対応する上記音声シーンのバックグラウンドノイズを融合して、上記音声シーンの第2融合音声信号を得る処理と、上記第2融合音声信号において第2ランダム係数に対応する上記ノイズのない音声信号を融合して、上記音声シーンの音声サンプルを得る処理と、を実行するように構成される。
【0128】
いくつかの実施例において、上記訓練モジュール5554は、さらに、上記ニューラルネットワークモデルを通じて上記複数の異なる音声シーンにそれぞれ対応する音声サンプルに対して音声シーン分類処理を行って、上記音声サンプルの予測音声シーンタイプを得て、上記音声サンプルの予測音声シーンタイプ、上記音声サンプルの音声シーンマーク、及び上記音声サンプルの加重に基づいて、上記ニューラルネットワークモデルの損失関数を構築し、上記損失関数が収束するまで、上記ニューラルネットワークモデルのパラメータを更新し続け、上記損失関数が収束するときに上記ニューラルネットワークモデルの更新されたパラメータを、音声シーンを分類することに用いられるニューラルネットワークモデルのパラメータとするように構成される。
【0129】
いくつかの実施例において、上記音声クリップに基づいて音声シーン分類処理を実行する上記ステップの前に、上記取得モジュール5551は、さらに、上記音声クリップの時間領域信号に対してフレーム分割処理を行って、マルチフレーム音声信号を得て、上記マルチフレーム音声信号に対してウィンドウィング処理を行い、且つウィンドウィング処理後の音声信号に対してフーリエ変換を行って、上記音声クリップの周波数領域信号を得て、上記周波数領域信号のメル周波数帯域に対して対数処理を行って、上記音声シーン分類を行うことに用いられる上記音声クリップを得るように構成される。
【0130】
本願実施例は、コンピュータプログラム製品、又は、コンピュータプログラムを提供しており、該コンピュータプログラム製品、又は、コンピュータプログラムは、コンピュータ指令を含み、該コンピュータ指令は、コンピュータ可読記憶媒体において記憶されている。コンピュータ機器のプロセッサは、コンピュータ可読記憶媒体から該コンピュータ指令を読み取り、プロセッサは、該コンピュータ指令を実行することで、該コンピュータ機器に本願実施例に記載の人工知能に基づく音声処理方法を実行させる。
【0131】
本願実施例は、実行可能な指令が記憶されたコンピュータ可読記憶媒体を提供しており、その中には、実行可能な指令が記憶されており、実行可能な指令は、プロセッサに実行されるときに、プロセッサが本願実施例により提供される人工知能に基づく音声処理方法、例えば、図3-5に示された人工知能に基づく音声処理方法を実行させるようにする。
【0132】
いくつかの実施例において、コンピュータ可読記憶媒体は、FRAM(登録商標)、ROM、PROM、EPROM、EEPROM、フラッシュメモリ、磁気面メモリ、光ディスク、又は、CD-ROM等のメモリであってもよく、上記メモリのうちの1つ、又は、任意の組み合わせを含む各種の機器であってもよい。
【0133】
いくつかの実施例において、実行可能な指令は、プログラム、ソフトウェア、ソフトウェアモジュール、スクリプト、又は、コードの形式を採用して、任意の形式のプログラミング言語(コンパイル、又は、解釈言語、又は、宣言性、又は、過程性言語を含む)に応じて作成することができ、且つそれは、任意の形式で配置することができ、独立したプログラムに配置され、又は、モジュール、アセンブリ、サブルーチン、又は、計算環境において使用されることに適したその他のアセンブリに配置されることを含む。
【0134】
例としては、実行可能な指令は、ファイルシステムにおけるファイルと対応することができるが、必ずしもそれと対応するわけではなく、その他のプログラム、又は、データを保存するファイルの一部として記憶されてもよく、例えば、ハイパーテキストマークアップ言語(HTML、Hyper Text Markup Language)ドキュメントにおける1つ、又は、複数のスクリプトにおいて記憶されており、検討されたプログラム専用の単一のファイルにおいて記憶されており、又は、複数の共同ファイル(例えば、1つ、又は、複数のモジュール、サブルーチン、又は、コード部分を記憶するファイル)において記憶されている。
【0135】
例としては、実行可能な指令は、1つの計算機器上に配置されて実行されることができ、又は、1つの場所に位置する複数の計算機器上に配置されて実行されることができ、また、又は、複数の場所に分布し且つ通信ネットワークを通じて互いに結合さされた複数の計算機器上に配置されて実行されることができる。
【0136】
以上に記載されるのは、本願の実施例に過ぎず、本願の保護範囲を限定することに用いられるものではない。本願の精神、及び範囲内で行ったいかなる改定、等価置換、及び改良等は、いずれも本願の保護範囲内に含む。
【符号の説明】
【0137】
10 音声処理システム
100 サーバ
200 端末
300 ネットワーク
500 電子機器
510 プロセッサ
520 ネットワークインタフェース
530 ユーザーインタフェース
540 バスシステム
550 メモリ
551 オペレーティングシステム
552 ネットワーク通信モジュール
555 音声処理装置
5551 取得モジュール
5552 分類モジュール
5553 処理モジュール
5554 訓練モジュール
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
【手続補正書】
【提出日】2023-05-17
【手続補正2】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
コンピュータによる実行される、人工知能に基づく音声処理方法であって、前記方法は、
音声シーンの音声クリップを取得するステップであって、前記音声クリップ中には、ノイズが含まれる、ステップと、
前記音声クリップに基づいて音声シーン分類処理を実行して、前記音声クリップ内のノイズと対応する音声シーンタイプを得るステップと、
前記音声シーンタイプと対応するターゲット音声処理モードを決定するステップと、
前記音声クリップ内のノイズによって引き起こされた干渉度に基づき、前記音声クリップに対して前記ターゲット音声処理モードを応用するステップと、を含む、人工知能に基づく音声処理方法。
【請求項2】
前記ターゲット音声処理モードは、ノイズ低減処理モードを含み、
前記音声シーンタイプと対応するターゲット音声処理モードを決定する前記ステップは、
前記音声シーンに対応する音声シーンタイプに基づいて、異なる候補音声シーンタイプと候補ノイズ低減処理モードとの対応関係を問い合わせて、前記音声シーンタイプと対応するノイズ低減処理モードを得るステップを含む、請求項1に記載の方法。
【請求項3】
前記ターゲット音声処理モードは、ノイズ低減処理モードを含み、
前記音声シーンタイプと対応するターゲット音声処理モードを決定する前記ステップは、
前記音声シーンに対応する音声シーンタイプに基づいて、前記音声シーンタイプとマッチングするノイズタイプを決定するステップと、
前記音声シーンタイプとマッチングするノイズタイプに基づいて、異なる候補ノイズタイプと候補ノイズ低減処理モードとの対応関係を問い合わせて、前記音声シーンタイプと対応するノイズ低減処理モードを得るステップと、を含み、
異なる前記音声シーンタイプとマッチングするノイズタイプは、完全に同じではない、請求項1に記載の方法。
【請求項4】
前記音声クリップ内のノイズによって引き起こされた干渉度に基づき、前記音声クリップに対して前記ターゲット音声処理モードを応用する前記ステップは、
前記音声クリップ内のノイズによって引き起こされた干渉度を決定するステップと、
前記干渉度が干渉度閾値よりも大きいとき、前記音声クリップに対して前記音声シーンタイプと対応するノイズ低減処理モードを応用するステップと、を含む、請求項2または3に記載の方法。
【請求項5】
前記音声クリップ内のノイズによって引き起こされた干渉度に基づき、前記音声クリップに対して前記ターゲット音声処理モードを応用する前記ステップは、
前記音声シーンタイプにマッチングするノイズタイプに対して、前記音声クリップ内のノイズとマッチング処理するステップと、
前記ノイズタイプに成功にマッチングしたノイズに対して抑制処理を行って、抑制後の前記音声クリップを得るステップと、を含み、
抑制後の前記音声クリップ内のオーディオ信号強度とノイズ信号強度との比は、信号対雑音比の閾値よりも低い、請求項2または3に記載の方法。
【請求項6】
前記ターゲット音声処理モードは、ビットレート切り替え処理モードを含み、
前記音声シーンタイプと対応するターゲット音声処理モードを決定する前記ステップは、
前記音声シーンと対応する音声シーンタイプに基づいて、異なる候補音声シーンタイプと候補ビットレート切り替え処理モードとの対応関係を問い合わせて、前記音声シーンタイプと対応するビットレート切り替え処理モードを得るステップを含む、請求項1に記載の方法。
【請求項7】
前記ターゲット音声処理モードは、ビットレート切り替え処理モードを含み、
前記音声シーンタイプと対応するターゲット音声処理モードを決定する前記ステップは、
前記音声シーンに対応する音声シーンタイプを、予め設定した音声シーンタイプと比較するステップと、
比較により前記音声シーンタイプが前記予め設定した音声シーンタイプであると決定したときに、前記予め設定した音声シーンタイプに関連するビットレート切り替え処理モードを、前記音声シーンタイプと対応するビットレート切り替え処理モードとするステップと、を含む、請求項1に記載の方法。
【請求項8】
前記音声クリップ内のノイズによって引き起こされた干渉度に基づき、前記音声クリップに対して前記ターゲット音声処理モードを応用する前記ステップは、
前記音声シーンの通信信号強度を取得するステップと、
前記音声シーンの通信信号強度が通信信号強度閾値よりも小さいときに、第1設定比率、又は、第1設定値に応じて前記音声クリップの音声ビットレートを低減させるステップと、
前記音声シーンの通信信号強度が前記通信信号強度閾値以上であるときに、第2設定比率、又は、第2設定値に応じて前記音声クリップの音声ビットレートを増加させるステップと、を含む、請求項6または7に記載の方法。
【請求項9】
前記音声クリップ内のノイズによって引き起こされた干渉度に基づき、前記音声クリップに対して前記ターゲット音声処理モードを応用する前記ステップは、
前記音声シーンにおいて複数回のサンプリングにより得られた通信信号強度に基づいて、前記音声シーン内の通信信号強度のジッタ情報を決定するステップと、
前記ジッタ情報は、前記通信信号が不安定な状態にあることを表現しているときに、第3設定比率、又は、第3設定値に応じて前記音声クリップの音声ビットレートを低減させるステップと、を含む、請求項6または7に記載の方法。
【請求項10】
前記音声クリップ内のノイズによって引き起こされた干渉度に基づき、前記音声クリップに対して前記ターゲット音声処理モードを応用する前記ステップは、
前記音声クリップを伝送することに用いられる通信ネットワークのタイプが設定タイプに属するときに、第4設定比率、又は、第4設定値に応じて前記音声クリップの音声ビットレートを低減させるステップを含む、請求項6または7に記載の方法。
【請求項11】
前記音声シーン分類処理は、ニューラルネットワークモデルを通じて実現され、前記ニューラルネットワークモデルは、前記音声クリップ中に含まれたノイズと前記音声シーンタイプとの関連関係を学習し、
前記音声クリップに基づいて音声シーン分類処理を実行して、前記音声クリップ内のノイズと対応する音声シーンタイプを得る前記ステップは、
前記音声クリップに基づいて前記ニューラルネットワークモデルを呼び出して音声シーン分類処理を実行して、前記音声クリップ中に含まれたノイズと関連関係が存在する音声シーンタイプを得るステップを含む、請求項1に記載の方法。
【請求項12】
前記ニューラルネットワークモデルは、マッピングネットワークと、残差ネットワークと、プーリングネットワークとを含み、
前記音声クリップに基づいて前記ニューラルネットワークモデルを呼び出して音声シーン分類処理を実行して、前記音声クリップ中に含まれたノイズと関連関係が存在する音声シーンタイプを得る前記ステップは、
前記マッピングネットワークを通じて前記音声クリップに対して特徴抽出処理を行って、前記音声クリップ内のノイズの第1特徴ベクトルを得るステップと、
前記残差ネットワークを通じて前記第1特徴ベクトルに対してマッピング処理を行って、前記音声クリップのマッピングベクトルを得るステップと、
前記マッピングネットワークを通じて前記音声クリップのマッピングベクトルに対して特徴抽出処理を行って、前記音声クリップ内のノイズの第2特徴ベクトルを得るステップと、
前記プーリングネットワークを通じて前記第2特徴ベクトルに対してプーリング処理を行って、前記音声クリップのプーリングベクトルを得るステップと、
前記音声クリップのプーリングベクトルに対して非線形マッピング処理を行って、前記音声クリップ中に含まれたノイズと関連関係が存在する音声シーンタイプを得るステップと、を含む請求項11に記載の方法。
【請求項13】
前記マッピングネットワークは、複数のカスケード接続されたマッピング層を含み、
前記マッピングネットワークを通じて前記音声クリップに対して特徴抽出処理を行って、前記音声クリップ内のノイズの第1特徴ベクトルを得る前記ステップは、
前記複数のカスケード接続されたマッピング層における1番目のマッピング層を通じて、前記音声クリップに対して特徴マッピング処理を行うステップと、
前記1番目のマッピング層のマッピング結果を後続のカスケード接続されたマッピング層に出力し、最後の1つのマッピング層に出力されるまで、前記後続のカスケード接続されたマッピング層を通じて特徴マッピング、及びマッピング結果の出力を行い続けるステップと、且つ
前記最後の1つのマッピング層から出力されたマッピング結果を前記音声クリップ内のノイズの第1特徴ベクトルとするステップと、を含む、請求項12に記載の方法。
【請求項14】
前記残差ネットワークは、第1マッピングネットワークと、第2マッピングネットワークとを含み、
前記残差ネットワークを通じて前記第1特徴ベクトルに対してマッピング処理を行って、前記音声クリップのマッピングベクトルを得る前記ステップは、
前記第1マッピングネットワークを通じて前記第1特徴ベクトルに対してマッピング処理を行って、前記音声クリップの第1マッピングベクトルを得るステップと、
前記第1マッピングベクトルに対して非線形マッピング処理を行って、前記音声クリップの非マッピングベクトルを得るステップと、
前記第1マッピングネットワークを通じて前記音声クリップの非マッピングベクトルに対してマッピング処理を行って、前記音声クリップの第2マッピングベクトルを得るステップと、
前記音声クリップの第1特徴ベクトルと前記音声クリップの第2マッピングベクトルとの合計結果を前記音声クリップのマッピングベクトルとするステップと、を含む、請求項12に記載の方法。
【請求項15】
前記方法は、
ノイズのない音声信号と、複数の異なる音声シーンにそれぞれ対応するバックグラウンドノイズとに基づいて、前記複数の異なる音声シーンにそれぞれ対応する音声サンプルを構築するステップと、
前記複数の異なる音声シーンにそれぞれ対応する音声サンプルに基づいてニューラルネットワークモデルを訓練して、音声シーンを分類することに用いられるニューラルネットワークモデルを得るステップと、をさらに含む、請求項1に記載の方法。
【請求項16】
ノイズのない音声信号と、複数の異なる音声シーンにそれぞれ対応するバックグラウンドノイズとに基づいて、前記複数の異なる音声シーンにそれぞれ対応する音声サンプルを構築する前記ステップは、
前記複数の異なる音声シーンにおける任意の音声シーンに対して、
前記音声シーンのバックグラウンドノイズと前記ノイズのない音声信号との融合比率に基づいて、前記音声シーンのバックグラウンドノイズ、及び前記ノイズのない音声信号を融合して、前記音声シーンの第1融合音声信号を得る処理と、
前記第1融合音声信号において第1ランダム係数に対応する前記音声シーンのバックグラウンドノイズを融合して、前記音声シーンの第2融合音声信号を得る処理と、
前記第2融合音声信号において第2ランダム係数に対応する前記ノイズのない音声信号を融合して、前記音声シーンの音声サンプルを得る処理と、を実行するステップを含む、請求項15に記載の方法。
【請求項17】
前記複数の異なる音声シーンにそれぞれ対応する音声サンプルに基づいてニューラルネットワークモデルを訓練して、音声シーンを分類することに用いられるニューラルネットワークモデルを得る前記ステップは、
前記ニューラルネットワークモデルを通じて前記複数の異なる音声シーンにそれぞれ対応する音声サンプルに対して音声シーン分類処理を行って、前記音声サンプルの予測音声シーンタイプを得るステップと、
前記音声サンプルの予測音声シーンタイプ、前記音声サンプルの音声シーンマーク、及び前記音声サンプルの加重に基づいて、前記ニューラルネットワークモデルの損失関数を構築するステップと、
前記損失関数が収束するまで、前記ニューラルネットワークモデルのパラメータを更新し続け、前記損失関数が収束するときに前記ニューラルネットワークモデルの更新されたパラメータを、音声シーンを分類することに用いられるニューラルネットワークモデルのパラメータとするステップと、を含む、請求項15に記載の方法。
【請求項18】
前記音声クリップに基づいて音声シーン分類処理を実行して、前記音声クリップ内のノイズと対応する音声シーンタイプを得る前記ステップの前に、前記方法は、
前記音声クリップの時間領域信号に対してフレーム分割処理を行って、マルチフレーム音声信号を得るステップと、
前記マルチフレーム音声信号に対してウィンドウィング処理を行い、且つウィンドウィング処理後の音声信号に対してフーリエ変換を行って、前記音声クリップの周波数領域信号を得るステップと、
前記周波数領域信号のメル周波数帯域に対して対数処理を行って、前記音声シーン分類を行うことに用いられる前記音声クリップを得るステップと、をさらに含む、請求項1に記載の方法。
【請求項19】
音声処理装置であって、前記装置は、
音声シーンの音声クリップを取得するように構成される取得モジュールであって、前記音声クリップ中には、ノイズが含まれる取得モジュールと、
前記音声クリップに基づいて音声シーン分類処理を実行して、前記音声クリップ内のノイズと対応する音声シーンタイプを得るように構成される分類モジュールと、
前記音声シーンタイプと対応するターゲット音声処理モードを決定し、且つ前記音声クリップ内のノイズによって引き起こされた干渉度に基づき、前記音声クリップに対して前記ターゲット音声処理モードを応用するように構成される処理モジュールと、を含む、音声処理装置。
【請求項20】
電子機器であって、前記電子機器は、
実行可能な指令を記憶することに用いられるメモリと、
前記メモリ中に記憶された実行可能な指令を実行するときに、請求項1~18のいずれか一項に記載の人工知能に基づく音声処理方法を実現することに用いられるプロセッサと、を含む、電子機器。
【請求項21】
コンピュータプログラムであって、コンピュータに、請求項1~18のいずれか一項に記載の人工知能に基づく音声処理方法を実行させるコンピュータプログラム。
【国際調査報告】