IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ▲騰▼▲訊▼科技(深▲セン▼)有限公司の特許一覧

特表2022-552382音声伝送方法及びそのシステム、装置、コンピュータプログラム、並びにコンピュータ機器
<>
  • 特表-音声伝送方法及びそのシステム、装置、コンピュータプログラム、並びにコンピュータ機器 図1
  • 特表-音声伝送方法及びそのシステム、装置、コンピュータプログラム、並びにコンピュータ機器 図2
  • 特表-音声伝送方法及びそのシステム、装置、コンピュータプログラム、並びにコンピュータ機器 図3
  • 特表-音声伝送方法及びそのシステム、装置、コンピュータプログラム、並びにコンピュータ機器 図4
  • 特表-音声伝送方法及びそのシステム、装置、コンピュータプログラム、並びにコンピュータ機器 図5
  • 特表-音声伝送方法及びそのシステム、装置、コンピュータプログラム、並びにコンピュータ機器 図6
  • 特表-音声伝送方法及びそのシステム、装置、コンピュータプログラム、並びにコンピュータ機器 図7
  • 特表-音声伝送方法及びそのシステム、装置、コンピュータプログラム、並びにコンピュータ機器 図8
  • 特表-音声伝送方法及びそのシステム、装置、コンピュータプログラム、並びにコンピュータ機器 図9
  • 特表-音声伝送方法及びそのシステム、装置、コンピュータプログラム、並びにコンピュータ機器 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-12-15
(54)【発明の名称】音声伝送方法及びそのシステム、装置、コンピュータプログラム、並びにコンピュータ機器
(51)【国際特許分類】
   G10L 19/005 20130101AFI20221208BHJP
   H04L 1/00 20060101ALI20221208BHJP
【FI】
G10L19/005
H04L1/00 E
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022522692
(86)(22)【出願日】2020-10-28
(85)【翻訳文提出日】2022-04-14
(86)【国際出願番号】 CN2020124263
(87)【国際公開番号】W WO2021164303
(87)【国際公開日】2021-08-26
(31)【優先権主張番号】202010104793.7
(32)【優先日】2020-02-20
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】517392436
【氏名又は名称】▲騰▼▲訊▼科技(深▲セン▼)有限公司
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【弁理士】
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】梁 俊斌
【テーマコード(参考)】
5K014
【Fターム(参考)】
5K014BA00
5K014FA11
(57)【要約】
音声伝送方法は、音声符号化ビットストリームにおける現在の符号化データを取得するステップと、機械学習ベースのパケット損失回復能力予測モデルを介して、現在の符号化データに対応する第1音声符号化特徴パラメータと、現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとに従って、現在の符号化データに対応するパケット損失回復能力を取得するステップと、パケット損失回復能力に従って、冗長符号化処理を実行する必要があるかどうかを判断するステップと、冗長符号化処理を実行する必要がある場合、現在の符号化データに従って冗長符号化を実行して、対応する冗長パケットを生成した後、現在の符号化データ及び冗長パケットを受信側に伝送するステップと、冗長符号化処理を実行する必要がない場合、現在の符号化データを受信側に直接伝送するステップと、を含む。
【特許請求の範囲】
【請求項1】
コンピュータが実行する音声伝送方法であって、
音声符号化ビットストリームにおける現在の符号化データを取得するステップと、
機械学習ベースのパケット損失回復能力予測モデルを介して、前記現在の符号化データに対応する第1音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとに従って、前記現在の符号化データに対応するパケット損失回復能力を取得するステップと、
前記パケット損失回復能力に従って冗長符号化処理を実行する必要があるかどうかを判断するステップと、
冗長符号化処理を実行する必要がある場合、前記現在の符号化データに基づき冗長符号化を実行して、対応する冗長パケットを生成してから、前記現在の符号化データ及び前記冗長パケットを受信側に伝送するステップと、
冗長符号化処理を実行する必要がない場合、前記現在の符号化データを受信側に直接伝送するステップと、を含む、前記音声伝送方法。
【請求項2】
前記音声伝送方法は、
元の音声信号を取得するステップと、
元の音声信号を分割して、元の音声シーケンスを取得するステップと、
前記元の音声シーケンス内の音声セグメントに対して音声符号化を順次実行して、音声符号化ビットストリームを取得するステップと、を更に含む、
請求項1に記載の音声伝送方法。
【請求項3】
前記音声伝送方法は、
元の音声シーケンス内の音声セグメントのそれぞれに対応する音声符号化特徴パラメータを取得するステップと、
前記音声符号化特徴パラメータに従って、対応する音声セグメントに対して音声符号化を実行して、対応する符号化データを生成してから、音声符号化ビットストリームを取得するステップと、
音声符号化プロセスにおいて各符号化データによって使用される音声符号化特徴パラメータをキャッシュするステップと、を更に含む、
請求項1に記載の音声伝送方法。
【請求項4】
前記機械学習ベースのパケット損失回復能力予測モデルを介して、現在の符号化データに対応する第1音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとに従って、前記現在の符号化データに対応するパケット損失回復能力を取得する前記ステップは、
前記現在の符号化データに対応する第1音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとをパケット損失回復能力予測モデルに入力するステップと、
前記パケット損失回復能力予測モデルを介して、前記第1音声符号化特徴パラメータ及び前記第2音声符号化特徴パラメータに従って、前記現在の符号化データを直接復号化することで決定された第1音声品質スコアと、前記現在の符号化データに対してパケット損失回復処理を実行してから復号化を実行することで決定された第2音声品質スコアとの間のスコア差を出力するステップと、
前記スコア差に従って前記現在の符号化データに対応するパケット損失回復能力を決定するステップと、を含み、
前記現在の符号化データに対応するパケット損失回復能力は、前記スコア差と逆相関する、
請求項1に記載の音声伝送方法。
【請求項5】
前記現在の符号化データに基づき冗長符号化を実行して、対応する冗長パケットを生成してから、前記現在の符号化データ及び前記冗長パケットを受信側に伝送する前記ステップは、
受信側によってフィードバックされたパケット損失状態情報を取得するステップと、
前記パケット損失状態情報に従って、前記現在の符号化データに対応する冗長率を決定するステップと、
前記冗長率に応じて、前記現在の符号化データに基づいて冗長パケットを生成した後、前記現在の符号化データ及び前記冗長パケットを前記受信側に伝送するステップと、を含む、
請求項1に記載の音声伝送方法。
【請求項6】
前記音声伝送方法は、
前記受信側が前記現在の符号化データを受信した場合、前記現在の符号化データに対して音声復号化を直接に実行して、前記現在の符号化データに対応する音声信号を取得するステップ、及び
前記受信側が前記現在の符号化データを受信せず、前記冗長パケットを受信した場合、前記冗長パケットに基づき前記受信側を介して冗長復号化処理を実行して、前記現在の符号化データを取得してから、前記現在の符号化データに対して音声復号化を実行して、前記現在の符号化データに対応する音声信号を取得するステップ、を更に含む、
請求項1に記載の音声伝送方法。
【請求項7】
前記音声伝送方法は、
前記受信側が前記現在の符号化データ及び前記冗長パケットを受信しなかった場合、前記受信側によって、前記現在の符号化データに対してパケット損失回復処理を実行して、前記現在の符号化データに対応する回復パケットを取得し、前記回復パケットに対して音声復号化を実行して、前記現在の符号化データに対応する音声信号を取得するステップを更に含む、
請求項1に記載の音声伝送方法。
【請求項8】
前記パケット損失回復能力予測モデルは、以下のステップによって決定され、前記ステップは、
訓練集合におけるサンプル音声シーケンスを取得するステップと、
前記サンプル音声シーケンスに対して音声符号化を実行して、サンプル音声符号化ビットストリームを取得するステップと、
前記サンプル音声符号化ビットストリームにおける現在の符号化データによって使用される第1音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データによって使用される第2音声符号化特徴パラメータとを抽出するステップと、
前記サンプル音声符号化ビットストリームを直接に復号化して第1音声信号を取得した後、前記第1音声信号に基づいて決定された第1音声品質スコアを取得するステップと、
前記現在の符号化データに対して、シミュレートされたパケット損失回復処理を実行することにより回復パケットを取得し、前記回復パケットを復号化して第2音声信号を取得した後、前記第2音声信号に基づいて決定された第2音声品質スコアを取得するステップと、
前記第1音声品質スコアと前記第2音声品質スコアとの間のスコア差に従って、前記現在の符号化データに対応する実際のパケット損失回復能力を決定するステップと、
前記第1音声符号化特徴パラメータ及び前記第2音声符号化特徴パラメータを機械学習モデルに入力し、前記機械学習モデルを介して、前記現在の符号化データに対応する予測パケット損失回復能力を出力するステップと、
前記実際のパケット損失回復能力と前記予測パケット損失回復能力との差に従って前記機械学習モデルのモデルパラメータを調整した後、前記訓練集合におけるサンプル音声シーケンスを取得するステップに戻り、訓練終了条件を満たすまで訓練を続行するステップと、を含む、
請求項1ないし7のいずれか一項に記載の音声伝送方法。
【請求項9】
音声伝送システムであって、
送信側と受信側を含み、
前記送信側は、音声符号化ビットストリームにおける現在の符号化データを取得し、機械学習ベースのパケット損失回復能力予測モデルを介して、前記現在の符号化データに対応する第1音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとに従って、前記現在の符号化データに対応するパケット損失回復能力を取得するように構成され、
前記送信側は更に、前記パケット損失回復能力に従って冗長符号化処理を実行する必要があるかどうかを判断し、冗長符号化処理を実行する必要がある場合、前記現在の符号化データに基づき冗長符号化を実行して、対応する冗長パケットを生成してから、前記現在の符号化データ及び前記冗長パケットを受信側に伝送し、冗長符号化処理を実行する必要がない場合、前記現在の符号化データを受信側に直接伝送するように構成され、
前記受信側は、前記現在の符号化データを受信した場合、前記現在の符号化データに対して音声復号化を直接に実行して、前記現在の符号化データに対応する音声信号を取得するように構成され、前記受信側は更に、前記現在の符号化データを受信せず、前記冗長パケットを受信した場合、前記冗長パケットに基づき冗長復号化処理を実行して、前記現在の符号化データを取得してから、前記現在の符号化データに対して音声復号化を実行して、前記現在の符号化データに対応する音声信号を取得するように構成され、
前記受信側は更に、前記現在の符号化データ及び前記冗長パケットを受信しなかった場合、前記現在の符号化データに対してパケット損失回復処理を実行して、前記現在の符号化データに対応する回復パケットを取得し、前記回復パケットに対して音声復号化を実行して、前記現在の符号化データに対応する音声信号を取得するように構成される、前記音声伝送システム。
【請求項10】
前記送信側は更に、元の音声シーケンス内の音声セグメントのそれぞれに対応する音声符号化特徴パラメータを取得し、前記音声符号化特徴パラメータに従って、対応する音声セグメントに対して音声符号化を実行して、対応する符号化データを生成してから、音声符号化ビットストリームを取得し、前記音声符号化プロセスにおいて各符号化データによって使用される音声符号化特徴パラメータをキャッシュするように構成される。
請求項9に記載の音声伝送システム。
【請求項11】
前記送信側は更に、前記現在の符号化データに対応する第1音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとをパケット損失回復能力予測モデルに入力し、前記パケット損失回復能力予測モデルを介して、前記第1音声符号化特徴パラメータ及び前記第2音声符号化特徴パラメータに従って、前記現在の符号化データを直接復号化することで決定された第1音声品質スコアと、前記現在の符号化データに対してパケット損失回復処理を実行してから復号化を実行することで決定された第2音声品質スコアとの間のスコア差を出力し、前記スコア差に従って前記現在の符号化データに対応するパケット損失回復能力を決定するように構成され、ここで、前記現在の符号化データに対応するパケット損失回復能力は、前記スコア差と逆相関する、
請求項9に記載の音声伝送システム。
【請求項12】
前記送信側は更に、受信側によってフィードバックされたパケット損失状態情報を取得し、前記パケット損失状態情報に従って前記現在の符号化データに対応する冗長率を決定し、前記冗長率に応じて、前記現在の符号化データに基づいて冗長パケットを生成した後、前記現在の符号化データ及び前記冗長パケットを前記受信側に伝送するように構成される、
請求項9に記載の音声伝送システム。
【請求項13】
音声伝送装置であって、
音声符号化ビットストリームにおける現在の符号化データを取得するように構成される取得モジュールと、
機械学習ベースのパケット損失回復能力予測モデルを介して、前記現在の符号化データに対応する第1音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとに従って、前記現在の符号化データに対応するパケット損失回復能力を取得するように構成される、予測モジュールと、
前記パケット損失回復能力に従って冗長符号化処理を実行する必要があるかどうかを判断し、冗長符号化処理を実行する必要がある場合、前記現在の符号化データに基づき冗長符号化を実行して、対応する冗長パケットを生成してから、前記現在の符号化データ及び前記冗長パケットを受信側に伝送し、冗長符号化処理を実行する必要がない場合、前記現在の符号化データを受信側に直接伝送するように構成される、冗長符号化判断モジュールと、を備える、前記音声伝送装置。
【請求項14】
前記音声伝送装置は更に、
元の音声信号を取得し、元の音声信号を分割して、元の音声シーケンスを取得し、前記元の音声シーケンス内の音声セグメントに対して音声符号化を順次実行して、音声符号化ビットストリームを取得するように構成される、音声符号化モジュールを備える、
請求項13に記載の音声伝送装置。
【請求項15】
前記音声伝送装置は更に、音声符号化モジュール及びキャッシュモジュールを備え、
前記音声符号化モジュールは、元の音声シーケンス内の音声セグメントのそれぞれに対応する音声符号化特徴パラメータを取得し、前記音声符号化特徴パラメータに従って、対応する音声セグメントに対して音声符号化を実行して、対応する符号化データを生成してから、音声符号化ビットストリームを取得するように構成され、
前記キャッシュモジュールは、音声符号化プロセスにおいて各符号化データによって使用される音声符号化特徴パラメータをキャッシュするように構成される、
請求項13に記載の音声伝送装置。
【請求項16】
前記予測モジュールは更に、前記現在の符号化データに対応する第1音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとをパケット損失回復能力予測モデルに入力し、前記パケット損失回復能力予測モデルを介して、前記第1音声符号化特徴パラメータ及び前記第2音声符号化特徴パラメータに従って、前記現在の符号化データを直接復号化することで決定された第1音声品質スコアと、前記現在の符号化データに対してパケット損失回復処理を実行してから復号化を実行することで決定された第2音声品質スコアとの間のスコア差を出力し、前記スコア差に従って前記現在の符号化データに対応するパケット損失回復能力を決定するように構成され、ここで、前記現在の符号化データに対応するパケット損失回復能力は、前記スコア差と逆相関する、
請求項13に記載の音声伝送装置。
【請求項17】
前記冗長符号化判断モジュールは更に、前記受信側が前記現在の符号化データを受信した場合、前記現在の符号化データに対して音声復号化を直接に実行して、前記現在の符号化データに対応する音声信号を取得し、前記受信側が前記現在の符号化データを受信せず、前記冗長パケットを受信した場合、前記冗長パケットに基づき前記受信側を介して冗長復号化処理を実行して、前記現在の符号化データを取得してから、前記現在の符号化データに対して音声復号化を実行して、前記現在の符号化データに対応する音声信号を取得するように構成される、
請求項13に記載の音声伝送装置。
【請求項18】
前記冗長符号化判断モジュールは更に、前記受信側が前記現在の符号化データ及び前記冗長パケットを受信しなかった場合、前記受信側によって、前記現在の符号化データに対してパケット損失回復処理を実行して、前記現在の符号化データに対応する回復パケットを取得し、前記回復パケットに対して音声復号化を実行して、前記現在の符号化データに対応する音声信号を取得するように構成される、
請求項13ないし17のいずれか一項に記載の音声伝送装置。
【請求項19】
コンピュータ可読命令が記憶されている1つ又は複数の不揮発性コンピュータ可読記憶媒体であって、
前記コンピュータ可読命令が1つ又は複数のプロセッサによって実行されるときに、1つ又は複数のプロセッサに、請求項1ないし8のいずれか一項に記載の方法を実行させる、前記不揮発性コンピュータ可読記憶媒体。
【請求項20】
コンピュータ機器であって、
メモリと、1つ又は複数のプロセッサとを備え、前記メモリには、コンピュータ可読命令が記憶されており、前記コンピュータ可読命令が前記1つ又は複数のプロセッサによって実行されるときに、前記1つ又は複数のプロセッサに、請求項1ないし8のいずれか一項に記載の方法を実行させる、前記コンピュータ機器。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願への相互参照]
本願は、2020年02月20日に中国特許庁に提出された、出願番号が202010104793.7であり、発明の名称が「音声伝送方法及びそのシステム、装置、コンピュータ可読記憶媒体、並びにコンピュータ機器」である中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照により本願に援用される。
【0002】
[技術分野]
本願は、コンピュータ技術分野、特に、音声伝送方法及びそのシステム、装置、コンピュータ可読記憶媒体、並びにコンピュータ機器に関するものである。
【背景技術】
【0003】
インターネットは、信頼性の低い伝送ネットワークであり、インターネットベースの音声伝送の主な問題は、パケット損失を防止することであり、伝送ネットワークが不安定なため、伝送中にパケット損失が発生する。ネットワークパケット損失を防止するために、通常、前方誤り訂正(Forward Error Correction、FECと略称)冗長符号化というチャネル符号化アルゴリズムを採用して、冗長パケットを生成し、データパケットとともに冗長パケットを受信側に送信し、受信側は、それらを受信した後、冗長パケット及び元のパケットを使用して、失われたデータパケットを回復し、それによって、パケット損失を防止するという効果をもたらす。
【0004】
しかしながら、伝送ネットワークのパケット損失を防止するために冗長パケットの生成に依存するFEC冗長符号化は、必然的に、帯域幅の複数倍の増加及びネットワーク帯域幅リソースの過剰消費をもたらし、パケット損失防止能力が強いほどネットワーク帯域幅の消費が多くなり、特に、帯域幅に制限のあるシナリオでは、ネットワークの輻輳や他の問題が発生しやすくなるため、パケット損失が多くなる。
【発明の概要】
【課題を解決するための手段】
【0005】
音声伝送方法であって、
音声符号化ビットストリームにおける現在の符号化データを取得するステップと、
機械学習ベースのパケット損失回復能力予測モデルを介して、前記現在の符号化データに対応する第1音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとに従って、前記現在の符号化データに対応するパケット損失回復能力を取得するステップと、
前記パケット損失回復能力に従って冗長符号化処理を実行する必要があるかどうかを判断するステップと、
冗長符号化処理を実行する必要がある場合、前記現在の符号化データに基づき冗長符号化を実行して、対応する冗長パケットを生成してから、前記現在の符号化データ及び前記冗長パケットを受信側に伝送するステップと、
冗長符号化処理を実行する必要がない場合、前記現在の符号化データを受信側に直接伝送するステップと、を含む。
【0006】
音声伝送システムであって、送信側と受信側とを備え、
前記送信側は、音声符号化ビットストリームにおける現在の符号化データを取得し、機械学習ベースのパケット損失回復能力予測モデルを介して、前記現在の符号化データに対応する第1音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとに従って、前記現在の符号化データに対応するパケット損失回復能力を取得するように構成され、
前記送信側は更に、前記パケット損失回復能力に従って冗長符号化処理を実行する必要があるかどうかを判断し、冗長符号化処理を実行する必要がある場合、前記現在の符号化データに基づき冗長符号化を実行して、対応する冗長パケットを生成してから、前記現在の符号化データ及び前記冗長パケットを受信側に伝送し、冗長符号化処理を実行する必要がない場合、前記現在の符号化データを受信側に直接伝送するように構成され、
前記受信側は、前記現在の符号化データを受信した場合、前記現在の符号化データに対して音声復号化を直接に実行して、前記現在の符号化データに対応する音声信号を取得するように構成され、前記受信側は更に、前記現在の符号化データを受信せず、前記冗長パケットを受信した場合、前記冗長パケットに基づき冗長復号化処理を実行して、前記現在の符号化データを取得してから、前記現在の符号化データに対して音声復号化を実行して、前記現在の符号化データに対応する音声信号を取得するように構成され、
前記受信側は更に、前記現在の符号化データ及び前記冗長パケットを受信しなかった場合、前記現在の符号化データに対してパケット損失回復処理を実行して、前記現在の符号化データに対応する回復パケットを取得し、前記回復パケットに対して音声復号化を実行して、前記現在の符号化データに対応する音声信号を取得するように構成される。
【0007】
音声伝送装置であって、
音声符号化ビットストリームにおける現在の符号化データを取得するように構成される取得モジュールと、
機械学習ベースのパケット損失回復能力予測モデルを介して、前記現在の符号化データに対応する第1音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとに従って、前記現在の符号化データに対応するパケット損失回復能力を取得するように構成される、予測モジュールと、
前記パケット損失回復能力に従って冗長符号化処理を実行する必要があるかどうかを判断し、冗長符号化処理を実行する必要がある場合、前記現在の符号化データに基づき冗長符号化を実行して、対応する冗長パケットを生成してから、前記現在の符号化データ及び前記冗長パケットを受信側に伝送し、冗長符号化処理を実行する必要がない場合、前記現在の符号化データを受信側に直接伝送するように構成される、冗長符号化判断モジュールと、を備える。
【0008】
コンピュータ可読命令が記憶された1つ又は複数の不揮発性コンピュータ可読記憶媒体であって、前記コンピュータ可読命令が1つ又は複数のプロセッサによって実行されるときに、1つ又は複数のプロセッサに、上記の音声伝送方法を実行させる。
【0009】
コンピュータ機器であって、メモリと、1つ又は複数のプロセッサとを備え、前記メモリには、コンピュータ可読命令が記憶されており、前記コンピュータ可読命令が前記1つ又は複数のプロセッサによって実行されるときに、前記1つ又は複数のプロセッサに、上記の音声伝送方法を実行させる。
【図面の簡単な説明】
【0010】
本願実施例の技術的解決策をより明確に説明するために、以下は、実施例の説明で使用される図面について簡単に紹介する。明らかに、以下に説明される図面は、本願のいくつかの実施例に過ぎず、当業者は、創造的な努力なしに、これらの図面に従って他の図面を得ることができる。
【0011】
図1】1つの実施例における音声伝送方法の適用環境図である。
図2】別の実施例における音声伝送方法の適用環境図である。
図3】1つの実施例における音声伝送方法の例示的なフローチャートである。
図4】1つの実施例における、FEC冗長符号化メカニズムを採用して音声伝送を実行することを示す例示的なブロック図である。
図5】1つの実施例における、パケット損失回復能力予測モデルの訓練ステップの例示的なフローチャートである。
図6】1つの実施例における、パケット損失回復能力予測モデルを訓練することを示すブロック図である。
図7】1つの実施例における音声伝送方法のプロセスを示すブロック図である。
図8】1つの特定の実施例における、音声伝送方法の例示的なフローチャートである。
図9】1つの実施例における音声伝送装置の構造ブロック図である。
図10】1つの実施例におけるコンピュータ機器の構造ブロック図である。
【発明を実施するための形態】
【0012】
本願の目的、技術的解決策および利点をより明確かつ理解しやすくするために、以下、図面及び実施例を参照して、本願をさらに詳細に説明する。本明細書に記載の特定の実施例は、本願を説明するためのものに過ぎず、本願を限定するものではないことを理解されたい。
【0013】
図1は、1つの実施例における音声伝送方法の適用環境図である。図1を参照すると、当該音声伝送方法は、音声伝送システムによって実行される。当該音声伝送システムは、送信側110と受信側120を含む。送信側110と受信側120は、ネットワークを介して接続されている。送信側110と受信側120は両方とも端末であり得、端末は、具体的には、デスクトップ端末又はモバイル端末であり得、モバイル端末は、具体的には、携帯電話、タブレットコンピュータ、ラップトップコンピュータのうちの少なくとも1つであり得る。別のいくつかの実施例において、送信側110と受信側120は、サーバ又はサーバクラスタであり得る。
【0014】
図2に示されるように、1つの特定の適用シナリオにおいて、送信側110と受信側120の両方には、音声伝送機能をサポートするアプリケーションが実行されており、サーバ130は、当該アプリケーションに計算能力及び記憶能力を提供でき、送信側110と受信側120は両方とも、ネットワークを介してサーバ130に接続され、それによって、当該サーバ130に基づいて両側間の音声伝送を実現することができる。サーバ130は、独立したサーバ又は複数のサーバで構成されたサーバクラスタとして実現されてもよい。
【0015】
1つの実施例において、送信側110は、音声符号化ビットストリームにおける現在の符号化データを取得し、機械学習ベースのパケット損失回復能力予測モデルを介して、現在の符号化データに対応する第1音声符号化特徴パラメータと、現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとに従って、現在の符号化データに対応するパケット損失回復能力を取得し、パケット損失回復能力に従って、冗長符号化処理を実行する必要があるかどうかを判断し、冗長符号化処理を実行する必要がある場合、現在の符号化データに従って冗長符号化を実行して、対応する冗長パケットを生成した後、現在の符号化データ及び冗長パケットを受信側120に伝送し、冗長符号化処理を実行する必要がない場合、現在の符号化データを受信側120に直接伝送することができる。これによって、ネットワーク帯域幅の全体的な利用率を効果的に向上させることができ、同時に、伝送ネットワークのパケット損失防止能力を確保することもできる。
【0016】
図3に示されるように、1つの実施例では、音声伝送方法を提供する。この実施例は、主に、当該方法が上記の図1又は図2の送信側110に適用されることを例として説明する。図3を参照すると、当該音声伝送方法は、具体的には、ステップS302~ステップS308を含み得る。
【0017】
ステップS302において、音声符号化ビットストリームにおける現在の符号化データを取得する。
【0018】
音声符号化ビットストリームは、音声信号に対して音声符号化を実行することで得られた元のビットストリームであり、音声符号化ビットストリームは、1つのグループの伝送対象となる符号化データを含む。符号化データは、送信側の音声エンコーダが、特定のフレーム長に従って音声信号を符号化することで得られた符号化データフレームであってもよく、送信側は、ネットワークを介して、音声符号化ビットストリームにおける符号化データフレームを受信側に伝送することができる。あるいは、符号化データは、複数の符号化データフレームを合成することで得られた1つの符号化データパケットであってもよく、送信側は、ネットワークを介して、音声符号化ビットストリームにおける符号化データパケットを受信側に伝送することができる。例えば、送信側のエンコーダは60msの音声信号を取得し、該音声信号を15msのフレーム長の4つのフレームに分割し、それらを順次に符号化して、4つの符号化データフレームを取得し、送信側は、符号化データフレームを受信側に順次に伝送してもよいし、これらの4つの符号化データフレームを1つの符号化データパケットに合成してから、ネットワークを介して受信側に伝送してもよい。
【0019】
通常、図4に示されるように、伝送ネットワークのパケット損失を防止するために、送信側は、音声符号化ビットストリームを受信側に伝送する前に、FEC冗長符号化を採用して音声符号化ビットストリームにおける各符号化データを受信側に直接送信し、受信側は、ネットワークを介して、各符号化データ及び対応する冗長パケットを受信し、冗長パケットに従って冗長復号化を実行して、失われた符号化データを取得してから、復号化を実行して音声信号を取得する。例えば、伝送対象となる音声符号化ビットストリームは、P1、P2、P3、P4及びP5の5つの符号化データを含み、受信側は、これらの5つの符号化データに基づき冗長符号化を実行して冗長パケットを生成することができ、冗長パケットの数は、1つであってもよいし、複数であってもよく、ここで、2つの冗長パケットR1及びR2が生成されたと仮定すると、P1、P2、P3、P4、P5は、R1、R2とともにパッケージ化されてから、受信側に送信される。
【0020】
これに対して、本願による実施例では、送信側が元の音声情報を符号化して音声符号化ビットストリームを取得した後、音声符号化ビットストリームにおける各符号化データを受信側に送信する前に、送信側は、音声符号化ビットストリームにおける各符号化データに対する受信側のパケット損失回復能力を順次に予測することができる、したがって、送信側は、音声符号化ビットストリームにおける符号化データを順次に取得することができ、現在の符号化データは、現在受信側に伝送される符号化データである。
【0021】
理解できることとして、本願で使用される現在の符号化データは、送信側によって現在処理されている符号化データを記述するために使用され、前の符号化データは、音声符号化ビットストリーム内の、現在の符号化データの前に符号化されたデータを記述するために使用され、前の符号化データは、現在の符号化データの前の1つの符号化データであってもよいし、現在の符号化データの前の複数の符号化データであってもよく、例えば、現在の符号化データの前の2つの符号化データであってもよい。さらに、現在の符号化データは、相対的に変化する対象であり、例えば、送信側が現在の符号化データF(i)を処理した後、音声符号化ビットストリーム内の当該現在の符号化データF(i)の次の符号化データF(i+1)を新しい現在の符号化データとして使用でき、現在の符号化データF(i)を、新しい現在の符号化データF(i+1)の前の符号化データとして使用することができる。
【0022】
1つの実施例において、上記の音声伝送方法は、元の音声信号を取得するステップと、元の音声信号を分割して、元の音声シーケンスを取得するステップと、元の音声シーケンス内の音声セグメントに対して音声符号化を順次実行して、音声符号化ビットストリームを取得するステップと、を更に含む。
【0023】
例えば、送信側によって取得された元の音声信号は、2秒の音声セグメントであり、20ミリ秒の単位でこの音声信号セグメントを分割して、100個の音声セグメントを含む元の音声シーケンスを取得し、その後、当該元の音声シーケンス内の各音声セグメントに対して音声符号化を順次実行して、各音声セグメントに対応する符号化データを取得し、それによって、元の音声信号に対応する音声符号化ビットストリームを生成する。
【0024】
1つの実施例において、上記の音声伝送方法は、元の音声シーケンス内の音声セグメントのそれぞれに対応する音声符号化特徴パラメータを取得するステップと、音声符号化特徴パラメータに従って、対応する音声セグメントに対して音声符号化を実行して、対応する符号化データを生成してから、音声符号化ビットストリームを取得するステップと、音声符号化プロセスにおいて各符号化データによって使用される音声符号化特徴パラメータをキャッシュするステップと、を更に含む。
【0025】
具体的には、音声符号化プロセスにおいて、送信側は、元の音声シーケンス内の音声セグメントの音声符号化特徴パラメータを抽出し、抽出された音声符号化特徴パラメータを符号化して、各音声セグメントに対応する符号化データを生成する。例えば、送信側のエンコーダは、いくつかの音声信号処理モデル(例えば、フィルタ、特徴抽出器など)を介して、音声セグメントの音声符号化特徴パラメータを抽出し、これらの音声符号化特徴パラメータを符号化(例えば、エントロピー符号化など)してから、これらの符号化されたパラメータを特定のデータ形式でパッケージ化して、対応する符号化データを取得する。留意されたいこととして、送信側は、現在の音声セグメントの音声符号化特徴パラメータと、前の音声セグメントの音声符号化特徴パラメータとに従って、現在の音声セグメントに対応する現在の符号化データを共同で生成してもよいし、現在の音声セグメントの音声符号化特徴パラメータと、後続の音声セグメントの音声符号化特徴パラメータとに従って、現在の音声セグメントに対応する現在の符号化データを共同で生成してもよい。音声符号化特徴パラメータは、音声セグメントに従って信号処理を実行することによって抽出されたラインスペクトル周波数(Line spectrum Frequency、LSFと略称)、基音周期(Pitch Detection)、適応コードブックゲイン(adaptive gain)及び固定コードブックゲインなどのパラメータであってもよい。
【0026】
さらに、送信側は、各音声セグメントに対応する符号化データを生成するとき、符号化プロセスにおける各音声セグメントの音声符号化特徴パラメータ(すなわち、各符号化データを生成するときに使用される音声符号化特徴パラメータ)をキャッシュし、該音声符号化特徴パラメータは、キャッシュされた音声符号化特徴パラメータに基づいて各符号化データに対応するパケット損失回復能力を予測するために使用される。
【0027】
ステップS304において、機械学習ベースのパケット損失回復能力予測モデルを介して、現在の符号化データに対応する第1音声符号化特徴パラメータと、現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとに従って、現在の符号化データに対応するパケット損失回復能力を取得する。
【0028】
パケット損失回復能力は、現在の符号化データが失われた後、受信側によって現在の符号化データに対してパケット損失回復処理を実行することで得られる回復パケットの音声品質状況を反映できる予測結果である。予測結果は、受信側が、失われた現在の符号化データをうまく回復できるかできないかを指示する。パケット損失回復処理は、パケット損失隠蔽(Packet Loss Concealment、PLCと略称)であり、パケット損失回復能力は、PLCのパケット損失回復能力である。
【0029】
符号化データの音声符号化特徴パラメータの数値に突然の変化がある場合、受信側のパケット損失回復能力は制限され、例えば、隣接又は近接する符号化データにピッチホッピングやLSF突然変化などがある場合、受信側のパケット損失回復能力は制限される。この場合、送信側は、FEC冗長符号化を有効にすると、パケット損失率が効果的に向上し、それによって、受信側での音声品質が保証される。隣接する符号化データの音声符号化特徴パラメータの数値が比較的滑らかに変動する場合、受信側は、通常、優れたパケット損失回復能力を備え、この場合、送信側は、FEC冗長符号化を有効にしなくてもよい。ここから分かるように、現在の符号化データに対応するパケット損失回復能力は、それに対応する音声符号化特徴パラメータに関連している。機械学習モデルは、大量の訓練サンプルで訓練することにより、音声符号化特徴パラメータに従って、データパケットに対応するパケット損失回復能力を予測する方法を学習することができる。
【0030】
具体的には、送信側は、現在の符号化データに対応するキャッシュされた第1音声符号化特徴パラメータ、及び前の符号化データに対応するキャッシュされた第2音声符号化特徴パラメータを取得し、事先に訓練されたパケット損失回復能力予測モデルを介して、第1音声符号化特徴パラメータ及び第2音声符号化特徴パラメータに基づき、現在の符号化データに対応するパケット損失回復能力を予測することができる。
【0031】
別のいくつかの実施例において、送信側は、パケット損失回復能力予測モデルを介して、現在の符号化データに対応する第1音声符号化特徴パラメータ及び現在の符号化データの後の符号化データに対応する第3音声符号化特徴パラメータに従って、現在の符号化データに対応するパケット損失回復能力を取得することができる。あるいは、第2音声符号化特徴パラメータ及び/又は第3音声符号化特徴パラメータに従って、現在の符号化データに対応するパケット損失回復能力を取得することができる。後の符号化データは、音声符号化ビットストリームにおいて現在の符号化データの後に符号化されたデータを記述するために使用され、後の符号化データは、現在の符号化データの後の1つの符号化データであってもよいし、現在の符号化データの後の複数の符号化データであってもよく、例えば、現在の符号化データの後の2つの符号化データであってもよい。
【0032】
理解できることとして、送信側がどの符号化データに対応する音声符号化特徴パラメータをパケット損失回復能力予測モデルの入力として使用されるかは、音声符号化中に送信側によって使用されるアルゴリズムルール又は音声復号化中に受信側によって使用されるアルゴリズムルールに依存し、符号化ルールと復号化ルールは互に対応する。例えば、送信側が、直前の符号化データに対応する音声符号化特徴パラメータに従って現在の符号化データを生成する必要がある場合、現在の符号化データに対応するパケット損失回復能力を予測するときに、直前の符号化データによって使用される音声符号化特徴パラメータをパケット損失回復能力予測モデルの入力として使用する必要がある。送信側が、直後の符号化データに対応する音声符号化特徴パラメータに従って現在の符号化データを生成する必要がある場合、現在の符号化データに対応するパケット損失回復能力を予測するときに、直後の符号化データによって使用される音声符号化特徴パラメータをパケット損失回復能力予測モデルの入力として使用する必要がある。
【0033】
パケット損失回復能力予測モデルは、機械学習ベースのコンピュータモデルであり、ニューラルネットワークモデルを採用して実装することができる。機械学習モデルは、サンプルを通じて学習することにより、特定の能力を備えることができる。この実施例では、パケット損失回復能力予測モデルは、事先に訓練された、予測パケット損失回復能力を備えたモデルである。
【0034】
1つの実施例において、送信側は、機械学習モデルのモデル構造を事前に設定して、初期機械学習モデルを取得し、次に、大量のサンプル音声及びパケット損失シミュレーションテストを使用して、当該初期機械学習モデルを訓練することにより、機械学習モデルのモデルパラメータを取得することができる。したがって、ネットワークを介して音声を伝送する必要がある場合、送信側は、事前に訓練されたモデルパラメータを取得し、当該モデルパラメータを初期機械学習モデルに導入して、パケット損失回復能力予測モデルを取得し、パケット損失回復能力予測モデルを介して、音声符号化ビットストリームの各符号化データに対応するパケット損失回復能力を予測し、予測されたパケット損失回復能力に従って現在の符号化データがFEC冗長符号化を有効にするかどうかを決定することができる。
【0035】
図5は、1つの実施例における、パケット損失回復能力予測モデルの訓練ステップの例示的なフローチャートである。留意されたいこととして、任意のコンピュータ機器によって当該訓練ステップを実行して、訓練済みのパケット損失回復能力予測モデルを取得した後、訓練済みのパケット損失回復能力予測モデルを、音声伝送を実行する必要がある送信側に導入することができる。当該コンピュータ機器は、図1又は図2の送信側であってもよく、つまり、送信側によって当該訓練ステップを直接実行して、訓練済みのパケット損失回復能力予測モデルを取得することができる。以下では、コンピュータ機器が実行主体であることを例として、パケット損失回復能力予測モデルの訓練ステップを説明し、具体的には、次のステップを含む。
【0036】
ステップS502において、訓練集合におけるサンプル音声シーケンスを取得する。
【0037】
具体的には、コンピュータ機器は、大量の音声信号を取得し、音声信号を分割して、音声セグメントを含む大量の音声信号シーケンスを、機械学習モデルを訓練するためのサンプル音声シーケンスとして取得することができる。
【0038】
ステップS504において、サンプル音声シーケンスに対して音声符号化を実行して、サンプル音声符号化ビットストリームを取得する。
【0039】
具体的には、各サンプル音声シーケンスについて、コンピュータ機器は、各音声セグメントに対応する音声符号化特徴パラメータを抽出し、抽出された音声符号化特徴パラメータに従って、各音声セグメントに対応する符号化データを生成し、各サンプル音声シーケンスに対応するサンプル音声符号化ビットストリームを取得する。コンピュータ機器は、符号化中に各符号化データによって使用される音声符号化特徴パラメータをキャッシュすることができる。
【0040】
ステップS506において、サンプル音声符号化ビットストリームにおける現在の符号化データによって使用される第1音声符号化特徴パラメータと、現在の符号化データの前の符号化データによって使用される第2音声符号化特徴パラメータとを抽出する。
【0041】
上記のように、符号化データに対応するパケット損失回復能力は、それに対応する音声符号化特徴パラメータに関連し、また、前の符号化データ及び/又は後の符号化データに対応する音声符号化特徴パラメータに関連する可能性があるため、訓練中、コンピュータ機器は、音声符号化特徴パラメータを機械学習モデルの入力として使用して訓練することができる。この実施例では、送信側は、現在処理されている現在の符号化データに対応する第1音声符号化特徴パラメータと、現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとを、機械学習モデルの入力として抽出することができる。上記のように、前の符号化データは、現在の符号化データの前の1つの符号化データであってもよいし、現在の符号化データの前の複数の符号化データであってもよい。
【0042】
留意されたいこととして、毎回の訓練対象は、1つの符号化データであり、各サンプル音声符号化ビットストリームは複数の符号化データを含むため、各サンプル音声符号化ビットストリームは、複数回の訓練に使用できる。例えば、訓練中、送信側は、サンプル音声符号化ビットストリームSにおけるi番目の符号化データに対応する音声符号化特徴パラメータと、i-1番目の符号化データに対応する音声符号化特徴パラメータとを抽出してもよいし、サンプル音声符号化ビットストリームSにおけるi+1番目の符号化データに対応する音声符号化特徴パラメータと、i番目の符号化データに対応する音声符号化特徴パラメータとを抽出してもよい。
【0043】
ステップS508において、サンプル音声符号化ビットストリームを直接に復号化して第1音声信号を取得した後、第1音声信号に基づいて決定された第1音声品質スコアを取得する。
【0044】
現在の訓練プロセスにおける機械学習モデルの目標出力を取得するためには、送信側は、ステップS508~ステップS512を実行する必要がある。コンピュータ機器は、符号化によって取得されたサンプル音声符号化ビットストリームを直接に復号化して第1音声信号を取得した後、音声品質テストツールを使用して、当該第1音声信号に対応する第1音声品質スコアをテストすることができる。第1音声信号は、サンプル音声符号化ビットストリームを直接復号化することで得られたものであるため、符号化データの損失がなく、したがって、取得された第1音声信号は、元のサンプル音声シーケンスに非常に近く、無損失音声信号と呼ばれてもよく、対応する第1音声品質スコアは、無損失音声品質スコアと呼ばれてもよい。
【0045】
1つの実施例において、音声品質テストツールは、PESQ(Perceptual evaluation of speech quality)であってもよく、PESQは、いくつかの測定基準に従って音声信号の品質を客観的に評価することができ、これにより、完全に量子化可能な音声品質測定方法を提供し、これらの測定基準と、音声品質に対する人間の知覚との一致度が高い。取得された第1音声品質スコアは、MOS_UNLOSSとして示され得る。
【0046】
ステップS510において、現在の符号化データに対して、シミュレートされたパケット損失回復処理を実行することにより回復パケットを取得し、回復パケットを復号化して第2音声信号を取得した後、第2音声信号に基づいて決定された第2音声品質スコアを取得する。
【0047】
続いて、コンピュータ機器は、現在の符号化データを失われたデータパケットとして使用し、受信側のデコーダをシミュレートして、現在の符号化データに対してパケット損失回復処理を実行して、対応する回復パケットを取得し、回復パケットを復号化した後、対応する第2音声信号を取得し、元のサンプル音声シーケンスにおける他の音声セグメントを当該第2音声信号と繋ぎ合わせてから、音声品質評点を実行することにより、第2音声品質スコアを取得する。第2音声信号は、シミュレートされたパケット損失の場合に取得された回復パケットを復号化することで得られたものであるため、回復パケットと失われた現在の符号化データとの間には損失があり、したがって、取得された第2音声信号と現在の符号化データに対応する音声セグメントとの間にも損失がある。よって、第2音声信号は、有損失音声信号と呼ばれることができ、決定された第2音声品質スコアは、有損失音声品質スコアと呼ばれることができ、該第2音声品質スコアは、MOS_LOSSとして示される。
【0048】
ステップS512において、第1音声品質スコアと第2音声品質スコアとの間のスコア差に従って、現在の符号化データに対応する実際のパケット損失回復能力を決定する。
【0049】
具体的には、現在の符号化データに対応する実際のパケット損失回復能力は、第1音声品質スコアと第2音声品質スコアとの間のスコア差を使用することによって測定され得、つまり、MOS_UNLOSS-MOS_LOSSを、現在の符号化データに対応する実際のパケット損失回復能力(すなわち、機械学習モデルの目標出力)として使用することができる。現在の符号化データに対応する実際のパケット損失回復能力は、当該スコア差と逆相関し、つまり、差が小さいほど、現在の符号化データパケット損失をシミュレートした後にパケット損失回復を実行することで得られた回復パケットの音声品質が高くなり、現在の符号化データに対応する実際のパケット損失回復能力が強くなることを表し、逆に、差が大きいほど、現在の符号化データパケット損失をシミュレートした後にパケット損失回復を実行することで得られた回復パケットの音声品質が低くなることを表す。
【0050】
ステップS514において、第1音声符号化特徴パラメータ及び第2音声符号化特徴パラメータを機械学習モデルに入力し、機械学習モデルを介して、現在の符号化データに対応する予測パケット損失回復能力を出力する。
【0051】
今回の訓練プロセスの目標出力を取得した後、コンピュータ機器は、取得された第1音声符号化特徴パラメータ及び第2音声符号化特徴パラメータを機械学習モデルに入力し、内部ネットワークの処理により、現在の符号化データに対応する予測パケット損失回復能力を出力することができる。留意されたいこととして、ステップS508の前にステップS514を実行することができ、この実施例では、当該ステップの実行順序に対して特に限定しない。
【0052】
ステップS516において、実際のパケット損失回復能力と予測パケット損失回復能力との差に従って機械学習モデルのモデルパラメータを調整した後、訓練集合におけるサンプル音声シーケンスを取得するステップに戻り、訓練終了条件を満たすまで訓練を続行する。
【0053】
具体的には、コンピュータ機器は、取得された実際のパケット損失回復能力と、機械学習モデルによって取得された予測パケット損失回復能力とに従って、損失関数を構築することができ、当該損失関数が最小化されたときに取得されたモデルパラメータを、機械学習モデルの最新のモデルパラメータとして使用し、サンプル音声シーケンスに従って次回の訓練を実行し、機械学習モデルが収束されるか、訓練回数が事前設定された回数に達すると、訓練済みのパケット損失回復予測能力を備えたパケット損失回復能力予測モデルを取得する。
【0054】
図6は、1つの実施例における、機械学習モデルを訓練してパケット損失回復能力予測モデルを取得することを示すフレームワークの概略図である。図6は、単一の訓練プロセスの例示的なフローチャートである。コンピュータ機器は、サンプル音声シーケンスを取得し、サンプル音声シーケンスに対して音声符号化を実行してサンプル音声符号化ビットストリームを取得する。まず、現在の符号化データにパケット損失がない場合にサンプル音声符号化ビットストリームを直接復号化した後、PESQによりMOS_UNLOSSを取得し、次に、現在の符号化データにパケット損失が発生した場合に、パケット損失回復処理をシミュレートして実行してから復号化した後、PESQによりMOS_LOSSを取得する。現在の符号化データの音声符号化特徴パラメータと、現在の符号化データの前の符号化データの音声符号化特徴パラメータを機械学習モデルの入力として使用して、予測パケット損失回復能力を取得し、MOS_UNLOSS-MOS_LOSSを機械学習モデルの目標出力(すなわち、実際のパケット損失回復能力)として使用し、予測パケット損失回復能力及び実際のパケット損失回復能力に従って、機械学習モデルのモデルパラメータを調整することで、今回の訓練プロセスを完了する。
【0055】
1つの実施例において、機械学習ベースのパケット損失回復能力予測モデルを介して、現在の符号化データに対応する第1音声符号化特徴パラメータと、現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとに従って、現在の符号化データに対応するパケット損失回復能力を取得する前記ステップ(ステップS304)は、現在の符号化データに対応する第1音声符号化特徴パラメータと、現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとをパケット損失回復能力予測モデルに入力するステップと、パケット損失回復能力予測モデルを介して、第1音声符号化特徴パラメータ及び第2音声符号化特徴パラメータに従って、現在の符号化データを直接復号化することで決定された第1音声品質スコアと、現在の符号化データに対してパケット損失回復処理を実行してから復号化を実行することで決定された第2音声品質スコアとの間のスコア差を出力するステップと、スコア差に従って現在の符号化データに対応するパケット損失回復能力を決定するステップと、を含み、ここで、現在の符号化データに対応するパケット損失回復能力は、スコア差と逆相関する。
【0056】
この実施例では、送信側が音声符号化ビットストリームにおける現在の符号化データを受信側に送信する前に、事先に訓練されたパケット損失回復能力予測モデルを介して、現在の符号化データに対応するパケット損失回復能力を予測することができる。具体的には、現在の符号化データに対応する第1音声符号化特徴パラメータと、前の符号化データに対応する第2音声符号化特徴パラメータとをパケット損失回復能力予測モデルの入力として使用し、パケット損失回復能力予測モデルの出力は、現在の符号化データを直接復号化することで決定された第1音声品質スコアと、現在の符号化データに対してパケット損失回復処理を実行してから復号化を実行することで決定された第2音声品質スコアとの間のスコア差である。当該スコア差は、現在の符号化データのパケット損失後に受信側によって実行されたパケット損失回復処理の品質状況(すなわち、パケット損失回復能力の大きさ)を反映し、パケット損失回復能力は、スコア差と逆相関する。当該スコア差が比較的に大きい場合、つまり、パケット損失回復能力が予め設定された閾値より小さい場合、現在の符号化データが失われた後、受信側によってパケット損失回復処理を実行することで得られた音声信号品質が低いことを示し、逆に、当該スコア差が比較的に小さい場合、つまり、パケット損失回復能力が予め設定された閾値より大きい場合、現在の符号化データが失われた後、受信側によってパケット損失回復処理を実行することで得られた音声信号品質が許容範囲内にあることを示す。
【0057】
ステップS306において、パケット損失回復能力に従って、冗長符号化処理を実行する必要があるかどうかを判断し、冗長符号化処理を実行する必要がある場合、ステップS308を実行して、冗長符号化処理を実行する必要がない場合、ステップS310を実行し、ここで、ステップS308において、現在の符号化データに基づき冗長符号化を実行して、対応する冗長パケットを生成した後、現在の符号化データ及び冗長パケットを受信側に伝送し、ステップS310において、現在の符号化データを受信側に直接伝送する。
【0058】
具体的には、送信側は、パケット損失回復能力予測モデルを介して現在の符号化データに対応するパケット損失回復能力を取得した後、予測されたパケット損失回復能力に従って、現在の符号化データをFEC冗長符号化に導入する必要があるかどうかを判断する。
【0059】
1つの実施例において、パケット損失回復能力予測モデルを介して出力されたパケット損失回復能力は、数値範囲内にある数値であり、送信側は、パケット損失回復能力と予め設定された閾値を比較し、比較結果に従って、現在の符号化データに対して冗長符号化処理を実行する必要があるかどうかを判断することができる。
【0060】
具体的には、パケット損失回復能力が予め設定された閾値より小さい場合、現在の符号化データに従って冗長符号化を実行して、対応する冗長パケットを生成した後、現在の符号化データ及び冗長パケットを受信側に伝送する。パケット損失回復能力が予め設定された閾値より小さいことは、現在の符号化データが失われた後、受信側によってパケット損失回復処理を実行することで得られた音声信号品質が低いことを示し、したがって、FEC冗長符号化を使用して伝送ネットワークのパケット損失の問題を解決する必要があり、つまり、現在の符号化データをFEC冗長符号化に導入して、冗長パケットを生成してから、受信側に伝送する必要がある。パケット損失回復能力が予め設定された閾値より大きい場合、現在の符号化データを受信側に直接伝送する。パケット損失回復能力が予め設定された閾値より大きいことは、現在の符号化データが失われた後、受信側によってパケット損失回復処理を実行することで得られた音声信号品質が許容範囲内にあることを示し、したがって、当該符号化データについて、送信側は、FEC冗長符号化をパケット損失防止のポリシーとして使用する必要がなく、送信側は、現在の符号化データを受信側に直接伝送することができる。当該現在の符号化データが失われた場合、受信側のデコーダに組み込まれているパケット損失回復アルゴリズムを直接使用して、現在の符号化データに対してパケット損失回復処理を実行する。
【0061】
1つの実施例において、パケット損失回復能力予測モデルを介して出力されたパケット損失回復能力は2つのタイプのパケット損失回復能力を有し、パケット損失回復能力が第1値である場合、現在の符号化データが失われた後、受信側によってパケット損失回復処理を実行することで得られた音声信号品質が比較的に低いことを示し、この場合、送信側は、現在の符号化データパケットに対してFEC冗長符号化処理を実行した後にそれを受信側に伝送する。パケット損失回復能力が第2値である場合、現在の符号化データが失われた後、受信側によってパケット損失回復処理を実行することで得られた音声信号品質が許容範囲内にあることを示し、この場合、送信側は、現在の符号化データを受信側に直接伝送し、当該現在の符号化データが失われた場合、受信側のデコーダに組み込まれているパケット損失回復アルゴリズムを直接使用して、現在の符号化データに対してパケット損失回復処理を実行する。例として、第1値は1であってもよく、第2値は0であってもよい。別の例として、第1値は0であってもよく、第2値は1であってもよい。
【0062】
例えば、伝送対象となる音声符号化ビットストリームは、P1、P2、P3、P4…などの符号化データを含み、現在の符号化データはP7であり、送信側は、P7に対応するパケット損失回復能力が比較的弱いと予測した場合、冗長符号化を実行する必要があるキャッシュキュー(このとき、キャッシュキューは空であってもよいし、このキャッシュキューにP5などの前の符号化データがすでに保存されていてもよい)にP7を追加することができ、キャッシュキューがいっぱいでない場合、後続の符号化データに対応するパケット損失回復能力を予測し続け、同様に、パケット損失回復能力が比較的弱い後続の符号化データをキャッシュキューに追加し、キャッシュキューがいっぱいになると、送信側は、キャッシュキューにおける符号化データに対して冗長符号化を実行して冗長パケットを生成した後、キャッシュキューにおける符号化データ及び生成された冗長パケットを受信側に送信し、同時にキャッシュキューをクリアすることができる。
【0063】
1つの実施例において、前記現在の符号化データに従って冗長符号化を実行して、対応する冗長パケットを生成した後、前記現在の符号化データ及び前記冗長パケットを受信側に伝送することは、受信側によってフィードバックされたパケット損失状態情報を取得することと、前記パケット損失状態情報に従って前記現在の符号化データに対応する冗長率を決定することと、前記冗長率に応じて、前記現在の符号化データに基づいて冗長パケットを生成した後、前記現在の符号化データ及び前記冗長パケットを前記受信側に伝送することと、を含む。
【0064】
具体的には、受信側は、受信したデータパケットに従ってパケット損失状態情報を決定し、当該パケット損失状態情報を送信側にフィードバックすることができる。パケット損失状態情報は、現在のパケット損失率で表すことができ、受信側は、当該パケット損失率をパケットにカプセル化し、そのパケットを送信側に送信することができ、送信側は、受信した制御パケットを解析してパケット損失率を取得する。冗長率rは、冗長パケットの数mと、符号化データnの数nとの合計に対する冗長パケットの数mの比率、すなわち、r=m/(m+n)であってもよい。送信側は、冗長率を調整することによって、さまざまな程度のパケット損失防止効果を実現することができる。つまり、冗長率を大きくすると、より多くの継続的なパケット損失の問題を解決することができ、冗長率を小さくすると、少量の継続的なパケット損失又は散発的なパケット損失の問題を解決することができ、つまり、パケット損失率が高いほど、r値が大きくなり、パケット損失率が低いほど、r値が小さくなる。
【0065】
1つの実施例では、音声伝送方法は、受信側が、現在の符号化データを受信した場合、現在の符号化データに対して音声復号化を直接に実行して、現在の符号化データに対応する音声信号を取得するステップ、及び、受信側が現在の符号化データを受信せず、冗長パケットを受信した場合、冗長パケットに基づき受信側によって冗長復号化処理を実行して、現在の符号化データを取得してから、現在の符号化データに対して音声復号化を実行して、現在の符号化データに対応する音声信号を取得するステップを更に含む。
【0066】
例えば、上記の例に基づいて、パケット損失回復能力を予測した後、送信側は、符号化データP3、P4、P6、P7、P8、P9をキャッシュキュー(キャッシュキューの長さは、必要に応じて設定でき、例えば、6に設定してもよい)に追加した後、冗長符号化を行い、冗長パケットR1、R2を生成し、キャッシュキューにおける符号化データP3、P4、P6、P7、P8、P9、及び生成された冗長パケットR1、R2をデータセットにカプセル化して受信側に送信する。受信側がパケット損失の有無を判断できるようにするために、当該データセットにおける各データパケットのパケットシーケンス番号は連続してもよく、例えば、順次に、1、2、3、4、5、6である。受信側がP3、P4、P6を受信した場合、パケットシーケンス番号が連続しており、パケット損失がないため、受信側は、受信されたP3、P4、P6に従って音声復号化を直接実行して、対応する音声信号を取得することができ、同時に、受信側は、P3、P4、P6をキャッシュして、後続のFEC冗長復号化で使用することができ、後続に、このデータセットにパケット損失がない場合、キャッシュをクリアする。
【0067】
受信側がP8、P9を受信した場合、受信側は、パケットシーケンス番号に従ってP7が失われたことを判断することができ、この場合、受信側は、R1が受信されるまでP8、P9をキャッシュし、受信側は、キャッシュされたP3、P4、P6、P8、P9及びR1に従って冗長復号化処理を実行して、失われたP7を取得することができる。R2がさらに受信されると、R2を直接破棄してもよい。
1つの実施例において、音声伝送方法は、
受信側が現在の符号化データ及び前記冗長パケットを受信しなかった場合、受信側によって、現在の符号化データに対してパケット損失回復処理を実行して、現在の符号化データに対応する回復パケットを取得し、回復パケットに対して音声復号化を実行して、現在の符号化データに対応する音声信号を取得するステップを更に含む。
【0068】
上記の例を参照すると、P7が失われた場合、受信側が特定の期間内にR1及びR2を受信しなかった場合、受信側は、キャッシュされたP3、P4、P6、P8、P9に従ってP7を回復できない。この場合、デコーダに組み込まれているPLCアルゴリズムを使用して、現在の符号化データに対してパケット損失回復処理を実行する必要があり、通常、直前のデータパケットの復号化情報に従って、基音同期反復法を用いて、現在の符号化データを回復パケットとして近似置き換え、その後、回復パケットを復号化して、音声信号を取得する。留意されたいこととして、受信側が冗長復号化によって当該データセット内のパケット損失を回復できる条件は、受信側によって受信された符号化データの数と、受信側によって受信された冗長パケットの数との合計が、当該データセット内の符号化データの数以上であることである。当該条件が満たされない場合、受信側は、デコーダに組み込まれているPLCアルゴリズムを使用して、現在の符号化データに対してパケット損失回復処理を実行する必要もある。
【0069】
上記の音声伝送方法によれば、現在の符号化データを受信側に伝送する前に、機械学習ベースのパケット損失回復能力予測モデルを介して、現在の符号化データに対応する第1音声符号化特徴パラメータと、前の符号化データに対応する第2音声符号化特徴パラメータとに従って、現在の符号化データに対する受信側のパケット損失回復能力を予測し、これにより、当該パケット損失回復能力に従って現在の符号化データに対して冗長符号化を実行する必要があるかどうかを判断し、冗長符号化処理を実行する必要がある場合、現在の符号化データに対して冗長符号化を実行して冗長パケットを生成した後、必要なネットワーク帯域幅リソースを消費することによって冗長パケットを受信側に伝送し、冗長符号化処理を実行する必要がない場合、現在の符号化データに対して冗長符号化を実行する必要なしに、現在の符号化データを受信側に直接伝送することにより、過剰なネットワーク帯域幅リソースの消費を回避し、これにより、ネットワーク帯域幅の全体的な利用率を効果的に向上させ、同時に、伝送ネットワークのパケット損失防止能力を確保することもできる。
【0070】
図7は、1つの実施例における音声伝送方法のプロセスを示すブロック図である。図7を参照すると、送信側は、元の音声信号を取得し、元の音声信号に対して音声符号化を実行して、音声符号化ビットストリームを取得する。次に、送信側は、機械学習ベースのパケット損失回復能力モデルを介して、音声符号化ビットストリームの各符号化データに対する受信側のパケット損失回復能力を予測する。その後、予測されたパケット損失回復能力に従って、現在の符号化データに対してFEC冗長符号化を有効にするかどうかを判断する。現在の符号化データに対してFEC冗長符号化を有効にすると判断した場合、受信側によってフィードバックされたパケット損失状態情報に従って冗長率を設定した後、当該冗長率に応じて、現在の符号化データに基づき、冗長パケットを生成し、現在の符号化データ及び冗長パケットを受信側に伝送する。現在の符号化データに対して冗長符号化を有効しないと判断した場合、現在の符号化データを受信側に直接伝送する。
【0071】
受信側は、現在の符号化データを受信した場合、通常の復号化プロセスに応じて音声信号を再構築する。受信側が現在の符号化データを受信ぜず、冗長パケットを受信した場合、冗長復号化によってパケット損失を回復する条件が満たされると、受信側は、FEC冗長復号化を実行して現在の符号化データを取得することができる。受信側が特定の期間内に現在の符号化データ及び対応する冗長パケットを受信しなかった場合、現在の符号化データが失われたと判断した場合、受信側は、デコーダに組み込まれているPLCアルゴリズムを使用して、現在の符号化データに対してパケット損失回復処理を実行してから復号化を実行して、音声信号を取得することができる。
【0072】
図8は、1つの特定の実施例における、音声伝送方法の例示的なフローチャートである。図8を参照すると、前記音声伝送方法は、次のステップを含む。
【0073】
ステップS802において、元の音声信号を取得する。
【0074】
ステップS804において、元の音声信号を分割して、元の音声シーケンスを取得する。
【0075】
ステップS806において、元の音声シーケンス内の音声セグメントに対して音声符号化を順次実行して、音声符号化ビットストリームを取得する。
【0076】
ステップS808において、音声符号化プロセスにおいて各符号化データによって使用される音声符号化特徴パラメータをキャッシュする。
【0077】
ステップS810において、音声符号化ビットストリームにおける現在の符号化データを取得する。
【0078】
ステップS812において、現在の符号化データに対応する第1音声符号化特徴パラメータと、現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとをパケット損失回復能力予測モデルに入力する。
【0079】
ステップS814において、パケット損失回復能力予測モデルを介して、第1音声符号化特徴パラメータ及び第2音声符号化特徴パラメータに従って、現在の符号化データを直接復号化することで決定された第1音声品質スコアと、現在の符号化データに対してパケット損失回復処理を実行してから復号化を実行することで決定された第2音声品質スコアとの間のスコア差を出力する。
【0080】
ステップS816において、スコア差に従って現在の符号化データに対応するパケット損失回復能力を決定する。
【0081】
ステップS818において、パケット損失回復能力が予め設定された閾値より小さい場合、受信側によってフィードバックされたパケット損失状態情報を取得し、パケット損失状態情報に従って現在の符号化データに対応する冗長率を決定し、冗長率に応じて、現在の符号化データに基づいて冗長パケットを生成した後、現在の符号化データ及び冗長パケットを受信側に伝送する。
【0082】
ステップS820において、パケット損失回復能力が予め設定された閾値より大きい場合、現在の符号化データを受信側に直接伝送する。
【0083】
ステップS822において、受信側が現在の符号化データを受信した場合、現在の符号化データに対して音声復号化を直接に実行して、現在の符号化データに対応する音声信号を取得する。
【0084】
ステップS824において、受信側が現在の符号化データを受信せず、冗長パケットを受信した場合、冗長パケットに基づき受信側によって冗長復号化処理を実行して、現在の符号化データを取得してから、現在の符号化データに対して音声復号化を実行して、現在の符号化データに対応する音声信号を取得する。
【0085】
ステップS826において、受信側が現在の符号化データ及び前記冗長パケットを受信しなかった場合、受信側によって、現在の符号化データに対してパケット損失回復処理を実行して、現在の符号化データに対応する回復パケットを取得し、回復パケットに対して音声復号化を実行して、現在の符号化データに対応する音声信号を取得する。
【0086】
理解されたいこととして、図3図5、及び図8のフローチャートにおける各ステップは、矢印の指示に従って順次に表示されているが、これらのステップは、必ずしも矢印で示された順序で順番に実行されるとは限らない。本明細書で明示的に指定されていない限り、これらのステップの実行順番は厳しく限定せず、これらのステップは、他の順番で実行されてもよい。さらに、図3図5図8の少なくとも一部のステップは、複数のサブステップ又は複数の段階を含み得、これらのサブステップ又は段階は、必ずしも同時に実行されるわけではなく、異なる時点に実行されてもよく、これらのサブステップ又は段階の実行順番は、必ずしも順次実行されるわけではなく、他のステップや他のステップのサブステップや段階の少なくとも一部と順番に又は交替で実行されてもよい。
【0087】
1つの実施例において、音声伝送システムを提供し、当該音声伝送システムは、図1又は図2に示された音声伝送システムであってもよく、当該音声伝送システムは、送信側110と受信側120を含む。
【0088】
送信側110は、音声符号化ビットストリームにおける現在の符号化データを取得し、機械学習ベースのパケット損失回復能力予測モデルを介して、現在の符号化データに対応する第1音声符号化特徴パラメータと、現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとに従って、現在の符号化データに対応するパケット損失回復能力を取得するように構成され、
送信側110は更に、パケット損失回復能力に従って冗長符号化処理を実行する必要があるかどうかを判断し、冗長符号化処理を実行する必要がある場合、現在の符号化データに基づき冗長符号化を実行して、対応する冗長パケットを生成した後、現在の符号化データ及び冗長パケットを受信側に伝送し、冗長符号化処理を実行する必要がない場合、現在の符号化データを受信側に直接伝送するように構成され、
受信側120は、現在の符号化データを受信した場合、現在の符号化データに対して音声復号化を直接に実行して、現在の符号化データに対応する音声信号を取得するように構成され、受信側120は更に、現在の符号化データを受信せず、冗長パケットを受信した場合、冗長パケットに基づき冗長復号化処理を実行して、現在の符号化データを取得してから、現在の符号化データに対して音声復号化を実行して、現在の符号化データに対応する音声信号を取得するように構成され、
受信側120は更に、現在の符号化データ及び冗長パケットを受信しなかった場合、現在の符号化データに対してパケット損失回復処理を実行して、現在の符号化データに対応する回復パケットを取得し、回復パケットに対して音声復号化を実行して、現在の符号化データに対応する音声信号を取得するように構成される。
【0089】
1つの実施例において、送信側110は更に、元の音声信号を取得し、元の音声信号を分割して、元の音声シーケンスを取得し、元の音声シーケンス内の音声セグメントに対して音声符号化を順次実行して、音声符号化ビットストリームを取得するように構成される。
【0090】
1つの実施例において、送信側110は更に、元の音声シーケンス内の音声セグメントのそれぞれに対応する音声符号化特徴パラメータを取得し、音声符号化特徴パラメータに従って、対応する音声セグメントに対して音声符号化を実行して、対応する符号化データを生成してから、音声符号化ビットストリームを取得し、音声符号化プロセスにおいて各符号化データによって使用される音声符号化特徴パラメータをキャッシュするように構成される。
【0091】
1つの実施例において、送信側110は更に、現在の符号化データに対応する第1音声符号化特徴パラメータと、現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとをパケット損失回復能力予測モデルに入力し、パケット損失回復能力予測モデルを介して、第1音声符号化特徴パラメータ及び第2音声符号化特徴パラメータに従って、現在の符号化データを直接復号化することで決定された第1音声品質スコアと、現在の符号化データに対してパケット損失回復処理を実行してから復号化を実行することで決定された第2音声品質スコアとの間のスコア差を出力し、スコア差に従って現在の符号化データに対応するパケット損失回復能力を決定するように構成され、ここで、現在の符号化データに対応するパケット損失回復能力は、スコア差と逆相関する。
【0092】
1つの実施例において、送信側110は更に、受信側によってフィードバックされたパケット損失状態情報を取得し、パケット損失状態情報に従って現在の符号化データに対応する冗長率を決定し、冗長率に応じて、現在の符号化データに基づいて冗長パケットを生成した後、現在の符号化データ及び冗長パケットを受信側に伝送するように構成される。
【0093】
1つの実施例において、受信側120は更に、受信側が現在の符号化データを受信した場合、現在の符号化データに対して音声復号化を直接に実行して、現在の符号化データに対応する音声信号を取得するように構成される。
【0094】
1つの実施例において、受信側120は更に、受信側が現在の符号化データを受信せず、冗長パケットを受信した場合、冗長パケットに基づき冗長復号化処理を実行して、現在の符号化データを取得してから、現在の符号化データに対して音声復号化を実行して、現在の符号化データに対応する音声信号を取得するように構成される。
【0095】
1つの実施例において、受信側120は更に、受信側が現在の符号化データ及び前記冗長パケットを受信しなかった場合、現在の符号化データに対してパケット損失回復処理を実行して、現在の符号化データに対応する回復パケットを取得し、回復パケットに対して音声復号化を実行して、現在の符号化データに対応する音声信号を取得するように構成される。
【0096】
1つの実施例において、送信側110は更に、訓練集合におけるサンプル音声シーケンスを取得し、サンプル音声シーケンスに対して音声符号化を実行して、サンプル音声符号化ビットストリームを取得し、サンプル音声符号化ビットストリームにおける現在の符号化データによって使用される第1音声符号化特徴パラメータと、現在の符号化データの前の符号化データによって使用される第2音声符号化特徴パラメータとを抽出し、サンプル音声符号化ビットストリームを直接に復号化して第1音声信号を取得した後、第1音声信号に基づいて決定された第1音声品質スコアを取得し、現在の符号化データに対して、シミュレートされたパケット損失回復処理を実行することにより回復パケットを取得し、回復パケットを復号化して第2音声信号を取得した後、第2音声信号に基づいて決定された第2音声品質スコアを取得し、第1音声品質スコアと第2音声品質スコアとの間のスコア差に従って、現在の符号化データに対応する実際のパケット損失回復能力を決定し、第1音声符号化特徴パラメータ及び第2音声符号化特徴パラメータを機械学習モデルに入力し、機械学習モデルを介して、現在の符号化データに対応する予測パケット損失回復能力を出力し、実際のパケット損失回復能力と予測パケット損失回復能力との差に従って機械学習モデルのモデルパラメータを調整した後、訓練集合におけるサンプル音声シーケンスを取得するステップに戻り、訓練終了条件を満たすまで訓練を続行するように構成される。
【0097】
上記の音声伝送システムによれば、送信側は、受信側に現在の符号化データを伝送する前に、機械学習ベースのパケット損失回復能力予測モデルを介して、現在の符号化データに対応する第1音声符号化特徴パラメータと、前の符号化データに対応する第2音声符号化特徴パラメータとに従って、現在の符号化データに対する受信側のパケット損失回復能力を予測し、これにより、当該パケット損失回復能力に従って現在の符号化データに対して冗長符号化を実行する必要があるかどうかを判断し、冗長符号化処理を実行する必要がある場合、現在の符号化データに対して冗長符号化を実行して冗長パケットを生成した後、必要なネットワーク帯域幅リソースを消費することによって冗長パケットを受信側に伝送し、冗長符号化処理を実行する必要がない場合、現在の符号化データに対して冗長符号化を実行する必要なしに、現在の符号化データを受信側に直接伝送することにより、過剰なネットワーク帯域幅リソースの消費を回避し、これにより、ネットワーク帯域幅の全体的な利用率を効果的に向上させ、同時に、伝送ネットワークのパケット損失防止能力を確保することもできる。
【0098】
1つの実施例において、図9に示されるように、音声伝送装置900を提供し、当該装置は、ソフトウェア、ハードウェア、又は両者の組み合わせを介して、受信側のすべて又は一部として実装することができる。当該装置は、取得モジュール902と、予測モジュール904と、冗長符号化判断モジュール906と、を備える。
【0099】
取得モジュール902は、音声符号化ビットストリームにおける現在の符号化データを取得するように構成される。
【0100】
予測モジュール904は、機械学習ベースのパケット損失回復能力予測モデルを介して、現在の符号化データに対応する第1音声符号化特徴パラメータと、現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとに従って、現在の符号化データに対応するパケット損失回復能力を取得するように構成される。
【0101】
冗長符号化判断モジュール906は、パケット損失回復能力に従って冗長符号化処理を実行する必要があるかどうかを判断し、冗長符号化処理を実行する必要がある場合、現在の符号化データに基づき冗長符号化を実行して、対応する冗長パケットを生成した後、現在の符号化データ及び冗長パケットを受信側に伝送し、冗長符号化処理を実行する必要がない場合、現在の符号化データを受信側に直接伝送するように構成される。
【0102】
1つの実施例において、音声伝送装置900は更に、元の音声信号を取得し、元の音声信号を分割して、元の音声シーケンスを取得し、元の音声シーケンス内の音声セグメントに対して音声符号化を順次実行して、音声符号化ビットストリームを取得するように構成される、音声符号化モジュールを備える。
【0103】
1つの実施例において、音声伝送装置900は更に、音声符号化モジュールとキャッシュモジュールとを備え、音声符号化モジュールは、元の音声シーケンス内の音声セグメントのそれぞれに対応する音声符号化特徴パラメータを取得し、音声符号化特徴パラメータに従って、対応する音声セグメントに対して音声符号化を実行して、対応する符号化データを生成してから、音声符号化ビットストリームを取得するように構成され、キャッシュモジュールは、音声符号化プロセスにおいて各符号化データによって使用される音声符号化特徴パラメータをキャッシュするように構成される。
【0104】
1つの実施例において、予測モジュール904は更に、現在の符号化データに対応する第1音声符号化特徴パラメータと、現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとをパケット損失回復能力予測モデルに入力し、パケット損失回復能力予測モデルを介して、第1音声符号化特徴パラメータ及び第2音声符号化特徴パラメータに従って、現在の符号化データを直接復号化することで決定された第1音声品質スコアと、現在の符号化データに対してパケット損失回復処理を実行してから復号化を実行することで決定された第2音声品質スコアとの間のスコア差を出力し、スコア差に従って現在の符号化データに対応するパケット損失回復能力を決定するように構成され、ここで、現在の符号化データに対応するパケット損失回復能力は、スコア差と逆相関する。
【0105】
1つの実施例において、冗長符号化判断モジュール906は更に、パケット損失回復能力が予め設定された閾値より小さい場合、受信側によってフィードバックされたパケット損失状態情報を取得し、パケット損失状態情報に従って現在の符号化データに対応する冗長率を決定し、冗長率に応じて、現在の符号化データに基づいて冗長パケットを生成した後、現在の符号化データ及び冗長パケットを受信側に伝送するように構成される。
【0106】
1つの実施例において、音声伝送装置900は更に、モデル訓練モジュールを備え、前記モデル訓練モジュールは、訓練集合におけるサンプル音声シーケンスを取得し、サンプル音声シーケンスに対して音声符号化を実行して、サンプル音声符号化ビットストリームを取得し、サンプル音声符号化ビットストリームにおける現在の符号化データによって使用される第1音声符号化特徴パラメータと、現在の符号化データの前の符号化データによって使用される第2音声符号化特徴パラメータとを抽出し、サンプル音声符号化ビットストリームを直接に復号化して第1音声信号を取得した後、第1音声信号に基づいて決定された第1音声品質スコアを取得し、現在の符号化データに対して、シミュレートされたパケット損失回復処理を実行することにより回復パケットを取得し、回復パケットを復号化して第2音声信号を取得した後、第2音声信号に基づいて決定された第2音声品質スコアを取得し、第1音声品質スコアと第2音声品質スコアとの間のスコア差に従って、現在の符号化データに対応する実際のパケット損失回復能力を決定し、第1音声符号化特徴パラメータ及び第2音声符号化特徴パラメータを機械学習モデルに入力し、機械学習モデルを介して、現在の符号化データに対応する予測パケット損失回復能力を出力し、実際のパケット損失回復能力と予測パケット損失回復能力との差に従って機械学習モデルのモデルパラメータを調整した後、訓練集合におけるサンプル音声シーケンスを取得するステップに戻り、訓練終了条件を満たすまで訓練を続行するように構成される。
【0107】
上記の音声伝送装置900によれば、受信側に現在の符号化データを伝送する前に、機械学習ベースのパケット損失回復能力予測モデルを介して、現在の符号化データに対応する第1音声符号化特徴パラメータと、前の符号化データに対応する第2音声符号化特徴パラメータとに従って、現在の符号化データに対する受信側のパケット損失回復能力を予測し、これにより、当該パケット損失回復能力に従って現在の符号化データに対して冗長符号化を実行する必要があるかどうかを判断し、冗長符号化処理を実行する必要がある場合、現在の符号化データに対して冗長符号化を実行して冗長パケットを生成した後、必要なネットワーク帯域幅リソースを消費することによって冗長パケットを受信側に伝送し、冗長符号化処理を実行する必要がない場合、現在の符号化データに対して冗長符号化を実行する必要なしに、現在の符号化データを受信側に直接伝送することにより、過剰なネットワーク帯域幅リソースの消費を回避し、これにより、ネットワーク帯域幅の全体的な利用率を効果的に向上させ、同時に、伝送ネットワークのパケット損失防止能力を確保することもできる。
【0108】
図10は、1つの実施例におけるコンピュータ機器の内部構造図である。当該コンピュータ機器は、具体的には、図1の送信側110であり得る。図10に示されるように、当該コンピュータ機器は、システムバスを介して接続されたプロセッサ、メモリ及びネットワークインターフェースを備える。ここで、メモリは、不揮発性記憶媒体及び内部メモリを含む。当該コンピュータ機器の不揮発性記憶媒体には、オペレーティングシステムが記憶され、また、コンピュータ可読命令が記憶されてもよく、当該コンピュータ可読命令がプロセッサによって実行されるときに、プロセッサに、音声伝送方法を実装させることができる。当該内部メモリには、コンピュータ可読命令が記憶されてもよく、当該コンピュータ可読命令がプロセッサによって実行されるときに、プロセッサに、音声伝送方法を実行させることができる。
【0109】
当業者なら自明であるが、図10に示される構造は、本願の技術的解決策に関連する構造の一部のブロック図に過ぎず、本願の技術的解決策が適用されるコンピュータ機器を限定するものではない。具体的には、コンピュータ機器は、図に示す構成要素より多い又は少ない構成要素を含むか、いくつかの構成要素の組み合わせを含むか、異なる構成要素レイアウトを含み得る。
【0110】
1つの実施例において、本願で提供される音声伝送装置900は、コンピュータ可読命令の形で実装され得、コンピュータ可読命令は、図10に示されるコンピュータ機器で実行されることができる。コンピュータ機器のメモリには、当該音声伝送装置900を構成する各プログラムモジュール(例えば、図9に示される取得モジュール902、予測モジュール904及び冗長符号化判断モジュール906など)が記憶されることができる。各モジュールで構成されたコンピュータ可読命令は、プロセッサに、本明細書に記載の本願の各実施例における音声伝送方法のステップを実行させる。
【0111】
例えば、図10に示されるコンピュータ機器は、図9に示される音声伝送装置900における取得モジュール902を介して、ステップS302を実行することができる。コンピュータ機器は、予測モジュール904を介してステップS304を実行することができる。コンピュータ機器は、冗長符号化判断モジュール906を介してステップS306、ステップS308及びステップS310を実行することができる。
【0112】
1つの実施例では、コンピュータ機器を提供し、当該コンピュータ機器は、メモリとプロセッサとを備え、メモリには、コンピュータ可読命令が記憶され、コンピュータ可読命令がプロセッサによって実行されるときに、プロセッサに、上記の音声伝送方法を実行させる。ここで、音声伝送方法のステップは、上記の各実施例における音声伝送方法のステップであり得る。
【0113】
1つの実施例では、コンピュータ可読命令が記憶されているコンピュータ可読記憶媒体を提供し、コンピュータ可読命令がプロセッサによって実行されるときに、プロセッサに、上記の音声伝送方法を実行させる。ここで、音声伝送方法のステップは、上記の各実施例における音声伝送方法のステップであり得る。
【0114】
1つの実施例では、コンピュータプログラム製品又はコンピュータ可読命令を提供し、当該コンピュータプログラム製品又はコンピュータ可読命令はコンピュータ可読命令を含み、当該コンピュータ可読命令はコンピュータ可読記憶媒体に記憶されている。コンピュータ機器のプロセッサは、コンピュータ可読記憶媒体から当該コンピュータ可読命令を読み取り、プロセッサは、当該コンピュータ可読命令を実行して、当該コンピュータ機器に、上記の各方法実施例のステップを実行させる。当業者なら自明であるが、上記の実施例の方法の全て又は一部のブロセスは、関連するハードウェアを指示するコンピュータ可読命令によって遂行され得、上記のコンピュータ可読命令は、不揮発性コンピュータ可読取記憶媒体に記憶されてもよく、当該コンピュータ可読命令が実行されると、上記の各方法の実施例のプロセスを実行できる。ここで、本願で提供される各実施例で使用される、メモリ、ストレージ、データベース又は他の媒体への任意の引用は、不揮発性及び揮発性メモリのうちの少なくとも1つを含み得る。不揮発性メモリは、読み取り専用メモリ(Read-Only Memory、ROMと略称)、磁気テープ、フロッピーディスク、フラッシュメモリ又は光メモリなどを含み得る。揮発性メモリは、ランダムアクセスメモリ(Random Access Memory、RAMと略称)又は外部キャッシュメモリを含み得る。限定ではなく説明の目的で、RAMは、スタティックランダムアクセスメモリ(Static Random Access Memory、SRAMと略称)又はダイナミックランダムアクセスメモリ(Dynamic Random Access Memory、DRAM)などの複数の形式であり得る。
【0115】
上記の実施例の各技術的特徴を任意に組み合わせることができ、説明を簡潔にするために、上述の実施例における各技術的特徴の全ての可能な組み合わせについて説明されていないが、これらの技術的特徴の組み合わせに矛盾がない限り、それらの全ては、本発明の範囲に含まれるものとする。
【0116】
上記の実施例は、本願のいくつかの実施形態のみを説明しており、それらの説明は、比較的具体的且つ詳細であるが、本願の保護範囲を限定するものとして解釈されるべきではない。当業者にとって、本願の構想から逸脱することなく、いくつかの変形又は改善を加えることもでき、このような変形又は改善はすべて、本願の保護範囲に含まれることに留意されたい。したがって、本願の保護範囲は、特許請求の範囲の保護範囲に従うものとする。
【符号の説明】
【0117】
900 音声伝送装置
902 取得モジュール
904 予測モジュール
906 冗長符号化判断モジュール
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
【手続補正書】
【提出日】2022-04-14
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
コンピュータが実行する音声伝送方法であって、
音声符号化ビットストリームにおける現在の符号化データを取得するステップと、
機械学習ベースのパケット損失回復能力予測モデルを介して、前記現在の符号化データに対応する第1音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとに従って、前記現在の符号化データに対応するパケット損失回復能力を取得するステップと、
前記パケット損失回復能力に従って冗長符号化処理を実行する必要があるかどうかを判断するステップと、
冗長符号化処理を実行する必要がある場合、前記現在の符号化データに基づき冗長符号化を実行して、対応する冗長パケットを生成してから、前記現在の符号化データ及び前記冗長パケットを受信側に伝送するステップと、
冗長符号化処理を実行する必要がない場合、前記現在の符号化データを受信側に直接伝送するステップと、を含む、前記音声伝送方法。
【請求項2】
前記音声伝送方法は、
元の音声信号を取得するステップと、
元の音声信号を分割して、元の音声シーケンスを取得するステップと、
前記元の音声シーケンス内の音声セグメントに対して音声符号化を順次実行して、音声符号化ビットストリームを取得するステップと、を更に含む、
請求項1に記載の音声伝送方法。
【請求項3】
前記音声伝送方法は、
元の音声シーケンス内の音声セグメントのそれぞれに対応する音声符号化特徴パラメータを取得するステップと、
前記音声符号化特徴パラメータに従って、対応する音声セグメントに対して音声符号化を実行して、対応する符号化データを生成してから、音声符号化ビットストリームを取得するステップと、
音声符号化プロセスにおいて各符号化データによって使用される音声符号化特徴パラメータをキャッシュするステップと、を更に含む、
請求項1に記載の音声伝送方法。
【請求項4】
前記機械学習ベースのパケット損失回復能力予測モデルを介して、現在の符号化データに対応する第1音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとに従って、前記現在の符号化データに対応するパケット損失回復能力を取得する前記ステップは、
前記現在の符号化データに対応する第1音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとをパケット損失回復能力予測モデルに入力するステップと、
前記パケット損失回復能力予測モデルを介して、前記第1音声符号化特徴パラメータ及び前記第2音声符号化特徴パラメータに従って、前記現在の符号化データを直接復号化することで決定された第1音声品質スコアと、前記現在の符号化データに対してパケット損失回復処理を実行してから復号化を実行することで決定された第2音声品質スコアとの間のスコア差を出力するステップと、
前記スコア差に従って前記現在の符号化データに対応するパケット損失回復能力を決定するステップと、を含み、
前記現在の符号化データに対応するパケット損失回復能力は、前記スコア差と逆相関する、
請求項1に記載の音声伝送方法。
【請求項5】
前記現在の符号化データに基づき冗長符号化を実行して、対応する冗長パケットを生成してから、前記現在の符号化データ及び前記冗長パケットを受信側に伝送する前記ステップは、
受信側によってフィードバックされたパケット損失状態情報を取得するステップと、
前記パケット損失状態情報に従って、前記現在の符号化データに対応する冗長率を決定するステップと、
前記冗長率に応じて、前記現在の符号化データに基づいて冗長パケットを生成した後、前記現在の符号化データ及び前記冗長パケットを前記受信側に伝送するステップと、を含む、
請求項1に記載の音声伝送方法。
【請求項6】
前記音声伝送方法は、
前記受信側が前記現在の符号化データを受信した場合、前記現在の符号化データに対して音声復号化を直接に実行して、前記現在の符号化データに対応する音声信号を取得するステップ、及び
前記受信側が前記現在の符号化データを受信せず、前記冗長パケットを受信した場合、前記冗長パケットに基づき前記受信側を介して冗長復号化処理を実行して、前記現在の符号化データを取得してから、前記現在の符号化データに対して音声復号化を実行して、前記現在の符号化データに対応する音声信号を取得するステップ、を更に含む、
請求項1に記載の音声伝送方法。
【請求項7】
前記音声伝送方法は、
前記受信側が前記現在の符号化データ及び前記冗長パケットを受信しなかった場合、前記受信側によって、前記現在の符号化データに対してパケット損失回復処理を実行して、前記現在の符号化データに対応する回復パケットを取得し、前記回復パケットに対して音声復号化を実行して、前記現在の符号化データに対応する音声信号を取得するステップを更に含む、
請求項1に記載の音声伝送方法。
【請求項8】
前記パケット損失回復能力予測モデルは、以下のステップによって決定され、前記ステップは、
訓練集合におけるサンプル音声シーケンスを取得するステップと、
前記サンプル音声シーケンスに対して音声符号化を実行して、サンプル音声符号化ビットストリームを取得するステップと、
前記サンプル音声符号化ビットストリームにおける現在の符号化データによって使用される第1音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データによって使用される第2音声符号化特徴パラメータとを抽出するステップと、
前記サンプル音声符号化ビットストリームを直接に復号化して第1音声信号を取得した後、前記第1音声信号に基づいて決定された第1音声品質スコアを取得するステップと、
前記現在の符号化データに対して、シミュレートされたパケット損失回復処理を実行することにより回復パケットを取得し、前記回復パケットを復号化して第2音声信号を取得した後、前記第2音声信号に基づいて決定された第2音声品質スコアを取得するステップと、
前記第1音声品質スコアと前記第2音声品質スコアとの間のスコア差に従って、前記現在の符号化データに対応する実際のパケット損失回復能力を決定するステップと、
前記第1音声符号化特徴パラメータ及び前記第2音声符号化特徴パラメータを機械学習モデルに入力し、前記機械学習モデルを介して、前記現在の符号化データに対応する予測パケット損失回復能力を出力するステップと、
前記実際のパケット損失回復能力と前記予測パケット損失回復能力との差に従って前記機械学習モデルのモデルパラメータを調整した後、前記訓練集合におけるサンプル音声シーケンスを取得するステップに戻り、訓練終了条件を満たすまで訓練を続行するステップと、を含む、
請求項1ないし7のいずれか一項に記載の音声伝送方法。
【請求項9】
音声伝送システムであって、
送信側と受信側を含み、
前記送信側は、音声符号化ビットストリームにおける現在の符号化データを取得し、機械学習ベースのパケット損失回復能力予測モデルを介して、前記現在の符号化データに対応する第1音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとに従って、前記現在の符号化データに対応するパケット損失回復能力を取得するように構成され、
前記送信側は更に、前記パケット損失回復能力に従って冗長符号化処理を実行する必要があるかどうかを判断し、冗長符号化処理を実行する必要がある場合、前記現在の符号化データに基づき冗長符号化を実行して、対応する冗長パケットを生成してから、前記現在の符号化データ及び前記冗長パケットを受信側に伝送し、冗長符号化処理を実行する必要がない場合、前記現在の符号化データを受信側に直接伝送するように構成され、
前記受信側は、前記現在の符号化データを受信した場合、前記現在の符号化データに対して音声復号化を直接に実行して、前記現在の符号化データに対応する音声信号を取得するように構成され、前記受信側は更に、前記現在の符号化データを受信せず、前記冗長パケットを受信した場合、前記冗長パケットに基づき冗長復号化処理を実行して、前記現在の符号化データを取得してから、前記現在の符号化データに対して音声復号化を実行して、前記現在の符号化データに対応する音声信号を取得するように構成され、
前記受信側は更に、前記現在の符号化データ及び前記冗長パケットを受信しなかった場合、前記現在の符号化データに対してパケット損失回復処理を実行して、前記現在の符号化データに対応する回復パケットを取得し、前記回復パケットに対して音声復号化を実行して、前記現在の符号化データに対応する音声信号を取得するように構成される、前記音声伝送システム。
【請求項10】
前記送信側は更に、元の音声シーケンス内の音声セグメントのそれぞれに対応する音声符号化特徴パラメータを取得し、前記音声符号化特徴パラメータに従って、対応する音声セグメントに対して音声符号化を実行して、対応する符号化データを生成してから、音声符号化ビットストリームを取得し、前記音声符号化プロセスにおいて各符号化データによって使用される音声符号化特徴パラメータをキャッシュするように構成される。
請求項9に記載の音声伝送システム。
【請求項11】
前記送信側は更に、前記現在の符号化データに対応する第1音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとをパケット損失回復能力予測モデルに入力し、前記パケット損失回復能力予測モデルを介して、前記第1音声符号化特徴パラメータ及び前記第2音声符号化特徴パラメータに従って、前記現在の符号化データを直接復号化することで決定された第1音声品質スコアと、前記現在の符号化データに対してパケット損失回復処理を実行してから復号化を実行することで決定された第2音声品質スコアとの間のスコア差を出力し、前記スコア差に従って前記現在の符号化データに対応するパケット損失回復能力を決定するように構成され、ここで、前記現在の符号化データに対応するパケット損失回復能力は、前記スコア差と逆相関する、
請求項9に記載の音声伝送システム。
【請求項12】
前記送信側は更に、受信側によってフィードバックされたパケット損失状態情報を取得し、前記パケット損失状態情報に従って前記現在の符号化データに対応する冗長率を決定し、前記冗長率に応じて、前記現在の符号化データに基づいて冗長パケットを生成した後、前記現在の符号化データ及び前記冗長パケットを前記受信側に伝送するように構成される、
請求項9に記載の音声伝送システム。
【請求項13】
音声伝送装置であって、
音声符号化ビットストリームにおける現在の符号化データを取得するように構成される取得モジュールと、
機械学習ベースのパケット損失回復能力予測モデルを介して、前記現在の符号化データに対応する第1音声符号化特徴パラメータと、前記現在の符号化データの前の符号化データに対応する第2音声符号化特徴パラメータとに従って、前記現在の符号化データに対応するパケット損失回復能力を取得するように構成される、予測モジュールと、
前記パケット損失回復能力に従って冗長符号化処理を実行する必要があるかどうかを判断し、冗長符号化処理を実行する必要がある場合、前記現在の符号化データに基づき冗長符号化を実行して、対応する冗長パケットを生成してから、前記現在の符号化データ及び前記冗長パケットを受信側に伝送し、冗長符号化処理を実行する必要がない場合、前記現在の符号化データを受信側に直接伝送するように構成される、冗長符号化判断モジュールと、を備える、前記音声伝送装置。
【請求項14】
コンピュータプログラムであって、
コンピュータに、請求項1ないし8のいずれか一項に記載の方法を実行させる、コンピュータプログラム
【請求項15】
コンピュータ機器であって、
メモリと、1つ又は複数のプロセッサとを備え、前記メモリには、コンピュータ可読命令が記憶されており、前記コンピュータ可読命令が前記1つ又は複数のプロセッサによって実行されるときに、前記1つ又は複数のプロセッサに、請求項1ないし8のいずれか一項に記載の方法を実行させる、前記コンピュータ機器。
【国際調査報告】