IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッドの特許一覧 ▶ シャンハイ シャオドゥ テクノロジー カンパニー リミテッドの特許一覧

特許6999631オーディオ処理方法、装置、電子機器及び記憶媒体
<>
  • 特許-オーディオ処理方法、装置、電子機器及び記憶媒体 図1
  • 特許-オーディオ処理方法、装置、電子機器及び記憶媒体 図2
  • 特許-オーディオ処理方法、装置、電子機器及び記憶媒体 図3
  • 特許-オーディオ処理方法、装置、電子機器及び記憶媒体 図4
  • 特許-オーディオ処理方法、装置、電子機器及び記憶媒体 図5
  • 特許-オーディオ処理方法、装置、電子機器及び記憶媒体 図6
  • 特許-オーディオ処理方法、装置、電子機器及び記憶媒体 図7
  • 特許-オーディオ処理方法、装置、電子機器及び記憶媒体 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2021-12-24
(45)【発行日】2022-01-18
(54)【発明の名称】オーディオ処理方法、装置、電子機器及び記憶媒体
(51)【国際特許分類】
   H04R 3/00 20060101AFI20220111BHJP
【FI】
H04R3/00 310
【請求項の数】 20
(21)【出願番号】P 2019218591
(22)【出願日】2019-12-03
(65)【公開番号】P2020202549
(43)【公開日】2020-12-17
【審査請求日】2019-12-03
(31)【優先権主張番号】201910490563.6
(32)【優先日】2019-06-06
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】512015127
【氏名又は名称】バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
(74)【代理人】
【識別番号】100106297
【弁理士】
【氏名又は名称】伊藤 克博
(73)【特許権者】
【識別番号】521235408
【氏名又は名称】シャンハイ シャオドゥ テクノロジー カンパニー リミテッド
(72)【発明者】
【氏名】アン、 アイフイ
(72)【発明者】
【氏名】ガオ、 ルイ
(72)【発明者】
【氏名】ジー、 ドンファン
【審査官】西村 純
(56)【参考文献】
【文献】特開2005-100612(JP,A)
【文献】米国特許第07848531(US,B1)
【文献】特許第3881361(JP,B1)
【文献】国際公開第2015/098564(WO,A1)
【文献】特開2001-318681(JP,A)
【文献】特表2007-531933(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10K 15/00-15/12
G10L 19/00-25/93
H04R 3/00- 3/14
(57)【特許請求の範囲】
【請求項1】
オーディオ処理方法であって、
処理対象オーディオに対して分割処理を実行して、N個のオーディオセグメントを取得し、前記Nは2以上の整数であるステップと、
各前記オーディオセグメントの最大音量値に従って、ターゲットシーケンスを取得し、前記ターゲットシーケンスが最大音量値の大から小への順序にソートされたM個のオーディオセグメントの最大音量値を含み、前記Mは前記Nより小さい正の整数であり、前記各前記オーディオセグメントの最大音量値に従って、ターゲットシーケンスを取得するのは、N個のオーディオセグメントにおける各オーディオセグメントの最大音量値を大から小までソートして、前のMにソートされた最大音量値を取得し、ターゲットシーケンスを組成するステップと、
前記ターゲットシーケンスに従って、前記処理対象オーディオの音量調整パラメーターを取得し、前記音量調整パラメーターが前記処理対象オーディオの再生音量を目標音量に調整することに用いられるステップと、
を含み、
各前記オーディオセグメントの最大音量値は、各前記オーディオセグメントの最大オーディオ量子化値に対応した音量値であり、各前記オーディオセグメントの最大音量値に従って、ターゲットシーケンスを取得するのは、
各前記オーディオセグメントにおける各サンプリングポイントのオーディオ量子化値に従って、各前記オーディオセグメントの最大オーディオ量子化値を確定すること、
各前記オーディオセグメントの最大オーディオ量子化値に従って、各前記オーディオセグメントの最大音量値を取得すること、
最大音量値が大から小までの順序に従って、N個の前記オーディオセグメントの最大音量値をソートして、初期シーケンスを取得すること、
前記処理対象オーディオの時間長さ、及びオーディオの時間長さとターゲットシーケンスに含まれたオーディオセグメントの最大音量値の個数との対応関係に従って、前記Mを確定すること、及び
前記初期シーケンスから前のM個の最大音量値を抽出して、前記ターゲットシーケンスを取得することを含む、
ことを特徴とするオーディオ処理方法。
【請求項2】
前記音量調整パラメーターは前記処理対象オーディオの音量値平均値であり、前記ターゲットシーケンスに従って、前記処理対象オーディオの音量調整パラメーターを取得するのは、
前記ターゲットシーケンスにおける全ての隣接する2つの最大音量値の差が全て差閾値以下である場合は、前記ターゲットシーケンスの最大音量値の平均値、及び前記処理対象オーディオの時間長さに従って、前記処理対象オーディオの音量値平均値を取得すること、或いは、
前記ターゲットシーケンスの中で、差が前記差閾値より大きい隣接する2つの最大音量値が存在する場合は、前記ターゲットシーケンスから大きい最大音量値の後に位置する全ての最大音量値を削除し、処理後のターゲットシーケンスを取得し、前記処理後のターゲットシーケンスにおける全ての隣接する2つの最大音量値の差は全て前記差閾値以下であること、
前記処理後のターゲットシーケンスの最大音量値の平均値を前記ターゲットシーケンスの最大音量値の平均値として、且つ前記ターゲットシーケンスの最大音量値の平均値、及び前記処理対象オーディオの時間長さに従って、前記処理対象オーディオの音量値平均値を取得することを含むことを特徴とする請求項1に記載の方法。
【請求項3】
前記ターゲットシーケンスの最大音量値の平均値、及び前記処理対象オーディオの時間長さに従って、前記処理対象オーディオの音量値平均値を取得するのは、
前記処理対象オーディオの時間長さが時間長さ閾値以下であると、前記ターゲットシーケンスの最大音量値の平均値を候補平均値とすること、
前記処理対象オーディオの時間長さが時間長さ閾値より大きいと、前記ターゲットシーケンスに従って平滑化係数を確定すること、
前記平滑化係数に従って前記ターゲットシーケンスの最大音量値の平均値を処理して、前記候補平均値を取得すること、及び
前記候補平均値に従って、前記処理対象オーディオの音量値平均値を取得することを含むことを特徴とする請求項2に記載の方法。
【請求項4】
前記候補平均値に従って、前記処理対象オーディオの音量値平均値を取得するのは、
前記候補平均値、予め設定された音量値及び前記ターゲットシーケンスにおける一番目の最大音量値に従って、カットオフ音量値を取得すること、
前記カットオフ音量値が0以下であると、前記候補平均値を前記処理対象オーディオの音量値平均値とすること、及び
前記カットオフ音量値が0より大きいと、前記候補平均値を縮小処理して、縮小処理後の候補平均値に従って取得したカットオフ音量値を0以下にさせ、且つ前記縮小処理後の候補平均値を前記処理対象オーディオの音量値平均値とすることを含むことを特徴とする請求項3に記載の方法。
【請求項5】
前記方法は、
端末にオーディオ情報を送信し、前記オーディオ情報に前記処理対象オーディオのリンクアドレスと前記音量調整パラメーターが含まれ、前記オーディオ情報は前記端末が処理対象オーディオのリンクアドレスに従って前記処理対象オーディオを取得し、且つ前記音量調整パラメーターに従って前記処理対象オーディオを再生することを指示することに用いられるステップを更に含むことを特徴とする請求項1に記載の方法。
【請求項6】
前記オーディオ情報に前記処理対象オーディオの各前記オーディオセグメントにおける各サンプリングポイントのオーディオ量子化値が更に含まれることを特徴とする請求項5に記載の方法。
【請求項7】
前記の処理対象オーディオに対して分割処理を実行して、N個のオーディオセグメントを取得する前に、
前記端末が送信したオーディオ要求情報を受信し、前記オーディオ要求情報は前記処理対象オーディオを取得することを指示することに用いられること、及び
前記オーディオ要求情報に従って、前記処理対象オーディオを取得することを更に含むことを特徴とする請求項5に記載の方法。
【請求項8】
前記方法は、
前記音量調整パラメーターに従って、前記処理対象オーディオを音量調整するステップと、
音量調整された処理対象オーディオを再生するステップと、を更に含むことを特徴とする請求項1に記載の方法。
【請求項9】
前記音量調整パラメーターに従って、前記処理対象オーディオを音量調整するのは、
前記音量調整パラメーターと予め設定された音量値に従って、前記処理対象オーディオの音量調整係数を取得すること、及び
前記音量調整係数に従って、前記処理対象オーディオのフレームごとのオーディオの音量を調整することを含むことを特徴とする請求項8に記載の方法。
【請求項10】
前記音量調整係数に従って、前記処理対象オーディオのフレームごとのオーディオの音量を調整するのは、
前記音量調整係数、及び前記処理対象オーディオの各前記オーディオセグメントにおける各サンプリングポイントのオーディオ量子化値に従って、前記処理対象オーディオにおけるフレームごとのオーディオの音量を調整することを含むことを特徴とする請求項9に記載の方法。
【請求項11】
前記方法は、
調整されたx番目フレームのオーディオの音量が音量の予め設定された範囲に位置しないと、前記音量調整パラメーターを縮小処理するステップと、
縮小処理後の音量調整パラメーターに従って前記x番目フレームのオーディオの音量を再調整して、再調整された前記x番目フレームのオーディオの音量を前記音量の予め設定された範囲に位置させるステップと、を更に含むことを特徴とする請求項10に記載の方法。
【請求項12】
オーディオ処理方法であって、
サーバーからのオーディオ情報を受信し、前記オーディオ情報に処理対象オーディオのリンクアドレスと音量調整パラメーターが含まれ、前記音量調整パラメーターは、サーバーによって請求項1に記載の方法に従って、取得されるステップと、
前記処理対象オーディオのリンクアドレスに従って前記処理対象オーディオを取得するステップと、
前記音量調整パラメーターに従って前記処理対象オーディオを再生するステップと、
を含み、
前記音量調整パラメーターに従って前記処理対象オーディオを再生するのは、
前記音量調整パラメーターに従って、前記処理対象オーディオを音量調整すること、及び
音量調整された処理対象オーディオを再生することを含み、
前記音量調整パラメーターに従って、前記処理対象オーディオを音量調整するのは、
前記音量調整パラメーターと予め設定された音量値に従って、前記処理対象オーディオの音量調整係数を取得すること、及び
前記音量調整係数に従って、前記処理対象オーディオのフレームごとのオーディオの音量を調整することを含み、
前記オーディオ情報に前記処理対象オーディオの各オーディオセグメントにおける各サンプリングポイントのオーディオ量子化値が更に含まれ、前記音量調整係数に従って、前記処理対象オーディオのフレームごとのオーディオの音量を調整するのは、
前記音量調整係数、及び前記処理対象オーディオの各前記オーディオセグメントにおける各サンプリングポイントのオーディオ量子化値に従って、前記処理対象オーディオにおけるフレームごとのオーディオの音量を調整することを含む、
ことを特徴とするオーディオ処理方法。
【請求項13】
前記のサーバーからのオーディオ情報を受信する前に、
前記サーバーにオーディオ要求情報を送信し、前記オーディオ要求情報は前記サーバーが前記処理対象オーディオを取得することを指示することに用いられることを更に含むことを特徴とする請求項12に記載の方法。
【請求項14】
前記方法は、
調整されたx番目フレームのオーディオの音量が音量の予め設定された範囲に位置しないと、前記音量調整パラメーターを縮小処理するステップと、
縮小処理後の音量調整パラメーターに従って前記x番目フレームのオーディオの音量を再調整し、再調整された前記x番目フレームのオーディオの音量を前記音量の予め設定された範囲内に位置させるステップと、を更に含むことを特徴とする請求項12に記載の方法。
【請求項15】
オーディオ処理装置であって、処理モジュールを備え、
処理モジュールは、処理対象オーディオに対して分割処理を実行して、N個のオーディオセグメントを取得し、前記Nは2以上の整数であること、各前記オーディオセグメントの最大音量値に従って、ターゲットシーケンスを取得し、前記ターゲットシーケンスが最大音量値の大から小への順序にソートされたM個のオーディオセグメントの最大音量値を含み、前記Mは前記Nより小さい正の整数であり、前記各前記オーディオセグメントの最大音量値に従って、ターゲットシーケンスを取得するのは、N個のオーディオセグメントにおける各オーディオセグメントの最大音量値を大から小までソートして、前のMにソートされた最大音量値を取得し、ターゲットシーケンスを組成すること、及び前記ターゲットシーケンスに従って、前記処理対象オーディオの音量調整パラメーターを取得し、前記音量調整パラメーターが前記処理対象オーディオの再生音量を目標音量に調整することに用いられること、
各前記オーディオセグメントの最大音量値は、各前記オーディオセグメントの最大オーディオ量子化値に対応した音量値であり、各前記オーディオセグメントの最大音量値に従って、ターゲットシーケンスを取得するのは、
各前記オーディオセグメントにおける各サンプリングポイントのオーディオ量子化値に従って、各前記オーディオセグメントの最大オーディオ量子化値を確定すること、
各前記オーディオセグメントの最大オーディオ量子化値に従って、各前記オーディオセグメントの最大音量値を取得すること、
最大音量値が大から小までの順序に従って、N個の前記オーディオセグメントの最大音量値をソートして、初期シーケンスを取得すること、
前記処理対象オーディオの時間長さ、及びオーディオの時間長さとターゲットシーケンスに含まれたオーディオセグメントの最大音量値の個数との対応関係に従って、前記Mを確定すること、及び
前記初期シーケンスから前のM個の最大音量値を抽出して、前記ターゲットシーケンスを取得することを含むこと、
に用いられることを特徴とするオーディオ処理装置。
【請求項16】
オーディオ処理装置であって、トランシーバーモジュールと処理モジュールを備え、
トランシーバーモジュールは、サーバーからのオーディオ情報を受信し、前記オーディオ情報に処理対象オーディオのリンクアドレスと音量調整パラメーターが含まれ、前記音量調整パラメーターは、サーバーによって請求項1に記載の方法に従って、取得されることに用いられ、
処理モジュールは、前記処理対象オーディオのリンクアドレスに従って前記処理対象オーディオを取得して且つ前記音量調整パラメーターに従って前記処理対象オーディオを再生すること、
前記音量調整パラメーターに従って前記処理対象オーディオを再生するのは、
前記音量調整パラメーターに従って、前記処理対象オーディオを音量調整すること、及び
音量調整された処理対象オーディオを再生することを含むこと、
前記音量調整パラメーターに従って、前記処理対象オーディオを音量調整するのは、
前記音量調整パラメーターと予め設定された音量値に従って、前記処理対象オーディオの音量調整係数を取得すること、及び
前記音量調整係数に従って、前記処理対象オーディオのフレームごとのオーディオの音量を調整することを含むこと、
前記オーディオ情報に前記処理対象オーディオの各オーディオセグメントにおける各サンプリングポイントのオーディオ量子化値が更に含まれ、前記音量調整係数に従って、前記処理対象オーディオのフレームごとのオーディオの音量を調整するのは、
前記音量調整係数、及び前記処理対象オーディオの各前記オーディオセグメントにおける各サンプリングポイントのオーディオ量子化値に従って、前記処理対象オーディオにおけるフレームごとのオーディオの音量を調整することを含むこと、
に用いられることを特徴とするオーディオ処理装置。
【請求項17】
電子機器であって、少なくとも1つのプロセッサーとメモリを含み、
前記メモリはコンピューター実行命令を記憶し、
前記少なくとも1つのプロセッサーは前記メモリに記憶されたコンピューター実行命令を実行し、前記電子機器に請求項1-11のいずれかに記載の方法を実行させることを特徴とする電子機器。
【請求項18】
電子機器であって、少なくとも1つのプロセッサーとメモリを含み、
前記メモリはコンピューター実行命令を記憶し、
前記少なくとも1つのプロセッサーは前記メモリに記憶されたコンピューター実行命令を実行して、前記電子機器に請求項12-14のいずれかに記載の方法を実行させることを特徴とする電子機器。
【請求項19】
コンピューター読み取り可能な記憶媒体であって、前記コンピューター読み取り可能な記憶媒体にコンピューター実行命令が記憶され、前記コンピューター実行命令がプロセッサーによって実行される場合に、請求項1-11のいずれかに記載の方法を実現することを特徴とするコンピューター読み取り可能な記憶媒体。
【請求項20】
コンピューター読み取り可能な記憶媒体であって、前記コンピューター読み取り可能な記憶媒体にコンピューター実行命令が記憶され、前記コンピューター実行命令がプロセッサーによって実行される場合に、請求項12-14のいずれかに記載の方法を実現することを特徴とするコンピューター読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本願はインテリジェント端末分野に関し、特にオーディオ処理方法、装置、電子機器及び記憶媒体に関する。
【背景技術】
【0002】
インテリジェント端末の普及に伴って、ユーザーはしばしばインテリジェント端末を使用して音楽、放送、またはその他のオーディオを再生する。
【0003】
オーディオソースが異なるため(例えば、プロバイダーが異なる)、オーディオが端末で再生される時の音量も異なってしまい、オーディオを再生する音量が大きすぎたり小さすぎたりする可能性があるため、ユーザーが頻繁に音量を調整する必要がある。例えば、端末が音楽Aを再生する時の音量は30dbであるが、放送Bを再生する時の音量は10dbに変わって、音量が突然小さくなると、ユーザーは放送Bのコンテンツを聞くことができなくなり、ユーザーが音量を上げる必要がある。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本願はオーディオ処理方法、装置、電子機器及び記憶媒体を提供し、ユーザーがオーディオの音量を頻繁に調整する問題を避ける。
【課題を解決するための手段】
【0005】
本願の第1態様はオーディオ処理方法を提供し、
処理対象オーディオに対して分割処理を実行して、N個のオーディオセグメントを取得し、前記Nは2以上の整数であるステップと、
各前記オーディオセグメントの最大音量値に従って、ターゲットシーケンスを取得し、前記ターゲットシーケンスが最大音量値の大から小への順序にソートされたM個のオーディオセグメントの最大音量値を含み、前記Mは前記Nより小さい正の整数であるステップと、
前記ターゲットシーケンスに従って、前記処理対象オーディオの音量調整パラメーターを取得し、前記音量調整パラメーターが前記処理対象オーディオの再生音量を目標音量に調整することに用いられるステップと、を含むことを特徴とする。
【0006】
本願の第2態様はオーディオ処理方法を提供し、
サーバーからのオーディオ情報を受信し、前記オーディオ情報に前記処理対象オーディオのリンクアドレスと前記音量調整パラメーターが含まれるステップと、
前記処理対象オーディオのリンクアドレスに従って前記処理対象オーディオを取得するステップと、
前記音量調整パラメーターに従って前記処理対象オーディオを再生するステップと、を含む。
【0007】
本願の第3態様はオーディオ処理装置を提供し、処理モジュールを備え、
処理モジュールは、処理対象オーディオに対して分割処理を実行して、N個のオーディオセグメントを取得し、前記Nは2以上の整数であること、各前記オーディオセグメントの最大音量値に従って、ターゲットシーケンスを取得し、前記ターゲットシーケンスが最大音量値の大から小への順序にソートされたM個のオーディオセグメントの最大音量値を含み、前記Mは前記Nより小さい正の整数であること、及び前記ターゲットシーケンスに従って、前記処理対象オーディオの音量調整パラメーターを取得することに用いられ、前記音量調整パラメーターが前記処理対象オーディオの再生音量を目標音量に調整することに用いられることに用いられる。
【0008】
本願の第4態様はオーディオ処理装置を提供し、
サーバーからのオーディオ情報を受信することに用いられ、前記オーディオ情報に前記処理対象オーディオのリンクアドレスと前記音量調整パラメーターが含まれるトランシーバーモジュール、及び
前記処理対象オーディオのリンクアドレスに従って前記処理対象オーディオを取得し、且つ前記音量調整パラメーターに従って前記処理対象オーディオを再生するための処理モジュールを備える。
【0009】
本願の第5態様は電子機器を提供し、少なくとも1つのプロセッサーとメモリを含み、
前記メモリはコンピューター実行命令を記憶し、
前記少なくとも1つのプロセッサーは前記メモリに記憶されたコンピューター実行命令を実行し、前記電子機器に第1態様又は第2態様に記載のオーディオ処理方法を実行させる。
【0010】
本願の第6態様はコンピューター読み取り可能な記憶媒体を提供し、前記コンピューター読み取り可能な記憶媒体にコンピューター実行命令が記憶され、前記コンピューター実行命令がプロセッサーによって実行される際に、上記の第1態様又は第2態様に記載のオーディオ処理方法を実現する。
【発明の効果】
【0011】
本願はオーディオ処理方法、装置、電子機器及び記憶媒体を提供し、該方法は、処理対象オーディオに対して分割処理を実行して、N個のオーディオセグメントを取得し、Nは2以上の整数であるステップと、各オーディオセグメントの最大音量値に従って、ターゲットシーケンスを取得し、ターゲットシーケンスが最大音量値の大から小への順序にソートされたM個のオーディオセグメントの最大音量値を含み、MはNより小さい正の整数であるステップと、ターゲットシーケンスに従って、処理対象オーディオの音量調整パラメーターを取得し、音量調整パラメーターが処理対象オーディオの再生音量を目標音量に調整することに用いられるステップと、を含む。本願によるオーディオ処理方法は予め取得された音量調整パラメーターによって再生するオーディオの音量を調整して処理し、それによりオーディオの再生音量を目標音量に調整させることができ、ユーザーがオーディオの音量を頻繁に調整する問題を避ける。
【図面の簡単な説明】
【0012】
図1】本願によるオーディオ処理方法が適用されるシナリオ模式図である。
図2】本願によるオーディオ処理方法の概略的なフローチャート1である。
図3】本願によるオーディオ処理方法の概略的なフローチャート2である。
図4】本願による音量調整パラメーターを取得する概略的なフローチャートである。
図5】本願による端末が音量調整パラメーターに従って処理対象オーディオを再生する方法の概略的なフローチャートである。
図6】本願による1つのオーディオ処理装置の構造模式図である。
図7】本願による他のオーディオ処理装置の構造模式図である。
図8】本願による電子機器の構造模式図である。
【発明を実施するための形態】
【0013】
本願の実施例の目的、技術的解決手段及び利点をより明確にするために、以下、本願の実施例を組み合わせ、本願の実施例における技術的解決手段を明確かつ完全に説明し、記載された実施例は本願の実施例の一部にすぎず、実施例の全てではないことは明らかである。本願の実施例に基づき、創造的な労力なしに、当業者が取得した他の全ての実施例はいずれも本願の保護範囲に属する。
【0014】
従来の技術において、オーディオのソースが異なるため端末がオーディオを再生する音量は異なって、更にユーザーが音量を頻繁に調整しなければならない問題を解決するために、本願はオーディオ処理方法を提供し、予めオーディオを処理分析してオーディオの音量調整パラメーターを取得することによって、該音量調整パラメーターを用いて前記処理対象オーディオの再生音量を目標音量に調整する目的を達した。以下、具体的な適用シナリオと実施例を組み合わせて本願によるオーディオ処理方法を説明する。
【0015】
図1は本願によるオーディオ処理方法が適用されるシナリオ模式図である。図1に示すように、このシナリオにはサーバーと端末が含まれることができる。サーバーはクラウドサーバーであってよく、該クラウドサーバーが端末のためにオーディオを提供することができる。端末は、オーディオ再生機能が集積されたモバイル端末又は固定端末を含んでもよいが、これらに制限されない。モバイル端末機器は携帯電話、パーソナルデジタルアシスタント(Personal Digital Assistant、PDAと略称)、タブレット、携帯機器(例えば、ポータブルコンピューター、ポケットコンピューター又はハンドヘルドコンピューター)等を含んでもよいけど、これらに制限されない。固定端末は、デスクトップコンピューター、オーディオ及びビデオ機器、スマートテレビ、スマートスピーカー等を含んでもよいけど、これらに制限されない。
【0016】
以下、図2を組み合わせてサーバーと端末が対話する観点から本願によるオーディオ処理方法を説明する。図2は本願によるオーディオ処理方法の概略的なフローチャート1である。図2に示すように、本実施例によるオーディオ処理方法は、以下のステップを含んでよく、
S201では、サーバーは処理対象オーディオに対して分割処理を実行して、N個のオーディオセグメントを取得し、Nは2以上の整数である。
【0017】
本実施例において処理対象オーディオに対して分割処理を実行して、N個のオーディオセグメントを取得することができる。選択可能に、分割処理の方法はフレームごとのセグメンテーション、定期的なセグメンテーション、1秒あたりのセグメンテーション等であってよい。Nは2以上の整数である。
【0018】
フレームごとのセグメンテーションは処理対象オーディオを形成するマルチフレームオーディオの時間順序に従ってセグメンテーションしてよく、即ちフレームごとのオーディオを1つのオーディオセグメントとする。例えば、処理対象オーディオ情報に2000フレームのオーディオが含まれると、各フレームのオーディオは1つのオーディオセグメントであってよい。
【0019】
定期的なセグメンテーションは同じ時間間隔ごとに処理対象オーディオを1回セグメンテーションしてよく、例えば、処理対象オーディオの開始時間から、250msごとに処理対象オーディオを1回セグメンテーションし、即ち取得されたN個のオーディオセグメントにおける各オーディオセグメントが全て250msである。
【0020】
1秒あたりのセグメンテーションは1秒あたりに対応したオーディオをmフレームにセグメンテーションし、次に、1秒あたりに任意のpフレームを取得し、1秒あたりに取得したpフレームは1つのオーディオセグメントであってよい。例えば、時間が2sである1つのオーディオである場合、2sのオーディオをまず2つの1sのオーディオにセグメンテーションし、更に各1sのオーディオをmフレームにセグメンテーションし、各1sのオーディオに対応したmフレームからpフレームを取得し、該pフレームを1つのオーディオセグメントとする。理解すべきなのは、mは2より大きい整数であり、pはmより小さい正の整数である。本実施例において処理対象オーディオに対して分割処理を行う処理方法に対して制限しない。
【0021】
S202では、サーバーは各オーディオセグメントの最大音量値に従って、ターゲットシーケンスを取得し、ターゲットシーケンスが最大音量値の大から小への順序にソートされたM個のオーディオセグメントの最大音量値を含み、MはNより小さい正の整数である。
【0022】
本実施例において、サーバーに処理対象オーディオの各時点の音量値が記憶されることができ、各時点での音量値は処理対象オーディオのミリ秒ごとの音量値であってよい。本実施例において、上記S201のいずれかのセグメンテーション方法に従って取得したオーディオセグメントに、少なくとも1つの時点のオーディオが含まれることができる。例えば、フレームごとのセグメンテーション方法では1つのオーディオセグメントは1フレームのオーディオであり、この1フレームのオーディオに少なくとも1つの時点のオーディオが含まれることができる。定期的なセグメンテーション方法では1つのオーディオセグメントは250msのオーディオであり、即ちそれにも複数の時点のオーディオが含まれる。
【0023】
各オーディオセグメントにおける各時点の音量値に従って、各オーディオセグメントの最大音量値を確定し、更に各オーディオセグメントの最大音量値に従って、ターゲットシーケンスを取得することができる。本実施例におけるターゲットシーケンスが最大音量値の大から小への順序にソートされたM個のオーディオセグメントの最大音量値を含み、MはNより小さい正の整数である。
【0024】
選択可能に、本実施例においてN個のオーディオセグメントにおける各オーディオセグメントの最大音量値を大から小までソートして、前のMにソートされた最大音量値を取得し、ターゲットシーケンスを組成することができる。例えば、Nは8であり、且つ8個のオーディオセグメントに対応した最大音量値を大から小までソートし、それぞれ30db、28db、27db、24db、22db、21db、20db及び19dbである。Mは5であると、該8個のオーディオセグメントに対応したターゲットシーケンスは、{30db、28db、27db、24db、22db}である。
【0025】
選択可能に、ターゲットシーケンスの中のMはデフォルト値であってよく、異なる処理対象オーディオに対して、該Mが同様である。選択可能に、本実施例において、ターゲットシーケンスを迅速で正確に確定して、更に処理対象オーディオの音量調整パラメーターを迅速で正確に取得するために、ターゲットシーケンスの中のMは処理対象オーディオの属性に従って確定されてもよい。例えば、処理対象オーディオの属性は処理対象オーディオの時間長さであってよい。対応的に、異なる時間長さの処理対象オーディオに対して、Mが異なり、処理対象オーディオの時間長さが小さいほど、Mが小さくなり、処理対象オーディオの時間長さが大きいほど、Mが大きくなる。処理対象オーディオの時間長さが小さく、その音量の突然変異可能性も小さく、小さいM、即ち少ない最大音量値を選択することができ、ターゲットシーケンスを迅速的に確定することができ、時間長さが大きい処理対象オーディオに対して、その音量の変化可能性が大きく、大きいM、即ち多い最大音量値を選択して、より正確なターゲットシーケンスを取得するようにする。
【0026】
選択可能に、処理対象オーディオの属性は処理対象オーディオのタイプであってよい。対応的に、異なるタイプの処理対象オーディオに対して、Mが異なる。例えば、オーディオブックのようなオーディオはそのものの音量が穏やかであり、突然変異可能性が小さく、小さいMを確定することができ、音楽のようなオーディオに対して、プリオーバーセクションとコーラスセクションによって、オーディオ音量の変化可能性が大きく、大きいMを確定することができる。
【0027】
選択可能に、本実施例におけるサーバーに処理対象オーディオの属性とターゲットシーケンスにおけるMとの対応関係が予め設定されたため、ターゲットシーケンスを確定する際に処理対象オーディオの属性に従って、ソートされたN個のオーディオセグメントの最大音量値の中で前のM個の最大音量値をターゲットシーケンスとする。
【0028】
S203では、サーバーはターゲットシーケンスに従って、処理対象オーディオの音量調整パラメーターを取得し、音量調整パラメーターが処理対象オーディオの再生音量を目標音量に調整することに用いられる。
【0029】
本実施例における音量調整パラメーターが、処理対象オーディオの再生音量を目標音量に調整することに用いられる。ターゲットシーケンスにM個の最大音量値が含まれ、選択可能に、音量調整パラメーターは該M個の最大音量値の平均値であってよい。即ち該音量調整パラメーターは処理対象オーディオの音量インジケーターを示すことができ、更に端末が処理対象オーディオの音量インジケーターに従って処理対象オーディオの再生音量を目標音量に調整する。端末が如何に音量調整パラメーターに従って処理対象オーディオの再生音量を目標音量に調整するかに対して以下の実施例では詳細に説明する。
【0030】
選択可能に、本実施例において図3を組み合わせてサーバーと端末の完全の対話する過程を説明する。図3は本願によるオーディオ処理方法の概略的なフローチャート2である。本実施例によるオーディオ処理方法はS201の前に以下のステップを更に含んでもよく、
S204では、端末はサーバーにオーディオ要求情報を送信し、オーディオ要求情報はサーバーが処理対象オーディオを取得することを指示することに用いられる。
【0031】
対応的に、サーバーは端末が送信したオーディオ要求情報を受信する。
【0032】
例示的に、端末がスマートスピーカーである場合、スマートスピーカーとユーザーとの間に音声対話することができる。ユーザーが音楽を聴きたい場合に、例えば「歌Aを再生してください」と言うことができ、対応的に、スマートスピーカーはユーザーのオーディオを受信して分析することによって、ユーザーのオーディオ要求セマンティクスを取得する。スマートスピーカーはユーザーのオーディオ要求セマンティクスに従ってサーバーにオーディオ要求情報を送信することができ、対応的に、該オーディオ要求情報はサーバーが処理対象オーディオを取得することを指示することに用いられ、該処理対象オーディオは「歌A」である。
【0033】
例示的に、端末がスマートフォンである場合、ユーザーが端末インターフェースに「歌A」の名称を入力することにより、端末がサーバーにオーディオ要求情報を送信するのをトリガーすることができ、対応的に、該オーディオ要求情報はサーバーが「歌A」を取得することを指示することに用いられる。
【0034】
理解すべきなのは、異なる適用シナリオに対して、端末がサーバーにオーディオ要求情報を送信する方法は異なる可能性がある。しかし、該オーディオ要求情報はサーバーが処理対象オーディオを取得することを指示することに用いられる。
【0035】
S205では、サーバーはオーディオ要求情報に従って、処理対象オーディオを取得する。
【0036】
サーバーはオーディオ要求情報を受信した後に、該オーディオ要求情報に従って、処理対象オーディオを取得することができる。選択可能に、サーバーはオーディオ要求情報が指示した処理対象オーディオに従って、サーバーローカルのデータベースから該処理対象オーディオが含まれるか否かを検索することができる。
【0037】
対応的に、S203の後に以下のステップを更に含んでもよく、
S206では、サーバーは端末にオーディオ情報を送信し、オーディオ情報に処理対象オーディオのリンクアドレスと音量調整パラメーターが含まれ、オーディオ情報は端末が処理対象オーディオのリンクアドレスに従って処理対象オーディオを取得して、且つ音量調整パラメーターに従って処理対象オーディオを再生することを提示することに用いられる。
【0038】
対応的に、端末はサーバーからのオーディオ情報を受信する。
【0039】
本実施例におけるオーディオ情報に処理対象オーディオのリンクアドレスと音量調整パラメーターが含まれる。選択可能に、本実施例における処理対象オーディオのリンクアドレスはユニフォームリソースロケーション(Uniform Resource Location、URL)であってよい。オーディオ情報は端末が処理対象オーディオのリンクアドレスに従って処理対象オーディオを取得して、且つ音量調整パラメーターに従って処理対象オーディオを再生することを提示することに用いられる。
【0040】
選択可能に、サーバーは端末にオーディオ情報を送信する際にフィールドの形で音量調整パラメーターをオーディオ情報に記憶することができる。
【0041】
S207では、端末は処理対象オーディオのリンクアドレスに従って処理対象オーディオを取得する。
【0042】
本実施例において処理対象オーディオのリンクアドレスの形を制限しないが、サーバーと端末は約束された暗号化および復号化方法又は約束されたプロトコルを有することができ、端末がオーディオ情報を受信した際に、オーディオ情報を復号化し、それにより処理対象オーディオのリンクアドレスと音量調整パラメーターを取得することができるようにする。対応的に、上記サーバーは端末にオーディオ情報を送信する際に、対応した暗号化方法によってオーディオ情報をパッケージして暗号化することができる。
【0043】
本実施例において、サーバーは端末に処理対象オーディオを直接に送信しないため、オーディオ情報の占有帯域幅を減少した。対応的に、端末は処理対象オーディオのリンクアドレスを取得した後に、処理対象オーディオのリンクアドレスに従って処理対象オーディオを取得することができる。処理対象オーディオの取得は該処理対象オーディオのリンクアドレスに従って、該処理対象オーディオをダウンロードすることであってよい。
【0044】
S208では、端末は音量調整パラメーターに従って処理対象オーディオを再生する。
【0045】
上記S203における関連説明のように、音量調整パラメーターは処理対象オーディオの音量インジケーターを示すことができ、更に端末は音量調整パラメーターに従って処理対象オーディオを再生する際に、処理対象オーディオの再生音量を目標音量に調整して再生することができる。理解すべきなのは、目標音量は予め設定された目標音量値であってよい。例えば、該目標音量値は-3dbであってよい。
【0046】
本願はオーディオ処理方法を提供し、該方法は、処理対象オーディオに対して分割処理を実行して、N個のオーディオセグメントを取得し、Nは2以上の整数であるステップと、各オーディオセグメントの最大音量値に従って、ターゲットシーケンスを取得し、ターゲットシーケンスが最大音量値の大から小への順序にソートされたM個のオーディオセグメントの最大音量値を含み、MはNより小さい正の整数であるステップと、ターゲットシーケンスに従って、処理対象オーディオの音量調整パラメーターを取得し、音量調整パラメーターは処理対象オーディオの再生音量を目標音量に調整することに用いられるステップと、を含む。本願によるオーディオ処理方法は予め取得された音量調整パラメーターによって再生するオーディオの音量を調整して処理することができ、更に、オーディオの再生音量を目標音量に調整させ、ユーザーがオーディオの音量を頻繁に調整する問題を避ける。
【0047】
以下、図4を組み合わせて上記実施例S203におけるサーバーがターゲットシーケンスに従って音量調整パラメーターを取得する過程を説明する。音量調整パラメーターを取得する過程をより良く説明するために、まず本実施例におけるターゲットシーケンス、及びターゲットシーケンスを取得する方法を説明する。図4は本願による音量調整パラメーターを取得する概略的なフローチャートである。図4に示すように、対応する上記実施例におけるS202は以下のステップを含んでよく、
S2021では、各オーディオセグメントにおける各サンプリングポイントのオーディオ量子化値に従って、各オーディオセグメントの最大オーディオ量子化値を確定する。
【0048】
本実施例においてサーバーに処理対象オーディオのオーディオデータが記憶されてもよく、該オーディオデータは処理対象オーディオのサンプリングポイントとオーディオ量子化値との対応関係であってよい。サンプリングポイントとはサンプリング時点を指し、該サンプリング時点は上記S201における時点であってよい。オーディオ量子化値とは対応したサンプリングポイントのオーディオ信号を量子化処理した量子化値を指す。量子化処理とはサンプリングポイントのオーディオ信号のアナログ信号を振幅値化して、即ちオーディオ信号のアナログ信号の値の範囲に基づきオーディオ量子化値を確定することを指す。オーディオ量子化値のビット数が大きいほど、カラーを示すビット数(8ビットは256色を示し、16ビットは65536色を示す)と同様に、オーディオの解像度が高く、オーディオ信号の振幅変化をより細かく調整できる。
【0049】
N個のオーディオセグメントを取得した後に、記憶された処理対象オーディオのサンプリングポイントとオーディオ量子化値との対応関係に従って、N個のオーディオセグメントにおける各サンプリングポイントのオーディオ量子化値を取得することができる。更に、各オーディオセグメントの中で最大オーディオ量子化値を確定することができる。
【0050】
例示的に、Nは2であり、各オーディオセグメントの中に3つのサンプリングポイントを有し、一番目のオーディオセグメントにおける3つのサンプリングポイントに対応したオーディオ量子化値はそれぞれ10000、15000及び20000であり、二番目のオーディオセグメントにおける3つのサンプリングポイントに対応したオーディオ量子化値はそれぞれ15000、20000及び25000である。対応的に、この2つのオーディオセグメントにおける最大オーディオ量子化値はそれぞれ20000と25000である。
【0051】
S2022では、各オーディオセグメントの最大オーディオ量子化値に従って、各オーディオセグメントの最大音量値を取得する。
【0052】
本実施例における各オーディオセグメントの最大音量値は、各オーディオセグメントの最大オーディオ量子化値に対応した音量値である。オーディオ量子化値と音量値は対応した変換関係を有し、各サンプリングポイントのオーディオ量子化値に従って各サンプリングポイントに対応した音量値を取得することができる。対応的に、各オーディオセグメントの最大オーディオ量子化値に従って、各オーディオセグメントの最大音量値を取得することができる。
【0053】
オーディオ量子化値と音量値との間の対応関係は下記の式1に示すようであり、
【0054】
【数1】
Yはオーディオ量子化値を示し、Xは音量値を示す。
【0055】
例示的に、各オーディオセグメントの最大オーディオ量子化値を取得した後に、式1に基づき各オーディオセグメントの最大音量値を取得することができる。
【0056】
S2023では、最大音量値が大から小までの順序に従って、N個のオーディオセグメントの最大音量値をソートして、初期シーケンスを取得する。
【0057】
各オーディオセグメントの最大音量値を取得した後に、最大音量値の大から小までの順序に従って、N個のオーディオセグメントの最大音量値をソートして、初期シーケンスを取得することができる。
【0058】
例示的に、Nは8であり、且つ8個のオーディオセグメントに対応した最大音量値が大から小まで、それぞれ30db、28db、27db、24db、22db、21db、20db及び19dbである。対応的に、該初期シーケンスは{30db、28db、27db、24db、22db、21db、20db及び19db}である。
【0059】
S2024では、処理対象オーディオの時間長さ、及びオーディオの時間長さとターゲットシーケンスに含まれたオーディオセグメントの最大音量値の個数との対応関係に従って、Mを確定する。
【0060】
本実施例において、異なる時間長さを有する処理対象オーディオは、対応したターゲットシーケンスにおける最大音量値の個数も異なる。選択可能に、処理対象オーディオの時間長さが小さいほど、Mが小さくなり、処理対象オーディオの時間長さが大きいほど、Mが大きくなる。処理対象オーディオの時間長さが小さく、その音量の突然変異可能性も小さいため、小さいMを選択してもよく、即ち少ない最大音量値に従って、ターゲットシーケンスを迅速的に確定することができ、時間長さが大きい処理対象オーディオに対して、その音量の変化可能性が大きく、より正確なターゲットシーケンスを取得するように、大きいM、即ち多い最大音量値を選択する必要がある。
【0061】
例示的に、表1はオーディオの時間長さとターゲットシーケンスに含まれたオーディオセグメントの最大音量値の個数Mとの対応関係を示し、理解すべきなのは、表1は該対応関係の1つの形だけである。
【0062】
【表1】
【0063】
表1に示すように、処理対象オーディオの時間長さは1分間~5分間である場合に、該オーディオの時間長さとターゲットシーケンスに含まれたオーディオセグメントの最大音量値の個数との対応関係に従って、処理対象オーディオに対応したターゲットシーケンスに含まれた最大音量値の個数Mが5であるのを確定することができる。
【0064】
S2025では、初期シーケンスから前のM個の最大音量値を抽出して、ターゲットシーケンスを取得する。
【0065】
本実施例において、初期シーケンス、即ちN個の最大音量値から、前のM個の最大音量値を抽出して、ターゲットシーケンスを取得することができる。つまり、N個の最大音量値における前のM個の最大音量値はターゲットシーケンスを形成した。
【0066】
例示的に、処理対象オーディオの時間長さは1分間~5分間である場合に、Mが5である。初期シーケンスは{30db、28db、27db、24db、22db、21db、20db及び19db}である場合に、ターゲットシーケンスが{30db、28db、27db、24db、22db}である。
【0067】
上記のように、本願におけるターゲットシーケンスを取得する方法を詳しく説明し、上記S2021-S2025の上で、以下、図4を組み合わせ、本願による音量調整パラメーターを取得する過程を更に説明する。図4に示すように、本実施例において音量調整パラメーターを取得するS203は、以下のステップを含んでよく、
S2031では、ターゲットシーケンスにおける全ての隣接する2つの最大音量値の差は全て差閾値以下であると、ターゲットシーケンスの最大音量値の平均値、及び処理対象オーディオの時間長さに従って、処理対象オーディオの音量値平均値を取得する。
【0068】
ターゲットシーケンスに大から小までソートするM個の最大音量値が含まれる。理解すべきなのは、本実施例における音量調整パラメーターは処理対象オーディオの音量値平均値である。
【0069】
本実施例において、ターゲットシーケンスにおける隣接する2つの最大音量値を減算して隣接する2つの最大音量値の差を取得する。ターゲットシーケンスにおける全ての隣接する2つの最大音量値の差が全て差閾値以下であると、ターゲットシーケンスの最大音量値の平均値、及び処理対象オーディオの時間長さに従って、処理対象オーディオの音量値平均値を取得する。
【0070】
例示的に、ターゲットシーケンスは{30db、28db、27db、25db、24db}であり、差閾値が3dbである。ターゲットシーケンスにおける隣接する2つの最大音量値の差は全て差閾値より小さいと、該ターゲットシーケンスにおける最大音量値の平均値(例えば26.8db)と処理対象オーディオの時間長さを取得し、処理対象オーディオの音量値平均値を取得する。
【0071】
S2032では、ターゲットシーケンスの中で、差が差閾値より大きい隣接する2つの最大音量値が存在すると、ターゲットシーケンスから大きい最大音量値の後に位置する全ての最大音量値を削除し、処理されたターゲットシーケンスを取得し、処理されたターゲットシーケンスにおける全ての隣接する2つの最大音量値の差は全て差閾値以下である。
【0072】
本実施例において、ターゲットシーケンスにおける隣接する2つの最大音量値を減算して隣接する2つの最大音量値の差を取得する。ターゲットシーケンスの中で、差が差閾値より大きい隣接する2つの最大音量値が存在すると、ターゲットシーケンスから大きな最大音量値の後に位置する全ての最大音量値を削除し、処理されたターゲットシーケンスを取得する。
【0073】
例示的に、ターゲットシーケンスは{30db、28db、27db、22db、21db}であり、差閾値が3dbである。ターゲットシーケンスにおいて27dbと22dbとの間の差が該差閾値より大きいと、ターゲットシーケンスから大きい最大音量値27dbの後に位置する全ての最大音量値を削除して、処理されたターゲットシーケンス{30db、28db、27db}を取得する。
【0074】
対応的に、処理されたターゲットシーケンスにおける全ての隣接する2つの最大音量値の差が全て差閾値以下である。以上に示すように、処理されたターゲットシーケンス{30db、28db、27db}におけるすべての隣接する2つの最大音量値の差は全て3dbより小さい。
【0075】
S2033では、処理されたターゲットシーケンスの最大音量値の平均値をターゲットシーケンスの最大音量値の平均値として、且つターゲットシーケンスの最大音量値の平均値、及び処理対象オーディオの時間長さに従って、処理対象オーディオの音量値の平均値を取得する。
【0076】
本実施例において、ターゲットシーケンスを処理した後に得られた処理されたターゲットシーケンスの最大音量値の平均値をターゲットシーケンスの最大音量値の平均値とすることができる。例示的に、処理されたターゲットシーケンス{30db、28db、27db}の平均値28.3dbをターゲットシーケンスの最大音量値の平均値とする。更に、ターゲットシーケンスの最大音量値の平均値28.3db、及び処理対象オーディオの時間長さに従って、処理対象オーディオの音量値平均値を取得する。ターゲットシーケンスの最大音量値の平均値、及び処理対象オーディオの時間長さに従って、処理対象オーディオの音量値平均値を取得する過程はS2023における関連説明を参照することができ、ここでは繰り返さない。
【0077】
理解すべきなのは、上記S2031とS2032-S2033は代替実行のモードであり、前後順位に違いがない。
【0078】
本実施例において、ターゲットシーケンスにおける最大音量値の平均値と処理対象オーディオの時間長さに従って、処理対象オーディオの音量値平均値を取得する具体的な方法は、以下のようであってよく、
1、処理対象オーディオの時間長さが時間長さ閾値以下であると、ターゲットシーケンスの最大音量値の平均値を候補平均値として、候補平均値に従って、処理対象オーディオの音量値平均値を取得する。
【0079】
2、処理対象オーディオの時間長さが時間長さ閾値より大きいと、ターゲットシーケンスに従って平滑化係数を確定し、平滑化係数に従ってターゲットシーケンスの最大音量値の平均値を処理して、候補平均値を取得し、且つ候補平均値に従って、処理対象オーディオの音量値平均値を取得する。
【0080】
本実施例において、サーバーに時間長さ閾値が記憶され、例えば該時間長さ閾値が5分間である。ターゲットシーケンス(上記処理されたターゲットシーケンスを含む)における全ての隣接する2つの最大音量値の差は全て差閾値以下であるため、該ターゲットシーケンスは処理対象オーディオの最大音量値の間の滑らかな変化を示し、突然変異がない。時間長さが短い処理対象オーディオ、例えば時間長さが5分間より小さいオーディオに対して、オーディオの前後に突然変異が発生する可能性が小さい。時間長さが長い処理対象オーディオ、例えば時間長さが5分間より大きいオーディオに対して、前の5分間で、オーディオの前後に突然変異が発生する可能性があるが、時間長さの正常に伴って、前後のオーディオの音量の変化に突然変異が発生する可能性が大きいため、更に時間長さが時間長さ閾値より大きい処理対象オーディオのターゲットシーケンスの最大音量値の平均値を平滑化する必要がある。
【0081】
本実施例においてターゲットシーケンスに従って平滑化係数を確定することができる。選択可能に、ターゲットシーケンスにおける最大音量値に従って平滑化係数を確定する。例えば、本実施例においてターゲットシーケンスにおける最大音量値に従って平滑化係数を確定する規則を予め設定して取得することができる。例えば、上記表1に示すように、時間長さが5分間より大きいオーディオ、ターゲットシーケンスにおける最大音量値の個数は10個である。できるだけ処理対象オーディオの音量変化を示すために、本実施例においてターゲットシーケンスにおける一番目の最大音量値と五番目の最大音量値の商を取得することができる。該商及び予め設定された商と平滑化係数との対応関係に従って、ターゲットシーケンスの平滑化係数を確定する。
【0082】
以下の表2に示すようなものは商と平滑化係数との対応関係である。
【0083】
【表2】
【0084】
表2に示すように、Max(1)、 Max(5)はそれぞれターゲットシーケンスにおける一番目の最大音量値、五番目の最大音量値であり、Max(1)/ Max(5)は一番目の最大音量値と五番目の最大音量値との商である。該商と平滑化係数は対応関係を有し、本実施例において処理対象オーディオにおける一番目の最大音量値と五番目の最大音量値との商、及び商と平滑化係数との対応関係に従って、処理対象オーディオのターゲットシーケンスの平滑化係数を確定することができる。
【0085】
選択可能に、本実施例において平滑化係数に従ってターゲットシーケンスの最大音量値の平均値を処理し、即ちターゲットシーケンスの最大音量値の平均値を該平滑化係数で除算し、候補平均値を取得する。
【0086】
以下、本実施例における候補平均値に従って、処理対象オーディオの音量値平均値を取得する方法を説明し、
本実施例において候補平均値を取得した後に、該候補平均値を仮定の最後の処理対象オーディオの音量値平均値として処理対象オーディオの音量値を処理することができ、該候補平均値処理に従って処理対象オーディオを処理した後に得られた音量値が予め設定された音量範囲の上限を超えたか否か、候補平均値を処理するか否かを検出する。予め設定された音量範囲は予め設定されたものである。
【0087】
選択可能に、本実施例において候補平均値、予め設定された音量値及びターゲットシーケンスにおける一番目の最大音量値に従って、カットオフ音量値を取得する。
【0088】
下記の式2に基づきカットオフ音量値gを取得することができ、
【0089】
【数2】
【0090】
avg’は候補平均値を示し、Aは予め設定された音量値を示し、Max(1)はターゲットシーケンスにおける一番目の最大音量値である。
【0091】
カットオフ音量値が0以下であると、該候補平均値に従って処理対象オーディオを処理した後に得られた音量値が予め設定された音量範囲の上限を超えなかったのを確定し、直接に候補平均値を処理対象オーディオの音量値平均値とすることができる。
【0092】
カットオフ音量値が0より大きいと、該候補平均値に従って処理対象オーディオを処理した後に得られた音量値が予め設定された音量範囲の上限を超えたのを確定し、候補平均値を縮小処理して、縮小処理後の候補平均値に従って取得したカットオフ音量値を0以下にさせ、且つ縮小処理後の候補平均値を処理対象オーディオの音量値平均値とする。つまり、縮小処理後の候補平均値は上記式2に従って取得したカットオフ音量値gが0以下であると、縮小処理後の候補平均値を処理対象オーディオの音量値平均値とする。
【0093】
候補平均値を縮小処理する方法は一定の縮小間隔に基づき縮小処理することができ、例えば、候補平均値が30dbであると、毎回に2dbを縮小する方法によって候補平均値を縮小処理することができる。
【0094】
本実施例においてターゲットシーケンスを取得する際に処理対象オーディオの時間長さに従って、ターゲットシーケンスに含まれた最大音量値の個数を柔軟に確定することができ、ターゲットシーケンスを迅速で正確に取得することができ、更に、本実施例において、ターゲットシーケンスを取得した後に、更にターゲットシーケンスにおける最大音量値をディザリング処理(即ちターゲットシーケンスから大きい最大音量値の後に位置する全ての最大音量値を削除する)し、及び処理対象オーディオの時間長さに従ってターゲットシーケンスの最大音量値の平均値を処理し、取得した処理対象オーディオの音量値平均値、即ち音量調整パラメーターがより正確であり、処理対象オーディオの音量特徴をより適合するように特徴付けることができ、それにより端末に該音量調整パラメーターに従って処理対象オーディオを正確に処理し、即ち処理対象オーディオの再生音量を目標音量に調整させる。
【0095】
以下、図5を組み合わせて端末の観点から本願によるオーディオ処理方法を更に説明し、図5は本願による端末が音量調整パラメーターに従って処理対象オーディオを再生する方法の概略的なフローチャートである。図5に示すように、本実施例によるオーディオ処理方法は、以下のステップを含んでよく、
S2081では、音量調整パラメーターに従って、処理対象オーディオの音量を調整する。
【0096】
選択可能に、本実施例において端末に予め設定された音量値が記憶され、該予め設定された音量値は例えば-3dbである。本実施例において端末は音量調整パラメーターと予め設定された音量値に従って、処理対象オーディオの音量調整係数を取得することができる。音量調整パラメーターは上記図4で取得した処理対象オーディオの音量値平均値である。
【0097】
下記の式3で処理対象オーディオの音量調整係数を取得することができ、
【0098】
【数3】
【0099】
Gは処理対象オーディオの音量調整係数を示し、Mavgは音量調整パラメーターを示し、Aは予め設定された音量値を示す。
【0100】
処理対象オーディオの音量調整係数を取得した後に、音量調整係数に従って、処理対象オーディオのフレームごとのオーディオの音量を調整することができる。オーディオ情報に、処理対象オーディオの各オーディオセグメントにおける各サンプリングポイントのオーディオ量子化値が更に含まれ、音量調整係数、及び処理対象オーディオの各オーディオセグメントにおける各サンプリングポイントのオーディオ量子化値に従って、処理対象オーディオにおけるフレームごとのオーディオの音量を調整する。
【0101】
選択可能に、端末は処理対象オーディオを取得した後に、処理対象オーディオの各オーディオセグメントにおける各サンプリングポイントのオーディオ量子化値に従って、各オーディオセグメントにおける各サンプリングポイントの音量値を確定することができ、即ち処理対象オーディオにおける各サンプリングポイントの音量値を確定することができる。各サンプリングポイントのオーディオ量子化値に従って各サンプリングポイントの音量値を確定する方法は上記式1によって取得することができる。
【0102】
本実施例において処理対象オーディオをフレーミング処理して、フレームごとのオーディオにおけるサンプリングポイントの音量値を取得することができる。端末は音量調整係数を取得した後に、処理対象オーディオのフレームごとのオーディオの音量を調整することができる。選択可能に、フレームごとのオーディオにおける各サンプリングポイントの音量値と該音量調整係数を乗算して、フレームごとのオーディオにおける各サンプリングポイントの目標音量を確定することができる。
【0103】
選択可能に、調整された処理対象オーディオのフレームごとのオーディオの音量は全て音量の予め設定された範囲内にあると、直接にフレームごとのオーディオにおける各サンプリングポイントの目標音量に従って、音量が調整された処理対象オーディオを再生することができる。
【0104】
選択可能に、上記の実施例のステップにおいて処理対象オーディオの音量の上限値に対してカットオフ保護処理を実行したが、処理対象オーディオの音量の下限値にカットオフ保護処理を実行しなかったため、対応的に、調整されたx番目フレームのオーディオの音量が音量の予め設定された範囲内に位置しない場合に、調整されたx番目フレームのオーディオの音量の下限が音量の予め設定された範囲の下限値を超えたと確定すると、音量調整パラメーターを縮小処理し、x番目フレームのオーディオの音量を再調整して、再調整されたx番目フレームのオーディオの音量を音量の予め設定された範囲に位置するようにする。
【0105】
例えば、音量の予め設定された範囲は[-4db、-2db]であり、調整されたx番目フレームのオーディオの音量が該音量の予め設定された範囲に位置しないと、音量調整パラメーターを縮小処理する必要があり、即ち処理対象オーディオの音量値平均値を縮小処理する。縮小処理の方法は一定の縮小間隔で音量調整パラメーターを縮小処理することができ、例えば、音量調整パラメーターは30dbであると、毎回に2dbを縮小する方法によって音量調整パラメーターを縮小処理することができる。更に、縮小処理後の音量調整パラメーターに従ってx番目フレームのオーディオの音量を再調整し、再調整されたx番目フレームのオーディオの音量を音量の予め設定された範囲内に位置するようにする。つまり、本実施例において縮小処理後の音量調整パラメーターに従ってx番目フレームのオーディオの音量を再調整し、音量の予め設定された範囲内にある。
【0106】
S2082では、音量調整された処理対象オーディオを再生する。
【0107】
処理対象オーディオにおけるフレームごとのオーディオの時間順序に従って、フレームごとに調整された処理対象オーディオを再生する。フレームごとのオーディオを調整した処理対象オーディオの再生は、フレームごとのオーディオにおける各サンプリングポイントの目標音量に従って、フレームごとに音量調整された処理対象オーディオを再生することができる。
【0108】
本実施例において、端末は音量調整パラメーターに従って処理対象オーディオにおけるフレームごとのオーディオの再生音量を目標音量に調整することができ、且つフレームごとのオーディオの調整された目標音量をすべて予め設定された音量範囲内に位置することができ、ソースが異なるオーディオを再生する際の音量が全て予め設定された音量範囲にあるのを確保し、ユーザーが音量を頻繁に調整する問題を避ける。
【0109】
選択可能に、本願による他の実施例において、上記実施例におけるS201-S203、及びS208におけるステップは全て端末により実行することができ、このような場合で、S204-S207におけるステップを実行しなくてもよい。
【0110】
図6は本願による1つのオーディオ処理装置の構造模式図である。該オーディオ処理装置はサーバー又は端末であってよい。図6に示すように、該オーディオ処理装置600は、処理モジュール601とトランシーバーモジュール602を備える。
【0111】
処理モジュール601は、処理対象オーディオに対して分割処理を実行して、N個のオーディオセグメントを取得し、Nは2以上の整数であること、各オーディオセグメントの最大音量値に従って、ターゲットシーケンスを取得し、ターゲットシーケンスが最大音量値の大から小への順序にソートされたM個のオーディオセグメントの最大音量値を含み、MはNより小さい正の整数であること、及びターゲットシーケンスに従って、処理対象オーディオの音量調整パラメーターを取得し、音量調整パラメーターが処理対象オーディオの再生音量を目標音量に調整することに用いられることに用いられる。
【0112】
選択可能に、音量調整パラメーターは処理対象オーディオの音量値平均値である。
【0113】
処理モジュール601は、具体的には、ターゲットシーケンスにおける全ての隣接する2つの最大音量値の差が全て差閾値以下であると、ターゲットシーケンスの最大音量値の平均値、及び処理対象オーディオの時間長さに従って、処理対象オーディオの音量値平均値を取得すること、或いは、
ターゲットシーケンスの中で、差が差閾値より大きい隣接する2つの最大音量値が存在すると、ターゲットシーケンスから大きな最大音量値の後に位置する全ての最大音量値を削除し、処理されたターゲットシーケンスを取得し、処理されたターゲットシーケンスにおける全ての隣接する2つの最大音量値の差が全て差閾値以下であり、処理されたターゲットシーケンスの最大音量値の平均値をターゲットシーケンスの最大音量値の平均値として、且つターゲットシーケンスの最大音量値の平均値、及び処理対象オーディオの時間長さに従って、処理対象オーディオの音量値の平均値を取得することに用いられる。
【0114】
選択可能に、処理モジュール601は、具体的には、処理対象オーディオの時間長さが時間長さ閾値以下であると、ターゲットシーケンスの最大音量値の平均値を候補平均値とし、処理対象オーディオの時間長さが時間長さ閾値より大きいと、ターゲットシーケンスに従って平滑化係数を確定し、平滑化係数に従ってターゲットシーケンスの最大音量値の平均値を処理して、候補平均値を取得し、候補平均値に従って、処理対象オーディオの音量値平均値を取得することに用いられる。
【0115】
選択可能に、処理モジュール601は、具体的には、候補平均値、予め設定された音量値及びターゲットシーケンスにおける一番目の最大音量値に従って、カットオフ音量値を取得し、カットオフ音量値が0以下であると、候補平均値を処理対象オーディオの音量値平均値とし、カットオフ音量値が0より大きいと、候補平均値を縮小処理して、縮小処理後の候補平均値に従って取得したカットオフ音量値を0以下にさせ、且つ縮小処理後の候補平均値を処理対象オーディオの音量値平均値とする。
【0116】
選択可能に、各オーディオセグメントの最大音量値は各オーディオセグメントの最大オーディオ量子化値に対応する音量値である。
【0117】
処理モジュール601は、具体的には、各オーディオセグメントにおける各サンプリングポイントのオーディオ量子化値に従って、各オーディオセグメントの最大オーディオ量子化値を確定すること、各オーディオセグメントの最大オーディオ量子化値に従って、各オーディオセグメントの最大音量値を取得すること、最大音量値が大から小までの順序に従って、N個のオーディオセグメントの最大音量値をソートして、初期シーケンスを取得すること、処理対象オーディオの時間長さ、及びオーディオの時間長さとターゲットシーケンスに含まれたオーディオセグメントの最大音量値の個数との対応関係に従って、Mを確定すること、及び初期シーケンスから前のM個の最大音量値を抽出して、ターゲットシーケンスを取得することに用いられる。
【0118】
選択可能に、処理モジュール601は、具体的に音量調整パラメーターに従って、処理対象オーディオを音量調整すること、及び音量調整された処理対象オーディオを再生することに用いられる。
【0119】
選択可能に、処理モジュール601は、具体的に音量調整パラメーターと予め設定された音量値に従って、処理対象オーディオの音量調整係数を取得すること、及び音量調整係数に従って、処理対象オーディオのフレームごとのオーディオの音量を調整することに用いられる。
【0120】
選択可能に、処理モジュール601は、具体的に音量調整係数、及び処理対象オーディオの各オーディオセグメントにおける各サンプリングポイントのオーディオ量子化値に従って、処理対象オーディオにおけるフレームごとのオーディオの音量を調整することに用いられる。
【0121】
選択可能に、処理モジュール601は、具体的に、調整されたx番目フレームのオーディオの音量が音量の予め設定された範囲に位置しないと、音量調整パラメーターを縮小処理すること、及び縮小処理後の音量調整パラメーターに従ってx番目フレームのオーディオの音量を再調整し、再調整されたx番目フレームのオーディオの音量を音量の予め設定された範囲に位置させるようにすることに用いられる。
【0122】
理解すべきなのは、オーディオ処理装置が端末である場合に、その中のトランシーバーモジュール601と処理モジュール602は以下の動作を実行しなくてもよい。
【0123】
トランシーバーモジュール602は、端末にオーディオ情報を送信することに用いられ、オーディオ情報に処理対象オーディオのリンクアドレスと音量調整パラメーターが含まれ、オーディオ情報は端末が処理対象オーディオのリンクアドレスに従って処理対象オーディオを取得して、且つ音量調整パラメーターに従って処理対象オーディオを再生することを提示することに用いられる。
【0124】
選択可能に、オーディオ情報に処理対象オーディオの各オーディオセグメントにおける各サンプリングポイントのオーディオ量子化値が更に含まれる。
【0125】
選択可能に、トランシーバーモジュール602は更に、端末が送信したオーディオ要求情報を受信することに用いられ、オーディオ要求情報は処理対象オーディオを取得することを指示することに用いられる。
【0126】
処理モジュール601は更に、オーディオ要求情報に従って、処理対象オーディオを取得することに用いられる。
【0127】
本実施例によるオーディオ処理装置は上記のオーディオ処理方法の実現原理と技術効果と同様であり、ここで繰り返さない。
【0128】
図7は本願による他のオーディオ処理装置の構造模式図である。該オーディオ処理装置は端末であってよい。図7に示すように、該オーディオ処理装置700は処理モジュール701とトランシーバーモジュール702を備える。
【0129】
トランシーバーモジュール702は、サーバーからのオーディオ情報を受信することに用いられ、オーディオ情報に処理対象オーディオのリンクアドレスと音量調整パラメーターが含まれ、
処理モジュール701は、処理対象オーディオのリンクアドレスに従って処理対象オーディオを取得すること、及び音量調整パラメーターに従って処理対象オーディオを再生することに用いられる。
【0130】
選択可能に、トランシーバーモジュール702は、更にサーバーにオーディオ要求情報を送信することに用いられ、オーディオ要求情報はサーバーが処理対象オーディオを取得することを指示することに用いられる。
【0131】
処理モジュール701は、具体的に音量調整パラメーターに従って、処理対象オーディオを音量調整すること、及び音量調整された処理対象オーディオを再生することに用いられる。
【0132】
処理モジュール701は、具体的に、音量調整パラメーターと予め設定された音量値に従って、処理対象オーディオの音量調整係数を取得すること、及び音量調整係数に従って、処理対象オーディオのフレームごとのオーディオの音量を調整することに用いられる。
【0133】
処理モジュール701は、具体的に、音量調整係数、及び処理対象オーディオの各オーディオセグメントにおける各サンプリングポイントのオーディオ量子化値に従って、処理対象オーディオにおけるフレームごとのオーディオの音量を調整することに用いられる。
【0134】
処理モジュール701は、具体的に、調整されたx番目フレームのオーディオの音量が音量の予め設定された範囲に位置しないと、音量調整パラメーターを縮小処理すること、及び縮小処理後の音量調整パラメーターに従ってx番目フレームのオーディオの音量を再調整し、再調整されたx番目フレームのオーディオの音量を音量の予め設定された範囲に位置させるようにすることに用いられる。
【0135】
本実施例によるオーディオ処理装置は上記オーディオ処理方法の実現原理と技術効果と同様であり、ここでは繰り返さない。
【0136】
図8は本願による電子機器の構造模式図である。該電子機器は例えば端末機器又はサーバー、即ち上記の図6又は図7におけるオーディオ処理装置であってよい。図8に示すように、該電子機器800はメモリ801と少なくとも1つのプロセッサー802を含む。
【0137】
メモリ801は、プログラム命令を記憶することに用いられる。
【0138】
プロセッサー802は、プログラム命令が実行される際に本実施例におけるオーディオ処理方法を実現することに用いられ、具体的な実現原理は上記実施例を参照することができ、本実施例はここで繰り返さない。
【0139】
該電子機器800は入力/出力インターフェース803を更に含んでもよい。
【0140】
入力/出力インターフェース803は独立した出力インターフェースと入力インターフェースであってもよいし、入力と出力を集積した集積インターフェースであってもよい。出力インターフェースはデータを出力することに用いられ、入力インターフェースは入力したデータを取得することに用いられる。
【0141】
本願は読み取り可能な記憶媒体を更に提供し、読み取り可能な記憶媒体に実行命令が記憶され、電子機器の少なくとも1つのプロセッサーは該実行命令を実行する際に、コンピューター実行命令がプロセッサーによって実行される際に、上記実施例におけるオーディオ処理方法を実現する。
【0142】
本願はプログラム製品を提供し、該プログラム製品が実行命令を含み、該実行命令が読み取り可能な記憶媒体に記憶される。電子機器の少なくとも1つのプロセッサーは読み取り可能な記憶媒体から該実行命令を読み取ることができ、少なくとも1つのプロセッサーは該実行命令を実行して電子機器に上記の様々な実施形態によるオーディオ処理方法を実施させる。
【0143】
本願によるいくつかの実施例において、開示した装置と方法は、その他の方式によって実現されることができることを理解すべきである。例えば、以上のような装置実施例は単に例示的なものだけであり、例えば、前記モジュールの分割は、ロジック機能分割だけであり、実際な実現時に別の分割方式があり、例えば複数のモジュール又は組立体を結合してもよいし、又は別のシステムに集積してもよいし、又はいくつかの特徴を無視でき、又は実行しなくてもよい。また、表示又は検討した互いの間にカップリング、又は直接カップリング、又は通信接続はいくつかのインターフェース、装置又はモジュールによる間接カップリング又は通信接続であってよく、電気的、機械的又はその他の形式であってもよい。
【0144】
前記の分離部材として説明したモジュールは物理的に分離してもよいし、又は分離しなくてもよく、モジュールとして表示する部材は物理ユニットであってもよいし、又は物理ユニットではなくてもよく、即ち1つの場所に位置してもよいし、複数のネットワークユニットに分布してもよい。実際の需要に応じてその中の一部又は全部のモジュールを選択して本実施例手段の目的を実現することができる。
【0145】
また、本願の各実施例における各機能モジュールは1つの処理ユニットに集積されてもよいし、各モジュールが単独に物理的に存在してもよいし、2つ又は2つ以上のモジュールが1つのモジュールに集積されてもよい。上記集積されたモジュールはハードウェアの形で実現されてもよいし、ハードウェアとソフトウェア機能モジュールを加える形で実現されてもよい。
【0146】
上記のソフトウェア機能モジュールの形で実現する集積されたモジュールは、1つのコンピューター読み取り可能な記憶媒体に記憶されることができる。上記ソフトウェア機能モジュールは1つの記憶媒体に記憶され、一台のコンピューター機器(パーソナルコンピュータ、サーバー、或いはネットワーク機器等である)又はプロセッサー(英語、processor)に本願の各実施例に記載の方法の一部のステップを実行させるための若干の指令を含む。前記の記憶媒体は、Uディスク、モバイルハードディスク、読み出し専用記憶装置(英語、Read-Only Memory、「ROM」と略称)、ランダムアクセスメモリ(英語、Random Access Memory、「RAM」と略称)、ディスク或いはCD等の様々なプログラムコードを記憶できる媒体を含む。
【0147】
上記サーバー或いは端末の実施例において、理解すべきなのは、処理モジュールは中央処理ユニット(英語、Central Processing Unit、CPUと略称)であってもよいし、その他の汎用プロセッサー、デジタル信号プロセッサー(英語、Digital Signal Processor、DSPと略称)、特定用途向け集積回路(英語、Application Specific Integrated Circuit、ASICと略称)等であってもよい。汎用プロセッサーはマイクロプロセッサーであってもよいし、又は該プロセッサーは任意の従来のプロセッサー等であってもよい。発明に開示された方法を組み合わせたステップは直接にハードウェアプロセッサーにより実行して完成されるように体現され、又はプロセッサーにおけるハードウェア及びソフトウェアモジュールの組み合わせによって実行して完成されるように体現されることができる。
【0148】
最終的に説明すべきなのは、以上の各実施例は制限ではなく、本願の技術的解決手段を説明するためだけのものであり、前記の各実施例を参照して本願を詳しく説明したが、当業者は、依然として前記の各実施例に記載の技術的解決手段を修正し、又はその中の一部又は全部の技術的特徴を等価置換することができ、これらの修正又は置換は、対応した技術的解決手段の本質を本願の各実施例の技術的解決手段の範囲からから逸脱するようにさせるものではないのを理解すべきである。
図1
図2
図3
図4
図5
図6
図7
図8