(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2025-02-04
(54)【発明の名称】オーディオ信号増強方法、装置、機器および読み取り可能な記録媒体
(51)【国際特許分類】
G10L 21/0316 20130101AFI20250128BHJP
G10L 25/51 20130101ALI20250128BHJP
H03G 9/10 20060101ALI20250128BHJP
H03G 11/00 20060101ALI20250128BHJP
【FI】
G10L21/0316
G10L25/51
H03G9/10
H03G11/00 002
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023532254
(86)(22)【出願日】2023-03-16
(85)【翻訳文提出日】2023-05-25
(86)【国際出願番号】 CN2023081940
(87)【国際公開番号】W WO2024130865
(87)【国際公開日】2024-06-27
(31)【優先権主張番号】202211649357.3
(32)【優先日】2022-12-21
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】522237667
【氏名又は名称】エーエーシー テクノロジーズ (ナンジン) カンパニーリミテッド
【氏名又は名称原語表記】AAC Technologies (Nanjing) Co., Ltd.
(74)【代理人】
【識別番号】110001139
【氏名又は名称】SK弁理士法人
(74)【代理人】
【識別番号】100130328
【氏名又は名称】奥野 彰彦
(74)【代理人】
【識別番号】100130672
【氏名又は名称】伊藤 寛之
(72)【発明者】
【氏名】陳陽振
(72)【発明者】
【氏名】叶利剣
【テーマコード(参考)】
5J030
【Fターム(参考)】
5J030BA00
(57)【要約】
本発明によれば、オーディオ信号増強方法、装置、機器および読み取り可能な記録媒体が提供される。まず、実際オーディオ信号に対応する第1オーディオ特徴を取得し、そして、第1オーディオ特徴をトレーニング済み分類器に入力して分類識別し、実際オーディオ信号に対応するオーディオタイプ表徴データを取得し、最後に、オーディオタイプ表徴データを参照し、実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得する。本発明の実施形態によれば、トレーニング済み分類器を用い、実際オーディオ信号を分類識別し、ターゲットオーディオタイプに合致するターゲットオーディオ信号を増強することにより、ターゲットオーディオ信号を効果的に増強し、ターゲットオーディオ信号の増強精度を向上させることができる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
オーディオ信号増強方法であって、
実際オーディオ信号に対応する第1オーディオ特徴を取得するステップと、
前記第1オーディオ特徴をトレーニング済み分類器に入力して分類識別し、前記実際オーディオ信号に対応するオーディオタイプ表徴データを取得するステップと、
前記オーディオタイプ表徴データを参照し、前記実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得するステップと、を備える、
ことを特徴とするオーディオ信号増強方法。
【請求項2】
前記第1オーディオ特徴をトレーニング済み分類器に入力して分類識別する前記ステップの前に、
所定のオーディオ信号サンプルセットを取得するステップと、
前記オーディオ信号サンプルセットにおける複数のオーディオ信号サンプルに対応する第2オーディオ特徴をそれぞれ取得し、オーディオ特徴サンプルセットを取得するステップと、
前記オーディオ特徴サンプルセットに基づいて所定の分類器モデルをトレーニングし、トレーニング済みの前記分類器を取得するステップと、をさらに備える、
ことを特徴とする請求項1に記載のオーディオ信号増強方法。
【請求項3】
前記オーディオ信号サンプルセットにおける複数のオーディオ信号サンプルに対応する第2オーディオ特徴をそれぞれ取得する前記ステップの前に、
所定のフレーミング指標によって、前記オーディオ信号サンプルセットにおける各オーディオ信号サンプルに対してフレーミング処理を実行し、第1フレーム信号を取得するステップと、
ここで、前記フレーミング指標は、データフレーム単位長さと、隣接データフレームの重ね長さとを含み、
各前記第1フレーム信号におけるオーディオ特徴をそれぞれ抽出し、第1オーディオ特徴の組み合わせを取得するステップと、
ここで、前記オーディオ特徴は、時間領域特徴、周波数領域特徴、時間周波数領域特徴のうちの少なくとも1つを含み、
前記第1オーディオ特徴の組み合わせにおけるターゲットオーディオ特徴に対して平均演算および分散演算を実行し、前記第2オーディオ特徴を取得するステップと、をさらに備える、
ことを特徴とする請求項2に記載のオーディオ信号増強方法。
【請求項4】
前記実際オーディオ信号に対応する第1オーディオ特徴を取得する前記ステップの前に、
前記フレーミング指標によって、前記実際オーディオ信号に対してフレーミング処理を実行し、第2フレーム信号を取得するステップと、
各前記第2フレーム信号におけるオーディオ特徴をそれぞれ抽出し、第2オーディオ特徴の組み合わせを取得するステップと、
ここで、前記オーディオ特徴は、時間領域特徴、周波数領域特徴、時間周波数領域特徴のうちの少なくとも1つを含み、
前記第2オーディオ特徴の組み合わせにおけるターゲットオーディオ特徴に対して平均演算および分散演算を実行し、前記第1オーディオ特徴を取得するステップと、
または、前記実際オーディオ信号および過去オーディオ信号の前記第2オーディオ特徴の組み合わせに対して平均演算および分散演算を実行し、前記第1オーディオ特徴を取得するステップと、
ここで、前記過去オーディオ信号の信号収集時点は、前記実際オーディオ信号より前である、
をさらに備える、
ことを特徴とする請求項3に記載のオーディオ信号増強方法。
【請求項5】
前記オーディオタイプ表徴データを参照し、前記実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得する前記ステップは、
前記オーディオタイプ表徴データに対して所定回数のメディアンフィルタリングを実行し、異常値のないオーディオタイプ表徴データを取得するステップと、
前記異常値のないオーディオタイプ表徴データが前記ターゲットオーディオタイプに対応する場合、前記実際オーディオ信号において前記ターゲットオーディオタイプに合致する異なる周波数帯域の前記ターゲットオーディオ信号に対して利得および/またはダイナミックレンジ増強を実行し、増強オーディオ信号を取得するステップと、を含む、
ことを特徴とする請求項1に記載のオーディオ信号増強方法。
【請求項6】
前記実際オーディオ信号において前記ターゲットオーディオタイプに合致する異なる周波数帯域の前記ターゲットオーディオ信号に対して利得および/またはダイナミックレンジ増強を実行する前記ステップは、
前記実際オーディオ信号においてターゲットオーディオタイプに合致する異なる周波数帯域の前記ターゲットオーディオ信号に対し、所定のイコライザフェードイン・フェードアウト時間を参照して利得を実行し、および/または、所定のダイナミックレンジコントロールの時間パラメータを参照してダイナミックレンジ増強を実行するステップを含む、
ことを特徴とする請求項5に記載のオーディオ信号増強方法。
【請求項7】
前記オーディオタイプ表徴データを参照し、前記実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得する前記ステップの後に、
前記増強オーディオ信号に対してクリッピング処理を実行し、クリッピングのない増強オーディオ信号を取得するステップを備える、
ことを特徴とする請求項1~請求項6のいずれか1項に記載のオーディオ信号増強方法。
【請求項8】
オーディオ信号増強装置であって、
実際オーディオ信号に対応する第1オーディオ特徴を取得する取得モジュールと、
前記第1オーディオ特徴をトレーニング済み分類器に入力して分類識別し、前記実際オーディオ信号に対応するオーディオタイプ表徴データを取得する分類モジュールと、
前記オーディオタイプ表徴データを参照し、前記実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得する増強モジュールと、を備える、
ことを特徴とするオーディオ信号増強装置。
【請求項9】
電子機器であって、
メモリと、プロセッサとを備え、
前記メモリは、プログラム指示を含む情報を記録し、
前記プロセッサは、前記メモリに記録されたプログラムを実行し、
前記プロセッサは前記プログラムを実行すると、請求項1~請求項7のいずれか1項に記載の前記方法におけるステップを実行する、
ことを特徴とする電子機器。
【請求項10】
プログラムが記録されたコンピュータ読み取り可能な記録媒体であって、
前記プログラムがプロセッサによって実行されると、請求項1~請求項7のいずれか1項に記載の前記方法におけるステップを実行する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ処理技術分野に関し、特に、オーディオ信号増強方法、装置、機器および読み取り可能な記録媒体に関する。
【背景技術】
【0002】
ますます豊かになる国内外のゲームが世間の注目を集め、電子機器を用いてゲームすることは大衆文化の一つとなっている。ゲームの音声は、携帯電話等の電子機器に内蔵されたマイクロスピーカにより再生されるが、その出力が弱いため、ゲーム中の微弱なオーディオ信号、例えば足音の再生効果が良くない。従来技術では、ゲームにおける微弱なオーディオ信号を増強するため、固定利得のイコライザ(EQ、Equaliser)またはダイナミックレンジコントロール(DRC:Dynamic Range Control)が一般的に使用されていたが、これにより、銃声やプロペラ音などの他のオーディオ信号を圧縮したり、足音をチューニングする際に、他のオーディオ信号の音色に影響を与えたりする。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本発明は、オーディオ信号増強方法、装置、機器および読み取り可能な記録媒体を提供し、従来技術においてターゲットの微弱なオーディオ信号を増強するとき他のオーディオ信号の効果に影響を与える問題を少なくとも解決することを目的とする。
【課題を解決するための手段】
【0004】
本発明の第1実施形態によれば、オーディオ信号増強方法が提供される。このオーディオ信号増強方法は、
実際オーディオ信号に対応する第1オーディオ特徴を取得するステップと、
前記第1オーディオ特徴をトレーニング済み分類器に入力して分類識別し、前記実際オーディオ信号に対応するオーディオタイプ表徴データを取得するステップと、
前記オーディオタイプ表徴データを参照し、前記実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得するステップと、を備える。
【0005】
本発明の第2実施形態によれば、オーディオ信号増強装置が提供される。このオーディオ信号増強装置は、
前記取得モジュールは、実際オーディオ信号に対応する第1オーディオ特徴を取得する取得モジュールと、
分類モジュールは、前記第1オーディオ特徴をトレーニング済み分類器に入力して分類識別し、前記実際オーディオ信号に対応するオーディオタイプ表徴データを取得する分類モジュールと、
前記増強モジュールは、前記オーディオタイプ表徴データを参照し、前記実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得する増強モジュールと、を備える。
【0006】
本発明の第3実施形態によれば、電子機器が提供される。この電子機器は、メモリと、プロセッサとを備え、前記メモリは、プログラム指示を含む情報を記録し、前記プロセッサは、前記メモリに記録されたプログラムを実行し、前記プロセッサは前記プログラムを実行すると、本発明の第1実施形態に記載のオーディオ信号増強方法における各ステップを実行する。
【0007】
本発明の第4実施形態によれば、プログラムが記録されたコンピュータ読み取り可能な記録媒体を提供する。前記プログラムがプロセッサによって実行されると、本発明の第1実施形態に記載のオーディオ信号増強方法における各ステップを実行する。
【0008】
上記のとおり、本発明が提供するオーディオ信号増強方法、装置、機器および読み取り可能な記録媒体によれば、実際オーディオ信号に対応する第1オーディオ特徴を取得し、第1オーディオ特徴をトレーニング済み分類器に入力して分類識別し、実際オーディオ信号に対応するオーディオタイプ表徴データを取得し、オーディオタイプ表徴データを参照し、実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得する。本発明の実施形態によれば、トレーニング済み分類器を用い、実際オーディオ信号を分類識別し、ターゲットオーディオタイプに合致するターゲットオーディオ信号を増強することにより、ターゲットオーディオ信号を効果的に増強し、ターゲットオーディオ信号の増強精度を向上させることができる。
【図面の簡単な説明】
【0009】
【
図1】本発明の第1実施形態に係るオーディオ信号増強方法の基本的な流れを示す概要図である。
【
図2】本発明の第1実施形態によって提供されるフレーミング処理を示す概要図である。
【
図3】本発明の第1実施形態によって提供される入力オーディオを示す波形図である。
【
図4】本発明の第1実施形態によって提供される出力オーディオを示す波形図である。
【
図5】本発明の第2実施形態によって提供されるオーディオ信号増強方法の詳細フローを示す概要図である。
【
図6】本発明の第3実施形態によって提供されるオーディオ信号増強装置のプログラムモジュールを示す概要図である。
【
図7】本発明の第4実施形態によって提供される電子機器の構成を示す概要図である。
【発明を実施するための形態】
【0010】
本発明の目的、特徴および利点をより明確かつ理解しやすくするため、以下、本発明の実施形態における添付図面と併せ、本発明の実施形態における技術的解決策を明確かつ詳細に説明する。もちろん、下記説明する実施形態は、本発明の実施形態の一部に過ぎず、それに限定されてはない。本発明における実施形態に基づいて、当業者によって創造的な作業を行わずに得られる他のすべての実施形態は、本発明の保護範囲に含まれる。
【0011】
ターゲットとなる微弱なオーディオ信号を増強させる際に他のオーディオ信号の効果に影響を与えるという関連技術における問題を解決するため、本発明の第1実施形態では、オーディオ信号増強方法を提供する。
図1は、本実施形態に係るオーディオ信号増強方法の基本フローチャートである。このオーディオ信号増強方法は、以下のステップを含む。
【0012】
ステップ101では、実際オーディオ信号に対応する第1オーディオ特徴を取得する。
【0013】
具体的には、本実施形態において、実際オーディオ信号は、ゲームなどの実用化シナリオにおけるさまざまな種類のオーディオ信号、例えば、ゲームにおけるキャラクターの足音、銃声またはプロペラ音のオーディオ信号であってもよい。
【0014】
本実施形態に係るいくつかの態様において、実際オーディオ信号に対応する第1オーディオ特徴を取得するステップの前に、以下のステップをさらに含む:フレーミング指標によって、実際オーディオ信号に対してフレーミング処理を実行し、第2フレーム信号を取得するステップ、各第2フレーム信号におけるオーディオ特徴をそれぞれ抽出し、第2オーディオ特徴の組み合わせを取得するステップ、ここで、オーディオ特徴は、時間領域特徴、周波数領域特徴、時間周波数領域特徴のうちの少なくとも1つを含み、および、第2オーディオ特徴の組み合わせにおけるターゲットオーディオ特徴に対して平均演算および分散演算を実行し、第1オーディオ特徴を取得するステップ、または、実際オーディオ信号および過去オーディオ信号の第2オーディオ特徴の組み合わせに対して平均演算および分散演算を実行し、第1オーディオ特徴を取得するステップ、ここで、過去オーディオ信号の信号収集時点は、実際オーディオ信号より前である。
【0015】
具体的に説明すると、本実施形態では、フレーミング指標として、データフレームの単位長さと、隣接するデータフレームのオーバーラップ長さ(すなわち、フレームシフト)とを含む。
図2に示されるように、本実施形態において、好ましくは、オーバーラップフレーミングを用いてフレーミングが行われる。オーバーラップフレーミングによって、連続性を維持するように、フレーム間の遷移をスムーズにすることができる。単位フレーム長さは20msであり、フレームのオーバーラップ長さは単位フレーム長さの1/2であり、すなわち、10msである。本実施形態において単位フレーム長さおよびフレームオーバーラップ長さの具体的な値は、典型的な例に過ぎず、本実施形態に対する固有の限定を構成しないことを理解すべきである。フレーム信号を得た後、各フレーム信号からオーディオ特徴を抽出する。ここで、オーディオ特徴は、時間領域特徴、周波数領域特徴、または時間周波数領域特徴であってもよく、例えば、周波数領域特徴は、MFCC(Mel Frequency Cepstrum Coefficient)、LPCC(Linear Prediction Cepstral Coefficient)であってもよい。また、抽出されたオーディオ特徴を組み合わせてオーディオ特徴の組み合わせを得る。そして、オーディオ特徴の頑健性を向上させるため、複数の隣接するフレーム信号のオーディオ特徴の組み合わせに対して平均演算および分散演算を実行する。例えば、オーディオ特徴としてMFCCを使用する場合、1秒ごとに40次元のMFCC係数のセットを抽出し、さらに平均演算および分散演算を実行することで、1秒ごとに80次元の特徴ベクトルを得られ、オーディオ特徴の頑健性を有効に向上させることができる。また、計算量を減らすため、平均演算および分散演算に使用される隣接フレームの数を適切に減らすことができ、リアルタイム検出が実施されるシナリオでは、現在収集されたオーディオ信号および過去に収集されたオーディオ信号のオーディオ特徴の組み合わせに対して平均演算および分散演算を実行してもよい。
【0016】
ステップ102では、第1オーディオ特徴をトレーニング済み分類器に入力して分類識別し、実際オーディオ信号に対応するオーディオタイプ表徴データを取得する。
【0017】
具体的に説明すると、本実施形態では、オーディオ特徴を取得した後、トレーニングされた分類器を用いてオーディオ特徴を分類識別し、実際オーディオ信号に対応するオーディオタイプ表徴データを出力する。また、本実施形態では、0および1を用いてオーディオタイプを表してもよく、ここで、1は足音などのターゲットオーディオ信号を表し、0は非足音などの非ターゲットオーディオ信号を表してもよい。
【0018】
本実施形態のいくつかの態様において、第1オーディオ特徴をトレーニング済み分類器に入力して分類識別するステップの前に、所定のオーディオ信号サンプルセットを取得するステップと、オーディオ信号サンプルセットにおける複数のオーディオ信号サンプルに対応する第2オーディオ特徴をそれぞれ取得し、オーディオ特徴サンプルセットを取得するステップと、オーディオ特徴サンプルセットに基づいて所定の分類器モデルをトレーニングし、トレーニング済みの分類器を取得するステップと、をさらに備える。
【0019】
具体的に説明すると、本実施形態において、所定のオーディオ信号サンプルセットは、ターゲットオーディオ信号セット(例えば、足音オーディオデータセット)と非ターゲットオーディオ信号セット(例えば、非足音オーディオデータセット)を含み、ここで、ターゲットオーディオ信号セットおよび非ターゲットオーディオ信号セットは、各シーンのターゲットオーディオ信号(例えば、足音)と非ターゲットオーディオ信号(例えば、非足音)をそれぞれ含み、これら2つの信号セットが分類器を得るために使用されるため、2つの信号セットは等しいサイズである。例えば、足音オーディオデータセットは1時間であり、非足音オーディオデータセットも1時間であり、できるだけ多くのシーンのオーディオ信号を含む。オーディオ信号サンプルセットにおけるオーディオ信号サンプルのオーディオ特徴をそれぞれ抽出し、オーディオ特徴サンプルセットを取得し、オーディオ特徴サンプルセットをトレーニングセットおよびテストセットに分け、このオーディオ特徴サンプルセットにおけるトレーニングセットおよび機械学習の分類方法に基づいて、予め用意された分類器モデルをトレーニングさせ、ターゲットオーディオ信号と非ターゲットオーディオ信号とを正しく区別できる分類器を得る。また、分類方法としては、サポートベクターマシン(Support Vector Machine:SVM)、ガウス混合モデル(Gaussian Mixture Model:GMM)、畳み込みニューラルネットワーク(Convolutional Neural Networks, CNN)モデルなど、一般的な機械学習の分類方法を用いてもよい。
【0020】
また、本実施形態のいくつかの態様において、オーディオ信号サンプルセットにおける複数のオーディオ信号サンプルに対応する第2オーディオ特徴をそれぞれ取得するステップの前に、所定のフレーミング指標によって、オーディオ信号サンプルセットにおける各オーディオ信号サンプルに対してフレーミング処理を実行し、第1フレーム信号を取得するステップと、ここで、フレーミング指標は、データフレーム単位長さと、隣接データフレームの重ね長さとを含み、各第1フレーム信号におけるオーディオ特徴をそれぞれ抽出し、第1オーディオ特徴の組み合わせを取得するステップと、ここで、オーディオ特徴は、時間領域特徴、周波数領域特徴、時間周波数領域特徴のうちの少なくとも1つを含み、第1オーディオ特徴の組み合わせにおけるターゲットオーディオ特徴に対して平均演算および分散演算を実行し、第2オーディオ特徴を取得するステップと、をさらに備える。
【0021】
具体的には、本実施形態において、オーディオ特徴サンプルセットにおけるオーディオ特徴の抽出および次元は、実際オーディオ信号におけるオーディオ特徴の抽出および次元と同じであるが、オーディオ特徴サンプルセットにおけるオーディオ特徴の組み合わせに対して演算を実行する際に用いられる隣接フレーム信号の数はより多くなる。また、所定のフレーミング指標は、データフレームの単位長さ、データフレームのオーバーラップ長さを含み、さらに、オーバーラップフレーミングによってフレーミングを実行する。単位フレーム長さは10ms~20msであり、フレームのオーバーラップ長さは単位フレーム長さの1/2である。フレーム信号を取得した後、各フレーム信号からオーディオ特徴を抽出する。オーディオ特徴は、時間領域特徴、周波数領域特徴、または時間周波数領域特徴であってもよい。また、抽出されたオーディオ特徴を組み合わせ、オーディオ特徴の組み合わせを得る。また、複数の隣接するフレーム信号のオーディオ特徴の組み合わせに対して平均演算および分散演算を実行し、オーディオ特徴サンプルセットにおけるオーディオ特徴を取得する。
【0022】
ステップ103では、オーディオタイプ表徴データを参照し、実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得する。
【0023】
具体的には、本実施形態では、分類器の識別出力の結果を参照することで、実際オーディオ信号におけるターゲットオーディオタイプと合致するターゲットオーディオ信号のみに対して増強処理を実行することができ、増強オーディオ信号を取得する。
【0024】
また、本実施形態のいくつかの態様において、オーディオタイプ表徴データを参照し、実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得するステップは、オーディオタイプ表徴データに対して所定回数のメディアンフィルタリングを実行し、異常値のないオーディオタイプ表徴データを取得するステップと、異常値のないオーディオタイプ表徴データがターゲットオーディオタイプに対応する場合、実際オーディオ信号においてターゲットオーディオタイプに合致する異なる周波数帯域のターゲットオーディオ信号に対して利得および/またはダイナミックレンジ増強を実行し、増強オーディオ信号を取得するステップと、を含む。
【0025】
具体的に説明すると、本実施形態では、分類器がオーディオタイプ表徴データ0/1信号を出力した後、メディアンフィルタによって0/1信号に対してメディアンフィルタリングを実行し、メディアンフィルタリングは1回または2回であってもよく、異常値を除去し、矩形波信号を取得する。本実施形態において使用されるメディアンフィルタのウィンドウ長さは3である。オーディオタイプ表徴データが1の場合、EQ/DRCによって異なる周波数帯域におけるターゲットオーディオ信号に対して利得および/またはダイナミックレンジ増強を実行する。また、オーディオタイプ表徴データが0の場合、EQ/DRCによる増強処理を行わない。ここで、EQは、異なる周波数帯域におけるターゲットオーディオ信号に対する利得に用いられ、通常はピークフィルターを使用する。DRCは、マルチバンドであってもよく、異なる周波数帯におけるターゲットオーディオ信号に対して異なるパラメータのダイナミック圧縮のまたは増強処理に用いられ、増強オーディオ信号が取得される。
【0026】
また、本実施形態のいくつかの態様において、実際オーディオ信号においてターゲットオーディオタイプに合致する異なる周波数帯域のターゲットオーディオ信号に対して利得および/またはダイナミックレンジ増強を実行するステップは、実際オーディオ信号においてターゲットオーディオタイプに合致する異なる周波数帯域のターゲットオーディオ信号に対し、所定のイコライザフェードイン・フェードアウト時間を参照して利得を実行し、および/または、所定のダイナミックレンジコントロールの時間パラメータを参照してダイナミックレンジ増強を実行するステップを含む。
【0027】
具体的には、本実施形態では、ターゲットオーディオ信号のみに対して増強処理を実行し、非ターゲットオーディオ信号に対して増強処理を実行しないため、増強と非増強とを切り替えるハードな増強方式では、音が大きくなったり小さくなったり、またPOP音(レベルジャンプ)になる可能性もあるため、フェードイン時間とフェードアウト時間とを設置してEQの利得を調整することで、足音などのターゲットオーディオ信号に対して増強処理を実行し、または、DRCの時間パラメータを調整することで足音などのターゲットオーディオ信号に対してダイナミックレンジ増強を実行してもよい。このようなソフトな増強方式によれば、足音と非足音の間でパラメータをスムーズに切り替えることができ、実際のシーンにおける足音音源などのターゲットオーディオ信号の全体的な再生効果を向上させることができる。
【0028】
また、本実施形態のいくつかの態様において、オーディオタイプ表徴データを参照し、実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得するステップの後に、増強オーディオ信号に対してクリッピング処理を実行し、クリッピングのない増強オーディオ信号を取得するステップを含む。
【0029】
具体的には、本実施形態では、増強されたオーディオ信号のクリッピングが大きくなりすぎないように、リミッタによって増強されたオーディオ信号に対してクリッピング処理を実行し、クリッピングのない増強オーディオ信号を取得する。入力オーディオ信号の波形は
図3に示され、増強処理およびリミッタ処理された出力オーディオ信号の波形は
図4に示される。
図3および
図4に示される波形の横軸は時間を表し、単位はsであり、縦軸はオーディオ信号の音の強さ、つまり音圧を表し、単位はVである。
【0030】
本発明の実施形態に係る上記技術的解決策によれば、実際オーディオ信号に対応する第1オーディオ特徴を取得し、第1オーディオ特徴をトレーニング済み分類器に入力して分類識別し、実際オーディオ信号に対応するオーディオタイプ表徴データを取得し、オーディオタイプ表徴データを参照し、実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得する。本発明の実施形態によれば、トレーニング済み分類器を用い、実際オーディオ信号を分類識別し、ターゲットオーディオタイプに合致するターゲットオーディオ信号を増強することにより、ターゲットオーディオ信号を効果的に増強し、ターゲットオーディオ信号の増強精度を向上させることができる。
【0031】
図5に示される方法は、本発明の第2実施形態に係る詳細化されたオーディオ信号増強方法である。このオーディオ信号増強方法は、以下のステップを含む。
【0032】
ステップ501では、実際オーディオ信号に対応する第1オーディオ特徴を取得する。
【0033】
具体的には、本実施形態において、実際オーディオ信号は、ゲームなどの実用化シナリオにおけるさまざまな種類のオーディオ信号であってよく、例えば、ゲームにおけるキャラクターの足音、銃声、プロペラ音などのオーディオ信号が挙げられる。
【0034】
ステップ502では、オーディオ特徴サンプルセットに基づいて、所定の分類器モデルをトレーニングし、トレーニング済みの分類器を取得する。
【0035】
具体的に説明すると、本実施形態において、所定のオーディオ信号サンプルセットは、ターゲットオーディオ信号セット(例えば、足音オーディオデータセット)と非ターゲットオーディオ信号セット(例えば、非足音オーディオデータセット)を含み、ここで、ターゲットオーディオ信号セットおよび非ターゲットオーディオ信号セットは、各シーンのターゲットオーディオ信号(例えば、足音)と非ターゲットオーディオ信号(例えば、非足音)をそれぞれ含む。オーディオ信号サンプルセットにおけるオーディオ信号サンプルのオーディオ特徴をそれぞれ抽出し、オーディオ特徴サンプルセットを取得し、オーディオ特徴サンプルセットをトレーニングセットおよびテストセットに分け、このオーディオ特徴サンプルセットにおけるトレーニングセットおよび機械学習の分類方法に基づいて、予め用意された分類器モデルをトレーニングさせ、ターゲットオーディオ信号と非ターゲットオーディオ信号とを正しく区別できる分類器を得る。また、サポートベクターマシン(Support Vector Machine:SVM)、ガウス混合モデル(Gaussian Mixture Model:GMM)、畳み込みニューラルネットワーク(Convolutional Neural Networks, CNN)モデルなど、一般的な機械学習の分類方法を用いて、分類器モデルをトレーニングしてもよい。
【0036】
ステップ503では、第1オーディオ特徴をトレーニング済み分類器に入力して分類識別し、実際オーディオ信号に対応するオーディオタイプ表徴データを取得する。
【0037】
具体的に説明すると、本実施形態では、オーディオ特徴を取得した後、トレーニングされた分類器を用いてオーディオ特徴を分類識別し、実際オーディオ信号に対応するオーディオタイプ表徴データを出力する。また、本実施形態では、0および1を用いてオーディオタイプを表してもよく、ここで、1は足音などのターゲットオーディオ信号を表し、0は非足音などの非ターゲットオーディオ信号を表してもよい。
【0038】
ステップ504では、オーディオタイプ表徴データに対して所定回数のメディアンフィルタリングを実行し、異常値のないオーディオタイプ表徴データを取得する。
【0039】
具体的に説明すると、本実施形態では、分類器がオーディオタイプ表徴データ0/1信号を出力した後、メディアンフィルタによって0/1信号に対してメディアンフィルタリングを実行し、メディアンフィルタリングは1回または2回であってもよく、異常値を除去し、矩形波信号を取得する。本実施形態において使用されるメディアンフィルタのウィンドウ長さは3である。
【0040】
ステップ505では、異常値のないオーディオタイプ表徴データがターゲットオーディオタイプに対応する場合、実際オーディオ信号においてターゲットオーディオタイプに合致する異なる周波数帯域のターゲットオーディオ信号に対して利得および/またはダイナミックレンジ増強を実行し、増強オーディオ信号を取得する。
【0041】
オーディオタイプ表徴データが1の場合、EQ/DRCによって異なる周波数帯域におけるターゲットオーディオ信号に対して利得および/またはダイナミックレンジ増強を実行する。また、オーディオタイプ表徴データが0の場合、EQ/DRCによる増強処理を行わない。ここで、EQは、異なる周波数帯域におけるターゲットオーディオ信号に対する利得に用いられ、通常はピークフィルターを使用する。DRCは、マルチバンドであってもよく、異なる周波数帯におけるターゲットオーディオ信号に対して異なるパラメータのダイナミック圧縮のまたは増強処理に用いられ、増強オーディオ信号が取得される。
【0042】
ステップ506では、増強オーディオ信号に対してクリッピング処理を実行し、クリッピングのない増強オーディオ信号を取得する。
【0043】
具体的には、本実施形態では、増強されたオーディオ信号のクリッピングが大きくなりすぎないように、リミッタによって増強されたオーディオ信号に対してクリッピング処理を実行し、クリッピングのない増強オーディオ信号を取得する。
【0044】
なお、本実施形態における各ステップにおける符号の大きさは、ステップの実行順序を意味するものではなく、各ステップの実行順序は、その機能および内在論理によって決定されるべきであり、本発明の実施形態の実施プロセスに対する固有の制限を構成するものではない。
【0045】
本発明の実施形態は、オーディオ信号増強方法を提供し、実際オーディオ信号に対応する第1オーディオ特徴を取得し、第1オーディオ特徴をトレーニング済み分類器に入力して分類識別し、実際オーディオ信号に対応するオーディオタイプ表徴データを取得し、オーディオタイプ表徴データを参照し、実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得する。本発明の実施形態によれば、トレーニング済み分類器を用い、実際オーディオ信号を分類識別し、ターゲットオーディオタイプに合致するターゲットオーディオ信号を増強することにより、ターゲットオーディオ信号を効果的に増強し、ターゲットオーディオ信号の増強精度を向上させることができる。
【0046】
図6は、本発明の第3実施形態によって提供されるオーディオ信号増強装置を示す図である。このオーディオ信号増強装置によれば、前記実施形態におけるオーディオ信号増強方法を実現することができる。
図6に示されるように、このオーディオ信号増強装置は、以下のように構成される。
【0047】
取得モジュール601は、実際オーディオ信号に対応する第1オーディオ特徴を取得する。
分類モジュール602は、第1オーディオ特徴をトレーニング済み分類器に入力して分類識別し、実際オーディオ信号に対応するオーディオタイプ表徴データを取得する。
増強モジュール603は、オーディオタイプ表徴データを参照し、実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得する。
【0048】
また、本実施形態に係るいくつかの態様において、オーディオ信号増強装置は、第1演算モジュールをさらに備える。第1演算モジュールは、フレーミング指標によって、実際オーディオ信号に対してフレーミング処理を実行し、第2フレーム信号を取得し、各第2フレーム信号におけるオーディオ特徴をそれぞれ抽出し、第2オーディオ特徴の組み合わせを取得し、ここで、オーディオ特徴は、時間領域特徴、周波数領域特徴、時間周波数領域特徴のうちの少なくとも1つを含み、第2オーディオ特徴の組み合わせにおけるターゲットオーディオ特徴に対して平均演算および分散演算を実行し、第1オーディオ特徴を取得し、または、実際オーディオ信号および過去オーディオ信号の第2オーディオ特徴の組み合わせに対して平均演算および分散演算を実行し、第1オーディオ特徴を取得し、ここで、過去オーディオ信号の信号収集時点は、実際オーディオ信号より前である。
【0049】
また、本実施形態に係るいくつかの態様において、オーディオ信号増強装置は、トレーニングモジュールをさらに備える。トレーニングモジュールは、所定のオーディオ信号サンプルセットを取得し、オーディオ信号サンプルセットにおける複数のオーディオ信号サンプルに対応する第2オーディオ特徴をそれぞれ取得し、オーディオ特徴サンプルセットを取得し、オーディオ特徴サンプルセットに基づいて所定の分類器モデルをトレーニングし、トレーニング済みの分類器を取得するように用いられる。
【0050】
また、本実施形態に係るいくつかの態様において、オーディオ信号増強装置は、第2演算モジュールをさらに備える。第2演算モジュールは、所定のフレーミング指標によって、オーディオ信号サンプルセットにおける各オーディオ信号サンプルに対してフレーミング処理を実行し、第1フレーム信号を取得し、ここで、フレーミング指標は、データフレーム単位長さと、隣接データフレームの重ね長さとを含み、各第1フレーム信号におけるオーディオ特徴をそれぞれ抽出し、第1オーディオ特徴の組み合わせを取得し、ここで、オーディオ特徴は、時間領域特徴、周波数領域特徴、時間周波数領域特徴のうちの少なくとも1つを含み、第1オーディオ特徴の組み合わせにおけるターゲットオーディオ特徴に対して平均演算および分散演算を実行し、第2オーディオ特徴を取得する。
【0051】
また、本実施形態のいくつかの態様において、具体的に説明すると、増強モジュール603は、オーディオタイプ表徴データに対して所定回数のメディアンフィルタリングを実行し、異常値のないオーディオタイプ表徴データを取得し、異常値のないオーディオタイプ表徴データがターゲットオーディオタイプに対応する場合、実際オーディオ信号においてターゲットオーディオタイプに合致する異なる周波数帯域のターゲットオーディオ信号に対して利得および/またはダイナミックレンジ増強を実行し、増強オーディオ信号を取得するように用いられる。
【0052】
また、本実施形態のいくつかの態様において、増強モジュール603は、実際オーディオ信号においてターゲットオーディオタイプに合致する異なる周波数帯域のターゲットオーディオ信号に対し、所定のイコライザフェードイン・フェードアウト時間を参照して利得を実行し、および/または、所定のダイナミックレンジコントロールの時間パラメータを参照してダイナミックレンジ増強を実行するように用いられる。
【0053】
また、本実施形態のいくつかの態様において、オーディオ信号増強装置は、クリッピングモジュールをさらに備える。クリッピングモジュールは、増強オーディオ信号に対してクリッピング処理を実行し、クリッピングのない増強オーディオ信号を取得するように用いられる。
【0054】
なお、第1実施形態および第2実施形態におけるオーディオ信号増強方法は、いずれも本実施形態で提供されるオーディオ信号増強装置に基づいて実施することができ、当業者はそれを明確に理解することができる。また、説明の便宜と簡潔さのため、本実施形態におけるオーディオ信号増強装置の具体的な作業プロセスは、前記方法の実施形態における対応するプロセスを参照することができるため、詳細な説明はここでは繰り返さない。
【0055】
本実施形態によって提供されるオーディオ信号増強装置によれば、実際オーディオ信号に対応する第1オーディオ特徴を取得し、第1オーディオ特徴をトレーニング済み分類器に入力して分類識別し、実際オーディオ信号に対応するオーディオタイプ表徴データを取得し、オーディオタイプ表徴データを参照し、実際オーディオ信号におけるターゲットオーディオタイプに合致するターゲットオーディオ信号に対して増強処理を実行し、増強オーディオ信号を取得する。本発明の実施形態によれば、トレーニング済み分類器を用い、実際オーディオ信号を分類識別し、ターゲットオーディオタイプに合致するターゲットオーディオ信号を増強することにより、ターゲットオーディオ信号を効果的に増強し、ターゲットオーディオ信号の増強精度を向上させることができる。
【0056】
図7を参照すると、
図7は、本発明の第4実施形態によって提供される電子機器を示す図である。この電子機器によれば、前記実施形態におけるオーディオ信号増強方法を実現することができる。
図7に示されるように、この電子機器は、メモリ701と、プロセッサ702と、メモリ701に記録されてプロセッサ702によって実行されるプログラム703とを備える。プログラム703がプロセッサ702によって実行されると、前記実施形態におけるオーディオ信号増強方法を実現することができる。ここで、プロセッサの数は1つであってもよく、複数であってもよい。
【0057】
メモリ701は、高速ランダムアクセスメモリ(Random Access Memory:RAM)メモリであってもよく、ディスクメモリなどの不揮発性メモリ(Non-Volatile Memory)であってもよい。メモリ701は実行可能なプログラムコードを格納するために使用され、プロセッサ702はメモリ701と結合される。
【0058】
また、本発明の実施形態は、コンピュータ読み取り可能な記録媒体を提供する。このコンピュータ読み取り可能な記録媒体は、前記各実施形態における電子機器に設けられてもよい。また、このコンピュータ読み取り可能な記録媒体は、前記
図7に示めされる実施形態におけるメモリであってもよい。
【0059】
このコンピュータ読み取り可能な記録媒体は、プロセッサによって実行されると、前記実施形態のオーディオ信号増強方法を実施する。また、このコンピュータ読み取り可能な記録媒体は、USBメモリ、リムーバブルハードディスク、リードオンリーメモリ(Read-Only Memory:ROM)、ランダムアクセスメモリ(Random Access Memory:RAM)、ディスク、CD-ROMなど、プログラムコードを格納することができるさまざまな記録媒体であってもよい。
【0060】
なお、本発明によって提供されるいくつかの実施形態において、開示される装置および方法は他の形態で実施されてもよい。例えば、上記装置の実施形態は、単に概略的なものであり、例えば、論理的な機能分けに過ぎないモジュール分けは、実際に実施する際には他の形態で分けることができ、例えば、複数のモジュールまたは構成要素を組み合わせることができ、または別のシステムに統合することができ、あるいは一部の特徴を無視し、または実施しないことができる。また、図示または議論された相互結合、直接結合または通信接続は、電気的、機械的またはその他の方法であり得る何らかのインターフェース、デバイスまたはモジュールを介した間接結合または通信接続であってもよい。
【0061】
分離構成要素として説明されたモジュールは、物理的に分離されていてもいなくてもよく、モジュールとして表示された構成要素は、物理的なモジュールであってもなくてもよく、すなわち、一箇所に配置されてもよく、複数のネットワークモジュールに分散されてもよい。これらのモジュールの一部または全部は、本実施形態の目的を達成するために実用的な必要性に応じて選択することができる。
【0062】
また、本発明の各実施形態における各機能モジュールは、1つの処理モジュールに統合されてもよく、各モジュールが物理的に別々に存在してもよく、2つ以上のモジュールが1つのモジュールに統合されてもよい。上記統合されたモジュールは、ハードウェアの形態で実現されてもよく、ソフトウェア機能モジュールの形態で実現されてもよい。
【0063】
統合モジュールは、ソフトウェア機能モジュールとして実現され、独立の製品として販売または使用される場合、コンピュータ読み取り可能な記録媒体に格納されることができる。この理解に基づいて、本発明における技術的解決策は、本質的に、先行技術に寄与する部分、または技術的解決策の全部または一部を、ソフトウェア製品の形態で具現化することができる。このコンピュータソフトウェア製品は、読み取り可能な記録媒体に格納され、コンピュータデバイス(パーソナルコンピュータ、サーバ、またはネットワークデバイスなどであってもよい)が本発明の各実施形態におけるステップのすべてまたは一部を実行させるためのいくつかの指示を含む。
【0064】
なお、上記各実施形態は、簡潔な説明をするために一連の動作として記載されているが、当業者は、本発明によればいくつかのステップを他のシーケンスで、または同時に実行することができるため、本発明に説明された動作のシーケンスによって制限されないことを理解すべきである。また、当業者は、本明細書に記載された実施形態は好ましい実施形態であり、本発明に係る動作やモジュールは、本発明に必ずしも必要ではないことも理解すべきである。
【0065】
上記実施形態において、各実施形態の説明はそれぞれ焦点が当てられ、ある実施形態で詳細に説明されていないことは、他の実施形態の関連する記載を参照することができる。
【0066】
以上、本発明によって提供されるオーディオ信号増強方法、装置、機器および読み取り可能な記録媒体について説明したが、当業者にとっては、本願の実施形態のアイデアに基づいて、具体的な実装および適用範囲に変更がある可能性があり、一般に、本明細書の内容は、本発明を限定するものとして解釈すべきでないことを理解されたい。
【国際調査報告】