(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-01-24
(54)【発明の名称】バイノーラル録音におけるスピーチ検出及び強調
(51)【国際特許分類】
G10L 21/0208 20130101AFI20240117BHJP
G10L 25/51 20130101ALI20240117BHJP
G10L 25/78 20130101ALI20240117BHJP
【FI】
G10L21/0208 100Z
G10L25/51
G10L25/78
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023541746
(86)(22)【出願日】2022-01-12
(85)【翻訳文提出日】2023-09-05
(86)【国際出願番号】 US2022012128
(87)【国際公開番号】W WO2022155205
(87)【国際公開日】2022-07-21
(32)【優先日】2021-01-12
(33)【優先権主張国・地域又は機関】ES
(32)【優先日】2021-03-17
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-09-17
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(71)【出願人】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】チェンガルレ,ジュリオ
(72)【発明者】
【氏名】マー,ユエンシーン
(57)【要約】
本明細書では、スピーチのバイノーラル録音を、自己スピーチを含む部分と、外部スピーチを含む部分とにセグメント化し、各カテゴリを異なる設定で処理して、拡張された全体的な提示を得るための方法、システム、及びコンピュータプログラム製品が開示される。セグメント化は、i)特徴に基づくフレームごとの分類と、ii)統計的方法による非類似度検出との組み合わせに基づく。その後、セグメント化情報は、スピーチ強調チェーンによって使用され、ここで、独立した設定が、自己及び外部スピーチ部分を処理するために使用される。
【特許請求の範囲】
【請求項1】
方法であって:
- バイノーラル音声信号をフレームに分割するステップと;
- 各フレームに時間周波数変換を適用するステップと;
- 時間周波数表現に基づいて前記フレームの特徴を計算するステップと;
- 分類器によって、少なくとも部分的に特徴のサブセットに基づいて各フレームを自己スピーチ又は外部スピーチとして分類するステップと;
- 特徴のサブセットに基づいて非類似度関数を計算するステップと;
- 前記非類似度関数のピークにおいて前記バイノーラル音声信号をセグメント化するステップと;
- 各セグメントに対し、前記セグメントに属する前記フレームの分類子データを集約することによって、自己スピーチ又は外部スピーチのうちのそれぞれの全体的クラスを決定するステップと;
- スピーチ強調チェーンで各セグメントを処理し、前記スピーチ強調チェーンの設定は、かかるセグメントに対して決定された全体的クラスに基づく、ステップと、を含む、
方法。
【請求項2】
音声活動検出(VAD)を使用して各フレームのそれぞれのスピーチ確率を計算するステップであって、前記スピーチ確率が所定の値よりも大きいフレームのみが分類及びセグメント化のために考慮される、ステップを含む、
請求項1記載の方法。
【請求項3】
前記特徴は、周波数帯域ごとのエネルギー、所定の周波数範囲におけるスペクトル勾配、周波数帯域ごとのインターチャネルコヒーレンス、又はメル周波数ケプストラム係数のうちの少なくとも1つを含む、
請求項1記載の方法。
【請求項4】
前記分類器がサポートベクターマシンである、
請求項1乃至3いずれか1項記載の方法。
【請求項5】
前記非類似度関数は、ベイズ情報量基準(BIC)を前記特徴のサブセットに適用することによって得られる、
請求項1乃至3いずれか1項記載の方法。
【請求項6】
前記非類似度関数の値が所定の値より大きく、最も近い前記ピークまでの距離が他の所定の値より大きいことを条件として、前記非類似度関数のピークを保持するステップを含む、
請求項5記載の方法。
【請求項7】
それぞれの全体的クラスを決定するステップは:
セグメント内の外部スピーチとして分類されたフレームの数(CE)を計算するステップと;
セグメント内の自己スピーチとして分類されたフレームの数(CS)を計算するステップと;
CS≧CEの場合にはクラス自己スピーチを割り当て、CE>CSの場合にはクラス外部スピーチを割り当てるステップと、を含む、
請求項1記載の方法。
【請求項8】
式abs(CE-CS)/Nを使用して各セグメントにそれぞれの分類信頼値を割り当てるステップであって、Nは前記セグメント内のフレームの総数である、ステップを更に含む、
請求項7記載の方法。
【請求項9】
信頼値が所定の値未満であるセグメントを不確実として指定するステップを含む、
請求項8記載の方法。
【請求項10】
同じクラスの隣接するセグメントを前記同じクラスの単一のセグメントにマージするステップと;
不確実と指定され、同じクラス(自己又は外部)の2つのセグメントによって囲まれたセグメントを、周囲のセグメントとマージするステップと、を含む、
請求項9記載の方法。
【請求項11】
スピーチ強調チェーンで各セグメントを処理するステップは:
ノイズ推定及びノイズ低減;
自己スピーチ及び外部スピーチに対する特定のフィルタを含む等化;
自己スピーチ及び外部スピーチに対する特定のターゲットレベル及びダイナミックレンジを含む、レベリング;
自己スピーチ及び外部スピーチに対する異なる量のブースト又は減衰を含む、アンビエンスバランス;
自己スピーチ及び外部スピーチに対する異なる回転量を含む空間回転;及び
自己スピーチ及び外部スピーチに対する異なる量の補正を含む、チャネルアンバランス補正、のうちの1つ以上を含む、
請求項1乃至10いずれか1項記載の方法。
【請求項12】
- 1つのセグメントは、
- 不確実と指定されており;
- 異なるクラスの2つのセグメント(1つは自己、1つは外部)に取り囲まれており;かつ、
- 所定の長さより短く;
両方の設定で処理されており、クロスフェード領域として使用されており、
- 1つのセグメントは:
- 不確実と指定されており;
- 異なるクラスの2つのセグメント(1つは自己、1つは外部)によって取り囲まれており;かつ、
- 所定の長さより長く、
ニュートラル設定で処理されているか、又は最も長い隣接するセグメントにマージされている、
請求項11記載の方法。
【請求項13】
処理されたセグメントを、元の入力におけるそれらの順序にしたがってシーケンスに再結合するステップと;
遷移点においてクロスフェードを適用することによってオーディブル不連続性を軽減するステップと、を含む、
請求項11記載の方法。
【請求項14】
システムであって、
1つ以上のプロセッサと;
命令を格納する非一時的コンピュータ可読記憶媒体であって、前記命令は、前記1つ以上のプロセッサによって実行される場合に、前記1つ以上のプロセッサに請求項1乃至13いずれか1項記載の方法を実行させる、非一時的コンピュータ可読記憶媒体と、を備える、
システム。
【請求項15】
命令を格納する非一時的コンピュータ可読記憶媒体であって、前記命令は、1つ以上のプロセッサによって実行される場合に、1つ以上のプロセッサに請求項1乃至13いずれか1項記載の方法を実行させる、
非一時的コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願の相互参照]
関連出願の相互参照本出願は、2021年3月17日及び2021年9月17日にそれぞれ出願された米国仮特許出願第63/162,289号及び第63/245,548号;並びに2021年1月12日に出願されたスペイン特許出願第P202130013号に基づく優先権を主張し、これらの各々は、その全体が参照により組み込まれる。
【0002】
[技術分野]
本開示は、バイノーラル録音におけるスピーチの強調のための方法、この方法を実行するためのシステム、及びこの方法を実行するための命令を記憶する非一時的コンピュータ可読媒体に関する。
【背景技術】
【0003】
イヤホン又はイヤーバッド(Earbuds)は、電話及びタブレットなどのスマートデバイスと対になるワイヤレスインイヤーヘッドホンであり、それらは、スマートフォン ユーザにとって、音声を聞くため、また内蔵マイクの追加により音声をキャプチャしてリアルタイム通信や音声メッセージの録音を行うための一般的な選択肢になりつつある。イヤホンは、インタビューを行い、ビデオログ(vlog)又はポッドキャストコンテンツを作成し、又は単に音声メモを記録したい人々のために、専用マイクロホンなしでスピーチを記録するための便利な代替手段である。
【発明の概要】
【0004】
本開示では、「自己スピーチ又は自己発話(self-speech)」という表現は、イヤホンを装着している人のスピーチを指すために使用され、「外部スピーチ又は外部発話(external speech)」という表現は、イヤホンを装着している人以外の人からのスピーチを指すために使用される。
【0005】
マイクロホンは、イヤホンを装着している人の耳の中に位置するため、自己スピーチを録音するとき、口からイヤホンへの音の伝搬は、口の指向性と組み合わせられて、音声のスペクトルに有意な変更、すなわち、口の正面に位置付けられる従来のマイクロホンがピックアップするであろうものと比較して、高周波エネルギーの損失を引き起こす。外部スピーチを録音するとき、各外部話者(external speaker)の距離は、自己スピーチの音量と比較してレベルの損失をもたらす。これらのファクタ(レベルの損失及び高周波数の損失)は両方とも、自己スピーチ及び外部スピーチ間の音量及び調性又は音色(tonality)の著しい差につながる。これらの影響の補償は、自己スピーチ及び外部スピーチの識別、録音のセグメント化、及び最適設定を用いた各部分の処理から利益を得る。
【0006】
話者セグメンテーション及びダイアリングは、ベイズ情報量基準(BIC:Bayes Information Criterion)などの十分に確立された統計的手法、及び最近のAIベースの技法を用いて、長年にわたって活発な研究分野であった。これらの技術は、話者又は音響条件の変化を検出するのに有効であるが、スピーチが自己であるか外部であるかなどの追加情報を提供しない。特に、それらは、モノラル信号(単一チャネル録音)に作用し、したがって、それらは、バイノーラル録音に埋め込まれるような音の空間的態様を考慮しない。左右のバイノーラルマイクでの信号間の類似度、及び到来方向などの空間的態様には、自己スピーチと外部スピーチを区別するタスクにとって重要な情報が含まれていることが分かるが、そのような手がかりは通常、セグメント化の目的では無視される。
【0007】
スピーチ強調のための自動ソリューションが存在するが、それらは、話者セグメント化情報を検出も使用もせず、したがって、それらは、バランスのとれた音色及び音量を達成するための自己スピーチ及び外部スピーチの最適な調整された処理を可能にしない。
【0008】
本開示は、自己スピーチ及び外部スピーチに対応する部分を識別し、それに応じて録音をセグメント化し、その後、自己スピーチ条件又は外部スピーチ条件による最適設定で各セグメントに独立した強調を適用することによって、スピーチのバイノーラル録音を改善する方法を説明する。
【0009】
バイノーラル信号を入力として、時間周波数変換を適用して、信号を周波数帯域に分割する。並行して、信号は音声活動検出器又は音声区画検出器(Voice Activity Detector)に送られ、信号のどの部分がスピーチを含んでいるかを識別し、非スピーチ部分の処理を回避する。
【0010】
スペクトル特徴は、信号の時間周波数表現から抽出され、フレームごとに(on a frame-by-frame basis)自己スピーチ及び外部スピーチに分類するために使用される。並行して、これらの特徴のいくつかは、話者識別又は音響条件の変化が起こったフレームを見つけるために統計的方法を使用する非類似度セグメント化ユニット(Dissimilarity Segmentation unit)に送信される。セグメント化ユニットは、分類及び非類似度セグメント化ユニットから情報を受け取り、それらを多数決投票によって組み合わせて、各セグメントについて(自己又は外部を)決定する。セグメント化は、録音を複数の独立した録音として処理するために使用され、各録音は、自己及び外部スピーチへの分類から導出される適切な設定を有する。
【図面の簡単な説明】
【0011】
本発明の実施形態を添付の図面を参照しながら詳細に説明する。
【
図1】
図1は、本発明の一実施形態によるスピーチ強調システムの概略ブロック図を提供する。
【
図2】
図2は、本発明の一実施形態による信号をセグメント化する例示的なプロセスのフローチャートである。
【発明を実施するための形態】
【0012】
[時間-頻度変換および特徴抽出]
図1及び
図2において、左右信号l(t),r(t)を有するバイノーラル信号s(t)が得られた。バイノーラル信号は、ユーザによって装着されたイヤホンによる録音を含む様々な方法で取得されてもよい。その後、バイノーラル信号は、スピーチ強調システムが動作しているデバイスによって受信される。このデバイスは、ユーザによって装着されるデバイスの一部であってもよく、又は別個のデバイスであってもよい。後者の場合、バイノーラル信号はこの別個のデバイスに送信されている。
【0013】
図1のシステムは、バイノーラル信号を受信し、それをフレームに分割するように接続されたフレーム分割器1を含む。時間周波数変換ユニット2は、フレームを受信するように接続され、その後に特徴抽出ユニット3が続く。音声活動検出器(VAD)4は、ユニット2及び3に並列に接続され、また、バイノーラル信号のフレームを受信するように接続される。特徴抽出ユニット3及びVAD4の出力は、両方とも、2つのブロック、すなわち、自己分類ブロック5及び非類似度セグメント化ブロック6に接続される。ブロック5及び6からの出力は共にセグメント化ユニット7に供給される。さらに、スピーチ強調チェーン8は、フレーム分割器1からのバイノーラル信号のフレームとセグメント化ユニット7からの出力とを受信するように接続される。スピーチ強調チェーン8は、変更されたバイノーラル信号を出力する。システム及びその様々な構成要素の動作は、
図2のフローチャートも参照して、以下により詳細に説明される。
【0014】
ステップ1において、バイノーラル信号s(t)は、フレームnに分割される。その後、ステップS2で、時間周波数変換ユニット2がフレームを受信し、フレームのインデックスi=1:N及び周波数f=1:Mを有する信号L(i,f),R(i,f)を生成する。時間周波数変換は、例えば、離散フーリエ変換、QMFフィルターバンク、又は別の変換であることができる。
【0015】
ステップS3では、フレーム分割信号L(i,f),R(i,f)を周波数帯域毎にグループ化し、各周波数帯域bにおいて特徴抽出ユニット3により以下の特徴量を算出する:
- 帯域当たりのエネルギーE(i,b)=Σf∈b(L2(i,f)+R2(i,f));
- インターチャネルコヒーレンスIC(i,b);
- メル周波数ケプストラム係数MFCC(i,b)
【0016】
本分析はスピーチに焦点を当てているので、典型的にはスピーチの周波数範囲、例えば80Hzと4kHzとの間の帯域のみが保持される。
【0017】
さらに、スペクトル勾配SS(i)は、対象の周波数範囲におけるE(i,b)の線形近似の勾配として計算される。
【0018】
スペクトル勾配は、高周波数がどれだけ減衰されるかの尺度であり、したがって、それは自己及び外部スピーチを区別するタスクに適する。
【0019】
インターチャネルコヒーレンスは、LとRとの間の類似度の尺度であり;口からLマイクとRマイクへの伝播の対称性を考慮すると、LとRは自己スピーチではほぼ同一であると予想でき、一方、典型的な状況では、外部スピーチの非類似度が予想される。
【0020】
MFCCは、スピーチ関連の分析及び分類のために一般的に使用される特徴である。
【0021】
ステップS3と並行して(
図2には示されていない)、s(t)のフレームがVAD4に送信され、VAD4は、オーディオiの各フレームについてスピーチを含む確率V(i)を出力する、ここで0≦V(i)≦1である。VAD がモノラル信号で動作する場合、s(t)の代わりにl(t)+r(t)などのダウンミックスが使用される。
【0022】
[自己及び外部スピーチ分類]
ステップS4において、自己外部分類ユニット5は、特徴量E(i,b),SS(i,b),IC(i,b)を特徴抽出ユニット3から受信し、バイナリ分類結果C(i)、すなわち、自己スピーチについてC(i)=1、及び、外部スピーチについてC(i)=0、を生成する。分類は、サポートベクターマシン(SVM)などのトレーニングされた分類器によって実行される。分類器のトレーニングは、オーディオの各フレームについて、入力が前述の特徴ベクトルであり、出力クラスが事前に与えられているラベル付きコンテンツのセットで実行できる。SVMは、ディープニューラルネットワークよりも少ないトレーニングデータしか必要としない強力な非線形分類器であるので、SVMが選択される。
【0023】
改善された性能のために、オーディオを含むフレームのみが、トレーニング中及び分類中の両方においてSVMに渡される。図示の例では、分類ユニット5は、VAD4からスピーチ確率Vも受信する。これにより、分類器5は、所与の閾値を超える確率Vを有するフレームのみをSVMに渡すことができる。
【0024】
分類器の精度は、雑音の存在、異なる話者タイプなどに応じて変化し得る。フレームごとの決定であるので、この分類に基づいて信号をセグメント化するための方法が提供され得る。
【0025】
代替的又は付加的に、自己外部分類ユニット5は、骨伝導センサ(図示せず)から骨伝導振動センサデータを受信し、骨伝導振動センサデータに少なくとも部分的に基づいて二値分類結果C(i)を生成する。例えば、骨伝導振動センサデータに基づく分類は、骨伝導振動センサデータが所定の閾値を所定の閾値を超えるか否かを決定することによって実行されてもよく、所定の閾値は、オーディオが自己スピーチであるが、所定の閾値を超えない骨伝導振動センサデータは、外部スピーチを示すことができる。骨伝導振動センサデータは、特徴抽出ユニット3から出力される特徴及びVAD4から出力されるスピーチ確率Vの代替又は補足として使用されることができる。
【0026】
[非類似度セグメンテーション]
この非類似度セグメント化ユニット6はまたMFCC(i,b)特徴及びVAD情報V(i)を受信し、ステップS5において、V(i)<thである全てのフレームが廃棄されるように、音声検出のための閾値thを定義する。廃棄されたフレームの行kが行列MFCC(i,b)から除去され、ベイズ情報量基準BIC)方法が残りのフレームjに適用され、従来の表記法に従って非類似度関数D(j)が得られる。セグメント化の対象となる最小長さ(例えば、2s)に対応するBICウィンドウ長が使用されることができる。その後、スピーチ信号の遷移は:
i) ピークは事前に定義された閾値thDよりも高くなければならない、及び
ii) ピークは、通常はBICウィンドウ長に対応する最小数のフレームΔjによって分離されるべきである、
という条件下でD(j)のピークを見つけることによって取得される。
【0027】
スピーチのみのフレームにおいてピークを見つけた後、それらの位置は、フレームのフルセットにマッピングし戻され、その結果、遷移は、元の信号の時間を基準とする。
【0028】
非類似度セグメント化は、自己話者及び外部話者間の遷移だけでなく、話者又は音響条件の任意の他の変化も検出することに留意されたい;自己スピーチ及び外部スピーチ間の遷移についてさえ、それは、どれがどれであるかについての情報を提供しない。
【0029】
[セグメント化]
セグメント化ユニット7は、フレームC(i)ごとの自己及び外部スピーチ分類を分類ユニット5から受信し、スピーチの遷移が非類似度セグメンテーションユニット6によって識別されたフレームjのセットを受信する。ステップS6において、ユニット7は、遷移フレームjに基づいてバイノーラルをセグメントに分割する。その後、ステップS7において、ユニット7は、十分な長さ及び分類信頼度の自己及び外部スピーチセグメントへのオーディオの最終的なセグメント化を提供する。
【0030】
非類似度セグメント化ユニット6によって提供された各セグメントkに対して、セグメントに属する複数のフレームは、セグメントが自己スピーチと考えられるかどうかを決定するために考慮される。
【0031】
例えば、「多数決」をフレームごとの分類に適用し、自己スピーチCS(k)として分類されたフレームの数が外部スピーチCE(k)として分類されたフレームの数よりも大きい場合、セグメントkは自己スピーチとみなされることができ、逆もまた同様である。セグメントkの信頼度σ(k)は、自己スピーチとして分類されたセグメントkのフレーム数CS(k)と、外部スピーチとして分類されたセグメントkのフレーム数CE(k)との間の相対差に基づいて決定される:
σ(k)=|CS(k)-CE(k)|/N(k)
ここでN(k)は、非スピーチフレームを含む、セグメントk内のフレームの総数kである、すなわち、N(k)=CS(k)+CE(k)。
【0032】
閾値thσは、σ<thσのセグメントが不確実であるとみなされるように定義される。
【0033】
セグメント化ユニット7はさらに、特定の状況において隣接するセグメントをマージし得る。例えば、同じクラス(自己又は外部)に分類され、信頼基準によって確かであるとみなされる隣接するセグメントは、単一のセグメントにマージされ得る。同様に、隣接する不確実セグメントはマージされ、単一の不確実セグメントを形成することができる。所定の持続時間より短いセグメントは、より大きな隣接フレームとマージすることができる。同じクラスの2つのあるセグメントによって囲まれた不確実セグメントは、隣接するセグメントとともに1つのセグメントにマージされることができる。異なるクラスの2つの確実なセグメント(すなわち、1つの自己スピーチ及び1つの外部スピーチ)によって取り囲まれた不確実セグメントは、最長の隣接するセグメントにマージされることができる。
【0034】
さらに、異なるクラスの2つの確実なセグメント(すなわち、1つの自己スピーチ及び1つの外部スピーチ)によって取り囲まれた不確実セグメントは、後続のスピーチ強調チェーンにおける遷移領域として使用されることができる。例えば、短い不確実セグメントは、隣接するセグメントに適用される異なる処理間の遷移のためのクロスフェード領域として使用されることができる。
【0035】
ユニット7によって得られた最終的なセグメント化は、各セグメントの遷移点及び推論されたクラス(自己スピーチ又は外部スピーチ)を含むフォーマットでスピーチ強調ユニットに渡される。セグメントの開始点及び持続時間などの代替表現も可能である。
【0036】
[セグメンテーションベースのスピーチ強調]
スピーチ強調チェーン8は、サイビランス低減(sibilance reduction)、等化(equalization)、ダイナミックレンジ圧縮(dynamic range compression)、ノイズ低減(noise reduction)、残響除去(de-reverberation)、及び他の処理を実行する信号処理ブロックを備え得る。多くの場合、各処理ブロックの最適な量及び設定は、信号の特性に応じて変化する可能性があり:通常、自己及び外部スピーチは、異なる等化、独立したレベリング、異なる量の残響抑制などから利益を得る。
【0037】
したがって、セグメント化ユニット7によって提供される自己及び外部スピーチへのセグメント化を使用して、2つのクラスのスピーチを別々に処理し、最適な音質を達成することができる。
【0038】
セグメント化ベースの処理の実施例は:
- 自己スピーチの録音における高周波損失を補償するための等化;補正曲線(周波数帯域ごとの利得)は、測定され、推定され、又はシミュレーションによって取得され、その後自己スピーチセグメントのみに適用され得る。
- レベリング:自己及び外部スピーチのレベル及びダイナミックレンジを整合させることは、コンテンツがユニット全体として考慮される場合、困難であり得る。セグメント化により、各セグメントを独立してレベリングすることができ、したがって、各話者に必要な音量及びダイナミックレンジが保証される。
- アンビエンス抑制:アンビエンスは通常、没入感を高めるが、了解度(intelligibility)を低下させる。アンビエンス及び残響抑制は、了解度を増加させるために外部スピーチに大量に適用され得、没入感を保つために自己スピーチに少量で適用され得る。
- 録音中の頭部の動きの影響を補償することによって知覚される画像を安定化させるためのバイノーラル信号回転:自己スピーチは安定化(実際には望ましくない回転として知覚される)を必要としないが、外部スピーチは安定化から利益を得る。
- チャネルアンバランス補正:イヤホンは、バッドが各外耳道内にどれだけしっかりと配置されているかに応じて、高周波数範囲においてインターチャネルアンバランスを有し得る。これは、自己スピーチの無声部分(シビランス)が中心からわずかに離れた音源方向に位置することを引き起こし、モノラル録音よりもソリッドでない音を出す。影響を受けた高周波帯域における左チャネルと右チャネルとの間のレベル差を補償することは、自己スピーチ品質を改善することができるが、同じ処理を外部スピーチに適用することは、その空間キューに影響を及ぼす可能性がある。
【0039】
セグメント化データが利用可能になると、信号全体がセグメントに分割され、各セグメントが推論されたクラスに従って処理される。セグメントは、処理されたセグメントを再結合するときのオーバーラップによるクロスフェードのために境界に余分なフレームを含み得る。各フレームを処理するために使用される設定は、自己及び外部スピーチクラスに対する異なるプリセットに基づくか(例えば、アンビエンス抑制など、自己及び外部スピーチに対して異なる処理が必要とされるプロセスに対して)、又は同じ設定に基づく(例えば、レベリングの場合など、目標が均一な結果を得ることである例に対して)。
【0040】
いくつかの実装形態では、
- 自己及び外部スピーチの分類は、骨伝導振動センサによって達成することができる。かかる実装形態では、分類器は、特徴を使用することに加えて又は代えて、骨伝導振動センサデータに基づいて分類を実行することができる。例えば、分類器は、スピーチに対応する骨振動の検出に応答して自己スピーチとして、又は骨伝導振動センサからのデータに基づく骨振動の欠如の検出に応答して外部スピーチとして、オーディオを分類することができる。したがって、骨伝導振動センサデータは、特徴を補完又は置換することができる。
- MFCC、VAD、及び他の特徴のために使用されるフレームサイズは異なり得;かかる場合、異なる特徴、又は特徴から導出された異なるメトリックを組み合わせるとき、より粗い特徴(coarser feature)は、補間又は単純な最近傍反復(nearest-neighbor repetition)によって最も細かい特徴の解像度に「アップサンプリング」され得る。
【0041】
本明細書で説明されるシステムの態様は、デジタル又はデジタル化されたオーディオファイルを処理するための適切なコンピュータベースのサウンド処理ネットワーク環境において実装され得る。適応オーディオシステムの部分は、コンピュータ間で送信されるデータをバッファし、ルーティングする働きをする1つ又は複数のルータ(図示せず)を含む、任意の所望の数の個々のマシンを備える1つ又は複数のネットワークを含むことができる。そのようなネットワークは、種々の異なるネットワークプロトコル上に構築されてもよく、インターネット、広域ネットワーク(WAN)、ローカルエリアネットワーク(LAN)、又はそれらの任意の組み合わせであってもよい。
【0042】
構成要素、ブロック、プロセス、又は他の機能構成要素のうちの1つ以上は、システムのプロセッサベースのコンピューティングデバイスの実行を制御するコンピュータプログラムを通して実装されてもよい。また、本明細書に開示される様々な機能は、ハードウェア、ファームウェアの任意の数の組み合わせを使用して、及び/又は、それらの挙動、レジスタ転送、ロジックコンポーネント、及び/又は他の特性の観点から、様々な機械可読媒体又はコンピュータ可読媒体に具体化されたデータ及び/又は命令として記述され得ることにも留意されたい。かかるフォーマットされたデータ及び/又は命令が具現化され得るコンピュータ可読媒体は、光記憶媒体、磁気記憶媒体、又は半導体記憶媒体など、様々な形態の物理(非一時的)不揮発性記憶媒体を含む。
【0043】
1つ以上の実施形態を例として、特定の実施形態に関して説明してきたが、1つ以上の実施形態が開示された実施形態に限定されないことを理解されたい。逆に、当業者には明らかなように、様々な修正及び同様の構成を包含することが意図されている。したがって、添付の特許請求の範囲は、かかる全ての偏向及び同様の構成を包含するように最も広範に解釈されるべきである。
【国際調査報告】