IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー ラボラトリーズ ライセンシング コーポレイションの特許一覧

特許7258228適応的平滑化を使用したダイアローグの拡張
<>
  • 特許-適応的平滑化を使用したダイアローグの拡張 図1
  • 特許-適応的平滑化を使用したダイアローグの拡張 図2
  • 特許-適応的平滑化を使用したダイアローグの拡張 図3
  • 特許-適応的平滑化を使用したダイアローグの拡張 図4
  • 特許-適応的平滑化を使用したダイアローグの拡張 図5
  • 特許-適応的平滑化を使用したダイアローグの拡張 図6
  • 特許-適応的平滑化を使用したダイアローグの拡張 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-04-06
(45)【発行日】2023-04-14
(54)【発明の名称】適応的平滑化を使用したダイアローグの拡張
(51)【国際特許分類】
   G10L 21/0364 20130101AFI20230407BHJP
   G10L 25/81 20130101ALI20230407BHJP
【FI】
G10L21/0364
G10L25/81
【請求項の数】 15
(21)【出願番号】P 2022513232
(86)(22)【出願日】2020-08-26
(65)【公表番号】
(43)【公表日】2022-09-15
(86)【国際出願番号】 US2020048034
(87)【国際公開番号】W WO2021041568
(87)【国際公開日】2021-03-04
【審査請求日】2022-08-23
(31)【優先権主張番号】PCT/CN2019/102775
(32)【優先日】2019-08-27
(33)【優先権主張国・地域又は機関】CN
(31)【優先権主張番号】62/900,969
(32)【優先日】2019-09-16
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/963,711
(32)【優先日】2020-01-21
(33)【優先権主張国・地域又は機関】US
【早期審査対象出願】
(73)【特許権者】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ユイ,シュエメイ
【審査官】大野 弘
(56)【参考文献】
【文献】特開2009-288669(JP,A)
【文献】特開2011-065093(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/0364
G10L 25/81
(57)【特許請求の範囲】
【請求項1】
オーディオ信号におけるダイアローグ明瞭度を強調する方法であって、前記オーディオ信号の各フレームに対して、
音声分類器が、フレームが音声コンテンツを含む音声信頼度スコアを判定することと、
音楽分類器が、前記フレームが音楽相関コンテンツを含む音楽信頼度スコアを判定することと、
前記音声信頼度スコアに応答して、ダイアローグ強調モジュールが、ユーザが選択した前記オーディオ信号の周波数帯域のゲインを適用して、ダイアローグ強調オーディオ信号を取得することとを含み、
ユーザが選択したゲインは、適応的平滑化アルゴリズムによって平滑化され、前記適応的平滑化アルゴリズムにおける過去のフレームの影響は平滑化係数によって決定され、
前記平滑化係数は前記音楽信頼度スコアに応答して選択され、音楽信頼度スコアが比較的に高いコンテンツの場合は比較的高い値を有し、音楽信頼度スコアが比較的に低い音声コンテンツの場合は比較的低い値を有し、音楽相関コンテンツのダイアローグ強調に対する過去のフレームの影響を増大させる、
方法。
【請求項2】
前記音楽信頼度スコアが所定の閾値を上回ったとき、第1のより高い平滑化係数が選択され、前記音楽信頼度スコアが前記所定の閾値を下回ったとき、第2のより低い平滑化係数が選択される、請求項1に記載の方法。
【請求項3】
前記平滑化係数は、時間として表現され、前記適応的平滑化アルゴリズムのフィルタリングウィンドウに関する、請求項1又は2に記載の方法。
【請求項4】
第1の、より高い平滑化係数が500ミリ秒(ms)である、
請求項3に記載の方法。
【請求項5】
第2の、より低い平滑化係数は、50と100ミリ秒(ms)の間である、
請求項3または4に記載の方法。
【請求項6】
前記オーディオ信号の信号対雑音比(SNR)を測定することと、
測定されたSNRに基づいて前記平滑化係数を調整することであって、より低いSNR値はより大きな平滑化係数に対応することとをさらに含む、
請求項1ないし5いずれか一項に記載の方法。
【請求項7】
前記音声分類器におけるレイテンシを測定することと、
測定したレイテンシに基づいて前記平滑化係数を調整することであって、より大きなレイテンシはより大きな平滑化係数に対応することとを含む、請求項1ないし6いずれか一項に記載の方法。
【請求項8】
前記平滑化係数の増加量は、前記レイテンシの量に直線的に対応する、
請求項7に記載の方法。
【請求項9】
前記レイテンシを測定し、前記平滑化係数を増加させることはリアルタイムで行われる、請求項7又は8に記載の方法。
【請求項10】
前記平滑化係数の比較的高い値は、偽陽性を減少させるように選択される、
請求項1ないし9いずれか一項に記載の方法。
【請求項11】
前記平滑化係数の比較的低い値は、ダイアローグをブーストするように選択される、請求項1ないし10いずれか一項に記載の方法。
【請求項12】
前記適応的平滑化アルゴリズムは、
Out(n)=αOut(n-1)+(1-α)In(n)
による重み付き平均であり、
ここで、Out(n)は現在のフレームの平滑化された出力ゲイン、Out(n-1)は前のフレームの平滑化された出力ゲイン、In(n)は現在のフレームの元の入力ゲイン、そしてαは平滑化係数とともに増加する適応的に調整された変数である、
請求項1ないし11いずれか一項に記載の方法。
【請求項13】
前記αは、
α=0.5samples per frame/(sample rate*smoothing factor)
として定義される、請求項12に記載の方法。
【請求項14】
一以上のコンピュータ・プロセッサと、
前記一以上のプロセッサにより実行されると、前記一以上のプロセッサに請求項1ないし13いずれか一項に記載の方法を実行させるプログラムを記憶する非一時的コンピュータ読取可能媒体とを含む、
システム。
【請求項15】
一以上のコンピュータ・プロセッサによる実行されると、前記一以上のプロセッサに請求項1ないし13いずれか一項に記載の方法を実行させるプログラムを記憶する非一時的コンピュータ読取可能媒体。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願の相互参照]
本出願は、2020年1月21日に出願された米国仮特許出願第62/963,711号、2019年9月16日に出願された米国仮特許出願第62/900,969号、および2019年8月27日に出願された国際特許出願第PCT/CN2019/102775号の優先権を主張するものであり、これらのすべては、その全体をここに参照援用する。
[技術分野]
本発明は、ダイアローグ強調を含むオーディオ処理に関する。具体的には、本発明は、増幅され抽出されたダイアローグを平滑化することによってダイアローグ強調を改善することに関する。
【背景技術】
【0002】
ダイアローグ強調は、オーディオ信号中の音声/ダイアローグを強調し、分かりやすさを改善するアルゴリズムである。ダイアローグ強調システムの一例を図1に示す。ここで、ダイアローグ強調システムは、音声の存在を検出するために使用される音声検出器を備えている。音声検出器は、Voice Activity Detection(VAD)または機械学習に基づく音声分類器であってもよい。音声検出器からの出力(ON/OFF)は、ユーザが選択したゲインと乗算され、ダイアローグ強調モジュールに入力される。幾つかの望ましくないアーチファクトを避けるために、ゲインは、ダイアローグ強調に入力される前に平滑化される。
【0003】
このようなダイアローグ強調アルゴリズムの性能をさらに改善することが望ましい。
【発明の概要】
【0004】
オーディオにおけるダイアローグの理解度を高める方法,システム,及びコンピュータプログラム製品を説明する。
【0005】
本発明の第1の態様は、オーディオ信号におけるダイアローグ明瞭度を強調する方法であって、前記オーディオ信号の各フレームに対して、音声分類器が、フレームが音声コンテンツを含む音声信頼度スコアを判定することと、音楽分類器が、前記フレームが音楽相関コンテンツを含む音楽信頼度スコアを判定することと、前記音声信頼度スコアに応答して、ダイアローグ強調モジュールが、ユーザが選択した前記オーディオ信号の周波数帯域のゲインを適用して、ダイアローグ強調オーディオ信号を取得することとを含み、ユーザが選択したゲインは、適応的平滑化アルゴリズムによって平滑化され、前記信頼度スコアにおける過去のフレームの影響は平滑化係数によって決定され、前記平滑化係数は前記音楽信頼度スコアに応答して選択され、音楽信頼度スコアが比較的に高いコンテンツの場合は比較的高い値を有し、音楽信頼度スコアが比較的に低い音声コンテンツの場合は比較的低い値を有し、音楽相関コンテンツのダイアローグ強調に対する過去のフレームの影響を増大させる。
【0006】
「音楽関連コンテンツ」とは、音楽の存在により音声分類がより難しくなることが予想されるコンテンツを意図している。過去のフレームの影響を増大させることによって、ダイアローグ強調は、音声分類器における「偽陽性」に対する感度を低下させる。
【0007】
平滑化係数は、適応的平滑化において考慮されるフレーム数に関係する。したがって、より大きな平滑化係数では、より多くのフレームが考慮されるため、ダイアローグ強調の適用がより緩やかに(遅く)なり、「偽陽性」による変動ブースト(fluctuating boost)を回避する。小さな平滑化係数では、考慮されるフレーム数が少なくなるため、ダイアローグ強調をより迅速に適用することができる。平滑化係数と平滑化機能の間の関係は、直接的なもの(例えば、平滑化係数が考慮されるフレームの数を定義する)でも、間接的なもの(例えば、平滑化係数が過去のフレームの比較的な重みの減少勾配を定義する)でもよい。
【0008】
適応的平滑化係数は、コンテンツに基づいて平滑化係数を適応させることを可能にする。音楽が存在するコンテンツ(音楽信頼度スコアが高い)では、平滑化係数を比較的大きく設定することができ(例えば、500ms以上のオーダー)、一方、音楽が存在しないコンテンツ(音楽信頼度スコアが低い)では、平滑化係数を比較的小さく設定することができる(例えば、100ms以下のオーダー)。
【0009】
平滑化係数は、追加的パラメータに基づいてさらに適応されてもよい。例えば、低い信号対雑音比(SNR)は、より大きな平滑化ファクタをもたらしてもよく、音声分類器における大きなレイテンシは、より大きな平滑化ファクタをもたらしてもよい。
【0010】
第2の態様によれば、音声分類器および音楽分類器は、オーディオ信号を受信し、オーディオ信号は、オーディオコンテンツを含む。音声分類器は音声信頼度を判定し、音楽分類器は音楽信頼度を判定する。音声および分類器の出力に応じて、適応的平滑化アルゴリズムは、音楽相関コンテンツ(music correlated content)に対してより高い値のダイアローグ平滑化係数を計算し、純粋音声コンテンツに対してより低い値のダイアローグ平滑化係数を計算する。適応的平滑化アルゴリズムは、音声コンテンツのSNRに基づいてダイアローグ平滑化係数を調整する。より低いSNRは、ダイアローグ平滑化係数のより大きな増加に対応する。過渡検出器(transient detector)を用いて、リアルタイムで音声分類器のレイテンシを測定してもよく、ダイアローグ平滑化係数は、レイテンシが増加するにつれて直線的に増加されるべきである。ダイアローグ強調器は、調整されたダイアローグ平滑化係数に基づいてオーディオコンテンツを強調し、強調されたオーディオを生成する。
【図面の簡単な説明】
【0011】
本発明を、本発明の現在の好ましい実施形態を示す添付図面を参照して、より詳細に説明する。
図1】従来のダイアローグ強調システムを示すブロック図である。
図2】本発明の一実施形態による動的平滑化を実施するダイアローグ強調システムの一例を示すブロック図である。
図3】本発明の一実施形態によるダイアローグ強調システムのより詳細なブロック図である。
図4】本発明の一実施形態による、様々な要因が平滑化係数にどのように影響し得るかを示すフローチャートである。
図5】VADまたは過渡検出器を使用して音声分類器のレイテンシを測定することを示す。
図6】動的平滑化を用いたダイアローグ強調のプロセスの一例を示すフローチャートである。
図7】一実施形態による、図1ないし6を参照して説明した特徴およびプロセスを実施するための移動装置アーキテクチャである。
【発明を実施するための形態】
【0012】
従来のダイアローグ強調アルゴリズム、例えば、図1に示すように、一般的には2つの大きな欠点がある:
1. 分類器の精度は100%ではない。音声分類器には、例えば、音楽に乗った音声/歌声および低SNRコンテンツのようないくつかの典型的な困難なケースがある。状況によっては、ダイアローグ抽出器は、実際にはダイアローグではない場合に、オーディオコンテンツをダイアローグとして誤って識別する。誤ってダイアローグと分類されるフレームは、「偽陽性」と呼ばれることがある。その結果、音楽があるときやSNRが低いときには、ダイアローグブーストは変動する。
2. 音声検出器のレイテンシはコンテンツに依存し、レイテンシは100ms未満から500ms以上まで変化し得る。その結果、言葉の最初の発話(始まり)が見逃され、突然のダイアローグブーストになることがある。
【0013】
これらの欠点を克服するために、時には、音声分類器の偽陽性及びレイテンシを低減するために、先読みが導入される。例えば、符号化側で2000msのレイテンシを許容することができる。しかしながら、モバイル再生側では、レイテンシは非常に敏感かつ重要であり、先読みは許容されない。その結果、精度およびレイテンシの問題は、従来の音声分類器ではさらに悪くなる。
【0014】
さらに、図1に示すように、従来の信頼度スコアを使用することにより、上記のアーチファクトを除去するか、少なくとも軽減することができる。しかし、固定の平滑化係数は、全ての使用ケースを満足するわけではない。例えば、正確さやレイテンシの問題のために最初の300msの言葉が見逃されることは、音楽コンテンツ上の音声でよくあることだが、この場合、ブースト音を自然かつ快適にするために500msの平滑化係数が必要となる。しかし、このような大きな平滑化係数は、精度が高く、レイテンシが通常は100msである通常の音声コンテンツには適用できない。
【0015】
本明細書に開示された技術は、発音されるだけでなく、より少ないアーチファクトで快適なダイアローグをもたらすダイアローグ強調に関する。図2は、本発明の一実施形態による、動的平滑化を実施するダイアローグ強調システム200の一例を示す。図2に示すように、本発明は、様々なコンテンツおよびコンテキストに対して最も適切な平滑化係数を自動的に選択してダイアローグ強調のアーチファクトを低減する適応的平滑化アルゴリズムを含む。
【0016】
平滑化係数をどのように適用するかいくつかの例を以下に示す:
-履歴と現在の音楽の信頼度スコアを利用する
もし音楽が最後の数フレームまたは現在のフレームで支配的であるなら、平滑化係数は、偽陽性を除去するために、例えば500ms以上のように大きくなる傾向があるはずである。
-純粋音声コンテンツの平滑化を減らす
コンテンツが純粋音声の場合、ダイアローグブースト(dialogue boost)をより顕著にするため、平滑化係数を例えば50msから100msのように小さくすることができる。
-SNRを利用する
SNRは、平滑化を導くのを助けるために測定することができ、偽陽性/陰性は、低SNRコンテンツで高くなる傾向があり、その結果、平滑化係数は、例えば500msのように、より保守的に大きくあるべきである。
-リアルタイムでレイテンシを測定することにより、平滑化係数を動的に変更する
VADまたは過渡検出器を使用して、リアルタイムで音声分類器のレイテンシを測定することができ、平滑化係数は、レイテンシが増加するにつれて直線的に増加するべきである。コンテンツに応じて、レイテンシは100msと小さいか、または大きくても500msとなる。
【0017】
本発明のより詳細な実施形態を図3に示し、ここで、システム20は、音声分類器21および音楽分類器22を含む。音声分類器は、オーディオ信号の特定のフレームが音声(ダイアローグ)を含む尤度を示す音声信頼度スコアを生成する。同様に、音楽分類器は、音声信号の特定のフレームが音楽を含む尤度を示す音楽信頼度スコアを生成し、。分類器は、任意の適切な技術に基づくことができ、例えば、自己回帰(AR)モデルを学習する機械を含むことができ、分類器からの直接出力は、通常、-∞から∞までの実数値であり、これは、0と1との間の値に、シグモイド関数(conf_score=1/(1+eax+b)を用いてマッピングされ、ここでxは直接出力であり、aおよびBは定数である。
【0018】
音声信頼度スコアは、例えば、当技術分野で既知のタイプであるダイアローグ強調モジュール23を起動するために使用される。単純な場合には、ダイアローグ強調モジュールは静的であり、ユーザが選択したゲインによってオーディオ信号の予め選択された周波数をブーストするように構成される。より複雑な場合には、エンハンスメントモジュールは、ダイアローグコンポーネントを動的に推定し、この推定されたダイアローグコンポーネントをブースト(boost)する。
【0019】
原理的には、音声信頼度スコアは、ユーザゲインを乗算した起動信号として直接使用され得る。しかし、まず信頼度スコアをバイナリ値ON/OFFにマッピングすると都合がよい。図2において、そのようなマッピングは、ダイアローグ検出器24によって提供される。このようなマッピングを達成する様々な方法が可能である。例えば、マッピングは、単純な閾値、例えば0.5、であってもよく、0.5より大きい信頼度スコアがON信号を与え、0.5より小さい信頼度スコアがOFF信号を与えるようにしてもよい。あるいは、ヒステリシスモデルを適用して、先行フレームのバイナリ値に応じて閾値を異ならせるようにしてもよい。たとえば、前の値がONの場合はしきい値=0.4、前の値がOFFの場合はしきい値=0.6としてもよい。
【0020】
信頼度スコアまたはバイナリアクティブ化信号にユーザゲインを掛け、これは、ダイアローグ強調モジュール23に供給される前に、適応的平滑化モジュール25に供給される。図1の従来の平滑化モジュールと同様に、適応的平滑化フィルタ25は、特定の長さの平滑化係数にわたって平滑化フィルタを適用する。しかしながら、モジュール25では、平滑化因子の長さは適応的であり、例えば、音声信頼度スコア及び音楽信頼度スコアに基づく。
【0021】
システムはさらに、信号対ノイズ比(SNR)検出器26をさらに有し、これは(フレームごとに)オーディオ信号中のSNRを検出し、これを適応的平滑化モジュール25に供給する。
【0022】
このシステムは、従来のボイスアクティブ化検出器(VAD)または過渡検出器のような、あまり複雑ではないが高速なボイス検出器27をさらに備える。ボイス検出器27からの出力は、適応的平滑化モジュールに供給され、音声分類器のレイテンシの決定を可能にする。図4は、音声信頼度スコアおよびVADからの出力をプロットすることによって、音声分類器のレイテンシの例を示す。
【0023】
適応的平滑化モジュールは、様々な平滑化機能を使用して、ダイアローグ強調モジュール23に適用されるゲインを平滑化することができる。一般に、平滑化係数は、現在のフレームのゲインを決定する際に考慮される過去のフレームの数に関連する。単純な例では、平滑化係数は、現在のフレームについて平滑化されたゲインを決定するために移動平均に含まれる過去のフレームのウィンドウを画定することができる。
【0024】
別の例では、フィルタは、以下のような加重平均単極フィルタ法である:
Out(n)=αOut(n-1)+(1-α)In(n),
ここで、Out(n)は現在のフレームの平滑化された出力ゲイン、Out(n-1)は前のフレームの平滑化された出力ゲイン、In(n)は現在のフレームの元の入力ゲイン、αはゼロと1の間の適応的に調整された変数である。過去のフレームの影響は、アルファをベースに指数関数的に減少することは明らかである。αの値が大きいほど、過去のフレームはゆっくりとフェードし、出力ゲインはスムーズに変化する。
【0025】
αと平滑化係数の関係は、例えば以下のようになる:
α=0.5samples per frame/(sample rate*smoothing factor)
平滑化係数は、例えば、本明細書に記載されている状況に応じて、50ms、300ms、500ms、または1sであってもよい。
【0026】
平滑化係数がどのように適応的に設定されるかの例を図5の単純なフローチャートに示す。この単純な例では、2つの平滑化係数しか存在せず、小さな係数は50~100msであり、大きな係数は500msより大きい。
【0027】
まず、ステップS1で、音楽信頼度スコアを使用して、音声信号が音楽と相関しているかどうかを判定する。簡単なアプローチでは、判定は、現在のフレームの音楽信頼度スコアを閾値と比較することによって実行され、かくして、バイナリ信号ON/OFFを生成する。ヒステリシスモデルを適用して、一つまたは複数の先行フレームのバイナリ値を使用することもできる。判定がYESの場合、すなわち、フレームが音楽と相関していることが判明した場合、より大きな平滑化係数(ここでは>500ms)が適用される。
【0028】
コンテンツが音楽と相関していない場合、処理はステップS2に進み、検出器26からのSNRは閾値、例えば0dBと比較される。SNRが閾値を下回り、信号がノイズに対して弱いことを示す場合は、再度、より大きな(ここでは>500ms)平滑化係数が適用される。
【0029】
さらに、ステップS3では、音声分類器のレイテンシが、閾値、例えば、150ミリ秒と比較される。レイテンシが閾値を下回らない場合は、再度より大きな(ここでは>500ms)平滑化係数が適用される。
【0030】
その他すべてのコンテンツについては、「純粋音声」と考えられるが、小さな平滑化係数(ここでは50~100msの範囲のもの)が適用される。
【0031】
図6は、動的平滑化を使用したダイアローグ強調の例示的プロセス400を示すさらに別のフローチャートである。プロセス400は、一つ以上のプロセッサを含むダイアローグ強調システムによって実行することができる。
【0032】
ダイアローグ強調システムの音声分類器および音楽分類器は、オーディオコンテンツを含むオーディオ信号を受信する。ダイアローグ強調システムの音声分類器は、音声信頼度を決定する(420)。音楽分類器は、音楽信頼度を決定する(430)。
【0033】
音声分類器および音楽分類器の出力に応答して、適応的平滑化アルゴリズムは、音楽相関コンテンツに対しより高い値のダイアローグ平滑化係数を計算し、純粋音声コンテンツに対しより低い値のダイアローグ平滑化係数を計算する(440)。適応的平滑化アルゴリズムは、オーディオコンテンツの測定信号対雑音比(SNR)に基づいてダイアローグ平滑化係数を調整する(450)。より低いSNR値は、ダイアローグ平滑化係数のより大きな増加に対応する。
【0034】
いくつかの実装では、システムはレイテンシに基づいてダイアローグの平滑化係数を調整する。レイテンシベースの調整は、過渡検出器によって、音声分類器の出力のレイテンシの量を測定し、適応的平滑化アルゴリズムによって、レイテンシの量に応じてダイアローグ平滑化係数を増加させることを含むことができる。レイテンシが長ければ、増加量は大きくなる。増加量は、レイテンシの量に直線的に対応し得る。レイテンシの量を測定し、ダイアローグの平滑化係数を増加させることは、リアルタイムで行うことができる。音声コンテンツの第1の部分の各々は、与えられた数の1つ以上のフレームを含む。ダイアローグの平滑化係数は、偽陽性を減らすために最適な値に設定することができる。偽陽性を減少させる最適値は500ミリ秒(ms)である。ダイアローグ平滑化係数は、ダイアローグをブーストするため最適な値に設定できる。ダイアローグのブーストに最適な値は、50~100ミリ秒(両端を含む)の間である。
【0035】
ダイアローグ強調器は、調整されたダイアローグ平滑化係数に基づいてオーディオコンテンツを強調し、強調されたオーディオを生成する(460)。強調の間、ダイアローグ平滑化係数の値が大きいほど、強調の偽陽性が減少し、ダイアローグ平滑化係数の値が小さいほど、強調のダイアローグブーストが増加する。次に、システムは、処理、再生、ストリーミング、または記憶のために、下流装置、例えばプロセッサ、増幅器、ストリーミングサービサー、または記憶媒体に、拡張された音声コンテンツを供給する(470)。
【0036】
図7は、一実施形態による、図1~4を参照して説明した特徴およびプロセスを実施するためのモバイルデバイスアーキテクチャである。アーキテクチャ800は、デスクトップコンピュータ、消費者向けオーディオ/ビジュアル(AV)機器、ラジオ放送機器、モバイルデバイス(例えば、スマートフォン、タブレットコンピュータ、ラップトップコンピュータ、ウェアラブルデバイス)を含むが、これらに限定されない、任意の電子デバイスで実装することができる。図示した実施形態では、アーキテクチャ800はスマートフォン用であり、プロセッサ(複数可)801、周辺機器インターフェース802、オーディオサブシステム803、ラウドスピーカ804、マイクロホン805、センサ806(例えば、加速度計、ジャイロ、気圧計、磁力計、カメラ)、位置プロセッサ807(例えば、GNSS受信機)、無線通信サブシステム808(例えば、Wi-Fi、Bluetooth、セルラ)およびI/Oサブシステム809を含み、これらは、タッチコントローラ810および他の入力コントローラ811、タッチ面812、および他の入力/制御デバイス813を含む。より多くの構成要素またはより少ない構成要素を有する他のアーキテクチャも、開示された実施形態を実施するために使用することができる。
【0037】
メモリインタフェース814は、プロセッサ801、周辺機器インターフェース802、およびメモリ815(例えば、フラッシュ、RAM、ROM)に結合される。メモリ815は、オペレーティングシステム命令816、通信命令817、GUI命令818、センサ処理命令819、電話命令820、電子メッセージング命令821、ウェブブラウジング命令822、オーディオ処理命令823、GNSS/ナビゲーション命令824、およびアプリケーション/データ825を含むが、これらに限定されないコンピュータプログラム命令およびデータを記憶する。オーディオ処理命令823は、図1~4を参照して説明したオーディオ処理を実行する命令を含む。
【0038】
本明細書で説明するシステムの態様は、デジタルまたはデジタル化オーディオファイルを処理するための適切なコンピュータベースのサウンド処理ネットワーク環境で実施することができる。適応的オーディオシステムの一部分は、コンピュータ間で送信されるデータをバッファおよびルーティングするように機能する1つ以上のルータ(図示せず)を含む、任意の所望の数の個々のマシンを含む1つ以上のネットワークを含んでもよい。そのようなネットワークは、種々の異なるネットワークプロトコル上に構築されてもよく、インターネット、広域ネットワーク(WAN)、ローカルエリアネットワーク(LAN)、またはそれらの任意の組み合わせであってもよい。
【0039】
コンポーネント、ブロック、プロセス、または他の機能コンポーネントの1つ以上は、システムのプロセッサベースのコンピューティングデバイスの実行を制御するコンピュータプログラムを介して実装することができる。また、ここに開示された種々の機能は、ハードウェア、ファームウェア、および/または種々の機械可読またはコンピュータ可読媒体に具体化されたデータおよび/または命令の任意の数の組み合わせを使用して、それらの動作、レジスタ転送、論理構成要素、および/または他の特徴に関して説明することができることに留意されたい。そのようなフォーマットされたデータおよび/または命令が具体化され得るコンピュータ可読媒体は、光学、磁気または半導体記憶媒体のような種々の形態の物理的(非一時的)不揮発性記憶媒体を含むが、これらに限定されない。
【0040】
1つまたは複数の実施形態が、例としておよび特定の実施形態に関して説明したが、言うまでもなく、1つまたは複数の実施形態は、開示された実施形態に限定されない。逆に、当業者には明らかなように、種々の修正および類似の構成をカバーすることが意図されている。従って、添付の特許請求の範囲は、そのような修正及び類似の構成の全てを包含するように、最も広い解釈を与えられるべきである。
【0041】
列挙された例示的実施形態(EEE)のリスト:
EEE1 オーディオにおけるダイアローグの明瞭性を高める方法であって、
ダイアローグ強調システムの音声および音楽分類器が、オーディオ信号を受信することであって、前記オーディオ信号は音声コンテンツを含むことと、
前記音声分類器が、オーディオコンテンツが純粋音声コンテンツを含む信頼度スコアを判定することと、
音楽分類器が、オーディオコンテンツが音楽創刊コンテンツを含む信頼度スコアを判定することと、
音声および音楽分類器の出力に応じて、適応的平滑化アルゴリズムが、音楽相関コンテンツに対してより高い値のダイアローグ平滑化係数を計算し、純粋音声コンテンツに対してより低い値のダイアローグ平滑化係数を計算することと、
オーディオコンテンツの測定信号対ノイズ比(SNR)に基づいて、適応的平滑化アルゴリズムが、ダイアローグ平滑化係数を調整することであって、より低いSNR値は、ダイアローグ平滑化係数のより大きな増加に対応することと、
ダイアローグ強調器が、調整されたダイアローグの平滑化係数に基づきオーディオコンテンツを強調し、強調されたオーディオを生成することであって、ダイアローグ平滑化係数の値が大きいほど、強調における偽陽性が減少し、ダイアローグ平滑化係数の値が小さいほど、強調におけるダイアローグブーストが増加することと、
前記判定、計算、調整、および強調の各々は、一以上のプロセッサによって実行される、方法。
【0042】
EEE2 レイテンシに基づいてダイアローグ平滑化係数を調整することを含み、レイテンシに基づく調整は、
過渡検出器が、音声分類器の出力のレイテンシの量を測定することと、
適応的平滑化アルゴリズムが、レイテンシの量に応じてダイアローグ平滑化係数を増加させることであって、より長いレイテンシはより大きい増加量に対応する、EEE1に記載の方法。
【0043】
EEE3 増加の量は、レイテンシの量に直線的に対応する、EEE2に記載の方法。
【0044】
EEE4 レイテンシの量を測定し、ダイアローグの平滑化係数を増加させることはリアルタイムで行われる、EEE2またはEEE3に記載の方法。
【0045】
EEE5 音楽相関コンテンツの各々は所定の数の一以上のフレームを含む、EEE1ないし4いずれか一項に記載の方法。
【0046】
EEE6 ダイアローグ平滑化係数は、偽陽性を減少させるために最適な値に設定される、EEE1ないし5いずれか一項に記載の方法。
【0047】
EEE7 偽陽性を減少させるための最適値が500ミリ秒(ms)である、EEE6に記載の方法。
【0048】
EEE8 ダイアローグ平滑化係数はダイアローグをブーストするために最適な値に設定される、EEE1ないし7のいずれか一項に記載の方法。
【0049】
EEE9 ダイアローグをブーストするための最適値が、50~100ミリ秒(ms)(両端を含む)の間にある、EEE8記載の方法。
【0050】
EEE10 システムであって、
一以上のコンピュータ・プロセッサと、
一以上のプロセッサにより実行されると、一以上のプロセッサにEEE1ないしEEE9のいずれか一項に記載の動作を実行させる命令を記憶する非一時的コンピュータ読取可能媒体とを有する、システム。
【0051】
EEE11 一以上のコンピュータ・プロセッサによって実行されると、一以上のプロセッサにEEE1ないしEEE9のいずれか一項に記載の動作を実行させる命令を記憶する非一時的コンピュータ読取可能媒体。
図1
図2
図3
図4
図5
図6
図7