【文献】
TANCEREL, L., et al.,COMBINED SPEECH AND AUDIO CODING BY DISCRIMINATION,Proc. 2000 IEEE Workshop on Speech Coding,IEEE,2000年 9月17日,pp.154-156
(58)【調査した分野】(Int.Cl.,DB名)
スピーチフレーム又は非スピーチフレームとしてのオーディオフレームの分類を示す第1の決定データを出力するように構成された第1の分類器と、前記第1の決定データは、前記オーディオフレームが前記スピーチフレームである第1の尤度に関連付けられた第1の確率データに基づいて、及び前記オーディオフレームが前記非スピーチフレームである第2の尤度に関連付けられた第2の確率データに基づいて決定される、
前記第1の分類器から前記第1の決定データ、前記第1の確率データ及び前記第2の確率データを受けるように結合された第2の分類器と、前記第2の分類器は、前記第1の確率データ、前記第2の確率データ及び前記第1の決定データに基づいて、第2の決定データを出力するように構成され、前記第2の決定データは、前記オーディオフレームを符号化するのに利用可能な、複数のエンコーダのうちの特定のエンコーダの選択の指示を含む、
前記第2の決定データが前記特定のエンコーダの前記選択を示すことに応答して前記オーディオフレームを符号化するように構成された前記特定のエンコーダと、を備えるオーディオ信号を符号化するための機器。
前記複数のエンコーダは第1のエンコーダと第2のエンコーダとを含み、前記第2の決定データに基づいて前記第1のエンコーダ又は前記第2のエンコーダを選択するように構成されたスイッチを更に備える、請求項1に記載の機器。
前記第1のエンコーダは代数符号励振線形予測(ACELP)エンコーダを備え、前記第2のエンコーダは変換符号化励振(TCX)エンコーダを備える、請求項3に記載の機器。
前記第1の分類器は状態機械を含み、前記状態機械は、前記第1の確率データと前記第2の確率データとを受信するように、並びに前記第1の確率データ及び前記第2の確率データに基づいて前記第1の決定データを生成するように構成される、請求項1に記載の機器。
前記第2の分類器は、前記第1の確率データ、前記第2の確率データ及び前記第1の決定データに基づいて、調整パラメータを生成するように構成された調整パラメータ生成器を含み、前記第2の分類器は、前記調整パラメータの値に更に基づいて前記第2の決定データを出力するように構成される、請求項1に記載の機器。
前記複数のエンコーダを更に備え、前記第1の分類器、前記第2の分類器及び前記複数のエンコーダはモバイル通信機器又は基地局に一体化される、請求項1に記載の機器。
前記複数のエンコーダは第1のエンコーダと第2のエンコーダとを含み、前記第1のエンコーダはスピーチエンコーダを備え、前記第2のエンコーダは非スピーチエンコーダを備える、請求項15に記載の方法。
調整パラメータの値を選択することを更に備え、前記値は、前記第1の確率データ、前記第2の確率データ、長期状態データ又は前記第1の決定データのうちの少なくとも1つに基づいて選択され、前記第2の決定データは、前記調整パラメータの前記値に更に基づいて決定される、請求項18に記載の方法。
前記調整パラメータの前記値に基づいて前記第1の推定コード化利得値を調整することを更に備え、前記特定のエンコーダの前記選択は、前記調整された第1の推定コード化利得値及び前記第2の推定コード化利得値に基づく、請求項19に記載の方法。
前記調整パラメータの前記値は、スピーチに関連付けられた前記第1のエンコーダ又は非スピーチに関連付けられた前記第2のエンコーダへ前記選択を偏らせるように選択される、請求項20に記載の方法。
前記オーディオフレームが12,800ヘルツのサンプルレートに関連付けられるかどうかを決定することを更に備え、前記条件のセットは、前記オーディオフレームが12,800ヘルツの前記サンプルレートに関連付けられると決定することに応答して、少なくとも部分的に満足されると決定される、請求項22に記載の方法。
前記条件のセットは、前記第1の決定データが、前記オーディオフレームが前記スピーチフレームとして分類されることを示すと決定することに応答して、少なくとも部分的に満足されると決定される、請求項22に記載の方法。
前記オーディオフレームを符号化するのに使われる前記第1のエンコーダに関連付けられた第1の推定コード化利得値が第1の値以上であるかどうかを決定することを更に備え、前記第1の値は、第2の推定コード化利得値と第2の値との間の差に関連付けられ、前記条件のセットは、前記第1の推定コード化利得値が前記第1の値以上であると決定することに応答して、少なくとも部分的に満足されると決定される、請求項22に記載の方法。
前記オーディオフレームが12,800ヘルツのサンプルレートに関連付けられるかどうかを決定することを更に備え、前記条件の第2のセットは、前記オーディオフレームが12,800ヘルツの前記サンプルレートに関連付けられると決定することに応答して、少なくとも部分的に満足されると決定される、請求項29に記載の方法。
前記第1の決定データが、前記オーディオフレームが前記非スピーチフレームとして分類されることを示すかどうかを決定することを更に備え、前記条件の第2のセットは、前記第1の決定データが、前記オーディオフレームが前記非スピーチフレームとして分類されることを示すと決定することに応答して、少なくとも部分的に満足されると決定される、請求項29に記載の方法。
前記第1の確率データを決定するための前記手段はスピーチモデル回路構成を備え、前記第2の確率データを決定するための前記手段は非スピーチモデル回路構成を備え、前記第1の決定データを決定するための前記手段は状態機械を備え、前記第2の決定データを決定するための前記手段は開ループ分類器を備える、請求項33に記載の装置。
前記第1の確率データを決定するための前記手段、前記第2の確率データを決定するための前記手段及び前記第1の決定データを決定するための前記手段は、混合ガウスモデル回路構成中に含まれる、請求項33に記載の装置。
前記第1の確率データを決定するための前記手段、前記第2の確率データを決定するための前記手段、前記第1の決定データを決定するための前記手段及び前記第2の決定データを決定するための前記手段は、モバイル通信機器又は基地局に一体化される、請求項33に記載の装置。
前記命令は、前記プロセッサに更に、スピーチコンテンツに関連付けられた第1のエンコーダへ前記選択を偏らせるように、調整パラメータの値を選択することを備える前記動作を実施させる、請求項37に記載のコンピュータ可読記憶機器。
【発明を実施するための形態】
【0017】
[0024]本開示の特定の態様が、図面を参照して以下で説明される。説明では、共通の特徴は、共通の参照番号によって指定される。本明細書で使われる限り、様々な用語は、特定の実装形態を記述するためにのみ使われるのであって、限定的であることは意図されない。例えば、単数形「a」、「an」及び「the」は、文脈が別段に明確に示すのでなければ、複数形をも含むものとする。更に、「備える」及び「備えている」という用語が、「含む」又は「含んでいる」と互換的に使用され得ることが理解され得る。更に、「ここにおいて」という用語が「ここで」という用語と互換的に使用され得ることを理解されよう。本明細書では、構造、構成要素、動作などの要素を修正するのに使用される順序を示す用語(例えば、「第1の」、「第2の」、「第3の」など)は、それ自体、別の要素に関する要素の優先順位又は順序を示しておらず、要素を、(順序を示す用語の使用を別にすれば)同じ名前を有する別の要素から区別しているだけである。本明細書で使用する「セット」という用語は、1つ又は複数の要素のグループ化を指し、「複数の」という用語は、複数の要素を指す。
【0018】
[0025]本開示では、エンコーダ又は符号化モードを選択するための技法が記載される。機器は、オーディオフレームを受信することができ、オーディオフレームを符号化するのに使われる、複数のエンコーダのうちの特定のエンコーダ(又は符号化モード)を選択することができる。本明細書に記載される技法は、特定のエンコーダ(例えば、スピーチエンコーダ若しくは非スピーチ/音楽エンコーダ)又は特定の符号化モードへ選択を偏らせる(bias)のに使われる調整パラメータの値(例えば、ヒステリシスメトリック)を設定するのに使われ得る。調整パラメータは、オーディオフレームのより正確な分類を行うのに使われてよく、その結果、オーディオフレームを符号化するのに使われるべきエンコーダの選択が向上し得る。
【0019】
[0026]例示のために、機器は、オーディオフレームを受信することができ、オーディオフレームを符号化するために選択されるべきエンコーダを識別するのに、第1の分類器及び第2の分類器など、複数の分類器を使うことができる。第1の分類器は、スピーチモデル(例えば、スピーチモデル回路構成)に基づいて、非スピーチモデル(例えば、非スピーチモデル回路構成)基づいて、又はそれらの組合せで、第1の決定データを生成し得る。第1の決定データは、オーディオフレームがスピーチのようなフレームであるか、それとも非スピーチ(例えば、音楽、背景雑音など)フレームであるかを示し得る。スピーチコンテンツは、例示的な非限定的例として、アクティブスピーチ、非アクティブスピーチ、雑音が多いスピーチ、又はそれらの組合せを含むものとして指定され得る。非スピーチコンテンツは、例示的な非限定的例として、音楽コンテンツ、音楽のようなコンテンツ(例えば、保留中の音楽、呼出し音など)、背景雑音、又はそれらの組合せを含むものとして指定され得る。他の実装形態では、非アクティブスピーチ、雑音が多いスピーチ、又はそれらの組合せは、スピーチに関連付けられた特定のエンコーダ(例えば、スピーチエンコーダ)が、非アクティブスピーチ又は雑音が多いスピーチを復号するのが困難である場合、機器によって非スピーチコンテンツとして分類され得る。別の実装形態では、背景雑音はスピーチコンテンツとして分類され得る。例えば、スピーチに関連付けられた特定のエンコーダ(例えば、スピーチエンコーダ)が、背景雑音を復号するのに優れている場合、機器は、背景雑音をスピーチコンテンツとして分類し得る。
【0020】
[0027]幾つかの実装形態では、第1の分類器は、(例えば、混合ガウスモデルに基づく、隠れマルコフモデルに基づく、又はニューラルネットワークに基づく)最尤アルゴリズムに関連付けられ得る。第1の決定データを生成するために、第1の分類器は、オーディオフレームがスピーチフレームである第1の尤度に関連付けられた第1の確率値(例えば、第1の確率データ)、オーディオフレームが非スピーチフレームである第2の尤度に関連付けられた第2の確率値(例えば、第2の確率データ)、又はそれらの組合せなど、1つ又は複数の確率値を生成すればよい。第1の分類器は、第1の確率データ、第2の確率データ、又はそれらの組合せを受信するとともに、第1の決定データを生成する状態機械を含み得る。第1の決定データは、状態機械によって出力され、第2の分類器によって受信され得る。
【0021】
[0028]第2の分類器は、オーディオフレームを符号化するための、複数のエンコーダのうちの特定のエンコーダの選択に関連付けられた(例えば、その選択を示す)第2の決定データを生成するように構成され得る。第2の決定データは、オーディオフレームの、更新又は修正された分類に対応し得る(例えば、第2の決定データは、第1の決定データとは異なる分類を示し得る)。幾つかの実装形態では、第1の決定データは、第2の決定データと同じ分類を示し得る。追加又は代替として、第2の決定データは、「最終決定」に対応し得る(例えば、オーディオフレームがスピーチフレームの分類を有する場合、スピーチエンコーダが選択される)。第2の分類器は、モデルベース分類器であってもよく、純粋にモデルに基づくとは限らない分類器(例えば、開ループ分類器)であってもよく、コード化パラメータのセットに基づいてもよい。コード化パラメータは、例示的な非限定的例として、コアインジケータ、コード化モード、コーダタイプ、ローパスコア決定、ピッチ値、ピッチ安定度、又はそれらの組合せを含み得る。
【0022】
[0029]第2の分類器は、第1の決定データ、第1の確率データ、第2の確率データ、又はそれらの組合せに基づいて、第2の決定データを生成し得る。幾つかの実装形態では、第2の分類器は、第2の決定データを生成するのに、コード化パラメータのセットのうちの1つ又は複数を使い得る。更に、第2の分類器は、オーディオフレームに関連付けられた1つ又は複数の条件に基づいて、第2の決定データを生成することができる。例えば、第2の分類器は、本明細書に記載されるように、オーディオフレームに関連付けられた条件のセットが満足されるかどうかを決定することができる。条件のセットの1つ又は複数の条件が満足される(又は満足されない)ことに応答して、第2の分類器は、第1のエンコーダ(例えば、スピーチエンコーダ)又は第2のエンコーダ(例えば、非スピーチエンコーダ)へ選択を偏らせる(例えば、選択に影響する)ように、調整パラメータの値を決定してよい。他の実装形態では、第2の分類器は、複数の符号化モードを有する切替え可能エンコーダ、このような切替え型エンコーダの特定の符号化モードへ選択を偏らせる(例えば、選択に影響する)ように、調整パラメータの値を決定してよい。調整パラメータは、第2の分類器によって、オーディオフレーム用のエンコーダの選択を向上させるのに使われ得るヒステリシスメトリック(例えば、時間に基づくメトリック)として動作し得る。例えば、ヒステリシスメトリックは、閾値数の連続オーディオフレームが特定の分類を有するものと識別されるまで、2つのエンコーダの間を交互に切り替えるのを遅らせるか、又は削減することによって、符号化オーディオフレームを含む符号化オーディオストリームを「平滑化する」ことができる。
【0023】
[0030]条件のセットは、エンコーダのうちの少なくとも1つが第1のサンプルレート(例えば、オーディオサンプリングレート)に関連付けられるという第1の条件を含み得る。幾つかの実装形態では、第1のサンプルレートは、例示的な非限定的例として、12.8キロヘルツ(kHz)などの低オーディオサンプリングレートであってよい。他の実装形態では、第1のサンプルレートは、12.8kHzよりも大きいか、又はそれ未満、例えば14.4kHz又は8kHzであってよい。特定の実装形態では、第1のサンプルレートは、エンコーダによって使われる他のサンプルレートよりも低くてよい。条件のセットは、第1の決定がスピーチフレームとしてのオーディオフレームの分類に関連付けられるという第2の条件を含み得る。条件のセットは、オーディオフレームを符号化するのに使われる第1のエンコーダに関連付けられた第1の推定コード化利得値が、第1の値以上であるという第3の条件を含んでよく、第1の値は、第2の推定コード化利得値と第2の値との間の差に関連付けられる。
【0024】
[0031]幾つかの実装形態では、直近に分類されたフレームがスピーチコンテンツに関連付けられる場合、条件のセットは、第1の確率値が第2の確率値以上であるという決定に関連付けられる条件を含み得る。代替として、複数の最近分類されたフレームの各フレームがスピーチコンテンツに関連付けられる場合、条件のセットは、第1の確率値が第3の値以上であるという決定に関連付けられる別の条件を含んでよく、第3の値は、第2の確率値と第4の値との間の差に関連付けられる。
【0025】
[0032]幾つかの実装形態では、条件のセットは、第1の閾値以上である、オーディオフレームの複数のサブフレームの平均有声化値に関連付けられた条件を含み得る。追加又は代替として、条件のセットは、第2の閾値よりも大きいオーディオフレームに関連付けられた非定常性値に関連付けられた条件を含み得る。追加又は代替として、条件のセットは、第3の閾値未満であるオーディオフレームに関連付けられたオフセット値に関連付けられた条件を含み得る。
【0026】
[0033]
図1を参照すると、エンコーダを選択するように動作可能なシステム100の特定の説明のための例が開示されている。システム100は、機器102に結合されるか、又は含まれるマイクロフォンを介して受信された、サンプリングされたオーディオ信号など、入力スピーチ110を含み得るオーディオ信号を受信するように構成された機器102を含む。機器102は、入力スピーチ110の全部又は一部を符号化するために、第1のエンコーダ132と第2のエンコーダ134との間で選択するように構成される。第1のエンコーダ132及び第2のエンコーダ134は別個のエンコーダとして示されているが、他の実装形態では、第1のエンコーダ132及び第2のエンコーダ134は、単一のエンコーダ(例えば、切替え型エンコーダ)の中に含まれてよい。例えば、第1のエンコーダ132及び第2のエンコーダ134は、切替え型エンコーダの異なる符号化モードに対応し得る。入力スピーチ110を符号化すると、符号化オーディオフレーム114など、一連の符号化オーディオフレームを生成することができ、フレームは、ワイヤレスネットワークを介するなどして、1つ又は複数の他の機器に送られ得る。例えば、機器102は、リモート機器との、ボイスオーバーインターネットプロトコル(VoIP)コールなどのボイスコールに関与し得る。幾つかの実装形態では、第1のエンコーダ132、第2のエンコーダ134、又は両方が、1つ又は複数のプロトコル/規格に従って、例えば、例示的、非限定的例として、第3世代パートナーシッププロジェクト(3GPP(登録商標))エンハンストボイスサービス(EVS:enhanced voice service)プロトコル/規格に従って動作する(例えば、準拠する)ように構成され得る。
【0027】
[0034]機器102は、選択器120と、スイッチ130と、第1のエンコーダ132及び第2のエンコーダ134を含む複数のエンコーダとを含むエンコーダ104を含む。エンコーダ104は、オーディオフレーム112など、入力スピーチ110を含むオーディオ信号のオーディオフレームを受信するように構成される。オーディオ信号は、スピーチデータ、非スピーチデータ(例えば、音楽又は背景雑音)、又は両方を含み得る。選択器120は、オーディオ信号の各フレームが第1のエンコーダ132又は第2のエンコーダ134によって符号化されるべきかを決定するように構成され得る。例えば、第1のエンコーダ132は、ACELPエンコーダなどのスピーチエンコーダを含んでよく、第2のエンコーダ134は、音楽エンコーダなどの非スピーチエンコーダを含んでよい。特定の実装形態では、第2のエンコーダ134はTCXエンコーダを含む。スイッチ130は、オーディオフレーム112を、符号化オーディオフレーム114を生成するための、第1のエンコーダ132又は第2のエンコーダ134のうちの選択された1つにルーティングするために、選択器120に応答する。
【0028】
[0035]選択器120は、第1の分類器122と第2の分類器124とを含み得る。第1の分類器122は、オーディオフレーム112又は
図2及び
図3を参照して説明される特徴セットなど、オーディオフレーム112の一部分を受信するように構成され得る。第1の分類器122は、スピーチフレーム又は非スピーチフレームとしてのオーディオフレーム112の分類を示す第1の決定データ146を出力するように構成され得る。第1の決定データ146は、オーディオフレームがスピーチフレームである第1の尤度に関連付けられた第1の確率データ142に基づいて、及びオーディオフレームが非スピーチフレームである第2の尤度に関連付けられた第2の確率データ144に基づいて決定され得る。例えば、第1の分類器122は、モデルベース分類器、GMM回路(例えば、GMMモジュール)、又は両方を含むか、又はそれらに対応し得る。第1の分類器122の特定の実装形態は、
図3に関して更に詳しく記載される。
【0029】
[0036]第2の分類器124は、第1の分類器122に結合され、第1の確率データ142、第2の確率データ144及び第1の決定データ146に基づいて第2の決定データ148を出力するように構成される。第2の決定データ148は、オーディオフレーム112を符号化するのに利用可能である、複数のエンコーダのうちの特定のエンコーダ(例えば、第1のエンコーダ132又は第2のエンコーダ134)の選択を示す。幾つかの実装形態では、第2の分類器124は、オーディオフレーム112を受信するように構成され得る。第2の分類器124は、第1の分類器122から、エンコーダ104から、又は機器102の別の構成要素から、オーディオフレーム112を受信し得る。追加又は代替として、第2の分類器124は、調整パラメータを生成するように構成され得る。調整パラメータの値は、複数のエンコーダのうちの特定のエンコーダ(例えば、第1のエンコーダ132又は第2のエンコーダ134)を示すように、第2の決定データ148を偏倚し(例えば、それに影響し)得る。例えば、調整パラメータの第1の値は、特定のエンコーダを選択する確率を増し得る。第2の分類器124は、開ループ分類器を含むか、又はそれに対応し得る。第2の分類器124の特定の実装形態が、
図4に関して更に詳しく説明される。
【0030】
[0037]スイッチ130は、選択器120に結合されており、第2の決定データ148を受信するように構成され得る。スイッチ130は、第2の決定データ148に従って、第1のエンコーダ132又は第2のエンコーダ134を選択するように構成され得る。スイッチ130は、第2の決定データ148に従って(例えば、基づいて)、オーディオフレーム112を第1のエンコーダ132又は第2のエンコーダ134に与えるように構成され得る。他の実装形態では、スイッチ130は、選択されたエンコーダの出力をアクティブ化するか、又は可能にするために、信号を、選択されたエンコーダに与えるか、又はルーティングする。
【0031】
[0038]第1のエンコーダ132及び第2のエンコーダ134は、スイッチ130に結合され、スイッチ130からオーディオフレーム112を受信するように構成され得る。他の実装形態では、第1のエンコーダ132又は第2のエンコーダ134は、機器102の別の構成要素からオーディオフレーム112を受信するように構成され得る。第1のエンコーダ132及び第2のエンコーダ134は、オーディオフレーム112を受信することに応答して、符号化オーディオフレーム114を生成するように構成され得る。
【0032】
[0039]動作中、入力スピーチ110はフレームごとに処理されてよく、エンコーダ104において(例えば、選択器120中で)入力スピーチ110から、特徴のセットが抽出され得る。特徴のセットは、第1の分類器122によって使われ得る。例えば、第1の分類器122(例えば、モデルベース分類器)は、それぞれスピーチの短期確率(「lps」)及び音楽の短期確率(「lpm」)などの、第1の確率データ142と第2の確率データ144とを生成し、出力することができる。
図3に関して記載されるように、特定のフレームに対応するlps及びlpm値は、特定のフレームについての、スピーチ又は音楽の決定(「sp_aud_decision」)を生成するために、エンコーダ104の1つ又は複数の状態(例えば、状態パラメータ)を追跡する、第1の分類器122中の状態機械に与えられてよい。エンコーダ104の1つ又は複数の状態は、非アクティブフレームのカウント、スピーチフレームのカウント、音楽フレームのカウントなどのような、長期パラメータの値を含み得る。状態機械は、ボイスアクティビティ検出器(VAD)からのボイスアクティビティ決定、現在のフレームのエネルギーなどのようなパラメータを受信する場合もある。VADは「ボイス」アクティビティ検出器として記載されるが、VADは、アクティブ信号(スピーチ又は音楽を含んでもよい)と、背景雑音などの非アクティブ信号との間の弁別器であることを理解されたい。
【0033】
[0040]第2の分類器124は、ACELP符号化のための信号対雑音比(「snr_acelp」)及びTCX符号化のための信号対雑音比(「snr_tcx」)と呼ばれる、2つのコード化利得推定又は測度を推定するのに、フレームから抽出された短期特徴を使うことができる。SNR比と呼ばれるが、snr_acelp及びsnr_tcxは、それぞれスピーチ若しくは音楽である現在のフレームの尤度に対応し得るか、又はフレームを符号化する際に、第1のエンコーダ132(例えば、ACELPエンコーダ)若しくは第2のエンコーダ134(例えば、TCXエンコーダ)の推定される有効性程度に対応し得るコード化利得推定又は他の推定若しくは測度であってよい。第2の分類器124は、第1の決定データ146(例えば、「sp_aud_decision」)などの長期情報に基づいて、及び第1の確率データ142(例えば、「lps」)、第2の確率データ144(例えば、「lpm」)、1つ以上の他のパラメータ、又はそれらの組合せなど、第1の分類器122からの追加データに更に基づいて、snr_acelp、snr_tcx、又は両方を修正する(例えば、それらの値を調整する)ことができる。
【0034】
[0041]選択器120は従って、分類器122、124のいずれかにおいて生成され得る長期及び短期パラメータに基づいて、及び
図2に示すように、特定のフレームにどのエンコーダ(例えば、第1のエンコーダ132又は第2のエンコーダ134)を適用するべきかという決定を偏倚し(例えば、決定に影響し)得る。第1の分類器122からの追加データ(例えば、第1の確率データ142、第2の確率データ144、又は両方)に基づいてエンコーダを選択することによって、選択器120は、各フレーム用に第1のエンコーダ132又は第2のエンコーダ134のいずれかを選択するために、第1の分類器(例えば、モデルベース分類器又は開ループ分類器)からの決定を使う実装形態と比較して、第1のエンコーダ132又は第2のエンコーダ134のいずれかによって符号化されるべきフレームを選択するため、誤検知(false positives)の数と、逸失検出(missed detections)の数とを削減することができる。
【0035】
[0042]更に、
図1は第1のエンコーダ132と第2のエンコーダ134とを示しているが、これは限定的と見なされるべきでないことに留意されたい。代替例では、2つより多いエンコーダ、回路又は他のモジュールが含まれてよい。例えば、エンコーダ104は、1つ又は複数の低帯域(LB)「コア」回路又はモジュール(例えば、TCXコア、ACELPコア、1つ以上の他のコア、又はそれらの任意の組合せ)と、1つ又は複数の高帯域(HB)/帯域幅拡張(BWE)回路又はモジュールとを含み得る。スピーチ符号化のために選択されたオーディオフレーム112の低帯域部分は、フレームの特性(例えば、フレームが、スピーチ、雑音、音楽などを含むかどうか)に依存して、符号化のために、特定の低帯域コア回路又はモジュールに与えられてよい。各フレームの高帯域部分は、特定のHB/BWE回路又はモジュールに与えられ得る。
【0036】
[0043]
図2は、
図1の選択器120の特定の説明のための例200のブロック図である。例200において、選択器120は、入力フレーム(例えば、
図1のオーディオフレーム112)と、エンコーダ104の長期状態(long-term state)に対応するデータとを受信するように、及びスピーチ/音楽決定(例えば、
図1の第1の決定データ146)を出力するように構成される。短期特徴抽出器226は、入力フレームを受信するように、及び入力フレームから抽出された特徴セットを生成するように構成される。例示のために、短期特徴抽出器226は、入力フレームに基づいて短期特徴を生成するように構成され得る。
【0037】
[0044]第1の分類器122は、短期特徴抽出器226からの特徴セットと、長期状態データとを受信するように構成されたモデルベース分類器として示されている。第1の分類器122は、スピーチの短期確率のインジケータ(「lps」)(例えば、
図1の第1の確率データ142)と、音楽の短期確率のインジケータ(「lpm」)(例えば、
図1の第2の確率データ144)と、スピーチ/音楽決定(「sp_aud_decision」)(例えば、
図1の第1の決定データ146)とを生成するように構成される。幾つかの実装形態では、第1の分類器122は、入力フレームを受信するように構成され得る。
【0038】
[0045]第2の分類器124は、入力フレームと長期状態データとを受信するように構成された開ループ分類器として示されている。第2の分類器124はまた、短期特徴抽出器226から短期特徴を受信するように、及びスピーチの短期確率のインジケータ(「lps」)と、音楽の短期確率のインジケータ(「lpm」)と、スピーチ/音楽決定(「sp_aud_decision」)とを、第1の分類器122から受信するように構成され得る。第2の分類器124は、更新された(又は修正された)分類決定(例えば、
図1の第2の決定データ148)を出力するように構成される。第2の分類器124は、第2の決定データを、スイッチ(例えば、
図1のスイッチ130)又は切替え型エンコーダに出力し得る。追加又は代替として、第2の分類器124は、短期特徴抽出器226から特徴セットを受信するように構成され得る。
【0039】
[0046]第1の分類器122の詳細が、
図3に示される特定の例300に従って示される。例300において、第1の分類器122は、スピーチモデル370(例えば、スピーチモデル回路構成)と、音楽モデル372(例えば、音楽モデル回路構成)と、状態機械374とを含む。スピーチモデル370は、
図2の短期特徴抽出器226から受信された特徴セットに基づいて、スピーチの短期確率のインジケータ(「lps」)を計算するように構成される。音楽モデル372は、短期特徴抽出器226から受信された特徴セットに基づいて、音楽の短期確率のインジケータ(「lpm」)を計算するように構成される。他の実装形態では、第1の分類器122は、入力フレームを受信することができ、特徴セットを決定することができる。
【0040】
[0047]状態機械374は、第1の確率データ(例えば、
図1の第1の確率データ142に対応する、スピーチモデル370から出力されたスピーチの短期確率のインジケータ(「lps」))を受信するように構成され得る。状態機械(state machine)374は、第2の確率データ(例えば、
図1の第2の確率データ144に対応する、音楽モデル372から出力された音楽の短期確率のインジケータ(「lpm」))を受信するように構成され得る。状態機械374は、第1の確率データ及び第2の確率データに基づいて、スピーチ/音楽決定(「sp_aud_decision」)(例えば、
図1の第1の決定データ146)を生成するように構成され得る。
【0041】
[0048]第2の分類器124の詳細が、
図4に示される特定の例400に従って示される。例400において、第2の分類器124は、短期スピーチ尤度推定器410と、短期音楽尤度推定器412と、長期決定偏倚ユニット414と、調整パラメータ生成器416と、分類決定生成器418とを含む。
【0042】
[0049]短期スピーチ尤度推定器410は、入力フレームから(例えば、
図2の短期特徴抽出器226から)抽出された短期特徴のセットと、入力フレーム(例えば、
図1のオーディオフレーム112)とを受信するように構成される。短期スピーチ尤度推定器410は、推定コード化利得又はACELPエンコーダ(例えば、
図1の第1のエンコーダ132)を使って入力フレームを符号化する効率に対応する第1の推定コード化利得値(例えば、「snr_acelp」)を生成するように構成される。
【0043】
[0050]短期音楽尤度推定器412は、入力フレームから(例えば、
図2の短期特徴抽出器226から)抽出された短期特徴のセットと、入力フレームとを受信するように構成される。短期音楽尤度推定器412は、推定コード化利得又はTCXエンコーダ(例えば、
図1の第2のエンコーダ134)を使って入力フレームを符号化する効率に対応する第2の推定コード化利得値(例えば、「snr_tcx」)を生成するように構成される。
【0044】
[0051]長期決定偏倚ユニット414は、第1の推定コード化利得値(例えば、「snr_acelp」)と、第2の推定コード化利得値(例えば、「snr_tcx」)と、
図3に示すように第1の分類器122によって生成されたスピーチ/音楽決定(「sp_aud_decision」)と、長期状態データとを受信するように構成される。長期決定偏倚ユニット414は、長期決定偏倚ユニット414に入力された値のうちの1つ又は複数に基づいて出力を生成するように構成される。
【0045】
[0052]調整パラメータ生成器416は、
図3のスピーチモデル370から出力された第1の確率データ(例えば、「lps」)と、
図3の音楽モデル372から出力された第2の確率データ(例えば、「lpm」)と、長期状態データと、長期決定偏倚ユニット414の出力とを受信するように構成される。調整パラメータ生成器416は、分類決定生成器418によってスピーチ/音楽決定をスピーチエンコーダへ、又は音楽エンコーダへ偏倚するのに使われる調整パラメータの値(「dsnr」で示される)を設定するように構成される。調整パラメータは、
図4において、及び以下で説明する例において、「dsnr」と標示されるが、調整パラメータは、信号対雑音比に対応してもしなくてもよい。例えば、幾つかの実装形態では、調整値は、信号対雑音比に対するオフセット(例えば、「デルタsnr」)を表す場合があり、他の実装形態では、調整パラメータは、コード化利得値又はコード化利得比(例えば、「デルタコード化利得」)に対するオフセット、コード化利得推定に対する、又は1つ以上の他の物理的値若しくはモデルパラメータに対するオフセットに対応する場合があり、又は物理的値若しくはモデルパラメータへの直接的対応をもたない数値であってよい。従って、「dsnr」というラベルは、単に便宜のためにのみ使われるのであって、調整パラメータの内容又は使用に対していかなる限定も課すものではないことを理解されたい。
【0046】
[0053]分類決定生成器418は、第1の推定コード化利得値(例えば、「snr_acelp」)と、第2の推定コード化利得値(例えば、「snr_tcx」)と、調整パラメータ(例えば、「dsnr」)と、
図2の短期特徴抽出器226からの短期特徴のセットと、長期状態データと、
図3に示すように第1の分類器122によって生成されたスピーチ/音楽決定(「sp_aud_decision」)とを受信するように構成される。受信された入力値に基づいて、分類決定生成器418は、更新された(又は修正された)分類決定を出力するように構成され、分類決定は、
図1の第2の決定データ148に対応し得る。
【0047】
[0054]調整パラメータの値(「dsnr」)は、分類決定生成器418のスピーチ/音楽決定を偏らせる。例えば、調整パラメータの正の値は、分類決定生成器418が、入力フレーム用にスピーチエンコーダを選択する可能性をより高くさせることができ、調整パラメータの負の値は、分類決定生成器418が、入力フレーム用に非スピーチエンコーダを選択する可能性をより高くさせることができる。
【0048】
[0055]
図4に関して記載されるように、幾つかのパラメータが利用可能であり、スピーチ/音楽決定に影響するか、又はスピーチ若しくは非スピーチへ偏倚するのに使われ得る。例えば、第1の分類器122の決定(「sp_aud_decision」)を取得する際にスピーチモデル及び音楽モデルによって中間パラメータとして計算された、スピーチの短期確率(「lps」)、音楽の短期確率(「lpm」)、又はそれらの組合せは、第2の分類器124のスピーチ/音楽決定を偏らせるのに使われ得る。
【0049】
[0056]別の例として、第1の分類器122の長期決定(「sp_aud_decision」)は、第2の分類器124のスピーチ/音楽決定を偏らせるのに使われ得る。別の例として、短期コード化利得推定の近さ(例えば、数的類似)(例えば、「snr_acelp」及び「snr_tcx」)が、第2の分類器124のスピーチ/音楽決定を偏らせるのに使われてよい。
【0050】
[0057]別の例として、(例えば、長期状態データ中の)ACELP/スピーチとして選ばれた、幾つかの過去の連続するフレームが、第2の分類器124のスピーチ/音楽決定を偏らせるのに使われてよい。代替として、過去のフレームのサブセットの中で選ばれたACELP/スピーチフレームの数の測度(これの例は、過去の50個のフレームにおける、ACELP/スピーチフレームの割合であり得る)が、第2の分類器124のスピーチ/音楽決定を偏らせるのに使われてよい。
【0051】
[0058]別の例として、(例えば、長期状態データ中の)ACELP/スピーチとTCX/音楽との間の前のフレーム決定が、第2の分類器124のスピーチ/音楽決定を偏らせるのに使われてよい。別の例として、スピーチエネルギーの非定常性測度(「non_staX」)が、異なる周波数帯域の間での、現在のフレームのエネルギーと過去のフレームのエネルギーとの比の合計として推定され得る。非定常性測度は、
図2の短期特徴抽出器226によって与えられる特徴のセットに含まれ得る。非定常性測度は、第2の分類器124のスピーチ/音楽決定を偏らせるのに使われ得る。
【0052】
[0059]別の例として、入力フレームのサブフレーム全て(又はそのサブセット)の間の平均(例えば、アベレージ又は算術平均)有声化が、第2の分類器124のスピーチ/音楽決定を偏らせるのに使われてよい。平均有声化は、サブフレーム中のスピーチと、スピーチのシフトされたバージョンの正規化相関の測度を含み得る。シフトされたバージョンのシフト量は、サブフレームの計算されたピッチ遅れに対応し得る。高い有声化は、信号が、ピッチ遅れと実質的に合致する反復間隔を有して、高度に反復性であることを示す。平均有声化は、
図2の短期特徴抽出器226によって与えられる特徴のセットに含まれてよい。
【0053】
[0060]別の例として、オフセットパラメータが、第2の分類器124のスピーチ/音楽決定を偏らせるのに使われてよい。例えば、TCXエンコーダが、音楽セグメントをコード化するのに使われる場合、スピーチ/音楽決定を偏らせるとき、オフセットパラメータが組み込まれてよい。オフセットパラメータは、TCXコード化利得の逆測度に対応し得る。オフセットパラメータは、第2の推定コード化利得値(「snr_tcx」)と逆関係し得る。特定の実装形態では、第2の推定コード化利得値(「snr_tcx」)に対応する最低限の基準を課すために、オフセットパラメータの値が閾値未満(例えば、オフセット<74.0)であるかどうか、決定が行われ得る。第1の推定コード化利得値(「snr_acelp」)が別の閾値を超える(例えば、snr_acelp>snr_tcx−4)ことを検証するのに加え、オフセットパラメータが閾値未満でないことを検証すると、エンコーダのいずれか、又は両方が、入力フレームを符号化するのに不十分であるかどうかを示すことができる。エンコーダの両方が、入力フレームを符号化するのに不十分である場合、第3のエンコーダが、入力フレームを符号化するのに使われてよい。エンコーダ選択を偏らせるのに使われ得る、幾つかのパラメータが上で列挙されているが、幾つかの実装形態は、列挙されるパラメータのうちの1つ以上を除外し、1つ以上の他のパラメータを含み得るか、又はそれらの任意の組合せであることを理解されたい。
【0054】
[0061]追加データ(例えば、
図1の第1の分類器122からのデータ)に基づいてコード化利得推定又は測度を修正する(例えば、その値を調整する)ことによって、第2の分類器124は、各フレーム用に第1のエンコーダ132又は第2のエンコーダ134のいずれかを選択するための、第1の分類器(例えば、モデルベース分類器又は開ループ分類器)からの決定を使う実装形態と比較して、符号化されるべきフレームを選択するための、フォールスポジティブの数と、逸失検出の数とを削減することができる。オーディオフレームを符号化するために、選択されたエンコーダを使うことによって、オーディオフレームの誤分類から、及びオーディオフレームを符号化するのに間違ったエンコーダを使うことから生じる乱れ及び悪い信号品質が削減されるか、又はなくされ得る。
【0055】
[0062]
図1〜
図4に関して記載された態様の可能な実装形態を示す、コンピュータコードの幾つかの例が、以下で提示される。これらの例において、項「st−>」は、項に続く変数が状態パラメータ(例えば、
図1のエンコーダ104の状態、
図1の選択器120の状態、又はそれらの組合せ)であることを示す。例えば、「st−>lps」は、入力フレームがスピーチフレーム(「lps」)である短期確率が状態パラメータであることを示す。以下の例は、
図1のシステム100、
図2〜
図4の例、又は両方に基づくとともに、第1の分類器122がモデルベース分類器であり、第2の分類器124が開ループ分類器であり、第1のエンコーダ132がACELPエンコーダを含み、第2のエンコーダ134がTCXエンコーダを含む実装形態に対応する。
【0056】
[0063]コンピュータコードは、実行可能コードの一部ではないコメントを含む。コンピュータコード中で、コメントの開始はフォワードスラッシュ及びアスタリスク(例えば、「/*」)によって示され、コメントの終了は、アスタリスク及びフォワードスラッシュ(例えば、「*/」)によって示される。例示のために、コメント「COMMENT」が、擬似コード中で/* COMMENT */として現れ得る。
【0057】
[0064]与えられる例において、「==」演算子は、Aの値がBの値と等しいとき、「A==B」がTRUEの値を有し、それ以外の場合はFALSEの値を有するような等価性比較を示す。「&&」演算子は、論理AND演算を示す。「||」演算子は、論理OR演算を示す。「>」(よりも大きい)演算子は、「よりも大きい」ことを表し、「>=」演算子は、「以上」であることを表し、「<」演算子は、「未満」であることを示す。数に続く項「f」は、浮動小数点(例えば、10進)数フォーマットを示す。前述のように、「st−>A」項は、Aが状態パラメータであることを示す(即ち、「−>」の文字は、論理又は算術演算を表さない)。
【0058】
[0065]与えられる例において、「*」は乗算演算を表すことができ、「+」又は「sum」は加算演算を表すことができ、「−」は減算演算を示すことができ、「/」は除算演算を表すことができる。「=」演算子は、割当てを表す(例えば、「a=1」は、変数「a」に1の値を割り当てる)。他の実装形態は、例1の条件のセットに加え、又はその代わりに、1つ又は複数の条件を含み得る。
【0059】
[0066]条件「st−>lps>st−>lpm」は、モデルベース分類器によって計算されるように、スピーチのような現在のフレームの短期確率が、音楽のような現在のフレームの短期確率よりも高いことを示す。これらは、状態機械374における処理が第1の分類器122(例えば、モデルベース分類器)において起こる前に第2の分類器124に値が与えられるか、又はタップアウトされ得る中間パラメータである。
【0060】
[0067]例えば、lpsは、観察された特徴が与えられた場合のスピーチのログ確率に対応してよく、lpmは、音楽のログ確率に対応し、観察された特徴を与えてよい。例えば、
【数1】
【数2】
であり、但し、p(x)はxの確率を示し、p(x|y)は、yが与えられた場合のxの確率を示す。幾つかの実装形態では、lpsとlpmとの間の相対比較を実施するとき、p(features)は、共通項であるので無視されてよい。項p(features|speech)は、特徴がスピーチに属すと仮定すると、観察される特徴セットの確率である。項p(features|speech)は、スピーチ用のモデルに基づいて計算され得る。項p(speech)は、スピーチの先験的確率である。概して、誰かが電話に向かって話している尤度は、電話に音楽が流されている尤度よりも高くなり得るので、モバイル通信アプリケーションの場合、p(speech)>p(music)である。しかしながら、代替使用ケースでは、p(speech)とp(music)は任意に関連付けられる場合がある。
【0061】
[0068]パラメータlps及びlpmは、それぞれ、スピーチ及び音楽の先験的確率とともに、スピーチモデル、音楽モデル、又はそれらの組合せについての情報をもつ、スピーチ及び音楽である観察された特徴セットの尤度を示し得る。
【0062】
[0069]条件「st−>sr_core==12800」は、エンコーダ又はエンコーダ動作モード(例えば、12.8kHzのACELPコアサンプルレート)を示し得る。例えば、幾つかの実装形態では、12.8kHzエンコーダ動作モードは、より高いサンプリングレートエンコーダ動作モードと比較して、増加するスピーチ/音楽誤予測を呈する場合がある。
【0063】
[0070]条件「sp_aud_decision0==0」は、入力フレームがスピーチフレームであることを第1の分類器122のスピーチ/音楽決定が示すことを示し得る。第1の分類器122のスピーチ/音楽決定は、モデルベースパラメータlps及びlpmが計算された後で、並びに状態機械374(sp_aud_decisionが頻繁な切替えを避けるように、長期情報を検討する)処理が完了した後で生成される。
【0064】
[0071]項「st−>acelpFramesCount」は、ACELP(又はスピーチ)であると決定された、過去の連続するフレームの数のカウントを示す。このカウントは、過去の連続するACELPフレームの数が比較的高いとき、決定をスピーチへ偏倚するのに使われ得る。このカウントを、決定を偏らせるのに使うと、lpsがlpmの値と同様の値を有するとき、及びsnr_acelpがsnr_tcxの値と同様の値を有するときなど、境界線ケースにおいて、増加する偏倚効果を与えることができる。これは、ACELP/TCXの間の頻繁な切替えも避ける。
【0065】
[0072]条件のセットは、調整パラメータの値「dsnr」を、例1に示されるように設定することによって、スピーチ/音楽決定を偏らせるかどうかを決定するために評価され得る。
【数3】
【0066】
[0073]st−>acelpFramesCount>=1は、最後のフレーム(即ち、現在評価されているフレームに先行するフレーム)が、ACELPフレームであると決定されたことを示す(例えば、第2の決定データ148は、第1のエンコーダ132の選択を示す)ことに留意されたい。最後のフレーム(前のフレーム)がACELPフレームであると決定された場合、例1の条件のセットは、st−>lps>st−>lpmについてのチェックも含む。しかしながら、最後の6つの連続するフレームがACELPフレームであると決定された場合、例1の条件のセットは、st−>lpsがst−>lpm未満であっても、st−>lpsの値がst−>lpmの値の1.5以内である限り、現在のフレームについての調整パラメータ「dsnr」を、ACELPフレームである現在のフレームへ選択を偏らせるように調整することを許可する。st−>acelpFramesCount>=6は、少なくとも最後の6つのフレームがACELPフレームフレームであると決定されたことを示し(例えば、第2の決定データ148は、第1のエンコーダ132の選択を示す)、最後のフレーム(即ち、現在評価されているフレームに先行するフレーム)がACELPフレームであると決定されたことを暗黙的に示すことにも留意されたい。例示のために、幾つかの実装形態では、st−>lpsの値は通常、−27と27との間であってよく、st−>lpmの値は通常、−16と23との間であってよい。
【0067】
[0074]例1において適用されるような調整パラメータ(例えば、dsnr=4.0f)の修正の後であっても、幾つかの実装形態では、調整パラメータの値は、分類決定生成器418のスピーチ/音楽決定中に適用される前に、更に調整され(例えば、増加又は減少され)てよいことに留意されたい。従って、例1における調整パラメータ「dsnr」の修正は、例1の条件のセットが満足されるとき、スピーチ/ACELPを選択する確率を増すが、必ずしも保証するとは限らない。
【0068】
[0075]他の実装形態は、例1の条件のセットに加え、又はその代わりに、1つ又は複数の条件を含み得る。例えば、パラメータ「non_staX」は、現在及び過去のフレームの間の様々な周波数帯におけるエネルギーの絶対分散の測度を示し得る。ログドメインにおいて、non_staXは、異なる帯域間での現在及び過去のフレームの間の絶対ログエネルギー差の合計であってよい。パラメータnon_staXの値の計算の例が、例2において与えられる。
【数4】
【0069】
[0076]音楽信号、特に楽器信号(例えば、バイオリン)は、全ての周波数帯において非常に高い定常性程度を有するが、ときには、高いハーモニシティにより、有声スピーチと間違えられる場合がある。比較的高い非定常性の条件は、定常楽器信号をスピーチとして(例えば、ACELPエンコーダを用いて)符号化する尤度を低減するのに使われ得る。
【0070】
[0077]別の例として、平均有声化に基づく条件「mean(voicing_fr,4)>=0.3」は、現在のフレームの4つのサブフレーム内のパラメータvoicing_frの値の算術平均が0.3以上のとき、満足され得る。フレームの全てのサブフレームに対応し得る4つのサブフレームが検討されているが、他の実装形態では、4つよりも少ないサブフレームが検討されてよい。パラメータvoicing_frは、
【数5】
として決定され得る。
【0071】
[0078]式3において、τ
iは、サブフレームi中で推定されるピッチ期間である。voicing_fr[i]は、サブフレームiについての有声化パラメータである。1の値を有するvoicing_fr[i]は、現在のサブフレーム中のスピーチと、サンプルτ
iのセットとの間の相関が非常に高いことを示し、値0は、相関が非常に低いことを意味する。voicing_frは、スピーチの反復性の測度であり得る。有声フレームは高度に反復性であり、条件「mean(voicing_fr,4)>0.3」は、スピーチのような信号に対して満足され得る。
【0072】
[0079]別の例として、オフセットパラメータに基づく条件「offset<74.0f」が、スピーチ/音楽決定をスピーチへ偏倚するかどうかを決定するときに使われ得る。オフセットパラメータはsnr_tcxと逆関係し、これは、オフセット値の増加がsnr_tcxの減少につながるとともに逆もまた成り立つことを意味し、オフセットパラメータを、低い値を有するように制限すると、snr_tcxを、有効なTCX符号化のための下限を超えるレベルを有するように間接的に制限することになる。オフセットパラメータは、長期状態、短期特徴などに基づいて、第2の分類器内で計算されることに留意されたい。一実装形態では、snr_tcxとオフセットとの間の関係は、
【数6】
(但し、S
hは重み付けされたスピーチであり、重み付けは入力スピーチのLPCに対して行われる)
又は
【数7】
となり得る。
【0073】
[0080]別の例として、例3に示したように、音楽信号中でのACELPフレームの出現を削減するために、「sp_aud_decision0==1」である(例えば、第1の決定データ146が音楽フレームを示す)とき、スピーチ/音楽決定は、音楽へ偏倚され得る。
【数8】
【0074】
[0081]第2の分類器124の決定をACELP又はTCXいずれかへ偏倚するための例1との比較で、提案される条件の拡張セットが例4において与えられる。
【数9】
【0075】
[0082]第2の分類器124の決定をACELP又はTCXいずれかへ偏倚するための、提案される条件の別のセットが、例5において与えられる。例5において、0.3よりも高いmean(voicing_fr,4)が、独立した条件として存在する。
【数10】
【0076】
[0083]例1及び3〜5は、調整パラメータ「dsnr」の値の設定に対応する条件のセットの例を挙げているが、他の実装形態は、1つ以上の条件を除外し、1つ以上の他の条件を含め、又はそれらの任意の組合せを行い得る。例えば、例1及び3〜5は、増加するスピーチ/音楽誤予測を呈し得るエンコーダ動作モード(例えば、12.8kHzサンプルレート)を示す条件「st−>sr_core==12800」を含んでいるが、他の実装形態では、調整パラメータを設定するための条件のセットに、1つ以上の他のエンコーダモードが含まれるか、又はエンコーダモードが含まれなくてよい。例の幾つかでは数値(例えば、74.0f)が与えられているが、そのような値は例としてのみ与えられており、他の実装形態では、誤予測を削減するために、他の値が決定されてよい。更に、本明細書において使われるパラメータ指示(例えば、「lps」、「lpm」など)は、例示のためにすぎない。他の実装形態では、パラメータは、異なる名称で呼ばれ得る。例えば、スピーチパラメータの確率は、「prob_s」又は「lp_prob_s」で呼ばれる場合がある。更に、時間アベレージ化(ローパス)パラメータ(「lp」で呼ばれる)が記載されており、
図1〜
図4並びに例1及び3〜5は、時間アベレージ化又はローパスパラメータの代わりに、他のパラメータ(例えば、「prob_s」、「prob_m」など)を使うことができる。
【0077】
[0084]
図5は、エンコーダの選択を決定する方法500を示すフローチャートである。方法500は、スピーチ符号化と非スピーチ符号化との間で選択をするエンコーダ中で、又はエンコーダによって実施され得る。例えば、方法500は
図1のエンコーダ104によって実施され得る。
【0078】
[0085]方法500は、502において、第1の分類器から、第1の確率データと第2の確率データとを第2の分類器において受信することを含む。第1の確率データは、オーディオフレームがスピーチフレームである第1の尤度に関連付けられ、第2の確率データは、オーディオフレームが非スピーチフレームである第2の尤度に関連付けられる。例示のために、第1の確率データ142及び第2の確率データ144が、
図1の第1の分類器122から、第2の分類器124において受信される。例えば、第1の分類器はモデルベース分類器に関連付けられてよく、第2の分類器は開ループモデル又は開ループ分類器に関連付けられてよい。
【0079】
[0086]504において、第1の決定データが第1の分類器から第2の分類器において受信されてよく、第1の決定データは、スピーチフレーム又は非スピーチフレームとしてのオーディオフレームの分類を示す。第1の決定データは、第1の分類器の状態機械から、第2の分類器において受信され得る。例えば、第1の決定データは、
図1の第1の決定データ146に対応し得る。
【0080】
[0087]方法500は、506において、第2の分類器において、第1の確率データ、第2の確率データ及び第1の決定データに基づいて第2の決定データを決定することも含む。第2の決定データは、オーディオフレームを符号化するための、複数のエンコーダのうちの特定のエンコーダの選択を示すように構成される。例えば、複数のエンコーダは、それぞれ
図1の第1のエンコーダ132及び第2のエンコーダ134など、第1のエンコーダと第2のエンコーダとを含み得る。第1のエンコーダはスピーチエンコーダを含むことができ、第2のエンコーダは非スピーチエンコーダを含むことができる。例示のために、非スピーチエンコーダは、TCXエンコーダなどの音楽エンコーダを含み得る。
【0081】
[0088]方法500は、第2の分類器の出力から、複数のエンコーダのうちのある特定のエンコーダを選択するように構成されたスイッチに、第2の決定データを与えることを含み得る。オーディオフレームは、選択されたエンコーダを使って符号化される。例えば、
図1の第2の分類器124は、第1のエンコーダ132又は第2のエンコーダ134のうちの1つを選択するために、スイッチ130に与えられる第2の決定データ148を出力し得る。
【0082】
[0089]方法500は、オーディオフレームを符号化するのに使われる複数のエンコーダのうちの第1のエンコーダに関連付けられた第1の推定コード化利得値を決定することと、オーディオフレームを符号化するのに使われる複数のエンコーダのうちの第2のエンコーダに関連付けられた第2の推定コード化利得値を決定することとを含み得る。例えば、第1の推定コード化利得値は、
図4の短期スピーチ尤度推定器410によって出力される値(例えば、snr_acelp)に対応してよく、第2の推定コード化利得値は、短期音楽尤度推定器412によって出力される値(例えば、snr_tcx)に対応してよい。方法500は、調整パラメータの値に基づいて第1の推定コード化利得値を調整することを含み得る。例えば、
図4の調整パラメータの値「dsnr」は、
図4の調整パラメータ生成器416によって出力されてよく、分類決定生成器418によって、snr_acelpの値を調整するのに使われ得る。1つ又は複数のエンコーダの選択は、調整された第1の推定コード化利得値及び第2の推定コード化利得値に基づき得る。
【0083】
[0090]方法500は、調整パラメータの値(例えば、「dsnr」)を選択することを含み得る。値は、第1の確率データ(例えば、lps)、第2の確率データ(例えば、lpm)、長期状態データ又は第1の決定(例えば、sp_aud_decision)のうちの少なくとも1つに基づいて選択され得る。例えば、調整パラメータの値は、
図4の調整パラメータ生成器416によって選択され得る。第2の決定データは、調整パラメータ生成器416から受信される調整パラメータの値に応答する、分類決定生成器418の出力など、調整パラメータの値に基づいて決定され得る。調整パラメータの値は、スピーチに関連付けられた第1のエンコーダ又は非スピーチに関連付けられた第2のエンコーダへ選択を偏らせるように選択され得る。
【0084】
[0091]方法500は、オーディオフレームに関連付けられた条件のセットが満足されるかどうかを決定することと、条件のセットが満足されることに応答して、スピーチに関連付けられた第1のエンコーダへ選択を偏らせるように、調整パラメータの値を選択することとを含み得る。条件のセットは、例1における条件「st−>sr_core==12800」など、オーディオフレームが12.8kHzというコアサンプルレートに関連付けられていると決定することに応答して、少なくとも部分的に満足されると決定されてよい。条件のセットは、例1における条件「sp_aud_decision0==0」など、オーディオフレームがスピーチフレームとして分類されることを第1の決定データが示すと決定することに応答して、少なくとも部分的に満足されると決定されてよい。条件のセットは、オーディオフレームを符号化するのに使われる第1のエンコーダに関連付けられた第1の推定コード化利得値(例えば、snr_acelp)が第1の値以上であると決定することに応答して、少なくとも部分的に満足されると決定されてよい。第1の値は、例1における条件「snr_acelp>=snr_tcx−4」など、第2の推定コード化利得値(例えば、snr_tcx)と第2の値(例えば、4)との間の差に関連付けられ得る。条件のセットは、直近に分類されたフレームが、スピーチコンテンツを含むものとして分類される(例えば、例1における「st−>acelpFramesCount>=1」)と決定すること、及び第1の確率データによって示される第1の確率値が、第2の確率によって示される第2の確率値よりも大きい(例えば、例1における「st−>lps>st−>lpm」)と決定することに応答して、少なくとも部分的に満足されると決定されてよい。
【0085】
[0092]条件のセットは、幾つかの直近に分類されたフレームに対応する各フレームが、スピーチコンテンツを含むものとして分類される(例えば、例1における「st−>acelpFramesCount>=6」)と決定すること、及び第1の確率データによって示される第1の確率値(例えば、「st−>lps」)が第3の値(例えば、例1における「st−>lpm−1.5」)以上であると決定することに応答して、少なくとも部分的に満足されると決定されてよい。第3の値は、第2の確率データによって示される第2の確率値(例えば、「st−>lpm」)と第4の値(例えば、1.5)との間の差に関連付けられ得る。
【0086】
[0093]条件のセットは、オーディオフレームの複数のサブフレームの平均有声化値が第1の閾値以上である(例えば、例4における「mean(voicing_fr,4)>=0.3」)と決定すること、オーディオフレームに関連付けられた非定常性値が第2の閾値よりも大きい(例えば、例4における「non−staX>5.0」)と決定すること、及びオーディオフレームに関連付けられたオフセット値が第3の閾値未満である(例えば、例4における「offset<74」)と決定することに応答して、少なくとも部分的に満足されると決定されてよい。
【0087】
[0094]ある特定の態様では、方法500は、例3に関して記載するように、オーディオフレームに関連付けられた条件の第2のセットが満足されるかどうかを決定することと、条件の第2のセットが満足されることに応答して、非スピーチに関連付けられた第2のエンコーダへ選択を偏らせるように、調整パラメータの値を選択することとを含む。条件の第2のセットは、オーディオフレームが12.8kHzというコアサンプルレートに関連付けられる(例えば、例3における「st−>st_core==12800」)と決定することに応答して、少なくとも部分的に満足されると決定されてよい。代替又は追加として、条件の第2のセットは、第1の決定データが、オーディオフレームが非スピーチフレームとして分類されることを示す(例えば、例3における「sp_aud_decision0==1」)と決定することに応答して、少なくとも部分的に満足されると決定されてよい。
【0088】
[0095]方法500は、特定のオーディオフレームのより正確な分類と、特定のオーディオフレームを符号化するのに使われるべきエンコーダの向上された選択とを可能にし得る。第1の分類器からの確率データと第1の決定データとを、選択を決定するのに使うことによって、従来の分類技法と比較して、オーディオフレームは、スピーチフレーム又は音楽フレームとして正確に分類されてよく、誤分類されるスピーチフレームの数が削減され得る。分類されたオーディオフレームに基づいて、オーディオフレームを符号化するためのエンコーダ(例えば、スピーチエンコーダ又は非スピーチエンコーダ)が選択され得る。スピーチフレームを符号化するために、選択されたエンコーダを使うことによって、オーディオフレームの誤分類から、及びオーディオフレームを符号化するために、間違ったエンコーダを使うことから生じる乱れ及び悪い信号品質が削減され得る。
【0089】
[0096]
図6は、選択を特定のエンコーダへ偏倚するように調整パラメータの値を選択する方法600を示すフローチャートである。方法600は、スピーチ符号化と非スピーチ符号化との間で選択をするエンコーダ中で、又はエンコーダによって実施され得る。例えば、方法600は
図1のエンコーダ104によって実施され得る。
【0090】
[0097]第1の分類器からの第1の確率データ及び第1の決定データが、602において、第2の分類器において受信される。第1の確率データは、オーディオフレームがスピーチフレームである第1の尤度に関連付けられる。例えば、第1の確率データは、
図1の第1の分類器122から第2の分類器124において受信される、第1の確率データ142、第2の確率データ144、又はそれらの組合せに対応し得る。第1の決定データは、
図1の第1の決定データ146など、スピーチフレーム又は非スピーチフレームとしてのオーディオフレームの分類を示す。
【0091】
[0098]方法600は、604において、第2の分類器において、オーディオフレームに関連付けられた条件のセットが満足されるかどうかを決定することも含む。条件のセットの第1の条件は第1の確率データに基づき、条件のセットの第2の条件は第1の決定データに基づく。例えば、第1の条件は例1における「st−>lps>st−>lpm」に対応してよく、第2の条件は例1における「sp_aud_decision0==0」に対応してよい。
【0092】
[0099]方法600は、606において、条件のセットが満足されると決定することに応答して、複数のエンコーダのうちの第1のエンコーダへ第1の選択を偏らせるように、調整パラメータの値を設定することを更に含む。例えば、調整パラメータの値は、分類決定生成器418に与えられる、
図4の調整パラメータ生成器416の出力の値に対応し得る。例示のために、第1のエンコーダへ第1の選択を偏らせるように調整パラメータの値を設定することは、例1における「dnsr=4.0」など、調整パラメータの値を設定すること(又は更新すること)に対応し得る。第1のエンコーダは、スピーチエンコーダを含むか、又はそれに対応し得る。
【0093】
[0100]ある特定の態様では、条件のセットは、オーディオフレームが12.800kHzのサンプルレートに関連付けられる(例えば、例1における「st−>sr_core==12800」)と決定することに応答して、少なくとも部分的に満足されると決定される。条件のセットは、第1の決定データがスピーチフレームとしてのオーディオフレームの分類を示す(例えば、例1における「sp_aud_decision0==0」)と決定することに応答して、少なくとも部分的に満足されると決定されてよい。条件のセットは、第1のエンコーダにおいてオーディオフレームを符号化することに関連付けられた第1の推定コード化利得値(例えば、「snr_acelp」)が第1の値以上である(例えば、例1における「snr_acelp>=snr_tcx−4」)と決定することに応答して、少なくとも部分的に満足されると決定されてよく、第1の値は、第2の推定コード化利得値(例えば、「snr_tcx」)と第2の値との間の差に関連付けられる。
【0094】
[0101]ある特定の態様では、条件のセットは、直近に分類されたフレームが、スピーチコンテンツを含むものとして分類される(例えば、例1における「st−>acelpFramesCount>=1」)と決定することに応答して、少なくとも部分的に満足されると決定される。ある特定の態様では、条件のセットは、第1の確率データによって示される第1の確率値が、第2の確率データによって示される第2の確率値よりも大きい(例えば、「st−>lps>st−lpm」)と決定することに応答して、少なくとも部分的に満足されると決定され、オーディオフレームの第2の尤度に関連付けられた第2の確率データは非スピーチフレームである。
【0095】
[0102]条件のセットは、幾つかの直近に分類されたフレームに対応する各フレームが、スピーチコンテンツを含むものとして分類される(例えば、「st−>acelpFramesCount>=6」)と決定することに応答して、少なくとも部分的に満足されると決定されてよい。条件のセットは、例1における条件「st−>lps>st−lpm−1.5」など、第1の確率データによって示される第1の確率値(例えば、「st−>lps」)が第3の値以上であると決定することに応答して、少なくとも部分的に満足されると決定されてよく、第3の値は、第2の確率データによって示される第2の確率値(例えば、「st−>lpm」)と第4の値との間の差に関連付けられる。第2の確率データは、オーディオフレームが非スピーチフレームである第2の尤度に関連付けられ得る。
【0096】
[0103]条件のセットは、オーディオフレームの複数のサブフレームの平均有声化値が第1の閾値以上である(例えば、例4における「mean(voicing_fr,4)>=0.3」)と決定することに応答して、少なくとも部分的に満足されると決定されてよい。条件のセットは、オーディオフレームに関連付けられた非定常性値が第2の閾値よりも大きい(例えば、例4における「non_staX>5.0」)と決定することに応答して、少なくとも部分的に満足されると決定されてよい。条件のセットは、オーディオフレームに関連付けられたオフセット値が第3の閾値未満である(例えば、例4における「offset<74.0」)と決定することに応答して、少なくとも部分的に満足されると決定されてよい。
【0097】
[0104]幾つかの実装形態では、方法600は、例3の条件のセットなど、オーディオフレームに関連付けられた条件の第2のセットが満足されるかどうかを決定することを含み得る。方法600は、条件の第2のセットが満足されると決定することに応答して、複数のエンコーダのうちの第2のエンコーダへ第2の選択を偏らせるように、調整パラメータの値を第1の値から第2の値に更新することも含んでよく、第2のエンコーダは非スピーチエンコーダを含む。例えば、第2のエンコーダへ第2の選択を偏らせるように調整パラメータの値を更新することは、
図4の調整パラメータ生成器416の出力の値を設定すること(例えば、例3における「dsnr=−2.0」)によって実施され得る。例示のために、条件の第2のセットは、オーディオフレームが12.8kHzのサンプルレートに関連付けられると決定すること、及び第1の決定データが非スピーチフレームとしてのオーディオフレームの分類を示すと決定すること(例えば、例3における「(st−>sr_core==12800)&&(sp_aud_decision0==1)」)に応答して、満足されると決定され得る。
【0098】
[0105]選択を決定するのに調整パラメータを使うことによって、オーディオフレームは、スピーチフレーム又は音楽フレームとして分類されてよく、従来の分類技法と比較して、誤分類されるスピーチフレームの数が削減され得る。分類されたオーディオフレームに基づいて、オーディオフレームを符号化するためのエンコーダ(例えば、スピーチエンコーダ又は非スピーチエンコーダ)が選択され得る。スピーチフレームを符号化するために、選択されたエンコーダを使うことによって、オーディオフレームの誤分類から、及びオーディオフレームを符号化するために、間違ったエンコーダを使うことから生じる乱れ及び悪い信号品質が削減され得る。
【0099】
[0106]特定の実施形態では、
図5〜
図6の方法、例1〜5のうちの1つ以上、又はそれらの組合せは、フィールドプログラマブルゲートアレイ(FPGA)機器、特定用途向け集積回路(ASIC)、中央処理ユニット(CPU)などの処理ユニット、デジタル信号プロセッサ(DSP)、コントローラ、別のハードウェア機器、ファームウェア機器、又はそれらの任意の組合せによって実装され得る。一例として、
図5〜
図6の方法、例1〜5のうちの1つ以上、又はそれらの組合せは、個々に又は組み合わせて、
図7及び
図8に関して説明するように、命令を実行するプロセッサによって実施され得る。例示のために、
図5の方法500の部分が、
図6の第2の部分と又は例1の第3の部分と組み合わされてよい。
【0100】
[0107]
図7を参照すると、機器700(例えば、ワイヤレス通信機器)の特定の説明のための例のブロック図が示されている。様々な実装形態において、機器700は、
図7に示されたよりも多いか、又は少ない構成要素を有する場合がある。説明のための例では、機器700は、
図1の機器102に対応し得る。説明のための例として、機器700は、
図5〜
図6の方法のうちの1つ以上、例1〜5のうちの1つ以上、又はそれらの組合せに従って動作し得る。
【0101】
[0108]特定の例では、機器700はプロセッサ706(例えば、CPU)を含む。機器700は、プロセッサ710(例えば、DSP)など、1つ又は複数の追加プロセッサを含み得る。プロセッサ710は、オーディオコーダデコーダ(コーデック)708を含み得る。例えば、プロセッサ710は、オーディオコーデック708の動作を実施するように構成された1つ又は複数の構成要素(例えば、回路構成)を含み得る。別の例として、プロセッサ710は、オーディオコーデック708の動作を実施するための1つ又は複数のコンピュータ可読命令を実行するように構成され得る。オーディオコーデック708はプロセッサ710の構成要素として示されているが、他の例では、オーディオコーデック708の1つ又は複数の構成要素が、プロセッサ706、コーデック734、別の処理構成要素、又はそれらの組合せの中に含められてもよい。
【0102】
[0109]オーディオコーデック708はボコーダエンコーダ736を含み得る。ボコーダエンコーダ736は、エンコーダ選択器760と、スピーチエンコーダ762と、非スピーチエンコーダ764とを含み得る。例えば、スピーチエンコーダ762は
図1の第1のエンコーダ132に対応してよく、非スピーチエンコーダ764は
図1の第2のエンコーダ134に対応してよく、エンコーダ選択器760は
図1の選択器120に対応してよい。
【0103】
[0110]機器700は、メモリ732とコーデック734とを含む場合がある。コンピュータ可読記憶機器などのメモリ732は、命令756を含み得る。命令756は、
図5〜
図6の方法、例1〜5のうちの1つ以上、又はそれらの組合せを実施するように、プロセッサ706、プロセッサ710、又はそれらの組合せによって実行可能である1つ又は複数の命令を含み得る。機器700は、(例えば、トランシーバを介して)アンテナ742に結合されたワイヤレスコントローラ740を含む場合がある。
【0104】
[0111]機器700は、ディスプレイコントローラ726に結合されたディスプレイ728を含む場合がある。スピーカー741、マイクロフォン746、又は両方が、コーデック734に結合され得る。コーデック734は、デジタルアナログコンバータ(DAC)702と、アナログデジタルコンバータ(ADC)704とを含む場合がある。コーデック734は、マイクロフォン746からアナログ信号を受信し、ADC704を使用してアナログ信号をデジタル信号にコンバートし、第1のオーディオコーデック708にデジタル信号を与えることができる。オーディオコーデック708はデジタル信号を処理し得る。幾つかの実装形態では、オーディオコーデック708は、コーデック734にデジタル信号を与え得る。コーデック734は、DAC702を使用してデジタル信号をアナログ信号にコンバートし得、そのアナログ信号をスピーカー741に与え得る。
【0105】
[0112]エンコーダ選択器760は、本明細書に記載されるように、条件の1つ又は複数のセットに基づいて調整パラメータの値を設定すること(又は更新すること)により、エンコーダ選択の偏倚を含む、エンコーダ選択のハードウェア実装形態を実装するのに使われ得る。代替又は追加として、ソフトウェア実装形態(又は合成ソフトウェア/ハードウェア実装形態)が実装され得る。例えば、命令756は、プロセッサ710又は機器700の他の処理ユニット(例えば、プロセッサ706、コーデック734、又は両方)によって実行可能であり得る。例示のために、命令756は、
図1の選択器120に関して実施されるものとして記載された動作に対応し得る。
【0106】
[0113]特定の実装形態では、機器700は、システムインパッケージ又はシステムオンチップ機器722内に含められ得る。特定の実装形態では、メモリ732、プロセッサ706、プロセッサ710、ディスプレイコントローラ726、コーデック734及びワイヤレスコントローラ740は、システムインパッケージ又はシステムオンチップ機器722中に含まれる。ある特定の実装形態では、入力機器730及び電源744が、システムオンチップ機器722に結合される。その上、特定の実装形態では、
図7に示されるように、ディスプレイ728、入力機器730、スピーカー741、マイクロフォン746、アンテナ742及び電源744は、システムオンチップ機器722の外部にある。特定の実装形態では、ディスプレイ728、入力機器730、スピーカー741、マイクロフォン746、アンテナ742及び電源744の各々は、インターフェース又はコントローラなどの、システムオンチップ機器722の構成要素に結合され得る。
【0107】
[0114]機器700は、通信機器、エンコーダ、デコーダ、スマートフォン、セルラーフォン、モバイル通信機器、ラップトップコンピュータ、コンピュータ、タブレット、携帯情報端末(PDA)、セットトップボックス、ビデオプレーヤ、娯楽ユニット、表示装置、テレビ、ゲーム機、音楽プレーヤ、ラジオ、デジタルビデオプレーヤ、デジタルビデオディスク(DVD)プレーヤ、チューナー、カメラ、ナビゲーション機器、デコーダシステム、エンコーダシステム、基地局、ビークル、又はそれらの組合せを含み得る。
【0108】
[0115]例示的実装形態では、プロセッサ710は、
図1〜
図6、例1〜5を参照して記載した方法又は動作の全部若しくは一部分、又はそれらの組合せを実施するように動作可能であり得る。例えば、マイクロフォン746は、ユーザスピーチ信号に対応するオーディオ信号を取込みし得る。ADC704は、取込まれたオーディオ信号を、アナログ波形から、デジタルオーディオサンプルからなるデジタル波形にコンバートし得る。プロセッサ710は、デジタルオーディオサンプルを処理することができる。
【0109】
[0116]ボコーダエンコーダ736は、フレームごとに、デジタルオーディオサンプルの各受信フレームがスピーチそれとも非スピーチオーディオデータに対応するか決定することができ、フレームを符号化するために、対応するエンコーダ(例えば、スピーチエンコーダ762又は非スピーチエンコーダ764)を選択すればよい。ボコーダエンコーダ736において生成された符号化オーディオデータは、変調データの変調及び送信のために、アンテナ742を介してワイヤレスコントローラ740に与えられ得る。
【0110】
[0117]それ故に機器700はプロセッサ(例えば、プロセッサ706又はプロセッサ710)によって実行されると、プロセッサに、オーディオフレームがスピーチフレームである第1の尤度に関連付けられた第1の確率データ(例えば、
図1の第1の確率データ142)を決定することと、オーディオフレームが非スピーチフレームである第2の尤度に関連付けられた第2の確率データ(例えば、
図1の第2の確率データ144)を決定することとを含む動作を実施させる命令(例えば、命令756)を記憶するコンピュータ可読記憶機器(例えば、メモリ732)を含み得る。動作は、第1の確率データ及び第2の確率データに基づいて、第1の決定データ(例えば、
図1の第1の決定データ146)を決定することも含み得る。第1の決定データは、スピーチフレーム又は非スピーチフレームとしてのオーディオフレームの分類を示す。動作は、第1の確率データ、第2の確率データ及び第1の決定データに基づいて、第2の決定データ(例えば、
図1の第2の決定データ148)を決定することも含み得る。第2の決定データは、オーディオフレームを符号化するためのエンコーダ(例えば、スピーチエンコーダ762又は非スピーチエンコーダ764)の選択を示す。
【0111】
[0118]
図8を参照すると、基地局800の特定の説明のための例のブロック図が示されている。様々な実装形態において、基地局800は、
図8に示されたよりも多い構成要素又は少ない構成要素を有する場合がある。説明のための例では、基地局800は、
図1の機器102を含み得る。説明のための例において、基地局800は、
図5〜
図6の方法のうちの1つ以上、例1〜5のうちの1つ以上、又はそれらの組合せに従って動作し得る。
【0112】
[0119]基地局800は、ワイヤレス通信システムの一部であり得る。ワイヤレス通信システムは、複数の基地局と複数のワイヤレス機器とを含み得る。ワイヤレス通信システムは、ロングタームエボリューション(LTE(登録商標))システム、符号分割多元接続(CDMA)システム、モバイル通信用グローバルシステム(GSM(登録商標))システム、ワイヤレスローカルエリアネットワーク(WLAN)システム、又は何らかの他のワイヤレスシステムであり得る。CDMAシステムは、広帯域CDMA(WCDMA(登録商標))、CDMA 1X、エボリューションデータオプティマイズド(EVDO)、時分割同期CDMA(TD−SCDMA)又はCDMAの何らかの他のバージョンを実装し得る。
【0113】
[0120]ワイヤレス機器は、ユーザ機器(UE)、移動局、端末、アクセス端末、加入者ユニット、局などと呼ばれることもある。ワイヤレス機器は、セルラーフォン、スマートフォン、タブレット、ワイヤレスモデム、携帯情報端末(PDA)、ハンドヘルド機器、ラップトップコンピュータ、スマートブック、ネットブック、タブレット、コードレスフォン、ワイヤレスローカルループ(WLL)局、Bluetooth(登録商標)機器などを含み得る。ワイヤレス機器は、
図7の機器700を含むか、又は機器700に対応し得る。
【0114】
[0121]メッセージ及びデータ(例えば、オーディオデータ)の送受信など、様々な機能が、基地局800の1つ以上の構成要素によって(及び/又は図示しない他の構成要素において)実施されてよい。特定の例では、基地局800はプロセッサ806(例えば、CPU)を含む。基地局800は、トランスコーダ810を含み得る。トランスコーダ810は、オーディオコーデック808を含み得る。例えば、トランスコーダ810は、オーディオコーデック808の動作を実施するように構成された1つ又は複数の構成要素(例えば、回路構成)を含み得る。別の例として、トランスコーダ810は、オーディオコーデック808の動作を実施するための1つ又は複数のコンピュータ可読命令を実行するように構成され得る。オーディオコーデック808はトランスコーダ810の構成要素として示されているが、他の例では、オーディオコーデック808の1つ又は複数の構成要素が、プロセッサ806、別の処理構成要素、又はそれらの組合せの中に含められてもよい。例えば、ボコーダデコーダ838が、受信機データプロセッサ864中に含められてよい。別の例として、ボコーダエンコーダ836が送信データプロセッサ866中に含められてよい。
【0115】
[0122]トランスコーダ810は、2つ以上のネットワークの間でメッセージとデータとをトランスコードするように機能し得る。トランスコーダ810は、メッセージとオーディオデータとを、第1のフォーマット(例えば、デジタルフォーマット)から第2のフォーマットにコンバートするように構成され得る。例示のために、ボコーダデコーダ838は、第1のフォーマットを有する符号化信号を復号することができ、ボコーダエンコーダ836は、復号された信号を、第2のフォーマットを有する符号化信号に符号化することができる。追加又は代替として、トランスコーダ810は、データレート適応を実施するように構成され得る。例えば、トランスコーダ810は、フォーマット、オーディオデータを変更せずに、データレートをダウンコンバートするか、又はデータレートをアップコンバートすることができる。例示のために、トランスコーダ810は、64kbit/s信号を16kbit/s信号にダウンコンバートし得る。
【0116】
[0123]オーディオコーデック808は、ボコーダエンコーダ836とボコーダデコーダ838とを含み得る。ボコーダエンコーダ836は、
図7を参照して記載されたように、エンコーダ選択器と、スピーチエンコーダと、非スピーチエンコーダとを含み得る。ボコーダデコーダ838は、デコーダ選択器と、スピーチデコーダと、非スピーチデコーダとを含み得る。
【0117】
[0124]基地局800は、メモリ832を含み得る。コンピュータ可読記憶機器などのメモリ832は、命令を含み得る。命令は、
図5〜
図6の方法、例1〜5のうちの1つ以上、又はそれらの組合せを実施するように、プロセッサ806、トランスコーダ810、又はそれらの組合せによって実行可能である1つ又は複数の命令を含み得る。基地局800は、アンテナのアレイに結合された、第1のトランシーバ852及び第2のトランシーバ854など、複数の送信機と受信機(例えば、トランシーバ)とを含み得る。アンテナのアレイは、第1のアンテナ842と第2のアンテナ844とを含み得る。アンテナのアレイは、
図7の機器700など、1つ又は複数のワイヤレス機器とワイヤレス通信するように構成され得る。例えば、第2のアンテナ844は、データストリーム814(例えば、ビットストリーム)をワイヤレス機器から受信することができる。データストリーム814は、メッセージ、データ(例えば、符号化スピーチデータ)、又はそれらの組合せを含み得る。
【0118】
[0125]基地局800は、バックホール接続などのネットワーク接続860を含み得る。ネットワーク接続860は、コアネットワーク又はワイヤレス通信ネットワークの1つ以上の基地局と通信するように構成され得る。例えば、基地局800は、ネットワーク接続860を介して、コアネットワークから第2のデータストリーム(例えば、メッセージ又はオーディオデータ)を受信し得る。基地局800は、メッセージ又はオーディオデータを生成するために第2のデータストリームを処理し、メッセージ又はオーディオデータを、アンテナのアレイの1つ以上のアンテナを介して1つ以上のワイヤレス機器に、又はネットワーク接続860を介して別の基地局に与えればよい。特定の実装形態では、ネットワーク接続860は、例示的、非限定的例として、ワイドエリアネットワーク(WAN)接続であってよい。
【0119】
[0126]基地局800は、トランシーバ852、854、受信機データプロセッサ864及びプロセッサ806に結合される復調器862を含んでよく、受信機データプロセッサ864は、プロセッサ806に結合されてよい。復調器862は、トランシーバ852、854から受信された変調信号を復調するように、及び復調されたデータを受信機データプロセッサ864に与えるように構成され得る。受信機データプロセッサ864は、復調されたデータからメッセージ又はオーディオデータを抽出し、メッセージ又はオーディオデータをプロセッサ806に送るように構成され得る。
【0120】
[0127]基地局800は、送信データプロセッサ866と送信多入力多出力(MIMO)プロセッサ868とを含み得る。送信データプロセッサ866は、プロセッサ806及び送信MIMOプロセッサ868に結合され得る。送信MIMOプロセッサ868は、トランシーバ852、854及びプロセッサ806に結合され得る。送信データプロセッサ866は、プロセッサ806からメッセージ又はオーディオデータを受信するように、及びメッセージ又はオーディオデータを、例示的、非限定的例として、CDMA又は直交周波数分割多重化(OFDM)などのコード化方式に基づいてコード化するように構成され得る。送信データプロセッサ866は、コード化データを送信MIMOプロセッサ868に与えればよい。
【0121】
[0128]コード化データは、多重化データを生成するために、CDMA又はOFDM技法を使って、パイロットデータなど、他のデータと多重化されてよい。多重化データは次いで、変調シンボルを生成するために、特定の変調方式(例えば、二位相偏移変調(Binary phase-shift keying)(「BPSK」)、四位相偏移変調(Quadrature phase-shift keying)(「QSPK」)、多値位相偏移変調(M-ary phase-shift keying)(「M−PSK」)、多値直交振幅変調(「M−QAM」)など)に基づいて、送信データプロセッサ866によって変調され(即ち、シンボルマッピングされ)得る。特定の実装形態では、コード化データ及び他のデータは、異なる変調方式を使って変調されてよい。各データストリームのデータレート、コード化及び変調は、プロセッサ806によって実行される命令によって決定され得る。
【0122】
[0129]送信MIMOプロセッサ868は、送信データプロセッサ866から変調シンボルを受信するように構成されてよく、変調シンボルを更に処理することができ、データに対してビームフォーミングを実施することができる。例えば、送信MIMOプロセッサ868は、変調シンボルにビームフォーミング重みを適用してよい。ビームフォーミング重みは、変調シンボルがそこから送信されるアンテナのアレイの1つ又は複数のアンテナに対応し得る。
【0123】
[0130]動作中、基地局800の第2のアンテナ844は、データストリーム814を受信し得る。第2のトランシーバ854は、データストリーム814を第2のアンテナ844から受信することができ、データストリーム814を復調器862に与えればよい。復調器862は、データストリーム814の変調信号を復調し、復調されたデータを受信機データプロセッサ864に与えればよい。受信機データプロセッサ864は、復調されたデータからオーディオデータを抽出し、抽出されたオーディオデータをプロセッサ806に与えればよい。
【0124】
[0131]プロセッサ806は、オーディオデータを、トランスコード化のためにトランスコーダ810に与えてよい。トランスコーダ810のボコーダデコーダ838は、オーディオデータを、第1のフォーマットから、復号されたオーディオデータに復号することができ、ボコーダエンコーダ836は、復号されたオーディオデータを第2のフォーマットに符号化することができる。幾つかの実装形態では、ボコーダエンコーダ836は、ワイヤレス機器から受信されたよりも高いデータレート(例えば、アップコンバート)又は受信されたよりも低いデータレート(例えば、ダウンコンバート)を使って、オーディオデータを符号化してよい。他の実装形態では、オーディオデータはトランスコードされなくてよい。トランスコード化(例えば、復号及び符号化)は、トランスコーダ810によって実施されるものとして示されているが、トランスコード化動作(例えば、復号及び符号化)は、基地局800の複数の構成要素によって実施されてよい。例えば、復号は受信機データプロセッサ864によって実施されてよく、符号化は送信データプロセッサ866によって実施されてよい。
【0125】
[0132]ボコーダデコーダ838及びボコーダエンコーダ836は、フレームごとに、データストリーム814の各受信フレームがスピーチそれとも非スピーチオーディオデータに対応するか決定することができ、フレームをトランスコードする(例えば、復号及び符号化する)ために、対応するデコーダ(例えば、スピーチデコーダ又は非スピーチデコーダ)と、対応するエンコーダとを選択してよい。トランスコード化データなど、ボコーダエンコーダ836において生成された符号化オーディオデータは、プロセッサ806を介して送信データプロセッサ866又はネットワーク接続860に与えられてよい。
【0126】
[0133]トランスコーダ810からのトランスコード化オーディオデータは、変調シンボルを生成するための、OFDMなどの変調方式によるコード化のために、送信データプロセッサ866に与えられてよい。送信データプロセッサ866は、変調シンボルを、更なる処理及びビームフォーミングのために送信MIMOプロセッサ868に与えてよい。送信MIMOプロセッサ868は、ビームフォーミング重みを適用することができ、変調シンボルを、第1のトランシーバ852を介して、第1のアンテナ842など、アンテナのアレイの1つ又は複数のアンテナに与えてよい。従って、基地局800は、ワイヤレス機器から受信されたデータストリーム814に対応するトランスコード化データストリーム816を、別のワイヤレス機器に与えてよい。トランスコード化データストリーム816は、データストリーム814とは異なる符号化フォーマット、データレート、又は両方を有し得る。他の実装形態では、トランスコード化データストリーム816は、別の基地局又はコアネットワークへの送信のために、ネットワーク接続860に与えられ得る。
【0127】
[0134]それ故に基地局800はプロセッサ(例えば、プロセッサ806又はトランスコーダ810)によって実行されると、プロセッサに、オーディオフレームがスピーチフレームである第1の尤度に関連付けられた第1の確率データを決定することと、オーディオフレームが非スピーチフレームである第2の尤度に関連付けられた第2の確率データを決定することとを含む動作を実施させる命令を記憶するコンピュータ可読記憶機器(例えば、メモリ832)を含み得る。動作は、第1の確率データ及び第2の確率データに基づいて第1の決定データを決定することも含み得る。第1の決定データは、スピーチフレーム又は非スピーチフレームとしてのオーディオフレームの分類を示す。動作は、第1の確率データ、第2の確率データ及び第1の決定データに基づいて第2の決定データを決定することも含み得る。第2の決定データは、オーディオフレームを符号化するためのエンコーダの選択又はオーディオフレームを復号するためのデコーダの選択を示し得る。
【0128】
[0135]記載される態様とともに、装置は、オーディオフレームがスピーチフレームである第1の尤度に関連付けられた第1の確率データを決定するための手段を含み得る。例えば、第1の確率データを決定するための手段は、
図1〜
図3の第1の分類器122、
図3のスピーチモデル370、
図7のエンコーダ選択器760、
図7の命令756を実行するプロセッサ706又はプロセッサ710、
図8のプロセッサ806又はトランスコーダ810、オーディオフレームがスピーチフレームである第1の尤度に関連付けられた第1の確率データを決定するように構成された1つ以上の他の機器、又はそれらの任意の組合せを含み得る。
【0129】
[0136]装置は、オーディオフレームが非スピーチフレームである第2の尤度に関連付けられた第2の確率データを決定するための手段を含み得る。例えば、第2の確率データを決定するための手段は、
図1〜
図3の第1の分類器122、
図3の音楽モデル372、
図7のエンコーダ選択器760、
図7の命令756を実行するプロセッサ706又はプロセッサ710、
図8のプロセッサ806又はトランスコーダ810、オーディオフレームが非スピーチフレームである第2の尤度に関連付けられた第2の確率データを決定するように構成された1つ以上の他の機器、又はそれらの任意の組合せを含み得る。
【0130】
[0137]装置は、第1の確率データ及び第2の確率データに基づいて第1の決定データを決定するための手段を含むことができ、第1の決定データは、スピーチフレーム又は非スピーチフレームとしてのオーディオフレームの分類の第1の指示を含む。例えば、第1の決定データを決定するための手段は、
図1〜
図3の第1の分類器122、
図3の状態機械374、
図7のエンコーダ選択器760、
図7の命令756を実行するプロセッサ706又はプロセッサ710、
図8のプロセッサ806又はトランスコーダ810、第1の確率データ及び第2の確率データに基づいて第1の決定データを決定するように構成された1つ以上の他の機器、又はそれらの任意の組合せを含み得る。
【0131】
[0138]装置は、第1の確率データ、第2の確率データ及び第1の決定データに基づいて第2の決定データを決定するための手段を含むことができ、第2の決定データは、オーディオフレームを符号化するためのエンコーダの選択の第2の指示を含む。例えば、第2の決定データを決定するための手段は、
図1〜
図2及び
図4の第2の分類器124、長期決定偏倚ユニット414、調整パラメータ生成器416、分類決定生成器418、エンコーダ選択器760、
図7の命令756を実行するプロセッサ706又はプロセッサ710、
図8のプロセッサ806又はトランスコーダ810、第1の確率データ、第2の確率データ及び第1の決定データに基づいて第2の決定データを決定するように構成された1つ以上の他の機器、又はそれらの任意の組合せを含み得る。特定の実装形態では、第1の確率データを決定するための手段、第2の確率データを決定するための手段及び第1の決定データを決定するための手段は、
図1を参照して記載されたように、GMM回路構成中に含まれる。
【0132】
[0139]第1の確率データを決定するための手段、第2の確率データを決定するための手段、第1の決定データを決定するための手段及び第2の決定データを決定するための手段は、エンコーダ、セットトップボックス、音楽プレーヤ、ビデオプレーヤ、娯楽ユニット、ナビゲーション機器、通信機器、PDA、コンピュータ、又はそれらの組合せに一体化される。
【0133】
[0140]本明細書に記載される説明の態様では、
図1のシステム100、
図2の例200、
図3の例300、
図3の例400、
図7の機器700、
図8の基地局800、又はそれらの組合せによって実施される様々な機能は、特定の回路構成又は構成要素によって実施されるものとして記載されている。しかしながら、回路構成又は構成要素のこの分割は、説明のためにすぎない。代替例では、特定の回路又は構成要素によって実施される機能は、代わりに複数の構成要素又はモジュール間で分割され得る。その上、代替例では、
図1〜
図4、
図7及び
図8の2つ以上の回路又は構成要素が単一の回路又は構成要素に一体化され得る。
図1〜
図4、
図7及び
図8に示された各回路又は構成要素は、ハードウェア(例えば、ASIC、DSP、コントローラ、FPGA機器など)、ソフトウェア(例えば、プロセッサによって実行可能な論理、モジュール、命令など)、又はそれらの任意の組合せを使用して実装され得る。
【0134】
[0141]更に、本明細書で開示される例に関して説明される様々な例示的な論理ブロック、構成、モジュール、回路及びアルゴリズムステップは、電子ハードウェア、プロセッサによって実行されるコンピュータソフトウェア、又は両方の組合せとして実装され得ることを、当業者は諒解されよう。様々な例示的な構成要素、ブロック、構成、モジュール、回路及びステップについて、上記では概してそれらの機能性に関して説明した。そのような機能性がハードウェアとして実装されるか、プロセッサ実行可能命令として実装されるかは、特定の適用例及び全体的なシステムに課された設計制約に依存する。当業者は、説明した機能性を特定の適用例ごとに様々な方法で実現してもよいが、そのような実装形態の決定は、本開示の範囲からの逸脱を引き起こすものと解釈されるべきではない。
【0135】
[0142]本明細書で開示した例に関して説明される方法又はアルゴリズムのステップは、直接ハードウェアに含まれ、プロセッサによって実行されるソフトウェアモジュールに含まれ、又はその2つの組合せに含まれ得る。ソフトウェアモジュールは、ランダムアクセスメモリ(RAM)、フラッシュメモリ、読取り専用メモリ(ROM)、プログラマブル読取り専用メモリ(PROM)、消去可能プログラマブル読取り専用メモリ(EPROM)、電気的消去可能プログラマブル読取り専用メモリ(EEPROM(登録商標))、レジスタ、ハードディスク、リムーバブルディスク、コンパクトディスク読取り専用メモリ(CD−ROM)、又は当技術分野で知られている任意の他の形態の非一時的記憶媒体内に存在することができる。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替的に、記憶媒体はプロセッサと一体であり得る。プロセッサ及び記憶媒体は、ASIC内に存在することができる。ASICはコンピューティング機器又はユーザ端末中に存在し得る。代替的に、プロセッサ及び記憶媒体は、コンピューティング機器又はユーザ端末内の個別の構成要素として存在し得る。
【0136】
[0143]開示した例の前の説明は、開示した実装形態を当業者が製作又は使用することを可能にするために与えられる。これらの例への様々な変更は当業者には容易に明らかになり、本明細書で定義された原理は本開示の範囲から逸脱することなく他の実装形態に適用され得る。従って、本開示は、本明細書に示された例に限定されるものではなく、以下の特許請求の範囲によって定義される原理及び新規の特徴と一致する、可能な最も広い範囲を与えられるべきである。
以下に、本願の出願当初の特許請求の範囲に記載された発明を付記する。
[C1]
スピーチフレーム又は非スピーチフレームとしてのオーディオフレームの分類を示す第1の決定データを出力するように構成された第1の分類器と、前記第1の決定データは、前記オーディオフレームが前記スピーチフレームである第1の尤度に関連付けられた第1の確率データに基づいて、及び前記オーディオフレームが前記非スピーチフレームである第2の尤度に関連付けられた第2の確率データに基づいて決定される、
前記第1の分類器に結合された第2の分類器と、前記第2の分類器は、前記第1の確率データ、前記第2の確率データ及び前記第1の決定データに基づいて、第2の決定データを出力するように構成され、前記第2の決定データは、前記オーディオフレームを符号化するのに利用可能な、複数のエンコーダのうちの特定のエンコーダの選択の指示を含む、を備える機器。
[C2]
前記複数のエンコーダは第1のエンコーダと第2のエンコーダとを含み、前記第2の決定データに基づいて前記第1のエンコーダ又は前記第2のエンコーダを選択するように構成されたスイッチを更に備える、C1に記載の機器。
[C3]
前記第1のエンコーダはスピーチエンコーダを備え、前記第2のエンコーダは非スピーチエンコーダを備える、C2に記載の機器。
[C4]
前記第2のエンコーダは音楽エンコーダを備える、C3に記載の機器。
[C5]
前記第1のエンコーダは代数符号励振線形予測(ACELP)エンコーダを備え、前記第2のエンコーダは変換符号化励振(TCX)エンコーダを備える、C3に記載の機器。
[C6]
前記第1の分類器は混合ガウスモデルモジュールを備え、前記第2の分類器は開ループ分類器を備える、C1に記載の機器。
[C7]
前記第1の分類器は状態機械を含み、前記状態機械は、前記第1の確率データと前記第2の確率データとを受信するように、並びに前記第1の確率データ及び前記第2の確率データに基づいて前記第1の決定データを生成するように構成される、C1に記載の機器。
[C8]
前記第2の分類器は、前記第1の確率データ、前記第2の確率データ及び前記第1の決定データに基づいて、調整パラメータを生成するように構成された調整パラメータ生成器を含み、前記第2の分類器は、前記調整パラメータの値に更に基づいて前記第2の決定データを出力するように構成される、C1に記載の機器。
[C9]
複数の符号化モードで動作するように構成される切替え型エンコーダを更に備え、前記複数のエンコーダは、前記切替え型エンコーダの前記複数の符号化モードに対応する、C1に記載の機器。
[C10]
前記複数のエンコーダを更に備え、前記第1の分類器、前記第2の分類器及び前記複数のエンコーダはモバイル通信機器又は基地局に一体化される、C1に記載の機器。
[C11]
前記オーディオフレームを含むオーディオ信号を受信するように構成された受信機と、 前記受信機に結合された復調器と、前記復調器は、前記オーディオ信号を復調するように構成される、
前記復調器に結合されたプロセッサと、
複数のデコーダとを更に備える、C1に記載の機器。
[C12]
前記受信機、前記復調器、前記プロセッサ及び前記複数のデコーダはモバイル通信機器に一体化される、C11に記載の機器。
[C13]
前記受信機、前記復調器、前記プロセッサ及び前記複数のデコーダは基地局に一体化される、C11に記載の機器。
[C14]
エンコーダを選択する方法であって、
第2の分類器が、第1の分類器から、第1の確率データと第2の確率データとを受けることと、前記第1の確率データは、オーディオフレームがスピーチフレームである第1の尤度に関連付けられ、前記第2の確率データは、前記オーディオフレームが非スピーチフレームである第2の尤度に関連付けられる、
前記第2の分類器が、前記第1の分類器から第1の決定データを受けることと、前記第1の決定データは、前記スピーチフレーム又は前記非スピーチフレームとしての前記オーディオフレームの分類を示す、
前記第2の分類器が、前記第1の確率データ、前記第2の確率データ及び前記第1の決定データに基づいて第2の決定データを決定することと、前記第2の決定データは、前記オーディオフレームを符号化するための、複数のエンコーダのうちの特定のエンコーダの選択を示す、を備える方法。
[C15]
前記第1の決定データは、前記第2の分類器が前記第1の分類器の状態機械から受ける、C14に記載の方法。
[C16]
前記複数のエンコーダのうちの前記特定のエンコーダを選択するように構成されたスイッチに前記第2の決定データを前記第2の分類器の出力から与えることを更に備え、前記オーディオフレームは、前記特定のエンコーダを使って符号化される、C14に記載の方法。
[C17]
前記複数のエンコーダは第1のエンコーダと第2のエンコーダとを含み、前記第1のエンコーダはスピーチエンコーダを備え、前記第2のエンコーダは非スピーチエンコーダを備える、C14に記載の方法。
[C18]
前記複数のエンコーダのうちの第1のエンコーダに関連付けられた第1の推定コード化利得値を決定することと、
前記複数のエンコーダのうちの第2のエンコーダに関連付けられた第2の推定コード化利得値を決定することとを更に備える、C14に記載の方法。
[C19]
調整パラメータの値を選択することを更に備え、前記値は、前記第1の確率データ、前記第2の確率データ、長期状態データ又は前記第1の決定データのうちの少なくとも1つに基づいて選択され、前記第2の決定データは、前記調整パラメータの前記値に更に基づいて決定される、C18に記載の方法。
[C20]
前記調整パラメータの前記値に基づいて前記第1の推定コード化利得値を調整することを更に備え、前記特定のエンコーダの前記選択は、前記調整された第1の推定コード化利得値及び前記第2の推定コード化利得値に基づく、C19に記載の方法。
[C21]
前記調整パラメータの前記値は、スピーチに関連付けられた前記第1のエンコーダ又は非スピーチに関連付けられた前記第2のエンコーダへ前記選択を偏らせるように選択される、C20に記載の方法。
[C22]
オーディオフレームに関連付けられた条件のセットが満足されるかどうかを決定することと、
前記条件のセットが満足されることに応答して、スピーチに関連付けられた第1のエンコーダへ前記選択を偏らせるように、調整パラメータの値を選択することとを更に備える、C14に記載の方法。
[C23]
前記オーディオフレームが12,800ヘルツのサンプルレートに関連付けられるかどうかを決定することを更に備え、前記条件のセットは、前記オーディオフレームが12,800ヘルツの前記サンプルレートに関連付けられると決定することに応答して、少なくとも部分的に満足されると決定される、C22に記載の方法。
[C24]
前記第1の決定データが、前記オーディオフレームが前記スピーチフレームとして分類されることを示すかどうかを決定することを更に備え、前記条件のセットは、前記第1の決定データが、前記オーディオフレームが前記スピーチフレームとして分類されることを示すと決定することに応答して、少なくとも部分的に満足されると決定される、C22に記載の方法。
[C25]
前記オーディオフレームを符号化するのに使われる前記第1のエンコーダに関連付けられた第1の推定コード化利得値が第1の値以上であると決定することを更に備え、前記第1の値は、第2の推定コード化利得値と第2の値との間の差に関連付けられ、前記条件のセットは、前記第1の推定コード化利得値が前記第1の値以上であると決定することに応答して、少なくとも部分的に満足されると決定される、C22に記載の方法。
[C26]
直近に分類されたフレームが、スピーチコンテンツを含むものとして分類されるかどうかを決定することと、
前記第1の確率データによって示される第1の確率値が、前記第2の確率データによって示される第2の確率値よりも大きいかどうかを決定することとを更に備え、
前記条件のセットは、前記直近に分類されたフレームが前記スピーチコンテンツを含むものとして分類されると決定することに応答して、及び前記第1の確率値が前記第2の確率値よりも大きいと決定することに応答して、少なくとも部分的に満足されると決定される、C22に記載の方法。
[C27]
幾つかの直近に分類されたフレームに対応する各フレームが、スピーチコンテンツを含むものとして分類されるかどうかを決定することと、
前記第1の確率データによって示される第1の確率値が第3の値以上であるかどうかを決定することと、前記第3の値は、前記第2の確率データによって示される第2の確率値と第4の値との間の差に関連付けられる、を更に備え、
前記条件のセットは、前記幾つかの直近に分類されたフレームに対応する各フレームが、前記スピーチコンテンツを含むものとして分類されると決定することに応答して、及び前記第1の確率値が前記第3の値以上であると決定することに応答して、少なくとも部分的に満足されると決定される、C22に記載の方法。
[C28]
前記オーディオフレームの複数のサブフレームの平均有声化値が第1の閾値以上であるかどうかを決定することと、
前記オーディオフレームに関連付けられた非定常性値が第2の閾値よりも大きいかどうかを決定することと、
前記オーディオフレームに関連付けられたオフセット値が第3の閾値未満であるかどうかを決定することとを更に備え、
前記条件のセットは、前記平均有声化値が前記第1の閾値以上であると決定すること、前記非定常性値が前記第2の閾値よりも大きいと決定すること、及び前記オフセット値が前記第3の閾値未満であると決定することに応答して、少なくとも部分的に満足されると決定される、C22に記載の方法。
[C29]
オーディオフレームに関連付けられた条件の第2のセットが満足されるかどうかを決定することと、
前記条件の第2のセットが満足されることに応答して、非スピーチに関連付けられた第2のエンコーダへ前記選択を偏らせるように、調整パラメータの値を選択することとを更に備える、C14に記載の方法。
[C30]
前記オーディオフレームが12,800ヘルツのサンプルレートに関連付けられるかどうかを決定することを更に備え、前記条件の第2のセットは、前記オーディオフレームが12,800ヘルツの前記サンプルレートに関連付けられると決定することに応答して、少なくとも部分的に満足されると決定される、C29に記載の方法。
[C31]
前記第1の決定データが、前記オーディオフレームが前記非スピーチフレームとして分類されることを示すかどうかを決定することを更に備え、前記条件の第2のセットは、前記第1の決定データが、前記オーディオフレームが前記非スピーチフレームとして分類されることを示すと決定することに応答して、少なくとも部分的に満足されると決定される、C29に記載の方法。
[C32]
前記第2の分類器は、モバイル通信機器又は基地局を備える機器中に含まれる、C14に記載の方法。
[C33]
オーディオフレームがスピーチフレームである第1の尤度に関連付けられた第1の確率データを決定するための手段と、
前記オーディオフレームが非スピーチフレームである第2の尤度に関連付けられた第2の確率データを決定するための手段と、
前記第1の確率データ及び前記第2の確率データに基づいて第1の決定データを決定するための手段と、前記第1の決定データは、前記スピーチフレーム又は前記非スピーチフレームとしての前記オーディオフレームの分類の第1の指示を含む、
前記第1の確率データ、前記第2の確率データ及び前記第1の決定データに基づいて第2の決定データを決定するための手段と、前記第2の決定データは、前記オーディオフレームを符号化するためのエンコーダの選択の第2の指示を含む、を備える装置。
[C34]
前記第1の確率データを決定するための前記手段はスピーチモデル回路構成を備え、前記第2の確率データを決定するための前記手段は非スピーチモデル回路構成を備え、前記第1の決定データを決定するための前記手段は状態機械を備え、前記第2の決定データを決定するための前記手段は開ループ分類器を備える、C33に記載の装置。
[C35]
前記第1の確率データを決定するための前記手段、前記第2の確率データを決定するための前記手段及び前記第1の決定データを決定するための前記手段は、混合ガウスモデル回路構成中に含まれる、C33に記載の装置。
[C36]
前記第1の確率データを決定するための前記手段、前記第2の確率データを決定するための前記手段、前記第1の決定データを決定するための前記手段及び前記第2の決定データを決定するための前記手段は、モバイル通信機器又は基地局に一体化される、C33に記載の装置。
[C37]
命令を記憶するコンピュータ可読記憶機器であって、前記命令は、プロセッサによって実行されると、前記プロセッサに、
オーディオフレームがスピーチフレームである第1の尤度に関連付けられた第1の確率データを決定することと、
前記オーディオフレームが非スピーチフレームである第2の尤度に関連付けられた第2の確率データを決定することと、
前記第1の確率データ及び前記第2の確率データに基づいて第1の決定データを決定することと、前記第1の決定データは、前記スピーチフレーム又は前記非スピーチフレームとしての前記オーディオフレームの分類を示す、
前記第1の確率データ、前記第2の確率データ、及び前記第1の決定データに基づいて第2の決定データを決定することと、前記第2の決定データは、前記オーディオフレームを符号化するためのエンコーダの選択を示す、を備える動作を実施させる、コンピュータ可読記憶機器。
[C38]
前記命令は、前記プロセッサに更に、
第1のエンコーダにおいて、前記オーディオフレームの符号化に関連付けられた第1の推定コード化利得値を決定することと、
第2のエンコーダにおいて、前記オーディオフレームの符号化に関連付けられた第2の推定コード化利得値を決定することと、
調整パラメータの値に基づいて前記第1の推定コード化利得値を調整することと、ここにおいて、前記第2の決定データは、前記調整された第1の推定コード化利得値及び前記第2の推定コード化利得値に基づいて決定される、を備える前記動作を実施させる、C37に記載のコンピュータ可読記憶機器。
[C39]
前記命令は、前記プロセッサに更に、スピーチコンテンツに関連付けられた第1のエンコーダへ前記選択を偏らせるように、調整パラメータの値を選択することを備える前記動作を実施させる、C37に記載のコンピュータ可読記憶機器。
[C40]
特定のエンコーダへ選択を偏らせるように調整パラメータの値を選択する方法であって、
第2の分類器において、第1の確率データと第1の決定データとを第1の分類器から受信することと、前記第1の確率データは、オーディオフレームがスピーチフレームである第1の尤度に関連付けられ、前記第1の決定データは、前記スピーチフレーム又は非スピーチフレームとしての前記オーディオフレームの分類を示す、
前記第2の分類器において、前記オーディオフレームに関連付けられた条件のセットが満足されるかどうかを決定することと、前記条件のセットの第1の条件は前記第1の確率データに基づき、前記条件のセットの第2の条件は前記第1の決定データに基づく、
前記条件のセットが満足されると決定することに応答して、複数のエンコーダのうちの第1のエンコーダへ第1の選択を偏らせるように、第1の値、前記調整パラメータを選択することとを備える方法。
[C41]
前記条件のセットは、
前記オーディオフレームが12,800ヘルツのサンプルレートに関連付けられると決定すること、
前記第1の決定データが、前記スピーチフレームとしての前記オーディオフレームの前記分類を示すと決定すること、及び
前記第1のエンコーダが前記オーディオフレームを符号化することに関連付けられた第1の推定コード化利得値が第1の値以上であると決定すること、前記第1の値は、第2の推定コード化利得値と第2の値との間の差に関連付けられる、に応答して、少なくとも部分的に満足されると決定される、C40に記載の方法。
[C42]
前記条件のセットは、
直近に分類されたフレームが、スピーチコンテンツを含むものとして分類されると決定すること、及び
前記第1の確率データによって示される第1の確率値が、第2の確率データによって示される第2の確率値よりも大きいと決定すること、前記第2の確率データは、前記オーディオフレームが前記非スピーチフレームである第2の尤度に関連付けられる、に応答して、少なくとも部分的に満足されると決定される、C40に記載の方法。
[C43]
前記条件のセットは、
幾つかの直近に分類されたフレームに対応する各フレームが、スピーチコンテンツを含むものとして分類されると決定すること、及び
前記第1の確率データによって示される第1の確率値が第3の値以上であると決定すること、前記第3の値は、第2の確率データによって示される第2の確率値と第4の値との間の差に関連付けられ、前記第2の確率データは、前記オーディオフレームが前記非スピーチフレームである第2の尤度に関連付けられる、に応答して、少なくとも部分的に満足されると決定される、C40に記載の方法。
[C44]
前記条件のセットは、
前記オーディオフレームの複数のサブフレームの平均有声化値が第1の閾値以上であると決定すること、
前記オーディオフレームに関連付けられた非定常性値が第2の閾値よりも大きいと決定すること、及び
前記オーディオフレームに関連付けられたオフセット値が第3の閾値未満であると決定することに応答して、少なくとも部分的に満足されると決定される、C40に記載の方法。
[C45]
前記オーディオフレームに関連付けられた条件の第2のセットが満足されるかどうかを決定することと、
前記条件の第2のセットが満足されると決定することに応答して、前記調整パラメータを、前記複数のエンコーダのうちの非スピーチエンコーダへ第2の選択を偏らせるために、前記第1の値から第2の値に更新することとを更に備える、C40に記載の方法。
[C46]
前記条件の第2のセットは、
前記オーディオフレームが12,800ヘルツのサンプルレートに関連付けられると決定すること、及び
前記第1の決定データが、前記非スピーチフレームとしての前記オーディオフレームの前記分類を示すと決定することに応答して、満足されると決定される、C45に記載の方法。
[C47]
前記第2の分類器は、モバイル通信機器又は基地局を備える機器中に含まれる、C40に記載の方法。