(58)【調査した分野】(Int.Cl.,DB名)
前記コマンドを前記生成することが、前記表現からの情報に基づいて、(A)前記ビームの前記幅を増大するためのコマンドと、(B)前記ビームの前記幅を低下するためのコマンドとを含む複数のコマンドから、前記コマンドを選択することを備える、請求項1に記載の信号処理の方法。
前記フィルタ構成を前記生成することが、前記ビームの現在の方向および前記ビームの現在の幅のうち少なくとも一方の指示に基づく、請求項1に記載の信号処理の方法。
前記フィルタ構成を前記生成することが、前記コマンドに従って、複数のフィルタ構成から前記フィルタ構成を選択することを備える、請求項1に記載の信号処理の方法。
前記複数のフィルタ構成のうちの第1のフィルタ構成が、前記複数のフィルタ構成のうちの第2のフィルタ構成とは異なる、前記空間的指向性フィルタの複数の出力チャネルの間のフェーズ関係を記述する、請求項6に記載の信号処理の方法。
前記コマンドを生成するための前記手段が、前記表現からの情報に基づいて、(A)前記ビームの前記幅を増大するためのコマンドと、(B)前記ビームの前記幅を低下するためのコマンドとを含む複数のコマンドから、前記コマンドを選択するための手段を備える、請求項15に記載の信号処理のための装置。
前記フィルタ構成を生成するための前記手段が、前記ビームの現在の方向および前記ビームの現在の幅のうち少なくとも一方の指示に基づいて、前記フィルタ構成を生成するように構成される、請求項15に記載の信号処理のための装置。
前記フィルタ構成を生成するための前記手段が、ユーザの現在のロケーションの指示に基づいて、前記フィルタ構成を生成するように構成される、請求項15に記載の信号処理のための装置。
前記フィルタ構成を生成するための前記手段が、前記コマンドに従って、複数のフィルタ構成から前記フィルタ構成を選択するための手段を備える、請求項15に記載の信号処理のための装置。
前記複数のフィルタ構成のうちの第1のフィルタ構成が、前記複数のフィルタ構成のうちの第2のフィルタ構成とは異なる、前記空間的指向性フィルタの複数の出力チャネルの間のフェーズ関係を記述する、請求項20に記載の信号処理のための装置。
前記ジェスチャーインタープリタが、前記表現からの情報に基づいて、前記ビームの前記幅を増大するためのコマンドと、前記ビームの前記幅を低下するためのコマンドとを含む複数のコマンドから、前記コマンドを選択することによって、前記コマンドを生成するように構成される、請求項29に記載の装置。
前記コマンドインタープリタが、前記ビームの現在の方向および前記ビームの現在の幅のうち少なくとも一方の指示に基づいて、前記フィルタ構成を生成するように構成される、請求項29記載の装置。
前記コマンドインタープリタが、前記コマンドに従って、複数のフィルタ構成から前記フィルタ構成を選択することによって、前記フィルタ構成を生成するように構成される、請求項29に記載の装置。
前記複数のフィルタ構成のうちの第1のフィルタ構成が、前記複数のフィルタ構成のうちの第2のフィルタ構成とは異なる、前記シンセサイザの複数の出力チャネルの間のフェーズ関係を記述する、請求項34に記載の装置。
【発明を実施するための形態】
【0008】
[0054]拡声器アレイは、リスニングゾーンを発生するのに使うことができる。拡声器の線形、円形、または平面アレイを使って、(たとえば、波動場合成を使って)現実的な音場の波面を合成することが可能である。線形アレイを用いると、ある方向にビームされるように、再現された音場をステアリングし、他の方向のエネルギーをはるかに低くすることも可能である。本開示は、ジェスチャー認識(gesture recognition)を音場変更(sound field modification)と統合するシステムについて記載する。そのような統合システムは、そのような音場発生および/または変更を表現的ジェスチャーで駆動するのに使うことができ、そうすることによって不慣れなユーザ(a naive user)も、表現的アクションで音放射(sound radiation)を遮断し、または音ビームを方向づけるようなアクションを開始することができる。
【0009】
[0055]文脈によって明確に限定されない限り、「信号」という用語は、本明細書では、ワイヤ、バス、または他の伝送媒体上に表されたメモリ位置(またはメモリ位置のセット)の状態を含む、その通常の意味のいずれをも示すために使用される。その文脈によって明確に限定されない限り、「発生(generating)」という用語は、本明細書では、計算(computing)または別様の生成(producing)など、その通常の意味のいずれをも示すのに使用される。その文脈によって明確に限定されない限り、「算出(calculating)」という用語は、本明細書では、計算(computing)、評価、推定、および/または複数の値からの選択など、その通常の意味のいずれをも示すのに使用される。それの文脈によって明確に限定されない限り、「取得(obtaining)」という用語は、算出(calculating)、導出、(たとえば、外部デバイスからの)受信、および/または(たとえば、記憶要素のアレイからの)検索など、それの通常の意味のいずれをも示すのに使用される。文脈によって明確に限定されない限り、「選択(selecting)」という用語は、2つ以上のセットのうちの少なくとも1つ、かつすべてよりも少数を識別、指示、適用、および/または使用することなど、その通常の意味のいずれをも示すのに使用される。「備える(comprising)」という用語は、本明細書と特許請求の範囲とにおいて使用される場合、他の要素または動作を除外するものではない。「に基づく」(「AはBに基づく」など)という用語は、(i)「から導出される」(たとえば、「BはAの前の形(a precursor)である」)、(ii)「少なくとも〜に基づく」(たとえば、「Aは少なくともBに基づく」)、および特定の文脈で適当な場合に、(iii)「に等しい」(たとえば、「AはBに等しい」)という場合を含む、その通常の意味のいずれをも示すのに使用される。同様に、「に応答して(in response to)」という用語は、「少なくとも〜に応答して」を含む、その通常の意味のいずれをも示すのに使用される。
【0010】
[0056]マルチマイクロフォン・オーディオ感知デバイスのマイクロフォンの「ロケーション(location)」への言及は、文脈によって別段に規定されていない限り、マイクロフォンの音響的に敏感な面の中心のロケーションを示す。「チャネル」という用語は、特定の文脈に応じて、時々、信号経路を示すのに使用され、また他のときには、そのような経路によって搬送される信号を示すのに使用される。別段に規定されていない限り、「一連(series)」という用語は、2つ以上のアイテムのシーケンスを示すのに使用される。「対数(logarithm)」という用語は、10を底とする対数(base-ten logarithm)を示すのに使用されるが、他の底へのそのような演算の拡張は本開示の範囲内である。「周波数成分(frequency component)」という用語は、(たとえば、高速フーリエ変換によって生成される)信号の周波数ドメイン表現のサンプル、または信号のサブバンド(たとえば、バーク尺度またはメル尺度サブバンド(a Bark scale or mel scale subband))など、信号の周波数または周波数帯域のセットのうちの1つを示すのに使用される。
【0011】
[0057]別段に規定されていない限り、特定の特徴を有する装置の動作のいかなる開示も、類似の特徴を有する方法を開示する(その逆も同様)ことをも明確に意図し、かつ特定の構成による装置の動作のいかなる開示も、類似の構成による方法を開示する(その逆も同様)ことをも明確に意図する。「構成(configuration)」という用語は、その具体的な文脈(particular context)によって示されるように、方法、装置、および/またはシステムに関して使用され得る。「方法」、「処理」、「手順」、および「技法」という用語は、具体的な文脈によって別段に規定されていない限り、一般的、および互換的に使用される。「装置」および「デバイス」という用語も、具体的な文脈によって別段に規定されていない限り、一般的、および互換的に使用される。「要素(element)」および「モジュール」という用語は、一般に、より大きな構成の一部を示すのに使用される。文脈によって明確に限定されない限り、「システム」という用語は、本明細書では、「共通の目的を果たすために相互作用する要素のグループ」を含む、その通常の意味のいずれをも示すのに使用される。文書の一部分の参照による任意の組込みは、その部分内で言及された用語または変数の定義が、文書中の他の場所に現れ、ならびに組み込まれた部分で参照される図に現れた場合、そのような定義を組み込んでいることも理解されたい。
【0012】
[0058]放出される音場の近距離場および遠距離場の領域において(in the near-field and far-field regions)、波面は、それぞれ球面および平面であると仮定することができる。近距離場は、音響受信機(たとえば、マイクロフォンアレイ)から1波長未満離れている空間の領域として定義され得る。この定義では、領域の境界までの距離は、周波数に反比例して変化する。たとえば、200、700、および2000ヘルツの周波数では、1波長境界までの距離は、それぞれ約170、49、および17センチメートルである。代わりに、近距離場/遠距離場の境界がマイクロフォンアレイから特定の距離(たとえば、アレイのマイクロフォンからまたはアレイの重心から50センチメートル、またはアレイのマイクロフォンからまたはアレイの重心から1メートルもしくは1.5メートル)にあると見なすことが有用であることがある。特定のコンテキストによって別段に規定されていない限り、本明細書では遠距離場の近似が想定される。
【0013】
[0059]
図1Aは、円錐型拡声器の例を示し、
図1Bは、方形拡声器(たとえば、オランダ、アイントホーフェンのNXPセミコンダクターズのRA11x15x3.5)の例を示す。
図1Cは、
図1Aに示す12個の拡声器からなるアレイの例を示し、
図1Dは、
図1Bに示す12個の拡声器からなるアレイの例を示す。
図1Cおよび
図1Dの例は、たとえば、拡声器間距離(inter-loudspeaker distance)が2.6cmであり、アレイの長さ(31.2cm)が典型的なラップトップコンピュータの幅とほぼ等しくなるように実装することができるが、これらの例は、これらの特定の寸法に限定されるのではなく、本明細書に記載する原理は、どの寸法の方向制御可能なトランスデューサ(たとえば、拡声器アレイ)でも実現することができる。
【0014】
[0060]そのような拡声器アレイを含むレンダリングシステム用の構成パラメータは通常、記述的ではなくむしろ、文字通りに(たとえば、科学用語で)表される。そのような構成パラメータは、ビームフォーマが音をステアリングするべき角度と、ビームの幅と、音のボリュームとを含み得る(たとえば、米国特許出願公開第2010/0098275A1号(Metcalf)の
図11参照)。そのようなパラメータは、研究者の観点からは、すでに高度に抽象化されたものであるが、電話またはタブレットもしくはラップトップコンピュータなどのデバイスにおいてアレイを使おうとするユーザよりも、試験技術者に適し得る。
【0015】
[0061]そのような拡声器アレイが、パーソナルコンピューティングデバイス(たとえば、ラップトップ、ネットブック、もしくはタブレットコンピュータ、スマートフォン、セットトップボックスもしくはビデオ再生デバイス、ゲーム機など)またはテレビディスプレイに統合または結合されているとき、ユーザが、アレイの動作をリアルタイムで調整できることが望ましい場合がある。ただし、消費者アプリケーションの場合、音場が変化されることになる度にアレイの詳細な構成パラメータを決定し、指定するようユーザに要求するのは避けることが望ましい場合があり、よりユーザフレンドリーなソリューション(たとえば、単純であり、より記述的なユーザインターフェース)および統合システムが望ましい場合がある。たとえば、ユーザが何をしているかに応答してアレイをリアルタイムで調整するインターフェースを実装することが望ましい場合がある。
【0016】
[0062]音場変更のための従来の手法は、ユーザに、リモートコントロール上のボタンを見つけ、画面上のユーザインターフェースを操作するために閲覧を中断し、かつ/または音声コマンドを学習するよう要求するものであった。本開示は、音生成(sound production)を制御するための異なる感覚情報(sensory information)の統合について記載する。表現的ジェスチャーに適切に応答するようにシステムを構成することによって、新たなユーザ経験が遂行され、音場変更アルゴリズムおよび拡声器アレイハードウェアの能力のより優れた利用法が探求され得る。
【0017】
[0063]ユーザが、特定の方向からの音を聞きたくない場合、所望の変化を示すためのアクションは、ユーザが、音を遮断するかのように、自分の片手または両手を上げることであり得る。そのようなアクションは、開いた掌を外に向けて(with the open palm facing outward)片手を上げ、守備または防御ジェスチャーをとるジェスチャーとして特徴づけることができる。連続する
図2Aおよび
図2Bは、どのようにしてユーザがそのようなジェスチャーを経時的に実施し得るかの一例を示す。音が望まれないことを示すための別のアクションは、ユーザが、開いた手を外側に向かって動かす(move an open hand outwardly)もの(たとえば、外部の音を遮断し、または押しのけるかのように、ユーザから離れていく手の移動)であり得る。連続する
図3A〜
図3Bおよび
図4A〜
図4Bは、ユーザがそのようなジェスチャーを経時的にどのように実施し得るかの2つの例を示す。そのように、開いた掌を外に向けて片手を差し出すジェスチャーは、「聞く耳をもたない(talk-to-the-hand)」ジェスチャーと呼ばれ得る。
【0018】
[0064]ユーザが、音ビームを異なる方向に動かしたい場合、所望の変化を示すためのアクションは、ユーザが、自分の両手を互いの方に(toward each other)(たとえば、音ビームをつかむ(grasp the sound beam)かのように)動かし、次いで、両手をそろえて(in unison)所望の方向に動かすものであり得る。連続する
図5Aおよび
図5Bは、どのようにしてユーザがそのようなジェスチャーを経時的に実施し得るかの一例を示す。
【0019】
[0065]ユーザが、特定の方向の音をはっきりと聞くことができず、音場の焦点を自分の耳に合わせたい場合、所望の変化を示すためのアクションは、ユーザが片手を耳にかぶせ(cup a hand over the ear)、場合によっては自分の頭もその耳の方向に傾けるものであり得る。そのようなアクションは、片手をユーザの耳の方に持ち上げ(たとえば、片手をユーザの顔の横に持ち上げ)、掌を前に向け、場合によっては指を少し前に曲げた(たとえば、手で耳を覆った)ジェスチャーとして特徴づけられ得る。
図6Aおよび
図6Bは、そのようなジェスチャーの進行を経時的に示す。
【0020】
[0066]最上位レベルにおいて、音場変更のための統合システムは、「認識→分析→合成」パラダイムに従って実現することができる。そのような構造は、ユーザによって指示される所望の変化を認識し、現在のコンテキストにおいて、指示された変化を分析し、指示された変化を実施するように変更された音場を合成するように設計され得る。デバイスは、表現的な人間のジェスチャーを取り込むのに使うことができ、そのジェスチャーは次いで、可能なパターンのうちの1つに解釈される。別個のパターンに従って、決定が行われ、対応する音場が合成される。一般に合成は、ジェスチャーの細部からのさらなる情報に基づき、細部は、手の位置、正確な配向(orientation)の識別などを含み得る。一例では、システムは、第1の方向でのエネルギーの集中を含む音場を生成するように、(たとえば、
図1Cまたは
図1Dに示す)拡声器アレイを駆動し、音場内で実施されるジェスチャーを認識し、ここでジェスチャーは、拡声器アレイの平面での第2の方向を示す。
【0021】
[0067]
図7Aは、音場生成タスクT100と、ジェスチャー解釈タスクT200と、コマンド解釈タスクT300と、信号合成タスクT400とを含む、一般的構成によるオーディオ信号処理の方法M100のフローチャートを示す。音場生成タスクT100は、方向制御可能なトランスデューサ(たとえば、拡声器のアレイ)を駆動して、ビームを含む音場を生成する。ビームとは、トランスデューサに対する特定の角度または空間方向に沿ったエネルギーの集中と定義される。たとえば、タスクT100は、本明細書において論じるように、時間ドメイン内および/または周波数ドメイン内でのビームフォーミング動作として実装され得る。
【0022】
[0068]ジェスチャー解釈タスクT200は、ビームの方向およびビームの幅のうち少なくとも1つにおける変化を実施するためのコマンドを生成する。タスクT200は、このコマンドを、変化を指示するジェスチャーの表現に応答して生成する。タスクT200は、表現からコマンドへのマッピングに従ってコマンドを生成するように実装することができ、マッピングは、ルックアップテーブルまたは同様の構造において実施され得る。
図8〜
図10は、そのようなマッピングの例を示す。
【0023】
[0069]タスクT200によって生成されたコマンドに応答して、コマンド解釈タスクT300は、フィルタ構成を生成する。フィルタ構成は、時間ドメイン内および/または周波数ドメイン内での空間的指向性フィルタリング動作(たとえば、ビームフォーミング動作)を記述するフィルタ係数セットを含み得る。あるいは、フィルタ構成は、そのようなフィルタ係数セットに対する変更を記述することができる。
【0024】
[0070]信号合成タスクT400は、フィルタ構成に基づく空間的指向性フィルタを入力信号に適用することによって、マルチチャネル信号を生成する。たとえば、タスクT400は、時間ドメイン内および/または周波数ドメイン内でのビームフォーミング動作として実装され得る。
【0025】
[0071]タスクT100は、方向制御可能なトランスデューサを駆動して、ビームを含む音場を生成する。タスクT100は一般に、ビームフォーマや波動場合成(wavefield synthesis)(WFS)レンダリング技法など、空間的指向性フィルタ(a spatially directive filter)によって生成されるマルチチャネル信号に基づいてトランスデューサを駆動するように実装される。たとえば、駆動信号は、方法M100の以前の実行における信号合成タスクT400のインスタンスによって生成されたマルチチャネル信号に基づき得る。トランスデューサが拡声器のアレイであるケースでは、駆動信号が、各チャネルがアレイの特定の対応する拡声器を駆動するようなマルチチャネル信号であることが典型的である。
【0026】
[0072]生成された音場の所望の方向に(たとえば、ビームの方向に)強め合う干渉を誘発する(induce constructive interference)とともに、生成された音場の他の方向に(たとえば、ビームの主ローブの外の方向に)弱め合う干渉を誘発する(inducing destructive interference)ための駆動信号を生成するように、タスクT100を実装することが望ましい場合がある。たとえば、タスクT100は、トランスデューサを駆動して、所望の方向に集中された音響エネルギーのビームを作成するように、および他の方向にビーム応答の谷間を作成するように実装され得る。
図18A〜
図22Bは、ビームパターンの例を示すが、これらについては後でより詳しく論じる。
【0027】
[0073]概して、タスクT100は、隣接し合う拡声器の間の均一または均一でない間隔を有する線形拡声器アレイ、または拡声器の非線形(たとえば、成形した(shaped))アレイを駆動するように実装され得る。トランスデューサのいくつかの部分(たとえば、拡声器アレイのサブアレイ)を、異なる周波数範囲向けに異なるように駆動するように、タスクT100を実装することも可能である。そのような実装形態は、広帯域再現(wideband reproduction)のためのより良好な指向性を提供し得る。1つのそのような例において、タスクT100は、第1の周波数範囲を有する第1の駆動信号で拡声器アレイを駆動するように、および第1の周波数範囲よりも低い第2の周波数範囲を有する第2の駆動信号で、そのアレイの交互の拡声器(alternate loudspeakers of the array)を駆動するように実装される。
【0028】
[0074]ジェスチャー解釈タスクT200は、ジェスチャー表現を対応するコマンドにマップするルックアップテーブルまたは同様の構造へのインデックスとしてジェスチャー表現を適用することによって、指示された変化を実施するためのコマンドを生成するように実装され得る。表現されるジェスチャーから対応するコマンドへのそのようなマッピングのいくつかの例について、以下で論じる。
【0029】
[0075]A)遮断または押し出すジェスチャー(a blocking or pushing gesture)(たとえば、「聞く耳をもたない」ジェスチャー)の表現は、ビームの強度(intensity)をユーザの方向において低下させるための、または(たとえば、
図11に示すように)音場において局所的ヌル(a local null)を作成するためのコマンドにマップされ得る。そうではなく、ユーザが、局所的音レベル(local sound level)を上げたい場合、所望の変化を指示するためのアクションは、ユーザが、手招きジェスチャー(a beckoning gesture)を行うことであり得る。そのようなジェスチャーは、掌をユーザに向けて(with the palm facing toward the user)手を上げ(その配向は、たとえば、ユーザの顔に対する、親指の外側位置によって示すことができる)、それと組み合わせて、手の指を掌の内側の方に曲げたものとして特徴づけられ得る。あるいは、手招きジェスチャーは、開いた掌を内側にして手を上げること(as a raised and open palm-inward hand)と、手のサイズの減少および/または手の距離の増加との組合せとして特徴づけられ得る。手招きまたは引寄せジェスチャー(pulling gesture)の表現は、音場内の局所的ビームを作成するための、または既存のビームの強度をユーザの方向において減少させるためのコマンドにマップされ得る。
図8は、そのようなマッピングの例を行GA1−CA1およびGA2−CA2に示す。
【0030】
[0076]B)ユーザが、音ビームを異なる方向に動かしたい場合、所望の変化を指示するためのアクションは、ユーザが、自分の両手を互いの方に(たとえば、音ビームをつかむ(grasp the sound beam)かのように)動かし、次いで、両手をそろえて所望の方向に動かすものであり得る。連続する
図5Aおよび
図5Bは、どのようにしてユーザがそのようなジェスチャーを経時的に実施し得るかの一例を示す。あるいは、そのような所望の変化は、(たとえば、覆うモーション(a cupping motion)で)両手を合わせ(bringing the hands together)、次いで両手を一緒に新たな位置に移し、次いで両手を互いから離す(あるいは、新たな位置である程度の期間、たとえば1または2秒間、両手を握り合わせる(holding the hands together))という連続を含むジェスチャーによって指示することができる。そのようなジェスチャーの片手バージョンは、開いた掌を外に向けた手(an open-palm-outward hand)(場合によっては、指を掌の内側に向けて曲げる(fingers curling inward toward the palm)モーションが続く)が、次いで、所望の方向を示すために片側または反対側に移動されるように見えるものとして特徴づけられ得る。そのようなジェスチャーの別の片手バージョンは、手を閉じ、次いで閉じた手を新たな位置に移動し、次いで手を開く(あるいは、手を、新たな位置である程度の期間、たとえば1または2秒間、静止させておく)という連続を含む。そのような方向を変えるジェスチャー(a redirecting gesture)の表現は、ビームを、元の方向から(たとえば、
図12に示すように)指示された方向にステアリングするための(たとえば、移すための)コマンドにマップされ得る。
図8は、そのようなマッピングの例を行GB1−CB1およびGB2−CB2に示す。
【0031】
[0077]C)ユーザが、ビームを、(たとえば、通話のプライバシーを高めるために)ユーザ自身の方向に集束させたい場合、所望の変化を指示するためのアクションは、ユーザが、自分の両手の間を水平方向に広くあけて見せ(show his hands spaced wide apart in a horizontal direction)、次いで、両手を合わせることであり得る。そのようなジェスチャーの表現は、ユーザの方向にビームを作成し、入力信号をそのビームに制限し、またはユーザの方向での既存のビームの幅を削減するためのコマンドにマップされ得る。同様に、両手を水平方向に互いから離すジェスチャー(a gesture of moving the hands away from each other in a horizontal direction)は、音ビームの幅を増大するための所望の変化を指示することができ、そのようなコマンドにマップされ得る。
図8は、そのようなマッピングの例を行GC1−CC1およびGC2−CC2に示す。
図10は、そのようなマッピングの代替例を行GC1a−CC1a、GC1b−CC1b、GC2a−CC2a、およびGC2b−CC2bに示す。
【0032】
[0078]D)ユーザが、特定の方向の音をはっきりと聞くことができず、音場を自分の方向に集束させ、または場合によっては音場を(たとえば、雑音のある環境において)より明瞭にさせたい場合、所望の変化を指示するためのアクションは、ユーザが自分の手を自分の耳にかぶせ、かつ場合によっては、自分の頭をその方向に傾けることであり得る。そのようなアクションは、片手をユーザの耳の方に持ち上げ(たとえば、片手をユーザの顔の横に持ち上げ)、掌を前に向け、場合によっては指を少し前に曲げた(with the fingers partially curled forward)(たとえば、手で耳を覆った)ジェスチャーとして特徴づけられ得る。
図6Aおよび
図6Bは、そのようなジェスチャーの進行を経時的に示す。そのようなジェスチャーの表現は、(たとえば、局所的ボリュームを増大するために)耳の方向のビームを作成し、もしくは強め、既存のビームを耳に向け直し、または場合によっては、たとえば
図13に示すように、音場のレベルをその方向にブーストするためのコマンドにマップされ得る。代替または追加として、そのようなジェスチャーの表現は、音場のダイナミックレンジを局所的もしくはグローバルに圧縮するための、および/または音場の認知されるラウドネスを(たとえば、低音ブースティングおよび/または心理音響的低音強調(psychoacoustic bass enhancement)(PBE)により)局所的もしくはグローバルに強調するためのコマンドにマップされ得る。
図8は、そのようなマッピングの例を行GD1−CD1に示す。
【0033】
[0079]逆に、ユーザが、そのような集束を逆転(reverse)させたい場合、所望の変化を指示するためのアクションは、ユーザが、消去または振り払うジェスチャー(an erasing or waving-away gesture)を行うことであり得る。そのようなジェスチャーは、立てた手を、開いた掌を外側にして(as a raised hand held with the open palm outward)(一般に、指はそろえるのではなくばらばらにして)持ち上げ、手のつけ根のピボットの辺りで前後に動かす(すなわち、上腕をその軸の辺りで前後に回転することによって移動される)ものと特徴づけることができる。そのようなジェスチャーの表現は、局所的ボリューム、ダイナミックレンジ、およびまたはラウドネス補償動作(loudness compensation operation)をデフォルトレベルに戻すためのコマンドにマップされ得る。
図8は、そのようなマッピングの例を行GD2−CD2に示す。
【0034】
[0080]E)ユーザが、音場全体のボリュームを増大させたい場合、所望の変化を指示するためのアクションは、ユーザが、両方の手を一緒に(掌を上に、または掌を下にして)上げることであってよく、そのようなジェスチャーの表現は、音場の全体的ボリュームを増大するためのコマンドにマップされ得る。同様に、ユーザが、音場全体のボリュームを低下させたい場合、所望の変化を指示するためのアクションは、ユーザが、両方の手を一緒に(たとえば、
図14の例に示すように、掌を下にして)下げることであってよく、そのようなジェスチャーの表現は、音場の全体的ボリュームを低下するためのコマンドにマップされ得る。
図8は、そのようなマッピングの例を行GE1−CE1およびGE2−CE2に示す。
【0035】
[0081]F)ユーザが、(少なくともユーザの方向の)ボリュームを低下させ、または音場のダイナミックレンジを圧縮したい場合、所望の変化を指示するためのアクションは、ユーザが、両手を互いの方に垂直方向に移動させ、または一方の手を耳に当てると同時に他方の手を下げることであり得る。そのようなジェスチャーの表現は、(局所的またはグローバルに)ボリュームを低下させ、または音場のダイナミックレンジを圧縮するためのコマンドにマップされ得る。
図8は、そのようなマッピングの例を行GF1−CF1に示す。
図9は、そのようなマッピングの別の例を、行GF3−CF3示す。
【0036】
[0082]同様に、ユーザが、(少なくともユーザの方向の)ボリュームを増大させ、または音場のダイナミックレンジを拡張したい場合、所望の変化を指示するためのアクションは、ユーザが、両手を互いから垂直方向に離し(move the hands away from each other in a vertical direction)、または一方の手を耳に当てると同時に他方の手を上げることであり得る。そのようなジェスチャーの表現は、(局所的またはグローバルに)ボリュームを増大させ、または音場のダイナミックレンジを拡張するためのコマンドにマップされ得る。
図8は、そのようなマッピングの例を行GF2−CF2に示す。
図9は、そのようなマッピングの別の例を行GF4−CF4に示す。
【0037】
[0083]G)ユーザが、他の帯域のレベルに対して、音場の周波数帯のレベルを(たとえば、等化のために)増大または低下させたい場合、所望の変化を指示するためのアクションは、ユーザが、一方の手を耳に当てながら、他方の手を、掌を外側にしてまっすぐ持ち上げ、この手を、それぞれ、ユーザの視点から、それぞれ、時計回りまたは反時計回りに(たとえば、ノブまたはハンドルを回すかのように)回転することであり得る。そのようなジェスチャーの表現は、特定の周波数帯のレベルを増大または低下させるためのコマンドにマップされ得る。レベルが調整されるべきである周波数帯(たとえば、低音、中音域、高音(bass, midrange, treble))は、回転する手の高さによって指示することができる(たとえば、高く上げた手は高音を指示し、低く上げた手は低音を指示する)。
図9は、そのようなマッピングの例を、行GG1a−CG1a、GG2a−CG2a、GG1b−CG1b、GG2b−CG2b、GG1c−CG1c、およびGG2c−CG2cに示す。
【0038】
[0084]H)ユーザが、現在の音場構成に対する変化を不可に(disable)したい場合、所望の変化を指示するためのアクションは、ユーザが、開いた手を、掌を外にして差し出し、その手を時計回りに回転させながらその手を閉じることであり得る。そのようなロックジェスチャー(a locking gesture)の表現は、現在の音場構成に対する変化を不可にするための、または特定の変化(たとえば、ビーム方向の変化)を不可にし、他の変化(たとえば、局所的音レベルの変化)を許可するためのコマンドにマップされ得る。同様に、ユーザが、現在の音場構成に対する変化を可能にしたい場合、所望の変化を指示するためのアクションは、ユーザが、閉じた手を差し出し、その手を反時計回りに回転させながらその手を開くことであり得る。そのようなアンロックジェスチャー(an unlocking gesture)の表現は、現在の音場構成に対する変化を可能にするためのコマンドにマップされ得る。
図9は、そのようなマッピングの例を、行GH1−CH1およびGH2−CH2に示す。
【0039】
[0085]特定の実装形態における異なるジェスチャー表現に関連付けられたアクションの範囲は、上記でおよび/または
図8〜
図10で説明した例のうちどの1つまたは複数を含んでもよい。追加または代替として、これらのアクションのうちいくつかは、グローバルに適用することができる(たとえば、ボリューム、周波数分散(frequency distribution)、および/またはダイナミックレンジの制御)。
【0040】
[0086]後で論じるように、表現されるジェスチャーは、手の動き以外のアクション、または手の動きに加えてのアクションを含み得る。たとえば、ユーザの顔の表情、頭の位置および/もしくは配向(orientation)、ならびに/または視線の方向(gaze direction)および手の動きを追跡し、それに従って音場を変えるように(たとえば、音ビームをステアリングするように)、方法M100を実装することが望ましい場合がある。
【0041】
[0087]ジェスチャー解釈タスクT200は、コンテキスト依存であり得る。たとえば、タスクT200は、現在のコンテキストに適したジェスチャーの表現にのみ応答して、コマンドを生成するように実装され得る。1つのそのような例において、タスクT200は、システムがすでにミュートされた状態(a muted state)にあるとき、ボリュームを低下するためのジェスチャーの表現を無視するように実装される。別のそのような例では、タスクT200は、システムがすでにその方向において遮断された状態(a blocked state)にあるとき、遮断ジェスチャー(a blocking gesture)の表現を無視するように実装される。
【0042】
[0088]ジェスチャー表現から、対応するコマンドへのマッピングも、コンテキスト依存であり得る。たとえば、タスクT200は、ジェスチャー表現が受信されたときに存在するコンテキストに依存して、2つ以上の異なるコマンドを、同じジェスチャー表現に関連付けるように実装され得る。追加または代替として、コンテキストは、コマンドが局所的に(たとえば、ユーザの方向にのみ)、またはグローバルに適用されるべきかを指示し得る。
【0043】
[0089]方法M100は、別の動作またはデバイスからジェスチャー表現を取得するように実装され得る。あるいは、方法M100は、取り込まれたシーンの分析を実施することによって、ジェスチャーの表現を生成するように実装され得る。
図7Bは、取り込まれたシーンを分析してジェスチャーの表現を生成するシーン分析タスクTA10を含む、方法M100の実装形態M110のフローチャートを示す。
【0044】
[0090]
図7Cは、ジェスチャーを含むシーンを取り込むシーン取込みタスク(a scene capture task)TC10も含む、方法M110の実装形態M120のフローチャートを示す。シーン取込みタスクTC10は、シーンを記録するのに、様々な取込みモダリティ(capture modalities)(たとえば、イメージングおよび/または測距(ranging))のうちどの1つまたは複数を使うように実装されてもよい。たとえば、タスクTC10は、ジェスチャーを含む1つの画像または画像シーケンス(a sequence of images)(たとえば、ビデオシーケンス)を記録するように実装され得る。
【0045】
[0091]そのような取込みは、(たとえば、色および/または輝度の違いに基づく画像分割(image segmentation)のための)可視光および/もしくは赤外線による光撮像(optical imaging)ならびに/またはレーザ距離測定を含み得る。タスクTC10は、画像シーケンスを取り込むのに、カメラに基づく撮像システムを使うように実装されてよく、タスクTA10は、そのシーケンス内のオブジェクトと動きとを認識するのに、画像処理技法を使うように実装されてよい。たとえば、タスクTC10は、(たとえば、パーソナルコンピューティングデバイス内または上に搭載されたウェブカム(a webcam)を使って)音場内のユーザの画像シーケンスを取り込むように実装され得る。2つ以上のカメラを用いて、タスクTC10およびTA10は、それぞれ、3次元撮像および分析を実施するように実装することさえもできる(たとえば、2次元認識動作に、深度情報(depth information)を追加する)。
【0046】
[0092]追加または代替として、タスクTC10は、超音波を使ってそのような取込みを実施するように実装され得る。1つのそのような例において、超音波トランスデューサのアレイが、(たとえば、測距による)空間撮像(spatial imaging)を実施するのに使われる。超音波アレイにおけるトランスデューサの十分な密度のゆえに(with a sufficient density)、そのような空間撮像の解像度は、細部(minute details)の識別をサポートするのに十分高くなり得る。追加または代替として、タスクTC10は、(たとえば、米国特許出願公開第2010/0202656A1号(Ramakrishnanら)に記載されている)超音波ドップラー技法を使うことによって、移動情報を取り込むように実装され得る。
【0047】
[0093]追加または代替として、タスクTC10は、構造化放出(structured emission of sound)を使って測距を実施するように実装され得る。たとえば、タスクTC10は、(たとえば、米国特許出願公開第2012/0001875A1号(Liら、2012年1月5日公開)に記載されている)スペクトル拡散超音波など、音の構造化放出を使って測距を実施するように実装され得る。そのような測距は、取り込まれたシーンの深度撮像(depth imaging)および/または深度分割(depth segmentation)をサポートするのに使うことができる。
【0048】
[0094]音の構造化放出の利用への追加または代替として、タスクTC10は、距離マッピング(distance mapping)、深度撮像、および/または深度分割のために、光の構造化放出を使うように実装され得る。そのような実装形態は、既知のパターン(たとえば、ストライプおよび/またはドットのパターンなど、周期的な光パターン(a periodic pattern of light))をシーン上に投影することと、照明されるシーンの画像を取り込み、そのパターンの変形を判断することによって、シーン中の表面点の深度(the depths of surface points)を推定することとを含み得る。そのような手法は、光を放出するためのレーザ(たとえば、赤外線レーザ)と、放出される光にパターンを組み付けるための回折格子(a diffraction grating)(たとえば、ホログラム)と、照明されるシーンの画像を取り込むための画像検出器とを使うことができる。そのようなケースでは、タスクTA10は、(たとえば、ワシントン州レドモンドのマイクロソフトのKinectセンサーによって実施されるように)視野内のオブジェクトによって反射される投射パターン(the projected pattern)の画像を分析するように実装され得る。
【0049】
[0095]これらの取込みモダリティのうち任意の1つまたは複数とともに(またはその代わりに)取込みタスクTC10によって使うことができる他の取込み手法には、ジェスチャーグローブ(a gesture glove)および/または他のコントローラの使用があり、この使用は、重力軸(たとえば、地球の表面に対して垂直な軸)または磁気軸(たとえば、地球の磁気軸)など、外部基準方向(an external reference direction)に対して、コントローラの現在の空間配向(a current spatial orientation)を示す、コントローラ内の配向センサーによって示される移動を追跡することを含み得る。そのような配向センサー(an orientation sensor)は、ジャイロスコープおよび/または加速度計など、1つまたは複数の慣性センサーを含み得る。ジャイロスコープは、1つの軸の周りの配向、または2つもしくは3つの(一般に直交)軸の各々の周りの配向の変化(たとえば、ピッチ、ロールおよび/またはツイストの変化)を検出するために角運動量(angular momentum)の原理を使用する。マイクロ電気機械システム(MEMS)デバイスとして作製され得るジャイロスコープの例には、振動ジャイロスコープ(vibratory gyroscopes)がある。加速度計は、1つの軸に沿った加速度、または2つもしくは3つの(一般に直交)軸の各々に沿った加速度を検出し、移動の方向を取り込むのに使うことができる。加速度計も、MEMSデバイスとして作製され得る。また、ジャイロスコープと加速度計とを単一のセンサーに組み合わせることが可能である。追加または代替として、配向センサーは、1つまたは複数の磁界センサー(たとえば、磁力計)を含み得、磁界センサーは、1つの軸に沿った磁界強度、または2つもしくは3つの(一般に直交)軸の各々に沿った磁界強度を測定する。一例では、コントローラは、(たとえば、地球の)磁気軸に対する、デバイスの現在の配向を示す磁界センサーを含む。
【0050】
[0096]シーン分析タスクTA10は、取り込まれたシーンを分析して、ジェスチャーの表現を生成する。取り込まれたシーンのそのような分析は、(たとえば、色による、および/または深度による)画像分割、皮膚色検出、および/またはバックグラウンド除去(background subtraction)など、1つまたは複数の画像分析動作を含み得る。シーン分析タスクTA10は、ビデオシーケンスの隣接し合うフレームの間の差分画像(difference images)の算出など、経時的な変化を検出するための1つまたは複数の動作も含み得る。
【0051】
[0097]タスクTA10は、特徴抽出および特徴分類など、分析されるシーンに対して1つまたは複数のサブタスクを実施するように実装され得る。特徴抽出は、取り込まれたシーンを分析して、ユーザの手、指、頭、顔、目、体、および/または肩などの対象領域(regions of interest)を検出し、突き止める(locate)ことを含み得る。そのような分析は、たとえば片手または各手の軌道、頭の回転および/または傾きなど、検出された特徴の配向および/または(たとえば、画像シーケンス内の)経時的な変化を識別することも含み得る。
【0052】
[0098]タスクTA10によるシーン分析は、1つまたは複数のモーメント(たとえば、Hu不変モーメント(Hu invariant moments))を算出すること、(たとえば、指先検出のために)k曲率(k-curvature)を算出すること、幾何学的形状記述子を算出すること、および/または領域を1組のテンプレートのうち1つまたは複数と突き合わせることなど、検出された領域の特徴づけも含み得る。そのような分析動作は、手の検出、指抽出のための凸包(convex hull)、コーナー検出、凸面検出(convexity detection)、体部分のラベルづけのための骨格登録、骨格モデルへのマッピング、および/または深度分割を含み得る。
【0053】
[0099]タスクTA10は、一致の測度(a measure of the match)(たとえば、類似性測度)が、候補依存であり得る閾値を上回る場合、特徴を、(たとえば、最大の類似性測度により)ジェスチャー特徴候補のセット中で最も近いものとして分類することなどの特徴分類を含み得る。特徴の1つまたは複数の側面は、たとえば、形状、位置(たとえば、ユーザの両手の、互いとの空間関係、ならびに/またはユーザの手とユーザの顔および/もしくは目との空間関係)、距離(たとえば、測距によって、および/または検出された特徴のサイズによって検出される)、配向(たとえば、手または頭の傾き、指す方向)、および平行移動(translation)(たとえば、左、右、上、および/または下への移動)のうちの1つまたは複数を含み得る。
図15は、ジェスチャー特徴候補の3つの例を示す。
【0054】
[00100]特徴検出は、過去および/または今後の取込みにも基づき得る。たとえば、タスクTA10は、隣接する取込みフレーム(a capture frame)内の近くのロケーションで同じ特徴が検出された場合、取込みフレーム内の特定の特徴の検出が、より見込みがあると見なされ得るように実装され得る。
【0055】
[00101]タスクTA10は、複数の候補ジェスチャー表現のうち1つまたは複数を選択することによって、ジェスチャー認識を実施するように実装され得る。そのようなジェスチャー認識は、一致の測度(たとえば、類似性測度)が、候補依存であり得る閾値を上回る場合、ジェスチャーを、(たとえば、最大の類似性測度により)ジェスチャー候補のセットの中で最も近いものとして分類することを含み得る。そのような分類は、シーンまたはフレーム内の個々の特徴からジェスチャー要素を認識するための、および/またはジェスチャー要素のシーケンスを経時的に認識するための、隠れマルコフモデルまたは他のパターン認識アルゴリズムに基づき得る。追加のアプリケーションは、ジェスチャー認識に応答して、(たとえば、音および/またはディスプレイアイコンによる)メニューナビゲーションおよび/またはユーザインターフェース・フィードバックのための複合ジェスチャー(たとえば、2つ以上のジェスチャーのシーケンス)を含み得る。
【0056】
[00102]タスクTA10は、ジェスチャーを、ジェスチャー要素のシーケンス(たとえば、検出された特徴)として認識するように実装され得る。そのようなシーケンスは、ジェスチャー要素の特定の移動も含み得る。上述したように、ハンドジェスチャーは、カメラで認識され、かつ/または超音波アレイで追跡され得る。たとえば、
図2A〜
図2Bに示すジェスチャーは、開いた掌を外に向けて上げた手(a raised open-palm-outward hand)(たとえば、ユーザの顔に対する、親指の内側の位置で示すことができる)のように見えるものとして、および/または、手のサイズが増し、かつ/もしくは手の距離が低下する、開いた掌を外に向けて上げた手のように見えるものとして、特徴づけることができる。手の動きの他の例には、時計回りまたは反時計回りの回転、横移動(lateral movement)、垂直移動(vertical movement)、センサーに向かう、またはセンサーから離れる移動、および両手の相対移動(たとえば、両手が同じ方向に動く、両手が互いの方に/から離れて動く)がある。手の形状の変化は、つかむことと、放すこととを含み得る。ジェスチャーは、(たとえば、ダイナミックレンジおよび/またはボリュームの制御のために)ユーザの頭の回転、およびユーザの頭の横の傾きのうち、少なくとも1つを含み得る。
【0057】
[00103]タスクTA10は、コンポーネントジェスチャー要素から、合成ジェスチャー(たとえば、経時的に提示される異なる要素のシーケンスを含むジェスチャー)を認識するように実装され得る。候補ジェスチャー表現のセットは、手を耳に(たとえば、一方の手を耳に、および他方の手を、上/下または内/外に動かして、ボリュームまたはダイナミックレンジの変化を示す)当てることを含むジェスチャーなど、両方の手、手と頭、および/または手と体のジェスチャーも含み得る。
【0058】
[00104]タスクTA10は、特定のジェスチャーを、要素の1つまたは複数の側面における経時的な変化と組み合わせた、ジェスチャー要素の初期状態の組合せとして検出するように実装され得る。観察結果(observations)のシーケンスをジェスチャー状態のシーケンス(たとえば、シーケンスの初期、中間、および最後の画像)と突き合わせるのに、隠れマルコフモデルが使われ得る。タスクTA10は、ジェスチャーシーケンスが指定期間(たとえば、2〜3秒)内に完了されたことを検証するために追跡を行うことを含み得る。
【0059】
[00105]表現されるべきジェスチャーのうち少なくともいくつかに対して、シーン分析動作(たとえば、タスクTA10)は、取り込まれたシーンから、関連付けられた量を抽出することを含み得る。たとえば、そのような動作は、ジェスチャー要素が(たとえば、センサーに対して)上/下、左右、および/または接近/後退方向に動く程度、または2つの動いているジェスチャー要素(たとえば、ユーザの両手)の間の初期の分離および/もしくは最終の分離の程度を量子化するように実装され得る。そのような定量化は、たとえば、対応する1つのアクションまたは複数のアクションの1つまたは複数のパラメータの各々についての値を決定することが望ましい場合がある。そのような量子化可能パラメータは、強調されるべき周波数範囲のボリューム、ロケーションおよび/または帯域幅、ビーム方向の変化、ビーム幅、ダイナミックレンジ拡張または圧縮、時間におけるエコー深度などを含み得る。
【0060】
[00106]そのようなパラメータ値は、(たとえば、タスクT400によって)ボリュームやダイナミックレンジなどのレベルを調整するように適用することができる。第1の例において、タスクTA10は、(たとえば、手の)初期位置に対する距離に従って、指示された量を判断する。そのようなハンドジェスチャーは、ベースレベルを確立するために手を止めることを含んでよく、タスクTA10は、ジェスチャーに関連した方向(たとえば、上/下、左/右、内/外)で、手の最終位置の距離を測定するように実装することができる。第2の例において、タスクTA10は、基準位置(a reference position)に対する距離に従って、指示された量を判断する。たとえば、ユーザの手の基準位置は、ユーザの頭に対して確立され得る。1つのそのような例において、顎レベルにある手は、範囲の中央値に関連付けられ、上限および下限は、それぞれ、そのレベルより約25〜30センチメートル上および下である。基準とのそのような関連付けは、他の構成パラメータにも使うことができる。たとえば、所望のビーム幅は、現在のビーム幅に関連付けられた、肩幅だけ離して置かれた両手(the hands held shoulder width apart)の基準位置に相対して示すことができる。
【0061】
[00107]あるいは、パラメータ(たとえば、ボリューム、ビーム幅、ダイナミックレンジ)の範囲は、ユーザの位置における推定された対応する距離として決定することができる。たとえば、タスクTA10は、両手の間の観測された距離または角度を、深度センサー(depth sensor)からの、両手の観測された距離と組み合わせて、ユーザの位置における両手の間の対応する距離を決定するように実装され得る。ユーザまでの距離は、たとえば頭または手のサイズ、肩幅(shoulder span)など、視覚的手がかり(visual cues)から推定することもできる。
【0062】
[00108]ジェスチャー解釈タスクT200によって生成されたコマンドに応答して、コマンド解釈タスクT300は、フィルタ構成を生成する。上述したように、たとえば、タスクT200によって生成されたコマンドの範囲は、次のうちどの1つまたは複数を含んでもよい。
【0063】
[00109](たとえば、方向制御可能なトランスデューサの軸に対して)指示された方向において音ビームを作成または消去する。
【0064】
[00110]音ビームの幅、ボリューム、ダイナミックレンジ、および/または(たとえば、方向制御可能なトランスデューサの軸に対して)方向を変化させる。
【0065】
[00111]周波数に対して音ビームのエネルギー分散(energy distribution)を変化させる(たとえば、等化または低音ブースティング)。
【0066】
[00112](たとえば、方向制御可能なトランスデューサの軸に対して)指示された方向の音ヌル(a sound null)を作成または消去する。
【0067】
[00113]音ヌルの幅、深度、および/または方向を(たとえば、方向制御可能なトランスデューサの軸に対して)変化させる。
【0068】
[00114]現在の音場構成をロックまたはアンロックする。
【0069】
[00115]追加または代替として、タスクT200は、ボリューム、周波数分散、および/またはダイナミックレンジの制御など、音場全体に適用されるべきコマンドを生成することができる。
【0070】
[00116]信号合成タスクT400は、フィルタ構成に基づく空間的指向性フィルタを入力信号に適用することによって、マルチチャネル信号を生成する。
図16は、タスクT400によって、入力信号SS10と、フィルタ構成の係数w
1〜w
Nのうち対応する1つとの積として、マルチチャネル信号MCS10の各チャネルMCS10−1〜MCS10−Nを生成するように構成された空間的指向性フィルタの周波数ドメイン実装形態SDF10のブロック図を示す。そのような乗算は、順次(すなわち、次々と)および/または並列に(すなわち、一度に2つ以上)実施することができる。
図17は、タスクT400によって、入力信号SS10およびフィルタ構成のフィルタ係数セットw
1〜w
Nの対応する1つの畳込み(a convolution)として、マルチチャネル信号MCS10の各チャネルMCS10−1〜MCS10−Nを生成するように構成された空間的指向性フィルタの均等時間ドメイン実装形態SDF20のブロック図を示す。
【0071】
[00117]マルチチャネル信号の各チャネルを発生するためのフィルタ構成に従って入力信号を重み付けおよび/または遅延することによって、タスクT400のそのような実装形態は、生成された音場の所望の空間分散を取得するのに使うことができる。たとえば、空間的指向性フィルタは、得られる音場の所望の方向に(たとえば、ビームの方向に)強め合う干渉を誘発するとともに、音場の他の方向に(たとえば、ビームの主ローブの外の方向に)弱め合う干渉を誘発するためのマルチチャネル信号を生成するように構成され得る。後で説明するように、タスクT400のそのような実装形態によって生成されたマルチチャネル信号は、トランスデューサを駆動して、所望の方向に集中された音響エネルギーのビームを作成するのに、および他の方向にビーム応答の谷間を作成するのに使うことができる。
【0072】
[00118]タスクT300は、マルチチャネル信号の各チャネルがそれぞれのフェーズ(すなわち、時間)遅延を有するようなフェーズドアレイ技法に従って、フィルタ構成を生成するように実装され得る。そのような技法の一例は、遅延和ビームフォーミング(a delay-sum beamforming)(DSB)フィルタである。そのようなケースでは、空間的指向性フィルタは、入力信号にそれぞれの時間遅延を適用して、信号MCS10の各チャネルを生成することによって、音場を所望の方向に向けるように構成され得る。均一間隔の線形拡声器アレイを駆動するのにマルチチャネル信号が使われるケースでは、たとえば、空間的指向性フィルタのチャネル係数w
1〜w
Nは、周波数ドメインにおけるDSBフィルタリング動作についての以下の式によって算出することができる。
【数1】
【0073】
1≦n≦Nであり、dは、アレイ中の隣接し合う拡声器の放射表面の中心の間の間隔であり、Nは、駆動されるべき拡声器の数(アレイ中の拡声器の数以下であり得る)であり、fは周波数ビンインデックスであり、cは音の速さであり、
【数2】
【0074】
は、アレイの軸に対する、ビームの所望の角度(たとえば、音場の主ローブの所望の方向)である。フィルタ構成の均等時間ドメイン実装形態の場合、要素w
1〜w
Nは、対応する遅延として実装され得る。いずれのドメインでも、タスクT400は、信号MCS10の各チャネルを1/Nだけ(by a factor of 1/N)スケーリングする(または、等価には、入力信号SS10を1/Nだけスケーリングする)ことによる、信号MCS10の正規化も含み得る。
【0075】
[00119]間隔dが波長λの半分に等しい周波数f
1について(λ=c/f
1の場合)、式(1)は、以下の式に帰着する。
【数3】
【0076】
図18A、
図18B、
図19A、および
図19Bは、4要素アレイ用の周波数f
1における、そのようなDSBフィルタの、方向に対する振幅特性(ビームパターンともいう)の例を示し、ここでフィルタの配向角(すなわち、各図の三角形で示される角度
【数4】
【0077】
)は、それぞれ、30、45、60、および75度である。
【0078】
[00120]
図18A、
図18B、
図19A、および
図19Bに示すフィルタビームパターンは、c/2d以外の周波数では異なり得ることに留意されたい。空間エイリアシング(spatial aliasing)を避けるために、入力信号の最大周波数をc/2dに制限する(すなわち、間隔dが、信号の最短波長の半分以下になるように)ことが望ましい場合がある。高周波数を含むソース成分を方向づけるために、より間隔が狭いアレイを使うことが望ましい場合がある。
【0079】
[00121]方向選択的トランスデューサ(a directionally selective transducer)の部分(たとえば、拡声器アレイのサブアレイ)が、異なる周波数範囲に対しては異なるように駆動され得るように、空間的指向性フィルタを適用して、複数のマルチチャネル信号を生成するように、タスクT400を実装することも可能である。そのような実装形態は、広帯域再現のためのより良好な指向性を提供し得る。1つのそのような例において、タスクT400は、c/4dの最大周波数に制限される入力信号の周波数帯から、(たとえば、空間的指向性フィルタのチャネルw
1〜w
Nの交互のもの(alternate ones)を使って)第2の、N/2チャネルのマルチチャネル信号を生成するように実装され、この第2のマルチチャネル信号は、拡声器アレイの交互の拡声器(alternate loudspeakers)(すなわち、2dの有効間隔を有するサブアレイ)を駆動するのに使われる。
【0080】
[00122]マルチチャネル信号のチャネルに、異なるそれぞれの重みを加えるようにフィルタ構成を実装することが望ましい場合がある。たとえば、フィルタ構成が、フィルタ係数に適用される空間ウィンドウイング関数(a spatial windowing function)を含むことが望ましい場合がある。空間ウィンドウイング関数の使用は、(たとえば、主ローブを広げることによって)副ローブの規模(sidelobe magnitude)と角度解像度の両方を削減する傾向がある。そのようなウィンドウイング関数の例には、限定なしで、三角および二乗余弦(triangular and raised cosine)(たとえば、HannまたはHamming)ウィンドウがある。
【0081】
[00123]一例では、タスクT300は、ソース空間的指向性フィルタの各チャネルの係数w
nが、空間ウィンドウイング関数のそれぞれの因子s
nを含むようなフィルタ構成を生成するように実装される。そのようなケースにおいて、式(1)および(2)は、それぞれ、以下の式に変更することができる。
【数5】
【数6】
【0082】
図20Aおよび
図20Bは、それぞれ、
図19Aおよび
図19Bの4要素DSBフィルタ用の周波数f
1におけるビームパターンの例を示し、そのような変更により、重みs
1〜s
4は、それぞれ、値(2/3、4/3、4/3、2/3)を有する。
【0083】
[00124]より多くの拡声器を有するアレイは、より多くの自由度を可能にし、一般に、より狭い主ローブを取得するのに使うことができる。
図21Aおよび
図21Bは、それぞれ、フィルタの配向角が30度および60度である、8要素アレイ向けのDSBフィルタのビームパターンの例を示す。
図22Aおよび
図22Bは、それぞれ、
図21Aおよび
図21Bの8要素DSBフィルタについてのビームパターンの例を示し、以下のHammingウィンドウイング関数によって定義される重みs
1〜s
8が、空間的指向性フィルタの対応するチャネルの係数に加えられる。
【数7】
【0084】
[00125]タスクT300は、セット(たとえば、あらかじめ算出されたビーム構成のセット)から適切な構成を選択することによって、(たとえば、上の式(1)〜(4)のうちいずれかによる)直接算出によって、および/または既存のフィルタ構成を変更することによって、フィルタ構成を生成するように実装され得る。特定のコマンド向けの適切なフィルタ構成は、システムの現在の状態またはコンテキストに依存して変わり得る。たとえば、タスクT300によって生成されるべき適切なフィルタ構成は、合成タスクT400によって空間的指向性フィルタに現在適用されているフィルタ構成に依存し得る。したがって、現在の音場構成のコンテキストにおいてコマンドを解釈して、生成するべき適切なフィルタ構成を決定するように、タスクT300を実装することが望ましい場合がある。
【0085】
[00126]現在のコンテキストは、ビームの現在の方向、幅、ボリューム、ダイナミックレンジ、および/または周波数分散などの側面を含み得る。現在のコンテキストの他の側面は、音場についてのボリューム、ダイナミックレンジ、および/または周波数分散の現在の全体的レベルと、ユーザのロケーション(たとえば、トランスデューサの軸に対する角度)と、場合によっては1人または複数の他のユーザの各々のロケーションとを含み得る。
【0086】
[00127]目標のユーザ環境の角度幅(angular span)を、いくつかの離散空間セクタ(discrete spatial sectors)としてモデル化することが望ましい場合がある。
図23Aおよび
図23Bは、拡声器アレイR10の前の空間が、それぞれ、3つの空間セクタおよび5つの空間セクタに分割される例を示す。そのようなモデルの他の例における空間セクタの総数は、4、6、7、8、9、およびそれ以上を含む。そのようなケースでは、タスクT300は、指示されたセクタに関連付けられたフィルタ構成を生成するように実装され得る。
【0087】
[00128]
図24は、9つのフィルタ構成からなるセットについてのビームパターンを示す。この図における各パターンについての尺度および配向は、
図18A〜
図22Bのパターンについてと同じであり、各パターンは、指示された角度で配向されるとともに拡声器の均一間隔の線形アレイを駆動する8チャネルDSBフィルタに対応する。目標の幅(target span)が、それぞれ、30、45、60、75、90、105、120、135、および150度を中心とする9つのセクタに分割される例の場合、タスクT300は、空間的指向性フィルタにおいて現在適用されているフィルタ構成に関して、これらのフィルタ構成のうち適切な1つを、「ビームを左に動かす」または「ビームを右に動かす」ためのコマンドに応答して生成するように構成され得る。
【0088】
[00129]タスクT200によって生成されたコマンドの範囲が、音ビームの幅を変えるためのコマンドを含むアプリケーションの場合、タスクT300は、
図23Cの例に示すテーブルを参照するように実装され得る。このテーブルにおいて、シンボル「↓↓」、「↓」、「↑」、および「↑↑」は、「ビーム幅を最小まで削減する」、「ビーム幅を削減する」、「ビーム幅を増大する」、および「ビーム幅を最大まで増大する」というコマンドを示す。空間的指向性フィルタにおいて現在適用されているフィルタ構成のビーム幅が狭いとき、タスクT300は、ビーム幅を削減するためのコマンドは無効である(invalid)と判断する。同様に、空間的指向性フィルタにおいて現在適用されているフィルタ構成のビーム幅が広いとき、タスクT300は、ビーム幅を増大するためのコマンドは無効であると判断する。無効コマンド(invalid commands)は、無視されてもよいし、または(たとえば、ディスプレイ画面上に)エラー指示をトリガしてもよい。他のケースでは、タスクT300は、空間的指向性フィルタにおいて現在適用されているフィルタ構成に関連付けられたビーム幅に対して、所望のビーム幅を与えるためのフィルタ構成を生成する。
【0089】
[00130]
図25は、6つのフィルタ構成からなるセットについてのビームパターンを示す。この図における各パターンについての尺度および配向は、
図18A〜
図22Bのパターンについてと同じである。パターンA〜Fの各々は、60度に配向されるとともに拡声器の均一間隔の線形アレイを駆動するDSBフィルタに対応し、パターンは、ビーム幅の昇順に並べられている(arranged in order of increasing beam width)。現在のビーム方向が60度である例の場合、タスクT300は、空間的指向性フィルタにおいて現在適用されているフィルタ構成に関して、これらのフィルタ構成のうち適切な1つを、ビーム幅を増大または低下するためのコマンドに応答して生成するように構成され得る。この特定の例において、パターンA〜Fは、それぞれ、8要素DSBフィルタ、三角ウィンドウをもつ8要素DSBフィルタ、Hammingウィンドウをもつ8要素DSBフィルタ、4要素DSBフィルタ(たとえば、8要素アレイの交互の拡声器を駆動するための)、三角ウィンドウをもつ4要素DSBフィルタ、およびHammingウィンドウをもつ4要素DSBフィルタに対応する。
【0090】
[00131]超指向性ビームフォーマアルゴリズム(a superdirective beamformer algorithm)に従って算出されたフィルタ構成を生成するように、タスクT300を実装することが望ましい場合があり、このアルゴリズムは、所望の方向の利得を最大限にし、他のすべての方向にわたる平均利得を最小限にする。超指向性ビームフォーマの例には、最小分散無ひずみ応答(the minimum variance distortionless response)(MVDR)ビームフォーマ(相互共分散行列(cross-covariance matrix))、および線形制約最小分散(the linearly constrained minimum variance)(LCMV)ビームフォーマがある。汎用サイドローブキャンセラ(generalized sidelobe canceller)(GSC)技法など、他の固定または適応ビームフォーミング技法も、タスクT300によって生成されたフィルタ構成のうち1つまたは複数を算出するのに使うことができる。
【0091】
[00132]MVDRビームフォーマの設計目標は、W
Hd=1を条件とするmin
WW
HΦ
XXWという制約で、出力信号電力を最小限にすることであり、ここでWはフィルタ係数行列を示し、Φ
XXは、拡声器信号の、正規化された相互電力スペクトル密度行列(the normalized cross-power spectral density matrix)を示し、dはステアリングベクトルを示す。そのようなビーム設計は、
【数8】
【0092】
と表すことができ、ここでd
Tは、
【数9】
【0093】
と表すことができる線形アレイについての遠距離場のモデル(a farfield model)であり、Γv
nv
mは、その対角線要素が1であり、
【数10】
【0094】
と表すことができるコヒーレンス行列(a coherence matrix)である。
これらの等式において、μは正則化パラメータ(a regularization parameter)(たとえば、安定因数(a stability factor))を示し、θ
0はビーム方向を示し、f
sはサンプリングレートを示し、Ωは信号の角度周波数(angular frequency)を示し、cは音の速度を示し、lは、隣接し合う拡声器の放射表面の中心の間の距離を示し、l
nmは、拡声器nおよびmの放射表面の中心の間の距離を示し、Φ
VVは、雑音の、正規化された相互電力スペクトル密度行列を示し、σ
2はトランスデューサ雑音電力を示す。
【0095】
[00133]タスクT300およびT400は、均一間隔をもつ線形拡声器アレイ、均一でない間隔をもつ線形拡声器アレイ、または2つ以上の軸を有するアレイなど、非線形(たとえば、成形した)アレイを駆動するのに使用するためのマルチチャネル信号を生成するように実装され得る。これらのタスクは、たとえば、波面伝播のHuygens原理に基づく波動場合成(a wave field synthesis)(WFS)技法など、他の方向場発生原理(other directional field generation principles)に従って実装することもできる。
【0096】
[00134]拡声器アレイが非線形であり、不均一な間隔を有し、かつ/または2つ以上の軸を有する実装形態の場合、フィルタ係数値を算出するのに、ペアをなすビームフォーミングヌル形成(a pairwise beamforming-nullforming)(BFNF)構成を使うようにタスクT300を実装することが望ましい場合がある。そのような技法は、係数をペアごとに計算し、拡声器は2つ以上の異なるペアの間で共有され得る。
図26A〜
図27の方法は、各周波数ビンにおいて別個に適用することができるBFNF技法を実証する。
【0097】
[00135]この場合、
図26Aに示すように、ステアリングベクトルを各ペアに対して拡大し、ここでλは条件づけ因子(a conditioning factor)である。拡声器番号m(ペアの中で1または2)、周波数f、ビーム方向θ
iに対するソースnおよびペアpについてのステアリングベクトルの各要素は、
【数11】
【0098】
と算出することができ、ここでl
pは、ペアpの拡声器の間の距離を示し、ωは周波数ビン数を示し、f
sはサンプリング周波数を示す。(この特定の例は、3つの音場のサポートも示し、各音場は、異なる入力オーディオ信号に基づくとともに異なる方向に集中され、本明細書に記載するジェスチャー制御を、異なるユーザ向けに別個にサポートするのに使うことができる。)
図26Aに示す擬似逆演算(a pseudo-inverse operation)を使うことにより、非正方行列の使用が可能になる。
図26Bに示した3つの拡声器のケース(すなわち、2つの拡声器ペア)の場合、たとえば、追加行により行列が非正方となるような、3ではなく2*2=4という行数(the number of rows 2*2=4 instead of 3)である。この手法は堅牢な1−D DOA推定に基づくので、アレイジオメトリ(array geometry)の完全な知識は要求されず、すべての拡声器を同時に使う音場方向推定(sound field direction estimation)も要求されない。
図26Cは、(たとえば、空間エイリアシング周波数における悪い状態の反転(an ill-conditioned inversion)を防止するために)正規化も含む、
図26Aに示すBFNFの例を示す。
【0099】
[00136]
図27は、ステアリングベクトル(アレイ多様体ベクトル)が取得される方法が従来の手法とは異なる、ペアごとの正規化された(pair-wise normalized)MVDR(最小分散無ひずみ応答)BFNFの例を示す。この場合、共通チャネルは、2つのペアの間での拡声器の共有により、排除される(eliminated)。雑音コヒーレンス行列Γは、測定によっても、またはシンク関数(a sinc function)を使う論理的算出によっても取得され得る。
【0100】
[00137]方法M100は、初期のジェスチャー(たとえば、つかむ、開いた手を回転させる)および/またはジェスチャー制御モードに入るための音声コマンドの認識を含むように実装され得る。方法M100は、ユーザ識別および/または位置特定のために顔および/または音声認識を含むように実装され得る。方法M100は、タスクT200によって生成されたコマンドについてのフィードバック(たとえば、ビーム強度、ビーム方向、ビーム幅、ダイナミックレンジなどの変化を表示するためのバーまたはダイヤル)を与えるためのオンスクリーンのディスプレイ(on-screen display)(OSD)能力を含み得る。
【0101】
[00138]方法M100は、マスキング信号を発生することを含むように実装され得る。そのようなマスキングは、たとえば、音遮断ジェスチャー(a sound-blocking gesture)とともに、遮断された音を不明瞭にするのに、またはビーム集束化ジェスチャー(a beam-focusing gesture)とともに、他の方向の音をマスキングするのに使うことができる。マスキング信号は、白色雑音またはピンク雑音信号などの雑音信号であり得る。あるいは、マスキング信号は、バブル雑音信号(a babble noise signal)など、周波数特性が時間とともに変わる音楽信号または雑音信号でもよい。そのような代替マスキング信号の使用は、白色またはピンク雑音信号よりも、居合わせた人を比較的いらつかせず、および/またはユーザにとって比較的気が散るものではない可能性がある。
【0102】
[00139]ビーム集束化ジェスチャーの場合、方法M100は、ユーザの方向以外の方向での音場のスペクトルが雑音のよう(noise-like)(たとえば、ほぼ白色)であるような音場を生成することが望ましい場合がある。たとえば、マスキング成分のスペクトルが、ソース成分のスペクトルを補完することが望ましい場合がある。
【0103】
[00140]マスキング音場(a masking sound field)(やはり指向性(directional)であり得る)の発生を含むアプリケーションの場合、ジェスチャーは、マスキング場の1つまたは複数の側面(たとえば、マスキング音場の作成、消去、方向制御、レベル制御、および/または品質管理)を制御するための応答にも関連付けられ得る。
【0104】
[00141]発生された音場は、2つ以上のビーム(たとえば、2つ以上の発生された音場の重ね合わせ)を含み得る。たとえば、方法M100のインスタンスは、これらのインスタンスによって生成されたそれぞれのマルチチャネル信号が同じトランスデューサを駆動するのに使われるように、2人以上のユーザの各々に対して実施することができる。
【0105】
[00142]
図28Aは、オーディオ出力段AO10と、ジェスチャーインタープリタGI10と、コマンドインタープリタCI10と、シンセサイザSY10とを含む、一般的構成による装置A100のブロック図を示す。オーディオ出力段AO10は、(たとえば、タスクT100を参照して本明細書に記載したように)方向制御可能なトランスデューサを駆動してビームを生成するように構成される。ジェスチャーインタープリタGI10は、(たとえば、タスクT200を参照して本明細書に記載したように)ジェスチャーの表現に応答してコマンドを生成するように構成される。コマンドインタープリタCI10は、(たとえば、タスクT300を参照して本明細書に記載したように)コマンドに応答してフィルタ構成を生成するように構成される。シンセサイザSY10は、(たとえば、タスクT400を参照して本明細書に記載したように)入力信号に空間的指向性フィルタを適用して、マルチチャネル信号を生成するように構成され、空間的指向性フィルタはフィルタ構成に基づく。
【0106】
[00143]ジェスチャーインタープリタGI10は、ジェスチャー表現を、本明細書に記載したように、ジェスチャー表現を対応するコマンドに関連付けるテーブルへのインデックスとして使うように実装され得る。ジェスチャー表現のうち少なくともいくつかには、本明細書に記載するように、指示された変化を量子化するパラメータ値が伴い得る。以下のジェスチャーのうちどれに対しても、たとえば、ジェスチャーインタープリタGI10は、対応するコマンドの1つまたは複数のパラメータについての関連付けられた値を受信するように実装することができ、すなわち、音遮断ジェスチャーの場合は、遮断する方向および/または減衰の程度であり、ミューティング・ジェスチャー(muting gesture)の場合は減衰の程度であり、ビーム方向転換ジェスチャーの場合は目的地方向および/またはビーム幅であり、ビーム集束ジェスチャーの場合はビーム幅であり、手の上げ/下げジェスチャーの場合は減衰または増幅の程度、増大または減衰するべき周波数帯であり、圧縮/拡張ジェスチャーの場合は圧縮または拡張の程度である。
【0107】
[00144]装置A100は、認識されたジェスチャーによって示される2つ以上の固定選択肢から自動的に選択される方向に音場が集中されるように実装され得る。たとえば、装置A100は、左ゾーン、中心ゾーン、および右ゾーンのうち1つに対応する方向に音場が集中されるように実装され得る。そのようなケースでは、装置A100は、選択されるべき各方向についての1組の因子(たとえば、フィルタ係数)を含むフィルタ構成が、コマンドインタープリタCI10によって選択し、ランタイムにシンセサイザSY10によってソース信号に適用するために、オフラインで(たとえば、設計および/または製造中に)算出されるように実装され得る。そのようなケースにおける左、中心、および右ゾーンについての対応するそれぞれの方向の一例は、(45、90、135)度である。他の例は、限定なしで、(30、90、150)および(60、90、120)度を含む。
図23Aおよび
図23Bはそれぞれ、3つおよび5つの選択可能な固定空間セクタを有する方式の例を示す。コマンドインタープリタCI10のそのような実装形態は、推定されたユーザ範囲に従って、選択された方向についての異なるソースビーム幅から選択をするように構成され得る。たとえば、ユーザがアレイからより離れているとき、より細いビームが選択されてよい(たとえば、異なる範囲におけるユーザの位置において、同様のビーム幅を取得するために)。
【0108】
[00145]
図28Bは、シーンアナライザSA10を含む装置A100の実装形態A110のブロック図を示す。シーンアナライザSA10は、(たとえば、タスクTA10を参照して本明細書に記載したように)取り込まれたシーンを分析して、ジェスチャーの表現を生成するように構成される。たとえば、シーンアナライザSA10は、画像分割、皮膚色検出、および/またはバックグラウンド除去など、取り込まれたシーンに対して1つもしくは複数の画像分析動作、および/またはビデオシーケンスの隣接し合うフレームの間の差分画像の算出など、経時的な変化を検出するための1つもしくは複数の動作を実施するように実装され得る。
【0109】
[00146]シーンアナライザSA10は、本明細書に記載した特徴抽出および/または分類など、1つまたは複数のタスクを、分析されるシーンに対して実施するように実装され得る。シーンアナライザSA10は、本明細書に記載するように、特定のジェスチャーを、要素の1つまたは複数の側面における経時的な変化と組み合わせた、ジェスチャー要素の初期状態の組合せとして検出するように実装され得る。シーンアナライザSA10は、ジェスチャーを、本明細書に記載したジェスチャー候補のセットのうち、最も近いものとして分類するように実装され得る。
【0110】
[00147]
図28Cは、(たとえば、タスクTC10を参照して本明細書に記載したように)ジェスチャーを含むシーンを取り込む取込みデバイスCD10を含む、装置A110の実装形態A120のブロック図を示す。取込みデバイスCD10は、音場が生成されたシーン中の、時間に伴う変化(たとえば、動き)を記録するように構成および配置される。上述したように、そのようなデバイスは、限定なしで、1つもしくは複数の可視光および/もしくは赤外線カメラ、1つもしくは複数の超音波トランスデューサ、ならびに/または1つもしくは複数の構造化光スキャナを含み得る。一例では、取込みデバイスCD10は、ポータブル・コンピュータ(たとえば、ラップトップ、デスクトップ、ノートブック、またはタブレットコンピュータ)のウェブカムを含む。別の例では、取込みデバイスCD10は、スマートフォンのカメラを含む。
【0111】
[00148]
図28Dは、拡声器アレイR10を含む、装置A100の実装形態A105のブロック図を示す。この例では、オーディオ出力段AO10は、シンセサイザSY10によって生成されたマルチチャネル信号の対応するチャネルに基づいて、拡声器アレイR10(または別の方向選択的トランスデューサ)を駆動するための駆動信号を生成するようにも配置される。
【0112】
[00149]シンセサイザSY10は、1つまたは複数の他のオーディオ処理動作を入力信号に対して実施して、駆動信号を生成するようにも実装され得る。そのような動作は、チャネルのうち1つまたは複数(場合によっては、すべて)を増幅および/またはフィルタリングすることを含み得る。同様に、マルチチャネル信号に逆フィルタを適用して、異なる周波数におけるアレイ応答の違いを補償するように、オーディオ出力段AO10を実装すること、および/またはアレイの様々な拡声器の応答の間の違いを補償するように、オーディオ出力段AO10を実装することが望ましい場合がある。代替または追加として、拡声器アレイに(および/または拡声器アレイにつながるオーディオ周波数送信経路に)一致するインピーダンスを与える(provide impedance matching to)ように、オーディオ出力段AO10を実装することが望ましい場合がある。
【0113】
[00150]いくつかのジェスチャーの場合、装置A100が、空間的に焦点を合わせて、パラメータ(たとえば、ボリューム、ダイナミックレンジ、および/または周波数分散)を調整することが望ましい場合がある。他のジェスチャーの場合、装置A100が、そのようなパラメータを音場全体にわたって調整することが望ましい場合がある。
図23Dは、そのような調整を、グローバルにおよび局所的にサポートするのに使うことができるシンセサイザSY10の実装形態SY20のブロック図を示す。シンセサイザSY20は、入力オーディオ信号の1つまたは複数のパラメータ(たとえば、ボリューム、ダイナミックレンジ、周波数分散)を調整するように構成されたシングルチャネルフィルタSCF10を含む。そのような調整は、コマンドインタープリタCI10によって与えられる構成(たとえば、1つまたは複数のフィルタ係数)に従って実施することができる。シンセサイザSY20は、本明細書に記載する空間的指向性フィルタSDF10(またはSDF20)のインスタンスも含み、これは、フィルタSCF10によって生成された信号を受信し、(たとえば、タスクT400を参照して)本明細書に記載したように、対応するマルチチャネル駆動信号を生成する。
【0114】
[00151]
図29Aは、一般的構成による装置MF100のブロック図を示す。装置MF100は、(たとえば、タスクT100を参照して本明細書に記載したように)方向制御可能なトランスデューサを駆動して、ビームを生成するための手段F100を含む。装置MF100は、(たとえば、タスクT200を参照して本明細書に記載したように)ジェスチャーの表現に応答してコマンドを生成するための手段F200も含み、ジェスチャーは、ビームの方向およびビームの幅のうち少なくとも1つにおける変化を指示し、コマンドは、指示された変化を実施するためのコマンドである。装置MF100は、(たとえば、タスクT300を参照して本明細書に記載したように)前記コマンドに応答してフィルタ構成を生成するための手段F300も含む。装置MF100は、(たとえば、タスクT400を参照して本明細書に記載したように)空間的指向性フィルタリング動作を入力信号に対して実施して、マルチチャネル信号を生成するための手段F400も含み、空間的指向性フィルタリング動作はフィルタ構成に基づく。
【0115】
[00152]
図29Bは、(たとえば、タスクTA10を参照して本明細書に記載したように)取り込まれたシーンを分析して、ジェスチャー表現を生成するための手段FA100を含む装置MF100の実装形態MF110のブロック図を示す。
図29Bは、(たとえば、タスクTC10を参照して本明細書に記載したように)ジェスチャーを含むシーンを取り込むための手段FC100を含む、装置MF110の実装形態MF120のブロック図を示す。
【0116】
[00153]本明細書に記載した原理は、(たとえば、
図1C、
図1D、および
図30Aに示すような)拡声器の均一な線形アレイとの使用に限定されないことを明白に指摘しておく。たとえば、指向性マスキング(directional masking)は、隣接し合う拡声器の間の均一でない間隔を有する線形アレイとも使うことができる。
図30Bは、拡声器の間の対称的なオクターブ間隔を有する、そのようなアレイの一例を示し、
図30Cは、非対称なオクターブ間隔を有するそのようなアレイの別の例を示す。さらに、そのような原理は、線形アレイとの使用に限定されるのではなく、均一間隔(たとえば、
図30Dに示すように)であってもまたは均一でない(たとえば、オクターブ)間隔であっても、単純曲線に沿って要素が配置されるアレイとも使うことができる。本明細書において述べた同じ原理は、同じまたは異なる(たとえば、直交)直線または曲線軸に沿って複数のアレイを有するアプリケーションにおける各アレイにも別々に当てはまる。
【0117】
[00154]
図31Bは、装置A100の実装形態によって駆動されるべき拡声器LSL10−LSR10のアレイの例を示す。この例では、アレイは、ディスプレイデバイスTV10(たとえば、テレビまたはコンピュータモニタ)のディスプレイ画面SC20の下に配置される。
図31Cは、そのようなディスプレイデバイスTV20のディスプレイ画面SC20の両側にあるアレイLSL10−LSR10の例を示す。
図31Aは、装置A100の実装形態によって駆動される3つの拡声器LS10、LS20、LS30からなるアレイを含むラップトップコンピュータD710を示す。
図31Aに示すラップトップコンピュータD710は、(たとえば、下部パネルPL20のキーボードの後ろおよび/もしくは横に、ならびに/または上部パネルPL10のディスプレイ画面SC10のマージンに)そのようなアレイを含むようにも構成され得る。そのような拡声器アレイはまた、1つまたは複数の別個のキャビネットで囲まれるか、または自動車などの車両の内部に設置され得る。
【0118】
[00155]線形アレイの例では、正面方向においてゼロ度に向けられた主ビームは、後ろ方向(たとえば、180度)でも聞き取れると予想され得る。そのような現象は、拡声器またはマイクロフォンからなる線形アレイのコンテキストに共通であり、「混乱の円錐」問題(a “cone of confusion” problem)とも呼ばれる。
【0119】
[00156]180度の範囲での指向性音場発生(directional sound field generation)の特定の例が示されているが、本明細書に記載した原理は、平面での(たとえば、2次元での)どの所望の角度範囲にわたる指向性も与えるように拡張することができる。そのような拡張は、適切に置かれた拡声器をアレイに追加することを含み得る。たとえば、前後方向でもマスクするための前後のアレイを(a front-back array)提供するように、アレイに拡声器を追加することが望ましい場合がある。
図32Aおよび
図32Bは、それぞれ、そのような拡張アレイ(an expanded array)の、2つの例RL200およびRL250の平面図を示す。
【0120】
[00157]そのような原理は、空間(3D)におけるどの所望の角度範囲にわたる指向性マスキングを提供するように拡張することもできる。
図32Cおよび
図33は、それぞれ、左右と上下方向の両方で指向性マスキングを提供するのに使うことができる、2つのアレイRL300およびRL400の正面図を示す。さらなる例としては、(たとえば、4*パイのラジアン(4*pi radians)という、完全なプライバシーゾーンのために)360度までの範囲での指向性マスキングのための球面のまたは他の3Dアレイがある。
【0121】
[00158]ブロードバンド信号のための空間パターンを生成するのに、ビームフォーミング技法が使われるとき、トランスデューサアレイジオメトリ(the transducer array geometry)の選択は、低周波数と高周波数との間のトレードオフを伴う。ビームフォーマによる低周波数の直接ハンドリングを強調するために、比較的大きい拡声器間隔が好まれる。同時に、拡声器の間の間隔が大きすぎる場合、高周波数で所望の効果を再現するためのアレイの能力は、より低いエイリアシング閾値によって制限される。空間エイリアシングを避けるために、アレイによって再現されるべき最も高い周波数成分の波長は、隣接し合う拡声器の間の距離の2倍よりも大きくなるべきである。
【0122】
[00159]消費者デバイスがますます小さくなると、形状因子(the form factor)は、拡声器アレイの配置に制約を課し得る。たとえば、ラップトップ、ネットブック、もしくはタブレットコンピュータまたは高解像度ビデオディスプレイは、内蔵型拡声器アレイを有することが望ましい場合がある。サイズの制約により、拡声器は、小さくなり、所望の低音領域を再現することができなくなる可能性がある。あるいは、低音領域を再現するのに十分大きいように円錐距離が増加した拡声器が使われてもよい。ただし、小さい形状因子デバイスでは、そのような物理的により大きい拡声器は、依然として間隔があまりにも密であり、低周波数でのビームフォーミングまたは他の音響撮像をサポートすることができない。さらに、これらのより大きい拡声器の円錐距離の増大により、実際には高周波数成分に対するビームフォーミング品質が低下し得る。したがって、ビームフォーミングが利用される、間隔が狭い拡声器アレイにおいて低音信号を生成するための処理を提供することが望ましい場合がある。
【0123】
[00160]信号の比較的高い高調波(higher harmonics)をリッスンすると、失われた基底音(the missing fundamentals)を聞いている錯覚が生じ得るという、音響心理現象が存在する。したがって、小さい拡声器から低音成分の感覚を達成する1つのやり方は、低音成分から比較的高い高調波を発生し、実際の低音成分ではなく高調波をプレイバックすることである。比較的高い高調波に代えて、実際の低周波数信号が存在しない低音の音響心理感覚(「心理音響的低音強調(psychoacoustic bass enhancement)」、すなわちPBEともいう)を達成するためのアルゴリズムの記載は、たとえば、米国特許第5,930,373号(Shashouaら、1999年7月27日発行)ならびに米国特許出願公開第2006/0159283A1号(Mathewら、2006年7月20日公開)、第2009/0147963A1号(Smith、2009年6月11日公開)、および第2010/0158272A1号(Vickers、2010年6月24日公開)に見ることができる。そのような強調は、統合された1つの拡声器または複数の拡声器を、物理的に小さくなるように制限する形状因子を有するデバイスで、低周波数音を再現するために特に有用であり得る。
【0124】
[00161]
図34は、PBE処理の前後の音楽信号の周波数スペクトルの例を示す。この図において、背景(黒い)領域および約200〜500Hzにおいて可視的な線は、元の信号を示し、前景(白い)領域は、強調された信号を示す。低周波数帯(たとえば、200Hzを下回る)では、PBE動作は、実際の低音の10dB前後で減衰することがわかり得る。ただし、約200Hz〜600Hzにある強調された比較的高い高調波により、強調された音楽信号は、小さいスピーカを使って再現されると、元の信号よりも多くの低音を有するものと認知される。
【0125】
[00162]低周波数の再現許容限界(low-frequency reproducibility limits)の影響を低下させるだけではなく、低周波数での指向性損失の影響を低下させるのにも、PBEを適用することが望ましい場合がある。たとえば、PBEをビームフォーミングと組み合わせて、ビームフォーマによってステアリング可能な範囲での低周波数コンテンツの認知を生じることが望ましい場合がある。強調された信号から、指向性ビームを生成するのに拡声器アレイを使用すると、そのような強調のないオーディオ信号からの出力よりもはるかに低い認知された周波数範囲を有する出力が得られる。さらに、強調された信号をステアリングするのに、より緩和されたビームフォーマ設計を使うことが可能になり、この設計は、アーティファクト(artifacts)および/または計算の複雑度の低減をサポートし、小さい拡声器からなるアレイでの低音成分のより効率的なステアリングを可能にすることができる。同時に、そのようなシステムは、小さい拡声器を、低周波数信号による損傷(damage)(たとえば、ガラガラ音(rumble))から保護することができる。本明細書に記載するジェスチャーによる音場制御と組み合わせることができる、そのような強調技法の追加記述は、たとえば、「SYSTEMS,METHODS,AND APPARATUS FOR ENHANCED ACOUSTIC IMAGING」と題する米国特許出願公開第2012/0020480A1号(Visserら、2012年1月26日公開)に見ることができる。
【0126】
[00163]本明細書で開示した方法および装置は、概して任意の送受信および/またはオーディオ感知適用例において適用され、そのような適用例のモバイルまたは場合によってはポータブルインスタンスを含み、かつ/または遠距離場の音源からの信号成分を感知し得る。たとえば、本明細書で開示した構成の範囲は、符号分割多元接続(CDMA)無線インターフェース(over-the-air interface)を採用するように構成されたワイヤレス・テレフォニー通信システム中に常駐する通信デバイスを含む。とはいえ、本明細書で説明した特徴を有する方法および装置は、ワイヤードおよび/またはワイヤレス(たとえば、CDMA、TDMA、FDMA、および/またはTD−SCDMA)送信チャネルを介したボイス・オーバIP(VoIP)を採用するシステムなど、当業者に知られている広範囲の技術を採用する様々な通信システムのいずれにも常駐し得ることが、当業者には理解されよう。
【0127】
[00164]本明細書で開示した通信デバイスは、パケット交換式であるネットワーク(たとえば、VoIPなどのプロトコルに従ってオーディオ送信を搬送するように構成されたワイヤードおよび/またはワイヤレスネットワーク)および/または回線交換式であるネットワークにおける使用に適応し得ることが明確に企図され、本明細書によって開示される。また、本明細書で開示した通信デバイスは、狭帯域コーディングシステム(たとえば、約4または5キロヘルツの可聴周波数レンジを符号化するシステム)での使用、および/または全帯域の広帯域コーディングシステムおよびスプリットバンド(split-band)の広帯域コーディングシステムを含む、広帯域コーディングシステム(たとえば、5キロヘルツを超える可聴周波数を符号化するシステム)での使用に適応され得ることが明確に企図され、本明細書によって開示される。
【0128】
[00165]説明した構成の前述の提示は、本明細書で開示する方法および他の構造を当業者が製作または使用できるように与えたものである。本明細書で図示および説明したフローチャート、ブロック図、および他の構造は例にすぎず、これらの構造の他の変形形態も本開示の範囲内である。これらの構成に対する様々な変更が可能であり、本明細書で提示した一般原理は他の構成にも同様に適用され得る。したがって、本開示は、上記に示した構成に限定されるものではなく、原開示の一部をなす、出願した添付の特許請求の範囲を含む、本明細書において任意の方法で開示した原理および新規の特徴に一致する最も広い範囲が与えられるべきである。
【0129】
[00166]情報および信号は、多種多様な技術および技法のいずれかを使用して表され得ることを当業者なら理解されよう。たとえば、上記の説明全体にわたって言及され得るデータ、命令、コマンド、情報、信号、ビット、およびシンボルは、電圧、電流、電磁波、磁界もしくは磁性粒子、光場もしくは光学粒子、またはそれらの任意の組合せによって表され得る。
【0130】
[00167]本明細書で開示した構成の実装形態の重要な設計要件は、圧縮されたオーディオまたはオーディオビジュアル情報(たとえば、本明細書で識別される例のうちの1つなど、圧縮形式に従って符号化されるファイルまたはストリーム)の再生などの計算集約的適用例、または広帯域通信(たとえば、12、16、32、44.1、48、または192kHzなど、8キロヘルツよりも高いサンプリングレートにおける音声通信)の適用例では特に、(一般に百万命令毎秒またはMIPSで測定される)処理遅延および/または計算複雑さを最小にすることを含み得る。
【0131】
[00168]本明細書で開示した装置(たとえば、装置A100、A105、A110、A120、MF100、MF110、およびMF120)は、意図された適用例に好適と見なされる、ハードウェアと、ソフトウェアとの、および/またはファームウェアとの任意の組合せで実装され得る。たとえば、そのような装置の要素は、たとえば、同じチップ上に、またはチップセット中の2つ以上のチップ間に常駐する電子デバイスおよび/または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたは論理ゲートなどの論理要素の固定アレイまたはプログラマブルアレイであり、これらの要素のいずれも1つまたは複数のそのようなアレイとして実装され得る。これらの装置の要素のうちの任意の2つ以上、またはさらにはすべてが、同じ1つまたは複数のアレイ内に実装され得る。そのような1つまたは複数のアレイは、1つまたは複数のチップ内(たとえば、2つ以上のチップを含むチップセット内)に実装され得る。
【0132】
[00169]本明細書で開示した装置の様々な実装形態の1つまたは複数の要素は、全体または一部を、マイクロプロセッサ、組込みプロセッサ、IPコア、デジタル信号プロセッサ、FPGA(フィールドプログラマブルゲートアレイ)、ASSP(特定用途向け標準製品)、およびASIC(特定用途向け集積回路)などの論理要素の1つまたは複数の固定アレイまたはプログラマブルアレイ上で実行するように構成された命令の1つまたは複数のセットとしても実装され得る。本明細書で開示した装置の実装形態の様々な要素のいずれも、1つまたは複数のコンピュータ(たとえば、「プロセッサ」とも呼ばれる、命令の1つまたは複数のセットまたはシーケンスを実行するようにプログラムされた1つまたは複数のアレイを含む機械)としても実施され得、これらの要素のうちの任意の2つ以上、またはさらにはすべてが、同じそのような1つまたは複数のコンピュータ内に実装され得る。
【0133】
[00170]本明細書で開示したプロセッサまたは処理するための他の手段は、たとえば、同じチップ上に、またはチップセット中の2つ以上のチップ間に常駐する1つまたは複数の電子デバイスおよび/または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたは論理ゲートなどの論理要素の固定アレイまたはプログラマブルアレイであり、これらの要素のいずれも1つまたは複数のそのようなアレイとして実装され得る。そのような1つまたは複数のアレイは、1つまたは複数のチップ内(たとえば、2つ以上のチップを含むチップセット内)に実装され得る。そのようなアレイの例には、マイクロプロセッサ、組込みプロセッサ、IPコア、DSP、FPGA、ASSP、およびASICなど、論理要素の固定アレイまたはプログラマブルアレイがある。本明細書で開示されるプロセッサまたは処理するための他の手段は、1つまたは複数のコンピュータ(たとえば、命令の1つまたは複数のセットまたはシーケンスを実行するようにプログラムされた1つまたは複数のアレイを含む機械)、または他のプロセッサとしても実装され得る。本明細書で説明したプロセッサは、プロセッサが組み込まれているデバイスまたはシステム(たとえば、オーディオ感知デバイス)の別の動作に関係するタスクなど、本明細書で説明したジェスチャー制御手順に直接関係しないタスクを実施するかまたは命令の他のセットを実行するために使用することが可能である。また、本明細書で開示した方法の一部はオーディオ感知デバイスのプロセッサによって実施され、その方法の別の一部は1つまたは複数の他のプロセッサの制御下で実施されることが可能である。
【0134】
[00171]本明細書で開示される構成に関して説明した様々な例示的なモジュール、論理ブロック、回路、およびテストならびに他の動作は、電子ハードウェア、コンピュータソフトウェア、またはその両方の組合せとして実装され得ることが、当業者には諒解されよう。そのようなモジュール、論理ブロック、回路、および動作は、本明細書で開示した構成を生成するように設計された、汎用プロセッサ、デジタル信号プロセッサ(DSP)、ASICもしくはASSP、FPGAもしくは他のプログラマブル論理デバイス、個別ゲートもしくはトランジスタ論理、個別ハードウェア構成要素、またはそれらの任意の組合せを用いて実装または実施され得る。たとえば、そのような構成は、少なくとも部分的に、ハードワイヤード回路として、特定用途向け集積回路へと作製された回路構成として、または不揮発性記憶装置にロードされるファームウェアプログラム、もしくは汎用プロセッサまたは他のデジタル信号処理ユニットなどの論理要素のアレイによって実行可能な命令である機械可読コードとしてデータ記憶媒体からロードされるかまたはデータ記憶媒体にロードされるソフトウェアプログラムとして実装され得る。汎用プロセッサはマイクロプロセッサであり得るが、代替として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であり得る。プロセッサは、コンピューティングデバイスの組合せ、たとえば、DSPとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、DSPコアと連携する1つもしくは複数のマイクロプロセッサ、または任意の他のそのような構成として実装することもできる。ソフトウェアモジュールは、RAM(ランダムアクセスメモリ)、ROM(読取り専用メモリ)、フラッシュRAMなどの不揮発性RAM(NVRAM)、消去可能プログラマブルROM(EPROM)、電気的消去可能プログラマブルROM(EEPROM(登録商標))、レジスタ、ハードディスク、リムーバブルディスク、またはCD−ROMなど、非一時的記憶媒体中に、または当技術分野で知られている任意の他の形態の記憶媒体中に常駐し得る。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、かつ記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替として、記憶媒体はプロセッサと一体であってもよい。プロセッサおよび記憶媒体はASIC中に常駐し得る。ASICはユーザ端末内に常駐し得る。代替として、プロセッサおよび記憶媒体は、ユーザ端末内に個別構成要素として常駐することもできる。
【0135】
[00172]本明細書で開示した様々な方法(たとえば、方法M100、M110、M120、およびそれらの実装形態)は、プロセッサなどの論理要素のアレイによって実施され得、本明細書で説明した装置の様々な要素は、そのようなアレイ上で実行するように設計されたモジュールとして実装され得ることに留意されたい。本明細書で使用する「モジュール」または「サブモジュール」という用語は、ソフトウェア、ハードウェアまたはファームウェアの形態でコンピュータ命令(たとえば、論理式)を含む任意の方法、装置、デバイス、ユニットまたはコンピュータ可読データ記憶媒体を指し得る。複数のモジュールまたはシステムを1つのモジュールまたはシステムに結合することができ、かつ1つのモジュールまたはシステムを、同じ機能を実施する複数のモジュールまたはシステムに分離することができることを理解されたい。ソフトウェアまたは他のコンピュータ実行可能命令で実装されるとき、プロセスの要素は本質的に、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを用いて関連するタスクを実施するコードセグメントである。「ソフトウェア」という用語は、ソースコード、アセンブリ言語コード、機械コード、バイナリコード、ファームウェア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の任意の1つまたは複数のセットまたはシーケンス、およびそのような例の任意の組合せを含むことを理解されたい。プログラムまたはコードセグメントは、プロセッサ可読記憶媒体に記憶され得、または搬送波に埋め込まれたコンピュータデータ信号によって伝送媒体または通信リンクを介して送信され得る。
【0136】
[00173]本明細書で開示する方法、方式、および技法の実装形態は、(たとえば、本明細書に記載する1つまたは複数のコンピュータ可読媒体中で)論理要素のアレイ(たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)を含む機械によって読取り可能および/または実行可能な命令の1つまたは複数のセットとしても具体的に(tangibly)実施され得る。「コンピュータ可読媒体」という用語は、情報を記憶または転送することができる、揮発性、不揮発性、取外し可能および取外し不可能な媒体を含む、任意の媒体を含み得る。コンピュータ可読媒体の例は、電子回路、半導体メモリデバイス、ROM、フラッシュメモリ、消去可能ROM(EROM)、フロッピー(登録商標)ディスケットもしくは他の磁気ストレージ、CD−ROM/DVDもしくは他の光ストレージ、ハードディスク、光ファイバー媒体、無線周波(RF)リンク、または所望の情報を記憶するために使用され得、かつアクセスされ得る、任意の他の媒体を含む。コンピュータデータ信号は、電子ネットワークチャネル、光ファイバー、無線リンク、電磁リンク、RFリンクなどの伝送媒体を介して伝播することができる、任意の信号を含み得る。コードセグメントは、インターネットまたはイントラネットなどのコンピュータネットワークを介してダウンロードされ得る。いずれの場合も、本開示の範囲は、そのような実施形態によって限定されると解釈すべきではない。
【0137】
[00174]本明細書で説明した方法のタスクの各々は、ハードウェアで直接実施され得るか、プロセッサによって実行されるソフトウェアモジュールで実施され得るか、またはその2つの組合せで実施され得る。本明細書で開示する方法の実装形態の典型的な適用例では、論理要素のアレイ(たとえば、論理ゲート)は、この方法の様々なタスクのうちの1つ、複数、またはさらにはすべてを実施するように構成される。タスクのうちの1つまたは複数(場合によってはすべて)は、論理要素のアレイ(たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)を含む機械(たとえば、コンピュータ)によって読取り可能および/または実行可能であるコンピュータプログラム製品(たとえば、ディスク、フラッシュメモリカードまたは他の不揮発性メモリカード、半導体メモリチップなど、1つまたは複数のデータ記憶媒体など)に実施されたコード(たとえば、命令の1つまたは複数のセット)としても実装され得る。本明細書で開示した方法の実装形態のタスクは、2つ以上のそのようなアレイまたは機械によっても実施され得る。これらまたは他の実装形態では、タスクは、セルラー電話など、ワイヤレス通信用のデバイス、またはそのような通信機能を有する他のデバイス内で実施され得る。そのようなデバイスは、(たとえば、VoIPなどの1つまたは複数のプロトコルを使用して)回線交換および/またはパケット交換ネットワークと通信するように構成され得る。たとえば、そのようなデバイスは、符号化フレームを受信および/または送信するように構成されたRF回路を含み得る。
【0138】
[00175]本明細書で開示される様々な方法は、ハンドセット、ヘッドセット、または携帯情報端末(PDA)などのポータブル通信デバイスによって実施されてよく、本明細書で説明した様々な装置は、そのようなデバイス内に含まれ得ることが明確に開示される。典型的なリアルタイム(たとえば、オンライン)アプリケーションは、そのようなモバイルデバイスを使用して行われる、電話による会話である。
【0139】
[00176]1つまたは複数の例示的な実施形態では、本明細書で説明した動作は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアで実施される場合、そのような動作は、1つまたは複数の命令またはコードとしてコンピュータ可読媒体に記憶され得るか、またはコンピュータ可読媒体を介して送信され得る。「コンピュータ可読媒体」という用語は、コンピュータ可読記憶媒体と通信(たとえば、伝送)媒体の両方を含む。限定ではなく例として、コンピュータ可読記憶媒体は、(限定はしないが、ダイナミックまたはスタティックRAM、ROM、EEPROM、および/またはフラッシュRAMを含み得る)半導体メモリ、または強誘電体メモリ、磁気抵抗メモリ、オボニック(ovonic)メモリ、高分子(polymeric)メモリ、または相変化(phase-change)メモリなどの記憶要素のアレイ、CD−ROMもしくは他の光ディスクストレージ、および/または磁気ディスクストレージもしくは他の磁気ストレージデバイスを備えることができる。そのような記憶媒体は、コンピュータによってアクセスされ得る命令またはデータ構造の形態で情報を記憶し得る。通信媒体は、ある場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む、命令またはデータ構造の形態で所望のプログラムコードを搬送するために使用され得、コンピュータによってアクセスされ得る、任意の媒体を備えることができる。同様に、いかなる接続も適切にコンピュータ可読媒体と称される。たとえば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL)、または赤外線、無線、および/またはマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバケーブル、ツイストペア、DSL、または赤外線、無線、および/またはマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書で使用するディスク(disk)およびディスク(disc)は、コンパクトディスク(disc)(CD)、レーザーディスク(登録商標)(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピーディスク(disk)およびブルーレイ(登録商標)ディスク(disc)(Blu−Ray Disc Association、カリフォルニア州ユニヴァーサルシティー)を含み、ディスク(disk)は、通常、データを磁気的に再生し、ディスク(disc)はデータをレーザで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含めるべきである。
【0140】
[00177]本明細書で説明した音響信号処理装置(たとえば、装置A100、A105、A110、A120、MF100、MF110、またはMF120)は、いくつかの動作を制御するために音声入力を受容し、または背景雑音から所望の雑音を分離することから利益を得ることがある、通信デバイスなどの電子デバイスに組み込まれ得る。多くの適用例において、複数の方向から発生した背景音から、明瞭な所望の音を強調または分離することから利益を得ることができる。そのような適用例は、音声認識および検出、音声強調および分離、音声により有効になる制御などの機能を組み込んだ、電子デバイスまたはコンピューティングデバイスにおけるヒューマン・マシン・インターフェースを含み得る。そのような音響信号処理装置を、限定された処理機能のみを与えるデバイスに適するように実装するのが望ましいことがある。
【0141】
[00178]本明細書で説明したモジュール、要素、およびデバイスの様々な実装形態の要素は、たとえば、同じチップ上に、またはチップセット中の2つ以上のチップ上に常駐する、電子デバイスおよび/または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたはゲートなど、論理要素の固定アレイまたはプログラマブルアレイである。本明細書で説明した装置の様々な実装形態の1つまたは複数の要素は、全体または一部が、マイクロプロセッサ、組込みプロセッサ、IPコア、デジタル信号プロセッサ、FPGA、ASSP、およびASICのような論理要素の1つまたは複数の固定アレイまたはプログラマブルアレイ上で実行されるように構成された、命令の1つまたは複数のセットとしても実装され得る。
【0142】
[00179]本明細書で説明した装置の一実装形態の1つまたは複数の要素は、装置が組み込まれているデバイスまたはシステムの別の動作に関係するタスクなど、装置の動作に直接関係しないタスクを実施し、または装置の動作に直接関係しない命令の他のセットを実行するために使用することが可能である。また、そのような装置の実装形態の1つまたは複数の要素は、共通の構造(たとえば、異なる要素に対応するコードの部分を異なる時間に実行するために使用されるプロセッサ、異なる要素に対応するタスクを異なる時間に実施するために実行される命令のセット、または、異なる要素向けの動作を異なる時間に実施する電子デバイスおよび/もしくは光デバイスの構成)を有することが可能である。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[C1]
信号処理の方法であって、
方向制御可能なトランスデューサを駆動して、ビームを含む音場を生成することと、
ジェスチャーの表現に応答して、コマンドを生成することと、
前記コマンドに応答して、フィルタ構成を生成することと、
入力信号に空間的指向性フィルタを適用して、マルチチャネル信号を生成することであって、前記空間的指向性フィルタが前記フィルタ構成に基づくことと
を備え、
前記ジェスチャーが、前記ビームの方向および前記ビームの幅のうち少なくとも1つにおける変化を指示し、前記コマンドが、前記指示された変化を実施するためのコマンドである、方法。
[C2]
前記コマンドを前記生成することが、前記表現からの情報に基づいて、(A)前記ビームの前記幅を増大するためのコマンドと、(B)前記ビームの前記幅を低下するためのコマンドとを含む複数のコマンドから、前記コマンドを選択することを備える、C1に記載の信号処理の方法。
[C3]
前記コマンドを前記生成することが、前記表現からの情報に基づいて、(A)前記ビームの前記方向を、前記ビームの第1のサイド上にある第1の方向に変えるためのコマンドと、(B)前記ビームの前記方向を、前記第1のサイドとは反対側の、前記ビームの第2のサイド上にある第2の方向に変えるためのコマンドとを含む複数のコマンドから、前記コマンドを選択することを備える、C1および2のいずれかに記載の信号処理の方法。
[C4]
前記フィルタ構成を前記生成することが、前記ビームの現在の方向および前記ビームの現在の幅のうち少なくとも一方の指示に基づく、C1から3のいずれかに記載の信号処理の方法。
[C5]
前記フィルタ構成を前記生成することが、ユーザの現在のロケーションの指示に基づく、C1から4のいずれかに記載の信号処理の方法。
[C6]
前記フィルタ構成を前記生成することが、前記コマンドに従って、複数のフィルタ構成から前記フィルタ構成を選択することを備える、C1から5のいずれかに記載の信号処理の方法。
[C7]
前記複数のフィルタ構成のうちの第1のフィルタ構成が、前記複数のフィルタ構成のうちの第2のフィルタ構成とは異なる、前記空間的指向性フィルタの複数の出力チャネルの間のフェーズ関係を記述する、C6に記載の信号処理の方法。
[C8]
前記ジェスチャーの前記表現が、前記音場内で前記ジェスチャーを実施するユーザの画像シーケンスに基づく、C1から7のいずれかに記載の信号処理の方法。
[C9]
前記画像シーケンスが、前記ユーザの片手に投射される光パターンの画像を含む、C8に記載の信号処理の方法。
[C10]
前記ジェスチャーが、ユーザの片手の横移動を含む、C1から9のいずれかに記載の信号処理の方法。
[C11]
前記ジェスチャーが、ユーザの片手の握りモーションを含む、C1から10のいずれかに記載の信号処理の方法。
[C12]
前記ジェスチャーが、ユーザの両方の手の、互いの方への移動を含む、C1から10のいずれかに記載の信号処理の方法。
[C13]
前記ジェスチャーが、ユーザの両方の手の、互いから離れる移動を含む、C1から10のいずれかに記載の信号処理の方法。
[C14]
前記ジェスチャーが、ユーザの両方の手の、同じ横方向の移動を含む、C1から10のいずれかに記載の信号処理の方法。
[C15]
信号処理のための装置であって、
方向制御可能なトランスデューサを駆動して、ビームを生成するための手段と、
ジェスチャーの表現に応答して、コマンドを生成するための手段と、
前記コマンドに応答して、フィルタ構成を生成するための手段と、
入力信号に対して空間的指向性フィルタリング動作を実施して、マルチチャネル信号を生成するための手段であって、前記空間的指向性フィルタリング動作が前記フィルタ構成に基づく、手段と
を備え、
前記ジェスチャーが、前記ビームの方向および前記ビームの幅のうち少なくとも1つにおける変化を指示し、前記コマンドが、前記指示された変化を実施するためのコマンドである、信号処理のための装置。
[C16]
前記コマンドを生成するための前記手段が、前記表現からの情報に基づいて、(A)前記ビームの前記幅を増大するためのコマンドと、(B)前記ビームの前記幅を低下するためのコマンドとを含む複数のコマンドから、前記コマンドを選択するための手段を備える、C15に記載の信号処理のための装置。
[C17]
前記コマンドを生成するための前記手段が、前記表現からの情報に基づいて、(A)前記ビームの前記方向を、前記ビームの第1のサイド上にある第1の方向に変えるためのコマンドと、(B)前記ビームの前記方向を、前記第1のサイドとは反対側の、前記ビームの第2のサイド上にある第2の方向に変えるためのコマンドとを含む複数のコマンドから、前記コマンドを選択するための手段を備える、C15および16のいずれかに記載の信号処理のための装置。
[C18]
前記フィルタ構成を生成するための前記手段が、前記ビームの現在の方向および前記ビームの現在の幅のうち少なくとも一方の指示に基づいて、前記フィルタ構成を生成するように構成される、C15から17のいずれかに記載の信号処理のための装置。
[C19]
前記フィルタ構成を生成するための前記手段が、ユーザの現在のロケーションの指示に基づいて、前記フィルタ構成を生成するように構成される、C15から18のいずれかに記載の信号処理のための装置。
[C20]
前記フィルタ構成を生成するための前記手段が、前記コマンドに従って、複数のフィルタ構成から前記フィルタ構成を選択するための手段を備える、C15から19のいずれかに記載の信号処理のための装置。
[C21]
前記複数のフィルタ構成のうちの第1のフィルタ構成が、前記複数のフィルタ構成のうちの第2のフィルタ構成とは異なる、前記空間的指向性フィルタの複数の出力チャネルの間のフェーズ関係を記述する、C20に記載の信号処理のための装置。
[C22]
前記ジェスチャーの前記表現が、前記音場内で前記ジェスチャーを実施するユーザの画像シーケンスに基づく、C15から21のいずれかに記載の信号処理のための装置。
[C23]
前記画像シーケンスが、前記ユーザの片手に投射される光パターンの画像を含む、C22に記載の信号処理のための装置。
[C24]
前記ジェスチャーが、ユーザの片手の横移動を含む、C15から23のいずれかに記載の信号処理のための装置。
[C25]
前記ジェスチャーが、ユーザの片手の握りモーションを含む、C15から24のいずれかに記載の信号処理のための装置。
[C26]
前記ジェスチャーが、ユーザの両方の手の、互いの方への移動を含む、C15から24のいずれかに記載の信号処理のための装置。
[C27]
前記ジェスチャーが、ユーザの両方の手の、互いから離れる移動を含む、C15から24のいずれかに記載の信号処理のための装置。
[C28]
前記ジェスチャーが、ユーザの両方の手の、同じ横方向の移動を含む、C15から24のいずれかに記載の信号処理のための装置。
[C29]
信号処理のための装置であって、
方向制御可能なトランスデューサを駆動して、ビームを生成するように構成されたオーディオ出力段と、
ジェスチャーの表現に応答して、コマンドを生成するように構成されたジェスチャーインタープリタと、
前記コマンドに応答して、フィルタ構成を生成するように構成されたコマンドインタープリタと、
入力信号に空間的指向性フィルタを適用して、マルチチャネル信号を生成するように構成されたシンセサイザであって、前記空間的指向性フィルタが前記フィルタ構成に基づく、シンセサイザと
を備え、
前記ジェスチャーが、前記ビームの方向および前記ビームの幅のうち少なくとも1つにおける変化を指示し、前記コマンドが、前記指示された変化を実施するためのコマンドである、装置。
[C30]
前記ジェスチャーインタープリタが、前記表現からの情報に基づいて、前記ビームの前記幅を増大するためのコマンドと、前記ビームの前記幅を低下するためのコマンドとを含む複数のコマンドから、前記コマンドを選択することによって、前記コマンドを生成するように構成される、C29に記載の装置。
[C31]
前記ジェスチャーインタープリタが、前記表現からの情報に基づいて、(A)前記ビームの前記方向を、前記ビームの第1のサイド上にある第1の方向に変えるためのコマンドと、(B)前記ビームの前記方向を、前記第1のサイドとは反対側の、前記ビームの第2のサイド上にある第2の方向に変えるためのコマンドとを含む複数のコマンドから、前記コマンドを選択することによって、前記コマンドを生成するように構成される、C29および30のいずれかに記載の装置。
[C32]
前記コマンドインタープリタが、前記ビームの現在の方向および前記ビームの現在の幅のうち少なくとも一方の指示に基づいて、前記フィルタ構成を生成するように構成される、C29から31のいずれかに記載の装置。
[C33]
前記コマンドインタープリタが、ユーザの現在のロケーションの指示に基づいて、前記フィルタ構成を生成するように構成される、C29から32のいずれかに記載の装置。
[C34]
前記コマンドインタープリタが、前記コマンドに従って、複数のフィルタ構成から前記フィルタ構成を選択することによって、前記フィルタ構成を生成するように構成される、C29から33のいずれかに記載の装置。
[C35]
前記複数のフィルタ構成のうちの第1のフィルタ構成が、前記複数のフィルタ構成のうちの第2のフィルタ構成とは異なる、前記シンセサイザの複数の出力チャネルの間のフェーズ関係を記述する、C34に記載の装置。
[C36]
前記オーディオ出力段が、前記方向制御可能なトランスデューサを駆動して、前記ビームを含む音場を生成するように構成され、
前記ジェスチャーの前記表現が、前記音場内で前記ジェスチャーを実施するユーザの画像シーケンスに基づく、C29から35のいずれかに記載の装置。
[C37]
前記画像シーケンスが、前記ユーザの片手に投射される光パターンの画像を含む、C36に記載の装置。
[C38]
前記ジェスチャーが、ユーザの片手の横移動を含む、C29から37のいずれかに記載の装置。
[C39]
前記ジェスチャーが、ユーザの片手の握りモーションを含む、C29から38のいずれかに記載の装置。
[C40]
前記ジェスチャーが、ユーザの両方の手の、互いの方への移動を含む、C29から38のいずれかに記載の装置。
[C41]
前記ジェスチャーが、ユーザの両方の手の、互いから離れる移動を含む、C29から38のいずれかに記載の装置。
[C42]
前記ジェスチャーが、ユーザの両方の手の、同じ横方向の移動を含む、C29から38のいずれかに記載の装置。
[C43]
具体的な特徴を有する非一時的コンピュータ可読媒体であって、前記具体的な特徴が、前記具体的な特徴を読み取る機械に、
方向制御可能なトランスデューサを駆動して、ビームを含む音場を生成させ、
ジェスチャーの表現に応答して、コマンドを生成させ、
前記コマンドに応答して、フィルタ構成を生成させ、
入力信号に空間的指向性フィルタを適用して、マルチチャネル信号を生成させ、前記空間的指向性フィルタが前記フィルタ構成に基づき、
前記ジェスチャーが、前記ビームの方向および前記ビームの幅のうち少なくとも1つにおける変化を指示し、前記コマンドが、前記指示された変化を実施するためのコマンドである、非一時的コンピュータ可読媒体。
[C44]
具体的な特徴を有し、前記具体的な特徴が、前記具体的な特徴を読み取る機械に、C1から14のいずれか一項に記載の信号処理の方法を実施させる、コンピュータ可読媒体。