IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ クゥアルコム・インコーポレイテッドの特許一覧

特許7459391オーディオソース指向性に基づく心理音響的強調
<>
  • 特許-オーディオソース指向性に基づく心理音響的強調 図1
  • 特許-オーディオソース指向性に基づく心理音響的強調 図2A
  • 特許-オーディオソース指向性に基づく心理音響的強調 図2B
  • 特許-オーディオソース指向性に基づく心理音響的強調 図3
  • 特許-オーディオソース指向性に基づく心理音響的強調 図4
  • 特許-オーディオソース指向性に基づく心理音響的強調 図5
  • 特許-オーディオソース指向性に基づく心理音響的強調 図6
  • 特許-オーディオソース指向性に基づく心理音響的強調 図7
  • 特許-オーディオソース指向性に基づく心理音響的強調 図8
  • 特許-オーディオソース指向性に基づく心理音響的強調 図9
  • 特許-オーディオソース指向性に基づく心理音響的強調 図10
  • 特許-オーディオソース指向性に基づく心理音響的強調 図11
  • 特許-オーディオソース指向性に基づく心理音響的強調 図12
  • 特許-オーディオソース指向性に基づく心理音響的強調 図13
  • 特許-オーディオソース指向性に基づく心理音響的強調 図14
  • 特許-オーディオソース指向性に基づく心理音響的強調 図15
  • 特許-オーディオソース指向性に基づく心理音響的強調 図16
  • 特許-オーディオソース指向性に基づく心理音響的強調 図17
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-22
(45)【発行日】2024-04-01
(54)【発明の名称】オーディオソース指向性に基づく心理音響的強調
(51)【国際特許分類】
   H04R 3/00 20060101AFI20240325BHJP
【FI】
H04R3/00 310
H04R3/00 320
【請求項の数】 30
(21)【出願番号】P 2023544356
(86)(22)【出願日】2021-12-17
(65)【公表番号】
(43)【公表日】2023-12-28
(86)【国際出願番号】 US2021072989
(87)【国際公開番号】W WO2022164590
(87)【国際公開日】2022-08-04
【審査請求日】2023-07-21
(31)【優先権主張番号】17/162,241
(32)【優先日】2021-01-29
(33)【優先権主張国・地域又は機関】US
【早期審査対象出願】
(73)【特許権者】
【識別番号】595020643
【氏名又は名称】クゥアルコム・インコーポレイテッド
【氏名又は名称原語表記】QUALCOMM INCORPORATED
(74)【代理人】
【識別番号】110003708
【氏名又は名称】弁理士法人鈴榮特許綜合事務所
(72)【発明者】
【氏名】ムニョス、イサック・ガルシア
【審査官】冨澤 直樹
(56)【参考文献】
【文献】国際公開第2020/202621(WO,A1)
【文献】特開2017-175475(JP,A)
【文献】中国特許出願公開第108564962(CN,A)
【文献】LEE, Taejin,An Object-based 3D Audio Broadcasting System for Interactive Service,Audio Engineering Society Convention Papaer,6384,米国,AUDIO ENGINEERING SOCIETY,2005年05月28日,pp.1-8
【文献】SCHULTZ-AMLING, Richard,Acoustical Zooming Based on a Parametric Sound Field Representation,Audio Engineering Society Convention Paper,8120,米国,AUDIO ENGINEERING SOCIETY,2010年05月22日,pp.1-9
(58)【調査した分野】(Int.Cl.,DB名)
H04R 3/00
H04R 1/20-1/40
G10L 21/00-21/18
G10K 11/178
(57)【特許請求の範囲】
【請求項1】
1つまたは複数のプロセッサを備えるデバイスであって、前記1つまたは複数のプロセッサは、
1つまたは複数のオーディオソースのコンテキストデータを生成するために、コンテキスト検出器からの信号を処理することと、ここにおいて、
前記信号は、前記1つまたは複数のオーディオソースに対応する1つまたは複数の入力オーディオ信号に基づき、
前記1つまたは複数のオーディオソースのうちの特定のオーディオソースの前記コンテキストデータは、前記特定のオーディオソースのタイプを示し、
前記特定のオーディオソースの前記タイプは、人、ビークル、またはそれらの組合せのうちの1つまたは複数を含む、
前記特定のオーディオソースの前記タイプに基づいて前記1つまたは複数のオーディオソースのうちの前記特定のオーディオソースの指向性データを取得することと、
前記指向性データに少なくとも部分的に基づいて1つまたは複数の等化器設定を決定することと、
前記等化器設定に基づいて、前記1つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する1つまたは複数の出力オーディオ信号を生成することと、
を行うように構成された、デバイス。
【請求項2】
前記心理音響的強調バージョンは、オーディオズーム動作に関連するズーム配向およびズーム距離における前記1つまたは複数のオーディオソースの周波数応答を近似する、請求項1に記載のデバイス。
【請求項3】
前記1つまたは複数のプロセッサは、
オーディオズーム動作のズームターゲットを示すユーザ入力を受信することと、
前記ズームターゲットに基づいて前記1つまたは複数の等化器設定を決定することと、
を行うようにさらに構成された、請求項1に記載のデバイス。
【請求項4】
前記ズームターゲットは、ズームロケーション、ズーム距離、ズーム配向、前記1つまたは複数のオーディオソースのうちの少なくとも1つの選択、またはそれらの組合せを含む、請求項3に記載のデバイス。
【請求項5】
前記特定のオーディオソースの前記指向性データは、前記特定のオーディオソースの配向および距離周波数応答特性を示す、請求項1に記載のデバイス。
【請求項6】
前記1つまたは複数のプロセッサは、
1つまたは複数のビームフォーミングされたオーディオ信号を生成するために、前記1つまたは複数の入力オーディオ信号に対してビームフォーミングを実施することと、
前記1つまたは複数の出力オーディオ信号を生成するために、前記1つまたは複数のビームフォーミングされたオーディオ信号に基づく等化器入力オーディオ信号を処理することと、
を行うようにさらに構成された、請求項1に記載のデバイス。
【請求項7】
前記1つまたは複数のプロセッサは、
1つまたは複数の音声オーディオ信号を生成するために、前記1つまたは複数の入力オーディオ信号に基づく音声検出入力オーディオ信号中の音声を識別することと、
前記1つまたは複数の出力オーディオ信号を生成するために、前記1つまたは複数の音声オーディオ信号に基づく等化器入力オーディオ信号を処理することと、
を行うようにさらに構成された、請求項1に記載のデバイス。
【請求項8】
前記1つまたは複数のプロセッサは、
利得調整されたオーディオ信号を生成するために、ズームターゲットに基づいて、前記1つまたは複数の入力オーディオ信号に基づく利得調整器入力オーディオ信号に1つまたは複数の利得を適用することと、
前記1つまたは複数の出力オーディオ信号を生成するために、前記利得調整されたオーディオ信号に基づく等化器入力オーディオ信号を処理することと、
を行うようにさらに構成された、請求項1に記載のデバイス。
【請求項9】
前記1つまたは複数のプロセッサは、
雑音抑圧されたオーディオ信号を生成するために、前記1つまたは複数の入力オーディオ信号に基づく雑音抑圧器入力オーディオ信号に対して雑音抑圧を実施することと、
前記1つまたは複数の出力オーディオ信号を生成するために、前記雑音抑圧されたオーディオ信号に基づく等化器入力オーディオ信号を処理することと、
を行うようにさらに構成された、請求項1に記載のデバイス。
【請求項10】
前記特定のオーディオソースの前記コンテキストデータは、前記特定のオーディオソースの配向、前記特定のオーディオソースの距離、前記特定のオーディオソースの前記タイプ、またはそれらの組合せをさらに
前記特定のオーディオソースの前記タイプは、人、動物、鳥、ビークル、楽器、またはそれらの組合せのうちの1つまたは複数を含む、
請求項1に記載のデバイス。
【請求項11】
前記1つまたは複数のプロセッサは、前記1つまたは複数の入力オーディオ信号に関連する画像データに少なくとも部分的に基づいて前記コンテキストデータを生成するようにさらに構成された、請求項に記載のデバイス。
【請求項12】
前記1つまたは複数のプロセッサは、メモリから前記画像データと前記1つまたは複数の入力オーディオ信号とを取り出すようにさらに構成された、請求項11に記載のデバイス。
【請求項13】
前記1つまたは複数のプロセッサに結合され、前記1つまたは複数の入力オーディオ信号を生成するように構成された、1つまたは複数のマイクロフォンをさらに備える、請求項11に記載のデバイス。
【請求項14】
前記1つまたは複数のプロセッサに結合され、前記画像データを生成するように構成された、カメラをさらに備える、請求項11に記載のデバイス。
【請求項15】
前記1つまたは複数のプロセッサは、前記1つまたは複数のオーディオソースのうちの前記特定のオーディオソースの前記タイプを識別するために、前記1つまたは複数の入力オーディオ信号、前記画像データ、またはその両方に基づいて、オーディオソース認識を実施するようにさらに構成された、請求項11に記載のデバイス。
【請求項16】
前記1つまたは複数のプロセッサは、
前記1つまたは複数のオーディオソースのうちの前記特定のオーディオソースを決定するために、前記1つまたは複数の入力オーディオ信号、前記画像データ、またはその両方に基づいて、オーディオソース認識を実施することと、
前記特定のオーディオソースの配向を決定するために、前記画像データに対して画像分析を実施することと、
を行うようにさらに構成された、請求項11に記載のデバイス。
【請求項17】
前記1つまたは複数のプロセッサは、
前記1つまたは複数のオーディオソースのうちの前記特定のオーディオソースを決定するために、前記1つまたは複数の入力オーディオ信号、前記画像データ、またはその両方に基づいて、オーディオソース認識を実施することと、
前記特定のオーディオソースの前記距離を決定するために、前記1つまたは複数の入力オーディオ信号、前記画像データ、またはその両方に対して、距離分析を実施することと、
を行うようにさらに構成された、請求項11に記載のデバイス。
【請求項18】
前記1つまたは複数のプロセッサは、前記1つまたは複数の等化器設定を、前記コンテキストデータ、前記指向性データ、ズーム配向、ズーム距離、またはそれらの組合せに関連付ける等化器設定データに基づいて、前記1つまたは複数の等化器設定を選択するようにさらに構成された、請求項に記載のデバイス。
【請求項19】
前記1つまたは複数のプロセッサは、前記デバイスのメモリ、別のデバイス、またはその両方から、前記等化器設定データを取得するようにさらに構成された、請求項18に記載のデバイス。
【請求項20】
前記1つまたは複数のプロセッサは、中間周波数に対応する周波数応答を低減するために、前記1つまたは複数の等化器設定を選択するようにさらに構成された、請求項に記載のデバイス。
【請求項21】
前記1つまたは複数のプロセッサは、
第1の時間において、前記1つまたは複数のオーディオソースのうちの前記特定のオーディオソースに対応する第1の入力オーディオ信号の第1の音スペクトルを生成することと、
第2の時間において、前記特定のオーディオソースに対応する第2の入力オーディオ信号の第2の音スペクトルを生成することと、
前記第1の時間における第1の距離および第1の配向と、前記第2の時間における第2の距離および第2の配向との間の差が、前記第1の音スペクトルと前記第2の音スペクトルとの間の差に対応することを示すように、前記指向性データを更新することと、
を行うようにさらに構成された、請求項1に記載のデバイス。
【請求項22】
前記1つまたは複数のプロセッサは、前記デバイスのメモリ、別のデバイス、またはその両方から、前記指向性データを取得するようにさらに構成された、請求項1に記載のデバイス。
【請求項23】
前記1つまたは複数のプロセッサは、
1つまたは複数のビームフォーミングされたオーディオ信号を生成するために、前記1つまたは複数の入力オーディオ信号に対してビームフォーミングを実施することと、
1つまたは複数の音声オーディオ信号を生成するために、前記1つまたは複数の入力オーディオ信号中の音声を検出することと、
1つまたは複数の利得調整されたオーディオ信号を生成するために、ズームターゲットに基づいて、前記1つまたは複数のビームフォーミングされたオーディオ信号、前記1つまたは複数の音声オーディオ信号、またはそれらの組合せに、1つまたは複数の利得を適用することと、
前記1つまたは複数の利得調整されたオーディオ信号に少なくとも部分的に基づいて、前記1つまたは複数のオーディオソースのコンテキストデータを生成することと、ここにおいて、前記1つまたは複数のオーディオソースのうちの前記特定のオーディオソースの前記コンテキストデータは、前記特定のオーディオソースの配向、前記特定のオーディオソースの距離、前記特定のオーディオソースの前記タイプ、またはそれらの組合せを示す
記コンテキストデータ、ズーム配向、およびズーム距離にさらに基づいて、前記1つまたは複数の等化器設定を決定することと、
1つまたは複数の雑音抑圧されたオーディオ信号を生成するために、前記1つまたは複数の利得調整されたオーディオ信号に雑音抑圧を適用することと、
前記1つまたは複数の等化器設定に基づいて前記1つまたは複数の雑音抑圧されたオーディオ信号を処理することによって、前記1つまたは複数の出力オーディオ信号を生成することと、
を行うようにさらに構成された、請求項1に記載のデバイス。
【請求項24】
デバイスにおいて、1つまたは複数のオーディオソースのコンテキストデータを生成するために、コンテキスト検出器からの信号を処理することと、ここにおいて、
前記信号は、前記1つまたは複数のオーディオソースに対応する1つまたは複数の入力オーディオ信号に基づき、
前記1つまたは複数のオーディオソースのうちの特定のオーディオソースの前記コンテキストデータは、前記特定のオーディオソースのタイプを示し、
前記特定のオーディオソースの前記タイプは、人、ビークル、またはそれらの組合せのうちの1つまたは複数を含む、
前記デバイスにおいて、前記特定のオーディオソースの前記タイプに基づいて前記特定のオーディオソースの指向性データを取得することと、
前記デバイスにおいて、前記指向性データに少なくとも部分的に基づいて1つまたは複数の等化器設定を決定することと、
前記等化器設定に基づいて、前記1つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する1つまたは複数の出力オーディオ信号を生成することと、
を備える方法。
【請求項25】
前記デバイスにおいて、オーディオズーム動作のズームターゲットを示すユーザ入力を受信することと、
前記デバイスにおいて、前記ズームターゲットに基づいて前記1つまたは複数の等化器設定を決定することと、ここにおいて、前記ズームターゲットは、ズームロケーション、ズーム距離、ズーム配向、前記1つまたは複数のオーディオソースのうちの少なくとも1つの選択、またはそれらの組合せを含む、
をさらに備える、請求項24に記載の方法。
【請求項26】
命令を記憶する非一時的コンピュータ可読媒体であって、前記命令は、1つまたは複数のプロセッサによって実行されたとき、前記1つまたは複数のプロセッサに、
1つまたは複数のオーディオソースのコンテキストデータを生成するために、コンテキスト検出器からの信号を処理することと、ここにおいて、
前記信号は、前記1つまたは複数のオーディオソースに対応する1つまたは複数の入力オーディオ信号に基づき、
前記1つまたは複数のオーディオソースのうちの特定のオーディオソースの前記コンテキストデータは、前記特定のオーディオソースのタイプを示し、
前記特定のオーディオソースの前記タイプは、人、ビークル、またはそれらの組合せのうちの1つまたは複数を含む、
前記特定のオーディオソースの前記タイプに基づいて前記特定のオーディオソースの指向性データを取得することと、
前記指向性データに少なくとも部分的に基づいて1つまたは複数の等化器設定を決定することと、
前記等化器設定に基づいて、前記1つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する1つまたは複数の出力オーディオ信号を生成することと、
を行わせる、非一時的コンピュータ可読媒体。
【請求項27】
前記命令は、前記1つまたは複数のプロセッサによって実行されたとき、前記1つまたは複数のプロセッサに、
1つまたは複数のビームフォーミングされたオーディオ信号を生成するために、前記1つまたは複数の入力オーディオ信号に対してビームフォーミングを実施することと、
前記1つまたは複数の出力オーディオ信号を生成するために、前記1つまたは複数のビームフォーミングされたオーディオ信号に基づく等化器入力オーディオ信号を処理することと、
をさらに行わせる、請求項26に記載の非一時的コンピュータ可読媒体。
【請求項28】
前記命令は、前記1つまたは複数のプロセッサによって実行されたとき、前記1つまたは複数のプロセッサに、
1つまたは複数の音声オーディオ信号を生成するために、前記1つまたは複数の入力オーディオ信号に基づく音声検出入力オーディオ信号中の音声を識別することと、
前記1つまたは複数の出力オーディオ信号を生成するために、前記1つまたは複数の音声オーディオ信号に基づく等化器入力オーディオ信号を処理することと、
をさらに行わせる、請求項26に記載の非一時的コンピュータ可読媒体。
【請求項29】
1つまたは複数のオーディオソースのコンテキストデータを生成するために、コンテキスト検出器からの信号を処理するための手段と、ここにおいて、
前記信号は、前記1つまたは複数のオーディオソースに対応する1つまたは複数の入力オーディオ信号に基づき、
前記1つまたは複数のオーディオソースのうちの特定のオーディオソースの前記コンテキストデータは、前記特定のオーディオソースのタイプを示し、
前記特定のオーディオソースの前記タイプは、人、ビークル、またはそれらの組合せのうちの1つまたは複数を含む、
前記特定のオーディオソースの前記タイプに基づいて前記特定のオーディオソースの指向性データを取得するための手段と、
前記指向性データに少なくとも部分的に基づいて1つまたは複数の等化器設定を決定するための手段と、
前記等化器設定に基づいて、前記1つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する1つまたは複数の出力オーディオ信号を生成するための手段と、
を備える装置。
【請求項30】
取得するための前記手段、決定するための前記手段、および生成するための前記手段は、仮想アシスタント、家庭用電気器具、スマートデバイス、モノのインターネット(IoT)デバイス、通信デバイス、ヘッドセット、ビークル、コンピュータ、ディスプレイデバイス、テレビジョン、ゲーミングコンソール、音楽プレーヤ、無線機、ビデオプレーヤ、エンターテインメントユニット、パーソナルメディアプレーヤ、デジタルビデオプレーヤ、カメラ、またはナビゲーションデバイスのうちの少なくとも1つに統合される、請求項29に記載の装置。
【発明の詳細な説明】
【優先権の主張】
【0001】
関連出願の相互参照
[0001]本出願は、その内容全体が参照により本明細書に明確に組み込まれる、2021年1月29日に出願された、同一出願人が所有する米国非仮特許出願第17/162,241号の優先権の利益を主張する。
【技術分野】
【0002】
[0002]本開示は、一般に、オーディオソース指向性(audio source directivity)に基づく心理音響的強調(psychoacoustic enhancement)に関する。
【背景技術】
【0003】
[0003]技術の進歩は、より小型でより強力なコンピューティングデバイスをもたらした。たとえば、現在、小型で軽量の、ユーザによって容易に持ち運ばれる、モバイルフォンおよびスマートフォンなどのワイヤレス電話と、タブレットと、ラップトップコンピュータとを含む、様々なポータブルパーソナルコンピューティングデバイスが存在する。これらのデバイスは、ワイヤレスネットワークを介してボイスおよびデータパケットを通信することができる。さらに、多くのそのようなデバイスは、デジタルスチルカメラ、デジタルビデオカメラ、デジタルレコーダ、およびオーディオファイルプレーヤなど、追加の機能を組み込む。また、そのようなデバイスは、インターネットにアクセスするために使用され得るウェブブラウザアプリケーションなどのソフトウェアアプリケーションを含む、実行可能命令を処理することができる。したがって、これらのデバイスはかなりの計算能力を含むことができる。
【0004】
[0004]そのようなコンピューティングデバイスは、しばしば、1つまたは複数のマイクロフォンからオーディオ信号を受信するための機能を組み込む。たとえば、オーディオ信号は、マイクロフォンによってキャプチャされたユーザ音声、マイクロフォンによってキャプチャされた周囲音、またはそれらの組合せを表し得る。ユーザ音声は、そのユーザ音声がマイクロフォンによってキャプチャされるユーザからのマイクロフォンの距離のために、オーディオ信号において聴取することが困難であり得る。たとえば、ユーザからより遠く離れたマイクロフォンは、交通、他のユーザの音声など、より多くの周囲音をキャプチャし得る。別の例として、ユーザ音声は、より遠く離れたマイクロフォンによってキャプチャされたとき、よりソフトに聞こえる。オーディオ信号中の特定の音に焦点を当てる能力は、通信アプリケーションまたはボイス制御アシスタントシステムにおいてユーザ音声をより明確に通信するためになど、様々な適用例のために有用である。
【発明の概要】
【0005】
[0005]本開示の一実装形態によれば、デバイスが、1つまたは複数の入力オーディオ信号に対応する1つまたは複数のオーディオソースの指向性データ(directivity data)を記憶するように構成されたメモリを含む。本デバイスは、指向性データに少なくとも部分的に基づいて1つまたは複数の等化器設定(equalizer setting)を決定するように構成された1つまたは複数のプロセッサをも含む。1つまたは複数のプロセッサは、等化器設定に基づいて、1つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する1つまたは複数の出力オーディオ信号を生成するようにも構成される。
【0006】
[0006]本開示の別の実装形態によれば、方法が、デバイスにおいて、1つまたは複数の入力オーディオ信号に対応する1つまたは複数のオーディオソースの指向性データを取得することを含む。本方法は、デバイスにおいて、指向性データに少なくとも部分的に基づいて1つまたは複数の等化器設定を決定することをも含む。本方法は、等化器設定に基づいて、1つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する1つまたは複数の出力オーディオ信号を生成することをさらに含む。
【0007】
[0007]本開示の別の実装形態によれば、非一時的コンピュータ可読媒体が命令を記憶し、命令は、1つまたは複数のプロセッサによって実行されたとき、1つまたは複数のプロセッサに、1つまたは複数の入力オーディオ信号に対応する1つまたは複数のオーディオソースの指向性データを取得することを行わせる。命令は、1つまたは複数のプロセッサによって実行されたとき、1つまたは複数のプロセッサに、指向性データに少なくとも部分的に基づいて1つまたは複数の等化器設定を決定することをも行わせる。命令は、1つまたは複数のプロセッサによって実行されたとき、1つまたは複数のプロセッサに、等化器設定に基づいて、1つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する1つまたは複数の出力オーディオ信号を生成することをも行わせる。
【0008】
[0008]本開示の別の実装形態によれば、装置が、1つまたは複数の入力オーディオ信号に対応する1つまたは複数のオーディオソースの指向性データを取得するための手段を含む。本装置は、指向性データに少なくとも部分的に基づいて1つまたは複数の等化器設定を決定するための手段をも含む。本装置は、等化器設定に基づいて、1つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する1つまたは複数の出力オーディオ信号を生成するための手段をさらに含む。
【0009】
[0009]本開示の他の態様、利点、および特徴は、以下のセクション、すなわち、図面の簡単な説明と、発明を実施するための形態と、特許請求の範囲とを含む、本出願全体を検討した後に明らかになろう。
【図面の簡単な説明】
【0010】
図1】[0010]本開示のいくつかの例による、オーディオソース指向性に基づく心理音響的強調を実施するように動作可能なシステムの特定の例示的な態様のブロック図。
図2A】[0011]本開示のいくつかの例による、図1のシステムによって生成されたグラフィカルユーザインターフェース(GUI)の例示的な例の図。
図2B】[0012]本開示のいくつかの例による、図1のシステムによって生成されたGUIの別の例示的な例の図。
図3】[0013]本開示のいくつかの例による、図1のシステムの構成要素の例示的な態様の図。
図4】[0014]本開示のいくつかの例による、図1のシステムの構成要素の例示的な態様の図。
図5】[0015]本開示のいくつかの例による、図1のシステムの構成要素の例示的な態様の図。
図6】[0016]本開示のいくつかの例による、図1のシステムの構成要素の例示的な態様の図。
図7】[0017]本開示のいくつかの例による、オーディオソース指向性に基づく心理音響的強調を実施するように動作可能な集積回路の一例を示す図。
図8】[0018]本開示のいくつかの例による、オーディオソース指向性に基づく心理音響的強調を実施するように動作可能なモバイルデバイスの図。
図9】[0019]本開示のいくつかの例による、オーディオソース指向性に基づく心理音響的強調を実施するように動作可能なヘッドセットの図。
図10】[0020]本開示のいくつかの例による、オーディオソース指向性に基づく心理音響的強調を実施するように動作可能なウェアラブル電子デバイスの図。
図11】[0021]本開示のいくつかの例による、オーディオソース指向性に基づく心理音響的強調を実施するように動作可能なボイス制御スピーカーシステムの図。
図12】[0022]本開示のいくつかの例による、オーディオソース指向性に基づく心理音響的強調を実施するように動作可能なカメラの図。
図13】[0023]本開示のいくつかの例による、オーディオソース指向性に基づく心理音響的強調を実施するように動作可能な、仮想現実または拡張現実ヘッドセットなどのヘッドセットの図。
図14】[0024]本開示のいくつかの例による、オーディオソース指向性に基づく心理音響的強調を実施するように動作可能なビークルの第1の例の図。
図15】[0025]本開示のいくつかの例による、オーディオソース指向性に基づく心理音響的強調を実施するように動作可能なビークルの第2の例の図。
図16】[0026]本開示のいくつかの例による、図1のデバイスによって実施され得るオーディオソース指向性に基づく心理音響的強調の方法の特定の実装形態の図。
図17】[0027]本開示のいくつかの例による、オーディオソース指向性に基づく心理音響的強調を実施するように動作可能であるデバイスの特定の例示的な例のブロック図。
【発明を実施するための形態】
【0011】
[0028]マイクロフォンは、ユーザ音声、周囲音、またはそれらの組合せなど、キャプチャされた音を表すオーディオ信号を生成する。様々な音が、オーディオソースからのマイクロフォンの距離のために、オーディオ信号において聴取することが困難であり得る。オーディオ信号中の特定の音に焦点を当てる能力は、通信アプリケーションにおけるユーザ音声、または鳥追跡アプリケーションにおける鳥の音など、様々な適用例のために有用である。
【0012】
[0029]オーディオソース指向性に基づく心理音響的強調のシステムおよび方法が開示される。異なるタイプのオーディオソースは、異なる音指向性特性を有することができる。たとえば、人間の音声は、人間の頭部の後ろよりも人間の頭部の前に向けられ、人間の話し手が向いている方向からの距離および角度オフセットに基づいて変動する周波数応答を呈し得るが、12面体音源は、全方向指向性を近似する。
【0013】
[0030]オーディオエンハンサが、オーディオソースに対して(たとえば、オーディオソースのより近くにまたはそれから離して)マイクロフォンを移動することによってキャプチャされるであろう音を近似するために、オーディオソースの指向性に基づく心理音響的強調を実施する。たとえば、オーディオエンハンサは、指向性分析器と等化器とを含む。指向性分析器は、オーディオソースの指向性データとズームターゲットとに基づいて等化器設定を生成する。たとえば、指向性分析器は、等化器設定を適用することが、マイクロフォンをズームターゲットに移動することをエミュレートするように特定のオーディオ周波数のラウドネスを調整するように、等化器設定を生成する。等化器は、入力オーディオ信号の心理音響的強調バージョンに対応する出力オーディオ信号を生成するために、入力オーディオ信号に等化器設定を適用する。たとえば、入力オーディオ信号は、マイクロフォンのマイクロフォン出力に基づき、出力オーディオ信号は、ズームターゲットにおけるオーディオソースの周波数応答を近似する。したがって、出力オーディオ信号は、ズームターゲットにおいてマイクロフォンによってキャプチャされるであろう音を近似する。
【0014】
[0031]本開示の特定の態様が、図面を参照しながら以下で説明される。説明では、共通の特徴は、共通の参照番号によって指定される。本明細書で使用される様々な用語は、特定の実装形態について説明するために使用されるにすぎず、実装形態を制限するものではない。たとえば、単数形「a」、「an」、および「the」は、文脈が別段に明確に示すのでなければ、複数形をも含むものとする。さらに、本明細書で説明されるいくつかの特徴は、いくつかの実装形態では単数形であり、他の実装形態では複数形である。例示のために、図1は、1つまたは複数のプロセッサ(図1の「プロセッサ」190)を含むデバイス102を示し、これは、いくつかの実装形態では、デバイス102が単一のプロセッサ190を含み、他の実装形態では、デバイス102が複数のプロセッサ190を含むことを示す。
【0015】
[0032]本明細書で使用される「備える(comprise)」、「備える(comprises)」、および「備えること(comprising)」という用語は、「含む(include)」、「含む(includes)」、または「含むこと(including)」と互換的に使用され得る。さらに、「ここにおいて(wherein)」という用語は、「ここで(where)」と互換的に使用され得る。本明細書で使用される「例示的」は、一例、一実装形態、および/または一態様を示し、限定的として、あるいは選好または好適な一実装形態を示すものとして解釈されるべきでない。本明細書で使用される、構造、構成要素、動作などの要素を修飾するために使用される序数語(たとえば、「第1の」、「第2の」、「第3の」など)は、別の要素に対するその要素の優先順位または順序をそれ自体によって示さず、(序数語の使用を別にすれば)むしろ同じ名前を有する別の要素からその要素を区別するにすぎない。本明細書で使用される「セット(set)」という用語は、特定の要素の1つまたは複数を指し、「複数(plurality)」という用語は、特定の要素の複数(たとえば、2つまたはそれ以上)を指す。
【0016】
[0033]本明細書で使用される「結合される(coupled)」は、「通信可能に結合される」、「電気的に結合される」、または「物理的に結合される」を含み得、また(あるいは代替的に)、それらの任意の組合せを含み得る。2つのデバイス(または構成要素)は、1つまたは複数の他のデバイス、構成要素、ワイヤ、バス、ネットワーク(たとえば、ワイヤードネットワーク、ワイヤレスネットワーク、またはそれらの組合せ)などを介して、直接または間接的に結合(たとえば、通信可能に結合、電気的に結合、または物理的に結合)され得る。電気的に結合された2つのデバイス(または構成要素)は、同じデバイス中にまたは異なるデバイス中に含まれ得、例示的で非限定的な例として、電子回路、1つまたは複数のコネクタ、あるいは誘導結合を介して接続され得る。いくつかの実装形態では、電気通信しているなど、通信可能に結合された2つのデバイス(または構成要素)は、1つまたは複数のワイヤ、バス、ネットワークなどを介して、直接または間接的に信号(たとえば、デジタル信号またはアナログ信号)を送り、受信し得る。本明細書で使用される「直接結合される」は、介在する構成要素なしに結合(たとえば、通信可能に結合、電気的に結合、または物理的に結合)された2つのデバイスを含み得る。
【0017】
[0034]本開示では、「決定すること(determining)」、「計算すること(calculating)」、「推定すること(estimating)」、「シフトすること(shifting)」、「調整すること(adjusting)」などの用語は、1つまたは複数の動作がどのように実施されるかを表すために使用され得る。そのような用語が限定的なものと解釈されるべきではなく、他の技法が、同様の動作を実施するために利用され得ることに留意されたい。追加として、本明細書で言及される「生成すること(generating)」、「計算すること」、「推定すること」、「使用すること(using)」、「選択すること(selecting)」、「アクセスすること(accessing)」、および「決定すること」は、互換的に使用され得る。たとえば、パラメータ(または、信号)を「生成すること」、「計算すること」、「推定すること」、または「決定すること」は、パラメータ(または、信号)を能動的に生成すること、推定すること、計算すること、または決定することを指すことがあるか、あるいは、別の構成要素またはデバイスによってなど、すでに生成されているパラメータ(または、信号)を使用すること、選択すること、またはそれにアクセスすることを指すことがある。
【0018】
[0035]図1を参照すると、オーディオソース指向性に基づく心理音響的強調を実施するように構成されたシステムの特定の例示的な態様が開示され、全体的に100と指定される。システム100は、1つまたは複数のマイクロフォン120、カメラ140、1つまたは複数のスピーカー160、ディスプレイデバイス162、入力デバイス130、またはそれらの組合せに結合された、デバイス102を含む。いくつかの実装形態では、ディスプレイデバイス162は、入力デバイス130(たとえば、タッチスクリーン)を含む。
【0019】
[0036]デバイス102は、メモリ132に結合された1つまたは複数のプロセッサ190を含む。メモリ132は、等化器(Eq)設定データ149、指向性データ141、オーディオエンハンサ192によって使用または生成される他のデータ、あるいはそれらの組合せを記憶するように構成される。特定の態様では、1つまたは複数のプロセッサ190は、1つまたは複数の入力インターフェース124を介して1つまたは複数のマイクロフォン120に結合される。たとえば、1つまたは複数の入力インターフェース124は、1つまたは複数のマイクロフォン120から1つまたは複数のマイクロフォン出力122を受信することと、1つまたは複数のマイクロフォン出力122を1つまたは複数の入力オーディオ信号(SIG)126としてオーディオエンハンサ192に提供することとを行うように構成される。
【0020】
[0037]特定の態様では、1つまたは複数のプロセッサ190は、入力インターフェース144を介してカメラ140に結合される。たとえば、入力インターフェース144は、カメラ140からカメラ出力142を受信することと、カメラ出力142を画像データ145としてオーディオエンハンサ192に提供することとを行うように構成される。特定の態様では、入力インターフェース144は、1つまたは複数の入力インターフェース124が画像データ145をオーディオエンハンサ192に提供することと同時に、カメラ出力142をオーディオエンハンサ192に提供するように構成される。
【0021】
[0038]デバイス102は、1つまたは複数のプロセッサ190中に含まれるオーディオエンハンサ192を使用して、オーディオソース指向性に基づく心理音響的強調を実施するように構成される。オーディオエンハンサ192は、等化器148に結合された指向性分析器152と、等化器148に結合された等化前信号プロセッサ(pre-equalization signal processor)146とを含む。いくつかの実装形態によれば、指向性データアップデータ(updater)150が、オーディオエンハンサ192中に含まれる。
【0022】
[0039]入力デバイス130は、ズームターゲット133を示すユーザ入力131をデバイス102に提供するように構成される。指向性分析器152は、指向性データ141、ズームターゲット133、等化器設定データ149、またはそれらの組合せに基づいて、等化器設定153を生成するように構成される。たとえば、指向性分析器152は、等化器設定153を適用することが、1つまたは複数のマイクロフォン120をズームターゲット133のより近くに移動することをエミュレートするように特定のオーディオ周波数のラウドネスを調整するように、等化器設定153を生成するように構成される。
【0023】
[0040]等化器148は、1つまたは複数の出力オーディオ信号138を生成するために、1つまたは複数の等化器入力オーディオ信号147に等化器設定153を適用するように構成される。特定の態様では、1つまたは複数の等化器入力オーディオ信号147は、1つまたは複数の入力オーディオ信号126を含む。代替実装形態では、等化前信号プロセッサ146は、図3を参照しながらさらに説明されるように、1つまたは複数の等化器入力オーディオ信号147を生成するために、1つまたは複数の入力オーディオ信号126を処理するように構成される。
【0024】
[0041]いくつかの実装形態では、デバイス102は、1つまたは様々なタイプのデバイスに対応するか、またはそれらの中に含まれる。例示的な例では、プロセッサ190は、図9を参照しながらさらに説明されるものなど、1つまたは複数のスピーカー160を含むヘッドセットデバイスに統合される。他の例では、プロセッサ190は、図8を参照しながら説明されるモバイルフォンまたはタブレットコンピュータデバイス、図10を参照しながら説明されるウェアラブル電子デバイス、図11を参照しながら説明されるボイス制御スピーカーシステム、図12を参照しながら説明されるカメラデバイス、あるいは図13を参照しながら説明される仮想現実ヘッドセットまたは拡張現実ヘッドセットのうちの少なくとも1つに統合される。別の例示的な例では、プロセッサ190は、図14および図15を参照しながらさらに説明されるものなど、同じく1つまたは複数のスピーカー160を含むビークルに統合される。
【0025】
[0042]動作中に、1つまたは複数のマイクロフォン120は、オーディオソース184(たとえば、人)を含む1つまたは複数のオーディオソースから音186をキャプチャし、音186を表す1つまたは複数のマイクロフォン出力122を生成する。特定の態様では、1つまたは複数のオーディオソースは、人、動物、鳥、ビークル、楽器、別のタイプのオーディオソース、またはそれらの組合せを含む。1つまたは複数の入力インターフェース124は、1つまたは複数のマイクロフォン出力122を1つまたは複数の入力オーディオ信号126としてオーディオエンハンサ192に提供する。
【0026】
[0043]特定の実装形態では、カメラ140は、オーディオソース184などの1つまたは複数のオーディオソースの画像(たとえば、ビデオ、静止画像、またはその両方)をキャプチャし、画像を表すカメラ出力142を生成する。この実装形態では、入力インターフェース144は、カメラ出力142を画像データ145としてオーディオエンハンサ192に提供する。特定の態様では、カメラ140は、1つまたは複数のマイクロフォン120が1つまたは複数のマイクロフォン出力122をデバイス102に提供することと同時に、カメラ出力142をデバイス102に提供する。
【0027】
[0044]特定の実装形態では、画像データ145、1つまたは複数の入力オーディオ信号126、またはそれらの組合せは、外部センサー(たとえば、マイクロフォン120およびカメラ140)を介してキャプチャされたデータに対応する代わりに、ビデオゲームデータまたは前に記録されたデータなど、記憶されたデータに対応する。たとえば、オーディオエンハンサ192は、メモリ132から、画像データ145、1つまたは複数の入力オーディオ信号126、またはそれらの組合せを取り出す。
【0028】
[0045]1つまたは複数のプロセッサ190は、1つまたは複数の入力オーディオ信号126に基づいて1つまたは複数の出力オーディオ信号138を生成し、1つまたは複数のスピーカー160を介して1つまたは複数の出力オーディオ信号138を出力する。特定の実装形態では、1つまたは複数のプロセッサ190は、1つまたは複数のスピーカー160を介して1つまたは複数の出力オーディオ信号138を出力することと同時に、カメラ140によってキャプチャされた画像をユーザ101に表示するために、画像データ145に基づいてグラフィカルユーザインターフェース161を生成し、グラフィカルユーザインターフェース161をディスプレイデバイス162に提供する。
【0029】
[0046]デバイス102は、オーディオズーム動作を始動するために、ユーザ101に応答する。たとえば、ユーザ101は、ズームターゲット133を示すユーザ入力131をオーディオエンハンサ192に提供するために、入力デバイス130を使用する。特定の実装形態では、ユーザ101は、図2A図2Bを参照しながらさらに説明されるように、ズームターゲット133を選択するために、グラフィカルユーザインターフェース161において表示されたズームセレクタを移動するために、入力デバイス130(たとえば、マウス、キーボード、ボタン、スライダー入力、またはそれらの組合せ)を使用する。別の実装形態では、ユーザ101は、グラフィカルユーザインターフェース161とは無関係にオーディオズーム動作を始動する。たとえば、1つまたは複数のプロセッサ190は、GUIをディスプレイデバイス162に提供することとは無関係に、1つまたは複数の出力オーディオ信号138を1つまたは複数のスピーカー160に提供する。ユーザ101は、ズームターゲット133を示すユーザ入力131をオーディオエンハンサ192に提供するために、入力デバイス130(たとえば、キーボード上の矢印キー、ヘッドセット上のボタンなど)を使用する。例示のために、ユーザ101は、図9を参照しながらさらに説明されるように、1つまたは複数のスピーカー160のオーディオ出力に対応する音場の異なるエリアにズームするために、入力デバイス130を使用する。
【0030】
[0047]ズームターゲット133は、オーディオズームがどのように実施されるべきであるかを示す情報を含む。様々な実装形態では、ズームターゲット133は、図4図6を参照しながらさらに説明されるように、少なくとも1つのオーディオソース(たとえば、オーディオソース184)のユーザの選択、マイクロフォン120を移動することをシミュレートする様式でオーディオを調整するためのユーザの選択、またはそれらの組合せを含むかまたは示すことができる。たとえば、ズームターゲット133は、オーディオソース184と、1つまたは複数のマイクロフォン120がオーディオソース184のどのくらいより近くに位置するものとして知覚されるべきであるか(たとえば、2フィートより近い)を示すズーム距離135とのユーザの選択を含むことができる。別の例では、ズームターゲット133は、1つまたは複数のマイクロフォン120がロケーション134(たとえば、物理的ロケーション)からどのくらいおよびどの方向に移動したものとして知覚されるべきであるかを示す、ズーム距離135とズーム配向(zoom orientation)137とのユーザの選択を含むことができる。特定の例示的な例では、ズーム配向137の第1の値(たとえば、0度)、第2の値(たとえば、90度)、第3の値(たとえば、180度)、または第4の値(たとえば、270度)が、ロケーション134に対する1つまたは複数のマイクロフォン120の、それぞれ、前方移動、右方移動、後方移動、または左方移動に対応する。ユーザ101がズーム距離135およびズーム配向137を選択するときなど、特定の例では、オーディオエンハンサ192は、(1つまたは複数のマイクロフォン120の)ロケーション134にズーム配向137およびズーム距離135を適用することによって、ズームロケーション136を決定する。別の例では、ズームターゲット133がズームロケーション136のユーザの選択を含むとき、オーディオエンハンサ192は、ロケーション134とズームロケーション136との比較に基づいて、ズーム配向137およびズーム距離135を決定する。特定の例では、ズームターゲット133がオーディオソース184のユーザの選択を含むとき、オーディオエンハンサ192は、オーディオソース184のロケーションを推定し、オーディオソース184の推定されたロケーションに基づいて、ズーム距離135、ズームロケーション136、ズーム配向137、またはそれらの組合せを決定する。特定の態様では、オーディオエンハンサ192は、画像分析技法、オーディオ分析技法、オーディオソース184の位置情報、またはそれらの組合せを使用して、オーディオソース184のロケーションを推定する。特定の態様では、ロケーション134は、複数のマイクロフォン120のロケーションの代表的ロケーション(たとえば、平均ロケーション)に対応し、ズームロケーション136は、複数のマイクロフォン120がそこに移動したものとしてエミュレートされるロケーションの代表的ロケーション(たとえば、平均ロケーション)に対応する。
【0031】
[0048]指向性分析器152は、1つまたは複数の入力オーディオ信号126に対応する1つまたは複数のオーディオソース(たとえば、オーディオソース184)の指向性データ141を取得する。たとえば、指向性分析器152は、(たとえば、入力オーディオ信号126を分析すること、画像データ145を分析すること、またはそれらの組合せからなど、ソースのタイプに基づいて)オーディオソース184を識別し、メモリ132からオーディオソース184に最もぴったり対応する指向性データ141を取り出す。別の例では、指向性分析器152は、別のデバイスまたはネットワークからの指向性データ141を要求する(たとえば、ダウンロードする)。
【0032】
[0049]特定のオーディオソースの指向性データ141は、特定のオーディオソースの配向および距離周波数応答特性を示す。特定の態様では、指向性データ141は、一般的なオーディオソースに関連する。たとえば、指向性データ141は、一般的なオーディオソースの配向および周波数応答特性を示す。例示のために、指向性データ141は、中間周波数に対応する周波数応答が、一般的なオーディオソースに対する第1の距離から一般的なオーディオソースに対する第2の距離への変化に応答して第1の量だけ変化する(たとえば、低減するまたは増加する)ことを示す。代替態様では、指向性データ141は、特定のタイプのオーディオソースに関連する指向性データを示す。たとえば、指向性データ141は、図4を参照しながらさらに説明されるように、特定のオーディオソースタイプ(たとえば、人間の話者、鳥、楽器など)のオーディオソース184からの距離、配向、またはその両方の変化に応答して、様々な周波数の周波数応答変化を示す。
【0033】
[0050]指向性分析器152は、図4を参照しながらさらに説明されるように、指向性データ141とズームターゲット133と等化器設定データ149とに少なくとも部分的に基づいて、等化器設定153を決定する。たとえば、指向性分析器152は、等化器設定153を適用することが、1つまたは複数のマイクロフォン120をズームロケーション136に(またはそのより近くに)移動することをエミュレートするように特定のオーディオ周波数のラウドネスを調整するように、等化器設定153を生成する。特定の実装形態では、指向性分析器152は、あるオーディオソースタイプのオーディオソース184のための指向性データが利用不可能であると決定したことに応答して、デフォルト指向性データに基づいて等化器設定153を選択する。例示のために、指向性分析器152は、(たとえば、あるオーディオソースタイプのオーディオソース184とは無関係に)中間周波数に対応する周波数応答を調整する(たとえば、増加させるまたは低減する)ように等化器設定153を選択する。たとえば、指向性分析器152は、ズームロケーション136とオーディオソース184との間の距離がロケーション134とオーディオソース184との間の距離よりも小さいと決定したことに応答して、中間周波数に対応するラウドネスを増加させるように等化器設定153を選択する。別の例として、指向性分析器152は、ズームロケーション136とオーディオソース184との間の距離がロケーション134とオーディオソース184との間の距離よりも大きいと決定したことに応答して、中間周波数に対応するラウドネスを減少させるように等化器設定153を選択する。代替実装形態では、指向性分析器152は、図4を参照しながらさらに説明されるように、指向性データ141によって示されたあるオーディオソースタイプ(たとえば、人間の話者または鳥)のオーディオソース184の指向性(たとえば、周波数応答)に基づいて、等化器設定153を選択する。指向性分析器152は、等化器設定153を等化器148に提供する。
【0034】
[0051]等化器148は、1つまたは複数の等化器入力オーディオ信号147に等化器設定153を適用することによって、1つまたは複数の出力オーディオ信号138を生成する。特定の実装形態では、1つまたは複数の等化器入力オーディオ信号147は、1つまたは複数の入力オーディオ信号126を含む。別の実装形態では、等化前信号プロセッサ146は、図3を参照しながらさらに説明されるように、1つまたは複数の入力オーディオ信号126に等化前処理を適用することによって、1つまたは複数の等化器入力オーディオ信号147を生成する。等化器148は、1つまたは複数の出力オーディオ信号138を1つまたは複数のスピーカー160に提供する。
【0035】
[0052]1つまたは複数の出力オーディオ信号138は、1つまたは複数の入力オーディオ信号126の心理音響的強調バージョンに対応する。心理音響的強調バージョン(たとえば、1つまたは複数の出力オーディオ信号138)は、オーディオズーム動作に関連するズームロケーション136(たとえば、ズーム配向137およびズーム距離135)におけるオーディオソース184の周波数応答を近似する。したがって、1つまたは複数のスピーカー160によって生成された(1つまたは複数の出力オーディオ信号138に対応する)音は、1つまたは複数のマイクロフォン120をズームロケーション136に(またはそれのより近くに)移動したことをエミュレートする。
【0036】
[0053]特定の実装形態では、指向性データアップデータ(updater)150は、指向性データ141を生成または更新する。指向性アップデータ(updater)150は、オーディオソースから様々な距離および配向においてキャプチャされたオーディオをサンプリングおよび分析することと、そのオーディオソースに関連する指向性データを生成または更新することとを行うように構成される。特定の例では、指向性データアップデータは、第1の時間において、オーディオソース184に対応する1つまたは複数の入力オーディオ信号126のうちの入力オーディオ信号の第1の音スペクトルを生成する。第1の音スペクトルは、オーディオソース184が1つまたは複数のマイクロフォン120に対して第1の配向を有するとき、オーディオソース184から第1の距離において1つまたは複数のマイクロフォン120によってキャプチャされた音を表す。指向性データアップデータ150は、第2の時間において、オーディオソース184に対応する1つまたは複数の入力オーディオ信号126のうちの入力オーディオ信号の第2の音スペクトルを生成する。第2の音スペクトルは、オーディオソース184が1つまたは複数のマイクロフォン120に対して第2の配向を有するとき、オーディオソース184から第2の距離において1つまたは複数のマイクロフォン120によってキャプチャされた音を表す。指向性データアップデータ150は、第1の距離および第1の配向と、第2の距離および第2の配向との間の差が、第1の音スペクトルと第2の音スペクトルとの間の差に対応することを示すように、指向性データ141を更新する。
【0037】
[0054]システム100は、1つまたは複数のマイクロフォン120をズームロケーション136に移動することを近似する、ズームターゲット133へのオーディオズーム動作を可能にする。オーディオソース184の指向性に基づいて周波数についてラウドネスを調整することによって1つまたは複数の出力オーディオ信号138を生成することは、1つまたは複数の入力オーディオ信号126の利得を調整するにすぎないことと比較して、より自然なサウンディングオーディオズームを生じる。
【0038】
[0055]1つまたは複数のマイクロフォン120、カメラ140、1つまたは複数のスピーカー160、ディスプレイデバイス162、および入力デバイス130は、デバイス102に結合されるものとして示されているが、他の実装形態では、1つまたは複数のマイクロフォン120、カメラ140、1つまたは複数のスピーカー160、ディスプレイデバイス162、入力デバイス130、またはそれらの組合せは、デバイス102に統合され得る。システム100の様々な実装形態は、より少数の、追加の、または異なる構成要素を含み得る。たとえば、いくつかの実装形態では、指向性データアップデータ150、カメラ140、またはその両方は省略され得る。
【0039】
[0056]図2Aを参照すると、GUI161の一例が示されている。特定の態様では、グラフィカルユーザインターフェース161は、図1のオーディオエンハンサ192、1つまたは複数のプロセッサ190、デバイス102、システム100、またはそれらの組合せによって生成される。
【0040】
[0057]グラフィカルユーザインターフェース161は、図1の画像データ145に対応する画像を表示するように構成されたビデオディスプレイ204を含む。たとえば、ビデオディスプレイ204は、オーディオソース184の画像を表示する。グラフィカルユーザインターフェース161は、オーディオズーム動作を始動するために使用され得るズームセレクタ202を含む。たとえば、図1のユーザ101は、ズームセレクタ202を、オーディオソース184にズームインするために上に移動するか、またはオーディオソース184からズームアウトするために下に移動することができる。特定の態様では、ズームセレクタ202を上に移動することは、ズーム配向137のための第1の値(たとえば、0度、前方、またはズームイン)を選択することに対応し、ズームセレクタ202を下に移動することは、ズーム配向137のための第2の値(たとえば、180度、後方、またはズームアウト)を選択することに対応する。ズームセレクタ202の移動量が、ズーム距離135を示す。ズームターゲット133は、ズーム距離135、ズーム配向137、またはその両方を含む。
【0041】
[0058]図2Bを参照すると、グラフィカルユーザインターフェース161の一例が示されている。特定の態様では、グラフィカルユーザインターフェース161は、図1のオーディオエンハンサ192、1つまたは複数のプロセッサ190、デバイス102、システム100、またはそれらの組合せによって生成される。
【0042】
[0059]グラフィカルユーザインターフェース161は、ユーザ101がオーディオズーム動作を始動するためにズームセレクタ202を移動したことを示す。たとえば、ユーザ101は、ズーム配向137(たとえば、前方、0度、またはズームイン)とズーム距離135(たとえば、2フィート)との選択に対応してズームセレクタ202を上に移動するために入力デバイス130を使用し、入力デバイス130は、ズームターゲット133を示すユーザ入力131をオーディオエンハンサ192に提供する。ズームターゲット133は、ズーム配向137(たとえば、0度、前方、またはズームイン)と、(たとえば、ズームセレクタ202の移動量に基づく)ズーム距離135とを示す。指向性分析器152は、図4を参照しながらさらに説明されるように、ズームターゲット133に少なくとも部分的に基づいて等化器設定153を生成する。等化器148は、図1を参照しながら説明されるように、1つまたは複数の等化器入力オーディオ信号147に等化器設定153を適用することによって、1つまたは複数の出力オーディオ信号138を生成する(たとえば、更新する)。等化器148は、1つまたは複数の出力オーディオ信号138を1つまたは複数のスピーカー160に提供する。
【0043】
[0060]特定の態様では、1つまたは複数のプロセッサ190は、ユーザ入力131に応答して、画像データ145に対して画像ズーム動作を実施し、等化器148が1つまたは複数の出力オーディオ信号138を1つまたは複数のスピーカー160に提供することと同時に、画像データ145のズームされたバージョンを表示するように、ビデオディスプレイ204を更新する。示されているように、オーディオソース184は、図2Aと比較して図2Bではビデオディスプレイ204において拡大され、オーディオズーム動作がオーディオソース184にズームインしたことを示す。
【0044】
[0061]ズームセレクタ202は、ズームターゲット133を選択することの例示的な例として提供される。他の実装形態では、ユーザ101は、ズームターゲット133を指定する他の方法を使用し得る。特定の例では、グラフィカルユーザインターフェース161は、タッチスクリーン(たとえば、入力デバイス130)上に表示され、ユーザ101は、ズームターゲット133を指定するためにタッチスクリーンと対話する(たとえば、それをタップするかまたはピンチズームジェスチャーを使用する)。たとえば、ユーザ101は、ズームターゲット133として、ズームロケーション136、オーディオソース184、またはその両方の選択に対応する、ビデオディスプレイ204上のロケーションを選択するために、タッチスクリーン上でタップすることができる。別の例として、ユーザ101は、ズーム配向137の第1の値(たとえば、前方、0度、またはズームイン)を示すために第1のピンチズーム(たとえば、広げる)ジェスチャーを使用し、またはズーム配向137の第2の値(たとえば、後方、180度、またはズームアウト)を示すために第2のピンチズーム(たとえば、狭くする)ジェスチャーを使用することができる。ピンチズームジェスチャーの距離が、ズーム距離135を示す。ズームターゲット133は、ズーム距離135、ズーム配向137、またはその両方を含む。
【0045】
[0062]特定の例では、ユーザ101は、ズームターゲット133として、ズームロケーション136、オーディオソース184、またはその両方の識別子(たとえば、名前)を示すユーザ入力(たとえば、ボイスコマンド、オプション選択、またはその両方)を提供する。オーディオエンハンサ192は、オーディオソース184、ズームロケーション136、またはその両方を識別するために、画像データ145に対する画像認識、入力オーディオ信号126のオーディオ分析、またはその両方を実施する。たとえば、ユーザ101は、オーディオソース184の識別子(たとえば、連絡先名)(たとえば、「Sarah Lee」)をもつユーザ入力(たとえば、「Sarah Leeにズームする」)を提供する。オーディオエンハンサ192は、オーディオソース184(たとえば、「Sarah Lee」)に対応する画像データ145の部分を識別するために、画像データ145に対して画像認識(たとえば、人認識またはオブジェクト認識)を実施するか、オーディオソース184(たとえば、「Sarah Lee」)に対応する入力オーディオ信号126の部分を識別するために、入力オーディオ信号126に対して音声認識を実施するか、またはその両方を実施する。ズームターゲット133は、オーディオソース184を含む。
【0046】
[0063]図3を参照すると、特定の実装形態による、図1のシステム100の構成要素の図300が示されている。等化前信号プロセッサ146は、空間分析器340、アクティビティ検出器342、利得調整器344、雑音抑圧器346、コンテキスト検出器350、またはそれらの組合せを含む。コンテキスト検出器350は、ソース検出器362、ソース位置検出器364、またはその両方を含む。図3において点線で示されている構成要素のうちの1つまたは複数は、いくつかの実装形態では省略され得る。
【0047】
[0064]空間分析器340は、1つまたは複数のビームフォーミングされたオーディオ信号341を生成するために、1つまたは複数の入力オーディオ信号126にビームフォーミングを適用するように構成される。特定の態様では、空間分析器340は、ズームターゲット133に基づいてビームフォーミングを適用する。たとえば、空間分析器340は、1つまたは複数のビームフォーミングされたオーディオ信号341が、ズーム配向137の周りでキャプチャされた音を表すように、図1のズーム配向137に基づいてビームフォーミングを適用する。空間分析器340は、1つまたは複数のビームフォーミングされたオーディオ信号341を、等化前信号プロセッサ146の1つまたは複数の構成要素に、または等化器148に提供する。たとえば、空間分析器340は、1つまたは複数のビームフォーミングされたオーディオ信号341を、1つまたは複数のアクティビティ入力オーディオ信号361としてアクティビティ検出器342に提供するか、1つまたは複数の利得調整器入力オーディオ信号363として利得調整器344に提供するか、1つまたは複数のコンテキスト検出器入力オーディオ信号369としてコンテキスト検出器350に提供するか、1つまたは複数の雑音抑圧入力オーディオ信号365として雑音抑圧器346に提供するか、1つまたは複数の等化器入力オーディオ信号147として等化器148に提供するか、またはそれらの組合せを行う。
【0048】
[0065]アクティビティ検出器342は、1つまたは複数のアクティビティ入力オーディオ信号361においてアクティビティを検出するように構成される。特定の実装形態では、1つまたは複数のアクティビティ入力オーディオ信号361は、1つまたは複数の入力オーディオ信号126を含む。代替実装形態では、1つまたは複数のアクティビティ入力オーディオ信号361は、1つまたは複数のビームフォーミングされたオーディオ信号341を含む。
【0049】
[0066]アクティビティ検出器342は、1つまたは複数のアクティビティ入力オーディオ信号361において検出されたアクティビティに基づいて、1つまたは複数のアクティビティオーディオ信号343を生成するように構成される。特定の例では、アクティビティ検出器342(たとえば、音声アクティビティ検出器)は、1つまたは複数のアクティビティ入力オーディオ信号361のうちの第1のアクティビティ入力オーディオ信号中の音声を検出することと、その音声を含む、1つまたは複数のアクティビティオーディオ信号343のうちの第1のアクティビティオーディオ信号と、第1のアクティビティ入力オーディオ信号の残りの音を含む第2のアクティビティオーディオ信号とを生成することとを行うように構成される。例示のために、第1のアクティビティオーディオ信号は、低減された残りの音を含むかまたは残りの音を含まず、第2のアクティビティオーディオ信号は、低減された音声を含むかまたは音声を含まない。
【0050】
[0067]特定の実装形態では、アクティビティ検出器342は、様々なタイプのオーディオソース、同じタイプの様々なオーディオソース、またはその両方に対応する音を検出するように構成される。例示的な例では、アクティビティ検出器342は、1つまたは複数のアクティビティ入力オーディオ信号361のうちの第1のアクティビティ入力オーディオ信号において、第1の話者に関連する第1の音声、第2の話者に関連する第2の音声、楽器に関連する楽音、鳥に関連する鳥の音、またはそれらの組合せを検出するように構成される。アクティビティ検出器342は、(たとえば、残りの音をもたない、または低減された残りの音をもつ)第1の音声を含む第1のアクティビティオーディオ信号、(たとえば、残りの音をもたない、または低減された残りの音をもつ)第2の音声を含む第2のアクティビティオーディオ信号、(たとえば、残りの音をもたない、または低減された残りの音をもつ)楽音を含む第3のアクティビティオーディオ信号、(たとえば、残りの音をもたない、または低減された残りの音をもつ)鳥の音を含む第4のアクティビティオーディオ信号、第1のアクティビティ入力オーディオ信号の残りの音を含む第5のアクティビティオーディオ信号、またはそれらの組合せを生成するように構成される。1つまたは複数のアクティビティオーディオ信号343は、第1のアクティビティオーディオ信号、第2のアクティビティオーディオ信号、第3のアクティビティオーディオ信号、第4のアクティビティオーディオ信号、第5のアクティビティオーディオ信号、またはそれらの組合せを含む。
【0051】
[0068]アクティビティ検出器342は、1つまたは複数のアクティビティオーディオ信号343を、等化前信号プロセッサ146の1つまたは複数の構成要素に、等化器148に、またはそれらの組合せに提供する。たとえば、アクティビティ検出器342は、1つまたは複数のアクティビティオーディオ信号343を、1つまたは複数の利得調整器入力オーディオ信号363として利得調整器344に提供するか、1つまたは複数のコンテキスト検出器入力オーディオ信号369としてコンテキスト検出器350に提供するか、1つまたは複数の雑音抑圧入力オーディオ信号365として雑音抑圧器346に提供するか、1つまたは複数の等化器入力オーディオ信号147として等化器148に提供するか、またはそれらの組合せを行う。
【0052】
[0069]利得調整器344は、1つまたは複数の利得調整器入力オーディオ信号363に、1つまたは複数の利得を適用する。1つまたは複数の利得調整器入力オーディオ信号363は、1つまたは複数の入力オーディオ信号126、1つまたは複数のビームフォーミングされたオーディオ信号341、または1つまたは複数のアクティビティオーディオ信号343を含む。利得調整器344は、ズームターゲット133に基づいて1つまたは複数の利得を適用する。たとえば、オーディオズーム動作がズームターゲット133にズームインすることに対応するとき、利得調整器344は、ズーム配向137からの音に対応する1つまたは複数の利得調整器入力オーディオ信号363のうちの第1の入力オーディオ信号の利得を増加させるか、残りの方向からの音に対応する1つまたは複数の利得調整器入力オーディオ信号363のうちの第2の入力オーディオ信号の利得を低減するか、またはその両方を行う。別の例では、オーディオズーム動作がズームターゲット133から離れてズームすることに対応するとき、利得調整器344は、ズーム配向137からの音に対応する1つまたは複数の利得調整器入力オーディオ信号363のうちの第1の入力オーディオ信号の利得を減少させるか、残りの方向からの音に対応する1つまたは複数の利得調整器入力オーディオ信号363のうちの第2の入力オーディオ信号の利得を増加させるか、またはその両方を行う。特定の態様では、利得調整の量は、ズーム距離135に基づく。
【0053】
[0070]利得調整器344は、1つまたは複数の利得調整されたオーディオ信号345を、等化前信号プロセッサ146の1つまたは複数の構成要素に、等化器148に、またはそれらの組合せに提供する。たとえば、利得調整器344は、1つまたは複数の利得調整されたオーディオ信号345を、1つまたは複数のコンテキスト検出器入力オーディオ信号369としてコンテキスト検出器350に提供するか、1つまたは複数の雑音抑圧入力オーディオ信号365として雑音抑圧器346に提供するか、1つまたは複数の等化器入力オーディオ信号147として等化器148に提供するか、またはそれらの組合せを行う。
【0054】
[0071]コンテキスト検出器350は、コンテキストデータ351を生成するために、1つまたは複数のコンテキスト検出器入力オーディオ信号369、画像データ145、またはそれらの組合せを処理する。特定の態様では、1つまたは複数のコンテキスト検出器入力オーディオ信号369は、1つまたは複数の入力オーディオ信号126、1つまたは複数のビームフォーミングされたオーディオ信号341、1つまたは複数のアクティビティオーディオ信号343、または1つまたは複数の利得調整されたオーディオ信号345を含む。
【0055】
[0072]ソース検出器362は、オーディオソース184などの1つまたは複数のオーディオソースのオーディオソースタイプを識別するために、1つまたは複数のコンテキスト検出器入力オーディオ信号369、画像データ145、またはそれらの組合せに対して、オーディオソース認識を実施する。たとえば、ソース検出器362は、画像データ145がカメラ140に対する第1のロケーションにおけるオーディオソースタイプ(たとえば、人間の話者)を示すと決定するために、画像データ145に対して画像分析(たとえば、オブジェクト認識および距離分析)を実施する。特定の態様では、ソース検出器362は、1つまたは複数のコンテキスト検出器入力オーディオ信号369が、1つまたは複数のマイクロフォン120に対する第2のロケーションからのオーディオソースタイプに一致する音を含むと決定するために、1つまたは複数のコンテキスト検出器入力オーディオ信号369に対して音分析(たとえば、オーディオソース認識および距離分析)を実施する。特定の態様では、ソース検出器362は、カメラ140に対する第1のロケーションが、1つまたは複数のマイクロフォン120に対する第2のロケーションと同じ物理的ロケーションに対応すると決定する。ソース検出器362は、オーディオソースタイプ、カメラ140に対する第1のロケーション、1つまたは複数のマイクロフォン120に対する第2のロケーション、物理的ロケーション、またはそれらの組合せを示す、ソース検出データをソース位置検出器364に提供する。
【0056】
[0073]ソース位置検出器364は、カメラ140に対する画像データ145におけるオーディオソース184の配向を検出するために画像分析を実施する。例示のために、オーディオソース184が人間の話者に対応する場合、ソース位置検出器364は、画像データ145に対して画像認識を実施することによって、(たとえば、カメラ140のほうを見ている、またはカメラ140から目をそらしている)人間の話者の頭部の配向を推定する。
【0057】
[0074]例示的な例では、ソース位置検出器364は、カメラ140に対するオーディオソース184の配向と、カメラ140のロケーションと1つまたは複数のマイクロフォン120のロケーションとの差とに基づいて、1つまたは複数のマイクロフォン120に対するオーディオソース184の配向を決定する。コンテキスト検出器350は、1つまたは複数のマイクロフォン120に対する第2のロケーションが、1つまたは複数のマイクロフォン120からのオーディオソース184の距離を示すと決定する。コンテキスト検出器350は、1つまたは複数のマイクロフォン120からのオーディオソース184の距離、1つまたは複数のマイクロフォン120に対するオーディオソース184の配向、オーディオソース184のオーディオソースタイプ、またはそれらの組合せを示す、コンテキストデータ351を生成する。コンテキスト検出器350は、コンテキストデータ351を指向性分析器152に提供する。
【0058】
[0075]雑音抑圧器346は、1つまたは複数の雑音抑圧されたオーディオ信号347を生成するために、1つまたは複数の雑音抑圧入力オーディオ信号365に対して雑音抑圧を実施する。特定の態様では、1つまたは複数の雑音抑圧入力オーディオ信号365は、1つまたは複数の入力オーディオ信号126、1つまたは複数のビームフォーミングされたオーディオ信号341、1つまたは複数のアクティビティオーディオ信号343、または1つまたは複数の利得調整されたオーディオ信号345を含む。雑音抑圧器346は、1つまたは複数の雑音抑圧されたオーディオ信号347を、1つまたは複数の等化器入力オーディオ信号147として等化器148に提供する。
【0059】
[0076]等化前信号プロセッサ146の構成要素の動作の特定の順序は、例示的な例として提供される。他の例では、等化前信号プロセッサ146の構成要素の動作の順序は異なり得る。特定の例では、ズームターゲット133は、オーディオソース184の選択を示す。コンテキスト検出器350は、ズームターゲット133に基づいて、オーディオソース184のオーディオソースタイプ(たとえば、人間の話者または鳥)をアクティビティ検出器342に提供する。アクティビティ検出器342は、(たとえば、低減された残りの音をもつ、または残りの音をもたない)オーディオソースタイプの音に対応する、1つまたは複数のアクティビティオーディオ信号343のうちの第1のアクティビティ信号、(たとえば、オーディオソースタイプの音をもたない、またはオーディオソースタイプの低減された音をもつ)残りの音に対応する第2のアクティビティ信号、または組合せを生成する。アクティビティ検出器342は、1つまたは複数のアクティビティオーディオ信号343を利得調整器344に提供する。利得調整器344は、オーディオズーム動作がズームターゲット133のほうへズームすることを含むと決定したことに応答して、第1のアクティビティ信号の利得を増加させるか、第2のアクティビティ信号の利得を低減するか、またはその両方を行う。代替的に、利得調整器344は、オーディオズーム動作がズームターゲット133から離れてズームすることを含むと決定したことに応答して、第1のアクティビティ信号の利得を減少させるか、第2のアクティビティ信号の利得を増加させるか、またはその両方を行う。
【0060】
[0077]特定の態様では、指向性分析器152は、図4を参照しながらさらに説明されるように、オーディオソース184のオーディオソースタイプに基づいて指向性データ141を取得する。指向性分析器152は、図4を参照しながらさらに説明されるように、指向性データ141に基づいて等化器設定153を生成する。指向性分析器152は、等化器設定153を等化器148に提供する。
【0061】
[0078]等化器148は、1つまたは複数の出力オーディオ信号138を生成するために、1つまたは複数の等化器入力オーディオ信号147に等化器設定153を適用する。特定の態様では、1つまたは複数の等化器入力オーディオ信号147は、1つまたは複数の入力オーディオ信号126、1つまたは複数のアクティビティオーディオ信号343、1つまたは複数の利得調整されたオーディオ信号345、または1つまたは複数の雑音抑圧されたオーディオ信号347を含む。
【0062】
[0079]したがって、等化前信号プロセッサ146は、等化を実施するより前に、ビームフォーミングすること、利得を調整すること、雑音を低減すること、またはそれらの組合せを行うことによって、オーディオエンハンサ192の性能を改善するために等化前信号処理を実施する。特定の態様では、等化前信号プロセッサ146は、指向性分析器152が1つまたは複数のオーディオソースのオーディオソースタイプの指向性に基づいて等化器設定153を決定することを可能にするために、コンテキストデータ351を決定する。
【0063】
[0080]いくつかの実装形態では、等化前信号プロセッサ146は省略され得る。一例として、指向性分析器152は、デフォルト指向性データに基づいて等化器設定153を生成し、等化器148は、1つまたは複数の出力オーディオ信号138を生成するために、1つまたは複数の入力オーディオ信号126に等化器設定153を適用する(たとえば、1つまたは複数の入力オーディオ信号126の中間周波数を調整する)。
【0064】
[0081]いくつかの実装形態では、等化前信号プロセッサ146の1つまたは複数の構成要素は省略され得る。一例では、空間分析器340およびアクティビティ検出器342は省略され、1つまたは複数の入力オーディオ信号126は、1つまたは複数の利得調整器入力オーディオ信号363として利得調整器344に提供される。いくつかの実装形態では、空間分析器340は省略され、1つまたは複数の入力オーディオ信号126は、1つまたは複数のアクティビティ入力オーディオ信号361としてアクティビティ検出器342に提供される。いくつかの実装形態では、アクティビティ検出器342は省略され、1つまたは複数のビームフォーミングされたオーディオ信号341は、1つまたは複数の利得調整器入力オーディオ信号363として利得調整器344に提供される。いくつかの実装形態では、利得調整器344は省略され、1つまたは複数のアクティビティオーディオ信号343は、1つまたは複数のコンテキスト検出器入力オーディオ信号369としてコンテキスト検出器350に提供され、1つまたは複数の雑音抑圧入力オーディオ信号365として雑音抑圧器346に提供される。構成要素の特定の組合せは、例示的な例として説明される。他の実装形態では、構成要素の他の組合せが、等化前信号プロセッサ146中に含まれる。
【0065】
[0082]図4を参照すると、図1のシステム100の構成要素の特定の例の図400が示されている。指向性分析器152は、指向性データ141とコンテキストデータ351とユーザ入力131とを取得するものとして示されている。コンテキストデータ351は、オーディオソース184のソース位置データ420を含む。たとえば、ソース位置データ420は、図3を参照しながら説明されるように、1つまたは複数のマイクロフォン120に対するオーディオソース184のソース配向422(たとえば、0度、またはそのほうへ向いている)、1つまたは複数のマイクロフォン120からのオーディオソース184のソース距離424(たとえば、6フィート)、またはその両方を示す。
【0066】
[0083]図3のソース位置検出器364は、ソース配向422(たとえば、0度)およびズーム配向137(たとえば、0度)に基づいて、ズームロケーション136に対するオーディオソース184のソース配向432(たとえば、0度)を決定する。ソース位置検出器364は、ズーム距離135(たとえば、2フィート)、ズーム配向137(たとえば、0度)、およびソース距離424(たとえば、6フィート)に基づいて、ズームロケーション136からのオーディオソース184のソース距離434(たとえば、4フィート)を決定する。
【0067】
[0084]特定の態様では、指向性分析器152は、オーディオソース184のオーディオソースタイプに基づいて指向性データ141を取得する。一例として、音指向性パターン402のグラフィカル図が、水平面および垂直面におけるオーディオソースタイプ(たとえば、人間の話者)の周波数依存指向性を示す。特定の態様では、指向性データ141は、オーディオソースタイプの様々な配向に関連する複数の指向性データセットを含む。指向性分析器152は、指向性データセット404が、ソース配向422とソース配向432とに一致するオーディオソースタイプの特定の配向(たとえば、軸上、水平軸および垂直軸に沿って0度)に関連すると決定したことに応答して、指向性データ141から指向性データセット404を選択する。
【0068】
[0085]指向性データセット404のグラフィカル図が、特定の配向に沿った特定の距離(たとえば、1メートル)から様々な距離への(たとえば、マイクロフォンの)距離の変化に対応するオーディオソースタイプ(たとえば、オーディオソース184)の周波数応答特性を示す。たとえば、指向性データセット404は、特定の配向(たとえば、軸上)に沿ったソース距離424(たとえば、1メートル)からソース距離434(たとえば、1センチメートル)への変化についてのオーディオソースタイプ(たとえば、オーディオソース184)の周波数応答特性449を示す。特定の態様では、周波数応答特性449は、様々な音周波数についてのラウドネス(たとえば、デシベル(dB))の変化を示す。たとえば、周波数応答特性449は、特定の配向(たとえば、軸上)に沿ってソース距離424(たとえば、1メートル)からソース距離434(たとえば、1センチメートル)のほうへ移動することが、特定の周波数(たとえば、500ヘルツ(Hz))についてのラウドネスの低下(たとえば、-0.2dB)、別の周波数範囲(たとえば、800Hz~1キロヘルツ(kHz))についてのラウドネスの上昇(たとえば、+4dB)、またはその両方に対応することを示す。特定の例では、周波数応答特性449は、特定の配向(たとえば、軸上)に沿ってソース距離424(たとえば、1メートル)からソース距離434(たとえば、1センチメートル)のほうへ移動することが、別の特定の周波数範囲(たとえば、200Hz~400Hz)についてのラウドネスの無視できる(たとえば、しきい値を下回る)変化に対応することを示す。例示のために、特定の周波数範囲(たとえば、200Hz~400Hz)についてのラウドネスの変化は、人間の聴覚系にとって知覚不可能であり得る。
【0069】
[0086]特定の例では、ソース配向422はソース配向432に一致し、指向性分析器152は、特定の配向(たとえば、ソース配向422およびソース配向432)に沿ったソース距離の変化に対応する指向性データセット404を選択する。この例では、指向性データセット404は、特定の配向(たとえば、ソース配向422およびソース配向432)に沿った(たとえば、ソース距離424からソース距離434への)ソース距離の変化に対応する周波数応答特性449を示す。いくつかの他の例では、ソース配向422は、図6を参照しながらさらに説明されるように、ソース配向432とは異なり、指向性分析器152は、指向性データ141から、(たとえば、ソース距離424からソース距離434への)ソース距離の変化と(たとえば、ソース配向422からソース配向432への)ソース配向の変化とに対応する周波数応答特性449を示す指向性データセットを選択する。
【0070】
[0087]特定の態様では、指向性分析器152は、メモリ132、別のデバイス、ネットワーク、またはそれらの組合せから、等化器設定データ149を取得する。特定の実装形態では、等化器設定データ149は、コンテキストデータ351(たとえば、オーディオソース184のオーディオソースタイプ)、指向性データ141(たとえば、指向性データセット404)、ズーム距離135、ソース距離424、ソース距離434、ズーム配向137、ソース配向422、ソース配向432、周波数応答特性(たとえば、周波数応答特性449)、またはそれらの組合せを等化器設定153に関連付ける。指向性分析器152は、等化器設定データ149に基づいて、オーディオソース184のオーディオソースタイプ、ズーム距離135、ソース距離424、ソース距離434、ズーム配向137、ソース配向422、ソース配向432、周波数応答特性449、またはそれらの組合せに一致する、等化器設定153を選択する。
【0071】
[0088]特定の態様では、指向性分析器152は、等化器設定データ149に基づいて、周波数応答特性449に一致する等化器設定153を選択する。たとえば、等化器設定153は、特定の周波数(たとえば、500Hz)についてのラウドネスの低下(たとえば、-0.2dB)、第1の周波数範囲(たとえば、800Hz~1キロヘルツ(kHz))についてのラウドネスの上昇(たとえば、+4dB)、第2の周波数範囲(たとえば、200Hz~400Hz)についてのラウドネスの変化なし、またはそれらの組合せに対応する。したがって、指向性分析器152は、等化器設定153を適用することが、1つまたは複数のマイクロフォン120をズームロケーション136に(またはそのより近くに)移動することの周波数応答特性を近似するように、等化器設定153を生成する。
【0072】
[0089]図5を参照すると、図1のシステム100の構成要素の特定の例の図500が示されている。指向性データ141の指向性データセット504のグラフィカル図が、特定の配向(たとえば、-45度の水平軸および0度の垂直軸)についてのオーディオソース184のオーディオソースタイプ(たとえば、人間の話者)の周波数応答特性を示す。たとえば、指向性データセット504は、特定の配向に沿った特定の距離(たとえば、1メートル)から様々な距離への(たとえば、マイクロフォンの)距離の変化に対応する周波数応答特性を示す。
【0073】
[0090]図3のコンテキスト検出器350は、図3を参照しながら説明されるように、オーディオソース184のソース位置データ520を決定する。たとえば、ソース位置データ520は、オーディオソース184が、1つまたは複数のマイクロフォン120のロケーション134に対して、ソース配向522(たとえば、-45度の水平軸および0度の垂直軸)でほぼソース距離424(たとえば、1メートル)のところに位置することを示す。ソース位置データ520は、オーディオソース184が、ズームロケーション136に対して、ソース配向532(たとえば、-45度の水平軸および0度の垂直軸)でほぼソース距離434(たとえば、10センチメートル)のところに位置することを示す。
【0074】
[0091]指向性分析器152は、ソース配向422(たとえば、水平軸上で-45度および垂直軸上で0度)およびソース配向432(たとえば、水平軸上で-45度および垂直軸上で0度)が、指向性データセット504に関連する特定の配向(たとえば、-45度の水平軸および0度の垂直軸)に一致すると決定したことに応答して、指向性データ141から指向性データセット504を選択する。指向性データセット504は、特定の配向(たとえば、水平軸上で-45度および垂直軸上で0度)に沿ったソース距離424(たとえば、1メートル)からソース距離434(たとえば、1センチメートル)への変化についての周波数応答特性549を示す。特定の態様では、周波数応答特性549は、特定の配向(たとえば、水平軸上で-45度および垂直軸上で0度)に沿ってソース距離424(たとえば、1メートル)からソース距離434(たとえば、1センチメートル)のほうへ移動することが、第1の周波数(たとえば、500Hz)についてのラウドネスの低下(たとえば、-0.2dB)、第2の周波数(たとえば、800Hz)についてのラウドネスの第1の上昇(たとえば、+2dB)、第3の周波数(たとえば、1kHz)についてのラウドネスの第2の上昇(たとえば、+4dB)、特定の周波数範囲(たとえば、200Hz~315Hz)についてのラウドネスの無視できる(たとえば、しきい値を下回る)変化、またはそれらの組合せに対応することを示す。
【0075】
[0092]特定の態様では、指向性分析器152は、等化器設定データ149に基づいて、周波数応答特性549に一致する等化器設定153を選択する。たとえば、等化器設定153は、第1の周波数(たとえば、500Hz)についてのラウドネスの低下(たとえば、-0.2dB)、第2の周波数(たとえば、800Hz)についてのラウドネスの第1の上昇(たとえば、+2dB)、第3の周波数についてのラウドネスの第2の上昇(たとえば、+4dB)、特定の周波数範囲(たとえば、200Hz~315Hz)についてのラウドネスの変化なし、またはそれらの組合せに対応する。したがって、指向性分析器152は、等化器設定153を適用することが、オーディオソース184が1つまたは複数のマイクロフォン120に対して特定の配向(たとえば、水平軸上で-45度および垂直軸上で0度)を有するとき、1つまたは複数のマイクロフォン120をズームロケーション136に(またはそのより近くに)移動することの周波数応答特性を近似するように、指向性データセット504に基づいて、等化器設定153を生成する。
【0076】
[0093]図6を参照すると、図3のコンテキスト検出器350が、図3の1つまたは複数のコンテキスト検出器入力オーディオ信号369に基づいて、複数のオーディオソース、たとえば、オーディオソース184およびオーディオソース684を検出した、一実装形態による、図1のシステム100の構成要素の一例の図600が示されている。
【0077】
[0094]コンテキスト検出器350は、図3を参照しながら説明されるものと同様の様式で、オーディオソース684のソース位置データ620を決定する。たとえば、ソース位置データ620は、オーディオソース684が、1つまたは複数のマイクロフォン120のロケーション134に対して、ソース配向622(たとえば、-30度の水平軸および0度の垂直軸)でほぼソース距離624(たとえば、2メートル)のところに位置することを示す。特定の態様では、ソース位置データ620は、オーディオソース684が、ズームロケーション136に対して、ソース配向632(たとえば、-2度の水平軸および0度の垂直軸)でほぼソース距離634(たとえば、2.2メートル)のところに位置することを示す。
【0078】
[0095]特定の実装形態では、ズームターゲット133はオーディオソース184を示し、指向性分析器152は、等化器設定153を決定する際にオーディオソース684を無視する。特定の態様では、1つまたは複数の出力オーディオ信号138は、オーディオソース684の低減された音を含む(たとえば、その音を含まない)。一例として、アクティビティ検出器342は、オーディオソース684の低減された音をもつ(たとえば、その音をもたない)オーディオソース184の音に対応する1つまたは複数のアクティビティオーディオ信号343を生成する。別の例として、利得調整器344は、オーディオソース684の低減された音をもつ(たとえば、その音をもたない)1つまたは複数の利得調整されたオーディオ信号345を生成する。別の例では、空間分析器340は、オーディオソース684の低減された音をもつ(たとえば、その音をもたない)1つまたは複数のビームフォーミングされたオーディオ信号341を生成するために、ビームフォーミングを適用する。この実装形態では、指向性分析器152は、図5を参照しながら説明されるように、指向性データセット504およびソース位置データ520に基づいて、等化器設定153を生成する。
【0079】
[0096]特定の実装形態では、ズームターゲット133はオーディオソース184を示し、オーディオエンハンサ192は、ほとんどまたはまったくオーディオソース684の音に対する変化なしにオーディオソース184の指向性に基づいて調整されたオーディオソース184の音をもつ1つまたは複数の出力オーディオ信号138を生成する。一例として、アクティビティ検出器342は、オーディオソース684の低減された音をもつ(たとえば、その音をもたない)オーディオソース184の音に対応する1つまたは複数のアクティビティオーディオ信号343の第1のサブセットと、オーディオソース184の低減された音をもつ(たとえば、その音をもたない)(たとえば、オーディオソース684の音を含む)残りの音に対応する1つまたは複数のアクティビティオーディオ信号343の第2のサブセットとを生成する。
【0080】
[0097]指向性分析器152は、図5を参照しながら説明されるように、指向性データセット504およびソース位置データ520に基づいて、等化器設定153を生成する。1つまたは複数の等化器入力オーディオ信号147は、1つまたは複数のアクティビティオーディオ信号343の第1のサブセット、1つまたは複数のアクティビティオーディオ信号343の第1のサブセットの利得調整されたバージョン、1つまたは複数のアクティビティオーディオ信号343の第1のサブセットの雑音抑圧されたバージョン、またはそれらの組合せを含む。等化器148は、1つまたは複数の等化器入力オーディオ信号147に等化器設定153を適用することによって、1つまたは複数の出力オーディオ信号138の第1のサブセットを生成し、ユーザ101がズームロケーション136に位置するかのように知覚される、オーディオソース184からの音の心理音響的強調バージョンを生成する。
【0081】
[0098]1つまたは複数の出力オーディオ信号138の第2のサブセットが、1つまたは複数のアクティビティオーディオ信号343の第2のサブセットに基づき、オーディオソース684からの音を含む。たとえば、1つまたは複数の出力オーディオ信号138の第2のサブセットは、1つまたは複数のアクティビティオーディオ信号343の第2のサブセット、1つまたは複数のアクティビティオーディオ信号343の第2のサブセットの利得調整されたバージョン、1つまたは複数のアクティビティオーディオ信号343の第2のサブセットの雑音抑圧されたバージョン、またはそれらの組合せを含む。
【0082】
[0099]したがって、1つまたは複数の出力オーディオ信号138は、1つまたは複数のマイクロフォン120をロケーション134からズームロケーション136に移動することを伴い、まったく(またはほとんど)オーディオソース684についての変化がない、オーディオソース184の周波数応答特性を近似する。この実装形態では、オーディオズーム動作は、ほとんどまたはまったくオーディオソース684に対する変化なしに、オーディオソース184に対してズームするように思われる。たとえば、1つまたは複数の出力オーディオ信号138中のオーディオソース184の音は、ズームロケーション136に対してソース配向532でほぼソース距離434のところにあるオーディオソース184から来るように思われる。1つまたは複数の出力オーディオ信号138中のオーディオソース684の音は、ズームロケーション136に対してソース配向622でほぼソース距離624のところにあるオーディオソース684から来るように思われる。
【0083】
[0100]別の特定の実装形態では、ズームターゲット133はオーディオソース184を示し、オーディオエンハンサ192は、オーディオソース184の指向性に基づいてオーディオソース184の音を調整することと、オーディオソース684の指向性に基づいて調整されたオーディオソース684の音を調整することとを含む動作において、1つまたは複数の出力オーディオ信号138を生成する。特定の態様では、オーディオソース684は、オーディオソース184と同じオーディオソースタイプ(たとえば、人間の話者)を有する。この態様では、指向性分析器152は、指向性データ141から、オーディオソース684に関連する(たとえば、ソース配向622からソース配向632への)配向の変化と(たとえば、ソース距離624からソース距離634への)距離の変化とに一致する指向性データセット604を選択する。
【0084】
[0101]代替態様では、オーディオソース684は、オーディオソース184の第1のオーディオソースタイプ(たとえば、人間の話者)とは異なる第2のオーディオソースタイプ(たとえば、鳥)を有する。この態様では、指向性分析器152は、第2のオーディオソースタイプに関連する第2の指向性データを取得し、第2の指向性データから、(たとえば、ソース配向622からソース配向632への)配向の変化と、ソース距離624から様々な距離への変化とについてのオーディオソース684の周波数応答特性を示す指向性データセット604を選択する。例示のために、指向性データセット604は、(たとえば、ソース配向622からソース配向632への)配向の変化と(たとえば、ソース距離624からソース距離634への)距離の変化とについての周波数応答特性649を示す。
【0085】
[0102]指向性分析器152は、等化器設定データ149に基づいて、周波数応答特性649に一致する等化器設定653を決定する。指向性分析器152は、オーディオソース684に対応する等化器設定653とオーディオソース184に対応する等化器設定153とを等化器148に提供する。
【0086】
[0103]特定の態様では、アクティビティ検出器342は、オーディオソース184の音と低減された他の音(たとえば、他の音なし)とに対応する1つまたは複数のアクティビティオーディオ信号343の第1のサブセット、オーディオソース684の音と低減された他の音(たとえば、他の音なし)とに対応する1つまたは複数のアクティビティオーディオ信号343の第2のサブセット、残りの音と、オーディオソース184およびオーディオソース684の低減された音(たとえば、その音なし)とに対応する1つまたは複数のアクティビティオーディオ信号343の第3のサブセット、またはそれらの組合せを生成する。特定の態様では、1つまたは複数の等化器入力オーディオ信号147の第1のサブセットは、1つまたは複数のアクティビティオーディオ信号343の第1のサブセットに基づき、1つまたは複数の等化器入力オーディオ信号147の第2のサブセットは、1つまたは複数のアクティビティオーディオ信号343の第2のサブセットに基づき、1つまたは複数の等化器入力オーディオ信号147の第3のサブセットは、1つまたは複数のアクティビティオーディオ信号343の第3のサブセットに基づき、またはそれらの組合せである。等化器148は、オーディオソース184に対応する1つまたは複数の等化器入力オーディオ信号147の第1のサブセットに対して等化器設定153を適用するか、オーディオソース684に対応する1つまたは複数の等化器入力オーディオ信号147の第2のサブセットに対して等化器設定653を適用するか、残りのオーディオに対応する1つまたは複数の等化器入力オーディオ信号147の第3のサブセットに対して変化なしを適用するか、またはそれらの組合せを行うことによって、1つまたは複数の出力オーディオ信号138を生成する。したがって、等化器設定153および等化器設定653は、1つまたは複数の出力オーディオ信号138が、1つまたは複数のマイクロフォン120をロケーション134からズームロケーション136に移動することに関連する、オーディオソース184およびオーディオソース684の周波数応答特性を近似することを可能にする。たとえば、1つまたは複数の出力オーディオ信号138中のオーディオソース184の音は、ズームロケーション136に対してソース配向532でほぼソース距離434のところにあるオーディオソース184から来るように思われる。1つまたは複数の出力オーディオ信号138中のオーディオソース684の音は、ズームロケーション136に対してソース配向632でほぼソース距離634のところにあるオーディオソース684から来るように思われる。
【0087】
[0104]図7は、1つまたは複数のプロセッサ190を含む集積回路702として、デバイス102の実装形態700を示す。集積回路702は、1つまたは複数の入力オーディオ信号126が処理のために受信されることを可能にするために、1つまたは複数のバスインターフェースなどのオーディオ入力704をも含む。集積回路702は、1つまたは複数の出力オーディオ信号138などの出力信号を送ることを可能にするために、バスインターフェースなどのオーディオ出力706をも含む。集積回路702は、図8に示されているモバイルフォンまたはタブレット、図9に示されているヘッドセット、図10に示されているウェアラブル電子デバイス、図11に示されているボイス制御スピーカーシステム、図12に示されているカメラ、図13に示されている仮想現実ヘッドセットまたは拡張現実ヘッドセット、あるいは図14または図15に示されているビークルなど、システムにおける構成要素として、オーディオソース指向性に基づく心理音響的強調の実装を可能にする。
【0088】
[0105]図8は、例示的で非限定的な例として、デバイス102が、フォンまたはタブレットなど、モバイルデバイス802を含む、実装形態800を示す。モバイルデバイス802は、1つまたは複数のスピーカー160と、1つまたは複数のマイクロフォン120と、ディスプレイスクリーン804とを含む。オーディオエンハンサ192を含む、プロセッサ190の構成要素は、モバイルデバイス802に統合され、モバイルデバイス802のユーザには概して見えない内部構成要素を示すために破線を使用して示されている。特定の例では、オーディオエンハンサ192は、ユーザボイスアクティビティを強調するように動作し、ユーザボイスアクティビティは、次いで、グラフィカルユーザインターフェースを起動するか、または場合によっては(たとえば、統合「スマートアシスタント」アプリケーションを介して)ディスプレイスクリーン804においてユーザの音声に関連する他の情報を表示するためになど、モバイルデバイス802において1つまたは複数の動作を実施するために処理される。特定の例では、オーディオエンハンサ192は、オンライン会議中に話者のボイスアクティビティを強調する。例示のために、ユーザが、オンライン会議中にディスプレイスクリーン804上で話者を見ることができ、話者をズームターゲットとして選択する。オーディオエンハンサ192は、ズームターゲットの選択に応答して、話者の音声を強調する。別の例では、モバイルデバイス802の鳥追跡アプリケーションのユーザが、ズームターゲットとして木を選択する。オーディオエンハンサ192は、ズームターゲットの選択に応答して、木の上の鳥からの鳥の音を強調する。
【0089】
[0106]図9は、デバイス102がヘッドセットデバイス902を含む、実装形態900を示す。ヘッドセットデバイス902は、1つまたは複数のマイクロフォン120、1つまたは複数のスピーカー160、またはそれらの組合せを含む。オーディオエンハンサ192を含む、プロセッサ190の構成要素は、ヘッドセットデバイス902に統合される。特定の例では、オーディオエンハンサ192は、ユーザボイスアクティビティを強調するように動作し、ユーザボイスアクティビティは、ヘッドセットデバイス902に、ヘッドセットデバイス902において1つまたは複数の動作を実施させるか、さらなる処理のために第2のデバイス(図示せず)にユーザボイスアクティビティに対応するオーディオデータを送信させるか、またはそれらの組合せを行わせ得る。特定の態様では、ヘッドセットデバイス902は、ヘッドセットデバイス902のオーディオ出力に対応する音場の異なる部分にズームするために使用され得る入力(たとえば、ボタンまたは矢印)を有する。たとえば、ヘッドセットデバイス902はオーケストラ音楽を出力し、ヘッドセットデバイス902を装着しているユーザが、オーケストラの特定のセクションまたは楽器をズームターゲットとして選択するために、ヘッドセットデバイス902の入力を使用する。オーディオエンハンサ192は、ズームターゲット(たとえば、特定のセクションまたは楽器)へのオーディオズーム動作に対応する1つまたは複数の出力オーディオ信号138を生成する。
【0090】
[0107]図10は、デバイス102が、「スマートウォッチ」として示されているウェアラブル電子デバイス1002を含む、実装形態1000を示す。オーディオエンハンサ192、1つまたは複数のマイクロフォン120、1つまたは複数のスピーカー160、またはそれらの組合せは、ウェアラブル電子デバイス1002に統合される。特定の例では、オーディオエンハンサ192は、ユーザボイスアクティビティを強調するように動作し、ユーザボイスアクティビティは、次いで、グラフィカルユーザインターフェースを起動するか、または場合によってはウェアラブル電子デバイス1002のディスプレイスクリーン1004においてユーザの音声に関連する他の情報を表示するためになど、ウェアラブル電子デバイス1002において1つまたは複数の動作を実施するために処理される。例示のために、ウェアラブル電子デバイス1002は、ウェアラブル電子デバイス1002によって強調されたユーザ音声に基づいて通知を表示するように構成されたディスプレイスクリーンを含み得る。特定の例では、ウェアラブル電子デバイス1002は、ユーザボイスアクティビティに応答して触覚通知を提供する(たとえば、振動する)触覚デバイスを含む。たとえば、触覚通知は、ユーザが、ユーザによって話されたキーワードの検出を示す表示された通知を見るためにウェアラブル電子デバイス1002を見ることを引き起こすことができる。したがって、ウェアラブル電子デバイス1002は、ユーザのボイスアクティビティが検出されたことを、聴覚障害をもつユーザまたはヘッドセットを装着しているユーザにアラートすることができる。特定の態様では、ウェアラブル電子デバイス1002は、ウェアラブル電子デバイス1002のオーディオ出力に対応する音場の異なる部分にズームするために使用され得る入力(たとえば、ボタンまたは矢印)を含む。
【0091】
[0108]図11は、デバイス102がワイヤレススピーカーおよびボイスアクティブ化デバイス1102を含む、実装形態1100である。ワイヤレススピーカーおよびボイスアクティブ化デバイス1102は、ワイヤレスネットワーク接続性を有することができ、アシスタント動作を実行するように構成される。オーディオエンハンサ192を含む1つまたは複数のプロセッサ190、1つまたは複数のマイクロフォン120、1つまたは複数のスピーカー160、またはそれらの組合せは、ワイヤレススピーカーおよびボイスアクティブ化デバイス1102中に含まれる。動作中に、オーディオエンハンサ192のオーディオ強調動作を介してユーザ音声として識別されたバーバルコマンドを受信したことに応答して、ワイヤレススピーカーおよびボイスアクティブ化デバイス1102は、ボイスアクティベーションシステム(たとえば、統合アシスタントアプリケーション)の実行を介してなど、アシスタント動作を実行することができる。アシスタント動作は、温度を調整すること、音楽を再生すること、ライトをオンにすることなどを含むことができる。たとえば、アシスタント動作は、キーワードまたはキーフレーズ(たとえば、「こんにちは、アシスタント」)の後にコマンドを受信したことに応答して実施される。
【0092】
[0109]図12は、デバイス102が、カメラデバイス1202に対応するポータブル電子デバイスを含む、実装形態1200を示す。オーディオエンハンサ192、1つまたは複数のマイクロフォン120、1つまたは複数のスピーカー160、またはそれらの組合せは、カメラデバイス1202中に含まれる。動作中に、オーディオエンハンサ192の動作を介して、強調されたユーザ音声としてバーバルコマンドを受信したことに応答して、カメラデバイス1202は、例示的な例として、ズーム動作を実施する、画像またはビデオキャプチャ設定、画像またはビデオ再生設定、あるいは画像またはビデオキャプチャ命令を調整するためになど、話されたユーザコマンドに応答して動作を実行することができる。特定の例では、カメラデバイス1202はビデオカメラを含み、ビデオカメラは、ビューファインダーにおいて見えるオーディオソース184上にズームインするとき、オーディオエンハンサ192に、オーディオソース184からキャプチャされたオーディオを強調するためにオーディオズーム動作を実施させる。
【0093】
[0110]図13は、デバイス102が、仮想現実、拡張現実、または複合現実ヘッドセット1302に対応するポータブル電子デバイスを含む、実装形態1300を示す。オーディオエンハンサ192、1つまたは複数のマイクロフォン120、1つまたは複数のスピーカー160、またはそれらの組合せは、ヘッドセット1302に統合される。オーディオ強調は、ヘッドセット1302の1つまたは複数のマイクロフォン120から受信されたオーディオ信号に基づいて実施され得る。特定の例では、オーディオ強調は、メモリ、ネットワーク、別のデバイス、またはそれらの組合せから受信された、仮想現実、拡張現実、または複合現実に対応するオーディオ信号に対して実施され得る。視覚インターフェースデバイスが、ヘッドセット1302が装着されている間、ユーザへの拡張現実または仮想現実の画像またはシーンの表示を可能にするために、ユーザの眼の前に配置される。特定の例では、視覚インターフェースデバイスは、オーディオ信号の強調された音声を示す通知を表示するように構成される。特定の実装形態では、ユーザが視覚インターフェースデバイスに示されている仮想または実際のオブジェクトにズームするためにヘッドセット1302を使用するとき、オーディオエンハンサ192は、(たとえば、ゲームをすることの一部として)オブジェクトに対応するオーディオのオーディオズームを実施する。いくつかの例では、オーディオエンハンサ192は、視覚インターフェースデバイスによって表示される視覚ズームと連動して、オーディオズームを実施する。
【0094】
[0111]図14は、デバイス102が、有人または無人航空デバイス(たとえば、パッケージ配達ドローン)として示されているビークル1402に対応するか、またはビークル1402内に統合される、実装形態1400を示す。オーディオエンハンサ192、1つまたは複数のマイクロフォン120、1つまたは複数のスピーカー160、またはそれらの組合せは、ビークル1402に統合される。オーディオ(たとえば、ユーザボイスアクティビティ)強調は、ビークル1402の許可されたユーザからの配達命令についてなど、ビークル1402の1つまたは複数のマイクロフォン120から受信されたオーディオ信号に基づいて実施され得る。
【0095】
[0112]図15は、デバイス102が、車として示されているビークル1502に対応するか、またはビークル1502内に統合される、別の実装形態1500を示す。ビークル1502は、オーディオエンハンサ192を含むプロセッサ190を含む。ビークル1502は、1つまたは複数のマイクロフォン120をも含む。オーディオ(たとえば、ユーザボイスアクティビティ)強調は、ビークル1502の1つまたは複数のマイクロフォン120から受信されたオーディオ信号に基づいて実施され得る。いくつかの実装形態では、オーディオ(たとえば、ボイスアクティビティ)強調は、許可された乗客からのボイスコマンドについてなど、内部マイクロフォン(たとえば、1つまたは複数のマイクロフォン120)から受信されたオーディオ信号に基づいて実施され得る。たとえば、ユーザボイスアクティビティ強調は、ビークル1502のオペレータまたは乗客からのボイスコマンドを強調するために使用され得る。いくつかの実装形態では、オーディオ強調は、オーディオソース184(たとえば、鳥、ビーチ上の波、屋外音楽、ビークル1502の許可されたユーザ、ドライブスルーの小売従業員、またはカーブサイドピックアップ(curb-side pickup)人員)からの音など、外部マイクロフォン(たとえば、1つまたは複数のマイクロフォン120)から受信されたオーディオ信号に基づいて実施され得る。特定の実装形態では、オーディオエンハンサ192の動作を介して、強調されたユーザ音声としてバーバルコマンドを受信したことに応答して、ボイスアクティベーションシステムは、ディスプレイ1520または1つまたは複数のスピーカー(たとえば、スピーカー1510)を介してフィードバックまたは情報を提供することによってなど、1つまたは複数の出力オーディオ信号138において検出された1つまたは複数のキーワード(たとえば、「ロック解除する」、「エンジンを開始する」、「音楽を再生する」、「天気予報を表示する」、または別のボイスコマンド)に基づいて、ビークル1502の1つまたは複数の動作を始動する。特定の実装形態では、強調された外部音(たとえば、屋外音楽、鳥の音など)は、1つまたは複数のスピーカー160を介してビークル1502の内部において再生される。
【0096】
[0113]図16を参照すると、オーディオソース指向性に基づく心理音響的強調の方法1600の特定の実装形態が示されている。特定の態様では、方法1600の1つまたは複数の動作は、図1の指向性分析器152、等化器148、オーディオエンハンサ192、1つまたは複数のプロセッサ190、デバイス102、システム100、またはそれらの組合せのうちの少なくとも1つによって実施される。
【0097】
[0114]方法1600は、1602において、1つまたは複数の入力オーディオ信号に対応する1つまたは複数のオーディオソースの指向性データを取得することを含む。たとえば、図1の指向性分析器152は、図1および図4図6を参照しながら説明されるように、1つまたは複数の入力オーディオ信号126に対応するオーディオソース184の指向性データ141を取得する。
【0098】
[0115]方法1600はまた、1604において、指向性データに少なくとも部分的に基づいて1つまたは複数の等化器設定を決定することを含む。たとえば、図1の指向性分析器152は、図1および図4図6を参照しながら説明されるように、指向性データ141に少なくとも部分的に基づいて等化器設定153を決定する。
【0099】
[0116]方法1600は、1606において、等化器設定に基づいて、1つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する1つまたは複数の出力オーディオ信号を生成することをさらに含む。たとえば、図1の等化器148は、等化器設定153に基づいて、1つまたは複数の入力オーディオ信号126の心理音響的強調バージョンに対応する1つまたは複数の出力オーディオ信号138を生成する。
【0100】
[0117]方法1600は、オーディオソース184の指向性に基づいて周波数についてラウドネスを調整することによって1つまたは複数の出力オーディオ信号138を生成することを可能にする。1つまたは複数の出力オーディオ信号138は、たとえば、1つまたは複数の入力オーディオ信号126の利得を調整するにすぎないことと比較して、より自然なサウンディングオーディオズームに対応する。
【0101】
[0118]図16の方法1600は、フィールドプログラマブルゲートアレイ(FPGA)デバイス、特定用途向け集積回路(ASIC)、中央処理ユニット(CPU)などの処理ユニット、DSP、コントローラ、別のハードウェアデバイス、ファームウェアデバイス、またはそれらの任意の組合せによって実装され得る。一例として、図16の方法1600は、図17を参照しながら説明されるものなど、命令を実行するプロセッサによって実施され得る。
【0102】
[0119]図17を参照すると、デバイスの特定の例示的な実装形態のブロック図が示されており、全体的に1700と指定される。様々な実装形態では、デバイス1700は、図17に示されているものよりも多いまたは少ない構成要素を有し得る。例示的な一実装形態では、デバイス1700は、デバイス102に対応し得る。例示的な一実装形態では、デバイス1700は、図1図16を参照しながら説明される1つまたは複数の動作を実施し得る。
【0103】
[0120]特定の実装形態では、デバイス1700は、プロセッサ1706(たとえば、中央処理ユニット(CPU))を含む。デバイス1700は、1つまたは複数の追加のプロセッサ1710(たとえば、1つまたは複数のDSP)を含み得る。特定の態様では、図1の1つまたは複数プロセッサ190は、プロセッサ1706、プロセッサ1710、またはそれらの組合せに対応する。プロセッサ1710は、ボイスコーダ(「ボコーダ」)エンコーダ1736、ボコーダデコーダ1738、オーディオエンハンサ192、またはそれらの組合せを含む、音声および音楽コーダデコーダ(コーデック)1708を含み得る。
【0104】
[0121]デバイス1700は、メモリ132とコーデック1734とを含み得る。メモリ132は、オーディオエンハンサ192を参照しながら説明される機能を実装するために1つまたは複数の追加のプロセッサ1710(またはプロセッサ1706)によって実行可能である、命令1756を含み得る。デバイス1700は、トランシーバ1750を介してアンテナ1752に結合されたモデム1746を含み得る。
【0105】
[0122]デバイス1700は、ディスプレイコントローラ1726に結合されたディスプレイデバイス162を含み得る。1つまたは複数のスピーカー160、1つまたは複数のマイクロフォン120、またはそれらの組合せは、コーデック1734に結合され得る。たとえば、1つまたは複数のマイクロフォン120は、図1の1つまたは複数の入力インターフェース124を介してコーデック1734に結合され得る。1つまたは複数のスピーカー160は、1つまたは複数の出力インターフェースを介してコーデック1734に結合され得る。コーデック1734は、デジタルアナログ変換器(DAC)1702、アナログデジタル変換器(ADC)1704、またはその両方を含み得る。特定の実装形態では、コーデック1734は、1つまたは複数のマイクロフォン120からアナログ信号を受信し、アナログデジタル変換器1704を使用してアナログ信号をデジタル信号に変換し、デジタル信号を音声および音楽コーデック1708に提供し得る。音声および音楽コーデック1708は、デジタル信号を処理し得、デジタル信号は、オーディオエンハンサ192によってさらに処理され得る。特定の実装形態では、音声および音楽コーデック1708は、デジタル信号をコーデック1734に提供し得る。コーデック1734は、デジタルアナログ変換器1702を使用してデジタル信号をアナログ信号に変換し得、アナログ信号を1つまたは複数のスピーカー160に提供し得る。
【0106】
[0123]特定の実装形態では、デバイス1700は、システムインパッケージまたはシステムオンチップデバイス1722中に含まれ得る。特定の実装形態では、メモリ132、プロセッサ1706、プロセッサ1710、ディスプレイコントローラ1726、コーデック1734、およびモデム1746は、システムインパッケージまたはシステムオンチップデバイス1722中に含まれる。特定の実装形態では、入力デバイス130、カメラ140、および電源1744は、システムオンチップデバイス1722に結合される。その上、特定の実装形態では、図17に示されているように、ディスプレイデバイス162、入力デバイス130、カメラ140、1つまたは複数のスピーカー160、1つまたは複数のマイクロフォン120、アンテナ1752、および電源1744は、システムオンチップデバイス1722の外部にある。特定の実装形態では、ディスプレイデバイス162、入力デバイス130、カメラ140、1つまたは複数のスピーカー160、1つまたは複数のマイクロフォン120、アンテナ1752、および電源1744の各々は、インターフェース(たとえば、1つまたは複数の入力インターフェース124、入力インターフェース144、1つまたは複数の追加のインターフェース、またはそれらの組合せ)またはコントローラなど、システムオンチップデバイス1722の構成要素に結合され得る。
【0107】
[0124]デバイス1700は、仮想アシスタント、家庭用電気器具、スマートデバイス、モノのインターネット(IoT)デバイス、通信デバイス、ヘッドセット、ビークル、コンピュータ、ディスプレイデバイス、テレビジョン、ゲーミングコンソール、音楽プレーヤ、無線機、ビデオプレーヤ、エンターテインメントユニット、パーソナルメディアプレーヤ、デジタルビデオプレーヤ、カメラ、ナビゲーションデバイス、スマートスピーカー、スピーカーバー、モバイル通信デバイス、スマートフォン、セルラーフォン、ラップトップコンピュータ、タブレット、携帯情報端末、デジタルビデオディスク(DVD)プレーヤ、チューナー、拡張現実ヘッドセット、仮想現実ヘッドセット、航空ビークル、ホームオートメーションシステム、ボイスアクティブ化デバイス、ワイヤレススピーカーおよびボイスアクティブ化デバイス、ポータブル電子デバイス、車、コンピューティングデバイス、仮想現実(VR)デバイス、基地局、モバイルデバイス、またはそれらの任意の組合せを含み得る。
【0108】
[0125]説明される実装形態に関連して、装置が、1つまたは複数の入力オーディオ信号に対応する1つまたは複数のオーディオソースの指向性データを取得するための手段を含む。たとえば、取得するための手段は、図1の指向性分析器152、オーディオエンハンサ192、1つまたは複数のプロセッサ190、デバイス102、システム100、プロセッサ1706、プロセッサ1710、モデム1746、トランシーバ1750、アンテナ1752、1つまたは複数のオーディオソースの指向性データを取得するように構成された1つまたは複数の他の回路または構成要素、あるいはそれらの任意の組合せに対応することができる。
【0109】
[0126]本装置は、指向性データに少なくとも部分的に基づいて1つまたは複数の等化器設定を決定するための手段をも含む。たとえば、決定するための手段は、図1の指向性分析器152、オーディオエンハンサ192、1つまたは複数のプロセッサ190、デバイス102、システム100、プロセッサ1706、プロセッサ1710、指向性データに少なくとも部分的に基づいて1つまたは複数の等化器設定を決定するように構成された1つまたは複数の他の回路または構成要素、あるいはそれらの任意の組合せに対応することができる。
【0110】
[0127]本装置は、等化器設定に基づいて、1つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する1つまたは複数の出力オーディオ信号を生成するための手段をさらに含む。たとえば、生成するための手段は、図1の指向性分析器152、オーディオエンハンサ192、1つまたは複数のプロセッサ190、デバイス102、システム100、プロセッサ1706、プロセッサ1710、等化器設定に基づいて、1つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する1つまたは複数の出力オーディオ信号を生成するように構成された1つまたは複数の他の回路または構成要素、あるいはそれらの任意の組合せに対応することができる。
【0111】
[0128]いくつかの実装形態では、非一時的コンピュータ可読媒体(たとえば、メモリ132などのコンピュータ可読記憶デバイス)が、命令(たとえば、命令1756)を含み、命令は、1つまたは複数のプロセッサ(たとえば、1つまたは複数のプロセッサ1710またはプロセッサ1706)によって実行されたとき、1つまたは複数のプロセッサに、1つまたは複数の入力オーディオ信号(たとえば、1つまたは複数の入力オーディオ信号126)に対応する1つまたは複数のオーディオソース(たとえば、オーディオソース184、オーディオソース684、またはその両方)の指向性データ(たとえば、指向性データ141)を取得することを行わせる。命令は、1つまたは複数のプロセッサによって実行されたとき、1つまたは複数のプロセッサに、指向性データに少なくとも部分的に基づいて1つまたは複数の等化器設定(たとえば、等化器設定153、等化器設定653、またはそれらの組合せ)を決定することをも行わせる。命令は、1つまたは複数のプロセッサによって実行されたとき、1つまたは複数のプロセッサに、等化器設定に基づいて、1つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する1つまたは複数の出力オーディオ信号(たとえば、1つまたは複数の出力オーディオ信号138)を生成することをも行わせる。
【0112】
[0129]本開示の特定の態様が、相互に関係する条項の第1のセットにおいて以下で説明される。
【0113】
[0130]条項1によれば、デバイスが1つまたは複数のプロセッサを含み、1つまたは複数のプロセッサは、1つまたは複数の入力オーディオ信号に対応する1つまたは複数のオーディオソースの指向性データを取得することと、指向性データに少なくとも部分的に基づいて1つまたは複数の等化器設定を決定することと、等化器設定に基づいて、1つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する1つまたは複数の出力オーディオ信号を生成することとを行うように構成される。
【0114】
[0131]条項2は、心理音響的強調バージョンが、オーディオズーム動作に関連するズーム配向およびズーム距離における1つまたは複数のオーディオソースの周波数応答を近似する、条項1に記載のデバイスを含む。
【0115】
[0132]条項3は、1つまたは複数のプロセッサが、オーディオズーム動作のズームターゲットを示すユーザ入力を受信することと、ズームターゲットに基づいて1つまたは複数の等化器設定を決定することとを行うようにさらに構成された、条項1または条項2に記載のデバイスを含む。
【0116】
[0133]条項4は、ズームターゲットが、ズームロケーション、ズーム距離、ズーム配向、1つまたは複数のオーディオソースのうちの少なくとも1つの選択、またはそれらの組合せを含む、条項3に記載のデバイスを含む。
【0117】
[0134]条項5は、1つまたは複数のオーディオソースのうちの特定のオーディオソースの指向性データが、特定のオーディオソースの配向および距離周波数応答特性を示す、条項1から条項4のいずれかに記載のデバイスを含む。
【0118】
[0135]条項6は、1つまたは複数のプロセッサが、1つまたは複数のビームフォーミングされたオーディオ信号を生成するために、1つまたは複数の入力オーディオ信号に対してビームフォーミングを実施することと、1つまたは複数の出力オーディオ信号を生成するために、1つまたは複数のビームフォーミングされたオーディオ信号に基づく等化器入力オーディオ信号を処理することとを行うようにさらに構成された、条項1から条項5のいずれかに記載のデバイスを含む。
【0119】
[0136]条項7は、1つまたは複数のプロセッサが、1つまたは複数の音声オーディオ信号を生成するために、1つまたは複数の入力オーディオ信号に基づく音声検出入力オーディオ信号中の音声を識別することと、1つまたは複数の出力オーディオ信号を生成するために、1つまたは複数の音声オーディオ信号に基づく等化器入力オーディオ信号を処理することとを行うようにさらに構成された、条項1から条項6のいずれかに記載のデバイスを含む。
【0120】
[0137]条項8は、1つまたは複数のプロセッサが、利得調整されたオーディオ信号を生成するために、ズームターゲットに基づいて、1つまたは複数の入力オーディオ信号に基づく利得調整器入力オーディオ信号に1つまたは複数の利得を適用することと、1つまたは複数の出力オーディオ信号を生成するために、利得調整されたオーディオ信号に基づく等化器入力オーディオ信号を処理することとを行うようにさらに構成された、条項1から条項7のいずれかに記載のデバイスを含む。
【0121】
[0138]条項9は、1つまたは複数のプロセッサが、雑音抑圧されたオーディオ信号を生成するために、1つまたは複数の入力オーディオ信号に基づく雑音抑圧器入力オーディオ信号に対して雑音抑圧を実施することと、1つまたは複数の出力オーディオ信号を生成するために、雑音抑圧されたオーディオ信号に基づく等化器入力オーディオ信号を処理することとを行うようにさらに構成された、条項1から条項8のいずれかに記載のデバイスを含む。
【0122】
[0139]条項10は、1つまたは複数のプロセッサは、1つまたは複数のオーディオソースのコンテキストデータを生成するために、1つまたは複数の入力オーディオ信号に基づくコンテキスト検出器入力オーディオ信号を処理することと、ここにおいて、1つまたは複数のオーディオソースのうちの特定のオーディオソースのコンテキストデータが、特定のオーディオソースの配向、特定のオーディオソースの距離、特定のオーディオソースのタイプ、またはそれらの組合せを示す、特定のオーディオソースのタイプに基づいて特定のオーディオソースの指向性データを取得することとを行うようにさらに構成された、条項1から条項9のいずれかに記載のデバイスを含む。
【0123】
[0140]条項11は、1つまたは複数のプロセッサが、1つまたは複数の入力オーディオ信号に関連する画像データに少なくとも部分的に基づいてコンテキストデータを生成するようにさらに構成された、条項10に記載のデバイスを含む。
【0124】
[0141]条項12は、1つまたは複数のプロセッサが、メモリから画像データと1つまたは複数の入力オーディオ信号とを取り出すようにさらに構成された、条項11に記載のデバイスを含む。
【0125】
[0142]条項13は、1つまたは複数のプロセッサに結合され、1つまたは複数の入力オーディオ信号を生成するように構成された、1つまたは複数のマイクロフォンをさらに含む、条項11または条項12に記載のデバイスを含む。
【0126】
[0143]条項14は、1つまたは複数のプロセッサに結合され、画像データを生成するように構成された、カメラをさらに含む、条項11から条項13のいずれかに記載のデバイスを含む。
【0127】
[0144]条項15は、1つまたは複数のプロセッサが、1つまたは複数のオーディオソースのうちの特定のオーディオソースのタイプを識別するために、1つまたは複数の入力オーディオ信号、画像データ、またはその両方に基づいて、オーディオソース認識を実施するようにさらに構成された、条項11から条項14のいずれかに記載のデバイスを含む。
【0128】
[0145]条項16は、1つまたは複数のプロセッサが、1つまたは複数のオーディオソースのうちの特定のオーディオソースを決定するために、1つまたは複数の入力オーディオ信号、画像データ、またはその両方に基づいて、オーディオソース認識を実施することと、特定のオーディオソースの配向を決定するために、画像データに対して画像分析を実施することとを行うようにさらに構成された、条項11から条項15のいずれかに記載のデバイスを含む。
【0129】
[0146]条項17は、1つまたは複数のプロセッサが、1つまたは複数のオーディオソースのうちの特定のオーディオソースを決定するために、1つまたは複数の入力オーディオ信号、画像データ、またはその両方に基づいて、オーディオソース認識を実施することと、特定のオーディオソースの距離を決定するために、1つまたは複数の入力オーディオ信号、画像データ、またはその両方に対して、距離分析を実施することとを行うようにさらに構成された、条項11から条項16のいずれかに記載のデバイスを含む。
【0130】
[0147]条項18は、1つまたは複数のプロセッサが、1つまたは複数の等化器設定を、コンテキストデータ、指向性データ、ズーム配向、ズーム距離、またはそれらの組合せに関連付ける等化器設定データに基づいて、1つまたは複数の等化器設定を選択するようにさらに構成された、条項10から条項17のいずれかに記載のデバイスを含む。
【0131】
[0148]条項19は、1つまたは複数のプロセッサが、メモリ、別のデバイス、またはその両方から、等化器設定データを取得するようにさらに構成された、条項18に記載のデバイスを含む。
【0132】
[0149]条項20は、1つまたは複数のプロセッサが、中間周波数に対応する周波数応答を低減するために、1つまたは複数の等化器設定を選択するようにさらに構成された、条項10から条項19のいずれかに記載のデバイスを含む。
【0133】
[0150]条項21は、1つまたは複数のプロセッサは、第1の時間において、1つまたは複数のオーディオソースのうちの特定のオーディオソースに対応する第1の入力オーディオ信号の第1の音スペクトルを生成することと、第2の時間において、特定のオーディオソースに対応する第2の入力オーディオ信号の第2の音スペクトルを生成することと、第1の時間における第1の距離および第1の配向と、第2の時間における第2の距離および第2の配向との間の差が、第1の音スペクトルと第2の音スペクトルとの間の差に対応することを示すように、指向性データを更新することとを行うようにさらに構成された、条項1から条項20のいずれかに記載のデバイスを含む。
【0134】
[0151]条項22は、1つまたは複数のプロセッサが、メモリ、別のデバイス、またはその両方から、指向性データを取得するようにさらに構成された、条項1から条項21のいずれかに記載のデバイスを含む。
【0135】
[0152]条項23は、1つまたは複数のプロセッサは、1つまたは複数のビームフォーミングされたオーディオ信号を生成するために、1つまたは複数の入力オーディオ信号に対してビームフォーミングを実施することと、1つまたは複数の音声オーディオ信号を生成するために、1つまたは複数の入力オーディオ信号中の音声を検出することと、1つまたは複数の利得調整されたオーディオ信号を生成するために、ズームターゲットに基づいて、1つまたは複数のビームフォーミングされたオーディオ信号、1つまたは複数の音声オーディオ信号、またはそれらの組合せに、1つまたは複数の利得を適用することと、1つまたは複数の利得調整されたオーディオ信号に少なくとも部分的に基づいて、1つまたは複数のオーディオソースのコンテキストデータを生成することと、ここにおいて、1つまたは複数のオーディオソースのうちの特定のオーディオソースのコンテキストデータが、特定のオーディオソースの配向、特定のオーディオソースの距離、特定のオーディオソースのタイプ、またはそれらの組合せを示す、特定のオーディオソースのタイプに基づいて特定のオーディオソースの指向性データを取得することと、コンテキストデータ、ズーム配向、およびズーム距離にさらに基づいて、1つまたは複数の等化器設定を決定することと、1つまたは複数の雑音抑圧されたオーディオ信号を生成するために、1つまたは複数の利得調整されたオーディオ信号に雑音抑圧を適用することと、1つまたは複数の等化器設定に基づいて1つまたは複数の雑音抑圧されたオーディオ信号を処理することによって、1つまたは複数の出力オーディオ信号を生成することとを行うようにさらに構成された、条項1から条項5、条項21、または条項22のいずれかに記載のデバイスを含む。
【0136】
[0153]本開示の特定の態様が、相互に関係する条項の第2のセットにおいて以下で説明される。
【0137】
[0154]条項24によれば、方法が、デバイスにおいて、1つまたは複数の入力オーディオ信号に対応する1つまたは複数のオーディオソースの指向性データを取得することと、デバイスにおいて、指向性データに少なくとも部分的に基づいて1つまたは複数の等化器設定を決定することと、等化器設定に基づいて、1つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する1つまたは複数の出力オーディオ信号を生成することとを含む。
【0138】
[0155]条項25は、デバイスにおいて、オーディオズーム動作のズームターゲットを示すユーザ入力を受信することと、デバイスにおいて、ズームターゲットに基づいて1つまたは複数の等化器設定を決定することと、ここにおいて、ズームターゲットが、ズームロケーション、ズーム距離、ズーム配向、1つまたは複数のオーディオソースのうちの少なくとも1つの選択、またはそれらの組合せを含む、をさらに含む、条項24に記載の方法を含む。
【0139】
[0156]本開示の特定の態様が、相互に関係する条項の第3のセットにおいて以下で説明される。
【0140】
[0157]条項26によれば、非一時的コンピュータ可読媒体が命令を記憶し、命令は、1つまたは複数のプロセッサによって実行されたとき、1つまたは複数のプロセッサに、1つまたは複数の入力オーディオ信号に対応する1つまたは複数のオーディオソースの指向性データを取得することと、指向性データに少なくとも部分的に基づいて1つまたは複数の等化器設定を決定することと、等化器設定に基づいて、1つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する1つまたは複数の出力オーディオ信号を生成することとを行わせる。
【0141】
[0158]条項27は、命令が、1つまたは複数のプロセッサによって実行されたとき、1つまたは複数のプロセッサに、1つまたは複数のビームフォーミングされたオーディオ信号を生成するために、1つまたは複数の入力オーディオ信号に対してビームフォーミングを実施することと、1つまたは複数の出力オーディオ信号を生成するために、1つまたは複数のビームフォーミングされたオーディオ信号に基づく等化器入力オーディオ信号を処理することとをさらに行わせる、条項26に記載の非一時的コンピュータ可読媒体を含む。
【0142】
[0159]条項28は、命令が、1つまたは複数のプロセッサによって実行されたとき、1つまたは複数のプロセッサに、1つまたは複数の音声オーディオ信号を生成するために、1つまたは複数の入力オーディオ信号に基づく音声検出入力オーディオ信号中の音声を識別することと、1つまたは複数の出力オーディオ信号を生成するために、1つまたは複数の音声オーディオ信号に基づく等化器入力オーディオ信号を処理することとをさらに行わせる、条項26または条項27に記載の非一時的コンピュータ可読媒体を含む。
【0143】
[0160]本開示の特定の態様が、相互に関係する条項の第4のセットにおいて以下で説明される。
【0144】
[0161]条項29によれば、装置が、1つまたは複数の入力オーディオ信号に対応する1つまたは複数のオーディオソースの指向性データを取得するための手段と、指向性データに少なくとも部分的に基づいて1つまたは複数の等化器設定を決定するための手段と、等化器設定に基づいて、1つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する1つまたは複数の出力オーディオ信号を生成するための手段とを含む。
【0145】
[0162]条項30は、取得するための手段、決定するための手段、および生成するための手段が、仮想アシスタント、家庭用電気器具、スマートデバイス、モノのインターネット(IoT)デバイス、通信デバイス、ヘッドセット、ビークル、コンピュータ、ディスプレイデバイス、テレビジョン、ゲーミングコンソール、音楽プレーヤ、無線機、ビデオプレーヤ、エンターテインメントユニット、パーソナルメディアプレーヤ、デジタルビデオプレーヤ、カメラ、またはナビゲーションデバイスのうちの少なくとも1つに統合される、条項29に記載の装置を含む。
【0146】
[0163]本明細書で開示される実装形態に関して説明された様々な例示的な論理ブロック、構成、モジュール、回路、およびアルゴリズムステップは、電子ハードウェア、プロセッサによって実行されるコンピュータソフトウェア、またはその両方の組合せとして実装され得ることを、当業者はさらに諒解されよう。様々な例示的な構成要素、ブロック、構成、モジュール、回路、およびステップが、概してそれらの機能に関して上記で説明された。そのような機能がハードウェアとして実装されるのか、プロセッサ実行可能命令として実装されるのかは、特定の適用例および全体的なシステムに課される設計制約に依存する。当業者は、説明された機能を特定の適用例ごとに様々な方法で実装し得、そのような実装の判断は、本開示の範囲からの逸脱を引き起こすと解釈されるべきではない。
【0147】
[0164]本明細書で開示された実装形態に関して説明された方法またはアルゴリズムのステップは、直接ハードウェアで実施されるか、プロセッサによって実行されるソフトウェアモジュールで実施されるか、またはその2つの組合せで実施され得る。ソフトウェアモジュールは、ランダムアクセスメモリ(RAM)、フラッシュメモリ、読取り専用メモリ(ROM)、プログラマブル読取り専用メモリ(PROM)、消去可能プログラマブル読取り専用メモリ(EPROM)、電気的消去可能プログラマブル読取り専用メモリ(EEPROM(登録商標))、レジスタ、ハードディスク、リムーバブルディスク、コンパクトディスク読取り専用メモリ(CD-ROM)、または当技術分野で知られている任意の他の形態の非一時的記憶媒体中に存在し得る。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込み得るように、プロセッサに結合される。代替として、記憶媒体はプロセッサと一体であり得る。プロセッサおよび記憶媒体は、特定用途向け集積回路(ASIC)中に存在し得る。ASICは、コンピューティングデバイスまたはユーザ端末中に存在し得る。代替として、プロセッサおよび記憶媒体は、コンピューティングデバイスまたはユーザ端末中に個別構成要素として存在し得る。
【0148】
[0165]開示された態様の上記の説明は、当業者が開示された態様を製作または使用することを可能にするために提供されている。これらの態様への様々な修正が当業者には容易に明らかになり、本明細書で定義された原理が、本開示の範囲から逸脱することなく他の態様に適用され得る。したがって、本開示は、本明細書に示された態様に限定されるものではなく、以下の特許請求の範囲によって定義される原理および新規の特徴に一致する可能な最も広い範囲を与えられるべきである。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
[C1]
1つまたは複数の入力オーディオ信号に対応する1つまたは複数のオーディオソースの指向性データを記憶するように構成されたメモリと、
1つまたは複数のプロセッサと、
を備えるデバイスであって、前記1つまたは複数のプロセッサは、
前記指向性データに少なくとも部分的に基づいて1つまたは複数の等化器設定を決定することと、
前記等化器設定に基づいて、前記1つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する1つまたは複数の出力オーディオ信号を生成することと、
を行うように構成された、デバイス。
[C2]
前記心理音響的強調バージョンは、オーディオズーム動作に関連するズーム配向およびズーム距離における前記1つまたは複数のオーディオソースの周波数応答を近似する、C1に記載のデバイス。
[C3]
前記1つまたは複数のプロセッサは、
オーディオズーム動作のズームターゲットを示すユーザ入力を受信することと、
前記ズームターゲットに基づいて前記1つまたは複数の等化器設定を決定することと、
を行うようにさらに構成された、C1に記載のデバイス。
[C4]
前記ズームターゲットは、ズームロケーション、ズーム距離、ズーム配向、前記1つまたは複数のオーディオソースのうちの少なくとも1つの選択、またはそれらの組合せを含む、C3に記載のデバイス。
[C5]
前記1つまたは複数のオーディオソースのうちの特定のオーディオソースの前記指向性データは、前記特定のオーディオソースの配向および距離周波数応答特性を示す、C1に記載のデバイス。
[C6]
前記1つまたは複数のプロセッサは、
1つまたは複数のビームフォーミングされたオーディオ信号を生成するために、前記1つまたは複数の入力オーディオ信号に対してビームフォーミングを実施することと、
前記1つまたは複数の出力オーディオ信号を生成するために、前記1つまたは複数のビームフォーミングされたオーディオ信号に基づく等化器入力オーディオ信号を処理することと、
を行うようにさらに構成された、C1に記載のデバイス。
[C7]
前記1つまたは複数のプロセッサは、
1つまたは複数の音声オーディオ信号を生成するために、前記1つまたは複数の入力オーディオ信号に基づく音声検出入力オーディオ信号中の音声を識別することと、
前記1つまたは複数の出力オーディオ信号を生成するために、前記1つまたは複数の音声オーディオ信号に基づく等化器入力オーディオ信号を処理することと、
を行うようにさらに構成された、C1に記載のデバイス。
[C8]
前記1つまたは複数のプロセッサは、
利得調整されたオーディオ信号を生成するために、ズームターゲットに基づいて、前記1つまたは複数の入力オーディオ信号に基づく利得調整器入力オーディオ信号に1つまたは複数の利得を適用することと、
前記1つまたは複数の出力オーディオ信号を生成するために、前記利得調整されたオーディオ信号に基づく等化器入力オーディオ信号を処理することと、
を行うようにさらに構成された、C1に記載のデバイス。
[C9]
前記1つまたは複数のプロセッサは、
雑音抑圧されたオーディオ信号を生成するために、前記1つまたは複数の入力オーディオ信号に基づく雑音抑圧器入力オーディオ信号に対して雑音抑圧を実施することと、
前記1つまたは複数の出力オーディオ信号を生成するために、前記雑音抑圧されたオーディオ信号に基づく等化器入力オーディオ信号を処理することと、
を行うようにさらに構成された、C1に記載のデバイス。
[C10]
前記1つまたは複数のプロセッサは、
前記1つまたは複数のオーディオソースのコンテキストデータを生成するために、前記1つまたは複数の入力オーディオ信号に基づくコンテキスト検出器入力オーディオ信号を処理することと、ここにおいて、前記1つまたは複数のオーディオソースのうちの特定のオーディオソースの前記コンテキストデータは、前記特定のオーディオソースの配向、前記特定のオーディオソースの距離、前記特定のオーディオソースのタイプ、またはそれらの組合せを示す、
前記特定のオーディオソースの前記タイプに基づいて前記特定のオーディオソースの前記指向性データを取得することと、
を行うようにさらに構成された、C1に記載のデバイス。
[C11]
前記1つまたは複数のプロセッサは、前記1つまたは複数の入力オーディオ信号に関連する画像データに少なくとも部分的に基づいて前記コンテキストデータを生成するようにさらに構成された、C10に記載のデバイス。
[C12]
前記1つまたは複数のプロセッサは、メモリから前記画像データと前記1つまたは複数の入力オーディオ信号とを取り出すようにさらに構成された、C11に記載のデバイス。
[C13]
前記1つまたは複数のプロセッサに結合され、前記1つまたは複数の入力オーディオ信号を生成するように構成された、1つまたは複数のマイクロフォンをさらに備える、C11に記載のデバイス。
[C14]
前記1つまたは複数のプロセッサに結合され、前記画像データを生成するように構成された、カメラをさらに備える、C11に記載のデバイス。
[C15]
前記1つまたは複数のプロセッサは、前記1つまたは複数のオーディオソースのうちの前記特定のオーディオソースの前記タイプを識別するために、前記1つまたは複数の入力オーディオ信号、前記画像データ、またはその両方に基づいて、オーディオソース認識を実施するようにさらに構成された、C11に記載のデバイス。
[C16]
前記1つまたは複数のプロセッサは、
前記1つまたは複数のオーディオソースのうちの前記特定のオーディオソースを決定するために、前記1つまたは複数の入力オーディオ信号、前記画像データ、またはその両方に基づいて、オーディオソース認識を実施することと、
前記特定のオーディオソースの前記配向を決定するために、前記画像データに対して画像分析を実施することと、
を行うようにさらに構成された、C11に記載のデバイス。
[C17]
前記1つまたは複数のプロセッサは、
前記1つまたは複数のオーディオソースのうちの前記特定のオーディオソースを決定するために、前記1つまたは複数の入力オーディオ信号、前記画像データ、またはその両方に基づいて、オーディオソース認識を実施することと、
前記特定のオーディオソースの前記距離を決定するために、前記1つまたは複数の入力オーディオ信号、前記画像データ、またはその両方に対して、距離分析を実施することと、
を行うようにさらに構成された、C11に記載のデバイス。
[C18]
前記1つまたは複数のプロセッサは、前記1つまたは複数の等化器設定を、前記コンテキストデータ、前記指向性データ、ズーム配向、ズーム距離、またはそれらの組合せに関連付ける等化器設定データに基づいて、前記1つまたは複数の等化器設定を選択するようにさらに構成された、C10に記載のデバイス。
[C19]
前記1つまたは複数のプロセッサは、前記メモリ、別のデバイス、またはその両方から、前記等化器設定データを取得するようにさらに構成された、C18に記載のデバイス。
[C20]
前記1つまたは複数のプロセッサは、中間周波数に対応する周波数応答を低減するために、前記1つまたは複数の等化器設定を選択するようにさらに構成された、C10に記載のデバイス。
[C21]
前記1つまたは複数のプロセッサは、
第1の時間において、前記1つまたは複数のオーディオソースのうちの特定のオーディオソースに対応する第1の入力オーディオ信号の第1の音スペクトルを生成することと、
第2の時間において、前記特定のオーディオソースに対応する第2の入力オーディオ信号の第2の音スペクトルを生成することと、
前記第1の時間における第1の距離および第1の配向と、前記第2の時間における第2の距離および第2の配向との間の差が、前記第1の音スペクトルと前記第2の音スペクトルとの間の差に対応することを示すように、前記指向性データを更新することと、
を行うようにさらに構成された、C1に記載のデバイス。
[C22]
前記1つまたは複数のプロセッサは、前記メモリ、別のデバイス、またはその両方から、前記指向性データを取得するようにさらに構成された、C1に記載のデバイス。
[C23]
前記1つまたは複数のプロセッサは、
1つまたは複数のビームフォーミングされたオーディオ信号を生成するために、前記1つまたは複数の入力オーディオ信号に対してビームフォーミングを実施することと、
1つまたは複数の音声オーディオ信号を生成するために、前記1つまたは複数の入力オーディオ信号中の音声を検出することと、
1つまたは複数の利得調整されたオーディオ信号を生成するために、ズームターゲットに基づいて、前記1つまたは複数のビームフォーミングされたオーディオ信号、前記1つまたは複数の音声オーディオ信号、またはそれらの組合せに、1つまたは複数の利得を適用することと、
前記1つまたは複数の利得調整されたオーディオ信号に少なくとも部分的に基づいて、前記1つまたは複数のオーディオソースのコンテキストデータを生成することと、ここにおいて、前記1つまたは複数のオーディオソースのうちの特定のオーディオソースの前記コンテキストデータは、前記特定のオーディオソースの配向、前記特定のオーディオソースの距離、前記特定のオーディオソースのタイプ、またはそれらの組合せを示す、
前記特定のオーディオソースの前記タイプに基づいて前記特定のオーディオソースの前記指向性データを取得することと、
前記コンテキストデータ、ズーム配向、およびズーム距離にさらに基づいて、前記1つまたは複数の等化器設定を決定することと、
1つまたは複数の雑音抑圧されたオーディオ信号を生成するために、前記1つまたは複数の利得調整されたオーディオ信号に雑音抑圧を適用することと、
前記1つまたは複数の等化器設定に基づいて前記1つまたは複数の雑音抑圧されたオーディオ信号を処理することによって、前記1つまたは複数の出力オーディオ信号を生成することと、
を行うようにさらに構成された、C1に記載のデバイス。
[C24]
デバイスにおいて、1つまたは複数の入力オーディオ信号に対応する1つまたは複数のオーディオソースの指向性データを取得することと、
前記デバイスにおいて、前記指向性データに少なくとも部分的に基づいて1つまたは複数の等化器設定を決定することと、
前記等化器設定に基づいて、前記1つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する1つまたは複数の出力オーディオ信号を生成することと、
を備える方法。
[C25]
前記デバイスにおいて、オーディオズーム動作のズームターゲットを示すユーザ入力を受信することと、
前記デバイスにおいて、前記ズームターゲットに基づいて前記1つまたは複数の等化器設定を決定することと、ここにおいて、前記ズームターゲットは、ズームロケーション、ズーム距離、ズーム配向、前記1つまたは複数のオーディオソースのうちの少なくとも1つの選択、またはそれらの組合せを含む、
をさらに備える、C24に記載の方法。
[C26]
命令を記憶する非一時的コンピュータ可読媒体であって、前記命令は、1つまたは複数のプロセッサによって実行されたとき、前記1つまたは複数のプロセッサに、
1つまたは複数の入力オーディオ信号に対応する1つまたは複数のオーディオソースの指向性データを取得することと、
前記指向性データに少なくとも部分的に基づいて1つまたは複数の等化器設定を決定することと、
前記等化器設定に基づいて、前記1つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する1つまたは複数の出力オーディオ信号を生成することと、
を行わせる、非一時的コンピュータ可読媒体。
[C27]
前記命令は、前記1つまたは複数のプロセッサによって実行されたとき、前記1つまたは複数のプロセッサに、
1つまたは複数のビームフォーミングされたオーディオ信号を生成するために、前記1つまたは複数の入力オーディオ信号に対してビームフォーミングを実施することと、
前記1つまたは複数の出力オーディオ信号を生成するために、前記1つまたは複数のビームフォーミングされたオーディオ信号に基づく等化器入力オーディオ信号を処理することと、
をさらに行わせる、C26に記載の非一時的コンピュータ可読媒体。
[C28]
前記命令は、前記1つまたは複数のプロセッサによって実行されたとき、前記1つまたは複数のプロセッサに、
1つまたは複数の音声オーディオ信号を生成するために、前記1つまたは複数の入力オーディオ信号に基づく音声検出入力オーディオ信号中の音声を識別することと、
前記1つまたは複数の出力オーディオ信号を生成するために、前記1つまたは複数の音声オーディオ信号に基づく等化器入力オーディオ信号を処理することと、
をさらに行わせる、C26に記載の非一時的コンピュータ可読媒体。
[C29]
1つまたは複数の入力オーディオ信号に対応する1つまたは複数のオーディオソースの指向性データを取得するための手段と、
前記指向性データに少なくとも部分的に基づいて1つまたは複数の等化器設定を決定するための手段と、
前記等化器設定に基づいて、前記1つまたは複数の入力オーディオ信号の心理音響的強調バージョンに対応する1つまたは複数の出力オーディオ信号を生成するための手段と、
を備える装置。
[C30]
取得するための前記手段、決定するための前記手段、および生成するための前記手段は、仮想アシスタント、家庭用電気器具、スマートデバイス、モノのインターネット(IoT)デバイス、通信デバイス、ヘッドセット、ビークル、コンピュータ、ディスプレイデバイス、テレビジョン、ゲーミングコンソール、音楽プレーヤ、無線機、ビデオプレーヤ、エンターテインメントユニット、パーソナルメディアプレーヤ、デジタルビデオプレーヤ、カメラ、またはナビゲーションデバイスのうちの少なくとも1つに統合される、C29に記載の装置。
図1
図2A
図2B
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17