特許7439131 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ノキア　テクノロジーズ　オサケユイチアの特許一覧

特許7439131空間オーディオをキャプチャする装置および関連する方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-02-16

(45)【発行日】2024-02-27

(54)【発明の名称】空間オーディオをキャプチャする装置および関連する方法

(51)【国際特許分類】

H04S 7/00 20060101AFI20240219BHJP

G06F 3/16 20060101ALI20240219BHJP

G06F 3/0481 20220101ALI20240219BHJP

G06F 3/0488 20220101ALI20240219BHJP

【ＦＩ】

H04S7/00 310

G06F3/16 500

G06F3/0481

G06F3/0488

【請求項の数】 15

(21)【出願番号】P 2021569318

(86)(22)【出願日】2020-05-11

(65)【公表番号】

(43)【公表日】2022-07-25

(86)【国際出願番号】 EP2020062987

(87)【国際公開番号】W WO2020234015

(87)【国際公開日】2020-11-26

【審査請求日】2022-01-05

(31)【優先権主張番号】19175422.5

(32)【優先日】2019-05-20

(33)【優先権主張国・地域又は機関】EP

(73)【特許権者】

【識別番号】515076873

【氏名又は名称】ノキアテクノロジーズオサケユイチア

(74)【代理人】

【識別番号】100094569

【弁理士】

【氏名又は名称】田中伸一郎

(74)【代理人】

【識別番号】100103610

【弁理士】

【氏名又は名称】▲吉▼田和彦

(74)【代理人】

【識別番号】100109070

【弁理士】

【氏名又は名称】須田洋之

(74)【代理人】

【識別番号】100067013

【弁理士】

【氏名又は名称】大塚文昭

(74)【代理人】

【識別番号】100086771

【弁理士】

【氏名又は名称】西島孝喜

(74)【代理人】

【氏名又は名称】上杉浩

(74)【代理人】

【識別番号】100120525

【弁理士】

【氏名又は名称】近藤直樹

(74)【代理人】

【識別番号】100139712

【弁理士】

【氏名又は名称】那須威夫

(72)【発明者】

【氏名】エロネンアンティヨハネス

(72)【発明者】

【氏名】レーティニエミアルトユハニ

(72)【発明者】

【氏名】ヴィレルモミーカタパニ

(72)【発明者】

【氏名】ライティネンミッコ－ヴィルイラリ

【審査官】大石剛

(56)【参考文献】

【文献】特開２０１３－１０６２９８（ＪＰ，Ａ）

【文献】特開２０１６－１７８６５２（ＪＰ，Ａ）

【文献】特開２０１６－１４６５４７（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｓ７／００

Ｇ０６Ｆ３／１６

Ｇ０６Ｆ３／０４８１

Ｇ０６Ｆ３／０４８８

(57)【特許請求の範囲】

【請求項1】

キャプチャデバイスの周囲に延びる空間において１つまたは複数の音源からキャプチャされたオーディオと、前記１つまたは複数の音源に向かう方向を少なくとも示す方向情報とを含む空間オーディオデータであって、前記キャプチャデバイスによってキャプチャされる前記空間オーディオデータを受け取り、
前記キャプチャデバイスのカメラによってキャプチャされ、視野を有するビデオ画像であって、前記空間オーディオデータがそこからキャプチャされる前記空間の範囲が前記視野より大きい、前記ビデオ画像を受け取り、
前記方向情報から判定された前記１つまたは複数の音源のそれぞれを、前記視野内の音源については、前記ビデオ画像のうちの、前記音源に向かう方向に対応する領域に関連付け、前記視野の外部の音源については、前記視野の外部の前記空間の空間範囲を示す視野外グラフィックであって、線の一端から他端までの前記線に沿った位置が前記視野外グラフィックに関連付けられた前記音源の前記オーディオがそこから受け取られている方向を表す線であって、前記線の前記一端は前記視野の少なくとも第１の境界に対応する方向を表し、前記線の前記他端は前記第１の境界とは反対側の前記視野の少なくとも第２の境界に対応する方向を表す前記線を含む前記視野外グラフィックのうちの、前記音源に向かう方向に対応する部分に関連付け、
前記ビデオ画像の表示を前記視野外グラフィックとともにディスプレイ上で提供し、
前記ビデオ画像のうちの領域または前記視野外グラフィックのうちの部分を選択するユーザ入力を受け取り、
前記１つまたは複数の音源のうちの選択された１つの音源の少なくとも１つのオーディオキャプチャ特性の制御であって、前記１つまたは複数の音源のうちの選択された前記１つの音源が前記ユーザ入力によって選択された前記領域または前記部分に関連付けられた前記１つまたは複数の音源のうちの１つを含む、前記制御を提供する
ように構成された手段を含む装置。

【請求項2】

前記手段は、
前記視野外グラフィックのうちの、前記１つまたは複数の音源に向かう方向に対応する前記部分と、
前記ビデオ画像のうちの、前記１つまたは複数の音源に向かう方向に対応する前記領域と、
のうちの１つまたは複数におけるマーカの表示を提供するように構成されている、請求項１に記載の装置。

【請求項3】

少なくとも１つのオーディオキャプチャ特性の前記制御は、前記手段が、ビーム形成技術を使用して選択された前記１つの音源のキャプチャまたは記録を行わせるシグナリングを提供するように構成されていることを含む、請求項１または２に記載の装置。

【請求項4】

少なくとも１つのオーディオキャプチャ特性の前記制御は、前記手段が、
前記空間オーディオデータのうちの他のオーディオに適用される音量利得に対して相対的により大きな音量利得を有する選択された前記１つの音源をキャプチャまたは記録することと、
前記空間オーディオデータのうちの他のオーディオに適用される質に対して相対的により高い質を有する選択された前記１つの音源をキャプチャまたは記録することと、
選択された前記１つの音源の前記オーディオを前記空間オーディオデータのうちの他のオーディオとは分離したオーディオストリームとしてキャプチャまたは記録することと、
のうちの少なくとも１つを行うように構成されていることを含む、請求項１～３のいずれか１項に記載の装置。

【請求項5】

前記手段は、前記方向情報を使用して、所定の閾値を上回る音量を有するオーディオがどの方向から受け取られているかを判定することによって、前記１つまたは複数の音源を判定するように構成されている、請求項１～４のいずれか１項に記載の装置。

【請求項6】

前記視野の外部の前記空間の空間範囲を示す前記視野外グラフィックは、
楕円の扇形区分であって、前記扇形区分内の位置が前記視野外グラフィックに関連付けられた前記音源の前記オーディオがそこから受け取られる方向を表し、前記扇形区分の第１の部分が前記視野の少なくとも第１の境界に対応する方向を表し、前記扇形区分の第２の部分が前記第１の境界とは反対側の前記視野の少なくとも第２の境界に対応する方向を表す、前記扇形区分、
をさらに含む、請求項１～５のいずれか１項に記載の装置。

【請求項7】

前記視野の外部の前記空間の空間範囲を示す前記視野外グラフィックは、前記キャプチャデバイスの周囲の面を表し、前記視野外グラフィックに対して相対的な提示されるマーカの位置が、前記音源の前記オーディオがそこから受け取られているアジマス方向を表し、前記視野外グラフィックよりある距離だけ上方または下方に図示されている前記提示されたマーカの位置が、前記面の上方または下方の前記音源の前記オーディオがそこから受け取られている高度方向に対応する、請求項１～６のいずれか１項に記載の装置。

【請求項8】

前記手段は、前記ビデオ画像の前記領域または前記視野外グラフィックの前記部分を選択する、タッチセンシティブ入力デバイス上の場所におけるタップを含む前記ユーザ入力に基づいて、選択された前記領域または部分に対応する前記空間の前記領域に焦点を合わせるビーム形成技術の適用により少なくとも１つのオーディオキャプチャ特性を変更することによって、少なくとも１つの前記オーディオキャプチャ特性の制御を提供するように構成されている、請求項１～７のいずれか１項に記載の装置。

【請求項9】

前記手段は、前記ビデオ画像の前記領域または前記視野外グラフィックの前記部分を選択する、タッチセンシティブ入力デバイス上の場所におけるピンチジェスチャを含む前記ユーザ入力に基づいて、前記ピンチジェスチャの大きさに関連する角度を有するビーム形成技術の適用により少なくとも１つのオーディオキャプチャ特性を変更することによって、少なくとも１つの前記オーディオキャプチャ特性の制御を提供するように構成された、請求項１～８のいずれか１項に記載の装置。

【請求項10】

前記手段は、関連付けられた音源がない、前記ビデオ画像の領域または前記視野外グラフィックの部分を選択する受け取った前記ユーザ入力に基づいて、前記ビデオ画像の選択された前記領域または前記視野外グラフィックの部分に対応する方向に音源がないことを示す第２のマーカの表示を提供するように構成されている、請求項１～９のいずれか１項に記載の装置。

【請求項11】

前記ビーム形成技術は、選択された前記音源の前記オーディオが強調される、遅延和ビームフォーマ技術またはパラメトリック空間オーディオ処理技術のうちの少なくとも一方を含む、請求項３に記載の装置。

【請求項12】

前記手段は、制御された前記オーディオキャプチャ特性を有する選択された前記音源とともに前記空間オーディオデータの提示および記録の一方または両方を提供するように構成されている、請求項１～１１のいずれか１項に記載の装置。

【請求項13】

請求項１～１２のいずれか１項に記載の装置と、前記ビデオ画像をキャプチャするように構成されたカメラと、前記空間オーディオデータをキャプチャするように構成された複数のマイクロホンと、前記装置によって前記ビデオ画像を前記視野外グラフィックとともに表示するために使用されるディスプレイとを含む、電子デバイス。

【請求項14】

キャプチャデバイスの周囲に延びる空間において１つまたは複数の音源からキャプチャされたオーディオと、前記１つまたは複数の音源に向かう方向を少なくとも示す方向情報とを含む空間オーディオデータであって、前記キャプチャデバイスによってキャプチャされる前記空間オーディオデータを受け取ることと、
前記キャプチャデバイスのカメラによってキャプチャされ、視野を有するビデオ画像であって、前記空間オーディオデータがそこからキャプチャされる前記空間の範囲が前記視野より大きい、前記ビデオ画像を受け取ることと、
前記方向情報から判定された前記１つまたは複数の音源のそれぞれを、前記視野内の音源については、前記ビデオ画像のうちの、前記音源に向かう方向に対応する領域に関連付け、前記視野の外部の音源については、前記視野の外部の前記空間の空間範囲を示す視野外グラフィックであって、線の一端から他端までの前記線に沿った位置が前記視野外グラフィックに関連付けられた前記音源の前記オーディオがそこから受け取られている方向を表す線であって、前記線の前記一端は前記視野の少なくとも第１の境界に対応する方向を表し、前記線の前記他端は前記第１の境界とは反対側の前記視野の少なくとも第２の境界に対応する方向を表す前記線を含む前記視野外グラフィックのうちの、前記音源に向かう方向に対応する部分に関連付けることと、
前記ビデオ画像の表示を前記視野外グラフィックとともにディスプレイ上で提供することと、
前記ビデオ画像のうちの領域または前記視野外グラフィックのうちの部分を選択するユーザ入力を受け取ることと、
前記１つまたは複数の音源のうちの選択された１つの音源の少なくとも１つのオーディオキャプチャ特性の制御であって、前記１つまたは複数の音源のうちの選択された前記１つの音源が前記ユーザ入力によって選択された前記領域または前記部分に関連付けられた前記１つまたは複数の音源のうちの１つを含む、前記制御を提供することと
を含む、方法。

【請求項15】

コンピュータプログラムコードが記憶されたコンピュータ可読媒体であって、前記コンピュータ可読媒体とコンピュータプログラムコードとは、少なくとも１つのプロセッサで実行されると、
キャプチャデバイスの周囲に延びる空間において１つまたは複数の音源からキャプチャされたオーディオと、前記１つまたは複数の音源に向かう方向を少なくとも示す方向情報とを含む空間オーディオデータであって、前記キャプチャデバイスによってキャプチャされる前記空間オーディオデータを受け取り、
前記キャプチャデバイスのカメラによってキャプチャされ、視野を有するビデオ画像であって、前記空間オーディオデータがそこからキャプチャされる前記空間の範囲が前記視野より大きい、前記ビデオ画像を受け取り、
前記方向情報から判定された前記１つまたは複数の音源のそれぞれを、前記視野内の音源については、前記ビデオ画像のうちの、前記音源に向かう方向に対応する領域に関連付け、前記視野の外部の音源については、前記視野の外部の前記空間の空間範囲を示す視野外グラフィックであって、線の一端から他端までの前記線に沿った位置が前記視野外グラフィックに関連付けられた前記音源の前記オーディオがそこから受け取られている方向を表す線であって、前記線の前記一端は前記視野の少なくとも第１の境界に対応する方向を表し、前記線の前記他端は前記第１の境界とは反対側の前記視野の少なくとも第２の境界に対応する方向を表す前記線を含む前記視野外グラフィックのうちの、前記音源に向かう方向に対応する部分に関連付け、
前記ビデオ画像の表示を前記視野外グラフィックとともにディスプレイ上で提供し、
前記ビデオ画像のうちの領域または前記視野外グラフィックのうちの部分を選択するユーザ入力を受け取り、
前記１つまたは複数の音源のうちの選択された１つの音源の少なくとも１つのオーディオキャプチャ特性の制御であって、前記１つまたは複数の音源のうちの選択された前記１つの音源が前記ユーザ入力によって選択された前記領域または前記部分に関連付けられた前記１つまたは複数の音源のうちの１つを含む、前記制御を提供する、方法を実行するように構成されている、コンピュータ可読媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、空間オーディオ（spatial audio）のキャプチャの分野に関する。具体的には、本開示は、空間オーディオの１つまたは複数のオーディオキャプチャ特性の変更のための手段となるユーザインターフェースの提示、それに関連する装置、方法およびコンピュータプログラムに関する。

【背景技術】

【0002】

空間オーディオのキャプチャが有用な場合があり、そのキャプチャの制御は困難であることがある。

【0003】

すでに公開されている文献または本明細書のいかなる背景の記載または説明も、必ずしもその文献または背景が本技術分野の現況の一部であるかまたは周知の知識であるとの承認とみなされるべきではない。本開示の１つまたは複数の態様／実施例は、背景にある課題の１つまたは複数に対処する場合もあればしない場合もある。

【発明の概要】

【0004】

第１の例示の態様では、キャプチャデバイスの周囲に延びる空間において１つまたは複数の音源からキャプチャされたオーディオと、前記１つまたは複数の音源に向かう方向を少なくとも示す方向情報とを含む空間オーディオデータであって、前記キャプチャデバイスによってキャプチャされる前記空間オーディオデータを受け取り、
前記キャプチャデバイスのカメラによってキャプチャされ、視野（field of view）を有するビデオ画像（video imagery）であって、前記空間オーディオデータがそこからキャプチャされる前記空間の範囲が前記視野より大きい、前記ビデオ画像を受け取り、
前記方向情報から判定された前記１つまたは複数の音源のそれぞれを、前記視野内の音源については、前記ビデオ画像のうちの、前記音源に向かう方向に対応する領域に関連付け、前記視野の外部の音源については、前記視野の外部の前記空間の空間範囲（spatial extent）を示す視野外グラフィックのうちの、前記音源に向かう方向に対応する部分に関連付け、
前記ビデオ画像の表示を前記視野外グラフィックとともにディスプレイ上で提供し、
前記ビデオ画像のうちの領域または前記視野外グラフィック（out-of-view graphic）のうちの部分を選択するユーザ入力を受け取り、
前記１つまたは複数の音源のうちの選択された１つの音源の少なくとも１つのオーディオキャプチャ特性の制御であって、前記１つまたは複数の音源のうちの選択された前記１つの音源が前記ユーザ入力によって選択された前記領域または前記部分に関連付けられた前記１つまたは複数の音源のうちの１つを含む、前記制御を提供する
ように構成された手段を含む装置が提供される。

【0005】

１つまたは複数の実施例では、前記手段は、
前記視野外グラフィックのうちの、前記１つまたは複数の音源に向かう方向に対応する部分と、
前記ビデオ画像のうちの、前記１つまたは複数の音源に向かう方向に対応する領域と、
のうちの１つまたは複数（例えば両方）におけるマーカの表示を提供するように構成される。

【0006】

１つまたは複数の実施例では、少なくとも１つのオーディオキャプチャ特性の前記制御は、前記手段が、ビーム形成技術を使用して選択された前記１つの音源のキャプチャまたは記録を行わせるシグナリングを提供するように構成されていることを含む。

【0007】

１つまたは複数の実施例では、少なくとも１つのオーディオキャプチャ特性の前記制御は、前記手段が、
前記空間オーディオデータのうちの他のオーディオに適用される音量利得に対して相対的により大きな音量利得を有する選択された前記１つの音源をキャプチャまたは記録することと、
前記空間オーディオデータのうちの他のオーディオに適用される質に対して相対的により高い質を有する選択された前記１つの音源をキャプチャまたは記録することと、
選択された前記１つの音源の前記オーディオを前記空間オーディオデータのうちの他のオーディオとは分離したオーディオストリームとしてキャプチャまたは記録することと、のうちの少なくとも１つを行うように構成されていることを含む。

【0008】

１つまたは複数の実施例では、前記手段は、前記方向情報を使用して、所定の閾値を上回る音量を有するオーディオがどの方向から受け取られているかを判定することによって、前記１つまたは複数の音源を判定するように構成される。

【0009】

１つまたは複数の実施例では、前記視野の外部の前記空間の空間範囲を示す前記視野外グラフィックは、
線の一端から他端までの線に沿った位置が、前記視野の少なくとも第１の境界に対応する方向から前記第１の境界とは反対側の前記視野の少なくとも第２の境界に対応する方向までの、前記音源の前記オーディオをそこから受け取られている方向を表す線と、
楕円（ellipse）の扇形区分（sector）であって、前記視野の少なくとも第１の境界に対応する方向から前記第１の境界とは反対側の前記視野の少なくとも第２の境界に対応する方向までの、前記扇形区分内の位置が前記音源の前記オーディオがそこから受け取られている方向を表す扇形区分と、のうちの少なくとも１つを含む。

【0010】

１つまたは複数の実施例では、前記視野の外部の前記空間の空間範囲を示す前記視野外グラフィックは、前記キャプチャデバイスの周囲の面を表し、前記視野外グラフィックに対して相対的な提示されるマーカの位置が、前記音源の前記オーディオがそこから受け取られているアジマス方向を表し、前記視野外グラフィックよりある距離だけ上方または下方に図示されている前記提示されたマーカの位置が、前記面の上方または下方の前記音源の前記オーディオがそこから受け取られている高度方向に対応する。

【0011】

１つまたは複数の実施例では、前記視野の外部の前記空間の空間範囲を示す前記視野外グラフィックは線を含み、前記線の一端から他端までの前記線に沿った位置が、前記視野の少なくとも第１の境界に対応するアジマス方向から前記第１の境界とは反対側の前記視野の少なくとも第２の境界に対応するアジマス方向までの、前記音源の前記オーディオがそこから受け取られているアジマス方向を表し、前記線より上方または下方の距離が前記音源の前記オーディオがそこから受け取られている高度に対応する。

【0012】

１つまたは複数の実施例では、前記手段は、前記ビデオ画像の前記領域または前記視野外グラフィックの前記部分を選択する、タッチセンシティブ入力デバイス上の場所におけるタップを含む前記ユーザ入力に基づいて、選択された前記領域または部分に対応する前記空間の前記領域に焦点を合わせるビーム形成技術の適用により少なくとも１つのオーディオキャプチャ特性を変更することによって、少なくとも１つの前記オーディオキャプチャ特性の制御を提供するように構成される。

【0013】

１つまたは複数の実施例では、前記手段は、前記ビデオ画像の前記領域または前記視野外グラフィックの前記部分を選択する、タッチセンシティブ入力デバイス上の場所におけるピンチジェスチャを含む前記ユーザ入力に基づいて、前記ピンチジェスチャの大きさに関連する程度を有するビーム形成技術の適用により少なくとも１つのオーディオキャプチャ特性を変更することによって、少なくとも１つの前記オーディオキャプチャ特性の制御を提供するように構成される。

【0014】

１つまたは複数の実施例では、前記手段は、関連付けられた音源がない前記ビデオ画像の領域または前記視野外グラフィックの部分を選択する受け取った前記ユーザ入力に基づいて、前記ビデオ画像の選択された前記領域または前記視野外グラフィックの部分に対応する方向に音源がないことを示す第２のマーカの表示を提供するように構成される。

【0015】

１つまたは複数の実施例では、前記ビーム形成技術は、選択された前記音源の前記オーディオが強調される、遅延和ビームフォーマ技術（delay-sum beamformer technique）またはパラメトリック空間オーディオ処理技術のうちの少なくとも一方を含む。

【0016】

１つまたは複数の実施例では、前記手段は、制御された前記オーディオキャプチャ特性を有する選択された前記音源とともに前記空間オーディオデータの提示および記録のうちの１つまたは複数（例えば両方）を提供するように構成される。

【0017】

１つまたは複数の実施例では、前記装置の前記手段は少なくとも１つのプロセッサと、コンピュータプログラムコードを含む少なくとも１つのメモリとを含み、前記少なくとも１つのメモリと前記コンピュータプログラムコードとは、前記少なくとも１つのプロセッサによって、前記装置に第１の態様の機能を実行させる。

【0018】

第２の例示の態様では、第１の態様の装置と、前記ビデオ画像をキャプチャするように構成されたカメラと、前記空間オーディオデータをキャプチャするように構成された複数のマイクロホンと、前記装置によって前記ビデオ画像を前記視野外グラフィックとともに表示するために使用されるディスプレイとを含む、電子デバイスが提供される。

【0019】

第３の態様では、方法が提供され、この方法は、キャプチャデバイスの周囲に延びる空間において１つまたは複数の音源からキャプチャされたオーディオと、前記１つまたは複数の音源に向かう方向を少なくとも示す方向情報とを含む空間オーディオデータであって、前記キャプチャデバイスによってキャプチャされる前記空間オーディオデータを受け取ることと、
前記キャプチャデバイスのカメラによってキャプチャされ、視野を有するビデオ画像であって、前記空間オーディオデータがそこからキャプチャされる前記空間の範囲が前記視野より大きい、前記ビデオ画像を受け取ることと、
前記方向情報から判定された前記１つまたは複数の音源のそれぞれを、前記視野内の音源については、前記ビデオ画像のうちの、前記音源に向かう方向に対応する領域に関連付け、前記視野の外部の音源については、前記視野の外部の前記空間の空間範囲を示す視野外グラフィックのうちの、前記音源に向かう方向に対応する部分に関連付けることと、
前記ビデオ画像の表示を前記視野外グラフィックとともにディスプレイ上で提供することと、
前記ビデオ画像のうちの領域または前記視野外グラフィックのうちの部分を選択するユーザ入力を受け取ることと、
前記１つまたは複数の音源のうちの選択された１つの音源の少なくとも１つのオーディオキャプチャ特性の制御であって、前記１つまたは複数の音源のうちの選択された前記１つの音源が前記ユーザ入力によって選択された前記領域または前記部分に関連付けられた前記１つまたは複数の音源のうちの１つを含む、前記制御を提供することとを含む。

【0020】

１つまたは複数の実施例では、この方法は、
前記視野外グラフィックのうちの、前記１つまたは複数の音源に向かう方向に対応する部分と、
前記ビデオ画像のうちの、前記１つまたは複数の音源に向かう方向に対応する領域と、
のうちの一方または両方におけるマーカの表示を提供するように構成される。

【0021】

１つまたは複数の実施例では、少なくとも１つのオーディオキャプチャ特性の制御は、ビーム形成技術を使用して選択された前記１つの音源のキャプチャまたは記録を行わせるシグナリングを提供する方法を含む。

【0022】

１つまたは複数の実施例では、少なくとも１つのオーディオキャプチャ特性の制御は、
前記空間オーディオデータのうちの他のオーディオに適用される音量利得に対して相対的により大きな音量利得を有する選択された前記１つの音源をキャプチャまたは記録することと、
前記空間オーディオデータのうちの他のオーディオに適用される質に対して相対的により高い質を有する選択された前記１つの音源をキャプチャまたは記録することと、
選択された前記１つの音源の前記オーディオを前記空間オーディオデータのうちの他のオーディオとは分離したオーディオストリームとしてキャプチャまたは記録することと、
のうちの少なくとも１つを行う方法を含む。

【0023】

１つまたは複数の実施例では、この方法は、前記方向情報を使用して、所定の閾値を上回る音量を有するオーディオがどの方向から受け取られているかを判定することによって、前記１つまたは複数の音源を判定することを含む。

【0024】

１つまたは複数の実施例では、この方法は、前記ビデオ画像の前記領域または前記視野外グラフィックの前記部分を選択する、タッチセンシティブ入力デバイス上の場所におけるタップを含むユーザ入力を受け取ることと、選択された前記領域または部分に対応する前記空間の前記領域に焦点を合わせるビーム形成技術の適用によりオーディオキャプチャ特性を変更することによって少なくとも１つの前記オーディオキャプチャ特性の制御を提供することとを含む。

【0025】

１つまたは複数の実施例では、この方法は、前記ビデオ画像の前記領域または前記視野外グラフィックの前記部分を選択する、タッチセンシティブ入力デバイス上の場所におけるピンチジェスチャを含む前記ユーザ入力を受け取ることと、前記ピンチジェスチャの大きさに関連する程度を有するビーム形成技術の適用によりオーディオキャプチャ特性を変更することによって、少なくとも１つの前記オーディオキャプチャ特性の制御を提供することとを含む。

【0026】

１つまたは複数の実施例では、この方法は、関連付けられた音源がない前記ビデオ画像の領域または前記視野外グラフィックの部分を選択する前記ユーザ入力を受け取ることと、前記ビデオ画像の選択された前記領域または前記視野外グラフィックの部分に対応する方向に音源がないことを示す第２のマーカの表示を提供することとを含む。

【0027】

１つまたは複数の実施例では、この方法は、制御された前記オーディオキャプチャ特性を有する選択された前記音源とともに前記空間オーディオデータの提示および記録の一方または両方を提供することを含む。

【0028】

第４の例示の態様では、コンピュータプログラムコードが記憶されたコンピュータ可読媒体が提供され、前記コンピュータ可読媒体とコンピュータプログラムコードとは、少なくとも１つのプロセッサで実行されると、
キャプチャデバイスの周囲に延びる空間において１つまたは複数の音源からキャプチャされたオーディオと、前記１つまたは複数の音源に向かう方向を少なくとも示す方向情報とを含む空間オーディオデータであって、前記キャプチャデバイスによってキャプチャされる前記空間オーディオデータを受け取り、
前記キャプチャデバイスのカメラによってキャプチャされ、視野を有するビデオ画像であって、前記空間オーディオデータがそこからキャプチャされる前記空間の範囲が前記視野より大きい、前記ビデオ画像を受け取り、
前記方向情報から判定された前記１つまたは複数の音源のそれぞれを、前記視野内の音源については、前記ビデオ画像のうちの、前記音源に向かう方向に対応する領域に関連付け、前記視野の外部の音源については、前記視野の外部の前記空間の空間範囲を示す視野外グラフィックのうちの、前記音源に向かう方向に対応する部分に関連付け、
前記ビデオ画像の表示を前記視野外グラフィックとともにディスプレイ上で提供し、
前記ビデオ画像のうちの領域または前記視野外グラフィックのうちの部分を選択するユーザ入力を受け取り、
前記１つまたは複数の音源のうちの選択された１つの音源の少なくとも１つのオーディオキャプチャ特性の制御であって、前記１つまたは複数の音源のうちの選択された前記１つの音源が前記ユーザ入力によって選択された前記領域または前記部分に関連付けられた前記１つまたは複数の音源のうちの１つを含む、前記制御を提供する方法を実行するように構成される。

【0029】

第４の例示の態様では、
少なくとも１つのプロセッサと、
コンピュータプログラムコードを含む少なくとも１つのメモリとを含む装置が提供され、
前記少なくとも１つのメモリと前記コンピュータプログラムコードとは、前記少なくとも１つのプロセッサによって、前記装置に少なくとも、
キャプチャデバイスの周囲に延びる空間において１つまたは複数の音源からキャプチャされたオーディオと、前記１つまたは複数の音源に向かう方向を少なくとも示す方向情報とを含む空間オーディオデータであって、前記キャプチャデバイスによってキャプチャされる前記空間オーディオデータを受け取ることと、
前記キャプチャデバイスのカメラによってキャプチャされ、視野を有するビデオ画像であって、前記空間オーディオデータがそこからキャプチャされる前記空間の範囲が前記視野より大きい、前記ビデオ画像を受け取ることと、
前記方向情報から判定された前記１つまたは複数の音源のそれぞれを、前記視野内の音源については、前記ビデオ画像のうちの、前記音源に向かう方向に対応する領域に関連付け、前記視野の外部の音源については、前記視野の外部の前記空間の空間範囲を示す視野外グラフィックのうちの、前記音源に向かう方向に対応する部分に関連付けることと、
前記ビデオ画像の表示を前記視野外グラフィックとともにディスプレイ上で提供することと、
前記ビデオ画像のうちの領域または前記視野外グラフィックのうちの部分を選択するユーザ入力を受け取ることと、
前記１つまたは複数の音源のうちの選択された１つの音源の少なくとも１つのオーディオキャプチャ特性の制御であって、前記１つまたは複数の音源のうちの選択された前記１つの音源が前記ユーザ入力によって選択された前記領域または前記部分に関連付けられた前記１つまたは複数の音源のうちの１つを含む、前記制御を提供することとを実行させる。

【0030】

第１の態様の任意による特徴は、第４の態様の装置にも等しく当てはまる。また、第１の態様の任意による特徴によって提供される機能は、第２の態様の方法および第３の態様のコンピュータ可読媒体のコードによって実行されてもよい。

【0031】

本開示は、組み合わせまたは単独で具体的に記載されている（特許請求されていることを含む）か否かを問わず、１つまたは複数の対応する態様、実施例または特徴を単独で、または様々な組み合わせで含む。記載されている機能のうちの１つまたは複数の機能を実行するための対応する手段および対応する機能ユニット（例えば機能イネーブラ、ＡＲ／ＶＲグラフィックレンダラ、ディスプレイデバイス）も本開示に含まれる。

【0032】

本開示の方法のうちの１つまたは複数の方法を実装するための対応するコンピュータプログラムも本開示に含まれ、記載されている実施例のうちの１つまたは複数の実施例に包含される。

【0033】

上記の概要は、単に例示を意図したものであり、限定的であることを意図していない。

【0034】

以下、例示のみを目的として、添付図面を参照しながら説明する。

【図面の簡単な説明】

【0035】

【図1】少なくとも１つのオーディオキャプチャ特性の制御のための例示の装置を、音源を有する空間における電子デバイスまたは「キャプチャデバイス」の一部として示す図である。

【図2】装置からのシグナリングに基づくインターフェースを示すディスプレイの第１の例示の表示を示す図である。

【図3】装置からのシグナリングに基づくインターフェースを示すディスプレイの第２の例示の表示を示す図である。

【図4】装置からのシグナリングに基づくインターフェースを示すディスプレイの第３の例示の表示を示す図である。

【図5】ユーザがピンチジェスチャを含むユーザ入力を与えている状態の、装置からのシグナリングに基づくインターフェースを示すディスプレイの第４の例示の表示を示す図である。

【図6】ユーザが、視野外グラフィックの一部分を選択するためにユーザ入力を与えている状態の、装置からのシグナリングに基づくインターフェースを示すディスプレイの第５の例示の表示を示す図である。

【図7】例示の方法を示すフローチャートである。

【図8】コンピュータ可読媒体を示す図である。

【発明を実施するための形態】

【0036】

空間オーディオのキャプチャは、仮想現実、拡張現実、通信およびビデオキャプチャなどの分野において豊かな様々なユーザエクスペリエンスを提供するために有用な場合がある。したがって、空間オーディオをキャプチャすることができるデバイスの数は増加する可能性が高い。空間オーディオが１つまたは複数の音源に向かう方向、別の言い方をすれば、１つまたは複数の音源からのオーディオの到来方向を示す方向情報を使用してオーディオをキャプチャすることを含むことを考えると、そのようなオーディオの効果的なキャプチャは複雑である可能性がある。空間オーディオをキャプチャするデバイスの潜在的限界にもかかわらず、効率的な方式で空間オーディオコンテンツの１つまたは複数のオーディオキャプチャ特性の制御を提供することが望ましいであろう。

【0037】

空間オーディオは、方向情報を使用して空間オーディオキャプチャデバイスなどによってキャプチャされたオーディオを含む。したがって、キャプチャされた空間オーディオは、オーディオ自体を表す情報を、空間オーディオキャプチャデバイスの周囲の空間におけるオーディオの音源の空間的配置を示す情報とともに有することができる。空間オーディオは、オーディオの個々の音源が特定の場所にあるかのように、各音源がその特定の場所から発せられていることが知覚されるようにしてユーザに提示することができる。空間オーディオデータは、空間オーディオとして提示するためのオーディオを含み、したがって、典型的には、そのオーディオと、例えばメタデータとして明示的に指定されるかまたはオーディオがキャプチャされる仕方に本質的に存在する、方向情報とを含む。空間オーディオデータは、方向情報に従って、その成分オーディオ（例えばキャプチャされる空間内のオーディオの音源）が１つまたは複数の点または１つまたは複数の方向から発せられていることが知覚されるように、提示することができる。オーディオレンダリングは、例えば、オーディオ提示が行われる仮想空間または現実空間に応じてモデリング可能な、初期反射および残響を考慮に入れることができる。

【0038】

キャプチャされる空間オーディオは、ＤｉｒＡＣまたは一次アンビソニクスまたは高次アンビソニクス（ＦＯＡ、ＨＯＡ）などのパラメトリック空間オーディオとすることができる。空間オーディオデータのキャプチャは、いくつかの（少なくとも３つなどの）マイクロホンを使用して行うことができる。１つまたは複数の実施例では、パラメトリック空間オーディオキャプチャ処理を使用してもよい。パラメトリック空間オーディオキャプチャは、当業者には知られているように、キャプチャされたマルチマイクロホン信号の時間周波数タイルごとに、信号の知覚的に関連する特性を表すのに十分な空間パラメータの分析を含み得る。これらのパラメータには、例えば、到来方向と、時間周波数タイルごとの拡散性などの比率パラメータとが含まれ得る。空間オーディオ信号は、次に、マルチマイクロホン入力信号から形成された伝送信号を含み得る方向情報（例えば空間メタデータ）を使用して表すことができる。レンダリング時、方向情報とともに、聴取者がマイクロホン配置の場所に自分の頭部があるかのような可聴知覚と類似した可聴知覚を生じさせる音場を合成するためにこの伝送オーディオ信号が使用される。

【0039】

空間オーディオの空間的位置決めは、ユーザへの提示のためにオーディオを位置決めすることができる空間オーディオ空間（拡張現実の場合には現実世界と位置合わせされる）を生じさせるために頭部伝達関数を使用するものなど、３Ｄオーディオ効果によって実現することができる。空間オーディオは、オーディオコンテンツの知覚される聴覚源を位置決めするために頭部伝達関数（ＨＲＴＦ）フィルタリング技術を使用して、またはスピーカの場合は、ベクトルベース振幅パンニング技術を使用することによって、ヘッドフォンによって提示することができる。空間オーディオは、オーディオの発生源が空間内の（例えば必ずしもスピーカと位置合わせされていない）特定の位置または特定の方向にあるという知覚を生じさせるように、ユーザのそれぞれの耳に対する可聴提示の音量差、タイミング差、およびピッチ差のうちの１つまたは複数を使用することができる。空間オーディオの知覚された音源からの近さまたは距離を示すように残響量および利得を制御することによって、知覚された音源までの知覚距離をレンダリングすることができる。本明細書に記載の空間オーディオ提示は、その発生源に向かう知覚方向のみによるオーディオの提示と、オーディオの発生源が、例えばユーザからの距離の知覚を含む、知覚位置を有するようなオーディオの提示とに関することを理解されたい。

【0040】

仮想現実（ＶＲ）コンテンツには、オーディオが、ＶＲコンテンツの画像とリンク可能な、ＶＲ空間内の点から発せられるように知覚されるように、方向性を有する空間オーディオを与えることができる。拡張現実または複合現実コンテンツには、空間オーディオが、ユーザに見える現実世界の物体から、および／または、ユーザの視野に重ね合わされた拡張現実グラフィクスから発せされるものとして知覚されるように、空間オーディオを与えることができる。電子デバイス間の通信は、第１のユーザに知覚される実際の場面を第１のユーザから遠隔にいる第２のユーザに提示するために空間オーディオを使用することができる。

【0041】

図１に、１つまたは複数の音源のうちの選択された１つの音源のための少なくとも１つのオーディオキャプチャ特性の制御を提供するように構成された、例示の装置１００を示す。装置１００は、プロセッサ１０１とメモリ１０２などの、空間オーディオデータを受信し、オーディオキャプチャ特性の制御を提供する手段を含む。この実施例および１つまたは複数の実施例では、装置１００は、スマートフォンまたはタブレットコンピュータなどの電子デバイス１０３の一部を含んでもよい。電子デバイス１０３は、空間オーディオデータおよび／またはビデオ画像を受信するように構成されたキャプチャデバイスの一実施形態を含むことができる。

【0042】

装置１００は、１つまたは複数のマイクロホン１０４から空間オーディオデータを受け取るように構成される。１つまたは複数の実施例では、マイクロホン１０４は電子デバイス１０３の一部であってもよいが、他の実施例では電子デバイス１０３とは別個であってもよい。１つまたは複数のマイクロホン１０４は、例えば空間オーディオデータをキャプチャするためのマイクロホンアレイとして配置された少なくとも３つのマイクロホンを含んでもよい。装置１００または電子デバイス１０３は、関連する方向情報を生成するために、マイクロホン１０４からキャプチャされたオーディオを処理するように構成可能である。１つまたは複数の実施例では、方向情報を生成するために、電子デバイス１０３の周囲の空間１０５における音源の追跡を使用することができる。

【0043】

装置１００は、カメラ１０６からビデオ画像を受信するように構成される。１つまたは複数の実施例では、カメラは電子デバイス１０３の一部であってもよいが、他の実施例では電子デバイス１０３とは別個のものであってもよい。カメラは、視野の第１の境界１０８と視野の第２の境界１０９との間の矢印によって表される、空間１０５の視野１０７を有する。カメラ１０６の視野１０７は、マイクロホン１０４によって空間オーディオデータがキャプチャされる空間１０５の空間範囲よりも小さい。したがって、カメラ１０６の視野１０７の外部にある空間１０５の領域１１０がある。電子デバイス１０３は、空間オーディオデータとビデオ画像とをキャプチャするために使用されるため、「キャプチャデバイス」と称される場合がある。しかし、カメラ１０６とマイクロホン１０４とが電子デバイス１０３とは分離しているかまたは独立している場合、カメラ１０６とマイクロホン１０４とがまとめてキャプチャデバイスを含むとみなすこともできる。

【0044】

装置１００は、ディスプレイ１１１にシグナリングを供給することによって、表示を提供するように構成することができる。ディスプレイ１１１は、ディスプレイ１１１上で提示されるユーザインターフェースに与えられるタッチスクリーン入力のための手段となるタッチセンシティブユーザ入力デバイス１１２に関連付けられてもよい。装置１００によって、または装置１００による使用のために電子デバイス１０３によって、他のユーザ入力機能が提供されてもよいことはわかるであろう。

【0045】

この実施例では装置１００は、電子デバイス１０３の一部として、および場合によってはプロセッサ１０１、メモリ１０２、カメラ１０６、ディスプレイ１１１およびマイクロホン１０４などのハードウェア資源を電子デバイス１０３と共用するものとして示されているが、他の実施形態では、装置１００は、電子デバイス１０３と通信するか、または、電子デバイス１０３の一部であるか否かを問わずカメラ１０６、マイクロホン１０４、およびディスプレイ１１１と通信する、サーバ（図示せず）の一部を含んでもよい。したがって、装置１００は、空間オーディオデータおよびビデオ画像を受信し、画像がディスプレイによって表示されるようにシグナリングを提供するために、通信要素を使用してもよい。

【0046】

装置１００がサーバの形態または電子デバイス１０３の一部などのいずれの方式で実現される場合も、装置１００は、プロセッサ１０１とメモリ１０２とを含むか、またはこれらと接続されることができ、コンピュータプログラムコードを実行するように構成可能である。装置１００は、１つのみのプロセッサ１０１と１つのみのメモリ１０２を有してもよいが、他の実施形態は複数のプロセッサおよび／または複数のメモリ（例えば同一かまたは異なるプロセッサ／メモリの種類）を使用してもよいことを理解されたい。また、装置１００は特定用途向け集積回路（ＡＳＩＣ）であってもよい。

【0047】

プロセッサは、メモリ内にコンピュータプログラムコードの形態で記憶されている命令に従って、マイクロホン１０４、カメラ１０６およびタッチセンシティブユーザ入力デバイス１１２などの他の構成要素から受け取った情報を実行／処理することを目的とした汎用プロセッサとすることができる。プロセッサのこのような動作によって発生する出力シグナリングは、ディスプレイ１１１などのさらなる構成要素へ、または、装置１００による指示に従って空間オーディオデータを処理するように構成されたオーディオ処理モジュールに提供される。他の実施例では、装置１００は、空間オーディオデータを処理する手段を含んでもよく、空間オーディオキャプチャ特性を変更することができる。

【0048】

メモリ１０２（必ずしも単一のメモリユニットとは限らない）は、コンピュータプログラムコードを記憶するコンピュータ可読媒体（この実施例ではソリッドステートメモリであるが、ハードドライブ、ＲＯＭ、ＲＡＭ、フラッシュなど他の種類のメモリであってもよい）である。このコンピュータプログラムコードは、プログラムコードがプロセッサ上で実行されるとプロセッサによって実行可能な命令を格納する。メモリとプロセッサとの間の内部接続は、１つまたは複数の例示の実施形態では、プロセッサがメモリに記憶されているコンピュータプログラムコードにアクセスすることができるように、プロセッサとメモリとの能動的結合を提供するものと理解することができる。

【0049】

この実施例では、それぞれの構成要素間の電気通信が可能なように、それぞれのプロセッサおよびメモリが互いに内部で電気的に接続される。この実施例では、構成要素はまとめてＡＳＩＣとして形成されるように、言い換えると、電子デバイスに実装することができる単一のチップ／回路としてまとめて集積されるように、すべて互いに近接して配置される。実施例によっては、構成要素の１つまたは複数または全部が、互いに離隔して配置されてもよい。

【0050】

１つまたは複数の実施例では、装置１００は、電子デバイス１０３の周囲に延びる空間１０５内の１つまたは複数の音源からキャプチャされたオーディオを含む空間オーディオデータを受け取るように構成される。図１の実施例では、カメラ１０６の視野１０７内の第１および第２の音源１１３および１１４と、カメラ１０６の視野１０７の外部（すなわち領域１１０）の第３および第４の音源１１５および１１６とを含む、４つの音源を含む。装置１００は、第１～第４の音源１１３～１１６を、それらが現在、オーディオを発生しているときに、音源として認識するように構成することができる。他の実施例では、第１～第４の音源１１３～１１６は、音源が最後のオーディオを発生してから所定の無音時間未満であるときに、音源とみなされてもよい。無音時間は、ユーザの選好に応じて、最大５秒、１０秒、２０秒、３０秒、４０秒、５０秒または６０秒またはそれ以上を含んでもよい。したがって、装置１００は、キャプチャされたオーディオを分析し、オーディオが現在、可聴であるか、または上記無音時間内で可聴であったかに基づいて、そのオーディオで１つまたは複数の音源を判定するように構成することができる。他の実施例では、装置は、空間オーディオデータ内のどこに音源が存在するかを識別する情報を受信してもよい。空間オーディオデータは、上記１つまたは複数の音源に向かう方向を少なくとも示す方向情報をさらに含む。したがって、方向情報は、第１の音源１１３の第１の方向１１７と、第２の音源１１４の第２の方向１１８と、第３の音源１１５の第３の方向１１９と、第４の音源１１６の第４の方向１２０とを示すことができる。空間オーディオデータは多くの異なる方法でコード化可能であり、方向１１７～１２０はメタデータとして記録可能であるか、またはオーディオ自体を方向１１７～１２０を示すようにコード化することができ、他の技術もあることを理解されたい。

【0051】

上述のように、装置１００は電子デバイス１０３のカメラ１０６によってキャプチャされたビデオ画像を受信するように構成することができ、空間オーディオデータがキャプチャされる空間１０５の空間範囲は視野１０７より大きい。したがって、ある時点で、第３および第４の音源１１５および１１６からのオーディオは空間オーディオデータにおいて現れるが、ある時点で第３および第４の音源１１５および１１６の像はビデオ画像には現れない。ビデオ画像と空間オーディオデータがキャプチャされている間、電子デバイス１０３は空間１０５内を動き回る可能性があり、その結果、時間の経過とともに視野が他の音源に移ることを理解されたい。したがって、視野１０７内にある音源は時間の経過とともに変化する可能性がある。

【0052】

例示の図２に、電子デバイス１０３と、ユーザインターフェースが提示されたそのディスプレイ１１１とを示す。装置１００は、カメラ１０６からのビデオ画像の表示を提供するように構成される。したがって、装置１００は、カメラ１０６の視野１０７内でキャプチャされたビデオ画像がディスプレイ１１１上で提示されるようにシグナリングを供給することができる。カメラがキャプチャするものの範囲はディスプレイ１１１上に提示されるものと厳密に同じではない場合があることを理解されたい。例えば、カメラ１０６は、デフォルトで、ビデオ画像の解像度またはアスペクトをディスプレイ１１１に合わせるために領域をトリミングする場合がある。したがって、カメラ１０６の視野１０７は、ディスプレイ１１１上での提示のための視野を含むものとみなすことができる。図２の実施例では、ディスプレイ１１１上での提示のために提供されるビデオ画像内に第１の音源１１３が第２の音源１１４とともに見える。

【0053】

例示の図２は、視野外グラフィック２００の第１の実施例を示している。視野外グラフィック２００は、視野１０７の外部の空間１０５の空間範囲を表すために表示されるグラフィカル要素または画像を含む。具体的には、視野外グラフィック２００は、空間１０５のうちの視野の外部にある部分のみなど、視野１０７の外部にある、空間オーディオデータがキャプチャされる空間１０５の範囲を表すことができる。したがって、ビデオ画像に現れる音源は、視野外グラフィック２００上では表示されない。１つまたは複数の実施例では、視野外グラフィック２００が表すものは単に視野１０７の外部の空間１０５だけでなくてもよく、視野１０７内の空間１０５の部分を表す部分を含んでもよい。

【0054】

この実施例および他の実施例で、視野外グラフィック２００は、半楕円など、楕円の扇形区分を含む。したがって、電子デバイス１０３の周囲の３６０度の空間１０５を表すために楕円または円を使用することができ、半楕円またはその他の扇形部分は、視野１０７の外部の空間１０５の領域１１０を表すことができる。１つまたは複数の実施例では、視野外グラフィック２００は、視野１０７の少なくとも第１の境界１０８に対応する方向を表す第１の半径部分２０１と、第１の境界１０８とは反対側の視野１０７の少なくとも第２の境界１０９に対応する方向を表す第２の半径部分２０２とを有する。視野外グラフィック２００が空間１０５の視野１０７の外部にある部分を表すとすれば、視野外グラフィック内の位置は、音源１１５、１１６のオーディオをそこから受け取る方向を表すために使用することができる。

【0055】

ディスプレイ１１１上に示される音源の位置に基づいて選択された音源のオーディオキャプチャ特性の制御を提供するために、装置１００は表示されているビデオ画像または視野外グラフィック２００の領域／部分を、方向情報から判定可能な１つまたは複数の音源のそれぞれに関連付けることができる。したがって、視野１０７内の音源１１３、１１４については、装置１００はビデオ画像の領域２０３、２０４を音源１１３、１１４または音源に向かう方向に関連付けることができる。視野１０７外部の第３および第４の音源１１５、１１６については、装置１００は、音源１１５、１１６に向かう方向に対応する、マーカ２１５および２１６として示されている視野外グラフィック２００のうちの部分を関連付けることができる。したがって、マーカ２１５は第３の音源１１５に向かう位置または方向を表し、マーカ２１６は第４の音源１１６に向かう位置または方向を表す。

【0056】

装置１００は、ユーザ入力を受け取るように構成可能である。この実施例では、ユーザ入力は、タッチセンシティブユーザ入力デバイス１１２でのユーザ入力によって提供可能である。視線位置、またはコントローラを介したカーソルもしくはポインタの移動など、他のユーザ入力方法も使用可能であることを理解されたい。ディスプレイ１１１上のユーザ入力の位置により、領域２０３、２０４の一方、またはマーカ２１５、２１６の一方など、ビデオ画像の領域を選択するか視野外グラフィック２００の一部を選択することができる。それらの領域２０３、２０４とマーカ２１５、２１６についてなされた関連付けがあるため、第１～第４の音源１１３～１１６のうちの１つからのオーディオの選択を装置１００に提供することができる。他の実施例では、複数の選択を行ってもよいことを理解されたい。例示の図２では、指２０６で示されているユーザは、マーカ２１６、したがって空間オーディオデータ内の第４の音源１１６のオーディオを選択している。

【0057】

装置１００は、少なくとも１つのオーディオキャプチャ特性の制御を提供するように構成可能であり、制御は上記１つまたは複数の音源１１３～１１６のうちの選択された１つの音源に特定的である。

【0058】

したがって、装置１００は、共に受け取られるビデオ画像の空間範囲よりも広い方向の範囲からキャプチャされたオーディオを表す空間オーディオデータを受け取るように構成することができる。したがって、電子デバイス１０３、またはより一般的に、入来空間オーディオデータおよびビデオ画像には、音源１１３～１１６のオーディオはキャプチャされるが、同等の範囲の視覚画像は、球面配置されたカメラ配置などの複数カメラ配置なしにはキャプチャすることができないという技術的限界がある。そのような複数カメラ配置は、一般にかさばり、扱いにくいため、そのような複数カメラ構成は、空間オーディオデータをキャプチャ可能な状況を限定する可能性がある。したがって、装置１００は、空間オーディオデータのより広いキャプチャ域と組み合わさったカメラ１０６のより狭い視野という技術的限界を有する空間オーディオキャプチャの制御に付随する問題を克服することができるような仕方で、空間オーディオデータとビデオ画像の処理と、インターフェースの提示とを提供する。

【0059】

視野外グラフィック２００は、何が表されているかをユーザが理解しやすいように標識が付けられてもよい、いくつかの矢印とともに示される。例えば、矢印２０７にはビデオ画像の正面方向から１８０°の方向を表すことを示すために１８０°と標識が付けられてもよい。同様に、他の矢印２０８および２０９には、視野外グラフィック２００のそれらの部分によって表される方向を示すために１３５°および２２５°と標識が付けられてもよい。

【0060】

１つまたは複数の実施例において、装置１００は、ヘッドフォンなどのオーディオ提示デバイス（図示せず）によって空間オーディオデータの提示を提供してもよい。他の実施例では、電子デバイス１０３のユーザが、空間オーディオデータとしてキャプチャされるオーディオを直接聴くことができれば、空間オーディオデータの提示は必要がない場合がある。しかし、ユーザが、オーディオキャプチャ特性についてユーザ入力によって指示した変更の効果を認識することができるように、空間オーディオデータを提示することは有利である可能性がある。したがって、１つまたは複数の実施例では、装置は変更されたオーディオキャプチャ特性を有していた音源からのオーディオのみの提示を提供するように構成されてもよい。

【0061】

視野外グラフィック２００上のマーカ２１５、２１６の位置は、視野１０７外にある音源の現在位置を表すように、ライブで、または定期的に更新されてもよい。音源が領域１１０から視野１０７内に移動した場合、それに関連付けられたマーカが表示から除去されてもよい。同様に、音源が領域１１０に移動した場合、装置１００は視野外グラフィック２００にマーカを付加してもよい。１つまたは複数の実施例では、マーカ２１５、２１６に視覚的に類似しているかまたは異なるマーカが、視野１０７内の１つまたは複数の音源に向かう方向に対応するビデオ画像の領域２０３、２０４において提示されてもよい。したがって、装置は、装置１００がビデオ画像内の人物を現時点での第１または第２の音源１１３、１１４とみなしていることを示すとともに、（ビデオ画像内に現れる音源に加えて）音源の位置を示すために、マーカの提示を提供してもよい。１つまたは複数の実施例において、ビデオ画像内の音源のために使用されるマーカは、該当領域２０３、２０４をマークするために輪郭または半透明の陰影を含んでもよい。

【0062】

１つまたは複数の実施例で、装置１００は、空間オーディオデータとしてオーディオキャプチャ特性のライブでの制御を提供するように構成され、ビデオ画像がキャプチャされる。１つまたは複数の実施例において、空間オーディオデータとビデオ画像とは同時にキャプチャされ、記録され、装置には前に記録された空間オーディオデータと前に記録されたビデオ画像とが提供される。

【0063】

オーディオキャプチャ特性の制御は様々な方式で提供することができる。１つまたは複数の実施例では、装置１００は、マイクロホン１０４の配置または、音源に適用される利得またはマイクロホンの方向焦点などのマイクロホン１０４のパラメータを変更するなどにより、空間オーディオデータがどのようにキャプチャされるかを制御するように構成されてもよい。１つまたは複数の実施例では、装置１００は、空間オーディオデータがどのように記録されるかを制御するように構成されてもよく、したがって空間オーディオデータのオーディオ処理を提供し、適用されたオーディオキャプチャ特性の変更が加えられた空間オーディオデータを記録してもよい。オーディオキャプチャ特性の制御の目的は、特定の音源１１３～１１６または方向からのオーディオの強調を提供することであってもよい。

【0064】

１つまたは複数の実施例において、オーディオキャプチャ特性の制御は、ビーム形成技術を使用して提供される。ビーム形成技術は、選択された音源のマイクロホンオーディオストリームをキャプチャするために使用することができる。マイクロホンオーディオストリームは、選択された音源に特定的とすることができ、一方、他の音源は共通のストリームにまとめて記録することができる。ビーム形成技術は、相対的に強調された選択された方向の音源、および／または相対的に減衰された他の方向の音源を有する、空間オーディオデータを提供することができる。ビーム形成技術の一例は、マイクロホンの焦点を選択された音源または方向からのオーディオのキャプチャに合わせるために少なくとも３つのマイクロホンからなるマイクロホンアレイを使用する、遅延和ビーム形成技術である。あるいは、ビーム形成技術は、空間オーディオの特定の領域または方向が強調されるか、または空間１０５から受け取ったオーディオを表す空間音場から「抽出」される、ビーム形成された出力を形成するためのパラメトリック空間オーディオ処理を含むことができる。

【0065】

したがって、ビデオ画像と視野外グラフィック２００のいずれかの上の位置を特定するユーザ入力により、装置１００に、選択された音源のオーディオキャプチャ特性をビーム形成などにより制御させることができる。

【0066】

１つまたは複数の実施例では、少なくとも１つのオーディオキャプチャ特性の制御は、手段が、空間オーディオデータの他の音源１１３、１１４、１１５のオーディオに適用される音量利得に対して相対的に大きい音量利得を有する選択された１つの音源１１６をキャプチャまたは記録するように構成されていることを含む。したがって、音量レベルを上げるためのオーディオ処理を、第４の音源１１６の方向からのオーディオに選択的に適用してもよい。他の実施例では、音量利得ではなく、オーディオキャプチャ特性が、選択された音源／方向からのオーディオがキャプチャされる質を含んでもよいことを理解されたい。したがって、選択された音源１１６からのオーディオを記録するために、空間オーディオデータの他のオーディオのために使用されるビットレートよりも高いビットレートを使用してもよい。

【0067】

記載の実施例では、オーディオキャプチャ特性の制御を、選択された方向から受け取ったオーディオまたは選択された音源からのオーディオに適用することができると述べている。この２つは、１つまたは複数の実施形態では交換可能とみなすことができる。しかし、装置１００は、音源に向かう方向を特定し、それによって空間オーディオデータにおける音源の存在を特定するように構成されてもよい。装置１００は、方向情報を使用して、所定の閾値を上回る音量を有するオーディオがそこから受信される方向を判定するように構成されてもよい。特定の方向から閾値を上回るオーディオを受け取った場合、その方向が音源の方向を指すと判定することができる。

【0068】

空間１０５における主要な音源を、異なる技術を使用して突き止めることができる。一例は、ステアード応答パワー位相変換（ＳＲＰ－ＰＨＡＴ）である。このアルゴリズムは、空間１０５を「走査」するためにステアード遅延和ビームフォーマの出力を最大化する音源の候補位置または方向を探索する、ビーム形成ベースの手法と理解することができる。１つまたは複数の実施例において、この方法の計算負担を抑えるために、電子デバイス１０３の前部、後部および／または側部を固定サイズの区分に分割し、それぞれのために、１０４にまとめて示すマイクロホンまたはマイクロホンアレイからなる固定ビームフォーマを設計してもよい。所望の閾値を満たす音源のみを特定するためにフィルタリングを適用してもよいことを理解されたい。１つまたは複数の実施例では、装置は、音源がアクティブであるときを判定し、次にＳＲＰ－ＰＨＡＴなどのビーム形成手段によってその位置／方向を探索するために、深層学習法または音声区間検出を適用するように構成されてもよい。位置が判定されると、視野外グラフィック２００上の適切な点において、関連付けを行い、および／またはマーカ２１５、２１６を配置することができる。１つまたは複数の実施例では、装置１００は、音源が音源として検出されるためにアクティブである必要がある閾値期間を適用してもよい。これは、無用な雑音とみなすことができる短期間の音を除外するのに役立つ場合がある。

【0069】

例示の図３に、視野外グラフィック３００の別の実施形態を示す。例示の図３は、図２と類似しており、したがって視野外グラフィック３００以外は同じ参照番号が使用されている。したがって、この実施例では、視野外グラフィックは線を含み、その一端３０１から他端３０２までの線に沿った位置が、視野１０７の少なくとも第１の境界１０８に対応する方向から第１の境界とは反対側の視野１０７の少なくとも第２の境界１０９に対応する方向までの領域１１０内で音源のオーディオがそこから受け取られる方向を表す。

【0070】

視野１０７の外部の空間１０５内の音源の位置を表すように線上に表示するための、前述のようなマーカ２１５および２１６が提供される。この実施例では、マイクロホン１０４の周囲のアジマス方向のみが表されている。しかし、他の実施例では、音源１１３～１１６の球面位置、すなわち、電子デバイス１０３の周囲に延びる水平面より上方または下方の高さを有する位置が図示されてもよい。

【0071】

したがって、例示の図４を参照すると、１つまたは複数の実施例において、視野外グラフィック４００が、線の一端から他端までの線に沿った位置が音源のオーディオをそこから受け取られているアジマス方向を表す、視野の少なくとも第１の境界１０８に対応するアジマス方向から第１の境界とは反対側の視野の少なくとも第２の境界１０９に対応する方向までの線であって、視野外グラフィック４００（例えば線）の上方または下方の距離４０１、４０２が、音源１１５、１１６のオーディオがそこから受け取られる高度方向に対応する線を含む。したがって、第３の音源１１５を表すマーカ２１５が、線の両端の間の中心に距離４０１だけ線の上方にあり、それによって、オーディオがマイクロホン１０４の背後および上方から受け取られていることを示している。また、第４の音源１１６を表すマーカ２１６が、距離４０２だけ線の下方にあり、オーディオがマイクロホン１０４の右および上方から受け取られていることを示している。実施例によっては、水平面より高い音源のみ、または水平面より低い音源のみについて、高度を提供してもよいことを理解されたい。

【0072】

ユーザ入力について、オーディオ処理またはビーム形成などによって、所定のオーディオ焦点を音源に適用することによって提供可能なオーディオキャプチャ特性の制御をもたらすものとして説明した。１つまたは複数の実施例では、オーディオ処理またはビーム形成またはその他の制御を適用する程度は、制御可能とすることができる。装置１００は、どのオーディオに制御を適用するか、およびオーディオキャプチャ特性をいかに制御するかの選択と制御の両方を効果的に行う方法を提供するように構成可能である。

【0073】

例示の図５は例示の図４とほぼ同じであり、同じ参照番号が適用されている。１つまたは複数の実施例では、装置１００はピンチジェスチャを受け取るように構成可能である。図５は、マーカの１つ２１６の上でピンチジェスチャを行っているユーザの２本の指５０１および５０２を示している。ピンチジェスチャは、他のマーカ２１５に対して、またはビデオ画像内に見える音源１１３、１１４に対しても適用可能であることを理解されたい。

【0074】

装置１００は、ピンチジェスチャの大きさ５０３に関連する程度を有するビーム形成技術の適用によって、上記オーディオキャプチャ特性の変更を提供するように構成されてもよい。ピンチジェスチャは、音源のうちの１つを選択するためと、オーディオキャプチャ特性に加える変更の程度を制御するために使用することができることを理解されたい。１つまたは複数の実施例では、オーディオキャプチャ特性の制御は、最終的な効果を「プレビュー」するようにピンチジェスチャの適用中に行うことができる。１つまたは複数の実施例では、大きさ５０３は、ピンチジェスチャが完了し、ユーザの指がディスプレイ１１１から離れるときに決定されてもよい。要約すると、ユーザ入力は、ビデオ画像の領域または視野外グラフィックの一部を選択し、オーディオキャプチャ特性が変更される程度を制御する、タッチセンシティブユーザ入力デバイス１１２上の位置（例えばマーカ２１６の位置）におけるピンチジェスチャを含み得る。

【0075】

ビーム形成技術の適用に関しては、ピンチジェスチャの大きさ５０３は、他の空間オーディオデータに対して相対的な、空間オーディオデータにおいてオーディオ焦点が支配的である程度を決定することができる。ピンチジェスチャは、例えば、ビーム形成技術がもたらすビーム幅または最大利得を制御することができる。１つまたは複数の実施例では、ビーム幅は、音源が増幅される扇形区分であってその外部では音源が（例えば増幅された音源に対して相対的に）減衰させられる扇形区分の、度数で表したビーム形成技術の幅である。１つまたは複数の実施例では、最大利得は、最大限に減衰された音源に対する最大限に増幅された音源のデシベル差である。

【0076】

装置は、ピンチジェスチャによって選択された音源を表すマーカの大きさを制御することによって、ピンチジェスチャにユーザフィードバックを提供するように構成されてもよい。したがって、マーカ２１６は、関連付けられている第４の音源１１６のオーディオにビーム形成により焦点が合わせられるかまたはその他により変更されるようにしたために、マーカ２１５よりも大きく示されている。

【0077】

例示の図６に、マーカがなく、したがって音源がない視野外グラフィック３００の部分６００に適用されたユーザ入力を示す。ユーザ入力は、関連付けられた音源がないビデオ画像の領域に適用された可能性があることを理解されたい。このようなユーザ入力に応答して、装置１００は、ビデオ画像の選択された領域または視野外グラフィック３００の部分に対応する方向に音源がないことを示すために、第２のマーカ６０１の表示を提供するように構成されてもよい。第２のマーカ６０１の色またはパターンまたは見かけが、マーカ２１５、２１６とは異なっていてもよい。

【0078】

図７に、キャプチャデバイスの周囲に延びる空間における１つまたは複数の音源からキャプチャされたオーディオと、上記１つまたは複数の音源に向かう方向を少なくとも示す方向情報とを含む空間オーディオデータを受け取るステップ７０１であって、空間オーディオデータが上記キャプチャデバイスによってキャプチャされる、空間オーディオデータを受け取るステップ７０１と、
キャプチャデバイスのカメラによってキャプチャされたビデオ画像を受け取るステップ７０２であって、ビデオ画像は視野を有し、空間オーディオデータがキャプチャされる空間の範囲が上記視野より大きい、上記ビデオ画像を受け取るステップ７０２と、
上記方向情報から判定された１つまたは複数の音源のそれぞれを、上記視野内の音源については音源に向かう方向に対応する、ビデオ画像の領域を関連付け、上記視野の外部の音源については音源に向かう方向に対応する、視野外グラフィックの部分を関連付けるステップ７０３であって、上記視野外グラフィックは上記視野の外部の空間の空間的範囲を示す、関連付けるステップ７０３と、
上記ビデオ画像の表示を上記視野外グラフィックとともにディスプレイ上で提供するステップ７０４と、
上記ビデオ画像のうちの領域または視野外グラフィックのうちの部分を選択するユーザ入力を受け取るステップ７０５と、
上記１つまたは複数の音源のうちの選択された１つの音源のうちの少なくとも１つのオーディオキャプチャ特性の制御を提供するステップ７０６であって、上記１つまたは複数の音源のうちの選択された上記１つの音源は、１つまたは複数の音源のうちの、ユーザ入力によって選択された領域または部分に関連付けられた１つの音源を含む、上記制御を提供するステップ７０６とを示す、流れ図を示す。

【0079】

この方法は、上記装置に関連して上述した特徴のいずれかを特徴とすることができる。

【0080】

図８に、一実施例による、プログラムを提供するコンピュータ／プロセッサ可読媒体８００を概略的に示す。この実施例では、コンピュータ／プロセッサ可読媒体は、デジタルバーサタイルディスク（ＤＶＤ）またはコンパクトディスク（ＣＤ）などのディスクである。実施例によっては、コンピュータ可読媒体は、発明の機能を実施するようにプログラムされた任意の媒体とすることができる。コンピュータプログラムコードは、ＲＯＭ、ＲＡＭ、フラッシュ、ハードディスク、ソリッドステートなど、同一種類の複数のメモリ、または異なる種類の複数のメモリに分散させてもよい。

【0081】

ユーザ入力は、タップ、スワイプ、スライド、プレス、ホールド、回転ジェスチャ、デバイスのユーザインターフェースの近傍における静止ホバリングジェスチャ、デバイスの近傍における移動ホバリングジェスチャ、デバイスの少なくとも一部の曲げ、デバイスの少なくとも一部におけるスクイーズ、マルチフィンガジェスチャ、デバイスの傾け、または制御デバイスのフリップのうちの１つまたは複数を含むジェスチャとすることができる。また、ジェスチャは、ユーザの腕などユーザの身体、スタイラス、または自由空間ユーザジェスチャを行うのに適したその他の要素を使用した任意の自由空間ユーザジェスチャであってもよい。

【0082】

上述の各実施例で示した装置は、可搬型電子デバイス、ラップトップコンピュータ、携帯電話、スマートフォン、タブレットコンピュータ、パーソナルデジタルアシスタント、デジタルカメラ、スマートウォッチ、スマートアイウェア、ペン式コンピュータ、非可搬型電子デバイス、デスクトップコンピュータ、モニタ、スマートＴＶ、サーバ、ウェアラブル装置、仮想現実装置、または、これらのうちの１つまたは複数のためのモジュール／回路であってもよい。

【0083】

上記の任意の装置および／または特定の上記の装置のその他の特徴は、使用可能とされたとき、例えばスイッチをオンにしたときなどにのみ、所望の動作を実施するように構成されるようになされた装置によって提供されてもよい。そのような場合、装置は、使用可能とされていない状態（例えばオフ状態）では必ずしもアクティブメモリに適切なソフトウェアがロードされていなくてもよく、適切なソフトウェアを、使用可能状態（例えばオン状態）でのみロードしてもよい。装置は、ハードウェア回路および／またはファームウェアを含み得る。装置は、メモリにロードされたソフトウェアを含み得る。そのようなソフトウェア／コンピュータプログラムは、同じメモリ／プロセッサ／機能ユニットおよび／または１つまたは複数のメモリ／プロセッサ／機能ユニットに記録されてもよい。

【0084】

実施例によっては、言及されている特定の装置が、所望の動作を行うように適切なソフトウェアで事前プログラムされてもよく、適切なソフトウェアは、例えばソフトウェアとそれに関連付けられた機能をロック解除／使用可能にするための「鍵」をユーザがダウンロードすることによって使用可能とすることができる。そのような実施例に付随する利点には、デバイスにさらなる機能が必要な場合にダウンロードするデータの必要が削減されることが含まれることがあり、これは、デバイスが、ユーザによって使用可能とされない可能性がある機能のためのそのような事前プログラム済みソフトウェアを記憶するのに十分な容量を有すると認められる実施例において有用な場合がある。

【0085】

言及されているいずれの装置／回路／要素／プロセッサも、言及されている機能に加えて他の機能も有することができ、それらの機能はその同じ装置／回路／要素／プロセッサによって実行可能である。１つまたは複数の本開示の態様は、関連するコンピュータプログラムの電子配布と、適切な担体（例えばメモリ、信号）に記録されたコンピュータプログラム（情報源／伝送路符号化が可能）とを包含することができる。

【0086】

本明細書に記載のいずれの「コンピュータ」も、同じ回路板または回路板の同じ領域／位置さらには同じデバイスに配置されていてもいなくてもよい、１つまたは複数の個別プロセッサ／処理要素の集合を含むことができる。実施例によっては、言及されている任意のプロセッサのうちの１つまたは複数のプロセッサが、複数のデバイスに分散されてもよい。同一または異なるプロセッサ／処理要素が、本明細書に記載の１つまたは複数の機能を実行してもよい。

【0087】

「シグナリング」という用語は、一連の送信および／または受信電気／光信号として送信される１つまたは複数の信号を指す場合がある。一連の信号は、上記シグナリングを構成するように、１つ、２つ、３つ、４つまたはそれより多くの個別信号成分または別個の信号を含み得る。これらの個別信号の一部または全部は、無線または有線通信によって、同時に、順次に、および／または互いに時間的に重なり合って送信／受信可能である。

【0088】

言及されているいずれかのコンピュータおよび／またはプロセッサおよびメモリ（例えばＲＯＭ、ＣＤ－ＲＯＭなどを含む）のいずれかの説明を参照すると、これらは、本発明の機能を実施するようにプログラムされた、コンピュータ・プロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、および／またはその他のハードウェア構成要素を含み得る。

【0089】

本出願人は、本明細書により、本明細書に記載の個別の各特徴と、２つ以上のそのような特徴の任意の組み合わせを、そのような特徴または組み合わせが全体として本明細書に基づいて実施可能である程度まで、当業者の周知の知識に照らして、そのような特徴または特徴の組み合わせが本明細書で開示されているいずれかの問題を解決するか否かを問わず、特許請求の範囲に対する限定なしに、分離して開示する。出願人は、本開示の態様／実施例が任意のそのような個別の特徴または特徴の組み合わせからなり得ることを示す。以上の説明を考慮すると、当業者には本開示の範囲内で様々な修正を加えることができることが明らかであろう。

【0090】

新規な基本的特徴をその実施例に適用されるものとして示し、説明し、指摘したが、記載されているデバイスおよび方法の形態および詳細には、本開示の範囲から逸脱することなく当業者により様々な省略、置換、および変更が可能であることを理解されたい。例えば、同じ結果を達成するように実質的に同じ機能を実質的に同じように実行する要素および／または方法ステップのすべての組み合わせが、本開示の範囲に含まれることが明示的に意図されている。また、開示されているいずれの形態または実施例に関連して示し、および／または説明している構造体および／または要素および／または方法ステップも、設計上の選択の一般事項として任意の他の開示または記載または示唆されている形態または実施例に組み込むことが可能であることを理解されたい。また、特許請求の範囲において、ミーンズプラスファンクション請求項は、記載されている機能を実行するものとして本明細書で説明されている構造体、および、構造的均等物だけでなく均等な構造体も対象として含むことが意図されている。したがって、釘とねじは、釘が木材部品を互いに固定するために円柱状の表面を採用し、ねじが螺旋状の表面を採用するという点で構造的均等物ではない場合があるが、固定する木材部品の環境において、釘とねじとは均等な構造体であり得る。

【図1】