(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-16
(45)【発行日】2024-02-27
(54)【発明の名称】空間オーディオをキャプチャする装置および関連する方法
(51)【国際特許分類】
H04S 7/00 20060101AFI20240219BHJP
G06F 3/16 20060101ALI20240219BHJP
G06F 3/0481 20220101ALI20240219BHJP
G06F 3/0488 20220101ALI20240219BHJP
【FI】
H04S7/00 310
G06F3/16 500
G06F3/0481
G06F3/0488
(21)【出願番号】P 2021569318
(86)(22)【出願日】2020-05-11
(86)【国際出願番号】 EP2020062987
(87)【国際公開番号】W WO2020234015
(87)【国際公開日】2020-11-26
【審査請求日】2022-01-05
(32)【優先日】2019-05-20
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】515076873
【氏名又は名称】ノキア テクノロジーズ オサケユイチア
(74)【代理人】
【識別番号】100094569
【氏名又は名称】田中 伸一郎
(74)【代理人】
【識別番号】100103610
【氏名又は名称】▲吉▼田 和彦
(74)【代理人】
【識別番号】100109070
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100086771
【氏名又は名称】西島 孝喜
(74)【代理人】
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100120525
【氏名又は名称】近藤 直樹
(74)【代理人】
【識別番号】100139712
【氏名又は名称】那須 威夫
(72)【発明者】
【氏名】エロネン アンティ ヨハネス
(72)【発明者】
【氏名】レーティニエミ アルト ユハニ
(72)【発明者】
【氏名】ヴィレルモ ミーカ タパニ
(72)【発明者】
【氏名】ライティネン ミッコ-ヴィル イラリ
【審査官】大石 剛
(56)【参考文献】
【文献】特開2013-106298(JP,A)
【文献】特開2016-178652(JP,A)
【文献】特開2016-146547(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04S 7/00
G06F 3/16
G06F 3/0481
G06F 3/0488
(57)【特許請求の範囲】
【請求項1】
キャプチャデバイスの周囲に延びる空間において1つまたは複数の音源からキャプチャされたオーディオと、前記1つまたは複数の音源に向かう方向を少なくとも示す方向情報とを含む空間オーディオデータであって、前記キャプチャデバイスによってキャプチャされる前記空間オーディオデータを受け取り、
前記キャプチャデバイスのカメラによってキャプチャされ、視野を有するビデオ画像であって、前記空間オーディオデータがそこからキャプチャされる前記空間の範囲が前記視野より大きい、前記ビデオ画像を受け取り、
前記方向情報から判定された前記1つまたは複数の音源のそれぞれを、前記視野内の音源については、前記ビデオ画像のうちの、前記音源に向かう方向に対応する領域に関連付け、前記視野の外部の音源については、前記視野の外部の前記空間の空間範囲を示
す視野外グラフィックであって、線の一端から他端までの前記線に沿った位置が前記視野外グラフィックに関連付けられた前記音源の前記オーディオがそこから受け取られている方向を表す線であって、前記線の前記一端は前記視野の少なくとも第1の境界に対応する方向を表し、前記線の前記他端は前記第1の境界とは反対側の前記視野の少なくとも第2の境界に対応する方向を表す前記線を含む
前記視野外グラフィックのうちの、前記音源に向かう方向に対応する部分に関連付け、
前記ビデオ画像の表示を前記視野外グラフィックとともにディスプレイ上で提供し、
前記ビデオ画像のうちの領域または前記視野外グラフィックのうちの部分を選択するユーザ入力を受け取り、
前記1つまたは複数の音源のうちの選択された1つの音源の少なくとも1つのオーディオキャプチャ特性の制御であって、前記1つまたは複数の音源のうちの選択された前記1つの音源が前記ユーザ入力によって選択された前記領域または前記部分に関連付けられた前記1つまたは複数の音源のうちの1つを含む、前記制御を提供する
ように構成された手段を含む装置。
【請求項2】
前記手段は、
前記視野外グラフィックのうちの、前記1つまたは複数の音源に向かう方向に対応する前記部分と、
前記ビデオ画像のうちの、前記1つまたは複数の音源に向かう方向に対応する前記領域と、
のうちの1つまたは複数におけるマーカの表示を提供するように構成されている、請求項1に記載の装置。
【請求項3】
少なくとも1つのオーディオキャプチャ特性の前記制御は、前記手段が、ビーム形成技術を使用して選択された前記1つの音源のキャプチャまたは記録を行わせるシグナリングを提供するように構成されていることを含む、請求項1または2に記載の装置。
【請求項4】
少なくとも1つのオーディオキャプチャ特性の前記制御は、前記手段が、
前記空間オーディオデータのうちの他のオーディオに適用される音量利得に対して相対的により大きな音量利得を有する選択された前記1つの音源をキャプチャまたは記録することと、
前記空間オーディオデータのうちの他のオーディオに適用される質に対して相対的により高い質を有する選択された前記1つの音源をキャプチャまたは記録することと、
選択された前記1つの音源の前記オーディオを前記空間オーディオデータのうちの他のオーディオとは分離したオーディオストリームとしてキャプチャまたは記録することと、
のうちの少なくとも1つを行うように構成されていることを含む、請求項1~3のいずれか1項に記載の装置。
【請求項5】
前記手段は、前記方向情報を使用して、所定の閾値を上回る音量を有するオーディオがどの方向から受け取られているかを判定することによって、前記1つまたは複数の音源を判定するように構成されている、請求項1~4のいずれか1項に記載の装置。
【請求項6】
前記視野の外部の前記空間の空間範囲を示す前記視野外グラフィックは、
楕円の扇形区分であって、前記扇形区分内の位置が前記視野外グラフィックに関連付けられた前記音源の前記オーディオがそこから受け取られる方向を表し、前記扇形区分の第1の部分が前記視野の少なくとも第1の境界に対応する方向を表し、前記扇形区分の第2の部分が前記第1の境界とは反対側の前記視野の少なくとも第2の境界に対応する方向を表す、前記扇形区分、
をさらに含む、請求項1~5のいずれか1項に記載の装置。
【請求項7】
前記視野の外部の前記空間の空間範囲を示す前記視野外グラフィックは、前記キャプチャデバイスの周囲の面を表し、前記視野外グラフィックに対して相対的な提示されるマーカの位置が、前記音源の前記オーディオがそこから受け取られているアジマス方向を表し、前記視野外グラフィックよりある距離だけ上方または下方に図示されている前記提示されたマーカの位置が、前記面の上方または下方の前記音源の前記オーディオがそこから受け取られている高度方向に対応する、請求項1~6のいずれか1項に記載の装置。
【請求項8】
前記手段は、前記ビデオ画像の前記領域または前記視野外グラフィックの前記部分を選択する、タッチセンシティブ入力デバイス上の場所におけるタップを含む前記ユーザ入力に基づいて、選択された前記領域または部分に対応する前記空間の前記領域に焦点を合わせるビーム形成技術の適用により少なくとも1つのオーディオキャプチャ特性を変更することによって、少なくとも1つの前記オーディオキャプチャ特性の制御を提供するように構成されている、請求項1~7のいずれか1項に記載の装置。
【請求項9】
前記手段は、前記ビデオ画像の前記領域または前記視野外グラフィックの前記部分を選択する、タッチセンシティブ入力デバイス上の場所におけるピンチジェスチャを含む前記ユーザ入力に基づいて、前記ピンチジェスチャの大きさに関連する角度を有するビーム形成技術の適用により少なくとも1つのオーディオキャプチャ特性を変更することによって、少なくとも1つの前記オーディオキャプチャ特性の制御を提供するように構成された、請求項1~8のいずれか1項に記載の装置。
【請求項10】
前記手段は、関連付けられた音源がない、前記ビデオ画像の領域または前記視野外グラフィックの部分を選択する受け取った前記ユーザ入力に基づいて、前記ビデオ画像の選択された前記領域または前記視野外グラフィックの部分に対応する方向に音源がないことを示す第2のマーカの表示を提供するように構成されている、請求項1~9のいずれか1項に記載の装置。
【請求項11】
前記ビーム形成技術は、選択された前記音源の前記オーディオが強調される、遅延和ビームフォーマ技術またはパラメトリック空間オーディオ処理技術のうちの少なくとも一方を含む、請求項3に記載の装置。
【請求項12】
前記手段は、制御された前記オーディオキャプチャ特性を有する選択された前記音源とともに前記空間オーディオデータの提示および記録の一方または両方を提供するように構成されている、請求項1~11のいずれか1項に記載の装置。
【請求項13】
請求項1~12のいずれか1項に記載の装置と、前記ビデオ画像をキャプチャするように構成されたカメラと、前記空間オーディオデータをキャプチャするように構成された複数のマイクロホンと、前記装置によって前記ビデオ画像を前記視野外グラフィックとともに表示するために使用されるディスプレイとを含む、電子デバイス。
【請求項14】
キャプチャデバイスの周囲に延びる空間において1つまたは複数の音源からキャプチャされたオーディオと、前記1つまたは複数の音源に向かう方向を少なくとも示す方向情報とを含む空間オーディオデータであって、前記キャプチャデバイスによってキャプチャされる前記空間オーディオデータを受け取ることと、
前記キャプチャデバイスのカメラによってキャプチャされ、視野を有するビデオ画像であって、前記空間オーディオデータがそこからキャプチャされる前記空間の範囲が前記視野より大きい、前記ビデオ画像を受け取ることと、
前記方向情報から判定された前記1つまたは複数の音源のそれぞれを、前記視野内の音源については、前記ビデオ画像のうちの、前記音源に向かう方向に対応する領域に関連付け、前記視野の外部の音源については、前記視野の外部の前記空間の空間範囲を示
す視野外グラフィックであって、線の一端から他端までの前記線に沿った位置が前記視野外グラフィックに関連付けられた前記音源の前記オーディオがそこから受け取られている方向を表す線であって、前記線の前記一端は前記視野の少なくとも第1の境界に対応する方向を表し、前記線の前記他端は前記第1の境界とは反対側の前記視野の少なくとも第2の境界に対応する方向を表す前記線を含む
前記視野外グラフィックのうちの、前記音源に向かう方向に対応する部分に関連付けることと、
前記ビデオ画像の表示を前記視野外グラフィックとともにディスプレイ上で提供することと、
前記ビデオ画像のうちの領域または前記視野外グラフィックのうちの部分を選択するユーザ入力を受け取ることと、
前記1つまたは複数の音源のうちの選択された1つの音源の少なくとも1つのオーディオキャプチャ特性の制御であって、前記1つまたは複数の音源のうちの選択された前記1つの音源が前記ユーザ入力によって選択された前記領域または前記部分に関連付けられた前記1つまたは複数の音源のうちの1つを含む、前記制御を提供することと
を含む、方法。
【請求項15】
コンピュータプログラムコードが記憶されたコンピュータ可読媒体であって、前記コンピュータ可読媒体とコンピュータプログラムコードとは、少なくとも1つのプロセッサで実行されると、
キャプチャデバイスの周囲に延びる空間において1つまたは複数の音源からキャプチャされたオーディオと、前記1つまたは複数の音源に向かう方向を少なくとも示す方向情報とを含む空間オーディオデータであって、前記キャプチャデバイスによってキャプチャされる前記空間オーディオデータを受け取り、
前記キャプチャデバイスのカメラによってキャプチャされ、視野を有するビデオ画像であって、前記空間オーディオデータがそこからキャプチャされる前記空間の範囲が前記視野より大きい、前記ビデオ画像を受け取り、
前記方向情報から判定された前記1つまたは複数の音源のそれぞれを、前記視野内の音源については、前記ビデオ画像のうちの、前記音源に向かう方向に対応する領域に関連付け、前記視野の外部の音源については、前記視野の外部の前記空間の空間範囲を示
す視野外グラフィックであって、線の一端から他端までの前記線に沿った位置が前記視野外グラフィックに関連付けられた前記音源の前記オーディオがそこから受け取られている方向を表す線であって、前記線の前記一端は前記視野の少なくとも第1の境界に対応する方向を表し、前記線の前記他端は前記第1の境界とは反対側の前記視野の少なくとも第2の境界に対応する方向を表す前記線を含む
前記視野外グラフィックのうちの、前記音源に向かう方向に対応する部分に関連付け、
前記ビデオ画像の表示を前記視野外グラフィックとともにディスプレイ上で提供し、
前記ビデオ画像のうちの領域または前記視野外グラフィックのうちの部分を選択するユーザ入力を受け取り、
前記1つまたは複数の音源のうちの選択された1つの音源の少なくとも1つのオーディオキャプチャ特性の制御であって、前記1つまたは複数の音源のうちの選択された前記1つの音源が前記ユーザ入力によって選択された前記領域または前記部分に関連付けられた前記1つまたは複数の音源のうちの1つを含む、前記制御を提供する、方法を実行するように構成されている、コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、空間オーディオ(spatial audio)のキャプチャの分野に関する。具体的には、本開示は、空間オーディオの1つまたは複数のオーディオキャプチャ特性の変更のための手段となるユーザインターフェースの提示、それに関連する装置、方法およびコンピュータプログラムに関する。
【背景技術】
【0002】
空間オーディオのキャプチャが有用な場合があり、そのキャプチャの制御は困難であることがある。
【0003】
すでに公開されている文献または本明細書のいかなる背景の記載または説明も、必ずしもその文献または背景が本技術分野の現況の一部であるかまたは周知の知識であるとの承認とみなされるべきではない。本開示の1つまたは複数の態様/実施例は、背景にある課題の1つまたは複数に対処する場合もあればしない場合もある。
【発明の概要】
【0004】
第1の例示の態様では、キャプチャデバイスの周囲に延びる空間において1つまたは複数の音源からキャプチャされたオーディオと、前記1つまたは複数の音源に向かう方向を少なくとも示す方向情報とを含む空間オーディオデータであって、前記キャプチャデバイスによってキャプチャされる前記空間オーディオデータを受け取り、
前記キャプチャデバイスのカメラによってキャプチャされ、視野(field of view)を有するビデオ画像(video imagery)であって、前記空間オーディオデータがそこからキャプチャされる前記空間の範囲が前記視野より大きい、前記ビデオ画像を受け取り、
前記方向情報から判定された前記1つまたは複数の音源のそれぞれを、前記視野内の音源については、前記ビデオ画像のうちの、前記音源に向かう方向に対応する領域に関連付け、前記視野の外部の音源については、前記視野の外部の前記空間の空間範囲(spatial extent)を示す視野外グラフィックのうちの、前記音源に向かう方向に対応する部分に関連付け、
前記ビデオ画像の表示を前記視野外グラフィックとともにディスプレイ上で提供し、
前記ビデオ画像のうちの領域または前記視野外グラフィック(out-of-view graphic)のうちの部分を選択するユーザ入力を受け取り、
前記1つまたは複数の音源のうちの選択された1つの音源の少なくとも1つのオーディオキャプチャ特性の制御であって、前記1つまたは複数の音源のうちの選択された前記1つの音源が前記ユーザ入力によって選択された前記領域または前記部分に関連付けられた前記1つまたは複数の音源のうちの1つを含む、前記制御を提供する
ように構成された手段を含む装置が提供される。
【0005】
1つまたは複数の実施例では、前記手段は、
前記視野外グラフィックのうちの、前記1つまたは複数の音源に向かう方向に対応する部分と、
前記ビデオ画像のうちの、前記1つまたは複数の音源に向かう方向に対応する領域と、
のうちの1つまたは複数(例えば両方)におけるマーカの表示を提供するように構成される。
【0006】
1つまたは複数の実施例では、少なくとも1つのオーディオキャプチャ特性の前記制御は、前記手段が、ビーム形成技術を使用して選択された前記1つの音源のキャプチャまたは記録を行わせるシグナリングを提供するように構成されていることを含む。
【0007】
1つまたは複数の実施例では、少なくとも1つのオーディオキャプチャ特性の前記制御は、前記手段が、
前記空間オーディオデータのうちの他のオーディオに適用される音量利得に対して相対的により大きな音量利得を有する選択された前記1つの音源をキャプチャまたは記録することと、
前記空間オーディオデータのうちの他のオーディオに適用される質に対して相対的により高い質を有する選択された前記1つの音源をキャプチャまたは記録することと、
選択された前記1つの音源の前記オーディオを前記空間オーディオデータのうちの他のオーディオとは分離したオーディオストリームとしてキャプチャまたは記録することと、のうちの少なくとも1つを行うように構成されていることを含む。
【0008】
1つまたは複数の実施例では、前記手段は、前記方向情報を使用して、所定の閾値を上回る音量を有するオーディオがどの方向から受け取られているかを判定することによって、前記1つまたは複数の音源を判定するように構成される。
【0009】
1つまたは複数の実施例では、前記視野の外部の前記空間の空間範囲を示す前記視野外グラフィックは、
線の一端から他端までの線に沿った位置が、前記視野の少なくとも第1の境界に対応する方向から前記第1の境界とは反対側の前記視野の少なくとも第2の境界に対応する方向までの、前記音源の前記オーディオをそこから受け取られている方向を表す線と、
楕円(ellipse)の扇形区分(sector)であって、前記視野の少なくとも第1の境界に対応する方向から前記第1の境界とは反対側の前記視野の少なくとも第2の境界に対応する方向までの、前記扇形区分内の位置が前記音源の前記オーディオがそこから受け取られている方向を表す扇形区分と、のうちの少なくとも1つを含む。
【0010】
1つまたは複数の実施例では、前記視野の外部の前記空間の空間範囲を示す前記視野外グラフィックは、前記キャプチャデバイスの周囲の面を表し、前記視野外グラフィックに対して相対的な提示されるマーカの位置が、前記音源の前記オーディオがそこから受け取られているアジマス方向を表し、前記視野外グラフィックよりある距離だけ上方または下方に図示されている前記提示されたマーカの位置が、前記面の上方または下方の前記音源の前記オーディオがそこから受け取られている高度方向に対応する。
【0011】
1つまたは複数の実施例では、前記視野の外部の前記空間の空間範囲を示す前記視野外グラフィックは線を含み、前記線の一端から他端までの前記線に沿った位置が、前記視野の少なくとも第1の境界に対応するアジマス方向から前記第1の境界とは反対側の前記視野の少なくとも第2の境界に対応するアジマス方向までの、前記音源の前記オーディオがそこから受け取られているアジマス方向を表し、前記線より上方または下方の距離が前記音源の前記オーディオがそこから受け取られている高度に対応する。
【0012】
1つまたは複数の実施例では、前記手段は、前記ビデオ画像の前記領域または前記視野外グラフィックの前記部分を選択する、タッチセンシティブ入力デバイス上の場所におけるタップを含む前記ユーザ入力に基づいて、選択された前記領域または部分に対応する前記空間の前記領域に焦点を合わせるビーム形成技術の適用により少なくとも1つのオーディオキャプチャ特性を変更することによって、少なくとも1つの前記オーディオキャプチャ特性の制御を提供するように構成される。
【0013】
1つまたは複数の実施例では、前記手段は、前記ビデオ画像の前記領域または前記視野外グラフィックの前記部分を選択する、タッチセンシティブ入力デバイス上の場所におけるピンチジェスチャを含む前記ユーザ入力に基づいて、前記ピンチジェスチャの大きさに関連する程度を有するビーム形成技術の適用により少なくとも1つのオーディオキャプチャ特性を変更することによって、少なくとも1つの前記オーディオキャプチャ特性の制御を提供するように構成される。
【0014】
1つまたは複数の実施例では、前記手段は、関連付けられた音源がない前記ビデオ画像の領域または前記視野外グラフィックの部分を選択する受け取った前記ユーザ入力に基づいて、前記ビデオ画像の選択された前記領域または前記視野外グラフィックの部分に対応する方向に音源がないことを示す第2のマーカの表示を提供するように構成される。
【0015】
1つまたは複数の実施例では、前記ビーム形成技術は、選択された前記音源の前記オーディオが強調される、遅延和ビームフォーマ技術(delay-sum beamformer technique)またはパラメトリック空間オーディオ処理技術のうちの少なくとも一方を含む。
【0016】
1つまたは複数の実施例では、前記手段は、制御された前記オーディオキャプチャ特性を有する選択された前記音源とともに前記空間オーディオデータの提示および記録のうちの1つまたは複数(例えば両方)を提供するように構成される。
【0017】
1つまたは複数の実施例では、前記装置の前記手段は少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリとを含み、前記少なくとも1つのメモリと前記コンピュータプログラムコードとは、前記少なくとも1つのプロセッサによって、前記装置に第1の態様の機能を実行させる。
【0018】
第2の例示の態様では、第1の態様の装置と、前記ビデオ画像をキャプチャするように構成されたカメラと、前記空間オーディオデータをキャプチャするように構成された複数のマイクロホンと、前記装置によって前記ビデオ画像を前記視野外グラフィックとともに表示するために使用されるディスプレイとを含む、電子デバイスが提供される。
【0019】
第3の態様では、方法が提供され、この方法は、キャプチャデバイスの周囲に延びる空間において1つまたは複数の音源からキャプチャされたオーディオと、前記1つまたは複数の音源に向かう方向を少なくとも示す方向情報とを含む空間オーディオデータであって、前記キャプチャデバイスによってキャプチャされる前記空間オーディオデータを受け取ることと、
前記キャプチャデバイスのカメラによってキャプチャされ、視野を有するビデオ画像であって、前記空間オーディオデータがそこからキャプチャされる前記空間の範囲が前記視野より大きい、前記ビデオ画像を受け取ることと、
前記方向情報から判定された前記1つまたは複数の音源のそれぞれを、前記視野内の音源については、前記ビデオ画像のうちの、前記音源に向かう方向に対応する領域に関連付け、前記視野の外部の音源については、前記視野の外部の前記空間の空間範囲を示す視野外グラフィックのうちの、前記音源に向かう方向に対応する部分に関連付けることと、
前記ビデオ画像の表示を前記視野外グラフィックとともにディスプレイ上で提供することと、
前記ビデオ画像のうちの領域または前記視野外グラフィックのうちの部分を選択するユーザ入力を受け取ることと、
前記1つまたは複数の音源のうちの選択された1つの音源の少なくとも1つのオーディオキャプチャ特性の制御であって、前記1つまたは複数の音源のうちの選択された前記1つの音源が前記ユーザ入力によって選択された前記領域または前記部分に関連付けられた前記1つまたは複数の音源のうちの1つを含む、前記制御を提供することとを含む。
【0020】
1つまたは複数の実施例では、この方法は、
前記視野外グラフィックのうちの、前記1つまたは複数の音源に向かう方向に対応する部分と、
前記ビデオ画像のうちの、前記1つまたは複数の音源に向かう方向に対応する領域と、
のうちの一方または両方におけるマーカの表示を提供するように構成される。
【0021】
1つまたは複数の実施例では、少なくとも1つのオーディオキャプチャ特性の制御は、ビーム形成技術を使用して選択された前記1つの音源のキャプチャまたは記録を行わせるシグナリングを提供する方法を含む。
【0022】
1つまたは複数の実施例では、少なくとも1つのオーディオキャプチャ特性の制御は、
前記空間オーディオデータのうちの他のオーディオに適用される音量利得に対して相対的により大きな音量利得を有する選択された前記1つの音源をキャプチャまたは記録することと、
前記空間オーディオデータのうちの他のオーディオに適用される質に対して相対的により高い質を有する選択された前記1つの音源をキャプチャまたは記録することと、
選択された前記1つの音源の前記オーディオを前記空間オーディオデータのうちの他のオーディオとは分離したオーディオストリームとしてキャプチャまたは記録することと、
のうちの少なくとも1つを行う方法を含む。
【0023】
1つまたは複数の実施例では、この方法は、前記方向情報を使用して、所定の閾値を上回る音量を有するオーディオがどの方向から受け取られているかを判定することによって、前記1つまたは複数の音源を判定することを含む。
【0024】
1つまたは複数の実施例では、この方法は、前記ビデオ画像の前記領域または前記視野外グラフィックの前記部分を選択する、タッチセンシティブ入力デバイス上の場所におけるタップを含むユーザ入力を受け取ることと、選択された前記領域または部分に対応する前記空間の前記領域に焦点を合わせるビーム形成技術の適用によりオーディオキャプチャ特性を変更することによって少なくとも1つの前記オーディオキャプチャ特性の制御を提供することとを含む。
【0025】
1つまたは複数の実施例では、この方法は、前記ビデオ画像の前記領域または前記視野外グラフィックの前記部分を選択する、タッチセンシティブ入力デバイス上の場所におけるピンチジェスチャを含む前記ユーザ入力を受け取ることと、前記ピンチジェスチャの大きさに関連する程度を有するビーム形成技術の適用によりオーディオキャプチャ特性を変更することによって、少なくとも1つの前記オーディオキャプチャ特性の制御を提供することとを含む。
【0026】
1つまたは複数の実施例では、この方法は、関連付けられた音源がない前記ビデオ画像の領域または前記視野外グラフィックの部分を選択する前記ユーザ入力を受け取ることと、前記ビデオ画像の選択された前記領域または前記視野外グラフィックの部分に対応する方向に音源がないことを示す第2のマーカの表示を提供することとを含む。
【0027】
1つまたは複数の実施例では、この方法は、制御された前記オーディオキャプチャ特性を有する選択された前記音源とともに前記空間オーディオデータの提示および記録の一方または両方を提供することを含む。
【0028】
第4の例示の態様では、コンピュータプログラムコードが記憶されたコンピュータ可読媒体が提供され、前記コンピュータ可読媒体とコンピュータプログラムコードとは、少なくとも1つのプロセッサで実行されると、
キャプチャデバイスの周囲に延びる空間において1つまたは複数の音源からキャプチャされたオーディオと、前記1つまたは複数の音源に向かう方向を少なくとも示す方向情報とを含む空間オーディオデータであって、前記キャプチャデバイスによってキャプチャされる前記空間オーディオデータを受け取り、
前記キャプチャデバイスのカメラによってキャプチャされ、視野を有するビデオ画像であって、前記空間オーディオデータがそこからキャプチャされる前記空間の範囲が前記視野より大きい、前記ビデオ画像を受け取り、
前記方向情報から判定された前記1つまたは複数の音源のそれぞれを、前記視野内の音源については、前記ビデオ画像のうちの、前記音源に向かう方向に対応する領域に関連付け、前記視野の外部の音源については、前記視野の外部の前記空間の空間範囲を示す視野外グラフィックのうちの、前記音源に向かう方向に対応する部分に関連付け、
前記ビデオ画像の表示を前記視野外グラフィックとともにディスプレイ上で提供し、
前記ビデオ画像のうちの領域または前記視野外グラフィックのうちの部分を選択するユーザ入力を受け取り、
前記1つまたは複数の音源のうちの選択された1つの音源の少なくとも1つのオーディオキャプチャ特性の制御であって、前記1つまたは複数の音源のうちの選択された前記1つの音源が前記ユーザ入力によって選択された前記領域または前記部分に関連付けられた前記1つまたは複数の音源のうちの1つを含む、前記制御を提供する方法を実行するように構成される。
【0029】
第4の例示の態様では、
少なくとも1つのプロセッサと、
コンピュータプログラムコードを含む少なくとも1つのメモリとを含む装置が提供され、
前記少なくとも1つのメモリと前記コンピュータプログラムコードとは、前記少なくとも1つのプロセッサによって、前記装置に少なくとも、
キャプチャデバイスの周囲に延びる空間において1つまたは複数の音源からキャプチャされたオーディオと、前記1つまたは複数の音源に向かう方向を少なくとも示す方向情報とを含む空間オーディオデータであって、前記キャプチャデバイスによってキャプチャされる前記空間オーディオデータを受け取ることと、
前記キャプチャデバイスのカメラによってキャプチャされ、視野を有するビデオ画像であって、前記空間オーディオデータがそこからキャプチャされる前記空間の範囲が前記視野より大きい、前記ビデオ画像を受け取ることと、
前記方向情報から判定された前記1つまたは複数の音源のそれぞれを、前記視野内の音源については、前記ビデオ画像のうちの、前記音源に向かう方向に対応する領域に関連付け、前記視野の外部の音源については、前記視野の外部の前記空間の空間範囲を示す視野外グラフィックのうちの、前記音源に向かう方向に対応する部分に関連付けることと、
前記ビデオ画像の表示を前記視野外グラフィックとともにディスプレイ上で提供することと、
前記ビデオ画像のうちの領域または前記視野外グラフィックのうちの部分を選択するユーザ入力を受け取ることと、
前記1つまたは複数の音源のうちの選択された1つの音源の少なくとも1つのオーディオキャプチャ特性の制御であって、前記1つまたは複数の音源のうちの選択された前記1つの音源が前記ユーザ入力によって選択された前記領域または前記部分に関連付けられた前記1つまたは複数の音源のうちの1つを含む、前記制御を提供することとを実行させる。
【0030】
第1の態様の任意による特徴は、第4の態様の装置にも等しく当てはまる。また、第1の態様の任意による特徴によって提供される機能は、第2の態様の方法および第3の態様のコンピュータ可読媒体のコードによって実行されてもよい。
【0031】
本開示は、組み合わせまたは単独で具体的に記載されている(特許請求されていることを含む)か否かを問わず、1つまたは複数の対応する態様、実施例または特徴を単独で、または様々な組み合わせで含む。記載されている機能のうちの1つまたは複数の機能を実行するための対応する手段および対応する機能ユニット(例えば機能イネーブラ、AR/VRグラフィックレンダラ、ディスプレイデバイス)も本開示に含まれる。
【0032】
本開示の方法のうちの1つまたは複数の方法を実装するための対応するコンピュータプログラムも本開示に含まれ、記載されている実施例のうちの1つまたは複数の実施例に包含される。
【0033】
上記の概要は、単に例示を意図したものであり、限定的であることを意図していない。
【0034】
以下、例示のみを目的として、添付図面を参照しながら説明する。
【図面の簡単な説明】
【0035】
【
図1】少なくとも1つのオーディオキャプチャ特性の制御のための例示の装置を、音源を有する空間における電子デバイスまたは「キャプチャデバイス」の一部として示す図である。
【
図2】装置からのシグナリングに基づくインターフェースを示すディスプレイの第1の例示の表示を示す図である。
【
図3】装置からのシグナリングに基づくインターフェースを示すディスプレイの第2の例示の表示を示す図である。
【
図4】装置からのシグナリングに基づくインターフェースを示すディスプレイの第3の例示の表示を示す図である。
【
図5】ユーザがピンチジェスチャを含むユーザ入力を与えている状態の、装置からのシグナリングに基づくインターフェースを示すディスプレイの第4の例示の表示を示す図である。
【
図6】ユーザが、視野外グラフィックの一部分を選択するためにユーザ入力を与えている状態の、装置からのシグナリングに基づくインターフェースを示すディスプレイの第5の例示の表示を示す図である。
【発明を実施するための形態】
【0036】
空間オーディオのキャプチャは、仮想現実、拡張現実、通信およびビデオキャプチャなどの分野において豊かな様々なユーザエクスペリエンスを提供するために有用な場合がある。したがって、空間オーディオをキャプチャすることができるデバイスの数は増加する可能性が高い。空間オーディオが1つまたは複数の音源に向かう方向、別の言い方をすれば、1つまたは複数の音源からのオーディオの到来方向を示す方向情報を使用してオーディオをキャプチャすることを含むことを考えると、そのようなオーディオの効果的なキャプチャは複雑である可能性がある。空間オーディオをキャプチャするデバイスの潜在的限界にもかかわらず、効率的な方式で空間オーディオコンテンツの1つまたは複数のオーディオキャプチャ特性の制御を提供することが望ましいであろう。
【0037】
空間オーディオは、方向情報を使用して空間オーディオキャプチャデバイスなどによってキャプチャされたオーディオを含む。したがって、キャプチャされた空間オーディオは、オーディオ自体を表す情報を、空間オーディオキャプチャデバイスの周囲の空間におけるオーディオの音源の空間的配置を示す情報とともに有することができる。空間オーディオは、オーディオの個々の音源が特定の場所にあるかのように、各音源がその特定の場所から発せられていることが知覚されるようにしてユーザに提示することができる。空間オーディオデータは、空間オーディオとして提示するためのオーディオを含み、したがって、典型的には、そのオーディオと、例えばメタデータとして明示的に指定されるかまたはオーディオがキャプチャされる仕方に本質的に存在する、方向情報とを含む。空間オーディオデータは、方向情報に従って、その成分オーディオ(例えばキャプチャされる空間内のオーディオの音源)が1つまたは複数の点または1つまたは複数の方向から発せられていることが知覚されるように、提示することができる。オーディオレンダリングは、例えば、オーディオ提示が行われる仮想空間または現実空間に応じてモデリング可能な、初期反射および残響を考慮に入れることができる。
【0038】
キャプチャされる空間オーディオは、DirACまたは一次アンビソニクスまたは高次アンビソニクス(FOA、HOA)などのパラメトリック空間オーディオとすることができる。空間オーディオデータのキャプチャは、いくつかの(少なくとも3つなどの)マイクロホンを使用して行うことができる。1つまたは複数の実施例では、パラメトリック空間オーディオキャプチャ処理を使用してもよい。パラメトリック空間オーディオキャプチャは、当業者には知られているように、キャプチャされたマルチマイクロホン信号の時間周波数タイルごとに、信号の知覚的に関連する特性を表すのに十分な空間パラメータの分析を含み得る。これらのパラメータには、例えば、到来方向と、時間周波数タイルごとの拡散性などの比率パラメータとが含まれ得る。空間オーディオ信号は、次に、マルチマイクロホン入力信号から形成された伝送信号を含み得る方向情報(例えば空間メタデータ)を使用して表すことができる。レンダリング時、方向情報とともに、聴取者がマイクロホン配置の場所に自分の頭部があるかのような可聴知覚と類似した可聴知覚を生じさせる音場を合成するためにこの伝送オーディオ信号が使用される。
【0039】
空間オーディオの空間的位置決めは、ユーザへの提示のためにオーディオを位置決めすることができる空間オーディオ空間(拡張現実の場合には現実世界と位置合わせされる)を生じさせるために頭部伝達関数を使用するものなど、3Dオーディオ効果によって実現することができる。空間オーディオは、オーディオコンテンツの知覚される聴覚源を位置決めするために頭部伝達関数(HRTF)フィルタリング技術を使用して、またはスピーカの場合は、ベクトルベース振幅パンニング技術を使用することによって、ヘッドフォンによって提示することができる。空間オーディオは、オーディオの発生源が空間内の(例えば必ずしもスピーカと位置合わせされていない)特定の位置または特定の方向にあるという知覚を生じさせるように、ユーザのそれぞれの耳に対する可聴提示の音量差、タイミング差、およびピッチ差のうちの1つまたは複数を使用することができる。空間オーディオの知覚された音源からの近さまたは距離を示すように残響量および利得を制御することによって、知覚された音源までの知覚距離をレンダリングすることができる。本明細書に記載の空間オーディオ提示は、その発生源に向かう知覚方向のみによるオーディオの提示と、オーディオの発生源が、例えばユーザからの距離の知覚を含む、知覚位置を有するようなオーディオの提示とに関することを理解されたい。
【0040】
仮想現実(VR)コンテンツには、オーディオが、VRコンテンツの画像とリンク可能な、VR空間内の点から発せられるように知覚されるように、方向性を有する空間オーディオを与えることができる。拡張現実または複合現実コンテンツには、空間オーディオが、ユーザに見える現実世界の物体から、および/または、ユーザの視野に重ね合わされた拡張現実グラフィクスから発せされるものとして知覚されるように、空間オーディオを与えることができる。電子デバイス間の通信は、第1のユーザに知覚される実際の場面を第1のユーザから遠隔にいる第2のユーザに提示するために空間オーディオを使用することができる。
【0041】
図1に、1つまたは複数の音源のうちの選択された1つの音源のための少なくとも1つのオーディオキャプチャ特性の制御を提供するように構成された、例示の装置100を示す。装置100は、プロセッサ101とメモリ102などの、空間オーディオデータを受信し、オーディオキャプチャ特性の制御を提供する手段を含む。この実施例および1つまたは複数の実施例では、装置100は、スマートフォンまたはタブレットコンピュータなどの電子デバイス103の一部を含んでもよい。電子デバイス103は、空間オーディオデータおよび/またはビデオ画像を受信するように構成されたキャプチャデバイスの一実施形態を含むことができる。
【0042】
装置100は、1つまたは複数のマイクロホン104から空間オーディオデータを受け取るように構成される。1つまたは複数の実施例では、マイクロホン104は電子デバイス103の一部であってもよいが、他の実施例では電子デバイス103とは別個であってもよい。1つまたは複数のマイクロホン104は、例えば空間オーディオデータをキャプチャするためのマイクロホンアレイとして配置された少なくとも3つのマイクロホンを含んでもよい。装置100または電子デバイス103は、関連する方向情報を生成するために、マイクロホン104からキャプチャされたオーディオを処理するように構成可能である。1つまたは複数の実施例では、方向情報を生成するために、電子デバイス103の周囲の空間105における音源の追跡を使用することができる。
【0043】
装置100は、カメラ106からビデオ画像を受信するように構成される。1つまたは複数の実施例では、カメラは電子デバイス103の一部であってもよいが、他の実施例では電子デバイス103とは別個のものであってもよい。カメラは、視野の第1の境界108と視野の第2の境界109との間の矢印によって表される、空間105の視野107を有する。カメラ106の視野107は、マイクロホン104によって空間オーディオデータがキャプチャされる空間105の空間範囲よりも小さい。したがって、カメラ106の視野107の外部にある空間105の領域110がある。電子デバイス103は、空間オーディオデータとビデオ画像とをキャプチャするために使用されるため、「キャプチャデバイス」と称される場合がある。しかし、カメラ106とマイクロホン104とが電子デバイス103とは分離しているかまたは独立している場合、カメラ106とマイクロホン104とがまとめてキャプチャデバイスを含むとみなすこともできる。
【0044】
装置100は、ディスプレイ111にシグナリングを供給することによって、表示を提供するように構成することができる。ディスプレイ111は、ディスプレイ111上で提示されるユーザインターフェースに与えられるタッチスクリーン入力のための手段となるタッチセンシティブユーザ入力デバイス112に関連付けられてもよい。装置100によって、または装置100による使用のために電子デバイス103によって、他のユーザ入力機能が提供されてもよいことはわかるであろう。
【0045】
この実施例では装置100は、電子デバイス103の一部として、および場合によってはプロセッサ101、メモリ102、カメラ106、ディスプレイ111およびマイクロホン104などのハードウェア資源を電子デバイス103と共用するものとして示されているが、他の実施形態では、装置100は、電子デバイス103と通信するか、または、電子デバイス103の一部であるか否かを問わずカメラ106、マイクロホン104、およびディスプレイ111と通信する、サーバ(図示せず)の一部を含んでもよい。したがって、装置100は、空間オーディオデータおよびビデオ画像を受信し、画像がディスプレイによって表示されるようにシグナリングを提供するために、通信要素を使用してもよい。
【0046】
装置100がサーバの形態または電子デバイス103の一部などのいずれの方式で実現される場合も、装置100は、プロセッサ101とメモリ102とを含むか、またはこれらと接続されることができ、コンピュータプログラムコードを実行するように構成可能である。装置100は、1つのみのプロセッサ101と1つのみのメモリ102を有してもよいが、他の実施形態は複数のプロセッサおよび/または複数のメモリ(例えば同一かまたは異なるプロセッサ/メモリの種類)を使用してもよいことを理解されたい。また、装置100は特定用途向け集積回路(ASIC)であってもよい。
【0047】
プロセッサは、メモリ内にコンピュータプログラムコードの形態で記憶されている命令に従って、マイクロホン104、カメラ106およびタッチセンシティブユーザ入力デバイス112などの他の構成要素から受け取った情報を実行/処理することを目的とした汎用プロセッサとすることができる。プロセッサのこのような動作によって発生する出力シグナリングは、ディスプレイ111などのさらなる構成要素へ、または、装置100による指示に従って空間オーディオデータを処理するように構成されたオーディオ処理モジュールに提供される。他の実施例では、装置100は、空間オーディオデータを処理する手段を含んでもよく、空間オーディオキャプチャ特性を変更することができる。
【0048】
メモリ102(必ずしも単一のメモリユニットとは限らない)は、コンピュータプログラムコードを記憶するコンピュータ可読媒体(この実施例ではソリッドステートメモリであるが、ハードドライブ、ROM、RAM、フラッシュなど他の種類のメモリであってもよい)である。このコンピュータプログラムコードは、プログラムコードがプロセッサ上で実行されるとプロセッサによって実行可能な命令を格納する。メモリとプロセッサとの間の内部接続は、1つまたは複数の例示の実施形態では、プロセッサがメモリに記憶されているコンピュータプログラムコードにアクセスすることができるように、プロセッサとメモリとの能動的結合を提供するものと理解することができる。
【0049】
この実施例では、それぞれの構成要素間の電気通信が可能なように、それぞれのプロセッサおよびメモリが互いに内部で電気的に接続される。この実施例では、構成要素はまとめてASICとして形成されるように、言い換えると、電子デバイスに実装することができる単一のチップ/回路としてまとめて集積されるように、すべて互いに近接して配置される。実施例によっては、構成要素の1つまたは複数または全部が、互いに離隔して配置されてもよい。
【0050】
1つまたは複数の実施例では、装置100は、電子デバイス103の周囲に延びる空間105内の1つまたは複数の音源からキャプチャされたオーディオを含む空間オーディオデータを受け取るように構成される。
図1の実施例では、カメラ106の視野107内の第1および第2の音源113および114と、カメラ106の視野107の外部(すなわち領域110)の第3および第4の音源115および116とを含む、4つの音源を含む。装置100は、第1~第4の音源113~116を、それらが現在、オーディオを発生しているときに、音源として認識するように構成することができる。他の実施例では、第1~第4の音源113~116は、音源が最後のオーディオを発生してから所定の無音時間未満であるときに、音源とみなされてもよい。無音時間は、ユーザの選好に応じて、最大5秒、10秒、20秒、30秒、40秒、50秒または60秒またはそれ以上を含んでもよい。したがって、装置100は、キャプチャされたオーディオを分析し、オーディオが現在、可聴であるか、または上記無音時間内で可聴であったかに基づいて、そのオーディオで1つまたは複数の音源を判定するように構成することができる。他の実施例では、装置は、空間オーディオデータ内のどこに音源が存在するかを識別する情報を受信してもよい。空間オーディオデータは、上記1つまたは複数の音源に向かう方向を少なくとも示す方向情報をさらに含む。したがって、方向情報は、第1の音源113の第1の方向117と、第2の音源114の第2の方向118と、第3の音源115の第3の方向119と、第4の音源116の第4の方向120とを示すことができる。空間オーディオデータは多くの異なる方法でコード化可能であり、方向117~120はメタデータとして記録可能であるか、またはオーディオ自体を方向117~120を示すようにコード化することができ、他の技術もあることを理解されたい。
【0051】
上述のように、装置100は電子デバイス103のカメラ106によってキャプチャされたビデオ画像を受信するように構成することができ、空間オーディオデータがキャプチャされる空間105の空間範囲は視野107より大きい。したがって、ある時点で、第3および第4の音源115および116からのオーディオは空間オーディオデータにおいて現れるが、ある時点で第3および第4の音源115および116の像はビデオ画像には現れない。ビデオ画像と空間オーディオデータがキャプチャされている間、電子デバイス103は空間105内を動き回る可能性があり、その結果、時間の経過とともに視野が他の音源に移ることを理解されたい。したがって、視野107内にある音源は時間の経過とともに変化する可能性がある。
【0052】
例示の
図2に、電子デバイス103と、ユーザインターフェースが提示されたそのディスプレイ111とを示す。装置100は、カメラ106からのビデオ画像の表示を提供するように構成される。したがって、装置100は、カメラ106の視野107内でキャプチャされたビデオ画像がディスプレイ111上で提示されるようにシグナリングを供給することができる。カメラがキャプチャするものの範囲はディスプレイ111上に提示されるものと厳密に同じではない場合があることを理解されたい。例えば、カメラ106は、デフォルトで、ビデオ画像の解像度またはアスペクトをディスプレイ111に合わせるために領域をトリミングする場合がある。したがって、カメラ106の視野107は、ディスプレイ111上での提示のための視野を含むものとみなすことができる。
図2の実施例では、ディスプレイ111上での提示のために提供されるビデオ画像内に第1の音源113が第2の音源114とともに見える。
【0053】
例示の
図2は、視野外グラフィック200の第1の実施例を示している。視野外グラフィック200は、視野107の外部の空間105の空間範囲を表すために表示されるグラフィカル要素または画像を含む。具体的には、視野外グラフィック200は、空間105のうちの視野の外部にある部分のみなど、視野107の外部にある、空間オーディオデータがキャプチャされる空間105の範囲を表すことができる。したがって、ビデオ画像に現れる音源は、視野外グラフィック200上では表示されない。1つまたは複数の実施例では、視野外グラフィック200が表すものは単に視野107の外部の空間105だけでなくてもよく、視野107内の空間105の部分を表す部分を含んでもよい。
【0054】
この実施例および他の実施例で、視野外グラフィック200は、半楕円など、楕円の扇形区分を含む。したがって、電子デバイス103の周囲の360度の空間105を表すために楕円または円を使用することができ、半楕円またはその他の扇形部分は、視野107の外部の空間105の領域110を表すことができる。1つまたは複数の実施例では、視野外グラフィック200は、視野107の少なくとも第1の境界108に対応する方向を表す第1の半径部分201と、第1の境界108とは反対側の視野107の少なくとも第2の境界109に対応する方向を表す第2の半径部分202とを有する。視野外グラフィック200が空間105の視野107の外部にある部分を表すとすれば、視野外グラフィック内の位置は、音源115、116のオーディオをそこから受け取る方向を表すために使用することができる。
【0055】
ディスプレイ111上に示される音源の位置に基づいて選択された音源のオーディオキャプチャ特性の制御を提供するために、装置100は表示されているビデオ画像または視野外グラフィック200の領域/部分を、方向情報から判定可能な1つまたは複数の音源のそれぞれに関連付けることができる。したがって、視野107内の音源113、114については、装置100はビデオ画像の領域203、204を音源113、114または音源に向かう方向に関連付けることができる。視野107外部の第3および第4の音源115、116については、装置100は、音源115、116に向かう方向に対応する、マーカ215および216として示されている視野外グラフィック200のうちの部分を関連付けることができる。したがって、マーカ215は第3の音源115に向かう位置または方向を表し、マーカ216は第4の音源116に向かう位置または方向を表す。
【0056】
装置100は、ユーザ入力を受け取るように構成可能である。この実施例では、ユーザ入力は、タッチセンシティブユーザ入力デバイス112でのユーザ入力によって提供可能である。視線位置、またはコントローラを介したカーソルもしくはポインタの移動など、他のユーザ入力方法も使用可能であることを理解されたい。ディスプレイ111上のユーザ入力の位置により、領域203、204の一方、またはマーカ215、216の一方など、ビデオ画像の領域を選択するか視野外グラフィック200の一部を選択することができる。それらの領域203、204とマーカ215、216についてなされた関連付けがあるため、第1~第4の音源113~116のうちの1つからのオーディオの選択を装置100に提供することができる。他の実施例では、複数の選択を行ってもよいことを理解されたい。例示の
図2では、指206で示されているユーザは、マーカ216、したがって空間オーディオデータ内の第4の音源116のオーディオを選択している。
【0057】
装置100は、少なくとも1つのオーディオキャプチャ特性の制御を提供するように構成可能であり、制御は上記1つまたは複数の音源113~116のうちの選択された1つの音源に特定的である。
【0058】
したがって、装置100は、共に受け取られるビデオ画像の空間範囲よりも広い方向の範囲からキャプチャされたオーディオを表す空間オーディオデータを受け取るように構成することができる。したがって、電子デバイス103、またはより一般的に、入来空間オーディオデータおよびビデオ画像には、音源113~116のオーディオはキャプチャされるが、同等の範囲の視覚画像は、球面配置されたカメラ配置などの複数カメラ配置なしにはキャプチャすることができないという技術的限界がある。そのような複数カメラ配置は、一般にかさばり、扱いにくいため、そのような複数カメラ構成は、空間オーディオデータをキャプチャ可能な状況を限定する可能性がある。したがって、装置100は、空間オーディオデータのより広いキャプチャ域と組み合わさったカメラ106のより狭い視野という技術的限界を有する空間オーディオキャプチャの制御に付随する問題を克服することができるような仕方で、空間オーディオデータとビデオ画像の処理と、インターフェースの提示とを提供する。
【0059】
視野外グラフィック200は、何が表されているかをユーザが理解しやすいように標識が付けられてもよい、いくつかの矢印とともに示される。例えば、矢印207にはビデオ画像の正面方向から180°の方向を表すことを示すために180°と標識が付けられてもよい。同様に、他の矢印208および209には、視野外グラフィック200のそれらの部分によって表される方向を示すために135°および225°と標識が付けられてもよい。
【0060】
1つまたは複数の実施例において、装置100は、ヘッドフォンなどのオーディオ提示デバイス(図示せず)によって空間オーディオデータの提示を提供してもよい。他の実施例では、電子デバイス103のユーザが、空間オーディオデータとしてキャプチャされるオーディオを直接聴くことができれば、空間オーディオデータの提示は必要がない場合がある。しかし、ユーザが、オーディオキャプチャ特性についてユーザ入力によって指示した変更の効果を認識することができるように、空間オーディオデータを提示することは有利である可能性がある。したがって、1つまたは複数の実施例では、装置は変更されたオーディオキャプチャ特性を有していた音源からのオーディオのみの提示を提供するように構成されてもよい。
【0061】
視野外グラフィック200上のマーカ215、216の位置は、視野107外にある音源の現在位置を表すように、ライブで、または定期的に更新されてもよい。音源が領域110から視野107内に移動した場合、それに関連付けられたマーカが表示から除去されてもよい。同様に、音源が領域110に移動した場合、装置100は視野外グラフィック200にマーカを付加してもよい。1つまたは複数の実施例では、マーカ215、216に視覚的に類似しているかまたは異なるマーカが、視野107内の1つまたは複数の音源に向かう方向に対応するビデオ画像の領域203、204において提示されてもよい。したがって、装置は、装置100がビデオ画像内の人物を現時点での第1または第2の音源113、114とみなしていることを示すとともに、(ビデオ画像内に現れる音源に加えて)音源の位置を示すために、マーカの提示を提供してもよい。1つまたは複数の実施例において、ビデオ画像内の音源のために使用されるマーカは、該当領域203、204をマークするために輪郭または半透明の陰影を含んでもよい。
【0062】
1つまたは複数の実施例で、装置100は、空間オーディオデータとしてオーディオキャプチャ特性のライブでの制御を提供するように構成され、ビデオ画像がキャプチャされる。1つまたは複数の実施例において、空間オーディオデータとビデオ画像とは同時にキャプチャされ、記録され、装置には前に記録された空間オーディオデータと前に記録されたビデオ画像とが提供される。
【0063】
オーディオキャプチャ特性の制御は様々な方式で提供することができる。1つまたは複数の実施例では、装置100は、マイクロホン104の配置または、音源に適用される利得またはマイクロホンの方向焦点などのマイクロホン104のパラメータを変更するなどにより、空間オーディオデータがどのようにキャプチャされるかを制御するように構成されてもよい。1つまたは複数の実施例では、装置100は、空間オーディオデータがどのように記録されるかを制御するように構成されてもよく、したがって空間オーディオデータのオーディオ処理を提供し、適用されたオーディオキャプチャ特性の変更が加えられた空間オーディオデータを記録してもよい。オーディオキャプチャ特性の制御の目的は、特定の音源113~116または方向からのオーディオの強調を提供することであってもよい。
【0064】
1つまたは複数の実施例において、オーディオキャプチャ特性の制御は、ビーム形成技術を使用して提供される。ビーム形成技術は、選択された音源のマイクロホンオーディオストリームをキャプチャするために使用することができる。マイクロホンオーディオストリームは、選択された音源に特定的とすることができ、一方、他の音源は共通のストリームにまとめて記録することができる。ビーム形成技術は、相対的に強調された選択された方向の音源、および/または相対的に減衰された他の方向の音源を有する、空間オーディオデータを提供することができる。ビーム形成技術の一例は、マイクロホンの焦点を選択された音源または方向からのオーディオのキャプチャに合わせるために少なくとも3つのマイクロホンからなるマイクロホンアレイを使用する、遅延和ビーム形成技術である。あるいは、ビーム形成技術は、空間オーディオの特定の領域または方向が強調されるか、または空間105から受け取ったオーディオを表す空間音場から「抽出」される、ビーム形成された出力を形成するためのパラメトリック空間オーディオ処理を含むことができる。
【0065】
したがって、ビデオ画像と視野外グラフィック200のいずれかの上の位置を特定するユーザ入力により、装置100に、選択された音源のオーディオキャプチャ特性をビーム形成などにより制御させることができる。
【0066】
1つまたは複数の実施例では、少なくとも1つのオーディオキャプチャ特性の制御は、手段が、空間オーディオデータの他の音源113、114、115のオーディオに適用される音量利得に対して相対的に大きい音量利得を有する選択された1つの音源116をキャプチャまたは記録するように構成されていることを含む。したがって、音量レベルを上げるためのオーディオ処理を、第4の音源116の方向からのオーディオに選択的に適用してもよい。他の実施例では、音量利得ではなく、オーディオキャプチャ特性が、選択された音源/方向からのオーディオがキャプチャされる質を含んでもよいことを理解されたい。したがって、選択された音源116からのオーディオを記録するために、空間オーディオデータの他のオーディオのために使用されるビットレートよりも高いビットレートを使用してもよい。
【0067】
記載の実施例では、オーディオキャプチャ特性の制御を、選択された方向から受け取ったオーディオまたは選択された音源からのオーディオに適用することができると述べている。この2つは、1つまたは複数の実施形態では交換可能とみなすことができる。しかし、装置100は、音源に向かう方向を特定し、それによって空間オーディオデータにおける音源の存在を特定するように構成されてもよい。装置100は、方向情報を使用して、所定の閾値を上回る音量を有するオーディオがそこから受信される方向を判定するように構成されてもよい。特定の方向から閾値を上回るオーディオを受け取った場合、その方向が音源の方向を指すと判定することができる。
【0068】
空間105における主要な音源を、異なる技術を使用して突き止めることができる。一例は、ステアード応答パワー位相変換(SRP-PHAT)である。このアルゴリズムは、空間105を「走査」するためにステアード遅延和ビームフォーマの出力を最大化する音源の候補位置または方向を探索する、ビーム形成ベースの手法と理解することができる。1つまたは複数の実施例において、この方法の計算負担を抑えるために、電子デバイス103の前部、後部および/または側部を固定サイズの区分に分割し、それぞれのために、104にまとめて示すマイクロホンまたはマイクロホンアレイからなる固定ビームフォーマを設計してもよい。所望の閾値を満たす音源のみを特定するためにフィルタリングを適用してもよいことを理解されたい。1つまたは複数の実施例では、装置は、音源がアクティブであるときを判定し、次にSRP-PHATなどのビーム形成手段によってその位置/方向を探索するために、深層学習法または音声区間検出を適用するように構成されてもよい。位置が判定されると、視野外グラフィック200上の適切な点において、関連付けを行い、および/またはマーカ215、216を配置することができる。1つまたは複数の実施例では、装置100は、音源が音源として検出されるためにアクティブである必要がある閾値期間を適用してもよい。これは、無用な雑音とみなすことができる短期間の音を除外するのに役立つ場合がある。
【0069】
例示の
図3に、視野外グラフィック300の別の実施形態を示す。例示の
図3は、
図2と類似しており、したがって視野外グラフィック300以外は同じ参照番号が使用されている。したがって、この実施例では、視野外グラフィックは線を含み、その一端301から他端302までの線に沿った位置が、視野107の少なくとも第1の境界108に対応する方向から第1の境界とは反対側の視野107の少なくとも第2の境界109に対応する方向までの領域110内で音源のオーディオがそこから受け取られる方向を表す。
【0070】
視野107の外部の空間105内の音源の位置を表すように線上に表示するための、前述のようなマーカ215および216が提供される。この実施例では、マイクロホン104の周囲のアジマス方向のみが表されている。しかし、他の実施例では、音源113~116の球面位置、すなわち、電子デバイス103の周囲に延びる水平面より上方または下方の高さを有する位置が図示されてもよい。
【0071】
したがって、例示の
図4を参照すると、1つまたは複数の実施例において、視野外グラフィック400が、線の一端から他端までの線に沿った位置が音源のオーディオをそこから受け取られているアジマス方向を表す、視野の少なくとも第1の境界108に対応するアジマス方向から第1の境界とは反対側の視野の少なくとも第2の境界109に対応する方向までの線であって、視野外グラフィック400(例えば線)の上方または下方の距離401、402が、音源115、116のオーディオがそこから受け取られる高度方向に対応する線を含む。したがって、第3の音源115を表すマーカ215が、線の両端の間の中心に距離401だけ線の上方にあり、それによって、オーディオがマイクロホン104の背後および上方から受け取られていることを示している。また、第4の音源116を表すマーカ216が、距離402だけ線の下方にあり、オーディオがマイクロホン104の右および上方から受け取られていることを示している。実施例によっては、水平面より高い音源のみ、または水平面より低い音源のみについて、高度を提供してもよいことを理解されたい。
【0072】
ユーザ入力について、オーディオ処理またはビーム形成などによって、所定のオーディオ焦点を音源に適用することによって提供可能なオーディオキャプチャ特性の制御をもたらすものとして説明した。1つまたは複数の実施例では、オーディオ処理またはビーム形成またはその他の制御を適用する程度は、制御可能とすることができる。装置100は、どのオーディオに制御を適用するか、およびオーディオキャプチャ特性をいかに制御するかの選択と制御の両方を効果的に行う方法を提供するように構成可能である。
【0073】
例示の
図5は例示の
図4とほぼ同じであり、同じ参照番号が適用されている。1つまたは複数の実施例では、装置100はピンチジェスチャを受け取るように構成可能である。
図5は、マーカの1つ216の上でピンチジェスチャを行っているユーザの2本の指501および502を示している。ピンチジェスチャは、他のマーカ215に対して、またはビデオ画像内に見える音源113、114に対しても適用可能であることを理解されたい。
【0074】
装置100は、ピンチジェスチャの大きさ503に関連する程度を有するビーム形成技術の適用によって、上記オーディオキャプチャ特性の変更を提供するように構成されてもよい。ピンチジェスチャは、音源のうちの1つを選択するためと、オーディオキャプチャ特性に加える変更の程度を制御するために使用することができることを理解されたい。1つまたは複数の実施例では、オーディオキャプチャ特性の制御は、最終的な効果を「プレビュー」するようにピンチジェスチャの適用中に行うことができる。1つまたは複数の実施例では、大きさ503は、ピンチジェスチャが完了し、ユーザの指がディスプレイ111から離れるときに決定されてもよい。要約すると、ユーザ入力は、ビデオ画像の領域または視野外グラフィックの一部を選択し、オーディオキャプチャ特性が変更される程度を制御する、タッチセンシティブユーザ入力デバイス112上の位置(例えばマーカ216の位置)におけるピンチジェスチャを含み得る。
【0075】
ビーム形成技術の適用に関しては、ピンチジェスチャの大きさ503は、他の空間オーディオデータに対して相対的な、空間オーディオデータにおいてオーディオ焦点が支配的である程度を決定することができる。ピンチジェスチャは、例えば、ビーム形成技術がもたらすビーム幅または最大利得を制御することができる。1つまたは複数の実施例では、ビーム幅は、音源が増幅される扇形区分であってその外部では音源が(例えば増幅された音源に対して相対的に)減衰させられる扇形区分の、度数で表したビーム形成技術の幅である。1つまたは複数の実施例では、最大利得は、最大限に減衰された音源に対する最大限に増幅された音源のデシベル差である。
【0076】
装置は、ピンチジェスチャによって選択された音源を表すマーカの大きさを制御することによって、ピンチジェスチャにユーザフィードバックを提供するように構成されてもよい。したがって、マーカ216は、関連付けられている第4の音源116のオーディオにビーム形成により焦点が合わせられるかまたはその他により変更されるようにしたために、マーカ215よりも大きく示されている。
【0077】
例示の
図6に、マーカがなく、したがって音源がない視野外グラフィック300の部分600に適用されたユーザ入力を示す。ユーザ入力は、関連付けられた音源がないビデオ画像の領域に適用された可能性があることを理解されたい。このようなユーザ入力に応答して、装置100は、ビデオ画像の選択された領域または視野外グラフィック300の部分に対応する方向に音源がないことを示すために、第2のマーカ601の表示を提供するように構成されてもよい。第2のマーカ601の色またはパターンまたは見かけが、マーカ215、216とは異なっていてもよい。
【0078】
図7に、キャプチャデバイスの周囲に延びる空間における1つまたは複数の音源からキャプチャされたオーディオと、上記1つまたは複数の音源に向かう方向を少なくとも示す方向情報とを含む空間オーディオデータを受け取るステップ701であって、空間オーディオデータが上記キャプチャデバイスによってキャプチャされる、空間オーディオデータを受け取るステップ701と、
キャプチャデバイスのカメラによってキャプチャされたビデオ画像を受け取るステップ702であって、ビデオ画像は視野を有し、空間オーディオデータがキャプチャされる空間の範囲が上記視野より大きい、上記ビデオ画像を受け取るステップ702と、
上記方向情報から判定された1つまたは複数の音源のそれぞれを、上記視野内の音源については音源に向かう方向に対応する、ビデオ画像の領域を関連付け、上記視野の外部の音源については音源に向かう方向に対応する、視野外グラフィックの部分を関連付けるステップ703であって、上記視野外グラフィックは上記視野の外部の空間の空間的範囲を示す、関連付けるステップ703と、
上記ビデオ画像の表示を上記視野外グラフィックとともにディスプレイ上で提供するステップ704と、
上記ビデオ画像のうちの領域または視野外グラフィックのうちの部分を選択するユーザ入力を受け取るステップ705と、
上記1つまたは複数の音源のうちの選択された1つの音源のうちの少なくとも1つのオーディオキャプチャ特性の制御を提供するステップ706であって、上記1つまたは複数の音源のうちの選択された上記1つの音源は、1つまたは複数の音源のうちの、ユーザ入力によって選択された領域または部分に関連付けられた1つの音源を含む、上記制御を提供するステップ706とを示す、流れ図を示す。
【0079】
この方法は、上記装置に関連して上述した特徴のいずれかを特徴とすることができる。
【0080】
図8に、一実施例による、プログラムを提供するコンピュータ/プロセッサ可読媒体800を概略的に示す。この実施例では、コンピュータ/プロセッサ可読媒体は、デジタルバーサタイルディスク(DVD)またはコンパクトディスク(CD)などのディスクである。実施例によっては、コンピュータ可読媒体は、発明の機能を実施するようにプログラムされた任意の媒体とすることができる。コンピュータプログラムコードは、ROM、RAM、フラッシュ、ハードディスク、ソリッドステートなど、同一種類の複数のメモリ、または異なる種類の複数のメモリに分散させてもよい。
【0081】
ユーザ入力は、タップ、スワイプ、スライド、プレス、ホールド、回転ジェスチャ、デバイスのユーザインターフェースの近傍における静止ホバリングジェスチャ、デバイスの近傍における移動ホバリングジェスチャ、デバイスの少なくとも一部の曲げ、デバイスの少なくとも一部におけるスクイーズ、マルチフィンガジェスチャ、デバイスの傾け、または制御デバイスのフリップのうちの1つまたは複数を含むジェスチャとすることができる。また、ジェスチャは、ユーザの腕などユーザの身体、スタイラス、または自由空間ユーザジェスチャを行うのに適したその他の要素を使用した任意の自由空間ユーザジェスチャであってもよい。
【0082】
上述の各実施例で示した装置は、可搬型電子デバイス、ラップトップコンピュータ、携帯電話、スマートフォン、タブレットコンピュータ、パーソナルデジタルアシスタント、デジタルカメラ、スマートウォッチ、スマートアイウェア、ペン式コンピュータ、非可搬型電子デバイス、デスクトップコンピュータ、モニタ、スマートTV、サーバ、ウェアラブル装置、仮想現実装置、または、これらのうちの1つまたは複数のためのモジュール/回路であってもよい。
【0083】
上記の任意の装置および/または特定の上記の装置のその他の特徴は、使用可能とされたとき、例えばスイッチをオンにしたときなどにのみ、所望の動作を実施するように構成されるようになされた装置によって提供されてもよい。そのような場合、装置は、使用可能とされていない状態(例えばオフ状態)では必ずしもアクティブメモリに適切なソフトウェアがロードされていなくてもよく、適切なソフトウェアを、使用可能状態(例えばオン状態)でのみロードしてもよい。装置は、ハードウェア回路および/またはファームウェアを含み得る。装置は、メモリにロードされたソフトウェアを含み得る。そのようなソフトウェア/コンピュータプログラムは、同じメモリ/プロセッサ/機能ユニットおよび/または1つまたは複数のメモリ/プロセッサ/機能ユニットに記録されてもよい。
【0084】
実施例によっては、言及されている特定の装置が、所望の動作を行うように適切なソフトウェアで事前プログラムされてもよく、適切なソフトウェアは、例えばソフトウェアとそれに関連付けられた機能をロック解除/使用可能にするための「鍵」をユーザがダウンロードすることによって使用可能とすることができる。そのような実施例に付随する利点には、デバイスにさらなる機能が必要な場合にダウンロードするデータの必要が削減されることが含まれることがあり、これは、デバイスが、ユーザによって使用可能とされない可能性がある機能のためのそのような事前プログラム済みソフトウェアを記憶するのに十分な容量を有すると認められる実施例において有用な場合がある。
【0085】
言及されているいずれの装置/回路/要素/プロセッサも、言及されている機能に加えて他の機能も有することができ、それらの機能はその同じ装置/回路/要素/プロセッサによって実行可能である。1つまたは複数の本開示の態様は、関連するコンピュータプログラムの電子配布と、適切な担体(例えばメモリ、信号)に記録されたコンピュータプログラム(情報源/伝送路符号化が可能)とを包含することができる。
【0086】
本明細書に記載のいずれの「コンピュータ」も、同じ回路板または回路板の同じ領域/位置さらには同じデバイスに配置されていてもいなくてもよい、1つまたは複数の個別プロセッサ/処理要素の集合を含むことができる。実施例によっては、言及されている任意のプロセッサのうちの1つまたは複数のプロセッサが、複数のデバイスに分散されてもよい。同一または異なるプロセッサ/処理要素が、本明細書に記載の1つまたは複数の機能を実行してもよい。
【0087】
「シグナリング」という用語は、一連の送信および/または受信電気/光信号として送信される1つまたは複数の信号を指す場合がある。一連の信号は、上記シグナリングを構成するように、1つ、2つ、3つ、4つまたはそれより多くの個別信号成分または別個の信号を含み得る。これらの個別信号の一部または全部は、無線または有線通信によって、同時に、順次に、および/または互いに時間的に重なり合って送信/受信可能である。
【0088】
言及されているいずれかのコンピュータおよび/またはプロセッサおよびメモリ(例えばROM、CD-ROMなどを含む)のいずれかの説明を参照すると、これらは、本発明の機能を実施するようにプログラムされた、コンピュータ・プロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、および/またはその他のハードウェア構成要素を含み得る。
【0089】
本出願人は、本明細書により、本明細書に記載の個別の各特徴と、2つ以上のそのような特徴の任意の組み合わせを、そのような特徴または組み合わせが全体として本明細書に基づいて実施可能である程度まで、当業者の周知の知識に照らして、そのような特徴または特徴の組み合わせが本明細書で開示されているいずれかの問題を解決するか否かを問わず、特許請求の範囲に対する限定なしに、分離して開示する。出願人は、本開示の態様/実施例が任意のそのような個別の特徴または特徴の組み合わせからなり得ることを示す。以上の説明を考慮すると、当業者には本開示の範囲内で様々な修正を加えることができることが明らかであろう。
【0090】
新規な基本的特徴をその実施例に適用されるものとして示し、説明し、指摘したが、記載されているデバイスおよび方法の形態および詳細には、本開示の範囲から逸脱することなく当業者により様々な省略、置換、および変更が可能であることを理解されたい。例えば、同じ結果を達成するように実質的に同じ機能を実質的に同じように実行する要素および/または方法ステップのすべての組み合わせが、本開示の範囲に含まれることが明示的に意図されている。また、開示されているいずれの形態または実施例に関連して示し、および/または説明している構造体および/または要素および/または方法ステップも、設計上の選択の一般事項として任意の他の開示または記載または示唆されている形態または実施例に組み込むことが可能であることを理解されたい。また、特許請求の範囲において、ミーンズプラスファンクション請求項は、記載されている機能を実行するものとして本明細書で説明されている構造体、および、構造的均等物だけでなく均等な構造体も対象として含むことが意図されている。したがって、釘とねじは、釘が木材部品を互いに固定するために円柱状の表面を採用し、ねじが螺旋状の表面を採用するという点で構造的均等物ではない場合があるが、固定する木材部品の環境において、釘とねじとは均等な構造体であり得る。