(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-02-17
(54)【発明の名称】深層学習画像解析を用いた室内音響シミュレーション
(51)【国際特許分類】
H04S 7/00 20060101AFI20220209BHJP
G06T 19/00 20110101ALI20220209BHJP
【FI】
H04S7/00 300
G06T19/00 600
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2021537089
(86)(22)【出願日】2019-12-13
(85)【翻訳文提出日】2021-08-20
(86)【国際出願番号】 US2019066315
(87)【国際公開番号】W WO2020139588
(87)【国際公開日】2020-07-02
(32)【優先日】2018-12-24
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】503206684
【氏名又は名称】ディーティーエス・インコーポレイテッド
【氏名又は名称原語表記】DTS,Inc.
(74)【代理人】
【識別番号】100094569
【氏名又は名称】田中 伸一郎
(74)【代理人】
【識別番号】100103610
【氏名又は名称】▲吉▼田 和彦
(74)【代理人】
【識別番号】100109070
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100067013
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100086771
【氏名又は名称】西島 孝喜
(74)【代理人】
【識別番号】100109335
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100120525
【氏名又は名称】近藤 直樹
(74)【代理人】
【識別番号】100139712
【氏名又は名称】那須 威夫
(74)【代理人】
【識別番号】100176418
【氏名又は名称】工藤 嘉晃
(72)【発明者】
【氏名】ウォルシュ マーティン
(72)【発明者】
【氏名】マクドナー アオイフェ
(72)【発明者】
【氏名】グッドウィン マイケル エム
(72)【発明者】
【氏名】シュタイン エドワード
(72)【発明者】
【氏名】コーコラン ピーター
【テーマコード(参考)】
5B050
5D162
【Fターム(参考)】
5B050AA10
5B050BA09
5B050DA04
5B050EA19
5B050EA27
5B050FA02
5B050FA10
5D162AA15
5D162CA26
5D162CC08
5D162CC22
5D162CC36
5D162CD11
5D162CD26
5D162DA06
5D162DA51
5D162EG02
(57)【要約】
方法は、実世界環境の画像を受信することと、機械学習分類器を用いて、画像を分類して、音響環境シミュレーションのための音響プリセットに関連付けられた分類を生成することであって、音響プリセットが、音残響を表現する音響パラメータを各々含む、分類することと、分類に基づいて音響プリセットの中の音響プリセットを選択することと、を含む。
【選択図】
図1A
【特許請求の範囲】
【請求項1】
方法であって、
実世界環境の画像を受信することと、
機械学習分類器を用いて、前記画像を分類して、音響環境シミュレーションのための音響プリセットに関連付けられた分類を生成することであって、前記音響プリセットが、音残響を表現する音響パラメータを各々含む、分類することと、
前記分類に基づいて前記音響プリセットの中の音響プリセットを選択することと、
を含む方法。
【請求項2】
前記音響プリセットの前記音響パラメータに基づいて前記音響環境シミュレーションを遂行することをさらに含む、請求項1に記載の方法。
【請求項3】
前記音響環境シミュレーションを前記遂行することが、前記音響プリセットの前記音響パラメータに基づいて前記実世界環境内に仮想的に配置された1つまたは複数の仮想音オブジェクトのための音残響をモデル化することを含む、請求項2に記載の方法。
【請求項4】
前記機械学習分類器を用いて、前記画像、または1つまたは複数のさらなる画像を分類し、1つまたは複数の音響パラメータ変更子を生成することと、
前記1つまたは複数の音響パラメータ変更子に基づいて前記音響プリセットの前記音響パラメータを変更し、前記音響環境シミュレーションのための変更された音響パラメータを含む変更された音響プリセットを生成することと、
をさらに含み、
前記音響環境シミュレーションを前記遂行することが、前記変更された音響パラメータを用いて前記音響環境シミュレーションを遂行することを含む、請求項2に記載の方法。
【請求項5】
前記音響パラメータが、周波数依存減衰時間、部屋サイズ、反射遅延、早期発生時間、および拡散レベルのうちの1つまたは複数を含む、請求項1に記載の方法。
【請求項6】
前記分類することが、前記画像を前記分類および前記関連音響プリセットに直接分類することを含む、請求項1に記載の方法。
【請求項7】
前記分類することが、前記分類がそれぞれの信頼レベルを有するよう、前記画像を分類し、前記分類を生成することを含み、
前記選択することが、前記音響プリセットが、前記それぞれの信頼レベルのうちの最も高いものを有する前記分類の中の分類に関連付けられるよう、前記音響プリセットを選択することを含む、請求項1に記載の方法。
【請求項8】
前記実世界環境の第2の画像を受信することと、
前記機械学習分類器を用いて、前記第2の画像を分類し、それぞれの第2の信頼レベルを有する第2の分類を生成することと、
前記第2の分類のうちの1つまたは複数が、信頼レベル閾値を超えるそれぞれの第2の信頼レベルを有するかどうかを決定することと、
前記第2の分類のうちの1つまたは複数が、前記信頼レベル閾値を超えるそれぞれの第2の信頼レベルを有する場合には、前記第2の分類に基づいて前記音響プリセットの中の第2の音響プリセットを選択し、前記音響プリセットを前記音響環境シミュレーションのための前記第2の音響プリセットと置換することと、
をさらに含む、請求項7に記載の方法。
【請求項9】
前記第2の分類のうちの1つまたは複数が、前記信頼レベル閾値を超える対応する第2の信頼レベルを有しない場合には、前記第2の音響プリセットを選択せず、前記音響環境シミュレーションのための前記音響プリセットを置換しないことをさらに含む、請求項8に記載の方法。
【請求項10】
前記実世界環境の前記画像を前記受信することが、前記画像を前記実世界環境の360度画像として受信することを含む、請求項1に記載の方法。
【請求項11】
前記画像が異なる画像の合成物を表現する、請求項1に記載の方法。
【請求項12】
前記音響プリセットの前記音響パラメータが、前記機械学習分類器が訓練された訓練画像内で表現された実世界環境を表現する音響インパルス応答からアルゴリズム的に導出された、請求項1に記載の方法。
【請求項13】
前記音響プリセットの前記音響パラメータが主観的音設計に基づいて開発された、請求項1に記載の方法。
【請求項14】
前記音響プリセットに対する音響パラメータ安全性チェックを遂行することをさらに含む、請求項1に記載の方法。
【請求項15】
前記機械学習分類器が、前記音響プリセットのうちのそれぞれのものでラベル付けされた実世界環境の訓練画像を使って訓練された、請求項1に記載の方法。
【請求項16】
デジタル3次元(3D)メッシュを受信することと、
前記3Dメッシュ内に表現された物理マテリアルの音響特性を推定し、前記音響環境シミュレーションのための初期反射パラメータを生成することと、
をさらに含む、請求項1に記載の方法。
【請求項17】
装置であって、前記装置が、
プロセッサを備え、前記プロセッサが、
実世界環境の画像を受信することと、
1つまたは複数のニューラルネットワークを含む訓練された機械学習分類器を用いて、前記画像を、音響環境シミュレーションのための音響プリセットに関連付けられた分類に直接分類することであって、前記音響プリセットが、音残響を表現する音響パラメータを各々含む、分類することと、
前記分類に基づいて前記音響プリセットの中の音響プリセットを選択することと、
前記音響プリセットの前記音響パラメータに基づいて前記音響環境シミュレーションを遂行することと、
を行うように構成されている、装置。
【請求項18】
前記プロセッサが、前記音響プリセットの前記音響パラメータに基づいて前記実世界環境内に仮想的に配置された1つまたは複数の仮想音オブジェクトのための音残響をモデル化することによって、前記音響環境シミュレーションを遂行するように構成されている、請求項17に記載の装置。
【請求項19】
前記プロセッサが、
前記機械学習分類器を用いて、前記画像をさらに分類し、1つまたは複数の音響パラメータ変更子を生成することと、
前記1つまたは複数の音響パラメータ変更子に基づいて前記音響プリセットの前記音響パラメータを変更し、前記音響環境シミュレーションのための変更された音響パラメータを含む変更された音響プリセットを生成することと、
前記変更された音響パラメータを用いて前記音響環境シミュレーションをさらに遂行することと、
を行うようにさらに構成されている、請求項18に記載の装置。
【請求項20】
前記分類がそれぞれの信頼レベルを有し、
前記プロセッサが、前記音響プリセットが、前記それぞれの信頼レベルのうちの最も高いものを有する前記分類の中の分類に関連付けられるよう、前記音響プリセットを選択することによって、選択するように構成されている、請求項17に記載の装置。
【請求項21】
前記機械学習分類器が、前記音響プリセットのうちのそれぞれのものでラベル付けされた実世界環境の訓練画像を使って訓練された、請求項17に記載の装置。
【請求項22】
命令を符号化された非一時的コンピュータ可読媒体であって、前記命令が、プロセッサによって実行されたときに、前記プロセッサに、
実世界環境の画像を受信することと、
音残響を表現する音響パラメータを各々含む音響プリセットのうちのそれぞれのものでラベル付けされた実世界環境の訓練画像を使って以前に訓練された機械学習分類器を用いて、前記画像を、音響環境シミュレーションのための前記音響プリセットに関連付けられた分類に直接分類することと、
前記分類に基づいて前記音響プリセットの中の音響プリセットを選択することと、
前記音響プリセットの前記音響パラメータに基づいて前記音響環境シミュレーションを遂行することと、
を行わせる、非一時的コンピュータ可読媒体。
【請求項23】
前記プロセッサに前記音響環境シミュレーションを遂行させるための前記命令が、前記プロセッサに、前記音響プリセットの前記音響パラメータに基づいて前記実世界環境内に仮想的に配置された1つまたは複数の仮想音オブジェクトのための音残響をモデル化させるための命令を含む、請求項22に記載の非一時的コンピュータ可読媒体。
【請求項24】
前記プロセッサに、
前記機械学習分類器を用いて、前記画像をさらに分類し、1つまたは複数の音響パラメータ変更子を生成することと、
前記1つまたは複数の音響パラメータ変更子に基づいて前記音響プリセットの前記音響パラメータを変更し、前記音響環境シミュレーションのための変更された音響パラメータを含む変更された音響プリセットを生成することと、
前記変更された音響パラメータを用いて前記音響環境シミュレーションをさらに遂行することと、
を行わせるための命令をさらに含む、請求項23に記載の非一時的コンピュータ可読媒体。
【請求項25】
前記分類がそれぞれの信頼レベルを有し、
前記プロセッサに選択させるための前記命令が、前記プロセッサに、前記音響プリセットが、前記それぞれの信頼レベルのうちの最も高いものを有する前記分類の中の分類に関連付けられるよう、前記音響プリセットを選択させるための命令を含む、請求項22に記載の非一時的コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
優先権の主張
本出願は、2018年12月24日に出願された米国仮特許出願第62/784,648号に対する優先権を主張する。同出願は全体が本明細書において参照により組み込まれている。
【0002】
本開示は、拡張現実のための画像を分類することに関する。
【背景技術】
【0003】
拡張現実(AR、Augmented Reality)は、実際もしくは現実の物理オブジェクトおよびデジタルもしくは仮想オブジェクトが共存し、リアルタイムで相互作用し得る新たな環境および視覚化を生成するための、現実および仮想世界の融合である。ARは、真に迫った視覚および音声を有する仮想世界をユーザの実世界環境に持ち込む。ARは仮想音オブジェクトからの仮想音を現実の音響環境内の現実の音と混合する。仮想音オブジェクトからの仮想音は、快いAR体験を確実にするために、ヘッドフォンを通じてユーザに再生された際に同等の実世界音と一致しなければならない。さもなければ、ユーザはAR体験の劣化を体験する。従来の技法は、仮想音を同等の実世界音と一致させるために複雑な多段階プロセスを用いる。このような複雑さは顕著な聴覚的遅延をARシミュレーションに生じさせ、これはユーザ体験を劣化させ得る。さらに、複雑さは、ARデバイスのための処理要求、およびそれゆえ、そのコストを不都合に増大させる。
【発明の概要】
【0004】
【図面の簡単な説明】
【0005】
【
図1A】AR体験をユーザに提供するように構成された例示的なエクステンデッドリアリティ(XR、extended reality)システムの高レベルブロック図である。
【
図1B】ユーザによって装着され、AR体験をユーザに伝えるように構成され得る例示的なARデバイスまたはシステムの斜視図である。
【
図2】音響プリセットに基づいてXRシステムによってシミュレートされ得る環境のための例示的な音応答の図である。
【
図3】XRシステムによって遂行され得る、仮想音オブジェクトからの音のレンダリングと組み合わせられた、画像の機械学習(ML、machine learning)ベースの分類の例示的な方法の図である。
【
図4】ML分類を用いて、実世界環境の画像を音響環境シミュレーションのための音響パラメータの音響プリセットに直接分類する例示的な方法のフローチャートである。
【
図5】ML分類を用いて、実世界環境の画像を、音響環境シミュレーションのための音響プリセットが次に導出され得る、部屋タイプに分類する例示的な方法のフローチャートである。
【
図6】ML分類を用いて、実世界環境のシーンおよびそれらの関連音響プリセットのキャッシュに基づいて実世界環境の画像を音響環境シミュレーションのための音響パラメータの音響プリセットに直接分類する例示的な方法のフローチャートである。
【
図7】ML分類を用いて、実世界環境の画像を音響環境シミュレーションのための一般/一次音響プリセットおよび二次音響変更子に直接分類する例示的な方法のフローチャートである。
【
図8】3次元(3D)メッシュ、および3Dメッシュのマテリアル特性から導出された音響パラメータを生成するために
図7の方法を拡張する例示的な方法のフローチャートである。
【
図9A】第1の訓練シナリオに従って訓練画像に基づいてXRシステムのML分類器を訓練し、以前に訓練されたML分類器を用いて、画像を分類する例示的な方法の図である。
【
図9B】
図9Aの訓練方法のための事前訓練データの準備の図である。
【
図10】第2および第3の訓練シナリオに従ってML分類器を訓練する例示的な方法の図である。
【
図11A】第4の訓練シナリオに従ってML分類器を訓練する例示的な方法の図である。
【
図11B】背中合わせの180°魚眼レンズを含み、2つのカメラ視野内の部屋の360°画像を取り込む例示的な画像センサの図である。
【
図12】
図1AのXRプロセッサの実施形態と比べて追加の機能性を含む例示的なXRプロセッサのブロック図である。
【
図13】音響パラメータに基づいて音声環境シミュレーションを遂行するために、XRプロセッサ内で、またはそれと共に用いられ得る例示的なインタラクティブオーディオエンジン(IAE、interactive audio engine)のブロック図がある。
【
図14】
図12のXRプロセッサによって遂行され得る例示的な音響パラメータ精緻化プロセスのフロー図である。
【
図15】
図12のXRプロセッサによって生成された例示的な音響パラメータの表である。
【
図16】キャッシュされた音響プリセットを用いる例示的なXRプロセッサのブロック図である。
【
図17】音響プリセットの間の移行の例示的な方法のフローチャートである。
【
図18】音響プリセットの間の移行、および使用可能画像安全性チェックを遂行することの例示的な方法のフローチャートである。
【
図19】校正されたシーンの実施形態における音響プリセットの間の移行の例示的な方法のフローチャートである。
【
図20】ML分類器のディープニューラルネットワーク(DNN、deep neural network)訓練であって、ML分類器が未訓練条件の状態で開始する、訓練の例示的な方法の図である。
【
図21】XRプロセッサおよび/またはインタラクティブオーディオエンジンが実施され得る例示的なコンピュータデバイスのブロック図である。
【
図22】画像を音響プリセットに直接分類する例示的な要約した方法のフローチャートである。
【
図23】
図22の方法において分類された画像に対する後続または第2の画像を直接分類する例示的な方法のフローチャートである。
【発明を実施するための形態】
【0006】
例示的な実施形態
エクステンデッドリアリティ(XR)は概して、仮想現実(VR、virtual reality)および拡張現実(AR)を包含し、時として、複合現実(MR、mixed reality)と称される。音声信号再生システムは、3次元(3D)音声を聴取者へ届けるよう進化した。3D音声では、音はヘッドフォンまたはイヤフォン(簡潔にするために、本明細書においてまとめて「ヘッドフォン」と称される)によって生成され、聴取者によって聴覚的に知覚される、実際の、または理論的な3D空間または環境内における音源の仮想的配置を伴うか、またはそれを含むことができる。例えば、仮想化された音を、3D音声処理された音を聞く聴取者の上方、下方、またはさらに後方において提供することができる。ヘッドフォンを介した従来の音声再生は、聴取者の頭の内側から生ずる、または発するように知覚される音を提供する傾向がある。一例では、ヘッドフォンの従来のステレオペアを用いることを含む、ヘッドフォンによって届けられる音声信号は、知覚される空間音環境を聴取者に提供するなどするために、3D音声効果を達成するために特別に処理することができる。
【0007】
3D音声ヘッドフォンシステムはVR適用物のために、実際の音源が存在しない局所または仮想環境内の特定の位置にある音源の知覚を聴取者に提供するなどするために用いることができる。同様に、3D音声ヘッドフォンシステムはAR適用物のために、実際の音源が存在しない位置にある音源の知覚を聴取者に提供し、なおかつ、聴取者が局所環境内の1つまたは複数の実際の音を依然として少なくとも部分的に認識し続ける仕方で提供するために用いることができる。VRまたはARのためのコンピュータ生成音声レンダリングは、コンピュータミュージックおよび建築音響の分野における従来の開発の上に構築し、それから拡張するなど、ゲームおよび仮想現実音声レンダリングシステムおよびアプリケーションプログラミングインターフェースにおける信号処理技術開発を活用することができる。様々なバイノーラル技法、疑似残響、物理的室内音響モデル化、および聴覚化技法を、向上した聴取体験をユーザに提供するために適用することができる。VRまたはAR信号処理システムは、いくつかの音を、それらが、聴取者によって、ヘッドフォンから、または聴取者の頭の内側の場所からではなく、局所環境内の外部音源から発していると知覚されるよう再生するように構成され得る。
【0008】
VR 3D音声と比べて、AR音声は、局所聴取環境の音響と実質的に矛盾のないシミュレートされた環境音響および音源-環境相互作用を提供することなどによって、参加者の不信の一時停止を促すというさらなる課題を含む。これは、仮想的な、または追加された信号のための音声信号処理を、信号がユーザの環境を含むか、またはそれを表現する仕方で、かつ信号が、環境内でヘッドフォン越しに自然に発生するか、または再生された他の音と容易に区別可能になるよう、提供するという課題を提示する。このような音声信号処理は、所与の聴取環境のための減衰時間、残響ラウドネス特性、および/または残響等化特性(例えば、残響のスペクトル成分)を含む、残響特性を一致させ、それらを適用することによって、仮想音場内の正確な音源を提供する。視聴覚AR適用物では、コンピュータ生成音オブジェクト(「仮想音オブジェクト」と称される)を、音響的に透過性のヘッドフォンを介して、観察者/聴取者によって自然に聞かれる物理環境と混合するようレンダリングすることができる。このような混合は、局所環境音響に一致するか、またはそれを近似するためのバイノーラル疑似残響処理を含むか、またはそれを用いることができる。
【0009】
本明細書において提示される実施形態は、3D音声レンダリングアルゴリズムまたはシミュレーションを、物理的局所環境音響に忠実に一致するか、またはそれを近似するよう拡張するための実用的で効率的なアプローチを提供する。実施形態は、上述の問題および/または課題に対する解決策を提供し、また、次の説明から明らかになる利点も提供する。実施形態は、例えば、VRおよびARなどの、3D音声適用物において用いられ得る。実施形態は機械学習(ML)技法を用いて、画像センサによって取り込まれた局所環境の画像から直接、残響特性などの、局所環境の音響特性を推測する。実施形態は、次に、推測された音響特性を、局所環境の実際の音響に一致するか、またはそれを近似する環境の音響シミュレーションにおいて用い得る。推測された音響特性に基づいて、音響環境シミュレーションは、聴取者によってヘッドフォンを介して知覚されたときに、仮想音を局所環境と継ぎ目なく混合する。
【0010】
より具体的には、本明細書において提示される実施形態はML技法を用いて、ML分類器の1つまたは複数のニューラルネットワークを、画像センサを用いて未知の環境の音響特性を正確に推測するために訓練する。次に、推測された音響特性は、環境内でリアルタイムに作成された音響環境シミュレーションの形態の仮想音オブジェクトのための音響コンテキストを作成するために用いられる。実施形態は、有利に:XRデバイス上で一般的に利用可能であるカメラセンサを利用し、UnityおよびUnrealエンジンなどの、機械学習エンジンにおいて用いられる典型的な音声プラグインの使用を可能にし、従来の技法と比べて、リアルタイムのAR環境内で仮想音を同等の実世界音に一致させることに関連付けられる複雑さ、処理要求、および遅延を低減し、画像センサの利用可能性に応じてスケーラブルな実施を提供し、深層学習推論エンジンとして実施され得る。
【0011】
システムレベルの説明
高レベルにおいて、本明細書において提示される実施形態は、ML技法を利用して、実世界(すなわち、実際の)環境の画像を、音響環境シミュレーション(AES、acoustic environment simulation)のための音響パラメータのセットを表現する音響プリセットに直接分類する。音響パラメータのセットは、AESを遂行するために十分な特性のセットを表現する。AESは、音響プリセットの音響パラメータのセットに基づいて実世界環境の音応答をシミュレートまたはモデル化する。音響プリセットは音応答のパラメトリック表現である。AESは、実世界環境内に(仮想的に)配置された仮想音オブジェクトからの音に音応答を適用し、音を、ヘッドフォンを通じてユーザに再生されたときに、仮想音オブジェクトから現実に発するように感じられる現実的な音に変換する。上述の実世界環境は、限定するものではないが、部屋、講堂、コンサートホール、野外劇場等などの、残響性質を有する任意の実世界環境または空間を含む。部屋はまた、住居内の部屋、このような台所、居間、食堂、浴室等を含み得る。部屋はまた、オフィス空間、および同様のものを含み得る。
【0012】
図1Aを参照すると、本明細書において提示される実施形態に係る、AR体験をユーザに提供するように構成された例示的なXRシステム100の高レベルブロック図がある。実施形態は主にAR適用物の文脈で説明されるが、実施形態はVR適用物にも同等に適用される。
図1Aにおいて、破線は概して、パラメータの流れ、例えば、音響パラメータの流れを表現し、その一方で、実線は概して、画像および音信号の流れを表現する。
【0013】
XRシステム100は、一連の画像、または映像(まとめて、「画像」)103を取り込むための画像センサ102、ARディスプレイ104、左および右のヘッドフォンを含むヘッドセット106、任意選択的な位置センサ107、ならびに画像センサ、ARディスプレイ、ヘッドセット、および位置センサに結合されており、それらと通信するXRプロセッサまたはプロセッサ108を含む。XRプロセッサ108は、(i)本明細書において提示される実施形態に従って画像103を音響プリセット122に分類するための1つまたは複数のニューラルネットワークを含むMLベースの音響環境分類器120(単純に「ML分類器」120と称される)、およびインタラクティブオーディオエンジン(IAE)124を含む。IAE124は、
図1Aに示されるようにXRプロセッサ108の部分として実施されてもよく、またはXRプロセッサとは別個であってもよい。一例では、ML分類器120は、AlexNet、GoogLeNet、およびResNet50などの、1つまたは複数の畳み込みニューラルネットワーク(CNN、convolutional neural network)を含み得る。他の例では、ML分類器120は、本明細書において説明されるとおりの画像を分類するために適した非CNNニューラルネットワークを含む。IAE124は、ML分類器120からの音響プリセット122に基づいてAES126を生成または遂行し、また、実世界環境のシーン内への仮想配置のための1つまたは複数の仮想音オブジェクト128も生成する。
【0014】
画像センサ102は、実世界環境の一連の画像103を取り込むためのビデオカメラを含み得る。画像センサ102は、実世界環境内の異なる位置および配向(集合的に、「視点」)に位置付けられ、異なる視点から実世界環境の異なるシーンの画像103を取り込んでもよい。例えば、画像センサ102は、AR体験の対象であるユーザによって装着されるビデオカメラを含み得、これにより、ビデオカメラは、ユーザが実世界環境内で動き回るにつれて実世界環境の異なるシーンを取り込むように動作する。位置センサ107は、環境内の、ユーザを含む、1つまたは複数のオブジェクトの位置および配向を感知または決定し、オブジェクトの位置および配向を指示する位置情報114をXRプロセッサ108に提供する。
【0015】
高レベルにおいて、動作時、XRプロセッサ108は、(i)実世界環境の画像103、(ii)仮想音オブジェクト128からの音(すなわち、音信号)、および(iii)利用可能である時には、位置情報114を処理し、仮想音オブジェクトおよび他の仮想情報を用いて拡張された実世界環境のシーンを表現する映像信号136および音信号138を生成する。ARディスプレイ104は映像信号136を映像に変換し、映像をユーザに再生する。ヘッドセット106のヘッドフォンは音信号138を音に変換し、音をユーザに再生する。より具体的には、XRプロセッサ108のML分類器120は深層学習ニューラルネットワーク技法を利用して画像103を音響プリセット122に分類する。音響プリセット122の各々は、実世界環境音特性を表現する、残響(「reverb」)パラメータなどの、音響パラメータのそれぞれのセットを表現する。IAE124は音響プリセット122に基づいてAES126を遂行し、実世界環境のための、残響を含む、音響応答をシミュレートまたはモデル化する。IAE124はまた、様々な仮想場所に配置された1つまたは複数の仮想音オブジェクト128を実世界環境のシーン内に生成する。AES126は音応答を、仮想音オブジェクト128によって生成された音信号に適用し、仮想音オブジェクトからの音信号を、仮想音オブジェクトのための現実的な音を伝える音信号118に変換する。すなわち、AES126は、例えば、仮想音オブジェクトのための、少なくとも音残響をモデル化する。
【0016】
図1Bを参照すると、ユーザによって装着され、AR体験をユーザに伝えるために用いられ得るARデバイス150の斜視図がある。デバイス150は、
図1Bには示されていない、組み込みXRプロセッサに全て結合された、広角追跡カメラ160、赤色、緑色、青色(RGB)カメラ164、マイクロフォンアレイ168、およびステレオヘッドフォン170を含む。ARデバイス150はまた、XRプロセッサに結合された飛行時間深度センサおよび追加の立体カメラを含み得る。
【0017】
図2を参照すると、音響プリセット122に基づいてAESによってシミュレートされ得る実世界環境のための一般的な音応答200の図がある。音応答200は、実世界環境内の音源から発する音インパルスに応答して生じる。音応答200は、音源から離間した実世界環境内の聴取者の位置において記録され得る。音応答200は、直接経路(DP)音、直接経路音の後に続く初期反射を含む反射(REF)、および反射の後に続く残響エネルギーもしくは残響(REV)を含む。反射REFは、直接経路音DPが生じる反射遅延の後に開始し、残響REVは、反射REFが開始する残響遅延の後に開始する。残響REVの振幅は残響の減衰時間に従って減衰する。本明細書において提示される実施形態では、AES126は、仮想音オブジェクト128からの音に対する直接経路音、初期反射、および残響をシミュレートする/表現するために、他の音響パラメータに加えて音響プリセット122の音響パラメータを採用する。
【0018】
図3は、ML分類器120およびIAE124によって遂行され得る、音響プリセット122への画像103のMLベースの直接の分類、および仮想音オブジェクト128からの音のレンダリングの例示的な方法300の図である。方法300は、ML分類器120が、画像を音響プリセットに直接分類するための事前訓練作業においてすでに訓練されていることを仮定する。手短に言えば、訓練は、音響プリセットのうちの異なるものでラベル付けされた異なる画像を使ってML分類器120を訓練することを含む。一例では、音響プリセットは、ラベルL1~LMにそれぞれ関連付けられた、M個、例えば、10個、20個などの、音響プリセットP1~PMを含み得る。各音響プリセットPiは、音響環境シミュレーション、例えば、AES126のために用いられる音響パラメータAP1~APNのセットを表現する。ラベルL1~LMおよび音響プリセットP1~PM(ならびにそれらの関連音響パラメータAP1~APNのセット)はXRプロセッサ108のメモリ内に記憶され得る。音響パラメータAP1~APNは所与の音響プリセットPiのためのそれぞれの値を有し、値は音響プリセットP1~PMによって異なる。音響パラメータAP1~APNは少なくとも音響残響パラメータを含み得る。概して、残響パラメータは、例えば、残響減衰時間、残響ラウドネス特性、および/または残響等化特性(例えば、残響のスペクトル成分)を含み得る。より具体的には、残響パラメータは、高周波減衰および消滅時間、低周波減衰および消滅時間、制振、拡散、密度、部屋サイズ等を含み得る。残響パラメータは、対話型3Dオーディオレンダリングガイドラインレベル2.0(I3DL2)などの、任意の既知の、または今後開発される音響関連規格において定義されているとおりのパラメータを含み得る。
【0019】
音響パラメータAP1~APNは、1つまたは複数の音波反射パラメータ/係数、1つまたは複数の音波吸収パラメータ/係数等などの、追加の音響パラメータを含み得る。
【0020】
302において、XRプロセッサ108は、音響プリセットP1~PMのうちの1つをAESのためのデフォルトまたは初期音響プリセットとして選択または確立する。デフォルト音響プリセットの音響パラメータAP1~APNは初期音響パラメータを表現する。
【0021】
304において、ML分類器120は、画像センサ102によって取り込まれた一連の画像103の中の画像を受信する。定常状態の動作において、画像は、方法300を通じて順次に処理されるべき一連の画像103の中の以前および将来の画像の中の現在の画像であり得る。
【0022】
「推論」と称される、306において、(事前訓練された)ML分類器120が、画像を、音響プリセットP1~PMに対応する複数の(現在の)分類のセットに直接分類する。分類のセットは、単純に、ラベルのうちのそれぞれのものに関連付けられた信頼レベルC1~CNを有する音響プリセットP1~PMを指示するラベルL1~LMを含み得る。ラベルL1~LMは、(既知の)音響プリセットP1~PM、およびそれゆえ、音響プリセットの(既知の)音響パラメータAP1~APNのうちのそれぞれのものにアクセスするために用いられ得る。例えば、音響プリセットP1~PMは、索引付けされ、それゆえ、ラベルL1~LMに基づいてリトライされるよう記憶され得る。信頼レベルCiは、関連付けられたラベルLi/音響プリセットPiが画像のために正しいこと、すなわち、画像がラベルLi/音響プリセットPiに正しく分類されたことの確率を表す。このように、分類は、硬判定よりむしろ、軟判定と考えられ得る。
【0023】
308において、XRプロセッサ108は、分類の中の信頼レベルC1~CNの中の最も大きい信頼レベルに関連付けられたラベル/音響プリセットを選択し、(現在の)選択されたラベル/音響プリセットを生成する。選択された音響プリセットは作業302からのデフォルト音響プリセットと置き換わる。選択された音響プリセットはメモリから取得される(すなわち、選択されたプリセットの音響パラメータAP1~APNはメモリから取得される)。
【0024】
310において、XRプロセッサ108はIAE124を、選択された音響プリセットで、すなわち、選択された音響プリセットのパラメータAP1~APNで更新する。
【0025】
方法300は、一連の画像103の中の次の画像が分類のために到来するのに従って順次に繰り返し、一連の画像に対応し、IAE124にAES126のために順次に渡される一連の分類結果を生成する。
【0026】
方法300の変形例はIAE124への音響プリセット更新を所定の信頼レベル閾値を条件とし、これは、本方法が、連続した画像を分類することを繰り返すのに従ってIAEにもたらされる更新にヒステリシスを導入し得る。より具体的には、変形例は、1つまたは複数の(現在の)分類が、信頼レベル閾値を超える信頼レベルを有するときにのみ、IAE124を更新し、この場合には、作業308および310は、上述されたように進行する。さもなければ、変形例はIAE124を更新せず、すなわち、変形例は、単に、信頼レベル閾値を超えた、IAEへの最後の以前の更新を維持する。分類が、確率としての信頼レベルを表すか、またはそれらに関連付けられたソフトマックス値(すなわち、軟判定)を含むと仮定すると、信頼レベル閾値は、例えば、0.7の確率と等しく設定され得る。その場合には、対応する確率が>0.7を超えるときにのみ更新が行われる。ヒステリシスを加えるために、(作業306を通じた)所定数>1の連続した分類にわたる平均信頼レベルが0.7を超えるときにのみ、更新が行われてもよい。
【0027】
分類フローチャート
次に、ML技法を用いて画像を分類する様々な方法が
図4~
図7のフローチャートに関連して説明される。方法は、画像を、上述された音響プリセットP1~PMを指示する分類に分類するために遂行され得る。方法はXRシステム100によって遂行され得る。
【0028】
図4は、ML分類を用いて、実世界環境の画像をAES(例えば、AES126)のための音響パラメータの「最良一致」音響プリセットに直接分類する例示的な方法400のフローチャートである。方法400は、方法300に関連して上述された作業を要約している。方法400は、音響プリセットP1~PMのうちの様々なものでラベル付けされた、異なる実世界環境の多くの画像を使って訓練されたML分類器(例えば、ML分類器120)を仮定し、これにより、ML分類器は、訓練の結果として、介在する分類または作業を用いずに、画像を音響プリセットに(すなわち、音響プリセットの音響パラメータに)直接分類するように構成されている。
【0029】
402において、音響プリセットP1~PMの中の初期音響プリセットを確立する。
【0030】
404において、実世界環境のシーンの画像を取り込む。
【0031】
406において、深層学習ニューラルネットワーク推論を用いて、(404から受信された)画像を、音響プリセットP1~PMおよびそれらのそれぞれの信頼レベルC1~CNを指示するM個の分類に直接分類する。信頼レベルC1~CNの中の最も高い信頼レベルに関連付けられた音響プリセットP1~PMの中の音響プリセットが、画像内に描写された実世界環境への「最良一致」音響プリセットと考えられる。すなわち、最良一致音響プリセットに基づいてAES126によって生成されたシミュレートされた音応答は、他の音響プリセットのうちのいずれのものに基づいて生成されるであろうよりも実世界環境の実際の音応答に近い。408において、分類/音響プリセットに関連付けられた信頼レベルに基づいて最良一致音響プリセットを識別/選択し得る。
【0032】
408において、例えば、
図3に関連して上述されたように、AES126を最良一致音響プリセットで更新するかどうかが決定される。AES126を更新すると決定された場合には、最良一致音響プリセットはAESに提供され、それゆえ、以前の音響プリセットと置き換わる。さもなければ、AES126は最良一致音響プリセットで更新されず、AESは以前の最良一致音響プリセットを用いる(すなわち、以前の音響プリセットは置換されない)。
【0033】
408から、フロー制御は404へ戻り、プロセスが次の画像のために繰り返す。
【0034】
図5は、ML分類を用いて、実世界環境の画像を、音響環境シミュレーションのための音響プリセットが次に導出され得る、部屋タイプに分類する例示的な方法のフローチャートである。方法500は、部屋タイプ(例えば、台所、浴室、居間等)でラベル付けされた異なる実世界環境の画像を使って訓練されたML分類器を仮定し、これにより、ML分類器は、訓練の結果として、画像を部屋タイプに分類するように構成されている。方法500はまた、音響プリセットP1~PMのうちのそれぞれのものは、上述の分類から生じた部屋タイプに対応付けられるか、またはそれらから導出され得ると仮定する。
【0035】
502において、音響プリセットP1~PMの中の初期音響プリセットを確立する。
【0036】
504において、実世界環境のシーンの画像を取り込む。
【0037】
506において、深層学習ニューラルネットワーク推論を用いて、(作業504から受信された)画像を、部屋タイプ、例えば、台所に分類する。
【0038】
508において、部屋タイプに関連付けられた/対応付けられた音響プリセットP1~PMの中の音響プリセットを取得する。
【0039】
510において、508からの音響プリセットを用いてAESを更新し得る。
【0040】
510から、フロー制御は504へ戻り、プロセスが次の画像のために繰り返す。
【0041】
方法500では、推論作業506は音響プリセットに直接分類しない。したがって、分類が遂行された後に、特別の作業508が、音響プリセットを識別するために用いられる。すなわち、部屋タイプが音響プリセットに翻訳される。
【0042】
図6は、ML分類を用いて、実世界環境のシーンおよびそれらの関連音響プリセットのキャッシュに基づいて実世界環境の画像をAES126のための音響パラメータの音響プリセットに直接分類する例示的な方法のフローチャートである。方法600が、後述される追加の作業602および604を含むことを除いて、方法600は方法400と同様である。方法600は、XRプロセッサ108が、ユーザがどの実世界環境、例えば、部屋にいたことがあるのかを決定し、部屋の各々のための(最良)音響プレフィックスをキャッシュ内に記録すると仮定する。
【0043】
フローは402および404から602へ進む。602において、ユーザが、ユーザが現在位置する部屋に以前にいたことがあるのかどうかを決定する。ユーザが当該部屋に以前にいたことがある場合には、フローは604へ進み、604において、当該部屋のための音響プレフィックスをキャッシュから取得する。フローは604から408へ進み、408は、キャッシュから取得された音響プレフィックスを用いる。ユーザが当該部屋に以前にいたことがない場合には、フローは406へ進み、作業は、上述されたように継続する。方法600を遂行するように構成されたXRプロセッサの一例が
図16に関連して後述される。
【0044】
図7は、ML分類を用いて、実世界環境の画像をAES126のための一般/一次音響プリセットおよび二次音響変更子に直接分類する例示的な方法のフローチャートである。より具体的には、方法700は、方法400の場合と同様に、実世界環境の画像を一般音響プリセット(「一次音響プリセット」とも称される)に直接分類するために訓練されたML分類器(例えば、ML分類器120)の第1のニューラルネットワークを用いる。一般音響プリセットの各々は一般音響パラメータのそれぞれのセットを含む。例えば、一般音響パラメータは残響パラメータであり得る。方法700はまた、画像を、一般音響プリセットを変更するために用いられ得る、吸収および/または反射パラメータまたは係数、室容積等などの、追加の、または二次音響パラメータにさらに分類するために訓練されたML分類器の第2のニューラルネットワークを用いる。
【0045】
702において、702において、音響プリセットP1~PMの中の初期音響プリセットを確立する。
【0046】
704において、実世界環境のシーンの画像を取り込む。
【0047】
706において、第1のニューラルネットワークを用いて、画像を一般音響プリセットに直接分類し、それから最良の一般音響プリセットを選択する。すなわち、最も高い信頼レベルに関連付けられた音響プリセットを最良の音響プリセットとして選択する。
【0048】
708において、第2のニューラルネットワークを用いて、画像を二次音響パラメータに直接分類する。
【0049】
710において、二次音響パラメータのうちの1つまたは複数に基づいて、706において選択された一般音響プリセットの一般音響パラメータのうちの1つまたは複数を変更/調整し、変更された一般音響プリセットを生成する。例えば、一般音響プリセットの一般音響パラメータの値が二次音響パラメータの値に基づいて増大または減少させられ得る。代替的に、一般音響パラメータのうちの1つまたは複数が二次音響パラメータのうちの1つまたは複数によって置換され得る。
【0050】
単純な例では、小数範囲0<α<1内の吸収係数αが二次音響パラメータとして用いられてもよく、この場合には、作業710は一般音響パラメータのうちの1つまたは複数に吸収係数αを乗算し、1つまたは複数の変更された一般音響パラメータを生成し得る。実際には、吸収に基づくこのような変更は、以下の理由のために、より複雑になり得る。各マテリアルはその固有の吸収係数を有するため、マテリアルからの初期反射は通例、マテリアルの吸収係数によって直接影響を受ける。それゆえ、多くの異なるマテリアルを含む音響環境内の残響は、合計吸収を集合的に生み出す、環境内のマテリアルの合計によって影響され得る。合計吸収は、異なる周波数帯域内において残響の遅延率に異なって影響を及ぼし得、これは作業710において考慮され得る。
【0051】
712において、変更された一般音響プリセットを用いてAESを更新し得る。
【0052】
712から、フローは704へ戻り、プロセスが繰り返す。
【0053】
図8を参照すると、方法800が、方法700の作業708とリンクされた3Dメッシュ処理作業802を含むことを除いて、方法700と同様である例示的な方法800のフローチャートがある。3Dメッシュ処理作業802のみが説明される。概して、3Dメッシュ処理作業802は、作業708において生成された二次音響パラメータのうちの1つまたは複数を、例えば、深度カメラを用いて生成された3Dメッシュのコンポーネントに対応付ける。
【0054】
804において、深度カメラが、画像が作業704において取り込まれた同じ実世界環境の深度マップ(画像)を取り込む。
【0055】
806において、深度マップから3Dメッシュを作成する。
【0056】
808において、作業708において生成された二次音響パラメータ(例えば、マテリアル音波吸収)を3Dメッシュに対応付ける。
【0057】
810において、3Dメッシュおよび二次音響パラメータをエクスポートする。
【0058】
次に、ML分類器120の訓練およびリアルタイム作業が
図9~
図11Bに関連してさらに詳細に説明される。
【0059】
ML訓練
図9Aは、第1の訓練シナリオに従って訓練画像に基づいてML分類器120を訓練し、訓練されると、ML分類器を用いて、画像を分類する例示的な方法の図である。訓練されると、ML分類器120は、「推論」段階または作業と称されるものにおいて、画像を、通例、リアルタイムで分類する。
図9Aの例では、ML分類器120は、CNNを用いて構成されている。例えば、ML分類器120は、全結合層904に結合された畳み込み層902を含む。実際には、ML分類器120は、全結合層につながる多くの畳み込み層を含み得る。
【0060】
訓練のため、および、訓練後の、推論段階のために、ML分類器120は画像906を受信し、音響プリセットを表現するラベルの形態の分類908を生成する。推論段階では、910において、上述されたように、ラベルおよびそれらの信頼レベルに基づいて最も高い信頼を有する音響プリセットを選択する。訓練の際、画像906は、ML分類器120が訓練する訓練画像を表現する。
【0061】
第1の訓練シナリオでは、ML分類器120の訓練は以下の作業を含み得る。
a. M個の別個のラベルL1~LM、例えば、ラベル0~20を確立する。ラベルは、数字、英数字、人間可読ラベル等であり得る。
b. それぞれの典型的なユーザ環境、例えば、部屋を表現するM個の音響プリセットP1~PMを作成/設計する。各プリセットは、上述されたとおりの、音響プリセットAP1~APNのそれぞれのセットを含む。各音響プリセットPiは、対応するラベルLiに関連付けられる。
c. 事前訓練データの準備を遂行し、部屋の多数の訓練画像(例えば、訓練ピクチャ)を音響プリセットP1~PMの中のそれらの最も可能性の高い音響プリセットでラベル付けする。
図9Bは、後述される、事前訓練データの準備の図である。
i. 訓練ピクチャを訓練ピクチャ(
図9Bにおいて個々に「I」と示される)のM個のグループG1~GMに分割し、これにより、各グループGi内の訓練ピクチャ内の(部屋の)シーンが当該グループ内の(部屋の)シーンと同様の音響特性を有するが、他のグループ内の(部屋の)シーンとは異なる音響特性を有するようにする。例えば、グループG1の訓練ピクチャ内のシーンは、互いに同様の音響特性を有するように感じられ、グループG2の訓練ピクチャ内のシーンは、互いに同様であるが、グループG1の訓練ピクチャのシーンの音響特性とは異なる音響特性を有するように感じられ、訓練ピクチャの全てのM個のグループG1~GNについて以下同様である。
ii.訓練ピクチャのグループを音響プリセットP1~PMの中の最も可能性の高い音響プリセットのうちのそれぞれのものでラベル付けする。最も可能性の高い音響プリセットは、訓練ピクチャ内のシーンの音響特性と一致する可能性が最も高い音響プリセットである。すなわち、訓練ピクチャは、各グループ内で同じであるが、グループ間では異なる、音響プリセットのうちのそれぞれのものでラベル付けされる。例えば、音響プリセットP1がグループG1の訓練ピクチャへの最良一致であり、音響プリセットP2がグループG2の訓練ピクチャへの最良一致であるなどと仮定すると、このとき、グループG1の訓練ピクチャの全てを音響プリセットP1のためのラベルL1でラベル付けし、グループG2の訓練ピクチャの全てを音響プリセットP2のためのラベルL2でラベル付けするなどする。この作業は、ラベル付けされた訓練ピクチャ、すなわち、それらの最も可能性の高い音響プリセットでラベル付けされた訓練ピクチャを生成する。
d. ラベル付けされた訓練ピクチャを用いて、ML分類器120を、画像をラベル/音響プリセットに直接分類するために訓練する。すなわち、ラベル付けされた訓練ピクチャはML分類器120の訓練入力に供給され、次に、ML分類器120は、ラベル付けされた訓練ピクチャを使って訓練する。ML分類器は、画像を、上述されたように、分類を信頼レベルに関連付ける、軟判定(例えば、ソフトマックス)分類に分類するために訓練される。
【0062】
作業(a)~(c)は、主観的音設計に基づいて、すなわち、サウンドデザイナーによって実質的に手動で遂行されてもよい。サウンドデザイナーは室内音響の自分の経験を用いて、訓練データベース内の多くの訓練ピクチャの中の訓練ピクチャ内に描写されたシーンのうちの対応するもののための最も可能性の高い響きの音響パラメータのそれぞれのセットを用いてそれぞれの音響プリセットを設計する。すなわち、サウンドデザイナーは、設計者の主観的設計経験に基づいて、音響パラメータの各々のそれぞれのセットを、訓練ピクチャのうちの1つに描写された対応するシーンの音響特性を最もうまく表現するよう、またはそれらと一致するように設計する。例えば、設計者は、「残響の多い(live)」部屋(例えば、残響の多い台所)のための第1の音響プリセットの残響パラメータの第1のセットを選択し、「残響の少ない(dead)」部屋(例えば、布地で覆われた家具を含む、カーペットがいっぱいに敷き詰められた寝室)のための残響パラメータの第2のセットを選択し、「残響の多い」部屋および「残響のない」部屋のものの間の中間の残響特性を有する部屋のための第3の音響プリセットの残響パラメータの第3のセットを選択するなどする。次に、設計者は、訓練ピクチャを、(音響パラメータのそれぞれのセットを各々表現する)それらの最も可能性の高い音響プリセットでラベル付けする。例えば、設計者は、同様の残響が多いように見える部屋の訓練ピクチャを第1の音響プリセットでラベル付けし、同様の残響がないように見える部屋の訓練ピクチャを第2の音響プリセットでラベル付けし、中間の残響を有するように感じられる同様の部屋の訓練ピクチャを第3の音響プリセットでラベル付けするなどする。
【0063】
訓練のための音響プリセットを確立するためにサウンドデザイナーの経験に主に頼ることに対する代替例は、異なる残響特性を有する部屋の実際の音響測定を用い、次に、音響測定から音響プリセットをアルゴリズム的に導出する。例えば、実世界環境の音響インパルス応答を測定するための任意の既知の、または今後開発される技法を用いて、部屋ごとの音響インパルス応答が測定されてもよい。次に、例えば、音響インパルス応答から、残響パラメータを導出するための任意の既知の、または今後開発される技法を用いて、測定された音響インパルス応答から音響プリセットの音響パラメータのセットがアルゴリズム的に導出される。
【0064】
1つの単純化された例では、インパルス応答の絶対値が正規化され、dBの大きさに変換され得る。dBの大きさが60dBを割り込む(0dBに正規化された)初期パルスからの時間が、RT60減衰時間(すなわち、音が室内で60dB減衰するのにどれほど要するであろうか)として採用される。追加の周波数領域解析を用いることで、このような方法は、RT60時間の多帯域解析に拡張され得る。同様に、初期スペクトルエネルギー、発生時間、初期反射タイミング、および密度等の値がインパルス応答またはその窓化区分内で直接観測され得る。この特定の技法は例としてのみ提供され、インパルス解析の任意の追加の、または代替的な方法が用いられ得ることが理解される。
【0065】
訓練されると、ML分類器120は、任意の部屋モデルが予想「どおりに音が響く」と決定することによって、妥当性確認されてもよい。
【0066】
推論段階のために、ML分類器120(またはML分類器の外部の論理)は、平滑化関数を、ML分類器によって生成するソフトマックス(出力)分類に適用するように構成されていてもよく、これにより、ソフトマックス分類が、
図3の方法300に関連して上述された閾値処理と同様に、偽性分類を回避するためのいくらかの組み込みヒステリシスを有する、ソフトマックス閾値を超える場合にのみ、分類はその以前の状態(すなわち、AES126に提供された以前の音響プリセット)から移行する。例えば、音響プリセットは、適切な遅延線補間およびゲインクロスフェーディングを用いて滑らかに移行し得る。
【0067】
訓練はまた、伝統的な部屋タイプ分類をすでに遂行する事前訓練されたニューラルネットワークを活かす転移学習を利用してもよい。このアプローチは、(特徴抽出において)事前訓練されたニューラルネットワークの畳み込み層を凍結し、上述されたラベルを用いて全結合層(分類)を適応させ続ける。
【0068】
図10は、第2の訓練シナリオおよび第3の訓練シナリオに従ってML分類器120を訓練し、訓練されると、ML分類器を用いて画像を分類することを示す、ML分類器120のための例示的な作業フローの図である。推論段階では、1002において、音響パラメータを、分類によって出力されたラベルから更新することを除いて、
図10の例は
図9Aの例と同様である。
【0069】
第2の訓練シナリオでは、ラベルは、残響パラメータなどの、より低いレベルの音響パラメータに基づき得る。残響パラメータは、例えば、I3DL2音響パラメータを含み得る。最初に、サウンドデザイナーは室内音響の自分の経験を用いて、訓練データベース内の多くの訓練ピクチャの中の訓練ピクチャ内に描写されたシーンのうちの対応するもののための最も可能性の高い響きの音響パラメータのセットを用いてそれぞれの音響プリセットを設計する。すなわち、音響パラメータの各々のそれぞれのセットは、訓練ピクチャのうちの1つに描写された対応するシーンの音響特性を最もうまく表現するか、またはそれらと一致するように設計される。次に、推論の際に、音響パラメータは、1002において示されたように、ラベルに基づいて更新される。
【0070】
第3の訓練シナリオでは、ラベルは、訓練画像内に描写されたのと同じ部屋内で得られた現実の音響特性の音響測定から導出された、より低いレベルの音響パラメータに基づく。音響測定は、例えば、室内(音)インパルス応答の測定を含み得る。次に、事前訓練データの準備は、室内インパルス応答を解析し、適切な音響パラメータを自動的に調節する、すなわち、自動調節を遂行することを含む。自動調節自体はMLニューラルネットワークに基づき得る。
【0071】
第2および第3の訓練シナリオはどちらもMLニューラルネットワークを活用し得る。
【0072】
図11Aは、第4の訓練シナリオに従ってML分類器120を訓練し、訓練されると、ML分類器を用いて画像を分類することを示す、ML分類器のための例示的な作業フローの図である。以下の相違を除いて、
図11Aの例は
図9Aおよび
図10の例と同様である。
図11Aの例では、ML分類器120は、畳み込み層902の後に続く長・短期記憶(LSTM、long short-term memory)1102を含む。LSTM1102に基づくニューラルネットワークは画像記述子のために適している。
図11Aのフローにおいて、LSTM1102は音響記述子1104に分類する。作業1106は、音響記述子1104を、更新作業1106において用いられる残響パラメータに翻訳する。
【0073】
第4の訓練シナリオでは、ML分類器120は、音響的関連性を有するピクチャの記述的特徴を使って訓練される。事前訓練のためのデータの準備は、部屋のシーンのピクチャを所与の音響語彙でラベル付けすることを含む。
図11Aの例はLSTM1102を含むが、焦点が、ラベル(例えば、大きい、残響が多い、タイル等)の最も可能性の高い組み合わせである場合には、LSTMは全結合層(例えば、全結合層904)によって置換されてもよい。訓練は、音響固有の記述子でラベル付けされた多数の訓練ピクチャを含む。
【0074】
図11Bを参照すると、2つのカメラ視野(画像)I180-1およびI180-2内の部屋の360°画像を共同で取り込む、すなわち、部屋全体のシーンを取り込む、背中合わせの180°魚眼レンズを含む画像センサ102(例えば、カメラ)の一例の図がある。本例では、XRプロセッサ108は、任意の既知の、または今後開発される正距円筒図法を用いて、異なるカメラ視野を単一の長方形画像フレームにつなぎ合わせ得る。XRプロセッサ108は、訓練の間、または推論/リアルタイム段階の間に、単一の長方形画像フレームを処理のためにML分類器120に提供する。別の例では、伝統的な長方形画像が、ML分類器120を訓練するために用いられてもよい。代替的に、伝統的な長方形画像は、ユーザ/観察者がカメラを部屋の異なる視野に向けるのに従って、部屋をトレースすることに基づいて、より大きい画像、例えば、合成画像につなぎ合わせられてもよい。結果として得られたつなぎ合わせ画像は、ML分類器が360画像を使って訓練されたときにさえ、ML分類器120に適用され得る。別の例では、画像センサ102は部屋の長方形画像を取り込み、XRプロセッサ108は長方形画像を正距円筒空間上の区域に対応付け、対応付けられた画像を生成し、ML分類器120は、対応付けられた画像を分類する。長方形画像を正距円筒空間に対応付けるための任意の既知の、または今後開発される技法が用いられ得る。
【0075】
XRプロセッサの実施例
図12は、
図1AのXRプロセッサの実施形態によって提供されるものと比べて追加の機能性を含む一実施形態に係るXRプロセッサ108のブロック図である。
図12の実施例では、XRプロセッサ108は、画像分類経路1202、マテリアル推定経路1204、音響パラメータ集約(APC、acoustic parameter consolidation)論理1206、およびIAE124を含む。画像分類経路1202は画像センサ102からの画像103を処理し、一般/一次音響プリセット1210および二次音響変更子1212を生成し、一般音響プリセットおよび二次音響変更子をAPC論理1206に提供する。マテリアル推定経路1204は画像センサ102からの画像103を画像分類経路1202と並列に処理し、初期反射モデルデータ(ERE)(「初期反射パラメータ」とも称される)1214を生成し、初期反射モデルデータをAPC論理1206に提供する。APC論理1206は、一般音響プリセット1210、二次音響変更子1212、および初期反射モデルデータ1214を合同で処理し、最終音響調節パラメータ1220を生成し、それらをIAE124のAES126に提供する。
【0076】
画像分類経路1202は(音響解析のための)画像プリプロセッサ1222を含み、その後にML分類器120が続く。画像プリプロセッサ1222は画像103、すなわち、原画像データを処理し、ML分類器120による消費に適したフォーマットの画像を生成する。画像プリプロセッサ1222は原画像データをフォーマットし、および/またはML分類器120のための訓練の仮定に一致するために原画像データを選択、回収、または合計する。例えば、画像プリプロセッサ1222は、画像103のうちの連続したものをつなぎ合わせ、上述されたように、分類のためのつなぎ合わせ画像を生成し得る。
【0077】
ML分類器120が、画像を、(それらの信頼レベルを有する)一般音響プリセットおよび二次音響変更子の両方に直接分類するために訓練されたと仮定すると、ML分類器は画像プリプロセッサ1222からの画像の各々を一般音響プリセット1210および音響変更子1212に直接分類する。一例では、一般音響プリセット1210は初期残響パラメータを含み、二次音響変更子1212は、音響吸収パラメータ、音響反射パラメータ、音響拡散パラメータ、および特定の環境(例えば、部屋)寸法のうちの1つまたは複数を含み得る。
【0078】
両方の種類の分類が同時に進行するために、十分な画像情報、および十分なML分類器(例えば、ニューラルネットワーク)処理能力があることを条件として、ML分類器120は一般音響プリセット1210および二次音響変更子1212を同時に生成し得る。代替的に、ML分類器120は、(i)最初に受信された画像、および/または最初は制約された処理能力に基づいて、最初は一般音響プリセット1210のみを生成し、(ii)さらなる画像が到来し、および/またはさらなる処理能力が利用可能になったときに、一般音響プリセット1219および二次音響変更子1212の両方を同時に生成し得る。
【0079】
APC論理1206は音響変更子1212に基づいて一般音響プリセット1210の(初期)残響パラメータを変更し、変更された残響パラメータを含む変更された一般音響プリセットを生成し、変更された一般音響プリセットを最終音響調節パラメータ1220に含めてAES126に提供する。
【0080】
マテリアル推定経路1204は、(幾何解析のための)画像プリプロセッサ1232を含み、その後に、建築メッシュおよびマテリアル推定器(単純に「マテリアル推定器」と称される)1234が続く。画像プリプロセッサ1232は画像103内の原画像データを処理し、マテリアル推定器1234による消費のための画像を生成する。マテリアル推定器1234は、画像内に描写されたシーンのための(デジタル)建築3Dメッシュを構築し、建築3Dメッシュに基づいてシーン内に描写されたマテリアルの種類を推定し、マテリアルの音響特性を推定し、音響特性を含む初期反射モデルデータ(例えば、パラメータ)1214を生成する。画像プリプロセッサ1232およびマテリアル推定器1234は、任意の既知の、または今後開発される技法を用いて、幾何画像解析を遂行し、建築メッシュを生成し、メッシュからマテリアル特性を推定し得る。
【0081】
APC論理1206は初期反射モデルデータ1214を、変更された一般音響プリセットと組み合わせ、最終音響調節パラメータ1220を作る。代替的に、および/または追加的に、APC論理1206は、初期反射モデルデータ1214内の様々なパラメータを用いて、変更された一般音響プリセットをさらに変更し得る。
【0082】
マテリアル推定経路1204を省略した一実施形態では、初期反射モデルデータ1214は依然として用いられるが、例えば、デフォルト値に設定され得る。
【0083】
図13、最終音響調節パラメータ1220の音響パラメータに基づいてAES126を遂行するために用いられるIAE124の部分のブロック図がある。IAE124は、仮想音オブジェクト128のうちのそれぞれのものからのそれぞれの音信号S1~SOを受信する音チャネル1300(1)~1300(O)を含む。各チャネル1300(i)は、一連の調節可能なゲイン(G)、遅延、およびパノラミックポテンショメータ(pan)段階を通した、マルチチャネル出力バス1302への音信号Siのためのそれぞれの直接経路を提供する。結果として得られたチャネルごとの直接経路音信号はマルチチャネル出力バス1302に混合される。各チャネル1300(i)はまた、反射制御信号1310に応じて反射を制御する調節可能な反射段階(refl)を通した、マルチチャネル出力バスへの音信号Siのためのそれぞれの反射経路を提供する。反射制御信号1310は、上述された、最終音響調節1220の1つまたは複数の音響パラメータを含み得る。結果として得られたチャネルごとの反射もまた、マルチチャネル出力バス1302に混合される。IAE124はまた、チャネルごとの反射によって供給され、残響制御信号1314に応じて、マルチチャネル出力バス1302上で組み合わせられた、組み合わせられた直接経路音信号および反射を反響させるように構成された残響発生器(rev)1312を含む。残響制御信号1314は最終音響調節パラメータ1220の音響パラメータ(例えば、残響パラメータ)を含み得る。
【0084】
図14は、例えば、
図12のXRプロセッサ108によって遂行され得る例示的な音響パラメータ精緻化プロセス1400の図である。1402において、初期画像データがML分類器120内へ流れ、ML分類器が初期画像データを直接分類し、一般音響プリセットP1~PM(例えば、一般音響プリセット1210)のための軟判定ラベルを生成する。各音響プリセットPiはN個の音響パラメータAP1~APN(Param 1~Param N)のそれぞれのセットを含む。信頼レベルに基づいて一般音響プリセットP1~PMのうちの1つを選択し、選択された一般音響プリセットを生成する。初期反射モデルデータ(ERE)デフォルトパラメータ(例えば、初期反射モデルデータ1214のためのデフォルト値)が、選択された一般音響プリセットに追加されてもよい。
【0085】
1404において、さらなる画像データがML分類器120内へ流れ、さらなる画像データに基づいて、ML分類器は一般音響プリセットP1~PMに加えて二次音響変更子(例えば、二次音響変更子)1212を生成する。
【0086】
1406において、音響パラメータ安全性チェック論理が、(現在の)選択された一般音響プリセット、および安全性チェックを遂行するために有用な追加の情報を所与として、上述の音響パラメータが妥当な範囲内にあることを確実にするために、選択された一般音響プリセットおよび二次音響変更子に対する音響パラメータ安全性チェックを遂行する。安全性チェックに続いて、APC論理1206は、二次音響変更子に基づいて、選択された一般音響プリセットを変更し、変更されたとおりの、N個の音響パラメータを含む、変更された/集約された音響プリセットを生成する。EREデフォルトパラメータは、変更された/集約された音響プリセットと共に保持される。
【0087】
1410において、マテリアル推定経路1204が初期画像データおよびさらなる画像データに基づいて初期反射モデルデータ1214を生成する。
【0088】
1412において、音響パラメータ安全性チェック論理は、変更された/集約された音響プリセットおよび初期反射モデルデータ1214に対する音響パラメータ安全性チェックを遂行する。APC論理1206が、初期反射モデルデータ1214に基づいて、変更された/集約された音響プリセットをさらに変更するか、あるいは、初期反射データを、変更されたプリセットに単純に追加し、最終音響調節パラメータ1220を生成する。
【0089】
図15は、部屋の画像のために
図12のXRプロセッサ108によって生成された例示的な音響パラメータの表である。表は、表内の最初の行の一般音響プリセットの一般音響パラメータ、表の2番目の行の二次音響パラメータ、および表の3番目の行内の初期反射データパラメータを、表の列内に示された上述のパラメータの様々な特性に対応付ける。表の最初の列は上述の3つの種類の音響パラメータを識別する。次の、または真ん中の2つの列は、列内に指示されるように、ML分類器120およびマテリアル推定経路1204によって生成されたタグの(記述)ラベルに関連付けられた情報を含む。最後の列は残響パラメータおよびEREパラメータの例を提供する。
【0090】
キャッシュの実施形態
図16は、
図6の方法600に関連して上述されたとおりの、既知の実世界環境に関連付けられたキャッシュされた音響プリセットを用いる一実施形態におけるXRプロセッサ108のブロック図である。校正作業の間に、画像プリプロセッサ1601およびML分類器120は、校正されたプリセットメモリまたはキャッシュ1602内に、以前の「シーン」に対応する音響パラメータを記憶するよう合同で動作する。校正後に、リアルタイムで、(画像マッチングを遂行する)画像プリプロセッサ1601は、(ML分類器120を含み得る)論理1604と共に、既知のリアルタイム画像からの音響パラメータを識別し、上述されたように、完全な画像解析を有しない識別された音響パラメータを回収する。
図16の実施形態では、機械学習は、部屋を、事前校正されたシーンのうちの1つに一致させるより容易なタスクに焦点を合わせている。
【0091】
図16の実施形態では、校正されたプリセットメモリまたはキャッシュ1602が一般音響プリセット、二次音響パラメータ、および初期反射モデルデータを記憶するとき、ならびにこのようなデータが音響パラメータ安全性チェックをすでに受けているときには、APC論理1206は省略されてもよい。IAE124は、仮想音オブジェクト128のための位置情報および位置情報114に基づいて反射を最終決定する。
【0092】
音響プリセット移行方法のためのフローチャート
図17~
図19は、それぞれ、校正されたシーンの実施形態における、ソフトマックス分類の信頼レベルに基づく音響プリセットの間の移行の方法、使用可能画像安全性チェックを移行に追加する方法、および音響プリセットの間の移行を遂行する方法に関する。概して、
図17~
図19の方法は、一般/一次音響プリセットおよび二次音響変更子の分類器が、意味のある/認識可能な特徴を有しない画像または実世界シーンについて推測するよう強いられることを防止する。
【0093】
図17は、音響プリセット、例えば、残響プリセットの間の移行の例示的な方法1700のフローチャートである。1702および1704を含むループにおいて、方法1700はIAE124のためのデフォルト音響プリセットを確立し、確信的な音響環境変化をチェックする。確信的な音響環境変化がある場合には、フローは1706へ進んで音響プリセットを更新し、そこからフローは1708へ進む。さもなければ、フローはループへ戻る。1708、1710、および1712を含むループにおいて、方法1700は1708において環境ベースの音響プリセットを受信し、1710において確信的な音響環境変化をチェックする。確信的な音響環境変化がある場合には、フローは1712へ進んで音響プリセットを更新する。さもなければ、フローは1708へ戻る。
【0094】
図18は、音響プリセットの間の移行、および使用可能画像安全性チェックを遂行することの例示的な方法1800のフローチャートである。方法1800が、現在のセンサデータ(すなわち、画像)を使用可能画像として妥当性確認する作業1802および1804をさらに含むことを除いて、方法1800は方法1700と同様である。例えば、作業1702および1704の間に挿入された作業1802は、現在のセンサデータを使用可能画像として妥当性確認する。はいである場合には、フローは1702から1704へ進み、その一方で、いいえである場合には、フローは1702へ戻る。同様に、作業1804は作業1708および1710の間に挿入され、それらの作業の間のフローを、作業1804が作業1702および1704の間のフローを条件付ける仕方と同様に条件付ける。
【0095】
図19は、
図16に示される実施形態などの、校正されたシーンの実施形態における音響プリセットの間の移行の例示的な方法1900のフローチャートである。1902および1904を含むループにおいて、方法1900はデフォルト音響プリセットを確立し、現在のシーンを、校正されたシーンに関連付けられたシーンに対してチェックする。校正されたシーンが見出されない場合には、フローは1902へ戻る。さもなければ、校正されたシーンが見出されたときには、フローは1906へ進み、そこで、方法1900はデフォルト音響プリセットを、校正された音響プリセットで更新する。フローは1906から1908、1910、および1912へ進み、1908、1910、および1912は、1902、1904、および1906において遂行された作業を繰り返すが、デフォルト音響プリセットの代わりに、1906からの更新された校正された音響プリセットを用いて開始する。
【0096】
訓練プロセス
図20は、
図9、
図10、および
図11Aに関連して上述された訓練方法を表現する、最初に未訓練であるときのML分類器120のディープニューラルネットワーク(DNN)訓練のために用いられる例示的な訓練プロセス2000を示すブロック図である。2002において、画像プリプロセッサ1222が画像センサ102からの実世界環境の訓練画像を未訓練のML分類器120による消費のためにフォーマットし、(フォーマットされた)訓練画像をML分類器の訓練入力に提供する。2004において、画像プリプロセッサの機能が、訓練画像をディスプレイ上でユーザ/人間の操作者に、ユーザに勝手の良い、見やすいフォーマットで提示する。2006において、ユーザが、音響パラメータが訓練画像内の実世界環境/シーンに一致するよう、訓練画像の各々に、音響プリセット、二次パラメータ等に対応するラベル/音響調節パラメータを適用する。ユーザは、ラベル/音響調節パラメータを、未訓練のML分類器120に入力される訓練画像のうちのそれぞれのものに関連付け、これにより、訓練画像がそれらのラベルと相関するようにする。2010において、ML分類器120の1つまたは複数のニューラルネットワークが、ラベル付けされた訓練画像を使って訓練する。2010における訓練は、訓練画像内の特徴に基づいてML分類器120のニューラルネットワークのフィルタ係数を更新し、これにより、ML分類器120の訓練されたバージョンがもたらされる。それゆえ、訓練プロセスは、ML分類器120の1つまたは複数のニューラルネットワークを、画像をそれらの対応する音響プリセットに直接分類するように構成する。
【0097】
コンピュータデバイス
図21を参照すると、XRプロセッサ108およびIAE124が実施され得る例示的なコンピュータデバイス2100のブロック図がある。デバイス2100のための数多くの可能な構成が存在し、
図21は、一例であることが意図される。デバイス2100の例としては、タブレットコンピュータ、パーソナルコンピュータ、ラップトップコンピュータ、スマートフォンなどの携帯電話等が挙げられる。デバイス2100は、ディスプレイおよびヘッドフォンを駆動するための出力2104を含み得る。デバイス2100はまた、プロセッサ2116に各々結合された、1つまたは複数のネットワークインターフェースユニット(NIU、network interface unit)2108、およびメモリ2114を含み得る。1つまたは複数のNIU2108は、プロセッサ2116が通信ネットワークを通じて通信することを可能にする有線および/または無線接続能力を含み得る。例えば、NIU2108は、当業者によって理解されるであろうように、イーサネット接続を通じて通信するためのイーサネットカード、通信ネットワーク内のセルラーネットワークと無線で通信するための無線RFトランシーバ、光学トランシーバ、および同様のものを含み得る。
【0098】
プロセッサ2116は、例えば、メモリ2114内に記憶されたそれぞれのソフトウェア命令を実行するように各々構成された、マイクロコントローラおよび/またはマイクロプロセッサの集合を含み得る。プロセッサ2116は、1つまたは複数のプログラム可能特定用途向け集積回路(ASIC、application specific integrated circuit)、ファームウェア、またはこれらの組み合わせの形で実施され得る。メモリ2114の部分(およびその内部の命令)はプロセッサ2116と統合され得る。本明細書で使用するとき、用語「音響(acoustic)」、「音声(audio)」、および「音(sound)」は同義的であり、交換可能である。
【0099】
メモリ2114は、リードオンリーメモリ(ROM、read only memory)、ランダムアクセスメモリ(RAM、random access memory)、磁気ディスク記憶媒体デバイス、光記憶媒体デバイス、フラッシュメモリデバイス、電気的、光学的、または他の物理的/有形の(例えば、非一時的)メモリ記憶デバイスを含み得る。それゆえ、概して、メモリ2114は、コンピュータ実行可能命令を含むソフトウェアを符号化された1つまたは複数のコンピュータ可読記憶媒体(例えば、メモリデバイス)を含んでもよく、ソフトウェアが(プロセッサ2116によって)実行されたときに、それは、本明細書において説明された作業を遂行するように動作可能である。例えば、メモリ2114は、制御論理2120が、ML分類器120、IAE124、画像プリプロセッサ1222および1232、APC論理1206、マテリアル推定経路1204に関して本明細書において説明された作業、ならびに上述された方法を遂行するための命令を記憶しているか、またはそれらを符号化されている。
【0100】
加えて、メモリ2114は、画像、音響パラメータ、ニューラルネットワーク等などの、論理2120によって用いられる、および生成されたデータ/情報2122を記憶する。
【0101】
要約した方法のフローチャート
図22を参照すると、上述された様々な作業を含む画像を分類する例示的な方法2200のフローチャートがある。
【0102】
2202において、本方法は実世界環境の画像を受信する。これを行うために、本方法は、画像センサを用いて画像を取り込むか、あるいはファイルまたは事前に記憶された画像からの画像にアクセスし得る。
【0103】
2204において、本方法は、本明細書において説明されたようにすでに、または以前に訓練されたML分類器を用いて、作業2202において取り込まれた画像を受信し、画像を、AESのための(既知の)音響プリセットに関連付けられ、それらを指示する分類に直接分類する。分類はそれぞれの信頼レベルを含む。音響プリセットは、AESのための音残響を表現する(既知の)音響パラメータを各々含む。
【0104】
作業2204における分類の時に、音響プリセットおよびそれらのそれぞれのパラメータはML分類器の事前訓練からすでに知られている。それゆえ、ML分類器は画像を、例えば、部屋タイプから音響パラメータを導出するためのさらなる作業を次に必要とするであろう、部屋タイプにまず分類することを行うことなく、音響プリセットに関連付けられ、それらを指示する分類に「直接」分類する。作業2204の直接分類は、介在するパラメータ翻訳を行わない、分類に関連付けられた既知/所定の音響パラメータへの直接アクセスを提供する、画像から分類へ流れる本質的に単一の分類作業である。さらに、AESは音響プリセットを直接、すなわち、そのまま用いる。一実施形態では、ML分類器は、訓練画像の異なるグループに分割された実世界環境の(ラベル付けされた)訓練画像を使って訓練された。訓練画像の異なるグループの訓練画像は、異なるグループの各々の内部では同じであるが、異なるグループの間では異なる音響プリセットのうちのそれぞれのものでラベル付けされる。訓練画像は、後述される、さらなる作業2210~2214において利用される、追加の(二次)音響パラメータでさらにラベル付けされ得る。
【0105】
2206において、本方法は、分類の信頼レベルに基づいて音響プリセットの中の音響プリセット(すなわち、音響プリセットのうちの特定のもの)を選択する。本方法は音響プリセットにアクセスする/を取得する。
【0106】
2208において、本方法は音響プリセットの音響パラメータに基づいてAESを遂行する。AESは、音響プリセットの音響パラメータに基づいて実世界環境内に仮想的に配置された1つまたは複数の仮想音オブジェクトのための音残響をモデル化する。
【0107】
2210において、本方法は、機械学習分類器を用いて、直接、画像をさらに分類するか、または1つまたは複数のさらなる画像を分類し、1つまたは複数の音響パラメータ変更子を生成する。さらなる分類は作業2204の分類と同時であってもよい。代替的に、さらなる分類は、追加または後続の画像を受信し、分類する結果得られてもよい。
【0108】
2212において、本方法は2210からの1つまたは複数の音響パラメータ変更子に基づいて2206からの音響プリセットの音響パラメータを変更し、AESのための変更された音響パラメータを含む変更された音響プリセットを生成する。
【0109】
2214において、本方法は、変更された音響パラメータを用いてAESを遂行する。
【0110】
方法2200の作業2202~2206の異なる組み合わせは別個の独立した実施形態を表現し得る。例えば、作業2202~2206は、ひとまとめにして、独立した実施形態を表現する。
【0111】
図23を参照すると、方法2200において分類された画像に対する後続または第2の画像を分類する例示的な方法2300のフローチャートがある。方法2300は、上述された様々な作業を含む。
【0112】
2302において、本方法は実世界環境の第2の画像を取り込む/受信する。
【0113】
2304において、機械学習分類器を用いて、本方法は第2の画像を直接分類し、それぞれの第2の信頼レベルを有する第2の分類を生成する。
【0114】
2306において、本方法は、第2の分類のうちの1つまたは複数が、信頼レベル閾値を超えるそれぞれの第2の信頼レベルを有するかどうかを決定する。
【0115】
2308において、第2の分類のうちの1つまたは複数が、信頼レベル閾値を超えるそれぞれの第2の信頼レベルを有する場合には、本方法は、第2の分類の第2の信頼レベルに基づいて音響プリセットの中の第2の音響プリセット(音響プリセットのうちの第2の特定のもの)を選択し、音響プリセットを音響環境シミュレーションのための第2の音響プリセットで更新/置換する。
【0116】
2310において、第2の分類のうちの1つまたは複数が、信頼レベル閾値を超える対応する第2の信頼レベルを有しない場合には、本方法は第2の音響プリセットを選択せず、音響環境シミュレーションのための音響プリセットを更新/置換しない。
【0117】
方法2200および2300において、個々の分類は1つの画像または1つを超える画像に基づき得る。例えば、一連の画像(または一連の画像フレーム)を分類する状況を考えると、本方法は、1度に1つの画像を分類し、画像(または画像フレーム)ごとに別個の分類を生成し得るが、いくつかのこのような画像(または画像フレーム)からの分類のための信頼レベルの「移動平均」の著しい/相当の相違が存在するときには、分類プリセット(すなわち、AESに提示される音響プリセット)は変化または更新する。また、分類中の画像は、画像センサからの複数の画像を用いて、例えば、複数の視野をつなぎ合わせ、切り取りの程度がより小さい、環境の視野を生成することによって、拡張されてもよい。
【0118】
要約すれば、一実施形態では、方法であって、実世界環境の画像を受信することと、機械学習分類器を用いて、画像を分類して、音響環境シミュレーションのための音響プリセットに関連付けられた分類を生成することであって、音響プリセットが、音残響を表現する音響パラメータを各々含む、分類することと、分類に基づいて音響プリセットの中の音響プリセットを選択することと、を含む方法が提供される。
【0119】
別の実施形態では、装置であって、装置が、プロセッサを備え、プロセッサが、実世界環境の画像を受信することと、1つまたは複数のニューラルネットワークを含む訓練された機械学習分類器を用いて、画像を、音響環境シミュレーションのための音響プリセットに関連付けられた分類に直接分類することであって、音響プリセットが、音残響を表現する音響パラメータを各々含む、分類することと、分類に基づいて音響プリセットの中の音響プリセットを選択することと、音響プリセットの音響パラメータに基づいて音響環境シミュレーションを遂行することと、を行うように構成されている、装置が提供される。
【0120】
さらなる実施形態では、非一時的コンピュータ可読媒体が提供される。コンピュータ可読媒体は命令を符号化されており、命令は、プロセッサによって実行されたときに、プロセッサに、実世界環境の画像を受信することと、音残響を表現する音響パラメータを各々含む音響プリセットのうちのそれぞれのものでラベル付けされた実世界環境の訓練画像を使って以前に訓練された機械学習分類器を用いて、画像を、音響環境シミュレーションのための音響プリセットに関連付けられた分類に直接分類することと、分類に基づいて音響プリセットの中の音響プリセットを選択することと、音響プリセットの音響パラメータに基づいて音響環境シミュレーションを遂行することと、を含む、本明細書において提示された方法を遂行させる。
【0121】
別の実施形態では、システムであって、実世界シーンの画像を取り込むための画像センサと、画像センサに結合されたプロセッサであって、以前に訓練された機械学習分類器を実施し、それを用いて、画像を、音響環境シミュレーションのための音響プリセットに関連付けられた分類に直接分類することであって、音響プリセットが、音残響を表現する音響パラメータを各々含む、分類すること、分類に基づいて音響プリセットの中の音響プリセットを選択すること、および音響プリセットの音響パラメータに基づいて音響環境シミュレーションを遂行し、音響環境シミュレーションを表現する音信号を生成すること、を行うように構成された、プロセッサと、プロセッサに結合されており、音信号を音に変換するように構成された1つまたは複数のヘッドフォンと、を備える、システムが提供される。
【0122】
技法は、本明細書において、1つまたは複数の特定の例において具体化されるように例示され、説明されたが、それにもかかわらず、様々な修正および構造的変更が請求項の同等物の範囲および領域内で行われ得るため、それは、示された詳細に限定されることを意図されない。
【0123】
以下において提示される各請求項は別個の実施形態を表し、異なる請求項および/または異なる実施形態を組み合わせる実施形態は本開示の範囲に含まれ、本開示を吟味後の当業者に明らかであろう。
【国際調査報告】