(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-12-20
(54)【発明の名称】音声エミュレーション
(51)【国際特許分類】
H04S 7/00 20060101AFI20231213BHJP
G06T 19/00 20110101ALI20231213BHJP
G10K 15/02 20060101ALI20231213BHJP
H04R 3/04 20060101ALI20231213BHJP
G06F 3/16 20060101ALI20231213BHJP
G06F 3/04817 20220101ALI20231213BHJP
G06F 3/01 20060101ALI20231213BHJP
【FI】
H04S7/00 300
G06T19/00 A
G10K15/02
H04R3/04
G06F3/16 620
G06F3/04817
G06F3/01 510
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023524360
(86)(22)【出願日】2021-10-20
(85)【翻訳文提出日】2023-04-20
(86)【国際出願番号】 CN2021124805
(87)【国際公開番号】W WO2022095697
(87)【国際公開日】2022-05-12
(32)【優先日】2020-11-06
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【代理人】
【識別番号】100112690
【氏名又は名称】太佐 種一
(74)【代理人】
【識別番号】100120710
【氏名又は名称】片岡 忠彦
(74)【復代理人】
【識別番号】110000420
【氏名又は名称】弁理士法人MIP
(72)【発明者】
【氏名】ペルマッラ、サラスワシ サイラジャ
(72)【発明者】
【氏名】チャマラ、シャンタン
(72)【発明者】
【氏名】カッリ、ヴェンカタ ヴァラ プラサド
(72)【発明者】
【氏名】テルクントラ、サイラム
(72)【発明者】
【氏名】ラクシット、サルバジット ケイ
【テーマコード(参考)】
5B050
5D162
5D208
5D220
5E555
【Fターム(参考)】
5B050AA03
5B050BA09
5B050CA07
5B050CA08
5B050EA26
5B050FA02
5B050FA14
5B050FA17
5D162AA14
5D162CC08
5D162EG02
5D208BB02
5D208BB03
5D220AB01
5D220AB08
5E555AA27
5E555BA02
5E555BA03
5E555BA05
5E555BA06
5E555BB02
5E555BB03
5E555BB05
5E555BB06
5E555BC04
5E555BD01
5E555BE17
5E555CA12
5E555CA18
5E555CA45
5E555CB12
5E555CB20
5E555CB34
5E555CB81
5E555CC03
5E555DA23
5E555DB18
5E555DB53
5E555DC13
5E555DC61
5E555DD06
5E555DD07
5E555EA04
5E555EA11
5E555FA00
(57)【要約】
本発明は、方法、コンピュータ・プログラム製品およびシステムを提供する。本発明は、ロケーションに関連した1つまたは複数の画像に対する音声を、リクエストを満たすコンテキスト情報に基づいて動的に生成することができる。本発明は、生成された音声を1つまたは複数の画像に埋め込むことができる。本発明は、次いで、埋め込まれた音声と一緒に1つまたは複数の画像をユーザ装置上に表示することができる。
【特許請求の範囲】
【請求項1】
ロケーションに関連した1つまたは複数の画像に対する音声を、リクエストを満たすコンテキスト情報に基づいて動的に生成すること、
生成された前記音声を前記1つまたは複数の画像に埋め込むこと、および
埋め込まれた前記音声と一緒に前記1つまたは複数の画像をユーザ装置上に表示すること
を含むコンピュータ実装方法。
【請求項2】
任意選択的に、前記1つまたは複数の画像を改良すること
をさらに含む、請求項1に記載のコンピュータ実装方法。
【請求項3】
ロケーションに関連した1つまたは複数の画像に対する音声を、リクエストを満たすコンテキスト情報に基づいて動的に生成することが、
前記ロケーションに関連したコンテキスト情報に優先順位をつけること、
前記コンテキスト情報に整合した1つまたは複数の画像を生成すること、および
前記コンテキスト情報に整合した生成された前記1つまたは複数の画像に関連した音声を生成すること
を含む、請求項1に記載のコンピュータ実装方法。
【請求項4】
識別された複数の物体のうちの少なくとも1つの物体をコンテキスト情報に基づいて変更すること
をさらに含む、請求項3に記載のコンピュータ実装方法。
【請求項5】
前記識別された複数の物体のうちの識別されたそれぞれの物体の音響属性に基づいて、前記識別された複数の物体に索引を付けること
をさらに含む、請求項4に記載のコンピュータ実装方法。
【請求項6】
生成された前記1つまたは複数の画像上にオーバレイする、前記複数の物体のうちの少なくとも1つの物体を表す1つまたは複数のグラフィック・アイコンを生成すること、
前記ユーザ装置上に表示された生成された前記1つまたは複数の画像のうちの生成された画像の上に、生成された前記少なくとも1つまたは複数のグラフィック・アイコンをオーバレイすること、および
生成された前記1つまたは複数のグラフィック・アイコンのうちの生成された少なくとも1つのグラフィック・アイコンを選択したことに応答して、前記複数の物体のうちのそれぞれの物体に関連した音声を流すこと
をさらに含む、請求項4に記載のコンピュータ実装方法。
【請求項7】
前記1つまたは複数の画像のうちのそれぞれの画像の中に示された物体に関連したノイズ・レベルを示すスコアを生成すること、および
生成された前記スコアが前記ノイズ・レベルに対するしきいスコアを満たしていることまたは超えていることに応答して、前記物体の音響属性を変更する動作を推奨すること
をさらに含む、請求項1に記載のコンピュータ実装方法。
【請求項8】
コンピュータ・プログラム製品であって、
1つまたは複数のコンピュータ可読記憶媒体と、前記1つまたは複数のコンピュータ可読記憶媒体上に記憶されたプログラム命令とを含み、前記プログラム命令が、
ロケーションに関連した1つまたは複数の画像に対する音声を、リクエストを満たすコンテキスト情報に基づいて動的に生成するプログラム命令と、
生成された前記音声を前記1つまたは複数の画像に埋め込むプログラム命令と、
埋め込まれた前記音声と一緒に前記1つまたは複数の画像をユーザ装置上に表示するプログラム命令と
を含む、コンピュータ・プログラム製品。
【請求項9】
前記1つまたは複数のコンピュータ可読記憶媒体上に記憶された前記プログラム命令が、
任意選択的に、前記1つまたは複数の画像を改良するプログラム命令
をさらに含む、請求項8に記載のコンピュータ・プログラム製品。
【請求項10】
ロケーションに関連した1つまたは複数の画像に対する音声を、リクエストを満たすコンテキスト情報に基づいて動的に生成する前記プログラム命令が、
前記ロケーションに関連したコンテキスト情報に優先順位をつけるプログラム命令と、
前記コンテキスト情報に整合した1つまたは複数の画像を生成するプログラム命令と、
前記コンテキスト情報に整合した生成された前記1つまたは複数の画像に関連した音声を生成するプログラム命令と
を含む、請求項8に記載のコンピュータ・プログラム製品。
【請求項11】
前記1つまたは複数のコンピュータ可読記憶媒体上に記憶された前記プログラム命令が、
識別された複数の物体のうちの少なくとも1つの物体をコンテキスト情報に基づいて変更するプログラム命令
をさらに含む、請求項10に記載のコンピュータ・プログラム製品。
【請求項12】
前記1つまたは複数のコンピュータ可読記憶媒体上に記憶された前記プログラム命令が、
前記識別された複数の物体のうちの識別されたそれぞれの物体の音響属性に基づいて、前記識別された複数の物体に索引を付けるプログラム命令
をさらに含む、請求項11に記載のコンピュータ・プログラム製品。
【請求項13】
前記1つまたは複数のコンピュータ可読記憶媒体上に記憶された前記プログラム命令が、
生成された前記1つまたは複数の画像上にオーバレイする、前記複数の物体のうちの少なくとも1つの物体を表す1つまたは複数のグラフィック・アイコンを生成するプログラム命令と、
前記ユーザ装置上に表示された生成された前記1つまたは複数の画像のうちの生成された画像の上に、生成された前記少なくとも1つまたは複数のグラフィック・アイコンをオーバレイするプログラム命令と、
生成された前記1つまたは複数のグラフィック・アイコンのうちの生成された少なくとも1つのグラフィック・アイコンを選択したことに応答して、前記複数の物体のうちのそれぞれの物体に関連した音声を流すプログラム命令と
をさらに含む、請求項11に記載のコンピュータ・プログラム製品。
【請求項14】
前記1つまたは複数のコンピュータ可読記憶媒体上に記憶された前記プログラム命令が、
前記1つまたは複数の画像のうちのそれぞれの画像の中に示された物体に関連したノイズ・レベルを示すスコアを生成するプログラム命令と、
生成された前記スコアが前記ノイズ・レベルに対するしきいスコアを満たしていることまたは超えていることに応答して、前記物体の音響属性を変更する動作を推奨するプログラム命令と
をさらに含む、請求項8に記載のコンピュータ・プログラム製品。
【請求項15】
1つまたは複数のコンピュータ・プロセッサと、
1つまたは複数のコンピュータ可読記憶媒体と、
前記1つまたは複数のコンピュータ可読記憶媒体上に記憶された、前記1つまたは複数のコンピュータ・プロセッサのうちの少なくとも1つのコンピュータ・プロセッサによって実行するためのプログラム命令と
を含み、前記プログラム命令が、
ロケーションに関連した1つまたは複数の画像に対する音声を、リクエストを満たすコンテキスト情報に基づいて動的に生成するプログラム命令と、
生成された前記音声を前記1つまたは複数の画像に埋め込むプログラム命令と、
埋め込まれた前記音声と一緒に前記1つまたは複数の画像をユーザ装置上に表示するプログラム命令と
を含む、コンピュータ・システム。
【請求項16】
前記1つまたは複数のコンピュータ可読記憶媒体上に記憶された前記プログラム命令が、
任意選択的に、前記1つまたは複数の画像を改良するプログラム命令
をさらに含む、請求項15に記載のコンピュータ・システム。
【請求項17】
ロケーションに関連した1つまたは複数の画像に対する音声を、リクエストを満たすコンテキスト情報に基づいて動的に生成する前記プログラム命令が、
前記ロケーションに関連したコンテキスト情報に優先順位をつけるプログラム命令と、
前記コンテキスト情報に整合した1つまたは複数の画像を生成するプログラム命令と、
前記コンテキスト情報に整合した生成された前記1つまたは複数の画像に関連した音声を生成するプログラム命令と
を含む、請求項15に記載のコンピュータ・システム。
【請求項18】
前記1つまたは複数のコンピュータ可読記憶媒体上に記憶された前記プログラム命令が、
識別された複数の物体のうちの少なくとも1つの物体をコンテキスト情報に基づいて変更するプログラム命令
をさらに含む、請求項17に記載のコンピュータ・システム。
【請求項19】
前記1つまたは複数のコンピュータ可読記憶媒体上に記憶された前記プログラム命令が、
前記識別された複数の物体のうちの識別されたそれぞれの物体の音響属性に基づいて、前記識別された複数の物体に索引を付けるプログラム命令
をさらに含む、請求項18に記載のコンピュータ・システム。
【請求項20】
前記1つまたは複数のコンピュータ可読記憶媒体上に記憶された前記プログラム命令が、
生成された前記1つまたは複数の画像上にオーバレイする、前記複数の物体のうちの少なくとも1つの物体を表す1つまたは複数のグラフィック・アイコンを生成するプログラム命令と、
前記ユーザ装置上に表示された生成された前記1つまたは複数の画像のうちの生成された画像の上に、生成された前記少なくとも1つまたは複数のグラフィック・アイコンをオーバレイするプログラム命令と、
生成された前記1つまたは複数のグラフィック・アイコンのうちの生成された少なくとも1つのグラフィック・アイコンを選択したことに応答して、前記複数の物体のうちのそれぞれの物体に関連した音声を流すプログラム命令と
をさらに含む、請求項18に記載のコンピュータ・システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は一般に音声エミュレーション(audio emulation)に関し、詳細には、1つまたは複数のモノのインターネット(Internet of Things)(IoT)装置を使用して音声をエミュレートすることに関する。
【背景技術】
【0002】
仮想現実(VR)は通常、実世界に類似していることまたは実世界とは完全に異なることがあるシミュレートされた体験のことを指す。仮想現実の用途は、エンターテインメントおよび教育目的を含むことができる。VR型技術の他の異なるタイプは拡張現実および複合現実を含む。仮想現実機器を使用している人は、人工世界を見回すこと、人工世界を動き回ること、および仮想特徴またはアイテムと交流することができる。この効果は一般的に、目の前に小型スクリーンを備えるヘッドマウント・ディスプレイからなるVRヘッドセットによって生み出されるが、多数の大型スクリーンを備えた特別に設計された部屋によっても生み出すことができる。仮想現実は通常、聴覚およびビデオ・フィードバックを含むが、触覚技術による他のタイプの感覚および力フィードバックも可能にすることができる。
【0003】
拡張現実(AR)は一般に、時に視覚、聴覚、触覚、体性感覚および嗅覚を含む多数の感覚種にわたるコンピュータ生成知覚情報によって実世界に存在するオブジェクトが強化された、実世界環境のインタラクティブ体験のことを指す。ARは、3つの基本的特徴、すなわち、実世界と仮想世界の結合、リアルタイム・インタラクション、ならびに仮想オブジェクトおよび実オブジェクトの正確な3D位置決め、を実現するシステムとして定義することができる。オーバレイされた感覚情報は、建設的であること(すなわち自然環境に対して加法的であること)、または破壊的であること(すなわち自然環境を遮蔽する)ができる。この体験は、実環境の没入態様として知覚されるように物理世界と継ぎ目なく織り合わされる。このように、拡張現実は、人の実世界環境の継続中の知覚を変化させ、仮想現実は、ユーザの実世界環境を、シミュレートされた環境に完全に置き換える。
【0004】
デジタル・ツインは、生きている物理的実体または生きていない物理的実体のデジタル・レプリカである。一般に、デジタル・ツインは、さまざまな目的に使用することができる、潜在的および実際の物理資産(物理ツイン)、プロセス、人々、場所、システムおよび装置のデジタル・レプリカのことを指す。このデジタル表現は、モノのインターネット装置がそのライフ・サイクルの全体を通じてどのように動作し、存続するのかの要素と動力学の両方を提供する。
【0005】
デジタル・ツインは2つの主要な特性を有し、それらはすなわち、物理モデルと対応する仮想モデルまたは対応物とが接続していること、およびこの接続が、センサを使用して実時間データを生成することによって確立されることである。一般に、デジタル・ツインは、IoT、人工知能、機械学習およびソフトウェア解析を空間ネットワーク・グラフと統合して、それらの物理的対応物が変化したときに更新および変化する生きたデジタル・シミュレーション・モデルを生み出す。デジタル・ツインは、その近リアルタイム状況、動作状態または位置を表現するために多数の源からそれ自体を連続的に学習および更新する。この学習システムは、関連業界領域の深い知識を有するエンジニアなどの人間の専門家、他の類似の機械、他の類似の機械群、およびその学習システムが部分であってもよいより大きなシステムおよび環境から学習システムの動作条件のさまざまな態様を伝達するセンサ・データを使用して、それ自体から学習する。デジタル・ツインはまた、そのデジタル・モデルに組み込むために過去の機械使用からの履歴データを統合する。
【0006】
仮想サラウンドは、実際に存在する音源よりも多くの音源が存在する知覚を生み出そうとする音声システムである。このようなシステムの最近の大部分の例は、1つ、2つまたは3つのラウドスピーカーを使用して真の(物理的な)サラウンド・サウンド体験をシミュレートするように設計されている。このようなシステムは、そのために伝統的に必要な多数のスピーカなしでサラウンド・サウンドの体験を楽しみたい消費者の間で人気がある。
【0007】
3D音声効果は、ステレオ・スピーカ、サラウンド・サウンド・スピーカ、スピーカ・アレイまたはヘッドホンによって生み出された音を操作する一群の音響効果である。これはしばしば、聞く人の背後、上方または下方を含む3次元空間のどこかに音源を仮想的に配置することを含む。
【発明の概要】
【0008】
本発明の一態様によればコンピュータ実装方法が提供される。この方法は、ロケーション(location)に関連した1つまたは複数の画像に対する音声を、リクエストを満たすコンテキスト情報(contextual information)に基づいて動的に生成すること、生成された音声を1つまたは複数の画像に埋め込むこと、および埋め込まれた音声と一緒に1つまたは複数の画像をユーザ装置上に表示することを含む。
【0009】
次に、以下の図面を参照して、本発明の好ましい実施形態を単なる例として説明する。
【図面の簡単な説明】
【0010】
【
図1】本発明の実施形態による、コンピューティング環境のブロック図である。
【
図2】本発明の実施形態による、多変量体験を生み出すための動作ステップを示すフローチャートである。
【
図3】本発明の実施形態による、音声を生成およびシミュレートするための動作ステップを示すフローチャートである。
【
図4】本発明の実施形態による、例示的なシステムのブロック図である。
【発明を実施するための形態】
【0011】
本発明の実施形態は、現在の拡張および仮想現実システムの欠陥を認識している。具体的には、本発明の実施形態は、現在の拡張および仮想現実システムが、物理的ロケーションの音声および音響効果をエミュレートする包括的な手法を欠いていることを認識している。例えば、伝統的な拡張および仮想現実システムは通常、音声が伝達され、またはそうでなければ表現され、ユーザによって体験される方式に重点を置いていない。そのため、ユーザは通常、再現された(recreated)ロケーションの中に示された音声を欠き、再現されたロケーションに示された音声を体験することができない。例えば、拡張および仮想現実システムは、建物(例えば住宅の部屋)のレイアウトを再現することができるが、伝統的な拡張および仮想現実システムは、構造体の中で音(例えば音声)がどのように反響するのかを示す手段を欠いており、ある条件の間(例えばにわか雨の間)、ある出来事(例えば通りから聞こえるノイズ・レベル)の間、昼間の異なる時点における、1つのエリアに関連した典型的な音を正確に伝達することができない。そのため、本発明の実施形態は、ロケーションの現実的表現をユーザに提供するように設計された生成されたユーザ・インタフェースの中で音声をエミュレートすることによって、拡張および仮想現実システムの欠陥に対する解決策を提供する。例えば、本発明の実施形態は、本明細書において後により詳細に論じるようにしてデジタル・ツイン・シミュレーションおよび収集されたコンテキスト情報を使用することによって、音声をエミュレートすることができる。例えば、本発明のいくつかの実施形態は、異なるノイズ・レベルがあるロケーションにどのような影響を及ぼすかをシミュレートすること、およびノイズ・レベルを改善する(例えば低減させる)ための提案を生成することができる。
【0012】
本明細書で使用されるとき、コンテキスト情報は、ロケーション(例えば意図された行き先)に関する情報のことを指す。本明細書で使用されるとき、ロケーションは、1つまたは複数の物体(例えば家具、装飾品など)をそれぞれが含む、1つまたは複数の構造レイアウトを有する物理的構造体のことを指す。ロケーションの例は、居住用構造体(例えば住宅、共同住宅、分譲マンションなど)、および商用構造体(例えば小売地区の建物)を含むことができる。コンテキスト情報はまた、構造体および構造体のレイアウトを構築するために使用される材料を含むことができる(例えば木材対カーペットを敷いたフローリングの使用、消音材料、壁の厚さなど)。
【0013】
コンテキスト情報はまた、そのロケーションに関連した1つまたは複数のモノのインターネット(IoT)装置および1つまたは複数の公衆データベースまたはそうでなければアクセスが許されたデータベースから収集された音声データを含むことができる。音声データの例は、1つまたは複数の音声ファイル(例えば、特定のレイアウトまたはロケーションに対して再現することおよび流すことができる格納された音声ファイル・ライブラリなどの予め録音された音)を含むことができる。
【0014】
コンテキスト情報はまた、気象データ(例えば日光/雨/雪、湿度、雲指数(cloud index)、UV指数、風、露点、圧力、視程など)、明るさ(例えば太陽の位置)、時刻、GPS位置、ロケーションの中のユーザの数量を含むことができる。コンテキスト情報はさらに、1つのロケーションにあるかまたは1つのロケーションの近くにある物体(例えばある街路標識、灯火、広告板、ベンチなどのためのジオタグ(geotag))に関する情報を含むことができる。この実施形態では、特定のロケーションで体験される気象をシミュレートするために、気象データを、1つまたは複数の音声ファイルに相関させることができる。
【0015】
コンテキスト情報はまた、ロケーションについての情報(例えばロケーション情報)を含むことができる。例えば、ロケーション情報は、建物の営業時間(hours of operation)、道路閉鎖、コンサートなどの予定されたイベントに基づく予想交通量、リアルタイム交通量、レストランの待ち時間などのロケーションの行列状況、ユーザの好み(user preference)などを含むことができる。
【0016】
本発明の実施形態は、ユーザからの許可によってクラウド源からのデータを介してコンテキスト情報を利用することができる。例えば、本発明の実施形態は、ユーザによって提供された情報(例えばユーザが生成した音声、ユーザがアップロードした画像、ユーザが生成したタグ、ユーザが著作権を持つ画像など)を本発明の実施形態が収集および使用することを可能にする選択/拒否機構をユーザに提供することができる。本発明のいくつかの実施形態は、情報が収集される度にまたはそうでなければ情報が使用される度にユーザに通知を送信することができる。
【0017】
図1は、本発明の一実施形態による、コンピューティング環境を示す機能ブロック図であり、このコンピューティング環境は全体がコンピューティング環境100として示されている。
図1は、1つの実施態様を示しているに過ぎず、異なる実施形態を実施することができる環境に関する限定を暗示するものではない。当業者は、特許請求の範囲によって示された本発明の範囲を逸脱しない図示の環境に対する多くの修正を実施することができる。
【0018】
コンピューティング環境100は、クライアント・コンピューティング・デバイス102およびサーバ・コンピュータ108を含み、これらは全てネットワーク106を介して相互接続されている。クライアント・コンピューティング・デバイス102およびサーバ・コンピュータ108は、独立型コンピュータ装置、管理サーバ、ウェブサーバ、モバイル・コンピューティング・デバイス、またはデータを受信、送信および処理することができる他の任意の電子装置もしくはコンピューティング・システムとすることができる。他の実施形態では、クライアント・コンピューティング・デバイス102およびサーバ・コンピュータ108が、クラウド・コンピューティング環境などで多数のコンピュータをサーバ・システムとして利用するサーバ・コンピューティング・システムを表し得る。別の実施形態では、クライアント・コンピューティング・デバイス102およびサーバ・コンピュータ108を、ラップトップ・コンピュータ、タブレット・コンピュータ、ネットブック・コンピュータ、パーソナル・コンピュータ(PC)、デスクトップ・コンピュータ、パーソナル・デジタル・アシスタンス(PDA)、スマート・フォンとすることができ、またはコンピューティング環境100内のさまざまな構成要素および他のコンピューティング・デバイス(図示せず)と通信することができるプログラム可能な任意の電子装置とすることができる。別の実施形態では、クライアント・コンピューティング・デバイス102およびサーバ・コンピュータ108がそれぞれ、コンピューティング環境100内でアクセスされたときに継ぎ目のないリソースの単一のプールとして機能するクラスタ化されたコンピュータおよび構成要素(例えばデータベース・サーバ・コンピュータ、アプリケーション・サーバ・コンピュータなど)を利用するコンピューティング・システムを表す。いくつかの実施形態では、クライアント・コンピューティング・デバイス102およびサーバ・コンピュータ108が単一の装置である。クライアント・コンピューティング・デバイス102およびサーバ・コンピュータ108は、
図4に関してさらに詳細に示し、説明する、機械可読プログラム命令を実行することができる内部および外部ハードウェア構成要素を含むことができる。
【0019】
この実施形態では、クライアント・コンピューティング・デバイス102が、ユーザに関連したユーザ装置であり、アプリケーション104を含む。アプリケーション104は、サウンド・エミュレータ110に(例えばTCP/IPを使用して)アクセスしてコンテント、ユーザ情報およびデータベース情報にアクセスするために、サーバ・コンピュータ108と通信する。アプリケーション104はさらに、ユーザの視点(viewpoint)および現在の視野(perspective)にコンテキスト的に関連したロケーションの音声シミュレーションを含むコンピュータ・レンダリングされたビュー(view)を
図2~3に関してより詳細に論じるようにして生成し、続いて表示する命令を送信するために、サウンド・エミュレータ110と通信することができる。
【0020】
ネットワーク106は、例えば、電気通信ネットワーク、ローカル・エリア・ネットワーク(LAN)、インターネットなどのワイド・エリア・ネットワーク(WAN)、またはこれらの3つの組合せとすることができ、有線、無線または光ファイバ接続を含むことができる。ネットワーク106は、声、データおよびビデオ情報を含むマルチメディア信号を含むデータ、声(voice)もしくはビデオ信号またはこれらの組合せを受信および送信することができる1つもしくは複数の有線もしくは無線ネットワークまたはその両方を含むことができる。一般に、ネットワーク106は、クライアント・コンピューティング・デバイス102およびサーバ・コンピュータ108、ならびにコンピューティング環境100内の他のコンピューティング・デバイス(図示せず)間の通信を支援する接続およびプロトコルの任意の組合せとすることができる。
【0021】
サーバ・コンピュータ108は、サウンド・エミュレータ110およびデータベース112をホストするデジタル装置である。この実施形態では、サウンド・エミュレータ110がサーバ・コンピュータ108上にある。他の実施形態では、サウンド・エミュレータ110が、クライアント・コンピュータ・デバイス102上にローカルに格納されたプログラム(図示せず)の例(instance)を有することができる。例えば、サウンド・エミュレータ110を、クライアント・デバイス上にインストールされた既存の拡張現実または仮想現実システムと統合することができる。他の実施形態では、サウンド・エミュレータ110を、ユーザが体験するためのコンテキスト的に関連した1つまたは複数のインタフェースを生成する独立型プログラムまたはシステムとすることができ、このインタフェースは、受信したユーザ・リクエストに基づいてレイアウトおよび付随する音声シミュレーションを表示する。他の実施形態では、サウンド・エミュレータ110を、任意の数のコンピューティング・デバイス上に格納することができる。
【0022】
この実施形態では、サウンド・エミュレータ110が、ユーザの視点および現在の視野にコンテキスト的に関連したロケーションの音声シミュレーションを含むコンピュータ・レンダリングされたビューを生成し、続いて表示する。この実施形態では、サウンド・エミュレータ110が、物理的ロケーションを複製するために使用されるデジタル・ツイン・システム(図示せず)を含むことができる。
【0023】
例えば、サウンド・エミュレータ110は、3階建ての住宅およびその住宅の各階の付随するレイアウトであるロケーションに関する情報を受信することができる。具体的には、この住宅が、住宅のフロアの1つにホーム・シアターおよびサラウンド・サウンド・システムを含む。サウンド・エミュレータ110は、デジタル・ツインを使用して受信したレイアウトを再現することができる。この実施形態では、サウンド・エミュレータ110が、ステレオ・システムによって出力された音を生成し、またはそうでなければ再現することができ、住宅の物理レイアウト内の変化する音声レベルを収集するデジタル・ツイン・システムを使用して、住宅の他の材料に対して音がどのように反応するのかを含む。サウンド・エミュレータ110は次いで、部屋の中に置かれた物体の数、部屋の占有率、壁の表面の材料などの他の変数の結果、音声がどのように聞こえるのかを考慮し、シミュレートするために、音量レベルを調整することができる。いくつかの実施形態では、サウンド・エミュレータ110が、1人または数人の人がその部屋にいる住居内で聞こえるときの音声を再現することができ、住居の内側と外側の両方の背景ノイズ(例えば交通音、交通密度、気象など)をシミュレートすることができる。
【0024】
この実施形態では、サウンド・エミュレータ110が、ロケーションのデジタル・ツインを使用してロケーションの音声を動的にシミュレートし、シミュレートされた音声を1つまたは複数の仮想および拡張現実システムに統合する。例えば、サウンド・エミュレータ110は、ロケーションの変化するレイアウト内の1人または数人のユーザの声を、ユーザからの受信情報に基づいてシミュレートすることができる。デジタル・ツイン・システムを使用して、サウンド・エミュレータ110は、音声(例えば背景ノイズ、雨、稲妻、ある光源から発せられた音、不明瞭な声など)を受動的にまたは能動的に収集し、続いて再生することができる。いくつかの実施形態では、サウンド・エミュレータ110がさらに、デジタル・ツイン・システムを利用して、ロケーション内に示されたある照明効果を再現すること(例えばある照明機構をまねること、または他の照明選択肢をシミュレートすること)ができる。
【0025】
この実施形態では、受信情報が一般に、意図されたロケーションにおいて体験される音声をシミュレートすることを求める受信したリクエストのことを指す。例えば、受信情報は、気象に関係したノイズ(例えば雨、風、気象に関係したデータなど)、近隣のロケーション(例えば住居)によって生成された音声/音、ロケーションの内側と外側の両方で体験される声、ラッシュ時およびオフピーク時の交通音などの変量をシミュレートすることを求めるリクエストを含むことができる。受信情報はさらに、ロケーション情報(例えば建物の営業時間、道路閉鎖、コンサートなどの予定されたイベントに基づく予想交通量、リアルタイム交通量、レストランの待ち時間などのロケーションの行列状況、ユーザの好みなど)、意図されたロケーションに関する情報に対する変更(例えば道路閉鎖、予測および実交通量、営業時間の変更を含むクラウド源からのロケーション情報)を含むことができる。
【0026】
他の実施形態では、受信情報を、サウンド・エミュレータ110によって能動的に収集することができる。例えば、サウンド・エミュレータ110は、1つまたは複数のカメラ、スマート装置、ロケーション内に位置するオーディオ機器などの(サウンド・エミュレータ110がアクセスすることが許された)アプリケーションを呼び出すことができ、異なる時点の全体を通じて一連の画像および音声を記録し、またはそうでなければ捕捉することができる。最後に、受信情報はまた、ロケーションに関連したユーザが生成したコンテントおよび公衆が利用可能なコンテントを含むことができる。具体的には、受信情報は、1つまたは複数の多数の視野およびそれぞれの時点からの、ロケーションに関連した1つまたは複数の画像および音声ファイルを含むことができる。例えば、ロケーションに関連したユーザが生成したコンテントは、異なる時点(例えば昼間または夜間)の多数の視野(例えば、多数の入口点および多数のストリート・ビューを示す同じロケーションの異なる角度)を含み得る。
【0027】
コンテントは、1つまたは複数のテキスト情報、ピクチャ、音声、視覚、グラフィック情報を含むことができる。コンテントはまた、1つまたは複数のファイルおよび拡張子(例えば、.doc、.docx、.odt、.pdf、.rtf、.txt、.wpdなどのファイル拡張子)を含むことができる。コンテントはさらに、音声(例えば.m4a、.flac、.mp3、.mp4、.wave、.wmaなど)および映像/画像(例えば、.jpeg、.tiff、.bmp、.pdf、.gifなど)を含むことができる。
【0028】
この実施形態では、サウンド・エミュレータ110が次いで、ロケーション内で体験される音声を、受信情報を使用してエミュレートすることができる。例えば、サウンド・エミュレータ110は、
図2および
図3に関してより詳細に論じるようにして、コンテキスト的に関連した情報を決定し、その関連情報に優先順位をつけ、コンテキスト情報に整合した画像とそれぞれの音声エミュレーションとを生成することによって、音声エミュレーションを生成する。例えば、ユーザは、昼間のロケーションAに対する音声エミュレーションをリクエストすることができる。このシナリオでは、サウンド・エミュレータ110が、昼間のロケーションAにおいてユーザが体験し得る音声を動的に生成およびエミュレートすることができる。任意選択的に、サウンド・エミュレータ110は、その同じユーザが夜間のロケーションAにおけるノイズを体験するために、音声を生成およびエミュレートすることができる。
【0029】
いくつかの実施形態では、サウンド・エミュレータ110がさらに、ロケーションで行われているイベントをシミュレートする1つもしくは複数の画像または一連の画像を生成することができる。例えば、サウンド・エミュレータ110は、1人または数人のユーザを含むお祝い、ゲーム・ナイト、パーティ、ディナーイベントなどのイベントを含む画像および関連音声を生成することができる。この実施形態では、任意選択的に、サウンド・エミュレータ110が、サウンド・カバレージを最適にするために1つまたは複数のユーザ装置を配置するための推奨を生成することができる。例えば、サウンド・エミュレータ110は、ロケーションの受信画像とともに示されたある物体を認識し、認識されたそれらの物体を、サウンド・カバレージを最大化する最適な配置を決定するためのターゲットとすることができる。例えば、ロケーションAは、ロケーションAのロビーに1つまたは複数のスピーカを含むことができる。サウンド・エミュレータ110は、それらのスピーカを認識し、それらのスピーカを、そこにいるユーザの数およびユーザの現在の位置に基づいてスピーカの最適な配置を決定する、最適な配置を計算するためのターゲットとすることができる。
【0030】
他の実施形態では、サウンド・エミュレータ110は、ロケーションに関連した識別された物体(例えばスピーカまたは識別可能な任意の他の音声源)に関連した1つまたは複数のグラフィック・アイコン(graphic icon)を生成することができる。サウンド・エミュレータ110は次いで、仮想または拡張現実インタフェースに表示するために、生成された1つまたは複数のグラフィック・アイコンを表示すること、またはそうでなければ、生成された1つまたは複数のグラフィック・アイコンを、ロケーションを表す画像の上にオーバレイすることができる。上の例を続けると、サウンド・エミュレータ110は、ロケーションに関連した1つもしくは複数のスピーカ(例えば識別された物体)を強調表示するアイコン、またはそうでなければロケーションに関連した1つもしくは複数のスピーカ(例えば識別された物体)にフラグを立てるアイコンを生成することができる。生成されたグラフィック・アイコンをユーザが選択したことに応答して、サウンド・エミュレータ110は、識別された物体に関連した音声を流すことができる。他の実施形態では、サウンド・エミュレータ110は、(生成されたグラフィック・アイコンが選択されたことに応答して)物体配置を最適化する(例えば、物体がスピーカである場合には、そこにいるユーザの数および現在のユーザの位置が与えられた場合にロケーションに対する最適なカバレージを提供するように、スピーカの位置を最適化する)ための選択肢を表示することができる。
【0031】
任意選択的に、サウンド・エミュレータ110は次いで、生成された画像を改良することができる。この実施形態では、サウンド・エミュレータ110は、反復フィードバック・ループを使用して画像を改良することができる。例えば、サウンド・エミュレータ110は、満足であるのか(例えば生成された画像が正確に複製されたのか)、または不満足であるのか(例えば生成された画像が正確には複製されなかったのか)を示すためにユーザからのフィードバックを要請する機構を含むことができる。サウンド・エミュレータ110はさらに、ユーザが感じた生成された画像の正確さに基づくフィードバックを要請することができる。例えば、サウンド・エミュレータ110は、使用された色、使用されたフィルタ、生成されたグラフィック・アイコンなどの正確さに関するフィードバックを要請することができる。他の実施形態では、サウンド・エミュレータ110は、1つまたは複数のIoT装置を利用して、(そのための許可をユーザが与えたときに)ユーザの反応および満足度レベルを収集することができる。
【0032】
この実施形態では、サウンド・エミュレータ110は、ユーザが許容しうるノイズ(例えば音声)のしきいレベルを自動的に生成し、そうでなければ自動的に識別することができる。例えば、この実施形態では、サウンド・エミュレータ110は、それぞれのユーザを識別し、ユーザの好み(例えば年齢層、必要性、視力、音声レベルの好み、色の好み、部屋の音響の好みなど)に基づいてユーザを分類することができる。
【0033】
サウンド・エミュレータ110はさらに、音の減衰を増大または低減させるための推奨を生成するために、ロケーション内に示された検出された物体、および材料(例えば木材タイプ、大理石、エポキシ樹脂、照明、造作、例えばブラインド、カーテン、ACユニット、壁塗料など)の音響属性(acoustic property)(すなわち許容レベル)に索引を付けることができる。例えば、サウンド・エミュレータ110は、特定の材料が、ユーザの好むものとなる反響または残響よりも大きな反響または残響を生み出すものとなることを示す(例えばノイズに対するしきいスコアを満たすかもしくは超えるかまたはその両方である)スコアを生成することができ、続いて、材料を交換しまたはそうでなければ材料を変更してノイズ・レベルを低減させるために、異なる材料を推奨することができる。この実施形態では、サウンド・エミュレータ110は、数字が大きいほど高いノイズ・スコアを示し、数字が小さいほど低いノイズ・スコア(例えば静かなノイズ)を示す数字目盛を利用する。いくつかの例では、サウンド・エミュレータ110はさらに、ノイズ・レベルを低減させるものとなるか、またはそうでなければロケーションをノイズ・レベルの許容可能なしきいスコア内にするものとなるロケーションに対する変更を容易にするために、1つまたは複数の販売業者を推奨することができる。ロケーションが設計中の場合(例えばまだ建築されておらず、物体が備え付けられていない場合)、サウンド・エミュレータ110は、そのロケーションをユーザのノイズ・レベル要求を満たすエリアにするために使用する材料の推奨を生成することができる。
【0034】
いくつかの実施形態では、サウンド・エミュレータ110は、ユーザの健康に影響を及ぼしうる音(例えば音声)をシミュレートし、(ロケーションに入る前に)ユーザが気づくはずの可能な音をユーザに警告することによって、ユーザの健康パラメータを考慮することができる。サウンド・エミュレータ110は、それぞれのユーザの許容度のしきいスコアを満たすものとなる代替ロケーションのユーザに同時に警告することができ、そのロケーションを変更して許容度のしきいスコア(例えばノイズに対するしきいスコア)内のロケーションにするための推奨を生成することができる。
【0035】
データベース112は、受信情報を格納し、サウンド・エミュレータ110のアクセスすることが許された1つもしくは複数のデータベース、または公衆の利用可能なデータベースを表すことができる。一般に、データベース112は、当技術分野で公知の任意の不揮発性記憶媒体を使用して実施することができる。例えば、データベース112は、テープ・ライブラリ、光学ライブラリ、1つまたは複数の独立ハード・ディスク・ドライブ、またはレダンダント・アレイ・オブ・インデペンデント・ディスクス(RAID)内の多数のハード・ディスク・ドライブによって実施することができる。この実施形態では、データベース112がサーバ・コンピュータ108上に格納されている。
【0036】
図2は、本発明の実施形態による、意図されたロケーションまでユーザをナビゲートするための動作ステップを示すフローチャート200である。
【0037】
ステップ202で、サウンド・エミュレータ110は情報を受信する。この実施形態では、サウンド・エミュレータ110は、クライアント・コンピューティング・デバイス102からリクエストを受信する。他の実施形態では、サウンド・エミュレータ110は、コンピューティング環境100の他の1つまたは複数の構成要素から情報を受信することができる。
【0038】
この実施形態では、情報は、ロケーションに対する音声をエミュレートすることを求める(例えばユーザによる)リクエストを含むことができる。このリクエストは、他のコンテキスト情報、ユーザの好み、ロケーション・レイアウトを指定することができるか、または、他の実施形態では、サウンド・エミュレータ110が、コンテキスト情報の他の許可されたデータベース、またはそうでなければ公衆の利用可能なデータベースにアクセスすることができる。ユーザの好みの例は、ある音声ノイズ・レベルに対するユーザの好み(例えば、雨、雷、交通、イヌの鳴き声、近隣ノイズなどのミュートされた屋外音の好むこと)を含むことができる。
【0039】
リクエストはまた、ロケーション・レイアウト、ロケーションに備え付けるために使用される材料、およびロケーション内の物体を含むことができる。例えば、リクエストには、ロケーションが、1500平方フィート(約139平方メートル)から4500平方フィート(約418平方メートル)の単一の家族用住居までの範囲の10の使用可能モデルに600戸を含む近隣であることを含めることができる。
【0040】
ステップ204で、サウンド・エミュレータ110は、受信情報を使用して音声をシミュレートし、1つまたは複数の画像を生成する。この実施形態では、サウンド・エミュレータ110が、意図されたロケーションに関連した既存の画像を参照することができ、1つまたは複数の人工知能アルゴリズムおよび敵対的生成ネットワーク(Generative Adversarial Networks)(GANs)を利用して、コンテキスト情報に基づいて既存の画像を変更するか、または意図されたロケーションの全く新しい画像を生成することができる。サウンド・エミュレータ110は次いで、デジタル・ツインを使用して、受信したそれぞれのロケーションを表現および再現することができる。
【0041】
この実施形態では、
図3に関してより詳細に論じるようにして、コンテキスト情報に優先順位をつけ、コンテキスト情報に整合した音声を生成し、次いで、生成された音声を、ユーザがロケーションを体験することを可能にするインタフェースに表示されるように埋め込むことによって、サウンド・エミュレータ110が、生成された1つまたは複数の画像に対する音をエミュレートすること、またはそうでなければ再現することができる。
【0042】
例えば、ユーザは、物理的ロケーションの仮想現実表示を生成し、物理的ロケーション内で体験される音声をまねた生成された表示内の音声をエミュレートすることを求めるリクエストを送信することができる。サウンド・エミュレータ110は、ユーザが昼間および夜間ビューを好むものとなることを示す情報(例えばコンテキスト情報)を受信することができる。サウンド・エミュレータ110は次いで、ロケーションAが夜間にどのように見えるのかを示すようにロケーションAの昼間ビューを変更することができ、ある音声(すなわちノイズ)がロケーションにおいてどのように聞こえるのかをシミュレートするために、ロケーション内で検出された物体に関連した音声を生成することができる。
【0043】
別の例では、サウンド・エミュレータ110が、雪などのコンテキスト情報を考慮して、新しく積もった雪または除雪された雪によってロケーションおよびロケーションの関連物体がどのように見えるのかを示すように表示された画像を変更すること、ならびに除雪(屋外で生成されたノイズ)がロケーションの内側からどのように聞こえるのかを伴う音声を生成することができる。
【0044】
ステップ206で、サウンド・エミュレータ110は、シミュレートされた音声を含むインタフェースを生成する。この実施形態では、サウンド・エミュレータ110が、生成された画像に関連したシミュレートされた音声を含むインタフェースを生成する。この実施形態では、サウンド・エミュレータ110が、拡張または仮想現実表示を表示するためのインタフェースを生成することができる。サウンド・エミュレータ110は続いて、動的に生成された1つまたは複数の画像および付随するエミュレートされた音声をユーザ装置上に表示することができる。物体(例えば照明された物体、サイン、テキストなど)をよりよく見せるためにサウンド・エミュレータ110が画像を変更した例では、サウンド・エミュレータ110が、元の画像の代わりに生成された画像を使用することができる。識別された物体が音声を含む例では、サウンド・エミュレータ110が、選択されたときに物体に関連した音声を流すことができるグラフィック・アイコンを生成することができる。物体が静止している(例えば屋外に駐車中の自動車である)例では、サウンド・エミュレータ110がアイコンを生成することができ、続いて、生成されたアイコンを物体(例えば駐車中の車)の上にオーバレイして、駐車中の車のエンジン始動ノイズを生成することができる。
【0045】
ステップ208で、サウンド・エミュレータ110は、生成されたインタフェースおよびシミュレートされた音声を改良する。この実施形態では、サウンド・エミュレータ110が、反復的フィードバック・ループを使用して画像を改良することができる。例えば、サウンド・エミュレータ110は、満足であるのか(例えば生成された画像が正確に複製されたのか)、または不満足であるのか(例えば生成された画像が正確には複製されなかったのか)を示すためにユーザからのフィードバックを要請する機構を含むことができる。
図3は、本発明の実施形態による、コンテキスト画像を生成するための動作ステップを示すフローチャート300である。
【0046】
サウンド・エミュレータ110は、特定の時点においてある音をシミュレートすることを求めるユーザ・リクエストに応答して、生成されたインタフェースおよびシミュレートされた音声を改良することができる。例えば、サウンド・エミュレータ110は、ロケーション内から体験される雨によって生成されたノイズをシミュレートすることを求めるリクエストを受信することができる。サウンド・エミュレータ110は続いて、ユーザが物理的にそのロケーションにいる場合に雨がどのように聞こえるのかをまねるため、ロケーションの音響にコンテキスト的に関連した音声を生成することができる。
【0047】
ステップ210で、サウンド・エミュレータ110は推奨を生成する。この実施形態では、サウンド・エミュレータ110が、ユーザ・プロファイルに基づいて推奨を生成することができる。いくつかの実施形態では、サウンド・エミュレータ110は、ノイズ・レベルを最小化するものとなる使用する代替材料を提案することによって(例えば硬材の床または大理石に対してカーペットを提案するなどによって)(例えばノイズしきい値を満たすために)ノイズ・レベルを低減させるという推奨を生成することができるか、または、ノイズ・レベル要件およびユーザのパーソナル・スタイルを満たすものとなる異なる物体(例えば家具)を提案することによってロケーションの外観を変更するという推奨を生成することができる。さらに他の実施形態では、サウンド・エミュレータ110がさらに、さらなる処置を容易にする(例えば低減されたノイズ・レベルを達成する)ために、請負業者を提案することができる。
【0048】
図3は、本発明の実施形態による、音声を生成およびシミュレートするための動作ステップを示すフローチャート300である。
【0049】
ステップ302で、サウンド・エミュレータ110は、コンテキスト情報に優先順位をつける。この実施形態では、サウンド・エミュレータ110が、ユーザの好みに従ってコンテキスト情報に優先順位をつける。例えば、サウンド・エミュレータ110は、ユーザおよび1つまたは複数の音声システムの音声の好みおよび懸念の順位を含むユーザの好みにアクセスすることができる。例えば、サウンド・エミュレータ110は、近隣ノイズ、床のきしみ、およびホーム・エンターテインメント・システムを備える部屋の音響についてのユーザの懸念を識別するために、ユーザの好みにアクセスすることができる。サウンド・エミュレータ110は次いで、拡張または仮想現実インタフェース表示に埋め込まれたサウンド・パッケージの一部として、ユーザの懸念に関連したノイズおよびサウンド・エミュレーションに優先順位をつけることができる。
【0050】
他の実施形態では、サウンド・エミュレータ110が、標準的な音声の好みのリストにアクセスすることができる。例えば、サウンド・エミュレータ110は、それぞれの音声に対するノイズ許容度のしきいレベル(例えば近隣音、交通、きしみ、換気扇ノイズ、ACノイズ、気象ノイズなどのノイズ・レベル)を含むリストにアクセスすることができる。さらに他の実施形態では、サウンド・エミュレータ110が、1つまたは複数の人工知能および機械学習アルゴリズムを使用して、コンテキスト情報の優先順位を決定することができる。
【0051】
ステップ304で、サウンド・エミュレータ110は、コンテキスト情報に整合した画像および音声を生成する。この実施形態では、サウンド・エミュレータ110が、識別されたコンテキスト・ファクタ(contextual factor)を、コンテキスト・ファクタを表示している1つまたは複数の画像に整合させることによって、コンテキスト情報に整合した画像を生成する。例えば、サウンド・エミュレータ110は、ロケーション内の特定の部屋に対する拡張現実または仮想現実表示を生成することを求めるリクエストを受信することができる。サウンド・エミュレータ110は、コンテキスト情報を受信し、続いて受信したコンテキスト情報に優先順位をつけることができる。例えば、サウンド・エミュレータ110が、音を生み出すことができる部屋の物体、および部屋の中にいる間に(ロケーションの外側の)近隣音を聞くことを好むことを詳述したコンテキスト情報を受信する例では、サウンド・エミュレータ110が、音を発することができる1つまたは複数の装置を含む部屋のレイアウトを再現することができ、1つまたは複数の物体から到来する適切な音声を埋め込むことができる。具体的には、サウンド・エミュレータ110がステレオ/スピーカのタイプを識別することができる例では、サウンド・エミュレータ110が、識別されたステレオのタイプを、ステレオ/スピーカによって発せられる音声に整合させることができる。サウンド・エミュレータ110は次いで、生成された音声を、部屋の音響に整合するように修正することができる(例えば、サウンド・エミュレータ110は次いで、ステレオから発せられた音を、部屋の中の家具、床に使用されている材料のタイプ、壁の材料、例えば壁紙、塗料、断熱材、窓のタイプなどを考慮するように修正することができる)。ロケーションの周囲の保存された音声(例えば雨滴、風、近隣ノイズ)が存在する例では、サウンド・エミュレータ110が、保存された音声を取り出し、保存された音声を拡張または仮想現実表示に埋め込むことができる。保存された音声がない例では、サウンド・エミュレータ110が、ストックまたはデフォルト・ノイズを取り出して、それらのノイズをシミュレートし、生成されたノイズとロケーションに関連した材料との相互作用をシミュレートすることができる。
【0052】
サウンド・エミュレータ110が前もって部屋のレイアウトを受信しない例では、サウンド・エミュレータ110が、ロケーションのピクチャに示された物体を、物体認識アルゴリズムを使用して識別することができ、拡張または仮想現実表示の中に対応する画像を生成することができる。サウンド・エミュレータ110は次いで、1つまたは複数の人工知能アルゴリズムおよび敵対的生成ネットワーク(GANs)を利用することによって1つまたは複数の画像を生成することができる。例えば、ロケーションの夜間画像が見つからない場合、サウンド・エミュレータ110は、ロケーションの夜間環境をまねるために1つまたは複数のフィルタを適用することができ、続いて、物体(例えば照明された物体、サイン、テキストなど)をよりよく見せるように画像を変更することができる。
【0053】
いくつかの実施形態では、サウンド・エミュレータ110が、生成された画像をコンテキスト情報に基づいて変更することができる。例えば、サウンド・エミュレータ110は、ロケーションの物理レイアウトに整合した、またはそうでなければロケーションの物理レイアウトに対応する生成された画像を、ロケーションの昼間および夜間ビューを表示するように変更することができる。いくつかの例では、サウンド・エミュレータ110が、コンテキスト情報に基づいて、ロケーションの調度品を変更することができる。例えば、サウンド・エミュレータ110が、ミッドセンチュリー・モダン(midcentury modern)の調度品で飾られた物理的な部屋の調度品をまねた場合、サウンド・エミュレータ110は、現代的調度品が備え付けられているように部屋の表示を変更することができる。他の実施形態では、サウンド・エミュレータ110が、現代風、スカンジナビア風、田舎風、ボヘミア風などのような他のスタイルの調度品を変更することができる。
【0054】
サウンド・エミュレータ110はさらに、そのロケーションの異なるイベントをシミュレートするように、生成された画像を変更することができる。本明細書で使用されるとき、イベントは、計画されたまたは計画されてない一連の活動および集まりのことを指す。例えば、サウンド・エミュレータ110は、誕生祝い、ディナー、ナイト・ゲーム、ムーブ・ナイトなどをシミュレートするように、ロケーション(例えば部屋)の生成された画像を変更することができる。いくつかの例では、サウンド・エミュレータ110が、そのロケーションにおけるユーザの交流をシミュレートし、生成された画像に関連した音声を適切にエミュレートするために(例えば、部屋の中の多数のユーザの音声をエミュレートするため、および1つまたは複数の装置から発している音声をエミュレートするために)、1人または数人のユーザの画像を生成することができる。
【0055】
ステップ306で、サウンド・エミュレータ110は、生成された画像および音声をインタフェース上に表示する。この実施形態では、サウンド・エミュレータ110が、生成された画像を表示し、生成された画像に関連した生成された音声を拡張現実または仮想現実装置上に埋め込む。他の実施形態では、サウンド・エミュレータ110が、生成された画像および音声をディスプレイ・スクリーン上に表示し、関連する音声を、ユーザのスピーカを使用して流すことができる。
【0056】
図4は、本発明の実施形態による、
図1のコンピューティング環境100内のコンピューティング・システムの構成要素のブロック図を示している。
図4は、一実施態様を示しているだけであり、異なる実施形態を実施することができる環境に関する限定を暗示するものではないことを理解すべきである。図示の環境に対する多くの修正を実施することができる。
【0057】
本明細書に記載されたプログラムは、本発明の特定の実施形態においてそれらのプログラムが実施されるアプリケーションに基づいて識別される。しかしながら、本明細書における任意の特定のプログラム名は単に便宜的に使用されているだけであること、したがって、本発明を、そのような名称によって識別もしくは暗示される特定のアプリケーションまたはそのような名称によって識別および暗示される特定のアプリケーションで使用することだけに限定すべきでないことを理解すべきである。
【0058】
コンピューティング・システム400は、キャッシュ416、メモリ406、永続性記憶装置408、通信ユニット412および入力/出力(I/O)インタフェース414間の通信を提供する通信ファブリック402を含む。通信ファブリック402は、プロセッサ(例えばマイクロプロセッサ、通信プロセッサおよびネットワーク・プロセッサなど)、システム・メモリ、周辺装置およびシステム内の任意の他のハードウェア構成要素間でデータをやり取りするかもしくは情報を制御するかまたはその両方を実行するように設計された任意のアーキテクチャによって実装することができる。例えば、通信ファブリック402は、1つまたは複数のバスまたはクロスバー・スイッチによって実装することができる。
【0059】
メモリ406および永続性記憶装置408はコンピュータ可読記憶媒体である。この実施形態では、メモリ406がランダム・アクセス・メモリ(RAM)を含む。一般に、メモリ406は、任意の適切な揮発性または不揮発性のコンピュータ可読記憶媒体を含むことができる。キャッシュ416は、メモリ406から最近アクセスされたデータおよびほぼ最近にアクセスされたデータを保持することによってコンピュータ・プロセッサ404の性能を強化する高速メモリを含むことができる。
【0060】
サウンド・エミュレータ110(図示せず)は、それぞれのコンピュータ・プロセッサ404の1つまたは複数によってキャッシュ416を介して実行するために、永続性記憶装置408およびメモリ406に記憶することができる。一実施形態では、永続性記憶装置408は磁気ハード・ディスク・ドライブを含む。磁気ハード・ディスク・ドライブの代わりに、または磁気ハード・ディスク・ドライブに加えて、永続性記憶装置408は、ソリッド・ステート・ハード・ドライブ、半導体記憶装置、リード・オンリー・メモリ(ROM)、消去可能なプログラマブル・リード・オンリー・メモリ(EPROM)、フラッシュ・メモリ、またはプログラム命令もしくはデジタル情報を記憶することができる任意の他のコンピュータ可読記憶媒体を含むことができる。
【0061】
永続性記憶装置408によって使用される媒体は取外し可能とすることもできる。例えば、永続性記憶装置408に対して取外し可能なハード・ドライブを使用することができる。他の例には、やはり永続性記憶装置408の部分である別のコンピュータ可読記憶媒体に転送するためにドライブに挿入された光および磁気ディスク、サム・ドライブ(thumb drive)ならびにスマート・カードが含まれる。
【0062】
これらの例では、通信ユニット412が、他のデータ処理システムまたは装置との通信を提供する。これらの例では、通信ユニット412が1つまたは複数のネットワーク・インタフェース・カードを含む。通信ユニット412は、物理通信リンクと無線通信リンクのどちらか一方または両方を使用することによって通信を提供することができる。サウンド・エミュレータ110は、通信ユニット412を通して永続性記憶装置408にダウンロードすることができる。
【0063】
I/Oインタフェース414は、クライアント・コンピューティング・デバイスもしくはサーバ・コンピュータまたはその両方に接続されたものとすることができる他の装置とのデータの入出力を可能にする。例えば、I/Oインタフェース414は、キーボード、キーパッド、タッチ・スクリーンもしくは他の適切ないくつかの入力装置またはこれらの組合せなどの外部装置420への接続を提供することができる。外部装置420はまた、例えばサム・ドライブ、ポータブル光または磁気ディスクおよびメモリ・カードなどのポータブル・コンピュータ可読記憶媒体を含むことができる。本発明の実施形態を実施するために使用されるソフトウェアおよびデータ、例えばサウンド・エミュレータ110を、このようなポータブル・コンピュータ可読記憶媒体に記憶することができ、I/Oインタフェース414を介して永続性記憶装置408にロードすることができる。I/Oインタフェース414はディスプレイ422にも接続する。
【0064】
ディスプレイ422は、データをユーザに対して表示する機構を提供し、例えばコンピュータ・モニタとすることができる。
【0065】
本発明は、システム、方法もしくはコンピュータ・プログラム製品、またはこれらの組合せであることがある。このコンピュータ・プログラム製品は、本発明の態様をプロセッサに実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読記憶媒体を含むことがある。
【0066】
このコンピュータ可読記憶媒体は、命令実行装置が使用するための命令を保持および記憶することができる任意の有形の装置とすることができる。このコンピュータ可読記憶媒体は例えば、限定はされないが、電子記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置またはこれらの任意の適切な組合せとすることができる。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストは、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、リード・オンリー・メモリ(ROM)、消去可能なプログラマブル・リード・オンリー・メモリ(EPROMまたはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク・リード・オンリー・メモリ(CD-ROM)、デジタル・バーサタイル・ディスク(DVD)、メモリ・スティック、フロッピー・ディスク、機械的にコード化された装置、例えばパンチカードまたはその上に命令が記録された溝の中の一段高くなった構造体、およびこれらの任意の適切な組合せを含む。本明細書で使用されるとき、コンピュータ可読記憶媒体は、それ自体が一過性の信号、例えば電波もしくは他の自由に伝搬する電磁波、ウェーブガイドもしくは他の伝送体内を伝搬する電磁波(例えば光ファイバ・ケーブル内を通る光パルス)、または電線を通して伝送される電気信号であると解釈されるべきではない。
【0067】
本明細書に記載されたコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理装置にダウンロードすることができ、またはネットワーク、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワークもしくは無線ネットワークまたはこれらの組合せを介して外部コンピュータもしくは外部記憶装置にダウンロードすることができる。このネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータもしくはエッジ・サーバ、またはこれらの組合せを含むことができる。それぞれのコンピューティング/処理装置内のネットワーク・アダプタ・カードまたはネットワーク・インタフェースは、コンピュータ可読プログラム命令をネットワークから受信し、それらのコンピュータ可読プログラム命令を、それぞれのコンピューティング/処理装置内のコンピュータ可読記憶媒体に記憶するために転送する。
【0068】
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、もしくは状態設定データであってもよく、またはSmalltalk、C++などのオブジェクト指向プログラミング言語、および「C」プログラミング言語または同種のプログラミング言語などの従来の手続き型プログラミング言語を含む、1つまたは複数のプログラミング言語の任意の組合せで書かれた、ソース・コードもしくはオブジェクト・コードであってもよい。このコンピュータ可読プログラム命令は、全体がユーザのコンピュータ上で実行されてもよく、一部がユーザのコンピュータ上で実行されてもよく、独立型ソフトウェア・パッケージとして実行されてもよく、一部がユーザのコンピュータ上で、一部がリモート・コンピュータ上で実行されてもよく、または全体がリモート・コンピュータもしくはリモート・サーバ上で実行されてもよい。上記の最後のシナリオでは、リモート・コンピュータが、ローカル・エリア・ネットワーク(LAN)もしくはワイド・エリア・ネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよく、またはこの接続が、外部コンピュータに対して(例えばインターネット・サービス・プロバイダを使用してインターネットを介して)行われてもよい。いくつかの実施形態では、本発明の態様を実施するために、例えばプログラム可能論理回路、フィールドプログラマブル・ゲート・アレイ(FPGA)またはプログラム可能論理アレイ(PLA)を含む電子回路が、このコンピュータ可読プログラム命令の状態情報を利用してその電子回路をパーソナライズすることにより、このコンピュータ可読プログラム命令を実行してもよい。
【0069】
本明細書では、本発明の態様が、本発明の実施形態による方法、装置(システム)およびコンピュータ・プログラム製品のフローチャート図もしくはブロック図またはその両方の図を参照して説明される。それらのフローチャート図もしくはブロック図またはその両方の図のそれぞれのブロック、およびそれらのフローチャート図もしくはブロック図またはその両方の図のブロックの組合せは、コンピュータ可読プログラム命令によって実施することができることが理解される。
【0070】
これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラム可能データ処理装置のプロセッサによって実行されるこれらの命令が、フローチャートもしくはブロック図またはその両方の図の1つまたは複数のブロックに指定された機能/動作を実施する手段を生成するように、汎用コンピュータ、専用コンピュータ、または他のプログラム可能データ処理装置のプロセッサに提供されて機械を作り出すものであってよい。これらのコンピュータ可読プログラム命令はまた、その中に命令が記憶されたコンピュータ可読記憶媒体が、フローチャートもしくはブロック図またはその両方の図の1つまたは複数のブロックに指定された機能/動作の態様を実施する命令を含む製品を含むように、コンピュータ可読記憶媒体に記憶され、コンピュータ、プログラム可能データ処理装置もしくは他の装置またはこれらの組合せに特定の方式で機能するように指示するものであってもよい。
【0071】
コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラム可能装置または他の装置上で実施されるこれらの命令が、フローチャートもしくはブロック図またはその両方の図の1つまたは複数のブロックに指定された機能/動作を実施するように、コンピュータによって実施されるプロセスを生み出すために、コンピュータ、他のプログラム可能データ処理装置または他の装置上にロードされ、コンピュータ、他のプログラム可能装置または他の装置上で一連の動作ステップを実行させるものであってもよい。
【0072】
図中のフローチャートおよびブロック図は、本発明のさまざまな実施形態によるシステム、方法およびコンピュータ・プログラム製品の可能な実施態様のアーキテクチャ、機能および動作を示す。この点に関して、それらのフローチャートまたはブロック図のそれぞれのブロックは、指定された論理機能を実施する1つまたは複数の実行可能命令を含む、命令のモジュール、セグメントまたは部分を表すことがある。いくつかの代替的な実施態様では、ブロックに示された機能を、図に示された順序とは異なる順序で実行することができる。例えば、連続して示された2つのブロックが、実際は、実質的に同時に実行されること、または含まれる機能によってはそれらのブロックが時に逆の順序で実行されることもある。それらのブロック図もしくはフローチャート図またはその両方の図のそれぞれのブロック、ならびにそれらのブロック図もしくはフローチャート図またはその両方の図のブロックの組合せを、指定された機能もしくは動作を実行しまたは専用ハードウェアとコンピュータ命令の組合せを実施するハードウェアベースの専用システムによって実施することができることにも留意すべきである。
【0073】
本発明のさまざまな実施形態の説明は例示のために示したものであり、説明が網羅的であること、または、開示された実施形態だけに限定されることは意図されていない。当業者には、本発明の範囲を逸脱しない多くの修正および変形が明らかとなろう。本明細書で使用した用語は、実施形態の原理、実用的用途、もしくは市販されている技術にはない技術的改善点を最もよく説明するように、または本明細書に開示された実施形態を当業者が理解できるように選択した。
【手続補正書】
【提出日】2023-05-09
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
ロケーションに関連した1つまたは複数の画像に対する音声を、リクエストを満たすコンテキスト情報に基づいて動的に生成すること、
生成された前記音声を前記1つまたは複数の画像に埋め込むこと、および
埋め込まれた前記音声と一緒に前記1つまたは複数の画像をユーザ装置上に表示すること
を含む
、コンピュータ実装方法。
【請求項2】
任意選択的に、前記1つまたは複数の画像を改良すること
をさらに含む、請求項1に記載のコンピュータ実装方法。
【請求項3】
ロケーションに関連した1つまたは複数の画像に対する音声を、リクエストを満たすコンテキスト情報に基づいて動的に生成することが、
前記ロケーションに関連したコンテキスト情報に優先順位をつけること、
前記コンテキスト情報に整合した1つまたは複数の画像を生成すること、および
前記コンテキスト情報に整合した生成された前記1つまたは複数の画像に関連した音声を生成すること
を含む、請求項1
または2に記載のコンピュータ実装方法。
【請求項4】
識別された複数の物体のうちの少なくとも1つの物体をコンテキスト情報に基づいて変更すること
をさらに含む、請求項3に記載のコンピュータ実装方法。
【請求項5】
前記識別された複数の物体のうちの識別されたそれぞれの物体の音響属性に基づいて、前記識別された複数の物体に索引を付けること
をさらに含む、請求項4に記載のコンピュータ実装方法。
【請求項6】
生成された前記1つまたは複数の画像上にオーバレイする、前記複数の物体のうちの少なくとも1つの物体を表す1つまたは複数のグラフィック・アイコンを生成すること、
前記ユーザ装置上に表示された生成された前記1つまたは複数の画像のうちの生成された画像の上に、生成された前記少なくとも1つまたは複数のグラフィック・アイコンをオーバレイすること、および
生成された前記1つまたは複数のグラフィック・アイコンのうちの生成された少なくとも1つのグラフィック・アイコンを選択したことに応答して、前記複数の物体のうちのそれぞれの物体に関連した音声を流すこと
をさらに含む、請求項4
または5に記載のコンピュータ実装方法。
【請求項7】
前記1つまたは複数の画像のうちのそれぞれの画像の中に示された物体に関連したノイズ・レベルを示すスコアを生成すること、および
生成された前記スコアが前記ノイズ・レベルに対するしきいスコアを満たしていることまたは超えていることに応答して、前記物体の音響属性を変更する動作を推奨すること
をさらに含む、請求項1
~6のいずれか1項に記載のコンピュータ実装方法。
【請求項8】
請求項1~7のいずれか1項に記載の方法をコンピュータ・システムに実行させるためのコンピュータ実行可能なプログラム。
【請求項9】
請求項8に記載のコンピュータ実行可能なプログラムを格納した、コンピュータ可読な記憶媒体。
【請求項10】
ロケーションに関連した1つまたは複数の画像に対する音声を、リクエストを満たすコンテキスト情報に基づいて動的に生成する
手段と、
生成された前記音声を前記1つまたは複数の画像に埋め込む
手段と、
埋め込まれた前記音声と一緒に前記1つまたは複数の画像をユーザ装置上に表示する
手段と
を含む、コンピュータ・システム。
【請求項11】
任意選択的に、前記1つまたは複数の画像を改良する
手段
をさらに含む、請求項
10に記載のコンピュータ・システム。
【請求項12】
ロケーションに関連した1つまたは複数の画像に対する音声を、リクエストを満たすコンテキスト情報に基づいて動的に生成する前記
手段が、
前記ロケーションに関連したコンテキスト情報に優先順位をつける
手段と、
前記コンテキスト情報に整合した1つまたは複数の画像を生成する
手段と、
前記コンテキスト情報に整合した生成された前記1つまたは複数の画像に関連した音声を生成する
手段と
を含む、請求項
10または11に記載のコンピュータ・システム。
【請求項13】
識別された複数の物体のうちの少なくとも1つの物体をコンテキスト情報に基づいて変更する
手段
をさらに含む、請求項
12に記載のコンピュータ・システム。
【請求項14】
前記識別された複数の物体のうちの識別されたそれぞれの物体の音響属性に基づいて、前記識別された複数の物体に索引を付ける
手段
をさらに含む、請求項13に記載のコンピュータ・システム。
【請求項15】
前記1つまたは複数のコンピュータ可読記憶媒体上に記憶された前記手段が、
生成された前記1つまたは複数の画像上にオーバレイする、前記複数の物体のうちの少なくとも1つの物体を表す1つまたは複数のグラフィック・アイコンを生成する
手段と、
前記ユーザ装置上に表示された生成された前記1つまたは複数の画像のうちの生成された画像の上に、生成された前記少なくとも1つまたは複数のグラフィック・アイコンをオーバレイする
手段と、
生成された前記1つまたは複数のグラフィック・アイコンのうちの生成された少なくとも1つのグラフィック・アイコンを選択したことに応答して、前記複数の物体のうちのそれぞれの物体に関連した音声を流す
手段と
をさらに含む、請求項
13に記載のコンピュータ・システム。
【国際調査報告】