IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

<>
  • 特開-情報処理方法及び情報処理装置 図1
  • 特開-情報処理方法及び情報処理装置 図2
  • 特開-情報処理方法及び情報処理装置 図3
  • 特開-情報処理方法及び情報処理装置 図4
  • 特開-情報処理方法及び情報処理装置 図5
  • 特開-情報処理方法及び情報処理装置 図6
  • 特開-情報処理方法及び情報処理装置 図7
  • 特開-情報処理方法及び情報処理装置 図8
  • 特開-情報処理方法及び情報処理装置 図9
  • 特開-情報処理方法及び情報処理装置 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023137765
(43)【公開日】2023-09-29
(54)【発明の名称】情報処理方法及び情報処理装置
(51)【国際特許分類】
   H04R 3/00 20060101AFI20230922BHJP
   G06T 19/00 20110101ALI20230922BHJP
【FI】
H04R3/00 310
G06T19/00 600
【審査請求】未請求
【請求項の数】20
【出願形態】OL
(21)【出願番号】P 2022044126
(22)【出願日】2022-03-18
(71)【出願人】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110000970
【氏名又は名称】弁理士法人 楓国際特許事務所
(72)【発明者】
【氏名】松下 純也
(72)【発明者】
【氏名】末光 祐希
【テーマコード(参考)】
5B050
5D220
【Fターム(参考)】
5B050BA09
5B050CA07
5B050DA04
5B050EA07
5B050EA13
5B050EA19
5B050FA05
5D220AB06
(57)【要約】
【課題】 ユーザが、スピーカ等の音響機器から出力されるビームの方向を視覚的に認識することが出来る情報処理方法を提供することを目的とする。
【解決手段】 一実施形態に係る情報処理方法は、所定空間内における天井面、壁面、又は、床面の位置を示す第1位置情報と、所定空間内における、音声ビームを出力する音響機器の位置を示す第2位置情報と、音響機器から出力される前記音声ビームの方向を示す方向情報と、を取得し、取得した第1位置情報、第2位置情報及び方向情報に基づいて音響機器から出力される音声ビームの軌跡を計算し、計算の結果に基づいて音声ビームの軌跡を示す音声ビーム画像を生成する。
【選択図】 図4
【特許請求の範囲】
【請求項1】
所定空間内における天井面、壁面、又は、床面の位置を示す第1位置情報と、
前記所定空間内における、音声ビームを出力する音響機器の位置を示す第2位置情報と、
前記音響機器から出力される前記音声ビームの方向を示す方向情報と、
を取得し、
取得した前記第1位置情報、前記第2位置情報及び前記方向情報に基づいて前記音響機器から出力される前記音声ビームの軌跡を計算し、
前記計算の結果に基づいて前記音声ビームの軌跡を示す音声ビーム画像を生成する、
情報処理方法。
【請求項2】
前記第1位置情報、前記第2位置情報及び前記方向情報に基づいて、前記天井面、前記壁面、又は、前記床面において前記音声ビームが反射する位置及び反射後の前記音声ビームの軌跡を計算し、
前記音声ビーム画像は、反射後の前記音声ビームの軌跡を示す反射画像を含む、
請求項1に記載の情報処理方法。
【請求項3】
前記天井面、前記壁面、又は、前記床面の特性を示す特性情報を取得し、
前記特性情報に基づいて前記反射画像を変化させる、
請求項2に記載の情報処理方法。
【請求項4】
前記所定空間は、前記天井面、壁面、及び、前記床面で構成される閉じた空間である、
請求項1から請求項3のいずれかに記載の情報処理方法。
【請求項5】
前記天井面、前記壁面、又は、前記床面を撮影した第1画像データを取得し、
前記第1画像データから前記天井面、前記壁面、又は前記床面を認識する第1画像処理を行い、
前記第1画像処理の結果に基づいて前記第1位置情報を取得する、
請求項1から請求項4のいずれかに記載の情報処理方法。
【請求項6】
前記音響機器を撮影した第2画像データを取得し、
前記第2画像データから前記音響機器を認識する第2画像処理を行い、
前記第2画像処理の結果に基づいて前記第2位置情報を取得する、
請求項1から請求項5のいずれかに記載の情報処理方法。
【請求項7】
カメラで撮影したカメラ画像データを取得し、
前記カメラ画像データから表示用画像を生成し、
前記表示用画像に前記音声ビーム画像を重畳する処理を行い、
前記音声ビーム画像を重畳した前記表示用画像を出力する、
請求項1から請求項6のいずれかに記載の情報処理方法。
【請求項8】
ユーザ位置を示すユーザ位置情報を取得し、
取得した前記第1位置情報、前記第2位置情報、前記方向情報及び前記ユーザ位置情報に基づいて前記音響機器から出力される前記音声ビームの軌跡を計算する、
請求項1から請求項7のいずれかに記載の情報処理方法。
【請求項9】
前記音声ビームのチャンネル、前記音声ビームの音量、又は、前記音声ビームの周波数特性の少なくとも1つに基づいて、前記音声ビーム画像を変化させる、
請求項1から請求項8のいずれかに記載の情報処理方法。
【請求項10】
第1の装置が、前記第1位置情報、前記第2位置情報及び前記方向情報を取得して、前記音声ビームの軌跡を計算して、前記音声ビーム画像を生成し、
第2の装置が、前記第1の装置で生成した前記音声ビーム画像を取得して、取得した前記音声ビーム画像を表示器に表示する、
請求項1から請求項9のいずれかに記載の情報処理方法。
【請求項11】
所定空間内における天井面、壁面、又は、床面の位置を示す第1位置情報と、
前記所定空間内における、音声ビームを出力する音響機器の位置を示す第2位置情報と、
前記音響機器から出力される前記音声ビームの方向を示す方向情報と、
を取得する取得部と、
取得した前記第1位置情報、前記第2位置情報及び前記方向情報に基づいて前記音響機器から出力される前記音声ビームの軌跡を計算する計算部と、
前記計算の結果に基づいて前記音声ビームの軌跡を示す音声ビーム画像を生成する生成部と、
を備えている
情報処理装置。
【請求項12】
前記計算部は、前記第1位置情報、前記第2位置情報及び前記方向情報に基づいて、前記天井面、前記壁面、又は、前記床面において前記音声ビームが反射する位置及び反射後の前記音声ビームの軌跡を計算し、
前記音声ビーム画像は、反射後の前記音声ビームの軌跡を示す反射画像を含む、
請求項11に記載の情報処理装置。
【請求項13】
前記計算部は、前記天井面、前記壁面、又は、前記床面の特性を示す特性情報をさらに取得し、
前記生成部は、前記特性情報に基づいて前記反射画像を変化させる、
請求項12に記載の情報処理装置。
【請求項14】
前記所定空間は、前記天井面、壁面、及び、前記床面で構成される閉じた空間である、
請求項11から請求項13のいずれかに記載の情報処理装置。
【請求項15】
前記取得部は、
前記天井面、前記壁面、又は、前記床面を撮影した第1画像データを取得し、
前記第1画像データから前記天井面、前記壁面、又は前記床面を認識する第1画像処理を行い、
前記第1画像処理の結果に基づいて前記第1位置情報を取得する、
請求項11から請求項14のいずれかに記載の情報処理装置。
【請求項16】
前記取得部は、
前記音響機器を撮影した第2画像データを取得し、
前記第2画像データから前記音響機器を認識する第2画像処理を行い
前記第2画像処理の結果に基づいて前記第2位置情報を取得する、
請求項11から請求項15のいずれかに記載の情報処理装置。
【請求項17】
前記取得部は、カメラで撮影したカメラ画像データを取得し、
前記生成部は、
前記カメラ画像データから表示用画像を生成し、
前記表示用画像に前記音声ビーム画像を重畳する処理を行い、
前記音声ビーム画像を重畳した前記表示用画像を出力する、
請求項11から請求項16のいずれかに記載の情報処理装置。
【請求項18】
前記取得部は、ユーザ位置を示すユーザ位置情報を取得し、
前記計算部は、取得した前記第1位置情報、前記第2位置情報、前記方向情報及び前記ユーザ位置情報に基づいて前記音響機器から出力される前記音声ビームの軌跡を計算する、
請求項11から請求項17のいずれかに記載の情報処理装置。
【請求項19】
前記生成部は、前記音声ビームのチャンネル、前記音声ビームの音量、又は、前記音声ビームの周波数特性の少なくとも1つに基づいて、前記音声ビーム画像を変化させる、
請求項11から請求項18のいずれかに記載の情報処理装置。
【請求項20】
前記情報処理装置とは異なる装置が、前記第1位置情報、前記第2位置情報及び前記方向情報を取得して、前記音声ビームの軌跡を計算して、前記音声ビーム画像を生成し、
前記情報処理装置が、前記情報処理装置とは異なる装置で生成した前記音声ビーム画像を取得して、
取得した前記音声ビーム画像を表示器に表示する、
請求項11から請求項19のいずれかに記載の情報処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
この発明に係る一実施形態は、情報処理方法及び情報処理装置に関する。
【背景技術】
【0002】
特許文献1には、音響空間の画像を取得する音処理装置が記載されている。音処理装置は、音響空間の画像から平面及び仮想スピーカを設定する。音処理装置は仮想スピーカの特性から音圧分布を算出し、当該音圧分布を平面に重ね合わせた画像を生成する。
【0003】
特許文献2には、スピーカ装置とリモコンとが記載されている。スピーカ装置は、リモコンの位置を測定する。スピーカ装置は、リモコンの位置に音声ビームを向ける。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】国際公開第2021/241421号
【特許文献2】特開2008-035251号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ユーザは、スピーカ等の音響機器から出力される音声ビームの方向を視覚的に認識出来ない。
【0006】
本発明の一実施形態は、ユーザが、スピーカ等の音響機器から出力される音声ビームの方向を視覚的に認識することが出来る情報処理方法を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の一実施形態に係る情報処理方法は、
所定空間内における天井面、壁面、又は、床面の位置を示す第1位置情報と、
所定空間内における、音声ビームを出力する音響機器の位置を示す第2位置情報と、
音響機器から出力される前記音声ビームの方向を示す方向情報と、
を取得し、
取得した第1位置情報、第2位置情報及び方向情報に基づいて音響機器から出力される音声ビームの軌跡を計算し、
計算の結果に基づいて音声ビームの軌跡を示す音声ビーム画像を生成する。
【発明の効果】
【0008】
この発明の一実施形態に係る情報処理方法によれば、ユーザが、スピーカから出力される音声ビームの方向を視覚的に認識することが出来る
【図面の簡単な説明】
【0009】
図1図1は、MRゴーグル1とスピーカ2との接続の一例を示すブロック図である。
図2図2は、MRゴーグル1の構成の一例を示すブロック図である。
図3図3は、スピーカ2の構成の一例を示すブロック図である。
図4図4は、空間Spにおいて出力された音声ビームB1を示す斜視図である。
図5図5は、空間Spの平面図である。
図6図6は、スピーカ2を基準としたX’軸、Y’軸及びZ’軸における音声ビームB1の角度θ及び角度φの一例を示す斜視図である。
図7図7は、プロセッサ13の機能的構成を示す図である。
図8図8は、MRゴーグル1の処理の一例を示すフローチャートである。
図9図9は、空間Spにおいて出力された音声ビームB1及び音声ビームB2を示す図である。
図10図10は、MRゴーグル1とは別の撮影用カメラで撮影したスピーカ2、天井面CS、壁面WS及び床面FSの画像を示す図である。
【発明を実施するための形態】
【0010】
(第1実施形態)
以下、第1実施形態に係る情報処理方法を実行するMR(Mixed Reality)ゴーグル1について図を参照して説明する。図1は、MRゴーグル1とスピーカ2との接続の一例を示すブロック図である。図2は、MRゴーグル1の構成の一例を示すブロック図である。図3は、スピーカ2の構成の一例を示すブロック図である。図4は、空間Spにおいて出力された音声ビームB1を示す斜視図である。
【0011】
MRゴーグル1は、情報処理装置の一例である。MRゴーグル1を装着したユーザは、MRゴーグル1を介して現実空間を視認しつつ、MRゴーグル1に表示されている画像を視認することが出来る。
【0012】
図1に示すように、MRゴーグル1は、スピーカ2(音響機器の一例)と接続されている。具体的には、MRゴーグル1は、スピーカ2と、Bluetooth(登録商標)、又は、Wi-Fi(登録商標)等の無線によって接続されている。なお、MRゴーグル1は、必ずしも無線によってスピーカ2と接続されていなくてよい。MRゴーグル1は、有線によってスピーカ2と接続されていてもよい。なお、MRゴーグル1は、スピーカ2に加えてスピーカ2以外の機器(例えば、PC、スマートホン等)と接続されていてもよい。
【0013】
図2に示すように、MRゴーグル1は、通信インタフェース10、フラッシュメモリ11、RAM(Random Access Memory)12、プロセッサ13、表示器14及びセンサ15を備えている。プロセッサ13は、例えば、CPU(Central Processing Unit)、又は、GPU(Graphical Processing Unit)等である。
【0014】
通信インタフェース10は、ネットワークインタフェース等である。通信インタフェース10は、例えば、Wi-Fi(登録商標)、Bluetooth(登録商標)等の無線によってスピーカ2と通信を行う。
【0015】
フラッシュメモリ11は、種々のプログラムを記憶する。種々のプログラムとは、例えば、MRゴーグル1を動作させるプログラム等である。
【0016】
RAM12は、フラッシュメモリ11に記憶された所定のプログラムを一時的に記憶する。
【0017】
プロセッサ13は、フラッシュメモリ11に記憶された所定のプログラムをRAM12に読み出すことによって、種々の処理を実行する。なお、プロセッサ13は、必ずしもフラッシュメモリ11に記憶されたプログラムを実行しなくてもよい。プロセッサ13は、例えば、通信インタフェース10を介して、MRゴーグル1の外部の機器(例えば、サーバー等)からプログラムをダウンロードし、ダウンロードしたプログラムをRAM12に読み出してもよい。
【0018】
表示器14は、プロセッサ13の動作に基づいて種々の情報を表示する。本実施形態において、MRゴーグル1の表示器14は、例えば、ハーフミラー及び発光素子を含んでいる有機ELディスプレイである。ユーザは、ハーフミラーにおいて反射した表示内容(画像等)を見ることが出来る。ハーフミラーは、ユーザの前方から入射する光を透過する。従って、ユーザは、ハーフミラーを介して現実空間を視認することも出来る。
【0019】
センサ15は、MRゴーグル1の周囲の環境をセンシングし、データとして取得する。本実施形態において、MRゴーグル1は、図4に示すように、天井面CS、壁面WS及び床面FSで構成される閉じた空間Sp内に居るユーザが身に着けている。センサ15は、天井面CS、壁面WS及び床面FSとの相対的な位置を示す位置情報をセンシングし、データとして取得する。本実施形態において、センサ15は、例えば、ステレオカメラである。ステレオカメラは、MRゴーグル1の周囲を撮影することによって画像データDDを取得する。ステレオカメラは、天井面CS、壁面WS及び床面FSを撮影する。ステレオカメラは、天井面CS、壁面WS及び床面FSが撮像された画像データDDを取得する。
【0020】
また、図4に示すように、本実施形態において、スピーカ2は、空間Spを構成する天井面CSに配置されている。センサ15は、スピーカ2との相対位置を示す位置情報をセンシングし、データとして取得する。具体的には、センサ15の一例であるステレオカメラは、天井面CS、壁面WS及び床面FSに加えて、スピーカ2を撮影する。従って、ステレオカメラは、天井面CS、壁面WS及び床面FS及びスピーカ2が撮像された画像データDDを取得する。
【0021】
なお、センサ15は、必ずしもステレオカメラでなくてもよい。センサ15は、例えば、LiDAR(Light Detection And Ranging)等であってもよい。LiDARは、レーザ光を照射してから物体(スピーカ2、天井面CS、壁面WS又は床面FS)において反射したレーザ光を検出するまでの時間を取得することで、物体との距離を測定する。
【0022】
スピーカ2は、音信号に基づいた音声を出力する。スピーカ2は、指向性を有する音声ビームB1を出力する(図4参照)。スピーカ2は、図3に示すように、通信インタフェース20、ユーザインタフェース21、フラッシュメモリ22、RAM23、オーディオインタフェース24、プロセッサ25、複数のDAコンバータ26、複数のアンプ27及び複数のスピーカユニット28を備えている。なお、図3に示す例では、複数のDAコンバータ26の内の3個のDAコンバータ26にのみ符号を付して記載している。図3に示す例では、複数のアンプ27の内の3個のアンプ27にのみ符号を付して記載している。図3に示す例では、複数のスピーカユニット28の内の3個のスピーカユニット28にのみ符号を付して記載している。DAコンバータ26、アンプ27、及びスピーカユニット28の数は3つではなく、さらに多数存在する。DAコンバータ26、アンプ27、及びスピーカユニット28の数は限定されない。
【0023】
通信インタフェース20は、ネットワークインタフェース等である。通信インタフェース20は、例えば、Wi-Fi(登録商標)、Bluetooth(登録商標)等の無線又は有線によってMRゴーグル1と通信を行う。
【0024】
ユーザインタフェース21は、ユーザからの種々の操作を受け付ける。ユーザインタフェース21は、例えば、リモコンである。ユーザは、リモコンを操作(ボタン操作等)することによって、音声ビームB1を出力する角度(スピーカ2から見た角度)を設定する。
【0025】
本実施形態において、スピーカ2は、例えば、空間Spを構成する天井面CSに配置される(図4参照)。スピーカ2は、複数のスピーカユニット28を配列している前面と天井面CSとが平行となるように天井面CSに配置される。従って、スピーカ2は、床面FS又は壁面WSの方向に音声ビームB1を出力するように配置される。例えば、MRゴーグル1は、図4に示すように、空間SpにおいてMRゴーグル1の位置を基準とするX軸、Y軸及びZ軸を定義する。この場合、スピーカ2は、-Z方向(天井面CS及びスピーカ2の前面に垂直な方向)を基準として音声ビームB1を出力するように配置されている。
【0026】
図5は、空間Spの平面図である。図6は、スピーカ2を基準としたX’軸、Y’軸及びZ’軸における音声ビームB1の角度θ及び角度φの一例を示す斜視図である。図6に示すX’方向は、図4及び図5に示す-X方向に一致する。図6に示すY’方向は、図4及び図5に示す-Y方向に一致する。図6に示すZ’方向は、図4及び図5に示す-Z方向に一致する。ユーザは、図5及び図6に示すように、スピーカ2の平面内の角度(X’方向に対する音声ビームB1の角度)θ及びZ’方向に対する角度φを、リモコン(ユーザインタフェース21)を用いて手動で設定する。
【0027】
フラッシュメモリ22は、種々のプログラムを記憶する。種々のプログラムとは、例えば、スピーカ2を動作させるプログラム等である。
【0028】
RAM23は、フラッシュメモリ22に記憶された所定のプログラムを一時的に記憶する。
【0029】
オーディオインタフェース24は、Wi-Fi(登録商標)、Bluetooth(登録商標)等の無線又は有線を介してスピーカ2とは異なる装置から音信号を受信する。スピーカ2とは異なる装置とは、例えば、不図示のPC、スマートホン等である。
【0030】
プロセッサ25は、フラッシュメモリ22に記憶された所定のプログラムをRAM23に読み出すことによって、種々の処理を実行する。プロセッサ25は、例えば、CPU、又は、DSP(Digital Signal Processor)である。なお、プロセッサ25は、CPU及びDSPの両方によって構成されていてもよい。なお、プロセッサ25は、必ずしもフラッシュメモリ22に記憶されたプログラムを実行しなくてもよい。プロセッサ25は、例えば、通信インタフェース20を介して、スピーカ2の外部の機器(例えば、サーバー等)からプログラムをダウンロードし、ダウンロードしたプログラムをRAM23に読み出してもよい。
【0031】
プロセッサ25は、ユーザインタフェース21で受け付けた操作に応じてスピーカ2から出力される音声ビームB1の方向を示す情報(以下、方向情報DIと称する)を受け付ける。方向情報DIとは、具体的には、角度θ及び角度φ等である。
【0032】
プロセッサ25は、オーディオインタフェース24を介して受信したデジタルの音信号に対して信号処理を施す。信号処理とは、例えば、音声ビームB1の生成処理等である。プロセッサ25は、受け付けた方向情報DIに基づいて複数のスピーカユニット28それぞれから出力される音声の位相が所定の方向で揃うように遅延量を調整する。この場合、プロセッサ25は、複数のスピーカユニット28のそれぞれに供給する音信号に対して、調整した遅延量に基づいてディレイ制御を行う。これにより、複数のスピーカユニット28それぞれから出力される音声が、所定の方向で強め合う。つまり、プロセッサ25は、ユーザによって設定された方向(角度θ及び角度φ)で音声が強め合うように、複数のスピーカユニット28のそれぞれに供給する音信号に対してディレイ制御を行う。
【0033】
複数のDAコンバータ26は、プロセッサ25によって信号処理を施されたデジタルの音信号を受信する。複数のDAコンバータ26は、受信したデジタルの音信号をDA変換することによってアナログの音信号を取得する。複数のDAコンバータ26は、アナログの音信号を複数のアンプ27へ送信する。
【0034】
複数のアンプ27は、受信したアナログの音信号を増幅する。複数のアンプ27のそれぞれは、増幅したアナログの音信号を複数のスピーカユニット28のそれぞれに送信する。
【0035】
複数のスピーカユニット28は、複数のアンプ27から受信したアナログの音信号に基づいて音を発する。
【0036】
なお、スピーカ2は、必ずしもユーザインタフェース21に対するユーザの操作に基づいて音声ビームB1を出力する方向を受け付けなくてよい。スピーカ2は、例えば、通信インタフェース20を介して、不図示のPC又はスマートホン等から音声ビームB1を出力する方向に係る情報を受信してもよい。この場合、PC又はスマートホン等は、例えば、音声ビームB1を出力する方向を設定するためのアプリケーションプログラムをインストールしている。アプリケーションプログラムは、ユーザからの操作に応じて方向情報DIを受け付ける。アプリケーションプログラムは、方向情報DIをスピーカ2へ送信する。
【0037】
以下、MRゴーグル1における音声ビームB1の可視化に係る処理(以下、処理Pと称す)について図面を参照しながら説明する。図7は、プロセッサ13の機能的構成を示す図である。図8は、MRゴーグル1の処理の一例を示すフローチャートである。
【0038】
プロセッサ13は、図7に示すように、取得部130、計算部131及び生成部132を機能的に備えている。取得部130、計算部131及び生成部132が、処理Pを実行する。
【0039】
プロセッサ13は、例えば、MRゴーグル1の起動時、又は、処理Pに係る所定のアプリケーションプログラムを実行したときに、処理Pを開始する(図8:START)。
【0040】
開始後、取得部130は、図7に示すように、センサ15(ステレオカメラ)から画像データDDを受信する(図8:ステップS11)。
【0041】
次に、取得部130は、画像データDD(天井面CS、壁面WS又は床面FSを撮影した第1画像データ)から天井面CS、壁面WS、又は床面FSを認識する画像処理(本発明の第1画像処理)を行う(図8:ステップS12)。第1画像処理とは、例えば、ニューラルネットワーク等(例えば、DNN(Deep Neural Network)等)の人工知能による認識処理等である。取得部130は、人工知能による認識処理等によって、天井面CSと壁面WSとの境界、床面FSと壁面WSとの境界、又は、2つの壁面WSの境界を認識する。
【0042】
次に、取得部130は、所定空間内における天井面CS、壁面WS、又は、床面FSの位置を示す位置情報FLI(本発明の第1位置情報)を取得する(図8:ステップS13)。本実施形態では、取得部130は、第1画像処理の結果に基づいて位置情報FLIを取得する。例えば、取得部130は、ステレオカメラ(2つのカメラ)のそれぞれの画像に基づいて天井面CS、壁面WS及び床面FSの各境界位置を認識する。取得部130は、天井面CS、壁面WS及び床面FSの各境界位置と、2つのカメラの位置関係と、に基づいて天井面CS、壁面WS及び床面FSの各境界位置の3次元座標を求める。取得部130は、求めた境界位置の3次元座標に基づいて天井面CSの位置を示す位置情報FLI(a×x0+b×y0+c×z0=d)を取得する。(a×x0+b×y0+c×z0=d)は、3次元空間(XYZ座標空間)における平面である天井面CSを示す関数である。
【0043】
取得部130は、同様にして、各面(壁面WS及び床面FS)の位置情報FLIも取得する。MRゴーグル1は、第1画像処理によって、自動で位置情報FLIを取得することが出来る。
【0044】
次に、取得部130は、画像データDD(スピーカ2を撮影した第2画像データ)からスピーカ2(音響機器)を認識する画像処理(本発明の第2画像処理)を行う(図8:ステップS14)。第2画像処理とは、例えば、テンプレートデータを用いたパターンマッチング等である。この場合、MRゴーグル1には、テンプレートデータとしてスピーカ2の外観等を示す画像データが予め記憶されている。取得部130は、画像データDDと、テンプレートデータとの類似度を計算する。取得部130は、閾値を超える類似度を算出した場合に、スピーカ2を認識する。
【0045】
なお、MRゴーグル1は、例えば、第1画像処理と同様にして、人工知能による物体認識処理によってスピーカ2を認識してもよい。この場合、取得部130は、入力画像と、スピーカ2等のオブジェクトと、の関係を機械学習により学習した学習済モデルを用いてスピーカ2を認識する。
【0046】
次に、取得部130は、空間Sp内(所定空間内)における、音声ビームB1を出力するスピーカ2の位置を示す位置情報SLI(第2位置情報)を取得する(図8:ステップS15)。本実施形態では、取得部130は、第2画像処理の結果に基づいて位置情報SLIを取得する。具体的には、取得部130は、第2画像処理においてスピーカ2を認識した場合、スピーカ2の位置を画像処理によって推定する。取得部130は、MRゴーグル1の位置を原点としたスピーカ2の位置を推定する。例えば、図4において、取得部130は、MRゴーグル1の座標を原点とするスピーカ2の3次元空間における座標Cd1(例えば、座標(x1,y1,z1)等)を取得する。本実施形態のセンサ15は、ステレオカメラである。従って、取得部130は、ステレオカメラ(2つのカメラ)のそれぞれの画像データで認識したスピーカ2の位置と、2つのカメラの位置関係と、に基づいてスピーカ2の3次元空間における座標Cd1を求める。スピーカ2において複数のスピーカユニット28を配列している前面は、平面状のメッシュとなっている。従って、取得部130は、画像処理によって、スピーカ2における平面状のメッシュの部分を認識する。取得部130は、メッシュの部分の重心位置を算出し、当該重心位置をスピーカ2の3次元空間における座標Cd1と定義する。なお、上記に示す3次元空間における座標Cd1の算出方法は一例である。従って、取得部130は、必ずしも、メッシュ形状の部分の重心位置をスピーカ2の3次元空間における座標Cd1と定義しなくてもよい。このように、MRゴーグル1は、第2画像処理によって、自動で位置情報SLIを取得することが出来る。
【0047】
次に、取得部130は、スピーカ2から出力される音声ビームB1の方向を示す方向情報DIを取得する(図8:ステップS16)。具体的には、取得部130は、図7に示すように、ユーザインタフェース21でユーザによって設定された方向情報DIをスピーカ2から受信する。
【0048】
次に、計算部131は、図7に示すように、取得部130から位置情報FLI、位置情報SLI及び方向情報DIを取得する。計算部131は、取得した位置情報FLI、位置情報SLI及び方向情報DIに基づいてスピーカ2から出力される音声ビームB1の軌跡を計算する(図8:ステップS17)。
【0049】
計算部131は、空間Sp内における音声ビームB1の出力される方向を方向情報DIに基づいて計算する。具体的には、計算部131は、方向情報DIとして角度θ及び角度φをスピーカ2から取得する。角度θ及び角度φは、スピーカ2の位置を基準とする極座標系の角度である。従って、計算部131は、角度θ及び角度φに対応する3次元直交座標系の傾き(l,m,n)を求める。計算部131は、スピーカ2の位置(x1,y1,z1)を通る直線(x,y,z)=(x1,y1,z1)+t(l,m,n)を定義する(tは任意の値である)。また、計算部131は、当該直線が床面FS又は壁面WSと交わる交差位置の座標Cd2を求める(図4参照)。計算部131は、スピーカ2の位置から当該交差位置までの線分を、音声ビームB1の軌跡とする。つまり、計算部131は、座標Cd1から座標Cd2までの線分を、音声ビームB1の軌跡とする。
【0050】
最後に、生成部132は、音声ビームB1の軌跡の計算の結果に基づいて音声ビームB1の軌跡を示す音声ビーム画像を生成する(図8:ステップS18)。例えば、生成部132は、上記の3次元座標を表示器14の2次元座標の位置に対応付ける計算を行う。生成部132は、計算した2次元座標に対応する音声ビームB1の軌跡を示す画像を生成する。生成部132は、例えば、所定の色を有し、且つ、音声ビームB1の軌跡を中心として所定の幅を有する線分の画像(図4に示すような、円柱状の音声ビームB1の画像等)を生成する。これにより、生成部132は、当該円柱状の画像を音声ビーム画像として表示器14に表示する。この場合、ユーザは、表示器14を介して空間Sp内(現実空間)に重ねられた音声ビーム画像を視認出来る。従って、ユーザは、現実空間を視認しつつ、表示器14に表示された音声ビーム画像を視認することが出来る。
【0051】
以上のステップS11からステップS18の処理が行われることによって、MRゴーグル1における一連の処理Pの実行が完了する(図8:END)。なお、プロセッサ13は、ステップS16を実行した後に、ステップS11からステップS15を実行してもよい。
【0052】
(効果)
本実施形態に係るMRゴーグル1は、生成した音声ビーム画像を表示器14に表示させる。これにより、ユーザは、スピーカ2から出力される音声ビームB1の軌跡を視認することが出来る。従って、ユーザは、スピーカ2から出力される音声ビームB1の方向を視覚的に認識することが出来る。これにより、ユーザは、音声ビームB1の調整をし易くなる。例えば、ユーザは、可視化された音声ビームB1を見ることによって音声ビームB1の角度等を正確に調整出来る。従って、ユーザは、音のみで音声ビームB1を調整する場合と比較して、望んだ方向に音声ビームB1の方向を向けることが可能となる。
【0053】
なお、スピーカ2は、必ずしも、天井面CS、壁面WS、及び、床面FSで構成される閉じた空間Spに配置されなくてもよい。例えば、スピーカ2は、天井面CSを有しないオープンスペース等の空間に配置されていてもよい。この場合、スピーカ2は、例えば、壁面WS又は床面FSに配置される。
【0054】
なお、スピーカ2は、屋外に配置されていてもよい。この場合、スピーカ2は、床面FSに配置される。
【0055】
(変形例1)
以下、変形例1に係るMRゴーグル1aについて図を参照しながら説明する。図9は、空間Spにおいて出力された音声ビームB1及び音声ビームB2を示す図である。図9に示すように、MRゴーグル1aは、壁面WSにおいて反射した音声ビームB2の軌跡を示す画像を表示する点でMRゴーグル1と異なる。また、本変形例のスピーカ2は、壁面WSに配置されている点で上記実施形態と異なる。その他の構成は全て第1実施形態と同じである。
【0056】
スピーカ2は、-Y方向(壁面WS及びスピーカ2の前面に垂直な方向)を基準として音声ビームB1を出力するように配置されている。従って、本変形例では、図6に示したX’方向は、図9に示した-X方向に一致する。図6に示したY’方向は、図9に示した-Z方向に一致する。図6に示したZ’方向は、図9に示した-Y方向に一致する。ユーザは、スピーカ2のX’方向に対する音声ビームB1の角度θ及びZ’方向に対する角度φを設定する。
【0057】
MRゴーグル1aの計算部131は、極座標系の角度θ及び角度φに対応する3次元直交座標系の傾き(l1,m1,n1)を求める。また、MRゴーグル1aの計算部131は、上記の第2画像処理等によりスピーカ2の位置(x2,y2,z2)を求める。MRゴーグル1aの計算部131は、スピーカ2の位置(x2,y2,z2)を通る直線(x,y,z)=(x2,y2,z2)+t(l1,m1,n1)が、壁面WSと交わる交差位置の座標Cd3を求める(図9参照)。計算部131は、座標Cd1から座標Cd3(x3,y3,z3)までの線分を音声ビームB1の軌跡とする。
【0058】
図9に示すように、スピーカ2から出力された音声ビームB1は、壁面WS(座標Cd3)で反射する。従って、計算部131は、音声ビームB1の軌跡の計算の後、座標Cd3で反射した音声ビームB2の軌跡を計算する。つまり、計算部131は、位置情報FLI、位置情報SLI及び方向情報DIに基づいて壁面WSにおいて音声ビームB1が反射する位置(座標Cd2)及び反射後の音声ビームB2の軌跡を計算する。音声ビームB1が-X方向に出力される場合、音声ビームB2は、壁面WSに反射した後、X方向に向かって反射する。従って、音声ビームB2を示す直線のX軸の方向ベクトルは、音声ビームB1を示す直線のX軸の方向ベクトルに対して反転する。一方、音声ビームB2を示す直線のY軸の方向ベクトルは、音声ビームB1を示す直線のYの軸方向ベクトルと同じであり、且つ、音声ビームB2を示す直線のZ軸の方向ベクトルは、音声ビームB1を示す直線のZ軸の方向ベクトルと同じである。このため、音声ビームB2を示す直線は、(x,y,z)=(x3,y3,z3)+t(-l1,m1,n1)となる。
【0059】
最後に、MRゴーグル1aの生成部132は、音声ビームB1及び音声ビームB2の軌跡を示す音声ビーム画像を生成する。例えば、MRゴーグル1aの生成部132は、MRゴーグル1の生成部132と同様にして、上記の3次元座標を表示器14の2次元座標の位置に対応付ける計算を行う。この場合、音声ビーム画像は、反射後の音声ビームB2の軌跡を示す画像(反射画像)を含んでいる。
【0060】
なお、反射は1回に限らない。天井面CSに向かって音声ビームを出力して天井面CSで反射してもよい。また、床面FSに向かって音声ビームを出力して床面FSで反射してもよい。
【0061】
なお、MRゴーグル1aは、天井面CS、壁面WS、又は、床面FSの特性情報(例えば、天井面CS、壁面WS、又は、床面FSの吸音率)に基づいて、反射前後で、音声ビームを示す画像の色等を変化させてもよい。具体的には、計算部131は、天井面CS、壁面WS、又は、床面FSの特性情報(例えば、天井面CS、壁面WS、又は、床面FSの吸音率)を取得する。例えば、計算部131は、予めフラッシュメモリ11で記憶している特性情報を読み出す。生成部132は、吸音率に基づいて音声ビームB2を示す画像(反射画像)を変化させる。例えば、生成部132は、吸音率に応じて、反射後の音声ビームB2を示す画像の色を反射前の音声ビームB1を示す画像の色よりも薄くする(例えば、濃い青色から薄い青色へ変化させる)。
【0062】
なお、当該特性情報は、吸音率に限定されない。当該特性情報は、例えば、壁等の表面の硬さ、表面の粗さ、厚さ又は密度等であってもよい。この場合、計算部131は、例えば、予めフラッシュメモリ11で記憶している特性情報を、読み出す(取得する)。生成部132は、読み出した当該特性情報に基づいて画像を変更する。例えば、生成部132は、壁等の密度に応じて音声ビームB1を示す画像の濃淡を変化させる(例えば、濃い青色から薄い青色へ変化させる)。同様にして、生成部132は、例えば、壁等の表面の硬さ、表面の粗さ、又は厚さ等に基づいて音声ビームB1を示す画像の濃淡を変化させる。
【0063】
なお、MRゴーグル1aは、取得した壁等の表面の硬さ、表面の粗さ、厚さ又は密度等に基づいて吸音率を推定し、推定した吸音率に基づいて音声ビームB1を示す画像を変化させてもよい。
【0064】
なお、MRゴーグル1aは、特性情報を取得していない場合であっても、反射前後で適当に音声ビームを示す画像の色等を変化させてもよい。
【0065】
なお、生成部132は、音声ビームを示す画像の色以外を変化させてもよい。例えば、生成部132は、反射前後で、音声ビームの軌跡を示す画像の大きさを変化(例えば、音声ビームを示す線分の幅の長さを変化)、又は、形状等を変化させてもよい。
【0066】
なお、MRゴーグル1aは、特性情報以外の情報を基に音声ビーム画像を変化させてもよい。例えば、生成部132は、音声ビームのチャンネル、音声ビームの音量、又は、音声ビームの周波数特性の少なくとも1つに基づいて、音声ビーム画像を変化させてもよい。例えば、生成部132は、スピーカ2のRチャンネルから出力される音声ビームの画像の色等がスピーカ2のLチャンネルから出力される音声ビームの画像の色と異なるように、音声ビーム画像を生成してもよい。また、例えば、生成部132は、音声ビームの音量が大きいほど色を濃くしてもよい。また、例えば、生成部132は、周波数に応じて音声ビームを示す画像の色を変化させてもよい。例えば、生成部132は、低周波数成分のレベルが高い場合には赤色にして、高周波数成分のレベルが高い場合には青色にしてもよい。
【0067】
(効果)
ユーザは、音声ビームB1,B2を視認出来ないため、壁に反射する音声ビームB2がどの様な方向に向かうか、極めて判断し難い。これに対して、MRゴーグル1aは、天井面CS、壁面WS又は床面FSにおいて反射した音声ビームB2を可視化する。これにより、ユーザは、壁等で反射した音声ビームB2の軌跡を視覚的に認識することが出来る。従って、ユーザは、壁等で反射する音声ビームB2の方向の調整等をしやすくなる。
【0068】
例えば、MRゴーグル1aは、天井面CS、壁面WS又は床面FSの吸音率に応じて、反射前後で音声ビーム画像の色の濃淡を変化させる。これにより、ユーザは、壁等で反射する音声ビームB2の音量の変化等を視覚的に認識することが出来る。
【0069】
例えば、MRゴーグル1aは、音声ビームのチャンネルに基づいて音声ビーム画像を変化させる。これにより、ユーザは、例えば、音声ビームがRチャンネル又はLチャンネルのどちらから音声ビームが出力されたのか等を、視覚的に認識することが出来る。
【0070】
例えば、MRゴーグル1aは、音声ビームの周波数特性に基づいて音声ビーム画像を変化させる。これにより、ユーザは、音声ビームの周波数を視覚的に認識することが出来る。
【0071】
(変形例2)
変形例2の情報処理装置は、MRゴーグルに代えて、VR(Virtual Reality)ゴーグル(図示せず)である。VRゴーグルは、センサ15(ステレオカメラ)で撮影した画像データDD(カメラ画像データ)に基づいた画像を表示器14に表示する。これにより、VRゴーグルのユーザは、表示器14に表示された画像によって現実空間を視認することが出来る。
【0072】
VRゴーグルは、MRゴーグル1のプロセッサ13と同様にして、音声ビームB1の軌跡を計算し、音声ビーム画像を生成する。
【0073】
VRゴーグルは、画像データDD(カメラ画像データ)から表示器14に表示する画像(以下、表示用画像と称する)を生成し、表示用画像に音声ビームB1の音声ビーム画像を重畳する処理を行う。VRゴーグルは、音声ビーム画像を重畳した表示用画像を表示器14に出力する。これにより、ユーザは、現実空間(ユーザの周囲の空間)を視認しつつ、音声ビームB1の軌跡を視認することが出来る。このように、VRゴーグルは、MRゴーグル1と同じ効果を奏する。
【0074】
なお、スマートホン等の情報処理装置も、上記と同様に、音声ビーム画像を重畳した表示用画像を表示することも出来る。
【0075】
(変形例3)
以下、変形例3に係るMRゴーグル1について図を参照しながら説明する。図10は、MRゴーグル1とは別の撮影用カメラで撮影したスピーカ2、天井面CS、壁面WS及び床面FSの画像を示す図である。
【0076】
本変形例では、MRゴーグル1とは別の位置に配置されたカメラ(以下、撮影用カメラと称す)で、さらにユーザUの位置を検出する。つまり、撮影用カメラは、天井面CS、壁面WS及び床面FSの位置情報FLI、スピーカ2(音響機器)の位置情報SLI、及びユーザ位置情報を検出する。MRゴーグル1は、撮影用カメラから位置情報FLI、位置情報SLI、及びユーザ位置情報を取得する。MRゴーグル1は、スピーカ2から音声ビームの方向情報DIを取得する。MRゴーグル1は、取得した位置情報FLI、位置情報SLI、方向情報DI及びユーザ位置情報に基づいてスピーカ2(音響機器)から出力される音声ビームの軌跡を計算する。
【0077】
撮影用カメラは、MRゴーグル1のユーザUと、スピーカ2と、天井面CS、壁面WS及び床面FSを撮影可能な位置(図10に示すような画像を撮像可能な位置)に配置されている。撮影用カメラは、MRゴーグル1のユーザと、スピーカ2と、天井面CS、壁面WS及び床面FSを撮影することによって画像データDDを取得する。
【0078】
撮影用カメラは、画像データDDに対して第1画像処理及び第2画像処理を行う。また、撮影用カメラは、画像データDDからユーザUの位置(図10に示す座標Cd4)を示すユーザ位置情報を取得する。具体的には、撮影用カメラは、画像処理等によって空間Sp内に居る人を認識した場合、空間Sp内に居る人の位置をユーザUの位置(座標Cd4)と推定する。この場合、撮影用カメラは、撮影用カメラの位置を原点としてユーザのUの座標Cd4を取得する。同様にして、撮影用カメラは、撮影用カメラの位置を原点としてスピーカ2の座標Cd5を取得する。なお、撮影用カメラは、図10に示すように、画像処理によって、MRゴーグル1を認識した場合、MRゴーグル1の位置をユーザUの位置(座標Cd4)と推定してもよい。同様に、撮影用カメラは、天井面CS、壁面WS、又は、床面FSの位置を示す位置情報(本発明の第1位置情報)FLIと、スピーカ2の位置を示す位置情報(本発明の第2位置情報)SLIと、を求める。
【0079】
MRゴーグル1は、スピーカ2から方向情報DIを取得する。MRゴーグル1は、位置情報FLI、位置情報SLI、方向情報DIに基づいて音声ビームB1の軌跡を計算する。位置情報FLI、位置情報SLI、方向情報DI及びユーザUの位置(座標Cd4)は、撮影用カメラの位置を基準とした位置である。従って、MRゴーグル1は、位置情報FLI、位置情報SLI、方向情報DIを、座標Cd4を基準(原点)とする位置に変換し、音声ビームの軌跡を変換する。MRゴーグル1は、音声ビーム画像に基づいた表示を行う。MRゴーグル1は、ユーザUの位置を基準とした音声ビーム画像を表示する。従って、ユーザUは、スピーカ2から出力される音声ビームB1の方向を視覚的に認識することが出来る。
【0080】
(変形例4)
以下、変形例4は、MRゴーグル1と異なる第1の装置(サーバ等)が全ての計算及び音声ビーム画像の生成を行う。変形例4のMRゴーグル1(第2の装置)は、サーバ等(第1の装置)で生成した音声ビーム画像を取得し、取得した音声ビーム画像を表示器14に表示する。
【0081】
(効果)
本変形例では、MRゴーグル1の代わりに、サーバ等の異なる装置で、第1画像処理と、第2画像処理と、音声ビームB1の軌跡の計算と、音声ビーム画像の生成と、を行う。従って、MRゴーグル1における処理の負荷が軽減する。このため、MRゴーグル1に備わるプロセッサ13の性能が低い場合であっても、MRゴーグル1は、遅延等を起こすことなく音声ビーム画像を表示しやすくなる。
【符号の説明】
【0082】
1,1a…MRゴーグル
2…スピーカ
13…プロセッサ
130…取得部
131…計算部
132…生成部
DD…画像データ
FLI,SLI…位置情報
DI…方向情報
B1,B2…音声ビーム
Sp…空間
CS…天井面
WS…壁面
FS…床面
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10