特許7575730 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 本田技研工業株式会社の特許一覧 ▶ 国立大学法人東京工業大学の特許一覧

特許7575730視覚シーン再構成装置、視覚シーン再構成方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-10-22

(45)【発行日】2024-10-30

(54)【発明の名称】視覚シーン再構成装置、視覚シーン再構成方法、およびプログラム

(51)【国際特許分類】

G01S 15/89 20060101AFI20241023BHJP

【ＦＩ】

G01S15/89 B

【請求項の数】 9

(21)【出願番号】P 2021143488

(22)【出願日】2021-09-02

(65)【公開番号】P2023036435

(43)【公開日】2023-03-14

【審査請求日】2023-09-11

(73)【特許権者】

【識別番号】000005326

【氏名又は名称】本田技研工業株式会社

(73)【特許権者】

【識別番号】304021417

【氏名又は名称】国立大学法人東京科学大学

(74)【代理人】

【識別番号】100165179

【弁理士】

【氏名又は名称】田▲崎▼ 聡

(74)【代理人】

【識別番号】100126664

【弁理士】

【氏名又は名称】鈴木慎吾

(74)【代理人】

【識別番号】100154852

【弁理士】

【氏名又は名称】酒井太一

(74)【代理人】

【識別番号】100194087

【弁理士】

【氏名又は名称】渡辺伸一

(72)【発明者】

【氏名】中臺一博

(72)【発明者】

【氏名】岸波華彦

(72)【発明者】

【氏名】糸山克寿

(72)【発明者】

【氏名】西田健次

【審査官】梶田真也

(56)【参考文献】

【文献】特開２０２１－０１５０８４（ＪＰ，Ａ）

【文献】特開２０２１－０９２４７５（ＪＰ，Ａ）

【文献】米国特許出願公開第２０２０／００８５４０７（ＵＳ，Ａ１）

【文献】米国特許第０９５９８０７６（ＵＳ，Ｂ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０１Ｓ７／００－７／６４

Ｇ０１Ｓ１３／００－１７／９５

(57)【特許請求の範囲】

【請求項1】

送信波を送信するスピーカーと、
前記スピーカーからの前記送信波に対応する直接音と、前記送信波が障害物で反射した反射波に対応する反射音それぞれを分離して取得する取得部と、
前記直接音と前記反射音について、短時間フーリエ変換を行い、ｍ番目のフレームとｋ番目の周波数ビンにおける複素スペクトルＸ _ｓ（ｍ，ｋ）とＸ _ｒ（ｍ，ｋ）を算出し、前記複素スペクトルＸ _ｓ（ｍ，ｋ）と前記複素スペクトルＸ _ｒ（ｍ，ｋ）の相互相関を行い、振幅情報と位相情報を有する音響特徴量を生成する特徴量生成部と、
音響特徴量を入力とし、深度画像を出力として学習した学習モデルを用いて、生成された前記音響特徴量を入力して深度画像を出力させることで視覚シーンを再構成する再構成部と、
を備える視覚シーン再構成装置。

【請求項2】

送信波を送信するスピーカーと、
前記スピーカーからの前記送信波に対応する直接音を取得する第１取得部と、
前記送信波が障害物で反射した反射波に対応する反射音を取得する第２取得部と、
前記直接音と前記反射音について、短時間フーリエ変換を行い、ｍ番目のフレームとｋ番目の周波数ビンにおける複素スペクトルＸ _ｓ（ｍ，ｋ）とＸ _ｒ（ｍ，ｋ）を算出し、前記複素スペクトルＸ _ｓ（ｍ，ｋ）と前記複素スペクトルＸ _ｒ（ｍ，ｋ）の相互相関を行い、振幅情報と位相情報を有する音響特徴量を生成する特徴量生成部と、
音響特徴量を入力とし、深度画像を出力として学習した学習モデルを用いて、生成された前記音響特徴量を入力して深度画像を出力させることで視覚シーンを再構成する再構成部と、
を備える視覚シーン再構成装置。

【請求項3】

前記特徴量生成部は、前記位相情報を、三角関数を用いてｓｉｎとｃｏｓに分けて使用し、
前記音響特徴量は、前記振幅情報と、前記ｓｉｎの位相情報と、前記ｃｏｓの位相情報とを備える、
請求項２に記載の視覚シーン再構成装置。

【請求項4】

前記学習モデルは、敵対的生成ネットワーク（ＧＡＮ；ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）を使用したニューラルネットワークである、
請求項２または請求項３に記載の視覚シーン再構成装置。

【請求項5】

少なくとも深度情報を有する教師画像を撮影する撮影装置と、
前記教師画像と、前記深度画像とを比較して、正解であるか否かを識別する識別器と、を更に備え、
前記再構成部は、学習時に、前記教師画像と前記音響特徴量との組と、前記深度画像と前記音響特徴量との組と、の間のマッピング学習を行う、
請求項１から請求項４のうちのいずれか１項に記載の視覚シーン再構成装置。

【請求項6】

取得部が、スピーカーからの送信波に対応する直接音と、前記送信波が障害物で反射した反射波に対応する反射音それぞれを分離して取得し、
特徴量生成部が、前記直接音と前記反射音について、短時間フーリエ変換を行い、ｍ番目のフレームとｋ番目の周波数ビンにおける複素スペクトルＸ _ｓ（ｍ，ｋ）とＸ _ｒ（ｍ，ｋ）を算出し、前記複素スペクトルＸ _ｓ（ｍ，ｋ）と前記複素スペクトルＸ _ｒ（ｍ，ｋ）の相互相関を行い、振幅情報と位相情報を有する音響特徴量を生成し、
再構成部が、音響特徴量を入力とし、深度画像を出力として学習した学習モデルを用いて、生成された前記音響特徴量を入力して深度画像を出力させることで視覚シーンを再構成する、
視覚シーン再構成方法。

【請求項7】

第１取得部が、スピーカーからの送信波に対応する直接音を取得し、
第２取得部が、前記送信波が障害物で反射した反射波に対応する反射音を取得し、
特徴量生成部が、前記直接音と前記反射音について、短時間フーリエ変換を行い、ｍ番目のフレームとｋ番目の周波数ビンにおける複素スペクトルＸ _ｓ（ｍ，ｋ）とＸ _ｒ（ｍ，ｋ）を算出し、前記複素スペクトルＸ _ｓ（ｍ，ｋ）と前記複素スペクトルＸ _ｒ（ｍ，ｋ）の相互相関を行い、振幅情報と位相情報を有する音響特徴量を生成し、
再構成部が、音響特徴量を入力とし、深度画像を出力として学習した学習モデルを用いて、生成された前記音響特徴量を入力して深度画像を出力させることで視覚シーンを再構成する、
視覚シーン再構成方法。

【請求項8】

コンピュータに、
スピーカーからの送信波に対応する直接音と、前記送信波が障害物で反射した反射波に対応する反射音それぞれを分離して取得させ、
前記直接音と前記反射音について、短時間フーリエ変換を行い、ｍ番目のフレームとｋ番目の周波数ビンにおける複素スペクトルＸ _ｓ（ｍ，ｋ）とＸ _ｒ（ｍ，ｋ）を算出し、前記複素スペクトルＸ _ｓ（ｍ，ｋ）と前記複素スペクトルＸ _ｒ（ｍ，ｋ）の相互相関を行い、振幅情報と位相情報を有する音響特徴量を生成させ、
音響特徴量を入力とし、深度画像を出力として学習した学習モデルを用いて、生成された前記音響特徴量を入力して深度画像を出力させることで視覚シーンを再構成させる、
プログラム。

【請求項9】

コンピュータに、
スピーカーからの送信波に対応する直接音を取得させ、
前記送信波が障害物で反射した反射波に対応する反射音を取得させ、
前記直接音と前記反射音について、短時間フーリエ変換を行い、ｍ番目のフレームとｋ番目の周波数ビンにおける複素スペクトルＸ _ｓ（ｍ，ｋ）とＸ _ｒ（ｍ，ｋ）を算出し、前記複素スペクトルＸ _ｓ（ｍ，ｋ）と前記複素スペクトルＸ _ｒ（ｍ，ｋ）の相互相関を行い、振幅情報と位相情報を有する音響特徴量を生成させ、
音響特徴量を入力とし、深度画像を出力として学習した学習モデルを用いて、生成された前記音響特徴量を入力して深度画像を出力させることで視覚シーンを再構成させる、
プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、視覚シーン再構成装置、視覚シーン再構成方法、およびプログラムに関する。

【背景技術】

【0002】

ロボティクスの分野では、例えばカメラやＬＩＤＡＲ（LIght Detection And Ranging）などのＲＧＢセンサや深度センサ、またはその両方を用いた視覚ベースの処理でシーン理解が研究されてきた（例えば非特許文献１参照）。これらのセンサは、通常、正確な情報を生成できる。

【先行技術文献】

【非特許文献】

【0003】

【文献】S. Thrun, W. Burgard, and D. Fox, “Probabilistic robotics”, Cambridge, Mass.: MIT Press, 2005.

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、カメラを用いる従来技術では、照明条件の変化に敏感であるため、暗い場所での使用は難しく、透明な物質を検出することも困難であり、さらにプライバシーの問題も発生する。また、ＬＩＤＡＲを用いる従来技術では、ＬＩＤＡＲから照射されるレーザーは人が多く集まる場所で使用すると危険な可能性がある。

【0005】

本発明は、上記の問題点に鑑みてなされたものであって、照明条件の影響を受けず、人体に影響を及ぼさない視覚シーン再構成装置、視覚シーン再構成方法、およびプログラムを提供することを目的とする。

【課題を解決するための手段】

【0006】

（１）上記目的を達成するため、本発明の一態様に係る視覚シーン再構成装置は、直接音と反射音それぞれを分離して取得する取得部と、前記直接音と前記反射音のうちの少なくとも１つについて、振幅情報と位相情報を有する特徴情報を生成する特徴量生成部と、前記特徴情報を学習モデルの入力とし、深度画像を前記学習モデルに出力させることで音響信号を用いて視覚シーンを再構成する再構成部と、を備える。

【0007】

（２）上記目的を達成するため、本発明の一態様に係る視覚シーン再構成装置は、直接音を取得する第１取得部と、反射音を取得する第２取得部と、前記直接音と前記反射音とに基づき、前記直接音と前記反射音との間の特徴情報を生成する特徴量生成部と、前記特徴情報を学習モデルの入力とし、深度画像を前記学習モデルに出力させることで音響信号を用いて視覚シーンを再構成する再構成部と、を備える。

【0008】

（３）また、本発明の一態様に係る視覚シーン再構成装置において、前記特徴量生成部は、前記特徴情報として、前記直接音と前記反射音の相互相関より求めた振幅情報と位相情報を生成し、前記再構成部に生成した前記振幅情報と位相情報を入力するようにしてもよい。

【0009】

（４）また、本発明の一態様に係る視覚シーン再構成装置において、前記特徴量生成部は、前記位相情報を、三角関数を用いてｓｉｎとｃｏｓに分けて使用し、前記特徴情報は、前記振幅情報と、前記ｓｉｎの位相情報と、前記ｃｏｓの位相情報とを備えるようにしてもよい。

【0010】

（５）また、本発明の一態様に係る視覚シーン再構成装置において、前記学習モデルは、敵対的生成ネットワーク（ＧＡＮ；ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）を使用したニューラルネットワークであるようにしてもよい。

【0011】

（６）また、本発明の一態様に係る視覚シーン再構成装置において、少なくとも深度情報を有する教師画像を撮影する撮影装置と、前記教師画像と、前記深度画像とを比較して、正解であるか否かを識別する識別器と、を更に備え、前記再構成部は、学習時に、前記教師画像と前記特徴情報との組と、前記深度画像と前記特徴情報との組と、の間のマッピング学習を行うようにしてもよい。

【0012】

（７）上記目的を達成するため、本発明の一態様に係る視覚シーン再構成方法は、取得部が、直接音と反射音それぞれを分離して取得し、特徴量生成部が、前記直接音と前記反射音のうちの少なくとも１つについて、振幅情報と位相情報を有する特徴情報を生成し、再構成部が、前記特徴情報を学習モデルの入力とし、深度画像を前記学習モデルに出力させることで音響信号を用いて視覚シーンを再構成する。

【0013】

（８）上記目的を達成するため、本発明の一態様に係る視覚シーン再構成方法は、第１取得部が、直接音を取得し、第２取得部が、反射音を取得し、特徴量生成部が、前記直接音と前記反射音とに基づき、前記直接音と前記反射音との間の特徴情報を生成し、再構成部が、前記特徴情報を学習モデルの入力とし、深度画像を前記学習モデルに出力させることで音響信号を用いて視覚シーンを再構成する。

【0014】

（９）上記目的を達成するため、本発明の一態様に係るプログラムは、コンピュータに、直接音と反射音それぞれを分離して取得させ、前記直接音と前記反射音のうちの少なくとも１つについて、振幅情報と位相情報を有する特徴情報を生成させ、前記特徴情報を学習モデルの入力とし、深度画像を学習モデルに出力させることで音響信号を用いて視覚シーンを再構成させる。

【0015】

（１０）上記目的を達成するため、本発明の一態様に係るプログラムは、コンピュータに、直接音を取得させ、反射音を取得させ、前記直接音と前記反射音とに基づき、前記直接音と前記反射音との間の特徴情報を生成させ、前記特徴情報を学習モデルの入力とし、深度画像を前記学習モデルに出力させることで音響信号を用いて視覚シーンを再構成させる。

【発明の効果】

【0016】

（１）～（６）によれば、照明条件の影響を受けず、人体に影響を及ぼさない視覚シーン再構成装置を提供することができる。
（７）、（８）によれば、照明条件の影響を受けず、人体に影響を及ぼさない視覚シーン再構成方法を提供することができる。
（９）、（１０）によれば、照明条件の影響を受けず、人体に影響を及ぼさないプログラムを提供することができる。

【図面の簡単な説明】

【0017】

【図1】実施形態に係る視覚シーン再現システムの構成例を示す図である。

【図2】実施形態に係る視覚シーン再構成装置のアーキテクチャを示す図である。

【図3】実施形態の音響特徴量Ｃ_３ＤＣを可視化した例を示す図である。

【図4】ｐｉｘ２ｐｉｘの仕組みを説明するための図である。

【図5】実施形態に係る視覚シーン再構成装置が行う処理のフローチャートである。

【図6】実施形態に係る視覚シーン再構成装置の学習時のフローチャートである。

【図7】評価を行った部屋の状態を示す図である。

【図8】評価に用いた収音装置、スピーカーおよび撮影装置を示す図である。

【図9】評価に用いたターンテーブルの仕様を示す図である。

【図10】撮影装置で撮影したＲＧＢ画像と深度画像の例を示す図である。

【図11】入力画像（音響特徴量）を可視化した例示す図である。

【図12】評価結果の再構成画像例等を示す図である。

【図13】４つの音響特徴のピクセルベースの平均絶対誤差を示す図である。

【図14】画素単位の平均絶対誤差との変化に応じたデータカウント数の変化距離を示す図である。

【発明を実施するための形態】

【0018】

以下、本発明の実施の形態について図面を参照しながら説明する。なお、以下の説明に用いる図面では、各部材を認識可能な大きさとするため、各部材の縮尺を適宜変更している。

【0019】

＜概要＞
実施形態では、可聴音を用いたエコロケーションを用いたシーン再構成（EchoLocation-based Scene Reconstruction: ELSR）のフレームワークによって、視覚シーンの再現を行う。なお、エコロケーションとは、反響定位である。

【0020】

ここで、本実施形態で可聴音を用いる理由を説明する。近年、音によるシーン理解が開発されている。音を用いたロボットの空間認識には、超音波センサが広く使われている。超音波センサは波長が短く、環境ノイズの影響を受けにくいため、高分解能でノイズに強い距離推定が可能である。しかしながら、超音波センサを用いた手法では、超音波が発生し、人間にとっては耳障りな音が発生するのに加え、耳に聞こえない周波数帯に存在するため、気づかないうちに超音波にさらされ、頭痛や吐き気などの症状を引き起こす危険性がある。このため、実施形態では、超音波と同じように照明の影響を受けないなどの利点がありながら、無自覚な被曝リスクが少ない可聴音を用いる。

【0021】

＜視覚シーン再現システムの構成例＞
図１は、本実施形態に係る視覚シーン再現システムの構成例を示す図である。図１のように、視覚シーン再現システム１は、例えば、第１収音装置２（取得部、第１取得部）、第２収音装置３（取得部、第２取得部）、撮影装置４、視覚シーン再構成装置５、および表示装置６を備える。
視覚シーン再構成装置５は、取得部５１、音響特徴量抽出部５２（特徴量生成部）、視覚シーン再構成部５３（再構成部）、および出力部５４を備える。
音響特徴量抽出部５２は、ＳＴＦＴ部５２１、および抽出部５２２を備える。
視覚シーン再構成部５３は、生成器５３１、および識別器５３２を備える。

【0022】

第１収音装置２は、マイクロフォンであり、直接音ｘ_ｓを収音する。なお、第１収音装置２は、録音された直接音ｘ_ｓを取得するようにしてもよい。

【0023】

第２収音装置３は、マイクロフォンであり、反射音ｘ_ｒを収音する。なお、第２収音装置３は、録音された反射音ｘ_ｒを取得するようにしてもよい。

【0024】

撮影装置４は、例えばＣＣＤ（Charge Coupled Device）撮像装置またはＣＭＯＳ（Complementary MOS）撮像装置等の深度カメラであり、収音する環境を撮影する。なお、撮影された画像（教師画像）には、例えば、ＲＧＢ画像と深度画像が含まれる。深度画像は、学習時の正解画像として使用される。

【0025】

取得部５１は、第１収音装置２が収音した直接音ｘ_ｓと、第２収音装置３が収音した反射音ｘ_ｒを取得する。取得部５１は、直接音ｘ_ｓ、反射音ｘ_ｒがアナログ信号の場合、アナログ信号をデジタル信号に変換してもよい。また、学習時に、取得部５１は、撮影装置４が撮影した画像を取得し、取得した画像を視覚シーン再構成部５３に出力する。

【0026】

音響特徴量抽出部５２のＳＴＦＴ部５２１は、収音された直接音ｘ_ｓと反射音ｘ_ｒに対して短時間フーリエ変換（ＳＴＦＴ）を行う。音響特徴量抽出部５２の抽出部５２２は、短時間フーリエ変換した信号から音響特徴量（特徴情報）を抽出する。なお、音響特徴量抽出部５２の各部の処理方法等については、後述する。

【0027】

視覚シーン再構成部５３の生成器５３１は、例えば敵対的生成ネットワーク（ＧＡＮ；Generative Adversarial Network）（例えば参考文献１参照）を使用したニューラルネットワークの生成モデルを備える。生成器５３１は、音響特徴量から視覚シーンを再構成する。再構成された再構成画像は、例えば深度画像である。
識別器５３２は、正解画像と再構成画像とを比較して、正解であるか不正解であるかを識別する。
視覚シーン再構成部５３は、生成モデル５３１と識別モデル５３２を用いて学習する。学習アルゴリズムは、例えばｐｉｘ２ｐｉｘである。なお、ｐｉｘ２ｐｉｘは、条件付きＧＡＮと呼ばれるタイプのＧＡＮである（例えば参考文献２参照）。

【0028】

参考文献１；I. Goodfellow et al., “Generative adversarial Networks”, in NIPS 2014, 2014, pp. 2672-2680
参考文献２；P. Isola et al., “Image-to-image translation with conditional adversarial networks”, in CVPR, 2017 IEEE Conference on, 2017

【0029】

出力部５４は、視覚シーン再構成部５３が再構成した画像を表示装置６に出力する。なお、表示装置６は、例えば、画像表示装置であってもよく、印字装置であってもよく、ネットワークを介して接続されるスマートフォンやタブレット端末等であってもよい。

【0030】

＜視覚シーン再構成装置の処理例＞
次に、視覚シーン再構成装置の処理例を説明する。
図２は、本実施形態に係る視覚シーン再構成装置のアーキテクチャを示す図である。なお、図２の例では、スピーカー（ｇ１１）から発した音響信号（直接音）を第１収音装置２で収音し、反射音を第２収音装置３（ｇ１２）で収音する例である。

【0031】

以下の説明においては、ｘ（ｔ）を時刻ｔにおける離散音響信号とする。
音響特徴量抽出部５２（ｇ２１）では、三角関数と周波数領域の相互相関を用いることで音響の特徴を抽出し、ネットワーク（生成器５３１（ｇ４２））への入力を作成する。
ｘ（ｔ）のｍ番目のフレームとｋ番目の周波数ビンにおける短時間フーリエ変換（ＳＴＦＴ）で得られるスペクトルＸ（ｍ，ｋ）は、窓関数ｗ（ｔ）を用いて次式（１）で表される。

【0032】

【数1】

【0033】

なお、式（１）において、ＮはＳＴＦＴのフレーム長であり、ＳはＳＴＦＴのフレームシフト量である。
図２のように、本実施形態では、スピーカーからの送信波（直接波）と、障害物で反射した受信波（反射波）に対応する２種類の音響信号ｘ_ｓとｘ_ｒを利用する。
そして、音響特徴量抽出部５２（ｇ２１）のＳＴＦＴ部５２１（ｇ２２）は、ｘ_ｓ（ｔ）、ｘ_ｒ（ｔ）に対してＳＴＦＴを行うことで、ｍ番目のフレームとｋ番目の周波数ビンにおける複素スペクトルＸ_ｓ（ｍ，ｋ）、Ｘ_ｒ（ｍ，ｋ）を算出する。以下の説明では、便宜上、Ｘ_ｓ（ｍ，ｋ）、Ｘ_ｒ（ｍ，ｋ）の行列表現として次式（２）を用いる。

【0034】

【数2】

【0035】

このＸ_ｓとＸ_ｒの差には、再構成される部屋の環境情報が含まれていると考えられる。このため本実施形態では、このような情報を抽出するために、一対のマイクロフォン（第１収音装置２、第２収音装置３）を用いたノイズに強い音源定位として一般的に用いられているＧＣＣ－ＰＨＡＴ（Generalized Cross-Correlation Phase Transform）（参考文献３参照）をベースとして、次式（３）のような相互相関を用いる。ただし、式（３）の右辺の「丸の中にバツ印記号」は、行列の要素ごとの積を表す。

【0036】

【数3】

【0037】

参考文献３；C. Knapp and G. Carter, “The generalized correlation method for estimation of time delay”, IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 24, no. 4, pp. 320-327, 1976

【0038】

ＧＣＣ－ＰＨＡＴは、正規化相互相関を用いてノイズに強い特徴量を生成する。実施形態では、振幅情報がシーン再構成に不可欠な特徴量を含むとしているため、単純に相互相関を行った。これにより、振幅情報がノイズの影響を受けるが、例えばニューラルネットワークを用いることでノイズを処理して正しく特徴を抽出できると考えられる。
すなわち、本実施形態では、ＧＣＣ－ＰＨＡＴをベースとして、送受信信号を周波数領域で相互相関を計算することで、一次元の距離推定を行う。そして、本実施形態では、式（３）の複素スペクトロフラムを学習モデルの入力とする。

【0039】

得られた相互相関Ｃの位相情報は、複素数の値として埋め込まれている。人間や動物は、振幅と位相を別々に扱って音源を定位すると言われている。このため、本実施形態では、抽出部５２２（ｇ２３）が、次式（４）のように振幅Ｃ_Ａと位相Ｃ_φの特徴量を抽出する。ただし、｜Ｃ｜はＣの各要素の絶対値を、Ｉｍ（Ｃ）はＣの各要素の虚部を、Ｒｅ（Ｃ）はＣの各要素の実部を表し、Ｉｍ（Ｃ）「丸の中に斜め線記号」Ｒｅ（Ｃ）はＩｍ（Ｃ）の各要素をＲｅ（Ｃ）の各要素で除算する演算を表す。また、ｌｏｇ１０やａｒｃｔａｎなどの関数は行列の要素ごとに値を計算する。

【0040】

【数4】

【0041】

式（４）において、Ｃ_φの位相情報は周期的であり、２πと０の間には直線軸上の不連続性が存在する。一般的に、ニューラルネットワークはこのような入力（例えば次式（５））を想定していない。

【0042】

【数5】

【0043】

このため、実施形態では、Ｃ_φを直接使うのではなく、Ｃ_φの各要素をｃｏｓとｓｉｎで計算したＣ_ｃｏｓφ、Ｃ_ｓｉｎφのペアを使用することで位相周期の問題を解決した。なお、ｓｉｎとｃｏｓであれば、１～－１の連続な値を持つ。

【0044】

抽出部５２２は、次式（６）の音響特徴量Ｃ_３ＤＣ（ｍ，ｋ）（ｇ３１）を視覚シーン再構成部５３（ｇ４１）へ出力する。

【0045】

【数6】

【0046】

図３は、本実施形態の音響特徴量Ｃ_３ＤＣを可視化した例を示す図である。図３において、横軸は時間、縦軸は周波数である。

【0047】

視覚シーン再構成部５３では、上述したようにニューラルネットワークとしてＧＡＮを使用し、音響特徴量抽出部５２（ｇ２１）が抽出した音響特徴量Ｃ_３ＤＣ（ｍ，ｋ）から視覚シーンを再構成する。ＧＡＮは、生成タスクに特化したニューラルネットワークであり、ＧｅｎｅｒａｔｏｒＧ（生成器５３１）（ｇ４２）という生成モデルとＤｉｓｃｒｉｍｉｎａｔｏｒＤ（識別器５３２）（ｇ４３）という識別モデルを用いて学習することができる。

【0048】

視覚シーン再構成部５３は、学習アルゴリズムとして、例えばｐｉｘ２ｐｉｘを用いる。ｐｉｘ２ｐｉｘでは、入力画像から出力画像への変換を学習する。視覚シーン再構成部５３では、ｐｉｘ２ｐｉｘの入力を次式（７）の音響特徴量Ｃ_３ＤＣとし、出力を深度カメラ（ｇ３２）である撮影装置４で撮影された次式（８）の深度画像Ｉ_３Ｄ（ｇ３３）として、入出力間のマッピングを学習する。

【0049】

【数7】

【0050】

【数8】

【0051】

なお、式（８）において、Ｗは深度画像の幅、Ｈは高さである。
また、視覚シーン再構成部５３は、Ｃ_３ＤＣとＩ_３Ｄのマッピングを学習している（次式（９））。

【0052】

【数9】

【0053】

このとき、目的関数は次式（１０）で表される。

【0054】

【数10】

【0055】

式（１０）において、Ｅ（二重線文字）は期待値記号である。
生成器５３１は、式（１０）を最小化する。識別器５３２は、それを最大化しようとする。学習過程は、次式（１１）で定義されたＧ（筆記体）^＊を推定する。

【0056】

【数11】

【0057】

＜ｐｉｘ２ｐｉｘの仕組み＞
次に、ｐｉｘ２ｐｉｘの仕組みについて概要を説明する。
本実施形態では、深度画像の生成に敵対的生成ネットワーク（ＧＡＮ）を使用した。そして、本実施形態では、２つのネットワークを交互に競わせながら学習させるようにした。２つのネットワークとは、上述した生成器５３１（Generator）が備える生成モデルと、識別器５３２（Discriminator）が備える識別モデルである。また、上述したように、学習アルゴリズムとして、例えばｐｉｘ２ｐｉｘを用いた。

【0058】

図４は、ｐｉｘ２ｐｉｘの仕組みを説明するための図である。図４のように、生成器５３１（ｇ１５１）は、収音された音響信号から音響特徴量抽出部５２が抽出した音響特徴量を用いて、視覚シーンを再構成した再構成画像ｇ１１１を生成する。この再構成画像ｇ１１１と、音響特徴量の特徴量画像ｇ１０１とを生成したペアｇ１１０とする。
また、撮影装置４が撮影した画像ｇ１２１と、音響特徴量の特徴量画像ｇ１０１とを本物のペアｇ１２０とする。

【0059】

識別器５３２には、生成したペアｇ１１０と、本物のペアｇ１２０とが入力される。識別器５３２は、この２つのペアを比較して、生成したペアが本物（正解）であるか否かを識別する。

【0060】

＜処理手順例＞
次に、処理手順例を説明する。
図５は、本実施形態に係る視覚シーン再構成装置が行う処理のフローチャートである。

【0061】

（ステップＳ１）取得部５１は、第１収音装置２が収音した直接音ｘ_ｓと、第２収音装置３が収音した反射音ｘ_ｒを取得する。

【0062】

（ステップＳ２）ＳＴＦＴ部５２１は、収音された直接音ｘ_ｓと反射音ｘ_ｒに対して短時間フーリエ変換（ＳＴＦＴ）を行う。

【0063】

（ステップＳ３）音響特徴量抽出部５２の抽出部５２２は、短時間フーリエ変換した信号から音響特徴量を抽出する。

【0064】

（ステップＳ４）生成器５３１は、音響特徴量から視覚シーンを再構成する。

【0065】

（ステップＳ５）出力部５４は、視覚シーン再構成部５３が再構成した画像を表示装置６に出力する。
なお、図５に示した処理手順は一例であり、これに限らない。

【0066】

次に、学習時の処理手順例を説明する。
図６は、本実施形態に係る視覚シーン再構成装置の学習時のフローチャートである。

【0067】

（ステップＳ１～Ｓ４）視覚シーン再現システム１は、ステップＳ１～Ｓ４の処理を行う。

【0068】

（ステップＳ１１）取得部５１は、撮影装置４が撮影した画像を取得する。

【0069】

（ステップＳ１２）識別器５３２は、正解画像と再構成画像とを比較して、正解であるか不正解であるかを識別する。視覚シーン再構成部５３は、生成モデル５３１と識別モデル５３２を用いて学習する。処理後、視覚シーン再現システム１は、ステップＳ１の処理に戻す。

【0070】

なお、図６に示した処理手順は一例であり、これに限らない。例えば、視覚シーン再現システム１は、ステップＳ１の処理とステップＳ１１を同時に行ってもよい。

【0071】

＜評価＞
次に、視覚シーン再構成装置５を用いて、評価を行った例を図７～図９を参照しつつ説明する。
評価は、図７に示す第１状態の部屋（画像ｇ２００）と、第２状態の部屋（画像ｇ２１０）で行った。図７は、評価を行った部屋の状態を示す図である。それぞれの部屋に、収音装置、スピーカー（ｇ２０１）を設置して、スピーカーの向きを変えて複数の場所で収音を行った後、同じ場所で深度画像を撮影装置で撮影した。図７のように、第２状態の部屋は、部屋にある物体が第１状態の部屋より多い。

【0072】

図８は、評価に用いた収音装置、スピーカーおよび撮影装置を示す図である。画像ｇ２５０は、評価に用いた収音装置、スピーカーである。画像ｇ２５０のように、床に対して水平に回転可能なターンテーブルｇ２５１に、スピーカーｇ２５２を設置した。また、スピーカーの振動板に近いスピーカー表面に第１収音装置２（ｇ２５３）を設置して直接音を収音し、スピーカーの上部に第２収音装置３（ｇ２５４）を設置し反射音を収音した。図９は、評価に用いたターンテーブルの仕様を示す図である。また、第１収音装置２と第２収音装置３には、ＭＥＭＳ（ＭｉｃｒｏＥｌｅｃｔｒｏＭｅｃｈａｎｉｃａｌＳｙｓｔｅｍｓ）マイクロフォンを用いた。第１収音装置２と第２収音装置３は、マルチチャンネルオーディオレコーダーｇ２５５を用いて同期録音を行った。なお、録音は、サンプリング周波数を１６（ｋＨｚ）、分解能を２４（ｂｉｔ）で行った。

【0073】

画像ｇ２６０は、評価に用いた撮影装置である。画像ｇ２６０のように、ターンテーブルｇ２５１に、深度カメラである撮影装置ｇ２６１を設置した。撮影装置ｇ２６１は、正解画像として使用する深度画像を収集する。画像サイズを２５６×２５６ピクセル（Ｗ＝Ｈ＝２５６）に設定した。図１０は、撮影装置で撮影したＲＧＢ画像と深度画像の例を示す図である。画像ｇ３０１はＲＧＢ画像例であり、画像ｇ３０２は深度画像例である。なお、評価において、深度画像の各画素の値ｖと実際の距離ｄ（ｃｍ）の関係は、ｄ＝１．２５×ｖで表される。

【0074】

次に、評価に用いた音響信号を説明する。
評価では、スピーカーから１０００（Ｈｚ）から５０００（Ｈｚ）へ線形に周波数が変化するチャープ信号を２秒間発して収音を行った。また、録音の際には、ホワイトノイズを意図的に加えてＳＮ比を２０（ｄＢ）にすることで、日常的な室内環境のノイズレベルを再現した。

【0075】

評価データは、第１状態の部屋の２５箇所と、第２状態の部屋の３箇所の計２８箇所で取得した。評価では、ターンテーブルを０度から３６０度まで２０度間隔で回転させ、１地点あたり１８方向とした。また、評価では、それぞれの方向で２０個のサンプルを取得した。最終的に、１０，０８０組（２８×１８×２０）の音響データと深度画像データからなるデータセットを構築した。このデータセットは、トレーニング用に７，９２０組、検証用の１，０８０組、テスト用の１，０８０組の３セットで構成されている。

【0076】

図１１は、入力画像（音響特徴量）を可視化した例を示す図である。画像ｇ４０１は、位相表現なし（位相情報は用いるがｓｉｎとｃｏｓに分けない）且つ相互相関なし（受信信号のみ）の場合の音響特徴量Ｃ_２Ｄ＝［Ｘ_ｒＡ，Ｘ_ｒφ］である。画像ｇ４０２は、位相表現あり（ｓｉｎとｃｏｓに分けない）且つ相互相関なしの場合の音響特徴量Ｃ_３Ｄ＝［Ｘ_ｒＡ，Ｘ_{ｒｃｏｓφ}，Ｘ_{ｒｓｉｎφ}］である。画像ｇ４０３は、位相表現なし且つ相互相関ありの場合の音響特徴量Ｃ_２ＤＣ＝［Ｃ_Ａ，Ｃ_φ］である。画像ｇ４０４は、位相表現あり且つ相互相関ありの場合の音響特徴量Ｃ_３ＤＣ＝［Ｃ_Ａ，Ｃ_ｃｏｓφ，Ｃ_ｓｉｎφ］である。なお、評価では、各音響特徴量を、２５６×２５６ピクセルの画像（Ｗ＝Ｈ＝２５６）で表現することとした。

【0077】

なお、音響特徴量Ｃ_２ＤとＣ_２ＤＣも評価対象にした理由は、周期情報の不連続性への影響を確認するためである。もし、ニューラルネットワークに対して与える影響が少ない場合は、位相情報をそのままＤＮＮに入力できる可能性がある。この場合は、位相情報をｓｉｎ、ｃｏｓに分けて入力の次元数を増やすことなく扱うことができるので、ネットワークのパラメータ数を減らすことができる。
また、パッシブセンシングの可能性を検討するために、評価では、音響特徴量Ｃ_３ＤとＣ_２Ｄを選択した。この２つは、送信音（直接音）を使わずに反射音の情報のみ利用する。反射音だけでシーンがよく再現される場合は、パッシブセンシングでシーンの再現が可能となり、スピーカーは不要となる可能性がある。

【0078】

上記評価環境と評価条件で、以下を評価した。
Ｉ．再構成された画像の品質の定性的な評価。
ＩＩ．１，０８０個のテストデータについて、再構成画像と正解画像の間のピクセルベースの平均絶対誤差を計算することによる再構成誤差。
ＩＩＩ．距離の変化に伴う再構成誤差とデータ数の関係。
また、すべての評価における学習では、エポック数を３００、バッチサイズを８とした。学習率は、最初の１５０エポックで０．０００２とし、その後線形に減衰させた（３０１番目のエポックで０とした）。

【0079】

図１２は、評価結果の再構成画像例等を示す図である。
画像ｇ５００は、撮影装置で撮影したＲＧＢ画像である。画像ｇ５１０は、撮影装置で撮影した深度画像である。画像ｇ５２０は、入力に音響特徴量Ｃ_３ＤＣを用いて再構成した画像である（実施形態の手法）。画像ｇ５３０は、入力に音響特徴量Ｃ_２ＤＣを用いて再構成した画像である（比較例）。画像ｇ５４０は、入力に音響特徴量Ｃ_３Ｄを用いて再構成した画像である（比較例）。画像ｇ５５０は、入力に音響特徴量Ｃ_２Ｄを用いて再構成した画像である（比較例）。

【0080】

また、画像ｇ５００～ｇ５５０において、１列目の画像ｇ５０１、ｇ５１１、ｇ５２１、ｇ５３１、ｇ５４１およびｇ５５１と、２列目の画像ｇ５０２、ｇ５１２、ｇ５２２、ｇ５３２、ｇ５４２およびｇ５５２は、第１状態の部屋で評価した結果である。３列目の画像ｇ５０３、ｇ５１３、ｇ５２３、ｇ５３３、ｇ５４３およびｇ５５３は、第２状態の部屋で評価した結果である。

【0081】

なお、画像ｇ５１０において、明るい（白）の領域は撮影装置４から近いことを示し、暗い（黒）領域は撮影装置４から遠いことを示している。
図１２のように、本実施形態の手法による音響特徴量Ｃ_３ＤＣを用いて学習した場合は、正解画像に近い画像を得ることができた。
一方で、音響特徴量Ｃ_２ＤＣやＣ_２Ｄのように位相情報を直接用いて学習した場合は、大幅な性能低下が見られ、視覚的なシーンを再構成することが困難であった。また、反射信号のみを用いた場合には、大幅な性能低下が見られた。

【0082】

図１３は、４つの音響特徴のピクセルベースの平均絶対誤差を示す図である。図１３において、横軸は項目、縦軸は平均絶対誤差（ｃｍ）である。
音響特徴量Ｃ_３ＤＣ、Ｃ_２ＤＣと、Ｃ_３Ｄ、Ｃ_２Ｄとを比較すると、相互相関の導入したＣ_２ＤＣとＣ_２ＤＣは、再構成誤差が大幅に減少している。
また、ｃｏｓとｓｉｎの特徴量を利用したものが、再構成性能が大幅に向上している。そして、実施形態の手法のように提案した入力を音響特徴量Ｃ_３ＤＣとした場合は、４種類の中で最も高い性能が得られた。

【0083】

図１４は、画素単位の平均絶対誤差との変化に応じたデータカウント数の変化距離を示す図である。横軸は、正しい距離をセンチメートル単位で示している。棒グラフｇ６０１は、画素単位の平均絶対誤差との変化であり、縦軸は画素単位の平均絶対誤差（ｃｍ）である。線グラフｇ６０２は、変化に応じたデータカウント数であり、縦軸はカウント数（×１０^５）である。

【0084】

データセットには１００ｃｍ以上の近距離と２５０ｃｍ以上の遠距離のサンプルが少なからず含まれているため、中距離のシーン再構成の性能は良好であるが、近距離と遠距離の再構成は劣化している。この問題を解決する一つの方法としては、例えば、距離と学習データ量に応じて損失関数に動的な重み付けを導入するようにしてもよい。

【0085】

＜従来技術との比較＞
従来技術では、ＲＧＢまたは深度センサのいずれかまたはカメラとＬＩＤＡＲの両方を用いている。これらのセンサは、通常、正確な情報を生成できるが、カメラは照明条件の変化に敏感であるため、暗い場所での使用が難しく、透明な素材を検出するのが困難である。さらに、従来技術では、プライバシーの問題が発生する可能性がある。ＬＩＤＡＲでは、複数のＬＩＤＡＲによって引き起こされる信号干渉によってパフォーマンスが低下し、デバイスが破損する場合があるという別の問題がある。また、ＬＩＤＡＲから放射されるレーザーは、人が多い場所で使用すると危険な場合がある。

【0086】

これに対して、本実施形態では、音情報を使った環境画像作成するようにした。本実施形態では、入射音と反射音の相互相関を算出し、相互相関から振幅成分と位相成分を抽出するようにした。本実施形態では、抽出した振幅成分と位相成分を敵対的生成ネットワーク（ＧＡＮ）に入力し、環境画像を作成するようにした。

【0087】

これにより、本実施形態によれば、（可聴）音は、照明条件の影響を受けないという利点がある。本実施形態によれば、入力オーディオ機能を考慮したディープラーニング手法と統合することで、環境ノイズに対して改善するようにした。
本実施形態によれば、送信信号と受信信号を周波数領域で相互相関させ、位相を適切に表現することで、シーン復元性能が大幅に向上させることができた。

【0088】

なお、上述した実施形態では、特徴量として位相表現ありかつ相互相関ありのＣ_３ＤＣ（図１１）を用いたが、これに限らない。特徴量は、他の位相表現なしかつ相互相関なしのＣ_２Ｄ、位相表現なしかつ相互相関ありのＣ_３Ｄ、位相表現なしかつ相互相関ありのＣ_２ＤＣであってもよい。このような特徴量を用いて再構成した場合であっても、光を用いた手法や超音波を用いた手法の従来技術の問題点を改選できる。どの特徴量を用いるかを、例えば、利用者が環境や使用条件によって選択したり切り替えるようにしてもよい。

【0089】

また、上述した実施例では、２つのマイクロフォンを用いて、それぞれのマイクロフォンが直接音と反射音とを収音する例を説明したが、これに限らない。例えば、音響特徴量抽出部５２が、収音された音響信号に対して、周知の手法で音源定位処理、音源分離処理等を行うことで、直接音と反射音とを分離するようにしてもよい。

【0090】

なお、上述した実施例では、学習アルゴリズムとしてｐｉｘ２ｐｉｘを用いる例を説明したが、これに限らない。学習アルゴリズムは、ＧＡＮを用いた他の手法であってもよく、さらにはＧＡＮを用いない手法であってもよい。

【0091】

また、上述した実験では、スピーカーから音響信号を発し、それを収音する例を説明したが、直接音と反射音はこれに限らない。例えば、部屋で話者が話している場合、話者が取り付けている（または手にしている）マイクロフォンで直接音を収音し、この直接音を用いて、学習や再構成を行うようにしてもよい。

【0092】

また、上述した例では、生成器５３１が、ＧＡＮを使用したニューラルネットワークの生成モデルを備える例を説明したが、これに限らない。学習モデルは、他のモデルであってもよい。また、学習モデルは、ニューラルネットワークに限らず、他の学習モデル、例えば、ニアレストネイバー法、決定木、ランダムフォレスト、サポートベクターマシン等のいずれかであってもよい。

【0093】

なお、上述した実施例では、直接音と反射音を周波数領域で相互相関を計算した結果を生成器５３１に入力する例を説明したが、これに限らない。例えば、直接音と反射音を周波数領域の情報それぞれを生成器５３１に入力するようにしてもよい。この場合は、学習の際も直接音と反射音を周波数領域の情報それぞれを用いるようにしてもよい。

【0094】

なお、本発明における視覚シーン再構成装置５の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより視覚シーン再構成装置５の処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

【0095】

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

【0096】

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。

【符号の説明】

【0097】

１…視覚シーン再現システム、２…第１収音装置、３…第２収音装置、４…撮影装置、５…視覚シーン再構成装置、６…表示装置、５１…取得部、５２…音響特徴量抽出部、５３…視覚シーン再構成部、５４…出力部、５２１…ＳＴＦＴ部、５２２…抽出部、５３１…生成器、５３２…識別器

【図1】