IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 本田技研工業株式会社の特許一覧 ▶ 国立大学法人東京工業大学の特許一覧

特許7575730視覚シーン再構成装置、視覚シーン再構成方法、およびプログラム
<>
  • 特許-視覚シーン再構成装置、視覚シーン再構成方法、およびプログラム 図1
  • 特許-視覚シーン再構成装置、視覚シーン再構成方法、およびプログラム 図2
  • 特許-視覚シーン再構成装置、視覚シーン再構成方法、およびプログラム 図3
  • 特許-視覚シーン再構成装置、視覚シーン再構成方法、およびプログラム 図4
  • 特許-視覚シーン再構成装置、視覚シーン再構成方法、およびプログラム 図5
  • 特許-視覚シーン再構成装置、視覚シーン再構成方法、およびプログラム 図6
  • 特許-視覚シーン再構成装置、視覚シーン再構成方法、およびプログラム 図7
  • 特許-視覚シーン再構成装置、視覚シーン再構成方法、およびプログラム 図8
  • 特許-視覚シーン再構成装置、視覚シーン再構成方法、およびプログラム 図9
  • 特許-視覚シーン再構成装置、視覚シーン再構成方法、およびプログラム 図10
  • 特許-視覚シーン再構成装置、視覚シーン再構成方法、およびプログラム 図11
  • 特許-視覚シーン再構成装置、視覚シーン再構成方法、およびプログラム 図12
  • 特許-視覚シーン再構成装置、視覚シーン再構成方法、およびプログラム 図13
  • 特許-視覚シーン再構成装置、視覚シーン再構成方法、およびプログラム 図14
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-22
(45)【発行日】2024-10-30
(54)【発明の名称】視覚シーン再構成装置、視覚シーン再構成方法、およびプログラム
(51)【国際特許分類】
   G01S 15/89 20060101AFI20241023BHJP
【FI】
G01S15/89 B
【請求項の数】 9
(21)【出願番号】P 2021143488
(22)【出願日】2021-09-02
(65)【公開番号】P2023036435
(43)【公開日】2023-03-14
【審査請求日】2023-09-11
(73)【特許権者】
【識別番号】000005326
【氏名又は名称】本田技研工業株式会社
(73)【特許権者】
【識別番号】304021417
【氏名又は名称】国立大学法人東京科学大学
(74)【代理人】
【識別番号】100165179
【弁理士】
【氏名又は名称】田▲崎▼ 聡
(74)【代理人】
【識別番号】100126664
【弁理士】
【氏名又は名称】鈴木 慎吾
(74)【代理人】
【識別番号】100154852
【弁理士】
【氏名又は名称】酒井 太一
(74)【代理人】
【識別番号】100194087
【弁理士】
【氏名又は名称】渡辺 伸一
(72)【発明者】
【氏名】中臺 一博
(72)【発明者】
【氏名】岸波 華彦
(72)【発明者】
【氏名】糸山 克寿
(72)【発明者】
【氏名】西田 健次
【審査官】梶田 真也
(56)【参考文献】
【文献】特開2021-015084(JP,A)
【文献】特開2021-092475(JP,A)
【文献】米国特許出願公開第2020/0085407(US,A1)
【文献】米国特許第09598076(US,B1)
(58)【調査した分野】(Int.Cl.,DB名)
G01S 7/00 - 7/64
G01S 13/00 - 17/95
(57)【特許請求の範囲】
【請求項1】
送信波を送信するスピーカーと、
前記スピーカーからの前記送信波に対応する直接音と、前記送信波が障害物で反射した反射波に対応する反射音それぞれを分離して取得する取得部と、
前記直接音と前記反射音について、短時間フーリエ変換を行い、m番目のフレームとk番目の周波数ビンにおける複素スペクトルX (m,k)とX (m,k)を算出し、前記複素スペクトルX (m,k)と前記複素スペクトルX (m,k)の相互相関を行い、振幅情報と位相情報を有する音響特徴量を生成する特徴量生成部と、
音響特徴量を入力とし、深度画像を出力として学習した学習モデルを用いて、生成された前記音響特徴量を入力して深度画像を出力させることで視覚シーンを再構成する再構成部と、
を備える視覚シーン再構成装置。
【請求項2】
送信波を送信するスピーカーと、
前記スピーカーからの前記送信波に対応する直接音を取得する第1取得部と、
前記送信波が障害物で反射した反射波に対応する反射音を取得する第2取得部と、
前記直接音と前記反射音について、短時間フーリエ変換を行い、m番目のフレームとk番目の周波数ビンにおける複素スペクトルX (m,k)とX (m,k)を算出し、前記複素スペクトルX (m,k)と前記複素スペクトルX (m,k)の相互相関を行い、振幅情報と位相情報を有する音響特徴量を生成する特徴量生成部と、
音響特徴量を入力とし、深度画像を出力として学習した学習モデルを用いて、生成された前記音響特徴量を入力して深度画像を出力させることで視覚シーンを再構成する再構成部と、
を備える視覚シーン再構成装置。
【請求項3】
前記特徴量生成部は、前記位相情報を、三角関数を用いてsinとcosに分けて使用し、
前記音響特徴量は、前記振幅情報と、前記sinの位相情報と、前記cosの位相情報とを備える、
請求項2に記載の視覚シーン再構成装置。
【請求項4】
前記学習モデルは、敵対的生成ネットワーク(GAN;Generative Adversarial Network)を使用したニューラルネットワークである、
請求項2または請求項3に記載の視覚シーン再構成装置。
【請求項5】
少なくとも深度情報を有する教師画像を撮影する撮影装置と、
前記教師画像と、前記深度画像とを比較して、正解であるか否かを識別する識別器と、を更に備え、
前記再構成部は、学習時に、前記教師画像と前記音響特徴量との組と、前記深度画像と前記音響特徴量との組と、の間のマッピング学習を行う、
請求項1から請求項4のうちのいずれか1項に記載の視覚シーン再構成装置。
【請求項6】
取得部が、スピーカーからの送信波に対応する直接音と、前記送信波が障害物で反射した反射波に対応する反射音それぞれを分離して取得し、
特徴量生成部が、前記直接音と前記反射音について、短時間フーリエ変換を行い、m番目のフレームとk番目の周波数ビンにおける複素スペクトルX (m,k)とX (m,k)を算出し、前記複素スペクトルX (m,k)と前記複素スペクトルX (m,k)の相互相関を行い、振幅情報と位相情報を有する音響特徴量を生成し、
再構成部が、音響特徴量を入力とし、深度画像を出力として学習した学習モデルを用いて、生成された前記音響特徴量を入力して深度画像を出力させることで視覚シーンを再構成する、
視覚シーン再構成方法。
【請求項7】
第1取得部が、スピーカーからの送信波に対応する直接音を取得し、
第2取得部が、前記送信波が障害物で反射した反射波に対応する反射音を取得し、
特徴量生成部が、前記直接音と前記反射音について、短時間フーリエ変換を行い、m番目のフレームとk番目の周波数ビンにおける複素スペクトルX (m,k)とX (m,k)を算出し、前記複素スペクトルX (m,k)と前記複素スペクトルX (m,k)の相互相関を行い、振幅情報と位相情報を有する音響特徴量を生成し、
再構成部が、音響特徴量を入力とし、深度画像を出力として学習した学習モデルを用いて、生成された前記音響特徴量を入力して深度画像を出力させることで視覚シーンを再構成する、
視覚シーン再構成方法。
【請求項8】
コンピュータに、
スピーカーからの送信波に対応する直接音と、前記送信波が障害物で反射した反射波に対応する反射音それぞれを分離して取得させ、
前記直接音と前記反射音について、短時間フーリエ変換を行い、m番目のフレームとk番目の周波数ビンにおける複素スペクトルX (m,k)とX (m,k)を算出し、前記複素スペクトルX (m,k)と前記複素スペクトルX (m,k)の相互相関を行い、振幅情報と位相情報を有する音響特徴量を生成させ、
音響特徴量を入力とし、深度画像を出力として学習した学習モデルを用いて、生成された前記音響特徴量を入力して深度画像を出力させることで視覚シーンを再構成させる
プログラム。
【請求項9】
コンピュータに、
スピーカーからの送信波に対応する直接音を取得させ、
前記送信波が障害物で反射した反射波に対応する反射音を取得させ、
前記直接音と前記反射音について、短時間フーリエ変換を行い、m番目のフレームとk番目の周波数ビンにおける複素スペクトルX (m,k)とX (m,k)を算出し、前記複素スペクトルX (m,k)と前記複素スペクトルX (m,k)の相互相関を行い、振幅情報と位相情報を有する音響特徴量を生成させ、
音響特徴量を入力とし、深度画像を出力として学習した学習モデルを用いて、生成された前記音響特徴量を入力して深度画像を出力させることで視覚シーンを再構成させる、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、視覚シーン再構成装置、視覚シーン再構成方法、およびプログラムに関する。
【背景技術】
【0002】
ロボティクスの分野では、例えばカメラやLIDAR(LIght Detection And Ranging)などのRGBセンサや深度センサ、またはその両方を用いた視覚ベースの処理でシーン理解が研究されてきた(例えば非特許文献1参照)。これらのセンサは、通常、正確な情報を生成できる。
【先行技術文献】
【非特許文献】
【0003】
【文献】S. Thrun, W. Burgard, and D. Fox, “Probabilistic robotics”, Cambridge, Mass.: MIT Press, 2005.
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、カメラを用いる従来技術では、照明条件の変化に敏感であるため、暗い場所での使用は難しく、透明な物質を検出することも困難であり、さらにプライバシーの問題も発生する。また、LIDARを用いる従来技術では、LIDARから照射されるレーザーは人が多く集まる場所で使用すると危険な可能性がある。
【0005】
本発明は、上記の問題点に鑑みてなされたものであって、照明条件の影響を受けず、人体に影響を及ぼさない視覚シーン再構成装置、視覚シーン再構成方法、およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
(1)上記目的を達成するため、本発明の一態様に係る視覚シーン再構成装置は、直接音と反射音それぞれを分離して取得する取得部と、前記直接音と前記反射音のうちの少なくとも1つについて、振幅情報と位相情報を有する特徴情報を生成する特徴量生成部と、前記特徴情報を学習モデルの入力とし、深度画像を前記学習モデルに出力させることで音響信号を用いて視覚シーンを再構成する再構成部と、を備える。
【0007】
(2)上記目的を達成するため、本発明の一態様に係る視覚シーン再構成装置は、直接音を取得する第1取得部と、反射音を取得する第2取得部と、前記直接音と前記反射音とに基づき、前記直接音と前記反射音との間の特徴情報を生成する特徴量生成部と、前記特徴情報を学習モデルの入力とし、深度画像を前記学習モデルに出力させることで音響信号を用いて視覚シーンを再構成する再構成部と、を備える。
【0008】
(3)また、本発明の一態様に係る視覚シーン再構成装置において、前記特徴量生成部は、前記特徴情報として、前記直接音と前記反射音の相互相関より求めた振幅情報と位相情報を生成し、前記再構成部に生成した前記振幅情報と位相情報を入力するようにしてもよい。
【0009】
(4)また、本発明の一態様に係る視覚シーン再構成装置において、前記特徴量生成部は、前記位相情報を、三角関数を用いてsinとcosに分けて使用し、前記特徴情報は、前記振幅情報と、前記sinの位相情報と、前記cosの位相情報とを備えるようにしてもよい。
【0010】
(5)また、本発明の一態様に係る視覚シーン再構成装置において、前記学習モデルは、敵対的生成ネットワーク(GAN;Generative Adversarial Network)を使用したニューラルネットワークであるようにしてもよい。
【0011】
(6)また、本発明の一態様に係る視覚シーン再構成装置において、少なくとも深度情報を有する教師画像を撮影する撮影装置と、前記教師画像と、前記深度画像とを比較して、正解であるか否かを識別する識別器と、を更に備え、前記再構成部は、学習時に、前記教師画像と前記特徴情報との組と、前記深度画像と前記特徴情報との組と、の間のマッピング学習を行うようにしてもよい。
【0012】
(7)上記目的を達成するため、本発明の一態様に係る視覚シーン再構成方法は、取得部が、直接音と反射音それぞれを分離して取得し、特徴量生成部が、前記直接音と前記反射音のうちの少なくとも1つについて、振幅情報と位相情報を有する特徴情報を生成し、再構成部が、前記特徴情報を学習モデルの入力とし、深度画像を前記学習モデルに出力させることで音響信号を用いて視覚シーンを再構成する。
【0013】
(8)上記目的を達成するため、本発明の一態様に係る視覚シーン再構成方法は、第1取得部が、直接音を取得し、第2取得部が、反射音を取得し、特徴量生成部が、前記直接音と前記反射音とに基づき、前記直接音と前記反射音との間の特徴情報を生成し、再構成部が、前記特徴情報を学習モデルの入力とし、深度画像を前記学習モデルに出力させることで音響信号を用いて視覚シーンを再構成する。
【0014】
(9)上記目的を達成するため、本発明の一態様に係るプログラムは、コンピュータに、直接音と反射音それぞれを分離して取得させ、前記直接音と前記反射音のうちの少なくとも1つについて、振幅情報と位相情報を有する特徴情報を生成させ、前記特徴情報を学習モデルの入力とし、深度画像を学習モデルに出力させることで音響信号を用いて視覚シーンを再構成させる。
【0015】
(10)上記目的を達成するため、本発明の一態様に係るプログラムは、コンピュータに、直接音を取得させ、反射音を取得させ、前記直接音と前記反射音とに基づき、前記直接音と前記反射音との間の特徴情報を生成させ、前記特徴情報を学習モデルの入力とし、深度画像を前記学習モデルに出力させることで音響信号を用いて視覚シーンを再構成させる。
【発明の効果】
【0016】
(1)~(6)によれば、照明条件の影響を受けず、人体に影響を及ぼさない視覚シーン再構成装置を提供することができる。
(7)、(8)によれば、照明条件の影響を受けず、人体に影響を及ぼさない視覚シーン再構成方法を提供することができる。
(9)、(10)によれば、照明条件の影響を受けず、人体に影響を及ぼさないプログラムを提供することができる。
【図面の簡単な説明】
【0017】
図1】実施形態に係る視覚シーン再現システムの構成例を示す図である。
図2】実施形態に係る視覚シーン再構成装置のアーキテクチャを示す図である。
図3】実施形態の音響特徴量C3DCを可視化した例を示す図である。
図4】pix2pixの仕組みを説明するための図である。
図5】実施形態に係る視覚シーン再構成装置が行う処理のフローチャートである。
図6】実施形態に係る視覚シーン再構成装置の学習時のフローチャートである。
図7】評価を行った部屋の状態を示す図である。
図8】評価に用いた収音装置、スピーカーおよび撮影装置を示す図である。
図9】評価に用いたターンテーブルの仕様を示す図である。
図10】撮影装置で撮影したRGB画像と深度画像の例を示す図である。
図11】入力画像(音響特徴量)を可視化した例示す図である。
図12】評価結果の再構成画像例等を示す図である。
図13】4つの音響特徴のピクセルベースの平均絶対誤差を示す図である。
図14】画素単位の平均絶対誤差との変化に応じたデータカウント数の変化距離を示す図である。
【発明を実施するための形態】
【0018】
以下、本発明の実施の形態について図面を参照しながら説明する。なお、以下の説明に用いる図面では、各部材を認識可能な大きさとするため、各部材の縮尺を適宜変更している。
【0019】
<概要>
実施形態では、可聴音を用いたエコロケーションを用いたシーン再構成(EchoLocation-based Scene Reconstruction: ELSR)のフレームワークによって、視覚シーンの再現を行う。なお、エコロケーションとは、反響定位である。
【0020】
ここで、本実施形態で可聴音を用いる理由を説明する。近年、音によるシーン理解が開発されている。音を用いたロボットの空間認識には、超音波センサが広く使われている。超音波センサは波長が短く、環境ノイズの影響を受けにくいため、高分解能でノイズに強い距離推定が可能である。しかしながら、超音波センサを用いた手法では、超音波が発生し、人間にとっては耳障りな音が発生するのに加え、耳に聞こえない周波数帯に存在するため、気づかないうちに超音波にさらされ、頭痛や吐き気などの症状を引き起こす危険性がある。このため、実施形態では、超音波と同じように照明の影響を受けないなどの利点がありながら、無自覚な被曝リスクが少ない可聴音を用いる。
【0021】
<視覚シーン再現システムの構成例>
図1は、本実施形態に係る視覚シーン再現システムの構成例を示す図である。図1のように、視覚シーン再現システム1は、例えば、第1収音装置2(取得部、第1取得部)、第2収音装置3(取得部、第2取得部)、撮影装置4、視覚シーン再構成装置5、および表示装置6を備える。
視覚シーン再構成装置5は、取得部51、音響特徴量抽出部52(特徴量生成部)、視覚シーン再構成部53(再構成部)、および出力部54を備える。
音響特徴量抽出部52は、STFT部521、および抽出部522を備える。
視覚シーン再構成部53は、生成器531、および識別器532を備える。
【0022】
第1収音装置2は、マイクロフォンであり、直接音xを収音する。なお、第1収音装置2は、録音された直接音xを取得するようにしてもよい。
【0023】
第2収音装置3は、マイクロフォンであり、反射音xを収音する。なお、第2収音装置3は、録音された反射音xを取得するようにしてもよい。
【0024】
撮影装置4は、例えばCCD(Charge Coupled Device)撮像装置またはCMOS(Complementary MOS)撮像装置等の深度カメラであり、収音する環境を撮影する。なお、撮影された画像(教師画像)には、例えば、RGB画像と深度画像が含まれる。深度画像は、学習時の正解画像として使用される。
【0025】
取得部51は、第1収音装置2が収音した直接音xと、第2収音装置3が収音した反射音xを取得する。取得部51は、直接音x、反射音xがアナログ信号の場合、アナログ信号をデジタル信号に変換してもよい。また、学習時に、取得部51は、撮影装置4が撮影した画像を取得し、取得した画像を視覚シーン再構成部53に出力する。
【0026】
音響特徴量抽出部52のSTFT部521は、収音された直接音xと反射音xに対して短時間フーリエ変換(STFT)を行う。音響特徴量抽出部52の抽出部522は、短時間フーリエ変換した信号から音響特徴量(特徴情報)を抽出する。なお、音響特徴量抽出部52の各部の処理方法等については、後述する。
【0027】
視覚シーン再構成部53の生成器531は、例えば敵対的生成ネットワーク(GAN;Generative Adversarial Network)(例えば参考文献1参照)を使用したニューラルネットワークの生成モデルを備える。生成器531は、音響特徴量から視覚シーンを再構成する。再構成された再構成画像は、例えば深度画像である。
識別器532は、正解画像と再構成画像とを比較して、正解であるか不正解であるかを識別する。
視覚シーン再構成部53は、生成モデル531と識別モデル532を用いて学習する。学習アルゴリズムは、例えばpix2pixである。なお、pix2pixは、条件付きGANと呼ばれるタイプのGANである(例えば参考文献2参照)。
【0028】
参考文献1;I. Goodfellow et al., “Generative adversarial Networks”, in NIPS 2014, 2014, pp. 2672-2680
参考文献2;P. Isola et al., “Image-to-image translation with conditional adversarial networks”, in CVPR, 2017 IEEE Conference on, 2017
【0029】
出力部54は、視覚シーン再構成部53が再構成した画像を表示装置6に出力する。なお、表示装置6は、例えば、画像表示装置であってもよく、印字装置であってもよく、ネットワークを介して接続されるスマートフォンやタブレット端末等であってもよい。
【0030】
<視覚シーン再構成装置の処理例>
次に、視覚シーン再構成装置の処理例を説明する。
図2は、本実施形態に係る視覚シーン再構成装置のアーキテクチャを示す図である。なお、図2の例では、スピーカー(g11)から発した音響信号(直接音)を第1収音装置2で収音し、反射音を第2収音装置3(g12)で収音する例である。
【0031】
以下の説明においては、x(t)を時刻tにおける離散音響信号とする。
音響特徴量抽出部52(g21)では、三角関数と周波数領域の相互相関を用いることで音響の特徴を抽出し、ネットワーク(生成器531(g42))への入力を作成する。
x(t)のm番目のフレームとk番目の周波数ビンにおける短時間フーリエ変換(STFT)で得られるスペクトルX(m,k)は、窓関数w(t)を用いて次式(1)で表される。
【0032】
【数1】
【0033】
なお、式(1)において、NはSTFTのフレーム長であり、SはSTFTのフレームシフト量である。
図2のように、本実施形態では、スピーカーからの送信波(直接波)と、障害物で反射した受信波(反射波)に対応する2種類の音響信号xとxを利用する。
そして、音響特徴量抽出部52(g21)のSTFT部521(g22)は、x(t)、x(t)に対してSTFTを行うことで、m番目のフレームとk番目の周波数ビンにおける複素スペクトルX(m,k)、X(m,k)を算出する。以下の説明では、便宜上、X(m,k)、X(m,k)の行列表現として次式(2)を用いる。
【0034】
【数2】
【0035】
このXとXの差には、再構成される部屋の環境情報が含まれていると考えられる。このため本実施形態では、このような情報を抽出するために、一対のマイクロフォン(第1収音装置2、第2収音装置3)を用いたノイズに強い音源定位として一般的に用いられているGCC-PHAT(Generalized Cross-Correlation Phase Transform)(参考文献3参照)をベースとして、次式(3)のような相互相関を用いる。ただし、式(3)の右辺の「丸の中にバツ印記号」は、行列の要素ごとの積を表す。
【0036】
【数3】
【0037】
参考文献3;C. Knapp and G. Carter, “The generalized correlation method for estimation of time delay”, IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 24, no. 4, pp. 320-327, 1976
【0038】
GCC-PHATは、正規化相互相関を用いてノイズに強い特徴量を生成する。実施形態では、振幅情報がシーン再構成に不可欠な特徴量を含むとしているため、単純に相互相関を行った。これにより、振幅情報がノイズの影響を受けるが、例えばニューラルネットワークを用いることでノイズを処理して正しく特徴を抽出できると考えられる。
すなわち、本実施形態では、GCC-PHATをベースとして、送受信信号を周波数領域で相互相関を計算することで、一次元の距離推定を行う。そして、本実施形態では、式(3)の複素スペクトロフラムを学習モデルの入力とする。
【0039】
得られた相互相関Cの位相情報は、複素数の値として埋め込まれている。人間や動物は、振幅と位相を別々に扱って音源を定位すると言われている。このため、本実施形態では、抽出部522(g23)が、次式(4)のように振幅Cと位相Cφの特徴量を抽出する。ただし、|C|はCの各要素の絶対値を、Im(C)はCの各要素の虚部を、Re(C)はCの各要素の実部を表し、Im(C)「丸の中に斜め線記号」Re(C)はIm(C)の各要素をRe(C)の各要素で除算する演算を表す。また、log10やarctanなどの関数は行列の要素ごとに値を計算する。
【0040】
【数4】
【0041】
式(4)において、Cφの位相情報は周期的であり、2πと0の間には直線軸上の不連続性が存在する。一般的に、ニューラルネットワークはこのような入力(例えば次式(5))を想定していない。
【0042】
【数5】
【0043】
このため、実施形態では、Cφを直接使うのではなく、Cφの各要素をcosとsinで計算したCcosφ、Csinφのペアを使用することで位相周期の問題を解決した。なお、sinとcosであれば、1~-1の連続な値を持つ。
【0044】
抽出部522は、次式(6)の音響特徴量C3DC(m,k)(g31)を視覚シーン再構成部53(g41)へ出力する。
【0045】
【数6】
【0046】
図3は、本実施形態の音響特徴量C3DCを可視化した例を示す図である。図3において、横軸は時間、縦軸は周波数である。
【0047】
視覚シーン再構成部53では、上述したようにニューラルネットワークとしてGANを使用し、音響特徴量抽出部52(g21)が抽出した音響特徴量C3DC(m,k)から視覚シーンを再構成する。GANは、生成タスクに特化したニューラルネットワークであり、Generator G(生成器531)(g42)という生成モデルとDiscriminator D(識別器532)(g43)という識別モデルを用いて学習することができる。
【0048】
視覚シーン再構成部53は、学習アルゴリズムとして、例えばpix2pixを用いる。pix2pixでは、入力画像から出力画像への変換を学習する。視覚シーン再構成部53では、pix2pixの入力を次式(7)の音響特徴量C3DCとし、出力を深度カメラ(g32)である撮影装置4で撮影された次式(8)の深度画像I3D(g33)として、入出力間のマッピングを学習する。
【0049】
【数7】
【0050】
【数8】
【0051】
なお、式(8)において、Wは深度画像の幅、Hは高さである。
また、視覚シーン再構成部53は、C3DCとI3Dのマッピングを学習している(次式(9))。
【0052】
【数9】
【0053】
このとき、目的関数は次式(10)で表される。
【0054】
【数10】
【0055】
式(10)において、E(二重線文字)は期待値記号である。
生成器531は、式(10)を最小化する。識別器532は、それを最大化しようとする。学習過程は、次式(11)で定義されたG(筆記体)を推定する。
【0056】
【数11】
【0057】
<pix2pixの仕組み>
次に、pix2pixの仕組みについて概要を説明する。
本実施形態では、深度画像の生成に敵対的生成ネットワーク(GAN)を使用した。そして、本実施形態では、2つのネットワークを交互に競わせながら学習させるようにした。2つのネットワークとは、上述した生成器531(Generator)が備える生成モデルと、識別器532(Discriminator)が備える識別モデルである。また、上述したように、学習アルゴリズムとして、例えばpix2pixを用いた。
【0058】
図4は、pix2pixの仕組みを説明するための図である。図4のように、生成器531(g151)は、収音された音響信号から音響特徴量抽出部52が抽出した音響特徴量を用いて、視覚シーンを再構成した再構成画像g111を生成する。この再構成画像g111と、音響特徴量の特徴量画像g101とを生成したペアg110とする。
また、撮影装置4が撮影した画像g121と、音響特徴量の特徴量画像g101とを本物のペアg120とする。
【0059】
識別器532には、生成したペアg110と、本物のペアg120とが入力される。識別器532は、この2つのペアを比較して、生成したペアが本物(正解)であるか否かを識別する。
【0060】
<処理手順例>
次に、処理手順例を説明する。
図5は、本実施形態に係る視覚シーン再構成装置が行う処理のフローチャートである。
【0061】
(ステップS1)取得部51は、第1収音装置2が収音した直接音xと、第2収音装置3が収音した反射音xを取得する。
【0062】
(ステップS2)STFT部521は、収音された直接音xと反射音xに対して短時間フーリエ変換(STFT)を行う。
【0063】
(ステップS3)音響特徴量抽出部52の抽出部522は、短時間フーリエ変換した信号から音響特徴量を抽出する。
【0064】
(ステップS4)生成器531は、音響特徴量から視覚シーンを再構成する。
【0065】
(ステップS5)出力部54は、視覚シーン再構成部53が再構成した画像を表示装置6に出力する。
なお、図5に示した処理手順は一例であり、これに限らない。
【0066】
次に、学習時の処理手順例を説明する。
図6は、本実施形態に係る視覚シーン再構成装置の学習時のフローチャートである。
【0067】
(ステップS1~S4)視覚シーン再現システム1は、ステップS1~S4の処理を行う。
【0068】
(ステップS11)取得部51は、撮影装置4が撮影した画像を取得する。
【0069】
(ステップS12)識別器532は、正解画像と再構成画像とを比較して、正解であるか不正解であるかを識別する。視覚シーン再構成部53は、生成モデル531と識別モデル532を用いて学習する。処理後、視覚シーン再現システム1は、ステップS1の処理に戻す。
【0070】
なお、図6に示した処理手順は一例であり、これに限らない。例えば、視覚シーン再現システム1は、ステップS1の処理とステップS11を同時に行ってもよい。
【0071】
<評価>
次に、視覚シーン再構成装置5を用いて、評価を行った例を図7図9を参照しつつ説明する。
評価は、図7に示す第1状態の部屋(画像g200)と、第2状態の部屋(画像g210)で行った。図7は、評価を行った部屋の状態を示す図である。それぞれの部屋に、収音装置、スピーカー(g201)を設置して、スピーカーの向きを変えて複数の場所で収音を行った後、同じ場所で深度画像を撮影装置で撮影した。図7のように、第2状態の部屋は、部屋にある物体が第1状態の部屋より多い。
【0072】
図8は、評価に用いた収音装置、スピーカーおよび撮影装置を示す図である。画像g250は、評価に用いた収音装置、スピーカーである。画像g250のように、床に対して水平に回転可能なターンテーブルg251に、スピーカーg252を設置した。また、スピーカーの振動板に近いスピーカー表面に第1収音装置2(g253)を設置して直接音を収音し、スピーカーの上部に第2収音装置3(g254)を設置し反射音を収音した。図9は、評価に用いたターンテーブルの仕様を示す図である。また、第1収音装置2と第2収音装置3には、MEMS(Micro Electro Mechanical Systems)マイクロフォンを用いた。第1収音装置2と第2収音装置3は、マルチチャンネルオーディオレコーダーg255を用いて同期録音を行った。なお、録音は、サンプリング周波数を16(kHz)、分解能を24(bit)で行った。
【0073】
画像g260は、評価に用いた撮影装置である。画像g260のように、ターンテーブルg251に、深度カメラである撮影装置g261を設置した。撮影装置g261は、正解画像として使用する深度画像を収集する。画像サイズを256×256ピクセル(W=H=256)に設定した。図10は、撮影装置で撮影したRGB画像と深度画像の例を示す図である。画像g301はRGB画像例であり、画像g302は深度画像例である。なお、評価において、深度画像の各画素の値vと実際の距離d(cm)の関係は、d=1.25×vで表される。
【0074】
次に、評価に用いた音響信号を説明する。
評価では、スピーカーから1000(Hz)から5000(Hz)へ線形に周波数が変化するチャープ信号を2秒間発して収音を行った。また、録音の際には、ホワイトノイズを意図的に加えてSN比を20(dB)にすることで、日常的な室内環境のノイズレベルを再現した。
【0075】
評価データは、第1状態の部屋の25 箇所と、第2状態の部屋の3 箇所の計28箇所で取得した。評価では、ターンテーブルを0度から360度まで20度間隔で回転させ、1地点あたり18方向とした。また、評価では、それぞれの方向で20個のサンプルを取得した。最終的に、10,080組(28×18×20)の音響データと深度画像データからなるデータセットを構築した。このデータセットは、トレーニング用に7,920組、検証用の1,080組、テスト用の1,080組の3セットで構成されている。
【0076】
図11は、入力画像(音響特徴量)を可視化した例を示す図である。画像g401は、位相表現なし(位相情報は用いるがsinとcosに分けない)且つ相互相関なし(受信信号のみ)の場合の音響特徴量C2D=[XrA,Xrφ]である。画像g402は、位相表現あり(sinとcosに分けない)且つ相互相関なしの場合の音響特徴量C3D=[XrA,Xrcosφ,Xrsinφ]である。画像g403は、位相表現なし且つ相互相関ありの場合の音響特徴量C2DC=[C,Cφ]である。画像g404は、位相表現あり且つ相互相関ありの場合の音響特徴量C3DC=[C,Ccosφ,Csinφ]である。なお、評価では、各音響特徴量を、256×256ピクセルの画像(W=H=256)で表現することとした。
【0077】
なお、音響特徴量C2DとC2DCも評価対象にした理由は、周期情報の不連続性への影響を確認するためである。もし、ニューラルネットワークに対して与える影響が少ない場合は、位相情報をそのままDNNに入力できる可能性がある。この場合は、位相情報をsin、cosに分けて入力の次元数を増やすことなく扱うことができるので、ネットワークのパラメータ数を減らすことができる。
また、パッシブセンシングの可能性を検討するために、評価では、音響特徴量C3DとC2Dを選択した。この2つは、送信音(直接音)を使わずに反射音の情報のみ利用する。反射音だけでシーンがよく再現される場合は、パッシブセンシングでシーンの再現が可能となり、スピーカーは不要となる可能性がある。
【0078】
上記評価環境と評価条件で、以下を評価した。
I.再構成された画像の品質の定性的な評価。
II.1,080個のテストデータについて、再構成画像と正解画像の間のピクセルベースの平均絶対誤差を計算することによる再構成誤差。
III.距離の変化に伴う再構成誤差とデータ数の関係。
また、すべての評価における学習では、エポック数を300、バッチサイズを8とした。学習率は、最初の150エポックで0.0002とし、その後線形に減衰させた(301番目のエポックで0とした)。
【0079】
図12は、評価結果の再構成画像例等を示す図である。
画像g500は、撮影装置で撮影したRGB画像である。画像g510は、撮影装置で撮影した深度画像である。画像g520は、入力に音響特徴量C3DCを用いて再構成した画像である(実施形態の手法)。画像g530は、入力に音響特徴量C2DCを用いて再構成した画像である(比較例)。画像g540は、入力に音響特徴量C3Dを用いて再構成した画像である(比較例)。画像g550は、入力に音響特徴量C2Dを用いて再構成した画像である(比較例)。
【0080】
また、画像g500~g550において、1列目の画像g501、g511、g521、g531、g541およびg551と、2列目の画像g502、g512、g522、g532、g542およびg552は、第1状態の部屋で評価した結果である。3列目の画像g503、g513、g523、g533、g543およびg553は、第2状態の部屋で評価した結果である。
【0081】
なお、画像g510において、明るい(白)の領域は撮影装置4から近いことを示し、暗い(黒)領域は撮影装置4から遠いことを示している。
図12のように、本実施形態の手法による音響特徴量C3DCを用いて学習した場合は、正解画像に近い画像を得ることができた。
一方で、音響特徴量C2DCやC2Dのように位相情報を直接用いて学習した場合は、大幅な性能低下が見られ、視覚的なシーンを再構成することが困難であった。また、反射信号のみを用いた場合には、大幅な性能低下が見られた。
【0082】
図13は、4つの音響特徴のピクセルベースの平均絶対誤差を示す図である。図13において、横軸は項目、縦軸は平均絶対誤差(cm)である。
音響特徴量C3DC、C2DCと、C3D、C2Dとを比較すると、相互相関の導入したC2DCとC2DCは、再構成誤差が大幅に減少している。
また、cosとsinの特徴量を利用したものが、再構成性能が大幅に向上している。そして、実施形態の手法のように提案した入力を音響特徴量C3DCとした場合は、4種類の中で最も高い性能が得られた。
【0083】
図14は、画素単位の平均絶対誤差との変化に応じたデータカウント数の変化距離を示す図である。横軸は、正しい距離をセンチメートル単位で示している。棒グラフg601は、画素単位の平均絶対誤差との変化であり、縦軸は画素単位の平均絶対誤差(cm)である。線グラフg602は、変化に応じたデータカウント数であり、縦軸はカウント数(×10)である。
【0084】
データセットには100cm以上の近距離と250cm以上の遠距離のサンプルが少なからず含まれているため、中距離のシーン再構成の性能は良好であるが、近距離と遠距離の再構成は劣化している。この問題を解決する一つの方法としては、例えば、距離と学習データ量に応じて損失関数に動的な重み付けを導入するようにしてもよい。
【0085】
<従来技術との比較>
従来技術では、RGBまたは深度センサのいずれかまたはカメラとLIDARの両方を用いている。これらのセンサは、通常、正確な情報を生成できるが、カメラは照明条件の変化に敏感であるため、暗い場所での使用が難しく、透明な素材を検出するのが困難である。さらに、従来技術では、プライバシーの問題が発生する可能性がある。LIDARでは、複数のLIDARによって引き起こされる信号干渉によってパフォーマンスが低下し、デバイスが破損する場合があるという別の問題がある。また、LIDARから放射されるレーザーは、人が多い場所で使用すると危険な場合がある。
【0086】
これに対して、本実施形態では、音情報を使った環境画像作成するようにした。本実施形態では、入射音と反射音の相互相関を算出し、相互相関から振幅成分と位相成分を抽出するようにした。本実施形態では、抽出した振幅成分と位相成分を敵対的生成ネットワーク(GAN)に入力し、環境画像を作成するようにした。
【0087】
これにより、本実施形態によれば、(可聴)音は、照明条件の影響を受けないという利点がある。本実施形態によれば、入力オーディオ機能を考慮したディープラーニング手法と統合することで、環境ノイズに対して改善するようにした。
本実施形態によれば、送信信号と受信信号を周波数領域で相互相関させ、位相を適切に表現することで、シーン復元性能が大幅に向上させることができた。
【0088】
なお、上述した実施形態では、特徴量として位相表現ありかつ相互相関ありのC3DC図11)を用いたが、これに限らない。特徴量は、他の位相表現なしかつ相互相関なしのC2D、位相表現なしかつ相互相関ありのC3D、位相表現なしかつ相互相関ありのC2DCであってもよい。このような特徴量を用いて再構成した場合であっても、光を用いた手法や超音波を用いた手法の従来技術の問題点を改選できる。どの特徴量を用いるかを、例えば、利用者が環境や使用条件によって選択したり切り替えるようにしてもよい。
【0089】
また、上述した実施例では、2つのマイクロフォンを用いて、それぞれのマイクロフォンが直接音と反射音とを収音する例を説明したが、これに限らない。例えば、音響特徴量抽出部52が、収音された音響信号に対して、周知の手法で音源定位処理、音源分離処理等を行うことで、直接音と反射音とを分離するようにしてもよい。
【0090】
なお、上述した実施例では、学習アルゴリズムとしてpix2pixを用いる例を説明したが、これに限らない。学習アルゴリズムは、GANを用いた他の手法であってもよく、さらにはGANを用いない手法であってもよい。
【0091】
また、上述した実験では、スピーカーから音響信号を発し、それを収音する例を説明したが、直接音と反射音はこれに限らない。例えば、部屋で話者が話している場合、話者が取り付けている(または手にしている)マイクロフォンで直接音を収音し、この直接音を用いて、学習や再構成を行うようにしてもよい。
【0092】
また、上述した例では、生成器531が、GANを使用したニューラルネットワークの生成モデルを備える例を説明したが、これに限らない。学習モデルは、他のモデルであってもよい。また、学習モデルは、ニューラルネットワークに限らず、他の学習モデル、例えば、ニアレストネイバー法、決定木、ランダムフォレスト、サポートベクターマシン等のいずれかであってもよい。
【0093】
なお、上述した実施例では、直接音と反射音を周波数領域で相互相関を計算した結果を生成器531に入力する例を説明したが、これに限らない。例えば、直接音と反射音を周波数領域の情報それぞれを生成器531に入力するようにしてもよい。この場合は、学習の際も直接音と反射音を周波数領域の情報それぞれを用いるようにしてもよい。
【0094】
なお、本発明における視覚シーン再構成装置5の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより視覚シーン再構成装置5の処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0095】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0096】
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。
【符号の説明】
【0097】
1…視覚シーン再現システム、2…第1収音装置、3…第2収音装置、4…撮影装置、5…視覚シーン再構成装置、6…表示装置、51…取得部、52…音響特徴量抽出部、53…視覚シーン再構成部、54…出力部、521…STFT部、522…抽出部、531…生成器、532…識別器
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14