IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツングの特許一覧

特開2022-186671深層生成モデルを用いた合成開口音響撮像
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022186671
(43)【公開日】2022-12-15
(54)【発明の名称】深層生成モデルを用いた合成開口音響撮像
(51)【国際特許分類】
   G01S 15/89 20060101AFI20221208BHJP
   G06N 3/02 20060101ALI20221208BHJP
   H04R 3/00 20060101ALI20221208BHJP
【FI】
G01S15/89 B
G06N3/02
H04R3/00 330
H04R3/00 320
【審査請求】未請求
【請求項の数】20
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2022090832
(22)【出願日】2022-06-03
(31)【優先権主張番号】17/339,805
(32)【優先日】2021-06-04
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】390023711
【氏名又は名称】ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング
【氏名又は名称原語表記】ROBERT BOSCH GMBH
【住所又は居所原語表記】Stuttgart, Germany
(74)【代理人】
【識別番号】100114890
【弁理士】
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100098501
【弁理士】
【氏名又は名称】森田 拓
(74)【代理人】
【識別番号】100116403
【弁理士】
【氏名又は名称】前川 純一
(74)【代理人】
【識別番号】100134315
【弁理士】
【氏名又は名称】永島 秀郎
(74)【代理人】
【識別番号】100162880
【弁理士】
【氏名又は名称】上島 類
(72)【発明者】
【氏名】ボチアン ファン
(72)【発明者】
【氏名】サマルジット ダス
【テーマコード(参考)】
5D019
5D220
5J083
【Fターム(参考)】
5D019FF01
5D220BA06
5J083AA05
5J083AB01
5J083AB06
5J083AB08
5J083AC16
5J083AC29
5J083AD01
5J083AE06
5J083AF05
5J083AF15
5J083BE41
5J083CA10
5J083CA12
5J083DC02
5J083DC05
(57)【要約】
【課題】音を使用して検知を行うシステム及び方法に関する。
【解決手段】音響撮像システムは、コントローラを含む。コントローラは、マイクロフォンからの信号及び残響チャネルデータを受信し、信号及び残響チャネルデータの最適化に基づいて、潜在変数、潜在ラベル、ソース振幅及び位相推定を更新して、更新された潜在変数、更新された潜在ラベル、更新されたソース振幅及び更新された位相推定を取得し、更新されたソース振幅及び更新された位相推定によって調整された音響ソースマップを、更新された潜在変数及び更新された潜在ラベルの条件付き敵対的生成ネットワーク(cGAN)を介して生成し、音響ソースマップを最適化し、最適化された音響ソースマップを出力するように構成され得る。
【選択図】図1
【特許請求の範囲】
【請求項1】
マイクロフォンからの信号及び残響チャネルデータを受信し、
前記信号及び前記残響チャネルデータの最適化に基づいて、潜在変数、潜在ラベル、ソース振幅及び位相推定を更新して、更新された潜在変数、更新された潜在ラベル、更新されたソース振幅及び更新された位相推定を取得し、
前記更新されたソース振幅及び前記更新された位相推定によって調整された音響ソースマップを、前記更新された潜在変数及び前記更新された潜在ラベルの条件付き敵対的生成ネットワーク(cGAN)を介して生成し、
前記音響ソースマップを最適化し、
最適化された前記音響ソースマップを出力する
ように構成されているコントローラを備えている音響撮像システム。
【請求項2】
前記コントローラは、前記マイクロフォンに関連付けられた位置信号と残響チャネルデータとを受信するようにさらに構成されており、前記更新された潜在変数、潜在ラベル、ソース振幅及び位相推定は、前記位置信号を含む、請求項1に記載の音響撮像システム。
【請求項3】
前記コントローラは、潜在変数、潜在ラベル、ソース振幅及び位相推定を更新する前に、潜在変数、潜在ラベル、ソース振幅及び位相推定を生成するようにさらに構成されている、請求項1に記載の音響撮像システム。
【請求項4】
前記音響ソースマップの最適化は、前記音響ソースマップと過去の音響ソースマップとの収束である、請求項1に記載の音響撮像システム。
【請求項5】
前記残響チャネルデータは、前記マイクロフォンとは異なるセンサから受信される、請求項1に記載の音響撮像システム。
【請求項6】
前記残響チャネルデータは、LiDARセンサ、赤外線センサ、レーダセンサ又は超音波センサから生成される、請求項1に記載の音響撮像システム。
【請求項7】
前記音響ソースマップは、
【数1】
として表されるcGANを用いて生成され、
式において、Kは、全てのソースを表現するために必要な幾何学的形状コンポーネントの数を表し、
【数2】
は、各形状コンポーネントkの相対振幅であり、
【数3】
は、タイプlの形状コンポーネントkを形成する生成器の潜在入力を表すベクトルであり、
【数4】
の出力は、S(ω)の次元に一致するようにベクトルとして再整形される、
請求項1に記載の音響撮像システム。
【請求項8】
前記音響ソースマップは、
【数5】
の前記収束が閾値未満である場合に最適化される、請求項1に記載の音響撮像システム。
【請求項9】
前記マイクロフォンは、マイクロフォンアレイである、請求項1に記載の音響撮像システム。
【請求項10】
領域の時空間データに基づいて条件付き敵対的生成ネットワーク(cGAN)を訓練して、訓練済みcGANを取得することと、
前記領域内から、マイクロフォンからの信号及び残響チャネルデータを受信することと、
前記訓練済みcGANを介して、音響画像を生成することと、
前記信号及び前記残響チャネルデータの最適化に基づいて前記訓練済みcGANを更新して、更新された訓練済みcGANを取得することと、
更新された前記訓練済みcGANを介して、音響ソースマップを生成することと、
前記音響ソースマップを最適化して、最適化された前記音響ソースマップを取得することと、
最適化された前記音響ソースマップを出力することと、
を含む、領域を音響撮像する方法。
【請求項11】
前記マイクロフォンに関連付けられた位置信号と残響チャネルデータとを受信することをさらに含み、前記訓練済みcGANを更新することは、前記マイクロフォン及び前記残響チャネルデータに関連付けられた位置信号にさらに基づく、
請求項10に記載の方法。
【請求項12】
前記音響ソースマップを最適化することは、前記音響ソースマップと過去の音響ソースマップとの収束である、請求項10に記載の方法。
【請求項13】
前記残響チャネルデータは、前記マイクロフォンとは異なるセンサから受信される、請求項10に記載の方法。
【請求項14】
前記音響ソースマップを生成することは、
【数6】
として表される前記訓練済みcGANを介して行われ、
式において、Kは、全てのソースを表現するために必要な幾何学的形状コンポーネントの数を表し、
【数7】
は、各形状コンポーネントkの相対振幅であり、
【数8】
は、タイプlの形状コンポーネントkを形成する生成器の潜在入力を表すベクトルであり、
【数9】
の出力は、S(ω)の次元に一致するようにベクトルとして再整形される、
請求項10に記載の方法。
【請求項15】
前記音響ソースマップを最適化することは、
【数10】
が閾値未満に収束する場合に行われる、請求項10に記載の方法。
【請求項16】
波エネルギセンサからの信号及び残響チャネルデータを受信し、
潜在変数、潜在ラベル、ソース振幅及び位相推定を生成し、
前記信号及び前記残響チャネルデータの最適化に基づいて、前記潜在変数、前記潜在ラベル、前記ソース振幅及び前記位相推定を更新し、
前記ソース振幅及び前記位相推定によって調整された波エネルギソースマップを、前記更新された潜在変数及び前記更新された潜在ラベルのcGANを介して生成し、
前記波エネルギソースマップを最適化して、最適化された波エネルギソースマップを取得し、
最適化された前記波エネルギソースマップを出力する
ように構成されているコントローラを備えている波エネルギ撮像システム。
【請求項17】
前記コントローラは、前記波エネルギセンサ及び前記残響チャネルデータに関連付けられた位置信号を受信するようにさらに構成されており、更新された前記潜在変数、潜在ラベル、ソース振幅及び位相推定は、前記位置信号を含む、請求項16に記載の波エネルギ撮像システム。
【請求項18】
前記波エネルギソースマップの最適化は、前記波エネルギソースマップと過去の波エネルギソースマップとの収束である、請求項16に記載の波エネルギ撮像システム。
【請求項19】
前記残響チャネルデータは、前記波エネルギセンサとは異なるセンサから受信される、請求項16に記載の波エネルギ撮像システム。
【請求項20】
前記波エネルギソースマップは、
【数11】
が閾値未満に収束する場合に最適化される、請求項16に記載の波エネルギ撮像システム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本開示は、概して、音を使用して検知を行うシステム及び方法に関する。より具体的には、本出願は、合成開口音響画像を形成するために、生成器ネットワーク及び弁別器ネットワークの敵対的生成ネットワーク(GAN)を介して音を使用する撮像における改善に関する。
【背景技術】
【0002】
発明の背景
音響撮像は、音を使用して、流体内に位置する対象物、特徴、又は、対象物の動作状態若しくは対象物内の動作状態を検出し、記述するものである。流体は、水、油、廃水のような液体の場合もあれば、空気のような気体の場合もある。音響撮像においては、環境を受動的に聴取して音響画像を構築する場合もあれば、ピングを能動的に発し、反射音及び散乱音が戻ってくるのを聴取して音響画像を生成する場合もある。例えば、ソナー(音響測距)を用いて、音を水中に放出し、反射及び散乱されて戻ってくる音を聴取することによって、水域が調査される。ソナーは、海底、沈降物の検出、魚の発見、異常な密度変動又は乱流を有する海洋の領域の特定などのために頻繁に使用されている。
【発明の概要】
【課題を解決するための手段】
【0003】
発明の概要
音響撮像システムは、コントローラを含む。コントローラは、マイクロフォンからの信号及び残響チャネルデータを受信し、信号及び残響チャネルデータの最適化に基づいて、潜在変数、潜在ラベル、ソース振幅及び位相推定を更新して、更新された潜在変数、更新された潜在ラベル、更新されたソース振幅及び更新された位相推定を取得し、更新されたソース振幅及び更新された位相推定によって調整された音響ソースマップを、更新された潜在変数及び更新された潜在ラベルの条件付き敵対的生成ネットワーク(cGAN)を介して生成し、音響ソースマップを最適化し、最適化された音響ソースマップを出力するように構成されるものとするとよい。
【0004】
領域を音響撮像する方法は、領域の時空間データに基づいて条件付き敵対的生成ネットワーク(cGAN)を訓練して、訓練済みcGANを取得することと、領域内から、マイクロフォンからの信号及び残響チャネルデータを受信することと、訓練済みcGANを介して、音響画像を生成することと、信号及び残響チャネルデータの最適化に基づいて訓練済みcGANを更新して、更新された訓練済みcGANを取得することと、更新された訓練済みcGANを介して、音響ソースマップを生成することと、音響ソースマップを最適化して、最適化された音響ソースマップを取得することと、最適化された音響ソースマップを出力することと、を含む。
【0005】
波エネルギ撮像システムは、コントローラを含む。コントローラは、波エネルギセンサからの信号及び残響チャネルデータを受信し、潜在変数、潜在ラベル、ソース振幅及び位相推定を生成し、信号及び残響チャネルデータの最適化に基づいて、潜在変数、潜在ラベル、ソース振幅及び位相推定を更新し、ソース振幅及び位相推定によって調整された波エネルギソースマップを、更新された潜在変数及び更新された潜在ラベルのcGANを介して生成し、波エネルギソースマップを最適化して、最適化された波エネルギソースマップを取得し、最適化された波エネルギソースマップを出力するように構成されるものとするとよい。
【図面の簡単な説明】
【0006】
図1】可動マイクロフォンを介した室内音響撮像システムの図である。
図2】幾何学的形状コンポーネントと、訓練済みcGANによって生成された対応する幾何学的形状コンポーネントとのグラフィカル表現の図である。
図3】選択されたグラウンドトゥルースソースマップ、合成開口を用いた音響撮像結果及び静的マイクロフォンアレイのグラフィカル表現の図であり、各列が画像に関連付けられている。
図4】初期化の回数に対する正規化画像の再構成誤差を示すグラフィカル表現の図である。
図5】電子計算システムのブロック図である。
図6】音響撮像システムアーキテクチャのブロック図である。
図7】音響撮像システムの訓練条件付きGANのフロー図である。
図8】音響撮像システムにおける音響撮像のフロー図である。
図9】音響撮像システムのフロー図である。
図10A】弁別器及び生成器を有する音響撮像システムのブロック図である。
図10B図10Aの音響撮像システムの生成器のブロック図である。
図10C図10Aの音響撮像システムの弁別器のブロック図である。
図11】車両を制御するように構成された制御システムの概略図である。
図12】製造機械を制御するように構成された制御システムの概略図である。
図13】電動工具を制御するように構成された制御システムの概略図である。
図14】自動パーソナルアシスタントを制御するように構成された制御システムの概略図である。
図15】監視システムを制御するように構成された制御システムの概略図である。
図16】医療用撮像システムを制御するように構成された制御システムの概略図である。
【発明を実施するための形態】
【0007】
詳細な説明
必要に応じて、本発明の詳細な実施形態が本明細書に開示されるが、開示される実施形態は、種々の代替形態において具現化され得る本発明の単なる例示であることを理解されたい。図面は、必ずしも縮尺通りに描かれておらず、いくつかの特徴は、特定の構成要素の詳細を示すために誇張又は最小化したところがある。従って、本明細書において開示する特定の構造的及び機能的な詳細は、限定として解釈されるべきではなく、単に、本発明を様々に採用するように当業者に教示するための代表的な基礎として解釈されるべきである。
【0008】
「実質的に」なる用語は、開示又は特許請求される実施形態を説明するために本明細書において使用され得る。「実質的に」なる用語は、本開示において開示又は特許請求される値又は相対特性を修正し得るものである。かかる場合、「実質的に」とは、この語が修飾する値又は相対特性が、値又は相対特性の±0%、0.1%、0.5%、1%、2%、3%、4%、5%又は10%以内であることを意味し得る。
【0009】
センサなる用語は、物理的特性を検出若しくは測定し、記録し、表示し、又は、これに応答するデバイスを指す。センサなる用語には、光学センサ、光センサ、撮像センサ若しくはフォトンセンサ(例えば、電荷結合素子(CCD)、CMOSアクティブピクセルセンサ(APS)、赤外線センサ(IR)、CMOSセンサ)、音響センサ、音センサ若しくは振動センサ(例えば、マイクロフォン、ジオフォン、ハイドロフォン)、自動車センサ(例えば、車輪速度、駐車、レーダ、酸素濃度、ブラインドスポット、トルク)、化学センサ(例えば、イオン感応型電界効果型トランジスタ(ISFET)、酸素濃度センサ、炭酸ガスセンサ、ケミレジスタセンサ、ホログラフィックセンサ)、電流センサ、電位センサ、磁気センサ若しくは無線周波数センサ(例えば、ホール効果、磁力計、磁気抵抗、ファラデーカップ、検流計)、環境センサ、天気センサ、湿気センサ若しくは湿度センサ(例えば、気象レーダ、光量計)、流量センサ若しくは流体速度センサ(例えば、マスエアフローセンサ、風速計)、電離放射線センサ若しくは亜原子粒子センサ(例えば、電離箱、ガイガーカウンタ、中性子検出器)、ナビゲーションセンサ(例えば、全地球測位システム(GPS)センサ、電磁流体力学(MHD)センサ)、位置センサ、角度センサ、変位センサ、距離センサ、速度センサ若しくは加速度センサ(例えば、LIDAR、加速度計、超広帯域レーダ、圧電センサ)、力センサ、密度センサ若しくはレベルセンサ(例えば、歪みゲージ、核密度ゲージ)、サーマルセンサ、熱センサ若しくは温度センサ(例えば、赤外線温度計、高温計、熱電対若しくはサーミスタ、マイクロ波放射計)、又は、他のデバイス、モジュール、機械若しくはサブシステムが含まれる。これらのセンサの目的は、物理的特性を検出若しくは測定し、記録し、表示し、又は、これに応答することである。
【0010】
具体的には、センサは、所与の時間及び空間内の位置における波の特性及び/又は波のエネルギ値を測定することができる。波は、電気機械、音、光、電磁気、RFを含み得る。この技術は、他のセンサ、例えば、無線電磁波用のアンテナを用いた撮像に適用することができる。
【0011】
画像なる用語は、物理的特性(例えば、可聴音、可視光、赤外光、超音波、水中音響)の知覚を描写した表現又はアーチファクト(人工産物)を指すものであり、例えば、写真又はその他の2次元画像は、対象(例えば、物理的対象物、シーン又はプロパティ)をなぞり、それにより対象の描写を提供するものである。画像は、時間、空間、強度、濃度又は他の特性の成分を含み得るという点において、多次元であり得る。例えば、画像は、時系列画像を含むものとしてもよい。本技術は、3D音響ソース又は対象物を撮像するように拡張することもできる。
【0012】
音響撮像は、機械の正常性の監視など、実世界において広範囲の用途を有している。従来、撮像プロセスにおいて有用な空間分解能を達成するために、大きいマイクロフォンアレイが利用されている。位置認識自律移動ロボットプラットフォームが出現したことにより、合成開口技術を音響撮像問題に適用するユニークな機会が広がっている。動き及び位置キュー、並びに、ソース分布に関する利用可能な事前情報を活用することにより、小型移動マイクロフォンアレイは、物理的開口限界をはるかに超える撮像分解能を達成する可能性を有している。本開示においては、合成開口と、条件付き敵対的生成ネットワーク(cGAN)によってモデル化されたその幾何学的構造との組合せを用いて大きい音響ソースを撮像するための解決策を提示する。音響撮像問題は、線形逆問題として定式化され、勾配に基づく方法により解かれる。数値シミュレーションにおいては、この合成開口撮像フレームワークがマイクロフォン記録から音響ソース分布を再構成し、静的マイクロフォンアレイより優れた性能を有することが示される。
【0013】
音響撮像は、マイクロフォンアレイによって記録された音信号を使用してソースマップを再構成する技術として、多くの実世界のシナリオにおいて広く適用されている。具体的には、室内音響撮像は、いくつかの例を挙げるならば、機械及びインフラストラクチャの正常性の監視、自動車診断、音響シーンの理解を含む用途において非常に重要である。従来の音響カメラは、通常、多数のマイクロフォンから構成されており、ビームフォーミングによって音響ソースの位置を特定している。屋内環境においては可聴ソースの波長が大きいため、かかるカメラは、通常、非常に大きく高価であり、より広い用途では不便となる。位置認識自律移動ロボットプラットフォームの開発は、要素の少ない低コストの小型マイクロフォンアレイにおいても、音響撮像の可能性を開くものである。合成開口技術においては、モバイルプラットフォーム上に取り付けられたマイクロフォンにより順次記録された音信号を集約し、移動軌跡を活用して、撮像のための仮想アレイが形成される。軌道を良好に設計することにより、デバイス制約にかかわらず、実際のマイクロフォンアレイよりもはるかに大きい合成開口が生成される。これは、比較的低コストにより音響撮像分解能をさらに改善する可能性を有している。
【0014】
音響撮像問題を解くため、従来のビームフォーミングアルゴリズムは、撮像領域全体にわたって走査するようにビームを形成し、各ソースを個別に位置特定している。走査ビームは、通常、自由場伝搬チャネルに基づいて形成されており、残響を統合するチャネル情報を活用することができない場合がある。一方、多くのシナリオにおいて利用可能な残響の知識を用いて、音響撮像問題を線形逆問題として解くことができる。かかる逆問題は、高い撮像分解能が要求される場合には、合成開口を用いても撮像ピクセルと比較して記録サンプルが通常制限されるので、通常、劣決定(underdetermined)となる。従って、グラウンドトゥルース推定問題を扱いやすくするために又は非論理的でなくするために、ソース分布についての事前知識が必要となることが多い。音響ソースが空間的にまばらに分布していると仮定し、点源のみを考慮して、圧縮センシング法を用いてソースの位置が特定されている。しかしながら、音響ソースの大きさ及び形状は、無視することができない場合が多い。かかるソースは、個別の点としてモデル化することが困難であり、線形基底で定義された領域においては、まばらにしか表現されない。
【0015】
逆問題に対する解の構造を定義する新しい方法として、事前訓練された生成モデルを利用して可能な解の分布を表現する方法が提案されている。1つの方法は、地震波形反転において、地質学的不均一性をモデル化するために敵対的生成ネットワーク(GAN)を訓練することである。音響ソースの多様性に起因して、この方法を室内音響撮像問題に統合するための課題は、屋内環境における潜在的な全ての種類のソースを表現する方法を見出すことである。本開示においては、全ての種類のソースに対して単一モデルを直接に訓練するのではなく、単純な幾何学的形状コンポーネントの組合せとして大きい音響ソースをモデル化することを提案する。結果として、基本的な形状コンポーネントを表現する単純なモデルを訓練するのみで、任意の構造を有する音響ソースについて一般的な撮像問題を解くことができる。
【0016】
本開示においては、基本的な幾何学的形状コンポーネントの組合せによって近似されるソース構造を用いて合成開口音響撮像問題を解くための新しいフレームワークが構築される。条件付きGAN(cGAN)アーキテクチャは、2つのタイプの基本形状、即ち、楕円形及び矩形をモデル化するように訓練されるが、本技術は、これらの形状に限定されず、多くの形状(例えば、三角形、円形、正方形、平行四辺形、星形、台形、菱形、五角形、六角形、七角形、八角形など)を含み、正則化された音響撮像問題は、適応的モーメント推定(Adam)方法を用いて定式化して解かれる。数値計算結果により、この合成開口フレームワークは、移動マイクロフォン記録から音響ソースマップを正常に再構成することができ、静的アレイを用いた撮像よりも性能が優れていることが示される。
【0017】
本開示は、図1に示すように、合成開口法を用いて室内の音響ソースを撮像するシステムを提示する。図1は、可動マイクロフォンを介した室内音響撮像システム100の図である。可動マイクロフォン102は、第1の音響ソース108及び第2の音響ソース110を有する領域106内の経路104に沿って移動する。これは、より一般的に適用可能であるものの、室内106が箱状であり、音響ソース108,110が全て同一の撮像面上にあると仮定する。以下の分析は、音響ソースが任意に分布しているケースへと容易に一般化することができる。室内106のマップ及び音響特性は既知であるが、音響ソース108,110の分布は利用不可能であると仮定する。このシステムは、撮像平面をN個のピクセルに離散化し、各ピクセルnが、信号s(t)を有する潜在的な音響ソースであると仮定する。次いで、s(t)を、一定の周波数f及び振幅Aを有する連続正弦波としてモデル化する。これは、次の式1、即ち、
(t)=Asin(2πft) (1)
によって表すことができる。
【0018】
式1は、機械又はインフラストラクチャによって生成される音波をモデル化するために適用することができる。なお、Aは、0であるものとしてもよく、これは、ピクセルnに実際の音響ソースがないことを意味する。
【0019】
マイクロフォンアレイ102は、室内106内を移動し、経路104に沿った様々な位置で音響信号を記録して合成開口を形成する。次に、マイクロフォンアレイがM個の要素から構成されると仮定する。移動アレイ102は、経路104に沿ったM個の位置で、それぞれ固定期間Tの間、音を停止して記録する。一般性を損なわない範囲において、第1の記録は、時間t=0に開始し、隣接する記録位置間の移動時間は重要でないと仮定する。次に、マイクロフォン記録用の位置の総数がMとして定義される。これは、合成マイクロフォンアレイ上の要素の数とみなすことができる。通常、M=Mである。次に、pmn(t)を、合成開口の各マイクロフォンmにおける撮像ピクセルnからの記録信号として定義すると、式2、即ち、
mn(t)=w(t)[s(t+T)*hmn(t)] (2)
のように表すことができる。
【0020】
ここで、w(t)は、記録周期を示す窓関数であり、
【数1】
に対してw(t)=1であり、それ以外は、w(t)=0と定義される。時間遅延Tは、移動する開口によって生じるマイクロフォンmにおける記録の遅延を表す。音響伝搬チャネルは、撮像ピクセルnからマイクロフォンmへの室内インパルス応答hmn(t)によって特徴付けられる。本開示においては、hmn(t)がモデルの対象であり、hmn(t)は、室内のマップ及び室内の音響特性を用いて撮像のために計算され得ると仮定する。ここで、*は、畳込み演算子を示すために使用される。s(t)を復元するために、式(2)を角周波数ωの領域に変換すると、
【数2】
のように表すことができる。
【0021】
ここで、Pmn(ω)は、pmn(t)のフーリエ変換を表し、S(ω)は、s(t)のフーリエ変換を表し、Hmn(ω)は、ソースピクセルnとマイクロフォン位置mとの間の伝達関数を表す。窓関数は、フーリエ変換W(ω)を有する。本開示においては、式(1)の周波数fにおける純音としてのソース信号を仮定しているので、対象の角周波数ω=2πfにおいて、周波数領域の信号は、式4、即ち、
【数3】
によって表すことができる。
【0022】
(ω)が位相シフトされたSinc関数であるため、上記の近似は、負の周波数成分が重要でなく、全ての音響ソースについての記録期間T≫1/fの場合に有効であることを意味している。本開示は、線形媒体内における伝搬を仮定する。従って、周波数領域において、マイクロフォンmによって記録された全てのソースからの和信号は、周波数ωにおいて、
【数4】
と表すことができる。式(4)に基づいて記録からソース信号を復元するためには、このモデルにおける振幅Aのみが未知である。従って、再構成問題に対する定式化は、行列形式のm及びnの各対について式(4)を線形逆問題として要約することによって行われる。具体的には、記録ベクトルR(ω)=[R(ω),…,R(ω)]R及び[A,…,Aに比例するソース信号ベクトルS(ω)が定義される。ここで、[・]は、転置演算子を表す。チャネル行列は、H(ω)として定義され、m行n列のその要素は、
【数5】
に比例する。チャネル行列H(ω)は、実際の用途において利用可能である場合、測定データから構築することができる。次に、対象周波数ωにおける伝搬は、次に示す式5、即ち、
R(ω)=H(ω)S(ω) (5)
によって近似的に特徴付けることができる。
【0023】
目標は、R(ω)及びH(ω)からS(ω)を復元することである。高分解能撮像のために、撮像ピクセルの数N≫Mであると仮定する。上記の定式化を一般化して、複数の狭帯域信号を含めることは容易である。記録された各信号R(ω)のスペクトルから、各対象周波数を求めることができ、式(5)を個別に解くことができる。
【0024】
音響ソースは、個別の点としてモデル化が可能であると仮定することができる。しかしながら、エアコン及び産業機械のような多くの実世界の音響リソースは、大きい空間を占有しており、点源としてモデル化するために適していない。この問題に対処するために、本開示においては、S(ω)が、特定の形状を有し、撮像面上において大きい連続領域を占めるソースを含むと仮定する。かかる音響ソースを再構成するために使用される方法は、次のセクションにおいて詳細に説明される。
【0025】
式(5)に従ってS(ω)を再構成することは、劣決定線形逆問題であるため、固有のグラウンドトゥルース解を近似するための課題が生じる。従って、この問題を解くためには、ソース分布S(ω)に関する事前情報が必要である。実世界のシナリオにおける多くの音響ソースは、撮像面上において大きい連続領域を必要とすることから、本開示においては、これらのソースは、幾何学的形状コンポーネントの線形結合によって近似することができる。cGANモデルにおける条件付き生成器G(z,l)は、l=1を有する楕円コンポーネント又はl=0を有する矩形コンポーネントのいずれかを表現するように訓練される。本方法は、より多くの他の幾何学的形状コンポーネント又は実世界の音響ソースの成分を含むように一般化することができる。そのため、音響ソースマップS(ω)は、次の式6、即ち、
【数6】
によって近似することができる。式において、Kは、全てのソースを表現するために必要な幾何学的形状コンポーネントの数を示す。なお、各成分は、互いに重なり合うことが可能である。各形状コンポーネントkの相対振幅は、
【数7】
として定義され、同一の形状コンポーネント内の全てのピクセルが同等の振幅を有することを意味する。ベクトル
【数8】
は、タイプlの形状コンポーネントkを形成する生成器の潜在入力を示す。また、
【数9】
の出力は、S(ω)の次元に一致するベクトルとして再整形される。式(5)を満たす記録から音響画像を再構成するために、
【数10】
を最適化することにより、次の式7、即ち、
【数11】
により表すことができる正則化目的関数を最小化することを考える。
【0026】
第1のノルム項は、式(6)から生成された近似ソースマップが与えられた場合の音響記録の誤差を示す。第2の項は、正則化として機能し、当該正則化により、潜在空間における探索が促進される。式(7)の関数を
【数12】
と定義すると、
【数13】
の勾配は、各実ベクトル
【数14】
に対して、次式
【数15】
のように表すことができる。式において、
【数16】
は、数値的に計算可能な生成関数
【数17】
のヤコビ行列を示す。演算子R{・}は、各ベクトル要素の実部を計算し、演算子[・]は、共役転置を計算する。振幅変数については、
【数18】
が実数であることを強制しないため、異なる形状ソースが異なる位相を有することが可能になる。式(7)における最適化問題を解くために、全ての変数は、最初に実領域にマッピングされ、この場合、各
【数19】
に関する
【数20】
の導関数は、次の式9
【数21】
と等価である。
【0027】
導出された勾配及び導関数に基づいて、Adamオプティマイザを採用して、変数を反復的に更新することによってこの問題を解く。プロセスは、特定の回数の反復の後、又は、ステップサイズが閾値未満である場合に停止する。この例示的な例は、1e-4のステップサイズ閾値を用いて、多くとも250回の繰り返しで反復的に解かれた。閾値及び反復回数は、アプリケーション/環境/データに従って適応化することができる。
【0028】
より大きい潜在空間内において探索を行い、かつ、ローカルミニマ(local minima)に陥ることを回避するために、研究者らは、潜在ベクトル
【数22】
の複数のランダムな初期化を用いることを提案している。しかし、GANモデルは、目標分布を完全に学習することができない場合があり、一様に
【数23】
を選んだとしても、形状コンポーネント集合全体の表現に偏りが生じることがある。生成されるコンポーネントの表現を改善するために、本開示は、初期化された形状コンポーネントが形状集合全体からほぼ一様に選択されるように強制することを目的とする。より具体的には、初期化ごとに、まず、サイズ及び位置が一様に描画された形状コンポーネントの2K個のバウンディングボックスをランダムに生成する。次いで、各バウンディングボックスについて、
【数24】
とバウンディングボックスとの間の誤差が閾値未満になるまで、
【数25】
をランダムに選ぶ。この例示的な例においては、
【数26】
が各方向に4ピクセル(0.4mに相当)のバウンディングボックスを超えないことを必要とした。この閾値は、アプリケーション/分解能要件/環境/データに従って適応化する必要がある。
【0029】
このようにして、初期化は、幾何学的形状集合からより均等に選択され、大域的最適解を直観的に求めるために役立ち得る。振幅
【数27】
は、0にきわめて近くなるように初期化される。本発明者らは、合計でX回の初期化を用いて最適化を行い、最後に、最小の音響記録誤差をもたらす
【数28】
及び
【数29】
のセットを選択する。
【0030】
このフレームワークの性能を数値シミュレーションによって評価した。音響撮像のための室内の寸法は、4×4×4mに設定される。音響ソースは、室内の片側に近い撮像面に位置しており、撮像面は、N=40×40ピクセルに分割されている。cGANは、最初、同等のサイズを有する画像上の基本的な幾何学的形状をモデル化するように訓練される。弁別器は、画像と、符号化後に統合された形状ラベルlとを入力とする。出力層に到達する前に、統合された入力は、各層が256個の4×4フィルタを有し、次元が10×10にスケールダウンされた2つの畳込み層を通過する。この生成器は、32次元の潜在的な入力を有し、これは、10×10の画像として線形に符号化される。次いで、統合されたラベルを有する画像は、2つの転置畳込み層を通過し、撮像平面のサイズに一致する40×40の出力としてスケールアップされる。出力画像は、概してバイナリピクセル値を有する。各タイプの形状コンポーネントについて、2000個のサンプルが、訓練データとしてランダムに生成される。弁別器及び生成器の学習率は、それぞれ10-5及び10-4である。訓練済みcGANの性能が、図2において評価されている。図2は、幾何学的形状コンポーネントと、訓練済みcGANによって生成された対応する幾何学的形状コンポーネントとのグラフィカル表現200である。この表現は、幾何学的形状コンポーネント200と、訓練済みcGANによって生成された対応する幾何学的形状コンポーネント250とに分解される。第1の矩形幾何学的形状コンポーネント202、第2の矩形幾何学的形状コンポーネント204及び第3の矩形幾何学的形状コンポーネント206、並びに、訓練済みcGANによって生成された対応する第1の矩形幾何学的形状コンポーネント252、対応する第2の矩形幾何学的形状コンポーネント254及び対応する第3の矩形幾何学的形状コンポーネント256がある。同様に、第1の楕円幾何学的形状コンポーネント208、第2の楕円幾何学的形状コンポーネント210、及び、第3の楕円幾何学的形状コンポーネント212、並びに、訓練済みcGANによって生成された対応する第1の楕円幾何学的形状コンポーネント258、対応する第2の楕円幾何学的形状コンポーネント260及び対応する第3の楕円幾何学的形状コンポーネント262がある。左側の図は、訓練のために使用されるランダムな幾何学的形状コンポーネントを示しており、右側の図は、訓練済みの生成器によってランダムに生成された幾何学的形状コンポーネントを示している。第1の列は矩形コンポーネントを示しており、第2の列は楕円コンポーネントを示している。概して、生成されたデータにおいては、小さい歪みを有する訓練画像内のほとんどの形状特徴が捕捉される。一方、生成された楕円の大きさが訓練データと完全に一致しないことは、生成器が、訓練データの分布を完全に学習することができていないことを意味している。
【0031】
上記の訓練済みの生成器を使用して、シミュレートされた録音物から音響ソースが再構成される。Pyroomacousticsパッケージを使用して、室内の音波伝搬がシミュレートされる。室内の音速は、343m/sに設定され、壁の吸音率は、0.1に設定される。全ての音響ソースが同一の周波数f=1600Hzにおいて動作し、マイクロフォンのサンプリング周波数が44.1kHzに設定されていると仮定する。この合成開口音響撮像フレームワークの性能を、静的マイクロフォンアレイを用いたベンチマーク設定と比較する。静的アレイは、M=8個のマイクロフォンから構成されており、ほぼ撮像面の中心軸線上に位置する。対照的に、合成開口の設定においては、M=1の移動マイクロフォンのみを仮定する。マイクロフォンは、撮像面に平行な直線に沿って近似的に移動すると仮定し、記録位置の総数をM=39と仮定した。両方の設定におけるマイクロフォンから撮像面までの軸線方向距離は約2.9mに設定され、記録期間T=0.1sである。音響撮像問題(7)を解くために、最大250回の反復に対してそれぞれX=100回の初期化を用いる。Adamオプティマイザの学習率は、2×10-2に設定され、正則化係数は、λ=50に設定される。上記と同様の撮像アルゴリズム及びパラメータが、両方のマイクロフォン設定に適用される。
【0032】
図3は、選択されたグラウンドトゥルースソースマップ300、合成開口330を用いた音響撮像の結果及び静的マイクロフォンアレイ360のグラフィカル表現であり、各列が画像に関連付けられている。画像302には、2つの音響ソース即ち矩形の音響ソース312及び楕円形の音響ソース322が存在しており、これらのソースのグラウンドトゥルース位置を示している。合成開口法を使用することによって、音響ソースの位置は画像332のように再構成することができる。ここで、342は、矩形のソースであり、352は、楕円形のソースである。静的マイクロフォンアレイを使用することによって、音響ソースの位置は、画像362のように再構成することができる。ここで、372は、矩形のソースであり、382は、楕円形のソースである。画像304には、2つの音響ソース即ち矩形の音響ソース314及び楕円形の音響ソース324があり、これらのソースのグラウンドトゥルース位置を示している。合成開口法を使用することによって、音響ソースの位置は、画像334のように再構成することができる。ここで、344は、矩形のソースであり、354は、楕円形のソースである。静的マイクロフォンアレイを使用することによって、音響ソースの位置は、画像364のように再構成することができる。ここで、374は、矩形のソースであり、384は、楕円形のソースである。画像306には、2つの音響ソース即ち矩形の音響ソース316及び楕円形の音響ソース326があり、これらのソースのグラウンドトゥルース位置を示している。合成開口法を使用することによって、音響ソースの位置は、画像336のように再構成することができる。ここで、346は、矩形のソースであり、356は、楕円形のソースである。静的マイクロフォンアレイを使用することによって、音響ソースの位置は、画像366のように再構成することができる。ここで、376は、矩形のソースであり、386は、楕円形のソースである。画像308には、2つの音響ソース即ち矩形の音響ソース318及び楕円形の音響ソース328があり、これらのソースのグラウンドトゥルース位置を示している。合成開口法を使用することによって、音響ソースの位置は、画像338のように再構成することができる。ここで、348は、矩形のソースであり、358は、楕円形のソースである。静的マイクロフォンアレイを使用することによって、音響ソースの位置は、画像368のように再構成することができる。ここで、378は、矩形のソースであり、388は、楕円形のソースである。
【0033】
図3は、選択した異なるグラウンドトゥルース画像を用いた、両方の設定の再構成音響画像間の比較である。S(ω)内の各要素の絶対値をとるグラウンドトゥルースソースマップは、第1の行に示されており、式(6)に基づいてランダムに生成される。合成開口からの再構成画像が、
【数30】
内の各要素の絶対値をとるものとして第2の行に示されており、静的マイクロフォンアレイからの画像が第3の行に挙げられている。全ての画像は、形状の再構成精度をより明確に示すために、最大ピクセル値を1として正規化されていることに留意されたい。実際の音響ソースが生成器によってモデル化され得る場合、このフレームワークにより、概して、マイクロフォン記録からソースマップを再構成し得ることが示されている。合成開口を用いた図3の画像の平均2ノルム再構成誤差は、約4.70であり、静的アレイ再構成の平均誤差は、約7.98である。軌道に基づいた開口がマイクロフォンアレイのサイズ制約を超えてより高い撮像分解能を可能にするため、合成開口技術は、通常、静的マイクロフォンアレイと比較してより高い再構成精度をもたらす。本明細書には示していないが、結果は、ランダムに初期化されたソース構造に強く依存するため、限られた初期化においては、再構成が失敗する可能性があることに留意されたい。
【0034】
図4は、初期化の回数404に対する正規化画像の再構成誤差402のグラフィカル表現400である。合成開口(実線)及び静的マイクロフォンアレイ(破線)を使用した平均ソースマップ再構成誤差が、標準偏差を表す誤差バーとともにプロットされている。図4においては、初期化の回数Xが平均的な音響画像再構成精度にどのように影響するかを評価することを目的としている。図3と同様のグラウンドトゥルースソースマップを用いて、さらに合計100回の初期化を用いる。ただし、最初のX回の初期化からの再構成誤差を評価し、プロットしている。実線の曲線は、本発明の合成開口撮像手法を表し、破線の曲線は、静的アレイの撮像の結果を表している。エラーバーは、再構成誤差の標準偏差を示す。本発明の合成開口撮像手法の再構成誤差は、静的アレイよりもはるかに低くなっており、これは、図3における説明と一致する。加えて、静的アレイにおける誤差は、約40回の初期化後には大きく変化しないが、合成開口手法においては、ほぼ連続的に誤差を減少させることができる。かかる現象は、記録サンプル数Mと収束性との関係を明らかにするものである。概して、より多くの記録サンプルを用いると、収束は遅くなるが、再構成誤差は、より小さい値に収束する。従って、この音響撮像フレームワークを実世界のアプリケーションに適用するためには、初期化の回数Xは、計算時間と撮像性能との間のトレードオフを考慮して、記録サンプルに基づいて慎重に選択する必要がある。
【0035】
本開示は、cGANに基づく幾何学的形状コンポーネントを使用して実際のソース分布を近似することにより合成開口音響撮像問題を解くためのフレームワークを提示する。数値シミュレーションにおいては、音響撮像フレームワークにより、移動マイクロフォンの記録からソースマップを正常に再構成することができ、合成開口技術が、室内音響撮像において静的アレイよりも良好な再構成精度を提供することができることが示された。これらの技術は、きわめて多くの幾何学的形状コンポーネントを有する複雑な音源を再構成する合成開口音響撮像手法に適用することができる。かかる形状コンポーネントはまた、実際のデータ及び不完全な室内チャネル情報に由来するものとしてもよい。
【0036】
機械アーキテクチャ及び機械可読媒体を例示する。図5は、本明細書に開示されるシステムを実装するために又は方法を実行するために好適な電子コンピューティングシステムのブロック図である。図5の機械は、上記の概念の実装に適した独立型デバイスとして示されている。上述したサーバの態様においては、データセンタ、クラウドアーキテクチャの一部などで動作する、複数のかかる機械を使用することができる。サーバの態様においては、図示された機能及びデバイスの全てが利用されるわけではない。例えば、ユーザがサーバ及び/又はクラウドアーキテクチャと対話するために使用するシステム、デバイスなどは、画面、タッチスクリーン入力などを有し得るが、サーバは、多くの場合、画面、タッチスクリーン、カメラなどを有しておらず、典型的には、適当な入力及び出力態様を有する接続されたシステムを通してユーザと対話する。従って、以下のアーキテクチャは、複数のタイプのデバイス及び機械を包含するものとして解釈されるべきであり、種々の態様は、そのフォームファクタ及び目的に応じて、任意の特定のデバイス又は機械において存在するものとしてよく又は存在しないものとしてもよい(例えば、サーバがカメラを有することは稀である一方、ウェアラブル端末が磁気ディスクを備えることは稀である)。しかしながら、図5の例示的な説明は、当業者が、使用される特定のデバイス、機械などに対して図示された実施形態を適当に修正し、ハードウェア及びソフトウェアの適当な組合せを用いて前述の実施形態をどのように実装するかを決定することができるようにすることに適している。
【0037】
単一の機械のみが図示されているが、「機械」なる用語はまた、機械の任意の集合体を含み、当該集合体は、命令のセット(又は複数のセット)を個別に又は共同で実行して、本明細書において説明される方法のうちの任意の1つ以上を実行するように解釈されるものとする。
【0038】
機械500の例には、リンク508を介して互いに通信する、少なくとも1つのプロセッサ502(例えば、コントローラ、マイクロコントローラ、中央処理装置(CPU)、グラフィックス処理装置(GPU)、テンソル処理装置(TPU)、高度処理装置(APU)、又は、これらの組合せ)、メインメモリ504、スタティックメモリ506、又は、他のタイプのメモリなどの1つ以上のメモリが含まれる。リンク508は、バス又は他のタイプの接続チャネルであり得る。機械500は、任意のタイプのディスプレイを備えるグラフィックス表示ユニット510など、さらなる任意選択の態様を含み得る。機械500はまた、英数字入力デバイス512(例えば、キーボード、タッチスクリーンなど)、ユーザインタフェース(UI)ナビゲーションデバイス514(例えば、マウス、トラックボール、タッチデバイスなど)、記憶ユニット516(例えば、ディスクドライブ又は他の記憶デバイス)、信号生成デバイス518(例えば、スピーカ)、センサ522(例えば、全地球測位センサ、加速度計、マイクロフォン、カメラなど)、出力コントローラ528(例えば、ユニバーサルシリアルバス(USB)、近距離通信(NFC)、赤外線(IR)、シリアル/パラレルバスなどの1つ以上の他のデバイスと接続及び/又は通信するための有線接続又は無線接続)、並びに、1つ以上のネットワーク526と接続及び/又は通信するための(例えば、有線及び/又は無線)ネットワークインタフェースデバイス520などの他の任意の態様を含むものとしてもよい。
【0039】
種々のメモリ(即ち、メモリ504,506、及び/又は、プロセッサ502のメモリ)及び/又は記憶ユニット516は、本明細書において説明される方法又は機能のうちの任意の1つ以上を具現化し又はこれらによって利用される命令及びデータ構造(例えば、ソフトウェア)524の1つ以上のセットを記憶し得る。これらの命令は、プロセッサ502によって実行される際に、開示している実施形態を実現するための種々の動作を生じさせる。
【0040】
本明細書において使用される場合、「機械記憶媒体」、「デバイス記憶媒体」、「コンピュータ記憶媒体」なる用語は、同様のものを意味し、本開示においては、互換的に使用され得る。これらの用語は、実行可能命令及び/又はデータを記憶する単一又は複数の記憶デバイス及び/又は媒体(例えば、集中型又は分散型データベース、及び/又は、関連するキャッシュ及びサーバ)を指す。従って、これらの用語は、ソリッドステートメモリなどの記憶デバイス、並びに、光媒体及び磁気媒体を含み、プロセッサの内部又は外部のメモリを含むものと解釈されるものとする。機械記憶媒体、コンピュータ記憶媒体及び/又はデバイス記憶媒体の特定の例には、例として、半導体メモリデバイス、例えば、消去可能プログラマブル読取り専用メモリ(EPROM)、電気的消去可能プログラマブル読取り専用メモリ(EEPROM)、FPGA及びフラッシュメモリデバイスを含む不揮発性メモリ、内部ハードディスク及びリムーバブルディスクなどの磁気ディスク、光磁気ディスク、並びに、CD-ROM及びDVD-ROMディスクが含まれる。機械記憶媒体、コンピュータ記憶媒体及びデバイス記憶媒体なる用語は、搬送波、変調されたデータ信号、及び、他のかかる一時的媒体を具体的かつ明確に除外するものであり、これらのうちの少なくとも一部は、以下において論じる「信号媒体」なる用語の下に包含される。
【0041】
「機械可読媒体」、「コンピュータ可読媒体」及び「デバイス可読媒体」なる用語は、同様のものを意味し、本開示においては、互換的に使用され得る。これらの用語は、機械記憶媒体及び信号媒体の両方を含むように定義される。従って、これらの用語は、記憶デバイス/媒体及び搬送波/変調データ信号の両方を含む。
【0042】
本明細書において説明されるアルゴリズム及び/又は方法を具現化するプログラムコードは、種々の異なる形態においてプログラム製品として、個々に又は集合的に配布することが可能である。プログラムコードは、プロセッサに1つ以上の実施形態の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体を使用して配布することができる。本質的に非一時的であるコンピュータ可読記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール又は他のデータなどの情報の記憶のための任意の方法又は技術により実装される、揮発性及び不揮発性並びに取外し可能及び取外し不可能な有形媒体を含み得る。コンピュータ可読記憶媒体には、RAM、ROM、消去可能プログラマブル読取り専用メモリ(EPROM)、電気的消去可能プログラマブル読取り専用メモリ(EEPROM)、フラッシュメモリ又は他の固体メモリ技術、ポータブルコンパクトディスク読取り専用メモリ(CD-ROM)、又は、他の光記憶デバイス、磁気カセット、磁気テープ、磁気ディスク記憶デバイス若しくは他の磁気記憶デバイス、又は、所望の情報を記憶するために使用可能でありかつコンピュータにより読取り可能である任意の他の媒体がさらに含まれ得る。コンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から、コンピュータ、他のタイプのプログラマブルデータ処理装置若しくは他のデバイスに、又は、ネットワークを介して外部コンピュータ若しくは外部記憶デバイスにダウンロードすることができる。
【0043】
コンピュータ可読媒体に記憶されたコンピュータ可読プログラム命令を使用して、コンピュータ、他のタイプのプログラム可能データ処理装置又は他のデバイスに、特定の方法で機能するように指示することができ、その結果、コンピュータ可読媒体に記憶された命令により、フローチャート又は図において指定されている機能、アクション及び/又は動作を実施する命令を含む製品が製造される。いくつかの代替実施形態においては、フローチャート及び図において指定されている機能、アクション及び/又は動作は、1つ以上の実施形態と一致して、並べ替えられ、連続的に処理され、及び/又は、同時に処理することができる。さらに、フローチャート及び/又は図のいずれも、1つ以上の実施形態に一致して示されたものよりも多い若しくは少ないノード又はブロックを含むものとしてもよい。
【0044】
本発明の全てを種々の実施形態の説明によって例示し、これらの実施形態をかなり詳細に説明しているが、添付の特許請求の範囲の権利範囲をかかる詳細に限定し又は何らかの態様により限定することは、本出願人の意図するところではない。さらなる利点及び修正も、当業者には容易に明らかとなる。従って、本発明は、そのより広い態様において、特定の詳細、代表的な装置及び方法、並びに、図示して説明する例示的な例に限定されるものではない。従って、一般的な発明概念の精神又は範囲から逸脱することなく、かかる詳細から離れてもよい。
【0045】
図6は、合成開口音響画像608を形成する音響撮像システムアーキテクチャ600のブロック図であり、弁別器ネットワーク604及び生成器ネットワーク606の条件付き敵対的生成ネットワーク(cGAN)602を使用している。
【0046】
図7は、音響撮像システム700の訓練条件付きGANのフロー図である。ブロック702において、ソースマップ訓練データ及びラベルがコントローラによって受信される。ブロック704において、コントローラは、弁別器ネットワークを介してソースマップ訓練データ及びラベルを処理する。ブロック706において、コントローラは、ランダム潜在変数及びラベルを形成する。ブロック708において、コントローラは、生成器ネットワークを介して音響画像ソースマップを形成し、これは、ブロック710においてコントローラにより出力される。次いで、この出力は、ソースマップ訓練データ及びラベル702、並びに、ネットワークを訓練するための弁別器ネットワークの出力とともに、弁別器ネットワークブロック704にフィードバックされる。明確にするために言い換えると、訓練は、反復的に行われる。各反復において、弁別器は、702と、706,710におけるラベルと、最後の反復における自身の出力を入力として受け取る。次に、現在の反復におけるその出力が、706とともに生成器ネットワーク708に供給され、710が更新される。次いで、次の反復が開始される。コントローラは、各訓練反復においてランダムに706を生成するが、706は、弁別器ネットワークの出力に依存しない。
【0047】
図8は、音響撮像システム800における音響撮像のフロー図である。ブロック802において、マイクロフォンアレイは、入力を受信し、ブロック804においてマイクロフォン記録を形成するために使用される信号を出力する。ブロック804からのマイクロフォン記録及び残響チャネルデータ806は、ブロック808に入力され、そこで、コントローラが最適化アルゴリズムを実行する。残響チャネルデータ806は、室内、領域又はシーンのモデルを含み得るものであり、LiDARセンサ、赤外線センサ、レーダセンサ又は超音波センサなどの他のタイプのセンサによって生成して、データ生成モデルを作成することができる。最適化アルゴリズム808の出力を用いて、ブロック810において潜在変数及びラベルが生成され、ブロック812においてソース振幅及び位相推定データが生成される。最適化アルゴリズム808は、最小化されるべき式7によって表すことができる。生成器ネットワーク814は、最適化アルゴリズム808にフィードバックを提供し、音響ソースマップ816を形成する。生成器ネットワーク814は、式6によって表すことができる。明確にするために再度述べると、式6は、生成器ネットワーク814内において生じるものであり、814と816との間の矢印によって渡される。音響ソースマップ816のフィードバックは、固定回数の反復、可変回数の反復であるものとしてもよく、又は、差がピクセルの数若しくはパーセンテージなどの閾値を下回るような音響ソースマップの収束に基づくものとしてもよい。反復が許容可能である場合、再構成音響ソースマップ820が出力される。
【0048】
図9は、音響撮像システム900における音響撮像のフロー図である。ブロック902において、マイクロフォンアレイは、入力を受信し、ブロック904において、マイクロフォン記録を形成するために使用される信号を出力する。ブロック906において、コントローラは、ソースマップ訓練データ及びラベル908を受信して処理する。ブロック910において、コントローラは、cGAN906、ブロック916からのソース振幅及び位相推定、並びに、最適化アルゴリズム914からのフィードバックによって、音響ソースマップを生成する。次いで、コントローラは、最適化ブロック914において、マイクロフォン記録904、cGAN出力906、生成された音響ソースマップ910及び残響チャネルデータ912を最適化する。残響チャネルデータ912は、室内、領域又はシーンのモデルを含み得るものであり、LiDARセンサ、赤外線センサ、レーダセンサ又は超音波センサなどの他のタイプのセンサによって生成して、データ生成モデルを作成することができる。最適化アルゴリズム914の出力を用いて、ブロック810において潜在変数及びラベルが生成され、ブロック916においてソース振幅及び位相推定データが生成される。最適化アルゴリズム914は、最小化されるべき式7によって表すことができる。cGANブロック906は、最適化アルゴリズム914にフィードバックを提供し、音響ソースマップ910を形成する。cGANブロック906は、式6によって表すことができ、換言すれば、式6は、906と910との間の矢印上において生じるものである。音響ソースマップ910のフィードバックは、固定回数の反復、可変回数の反復であるものとしてよく、又は、差がピクセルの数若しくはパーセンテージなどの閾値を下回るような音響ソースマップの収束に基づくものとしてもよい。反復が許容可能である場合、再構成音響ソースマップ918が出力される。
【0049】
図10Aは、条件付き敵対的生成ネットワーク(cGAN)を使用する音響撮像システム1000のブロック図であり、当該システムは、実データ1002、クラス入力1004及び潜在データ1006を受信し、生成器ネットワーク1008及び弁別器ネットワーク1010を介して処理して、音響画像を形成する。
【0050】
図10Bは、図10Aの音響撮像システムの生成器ネットワーク1008のブロック図である。1012はシードであり、1014は畳込み層である。
【0051】
1012は全結合層であり、1018は全結合層であり、これらは、最後に、2つの転置畳込み層と1つの畳込み層とから構成された畳込み層1014へと向かう。
【0052】
図10Cは、図10Aの音響撮像システムの弁別器のブロック図である。1018は全結合層であり、1020は、2つの畳込み層から構成されている。さらに、図10Cの1002は、図10Aの1002と図10Aの1008の出力との両方を含むので、図10Aの1002と等価ではない。
【0053】
図11は、車両を制御するように構成された制御システム1102の概略図である。ここで、車両は、少なくとも部分的に自律型の車両又は少なくとも部分的に自律型のロボットであり得る。車両は、センサ1104及びアクチュエータ1106を含む。センサ1104は、1つ以上の波エネルギに基づくセンサ(例えば、電荷結合素子CCD又はビデオ)、レーダ、LiDAR、マイクロフォンアレイ、超音波、赤外線、熱撮像、音響撮像、又は、他の技術(例えば、GPSなどの測位センサ)を含むものとしてよい。1つ以上の特定のセンサのうちの1つ以上が、車両に組み込まれるものとしてもよい。上記において識別された1つ以上の特定のセンサの代わりに又はこれに加えて、制御システム1102は、実行時にアクチュエータ1106の状態を判定するように構成されたソフトウェアモジュールを含むものとしてもよい。
【0054】
車両が少なくとも部分的に自律型の車両である実施形態においては、アクチュエータ1106は、車両のブレーキシステム、推進システム、エンジン、ドライブトレイン又はステアリングシステムにおいて具現化され得る。アクチュエータ制御コマンドは、アクチュエータ1106が制御されて、車両が検出された対象物との衝突を回避するように決定され得る。検出された対象物はまた、分類器が最も可能性が高いとみなすもの、例えば、歩行者又は樹木に従って分類され得る。アクチュエータ制御コマンドは、分類に応じて決定されるものとしてもよい。例えば、制御システム1102は、センサ1104からの画像(例えば、光学、音響、熱)又は他の入力を1つ以上の背景クラス及び1つ以上の対象物クラス(例えば、歩行者、自転車、車両、樹木、交通標識、信号機、道路のがれき、又は、建設用バレル/コーンなど)にセグメント化し、制御コマンドをアクチュエータ1106(この場合、ブレーキシステム又は推進システムにおいて具現化される)に送信して、対象物との衝突を回避することができる。他の例においては、制御システム1102は、画像を1つ以上の背景クラス及び1つ以上のマーカクラス(例えば、レーンマーキング、ガードレール、道路の縁、車両トラックなど)にセグメント化し、ここでは、ステアリングシステム内において具現化されたアクチュエータ1106に制御コマンドを送信して、車両にマーカの横断を回避させてレーン内に留めることができる。敵対的攻撃が起こり得るシナリオにおいては、上述したシステムをさらに訓練して、対象物をより良く検出し、又は、車両上のセンサ若しくはカメラの照明条件若しくは角度の変化を識別することができる。
【0055】
車両1100が少なくとも部分的に自律型のロボットである他の実施形態においては、車両1100は、飛行、水泳、潜水及びステップなどの1つ以上の機能を実行するように構成された移動ロボットであるものとしてもよい。移動ロボットは、少なくとも部分的に自律型の芝刈り機又は少なくとも部分的に自律型の清掃ロボットであるものとしてよい。かかる実施形態においては、アクチュエータ制御コマンド1106は、移動ロボットが識別された対象物との衝突を回避することができるように、移動ロボットの推進ユニット、ステアリングユニット、及び/又は、ブレーキユニットが制御され得るように決定され得る。
【0056】
他の実施形態においては、車両1100は、ガーデニングロボットの形態の少なくとも部分的に自律型のロボットである。かかる実施形態においては、車両1100は、センサ1104として光学センサを使用して、車両1100に近接する環境内の植物の状態を特定することができる。アクチュエータ1106は、化学物質を噴霧するように構成されたノズルであるものとしてよい。識別された植物の種及び/又は識別された状態に応じて、アクチュエータ1106が適当な量の適当な化学物質を植物に噴霧するように、アクチュエータ制御コマンド1102を決定することができる。
【0057】
車両1100は、家電装置の形態の少なくとも部分的に自律型のロボットであるものとしてもよい。家電装置の非限定的な例としては、洗濯機、ストーブ、オーブン、電子レンジ又は食器洗浄機が挙げられる。かかる車両1100において、センサ1104は、家電装置によって処理される対象物の状態を検出するように構成された光学センサ又は音響センサであり得る。例えば、家電装置が洗濯機である場合、センサ1104は、洗濯機内の洗濯物の状態を検出することができる。アクチュエータ制御コマンドは、検出された洗濯物の状態に基づいて決定され得る。
【0058】
この実施形態においては、制御システム1102は、センサ1104から(光学的又は音響的)画像及び注釈情報を受信する。制御システム1102は、これらと、システムに記憶されている所定数のクラスk及び類似度
【数31】
とを使用して、図10に記載の方法を用いて、センサ1104から受信した画像の各ピクセルを分類することができる。この分類に基づいて、信号がアクチュエータ1106に送信され、例えば、歩行者若しくは樹木との衝突を回避するために制動若しくは旋回し、検出されたレーンマーキング間に留まるように操舵し、又は、上述したようにアクチュエータ1106によって実行される動作のいずれかを行うことができる。また、この分類に基づいて、例えば、カメラレンズの焦点を合わせるため又はカメラレンズを移動させるための信号がセンサ1104に送信されるものとしてもよい。
【0059】
図12は、生産ラインの一部などの製造システム1200のパンチカッタ、カッタ又はガンドリルなどのシステム1200(例えば、製造機械)を制御するように構成された制御システム1202の概略図を示している。制御システム1202は、システム1200(例えば、製造機械)を制御するように構成されたアクチュエータ1206を制御するように構成されるものとしてよい。
【0060】
システム1200(例えば、製造機械)のセンサ1204は、製造製品の1つ以上の特性を捕捉するように構成された光学センサ若しくは音響センサ又はセンサアレイなどの波エネルギセンサであるものとしてよい。制御システム1202は、捕捉した特性のうちの1つ以上から製造製品の状態を判定するように構成することができる。アクチュエータ1206は、製造製品104の判定状態に応じて、製造製品の後続の製造ステップのためにシステム1202(例えば、製造機械)を制御するように構成することができる。アクチュエータ1206は、過去の製造製品の判定状態に応じて、システム(例えば、製造機械)の後続の製造製品に対する図11の機能(例えば、製造機械)を制御するように構成されるものとしてよい。
【0061】
この実施形態においては、制御システム1202は、センサ1204から(光学的又は音響的)画像及び注釈情報を受信する。制御システム1202は、これらと、システムに記憶されている所定数のクラスk及び類似度
【数32】
とを使用して、図10に記載の方法を用いて、センサ1204から受信した画像の各ピクセルを分類し、例えば、製造された対象物の画像を2つ以上のクラスにセグメント化し、製造製品内の異常を検出し、バーコードなどの製造製品上の対象物の存在を保証することができる。この分類に基づいて、信号をアクチュエータ1206に送信することができる。例えば、制御システム1202が製品の異常を検出した場合、アクチュエータ1206は、ラインから異常又は欠陥製品をマーキングし又は除去することができる。他の例においては、制御システム1202が、製品上に配置されたバーコード又は他の対象物の存在を検出した場合、アクチュエータ1206は、これらの対象物を適用し又はこれらを除去することができる。また、この分類に基づいて、例えば、カメラレンズの焦点を合わせるための又はカメラレンズを移動させるための信号がセンサ1204に送信されるものとしてもよい。
【0062】
図13は、少なくとも部分的に自律モードを有する電動ドリル又はドライバなどの電動工具1300を制御するように構成された制御システム1302の概略図を示している。制御システム1302は、電動工具1300を制御するように構成されたアクチュエータ1306を制御するように構成されるものとしてもよい。
【0063】
電動工具1300のセンサ1304は、作業面及び/又は作業面に打ち込まれる締結具の1つ以上の特性を捕捉するように構成されている光学センサ又は音響センサなどの波エネルギセンサであるものとしてよい。制御システム1302は、捕捉された特性のうちの1つ以上から、作業面及び/又は作業面に対する締結具の状態を判定するように構成することができる。
【0064】
この実施形態においては、制御システム1302は、センサ1304から(光学的又は音響的)画像及び注釈情報を受信する。制御システム1302は、これらと、システムに記憶されている所定数のクラスk及び類似度
【数33】
とを使用して、図10に記載の方法を用いて、センサ1304から受信した画像の各ピクセルを分類し、作業面若しくは締結具の画像を2つ以上のクラスにセグメント化し、又は、作業面若しくは締結具の異常を検出することができる。この分類に基づいて、信号がアクチュエータ1306に送信され、例えば、ツールの圧力若しくは速度、又は、上記のセクションにおいて説明されるようなアクチュエータ1306によって行われる動作のいずれかを行うことができる。また、この分類に基づいて、例えば、カメラレンズの焦点を合わせるため又はカメラレンズを移動させるための信号がセンサ1304に送信されるものとしてもよい。他の例においては、画像は、圧力、トルク、毎分回転数、温度、電流などの電動工具1300からの信号の時系列画像であるものとしてもよい。電動工具は、ハンマドリル、ドリル、(回転又は解体)ハンマ、インパクトドライバ、往復鋸、振動マルチツールであり、電動工具はコードレス又はコード付きである。
【0065】
図14は、自動パーソナルアシスタント1401を制御するように構成された制御システム1402の概略図を示している。制御システム1402は、自動パーソナルアシスタント1401を制御するように構成されたアクチュエータ1406を制御するように構成することができる。自動パーソナルアシスタント1401は、洗濯機、ストーブ、オーブン、電子レンジ又は食器洗浄機などの家電装置を制御するように構成されるものとしてもよい。
【0066】
この実施形態においては、制御システム1402は、センサ1404から(光学的又は音響的)画像及び注釈情報を受信する。制御システム1402は、これらと、システムに記憶されている所定数のクラスk及び類似度
【数34】
とを使用して、図10に記載の方法を用いて、センサ1404から受信した画像の各ピクセルを分類し、例えば、操作又は動作する装置又は他の対象物の画像をセグメント化することができる。この分類に基づいて、信号がアクチュエータ1406に送信され、例えば、家電装置と相互作用するように自動パーソナルアシスタント1401の可動部分を制御することができ、又は、上記のセクションにおいて説明したようなアクチュエータ1406によって実行されるアクションのいずれかを制御することもできる。また、この分類に基づいて、例えば、カメラレンズの焦点を合わせるため又はカメラレンズを移動させるための信号がセンサ1404に送信されるものとしてもよい。
【0067】
図15は、監視システム1500を制御するように構成された制御システム1502の概略図を示している。監視システム1500は、ドア252を通したアクセスを物理的に制御するように構成することができる。センサ1504は、アクセスが許可されるかどうかを決定する際に関連するシーンを検出するように構成することができる。センサ1504は、画像及び/又はビデオデータを生成及び送信するように構成された光学若しくは音響センサ又はセンサアレイであり得る。かかるデータは、制御システム1502によって使用され、人の顔を検出することができる。
【0068】
監視システム1500は、監督システムであるものとしてもよい。かかる実施形態においては、センサ1504は、監督下にあるシーンを検出するように構成された光学センサ、赤外線センサ、音響センサなどの波エネルギセンサであるものとしてもよく、制御システム1502は、ディスプレイ1508を制御するように構成される。制御システム1502は、例えば、センサ1504によって検出されたシーンが疑わしいかどうかなど、シーンの分類を判定するように構成される。摂動オブジェクトを利用して、特定のタイプの対象物を検出し、システムが最適でない条件(例えば、夜、霧、雨、若しくは、干渉する背景雑音など)においてかかる対象物を識別することが可能となる。制御システム1502は、分類に応答してアクチュエータ制御コマンドをディスプレイ1508に送信するように構成される。ディスプレイ1508は、アクチュエータ制御コマンドに応答して、表示されるコンテンツを調整するように構成することができる。例えば、ディスプレイ1508は、コントローラ1502によって疑わしいとみなされる対象物を強調表示することができる。
【0069】
この実施形態においては、制御システム1502は、センサ1504から(光学的又は音響的)画像及び注釈情報を受信する。制御システム1502は、これらと、システムに記憶されている所定数のクラスk及び類似度
【数35】
とを使用して、図10に記載の方法を用いて、センサ1504から受信した画像の各ピクセルを分類し、例えば、シーン内の疑わしい対象物又は望ましくない対象物の存在を検出したり、照明又は観察条件のタイプを検出したり、動きを検出したりすることができる。この分類に基づいて、信号がアクチュエータ1506に送信され、例えば、ドア若しくは他の入口を施錠若しくは解錠し、アラーム若しくは他の信号を起動させ、又は、上記のセクションにおいて説明したようなアクチュエータ1506によって実行される動作のいずれかを行うことができる。また、この分類に基づいて、例えば、カメラレンズの焦点を合わせるため又はカメラレンズを移動させるための信号がセンサ1504に送信されるものとしてもよい。
【0070】
図16は、撮像システム1600、例えば、MRI装置、X線撮像装置又は超音波装置を制御するように構成された制御システム1602の概略図を示している。センサ1604は、例えば、撮像センサ又は音響センサアレイであるものとしてよい。制御システム1602は、センシングされた画像の全部又は一部の分類を決定するように構成することができる。制御システム1602は、訓練されたニューラルネットワークによって取得された分類に応答してアクチュエータ制御コマンドを決定又は選択するように構成することができる。例えば、制御システム1602は、センシングされた(光学的又は音響的)画像の領域が潜在的に異常であると解釈することができる。この場合、アクチュエータ制御コマンドは、ディスプレイ1606に画像を表示させ、潜在的に異常な領域を強調表示させるように決定又は選択することができる。
【0071】
この実施形態においては、制御システム1602は、センサ1604から画像及び注釈情報を受信する。制御システム1602は、これらと、システムに記憶されている所定数のクラスk及び類似度
【数36】
とを使用して、図10に記載の方法を用いて、センサ1604から受信した画像の各ピクセルを分類することができる。この分類に基づいて、信号がアクチュエータ1606に送信され、例えば、画像の異常領域又は上記セクションにおいて説明したようなアクチュエータ1606によって実行される動作のいずれかを検出することができる。
【0072】
本明細書において説明されるアルゴリズム及び/又は方法を具現化するプログラムコードは、種々の異なる形態においてプログラム製品として個々に又は集合的に配布することが可能である。プログラムコードは、プロセッサに1つ以上の実施形態の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体を使用して配布することができる。本質的に非一時的であるコンピュータ可読記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、又は、他のデータなどの情報の記憶のための任意の方法若しくは技術により実装される、揮発性及び不揮発性並びに取外し可能及び取外し不可能な有形媒体を含み得る。コンピュータ可読記憶媒体には、RAM、ROM、消去可能プログラマブル読取り専用メモリ(EPROM)、電気的消去可能プログラマブル読取り専用メモリ(EEPROM)、フラッシュメモリ又は他の固体メモリ技術、ポータブルコンパクトディスク読取り専用メモリ(CD-ROM)、又は、他の光記憶デバイス、磁気カセット、磁気テープ、磁気ディスク記憶デバイス若しくは他の磁気記憶デバイス、又は、所望の情報を記憶するために使用可能でありかつコンピュータによって読取り可能である任意の他の媒体がさらに含まれ得る。コンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からコンピュータ、他のタイプのプログラマブルデータ処理装置若しくは他のデバイスに、又は、ネットワークを介して外部コンピュータ若しくは外部記憶デバイスにダウンロードされ得る。
【0073】
コンピュータ可読媒体に記憶されたコンピュータ可読プログラム命令を使用して、コンピュータ、他のタイプのプログラム可能データ処理装置又は他のデバイスに、特定の方法により機能するように指示することができ、その結果、コンピュータ可読媒体に記憶された命令により、フローチャート又は図において指定されている機能、アクション及び/又は動作を実施する命令を含む製品が製造される。いくつかの代替実施形態においては、フローチャート及び図において指定されている機能、アクション及び/又は動作は、1つ以上の実施形態と一致して、並べ替えられ、連続的に処理され、及び/又は、同時に処理することができる。さらに、フローチャート及び/又は図のいずれも、1つ以上の実施形態に一致して示されたものよりも多い若しくは少ないノード又はブロックを含むものとしてもよい。
【0074】
本開示の全てを種々の実施形態の説明によって例示し、これらの実施形態をかなり詳細に説明したが、添付の特許請求の範囲の範囲をかかる詳細に限定し又は何らかの態様により限定することは、本出願人の意図するところではない。さらなる利点及び修正も、当業者には容易に明らかとなる。従って、本開示は、そのより広い態様において、特定の詳細、代表的な装置及び方法、並びに、図示されて説明された例示的な例に限定されるものではない。従って、一般的な発明概念の精神又は範囲から逸脱することなく、かかる詳細から離れてもよい。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10A
図10B
図10C
図11
図12
図13
図14
図15
図16
【外国語明細書】