(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-08-24
(54)【発明の名称】拡張現実におけるバイノーラル再生のためのヘッドホン等化および室内適応のためのシステムおよび方法
(51)【国際特許分類】
H04S 1/00 20060101AFI20230817BHJP
G10L 25/51 20130101ALI20230817BHJP
G10L 25/30 20130101ALI20230817BHJP
H04R 5/027 20060101ALI20230817BHJP
G10K 15/00 20060101ALI20230817BHJP
H04R 25/00 20060101ALI20230817BHJP
H04R 1/10 20060101ALI20230817BHJP
H04R 5/033 20060101ALI20230817BHJP
H04S 7/00 20060101ALI20230817BHJP
G10K 11/178 20060101ALN20230817BHJP
【FI】
H04S1/00 500
G10L25/51 400
G10L25/30
H04R5/027 Z
G10K15/00 L
H04R25/00 Z
H04R1/10 101Z
H04R5/033 Z
H04S7/00 340
G10K11/178
【審査請求】有
【予備審査請求】有
(21)【出願番号】P 2023506248
(86)(22)【出願日】2021-07-28
(85)【翻訳文提出日】2023-03-27
(86)【国際出願番号】 EP2021071151
(87)【国際公開番号】W WO2022023417
(87)【国際公開日】2022-02-03
(32)【優先日】2020-07-31
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】500341779
【氏名又は名称】フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100134119
【氏名又は名称】奥町 哲行
(72)【発明者】
【氏名】シュポーラー・トーマス
【テーマコード(参考)】
5D005
5D011
5D061
5D162
【Fターム(参考)】
5D005BA13
5D011AB15
5D011AB16
5D061FF02
5D162AA13
5D162CC08
5D162CD07
5D162CD30
5D162DA02
5D162DA04
5D162DA16
5D162EA05
5D162EG06
(57)【要約】
システムが提供される。システムは、複数のバイノーラル室内インパルス応答を判定するための分析器(152)と、複数のバイノーラル室内インパルス応答に応じて、かつ少なくとも1つの音源の音源信号に応じて、少なくとも2つのラウドスピーカ信号を生成するためのラウドスピーカ信号発生器(154)とを含む。分析器(152)は、複数のバイノーラル室内インパルス応答の各々が、ユーザがヘッドホンを装着したことに起因する効果を考慮するように、複数のバイノーラル室内インパルス応答を判定するように構成される。
【特許請求の範囲】
【請求項1】
複数のバイノーラル室内インパルス応答を判定するための分析器(152)と、
前記複数のバイノーラル室内インパルス応答に応じて、かつ少なくとも1つの音源の前記音源信号に応じて、少なくとも2つのラウドスピーカ信号を生成するラウドスピーカ信号発生器(154)と、
を備え、
前記分析器(152)は、前記複数のバイノーラル室内インパルス応答の各々が、ユーザがヘッドホンを装着したことに起因する効果を考慮するように、前記複数のバイノーラル室内インパルス応答を判定するように構成されている、
システム。
【請求項2】
前記システムは、前記ヘッドホンを備え、
前記ヘッドホンは、前記少なくとも2つのラウドスピーカ信号を出力するように構成されている、
請求項1に記載のシステム。
【請求項3】
前記ヘッドホンは、2つのヘッドホンカプセルと、前記2つのヘッドホンカプセルのそれぞれにおける音を測定するための少なくとも1つのマイクロホンとを含み、
前記音を測定するための前記少なくとも1つのマイクロホンは、前記2つのヘッドホンカプセルのそれぞれに配置され、
前記分析器(152)は、前記2つのヘッドホンカプセルのそれぞれにおける前記少なくとも1つのマイクロホンの前記測定値を用いて前記複数のバイノーラル室内インパルス応答の前記判定を行うように構成されている、
請求項1または2に記載のシステム。
【請求項4】
前記2つのヘッドホンカプセルの各々における前記少なくとも1つのマイクロホンは、前記ヘッドホンによる前記少なくとも2つのラウドスピーカ信号の再生に先行して、再生室内の音状況の1つまたは複数の録音を生成し、前記1つまたは複数の録音からの少なくとも1つの音源の生音声信号の推定値を判定し、前記再生室内の前記音源についての前記複数のバイノーラル室内インパルス応答のバイノーラル室内インパルス応答を判定するように構成されている、
請求項3に記載のシステム。
【請求項5】
前記2つのヘッドホンカプセルの各々における前記少なくとも1つのマイクロホンは、前記ヘッドホンによる前記少なくとも2つのラウドスピーカ信号の再生中に、前記再生室内の前記音状況の1つまたは複数のさらなる録音を生成し、これらの1つまたは複数のさらなる録音から拡張信号を減算し、1つまたは複数の音源からの前記生音声信号の前記推定を判定し、前記再生室内の前記音源についての前記複数のバイノーラル室内インパルス応答の前記バイノーラル室内インパルス応答を判定するように構成されている、
請求項4に記載のシステム。
【請求項6】
前記分析器(152)は、前記再生室の音響室特性を判定し、前記音響室特性に応じて前記複数のバイノーラル室内インパルス応答を適合させるように構成されている、
請求項4または5に記載のシステム。
【請求項7】
前記少なくとも1つのマイクロホンは、前記外耳道の入り口付近の音を測定するために、前記2つのヘッドホンカプセルのそれぞれに配置されている、
請求項4から6のいずれか一項に記載のシステム。
【請求項8】
前記システムは、前記再生室内の前記音状況を測定するために、前記2つのヘッドホンカプセルの外側に1つまたは複数のさらなるマイクロホンを含む、
請求項4から7のいずれか一項に記載のシステム。
【請求項9】
前記ヘッドホンはブラケットを含み、前記1つまたは複数のさらなるマイクロホンのうちの少なくとも1つは前記ブラケット上に配置されている、
請求項8に記載のシステム。
【請求項10】
前記ラウドスピーカ信号発生器(154)は、前記複数のバイノーラル室内インパルス応答の各々を複数の1つまたは複数の音源信号のうちの音源信号と畳み込むことによって前記少なくとも2つのラウドスピーカ信号を生成するように構成されている、
請求項1から9のいずれか一項に記載のシステム。
【請求項11】
前記分析器(152)は、前記ヘッドホンの動きに応じて前記複数のバイノーラル室内インパルス応答のうちの少なくとも一方を判定するように構成されている、
請求項1から10のいずれか一項に記載のシステム。
【請求項12】
前記システムは、前記ヘッドホンの動きを判定するためのセンサを含む、
請求項11に記載のシステム。
【請求項13】
選択的聴力を支援するためのシステムであって、
聴覚環境の少なくとも2つの受信マイクロホン信号を用いて1つまたは複数の音源の音源信号部分を検出する検出器(110)と、
前記1つまたは複数の音源のそれぞれに位置情報を割り当てる位置判定器(120)と、
前記1つまたは複数の音源の各々の前記音源信号部分に音声信号タイプを割り当てるための音声タイプ分類器(130)と、
前記少なくとも1つの音源の修正音声信号部分を取得するために、前記少なくとも1つの音源の前記音源信号部分の前記音声信号タイプに応じて、前記1つまたは複数の音源の前記少なくとも1つの音源の前記音源信号部分を変更するための信号部分修正器(140)と、
を備え、
前記分析器(152)および前記ラウドスピーカ信号発生器(154)は共に信号発生器(150)を形成し、
前記信号発生器(150)の前記分析器(152)は、前記複数のバイノーラル室内インパルス応答を生成するように構成され、前記複数のバイノーラル室内インパルス応答が、前記1つまたは複数の音源の各音源についての複数のバイノーラル室内インパルス応答であり、前記音源の前記位置情報およびユーザの頭部の向きに依存し、
前記信号発生器(150)の前記ラウドスピーカ信号発生器(154)は、前記複数のバイノーラル室内インパルス応答に応じて、かつ前記少なくとも1つの音源の前記修正音声信号部分に応じて、前記少なくとも2つのラウドスピーカ信号を発生するように構成されている、
システム。
【請求項14】
前記検出器(110)は、深層学習モデルを使用することによって前記1つまたは複数の音源の前記音源信号部分を検出するように構成されている、
請求項13に記載のシステム。
【請求項15】
前記位置判定器(120)は、前記1つまたは複数の音源の各々について、撮像画像または記録された映像に応じて前記位置情報を判定するように構成されている、
請求項13または14に記載のシステム。
【請求項16】
前記信号部分修正器(140)は、以前に学習されたユーザシナリオに応じて、その音源信号部分が修正される前記少なくとも1つの音源を選択し、前記以前に学習されたユーザシナリオに応じて、前記音源を修正するように構成されている、
請求項13から15のいずれか一項に記載のシステム。
【請求項17】
前記システムは、前記検出器(110)と前記位置判定器(120)と前記音声タイプ分類器(130)と前記信号部分修正器(140)と前記信号発生器(150)とを含む遠隔デバイス(190)を含み、
前記遠隔デバイスは、前記ヘッドホンから空間的に分離されている、
請求項13から16のいずれか一項に記載のシステム。
【請求項18】
前記遠隔デバイス(190)がスマートフォンである、請求項17に記載のシステム。
【請求項19】
方法であって、
複数のバイノーラル室内インパルス応答を判定するステップと、
前記複数のバイノーラル室内インパルス応答に応じて、かつ前記少なくとも1つの音源の前記音源信号に応じて、少なくとも2つのラウドスピーカ信号を生成するステップと、
を含み、
前記複数のバイノーラル室内インパルス応答は、前記複数のバイノーラル室内インパルス応答の各々が、ユーザがヘッドホンを装着したことに起因する効果を考慮するように判定される、
方法。
【請求項20】
請求項19に記載の方法を実行するためのプログラムコードを有するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、拡張現実(AR:augmented reality)におけるバイノーラル再生のためのヘッドホン等化および室内適応に関する。
【背景技術】
【0002】
選択的聴覚(SH:Selective hearing)は、聴取者が聴覚シーンにおいて特定の音源または複数の音源に注意を向ける能力を指す。同様に、これは、聴取者の関心のないソースへの集中が低減されることを意味する。
【0003】
したがって、人間の聴取者は、大きな環境でも通信することができる。これは、通常、異なる態様を利用し、2つの耳で聞く場合、方向に依存する時間差およびレベル差、ならびに方向に依存する異なる音のスペクトル着色がある。後者により、片耳で聞く場合であっても、聴覚によって音源の方向を判別し、異なる音源を分離することができる。
【0004】
時間差およびレベル差だけでは音源の正確な位置を判定するのに十分ではなく、同じ時間差およびレベル差を有する位置は双曲面上に位置する。結果として生じる位置判定の曖昧さは、混同の円錐と呼ばれる。部屋では、各音源は境界面によって反射される。これらのいわゆるミラーソースの各々は、さらなる双曲面上に位置する。人間の聴覚は、直接音に関する情報と聴覚イベントへの関連する反射とを組み合わせ、これによって混同の曖昧さを解決する。同時に、音源に属する反射は、音源の知覚される音量を増加させる。
【0005】
また、自然音源、特に音声の場合、異なる周波数の信号部分が時間的に結合される。バイノーラル聴覚では、これらの態様のすべてが一緒に使用される。さらに、十分に局在可能な大きな外乱源は、いわば能動的に無視することができる。
【0006】
文献では、選択的聴覚の概念は、補助聴取[1]、仮想聴覚環境および増幅聴覚環境[2]などの他の用語に関連している。補助聴取は、仮想、増幅およびSH用途を含むより広い用語である。
【0007】
従来技術によれば、古典的な聴覚デバイスは、主にモノラル方式で動作する、すなわち、左右の耳の信号処理は、周波数応答および動的圧縮に関して完全に独立している。結果として、耳信号間の時間、レベル、および周波数の差が失われる。
【0008】
最新の、いわゆるバイノーラル聴覚デバイスは、2つの聴覚デバイスの補正係数を結合する。多くの場合、それらはいくつかのマイクロホンを有するが、通常、選択されるのは「最も音声らしい」信号を有するマイクロホンのみであり、明示的なビームフォーミングは計算されない。複雑な聴覚状況では、所望の音信号と望ましくない音信号とが同じように増幅され、したがって、所望の音成分への集中はサポートされない。
【0009】
例えば電話のためのハンズフリーデバイスの分野では、今日既にいくつかのマイクロホンが使用されており、個々のマイクロホン信号からいわゆるビームが計算され、ビームの方向から来る音が増幅され、他の方向からの音が低減される。今日の方法は、背景の一定の音を学習し(例えば、自動車内のエンジンおよび風雑音)、さらなるビームを介して十分に局在可能な大きな外乱を学習し、これらを使用信号から減算する(例:一般化サイドローブキャンセラ)。時々、電話システムは、音声の静的特性を検出する検出器を使用し、音声のように構造化されていないすべてを抑制する。ハンズフリーデバイスでは、モノラル信号のみが最終的に送信され、状況を捕捉するために、特に、いくつかの話者が相互呼び出しを有する場合に、あたかも「1つはそこにあった」かのように錯覚を提供するために興味深い空間情報を伝送路で失う。非音声信号を抑制することにより、通話相手の音響環境に関する重要な情報が失われ、通信が妨げられる可能性がある。
【0010】
本来、人間は、周囲の個々の音源に「選択的に聴取する」意識的に集中することができる。人工知能(AI:artificial intelligence)による選択的聴覚のための自動システムは、最初に基礎となる概念を学習しなければならない。音響シーンの自動分解(シーン分解)は、まず、すべてのアクティブな音源の検出および分類を必要とし、その後、それらを別々の音声対象物としてさらに処理、増幅、または弱めることができるように分離する。
【0011】
聴覚シーン分析の研究分野は、記録された音声信号に基づいて、ステップ、拍手、または声などの時間的に位置する音イベント、ならびにコンサート、レストラン、またはスーパーマーケットなどのよりグローバルな音響シーンを検出および分類しようとする。この場合、現在の方法は、人工知能(AI)および深層学習の分野の方法のみを使用する。これは、音声信号内の特性パターンを検出するために、大きな訓練量に基づいて学習する深層ニューラルネットワークのデータ駆動学習を含む[70]。とりわけ、画像処理(コンピュータビジョン)および音声処理(自然言語処理)の研究分野の進歩に触発されて、スペクトログラム表現における2次元パターン検出のための畳み込みニューラルネットワークと、音の時間モデリングのための再帰層(リカレントニューラルネットワーク)との混合が原則として使用される。
【0012】
音声分析には、対処すべき一連の特定の課題がある。それらの複雑さのために、深層学習モデルは非常にデータを大量に消費する。画像処理および音声処理の研究分野とは対照的に、音声処理に利用可能なデータセットは比較的小さい。最大のデータセットは、約200万の音例および632の異なる音イベントクラスを有するGoogle[83]のAudioSetデータセットであり、研究で使用されるほとんどのデータセットは著しく小さい。この少量の訓練データは、例えば、転送学習を用いて対処することができ、大きなデータセットで事前訓練されたモデルは、その後、ユースケースに対して判定された新しいクラスを用いてより小さなデータセットに微調整される(微調整)[77]。さらに、半教師あり学習からの方法は、訓練において、一般に大量に入手可能な注釈付けされていない音声データも含むように利用される。
【0013】
画像処理と比較したさらなる重要な違いは、同時に聞くことができる音響イベントの場合、(画像の場合のように)音対象物のマスキングがなく、複雑な位相依存のオーバーラップがあることである。深層学習における現在のアルゴリズムは、いわゆる「注意」メカニズムを使用し、例えば、モデルが特定の時間セグメントまたは周波数範囲に分類に集中することを可能にする[23]。音イベントの検出は、それらの持続時間に関する高い分散によってさらに複雑になる。アルゴリズムは、銃声などの非常に短い事象、および通過列車などの長い事象をロバストに検出することができるべきである。
【0014】
訓練データの記録における音響条件に対するモデルの強い依存性のために、モデルは、例えば、空間残響またはマイクロホンの位置決めに関して異なる、新しい音響環境において予期しない挙動を示すことが多い。この問題を緩和するための様々な解決手法が開発されている。例えば、データ増強方法は、異なる音響条件のシミュレーション[68]および異なる音源の人工的な重複を通じてモデルのより高いロバスト性および不変性を達成しようとする。さらに、複雑なニューラルネットワークのパラメータは、訓練データに対する過剰訓練および特殊化が回避され、同時に見えないデータに対するより良好な一般化を達成するように、異なる方法で調整することができる。近年、以前に訓練されたモデルを新しい適用条件に適合させるために、「ドメイン適応」[67]に対して異なるアルゴリズムが提案されている。このプロジェクトで計画されているヘッドホン内の使用シナリオでは、音源検出アルゴリズムのリアルタイム機能は基本的に重要である。ここで、ニューラルネットワークの複雑さと、基礎となるコンピューティングプラットフォーム上の計算動作の最大可能数との間のトレードオフが必然的に行われなければならない。音声イベントの持続時間が長くても、対応する音源分離を開始するためには、可能な限り迅速に検出する必要がある。
【0015】
フラウンホーファー(Fraunhofer)IDMTでは、近年、自動音源検出の分野において多くの研究が行われている。研究プロジェクト「シュタットラーム」では、ノイズレベルを測定し、都市内の異なる場所で記録された音声信号に基づいて14の異なる音響シーンとイベントクラスとの間で分類することができる分散型センサネットワークが開発された[69]。この場合、センサにおける処理は、組み込みプラットフォームRaspberry Pi 3上でリアルタイムで実行される。前の研究では、オートエンコーダネットワークに基づいてスペクトログラムのデータ圧縮のための新規な手法が検討された[71]。最近では、音楽信号処理(音楽情報検索)の分野における深層学習からの方法の使用を通じて、音楽転写[76]、[77]、コード検出[78]、および楽器検出[79]などの用途において大きな進歩があった。産業用音声処理の分野では、新しいデータセットが確立されており、例えば電気モータの音響状態を監視するために、深層学習の方法が使用されている[75]。
【0016】
この実施形態で対処されるシナリオは、数およびタイプが最初は未知であり、絶えず変化し得るいくつかの音源を想定している。音源分離のために、いくつかのスピーカなどの同様の特性を有するいくつかの音源は、特に大きな課題である[80]。
【0017】
高い空間分解能を達成するために、いくつかのマイクロホンをアレイの形態で使用しなければならない[72]。モノラル(1チャネル)またはステレオ(2チャネル)の従来の音声録音とは対照的に、そのような録音シナリオは、聴取者の周りの音源の正確な位置特定を可能にする。
【0018】
音源分離アルゴリズムは、通常、音源[5]間の歪みおよびクロストークなどのアーチファクトを残し、これは一般に、聴取者によって妨害として知覚され得る。トラックを再混合することにより、そのようなアーチファクトを部分的にマスクすることができ、したがって低減することができる[10]。
【0019】
「ブラインド」音源分離を強化するために、音源の検出された数およびタイプまたはそれらの推定空間位置などの追加情報がしばしば使用される(インフォームドソース分離[74])。いくつかの話者が活動している会議の場合、現在の分析システムは、話者の数を同時に推定し、それぞれの時間的活動を判定し、続いて音源分離によってそれらを分離することができる[66]。
【0020】
フラウンホーファー IDMTでは、近年、音源分離アルゴリズムの知覚ベースの評価に関する多くの研究が行われている[73]。
【0021】
音楽信号処理の分野では、追加情報として単独楽器のベース周波数推定を利用して、単独楽器および付随する楽器を分離するためのリアルタイム対応アルゴリズムが開発されている[81]。深層学習方法に基づいて複雑な楽曲から歌唱を分離するための代替的な手法が[82]において提案されている。産業用音声分析の文脈における用途のために、特殊な音源分離アルゴリズムも開発されている[7]。
【0022】
ヘッドホンは、周囲の音響的知覚に大きく影響する。ヘッドホンの構造に応じて、耳に向かう音の入射は、異なる程度に減衰される。インイヤーヘッドホンは、耳チャネルを完全に遮断する[85]。耳介を取り囲む閉じたヘッドホンは、聴取者を外部環境からも音響的に強く遮断する。開放型および半開放型のヘッドホンは、音が完全にまたは部分的に通過することを可能にする[84]。日常生活の多くの用途において、ヘッドホンは、その構造タイプで可能であるよりも強く、望ましくない周囲の音を分離することが望ましい。
【0023】
さらに、能動的雑音制御(ANC:active noise control)によって、外部からの干渉の影響を減衰させることができる。これは、ヘッドホンのマイクロホンによって入射音声信号を記録し、次いで、これらの音声部分とヘッドホンを貫通する音声部分とが干渉によって互いに打ち消し合うように、ラウドスピーカによってそれらを再生することによって実現される。全体として、これは、周囲からの強力な音響的分離を達成することができる。しかしながら、多くの日常の状況では、これは危険に付随しており、そのため、オンデマンドでこの機能を知的にオンにできることが望まれている。
【0024】
第1の製品は、受動的絶縁を低減するために、マイクロホン信号がヘッドホンに通されることを可能にする。そのため、試作品[86]以外にも、「透明聴取」の機能を宣伝する商品は既に存在する。例えば、Sennheiserは、AMBEOヘッドセット[88]と共に機能を提供し、Bragiは、製品「Dash Pro」と共に提供する。しかしながら、この可能性は始まりにすぎない。将来、この機能は、周囲の音を完全にオンおよびオフにすることに加えて、個々の信号部分(例えば、音声信号または警報信号のみ)をオンデマンドで排他的にヒアラブルにすることができるように大幅に拡張されるべきである。フランスの会社Orosoundは、ヘッドセット「チルドイヤホン」を着用している人がスライダを用いてANCの強度を適合させることを可能にする[89]。加えて、会話相手の音声もまた、起動されたANC中に誘導され得る。しかしながら、これは、会話の相手が60°の円錐の中に向かい合って位置する場合にのみ機能する。方向に依存しない適応は不可能である。
【0025】
米国特許出願公開第2015195641号明細書([91]参照)は、ユーザのための聴覚環境を生成するために実施される方法を開示している。この場合、本方法は、ユーザの周囲聴覚環境を表す信号を受信するステップと、周囲聴覚環境内の複数の音声タイプのうちの少なくとも1つの音声タイプを識別するようにマイクロプロセッサを使用して信号を処理するステップと、を含む。さらに、本方法は、複数の音声タイプの各々についてのユーザ選好を受信するステップと、周囲聴覚環境内の各音声タイプについての信号を修正するステップと、修正された信号を少なくとも1つのラウドスピーカに出力して、ユーザの聴覚環境を生成するステップと、を含む。
【0026】
拡張現実(AR)におけるバイノーラル再生のヘッドホン等化および室内適応(または空間/空間適応または空間/空間補償)は重要な問題である。
【0027】
典型的なシナリオでは、人間の聴取者は、音響的に(部分的に)透明なヘッドホンを装着し、ヘッドホンを通して周囲の音を聞く。さらに、追加の音源がヘッドホンを介して再生され、前記音源は、聴取者が実際の音響シーンと追加の音とを区別することができないように実際の周囲に埋め込まれる。
【0028】
通常、頭部が回転する方向および部屋(または空間)内の聴取者の位置は、追跡(6自由度(6DoF:degrees of freedom))によって判定される。録音室および再生室の室内音響特性が一致する場合、または録音が再生室に適合される場合、良好な結果(すなわち、外部化および正確な局在化)が達成されることが研究から知られている。
【0029】
この場合、例示的な解決策は以下のように実現することができる。
【0030】
第1のステップでは、ヘッドホンを用いないBRIRの測定が、個別化された様式で、またはプローブマイクロホンによる人工ヘッドを用いて行われる。
【0031】
第2のステップでは、測定されたBRIRに基づいて、記録室の室内特性の解析が行われる。
【0032】
第3のステップでは、ヘッドホン伝達関数の測定が、個別化された方法で、または同じ場所にあるプローブマイクロホンによって人工頭部を用いて行われる。これにより、等化関数が判定される。
【0033】
任意選択で、第4のステップにおいて、再生室の室内特性の測定、再生室の音響特性の分析、および再生室に対するBRIRの適合が実行されてもよい。
【0034】
次に、さらなるステップでは、2つの生チャネルを得るために、正しく配置され、任意選択的に適合されたBRIRで増強されるソースの畳み込み(または折り畳み)が実行される。ヘッドホン信号を取得するための生チャネルと等化機能との畳み込み。
【0035】
最後に、さらなるステップにおいて、ヘッドホン信号の再生がヘッドホンを介して実行される。
【0036】
しかしながら、ヘッドホンを装着すると、BRIRに対する耳介の影響がなくなるという問題がある。すなわち、BRIRは、ヘッドホンがない場合とは異なる。これにより、ヘッドホンがない場合とは異なる自然音源が聞こえるが、あたかもヘッドホンがないかのように仮想的な拡張音源が再生される。
【先行技術文献】
【特許文献】
【0037】
【特許文献1】米国特許出願公開第2015195641号明細書
【発明の概要】
【発明が解決しようとする課題】
【0038】
再生室の室内特性の簡単で迅速かつ効率的な判定を可能にする概念を提供することが望ましい。
【課題を解決するための手段】
【0039】
本発明の実施形態を以下に提供する。
【0040】
したがって、請求項1は本発明の実施形態によるシステムを提供し、請求項19は方法を提供し、請求項20はコンピュータプログラムを提供する。
【0041】
本発明の一実施形態によるシステムは、複数のバイノーラル室内インパルス応答を判定するための分析器と、複数のバイノーラル室内インパルス応答に応じて、かつ少なくとも1つの音源の音源信号に応じて、少なくとも2つのラウドスピーカ信号を生成するためのラウドスピーカ信号発生器とを含む。分析器は、複数のバイノーラル室内インパルス応答の各々が、ヘッドホンがユーザによって装着されたことに起因する効果を考慮するように、複数のバイノーラル室内インパルス応答を判定するように構成される。
【0042】
さらに、本発明の一実施形態による方法が提供され、本方法は、
複数のバイノーラル室内インパルス応答を判定するステップと、
複数のバイノーラル室内インパルス応答に応じて、かつ少なくとも1つの音源の音源信号に応じて、少なくとも2つのラウドスピーカ信号を生成するステップと、
を含む。
【0043】
複数のバイノーラル室内インパルス応答は、複数のバイノーラル室内インパルス応答の各々が、ユーザがヘッドホンを装着したことに起因する効果を考慮するように判定される。
【0044】
さらに、上述の方法を実行するためのプログラムコードを有する本発明の一実施形態によるコンピュータプログラムが提供される。
【0045】
続いて、本発明の好ましい実施形態を図面を参照して説明する。
【図面の簡単な説明】
【0046】
【
図2】さらなる実施形態による選択的聴覚を支援するためのさらなるシステムを示す図である。
【
図3】ユーザインターフェースをさらに含む、選択的聴覚を支援するためのさらなるシステムを示す図である。
【
図4】2つの対応するラウドスピーカを有する聴覚デバイスを含む、選択的聴覚を支援するためのシステムを示す図である。
【
図5a】ハウジング構造および2つのラウドスピーカを含む、選択的聴覚を支援するためのシステムを示す図である。
【
図5b】2つのラウドスピーカを有するヘッドホンを含む、選択的聴覚を支援するためのシステムを示す図である。
【
図6】検出器および位置判定器ならびに音声タイプ分類器ならびに信号部分修正器および信号発生器を含む遠隔デバイス190を含む、一実施形態によるシステムを示す図である。
【
図7】5つのサブシステムを含む、一実施形態によるシステムを示す図である。
【
図8】一実施形態による対応するシナリオを示す図である。
【
図9】4つの外部音源を有する一実施形態によるシナリオを示す図である。
【
図10】実施形態に係るSH用途の処理ワークフローを示す図である。
【発明を実施するための形態】
【0047】
【0048】
システムは、複数のバイノーラル室内インパルス応答を判定するための分析器152を含む。
【0049】
さらに、システムは、複数のバイノーラル室内インパルス応答に応じて、かつ少なくとも1つの音源の音源信号に応じて、少なくとも2つのラウドスピーカ信号を生成するためのラウドスピーカ信号発生器154を含む。
【0050】
分析器152は、複数のバイノーラル室内インパルス応答の各々が、ユーザがヘッドホンを装着したことに起因する効果を考慮するように、複数のバイノーラル室内インパルス応答を判定するように構成される。
【0051】
一実施形態では、例えば、システムは、ヘッドホンを含んでもよく、例えば、ヘッドホンは、少なくとも2つのラウドスピーカ信号を出力するように構成されてもよい。
【0052】
一実施形態によれば、例えば、ヘッドホンは、少なくとも2つのヘッドホンカプセルと、例えば、2つのヘッドホンカプセルのそれぞれにおける音を測定するための少なくとも1つのマイクロホンとを含んでもよく、例えば、音を測定するための少なくとも1つのマイクロホンは、2つのヘッドホンカプセルのそれぞれに配置されてもよい。ここで、例えば、分析器152は、2つのヘッドホンカプセルのそれぞれにおける少なくとも1つのマイクロホンの測定値を用いて、複数のバイノーラル室内インパルス応答の判定を行うように構成されてもよい。バイノーラル再生を目的としたヘッドホンは、常に少なくとも2つのヘッドホンカプセル(例えば、異なる周波数範囲について)を備え、3つ以上のカプセルが設けられてもよい。
【0053】
一実施形態では、例えば、2つのヘッドホンカプセルの各々における少なくとも1つのマイクロホンは、ヘッドホンによる少なくとも2つのラウドスピーカ信号の再生に先立って、再生室(または空間)内の音の状況の1つまたは複数の録音を生成し、1つまたは複数の録音からの少なくとも1つの音源の生の音声信号の推定値を判定し、再生室内の音源についての複数のバイノーラル室内インパルス応答のバイノーラル室内インパルス応答を判定するように構成されてもよい。
【0054】
一実施形態によれば、例えば、2つのヘッドホンカプセルの各々の少なくとも1つのマイクロホンは、ヘッドホンによる少なくとも2つのラウドスピーカ信号の再生中に、再生室内の音状況の1つまたは複数のさらなる録音を生成し、これらの1つまたは複数のさらなる録音から拡張信号を減算し、1つまたは複数の音源からの生音声信号の推定値を判定し、再生室内の音源に対する複数のバイノーラル室内インパルス応答のバイノーラル室内インパルス応答を判定するように構成されてもよい。
【0055】
一実施形態では、例えば、分析器152は、再生室の音響室特性を判定し、音響室特性に応じて複数のバイノーラル室内インパルス応答を適合させるように構成され得る。
【0056】
一実施形態によれば、例えば、少なくとも1つのマイクロホンは、外耳道の入り口付近の音を測定するために、2つのヘッドホンカプセルの各々に配置されてもよい。
【0057】
一実施形態では、例えば、システムは、再生室内の音状況を測定するために、2つのヘッドホンカプセルの外側に1つまたは複数のさらなるマイクロホンを含み得る。
【0058】
一実施形態によれば、例えば、ヘッドホンはブラケットを含むことができ、例えば、1つまたは複数のさらなるマイクロホンのうちの少なくとも1つがブラケット上に配置される。
【0059】
一実施形態では、例えば、ラウドスピーカ信号発生器154は、複数のバイノーラル室内インパルス応答の各々が複数の1つまたは複数の音源信号の音源信号と畳み込まれることによって少なくとも2つのラウドスピーカ信号を生成するように構成されてもよい。
【0060】
一実施形態によれば、例えば、分析器152は、ヘッドホンの動きに応じて、複数のバイノーラル室内インパルス応答(またはいくつかまたはすべてのバイノーラル室内インパルス応答)のうちの少なくとも1つを判定するように構成されてもよい。
【0061】
実施形態では、システムは、ヘッドホンの動きを判定するためのセンサを含み得る。例えば、センサは、頭の回転を捕捉するように少なくとも3DoF(3自由度)を備える加速度ピックアップなどのセンサであってもよい。例えば、6DoFのセンサ(6自由度センサ)を用いてもよい。
【0062】
本発明の特定の実施形態は、聴覚環境において非常に大きいことが多く、聴覚環境における特定の音が邪魔であり、選択的な聴覚が望まれるという技術的課題に対処する。人間の脳自体はある程度選択的な聴覚を実行することができるが、知的技術補助者は選択的な聴覚を大幅に改善することができる。眼鏡が現代生活において多くの人々が自分の環境をよりよく知覚するのを助けるのと同様に、聴覚用の補聴器があるが、通常の聴力を有する人々であっても、多くの状況においてインテリジェントシステムによる支援から利益を得ることができる。「インテリジェントヒアラブル」(聴覚デバイスまたは補聴器)を実現するために、技術システムは、(音響)環境を分析し、個々の音源を個別に処理できるように識別する必要がある。この課題に対する研究は既に行われているが、従来技術では、音響環境全体をリアルタイム(耳に透明)かつ高音質(通常の音響環境と区別できないように聞こえるコンテンツ)で解析・処理することは実現されていなかった。
【0063】
機械聴取のための改善された概念が以下に提供される。
【0064】
第1のステップでは、ヘッドホンを用いたBRIRの測定は、プローブマイクロホンを用いて個別に、またはヘッドホンを用いて行われる。
【0065】
第2のステップでは、測定されたBRIRに基づいて、記録室の室内特性の解析が行われる。
【0066】
任意選択で、例えば、第3のステップにおいて、再生前に、各シェル内の少なくとも1つの内蔵マイクロホンが、再生室内の実際の音状況を記録する。これらの録音から、1つまたは複数の音源の生音声信号の推定値が判定され、再生室内の音源/音源のそれぞれのBRIRが判定される。この推定から、再生室の音響室特性が判定され、それに記録室内のBRIRが適合される。
【0067】
任意選択で、例えばさらなるステップにおいて、再生中に、各シェル内の少なくとも1つの内蔵マイクロホンが、再生室内の実際の音状況を記録する。これらの録音から、拡張信号が最初に減算され、次いで、1つまたは複数の音源の生音声信号の推定値が判定され、再生室内の音源/音源のそれぞれのBRIRが判定される。この推定から、再生室の音響室特性が判定され、再生室のBRIRがそれに適合される。
【0068】
さらなるステップでは、ヘッドホン信号を取得するために、正しく位置決めされ、任意選択的に適合されたBRIRで増強されるソースの畳み込みが実行される。
【0069】
最後に、さらなるステップにおいて、ヘッドホン信号の再生が、ヘッドホンを介して実行される。
【0070】
一実施形態では、例えば、外耳道の入り口付近の音を測定するために、少なくとも1つのマイクロホンが各ヘッドホンカプセル内に配置される。
【0071】
一実施形態によれば、再生室内の音状況を測定および分析するために、追加のマイクロホンが任意選択的にヘッドホンの外側に、場合によってはブラケットの上側にも配置される。
【0072】
実施形態では、同一の自然音源および拡張音源の音が実現される。
【0073】
実施形態は、ヘッドホンの特性の測定が不要であることを認識する。
【0074】
したがって、実施形態は、再生室の室内特性を測定するための概念を提供する。
【0075】
いくつかの実施形態は、室内適応の開始値および(後)最適化を提供する。提供される概念は、再生室の室内音響効果が変化する場合、例えば、聴取者が別の室内(または空間)に移動する場合にも機能する。
【0076】
とりわけ、実施形態は、技術的システムにおいて聴覚を支援するための異なる技術をインストールし、その後、音および生活の質(例えば、所望の音はより大きく、望ましくない音はより柔らかく、発話の理解性がより良好である。)の改善が正常な聴覚を有する人々および難聴を有する人々に対して達成されるように組み合わせることに基づいている。
【0077】
図2は、一実施形態による選択的聴覚を支援するためのシステムを示す図である。
【0078】
システムは、聴覚環境(または聴取環境)の少なくとも2つの受信マイクロホン信号を使用することによって、1つまたは複数の音源の音源信号部分を検出するための検出器110を含む。
【0079】
さらに、システムは、位置情報を1つまたは複数の音源の各々に割り当てるための位置判定器120を含む。
【0080】
さらに、システムは、音声信号タイプを、1つまたは複数の音源の各々の音源信号部分に割り当てるための音声タイプ分類器130を含む。
【0081】
さらに、システムは、少なくとも1つの音源の修正音声信号部分を取得するために、少なくとも1つの音源の音源信号部分の音声信号タイプに応じて、1つまたは複数の音源の少なくとも1つの音源の音源信号部分を変更するための信号部分修正器140を含む。
【0082】
図1の分析器152およびラウドスピーカ信号発生器154は共に信号発生器150を形成する。
【0083】
信号発生器150の分析器152は、複数のバイノーラル室内インパルス応答を生成するように構成され、複数のバイノーラル室内インパルス応答は、この音源の位置情報およびユーザの頭部の向きに依存する、1つまたは複数の音源の各音源に対する複数のバイノーラル室内インパルス応答である。
【0084】
信号発生器150のラウドスピーカ信号発生器154は、複数のバイノーラル室内インパルス応答に応じて、かつ少なくとも1つの音源の修正音声信号部分に応じて、少なくとも2つのラウドスピーカ信号を生成するように構成される。
【0085】
一実施形態によれば、例えば、検出器110は、深層学習モデルを使用することによって、1つまたは複数の音源の音源信号部分を検出するように構成されてもよい。
【0086】
一実施形態では、例えば、位置判定器120は、1つまたは複数の音源の各々について、捕捉画像または記録された映像に応じて位置情報を判定するように構成されてもよい。
【0087】
一実施形態によれば、例えば、位置判定器120は、映像内の人物の唇の動きを検出し、唇の動きに応じて、位置情報を、1つまたは複数の音源のうちの1つの音源信号部分に割り当てることによって、1つまたは複数の音源の各々について、映像に応じた位置情報を判定するように構成されてもよい。
【0088】
一実施形態では、例えば、検出器110は、少なくとも2つの受信マイクロホン信号に応じて、聴覚環境の1つまたは複数の音響特性を判定するように構成されてもよい。
【0089】
一実施形態によれば、例えば、信号発生器150は、聴覚環境の1つまたは複数の音響特性に応じて複数のバイノーラル室内インパルス応答を判定するように構成されてもよい。
【0090】
一実施形態では、例えば、信号部分修正器140は、その音源信号部分が以前に学習されたユーザシナリオに応じて修正される少なくとも1つの音源を選択し、それを以前に学習されたユーザシナリオに応じて修正するように構成されてもよい。
【0091】
一実施形態によれば、例えば、システムは、2つ以上の以前に学習されたユーザシナリオのグループから以前に学習されたユーザシナリオを選択するためのユーザインターフェース160を含み得る。
図3は、そのようなユーザインターフェース160をさらに含む、一実施形態によるそのようなシステムを示す。
【0092】
一実施形態では、例えば、検出器110および/または位置判定器120および/または音声タイプ分類器130および/または信号修正器140および/または信号発生器150は、ハフ変換を使用して、または複数のVLSIチップを使用して、または複数のメモリスタを使用することによって、並列信号処理を実行するように構成され得る。
【0093】
一実施形態によれば、例えば、システムは、聴覚能力が制限されているおよび/または聴覚を損傷しているユーザのための補聴器として機能する聴覚デバイス170を含むことができ、聴覚デバイスは、少なくとも2つのラウドスピーカ信号を出力するための少なくとも2つのラウドスピーカ171、172を含む。
図4は、2つの対応するラウドスピーカ171、172を有するそのような聴覚デバイス170を含む、一実施形態によるそのようなシステムを示す。
【0094】
一実施形態では、例えば、システムは、少なくとも2つのラウドスピーカ信号を出力するための少なくとも2つのラウドスピーカ181、182と、少なくとも2つのラウドスピーカを収容するハウジング構造183とを含むことができ、少なくとも1つのハウジング構造183は、ユーザの頭部185またはユーザの任意の他の身体部分に固定されるのに適している。
図5aは、そのようなハウジング構造183および2つのラウドスピーカ181、182を含む対応するシステムを示す。
【0095】
一実施形態によれば、例えば、システムは、少なくとも2つのラウドスピーカ信号を出力するための少なくとも2つのラウドスピーカ181、182を含むヘッドホン180を含み得る。
図5bは、一実施形態による、2つのラウドスピーカ181、182を有する対応するヘッドホン180を示す。
【0096】
一実施形態では、例えば、検出器110および位置判定器120ならびに音声タイプ分類器130ならびに信号部分修正器140および信号発生器150は、ヘッドホン180に統合されてもよい。
【0097】
図6に示す一実施形態によれば、例えば、システムは、検出器110および位置判定器120ならびに音声タイプ分類器130ならびに信号部分修正器140および信号発生器150を含む遠隔デバイス190を含み得る。この場合、例えば、遠隔デバイス190は、ヘッドホン180から空間的に分離されていてもよい。
【0098】
一実施形態では、例えば、遠隔デバイス190はスマートフォンであってもよい。
【0099】
実施形態は、必ずしもマイクロプロセッサを使用するのではなく、とりわけ、人工ニューラルネットワークのためにも、エネルギー効率の良い実現のために、ハフ変換、VLSIチップ、またはメモリスタなどの並列信号処理ステップを使用する。
【0100】
実施形態では、聴覚環境は空間的に捕捉され再生され、一方では入力信号の表現に2つ以上の信号を使用し、他方では空間的再生も使用する。
【0101】
実施形態では、信号分離は、深層学習(DL:deep learning)モデル(例えば、CNN、RCNN、LSTM、シャムネットワーク)によって実行され、少なくとも2つのマイクロホンチャネルからの情報を同時に処理し、各ヒアラブルに少なくとも1つのマイクロホンがある。本発明によれば、(個々の音源に応じた)いくつかの出力信号が、それらのそれぞれの空間位置と共に相互分析によって判定される。記録手段(マイクロホン)がヘッドに接続されている場合、対象物の位置はヘッドの移動に伴って変化する。これにより、例えば音対象物に向くことによって、重要な/重要でない音に自然に焦点を合わせることが可能になる。
【0102】
いくつかの実施形態では、信号分析のためのアルゴリズムは、例えば深層学習アーキテクチャに基づいている。あるいは、これは、解析ユニットによる変動、または態様の位置特定、検出、および音の分離のための分離されたネットワークによる変動を使用する。一般化相互相関(相関対時間オフセット)の代替的な使用は、頭部による周波数依存性シャドーイング/分離に対応し、位置特定、検出、および音源分離を改善する。
【0103】
一実施形態によれば、異なるソースカテゴリ(例えば、スピーチ、乗り物、子供の男性/女性/声、警告トーンなど。)は、訓練段階において検出器によって学習される。ここで、音源分離ネットワークはまた、高い信号品質、ならびに定位の高い精度に関する標的刺激を有する定位ネットワークに関して訓練される。
【0104】
例えば、上述の訓練ステップは、マルチチャネル音声データを使用し、第1の訓練ラウンドは、通常、シミュレートまたは記録された音声データを用いて実験室で実行される。これに続いて、異なる自然環境(例えば、居室、教室、駅、(産業用)生産環境など。)での訓練実行が行われ、すなわち転移学習およびドメイン適応が実行される。
【0105】
代替的または追加的に、位置検出器は、音源/音源の視覚位置も判定するように1つまたは複数のカメラに結合することができる。発話の場合、唇の動きと音源分離器から来る音声信号とが相関し、より正確な位置特定を達成する。
【0106】
訓練後、ネットワークアーキテクチャおよび関連するパラメータを有するDLモデルが存在する。
【0107】
いくつかの実施形態では、聴覚化はバイノーラル合成によって行われる。バイノーラル合成は、望ましくない成分を完全に削除することはできないが、知覚可能であるが妨害しない程度までそれらを減らすことができるというさらなる利点を提供する。これは、完全にオフにされた場合に見逃されるであろう予期しないさらなるソース(警告信号、吹き出し、...)を知覚するというさらなる利点を有する。
【0108】
いくつかの実施形態によれば、聴覚環境の分析は、対象物を分離するためだけでなく、音響特性(例えば、残響時間、初期時間ギャップ)を分析するためにも使用される。次いで、これらの特性は、予め記憶された(場合によっては個別化された)バイノーラル室内インパルス応答(BRIR:binaural room impulse responses)を実際の部屋(または空間)に適合させるようにバイノーラル合成において使用される。室内発散を低減することによって、聴取者は、最適化された信号を理解するときに、著しく低減された聴取労力を有する。部屋の広がりを最小限に抑えることは、聴覚イベントの外部化、したがって監視室における空間音声再生の信憑性に影響を及ぼす。音声理解または最適化された信号の一般的な理解のために、従来の技術には既知の解決策はない。
【0109】
実施形態では、ユーザインターフェースを使用して、どの音源が選択されるかを判定する。本発明によれば、これは、「音声を真正面から増幅する」(1人との会話)、「音声を±60度の範囲で増幅する」(グループでの会話)、「音楽を抑制し、音楽を増幅する」(コンサートに行く人の声を聴きたくない)、「すべてを無音にする」(1人にしておきたい)、「すべての声および警告トーンを抑制する」などの異なるユーザシナリオを事前に学習することによって行われる。
【0110】
いくつかの実施形態は、使用されるハードウェアに依存せず、すなわち、開放型および閉鎖型ヘッドホンを使用することができる。信号処理は、ヘッドホンに組み込まれてもよいし、外部デバイスに組み込まれてもよいし、スマートフォンに組み込まれてもよい。任意選択的に、音響的に記録され処理された信号の再生に加えて、スマートフォンから信号を直接再生することができる(例えば、音楽、電話)。
【0111】
他の実施形態では、「AI支援による選択的聴取」のためのエコシステムが提供される。実施形態は、「個人向け聴覚現実」(PARty:personalized auditory reality)を指す。そのような個人向け環境では、聴取者は、定義された音響対象物を増幅、低減、または修正することができる。個々の要件に適合した健全な体験を作り出すために、一連の分析および合成処理が実行されるべきである。目標とする変換段階の研究は、このための必須の構成要素を形成する。
【0112】
いくつかの実施形態は、実際の音環境の分析および個々の音響対象物の検出、利用可能な対象物の分離、追跡、および編集可能性、ならびに修正された音響シーンの再構成および再生を実現する。
【0113】
実施形態では、音イベントの検出、音イベントの分離、およびいくつかの音イベントの抑制が実現される。
【0114】
実施形態では、AI方法(特に深層学習ベースの方法)が使用される。
【0115】
本発明の実施形態は、空間音声の記録、信号処理、および再生のための技術開発に寄与する。
【0116】
例えば、実施形態は、対話するユーザを有するマルチメディアシステムにおいて空間性および三次元性を生成する。
【0117】
この場合、実施形態は、空間聴覚/聴取の知覚および認知処理の研究知識に基づく。
【0118】
いくつかの実施形態は、以下の概念のうちの2つ以上を使用する。
【0119】
シーン分解:これは、実際の環境の空間音響検出、ならびにパラメータ推定および/または位置依存音場解析を含む。
【0120】
シーン表現:これは、対象物および/または環境の表現および識別、ならびに/あるいは効率的な表現および記憶を含む。
【0121】
シーンの組み合わせと再生:これには、対象物と環境の適応と変化、および/またはレンダリングと聴覚化が含まれる。
【0122】
品質評価:これには、技術的および/または聴覚的品質測定が含まれる。
【0123】
マイクロホン位置決め:これは、マイクロホンアレイの適用および適切な音声信号処理を含む。
【0124】
信号調整:これは、特徴抽出ならびにML(machine learning:機械学習)のためのデータセット生成を含む。
【0125】
室内および周囲音響の推定:これは、室内音響パラメータのその場測定および推定、ならびに/または音源分離およびMLのための室内音響特徴の提供を含む。
【0126】
聴覚化:これには、環境への聴覚適応を伴う空間音声再生および/または検証および評価および/または機能的証明および品質推定が含まれる。
【0127】
図8は、一実施形態による対応するシナリオを示す図である。
【0128】
実施形態は、音源の検出、分類、分離、位置特定、および強化のための概念を組み合わせ、各分野における最近の進歩が強調され、それらの間の接続が示される。
【0129】
以下では、現実のSHに必要な柔軟性および堅牢性を提供するために、音源を組み合わせ/検出/分類/位置特定および分離/強化することができる一貫した概念を提供する。
【0130】
さらに、実施形態は、現実の聴覚シーンのダイナミクスを扱うときのリアルタイム性能に適した低レイテンシの概念を提供する。
【0131】
いくつかの実施形態は、深層学習、機械聴取、およびスマートヘッドホン(スマートヒアラブル)の概念を使用し、聴取者が聴覚シーンを選択的に修正することを可能にする。
【0132】
実施形態は、ヘッドホン、イヤホンなどの聴覚デバイスを用いて聴覚シーン内の音源を選択的に増強、減衰、抑制、または修正する可能性を聴取者に提供する。
【0133】
図9は、4つの外部音源を有する一実施形態によるシナリオを示す図である。
【0134】
図9において、ユーザは聴覚シーンの中心である。この場合、ユーザの周囲では4つの外部音源(S1~S4)がアクティブになっている。ユーザインターフェースは、聴取者が聴覚シーンに影響を与えることを可能にする。ソースS1~S4は、それらの対応するスライダによって減衰、改善、または抑制され得る。
図2に見られるように、聴取者は、聴覚シーン内に保持されるべき、または聴覚シーンから抑制されるべき音源または音イベントを定義することができる。
図2では、都市の暗騒音は抑制されるべきであるが、警報または電話の呼び出しは保持されるべきである。常に、ユーザは、聴覚デバイスを介して音楽またはラジオなどの追加の音声ストリームを再生(または再生)する可能性を有する。
【0135】
ユーザは、通常、システムの中心であり、制御ユニットによって聴覚シーンを制御する。ユーザは、
図9に示すようなユーザインターフェースを用いて、または音声制御、ジェスチャ、視線方向などの任意のタイプの対話を用いて聴覚シーンを修正することができる。ユーザがシステムにフィードバックを提供すると、次のステップは、検出/分類/位置特定段階からなる。場合によっては、例えば、ユーザが聴覚シーンで発生する任意の発話を保持したい場合、検出のみが必要である。他の場合では、例えば、ユーザが、電話の呼び出し音やオフィスの雑音ではなく、聴覚シーンで火災警報を維持したい場合には、分類が必要であり得る。場合によっては、ソースの位置のみがシステムに関連する。これは、例えば、
図9の4つの音源の場合であり、ユーザは、音源の種類または特性に関係なく、特定の方向から来る音源を除去または減衰することを判定することができる。
【0136】
図10は、実施形態に係るSH用途の処理ワークフローを示す。
【0137】
まず、
図10の分離強調段階で聴覚シーンを修正する。これは、特定の音源(例えば、または特定の音源)を抑制、減衰、または増強することによって行われる。
図10に示されるように、SHにおける追加の処理選択肢は、聴覚シーンにおけるバックグラウンドノイズを除去または最小化するという目的を有するノイズ制御である。おそらく、ノイズ制御のための最も一般的で広く普及している技術は、能動的ノイズ制御(ANC)である[11]。
【0138】
選択的聴覚は、シーンに仮想音源を追加しようとすることなく、聴覚シーンにおいて実際の音源のみが変更される用途に選択的聴覚を制限することによって、仮想および拡張聴覚環境と区別される。
【0139】
機械聴取の観点から、選択的聴覚用途は、音源を自動的に検出、位置特定、分類、分離、および強化するための技術を必要とする。選択的聴覚に関する用語をさらに明確にするために、以下の用語を定義し、それらの違いおよび関係を強調する。
【0140】
実施形態では、例えば、聴覚シーン内の音源の位置を検出する能力を指す音源位置特定が使用される。音声処理の文脈では、音源位置は通常、所与の音源の到来方向(DOA:direction of arrival)を指し、これは、仰角を含む場合に2D座標(方位角)または3D座標のいずれかとして与えることができる。いくつかのシステムはまた、音源からマイクロホンまでの距離を位置情報として推定する[3]。音楽処理の文脈では、位置は、最終的な混合物における音源のパンニングを指すことが多く、通常、度単位の角度として与えられる[4]。
【0141】
実施形態によれば、例えば、所与の音源タイプの任意のインスタンスが聴覚シーンに存在するかどうかを判定する能力を参照して、音源検出が使用される。検出タスクの一例は、シーン内に話者が存在するかどうかを判定することである。これに関連して、シーン内のスピーカの数またはスピーカの識別情報を判定することは、音源検出の範囲外である。検出は、クラスが「ソースが存在する」および「ソースが存在しない」に対応するバイナリ分類タスクとして理解することができる。
【0142】
実施形態では、例えば、音源分類が使用され、所定のクラスのセットからのクラスラベルを所与の音源または所与の音イベントに割り当てる。分類タスクの一例は、所与の音源が音声、音楽、または環境雑音に対応するかどうかを判定することである。音源の分類と検出は密接に関連した概念である。場合によっては、分類システムは、「クラスなし」を可能なラベルの1つとして考慮することによって検出段階を含む。これらの場合、システムは暗黙的に音源の有無を検出することを学習し、音源のいずれかがアクティブであるという十分な証拠がない場合にはクラスラベルを割り当てることを強制されない。
【0143】
実施形態によれば、例えば、音声混合または聴覚シーンからの所与の音源の抽出を参照して、音源分離が使用される。音源分離の例は、混合音声から歌唱音声を抽出することであり、歌唱者以外に、他の楽器が同時に演奏している[5]。音源分離は、聴取者にとって関心のない音源を抑制することを可能にするので、選択的聴取シナリオに関連するようになる。いくつかの音声分離システムは、混合物から音源を抽出する前に検出タスクを暗黙的に実行する。しかしながら、これは必ずしも規則ではなく、したがって、これらのタスク間の区別を強調する。さらに、分離は、ソース強調[6]または分類[7]などの他のタイプの分析の前処理段階として機能することが多い。
【0144】
実施形態では、例えば、音源識別が使用され、これはさらに一段階進み、音声信号内の音源の特定のインスタンスを識別することを目的とする。話者識別は、今日ではおそらく音源識別の最も一般的な使用法である。このタスクにおける目標は、特定の話者がシーン内に存在するかどうかを識別することである。
図1の例では、ユーザは、聴覚シーンに保持される音源の1つとして「スピーカX」を選択している。これには、音声の検出および分類を超える技術が必要であり、この正確な識別を可能にする話者固有のモデルが必要である。
【0145】
実施形態によれば、例えば音源強調が使用されるとは、聴覚シーンにおける所与の音源の顕著性を増加させる処理を指す[8]。音声信号の場合、目標は、その知覚品質および了解度を高めることであることが多い。音声強調の一般的なシナリオは、ノイズによって損なわれた音声のノイズ除去である[9]。音楽処理の文脈において、ソース強化は、リミックスの概念に関連し、1つの楽器(音源)をミックスにおいてより顕著にするためにしばしば実行される。リミキシング用途は、個々の音源にアクセスして混合物の特性を変更するために音声分離フロントエンドを使用することが多い[10]。音源強調の前に音源分離段階を行うことができるが、これは常にそうであるとは限らず、したがって、これらの用語の区別も強調する。
【0146】
音源の検出、分類、および識別の分野では、例えば、いくつかの実施形態は、音響シーンおよびイベントの検出および分類などの以下の概念のうちのいずれかを使用する[18]。これに関連して、家庭環境における音声イベント検出(AED:audio event detection)のための方法が提案されており、目標は、10秒の録音[19]、[20]以内に所与の音イベントの時間境界を検出することである。この特定の事例では、猫、犬、話し声、警報、および水道水を含む10の音イベントクラスが考慮された。ポリフォン音イベント(いくつかの同時イベント)検出のための方法もまた、文献[21]、[22]に提案されている。[21]において、双方向ロングショートタームメモリ(BLSTM:bi-directional long short-term memory)リカレントニューラルネットワーク(RNN:recurrent neural network)に基づくバイナリアクティビティ検出器を使用して、現実の文脈からの合計61個の音イベントが検出される、ポリフォン音イベント検出のための方法が提案されている。
【0147】
例えば、弱くラベル付けされたデータを扱うために、いくつかの実施形態は、分類のための信号の特定の領域に焦点を合わせるための時間的注意メカニズムを組み込む[23]。分類におけるノイズの多いラベルの問題は、クラスラベルが非常に多様であり、高品質の注釈が非常にコストがかかる選択的聴覚用途に特に関連する[24]。音事象分類タスクにおけるノイズの多いラベルは、[25]で対処されており、カテゴリのクロスエントロピーに基づくノイズに強い損失関数、ならびにノイズの多いデータと手動でラベル化されたデータの両方を評価する方法が提示されている。同様に、[26]は、訓練例の複数のセグメントに対するCNNの予測コンセンサスに基づくノイズの多いラベルの検証ステップを組み込んだ畳み込みニューラルネットワーク(CNN:convolutional neural network)に基づく音声イベント分類のためのシステムを提示する。
【0148】
例えば、いくつかの実施形態は、音イベントの同時検出および位置特定を実現する。したがって、いくつかの実施形態は、[27]のようなマルチラベル分類タスクとして検出を実行し、位置は、各音イベントの到来方向(DOA)の3D座標として与えられる。
【0149】
いくつかの実施形態は、SHのための音声アクティビティ検出および話者認識/識別の概念を使用する。音声アクティビティ検出は、ノイズ除去オートエンコーダ[28]、リカレントニューラルネットワーク[29]を使用して、または生波形を使用するエンドツーエンドシステム[30]として、ノイズの多い環境で対処されてきた。話者認識用途のために、文献[31]において多数のシステムが提案されており、その大部分は、例えばデータ増強または認識を容易にする改善された埋め込み[32]~[34]を用いて、異なる条件に対するロバスト性を高めることに焦点を当てている。したがって、実施形態のいくつかは、これらの概念を使用する。
【0150】
さらなる実施形態は、音イベント検出のための楽器の分類のための概念を使用する。モノラル設定とポリフォニック設定の両方における楽器分類は、文献[35]、[36]で対処されている。[35]では、3秒の音声セグメントにおける支配的な楽器は、11の楽器クラスの間で分類され、いくつかの集約技術が提案されている。同様に、[37]は、1秒のより細かい時間分解能で楽器を検出することができる楽器アクティビティ検出のための方法を提案している。歌唱音声分析の分野では、かなりの量の研究が行われてきた。特に、歌声が活発である録音におけるセグメントを検出するタスクのための[38]などの方法が提案されている。いくつかの実施形態は、これらの概念を使用する。
【0151】
実施形態のいくつかは、音源位置特定のために以下で説明する概念のうちの1つを使用する。音源定位は、聴覚シーン内の音源の数が現実の用途では通常知られていないため、音源カウントの問題と密接に関連している。いくつかのシステムは、シーン内のソースの数が既知であるという仮定の下で動作する。これは、例えば、能動強度ベクトルのヒストグラムを使用してソースの位置を特定する[39]に提示されたモデルの場合である。教師ありの観点から、[40]は、入力表現として位相マップを使用して聴覚シーン内の複数の話者のDOAを推定するためのCNNベースのアルゴリズムを提案する。対照的に、文献のいくつかの研究は、シーン内のソースの数およびそれらの位置情報を共同で推定する。これは、[41]の場合であり、ここでは、雑音環境および残響環境におけるマルチスピーカ位置特定のためのシステムが提案されている。システムは、ソースの数およびそれらの位置特定の両方を推定するために、複素値ガウス混合モデル(GMM:Gaussian Mixture Model)を使用する。そこに記載された概念は、いくつかの実施形態によって使用される。
【0152】
音源位置特定アルゴリズムは、聴覚シーンの周りの大きな空間をスキャンすることを含むことが多いため、計算上要求が厳しい場合がある[42]。位置推定アルゴリズムにおける計算要件を低減するために、いくつかの実施形態は、クラスタリングアルゴリズムを使用することによって[43]、またはステアリング応答電力位相変換(SRP-PHAT:steered response power phase transform)に基づく方法などの確立された方法で多重解像度探索を実行することによって[42]、探索空間を低減する概念を使用する。他の方法は、スパース性制約を課し、所与の時間-周波数領域においてただ1つの音源が優勢であると仮定する[44]。最近、生波形から直接方位角検出するためのエンドツーエンドシステムが[45]で提案されている。いくつかの実施形態は、これらの概念を使用する。
【0153】
いくつかの実施形態は、特に音声分離および音楽分離の分野からの音源分離(SSS:sound source separation)について後に説明する概念を使用する。
【0154】
特に、いくつかの実施形態は、話者に依存しない分離の概念を使用する。分離は、シーン内の話者に関するいかなる事前情報もなしにそこで実行される[46]。いくつかの実施形態はまた、分離を実行するためにスピーカの空間位置を評価する[47]。
【0155】
選択的聴覚用途における計算性能の重要性を考えると、低レイテンシを達成するという特定の目的で行われた研究は、特に重要である。利用可能な訓練データがほとんどない状態で低遅延音声分離(<10ms)を実行するためのいくつかの研究が提案されている[48]。周波数領域におけるフレーミング解析によって生じる遅延を回避するために、いくつかのシステムは、時間領域に適用されるフィルタを慎重に設計することによって分離問題にアプローチする[49]。他のシステムは、エンコーダ-デコーダフレームワークを使用して時間領域信号を直接モデリングすることによって低レイテンシ分離を達成する[50]。対照的に、いくつかのシステムは、周波数領域分離手法におけるフレーミング遅延を低減することを試みている[51]。これらの概念は、いくつかの実施形態によって採用される。
【0156】
いくつかの実施形態は、リード楽器伴奏分離のための概念[52]などの、音声混合[5]から音楽ソースを抽出する音楽音分離(MSS:music sound separation)のための概念を使用する。これらのアルゴリズムは、そのクラスラベルに関係なく、混合物において最も顕著な音源を取得し、それを残りの付随物から分離しようと試みる。いくつかの実施形態は、歌声分離のための概念を使用する[53]。ほとんどの場合、歌唱音声の特性を捕捉するために、特定のソースモデル[54]またはデータ駆動モデル[55]のいずれかが使用される。[55]で提案されているようなシステムは、分離を達成するために分類または検出段階を明示的に組み込んでいないが、これらの手法のデータ駆動型の性質は、これらのシステムが分離前に歌唱音声を特定の精度で検出することを暗黙的に学習することを可能にする。音楽ドメインにおける別のクラスのアルゴリズムは、分離前に音源を分類または検出しようと試みることなく、音源の位置のみを使用して分離を実行しようと試みる[4]。
【0157】
いくつかの実施形態は、アクティブノイズキャンセル(ANC)などのアクティブノイズコントロール(ANC)の概念を使用する。ANCシステムは、主に、雑音除去信号を導入してキャンセルすることにより、ヘッドホンユーザの背景雑音を除去することを目的としている[11]。ANCは、SHの特別なケースと考えることができ、同様に厳しい性能要件に直面する[14]。いくつかの研究は、自動車のキャビン[56]または産業シナリオ[57]などの特定の環境における能動騒音制御に焦点を当てている。[56]の作業は、ロードノイズやエンジンノイズなどの異なる種類のノイズの除去を分析し、異なる種類のノイズに対処できる統一されたノイズ制御システムを必要とする。いくつかの研究は、特定の空間領域にわたってノイズを除去するためのANCシステムの開発に焦点を当てている。[58]において、空間領域にわたるANCは、雑音フィールドを表すための基底関数として球面調和関数を使用して対処される。いくつかの実施形態は、本明細書に記載の概念を使用する。
【0158】
実施形態のいくつかは、音源拡張のための概念を使用する。
【0159】
音声強調の文脈において、最も一般的な用途の1つは、ノイズによって損なわれた音声の強調である。多くの研究が、単一チャネル音声強調の位相処理に集中している[8]。深層ニューラルネットワークの観点から、音声のノイズ除去の問題は、[59]のノイズ除去オートエンコーダ、[60]の深層ニューラルネットワーク(DNN:deep neural network)を使用したクリーンな音声とノイズの多い音声との間の非線形回帰問題、および[61]の生成敵対ネットワーク(GAN:Generative Adversarial Networks)を使用したエンドツーエンドシステムで対処されている。多くの場合、[62]の場合のように、音声強調は自動音声認識(ASR:automatic speech recognition)システムのフロントエンドとして適用され、LSTM RNNで音声強調にアプローチする。音声強調はまた、最初に音声を抽出し、次に分離音声信号に強調技術を適用することが考えられる音源分離手法と併せて行われることも多い[6]。本明細書に記載の概念は、いくつかの実施形態によって使用される。
【0160】
ほとんどの場合、音楽に関連するソース強化とは、音楽リミックスを作成するための用途を指す。多くの場合、音声が雑音源によってのみ損なわれると仮定される音声強調とは対照的に、音楽用途は、ほとんどの場合、他の音源(楽器)が強調されるべき音源と同時に再生されていると仮定する。このため、音楽リミックスの用途は、ソース分離ステージが先行するように常に提供される。例えば、[10]では、混合物におけるより良好な音バランスを達成するために、リード伴奏および調波打楽器分離技術を適用することによって初期のジャズ録音がリミックスされた。同様に、[63]は、歌唱音声とバッキングトラックの相対音量を変更するために異なる歌唱音声分離アルゴリズムの使用を研究し、最終的な混合物にわずかであるが可聴歪みを導入することによって6dBの増加が可能であることを示した。[64]において、著者らは、音源分離技術を適用して新しいミックスを達成することにより、蝸牛インプラントユーザの音楽知覚を向上させる方法を研究している。そこに記載された概念は、いくつかの実施形態によって使用される。
【0161】
選択的聴覚用途における最大の課題の1つは、処理時間に関する厳しい要件に関する。ユーザの自然さおよび知覚品質を維持するために、完全な処理ワークフローを最小限の遅延で実行する必要がある。システムの最大許容レイテンシは、用途および聴覚シーンの複雑さに大きく依存する。例えば、McPhersonらは、インタラクティブ音楽インターフェースの許容可能なレイテンシ基準として10msを提案している[12]。ネットワークを介した音楽パフォーマンスについて、[13]の著者らは、遅延が20~25ms~50~60msの範囲で知覚可能になると報告している。しかしながら、能動的雑音制御/除去(ANC)技術は、より良好な性能のために超低遅延処理を必要とする。これらのシステムでは、許容可能なレイテンシの量は、周波数および減衰の両方に依存するが、200Hz未満の周波数の約5dBの減衰に対して1ms程度に低くすることができる[14]。SH用途における最後の考察は、修正された聴覚シーンの知覚品質を指す。様々な用途における音声品質の信頼できる評価のための方法論にかなりの量の作業が費やされてきた[15]、[16]、[17]。しかしながら、SHの課題は、処理の複雑さと知覚品質との間の明確なトレードオフを管理することである。いくつかの実施形態は、そこに記載されている概念を使用する。
【0162】
いくつかの実施形態は、[41]に記載されているようなカウント/計算および位置特定、[27]に記載されているような位置特定および検出、[65]に記載されているような分離および分類、ならびに[66]に記載されているような分離およびカウントのための概念を使用する。
【0163】
いくつかの実施形態は、[25]、[26]、[32]、[34]に記載されているように、現在の機械聴取方法のロバスト性を高めるための概念を使用し、新しい出現方向は、ドメイン適応[67]および複数のデバイスで記録されたデータセットに対する訓練[68]を含む。
【0164】
いくつかの実施形態は、生の波形を扱うことができる、[48]に記載されているような機械聴取方法の計算効率を高めるための概念、または[30]、[45]、[50]、[61]に記載されている概念を使用する。
【0165】
いくつかの実施形態は、シーン内の音源を選択的に修正することができるように、組み合わされた方法で検出/分類/位置特定および分離/強調する統合最適化スキームを実現し、独立した検出、分離、位置特定、分類、および強調方法は信頼性が高く、SHに必要な堅牢性および柔軟性を提供する。
【0166】
いくつかの実施形態は、アルゴリズムの複雑さと性能との間に良好なトレードオフがあるリアルタイム処理に適している。
【0167】
いくつかの実施形態は、ANCと機械聴取とを組み合わせる。例えば、聴覚シーンが最初に分類され、次いでANCが選択的に適用される。
【0168】
さらなる実施形態を以下に提供する。
【0169】
仮想音声対象物を用いて実際の聴覚環境を増強するために、音声対象物の各位置から部屋内の聴取者の各位置への伝達関数を十分に知らなければならない。
【0170】
伝達関数は、音源の特性、および対象物とユーザとの間の直接音、および部屋内で発生するすべての反射をマッピングする。聴取者が現在いる実際の室内音響効果のための正しい空間音声再生を保証するために、伝達関数はさらに、聴取者室内の室内音響特性を十分な精度でマッピングする必要がある。
【0171】
部屋の異なる位置にある個々の音声対象物の表現に適した音声システムでは、多数の音声対象物が存在する場合の課題は、個々の音声対象物の適切な検出および分離である。また、各対象物の音声信号は、部屋の録音位置または聴取位置で重なっている。室内音響効果および音声信号のオーバーラップは、室内内の対象物および/または聴取位置が変化するときに変化する。
【0172】
相対的な動きにより、室内音響効果パラメータの推定は、十分に迅速に実行されなければならない。ここで、推定の低レイテンシは高精度よりも重要である。音源および受信機の位置が変化しない場合(静的な場合)、高い精度が要求される。提案されたシステムでは、室内音響パラメータ、ならびに室内幾何学形状および聴取者位置は、音声信号のストリームから推定または抽出される。音声信号は、音源(複数可)および受信機(複数可)が任意の方向に移動することができ、音源(複数可)および/または受信機(複数可)がそれらの向きを任意に変更することができる実際の環境で記録される。
【0173】
音声信号ストリームは、1つまたは複数のマイクロホンを含む任意のマイクロホンセットアップの結果であってもよい。ストリームは、前処理および/またはさらなる分析のために信号処理段に供給される。次に、出力は特徴抽出段階に供給される。この段階は、例えばT60(残響時間)、DRR(Direct-to-Reverberant Ratio)などの室内音響パラメータを推定する。
【0174】
第2のデータストリームは、マイクロホン設定の向きおよび位置を取り込む6DoFセンサ(「6自由度」:室内位置と視線方向の3次元)によって生成される。位置データストリームは、前処理またはさらなる分析のために6DoF信号処理段に供給される。
【0175】
6DoF信号処理の出力、音声特徴抽出段、および前処理されたマイクロホンストリームは、機械学習ブロックに供給され、機械学習ブロックでは、聴覚空間、すなわち聴取室内(サイズ、幾何学的形状、反射面)、および室内内のマイクロホンフィールドの位置が推定される。さらに、よりロバストな推定を可能にするために、ユーザ挙動モデルが適用される。このモデルは、人間の動き(例えば、連続移動、速度など。)の制限、ならびに様々なタイプの動きの確率分布を考慮する。
【0176】
実施形態のいくつかは、任意のマイクロホン配置を使用し、ユーザの位置および姿勢情報を追加することによって、ならびに機械学習方法を用いたデータの解析によって、室内音響パラメータのブラインド推定を実現する。
【0177】
例えば、実施形態によるシステムは、音響拡張現実(AAR:acoustically augmented reality)に使用することができる。この場合、推定されたパラメータから仮想室内インパルス応答を合成しなければならない。
【0178】
いくつかの実施形態は、記録された信号からの残響の除去を含む。そのような実施形態の例は、正常な聴覚の人々および聴覚障害の人々のための補聴器である。この場合、推定されたパラメータの助けを借りて、マイクロホン設定の入力信号から残響を除去することができる。
【0179】
さらなる用途は、現在の聴覚空間以外の部屋で生成された音声シーンの空間合成である。この目的のために、音声シーンの一部である室内音響効果パラメータは、聴覚空間の室内音響効果パラメータに対して適合される。
【0180】
バイノーラル合成の場合、この目的のために、利用可能なBRIRは、聴覚空間の異なる音響パラメータに適合される。
【0181】
一実施形態では、1つまたは複数の室内音響効果パラメータを判定するための装置が提供される。
【0182】
装置は、1つまたは複数のマイクロホン信号を含むマイクロホンデータを取得するように構成される。
【0183】
さらに、装置は、ユーザの位置および/または向きに関する追跡データを取得するように構成される。
【0184】
さらに、装置は、マイクロホンデータおよび追跡データに応じて1つまたは複数の室内音響効果パラメータを判定するように構成される。
【0185】
一実施形態によれば、例えば、装置は、マイクロホンデータおよび追跡データに応じて1つまたは複数の室内音響効果パラメータを判定するために機械学習を使用するように構成されてもよい。
【0186】
実施形態では、例えば、装置は、装置がニューラルネットワークを使用するように構成され得るという点で、機械学習を使用するように構成され得る。
【0187】
一実施形態によれば、例えば、装置は、機械学習のためにクラウドベースの処理を使用するように構成されてもよい。
【0188】
一実施形態では、例えば、1つまたは複数の室内音響効果パラメータは、残響時間を含み得る。
【0189】
一実施形態によれば、例えば、1つまたは複数の室内音響効果パラメータは、指向性対残響比を含み得る。
【0190】
一実施形態では、例えば、追跡データは、ユーザの位置をラベル付けするためのx座標、y座標、およびz座標を含み得る。
【0191】
実施形態によれば、例えば、追跡データは、ユーザの向きをラベル付けするためのピッチ座標、ヨー座標、およびロール座標を含み得る。
【0192】
実施形態では、例えば、装置は、1つまたは複数のマイクロホン信号を時間領域から周波数領域に変換するように構成されてもよく、例えば、装置は、周波数領域における1つまたは複数のマイクロホン信号の1つまたは複数の特徴を抽出するように構成されてもよく、装置は、1つまたは複数の特徴に応じて1つまたは複数の室内音響パラメータを判定するように構成されてもよい。
【0193】
一実施形態によれば、例えば、装置は、1つまたは複数の特徴を抽出するためにクラウドベースの処理を使用するように構成されてもよい。
【0194】
一実施形態では、例えば、装置は、いくつかのマイクロホン信号を記録するためのいくつかのマイクロホンのマイクロホン構成を含み得る。
【0195】
一実施形態によれば、例えば、マイクロホン構成は、ユーザの身体に装着されるように構成されてもよい。
【0196】
実施形態では、例えば、上述のシステムは、1つまたは複数の室内音響効果パラメータを判定するための上述の装置をさらに含み得る。
【0197】
一実施形態によれば、例えば、信号部分修正器140は、および/または、前記信号発生器150は、前記1つまたは複数の室内音響効果パラメータのうちの前記少なくとも一方に応じて、前記1つまたは複数の音源の各音源について、前記複数のバイノーラル室内インパルス応答のうちの少なくとも一方の生成を実行するように構成されてもよい。
【0198】
図7は、5つのサブシステム(サブシステム1~5)を含む、一実施形態によるシステムを示す。
【0199】
サブシステム1は、1つ、2つ、またはそれ以上の個々のマイクロホンのマイクロホンセットアップを含み、1つまたは複数のマイクロホンが利用可能であれば、これらを組み合わせてマイクロホンフィールドにすることができる。マイクロホン/マイクロホンの互いに対する位置決めおよび相対配置は任意であり得る。マイクロホン構成は、ユーザによって装着されたデバイスの一部であってもよく、または対象の部屋に配置された別個のデバイスであってもよい。
【0200】
また、サブシステム1は、部屋内におけるユーザの並進位置およびユーザの頭部姿勢を計測する追跡デバイスを備える。6DoF(x座標、y座標、z座標、ピッチ角、ヨー角、ロール角)まで測定することができる。
【0201】
追跡デバイスは、ユーザの頭部に配置されてもよく、または必要なDoFを測定するためにいくつかのサブデバイスに分割されてもよく、ユーザに配置されてもされなくてもよい。
【0202】
したがって、サブシステム1は、マイクロホン信号入力インターフェース101および位置情報入力インターフェース102を含む入力インターフェースを表す。
【0203】
サブシステム2は、記録されたマイクロホン信号の信号処理を含む。これは、周波数変換および/または時間領域ベースの処理を含む。さらに、これは、異なるマイクロホン信号を組み合わせてフィールド処理を実現するための方法を含む。サブシステム2における信号処理のパラメータを適合させるために、システム4からのフィードバックが可能である。マイクロホン信号の信号処理ブロックは、マイクロホンが組み込まれているデバイスの一部であってもよく、または別個のデバイスの一部であってもよい。また、クラウドベースの処理の一部であってもよい。
【0204】
さらに、サブシステム2は、記録された追跡データのための信号処理を含む。これは、周波数変換および/または時間領域ベースの処理を含む。さらに、ノイズ抑制、平滑化、補間、および外挿を使用することによって信号の技術的品質を向上させる方法が含まれる。さらに、より高いレベルの情報を導出するための方法を含む。これには、速度、加速度、経路方向、アイドル時間、移動範囲、および移動経路が含まれる。また、近い将来の移動経路や、近い将来の速度の予測を含む。追跡信号の信号処理ブロックは、追跡デバイスの一部であってもよいし、別個のデバイスの一部であってもよい。また、クラウドベースの処理の一部であってもよい。
【0205】
サブシステム3は、処理されたマイクロホンの特徴の抽出を含む。
【0206】
特徴抽出ブロックは、ユーザのウェアラブルデバイスの一部であってもよいし、別個のデバイスの一部であってもよい。また、クラウドベースの処理の一部であってもよい。
【0207】
サブシステム2および3は、それらのモジュール111および121と共に、例えば、検出器110、音声タイプ分類器130、および信号部分修正器140を実現する。例えば、サブシステム3、モジュール121は、音声分類の結果をサブシステム2、モジュール111(フィードバック)に出力することができる。例えば、サブシステム2、モジュール112は、位置判定器120を実現する。さらに、一実施形態では、サブシステム2および3は、例えば、サブシステム2、モジュール111がバイノーラル室内インパルス応答およびラウドスピーカ信号を生成することによって、信号発生器150を実現することもできる。
【0208】
サブシステム4は、処理されたマイクロホン信号、抽出されたマイクロホン信号の特徴、および処理された追跡データを使用して室内音響パラメータを推定する方法およびアルゴリズムを含む。このブロックの出力は、アイドルデータとしての室内音響特性パラメータ、ならびにサブシステム2におけるマイクロホン信号処理のパラメータの制御および変動である。機械学習ブロック131は、ユーザのデバイスの一部であってもよいし、別個のデバイスの一部であってもよい。また、クラウドベースの処理の一部であってもよい。
【0209】
さらに、サブシステム4は、室内音響アイドルデータパラメータの後処理を含む(例えばブロック132において)。これには、外れ値の検出、個々のパラメータの新しいパラメータへの組み合わせ、平滑化、外挿、補間、および妥当性検証が含まれる。また、このブロックは、サブシステム2から情報を取得する。これは、近い将来の音響パラメータを推定するために、部屋内のユーザの近い将来の位置を含む。このブロックは、ユーザのデバイスの一部であってもよいし、別個のデバイスの一部であってもよい。また、クラウドベースの処理の一部であってもよい。
【0210】
サブシステム5は、下流システム(例えば、メモリ141において、)のための室内音響効果パラメータの記憶および割り当てを含む。パラメータの割り当ては、ジャストインタイムで実現されてもよく、および/または時間応答が格納されてもよい。記憶は、ユーザ上またはユーザの近くに位置するデバイス内で実行されてもよく、またはクラウドベースのシステム内で実行されてもよい。
【0211】
本発明の実施形態のユースケースを以下に説明する。
【0212】
一実施形態のユースケースは、家庭娯楽であり、家庭環境のユーザに関する。例えば、ユーザは、TV、ラジオ、PC、タブレットなどの特定の再生デバイスに集中したいと考え、他の外乱源(他のユーザや子供のデバイス、工事騒音、街頭騒音)を抑制したいと考える。この場合、ユーザは、好適な再生デバイスの近くに位置し、デバイスまたはその位置を選択する。ユーザの位置にかかわらず、選択されたデバイス、または音源位置は、ユーザが自分の選択をキャンセルするまで音響的に強調される。
【0213】
例えば、ユーザは、対象音源の近くに移動する。ユーザは適切なインターフェースを介して対象音源を選択し、ヒアラブルはそれに応じて、ユーザ位置、ユーザの視線方向、および対象音源に基づいて音声再生を適合させて、雑音が妨害される場合でも対象音源を十分に理解できるようにする。
【0214】
あるいは、ユーザは、特に妨害する音源の近くを移動する。ユーザは適切なインターフェースを介してこの妨害音源を選択し、ヒアラブル(聴覚デバイス)はそれに応じて、ユーザ位置、ユーザの視線方向、および妨害音源に基づいて音声再生を調整して、妨害音源を明示的に調整する。
【0215】
さらなる実施形態のさらなるユースケースは、ユーザがいくつかのスピーカの間に位置するカクテルパーティーである。
【0216】
多くの話者の存在下では、例えば、ユーザは、それらのうちの1つ(または複数)に集中することを望み、他の外乱源を調整または減衰させることを望む。このユースケースでは、ヒアラブルの制御は、ユーザからの対話をほとんど必要としないはずである。バイオシグナルまたは会話困難の検出可能な指標(頻出する質問、外国語、強いダイアモンド語)に基づく選択性の強度の制御は任意であろう。
【0217】
例えば、話者はランダムに分布し、聴取者に対して相対的に移動する。さらに、音声の周期的な一時停止があり、新しい話者が追加され、または他の話者がシーンを離れる。おそらく、音楽などの外乱の音は比較的大きい。選択された話者は、音響的に強調され、発話の一時停止、自身の位置または姿勢の変化の後に再び認識される。
【0218】
例えば、ヒアラブルは、ユーザの近傍の話者を認識する。適切な制御可能性(例えば、視線方向、注意制御)により、ユーザは好ましい話者を選択することができる。ヒアラブルは、ユーザの視線方向および選択された対象音源に応じて音声再生を適応させることにより、騒音が妨害される場合であっても対象音源を十分に理解することができる。
【0219】
あるいは、ユーザが(以前は)好ましくない話者によって直接アドレス指定されている場合、自然なコミュニケーションを確実にするために、ユーザは少なくとも可聴でなければならない。
【0220】
別の実施形態の別のユースケースは、ユーザが自分の(または)自動車に位置する自動車におけるものである。運転中、ユーザは、妨害雑音(風、モータ、乗客)の隣でそれらをよりよく理解することができるように、ナビゲーションデバイス、ラジオ、または会話相手などの特定の再生デバイスに自分の音響的注意を能動的に向けることを望む。
【0221】
例えば、ユーザおよび目標音源は、自動車内の固定位置に配置される。ユーザは基準システムに対して静止しているが、車両自体は動いている。これには、適応追跡解決策が必要である。選択された音源位置は、ユーザが選択をキャンセルするまで、または警告信号がデバイスの機能を停止するまで音響的に強調される。
【0222】
例えば、ユーザが自動車に乗車し、デバイスによって周囲が検出される。適切な制御可能性(例えば、速度認識)により、ユーザは対象音源を切り替えることができ、ヒアラブルは、ノイズが妨害される場合でも対象音源を十分に理解できるように、ユーザの視線方向および選択された対象音源に応じて音声再生を適合させる。
【0223】
あるいは、例えば、交通関連の警告信号が通常の流れを中断し、ユーザの選択をキャンセルする。その後、通常の流れの再開が実行される。
【0224】
さらなる実施形態の別の使用事例は、ライブ音楽であり、ライブ音楽イベントにおけるゲストに関する。例えば、コンサートまたはライブ音楽のパフォーマンスにおけるゲストは、聞き取れる人の助けを借りてパフォーマンスへの集中力を高めたいと望み、妨害的に行動する他のゲストを無視したいと望む。さらに、例えば、好ましくない聴取位置または室内音響効果のバランスをとるために、音声信号自体を最適化することができる。
【0225】
例えば、ユーザは、多くの外乱源の間に位置する。しかしながら、ほとんどの場合、性能は比較的大きい。対象音源は、固定された位置または少なくとも所定の領域に配置されるが、ユーザは非常に移動しやすい(例えば、ユーザはダンスをしていてもよい。)。選択された音源位置は、ユーザが選択をキャンセルするまで、または警告信号がデバイスの機能を停止するまで音響的に強調される。
【0226】
例えば、ユーザは、ステージエリアまたはミュージシャンを対象音源として選択する。適切な制御可能性により、ユーザは、ステージ/ミュージシャンの位置を定義することができ、ヒアラブルは、ノイズが妨害される場合であっても対象音源を十分に理解することができるように、ユーザの視線方向および選択された対象音源に従って音声再生を適合させる。
【0227】
あるいは、例えば、警告情報(例えば、屋外イベントの場合の避難、近づきつつある雷雨)および警告信号は、通常の流れを中断し、ユーザの選択をキャンセルすることができる。その後、通常の流れの再開がある。
【0228】
別の実施形態のさらなるユースケースは、主要イベントであり、主要イベントにおけるゲストに関する。したがって、主要イベント(例えば、フットボール競技場、アイスホッケー競技場、大型コンサートホールなど。)では、ヒアラブルを使用して、そうでなければ群衆の騒音にかき消される家族や友人の声を強調することができる。
【0229】
例えば、スタジアムや大きなコンサートホールでは、多くの出席者が集まる大きなイベントが行われる。グループ(家族、友人、学校の授業)は、イベントに参加し、大群衆が歩き回るイベント場所の外側または中に位置する。1人または複数の子供は、グループとの眼の接触を失い、ノイズに起因する高いノイズレベルにもかかわらず、グループを求める。その後、ユーザは音声認識をオフにし、ヒアラブルは音声を増幅しなくなる。
【0230】
例えば、グループの人物は、ヒアラブルで、迷子の子供の音声を選択する。ヒアラブルは音声を見つける。そして、ヒアラブルは、音声を増幅し、ユーザは、増幅された音声に基づいて、迷子を回復することができる(より早く)。
【0231】
あるいは、例えば、行方不明の子供もヒアラブルを装着し、親の声を選択する。ヒアラブルは、親の音声を増幅する。増幅により、子供は両親の位置を突き止めることができる。これにより、子供は、歩いて親に戻ることができる。あるいは、例えば、行方不明の子供もヒアラブルを装着し、親の声を選択する。ヒアラブルは、親の音声(複数可)を見つけ、その音声までの距離をアナウンスする。これにより、子供は親を見つけやすくなる。任意選択的に、距離の告知のためにヒアラブルからの人工音声の再生が提供されてもよい。
【0232】
例えば、音声の選択的増幅のためのヒアラブルの結合が提供され、音声プロファイルが記憶される。
【0233】
さらなる実施形態のさらなるユースケースは、レクリエーションスポーツであり、レクリエーション競技者に関する。スポーツ時に音楽を聴くことは人気がある;しかし、危険も伴う。警告信号または他の道路利用者が聞こえない可能性がある。音楽の再生に加えて、ヒアラブルは、警告信号または声に反応し、音楽再生を一時的に中断することができる。これに関連して、さらなるユースケースは、小グループにおけるスポーツである。スポーツグループのヒアラブルは、他の妨害ノイズを抑制しながら、スポーツ中の良好なコミュニケーションを確保するために接続することができる。
【0234】
例えば、ユーザは移動可能であり、可能な警告信号は多くの外乱源によって重複される。警告信号のすべてが潜在的にユーザに関係するわけではないことが問題である(街中の遠隔サイレン、通りでの警笛)。これにより、ヒアラブルは、音楽再生を自動的に停止し、ユーザが選択をキャンセルするまで、通信相手の警告信号を音響的に強調する。その後、音楽が正常に再生される。
【0235】
例えば、ユーザは、スポーツに従事しており、ヒアラブルを介して音楽を聴いている。ユーザに関する警告信号または声が自動的に検出され、ヒアラブルは音楽の再生を中断する。ヒアラブルは、対象音源/音響環境を十分に理解できるように音声再生を適合させる。次いで、ヒアラブルは、(例えば、警告信号の終了後に、)音楽の再生を自動的に継続するか、またはユーザによる要求に従って継続する。
【0236】
あるいは、例えば、グループのアスリートは、彼らのヒアラブルを接続することができる。グループメンバー間の発話理解性が最適化され、他の妨害雑音が抑制される。
【0237】
別の実施形態の別の使用事例は、いびきの抑制であり、いびきによって妨害される睡眠を望むすべての人々に関する。パートナーのいびきをかいている人は、夜間の安静が妨げられ、睡眠に問題がある。ヒアラブルは、いびき音を抑制し、夜間の休息を保証し、家庭内の安全を提供するので、安心感を提供する。同時に、ヒアラブルは、ユーザが外界から音響的に完全に隔離されないように、他の音を通過させる(赤ん坊が叫ぶ、警報音など。)。例えば、いびき検出が提供される。
【0238】
例えば、ユーザは、いびき音のために睡眠障害を有する。ヒアラブルを使用することにより、ユーザは再びよりよく睡眠することができ、これはストレス低減効果を有する。
【0239】
例えば、ユーザは、睡眠中にヒアラブルを装着する。彼/彼女は、すべてのいびき音を抑制するスリープモードにヒアラブルを切り替える。就寝後、再びヒアラブルをオフにする。
【0240】
あるいは、睡眠中に工事の騒音、芝刈り機の騒音などの他の音を抑制することができる。
【0241】
さらなる実施形態のさらなるユースケースは、日常生活におけるユーザのための診断デバイスである。ヒアラブルは、好み(例えば、どの音源が選択され、どの減衰/増幅が選択されるか)を記録し、使用期間を介して傾向を有するプロファイルを作成する。このデータは、聴覚能力に関する変化に関する結論を引き出すことを可能にし得る。この目的は、可及的速やかに難聴を検出することである。
【0242】
例えば、ユーザは、数ヶ月または数年間、日常生活または言及されたユースケースでデバイスを携帯する。ヒアラブルは、選択された設定に基づいて分析を作成し、警告および推奨をユーザに出力する。
【0243】
例えば、ユーザは、ヒアラブルを長期間(数ヶ月から数年)にわたって装着する。デバイスは、聴覚選好に基づいて分析を作成し、デバイスは、聴覚損失の発症の場合に推奨および警告を出力する。
【0244】
別の実施形態のさらなる使用事例は、治療デバイスであり、日常生活における聴覚損傷を有するユーザに関する。聴覚デバイスに向かう途中の移行デバイスとしての役割では、可能な限り早期に潜在的な患者が支援され、したがって認知症が予防的に治療される。他の可能性は、濃度トレーナ(例えばADHSの場合)としての使用、耳鳴りの治療、およびストレス軽減である。
【0245】
例えば、聴取者は、聴覚の問題または注意欠陥を有し、一時的に/暫定的に聴覚デバイスとしてヒアラブルを使用する。聴覚の問題に応じて、聴覚器によって、例えば、すべての信号の増幅(聴覚の硬さ)、好ましい音源の高い選択性(注意欠陥)、治療音の再生(耳鳴りの治療)によって軽減される。
【0246】
ユーザは、独立して、または医師の助言に基づいて、治療の形態を選択し、好ましい調整を行い、ヒアラブルは選択された治療を実行する。
【0247】
あるいは、ヒアラブルは、UC-PRO1から聴覚の問題を検出し、検出された問題に基づいて再生を自動的に適合させ、ユーザに通知する。
【0248】
さらなる実施形態のさらなるユースケースは、公共部門での仕事であり、公共部門の従業員に関する。仕事中に高レベルの騒音を受ける公共部門の従業員(病院、小児科医、空港カウンター、教育者、レストラン業界、サービスカウンターなど。)は、例えばストレスの軽減を通じて、1人または少数の人々の発言を強調してより良好に伝達し、仕事におけるより良好な安全のためにヒアラブルを着用する。
【0249】
例えば、従業員は、彼らの作業環境において高レベルの騒音を受け、バックグラウンド騒音にもかかわらず、より穏やかな環境に切り替えることができずにクライアント、患者、または同僚と話す必要がある。病院の従業員は、医療デバイスの音およびビープ音による高レベルのノイズ(または任意の他の業務関連ノイズ)を受け、依然として患者または同僚と通信することができなければならない。小児科医および教育者は、子供の騒音または叫ぶ中で働き、親と話すことができなければならない。空港のカウンターでは、従業員は、空港のコンコース内の騒音レベルが高い場合に、航空会社の乗客を理解することが困難である。ウエイターは、よく行くレストランの騒音の中で、客の注文を聞くことが困難である。その後、例えば、ユーザは音声選択をオフにし、ヒアラブルはもはや音声を増幅しない。
【0250】
例えば、人は、搭載されたヒアラブルをオンにする。ユーザは、ヒアラブルを近くの音声の音声選択に設定し、ヒアラブルは、近くの音声、または近くの少数の音声を増幅し、同時にバックグラウンドノイズを抑制する。その場合、ユーザは関連する音声をよりよく理解する。
【0251】
あるいは、人がヒアラブルを継続的なノイズサプレッションに設定する。ユーザは、利用可能な音声を検出して増幅するために機能をオンにする。したがって、ユーザは、より低いレベルのノイズで作業を続けることができる。xメートル付近から直接アドレス指定されると、次にヒアラブルは音声を増幅する。したがって、ユーザは、低レベルのノイズで他の人と会話することができる。会話の後、ヒアラブルはノイズ抑制モードに戻り、仕事の後、ユーザはヒアラブルを再びオフにする。
【0252】
別の実施形態の別のユースケースは、乗客の輸送であり、乗客の輸送のための自動車のユーザに関する。例えば、乗客輸送機のユーザおよび運転者は、運転中に乗客ができる限り注意を逸らさないことを望む。乗客は妨害の主な原因であるにもかかわらず、時々彼らとの通信が必要である。
【0253】
例えば、ユーザまたは運転者、および外乱源は、自動車内の固定位置に配置される。ユーザは基準システムに対して静止しているが、車両自体は動いている。これには、適応追跡解決策が必要である。したがって、通信が行われない限り、乗客の音および会話はデフォルトで音響的に抑制される。
【0254】
例えば、ヒアラブルは、デフォルトで搭乗者の騒音を抑制する。ユーザは、適切な制御可能性(音声認識、車両内のボタン)を通じて手動で抑制を解除することができる。ここで、ヒアラブルは、選択に応じて音声再生を適応させる。
【0255】
あるいは、ヒアラブルは、搭乗者が積極的に運転者に話しかけていることを検出し、ノイズ抑制を一時的に停止する。
【0256】
さらなる実施形態の別の使用事例は、学校および教育であり、クラスの教師および生徒に関する。一例では、ヒアラブルは2つの役割を有し、デバイスの機能は部分的に結合される。教師/話者のデバイスは、妨害雑音を抑圧し、生徒からの発話/質問を増幅する。また、聴取者のヒアラブルは、教師のデバイスを介して制御されてもよい。したがって、特に重要なコンテンツは、より大きな声で話す必要なく強調され得る。生徒は、教師をよりよく理解することができ、邪魔なクラスメートを除外することができるように、ヒアラブルを設定することができる。
【0257】
例えば、教師および生徒は、閉じた空間内の定義された領域に位置する(これが規則である)。すべてのデバイスが互いに結合されている場合、相対位置は交換可能であり、これによりソース分離が単純化される。選択された音源は、ユーザ(教師/生徒)が選択をキャンセルするまで、または警告信号がデバイスの機能を中断するまで音響的に強調される。
【0258】
例えば、教師またはスピーカがコンテンツを提示し、デバイスは妨害雑音を抑制する。教師は、生徒の質問を聞きたいと思い、(自動的にまたは適切な制御可能性を介して)質問を有する人にヒアラブルの焦点を変更する。通信後、すべての音は再び抑制される。さらに、例えば、クラスメートによって妨害されていると感じている学生が、音響的に彼らを調整することが提供され得る。例えば、先生から遠く離れて座っている生徒が、先生の音声を増幅するようにしてもよい。
【0259】
あるいは、例えば、教師および生徒のデバイスが結合されてもよい。生徒デバイスの選択性は、教師デバイスを介して一時的に制御されてもよい。特に重要なコンテンツの場合、教師は、自分の声を増幅するために生徒デバイスの選択性を変更する。
【0260】
別の実施形態のさらなるユースケースは軍事であり、兵士に関する。一方では、現場の兵士間の口頭のコミュニケーションは、無線を介して行われ、他方では、声および直接の接触を介して行われる。通信が異なるユニットとサブグループとの間で行われる場合、無線がほとんど使用される。所定の無線エチケットが使用されることが多い。噴出および直接接触は、大抵の場合、部隊またはグループ内で通信するために行われる。兵士の任務の間、両方の通信経路を損なう可能性がある困難な音響条件(例えば、人々の悲鳴、武器の騒音、悪天候)が存在する可能性がある。イヤホンを備えた無線装置は、兵士の装備の一部であることが多い。これらは、音声再生の目的に加えて、より高いレベルの音圧に対する保護機能も提供する。これらのデバイスは、キャリアの耳に環境信号をもたらすためにマイクロホンを装備することが多い。能動的雑音抑制もまた、そのようなシステムの一部である。機能範囲の強化/拡張は、妨害雑音の知的減衰および指向性再生による音声の選択的強調によって、騒々しい環境における兵士の声出しおよび直接接触を可能にする。この目的のために、部屋/フィールド内の兵士の相対位置が知られなければならない。さらに、音声信号および妨害雑音は、空間的におよびコンテンツによって互いに分離されなければならない。システムは、低いささやきから悲鳴および爆発音まで、同様に高いSNRレベルを処理することができなければならない。そのようなシステムの利点は以下の通りである:騒がしい環境における兵士間の口頭通信、聴覚保護の維持、無線エチケットの放棄可能性、(無線解決策ではないため)傍受セキュリティ。
【0261】
例えば、任務中の兵士間の声および直接的な接触は、妨害雑音のために複雑になり得る。この問題は、現在、近距離およびより長い距離の無線解決策によって対処されている。新しいシステムは、それぞれのスピーカの知的かつ空間的な強調および周囲のノイズの減衰によって、近距離場での声出しおよび直接接触を可能にする。
【0262】
例えば、兵士は任務中である。声および音声が自動的に検出され、システムはそれらをバックグラウンドノイズの同時減衰で増幅する。システムは、対象音源を十分に理解できるように空間音声再生を適合させる。
【0263】
あるいは、例えば、システムは、グループの兵士を知ることができる。これらのグループメンバーの音声信号のみを通過させる。
【0264】
さらなる実施形態のさらなるユースケースは、警備員および警備員に関する。したがって、例えば、ヒアラブルは、犯罪の先制検出のために主要イベント(お祝い、デモ)を混乱させるのに使用され得る。ヒアラブルの選択性は、キーワード、例えば助けを求める声や暴力を求める声によって制御される。これは、音声信号(例えば、音声認識)のコンテンツ分析を前提としている。
【0265】
例えば、警備員は多くの大きな音源に囲まれており、ガードおよびすべての音源は移動している可能性がある。助けを求めている人は、通常の聴覚条件下では聞くことができないか、または限られた範囲(悪いSNR)しか聞くことができない。手動または自動で選択された音源は、ユーザが選択をキャンセルするまで音響的に強調される。任意選択で、仮想音対象物は、位置(例えば、助けを求める1回限りの電話の場合)を容易に見つけることができるように、関心のある音源の位置/方向に配置される。
【0266】
例えば、ヒアラブルは、潜在的な危険源を有する音源を検出する。警備員は、どの音源、またはどのイベントに従いたいかを選択する(例えば、タブレット上での選択による)。続いて、ヒアラブルは、雑音が妨害される場合であっても音源をよく理解して位置特定することができるように音声再生を適合させる。
【0267】
あるいは、例えば、目標音源が無音である場合、音源に向かう/音源の距離内の位置特定信号が配置されてもよい。
【0268】
別の実施形態の別のユースケースは、ステージ上のコミュニケーションであり、ミュージシャンに関する。ステージ上では、リハーサルまたはコンサート(例えば、バンド、オーケストラ、コーラス、音楽)において、単一の楽器(グループ)は、他の環境では依然として聞こえたとしても、困難な音響条件のために聞こえない可能性がある。重要な(付随する)音声はもはや知覚できないため、これは対話を損なう。ヒアラブルは、これらの音声を強調し、それらを再びヒアラブルにすることができ、したがって、個々のミュージシャンの対話を改善または保証することができる。この使用により、個々のミュージシャンの騒音曝露を低減することができ、例えばドラムを減衰させることによって聴力の喪失を防止することができ、また、ミュージシャンはすべての重要なことを同時に聞くことができる。
【0269】
例えば、ヒアラブルのないミュージシャンは、もはやステージ上で少なくとも1つの他の音声を聞くことができない。この場合、ヒアラブルを用いてもよい。リハーサルまたはコンサートの終了後、ユーザは、ヒアラブルをオフにした後に取り外す。
【0270】
一例では、ユーザはヒアラブルをオンにする。ユーザは、増幅されるべき1つまたは複数の所望の楽器を選択する。一緒に音楽を作成するとき、選択された音楽楽器は増幅され、したがってヒアラブルによって再び聞こえるようにされる。音楽を作成した後、ユーザは再びヒアラブルをオフにする。
【0271】
別の例では、ユーザはヒアラブルをオンにする。ユーザは、音量を小さくしたい所望の楽器を選択する。一緒に音楽を作るとき、選択された楽器の音量は、ユーザが中程度の音量でしか聞くことができないように、ヒアラブルによって低減される。
【0272】
例えば、楽器プロファイルをヒアラブルに格納することができる。
【0273】
さらなる実施形態の別の使用事例は、エコシステムの意味での聴覚デバイス用のソフトウェアモジュールとしての音源分離であり、聴覚デバイスの製造業者、または聴覚デバイスのユーザに関する。製造業者は、聴覚デバイスの追加ツールとして音源分離を使用し、それを顧客に提供することができる。したがって、聴覚デバイスは、開発から利益を得ることもできる。他の市場/デバイス(ヘッドホン、携帯電話等。)用のライセンスモデルも考えられる。
【0274】
例えば、聴覚デバイスのユーザは、例えば特定の話者に焦点を合わせるために、複雑な聴覚状況において異なる音源を分離することが困難である。外部の追加システム(例えば、Bluetoothを介した移動無線機セットからの信号の転送、FM機器または誘導聴覚機器を介した教室での選択的な信号の転送)がなくても選択的に聞くことができるようにするために、ユーザは、選択的聴取のための追加機能を有する聴覚デバイスを使用する。したがって、外部の努力がなくても、ユーザは、音源分離を通じて個々の音源に焦点を合わせることができる。最後に、ユーザは、追加機能をオフにして、聴覚デバイスで正常に聞き続ける。
【0275】
例えば、聴覚デバイスユーザは、選択的聴覚のための統合された追加機能を有する新しい聴覚デバイスを取得する。ユーザは、聴覚デバイスに選択的聴覚のための機能を設定する。次に、ユーザはプロファイルを選択する(例えば、最も大きい/最も近いソースを増幅し、個人的な周囲の特定の音声の音声認識を増幅する(例えば、UC-CE5-主要イベントなど)。聴覚デバイスは、設定されたプロファイルに従ってそれぞれの音源を増幅し、要求に応じてバックグラウンドノイズを同時に抑制し、聴覚デバイスのユーザは、「ノイズ」/音響源のクラッタだけでなく、複雑な聴覚シーンから個々の音源を聞く。
【0276】
または、聴覚デバイスのユーザは、自身の聴覚デバイスのソフトウェア等として、選択的聴覚のための追加機能を取得する。ユーザは、自分の聴覚デバイスに追加機能をインストールする。そして、ユーザは、聴覚デバイスに選択的聴覚のための機能を設定する。ユーザはプロファイル(最も大きい/最も近い音源を増幅し、個人の周囲からの特定の音声の音声認識を増幅する(UC-CE5-主要イベントなど))を選択し、聴覚デバイスは設定されたプロファイルに従ってそれぞれの音源を増幅し、同時に要求に応じて暗騒音を抑制する。この場合、聴覚デバイスのユーザは、「ノイズ」/音響源の乱雑さだけでなく、複雑な聴覚シーンから個々の音源を聞く。
【0277】
例えば、ヒアラブルは、記憶可能な音声プロファイルを提供することができる。
【0278】
さらなる実施形態のさらなるユースケースは、プロスポーツであり、競技におけるアスリートに関する。バイアスロン、トライアスロン、サイクリング、マラソンなどのスポーツでは、プロアスリートは、指導者の情報またはチームメイトとのコミュニケーションに頼っている。しかし、集中できるようにするために、大きな音(バイアスロンでの射撃、大きな拍手、パーティーのクラクションなど。)から自分自身を保護したい状況もある。ヒアラブルは、関連する音源(特定の音声の検出、典型的な妨害雑音に対する音量制限)の完全自動選択を可能にするように、それぞれのスポーツ/アスリートに適合させることができる。
【0279】
例えば、ユーザは非常に移動しやすく、妨害ノイズの種類はスポーツに依存する。激しい身体的緊張のために、競技者によるデバイスの制御は不可能であるか、または限られた範囲にすぎない。しかし、ほとんどのスポーツでは、所定の手順(バイアスロン:ランニング、射撃)があり、重要なコミュニケーション相手(トレーナー、チームメイト)を事前に定義することができる。ノイズは、一般に、または活動の特定の段階で抑制される。競技者とチームメイトおよび指導者との間のコミュニケーションは、常に強調される。
【0280】
例えば、競技者は、スポーツの種類に合わせて特別に調整されたヒアラブルを使用する。ヒアラブルは、特にそれぞれのタイプのスポーツにおいて高度な注意が必要とされる状況において、完全に自動的に(事前調整されて)妨害雑音を抑制する。加えて、ヒアラブルは、トレーナーおよびチームメンバーが聴力範囲にあるときに完全に自動的に(事前調整されて)強調する。
【0281】
さらなる実施形態のさらなるユースケースは、聴覚訓練であり、音楽学生、プロのミュージシャン、趣味のミュージシャンに関する。音楽リハーサル(例えば、オーケストラでは、バンドでは、アンサンブルでは、音楽の授業では、)では、ヒアラブルを選択的に使用して、フィルタリングされた方法で個々の音声を追跡することができる。特にリハーサルの開始時には、ピースの最終記録を聞き、自分の声を追跡することが有用である。構図によっては、前景の音声を聞くだけでは、背景の音声をうまく聞き取ることができない。ヒアラブルでは、楽器等に基づいて音声を選択的に強調して、より的を絞った練習を行うことができる。
【0282】
(希望する)音楽の学生は、ヒアラブルを使用して聴覚能力を訓練し、最終的に助けを借りずに複雑な曲から個々の音声を抽出するまで、個々の強調を段階的に最小限に抑えて選択的に試験に備えることもできる。
【0283】
さらなる可能なユースケースは、例えば、Singstarなどが近くで利用できない場合のカラオケである。カラオケにサインするための楽器バージョンのみを聞くために、必要に応じて歌声を音楽から抑制することができる。
【0284】
例えば、ミュージシャンは、曲から音声を学習し始める。CDプレーヤ等の再生媒体を介して音楽の録音を聴取する。ユーザは、練習を終えると、再びヒアラブルをオフにする。
【0285】
一例では、ユーザはヒアラブルをオンにする。増幅させたい所望の楽器を選択する。ヒアラブルは、音楽を聴いているときに、音楽楽器の音声を増幅し、残りの音楽楽器の音量を下げ、したがって、ユーザは、自身の音声をより良好に追跡することができる。
【0286】
別の例では、ユーザはヒアラブルをオンにする。抑制したい所望の楽器を選択する。楽曲を聴取する際には、選択された楽曲の音声を抑制し、残りの音声のみが聞こえるようにする。したがって、ユーザは、録音からの音声によって気を取られることなく、他の音声で自身の楽器で音声を練習することができる。
【0287】
実施例では、ヒアラブルは、格納された楽器プロファイルを提供することができる。
【0288】
別の実施形態の別のユースケースは、作業時の安全性であり、騒がしい環境の作業者に関する。機械ホールまたは建設現場などの騒々しい環境にいる労働者は、騒音から自分自身を保護しなければならないが、警告信号を知覚し、同僚と通信することもできなければならない。
【0289】
例えば、ユーザは非常に大きな環境に位置しており、目的音源(警告信号、同僚)は妨害雑音よりもかなり柔らかい可能性がある。ユーザはモバイルであってもよい。しかしながら、妨害ノイズはしばしば静止している。聴覚保護と同様に、騒音は恒久的に低下し、ヒアラブルは警告信号を完全に自動的に強調する。同僚とのコミュニケーションは、スピーカ音源の増幅によって保証される。
【0290】
例えば、ユーザは仕事中であり、聴覚保護としてヒアラブルを使用する。警告信号(例えば、火災報知器)は音響的に強調され、ユーザは必要に応じて作業を停止する。
【0291】
あるいは、例えば、ユーザは仕事中であり、聴覚保護としてヒアラブルを使用する。同僚とのコミュニケーションの必要性がある場合、コミュニケーションパートナーが選択され、適切なインターフェース(ここでは、例えば、眼の制御)の助けを借りて音響的に強調される。
【0292】
さらなる実施形態の別のユースケースは、ライブトランスレータ用のソフトウェアモジュールとしてのソース分離であり、ライブトランスレータのユーザに関する。ライブ翻訳者は、話し言葉の外国語をリアルタイムで翻訳し、ソース分離のために上流のソフトウェアモジュールから利益を得ることができる。特に、複数の話者が存在する場合、ソフトウェアモジュールは、目標話者を抽出し、潜在的に翻訳を改善することができる。
【0293】
例えば、ソフトウェアモジュールは、ライブトランスレータ(スマートフォン上の専用デバイスまたはアプリ)の一部である。例えば、ユーザは、デバイスのディスプレイを介して目標話者を選択することができる。ユーザおよび対象音源は、並進時に移動しないか、またはわずかしか移動しないことが有利である。選択された音源位置は音響的に強調され、したがって並進を潜在的に改善する。
【0294】
例えば、ユーザは、外国語での会話を希望したり、外国語の話者の話を聞いたりする。ユーザは適切なインターフェース(例えば、ディスプレイ上のGUI)を介して目標話者を選択し、ソフトウェアモジュールはトランスレータでさらに使用するために録音を最適化する。
【0295】
別の実施形態のさらなるユースケースは、救助隊の業務における安全性であり、消防士、市民保護、警察、救急サービスに関する。軽減力のためには、ミッションを首尾よく処理するために良好な通信が不可欠である。周囲の騒音が大きいにもかかわらず、放圧は通信を不可能にするので、聴覚保護を行うことができないことが多い。例えば、消防士は、例えば、無線機を介して部分的に発生する大きなモータ音にもかかわらず、命令を正確に伝達し、それらを理解することができなければならない。したがって、逃がし力は、聴覚保護条例を順守することができない大きな騒音にさらされる。一方では、ヒアラブルは、リリーフ力の聴覚保護を提供し、他方では、リリーフ力間の通信を依然として可能にする。さらに、ヒアラブルの助けを借りて、ヘルメット/保護装置を運ぶときに、リリーフ力が環境から音響的に切り離されず、したがってより良好な支持を提供することができる。それらはより良好に通信することができ、また、それら自体の危険性をより良好に推定することもできる(例えば、発生している火災のタイプを聞く)。
【0296】
例えば、ユーザは、強い周囲の雑音を受け、したがって、聴覚保護を着用することができず、依然として他人と通信することができなければならない。ヒアラブルを使用する。ミッションが完了した後、または危険の状況が終了した後、ユーザは再びヒアラブルを外す。
【0297】
例えば、ユーザは、ミッション中にヒアラブルを装着する。ヒアラブルをオンにする。ヒアラブルは、周囲の雑音を抑圧し、周囲の同僚や他の話者の発話を増幅する(例えば火災犠牲者)。
【0298】
あるいは、ユーザは、任務中にヒアラブルを装着する。ヒアラブルをオンにし、ヒアラブルは周囲の雑音を抑圧し、ラジオを介して同僚の音声を増幅する。
【0299】
適用可能な場合、ヒアラブルは、動作仕様に従って動作に対する構造的適合性を満たすように特別に設計される。場合によっては、ヒアラブルは、無線デバイスへのインターフェースを備える。
【0300】
いくつかの態様がデバイスの文脈内で説明されているが、前記態様は対応する方法の説明も表すことが理解され、その結果、デバイスのブロックまたは構造的構成要素はまた、対応する方法ステップまたは方法ステップの特徴として理解されるべきである。同様に、方法ステップの文脈内でまたは方法ステップとして説明されている態様はまた、対応するデバイスの対応するブロックまたは詳細または特徴の説明を表す。方法ステップの一部またはすべては、マイクロプロセッサ、プログラマブルコンピュータ、または電子回路などのハードウェアデバイスを使用しながら実行されてもよい。いくつかの実施形態では、最も重要な方法ステップのいくつかまたはいくつかは、そのようなデバイスによって実行されてもよい。
【0301】
具体的な実装要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実装することができる。実装は、デジタル記憶媒体、例えば、フロッピーディスク、DVD、ブルーレイディスク、CD、ROM、PROM、EPROM、EEPROMもしくはフラッシュメモリ、ハードディスク、またはそれぞれの方法が実行されるようにプログラマブルコンピュータシステムと協働するか、または協働することができる電子的に読み取り可能な制御信号が記憶された任意の他の磁気もしくは光学メモリを使用して行われてもよい。これが、デジタル記憶媒体がコンピュータ可読であり得る理由である。
【0302】
したがって、本発明によるいくつかの実施形態は、本明細書に記載の方法のいずれかが実行されるようにプログラム可能なコンピュータシステムと協働することができる電子的に読み取り可能な制御信号を含むデータキャリアを含む。
【0303】
一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに方法のいずれかを実行するのに有効である。
【0304】
プログラムコードは、例えば、機械可読キャリアに格納することもできる。
【0305】
他の実施形態は、本明細書に記載の方法のいずれかを実行するためのコンピュータプログラムを含み、前記コンピュータプログラムは、機械可読キャリアに格納される。言い換えれば、本発明の方法の一実施形態は、したがって、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法のいずれかを実行するためのプログラムコードを有するコンピュータプログラムである。
【0306】
したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法のいずれかを実行するためのコンピュータプログラムが記録されるデータキャリア(またはデジタル記憶媒体もしくはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体、または記録媒体は、通常、有形または不揮発性である。
【0307】
したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法のいずれかを実行するためのコンピュータプログラムを表すデータストリームまたは一連の信号である。データストリームまたは信号シーケンスは、例えば、データ通信リンクを介して、例えばインターネットを介して送信されるように構成することができる。
【0308】
さらなる実施形態は、本明細書に記載の方法のいずれかを実行するように構成または適合された処理ユニット、例えばコンピュータまたはプログラマブル論理デバイスを含む。
【0309】
さらなる実施形態は、本明細書に記載の方法のいずれかを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
【0310】
本発明によるさらなる実施形態は、本明細書に記載の方法のうちの少なくとも1つを実行するためのコンピュータプログラムを受信機に送信するように構成されたデバイスまたはシステムを含む。送信は、例えば、電子的または光学的であってもよい。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイス、または同様のデバイスであってもよい。デバイスまたはシステムは、例えば、コンピュータプログラムを受信機に送信するためのファイルサーバを含み得る。
【0311】
いくつかの実施形態では、プログラマブル論理デバイス(例えば、フィールドプログラマブルゲートアレイ、FPGA)を使用して、本明細書に記載の方法の機能の一部またはすべてを実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載の方法のいずれかを実行するためにマイクロプロセッサと協働することができる。一般に、本方法は、いくつかの実施形態では、任意のハードウェアデバイスによって実行される。前記ハードウェアデバイスは、コンピュータプロセッサ(CPU)などの任意の普遍的に適用可能なハードウェアであってもよく、ASICなどの方法に固有のハードウェアであってもよい。
【0312】
上述の実施形態は、本発明の原理の単なる例示を表す。他の当業者は、本明細書に記載の構成および詳細の修正および変形を理解するであろうことが理解される。このため、本発明は、実施形態の説明および議論によって本明細書に提示された特定の詳細によってではなく、以下の特許請求の範囲によってのみ限定されることが意図される。
【0313】
参考文献
[1] V.Valimaki,A.Franck,J.Ramo,H.Gamper,and L.Savioja,”Assisted listening using a headset:Enhancing audio perception in real,augmented,and virtual environments,” IEEE Signal Processing Magazine,volume 32,no.2,pp.92-99,March 2015
【0314】
[2] K.Brandenburg,E.Cano,F.Klein,T.Kollmer,H.Lukashevich,A.Neidhardt,U.Sloma,and S.Werner,”Plausible augmentation of auditory scenes using dynamic binaural synthesis for personalized auditory realities,” in Proc.of AES International Conference on Audio for Virtual and Augmented Reality,August 2018
【0315】
[3] S.Argentieri,P.Dans,and P.Soures,”A survey on sound source localization in robotics:From binaural to array processing methods,” Computer Speech Language,volume 34,no.1,pp.87-112,2015
【0316】
[4] D.FitzGerald,A.Liutkus,and R.Badeau,”Projection-based demixing of spatial audio,” IEEE/ACM Trans.on Audio,Speech,and Language Processing,volume 24,no.9,pp.1560-1572,2016
【0317】
[5] E.Cano,D.FitzGerald,A.Liutkus,M.D.Plumbley,and F.Stoter,”Musical source separation:An introduction,” IEEE Signal Processing Magazine,volume 36,no.1,pp.31-40,January 2019
【0318】
[6] S.Gannot,E.Vincent,S.Markovich-Golan,and A.Ozerov,”A consolidated perspective on multimicrophone speech enhancement and source separation,” IEEE/ACM Transactions on Audio,Speech,and Language Processing,volume 25,no.4,pp.692-730,April 2017
【0319】
[7] E.Cano,J.Nowak,and S.Grollmisch,”Exploring sound source separation for acoustic condition monitoring in industrial scenarios,” in Proc.of 25th European Signal Processing Conference(EUSIPCO),August 2017,pp.2264-2268
【0320】
[8] T.Gerkmann,M.Krawczyk-Becker,and J.Le Roux,”Phase processing for single-channel speech enhancement:History and recent advances,” IEEE Signal Processing Magazine,volume 32,no.2,pp.55-66,March 2015
【0321】
[9] E.Vincent,T.Virtanen,and S.Gannot,Audio Source Separation and Speech Enhancement.Wiley,2018
【0322】
[10] D.Matz,E.Cano,and J.Abesser,”New sonorities for early jazz recordings using sound source separation and automatic mixing tools,” in Proc.of the 16th International Society for Music Information Retrieval Conference.Malaga,Spain:ISMIR,October 2015,pp.749-755
【0323】
[11] S.M.Kuo and D.R.Morgan,”Active noise control:a tutorial review,” Proceedings of the IEEE,volume 87,no.6,pp.943-973,June 1999
【0324】
[12] A.McPherson,R.Jack,and G.Moro,”Action-sound latency:Are our tools fast enough?” in Proceedings of the International Conference on New Interfaces for Musical Expression,July 2016
【0325】
[13] C.Rottondi,C.Chafe,C.Allocchio,and A.Sarti,”An overview on networked music performance technologies,” IEEE Access,volume 4,pp.8823-8843,2016
【0326】
[14] S.Liebich,J.Fabry,P.Jax,and P.Vary,”Signal processing challenges for active noise cancellation headphones,” in Speech Communication;13th ITG-Symposium,October 2018,pp.1-5
【0327】
[15] E.Cano,J.Liebetrau,D.Fitzgerald,and K.Brandenburg,”The dimensions of perceptual quality of sound source separation,” in Proc.of IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),April 2018,pp.601-605
【0328】
[16] P.M.Delgado and J.Herre,”Objective assessment of spatial audio quality using directional loudness maps,” in Proc.of IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),May 2019,pp.621-625
【0329】
[17] C.H.Taal,R.C.Hendriks,R.Heusdens,and J.Jensen,”An algorithm for intelligibility prediction of time-frequency weighted noisy speech,” IEEE Transactions on Audio,Speech,and Language Processing,volume 19,no.7,pp.2125-2136,September 2011
【0330】
[18] M.D.Plumbley,C.Kroos,J.P.Bello,G.Richard,D.P.Ellis,and A.Mesaros,Proceedings of the Detection and Classification of Acoustic Scenes and Events 2018 Workshop(DCASE2018).Tampere University of Technology.Laboratory of Signal Processing,2018
【0331】
[19] R.Serizel,N.Turpault,H.Eghbal-Zadeh,and A.Parag Shah,”Large-Scale Weakly Labeled Semi-Supervised Sound Event Detection in Domestic Environments,” July 2018,submitted to DCASE2018 Workshop
【0332】
[20] L.JiaKai,”Mean teacher convolution system for dcase 2018 task 4,” DCASE2018 Challenge,Tech.Rep.,September 2018
【0333】
[21] G.Parascandolo,H.Huttunen,and T.Virtanen,”Recurrent neural networks for polyphonic sound event detection in real life recordings,” in Proc.of IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),March 2016,pp.6440-6444
【0334】
[22] E.C,Cakir and T.Virtanen,”End-to-end polyphonic sound event detection using convolutional recurrent neural networks with learned time-frequency representation input,” in Proc.of International Joint Conference on Neural Networks(IJCNN),July 2018,pp.1-7
【0335】
[23] Y.Xu,Q.Kong,W.Wang,and M.D.Plumbley,”Large-Scale Weakly Supervised Audio Classification Using Gated Convolutional Neural Network,” in Proceedings of the IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),Calgary,AB,Canada,2018,pp.121-125
【0336】
[24] B.Frenay and M.Verleysen,”Classification in the presence of label noise:A survey,” IEEE Transactions on Neural Networks and Learning Systems,volume 25,no.5,pp.845-869,May 2014
【0337】
[25] E.Fonseca,M.Plakal,D.P.W.Ellis,F.Font,X.Favory,and X.Serra,”Learning sound event classifiers from web audio with noisy labels,” in Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),Brighton,UK,2019
【0338】
[26] M.Dorfer and G.Widmer,”Training general-purpose audio tagging networks with noisy labels and iterative self-verification,” in Proceedings of the Detection and Classification of Acoustic Scenes and Events 2018 Workshop(DCASE2018),Surrey,UK,2018
【0339】
[27] S.Adavanne,A.Politis,J.Nikunen,and T.Virtanen,”Sound event localization and detection of overlapping sources using convolutional recurrent neural networks,” IEEE Journal of Selected Topics in Signal Processing,pp.1-1,2018
【0340】
[28] Y.Jung,Y.Kim,Y.Choi,and H.Kim,”Joint learning using denoising variational autoencoders for voice activity detection,” in Proc.of Interspeech,September 2018,pp.1210-1214
【0341】
[29] F.Eyben,F.Weninger,S.Squartini,and B.Schuller,”Real-life voice activity detection with LSTM recurrent neural networks and an application to hollywood movies,” in Proc.of IEEE International Conference on Acoustics,Speech and Signal Processing,May 2013,pp.483-487
【0342】
[30] R.Zazo-Candil,T.N.Sainath,G.Simko,and C.Parada,”Feature learning with raw-waveform CLDNNs for voice activity detection,” in Proc.of INTERSPEECH,2016
【0343】
[31] M.McLaren,Y.Lei,and L.Ferrer,”Advances in deep neural network approaches to speaker recognition,” in Proc.of IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),April 2015,pp.4814-4818
【0344】
[32] D.Snyder,D.Garcia-Romero,G.Sell,D.Povey,and S.Khudanpur,”X-vectors:Robust DNN embeddings for speaker recognition,” in Proc.of IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),April 2018,pp.5329-5333
【0345】
[33] M.McLaren,D.Castan,M.K.Nandwana,L.Ferrer,and E.Yilmaz,”How to train your speaker embeddings extractor,” in Odyssey,2018
【0346】
[34] S.O.Sadjadi,J.W.Pelecanos,and S.Ganapathy,”The IBM speaker recognition system:Recent advances and error analysis,” in Proc.of Interspeech,2016,pp.3633-3637
【0347】
[35] Y.Han,J.Kim,and K.Lee,”Deep convolutional neural networks for predominant instrument recognition in polyphonic music,” IEEE/ACM Transactions on Audio,Speech,and Language Processing,volume 25,no.1,pp.208-221,January 2017
【0348】
[36] V.Lonstanlen and C.-E.Cella,”Deep convolutional networks on the pitch spiral for musical instrument recognition,” in Proceedings of the 17th International Society for Music Information Retrieval Conference.New York,USA:ISMIR,2016,pp.612-618
【0349】
[37] S.Gururani,C.Summers,and A.Lerch,”Instrument activity detection in polyphonic music using deep neural networks,” in Proceedings of the 19th International Society for Music Information Retrieval Conference.Paris,France:ISMIR,September 2018,pp.569-576
【0350】
[38] J.Schlutter and B.Lehner,”Zero mean convolutions for level-invariant singing voice detection,” in Proceedings of the 19th International Society for Music Information Retrieval Conference.Paris,France:ISMIR,September 2018,pp.321-326
【0351】
[39] S.Delikaris-Manias,D.Pavlidi,A.Mouchtaris,and V.Pulkki,”DOA estimation with histogram analysis of spatially constrained active intensity vectors,” in Proc.of IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),March 2017,pp.526-530
【0352】
[40] S.Chakrabarty and E.A.P.Habets,”Multi-speaker DOA estimation using deep convolutional networks trained with noise signals,” IEEE Journal of Selected Topics in Signal Processing,volume 13,no.1,pp.8-21,March 2019
【0353】
[41] X.Li,L.Girin,R.Horaud,and S.Gannot,”Multiple-speaker localization based on direct-path features and likelihood maximization with spatial sparsity regularization,” IEEE/ACM Transactions on Audio,Speech,and Language Processing,volume 25,no.10,pp.1997-2012,October 2017
【0354】
[42] F.Grondin and F.Michaud,”Lightweight and optimized sound source localization and tracking methods for open and closed microphone array configurations,” Robotics and Autonomous Systems,volume 113,pp.63-80,2019
【0355】
[43] D.Yook,T.Lee,and Y.Cho,”Fast sound source localization using two-level search space clustering,” IEEE Transactions on Cybernetics,volume 46,no.1,pp.20-26,January 2016
【0356】
[44] D.Pavlidi,A.Griffin,M.Puigt,and A.Mouchtaris,”Real-time multiple sound source localization and counting using a circular microphone array,” IEEE Transactions on Audio,Speech,and Language Processing,volume 21,no.10,pp.2193-2206,October 2013
【0357】
[45] P.Vecchiotti,N.Ma,S.Squartini,and G.J.Brown,”End-to-end binaural sound localisation from the raw waveform,” in Proc.of IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),May 2019,pp.451-455
【0358】
[46] Y.Luo,Z.Chen,and N.Mesgarani,”Speaker-independent speech separation with deep attractor network,” IEEE/ACM Transactions on Audio,Speech,and Language Processing,volume 26,no.4,pp.787-796,April 2018
【0359】
[47] Z.Wang,J.Le Roux,and J.R.Hershey,”Multi-channel deep clustering:Discriminative spectral and spatial embeddings for speaker-independent speech separation,” in Proc.of IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),April 2018,pp.1-5
【0360】
[48] G.Naithani,T.Barker,G.Parascandolo,L.BramslLw,N.H.Pontoppidan,and T.Virtanen,”Low latency sound source separation using convolutional recurrent neural networks,” in Proc.of IEEE Workshop on Applications of Signal Processing to Audio and Acoustics(WASPAA),October 2017,pp.71-75
【0361】
[49] M.Sunohara,C.Haruta,and N.Ono,”Low-latency real-time blind source separation for hearing aids based on time-domain implementation of online independent vector analysis with truncation of non-causal components,” in Proc.of IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),March 2017,pp.216-220
【0362】
[50] Y.Luo and N.Mesgarani,”TaSNet:Time-domain audio separation network for real-time,single-channel speech separation,” in Proc.of IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),April 2018,pp.696-700
【0363】
[51] J.Chua,G.Wang,and W.B.Kleijn,”Convolutive blind source separation with low latency,” in Proc.of IEEE International Workshop on Acoustic Signal Enhancement(IWAENC),September 2016,pp.1-5
【0364】
[52] Z.Rafii,A.Liutkus,F.Stoter,S.I.Mimilakis,D.FitzGerald,and B.Pardo,”An overview of lead and accompaniment separation in music,” IEEE/ACM Transactions on Audio,Speech,and Language Processing,volume 26,no.8,pp.1307-1335,August 2018
【0365】
[53] F.-R.Stoter,A.Liutkus,and N.Ito,”The 2018 signal separation evaluation campaign,” in Latent Variable Analysis and Signal Separation,Y.Deville,S.Gannot,R.Mason,M.D.Plumbley,and D.Ward,Eds.Cham:Springer International Publishing,2018,pp.293-305
【0366】
[54] J.-L.Durrieu,B.David,and G.Richard,”A musically motivated midlevel representation for pitch estimation and musical audio source separation,” Selected Topics in Signal Processing,IEEE Journal of,volume 5,no.6,pp.1180-1191,October 2011
【0367】
[55] S.Uhlich,M.Porcu,F.Giron,M.Enenkl,T.Kemp,N.Takahashi,and Y.Mitsufuji,”Improving music source separation based on deep neural networks through data augmentation and network blending,” in Proc.of IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),2017
【0368】
[56] P.N.Samarasinghe,W.Zhang,and T.D.Abhayapala,”Recent advances in active noise control inside automobile cabins:Toward quieter cars,” IEEE Signal Processing Magazine,volume 33,no.6,pp.61-73,November 2016
【0369】
[57] S.Papini,R.L.Pinto,E.B.Medeiros,and F.B.Coelho,”Hybrid approach to noise control of industrial exhaust systems,” Applied Acoustics,volume 125,pp.102-112,2017
【0370】
[58] J.Zhang,T.D.Abhayapala,W.Zhang,P.N.Samarasinghe,and S.Jiang,”Active noise control over space:A wave domain approach,” IEEE/ACM Transactions on Audio,Speech,and Language Processing,volume 26,no.4,pp.774-786,April 2018
【0371】
[59] X.Lu,Y.Tsao,S.Matsuda,and C.Hori,”Speech enhancement based on deep denoising autoencoder,” in Proc.of Interspeech,2013
【0372】
[60] Y.Xu,J.Du,L.Dai,and C.Lee,”A regression approach to speech enhancement based on deep neural networks,” IEEE/ACM Transactions on Audio,Speech,and Language Processing,volume 23,no.1,pp.7-19,January 2015
【0373】
[61] S.Pascual,A.Bonafonte,and J.Serra,”SEGAN:speech enhancement generative adversarial network,” in Proc.of Interspeech,August 2017,pp.3642-3646
【0374】
[62] F.Weninger,H.Erdogan,S.Watanabe,E.Vincent,J.Le Roux,J.R.Hershey,and B.Schuller,”Speech enhancement with LSTM recurrent neural networks and its application to noise-robust ASR,” in Latent Variable Analysis and Signal Separation,E.Vincent,A.Yeredor,Z.Koldovsky,and P.Tichavsky,Eds.Cham:Springer International Publishing,2015,pp.91-99
【0375】
[63] H.Wierstorf,D.Ward,R.Mason,E.M.Grais,C.Hummersone,and M.D.Plumbley,”Perceptual evaluation of source separation for remixing music,” in Proc.of Audio Engineering Society Convention 143,October 2017
【0376】
[64] J.Pons,J.Janer,T.Rode,and W.Nogueira,”Remixing music using source separation algorithms to improve the musical experience of cochlear implant users,” The Journal of the Acoustical Society of America,volume 140,no.6,pp.4338-4349,2016
【0377】
[65] Q.Kong,Y.Xu,W.Wang,and M.D.Plumbley,”A joint separation-classification model for sound event detection of weakly labelled data,” in Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),March 2018
【0378】
[66] T.v.Neumann,K.Kinoshita,M.Delcroix,S.Araki,T.Nakatani,and R.Haeb-Umbach,”All-neural online source separation,counting,and diarization for meeting analysis,” in Proc.of IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),May 2019,pp.91-95
【0379】
[67] S.Gharib,K.Drossos,E.Cakir,D.Serdyuk,and T.Virtanen,”Unsupervised adversarial domain adaptation for acoustic scene classification,” in Proceedings of the Detection and Classification of Acoustic Scenes and Events Workshop(DCASE),November 2018,pp.138-142
【0380】
[68] A.Mesaros,T.Heittola,and T.Virtanen,”A multi-device dataset for urban acoustic scene classification,” in Proceedings of the Detection and Classification of Acoustic Scenes and Events Workshop,Surrey,UK,2018
【0381】
[69] J.Abesser,M.Gotze,S.Kuhnlenz,R.Grafe,C.Kuhn,T.Clauss,H.Lukashevich,”A Distributed Sensor Network for Monitoring Noise Level and Noise Sources in Urban Environments,” in Proceedings of the 6th IEEE International Conference on Future Internet of Things and Cloud(FiCloud),Barcelona,Spain,pp.318-324.,2018
【0382】
[70] T.Virtanen,M.D.Plumbley,D.Ellis(Eds.),”Computational Analysis of Sound Scenes and Events,” Springer,2018
【0383】
[71] J.Abesser,S.Ioannis Mimilakis,R.Grafe,H.Lukashevich,”Acoustic scene classification by combining autoencoder-based dimensionality reduction and convolutional neural net-works,” in Proceedings of the 2nd DCASE Workshop on Detection and Classification of Acoustic Scenes and Events,Munich,Germany,2017
【0384】
[72] A.Avni,J.Ahrens,M.Geierc,S.Spors,H.Wierstorf,B.Rafaely,”Spatial perception of sound fields recorded by spherical microphone arrays with varying spatial resolution,” Journal of the Acoustic Society of America,133(5),pp.2711-2721,2013
【0385】
[73] E.Cano,D.FitzGerald,K.Brandenburg,”Evaluation of quality of sound source separation algorithms:Human perception vs quantitative metrics,” in Proceedings of the 24th European Signal Processing Conference(EUSIPCO),pp.1758-1762,2016
【0386】
[74] S.Marchand,”Audio scene transformation using informed source separation,” The Journal of the Acoustical Society of America,140(4),p.3091,2016
【0387】
[75] S.Grollmisch,J.Abesser,J.Liebetrau,H.Lukashevich,”Sounding industry:Challenges and datasets for industrial sound analysis(ISA),” in Proceedings of the 27th European Signal Processing Conference(EUSIPCO)(submitted),A Coruna,Spain,2019
【0388】
[76] J.Abesser,M.Muller,”Fundamental frequency contour classification:A comparison between hand-crafted and CNN-based features,” in Proceedings of the 44th IEEE International Conference on Acoustics,Speech,and Signal Processing(ICASSP),2019
【0389】
[77] J.Abesser,S.Balke,M.Muller,”Improving bass saliency estimation using label propagation and transfer learning,” in Proceedings of the 19th International Society for Music Information Retrieval Conference(ISMIR),Paris,France,pp.306-312,2018
【0390】
[78] C.-R.Nagar,J.Abesser,S.Grollmisch,”Towards CNN-based acoustic modeling of seventh chords for recognition chord recognition,” in Proceedings of the 16th Sound&Music Computing Conference(SMC)(submitted),Malaga,Spain,2019
【0391】
[79] J.S.Gomez,J.Abesser,E.Cano,”Jazz solo instrument classification with convolutional neural networks,source separation,and transfer learning”,in Proceedings of the 19th International Society for Music Information Retrieval Conference(ISMIR),Paris,France,pp.577-584,2018
【0392】
[80] J.R.Hershey,Z.Chen,J.Le Roux,S.Watanabe,”Deep clustering:Discriminative embeddings for segmentation and separation,” in Proceedings of the IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),pp.31-35,2016
【0393】
[81] E.Cano,G.Schuller,C.Dittmar,”Pitch-informed solo and accompaniment separation towards its use in music education applications”,EURASIP Journal on Advances in Signal Processing,2014:23,pp.1-19
【0394】
[82] S.I.Mimilakis,K.Drossos,J.F.Santos,G.Schuller,T.Virtanen,Y.Bengio,”Monaural Singing Voice Separation with Skip-Filtering Connections and Recurrent Inference of Time-Frequency Mask,” in Proceedings of the IEEE International Conference on Acoustics,Speech,and Signal Processing(ICASSP),Calgary,Canada,S.721-725,2018
【0395】
[83] J.F.Gemmeke,D.P.W.Ellis,D.Freedman,A.Jansen,W.Lawrence,R.C.Moore,M.Plakal,M.Ritter,”Audio Set:An ontology and human-labeled dataset for audio events,” in Proceedings of the IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),New Orleans,USA,2017
【0396】
[84] Kleiner,M.”Acoustics and Audio Technology,”.3rd ed.USA:J.Ross Publishing,2012
【0397】
[85] M.Dickreiter,V.Dittel,W.Hoeg,M.Wohr,M.,,Handbuch der Tonstudiotechnik,” A.medienakademie(Eds).7th edition,Vol.1.,Munich:K.G.Saur Verlag,2008
【0398】
[86] F.Muller,M.Karau.,,Transparant hearing,” in:CHI ,02 Extended Abstracts on Human Factors in Computing Systems(CHI EA ’02),Minneapolis,USA,pp.730-731,April 2002
【0399】
[87] L.Vieira.”Super hearing:a study on virtual prototyping for hearables and hearing aids,” Master Thesis,Aalborg University,2018.Available:https://projekter.aau.dk/projekter/files/287515943/MasterThesis_Luis.pdf
【0400】
[88] Sennheiser,”AMBEO Smart Headset,” [Online].Available:
https://de-de.sennheiser.com/finalstop [Accessed:March 1,2019]
【0401】
[89] Orosound ”Tilde Earphones” [Online].Available:
https://www.orosound.com/tilde-earphones/ [Accessed;March 1,2019]
【0402】
[90] Brandenburg,K.,Cano Ceron,E.,Klein,F.,Kollmer,T.,Lukashevich,H.,Neidhardt,A.,Nowak,J.,Sloma,U.,und Werner,S.,,,Personalized auditory reality,” in 44.Jahrestagung fur Akustik(DAGA),Garching bei Munchen,Deutsche Gesellschaft fur Akustik(DEGA),2018
【0403】
[91] US 2015 195641 A1,Application date:January 6,2014;published on July 9,2015.
【国際調査報告】