(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-01-15
(54)【発明の名称】近接場オーディオ信号伝達関数データに基づいてパーソナライズされた自由場オーディオ信号伝達関数を生成するための方法及びシステム
(51)【国際特許分類】
G10K 15/00 20060101AFI20240105BHJP
H04R 3/00 20060101ALI20240105BHJP
H04S 7/00 20060101ALI20240105BHJP
【FI】
G10K15/00 L
H04R3/00 320
H04S7/00 300
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023530990
(86)(22)【出願日】2021-12-30
(85)【翻訳文提出日】2023-05-23
(86)【国際出願番号】 US2021065626
(87)【国際公開番号】W WO2022147208
(87)【国際公開日】2022-07-07
(32)【優先日】2020-12-31
(33)【優先権主張国・地域又は機関】RU
(81)【指定国・地域】
(71)【出願人】
【識別番号】592051453
【氏名又は名称】ハーマン インターナショナル インダストリーズ インコーポレイテッド
(74)【代理人】
【識別番号】100078282
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】フィリモノフ, アンドレイ ヴィクトロヴィチ
(72)【発明者】
【氏名】エピシン, アンドレイ イゴレヴィチ
(72)【発明者】
【氏名】クレシュニン, ミハイル セルゲーヴィチ
(72)【発明者】
【氏名】ライオンズ, ジョイ
【テーマコード(参考)】
5D162
5D220
【Fターム(参考)】
5D162AA07
5D162CA26
5D162CD07
5D162DA02
5D162EG02
5D220BA30
(57)【要約】
パーソナライズされた音声信号伝達関数を生成するためのコンピュータ実施方法について説明される。方法は、音声受信手段によって、ユーザの耳またはユーザの耳の中で音声信号を受信することと、受信した音声信号に基づいて、第1のデータを決定することであって、第1のデータが、ユーザの耳に関連付けられた第1の音声信号伝達関数を表す、決定することと、第1のデータに基づいて、第2のデータを決定することであって、第2のデータが、ユーザの耳に関連付けられた第2の音声信号伝達関数を表す、決定することと、を含む。
【選択図】なし
【特許請求の範囲】
【請求項1】
パーソナライズされた音声信号伝達関数を生成するためのコンピュータ実施方法であって、
音声受信手段によって、ユーザの耳または耳の中で音声信号を受信することと、
前記受信した音声信号に基づいて、第1のデータを決定することであって、前記第1のデータが、前記ユーザの前記耳に関連付けられた第1の音声信号伝達関数を表す、前記決定することと、
前記第1のデータに基づいて、第2のデータを決定することであって、前記第2のデータが、前記ユーザの前記耳に関連付けられた第2の音声信号伝達関数を表す、前記決定することと、
を含む、前記コンピュータ実施方法。
【請求項2】
前記第1の音声信号伝達関数が、近接場音声信号伝達関数の少なくとも1つを表し、または
前記方法が、前記ユーザの前記耳に対して近接場内で音声送信手段から前記音声信号を受信することをさらに含む、請求項1に記載のコンピュータ実施方法。
【請求項3】
前記第2の音声信号伝達関数が、遠方場または自由場の音声信号伝達関数を表す、請求項1に記載のコンピュータ実施方法。
【請求項4】
前記音声信号を受信する前に、音声送信手段によって前記音声信号を送信すること、
前記第2のデータに基づいて、前記音声信号もしくは後続の音声信号のうちの少なくとも1つを修正するためのフィルタ関数を決定すること、または
前記音声送信手段によって、前記修正された音声信号もしくは前記修正された後続の音声信号の少なくとも1つを送信すること、
のうちの少なくとも1つをさらに含む、請求項1に記載のコンピュータ実施方法。
【請求項5】
前記第2の音声信号伝達関数が、音声信号方向に関連付けられ、
前記方法が、第3のデータを決定することであって、前記第3のデータが、前記音声信号方向を示し、前記第2のデータを決定することが、前記第3のデータにさらに基づく、前記決定することをさらに含む、請求項1に記載のコンピュータ実施方法。
【請求項6】
前記第2のデータが、人工知能ベース、機械学習ベース、またはニューラルネットワークベースの回帰アルゴリズムを使用して決定され、
前記第1のデータまたは前記第3のデータの少なくとも1つが、前記回帰アルゴリズムの入力として使用される、請求項5に記載のコンピュータ実施方法。
【請求項7】
訓練データセットを決定することであって、前記訓練データセットが、複数の第1の訓練データ及び複数の第2の訓練データを含む、前記決定することと、
前記ユーザの前記耳に関連付けられた入力の第1の音声信号伝達関数に基づいて前記ユーザの前記耳に関連付けられた第2の音声信号伝達関数を出力するために、前記訓練データセットに基づいて前記回帰アルゴリズムを開始すること、訓練すること、または開始及び訓練することと、
をさらに含み、
前記複数の第1の訓練データのそれぞれが、訓練対象の耳またはそれぞれの訓練対象の耳に関連付けられたそれぞれの第1の訓練音声信号伝達関数を表し、
前記複数の第2の訓練データのそれぞれが、前記訓練対象耳の前記耳または前記それぞれの訓練対象の前記耳に関連付けられたそれぞれの第2の訓練音声信号伝達関数を表す、請求項6に記載のコンピュータ実施方法。
【請求項8】
人工知能ベース、機械学習ベース、またはニューラルネットワークベースの回帰アルゴリズムを開始、訓練、または開始及び訓練するためのコンピュータ実施方法であって、
訓練データセットを決定することであって、前記訓練データセットが、複数の第1の訓練データ及び複数の第2の訓練データを含む、前記決定することと、
ユーザの耳に関連付けられた入力の第1の音声信号伝達関数に基づいて前記ユーザの前記耳に関連付けられた第2の音声信号伝達関数を出力するために、前記訓練データセットに基づいて前記回帰アルゴリズムを開始すること、訓練すること、または開始及び訓練することと、
を含み、
前記複数の第1の訓練データのそれぞれが、訓練対象の耳またはそれぞれの訓練対象の耳に関連付けられたそれぞれの第1の訓練音声信号伝達関数を表し、
前記複数の第2の訓練データのそれぞれが、前記訓練対象耳の前記耳または前記それぞれの訓練対象の前記耳に関連付けられたそれぞれの第2の訓練音声信号伝達関数を表す、前記コンピュータ実施方法。
【請求項9】
前記それぞれの第1の訓練音声信号伝達関数のそれぞれが、それぞれの近接場音声信号伝達関数を表し、
前記入力の第1の音声信号伝達関数が、近接場音声信号伝達関数を表す、請求項8に記載のコンピュータ実施方法。
【請求項10】
前記それぞれの第2の訓練音声信号伝達関数のそれぞれが、それぞれの遠方場または自由場音声信号伝達関数を表し、
前記出力の第2の音声信号伝達関数が、遠方場または自由場音声信号伝達関数を表す、請求項8に記載のコンピュータ実施方法。
【請求項11】
前記それぞれの第2の訓練音声信号伝達関数のそれぞれが、前記訓練対象の前記耳に対する訓練音声信号方向、または前記訓練対象の前記耳に対するそれぞれの訓練音声信号方向に関連付けられ、
前記訓練データセットが、第3の訓練データをさらに含み、前記第3の訓練データが、前記訓練音声信号方向または前記それぞれの訓練音声信号方向を示し、
前記出力の第2の音声信号伝達関数が、前記ユーザの前記耳に対する入力音声信号方向に関連付けられ、特に、前記第2の音声信号伝達関数を出力するために前記回帰アルゴリズムを開始、訓練、または開始及び訓練することが、前記入力音声信号方向にさらに基づく、請求項8に記載のコンピュータ実施方法。
【請求項12】
前記第3の訓練データが、前記訓練音声信号方向を示す第1のベクトルデータを含み、
前記第3の訓練データが、第2のベクトルデータを含み、前記第2のベクトルデータが、前記第1のベクトルデータに依存するか、または前記第1のベクトルデータから導出される、請求項11に記載のコンピュータ実施方法。
【請求項13】
前記訓練対象の前記耳に対する近接場内で、前記訓練対象が装着する第1の音声伝達手段から前記訓練対象の前記耳の中もしくは前記耳で複数の第1の訓練音声信号を受信すること、及び前記受信した複数の第1の訓練音声信号のそれぞれに基づいて、前記それぞれの第1の訓練音声信号伝達関数を決定すること、または
前記訓練対象の前記耳に対する遠方場または自由場内で、それぞれの第2の音声送信手段から前記訓練対象の前記耳の中もしくは前記耳で複数の第2の訓練音声信号を受信すること、及び前記受信した複数の第2の訓練音声信号のそれぞれに基づいて、前記それぞれの第2の訓練音声信号伝達関数を決定すること、
をさらに含み、
前記訓練音声信号方向または前記それぞれの訓練音声信号方向が、それぞれの第2の訓練音声信号が前記ユーザの前記耳に対する前記訓練対象の前記耳もしくは前記耳の中で受信される方向、または前記それぞれの第2の音声送信手段が前記訓練対象の前記耳に対して位置する方向のうちの少なくとも1つを表す、請求項11に記載のコンピュータ実施方法。
【請求項14】
請求項1~13のいずれかに記載の方法を実行するための計算手段を備えるデータ処理システム。
【請求項15】
計算手段による実行時に、請求項1~13のいずれかに記載の方法を前記計算手段に実行させる命令を含む、コンピュータ可読記憶媒体。
【発明の詳細な説明】
【背景技術】
【0001】
音声信号の音響知覚は、その生物学的な聴取装置により、人間ごとに異なり得る。聴取者の周囲で送信された音声信号が聴取者の鼓膜に当たる前に、それが聴取者の身体または身体の一部、例えば、聴取者の肩、骨、または耳介によって反射され、部分的に吸収され、送信される。これらの効果により、音声信号の修正がもたらされる。言い換えると、本来送信された音声信号ではなく、修正された音声信号が、聴取者によって受信される。
【0002】
人間の脳は、この修正から、音声信号が本来送信された場所を導き出すことが可能である。これにより、(i)両耳間振幅差、即ち、他方の耳と比較して一方の耳で受信される音声信号の振幅差、(ii)両耳間時間差、即ち、音声信号が一方の耳で受信される時間と他方の耳で受信される時間の差、(iii)受信信号の周波数応答またはインパルス応答であって、応答は、聴取者、特に聴取者の耳及び音声信号が受信される場所、特に方向の特徴である、受信信号の周波数応答またはインパルス応答を含む、異なる因子が考慮に入れられる。送信された音声信号と聴取者の耳で受信された音声信号との間の関係は、上記の因子を考慮して、頭部伝達関数(HRTF)と通常呼ばれる関数によって記述され得る。
【0003】
この現象は、聴取者または聴取者の耳に対して特定の方向とは異なる方向に位置する音源によって、聴取者または聴取者の耳に対してこの特定の方向から受信されたように見える音声信号をエミュレートするために使用され得る。言い換えると、聴取者によって、即ち聴取者の耳内で受信されたときに、特定の方向から送信された音声信号の修正を記述するHRTFが決定され得る。特定の方向とは異なる方向から送信された後続の音声信号の特性を変更するためのフィルタを生成するためにこの伝達関数が使用され得る。それによって、受信された後続の音声信号が特定の方向から受信されたものとして聴取者に知覚される。さらに別の言い方をすれば、特定の場所及び/または特定の方向に位置する追加の音源が、合成され得る。ゆえに、固定位置のスピーカ、例えばヘッドフォンを通して音声信号を送信する前に、適切に生成されたフィルタが音声信号に適用されると、人間の脳は、ある空間位置、特に選択可能な空間位置を有するものとして音声信号を知覚し得る。
【0004】
聴取者に対して、より正確には聴取者の耳のそれぞれに対して可能なあらゆる方向についてそれぞれのHRTFを決定するためには、非常にコストと時間がかかる場合がある。それにより、聴取者または聴取者の耳及び音声信号が到来する方向の特徴である周波数応答またはインパルス応答を決定することは、特に困難である。加えて、実験室条件、例えば無響室で実行すると、妥当な時間及びコストの枠内で、特定の聴取者に対して限られた数の伝達関数のみが生成され得る。
【0005】
本発明は、パーソナライズされた音声信号伝達関数、例えばユーザの耳に関連付けられたHRTFについての周波数応答またはインパルス応答を、時間効率及び費用効果の高い方法で生成する問題を解決し、音声信号伝達関数のそれぞれが、ユーザの耳に対するそれぞれの音声信号方向に関連付けられている。
【発明の概要】
【課題を解決するための手段】
【0006】
多くの実施形態の1つによれば、パーソナライズされた音声信号伝達関数を生成するためのコンピュータ実施方法が提供され、方法は、音声受信手段によって、ユーザの耳または耳の中で音声信号を受信することと、受信した音声信号に基づいて、第1のデータを決定することであって、第1のデータが、ユーザの耳に関連付けられた第1の音声信号伝達関数を表す、決定することと、第1のデータに基づいて、第2のデータを決定することであって、第2のデータが、ユーザの耳に関連付けられた第2の音声信号伝達関数を表す、決定することと、を含む。
【0007】
第1の音声信号伝達関数及び第2の音声信号伝達関数は、第1のHRTF及び第2のHRTFについての周波数応答またはインパルス応答であってもよく、両方ともユーザの耳にそれぞれ関連付けられる。このようにして、例えば実験室環境において、第1の音声信号伝達関数のみが測定される必要がある。第2の音声信号伝達関数または複数のさらなる第2の音声信号伝達関数は、測定された第1の音声信号伝達関数に基づいて決定され得る。言い換えると、第1のデータは、第1の入力データであってもよく、第2のデータは、生成されたものであってもよく、または推論データであってもよい。
【0008】
第2の音声信号伝達関数は、音声信号または後続の音声信号を修正するのに適していてもよい。例えば、第1のHRTFまたは第2のHRTFを使用して、音声信号または後続の音声信号が、パーソナライズされた空間音声処理のために修正、即ちカスタマイズされてもよい。さらに、第1のHRTF及び/または第2のHRTFの一部のみ、例えば、ある方向、即ち角度または角度の組み合わせに対する周波数応答を使用して、カスタムイコライゼーションを作成するか、または音質を向上させるためにパーソナライズされたオーディオ応答をレンダリングし得る。
【0009】
代替として、または追加として、第1のHRTF及び/または第2のHRTFを情報として使用して、HRTF、特に第1のHRTFからのデバイス応答を明確にし、ANC(アクティブノイズキャンセレーション)、パススルー、または低音管理などの信号処理に、より的を絞らせる、及び/または効果的にするためにこの信号処理を強化し得る。
【0010】
一実施形態によれば、第1の音声信号伝達関数は、近接場の音声信号伝達関数を表し、及び/または方法は、ユーザの耳に対する近接場内で、音声送信手段から、特にユーザが装着するヘッドフォンから、音声信号を受信することをさらに含む。
【0011】
音声受信手段は、マイクロフォンであってもよい。マイクロフォンは、ユーザの耳の耳道に位置するように構成されてもよく、特に十分小さくてもよい。言い換えると、マイクロフォンは、耳道を音響的に遮断してもよい。マイクロフォン及びヘッドフォンは、互いに通信可能に連結されてもよく、またはそれぞれがコンピューティングデバイスもしくはサーバと通信可能に連結されてもよい。
【0012】
このようにして、ユーザが無響室などの実験室環境にいなくても、ユーザ自身によりマイクロフォン及びヘッドフォンを使用し得る。マイクロフォンが耳道に配置された後、ヘッドフォンまたはヘッドフォンの拡声器によって送信された任意の音声信号または基準音声信号をマイクロフォンが受信できるように、ユーザがヘッドフォンを着けてもよい。これらのステップが、ユーザの両耳に対して繰り返され得る。各耳について、マイクロフォンによって受信された音声信号から、それぞれの近接場音声信号伝達関数が抽出され得る。
【0013】
一実施形態によれば、第2の音声信号伝達関数は、遠方場または自由場の音声信号伝達関数を表す。
【0014】
一実施形態によれば、第2の音声信号伝達関数は、音声信号方向に関連付けられる。方法は、第3のデータを決定することであって、第3のデータが、音声信号方向を示し、第2のデータを決定することが、さらに第3のデータに基づく、決定することをさらに含む。言い換えると、第3のデータは、第2の入力データであってもよい。
【0015】
音声信号方向は、送信される音声信号、例えば音楽ファイルのメタデータによって示されてもよい。第2のデータがさらに第3のデータに基づいていると判断することにより、送信される音声信号を修正して、ユーザの耳に対して自由場の中のある方向からオーディオ信号が受信されているというユーザの印象を喚起し得る。このようにして、ユーザの耳に対して限られた数の場所に位置する限られた数の音声信号源、例えばユーザが装着するヘッドフォンが利用可能であるとき、ユーザの耳に対して異なる場所に位置する1つまたは複数の音声信号源をシミュレートまたは合成することによって、ユーザの音声または音楽の知覚がさらに改善され得る。ゆえに、「サラウンド音の知覚」は、限定された数の音源、例えばヘッドフォン内の2つの音源のみを使用して実現され得る。
【0016】
一実施形態によれば、方法は、音声信号を受信する前に、音声送信手段によって音声信号を送信すること、及び/または第2のデータに基づいて、音声信号及び/または後続の音声信号を修正するためのフィルタ関数を決定すること、及び/または音声送信手段によって、修正された音声信号及び/または修正された後続の音声信号を送信することをさらに含む。
【0017】
フィルタ関数は、有限インパルス応答(FIR)フィルタなどのフィルタであってもよい。フィルタ関数は、周波数ドメイン及び/または時間ドメインで音声信号を修正し得る。時間ドメインの音声信号は、時間から周波数へのドメイン変換または周波数から時間へのドメイン変換をそれぞれ用いて、周波数ドメインの音声信号、例えば音声信号の振幅及び/または位相スペクトルに変換され得、その逆も同様である。時間から周波数へのドメイン変換は、フーリエ変換またはウェーブレット変換であってもよい。周波数から時間への変換は、逆フーリエ変換または逆ウェーブレット変換であってもよい。フィルタ関数は、音声信号もしくは音声信号の一部の振幅スペクトル及び/または位相スペクトル、及び/またはその周波数から時間への変換、及び/または音声信号もしくは音声信号の一部が送信される時間遅延を修正し得る。
【0018】
一実施形態によれば、第2のデータは、人工知能ベースまたは機械学習ベースの回帰アルゴリズム、好ましくはニューラルネットワークモデルを使用して決定され、特に、第1のデータ及び/または第3のデータが、ニューラルネットワークモデルの入力として使用される。「人工知能ベースの回帰アルゴリズム」または「機械学習ベースの回帰アルゴリズム」という用語、及び「ニューラルネットワークモデル」という用語は、必要に応じて、本明細書では交換可能に使用される。
【0019】
ニューラルネットワークモデルを使用すると、パーソナライズされた音声信号伝達関数、例えば、特定のユーザの特定の耳に関連付けられた特定の方向に対する自由場HRTFの周波数応答が、この特定の耳に関連付けられた近接場HRTFデータの周波数応答に基づいて(複数の音声信号伝達関数から選択するのではなく)正確に生成され得る。このデータは、ユーザ自身が自宅で収集可能である。
【0020】
一実施形態によれば、方法は、訓練プロセスにおいて、回帰アルゴリズムを開始及び/または訓練するためのコンピュータ実施方法をさらに含む。既に取得されていない場合、訓練プロセスの実行によって、第2のデータを決定するために使用され得る訓練済みニューラルネットワークモデルが得られ得る。
【0021】
本発明の別の態様によれば、ニューラルネットワークモデルを開始及び/または訓練するためのコンピュータ実施方法が提供され、方法は、訓練データセットを決定することであって、訓練データセットが、複数の第1の訓練データ及び複数の第2の訓練データを含む、決定することと、ユーザの耳に関連付けられた入力の第1の音声信号伝達関数に基づいてユーザの耳に関連付けられた第2の音声信号伝達関数を出力するために、訓練データセットに基づいてニューラルネットワークモデルを開始すること及び/または訓練することと、を含み、複数の第1の訓練データのそれぞれが、訓練対象もしくは訓練ユーザの耳またはそれぞれの訓練ユーザの耳に関連付けられたそれぞれの第1の訓練音声信号伝達関数を表し、複数の第2の訓練データのそれぞれが、訓練ユーザの耳またはそれぞれの訓練ユーザの耳に関連付けられたそれぞれの第2の訓練音声信号伝達関数を表す。
【0022】
訓練対象は、訓練ユーザ、訓練モデル、訓練ダミーなどであってもよい。訓練対象及び訓練ユーザという用語は、本明細書では交換可能に使用される。訓練データセットは、無響室などの実験室環境で収集または決定され得る。複数の第1の訓練データ及び第2の訓練データのそれぞれが、特定の訓練ユーザの特定の耳に関連付けられ得る。訓練済みニューラルネットワークモデルが、第1の訓練データから第2の訓練データまたは第2の訓練データの近似を導出し、及び/またはその逆も同様であるように構成され得るように、訓練プロセスの間、ニューラルネットワークモデルは、第1の訓練データの特性を第2の訓練データの特性に割り当て得る。収集された訓練データセットは、ニューラルネットワークを訓練するために使用される訓練サブセット及び訓練済みニューラルネットワークモデルをテスト及び評価するために使用されるテストサブセットを含み得る。
【0023】
訓練プロセスの間にまだ使用されていない、例えば訓練データのテストサブセットに含まれる新たな第1の訓練データ及び第2の訓練データを使用して、モデルの品質または精度を評価し得る。新たな第1の訓練データは、モデルの入力として使用されてもよく、新たな第2の訓練データは、エラー、例えばエラー値を決定するために、モデルの出力との比較に使用されてもよい。
【0024】
一実施形態によれば、それぞれの第1の訓練音声信号伝達関数のそれぞれが、それぞれの近接場音声信号伝達関数を表し、特に、入力の第1の音声信号伝達関数は、近接場の音声信号伝達関数を表す。
【0025】
第1の訓練データは、訓練ユーザの耳道内またはその近くに位置するマイクロフォンによって受信された音声信号に基づいて、決定、例えば収集または生成され得る。マイクロフォンによって受信された音声は、訓練ユーザの耳の近くにある音声送信手段によって、例えば、訓練ユーザが着用するヘッドフォンによって送信され得る。
【0026】
一実施形態によれば、それぞれの第2の訓練音声信号伝達関数のそれぞれが、それぞれの遠方場または自由場音声信号伝達関数を表し、特に、出力の第2の音声信号伝達関数は、遠方場または自由場音声信号伝達関数を表す。
【0027】
第2の訓練データは、例えば、訓練ユーザの耳道内またはその近くに位置するマイクロフォンによって受信された音声信号に基づいて、決定、例えば収集または生成され得る。マイクロフォンによって受信された音声は、訓練ユーザまたは訓練対象の遠方場または自由場内に位置する他の音声送信手段によって送信され得る。例えば、それぞれの第2の訓練音声信号は、訓練ユーザの耳に対して自由場または遠方場内のそれぞれの方向に位置する複数の音声送信手段のそれぞれによって送信される。例えば、訓練ユーザは、これらの音声送信手段によって取り囲まれている。音声送信手段は、無響室のセットアップの一部であってもよい。言い換えると、音声送信手段によって送信された音声信号は、訓練ユーザの耳に反射されずに受信される。
【0028】
一実施形態によれば、それぞれの第2の訓練音声信号伝達関数のそれぞれが、訓練ユーザの耳に対する訓練音声信号方向もしくは訓練ユーザの耳に対するそれぞれの訓練音声信号方向に関連付けられ、及び/または訓練データセットが、第3の訓練データをさらに含み、第3の訓練データが、訓練音声信号方向もしくはそれぞれの訓練音声信号方向を示し、及び/または出力の第2の音声信号伝達関数が、ユーザの耳に対する入力音声信号方向に関連付けられ、特に、第2の音声信号伝達関数を出力するためにニューラルネットワークモデルを開始及び/または訓練することが、入力音声信号方向にさらに基づく。言い換えると、モデルは、音声信号方向、即ち出力音声信号方向に関連付けられた出力の第2の音声信号伝達関数を出力するように訓練され、この音声信号方向はモデルの入力として使用される。
【0029】
さらに、訓練音声信号方向は、第2のまたは出力降雨音声信号方向であってもよい。それぞれの第1の訓練音声信号伝達関数のそれぞれが、訓練ユーザの耳に対する第1の訓練音声信号方向または訓練ユーザの耳に対するそれぞれの第1の訓練音声信号方向に関連付けられてもよく、及び/または第3の訓練データは、第1の訓練音声信号方向及び第2の訓練音声信号方向、もしくはそれぞれの第1の訓練音声信号方向及び第2の訓練音声信号方向を示し、及び/または第2の音声信号伝達関数を出力するために、ニューラルネットワークモデルを開始及び/または訓練することが、モデルの入力として第1の音声信号方向及び第2の音声信号方向にさらに基づく。
【0030】
第3の訓練データは、第2の訓練データごとに、音声信号がユーザの耳に対してどの方向から受信されたかを示し得る。このようにして、ニューラルネットワークモデルは、受信した訓練音声信号のプロパティ、または訓練音声信号の周波数応答もしくはインパルス応答を、訓練音声信号が受信された方向に割り当て得る。
【0031】
それにより、訓練済みニューラルネットワークモデルは、近接場周波数応答を表すデータ及び特定方向を表すデータを含む入力データに基づいて、特定の方向に関連する遠方場または自由場周波数応答を出力するように構成され得る。
【0032】
一実施形態によれば、ニューラルネットワークモデルを開始及び/または訓練するためのコンピュータ実施方法は、訓練ユーザの耳に対して近接場の中で、第1の音声送信手段から、特に訓練ユーザが装着するヘッドフォンから、訓練ユーザの耳の中もしくは耳で複数の第1の訓練音声信号を受信すること、及び受信した複数の第1の訓練音声信号のそれぞれに基づいて、それぞれの第1の訓練音声信号伝達関数を決定すること、及び/または訓練ユーザの耳に対して遠方場もしくは自由場の中で、それぞれの第2の音声送信手段から、訓練ユーザの耳の中または耳で複数の第2の訓練音声信号を受信すること、及び受信した複数の第2の訓練音声信号のそれぞれに基づいて、それぞれの第2の訓練音声信号伝達関数を決定すること、をさらに含み、特に、訓練音声信号方向またはそれぞれの訓練音声信号方向が、訓練ユーザの耳に対して訓練ユーザの耳または耳の中でそれぞれの第2の訓練音声信号が受信される方向、及び/またはそれぞれの第2の音声送信手段が訓練ユーザの耳に対して位置する方向を表す。
【0033】
一実施形態によれば、第3の訓練データは、訓練音声信号方向、即ち出力訓練音声信号方向、即ち第2の訓練データまたはそれぞれの第2の訓練音声信号伝達関数に関連付けられた訓練音声信号方向を示すベクトルデータを含み、第3の訓練データは、第2のベクトルデータを含み、第2のベクトルデータは、第1のベクトルデータに依存し、特に第1のベクトルデータから導出される。
【0034】
第3の訓練データは、音声信号方向ごとにそれぞれのベクトルデータを含むそれぞれのベクトルを含み得る。第1のベクトル及び第2のベクトルは、デカルトまたは球の第1のベクトル及び第2のベクトルをそれぞれ表し得る。第2のベクトルデータは、第1のベクトルデータを拡張するために使用され得る。例えば、第1のベクトル及び第2のベクトルは、3次元デカルトの第1のベクトル及び第2のベクトルを表してもよく、それぞれが3つのベクトルエントリを有する。第2のベクトルデータは、第1のベクトルを3次元ベクトルから6次元ベクトルに転換するために使用され得る。第1のベクトルは、第2のベクトルに対して平行または逆平行であり得る。第2のベクトルのエントリは、第1のベクトルのエントリの絶対値及び/または因数分解された値を表し得る。代替として、また追加として、第3のデータは、第1のベクトルの代わりにゼロベクトル、特に第1のベクトルと同じ次元のゼロベクトルを含んでもよい。
【0035】
1つまたは複数の第2のベクトルデータを導入することにより、例えば1つまたは複数の拡張ベクトルを導入することにより、方向ベクトルベースのデータフロー並列化が作成される。それにより、1つまたは複数の並列層またはそのセクションが、ニューラルネットワークモデルアーキテクチャで使用され得る。特に、訓練プロセスにおいて、モデルは、拡張ベクトル、即ち異なる方向データに基づいて、異なるモデル出力の比較によって訓練され得る。これにより、モデルが強化され、例えば、モデルのより良い収束が達成され得る。
【0036】
本発明の別の態様によれば、パーソナライズされた音声信号伝達関数を生成するためのコンピュータ実施方法、及び/またはニューラルネットワークモデルを開始及び/または訓練するためのコンピュータ実施方法を実行するための手段を含むデータ処理システムが提供される。
【0037】
本発明の別の態様によれば、データ処理システムによって実行されると、パーソナライズされた音声信号伝達関数を生成するためのコンピュータ実施方法及び/またはニューラルネットワークモデルを開始及び/または訓練するためのコンピュータ実施方法をデータ処理システムに実行させる命令を含むコンピュータ可読記憶媒体が提供される。
【0038】
本発明は、添付の図面を参照して非限定的な実施形態の以下の説明を読むことから、より良く理解され得る。
【0039】
本開示の特徴、目的、及び利点は、同様の参照番号が類似の要素を指す図面と併せて解釈すると、以下に述べる詳細な説明からより明らかになるであろう。
【図面の簡単な説明】
【0040】
【
図1】パーソナライズされた音声信号伝達関数を生成するための方法のフローチャートを示す。
【
図2】ニューラルネットワークモデルを開始及び/または訓練するための方法のフローチャートを示す。
【
図3】パーソナライズされた音声信号伝達関数を生成するように構成されたデータ処理システムの構造図を示す。
【
図4】ニューラルネットワークモデルを開始及び/または訓練するように構成されたデータ処理システムの構造図を示す。
【発明を実施するための形態】
【0041】
図1は、パーソナライズされた音声信号伝達関数を生成するための方法100を説明するフローチャートを示す。任意選択のステップは、破線で示されている。方法100は、少なくとも一部コンピュータで実施される。方法100は、ステップ110において、音声信号を送信することによって開始し得る。音声信号は既知の音声信号であり、特に音声信号の周波数スペクトルは既知である。音声信号は、いくつかの、特に音声信号周波数の連続分布を表す基準掃引、例えば対数正弦掃引であってもよい。
【0042】
音声信号は、ユーザの耳の近く、特にユーザの耳の近接場の中に位置する音源によって送信され得る。例えば、音声信号は、音源、例えば拡声器、またはユーザが装着するヘッドフォンによって送信される。特に、音源は、ユーザの耳に対して特定の距離及び特定の方向に位置し得る。音源は、
図3に示されるデータ処理システム300の音声送信手段310であってもよい。
【0043】
ステップ120では、ステップ110で送信された音声信号が、ユーザの耳または耳の中で受信される。音声信号は、ユーザの耳、例えばユーザの耳の外耳道、より具体的にはユーザの耳の鼓膜、外耳道、または耳介の近くに配置されたマイクロフォンなどの音声受信手段によって受信され得る。代替として、音声受信手段は、ユーザの耳または耳の近くに配置されてもよい。例えば、音声受信手段は、ユーザが装着するヘッドフォンに配置されるか、またはヘッドフォンに含まれるマイクロフォンであってもよい。音声信号は、ユーザの耳に対して第1の音声信号方向から受信され得る。音声受信手段は、
図3に示されるデータ処理システム300の音声受信手段320であってもよい。
【0044】
ステップ130において、受信した音声信号に基づいて、ユーザの耳に関連付けられた第1の音声信号伝達関数を表す第1のデータが決定される。代替として、第1のデータは、異なる方法で、即ち、方法のステップ110及び120の実行の有無に関わらず、決定されてもよい。例えば、第1のデータは、外部コンポーネントから受信されてもよい。
【0045】
概して、本明細書で使用される「音声信号伝達関数」という用語は、周波数ドメインの伝達関数または時間ドメインのインパルス応答を説明し得る。時間ドメインにおける伝達関数は、インパルス応答、特に頭部インパルス応答(HRIR)であってもよい。周波数ドメインにおける伝達関数は、周波数応答、特に頭部周波数応答(HRFR)であってもよい。本明細書で使用される「周波数応答」という用語は、振幅応答、位相応答、または振幅応答及び位相応答の両方の組み合わせを説明し得る。以下において、「周波数応答」という用語が使用されるときは、周波数応答またはインパルス応答を意味する。概して、周波数ドメインにおけるHRIRの表現としてのHRTFの周波数応答は、時間から周波数への変換をHRIRに適用することによって得られ得る。
【0046】
概して、音声信号伝達関数は、送信された音声信号と受信された音声信号とを比較することによって決定、例えば抽出され得る。言い換えると、音声信号伝達関数は、送信または受信された音声信号とは独立していてもよく、即ち区別されてもよい。その代わりに、音声信号伝達関数は、音声信号が受信されるユーザの耳または耳の中の特徴であってもよい。
【0047】
ステップ130を再び参照すると、第1の音声信号伝達関数は、受信した音声信号、即ち、ステップ120において音声受信手段によって受信された音声信号から抽出され得る。伝達関数の抽出は、ステップ120で音声受信手段によって受信された音声信号と、ステップ120で音声送信手段によって送信された音声信号との比較にさらに基づき得る。比較は、ある周波数範囲内、特に基準掃引によってカバーされる周波数範囲内で実行され得る。
【0048】
上述のように、音声信号は、ステップ110において、ユーザの耳に対して近接場内で送信された。したがって、第1の音声信号伝達関数は、近接場音声信号伝達関数、即ち近接場周波数応答である。概して、ユーザの耳に関連付けられた音声信号伝達関数は、音声送信手段とユーザの耳との間の距離に依存し得る。言い換えると、ユーザの耳に関連付けられた音声信号伝達関数は、音声信号がユーザの耳に対して近接場、遠方場、または(近似)自由場内に位置する音源から送信されたかどうかに依存し得る。
【0049】
ユーザの耳に対して近接場内に位置する音源は、ユーザの耳に比較的接近して、または近くに位置し得る。ユーザの耳に対して遠方場内に位置する音源は、ユーザの耳から比較的遠く離れて位置し得る。自由場(または近似自由場)内に位置する音源は、音の反射が発生しない(またはほとんど/ほぼない、もしくは少なくとも少ないか比較的少ない)遠方場内に位置する音声信号であってもよい。「自由場」という用語が使用されるとき、自由場または近似自由場を意味する。必要に応じて、「自由場」、「近似自由場」、及び「遠方場」という用語が、本明細書では交換可能に使用され得る。ユーザの耳に対して近接場/自由場内に位置する音源は、音源に対して近接場/自由場内に位置するユーザの耳に対応する。
【0050】
加えて、ユーザの耳に関連付けられた音声信号伝達関数は、ユーザの耳に対する近接場、遠方場、または自由場内の方向に依存し得る。ステップ110において近接場内で送信された音声信号は、ユーザの耳に対して、または基準軸に対して、それぞれゼロ度(0°)の仰角及び方位角で、または近似的にその角度で送信され得る。基準軸は、例えば、それぞれユーザの耳の1つの中心または鼓膜である基準点を表す2つの点を含む。代替として、ステップ110において近接場内で送信された音声信号は、ゼロ度とは異なる仰角及び/または方位角で、または近似的にその角度で送信され得る。
【0051】
第1のデータ、即ちユーザの耳に関連付けられた第1の音声信号伝達関数または第1の周波数応答は、計算手段、例えば、データ処理システム300の計算手段330によって決定されてもよく、計算手段330は、音声送信手段310及び/または音声受信手段320と通信可能に連結され得る。
【0052】
ステップ150では、決定された第1のデータに基づいて、第2のデータが決定される。第2のデータは、計算手段330によって、特にコンピュータ手段330のニューラルネットワークモジュール331によって決定され、特に生成されてもよい。第2のデータは、ユーザの耳に関連付けられた第2の音声信号伝達関数を表す。第2の音声信号伝達関数は、第1の音声信号伝達関数と異なっていてもよい。第2の音声信号伝達関数は、ユーザの耳に関連付けられた、遠方場もしくは自由場音声信号伝達関数、または自由場音声信号伝達の近似であってもよい。言い換えると、ステップ150では、ユーザの耳に関連付けられた近接場周波数応答に基づいて、ユーザの耳に関連付けられた遠方場または自由場の周波数応答が決定される。この決定は、
図2を参照して説明したように、訓練方法200を使用して訓練され得るニューラルネットワークモデルを使用して実行され得る。
【0053】
第2の音声信号伝達関数は、ステップ120で音声信号が受信された方向とは異なるユーザの耳に対する音声信号方向にさらに関連付けられてもよい。音声信号方向は、計算手段、例えば、
図3に示される計算手段330によって生成もしくは決定または事前決定され得る。
【0054】
例えば、音声信号方向は、それぞれ0°の仰角及び方位角、またはそのうちの少なくとも1つが0°とは異なる仰角及び方位角を表す。さらに、第2の音声信号伝達関数は、遠方場、自由場、または近似自由場の音声信号伝達関数であってもよい。音声信号方向に関連付けられた第2のデータ、即ち、第2の音声信号伝達関数は、第3のデータに基づいて決定されてもよく、第3のデータは、音声信号方向を示している。音声信号方向を示す第3のデータは、ステップ150における第2のデータの決定の前に、事前決定され得るか、または任意選択でステップ140において決定され得る。
【0055】
ステップ150において音声信号方向に関連付けられた第2のデータを決定した後、後続の第2のデータは、さらなる、またはその後に決定される第3のデータ及び決定済みの第1のデータ、即ち決定済みの第1の音声信号伝達関数に基づいて決定され得る。言い換えると、ステップ130で決定された第1のデータに基づいて第2のデータのセットが決定されてもよく、第2のデータのセットは、複数のそれぞれの第2のデータを含む。それぞれの第2のデータは、それぞれの第3のデータにそれぞれ関連付けられ得る。それぞれの第3のデータは、それぞれの、特にそれぞれの異なる音声信号方向をそれぞれ示し得る。別の言い方をすると、ステップ140及び150を繰り返すことによって第2のデータのセットが決定されてもよく、各繰り返しにおいて、異なる第2のデータ及び/または第3のデータが決定される。例えば、各繰り返しにおいて、異なる第3のデータが、例えばユーザによって決定される。異なる第3のデータの決定は、次いで異なる第2のデータの決定をもたらす。
【0056】
代替として、ステップ150で音声信号方向に関連付けられた第2のデータを決定した後、ステップ150で最初に決定された第2のデータに基づいて、後続の第2のデータが決定されてもよい。この後続の第2のデータはそれぞれ、それぞれの異なる音声信号方向に関連付けられ得る。この決定は、例えば、それに応じて訓練済みのニューラルネットワークモデルによって実行され得る。ニューラルネットワークモデル及びニューラルネットワークモデルの訓練プロセスは、以下に説明されるニューラルネットワークモデル及び訓練プロセスと同様に構造化または訓練されてもよい。例えば、遠方場または自由場音声信号伝達関数は、第2の遠方場または自由場音声信号伝達関数であり、(訓練する)近接場音声信号伝達関数は、(訓練する)第1の遠方場または自由場音声信号伝達関数によって置換される。
【0057】
任意選択で、ステップ160において、フィルタ関数、特にフィルタ、例えばFIR(有限インパルス応答)フィルタが決定され、特に生成される。フィルタ関数は、第2のデータに基づいて、特に第2のデータ及び第1のデータに基づいて決定される。言い換えると、フィルタ関数は、生成された遠方場または自由場の周波数応答及び決定された近接場の周波数応答に基づいて決定され得る。フィルタ関数は、ステップ110で送信された音声信号、または任意の他の、例えば後続の音声信号に適用され得る。フィルタ関数を音声信号に適用すると、特徴、特に音声信号の周波数スペクトルまたは時間のインパルス分布が変更される。変更された音声信号を送信するとき、修正された変更後の音声信号(上記で説明したようにユーザの身体によって修正された)が、ユーザの耳で受信される。受信された、修正された変更後の音声信号は、音声信号が、第2の音声信号伝達関数に関連付けられた音声信号方向に位置し、かつユーザの耳に対して自由場内に位置する音源から受信されるという印象をユーザに喚起する。言い換えると、修正された変更後の音声信号は、この音声信号方向に、かつ自由場内に位置する別の音源から受信される、ユーザの耳で受信した別の修正された音声信号に対応し得るか、またはほぼ対応し得る。言い換えると、フィルタ関数を音声信号に適用することにより、上述したようなユーザの身体による音声信号の修正がエミュレートまたは仮想化され、それによって、耳または耳の一部によって(のみ)修正される音声信号が、体の他の部分によって修正され、かつ特定の方向から受信されていると認識される。
【0058】
ステップ170では、修正された音声信号または修正された後続の音声信号が、送信され得る。修正された音声信号または修正された後続の音声信号は、音声信号が本来受信された音源、例えば、ユーザが装着するヘッドフォン、または
図3に示されるデータ処理システム300の音声送信手段310によって送信され得る。
【0059】
方法100または方法100の一部、特にステップ130及び150は、ユーザの第1の耳及びユーザの第2の耳の両方に対して実行され得る。このようにして、ユーザの第1の耳及び第2の耳の1つにそれぞれ関連付けられた第2のデータの2つのセットが、それぞれ取得され得る。方法100の前に、第2のデータを決定するためにステップ150で使用されるニューラルネットワークモデルは、ニューラルネットワークモデルを開始及び/または訓練するための方法の間に開始及び/または訓練される。
【0060】
図2は、ニューラルネットワークモデルを開始及び/または訓練するための方法200のフローチャートを示す。任意選択のステップは、破線で示されている。ニューラルネットワークモデルは、ニューラルネットワークモデルの第1の入力に基づいて、特定のユーザの耳に関連付けられた、生成された音声信号伝達関数を出力するように開始及び/または訓練される。第1の入力は、特定のユーザの耳に関連付けられた入力音声信号伝達関数、例えば、方法100のステップ130で決定された第1のデータである。方法200は、
図4に示されるデータ処理システム400によって実行され得る。
【0061】
より具体的には、入力音声信号伝達関数は、近接場音声信号伝達関数を表し得る。入力音声信号伝達関数は、特定のユーザの耳の中または耳で受信された特定の音声信号、例えば、方法100のステップ120で受信された音声信号に基づいて決定され得る。生成された音声信号伝達関数は、同一ユーザの耳に関連付けられた遠方場、自由場、または近似自由場の音声信号伝達関数を表し得る。
【0062】
方法200は、ステップ250において開始する。ステップ250において、訓練データセットが決定される。訓練データセットは、複数の第1の訓練データ及び複数の第2の訓練データを含む。ステップ260において、訓練データセットに基づいて、ニューラルネットワークモデルが、開始及び/または訓練されて、ニューラルネットワークモデルの第1の入力に少なくとも基づいて、生成された音声信号伝達関数を出力する。方法ステップ250及び260は、データ処理システム400の計算手段440によって、特にニューラルネットワーク開始/訓練モジュール441によって実行され得る。例えば、基本的なフィードフォワードニューラルネットワークが、初期テンプレートとして使用され得る。
【0063】
複数の第1の訓練データは、第1の訓練データのセットを含み、第1の訓練データのそれぞれが、訓練ユーザの耳に関連付けられたそれぞれの第1の訓練音声信号伝達関数を表す。第1の訓練音声信号伝達関数のそれぞれは、同一の訓練ユーザの耳に関連付けられてもよく、それぞれの異なる訓練ユーザの耳に関連付けられてもよい。例えば、それぞれの第1の訓練音声信号伝達関数は、それぞれの近接場訓練音声信号伝達関数であってもよく、即ち、それぞれの第1の訓練音声信号伝達関数は、それぞれの周波数応答またはインパルス応答、特に近接場周波数応答またはインパルス応答をそれぞれ表し得る。第1の訓練データは、実験室環境で生成され得る。
【0064】
複数の第2の訓練データは、第2の訓練データのセットを含み、第2の訓練データのそれぞれが、対応する第1の訓練音声信号伝達関数と同一の訓練ユーザまたは同一のそれぞれの訓練ユーザの耳に関連付けられた、それぞれの第2の訓練音声信号伝達関数を表す。それぞれの第2の訓練音声信号伝達関数のそれぞれは、それぞれの遠方場、自由場、または近似自由場の音声信号伝達関数を表し得る。同様に、第2の訓練データは、実験室環境で決定され得る。
【0065】
それぞれの第2の訓練音声信号伝達関数のそれぞれは、訓練ユーザの耳に対する単一の訓練音声信号方向、または訓練ユーザの耳に対するそれぞれの訓練音声信号方向に関連付けられ得る。訓練データセットは、複数の第3の訓練データをさらに含み得る。第3の訓練データは、訓練音声信号方向またはそれぞれの訓練音声信号方向を示し得る。ニューラルネットワークモデルの開始及び/または生成することは、第3の訓練データにさらに基づき得る。
【0066】
生成された音声信号伝達関数は、特定のユーザの耳に対する生成された音声信号方向に関連付けられ得る。生成された音声信号方向は、特定のユーザによって事前決定され、もしくは示され得るか、または計算手段、例えば、データ処理システム300の計算手段330によって示され得る。計算手段は、特定のユーザが装着するヘッドフォンと通信可能に連結され得るか、またはヘッドフォンに含まれ得る。代替として、生成された方向は、音声送信手段、例えばデータ処理システム300の音声送信手段310、または特定のユーザが装着するヘッドフォンに含まれる拡声器を介して送信される音声信号によって示され得る。送信される音声信号は、計算手段、特に計算手段に含まれる記憶装置332によって記憶され、及び/または外部構成要素から計算手段によって受信されてもよい。さらに、第1の、第2の、及び/または第3のデータ及び/またはニューラルネットワークモデル、ならびにニューラルネットワークアーキテクチャ及び訓練ツールなどの任意の他の必要なデータが、記憶モジュール332に記憶され得る。加えて、ニューラルネットワーク訓練プロセス、第1の及び第2の訓練信号、及び/または第1の、第2の及び第3の訓練データは、計算手段430によって、特に記憶モジュール432によって記憶され得る。
【0067】
生成された音声信号方向は、ニューラルネットワークモデルの第2の入力であってもよい。言い換えると、ニューラルネットワークモデルは、特定のユーザの耳に対する入力生成された音声信号方向に基づいて生成された音声信号伝達関数を出力するように開始及び/または訓練される。さらに別の言い方をすれば、ニューラルネットワークモデルは、生成されるべき出力音声信号伝達関数に関連付けられた方向に基づいて、生成された音声信号伝達を出力するように開始及び/または訓練される。この方向は、例えば第3のデータに含まれるモデルに対する入力として使用される。
【0068】
訓練データセットは、
図2に示されるように、方法ステップ250及び260に先行する方法ステップ210から240によって決定または生成され得る。ステップ210において、第1の訓練音声信号が送信される。特に、複数の第1の訓練音声信号が送信される。第1の訓練音声信号は、第1の音声送信手段、例えばデータ処理システム400の第1の音声送信手段410によって送信され得る。第1の音声送信手段は、訓練ユーザの耳に対して近接場内に位置する。第1の音声送信手段は、訓練ユーザの耳に対して第1の訓練方向に位置する。第1の訓練方向は、固定及び/または事前決定され得る。第1の訓練方向は、訓練ユーザの耳に対して、または訓練基準軸に対して、ゼロ度(0°)の仰角及び方位角をそれぞれ表し、またはそれによって記述されてもよく、訓練基準軸は、例えば、基準点、訓練ユーザの耳の1つの中心または鼓膜をそれぞれ表す2つの点を含む。
【0069】
第1の音声送信手段は、特に実験室環境、例えば無響室において訓練ユーザが装着するヘッドフォンに位置する拡声器であってもよい。ステップ230において、第1の訓練音声信号は、音声受信手段または訓練音声受信手段、例えば、訓練ユーザの耳の中または耳に位置する、特に、ユーザの耳の鼓膜、外耳道、または耳介の近くに位置する、データ処理システム400の音声受信手段430を介して受信され得る。音声受信手段または訓練音声受信手段は、マイクロフォンであってもよい。
【0070】
ステップ220において、第2の訓練音声信号、特に複数の第2の訓練音声信号が送信され得る。第2の訓練音声信号は、1つまたは複数の第2の音声送信手段または第2の訓練音声送信手段、例えば、データ処理システム400の第2の音声送信手段420によって送信され得る。第2の音声送信手段は、訓練ユーザの耳に対して、遠方場または自由場または近似自由場内に位置し得る。第2の音声送信手段は、訓練ユーザの周囲、特に、例えば無響室などの実験室環境内に配置された1つまたは複数の拡声器であってもよい。
【0071】
1つまたは複数の第2の音声送信手段は、訓練ユーザの耳に対して1つまたは複数の第2の訓練方向に位置し得る。第2の訓練方向は、固定及び/または事前決定され、または調整可能であり得る。第2の訓練方向の1つは、訓練ユーザの耳に対して、または基準軸に対して、ゼロ度(0°)の仰角及び方位角によってそれぞれ記述されてもよく、基準軸は、上記の通り、例えば、基準点、訓練ユーザの耳の1つの中心または鼓膜をそれぞれ表す2つの点を含む。第2の訓練方向のうちの少なくとも1つは、ゼロ度(0°)とは異なる仰角及び/または方位角をそれぞれ表し、またはそれによって記述されてもよい。第2の訓練方向は、仰角範囲及び/または方位角範囲、特にそれぞれ0度から360度の間を徐々にカバーし得る。
【0072】
ステップ240において、第2の訓練音声信号は、音声受信手段または訓練音声受信手段、例えば、訓練ユーザの耳の中または耳に、特にユーザの耳の鼓膜、外耳道、または耳介の近くに位置する、データ処理システム400の音声受信手段430によって受信される。
【0073】
受信した第1の訓練音声信号または受信した複数の第1の訓練音声信号に基づいて、ステップ250において第1の訓練データが決定され得る。受信した第2の訓練音声信号または受信した複数の第2の訓練音声信号に基づいて、ステップ250において、第2の訓練データ及び/または第3の訓練データが決定され得る。代替として、第3の訓練データは、訓練システム、例えばデータ処理システム400、特に計算手段440またはニューラルネットワーク開始/訓練モジュール441によって別個に決定されてもよく、例えば、訓練システムに示されてもよい。
【0074】
第3の訓練データは、第1の訓練音声信号方向または第2の訓練音声信号方向を示す第1のベクトルデータを含み得る。例えば、第1のベクトルデータは、第1の訓練音声信号方向または第2の訓練音声信号方向のそれぞれの第1の球またはデカルトベクトルを表し得る。第1のベクトルデータは、第1のn次元ベクトルを記述し得る。代替として、または追加として、第3の訓練データは、第2のベクトルデータを含んでもよく、特に、第2のベクトルデータは、第1のベクトルデータに依存するか、または第1のベクトルデータから導出される。第2のベクトルデータは、第2のm次元ベクトルを記述し得る。より具体的には、第1のベクトルは、正及び/または負のベクトルエントリを有し得る。第2のベクトルは、正のベクトルエントリのみ、または非負のベクトルエントリのみを有し得る。例えば、第2のベクトルのベクトルエントリは、第1のベクトルの対応するベクトルエントリの絶対値であってもよい。追加として、または代替として、第2のベクトルのベクトルエントリは、第1のベクトルの対応するベクトルエントリに係数を乗じたもの、またはそれぞれの係数をそれぞれ乗じたものを表してもよい。第1のベクトルデータ及び第2のベクトルデータは、(m+n)次元のベクトルを記述する結合されたベクトルデータに含まれ得る。代替として、第2のベクトルデータ及びゼロベクトルは、組み合わされた(m+n)ベクトルに含まれ得る。これにより、訓練プロセスの間のニューラルネットワークモデルの収束プロセスが強化され得る。
【0075】
ニューラルネットワークモデルのためのさまざまな最適化アルゴリズム、例えば、Adamオプティマイザが使用され得る。開始及び/または訓練済みニューラルネットワークモデルは、評価訓練データセットを使用して評価され得る。評価訓練データセットは、訓練プロセスにまだ含まれていない第1の、第2の、及び第3の訓練データを含み得る。特に、評価訓練データセットの第1の訓練データ及び第3の訓練データは、開始された及び/または訓練済みニューラルネットワークモデルの入力として使用され得る。ニューラルネットワークモデルの対応する出力は、評価訓練データセットの第2の訓練データと比較され得る。比較に基づいて、ニューラルネットワークモデルのエラー値が決定され得る。決定されたエラー値は、エラー閾値と比較され得る。エラー閾値との比較に基づいて、訓練モデル、例えばデータ処理システム400のニューラルネットワーク開始/訓練モジュール431は、訓練プロセスを継続するか、または終了するかを決定し得る。例えば、エラー値がエラー閾値を超える場合、訓練プロセスは継続され、それ以外の場合、即ち、エラー値がエラー閾値を下回る場合、訓練プロセスは終了され得る。
【0076】
図3は、方法100を実行するように構成されたデータ処理システムを示す。データ処理システム300は、音声送信手段310、音声受信手段320、及び計算手段330を含む。計算手段330は、ニューラルネットワークモジュール331及び記憶モジュール332を含む。
【0077】
音声送信手段310は、ユーザの耳に対して近接場内に、即ちユーザの耳の近くに位置するように構成される。音声送信手段310は、ユーザが装着するヘッドフォン内に配置されるか、またはヘッドフォンに含まれる拡声器であり得る。
【0078】
音声受信手段320は、ユーザの耳に対して近接場内に、特にユーザの耳内に、即ちユーザの外耳道内に位置するように構成される。より具体的には、音声受信手段は、ユーザの耳の耳介の近くに、好ましくはユーザの耳の鼓膜の近くに位置するように、または配置されるように構成される。代替として、音声受信手段は、ユーザの耳または耳の近くに配置されてもよい。音声受信手段320は、マイクロフォンであってもよい。
【0079】
音声受信手段320は、音声送信手段、例えばユーザが装着するヘッドフォンとは別個であってもよく、または音声送信手段に含まれてもよい。コンピュータ手段330は、音声送信手段とは別個であってもよく、または音声送信手段に含まれてもよい。音声送信手段310及び音声受信手段320は、例えばサーバ340を介して、例えば有線接続及び/または無線接続を介して、計算手段330に通信可能に連結される。同様に、音声送信手段310は、直接及び/またはサーバ340を介して、音声受信手段320に通信可能に連結され得る。
【0080】
音声送信手段によって送信される音声信号は、音声送信手段310と計算手段330との間で通信される。音声受信手段320によって受信された音声信号は、音声受信手段320と計算手段330との間で通信される。
【0081】
図4は、方法200を実行するように構成されたデータ処理システム400を示す。データ処理システム400は、第1の音声送信手段410、第2の音声送信手段450、音声受信手段420、及び計算手段430を含む。計算手段430は、ニューラルネットワーク開始/訓練モジュール431及び記憶モジュール432を含む。
【0082】
第1の音声送信手段410は、データ処理システム300の音声送信手段310と同等または類似であり得る。第1の音声送信手段410は、ユーザの耳に対して近接場内に、即ち、ユーザの耳の近くに位置するように構成される。第1の音声送信手段410は、ユーザが装着するヘッドフォン内に配置されるかまたはヘッドフォンに含まれる、拡声器であり得る。
【0083】
第2の音声送信手段450は、遠方場内、好ましくはユーザの耳に対して自由場または近似自由場内に位置するように構成される。第2の音声送信手段450は、例えば、無響室などの実験室環境において、ユーザの周りに配置された1つまたは複数の拡声器であり得る。
【0084】
音声受信手段420は、データ処理システム300の音声受信手段320と同等または類似であり得る。これらの音声受信手段420は、ユーザの耳に対して近接場内に、特にユーザの耳の中に、即ちユーザの外耳道内に位置するように構成される。より具体的には、音声受信手段は、ユーザの耳の耳介の近くに、好ましくはユーザの耳の鼓膜の近くに位置するように、または配置されるように構成される。代替として、音声受信手段は、ユーザの耳または耳の近くに配置されてもよい。音声受信手段420は、マイクロフォンであってもよい。
【0085】
第1の音声送信手段410及び第2の音声送信手段450ならびに音声受信手段420は、例えばサーバ440を介して、例えば有線接続及び/または無線接続を介して、計算手段430に通信可能に連結される。同様に、第1の音声送信手段410及び第2の音声送信手段450及び/または音声受信手段420はそれぞれ、データ処理システム400の他の構成要素の少なくとも1つに直接及び/または間接的に、例えば、サーバ440を介して通信可能に連結され得る。
【国際調査報告】