IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ハーマン インターナショナル インダストリーズ インコーポレイテッドの特許一覧

特表2024-501616パーソナライズされた頭部伝達関数を決定する方法
<>
  • 特表-パーソナライズされた頭部伝達関数を決定する方法 図1
  • 特表-パーソナライズされた頭部伝達関数を決定する方法 図2
  • 特表-パーソナライズされた頭部伝達関数を決定する方法 図3
  • 特表-パーソナライズされた頭部伝達関数を決定する方法 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-01-15
(54)【発明の名称】パーソナライズされた頭部伝達関数を決定する方法
(51)【国際特許分類】
   G10K 15/00 20060101AFI20240105BHJP
   G10L 25/30 20130101ALI20240105BHJP
【FI】
G10K15/00 L
G10L25/30
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023530611
(86)(22)【出願日】2021-12-30
(85)【翻訳文提出日】2023-05-19
(86)【国際出願番号】 US2021065622
(87)【国際公開番号】W WO2022147205
(87)【国際公開日】2022-07-07
(31)【優先権主張番号】2020144244
(32)【優先日】2020-12-31
(33)【優先権主張国・地域又は機関】RU
(81)【指定国・地域】
(71)【出願人】
【識別番号】592051453
【氏名又は名称】ハーマン インターナショナル インダストリーズ インコーポレイテッド
(74)【代理人】
【識別番号】100078282
【弁理士】
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【弁理士】
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【弁理士】
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【弁理士】
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【弁護士】
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】エピシン, アンドレイ イゴレヴィチ
(72)【発明者】
【氏名】フィルチェンコバ, アナスタシア ミハイロヴナ
(72)【発明者】
【氏名】クレシュニン, ミハイル セルゲーヴィチ
(72)【発明者】
【氏名】ライオンズ, ジョイ
(57)【要約】
パーソナライズされた頭部伝達関数を決定するためのコンピュータ実装方法であって、方法は、1人または複数の第1のユーザの耳の1つまたは複数の訓練画像、第1のユーザの頭部に対する1つまたは複数の第1の方向を示す訓練入力ベクトル、ならびに第1のユーザ及び第1の方向に関連するパーソナライズされた頭部関連方向関数の1つまたは複数の値を含む、訓練データセットを受信することと、訓練データセットに対して人工ニューラルネットワークを訓練することと、第2のユーザの耳の推論画像または第2のユーザの耳の1対の推論画像、及び第2のユーザの頭部に対する第2の方向を示す推論入力ベクトルを含む推論データセットを受信することと、方向関数の1つまたは複数のパーソナライズされた値を予測するために、人工ニューラルネットワークによって推論データセットを処理することであって、値が、第2のユーザ及び第2の方向に関連する、ことと、を含む。
【選択図】なし
【特許請求の範囲】
【請求項1】
パーソナライズされた頭部伝達関数を決定するためのコンピュータ実装方法であって、
1人または複数の第1のユーザの耳の1つまたは複数の訓練画像、及び
前記1人または複数の第1のユーザの頭部に対する1つまたは複数の第1の方向を示す訓練入力ベクトル
を含む、第1の訓練データサブセットを受信することと、
第2の訓練データサブセットとして、前記1人または複数の第1のユーザ及び前記第1の訓練データサブセットの前記1つまたは複数の第1の方向に関連するパーソナライズされた頭部関連方向関数の1つまたは複数の値を受信することと、
前記第1の訓練データサブセット及び前記第2の訓練データサブセットを訓練データセットとして人工ニューラルネットワークに供給することと、
前記パーソナライズされた頭部関連方向関数の1つまたは複数のパーソナライズされた値を予測するために、前記第1の訓練データサブセット及び前記第2の訓練データサブセットに対して前記人工ニューラルネットワークを訓練することと、
第2のユーザの耳の推論画像または前記第2のユーザの耳の1対の推論画像、及び
前記第2のユーザの頭部に対する第2の方向を示す推論入力ベクトルを含む推論データセット
を受信することと、
前記パーソナライズされた頭部関連方向関数の1つまたは複数のパーソナライズされた値を予測するために、前記人工ニューラルネットワークによって前記推論データセットを処理することであって、前記パーソナライズされた値が、前記第2のユーザ及び前記第2の方向に関連する、前記処理することと、
を含む、前記方法。
【請求項2】
前記パーソナライズされた頭部関連方向関数が、パーソナライズされた頭部インパルス応答を含む、請求項1に記載の方法。
【請求項3】
前記パーソナライズされた頭部関連方向関数が、パーソナライズされた頭部伝達関数を含む、請求項1に記載の方法。
【請求項4】
前記パーソナライズされた頭部関連方向関数が、パーソナライズされた頭部伝達関数の周波数応答を含む、請求項1に記載の方法。
【請求項5】
前記周波数応答が自由音場周波数応答である、請求項4に記載の方法。
【請求項6】
前記訓練データセットまたは前記推論データセットの少なくとも1つが、
少なくとも1対の同一ユーザの左耳の画像及び右耳の画像であって、前記1対の前記画像の一方が鏡映されている、前記画像と、
少なくとも1対の、前記第1の方向または前記第2の方向のうちの少なくとも1つに対応する第1の入力ベクトル及びユーザの頭部の中心を通り前記ユーザの両耳の間の直線に垂直な平面に対して前記第1の入力ベクトルを鏡映することによって決定される第2の入力ベクトルと、
を含む、請求項1に記載の方法。
【請求項7】
前記左耳の前記画像が、写真である、請求項6に記載の方法。
【請求項8】
前記左耳の前記画像が、深度マップである、請求項6に記載の方法。
【請求項9】
前記1人または複数の第1のユーザのうちの1人の頭部に対して第1の方向から送信された入力音声信号を決定することと、
前記1人または複数の第1のユーザのうちの前記1人の耳の中に伝送された音声信号を記録することと、
前記入力音声信号及び前記伝送された音声信号に基づいて、頭部インパルス応答を決定することと、
前記頭部インパルス応答を周波数空間に変換することと、
によって、前記第2の訓練データサブセットを決定することをさらに含む、請求項1に記載の方法。
【請求項10】
前記人工ニューラルネットワークによって前記推論データセットを処理することが、
前記人工ニューラルネットワークのヘッドブロックによって、前記第2のユーザの前記耳の1つの耳介の画像から特徴を抽出して特徴データを生成することと、
方向ベクトルの座標ごとに、前記特徴データの複製を作成することと、
各複製に前記推論入力ベクトルの座標を乗算して、複数の重み付き複製を生成することと、
前記人工ニューラルネットワークのテールブロックによって、前記第2のユーザ及び第2の方向に関連する前記パーソナライズされた頭部関連方向関数を予測するために、前記重み付き複製を処理することと、
を含む、請求項1に記載の方法。
【請求項11】
前記訓練入力ベクトルまたは前記推論入力ベクトルのうちの1つまたは複数が、正定値6成分フォーマットで指定される、請求項1に記載の方法。
【請求項12】
デカルト座標で前記訓練入力ベクトルまたは前記推論入力ベクトルのうちの1つまたは複数を指定することと、
各デカルト座標の1対の成分を定義することによって、前記訓練入力ベクトルまたは前記推論入力ベクトルのうちの1つまたは複数を、6成分を含むフォーマットに変換することと、
をさらに含み、
各対の第1の成分が、前記デカルト座標が負でない場合は前記デカルト座標と同一であり、前記デカルト座標が負である場合は0であり、
各対の第2の成分が、前記デカルト座標が負でない場合は0であり、前記デカルト座標が負である場合は前記デカルト座標の絶対値と同一である、請求項11に記載の方法。
【請求項13】
前記パーソナライズされた頭部関連方向関数の前記1つまたは複数のパーソナライズされた値を後処理してフィルタを生成することと、
前記フィルタを第2の入力音声信号に適用することと、をさらに含む、請求項1に記載の方法。
【請求項14】
前記パーソナライズされた頭部関連方向関数の前記1つまたは複数のパーソナライズされた値をモバイルデバイスにおいて決定すること、記憶すること、または決定及び記憶することをさらに含む、請求項1に記載の方法。
【請求項15】
前記パーソナライズされた頭部関連方向関数の前記1つまたは複数のパーソナライズされた値をネットワークアクセス可能なサーバ上で決定すること、記憶すること、または決定及び記憶することをさらに含む、請求項1に記載の方法。
【請求項16】
システムであって、
メモリと、
請求項1~15のいずれかに記載の方法を実行するように構成された1つまたは複数のプロセッサと、
を備える、前記システム。
【請求項17】
1つまたは複数のプロセッサによる実行時に、請求項1~15のいずれかに記載の方法を前記1つまたは複数のプロセッサに実行させる命令を含む、コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、パーソナライズされた頭部関連方向関数の決定に関する。特に、本開示は、耳の画像に基づいてパーソナライズされた頭部伝達関数(HRTF)のパーソナライズされた周波数応答を決定するためのシステム、方法、及びデバイスに関する。用途には、オーディオ処理が含まれる。
【背景技術】
【0002】
人間の聴覚系は、音を知覚できるだけでなく、音が到来する方向を判断することもできる。人間の脳は、3つの音の特徴を使用してこれを実現する。第1に、頭部の片側から到来する音は、音源に近い方の耳によってより大きいと登録される(両耳間の振幅差の検出)。第2に、音が頭部に近い方の耳により早く到達する(両耳間の時間差の検出)。第3に、音波を電気神経信号に変換する内耳に音が到達するまで、音が、肩、頭部、外耳、及び中耳を含む聴き手の身体を伝播するにつれて、音のスペクトルが歪められる。特に、外耳の耳介は極めて非対称であり、頭部に対する音源の方向に応じて音のスペクトルを修正するように構成されている。
【0003】
したがって、例えば仮想現実アプリケーションのための、没入型音響環境を作り出すには、両耳間の振幅差及び時間差を生成すること、ならびに音源の方向及び聴き手の解剖学的構造に応じて音のスペクトルを修正することにより、音源の位置を模倣しなければならない。スペクトルの修正は、頭部伝達関数(HRTF)を使用して実現される。聴き手に対する自然な音響体験を実現するためには、聴き手の解剖学的構造、特に聴き手の耳の耳介の形態に合わせて、HRTFを個別化しなければならない。
【0004】
頭部伝達関数は、実験的に、即ち、ユーザの耳にマイクロフォンを配置し、ユーザの頭部付近にある拡声器によって生成された音を録音することによって、生成されることが可能である。ただし、この手順は複雑で時間が掛かる。したがって、より単純な測定に基づいて、個別化された頭部伝達関数またはその周波数応答を予測する必要性が存在する。
【発明の概要】
【課題を解決するための手段】
【0005】
本明細書では、耳の1つまたは複数の画像に基づいてパーソナライズされた頭部伝達関数を決定するための方法及びシステムが、開示及び請求される。
【0006】
第1の態様によれば、パーソナライズされた頭部伝達関数を決定するためのコンピュータ実装方法が開示される。方法は、1人または複数の第1のユーザの耳の1つまたは複数の訓練画像、及び第1のユーザの頭部に対する1つまたは複数の第1の方向を示す訓練入力ベクトルを含む、第1の訓練データサブセットを受信することと、第2の訓練データサブセットとして、第1のユーザ及び第1の訓練データサブセットの第1の方向に関連するパーソナライズされた頭部関連方向関数の1つまたは複数の値を受信することと、第1の訓練データサブセット及び第2の訓練データサブセットを訓練データセットとして人工ニューラルネットワークに供給することと、方向関数の1つまたは複数のパーソナライズされた値を予測するために、訓練データセットに対して人工ニューラルネットワークを訓練することと、第2のユーザの耳の推論画像または第2のユーザの耳の1対の推論画像、及び第2のユーザの頭部に対する第2の方向を示す推論入力ベクトルを含む推論データセットを受信することと、人工ニューラルネットワークによって、方向関数の1つまたは複数のパーソナライズされた値を予測するために、推論データセットを処理することであって、値が、第2のユーザ及び第2の方向に関連する、処理することと、を含む。
【0007】
方法は、パーソナライズされた頭部関連方向関数を決定することを目的としている。関数は、解剖学的特徴、特に耳介の形状に依存するため、個人ごとに異なる。関数は、衝突する音波の方向に応じて、内耳に到達するときの音量、スペクトル、または音波の遅延の変化など、方向に依存し聴覚系に関連する関数値を計算することを可能にする。以下でより詳細に説明するように、関数は、一実施形態ではパーソナライズされた頭部伝達関数を含み得る。
【0008】
方法は、人工ニューラルネットワーク、例えば畳み込みニューラルネットワークを使用し、訓練段階及び推論段階を含む。訓練段階では、第1の訓練データサブセット及び第2の訓練データサブセットを含む訓練データセットが、受信される。第1の訓練データサブセットは、可能な入力データに関連し、耳介の画像と、例えば球座標またはデカルト座標で与えられ得る方法とを含む。第2の訓練データサブセットは、入力データに対応する出力データに関連し、第1のユーザ及び第1の訓練データサブセットの第1の方向に関連するパーソナライズされた頭部関連方向関数の1つまたは複数の値を含む。訓練用に供給された1つまたは複数の値は、実験的測定またはシミュレーションによって決定されてもよく、正しい値と見なされる。一実施形態では、個別化された頭部関連方向関数が頭部伝達関数の周波数応答に関連する場合、関数の値は、内耳に到達する音響スペクトルを、衝突音のスペクトルに関連付けるスペクトル応答関数であってもよい。人工ニューラルネットワークは、典型的には、異なる第1のユーザの耳介の多数の画像及び多数の異なる方向を使用して、第2の訓練データサブセットを再現するように訓練される。第1のユーザは、専門の実験室での実験的測定セッションに参加するテストユーザであってもよい。訓練には、多数のテストユーザからの多数の訓練データセットの使用が含まれてもよく、訓練データセットは、両耳の耳介の画像及び一定数の方向に対する記録された頭部関連方向関数を含む。したがって、方法は、実験室の設定からのデータを用いてニューラルネットワークを訓練し、次いで訓練済みニューラルネットワークを実験室でのテストに参加していないユーザに適用することを可能にする。推論時、訓練済み人工ニューラルネットワークは、第2のユーザの耳介の片方または両方の画像及び1つまたは複数の方向ベクトルを受信する。人工ニューラルネットワークは、次いで、第2のユーザに対してパーソナライズされた関数を予測する。特に、方位角及び仰角の対として与えられる方向の固定セットは、訓練用の第1の方向及び推論用の第2の方向の両方として使用され得る。方向の個別のセットのみが推論に使用される限り、中間の方向に対して値が補間され得る。したがって、消費者であり得る第2のユーザは、頭部関連方向関数を決定するために測定を受ける必要はなく、関数を決定するために片方または両方の耳介の写真を撮るだけである。例えば、1対のヘッドフォンが、エンドユーザが自分の耳介の画像をアルゴリズムに提供し得るように個別化されてもよく、アルゴリズムは、上述した方法に従って方向関数を計算し、その関数は、パーソナライズされた音を生成するためにヘッドフォンによって再生される任意の音に適用されてもよい。例えば、映画またはコンピュータゲームの効果音は、ユーザの聴覚系に正確に適合する音響体験を生み出すために、ユーザの聴覚系に合わせて調整され得る。異なる方向に対して複数の関数を使用することによって、ユーザのための没入型音響環境を作り出すことが可能となり得る。
【0009】
一実施形態では、方向関数は、パーソナライズされた頭部インパルス応答関数を含む。HRIRは、音が人体を横切るときの音の変化を表しており、例えば、頭部及び肩による屈折、回折、及び減衰によって、解剖学的特徴により修正される。
【0010】
さらなる実施形態では、方向関数は、パーソナライズされた頭部伝達関数を含む。頭部インパルス応答HRIRと同様に、頭部伝達関数HRTFは、音が人体を横切るときの音の変化を表しており、例えば、頭部及び肩による屈折、回折、及び減衰によって、解剖学的特徴により修正される。
【0011】
本開示の目的のために、HRIRは、頭部の中心における音圧に対する遮断された外耳道における音圧の比率として定義される。頭部の中心は、両耳の間の中心点として定義される。HRIRは、概して、音源の位置(即ち、距離、仰角、及び方位角)ならびに解剖学的特徴(例えば、頭部のサイズ及び形状、耳介の形状)、ならびに波長に依存する。HRIRのフーリエ変換は、HRTFと呼ばれる。位相のないHRTFの振幅は、周波数応答と呼ばれる。
【0012】
HRTFは、よって、衝突する音波の方向及び音の波長に応じて、伝送用の値をもたらす。したがって、HRTFは、スペクトルとのセットとして表現されてもよく、それぞれが、1つの角度に対する周波数の関数として伝送のスペクトル振幅を表す。スペクトルは、離散値を含むベクトルとして表され得る。複数方向についてのスペクトルが必要とされる。例えば、ユーザの頭部の周りの全球が、例えば20度刻みで方位角及び仰角でカバーされ得る。ユーザにとって聴覚体験をより自然にするために、より細かい刻み角度が選択されてもよく、より粗い刻み角度によって計算コスト及びメモリ空間の節約が可能となる。パーソナライズされた周波数応答は、次いで、音が第2の方向から到来するという印象を生成するために、例えば、映画、シミュレーション、またはコンピュータゲームからの音声信号に適用されてもよい。
【0013】
さらなる実施形態では、方向関数は、パーソナライズされた頭部伝達関数の周波数応答を含む。これにより、HRTFのスペクトル依存性のみが、方法を使用して決定される。総振幅及び両耳間の振幅差は、人工ニューラルネットワークに頼ることなく、距離及び方向に応じた振幅低下に関する既知の物理的関係を使用して決定される。これにより、人工ニューラルネットワークの収束及び方法の信頼性が向上する。
【0014】
さらなる実施形態では、周波数応答は、自由音場の周波数応答である。これは、音源がユーザからかなりの距離に位置するという仮定に基づいて周波数応答が計算されることを意味する。これは、周波数応答の決定についての利点である。訓練データセットを決定するための実験室の設定、例えば無響室では、比較的離れた距離にあるスピーカを使用して音声信号が生成され得る。次いで、耳に到達する音声信号が、耳内マイクロフォンを使用して測定され得る。次いで、スピーカによって放出された信号をマイクロフォンによって記録された信号から減算することによって、頭部インパルス応答が決定される。この設定では、音源のサイズもいかなる反射も測定に影響を及ぼさない。これにより、第1のユーザの解剖学的構造の特徴のみを反映する訓練データセットを作成することが可能となる。
【0015】
さらなる実施形態では、訓練データセット及び/または推論データセットは、少なくとも1対の同一ユーザの左耳の画像及び右耳の画像であって、対の画像の一方が鏡映されている、少なくとも1対の画像と、少なくとも1対の、第1の方向及び/または第2の方向に対応する第1の入力ベクトルならびにユーザの頭部の中心を通りユーザの両耳の間の直線に垂直な平面に対して第1の入力ベクトルを鏡映することによって決定される第2の入力ベクトルと、を含む。
【0016】
それによって、左右の耳に対して人工ニューラルネットワークを同時に訓練することができ、左右の耳からのデータが、同一データセットに含まれる。上記実施形態では、画像の一方及び対応する方向ベクトルの両方が、他方の画像及び他方の方向ベクトルと同様になるように変換される。ベクトルのうちの1つを鏡映することによって、右耳に関して270度の方位角が、左耳に対する90度に相当することにつながり得る。人工ニューラルネットワークは、左耳及び右耳に対して別々にパーソナライズされた値を計算し得る。したがって、人工ニューラルネットワークによって予測された方向関数のパーソナライズされた値は、右耳用及び左耳用の値の対を含む。この対の両方の値が、概して同一の外部音源に関連する、同一方向からの音に対応する。例えば、音源が左耳の正面にある場合、即ち球座標で90度の方位角にある場合、音源は右耳の反対側にあり、これは、左耳についてのフィルタ関数が、音源が右耳の正面、即ち270度の方位角にある場合の右耳についてのフィルタ関数に類似しているが、同一ではないことにつながる。
【0017】
さらなる実施形態では、画像は、写真である。写真は、デジタルカメラで撮影され、モバイルデバイスまたはネットワークアクセス可能なサーバ上のメモリに保存され得る。複数の方向と共に、全ての方向をカバーする周波数応答の完全なセットが取得され得る。さらなるデータ、特に身体計測データは必要ない。さらに、写真を、耳介の縦横方向などの耳に関するパラメータのセットに変換する必要はない。むしろ、単に写真を人工ニューラルネットワークに入力するだけである。それによって、第2のユーザは、没入型音響環境用のヘッドフォンを使用する消費者であってもよく、音の適応を可能にするために2つの画像を撮影するだけでよい。
【0018】
さらなる実施形態では、画像は深度マップである。深度マップは、2次元のグレースケール画像であり、各ピクセルの位置は、写真の場合のように横方向の位置に関連し、値はその横方向の位置での皮膚表面の高さに関連する。深度マップは、画像処理アルゴリズムによって1つまたは複数の写真を処理して、耳の3次元輪郭を決定することによって取得され得る。代替として、写真を記録する際に複数の可視光または赤外光マーカが、耳に投影されてもよく、これにより、耳介の3次元構造に関する情報を取得することが可能となる。この手法は、深度カメラの使用として知られている。深度マップは、耳の完全な3次元構造を含むわけではないが、人工ニューラルネットワークを訓練することができる情報を与え、測定も比較的容易である。したがって、深度マップは、耳介の完全な3次元モデルがより適している関数の決定精度と、撮影がより簡単な写真の使用との間の妥協点を与える。
【0019】
さらなる実施形態では、方法は、ユーザの頭部に対して第1の方向から送信された入力音声信号を決定することと、第1のユーザの耳の中に伝送された音声信号を記録することと、入力音声信号及び伝送された音声信号に基づいて、頭部インパルス応答を決定することと、頭部インパルス応答を周波数空間に変換して第2の訓練データサブセットを生成することと、によって第2の訓練データサブセットを決定することをさらに含む。
【0020】
ここで、第1のユーザは、専門の実験室での実験的測定セッションに参加するテストユーザであってもよい。入力音声信号は、拡声器または別の音源を使用して送信されてもよい。伝送された音声信号は、耳の中の耳内マイクロフォンを使用して記録されてもよい。自由音場伝達関数を決定するために、無響室が使用されてもよい。代替として、部屋は、反射の存在下で伝達関数を決定するために、反射面などの物体を含んでもよい。頭部インパルス応答の決定は、伝送された音声信号から入力音声信号を減算することを含む。頭部インパルス応答は、次いで、例えばフーリエ変換またはウェーブレット変換を適用することによって周波数空間に変換されて、第2の訓練データサブセットとして機能する頭部伝達関数を生成する。これは、相対的なスペクトル差のみが反映されるように値を正規化するなど、さらなる処理ステップと組み合わせられてもよい。これは、異なる方向に関連する振幅差を考慮するために他の技術が使用される場合に特に有利である。
【0021】
さらなる実施形態では、人工ニューラルネットワークによって訓練データセット及び/または推論データセットを処理することが、人工ニューラルネットワークのヘッドブロックによって、耳介の画像から特徴を抽出して特徴データを生成することと、方向ベクトルの座標ごとに、特徴データの複製を作成することと、各複製に入力ベクトルの座標を乗算して、複数の重み付き複製を生成することと、人工ニューラルネットワークのテールブロックによって、第2のユーザ及び第2の方向に関連する頭部関連方向関数を予測するために、重み付き複製を処理することと、を含む。
【0022】
特徴データを抽出する処理ステップは、抽出された特徴に関連する前処理されたデータの生成を可能にする。特徴抽出のための既知の技術、特に畳み込み層、プーリング層、及び全結合層の組み合わせ、または任意の他の形態の機械学習アルゴリズムが使用され得る。特徴データは、次いでコピーされて、方向ベクトルの座標ごとに1つの複製が作成される。方向ベクトルは、デカルト座標または球座標で与えられてもよく、したがって、3つの成分を有し得る。次いで、データの3つの複製が作成され、対応する座標の値と乗算されて、重み付き複製を生成する。テールブロックは、次いで、重み付き複製を処理する。処理ステップは、畳み込み層、プーリング層、全結合層の組み合わせ、または任意の他の形態の機械学習アルゴリズムを含み得る。代替として、以下に詳述するように、6成分ベクトルが使用され得る。ヘッドブロックとテールブロックを使用する手法により、信頼性と収束性が向上する。ヘッドブロックとテールブロックは個別に訓練され得るが、両方のブロックを含むアルゴリズム全体を共に訓練することが可能である。これにより、訓練プロセスの複雑さが低減される。
【0023】
さらなる実施形態では、入力ベクトルは、正定値6成分フォーマットで指定される。これにより、正の値のみが使用され、それによって人工ニューラルネットワークの収束性と性能が向上する。
【0024】
さらなる実施形態では、方法は、デカルト座標で入力ベクトルのうちの1つまたは複数を指定することと、各デカルト座標の1対の成分を定義することによって、6成分を含むフォーマットに上記入力ベクトルを変換することと、をさらに含み、各対の第1の成分が、デカルト座標が負でない場合はデカルト座標と同一であり、デカルト座標が負である場合は0であり、各対の第2の成分が、デカルト座標が負でない場合は0であり、デカルト座標が負である場合はデカルト座標の絶対値と同一である。
【0025】
これにより、3次元のデカルト方向ベクトル(X,Y,Z)が、6次元のベクトル(Xp,Yp,Zp,Xn,Yn,Zn)に変換される。ここで、X≧0の場合、Xp=Xであり、X<0の場合、Xp=0である。さらに、X≧0の場合、Xn=0であり、X<0の場合、Xn=abs(X)である。他の座標も同様にしてY及びZから計算される。これにより、全ての成分が正になり、成分の半分が0になる。これによって、訓練の収束がより高速になる。
【0026】
さらなる実施形態では、方法は、方向関数の1つまたは複数のパーソナライズされた値を後処理してフィルタを生成することと、フィルタを第2の入力信号に適用することと、をさらに含む。
【0027】
このフィルタは、例えば逆フーリエ変換を適用することにより、周波数応答を周波数ドメインから時間ドメインに変換することによって生成され得る。さらに、両耳間振幅差を考慮するために異なる音量レベルが適用されてもよく、両耳間時間差を考慮するために信号が時間的にシフトされてもよい。これにより、パーソナライズされた頭部インパルスHRIRベースのフィルタが生成される。しかしながら、他のフィルタを生成するために他のステップが行われてもよい。パーソナライズされた頭部インパルスフィルタを第2の入力音声信号に適用すると、第2のユーザには第2の方向から到来したかのように思われる、音声信号が生成される。この手法によって、異なる方向に関連するスペクトル振幅の差を決定するためにのみ、人工ニューラルネットワークを使用することが可能となる。これにより、計算コストが削減される。例えば、第2のユーザは、没入型音響システムのヘッドフォンを使用する消費者であってもよい。次いで、頭部インパルスフィルタが、ユーザの耳介の画像を使用して生成されてもよく、それによって、第2の入力音声信号が所定の方向から到来していると思われるように処理され得る。
【0028】
さらなる実施形態では、方法は、第2のパーソナライズされた周波数応答をモバイルデバイスにおいて決定すること、及び/または記憶することをさらに含む。例えば、本開示による方法の任意のステップは、モバイルデバイス上で実行され得る。代替として、人工ニューラルネットワークは、計算サーバ上で訓練されてもよく、推論ステップのみが、モバイルデバイス上で実行されてもよい。さらに別の代替案によれば、人工ニューラルネットワークは、サーバのコンピューティングリソースから、かつ人工ニューラルネットワークの集中保守及び更新から利益を得るために、ネットワークアクセス可能なサーバ上で使用されてもよい。例えば、人工ニューラルネットワークは、1つまたは複数の計算サーバ上で開発及び訓練されてもよく、次いで、複数の第2のユーザについての推論ステップの実行のために、ネットワークアクセス可能なサーバ上に記憶されてもよい。これにより、人工ニューラルネットワークは、複数の第2のユーザに対して一貫した挙動を示す。
【0029】
さらなる実施形態では、方法は、ネットワークアクセス可能なサーバ上において、方向関数の1つまたは複数のパーソナライズされた値を決定及び/または記憶することをさらに含む。それにより、それぞれが1つまたは複数のデバイスについての特定の第2のユーザのためのパーソナライズされた値を含むユーザプロファイルが、構成を管理するために使用され得る。これにより、複数のモバイルデバイスによる第2のパーソナライズされた周波数値へのアクセスが可能となり、それによって、同一ユーザによって使用される異なるデバイス上で、かつ複数ユーザによって共有されるデバイスに対して、没入型音響環境が一貫して作り出され得る。
【0030】
他の態様は、1対のヘッドフォン、データ処理システム、コンピュータプログラム製品、及びコンピュータプログラム製品を含むコンピュータ可読記憶媒体を含み、その全てが、本開示の方法を実行するように構成される。本開示の第1の態様の全ての特性は、他の態様にも当てはまる。
【0031】
本開示の特徴、目的、及び利点は、同様の参照番号が類似の要素を指す図面と併せて解釈すると、以下に述べる詳細な説明からより明らかになるであろう。
【図面の簡単な説明】
【0032】
図1】本開示の一実施形態による、システムのブロック図を示す。
図2】本開示の一実施形態による、パーソナライズされた頭部関連方向関数を決定するために人工ニューラルネットワークを訓練するためのコンピュータ実装方法のフローチャートを示す。
図3】本開示の一実施形態による、人工ニューラルネットワークを使用して、パーソナライズされた頭部関連方向関数を決定するためのコンピュータ実装方法のフローチャートを示す。
図4】本開示の一実施形態による、人工ニューラルネットワークを使用して訓練データセット及び/または推論データセットを処理するためのコンピュータ実装方法のフローチャートを示す。
【発明を実施するための形態】
【0033】
図1は、本開示の一実施形態による、システム100のブロック図を示す。システム100は、サーバシステム102と、1つまたは複数のクライアントシステム120とを備え、それらが、ネットワーク118を介して通信可能に連結される。
【0034】
サーバシステム102は、人工ニューラルネットワークを訓練し適用するように構成される。訓練のために、1人または複数の第1のユーザからのデータが決定される。第1のユーザは、訓練データセットを決定するための測定キャンペーンに参加する被験者であってもよい。訓練データセットを決定することは、カメラ104で第1のユーザの耳の画像を撮影することを含む。カメラ104は、従来の写真用カメラ、または何らかの3次元機能を備えたカメラであってもよい。例えば、深度カメラが使用されてもよく、この場合、光マーカが耳介に投影され、それらの位置が、形状に関するより多くの情報を得るために使用される。1つまたは複数のスピーカ106及び1つまたは複数のマイクロフォン108は、無響室における頭部関連自由音場インパルス応答を決定するための設定の一部であり得る。上記設定は、第1のユーザの耳に配置される耳内マイクロフォンと、第1のユーザの頭部の周りに球状に配置され、自由音場の音声信号を生成するためにそれぞれが頭部の中心から1.2メートルの距離にある複数のスピーカと、を含み得る。複数の入力音声信号が生成されてもよい。耳内マイクロフォンは、伝送された音を記録し、同時に耳を塞ぐように構成される。しかし、本開示は、このタイプのカメラ、スピーカ、及びマイクロフォンに限定されない。むしろ、異なるデバイスが使用されてもよい。例えば、複数のスピーカが、頭部付近に配置されて、近接場信号を生成してもよい。無響室を使用するのではなく、残響環境が使用されてもよい。さらに別の例では、スピーカですらなく、他の音源が使用されてもよい。その場合、その音波に関連する2つの信号が、空間内の2点で測定され得る。2つの信号は、頭部の外側の信号と、耳内マイクロフォンによって測定される伝送信号とを含み得る。生成されたデータは、次いで、プロセッサ112及びメモリ114を有するサーバコンピュータ110によって処理され得る。処理は、データに対して人工ニューラルネットワーク(ANN)116を訓練すること、生成されたデータを使用してANN116をテストすること、及び推論ステップを実行して方向関数を予測することを含み得る。処理は、以下に詳述するように、データの前処理及び後処理をさらに増加させてもよい。サーバシステム102は、一箇所に局所化されてもよいが、代替として、異なる場所に分散され、かつネットワーク、例えばインターネットなどのネットワーク118を介して接続されたデバイス104~116を含み得る。
【0035】
1つまたは複数のクライアントシステム120は、カメラ122と、ヘッドフォン124と、プロセッサ128及びメモリデバイス130を含むクライアントコンピュータ126とを含み得る。クライアントシステム120は、ヘッドフォンを使用する消費者であり得る第2のユーザによって使用され得る。カメラ122は、第2のユーザの耳の1つまたは複数の写真を撮るように構成される。カメラ122は、上で詳述した深度カメラであってもよい。例えば、カメラ122及びクライアントコンピュータ126は、スマートフォンに含まれ得る。クライアントコンピュータ126は、次いで、例えばカメラ122によって生成されたデータに基づいて深度マップを生成することによって、画像を前処理してもよく、画像は、例えば、写真または何らかの3次元データを含み得る。さらなる前処理には、画像の1つを鏡映させることが含まれ得る。次いで、画像は、ネットワーク118を介してサーバシステム102に送信され得る。次いで、サーバコンピュータ110は、所定数の方向ベクトルを生成し得る。次いで、人工ニューラルネットワーク116は、画像及び方向ベクトルを処理して、方向関数を生成し得る。方向関数は、例えば、各方向の頭部インパルス応答を含み得る。次いで、方向関数132は、ネットワーク118を介してクライアントコンピュータ126に送信され、メモリ130に記憶され得る。これにより、ネットワークを介したデータ転送は、新たなユーザのクライアントシステムの較正にのみ必要である。次いで、クライアントコンピュータ126は、関数132をヘッドフォンによって放出される元の音声信号に適用し得る。左右の耳の振幅を修正し、遅延を補正するために位相シフトを誘導するなどの、さらなるステップが実行されてもよい。代替として、これらのステップは、ヘッドフォンのセットに含まれ得る第2のクライアントコンピュータ(図示せず)によっても実行され得る。これにより、元の音声信号が所定の方向から到来するという印象を生成することが可能となる。所定の方向は、元の音声信号と共に記憶されるメタデータに記憶されてもよい。
【0036】
図1のシステム100が単に例示的な実施形態を示すことに留意されたい。代替として、人工ニューラルネットワークの訓練及びテストのみが、サーバシステムによって実行されてもよく、推論ステップが、1つまたは複数のクライアントシステム上で実行されてもよい。さらに別の代替案では、カメラ、スピーカ、マイクロフォン、及びコンピュータを含む単一の局所システムが使用されてもよく、全ての方法ステップが、システムによって実行される。
【0037】
図2は、一実施形態による、パーソナライズされた頭部関連方向関数を決定するために人工ニューラルネットワークを訓練するためのコンピュータ実装方法のフローチャートを示す。202において、例えばカメラで写真を撮ることによって、1つまたは複数の画像が作成される。より多くの3次元データを含む画像が使用されてもよいが、人工ニューラルネットワークを訓練するには既に写真で十分である。追加として、任意選択の前処理ステップが実行されてもよい。204において、同じ人の耳の1つの画像が鏡映される。即ち、画像が左右反転される。これにより、人工ニューラルネットワークに2つの耳の画像が提供され、これらの画像は、同一の向きであるが、存在する耳の形状、特に耳介の形状の違いを表している。1つまたは複数の画像は、206において、深度マップ、即ち2次元グレースケール画像に変換されてもよく、グレー値は、垂直方向の皮膚表面の位置を表す。これらのステップにより、人工ニューラルネットワークの変換挙動が改善され得る。208において、方向に対応する1つまたは複数の入力ベクトルが指定される。入力ベクトルは、デカルト座標または球座標で与えられ得る。例えば、所定の数の方向を示す入力ベクトルのセットが指定されてもよい。例えば、方向は、利用可能な角度の全範囲に対して人工ニューラルネットワークを訓練するために、方位角及び仰角の両方について20度刻みで球の全角度範囲に及んでもよい。刻み角度の大きさは、一方では実験労力及び計算労力と、他方では訓練済み人工ニューラルネットワークの精度との間のトレードオフである。第1の訓練データサブセットは、1つまたは複数の画像及び1つまたは複数の入力ベクトルを含む。
【0038】
ステップ210~216は、第2の訓練データサブセットとして人工ニューラルネットワークに投入される方向関数を生成することに関する。この例示的実施形態では、方向関数は、頭部伝達関数HRTFを含む。210において、入力音声信号は、例えばスピーカ106のうちの1つによって送信される。入力音声信号は、正弦掃引、対数正弦掃引、またはスペクトルをカバーできる別の信号を含み得る。212において、伝送信号は、例えば、マイクロフォン108のうちの1つによって記録される。信号を処理することは、214においてインパルス応答を決定することを含む。これは、伝送された音声信号から入力音声信号を減算して、頭部インパルス応答HRIRを生成することを含み得る。216において、インパルス応答は、例えばフーリエ変換またはウェーブレット変換によって周波数空間に変換される。ステップ216の出力は、第2の訓練データサブセットをもたらす。次いで、第1の訓練データサブセット及び第2の訓練データサブセットが、訓練データセットとして人工ニューラルネットワークに送信される。218において、人工ニューラルネットワークが、訓練データセットに対して訓練される。訓練は、図4を参照して説明するステップの1つまたは複数を含み得る。
【0039】
図3は、一実施形態による、人工ニューラルネットワークを使用してパーソナライズされた頭部関連方向関数を決定するためのコンピュータ実装方法のフローチャートを示す。これは、人工ニューラルネットワークの推論ステップに関する。ステップ302~306において、ユーザの片方または両方の耳の1つまたは複数の画像が作成され、任意選択で1つまたは複数の深度マップに鏡映及び/または変換される。これらのステップは、主に上記のステップ202~206と同一であるが、画像は、第2のユーザの耳を示しており、異なるハードウェアで撮られてもよい。308において、1つまたは複数の入力ベクトルが定義される。310において、人工ニューラルネットワークは、入力データセット、即ち1つまたは複数の画像及び1つまたは複数の入力ベクトルを処理して、ベクトルによって示される1つまたは複数の方向に対する方向関数の値を予測する。これは、頭部伝達関数(HRTF)を計算することを含み得る。312において、方向関数に基づいてフィルタが生成される。例えば、人工ニューラルネットワークがHRTFを決定する場合、例えば逆フーリエ変換による時間ドメインへの変換によって、314において1つまたは複数の元の音声信号に適用され得るフィルタ関数が決定されて、音声信号がベクトルで示される方向から到来しているとの印象が作り出される。例えば、所定の方向ごとに、人工ニューラルネットワークが1つまたは複数の画像及びベクトルを処理して、その所定の方向に関連する方向関数の値を生成し得るように、方向ベクトルが生成され得る。これにより、高精度でフィルタ関数を決定することが可能となる。代替として、ステップ308において、例えば20度刻みで球の全ての角度に及ぶ入力ベクトルのセットが生成される。次いで、人工ニューラルネットワークは、方向ごとに方向関数の値を生成する。フィルタもまた、各方向において生成される。次いで、フィルタが音声信号に適用され得るように、フィルタのセットがメモリ130に保存され得る。音声信号をフィルタリングして、セット内にフィルタが存在しない方向から音声信号が到来しているという印象を作り出すために、セットのフィルタの補間によってフィルタが生成され得る。
【0040】
図4は、一実施形態による、人工ニューラルネットワークを使用して訓練データセット及び/または推論データセットを処理するためのコンピュータ実装方法400のフローチャートを示す。方法400のステップは、訓練ステップ218及び推論ステップ310のサブステップであってもよい。402において、1つまたは複数の画像が、人工ニューラルネットワークのヘッドブロックによって処理されて、特徴が抽出される。次いで404において、特徴データがコピーされて、方向ベクトルの座標ごとに1つの複製、例えば、方向ベクトルが6つの成分で決定される場合は6つの複製が作成され得る。ステップ208、308で指定された方向ベクトルは、406において、任意選択でデカルト座標に変換される。デカルト座標の使用により、人工ニューラルネットワークの変換がより高速になる。408で、方向ベクトルが6成分フォーマットに変換される。このようなフォーマットは、各成分を1対の成分に変換することによって定義されてもよく、成分の一方は、元の成分の絶対値と同一であり、もう一方はゼロである。これにより、人工ニューラルネットワークの収束がより高速になる。410において、第2のベクトルが任意選択で決定される。同一ユーザの左右の耳の画像が共に処理されて、ニューラルネットワークを訓練するか、または同一音源に対する両耳についての方向関数の値を同時に予測する場合、第1のベクトルは、第1の耳に対する音源の方向を示してもよく、第2のベクトルは、第2の耳に対する音源の方向を示してもよい。その場合、第2のベクトルは、頭部の中心を通り両耳の間の直線に垂直な平面で鏡映される。例えば、左耳に対する90度の方位角(第1のベクトル)は、右耳に対する270度の方位角(第2のベクトル)に対応する。これにもかかわらず、全ての座標がデカルト座標で指定され得る。412において、複製のそれぞれに座標値を乗算して、重み付き複製が生成される。414において、人工ニューラルネットワークは、重み付き複製を処理して、方向関数の値が予測される。
【符号の説明】
【0041】
100 システム
102 サーバシステム
104 カメラ
106 スピーカ
108 マイクロフォン
110 サーバコンピュータ
112 プロセッサ
114 メモリ
116 人工ニューラルネットワーク
118 ネットワーク
120 クライアントシステム
122 カメラ
124 ヘッドフォン
126 クライアントコンピュータ
128 プロセッサ
130 メモリ
132 関数
200 パーソナライズされた頭部関連方向関数を決定するためのコンピュータ実装方法
202-218 パーソナライズされた頭部関連方向関数を決定するためのコンピュータ実装方法のステップ
300 人工ニューラルネットワークを使用してパーソナライズされた頭部関連方向関数を決定するためのコンピュータ実装方法
302-314 人工ニューラルネットワークを使用してパーソナライズされた頭部関連方向関数を決定するためのコンピュータ実装方法のステップ
400 人工ニューラルネットワークを使用して訓練データセット及び/または推論データセットを処理するためのコンピュータ実装方法
402-414 人工ニューラルネットワークを使用して訓練データセット及び/または推論データセットを処理するためのコンピュータ実装方法のステップ
図1
図2
図3
図4
【国際調査報告】