(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-01-24
(54)【発明の名称】聴取システムにおける自声検出のためのシステムおよび方法
(51)【国際特許分類】
H04R 3/00 20060101AFI20240117BHJP
H04R 25/00 20060101ALI20240117BHJP
G10L 25/51 20130101ALI20240117BHJP
G10L 25/18 20130101ALI20240117BHJP
H04R 1/10 20060101ALN20240117BHJP
【FI】
H04R3/00 320
H04R25/00 H
G10L25/51
G10L25/18
H04R1/10 101A
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023533208
(86)(22)【出願日】2020-11-30
(85)【翻訳文提出日】2023-06-21
(86)【国際出願番号】 IB2020061290
(87)【国際公開番号】W WO2022112834
(87)【国際公開日】2022-06-02
(81)【指定国・地域】
(71)【出願人】
【識別番号】501481746
【氏名又は名称】ソノヴァ アー・ゲー
【氏名又は名称原語表記】Sonova AG
【住所又は居所原語表記】Laubisruetistrasse 28, 8712 Staefa, Switzerland
(74)【代理人】
【識別番号】100114890
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100098501
【氏名又は名称】森田 拓
(74)【代理人】
【識別番号】100116403
【氏名又は名称】前川 純一
(74)【代理人】
【識別番号】100134315
【氏名又は名称】永島 秀郎
(74)【代理人】
【識別番号】100162880
【氏名又は名称】上島 類
(72)【発明者】
【氏名】ヘンリー ルオ
(72)【発明者】
【氏名】アラ タラスリアン
【テーマコード(参考)】
5D220
【Fターム(参考)】
5D220BA01
(57)【要約】
例示的な聴取装置は、オーディオコンテンツを表す同側オーディオ信号の、第1および第2スペクトル部分の第1および第2音圧レベル(SPL)をそれぞれ特定するように構成されている。第1および第2スペクトル部分は、第1および第2周波数範囲に含まれる周波数をそれぞれ有し、ただし第2周波数範囲は、第1周波数範囲よりも高い。装置はさらに、第1SPLが少なくとも閾値SPL量だけ第2SPLよりも大きいことを特定し、同側オーディオ信号と対側オーディオ信号との対称レベルが少なくとも閾値対称レベルであることを特定することができる。これらの特定に基づき、聴取装置は、オーディオコンテンツが自声コンテンツを有することを特定することができる。
【特許請求の範囲】
【請求項1】
聴取システムであって、前記聴取システムは、
ユーザの同側耳に関連付けられ、かつオーディオコンテンツを表す同側オーディオ信号を検出するように構成された同側マイクロフォンと、
前記ユーザの対側耳に関連付けられ、かつ前記オーディオコンテンツを表す対側オーディオ信号を検出するように構成された対側マイクロフォンと、
前記同側耳に関連付けられた聴取装置とを有し、前記聴取装置は、
前記同側オーディオ信号の第1スペクトル部分であって、第1周波数範囲に含まれる周波数を有する第1スペクトル部分の第1音圧レベル(SPL)を特定し、
前記同側オーディオ信号の第2スペクトル部分であって、前記第1周波数範囲よりも高い第2周波数範囲に含まれる周波数を有する第2スペクトル部分の第2SPLを特定し、
前記第1SPLが少なくとも閾値SPL量だけ前記第2SPLよりも大きいことを特定し、
前記同側オーディオ信号と前記対側オーディオ信号との対称レベルが少なくとも閾値対称レベルであることを特定し、
前記第1SPLが少なくとも前記閾値SPL量だけ前記第2SPLよりも大きいことの前記特定と、前記対称レベルが少なくとも前記閾値対称レベルであることの前記特定とに基づいて、前記オーディオコンテンツが前記ユーザの声を表す自声コンテンツを有することを特定する、
ように構成されている、聴取システム。
【請求項2】
前記第1SPLが少なくとも前記閾値SPL量だけ前記第2SPLよりも大きいことの前記特定には、
前記第1SPLと前記第2SPLとの比を特定することと、
前記比が前記閾値SPL量に関連付けられた閾値比よりも大きいことを特定することと
が含まれる、請求項1記載の聴取システム。
【請求項3】
前記第1周波数範囲は、800ヘルツ(Hz)~1200Hzであり、前記第2周波数範囲は、4キロヘルツ(kHz)~7kHzであり、前記閾値比は、25~35である、請求項2記載の聴取システム。
【請求項4】
前記聴取装置はさらに前記同側オーディオ信号の全体SPLを特定するように構成されており、
前記オーディオコンテンツが自声コンテンツを有することの前記特定はさらに、前記同側オーディオ信号の全体SPLに基づく、
請求項1記載の聴取システム。
【請求項5】
前記聴取システムはさらに、前記同側オーディオ信号に基づいて、前記オーディオコンテンツに音声コンテンツが含まれることを特定するように構成されており、
前記オーディオコンテンツが自声コンテンツを有することの前記特定はさらに、前記オーディオコンテンツに音声コンテンツが含まれることの前記特定に基づく、
請求項1記載の聴取システム。
【請求項6】
前記同側マイクロフォンは、付加的なオーディオコンテンツを表す付加的な同側オーディオ信号を検出するように構成されており、
前記対側マイクロフォンは、前記付加的なオーディオコンテンツを表す付加的な対側オーディオ信号を検出するように構成されており、
前記聴取装置はさらに、
前記付加的な同側オーディオ信号と前記付加的な対側オーディオ信号との付加的な対称レベルが前記閾値対称レベルよりも小さいことを特定し、かつ
前記付加的な対称レベルが前記閾値対称レベルよりも小さいことの前記特定に基づき、前記付加的なオーディオコンテンツが前記自声コンテンツを有しないことを特定する、
ように構成されている、請求項1記載の聴取システム。
【請求項7】
前記聴取装置はさらに、
前記付加的な同側オーディオ信号の前記第1スペクトル部分の第3SPLを特定し、
前記付加的な同側オーディオ信号の前記第2スペクトル部分の第4SPLを特定し、
前記付加的なオーディオコンテンツが前記自声コンテンツを有しないことの前記特定に基づき、前記閾値SPL量を、前記第3SPLと前記第4SPLとの差分に基づいて調整する
ように構成されている、請求項6記載の聴取システム。
【請求項8】
前記閾値SPL量の前記調整には、機械学習アルゴリズムを使用することが含まれる、請求項7記載の聴取システム。
【請求項9】
前記同側マイクロフォンは、付加的なオーディオコンテンツを表す付加的な同側オーディオ信号を検出するように構成されており、
前記対側マイクロフォンは、前記付加的なオーディオコンテンツを表す付加的な対側オーディオ信号を検出するように構成されており、
前記聴取装置はさらに、
前記付加的な同側オーディオ信号の前記第1スペクトル部分の第3SPLを特定し、
前記付加的な同側オーディオ信号の前記第2スペクトル部分の第4SPLを特定し、
前記第3SPLが前記閾値SPL量未満だけ前記第4SPLよりも大きいことを特定し、
前記第3SPLが前記閾値SPL量未満だけ前記第4SPLよりも大きいことの前記特定に基づいて、前記付加的なオーディオコンテンツが前記自声コンテンツを有しないことを特定する、
ように構成されている、請求項1記載の聴取システム。
【請求項10】
前記聴取装置はさらに、前記付加的な同側オーディオ信号と、前記付加的な対側オーディオ信号との付加的な対称レベルが少なくとも前記閾値対称レベルであることを特定するように構成されており、
前記付加的なオーディオコンテンツが前記自声コンテンツを有しないことの前記特定は、前記付加的な対称レベルが少なくとも前記閾値対称レベルであることの前記特定とかかわりがない、
請求項9記載の聴取システム。
【請求項11】
前記聴取装置はさらに、前記第3SPLと前記第4SPLとの差分に基づいて、前記閾値SPL量を調整するように構成されている、請求項9記載の聴取システム。
【請求項12】
前記閾値SPL量の前記調整には、機械学習アルゴリズムを使用することが含まれる、請求項11記載の聴取システム。
【請求項13】
前記聴取装置は、前記同側マイクロフォンを有する、請求項1記載の聴取システム。
【請求項14】
さらに、前記対側耳に関連付けられた付加的な聴取装置を有し、かつ前記対側マイクロフォンを有する、請求項1記載の聴取システム。
【請求項15】
システムであって、前記システムは、
第1聴取装置および第2聴取装置と、
ユーザの同側耳に関連付けられかつオーディオコンテンツを表す同側オーディオ信号を検出するように構成された第1マイクロフォンを有する第1聴取装置と、
前記ユーザの対側耳に関連付けられかつ前記オーディオコンテンツを表す対側オーディオ信号を検出するように構成された第2マイクロフォンを有する第2聴取装置とを有し、
前記第1聴取装置は、
前記同側オーディオ信号の第1スペクトル部分であって、第1周波数範囲に含まれる周波数を有する第1スペクトル部分の第1音圧レベル(SPL)を特定し、
前記同側オーディオ信号の第2スペクトル部分であって、前記第1周波数範囲よりも高い第2周波数範囲に含まれる周波数を有する第2スペクトル部分の第2SPLを特定し、
前記第1SPLが少なくとも閾値SPL量だけ前記第2SPLよりも大きいことを特定し、
前記同側オーディオ信号と前記対側オーディオ信号との対称レベルが少なくとも閾値対称レベルであることを特定し、
前記第1SPLが少なくとも前記閾値SPL量だけ前記第2SPLよりも大きいことの前記特定と、前記対称レベルが少なくとも前記閾値対称レベルであることの前記特定とに基づいて、前記オーディオコンテンツが前記ユーザの声を表す自声コンテンツを有することを特定する、
ように構成されている、
システム。
【請求項16】
前記第2聴取装置は、
前記対側オーディオ信号の第1スペクトル部分の第3SPLを特定し、
前記対側オーディオ信号の第2スペクトル部分の第4SPLを特定し、
前記第3SPLが少なくとも前記閾値SPL量だけ前記第4SPLよりも大きいことを特定し、
前記同側オーディオ信号と前記対側オーディオ信号との前記対称レベルが少なくとも前記閾値対称レベルであることを特定し、
前記第3SPLが少なくとも前記閾値SPL量だけ前記第4SPLよりも大きいことの特定と、前記対称レベルが少なくとも前記閾値対称レベルであることの特定とに基づいて、前記オーディオコンテンツが前記ユーザの声を表す自声コンテンツを有することを特定する
ように構成されている、請求項15記載のシステム。
【請求項17】
前記第1マイクロフォンは、付加的なオーディオコンテンツを表す付加的な同側オーディオ信号を検出するように構成されており、
前記第2マイクロフォンは、前記付加的なオーディオコンテンツを表す付加的な対側オーディオ信号を検出するように構成されており、
前記第1聴取装置はさらに、
前記付加的な同側オーディオ信号と前記付加的な対側オーディオ信号との付加的な対称レベルが前記閾値対称レベルよりも小さいことを特定し、かつ
前記付加的な対称レベルが前記閾値対称レベルよりも小さいことの前記特定に基づき、前記付加的なオーディオコンテンツが前記自声コンテンツを有しないことを特定する、
ように構成されている、
請求項15記載のシステム。
【請求項18】
前記第1聴取装置はさらに、
前記付加的な同側オーディオ信号の前記第1スペクトル部分の第3SPLを特定し、
前記付加的な同側オーディオ信号の前記第2スペクトル部分の第4SPLを特定し、
前記付加的なオーディオコンテンツが前記自声コンテンツを有しないことの前記特定に基づき、前記閾値SPL量を、前記第3SPLと前記第4SPLとの差分に基づいて調整する
ように構成されている、請求項17記載のシステム。
【請求項19】
前記第1マイクロフォンは、付加的なオーディオコンテンツを表す付加的な同側オーディオ信号を検出するように構成されており、
前記第2マイクロフォンは、前記付加的なオーディオコンテンツを表す付加的な対側オーディオ信号を検出するように構成されており、
前記第1聴取装置はさらに、
前記付加的な同側オーディオ信号の前記第1スペクトル部分の第3SPLを特定し、
前記付加的な同側オーディオ信号の前記第2スペクトル部分の第4SPLを特定し、
前記第3SPLが前記閾値SPL量未満だけ前記第4SPLよりも大きいことを特定し、
前記第3SPLが前記閾値SPL量未満だけ前記第4SPLよりも大きいことの前記特定に基づいて、前記付加的なオーディオコンテンツが前記自声コンテンツを有しないことを特定する、
ように構成されている、
請求項15記載のシステム。
【請求項20】
ユーザの同側耳に関連付けられた聴取装置により、オーディオコンテンツを表す同側オーディオ信号の第1スペクトル部分であって、第1周波数範囲に含まれる周波数を有する第1スペクトル部分の第1音圧レベル(SPL)を特定するステップと、
前記聴取装置により、前記同側オーディオ信号の第2スペクトル部分であって、前記第1周波数範囲よりも高い第2周波数範囲に含まれる周波数を有する第2スペクトル部分の第2SPLを特定するステップと、
前記聴取装置により、前記第1SPLが少なくとも閾値SPL量だけ前記第2SPLよりも大きいことを特定し、
前記聴取装置により、前記オーディオコンテンツを表す前記同側オーディオ信号と対側オーディオ信号との対称レベルが少なくとも閾値対称レベルであることを特定するステップと、
前記第1SPLが少なくとも前記閾値SPL量だけ前記第2SPLよりも大きいことの前記特定と、前記対称レベルが少なくとも前記閾値対称レベルであることの前記特定とに基づいて、前記オーディオコンテンツが前記ユーザの声を表す自声コンテンツを有することを特定するステップと
を有する、方法。
【発明の詳細な説明】
【技術分野】
【0001】
背景技術情報
聴取装置は、ユーザの聴取を強化するために、オーディオコンテンツの処理済みバージョンを提供するように構成可能である。しかしながら、オーディオコンテンツにユーザ自身の音声(自声コンテンツ)が含まれている場合、検出される別のオーディオコンテンツと同じ仕方でこのようなコンテンツを増幅および/または処理することにより、ユーザにとって自然には聞こえないまたは有益ではない出力が生成されてしまうことがある。また、別のオーディオコンテンツまたは自声コンテンツには、違った処理ストラテジが、必要になるかまたは好ましいこともある。したがって、オーディオコンテンツにおける自声コンテンツを識別することは、聴取装置の最適な性能に重要である。
【0002】
米国特許出願公開第20080189107号明細書には、直接音部分と残響音部分との信号エネルギの比率を使用して、自声コンテンツを識別することを試みる方法が記載されている。
【0003】
米国特許第10025668号明細書には、それぞれが耳掛型マイクロフォンと、インイヤ型マイクロフォンと、聴取装置の装着者の声を検出することを試みる適応フィルタとを含む、左右の聴取装置を備えた聴取システムが記載されている。
【0004】
米国特許第10616694号明細書には、自声音響タイプとの一致に関して、音響を分析する聴取装置が記載されている。音響と自声とが一致する強さに依存して、音響が自声と識別される。
【0005】
自声コンテンツを検出するためのこれらの従来のアプローチのそれぞれには不利なことに、専用のコンポーネントおよび/または複雑な処理が必要である。
【0006】
添付の図面は、様々な実施形態を図示しており、また本明細書の一部である。図示した実施形態は、単なる実施例であり、本開示の範囲を限定しない。図面全体を通して、同一または類似の参照番号は、同一または類似の要素を示す。
【図面の簡単な説明】
【0007】
【
図1】本明細書で説明する基本的な考え方による例示的な聴取システムの図である。
【
図2】本明細書で説明する基本的な考え方による別の例示的な聴取システムの図である。
【
図3】本明細書で説明する基本的な考え方による自声検出についての例示的なグラフである。
【
図4】本明細書で説明する基本的な考え方による自声検出についての別の例示的なグラフである。
【
図5】本明細書で説明する基本的な考え方による例示的な聴取装置を示す図である。
【
図6】本明細書で説明する基本的な考え方による別の例示的な聴取装置を示す図である。
【
図7】本明細書で説明する基本的な考え方による自声検出についての例示的なグラフである。
【
図8】本明細書で説明する基本的な考え方による自声検出についての例示的なフローチャートである。
【
図9】本明細書で説明する基本的な考え方による例示的な計算装置を示す図である。
【
図10】本明細書で説明する基本的な考え方による例示的な方法を示す図である。
【0008】
詳細な説明
ここで説明されるのは、聴取システムにおける自声検出のための例示的なシステムおよび方法である。例えば、聴取システムには、ユーザの同側耳(ipsilateral ear)に関連付けられ(例えば、近くに配置され)、かつオーディオコンテンツを表す同側オーディオ信号(ipsilateral audio signal)を検出するように構成された同側マイクロフォン(ipsilateral microphone)と、ユーザの対側耳(contralateral ear)に関連付けられ(例えば、近くに配置され)、かつオーディオコンテンツを表す対側オーディオ信号(contralateral audio signal)を検出するように構成された対側マイクロフォン(contralateral microphone)と、同側耳に関連付けられた(例えば、オーディオコンテンツの処理済みバージョンを提供するように構成された)聴取装置とが含まれていてもよい。この聴取装置は、同側オーディオ信号の第1スペクトル部分の第1音圧レベル(SPL:sound pressure level)を特定し、同側オーディオ信号の第2スペクトル部分の第2SPLを特定し、第1SPLが少なくとも閾値SPL量だけ第2SPLもよりも大きいことを特定し、同側オーディオ信号と対側オーディオ信号との対称レベルが少なくとも閾値対称レベルであることを特定するように構成可能である。第1SPLが少なくとも閾値SPL量だけ第2SPLよりも大きいことの特定と、対称レベルが少なくとも閾値対称レベルであることの特定とに基づいて、聴取装置は、オーディオコンテンツがユーザの声を表す自声コンテンツ(own voice content)を有することを特定するように構成可能である。
【0009】
本明細書で説明するシステムおよび方法は有利には、聴取装置のユーザに多くの利益をもたらすことができる。例えば、本明細書で説明する聴取装置は、通常の聴取によって知覚される自声コンテンツを含むオーディオコンテンツを、従来の聴取システムよりも正確に再現するオーディオ信号を供給することができる。さらに、本明細書で説明するシステムおよび方法は、従来の聴取システムと比較して、付加的なコンポーネントを必要とすることなく、自声コンテンツをより正確に検出することができる。付加的に、本明細書で説明するシステムおよび方法は、従来の聴取システムと比較して、より信頼性が高くかつ迅速に自声コンテンツを検出することができるが、同時に、使用される計算能力は低い。さらに、本明細書で説明するシステムおよび方法は、いくつかの実装形態では、機械学習アルゴリズムを使用して、本明細書で説明する閾値のうちの1つまたは複数を動的に調整することができ、これにより、本明細書で説明するシステムおよび方法の自声検出機能を時間と共に改善することができる。少なくともこれらの理由から、本明細書で説明するシステムおよび方法は有利には、従来の聴取システムと比較して、聴取装置のユーザに付加的な機能および/または特徴を提供することができる。本明細書で説明するシステムおよび方法のこれらの利益および別の利益は、本明細書において明らかになろう。
【0010】
図1には、音響をユーザに伝達するために使用可能な例示的な聴取システム100が示されている。聴取システム100には、第1聴取装置102-1および第2聴取装置102-2(まとめて「聴取装置102」と称する)が含まれている。破線104に対する、聴取装置102の
図1における位置決めによって、また聴取装置102-1の視点から表されているように、聴取装置102-1はユーザの同側耳に関連付けられており、聴取装置102-2はユーザの対側耳に関連付けられている。例えば、聴取装置102-1がユーザの左耳に関連付けられている場合、聴取装置102-2はユーザの右耳に関連付けられている。択一的に、聴取装置102-1がユーザの右耳に関連付けられている場合、聴取装置102-2はユーザの左耳に関連付けられている。本明細書で使用されるように、聴取装置は、特定の耳または特定の耳内に装着されるように構成されることにより、かつ/または特定の耳に聴取能力を提供することにより、特定の耳に「関連付けられる」。
【0011】
複数の聴取装置102は、特定の実装形態に役立ち得る有線または無線であってよい通信リンク106を介して互いに通信可能である。
【0012】
聴取装置102はそれぞれ、聴取システム100のユーザの聴取を提供または強化するように構成されたあらゆるタイプの聴取装置によって実装可能である。例えば、聴取装置102はそれぞれ、増幅したオーディオコンテンツをユーザに適用するように構成された補聴器、オーディオコンテンツを表す電気刺激をユーザに適用するように構成された、人工内耳システムに含まれる音響プロセッサ、電気アコースティック刺激をユーザに適用するように構成された電気アコースティック刺激システムに含まれる音響プロセッサ、頭部装着型ヘッドセット、耳装着型イヤホン、ヒヤラブル、スマートヘッドホンまたは任意の別の適切な聴取装置によって実装可能である。いくつの実施例では、聴取装置102-1は、聴取装置102-2とは別のタイプのものである。例えば、聴取装置102-1は補聴器であってもよく、聴取装置102-2は人工内耳システムに含まれる音響プロセッサであってもよい。別の実施例として、聴取装置102-1は、片側補聴器であってもよく、聴取装置102-2は、CROS(contralateral routing of signals)補聴器であってもよい。
【0013】
図示したように、聴取装置102-1には、プロセッサ108-1、メモリ110-1、マイクロフォン112-1、および出力トランスデューサ114-1が含まれていてもよい。同様に、聴取装置102-2には、プロセッサ108-2、メモリ110-2、マイクロフォン112-2、および出力トランスデューサ114-2が含まれていてもよい。聴取装置102には、特定の実装形態に役立ち得る付加的または択一的なコンポーネントが含まれていてもよい。
【0014】
プロセッサ108(例えば、プロセッサ108-1およびプロセッサ108-2)は、様々な処理動作、例えば、聴取装置102によって受け取ったオーディオコンテンツの処理およびデータの相互の伝送等を実行するように構成されている。プロセッサ108はそれぞれ、ハードウェアおよびソフトウェアの任意の適切な組み合わせによって実装可能である。聴取装置(例えば聴取装置102-1)によって実行される動作に対する、本明細書におけるあらゆる言及は、聴取装置のプロセッサ(例えばプロセッサ108-1)によって実行されると理解可能である。
【0015】
メモリ110(例えば、メモリ110-1およびメモリ110-2)は、任意の適切なタイプの非一時的なコンピュータ可読記憶媒体によって実装可能であり、プロセッサ108によって利用されるデータを保持(例えば、保存)することができる。例えば、メモリ110には、それぞれのプロセッサ108がどのようにオーディオコンテンツを処理してユーザに送出するかを指定する動作プログラムを表すデータが格納されてもよい。説明のため、聴取装置102-1が補聴器である場合、メモリ110-1は、アコースティックコンテンツをユーザに送出するためにプロセッサ108-1によって使用されるオーディオ増幅方式(例えば、増幅レベルなど)を指定する動作プログラムを表すデータを保持することができる。別の実施例として、聴取装置102-1が人工内耳システムに含まれる音響プロセッサである場合、メモリ110-1には、人工内耳に指示してアコースティックコンテンツを表す電気刺激をユーザに適用するために聴取装置102-1によって使用される刺激方式を指定する動作プログラムを表すデータが保持可能である。
【0016】
マイクロフォン112(例えば、マイクロフォン112-1およびマイクロフォン112-2)は、任意の適切なオーディオ検出装置によって実装可能であり、聴取装置102のユーザに提示したオーディオ信号を検出するように構成されている。
図1に示したように、マイクロフォン112は、聴取装置102に含まれる(例えば、聴取装置102の内部にもしくは表面に埋め込まれるか、またはそうでなければ聴取装置102に配置される)ことが可能である。1つまたは両方のマイクロフォン112は択一的には、それらのそれぞれの聴取装置102とは別体でありかつこれらと通信可能に接続されていてもよい。例えば、マイクロフォン112-1は、聴取装置102-1に取り外し可能に取り付け可能である。
【0017】
本明細書では、マイクロフォン112-1は、ユーザの同側耳に関連付けられた同側マイクロフォンと称されてもよい。同様に本明細書では、マイクロフォン112-2は、ユーザの対側耳に関連付けられた対側マイクロフォンと称されてもよい。特定の耳に提示されるオーディオ信号がマイクロフォンによって検出されるように、特定の耳の比較的近くに配置されていることにより、マイクロフォンは、この特定の耳に「関連付けられる」ことが可能である。例えば、マイクロフォン112-1は、同側耳に提示したオーディオ信号を検出するように構成されてもよい(そのために、このオーディオ信号は、本明細書では「同側オーディオ信号」と称されることもある)。同様に、マイクロフォン112-2は、反対側の耳に提示したオーディオ信号を検出するように構成されてもよい(そのために、このオーディオ信号は、本明細書では「対側オーディオ信号」と称されることもある)。同側オーディオ信号および対側オーディオ信号は、同じオーディオコンテンツ(例えば、音楽、音声、ノイズ、自声コンテンツ等)を表していてもよいが、マイクロフォン112の位置が異なるため、異なる特性を有してもよい。
【0018】
出力トランスデューサ114は、任意の適切なオーディオ出力装置によって実装可能である。例えば、出力トランスデューサ114は、聴取装置のスピーカ(受信器とも称される)または人工内耳システムの1つもしくは複数の電極によって実装されてもよい。
【0019】
図2には、本明細書で説明するシステムおよび方法にしたがって使用可能な択一的な聴取システム200が示されている。聴取システム200は、ユーザの同側耳に関連付けられた聴取装置102-1が聴取システム200に含まれる点において聴取システム100と類似している。しかしながら、図示したように、聴取システム200には、ユーザの対側耳に関連付けられた第2聴取装置は含まれていない。むしろ、聴取システム200には、ユーザの対側耳に関連付けられておりかつ特定の実装形態に役立ち得る有線または無線であってよい通信リンク204を介して聴取装置102-1に通信可能に接続されている対側マイクロフォン202が含まれている。
【0020】
本明細書で説明するように、聴取装置(例えば聴取装置102-1および/または聴取装置102-2)は、同側マイクロフォンおよび対側マイクロフォンによって検出される同側オーディオ信号および対側オーディオ信号によって表されるオーディオコンテンツにそれぞれ、自声コンテンツが含まれる場合を特定するように構成可能である。これから説明するように、これは、少なくとも部分的に、同側オーディオ信号の異なるスペクトル部分のSPLの比較に基づいて実行可能である。
【0021】
図3には、自声コンテンツを含むオーディオ信号についてのSPLを示す例示的なグラフ300が示されている。グラフ300には、相対距離を表すx軸304に対して、相対的なSPLを表すy軸302が含まれている。例えば、x軸304には2つの位置、すなわち、ユーザの口元における位置を表す位置306と、ユーザの耳元における位置を表す位置308とが示されている。実線310は、オーディオ信号の第1スペクトル部分のSPLを描画しており、破線312は、オーディオ信号の第2スペクトル部分のSPLを描画している。第1スペクトル部分は、オーディオ信号の低周波数範囲を含む周波数に対応するのに対し、第2スペクトル部分は、オーディオ信号の高周波数範囲を含む周波数に対応している。
【0022】
第1スペクトル部分についての周波数の範囲は、オーディオ信号の残りの周波数範囲よりも低い任意の適切な周波数範囲であってもよい。例えば、低周波数範囲は、任意の適切な比較的低いオーディオ周波数(例えば500ヘルツ(Hz)~2kHz)にセンタリングされた、任意の適切な幅(例えば、10Hz~2kHz)の周波数帯域であってもよい。例えば、低周波数範囲は、800Hz~1200Hz、975Hz~1025Hz、または任意の別の適切な領域であってよい。スペクトル部分のSPLは、スペクトル部分に関連付けられた任意の適切なSPL、例えば、平均SPL、中央値SPL、最大SPL、最小SPL等であってもよい。第2スペクトル部分についての周波数の範囲は、オーディオ信号の低周波数範囲よりも高い任意の適切な周波数範囲であってもよい。例えば、高周波数範囲は、任意の適切な比較的高いオーディオ周波数(例えば4キロヘルツ(kHz)~10kHz)にセンタリングされた、任意の適切な幅(例えば、10Hz~2kHz)の周波数帯域であってもよい。例えば、高周波数範囲は、4kHz~7kHz、5kHz~6kHzまたは任意の別の適切な領域であってもよい。
【0023】
オーディオコンテンツに自声コンテンツが含まれている場合、位置306に示したように、オーディオ信号は、低周波数範囲および高周波数範囲について、比較的類似のSPLでユーザの口を出発することができる。しかしながら、低周波数範囲および高周波数範囲は、異なるアコースティック経路を取って、耳に到達することがある。オーディオ信号の低周波数範囲(またはオーディオ信号の低周波数範囲の少なくとも一部)は、ユーザの頭部を通した直接的な伝導を介して、口から耳に伝送されることがある。しかしながら、オーディオ信号の高周波数範囲は、頭部を通して伝導できないこともあり、その代わりに口と耳との間の直接的でない経路を介して伝送されることがある(これには別の表面からの反射を介する経路が含まれる)。その結果、位置308に示したように、オーディオ信号が口から耳に進むと、低周波数範囲のSPLは、高周波数範囲のSPLよりも減衰が少なくなることがある。
【0024】
図4には、自声コンテンツを含むオーディオコンテンツを表すオーディオ信号についてのSPLをさらに示す、例示的なグラフ400が示されている。グラフ400には、周波数を表すx軸404に対して、SPLを表すy軸402が含まれている。破線406は、オーディオ信号の発生源におけるオーディオ信号を表す。この実施例では、オーディオ信号は、オーディオ信号の発生源において、オーディオ信号のスペクトルにわたって同じSPLを有していてよく、したがって、点線406は、周波数の全ての値にわたって同じSPL値を有する。
【0025】
実線408は、オーディオ信号が自声コンテンツを表す場合の、ユーザの耳へのオーディオ信号の伝送を表す。グラフ300に関して説明したように、オーディオ信号が自声コンテンツを表す場合、オーディオ信号の低周波数範囲は、オーディオ信号の高周波数範囲よりも減衰が少なくなる。対照的に、破線410は、オーディオ信号が自声コンテンツを含まないオーディオコンテンツを表す場合、ユーザの耳へのオーディオ信号の(同じ距離にわたる)伝送を表す。図示したように、オーディオコンテンツが自声コンテンツを含んでいない場合、オーディオ信号の低周波数範囲は、高周波数範囲と相対的に同程度の量で減衰する。というのは、両方の周波数範囲は、オーディオコンテンツの発生源からユーザの耳まで、同様のアコースティック経路を進むからである。
【0026】
自声コンテンツを有するオーディオ信号およびこれを有しないオーディオ信号における対比は、矢印412および矢印414によって強調されており、これらの矢印が低周波数範囲において示しているのは、自声コンテンツを有しないオーディオ信号(矢印414)については、自声コンテンツを有するオーディオ信号(矢印412)と比較して、SPLにおける降下が比較的大きいことである。これに対し、矢印416および矢印418は、高周波数範囲において、自声コンテンツを有しないオーディオ信号(矢印416)と、自声コンテンツを有するオーディオ信号(矢印418)とについて、SPLの降下における差分が比較的小さいことを示している。むしろ、この実施例に示したように、所定の周波数レベルでは、自声コンテンツを有するオーディオ信号は、自声コンテンツを有しないオーディオ信号よりも多く減衰することがある。ユーザの耳元で(例えば、近くで)検出されるオーディオ信号のスペクトル部分についてのSPL間のこれらの差分は、オーディオ信号が、自声コンテンツを含むオーディオコンテンツを表すか否かを特定する場合に、聴取装置(例えば、聴取装置102-1)が考慮することのできるファクタになり得る。
【0027】
図5には、本明細書で説明する聴取装置102-1または聴取装置102-2のどちらかを表し得る聴取装置102の例示的な構成500が示されている。図示したように、聴取装置102により、同側オーディオ信号502-1および対側オーディオ信号502-2(まとめてオーディオ信号502と称する)が受信される。説明したように、同側オーディオ信号502-1は、同側マイクロフォン(例えばマイクロフォン112-1)によって検出されてもよく、対側オーディオ信号502-2は、対側マイクロフォン(例えば、マイクロフォン112-2またはマイクロフォン202)によって検出されてもよい。
【0028】
聴取装置102は、分析機能504~510によって表されるように、オーディオ信号502に自声コンテンツが含まれるか否かを特定するために、オーディオ信号502に対して様々な動作を実行することができる。例えば、図示したように、聴取装置102は、これらのオーディオ信号に自声コンテンツが含まれるか否かを特定するために、同側オーディオ信号502-1および/または対側オーディオ信号502-2に対し、スペクトルSPL分析504、方向分析506、全体SPL分析508、および/または音声コンテンツ分析510を実行することができる。聴取装置102は、特定の実装形態に役立ち得る、これらの分析機能504~510のうちの1つまたは複数の任意の組み合わせを使用することができる。例えば、いくつかのケースでは、スペクトルSPL分析504、方向分析506単独もしくは全体SPL分析508との組み合わせた方向分析506、および/または音声コンテンツ分析510に基づき、聴取装置102により、同側オーディオ信号502-1および/または対側オーディオ信号502-2に自声コンテンツが含まれていることが特定されてもよい。同側オーディオ信号502-1および/または対側オーディオ信号502-2の、1つまたは複数の分析機能504~510による処理に基づき、聴取装置102は、オーディオ信号502に自声コンテンツが含まれるか否かを示す自声特定データ512を出力することができる。それぞれの分析機能504~510は、本明細書に記載されている。
【0029】
聴取装置102は、任意の適切な仕方でスペクトルSPL分析504を実行することができる。例えば、聴取装置102は、同側オーディオ信号の第1スペクトル部分の第1SPLを特定することができる。第1スペクトル部分は、第1周波数範囲に含まれる周波数を有してもよい。聴取装置102はさらに、同側オーディオ信号の第2スペクトル部分の第2SPLを特定することができる。第2スペクトル部分は、第1周波数範囲よりも高い第2周波数範囲に含まれる周波数を有してもよい。聴取装置102はさらに、第1SPLが、少なくとも閾値SPL量だけ第2SPLよりも大きいか否かを特定することができる。閾値量は、任意の適切な閾値SPL量であってもよい。例えば、自声コンテンツを含まないオーディオコンテンツに対し、同側オーディオ信号についての平均第1SPLは、第2SPLよりも約10デシベル(dB)高くてもよい。対照的に、自声コンテンツを含むオーディオコンテンツに対し、同側オーディオ信号についての平均第1SPLは、第2SPLよりも約30dB高くてもよい。したがって、閾値SPL量は、平均差分値(例えば、15dB、20dB、25dB等)の間の値について設定することができる。
【0030】
付加的または択一的には、聴取装置102により、第1SPLと第2SPLとの比を特定し、この比が、閾値SPL量に関連付けられた閾値比よりも大きいか否かを特定することによって、第1SPLが、少なくとも閾値量だけ第2SPLよりも大きいか否か特定することができる。閾値SPL比は、第1スペクトル部分の減衰が、閾値SPL量だけ第2スペクトル部分よりも小さいことを示す任意の適切なSPL比であってもよい。したがって、閾値SPL比は、第1スペクトル部分のSPLが、少なくとも閾値SPL量だけ第2スペクトル部分のSPLよりも大きいことを示すことができる。例えば、閾値比は、25~35(例えば、28~32であるか、30に設定されるか、または25~35である任意の別の閾値等)または任意の別の適切な比であってもよい。
【0031】
聴取装置102は、任意の適切な仕方で方向分析506を実行することができる。例えば、聴取装置102(例えば、聴取装置102の方向/空間分類器)は、同側オーディオ信号502-1と対側オーディオ信号502-2との対称レベルを特定し、この対称レベルと閾値対称レベルとを比較することができる。聴取装置102はさらに、頭部関連伝達関数を使用し、ユーザを基準としてオーディオ信号502が到来している方向を特定することができる。口はユーザの耳の前方にあるので、口によって生成されるオーディオ信号は、ユーザの前方から到来するように見えることがある(かつ/または物体で反射されて実際にユーザの前方から到来することがある)。
【0032】
ユーザの前面からのオーディオ信号は、左耳および右耳によって検出されると、比較的対称であり得る。したがって、聴取装置102により、同側オーディオ信号502-1と対側オーディオ信号502-2との対称レベルが特定可能である。この対称レベルは、適切な任意の仕方、例えばオーディオ信号502のSPL、オーディオ信号502の波形形状等の比較等で特定可能である。聴取装置102は、対称レベルが、少なくとも閾値対称レベルであるか否かを特定することができる。閾値対称レベルは、任意の適切な閾値対称レベルであってもよい。付加的に、聴取装置102はさらに、比較的対称的なオーディオ信号が、ユーザの前面またはユーザの背後から到来するように見えるか否か特定することができる。というのは、ユーザの背後からのオーディオ信号も比較的対称的であり得るからである。このような特定は、任意の適切な仕方で、例えば頭部関連伝達関数等を使用して実行可能である。
【0033】
聴取装置102は、任意の適切な仕方で全体SPL分析508全体を実行することができる。例えば、聴取装置102は、同側オーディオ信号502のSPLを(例えば、大部分または全ての周波数にわたって)特定することができる。自声コンテンツを有するオーディオ信号についてのSPLは一般に、自声コンテンツの発生源がユーザの口であり、ゆえにユーザの耳からの距離が固定であるため、自声コンテンツを有しないオーディオ信号についてのSPLよりも全体的に高い。他方において、自声コンテンツを有しないオーディオ信号は一般に、ユーザの耳から、ユーザの口よりも遠く離れた発生源からのものであり、したがって一般に全体SPLが比較的低い。聴取装置102は、オーディオコンテンツが自声コンテンツを含み得るか否かを特定するために、全体SPLと閾値SPLとを比較することができる。閾値SPLは、任意の適切なSPLであってもよい。
【0034】
聴取装置102は、任意の適切な仕方で音声コンテンツ分析510を実行することができる。自声コンテンツは一般に、音声コンテンツ(speech content)を含んでいてよく、したがって、音声コンテンツの検出は、オーディオコンテンツに自声コンテンツが含まれているか否かの特定に使用される別のファクタであってもよい。さらに、全体SPLが概して比較的高いことは特に、音声コンテンツを含むオーディオコンテンツを表すオーディオ信号に当てはまり得る。
【0035】
聴取装置102は、これらの分析のうちの1つまたは複数に基づいて、自声特定の出力512を供給することができる。いくつかの実施例では、これらのファクタおよび別のファクタに基づいて、自声コンテンツの検出を最適化するために、機械学習アルゴリズムを使用することができる。いくつかの実施例では、自声特定はさらに、対側聴取装置の自声特定に基づいていてもよい。分析機能504~510に基づき、同側聴取装置および対側聴取装置の両方は、オーディオ信号に自声コンテンツが含まれるか否かについて同じ特定に至るべきである。ゆえに、それぞれの装置はさらに、そのそれぞれの自声特定を、他方の聴取装置の自声特定に基づいて行うことができる。
【0036】
図6には、このような機械学習アルゴリズムを実装するように構成された機械学習モジュール602を含む聴取装置102の例示的な構成600が示されている。構成600には、機械学習モジュール602が追加された、構成500と同様の聴取装置102が示されている。機械学習モジュール602は、任意の適切な機械学習アルゴリズム、例えば、ニューラルネットワーク(例えば、人工ニューラルネットワーク(ANN)、畳み込みニューラルネットワーク(CNN)、ディープニューラルネットワーク(DNN)および/またはリカレントニューラルネットワーク(RNN)等)、強化学習、線形回帰等を用いて実装されてもよい。機械学習モジュール602は、聴取装置102によって分析されるオーディオ信号502の様々な特性について、最適なパラメータ、重み付け等を特定することができる。例えば、機械学習モジュール602は、スペクトルSPL分析504用の最適な閾値、スペクトルSPL分析504用の最適な周波数範囲、方向分析506用の対称レベルのための閾値、全体SPL分析508用の閾値等を特定することができる。機械学習モジュール602は、任意の適切な仕方でトレーニングされてもよい。例えば、機械学習モジュール602は、オーディオ信号502に自声コンテンツが含まれているか否かの特定に基づいて、閾値を更新するように構成されてもよい。このような最適化は、本明細書で説明されている。付加的または択一的に、機械学習モジュール602は、教師ありの手法で、例えば、オーディオ信号に自声コンテンツが含まれているか否かにしたがってラベル付けされる、オーディオ信号の初期データセットを使用し、かつ/またはオーディオ信号に自声コンテンツが含まれる(または含まれない)場合にユーザからの入力を受け取る等でトレーニング可能である。
【0037】
構成600には、聴取装置102に含まれている機械学習モジュール602が示されているが、択一的に機械学習モジュールは、リモートに実装され、かつ(例えば、スマートフォン、サーバ等における)聴取装置102に通信可能に接続されてもよい。付加的または択一的には、聴取装置102に通信可能に接続されたリモート装置において分析機能504~510のいずれかを実行することもできる。
【0038】
図7には、自声コンテンツを有するオーディオコンテンツおよびこれを有しないオーディオコンテンツを表すオーディオ信号について、SPL比を示す例示的なグラフ700が示されている。グラフ700には、サンプルSPL比が特定されている8つの対象体を表すx軸704に対し、SPL比を表すy軸702が含まれている。対象体、S1~S8毎に、自声コンテンツを有するオーディオ信号と、自声コンテンツを有しないオーディオ信号とに対する周波数範囲について、またSPLに基づいて特定されるSPL比について、SPLを測定した。
【0039】
実線706は、対象体S1~S8に対し、自声コンテンツを有するオーディオ信号についてのSPL比を示しており、破線708は、対象体S1~S8に対し、自声コンテンツを有しないオーディオ信号についてのSPL比を示している。例えば、実線706-1は、対象体S1に対し、自声コンテンツを有するオーディオ信号について、高周波数範囲に対するSPLと、低周波数範囲に対するSPLとの間の約36のSPL比を示している。破線708-1は、対象体S1に対し、自声コンテンツを有しないオーディオ信号について、高周波数範囲に対するSPLと、低周波数範囲に対するSPLとの間の約27のSPL比を示している。
【0040】
実線706と破線708との間には破線710があり、この破線710は、自声コンテンツを有するオーディオ信号と、自声コンテンツを有しないオーディオ信号とについてのSPL比間の例示的な閾値であってよい。例えば、破線710-1は、対象体S1についての閾値SPL比として使用され得る約31のSPL比を示している。付加的または択一的に、破線712は、対象体S1~S8についての閾値SPL比に基づいて特定された平均閾値SPL比(例えば、約30のSPL比)を示している。平均閾値SPL比は、デフォルトの閾値SPL比(例えば、28~32のSPL比)として使用可能であり、このデフォルトの閾値SPL比は次いで、本明細書で説明する個別のSPL比に基づいて調整可能である。
【0041】
図8には、聴取装置(例えば聴取装置102)によって自声コンテンツを特定するための例示的なフローチャート800が示されている。聴取装置102は、同側オーディオ信号および対側オーディオ信号を受信することができ、動作802では、同側オーディオ信号の低周波数範囲を含む第1スペクトル部分についてSPLを特定することができる。SPLは、任意の適切な仕方で特定可能である。動作804では、聴取装置102により、同側オーディオ信号の高周波数範囲を含む第2スペクトル部分についてSPLが特定可能である。
【0042】
動作806では、聴取装置102により、低周波数範囲のSPLと、高周波数範囲のSPLとのSPL比が特定可能である。SPL比は、本明細書で説明するいずれかの仕方で特定可能である。例えば、低周波数範囲のSPLは、高周波数範囲のSPLで除算可能である。付加的または択一的に、周波数領域では、低周波数範囲のSPLから高周波数範囲のSPLを減算してもよい。付加的または択一的に、SPL差分と周波数範囲における差分とに基づき、傾きが決定可能である。
【0043】
動作808では、聴取装置102により、同側オーディオ信号と対側オーディオ信号との対称レベルが特定可能である。対称レベルは、本明細書で説明するいずれかの仕方で特定可能である。
【0044】
動作810では、聴取装置102により、対称レベルに基づき、オーディオ信号がユーザの前面から到来しているように思われるか否かが特定可能である。いくつかの実施例では、本明細書で説明するように、この特定はさらに、頭部関連伝達関数に基づいていてもよい。オーディオ信号がユーザの前面から到来しているように思われないことが聴取装置102によって特定される場合(動作810のノー)、動作812では、聴取装置102により、このオーディオ信号によって表されるオーディオコンテンツには自声コンテンツが含まれないと特定可能である。
【0045】
いくつかの実施例ではまた、動作812において、聴取装置102により、分析パラメータが更新可能である。例えば、聴取装置102により、閾値を特定するかつ/または調整するためにオーディオ信号の特性が使用可能であり、これにより、自声コンテンツを特定するために、この閾値に対して付加的なオーディオ信号が比較される。例えば、オーディオ信号の特性には、全体SPL、SPL比、(例えば、スペクトル部分について周波数範囲を調整するための)オーディオ信号の、異なるスペクトル部分についてのSPL等が含まれてもよい。このような特性に基づき、聴取装置102により、閾値SPL量、全体SPL閾値、第1スペクトル部分および第2スペクトル部分についての周波数範囲、閾値対称レベル、および/または自声コンテンツを検出するための任意の別の閾値が調整可能である。
図7に関連して説明したように、いくつかの実施例では、これらの調整を行うために機械学習モジュール602が使用可能である。付加的または択一的に、これらの調整を行うために任意の別の適切な処理が使用可能である。
【0046】
いくつかの実施例ではまた、聴取装置102により、動作814において、オーディオコンテンツに音声コンテンツが含まれるか否かが特定可能である。聴取装置102により、音声コンテンツを検出するためにオーディオ信号を任意の適切な仕方で分析することができる。オーディオコンテンツに音声コンテンツが含まれてないことが聴取装置102によって特定される場合(動作814のノー)、聴取装置102により、オーディオ信号の特性に基づいて、動作812が実行可能であり、これにより、オーディオ信号が自声コンテンツを表していないと特定し、また分析パラメータを相応に更新する。聴取装置102により、オーディオコンテンツに音声コンテンツが含まれると特定される場合(動作814のイエス)、聴取装置102により、動作816が実行可能である。
【0047】
動作810において、聴取装置102により、オーディオ信号がユーザの前面から到来しているように思われると特定される場合(動作810のイエス)、動作816において、聴取装置102により、動作806で特定したSPL比が、少なくとも閾値SPL比であるか否かが特定可能である。SPL比が閾値SPL比よりも小さいことが聴取装置102によって特定される場合(動作816のノー)、聴取装置102により、動作812が実行可能であり、これにより、オーディオ信号の特性に基づいて、オーディオ信号が自声コンテンツを表していないことが特定され、分析パラメータを相応に更新する。したがって、聴取装置102により、少なくとも閾値対称レベルを有する同側オーディオ信号および対側オーディオ信号であっても、同側オーディオ信号のSPL比が閾値SPL比を満たしていないことに基づいて、同側オーディオ信号が自声コンテンツを含まないことを特定することができる。逆に、聴取装置102により、少なくとも閾値SPL比を有してはいても、同側オーディオ信号および対側オーディオ信号が閾値対称レベルを満たしていないことに基づいて、同側オーディオ信号が自声コンテンツを含まないことを特定することができる。
【0048】
聴取装置102により、SPL比が、少なくとも閾値SPL比であることが特定されると(動作816のイエス)、動作818では、聴取装置102により、オーディオ信号が自声コンテンツを表すことを特定することができる。したがって、オーディオ信号が自声コンテンツを表すことの特定は、SPL比が、少なくともSPL比であるとの特定(動作816のイエス)と、オーディオ信号がユーザの前面から到来していると思われることの特定(動作810のイエス)との両方に基づく。
【0049】
聴取装置102は、自声コンテンツのこの特定を任意の適切な仕方で使用可能である。例えば、自声コンテンツを含むオーディオ信号は、自声コンテンツを含まないオーディオ信号とは異なる処理をすることができる。このような処理は、ユーザにより自然に聞こえるような仕方で、ユーザ自身の声をユーザに供給するように構成されていてもよく、これにより、キーワード検出、オクルージョン制御等が改善される。例えば、聴取装置102には、様々な音響処理プログラムが含まれてよく、その一部は自声コンテンツを処理するように構成可能である。このようなプログラムは、オーディオ信号に自声コンテンツが含まれることの特定に基づいて選択および/または調整されてもよい。付加的または択一的に、自声コンテンツは、任意の適切な仕方で、例えば、伝送のための電話機への供給、電話機用のサイドトーンのミキシング等に使用可能である。
【0050】
さらに、聴取装置102より、オーディオ信号が自声コンテンツを表していることの特定に基づき、オーディオ信号の特性を用いて、分析パラメータを更新することも可能である。例えば、高周波数範囲と比較した、低周波数範囲の減衰は一般に、認識可能なパターンにしたがっていてよいが、このパターンはそれぞれの特定のユーザに基づいて変化してよい。さらに、それぞれの特定のユーザについてであるとしても、特性(およびしたがって最適閾値)は、音声のコンテンツにも、またユーザの感情、音量、健康状態、活動、アコースティック環境等に基づいて変化し得る。したがって、聴取装置102によってさらに、オーディオ信号が自声コンテンツを表していることの特定に基づいて、分析パラメータを更新することができる。任意の適切な機械学習アルゴリズムも同様に使用可能である。いくつかの実施例では、聴取装置102用の分析パラメータ値は最初に、特定のユーザのプロファイル、特性、モデルおよび/またはボイスサンプルに基づき、機械アルゴリズムを使用してプログラムおよび/またはトレーニングされてもよい。
【0051】
図9には、本明細書で説明する1つまたは複数の処理を行うように特別に構成されてもよい、例示的な計算装置900が示されている。本明細書で説明するシステム、ユニット、計算装置、および/または別のコンポーネントのいずれも計算装置900によって実装可能である。
【0052】
図9に示したように、計算装置900には、通信インフラストラクチャ910を介して互いに通信可能に接続された通信インタフェース902と、プロセッサ904と、記憶装置906と、入力/出力(「I/O」)モジュール908とが含まれていてもよい。
図9では例示的な計算装置900が示されているが、
図9に示したコンポーネントは、限定することが意図されてはいない。別の実施形態では、付加的または択一的なコンポーネントが使用可能である。次に、
図9に示した計算装置900のコンポーネントをさらに詳細に説明する。
【0053】
通信インタフェース902は、1つまたは複数の計算装置と通信するように構成されていてもよい。通信インタフェース902の例には、有線ネットワークインタフェース(ネットワークインタフェースカード等)、無線ネットワークインタフェース(無線ネットワークインタフェースカード等)、モデム、オーディオ/ビデオ接続、および任意の別の適切なインタフェースが含まれるが、これらに限定されない。
【0054】
プロセッサ904は一般に、本明細書で説明するデータを処理しかつ/または1つもしくは複数の命令、プロセス、および/または演算を解釈し、実行しかつ/または実行を命じることができる、任意のタイプまたは形態の処理ユニットを表す。プロセッサ904は、記憶装置906に記憶されているコンピュータ実行可能命令912(例えば、アプリケーション、ソフトウェア、コード、および/または別の実行可能なデータインスタンス)を実行することによって動作を実行することができる。
【0055】
記憶装置906には、1つまたは複数の非一時的なコンピュータ可読データ記憶媒体、デバイスまたは構成が含まれていてもよく、記憶装置906は、あらゆるタイプ、形態、および組み合わせデータ記憶媒体および/またはデバイスを使用することができる。例えば、記憶装置906には、本明細書で説明する任意の組み合わせの不揮発性媒体および/または揮発性媒体が含まれていてもよいが、これらに限定されない。本明細書で説明するデータを含む電子データは、記憶装置906に一時的にかつ/または永続的に格納されてもよい。例えば、プロセッサ904に命じて、本明細書で説明するいずれかの演算を実行させるように構成されたコンピュータ実行可能命令912を表すデータは、記憶装置906内に格納されていてもよい。いくつかの実施例では、データは、記憶装置906内に常駐する1つまたは複数のデータベースに配置されていてもよい。
【0056】
I/Oモジュール908には、ユーザ入力を受け取り、ユーザに出力を供給するように構成された1つまたは複数のI/Oモジュールが含まれていてもよい。I/Oモジュール908には、入力機能および出力機能力を支援する任意のハードウェア、ファームウェア、ソフトウェア、またはそれらの組み合わせが含まれていてもよい。例えば、I/Oモジュール908には、ユーザ入力を取り込むためのハードウェアおよび/またはソフトウェアが含まれていてもよく、これらには、キーボードまたはキーパッド、タッチスクリーンコンポーネント(例えば、タッチスクリーンディスプレイ)、受信器(例えば、RFまたは赤外線受信器)、モーションセンサ、および/または1つまたは複数の入力ボタンが含まれるが、これらに限定されない。
【0057】
I/Oモジュール908には、ユーザに出力を提示するための1つまたは複数の装置が含まれていてもよく、これらの装置には、グラフィックエンジン、ディスプレイ(例えばディスプレイスクリーン)、1つまたは複数の出力ドライバ(例えばディスプレイドライバ)、1つまたは複数のオーディオスピーカ、および1つまたは複数のオーディオドライバが含まれるが、これらに限定されない。特定の実施形態では、I/Oモジュール908は、ユーザに提示するためにディスプレイにグラフィカルデータを供給するように構成されている。グラフィカルデータは、1つまたは複数のグラフィカルユーザインタフェースおよび/または特定の実装形態に役立ち得る任意の別のグラフィカルコンテンツを表していてもよい。
【0058】
図10には、例示的な方法1000が示されている。
図10に示した1つまたは複数の動作は、本明細書で説明するいずれかの聴取装置によって実施可能である。
図10には、1つの実施形態による例示的な動作を示したが、別の実施形態では、
図10に示したいずれかの動作を省略、追加、並び替えおよび/または変更してもよい。
図10に示したそれぞれの動作は、本明細書で説明するいずれかの仕方で実施可能である。
【0059】
動作1002では、同側耳に関連付けられた聴取装置により、同側オーディオ信号の第1スペクトル部分であって、第1周波数範囲に含まれる周波数を有する第1スペクトル部分の第1音圧レベル(SPL)を特定する。
【0060】
動作1004では、聴取装置により、同側オーディオ信号の第2スペクトル部分であって、第1周波数範囲よりも高い第2周波数範囲に含まれる周波数を有する第2スペクトル部分の第2SPLを特定する。
【0061】
動作1006では、聴取装置により、第1SPLが、少なくとも閾値SPL量だけ第2SPLよりも大きいことを特定する。
【0062】
動作1008では、聴取装置により、同側オーディオ信号と対側オーディオ信号との対称レベルが、少なくとも閾値対称レベルであることを特定する。
【0063】
動作1010では、聴取装置により、オーディオコンテンツに音声コンテンツが含まれていることを特定する。
【0064】
動作1012では、第1SPLが、少なくとも閾値SPL量だけ第2SPLよりも大きいことの特定と、対称レベルが少なくとも閾値対称レベルであることの特定と、オーディオコンテンツに音声コンテンツが含まれていることの特定とに基づいて、聴取装置により、オーディオコンテンツが、ユーザの声を表す自声コンテンツを有することを特定する。
【0065】
前述の説明では、添付の図面を参照して、様々な例示的な実施形態を説明してきた。しかしながら、次の特許請求の範囲に記載した本発明の範囲から逸脱することなく、様々な修正および変更を上記の実施形態に行い得ること、また付加的な実施形態を実装できることは明らかになろう。例えば、本明細書で説明した1つの実施形態の特定の特徴は、本明細書で記載した別の実施形態の特徴と組み合わせることができるか、または置き換えることができる。したがって本明細書および図面は、制限的な意味と見られるべきではなく、例示的な意味と見られるべきである。
【国際調査報告】