特表2024-502930 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ソノヴァアー・ゲーの特許一覧

特表2024-502930聴取システムにおける自声検出のためのシステムおよび方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-01-24

(54)【発明の名称】聴取システムにおける自声検出のためのシステムおよび方法

(51)【国際特許分類】

H04R 3/00 20060101AFI20240117BHJP

H04R 25/00 20060101ALI20240117BHJP

G10L 25/51 20130101ALI20240117BHJP

G10L 25/18 20130101ALI20240117BHJP

H04R 1/10 20060101ALN20240117BHJP

【ＦＩ】

H04R3/00 320

H04R25/00 H

G10L25/51

G10L25/18

H04R1/10 101A

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023533208

(86)(22)【出願日】2020-11-30

(85)【翻訳文提出日】2023-06-21

(86)【国際出願番号】 IB2020061290

(87)【国際公開番号】W WO2022112834

(87)【国際公開日】2022-06-02

(81)【指定国・地域】

(71)【出願人】

【識別番号】501481746

【氏名又は名称】ソノヴァアー・ゲー

【氏名又は名称原語表記】ＳｏｎｏｖａＡＧ

【住所又は居所原語表記】Ｌａｕｂｉｓｒｕｅｔｉｓｔｒａｓｓｅ２８，８７１２Ｓｔａｅｆａ，Ｓｗｉｔｚｅｒｌａｎｄ

(74)【代理人】

【識別番号】100114890

【弁理士】

【氏名又は名称】アインゼル・フェリックス＝ラインハルト

(74)【代理人】

【識別番号】100098501

【弁理士】

【氏名又は名称】森田拓

(74)【代理人】

【識別番号】100116403

【弁理士】

【氏名又は名称】前川純一

(74)【代理人】

【識別番号】100134315

【弁理士】

【氏名又は名称】永島秀郎

(74)【代理人】

【識別番号】100162880

【弁理士】

【氏名又は名称】上島類

(72)【発明者】

【氏名】ヘンリールオ

(72)【発明者】

【氏名】アラタラスリアン

【テーマコード（参考）】

5D220

【Ｆターム（参考）】

5D220BA01

(57)【要約】

例示的な聴取装置は、オーディオコンテンツを表す同側オーディオ信号の、第１および第２スペクトル部分の第１および第２音圧レベル（ＳＰＬ）をそれぞれ特定するように構成されている。第１および第２スペクトル部分は、第１および第２周波数範囲に含まれる周波数をそれぞれ有し、ただし第２周波数範囲は、第１周波数範囲よりも高い。装置はさらに、第１ＳＰＬが少なくとも閾値ＳＰＬ量だけ第２ＳＰＬよりも大きいことを特定し、同側オーディオ信号と対側オーディオ信号との対称レベルが少なくとも閾値対称レベルであることを特定することができる。これらの特定に基づき、聴取装置は、オーディオコンテンツが自声コンテンツを有することを特定することができる。

【特許請求の範囲】

【請求項1】

聴取システムであって、前記聴取システムは、
ユーザの同側耳に関連付けられ、かつオーディオコンテンツを表す同側オーディオ信号を検出するように構成された同側マイクロフォンと、
前記ユーザの対側耳に関連付けられ、かつ前記オーディオコンテンツを表す対側オーディオ信号を検出するように構成された対側マイクロフォンと、
前記同側耳に関連付けられた聴取装置とを有し、前記聴取装置は、
前記同側オーディオ信号の第１スペクトル部分であって、第１周波数範囲に含まれる周波数を有する第１スペクトル部分の第１音圧レベル（ＳＰＬ）を特定し、
前記同側オーディオ信号の第２スペクトル部分であって、前記第１周波数範囲よりも高い第２周波数範囲に含まれる周波数を有する第２スペクトル部分の第２ＳＰＬを特定し、
前記第１ＳＰＬが少なくとも閾値ＳＰＬ量だけ前記第２ＳＰＬよりも大きいことを特定し、
前記同側オーディオ信号と前記対側オーディオ信号との対称レベルが少なくとも閾値対称レベルであることを特定し、
前記第１ＳＰＬが少なくとも前記閾値ＳＰＬ量だけ前記第２ＳＰＬよりも大きいことの前記特定と、前記対称レベルが少なくとも前記閾値対称レベルであることの前記特定とに基づいて、前記オーディオコンテンツが前記ユーザの声を表す自声コンテンツを有することを特定する、
ように構成されている、聴取システム。

【請求項2】

前記第１ＳＰＬが少なくとも前記閾値ＳＰＬ量だけ前記第２ＳＰＬよりも大きいことの前記特定には、
前記第１ＳＰＬと前記第２ＳＰＬとの比を特定することと、
前記比が前記閾値ＳＰＬ量に関連付けられた閾値比よりも大きいことを特定することと
が含まれる、請求項１記載の聴取システム。

【請求項3】

前記第１周波数範囲は、８００ヘルツ（Ｈｚ）～１２００Ｈｚであり、前記第２周波数範囲は、４キロヘルツ（ｋＨｚ）～７ｋＨｚであり、前記閾値比は、２５～３５である、請求項２記載の聴取システム。

【請求項4】

前記聴取装置はさらに前記同側オーディオ信号の全体ＳＰＬを特定するように構成されており、
前記オーディオコンテンツが自声コンテンツを有することの前記特定はさらに、前記同側オーディオ信号の全体ＳＰＬに基づく、
請求項１記載の聴取システム。

【請求項5】

前記聴取システムはさらに、前記同側オーディオ信号に基づいて、前記オーディオコンテンツに音声コンテンツが含まれることを特定するように構成されており、
前記オーディオコンテンツが自声コンテンツを有することの前記特定はさらに、前記オーディオコンテンツに音声コンテンツが含まれることの前記特定に基づく、
請求項１記載の聴取システム。

【請求項6】

前記同側マイクロフォンは、付加的なオーディオコンテンツを表す付加的な同側オーディオ信号を検出するように構成されており、
前記対側マイクロフォンは、前記付加的なオーディオコンテンツを表す付加的な対側オーディオ信号を検出するように構成されており、
前記聴取装置はさらに、
前記付加的な同側オーディオ信号と前記付加的な対側オーディオ信号との付加的な対称レベルが前記閾値対称レベルよりも小さいことを特定し、かつ
前記付加的な対称レベルが前記閾値対称レベルよりも小さいことの前記特定に基づき、前記付加的なオーディオコンテンツが前記自声コンテンツを有しないことを特定する、
ように構成されている、請求項１記載の聴取システム。

【請求項7】

前記聴取装置はさらに、
前記付加的な同側オーディオ信号の前記第１スペクトル部分の第３ＳＰＬを特定し、
前記付加的な同側オーディオ信号の前記第２スペクトル部分の第４ＳＰＬを特定し、
前記付加的なオーディオコンテンツが前記自声コンテンツを有しないことの前記特定に基づき、前記閾値ＳＰＬ量を、前記第３ＳＰＬと前記第４ＳＰＬとの差分に基づいて調整する
ように構成されている、請求項６記載の聴取システム。

【請求項8】

前記閾値ＳＰＬ量の前記調整には、機械学習アルゴリズムを使用することが含まれる、請求項７記載の聴取システム。

【請求項9】

前記同側マイクロフォンは、付加的なオーディオコンテンツを表す付加的な同側オーディオ信号を検出するように構成されており、
前記対側マイクロフォンは、前記付加的なオーディオコンテンツを表す付加的な対側オーディオ信号を検出するように構成されており、
前記聴取装置はさらに、
前記付加的な同側オーディオ信号の前記第１スペクトル部分の第３ＳＰＬを特定し、
前記付加的な同側オーディオ信号の前記第２スペクトル部分の第４ＳＰＬを特定し、
前記第３ＳＰＬが前記閾値ＳＰＬ量未満だけ前記第４ＳＰＬよりも大きいことを特定し、
前記第３ＳＰＬが前記閾値ＳＰＬ量未満だけ前記第４ＳＰＬよりも大きいことの前記特定に基づいて、前記付加的なオーディオコンテンツが前記自声コンテンツを有しないことを特定する、
ように構成されている、請求項１記載の聴取システム。

【請求項10】

前記聴取装置はさらに、前記付加的な同側オーディオ信号と、前記付加的な対側オーディオ信号との付加的な対称レベルが少なくとも前記閾値対称レベルであることを特定するように構成されており、
前記付加的なオーディオコンテンツが前記自声コンテンツを有しないことの前記特定は、前記付加的な対称レベルが少なくとも前記閾値対称レベルであることの前記特定とかかわりがない、
請求項９記載の聴取システム。

【請求項11】

前記聴取装置はさらに、前記第３ＳＰＬと前記第４ＳＰＬとの差分に基づいて、前記閾値ＳＰＬ量を調整するように構成されている、請求項９記載の聴取システム。

【請求項12】

前記閾値ＳＰＬ量の前記調整には、機械学習アルゴリズムを使用することが含まれる、請求項１１記載の聴取システム。

【請求項13】

前記聴取装置は、前記同側マイクロフォンを有する、請求項１記載の聴取システム。

【請求項14】

さらに、前記対側耳に関連付けられた付加的な聴取装置を有し、かつ前記対側マイクロフォンを有する、請求項１記載の聴取システム。

【請求項15】

システムであって、前記システムは、
第１聴取装置および第２聴取装置と、
ユーザの同側耳に関連付けられかつオーディオコンテンツを表す同側オーディオ信号を検出するように構成された第１マイクロフォンを有する第１聴取装置と、
前記ユーザの対側耳に関連付けられかつ前記オーディオコンテンツを表す対側オーディオ信号を検出するように構成された第２マイクロフォンを有する第２聴取装置とを有し、
前記第１聴取装置は、
前記同側オーディオ信号の第１スペクトル部分であって、第１周波数範囲に含まれる周波数を有する第１スペクトル部分の第１音圧レベル（ＳＰＬ）を特定し、
前記同側オーディオ信号の第２スペクトル部分であって、前記第１周波数範囲よりも高い第２周波数範囲に含まれる周波数を有する第２スペクトル部分の第２ＳＰＬを特定し、
前記第１ＳＰＬが少なくとも閾値ＳＰＬ量だけ前記第２ＳＰＬよりも大きいことを特定し、
前記同側オーディオ信号と前記対側オーディオ信号との対称レベルが少なくとも閾値対称レベルであることを特定し、
前記第１ＳＰＬが少なくとも前記閾値ＳＰＬ量だけ前記第２ＳＰＬよりも大きいことの前記特定と、前記対称レベルが少なくとも前記閾値対称レベルであることの前記特定とに基づいて、前記オーディオコンテンツが前記ユーザの声を表す自声コンテンツを有することを特定する、
ように構成されている、
システム。

【請求項16】

前記第２聴取装置は、
前記対側オーディオ信号の第１スペクトル部分の第３ＳＰＬを特定し、
前記対側オーディオ信号の第２スペクトル部分の第４ＳＰＬを特定し、
前記第３ＳＰＬが少なくとも前記閾値ＳＰＬ量だけ前記第４ＳＰＬよりも大きいことを特定し、
前記同側オーディオ信号と前記対側オーディオ信号との前記対称レベルが少なくとも前記閾値対称レベルであることを特定し、
前記第３ＳＰＬが少なくとも前記閾値ＳＰＬ量だけ前記第４ＳＰＬよりも大きいことの特定と、前記対称レベルが少なくとも前記閾値対称レベルであることの特定とに基づいて、前記オーディオコンテンツが前記ユーザの声を表す自声コンテンツを有することを特定する
ように構成されている、請求項１５記載のシステム。

【請求項17】

前記第１マイクロフォンは、付加的なオーディオコンテンツを表す付加的な同側オーディオ信号を検出するように構成されており、
前記第２マイクロフォンは、前記付加的なオーディオコンテンツを表す付加的な対側オーディオ信号を検出するように構成されており、
前記第１聴取装置はさらに、
前記付加的な同側オーディオ信号と前記付加的な対側オーディオ信号との付加的な対称レベルが前記閾値対称レベルよりも小さいことを特定し、かつ
前記付加的な対称レベルが前記閾値対称レベルよりも小さいことの前記特定に基づき、前記付加的なオーディオコンテンツが前記自声コンテンツを有しないことを特定する、
ように構成されている、
請求項１５記載のシステム。

【請求項18】

前記第１聴取装置はさらに、
前記付加的な同側オーディオ信号の前記第１スペクトル部分の第３ＳＰＬを特定し、
前記付加的な同側オーディオ信号の前記第２スペクトル部分の第４ＳＰＬを特定し、
前記付加的なオーディオコンテンツが前記自声コンテンツを有しないことの前記特定に基づき、前記閾値ＳＰＬ量を、前記第３ＳＰＬと前記第４ＳＰＬとの差分に基づいて調整する
ように構成されている、請求項１７記載のシステム。

【請求項19】

前記第１マイクロフォンは、付加的なオーディオコンテンツを表す付加的な同側オーディオ信号を検出するように構成されており、
前記第２マイクロフォンは、前記付加的なオーディオコンテンツを表す付加的な対側オーディオ信号を検出するように構成されており、
前記第１聴取装置はさらに、
前記付加的な同側オーディオ信号の前記第１スペクトル部分の第３ＳＰＬを特定し、
前記付加的な同側オーディオ信号の前記第２スペクトル部分の第４ＳＰＬを特定し、
前記第３ＳＰＬが前記閾値ＳＰＬ量未満だけ前記第４ＳＰＬよりも大きいことを特定し、
前記第３ＳＰＬが前記閾値ＳＰＬ量未満だけ前記第４ＳＰＬよりも大きいことの前記特定に基づいて、前記付加的なオーディオコンテンツが前記自声コンテンツを有しないことを特定する、
ように構成されている、
請求項１５記載のシステム。

【請求項20】

ユーザの同側耳に関連付けられた聴取装置により、オーディオコンテンツを表す同側オーディオ信号の第１スペクトル部分であって、第１周波数範囲に含まれる周波数を有する第１スペクトル部分の第１音圧レベル（ＳＰＬ）を特定するステップと、
前記聴取装置により、前記同側オーディオ信号の第２スペクトル部分であって、前記第１周波数範囲よりも高い第２周波数範囲に含まれる周波数を有する第２スペクトル部分の第２ＳＰＬを特定するステップと、
前記聴取装置により、前記第１ＳＰＬが少なくとも閾値ＳＰＬ量だけ前記第２ＳＰＬよりも大きいことを特定し、
前記聴取装置により、前記オーディオコンテンツを表す前記同側オーディオ信号と対側オーディオ信号との対称レベルが少なくとも閾値対称レベルであることを特定するステップと、
前記第１ＳＰＬが少なくとも前記閾値ＳＰＬ量だけ前記第２ＳＰＬよりも大きいことの前記特定と、前記対称レベルが少なくとも前記閾値対称レベルであることの前記特定とに基づいて、前記オーディオコンテンツが前記ユーザの声を表す自声コンテンツを有することを特定するステップと
を有する、方法。

【発明の詳細な説明】

【技術分野】

【0001】

背景技術情報
聴取装置は、ユーザの聴取を強化するために、オーディオコンテンツの処理済みバージョンを提供するように構成可能である。しかしながら、オーディオコンテンツにユーザ自身の音声（自声コンテンツ）が含まれている場合、検出される別のオーディオコンテンツと同じ仕方でこのようなコンテンツを増幅および／または処理することにより、ユーザにとって自然には聞こえないまたは有益ではない出力が生成されてしまうことがある。また、別のオーディオコンテンツまたは自声コンテンツには、違った処理ストラテジが、必要になるかまたは好ましいこともある。したがって、オーディオコンテンツにおける自声コンテンツを識別することは、聴取装置の最適な性能に重要である。

【0002】

米国特許出願公開第２００８０１８９１０７号明細書には、直接音部分と残響音部分との信号エネルギの比率を使用して、自声コンテンツを識別することを試みる方法が記載されている。

【0003】

米国特許第１００２５６６８号明細書には、それぞれが耳掛型マイクロフォンと、インイヤ型マイクロフォンと、聴取装置の装着者の声を検出することを試みる適応フィルタとを含む、左右の聴取装置を備えた聴取システムが記載されている。

【0004】

米国特許第１０６１６６９４号明細書には、自声音響タイプとの一致に関して、音響を分析する聴取装置が記載されている。音響と自声とが一致する強さに依存して、音響が自声と識別される。

【0005】

自声コンテンツを検出するためのこれらの従来のアプローチのそれぞれには不利なことに、専用のコンポーネントおよび／または複雑な処理が必要である。

【0006】

添付の図面は、様々な実施形態を図示しており、また本明細書の一部である。図示した実施形態は、単なる実施例であり、本開示の範囲を限定しない。図面全体を通して、同一または類似の参照番号は、同一または類似の要素を示す。

【図面の簡単な説明】

【0007】

【図1】本明細書で説明する基本的な考え方による例示的な聴取システムの図である。

【図2】本明細書で説明する基本的な考え方による別の例示的な聴取システムの図である。

【図3】本明細書で説明する基本的な考え方による自声検出についての例示的なグラフである。

【図4】本明細書で説明する基本的な考え方による自声検出についての別の例示的なグラフである。

【図5】本明細書で説明する基本的な考え方による例示的な聴取装置を示す図である。

【図6】本明細書で説明する基本的な考え方による別の例示的な聴取装置を示す図である。

【図7】本明細書で説明する基本的な考え方による自声検出についての例示的なグラフである。

【図8】本明細書で説明する基本的な考え方による自声検出についての例示的なフローチャートである。

【図9】本明細書で説明する基本的な考え方による例示的な計算装置を示す図である。

【図10】本明細書で説明する基本的な考え方による例示的な方法を示す図である。

【0008】

詳細な説明
ここで説明されるのは、聴取システムにおける自声検出のための例示的なシステムおよび方法である。例えば、聴取システムには、ユーザの同側耳(ipsilateral ear)に関連付けられ（例えば、近くに配置され）、かつオーディオコンテンツを表す同側オーディオ信号(ipsilateral audio signal)を検出するように構成された同側マイクロフォン(ipsilateral microphone)と、ユーザの対側耳(contralateral ear)に関連付けられ（例えば、近くに配置され）、かつオーディオコンテンツを表す対側オーディオ信号(contralateral audio signal)を検出するように構成された対側マイクロフォン(contralateral microphone)と、同側耳に関連付けられた（例えば、オーディオコンテンツの処理済みバージョンを提供するように構成された）聴取装置とが含まれていてもよい。この聴取装置は、同側オーディオ信号の第１スペクトル部分の第１音圧レベル（ＳＰＬ：sound pressure level）を特定し、同側オーディオ信号の第２スペクトル部分の第２ＳＰＬを特定し、第１ＳＰＬが少なくとも閾値ＳＰＬ量だけ第２ＳＰＬもよりも大きいことを特定し、同側オーディオ信号と対側オーディオ信号との対称レベルが少なくとも閾値対称レベルであることを特定するように構成可能である。第１ＳＰＬが少なくとも閾値ＳＰＬ量だけ第２ＳＰＬよりも大きいことの特定と、対称レベルが少なくとも閾値対称レベルであることの特定とに基づいて、聴取装置は、オーディオコンテンツがユーザの声を表す自声コンテンツ(own voice content)を有することを特定するように構成可能である。

【0009】

本明細書で説明するシステムおよび方法は有利には、聴取装置のユーザに多くの利益をもたらすことができる。例えば、本明細書で説明する聴取装置は、通常の聴取によって知覚される自声コンテンツを含むオーディオコンテンツを、従来の聴取システムよりも正確に再現するオーディオ信号を供給することができる。さらに、本明細書で説明するシステムおよび方法は、従来の聴取システムと比較して、付加的なコンポーネントを必要とすることなく、自声コンテンツをより正確に検出することができる。付加的に、本明細書で説明するシステムおよび方法は、従来の聴取システムと比較して、より信頼性が高くかつ迅速に自声コンテンツを検出することができるが、同時に、使用される計算能力は低い。さらに、本明細書で説明するシステムおよび方法は、いくつかの実装形態では、機械学習アルゴリズムを使用して、本明細書で説明する閾値のうちの１つまたは複数を動的に調整することができ、これにより、本明細書で説明するシステムおよび方法の自声検出機能を時間と共に改善することができる。少なくともこれらの理由から、本明細書で説明するシステムおよび方法は有利には、従来の聴取システムと比較して、聴取装置のユーザに付加的な機能および／または特徴を提供することができる。本明細書で説明するシステムおよび方法のこれらの利益および別の利益は、本明細書において明らかになろう。

【0010】

図１には、音響をユーザに伝達するために使用可能な例示的な聴取システム１００が示されている。聴取システム１００には、第１聴取装置１０２－１および第２聴取装置１０２－２（まとめて「聴取装置１０２」と称する）が含まれている。破線１０４に対する、聴取装置１０２の図１における位置決めによって、また聴取装置１０２－１の視点から表されているように、聴取装置１０２－１はユーザの同側耳に関連付けられており、聴取装置１０２－２はユーザの対側耳に関連付けられている。例えば、聴取装置１０２－１がユーザの左耳に関連付けられている場合、聴取装置１０２－２はユーザの右耳に関連付けられている。択一的に、聴取装置１０２－１がユーザの右耳に関連付けられている場合、聴取装置１０２－２はユーザの左耳に関連付けられている。本明細書で使用されるように、聴取装置は、特定の耳または特定の耳内に装着されるように構成されることにより、かつ／または特定の耳に聴取能力を提供することにより、特定の耳に「関連付けられる」。

【0011】

複数の聴取装置１０２は、特定の実装形態に役立ち得る有線または無線であってよい通信リンク１０６を介して互いに通信可能である。

【0012】

聴取装置１０２はそれぞれ、聴取システム１００のユーザの聴取を提供または強化するように構成されたあらゆるタイプの聴取装置によって実装可能である。例えば、聴取装置１０２はそれぞれ、増幅したオーディオコンテンツをユーザに適用するように構成された補聴器、オーディオコンテンツを表す電気刺激をユーザに適用するように構成された、人工内耳システムに含まれる音響プロセッサ、電気アコースティック刺激をユーザに適用するように構成された電気アコースティック刺激システムに含まれる音響プロセッサ、頭部装着型ヘッドセット、耳装着型イヤホン、ヒヤラブル、スマートヘッドホンまたは任意の別の適切な聴取装置によって実装可能である。いくつの実施例では、聴取装置１０２－１は、聴取装置１０２－２とは別のタイプのものである。例えば、聴取装置１０２－１は補聴器であってもよく、聴取装置１０２－２は人工内耳システムに含まれる音響プロセッサであってもよい。別の実施例として、聴取装置１０２－１は、片側補聴器であってもよく、聴取装置１０２－２は、ＣＲＯＳ（contralateral routing of signals）補聴器であってもよい。

【0013】

図示したように、聴取装置１０２－１には、プロセッサ１０８－１、メモリ１１０－１、マイクロフォン１１２－１、および出力トランスデューサ１１４－１が含まれていてもよい。同様に、聴取装置１０２－２には、プロセッサ１０８－２、メモリ１１０－２、マイクロフォン１１２－２、および出力トランスデューサ１１４－２が含まれていてもよい。聴取装置１０２には、特定の実装形態に役立ち得る付加的または択一的なコンポーネントが含まれていてもよい。

【0014】

プロセッサ１０８（例えば、プロセッサ１０８－１およびプロセッサ１０８－２）は、様々な処理動作、例えば、聴取装置１０２によって受け取ったオーディオコンテンツの処理およびデータの相互の伝送等を実行するように構成されている。プロセッサ１０８はそれぞれ、ハードウェアおよびソフトウェアの任意の適切な組み合わせによって実装可能である。聴取装置（例えば聴取装置１０２－１）によって実行される動作に対する、本明細書におけるあらゆる言及は、聴取装置のプロセッサ（例えばプロセッサ１０８－１）によって実行されると理解可能である。

【0015】

メモリ１１０（例えば、メモリ１１０－１およびメモリ１１０－２）は、任意の適切なタイプの非一時的なコンピュータ可読記憶媒体によって実装可能であり、プロセッサ１０８によって利用されるデータを保持（例えば、保存）することができる。例えば、メモリ１１０には、それぞれのプロセッサ１０８がどのようにオーディオコンテンツを処理してユーザに送出するかを指定する動作プログラムを表すデータが格納されてもよい。説明のため、聴取装置１０２－１が補聴器である場合、メモリ１１０－１は、アコースティックコンテンツをユーザに送出するためにプロセッサ１０８－１によって使用されるオーディオ増幅方式（例えば、増幅レベルなど）を指定する動作プログラムを表すデータを保持することができる。別の実施例として、聴取装置１０２－１が人工内耳システムに含まれる音響プロセッサである場合、メモリ１１０－１には、人工内耳に指示してアコースティックコンテンツを表す電気刺激をユーザに適用するために聴取装置１０２－１によって使用される刺激方式を指定する動作プログラムを表すデータが保持可能である。

【0016】

マイクロフォン１１２（例えば、マイクロフォン１１２－１およびマイクロフォン１１２－２）は、任意の適切なオーディオ検出装置によって実装可能であり、聴取装置１０２のユーザに提示したオーディオ信号を検出するように構成されている。図１に示したように、マイクロフォン１１２は、聴取装置１０２に含まれる（例えば、聴取装置１０２の内部にもしくは表面に埋め込まれるか、またはそうでなければ聴取装置１０２に配置される）ことが可能である。１つまたは両方のマイクロフォン１１２は択一的には、それらのそれぞれの聴取装置１０２とは別体でありかつこれらと通信可能に接続されていてもよい。例えば、マイクロフォン１１２－１は、聴取装置１０２－１に取り外し可能に取り付け可能である。

【0017】

本明細書では、マイクロフォン１１２－１は、ユーザの同側耳に関連付けられた同側マイクロフォンと称されてもよい。同様に本明細書では、マイクロフォン１１２－２は、ユーザの対側耳に関連付けられた対側マイクロフォンと称されてもよい。特定の耳に提示されるオーディオ信号がマイクロフォンによって検出されるように、特定の耳の比較的近くに配置されていることにより、マイクロフォンは、この特定の耳に「関連付けられる」ことが可能である。例えば、マイクロフォン１１２－１は、同側耳に提示したオーディオ信号を検出するように構成されてもよい（そのために、このオーディオ信号は、本明細書では「同側オーディオ信号」と称されることもある）。同様に、マイクロフォン１１２－２は、反対側の耳に提示したオーディオ信号を検出するように構成されてもよい（そのために、このオーディオ信号は、本明細書では「対側オーディオ信号」と称されることもある）。同側オーディオ信号および対側オーディオ信号は、同じオーディオコンテンツ（例えば、音楽、音声、ノイズ、自声コンテンツ等）を表していてもよいが、マイクロフォン１１２の位置が異なるため、異なる特性を有してもよい。

【0018】

出力トランスデューサ１１４は、任意の適切なオーディオ出力装置によって実装可能である。例えば、出力トランスデューサ１１４は、聴取装置のスピーカ（受信器とも称される）または人工内耳システムの１つもしくは複数の電極によって実装されてもよい。

【0019】

図２には、本明細書で説明するシステムおよび方法にしたがって使用可能な択一的な聴取システム２００が示されている。聴取システム２００は、ユーザの同側耳に関連付けられた聴取装置１０２－１が聴取システム２００に含まれる点において聴取システム１００と類似している。しかしながら、図示したように、聴取システム２００には、ユーザの対側耳に関連付けられた第２聴取装置は含まれていない。むしろ、聴取システム２００には、ユーザの対側耳に関連付けられておりかつ特定の実装形態に役立ち得る有線または無線であってよい通信リンク２０４を介して聴取装置１０２－１に通信可能に接続されている対側マイクロフォン２０２が含まれている。

【0020】

本明細書で説明するように、聴取装置（例えば聴取装置１０２－１および／または聴取装置１０２－２）は、同側マイクロフォンおよび対側マイクロフォンによって検出される同側オーディオ信号および対側オーディオ信号によって表されるオーディオコンテンツにそれぞれ、自声コンテンツが含まれる場合を特定するように構成可能である。これから説明するように、これは、少なくとも部分的に、同側オーディオ信号の異なるスペクトル部分のＳＰＬの比較に基づいて実行可能である。

【0021】

図３には、自声コンテンツを含むオーディオ信号についてのＳＰＬを示す例示的なグラフ３００が示されている。グラフ３００には、相対距離を表すｘ軸３０４に対して、相対的なＳＰＬを表すｙ軸３０２が含まれている。例えば、ｘ軸３０４には２つの位置、すなわち、ユーザの口元における位置を表す位置３０６と、ユーザの耳元における位置を表す位置３０８とが示されている。実線３１０は、オーディオ信号の第１スペクトル部分のＳＰＬを描画しており、破線３１２は、オーディオ信号の第２スペクトル部分のＳＰＬを描画している。第１スペクトル部分は、オーディオ信号の低周波数範囲を含む周波数に対応するのに対し、第２スペクトル部分は、オーディオ信号の高周波数範囲を含む周波数に対応している。

【0022】

第１スペクトル部分についての周波数の範囲は、オーディオ信号の残りの周波数範囲よりも低い任意の適切な周波数範囲であってもよい。例えば、低周波数範囲は、任意の適切な比較的低いオーディオ周波数（例えば５００ヘルツ（Ｈｚ）～２ｋＨｚ）にセンタリングされた、任意の適切な幅（例えば、１０Ｈｚ～２ｋＨｚ）の周波数帯域であってもよい。例えば、低周波数範囲は、８００Ｈｚ～１２００Ｈｚ、９７５Ｈｚ～１０２５Ｈｚ、または任意の別の適切な領域であってよい。スペクトル部分のＳＰＬは、スペクトル部分に関連付けられた任意の適切なＳＰＬ、例えば、平均ＳＰＬ、中央値ＳＰＬ、最大ＳＰＬ、最小ＳＰＬ等であってもよい。第２スペクトル部分についての周波数の範囲は、オーディオ信号の低周波数範囲よりも高い任意の適切な周波数範囲であってもよい。例えば、高周波数範囲は、任意の適切な比較的高いオーディオ周波数（例えば４キロヘルツ（ｋＨｚ）～１０ｋＨｚ）にセンタリングされた、任意の適切な幅（例えば、１０Ｈｚ～２ｋＨｚ）の周波数帯域であってもよい。例えば、高周波数範囲は、４ｋＨｚ～７ｋＨｚ、５ｋＨｚ～６ｋＨｚまたは任意の別の適切な領域であってもよい。

【0023】

オーディオコンテンツに自声コンテンツが含まれている場合、位置３０６に示したように、オーディオ信号は、低周波数範囲および高周波数範囲について、比較的類似のＳＰＬでユーザの口を出発することができる。しかしながら、低周波数範囲および高周波数範囲は、異なるアコースティック経路を取って、耳に到達することがある。オーディオ信号の低周波数範囲（またはオーディオ信号の低周波数範囲の少なくとも一部）は、ユーザの頭部を通した直接的な伝導を介して、口から耳に伝送されることがある。しかしながら、オーディオ信号の高周波数範囲は、頭部を通して伝導できないこともあり、その代わりに口と耳との間の直接的でない経路を介して伝送されることがある（これには別の表面からの反射を介する経路が含まれる）。その結果、位置３０８に示したように、オーディオ信号が口から耳に進むと、低周波数範囲のＳＰＬは、高周波数範囲のＳＰＬよりも減衰が少なくなることがある。

【0024】

図４には、自声コンテンツを含むオーディオコンテンツを表すオーディオ信号についてのＳＰＬをさらに示す、例示的なグラフ４００が示されている。グラフ４００には、周波数を表すｘ軸４０４に対して、ＳＰＬを表すｙ軸４０２が含まれている。破線４０６は、オーディオ信号の発生源におけるオーディオ信号を表す。この実施例では、オーディオ信号は、オーディオ信号の発生源において、オーディオ信号のスペクトルにわたって同じＳＰＬを有していてよく、したがって、点線４０６は、周波数の全ての値にわたって同じＳＰＬ値を有する。

【0025】

実線４０８は、オーディオ信号が自声コンテンツを表す場合の、ユーザの耳へのオーディオ信号の伝送を表す。グラフ３００に関して説明したように、オーディオ信号が自声コンテンツを表す場合、オーディオ信号の低周波数範囲は、オーディオ信号の高周波数範囲よりも減衰が少なくなる。対照的に、破線４１０は、オーディオ信号が自声コンテンツを含まないオーディオコンテンツを表す場合、ユーザの耳へのオーディオ信号の（同じ距離にわたる）伝送を表す。図示したように、オーディオコンテンツが自声コンテンツを含んでいない場合、オーディオ信号の低周波数範囲は、高周波数範囲と相対的に同程度の量で減衰する。というのは、両方の周波数範囲は、オーディオコンテンツの発生源からユーザの耳まで、同様のアコースティック経路を進むからである。

【0026】

自声コンテンツを有するオーディオ信号およびこれを有しないオーディオ信号における対比は、矢印４１２および矢印４１４によって強調されており、これらの矢印が低周波数範囲において示しているのは、自声コンテンツを有しないオーディオ信号（矢印４１４）については、自声コンテンツを有するオーディオ信号（矢印４１２）と比較して、ＳＰＬにおける降下が比較的大きいことである。これに対し、矢印４１６および矢印４１８は、高周波数範囲において、自声コンテンツを有しないオーディオ信号（矢印４１６）と、自声コンテンツを有するオーディオ信号（矢印４１８）とについて、ＳＰＬの降下における差分が比較的小さいことを示している。むしろ、この実施例に示したように、所定の周波数レベルでは、自声コンテンツを有するオーディオ信号は、自声コンテンツを有しないオーディオ信号よりも多く減衰することがある。ユーザの耳元で（例えば、近くで）検出されるオーディオ信号のスペクトル部分についてのＳＰＬ間のこれらの差分は、オーディオ信号が、自声コンテンツを含むオーディオコンテンツを表すか否かを特定する場合に、聴取装置（例えば、聴取装置１０２－１）が考慮することのできるファクタになり得る。

【0027】

図５には、本明細書で説明する聴取装置１０２－１または聴取装置１０２－２のどちらかを表し得る聴取装置１０２の例示的な構成５００が示されている。図示したように、聴取装置１０２により、同側オーディオ信号５０２－１および対側オーディオ信号５０２－２（まとめてオーディオ信号５０２と称する）が受信される。説明したように、同側オーディオ信号５０２－１は、同側マイクロフォン（例えばマイクロフォン１１２－１）によって検出されてもよく、対側オーディオ信号５０２－２は、対側マイクロフォン（例えば、マイクロフォン１１２－２またはマイクロフォン２０２）によって検出されてもよい。

【0028】

聴取装置１０２は、分析機能５０４～５１０によって表されるように、オーディオ信号５０２に自声コンテンツが含まれるか否かを特定するために、オーディオ信号５０２に対して様々な動作を実行することができる。例えば、図示したように、聴取装置１０２は、これらのオーディオ信号に自声コンテンツが含まれるか否かを特定するために、同側オーディオ信号５０２－１および／または対側オーディオ信号５０２－２に対し、スペクトルＳＰＬ分析５０４、方向分析５０６、全体ＳＰＬ分析５０８、および／または音声コンテンツ分析５１０を実行することができる。聴取装置１０２は、特定の実装形態に役立ち得る、これらの分析機能５０４～５１０のうちの１つまたは複数の任意の組み合わせを使用することができる。例えば、いくつかのケースでは、スペクトルＳＰＬ分析５０４、方向分析５０６単独もしくは全体ＳＰＬ分析５０８との組み合わせた方向分析５０６、および／または音声コンテンツ分析５１０に基づき、聴取装置１０２により、同側オーディオ信号５０２－１および／または対側オーディオ信号５０２－２に自声コンテンツが含まれていることが特定されてもよい。同側オーディオ信号５０２－１および／または対側オーディオ信号５０２－２の、１つまたは複数の分析機能５０４～５１０による処理に基づき、聴取装置１０２は、オーディオ信号５０２に自声コンテンツが含まれるか否かを示す自声特定データ５１２を出力することができる。それぞれの分析機能５０４～５１０は、本明細書に記載されている。

【0029】

聴取装置１０２は、任意の適切な仕方でスペクトルＳＰＬ分析５０４を実行することができる。例えば、聴取装置１０２は、同側オーディオ信号の第１スペクトル部分の第１ＳＰＬを特定することができる。第１スペクトル部分は、第１周波数範囲に含まれる周波数を有してもよい。聴取装置１０２はさらに、同側オーディオ信号の第２スペクトル部分の第２ＳＰＬを特定することができる。第２スペクトル部分は、第１周波数範囲よりも高い第２周波数範囲に含まれる周波数を有してもよい。聴取装置１０２はさらに、第１ＳＰＬが、少なくとも閾値ＳＰＬ量だけ第２ＳＰＬよりも大きいか否かを特定することができる。閾値量は、任意の適切な閾値ＳＰＬ量であってもよい。例えば、自声コンテンツを含まないオーディオコンテンツに対し、同側オーディオ信号についての平均第１ＳＰＬは、第２ＳＰＬよりも約１０デシベル（ｄＢ）高くてもよい。対照的に、自声コンテンツを含むオーディオコンテンツに対し、同側オーディオ信号についての平均第１ＳＰＬは、第２ＳＰＬよりも約３０ｄＢ高くてもよい。したがって、閾値ＳＰＬ量は、平均差分値（例えば、１５ｄＢ、２０ｄＢ、２５ｄＢ等）の間の値について設定することができる。

【0030】

付加的または択一的には、聴取装置１０２により、第１ＳＰＬと第２ＳＰＬとの比を特定し、この比が、閾値ＳＰＬ量に関連付けられた閾値比よりも大きいか否かを特定することによって、第１ＳＰＬが、少なくとも閾値量だけ第２ＳＰＬよりも大きいか否か特定することができる。閾値ＳＰＬ比は、第１スペクトル部分の減衰が、閾値ＳＰＬ量だけ第２スペクトル部分よりも小さいことを示す任意の適切なＳＰＬ比であってもよい。したがって、閾値ＳＰＬ比は、第１スペクトル部分のＳＰＬが、少なくとも閾値ＳＰＬ量だけ第２スペクトル部分のＳＰＬよりも大きいことを示すことができる。例えば、閾値比は、２５～３５（例えば、２８～３２であるか、３０に設定されるか、または２５～３５である任意の別の閾値等）または任意の別の適切な比であってもよい。

【0031】

聴取装置１０２は、任意の適切な仕方で方向分析５０６を実行することができる。例えば、聴取装置１０２（例えば、聴取装置１０２の方向／空間分類器）は、同側オーディオ信号５０２－１と対側オーディオ信号５０２－２との対称レベルを特定し、この対称レベルと閾値対称レベルとを比較することができる。聴取装置１０２はさらに、頭部関連伝達関数を使用し、ユーザを基準としてオーディオ信号５０２が到来している方向を特定することができる。口はユーザの耳の前方にあるので、口によって生成されるオーディオ信号は、ユーザの前方から到来するように見えることがある（かつ／または物体で反射されて実際にユーザの前方から到来することがある）。

【0032】

ユーザの前面からのオーディオ信号は、左耳および右耳によって検出されると、比較的対称であり得る。したがって、聴取装置１０２により、同側オーディオ信号５０２－１と対側オーディオ信号５０２－２との対称レベルが特定可能である。この対称レベルは、適切な任意の仕方、例えばオーディオ信号５０２のＳＰＬ、オーディオ信号５０２の波形形状等の比較等で特定可能である。聴取装置１０２は、対称レベルが、少なくとも閾値対称レベルであるか否かを特定することができる。閾値対称レベルは、任意の適切な閾値対称レベルであってもよい。付加的に、聴取装置１０２はさらに、比較的対称的なオーディオ信号が、ユーザの前面またはユーザの背後から到来するように見えるか否か特定することができる。というのは、ユーザの背後からのオーディオ信号も比較的対称的であり得るからである。このような特定は、任意の適切な仕方で、例えば頭部関連伝達関数等を使用して実行可能である。

【0033】

聴取装置１０２は、任意の適切な仕方で全体ＳＰＬ分析５０８全体を実行することができる。例えば、聴取装置１０２は、同側オーディオ信号５０２のＳＰＬを（例えば、大部分または全ての周波数にわたって）特定することができる。自声コンテンツを有するオーディオ信号についてのＳＰＬは一般に、自声コンテンツの発生源がユーザの口であり、ゆえにユーザの耳からの距離が固定であるため、自声コンテンツを有しないオーディオ信号についてのＳＰＬよりも全体的に高い。他方において、自声コンテンツを有しないオーディオ信号は一般に、ユーザの耳から、ユーザの口よりも遠く離れた発生源からのものであり、したがって一般に全体ＳＰＬが比較的低い。聴取装置１０２は、オーディオコンテンツが自声コンテンツを含み得るか否かを特定するために、全体ＳＰＬと閾値ＳＰＬとを比較することができる。閾値ＳＰＬは、任意の適切なＳＰＬであってもよい。

【0034】

聴取装置１０２は、任意の適切な仕方で音声コンテンツ分析５１０を実行することができる。自声コンテンツは一般に、音声コンテンツ(speech content)を含んでいてよく、したがって、音声コンテンツの検出は、オーディオコンテンツに自声コンテンツが含まれているか否かの特定に使用される別のファクタであってもよい。さらに、全体ＳＰＬが概して比較的高いことは特に、音声コンテンツを含むオーディオコンテンツを表すオーディオ信号に当てはまり得る。

【0035】

聴取装置１０２は、これらの分析のうちの１つまたは複数に基づいて、自声特定の出力５１２を供給することができる。いくつかの実施例では、これらのファクタおよび別のファクタに基づいて、自声コンテンツの検出を最適化するために、機械学習アルゴリズムを使用することができる。いくつかの実施例では、自声特定はさらに、対側聴取装置の自声特定に基づいていてもよい。分析機能５０４～５１０に基づき、同側聴取装置および対側聴取装置の両方は、オーディオ信号に自声コンテンツが含まれるか否かについて同じ特定に至るべきである。ゆえに、それぞれの装置はさらに、そのそれぞれの自声特定を、他方の聴取装置の自声特定に基づいて行うことができる。

【0036】

図６には、このような機械学習アルゴリズムを実装するように構成された機械学習モジュール６０２を含む聴取装置１０２の例示的な構成６００が示されている。構成６００には、機械学習モジュール６０２が追加された、構成５００と同様の聴取装置１０２が示されている。機械学習モジュール６０２は、任意の適切な機械学習アルゴリズム、例えば、ニューラルネットワーク（例えば、人工ニューラルネットワーク（ＡＮＮ）、畳み込みニューラルネットワーク（ＣＮＮ）、ディープニューラルネットワーク（ＤＮＮ）および／またはリカレントニューラルネットワーク（ＲＮＮ）等）、強化学習、線形回帰等を用いて実装されてもよい。機械学習モジュール６０２は、聴取装置１０２によって分析されるオーディオ信号５０２の様々な特性について、最適なパラメータ、重み付け等を特定することができる。例えば、機械学習モジュール６０２は、スペクトルＳＰＬ分析５０４用の最適な閾値、スペクトルＳＰＬ分析５０４用の最適な周波数範囲、方向分析５０６用の対称レベルのための閾値、全体ＳＰＬ分析５０８用の閾値等を特定することができる。機械学習モジュール６０２は、任意の適切な仕方でトレーニングされてもよい。例えば、機械学習モジュール６０２は、オーディオ信号５０２に自声コンテンツが含まれているか否かの特定に基づいて、閾値を更新するように構成されてもよい。このような最適化は、本明細書で説明されている。付加的または択一的に、機械学習モジュール６０２は、教師ありの手法で、例えば、オーディオ信号に自声コンテンツが含まれているか否かにしたがってラベル付けされる、オーディオ信号の初期データセットを使用し、かつ／またはオーディオ信号に自声コンテンツが含まれる（または含まれない）場合にユーザからの入力を受け取る等でトレーニング可能である。

【0037】

構成６００には、聴取装置１０２に含まれている機械学習モジュール６０２が示されているが、択一的に機械学習モジュールは、リモートに実装され、かつ（例えば、スマートフォン、サーバ等における）聴取装置１０２に通信可能に接続されてもよい。付加的または択一的には、聴取装置１０２に通信可能に接続されたリモート装置において分析機能５０４～５１０のいずれかを実行することもできる。

【0038】

図７には、自声コンテンツを有するオーディオコンテンツおよびこれを有しないオーディオコンテンツを表すオーディオ信号について、ＳＰＬ比を示す例示的なグラフ７００が示されている。グラフ７００には、サンプルＳＰＬ比が特定されている８つの対象体を表すｘ軸７０４に対し、ＳＰＬ比を表すｙ軸７０２が含まれている。対象体、Ｓ１～Ｓ８毎に、自声コンテンツを有するオーディオ信号と、自声コンテンツを有しないオーディオ信号とに対する周波数範囲について、またＳＰＬに基づいて特定されるＳＰＬ比について、ＳＰＬを測定した。

【0039】

実線７０６は、対象体Ｓ１～Ｓ８に対し、自声コンテンツを有するオーディオ信号についてのＳＰＬ比を示しており、破線７０８は、対象体Ｓ１～Ｓ８に対し、自声コンテンツを有しないオーディオ信号についてのＳＰＬ比を示している。例えば、実線７０６－１は、対象体Ｓ１に対し、自声コンテンツを有するオーディオ信号について、高周波数範囲に対するＳＰＬと、低周波数範囲に対するＳＰＬとの間の約３６のＳＰＬ比を示している。破線７０８－１は、対象体Ｓ１に対し、自声コンテンツを有しないオーディオ信号について、高周波数範囲に対するＳＰＬと、低周波数範囲に対するＳＰＬとの間の約２７のＳＰＬ比を示している。

【0040】

実線７０６と破線７０８との間には破線７１０があり、この破線７１０は、自声コンテンツを有するオーディオ信号と、自声コンテンツを有しないオーディオ信号とについてのＳＰＬ比間の例示的な閾値であってよい。例えば、破線７１０－１は、対象体Ｓ１についての閾値ＳＰＬ比として使用され得る約３１のＳＰＬ比を示している。付加的または択一的に、破線７１２は、対象体Ｓ１～Ｓ８についての閾値ＳＰＬ比に基づいて特定された平均閾値ＳＰＬ比（例えば、約３０のＳＰＬ比）を示している。平均閾値ＳＰＬ比は、デフォルトの閾値ＳＰＬ比（例えば、２８～３２のＳＰＬ比）として使用可能であり、このデフォルトの閾値ＳＰＬ比は次いで、本明細書で説明する個別のＳＰＬ比に基づいて調整可能である。

【0041】

図８には、聴取装置（例えば聴取装置１０２）によって自声コンテンツを特定するための例示的なフローチャート８００が示されている。聴取装置１０２は、同側オーディオ信号および対側オーディオ信号を受信することができ、動作８０２では、同側オーディオ信号の低周波数範囲を含む第１スペクトル部分についてＳＰＬを特定することができる。ＳＰＬは、任意の適切な仕方で特定可能である。動作８０４では、聴取装置１０２により、同側オーディオ信号の高周波数範囲を含む第２スペクトル部分についてＳＰＬが特定可能である。

【0042】

動作８０６では、聴取装置１０２により、低周波数範囲のＳＰＬと、高周波数範囲のＳＰＬとのＳＰＬ比が特定可能である。ＳＰＬ比は、本明細書で説明するいずれかの仕方で特定可能である。例えば、低周波数範囲のＳＰＬは、高周波数範囲のＳＰＬで除算可能である。付加的または択一的に、周波数領域では、低周波数範囲のＳＰＬから高周波数範囲のＳＰＬを減算してもよい。付加的または択一的に、ＳＰＬ差分と周波数範囲における差分とに基づき、傾きが決定可能である。

【0043】

動作８０８では、聴取装置１０２により、同側オーディオ信号と対側オーディオ信号との対称レベルが特定可能である。対称レベルは、本明細書で説明するいずれかの仕方で特定可能である。

【0044】

動作８１０では、聴取装置１０２により、対称レベルに基づき、オーディオ信号がユーザの前面から到来しているように思われるか否かが特定可能である。いくつかの実施例では、本明細書で説明するように、この特定はさらに、頭部関連伝達関数に基づいていてもよい。オーディオ信号がユーザの前面から到来しているように思われないことが聴取装置１０２によって特定される場合（動作８１０のノー）、動作８１２では、聴取装置１０２により、このオーディオ信号によって表されるオーディオコンテンツには自声コンテンツが含まれないと特定可能である。

【0045】

いくつかの実施例ではまた、動作８１２において、聴取装置１０２により、分析パラメータが更新可能である。例えば、聴取装置１０２により、閾値を特定するかつ／または調整するためにオーディオ信号の特性が使用可能であり、これにより、自声コンテンツを特定するために、この閾値に対して付加的なオーディオ信号が比較される。例えば、オーディオ信号の特性には、全体ＳＰＬ、ＳＰＬ比、（例えば、スペクトル部分について周波数範囲を調整するための）オーディオ信号の、異なるスペクトル部分についてのＳＰＬ等が含まれてもよい。このような特性に基づき、聴取装置１０２により、閾値ＳＰＬ量、全体ＳＰＬ閾値、第１スペクトル部分および第２スペクトル部分についての周波数範囲、閾値対称レベル、および／または自声コンテンツを検出するための任意の別の閾値が調整可能である。図７に関連して説明したように、いくつかの実施例では、これらの調整を行うために機械学習モジュール６０２が使用可能である。付加的または択一的に、これらの調整を行うために任意の別の適切な処理が使用可能である。

【0046】

いくつかの実施例ではまた、聴取装置１０２により、動作８１４において、オーディオコンテンツに音声コンテンツが含まれるか否かが特定可能である。聴取装置１０２により、音声コンテンツを検出するためにオーディオ信号を任意の適切な仕方で分析することができる。オーディオコンテンツに音声コンテンツが含まれてないことが聴取装置１０２によって特定される場合（動作８１４のノー）、聴取装置１０２により、オーディオ信号の特性に基づいて、動作８１２が実行可能であり、これにより、オーディオ信号が自声コンテンツを表していないと特定し、また分析パラメータを相応に更新する。聴取装置１０２により、オーディオコンテンツに音声コンテンツが含まれると特定される場合（動作８１４のイエス）、聴取装置１０２により、動作８１６が実行可能である。

【0047】

動作８１０において、聴取装置１０２により、オーディオ信号がユーザの前面から到来しているように思われると特定される場合（動作８１０のイエス）、動作８１６において、聴取装置１０２により、動作８０６で特定したＳＰＬ比が、少なくとも閾値ＳＰＬ比であるか否かが特定可能である。ＳＰＬ比が閾値ＳＰＬ比よりも小さいことが聴取装置１０２によって特定される場合（動作８１６のノー）、聴取装置１０２により、動作８１２が実行可能であり、これにより、オーディオ信号の特性に基づいて、オーディオ信号が自声コンテンツを表していないことが特定され、分析パラメータを相応に更新する。したがって、聴取装置１０２により、少なくとも閾値対称レベルを有する同側オーディオ信号および対側オーディオ信号であっても、同側オーディオ信号のＳＰＬ比が閾値ＳＰＬ比を満たしていないことに基づいて、同側オーディオ信号が自声コンテンツを含まないことを特定することができる。逆に、聴取装置１０２により、少なくとも閾値ＳＰＬ比を有してはいても、同側オーディオ信号および対側オーディオ信号が閾値対称レベルを満たしていないことに基づいて、同側オーディオ信号が自声コンテンツを含まないことを特定することができる。

【0048】

聴取装置１０２により、ＳＰＬ比が、少なくとも閾値ＳＰＬ比であることが特定されると（動作８１６のイエス）、動作８１８では、聴取装置１０２により、オーディオ信号が自声コンテンツを表すことを特定することができる。したがって、オーディオ信号が自声コンテンツを表すことの特定は、ＳＰＬ比が、少なくともＳＰＬ比であるとの特定（動作８１６のイエス）と、オーディオ信号がユーザの前面から到来していると思われることの特定（動作８１０のイエス）との両方に基づく。

【0049】

聴取装置１０２は、自声コンテンツのこの特定を任意の適切な仕方で使用可能である。例えば、自声コンテンツを含むオーディオ信号は、自声コンテンツを含まないオーディオ信号とは異なる処理をすることができる。このような処理は、ユーザにより自然に聞こえるような仕方で、ユーザ自身の声をユーザに供給するように構成されていてもよく、これにより、キーワード検出、オクルージョン制御等が改善される。例えば、聴取装置１０２には、様々な音響処理プログラムが含まれてよく、その一部は自声コンテンツを処理するように構成可能である。このようなプログラムは、オーディオ信号に自声コンテンツが含まれることの特定に基づいて選択および／または調整されてもよい。付加的または択一的に、自声コンテンツは、任意の適切な仕方で、例えば、伝送のための電話機への供給、電話機用のサイドトーンのミキシング等に使用可能である。

【0050】

さらに、聴取装置１０２より、オーディオ信号が自声コンテンツを表していることの特定に基づき、オーディオ信号の特性を用いて、分析パラメータを更新することも可能である。例えば、高周波数範囲と比較した、低周波数範囲の減衰は一般に、認識可能なパターンにしたがっていてよいが、このパターンはそれぞれの特定のユーザに基づいて変化してよい。さらに、それぞれの特定のユーザについてであるとしても、特性（およびしたがって最適閾値）は、音声のコンテンツにも、またユーザの感情、音量、健康状態、活動、アコースティック環境等に基づいて変化し得る。したがって、聴取装置１０２によってさらに、オーディオ信号が自声コンテンツを表していることの特定に基づいて、分析パラメータを更新することができる。任意の適切な機械学習アルゴリズムも同様に使用可能である。いくつかの実施例では、聴取装置１０２用の分析パラメータ値は最初に、特定のユーザのプロファイル、特性、モデルおよび／またはボイスサンプルに基づき、機械アルゴリズムを使用してプログラムおよび／またはトレーニングされてもよい。

【0051】

図９には、本明細書で説明する１つまたは複数の処理を行うように特別に構成されてもよい、例示的な計算装置９００が示されている。本明細書で説明するシステム、ユニット、計算装置、および／または別のコンポーネントのいずれも計算装置９００によって実装可能である。

【0052】

図９に示したように、計算装置９００には、通信インフラストラクチャ９１０を介して互いに通信可能に接続された通信インタフェース９０２と、プロセッサ９０４と、記憶装置９０６と、入力／出力（「Ｉ／Ｏ」）モジュール９０８とが含まれていてもよい。図９では例示的な計算装置９００が示されているが、図９に示したコンポーネントは、限定することが意図されてはいない。別の実施形態では、付加的または択一的なコンポーネントが使用可能である。次に、図９に示した計算装置９００のコンポーネントをさらに詳細に説明する。

【0053】

通信インタフェース９０２は、１つまたは複数の計算装置と通信するように構成されていてもよい。通信インタフェース９０２の例には、有線ネットワークインタフェース（ネットワークインタフェースカード等）、無線ネットワークインタフェース（無線ネットワークインタフェースカード等）、モデム、オーディオ／ビデオ接続、および任意の別の適切なインタフェースが含まれるが、これらに限定されない。

【0054】

プロセッサ９０４は一般に、本明細書で説明するデータを処理しかつ／または１つもしくは複数の命令、プロセス、および／または演算を解釈し、実行しかつ／または実行を命じることができる、任意のタイプまたは形態の処理ユニットを表す。プロセッサ９０４は、記憶装置９０６に記憶されているコンピュータ実行可能命令９１２（例えば、アプリケーション、ソフトウェア、コード、および／または別の実行可能なデータインスタンス）を実行することによって動作を実行することができる。

【0055】

記憶装置９０６には、１つまたは複数の非一時的なコンピュータ可読データ記憶媒体、デバイスまたは構成が含まれていてもよく、記憶装置９０６は、あらゆるタイプ、形態、および組み合わせデータ記憶媒体および／またはデバイスを使用することができる。例えば、記憶装置９０６には、本明細書で説明する任意の組み合わせの不揮発性媒体および／または揮発性媒体が含まれていてもよいが、これらに限定されない。本明細書で説明するデータを含む電子データは、記憶装置９０６に一時的にかつ／または永続的に格納されてもよい。例えば、プロセッサ９０４に命じて、本明細書で説明するいずれかの演算を実行させるように構成されたコンピュータ実行可能命令９１２を表すデータは、記憶装置９０６内に格納されていてもよい。いくつかの実施例では、データは、記憶装置９０６内に常駐する１つまたは複数のデータベースに配置されていてもよい。

【0056】

Ｉ／Ｏモジュール９０８には、ユーザ入力を受け取り、ユーザに出力を供給するように構成された１つまたは複数のＩ／Ｏモジュールが含まれていてもよい。Ｉ／Ｏモジュール９０８には、入力機能および出力機能力を支援する任意のハードウェア、ファームウェア、ソフトウェア、またはそれらの組み合わせが含まれていてもよい。例えば、Ｉ／Ｏモジュール９０８には、ユーザ入力を取り込むためのハードウェアおよび／またはソフトウェアが含まれていてもよく、これらには、キーボードまたはキーパッド、タッチスクリーンコンポーネント（例えば、タッチスクリーンディスプレイ）、受信器（例えば、ＲＦまたは赤外線受信器）、モーションセンサ、および／または１つまたは複数の入力ボタンが含まれるが、これらに限定されない。

【0057】

Ｉ／Ｏモジュール９０８には、ユーザに出力を提示するための１つまたは複数の装置が含まれていてもよく、これらの装置には、グラフィックエンジン、ディスプレイ（例えばディスプレイスクリーン）、１つまたは複数の出力ドライバ（例えばディスプレイドライバ）、１つまたは複数のオーディオスピーカ、および１つまたは複数のオーディオドライバが含まれるが、これらに限定されない。特定の実施形態では、Ｉ／Ｏモジュール９０８は、ユーザに提示するためにディスプレイにグラフィカルデータを供給するように構成されている。グラフィカルデータは、１つまたは複数のグラフィカルユーザインタフェースおよび／または特定の実装形態に役立ち得る任意の別のグラフィカルコンテンツを表していてもよい。

【0058】

図１０には、例示的な方法１０００が示されている。図１０に示した１つまたは複数の動作は、本明細書で説明するいずれかの聴取装置によって実施可能である。図１０には、１つの実施形態による例示的な動作を示したが、別の実施形態では、図１０に示したいずれかの動作を省略、追加、並び替えおよび／または変更してもよい。図１０に示したそれぞれの動作は、本明細書で説明するいずれかの仕方で実施可能である。

【0059】

動作１００２では、同側耳に関連付けられた聴取装置により、同側オーディオ信号の第１スペクトル部分であって、第１周波数範囲に含まれる周波数を有する第１スペクトル部分の第１音圧レベル（ＳＰＬ）を特定する。

【0060】

動作１００４では、聴取装置により、同側オーディオ信号の第２スペクトル部分であって、第１周波数範囲よりも高い第２周波数範囲に含まれる周波数を有する第２スペクトル部分の第２ＳＰＬを特定する。

【0061】

動作１００６では、聴取装置により、第１ＳＰＬが、少なくとも閾値ＳＰＬ量だけ第２ＳＰＬよりも大きいことを特定する。

【0062】

動作１００８では、聴取装置により、同側オーディオ信号と対側オーディオ信号との対称レベルが、少なくとも閾値対称レベルであることを特定する。

【0063】

動作１０１０では、聴取装置により、オーディオコンテンツに音声コンテンツが含まれていることを特定する。

【0064】

動作１０１２では、第１ＳＰＬが、少なくとも閾値ＳＰＬ量だけ第２ＳＰＬよりも大きいことの特定と、対称レベルが少なくとも閾値対称レベルであることの特定と、オーディオコンテンツに音声コンテンツが含まれていることの特定とに基づいて、聴取装置により、オーディオコンテンツが、ユーザの声を表す自声コンテンツを有することを特定する。

【0065】

前述の説明では、添付の図面を参照して、様々な例示的な実施形態を説明してきた。しかしながら、次の特許請求の範囲に記載した本発明の範囲から逸脱することなく、様々な修正および変更を上記の実施形態に行い得ること、また付加的な実施形態を実装できることは明らかになろう。例えば、本明細書で説明した１つの実施形態の特定の特徴は、本明細書で記載した別の実施形態の特徴と組み合わせることができるか、または置き換えることができる。したがって本明細書および図面は、制限的な意味と見られるべきではなく、例示的な意味と見られるべきである。

【図1】