(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-07-06
(54)【発明の名称】骨伝導センサを備える聴覚機器
(51)【国際特許分類】
H04R 25/00 20060101AFI20220629BHJP
G10L 25/30 20130101ALI20220629BHJP
G10L 21/007 20130101ALI20220629BHJP
【FI】
H04R25/00 F
G10L25/30
G10L21/007
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2021564874
(86)(22)【出願日】2020-05-06
(85)【翻訳文提出日】2021-12-21
(86)【国際出願番号】 EP2020062561
(87)【国際公開番号】W WO2020225294
(87)【国際公開日】2020-11-12
(32)【優先日】2019-05-06
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】503021401
【氏名又は名称】ジーエヌ ヒアリング エー/エス
【氏名又は名称原語表記】GN Hearing A/S
【住所又は居所原語表記】Lautrupbjerg 7, 2750 Ballerup, Denmark
(74)【代理人】
【識別番号】110000110
【氏名又は名称】弁理士法人 快友国際特許事務所
(72)【発明者】
【氏名】アンドレアス ティーフェナウ
(72)【発明者】
【氏名】ブライアン ダム ペダーセン
(72)【発明者】
【氏名】アントニー ヨハネス ヘンリクス
(72)【発明者】
【氏名】アウニュ デブ
(57)【要約】
本開示は、音声情報の骨振動を骨伝導信号に変換するように構成された骨伝導センサと、発話モデルを実装する合成発話生成プロセスを実施するように構成された信号処理ユニットとを備え、合成発話生成プロセスは、制御入力として骨伝導信号を受信し、合成発話信号を出力する、聴覚機器に関する。
【選択図】
図3
【特許請求の範囲】
【請求項1】
聴覚機器であって、
前記聴覚機器の着用者の骨によって伝導される骨伝導振動を示す骨伝導信号を記録するように構成された骨伝導センサと、
合成発話生成プロセスを実施するように構成された信号処理ユニットを備えており、
前記合成発話生成プロセスは、
制御入力として前記骨伝導信号の表現を受信し、合成発話信号を出力し、
前記合成発話生成プロセスは、時系列の1つまたは複数の以前のサンプルから、前記時系列の現在のサンプルを予測するように構成される時系列予測器を実装し、
前記時系列は、発話波形を表現しており、
前記予測は、前記骨伝導信号の前記表現に条件付けられている、聴覚機器。
【請求項2】
前記発話モデルは、動作中に、経時的に発展する内部状態を定義する、請求項1に記載の聴覚機器。
【請求項3】
前記発話モデルは、複数のトレーニング発話例に基づいてトレーニングされた、トレーニング済み機械学習モデルである、請求項1または2に記載の聴覚機器。
【請求項4】
前記トレーニング発話例のそれぞれは、話者の発話を表すトレーニング骨伝導信号と、周囲マイクロフォンによって記録された前記話者の発話の空気伝送音を表す対応するトレーニングマイクロフォン信号を備えており、
前記空気伝送音は、前記トレーニング骨伝導信号の記録と同時に記録される、請求項3に記載の聴覚機器。
【請求項5】
前記機械学習モデルは、ニューラルネットワークを備えており、
好ましくは、前記ニューラルネットワークは、回帰型ニューラルネットワークを備える、請求項3または4に記載の聴覚機器。
【請求項6】
前記ニューラルネットワークは、回帰型ニューラルネットワークを備える、請求項5に記載の聴覚機器。
【請求項7】
前記回帰型ニューラルネットワークは、密度推定モードで動作する、請求項6に記載の聴覚機器。
【請求項8】
前記ニューラルネットワークは、2つ以上の層を備える層状ニューラルネットワークを備える、請求項5から7のいずれか1項に記載の聴覚機器。
【請求項9】
前記発話モデルは、自己回帰型発話モデルを備える、請求項1から8のいずれか1項に記載の聴覚機器。
【請求項10】
前記発話モデルは、複数の出力クラスにわたる確率分布を計算し、
前記出力クラスのそれぞれは、サンプリングされたオーディオ波形のサンプルのサンプル値を表す、請求項1から9のいずれか1項に記載の聴覚機器。
【請求項11】
頭部装着型聴覚装置を備えており、
前記頭部装着型聴覚装置は、前記骨伝導センサと、第1の通信インターフェースを備える、請求項1から10のいずれか1項に記載の聴覚機器。
【請求項12】
前記頭部装着型聴覚装置は、前記信号処理ユニットをさらに備えており、
前記頭部装着型装置は、前記第1の通信インターフェースを介して前記頭部装着型聴覚装置の外部にある外部装置に前記合成発話信号を通信するように構成される、請求項11に記載の聴覚機器。
【請求項13】
信号処理装置を備えており、
前記頭部装着型聴覚装置は、前記骨伝導信号を前記第1の通信インターフェースを介して前記信号処理装置に通信するように構成されており、
前記信号処理装置は、前記信号処理ユニットと、前記骨伝導信号を受信するように構成された第2の通信インターフェースを備える、請求項11に記載の聴覚機器。
【請求項14】
前記聴覚機器のユーザによって発話された空気伝送発話を記録し、記録された前記空気伝送発話を示す周囲マイクロフォン信号を提供するように構成された周囲マイクロフォンを備える、請求項1から13のいずれか1項に記載の聴覚機器。
【請求項15】
トレーニングデータを記憶するためのメモリを備えており、
前記トレーニングデータは、1つまたは複数の信号ペアを備えており、
前記信号ペアのそれぞれは、前記骨伝導センサによって記録されたトレーニング骨伝導信号と、前記信号ペアの前記トレーニング骨伝導信号の記録と同時に前記周囲マイクロフォンによって記録されたトレーニング周囲マイクロフォン信号を備える、請求項14に記載の聴覚機器。
【請求項16】
前記発話モデルは、前記発話モデルが前記骨伝導信号の表現を制御入力として受信した場合に、第1のフィルタによってフィルタリングされた発話信号に対応する合成フィルタリング済み発話信号を生成するように構成されており、
前記信号処理ユニットは、
前記骨伝導信号と同時に記録される周囲マイクロフォン信号を前記周囲マイクロフォンから受信し、
前記第1のフィルタに対して相補的である第2のフィルタを使用して、受信した前記周囲マイクロフォン信号のフィルタリング済みバージョンを作成し、
生成した前記合成フィルタリング済み信号を、受信した前記周囲マイクロフォン信号の作成した前記フィルタリング済みバージョンと組み合わせて、出力発話信号を作成するように構成されている、請求項14または15に記載の聴覚機器。
【請求項17】
前記信号処理ユニットは、トレーニングモードで動作するように構成されており、
前記信号処理ユニットは、前記トレーニングモードで動作する場合に、トレーニング骨伝導信号を受信するときの前記合成発話生成プロセスの結果に基づいて、およびモデル適合ルールに従って、前記発話モデルの1つまたは複数のモデルパラメータを適合させて、作成された前記合成発話と、対応するトレーニング周囲マイクロフォン信号の間の改善された一致を提供する、適合された発話モデルを決定するように構成される、請求項1から16のいずれか1項に記載の聴覚機器。
【請求項18】
BTE、RIE、ITE、ITCまたはCIC聴覚器具等の聴覚器具又は補聴器を備える、請求項1から17のいずれか1項に記載の聴覚機器。
【請求項19】
発話信号を取得する、コンピュータにより実装される方法であって、
音声情報の骨振動を骨伝導信号に変換するように構成された骨伝導センサから骨伝導信号を受信することと、
合成発話信号を生成するために発話モデルを使用することを備えており、
前記発話モデルは、制御入力として前記骨伝導信号を受信する、方法。
【請求項20】
合成発話を生成するための発話モデルをトレーニングする、コンピュータにより実装される方法であって、
複数のトレーニング信号ペアを受信することであって、それぞれのペアが、骨伝導センサからの骨伝導信号と、前記骨伝導信号と同時に記録される、周囲マイクロフォンからの周囲マイクロフォン信号を備える、受信することと、
前記発話モデルへの制御入力として前記骨伝導信号を使用することと、
前記発話モデルが制御入力として1つまたは複数の前記骨伝導信号を受信する場合に、前記発話モデルによって生成された前記合成発話と、1つまたは複数の前記周囲マイクロフォン信号それぞれとの比較に基づいて、前記発話モデルを適合させること、を備える方法。
【請求項21】
信号処理ユニットおよび/またはデータ処理システムによって実行される場合に、前記信号処理ユニットおよび/または前記データ処理システムに、請求項19または20に記載の方法の動作を実行させるように構成されている、コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、骨伝導センサを備える聴覚機器に関する。
【背景技術】
【0002】
クリーンな発話信号を取得することは、ヘッドセット、アクティブ聴覚保護具、および聴覚器具または補聴器などの頭部装着型聴覚装置を含む多くの通信用途において、かなりの関心が持たれている。クリーンな発話信号が取得されたら、クリーンな発話信号は、より聴き取りやすく、および/またはより快適に聞こえる発話信号を提供するように、クリーンな発話信号の遠端の受信者に、例えば、無線データ通信リンクを介して、供給されてもよい。発話認識システム、音声制御システムなどへの入力として、例えば、電話での通話中に、遠方の受信者に、改善された発話の聴き取り易さおよび/またはより良好な快適さを提供する、クリーンな発話信号を得ることが一般的には望ましい。
【0003】
しかしながら、頭部装着型聴覚装置のユーザが置かれる音環境は、妨害的な話者、交通雑音、騒々しい音楽、機械からのノイズなどの多数のノイズ音源により改悪または汚染されていることが多い。このような環境ノイズ音源のために、話者の音声が空気伝送音を記録するマイクロフォンによって拾われるとき、目標発話信号の信号対雑音比が悪くなることがある。このようなマイクロフォンは、ユーザの音環境からの全ての方向から到来する音に感度が高いこともあり、結果的に全ての周囲音を無差別に拾い上げ、これらをノイズが混ざった発話信号として遠端の受信者に送信してしまう傾向がある。環境ノイズの問題は、特定の指向特性を有するマイクロフォンを使用することによって、またはいわゆるブーム型マイクロフォン(ヘッドセットに典型的)を使用することによって、ある程度緩和され得るが、例えば無線データ通信リンクを介して遠端の受信者に送信される際のユーザの発話の改善された信号品質、特に改善された信号対雑音比を有する聴覚機器が、当該技術分野において必要とされている。後者は、Bluetooth(登録商標)リンクまたはネットワーク、Wi-Fi(登録商標)リンクまたはネットワーク、GSM(登録商標)セルラーリンク、有線接続などを備えてもよい。
【0004】
欧州特許3188507号は、遠端の受信者への送信のための、特定の音環境条件下における、改善された信号対雑音比を有するハイブリッド発話/音声信号を提供するために、ユーザの外耳道内で拾われたユーザ自身の音声の骨伝導成分を検出し、活用する、頭部装着型聴覚装置を開示している。ハイブリッド発話信号は、ユーザ自身の音声の骨伝導成分に加えて、頭部装着型聴覚装置の周囲マイクロフォン構成によって拾われる、ユーザ自身の音声の成分/寄与も含んでもよい。周囲マイクロフォン構成から導出されるこの追加の音声成分は、ハイブリッドマイクロフォン信号内のユーザの音声の元のスペクトルを少なくとも部分的に復元するための、ユーザ自身の音声の高周波成分を含んでもよい。
【0005】
国際公開第00/69215号は、ユーザの外耳道に挿入するように適合されたイヤピースを有する音声送信ユニットを開示しており、イヤピースは、骨伝導センサと空気伝導センサとの両方を有する。骨伝導センサは、音声情報の骨振動を電気信号に変換するために、外耳道の一部に接触するように適合されている。空気伝導センサは耳道内に存在し、音声情報の空気振動を電気信号に変換する。好ましい形態では、発話プロセッサが骨伝導センサおよび空気伝導センサからの出力をサンプリングして、ノイズをフィルタリングし、純音の音声信号を、送信するために選択する。音声信号の送信は、無線リンクを介してもよく、双方向通信を可能にするためにスピーカおよびレシーバが備えられていてもよい。
【0006】
骨伝導信号は、音および環境ノイズが骨伝導信号にほとんどまたは全く影響を及ぼさないという利点を有する一方で、骨伝導信号は話者の音声を表すためにそれを使用する際に、いくつかの欠点を有する。骨伝導信号はしばしば、くぐもって聞こえ、それはしばしば、より高い周波数を消してしまい、および/または、音が身体伝導性か空気伝導性かに起因する他のアーチファクトの影響を受ける。さらに、骨伝導信号は、例えば嚥下、顎の動き、耳とイヤピースの摩擦、および/またはそれらと同様のものから生じる音など、他の音を含むことがある。骨伝導信号は、不完全なイヤピースフィッティングまたは不完全な機械的カップリングにより、他のセンサノイズ(ヒス)を生じやすい場合がある。
【0007】
骨振動センサから得られる信号の品質を改善するために、様々な試みがなされてきた。この目的のために、種々のフィルタ技術が提案されている。例えば、T.TamiyaおよびT.Shimamura、2004年10月4日-8日、韓国、済州島、ICC済州、第8回音声言語処理に関する国際コンフェレンス(ICSLP)-Interspeech2004、「Reconstruction Filter Design for Bone-Conducted Speech」の記事は、話者から取得された骨伝導された発話信号の質を再構成するためのデジタルフィルタを扱っている。
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、骨伝導センサを有する聴覚機器から取得される発話信号の品質を向上させる聴覚機器を提供すること、および/またはそれに代わるものを提供することが、依然として望まれている。
【0009】
第1の態様によれば、本開示は、聴覚機器であって、前記聴覚機器の着用者の骨によって伝導される骨伝導振動を示す骨伝導信号を記録するように構成された骨伝導センサと、合成発話生成プロセスを実施するように構成された信号処理ユニットであって、合成発話生成プロセスは、制御入力として骨伝導信号の表現を受信し、合成発話信号を出力し、合成発話生成プロセスは、時系列の1つまたは複数の以前のサンプルから、時系列の現在のサンプルを予測するように構成される時系列予測器を実装し、時系列は、発話波形を表現しており、予測は、骨伝導信号の表現に条件付けられている、聴覚機器に関する。
【0010】
本発明者らは、合成発話を作成する合成発話モデルを使用し、合成発話構築プロセスを操るために、骨伝導センサからの骨伝導信号を使用することによって、高品質の発話の再構成を得ることができることに気付いた。特に、合成発話生成プロセスは、人工的な人間の発話を作り出すように構成される。合成発話生成プロセスは、人工的な発話を表現するオーディオ信号の波形を合成してもよい。したがって、信号処理ユニットの実施形態は、人間の発話を人工的に作り出すための発話合成器を実装する。発話合成器は発話モデルを含み、すなわち、発話生成プロセスは、発話信号をどのように生成するかを知っている。発話合成器のいくつかの実施形態は、いかなる制御入力がない場合であっても、発話信号を生成することができる。
【0011】
いくつかの実施形態では、発話モデルは、動作中に、経時的に発展する内部状態を定義する発話モデルである。したがって、発話モデルは、時間的に動的な挙動を示し、従って、オーディオ信号の波形を表現する時系列の作成を容易にする。
【0012】
いくつかの実施形態では、発話モデルは、トレーニング済み機械学習モデルである。特に、機械学習モデルは、複数のトレーニング発話例に基づいて、トレーニング段階において、トレーニングされてもよい。トレーニング発話例のそれぞれは、話者の発話を表すトレーニング骨伝導信号と、周囲マイクロフォンによって記録された空気伝送音を表す対応するトレーニングマイクロフォン信号を備えてもよく、空気伝送音は、話者の発話について記録され、特にトレーニング骨伝導信号の記録と同時に記録される。したがって、機械学習モデルは、トレーニング骨伝導信号によって制御される場合に、機械学習アルゴリズムによって、トレーニングマイクロフォン信号に近似する合成発話を作成するようにトレーニングされてもよい。トレーニングマイクロフォン信号は、このように、トレーニング段階において目標信号として使用される。機械学習モデルがトレーニングされると、機械学習モデルは、骨伝導信号のみに基づいて合成発話を生成してもよく、すなわち、発話合成器として動作する場合、周囲マイクロフォン信号は、トレーニング済み発話モデルへの入力として必要とされない。このように、発話モデルは、骨伝導信号のみに基づいて合成発話を生成するように構成され、生成された合成発話は、空気伝導音声に近似している。合成発話生成プロセスは、骨伝導信号の表現を発話モデルへの入力として供給する。ここでいう表現は、骨伝導信号またはそれの1つまたは複数の特徴、特に、骨伝導信号の1つまたは複数の時間依存特徴を表してもよい。合成発話生成プロセスは、いかなる発話の認識も必要とせず、すなわち、発話の意味を推論するプロセスを必要としない。
【0013】
機械学習発話モデルの作成は、実際の発話の仮定をほとんど必要とせず、再構成されるべき発話の特徴に関する先験的な知識をほとんど必要としない。代わりに、モデルは、トレーニング例のプールに基づいて作成される。特に、トレーニング例は、聴覚機器の特定のユーザの発話を表現する、骨伝導信号及び周囲マイクロフォン信号を含んでもよい。したがって、聴覚機器は、特定のユーザ、および特定のユーザの音声を合成するようにトレーニング済みの発話モデルに適合されてもよい。
【0014】
トレーニング済み発話モデルは、骨伝導信号の受信に応じて、人工的な発話を合成するために使用されてもよい。特に、発話モデルは、その唯一の入力、特にその唯一の制御入力としての骨伝導信号に基づいて、人工的な発話を合成するように構成されてもよい。制御入力は、発話モデルに対する条件信号を表す入力であってもよく、ここで、発話モデルは、制御信号に基づいて調整された合成発話を予測するように構成され、すなわち、制御信号は確率的発話モデルに対する条件として、例えば、合成発話を表現する波形を予測するように構成された確率的時系列予測プロセスに対する条件として機能してもよい。
【0015】
いくつかの実施形態では、機械学習モデルは、ニューラルネットワークモデルを備える。特に、いくつかの実施形態では、ニューラルネットワークモデルは、少なくとも3つの層など、少なくとも2つの層などの、1つまたは複数層の層状ニューラルネットワークモデルを備える。ニューラルネットワークは、少なくとも4つのネットワーク層など、少なくとも3つのネットワーク層を備える、深層ニューラルネットワークであってもよい。層の個数は、モデルの所望の設計精度に基づいて選択され得ることが理解されよう。さらに、他の実施形態は、他のタイプの機械学習モデルを使用してもよいことが理解されよう。
【0016】
1つまたは複数の層のうちの1つは、回帰型ニューラルネットワークであってもよく、任意選択的に、例えば、ソフトマックス層、または別のハードもしくはソフトな分類もしくは決定層を含む、1つまたは複数の追加の層が続く。いくつかの実施形態では、回帰型ニューラルネットワークは、密度推定モードで動作する。
【0017】
いくつかの実施形態では、発話モデルは、自己回帰型発話モデルを備える。特に、発話モデルは、合成発話波形を表現する予測サンプルのシーケンスを出力してもよい。合成発話生成プロセスは、予測サンプルのシーケンスのうちの1つまたは複数の以前のサンプルを、自己回帰型発話モデルへのフィードバック入力として供給するように構成されてもよく、自己回帰型発話モデルは、1つまたは複数の以前のサンプルから、予測サンプルのシーケンスのうちの現在のサンプルを予測し、さらに骨伝導信号の表現の1つまたは複数のサンプルに条件付けられるように構成されてもよい。一般に、合成発話生成プロセスおよび/または発話モデルは、発話波形を表す時系列の1つまたは複数の以前のサンプルから、時系列の現在のサンプルを予測するように構成された時系列予測器を実装し、予測は、骨伝導信号の表現に条件付けられており、たとえば、骨伝導信号の表現は、骨伝導信号の表現に条件付けられた、条件付き確率から発話信号を計算するための条件としての役割を果たす。
【0018】
発話モデルへの自己回帰入力信号は、いくつかの方法で、例えば、連続的な変数として、またはワンホット符号化(one hot encoding)を使用して符号化することができる。符号化は、リニア、μ-law、ガウシアンおよび/またはそれらと同様のものであってもよい。
【0019】
発話モデルによって出力される予測サンプルのシーケンスの予測サンプルは、複数の出力クラスにわたるサンプリングされた確率分布として表現されてもよい。したがって、いくつかの実施形態では、発話モデルは、複数の出力クラスにわたる確率分布を計算し、出力クラスのそれぞれは、サンプリングされたオーディオ波形のサンプルのサンプル値を表す。例えば、それぞれのクラスは、合成発話を表現する予測オーディオ信号の値を表してもよい。例えば、オーディオ信号が8ビット信号として符号化される場合、発話モデルは256個の出力を有してもよい。確率分布は、サンプリングされてもよく、サンプルは、合成発話生成プロセスの出力として転送されてもよい。サンプルはまた、後続のサンプルの予測のために発話モデルの入力に転送されてもよい。
【0020】
合成発話モデルを操るために、例えば、条件付き予測処理に対する条件として、骨伝導信号は、いくつかの方法で表されてもよい。したがって、本明細書で使用される骨伝導信号への言及は概して、骨伝導信号の適切な表現、すなわち、未加工の骨伝導信号、または骨伝導信号の適切に処理されたバージョン、例えば以下のものであるが、骨伝導信号のフィルタリングされたバージョンおよび/またはアップサンプリング/またはダウンサンプリングされたバージョン、および/または骨伝導信号の適切に変換されたバージョン、例えば、骨伝導信号の時間および/または周波数表現を指す。骨伝導信号の表現は、適切な時間スケールで変化する波形を表現してもよい。骨伝導信号の表現は、発話信号のエンベロープ形状の情報を含む表現であってもよい。いくつかの実施形態では、信号処理ユニットは、骨伝導信号のメル(MEL)変換を提供するように、骨伝導信号を処理するように構成されている。メル表現を使用することで、いくつかの発話合成アルゴリズムの「シームレスな」統合を可能にし得る。さらに、メル表現は、メル変換に埋め込まれている人間の聴覚の知識(対数周波数)に起因して、有益であり得る。
【0021】
別の実施形態では、骨伝導信号は、単一の連続的な信号のサンプリングされたバージョンとして直接提供され、したがって、レイテンシが短くなる。この信号は、予測サンプルのシーケンスと同じレートで、またはそれよりも低いレートで、サンプリングされてもよい。そのような実施形態では、発話モデルは、マッチングするサンプルレートで、骨伝導信号に存在する情報全体を利用してもよい。
【0022】
聴覚機器は、単一の聴覚装置、例えば、頭部装着型聴覚装置として、または互いに通信可能に接続された複数の装置を備える1つの機器として、実装されてもよい。頭部装着型聴覚装置は、骨伝導センサと、第1の通信インターフェースを備えてもよい。
【0023】
特に、いくつかの実施形態では、聴覚機器は、骨伝導センサと、第1の通信インターフェースと、信号処理と、を備える頭部装着型聴覚装置を備える。この実施形態では、頭部装着型装置は、第1の通信インターフェースを介して、頭部装着型聴覚装置の外部にある外部装置に合成発話信号を通信するように構成されてもよい。
【0024】
他の実施形態では、聴覚機器は、頭部装着型装置と、信号処理装置を備える。頭部装着型聴覚装置は、骨伝導センサと、骨伝導信号を信号処理装置に通信するための第1の通信インターフェースを備える。信号処理装置は、骨伝導信号を受信するための第2の通信インターフェースと、合成発話生成プロセスを実施する信号処理ユニットの少なくとも一部(例えば、全て)を備える。したがって、頭部装着型聴覚装置の処理要件が低減される。
【0025】
頭部装着型聴覚装置と信号処理装置の間の通信は、有線であっても無線であってもよい。いくつかの実施形態では、聴覚装置は、例えば、アンテナおよび無線トランシーバを備える無線通信インターフェースを備える。同様に、信号処理装置は例えば、アンテナ及び無線トランシーバを備える無線通信インターフェースを備えてもよい。
【0026】
無線通信は、双方向または単方向のデータリンク等の無線データ通信リンクを介してもよい。無線データ通信リンクは、2.40~2.50GHz帯域または902~928MHz帯域などの、産業科学医学(ISM)無線周波数範囲または帯域で、例えば、Bluetooth Low Energy通信または別の適切な短距離無線周波数通信技術を使用して動作してもよい。
【0027】
有線通信は、例えば、スマートフォンまたはタブレットなどの別個の無線データ送信器または通信装置に骨伝導信号を送信するための、USB、IIC、またはSPI準拠のデータ通信バスを備えてもよい有線データ通信インターフェースを介してもよい。
【0028】
聴覚機器は、生成された合成発話信号を、後続の処理ステージ、例えば、信号処理装置などによって、聴覚機器によって実施される後続の処理ステージ、および/または聴覚機器の外部にある装置によって実施される後続の処理ステージに適用するように構成されてもよい。
【0029】
この目的のために、聴覚機器は、作成された合成発話信号を、様々な方法で、出力として提供してもよい。例えば、信号処理ユニットが頭部装着型聴覚装置に含まれる実施形態では、頭部装着型聴覚装置は、作成された合成発話信号を、携帯電話、タブレットコンピュータおよび/またはそれらと同様のものなどの、ユーザアクセサリ装置に通信してもよい。この目的のために、頭部装着型聴覚装置は、例えば上述のように、有線または無線の通信リンクを介して、作成された合成発話信号を通信してもよい。ユーザアクセサリ装置は、例えば、ユーザアクセサリ装置上で実行される音声制御可能ソフトウェアアプリケーションなどの、音声制御可能機能への入力として、受信された合成発話信号を使用してもよい。代替的にまたは追加的に、ユーザアクセサリ装置は例えば、セルラー通信リンクを介して、または、Bluetooth Low Energyリンク、セルラー通信ネットワークおよび/またはそれらと同様のものなどの、他の優先または無線の通信リンクを介して、合成発話信号を遠隔システムに送信してもよい。
【0030】
同様に、信号処理ユニットが頭部装着型聴覚装置とは別の信号処理装置に含まれる実施形態では、信号処理装置は、受信した合成発話信号を、信号処理装置の音声制御可能な機能、例えば、信号処理装置上で実行される音声制御可能なソフトウェアアプリケーションへの入力として、それ自身が使用してもよい。代替的に又は追加的に、信号処理装置は、例えば、セルラー通信リンクを介して、またはBluetooth Low Energyリンク、セルラー通信ネットワークおよび/またはそれらと同様のものなどの、他の有線または無線の通信リンクを介して、合成発話信号を遠隔システムに送信してもよい。
【0031】
したがって、いくつかの実施形態では、聴覚機器は、生成された合成発話信号を聴覚機器の出力として提供するように構成された出力インターフェースを備える。出力インターフェースは、ラウドスピーカ、または生成された合成発話信号を、例えば有線または無線の通信リンクを介して1つまたは複数の遠隔システムに送信するように構成された、有線または無線の通信インターフェースなどの通信インターフェースであってよい。聴覚機器が信号処理ユニットを含む頭部装着型聴覚装置として実装される実施形態では、頭部装着型聴覚装置は、出力ユニットも備えてもよい。聴覚機器が頭部装着型聴覚装置および別個の信号処理装置を備える実施形態では、信号処理装置が出力ユニットを備えてもよい。
【0032】
後続の処理ステージの例は、音声認識ステージ、人工的な発話信号を1つまたは複数の追加信号と混合するためのミキサステージ、フィルタリングステージなどを含んでもよい。
【0033】
骨伝導センサは、聴覚機器の着用者、特に頭部着用型聴覚装置の着用者が話すときに、聴覚機器の着用者、特に頭部着用型聴覚装置の着用者の骨によって伝導される骨伝導振動を示す骨伝導信号を記録するように構成される。骨伝導センサは、記録された振動を示す骨伝導信号を提供する。一般に、聴覚機器の着用者、特に頭部着用型装置の着用者は、聴覚機器のユーザとも呼ばれる。骨振動は、ユーザが話すときに、聴覚機器のユーザの音声の情報を伝える。骨伝導振動の一部は、嚥下、顎の動き、耳とイヤピースの摩擦、および/またはそれらと同様のものから生じる音など、他の源を有し得ることが理解されるだろう。本明細書の目的のために、これらはノイズとして考えてもよい。したがって、本明細書の目的のために、骨伝導信号によって変換された骨振動は、ユーザが話すときのユーザの音声に関する情報を搬送するので、音声の振動とも呼ばれる。骨伝導センサは、外耳道マイクロフォン、加速度計、振動センサ、または聴覚機器の着用者が話すときに骨伝導振動を記録するための別の適切なセンサであってもよい。骨伝導センサの適切な例は、欧州特許3188507号および国際公開番号00/69215に開示されている。
【0034】
いくつかの実施形態では、聴覚機器は、聴覚機器のユーザが話した空気伝送発話を記録し、記録された空気伝送発話を示す周囲マイクロフォン信号を提供するように構成された周囲マイクロフォンを備える。いくつかの実施形態では、頭部装着型聴覚装置は、周囲マイクロフォンを備える。代替的又は付加的に、聴覚機器が頭部装着型聴覚装置及び別個の信号処理装置を含む実施形態では、信号処理装置が周囲マイクロフォンを備えてもよく、したがって、頭部装着型聴覚装置と信号処理装置との間の通信リンクに対する伝送要件を低減することができる。
【0035】
いくつかの実施形態では、信号処理ユニットは、発話モデルをトレーニングするためのトレーニング段階において使用するための目標信号として、周囲マイクロフォン信号を受信するように構成される。代替的又は付加的に、信号処理ユニットは、通常動作中に、周囲マイクロフォン信号を受信し、生成された合成発話信号から、及び周囲マイクロフォン信号から、出力発話信号を作成してもよい。
【0036】
特に、周囲マイクロフォン信号がトレーニング段階において使用される場合、信号処理ユニットは、記録モードおよび/またはトレーニングモードで動作可能であるように構成されてもよい。記録モードおよび/またはトレーニングモードで動作する場合、信号処理ユニットは、骨伝導信号および周囲マイクロフォン信号を受信する。ここで、周囲マイクロフォン信号は骨伝導信号と同時に記録されており、それによって、それぞれが聴覚機器の装着者の同じ発話を表現する、骨伝導信号および周囲マイクロフォン信号を含む信号ペアを表現している。このように、骨伝導信号および周囲マイクロフォン信号は、それぞれの波形のペアとして記録されてもよい。この目的のために、ユーザは、低ノイズ環境において、異なる文章または他の発話部分を話すように指示されてもよい。ここで、話者の骨伝導音信号は骨伝導センサによって記録され、空気伝送音は周囲マイクロフォン信号によって同時に記録される。
【0037】
したがって、聴覚機器はトレーニングデータを記憶するためのメモリを備えてもよく、トレーニングデータは1つまたは複数の信号ペアを備えており、それぞれの信号ペアは、骨伝導センサによって記録されたトレーニング骨伝導信号と、信号ペアのトレーニング骨伝導信号の記録と同時に周囲マイクロフォンによって記録されたトレーニング周囲マイクロフォン信号を備えている。
【0038】
トレーニングモードで動作する場合、信号処理ユニットは、記録された発話のセグメントを表現する波形など、互いに異なる発話部分を表す1つまたは複数のそのような信号ペアを受信し、任意選択で記憶するように構成されてもよい。
【0039】
このように、1つまたは複数の記録された信号ペアは、発話モデルを適合させるための、特に発話モデルの調整可能なモデルパラメータを適合させるための機械学習プロセスにおいて、トレーニングデータとして使用されてもよい。機械学習プロセスは、信号処理ユニットによって、および/または外部のデータ処理システムによって、実行されてもよい。
【0040】
したがって、いくつかの実施形態では、信号処理ユニットは、トレーニングモードで動作するように構成されており、信号処理ユニットは、トレーニングモードで動作する場合に、トレーニング骨伝導信号を受信するときの合成発話生成プロセスの結果に基づいて、およびモデル適合規則に従って、発話モデルの1つまたは複数のモデルパラメータを適合させて、作成された合成発話と、対応するトレーニング周囲マイクロフォン信号との間の改善された一致を提供する、適合された発話モデルを決定するように構成される。
【0041】
トレーニングプロセスが外部データ処理システムによって実行される場合、信号処理ユニットは、記録されたトレーニングデータを外部データ処理システムに送信してもよい。外部データ処理システムは、トレーニングデータに基づいて発話モデルを作成し、または既存の発話モデルを適合させ、作成または適合された発話モデルの対応する作成または適合されたモデルパラメータを、信号処理ユニットに返信してもよい。信号処理ユニットは、例えば、適切な有線または無線のデータ通信リンクを介して、外部データ処理システムにトレーニング例を連続的に転送してもよい。代替的に、信号処理ユニットは、聴覚機器のメモリにトレーニングデータを格納し、格納されたトレーニングデータを、例えば、有線または無線の通信リンクを介して、および/または取り外し可能なデータキャリアおよび/またはそれと同様のものなどにトレーニングデータを格納することによって、外部データ処理システムに提供してもよい。
【0042】
信号処理ユニット自体が機械学習プロセスを実行する場合、これはオンラインまたはオフラインで行われてもよい。オンライントレーニングを実行する際に、信号処理ユニットは、トレーニングデータが記録されつつ、発話モデルを連続的に適合させてもよい。オフライントレーニングを実行する際に、信号処理ユニットは、例えば、記録モードで動作するとき、トレーニングデータのプールを聴覚機器のメモリに記憶してもよく、プールは、固定長または可変長の複数の信号ペアを含む。トレーニングモードで動作する場合、信号処理ユニットは、記憶されたトレーニングデータのプールに基づいてトレーニング処理を実行してもよい。オンライントレーニングとオフライントレーニングの様々な組み合わせが可能であることが理解されるであろう。例えば、後に行う初期発話モデルのオンラインまたはオフラインでの適合と組み合わせた大型の初期トレーニングセットに基づく、外部データ処理システムまたは信号処理ユニットによる、初期発話モデルのオフライントレーニングなどである。別個の信号処理装置によって、または遠隔データ処理システムによって、トレーニングプロセスの少なくとも一部を実行することは、頭部装着型聴覚装置における計算能力の必要性を低減する。
【0043】
いずれにしても、トレーニングプロセスの一実施形態は、現在の発話モデルが、例えば確率的時系列予測プロセスの条件として、制御入力として1つまたは複数の記録されたトレーニング骨伝導信号を受信するときに、現在の発話モデルを使用して合成発話を作成してもよい。トレーニングプロセスはさらに、このようにして作成された合成発話を、それぞれのトレーニング骨伝導信号と同時に記録された対応する1つまたは複数のトレーニング周囲マイクロフォン信号と比較してもよい。トレーニングプロセスはさらに、比較の結果に応じて、モデル適合ルールに従って、現在の発話モデルの1つまたは複数のモデルパラメータを適合させて、作成された合成発話と対応するトレーニング周囲マイクロフォン信号との間の改善された一致を提供する適合された発話モデルを決定してもよい。このプロセスは例えば、所定のモデル品質基準が満たされ、その結果トレーニング済み発話モデルが得られるまで、反復方式で繰り返されてもよい。好ましくは、少なくとも初期トレーニングプロセスは、歯がぶつかる音、顎の動き、嚥下などのような広範な種類の発話および発話関連アーチファクトをカバーする、トレーニングデータの大きなデータセットに基づく。
【0044】
代替的に又は追加的に、周囲マイクロフォン信号は、聴覚機器の通常動作中に、すなわち、発話モデルのトレーニング後に、トレーニング済み発話モデルと組み合わせて使用されてもよい。特に、いくつかの実施形態では、合成発話モデルは、周囲マイクロフォン信号のフィルタリングされたバージョンを再構成するように、トレーニングされてもよい。フィルタリングされたバージョンは、第1のフィルタ、例えばローパスフィルタによって取得されてもよい。トレーニング済み発話モデルを使用する聴覚機器のその後の通常動作中、信号処理ユニットは、骨伝導センサから骨伝導信号を受信し、同時に記録された周囲マイクロフォン信号を周囲マイクロフォンから受信してもよい。信号処理ユニットは、トレーニング済み発話モデルを使用して、合成発話信号を作成してもよい。信号処理ユニットはさらに、第1のフィルタに対して相補的な第2のフィルタを使用して、受信した周囲マイクロフォン信号のフィルタリングされたバージョンを作成してもよい。例えば、第1のフィルタが第1のカットオフ周波数を有するローパスフィルタである場合、第2のフィルタは、第1のカットオフ周波数以下の第2のカットオフ周波数を有するハイパスフィルタであってもよい。信号処理ユニットはさらに、作成された合成発話信号を周囲マイクロフォン信号のフィルタリングされたバージョンと組み合わせ、特に、混合し、組み合わされた信号を出力発話信号として提供するように構成されてもよい。
【0045】
したがって、いくつかの実施形態において、発話モデルは、発話モデルが骨伝導信号を制御入力として、特に条件入力として受信したとき、第1のフィルタによってフィルタリングされた発話信号に対応する合成フィルタリング済み発話信号を生成するように構成されており、信号処理ユニットは、骨伝導信号と同時に記録される周囲マイクロフォン信号を周囲マイクロフォンから受信し、第1のフィルタに対して相補的である第2のフィルタを使用して、受信した周囲マイクロフォン信号のフィルタリング済みバージョンを作成し、生成した前記合成フィルタリング済み信号を、受信した周囲マイクロフォン信号の作成したフィルタリング済みバージョンと組み合わせて、出力発話信号を作成するように構成されている。
【0046】
特に、骨伝導振動は、話された発話の低周波数を再構成するのに特に有用であり、一方で骨伝導信号は、発話信号の高周波数を再構成するのにあまり有用ではない場合があることが分かってきた。したがって、いくつかの実施形態では、合成発話の再構成された低周波部分は、実際の周囲マイクロフォン信号の高周波部分と組み合わされる。
【0047】
当業者であれば、上記のフィルタリング機能のそれぞれは、多くの方法で実装されてもよいことを理解するだろう。特定の実施形態では、ローパスおよび/またはハイパスフィルタリング機能は、所定の周波数応答または調節/適合可能な周波数応答を有する、1つまたは複数のFIRフィルタ又はIIRフィルタを備える。ローパスおよび/またはハイパスフィルタリング機能の代替実施形態は、デジタルフィルタバンクなどのフィルタバンクを備える。フィルタバンクは、音周波数範囲の少なくとも一部にわたって配置された複数の隣接するバンドパスフィルタを備えてもよい。信号処理ユニットは、信号プロセッサのプログラマブルマイクロプロセッサの実施形態上で実行される実行可能プログラム指示の所定のセットとして、ローパスフィルタリング機能および/またはハイパスフィルタリング機能を生成または提供するように構成されてもよい。デジタルフィルタバンクを使用して、ローパスフィルタリング機能は、複数の隣接するバンドパスフィルタの第1のサブセットのそれぞれの出力を選択することによって実行されてもよく、および/またはハイパスフィルタリング機能は、複数の隣接するバンドパスフィルタの第2のサブセットのそれぞれの出力を選択することを備えてもよい。フィルタバンクの隣接するバンドパスフィルタの第1および第2のサブセットは、後述するそれぞれのカットオフ周波数を除いて、実質的に重複していなくてもよい。
【0048】
ローパスフィルタリング機能は、例えば、1kHzと2kHzの間等の、800Hzと2.5kHzの間で選択されるカットオフ周波数を有してもよく、および/またはハイパスフィルタリング機能は、例えば、1kHzと2kHzの間等の、800Hzと2.5kHzの間のカットオフ周波数を有してもよい。一実施形態では、ローパスフィルタリング機能のカットオフ周波数は、ハイパスフィルタリング機能のカットオフ周波数と実質的に同一である。別の実施形態によれば、ローパスフィルタリング機能及びハイパスフィルタリング機能のそれぞれの出力信号の合計の大きさは、少なくとも重複する領域において、実質的に1である。ローパスおよびハイパスフィルタリング機能の後者2つの実施形態は、典型的にはフィルタリング機能の合計の出力の比較的平坦な大きさをもたらす。
【0049】
頭部装着型聴覚装置は、聴覚器具または補聴器、イヤフォン、ヘッドセット、聴覚保護装置などであってもよい。一般的に、頭部装着型聴覚装置は、ユーザの耳に、耳の後ろに、および/または耳の中に装着される装置であってもよい。特に、いくつかの実施形態では、頭部装着型聴覚装置は、聴覚損失補償オーディオ信号を受信し、ラウドスピーカを介してユーザまたは患者に送達するように構成された補聴器であってもよい。補聴器は、耳かけ(BTE)型、耳内(ITE)型、耳あな(ITC)型、外耳道内レシーバ(RIC)型、または耳内レシーバ(RITE)型であってもよい。典型的には、聴覚装置の電源からの非常に限られた電力の量しか利用できない。例えば、電力は、典型的には補聴器内の従来のZnO2電池から供給される。頭部装着型聴覚装置の設計において、サイズと消費電力は、重要な考慮事項である。頭部装着型聴覚装置は、周囲マイクロフォンによって記録された、記録された周囲音に基づいてオーディオ信号を出力するように構成された、1つまたは複数の周囲マイクロフォンを備えてもよい。頭部装着型聴覚装置は、信号および/またはデータ処理を実行するための処理ユニットを備えてもよい。特に、処理ユニットは、頭部装着型聴覚装置のユーザの聴力損失を補償し、聴力損失補償されたオーディオ信号を出力するように構成された聴力損失プロセッサを備えてもよい。聴力損失補償されたオーディオ信号は、通常の聴取者によってそのように知覚されるであろうとおりに適用された信号のラウドネスが、ユーザによって知覚される聴力損失補償された信号のラウドネスと実質的に一致するように、ラウドネスを回復するように適合されてもよい。頭部装着型聴覚装置はさらに、聴力損失補償されたオーディオ信号に基づいて、人間の聴覚系によって受信可能な聴覚出力信号を出力するように構成された、レシーバまたはラウドスピーカ、埋め込み型トランスデューサなどの、出力トランスデューサを備えてもよく、それによって、ユーザはその音を聞く。
【0050】
一般に、聴覚機器の実施形態の信号処理ユニットは、発話モデルのモデルパラメータを記憶するためのメモリを備えるか、またはメモリに通信可能に接続されてもよい。発話モデルのトレーニング中に適合可能な適合可能モデルパラメータに加えて、モデルパラメータは、発話モデルのトレーニング中に適合されない静的パラメータを含んでもよい。静的モデルパラメータは、モデル構造、例えばニューラルネットワークアーキテクチャのネットワークトポロジを示してもよい。そのような静的モデルパラメータは、例えば、層状ネットワーク構造のネットワーク層の個数および特性、それぞれの層におけるノードの個数、それぞれの層のノードを接続する重みの接続性トポロジなどを含んでもよい。しかしながら、いくつかのトレーニングプロセスは、例えば、重みを削ることおよび/またはそれと同様のものなどによって、モデルトポロジの少なくとも一部の適合を含んでもよいことが理解されるだろう。
【0051】
いずれにしても、モデルパラメータは、トレーニングプロセス中に適合可能な複数の適合可能なモデルパラメータを含む。例えば、ニューラルネットワークベースの発話モデルでは、適合可能なネットワークパラメータがニューラルネットワークの重みを含み、その値または強度は、実際のモデル出力と目標出力との比較に応じて、所定のトレーニングルールに基づいて、トレーニングプロセス中に適合される。トレーニングルールの例には、誤差逆伝播および/または機械学習の技術分野で知られている他のトレーニングルールが含まれる。
【0052】
上述のように、いくつかの実施形態では、聴覚機器は、頭部装着型聴覚装置とは別個の信号処理装置を備える。信号処理装置は、適切にプログラムされた中央処理ユニットとして実装され得る、信号処理ユニットを備えてもよい。信号処理装置は、それぞれが信号処理ユニットに通信可能に接続された、メモリユニットと、通信インターフェースをさらに備えてもよい。メモリユニットは、読み出し専用メモリ(ROM)、ランダムアクセスメモリ(RAM)などを含むが、これらに限定されない、1つまたは複数の取り外し可能および/または取り外し不能なデータ記憶ユニットを含んでもよい。メモリユニットは、そこに記憶されたコンピュータプログラムを有してもよく、コンピュータプログラムは、信号処理装置に、本明細書で記載される合成発話生成プロセス、および任意選択で、本明細書で記載される発話モデルトレーニングプロセスを実行させるためのプログラムコードを備える。通信インターフェースは、アンテナと、例えば2.4~2.5GHzの範囲の周波数で、または別の適切な周波数範囲で無線通信するように構成された、無線トランシーバを備えてもよい。通信インターフェースは、例えばBluetooth Low Energyを使用して、頭部装着型聴覚装置との無線通信などの通信のために構成されてもよい。通信インターフェースは、骨伝導信号の受信、および任意選択的に、頭部装着型装置からの周囲マイクロフォン信号の受信のためのものであってもよい。いくつかの実施形態では、通信インターフェースは、作成された合成発話信号を出力するための出力インターフェースとしても機能してもよい。代替的に又は追加的に、信号処理装置は、生成された合成発話信号を出力するための別の出力インターフェース、例えば、セルラー通信ネットワークを介したデータ通信のために構成されたセルラー通信ユニットおよび/または別の有線または無線のデータ通信インターフェースなどを含んでもよい。信号処理装置は、携帯通信装置、例えば、スマートフォン、スマートウォッチ、タブレットコンピュータ、または別の処理装置もしくはシステムなどのモバイル装置であってもよい。
【0053】
いくつかの実施形態では、聴覚機器は、空気伝送振動をマイクロフォン信号に変換するように構成された周囲マイクロフォンを備えており、合成発話生成プロセスは、骨伝導信号に加えて、制御入力としてマイクロフォン信号を受信する。そのような実施形態では、マイクロフォン信号および骨伝導信号の両方が、合成発話生成プロセスに入力される。特に、発話モデルは、マイクロフォンおよび骨伝導信号を「クリーンな発話」にマッピングしてもよい。クリーンな発話は、一般的に、ノイズが存在しない場合の発話信号と考えることができる。これは、クリーンな発話信号の予測のために、追加的な相関信号が利用可能であるので、クリーンな発話の再構成をさらに助ける。発話モデルが入力としてマイクロフォン信号も有する場合、トレーニング発話例は、ノイズ成分を含んでもよく、および/または発話モデルは、マイクロフォン信号中のノイズ成分を推定し、ノイズ成分をフィルタリングするように構成されていてもよい。
【0054】
いくつかの実施形態では、信号処理ユニットは、例えば、信号処理の一部、例えば、骨伝導センサによって提供される骨伝導信号の前処理が、頭部装着型聴覚装置によって実行され、信号処理の残りが、信号処理装置によって実行されるように、聴覚装置と信号処理装置との間で分散されていてもよいことが理解されるであろう。
【0055】
信号処理ユニットが頭部装着型聴覚装置の一部として実装されるか、または別個の信号処理装置の一部として実装されるかにかかわらず、信号処理ユニットは、合成発話生成プロセスを実行するためにプログラム命令の所定のセットを実行するプログラマブルデジタル信号プロセッサなどのプログラマブルマイクロプロセッサを備えてもよい。したがって、信号プロセッサによって実行される信号処理機能または動作は、専用ハードウェアによって実装されてもよく、または1つまたは複数の信号プロセッサにおいて実装されてもよく、または専用ハードウェアと1つまたは複数の信号プロセッサとの組み合わせにおいて実行されてもよい。例えば、信号プロセッサは、ASIC集積プロセッサ、FPGAプロセッサ、汎用プロセッサ、マイクロプロセッサ、回路構成要素、または集積回路であってもよい。
【0056】
周囲マイクロフォン信号は、マイクロフォンのトランスデューサ素子に結合されたA/Dコンバータによって生成されたデジタルマイクロフォン入力信号として提供されてもよい。同様に、骨伝導信号は、骨伝導センサのトランスデューサ素子または他の感知素子に結合されたA/Dコンバータによって生成されたデジタル骨伝導信号として提供されてもよい。上記のA/Dコンバータの一方または両方は、例えば、共通の半導体基板上の信号処理ユニットとは別個であってもよいし、またはそれと一体化されていてもよい。周囲マイクロフォン信号および骨伝導信号のそれぞれは、適切なサンプリング周波数および分解能において、デジタルフォーマットで提供されてもよい。これらのデジタル信号のそれぞれのサンプリング周波数は、2kHz~48kHzの間に存在してもよい。当業者は、フィルタリング、組み合わせ、および/またはそれらと同様のものなどの、1つまたは複数のそれぞれの信号処理機能が、実行可能プログラム命令の所定のセットによって、および/または専用であって適切に構成されたデジタルハードウェアによって、実行されてもよいことを理解するであろう。いくつかの実施形態では、骨伝導信号は、それが制御入力として発話モデルに適用される前に、例えば、ダウンサンプリング、フィルタリングなど、前処理されてもよい。
【0057】
本開示は上記および以下に記載される装置、対応する装置、システム、方法、および/または製品を含む異なる態様に関し、それぞれは1つ以上の他の態様に関連して記載される利益および利点のうちの1つ以上をもたらし、それぞれは、1つ以上の他の態様に関連して記載されるおよび/または添付の特許請求の範囲に開示される実施形態に対応する1つ以上の実施形態を有する。
【0058】
特に、一態様によれば、本明細書で開示されるのは、発話信号を取得する、コンピュータにより実装される方法の実施形態であって、その方法は、
音声情報の骨振動を骨伝導信号に変換するように構成された骨伝導センサから骨伝導信号を受信することと、
合成発話信号を生成するために発話モデルを使用することを備えており、発話モデルは、制御入力として骨伝導信号を受信する。
【0059】
別の態様によれば、本明細書で開示されるのは、合成発話を生成するための発話モデルをトレーニングする、コンピュータにより実装される方法の実施形態であって、その方法は、複数のトレーニング信号ペアを受信することであって、それぞれのペアが、骨伝導センサからの骨伝導信号と、骨伝導信号と同時に記録される、周囲マイクロフォンからの周囲マイクロフォン信号を備える、受信することと、発話モデルへの制御入力として骨伝導信号を使用することと、発話モデルが制御入力として1つまたは複数の骨伝導信号を受信する場合に、発話モデルによって生成された合成発話と、1つまたは複数の周囲マイクロフォン信号それぞれとの比較に基づいて、発話モデルを適合させることと、を備えている。
【0060】
さらに別の態様によれば、本明細書で開示されるのは、コンピュータプログラム製品の実施形態であり、コンピュータプログラム製品は、信号処理ユニットおよび/またはデータ処理システムによって実行される場合に、信号処理ユニットおよび/またはデータ処理システムに、本明細書に開示される方法の1つまたは複数の動作を実行させるように構成される。
【0061】
コンピュータプログラム製品は、CD-ROM、DVD、光ディスク、メモリカード、フラッシュメモリ、磁気記憶装置、フロッピーディスク、ハードディスクなどの、非一時的コンピュータ読み取り可能媒体として提供されてもよい。他の実施形態では、コンピュータプログラム製品は、ダウンロード可能なソフトウェアパッケージとして、例えば、インターネットを介してダウンロードするためのウェブサーバ上の、または他のコンピュータまたは通信ネットワーク上の、ダウンロード可能なソフトウェアパッケージとして、またはアプリストアからモバイル装置にダウンロードするためのアプリケーションとして提供されてもよい。
【0062】
以下、添付図面を参照して、本発明の好ましい実施形態をより詳細に説明する。
【図面の簡単な説明】
【0063】
【
図3】聴覚機器および遠隔ホストシステムを備えるシステムの一例を概略的に示す。
【
図4】発話信号を取得するプロセスのフローチャートを示す。
【
図5】合成発話を生成するための発話モデルをトレーニングするプロセスのフローチャートを示す。
【
図6】トレーニングプロセスの一例を模式的に示す図である。
【
図7】トレーニング済み発話モデルを使用して合成発話信号を作成するプロセスのフロー図を示す。
【
図8】学習発話モデルに基づく合成発話生成プロセスの例を模式的に示す図である。
【発明を実施するための形態】
【0064】
以下、添付の図面を参照して、本発明の聴覚機器の様々な例示的な実施形態を説明する。当業者は、添付の図面が明確にするために概略的かつ簡略化されており、したがって、本発明の理解に不可欠である詳細を単に示すに過ぎず、他の詳細は省略されていることを理解するであろう。全体を通して、同様の参照番号は同様の要素を指す。したがって、同様の要素は、各図に関して必ずしも詳細に説明されない。
【0065】
図1Aは聴覚機器の一例を概略的に示し、
図1Bは、
図1Aの聴覚機器のブロック図を概略的に示す。聴覚機器は、頭部装着型聴覚装置100および信号処理装置200を備える。
図1Aの例では、聴覚装置100はユーザの耳360または耳たぶに取り付けられたBTE聴覚器具または補聴器である。他の実施形態は、他のタイプの聴覚装置を含んでもよいことが理解されるだろう。例えば、頭部装着型聴覚装置の他の実施形態は、ヘッドセットまたはアクティブ聴覚保護具を備えてもよいことを当業者は理解するだろう。
【0066】
聴覚装置100は、ハウジングまたはケーシング140を備える。
図1AのBTE聴覚器具の例では、ハウジングが図面上に概略的に図示されているように、ユーザの耳たぶの後ろに適合するように、形状およびサイズが決められている。他のタイプの聴覚装置は、異なる形状および/またはサイズのハウジングを有する可能性があることが理解されるだろう。ハウジング140は、聴覚装置100の様々な構成要素を収容する。聴覚装置は、聴覚装置の電子部品に電力を供給するために接続されたZnO2電池又は他の好適な電池(図示せず)を含んでもよい。聴覚装置100は、周囲マイクロフォン120と、処理ユニット110と、ラウドスピーカまたはレシーバ130とを備える。
【0067】
周囲マイクロフォン120は例えば、ハウジング140の内部に通じる1つまたは複数の音ポートまたは開口を通して環境音を拾うように構成されてもよい。周囲マイクロフォン120は、聴覚装置100が動作しているときにマイクロフォン120に達する音響信号に基づいて、アナログまたはデジタルのオーディオ信号を出力する。マイクロフォン120がアナログオーディオ信号を出力する場合、処理ユニット110は、アナログオーディオ信号を処理ユニット110内のデジタル信号処理のために対応するデジタルオーディオ信号に変換するアナログ-デジタルコンバータ(図示せず)を含んでもよい。処理ユニット110は、聴覚装置100のユーザ300の聴力損失を補償するように構成された聴力損失プロセッサ111を備える。好ましくは、聴力損失プロセッサ111は、当該技術分野で聴覚補充(recruitment)としばしば呼ばれるユーザのダイナミックレンジの周波数依存性損失の補償のために当該技術分野でよく知られたダイナミックレンジコンプレッサを備える。したがって、聴力損失プロセッサ111は、聴力損失補償オーディオ信号をラウドスピーカまたはレシーバ130に出力する。ラウドスピーカまたはレシーバ130は、聴力損失補償されたオーディオ信号を、ユーザの鼓膜に向かって伝送するための対応する音響信号に変換する。その結果、ユーザはマイクロフォン120に到達するが、ユーザの個々の聴力損失が補償された音を聞く。聴覚装置は、聴覚装置100を装着するユーザによって知覚される聴力損失補償信号のラウドネスが、通常の聴覚を有する聴取者が知覚するであろう、マイクロフォン120に到着する音響信号のラウドネスと実質的に一致するように、ラウドネスを回復するように構成されてもよい。いくつかの実施形態では、聴覚装置100が1つより多い周囲マイクロフォンを備えてもよい。例えば、聴覚装置は、例えば、無指向性マイクロフォンによって供給される個々のマイクロフォン信号上で動作するビームフォーミングアルゴリズムを通じて指向性を提供するために使用されてもよい一対の無指向性マイクロフォンを含んでもよい。ビームフォーミングアルゴリズムは特定の方向特性を有するマイクロフォン入力信号を提供するために、処理ユニット110上で実行されてもよい。
【0068】
図1Aの例では、聴覚装置100はユーザの外耳道に挿入されるイヤモールドまたはプラグ150を備え、ここで、モールド150はユーザを取り囲む音環境から外耳道容積323を少なくとも部分的に封止する。聴覚装置100は、可撓性の音管160を備え、音管160は、レシーバ/ラウドスピーカ130によって生成された音圧を、したがってレシーバ/ラウドスピーカ130はハウジング140内に配置されてもよいが、イヤモールド150を通って延在する音チャネルを通して、ユーザの外耳道に伝達するように適合されている。
【0069】
聴覚装置は、例えば
図1Aに示すようにイヤモールド150に収容された骨伝導センサ151をさらに備える。骨伝導センサ151は、デジタルフォーマットまたはアナログフォーマットのいずれかで、ユーザ300が音声を発声したときに感知された骨伝導振動を表す電子骨伝導信号を生成するように構成される。
【0070】
骨伝導センサは、様々な方法で骨伝導信号を感知することができることが理解されるだろう。例えば、骨伝導センサは例えば、国際公開第00/69215号に記載されているように、イヤモールド150が外耳道に挿入されたときに、外耳道の壁に対して、例えば、外耳道の後上壁に対して接触するように配置されてもよい。他の実施形態では、骨伝導センサがユーザの耳の解剖学的構造の別の部分、またはユーザの頭部の別の部分、例えば、ユーザの外耳道の外側、例えば、ユーザの耳の後ろの位置に接触するように配置される。当業者は、骨伝導センサが頭部装着型聴覚装置の異なる部分、例えば、ユーザの頭部の側面と接触するように配置される部分に配置されてもよいことを理解するだろう。さらに他の実施形態では、骨伝導センサはユーザの完全にまたは部分的に閉塞された外耳道容積323内の外耳道音圧を感知または検出するように構成された外耳道マイクロフォンとして形成される。外耳道容積323は例えば欧州特許3188507号に記載されているように、ユーザの鼓膜(tympanic membrane)すなわち鼓膜(ear drum)(図示せず)の前に配置される。
【0071】
電子的骨伝導信号は例えば、可撓性音管160の外面または内面に沿って延びる好適な電気ケーブル(図示せず)を介して処理ユニット110に送信されてもよい。代替の有線または無線の通信チャネル/リンクが、処理ユニットへの骨伝導信号の送信のために使用されてもよい。周囲マイクロフォン120、処理ユニット110およびラウドスピーカ/レシーバ130は、好ましくはハウジング140の内側に全て配置されて、これらの構成要素をほこり、汗および他の周囲の汚染物から遮蔽する。
【0072】
ユーザ自身の音声によって生成される外耳道容積323内の全音圧の骨伝導された発話成分の源は、ユーザの口からユーザの外耳道の骨部分(図示せず)を通って伝播する骨伝導音波324によって概略的に示される。また、ユーザが声を強めること(vocal effort)は、ユーザ自身の音声302の外耳道音圧の空気伝送成分も生成する。ユーザ自身の音声および/または他の環境音によって生成される外耳道音圧のこの空気伝送成分は、周囲マイクロフォン140、処理ユニット110、小型レシーバ130、可撓性音管160、およびイヤモールド150に伝播して、外耳道容積323に至る。
【0073】
したがって、骨伝導センサ151の技術に応じて、骨伝導センサは骨伝導音波324と空気伝送音波302との組み合わせを感知してもよく、ここで、後者は、ユーザの口および/または他の環境音源から生じてもよい。従って、幾つかの実施形態では、処理ユニットは、マイクロフォン140によって拾われ、ラウドスピーカ130によって発せられた音から生じるユーザの外耳道内への寄与をフィルタリングするように、骨伝導センサ151によって生成された骨伝導信号をフィルタリングするように構成されてもよい。そのような補償フィルタリング機構の実施形態は、欧州特許3188507号に記載されている。したがって、信号処理ユニット110は、環境音を表す外耳道音圧の他の成分が著しく抑圧または相殺されるので、外耳道容積323内の全外耳道音圧の骨伝導された自身の音声成分によって支配される補償された骨伝導信号を提供してもよい。当業者は、環境音圧成分の実際の抑制量がとりわけ、補償フィルタがいかに正確にラウドスピーカと外耳道マイクロフォンとの間の音響伝達関数をモデル化することができるかに依存することを理解するだろう。さらに、骨伝導センサの他の実施形態は、いかなる補償も必要としなくてもよく、または骨伝導信号の異なるタイプの前処理を必要としてもよいことが理解されるだろう。
【0074】
聴覚装置100はさらに、アンテナ180と、信号処理装置200と無線で通信するように構成された無線部分またはトランシーバ170とを備える無線通信ユニットを含む。処理ユニット110は、通信プロトコルおよび場合によっては他のタスクに関連する様々なタスクを実行するように構成された通信制御部113を備える。通信制御部113は例えば、Bluetooth LE制御部であってもよい。通信制御部113は様々な通信プロトコル関連タスク、例えば、オーディオ対応(audio enabled)Bluetooth LEプロトコル、および場合によって他のタスクを実行するように構成してもよい。聴覚装置100は、選択的にはフィルタリングおよび/または他の信号処理の後に、骨伝導センサ151によって感知された骨伝導信号を、トランシーバ170およびアンテナ180を介して、信号処理装置200に転送するように構成される。
【0075】
聴力損失プロセッサ111および通信制御部113は
図1Bでは別個のブロックとして示されているが、これらは完全にまたは部分的に単一のユニットに統合されてもよいことが理解されるだろう。例えば、処理ユニット110は、聴力損失プロセッサ111および/または通信制御部113、またはその一部を実装するように構成されてもよいデジタル信号プロセッサ(DSP)などのソフトウェアプログラマブルマイクロプロセッサを備えてもよい。聴覚装置100の動作は、ソフトウェアプログラマブルマイクロプロセッサ上で実行される適切なオペレーティングシステムによって制御されてもよい。オペレーティングシステムは、聴覚装置のハードウェアおよびソフトウェアリソースを管理するように構成してもよく、それらリソースは例えば聴力損失プロセッサ111、場合によっては他のプロセッサおよび関連する信号処理アルゴリズム、無線通信ユニット、メモリリソースなどを含む。オペレーティングシステムは、聴覚装置のリソースの効率的な使用のためにタスクをスケジュールしてもよく、電力消費、プロセッサ時間、メモリ位置、ワイヤレス送信、および他のリソースを含む、コスト振り分けのためのアカウンティングソフトウェアをさらに含んでもよい。
【0076】
聴覚機器の他の実施形態は、異なるタイプの頭部装着型聴覚装置、例えば、周囲マイクロフォンを有さない、および/またはラウドスピーカおよび関連する回路を有さない装置を含んでもよいことが理解されるだろう。
【0077】
信号処理装置200は、アンテナ210と、アンテナ210を介して無線で聴覚装置100の対応する無線部分または回路と通信するように構成された無線部分または回路240とを備える。信号処理装置200はまた、通信制御部221と、メモリ222と、中央処理ユニット223とを備える処理ユニット220を備える。通信制御部221は例えば、Bluetooth LE制御部であってもよい。通信制御部221は、様々な通信プロトコル関連タスク、例えば、オーディオ対応Bluetooth LEプロトコル、および場合によっては他のタスクを実行するように構成してもよい。
【0078】
信号処理装置は、聴覚装置100から骨伝導信号を受信するように構成される。この目的のために、骨伝導信号を表すデータパケットはRFアンテナ210を介して無線部分または回路240によって受信され、さらなる信号処理のために通信制御部221に、さらに中央処理ユニット223に転送されてもよい。特に、中央処理ユニット223は、制御入力として骨伝導信号を受信するトレーニング済み発話モデルに基づいて合成発話生成プロセスを実施するように構成される。
【0079】
この目的のために、信号処理装置は、発話モデルのモデルパラメータを記憶するためのメモリ222を有する。具体的には、メモリ222は、本明細書で説明する機械学習トレーニングプロセスによって取得された適合可能なモデルパラメータを記憶するように構成されてもよい。メモリ222は処理ユニット220の一部として示されているが、メモリは処理ユニット220に通信可能に結合された別個のユニットとして実装されてもよいことが理解されるだろう。
【0080】
中央処理ユニット223は、生成された合成発話を、信号処理装置200の適切な出力インターフェース230を介して、例えば、有線または無線の通信インターフェースを介して出力するようにさらに構成される。出力インターフェースは、Bluetoothインターフェース、別の短距離無線通信インターフェース、セルラー電気通信インターフェース、有線インターフェースおよび/またはそれらと同様のものであってもよい。いくつかの実施形態では、出力インターフェースが回路240に統合されても、または別の方法で240と組み合わせられてもよい。
【0081】
信号処理装置200は、ユーザの音声によって生成された空気伝送音を受信し、記録するためのマイクロフォン250をさらに備えてもよい。マイクロフォン250によって生成されるマイクロフォン信号は、聴覚信号処理装置200が記録および/またはトレーニングモードで動作するときに、特に以下に記載されるようなトレーニング例を作成するように、使用されてもよい。代替的に又は追加的に、マイクロフォン250は以下に常に説明されるように、生成された合成発話を補足するために使用されてもよい。代替の実施形態では、信号処理装置が本明細書で説明されるような発話生成の目的のために使用されるマイクロフォンを含まない。
【0082】
信号処理装置は、適切にプログラムされたスマートフォン、タブレットコンピュータ、スマートTV、またはオーディオ対応装置などの他の電子装置としてもよい。信号処理装置は、アプリケーションまたは他の形態のアプリケーションソフトウェアなどの適切なコンピュータプログラムを実行するように構成されてもよい。当業者は、信号処理装置200が典型的には携帯電話の技術分野で周知であるように、概略的に示されたものに加えて、多数の追加のハードウェアおよびソフトウェアリソースを含むことを理解するだろう。
【0083】
図2Aは聴覚機器の別の例を概略的に示し、
図2Bは、
図2Aの聴覚機器のブロック図を概略的に示す。
図2A-
図2Bの聴覚機器は、
図1A-
図1Bの聴覚機器と、
図2A-
図2Bの実施例においては、頭部装着型聴覚装置100が合成発話を生成することを除いて、同様である。特に、
図2A-
図2Bの聴覚機器は、頭部装着型聴覚装置およびユーザアクセサリ装置400を含む。
図2Aの例では、聴覚装置100は、ユーザの耳360または耳たぶに取り付けられたBTE聴覚器具または補聴器である。他の実施形態は例えば、
図1A-
図1Bに関連して説明されるような、別のタイプの聴覚装置を含んでもよいことが理解されるだろう。
【0084】
聴覚装置100は、ハウジング又はケーシング140と、周囲マイクロフォン120と、処理ユニット110と、ラウドスピーカ又はレシーバ130と、イヤモールド又はプラグ150と、可撓性音管160と、骨伝導センサ151と、アンテナ180と、無線部分又はトランシーバ170と、通信制御部113とを備え、これらは全て
図1A-
図1Bに関連して説明した通りである。したがって、これらの構成要素および可能な変形例については、再び詳細に説明しない。
【0085】
図2A-
図2Bの実施例は、
図1A-
図1Bの実施例とは以下の点で異なり、
図2A-
図Bの処理ユニットは、信号処理ユニット114を備え、信号処理ユニット114は、骨伝導センサ151からの骨伝導信号を、選択的にフィルタリングおよび/または他の信号処理後に受信するように構成され、制御入力として骨伝導信号を受信するトレーニング済み発話モデルに基づいて合成発話生成プロセスを実施するように構成されている。
【0086】
この目的のために、聴覚装置100は、発話モデルのモデルパラメータを記憶するためのメモリ112を備える。具体的には、メモリ112が本明細書で説明する機械学習トレーニングプロセスによって取得された適合可能なモデルパラメータを記憶するように構成してもよい。メモリ112は処理ユニット110の一部として示されているが、メモリは処理ユニット110に通信可能に結合された別個のユニットとして実装されてもよいことが理解されるだろう。
【0087】
聴覚装置100はさらに、生成された合成発話を、トランシーバ170およびアンテナ180を介して、ユーザアクセサリ装置400および/または聴覚装置100の外部の別の装置に出力するように構成される。
【0088】
ユーザアクセサリ装置400は、アンテナ410と、アンテナ410を介して聴覚装置100の対応する無線部分または回路と無線で通信するように構成された無線部分または回路440とを備える。ユーザアクセサリ装置400はまた、通信制御部421及び中央処理ユニット423とを備える処理ユニット420を備える。通信制御部421は例えば、Bluetooth LE制御部であってもよい。通信制御部421は様々な通信プロトコル関連タスク、例えば、オーディオ対応Bluetooth LEプロトコル、および場合によっては他のタスクを実行するように構成してもよい。
【0089】
ユーザアクセサリ装置400は、生成された合成発話信号を聴覚装置100から受信するように構成される。この目的のために、合成発話信号を表すデータパケットは、RFアンテナ410を介して無線部分または回路440によって受信され、通信制御部421に転送され、さらにデータ処理のために中央処理ユニット423に転送されてもよい。特に、中央処理ユニット423は、音声入力に応答するユーザ機能、例えば音声制御機能を実行するように構成されたユーザアプリケーションを実装するように構成されてもよい。この目的のために、ユーザアプリケーションは適切な音声認識機能を実装してもよい。
【0090】
代替的に又は追加的に、中央処理ユニット423は、ユーザアクセサリ装置の適切な出力インターフェース430、例えば、有線又は無線通信インターフェースを介して合成発話を転送するように構成されてもよい。出力インターフェースは、Bluetoothインターフェース、別の短距離無線通信インターフェース、セルラー電気通信インターフェース、有線インターフェースおよび/またはそれらと同様のものであってもよい。
【0091】
ユーザアクセサリ装置400はユーザの音声によって生成された空気伝送音を受信し、記録するためのマイクロフォン450をさらに備えてもよい。マイクロフォン450によって生成されるマイクロフォン信号は、聴覚機器が記録および/またはトレーニングモードで動作するときに、特に、以下に記載されるようなトレーニング例を作成するように使用されてもよい。
【0092】
ユーザアクセサリ装置は、適切にプログラムされたスマートフォン、タブレットコンピュータ、スマートTV、またはオーディオ対応装置などの他の電子装置としてもよい。ユーザアクセサリ装置は、アプリまたは他の形態のアプリケーションソフトウェアのような適切なコンピュータプログラムを実行するように構成されていてもよい。当業者はユーザアクセサリ装置400が携帯電話の技術分野で周知のように、概略的に示されたものに加えて、典型的に多数の追加のハードウェアおよびソフトウェアリソースを含むことを理解するだろう。
【0093】
図3は、聴覚機器および遠隔ホストシステムを備えるシステムの一例を概略的に示す。
聴覚機器は
図1A-
図1Bに関連して説明したように、頭部装着型聴覚装置100と信号処理装置200とを備える。遠隔ホストシステム500は、サーバコンピュータ、仮想マシン等の適切にプログラムされたデータ処理システムであってもよい。信号処理装置200及び遠隔ホストシステム500は、適切な有線又は無線通信リンクを介して、例えば、短距離RF通信を介して、インターネットのような適切なコンピュータネットワークを介して、又はセルラー通信ネットワーク又はそれらの組み合わせを介して、通信可能に結合されている。
【0094】
遠隔ホストシステム500は例えば、コンピュータプログラムの手段によって、トレーニング例のセットから発話モデルを作成するための機械学習トレーニング処理を実行するように構成される。この目的のために、遠隔ホストシステムは例えば、トレーニング例のリポジトリを含むデータベースから、発話記録システムから、及び/又は本明細書に記載される聴覚機器から、トレーニング例の適切なセットを取得してもよい。この目的のために、信号処理ユニット200は少なくとも記録モードで動作するときに、聴覚装置100から骨伝導信号を受信するだけでなく、骨伝導信号の記録と同時にマイクロフォン120によって記録された、対応する周囲マイクロフォン信号も受信するように構成されてもよい。
【0095】
信号処理装置200は、複数の記録された信号ペアを信号処理装置の内部メモリに記憶し、発話モデルをトレーニングするためのトレーニング例として使用するために、記録された信号ペアを遠隔ホストシステム500に転送するように構成されてもよい。あるいは、信号処理は、受信した信号ペアを、最初に内部メモリに記憶することなく、遠隔ホストシステムに直接転送してもよい。
【0096】
遠隔ホストシステム500はさらに、作成されたトレーニング済み発話モデルの表現を信号処理装置200に転送して、信号処理装置200がトレーニング済み発話モデルを実装することを可能にするように構成される。例えば、遠隔ホストシステム500は、モデルパラメータのセット、例えばネットワーク重みのセットを信号処理装置に転送してもよい。
【0097】
代替実施形態では、信号処理装置200は、聴覚装置100による骨伝導信号の記録と同時に、ユーザ300からの空気伝送発話を記録するためのマイクロフォンを含んでもよい。したがって、信号処理装置によって記録されたマイクロフォン信号は、聴覚装置100のマイクロフォン120によって記録されたマイクロフォン信号の代わりに(またはそれに加えて)トレーニング例を作成するために使用されてもよい。聴覚装置100から骨伝導信号を受信すると、信号処理装置は、少なくとも記録モードで動作するとき、骨伝導信号と、信号処理装置のマイクロフォンによって記録された、同時に記録されたマイクロフォン信号とを含む信号ペアを記憶してもよい。信号ペアを記憶することについて代替的または追加的に、信号処理装置は、信号ペアを遠隔ホストシステム500に直接転送してもよい。
【0098】
聴覚機器によるトレーニング済み発話モデルの受信および/またはトレーニング例の記録はまた、
図2A-
図2Bの聴覚機器によって実行されてもよいことが理解されるだろう。例えば、ユーザアクセサリ装置400は、記録された振動および対応するマイクロフォン信号の信号ペアを聴覚装置100から受信してもよい。あるいは、ユーザアクセサリ装置400は、聴覚装置から骨伝導信号を受信し、ユーザアクセサリ装置400のマイクロフォンの手段によって対応するマイクロフォン信号を録音してもよい。次いで、ユーザアクセサリ装置は、収集されたトレーニング例を遠隔ホストシステムに転送してもよい。同様に、ユーザアクセサリ装置はトレーニング済み発話モデルを表すデータを遠隔ホストシステムから受信し、そのデータを記憶のために聴覚装置100に転送してもよい。あるいは、聴覚装置が例えば、フィッティングプロセスの一部としての聴覚装置フィッティングシステムを介して、トレーニング済み発話モデルを表すデータを遠隔ホストシステムから直接的に受信してもよい。
【0099】
さらに代替的にまたは追加的に、発話モデルをトレーニングするためのトレーニングプロセスは、信号処理装置またはユーザアクセサリ装置によって、あるいは聴覚装置によって実施されてもよい。
【0100】
さらに代替的にまたは追加的に、聴覚装置および/または信号処理装置またはユーザアクセサリ装置によって記録されたマイクロフォン信号は以下で説明するように、作成された合成発話信号を補足するために使用されてもよい。
【0101】
図4は、発話信号を取得するプロセスのフロー図を示す。プロセスは本明細書で開示される聴覚機器の実施形態、例えば、
図1A-
図1Bの聴覚機器または
図2A-
図2Bの聴覚機器または
図3に示されるような遠隔ホストシステムと連動する聴覚機器によって実行されてもよい。
【0102】
最初のステップS1において、プロセスは、機械学習トレーニングプロセスを実行して、トレーニング例に基づいてトレーニング済み発話モデルを作成する。トレーニングプロセスの例については、
図5および
図6に関連して説明する。
【0103】
次のステップS2において、プロセスは、取得された骨伝導信号に基づいて合成発話を作成するために、トレーニング済み発話モデルを使用する。合成発話信号の作成の例については、
図7及び
図8に関連して説明する。
【0104】
任意選択的に、ステップS3において、プロセスは、その後、例えば上記のステップS2の一部として、発話モデルの動作中に追加のトレーニング例を収集することによって、初期のトレーニング済み発話モデルを更新し、追加のトレーニングステップ、例えばステップS1のようなトレーニングステップを実行してもよい。
【0105】
図5は、合成発話を生成するための発話モデルをトレーニングするプロセスのフロー図を示す。プロセスは、本明細書で開示される聴覚機器の実施形態、例えば、
図1A-
図1Bの聴覚機器または
図2A-
図2Bの聴覚機器または
図3に示されるような遠隔ホストシステムと連動する聴覚機器によって実行されてもよい。
【0106】
最初のステップS11において、プロセスは、トレーニング例を取得する。特に、プロセスは、骨伝導信号と対応する発話信号のペアを取得する。骨伝導信号は、本明細書に記載される聴覚機器の骨伝導センサによって取得されてもよい。対応する発話信号は、骨伝導センサを着用している対象者が話したときに空気伝送音を記録する周囲マイクロフォンから取得されてもよい。特に、骨伝導信号および対応する周囲マイクロフォン信号の信号ペアは同時に、すなわち、それらが骨伝導センサを装着している対象者の同じ発話のそれぞれの記録を表すように、記録される。トレーニング中、周囲マイクロフォン信号はターゲット信号として使用される。従って、クリーンな発話を合成するための発話モデルのトレーニングを容易にできるように、マイクロフォン信号の一部又は全部を低ノイズ環境で記録してもよい。骨伝導信号およびマイクロフォン信号は、波形を表すサンプリングされた信号値のそれぞれのシーケンスとして表してもよい。この目的のために、各信号は、4kHzなどの適切なサンプリングレートでサンプリングされてもよい。
【0107】
任意選択的に、ステップS12において、骨伝導信号および/またはマイクロフォン信号は、発話モデルをトレーニングするためのトレーニング例としてそれらを使用する前に処理される。処理ステップの例は、それぞれの信号ペアの長さを正規化すること、信号を再サンプリングすること、信号をフィルタリングすること、合成ノイズを追加すること、および/またはそれらと同様のものを含んでもよい。
【0108】
特に、いくつかの実施形態では、発話モデルは、合成発話信号の低周波数のみを合成するように、具体的には、周囲マイクロフォン信号のローパスバージョンを再構成するように、トレーニングされる。この目的のために、トレーニング例の周囲マイクロフォン信号は、例えば1kHzと2kHzとの間等、0.8と2.5kHzとの間といった、適当なカットオフ周波数を用いてローパスフィルタリングされてもよい。次いで、ローパスフィルタリングされたマイクロフォン信号は、トレーニングプロセスのための目標信号として使用されてもよい。
【0109】
ステップS13では、発話モデルを初期化する。具体的には、プロセスは、複数のネットワーク層を有し、複数の相互接続されたネットワークノードを備えるニューラルネットワークモデルなどの所定のモデルアーキテクチャを初期化する。したがって、発話モデルを初期化することは、モデルタイプを選択すること、モデルアーキテクチャを選択すること、発話モデルのサイズおよび/または構造および/または相互接続性を選択すること、適合可能なモデルパラメータの初期値を選択することなどを含んでもよい。プロセスはさらに、学習レート、トレーニングアルゴリズム、最小化されるべきコスト関数などのトレーニングプロセスの1つまたは複数のパラメータを選択してもよい。上記のパラメータの一部またはすべてが、プロセスによって事前に選択されているか、自動的に選択されてもよい。しかしながら、上記のパラメータの一部またはすべてが、ユーザ入力に基づいて選択されてもよい。適切な発話モデルの例を、以下でより詳細に説明する。いくつかの実施形態では、以前にトレーニング済みの発話モデルが例えば、聴覚機器の意図されたユーザから取得された話者固有のトレーニング例に基づいて汎用モデルを改善するように、トレーニングプロセスの開始点として機能してもよい。
【0110】
ステップS14において、コスト関数を計算できるように、発話モデルは、トレーニング例のセットの骨伝導信号とともに提示され、モデル出力は、それぞれのトレーニング例に対応する目標値と比較される。
【0111】
ステップS15において、プロセスは、計算されたコスト関数を成功基準と比較する。成功基準が満たされる場合、プロセスはステップS17に進み、そうでない場合、プロセスはステップS16に進む。
【0112】
ステップS16において、プロセスは発話モデルの適合可能なモデルパラメータの一部または全部を、すなわちコスト関数を低減するように構成されたトレーニングアルゴリズムに基づいて、調整する。次に、プロセスはステップS14に戻り、反復トレーニングプロセスの後続の反復を実行する。
【0113】
初期モデルパラメータ、コスト関数などを選択するための適切なトレーニングアルゴリズム、メカニズムの例は、機械学習分野の当業者に知られている。例えば、トレーニングプロセスは、誤差逆伝播アルゴリズムに基づいていてもよい。
【0114】
ステップS17において、プロセスは、トレーニング済み発話モデルを表現し、トレーニング済み発話モデルは、適切なデータ構造においてモデルの最適化されたモデルパラメータを含み、そのデータ構造においては発話モデルを聴覚機器内で表現することができる。
【0115】
図6は、モデル600の内部状態を維持しながら複数の経路で動作するように構成された自己回帰発話モデル600のためのトレーニングプロセスの例を概略的に示す。それぞれの経路n(nは適切なサンプリングレートに対応する時間増分を表す)において、モデルは骨伝導信号の現在の値xnと、目標信号y=(y1,・・・,yN)のk(k≧1)個の以前のサンプルを受け取る。発話モデルは、発話信号の後続の予測値y’n+1を予測する。他の実施形態は、骨伝導信号x=(x1,・・・,xN)の別の表現、例えば、現在のサンプルxnおよび多数の以前のサンプル、または骨伝導信号の1つ以上の時間依存特徴を表す符号化されたバージョンを受信してもよいことが理解されよう。
【0116】
予測値y’n+1は、目標発話信号の対応値yn+1と比較される。これらの値および任意選択で他の値に基づいて計算された差分またはコスト関数Δを、発話モデル600を適合させるためのコスト関数として使用してもよい。例えば、いくつかの実施形態では、発話モデルが複数のクラスにわたる確率分布を出力し、クラスの個数は得られる合成発話信号の分解能に対応する。そのような実施形態では、差分は、予測される分布と目標信号によって表現される真の発話との間の交差エントロピーまたは別の適切な差分の尺度であってもよい。
【0117】
複数のトレーニング例がモデルを通して繰り返し供給されるにつれ、発話モデル600は、モデルから得られる予測値y’が、モデルが骨伝導信号xによって駆動されるときに、目標信号yのますます良好な予測を提供するように、その後も引き続いて適合されてもよい。
【0118】
トレーニング済みモデルは、その後、聴覚機器に記憶されてもよい。
【0119】
図7は、トレーニング済み発話モデル、例えば
図5及び/又は
図6のプロセスによるトレーニング済み発話モデルを用いて合成発話信号を作成するプロセスのフロー図を示す。プロセスは本明細書で開示される聴覚機器の実施形態、例えば、
図1A-
図1Bの聴覚機器または
図2A-
図2Bの聴覚機器によって実行されてもよい。
【0120】
最初のステップS21において、プロセスは、骨伝導信号を取得する。骨伝導信号は、本明細書に記載の聴覚機器の骨伝導センサによって取得される。骨伝導信号は、波形を表すサンプリングされた信号値のそれぞれのシーケンスとして表現されてもよい。この目的のために、骨伝導信号は、4kHzなどの適切なサンプリングレートでサンプリングされてもよい。いくつかの実施形態では、プロセスは、骨伝導信号と同時に記録された周囲マイクロフォン信号をさらに取得する。
【0121】
任意選択的に、ステップS22において、骨伝導信号は、トレーニング済み発話モデルに供給する前に、処理される。処理ステップの例は、信号を再サンプリングすること、信号をフィルタリングすること、および/またはそれらと同様のものを含んでもよい。
【0122】
ステップS23において、プロセスは、取得された骨伝導信号の表現を制御信号としてトレーニング済み発話モデルに供給し、トレーニング済み発話モデルによって生成された合成発話信号を計算する。
【0123】
図8は、トレーニング自己回帰発話モデル600に基づく合成発話生成プロセスの例を概略的に示す。発話モデル600は、モデル600の内部状態を維持しながら、複数の経路で動作するように構成される。それぞれの経路nにおいて、モデルは、骨伝導信号(または骨伝導信号の別の表現)の現在値xnと、生成された合成発話モデルのk(k≧1)個の以前のサンプルy’を受け取る。発話モデルは、発話信号の後続の予測値y’n+1を予測する。
【0124】
再び、
図7を参照すると、任意選択で、ステップS24において、プロセスは、発話モデルによって生成された合成発話モデルを後処理してもよい。例えば、上述したように、いくつかの実施形態では、発話モデルが低周波数の合成発話のみを生成するようにトレーニングされていてもよい。そのような実施形態では、後処理は、合成発話信号を、骨伝導信号と同時に記録されたハイパスフィルタリングされた周囲マイクロフォン信号と混合することを含んでもよい。この目的のために、同時録音されたマイクロフォン信号は、例えば1kHzと2kHz等の、0.8と2.5kHzとの間といった、合成発話信号の周波数帯域に対して相補的な適当なカットオフ周波数を用いて、ハイパスフィルタリングされてもよい。
【0125】
最後に、ステップS25において、合成発話信号は、選択的には後処理の後に、プロセスの出力として、例えばデジタル波形の形式で提供される。次いで、生成された合成発話信号は、さまざまな異なるアプリケーションで使用されてもよく、それらは例えば、合成発話を生成する装置によって、または生成された信号が送信される外部装置によって、モバイルコマンドまたは音声コマンドのハンズフリー操作などである。
【0126】
図9は、発話モデル600の例を示す。
図9の発話モデルは、
図6および
図8に関連して説明したような自己回帰発話モデルである。
図9の発話モデルは深層ニューラルネットワーク、すなわち、3つ以上のネットワーク層を含む層状ニューラルネットワークである。
図9の例では、4つのそのような層610、620、630および640がそれぞれ示されている。しかしながら、深層ニューラルネットワークの他の実施形態は、異なる個数の層、例えば、4つより多い層を有してもよいことが理解されるだろう。
【0127】
図9のニューラルネットワークは、ゲート付き回帰型ユニットを含む層のような回帰層610と、それに続く2つの中間層620および630と、最後のソフトマックス(SoftMax)層640とを含む。
【0128】
モデル600は、複数のクラスにわたって確率分布を出力し、そのクラスの個数は、得られる合成発話信号の解像度と対応する。例えば、256個の出力クラスを有するモデルは、8ビットの合成発話信号を表現し得る。
【0129】
特に、発話モデルは、幾つか又は全ての以前のサンプルに条件付けられ、かつ骨伝導信号x=(x1,・・・,xN)に条件付けられた、個々の発話サンプル分布の積への同時分布の因子分解(factorization)を介して、高次元オーディオデータの同時分布をモデル化するように構成されてもよい。したがって、波形サンプルのシーケンスの同時分布は、次のように表してもよい。
【0130】
【0131】
ここで、x^は、発話モデルへの条件入力として使用される骨伝導信号xの表現である。いくつかの実施形態では、x^は、骨伝導信号のMEL表現であってもよく、他の実施形態では、骨伝導信号の個々の波形サンプルが条件信号として直接使用されてもよい。
【0132】
【0133】
いくつかの実施形態では、例えば、好適なウィンドウサイズl≧1のためのスライディングウィンドウ(xn,・・・,xn-1)など、骨伝導信号xの1つより多い個数のサンプルが使用されてもよいことが理解されるだろう。
【0134】
適切な発話モデルのいくつかの例は例えば、Nal Kalchbrennerら、arXiv:1802.08435、「Efficient Neural Audio synthesis」、またはJaen-Marc ValinおよびJan Skoglund、arXiv:1810.11846、「LPCNET: Improving Neural Speech Synthesis Through Linear Prediction」に記載されるような、WaveRNNアーキテクチャの変形例から知られているモデルアーキテクチャを利用してもよい。適切な発話モデルの他の例は例えば、Wei Pingら、arXiv:1807.07281、「ClariNet: Parallel Wave Generation in End-to-End Text-to-Speech」に記載されるような、WaveNetアーキテクチャの変形例から知られているモデルアーキテクチャを利用してもよい。しかしながら、テキスト入力の代わりに、本明細書で説明されるプロセスおよびシステムの実施形態は、発話合成器に供給される条件信号として骨伝導信号を使用する。
【0135】
本明細書に記載される本発明の少なくともいくつかの態様は、列挙された項目の以下のリストに要約され得る。
【0136】
(項目1)
聴覚機器であって、
音声情報の骨振動を骨伝導信号に変換するように構成された骨伝導センサと、
合成発話生成プロセスを実施するように構成された信号処理ユニットであって、前記合成発話生成プロセスは発話モデルを実装し、前記合成発話生成プロセスは制御入力として前記骨伝導信号を受信し、合成発話信号を出力する信号処理ユニットを備える聴覚機器。
【0137】
(項目2)
前記発話モデルは、動作中に、経時的に発展する内部状態を定義する、項目1に記載の聴覚機器。
【0138】
(項目3)
前記発話モデルは、複数のトレーニング発話例に基づいてトレーニングされた、トレーニング済み機械学習モデルである、以前の項目のいずれか1項に記載の聴覚機器。
【0139】
(項目4)
前記トレーニング発話例のそれぞれは、話者の発話を表すトレーニング骨伝導信号と、周囲マイクロフォンによって記録された話者の発話の空気伝送音を表す対応するトレーニングマイクロフォン信号を備えており、
前記空気伝送音は、前記トレーニング骨伝導信号の記録と同時に記録される、項目3に記載の聴覚機器。
【0140】
(項目5)
前記機械学習モデルは、ニューラルネットワークを備える、項目3または4に記載の聴覚機器。
【0141】
(項目6)
前記ニューラルネットワークは、回帰型ニューラルネットワークを備える、項目5に記載の聴覚機器。
【0142】
(項目7)
前記回帰ニューラルネットワークは、密度推定モードで動作する、項目6に記載の聴覚機器。
【0143】
(項目8)
前記ニューラルネットワークは、2つ以上の層を備える層状ニューラルネットワークを備える、項目5から7のいずれか1項に記載の聴覚機器。
【0144】
(項目9)
前記発話モデルは、自己回帰型発話モデルを備える、以前の項目のいずれか1項に記載の聴覚機器。
【0145】
(項目10)
前記発話モデルは、複数の出力クラスにわたる確率分布を計算し、
前記出力クラスのそれぞれは、サンプリングされたオーディオ波形のサンプルのサンプル値を表す、以前の項目のいずれか1項に記載の聴覚装置。
【0146】
(項目11)
頭部装着型聴覚装置を備えており、
前記頭部装着型聴覚装置は、前記骨伝導センサと、第1の通信インターフェースを備える、以前の項目のいずれか1項に記載の聴覚機器。
【0147】
(項目12)
前記頭部装着型聴覚装置は、前記信号処理ユニットをさらに備えており、
前記頭部装着型装置は、前記第1の通信インターフェースを介して前記頭部装着型聴覚装置の外部にある外部装置に前記合成発話信号を通信するように構成される、項目11に記載の聴覚機器。
【0148】
(項目13)
信号処理装置を備えており、
前記頭部装着型聴覚装置は、前記骨伝導信号を前記第1の通信インターフェースを介して前記信号処理装置に通信するように構成されており、
前記信号処理装置は、前記信号処理ユニットと、前記骨伝導信号を受信するように構成された第2の通信インターフェースを備える、項目11に記載の聴覚機器。
【0149】
(項目14)
前記聴覚機器のユーザによって発話された空気伝送発話を記録し、記録された前記空気伝送発話を示す周囲マイクロフォン信号を提供するように構成された周囲マイクロフォンを備える、以前の項目のいずれか1項に記載の聴覚機器。
【0150】
(項目15)
トレーニングデータを記憶するためのメモリを備えており、
前記トレーニングデータは、1つまたは複数の信号ペアを備えており、
前記信号ペアのそれぞれは、前記骨伝導センサによって記録されたトレーニング骨伝導信号と、前記信号ペアの前記トレーニング骨伝導信号の記録と同時に前記周囲マイクロフォンによって記録されたトレーニング周囲マイクロフォン信号を備える、項目14に記載の聴覚機器。
【0151】
(項目16)
前記発話モデルは、前記発話モデルが前記骨伝導信号を制御入力として受信した場合に、第1のフィルタによってフィルタリングされた発話信号に対応する合成フィルタリング済み発話信号を生成するように構成されており、
前記信号処理ユニットは、
前記骨伝導信号と同時に記録される周囲マイクロフォン信号を前記周囲マイクロフォンから受信し、
前記第1のフィルタに対して相補的である第2のフィルタを使用して、受信した前記周囲マイクロフォン信号のフィルタリング済みバージョンを作成し、
生成した前記合成フィルタリング済み信号を、受信した前記周囲マイクロフォン信号の作成した前記フィルタリング済みバージョンと組み合わせて、出力発話信号を作成するように構成されている、項目14または15に記載の聴覚機器。
【0152】
(項目17)
前記信号処理ユニットは、トレーニングモードで動作されるように構成されており、
前記信号処理ユニットは、前記トレーニングモードで動作する場合に、トレーニング骨伝導信号を受信するときの前記合成発話生成プロセスの結果に基づいて、およびモデル適合ルールに従って、前記発話モデルの1つまたは複数のモデルパラメータを適合させて、作成された前記合成発話と、対応するトレーニング周囲マイクロフォン信号の間の改善された一致を提供する、適合された発話モデルを決定するように構成される、以前の項目のいずれか1項に記載の聴覚機器。
【0153】
(項目18)
BTE、RIE、ITE、ITCまたはCIC聴覚器具等の聴覚器具又は補聴器を備える、以前の項目のいずれか1項に記載の聴覚機器。
【0154】
(項目19)
発話信号を取得する、コンピュータにより実装される方法であって、
音声情報の骨振動を骨伝導信号に変換するように構成された骨伝導センサから骨伝導信号を受信することと、
合成発話信号を生成するために発話モデルを使用することを備えており、
前記発話モデルは、制御入力として前記骨伝導信号を受信する、方法。
【0155】
(項目20)
合成発話を生成するための発話モデルをトレーニングする、コンピュータにより実装される方法であって、
複数のトレーニング信号ペアを受信することであって、それぞれのペアが、骨伝導センサからの骨伝導信号と、前記骨伝導信号と同時に記録される、周囲マイクロフォンからの周囲マイクロフォン信号を備える、受信することと、
前記発話モデルへの制御入力として前記骨伝導信号を使用することと、
前記発話モデルが制御入力として1つまたは複数の骨伝導信号を受信する場合に、前記発話モデルによって生成された前記合成発話と、1つまたは複数の前記周囲マイクロフォン信号それぞれとの比較に基づいて、前記発話モデルを適合させることと、を備える方法。
【0156】
(項目21)
信号処理ユニットおよび/またはデータ処理システムによって実行される場合に、前記信号処理ユニットおよび/または前記データ処理システムに、項目19または20に記載の方法の動作を実行させるように構成されている、コンピュータプログラム製品。
【0157】
上記の実施形態は主に、特定の実施形態を参照して記載されてきたが、その様々な変更は本明細書に添付された特許請求の範囲に概説されるような本発明の精神および範囲から逸脱することなく、当業者には明らかであろう。
【0158】
例えば、本明細書で開示される様々な態様は、主に補聴器の文脈で説明されてきたが、他のタイプの聴覚装置にも適用可能であり得る。
【0159】
同様に、本明細書で開示される様々な態様は主に、装置間のBluetooth LE短距離RF通信の文脈で説明されてきたが、装置間の通信は、他の無線技術または有線技術など、他の通信技術を使用し得ることが理解されよう。
【国際調査報告】