(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-08-27
(54)【発明の名称】無音スピーチの検出
(51)【国際特許分類】
G06F 3/01 20060101AFI20240820BHJP
H04R 1/00 20060101ALI20240820BHJP
G10L 13/02 20130101ALI20240820BHJP
【FI】
G06F3/01 590
H04R1/00 328Z
H04R1/00 318Z
G10L13/02 110Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024504468
(86)(22)【出願日】2022-05-16
(85)【翻訳文提出日】2024-01-23
(86)【国際出願番号】 IB2022054527
(87)【国際公開番号】W WO2023012527
(87)【国際公開日】2023-02-09
(32)【優先日】2021-08-04
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】524030248
【氏名又は名称】キュー(キュー)リミテッド
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100229448
【氏名又は名称】中槇 利明
(72)【発明者】
【氏名】マイゼルス,アビアド
(72)【発明者】
【氏名】バーリヤ,アビ
(72)【発明者】
【氏名】コーンブラウ,ギオラ
(72)【発明者】
【氏名】ウェクスラー,ヨナタン
【テーマコード(参考)】
5D017
5E555
【Fターム(参考)】
5D017AC16
5D017BB16
5E555AA44
5E555AA46
5E555AA61
5E555BA08
5E555BB08
5E555BB38
5E555BE08
5E555CA41
5E555CB64
5E555CB67
5E555CB69
5E555DA23
5E555EA25
5E555FA00
(57)【要約】
【要約】
感知装置(20、60)は、装置のユーザ(24)の耳に適合するように構成されたブラケット(22)を含む。光学感知ヘッド(28)は、ユーザの顔に近接した位置でブラケットによって保持され、顔から反射された光を感知し、検出された光に応答して信号を出力する。処理回路(70,75)は、信号を処理してスピーチ出力を生成する。
【特許請求の範囲】
【請求項1】
感知装置であって、
前記装置のユーザの耳にフィットするように構成されたブラケットと、
前記ユーザの顔に近接した位置でブラケットによって保持され、前記顔から反射された光を感知し、検出された光に応答して信号を出力するように構成された光感知ヘッドと、
前記信号を処理して、スピーチ出力を生成するように構成された処理回路と、を含む、装置。
【請求項2】
前記ブラケットは、イヤークリップを含む、請求項1に記載の装置。
【請求項3】
前記ブラケットは、眼鏡フレームを含む、請求項1に記載の装置。
【請求項4】
前記光感知ヘッドは、前記ユーザの頬から反射された前記光を感知するように構成されている、請求項1に記載の装置。
【請求項5】
前記光感知ヘッドは、コヒーレント光を前記顔に向けるように構成されたエミッタと、前記顔からの前記コヒーレント光の反射による二次スペックルパターンを感知するように構成されたセンサのアレイと、を含む、請求項1に記載の装置。
【請求項6】
前記エミッタは、前記コヒーレント光の複数のビームを前記顔の上の異なるそれぞれの位置に向けるように構成され、前記センサのアレイは、前記位置から反射された前記二次スペックルパターンを感知するように構成されている、請求項5に記載の装置。
【請求項7】
前記ビームによって照射され、前記センサのアレイによって感知される前記位置は、少なくとも60度の角度の幅を有する視野にわたって延びる、請求項6に記載の装置。
【請求項8】
前記ビームによって照射され、前記センサのアレイによって感知される前記位置は、少なくとも1cm
2の面積にわたって延びる、請求項6に記載の装置。
【請求項9】
前記光感知ヘッドは、前記顔の異なるそれぞれの領域をカバーする前記ビームのそれぞれのグループを生成するように構成された複数のエミッタを含み、前記処理回路は、前記エミッタのすべてを作動させることなく前記エミッタのサブセットを選択し作動させるように構成される、請求項6に記載の装置。
【請求項10】
前記処理回路は、前記感知された二次スペックルパターンの変化を検出し、前記検出された変化に応じて前記スピーチ出力を生成するように構成される、請求項5に記載の装置。
【請求項11】
前記処理回路は、第1のフレームレートで前記センサのアレイを動作させ、前記第1のフレームレートで動作している間に前記信号に応答して前記顔の動きを感知し、前記感知された動きに応答してフレームレートを第1のフレームレートよりも高い第2のフレームレートに増加させて、前記スピーチ出力を生成するように構成される、請求項5に記載の装置。
【請求項12】
前記処理回路は、前記ユーザのいかなる発声もなしに、前記ユーザの顔の皮膚の動きにより、前記光感知ヘッドによって出力された前記信号の変化に応答して前記スピーチ出力を生成するように構成される、請求項1~11のいずれか1項に記載の装置。
【請求項13】
前記光感知ヘッドは、前記ユーザの皮膚表面から少なくとも5mm離れた位置で前記ブラケットによって保持される、請求項1~11のいずれか1項に記載の装置。
【請求項14】
前記ユーザの皮膚表面に接触するように構成された1つ以上の電極であって、前記処理回路は、前記光感知ヘッドによって出力された前記信号とともに、前記1つ以上の電極によって感知された電気活動に応答して前記スピーチ出力を生成するように構成される、1つ以上の電極をさらに含む、請求項1~11のいずれか1項に記載の装置。
【請求項15】
前記ユーザによって発せられた音を感知するように構成されたマイクロフォンをさらに含む、請求項1~11のいずれか1項に記載の装置。
【請求項16】
前記処理回路は、前記光感知ヘッドを較正するために、前記光感知ヘッドによって出力された前記信号を、前記マイクロフォンによって感知された前記音と比較するように構成される、請求項15に記載の装置。
【請求項17】
前記処理回路は、前記ユーザによって発せられた前記音の感知に応答して、前記装置の動作状態を変更するように構成される、請求項15に記載の装置。
【請求項18】
通信インターフェースであって、前記処理回路は、前記通信インターフェースを介して処理デバイスに送信するために前記信号を符号化するように構成され、前記処理デバイスは、前記符号化された信号を処理して前記スピーチ出力を生成する、通信インターフェースをさらに含む、請求項1~11のいずれか1項に記載の装置。
【請求項19】
前記通信インターフェースは、無線インターフェースを含む、請求項18に記載の装置。
【請求項20】
前記ブラケットに接続され、前記ユーザによって行われるジェスチャを感知するように構成されたユーザ制御部であって、前記処理回路は、前記感知されたジェスチャに応答して前記装置の動作状態を変更するように構成される、ユーザ制御部をさらに含む、請求項1~11のいずれか1項に記載の装置。
【請求項21】
ユーザの耳に収まるように構成されたスピーカであって、前記処理回路は、前記スピーカによる再生のために、前記スピーチ出力に対応する音声信号を合成するように構成される、スピーカをさらに含む、請求項1~11のいずれか1項に記載の装置。
【請求項22】
感知するための方法であって、前記方法は、
被験者による単語の発声なしに、かつ皮膚に接触することなく、前記被験者によって発音された単語に応答して被験者の顔の前記皮膚の動きを感知することと、
前記感知された動きに応答して、前記発音された単語を含むスピーチ出力を生成することと、を含む、方法。
【請求項23】
前記動きを感知することは、前記被験者の前記顔から反射された光を感知することを含む、請求項22に記載の方法。
【請求項24】
前記光を感知することは、コヒーレント光を前記皮膚に向けることと、前記皮膚からの前記コヒーレント光の反射による二次スペックルパターンを感知することとを含む、請求項23に記載の方法。
【請求項25】
前記コヒーレント光を方向付けることは、前記コヒーレント光の複数のビームを前記顔の上の異なるそれぞれの位置に向けて方向付けることと、センサのアレイを使用して前記位置の各々から反射された前記二次スペックルパターンを感知することと、を含む、請求項24に記載の方法。
【請求項26】
前記ビームによって照射され、前記センサのアレイによって感知される前記位置は、少なくとも60度の角度の幅を有する視野にわたって延びる、請求項25に記載の方法。
【請求項27】
前記ビームによって照射され、前記センサのアレイによって感知される前記位置は、前記被験者の頬の少なくとも1cm
2の面積にわたって延びる、請求項25に記載の方法。
【請求項28】
前記スピーチ出力を生成することは、前記感知された二次スペックルパターンの変化を検出し、前記検出された変化に応答して前記スピーチ出力を生成することを含む、請求項24に記載の方法。
【請求項29】
前記スピーチ出力を生成することは、前記スピーチ出力に対応する音声信号を合成することを含む、請求項22~28のいずれか1項に記載の方法。
【請求項30】
前記スピーチ出力を生成することは、前記被験者によって発音された単語を筆記することを含む、請求項22~28のいずれか1項に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は2021年8月4日に出願された米国仮特許出願第63/229,091号の利益を請求し、これは参照により本明細書に組み込まれる。
【0002】
本発明は、一般に、生理学的感知に関し、特に、人間のスピーチを感知するための方法および装置に関する。
【背景技術】
【0003】
発話のプロセスは、胸部、頸部、および顔面の神経および筋肉を活性化する。したがって、例えば、筋電図(EMG)は、スピーチ感知の目的で筋肉インパルスを捕捉するために使用されてきた。
【0004】
二次スペックルパターンは、人体の皮膚の動きを監視するために使用されてきた。二次スペックルは、典型的には、皮膚のような粗面からのレーザビームの拡散反射において生じる。レーザビームによって照射されたときに人間の皮膚からの反射によって生成される二次スペックルの時間的変化及び振幅変化の両方を追跡することによって、研究者は、血液パルス圧力及び他のバイタルサインを測定してきた。例えば、米国特許第10,398,314号は、身体によって生成されるスペックルパターンのシーケンスを示す画像データを使用して、被験者の身体の状態を監視するための方法を説明している。
【発明の概要】
【0005】
以下に説明する本発明の実施形態は、人間のスピーチを感知するための新規な方法および装置を提供する。
【0006】
本発明の一実施形態によれば、装置のユーザの耳にフィットするように構成されたブラケットと、ユーザの顔に近接した位置でブラケットによって保持され、顔から反射された光を感知し、検出された光に応答して信号を出力するように構成された光感知ヘッドとを含む感知装置も提供される。処理回路は、信号を処理してスピーチ出力を生成するように構成される。
【0007】
一実施形態では、ブラケットは、イヤークリップを含む。あるいは、ブラケットは眼鏡フレームを含む。開示された実施形態において、光感知ヘッドは、ユーザの頬から反射された光を感知するように構成される。
【0008】
いくつかの実施形態では、光感知ヘッドは、コヒーレント光を顔に向けるように構成されたエミッタと、顔からのコヒーレント光の反射による二次スペックルパターンを感知するように構成されたセンサのアレイとを含む。開示された実施形態において、エミッタは、コヒーレント光の複数のビームを面上の異なるそれぞれの位置に向けるように構成され、センサのアレイは、位置から反射された二次スペックルパターンを感知するように構成される。追加的に又は代替的に、ビームによって照射され、センサのアレイによって感知される位置は、少なくとも1 cm2の面積にわたって延びる。さらに追加的にまたは代替的に、光学検知ヘッドは、顔の異なるそれぞれの領域をカバーするビームのそれぞれのグループを生成するように構成された複数のエミッタを含み、処理回路は、すべてのエミッタを作動させることなくエミッタのサブセットを選択し作動させるように構成される。
【0009】
開示された実施形態において、処理回路は、感知された二次スペックルパターンの変化を検出し、検出された変化に応じてスピーチ出力を生成するように構成される。
【0010】
代替的に又は追加的に、処理回路は、第1のフレームレートでセンサのアレイを動作させ、第1のフレームレートで動作している間に信号に応答して顔の動きを感知し、感知された動きに応答してフレームレートを第1のフレームレートよりも高い第2のフレームレートに増加させて、スピーチ出力を生成するように構成される
。
【0011】
典型的には、光学感知ヘッドは、ユーザの皮膚表面から少なくとも5mm離れた位置でブラケットによって保持される。
【0012】
一実施形態では、デバイスは、ユーザの皮膚表面に接触するように構成された1つまたは複数の電極を含み、処理回路は、光感知ヘッドによって出力された信号とともに、1つまたは複数の電極によって感知された電気活動に応答してスピーチ出力を生成するように構成される。
【0013】
追加的にまたは代替的に、デバイスは、ユーザによって発せられた音を感知するように構成されたマイクロフォンを含む。一実施形態では、処理回路は、光感知ヘッドを較正するために、光感知ヘッドによって出力された信号を、マイクロフォンによって感知された音と比較するように構成される。追加的に又は代替的に、処理回路は、ユーザによって発せられた音の感知に応答して、デバイスの動作状態を変更するように構成される。
【0014】
いくつかの実施形態では、デバイスは通信インターフェースを含み、処理回路は、通信インターフェースを介して処理デバイスに送信するために信号を符号化するように構成され、処理デバイスは、符号化された信号を処理してスピーチ出力を生成する。開示された実施形態において、通信インターフェースは、無線インターフェースを含む。
【0015】
追加的に又は代替的に、装置は、ブラケットに接続され、ユーザによって行われるジェスチャを感知するように構成されたユーザ制御部を含み、処理回路は、感知されたジェスチャに応答して装置の動作状態を変更するように構成される。
【0016】
さらに加えて、または代替として、デバイスは、ユーザの耳に収まるように構成されたスピーカを含み、処理回路は、スピーカによる再生のために、スピーチ出力に対応するオーディオ信号を合成するように構成される。
【0017】
本発明の一実施形態によれば、被験者による言葉の発声なしに、かつ皮膚に接触することなく、被験者によって発音された言葉に応答して被験者の顔の皮膚の動きを感知することを含む、感知するための方法も提供される。感知された動きに応答して、スピーチ出力が、発音された単語を含んで生成される。
【0018】
いくつかの実施形態では、動きを感知することは、対象の顔から反射された光を感知することを含む。開示された実施形態において、光を感知することは、コヒーレント光を皮膚に向けることと、皮膚からのコヒーレント光の反射による二次スペックルパターンを感知することとを含む。一実施形態では、コヒーレント光を方向付けることは、コヒーレント光の複数のビームを面上の異なるそれぞれの位置に向けて方向付けることと、センサのアレイを使用して位置の各々から反射された二次スペックルパターンを感知することとを含む。
【0019】
開示された実施形態では、スピーチ出力を生成することは、スピーチ出力に対応するオーディオ信号を合成することを含む。代替的に又は追加的に、スピーチ出力を生成することは、対象者によって発音された単語を転写することを含む。
【図面の簡単な説明】
【0020】
本発明は、図面と共に、以下の実施形態の詳細な説明からより完全に理解されるであろう。
【0021】
【
図1】本発明の一実施形態による、スピーチ感知のためのシステムの概略図である。
【
図2】本発明の実施形態に係る光検出ヘッドの概略断面図である。
【
図3】本発明の別の実施形態による、スピーチ感知デバイスの概略絵図である。
【
図4】本発明の実施形態に係る、スピーチ感知のためのシステムの機能的構成要素を概略的に示すブロック図である。
【
図5】本発明の一実施形態による、スピーチ感知のための方法を概略的に示すフローチャートである。
【発明を実施するための形態】
【0022】
人々は、ほぼすべての場所で、常に、自分の移動電話を介して通信する。公共空間での移動電話の広範な使用は、会話が通行人によって容易に聞かれるので、騒音の不協和音を生じ、しばしばプライバシーの問題を引き起こす。同時に、電話での会話の当事者の一方が騒々しい場所にいるとき、他方の当事者は、背景雑音のために、彼らが何を聞いているかを理解することが困難である場合がある。テキスト通信は、これらの問題に対する解決策を提供するが、移動電話へのテキスト入力は遅く、ユーザがどこに行くかを見るユーザの能力を妨げる。
【0023】
本明細書に記載される本発明の実施形態は、無音のスピーチを使用してこれらの問題に対処し、ユーザが、実際に単語を発声することも、または全く音を発することもなく、単語および文を明瞭に発音することを可能にする。発声の正常なプロセスは、胸部および腹部から、喉を通って、口および顔を通って上に、筋肉および神経の複数の群を使用する。所与の音素を発声するために、運動ニューロンは、肺からの空気流の推進に備えて、顔、喉頭、および口の筋肉群を活性化し、これらの筋肉は、発話中に移動し続け、単語および文を作成する。この空気流がないと、口から音は発せられない。無音スピーチは、肺からの空気流が存在しないときに発生し、一方、顔、喉頭、および口の筋肉は、所望の音を明瞭に表現し続ける。
【0024】
無音スピーチは、神経学的および筋肉の病理の結果として生じ得るが、例えば、我々が言葉を発音するが、他人に聞かれたくない場合に、意図的にも生じ得る。この発音は、口を開けずに話された単語を概念化した場合でも起こり得る。その結果、我々の顔面筋が活性化され、皮膚表面の微細な動きが生じる。本発明者は、これらの動きを適切に感知し、復号することによって、ユーザによって発音された実際の単語のシーケンスを確実に再構成することが可能であることを見出した。
【0025】
したがって、本明細書に記載される本発明の実施形態は、発声を伴うか伴わない、被験者によって発音された単語に応答して生じる、被験者の顔の皮膚ならびに皮下神経および筋肉の微細な動きを感知し、感知された動きを、発音された単語を含むスピーチ出力を生成する際に使用する。これらの実施形態は、例えば、被験者の顔から反射された光を感知することによって、皮膚に接触することなくこれらの微細な動きを感知するための方法及びデバイスを提供する。したがって、これらは、ユーザが、他の当事者に実質的に知覚できない方法で、他の当事者と通信すること、またはユーザ自身の考えを静かに記録することを可能にする。これらの実施形態による装置および方法はまた、周囲のノイズに対して鈍感であり、ユーザが周囲から視界および注意をそらすことを必要とせずに、実質的に任意の環境で使用することができる。
【0026】
本発明のいくつかの実施形態は、クリップ式ヘッドホンまたは眼鏡などの一般的な消費者アイテムの形態を有する感知デバイスを提供する。これらの実施形態では、光感知ヘッドは、ユーザの耳の中または上に嵌合するブラケットによって、ユーザの顔に近接した場所に保持される。光感知ヘッドは、例えば、頬などの顔の領域にコヒーレント光を向け、顔からのコヒーレント光の反射によって生じる二次スペックルパターンの変化を感知することによって、顔から反射された光を感知する。装置内の処理回路は、反射光に起因して光検知ヘッドによって出力された信号を処理して、対応するスピーチ出力を生成する。
【0027】
あるいは、本発明の原理は、イヤークリップまたは他のブラケットなしで実施されてもよい。例えば、代替的な実施形態では、コヒーレント光ソースおよびセンサを含む無音スピーチ感知モジュールが、スマートフォンのような移動体通信デバイスに統合されうる。この統合された感知モジュールは、ユーザが移動体通信デバイスをユーザの顔に近接した適切な位置に保持したときに、無音スピーチを感知する。
【0028】
本明細書および特許請求の範囲で使用される「光」という用語は、赤外線、可視光線、および紫外線の範囲のいずれかまたはすべての電磁放射線を指す。
【0029】
図1は、本発明の一実施形態による、スピーチ感知のためのシステム18の概略図である。システム18は、耳クリップ22の形態のブラケットが装置のユーザ24の耳に嵌められる感知装置20に基づく。イヤークリップ22に取り付けられたイヤホン26は、ユーザの耳にフィットする。光感知ヘッド28は、アーム30によってイヤークリップ22に接続され、したがって、ユーザの顔に近接した位置に保持される。図示された実施形態では、デバイス20は、クリップオンヘッドホンの形態および外観を有し、光感知ヘッドがマイクロホンの代わりに(またはそれに加えて)ある。
【0030】
光感知ヘッド28は、1つ以上のコヒーレント光ビームをユーザ24の顔の異なるそれぞれの位置に向け、それにより、顔の領域34(特にユーザの頬)にわたって延びるスポット32のアレイを生成する。本実施例において、光感知ヘッド28は、ユーザの皮膚に全く接触せず、むしろ皮膚表面から特定の距離に保持される。典型的には、この距離は少なくとも5mmであり、それはさらに大きくてもよく、例えば、皮膚表面から少なくとも1cm、またはさらに2cm以上であってもよい。顔の筋肉の異なる部分の動きを感知することを可能にするために、スポット32によってカバーされ、光感知ヘッド28によって感知される領域34は、典型的には、少なくとも1 cm2の広がりを有し、より大きな領域、例えば、少なくとも2 cm2又は4 cm2よりも大きいことさえも有利であり得る。
【0031】
光学感知ヘッド28は、面のスポット32から反射されたコヒーレント光を感知し、検出された光に応答して信号を出力する。具体的には、光学検知ヘッド28は、その視野内のスポット32のそれぞれからのコヒーレント光の反射によって生じる二次スペックルパターンを検知する。十分に大きな領域34をカバーするために、この視野は、典型的には、少なくとも60°、場合によっては70°、さらには90°以上の角度幅を有する広い角度範囲を有する。この視野内で、装置20は、スポット32の全ての、またはスポット32のあるサブセットのみの二次スペックルパターンによる信号を感知し、処理することができる。例えば、デバイス20は、ユーザ24の皮膚表面の関連する動きに関して、最も多くの有用で信頼できる情報を与えることが分かっているスポットのサブセットを選択してもよい。光検出ヘッド28の構造および動作の詳細は、
図2を参照して以下に説明される。
【0032】
システム18内では、処理回路が、光検知ヘッド28によって出力された信号を処理して、スピーチ出力を生成する。前述のように、処理回路は、ユーザ22によるスピーチの発声または任意の他の音の発声がなくても、ユーザ22の皮膚の動きを感知し、スピーチ出力を生成することが可能である。スピーチ出力は、合成されたスピーチ信号またはテキストの転記、あるいはその両方の形態をとることができる。合成されたスピーチ信号は、イヤホン26内のスピーカを介して再生されてもよい(また、スピーチ出力に関してユーザ22にフィードバックを与えるのに有用である)。追加的にまたは代替的に、合成されたオーディオ信号は、ネットワークを通じて、たとえばスマートフォン36などの移動体通信デバイスとの通信リンクを介して送信され得る。
【0033】
システム18内の処理回路の機能は、デバイス20内で完全に実行されてもよく、または代替として、デバイス20と、好適なアプリケーションソフトウェアを起動するスマートフォン36内のプロセッサ等の外部プロセッサとの間で分散されてもよい。例えば、デバイス20内の処理回路は、光学検知ヘッド28によって出力された信号をデジタル化して符号化し、通信リンクを介して符号化された信号をスマートフォン36に送信することができる。この通信リンクは、有線であっても、例えばスマートフォンによって提供されるBluetooth(登録商標)無線インターフェースを使用する無線であってもよい。スマートフォン36内のプロセッサは、スピーチ出力を生成するために、符号化された信号を処理する。スマートフォン36はまた、例えば、データをアップロードし、ソフトウェアアップデートをダウンロードするために、インターネット等のデータネットワークを経由してサーバ38にアクセスしてもよい。処理回路の設計および動作の詳細は、
図4を参照して以下に説明される。
【0034】
図示された実施形態において、装置20は、例えば、耳クリップ22に接続された押しボタン又は近接センサの形態のユーザ制御部35も有する。ユーザ制御部35は、ユーザ制御部35を押すこと、またはユーザの指もしくは手をユーザ制御部に近づけることなどの、ユーザによって実行されるジェスチャを感知する。適切なユーザジェスチャに応答して、処理回路は、デバイス20の動作状態を変更する。例えば、ユーザ24は、このようにしてデバイス20をアイドルモードからアクティブモードに切り替え、したがって、デバイスがスピーチ出力を感知し、生成することを開始すべきであることをシグナリングし得る。この種のスイッチングは、装置20のバッテリ電力を節約するのに有用である。代替的に又は追加的に、例えば
図5を参照して以下に説明されるように、装置20の動作状態を制御し、不必要な電力消費を低減する際に他の手段が適用されてもよい。
【0035】
図2は、本発明の実施形態による光感知ヘッドの構成要素および機能の詳細を示す、デバイス20の光感知ヘッド28の概略断面図である。光学感知ヘッド28は、エミッタモジュール40と、レシーバモジュール48と、任意のマイクロフォン54とを備える。
【0036】
エミッタモジュール40は、コヒーレント放射の入力ビームを放出する赤外レーザーダイオード42などの光源を備える。ダマン格子または別の適切なタイプの回折光学素子(DOE)などのビーム分割素子44は、入力ビームを複数の出力ビーム46に分割し、これらの出力ビームは、領域34にわたって延びる位置のマトリックスにおいてそれぞれのスポット32を形成する。一実施形態(図示せず)では、エミッタモジュール40は、ユーザの顔の領域34内の異なるそれぞれのサブ領域をカバーする出力ビーム46のそれぞれのグループを生成する複数のレーザダイオード又は他のエミッタを含む。この場合、デバイス20内の処理回路は、全てのエミッタを作動させることなく、エミッタのサブセットのみを選択し、作動させてもよい。例えば、デバイス20の電力消費を低減するために、処理回路は、所望のスピーチ出力を生成するために最も有用な情報を与えることが分かっているユーザの顔の領域を照明する1つのみのエミッタ又は2つ以上のエミッタからなるサブセットを作動させてもよい。
【0037】
受信モジュール48は、光センサ、例えばCMOSイメージセンサのアレイ52を備え、アレイ52上に領域34を撮像するための対物光学系50を有する。光検知ヘッド28の寸法が小さく、皮膚表面に近接しているため、受信機モジュール48は、上述のように、十分に広い視野を有し、多くのスポット32を法線から離れた高角度で見る。皮膚表面の粗さのため、スポット32における二次スペックルパターンは、これらの高角度でも検出され得る。
【0038】
マイクロフォン54は、ユーザ24によって発せられた音を感知し、ユーザ22が、所望されるときに従来のヘッドフォンとしてデバイス20を使用することを可能にする。追加的にまたは代替的に、マイクロフォン54は、デバイス20の無音スピーチ感知能力とともに使用され得る。例えば、マイクロフォン54は、ユーザ22が特定の音素又は単語を発している間に光感知ヘッド28が皮膚の動きを感知する較正手順において使用されてもよい。処理回路は、次いで、光学感知ヘッドを較正するために、光学感知ヘッド28によって出力される信号をマイクロホン54によって感知される音と比較してもよい。この較正は、光学構成要素をユーザの頬に対して所望の位置に位置合わせするために、ユーザ22に光学検知ヘッド28の位置をシフトするように促すことを含むことができる。
【0039】
別の実施形態では、マイクロフォン54によって出力されるオーディオ信号は、デバイス20の動作状態を変更する際に使用され得る。例えば、処理回路は、マイクロフォン54がユーザ24による言葉の発声を検出しない場合にのみ、スピーチ出力を生成してもよい。光感知ヘッド28とマイクロフォン54とによって提供される光感知と音響感知との組み合わせの他の用途は、本説明を読んだ後に当業者には明らかになり、本発明の範囲内にあると考えられる。
【0040】
図3は、本発明の別の実施形態によるスピーチ感知装置60の概略図である。この実施形態では、イヤークリップ22は、眼鏡フレーム62と一体化されるか、又はそうでなければ眼鏡フレーム62に取り付けられる。鼻電極64及び側頭電極66は、フレーム62に取り付けられ、ユーザの皮膚表面に接触する。電極64および66は、ユーザの顔面筋の活性化に関する追加情報を提供する、体表面筋電図(sEMG)信号を受信する。装置60内の処理回路は、装置60からスピーチ出力を生成する際に、電極64および66によって感知された電気的活動を、光感知ヘッド28からの出力信号と共に使用する。
【0041】
追加的に又は代替的に、装置60は、ユーザの顔の他の領域における皮膚の動きを感知するために、光感知ヘッド28と同様の1つ以上の追加の光感知ヘッド68を含む。これらの追加の光感知ヘッドは、光感知ヘッド28と共に、または光感知ヘッド28の代わりに使用されてもよい。
【0042】
図4は、本発明の一実施形態による、スピーチ感知のためのシステム18の機能構成要素を概略的に示すブロック図である。図示されたシステムは、検知装置20、スマートフォン36、及びサーバ38を含む、
図1に示された構成要素の周りに構築される。あるいは、
図4に示され、以下に説明される機能は、システムの構成要素間で異なるように実装され、分散されてもよい。例えば、スマートフォン36に属する処理能力の一部又は全ては、感知デバイスにおいて実装されてもよく、又はデバイス20の感知能力は、スマートフォン36において実装されてもよい。
【0043】
図示された例では、上述したように、検知装置20は、エミッタモジュール40、レシーバモジュール48、スピーカ26、マイクロフォン54、及びユーザ制御部(UI)35を備える。完全を期すために、検知装置20は、
図4では、電極及び/又は環境センサなどの他のセンサ71も含むものとして示されているが、前述のように、検知装置20は、エミッタモジュール及びレシーバモジュールによって行われる非接触測定のみに基づいて動作することができる。
【0044】
感知装置20は、エンコーダ70およびコントローラ75の形態の処理回路を備える。エンコーダ70は、ハードウェア処理ロジックを備え、ハードウェア処理ロジックは、ハードワイヤードまたはプログラマブルであってもよく、および/または、デジタルシグナルプロセッサを備え、CPUは、受信機モジュール48からの出力の特徴を抽出し、エンコードする。感知装置20は、符号化された信号を、ブルートゥース(登録商標)インターフェースなどの通信インターフェース72を介して、スマートフォン36内の対応する通信インターフェース77に送信する。バッテリ74は、感知装置20の構成要素に動作電力を供給する。
【0045】
コントローラ75は、例えば、ユーザ制御35、受信機モジュール48、およびスマートフォン36から(通信インターフェース72を介して)受信された入力に基づいて、感知デバイス20の動作状態および動作パラメータを設定する、プログラマブルマイクロコントローラを備える。この機能のいくつかの態様は、
図5を参照して以下に説明される。代替実施形態では、コントローラ75は、より強力なマイクロプロセッサおよび/または処理アレイを備え、これは、感知デバイス内でローカルに受信機モジュール48からの出力信号の特徴を処理し、スマートフォン36とは無関係にスピーチ出力を生成する。
【0046】
しかしながら、本実施形態では、感知装置20からの符号化された出力信号は、スマートフォン36のメモリ78で受信され、スマートフォン36のプロセッサ上で実行されるスピーチ生成アプリケーション80によって処理される。スピーチ生成アプリケーション80は、出力信号の特徴を、テキストおよび/またはオーディオ出力信号の形の単語のシーケンスに変換する。通信インターフェース77は、ユーザに対して再生するために、オーディオ出力信号を検知デバイス20のスピーカ26に戻す。スピーチ生成アプリケーション80からのテキストおよび/またはオーディオ出力は、スピーチおよび/またはテキスト通信アプリケーション、ならびに記録アプリケーションなどの他のアプリケーション84にも入力される。通信アプリケーションは、例えば、データ通信インターフェース86を介して、セルラーまたはWi-Fiネットワークを経由して通信する。
【0047】
エンコーダ70およびスピーチ生成アプリケーション80の動作は、ローカルトレーニングインターフェース82によって制御される。例えば、インターフェース82は、受信機モジュール48によって出力された信号からどの時間的特徴およびスペクトル特徴を抽出すべきかをエンコーダ70に示し得、スピーチ生成アプリケーション80に、特徴を単語に変換するニューラルネットワークの係数を提供し得る。この例では、スピーチ生成アプリケーション80は、推論ネットワークを実装し、感知装置20から受信した符号化信号特徴に対応する最も高い確率を有する単語のシーケンスを見つける。ローカルトレーニングインターフェース82は、サーバ38から推論ネットワークの係数を受信し、サーバ38はまた、係数を周期的に更新することができる。
【0048】
ローカル訓練命令82を生成するために、サーバ38は、訓練データ90の集合からのスペックル画像および対応するグラウンドトゥルースの話された単語を含むデータリポジトリ88を使用する。リポジトリ88はまた、現場の検知装置20から収集された訓練データを受信する。例えば、トレーニングデータは、ユーザが特定の音及び単語(場合によっては、無音及び発声されたスピーチの両方を含む)を発音している間に感知装置20から収集された信号を含むことができる。一般的なトレーニングデータ90と各検知デバイス20のユーザから受信された個人トレーニングデータとのこの組み合わせは、サーバ38が各ユーザのための最適な推論ネットワーク係数を導出することを可能にする。
【0049】
サーバ38は、画像解析ツール94を適用して、リポジトリ88内のスペックル画像から特徴を抽出する。これらの画像特徴は、トレーニングデータとして、対応する単語の辞書104および言語モデル100と共にニューラルネットワーク96に入力され、言語モデル100は、トレーニングデータで使用される特定の言語のスピーチ構造および構文規則の両方を定義する。ニューラルネットワーク96は、推論ネットワーク102のための最適な係数を生成し、推論ネットワーク102は、スペックル測定の対応するシーケンスから抽出された特徴セットの入力シーケンスを、対応する音素に、最終的には単語の出力シーケンスに変換する。ネットワークアーキテクチャおよびトレーニングプロセスのさらなる詳細は、上述の仮特許出願に記載されている。サーバ38は、推論ネットワーク102の係数を、スピーチ生成アプリケーション80で使用するためにスマートフォン36にダウンロードする。
【0050】
図5は、本発明の一実施形態による、スピーチ感知のための方法を概略的に示すフローチャートである。この方法は、便宜上および明確にするために、
図1および
図4に示され、上述されたシステム18の要素を参照して説明される。あるいは、この方法の原理は、例えば、検知装置60(
図3)または移動体通信装置に組み込まれた検知装置を使用して、他のシステム構成に適用されてもよい。
【0051】
ユーザ24が話していない限り、アイドリングステップ110において、感知装置20は、バッテリ74の電力を節約するために低電力アイドルモードで動作する。このモードでは、コントローラ75は、受信機モジュール48内のセンサのアレイ52を、低いフレームレート、例えば20フレーム/秒で駆動する。エミッタモジュール40は、低減された出力電力で動作することもできる。受信機モジュール48がこの低フレームレートで動作している間、コントローラ75は、動き検出ステップ112において、スピーチを示す顔の動きを検出するために、アレイ52によって出力された画像を処理する。そのような動きが検出されると、コントローラ75は、アクティブキャプチャステップ114において、無音スピーチに起因して発生する二次スペックルパターンの変化の検出を可能にするために、フレームレートを、例えば100~200フレーム/秒の範囲に増加させるように、受信機モジュール48、ならびに感知デバイス20の他の構成要素に命令する。代替的に又は追加的に、コントローラ75は、ユーザ制御35の作動又はスマートフォン36から受信される命令などの他の入力に応答して、フレームレートを増加させ、感知デバイス20の他の構成要素を起動してもよい。
【0052】
受信モジュール48によって捕捉された画像は、
図1に示すように、典型的には、投影されたレーザスポット32のマトリックスを含む。エンコーダ70は、スポット検出116において、画像内のスポットの位置を検出する。エンコーダは、すべてのスポットから特徴を抽出することができるが、電力および処理リソースを節約するために、エンコーダがスポットのサブセットを選択することが望ましい。例えば、ローカルトレーニングインターフェース82は、スポットのどのサブセットがユーザのスピーチに関して最大量の情報を含むかを示し得、エンコーダ70は、このサブセット内のスポットを選択し得る。エンコーダ70は、クロッピングステップ118において、各画像から小さなウィンドウをクロッピングし、各ウィンドウは選択されたスポットのうちの1つを含む。
【0053】
エンコーダ70は、特徴抽出ステップ120において、選択された各スポットからスペックル運動の特徴を抽出する。例えば、エンコーダ70は、対応するウィンドウ内のピクセルの平均強度に基づいて、各スペックル内の総エネルギーを推定することができ、各スペックルのエネルギーの経時的な変化を測定することができる。追加的に又は代替的に、エンコーダ70は、スポットの選択されたサブセット内のスペックルの他の時間的特徴及び/又はスペクトル特徴を抽出することができる。エンコーダ70は、これらの特徴を(スマートフォン36上で実行される)スピーチ生成アプリケーション80に伝達し、スピーチ生成アプリケーション80は、特徴入力ステップ122において、サーバ38からダウンロードされた推論ネットワーク102に特徴値のベクトルを入力する。
【0054】
時間の経過とともに推論ネットワークに入力される特徴ベクトルのシーケンスに基づいて、スピーチ生成アプリケーション80は、スピーチ出力ステップ124において、文に連結される単語のストリームを出力する。前述のように、スピーチ出力は、スピーカ26を介して再生するために、オーディオ信号を合成するために使用される。スマートフォン36上で実行される他のアプリケーション84は、後処理ステップ126において、スピーチおよび/またはテキストデータ信号を後処理して、対応するテキストを記録し、および/またはネットワークを介してスピーチまたはスピーチを送信する。
【0055】
上述の実施形態は、例として引用されており、本発明は、特に示され、上述されたものに限定されないことが理解されるであろう。むしろ、本発明の範囲は、上述の様々な特徴の組み合わせ及びサブコンビネーションの両方、並びに、前述の説明を読めば当業者には思い浮かぶであろう、先行技術に開示されていないそれらの変形及び修正を含む。
【国際調査報告】