特表2024-530886 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ キュー（キュー）リミテッドの特許一覧

特表2024-530886無音スピーチの検出

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-08-27

(54)【発明の名称】無音スピーチの検出

(51)【国際特許分類】

G06F 3/01 20060101AFI20240820BHJP

H04R 1/00 20060101ALI20240820BHJP

G10L 13/02 20130101ALI20240820BHJP

【ＦＩ】

G06F3/01 590

H04R1/00 328Z

H04R1/00 318Z

G10L13/02 110Z

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2024504468

(86)(22)【出願日】2022-05-16

(85)【翻訳文提出日】2024-01-23

(86)【国際出願番号】 IB2022054527

(87)【国際公開番号】W WO2023012527

(87)【国際公開日】2023-02-09

(31)【優先権主張番号】63/229,091

(32)【優先日】2021-08-04

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】524030248

【氏名又は名称】キュー（キュー）リミテッド

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100229448

【弁理士】

【氏名又は名称】中槇利明

(72)【発明者】

【氏名】マイゼルス，アビアド

(72)【発明者】

【氏名】バーリヤ，アビ

(72)【発明者】

【氏名】コーンブラウ，ギオラ

(72)【発明者】

【氏名】ウェクスラー，ヨナタン

【テーマコード（参考）】

5D017

5E555

【Ｆターム（参考）】

5D017AC16

5D017BB16

5E555AA44

5E555AA46

5E555AA61

5E555BA08

5E555BB08

5E555BB38

5E555BE08

5E555CA41

5E555CB64

5E555CB67

5E555CB69

5E555DA23

5E555EA25

5E555FA00

(57)【要約】

【要約】
感知装置（２０、６０）は、装置のユーザ（２４）の耳に適合するように構成されたブラケット（２２）を含む。光学感知ヘッド（２８）は、ユーザの顔に近接した位置でブラケットによって保持され、顔から反射された光を感知し、検出された光に応答して信号を出力する。処理回路（７０，７５）は、信号を処理してスピーチ出力を生成する。

【特許請求の範囲】

【請求項1】

感知装置であって、
前記装置のユーザの耳にフィットするように構成されたブラケットと、
前記ユーザの顔に近接した位置でブラケットによって保持され、前記顔から反射された光を感知し、検出された光に応答して信号を出力するように構成された光感知ヘッドと、
前記信号を処理して、スピーチ出力を生成するように構成された処理回路と、を含む、装置。

【請求項2】

前記ブラケットは、イヤークリップを含む、請求項１に記載の装置。

【請求項3】

前記ブラケットは、眼鏡フレームを含む、請求項１に記載の装置。

【請求項4】

前記光感知ヘッドは、前記ユーザの頬から反射された前記光を感知するように構成されている、請求項１に記載の装置。

【請求項5】

前記光感知ヘッドは、コヒーレント光を前記顔に向けるように構成されたエミッタと、前記顔からの前記コヒーレント光の反射による二次スペックルパターンを感知するように構成されたセンサのアレイと、を含む、請求項１に記載の装置。

【請求項6】

前記エミッタは、前記コヒーレント光の複数のビームを前記顔の上の異なるそれぞれの位置に向けるように構成され、前記センサのアレイは、前記位置から反射された前記二次スペックルパターンを感知するように構成されている、請求項５に記載の装置。

【請求項7】

前記ビームによって照射され、前記センサのアレイによって感知される前記位置は、少なくとも６０度の角度の幅を有する視野にわたって延びる、請求項６に記載の装置。

【請求項8】

前記ビームによって照射され、前記センサのアレイによって感知される前記位置は、少なくとも１ｃｍ^２の面積にわたって延びる、請求項６に記載の装置。

【請求項9】

前記光感知ヘッドは、前記顔の異なるそれぞれの領域をカバーする前記ビームのそれぞれのグループを生成するように構成された複数のエミッタを含み、前記処理回路は、前記エミッタのすべてを作動させることなく前記エミッタのサブセットを選択し作動させるように構成される、請求項６に記載の装置。

【請求項10】

前記処理回路は、前記感知された二次スペックルパターンの変化を検出し、前記検出された変化に応じて前記スピーチ出力を生成するように構成される、請求項５に記載の装置。

【請求項11】

前記処理回路は、第１のフレームレートで前記センサのアレイを動作させ、前記第１のフレームレートで動作している間に前記信号に応答して前記顔の動きを感知し、前記感知された動きに応答してフレームレートを第１のフレームレートよりも高い第２のフレームレートに増加させて、前記スピーチ出力を生成するように構成される、請求項５に記載の装置。

【請求項12】

前記処理回路は、前記ユーザのいかなる発声もなしに、前記ユーザの顔の皮膚の動きにより、前記光感知ヘッドによって出力された前記信号の変化に応答して前記スピーチ出力を生成するように構成される、請求項１～１１のいずれか１項に記載の装置。

【請求項13】

前記光感知ヘッドは、前記ユーザの皮膚表面から少なくとも５ｍｍ離れた位置で前記ブラケットによって保持される、請求項１～１１のいずれか１項に記載の装置。

【請求項14】

前記ユーザの皮膚表面に接触するように構成された１つ以上の電極であって、前記処理回路は、前記光感知ヘッドによって出力された前記信号とともに、前記１つ以上の電極によって感知された電気活動に応答して前記スピーチ出力を生成するように構成される、１つ以上の電極をさらに含む、請求項１～１１のいずれか１項に記載の装置。

【請求項15】

前記ユーザによって発せられた音を感知するように構成されたマイクロフォンをさらに含む、請求項１～１１のいずれか１項に記載の装置。

【請求項16】

前記処理回路は、前記光感知ヘッドを較正するために、前記光感知ヘッドによって出力された前記信号を、前記マイクロフォンによって感知された前記音と比較するように構成される、請求項１５に記載の装置。

【請求項17】

前記処理回路は、前記ユーザによって発せられた前記音の感知に応答して、前記装置の動作状態を変更するように構成される、請求項１５に記載の装置。

【請求項18】

通信インターフェースであって、前記処理回路は、前記通信インターフェースを介して処理デバイスに送信するために前記信号を符号化するように構成され、前記処理デバイスは、前記符号化された信号を処理して前記スピーチ出力を生成する、通信インターフェースをさらに含む、請求項１～１１のいずれか１項に記載の装置。

【請求項19】

前記通信インターフェースは、無線インターフェースを含む、請求項１８に記載の装置。

【請求項20】

前記ブラケットに接続され、前記ユーザによって行われるジェスチャを感知するように構成されたユーザ制御部であって、前記処理回路は、前記感知されたジェスチャに応答して前記装置の動作状態を変更するように構成される、ユーザ制御部をさらに含む、請求項１～１１のいずれか１項に記載の装置。

【請求項21】

ユーザの耳に収まるように構成されたスピーカであって、前記処理回路は、前記スピーカによる再生のために、前記スピーチ出力に対応する音声信号を合成するように構成される、スピーカをさらに含む、請求項１～１１のいずれか１項に記載の装置。

【請求項22】

感知するための方法であって、前記方法は、
被験者による単語の発声なしに、かつ皮膚に接触することなく、前記被験者によって発音された単語に応答して被験者の顔の前記皮膚の動きを感知することと、
前記感知された動きに応答して、前記発音された単語を含むスピーチ出力を生成することと、を含む、方法。

【請求項23】

前記動きを感知することは、前記被験者の前記顔から反射された光を感知することを含む、請求項２２に記載の方法。

【請求項24】

前記光を感知することは、コヒーレント光を前記皮膚に向けることと、前記皮膚からの前記コヒーレント光の反射による二次スペックルパターンを感知することとを含む、請求項２３に記載の方法。

【請求項25】

前記コヒーレント光を方向付けることは、前記コヒーレント光の複数のビームを前記顔の上の異なるそれぞれの位置に向けて方向付けることと、センサのアレイを使用して前記位置の各々から反射された前記二次スペックルパターンを感知することと、を含む、請求項２４に記載の方法。

【請求項26】

前記ビームによって照射され、前記センサのアレイによって感知される前記位置は、少なくとも６０度の角度の幅を有する視野にわたって延びる、請求項２５に記載の方法。

【請求項27】

前記ビームによって照射され、前記センサのアレイによって感知される前記位置は、前記被験者の頬の少なくとも１ｃｍ^２の面積にわたって延びる、請求項２５に記載の方法。

【請求項28】

前記スピーチ出力を生成することは、前記感知された二次スペックルパターンの変化を検出し、前記検出された変化に応答して前記スピーチ出力を生成することを含む、請求項２４に記載の方法。

【請求項29】

前記スピーチ出力を生成することは、前記スピーチ出力に対応する音声信号を合成することを含む、請求項２２～２８のいずれか１項に記載の方法。

【請求項30】

前記スピーチ出力を生成することは、前記被験者によって発音された単語を筆記することを含む、請求項２２～２８のいずれか１項に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互参照
本出願は２０２１年８月４日に出願された米国仮特許出願第６３／２２９，０９１号の利益を請求し、これは参照により本明細書に組み込まれる。

【0002】

本発明は、一般に、生理学的感知に関し、特に、人間のスピーチを感知するための方法および装置に関する。

【背景技術】

【0003】

発話のプロセスは、胸部、頸部、および顔面の神経および筋肉を活性化する。したがって、例えば、筋電図（ＥＭＧ）は、スピーチ感知の目的で筋肉インパルスを捕捉するために使用されてきた。

【0004】

二次スペックルパターンは、人体の皮膚の動きを監視するために使用されてきた。二次スペックルは、典型的には、皮膚のような粗面からのレーザビームの拡散反射において生じる。レーザビームによって照射されたときに人間の皮膚からの反射によって生成される二次スペックルの時間的変化及び振幅変化の両方を追跡することによって、研究者は、血液パルス圧力及び他のバイタルサインを測定してきた。例えば、米国特許第１０，３９８，３１４号は、身体によって生成されるスペックルパターンのシーケンスを示す画像データを使用して、被験者の身体の状態を監視するための方法を説明している。

【発明の概要】

【0005】

以下に説明する本発明の実施形態は、人間のスピーチを感知するための新規な方法および装置を提供する。

【0006】

本発明の一実施形態によれば、装置のユーザの耳にフィットするように構成されたブラケットと、ユーザの顔に近接した位置でブラケットによって保持され、顔から反射された光を感知し、検出された光に応答して信号を出力するように構成された光感知ヘッドとを含む感知装置も提供される。処理回路は、信号を処理してスピーチ出力を生成するように構成される。

【0007】

一実施形態では、ブラケットは、イヤークリップを含む。あるいは、ブラケットは眼鏡フレームを含む。開示された実施形態において、光感知ヘッドは、ユーザの頬から反射された光を感知するように構成される。

【0008】

いくつかの実施形態では、光感知ヘッドは、コヒーレント光を顔に向けるように構成されたエミッタと、顔からのコヒーレント光の反射による二次スペックルパターンを感知するように構成されたセンサのアレイとを含む。開示された実施形態において、エミッタは、コヒーレント光の複数のビームを面上の異なるそれぞれの位置に向けるように構成され、センサのアレイは、位置から反射された二次スペックルパターンを感知するように構成される。追加的に又は代替的に、ビームによって照射され、センサのアレイによって感知される位置は、少なくとも１ｃｍ^２の面積にわたって延びる。さらに追加的にまたは代替的に、光学検知ヘッドは、顔の異なるそれぞれの領域をカバーするビームのそれぞれのグループを生成するように構成された複数のエミッタを含み、処理回路は、すべてのエミッタを作動させることなくエミッタのサブセットを選択し作動させるように構成される。

【0009】

開示された実施形態において、処理回路は、感知された二次スペックルパターンの変化を検出し、検出された変化に応じてスピーチ出力を生成するように構成される。

【0010】

代替的に又は追加的に、処理回路は、第１のフレームレートでセンサのアレイを動作させ、第１のフレームレートで動作している間に信号に応答して顔の動きを感知し、感知された動きに応答してフレームレートを第１のフレームレートよりも高い第２のフレームレートに増加させて、スピーチ出力を生成するように構成される
。

【0011】

典型的には、光学感知ヘッドは、ユーザの皮膚表面から少なくとも５ｍｍ離れた位置でブラケットによって保持される。

【0012】

一実施形態では、デバイスは、ユーザの皮膚表面に接触するように構成された１つまたは複数の電極を含み、処理回路は、光感知ヘッドによって出力された信号とともに、１つまたは複数の電極によって感知された電気活動に応答してスピーチ出力を生成するように構成される。

【0013】

追加的にまたは代替的に、デバイスは、ユーザによって発せられた音を感知するように構成されたマイクロフォンを含む。一実施形態では、処理回路は、光感知ヘッドを較正するために、光感知ヘッドによって出力された信号を、マイクロフォンによって感知された音と比較するように構成される。追加的に又は代替的に、処理回路は、ユーザによって発せられた音の感知に応答して、デバイスの動作状態を変更するように構成される。

【0014】

いくつかの実施形態では、デバイスは通信インターフェースを含み、処理回路は、通信インターフェースを介して処理デバイスに送信するために信号を符号化するように構成され、処理デバイスは、符号化された信号を処理してスピーチ出力を生成する。開示された実施形態において、通信インターフェースは、無線インターフェースを含む。

【0015】

追加的に又は代替的に、装置は、ブラケットに接続され、ユーザによって行われるジェスチャを感知するように構成されたユーザ制御部を含み、処理回路は、感知されたジェスチャに応答して装置の動作状態を変更するように構成される。

【0016】

さらに加えて、または代替として、デバイスは、ユーザの耳に収まるように構成されたスピーカを含み、処理回路は、スピーカによる再生のために、スピーチ出力に対応するオーディオ信号を合成するように構成される。

【0017】

本発明の一実施形態によれば、被験者による言葉の発声なしに、かつ皮膚に接触することなく、被験者によって発音された言葉に応答して被験者の顔の皮膚の動きを感知することを含む、感知するための方法も提供される。感知された動きに応答して、スピーチ出力が、発音された単語を含んで生成される。

【0018】

いくつかの実施形態では、動きを感知することは、対象の顔から反射された光を感知することを含む。開示された実施形態において、光を感知することは、コヒーレント光を皮膚に向けることと、皮膚からのコヒーレント光の反射による二次スペックルパターンを感知することとを含む。一実施形態では、コヒーレント光を方向付けることは、コヒーレント光の複数のビームを面上の異なるそれぞれの位置に向けて方向付けることと、センサのアレイを使用して位置の各々から反射された二次スペックルパターンを感知することとを含む。

【0019】

開示された実施形態では、スピーチ出力を生成することは、スピーチ出力に対応するオーディオ信号を合成することを含む。代替的に又は追加的に、スピーチ出力を生成することは、対象者によって発音された単語を転写することを含む。

【図面の簡単な説明】

【0020】

本発明は、図面と共に、以下の実施形態の詳細な説明からより完全に理解されるであろう。

【0021】

【図1】本発明の一実施形態による、スピーチ感知のためのシステムの概略図である。

【図2】本発明の実施形態に係る光検出ヘッドの概略断面図である。

【図3】本発明の別の実施形態による、スピーチ感知デバイスの概略絵図である。

【図4】本発明の実施形態に係る、スピーチ感知のためのシステムの機能的構成要素を概略的に示すブロック図である。

【図5】本発明の一実施形態による、スピーチ感知のための方法を概略的に示すフローチャートである。

【発明を実施するための形態】

【0022】

人々は、ほぼすべての場所で、常に、自分の移動電話を介して通信する。公共空間での移動電話の広範な使用は、会話が通行人によって容易に聞かれるので、騒音の不協和音を生じ、しばしばプライバシーの問題を引き起こす。同時に、電話での会話の当事者の一方が騒々しい場所にいるとき、他方の当事者は、背景雑音のために、彼らが何を聞いているかを理解することが困難である場合がある。テキスト通信は、これらの問題に対する解決策を提供するが、移動電話へのテキスト入力は遅く、ユーザがどこに行くかを見るユーザの能力を妨げる。

【0023】

本明細書に記載される本発明の実施形態は、無音のスピーチを使用してこれらの問題に対処し、ユーザが、実際に単語を発声することも、または全く音を発することもなく、単語および文を明瞭に発音することを可能にする。発声の正常なプロセスは、胸部および腹部から、喉を通って、口および顔を通って上に、筋肉および神経の複数の群を使用する。所与の音素を発声するために、運動ニューロンは、肺からの空気流の推進に備えて、顔、喉頭、および口の筋肉群を活性化し、これらの筋肉は、発話中に移動し続け、単語および文を作成する。この空気流がないと、口から音は発せられない。無音スピーチは、肺からの空気流が存在しないときに発生し、一方、顔、喉頭、および口の筋肉は、所望の音を明瞭に表現し続ける。

【0024】

無音スピーチは、神経学的および筋肉の病理の結果として生じ得るが、例えば、我々が言葉を発音するが、他人に聞かれたくない場合に、意図的にも生じ得る。この発音は、口を開けずに話された単語を概念化した場合でも起こり得る。その結果、我々の顔面筋が活性化され、皮膚表面の微細な動きが生じる。本発明者は、これらの動きを適切に感知し、復号することによって、ユーザによって発音された実際の単語のシーケンスを確実に再構成することが可能であることを見出した。

【0025】

したがって、本明細書に記載される本発明の実施形態は、発声を伴うか伴わない、被験者によって発音された単語に応答して生じる、被験者の顔の皮膚ならびに皮下神経および筋肉の微細な動きを感知し、感知された動きを、発音された単語を含むスピーチ出力を生成する際に使用する。これらの実施形態は、例えば、被験者の顔から反射された光を感知することによって、皮膚に接触することなくこれらの微細な動きを感知するための方法及びデバイスを提供する。したがって、これらは、ユーザが、他の当事者に実質的に知覚できない方法で、他の当事者と通信すること、またはユーザ自身の考えを静かに記録することを可能にする。これらの実施形態による装置および方法はまた、周囲のノイズに対して鈍感であり、ユーザが周囲から視界および注意をそらすことを必要とせずに、実質的に任意の環境で使用することができる。

【0026】

本発明のいくつかの実施形態は、クリップ式ヘッドホンまたは眼鏡などの一般的な消費者アイテムの形態を有する感知デバイスを提供する。これらの実施形態では、光感知ヘッドは、ユーザの耳の中または上に嵌合するブラケットによって、ユーザの顔に近接した場所に保持される。光感知ヘッドは、例えば、頬などの顔の領域にコヒーレント光を向け、顔からのコヒーレント光の反射によって生じる二次スペックルパターンの変化を感知することによって、顔から反射された光を感知する。装置内の処理回路は、反射光に起因して光検知ヘッドによって出力された信号を処理して、対応するスピーチ出力を生成する。

【0027】

あるいは、本発明の原理は、イヤークリップまたは他のブラケットなしで実施されてもよい。例えば、代替的な実施形態では、コヒーレント光ソースおよびセンサを含む無音スピーチ感知モジュールが、スマートフォンのような移動体通信デバイスに統合されうる。この統合された感知モジュールは、ユーザが移動体通信デバイスをユーザの顔に近接した適切な位置に保持したときに、無音スピーチを感知する。

【0028】

本明細書および特許請求の範囲で使用される「光」という用語は、赤外線、可視光線、および紫外線の範囲のいずれかまたはすべての電磁放射線を指す。

【0029】

図１は、本発明の一実施形態による、スピーチ感知のためのシステム１８の概略図である。システム１８は、耳クリップ２２の形態のブラケットが装置のユーザ２４の耳に嵌められる感知装置２０に基づく。イヤークリップ２２に取り付けられたイヤホン２６は、ユーザの耳にフィットする。光感知ヘッド２８は、アーム３０によってイヤークリップ２２に接続され、したがって、ユーザの顔に近接した位置に保持される。図示された実施形態では、デバイス２０は、クリップオンヘッドホンの形態および外観を有し、光感知ヘッドがマイクロホンの代わりに（またはそれに加えて）ある。

【0030】

光感知ヘッド２８は、１つ以上のコヒーレント光ビームをユーザ２４の顔の異なるそれぞれの位置に向け、それにより、顔の領域３４（特にユーザの頬）にわたって延びるスポット３２のアレイを生成する。本実施例において、光感知ヘッド２８は、ユーザの皮膚に全く接触せず、むしろ皮膚表面から特定の距離に保持される。典型的には、この距離は少なくとも５ｍｍであり、それはさらに大きくてもよく、例えば、皮膚表面から少なくとも１ｃｍ、またはさらに２ｃｍ以上であってもよい。顔の筋肉の異なる部分の動きを感知することを可能にするために、スポット３２によってカバーされ、光感知ヘッド２８によって感知される領域３４は、典型的には、少なくとも１ｃｍ^２の広がりを有し、より大きな領域、例えば、少なくとも２ｃｍ^２又は４ｃｍ^２よりも大きいことさえも有利であり得る。

【0031】

光学感知ヘッド２８は、面のスポット３２から反射されたコヒーレント光を感知し、検出された光に応答して信号を出力する。具体的には、光学検知ヘッド２８は、その視野内のスポット３２のそれぞれからのコヒーレント光の反射によって生じる二次スペックルパターンを検知する。十分に大きな領域３４をカバーするために、この視野は、典型的には、少なくとも６０°、場合によっては７０°、さらには９０°以上の角度幅を有する広い角度範囲を有する。この視野内で、装置２０は、スポット３２の全ての、またはスポット３２のあるサブセットのみの二次スペックルパターンによる信号を感知し、処理することができる。例えば、デバイス２０は、ユーザ２４の皮膚表面の関連する動きに関して、最も多くの有用で信頼できる情報を与えることが分かっているスポットのサブセットを選択してもよい。光検出ヘッド２８の構造および動作の詳細は、図２を参照して以下に説明される。

【0032】

システム１８内では、処理回路が、光検知ヘッド２８によって出力された信号を処理して、スピーチ出力を生成する。前述のように、処理回路は、ユーザ２２によるスピーチの発声または任意の他の音の発声がなくても、ユーザ２２の皮膚の動きを感知し、スピーチ出力を生成することが可能である。スピーチ出力は、合成されたスピーチ信号またはテキストの転記、あるいはその両方の形態をとることができる。合成されたスピーチ信号は、イヤホン２６内のスピーカを介して再生されてもよい（また、スピーチ出力に関してユーザ２２にフィードバックを与えるのに有用である）。追加的にまたは代替的に、合成されたオーディオ信号は、ネットワークを通じて、たとえばスマートフォン３６などの移動体通信デバイスとの通信リンクを介して送信され得る。

【0033】

システム１８内の処理回路の機能は、デバイス２０内で完全に実行されてもよく、または代替として、デバイス２０と、好適なアプリケーションソフトウェアを起動するスマートフォン３６内のプロセッサ等の外部プロセッサとの間で分散されてもよい。例えば、デバイス２０内の処理回路は、光学検知ヘッド２８によって出力された信号をデジタル化して符号化し、通信リンクを介して符号化された信号をスマートフォン３６に送信することができる。この通信リンクは、有線であっても、例えばスマートフォンによって提供されるＢｌｕｅｔｏｏｔｈ（登録商標）無線インターフェースを使用する無線であってもよい。スマートフォン３６内のプロセッサは、スピーチ出力を生成するために、符号化された信号を処理する。スマートフォン３６はまた、例えば、データをアップロードし、ソフトウェアアップデートをダウンロードするために、インターネット等のデータネットワークを経由してサーバ３８にアクセスしてもよい。処理回路の設計および動作の詳細は、図４を参照して以下に説明される。

【0034】

図示された実施形態において、装置２０は、例えば、耳クリップ２２に接続された押しボタン又は近接センサの形態のユーザ制御部３５も有する。ユーザ制御部３５は、ユーザ制御部３５を押すこと、またはユーザの指もしくは手をユーザ制御部に近づけることなどの、ユーザによって実行されるジェスチャを感知する。適切なユーザジェスチャに応答して、処理回路は、デバイス２０の動作状態を変更する。例えば、ユーザ２４は、このようにしてデバイス２０をアイドルモードからアクティブモードに切り替え、したがって、デバイスがスピーチ出力を感知し、生成することを開始すべきであることをシグナリングし得る。この種のスイッチングは、装置２０のバッテリ電力を節約するのに有用である。代替的に又は追加的に、例えば図５を参照して以下に説明されるように、装置２０の動作状態を制御し、不必要な電力消費を低減する際に他の手段が適用されてもよい。

【0035】

図２は、本発明の実施形態による光感知ヘッドの構成要素および機能の詳細を示す、デバイス２０の光感知ヘッド２８の概略断面図である。光学感知ヘッド２８は、エミッタモジュール４０と、レシーバモジュール４８と、任意のマイクロフォン５４とを備える。

【0036】

エミッタモジュール４０は、コヒーレント放射の入力ビームを放出する赤外レーザーダイオード４２などの光源を備える。ダマン格子または別の適切なタイプの回折光学素子（ＤＯＥ）などのビーム分割素子４４は、入力ビームを複数の出力ビーム４６に分割し、これらの出力ビームは、領域３４にわたって延びる位置のマトリックスにおいてそれぞれのスポット３２を形成する。一実施形態（図示せず）では、エミッタモジュール４０は、ユーザの顔の領域３４内の異なるそれぞれのサブ領域をカバーする出力ビーム４６のそれぞれのグループを生成する複数のレーザダイオード又は他のエミッタを含む。この場合、デバイス２０内の処理回路は、全てのエミッタを作動させることなく、エミッタのサブセットのみを選択し、作動させてもよい。例えば、デバイス２０の電力消費を低減するために、処理回路は、所望のスピーチ出力を生成するために最も有用な情報を与えることが分かっているユーザの顔の領域を照明する１つのみのエミッタ又は２つ以上のエミッタからなるサブセットを作動させてもよい。

【0037】

受信モジュール４８は、光センサ、例えばＣＭＯＳイメージセンサのアレイ５２を備え、アレイ５２上に領域３４を撮像するための対物光学系５０を有する。光検知ヘッド２８の寸法が小さく、皮膚表面に近接しているため、受信機モジュール４８は、上述のように、十分に広い視野を有し、多くのスポット３２を法線から離れた高角度で見る。皮膚表面の粗さのため、スポット３２における二次スペックルパターンは、これらの高角度でも検出され得る。

【0038】

マイクロフォン５４は、ユーザ２４によって発せられた音を感知し、ユーザ２２が、所望されるときに従来のヘッドフォンとしてデバイス２０を使用することを可能にする。追加的にまたは代替的に、マイクロフォン５４は、デバイス２０の無音スピーチ感知能力とともに使用され得る。例えば、マイクロフォン５４は、ユーザ２２が特定の音素又は単語を発している間に光感知ヘッド２８が皮膚の動きを感知する較正手順において使用されてもよい。処理回路は、次いで、光学感知ヘッドを較正するために、光学感知ヘッド２８によって出力される信号をマイクロホン５４によって感知される音と比較してもよい。この較正は、光学構成要素をユーザの頬に対して所望の位置に位置合わせするために、ユーザ２２に光学検知ヘッド２８の位置をシフトするように促すことを含むことができる。

【0039】

別の実施形態では、マイクロフォン５４によって出力されるオーディオ信号は、デバイス２０の動作状態を変更する際に使用され得る。例えば、処理回路は、マイクロフォン５４がユーザ２４による言葉の発声を検出しない場合にのみ、スピーチ出力を生成してもよい。光感知ヘッド２８とマイクロフォン５４とによって提供される光感知と音響感知との組み合わせの他の用途は、本説明を読んだ後に当業者には明らかになり、本発明の範囲内にあると考えられる。

【0040】

図３は、本発明の別の実施形態によるスピーチ感知装置６０の概略図である。この実施形態では、イヤークリップ２２は、眼鏡フレーム６２と一体化されるか、又はそうでなければ眼鏡フレーム６２に取り付けられる。鼻電極６４及び側頭電極６６は、フレーム６２に取り付けられ、ユーザの皮膚表面に接触する。電極６４および６６は、ユーザの顔面筋の活性化に関する追加情報を提供する、体表面筋電図（ｓＥＭＧ）信号を受信する。装置６０内の処理回路は、装置６０からスピーチ出力を生成する際に、電極６４および６６によって感知された電気的活動を、光感知ヘッド２８からの出力信号と共に使用する。

【0041】

追加的に又は代替的に、装置６０は、ユーザの顔の他の領域における皮膚の動きを感知するために、光感知ヘッド２８と同様の１つ以上の追加の光感知ヘッド６８を含む。これらの追加の光感知ヘッドは、光感知ヘッド２８と共に、または光感知ヘッド２８の代わりに使用されてもよい。

【0042】

図４は、本発明の一実施形態による、スピーチ感知のためのシステム１８の機能構成要素を概略的に示すブロック図である。図示されたシステムは、検知装置２０、スマートフォン３６、及びサーバ３８を含む、図１に示された構成要素の周りに構築される。あるいは、図４に示され、以下に説明される機能は、システムの構成要素間で異なるように実装され、分散されてもよい。例えば、スマートフォン３６に属する処理能力の一部又は全ては、感知デバイスにおいて実装されてもよく、又はデバイス２０の感知能力は、スマートフォン３６において実装されてもよい。

【0043】

図示された例では、上述したように、検知装置２０は、エミッタモジュール４０、レシーバモジュール４８、スピーカ２６、マイクロフォン５４、及びユーザ制御部（ＵＩ）３５を備える。完全を期すために、検知装置２０は、図４では、電極及び／又は環境センサなどの他のセンサ７１も含むものとして示されているが、前述のように、検知装置２０は、エミッタモジュール及びレシーバモジュールによって行われる非接触測定のみに基づいて動作することができる。

【0044】

感知装置２０は、エンコーダ７０およびコントローラ７５の形態の処理回路を備える。エンコーダ７０は、ハードウェア処理ロジックを備え、ハードウェア処理ロジックは、ハードワイヤードまたはプログラマブルであってもよく、および／または、デジタルシグナルプロセッサを備え、ＣＰＵは、受信機モジュール４８からの出力の特徴を抽出し、エンコードする。感知装置２０は、符号化された信号を、ブルートゥース（登録商標）インターフェースなどの通信インターフェース７２を介して、スマートフォン３６内の対応する通信インターフェース７７に送信する。バッテリ７４は、感知装置２０の構成要素に動作電力を供給する。

【0045】

コントローラ７５は、例えば、ユーザ制御３５、受信機モジュール４８、およびスマートフォン３６から（通信インターフェース７２を介して）受信された入力に基づいて、感知デバイス２０の動作状態および動作パラメータを設定する、プログラマブルマイクロコントローラを備える。この機能のいくつかの態様は、図５を参照して以下に説明される。代替実施形態では、コントローラ７５は、より強力なマイクロプロセッサおよび／または処理アレイを備え、これは、感知デバイス内でローカルに受信機モジュール４８からの出力信号の特徴を処理し、スマートフォン３６とは無関係にスピーチ出力を生成する。

【0046】

しかしながら、本実施形態では、感知装置２０からの符号化された出力信号は、スマートフォン３６のメモリ７８で受信され、スマートフォン３６のプロセッサ上で実行されるスピーチ生成アプリケーション８０によって処理される。スピーチ生成アプリケーション８０は、出力信号の特徴を、テキストおよび／またはオーディオ出力信号の形の単語のシーケンスに変換する。通信インターフェース７７は、ユーザに対して再生するために、オーディオ出力信号を検知デバイス２０のスピーカ２６に戻す。スピーチ生成アプリケーション８０からのテキストおよび／またはオーディオ出力は、スピーチおよび／またはテキスト通信アプリケーション、ならびに記録アプリケーションなどの他のアプリケーション８４にも入力される。通信アプリケーションは、例えば、データ通信インターフェース８６を介して、セルラーまたはＷｉ－Ｆｉネットワークを経由して通信する。

【0047】

エンコーダ７０およびスピーチ生成アプリケーション８０の動作は、ローカルトレーニングインターフェース８２によって制御される。例えば、インターフェース８２は、受信機モジュール４８によって出力された信号からどの時間的特徴およびスペクトル特徴を抽出すべきかをエンコーダ７０に示し得、スピーチ生成アプリケーション８０に、特徴を単語に変換するニューラルネットワークの係数を提供し得る。この例では、スピーチ生成アプリケーション８０は、推論ネットワークを実装し、感知装置２０から受信した符号化信号特徴に対応する最も高い確率を有する単語のシーケンスを見つける。ローカルトレーニングインターフェース８２は、サーバ３８から推論ネットワークの係数を受信し、サーバ３８はまた、係数を周期的に更新することができる。

【0048】

ローカル訓練命令８２を生成するために、サーバ３８は、訓練データ９０の集合からのスペックル画像および対応するグラウンドトゥルースの話された単語を含むデータリポジトリ８８を使用する。リポジトリ８８はまた、現場の検知装置２０から収集された訓練データを受信する。例えば、トレーニングデータは、ユーザが特定の音及び単語（場合によっては、無音及び発声されたスピーチの両方を含む）を発音している間に感知装置２０から収集された信号を含むことができる。一般的なトレーニングデータ９０と各検知デバイス２０のユーザから受信された個人トレーニングデータとのこの組み合わせは、サーバ３８が各ユーザのための最適な推論ネットワーク係数を導出することを可能にする。

【0049】

サーバ３８は、画像解析ツール９４を適用して、リポジトリ８８内のスペックル画像から特徴を抽出する。これらの画像特徴は、トレーニングデータとして、対応する単語の辞書１０４および言語モデル１００と共にニューラルネットワーク９６に入力され、言語モデル１００は、トレーニングデータで使用される特定の言語のスピーチ構造および構文規則の両方を定義する。ニューラルネットワーク９６は、推論ネットワーク１０２のための最適な係数を生成し、推論ネットワーク１０２は、スペックル測定の対応するシーケンスから抽出された特徴セットの入力シーケンスを、対応する音素に、最終的には単語の出力シーケンスに変換する。ネットワークアーキテクチャおよびトレーニングプロセスのさらなる詳細は、上述の仮特許出願に記載されている。サーバ３８は、推論ネットワーク１０２の係数を、スピーチ生成アプリケーション８０で使用するためにスマートフォン３６にダウンロードする。

【0050】

図５は、本発明の一実施形態による、スピーチ感知のための方法を概略的に示すフローチャートである。この方法は、便宜上および明確にするために、図１および図４に示され、上述されたシステム１８の要素を参照して説明される。あるいは、この方法の原理は、例えば、検知装置６０（図３）または移動体通信装置に組み込まれた検知装置を使用して、他のシステム構成に適用されてもよい。

【0051】

ユーザ２４が話していない限り、アイドリングステップ１１０において、感知装置２０は、バッテリ７４の電力を節約するために低電力アイドルモードで動作する。このモードでは、コントローラ７５は、受信機モジュール４８内のセンサのアレイ５２を、低いフレームレート、例えば２０フレーム／秒で駆動する。エミッタモジュール４０は、低減された出力電力で動作することもできる。受信機モジュール４８がこの低フレームレートで動作している間、コントローラ７５は、動き検出ステップ１１２において、スピーチを示す顔の動きを検出するために、アレイ５２によって出力された画像を処理する。そのような動きが検出されると、コントローラ７５は、アクティブキャプチャステップ１１４において、無音スピーチに起因して発生する二次スペックルパターンの変化の検出を可能にするために、フレームレートを、例えば１００～２００フレーム／秒の範囲に増加させるように、受信機モジュール４８、ならびに感知デバイス２０の他の構成要素に命令する。代替的に又は追加的に、コントローラ７５は、ユーザ制御３５の作動又はスマートフォン３６から受信される命令などの他の入力に応答して、フレームレートを増加させ、感知デバイス２０の他の構成要素を起動してもよい。

【0052】

受信モジュール４８によって捕捉された画像は、図１に示すように、典型的には、投影されたレーザスポット３２のマトリックスを含む。エンコーダ７０は、スポット検出１１６において、画像内のスポットの位置を検出する。エンコーダは、すべてのスポットから特徴を抽出することができるが、電力および処理リソースを節約するために、エンコーダがスポットのサブセットを選択することが望ましい。例えば、ローカルトレーニングインターフェース８２は、スポットのどのサブセットがユーザのスピーチに関して最大量の情報を含むかを示し得、エンコーダ７０は、このサブセット内のスポットを選択し得る。エンコーダ７０は、クロッピングステップ１１８において、各画像から小さなウィンドウをクロッピングし、各ウィンドウは選択されたスポットのうちの１つを含む。

【0053】

エンコーダ７０は、特徴抽出ステップ１２０において、選択された各スポットからスペックル運動の特徴を抽出する。例えば、エンコーダ７０は、対応するウィンドウ内のピクセルの平均強度に基づいて、各スペックル内の総エネルギーを推定することができ、各スペックルのエネルギーの経時的な変化を測定することができる。追加的に又は代替的に、エンコーダ７０は、スポットの選択されたサブセット内のスペックルの他の時間的特徴及び／又はスペクトル特徴を抽出することができる。エンコーダ７０は、これらの特徴を（スマートフォン３６上で実行される）スピーチ生成アプリケーション８０に伝達し、スピーチ生成アプリケーション８０は、特徴入力ステップ１２２において、サーバ３８からダウンロードされた推論ネットワーク１０２に特徴値のベクトルを入力する。

【0054】

時間の経過とともに推論ネットワークに入力される特徴ベクトルのシーケンスに基づいて、スピーチ生成アプリケーション８０は、スピーチ出力ステップ１２４において、文に連結される単語のストリームを出力する。前述のように、スピーチ出力は、スピーカ２６を介して再生するために、オーディオ信号を合成するために使用される。スマートフォン３６上で実行される他のアプリケーション８４は、後処理ステップ１２６において、スピーチおよび／またはテキストデータ信号を後処理して、対応するテキストを記録し、および／またはネットワークを介してスピーチまたはスピーチを送信する。

【0055】

上述の実施形態は、例として引用されており、本発明は、特に示され、上述されたものに限定されないことが理解されるであろう。むしろ、本発明の範囲は、上述の様々な特徴の組み合わせ及びサブコンビネーションの両方、並びに、前述の説明を読めば当業者には思い浮かぶであろう、先行技術に開示されていないそれらの変形及び修正を含む。

【図1】

【図2】

【図3】

【図4】

【図5】

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版