(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-09-03
(54)【発明の名称】検出された無音スピーチの解読
(51)【国際特許分類】
G10L 13/08 20130101AFI20240827BHJP
G10L 15/24 20130101ALI20240827BHJP
G10L 25/30 20130101ALI20240827BHJP
A61B 5/11 20060101ALN20240827BHJP
【FI】
G10L13/08 124
G10L15/24 Z
G10L25/30
A61B5/11
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024504994
(86)(22)【出願日】2022-07-12
(85)【翻訳文提出日】2024-01-26
(86)【国際出願番号】 IB2022056418
(87)【国際公開番号】W WO2023012546
(87)【国際公開日】2023-02-09
(32)【優先日】2021-08-04
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】PCT/IB2022/054527
(32)【優先日】2022-05-16
(33)【優先権主張国・地域又は機関】IB
(81)【指定国・地域】
(71)【出願人】
【識別番号】524030248
【氏名又は名称】キュー(キュー)リミテッド
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100229448
【氏名又は名称】中槇 利明
(72)【発明者】
【氏名】マイゼルス,アビアド
(72)【発明者】
【氏名】バーリヤ,アビ
(72)【発明者】
【氏名】コーンブラウ,ギオラ
(72)【発明者】
【氏名】ウェクスラー,ヨナタン
(72)【発明者】
【氏名】ガジット,ドロン
【テーマコード(参考)】
4C038
【Fターム(参考)】
4C038VA04
4C038VB03
4C038VC02
(57)【要約】
【要約】
スピーチを生成する方法は、1人以上の参照の人間の被験者の顔の皮膚の1つ以上のターゲット領域の感知された動きから抽出された特徴の参照セットを、被験者によって発音された単語に応答して、1つ以上のターゲット領域に接触することなくアップロードすることを含む。被験者によって静かに、かつ1つまたは複数のターゲット領域に接触することなく発音された言葉に応答して、被験者の顔の皮膚のターゲット領域のうちの少なくとも1つの感知された動きから、特徴のテストセットが抽出される。抽出された特徴のテストセットは、特徴の参照セットと比較され、その比較に基づいて、テスト被験者の発音された単語を含むスピーチ出力が生成される。
【特許請求の範囲】
【請求項1】
スピーチを生成する方法であって、前記方法は、
1人以上の参照被験者の顔の皮膚の1つ以上のターゲット領域の感知された動きから抽出された特徴の参照セットを、前記参照被験者によって発音された単語に応答して、前記1つ以上のターゲット領域に接触することなくアップロードすることと、
テスト被験者の顔の皮膚の前記ターゲット領域のうちの少なくとも1つの前記感知された動きから、前記テスト被験者によって無音で発音された単語に応答して、前記1つ以上のターゲット領域に接触することなく、特徴のテストセットを抽出することと、
前記抽出された特徴のテストセットを前記特徴の参照セットと比較し、前記比較に基づいて、前記テスト被験者によって前記発音された単語を含むスピーチ出力を生成することと、を含む、方法。
【請求項2】
前記特徴のテストセットを抽出することは、前記テスト被験者による前記単語の発声なしに前記特徴のテストセットを抽出することを含む、請求項1に記載の方法。
【請求項3】
前記テスト被験者と前記参照被験者の少なくとも1人は同じである、請求項1に記載の方法。
【請求項4】
前記特徴のテストセットを抽出することは、前記テスト被験者の前記皮膚の前記1つ以上のターゲット領域をコヒーレント光で照射することと、前記1つ以上のターゲット領域からの前記コヒーレント光の反射に起因する感知された二次コヒーレント光パターンの変化を検出することと、を含む、請求項1に記載の方法。
【請求項5】
前記アップロードされた特徴の参照セットおよび前記抽出された特徴のテストセットはそれぞれ、前記皮膚の前記1つ以上のターゲット領域内の位置のセット内のそれぞれの位置に対して、前記位置に対応する前記感知された二次コヒーレント光パターンのエネルギーメトリックのそれぞれの時間シーケンスから計算されたそれぞれの波形を含む、請求項1に記載の方法。
【請求項6】
前記抽出された特徴のテストセットを比較することは、前記スピーチ出力を生成するために機械学習(ML)アルゴリズムをトレーニングし、適用することを含む、請求項1に記載の方法。
【請求項7】
前記スピーチ出力を生成することは、前記スピーチ出力に対応する音声信号を合成することを含む、請求項6に記載の方法。
【請求項8】
前記スピーチ出力を使用して、有声音声信号から背景音声信号を除去することをさらに含む、請求項6に記載の方法。
【請求項9】
前記スピーチ出力を生成することは、テキストを生成することを含む、請求項6に記載の方法。
【請求項10】
前記スピーチ出力を生成することは、少なくとも所定の信頼水準で複数の候補単語を所与の時間間隔で区別することに失敗したときに、前記候補単語のうちの2つ以上の音声を混合することによって前記所与の時間間隔で所与のスピーチ出力を生成することを含む、請求項1~9のいずれか1項に記載の方法。
【請求項11】
前記抽出された特徴のテストセットを前記特徴の参照セットと比較することは、訓練された人工ニューラルネットワーク(ANN)を使用して実施され、前記ANNは、参照被験者の群から収集されたデータセットに対して訓練されたものである、請求項1~9のいずれか1項に記載の方法。
【請求項12】
テスト被験者から収集されたデータセットを使用して、ANNを再トレーニングすることをさらに含む、請求項11に記載の方法。
【請求項13】
テスト被験者の顔の皮膚の前記ターゲット領域のうちの少なくとも1つの前記感知された動きを使用して、前記テスト被験者によるスピーチの意図を示すことをさらに含む、請求項1~9のいずれか1項に記載の方法。
【請求項14】
前記感知された動きは、毎秒200サンプル未満の取得レートで取得される、請求項1~9のいずれか1項に記載の方法。
【請求項15】
前記感知された動きは、毎秒60~140サンプルの取得レートで取得される、請求項14に記載の方法。
【請求項16】
スピーチを合成するための方法であって、前記方法は、
被験者によって意図されたスピーチを示す前記被験者からの入力信号を受信することと、
前記意図されたスピーチに対応する単語を抽出するために前記入力信号を解析することであって、前記意図されたスピーチの少なくとも一部の時間間隔において、複数の候補音素が、前記候補音素の各々が所与の時間間隔において前記意図されたスピーチに対応するそれぞれの確率でいっしょに抽出される、解析することと、
前記候補音素に応答して可聴スピーチを合成することであって、前記時間間隔の前記少なくとも1部において、前記可聴スピーチは、前記複数の候補音素を前記それぞれの確率で応答して混合することによって合成された、合成することと、を含む、方法。
【請求項17】
前記入力信号が、被験者によって発音されることに応答して、1つ以上のターゲット領域に触れることなく、前記被験者の顔の皮膚の前記1つ以上のターゲット領域の感知された動きを含む、請求項16に記載の方法。
【請求項18】
前記入力信号は、前記被験者の前記皮膚の前記1つ以上のターゲット領域にコヒーレント光を照射し、前記1つ以上のターゲット領域からの前記コヒーレント光の反射に起因して感知された二次コヒーレント光パターン、1つ以上の光学的唇読み取り信号、EMG信号、EEG信号、および雑音のある音声信号の変化を検出することによって受信される少なくとも1つの信号を含む、請求項17に記載の方法。
【請求項19】
スピーチを生成するシステムであって、前記システムは、メモリとプロセッサを含み、
前記メモリは、1人以上の参照被験者の顔の皮膚の1つ以上のターゲット領域の感知された動きから抽出された特徴の参照セットを、前記参照被験者によって発音された単語に応答して、前記1つ以上のターゲット領域に接触することなく記憶するように構成され、
前記プロセッサは、
前記メモリから前記特徴の参照セットをアップロードし、
テスト被験者の顔の皮膚の前記ターゲット領域のうちの少なくとも1つの前記感知された動きから、前記テスト被験者によって無音で発音された単語に応答して、前記1つ以上のターゲット領域に接触することなく、特徴のテストセットを抽出し、
前記抽出された特徴のテストセットを前記特徴の参照セットと比較し、前記比較に基づいて、前記テスト被験者によって前記発音された単語を含むスピーチ出力を生成するように構成されている、システム。
【請求項20】
前記プロセッサは、前記テスト被験者による前記単語の発声なしに前記特徴のテストセットを抽出することによって、前記特徴のテストセットを抽出するように構成されている、請求項19に記載のシステム。
【請求項21】
前記テスト被験者と前記参照被験者の少なくとも1人は同じである、請求項19に記載のシステム。
【請求項22】
前記特徴のテストセットを抽出することは、前記テスト被験者の前記皮膚の前記1つ以上のターゲット領域をコヒーレント光で照射するためにコヒーレント光源を使用することと、前記1つ以上のターゲット領域からの前記コヒーレント光の反射に起因する感知された二次コヒーレント光パターンの変化を検出するために光学感知ヘッドを使用することと、を含む、請求項19に記載のシステム。
【請求項23】
前記アップロードされた特徴の参照セットおよび前記抽出された特徴のテストセットはそれぞれ、前記皮膚の前記1つ以上のターゲット領域内の位置のセット内のそれぞれの位置に対して、前記位置に対応する前記感知された二次コヒーレント光パターンのエネルギーメトリックのそれぞれの時間シーケンスから計算されたそれぞれの波形を含む、請求項19に記載のシステム。
【請求項24】
前記プロセッサは、前記スピーチ出力を生成するために機械学習(ML)アルゴリズムをトレーニングし、適用することによって前記抽出された特徴のテストセットを比較するように構成されている、請求項19に記載のシステム。
【請求項25】
前記プロセッサは、前記スピーチ出力に対応する音声信号を合成することによって、前記スピーチ出力を生成するように構成されている、請求項24に記載のシステム。
【請求項26】
前記プロセッサは、前記スピーチ出力を使用して、有声音声信号から背景音声信号を除去するようにさらに構成されている、請求項24に記載のシステム。
【請求項27】
前記プロセッサは、テキストを生成することによって、前記スピーチ出力を生成するように構成されている、請求項24に記載のシステム。
【請求項28】
前記プロセッサは、少なくとも所定の信頼水準で複数の候補単語を所与の時間間隔で区別することに失敗したときに、前記候補単語のうちの2つ以上の音声を混合することによって前記所与の時間間隔で所与のスピーチ出力を生成することによって、前記スピーチ出力を生成するように構成されている、請求項19~27のいずれか1項に記載のシステム。
【請求項29】
前記プロセッサは、訓練された人工ニューラルネットワーク(ANN)を使用して、前記抽出された特徴のテストセットを前記特徴の参照セットと比較するするように構成されており、ここで、前記ANNは、参照被験者の群から収集されたデータセットに対して訓練されたものである、請求項19~27のいずれか1項に記載のシステム。
【請求項30】
前記プロセッサは、テスト被験者から収集されたデータセットを使用して、ANNを再トレーニングするようにさらに構成されている、請求項29に記載のシステム。
【請求項31】
前記プロセッサは、テスト被験者の顔の皮膚の前記ターゲット領域のうちの少なくとも1つの前記感知された動きを使用して、前記テスト被験者によるスピーチの意図を示すようにさらに構成されている、請求項19~27のいずれか1項に記載のシステム。
【請求項32】
前記感知された動きは、毎秒200サンプル未満の取得レートで取得される、請求項19~27のいずれか1項に記載のシステム。
【請求項33】
前記感知された動きは、毎秒60~140サンプルの取得レートで取得される、請求項32に記載のシステム。
【請求項34】
前記感知された動きは、ワイヤレスヘッドフォンのステムの内部に取り付けられた光感知ヘッドおよび処理回路によって取得される、請求項19~27のいずれか1項に記載のシステム。
【請求項35】
スピーチを合成するシステムであって、前記システムは、センサとプロセッサを含み、
前記センサは、被験者によって意図されたスピーチを示す前記被験者からの入力信号を受信するようにさらに構成されており、
前記プロセッサは、
前記意図されたスピーチに対応する単語を抽出するために前記入力信号を解析することであって、前記意図されたスピーチの少なくとも一部の時間間隔において、複数の候補音素が、前記候補音素の各々が所与の時間間隔において前記意図されたスピーチに対応するそれぞれの確率でいっしょに抽出される、解析することと、
前記候補音素に応答して可聴スピーチを合成することであって、前記時間間隔の前記少なくとも1部において、前記可聴スピーチは、前記複数の候補音素を前記それぞれの確率で応答して混合することによって合成された、合成することと、をするように構成されている、システム。
【請求項36】
前記入力信号が、被験者によって発音されることに応答して、1つ以上のターゲット領域に触れることなく、前記被験者の顔の皮膚の前記1つ以上のターゲット領域の感知された動きを含む、請求項35に記載のシステム。
【請求項37】
前記入力信号は、前記被験者の前記皮膚の前記1つ以上のターゲット領域にコヒーレント光を照射し、前記1つ以上のターゲット領域からの前記コヒーレント光の反射に起因して感知された二次コヒーレント光パターン、1つ以上の光学的唇読み取り信号、EMG信号、EEG信号、および雑音のある音声信号の変化を検出することによって受信される少なくとも1つの信号を含む、請求項36に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は2021年8月4日に出願された米国仮特許出願第63/229,091号の優先権を主張し、2022年5月16日に出願されたPCT特許出願PCT/IB2022/054527の一部継続出願である。これらの関連出願の両方の開示は、参照により本明細書に組み込まれる。
【0002】
本発明は、一般に、生理学的感知に関し、特に、人間の無音スピーチを感知するためのアルゴリズム、方法、およびシステムに関する。
【背景技術】
【0003】
発話のプロセスは、胸部、頸部、および顔面の神経および筋肉を活性化する。したがって、例えば、無音スピーチ感知の目的で筋肉インパルスを捕捉するために、筋電図記録法(EMG)が使用されてきた。
【発明の概要】
【0004】
以下に説明する本発明の実施形態は、スピーチを生成する方法であって、1人以上の参照人間被験者の顔の皮膚の1つ以上のターゲット領域の感知された動きから抽出された特徴の参照セットを、被験者によって発音された単語に応答して、1つ以上のターゲット領域に接触することなくアップロードすることを含む方法を提供する。被験者によって静かに、かつ1つまたは複数のターゲット領域に接触することなく発音された言葉に応答して、被験者の顔の皮膚のターゲット領域のうちの少なくとも1つの感知された動きから、特徴のテストセットが抽出される。抽出された特徴のテストセットは、特徴の参照セットと比較され、その比較に基づいて、テスト被験者の発音された単語を含むスピーチ出力が生成される。
【0005】
いくつかの実施形態では、テスト特徴を抽出することは、テスト被験者による単語の発声なしにテスト特徴を抽出することを含む。
【0006】
いくつかの実施形態では、被験者と参照対象の少なくとも1人は同じである。
【0007】
一実施形態では、特徴のテストセットを抽出することは、被験者の皮膚の1つ以上のターゲット領域をコヒーレント光で照射することと、1つ以上のターゲット領域からのコヒーレント光の反射に起因する感知された二次コヒーレント光パターンの変化を検出することとを含む。
【0008】
別の実施形態では、アップロードされた特徴の参照セットおよび抽出された特徴のテストセットはそれぞれ、皮膚の1つ以上のターゲット領域内の位置のセット内のそれぞれの位置に対して、その位置に対応する感知された二次コヒーレント光パターンのエネルギーメトリックのそれぞれの時間シーケンスから計算されたそれぞれの波形を含む。
【0009】
いくつかの実施形態では、抽出された特徴を比較することは、スピーチ出力を生成するために機械学習(ML)アルゴリズムをトレーニングし、適用することを含む。
【0010】
いくつかの実施形態では、スピーチ出力を生成することは、スピーチ出力に対応する音声信号を合成することを含む。
【0011】
いくつかの実施形態では、スピーチ出力を使用して、背景音声信号が有声音声信号から除去される。
【0012】
一実施形態では、スピーチ出力を生成することは、テキストを生成することを含む。
【0013】
別の実施形態では、スピーチ出力を生成することは、少なくとも所定の信頼水準で複数の候補単語を所与の時間間隔で区別することに失敗したときに、候補単語のうちの2つ以上の音声を混合することによって所与の時間間隔の間のスピーチ出力を生成することを含む。
【0014】
いくつかの実施形態では、抽出された特徴のテストセットを特徴の参照セットと比較することは、訓練された人工ニューラルネットワーク(ANN)を使用して実施され、ANNは、参照人間対象の群から収集されたデータセットに対して訓練された。
【0015】
いくつかの実施形態では、方法は、被験者から収集されたデータセットを使用してANNを再トレーニングすることをさらに含む。
【0016】
いくつかの実施形態では、方法は、被験者から収集されたデータセットを使用してANNを再トレーニングすることをさらに含む。
【0017】
いくつかの実施形態では、方法は、被験者の顔の皮膚のターゲット領域のうちの少なくとも1つの感知された動きを使用して、被験者による発話の意図を示すことをさらに含む。
【0018】
一実施形態では、感知された動きは、毎秒200サンプル(例えば、フレーム)よりも低い取得レートを使用して取得される。別の実施形態では、感知された動きは、毎秒60~140サンプルの取得レートを使用して取得される。
【0019】
一般に、取得サンプルレートは、サンプリングされる信号のタイプ(例えば、コヒーレント光、マイクロ波、超音波など)にかかわらず、毎秒200サンプルよりも低い。
【0020】
本発明の別の実施形態によれば、さらに、スピーチを合成するための方法であって、人間の対象による意図されたスピーチを示す前記人間の対象からの入力信号を受信することを含む、方法が提供される。意図されたスピーチに対応する単語を抽出するために信号が分析され、意図されたスピーチの少なくともいくつかの時間間隔において、複数の候補音素が、候補音素の各々が所与の時間間隔において意図されたスピーチに対応するそれぞれの確率とともに抽出される。可聴スピーチは、抽出された音素に応答して合成され、その結果、時間間隔の少なくとも一部において、可聴スピーチは、それぞれの確率に応答して複数の候補音素を混合することによって合成される。
【0021】
いくつかの実施形態では、入力信号は、被験者によって発音された音素に応答して、1つまたは複数のターゲット領域に接触することなく、人間被験者の顔の皮膚の1つまたは複数のターゲット領域の感知された動きを含む。
【0022】
いくつかの実施形態では、入力信号は、被験者の皮膚の1つまたは複数のターゲット領域にコヒーレント光を照射することによって受信され、1つまたは複数のターゲット領域からのコヒーレント光の反射に起因して感知された二次コヒーレント光パターンの変化が検出される信号、光学的唇読み取り信号、EMG信号、EEG信号、および雑音のあるスピーチ信号のうちの少なくとも1つを含む。
【0023】
本発明の別の実施形態によれば、メモリとプロセッサとを含む、スピーチを生成するためのシステムがさらに提供される。メモリは、1人以上の参照の人間の被験者の顔の皮膚の1つ以上のターゲット領域の感知された動きから、被験者によって発音された言葉に応答して、1つ以上のターゲット領域に接触することなく抽出された特徴の参照セットを記憶するように構成される。プロセッサは、(i)メモリから特徴の参照セットをアップロードし、(ii)被験者によって静かに、かつ1つまたは複数のターゲット領域に接触することなく発音された単語に応答して、被験者の顔の皮膚のターゲット領域のうちの少なくとも1つの感知された動きから特徴のテストセットを抽出し、(iii)抽出された特徴のテストセットを特徴の参照セットと比較し、比較に基づいて、被験者の発音された単語を含むスピーチ出力を生成するように構成される。
【0024】
いくつかの実施形態では、感知された動きは、ワイヤレスヘッドフォンのステムの内部に取り付けられた光感知ヘッドおよび処理回路によって取得される。
【0025】
本発明のさらに別の実施形態によれば、センサとプロセッサとを含む、スピーチを合成するためのシステムがさらに提供される。センサは、人間の対象による意図された発話を示す人間の対象からの入力信号を受信するように構成される。プロセッサは、(a)意図されたスピーチの少なくともいくつかの時間間隔において、複数の候補音素が、候補音素の各々が所与の時間間隔において意図されたスピーチに対応するそれぞれの確率とともにプロセッサによって抽出されるように、意図されたスピーチに対応する単語を抽出するために信号を分析し、(b)時間間隔の少なくともいくつかにおいて、可聴スピーチが、それぞれの確率に応答して複数の候補音素を混合することによってプロセッサによって合成されるように、抽出された音素に応答して可聴スピーチを合成するように構成される。
【図面の簡単な説明】
【0026】
本発明は、図面と共に、以下の実施形態の詳細な説明からより完全に理解されるであろう。
【0027】
【
図1】本発明の一実施形態による、無音スピーチスピーチ感知のためのシステムの概略図である。
【
図2】本発明の別の実施形態による無音スピーチスピーチ感知装置の概略図である。
【
図3】本発明の実施形態に係る、無音スピーチスピーチ感知のためのシステムの機能的構成要素を概略的に示すブロック図である。
【
図4】本発明の実施形態に従って、無音スピーチスピーチ感知のための方法を概略的に示すフローチャートである。
【
図5】本発明の実施形態に従って、無音スピーチ解読を実行するために人工ニューラルネットワーク(ANN)を訓練するための方法を概略的に示すフローチャートである。
【
図6】本発明の実施形態に従って、無音スピーチ解読を実行するために推論において訓練されたANNを使用する方法を概略的に示すフローチャートである。
【
図7】本発明の実施形態に従って、スピーチ解読の準備において無音スピーチ感知データを前処理する方法を概略的に示すフローチャートである。
【
図8】本発明の一実施形態による、曖昧な無音スピーチ入力に対して曖昧なスピーチ出力を生成する方法を概略的に示すフローチャートである。
【発明を実施するための形態】
【0028】
公共空間における携帯電話の広範な使用は、音声品質の問題を引き起こす。例えば、電話での会話の当事者の一方が騒々しい場所にいるとき、他方の当事者は、背景雑音のために、彼らが何を聞いているかを理解することが困難である場合がある。さらに、公共空間での使用は、会話が通行人によって容易に聞かれるので、プライバシーの問題を引き起こすことが多い。
【0029】
人間の脳および神経活動は、多くの人間のサブシステムを含む複雑な現象である。これらのサブシステムの1つは、人間が他の人と通信するために使用する顔領域である。それは、いくつかのレベルの意味を伝える先天的な活動である。中核において、人間は言語で通信する。概念の形成は、単語の形成、次いでそれらの言語依存音に密接に関連する。人間は、誕生から音を明瞭に発音するように訓練する。完全な言語能力が進化する前でさえ、赤ん坊は、自分自身についてのより深い情報を伝えるために、マイクロ表現を含む顔の表現を使用する。人との組み合わされた対話は、信頼である別の値を提供する。誰かの信頼は、誰と話しているかを知るために、その人の外見から始まるが、その人の反応は、その人が無能力ではないというさらなる信頼を提供することができる。
【0030】
発声の正常なプロセスにおいて、運動ニューロンは、肺からの空気流の推進に備えて、顔、喉頭、および口の筋肉群を活性化し、これらの筋肉は、発話中に動き続けて、単語および文を作成する。この空気流がないと、口から音は発せられない。無音スピーチは、肺からの空気流が存在しないときに発生し、一方、顔、喉頭、および口の筋肉は、所望の音を明瞭に表現し続ける。したがって、無音のスピーチは、例えば、ある人が言葉を発音するが、他の人に聞かれたくないときに、意図的であり得る。この発音は、口を開けずに話された言葉を概念化する場合でさえも起こり得る。その結果、我々の顔面筋が活性化され、皮膚表面の微細な動きが生じる。本開示は、神経活動を感知するためのシステムを構築し、検出は顔領域に焦点を当て、顔領域の筋肉活性化の残留の読み出しを可能にする。これらの筋肉は、音、顔の表情(微細な表情を含む)、呼吸、および人間が人と人との間のコミュニケーションのために使用する他の徴候の生成などの、人と人との間のコミュニケーションに関与する。
【0031】
本明細書に記載される本発明の実施形態は、ユーザが、実際に単語を発声することなく、または全く音を発することなく、単語および文を発音することを可能にする。本発明者は、これらの動きを適切に感知し、復号することによって、ユーザによって発音された実際の単語のシーケンスを確実に再構成することが可能であることを見出した。
【0032】
いくつかの実施形態では、ウェアラブルデバイスおよび専用ソフトウェアツールを備えるシステムは、発声を伴うまたは伴わない対象によって発音された単語に応答して生じる、対象の顔の皮膚ならびに皮下神経および筋肉の微細な動きから感知されたデータを解読し、発音された単語を含む発話出力を生成する際に解読された単語を使用する。皮膚の微細な動きからデータを感知する際に使用される装置及び方法の詳細は、上述の国際特許出願PCT/IB2022/054527に記載されている。
【0033】
開示された解読技術は、ユーザが、他の当事者に実質的に知覚できず、また周囲の雑音にも反応しないように、他の当事者と通信すること、またはユーザ自身の考えを静かに記録することを可能にする。
【0034】
いくつかの実施形態は、クリップ式ヘッドホンまたは眼鏡などの一般的な消費者ウェアラブルアイテムの前述の形態を有する感知デバイスを使用する。これらの実施形態では、光感知ヘッドは、ユーザの耳の中または上に嵌合するブラケットによって、ユーザの顔に近接した場所に保持される。光学感知ヘッドは、例えば、頬などの顔の領域にコヒーレント光を向け、顔からのコヒーレント光の反射によって生じるコヒーレント光パターンの変化を感知することによって、顔から反射されたコヒーレント光を感知する。装置内の処理回路は、反射光に起因して光検知ヘッドによって出力された信号を処理して、対応するスピーチ出力を生成する。一実施形態では、光感知ヘッドおよび処理回路は、AirPodsなどのワイヤレスヘッドフォンのステムの内部に取り付けられる。その実施形態では、感知は、感知された皮膚位置からわずかに離れており、センサの視野角は、典型的には狭い。
【0035】
代替的に、開示される解読技法は、コヒーレント光ソースおよびセンサを含む無音スピーチ感知モジュールとともに使用され得、スマートフォンなどの移動体通信デバイスに統合され得る。この統合された感知モジュールは、ユーザが移動体通信デバイスをユーザの顔に近接した適切な位置に保持したときに、無音スピーチを感知する。
【0036】
一例では、無音スピーチの解読は、トレーニングされた人工ニューラルネットワーク(ANN)などの機械学習(ML)アルゴリズムを使用して実行される。この例では、画像処理ソフトウェアは、取得された信号を前処理された信号に変換し、訓練されたANNは、前処理された信号に含まれるスピーチワードを指定する。最終的に単語を出力する分類NN、文(単語列)を出力するシーケンス・トゥ・シーケンスNNなど、異なる種類のANNを用いてもよい。ANNをトレーニングするために、少なくとも数千の例が、典型的には、上述のように、集められ、増補されるべきである。この「グローバル」トレーニングは、大きなグループの人々(例えば、参照人間被験者のコホート)に依存し、後に、特定のユーザのデバイスがその解読ソフトウェアの微調整を実行することを可能にする。このようにして、デバイスを装着してアプリケーションをオンにしてから数分以内に、システム(例えば、携帯電話及びウェアラブルデバイス)は、解読の準備ができる。
【0037】
多くの場合、スピーチ認識アルゴリズムは、以下に説明するように、いくつかの曖昧な結果を出力する。人間-人間のリアルタイム通信の埋め込みの場合、曖昧さを軽減するためにテキストをスピーチに合成する前に文が完了するのを待つことは、許容できない可能性がある著しい遅延をもたらす。この問題を解決するために、開示されたスピーチ合成装置は、会話の自然な流れを中断しないように、曖昧な入力に対して曖昧な出力を迅速に生成するように構成される。曖昧さ自体は、後の段階でさらに解決され得る。いくつかの例では、(i)人間の対象による意図されたスピーチを示す入力信号を人間の対象から受信するステップと、(ii)意図されたスピーチに対応する単語を抽出するために信号を分析するステップであって、意図されたスピーチの少なくともいくつかの時間間隔において、複数の候補音素が、候補単語の各々が所与の時間間隔において意図されたスピーチに対応するそれぞれの確率とともに抽出される、ステップと、(iii)抽出された音素に応答して可聴スピーチを合成するステップであって、時間間隔の少なくともいくつかにおいて、それぞれの確率に応答して複数の候補音素を混合することによって可聴スピーチが合成される、ステップとを実行することによって、スピーチを合成するためにプロセッサが使用される。
【0038】
以下に記載されるように、工程(i)を実施するために、プロセッサは、画像処理ソフトウェアを実行し得、そして工程(ii)を実施するために、プロセッサは、ニューラルネットワークを実行し得る。ステップ(iii)を実行するために、プロセッサはスピーチ合成器を使用してもよい。
【0039】
開示された技術は、被験者の顔の皮膚のターゲット領域の少なくとも1つの感知された動きを使用して、神経活動の量を測定し、そのような発話が発生する前であっても、被験者による発話の意図を示すために使用されることができる。最後に、別の実施形態では、開示される技術は、例えば、スピーチからクリーニングする(例えば、背景信号を除去する)ことによって、騒々しい公共空間において携帯電話によって行われる会話のスピーチ品質を改善する。
【0040】
システム記述
図1は、本発明の実施形態による、無音スピーチスピーチ感知のためのシステム18の概略図である。システム18は、耳クリップ22の形態のブラケットが装置のユーザ24の耳に嵌められる感知装置20に基づく。イヤークリップ22に取り付けられたイヤホン26は、ユーザの耳にフィットする。光学感知ヘッド28は、短いアーム30によってイヤークリップ22(例えば、AirPod)に接続され、したがって、ユーザの顔に近接した位置に保持される。図示された実施形態では、デバイス20は、クリップオンヘッドホンの形態および外観を有し、光感知ヘッドがマイクロホンの代わりに(またはそれに加えて)ある。
【0041】
装置20に含まれるインタフェース及び処理回路のような装置20の詳細は、上述の国際特許出願PCT/IB2022/054527に記載されている。
【0042】
光感知ヘッド28は、1つ以上のコヒーレント光ビームをユーザ24の顔の異なるそれぞれの位置に向け、それにより、顔の領域34(特にユーザの頬)にわたって延びるスポット32のアレイを生成する。本実施例において、光感知ヘッド28は、ユーザの皮膚に全く接触せず、むしろ皮膚表面から特定の距離に保持される。典型的には、この距離は少なくとも5mmであり、それはさらに大きくてもよく、例えば、皮膚表面から少なくとも1cm、またはさらに2cm以上であってもよい。顔の筋肉の異なる部分の動きを感知することを可能にするために、スポット32によってカバーされ、光感知ヘッド28によって感知される領域34は、典型的には、少なくとも1cm2の広がりを有し、より大きな領域、例えば、少なくとも2cm2又は4cm2よりも大きいことさえも有利であり得る。
【0043】
光学感知ヘッド28は、面のスポット32から反射されたコヒーレント光を感知し、検出された光に応答して信号を出力する。具体的には、光学検知ヘッド28は、その視野内のスポット32のそれぞれからのコヒーレント光の反射によって生じる二次コヒーレント光パターンを検知する。十分に大きな領域34をカバーするために、この視野は、典型的には、少なくとも60°、場合によっては70°、さらには90°以上の角度幅を有する広い角度範囲を有する。この視野内で、デバイス20は、スポット32の全ての、またはスポット32のあるサブセットのみの二次コヒーレント光パターンによる信号を感知および処理し得る。例えば、デバイス20は、ユーザ24の皮膚表面の関連する動きに関して、最も多くの有用で信頼できる情報を与えることが分かっているスポットのサブセットを選択してもよい。
【0044】
システム18内では、処理回路が、光検知ヘッド28によって出力された信号を処理して、スピーチ出力を生成する。前述のように、処理回路は、ユーザ22によるスピーチの発声または任意の他の音の発声がなくても、ユーザ22の皮膚の動きを感知し、スピーチ出力を生成することが可能である。スピーチ出力は、合成されたスピーチ信号またはテキストの転記、あるいはその両方の形態をとることができる。その点に関して、無音スピーチ検出は、例えば、無音スピーチを電子メールドラフトに直接転写するなど、神経からテキストへのアプリケーションとして容易に実施することができる。合成されたスピーチ信号は、イヤホン26内のスピーカを介して再生されてもよい(また、スピーチ出力に関してユーザ22にフィードバックを与えるのに有用である)。追加的にまたは代替的に、合成された音声信号は、ネットワークを通じて、たとえばスマートフォン36などの移動体通信デバイスとの通信リンクを介して送信され得る。典型的には、合成は、有声発話が起こるであろう時間とは異なる時間に行われる。このタイミングは、より短くても長くてもよく、プロセッサは、タイミング差を見つけることができる。この時間差を利用して、例えば、合成スピーチの準備が有声発話よりも早くできた場合に、合成スピーチを他の言語に翻訳し、有声発話のタイミングで翻訳発話を出力することができる。
【0045】
システム18内の処理回路の機能は、デバイス20内で完全に実行されてもよく、または代替として、デバイス20と、好適なアプリケーションソフトウェアを起動するスマートフォン36内のプロセッサ等の外部プロセッサとの間で分散されてもよい。例えば、デバイス20内の処理回路は、光学検知ヘッド28によって出力された信号をデジタル化して符号化し、通信リンクを介して符号化された信号をスマートフォン36に送信することができる。この通信リンクは、有線であっても、例えばスマートフォンによって提供されるBluetooth(登録商標)無線インターフェースを使用する無線であってもよい。スマートフォン36内のプロセッサは、スピーチ出力を生成するために、符号化された信号を処理する。スマートフォン36はまた、例えば、データをアップロードし、ソフトウェアアップデートをダウンロードするために、インターネット等のデータネットワークを経由してサーバ38にアクセスしてもよい。処理回路の設計および動作の詳細は、
図3を参照して以下に説明される。
【0046】
図示された実施形態において、装置20は、例えば、耳クリップ22に接続された押しボタン又は近接センサの形態のユーザ制御部35も有する。ユーザ制御部35は、ユーザ制御部35を押すこと、またはユーザの指もしくは手をユーザ制御部に近づけることなどの、ユーザによって実行されるジェスチャを感知する。適切なユーザジェスチャに応答して、処理回路は、デバイス20の動作状態を変更する。例えば、ユーザ24は、このようにしてデバイス20をアイドルモードからアクティブモードに切り替え、したがって、デバイスがスピーチ出力を感知し、生成することを開始すべきであることをシグナリングし得る。この種のスイッチングは、装置20のバッテリ電力を節約するのに有用である。代替的に又は追加的に、例えば
図5を参照して以下に説明されるように、装置20の動作状態を制御し、不必要な電力消費を低減する際に他の手段が適用されてもよい。さらに、デバイス20のプロセッサは、検知された入力(たとえば、まばたきもしくは口をわずかに開くこと、または舌の動きのような事前設定された一連の動き)などの異なるトリガタイプに基づいて、アイドルモードから高電力消費モードに自動的に切り替わることができる。また、ユーザは、例えば、デバイス上のタッチボタンを使用して、または携帯電話内のアプリケーションから、デバイスをアクティブ化してもよい。
【0047】
任意の実施形態では、ユーザ24によって発せられた音を感知するために、マイクロフォン(図示せず)が含まれてもよく、ユーザ22が、所望されるときに従来のヘッドホンとしてデバイス20を使用することを可能にする。追加的にまたは代替的に、マイクロフォンは、デバイス20の無音スピーチ感知能力とともに使用され得る。例えば、マイクロフォンは、ユーザ22が特定の音素又は単語を発している間に光感知ヘッド28が皮膚の動きを感知する較正手順において使用されてもよい。処理回路は、次いで、光学感知ヘッドを較正するために、光学感知ヘッド28によって出力される信号をマイクロホン(図示せず)によって感知される音と比較してもよい。この較正は、光学構成要素をユーザの頬に対して所望の位置に位置合わせするために、ユーザ22に光学検知ヘッド28の位置をシフトするように促すことを含むことができる。
【0048】
図2は、本発明の別の実施形態による無音スピーチスピーチ感知装置60の概略図である。この実施形態では、イヤークリップ22は、眼鏡フレーム62と一体化されるか、又はそうでなければ眼鏡フレーム62に取り付けられる。鼻電極64及び側頭電極66は、フレーム62に取り付けられ、ユーザの皮膚表面に接触する。電極64および66は、ユーザの顔面筋の活性化に関する追加情報を提供する、体表面筋電図(sEMG)信号を受信する。装置60内の処理回路は、装置60からスピーチ出力を生成する際に、電極64および66によって感知された電気的活動を、光感知ヘッド28からの出力信号と共に使用する。
【0049】
追加的に又は代替的に、装置60は、目の動きのような、ユーザの顔の他の領域における皮膚の動きを感知するための、光感知ヘッド28と同様の1つ以上の追加の光感知ヘッド68を含む。これらの追加の光感知ヘッドは、光感知ヘッド28と共に、または光感知ヘッド28の代わりに使用されてもよい。
【0050】
図3は、本発明の一実施形態による、無音スピーチ感知のためのシステム18の機能構成要素を概略的に示すブロック図である。図示されたシステムは、検知装置20、スマートフォン36、及びサーバ38を含む、
図1に示された構成要素の周りに構築される。あるいは、
図3に示され、以下に説明される機能は、システムの構成要素の間で異なるように実装され、分散されてもよい。例えば、スマートフォン36に属する処理能力の一部又は全ては、感知デバイスにおいて実装されてもよく、又はデバイス20の感知能力は、スマートフォン36において実装されてもよい。
【0051】
感知装置20は、符号化された信号を、Bluetooth(登録商標)インターフェースなどの装置の通信インターフェースを介して、スマートフォン36内の対応する通信インターフェース77に送信する。本実施形態では、感知装置20からの符号化された出力信号は、スマートフォン36のメモリ78で受信され、スマートフォン36のプロセッサ上で実行されるスピーチ生成アプリケーション80によって処理される。スピーチ生成アプリケーション80は、出力信号の特徴を、テキストおよび/または音声出力信号の形の単語のシーケンスに変換する。通信インターフェース77は、ユーザに対して再生するために、音声出力信号を検知デバイス20のスピーカ26に戻す。スピーチ生成アプリケーション80からのテキストおよび/または音声出力は、スピーチおよび/またはテキスト通信アプリケーション、ならびに記録アプリケーションなどの他のアプリケーション84にも入力される。通信アプリケーションは、例えば、データ通信インターフェース86を介して、セルラーまたはWi-Fiネットワークを経由して通信する。
【0052】
デバイス20およびスピーチ生成アプリケーション80による符号化動作は、ローカルトレーニングインターフェース82によって制御される。たとえば、インターフェース82は、受信機モジュール48によって出力された信号からどの時間特徴およびスペクトル特徴を抽出すべきかをデバイス20のプロセッサに示し得、特徴を単語に変換するニューラルネットワークの係数をスピーチ生成アプリケーション80に与え得る。この例では、スピーチ生成アプリケーション80は、推論ネットワークを実装し、感知装置20から受信した符号化信号特徴に対応する最も高い確率を有する単語のシーケンスを見つける。ローカルトレーニングインターフェース82は、サーバ38から推論ネットワークの係数を受信し、サーバ38はまた、係数を周期的に更新することができる。
【0053】
訓練インターフェース82によってローカル訓練命令を生成するために、サーバ38は、訓練データ90の集合からのコヒーレント光(例えば、スペックル)画像および対応するグラウンドトゥルースの話された単語を含むデータリポジトリ88を使用する。リポジトリ88はまた、現場の検知装置20から収集された訓練データを受信する。例えば、トレーニングデータは、ユーザが特定の音及び単語(場合によっては、無音及び発声されたスピーチの両方を含む)を発音している間に感知装置20から収集された信号を含むことができる。一般的なトレーニングデータ90と各検知デバイス20のユーザから受信された個人トレーニングデータとのこの組み合わせは、サーバ38が各ユーザのための最適な推論ネットワーク係数を導出することを可能にする。
【0054】
サーバ38は、画像解析ツール94を適用して、リポジトリ88内のコヒーレント光画像から特徴を抽出する。これらの画像特徴は、トレーニングデータとして、対応する単語の辞書104および言語モデル100と共にニューラルネットワーク96に入力され、言語モデル100は、トレーニングデータで使用される特定の言語のスピーチ構造および構文規則の両方を定義する。ニューラルネットワーク96は、推論ネットワーク102のための最適な係数を生成し、推論ネットワーク102は、コヒーレント光測定の対応するシーケンスから抽出された特徴セットの入力シーケンスを、対応する音素に変換し、最終的に単語の出力シーケンスに変換する。サーバ38は、推論ネットワーク102の係数を、スピーチ生成アプリケーション80で使用するためにスマートフォン36にダウンロードする。
【0055】
スピーチ感知のための方法
図4は、本発明の一実施形態による、無音スピーチ感知のための方法を概略的に示すフローチャートである。この方法は、便宜上および明確にするために、
図1および
図4に示され、上述されたシステム18の要素を参照して説明される。あるいは、この方法の原理は、例えば、検知装置60(
図2)または移動体通信装置に組み込まれた検知装置を使用して、他のシステム構成に適用されてもよい。
【0056】
ユーザ24が話していない限り、検知装置20は、アイドリングステップ410において、そのバッテリの電力を節約するために低電力アイドルモードで動作する。このモードは、例えば20フレーム/秒の低フレームレートを使用してもよい。デバイス20は、この低フレームレートで動作している間、動き検出ステップ112において、画像を処理して、発話を示す顔の動きを検出する。そのような動きが検出されると、デバイス20のプロセッサは、アクティブキャプチャステップ414において、無音スピーチに起因して生じる二次コヒーレント光(たとえば、スペックル)パターンの変化の検出を可能にするために、フレームレートをたとえば100~200フレーム/秒の範囲に増加させるように命令する。代替的にまたは追加的に、フレームレートの増加は、スマートフォン36から受信された命令に従い得る。
【0057】
次いで、特徴抽出ステップ420において、デバイス20のプロセッサは、光コヒーレント光パターン運動の特徴を抽出する。追加的にまたは代替的に、プロセッサは、スポットの選択されたサブセットにおけるコヒーレント光の他の時間的特徴および/またはスペクトル特徴を抽出してもよい。デバイス20は、これらの特徴を(スマートフォン36上で実行される)スピーチ生成アプリケーション80に伝達し、スピーチ生成アプリケーション80は、特徴入力ステップ422において、サーバ38からダウンロードされた推論ネットワーク102に特徴値のベクトルを入力する。
【0058】
時間の経過とともに推論ネットワークに入力される特徴ベクトルのシーケンスに基づいて、スピーチ生成アプリケーション80は、スピーチ出力ステップ424において、文に連結される単語のストリームを出力する。前述のように、スピーチ出力は、スピーカ26を介して再生するために、音声信号を合成するために使用される。スマートフォン36上で実行される他のアプリケーション84は、後処理ステップ426において、スピーチおよび/またはテキストデータ信号を後処理して、対応するテキストを記録し、および/またはネットワークを介してスピーチまたはスピーチを送信する。
【0059】
検出された無音スピーチの解読
上述のように、無音スピーチの解読(すなわち、意図されたスピーチに対応する単語を抽出するために取得された信号を分析すること)は、画像処理ソフトウェア(例えば、ツール94)などのソフトウェアツールのチェーン、およびNN 96などの人工ニューラルネットワーク(ANN)によって実行される。画像処理ソフトウェアは、取得された信号を前処理された信号に変換し、ANNは、前処理された信号に含まれる意図されたスピーチワードを指定する。このセクションは、開示された技術が使用し得る解読方法およびソフトウェアツールの例を提供する。これは、ANNによる訓練および推論段階(それぞれ
図5および
図6)、ならびに前処理段階(
図7)をカバーする。
【0060】
図5は、本発明の実施形態に従って、無音スピーチ解読を実行するようにANNを訓練するための方法を概略的に示すフローチャートである。この方法は、例えば、2つの異なるANNタイプ、すなわち、最終的に単語を出力する分類ニューラルネットワークと、文(単語シーケンス)を出力するシーケンス間ニューラルネットワークとをトレーニングするために使用され得る。プロセスは、データアップロードステップ502で開始し、例えば、開発中に複数の参照ヒト被験者から収集された、画像解析ツール94によって出力されるような、前処理された訓練データをサーバ38のメモリからアップロードする。
【0061】
無音スピーチデータは、多種多様な人々(様々な年齢、性別、民族性、身体障害などの人々)から収集される。学習および一般化に必要な例の数は、タスクに依存する。(閉じたグループ内の)単語/発話予測のために、少なくとも数千の例が集められた。単語/音素シーケンス予測のタスクの場合、データセットサイズは時間単位で測定され、数千時間がトランスクリプションのために集められた。
【0062】
データ拡張ステップ504において、プロセッサは、トレーニングプロセスのためのより人工的なデータを得るために、画像処理されたトレーニングデータを拡張する。特にここでの入力は、画像処理された二次コヒーレント光パターンであり、画像処理ステップのいくつかは以下に記載される。データ拡張のステップ504は、(i)ランダムな時点における振幅がゼロに置き換えられる時間ドロップアウト、(ii)信号が周波数領域に変換される周波数ドロップアウトのサブステップを含むことができる。ランダム周波数チャンクは、フィルタ除去される。(iii)クリッピング、ここでは、ランダムな時点における信号の最大振幅がクランプされる。これは、データに飽和効果を追加する。(iv)ガウスノイズが信号に追加されるノイズ追加、及び信号が再サンプリングされてわずかに低い又はわずかに速い信号を達成する速度変化。
【0063】
特徴抽出ステップ506では、拡張データセットは特徴抽出モジュールを通過する。このステップでは、プロセッサは、時間領域無音スピーチ特徴を計算する。この目的のために、例えば、各信号は、低周波数成分xlowおよび高周波数成分xhighに分割され、27msのフレーム長および10msのシフトを使用して、時間フレームを作成するようにウィンドウ化される。各フレームについて、5つの時間領域特徴と9つの周波数領域特徴、すなわち信号当たり合計14の特徴を計算する。時間領域特徴は以下の通りである。
【数1】
ここで、ZCRはゼロ交差レートである。さらに、16点の短いフーリエ変換からの大きさの値、すなわち周波数領域の特徴を使用する。全ての特徴は、ゼロ平均単位分散に正規化される。
【0064】
ANNトレーニングステップ508のために、プロセッサは、データをトレーニング、検証、およびテストセットに分割する。訓練セットは、モデルを訓練するために使用されるデータである。ハイパーパラメータ調整は、検証セットを使用して行われ、最終評価は、試験セットを使用して行われる。
【0065】
モデルアーキテクチャはタスクに依存する。2つの異なる例は、2つの概念的に異なるタスクのための2つのネットワークのトレーニングを説明する。第1は、信号転写、すなわち、無音のスピーチを単語/音素/文字生成によってテキストに翻訳することである。このタスクは、シーケンス間モデルを使用することによって対処される。第2のタスクは、単語/発話予測、すなわち、ユーザによって発せられた発話を、閉じたグループ内の単一のカテゴリに分類することである。これは、分類モデルを使用することによって対処される。
【0066】
開示されたシーケンス対シーケンスモデルは、入力信号を高レベル表現(埋め込み)に変換するエンコーダと、符号化された表現から言語出力(すなわち、文字または単語)を生成するデコーダとから構成される。エンコーダに入る入力は、「特徴抽出」モジュールで説明したように、特徴ベクトルのシーケンスである。それは、エンコーダの第1の層、すなわち時間畳み込み層に入り、時間畳み込み層は、良好な性能を達成するためにデータをダウンサンプリングする。モデルは、100のオーダーのそのような畳み込み層を使用し得る。
【0067】
各時間ステップにおける時間畳み込み層からの出力は、双方向リカレントニューラルネットワーク(RNN)の3つの層に渡される。プロセッサは、各RNN層のユニットとしてLTSM(long short-term memory)を採用する。各RNN状態は、順方向RNNの状態と逆方向RNNの状態との連結である。デコーダRNNは、エンコーダRNNの最終状態(フォワードエンコーダRNNの最終状態とバックワードエンコーダRNNの第1の状態との連結)で初期化される。各時間ステップにおいて、それは、入力として、ワンホットで符号化され、フルコネクト層を用いて150次元空間に埋め込まれた先行するワードを得る。その出力は、(トレーニングデータに応じて)単語または音素の空間に行列を介して射影される。
【0068】
シーケンス間モデルは、前の予測に対して次のステップの予測を条件付ける。学習中、対数確率は最大化される。
【数2】
ここで、y<iは、前の予測のグラウンドトゥルースである。分類用ニューラルネットワークは、シーケンス間ネットワークの場合と同様にエンコーダと、エンコーダ出力の上にある追加のフルコネクト分類用層とから構成される。出力は、閉じた単語の空間に投影され、スコアは、辞書内の各単語の確率に変換される。
【0069】
上記の手順全体の結果は、推論ネットワーク102のための計算された係数で表される、2つのタイプのトレーニングされたANNである。係数は、サーバ38のメモリに記憶される(ステップ510)。
【0070】
日々の使用において、トレーニングインターフェース82は、サーバ38から推論ネットワーク102の最新の係数を受信し、サーバ38はまた、係数を周期的に更新し得る。推論ネットワーク102の係数は、イヤピースデバイス20のメモリまたはスマートフォン36のインメモリー78に記憶される。第1のANNタスクは、信号転写、すなわち、無音スピーチを単語/音素/文字生成によってテキストに翻訳することである。第2のANNタスクは、単語/発話予測、すなわち、ユーザによって発せられた発話を、閉じたグループ内の単一のカテゴリに分類することである。これらのネットワークは、
図6で後述するように、システムの一部として機能するようにシステムにプラグインされる。
【0071】
最後に、訓練セッションは、分析するユーザ24の顔上の二次コヒーレント光の位置の選択及び優先順位を最適化するために使用される。選択更新ステップ512において、プロセッサは、そのような位置のリストおよび使用順序を更新する。
【0072】
図6は、本発明の実施形態に従って、無音スピーチ解読を実行するために、推論においてトレーニングされたANNを使用する方法を概略的に示すフローチャートである。そのような訓練されたANNは、推論ネットワーク102であり得る。プロセスは、例えば、訓練されたANNアップロードステップ602において、推論ネットワーク102をアップロードする適切なアプリケーションソフトウェアを実行するスマートフォン36内のプロセッサから開始する。
【0073】
無音スピーチ前処理ステップ604では、感知装置20のプロセッサが無音スピーチ信号を受信し、例えば、装置20に含まれる画像処理ソフトウェアを使用してこれを前処理する。
【0074】
無音スピーチ特徴抽出ステップ606では、感知装置20のプロセッサは、
図7に記載されるように、前処理された無音スピーチ信号から無音スピーチ特徴を抽出する。
【0075】
無音スピーチ特徴受信ステップ608において、スマートフォン36は、通信インターフェース77を介して符号化信号を受信する。本実施形態では、感知装置20からのステップ606の符号化された信号は、スマートフォン36のメモリ78で受信される。
【0076】
無音スピーチ推論ステップ610において、抽出された特徴は、スマートフォン36内のプロセッサ上で実行されるスピーチ生成アプリケーション80によって処理される。スピーチ生成アプリケーション80は、推論ネットワーク102を実行して、出力信号の特徴を単語のシーケンス(612)に変換する。これらの単語は、その後、テキストおよび/または音声出力信号の形態で(例えば、スピーチ合成器を使用して)出力され得る。
【0077】
図7は、本発明の実施形態に従って、スピーチ解読に備えて無音スピーチ感知データを前処理する方法を概略的に示すフローチャートである。プロセスは、フレーム受信ステップ702において、デバイス20のプロセッサが、頬皮膚領域からの二次コヒーレント光反射を高フレームレート(例えば、500fps)でキャプチャしたフレームをデバイス20のカメラから受信することによって開始する。
【0078】
各フレームについて、生画像は、ユーザの顔の上の予め選択された位置のセットにおける皮膚の動きを抽出する画像処理アルゴリズムに転送される。検査する位置の数は、アルゴリズムへの入力である。コヒーレント光処理のために抽出される皮膚上の位置は、プロセッサがメモリからアップロードする(704)所定のリストから取られる。リストは、解剖学的位置、例えば、口の上の頬、顎、顎の中央、口の下の頬、高い頬、及び頬の後ろを指定する。さらに、リストは、トレーニング段階(
図2のステップ512)中に抽出された顔上のより多くの点で動的に更新される。位置のセット全体は、(順序付けられた)リストの任意のサブセットが、検査される選択された数の位置に関してワードエラーレート(WER)を最小にするように、降順で順序付けられる。
【0079】
コヒーレント光スポット選択ステップ706において、プロセッサは、ステップ704において提供されたリストに従って分析する位置を選択する。
【0080】
クロッピングステップ708において、プロセッサは、コヒーレント光スポットの周囲のフレーム内で抽出されたコヒーレント光スポットの各々をクロッピングし、アルゴリズムは、スポットを処理する。典型的には、コヒーレント光スポット処理のプロセスは、非常に短い露光で、カメラで撮影される(約1.5MPの)フルフレーム画像ピクセルのサイズを2桁低減することを伴う。露光は、動的に設定され、コヒーレントな光反射のみを捕捉し、皮膚セグメントを捕捉しないように適合される。昼光および緑色レーザの場合、これは約1/4000秒であることが分かる。画像は、(例えば、頬の皮膚の黒色領域の)ほとんど空であり、二次コヒーレント光パターンを形成するレーザ点を含む。前処理段階では、レーザ点(例えば、スペックル)領域が識別され、画像が切り取られ、その結果、アルゴリズムはこの領域上でのみ実行される。例えば、プロセッサは、フル画像(1.5MP)を18KP画像に縮小し、これは、アルゴリズムの残りの部分の処理時間を直ちに加速する。
【0081】
画像処理アルゴリズムは、システム内の高帯域幅データのフローを排除することができるように、カメラセンサチップ内に埋め込まれるか、またはそれに隣接するCPU、GPU、またはハードウェア論理上で実行され得る。これは、デバイスの総電力消費を低減し得る。さらに、前処理されたデータは、(各位置における)ユーザの顔の皮膚の物理的な振動および動きに対応し、したがって、生の画像と比較してはるかに低い帯域幅であり、各位置について毎秒数百サンプルである。
【0082】
画像プロセッサがコヒーレント光スポット内の関心領域を識別すると、画像プロセッサは、閾値sを使用してノイズを除去して黒画素を決定することによって画像コントラストを改善し、次いで、スカラスペックルエネルギー尺度、例えば平均強度などのコヒーレント光の特性メトリックを計算する(710)。ステップ710は、ボックス711に記載されたステップを含み、これは、ステップ706でコヒーレント光パターンを識別し、ステップ708でそれをトリミングした後に、画像をコヒーレント光スポットの半径の所定の割合(例えば、1/3)にさらに縮小することを含む(これは、前述の18KP画像を2KPのみに縮小することに相当し、これに基づいて、例えば、2KPピクセルの平均強度としてメトリックが計算される)。
【0083】
プロセッサによる測定(例えば、平均スペックル強度)の時間変化の分析は、二次コヒーレント光パターンの変化の検出の一例である。あるいは、特定のコヒーレント光パターンの検出などの他のメトリックを使用することができる。最後に、このスカラーエネルギーメトリックの値のシーケンスがフレームごとに計算され、集約されて(712)、1D時間信号が与えられる。
【0084】
1D時間信号は、
図5および
図6において上述したように、無音スピーチ解読において使用するために記憶された前処理済み信号である。
【0085】
上述の単語検出プロセスの精度は、以下の概念の組み合わせを使用して最適化される。
【0086】
1)個人化されたアルゴリズムパラメータ
ユーザの通常の発話中、システムは、ユーザの声と顔の動きを同時にサンプリングする。自動スピーチ認識(ASR)及び自然言語処理(NLP)アルゴリズムが実際のスピーチに適用され、そしてこれらアルゴリズムの結果が、言語アルゴリズムに対するモーションのパラメータを最適化するのに使用される。これらのパラメータは、最適な性能のためのレーザビームの空間分布と同様に、様々なニューラルネットワークの重みを含む。完全な神経系および筋繊維を有する言語障害を有する対象について、伝達学習技術は、発話が可能な対象から獲得された結果を適用する際に使用され得る。
【0087】
2)単語セットを限定する
アルゴリズムの出力を所定の単語セットに制限することは、曖昧さの場合(2つの異なる単語が皮膚上で同様の動きをもたらす場合)に単語検出の精度を著しく高める。
【0088】
使用される単語セットは、時間とともに個人化され、特定のユーザによって使用される実際の単語に対して、それらのそれぞれの頻度および文脈を用いて、辞書を調整することができる。
【0089】
3)文脈最適化単語セット
会話の文脈を単語および文抽出アルゴリズムの入力に含めることは、文脈外の選択肢を排除することによって精度を高める。会話のコンテキストは、他方の側の声に対して自動発話認識(ASR)および自然言語処理(NLP)アルゴリズムを適用することによって理解される。
【0090】
スピーチ合成
内部/無音スピーチから抽出される情報は、様々な方法、例えば、1)人間-機械通信(例えば、パーソナルアシスタント/「Alexa」タイプのデバイス)2)人間-人間通信(例えば、電話通話)で使用され得る。
【0091】
人間-人間通信のために、システムは、内部スピーチに基づいてユーザの合成スピーチを生成し、この合成スピーチを他方の側のデバイスに送信する。あるいは、インスタントメッセージングアプリなどのサードパーティアプリケーションを介して人間対人間の通信を行うことができ、この場合、内部スピーチはテキストに変換され、相手側のデバイスに送信される。
【0092】
多くの場合、スピーチ認識アルゴリズムは、ある曖昧な結果をもたらす。例えば、ユーザが「ジャスティス」という単語を言うと、分類アルゴリズムは、50%の確実性で、その発音された単語が「ジャスティス」であり、30%が「プラクティス」であり、20%が「ラティス」であると予測する。NLPアルゴリズムの他の実装形態では、アルゴリズムは、多くの場合、曖昧な単語が話された後にのみ明らかにされる文全体のコンテキストに基づいて適する語を選択する。
【0093】
人間-人間のリアルタイム通信の移植の場合、テキストをスピーチに合成する前に文が完了するのを待つことは、許容できない可能性がある著しい遅延をもたらす。
【0094】
この問題を解決するために、スピーチ合成装置は、曖昧な入力に対して曖昧な出力を生成するように構成される。曖昧な入力の例は、混同する単語/音素である。例えば、システムは、ユーザが「down」と発言したか「town」と発言したかを完全には判定しないことがある。したがって、この場合の作業単位は、音(「音素」と呼ばれる)であり、単語全体ではない。これに応答して、システムは、2つの候補音素の混合であるスピーチを生成し、送信する。上記の例では、システムが、ユーザが「ダウン」と発言したか、「タウン」と発言したかを確信しない場合、結果として生じる音は、適切な時間における「t」と「d」の混合である。
【0095】
この概念をさらに説明するために、単語「justice」、「practice」、および「lattice」からなる上記の例では、シンセサイザは、最も高い確率を有するオプションであるが、明確な「justice」単語を送らず、その代わりに、アルゴリズムは、おそらく50%の「justice」、30%の「practice」、および20%の「lattice」(入力と同じ確率)であると重み付けされた、明瞭な単語の組合せである音を作成する。この実施態様は、曖昧さを他方の人の脳に伝達し、文が完成した後に、後で解決される。
【0096】
図8は、本発明の一実施形態による、曖昧な無音スピーチ入力に対して曖昧なスピーチ出力を生成する方法を概略的に示すフローチャートである。このプロセスは、単語生成ステップ802で開始し、スピーチ生成アプリケーション80によって、複数の候補単語が、候補単語のそれぞれが所与の時間間隔内に意図されたスピーチに対応するそれぞれの確率と共に抽出される。
【0097】
次に、単語合成ステップ804において、プロセッサは、抽出された単語を音声信号(例えば、1Dサウンド波形)に合成する。時間スケーリングステップ806において、スピーチ合成器(例えば、アプリケーション84の一例)のうちの1つなどのプロセッサは、類似の単語を時間スケーリングして、すべての単語が所与の時間間隔内の同じ持続時間にわたって聞こえるようにする。最後に、スピーチ混合ステップ808において、それぞれの確率に応じて複数の単語を混合することによって(例えば、それぞれの重みとして機能する確率を用いてスピーチ波形振幅の加重和を実行するプロセッサによって)、可聴スピーチが曖昧な音声出力に合成される。
【0098】
上述の実施形態は、例として引用されており、本発明は、特に示され、上述されたものに限定されないことが理解されるであろう。むしろ、本発明の範囲は、上述の様々な特徴の組み合わせ及びサブコンビネーションの両方、並びに、前述の説明を読めば当業者には思い浮かぶであろう、先行技術に開示されていないそれらの変形及び修正を含む。
【国際調査報告】