(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-08-01
(54)【発明の名称】患者固有の音声モデルの合成
(51)【国際特許分類】
A61B 10/00 20060101AFI20230725BHJP
G10L 25/66 20130101ALI20230725BHJP
【FI】
A61B10/00 L
G10L25/66
A61B10/00 K
A61B10/00 H
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022576351
(86)(22)【出願日】2021-06-07
(85)【翻訳文提出日】2022-12-09
(86)【国際出願番号】 IB2021054952
(87)【国際公開番号】W WO2022003451
(87)【国際公開日】2022-01-06
(32)【優先日】2020-06-29
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】518101266
【氏名又は名称】コルディオ メディカル リミテッド
(74)【代理人】
【識別番号】100086461
【氏名又は名称】齋藤 和則
(72)【発明者】
【氏名】シャロム、イラン、ディ.
(57)【要約】
装置(40)は通信インタフェース(26)とプロセッサ(28)を有する。プロセッサは:通信インタフェースを介して、疾患に関して第1の状態にある間に被験者によって発せられた複数の音声サンプル(式1)を受信し;そして(式1)と、被験者に固有ではない少なくとも1つの参照弁別子と、を使用して、被験者に固有の弁別子を合成する;ように構成され、弁別子は、被験者に固有であり、そして被験者によって発せられた1つまたは複数のテスト発話に応答して、被験者が疾患に関して第2の状態にあることの尤度を示す出力を生成するように構成される。
【選択図】
図1
【特許請求の範囲】
【請求項1】
通信インタフェース;と
プロセッサ:
を有する装置であって、
前記プロセッサは:
前記通信インタフェースを介して、疾患に関して第1の状態にある間に被験者によって発せられた複数の音声サンプル{u
m
0}、m=1…M を受信し、そして
前記音声サンプル{u
m
0}と、前記被験者に固有ではない少なくとも1つの参照弁別子と、を使用して、前記被験者が前記疾患に関して第2の状態にある間に前記被験者により発せられた他の音声サンプルを使用することなく、前記被験者に固有の弁別子を合成する、
ように構成され、
前記弁別子は、前記被験者に固有であり、そして前記被験者によって発せられた1つまたは複数のテスト発話に応答して、前記被験者が前記第2の状態にあることの尤度を示す出力を生成するように構成される、
ことを特徴とする装置。
【請求項2】
前記第1の状態は安定状態であり、前記第2の状態は不安定状態であることを特徴とする請求項1に記載の装置。
【請求項3】
前記疾患が、うっ血性心不全(CHF)、冠状動脈性心疾患、不整脈、慢性閉塞性肺疾患(COPD)、喘息、間質性肺疾患、浮腫、胸水、パーキンソン病、うつ病、からなる疾患群から選択される、ことを特徴とする請求項1に記載の装置。
【請求項4】
前記プロセッサは:
任意の音声サンプル s について、前記音声サンプル s と前記被験者の前記第1の状態の音声との間の第1の類似度を示す第1の距離尺度を返す、第1の状態の被験者固有の音声モデル θ
0 を生成するステップと;そして
前記音声サンプル s と前記被験者の第2の状態の音声との間の第2の類似度を示す第2の距離尺度を返す、第2の状態の被験者固有の音声モデル θ
1を生成するステップと;
により前記被験者に固有の弁別子を合成する、
ように構成される、ことを特徴とする請求項1-3のいずれか1項に記載の装置。
【請求項5】
前記少なくとも1つの参照弁別子はK個の参照弁別子{φk},k=1…K、を有し、前記参照弁別子{φk}は:
それぞれの第1の距離 {D
k
0(s)} を返すそれぞれの第1の状態の参照音声モデルであって、前記第1の距離 {D
k
0(s)} は、前記音声サンプル s と1人または複数の他の被験者のK個のグループによって発せられた、それぞれの第1の状態の参照音声との間の第1の類似度を示す、第1の状態の参照音声モデルと;
それぞれの第2の距離 {D
k
1(s)} を返すそれぞれの第2の状態の参照音声モデルであって、前記第2の距離 {D
k
1(s)} は、前記音声サンプル s と1人または複数の他の被験者のK個のグループによって発せられた、それぞれの第2の状態の参照音声との間の第2の類似度を示す、第2の状態の参照音声モデルと;
を有し、
ここで、前記第1の状態の被験者固有の音声モデルθ
0 は{D
k
0(s)}に関数を適用して前記第1の距離尺度を返し、
ここで、前記第2の状態の被験者固有の音声モデルθ
1 は{D
k
1(s)}に関数を適用して前記第2の距離尺度を返す、
ことを特徴とする請求項4に記載の装置。
【請求項6】
前記関数は、前記第1の距離{D
k
0(s)}に適用されると、{D´
k
0(s)}の加重平均を返し、ここでD´
k
0(s)は 前記第1の距離 D
k
0(s)の非減少関数である、ことを特徴とする請求項5に記載の装置。
【請求項7】
前記加重平均は、K個の重み{w
k},k=1…K、に対して
Σ
k=1
Kw
kD´
k
0(s)であり、それは1つの制約に関して前記音声サンプル{u
m
0}に対するそれぞれの距離尺度の合計を最小化し、前記音声サンプル {u
m
0}に属するそれぞれの音声サンプル u
m に対する距離尺度は、
Σ
k=1
Kw
kD´
k
0(u
m )に基づく、
ことを特徴とする請求項6に記載の装置。
【請求項8】
前記少なくとも1つの参照弁別子は、
前記音声サンプル s と、前記第1の状態の参照音声との間の第1の類似度を示す第1の距離 D
0(s) を返す第1の状態の参照音声モデルと、そして
前記音声サンプル s と、前記第2の状態の参照音声との間の第2の類似度を示す第2の距離 D
1(s) を返す第2の状態の参照音声モデルと、
を有する、ことを特徴とする請求項4に記載の装置。
【請求項9】
前記第1の状態の参照音声モデルは、前記音声サンプル s から抽出された一連の特徴ベクトル V(s) に第1の関数を適用することによって前記第1の距離 D
0(s)を返し、
前記第2の状態の参照音声モデルは、前記特徴ベクトル V(s) に第2の関数を適用することによって前記第2の距離 D
1(s)を返し、
ここで、前記第1の状態の被験者固有の音声モデル θ
0 および前記第2の状態の被験者固有の音声モデル θ
1 を生成するステップは、1つまたは複数の事前定義された制約の下で前記特徴ベクトル {V(u
m
0)} を最適に変換する正規化変換 T を使用して前記 θ
0 および前記 θ
1 を生成するステップを有する、
ことを特徴とする請求項8に記載の装置。
【請求項10】
前記正規化変換 T が1つの制約に関して、
Σ
u∈{um0}Δ(T(V(u)),V(u
0))を最小化し、
ここでΔは、2セットの特徴間の第3の距離尺度であり、
u
0 は u∈{u
m
0} のコンテントの正規の発話である、
ことを特徴とする請求項9に記載の装置。
【請求項11】
前記第3の距離尺度 Δ は、動的タイムワーピング(DTW)距離の非減少関数である、ことを特徴とする請求項10に記載の装置。
【請求項12】
前記正規化変換 T が1つの制約に関して、
Σ
u∈{um0}f´
0(T(V(u)))を最小化し、
f´
0は、前記第1の関数の非減少関数である、
ことを特徴とする請求項9に記載の装置。
【請求項13】
前記第1の状態の被験者固有の音声モデル θ
0 は、第1の関数を前記正規化変換 T(V(s)) に適用して第1の距離尺度を返し、
前記第2の状態の被験者固有の音声モデル θ
1 は、第2の関数を前記正規化変換 T(V(s)) に適用して第2の距離尺度を返す、
ことを特徴とする請求項9に記載の装置。
【請求項14】
前記第1の状態の被験者固有の音声モデル θ
0 を生成するステップは、非正規化変換 T´ を第1のパラメータに適用することにより前記 θ
0 を生成するステップを有し、ここで前記非正規化変換 T´ は1つまたは複数の事前定義された制約の下で、第1の状態の参照音声モデルの前記第1のパラメータを最適に変換し、そして
前記第2の状態の被験者固有の音声モデルθ
1を生成するステップは、前記非正規化変換 T´ を第2の状態の参照音声モデルの第2のパラメータに適用することにより前記 θ
1 を生成するステップを有する、
ことを特徴とする請求項8に記載の装置。
【請求項15】
前記非正規化変換 T´ は、制約のもとで、
Σ
u∈{um0}T´(D
0)(u)を最小化し、ここで T´(D
0)(s)は変換の下で前記第1の状態の参照音声モデルによって返される前記第1の距離である、
ことを特徴とする請求項14に記載の装置。
【請求項16】
前記第1の状態の参照音声モデルは、複数の第1のカーネルを含む第1の隠れマルコフモデル(HMM)を含み、前記第1のパラメータは、前記第1のカーネルの第1のカーネルパラメータを含み、
前記第2の状態の参照音声モデルは、複数の第2のカーネルを含む第2のHMMを含み、前記第2のパラメータは、前記第2のカーネルの第2のカーネルパラメータを含む、
ことを特徴とする請求項14に記載の装置。
【請求項17】
前記第1のカーネルおよび前記第2のカーネルはガウスカーネルであり、
前記非正規化変換 T´ は:
任意の1つまたは複数のガウスカーネルの平均ベクトルに作用するアフィン変換;および
任意の1つ以上のガウスカーネルの共分散行列に作用する二次変換;
を有する、ことを特徴とする請求項16に記載の装置。
【請求項18】
前記第1の状態の参照音声モデルは、複数の第1の参照フレームを含み、前記第1のパラメータは、前記第1の参照フレームの第1の参照フレーム特徴を含み、
前記第2の状態の参照音声モデルは、複数の第2の参照フレームを含み、前記第2のパラメータは、前記第2の参照フレームの第2の参照フレーム特徴を含む、
ことを特徴とする請求項14に記載の装置。
【請求項19】
前記第1の状態の参照音声は、R人の他の被験者の、第1のサブセットによって発せられた複数の前記第1の状態の参照音声サンプルを含み、
前記第2の状態の参照音声は、他の被験者の第2のサブセットによって発せられた複数の前記第2の状態の参照音声サンプルを含み、
ここで、前記プロセッサはさらに:
前記他の被験者に対するそれぞれの変換 {T
r},r=1…R、 を識別するステップであって、 Tr は、前記他の被験者の r 番目ごとの被験者に対する、1つまたは複数の事前定義された制約の下で {Φ
r} を最適に変換する正規化変換であり、{Φ
r} は(i)前記他の被験者によって発せられた前記第1の状態の参照音声サンプル、および (ii) 前記他の被験者によって発せられた前記第2の状態の参照音声サンプル、の和集合である、ステップと;
前記他の被験者の r 番目ごとに、前記変換 T
r を 特徴ベクトル{V(Φ
r)} に適用することにより、変更された特徴のセットを計算するステップと;そして
前記変更された特徴のセットから前記参照弁別子を生成するステップと;
を実行するように構成される、
ことを特徴とする請求項8に記載の装置。
【請求項20】
前記第1の状態の参照音声モデルおよび前記第2の状態の参照音声モデルは、パラメータの第1のセットに関して同一であり、パラメータの第2のセットに関して互いに異なり、
前記プロセッサは、前記第1の状態の被験者固有の音声モデル θ
0 が前記パラメータの第2のセットに関して前記第1の状態の参照音声モデルと同一であるように前記 θ
0 を生成するように構成され、
前記プロセッサは、前記第2の状態の被験者固有の音声モデル θ
1 が前記パラメータの第1のセットに関してθ
0と同一であり、前記パラメータの第2のセットに関して前記第2の状態の参照音声モデルと同一であるように、前記 θ
1 を生成するように構成される、
ことを特徴とする請求項8に記載の装置。
【請求項21】
前記第1の状態の参照音声モデルおよび前記第2の状態の参照音声モデルは、異なるそれぞれの隠れマルコフモデル(HMM)を含み、それぞれの前記HMMは、それぞれのカーネル重みを有する複数のカーネルを含み、
前記パラメータの第1のセットはカーネルの重みを含み、
前記パラメータの第2のセットは、カーネルのカーネルパラメータを含む、
ことを特徴とする請求項20に記載の装置。
【請求項22】
前記少なくとも1つの参照弁別子は、複数のパラメータに関連付けられた参照神経ネットワークを含み、前記神経ネットワークは、任意の1つまたは複数の音声サンプルについて、当該音声サンプルが前記第2の状態で発せられた尤度を示す別の出力を返し、
前記プロセッサは、音声サンプル{u
m
0}を含む入力音声サンプルのセットに対する他の出力のエラーを最小化するように、前記パラメータのサブセットを調整することによって、前記被験者固有の神経ネットワークを合成することによって、前記被験者固有の弁別子を合成するように構成される、
ことを特徴とする請求項1~3のいずれか一項に記載の装置。
【請求項23】
前記パラメータは複数の神経の重みを含み、前記パラメータのサブセットは前記重みのサブセットを含む、ことを特徴とする請求項22に記載の装置。
【請求項24】
前記参照神経ネットワークは複数の層を含み、前記重みのサブセットは、前記層のうちの1つに関連付けられた重みの少なくともいくつかを含むが、別の層に関連付けられた重みは含まない、ことを特徴とする請求項23に記載の装置。
【請求項25】
前記層は、(i)前記音声サンプルに基づく入力に応答して音響層出力を生成する、神経の1つまたは複数の音響層と、(ii)前記音響層の出力に応答して音声層出力を生成する、神経の1つまたは複数の音声層と、(iii)前記音声層出力に応答して他の出力を生成する、神経の1つまたは複数の弁別層と、を有し、
前記重みのサブセットは、前記音響層および前記弁別層に関連付けられた重みの少なくとも幾つかを含むが、前記音声層に関連付けられた重みは含まない、
ことを特徴とする請求項24に記載の装置。
【請求項26】
前記パラメータのサブセットは、前記音声サンプルの話者を識別する話者識別パラメータを含む、ことを特徴とする請求項22に記載の装置。
【請求項27】
前記入力音声サンプルのセットは、1つまたは複数の前記第2の状態の音声サンプルをさらに含む、ことを特徴とする請求項22に記載の装置。
【請求項28】
疾患に関して第1の状態にある間に被験者によって発せられた複数の音声サンプル{u
m
0}、m=1…M を受信するステップと;そして
前記音声サンプル{u
m
0}と、前記被験者に固有ではない少なくとも1つの参照弁別子と、を使用して、前記被験者が疾患に関して第2の状態にある間に前記被験者により発せられた他の音声サンプルを使用することなく、前記被験者に固有の弁別子を合成するステップと;
を有し、
前記弁別子は、前記被験者に固有であり、そして前記被験者によって発せられた1つまたは複数のテスト発話に応答して、前記被験者が前記第2の状態にあることの尤度を示す出力を生成するように構成される、
ことを特徴とする方法。
【請求項29】
前記第1の状態は安定状態であり、前記第2の状態は不安定状態である、ことを特徴とする請求項28に記載の方法。
【請求項30】
前記疾患が、うっ血性心不全(CHF)、冠状動脈性心疾患、不整脈、慢性閉塞性肺疾患(COPD)、喘息、間質性肺疾患、浮腫、胸水、パーキンソン病、うつ病、からなる疾患群から選択される、ことを特徴とする請求項28に記載の方法。
【請求項31】
前記被験者に固有の弁別子を合成するステップは:
任意の音声サンプル s について、前記音声サンプル s と前記被験者の前記第1の状態の音声との間の第1の類似度を示す第1の距離尺度を返す、第1の状態の被験者固有の音声モデル θ
0 を生成するステップと;そして
前記音声サンプル s と前記被験者の第2の状態の音声との間の第2の類似度を示す第2の距離尺度を返す、第2の状態の被験者固有の音声モデル θ
1を生成するステップと;
を有する、ことを特徴とする請求項28-30のいずれか一項に記載の方法。
【請求項32】
前記少なくとも1つの参照弁別子はK個の参照弁別子{φk},k=1…K、を有し、前記{φk}は:
それぞれの第1の距離 {D
k
0(s)} を返すそれぞれの第1の状態の参照音声モデルであって、前記第1の距離 {D
k
0(s)} は、前記音声サンプル s と1人または複数の他の被験者のK個のグループによって発せられた、それぞれの第1の状態の参照音声との間の第1の類似度を示す、第1の状態の参照音声モデルと;
それぞれの第2の距離 {D
k
1(s)} を返すそれぞれの第2の状態の参照音声モデルであって、前記第2の距離 {D
k
1(s)} は、前記音声サンプル s と1人または複数の他の被験者のK個のグループによって発せられた、それぞれの第2の状態の参照音声との間の第2の類似度を示す、第2の状態の参照音声モデルと;
を有し、
ここで、前記第1の状態の被験者固有の音声モデルθ
0 は{D
k
0(s)}に関数を適用して前記第1の距離尺度を返し、
ここで、前記第2の状態の被験者固有の音声モデルθ
1 は{D
k
1(s)}に関数を適用して前記第2の距離尺度を返す、
ことを特徴とする請求項31に記載の方法。
【請求項33】
前記関数は、前記第1の距離 {D
k
0(s)} に適用されると、{D´
k
0(s)}の加重平均を返し、ここで{D´
k
0(s)}は前記第1の距離 D
k
0(s)の非減少関数である、ことを特徴とする請求項32に記載の方法。
【請求項34】
前記加重平均は、K個の重み{w
k},k=1…K、に対して
Σ
k=1
Kw
kD´
k
0(s)であり、それは1つの制約に関して 前記音声サンプル{u
m
0}に対するそれぞれの距離尺度の合計を最小化し、前記音声サンプル{u
m
0}に属するそれぞれの音声サンプル u
m に対する距離尺度は、
Σ
k=1
Kw
kD´
k
0(u
m )に基づく、
ことを特徴とする請求項請求項33に記載の方法。
【請求項35】
前記少なくとも1つの参照弁別子は、
前記音声サンプル s と、前記第1の状態の参照音声との間の第1の類似度を示す第1の距離 D
0(s) を返す第1の状態の参照音声モデルと、そして
前記音声サンプル s と、前記第2の状態の参照音声との間の第2の類似度を示す第2の距離 D
1(s) を返す第2の状態の参照音声モデルと、
を有する、ことを特徴とする請求項請求項31に記載の方法。
【請求項36】
前記第1の状態の参照音声モデルは、前記音声サンプル s から抽出された一連の特徴ベクトル V(s) に第1の関数を適用することによって前記第1の距離 D
0(s)を返し、
前記第2の状態の参照音声モデルは、前記特徴ベクトル V(s) に第2の関数を適用することによって前記第2の距離 D
1(s)を返し、
ここで、前記第1の状態の被験者固有の音声モデル θ
0 および前記第2の状態の被験者固有の音声モデル θ
1 を生成するステップは、1つまたは複数の事前定義された制約の下で特徴ベクトル {V(u
m
0)} を最適に変換する正規化変換 T を使用して前記 θ
0 および前記 θ
1 を生成するステップを有する、
ことを特徴とする請求項35に記載の方法。
【請求項37】
前記正規化変換 T が1つの制約に関して、
Σ
u∈{um0}Δ(T(V(u)),V(u
0))を最小化し、
ここでΔは、2セットの特徴間の第3の距離尺度であり、
u
0 は u∈{u
m
0} のコンテントの正規の発話である、
ことを特徴とする請求項36に記載の方法。
【請求項38】
前記第3の距離尺度 Δは、動的タイムワーピング(DTW)距離の非減少関数である、ことを特徴とする請求項37に記載の方法。
【請求項39】
前記正規化変換 T が1つの制約に関して、
Σ
u∈{um0}f´
0(T(V(u)))を最小化し、
f´0は、前記第1の関数の非減少関数である、
ことを特徴とする請求項36に記載の方法。
【請求項40】
前記第1の状態の被験者固有の音声モデルθ
0 は、第1の関数を 前記正規化変換 T(V(s)) に適用して第1の距離尺度を返し、
前記第2の状態の被験者固有の音声モデル θ
1 は、第2の関数を前記正規化変換 T(V(s)) に適用して第2の距離尺度を返す、
ことを特徴とする請求項36に記載の方法。
【請求項41】
前記第1の状態の被験者固有の音声モデル θ
0 を生成するステップは、非正規化変換 T´ を第1のパラメータに適用することにより前記 θ
0 を生成するステップを有し、ここで前記非正規化変換 T´ は1つまたは複数の事前定義された制約の下で、第1の状態の参照音声モデルの前記第1のパラメータを最適に変換し、そして
前記第2の状態の被験者固有の音声モデル θ
1 を生成するステップは、前記非正規化変換 T´ を第2の状態の参照音声モデルの第2のパラメータに適用することにより前記 θ
1 を生成するステップを有する、
ことを特徴とする請求項35に記載の方法。
【請求項42】
前記非正規化変換 T´ は、制約のもとで、
Σ
u∈{um0}T´(D
0)(u)を最小化し、T´(D
0)(s)は変換の下で前記第1の状態の参照音声モデルによって返される前記第1の距離である、
ことを特徴とする請求項41に記載の方法。
【請求項43】
前記第1の状態の参照音声モデルは、複数の第1のカーネルを含む第1の隠れマルコフモデル(HMM)を含み、前記第1のパラメータは、前記第1のカーネルの第1のカーネルパラメータを含み、
前記第2の状態の参照音声モデルは、複数の第2のカーネルを含む第2のHMMを含み、前記第2のパラメータは、前記第2のカーネルの第2のカーネルパラメータを含む、
ことを特徴とする請求項41に記載の方法。
【請求項44】
前記第1のカーネルおよび前記第2のカーネルはガウスカーネルであり、
前記非正規化変換 T´ は:
任意の1つまたは複数のガウスカーネルの平均ベクトルに作用するアフィン変換;および
任意の1つ以上のガウスカーネルの共分散行列に作用する二次変換;
を有する、ことを特徴とする請求項43に記載の方法。
【請求項45】
前記第1の状態の参照音声モデルは、複数の第1の参照フレームを含み、前記第1のパラメータは、前記第1の参照フレームの第1の参照フレーム特徴を含み、
前記第2の状態の参照音声モデルは、複数の第2の参照フレームを含み、前記第2のパラメータは、前記第2の参照フレームの第2の参照フレーム特徴を含む、
ことを特徴とする請求項41に記載の方法。
【請求項46】
前記第1の状態の参照音声は、R人の他の被験者の、第1のサブセットによって発せられた複数の前記第1の状態の参照音声サンプルを含み、
前記第2の状態の参照音声は、他の被験者の第2サブセットによって発せられた複数の前記第2の状態の参照音声サンプルを含み、
前記方法はさらに:
前記他の被験者に対するそれぞれの変換 {T
r},r=1…R、 を識別するステップであって、 Tr は、前記他の被験者の r 番目ごとの被験者に対する、1つまたは複数の事前定義された制約の下で {Φ
r} を最適に変換する正規化変換であり、{Φ
r} は(i)前記他の被験者によって発せられた前記第1の状態の参照音声サンプル、および (ii) 前記他の被験者によって発せられた前記第2の状態の参照音声サンプル、の和集合である、ステップと;
前記他の被験者の r 番目ごとに、前記変換 T
r を特徴ベクトル {V(Φ
r)} に適用することにより、変更された特徴のセットを計算するステップと;そして
前記変更された特徴のセットから前記参照弁別子を生成するステップと;
を有する、
ことを特徴とする請求項35に記載の方法。
【請求項47】
前記第1の状態の参照音声モデルおよび前記第2の状態の参照音声モデルは、パラメータの第1のセットに関して同一であり、パラメータの第2のセットに関して互いに異なり、
前記第1の状態の被験者固有の音声モデルθ
0 を生成するステップは、 θ
0 が前記パラメータの第2のセットに関して前記第1の状態の参照音声モデルと同一であるように 前記 θ
0 を生成するように構成され、
前記θ
1を生成するステップは、前記第2の状態の被験者固有の音声モデル θ
1 が前記パラメータの第1のセットに関して前記 θ
0 と同一であり、前記パラメータの第2のセットに関して前記第2の状態の参照音声モデルと同一であるように、前記 θ
1 を生成するように構成される、
ことを特徴とする請求項35に記載の方法。
【請求項48】
前記第1の状態の参照音声モデルおよび前記第2の状態の参照音声モデルは、異なるそれぞれの隠れマルコフモデル(HMM)を含み、それぞれの前記HMMは、それぞれのカーネル重みを有する複数のカーネルを含み、
前記パラメータの第1のセットはカーネルの重みを含み、
前記パラメータの第2のセットは、カーネルのカーネルパラメータを含む、
ことを特徴とする請求項47に記載の方法。
【請求項49】
前記少なくとも1つの参照弁別子は、複数のパラメータに関連付けられた参照神経ネットワークを含み、前記神経ネットワークは、任意の1つまたは複数の音声サンプルについて、当該音声サンプルが前記第2の状態で発せられた尤度を示す別の出力を返し、
前記被験者固有の神経ネットワークを合成するステップは、音声サンプル{u
m
0}を含む入力音声サンプルのセットに対する他の出力のエラーを最小化するように、前記パラメータのサブセットを調整することによって、前記被験者固有の弁別子を合成するステップを有する、
ことを特徴とする請求項28~30のいずれか一項に記載の方法。
【請求項50】
前記パラメータは複数の神経の重みを含み、前記パラメータのサブセットは前記重みのサブセットを含む、ことを特徴とする請求項49に記載の方法。
【請求項51】
前記参照神経ネットワークは複数の層を含み、前記重みのサブセットは、前記層のうちの1つに関連付けられた重みの少なくともいくつかを含むが、別の層に関連付けられた重みは含まない、ことを特徴とする請求項50に記載の方法。
【請求項52】
前記層は、(i)前記音声サンプルに基づく入力に応答して音響層出力を生成する、神経の1つまたは複数の音響層と、(ii)前記音響層の出力に応答して音声層出力を生成する、神経の1つまたは複数の音声層と、(iii)前記音声層出力に応答して他の出力を生成する、神経の1つまたは複数の弁別層と、を有し、
前記重みのサブセットは、前記音響層および前記弁別層に関連付けられた重みの少なくとも幾つかを含むが、前記音声層に関連付けられた重みは含まない、
ことを特徴とする請求項51に記載の方法。
【請求項53】
前記パラメータのサブセットは、前記音声サンプルの話者を識別する話者識別パラメータを含む、ことを特徴とする請求項49に記載の方法。
【請求項54】
前記入力音声サンプルのセットは、1つまたは複数の前記第2の状態の音声サンプルをさらに含む、ことを特徴とする請求項49に記載の方法。
【請求項55】
プログラム命令が格納された有形の非一過性コンピュータ可読媒体を含むコンピュータソフトウェア製品であって、前記命令は、プロセッサにより読まれたときに、プロセッサに対し:
疾患に関して第1の状態にある間に被験者によって発せられた複数の音声サンプル{u
m
0}、m=1…M を受信するステップと;そして
前記{u
m
0}と、前記被験者に固有ではない少なくとも1つの参照弁別子と、を使用して、前記被験者が疾患に関して第2の状態にある間に前記被験者により発せられた他の音声サンプルを使用することなく、前記被験者に固有の弁別子を合成するステップと;
を実行するようにさせ、
前記弁別子は、前記被験者に固有であり、そして前記被験者によって発せられた1つまたは複数のテスト発話に応答して、前記被験者が前記第2の状態にあることの尤度を示す出力を生成するように構成される、
ことを特徴とするコンピュータソフトウェア製品。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特に診断目的のための音声信号処理の分野に関する。
【背景技術】
【0002】
本明細書に参照して取り入れられる、SakoeとChiba氏著、「音声認識のための動的プログラミング アルゴリズムの最適化」、音響、音声、信号処理に関するIEEEトランザクション 26.2(1978):43-49(非特許文献1)は、 話し言葉認識のための時間正規化アルゴリズムに基づいた、最適動的プログラミング(DP)について記載している。最初に、タイムワーピング関数を使用して、時間正規化の一般原理が与えられる。次に、対称形式と非対称形式と呼ばれる2つの時間正規化された距離の定義が、その原理から導き出される。これらの2つの形式は、理論的な議論と実験的研究を通じて互いに比較される。対称形アルゴリズムの優位性が確立される。傾斜制約と呼ばれる技法が導入され、ワーピング関数の傾斜が制限され、異なるカテゴリの単語間の識別が改善される。
【0003】
Rabiner、Lawrence R.著、「音声認識における隠れマルコフ モデルと選択されたアプリケーションに関するチュートリアル」、Proceedings of the IEEE 77.2 (1989): 257-286(非特許文献2)、これは参照により本明細書に組み込まれるが、は統計モデリングのタイプの理論的側面を検証し、およびそれらが音声の機械認識で選択された問題にどのように適用されたかを記載している。
【0004】
米国特許第5,864,810号(特許文献1)は、適応データを使用して特定の話者に適応し、話者に依存しないモデルを話者に適応したモデルに変換する変換を開発する、音声の自動認識の方法および装置について説明している。次に、話者適応モデルが話者認識に使用され、適応されていないモデルよりも優れた認識精度が達成される。さらなる実施形態では、変換ベースの適応技術は、既知のベイジアン適応技術と組み合わされる。
【0005】
米国特許第9,922,641号(特許文献2)は、入力音声データを話者から第1の言語で受信し、ユニバーサル音声モデルに基づいて、入力音声データに関連付けられた話者特性を表す話者変換を推定することを含む方法について説明している。この方法は、第1の言語とは異なる第2の言語で音声データを生成するために、話者に依存しない音声モデルにアクセスすることも含む。この方法はさらに、話者変換を使用して話者非依存の音声モデルを修正して話者固有の音声モデルを取得し、話者固有の音声モデルを使用して第2言語で音声データを生成することを含む。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】米国特許第5,864,810号
【特許文献2】米国特許第9,922,641号
【非特許文献】
【0007】
【非特許文献1】SakoeとChiba氏著、「音声認識のための動的プログラミング アルゴリズムの最適化」、音響、音声、信号処理に関するIEEEトランザクション 26.2(1978):43-49
【非特許文献2】Rabiner、Lawrence R.著、「音声認識における隠れマルコフ モデルと選択されたアプリケーションに関するチュートリアル」、Proceedings of the IEEE 77.2 (1989): 257-286
【発明の概要】
【0008】
本発明の幾つかの実施形態では、装置は通信インタフェースとプロセッサを有する。プロセッサは:通信インタフェースを介して、疾患に関して第1の状態にある間に被験者によって発せられた複数の音声サンプル{um
0}、m=1…M を受信し;そして{um
0}と、被験者に固有ではない少なくとも1つの参照弁別子と、を使用して、被験者に固有の弁別子を合成する;ように構成され、弁別子は、被験者に固有であり、そして被験者によって発せられた1つまたは複数のテスト発話に応答して、被験者が疾患に関して第2の状態にあることの尤度を示す出力を生成するように構成される。
【0009】
幾つかの実施形態では、第1の状態は安定状態であり、第2の状態は不安定状態である。
【0010】
幾つかの実施形態では、疾患が、うっ血性心不全(CHF)、冠状動脈性心疾患、不整脈、慢性閉塞性肺疾患(COPD)、喘息、間質性肺疾患、浮腫、胸水、パーキンソン病、うつ病、からなる疾患群から選択される。
【0011】
幾つかの実施形態では、プロセッサは:任意の音声サンプル s について、s と被験者の第1の状態の音声との間の第1の類似度を示す第1の距離尺度を返す、第1の状態の被験者固有の音声モデル θ0 を生成するステップと;そしてs と被験者の第2の状態の音声との間の第2の類似度を示す第2の距離尺度を返す、第2の状態の被験者固有の音声モデル θ1を生成するステップと;により被験者に固有の弁別子を合成する、ように構成される。
【0012】
幾つかの実施形態では、少なくとも1つの参照弁別子はK個の参照弁別子{φk},k=1…K、を有し、{φk}は:それぞれの第1の距離 {Dk
0(s)} を返すそれぞれの第1の状態の参照音声モデルであって、 {Dk
0(s)} は、s と1人または複数の他の被験者のK個のグループによって発せられた、それぞれの第1の状態の参照音声との間の第1の類似度を示す、第1の状態の参照音声モデルと;それぞれの第2の距離 {Dk
1(s)} を返すそれぞれの第2の状態の参照音声モデルであって、 {Dk
1(s)} は、s と1人または複数の他の被験者のK個のグループによって発せられた、それぞれの第2の状態の参照音声との間の第2の類似度を示す、第2の状態の参照音声モデルと;
を有し、ここで、θ0 は{Dk
0(s)}に関数を適用して第1の距離尺度を返し、ここで、θ1 は{Dk
1(s)}に関数を適用して第2の距離尺度を返す。
【0013】
幾つかの実施形態では、関数は、{Dk
0(s)}に適用されると、{D´k
0(s)}の加重平均を返し、ここで{D´k
0(s)}は Dk
0(s)の非減少関数である。
【0014】
幾つかの実施形態では、加重平均は、K個の重み{wk},k=1…K、に対して Σk=1
KwkD´k
0(s)であり、それは1つの制約に関して音声サンプル{um
0}に対するそれぞれの距離尺度の合計を最小化し、{um
0}に属するそれぞれの音声サンプル um に対する距離尺度は、Σk=1
KwkD´k
0(um )に基づく。
【0015】
幾つかの実施形態では、少なくとも1つの参照弁別子は、s と、第1の状態の参照音声との間の第1の類似度を示す第1の距離 D0(s) を返す第1の状態の参照音声モデルと、そしてs と、第2の状態の参照音声との間の第2の類似度を示す第2の距離 D1(s) を返す第2の状態の参照音声モデルと、を有する。
【0016】
幾つかの実施形態では、第1の状態の参照音声モデルは、s から抽出された一連の特徴ベクトル V(s) に第1の関数を適用することによって D0(s)を返し、第2の状態の参照音声モデルは、 V(s) に第2の関数を適用することによって D1(s)を返し、ここで、θ0およびθ1を生成するステップは、1つまたは複数の事前定義された制約の下で{V(um
0)}を最適に変換する正規化変換 T を使用してθ0およびθ1を生成するステップを有する。
【0017】
幾つかの実施形態では、正規化変換 T が1つの制約に関して、
Σu∈{um0}Δ(T(V(u)),V(u0))を最小化し、
ここでΔは、2セットの特徴間の第3の距離尺度であり、
u0 は u∈{um
0} のコンテントの正規の発話である。
【0018】
幾つかの実施形態では、Δは、動的タイムワーピング(DTW)距離の非減少関数である。
【0019】
幾つかの実施形態では、正規化変換 T が1つの制約に関して、
Σu∈{um0}f´0(T(V(u)))を最小化し、f´0は、第1の関数の非減少関数である。
【0020】
幾つかの実施形態では、θ0 は、第1の関数を T(V(s)) に適用して第1の距離尺度を返し、θ1 は、第2の関数を T(V(s)) に適用して第2の距離尺度を返す。
【0021】
幾つかの実施形態では、θ0を生成するステップは、非正規化変換 T´ を第1のパラメータに適用するステップを有し、ここで非正規化変換 T´ は1つまたは複数の事前定義された制約の下で、第1の状態の参照音声モデルの第1のパラメータを最適に変換し、そしてθ1を生成するステップは、非正規化変換 T´ を第2の状態の参照音声モデルの第2のパラメータに適用することによりθ1を生成するステップを有する。
【0022】
幾つかの実施形態では、非正規化変換 T´ は、制約のもとで、
Σu∈{um0}T´(D0)(u)を最小化し、T´(D0)(s)は変換の下で第1の状態の参照音声モデルによって返される第1の距離である。
【0023】
幾つかの実施形態では、第1の状態の参照音声モデルは、複数の第1のカーネルを含む第1の隠れマルコフモデル(HMM)を含み、第1のパラメータは、第1のカーネルの第1のカーネルパラメータを含み、第2の状態の参照音声モデルは、複数の第2のカーネルを含む第2のHMMを含み、第2のパラメータは、第2のカーネルの第2のカーネルパラメータを含む。
【0024】
幾つかの実施形態では、第1のカーネルおよび第2のカーネルはガウスカーネルであり、 T´ は:任意の1つまたは複数のガウスカーネルの平均ベクトルに作用するアフィン変換;および任意の1つ以上のガウスカーネルの共分散行列に作用する二次変換;を有する。
【0025】
幾つかの実施形態では、第1の状態の参照音声モデルは、複数の第1の参照フレームを含み、第1のパラメータは、第1の参照フレームの第1の参照フレーム特徴を含み、第2の状態の参照音声モデルは、複数の第2の参照フレームを含み、第2のパラメータは、第2の参照フレームの第2の参照フレーム特徴を含む。
【0026】
幾つかの実施形態では、第1の状態の参照音声は、R人の他の被験者の、第1のサブセットによって発せられた複数の第1の状態の参照音声サンプルを含み、
第2の状態の参照音声は、他の被験者の第2サブセットによって発せられた複数の第2の状態の参照音声サンプルを含み、ここで、プロセッサはさらに: 他の被験者に対するそれぞれの変換 {Tr},r=1…R、 を識別するステップであって、 Tr は、他の被験者の r 番目ごとの被験者に対する、1つまたは複数の事前定義された制約の下で {Φr} を最適に変換する正規化変換であり、{Φr} は(i)他の被験者によって発せられた第1の状態の参照音声サンプル、および (ii) 他の被験者によって発せられた第2の状態の参照音声サンプル、の和集合である、ステップと;他の被験者の r 番目ごとに、Tr を {V(Φr)} に適用することにより、変更された特徴のセットを計算するステップと;そして変更された特徴のセットから参照弁別子を生成するステップと; を実行するように構成される。
【0027】
幾つかの実施形態では、第1の状態の参照音声モデルおよび第2の状態の参照音声モデルは、パラメータの第1のセットに関して同一であり、パラメータの第2のセットに関して互いに異なり、プロセッサは、 θ0 がパラメータの第2のセットに関して第1の状態の参照音声モデルと同一であるように θ0 を生成するように構成され、プロセッサは、θ1がパラメータの第1のセットに関してθ0と同一であり、パラメータの第2のセットに関して第2の状態の参照音声モデルと同一であるように、θ1を生成するように構成される。
【0028】
幾つかの実施形態では、第1の状態の参照音声モデルおよび第2の状態の参照音声モデルは、異なるそれぞれの隠れマルコフモデル(HMM)を含み、それぞれのHMMは、それぞれのカーネル重みを有する複数のカーネルを含み、パラメータの第1のセットはカーネルの重みを含み、パラメータの第2のセットは、カーネルのカーネルパラメータを含む。
【0029】
幾つかの実施形態では、少なくとも1つの参照弁別子は、複数のパラメータに関連付けられた参照神経ネットワークを含み、神経ネットワークは、任意の1つまたは複数の音声サンプルについて、当該音声サンプルが第2の状態で発せられた尤度を示す別の出力を返し、プロセッサは、音声サンプル{um
0}を含む入力音声サンプルのセットに対する他の出力のエラーを最小化するように、パラメータのサブセットを調整することによって、被験者固有の神経ネットワークを合成することによって、被験者固有の弁別子を合成するように構成される。
【0030】
幾つかの実施形態では、パラメータは複数の神経の重みを含み、パラメータのサブセットは重みのサブセットを含む。
【0031】
幾つかの実施形態では、参照神経ネットワークは複数の層を含み、重みのサブセットは、層のうちの1つに関連付けられた重みの少なくともいくつかを含むが、別の層に関連付けられた重みは含まない。
【0032】
幾つかの実施形態では、層は、(i)音声サンプルに基づく入力に応答して音響層出力を生成する、神経の1つまたは複数の音響層と、(ii)音響層の出力に応答して音声層出力を生成する、神経の1つまたは複数の音声層と、(iii)音声層出力に応答して他の出力を生成する、神経の1つまたは複数の弁別層と、を有し、重みのサブセットは、音響層および弁別層に関連付けられた重みの少なくとも幾つかを含むが、音声層に関連付けられた重みは含まない。
【0033】
幾つかの実施形態では、パラメータのサブセットは、音声サンプルの話者を識別する話者識別パラメータを含む。
【0034】
幾つかの実施形態では、入力音声サンプルのセットは、1つまたは複数の第2の状態の音声サンプルをさらに含む。
【0035】
本発明の幾つかの実施形態では、疾患に関して第1の状態にある間に被験者によって発せられた複数の音声サンプル{um
0}、m=1…M を受信するステップを含む方法が提供される。方法はさらに、{um
0}と、被験者に固有ではない少なくとも1つの参照弁別子と、を使用して、被験者に固有の弁別子を合成するステップを有し、弁別子は、被験者に固有であり、そして被験者によって発せられた1つまたは複数のテスト発話に応答して、被験者が疾患に関して第2の状態にあることの尤度を示す出力を生成するように構成される。
【0036】
本発明の幾つかの実施形態では、プログラム命令が格納された有形の非一過性コンピュータ可読媒体を含むコンピュータソフトウェア製品が提供される。命令は、プロセッサにより読まれたときに、プロセッサに対し:疾患に関して第1の状態にある間に被験者によって発せられた複数の音声サンプル{um
0}、m=1…M を受信するステップと;そして{um
0}と、被験者に固有ではない少なくとも1つの参照弁別子と、を使用して、被験者に固有の弁別子を合成するステップと;を実行するようにさせ、弁別子は、被験者に固有であり、そして被験者によって発せられた1つまたは複数のテスト発話に応答して、被験者が疾患に関して第2の状態にあることの尤度を示す出力を生成するように構成される。
【図面の簡単な説明】
【0037】
本発明は、添付の図面を参照した実施形態の詳細な説明からより完全に理解されよう:
【
図1】本発明のいくつかの実施形態による、被験者の生理学的状態を評価するためのシステムの概略図である。
【
図2】本発明のいくつかの実施形態による、被験者固有の音声モデルを生成するための手法の流れ図である。
【
図3】本発明のいくつかの実施形態による、被験者固有の音声モデルを生成するための手法の流れ図である。
【
図4】本発明のいくつかの実施形態による、被験者固有の音声モデルを生成するための手法の流れ図である。
【
図5】本発明のいくつかの実施形態による神経ネットワーク弁別子の概略図である。
【発明を実施するための形態】
【0038】
(用語)
特許請求の範囲を含む本出願の文脈において、被験者が状態の急激な悪化に苦しんでいる場合、被験者は生理学的状態(または「疾患」)に関して「不安定な状態」にあると言われる。それ以外の場合、被験者は生理学的状態に関して「安定した状態」にあると言われる。
【0039】
特許請求の範囲を含む本出願の文脈において、「音声モデル」は、音声サンプルをサンプルの特性を示す出力にマッピングするように構成されたコンピュータ実装関数を指す。例えば、被験者が発声した音声サンプルが与えられると、音声モデルは、s と被験者または他の被験者の参照音声との間の類似度を示す距離尺度D(s)を返すことができる。
【0040】
特許請求の範囲を含む本出願の文脈において、「弁別子」は、様々な状態を識別するように構成された、典型的には機械学習モデルである1つ以上のモデルのグループを指す。例えば、特定の生理学的状態に関して「安定」および「不安定」などの一組の状態が与えられると、弁別子は、被験者の音声サンプルに基づいて、被験者が不安定である可能性を示す出力を生成することができる。
【0041】
(概要)
生理学的状態に苦しんでいる被験者の場合、被験者の音声に基づいて、被験者がその状態に関して安定状態にあるか不安定状態にあるかを確認するように構成された弁別子をトレーニングすることが望ましい場合がある。ただし、課題は、状態ごとに十分な数のトレーニングサンプルを取得するのが難しい場合があることである。例えば、一般的に安定している被験者の場合、安定状態で発せられた十分な数の音声サンプルが利用可能でありうるが、不安定状態で発せられた十分な数の音声サンプルを取得することは困難な場合がある。他の被験者の場合、十分な数の不安定な状態のサンプルを収集するのは簡単かもしれない(例えば、被験者の病院への入院後)が、十分な数の安定した状態のサンプルは収集できない。
【0042】
この課題に対処するため、本発明の実施形態は、被験者に固有ではない参照弁別子から、被験者に固有の(すなわち、被験者を弁別するように構成されている)弁別子を生成する。被験者固有の弁別子を生成するために、プロセッサは、参照弁別子を変更または適応させる状態の1つにある間に被験者が発声した音声サンプルを使用する。このプロセスは、被験者固有の弁別子の「合成」と呼ばれる。有利なことに、被験者が別の状態にあるときに発声した音声サンプルは必要ないからである。
【0043】
本明細書に記載の技術を使用して、うっ血性心不全(CHF)、冠状動脈性心疾患、心房細動、またはその他の任意のタイプの不整脈、慢性閉塞性肺疾患(COPD)、喘息、間質性疾患、肺疾患、肺水腫、胸水、パーキンソン病、またはうつ病などの任意の適切な生理学的状態の弁別子を合成することができる。
【0044】
(システムの説明)
最初に、本発明のいくつかの実施形態による、被験者22の生理学的状態を評価するためのシステム20の概略図である
図1を参照する。
【0045】
システム20は、携帯電話、タブレット コンピューター、ラップトップ コンピューター、デスクトップ コンピューター、音声制御のパーソナル アシスタント (Amazon Echo(登録商標)または Google Home(登録商標)装置など)、スマート 装置などの音響受信装置32を備えている。音響受信装置32は、音波をアナログ電気信号に変換する音響センサ38(例えば、マイクロフォン)、アナログデジタル(A/D)変換器を含む回路を備える。通常、音響受信装置32は、ソリッドステートドライブ、スクリーン(例えば、タッチスクリーン)などのストレージ装置、および/またはキーボードやスピーカーなどのその他のユーザインタフェースをさらに備える。いくつかの実施形態では、音響センサ38(およびオプションとしてA/D変換器42)は、音響受信装置32の外部にあるユニットに属する。例えば、音響センサ38は、有線またはBluetooth 接続などのワイヤレス接続により音響受信装置32に接続するヘッドセットに属してもよい。
【0046】
システム20は、プロセッサ28、ハードドライブまたはフラッシュドライブなどの記憶装置30、およびネットワークインタフェースコントローラ(NIC)26などのネットワークインタフェースを含む回路を備える、サーバ40をさらに備える。サーバ40はさらに、画面、キーボード、および/またはその他の適切なユーザインタフェース要素を備えている。典型的には、サーバ40は音響受信装置32から離れて、例えば制御センターに配置され、サーバ40と音響受信装置32は、それぞれのネットワークインタフェースを介して、セルラーネットワークおよび/またはインターネットを含むネットワーク24上で、互いに通信する。
【0047】
システム20は、被験者から受信した1つまたは複数の音声信号(本明細書では「音声サンプル」とも呼ばれる)を処理することによって、被験者の生理学的状態を評価するように構成されている。通常、音響受信装置32のプロセッサ36およびサーバ40のプロセッサ28は、音声サンプルの少なくともいくつかの受信および処理を協調して実行する。例えば、被験者が受信装置32に向かって話すと、被験者の音声の音波は音響センサ38によってアナログ信号に変換され、A/D変換器42によってサンプリングされデジタル化される。被験者の音声は、8kHzと45kHzとの間のレートなど、任意の適切なレートでサンプリングすることができる。結果として得られるデジタル音声信号は、プロセッサ36によって受信することができる。次に、プロセッサ36は、NIC34を介して、音声信号をサーバ40に通信することができる。その後、プロセッサ28は音声信号を処理することができる。
【0048】
被験者の音声信号を処理するために、プロセッサ28は、被験者22に固有であり、記憶装置30に格納されている被験者固有弁別子44を使用する。それぞれの音声信号に基づいて、被験者固有弁別子44は被験者が特定の生理学的状態にある尤度を示す出力を生成する。例えば、出力は、生理学的状態に関して、被験者が安定した状態にある可能性、および/または被験者が不安定な状態にある可能性を示し得る。代替的または追加的に、出力は、被験者の状態が不安定である尤度の程度を示すスコアを含むことができる。プロセッサ28はさらに、後続の図を参照して以下で詳細に説明するように、被験者固有弁別子を使用する前に被験者固有弁別子44を合成するように構成される。
【0049】
被験者固有弁別子からの出力に応答して、プロセッサは、被験者および/または被験者の医師などの別の人に対して、任意の適切な音響またはビジュアル出力を生成することができる。例えば、プロセッサ28は、プロセッサ36に出力を伝達することができ、プロセッサ36は、例えば受信装置32の画面上にメッセージを表示することによって、被験者に出力を伝達することができる。被験者の状態が不安定であるという比較的高い可能性を出力すると、プロセッサは、被験者が薬を服用するか、医師の診察を受ける必要があることを示すアラートを生成することができる。このような警告は、被験者、被験者の医師、および/または監視センターに電話をかけるか、またはメッセージ (たとえば、テキストメッセージ)を送信することによって通信することができる。代替的または追加的に、弁別子からの出力に応答して、プロセッサは、被験者に投与される薬剤の量を調整するように、薬剤投与装置を制御することができる。
【0050】
他の実施形態では、被験者固有弁別子の合成に続いて、プロセッサ28は被験者固有弁別子をプロセッサ36に通信し、プロセッサ36は次に受信装置32に属する記憶装置に被験者固有弁別子を格納する。その後、プロセッサ36は被験者固有弁別子を使用することができる。さらに別の代替として、被験者固有弁別子の合成さえプロセッサ36によって実行されてもよい。(上記に拘わらず、本明細書の以下の記載では、全体的に、プロセッサ28-以下では単に「プロセッサ」とも呼ばれる―が合成を実行するものと仮定する。)
【0051】
いくつかの実施形態では、受信装置32は、A/D変換器またはプロセッサを含まないアナログ電話を含む。そのような実施形態では、受信装置32は、音声センサ38からのアナログ音声信号を、電話ネットワークを介してサーバ40に送信する。通常、電話ネットワークでは、音声信号はデジタル化され、デジタルで通信され、サーバ40に到達する前にアナログに変換される。従ってサーバ40はA/D変換器を有し、それは適切な 電話-ネットワークインタフェースを介して受信した入力音響アナログ信号をデジタル音声信号へ変換する。プロセッサ28は、A/D変換器からデジタル音声信号を受信し、次に上述のように信号を処理する。あるいは、サーバ40は、信号がアナログに変換される前に電話網から信号を受信することができ、サーバは必ずしもA/D変換器を備える必要はない。
【0052】
後続の図を参照して以下でさらに説明するように、プロセッサ28は、既知の生理学的状態にある間に被験者22によって発せられたトレーニング音声サンプルを使用して、被験者固有弁別子44を合成する。これらのサンプルのそれぞれは、インタフェース、またはフラッシュドライブインタフェースなどの任意の他の適切な通信インタフェースを介してネットワーク上で受信され得る。同様に、被験者固有弁別子を合成するためにも使用される、被験者22に固有ではない少なくとも1つの参照弁別子、または参照弁別子を生成するために使用され得る他の被験者からのトレーニングサンプルは、プロセッサ28によって適切な通信インタフェースを介して受信され得る。
【0053】
プロセッサ28は、単一のプロセッサとして、または協調的にネットワーク化された、またはクラスタ化されたプロセッサのセットとして具現化され得る。例えば、制御センターは、本明細書に記載の技術を協調的に実行する、それぞれのプロセッサを含む複数の相互接続されたサーバを含むことができる。いくつかの実施形態では、プロセッサ28は仮想マシンに属する。
【0054】
一部の実施形態では、プロセッサ28および/またはプロセッサ36の機能は、本明細書で説明されるように、例えば、1つまたは複数の固定機能または汎用集積回路、特定用途向け集積回路(ASIC)および/またはフィールド プログラマブル ゲート アレイ (FPGA)を使用して、ハードウェアのみで実装される。あるいは、この機能は、少なくとも部分的にソフトウェアで実装することができる。例えば、プロセッサ28および/またはプロセッサ36は、例えば中央処理装置(CPU)および/またはグラフィックス処理装置(GPU)を含むプログラムされたプロセッサとして具現化され得る。ソフトウェアプログラムを含むプログラムコードおよび/またはデータは、CPUおよび/またはGPUによる実行および処理のためにロードされ得る。プログラムコードおよび/またはデータは、例えばネットワークを介して電子形式でプロセッサにダウンロードされ得る。代替的または追加的に、プログラムコードおよび/またはデータは、磁気、光学、または電子メモリなどの非一過性有形媒体に提供および/または格納されてもよい。そのようなプログラムコードおよび/またはデータは、プロセッサに提供されると、本明細書に記載のタスクを実行するように構成されたマシンまたは専用コンピュータを生成する。
【0055】
(被験者固有弁別子の合成)
上記の概要で説明したように、2つの状態を識別するための弁別子を生成する従来の技法では、通常、状態ごとに十分な数のトレーニングサンプルが必要である。ただし、状況によっては、プロセッサが状態の内の1つだけに対して十分なトレーニングサンプルを持っている場合がある。このような状況に対処するために、プロセッサは被験者固有弁別子を合成する。
【0056】
この合成を実行するために、プロセッサは最初に複数の音声サンプル{um
0}、m=1…M を受信する。これは、病気に関して第1の状態(たとえば、安定した状態)にある間に被験者によって発せられた。次に、{um
0}と、被験者に固有ではない少なくとも1つの参照弁別子を使用して、プロセッサは被験者固有弁別子を合成する。有利なことに、プロセッサが、疾患に関して第2の状態(例えば、不安定な状態)にある間に被験者によって発せられた音声サンプルをほとんどまたは全く有していないにもかかわらず、被験者特有弁別子は、被験者により発せられた1つまたは複数のテスト発声に応答して、被験者が第2の状態にある尤度を示す出力を生成することができる。
【0057】
(マルチモデル弁別子)
いくつかの実施形態では、被験者固有弁別子は、第1の状態の被験者固有音声モデルθ0および第2の状態の被験者固有音声モデルθ1を含む。任意の音声サンプル s について、θ0 は s と被験者の第1の状態の音声との間の類似度を示す第1の距離尺度を返し、θ1 は s と被験者の第2の状態の音声との間の類似度を示す第2の距離尺度を返す。そのような実施形態では、被験者固有弁別子は、2つの距離尺度の相互比較に基づいて出力を生成することができる。例えば、距離が大きいほど類似性が低いことを示す慣習を仮定すると、被験者固有の弁別子は、第1の距離尺度と第2の距離尺度との間の比がしきい値未満であることに応答して、被験者が第1の状態にある可能性が高いことを示す出力を生成することができる。あるいは、被験者固有弁別子は、距離尺度に基づいて2つの状態のそれぞれの尤度を出力するか、または単に2つの距離尺度を出力することができる。
【0058】
そのようなマルチモデル弁別子を合成するために、様々な技法が使用され得る。そのような技法の例は、
図1~
図4を参照してここに記載される。
【0059】
(i) 第1のテクニック
ここで、本発明のいくつかの実施形態による、θ
0およびθ
1を生成するための第1の技法46のフロー図である
図2を参照する。
【0060】
技法46は、第1の受信または生成ステップ48で始まり、ここで、プロセッサは、K≧1の参照弁別子{φk}、k=1…Kを受信または生成する。(プロセッサは、弁別子のうちの他のものを生成しながら、弁別子のうちのいくつかを受け取ることができることに留意されたい。)参照弁別子{φk}は、本明細書では「参照被験者」と呼ばれる、一人以上の他の被験者の同じK個のグループに固有のそれぞれの第1の状態の参照音声モデルおよびそれぞれの第2の状態の参照音声モデルを含む。言い換えると、任意の音声サンプル s に対して、第1の状態の参照音声モデルは、s と、K個のグループにより発せられたそれぞれの第1の状態の参照音声との間の類似度を示すそれぞれの第1の距離 {Dk
0(s)}、k=1…K を返す。一方、第2の状態の参照音声モデルは、それぞれの第2の距離 {Dk
1(s)}、k=1…K を返す。いくつかの実施形態では、参照音声モデルのそれぞれは、隠れマルコフモデル(HMM)などのパラメトリック統計音声モデルを含む。
【0061】
続いて、音声サンプル受信ステップ50で、プロセッサは、被験者22(
図1)から1つまたは複数の第1の状態の音声サンプル{u
m
0}を受信する。次に、第1の状態の第1のモデル生成ステップ52で、プロセッサは、距離の集合{D
k
0(s)}を単一の変換距離f({D
k
0(s)})に変換するための関数「f」を計算し、音声サンプル{u
m
0}の変換された距離の別の関数が、1つまたは複数の適切な制約に関して最小化されるようにする。したがって、プロセッサは、任意の音声サンプル s に対して、第1の状態の被験者固有音声モデルθ
0 によって返される距離尺度が関数「f」を{D
k
0(s)}に適用することによって計算されるように、第1の状態の被験者固有音声モデルθ
0 を生成する。
【0062】
たとえば、プロセッサは、制約に関して合計 Σm=1
M|f({Dk
0(um)})|q ,q ≧ 0 を最小化する関数「f」を識別する。あるいは、関数「f」は、制約に関して、加重和 Σm=1
Mβmf({Dk
0(um)})|q を最小化することができる。そのような実施形態では、各音声サンプルの重みβm は、サンプルの品質の関数であり得、より高品質のサンプルにはより大きな重みが割り当てられ得る。代替的または追加的に、変換された距離が所定の閾値(変換された距離の特定のパーセンタイルなど)より大きい音声サンプルは外れ
値であると見なされ、したがってゼロの重みが割り当てられる。
【0063】
続いて、第2の状態の第1のモデル生成ステップ54で、プロセッサは、同じ関数を{Dk
1(s)}に適用することによって第2の状態の被験者固有音声モデルθ1を生成する。言い換えると、プロセッサは、任意の音声サンプル s に対して、第2の状態の被験者固有音声モデルθ1 によって返される距離尺度が f({Dk
1(s)}) に等しくなるように、θ1 を生成する。
【0064】
事実上、技法46では、プロセッサは被験者の第1の状態の音声サンプルを使用して、第1の状態の被験者の声が、第1の状態における参照被験者のK個のグループの声の関数として最もよく近似される方法を学習する。次に、プロセッサは、同じ近似が第2の状態に適用されると想定し、θ0 に使用される関数を θ1 にも使用できるようにする。
【0065】
特定の例として、第1の状態の第1のモデル生成ステップ52で計算された関数は、 {Dk
0(s)} に適用されると、{D´k
0(s)} の加重平均を返す場合がある。ここで{D´k
0(s)} は、p≧ 1 の |Dk
0(s)|p などの {Dk
0(s)} の非減少関数である。言い換えれば、任意の音声サンプル s に対する第1の状態の被験者固有音声モデル θ0 によって返される距離尺度は、K の重み {wk}、k = 1…K に対して Σk=1
KwkD´k
0(s) に等しい場合がある。同様に、そのような実施形態では、第2の状態の被験者固有音声モデルθ1によって返される距離尺度は、Σk=1
KwkD´k
1(s) に等しくてもよい。ここで D´k
1(s)は Dk
1(s)と同じ非減少関数である。事実上、このような関数は、被験者の音声を参照被験者のK個のグループの音声の加重平均として近似する。
【0066】
そのような実施形態では、第1の状態の第1のモデル生成ステップ52でK個の重みを計算するために、プロセッサは、制約(例えば、Σk=1
K wk=1)に関し、音声サンプル{um
0}に対するそれぞれの距離尺度の合計を最小化してもよく、ここで音声サンプル{um
0} に属する各音声サンプル um の距離尺度は変換された距離:
Σk=1
KwkD´k
0(um) に基づく。たとえば、プロセッサは、有効性制約に関して、
q ≧ 0の場合 Σm=1
M|Σk=1
KwkD´k
0(um)|q
を最小化する場合がある。({D´k
0(s)}=|Dk
0(s)|p の実施形態では、q は一般的に 1/p に等しくされる。)上述のように、変換された距離は、例えば、サンプルのさまざまな品質に応じて重み付けされ得る。
【0067】
いくつかの実施形態では、被験者固有のモデルを単純化するために、プロセッサは、重み{wk}の特定のパーセンタイル未満および/または事前定義された閾値未満の重みなど、比較的低い重みをゼロにする。次いで、プロセッサは、重みの合計が1になるように残りのゼロでない重みを再スケーリングすることができる。たとえば、プロセッサは、θ0 によって返される距離尺度が D´kmax
0 に等しくなるように、最大の重み wmax を除くすべての重みをゼロにする場合がある。ここで、kmax は 最大の重み wmax のインデックスである。したがって、事実上、被験者の音声は、他のK-1個のグループを無視して、参照被験者のK個のグループのうちの1つのグループの声により近似することができる。
【0068】
(ii) 第二の技法
ここで、本発明のいくつかの実施形態による、θ
0およびθ
1を生成するための第2の技法56のフロー図である
図3を参照する。
【0069】
技法56は、第2の受信または生成ステップ58で開始し、プロセッサは、第1の状態の参照音声モデルおよび第2の状態の参照音声モデルを受信または生成する(それぞれが被験者に固有のものではない)。技法46の第1の状態の参照モデル(
図2)のそれぞれと同様に、技法56の第1の状態の参照音声モデルは、任意の音声サンプル間の類似度を示す第1の距離 D
0(s) を返し、それは任意の音声サンプル s と第1の状態の参照音声との間の類似度を示す。同様に、技法46の第2の状態の参照モデルのそれぞれと同様に、技法56 の第2の状態の参照音声モデルは、s と第2の状態の参照音声との類似度を示す、第2の距離 D
1(s)を返す。
【0070】
たとえば、第1の状態の参照音声モデルは、第1の関数 f0 を音声サンプル s から抽出された特徴ベクトルのセット V(s) に適用することによって、D0(s) を返すことができる (つまり、D0(s) は f0(V(s)) に等しい場合がある)。一方、第2の状態の参照音声モデルは、第2の関数 f1 を V(s) に適用することによって D1(s)を返すことができる(つまり、D1(s) は f1(V(s))に等しい)。参照音声モデルのそれぞれは、隠れマルコフモデル(HMM)などのパラメトリック統計音声モデルを含むことができる。
【0071】
ただし、技法46の場合とは対照的に、2つの参照モデルは、必ずしも同じグループの被験者の参照音声から生成されるとは限らない。例えば、第1の状態の参照音声モデルは、1人以上の被験者の1つのグループの第1の状態の参照音声から生成されてもよく、第2の状態の参照音声モデルは、1人以上の被験者の別のグループの第2の状態の参照音声から生成されてもよい。あるいは、モデルの一方または両方が、音声合成装置によって生成された人工音声から生成されてもよい。したがって、技法56は、すぐ下で詳細に説明するように、技法46とは異なる。
【0072】
第2の受信または生成ステップ58の実行に続いて、プロセッサは、音声サンプル受信ステップ50で音声サンプル{um
0}を受信する。次に、いくつかの実施形態では、変換計算ステップ60で、プロセッサは1つ以上の事前定義された制約の下で特徴ベクトル{V(um
0)}を最適に変換する、変換 T を計算する。Tは、被験者の音声サンプルの特徴を変換して、被験者の声道の特殊性を中和する、すなわち、Tは、音声サンプルをより一般的または標準的にレンダリングするという点で、「特徴正規化」変換と呼ぶことができる。
【0073】
たとえば、T は、制約に関して:
ΣuΕ{um0}f´0 (T(V(u)))
を最小化することができ、ここで f´0 は f0 の非減少関数である。(たとえば、f´0 (*) は、p≧1 の場合、|f0(*)|p に等しい場合がある。) あるいは、T は1つ以上の事前定義された有効性制約の下で:
ΣuΕ{um0}Δ(T(V(u)),V(u0 ))
を最小化でき、ここで Δ は任意の2セットの特徴ベクトル間の距離尺度であり、u0 は、{um
0}に属する各サンプル u に対する、コンテンツの合成音声などの、u のコンテンツの正規の発話である。いくつかの実施形態では、Δは動的タイムワーピング(DTW)距離の非減少関数であり、これは、参照により本明細書に組み込まれる、背景技術で引用されたSakoeおよびChiba氏著の参考文献(非特許文献1)に記載されているように計算され得る。たとえば、Δ(T(V(u)),V(u0 )) は:
|DTW(T(V(u)),V(u0 ))|p と等しい場合がある。ここで、DTW(V1,V2) は特徴ベクトル V1 と V2 の2つのセット間の DTW距離であり、そして p≧1である。
【0074】
(通常、特徴ベクトルの2つのセット間のDTW距離は、一方のセットの各特徴ベクトルを他方のセットのそれぞれの特徴ベクトルにマッピングすることにより計算され、特徴のペア間のそれぞれのローカル距離の合計が最小化される。ベクトルの各ペア間のローカル距離は、ベクトルの対応する要素間の二乗差を合計するか、または他の適切な関数を使用して計算できる。)
【0075】
通常、プロセッサは、各受信音声サンプル s から、N 個の重複または非重複フレームを抽出する。N は、各フレームの事前定義された長さの関数である。したがって、V(s) にはフレームごとに1つの特徴ベクトルの N 個の特徴ベクトル {vn}、n=1…N、が含まれる。(各特徴ベクトルは、例えば、フレームのケプストラム係数のセットおよび/または線形予測係数のセットを含むことができる。)典型的には、T は、各特徴ベクトルに独立して作用する変換を含み、すなわち、T(V(s))= {T(vn)}、n=1…N。たとえば、T には、各特徴ベクトル上で独立して動作するアフィン変換を含めることができる。つまり、T(V(s))は {Avn + b}、n=1…N に等しく、ここで A は LxL 行列であり、b は Lx1 ベクトルであり、L は各ベクトル vn の長さである。
【0076】
T の計算に続いて、プロセッサは、第1の状態の第2のモデル生成ステップ 62で、任意の音声サンプル s に対して、第1の状態の被験者固有音声モデルθ0 が f0(T(V(s)))を返す。同様に、第2の状態の第2のモデル生成ステップ64で、プロセッサは、第2の状態の被験者固有音声モデルθ1がf1(T(V(s))を返すようにθ1を生成する。
【0077】
他の実施形態では、プロセッサは、T を計算するのではなく、代替変換計算ステップ66 で、1つまたは複数の事前定義された制約の下で第1の状態の参照音声モデルのパラメータを最適に変換する代替変換 T´を計算する。たとえば、プロセッサは、制約下で:
ΣuΕ{um0}T´(D0)(u)
を最小化し、ここでT´(D0)(s) は、変換の下で第1の状態の参照音声モデルによって返される距離である。あるいは、T の計算に続いて、プロセッサは T から T´ を導き出し、T´ をモデルパラメータに適用することは、T を被験者の音声サンプルの特徴に適用するのと同じ効果が得られる。 T´ は「パラメータ非正規化」変換と呼ばれる場合があり、それはT´ は参照モデルのパラメータを変換して、被験者の声道の特殊性によりよく一致させる。即ちT´ は参照モデルを被験者により固有にする。
【0078】
そのような実施形態では、T´を計算した後、プロセッサは、第1の状態の第3のモデル生成ステップ68で、T´を第1の状態の参照音声モデルのパラメータに適用することによって第1の状態の被験者固有音声モデルθ0を生成する。同様に、第2の状態の第3のモデル生成ステップ70で、プロセッサは、T´を第2の状態の参照音声モデルのパラメータに適用することによって第2の状態の被験者固有音声モデルθ1を生成する。言い換えると、プロセッサは、任意の音声サンプル s に対して θ0 が:
T´(D0)(s) = f´0(V(s))
を返すように θ0 を生成する。ここでT´により変更された第1の状態の参照音声モデルのパラメータを使用したことに起因して、f´0 はf0 とは異なる。同様に、プロセッサは、θ1 が:
T´(D1)(s) = f´1(V(s))
を返すように θ1 を生成する。ここでT´により変更された第2の状態の参照音声モデルのパラメータを使用したことに起因して、f´1 はf1 とは異なる。(T´が上記のようにTから導出される実施形態では、
f´0(V(s))=f0(T(V(s)) および
f´1(V(s))=f1(T(V(s)) である。)
【0079】
例えば、参照音声モデルのそれぞれが複数のカーネルを含むHMMを含む場合、各被験者固有モデルは、前の実施形態に従って、対応する参照音声モデルのカーネルにT(V(s))を入力することができる。あるいは、後者の実施形態では、カーネルのパラメータはT´を使用して変換することができ、V(s)は次に変換されたカーネルに入力することができる。
【0080】
特定の例として、各参照HMMは各状態に対して複数のガウスカーネルを含むことができ、各カーネルは:
g(v;μ,σ)=(1/√(2π|σ|))*e-(v-μ)T σ-1 (v-μ)
の形であり、ここで v は V(s) に属する任意の特徴ベクトルであり、 μ は平均ベクトルであり、 σ は行列式 |σ| を持つ共分散行列である。たとえば、J 個のカーネルを持つ状態 x を仮定すると、v と x の間のローカル距離は:
L(Σj=1
Jwx,j g(v;μx,j,σx,j)
として計算され、ここで、g(v;μx,j,σx,j) は、j=1…Jにおける状態 x に属する j 番目のガウスカーネルであり、wx,j はこのカーネルの重みであり、L は恒等関数やマイナスログ関数などの適切なスカラー関数である。この場合、T´ は、カーネルのいずれか1つまたは複数の平均ベクトルに作用するアフィン変換と、カーネルのいずれか1つまたは複数の共分散行列に作用する二次変換を含むことができる。言い換えると、T´ は、μ を μ´ = A-1(μ+b) に、σ を σ´ = A-1σAT に置き換えることによって、ガウスカーネルを変換することができる。たとえば、各ローカル距離は:
L(Σj=1
Jwx,j g(v;μ´x,j,σ´x,j)
として計算される。(上記のようにT´がTから導出される実施形態では:
g(v;μ´x,j,σ´x,j)は g(T(v);μx,j,σx,j)に等しく、ここでT(v)=Av+b である。)
【0081】
あるいは、参照音声モデルのそれぞれは、複数の参照フレームを含むことができる。そのような実施形態では、各音声サンプル s について、各参照音声モデルによって返される距離は、各特徴ベクトル vn を参照フレームの1つにマッピングすることによって(例えば、動的タイムワーピング(DTW)を使用して)計算することができる。特徴ベクトルと特徴ベクトルがマッピングされる参照フレームとの間のそれぞれのローカル距離の合計が最小化される。この場合、前の実施形態によれば、被験者固有モデルのそれぞれは、ローカル距離の合計が最小化されるように、n=1…Nについて、対応する参照モデルの参照フレームに{T(vn)}をマッピングすることができる。あるいは、後者の実施形態によれば、参照フレームの特徴は、T´を使用して変換され得、次に、{vn}は、n=1…Nについて変換された参照フレームにマッピングされ得る。
【0082】
T が被験者の音声サンプルに適用されるか、T´ が参照モデルに適用されるかに関係なく、一般的に、参照モデルが可能な限り標準的、または被験者に依存しないことが有利である。したがって、いくつかの実施形態では、特に、参照モデルを生成するために使用される参照音声が比較的少数の他の被験者からのものである場合、プロセッサは、受信または生成ステップ58の中で、参照モデルを生成する前に参照音声を正規化する。
【0083】
例えば、プロセッサは、最初に、R人の他の被験者の第1のサブセットによって発せられた、第1の状態の参照音声サンプルを、他の被験者の第2のサブセットによって発せられた第2の状態の参照音声サンプルとともに受信することができる。(サブセットは重複していてもよい。すなわち、他の被験者の少なくとも1人は、第1の状態の参照音声サンプルと第2の状態の参照音声サンプルの両方を提供することができる。)次に、プロセッサは、他の被験者の r 番目の1人ごとに{Φr}を識別し、、それは(i) r 番目の他の被験者によって発せられた第1の状態の参照音声サンプル、および (ii) r 番目の他の被験者によって発せられた第2の状態の参照音声サンプル、の和集合である。続いて、プロセッサは、他の被験者についてそれぞれの変換 {Tr}、r=1…R を識別できる。Tr は、上記の制約の下で {Φr} を最適に変換する別の正規化変換である。たとえば、Tr は、定義済みの妥当性制約の下で:
ΣuΕ{Φr}Δ(T(V(Φ)),V(Φ0 ))
を最小化することができる。Φ0 は、Φの内容の正規の(たとえば、合成された)音声である。次に、プロセッサは、他の被験者の r 番目ごとに、Trを{V(Φr)}に適用することによって、特徴の変更セットを計算することができる。最後に、プロセッサは、変更された一連の特徴から、両方の参照モデルを含む参照弁別子を生成することができる。
【0084】
(ii) 第三の技法
ここで、本発明のいくつかの実施形態による、第1の状態の被験者固有音声モデルθ
0および第2の状態の被験者固有音声モデルθ
1を生成するための第3の技法72のフロー図である
図4を参照する。
【0085】
技法56(
図3)と同様に、技法72は、第1の状態の参照音声と第2の状態の参照音声がそれぞれ異なる被験者グループに由来する場合を処理することができる。技法72は、2つの参照モデルが第1のパラメータセットに関しては互いに同一であることを要求するが、被験者の健康状態が参照音声に与える影響を表すと想定されるパラメータの第2のセットに関しては互いに異なる。この影響は被験者22(
図1)について同じであると仮定されるので、技法72は、パラメータの第2のセットに関して、それらの対応する参照モデルとそれぞれ同一になるように、θ
0およびθ
1を生成するが、パラメータの第1のセットに関しては異なる。
【0086】
技法72は、第3の受信または生成ステップ74で始まる。このステップで、プロセッサは、第1の状態の参照音声モデルと第2の状態の参照音声モデルを受信または生成し、2つのモデルはパラメータの第1のセットに対しては同一であるが、第2のセットに関しては互いに異なる。
【0087】
例えば、プロセッサは最初に第1の状態の参照モデルを受信または生成することができる。その後、プロセッサは、パラメータの第2のセットを変更することにより(パラメータの第1のセットを変更することなく)、第2の状態の参照音声モデルを第1の状態の参照音声モデルに適応させることができ、第2の状態の参照音声サンプルに対し第2の状態のモデルによって返されるそれぞれの距離の合計は、適切な妥当性制約に関して最小化される。(q ≧ 1 で累乗された絶対値などの任意の適切な非減少関数を、この合算における距離のそれぞれに適用することができる。)あるいは、プロセッサは、最初に第2の状態の参照モデルを受信または生成し、次に、第1の状態の参照モデルを第2の状態の参照モデルに適応させることができる。
【0088】
いくつかの実施形態では、参照モデルは異なるそれぞれのHMMを含み、それぞれがそれぞれのカーネル重みを有する複数のカーネルを含む。そのような実施形態では、パラメータの第1のセットは、カーネルの重みを含むことができる。換言すれば、2つの参照モデルは、同一の状態を含み、各状態において、同じカーネル重みを有する同じ数のカーネルを含み得る。パラメータの第1のセットは、状態遷移距離または確率をさらに含むことができる。それに関して参照モデルが互いに異なる、パラメータの第2のセットは、カーネルのパラメータ(例えば、平均および共分散)を含み得る。
【0089】
たとえば、第1の状態の参照モデルの場合、任意の状態 x と任意の特徴ベクトル v の間のローカル距離は:
L(Σj=1
Jwx,jg(v;μ0
x,j,σ0
x,j)でありうる。
第2の状態の参照モデルは、第1の状態の参照モデルと同じ状態を含む場合があり、任意の状態 x のローカル距離は:
L(Σj=1
Jwx,jg(v;μ1
x,j,σ1
x,j)でありうる。
【0090】
第3の受信または生成ステップ74に続いて、プロセッサは、音声サンプル受信ステップ50で音声サンプル {um
0} を受信する。次に、第1の状態の第4のモデル生成ステップ76で、プロセッサは、第1の状態の被験者固有音声モデルθ0 を生成し、θ0 は、パラメータの第2のセットに関して、第1の状態の参照音声モデルと同じである。第1の状態の参照モデルのこの適応を実行するために、プロセッサは、バウムウェルチ(Baum-Welch)アルゴリズムに似たアルゴリズムを使用できる。それはたとえば、L.RabinerおよびB-H.Juang著、「音声認識の基礎」、Prentice Hall、1993年に記載され、当該文献は参照により本明細書に取り入れられる。詳細には、プロセッサは、第1の状態の参照モデルのパラメータを持つようにθ0を最初に初期化することができる。次に、プロセッサは、音声サンプル{um
0}の各特徴ベクトルをθ0のそれぞれの状態にマッピングすることができる。次いで、プロセッサは、状態ごとに、状態にマップされた特徴ベクトルを使用して、状態のパラメータの第1のセットを再計算することができる。次いでプロセッサは、特徴ベクトルを状態に再マッピングすることができる。このプロセスは、収束するまで、つまりマッピングが変化しなくなるまで繰り返すことができる。
【0091】
第1の状態の第4のモデル生成ステップ76に続いて、プロセッサは、第2の状態の第4のモデル生成ステップ78で、第2の状態の被験者固有音声モデルθ1がパラメータの第1のセットに関して第1の状態の被験者固有音声モデルθ0と同一であり、そしてパラメータの第2のセットに関して第2の状態の参照音声モデルと同一であるように、θ1を生成する。
【0092】
(神経ネットワーク弁別子)
別の実施形態では、プロセッサは、マルチモデル弁別子ではなく、被験者固有の神経ネットワーク弁別子を合成する。詳細には、プロセッサは、最初に、複数のパラメータに関連付けられた神経ネットワークを含む参照弁別子を受信または生成する。続いて、プロセッサは、以下に説明するように、これらのパラメータのいくつかを調整し、それによって、ネットワークを被験者22 (
図1)に適合させる。
【0093】
この技法に関するさらなる詳細については、本発明のいくつかの実施形態による神経ネットワーク弁別子の概略図である
図5を参照する。
【0094】
図5は、参照神経ネットワーク80が特定の被験者に適合される方法を示す。参照神経ネットワーク80は、被験者によって発せられた1つまたは複数の音声サンプルに基づいて、音声関連の入力82を受信するように構成されている。例えば、神経ネットワークは、音声サンプル自体、および/またはサンプルから抽出されたメル周波数ケプストラム係数(MFCC)などの特徴を受け取ることができる。参照神経ネットワーク80は、例えば、音声サンプルの音声内容の指示を含むテキスト入力90をさらに受信することができる。(音声内容は、事前に決定するか、音声認識技術を使用して音声サンプルから確認することができる。)例えば、神経ネットワークが連続番号 0,..,N-1を付されたN個の異なる発話について訓練される場合、テキスト入力90は、音声サンプルで発せられた発話のシリアル番号を示すビットの順列でありうる。
【0095】
前述の入力が与えられると、神経ネットワークは、音声サンプルが第2の状態で発話された可能性を示す出力92を返す。例えば、出力92は、音声サンプルが第2の状態で発話された可能性を明示的に含むことができる。代替的に、出力は、出力が前者の尤度を暗示的に示すように、音声サンプルが第1の状態で発話された尤度を明示的に含むことができる。たとえば、出力で第1の状態の可能性が30%と示されている場合、出力は事実上、第2の状態の可能性が 70%であることを示している可能性がある。さらに別の代替として、出力は、2つの状態のそれぞれのスコアを含むことができ、そこから両方の可能性を計算することができる。
【0096】
通常、参照神経ネットワーク80には、神経の複数の層が含まれる。例えば、音声関連の入力82が生の音声サンプル(そこから抽出された特徴ではなく)を含む実施形態では、神経ネットワークは、音声関連の応答に応答して音響層出力83を生成する、1つまたは複数の音響層84を含むことができる。事実上、音響層84は、音声サンプルの音響分析を実行することによって、入力音声サンプルから特徴ベクトルを抽出する。
【0097】
別の例として、神経ネットワークは、音響層出力83に応答して(または音声関連入力82に含まれる類似の特徴に応答して)音声層出力85生成する1つまたは複数の音声層86を含むことができる。例えば、音声層86は、音響層出力83によって指定される音声サンプルの音響特徴を、テキスト入力90によって示される音声サンプルの予想される音声内容と照合することができる。あるいは、ネットワークは単一の事前設定テキストに対して構成され、そして従って音声層86とテキスト入力90を省略できる。
【0098】
さらに別の例として、神経ネットワークは、音声層出力85(および選択肢として音響層出力83)に応答して出力92を生成する、1つまたは複数の弁別層88を含むことができる。弁別層88は、例えば、第1の健康状態と第2の健康状態とを区別するための特徴を計算する、神経の1つまたは複数の層と、これらの特徴に基づいて出力92を生成する出力層とを含み得る。出力層は、例えば、第1の状態の尤度を示すスコアを出力する、第1の状態出力神経と、第2の状態の尤度を示すスコアを出力する第2の状態出力神経とを含みうる。
【0099】
いくつかの実施形態では、参照神経ネットワーク80は、ネットワークが比較的多数の層を組み込むという点で、深層学習ネットワークである。代替的または追加的に、ネットワークは、畳み込み層、スキップ層、および/または再帰型神経ネットワーク要素などの特殊な要素を含むことができる。神経ネットワーク80内の神経は、様々なタイプの活性化機能に関連付けることができる。
【0100】
被験者固有の神経ネットワーク弁別子を合成するために、プロセッサは参照神経ネットワーク80に関連付けられたパラメータのサブセットを調整して、音声サンプル{um
0}を含む一連の入力音声サンプルに対する出力92のエラーを最小限に抑える。言い換えると、プロセッサは音声サンプル{um
0}を、選択肢として、被験者または第2の状態にある他の被験者によって発話された1つまたは複数の音声サンプルと共に入力し、出力92の誤差が最小化されるようにパラメータのサブセットを調整する。
【0101】
例えば、プロセッサは、神経ネットワークに属する神経のそれぞれの神経重みの一部またはすべてを調整することができる。特定の例として、プロセッサは、神経層の別の層に関連する重みを調整することなく、1つの神経層に関連する重みの少なくともいくつかを調整することができる。例えば、
図5に示されているように、プロセッサは、音響層84に関連付けられた重みおよび/または弁別層88に関連付けられた重みを調整することができ、これらは被験者依存であると想定されるが、音声層86に関連付けられた重みは調整しない。
【0102】
いくつかの実施形態では、神経ネットワークは、音声関連入力82を生成するために使用される音声サンプルの話者を識別する話者識別(または「被験者ID」)パラメータ94に関連付けられる。その音声が参照神経ネットワーク80を訓練するために使用された被験者を参照し、パラメータ94はR番号のシークエンスを含むことができる。これらの被験者のうちの1人から取得された入力82ごとに、被験者の通し番号をパラメータ94で1に設定することができ、他の数字を0に設定することができる。パラメータ94は、音響層84、音声層86、および/または弁別層88に入力することができる。
【0103】
そのような実施形態では、プロセッサは、神経の重みを調整することに代えて、またはそれに加えて、パラメータ94を調整することができる。パラメータ94を調整することにより、プロセッサは、被験者の声を、参照被験者の一部または全部のそれぞれの声の組み合わせとして効果的に近似することができる。純粋に説明のための例として、R=10 の場合、プロセッサはパラメータ 94を [0.5 0 0 0 0.3 0 0 0 0.2 0] の値に調整することができる。それは、プロセッサが、被験者の声を1番目、5番目、9番目の参照被験者のそれぞれの声の組合せとして効率的に近似できることを示す。(したがって、パラメータ94は、単にネットワークへの可変入力であることによってネットワークに関連付けられるのではなく、ネットワークの固定パラメータであることによってネットワークに関連付けられるようになる。)
【0104】
パラメータを調整するために、プロセッサは、当技術分野で知られている任意の適切な技法を使用することができる。そのような技法の1つは逆伝播法である。これは、パラメータに関する偏差関数の勾配の倍数である値のベクトルをパラメータから繰り返し減算する。偏差関数は、出力とネットワークの期待される出力との間の偏差を定量化する。適切な程度の収束に達するまで、入力音声サンプルのセット内の各サンプルに対して逆伝播を実行することができる(選択肢として、サンプルに対して複数回反復する)。
【0105】
当業者は、本発明が上記で特に示され説明されたものに限定されないことを理解するであろう。本発明の実施形態の範囲は、上述の様々な特徴の組合せおよびサブ組合せの両方、ならびに前述を読んだ当業者に想起される、先行技術にないそれらの変形および修正の両方を含む。例えば、本発明の実施形態の範囲は、第1の状態の参照音声モデルおよび第2の状態の参照音声モデルを含む参照弁別子から、神経ネットワーク弁別子などの単一モデルの被験者固有弁別子の合成を含む。
【0106】
参照により本特許出願に組み込まれている文書は、本出願の不可欠な部分と見なされる。本明細書で明示的または暗示的に行われている定義とこれらの組み込まれた文書の定義が矛盾する場合は、本明細書の定義のみを考慮する必要がある。
【国際調査報告】