IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ コルディオ メディカル リミテッドの特許一覧

<>
  • 特許-音声モデルに基づく診断技術 図1
  • 特許-音声モデルに基づく診断技術 図2-3
  • 特許-音声モデルに基づく診断技術 図4
  • 特許-音声モデルに基づく診断技術 図5
  • 特許-音声モデルに基づく診断技術 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-22
(45)【発行日】2024-05-30
(54)【発明の名称】音声モデルに基づく診断技術
(51)【国際特許分類】
   G10L 15/10 20060101AFI20240523BHJP
   G10L 25/66 20130101ALI20240523BHJP
【FI】
G10L15/10 500Z
G10L25/66
【請求項の数】 35
(21)【出願番号】P 2021551893
(86)(22)【出願日】2020-02-10
(65)【公表番号】
(43)【公表日】2022-05-11
(86)【国際出願番号】 IB2020051018
(87)【国際公開番号】W WO2020183257
(87)【国際公開日】2020-09-17
【審査請求日】2022-12-22
(31)【優先権主張番号】16/299,178
(32)【優先日】2019-03-12
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】16/299,186
(32)【優先日】2019-03-12
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】518101266
【氏名又は名称】コルディオ メディカル リミテッド
(74)【代理人】
【識別番号】100086461
【弁理士】
【氏名又は名称】齋藤 和則
(72)【発明者】
【氏名】シャロム、イラン、ディ.
【審査官】山下 剛史
(56)【参考文献】
【文献】特開2006-230548(JP,A)
【文献】特開2003-44078(JP,A)
【文献】特開2016-6504(JP,A)
【文献】特許第6263308(JP,B1)
【文献】特表2008-513825(JP,A)
【文献】特開2004-302786(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-99/00
A61B 5/00
(57)【特許請求の範囲】
【請求項1】
1つまたは複数の標準音声サンプルから構築された少なくとも1つの音声モデルを取得するステップであって、前記標準音声サンプルは被験者の生理学的状態が既知の間に被験者により第1の時点で生成されたものであり、
前記音声モデルは、(i)前記標準音声サンプル内に示される1つまたは複数の音響状態であって、前記音響状態はそれぞれの局所距離関数に関連し、前記局所距離関数のドメイン内の任意の音響特徴ベクトルが与えられると、それぞれの音響状態の前記局所距離関数は、与えられた前記音響特徴ベクトルと前記音響状態との間の関連性の度合いを示す局所距離を返す、音響状態と、(ii)前記音声モデルが複数の音響状態を含む場合、前記音響状態の間の許容遷移と、を有するステップと;
前記被験者の前記生理学的状態が未知の間に前記被験者により第2の時点で生成された少なくとも1つのテスト音声サンプルを受信するステップと;
前記テスト音声サンプルの異なるそれぞれの部分の音響特徴を定量化する、複数のテストサンプル特徴ベクトルを計算するステップと;
前記局所距離関数と前記許容遷移とに基づき、前記テストサンプル特徴ベクトルとそれぞれの前記音響状態の間の合計距離が最小になるように、前記テストサンプル特徴ベクトルをそれぞれの前記音響状態にマッピングすることにより、前記テスト音声サンプルを前記音響状態の最小距離シークエンスにマッピングするステップであって、前記合計距離は前記テストサンプル特徴ベクトルとそれぞれの前記音響状態の間のそれぞれの局所距離に基づくステップと;そして
前記テスト音声サンプルを前記音響状態の前記最小距離シークエンスにマッピングすることに応答して、前記被験者の前記第2の時点における前記生理学的状態を示す、出力を生成するステップと;
を有することを特徴とする方法。
【請求項2】
前記標準音声サンプルを受信するステップをさらに有し、前記音声モデルを取得するステップは、前記標準音声サンプルから前記音声モデルを構築することにより、前記音声モデルを取得するステップを有する、ことを特徴とする請求項1に記載の方法。
【請求項3】
前記合計距離はそれぞれの前記局所距離の合計値に基づく、ことを特徴とする請求項1に記載の方法。
【請求項4】
前記合計値は第1の合計値であり、
前記音声モデルは前記許容遷移に対しそれぞれの遷移距離を定義し、
前記合計距離は、(i)前記第1の合計値と、(ii)前記音響状態の前記最小距離シークエンスに含まれる前記許容遷移に対する前記遷移距離と、の第2の合計値である、
ことを特徴とする請求項3に記載の方法。
【請求項5】
前記出力を生成するステップは、
前記合計距離を所定の閾値と比較するステップと;そして
前記比較に応答して前記出力を生成するステップと;
を有する、ことを特徴とする請求項1に記載の方法。
【請求項6】
それぞれの音響状態の前記局所距離関数は、与えられた前記音響特徴ベクトルが前記音響状態に関連する推定尤度の負のログ値に依存する値を返す、ことを特徴とする請求項1に記載の方法。
【請求項7】
前記標準音声サンプルは前記被験者の前記生理学的状態が特定の生理学的条件に関して安定的である間に生成されたものである、ことを特徴とする請求項1に記載の方法。
【請求項8】
前記標準音声サンプルは第1の標準音声サンプルであり、前記音声モデルは第1の音声モデルであり、前記音響状態は第1の音響状態であり、前記最小距離シークエンスは第1の最小距離シークエンスであり、前記合計距離は第1の合計距離であり、
前記方法はさらに:
前記被験者の前記生理学的状態が特定の生理学的条件に関して不安定である間に生成される1つまたは複数の第2の標準音声サンプルを受信するステップと;
前記第2の標準音声サンプルに基づいて、前記第2の標準音声サンプル内に示される1つまたは複数の第2の音響状態を含む、少なくとも1つの第2の音声モデルを構築するステップと;
前記テストサンプル特徴ベクトルとそれぞれの前記第2の音響状態の間の第2の合計距離が最小になるように、前記テストサンプル特徴ベクトルをそれぞれの前記第2の音響状態にマッピングすることにより、前記テスト音声サンプルを前記第2の音響状態の第2の最小距離シークエンスにマッピングするステップと;そして
前記第2の合計距離を前記第1の合計距離と比較するステップと;
を有し、
前記出力を生成するステップは、前記第2の合計距離を前記第1の合計距離と比較することに応答して、前記出力を生成するステップを有する、
ことを特徴とする請求項7に記載の方法。
【請求項9】
前記標準音声サンプルは前記被験者の前記生理学的状態が特定の生理学的条件に関して不安定である間に生成された、ことを特徴とする請求項1に記載の方法。
【請求項10】
前記標準音声サンプルと前記テスト音声サンプルは同じ所定の発せられた音声を含む、ことを特徴とする請求項1に記載の方法。
【請求項11】
前記標準音声サンプルは前記被験者の自由音声を含み、
前記少なくとも1つの音声モデルを構築するステップは:
前記自由音声の中の複数の異なる音声ユニットを識別するステップと;
識別された前記音声ユニットに対しそれぞれの音声ユニットモデルを構築するステップと;そして
前記音声モデルが前記識別された音声ユニットの特定の連結を示すように前記音声ユニットモデルを連結することにより、前記少なくとも1つの音声モデルを構築するステップと;
を有し、そして
前記テスト音声サンプルは、前記特定の連結を含む、
ことを特徴とする請求項1に記載の方法。
【請求項12】
前記合計距離は第1の合計距離であり、
前記出力を生成するステップは:
前記テストサンプル特徴ベクトルとそれぞれの前記音響状態の間の第2の合計距離を計算するステップであって、前記第2の合計距離は前記第1の合計距離とは異なるステップと;そして
前記第2の合計距離に応答して、前記出力を生成するステップと;
を有する、ことを特徴とする請求項1-11のいずれか1項に記載の方法。
【請求項13】
前記第2の合計距離を計算するステップは:
それぞれの前記局所距離に対しそれぞれの重みにより加重するステップであって、少なくとも2つの前記重みは互いに異なるステップと;そして
前記加重された局所距離を合計することにより前記第2の合計距離を計算するステップと;
を有する、ことを特徴とする請求項12に記載の方法。
【請求項14】
前記それぞれの局所距離はそれぞれ第1の局所距離であり、前記第2の合計距離を計算するステップは:
それぞれの前記音響状態の前記局所距離関数を変更するステップと;
前記変更された局所距離関数を使用して、前記テストサンプル特徴ベクトルとそれぞれの前記音響状態の間のそれぞれの第2の局所距離を計算するステップと;そして
前記第2の局所距離を合計することにより前記第2の合計距離を計算するステップと;
を有する、ことを特徴とする請求項12に記載の方法。
【請求項15】
前記局所距離関数を変更するステップは:少なくとも1つの前記音響状態に対し、少なくとも1つの他の音響状態より大きな重みを与えるように前記局所距離関数を変更するステップを有する、ことを特徴とする請求項14に記載の方法。
【請求項16】
ネットワークインタフェースと;そして
プロセッサと;を有する装置であって、
前記プロセッサは:
1つまたは複数の標準音声サンプルから構築された少なくとも1つの音声モデルを取得するステップであって、前記標準音声サンプルは被験者の生理学的状態が既知の間に被験者により第1の時点で生成されたものであり、
前記音声モデルは、(i)前記標準音声サンプル内に示される1つまたは複数の音響状態であって、前記音響状態はそれぞれの局所距離関数に関連し、前記局所距離関数のドメイン内の任意の音響特徴ベクトルが与えられると、それぞれの音響状態の前記局所距離関数は、与えられた前記音響特徴ベクトルと前記音響状態との間の関連性の度合いを示す局所距離を返す、音響状態と、(ii)前記音声モデルが複数の音響状態を含む場合、前記音響状態の間の許容遷移と、を有するステップと;
前記被験者の前記生理学的状態が未知の間に前記被験者により第2の時点で生成された少なくとも1つのテスト音声サンプルを受信するステップと;
前記テスト音声サンプルの異なるそれぞれの部分の音響特徴を定量化する、複数のテストサンプル特徴ベクトルを計算するステップと;
前記局所距離関数と前記許容遷移とに基づき、前記テストサンプル特徴ベクトルとそれぞれの前記音響状態の間の合計距離が最小になるように、前記テストサンプル特徴ベクトルをそれぞれの前記音響状態にマッピングすることにより、前記テスト音声サンプルを前記音響状態の最小距離シークエンスにマッピングするステップであって、前記合計距離は前記テストサンプル特徴ベクトルとそれぞれの前記音響状態の間のそれぞれの局所距離に基づくステップと;そして
前記テスト音声サンプルを前記音響状態の前記最小距離シークエンスにマッピングすることに応答して、前記被験者の前記第2の時点における前記生理学的状態を示す、出力を生成するステップと;
を実行するように構成される、
ことを特徴とする、装置。
【請求項17】
前記プロセッサはさらに、前記標準音声サンプルを受信するように構成され、そして前記プロセッサは前記標準音声サンプルから前記音声モデルを構築することにより、前記音声モデルを取得するように構成される、ことを特徴とする請求項16に記載の装置。
【請求項18】
システムであって、
回路と;そして
協調してプロセスを実行するように構成される1つまたは複数のプロセッサと;を有し、
前記プロセスは:
1つまたは複数の標準音声サンプルから構築された少なくとも1つの音声モデルを取得するステップであって、前記標準音声サンプルは被験者の生理学的状態が既知の間に被験者により第1の時点で生成されたものであり、
前記音声モデルは、(i)前記標準音声サンプル内に示される1つまたは複数の音響状態であって、前記音響状態はそれぞれの局所距離関数に関連し、前記局所距離関数のドメイン内の任意の音響特徴ベクトルが与えられると、それぞれの音響状態の前記局所距離関数は、与えられた前記音響特徴ベクトルと前記音響状態との間の関連性の度合いを示す局所距離を返す、音響状態と、(ii)前記音声モデルが複数の音響状態を含む場合、前記音響状態の間の許容遷移と、を有するステップと;
前記被験者の前記生理学的状態が未知の間に前記被験者により第2の時点で生成された少なくとも1つのテスト音声サンプルを受信するステップと;
前記テスト音声サンプルの異なるそれぞれの部分の音響特徴を定量化する、複数のテストサンプル特徴ベクトルを計算するステップと;
前記局所距離関数と前記許容遷移とに基づき、前記テストサンプル特徴ベクトルとそれぞれの前記音響状態の間の合計距離が最小になるように、前記テストサンプル特徴ベクトルをそれぞれの前記音響状態にマッピングすることにより、前記テスト音声サンプルを前記音響状態の最小距離シークエンスにマッピングするステップであって、前記合計距離は前記テストサンプル特徴ベクトルとそれぞれの前記音響状態の間のそれぞれの局所距離に基づくステップと;そして
前記テスト音声サンプルを前記音響状態の前記最小距離シークエンスにマッピングすることに応答して、前記被験者の前記第2の時点における前記生理学的状態を示す、出力を生成するステップと;
を有する、
ことを特徴とするシステム。
【請求項19】
前記回路はアナログ-デジタル(A/D)変換器を有する、ことを特徴とする請求項18に記載のシステム。
【請求項20】
前記回路はネットワークインタフェースを有する、ことを特徴とする請求項18に記載のシステム。
【請求項21】
前記プロセスはさらに、前記標準音声サンプルを受信するステップをさらに有し、そして前記音声モデルを取得するステップは、前記標準音声サンプルから前記音声モデルを構築することにより、前記音声モデルを取得するステップを有する、ことを特徴とする請求項18-20のいずれか1項に記載のシステム。
【請求項22】
ログラム命令が含まれる接触可能非一過性コンピュータ可読媒体であって
前記プログラム命令はプロセッサにより読まれたときに、前記プロセッサに対し:
1つまたは複数の標準音声サンプルから構築された少なくとも1つの音声モデルを取得するステップであって、前記標準音声サンプルは被験者の生理学的状態が既知の間に被験者により第1の時点で生成されたものであり、
前記音声モデルは、(i)前記標準音声サンプル内に示される1つまたは複数の音響状態であって、前記音響状態はそれぞれの局所距離関数に関連し、前記局所距離関数のドメイン内の任意の音響特徴ベクトルが与えられると、それぞれの音響状態の前記局所距離関数は、与えられた前記音響特徴ベクトルと前記音響状態との間の関連性の度合いを示す局所距離を返す、音響状態と、(ii)前記音声モデルが複数の音響状態を含む場合、前記音響状態の間の許容遷移と、を有するステップと;
前記被験者の前記生理学的状態が未知の間に前記被験者により第2の時点で生成された少なくとも1つのテスト音声サンプルを受信するステップと;
前記テスト音声サンプルの異なるそれぞれの部分の音響特徴を定量化する、複数のテストサンプル特徴ベクトルを計算するステップと;
前記局所距離関数と前記許容遷移とに基づき、前記テストサンプル特徴ベクトルとそれぞれの前記音響状態の間の合計距離が最小になるように、前記テストサンプル特徴ベクトルをそれぞれの前記音響状態にマッピングすることにより、前記テスト音声サンプルを前記音響状態の最小距離シークエンスにマッピングするステップであって、前記合計距離は前記テストサンプル特徴ベクトルとそれぞれの前記音響状態の間のそれぞれの局所距離に基づくステップと;そして
前記テスト音声サンプルを前記音響状態の前記最小距離シークエンスにマッピングすることに応答して、前記被験者の前記第2の時点における前記生理学的状態を示す、出力を生成するステップと;
を実行させる、ことを特徴とする接触可能非一過性コンピュータ可読媒体
【請求項23】
前記命令はさらにプロセッサに対し、前記標準音声サンプルを受信させ、そして前記命令はプロセッサに対し、前記標準音声サンプルから前記音声モデルを構築することにより、前記音声モデルを取得させる、ことを特徴とする請求項22に記載の接触可能非一過性コンピュータ可読媒体
【請求項24】
被験者の自由音声から構築された複数の音声モデルを取得するステップであって、前記自由音声は前記被験者の生理学的状態が既知の間に第1の時点で生成されたものであり、
それぞれの前記音声モデルは、前記自由音声内の異なる複数の音声ユニットの異なるそれぞれの前記音声ユニットに対し、(i)前記音声ユニット内に示される1つまたは複数の音響状態であって、前記音響状態はそれぞれの局所距離関数に関連し、前記局所距離関数のドメイン内の任意の音響特徴ベクトルが与えられると、それぞれの音響状態の前記局所距離関数は、与えられた前記音響特徴ベクトルと前記音響状態との間の関連性の度合いを示す局所距離を返す、音響状態と;(ii)前記音声モデルが複数の音響状態を含む場合、前記音響状態の間の許容遷移と;を有するステップと;
前記被験者の前記生理学的状態が未知の間に前記被験者により第2の時点で生成された少なくとも1つのテスト音声サンプルを受信するステップと;
前記少なくとも1つのテスト音声サンプル内で、前記異なる複数の音声ユニットのそれぞれの前記音声ユニットを含む1つまたは複数のテストサンプル部分を別するステップと;
それぞれの前記テストサンプル部分に対し:
前記テストサンプル部分の異なるそれぞれの部分の音響特徴を定量化する、複数のテストサンプル特徴ベクトルを計算するステップと;
前記テストサンプル部分に含まれる前記音声ユニットに対して構築された前記音声モデルを識別するステップと;そして
前記識別された音声モデルに含まれる前記局所距離関数と前記許容遷移とに基づき、前記テストサンプル特徴ベクトルとそれぞれの前記音響状態の間の合計距離が最小になるように、前記テストサンプル特徴ベクトルを前記識別された音声モデルに含まれるそれぞれの前記音響状態にマッピングすることにより、前記テストサンプル部分を前記識別された音声モデルにマッピングするステップであって、前記合計距離は前記テストサンプル特徴ベクトルとそれぞれの前記音響状態の間のそれぞれの局所距離に基づくステップと;
により、前記テストサンプル部分をそれぞれの前記音声モデルにマッピングするステップと;そして
前記テストサンプル部分をそれぞれの前記音声モデルにマッピングすることに応答して、前記被験者の前記第2の時点における前記生理学的状態を示す、出力を生成するステップと;
を有することを特徴とする方法。
【請求項25】
前記自由音声を受信するステップをさらに有し、前記音声モデルを取得するステップは、
前記自由音声内の前記音声ユニットを識別するステップと;そして
前記音声ユニットに基づいて、前記音声モデルを構築するステップと;
により前記音声モデルを取得するステップを有する、
ことを特徴とする請求項24に記載の方法。
【請求項26】
前記合計距離は、それぞれの前記局所距離の合計である、ことを特徴とする請求項24に記載の方法。
【請求項27】
前記テスト音声サンプルは、少なくとも1つの前記識別された音声ユニットを含む所定の発せられた音声を有する、ことを特徴とする請求項24-26のいずれか1項に記載の方法。
【請求項28】
前記自由音声は標準自由音声であり、
前記テスト音声サンプルはテスト自由音声を含む、
ことを特徴とする請求項24-26のいずれか1項に記載の方法。
【請求項29】
ネットワークインタフェースと;そして
プロセッサと;を有する装置であって、
前記プロセッサは:
被験者の自由音声から構築された複数の音声モデルを取得するステップであって、前記自由音声は前記被験者の生理学的状態が既知の間に第1の時点で生成されたものであり、
それぞれの前記音声モデルは、前記自由音声内の異なる複数の音声ユニットの異なるそれぞれの前記音声ユニットに対し、(i)前記音声ユニット内に示される1つまたは複数の音響状態であって、前記音響状態はそれぞれの局所距離関数に関連し、前記局所距離関数のドメイン内の任意の音響特徴ベクトルが与えられると、それぞれの音響状態の前記局所距離関数は、与えられた前記音響特徴ベクトルと前記音響状態との間の関連性の度合いを示す局所距離を返す、音響状態と;(ii)前記音声モデルが複数の音響状態を含む場合、前記音響状態の間の許容遷移と;を有するステップと;
前記被験者の前記生理学的状態が未知の間に前記被験者により第2の時点で生成された少なくとも1つのテスト音声サンプルを受信するステップと;
前記少なくとも1つのテスト音声サンプル内で、前記異なる複数の音声ユニットのそれぞれの前記音声ユニットを含む1つまたは複数のテストサンプル部分を別するステップと;
それぞれの前記テストサンプル部分に対し:
前記テストサンプル部分の異なるそれぞれの部分の音響特徴を定量化する、複数のテストサンプル特徴ベクトルを計算するステップと;
前記テストサンプル部分に含まれる前記音声ユニットに対し構築された前記音声モデルを識別するステップと;そして
前記識別された音声モデルに含まれる前記局所距離関数と前記許容遷移とに基づき、前記テストサンプル特徴ベクトルとそれぞれの前記音響状態の間の合計距離が最小になるように、前記テストサンプル特徴ベクトルを前記識別された音声モデルに含まれるそれぞれの前記音響状態にマッピングすることにより、前記テストサンプル部分を前記識別された音声モデルにマッピングするステップであって、前記合計距離は前記テストサンプル特徴ベクトルとそれぞれの前記音響状態の間のそれぞれの局所距離に基づくステップと;
により、前記テストサンプル部分をそれぞれの前記音声モデルにマッピングするステップと;そして
前記テストサンプル部分をそれぞれの前記音声モデルにマッピングすることに応答して、前記被験者の前記第2の時点における前記生理学的状態を示す、出力を生成するステップと;
を実行するように構成される、
ことを特徴とする装置。
【請求項30】
システムであって、
回路と;そして
協調してプロセスを実行するように構成される1つまたは複数のプロセッサと;を有し、
前記プロセスは:
被験者の自由音声から構築された複数の音声モデルを取得するステップであって、前記自由音声は前記被験者の生理学的状態が既知の間に第1の時点で生成されたものであり、
それぞれの前記音声モデルは、前記自由音声内の異なる複数の音声ユニットの異なるそれぞれの前記音声ユニットに対し、(i)前記音声ユニット内に示される1つまたは複数の音響状態であって、前記音響状態はそれぞれの局所距離関数に関連し、前記局所距離関数のドメイン内の任意の音響特徴ベクトルが与えられると、それぞれの音響状態の前記局所距離関数は、与えられた前記音響特徴ベクトルと前記音響状態との間の関連性の度合いを示す局所距離を返す、音響状態と;(ii)前記音声モデルが複数の音響状態を含む場合、前記音響状態の間の許容遷移と;を有するステップと;
前記被験者の前記生理学的状態が未知の間に前記被験者により第2の時点で生成された少なくとも1つのテスト音声サンプルを受信するステップと;
前記少なくとも1つのテスト音声サンプル内で、前記異なる複数の音声ユニットのそれぞれの前記音声ユニットを含む1つまたは複数のテストサンプル部分を別するステップと;
それぞれの前記テストサンプル部分に対し:
前記テストサンプル部分の異なるそれぞれの部分の音響特徴を定量化する、複数のテストサンプル特徴ベクトルを計算するステップと;
前記テストサンプル部分に含まれる前記音声ユニットに対し構築された前記音声モデルを識別するステップと;そして
前記識別された音声モデルに含まれる前記局所距離関数と前記許容遷移とに基づき、前記テストサンプル特徴ベクトルとそれぞれの前記音響状態の間の合計距離が最小になるように、前記テストサンプル特徴ベクトルを前記識別された音声モデルに含まれるそれぞれの前記音響状態にマッピングすることにより、前記テストサンプル部分を前記識別された音声モデルにマッピングするステップであって、前記合計距離は前記テストサンプル特徴ベクトルとそれぞれの前記音響状態の間のそれぞれの局所距離に基づくステップと;
により、前記テストサンプル部分をそれぞれの前記音声モデルにマッピングするステップと;そして
前記テストサンプル部分をそれぞれの前記音声モデルにマッピングすることに応答して、前記被験者の前記第2の時点における前記生理学的状態を示す、出力を生成するステップと;
を有する、ことを特徴とするシステム。
【請求項31】
ログラム命令が含まれる接触可能非一過性コンピュータ可読媒体であって
前記プログラム命令はプロセッサにより読まれたときに、前記プロセッサに対し:
被験者の自由音声から構築された複数の音声モデルを取得するステップであって、前記自由音声は前記被験者の生理学的状態が既知の間に第1の時点で生成されたものであり、
それぞれの前記音声モデルは、前記自由音声内の異なる複数の音声ユニットの異なるそれぞれの前記音声ユニットに対し、(i)前記音声ユニット内に示される1つまたは複数の音響状態であって、前記音響状態はそれぞれの局所距離関数に関連し、前記局所距離関数のドメイン内の任意の音響特徴ベクトルが与えられると、それぞれの音響状態の前記局所距離関数は、与えられた前記音響特徴ベクトルと前記音響状態との間の関連性の度合いを示す局所距離を返す、音響状態と;(ii)前記音声モデルが複数の音響状態を含む場合、前記音響状態の間の許容遷移と;を有するステップと;
前記被験者の前記生理学的状態が未知の間に前記被験者により第2の時点で生成された少なくとも1つのテスト音声サンプルを受信するステップと;
前記少なくとも1つのテスト音声サンプル内で、前記異なる複数の音声ユニットのそれぞれの前記音声ユニットを含む1つまたは複数のテストサンプル部分を別するステップと;
それぞれの前記テストサンプル部分に対し:
前記テストサンプル部分の異なるそれぞれの部分の音響特徴を定量化する、複数のテストサンプル特徴ベクトルを計算するステップと;
前記テストサンプル部分に含まれる前記音声ユニットに対し構築された前記音声モデルを識別するステップと;そして
前記識別された音声モデルに含まれる前記局所距離関数と前記許容遷移とに基づき、前記テストサンプル特徴ベクトルとそれぞれの前記音響状態の間の合計距離が最小になるように、前記テストサンプル特徴ベクトルを前記識別された音声モデルに含まれるそれぞれの前記音響状態にマッピングすることにより、前記テストサンプル部分を前記識別された音声モデルにマッピングするステップであって、前記合計距離は前記テストサンプル特徴ベクトルとそれぞれの前記音響状態の間のそれぞれの局所距離に基づくステップと;
により、前記テストサンプル部分をそれぞれの前記音声モデルにマッピングするステップと;そして
前記テストサンプル部分をそれぞれの前記音声モデルにマッピングすることに応答して、前記被験者の前記第2の時点における前記生理学的状態を示す、出力を生成するステップと;
を実行させる、ことを特徴とする接触可能非一過性コンピュータ可読媒体
【請求項32】
少なくとも1つの音声モデルを取得するステップであって、
前記音声モデルは、(i)1つまたは複数の標準音声サンプル内に示される1つまたは複数の音響状態であって、前記音響状態はそれぞれの局所距離関数に関連し、前記局所距離関数のドメイン内の任意の音響特徴ベクトルが与えられると、それぞれの音響状態の前記局所距離関数は、与えられた前記音響特徴ベクトルと前記音響状態との間の関連性の度合いを示す局所距離を返す、音響状態と、(ii)前記音声モデルが複数の音響状態を含む場合、前記音響状態の間の許容遷移と、を有するステップと;
被験者により生成された少なくとも1つのテスト音声サンプルを受信するステップと;
前記テスト音声サンプルの異なるそれぞれの部分の音響特徴を定量化する、複数のテストサンプル特徴ベクトルを計算するステップと;
前記局所距離関数と前記許容遷移とに基づき、前記テストサンプル特徴ベクトルとそれぞれの前記音響状態の間の第1の合計距離が最小になるように、前記テストサンプル特徴ベクトルをそれぞれの前記音響状態にマッピングすることにより、前記テスト音声サンプルを前記音響状態の最小距離シークエンスにマッピングするステップであって、前記第1の合計距離は前記テストサンプル特徴ベクトルとそれぞれの前記音響状態の間のそれぞれの局所距離に基づくステップと;
前記テストサンプル特徴ベクトルとそれぞれの前記音響状態の間の第2の合計距離を計算するステップであって、前記第2の合計距離は前記第1の合計距離とは異なる、ステップと;そして
前記第2の合計距離に応答して、前記被験者の生理学的状態を示す出力を生成するステップと;
を有することを特徴とする方法。
【請求項33】
ネットワークインタフェースと;そして
プロセッサと;を有する装置であって、
前記プロセッサは:
少なくとも1つの音声モデルを取得するステップであって、
前記音声モデルは、(i)1つまたは複数の標準音声サンプル内に示される1つまたは複数の音響状態であって、前記音響状態はそれぞれの局所距離関数に関連し、前記局所距離関数のドメイン内の任意の音響特徴ベクトルが与えられると、それぞれの音響状態の前記局所距離関数は、与えられた前記音響特徴ベクトルと前記音響状態との間の関連性の度合いを示す局所距離を返す、音響状態と、(ii)前記音声モデルが複数の音響状態を含む場合、前記音響状態の間の許容遷移と、を有するステップと;
被験者により生成された少なくとも1つのテスト音声サンプルを受信するステップと;
前記テスト音声サンプルの異なるそれぞれの部分の音響特徴を定量化する、複数のテストサンプル特徴ベクトルを計算するステップと;
前記局所距離関数と前記許容遷移とに基づき、前記テストサンプル特徴ベクトルとそれぞれの前記音響状態の間の第1の合計距離が最小になるように、前記テストサンプル特徴ベクトルをそれぞれの前記音響状態にマッピングすることにより、前記テスト音声サンプルを前記音響状態の最小距離シークエンスにマッピングするステップであって、前記第1の合計距離は前記テストサンプル特徴ベクトルとそれぞれの前記音響状態の間のそれぞれの局所距離に基づくステップと;
前記テストサンプル特徴ベクトルとそれぞれの前記音響状態の間の第2の合計距離を計算するステップであって、前記第2の合計距離は前記第1の合計距離とは異なる、ステップと;そして
前記第2の合計距離に応答して、前記被験者の生理学的状態を示す出力を生成するステップと;
を実行するように構成される、
ことを特徴とする装置。
【請求項34】
システムであって、
回路と;そして
協調してプロセスを実行するように構成される1つまたは複数のプロセッサと;を有し、
前記プロセスは:
少なくとも1つの音声モデルを取得するステップであって、
前記音声モデルは、(i)1つまたは複数の標準音声サンプル内に示される1つまたは複数の音響状態であって、前記音響状態はそれぞれの局所距離関数に関連し、前記局所距離関数のドメイン内の任意の音響特徴ベクトルが与えられると、それぞれの音響状態の前記局所距離関数は、与えられた前記音響特徴ベクトルと前記音響状態との間の関連性の度合いを示す局所距離を返す、音響状態と、(ii)前記音声モデルが複数の音響状態を含む場合、前記音響状態の間の許容遷移と、を有するステップと;
被験者により生成された少なくとも1つのテスト音声サンプルを受信するステップと;
前記テスト音声サンプルの異なるそれぞれの部分の音響特徴を定量化する、複数のテストサンプル特徴ベクトルを計算するステップと;
前記局所距離関数と前記許容遷移とに基づき、前記テストサンプル特徴ベクトルとそれぞれの前記音響状態の間の第1の合計距離が最小になるように、前記テストサンプル特徴ベクトルをそれぞれの前記音響状態にマッピングすることにより、前記テスト音声サンプルを前記音響状態の最小距離シークエンスにマッピングするステップであって、前記第1の合計距離は前記テストサンプル特徴ベクトルとそれぞれの前記音響状態の間のそれぞれの局所距離に基づくステップと;
前記テストサンプル特徴ベクトルとそれぞれの前記音響状態の間の第2の合計距離を計算するステップであって、前記第2の合計距離は前記第1の合計距離とは異なる、ステップと;そして
前記第2の合計距離に応答して、前記被験者の生理学的状態を示す出力を生成するステップと;
を有する、ことを特徴とするシステム。
【請求項35】
ログラム命令が含まれる接触可能非一過性コンピュータ可読媒体であって
前記プログラム命令はプロセッサにより読まれたときに、前記プロセッサに対し:
少なくとも1つの音声モデルを取得するステップであって、
前記音声モデルは、(i)1つまたは複数の標準音声サンプル内に示される1つまたは複数の音響状態であって、前記音響状態はそれぞれの局所距離関数に関連し、前記局所距離関数のドメイン内の任意の音響特徴ベクトルが与えられると、それぞれの音響状態の前記局所距離関数は、与えられた前記音響特徴ベクトルと前記音響状態との間の関連性の度合いを示す局所距離を返す、音響状態と、(ii)前記音声モデルが複数の音響状態を含む場合、前記音響状態の間の許容遷移と、を有するステップと;
被験者により生成された少なくとも1つのテスト音声サンプルを受信するステップと;
前記テスト音声サンプルの異なるそれぞれの部分の音響特徴を定量化する、複数のテストサンプル特徴ベクトルを計算するステップと;
前記局所距離関数と前記許容遷移とに基づき、前記テストサンプル特徴ベクトルとそれぞれの前記音響状態の間の第1の合計距離が最小になるように、前記テストサンプル特徴ベクトルをそれぞれの前記音響状態にマッピングすることにより、前記テスト音声サンプルを前記音響状態の最小距離シークエンスにマッピングするステップであって、前記第1の合計距離は前記テストサンプル特徴ベクトルとそれぞれの前記音響状態の間のそれぞれの局所距離に基づくステップと;
前記テストサンプル特徴ベクトルとそれぞれの前記音響状態の間の第2の合計距離を計算するステップであって、前記第2の合計距離は前記第1の合計距離とは異なる、ステップと;そして
前記第2の合計距離に応答して、前記被験者の生理学的状態を示す出力を生成するステップと;
を実行させる、ことを特徴とする接触可能非一過性コンピュータ可読媒体
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般に医学的診断に関し、特に被験者の音声に影響を与える生理学的状態に関する。
【背景技術】
【0002】
参照により本明細書に組み込まれる、SakoeおよびChiba著“発出された言葉の認識のための動的計画法最適化”、IEEE 音響、音声、および信号処理に関する議事録 26.2(1978):43-49(非特許文献1)は、発出された言葉の認識のための時間正規化アルゴリズムに基づく最適な動的計画法(DP)について記載している。まず、時間正規化の一般的な原理が、タイムワーピング関数を使用して与えられる。次に、対称形式と非対称形式と呼ばれる2つの時間正規化された距離の定義が、その原理から導き出される。これらの2つの形式は、理論的な議論と実験的研究を通じて互いに比較される。対称形アルゴリズムの優位性が確立される。スロープ制約と呼ばれる手法が導入され、この手法では、異なるカテゴリのワード間の識別を改善するために、ワーピング関数のスロープが制限される。
【0003】
Rabiner、Lawrence R氏著「音声認識における隠れマルコフモデルと選択されたアプリケーションに関するチュートリアル」、IEEE 77.2(1989):257-286の議事録(非特許文献2)は、参照により本明細書に組み込まれ、統計モデリングのタイプの理論的側面をレビューし、そして機械音声認識における選択された問題にそれらがどのように適用されているかを記載している。
【0004】
米国特許第7,457,753号(特許文献1)は、ユーザの遠隔評価のためのシステムを記載している。このシステムは、サーバ上に常駐し、ネットワークを介してクライアントデバイスを操作するユーザと対話してユーザの音声の1つまたは複数のサンプル信号を取得するように構成されたアプリケーションソフトウェアで構成される。データストアは、ユーザの詳細に関連してユーザの音声サンプルを格納するように配置されている。特徴抽出エンジンは、それぞれの音声サンプルから1つまたは複数の第1の特徴を抽出するように設定される。比較器は、音声サンプルから抽出された第1の特徴を1つまたは複数の標準サンプルから抽出された第2の特徴と比較し、ユーザの評価のために第1および第2の特徴間の差異の尺度を提供するように設定される。
【0005】
米国特許出願公開第2009/0099848号(特許文献2)は、認知症の受動的診断のためのシステムおよび方法を記載している。認知症の臨床的および心理測定的指標は、縦断的統計測定によって自動的に識別され、数学的方法を使用して、言語変化および/または患者の音声特徴の性質を追跡する。開示されたシステムおよび方法は多層処理ユニットを含み、ここで録音されたオーディオデータの初期処理はローカルユニットで処理される。処理されそして必要な生データも、オーディオデータの詳細な分析を実行する中央ユニットに転送される。
【0006】
Lotan氏他の米国特許出願公開2015/0216448(特許文献3)は、慢性心不全、COPD、または喘息を検出するための、ユーザの肺活量とスタミナを測定する方法について記載している。この方法はユーザの移動通信デバイス上にクライアントアプリケーションを提供することを含み、そのクライアントアプリケーションは、以下のための実行可能なコンピュータコードを含む:ユーザに対し、肺を空気で満たし、そして排気中に一定の範囲の音量(デシベル)で音声を発し;そのユーザの音声を移動体通信装置により受信しそして登録し;音声の登録を停止し;その音量の範囲内の音声受信時間の長さを測定し;そしてその長さをその移動体通信装置のスクリーン上に表示する。
【先行技術文献】
【特許文献】
【0007】
【文献】米国特許第7,457,753号
【文献】米国特許出願公開第2009/0099848号
【文献】米国特許出願公開2015/0216448
【非特許文献】
【0008】
【文献】SakoeおよびChiba著“発出された言葉の認識のための動的計画法最適化”、IEEE 音響、音声、および信号処理に関する議事録 26.2(1978):43-49
【文献】Rabiner、Lawrence R著「音声認識における隠れマルコフモデルと選択されたアプリケーションに関するチュートリアル」、IEEE 77.2(1989):257-286の議事録
【発明の概要】
【0009】
本発明のいくつかの実施形態によれば、被験者の生理学的状態が知られている間に被験者によって第1の時点で生成された、複数の標準音声サンプルから形成された少なくとも1つの音声モデルを取得するステップを有する方法が提供される。音声モデルは、(i)標準音声サンプルに示される1つまたは複数の音響状態であって、音響状態は、それぞれの局所距離関数に関連付けられ、局所距離関数のドメイン内の任意の音響特徴ベクトルが与えられると、各音響状態の局所距離関数が、所与の音響特徴ベクトルと音響状態との間の対応の程度を示す局所距離を返す、音響状態と、(ii)音声モデルが複数の音響状態を含む場合、音響状態間の許容遷移と、を有する。この方法は、被験者の生理学的状態が不明である間に、被験者によって第2の時点で生成された少なくとも1つのテスト音声サンプルを受信するステップと;テスト音声サンプルの異なるそれぞれの部分の音響特徴を定量化する複数のテストサンプル特徴ベクトルを計算するステップと、をさらに含む。この方法はさらに、局所距離関数および許容遷移に基づいて、テストサンプル特徴ベクトルをそれぞれの音響状態にマッピングすることによって、テスト音声サンプルを音響状態の最小距離シーケンスにマッピングするステップを有する。テストサンプル特徴ベクトルとそれぞれの音響状態との間の合計距離は最小化され、ここで合計距離は、テストサンプル特徴ベクトルとそれぞれの音響状態との間のそれぞれの局所距離に基づく。この方法はさらに、テスト音声サンプルを音響状態の最小距離シーケンスにマッピングすることに応答して、第2の時点における被験者の生理学的状態を示す出力を生成するステップをさらに有する。
【0010】
いくつかの実施形態では、この方法は、標準音声サンプルを受信するステップをさらに含み、音声モデルを取得するステップは、標準音声サンプルから音声モデルを構築することによって音声モデルを取得するステップを有する。いくつかの実施形態では、合計距離は、それぞれの局所距離の合計に基づく。いくつかの実施形態では、合計距離は、それぞれの局所距離の合計である。いくつかの実施形態では、合計は第1の合計であり、モデルはさらに、許容遷移のそれぞれの遷移距離を定義し、合計距離は、(i)第1の合計と、(ii)音響状態の最小距離シーケンスに含まれる許容遷移の遷移距離と、の第2の合計である。いくつかの実施形態では、出力の生成には:合計距離を所定の閾値と比較するステップと比較に応答して出力を生成するステップを有する。いくつかの実施形態では、各音響状態の局所距離関数は、所与の音響特徴ベクトルがその音響状態に対応するという推定尤度の負の対数に依存する値を返す。
【0011】
幾つかの実施形態では標準音声サンプルは、被験者の生理学的状態が特定の生理学的状態に関して安定している間に生成される。
幾つかの実施形態では標準音声サンプルは第1の標準音声サンプルであり、標準サンプル特徴ベクトルは第1の標準サンプル特徴ベクトルであり、合計距離は第1の合計距離である。方法はさらに:被験者の生理学的状態が特定の生理学的状態に関して不安定である間に被験者によって生成された少なくとも1つの第2の標準音声サンプルを受信するステップと;第2の標準音声サンプルの異なるそれぞれの部分の音響特徴を定量化する複数の第2の標準サンプル特徴ベクトルを計算するステップと;テストサンプル特徴ベクトルとそれぞれの第2の標準サンプル特徴ベクトルとの間の第2の合計距離が最小化されるように、所定の制約の下で、テストサンプル特徴ベクトルをそれぞれの第2の標準サンプル特徴ベクトルにマッピングすることによって、テスト音声サンプルを第2の標準音声サンプルにマッピングするステップと;そして第2の合計距離を第1の合計距離と比較するステップと;を有し、ここで、出力を生成するステップは、第2の合計距離を第1の合計距離と比較することに応答して出力を生成するステップを有する。
【0012】
いくつかの実施形態では、標準音声サンプルは、被験者の生理学的状態が特定の生理学的状態に関して不安定である間に生成される。
いくつかの実施形態では、標準音声サンプルおよびテスト音声サンプルは、同じ所定の音声を含む。
いくつかの実施形態では、標準音声サンプルには、被験者の自由音声が含まれる。少なくとも1つの音声モデルを構築するステップは:自由音声における複数の異なる音声ユニットを識別するステップと;識別された音声ユニットのそれぞれの音声ユニットモデルを構築するステップ及び音声モデルが識別された音声ユニットの特定の連結を表すように、音声ユニットモデルを連結することによって少なくとも1つの音声モデルを構築するステップと;を有する。そしてテスト音声サンプルは、特定の連結を含む。
【0013】
いくつかの実施形態では、合計距離は第1の合計距離であり、出力を生成するステップは:テストサンプル特徴ベクトルとそれぞれの音響状態との間の第2の合計距離を計算するステップであって、第2の合計距離は第1の合計距離とは異なるステップと;第2の合計距離に応答して出力を生成するステップと;を有する。
いくつかの実施形態では、第2の合計距離を計算するステップは:それぞれの局所距離をそれぞれの重みで重み付けするステップであって、重みのうちの少なくとも2つは互いに異なるステップと;重み付けされた局所距離を合計することにより、第2の合計距離を計算するステップと;を有する。いくつかの実施形態では、それぞれの局所距離は、それぞれの第1の局所距離であり、第2の合計距離を計算するステップは:それぞれの音響状態の局所距離関数を修正するステップと;修正された局所距離関数を使用して、テストサンプル特徴ベクトルとそれぞれの音響状態との間のそれぞれの第2の局所距離を計算するステップと;そして第2の局所距離を合計して第2の合計距離を計算するステップと;を有する。
いくつかの実施形態では、局所距離関数を修正するステップは、少なくとも1つの音響特徴に、少なくとも1つの他の音響特徴よりもより大きな重みを与えるように局所距離関数を修正するステップを有する。
【0014】
本発明のいくつかの実施形態によれば、ネットワークインタフェースおよびプロセッサを含む装置がさらに提供される。プロセッサは、被験者の生理学的状態が知られている間に被験者によって第1の時点で生成された、1つまたは複数の標準音声サンプルから構築された少なくとも1つの音声モデルを取得するように構成される。音声モデルは、(i)標準音声サンプルに示される1つまたは複数の音響状態であって、音響状態は、それぞれの局所距離関数に関連付けられ、局所距離関数のドメイン内の任意の音響特徴ベクトルが与えられると、各音響状態の局所距離関数が、所与の音響特徴ベクトルと音響状態との間の対応の程度を示す局所距離を返す、音響状態と、(ii)音声モデルが複数の音響状態を含む場合、音響状態間の許容遷移と、を有する。プロセッサはさらに、ネットワークインタフェースを介して、被験者の生理学的状態が未知である間に被験者によって第2の時点で生成された少なくとも1つのテスト音声サンプルを受信し、テスト音声サンプルのそれぞれの異なる部分の音響的特徴を定量化する、複数のテストサンプル特徴ベクトルを計算するように構成される。プロセッサはさらに、局所距離関数および許容遷移に基づいて、テストサンプル特徴ベクトルをそれぞれの音響状態にマッピングすることによって、テスト音声サンプルを音響状態の最小距離シーケンスにマッピングするように構成される。テストサンプル特徴ベクトルとそれぞれの音響状態との間の合計距離が最小化されるように、合計距離は、テストサンプル特徴ベクトルとそれぞれの音響状態との間のそれぞれの局所距離に基づく。プロセッサはさらに、テスト音声サンプルを音響状態の最小距離シーケンスにマッピングすることに応答して、第2の時点での被験者の生理学的状態を示す出力を生成するように構成される。
【0015】
本発明のいくつかの実施形態によれば、回路および1つまたは複数のプロセッサを含むシステムがさらに提供される。プロセッサは、被験者の生理学的状態が知られている間に被験者によって第1の時点で生成された1つまたは複数の標準音声サンプルから構築された少なくとも1つの音声モデルを取得するステップを含むプロセスを協調的に実行するように構成される。音声モデルは、(i)標準音声サンプルに示される1つまたは複数の音響状態であって、音響状態は、それぞれの局所距離関数に関連付けられ、局所距離関数のドメイン内の任意の音響特徴ベクトルが与えられると、各音響状態の局所距離関数が、所与の音響特徴ベクトルと音響状態との間の対応の程度を示す局所距離を返す、音響状態と、(ii)音声モデルが複数の音響状態を含む場合、音響状態間の許容遷移と、を有する。このプロセスはさらに、回路を介して、被験者の生理学的状態が未知である間に被験者によって第2の時点で生成された少なくとも1つのテスト音声サンプルを受信するステップと;テスト音声サンプルのそれぞれの異なる部分の音響特徴を定量化する複数のテストサンプル特徴ベクトルを計算するステップを有する。このプロセスはさらに、局所距離関数および許容遷移に基づいて、テストサンプル特徴ベクトルをそれぞれの音響状態にマッピングすることによって、テスト音声サンプルを音響状態の最小距離シーケンスにマッピングするステップを有する。テストサンプル特徴ベクトルとそれぞれの音響状態との間の合計距離は最小化され、ここで合計距離は、テストサンプル特徴ベクトルとそれぞれの音響状態との間のそれぞれの局所距離に基づく。このプロセスはさらに、テスト音声サンプルを音響状態の最小距離シーケンスにマッピングするステップに応答して、第2の時点での被験者の生理学的状態を示す出力を生成するステップを有する。
【0016】
いくつかの実施形態では、回路がアナログ-デジタル(A/D)変換器を有する。
いくつかの実施形態では、回路がネットワークインタフェースを有する。
本発明のいくつかの実施形態によれば、プログラム命令が格納される有形の非一過性コンピュータ可読媒体を含むコンピュータソフトウェア製品がさらに提供される。命令は、プロセッサによって読み取られると、プロセッサに対し:被験者の生理学的状態が知られている間に被験者によって第1の時点で生成された1つまたは複数の標準音声サンプルから構築された少なくとも1つの音声モデルを取得させる。音声モデルは、(i)標準音声サンプルに示される1つまたは複数の音響状態であって、音響状態は、それぞれの局所距離関数に関連付けられ、局所距離関数のドメイン内の任意の音響特徴ベクトルが与えられると、各音響状態の局所距離関数が、所与の音響特徴ベクトルと音響状態との間の対応の程度を示す局所距離を返す、音響状態と、(ii)音声モデルが複数の音響状態を含む場合、音響状態間の許容遷移と、を有する。命令はさらに、プロセッサに対し、被験者の生理学的状態が未知である間に、被験者によって第2の時点で生成された少なくとも1つのテスト音声サンプルを受信させ、テスト音声サンプルの異なるそれぞれの部分の音響特徴を定量化する複数のテストサンプル特徴ベクトルを計算させる。命令はさらに、局所距離関数と許容遷移に基づいて、テストサンプル特徴ベクトルと音響状態のそれぞれのものとの間の合計距離が最小化されるように、テストサンプル特徴ベクトルをそれぞれの音響状態にマッピングすることにより、テスト音声サンプルを音響状態の最小距離シーケンスにマッピングする。合計距離は、テストサンプル特徴ベクトルとそれぞれの音響状態との間のそれぞれの局所距離に基づく。命令はさらに、プロセッサに対し、テスト音声サンプルを音響状態の最小距離シーケンスにマッピングするステップに応答して、第2の時点での被験者の生理学的状態を示す出力を生成させる。
【0017】
本発明のいくつかの実施形態によれば、被験者の生理学的状態が知られている間に第1の時点で生成された、被験者の自由音声から構築された複数の音声モデルを取得するステップを含む方法がさらに提供される。音声モデルのそれぞれは、自由音声における複数の異なる音声ユニットの異なるそれぞれの1つについて、(i)音声ユニットに示される1つまたは複数の音響状態であって、音響状態は、それぞれの局所距離関数に関連付けられ、局所距離関数のドメイン内の任意の音響特徴ベクトルが与えられると、各音響状態の局所距離関数が、所与の音響特徴ベクトルと音響状態との間の対応の程度を示す局所距離を返す、音響状態と、(ii)音声モデルが複数の音響状態を含む場合、音響状態間の許容遷移と、を有する。この方法はさらに、被験者の生理学的状態が未知である間に被験者によって第2の時点で生成された少なくとも1つのテスト音声サンプルを受信するステップと、そしてテスト音声サンプルにおいて、それぞれ、識別された音声ユニットを含む1つまたは複数のテストサンプル部分を識別するステップとを有する。この方法はさらに、それぞれのテストサンプル部分について、テストサンプル部分の異なるそれぞれの部分の音響特徴を定量化する複数のテストサンプル特徴ベクトルを計算することによって、テストサンプル部分をそれぞれの音声モデルにマッピングするステップと;テストサンプル部分に含まれる音声ユニット用に構築された音声モデルを識別し、局所距離関数と識別された音声モデルに含まれる許容遷移に基づいて、テストサンプルの特徴ベクトルとそれぞれの音響状態との間の合計距離が最小になるように、識別された音声モデルに含まれるそれぞれの音響状態にテストサンプル特徴ベクトルをマッピングすることによって、テストサンプル部分を識別された音声モデルにマッピングする。ここで合計距離は、テストサンプルの特徴ベクトルとそれぞれの音響状態ベクトルとの間のそれぞれの局所距離に基づいている。この方法は、テストサンプル部分を音声モデルのそれぞれの部分にマッピングすることに応答して、第2の時点での被験者の生理学的状態を示す出力を生成するステップをさらに有する。
【0018】
いくつかの実施形態では、この方法は、自由音声を受信するステップをさらに含み、音声モデルを取得するステップは:
自由音声における音声ユニットを識別するステップ、および
音声ユニットに基づいて、音声モデルを構築するステップ
によって音声モデルを取得するステップを含む。
いくつかの実施形態では、合計距離は、それぞれの局所距離の合計に基づく。
いくつかの実施形態では、テスト音声サンプルは、識別された音声ユニットの少なくとも1つを含む所定の音声の発出を含む。
いくつかの実施形態では、自由音声は標準自由音声であり、テスト音声サンプルはテスト自由音声を含む。
【0019】
本発明のいくつかの実施形態によれば、ネットワークインタフェースおよびプロセッサを含む装置がさらに提供される。プロセッサは、被験者の生理学的状態が知られている間に第1の時点で生成された、被験者の自由音声から構築された複数の音声モデルを取得するように構成される。音声モデルのそれぞれは、自由音声における複数の異なる音声ユニットの異なるそれぞれの1つについて、(i)音声ユニットに示される1つまたは複数の音響状態であって、音響状態は、それぞれの局所距離関数に関連付けられ、局所距離関数のドメイン内の任意の音響特徴ベクトルが与えられると、各音響状態の局所距離関数が、所与の音響特徴ベクトルと音響状態との間の対応の程度を示す局所距離を返す、音響状態と、(ii)音声モデルが複数の音響状態を含む場合、音響状態間の許容遷移と、を有する。プロセッサはさらに、被験者の生理学的状態が未知である間に被験者によって第2の時点で生成された少なくとも1つのテスト音声サンプルを受信し、そしてテスト音声サンプルにおいて、それぞれ、識別された音声ユニットを含む1つまたは複数のテストサンプル部分を識別するように構成される。プロセッサはさらに、それぞれのテストサンプル部分について、テストサンプル部分の異なるそれぞれの部分の音響特徴を定量化する複数のテストサンプル特徴ベクトルを計算することによって、テストサンプル部分をそれぞれの音声モデルにマッピングし;テストサンプル部分に含まれる音声ユニット用に構築された音声モデルを識別し、局所距離関数と識別された音声モデルに含まれる許容遷移に基づいて、テストサンプルの特徴ベクトルとそれぞれの音響状態との間の合計距離が最小になるように、識別された音声モデルに含まれるそれぞれの音響状態にテストサンプル特徴ベクトルをマッピングすることによって、テストサンプル部分を識別された音声モデルにマッピングするように構成される。ここで合計距離は、テストサンプルの特徴ベクトルとそれぞれの音響状態ベクトルとの間のそれぞれの局所距離に基づいている。プロセッサはさらに、テストサンプル部分を音声モデルのそれぞれの部分にマッピングすることに応答して、第2の時点での被験者の生理学的状態を示す出力を生成するように構成される。
【0020】
本発明のいくつかの実施形態によれば、回路および1つまたは複数のプロセッサを含むシステムがさらに提供される。プロセッサは、被験者の生理学的状態が知られている間に第1の時点で生成された、被験者の自由音声から構築された複数の音声モデルを取得するステップを含むプロセスを協働して実行するように構成される。音声モデルのそれぞれは、自由音声における複数の異なる音声ユニットの異なるそれぞれの1つについて、(i)音声ユニットに示される1つまたは複数の音響状態であって、音響状態は、それぞれの局所距離関数に関連付けられ、局所距離関数のドメイン内の任意の音響特徴ベクトルが与えられると、各音響状態の局所距離関数が、所与の音響特徴ベクトルと音響状態との間の対応の程度を示す局所距離を返す、音響状態と、(ii)音声モデルが複数の音響状態を含む場合、音響状態間の許容遷移と、を有する。プロセスはさらに、被験者の生理学的状態が未知である間に被験者によって第2の時点で生成された少なくとも1つのテスト音声サンプルを、回路を介して受信し、そしてテスト音声サンプルにおいて、それぞれ、識別された音声ユニットを含む1つまたは複数のテストサンプル部分を識別するステップを含む。プロセスはさらに、それぞれのテストサンプル部分について、テストサンプル部分の異なるそれぞれの部分の音響特徴を定量化する複数のテストサンプル特徴ベクトルを計算することによって、テストサンプル部分をそれぞれの音声モデルにマッピングし;テストサンプル部分に含まれる音声ユニット用に構築された音声モデルを識別し、局所距離関数と識別された音声モデルに含まれる許容遷移に基づいて、テストサンプルの特徴ベクトルとそれぞれの音響状態との間の合計距離が最小になるように、識別された音声モデルに含まれるそれぞれの音響状態にテストサンプル特徴ベクトルをマッピングすることによって、テストサンプル部分を識別された音声モデルにマッピングするステップを含む。ここで合計距離は、テストサンプルの特徴ベクトルとそれぞれの音響状態ベクトルとの間のそれぞれの局所距離に基づいている。プロセッサはさらに、テストサンプル部分を音声モデルのそれぞれの部分にマッピングすることに応答して、第2の時点での被験者の生理学的状態を示す出力を生成するステップを含む。
【0021】
本発明のいくつかの実施形態によれば、プログラム命令が格納される有形の非一過性コンピュータ可読媒体を含むコンピュータソフトウェア製品がさらに提供される。命令は、プロセッサによって読み取られるとプロセッサに対し、被験者の生理学的状態が知られている間に第1の時点で生成された、被験者の自由音声から構築された複数の音声モデルを取得させる。音声モデルのそれぞれは、自由音声における複数の異なる音声ユニットの異なるそれぞれの1つについて、(i)音声ユニットに示される1つまたは複数の音響状態であって、音響状態は、それぞれの局所距離関数に関連付けられ、局所距離関数のドメイン内の任意の音響特徴ベクトルが与えられると、各音響状態の局所距離関数が、所与の音響特徴ベクトルと音響状態との間の対応の程度を示す局所距離を返す、音響状態と、(ii)音声モデルが複数の音響状態を含む場合、音響状態間の許容遷移と、を有する。命令はさらにプロセッサに対し、被験者の生理学的状態が未知である間に被験者によって第2の時点で生成された少なくとも1つのテスト音声サンプルを回路を介して受信させ、そしてテスト音声サンプルにおいて、それぞれ、識別された音声ユニットを含む1つまたは複数のテストサンプル部分を識別させる。命令はさらにプロセッサに対し、それぞれのテストサンプル部分について、テストサンプル部分の異なるそれぞれの部分の音響特徴を定量化する複数のテストサンプル特徴ベクトルを計算することによって、テストサンプル部分をそれぞれの音声モデルにマッピングさせ;テストサンプル部分に含まれる音声ユニット用に構築された音声モデルを識別し、局所距離関数と識別された音声モデルに含まれる許容遷移に基づいて、テストサンプルの特徴ベクトルとそれぞれの音響状態との間の合計距離が最小になるように、識別された音声モデルに含まれるそれぞれの音響状態にテストサンプル特徴ベクトルをマッピングすることによって、テストサンプル部分を識別された音声モデルにマッピングさせる。ここで合計距離は、テストサンプルの特徴ベクトルとそれぞれの音響状態ベクトルとの間のそれぞれの局所距離に基づいている。命令はさらにプロセッサに対し、テストサンプル部分を音声モデルのそれぞれの部分にマッピングすることに応答して、第2の時点での被験者の生理学的状態を示す出力を生成させる。
【0022】
本発明のいくつかの実施形態によれば、少なくとも1つの音声モデルを取得するステップを有する方法がさらに提供される。その音声モデルは、(i)音声ユニットに示される1つまたは複数の音響状態であって、音響状態は、それぞれの局所距離関数に関連付けられ、局所距離関数のドメイン内の任意の音響特徴ベクトルが与えられると、各音響状態の局所距離関数が、所与の音響特徴ベクトルと音響状態との間の対応の程度を示す局所距離を返す、音響状態と、(ii)音声モデルが複数の音響状態を含む場合、音響状態間の許容遷移と、を有する。この方法はさらに、被験者によって生成された少なくとも1つのテスト音声サンプルを受信するステップと;テスト音声サンプルの異なるそれぞれの部分の音響特徴を定量化する複数のテストサンプル特徴ベクトルを計算するステップを有する。この方法はさらに、テストサンプル特徴ベクトルとそれぞれの音響状態との間の第1の合計距離が最小化されるように、局所距離関数および許容遷移に基づいて、テストサンプル特徴ベクトルをそれぞれの音響状態にマッピングすることによって、テスト音声サンプルを音響状態の最小距離シーケンスにマッピングするステップを有する。ここで第1の合計距離は、テストサンプル特徴ベクトルとそれぞれの音響状態との間のそれぞれの局所距離に基づく。この方法はさらに、テストサンプル特徴ベクトルとそれぞれの音響状態との間の第2の合計距離を計算するステップを有し、ここで第2の合計距離は第1の合計距離とは異なり、そして方法はさらに、第2の合計距離に応答して、被験者の生理学的状態を示す出力を生成するステップを有する。
【0023】
本発明のいくつかの実施形態によれば、ネットワークインタフェースおよびプロセッサを含む装置がさらに提供される。プロセッサは、少なくとも1つの音声モデルを取得するように構成される。その音声モデルは、(i)音声ユニットに示される1つまたは複数の音響状態であって、音響状態は、それぞれの局所距離関数に関連付けられ、局所距離関数のドメイン内の任意の音響特徴ベクトルが与えられると、各音響状態の局所距離関数が、所与の音響特徴ベクトルと音響状態との間の対応の程度を示す局所距離を返す、音響状態と、(ii)音声モデルが複数の音響状態を含む場合、音響状態間の許容遷移と、を有する。プロセッサはさらに、被験者によって生成された少なくとも1つのテスト音声サンプルを、ネットワークインタフェースを介して受信するステップと;テスト音声サンプルの異なるそれぞれの部分の音響特徴を定量化する複数のテストサンプル特徴ベクトルを計算するステップを実行するように構成される。プロセッサはさらに、テストサンプル特徴ベクトルとそれぞれの音響状態との間の第1の合計距離が最小化されるように、局所距離関数および許容遷移に基づいて、テストサンプル特徴ベクトルをそれぞれの音響状態にマッピングすることによって、テスト音声サンプルを音響状態の最小距離シーケンスにマッピングするステップを実行するように構成される。ここで第1の合計距離は、テストサンプル特徴ベクトルとそれぞれの音響状態との間のそれぞれの局所距離に基づく。プロセッサはさらに、テストサンプル特徴ベクトルとそれぞれの音響状態との間の第2の合計距離を計算するステップを実行するように構成され、ここで第2の合計距離は第1の合計距離とは異なり、そしてプロセッサはさらに、第2の合計距離に応答して、被験者の生理学的状態を示す出力を生成するステップを実行するように構成される。
【0024】
本発明のいくつかの実施形態によれば、回路および1つまたは複数のプロセッサを含むシステムがさらに提供される。プロセッサは、少なくとも1つの音声モデルを取得するステップを有する1つのプロセスを協調的に実行するように構成される。その音声モデルは、(i)音声ユニットに示される1つまたは複数の音響状態であって、音響状態は、それぞれの局所距離関数に関連付けられ、局所距離関数のドメイン内の任意の音響特徴ベクトルが与えられると、各音響状態の局所距離関数が、所与の音響特徴ベクトルと音響状態との間の対応の程度を示す局所距離を返す、音響状態と、(ii)音声モデルが複数の音響状態を含む場合、音響状態間の許容遷移と、を有する。このプロセスはさらに、被験者によって生成された少なくとも1つのテスト音声サンプルを、回路を介して受信するステップと;テスト音声サンプルの異なるそれぞれの部分の音響特徴を定量化する複数のテストサンプル特徴ベクトルを計算するステップを有する。このプロセスはさらに、テストサンプル特徴ベクトルとそれぞれの音響状態との間の第1の合計距離が最小化されるように、局所距離関数および許容遷移に基づいて、テストサンプル特徴ベクトルをそれぞれの音響状態にマッピングすることによって、テスト音声サンプルを音響状態の最小距離シーケンスにマッピングするステップを有する。ここで第1の合計距離は、テストサンプル特徴ベクトルとそれぞれの音響状態との間のそれぞれの局所距離に基づく。このプロセスはさらに、テストサンプル特徴ベクトルとそれぞれの音響状態との間の第2の合計距離を計算するステップを有し、ここで第2の合計距離は第1の合計距離とは異なり、そしてプロセスはさらに、第2の合計距離に応答して、被験者の生理学的状態を示す出力を生成するステップを有する。
【0025】
本発明のいくつかの実施形態によれば、プログラム命令が格納される有形の非一過性コンピュータ可読媒体を含むコンピュータソフトウェア製品がさらに提供される。命令は、プロセッサによって読み取られると、プロセッサに対し、少なくとも1つの音声モデルを取得させる。音声モデルは、(i)音声ユニットに示される1つまたは複数の音響状態であって、音響状態は、それぞれの局所距離関数に関連付けられ、局所距離関数のドメイン内の任意の音響特徴ベクトルが与えられると、各音響状態の局所距離関数が、所与の音響特徴ベクトルと音響状態との間の対応の程度を示す局所距離を返す、音響状態と、(ii)音声モデルが複数の音響状態を含む場合、音響状態間の許容遷移と、を有する。命令はさらにプロセッサに対し、被験者によって生成された少なくとも1つのテスト音声サンプルを、受信するステップと;テスト音声サンプルの異なるそれぞれの部分の音響特徴を定量化する複数のテストサンプル特徴ベクトルを計算するステップを実行させる。命令はさらにプロセッサに対し、テストサンプル特徴ベクトルとそれぞれの音響状態との間の第1の合計距離が最小化されるように、局所距離関数および許容遷移に基づいて、テストサンプル特徴ベクトルをそれぞれの音響状態にマッピングすることによって、テスト音声サンプルを音響状態の最小距離シーケンスにマッピングするステップを実行させる。ここで第1の合計距離は、テストサンプル特徴ベクトルとそれぞれの音響状態との間のそれぞれの局所距離に基づく。命令はさらにプロセッサに対し、テストサンプル特徴ベクトルとそれぞれの音響状態との間の第2の合計距離を計算するステップを実行させ、ここで第2の合計距離は第1の合計距離とは異なり、そして命令はさらにプロセッサに対し、第2の合計距離に応答して、被験者の生理学的状態を示す出力を生成するステップを実行させる。
【0026】
本発明のいくつかの実施形態によれば、被験者の生理学的状態が知られている間に被験者によって第1の時点で生成された、少なくとも1つの標準音声サンプルの異なるそれぞれの部分の音響特徴を定量化する複数の標準サンプル特徴ベクトルを取得するステップを有する方法が提供される。方法はさらに、被験者の生理学的状態が不明である間に、被験者によって第2の時点で生成された少なくとも1つのテスト音声サンプルを受信するステップと;そしてテスト音声サンプルの異なるそれぞれの部分の音響特徴を定量化する複数のテストサンプル特徴ベクトルを計算するステップと;を有する。方法はさらに、テストサンプル特徴ベクトルとそれぞれの標準サンプル特徴ベクトルとの間の合計距離が最小化されるように、所定の制約の下で、テストサンプル特徴ベクトルをそれぞれの標準サンプル特徴ベクトルにマッピングすることによって、テスト音声サンプルを標準音声サンプルにマッピングするステップと;を有する。方法はさらに、テスト音声サンプルを標準音声サンプルにマッピングすることに応答して、第2の時点での被験者の生理学的状態を示す出力を生成するステップを有する。
【0027】
いくつかの実施形態では、この方法は、標準音声サンプルを受信するステップをさらに有し、標準音声サンプルを取得するステップは、標準音声サンプルに基づいて標準サンプル特徴ベクトルを計算することによって標準サンプル特徴ベクトルを取得するステップを有する。
いくつかの実施形態では、合計距離は、テストサンプル特徴ベクトルとそれぞれの標準サンプル特徴ベクトルとの間のそれぞれの局所距離から導出される。
いくつかの実施形態では、合計距離は、局所距離の加重和である。
いくつかの実施形態では、テスト音声サンプルを標準音声サンプルにマッピングするステップは、動的タイムワーピング(DTW)アルゴリズムを使用してテスト音声サンプルを標準音声サンプルにマッピングするステップを有する。
いくつかの実施形態では、出力を生成するステップは、合計距離を所定の閾値と比較するステップ;と比較に応答して出力を生成するステップ;とを有する。
いくつかの実施形態では、標準音声サンプルは、被験者の生理学的状態が特定の生理学的状態に関して安定している間に生成される。
【0028】
いくつかの実施形態では、標準音声サンプルは第1の標準音声サンプルであり、標準サンプル特徴ベクトルは第1の標準サンプル特徴ベクトルであり、合計距離は第1の合計距離であり、方法はさらに:被験者の生理学的状態が特定の生理学的状態に関して不安定である間に被験者によって生成された少なくとも1つの第2の標準音声サンプルを受信するステップと;第2の標準音声サンプルの異なるそれぞれの部分の音響特徴を定量化する複数の第2の標準サンプル特徴ベクトルを計算するステップと;テストサンプル特徴ベクトルとそれぞれの第2の標準サンプル特徴ベクトルとの間の第2の合計距離が最小化されるように、所定の制約の下で、テストサンプル特徴ベクトルをそれぞれの第2の標準サンプル特徴ベクトルにマッピングすることによって、テスト音声サンプルを第2の標準音声サンプルにマッピングするステップと;そして第2の合計距離を第1の合計距離と比較するステップと;を有し、ここで、出力を生成するステップは、第2の合計距離を第1の合計距離と比較することに応答して出力を生成するステップを有する。
【0029】
いくつかの実施形態では、被験者の生理学的状態が特定の生理学的状態に関して不安定である間に標準音声サンプルが生成される。
いくつかの実施形態では、標準音声サンプルおよびテスト音声サンプルは、同じ所定の音声を含む。
いくつかの実施形態では、標準音声サンプルは、被験者の自由音声を含み、テスト音声サンプルは、自由音声に含まれる複数の音声ユニットを含む。
いくつかの実施形態では、合計距離は第1の合計距離であり、出力を生成するステップは:テストサンプル特徴ベクトルとそれぞれの標準サンプル特徴ベクトルとの間の第2の合計距離を計算するステップであって、第2の合計距離は第1の合計距離とは異なるステップと;第2の合計距離に応答して出力を生成するステップと;を有する。
いくつかの実施形態では、第1の合計距離は、テストサンプル特徴ベクトルとそれぞれの標準サンプル特徴ベクトルの間のそれぞれの局所距離の第1の加重和であり、第1の加重和は、局所距離がそれぞれの第1の重みによって加重され、第2の合計距離は、局所距離がそれぞれの第2の重みによって加重され、少なくとも1つの第2の重みが、対応する第1の重みとは異なる、それぞれの局所距離の第2の加重和である。
【0030】
いくつかの実施形態では、この方法は、標準サンプル特徴ベクトルをそれぞれの音響音声ユニット(APU)に関連付けるステップと;APUに応答して第2の重みを選択するステップと;をさらに有する。
いくつかの実施形態では、標準サンプル特徴ベクトルをAPUに関連付けるステップは、標準音声サンプルに音声認識アルゴリズムを適用することによって標準サンプル特徴ベクトルをAPUに関連付けるステップを有する。
いくつかの実施形態では、第1の合計距離は、テストサンプル特徴ベクトルとそれぞれの標準サンプル特徴ベクトルとの間のそれぞれの第1の局所距離に基づいており、第2の合計距離は、テストサンプル特徴ベクトルとそれぞれの標準サンプル特徴ベクトルとの間のそれぞれの第2の局所距離に基づいており、少なくとも1つの第2の局所距離は、対応する第1の局所距離とは異なる。
いくつかの実施形態では、テスト音声サンプルを標準音声サンプルにマッピングするステップは、第1の距離測度を使用して第1の局所距離を計算するステップを有し、第2の合計距離を計算するステップは、第1の距離測度とは異なる第2の距離測度を使用して第2の局所距離を計算するステップを有する。
いくつかの実施形態では、第2の合計距離を計算するステップは、第1の局所距離に寄与しなかった少なくとも1つ音響特徴に基づいて第2の局所距離を計算するステップを有する。
【0031】
本発明のいくつかの実施形態によれば、ネットワークインタフェース;とプロセッサと;を有する装置が提供される。プロセッサは:被験者の生理学的状態が知られている間に被験者によって第1の時点で生成された、少なくとも1つの標準音声サンプルの異なるそれぞれの部分の音響特徴を定量化する複数の標準サンプル特徴ベクトルを取得するステップと;被験者の生理学的状態が不明である間に、被験者によって第2の時点で生成された少なくとも1つのテスト音声サンプルをネットワークインタフェース経由で受信するステップと;テスト音声サンプルの異なるそれぞれの部分の音響特徴を定量化する複数のテストサンプル特徴ベクトルを計算するステップと;を実行するように構成される。プロセッサはさらに、テストサンプル特徴ベクトルとそれぞれの標準サンプル特徴ベクトルとの間の合計距離が最小化されるように、所定の制約の下で、テストサンプル特徴ベクトルをそれぞれの標準サンプル特徴ベクトルにマッピングすることによって、テスト音声サンプルを標準音声サンプルにマッピングするステップを実行するように構成される。プロセッサはさらに、テスト音声サンプルを標準音声サンプルにマッピングすることに応答して、第2の時点での被験者の生理学的状態を示す出力を生成するステップを実行するように構成される。
【0032】
本発明のいくつかの実施形態によれば、回路と、1つまたは複数のプロセッサとを有するシステムがさらに提供される。プロセッサは:被験者の生理学的状態が知られている間に被験者によって第1の時点で生成された、少なくとも1つの標準音声サンプルの異なるそれぞれの部分の音響特徴を定量化する複数の標準サンプル特徴ベクトルを取得するステップと;被験者の生理学的状態が不明である間に、被験者によって第2の時点で生成された少なくとも1つのテスト音声サンプルを回路経由で受信するステップと;テスト音声サンプルの異なるそれぞれの部分の音響特徴を定量化する複数のテストサンプル特徴ベクトルを計算するステップと;テストサンプル特徴ベクトルとそれぞれの標準サンプル特徴ベクトルとの間の合計距離が最小化されるように、所定の制約の下で、テストサンプル特徴ベクトルをそれぞれの標準サンプル特徴ベクトルにマッピングすることによって、テスト音声サンプルを標準音声サンプルにマッピングするステップと;およびテスト音声サンプルを標準音声サンプルにマッピングすることに応答して、第2の時点での被験者の生理学的状態を示す出力を生成するステップと;を含むプロセスを協調的に実行するように構成される。
【0033】
本発明のいくつかの実施形態によれば、プログラム命令が格納される、有形の非一過性コンピュータ可読媒体を含むコンピュータソフトウェア製品がさらに提供される。命令はプロセッサによって読み取られると、プロセッサに対し:被験者の生理学的状態が知られている間に被験者によって第1の時点で生成された、少なくとも1つの標準音声サンプルの異なるそれぞれの部分の音響特徴を定量化する複数の標準サンプル特徴ベクトルを取得するステップと;被験者の生理学的状態が不明である間に、被験者によって第2の時点で生成された少なくとも1つのテスト音声サンプルを受信するステップと;テスト音声サンプルの異なるそれぞれの部分の音響特徴を定量化する複数のテストサンプル特徴ベクトルを計算するステップと;テストサンプル特徴ベクトルとそれぞれの標準サンプル特徴ベクトルとの間の合計距離が最小化されるように、所定の制約の下で、テストサンプル特徴ベクトルをそれぞれの標準サンプル特徴ベクトルにマッピングすることによって、テスト音声サンプルを標準音声サンプルにマッピングするステップと;およびテスト音声サンプルを標準音声サンプルにマッピングすることに応答して、第2の時点での被験者の生理学的状態を示す出力を生成するステップと;を実行させる。
【図面の簡単な説明】
【0034】
本発明は、図面を参照するその実施形態の以下の詳細な説明から、より完全に理解されよう:
図1】本発明のいくつかの実施形態による、被験者の生理学的状態を評価するためのシステムの概略図である。
図2-3】図2は、本発明のいくつかの実施形態による、音声モデルの構築の概略図である。図3は、本発明のいくつかの実施形態による、テスト音声サンプルの音声モデルへのマッピングの概略図である。
図4】本発明のいくつかの実施形態による、複数の音声ユニットモデルから音声モデルを構築するための技術の概略図である。
図5】本発明のいくつかの実施形態による、テスト音声サンプルの標準音声サンプルへのマッピングの概略図である。
図6】本発明のいくつかの実施形態による、被験者のテスト音声サンプルを評価するための例示的なアルゴリズムの流れ図である。
【発明を実施するための形態】
【0035】
(概要)
本発明の実施形態は、被験者の音声を分析することにより、被験者の生理学的状態を評価するためのシステムを含む。例えば、被験者の音声を分析することにより、システムは、うっ血性心不全(CHF)、冠状動脈性心臓病、心房細動または他のタイプの不整脈、慢性閉塞性肺疾患(COPD)、喘息、間質性肺疾患、肺水腫、胸膜滲出液、パーキンソン病、またはうつ病などの生理学的状態の発症または悪化を特定し得る。評価に応答して、システムは、被験者、被験者の医師、および/または監視サービスへの警告などの出力を生成することができる。
【0036】
被験者の生理学的状態を評価するために、システムは、被験者の生理学的状態が安定していると見なされたときに、第1の時点で被験者から1つ以上の標準(または「ベースライン」)音声サンプルを取得する。例えば、標準サンプルは、被験者の生理学的状態が安定しているという被験者の医師からの指示に従って取得され得る。別の例として、肺水腫を患っている被験者の場合、システムは、被験者の呼吸を安定させるための被験者の治療後に標準音声サンプルを取得することができる。各標準音声サンプルを取得した後、システムはサンプルから音響特徴ベクトルのシーケンスを抽出する。各特徴ベクトルは、その時点の時間的近傍においてサンプルの音響特性を定量化することに起因して、サンプル内の異なるそれぞれの時点に対応する。
【0037】
標準サンプルの取得に続いて(例えば、数日後)、被験者の状態が不明である時に、システムは、被験者から、以下で「テスト音声サンプル」と呼ばれる、少なくとも1つの他の音声サンプルを取得し、そのサンプルからそれぞれの特徴ベクトルを抽出する。続いて、テストサンプルと標準サンプルの特徴ベクトルに基づいて、システムは、以下で詳細に説明するように、テストサンプルの標準サンプルからの偏差を定量化する少なくとも1つの距離値を計算する。1つまたは複数の所定の基準を満たすこの距離に応答して(例えば、所定の閾値を超える距離に応答して)、システムは、警告および/または別の出力を生成することができる。
【0038】
より具体的には、いくつかの実施形態では、標準サンプルから抽出された特徴ベクトルに基づいて、システムは、被験者の生理学的状態が安定していると見なされる間、被験者の音声を表す被験者固有のパラメトリック統計モデルを構築する。特に、被験者の音声は、被験者の音声生成システムのそれぞれの生理学的状態に暗黙的に対応する複数の音響状態によって表される。モデルは、状態間の許容される遷移をさらに定義し、遷移のそれぞれの遷移距離(または「コスト」)をさらに含むことができる。
【0039】
音響状態は、ベクトルの特定のドメインに対して定義された、それぞれのパラメトリック局所距離関数に関連付けられている。ドメイン内の特定の特徴ベクトルを前提として、各局所距離関数は、特徴ベクトルに適用されると、特徴ベクトルと関数が関連付けられている音響状態との間の対応の程度を示す値を返す。本明細書では、この値は、特徴ベクトルと音響状態との間の「局所距離」と呼ばれる。
【0040】
いくつかの実施形態では、各音響状態は、それぞれの確率密度関数(PDF)に関連付けられ、音響状態と特徴ベクトルとの間の局所距離は、特徴ベクトルに適用されるPDFの対数の負の値である。同様に、各遷移はそれぞれの遷移確率に関連付けられ、遷移のコストは遷移確率の対数の負の値になりうる。これらの特性を持つ少なくともいくつかのモデルは、隠れマルコフモデル(HMM)として知られている。
【0041】
モデルの構築に続いて、テスト音声サンプルを分析するために、システムは、テストサンプル特徴ベクトル(つまり、テストサンプルから抽出された特徴ベクトル)のそれぞれをモデルに属する音響状態のそれぞれに割り当てることによって、テストサンプルをモデルにマッピングする。特に、システムは、可能なすべてのマッピングの中から、許容状態遷移が与えられた場合に、最小の合計距離を持つ状態シーケンスを提供するマッピングを選択する。この合計距離は、テストサンプルの特徴ベクトルとそれらが割り当てられている音響状態との間のそれぞれの局所距離の合計として計算できる。選択肢として、シーケンスに含まれる遷移距離の合計をこの合計に追加できる。サンプルとモデルの間の合計距離に応答して、システムは警告および/または別の出力を生成しうる。
【0042】
いくつかの実施形態では、標準サンプルのそれぞれは、同じ特定の音声、すなわち、同じ音声ユニットのシーケンスを含む。例えば、被験者の携帯電話は、被験者に対し、1つ以上の指定された文章、ワード、音節を繰り返すように促し、それらは任意の数の指定された音素、ダイフォン、トライフォン、および/または他の音響音声ユニット(APU)を含む。被験者が標準サンプルを作成すると、携帯電話に属するマイクがサンプルを記録しうる。続いて、携帯電話またはリモートサーバに属するプロセッサは、サンプルから、特定の音声を表すモデルを構築することができる。続いて、テストサンプルを取得するために、システムは被験者に音声の発出を繰り返すように促す。
【0043】
他の実施形態では、標準サンプルは、被験者の自由音声から取得される。例えば、被験者の携帯電話は、被験者に1つまたは複数の質問に答えるように促し、その後、質問に対する被験者の回答を録音することができる。あるいは、通常の会話中の被験者の音声を録音することもできる。標準サンプルを取得した後、システムは適切な音声認識アルゴリズムを使用して、標準サンプル内のさまざまな音声ユニットを識別する。たとえば、システムは、さまざまな言葉、APU(音素、音節、トライフォン、ダイフォンなど)、または単一の隠れマルコフモデル(HMM)状態などの合成音響ユニットを識別できる。次に、システムは、これらの音声ユニットについて、本明細書では「音声ユニットモデル」と呼ばれるそれぞれのモデルを構築する。(単一のHMM状態を含む合成音響ユニットの場合、音声ユニットモデルには単一状態のHMMが含まれる。)
【0044】
音声ユニットモデルを構築した後、システムは、音声ユニットが音声に現れる順序に基づいて、音声ユニットモデルを特定の音声の発出を表す結合モデルに連結することができる。(任意の2つの音声ユニットモデルを連結するために、システムは一方のモデルの最終状態からもう一方のモデルの初期状態への遷移を追加し、遷移距離が使用されている場合は、この遷移に遷移距離を割当てる。)システムは次に、この特定の音声を含むテストサンプルを取得し、テストサンプルを結合モデルにマッピングすることができる。
【0045】
あるいは、音声ユニットモデルを連結する代わりに、システムは、被験者に、テストサンプルのために、音声ユニットモデルが構築された音声ユニットを含む任意の特定の音声を発出するように促すことができる。次に、システムは、テストサンプル内のこれらの音声ユニットを識別し、各音声ユニットと対応する音声ユニットモデルとの間のそれぞれの「音声ユニット距離」を計算することができる。音声ユニット距離に基づいて、システムは、テストサンプルと標準サンプルとの間の合計距離を計算することができる。例えば、システムは、音声ユニット距離を合計することによって合計距離を計算することができる。
【0046】
さらに別の代替案として、被験者の自由音声からテストサンプルを取得することができる。システムがテストサンプルの発話された内容を識別するとき、システムは、対応する音声ユニットモデルを有するテストサンプル内の各音声ユニットのそれぞれの音声ユニット距離を計算することができる。次に、システムは、上記のように、音声ユニット距離から合計距離を計算することができる。
【0047】
他の実施形態では、システムは、標準サンプルからモデルを構築せず、むしろ、テスト音声サンプルを、以前に取得された個々の標準サンプルのそれぞれと直接比較する。例えば、標準サンプルを取得するために、システムは、被験者に特定の音声を発するように促すことができる。続いて、テストサンプルを取得するために、システムは、被験者に同じ音声を発するように促すことができ、次いで、2つのサンプルを互いに比較することができる。あるいは、システムは、被験者の自由音声を記録し、自動音声認識(ASR)アルゴリズムを使用して自由音声から標準サンプルを抽出し、標準サンプルの発話された内容を識別することができる。続いて、テストサンプルを取得するために、システムは被験者に同じ口頭の内容を生成するように促すことができる。
【0048】
テストサンプルと標準サンプルの比較を実行するために、システムは、「背景技術」で前述した動的タイムワーピング(DTW)アルゴリズムなどのアライメントアルゴリズムを使用して、テストサンプルを標準サンプルとアライメントする、即ち、各テストサンプル特徴ベクトルとそれぞれの標準サンプル特徴ベクトルの間の対応を発見する。 (アラインメントごとに、複数の連続するテストサンプル特徴ベクトルが単一の標準サンプル特徴ベクトルに対応する場合がある。同様に、複数の連続する標準サンプル特徴ベクトルが単一のテストサンプル特徴ベクトルに対応する場合がある。)アラインメントを実行する場合、システムは、2つのサンプル間の距離Dを計算する。続いて、システムは、Dに応答して、警告および/または他の任意の適切な出力を生成することができる(前述のアライメントは、テストサンプルが標準サンプルにマッピングされるという点で、以下「マッピング」とも呼ばれる)。
【0049】
いくつかの実施形態では、被験者の生理学的状態が不安定であると見なされる場合、即ち、特定の疾患に関する悪化の開始に起因して、1つまたは複数の標準音声サンプルが取得される。(特許請求の範囲を含む本出願の文脈において、被験者が悪化の兆候に気づかなくても、被験者の健康が何らかの形で悪化している場合、被験者の生理学的状態は「不安定」であると言われる。)これらのサンプルに基づいて、システムは、不安定な状態の被験者の音声を表すパラメトリック統計モデルを構築することができる。次に、システムは、テストサンプルを「安定モデル」と「不安定モデル」の両方と比較し、たとえば、テストサンプルが安定モデルよりも不安定モデルに近い場合に警告を生成することができる。あるいは、安定モデルを構築しなくても、システムは、テストサンプルを不安定モデルと比較し、比較に応答して、例えば、テストサンプルとモデルとの間の距離が所定の閾値未満であることに応答して、警告を生成し得る。
【0050】
同様に、システムは、上記のようなアライメント技術を使用して、テストサンプルを「不安定な」標準サンプルと直接比較するか、あるいはテストサンプルを「安定した」標準サンプルと比較することもできる。この比較に応答して、システムは警告を生成しうる。
【0051】
いくつかの実施形態では、複数の標準音声サンプルが、典型的には当該被験者が苦しんでいる特定の状態に関して不安定な状態にある他の被験者から得られ、これらのサンプル(および/または当該被験者から取得されたサンプル)に基づいて、一般的な(つまり、被験者固有ではない)音声モデルが構築される。その後、当該被験者のテストサンプルを一般モデルにマッピングすることができる。有利なことに、この技術は、当該被験者の状態が不安定である間は特に困難でありうる、当該被験者から多数の標準サンプルを取得する必要性を取り除くことができる。
【0052】
いくつかの実施形態では、標準サンプル特徴ベクトルのシーケンスは、それぞれのワードまたは音素などのそれぞれの音声ユニットに対応するものとしてラベル付けされている。たとえば、各標準サンプルは、1つまたは複数の状態のグループがそれぞれの既知の音声ユニットに対応する、話者に依存しないHMMにマッピングできる。(上記のように、そのようなマッピングは、標準サンプルが被験者の自由音声から得られる場合に実行される。)あるいは、例えば、標準サンプルは専門家によってラベル付けされ得る。モデルが標準サンプルから構築されている場合、システムは、標準サンプルのラベル付けに基づいて、モデル内の状態のシーケンスにもラベルを付ける。
【0053】
このような実施形態では、テストサンプルをモデルまたは標準サンプルの1つにマッピングした後、システムは、テストサンプルとモデルまたは標準サンプルとの間の距離を再計算し、評価中の特定の生理学的状態に関して、他のものよりも指標的であることが知られている1つまたは複数の音声ユニットにより大きな重みを与えることができる。次に、システムは、マッピング中に計算された元の距離に応答して決定するのではなく、再計算された距離に応答して警告を生成するかどうかを決定することができる。距離を再計算する際に、システムは元のマッピングを変更しない、つまり、各テストサンプルの特徴ベクトルは同じモデル状態または標準サンプルの特徴ベクトルにマッピングされたままになる。
【0054】
代替的または追加的に、テストサンプルをモデルまたは標準サンプルの1つにマッピングした後、システムは、使用されたものとは異なるマッピング用局所距離関数を使用して、テストサンプルとモデルまたは標準サンプルの間の距離を再計算できる。この場合も、システムは元のマッピングを変更せず、距離を再計算するだけである。
【0055】
たとえば、システムは、マッピングの実行に使用されなかった1つ以上の特徴を説明するため、または特定の特徴により大きな重みを与えるために、局所距離関数を変更する場合がある。通常、システムによって強調される特徴は、評価されている特定の生理学的状態に関して他のものよりも指標的であることが知られている特徴である。(より指標的な特徴の一例は、ピッチの分散であり、特定の病気の発症または悪化とともに減少する傾向がある。)選択肢として、システムは、1つ以上の特徴の重みが小さいか、局所距離にまったく寄与しないように局所距離関数を変更することもできる。
【0056】
(システムの説明)
最初に、本発明のいくつかの実施形態による、被験者22の生理学的状態を評価するためのシステム20の概略図である図1を参照する。
【0057】
システム20は、携帯電話、タブレットコンピュータ、ラップトップコンピュータ、デスクトップコンピュータ、音声制御パーソナルアシスタント(AmazonEcho(登録商標)またはGoogleHome(登録商標)デバイスなど)、またはスマートスピーカーデバイスなどの被験者22によって使用される音声受信デバイス32を備えている。音声受信デバイス32は、音波をアナログ電気信号に変換するオーディオセンサ38(例えば、マイクロフォン)を備える。音声受信デバイス32は、プロセッサ36と、例えば、アナログ-デジタル(A/D)変換器42および/またはネットワークインタフェースコントローラ(NIC)34などのネットワークインタフェースを含む他の回路をさらに備える。典型的には、音声受信デバイス32はさらに、デジタルメモリ(または「記憶装置」)、スクリーン(例えば、タッチスクリーン)、および/またはキーボードなどの他のユーザインタフェース要素を備える。いくつかの実施形態では、オーディオセンサ38(および、選択肢として、A/D変換器42)は、音声受信デバイス32の外部にあるユニットに属する。例えば、オーディオセンサ38は、有線またはBluetooth接続などの無線接続により音声受信デバイス32に接続されるヘッドセットに属することができる。
【0058】
システム20は、プロセッサ28を含むサーバ40、ハードドライブまたはフラッシュドライブなどのデジタルメモリ(または「記憶装置」)30、および/または、例えば、A/Dコンバータおよび/またはネットワークインタフェースコントローラ(NIC)26などのネットワークインタフェースを含む他の回路をさらに備える。サーバ40は、画面、キーボード、および/または任意の他の適切なユーザインタフェース要素をさらに備え得る。典型的には、サーバ40は、音声受信デバイス32から離れて、例えば、コントロールセンターに配置され、サーバ40および音声受信デバイス32は、セルラーネットワークおよび/またはインターネットを含み得るネットワーク24上で、それぞれのネットワークインタフェースを介して互いに通信する。
【0059】
システム20は、以下で詳細に説明するように、被験者から受信した1つまたは複数の音声信号(本明細書では「音声サンプル」とも呼ばれる)を処理することによって被験者の生理学的状態を評価するように構成される。典型的には、音声受信デバイス32のプロセッサ36およびサーバ40のプロセッサ28は、少なくともいくつかの音声サンプルの受信および処理を協調的に実行する。例えば、被験者が音声受信デバイス32に話しかけるとき、被験者の音声の音波は、オーディオセンサ38によってアナログ信号に変換され得、次いで、オーディオセンサ38は、A/D変換器42によってサンプリングおよびデジタル化され得る。被験者の音声は、8~45kHzのレートなど、任意の適切なレートでサンプリングできる。)結果としてのデジタル音声信号は、プロセッサ36で受信できる。プロセッサ36は、NIC34を介して音声信号をサーバ40に通信できる。続いて、プロセッサ28は、NIC26を介して音声信号を受信することができる。その後、プロセッサ28は、音声信号を処理することができる。
【0060】
典型的には、被験者の音声を処理する際に、プロセッサ28は、被験者の生理学的状態が未知である間に被験者によって生成されたテストサンプルを、被験者の生理学的状態が既知である(たとえば、医師によって安定していると見なされた)間に生成された標準サンプルと、または複数のそのような標準サンプルから構築されたモデルと比較する。例えば、プロセッサ28は、テストサンプルと標準サンプルまたはモデルとの間の距離を計算することができる。
【0061】
被験者の音声サンプルの処理に基づいて、プロセッサ28は、被験者の生理学的状態を示す出力を生成することができる。例えば、プロセッサ28は、前述の距離を閾値と比較し、この比較に応答して、被験者の生理学的状態の悪化を示す、音声または視覚的警告などの警告を生成することができる。選択肢として、そのような警告には、被験者の状態の説明が含まれる場合がある。たとえば、警告は、被験者の肺が「濡れている」、即ち、部分的に液体で満たされていることを示している場合がある。あるいは、被験者の音声サンプルが被験者の状態が安定していることを示している場合、プロセッサ28は、被験者の状態が安定していることを示す出力を生成することができる。
【0062】
出力を生成するために、プロセッサ28は、電話をかけるか、またはメッセージ(例えば、テキストメッセージ)を被験者、被験者の医師、および/または監視センターに送信することができる。代替的に、または追加的に、プロセッサ28は、出力をプロセッサ36に通信することができ、次に、プロセッサ36は、例えば、音声受信デバイス32の画面上にメッセージを表示することによって、出力を被験者に通信することができる。
【0063】
他の実施形態では、プロセッサ36およびプロセッサ28は、前述の音声信号処理を協調して実行する。例えば、プロセッサ36は、音声サンプルから音響特徴のベクトルを抽出し(以下でさらに説明するように)、これらのベクトルをプロセッサ28に伝達することができる。次に、プロセッサ28は、本明細書で説明するようにベクトルを処理することができる。あるいは、プロセッサ28は、(プロセッサ36から、1つまたは複数の他のプロセッサから、および/または直接)、被験者22および/または1つまたは複数の他の被験者によって生成された1つまたは複数の標準音声サンプルを受信することができる。これらのサンプルに基づいて、プロセッサ28は、少なくとも1つの音声モデル、または複数の標準サンプル特徴ベクトルを計算することができる。次に、プロセッサ28は、モデルまたは標準サンプル特徴ベクトルをプロセッサ36に通信することができる。プロセッサ28から得られたこれらのデータに基づいて、プロセッサ36は、本明細書に記載されるように、被験者22からのテストサンプルを処理することができる。(選択肢として、プロセッサ36は、前述の距離をプロセッサ28に伝達することができる。次に、プロセッサ28は、距離を前述の閾値と比較し、適切な場合、警告を生成することができる。)さらに別の選択肢として、本明細書に記載の診断技術の全てはプロセッサ36により実行することが可能であり、その場合システム20は必ずしもサーバ40を含む必要がない。
【0064】
上記にかかわらず、本説明の残りの部分では、簡略化のため、プロセッサ28(以下、単に「プロセッサ」とも呼ばれる)がすべての処理を実行することを概して前提としている。
【0065】
いくつかの実施形態では、音声受信デバイス32は、A/D変換器またはプロセッサを含まないアナログ電話を含む。そのような実施形態では、音声受信デバイス32は、電話網を介してオーディオセンサ38からサーバ40にアナログオーディオ信号を送信する。通常、電話網では、音声信号はデジタル化され、デジタルで通信され、次にサーバ40に到達する前にアナログに変換されて戻される。したがって、サーバ40は、適切な電話ネットワークインタフェースを介して受信した入力アナログ音声信号をデジタル音声信号へ変換するA/D変換器を備え得る。プロセッサ28は、A/D変換器からデジタル音声信号を受信し、次に、本明細書で説明されるように信号を処理する。あるいは、サーバ40は、信号がアナログに変換される前に電話網から信号を受信することができ、その結果、サーバは、必ずしもA/D変換器を備える必要はない。
【0066】
通常、サーバ40は、複数の異なる被験者に属する複数のデバイスと通信し、これらの複数の被験者の音声信号を処理するように構成される。典型的には、メモリ30は、本明細書に記載の音声サンプル処理に関連するデータ(例えば、1つまたは複数の標準音声サンプルまたはそこから抽出された特徴ベクトル、1つまたは複数の音声モデル、および/または1つまたは複数の閾値距離)が被験者のために保存されるデータベースを格納する。メモリ30は、図1に示すようにサーバ40の内部にあり得、またはサーバ40の外部にあり得る。プロセッサ36が被験者の音声を処理する実施形態では、音声受信デバイス32に属するメモリは、被験者に関連するデータを格納し得る。
【0067】
プロセッサ28は、単一のプロセッサとして、または協調的にネットワーク化された、またはクラスタ化されたプロセッサのセットとして具体化され得る。例えば、制御センターは、本明細書に記載の技術を協調的に実行する、それぞれのプロセッサを含む複数の相互接続されたサーバを含み得る。いくつかの実施形態では、プロセッサ28は仮想マシンに属する。
【0068】
いくつかの実施形態では、本明細書で説明するプロセッサ28および/またはプロセッサ36の機能は、例えば、1つまたは複数の特定用途向け集積回路(ASIC)またはフィールドプログラマブルゲートアレイ(FPGA)を使用して、ハードウェアのみで実装される。他の実施形態では、プロセッサ28およびプロセッサ36の機能は、少なくとも部分的にソフトウェアに実装されている。例えば、いくつかの実施形態では、プロセッサ28および/またはプロセッサ36は、少なくとも中央処理装置(CPU)およびランダムアクセスメモリ(RAM)を含むプログラムされたデジタルコンピューティングデバイスとして具体化される。ソフトウェアプログラムを含むプログラムコードおよび/またはデータは、CPUによる実行および処理のためにRAMにロードされる。プログラムコードおよび/またはデータは、例えば、ネットワークを介して、電子形式でプロセッサにダウンロードされ得る。代替的または追加的に、プログラムコードおよび/またはデータは、磁気、光学、または電子メモリなどの非一時的な有形媒体に提供および/または格納され得る。そのようなプログラムコードおよび/またはデータは、プロセッサに提供されると、本明細書に記載のタスクを実行するように構成されたマシンまたは専用コンピュータを生成する。
【0069】
(パラメトリック統計モデルの構築)
ここで、本発明のいくつかの実施形態による、音声モデル46の構成の概略図である図2を参照する。
【0070】
いくつかの実施形態では、プロセッサ28(図1)は、被験者22から取得された1つまたは複数の標準音声サンプル44から少なくとも1つのパラメトリック統計モデル46を構築する。次に、プロセッサは、モデル46を使用して、被験者の後続の音声を評価する。
【0071】
特に、プロセッサは、図1を参照して上記のように、例えば、音声受信デバイス32を介して、第1の時点でサンプル44を受信する。一般に、標準音声サンプルは、被験者の生理学的状態が知られている間に被験者によって生成される。例えば、標準音声サンプルは、被験者の生理学的状態が、医師によって、特定の生理学的状態に関して安定であると見なされている間に生成され得る。特定の例として、肺水腫または胸水などの生理学的状態に苦しむ被験者については、被験者の肺に体液がないと見なされている間に標準サンプルが生成され得る。あるいは、標準音声サンプルは、被験者の生理学的状態が特定の生理学的状態に関して不安定である間、例えば、被験者の肺が湿っている間に生成され得る。
【0072】
次に、受信したサンプルに基づいて、プロセッサはモデル46を構築する。特に、プロセッサは通常、標準サンプルから音響特徴のベクトルを抽出し(以下、テストサンプルについて図3を参照して説明するように)、次にベクトルからモデル46を構築する。モデルは、例えば、メモリ30に格納することができる(図1)。
【0073】
モデル46は、標準音声サンプルに示される1つまたは複数の音響状態48(例えば、APUおよび/または合成音響ユニット)を含む。音響状態48は、それぞれの局所距離関数50に関連付けられている。局所距離関数50の領域内の任意の音響特徴ベクトル「v」が与えられると、各音響状態の局所距離関数は、所与の音響距離ベクトルと音響状態間の対応の程度を示す局所距離を返す。モデル46は、標準音声サンプルに示される音響状態間の遷移52をさらに含む。これらの遷移は、本明細書では「許容遷移」と呼ばれる。いくつかの実施形態では、モデル46は、遷移のそれぞれの遷移距離54をさらに定義する。
【0074】
たとえば、図2は、音声モデルの断片の例を示している。これには、(i)第1の局所距離関数d(v)を持つ第1の音響状態s、(ii)第2の局所距離関数d(v)を持つ第1の音響状態s、および(iii)第3の局所距離関数d(v)を持つ第3の音響状態sが含まれる。sは遷移距離t12でsに遷移し、遷移距離t13でsに遷移する。sは遷移距離t31でsに遷移する。
【0075】
具体的な簡略化された例として、図2に示す断片が、標準音声サンプルで被験者が話す「Bobby」という言葉を表す場合、sは音素
【数1】
に対応し、sは音素
【数2】
に対応し、sは、音素
【数3】
に対応しうる。(通常、実際には、少なくともいくつかの音素は複数の状態のシーケンスによって表されることに注意されたい。)
【0076】
いくつかの実施形態では、音響状態のそれぞれは、それぞれの多次元確率密度関数(PDF)に関連付けられ、そこから、所与の特徴ベクトル「v」と音響状態との間の局所距離が暗黙的に導出される。特に、PDFは、与えられた音響特徴ベクトルが音響状態に対応する(つまり、与えられた特徴ベクトルが、被験者の音声生成システムがその音響状態に対応する生理学的状態にあった間に生成された音声に由来する)推定尤度を提供し、そして局所距離は、この推定尤度から導出される。たとえば、各音響状態の局所距離関数は、推定尤度の負の対数に依存する値を返しうる。この値は、たとえば、負のログ自体、または負のログの倍数でありうる。
【0077】
特定の例として、各音響状態はガウスPDFに関連付けられ、負の対数尤度として計算された場合、局所距離は特徴ベクトルの成分と、分布の対応する分散の逆数によって重み付けされた分布の平均の対応する成分と、の間の差の二乗の合計になる。
【0078】
他の実施形態では、局所距離は、情報理論的考察から導き出される。このような考察に基づく距離測度の一例は、図5を参照して後述する板倉斉藤距離測度である。あるいは、安定モデルと不安定モデルの両方が構築される実施形態では、局所距離は、安定した標準サンプルと不安定な標準サンプルを最もよく区別するように局所距離を選択できるという点で、クラス識別の考慮事項から導き出すことができる。あるいは、局所距離はヒューリスティックな考慮事項から導き出すことができる。
【0079】
通常、遷移距離54は、標準音声サンプルから推定される、それぞれの遷移確率に基づく。たとえば、各遷移距離は、それぞれの遷移確率の負の対数でありうる。
【0080】
一般に、モデルのパラメータ(たとえば、前述のPDFのパラメータ)と遷移確率は、たとえばL.RabinerおよびBH Juang著、「音声認識の基礎」、Prentice Hall、1993のセクション6.4.3に記載されているバウムウェルチ(Baum Welch)アルゴリズムなどの任意の適切な手法を使用して、標準音声サンプルから推定できる。この文献は参照により本明細書に組み込まれる。
【0081】
(テストサンプルをモデルにマッピングする)
ここで、本発明のいくつかの実施形態による、テスト音声サンプル56の音声モデルへのマッピングの概略図である図3を参照する。
【0082】
標準サンプルの取得後、後の時間において、被験者の生理学的状態が不明な場合、プロセッサはモデル46を使用して被験者の生理学的状態を評価する。
【0083】
詳細には、プロセッサは、被験者の生理学的状態が不明である間に被験者によって生成された少なくとも1つのテスト音声サンプル56を第1の時点で受信する。次に、プロセッサは、サンプル56の異なるそれぞれの部分58の音響特徴を定量化する複数のテストサンプル特徴ベクトル60を計算する。音響特徴は、例えば、線形予測係数および/またはケプストラル係数を含む、部分58のスペクトルエンベロープの表現を例えば含み得る。テストサンプル特徴ベクトル60は、任意の適切な数の特徴を含み得る。例として、図3は5次元ベクトルvを示している。
【0084】
一般に、各部分58は、例えば、10~100ミリ秒の間など、任意の適切な持続時間であり得る。(典型的には、部分は等しい持続時間であるが、いくつかの実施形態は、様々な持続時間の部分でピッチ同期分析を使用し得る。)いくつかの実施形態では、部分58は互いに重なり合う。例えば、ベクトル60は、それぞれの時点「t」に対応することができ、それにより、各ベクトルは、期間[t-T,t+T]を占める信号の部分の音響的特徴を表す。ここで、Tは、例えば、5~50ミリ秒の間である。連続する時点は、たとえば、互いに10~30ミリ秒離れている場合がある。
【0085】
局所距離関数と、モデル46で定義された許容遷移に基づいて特徴ベクトルを計算した後、プロセッサは、テストサンプル特徴ベクトルとそれぞれの音響状態との間の合計距離が最小になるように、テストサンプル特徴ベクトルを音響状態のそれぞれにマッピングすることにより、モデルに属する音響状態の最小距離シーケンスにテスト音声サンプルをマッピングする。合計距離は、テストサンプルの特徴ベクトルと特徴ベクトルがマッピングされる音響状態との間のそれぞれの局所距離に基づいている。例えば、合計距離は、それぞれの局所距離の合計に基づきうる。
【0086】
さらに説明すると、図3に示すように、テスト音声サンプルをモデルにマッピングするたびに、特徴ベクトルの各インデックス「j」が音響状態のインデックスm(j)にマッピングされ、j 番目の特徴ベクトルvは音響状態sm(j)にマッピングされる。 (sm(j)は任意の音響状態であり、sm(j-1)からの許容遷移が存在する。)vからsm(j)へのマッピングにより、vとsm(j)間の局所距離d = dm(j)(v)が得られる。したがって、N個のテストサンプル特徴ベクトルを想定すると、テストサンプルはN個の状態のシーケンスにマッピングされ、このマッピングの局所距離の合計は
【数4】

になる。マッピングの合計距離は、
【数4】
に基づく。たとえば、合計距離は
【数4】
として定義できる。遷移距離がモデルに含まれている場合は、
【数5】
として定義できる。ここで、tj(j + 1)はj 番目の状態からj+1番目の状態への遷移距離である。プロセッサは、この合計距離が最小化される状態のシーケンスを見つける。
【0087】
例として、再び図2を参照し、プロセッサがテストサンプルから6つの特徴ベクトル{v,v,v,v,v,v}のシーケンスを抽出すると仮定すると、プロセッサはテストサンプルを最小距離の状態シーケンス{s,s,s,s,s,s}にマッピングできる。このマッピングの合計距離は、
【数6】
として計算できる。
【0088】
いくつかの実施形態では、モデルへのテストサンプルの最適なマッピングを見つけるために、システムは、前に参照され、参照により本明細書に組み込まれる、RabinerおよびJuangの参照文献のセクション6.4.2に記載されるビタビ(Viterbi)アルゴリズムを使用する。
【0089】
続いて、テスト音声サンプルを音響状態の最小距離シーケンスにマッピングすることに応答して、プロセッサは、テストサンプルが生成された時点での被験者の生理学的状態を示す出力を生成する。
【0090】
例えば、プロセッサは、最適なマッピングのための合計距離を所定の閾値と比較し、次に、その比較に応答して出力を生成することができる。特に、被験者の状態が安定している間に標準音声サンプルが取得された場合、合計距離が閾値を超えたことに応答して警告が生成される場合がある。逆に、被験者の状態が不安定なときに標準音声サンプルが取得された場合、合計距離が閾値未満であることに応答して警告が生成されることがある。
【0091】
いくつかの実施形態では、プロセッサは、適切な数のマッピングにわたる合計距離の統計的分布に基づいて閾値を決定し、これは、単一の被験者(この場合、閾値は被験者固有であり得る)または複数のそれぞれの被験者に対して実行され得る。特に、被験者の状態が安定していることがわかっているときにマッピングが実行される場合、閾値は、マッピングの十分に大きなパーセンテージ(例えば、98%を超える)において合計距離が閾値よりも小さくなるように設定され得る。逆に、被験者の状態が不安定であることがわかっているときにマッピングが実行される場合、マッピングの十分に大きなパーセンテージにおいて合計距離が閾値を超えるように閾値を設定することができる。
【0092】
あるいは、プロセッサは2つの音声モデルを構築する場合がある。1つは被験者の状態が安定している間に取得された標準音声サンプルを使用し、もう1つは被験者の状態が不安定な間に取得されたサンプルを使用する。次に、テストサンプルを各モデルのそれぞれの最小距離の状態シーケンスにマッピングできる。次に、テストサンプルと2つのモデルとの間のそれぞれの合計距離を互いに比較することができ、その比較に応答して出力を生成することができる。たとえば、テストサンプルと安定状態モデルの間の距離がテストサンプルと不安定状態モデルの間の距離を超えると、警告が生成されうる。
【0093】
いくつかの実施形態では、システムは、複数のテストサンプルについて、同じモデルまたは異なるそれぞれのモデルを参照して、それぞれの合計距離を計算する。次に、システムは、距離に応答して、例えば、閾値を超える1つまたは複数の距離に応答して、警告を生成することができる。
【0094】
いくつかの実施形態では、標準音声サンプルおよびテスト音声サンプルは、同じ所定の音声を含む。例えば、標準サンプルを取得するために、音声受信デバイス32(図1)は、(例えば、サーバ40からの指示に応答して)被験者に特定の音声を繰り返し発するように促すことができる。続いて、テストサンプルを取得するために、被験者は同様に同じ音声を発するように促され得る。被験者に促すために、音声受信デバイスは音声を再生し、被験者が再生された音声を繰り返すように(書面または音声メッセージを介して)要求する場合がある。あるいは、例えば、音声の発せられた内容を装置の画面に表示し、被験者に発せられた内容を声に出して読むように要求することができる。
【0095】
他の実施形態では、標準音声サンプルは、被験者の自由音声、すなわち、発せられる内容がシステム20によって事前に決定されていない音声を含む。例えば、標準音声サンプルは、被験者の通常の会話音声を含み得る。これに関して、本発明のいくつかの実施形態による、複数の音声ユニットモデル64から音声モデルを構築するための技術の概略図である図4を参照する。
【0096】
図4は、被験者の自由音声を含む標準サンプル61を示している。いくつかの実施形態では、そのようなサンプルが与えられると、プロセッサは、自由音声内の複数の異なる音声ユニット62を識別し、識別された音声ユニットに対してそれぞれの音声ユニットモデル64を構築し(モデル46について図2を参照して上記したように)、そして次に音声ユニットモデル64を連結することによってモデル46を構築し、それにより音声モデルが識別された音声ユニットの特定の連結を表す。各音声ユニットは、1つまたは複数の言葉、APU、および/または合成音響ユニットを含み得る。
【0097】
たとえば、標準サンプルに「私は一日中彼に連絡しようとしているが、彼の回線は混雑している」という文が含まれているとすると、プロセッサは音声ユニット「しようとしている」、「連絡」、および「回線」を作成し、これらの音声ユニットのそれぞれの音声ユニットモデルを作成する。続いて、プロセッサは、例えば、モデルが音声「回線に連絡しようとしている」を表すように、音声ユニットモデルを連結することによってモデル46を構築することができる。
【0098】
音声ユニット62を識別するために、プロセッサは、参照により本明細書に組み込まれる、前述の参照、RabinerおよびJuangの第7~8章に記載されている、話者に依存しない、大語彙に接続された音声認識のためのアルゴリズムのいずれかを使用することができる。このようなアルゴリズムの一例は、RabinerおよびJuangのセクション7.5で説明され、さらに参照により本明細書に組み込まれる、Ney,Hermann,「接続された言葉の認識のための1段階動的計画法アルゴリズムの使用」IEEE音響、音声および信号処理に関する議事録32.2(1984):263-271、で説明されている1段階動的計画法アルゴリズムである。音素または他のサブワードを識別するために、これらのアルゴリズムは、RabinerおよびJuangのセクション8.2-8.4で説明されているような、サブワード認識の手法と組み合わせて使用できる。RabinerおよびJuangのセクション8.5-8.7に記載されている言語モデルは、このサブワード認識を容易にするために使用することができる。
【0099】
続いて、テストサンプルを取得するために、被験者は、モデル46によって表される特定の音声を発するように促され得る。例えば、上記の例を続けると、被験者は、「回線に連絡しようとしている」と発するように促され得る。
【0100】
他の実施形態では、音声ユニットモデルは互いに分離されたままである、すなわち、連結は実行されない。いくつかのそのような実施形態では、被験者は、音声ユニットモデルが構築された音声ユニットの少なくとも1つを含む任意の所定の音声を発するように促される。プロセッサは、音声内のこれらの音声ユニットのそれぞれを識別し、次に各音声ユニットを個別に処理する。(通常、プロセッサは、音声モデルが構築された音声ユニットを除くすべての音声を表す一般音声HMMと組み合わせて音声ユニットモデルを使用して、各音声ユニットを識別する。)
【0101】
他のそのような実施形態では、プロセッサは、テストサンプルのために被験者の自由音声を受け取る。プロセッサはさらに、テストサンプルの中で、それぞれの音声ユニット62を含む1つまたは複数の部分を識別する。たとえば、テストサンプルに「整列して、正面に到達しようとするのをやめる」という文が含まれている場合、プロセッサは、「しようとする」、「到達」、および「列」を含むテストサンプルの部分を識別できる。(テストサンプルの自由音声の音声で発せられた内容を識別するために、プロセッサは、上記の話者に依存しないアルゴリズムのいずれかを使用することができる。)
【0102】
続いて、プロセッサは、それぞれの部分ごとに、その部分に含まれる音声ユニットに対して構築された音声ユニットモデルを識別し、そして次に対応する音声ユニットモデルへのその部分の最小距離マッピング実行することによって、テストサンプル部分を音声ユニットモデルのそれぞれにマッピングする。例えば、プロセッサは、テストサンプル部分「しようとする」を音声ユニット「しようとする」のために構築されたモデルにマッピングし、「到達」を「到達」のために構築されたモデルにマッピングし、「列」を「列」のために構築されモデルにマッピングし得る。
【0103】
続いて、テストサンプル部分を音声ユニットモデルにマッピングすることに応答して、プロセッサは、被験者の生理学的状態を示す出力を生成する。例えば、プロセッサは、マッピングのそれぞれの距離の合計を計算し、次に、この距離に応答して出力を生成することができる。例えば、プロセッサが「しようとする」、「到達」、および「列」についてそれぞれ距離q、q、およびqを計算する場合、プロセッサは、q+q+qに応答して出力を生成することができる。
【0104】
(診断に異なる合計距離を使用する)
いくつかの実施形態では、プロセッサは、マッピングで最小化された合計距離に応答するのではなく、むしろ、テストサンプル特徴ベクトルとベクトルがマッピングされるそれぞれの音響状態との間の異なる合計距離に応答して出力を生成する。言い換えると、プロセッサは、最初の合計距離を最小化することによってテストサンプルをモデルにマッピングし、次に、最初の合計距離とは異なる第2の合計距離に応答して出力を生成することができる。
【0105】
いくつかの実施形態では、プロセッサは、それぞれの局所距離をそれぞれの重みで重み付けすることによって第2の合計距離を計算し、重みのうちの少なくとも2つは互いに異なり、次いで重み付けされた局所距離を合計する。たとえば、図2を参照して上記の例に戻ると、{v,v,v,v,v,v}が{s,s,s,s,s,s}にマッピングされ、プロセッサは2番目の合計距離を
*d(v)+t13+w*d(v)+t31+w*d(v)+t12+w*d(v)+ t22 + w*d(v)+t23+w*d(v
として計算できる。ここで、重み{w,w,w}の少なくとも2つは互いに異なる。具体的な例として、音響状態sが他の2つの状態よりも被験者の生理学的状態との関連性が高い場合、wはwとwのそれぞれよりも大きくなりうる。
【0106】
代替的または追加的に、プロセッサは、特徴ベクトルがマッピングされるそれぞれの音響状態の局所距離関数を変更することができる。修正された局所距離関数を使用して、プロセッサは、テストサンプル特徴ベクトルと、ベクトルがマッピングされるそれぞれの音響状態との間の異なる局所距離を計算することができる。次に、プロセッサは、これらの新しい局所距離を合計することによって、第2の合計距離を計算することができる。たとえば、上記のマッピング例の場合、プロセッサは2番目の合計距離を
d´(v)+t13+d´(v)+…+d´(v)+t23+d´(v
として計算でき、ここで、表記「d´」は変更された局所距離関数を示す。
【0107】
通常、局所距離関数は、ベクトルで定量化された音響特性の少なくとも1つにより大きな重みを与えるように変更される。通常、より大きな重み付けのために選択された音響的特徴は、他の特徴よりも被験者の生理学的状態により関連性があることが知られているものである。
【0108】
たとえば、元の局所距離関数は、任意のベクトル[z…z]に対して、値
【数7】
を返す場合がある。ここで、b = s(z - rである。rは適切な標準量であり、各sは重みであり、一部のインデックスでは0になる場合がある。このような実施形態では、修正された局所距離関数は、
【数8】
を返すことができる。ここで、c = s´ *(z - r、ここで、{s´}は少なくともいくつかのインデックスについてsとは異なる適切な重みである。{s}とは異なる{s´}を使用することにより、プロセッサは特徴の相対的な重みを調整できる。場合によっては、変更された関数は、s(したがってb)がゼロである少なくとも1つのインデックスに対して非ゼロのs´(したがって非ゼロのc)を含み、プロセッサが計算する際に2番目の合計距離は、マッピングの実行にまったく使用されなかった少なくとも1つの特徴を考慮に入れる。(効率のために、
【数7】
および
【数8】
の実際の計算は、ゼロ値の項をスキップする場合があることに注意されたい。)
【0109】
いくつかの実施形態では、被験者のテストサンプルは、その被験者の生理学的状態に関して不安定である、他の被験者によって生成された複数の標準サンプルから通常構築される被験者に固有でないモデルにマッピングされる。(選択肢として、被験者からの1つ以上の不安定状態のサンプルを使用してモデルを構築することもできる。)続いて、上記のように、テストサンプルとモデルの間の第2の合計距離が計算される。次に、プロセッサは、第2の合計距離に応答して出力を生成することができる。例えば、モデルが上記のように不安定状態の標準サンプルから構築されている場合、プロセッサは、第2の合計距離が閾値未満であることに応答して警告を生成することができる。
【0110】
(直接比較)
上記の「概要」で述べたように、いくつかの実施形態では、プロセッサは、テスト音声サンプルを標準サンプルと直接比較する。
【0111】
特に、プロセッサは、第1の時点で標準サンプルを受け取り、これは、上記のように、被験者の生理学的状態が知られている間に被験者によって生成される。続いて、プロセッサは、テストサンプルについて図3を参照して上で説明したように、標準音声サンプルの異なるそれぞれの部分の音響特徴を定量化する複数の標準サンプル特徴ベクトルを計算する。これらの特徴は、メモリ30に記憶され得る(図1)。
【0112】
次に、後の時点で、プロセッサは、上記のように、被験者の生理学的状態が不明である間に被験者によって生成されたテストサンプルを受け取る。次に、プロセッサは、図3を参照して前述したように、テストサンプルからテストサンプル特徴ベクトルを抽出する。続いて、プロセッサは、テストサンプル特徴ベクトルと標準サンプル特徴ベクトルのそれぞれとの間の合計距離が所定の制約の下で最小化されるように、テストサンプル特徴ベクトルをそれぞれの標準サンプル特徴ベクトルにマッピングすることによって、テスト音声サンプルを標準音声サンプルにマッピングする。
【0113】
このマッピングに関するさらなる詳細については、本発明のいくつかの実施形態による、テスト音声サンプルの標準音声サンプルへのマッピングの概略図である図5を参照する。
【0114】
はじめに、標準サンプルへのテストサンプルのマッピング(テストサンプルと標準サンプルの「アライメント」とも呼ばれる)は、Nペアのインデックスのシーケンス
{(t、r),…,(t、r)}
で表すことができることに注意されたい。ここで、各インデックスtはテストサンプルの特徴ベクトルのインデックスであり、各インデックスrは標準サンプルの特徴ベクトルのインデックスであり、したがって、インデックスのペア(t、r)は、テストサンプルの特徴ベクトルと標準サンプルの特徴ベクトルの間の対応を表す。たとえば、10番目のテストサンプルの特徴ベクトルと11番目の標準サンプルの特徴ベクトルの間の対応は、インデックスのペア(10,11)で表される。
【0115】
通常、インデックスペアのシーケンスは、アライメントを有効にするために、いくつかの所定の制約を満たす必要がある。このような制約の例は次のとおり:
・単調性と連続性:i = 1、…、N-1に対して
≦ti+1、r≦ri+1、および
0<(ri+1+ti+1)-(r+t)≦2、
・制約付き勾配:i=1,…,N-2に対して
1≦ti+2-t≦2 および
1≦ri+2-r≦2
・境界条件:t=1、r=1、t= M、およびr = L、ここで、テストサンプルにはM個の特徴ベクトルが含まれ、標準サンプルにはL個の特徴ベクトルが含まれる。
【0116】
特定の配置が与えられた場合、テストサンプルと標準サンプル間の合計距離Dは、
【数9】
として定義できる。ここで、vti はテストサンプルのt番目の特徴ベクトル、vri は標準サンプルのr番目の特徴ベクトル、d は利用できる2つの特徴ベクトル間の局所距離であり、任意の適切な距離測定値(たとえば、L1またはL2距離測定値)を使用できる。各wは、d に適用される重みである。いくつかの実施形態では、重みの合計が各アラインメントについて M+L であるように、i=2,…,Nに対してw=2および w =(r + t)-(ri-1 + ti-1)、したがって、異なる配置間の先験的なバイアスを排除する。あるいは、合計距離Dは、他の任意の適切な方法で局所距離から導出され得る。
【0117】
特許請求の範囲を含む本出願の文脈において、2つのベクトル間の「距離」は、一方のベクトルの他方に対する任意の種類の偏差または歪みを含むように定義され得ることに留意されたい。したがって、局所距離関数は、必ずしも幾何学的な意味で距離を返すとは限らない。たとえば、
【数10】
であるとは限らない場合や、そうでない場合がある。任意の3つの特徴ベクトルv1、v2、およびv3について、
d(v,v) ≦ d(v,v)+ d(v,v
であることは必然的に真実である。本発明の実施形態で使用することができる非幾何学的距離測定の例は、線形予測(LPC)係数のベクトル間の板倉-斉藤距離測定であり、これは、参照により本明細書に組み込まれる、前述のRabinerおよびJuangの参照文献のセクション4.5.4に記載されている。
【0118】
上記の紹介に加えて、図5は、例えば、参照により本明細書に組み込まれる佐古江および千葉の前述の参考文献に記載されている動的タイムワーピング(DTW)アルゴリズムを使用して、プロセッサによって実行され得る、テストサンプルと標準サンプルとのアライメントを示す。特に、図5は、いくつかのテストサンプル特徴ベクトルと対応する標準サンプル特徴ベクトルとの間の、アライメントから生じる対応を示している。対応する特徴ベクトルの各ペアには、関連する局所距離dがある。ここで、
= d(vti ,vri
である。可能なすべてのアラインメントの中から、プロセッサは、例えば、参照により本明細書に組み込まれる、前述のRabinerおよびJuangの参照文献のセクション4.7に記載されている動的計画法アルゴリズムを使用して、距離Dを最小化するアラインメントを選択する。(DTWアルゴリズムには、最適な配置を見つけるための動的計画法アルゴリズムが含まれていることに注意されたい。)
【0119】
(混乱を避けるために、図5に示す4つの標準サンプル特徴ベクトルは、必ずしも標準サンプルに属する最初の4つの特徴ベクトルであるとは限らないことに注意されたい。たとえば、rは2、rは4である。同様に、図5に示す4つのテストサンプル特徴ベクトルは、必ずしもテストサンプルに属する最初の4つの特徴ベクトルであるとは限らない。)
【0120】
テスト音声サンプルを標準音声サンプルにマッピングすることに応答して、プロセッサは、テスト音声サンプルが取得された時点での被験者の生理学的状態を示す出力を生成することができる。例えば、プロセッサは、合計距離Dを適切な所定の閾値と比較し、その比較に応答して出力を生成することができる。
【0121】
いくつかの実施形態では、図2を参照して上記で説明したように、被験者の生理学的状態が特定の生理学的状態に関して安定していると見なされている間に、標準音声サンプルが生成される。他の実施形態では、標準音声サンプルは、被験者の生理学的状態が不安定であると見なされている間に生成される。さらに他の実施形態では、プロセッサは、2つの標準音声サンプル、すなわち、安定状態の音声サンプル、および不安定状態の音声サンプルを受信する。次に、プロセッサは、テストサンプルを各標準音声サンプルにマッピングし、安定状態の音声サンプルまでの第1の距離と、不安定状態の音声サンプルまでの第2の距離を生成する。次に、プロセッサは2つの距離を相互に比較し、それに応答して出力を生成する。たとえば、2番目の距離が第1の距離よりも小さい場合、テストサンプルが不安定状態の標準サンプルにより類似していることを示し、プロセッサは警告を生成する場合がある。
【0122】
いくつかの実施形態では、標準音声サンプルおよびテスト音声サンプルは、図3を参照して上記したように、同じ所定の音声を含む。他の実施形態では、標準音声サンプルは、被験者の自由音声、およびテスト音声サンプルを含み、そしてテスト音声サンプルは自由音声に含まれる複数の音声ユニットを含む。例えば、図4を参照して上記の技法を使用して、プロセッサは、被験者の自由音声における複数の異なる音声ユニットを識別し得る。次に、プロセッサは、これらの音声ユニットから音声を構築し、次に、音声を発することによってテストサンプルを生成するように被験者に促すことができる。
【0123】
いくつかの実施形態では、システムは、それぞれのテストサンプルについて、異なるそれぞれの標準サンプルに関して、複数の距離を計算する。次に、システムは、複数の距離に応答して、例えば、閾値を超える1つまたは複数の距離に応答して、警告を生成することができる。
【0124】
(診断に異なる合計距離を使用する)
いくつかの実施形態では、プロセッサは、テストサンプルの標準サンプルへのマッピングを実行した後、テストサンプル特徴ベクトルとそれらがマッピングされる標準サンプル特徴ベクトルとの間の別の異なる合計距離を計算する。次に、プロセッサは、この他の合計距離に応答して出力を生成する。
【0125】
たとえば、プロセッサは第1の時点で、上記のように、
【数9】
を最小化するマッピングを選択しうる。続いて、プロセッサは(マッピングを変更せずに)
【数11】
を計算しうる。ここで、少なくとも1つの新しい重みuは、対応する元の重みwとは異なる。言い換えると、プロセッサは、局所距離の別の加重和を計算することができる。局所距離は、元の重みのセット{w}とは異なる新しい重みのセット{u}によって重み付けされる。ここで少なくとも1つのインデックス i について、uはwと異なる。
【0126】
通常、新しい重みは、標準サンプル特徴ベクトルをそれぞれの音響音声ユニット(APU)に関連付け、そしてAPUに応答して新しい重みを選択することによって選択される。(この文脈では、プロセッサが、ベクトルがAPUに含まれる音声から抽出されたと見なす場合、ベクトルはプロセッサによってAPUに関連付けられていると言われる。)たとえば、vr2 およびvr3 が、他のAPUよりも被験者の生理的状態により関連することが知られている特定のAPUに関連付けられていることに応答して、プロセッサは、他の新しい重みと比較して、uとuに高い値を割り当てることができる。
【0127】
標準サンプル特徴ベクトルをそれぞれのAPUに関連付けるために、プロセッサは、任意の適切な音声認識アルゴリズムを標準音声サンプルに適用することができる。たとえば、プロセッサは、1段階動的計画法アルゴリズムなど、前述のRabinerおよびJuangの参照文献の第7~8章で記載されている話者に依存しない大語彙接続音声認識のアルゴリズムのいずれかを使用できる。
【0128】
代替的または追加的に、新しい合計距離を計算する際に、プロセッサは(マッピングを変更せずに)異なる局所距離を使用する場合がある。言い換えると、プロセッサは新しい合計距離を
【数12】
と計算し、ここでd´は、元の関数とは異なる局所距離関数であり、それにより新しい局所距離は、対応する元の局所距離とは異なる、つまり、d´(vti 、vri )は少なくとも1つのインデックス i についてd(vti 、vri )とは異なる。
【0129】
たとえば、新しい局所距離の場合、プロセッサは元の距離測度とは異なる新しい距離測度を使用する場合がある。(例えば、プロセッサは、L2距離測定の代わりにL1距離測定を使用することができる。)代替的、または追加的に、プロセッサは、最初の局所距離に寄与しなかった少なくとも1つの音響特徴に基づいて、新しい局所距離を計算することができる。例えば、元の局所距離がベクトルのそれぞれの第3の要素(特定の音響特徴を定量化することができる)に依存しない場合、プロセッサは、関数の出力がこれらの要素に依存するように局所距離関数を変更することができる。
【0130】
(アルゴリズムの例)
ここで、本発明のいくつかの実施形態による、被験者のテスト音声サンプルを評価するための例示的なアルゴリズム66の流れ図である図6を参照する。
【0131】
アルゴリズム66は、受信ステップ68で始まり、そこで、プロセッサは、被験者からテスト音声サンプルを受信する。サンプルの受信に続いて、プロセッサは、抽出ステップ70で、サンプルからテストサンプル特徴ベクトルを抽出する。次に、プロセッサは、チェックステップ72で、適切な標準モデルが利用可能であるかどうかをチェックする。(図4を参照して上で述べたように、そのようなモデルは、被験者から受け取った標準サンプルから、および/または他の複数の被験者から受け取った標準サンプルから構築することができる。)例えば、プロセッサは、メモリ30(図1)に格納されているデータベースに問い合わせを実行することにより適切なモデルを探すことができる。
【0132】
続いて、プロセッサが適切な標準モデルを見つけることができた場合、プロセッサは、第1のマッピングステップ78で、図3を参照して説明したようにベクトル間の第1の合計距離が最小になるように、テストサンプル特徴ベクトルを標準モデル内の状態のシーケンスにマッピングする。あるいは、プロセッサが適切な標準モデルを見つけることができない場合、プロセッサは、検索ステップ74で、被験者の標準サンプルから以前に抽出された一連の標準サンプル特徴ベクトルを獲得する、続いて、第2のマッピングステップ76で、プロセッサは、図5を参照して前述したように、ベクトルのシーケンス間の第1の合計距離が最小化されるように、テストサンプル特徴ベクトルを標準サンプル特徴ベクトルにマッピングする。
【0133】
第1のマッピングステップ78または第2のマッピングステップ76に続いて、プロセッサは、距離計算ステップ80で、(i)テストサンプル特徴ベクトルと(ii)標準モデルまたは標準サンプル特徴ベクトルとの間の第2の合計距離を計算する。例えば、図4~5を参照して上で説明したように、プロセッサは、第2の合計距離を計算する際に、局所距離の相対的な重みを変更し、および/または局所距離自体を変更することができる。
【0134】
続いて、比較ステップ82で、プロセッサは、第2の合計距離を閾値と比較する。第2の合計距離が閾値よりも大きい(または、標準サンプルが不安定な状態に対応する場合など、場合によってはより小さい)場合、プロセッサは、警告生成ステップ84で警告を生成する。それ以外の場合、アルゴリズム66は、それ以上のアクティビティなしで終了しうる。あるいは、プロセッサは、被験者の状態が安定していることを示す出力を生成することができる。
【0135】
本発明は、本明細書で特に示され、説明されたものに限定されないことが当業者によって理解されるであろう。むしろ、本発明の実施形態の範囲は、上記の様々な特徴の組み合わせおよびサブ組合せの両方、ならびに上記の説明を読んだときに当業者に想起される先行技術にはないその変形および修正を含む。本特許出願に参照により組み込まれる文書は、出願の不可欠な部分と見なされる。本明細書で明示的または暗黙的になされた定義とこれらの組み込まれた文書の用語の定義が矛盾する場合は、本明細書の定義を優先すべきである。
図1
図2-3】
図4
図5
図6