(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-02-14
(54)【発明の名称】発話された言語および書かれた言語から多言語適応型の精神的健康リスク評価を行うシステムおよび方法
(51)【国際特許分類】
A61B 10/00 20060101AFI20240206BHJP
G10L 15/10 20060101ALI20240206BHJP
G10L 25/66 20130101ALI20240206BHJP
A61B 5/00 20060101ALI20240206BHJP
【FI】
A61B10/00 H
G10L15/10 500Z
G10L25/66
A61B5/00 G
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023546452
(86)(22)【出願日】2022-02-03
(85)【翻訳文提出日】2023-09-28
(86)【国際出願番号】 US2022015147
(87)【国際公開番号】W WO2022169995
(87)【国際公開日】2022-08-11
(32)【優先日】2021-02-03
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】522165142
【氏名又は名称】エリプシス・ヘルス・インコーポレイテッド
(74)【代理人】
【識別番号】110001036
【氏名又は名称】弁理士法人暁合同特許事務所
(72)【発明者】
【氏名】ルトフスキ,トマシュ
(72)【発明者】
【氏名】ハラティネハド・トルバティ,アミール・ホセイン
(72)【発明者】
【氏名】シュリバーグ,エリザベス・イー
【テーマコード(参考)】
4C117
【Fターム(参考)】
4C117XE28
(57)【要約】
開示されるのは、行動的または精神的な健康状態を検出する方法である。この方法は、(a)被験者の発話の複数の音声特性または語彙特性を含んでなる入力信号を受信することを含んでなる。発話の複数の音声特性または語彙特性のうちの少なくとも一つが、少なくとも一つの言語に関連する。この方法はまた、(b)入力信号の複数の音声特性または語彙特性に少なくとも部分的に基づいて、一つまたは複数の音響モデルまたは自然言語処理(NLP)モデルを選択することを含む。音響モデルまたはNLPモデルのうちの少なくとも一つは、多言語モデルまたは言語非依存モデルである。この方法はまた、(c)一つまたは複数の音響モデルまたは自然言語処理モデルから導出されたジョイントモデルまたは融合モデルを用いて入力信号を処理することによって、行動的または精神的な健康状態の有無を表示する結果を検出することを含む。
【選択図】
図5
【特許請求の範囲】
【請求項1】
(a)被験者の発話の複数の音声特性または語彙特性を含んでなる入力信号を受信することであって、前記発話の複数の音声特性または語彙特性のうちの少なくとも一つが、少なくとも一つの言語に関連する、受信することと、
(b)前記入力信号の複数の音声特性または語彙特性に少なくとも部分的に基づいて、一つまたは複数の音響モデルまたは自然言語処理(NLP)モデルを選択することであって、前記音響モデルまたはNLPモデルの少なくとも一つが、多言語モデルまたは言語非依存モデルである、選択することと、
(c)前記一つまたは複数の音響モデルまたはNLPモデルから導出された融合モデルまたはジョイントモデルを用いて前記入力信号を処理することによって、行動的または精神的な健康状態の有無を表示する結果を検出することと、
を含んでなる、行動的または精神的な健康状態を検出する方法。
【請求項2】
前記入力信号がテキストまたは音声を含んでなる、請求項1に記載の方法。
【請求項3】
前記少なくとも一つの言語が、既知の言語のデータベースに由来する、請求項1に記載の方法。
【請求項4】
前記少なくとも一つの言語が、既知の言語のデータベースにおいて以前に特定されていない、請求項1に記載の方法。
【請求項5】
(b)に先立って、一つまたは複数の音響モデルまたはNLPモデルについて性能推定値を決定することをさらに含んでなり、前記性能推定値が、前記入力信号の音声特性または語彙特性のうちの一つまたは複数に関連付けられる、請求項1に記載の方法。
【請求項6】
前記性能推定値が、統計学的モデリングを使用して決定される、請求項5に記載の方法。
【請求項7】
前記一つまたは複数の音響モデルまたはNLPモデルから導出された融合モデルを用いて前記入力信号を処理することが、(i)前記一つまたは複数の音響モデルまたはNLPモデルに、一つまたは複数の重みを適用することと、(ii)前記一つまたは複数の重み付けされた音響モデルまたはNLPモデルを組み合わせることと、を含んでなる、請求項1に記載の方法。
【請求項8】
前記一つまたは複数の重み付けされた音響モデルまたはNLPモデルを組み合わせることが、前記一つまたは複数の重み付けされた音響モデルまたはNLPモデルの一つまたは複数の出力を連結することを含んでなる、請求項7に記載の方法。
【請求項9】
前記一つまたは複数の音響モデルまたはNLPモデルを選択することが、予測のレイテンシ、前記入力信号のコンテキスト、または前記被験者に関する人口統計学的情報にも少なくとも部分的に基づく、請求項1に記載の方法。
【請求項10】
前記一つまたは複数のNLPモデルが、汎用言語モデル、翻訳ベースのモデル、または多言語モデルのうちの一つまたは複数を含む、請求項1に記載の方法。
【請求項11】
(c)が、少なくとも一つの音響モデルまたはNLPモデルを微調整することをさらに含んでなる、請求項1に記載の方法。
【請求項12】
前記行動的または精神的な健康状態が、うつ病、不安症、ストレス、統合失調症、双極性障害、または心的外傷後ストレス障害(PTSD)を含んでなる請求項1記載の方法。
【請求項13】
前記一つまたは複数の音響モデルが、音響多言語モデルまたは音響言語非依存モデルのうちの一つまたは複数を含む、請求項1に記載の方法。
【請求項14】
前記一つまたは複数の音響モデルのうちのある音響モデルが、教師あり、半教師あり、または教師なしモデルである、請求項1に記載の方法。
【請求項15】
前記少なくとも一つまたは複数の音響モデルまたはNLPモデルから導出されるジョイントモデルまたは融合モデルが、少なくとも一つの人口統計学的モデルまたはメタデータベースのモデルをさらに含んでなる、請求項1に記載の方法。
【請求項16】
(b)において、前記被験者にフィードバックを提供するか否かを判断することをさらに含んでなる、請求項1に記載の方法。
【請求項17】
前記フィードバックが、前記被験者への質問プロンプトを修正すること、前記被験者に問われる一組の質問を修正すること、前記被験者からさらなる発話を誘出すること、前記被験者に関連質問をすること、前記被験者に、前記入力信号についての信号対雑音比を増加させる一つまたは複数の行動を取るように促すこと、または前記被験者との対話の言語を修正することである、請求項16に記載の方法。
【請求項18】
(a)被験者の発話の複数の音声特性または語彙特性を含んでなる入力信号を受信することであって、前記発話の複数の音声特性または語彙特性のうちの少なくとも一つが、少なくとも一つの言語に関連する、受信することと、
(b)一つまたは複数の確信度尺度を決定することであって、前記一つまたは複数の確信度尺度のうちのある確信度尺度が、前記入力信号の言語に対応する、決定することと、
(c)前記一つまたは複数の確信度尺度のうちの少なくとも一つに基づいて、少なくとも一つの信頼度尺度を決定することであって、信頼度尺度が、行動的または精神的健康の状態を検出する複数の音響モデルまたは自然言語処理(NLP)モデルのうちのある音響モデルまたはNLPモデルの、少なくとも一つの確信度尺度の言語に関する性能に関連付けられる、決定することと、
(d)前記入力信号の複数の音声特性または語彙特性、および前記少なくとも一つの信頼度尺度に少なくとも部分的に基づいて、一つまたは複数の音響モデルまたは自然言語処理(NLP)モデルを選択することであって、前記音響モデルまたはNLPモデルの少なくとも一つが、多言語モデルまたは言語非依存モデルである、選択することと、
(e)前記一つまたは複数の音響モデルまたはNLPモデルから導出された融合モデルまたはジョイントモデルを用いて前記入力信号を処理することによって、前記行動的または精神的な健康状態の有無を表示する結果を検出することと、
を含んでなる、行動的または精神的な健康状態を検出する方法。
【請求項19】
(a)被験者の発話の複数の音声特性または語彙特性を含んでなる入力信号を受信することであって、前記発話の複数の音声特性または語彙特性の少なくとも一つが、少なくとも一つの言語に関連する、受信することと、
(b)一つまたは複数の確信度尺度を決定することであって、前記一つまたは複数の確信度尺度のうちのある確信度尺度が、前記入力信号の言語に対応する、決定することと、
(c)前記一つまたは複数の確信度尺度の少なくとも一つに基づいて、少なくとも一つの信頼度尺度を決定することであって、信頼度尺度が、行動的または精神的な健康状態を検出する複数の音響モデルまたは自然言語処理(NLP)モデルのうちのある音響モデルまたはNLPモデルの、少なくとも一つの確信度尺度の言語に関する性能に関連付けられる、決定することと、
(d)前記入力信号の複数の音声特性または語彙特性、および前記少なくとも一つの信頼度尺度に少なくとも部分的に基づいて、一つまたは複数の音響モデルまたは自然言語処理(NLP)モデルを選択することであって、前記音響モデルまたはNLPモデルの少なくとも一つが、多言語モデルまたは言語非依存モデルである、選択することと、
(e)前記一つまたは複数の音響モデルまたはNLPモデルから導出された融合モデルまたはジョイントモデルを用いて前記入力信号を処理することによって、行動的または精神的な健康状態の有無を表示する結果を検出することと、
(f)前記結果の信頼性尺度に基づいて、信頼性しきい値が達成されるまで一つまたは複数の改善行動を反復的に選択しステップ(d)および(e)を反復することと、
を含んでなる、行動的または精神的な健康状態を検出する方法。
【請求項20】
(a)被験者の発話の複数の音声特性または語彙特性を含んでなる入力信号を受信することであって、前記音声の複数の音声特性または語彙特性の少なくとも一つが、少なくとも一つの言語に関連する、受信することと、
(b)一つまたは複数の確信度尺度を決定することであって、前記一つまたは複数の確信度尺度のうちのある確信度尺度が、前記入力信号の言語に対応する、決定することと、
(c)前記一つまたは複数の信頼度尺度のうちの少なくとも一つに基づいて、少なくとも一つの確信度尺度を決定することであって、信頼度尺度が、行動的または精神的な健康状態を検出する複数の音響モデルまたは自然言語処理(NLP)モデルのうちのある音響モデルまたはNLPモデルの、少なくとも一つの確信度尺度の言語に関する性能に関連する、決定することと、
(d)前記入力信号の複数の音声特性または語彙特性、および少なくとも一つの信頼度尺度に少なくとも部分的に基づいて、一つまたは複数の音響モデルまたは自然言語処理(NLP)モデルを選択することであって、前記音響モデルまたはNLPモデルの少なくとも一つが、多言語モデルまたは言語非依存モデルである、選択することと、
(e)前記一つまたは複数の音響モデルまたはNLPモデルから導出された融合モデルまたはジョイントモデルを用いて前記入力信号を処理することによって、前記行動的または精神的な健康状態の有無を表示する結果を検出することと、
(f)前記結果の信頼性尺度に少なくとも部分的に基づいて、信頼性しきい値が達成されるまで一つまたは複数の改善行動を反復的に選択しステップ(d)および(e)を反復することと、
(g)前記結果に少なくとも部分的に基づいて、前記被験者またはエージェントへの一つまたは複数の改善行動を決定して、前記入力信号の収集を改善することと、
を含んでなる、行動的または精神的な健康状態を検出する方法。
【請求項21】
前記確信度尺度が、前記入力信号のメタデータを少なくとも部分的に使用して生成される、請求項20に記載の方法。
【請求項22】
前記入力信号の一つまたは複数の言語の少なくとも一つに対応する少なくとも一つのラベルを適用することをさらに含んでなる、請求項20に記載の方法。
【請求項23】
前記少なくとも一つの信頼度尺度が、前記入力信号が記録される際のセッションの長さ、前記入力信号のトピック、または前記入力信号の品質に少なくとも部分的に基づく、請求項20に記載の方法。
【請求項24】
(i)前記一つまたは複数の音響モデルまたはNLPモデルが信頼できないか否かを判断することと、(ii)前記一つまたは複数の音響モデルまたはNLPモデルが信頼できないならば、被験者またはエージェントへの一つまたは複数の改善行動を決定して、前記入力信号の収集を改善することと、をさらに含んでなる、請求項20に記載の方法。
【請求項25】
前記音響モデルまたはNLPモデルのうちの一つまたは複数のうちのあるモデルが翻訳モデルである、請求項20に記載の方法。
【請求項26】
前記一つまたは複数の音響モデルまたはNLPモデルのうちのある音響モデルが、多言語音響モデルまたは言語依存音響モデルである、請求項20に記載の方法。
【請求項27】
前記一つまたは複数の音響モデルまたはNLPモデルが、少なくとも一つのメタデータモデルまたは人口統計学的モデルを含む、請求項20に記載の方法。
【請求項28】
前記一つまたは複数の音響モデルまたはNLPモデルが、少なくとも二つの音響モデルまたはNLPモデルからの出力を融合することを含んでなる、請求項20に記載の方法。
【請求項29】
(f)からの一つまたは複数の改善行動に関連する結果が、電子レポートにおいて提供される、請求項20に記載の方法。
【請求項30】
(a)被験者の発話の複数の音声特性または語彙特性を含んでなる入力信号を計算機処理することであって、前記発話の複数の音声特性または語彙特性の少なくとも一つが、少なくとも一つの言語に関連する、計算機処理することと、
(b)一つまたは複数の音響モデルまたは自然言語処理(NLP)モデルから導出されたモデルを使用して、行動的または精神的な健康状態の有無を表示する結果を検出することであって、前記音響モデルまたはNLPモデルの少なくとも一つが、多言語モデルまたは言語非依存モデルである、検出することと、
を含んでなる、行動的または精神的な健康状態を検出する方法。
【発明の詳細な説明】
【技術分野】
【0001】
相互参照
本出願は、2021年2月3日に出願された米国仮特許出願第63/145,476号の優先権を主張するものであり、その出願は、参照により本明細書に完全に組み込まれる。
【背景技術】
【0002】
行動的および精神的健康状態は、人口全体に見られ、社会に顕著な損失をもたらす可能性がある。そのような状態について治療を受けることが可能であるが、多くの人々は診断未確定である可能性がある。音声および/または自然言語処理のモデリングを使用する、行動的および精神的健康の多くのスクリーニングシステムは、例えば英語など利用可能なデータの大規模コーパスの存在する話者向けに考案されてきた。しかし、大規模データコーパスを有さない言語の場合には、そのような分析は、困難または不可能である場合がある。
【発明の概要】
【0003】
本開示は、(例えば、多言語モデル、言語にとらわれない(language-agnostic)モデル、すなわち言語非依存(language-independent)モデルを使用することによって)多言語シナリオにおける発話から、行動的および精神的健康状態を有することに関して被験者のリスク重大度を予測するシステムおよび方法を、提供する。開示されたシステムは、既知の言語で訓練された、または既知の言語を使用して実現されたモデルを使用することによって、未知の言語の内容を伴う入力発話(音声またはテキスト形式でのもの)に関して精神的健康リスク予測を可能にする場合がある。
【0004】
開示されたシステムは、音響モデルおよび/または自然言語処理モデルを使用して分析を実行する場合がある。例えば、音響モデルは、発話からの音声データを分析するために使用される場合がある一方、NLPモデルは、テキストおよび/または音声データを分析するために使用される場合がある。このシステムによって使用される音響モデルは、多くの異なるアーキテクチャのうちの一つに準拠しても、またはそれに基づいてもよいものであり、特徴量表現をデータから学習する深層学習アーキテクチャに限定されるとは解釈されないのが望ましい。本明細書で使用される音響モデルはまた、特徴量を専門家に設計させたアーキテクチャに基づく、またはそれを含む場合もある。システムは、様々な音響モデルおよびNLPモデル、またはそれらの組み合わせの中から適応的に選択して、予測を行う場合がある。システムは、モデルの性能、データの可用性、トピック、および使用される構成に基づいて、フィードバックを生成する場合がある。
【0005】
システムはまず、被験者から発話データのセグメントを取得する場合がある。被験者は人間の被験者である場合がある。人間の被験者は患者であってもよい。次いでシステムは、発話内に存在する一つまたは複数の言語を検出する場合がある。システムは、検出された一つまたは複数の言語に基づき、モデルがその言語上でどれだけ良好に性能を発揮する可能性があるかに基づいて、モデル性能を推定する場合がある。システムは、モデル性能のこの推定に少なくとも部分的に基づき、プレモデル(pre-model)戦略セレクタを用いて、使用することになるモデルの組み合わせを選択する場合がある。次いでシステムは、状態を予測するための、ジョイントモデル、一つまたは複数のモデルの重み付けされた組み合わせ、一つまたは複数のモデルの重み付けされていない組み合わせ、ルールベースのモデル、または別のタイプのモデルを実現する場合がある。ポストモデル(post-model)戦略セレクタが、モデルの性能に関連する信頼値に基づいて、代替形態での分析が必要であるか否かを判断する場合がある。
【0006】
フィードバック機構は、試験の一つもしくは複数の構成を変更する、または被験者、エージェント、もしくは被験者、エージェント、もしくは他の使用者に関連する用途に向けた、一つもしくは複数の行動を推奨する場合がある。
【0007】
システムは、行動的または精神的な健康状態についてシステムが決定したリスク重大度を使用して、電子レポートを作成する場合がある。いくつかの実施形態では、電子レポートは、被験者が行動的または精神的な健康状態を有すること、またはこれを有する可能性が高いことを決定結果が示しているならば、行動的または精神的な健康状態に関連する心理教育材料を含んでなる場合がある。
【0008】
一態様では、行動的または精神的な健康状態を検出する方法が開示される。この方法は、(a)被験者の発話の複数の音声特性または語彙特性を含んでなる入力信号を受信することを含んでなる。発話の複数の音声特性または語彙特性のうちの少なくとも一つが、少なくとも一つの言語に関連する。本方法はまた、(b)入力信号の複数の音声特性または語彙特性に少なくとも部分的に基づいて、一つまたは複数の音響モデルまたは自然言語処理(NLP)モデルを選択することを含んでなる。音響モデルまたはNLPモデルの少なくとも一つは、多言語モデルまたは言語非依存モデルである。本方法はまた、(c)一つまたは複数の音響モデルまたはNLPモデルから導出された融合モデルまたはジョイントモデルを用いて入力信号を処理することによって、行動的または精神的な健康状態の有無を表示する結果を検出することを含んでなる。
【0009】
いくつかの実施形態では、入力信号は、テキストまたは音声を含んでなる。
【0010】
いくつかの実施形態では、少なくとも一つの言語は、既知の言語のデータベースに由来するものである。
【0011】
いくつかの実施形態では、少なくとも一つの言語は、既知の言語のデータベース内にはそれまで同定されていなかったものである。
【0012】
いくつかの実施形態では、本方法は、(b)に先だって、一つまたは複数の音響モデルまたはNLPモデルの性能推定値を決定することをさらに含んでなる。性能推定値は、入力信号の音声特性または語彙特性のうちの一つまたは複数に関連付けられる。
【0013】
いくつかの実施形態では、性能推定値は、統計学的モデリングを使用して決定される。
【0014】
いくつかの実施形態では、一つまたは複数の音響モデルまたはNLPモデルから導出された融合モデルを用いて入力信号を処理することは、(i)一つまたは複数の音響モデルまたはNLPモデルに一つまたは複数の重みを適用することと、(ii)一つまたは複数の重み付けされた音響モデルまたはNLPモデルを組み合わせることと、を含んでなる。
【0015】
いくつかの実施形態では、一つまたは複数の重み付けされた音響モデルまたはNLPモデルを組み合わせることは、一つまたは複数の重み付けされた音響モデルまたはNLPモデルのうちの一つまたは複数の出力を連結(concatenate)することを含んでなる。
【0016】
いくつかの実施形態では、一つまたは複数の音響モデルまたはNLPモデルを選択することは、予測のレイテンシ、入力信号のコンテキスト、または被験者に関する人口統計学的情報にも、少なくとも部分的に基づいている。
【0017】
いくつかの実施形態では、一つまたは複数のNLPモデルは、汎用言語モデル、翻訳ベースのモデル、または多言語モデルのうちの一つまたは複数を含む。
【0018】
いくつかの実施形態では、(c)は、少なくとも一つの音響モデルまたはNLPモデルを微調整することをさらに含んでなる。
【0019】
いくつかの実施形態では、行動的または精神的な健康状態は、うつ病、不安症、ストレス、統合失調症、双極性障害、または心的外傷後ストレス障害(PTSD)を含む。
【0020】
いくつかの実施形態では、一つまたは複数の音響モデルは、音響多言語モデルまたは音響言語非依存モデルのうちの一つまたは複数を含む。
【0021】
いくつかの実施形態では、一つまたは複数の音響モデルのうちのある音響モデルは、教師あり、半教師あり、または教師なしモデルである。
【0022】
いくつかの実施形態では、少なくとも一つまたは複数の音響モデルまたはNLPモデルから導出されるジョイントモデルまたは融合モデルは、少なくとも一つの人口統計学的モデルまたはメタデータベースのモデルをさらに含んでなる。
【0023】
いくつかの実施形態では、本方法は、(b)において、被験者にフィードバックを提供するか否かを判断することをさらに含んでなる。
【0024】
いくつかの実施形態では、フィードバックは、被験者への質問プロンプトを修正すること、被験者に尋ねられる一組の質問を修正すること、被験者からさらなる発話を誘出すること、被験者に関連質問をすること、入力信号の信号対雑音比を増加させるために被験者に一つまたは複数の行動をとるように促すこと、または被験者との対話の言語を修正することである。
【0025】
一態様では、行動的または精神的な健康状態を検出する方法が開示される。この方法は、(a)被験者の発話の複数の音声特性または語彙特性を含んでなる入力信号を受信することを含んでなる。発話の複数の音声特性または語彙特性のうちの少なくとも一つが、少なくとも一つの言語に関連する。方法はまた、(b)一つまたは複数の確信度尺度を決定することを含んでなる。一つまたは複数の確信度尺度のうちのある確信度尺度は、入力信号の言語に対応する。方法はまた、(c)一つまたは複数の確信度尺度のうちの少なくとも一つに基づいて、少なくとも一つの信頼度尺度を決定することを含んでなる。信頼度尺度は、行動的または精神的な健康状態を検出する複数の音響モデルまたは自然言語処理(NLP)モデルのうちのある音響モデルまたはNLPモデルの、少なくとも一つの確信度尺度の言語に関する性能に関連する。方法はまた、(d)入力信号の複数の音声特性または語彙特性、および少なくとも一つの信頼度尺度に少なくとも部分的に基づいて、一つまたは複数の音響モデルまたは自然言語処理(NLP)モデルを選択することを含んでなる。音響モデルまたはNLPモデルの少なくとも一つは、多言語モデルまたは言語非依存モデルである。最後に、方法は、(e)一つまたは複数の音響モデルまたはNLPモデルから導出された融合モデルまたはジョイントモデルを用いて入力信号を処理することによって、行動的または精神的な健康状態の有無を表示する結果を検出することを含んでなる。
【0026】
一態様では、行動的または精神的な健康状態を検出する方法が開示される。この方法は、(a)被験者の発話の複数の音声特性または語彙特性を含んでなる入力信号を受信することを含んでなる。発話の複数の音声特性または語彙特性のうちの少なくとも一つが、少なくとも一つの言語に関連する。方法はまた、(b)一つまたは複数の確信度尺度を決定することを含んでなる。一つまたは複数の確信度尺度のうちのある確信度尺度は、入力信号の言語に対応する。方法はまた、(c)一つまたは複数の確信度尺度のうちの少なくとも一つに基づいて、少なくとも一つの信頼度尺度を決定することを含んでなる。信頼度尺度は、行動的または精神的な健康状態を検出する複数の音響モデルまたは自然言語処理(NLP)モデルのうちのある音響モデルまたはNLPモデルの、少なくとも一つの確信度尺度の言語に関する性能に関連する。方法はまた、(d)入力信号の複数の音声特性または語彙特性、および少なくとも一つの信頼度尺度に少なくとも部分的に基づいて、一つまたは複数の音響モデルまたは自然言語処理(NLP)モデルを選択することを含んでなる。音響モデルまたはNLPモデルのうちの少なくとも一つは、多言語モデルまたは言語非依存モデルである。方法はまた、(e)一つまたは複数の音響モデルまたはNLPモデルから導出された融合モデルまたはジョイントモデルを用いて入力信号を処理することによって、行動的または精神的な健康状態の有無を表示する結果を検出することを含んでなる。方法はまた、(f)結果の信頼性尺度に基づいて、信頼性しきい値が達成されるまで一つまたは複数の改善行動を反復的に選択しステップ(d)および(e)を反復することを含んでなる。
【0027】
一態様では、行動的または精神的な健康状態を検出する方法が開示される。この方法は、(a)被験者の発話の複数の音声特性または語彙特性を含んでなる入力信号を受信することを含んでなる。発話の複数の音声特性または語彙特性のうちの少なくとも一つが、少なくとも一つの言語に関連する。方法はまた、(b)一つまたは複数の確信度尺度を決定することを含んでなる。一つまたは複数の確信度尺度のうちのある確信度尺度は、入力信号の言語に対応する。方法はまた、(c)一つまたは複数の確信度尺度のうちの少なくとも一つに基づいて、少なくとも一つの信頼度尺度を決定することを含んでなる。信頼度尺度は、行動的または精神的な健康状態を検出する複数の音響モデルまたは自然言語処理(NLP)モデルのうちのある音響モデルまたはNLPモデルの、少なくとも一つの確信度尺度の言語に関する性能に関連する。方法はまた、(d)入力信号の複数の音声特性または語彙特性、および少なくとも一つの信頼度尺度に少なくとも部分的に基づいて、一つまたは複数の音響モデルまたは自然言語処理(NLP)モデルを選択することを含んでなる。音響モデルまたはNLPモデルのうちの少なくとも一つは、多言語モデルまたは言語非依存モデルである。方法はまた、(e)一つまたは複数の音響モデルまたはNLPモデルから導出された融合モデルまたはジョイントモデルを用いて入力信号を処理することによって、行動的または精神的な健康状態の有無を表示する結果を検出することを含んでなる。方法はまた、(f)結果の信頼性尺度に少なくとも部分的に基づいて、信頼性しきい値が達成されるまで一つまたは複数の改善行動を反復的に選択しステップ(d)および(e)を反復することを含んでなる。方法はまた、(g)結果に少なくとも部分的に基づいて、被験者またはエージェントに向けた一つまたは複数の改善行動を決定して、入力信号の収集を改善することを含んでなる。
【0028】
いくつかの実施形態では、確信度尺度は、入力信号のメタデータを少なくとも部分的に使用して生成される。
【0029】
いくつかの実施形態では、方法は、入力信号の一つまたは複数の言語のうちの少なくとも一つに対応する少なくとも一つのラベルを適用することをさらに含んでなる。
【0030】
いくつかの実施形態では、少なくとも一つの信頼度尺度は、入力信号を記録したセッションの長さ、入力信号のトピック、または入力信号の品質に少なくとも部分的に基づく。
【0031】
いくつかの実施形態では、方法は、(i)一つまたは複数の音響モデルまたはNLPモデルが信頼できないか否かを判断することと、(ii)一つまたは複数の音響モデルまたはNLPモデルが信頼できないならば、被験者またはエージェントに向けた一つまたは複数の改善行動を決定して、入力信号の収集を改善することと、をさらに含んでなる。
【0032】
いくつかの実施形態では、一つまたは複数の音響モデルまたはNLPモデルのうちのあるモデルは、翻訳モデルである。
【0033】
いくつかの実施形態では、音響モデルまたはNLPモデルのうちの一つまたは複数のうちのある音響モデルは、多言語音響モデルまたは言語依存音響モデルである。
【0034】
いくつかの実施形態では、一つまたは複数の音響モデルまたはNLPモデルは、少なくとも一つのメタデータモデルまたは人口統計学的モデルを含む。
【0035】
いくつかの実施形態では、一つまたは複数の音響モデルまたはNLPモデルは、少なくとも二つの音響モデルまたはNLPモデルからの出力を融合することを含んでなる。
【0036】
いくつかの実施形態では、(f)からの一つまたは複数の改善行動に関連する結果が、電子レポートにおいて提供される。
【0037】
別の態様では、本開示は、行動的または精神的な健康状態を検出する自然言語処理モデルを訓練する方法を提供し、自然言語処理モデルは、(i)言語モデルと(ii)分類器とを含んでなり、方法は、(a)第1のエンコードされたテキスト上で言語モデルを訓練することであって、第1のエンコードされたテキストが、行動的または精神的な健康状態に関連しないテキストを含んでなる、訓練することと、(b)第2のエンコードされたテキスト上、および随意にメタデータ情報上で言語モデルを微調整することであって、第2のエンコードされたテキストが、行動的または精神的な健康状態に関連するテキストを含む、調整することと、(c)分類器を訓練して、複数の被験者からの複数のエンコードされた発話サンプル上で行動的または精神的状態を検出することであって、複数のエンコードされた発話サンプルのうちのあるエンコードされた発話サンプルが、エンコードされた発話サンプルを提供した被験者が行動的または精神的な健康状態を有するか否かを表示するラベル、および随意にメタデータ情報に関連する、検出することと、を含んでなる。
【0038】
別の態様では、行動的または精神的な健康状態を検出する方法が提供される。この方法は、(a)被験者の発話の複数の音声特性または語彙特性を含んでなる入力信号を計算機処理することであって、発話の複数の音声特性または語彙特性のうちの少なくとも一つが少なくとも一つの言語に関連する、計算機処理することを含んでなる。方法はまた、(b)一つまたは複数の音響モデルまたは自然言語処理(NLP)モデルから導出されたモデルを使用して、行動的または精神的な健康状態の有無を表示する結果を検出することを含んでなり、音響モデルまたはNLPモデルのうちの少なくとも一つは、多言語モデルまたは言語非依存モデルである。
【0039】
本開示の別の態様は、一つまたは複数の計算機プロセッサによる実行時に、上記のまたは本明細書に別途記載のシステムを実現する機械実行可能コードを含んでなる非一過性の計算機可読媒体を提供する。
【0040】
本開示の別の態様は、一つまたは複数の計算機プロセッサと、それに結合された計算機メモリとを含んでなるシステムを提供する。計算機メモリは、一つまたは複数の計算機プロセッサによる実行時に、上記のまたは本明細書に別途記載の方法のいずれかを実現する機械実行可能コードを含んでなる。
【0041】
別の態様では、本開示は、一つまたは複数の計算機プロセッサと、機械実行可能命令を含んでなるメモリであって、一つまたは複数の計算機プロセッサによる実行時に、一つまたは複数の計算機プロセッサに、被験者からの複数のセグメントを含んでなる入力発話に少なくとも部分的に基づいて、対象となる行動的または精神的な健康状態を被験者が有するか否かを予測するように構成される音響モデルを実現させるメモリと、を含んでなるシステムを提供する。理解されるであろうとおり、本開示は、他の、そして異なる実施形態を可能とするものであり、開示のいくつかの詳細は、すべて本開示から逸脱することなく、様々な自明な点に関して修正することが可能である。したがって、図面および明細書は、本質的に例示的なものとみなされ、制限的なものとはみなされないものとする。
【参照による組込み】
【0042】
本明細書において言及されるすべての公開文献、特許、および特許出願は、個々の公開文献、特許、または特許出願の参照による組み込みが、あたかも具体的かつ個別に示されるかの如く、参照により本明細書に組み込まれる。参照により組み込まれた公開文献および特許または特許出願が、本明細書に含まれる開示と矛盾する限り、本明細書は、そのような矛盾する事柄を置き換える、および/またはそれに優先することが意図される。
【0043】
本発明の新規な特徴は、添付の特許請求の範囲を用いて具体的に記載される。本発明の特徴および利点のさらに深い理解は、本発明の原理を利用した例示的な実施形態を示す発明を実施するための形態、および添付の図面(本明細書ではまた、「図(Figure)」および「図(FIG)」)を参照することによって得られよう:
【図面の簡単な説明】
【0044】
【
図1】
図1は、実施形態に準拠する、被験者からの入力発話に少なくとも部分的に基づいて、対象となっている行動的または精神的な健康状態を被験者が有するか否かを予測するように構成されるシステムを模式的に例示する。
【
図2】
図2は、実施形態に準拠する、被験者に関する発話データ、動画データ、および/またはメタデータを使用して、被験者の行動的または精神的な健康状態を評価、スクリーニング、予測、またはモニタリングするように構成されるシステムを模式的に例示する。
【
図3】
図3は、実施形態に準拠する、本明細書において提供される方法を実現するようにプログラムされる、またそうでなければ構成される計算機システムを例示する。
【
図4】
図4は、実施形態に準拠する、自然言語処理(「NLP」)モデルを使用して、行動的または精神的な健康状態を被験者が有するか否かを予測するシステムを模式的に例示する。
【
図5】
図5は、実施形態に準拠する、多言語の精神的健康スクリーニングを行う工程フロー図を例示する。
【
図6】
図6は、実施形態に準拠する、プレモデル戦略セレクタのフロー図を例示する。
【
図7】
図7は、実施形態に準拠する、NLPモデルの例示的なブロック図を示する。
【
図8】
図8は、実施形態に準拠する、音響モデルの例示的なブロック図を例示する。
【
図9】
図9は、実施形態に準拠する、ポストモデル戦略セレクタのブロック図を例示する。
【
図10】
図10は、実施形態に準拠する、フィードバック機構のブロック図を例示する。
【
図11】
図11は、実施形態に準拠する、多言語の精神的健康スクリーニング実験からの英語の試験セットおよびスペイン語の試験セットの両方についてのラベル分布を図示する。
【発明を実施するための形態】
【0045】
本発明の様々な実施形態を本明細書において示し記載してきたが、そのような実施形態が例示としてのみ提供されることは、当業者には自明であろう。本発明から逸脱することなく、多数の変形、変更、および置き換えが当業者によってなされてもよい。本明細書に記載される本発明の実施形態に対する様々な代替形態が採用されてもよいことを理解するのが望ましい。
【0046】
用語「少なくとも」、「より大きい」、または「以上」が、一連の二つ以上の数値の最初の数値に先行するまたは最後の値に続くどんな場合であっても、用語「少なくとも」、「より大きい」、または「以上」は、その一連の数値の各数値に当てはまる。例えば、1、2、または3以上は、1以上、2以上、また3以上と等価である。
【0047】
用語「を超えない」、「未満」、または「以下」が、一連の二つ以上の数値の最後の数値に続くどんな場合であっても、用語「を超えない」、「未満」、または「以下」は、その一連の数値の各数値に当てはまる。例えば、3、2、または1以下は、3以下、2以下、または1以下と等価である。
概要
【0048】
開示されるのは、行動的または精神的な健康状態を予測、検出、またはモニタリングするエンド・ツー・エンド(end-to-end)のソリューションである。詳細には、本システムは、発話内に存在する言語に関係なく、話者の行動的または精神的な健康状態を予測するように構成される。話者から受信された発話データは、音声データまたはテキストデータを含む場合がある。
【0049】
システムは、複数の音響モデルおよび自然言語処理(NLP)モデルを活用して発話を処理することによって、言語非依存予測を行う場合がある。モデルは、汎用言語モデル、多言語モデル、または言語非依存モデルである場合がある。
【0050】
システムは、入力データに、そして機械学習過程中に生成される新しい情報に、適応する場合がある。例えば、システムは、一つまたは複数の機械学習モデルを使用して、発話内に存在する言語を最初に検出する場合がある。次いで、プレモデル戦略セレクタが、少なくとも入力データと、場合によっては、検出された言語とに基づいて、どの機械学習アルゴリズムを選択してデータの処理に使用するかを決定する場合がある。プレモデル戦略セレクタは、入力発話を処理するために、一つまたは複数の音響モデルまたはNLPモデルから導出されたジョイントモデルまたは融合モデルを適用することを選択する場合がある。機械学習モデルによる分析の後、ポストモデル戦略セレクタは、使用される一つまたは複数のモデルの信頼度スコア、および/または使用される可能性のあるモデルのうちのいずれかの出力に基づいて、改善行動をとること、または代替モデルを使用することによって予測を改善するよう決定してもよい。最後に、システムは、被験者または試験エージェントにフィードバックを提供して、実行される予測を改善する場合があり、これは例えば、スクリーニング過程における被験者との対話を変更することを通じて、または訓練目的(例えば、訓練エージェント)について得られた知識を使用することによって、なされる。
【0051】
システムは、入力発話(音声データおよび/またはテキストデータであってもよい)における語彙的特徴量および非語彙的特徴量または音響的特徴量に基づいて予測を行うように設計されており、既知または未知の言語からの発話、一つまたは複数の言語を含む発話(コード・スイッチング(code switching)を伴う発話など)、または特定の方言、ピジン語、またはクレオール語を含む発話を用いて効果的に動作することができる。
【0052】
入力発話は、音声ベースまたはテキストベースの日誌エントリとして、(例えば被験者の)使用者装置にアップロードされた音声データまたはテキストデータを含む場合がある。エントリは、内容が多言語であってもなくてもよい。開示されたシステムは、日誌エントリの分析を実行しリスク重大度を決定する場合がある。このリスク重大度に基づいて、使用者装置上のアプリケーションが、使用者にとっての一つまたは複数の推奨される行動を提案してもよい。推奨される行動は、ウェルビーイング(wellbeing)またはウェルネス(wellness)エクササイズである場合がある。エクササイズは、認知行動療法(cognitive behavioral therapy(CBT))または弁証法的行動療法(dialectical behavioral therapy(DBT))に関連するものである場合がある。使用者装置上のアプリケーションは、医療(例えば、アプリケーションを通じた会話またはテキストベースの療法)を提供してもよいし、または使用者が遠隔医療サービスに連絡できるようにしてもよい。
【0053】
開示されたシステムのうちの一つまたは複数の構成要素が、他のシステムに統合されてもよいし、または他のシステムを通じてアクセス可能である場合がある。例えば、システムによって実行される分析は、サードパーティの開発者がリスク重大度分析を自身のアプリケーションに統合できるように、アプリケーション・プログラミング・インタフェース(API)を介してアクセス可能であってもよい。このようなアプリケーションは、例えば、遠隔医療、テキスト療法、精神的もしくは行動的健康モニタリング(例えば、遠隔モニタリング)、または他のタイプのアプリケーションを含む場合がある。被験者が定期的に分析され、リスク重大度スコアが追跡されて、患者の経時的な進行が記録される場合がある。
実施形態の記載
【0054】
開示されるのは、音声またはテキストデータとして提供される可能性のある発話入力を分析する可能性のある行動的健康予測を提供するシステムである。音声は、人間の被験者からリアルタイムで記録される場合がある。音声は記録を介して提供される場合がある。テキストデータは、人間の被験者からリアルタイムで入力される場合がある。テキストデータは、転写として提供される場合がある。音声データまたはテキストデータは、多くの言語のうちの一つまたは複数からの発話を含んでなる場合がある。行動的健康予測または精神的健康予測は、うつ病、不安症、ストレス、統合失調症、双極性障害、心的外傷後ストレス障害(PTSD)、または他の障害などの健康状態を予測する場合がある。
【0055】
発話データ内に存在する一つまたは複数の言語は、英語、スペイン語、中国語(たとえば北京語、呉語、越語、ジン語、翔語、甘語、または広東語)、ヒンディ語、ベンガル語、ポルトガル語、ロシア語、日本語、パンジャブ語、マラーティー語、テルグ語、トルコ語、韓国語、フランス語、ドイツ語、ベトナム語、タミル語、ウルドゥー語、ジャワ語、イタリア語、アラビア語、グジャラート語、ペルシア語、ボジュプリ語、?語、ハウサ語、カンナダ語、インドネシア語、ポーランド語、ヨルバ語、マラヤーラム語、オディア語、マイティリ語、ビルマ語、スンダ語、ウクライナ語、イボ語、ウズベク語、シンド語、ルーマニア語、タガログ語、オランダ語、アムハラ語、パシュトー語、マガヒ語、タイ語、サライキ語、クメール語、チャッティースガリー語、ソマリア語、マレーシア語、セブアノ語、ネパール語、アッサム語、シンハラ語、クルド語、フルフルデ語、バイエルン語、アゼルバイジャン語、ギリシャ語、チッタゴニア語、カザフ語、デカン語、ハンガリー語、アルバニア語、キンヤルワンダ語、デンマーク語、フィンランド語、ズールー語、ルンディー語、チェコ語、ウイグル語、シルヘティ語、セルビア語、クロアチア語、ハンガリー語、モンテネグロ語、ハイチ・クレオール語、スウェーデン語、ノルウェー語、モン語、ホーサ語、ベラルーシ語、コンカニ語、ラテン語、ゲール語、カタロニア語、オック語、プロヴァンス語、マルタ語、ボスニア語、アルメニア語、スロベニア語、ヘブライ語、イディッシュ語、アラム語、ラディーノ語、ナバホ語、ネイティブハワイ語、マオリ語、エスペラント語、ピッグラテン語、またはその他の言語、または発明言語のうちの一つまたは複数を含む場合がある。発話データに含まれる言語は、クレオール語(ハイチ・クレオール語など)またはピジン語である場合がある。発話データに含まれる言語は、地域の変種または方言(たとえば、ルイジアナ・フランス語、インド英語)である場合がある。
【0056】
言語は、システムが以前に遭遇したことのある言語である場合がある。あるいは、その言語は、システムが以前に遭遇したことのない言語である場合がある。
【0057】
発話サンプル(音声またはテキスト)は、どのような単語長さであってもよい。例えば、テキストサンプルは、10語未満、20語未満、30語未満、50語未満、100語未満、500語未満、1000語未満、または2000語未満の長さである場合がある。例えば、テキストサンプルは、10語より長い、20語より長い、30語より長い、50語より長い、100語より長い、500語より長い、1000語より長い、または2000語より長い場合がある。
【0058】
発話の音声サンプルはどのような時間長さであってもよい。例えば、音声サンプルは、10分未満、20分未満、30分未満、50分未満、100分未満、500分未満、1000分未満、または2000分未満の長さである場合がある。例えば、音声サンプルは、10分より長い、20分より長い、30分より長い、50分より長い、100分より長い、500分より長い、1000分より長い、または2000分より長い場合がある。
【0059】
入力発話サンプルは、能動発話サンプルまたは受動発話サンプルである場合がある。能動発話サンプルは、臨床の場で被験者からとられた発話のサンプルである場合がある。例えば、発話は、被験者が人間のエージェントまたは自動化されたエージェントによる調査を実施されている際に記録される場合がある。様々な実施形態では、能動発話サンプルは、被験者が精神的健康スクリーニングの目的のために自身の発話の誘出が記録されていることを知っている場合に、記録される。受動発話は、被験者が問診票またはアンケート調査を提供されていない場合の、会話での発話または観察された発話である場合がある。例えば、受動発話は、医療提供者と、またはさらには精神的健康スクリーニングに参加していない人と被験者が行った会話から記録される場合がある。
【0060】
発話が収集されると、システムは、発話サンプル内に存在する一つまたは複数の言語を同定する場合がある。システムは、入力発話サンプル内に存在する一つまたは複数の言語を検出する言語検出ユニット(または「言語検出器」)として働く可能性のあるソフトウェアシステムまたはサブシステムを含む場合がある。機械学習アルゴリズムは、多言語をサンプルが含む可能性を表示する一つまたは複数の確率スコアを生成する場合があり、各言語が確率スコアに対応する。例えば、機械学習アルゴリズムは、サンプルが英語を含む可能性が90%、ドイツ語を含む可能性が70%、アラビア語を含む可能性が3%であることを示す一組の確率を出力する場合がある。言語検出ユニットは、検出された言語に対応する入力発話にラベルを適用してもよい。言語検出ユニットは、発話サンプル内に存在する多言語を検出する場合がある(すなわち、言語間のコード・スイッチング)。言語検出ユニットは、存在する一つまたは複数の言語の特定の方言、ピジン語、またはクレオール語を検出する場合がある。
【0061】
言語検出ユニットは、メタデータまたは人口統計学的データを使用して、存在する言語を検出する場合がある。例えば、言語検出ユニットは、被験者の年齢、性別、人種、国籍または出身国、体重、病歴、住所、職業、配偶者の有無、社会経済的地位、学歴、子供の数に関する情報を伴う発話の音声データまたはテキストデータとともに、その他の個人的な、もしくは個人を特定できる情報、またはメタデータであって、個人を特定できない情報を含む可能性のあるものを、入力として使用できる場合がある。この情報は、タイピング速度、周囲の騒音、試験の状況または環境、質問に答える際の時間遅延、声のピッチ、実施される試験のタイプ、サンプルを取得するのに使用される機器のタイプ、発話の持続時間、音声品質、被験者装置、エージェント装置、またはその他の情報を含む場合がある。メタデータは、バイタルサイン情報、例えば心拍数、血糖値、血圧、または他の身体測定値を含む場合がある。言語検出ユニットは、発話サンプルにラベルを付加するアノテーション・ユニット(annotation unit)を含む場合がある。
【0062】
システムは、性能推定ユニットを使用して、入力発話の品質に少なくとも部分的に基づいて、一つまたは複数の音響モデルまたはNLPモデルが精神的または行動的健康状態を予測するためにどれだけ良好に性能を発揮する可能性があるかを推定する場合がある。例えば、モデルの性能は、モデル内に存在する一つまたは複数の言語、テキストまたは音響信号の品質(例えば、信号が不完全である場合、またはノイズがある場合)、信号の長さ、信号のタイプ(音響、テキスト、または両方)、話者の声の音響的特徴量に基づいて変化する場合がある。性能推定モジュールはまた、特定のモデルの性能を予測する場合に、言語の同一性分布、音声セッションもしくは信号の長さ、音声セッション内のトピック、発話の品質、被験者発話の抑揚もしくはピッチ、発話が特定の言語のどの方言に属するか、発話の速度、または他の発声チックの休止の数を考慮する場合がある。
【0063】
例えば、特定の音声モデルは、ドイツ語の発話では良好な性能を示すが、英語の発話ではそうでない場合がある。特定のNLPモデルは、コックニー訛りを伴う発話の分析に良好な性能を示す場合があるが、スコットランド訛りを伴う発話ではそうではない場合がある。また、別のタイプのモデルは、コード・スイッチされたサンプル(例えば、ヒンディ語と英語を切り替えるインド人話者)に対して良好な性能を示さない場合がある。
【0064】
性能推定ユニット(「モデル性能推定器」と互換的に使用される)は、音響モデルまたはNLPモデルのうちの一つまたは複数の性能を推定するために、統計学的モデリング(例えば、ベイズモデリング)または機械学習を使用する場合がある。
【0065】
プレモデル戦略セレクタは、入力発話から、行動的または精神的な健康状態を予測、モニタリング、または検出するのに使用する(例えば、重み付けされた組み合わせ、重み付けされていない組み合わせ、ジョイントモデル、またはモデル融合を使用する)音響モデルおよび/またはNLPモデルの異なる組み合わせを決定する(互換的に「戦略の決定または選択」と称される)。プレモデル戦略セレクタは、重み付けされた組み合わせを、入力発話サンプルを使用して決定する場合がある。いくつかの実施形態では、プレモデル戦略セレクタは追加データを使用する場合がある。例えば、プレモデル戦略セレクタは、モデルの重み付けされた組み合わせ、ジョイントモデル、または別の構成のモデルを使用するか否かを判断するために、言語検出データまたはモデル性能データを使用する場合がある。いくつかの実施形態では、プレモデル戦略セレクタは、他のデータ、例えば人口統計学的データまたはメタデータを使用する場合がある。いくつかの実施形態では、音響モデルおよびNLPモデルとともに、モデルの重み付けされた組み合わせは、人口統計学的モデルおよび/またはメタデータモデルを含む場合がある。いくつかの実施形態では、戦略セレクタは、融合モデル、または一つもしくは複数の音響モデル、NLPモデル、もしくは他のモデルからの出力の表現(例えば、潜在表現)を組み合わせるモデルを実現する場合がある。プレモデル戦略セレクタは、予測、モニタリング、または検出タスクを最適に実行するモデルの最適な組み合わせを決定する場合がある。最適な組み合わせが、精度、再現率、受信者動作特性(ROC)曲線下面積(AUC)、真陽性率、偽陽性率、または機械学習アルゴリズムもしくは機械学習アルゴリズムの組み合わせの性能を定量化することに関連する他の統計量を最大化することを含んでなる場合がある。プレモデル戦略セレクタは、精神的または行動的健康スクリーニング過程にフィードバックを組み込むか否かを判断する場合がある。
【0066】
プレモデル戦略セレクタは、音響モデル、NLPモデル、および/または他のモデルの構成を一つまたは複数のやり方で考案する場合がある。戦略セレクタは、一つまたは複数の音響モデル、NLPモデル、または他のモデルを実現する順序を決定する場合がある。戦略セレクタは、選択された各モデルに適用する重みの大きさを決定する場合がある。戦略セレクタは、データの表現がどのように融合されるかを決定する場合がある。例えば、連結(concatenate)や最大プーリングを使用して表現が融合される場合がある。加えて、マルチモーダル・アルゴリズム(multimodal algorithm)を使用することもできる。
【0067】
機械学習モデルは、プレモデル戦略セレクタによって選択された戦略に準拠して入力データを処理する場合がある。これらのモデルは教師ありモデル、または教師なし学習モデルである場合がある。モデルは深層学習モデルである場合がある。いくつかの実施形態では、モデルは、入力発話を機械学習分析にさらに適したデータにフィルタリングまたはパッケージングする前処理アルゴリズムを含む。
【0068】
モデルはNLPモデルである場合がある。モデルは汎用言語モデルを含む場合がある。モデルはNLP翻訳モデルを含む場合がある。モデルは多言語NLPモデルを含む場合がある。システムによって使用されるモデルは、使用される他のモデルと同様のアーキテクチャを有する場合、または他のモデルとは異なるアーキテクチャを有する場合がある。使用されるモデルは、列挙されたものに限定される場合もあるし、されない場合もある。モデルは、トランスフォーマ(transformer)、例えば多言語機械翻訳(M2M100)、多言語の双方向および自動回帰トランスフォーマ(multilingual bidirectional and auto-regressive transformer(mBART))、マルチリンガル・テキスト・ツー・テキスト(multilingual text-to-text)(mT5)、トランスフォーマによるクロスリンガルでロバストな双方向エンコーダ表現(cross-lingual robust bidirectional encoder representations from transformer(XLM-RoBERTa))、ロングフォーマ(Longformer)、またはトランスフォーマによる軽量な双方向エンコーダ表現(a lite bidirectional encoder representations from transformer(ALBERT))を含む場合がある。
【0069】
モデルは音響モデルである場合がある。モデルは、単一言語上で学習された音響モデルを含む場合がある。音響モデルは、単一言語上で微調整される場合がある。モデルは、多言語音響モデル(例えば、異なる言語からの音響データについて訓練されたもの)を含む場合がある。モデルは、言語に依存しない特徴量が選択または学習される、言語非依存音響モデルを含む場合がある。例えば、これらの特徴量は、ピッチ、フォルマント周波数、発話速度、i-ベクトルまたはx-ベクトルなどの話者に基づく埋め込み特徴量、および非自動音声認識(ASR)タスク(例えば、音の分類)から学習された、またはASRタスクから学習された特徴量を含む場合がある(ただし、これらを含むことには限定されない)。
【0070】
モデルは、人口統計学的モデルまたはメタデータモデルである場合がある。
【0071】
モデルは、融合モデルである場合がある。融合モデルは、音響モデル、NLPモデル、人口統計学的モデル、またはメタデータモデルのうちの一つまたは複数からの出力データ(例えば、表現)を組み合わせる場合がある。出力は、スコアまたは学習された表現である場合がある。
【0072】
システムは、使用される複数のモデル(または下位モデル)(例えば、音響モデル、NLPモデル、融合モデル、または人口統計学的モデル)から導出された融合モデルを使用して入力を処理する場合がある。このようなシナリオでは、選択された各モデルは独立に訓練される場合がある。次いで、モデル出力が組み合わされる場合がある。モデル出力は、例えば、連結、最大プーリング、または別の方法を使用して組み合わせてもよい。
【0073】
システムは、複数のモデルから導出されたジョイントモデルを使用して入力を処理する場合がある。このようなシナリオでは、音響モデル、NLPモデル、または別のモデルなどのモデル(または下位モデル)はいっしょに、または同時に訓練されて、ジョイントモデル出力を生成する。
【0074】
システムは、機械学習モデルの組み合わせから得られる予測された出力に由来する低い信頼性を補償するために、ポストモデル戦略セレクタを使用する場合がある。信頼性は、モデル自体のうちの一つまたは複数によって生成または計算されて、ポストモデル戦略セレクタに提供される場合がある。ポストモデル戦略セレクタは、システムによる最終予測が有効になるまで、予測が行われている際に使用されて、モデルパラメータが更新される場合がある。信頼性が低い場合には、ポストモデル戦略セレクタは、一つまたは複数の行動を実行する場合がある。ポストモデル戦略セレクタは、精神的健康スクリーンをエージェントが管理する場合の言語を切り替えるよう促す場合がある。ポストモデル戦略セレクタは、スクリーニング過程における人間の介入(例えば、臨床医または医療提供者などの人間のエージェントからのもの)を促す場合がある。ポストモデル戦略セレクタは、代替モデルを使用する場合がある。ポストモデル戦略セレクタは、予測タスクを(例えば、うつ病から不安症へ)変更する場合がある。ポストモデル戦略セレクタは、モデル信頼度および/または他の要因に応じて、分析または試験手順を変更する一つまたは複数の改善行動を示唆する場合がある。
【0075】
フィードバック機構は、精神的健康スクリーニングの完了またはプレモデル戦略セレクタによるプレモデル戦略の選択に続いて、被験者に精神的健康スクリーニングを提供するエージェント(人間または自動化されたもの)にフィードバックを提供する場合がある。自動化されたエージェントは、アプリケーション(例えば、スマートフォンのアプリケーション)である場合がある。フィードバック機構は、モデルまたはポストモデル戦略セレクタの結果を入力とする場合があり、そして推奨される行動を出力する場合がある。フィードバック機構は、ルールベースの機構であっても、または統計学的方法もしくは機械学習分析を使用してもよい。フィードバック機構は、例えば、試験が実施される場合の言語の切り替えを促す場合がある。フィードバック機構は、さらなる発話入力を提供するように患者を誘導する場合がある。フィードバック機構は、エージェントに関連質問を促す場合がある。フィードバック機構は、入力サンプルの信号対雑音比を最小化するために、一つまたは複数の行動をとる場合がある。例えば、フィードバック機構は、静かな部屋に移動するよう患者に求める、または試験機器を再構成する場合がある。フィードバック機構は、正しくない質問がなされたと判断して、その質問を変更するようエージェントに促す場合がある。
音響モデル
【0076】
図1は、実施形態に準拠する、システム100を模式的に例示する。他の実施形態では、異なるアーキテクチャの音響モデルが使用される場合がある。システム100は、インターネットに接続された装置上にある、または(例えば、ブルートゥース(Bluetooth)接続を介して)インターネット接続された装置に接続されたマイクロフォンまたはマイクロフォンの配列を通じて入力発話を取得することができる。装置は、ウェアラブル装置(例えば、スマートウォッチ)、携帯電話、タブレット、ラップトップ計算機、デスクトップ計算機、スマートスピーカ、ホーム・アシスタンス装置(例えば、アマゾン・アレクサ(Amazon Alexa(登録商標))装置、またはグーグル・ホーム(Google Home(登録商標))装置)、または同類のものである場合がある。装置は、精神的健康アプリケーションを有する場合がある。精神的健康アプリケーションは、被験者の仕事や家庭生活、睡眠、気分、病歴、および同類のものに関する質問に答えるよう、被験者に視覚的または聴覚的に促す場合がある。そうしたプロンプトに対する被験者の回答は、入力発話として使用される場合がある。システム100は、モバイルアプリケーション上で実現される場合があり、被験者のモバイル装置上でローカルに入力発話を処理する場合がある。代わりにまたは加えて、モバイル装置は、処理のために発話を遠隔地に送信することができる。場合によっては、処理はローカルな装置で部分的に、そしてリモート・サーバで部分的に実行される場合がある。
【0077】
代わりにまたは加えて、入力発話は、医療従事者との臨床的な出会いを介して取得される場合がある。例えば、音声記録装置は、医師の診察中に被験者の発話を取り込む場合がある。医師の診察は、対面の診察であっても、またはリモートで行われる遠隔診療の診察であってもよい。他の状況には、医療提供者、医療チーム、または医療マネージャとの電話、オンライン、オフィス内、または自宅での診察が含まれる場合がある。
【0078】
図1のサブシステムは、一つまたは複数の計算装置に実装される場合がある。計算装置は、サーバ、デスクトップもしくはラップトップ計算機、電子タブレット、モバイル装置、スマートスピーカ、スマートウォッチ、ウェアラブル装置、または同類のものである場合がある。計算装置は、一箇所または複数箇所にある場合がある。計算装置は、汎用プロセッサ、画像処理装置(GPU)、特定用途向け集積回路(ASIC)、フィールドプログラマブル・ゲートアレイ(FPGA)、機械学習アクセラレータ、または同類のものを有する場合がある。計算装置は加えて、メモリ、例えば、ダイナミックまたはスタティック・ランダムアクセス・メモリ、リードオンリー・メモリ、フラッシュ・メモリ、ハード・ドライブ、または同類のものを有する場合がある。メモリは、実行時に、システム100を計算装置に訓練させる、または対象となる行動または精神的健康状態を被験者が有するかどうかを計算装置に予測させる命令を記憶するように構成される場合がある。計算装置は加えて、ネットワーク通信装置を有する場合がある。ネットワーク通信装置は、ネットワークを介して、計算装置が互いに、そしていかなる数の使用者装置とも通信することを可能にすることができる。例えば、ネットワーク通信装置は、システム100を実現する計算装置が、被験者の予測される行動的または精神的な健康状態に関して、医療従事者のモバイル装置と通信することを可能にする場合がある。ネットワークは、有線ネットワークであっても、または無線ネットワークであってもよい。例えば、ネットワークは、光ファイバー・ネットワーク、イーサネット(Ethernet(登録商標))ネットワーク、衛星ネットワーク、セルラー・ネットワーク、Wi-Fi(登録商標)ネットワーク、ブルートゥース(Bluetooth(登録商標))ネットワーク、または同類のものである場合がある。他の実現形態では、計算装置は、インターネットを通じてアクセス可能ないくつかの分散型計算装置である場合がある。そのような計算装置は、クラウド型計算装置と見なされる場合がある。
NLPモデルパラメータ
【0079】
図4は、NLPモデルを使用して、被験者が行動的または精神的な健康状態にあるか否かを予測するシステム400を模式的に例示する。システム400は、自動音声認識(「ASR」)サブシステム405、エンコーダ・サブシステム410、言語モデル・サブシステム415、および分類サブシステム425を含む場合がある。ASRサブシステム405は、被験者からの入力発話の複写を生成することができる。場合によっては、ASRサブシステム405は、サードパーティのASRモデル、例えば、グーグルASR(Google ASR)を含む場合がある。サードパーティのASRは、1-bset仮説ASRであってもよいし、または単語の不確実度を考慮しても、もしくは単語の混同情報を含んでいてもよい。他の場合には、ASRサブシステム405は、カスタムASRモデルを含む場合がある。
【0080】
図4のサブシステムおよびそれらの構成成分は、一つまたは複数の計算装置上で実現される場合がある。計算装置は、サーバ、デスクトップまたはラップトップ計算機、電子タブレット、モバイル装置、または同類のものである場合がある。計算装置は、一箇所または複数箇所にある場合がある。計算装置は、汎用プロセッサ、画像処理装置(GPU)、特定用途向け集積回路(ASIC)、フィールドプログラマブル・ゲートアレイ(FPGA)、または同類のものを有する場合がある。計算装置は加えて、メモリ、例えば、ダイナミックまたはスタティック・ランダムアクセス・メモリ、リードオンリー・メモリ、フラッシュ・メモリ、ハード・ドライブ、または同類のものを有する場合がある。メモリは、実行時に、サブシステムの機能を計算装置に実現させる命令を記憶するように構成される場合がある。計算装置は加えて、ネットワーク通信装置を有する場合がある。ネットワーク通信装置は、ネットワークを介して、計算装置が互いに、そしていずれの数の使用者装置とも通信することを可能にする場合がある。ネットワークは、有線ネットワークであっても、または無線ネットワークであってもよい。例えば、ネットワークは、光ファイバー・ネットワーク、イーサネット(Ethernet(登録商標))ネットワーク、衛星ネットワーク、セルラー・ネットワーク、Wi-Fi(登録商標)ネットワーク、ブルートゥース(Bluetooth(登録商標))ネットワーク、または同類のものである場合がある。他の実現形態では、計算装置は、インターネットを通じてアクセス可能ないくつかの分散型計算装置である場合がある。そのような計算装置は、クラウド型計算装置と見なされる場合がある。
【0081】
システム出力
図2のシステム200は、精神的状態または行動的状態のリスクのある状態に患者がいるか否かを特定する電子レポートを出力することができる。電子レポートは、電子装置のグラフィカル・ユーザ・インタフェース上に表示されるように構成することができる。電子装置は、患者、被験者、医療提供者、支払者、医療チーム、被験者または患者の家族構成員、または他の利害関係者に属する場合がある。電子レポートは、精神的または生理的状態のリスクの定量化、例えば正規化されたスコアを含むことができる。スコアは、対象となっている集団全体に関して、または部分集団に関して正規化することができる。電子レポートは、正規化されたスコアの信頼度レベルも含むことができる。信頼度レベルは、正規化されたスコアの信頼性(すなわち、正規化されたスコアが信頼できる程度)を表示することができる。
【0082】
電子レポートは、視覚的なグラフ構成要素を含むことができる。例えば、複数の異なる時期に発生した複数のスクリーニングまたはモニタリングセッションから得られた複数のスコアを患者が有するならば、視覚的なグラフ構成要素は、患者のスコアの経時的進行を示すグラフである場合がある。
【0083】
システム200は、電子レポートを患者または患者に関連する連絡担当者、医療提供者、医療支払者、または他の第三者に出力することができる。システム200は、スクリーニング、モニタリング、または診断が進行中であっても、実質的にリアルタイムで電子レポートを出力することができる。電子レポートは、スクリーニング、モニタリング、または診断の過程の途中で、正規化されたスコアまたは信頼度の変化に応答して、実質的にリアルタイムで更新することができ、使用者に再送信することができる。
【0084】
場合によっては、電子レポートは、患者の精神的状態に関する一つまたは複数の記述子を含むことができる。記述子は、患者の精神的状態(例えば、「軽度のうつ病」)の定性的尺度とすることができる。かわりにまたはさらに、記述子は、スクリーニング中に患者が言及したトピックとすることができる。記述子は、例えばワードクラウドなどのグラフィックとして表示することができる。
【0085】
本明細書に記載されるモデルは、特定の目的のために、またはシステムの出力を受信する主体に基づいて、最適化することができる。例えば、モデルは、患者がある精神的状態を有するか否かを推定する際の感度について最適化される場合がある。保険会社などの医療費支払者は、偽陽性の診断を受けた患者に支払われる保険金の額を最小限に抑えることができるように、そのようなモデルを好む場合がある。他の場合では、モデルは、患者がある精神的状態を有するか否かを推定する際の特異度について最適化される場合もある。医療提供者は、そのようなモデルを好む場合がある。システムは、出力の送信先となる利害関係者に基づいて適切なモデルを選択する場合がある。処理後、システムは、出力を利害関係者に送信することができる。
【0086】
本明細書に記載されるモデルは代わりに、臨床医、医療提供者、保険会社、または政府規制機関によって決定される所望のレベルの感度または所望のレベルの特異度に従って発話および他のデータを処理するように調整または構成することができる。代わりにまたはこれに加えて、モデルは、精度、再現率、F1、等誤差率(「EER」)、陽性的中率(「PPV」)、陰性的中率(「NPV」)、陽性尤度比(「LR+」)、陰性尤度比(「LR-」)、一致相関係数(「CCC」)、ピアソン相関係数(「PCC」)、平均二乗誤差(「RMSE」)、平均絶対誤差(「MAE」)、またはその他の関連する性能メトリックを最適化するよう、調整、構成、または訓練することができる。
【0087】
電子レポートは、患者の発話のテキスト転写から抽出された「ワードクラウド」または「トピッククラウド」を含む場合がある。ワードクラウドは、個々の単語または語句の視覚的表現である場合があり、最も頻繁に使用される単語および語句が、より大きなフォントサイズ、異なる色、異なるフォント、異なる書体、またはそれらのいずれかの組み合わせを用いて指定される。うつ病患者は、非うつ病患者よりも、特定の単語や語句をより高い頻度で口にするのが一般的であるので、このようなやり方で単語や語句の頻度を表現することが有用である場合がある。例えば、うつ病患者は、暗い、黒い、病的なユーモアを表示する単語または語句を使用する場合がある。彼らは、無価値感や落伍者感について話したり、絶対主義的な語句、例えば「常に」、「決して」、「完全に」を使用したりする場合がある。うつ病患者はまた、一般的な集団と比較される場合には、一人称単数の代名詞(例えば、「私(I)」、「私を(me)」)を高頻度で、そして二人称または三人称の代名詞をそれより低い頻度で使用する場合がある。システムは、機械学習アルゴリズムを訓練して、うつ病患者と非うつ病患者のワードクラウドの意味解析を実行することができる場合があり、その目的は、そうした人たちのワードクラウドに基づいて、人々をうつ病であるまたはうつ病でないとして分類できるようにすることである。ワードクラウド分析はまた、教師なし学習を使用して実行される場合もある。例えば、システムは、人々をその精神的状態に基づいてグループに分けるために、ラベル付けされていないワードクラウドを分析しパターンを検索する場合がある。生成された単語は、うつ病のリスクの減少または増加を表示する場合がある(すなわちこれは、うつ病のリスクの増加または減少と関連する)。
【0088】
同様に、電子レポートは、患者の予測される人格特性が含まれる場合がある。人格特性(例えば、内向性または外向性)は、発話の長さから推測することができる。
【0089】
電子レポートは加えて、証拠に基づいた心理教育材料と支援戦略を含む場合がある。教育材料と支援戦略は、患者のスコアに個別に最適化される場合がある。この材料と支援戦略が、動画、テキスト、宿題の形で患者に直接提供される場合、またはこの材料と支援戦略が、患者の医療提供者に提供されて、この医療提供者が精神教育過程を主導できる場合がある。
【0090】
使用例
本明細書に記載される開示された健康スクリーニングシステムを使用して、精神的健康のインフラに制限のある世界の地域における患者の治療を支援してもよい。このシステムは、多くの国からの患者または被験者の健康スクリーニングを管理する中心的なインフラストラクチャを提供する場合がある。加えて、自然災害、気候変動、テロリズム、およびその他の要因による人の移住が、異なる言語を先住民が話す地域への人々の大量の移民や移動を引き起こす可能性がある。システムによって使用されるモデルは、言語にとらわれない、言語非依存である、または多言語に対応するなど様々であるので、開示されたシステムは、これまで充分なサービスが受けられなかった多様な地域、コミュニティ、および状況の患者を支援できる場合がある。
【0091】
加えて、システムは、精神的負担の大きい仕事またはストレスの大きい仕事を持っている被雇用者を、精神的適性について試験するのに使用してもよい。臨床医またはアルゴリズムを使用して、これらの状態に向けたスクリーニングまたはモニタリング方法を開発してもよい。例えば、システムは、ミネソタ多面人格目録(Minnesota Multiphasic Personality Inventory(NMPI))およびMMPI-2において試験されるものと同様のクエリに基づいて評価される場合がある。
【0092】
本システムはまた、軍人を、精神的適性についてスクリーニングするのに使用してもよい。例えば、システムは、PTSDについて試験するために、精神障害の診断・統計マニュアル(DSM)-5向けのプライマリケア心的外傷後ストレス障害(Primary Care Post-Traumatic Stress Disorder for Diagnostic and Statistical Manual of Mental Disorders(PC-PTSD-5))について質問されるものと類似の主題を伴うクエリを使用する評価を実現する場合がある。PTSDに加え、システムは、うつ病、パニック障害、恐怖性障害、不安症、敵意について軍人をスクリーニングする場合がある。システムは、派兵の前後での軍人をスクリーニングするために、異なる調査を採用する場合がある。システムは、職業について区分することによって軍人を区分する場合があり、また、兵科、将校または下士官、性別、年齢、民族性、遠征/派兵の回数、配偶者の有無、病歴、およびその他の要因によって軍人を区分する場合がある。
【0093】
システムは、例えば身辺調査を実施することによって、銃の見込み購入者を評価するのに使用される場合がある。評価は、銃器を所持するための精神的適性について見込み購入者を評価するよう、臨床医によって、またはアルゴリズムによって、設計される場合がある。この調査では、銃の見込み購入者が、裁判所またはその他の機関から、自身または他人に対して危険であると認定されるかどうか、質問および関連質問を使用して判断することが要求される場合がある。
スコアリング
【0094】
本明細書に記載されるモデルは、精神的または行動的健康の評価の様々な段階でスコアを生成する場合がある。生成されるスコアは、尺度化されたスコアまたは二値スコアである場合がある。尺度化されたスコアは多数の値の範囲に及ぶ場合がある一方、二値スコアは二つの離散値のうちの一つである場合がある。モデルは、評価の様々な段階において、二値スコアと尺度化されたスコアを交換して、異なる精神的状態をモニタリングしたり、評価の途中で特定の精神的状態について特定の二値スコアと特定の尺度化されたスコアを更新したりする場合がある。
【0095】
システムによって生成されるスコアは、二値スコアまたは尺度化されたスコアのいずれかであり、評価における各クエリに対する各回答の後に生成されたり、以前のクエリに部分的に基づいて定式化されたりする場合がある。後者の場合では、各周辺スコアは、うつ病の、または別の精神的状態の予測を微調整するように作用するだけでなく、予測をさらにロバストにするように作用する。周辺予測はこのようにして、(特定の中間的な精神的状態と相関する)特定の数のクエリおよび回答の後に、精神的状態の予測についての信頼度尺度を増加させる場合がある。
【0096】
尺度化されたスコアについては、スコアの精密化により、臨床医は、患者が経験している一つまたは複数の精神的状態の重大度を、さらに高い精度で決定することが可能になる場合がある。例えば、複数の中間的な抑うつ状態が観察される場合に、尺度化されたスコアの精密化により、臨床医は、患者が軽症、中等症、または重症のうつ病であるか否かを判断することが可能になる場合がある。また、スコアリングの複数回の反復を行うことで、冗長性が加わりロバスト性が加わることによって、偽陰性の除去の点で臨床医や管理者が支援される場合がある。例えば、最初の精神的状態の予測は、ノイズが多い場合があり、その理由は、分析に利用可能な発話セグメントが比較的少なく、NLPアルゴリズムが、患者の記録された発話の意味的文脈を決定するのに充分な情報を有していない場合があるからである。単一の周辺予測自体がノイズの多い推定である場合であっても、さらに多くの測定値を加えることによって予測を精緻化することで、システムにおける全体的な分散が低減し、より正確な予測が得られる場合がある。本明細書に記載される予測は、単に調査を実施することによって得られる予測よりも有効である場合があり、それは、人々に、自身の状態について嘘をつくことへのインセンティブがある場合があるからである。調査を実施すると、多数の偽陽性や偽陰性の結果が生じる場合があり、治療が必要な患者がその隙間をすり抜ける可能性が生じる。加えて、訓練された臨床医は、音声に基づくバイオマーカ、および顔に基づくバイオマーカに気づく場合があるものの、本明細書で開示されるモデルが分析できる大量のデータを分析できない場合がある。
【0097】
尺度化されたスコアは、精神的状態の重大度を記述するのに使用される場合がある。尺度化されたスコアは、例えば、1から5の間の数、または0から100の間の数である場合があり、数が大きいほど、患者が経験した精神的状態がより重大または急性の形態であることを表示している。尺度化されたスコアは、整数、百分率、または小数を含む場合がある。尺度化されたスコアによってその重大度が表されうる状態には、うつ病、不安症、ストレス、PTSD、恐怖性障害、統合失調症、およびパニック障害などが挙げられるが、これらには限定されない。一例では、評価のうつ病関連の態様に関して0というスコアは、うつ病なしを表示する場合があり、50のスコアは、中等度のうつ病を表示する場合があり、100のスコアは、重度のうつ病を表示する場合がある。尺度化されたスコアは、複数のスコアの混成である場合がある。精神的状態は、精神的下位状態の混成として表される場合があり、患者の複合的な精神的状態は、精神的下位状態からの個々のスコアの加重平均である場合がある。例えば、うつ病の混成スコアは、怒り、悲しみ、自己像、自己価値、ストレス、孤独、孤立、不安症についての個々のスコアの加重平均である場合がある。
【0098】
尺度化されたスコアは、多ラベル分類器を使用するモデルを使用して生成される場合がある。この分類器は、例えば、決定木分類器、k-最近傍分類器、またはニューラルネットワークに基づく分類器である場合がある。分類器は、評価の中間段階または最終段階において、特定の患者について複数のラベルを生成する場合があり、ラベルは特定の精神的状態の重大度または程度を表示する。例えば、多ラベル分類器は、複数の数を出力する場合があり、これがソフトマックス層を使用して正規化されて確率になる場合がある。最大の確率を有するラベルは、患者が経験した精神的状態の重大度を示す場合がある。
【0099】
尺度化されたスコアは、回帰モデルを使用して決定される場合がある。回帰モデルは、重み付けされた変数の総和として表される訓練例から適合値を決定する場合がある。この適合値は、既知の重みを用いて患者からスコアを推定するのに使用される場合がある。重みは、部分的には、視聴覚信号(例えば、音声ベースのバイオマーカ)から導出される特徴に、そして部分的には、患者情報、例えば患者の人口統計学から導出される特徴量に、基づく場合がある。最終スコアまたは中間スコアを予測するのに使用される重みは、以前の中間スコアからとられる場合がある。
【0100】
尺度化されたスコアは、信頼度尺度に基づいて尺度化される場合がある。信頼度尺度は、記録品質、記録から患者の発話を分析するのに使用されるモデルのタイプ(例えば、音声、視覚、意味)、特定の期間中にどのモデルが最も多く使用されたかに関連する時間的な分析、および視聴覚サンプル内の特定の音声ベースのバイオマーカの時期に基づいて決定される場合がある。中間スコアを決定するために、複数の信頼度尺度がとられる場合がある。評価中の信頼度尺度が、特定の尺度化されたスコアの重み付けを決定するために平均化される場合がある。
【0101】
二値スコアは、システムからの二値結果を反映する場合がある。例えば、システムは、使用者をうつ病かうつ病でないかのどちらかに分類する場合がある。システムは、ニューラルネットワークまたはアンサンブル法などの分類アルゴリズムを使用してこれを行う場合がある。二値分類器は、0と1の間の数を出力する場合がある。患者のスコアが、しきい値(例えば、0.5)以上である場合には、患者は、「うつ病」と分類される場合がある。患者のスコアが、しきい値未満である場合には、患者は、「うつ病ではない」と分類される。システムは、評価の複数の中間状態について複数の二値スコアを生成する場合がある。システムは、評価の全体的な二値スコアを生成するために、評価の中間状態からの二値スコアに重み付けをして総和する場合がある。
【0102】
本明細書に記載されるモデルの出力は、較正されたスコア、例えば、範囲が1であるスコアに変換することができる。本明細書に記載されるモデルの出力は、加えてまたは代わりに、臨床的有用性を有するスコアに変換することができる。臨床的有用性を有するスコアは、定性的診断(例えば、重度のうつ病の高いリスク)とすることができる。臨床的有用性を有するスコアはかわりに、患者の一般的な集団または特定の部分集団に関して正規化された、正規化された定性的スコアとすることができる。正規化された定性的スコアは、一般的な集団または部分集団に対するリスクの百分率を表示する場合がある。
【0103】
本明細書に記載されるシステムは、標準化された精神的健康の質問票または試験ツールよりも少ない誤り(例えば、10%少ない)または高い精度(例えば、10%高い)で、被験者の精神的状態(例えば、精神的障害または行動的障害)を特定することができる場合がある。誤り率または精度は、精神的状態を含んでなる一つまたは複数の医学的状態を特定または評価するための主体によって使用可能なベンチマーク基準に対して確立される場合がある。主体は、臨床医、医療提供者、保険会社、または政府規制機関である場合がある。ベンチマーク基準は、独立に検証された臨床診断である場合がある。
【0104】
モデル特異的な信頼度尺度
本明細書に記載されるモデルは、信頼度尺度を使用する場合がある。信頼度尺度は、機械学習アルゴリズムによって生成されるスコアが、精神的状態、例えばうつ病を正確に予測するためにいかに効果的であるかを示す尺度である場合がある。信頼度尺度は、スコアが取得された条件に依存する場合がある。信頼度尺度は、整数、小数、または百分率で表される場合がある。条件は、記録装置のタイプ、信号が取得される際の周囲空間、背景ノイズ、患者の発話特異性、話者の言語の流暢さ、患者の回答の長さ、患者の回答の評価された真実性、意味不明の単語および語句の頻度を含む場合がある。信号または発話の品質が発話の分析をさらに困難にするような条件下では、信頼度尺度は、より小さい値を有する場合がある。いくつかの実施形態では、信頼度尺度は、計算された二値スコアまたは尺度化されたスコアを信頼度尺度で重み付けすることによって、スコア計算に追加される場合がある。他の実施形態では、信頼度尺度は個別に提供される場合がある。例えば、システムは臨床医に、0.93のうつ病スコアを信頼度75%で患者が有することを告げる場合がある。
【0105】
信頼度レベルはまた、患者の発話を分析するモデルを訓練するのに使用される訓練データのラベルの品質に基づく場合もある。例えば、ラベルが、公式の臨床診断に基づいているではなく、患者が記入した調査または質問票に基づいているならば、ラベルの品質が低くなると判断される場合があり、よってスコアの信頼度レベルが低くなる場合がある。場合によっては、調査や質問票が一定レベルの不誠実さを有すると判断される場合がある。そのような場合、ラベルの品質が低くなると判断される場合があり、よってスコアの信頼度レベルが低くなる場合がある。
【0106】
特に、評価が行われる際の環境によって信頼度尺度が影響を受ける場合には、信頼度尺度を改善するためにシステムによって様々な措置がとられる場合がある。例えば、システムは、一つまたは複数の信号処理アルゴリズムを採用して背景ノイズをフィルタリングしてもよいし、またはインパルス応答測定を使用して、発話サンプルが記録された際の環境の対象および特徴量によって引き起こされた残響の影響をいかにして除去するかを決定してもよい。システムはまた、意味解析を使用して、文脈の手がかりを見つけ、欠落している単語または意味不明の単語の素性を決定してもよい。
【0107】
加えて、システムは、使用者プロファイルを使用して、振る舞い、民族的背景、性別、年齢、またはその他のカテゴリに基づいて人々をグループ化する場合がある。同様のグループに由来する人々は、同様の音声ベースのバイオマーカを有する場合があるので、システムはより高い信頼度でうつ病を予測できる可能性があり、これは、同様の音声ベースのバイオマーカを示す人々が、同様にしてうつ病を表示する可能性があるからである。
【0108】
例えば、異なる背景に由来するうつ病の人々は、より遅い発話、単調なピッチまたは低いピッチ変動、過剰な休止、声の音色(ガラガラ声またはかすれた声)、支離滅裂な発話、焦点のとりとめなさまたは喪失、簡潔な回答、および意識の流れの語り口によって、様々に分類される場合がある。これらの音声ベースのバイオマーカは、分析された患者の一つまたは複数のセグメントに属する場合がある。
【0109】
多言語の精神的健康スクリーニング
図5は、実施形態に準拠する、多言語の精神的健康スクリーニングを行う工程フロー
図500を例示する。患者は、エージェントまたは検査提供者によって試験を実施され、これらは、人間の検査提供者(例えば、医師または臨床医)または自動化された試験インタフェースである場合がある。自動化された試験インタフェースは、入力501として音声またはテキストの形式の発話を誘出するように設計された質問を用いた調査を実施する場合がある。多言語の健康スクリーニング過程は、精神的または行動的健康状態をモニタリング、検出、または予測するために、入力発話501に複数の操作を実行する。この過程は適応的であり、予測を微調整するために、複数の段階で予測過程の測定を行う場合がある。
【0110】
入力501は、音声入力またはテキスト入力である場合がある。音声入力は、一つまたは複数の発話、または会話のスニペット(snippet)、または誘出を含む場合がある。誘出は、それぞれ数秒から数分の長さである場合がある。入力は、被験者から誘出され記録されたテキストである場合がある。入力はまた、被験者によって生成された音声のテキスト転写である場合がある。テキスト入力は、いかなる長さ(例えば、数文字から数ページの長さまで)であってもよい。音声入力は、いかなる持続時間(例えば、数秒から数時間)であってもよい。
【0111】
言語検出器502は、入力発話501内に存在する一つまたは複数の言語を決定する場合がある。言語検出器502は、どの言語がサンプル中に存在する可能性が高いかを示す確率分布を生成する場合がある。この分布は、単一言語の発話の場合には、その発話が属する可能性のある候補言語を指示する場合がある。多言語サンプル(例えば、コード・スイッチングを含むサンプル)の場合には、言語検出器502は、どの言語が存在するかを表示する場合がある。言語がシステムにとって未知であるならば、言語選択分析は、そのシステムが訓練によって認識するようなった言語から最も類似した既知の言語を選択する場合がある。
【0112】
モデル性能推定器503は、所与の言語における所与の発話の一部について、異なるモデル505の性能推定値を決定する場合がある。この推定値は、プレモデル戦略セレクタ504によって使用される場合があって、これにより、精神的健康リスクに関連するスコアを計算するモデルのサブセットが選択される。いくつかの実施形態では、プレモデル戦略セレクタ504は、提供された発話入力を効果的に処理できるモデルがないと判断するならば、発話を処理しない場合がある。そのような場合には、システムは、そのような判断を下した時点でフィードバック機構509を実現する可能性がある。多言語発話の場合には、モデル性能推定器503は、存在する複数の言語に対して複数の信頼度値を生成する場合がある。
【0113】
いくつかの実施形態では、言語検出器502およびモデル性能推定器503は存在しない。これらの実施形態では、プレモデル戦略セレクタ504は、戦略を考案する前に、入力502およびフィードバック機構509からのフィードバックにさらに大きく依存する場合がある。
【0114】
プレモデル戦略セレクタ504は、(例えば、ジョイントモデリングまたはモデル融合を使用して)精神的健康予測を行うのに使用するための、モデル505(またはモデル構成)のサブセットを選択する場合がある。プレモデル戦略セレクタは、フィードバック機構509からのフィードバック、ならびに言語検出器502およびモデル性能推定器503からの言語情報とともに入力データ501を使用して、精神的健康予測を生成することになる機械学習モデル505のサブセットを決定する場合がある。
【0115】
プレモデル戦略セレクタ504は、リソースの可用性に基づいて、使用するモデル505を選択する場合がある。例えば、プレモデル戦略セレクタ504は、精神的健康スクリーニング中に自動音声認識(ASR)が利用可能であるならば、翻訳モデルの使用を決定する場合がある。
【0116】
プレモデル戦略セレクタ504は、新しいモデルを訓練する場合があり、またはラベルもしくは集団統計を収集することによって適応する場合がある。プレモデル戦略セレクタ504は、集団統計または直接的なラベルを用いてモデルを訓練することができる。
【0117】
プレモデル戦略セレクタ504は、モデル選択戦略を推進する場合があり、これは以下の:予測(例えば、単一モデル対複数モデル、自動音声認識、言語検出、またはうつ病検出)のレイテンシ、入力501が収集された際の状況(人間-装置、人間-機械など)、ビジネスフロー要件、特定のモデルを使用する場合の金銭的コスト、またはデータフロー経路を決定する可能性のある人口統計学的データ、のうちの一つまたは複数を使用してなされる。プレモデル戦略セレクタは、音響モデルまたはNLPモデルの構成が信頼できないか否かを判断する場合があり、そして信頼できないならば、フィードバック機構509を使用して、精神的健康スクリーニングを改善する一つまたは複数の改善措置を提供する場合がある。
【0118】
モデル505は、NLPモデル505A、音響モデル505B、他のモデル(例えば、人口統計学、メタデータ)505C、または融合モデル505Dであってもよい。モデルは機械学習アルゴリズムを使用して中間出力を生成する場合がある。これらの中間出力は、プレモデル戦略セレクタ504からの命令に従って重み付けされ組み合わされる場合がある。
【0119】
NLPモデル505Aは、翻訳ベースのモデルである場合がある。これらのモデルは、文の対(例えば、英語-スペイン語、スペイン語-英語、英語-ポルトガル語)である場合がある。これらのモデルは、訓練に必要なデータが、汎用モデルの場合よりも少ない場合がある。これらのモデルは、100とおりの言語(M2M100)アーキテクチャ間で翻訳を行う多対多(many-to-many)アーキテクチャを含む場合がある。
【0120】
NLPモデル505Aは、多言語モデルである場合がある。これらのモデルは、多くの言語に関する大量のデータ上で一度に訓練される場合がある。多言語モデルは、マルチリンガル・テキスト・ツー・テキスト・トランスファ・トランスフォーマ(multilingual text-to-text transfer transformer(mT5))モデルのアーキテクチャに基づく場合がある。
【0121】
NLPモデル505Aまたは音響モデル505Bのいずれかが、特定のタスクのために、例えば特定の健康状態を検出するために、微調整される場合がある。微調整は、特定のドメインからのデータを使用して汎用モデルを訓練し、次いで分類または回帰の教師付き訓練を実行することを含む場合がある。
【0122】
ポストモデル戦略セレクタ506は、信頼できない結果をモデル505が生成するか否かを判断する場合がある。ポストモデル戦略セレクタ506は、入力501、プレモデル戦略セレクタ504、またはモデル505からの情報に基づいて、予測を改善するための一つまたは複数の改善行動を選択する場合がある。これらの行動は、モデル505によって生成された予測結果が充分に信頼できる、または有効となるまで、反復して実行される場合がある。ポストモデル戦略セレクタ506によって実行される改善行動は、言語を切り替えること、人間の介入を求めること、事前情報を使用すること(例えば、モデル505からの出力を使用する代わりに、特定の人口統計にわたるPHQスコアの分布を使用して、スクリーニング結果を提供すること)、一つまたは複数の代替モデル505を使用すること、または異なるメトリックを予測すること、を含む場合がある。ポストモデル戦略セレクタ506は、信頼性しきい値が満たされるか、またはそれを超えるまで、改善行動を反復的に誘導する場合がある。
【0123】
結果生成器507は、モデル505の出力から一つまたは複数のレポート508を生成する場合がある。結果508は、モデル505の出力を記述する一つまたは複数のチャートまたはグラフを含む電子レポートである場合がある。結果を、エージェントまたは被験者が検討してもよい。モデル505の結果508は、臨床医によって使用される追加のスコアまたはメトリックを計算するのに使用される場合がある。結果生成器507によって提供された結果は、ポストモデル戦略セレクタ506によって提供された改善行動に関連付けられる場合がある。
【0124】
フィードバック機構509は、結果508および/またはプレモデル戦略セレクタ504からの情報を使用して、精神的健康スクリーニング手順の変更を推奨する場合がある。
【0125】
図6は、プレモデル戦略セレクタ504のフロー図を例示する。プレモデル戦略セレクタ504は、入力が母語であるか否かを含む場合がある言語検出結果を入力としてとる場合がある。プレモデル戦略セレクタ504への入力は、回答の数、回答の長さ、使用者のメタデータ(例えば、人口統計)、および患者と医療提供者または自動化された試験モジュールとの間の閉ループセッションに関する情報を含む場合がある。
【0126】
図7は、実施形態に準拠する、NLPモデル505Aの例示的なブロック図を例示する。モデル505Aは、訓練701される場合がある。次いで、汎用NLPモデル702、多言語NLPモデル703、および翻訳ベースのNLPモデル704が、入力501上で動作して中間出力を生成する場合があり、この中間出力は、微調整されたNLPモデル705によって微調整される場合がある。
【0127】
図8は、実施形態に準拠する、音響モデル505Bの例示的なブロック図を示す。モデル505Aは、訓練801される場合がある。次いで、言語非依存音響モデル802および多言語音響モデル803が、入力501に対して動作して中間出力を生成する場合があり、この中間出力は、微調整された音響モデル805によって微調整される場合がある。
【0128】
図9は、実施形態に準拠する、ポストモデル戦略セレクタ506のブロック図を例示する。ポストモデル戦略セレクタ506は、モデル信頼度、回答の数、回答の長さ、使用者のメタデータ(例えば、人口統計、個人情報または非個人情報)、音声/転写品質、トピックスコアを入力としてとる場合がある。ポストモデル戦略セレクタ506は、その結果を、将来の試験行動の入力として提供する場合がある。
【0129】
図10は、実施形態に準拠する、フィードバック機構509のブロック図を例示する。フィードバックは、戦略選択504、モデル505、または他の最終レポート、または先行する構成要素の組み合わせに基づく場合がある。フィードバック機構509は、試験モデルに、スクリーニングが実施される際の言語を切り替えるように促したり、PHQ/GAD質問票から一つまたは複数の質問をするように促したりする場合がある。フィードバック機構509は、患者にさらなる発話の誘出を提供するよう促す場合がある。フィードバック機構509は、システムに関連質問をするように促す場合がある。フィードバック機構509は、スクリーニングを実行するためにさらに静謐な部屋に移動することを含む、発話信号のSNRを増加させる一つまたは複数の行動を実行するよう、患者に促す場合がある。フィードバック機構509は、異なる質問セットを使用するよう試験エージェントに促す場合がある。
【0130】
品質管理
患者によって提供される入力発話が受け入れられない状況が生じる場合がある。そのような場合には、本明細書に記載されるシステムは、入力発話にリアルタイムでフラグを立てることができる。一例では、協力的な使用者が、発話を生成することができなかったり、最適とは言えない品質または量で発話を生成したりする場合がある。音響品質検出器は、発話が収集される際にこれを分析することができ、発話の品質(例えば、その音量)が低すぎるならば、リアルタイムで警告を生成することができる。システムはまた、単語数をリアルタイムで決定することができ、単語数が充分でないならば新しいプロンプトセットを提供することができる。新しいプロンプトは、より長い、またはより多くの回答を誘出するように設計される場合がある。別の例では、使用者が、(例えば、インセンティブを得るため、または診断を回避したりするために)システムを操作しようとする場合がある。このような使用者の場合には、ASRモデルは発話を処理して、「良い」使用者からの発話とこれが有意に異なるかどうかを判断することができる。次いで、試験使用者からの入力は、単語パターンが「良い」使用者から予想されるものから大きくかけ離れていないかどうかを確認するために、リアルタイムでこのモデルと比較される。この手法は、システムに向かって生で発話する代わりに別の音声源から音声を再生する使用者、または、話すが尋ねられた質問については話そうとしない使用者を捉えることができる。システムは次いで、使用者に警告を発したり、音声ファイルにタグ付けしたりすることができる。
【0131】
非発話モデル
場合によっては、本明細書に記載されるシステムは、呼吸モデル、笑いモデル、人口統計学的モデル、メタデータモデル、および姿勢モデルを含む、非発話モデルを含む場合がある。呼吸をモデル化することは、不安症または躁病を予測するのに有用である場合がある。笑い(またはその非存在)のモデルは、うつ病の予測に有用である場合がある。姿勢はまた、特定の行動的または精神的な健康状態を示す場合もある。非発話モデルの出力は、音響モデルの出力と融合させることができる。
【0132】
計算機システム
本開示は、本開示の方法を実施するようにプログラムされた計算機システムを提供する。
図3は、
図5のシステム500を実現するように、または本明細書に記載される訓練過程を実行するようにプログラムされる、またはそうでなければ構成される計算機システム301を示す。
【0133】
計算機システム301は、中央処理装置(CPU、本明細書では「プロセッサ」、および「計算機プロセッサ」でもある)305を含み、これは、シングルコアもしくはマルチコアプロセッサであってもよく、または並列処理用の複数のプロセッサであってもよい。計算機システム301はまた、メモリまたは記憶場所310(例えば、ランダムアクセス・メモリ、リードオンリー・メモリ、フラッシュ・メモリ)、電子ストレージ・ユニット315(例えば、ハード・ディスク)、一つまたは複数の他のシステムと通信する通信インタフェース320(例えば、ネットワーク・アダプタ)、ならびに周辺装置325、例えばキャッシュ、他のメモリ、データ・ストレージ、および/または電子ディスプレイ・アダプタを含む。メモリ310、ストレージ・ユニット315、インタフェース320、および周辺装置325は、通信バス(実線)、例えばマザーボードを通じてCPU305と通信している。ストレージ・ユニット315は、データを記憶するデータ・ストレージ・ユニット(またはデータ・リポジトリ)である場合がある。計算機システム301は、通信インタフェース320を用いて、計算機ネットワーク(「ネットワーク」)330に動作可能に結合することができる。ネットワーク330は、インターネット、インターネットおよび/もしくはエクストラネット、またはインターネットと通信するイントラネットおよび/もしくはエクストラネットであってもよい。ネットワーク330は場合によっては、電気通信ネットワークおよび/またはデータネットワークである。ネットワーク330は、分散コンピューティング、例えばクラウドコンピューティングを可能にすることができる、一つまたは複数の計算機サーバを含む場合がある。ネットワーク330は、場合によっては、計算機システム301を用いて、ピア・ツー・ピア・ネットワークを実現することができ、これにより、計算機システム301に結合された装置が、クライアントまたはサーバとして動作することが可能になる場合がある。
【0134】
CPU305は、機械可読命令のシーケンスを実行することができ、これらの命令は、プログラムまたはソフトウェアに具現化される場合がある。命令は、記憶場所、例えばメモリ310に記憶される場合がある。命令は、CPU305を対象とすることができ、この命令は次いで、本開示の方法を実現するようにCPU305をプログラムする、またはそうでなければ構成することができる。CPU305によって実行される操作の例には、フェッチ、デコード、実行、およびライトバックなどを挙げてもよい。
【0135】
CPU305は、回路、例えば集積回路の一部である場合がある。システム301の一つまたは複数の他の構成要素が回路に含まれる場合がある。場合によっては、回路は、特定用途向け集積回路(ASIC)である。
【0136】
ストレージ・ユニット315は、ファイル、例えばドライバ、ライブラリ、保存されたプログラムを記憶することができる。ストレージ・ユニット315は、ユーザ・データ、例えば、ユーザ・プリファレンスおよびユーザ・プログラムを記憶することができる。場合によっては、計算機システム301は、計算機システム301の外部にある、例えばイントラネットまたはインターネットを通じて計算機システム301と通信しているリモート・サーバ上に位置する、一つまたは複数の追加のデータ・ストレージ・ユニットを含む場合がある。
【0137】
計算機システム301は、ネットワーク330を通じて一つまたは複数のリモート計算機システムと通信することができる。例えば、計算機システム301は、使用者のリモート計算機システムと通信することができる。リモート計算機システムの例には、パーソナルコンピュータ(例えば、ポータブルPC)、スレートPCまたはタブレットPC(例えば、アップル(Apple(登録商標))のアイパッド(iPad)、サムスン(Samsung(登録商標))のギャラクシー・タブ(Galaxy Tab))、電話、スマートフォン(例えば、アップル(Apple(登録商標))のアイフォン(iPhone)、アンドロイド(Android)対応装置、ブラックベリー(Blackberry(登録商標))、または携帯情報端末などが挙げられる。使用者は、ネットワーク330を介して計算機システム301にアクセスすることができる。
【0138】
本明細書に記載の方法は、計算機システム301の電子ストレージ場所、例えばメモリ310または電子ストレージ・ユニット315に記憶された機械(例えば、計算機プロセッサ)実行可能コードによって実現される場合がある。機械実行可能コードまたは機械可読コードは、ソフトウェアの形態で提供される場合がある。使用中、コードは、プロセッサ305によって実行することができる。場合によっては、コードはストレージ・ユニット315から取り出されて、プロセッサ305がすぐにアクセスできるようにメモリ310に記憶される。場合によっては、電子ストレージ・ユニット315を使用しないこともでき、機械実行可能命令はメモリ310に記憶される。
【0139】
コードは、プリコンパイルして、コードを実行するように適合されたプロセッサを有する機械と共に使用するように構成することができるし、またはランタイム中にコンパイルすることもできる。コードは、プリコンパイルまたはアズコンパイルされるやり方でそのコードを実行できるように選択される可能性があるプログラミング言語において供給することができる。
【0140】
本明細書で提供されるシステムおよび方法の態様、例えば計算機システム301は、プログラミングにおいて具現化される場合がある。本技術の様々な態様は、典型的には、機械(またはプロセッサ)実行可能コードの形態、および/またはあるタイプの機械可読媒体で持ち運ばれるもしくはその中で具現化される関連データの形態をとる、「製造物」または「製品」と考えてもよい。機械実行可能コードは、電子ストレージ・ユニット、例えばメモリ(例えば、リードオンリー・メモリ、ランダムアクセス・メモリ、フラッシュ・メモリ)またはハード・ディスクに記憶することができる。「ストレージ」タイプの媒体は、計算機、プロセッサ、もしくは同類のもの、またはその関連モジュールの有形メモリ、例えば様々な半導体メモリ、テープ・ドライブ、ディスク・ドライブ、および同類のもののいずれかまたはすべてを含む場合があるものであって、ソフトウェアプログラミング用に何時でも非一過性のストレージを提供する場合がある。ソフトウェアのすべてまたは一部は、インターネットまたは他の様々な電気通信ネットワークを通じて通信される場合がある。このような通信によって、一つの計算機またはプロセッサから別の計算機またはプロセッサへの、例えば、管理サーバまたはホスト計算機から、アプリケーション・サーバーの計算機プラットフォームへの、ソフトウェアのロードが可能になる場合がある。このように、ソフトウェア構成要素を担持する場合のある別のタイプの媒体は、光波、電波、電磁波、例えばローカルな装置間の物理的インタフェースを横断し有線および光固定回線ネットワークを介してさまざまなエアリンク(air-link)上で使用されるものなどを含む。このような波を搬送する物理的構成要素、例えば有線または無線リンク、光リンク、または同類のものもまた、ソフトウェアを担持する媒体と見なしてもよい。本明細書で使用されるとおり、非一過性の有形の「ストレージ」媒体に制約されない限り、計算機または機械「可読媒体」などの用語は、実行のためにプロセッサに命令を提供することに関与するあらゆる媒体を指す。
【0141】
よって、機械可読媒体、例えば計算機実行可能コードは、有形ストレージ媒体、搬送波媒体、または物理的伝送媒体などが挙げられるがこれらには限定されない多くの形態をとる場合がある。不揮発性ストレージ媒体は、例えば、光ディスクまたは磁気ディスク、例えばいずれかの計算機または同類のものにおけるストレージ装置のいずれか、例えば図面に示されるものなどのデータベースを実現するのに使用される場合のあるものを含む。揮発性ストレージ媒体は、ダイナミック・メモリ、例えばそのような計算機プラットフォームのメイン・メモリを含む。有形の伝送媒体は、同軸ケーブル;計算機システム内のバスを含んでなる配線を含む、銅配線および光ファイバーを含む。搬送波伝送媒体は、電気信号もしくは電磁信号、または無線周波数(RF)データ通信および赤外線(IR)データ通信中に発生するものなどの音響波もしくは光波の形態をとる場合がある。したがって、計算機可読媒体の共通の形態には、例えば、フロッピーディスク、フレキシブル・ディスク、ハード・ディスク、磁気テープ、他のいずれかの磁気媒体、CD-ROM、DVDまたはDVD-ROM、ブルーレイ、他のいずれかの光学媒体、パンチカード紙テープ、穴のパターンを有する他のいずれかの物理的ストレージ媒体、RAM、ROM、PROM、およびEPROM、FLASH-EPROM、他のいずれかのメモリチップもしくはカートリッジ、データもしくは命令を伝送する搬送波、そのような搬送波を伝送するケーブルもしくはリンク、または計算機によるプログラミングコードおよび/またはデータの読み出しの元となり得る他のいずかの媒体などが挙げられる。これらの形態の計算機可読媒体の多くが、一つまたは複数の命令の一つまたは複数のシーケンスを、実行のためにプロセッサに搬送することに関与する場合がある。
【0142】
計算機システム301は、電子ディスプレイ335を含むか、またはこれと通信する場合があり、このディスプレイは、例えば、使用者からの発話を誘出する場合のある使用者への一つまたは複数のクエリを提供するユーザ・インタフェース(UI)340を含んでなるものである。UIの例には、限定されないが、グラフィカル・ユーザ・インタフェース(GUI)およびウェブベースのユーザ・インタフェースなどが挙げられる。
【0143】
本開示の方法およびシステムは、一つまたは複数のアルゴリズムによって実現される場合がある。アルゴリズムは、中央処理装置305による実行時にソフトウェアとして実現される場合がある。アルゴリズムは、例えば、本明細書に記載される音響モデル、機械学習モデル、または訓練過程のいずれかである場合がある。
【0144】
本発明の好ましい実施形態を本明細書に示し記載してきたが、そのような実施形態が例示としてのみ提供されることは当業者には自明であろう。本発明が、本明細書の範囲内で提供される特定の例によって限定されることは意図されない。本発明を前述の明細書を参照しつつ記載してきたが、本明細書における実施形態の記載および例示が、限定的な意味で解釈されることは企図されない。本発明から逸脱することなく、多数の変形、変更、および置き換えが、当業者によって行われることになろう。さらに、本発明の全ての態様は、様々な条件および変数に依存する、本明細書に記載の特定の描写、構成、または相対比率に限定されないことは理解されるものとする。本明細書に記載される本発明の実施形態に対する様々な代替形態を、本発明を実施する際に採用してもよいことを理解するのが望ましい。従って、本発明は、そのような代替形態、修正形態、変形形態、または等価物をも対象範囲とすることが企図される。添付の特許請求の範囲が本発明の範囲を定めることと、それによって、特許請求の範囲およびその均等物の範囲内での方法および構造が、対象範囲とされることとが意図される。
【実施例】
【0145】
発話ベースのうつ病予測実験
この節は、特定の実験を説明するものであり、本開示の他の節を限定するものとは解釈されないのが望ましい。
【0146】
発話ベースのうつ病予測は、将来の健康管理用途にとって重要であるが、大量のラベル付き訓練データが必要であるので、新しい言語への移植が困難である場合がある。この実験では、既存の言語コーパス(英語)からのラベル付き訓練データのみを使用して、新しい言語(スペイン語)でのうつ病予測のための二つの新規の代替NLP手法を探索している。どちらの方法も試験データのみに影響を与え、訓練データには影響を与えない。英語データ(65,000とおりの回答、訓練、および試験)とスペイン語データ(1,600とおりの回答、試験のみ)は、同様の行的動健康スクリーニングアプリケーションで自動的に複写された、発話された回答に由来するものである。機械翻訳の手法は、英語の「トランスフォーマによる軽量な双方向エンコーダ表現(A Lite Bidirectional Encoder Representations from Transformers)」(ALBERT)モデルを使用して、スペイン語の試験データの、スペイン語から英語への翻訳を実行する。多言語手法では、マルチリンガル・テキスト・ツー・テキスト・トランスファ・トランスフォーマ(multilingual text-to-text transfer transformer(mT5))モデルを使用しており、この場合にはモデルは、直接で明示的な翻訳を伴わずに100とおり以上の言語の並列テキストから構築される。結果は、両手法とも、英語の訓練/試験のみの結果と比較して強力な分類結果を実現しており、結果は、多言語の方法よりも機械翻訳の場合に若干良好である。
【0147】
緒言および背景
うつ病の発生率は世界中に広く広がっており、過去10年間で常に増加してきた。精神的健康状態に関連する特性の診断が不充分であることが理由で、特にスクリーニングのためにこの分野における技術を利用しようする大きな圧力がある。うつ病のスクリーニングに広く使用されている患者健康問診票(Patient Health Questionnaire(PHQ-9))は、拡張性に欠けており、これを独立して行うには、患者の認知能力が充分でない場合に、患者を支援するために使用するのは困難である。精神的健康領域における会話分析は、うつ病状態を測定またはスクリーニングするもう一つの例である。そのような手法が効果的である場合があることは、様々な公開文献に示されている。
【0148】
デジタル技術を利用して、PHQ-9に代わるものを生成してもよく、これは、患者の発話(音声として記録されたもの、またはテキストとして複写されたもののいずれか、またはその両方)を分析できるようにすることによって行う。
【0149】
本開示では、自然言語分析に焦点を当てている。統計的な単語出現率から、n-グラムの手法、単語埋め込み、言語モデル、転移学習を通じて、NLPは進歩し、先行する最先端のNLPベンチマークを大幅に上回る性能を可能にしてきた。
【0150】
NLPの分野では、いくつかの趨勢が現れつつある。そのうちの一つが転移学習であり、これは、ほとんどの場合に学習される汎用的な深層学習ネットワークを構築し、所与のテキストのパッセージにおけるいくつかの単語の出現(例えば、後に続く単語、単語のマスキング、またはその他)を予測することによって、様々な下流のNLPタスク上で、はるかに良好なモデル性能の結果を実現することを可能にする。もう一つは、深層学習アーキテクチャの発展であり、トランスフォーマの部類の言語モデルが最近成功を収めている。NLP分野における最新のブレークスルーに貢献している第三の要因は、データの可用性である。大規模なコーパスが、モデルをロバストにするのに役立つ場合がある。残念ながら、あらゆる言語についてのデータを広く利用できるわけではない。英語は機械学習分野で最も支配的な言語であり、汎用的な、対象を特定しないデータが、広く利用できる。しかし、他のいくつかの言語およびNLPの下流タスクについては、データ取得が依然として難題である。過去には、言語ごとに個別の言語モデルを訓練しようとする試みがあった。最新の進歩により、下流のラベル付きデータの不足を補えるはずである下流のタスクに使用できる、多言語の事前訓練済みモデルが可能である。
【0151】
精神的健康スクリーニングの領域も、データが広く利用できないという問題の例外ではない。大規模な言語コーパスを入手することは困難である場合があり、例えば人間によるうつ病検出から機械によるものの技術採用へ進行を遅らせる。
【0152】
本開示は、英語でラベル付けされたうつ病データ上で分類言語モデルを訓練しスペイン語データ上でうつ病の状態を評価することが可能か否かに関係する。この実験では、スペイン語の言語試験セット上でうつ病状態を予測するための訓練セットとして使用されることになる英語コーパスの能力を分析する。よって、以下のラベル付けされたデータ・リソース、つまり英語テキストの訓練および試験セットのみならず、スペイン語の試験セットが使用されることになる。方法論に関しては、本開示は二つの最も直感的なシナリオの比較を提案する。第1のシナリオは、スペイン語データを(自動的に)英語に翻訳し、英語の言語モデル上で評価することである。第2のシナリオは、多言語モデルを訓練し、これを英語コーパス用に最適化し、英語とスペイン語の両方の評価セット上で評価することである。
【0153】
方法
データ
本開示は、アメリカ英語コーパスとスペイン語コーパスを発話セットとして使用している。どちらの発話セットも同一のやり方で収集された。そうでなければ、言語が異なるデータは、発話を誘出する方法論と混同される可能性がある。どちらのコーパスでも、被験者は金銭的なインセンティブを与えられた。使用者は、「心配事」や「家庭生活」など、さまざまなトピックに関する質問を投げかけるアプリと対話した。使用者は自由に発話して回答した。コーパス統計を表1に示す。大規模な英語母集団(English Population(GP))コーパスは、15,000セッション以上(65,000とおりの回答)の発話を含む。訓練区分および試験区分は、重複する話者を含まない場合がある。使用者の年齢は18歳から65歳の範囲であり、平均年齢は30歳である。発話された回答は平均約160語である。使用者は、1セッションあたり4~6問(平均4.5問)の質問に回答した。
【0154】
スペイン語コーパスは、300セッション以上(1,600とおりの回答)を含む。質問の構成と技術的な環境は英語コーパスと同じであり、1セッションあたりに計上された~5分の時間割り当ての範囲内で、計算機を使用して発話記録を行った。単語数で測定した平均回答長さは、英語の対応物に比べてわずかに短い表1。
【0155】
各セッション中に、使用者はPHQ-8(自殺傾向の質問を削除した後はPHQ-9)を記入した。セッションは数分の長さしかないので、使用者はセッションの範囲内で状態を変化させないと仮定した。次いで、PHQ-8のスコアを、二値分類のためにマッピングした。10以上のスコアを状態の存在に、10未満のスコアを状態の非存在にマッピングした。
【表1】
【0156】
前記のとおり、データラベルはPHQ-8の問診結果を表す。
図11は、英語とスペイン語の試験セットについてのラベル分布を図示する。データ収集方法のみならず人口統計が類似しているので、ラベルも類似していることが予想される可能性がある。ほとんどのPHQスコアについては、これは正しく、二つのデータセットの間で整合性がある。しかし、これらのセットの有病率には違いがある。評価セットが英語およびスペイン語であるのは、それぞれ21%および18%である。最大のはずれ値は、28%の有病率がある訓練セットである。
モデル訓練
【0157】
データの節において述べたとおり、患者との各面接は、複数の回答から組み合わされる。ほとんどのNLPモデル(トランスフォーマ)は、最初に512個の入力トークンのシーケンスに対して構築される。限られた時間とリソースという理由から、長いシーケンスのモデルは訓練しなかった(例えば、セッションレベルでのロングフォーマ)。その結果として、セッションが五つの回答を含むならば、各回答を独立した記録として扱う。五つの回答はすべて、同一のPHQセッションラベルを添付した。
【0158】
この研究では、二つの異なる手法を比較している。一つは、翻訳サービス(例えばクラウドベースの翻訳サービス)を使用してスペイン語の試験データを英語に翻訳することに基づく。この目的のために、我々は、ALBERTトランスフォーマ言語モデルの英語版を使用している。その主な利点は、たいていの他のトランスフォーマ(例えば、ロバストに最適化された双方向エンコーダ表現(robustly optimized bidirectional encoder representations)(RoBERTa))よりも大幅に少ないパラメータの数であり、性能の面では対応物であるトランスフォーマよりも効果的である。この手法は、二つの言語間の翻訳モデルが利用可能であれば、元のモデルをさらに訓練またはチューニングすることなく使用してもよい。分類の訓練は英語データ上でのみ行った一方、評価は、英語セットのみならず、スペイン語を英語に翻訳したセット上で実行した。訓練段階を小規模GPU、3×12GBで行ったが、この理由から、バッチサイズは9、学習レートは1e-6であり、学習には5エポックを要した。
【0159】
もう一つの手法は、事前訓練された多言語モデルに基づいている。この実験では、とりわけ英語およびスペイン語を含む約100とおりの異なる言語セット上で訓練された、事前訓練されたエンコーダ/デコーダMT5モデルを使用している。NLP言語モデルは、パラメータのサイズという点で、かなりの容量にまで増大しているので、ハードウェアのリソースが限られていることに起因して、開示される手法は、パラメータ数に関して同種のモデル(英語対多言語)を比較せず、これは、NLP分野で共通の慣例である。この実験では、mT5の30億パラメータモデルを使用しており、これは、そのT5対応物であるGLUEベンチマークがALBERTベンチマークに非常に類似しているからである。これにより、英語での言語タスク上で同様の性能を発揮するモデルを使用しようと試みることによって、最終的な性能結果の解釈の誤りを最小限にすることが可能になる。mT5訓練は、分類器の前で特徴量抽出器として使用される、事前に事前訓練されたエンコーダのみを利用して行った。この手法は、エンコーダの出力が言語に依存せず多言語分類の目的にうまく利用できるということを仮定している。いかなる言語モデルの微調整をも伴わない単一の教師あり訓練手法をここでも適用した。mT5は、65,000とおりの英語回答上で訓練し、評価は、英語の開発セットと試験セットのみならず、スペイン語の試験データ上で行った。mT5モデルについては、主な訓練特性は、以下の通り:1エポック、1e-5、バッチサイズ25であった。
【0160】
結果
精神的健康データセットは通常、非常に不均衡であり、開示された実験は、分類タスクのモデル性能を測定するために、受信者動作特性曲線下面積(ROC AUC)尺度を使用している。加えて、開示された実験は、特異度と感度の等しい誤り率値を用いて結果を補足している。本開示は、英語コーパス上で訓練された異なる言語のうつ病スクリーニングモデルを構築することが可能であることを証明している。ALBERTとmT5モデルは、英語試験の対応物と同等の結果を提供している。開発セットと試験英語セットの両方が、非常によく似た結果~0.73のROC AUCを返している。このような結果は、BLEUベンチマークも同等であるという仮定に基づいて予想されることに留意することが重要である。スペイン語の試験セットについては、ALBERTアーキテクチャは、回答レベルではMT5よりもわずかに効果的であったが、データを集計した後では、mT5が英語のものを大幅に上回っている。セッションレベルへの集計は、回答レベルの予測値の平均である。加えて、セッションレベルでの予測値の相関係数は0.91である。
【表2】
【0161】
両モデルの二値予測を真のラベルと比較すると、類似度の重複は-92%(233+14+27+24)である。最大の差は、mT5による4セッションと比較して、より多くの偽陽性予測(14セッション)をALBERTが生成する場合である。mT5が0を予測し、ALBERTが1を予測する場合に、MT5の予測を人為的にALBERTの予測に置き換えると、三つの試験サブセットと開発サブセットすべてにわたりROC AUCが0.005向上することがわかる。これは、より洗練された融合方法を通じて、評価セット上での性能をさらに向上させることが可能になることを示している。なお、我々の英語の試験セット上での内部の最高性能は、0.84以上のROC AUCである。
【表3】
【0162】
考察と結論
英語データのコーパスを使用してNLPモデルを訓練する場合には、少なくとも二つの方法で、異なる言語(スペイン語)においてうつ病を予測することが可能である。モデル性能はどちらの方法でも有効である。本開示で提案された二つの手法の間には0.92の相関があり、回答レベルではどちらのモデルも等しく同一性能(-0.74のROC AUC)を示すが、セッションレベルでは多言語のものが際立っている。
【国際調査報告】