IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ワンダー テクノロジー プライベート リミテッドの特許一覧

特表2025-506076感情刺激を伴う音声ベースによる精神衛生評価のためのマルチモーダルシステムおよびその使用法
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2025-03-06
(54)【発明の名称】感情刺激を伴う音声ベースによる精神衛生評価のためのマルチモーダルシステムおよびその使用法
(51)【国際特許分類】
   A61B 10/00 20060101AFI20250227BHJP
   G10L 25/63 20130101ALI20250227BHJP
   G10L 25/30 20130101ALI20250227BHJP
   G10L 25/66 20130101ALI20250227BHJP
   A61B 5/16 20060101ALI20250227BHJP
   G16H 50/00 20180101ALI20250227BHJP
【FI】
A61B10/00 H
G10L25/63
G10L25/30
G10L25/66
A61B5/16 120
G16H50/00
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024565253
(86)(22)【出願日】2023-01-24
(85)【翻訳文提出日】2024-08-21
(86)【国際出願番号】 IB2023050566
(87)【国際公開番号】W WO2023139559
(87)【国際公開日】2023-07-27
(31)【優先権主張番号】10202200711S
(32)【優先日】2022-01-24
(33)【優先権主張国・地域又は機関】SG
(81)【指定国・地域】
(71)【出願人】
【識別番号】524278194
【氏名又は名称】ワンダー テクノロジー プライベート リミテッド
【氏名又は名称原語表記】WONDER TECHNOLOGIES PTE. LTD.
【住所又は居所原語表記】71 AYER RAJAH CRESCENT, #03-04/05 SINGAPORE (139951) SG
(74)【代理人】
【識別番号】100135194
【弁理士】
【氏名又は名称】田中 智雄
(72)【発明者】
【氏名】リヤナゲ ビマン ナジカ
(72)【発明者】
【氏名】シュウ ゼンウェン
(72)【発明者】
【氏名】ウー タイ二
【テーマコード(参考)】
4C038
5L099
【Fターム(参考)】
4C038PP03
4C038PR01
4C038PR04
4C038PS05
5L099AA04
(57)【要約】
感情刺激を伴う音声ベースによる精神衛生評価のためのマルチモーダルシステムであって、ユーザの音声の音響的、言語学的、および感情的特性を捉えるためのタスクを構築するタスク構築モジュール、1つ以上のタイプのユーザ動作に関するトリガーを引き出すためにユーザに提示される、前述の構築されたタスクに基づく刺激を含む刺激出力モジュール (本トリガーは入力回答の形式で実行されます)、ユーザに刺激を提示し、それに応じて、1つ以上の形式で対応する回答を受信する回答受信モジュールに加え、前述の融合された特徴を使用して、 抽出された高水準のテキスト特徴を出力する音声モダリティおよび抽出された高水準の音声特徴を出力するテキストモダリティとの間の関係を定義するオートエンコーダを含み、本オートエンコーダは、抽出された高水準のテキスト特徴と音声特徴を並行して受信し、前述の精神衛生評価と相関する感情分類のための共有表現特徴データセットを出力します。
【特許請求の範囲】
【請求項1】
感情刺激を伴う音声ベースによる精神衛生評価のためのマルチモーダルシステムであり、前述のシステムは、以下のものを含みます。
- タスク構築モジュール (ユーザーの音声に関する音響的、言語的、および感情的特徴を捉えるためのタスクを構築するように構成されています。)、
- 刺激出力モジュール (202) (前述のタスク構築モジュールからデータを受信するように構成されており、本刺激出力モジュール (202) は、構築されたタスクに基づいてユーザーに提示される1つ以上の刺激を含み、ユーザーの動作に関する1つ以上のタイプのトリガーを誘発するためのものであり、本トリガーは入力回答の形式のものとなります。)、
- 回答受信モジュール (204) (前述の刺激出力モジュール (202) から構築されたタスクに基づき、1つ以上の刺激をユーザーに提示し、それに対して1つ以上の形式に対応している回答を受信するように構成されています。)、
- 機能モジュールは、以下を含んでいます。
o 特徴構築モジュール (前述の構築された各タスクに対して、学習可能なヒューリスティック型評価タスクの観点から定義された特徴を定義するように構成されています。)、
o 特徴抽出モジュール (前述の受信した対応する回答から、前述の構築されたタスクに関連する1つ以上の定義された特徴を抽出するように構成されており、ランク付けされた構築タスクから選択された少なくとも1つを考慮する、学習可能なヒューリスティック型評価モデルを使用しています。)、
o 特徴融合モジュール (2つ以上の定義された特徴を融合し、融合された特徴を取得するように構成されています。)、
- オートエンコーダは、前述の融合された特徴を活用し、以下の間における関係を定義します。
o 前述の特徴融合モジュールに関する音声モダリティは、前述の回答受信モジュール (204) と連携して動作し、前述の回答で得られた高水準の特徴を抽出するとともに、抽出された高水準のテキスト特徴を出力します。
o 前述の特徴融合モジュールに関するテキストモダリティは、前述の回答受信モジュール (204) と連携して動作し、前述の回答で得られた高水準の特徴を抽出するとともに、抽出された高水準の音声特徴を出力します。
前述のオートエンコーダは、前述の音声モダリティおよび前述のテキストモダリティから、抽出された高水準のテキスト特徴および抽出された高水準の音声特徴を並行して受信するとともに、前述の精神衛生評価と相関する感情分類のための共有表現特徴データセットを出力するように構成されます。
【請求項2】
請求項1に記載されているシステムであり、前述の構築されたタスクは、発音タスクや筆記タスクとなります。
【請求項3】
請求項1に記載されているシステムであり、前述のタスク構築モジュールは、前述の構築されたタスクを難易度順にランク付けするための第1ランク付けモジュールを含み、これにより、各構築されたタスクに対して第1の価値 (程度) を割り当てます。
【請求項4】
請求項1に記載されているシステムであり、前述のタスク構築モジュールは、前述の構築されたタスクを難易度順にランク付けするために構成された第1ランク付けモジュールを含み、これにより、各構築されたタスクに対して第1の価値を割り当てますが、その際に、前述の構築されたタスクは、分析された回答に対応する刺激であり、評価された感情価の水準(正の感情価、負の感情価、中立の感情価)のいずれかに分類されます。
【請求項5】
請求項1に記載されているシステムであり、前述のタスク構築モジュールは、前述の構築されたタスクの複雑さを複雑な順にランク付けするために構成された第2ランク付けモジュールを含み、これにより、各構築されたタスクに第2の価値を割り当てます。
【請求項6】
請求項1に記載されているシステムであり、前述のタスク構築モジュールは、第2ランク付けモジュールを含み、本モジュールは、構築されたタスクの複雑さおよび回答ベクトルの観点から感情的期待をランク付けすることで、そのランク付けされた構築タスクに基づいてデータ収集プールを作成するように構成されています。
【請求項7】
請求項1に記載されているシステムであり、前述の構築されたタスクは、いくつかのタスク群 (事前に決定された時間内に数字を数える認知タスク、事前に決定された時間内に母音を発音するタスク、事前に決定された時間内に有声音と無声音を含む単語を発声するタスク、事前に決定された時間内に単語を読むタスク、事前に決定された時間内に段落を読むタスク、音素および感情的複雑さを持つ段落を読むタスク、感情的な変化を伴う自由度の高い質問に関連するタスク、事前に決定された時間内に実施するオープンタスクに関連するタスク)から選ばれます。
【請求項8】
請求項1に記載されているシステムであり、前述の構築されたタスクには1つ以上の質問が刺激として含まれ、各質問には0からNのベクトルで表される質問埋め込みが割り当てられます。これらの質問埋め込みに基づき、質問に特化した特徴抽出機能がトレーニングされることで、質問から単語埋め込み、音素埋め込み、音節水準の埋め込みが抽出されます。また、これらの抽出された埋め込みは強制的に整列されるとともに、中間水準における特徴融合が実行されます。
【請求項9】
請求項1に記載されているシステムであり、前述の1つ以上の刺激が選ばれ、本刺激は音声刺激、ビデオ刺激、音声とビデオの組み合わせによる刺激、テキスト刺激、マルチメディア刺激、生理的刺激、およびそれらの組み合わせから構成される刺激群から選ばれます。
【請求項10】
請求項1に記載されているシステムであり、1つ以上の刺激が、刺激ベクトルに回答する、テキスト回答ベクトル、音声回答ベクトル、ビデオ回答ベクトル、マルチメディア回答ベクトル、生理的回答ベクトルのいずれかを、またはそれらの組み合わせを誘発するように調整された刺激ベクトルを含みます。
【請求項11】
請求項1に記載されているシステムであり、前述の1つ以上の刺激が、第1のベクターエンジン (232) を通じて解析することにより、構成ベクトルを特定し、本刺激ベクトルと相関する格付けされた基本状態を決定するように構成されています。
【請求項12】
請求項1に記載されているシステムであり、前述の1つ以上の回答、音声回答、ビデオ回答、音声とビデオの組み合わせによる回答、テキスト回答、マルチメディア回答、生理的回答、およびそれらの組み合わせから構成される回答群から選ばれます。
【請求項13】
請求項1に記載されているシステムであり、前述の1つ以上の刺激は、前述の刺激出力モジュール (202) の刺激ベクトルに対する回答として誘発された音声回答ベクトルやビデオ回答ベクトルに相関する回答ベクトルを含みます。
【請求項14】
請求項1に記載されているシステムであり、前述の1つ以上の刺激が、第1のベクターエンジン (232) を通じて解析することにより、構成ベクトルを特定し、本刺激ベクトルと相関する格付けされた基本状態を決定するように構成されています。
【請求項15】
請求項1に記載されているシステムであり、前述の回答受信モジュール (204) は、ユーザーによって事前に構成された時間内に文章を読むタスクを実行できるように設定された文章読み上げモジュールを含みます。
【請求項16】
請求項1に記載されているシステムであり、前述の特徴構築モジュールは、音声回答の分析のための Geneva 最小音響パラメータセット (GeMAPS) ベースによる特徴構築モジュールです。
【請求項17】
請求項1に記載されているシステムであり、前述の特徴構築機能は、Geneva 最小音響パラメータセット (GeMAPS) ベースによる特徴構築機能であり、本特徴構築機能は、
- 62個 のパラメータのセットを活用して音声を分析します。
- 3フレームの長さの対称移動平均フィルタを提供し、時間の経過に伴って平滑化します。 (本平滑化は、ピッチ、ジッター、およびシマーについて、前述の回答における有声領域内にて実行されます。)
- 算術平均と変動係数を関数として18個の低水準記述子(LLD)に適用し、36個のパラメータを生成します。
- 音量に8個の機能を適用します。
- ピッチに8個の機能を適用します。
- ピッチに8個の関数を適用します。
- ハマーバーグ指数を決定します。
- スペクトル特徴を決定します。(すべての無声音セグメントにおいて、0~500Hzおよび500~1500Hzのスペクトル傾斜を参照して実行します。)
- 前述の回答から、連続的な有声音領域および無声音領域における時間的特徴を決定します。
- F0輪郭のビタビベースによる平滑化を決定します。(エラーによって単一の有声音フレームが欠落することを防止します。)
【請求項18】
請求項1に記載されているシステムであり、前述の特徴構築機能は、Geneva 最小音響パラメータセット (GeMAPS) ベースによる特徴構築機能であり、前述の音声回答におけるスペクトル、ピッチ、および時間的特徴を分析するための低水準記述子 (LLD) のセットから構成されており、前述の特徴は、以下からなる特徴群から選択されます。
・ メル周波数ケプストラル係数(MFCC)とその1次および2次導関数。
・ ピッチおよびピッチ変動性。
・ エネルギーおよびエネルギーエントロピー。
・ スペクトルの重心、広がり、および平坦性。
・ スペクトル傾斜。
・ スペクトルロールオフ。
・ スペクトル変動性。
・ ゼロ交差率。
・ シマー、ジッター、ハーモニック・トゥ・ノイズ (高調波対雑音)比。
・ (ピッチに基づく) 発声確率
・ 音量ピーク率、連続的な有声音領域および無声音領域における平均長さと標準偏差などに関する時間的特徴
【請求項19】
請求項1に記載されているシステムであり、前述の特徴構築機能は、Geneva 最小音響パラメータセット(GeMAPS)ベースによる特徴構築機能であり、本特徴構築機能は、以下の群から選択された一連の周波数関連パラメータにて構成されています。
・ ピッチ (27.5 Hz (半音0) から開始し、対数的な基本周波 (F0) を半音階の周波数スケールにて測定します。)
・ ジッター (個々の連続する F0 期間の長さに関する偏差。)
・ フォルマント1、2、3の周波数 (第1、第2、第3のフォルマントに関する中心周波数。)
・ フォルマント1 (第1フォルマントに関する帯域幅。)
・ エネルギー関連のパラメータ。
・ 振幅関連のパラメータ。
・ シマー (連続するF0期間におけるピーク振幅の差。)
・ 音量 (聴覚スペクトルから知覚される信号強度に関する推定値。)
・ ハーモニック・トゥ・ノイズ (高調波対雑音)比 (高調波成分を含むエネルギーとノイズのような成分を含むエネルギーとの関係比率)
・ スペクトル (バランス) パラメータ
・ アルファ比 (50~1000 Hz および 1~5 kHzの合計エネルギーに関する比率。)
・ ハマーバーグ指数 (0~2 kHz領域における最も強いエネルギーピークと2~5 kHz領域における最も強いピークに関する比率)
・ スペクトル傾斜 (0~500 Hz および 500~1500 Hz という指定された 2 つの帯域内における対数パワースペクトルに関する線形回帰の傾き)
・ フォルマント1、2、3の相対エネルギー (第1、第2、第3フォルマントの中心周波数におけるスペクトル高調波ピークに関するエネルギーと、基本周波数(F0)におけるスペクトルピークに関するエネルギーとの比率)
・ 高調波差 H1‐H2 (基本周波数(F0)の第1高調波(H1)に関するエネルギーと、第2高調波(H2)に関するエネルギーとの比率)
・ 高調波差 H1‐A3 (基本周波数(F0)の第1高調波(H1)に関するエネルギーと、第3フォルマントの範囲内における最も高い高調波(A3)に関するエネルギーとの比率)
【請求項20】
請求項1に記載されているシステムであり、前述の特徴構築機能は、Geneva 最小音響パラメータセット (GeMAPS) ベースによる特徴構築機能であり、本特徴構築機能は、高次スペクトル解析 (HOSA) 関数を活用しており、これらの関数は、2つ以上の成分周波数を活用してバイスペクトラム周波数を実現します。
【請求項21】
請求項1に記載されているシステムであり、前述の特徴構築機能は、Geneva 最小音響パラメータセット (GeMAPS) ベースによる特徴構築機能であり、本特徴構築機能は、高次スペクトル解析 (HOSA) 関数を活用しており、これらの関数は、2つ以上の成分周波数を活用してバイスペクトラム周波数を実現するものであり、バイスペクトラムは、第3累積量を活用して信号内の周波数成分間の関係を分析し、回答に関連する非線形信号を検査します。
【請求項22】
請求項1に記載されているシステムであり、前述の特徴抽出機能は、中間水準での融合を活用することで高水準の特徴埋め込みを融合します。
【請求項23】
請求項1に記載されているシステムであり、前述の特徴抽出機能は、専用の言語的特徴を抽出できる機能を含み、それぞれの刺激に対する程度も学習可能であることから、さまざまな言語的タスクに非常に適しています。
【請求項24】
請求項1に記載されているシステムであり、前述の特徴抽出機能は、専用の感情的特徴を抽出できる機能を含み、それぞれの刺激に対する程度も学習可能であることから、さまざまな感情的タスクに非常に適しています。
【請求項25】
請求項1に記載されているシステムであり、前述の特徴融合モジュールは、高水準の特徴融合機能を備え、少なくともオートエンコーダベースによる特徴融合を活用することで、1つ以上の回答から感情を分類できるように構成された音声モジュールを含んでいます。
【請求項26】
請求項1に記載されているシステムであり、前述の特徴融合モジュールは、高水準の特徴融合機能を備え、少なくともオートエンコーダベースによる特徴融合を活用し、1つ以上の回答から感情を分類できるように構成された音声モジュールを含んでおり、本音声モダリティは、特定の質問による特徴抽出機能を活用することで、前述の回答における時間周波数領域関係から高水準の特徴を抽出し、抽出された高水準の音声特徴を出力します。
【請求項27】
請求項1に記載されているシステムであり、前述の特徴融合モジュールは、高水準の特徴融合機能を備え、少なくともオートエンコーダベースによる特徴融合を活用し、1つ以上の回答から感情を分類できるように構成されたテキストモジュールを含んでいます。
【請求項28】
請求項1に記載されているシステムであり、前述の特徴融合モジュールは、高水準の特徴抽出機能を備え、少なくともオートエンコーダベースによる特徴融合を活用し、1つ以上の回答から感情を分類できるように構成されたテキストモジュールを含んでおり、本テキストモダリティは、双方向長短期記憶ネットワークと注意メカニズムを活用することで、モダリティ内ダイナミクスをシミュレートし、抽出された高水準のテキスト特徴を出力します。
【請求項29】
請求項1に記載されているシステムであり、前述の特徴融合モジュールには、音声モジュールが含まれています。
- 事前トレーニングされたモデルからの音響特徴埋め込みにおいて抽出された特徴を使用するモジュール。
- 前述の抽出された特徴をスペクトル領域上で比較するモジュール。
- 声道協調における特徴を決定するモジュール。
- 反復定量化分析における特徴を決定するモジュール。
- 発声ランドマークに対応関係にあるバイグラム数とバイグラム持続時間に関する特徴を決定するモジュール。
- オートエンコーダで前述の特徴を融合するモジュール。
【請求項30】
請求項1に記載されているシステムであり、前述の特徴抽出機能は、回答に関連付けられたイベントマーカーを決定するために構成された発声ランドマーク抽出機能を含みます。本イベントマーカーの決定は、前述の回答からの音響イベントに関するタイムライン上の位置と相関しており、本決定には音響回答における急激な変化を示すタイムスタンプ境界の決定が含まれているものの、フレームに依存することなく実行されます。
【請求項31】
請求項1に記載されているシステムであり、前述の特徴抽出機能には、発声ランドマーク抽出機能が含まれ、本抽出機能は応答に関連付けられたイベントマーカーを特定するよう構成されています。各イベントマーカーには開始値と終了値があり、本イベントマーカーは声門ベースによるランドマーク (g)、周期性ベースによるランドマーク (p)、ソノラントベースのランドマーク (s)、摩擦音ベースによるランドマーク (f)、有声摩擦音ベースによるランドマーク (v)、およびバーストベースによるランドマーク (v) から構成されるランドマーク群から選ばれます。前述の各ランドマークは、異なる急激な調音イベントが発生する時間点を特定するために使用され、これは複数の周波数範囲および複数の時間スケールにおける電力の急激な変化と相関しています。
【請求項32】
請求項1に記載されているシステムであり、前述のオートエンコーダは、以下のものを含む複数モード(マルチモーダル)と複数質問(マルチクエスチョン)による入力融合アーキテクチャから構成されています。
- 前述の1つ以上の特定の特徴をタスクタイプと組み合わせて、低次元表現にマッピングする1つ以上のエンコーダ (各タスクはタスクタイプに基づき、学習可能な程度エンコード行列によって本特徴に乗算され、これらの程度は精神衛生評価と相関しています。)
- 前述の1つ以上の特定の特徴を、前述の低次元表現にマッピングする1つ以上のデコーダ (精神衛生評価を出力するために設定されます。)
- 前述のオートエンコーダは、損失関数を活用することで、入力タスクとデコーダの出力との間の再構築誤差を最小限に抑えるようにトレーニングされています。
【請求項33】
感情刺激を伴う音声ベースによる精神衛生評価のためのマルチモーダル使用法が提供され、前述の使用法は、以下のものを含みます。
- ユーザーの音声に関する音響的、言語的、および感情的特徴を捉えるためのタスクを構築すること。
- 前述の構築されたタスクに基づき、1つ以上の刺激を含むデータを受信し、本タスクをユーザーに提示することで、1つ以上のタイプのユーザー動作を誘発するトリガーを生成すること。(本トリガーは入力回答の形式のものとなります)
- 前述の構築されたタスクに基づき、1つ以上の刺激をユーザーに提示し、それに対して1つ以上の形式に対応している回答を受信すること。
- 前述の構築された各タスクに対して、学習可能なヒューリスティック型評価タスクの観点から定義された特徴を定義すること。
- ランク付けされた構築タスクから選択された少なくとも1つを考慮する、学習可能なヒューリスティック型評価モデルを活用することで、前述の受信した対応する回答から、前述の構築されたタスクに関連する1つ以上の定義された特徴を抽出すること。
- 2つ以上の定義された特徴を融合し、融合された特徴を取得すること。
- 前述の融合された特徴を活用し、以下の間における関係を定義すること。
o 前述の特徴融合モジュールに関する音声モダリティは、前述の回答受信モジュールと連携して動作し、前述の回答で得られた高水準の特徴を抽出するとともに、抽出された高水準のテキスト特徴を出力します。
o 前述の特徴融合モジュールに関するテキストモダリティは、前述の回答受信モジュールと連携して動作し、前述の回答で得られた高水準の特徴を抽出するとともに、抽出された高水準の音声特徴を出力します。
前述の関係を定義するステップにより、前述の音声モダリティおよび前述のテキストモダリティから、抽出された高水準のテキスト特徴および抽出された高水準の音声特徴を並行して受信するとともに、前述の精神衛生評価と相関する感情分類のための共有表現特徴データセットを出力するように構成されます。

【請求項34】
請求項33に記載の方法であり、前述の構築されたタスクには1つ以上の質問が刺激として含まれ、各質問には0からNのベクトルで表される質問埋め込みが割り当てられます。これらの質問埋め込みに基づき、質問に特化した特徴抽出機能がトレーニングされることで、質問から単語埋め込み、音素埋め込み、音節水準の埋め込みが抽出されます。また、これらの抽出された埋め込みは強制的に整列されるとともに、中間水準における特徴融合が実行されます。
【請求項35】
請求項33に記載の方法であり、前述の関係を定義するステップにより、以下のものを含む複数モード(マルチモーダル)と複数質問(マルチクエスチョン)による入力融合アーキテクチャから構成されています。
- エンコーダを通じて、前述の1つ以上の特定の特徴をタスクタイプと組み合わせて、前述の低次元表現にマッピングします。 (各タスクはタスクタイプに基づき、学習可能な程度エンコード行列によって本特徴に乗算され、これらの程度は精神衛生評価と相関しています。)
- デコーダを通じて、前述の1つ以上の特定の特徴を、前述の低次元表現にマッピングし、精神衛生評価を出力します。
- 損失関数を活用することで、入力タスクとデコーダの出力との間の再構築誤差を最小限に抑えるようにトレーニングします。
【請求項36】
請求項33に記載の方法であり、前述の高水準の音声特徴を抽出するステップでは、回答における時間周波数領域の関係から高水準特徴を抽出するステップが含まれ、これにより抽出された高水準の音声特徴を出力します。
【請求項37】
請求項33に記載の方法であり、前述の高水準のテキスト特徴を抽出するステップでは、双方向長短期記憶ネットワークと注意メカニズムを使用することで、モーダル内ダイナミクスをシミュレートし、抽出された高水準のテキスト特徴を出力するステップを含みます。

【発明の詳細な説明】
【本発明の分野】
【0001】
本発明は、人工知能、機械学習、計算ネットワーク、およびコンピュータエンジニアリングの分野に関連しています。
特に、本発明は、誘導された感情および感情認識技術を活用した音声ベースの精神衛生評価のためのマルチモーダルシステムおよびその使用法に関連するものです。
【本発明の背景】
【0002】
COVID-19(新型コロナウィルス)の世界的な感染状況の影響により、精神疾患への罹患が加速度的に増加しており、実に世界人口の10~15%に影響を与えていると報告されています。現在の増加率からすれば、がん、心血管疾患、糖尿病、呼吸器疾患と比較しても、大きな経済的悪影響をおよぼしていることがわかります。精神衛生に関する問題に起因する自殺は、現在、15歳から29歳における死因の第2位であり、その結果、甚大な社会的混乱や生産性の損失をもたらしているのです。こうした憂慮すべき状況を受け、世界保健機関(WHO)は2016年に、うつ病が世界中における精神疾患の主な原因であると宣言しました。

しかし、従来の医療制度では、精神疾患に苦しむ患者が大幅に増加を続ける状況において、重症患者が多くなればなるほど、適切な治療を進めることが難しくなるのです。それでも、精神疾患は、その早期発見や早期介入技術により、治癒率を劇的に向上させることができ、これにより、患者の経済的負担を軽減することにも繋がり、患者の日常における生産性や生活の質さえも向上させます。そこで、自動スクリーニングや継続的なモニタリングは、スクリーニングをスムーズに実現できる、効果的な代替手段であることが証明されているのです。

音声ベースにょる人工知能(AI)ベースのスクリーニング技術は、うつ病や不安神経症など、多くのユーザーからさまざまな精神疾患を検出した実績があり、現在人気が高まっています。この技術は、携帯電話などのデジタルデバイスを介して簡単にアクセスできることから、安価で拡張性の高いソリューションである認識されているのです。これらの技術は、発声内容を「バイオマーカー」として活用することで、PHQ-9(患者健康状況質問票9)やGAD-7(全般性不安障害7)などの従来の外来スクリーニングメカニズムよりも、評価またはモニタリングセッション中における不適切行為や不正行為に対してより強固に対処することができます。

音声ベースによる人工知能(AI)スクリーニングシステムおよびその使用法は、通常、スクリプト化されたダイアログに依存するとともに、音声ベースによる回答を収集します(他の信号も同時に収集される場合があります)。また、収集された回答に基づき、音響的特徴に基づいて構築されたモデル、または音響およびNLPの特徴に基づいて構築されたモデルを活用して、最終的な分類を生成する場合があり、このことは先行技術において、文書にて十分に立証されています。有用でない回答を入力結果として採用しないようにするため、次のステップに進む前に、特定の統計ベースによる手法を活用して各回答の内容を検証する場合があります。シンプルなソリューションであれば、録音された回答に関する合計時間を測定することができますし、より複雑なソリューションを採用して進めるのであれば、音声起動やASR(自動音声認識)を活用して十分な単語数を含む文章が存在しているかどうかを確認する方法などもあります。事前構成されたしきい値が満たされない場合、ユーザーは同じ質問 (または別の質問) 内容が再度表示され、再度回答する必要があります。

従来の技術による、このタイプのアプローチには思わぬ弊害があります。
まず、長い回答内容には、自ずと偏りが生じてしまい、必ずしも適切な内容であるとは限らないのです。比較的短い回答内容が、ユーザーの精神衛生状態を率直に反映しやすい一方で、より長めの回答内容には、単語数が多くなる場合もあることから、万が一ユーザーが不誠実な状況である場合には、誤った評価に繋がってしまう可能性もあります。
次に、このようなシステムや方法にて使用されるASR(自動音声認識)技術は、通常、一時停止、躊躇、震え、揺らめきなどの特定の音声動作を無視する場合もあり、認識できる文/単語のみを生成してしまいます。このようなASR技術からの出力に基づくフィルタリングでは、スクリーニングモデルに対する有意義な回答が抜け落ちてしまう可能性もあるのです。
もう1つが、質問に回答する際のユーザーの感情状態が、精神衛生評価の結果に何らかの影響を与える可能性もあるということです。しかし、従来技術の回答検証技術は、入力する際の感情を全く考慮していないことから、この点でも十分なソリューションではありません。

したがって、比較的高い水準の入力品質を確保するためには、モデルのパフォーマンスを向上させるためのより優れたメカニズムが必要となります。

近年では、スマートホンに関する技術や、ウェアラブルデバイスによる生理・心理データに関する非侵襲的・継続的なモニタリングが多くの研究者からの深い関心を集めています。音響および音声処理の進歩により、機械学習を活用した行動健康診断に関する新たな領域が開拓されたことで、うつ病患者は、言語におけるストレスの軽減、単音、音量の減衰などを示すようになり、これらがうつ病患者に対する臨床観察と矛盾のないことが実証されたのです。また、これらの患者は、一般の人々と比較して、話をするスピードが遅く、間も長くなり、音量が小さくなることも分かっています。さらに、機械学習モデルによって認識される発声バイオマーカーは、正の相関関係があり、うつ病などの精神疾患を検出できる可能性が高いことも研究によって示されています。研究者たちは、うつ病と、その音声に関する音響および意味ベースによる側面や相関関係を研究するために多大な努力を費やしてきたのです。

この分野のAIテクノロジーは、主に3つのカテゴリに分類することができます。
1. 意味ベース:自動音声認識(ASR)を適用することにより、音声データを変換してテキスト文字を作成し、その上で自然言語プロセス(NLP)を実行することで、自然言語ベースの分類モデルを構築するものです。
2. 音響ベース:音声から音響的特徴を直接抽出し、それに基づいて分類モデルを構築するものです。これらの特徴は、リズム特徴/スペクトルベースよる相関特徴など、手動で設計された特徴、または事前学習済みモデルを通じた潜在的な特徴の埋め込みによる、いずれかのものとなります。
3. マルチモーダルベース:これら2つのモダリティを組み合わせることで、マルチモーダルAIモデルを作成し、評価に関する精度を高める試みもいくつかなされています。

これらの技術や関連研究では、特定のトピックに関連するユーザーの音声録音をモデル入力内容として活用することがよくあります。たとえば、休息スケジュールに関する特定の固定的な質問に対する回答や、健康状態の説明などが挙げられます。その一方で、大うつ病性障害(MDD)では、通常において、感情、特に悲しみ、恐怖、怒り、羞恥に対する感覚が麻痺してしまう場合があることも注目すべき点です。過去に行った多くの調査において、うつ病の患者は、うつ病でない人とは異なり、特に感情的嗜好や感情制御戦略の活用が重要であることが示唆されています。ただ、残念ながら、既存の音声ベースによる AI テクノロジーでは、トレーニングデータの収集からモデルのトレーニング、実際のアプリケーションにモデルを適用する際の推論に至るまで、ユーザーの感情的嗜好や感情制御能力に十分な注意が払われていないのです。

これまでの研究から、人間の声は多くの感情情報を伝えることが分かってきました。例えば、先行技術に関する文献の中には、声の基本的な感情的傾向(例:ポジティブな感情とネガティブな感情、興奮と落ち着きなど)だけでなく、細かい感情的なニュアンスも検出できることが分かっている内容もあります。これにより、より多くの感情的効果を積極的にカバーしたり、音声からの感情情報(特に感情価)をより適切に活用したりすることで、このようなAIモデルの精度水準を向上させることもできるでしょう。

本特許は、そのような技術を構築するためのシステムおよびその使用法について述べています。
【本発明の目的】
【0003】
本発明の目的は、感情の決定/認識と組み合わせ、発声ベースによるバイオマーカーに基づき、精神衛生状態を評価することです。

本発明の別の目的は、誘発された感情および感情認識を活用し、発声ベースによるバイオマーカーに基づき、精神衛生評価における偏りを排除することです。

本発明のまた別の目的は、発声ベースによるバイオマーカーに基づき、精神衛生評価をする際に、強化されたフィルタリング技術を提供することです。

本発明のさらに別の目的は、発声ベースによるバイオマーカーに基づき、精神衛生評価をしながら、音声信号における比較的高い水準の入力品質を確保することです。

本発明のさらなる別の目的は、発声ベースによるバイオマーカーに基づき、精神衛生評価をしながら、音声動作に対する理解を強化することです。
【本発明の概要】
【0004】
本発明により、感情刺激を伴う音声ベースによる精神衛生評価のためのマルチモーダルシステムおよびその使用法が提供されます。

本発明により、感情刺激を伴う音声ベースによる精神衛生評価のためのマルチモーダルシステムが提供され、前述のシステムは、以下のものを含みます。
- タスク構築モジュール (ユーザーの音声に関する音響的、言語的、および感情的特徴を捉えるためのタスクを構築するように構成されています。)、
- 刺激出力モジュール (前述のタスク構築モジュールからデータを受信するように構成されており、本刺激出力モジュールは、構築されたタスクに基づいてユーザーに提示される1つ以上の刺激を含み、ユーザーの動作に関する1つ以上のタイプのトリガーを誘発するためのものであり、本トリガーは入力回答の形式のものとなります。)、
- 回答受信モジュール (前述の刺激出力モジュールから構築されたタスクに基づき、1つ以上の刺激をユーザーに提示し、それに対して1つ以上の形式に対応している回答を受信するように構成されています。)、
- 機能モジュールは、以下を含んでいます。
o 特徴構築モジュール (前述の構築された各タスクに対して、学習可能なヒューリスティック型評価タスクの観点から定義された特徴を定義するように構成されています。)、
o 特徴抽出モジュール (前述の受信した対応する回答から、前述の構築されたタスクに関連する1つ以上の定義された特徴を抽出するように構成されており、ランク付けされた構築タスクから選択された少なくとも1つを考慮する、学習可能なヒューリスティック型評価モデルを使用しています。)、
o 特徴融合モジュール (2つ以上の定義された特徴を融合し、融合された特徴を取得するように構成されています。)、
- オートエンコーダは、前述の融合された特徴を活用し、以下の間における関係を定義します。
o 前述の特徴融合モジュールに関する音声モダリティは、前述の回答受信モジュールと連携して動作し、前述の回答で得られた高水準の特徴を抽出するとともに、抽出された高水準のテキスト特徴を出力します。
o 前述の特徴融合モジュールに関するテキストモダリティは、前述の回答受信モジュールと連携して動作し、前述の回答で得られた高水準の特徴を抽出するとともに、抽出された高水準の音声特徴を出力します。
前述のオートエンコーダは、前述の音声モダリティおよび前述のテキストモダリティから、抽出された高水準のテキスト特徴および抽出された高水準の音声特徴を並行して受信するとともに、前述の精神衛生評価と相関する感情分類のための共有表現特徴データセットを出力するように構成されます。

システムに関する少なくとも1つの実施形態において、前述の構築されたタスクは、発音タスクや筆記タスクとなります。

システムに関する少なくとも1つの実施形態において、前述のタスク構築モジュールは、前述の構築されたタスクを難易度順にランク付けするための第1ランク付けモジュールを含み、これにより、各構築されたタスクに対して第1の価値を割り当てます。

システムに関する少なくとも1つの実施形態において、前述のタスク構築モジュールは、前述の構築されたタスクを難易度順にランク付けするために構成された第1ランク付けモジュールを含み、これにより、各構築されたタスクに対して第1の価値を割り当てますが、その際に、前述の構築されたタスクは、分析された回答に対応する刺激であり、評価された感情価の水準(正の感情価、負の感情価、中立の感情価)のいずれかに分類されます。

システムに関する少なくとも1つの実施形態において、前述のタスク構築モジュールは、前述の構築されたタスクの複雑さを複雑な順にランク付けするために構成された第2ランク付けモジュールを含み、これにより、各構築されたタスクに第2の価値を割り当てます。

システムに関する少なくとも1つの実施形態において、前述のタスク構築モジュールは、第2ランク付けモジュールを含み、本モジュールは、構築されたタスクの複雑さおよび回答ベクトルの観点から感情的期待をランク付けすることで、そのランク付けされた構築タスクに基づいてデータ収集プールを作成するように構成されています。

システムに関する少なくとも1つの実施形態において、前述の構築されたタスクは、いくつかのタスク群 (事前に決定された時間内に数字を数える認知タスク、事前に決定された時間内に母音を発音するタスク、事前に決定された時間内に有声音と無声音を含む単語を発声するタスク、事前に決定された時間内に単語を読むタスク、事前に決定された時間内に段落を読むタスク、音素および感情的複雑さを持つ段落を読むタスク、感情的な変化を伴う自由度の高い質問に関連するタスク、事前に決定された時間内に実施するオープンタスクに関連するタスク)から選ばれます。

システムに関する少なくとも1つの実施形態において、前述の構築されたタスクには1つ以上の質問が刺激として含まれ、各質問には0からNのベクトルで表される質問埋め込みが割り当てられます。これらの質問埋め込みに基づき、質問に特化した特徴抽出機能がトレーニングされることで、質問から単語埋め込み、音素埋め込み、音節水準の埋め込みが抽出されます。また、これらの抽出された埋め込みは強制的に整列されるとともに、中間水準における特徴融合が実行されます。

システムに関する少なくとも1つの実施形態において、前述の1つ以上の刺激が選ばれ、本刺激は音声刺激、ビデオ刺激、音声とビデオの組み合わせによる刺激、テキスト刺激、マルチメディア刺激、生理的刺激、およびそれらの組み合わせから構成される刺激群から選ばれます。

システムに関する少なくとも1つの実施形態において、1つ以上の刺激が、刺激ベクトルに回答する、テキスト回答ベクトル、音声回答ベクトル、ビデオ回答ベクトル、マルチメディア回答ベクトル、生理的回答ベクトルのいずれかを、またはそれらの組み合わせを誘発するように調整された刺激ベクトルを含みます。

システムに関する少なくとも1つの実施形態において、先述の1つ以上の刺激が、第1のベクターエンジンを通じて解析することにより、構成ベクトルを特定し、本刺激ベクトルと相関する格付けされた基本状態を決定するように構成されています。

システムに関する少なくとも1つの実施形態において、前述の1つ以上の回答が選ばれ、本回答は音声回答、ビデオ回答、音声とビデオの組み合わせによる回答、テキスト回答、マルチメディア回答、生理的回答、およびそれらの組み合わせから構成される回答群から選ばれます。

システムに関する少なくとも1つの実施形態において、前述の1つ以上の刺激が、前述の刺激出力モジュールの刺激ベクトルに対する回答として誘発された音声回答ベクトルやビデオ回答ベクトルに相関する回答ベクトルを含みます。

システムに関する少なくとも1つの実施形態において、先述の1つ以上の刺激が、第1のベクターエンジンを通じて解析することにより、構成ベクトルを特定し、本刺激ベクトルと相関する格付けされた基本状態を決定するように構成されています。

システムに関する少なくとも1つの実施形態において、前述の回答受信モジュールは、ユーザーによって事前に構成された時間内に文章を読むタスクを実行できるように設定された文章読み上げモジュールを含みます。

システムに関する少なくとも1つの実施形態において、前述の特徴構築モジュールは、Geneva 最小音響パラメータセット(GeMAPS)ベースによる特徴構築モジュールです。

システムに関する少なくとも1つの実施形態において、前述の特徴構築モジュールは、Geneva 最小音響パラメータセット(GeMAPS)ベースによる特徴構築モジュールであり、本特徴構築モジュールは、
- 62個 のパラメータのセットを活用して音声を分析します。
- 3フレームの長さの対称移動平均フィルタを提供し、時間の経過に伴って平滑化します。 (本平滑化は、ピッチ、ジッター、およびシマーについて、前述の回答における有声領域内にて実行されます。)
- 算術平均と変動係数を関数として18個の低水準記述子(LLDs)に適用し、36個のパラメータを生成します。
- 音量に8個の機能を適用します。
- ピッチに8個の機能を適用します。
- ピッチに8個の関数を適用します。
- ハマーバーグ指数を決定します。
- スペクトル特徴を決定します。(すべての無声音セグメントにおいて、0~500Hzおよび500~1500Hzのスペクトル傾斜を参照して実行します。)
- 前述の回答から、連続的な有声音領域および無声音領域における時間的特徴を決定します。
- F0輪郭のビタビベースによる平滑化を決定します。(エラーによって単一の有声音フレームが欠落することを防止します。)

システムに関する少なくとも1つの実施形態において、前述の特徴構築モジュールは、Geneva 最小音響パラメータセット(GeMAPS)ベースによる特徴構築モジュールであり、前述の音声回答におけるスペクトル、ピッチ、および時間的特徴を分析するための低水準記述子(LLDs)のセットで構成されており、前述の特徴は、以下からなる特徴群から選択されます。
・ メル周波数ケプストラル係数(MFCCs)とその1次および2次導関数。
・ ピッチおよびピッチ変動性。
・ エネルギーおよびエネルギーエントロピー。
・ スペクトルの重心、広がり、および平坦性。
・ スペクトル傾斜。
・ スペクトルロールオフ。
・ スペクトル変動性。
・ ゼロ交差率。
・ シマー、ジッター、ハーモニック・トゥ・ノイズ (高調波対雑音)比。
・ (ピッチに基づく) 発声確率
・ 音量ピーク率、連続的な有声音領域および無声音領域における平均長さと標準偏差などに関する時間的特徴

システムに関する少なくとも1つの実施形態において、前述の特徴構築モジュールは、Geneva 最小音響パラメータセット(GeMAPS)ベースによる特徴構築モジュールであり、本特徴構築モジュールは、以下の群から選択された一連の周波数関連パラメータにて構成されています。
・ ピッチ (27.5 Hz (半音0) から開始し、対数的な基本周波 (F0) を半音階の周波数スケールにて測定します。)
・ ジッター (個々の連続する F0 期間の長さに関する偏差。)
・ フォルマント1、2、3の周波数 (第1、第2、第3のフォルマントに関する中心周波数。)
・ フォルマント1 (第1フォルマントに関する帯域幅。)
・ エネルギー関連のパラメータ。
・ 振幅関連のパラメータ。
・ シマー (連続するF0期間におけるピーク振幅の差。)
・ 音量 (聴覚スペクトルから知覚される信号強度に関する推定値。)
・ ハーモニック・トゥ・ノイズ (高調波対雑音)比 (高調波成分を含むエネルギーとノイズのような成分を含むエネルギーとの関係比率)
・ スペクトル (バランス) パラメータ
・ アルファ比 (50~1000 Hz および 1~5 kHzの合計エネルギーに関する比率。)
・ ハマーバーグ指数 (0~2 kHz領域における最も強いエネルギーピークと2~5 kHz領域における最も強いピークに関する比率)
・ スペクトル傾斜 (0~500 Hz および 500~1500 Hz という指定された 2 つの帯域内における対数パワースペクトルに関する線形回帰の傾き)
・ フォルマント1、2、3の相対エネルギー (第1、第2、第3フォルマントの中心周波数におけるスペクトル高調波ピークに関するエネルギーと、基本周波数(F0)におけるスペクトルピークに関するエネルギーとの比率)
・ 高調波差 H1‐H2 (基本周波数(F0)の第1高調波(H1)に関するエネルギーと、第2高調波(H2)に関するエネルギーとの比率)
・ 高調波差 H1‐A3 (基本周波数(F0)の第1高調波(H1)に関するエネルギーと、第3フォルマントの範囲内における最も高い高調波(A3)に関するエネルギーとの比率)

システムに関する少なくとも1つの実施形態において、前述の特徴構築モジュールは、Geneva 最小音響パラメータセット(GeMAPS)ベースによる特徴構築モジュールであり、本特徴構築モジュールは、高次スペクトル解析(HOSA)関数を活用しており、これらの関数は、2つ以上の成分周波数を活用してバイスペクトラム周波数を実現します。

システムに関する少なくとも1つの実施形態において、前述の特徴構築モジュールは、Geneva 最小音響パラメータセット(GeMAPS)ベースによる特徴構築モジュールであり、本特徴構築モジュールは、高次スペクトル解析(HOSA)関数を活用しており、これらの関数は、2つ以上の成分周波数を活用してバイスペクトラム周波数を実現するものであり、バイスペクトラムは、第3累積量を活用して信号内の周波数成分間の関係を分析し、回答に関連する非線形信号を検査します。

システムに関する少なくとも1つの実施形態において、前述の特徴抽出モジュールは、中間水準での融合を活用することで高水準の特徴埋め込みを融合します。

システムに関する少なくとも1つの実施形態において、前述の特徴抽出モジュールは、専用の言語的特徴を抽出できる機能を含み、それぞれの刺激に対する程度も学習可能であることから、さまざまな言語的タスクに非常に適しています。

システムに関する少なくとも1つの実施形態において、前述の特徴抽出モジュールは、専用の感情的特徴を抽出できる機能を含み、それぞれの刺激に対する程度も学習可能であることから、さまざまな感情的タスクに非常に適しています。

システムに関する少なくとも1つの実施形態において、前述の特徴融合モジュールは、高水準の特徴融合機能を備え、少なくともオートエンコーダベースによる特徴融合を活用することで、1つ以上の回答から感情を分類できるように構成された音声モジュールを含んでいます。

システムに関する少なくとも1つの実施形態において、前述の特徴融合モジュールは、高水準の特徴融合機能を備え、少なくともオートエンコーダベースによる特徴融合を活用し、1つ以上の回答から感情を分類できるように構成された音声モジュールを含んでおり、本音声モダリティは、特定の質問による特徴抽出機能を活用することで、前述の回答における時間周波数領域関係から高水準の特徴を抽出し、抽出された高水準の音声特徴を出力します。

システムに関する少なくとも1つの実施形態において、前述の特徴融合モジュールは、高水準の特徴融合機能を備え、少なくともオートエンコーダベースによる特徴融合を活用し、1つ以上の回答から感情を分類できるように構成されたテキストモジュールを含んでいます。

システムに関する少なくとも1つの実施形態において、前述の特徴融合モジュールは、高水準の特徴抽出機能を備え、少なくともオートエンコーダベースによる特徴融合を活用し、1つ以上の回答から感情を分類できるように構成されたテキストモジュールを含んでおり、本テキストモダリティは、双方向長短期記憶ネットワークと注意メカニズムを活用することで、抽出された高水準の音声特徴を出力します。

システムに関する少なくとも1つの実施形態において、前述の特徴融合モジュールは、以下の音声モジュールを含みます。
- 事前トレーニングされたモデルからの音響特徴埋め込みにおいて抽出された特徴を使用するモジュール。
- 前述の抽出された特徴をスペクトル領域上で比較するモジュール。
- 声道協調における特徴を決定するモジュール。
- 反復定量化分析における特徴を決定するモジュール。
- 発声ランドマークに対応関係にあるバイグラム数とバイグラム持続時間に関する特徴を決定するモジュール。
- オートエンコーダで前述の特徴を融合するモジュール。

システムに関する少なくとも1つの実施形態において、前述の特徴抽出モジュールは、回答に関連付けられたイベントマーカーを決定するために構成された発声ランドマーク抽出機能を含みます。本イベントマーカーの決定は、前述の回答からの音響イベントに関するタイムライン上の位置と相関しており、本決定には音響回答における急激な変化を示すタイムスタンプ境界の決定が含まれているものの、フレームに依存することなく実行されます。

システムに関する少なくとも1つの実施形態において、前述の特徴抽出モジュールには、発声ランドマーク抽出機能が含まれ、本抽出機能は応答に関連付けられたイベントマーカーを特定するよう構成されています。各イベントマーカーには開始値と終了値があり、本イベントマーカーは声門ベースによるランドマーク (g)、周期性ベースによるランドマーク (p)、ソノラントベースのランドマーク (s)、摩擦音ベースによるランドマーク (f)、有声摩擦音ベースによるランドマーク (v)、およびバーストベースによるランドマーク (v) から構成されるランドマーク群から選ばれます。前述の各ランドマークは、異なる急激な調音イベントが発生する時間点を特定するために使用され、これは複数の周波数範囲および複数の時間スケールにおける電力の急激な変化と相関しています。

システムに関する少なくとも1つの実施形態において、前述のオートエンコーダは、以下のものを含む複数モード(マルチモーダル)と複数質問(マルチクエスチョン)による入力融合アーキテクチャから構成されています。
- 前述の1つ以上の特定の特徴をタスクタイプと組み合わせて、低次元表現にマッピングする1つ以上のエンコーダ (各タスクはタスクタイプに基づき、学習可能な程度エンコード行列によって本特徴に乗算され、これらの程度は精神衛生評価と相関しています。)
- 前述の1つ以上の特定の特徴を、前述の低次元表現にマッピングする1つ以上のデコーダ (精神衛生評価を出力するために設定されます。)
- 前述のオートエンコーダは、損失関数を活用することで、入力タスクとデコーダの出力との間の再構築誤差を最小限に抑えるようにトレーニングされています。

本発明により、感情刺激を伴う音声ベースによる精神衛生評価のためのマルチモーダル使用法が提供され、前述の使用法は、以下のものを含みます。
- ユーザーの音声に関する音響的、言語的、および感情的特徴を捉えるためのタスクを構築すること。
- 前述の構築されたタスクに基づき、1つ以上の刺激を含むデータを受信し、本タスクをユーザーに提示することで、1つ以上のタイプのユーザー動作を誘発するトリガーを生成すること。(本トリガーは入力回答の形式のものとなります)
- 前述の構築されたタスクに基づき、1つ以上の刺激をユーザーに提示し、それに対して1つ以上の形式に対応している回答を受信すること。
- 前述の構築された各タスクに対して、学習可能なヒューリスティック型評価タスクの観点から定義された特徴を定義すること。
- ランク付けされた構築タスクから選択された少なくとも1つを考慮する、学習可能なヒューリスティック型評価モデルを活用することで、前述の受信した対応する回答から、前述の構築されたタスクに関連する1つ以上の定義された特徴を抽出すること。
- 2つ以上の定義された特徴を融合し、融合された特徴を取得すること。
- 前述の融合された特徴を活用し、以下の間における関係を定義すること。
o 前述の特徴融合モジュールに関する音声モダリティは、前述の回答受信モジュールと連携して動作し、前述の回答で得られた高水準の特徴を抽出するとともに、抽出された高水準のテキスト特徴を出力します。
o 前述の特徴融合モジュールに関するテキストモダリティは、前述の回答受信モジュールと連携して動作し、前述の回答で得られた高水準の特徴を抽出するとともに、抽出された高水準の音声特徴を出力します。
前述の関係を定義するステップにより、前述の音声モダリティおよび前述のテキストモダリティから、抽出された高水準のテキスト特徴および抽出された高水準の音声特徴を並行して受信するとともに、前述の精神衛生評価と相関する感情分類のための共有表現特徴データセットを出力するように構成されます。

使用法に関する少なくとも1つの実施形態において、前述の構築されたタスクには1つ以上の質問が刺激として含まれ、各質問には0からNのベクトルで表される質問埋め込みが割り当てられます。これらの質問埋め込みに基づき、質問に特化した特徴抽出モジュールがトレーニングされることで、質問から単語埋め込み、音素埋め込み、音節水準の埋め込みが抽出されます。また、これらの抽出された埋め込みは強制的に整列されるとともに、中間水準における特徴融合が実行されます。

使用法に関する少なくとも1つの実施形態において、前述の関係を定義するステップにより、以下のものを含む複数モード(マルチモーダル)と複数質問(マルチクエスチョン)による入力融合アーキテクチャから構成されています。
- エンコーダを通じて、前述の1つ以上の特定の特徴をタスクタイプと組み合わせて、前述の低次元表現にマッピングします。 (各タスクはタスクタイプに基づき、学習可能な程度エンコード行列によって本特徴に乗算され、これらの程度は精神衛生評価と相関しています。)
- デコーダを通じて、前述の1つ以上の特定の特徴を、前述の低次元表現にマッピングし、精神衛生評価を出力します。
- 損失関数を活用することで、入力タスクとデコーダの出力との間の再構築誤差を最小限に抑えるようにトレーニングします。

使用法に関する少なくとも1つの実施形態において、前述の高水準の音声特徴を抽出するステップでは、回答における時間周波数領域の関係から高水準特徴を抽出するステップが含まれ、これにより抽出された高水準の音声特徴を出力します。

使用法に関する少なくとも1つの実施形態において、前述の高水準のテキスト特徴を抽出するステップでは、双方向長短期記憶ネットワークと注意メカニズムを使用することで、モーダル内ダイナミクスをシミュレートし、抽出された高水準のテキスト特徴を出力するステップを含みます。
【図面の簡単な説明】
【0005】
本発明は、添付図に関連して現在開示され、その中において、

図1は、コンピューティング環境に関する概略ブロック図を示しています。
図2は、誘発された感情によるトレーニングデータの収集システムを示しています。
図3は、感情ベースによる回答を誘発するための、いくつかのタスクや質問を提示する、感情誘発質問セットに関するサンプルを示しています。
図4は、有用な音声基準を形成する音声構成要素間における、既知の相互作用を示しています。
図5は、固定された読み上げ文章に関する1つのサンプルを示しています。
図6は、ユーザーによる文章の読み上げに基づく、音調を含まない音素マップを示しています。
図7は、固定された読み上げ文章に関する別のサンプルを示しています。
図8は、ユーザによる文章の読み上げに基づく、音素対出現回数に関するグラフを示しています。
図9は、ユーザーのさまざまな精神状態に対する HOSA (高次スペクトル解析) 関数の表現に関する内容を示しています。
図10は、10秒間の音声ファイルから抽出された、第1および第2デルタMFCCs (メル周波数ケプストラル係数) 間における自己相関および相互相関を示しており、精神運動遅滞を反映する音響ファイルから遅延相関を抽出するためのフレームワークを示しています。
図11は、オートエンコーダに関する概略ブロック図を示しています。
図12A~12Hは、非限定的な例示的実施形態において、少なくとも1つのタイプの対応するタスク (質問) についてのさまざまなグラフを示しており、元のラベルは「健康」または「うつ病」から選択され、グラフはモデル予測と相関のある音素やセグメントを示しています。エリアは、さまざまな開始時刻におけるさまざまなユーザーに対して、高い活性化の特徴を持つ言語による発声を強調表示しています。
図13は、フローチャートを示しています。
図14は、感情刺激を伴う音声ベースによる精神衛生評価において、高水準におけるフローチャートを示しています。
【添付図に関する詳細な説明】
【0006】
本発明により、感情刺激を伴う音声ベースによる精神衛生評価のためのマルチモーダルシステムおよびその使用法が提供されます。精神衛生上の問題は、患者の感情と密接に結びついています。システムにとって、ユーザーによる入力内容が有用かどうかを判断する際、ユーザーの感情は回答の長さと少なくとも同じくらい重要であり、状況によってはそれ以上に重要となるのです。

本開示内容は、システム、使用法、コンピュータプログラム製品やモバイルデバイスに関するプログラム/製品として実現される可能性があります。コンピュータプログラム製品には、プロセッサが本開示に関する内容的側面を実行するために、コンピュータが読み取り可能なプログラム指示を含むコンピュータにて読み取り可能な記憶媒体(または複数の媒体)が含まれる場合があります。

開示された実施形態に関する内容的側面には、1つ以上のプロセッサによって実行された際に、開示された実施形態に従った1つ以上の方法や操作などを実行・遂行するよう構成され、それに対応する能力を持つソフトウェア指示を保存する実体的なコンピュータにて読み取り可能な媒体が含まれている場合があります。また、開示された実施形態に関する内容的側面には、ロジックおよび指示がプログラムされたソフトウェア指示に基づき、専用プロセッサとして構成された1つ以上のプロセッサによって実行される場合があり、これらの指示は実行される際、開示された実施形態に従った1つ以上の操作を実行します。

本発明を説明する際には、以下の定義が、全体を通じて適用されます(上記を含みます)。

「コンピュータ」とは、構造化された入力内容を受け入れるとともに、定められた規則に従ってその入力内容を処理し、処理の結果を出力として生成することができる1つ以上の装置または1つ以上のシステムを指す場合があります。コンピュータの例として、コンピュータ、固定型または携帯型のコンピュータ、単一プロセッサ、複数プロセッサ、またはマルチコアプロセッサを持つコンピュータ (これらのプロセッサは並行して動作することも、非並行で動作することもあります。)、汎用型コンピュータ、スーパーコンピュータ、メインフレーム、スーパーミニコンピュータ、ミニコンピュータ、ワークステーション、マイクロコンピュータ、サーバー、クライアント用サーバー、インタラクティブ型テレビ、ウェブアプライアンス、インターネットアクセスを備えた通信デバイス、コンピュータとのインタラクティブ方式によるハイブリッド型テレビ、タブレット(PC)、パーソナル・デジタルアシスタント (PDA)、携帯電話、コンピュータまたはソフトウェアをエミュレートするためのアプリケーション固有のハードウェア (例えば、デジタルシグナルプロセッサ (DSP)、フィールド・プログラマブル・ゲートアレイ (FPGA)、アプリケーション特化型集積回路 (ASIC)、アプリケーション特化指示セットプロセッサ (ASIP)、チップ、チップセット)、システムオンチップ (SoC)、マルチプロセッサ・システムオンチップ (MPSoC)、光コンピュータ、量子コンピュータ、生物学的コンピュータ、およびデータを受け取り、1つ以上の保存されたソフトウェアプログラムに従ってデータを処理し、結果を生成する装置 (通常において、入力、出力、記憶、算術、論理、制御ユニットが含まれます。)が含まれる場合があります。

「ソフトウェア」とは、コンピュータまたはコンピュータの一部を操作するために定められた規則を指す場合があります。
ソフトウェアの例として、コードセグメント、指示、アプレット、事前にコンパイルされたコード、コンパイルされたコード、解釈されたコード、コンピュータプログラム、およびプログラムされたロジックが含まれる場合があります。
「コンピュータにて読み取り可能な媒体」とは、コンピュータによってアクセス可能なデータを保存するために使用される、あらゆる記憶装置を指す場合があります。コンピュータにて読み取り可能な媒体の例として、磁気ハードディスク、フロッピーディスク、CD-ROMやDVDのような光ディスク、磁気テープ、メモリチップ、または機械が読み取れる指示を保存できるその他のタイプのメディアが含まれる場合があります。

「コンピュータシステム」とは、1台以上のコンピュータを含むシステムを指す場合があり、各コンピュータには、そのコンピュータを操作するソフトウェアを実装したコンピュータにて読み取り可能な媒体が含まれている場合があります。コンピュータシステムの例として、ネットワークによって接続されたコンピュータシステムを通じて情報を処理する分散コンピュータシステム、ネットワークを介して接続された2台以上のコンピュータシステムによるコンピュータシステム間で情報の送受信を行うシステム、データを受け入れて1つ以上の保存されたソフトウェアプログラムに従ってデータを処理して結果を生成する可能性のある(通常において、入力、出力、記憶、算術、論理、制御ユニットを含む)1つ以上の装置またはシステムが含まれます。

「ネットワーク」とは、通信設備によって接続される可能性がある複数のコンピュータおよび関連デバイスを指す場合があります。ネットワークには、ケーブルなどの恒久的な接続だけでなく、電話やその他の通信用リンクを通じて実行される一時的な接続が含まれる場合もあります。ネットワークにはさらに、有線接続(例:同軸ケーブル、ツイストペア、光ファイバー、導波管など)、または無線接続(例:無線周波数波形、自由空間光波形、音響波形、衛星通信など)が含まれる場合もあります。ネットワークの例として、インターネット、イントラネット、ローカルエリアネットワーク (LAN)、ワイドエリアネットワーク (WAN)、およびネットワーク同士の組み合わせ (例えば、インターネットとイントラネット) が含まれる場合もあります。代表的なネットワークの例として、インターネットプロトコル (IP)、非同期転送モード (ATM)、同期光ネットワーク (SONET)、ユーザー・データグラム・プロトコル (UDP)、IEEE 802.x などが挙げられ、さまざまなプロトコルにて運用される可能性があります。

本項目で使用されている「データ」および「データ項目」という用語は、ビットの連続を指します。したがって、データ項目はファイルの内容、ファイルの一部、メモリ内のページ、オブジェクト指向プログラムのオブジェクト、デジタルメッセージ、デジタルスキャン画像、ビデオまたは音声信号の一部、またはビットの連続にて表現できるその他のエンティティである可能性があります。本項目で使用されている「データ処理」という用語は、データ項目の処理を指し、処理されるデータ項目のタイプに依存する場合があります。例えば、デジタル画像に関するデータプロセッサは、音声信号に関するデータプロセッサと異なる場合があります。

本項目で使用されている「第1」、「第2」などの用語は、順序、優先度、数量、重要度を示すものではなく、これらは単に1つの要素を別の要素と区別するために使用されています。また、本項目以降にて使用されている「1」や「1つ」という用語は、数量の制限を意味するものではなく、参照された項目が1つ以上存在することを示します。

図1は、ネットワークを通じてネットワークサーバー (100) と接続している1つ以上のネットワーククライアントデバイス (112, 114, 116, 118) 、およびネットワークサーバー (100) と接続している1つ以上のデータベース (122, 124, 126, 128) 含むコンピューティング環境の概念的なブロック図を示しています。

言語による発声は、簡単に思えるかもしれませんが、実際には脳内における認知的行動と生理的行動に関する調整を含んだ非常に複雑なプロセスです。それは、効果的に実行されるために、一連の複雑な動きを必要とするからです。通常、言語による発声は、肺における潜在エネルギーの生成および声道内における空気圧の変化から始まる、身体の生理的プロセスに由来します。発声による音で話をする際、肺が空気を放出するとともに、空気の速さが声帯の規則性にも影響を与えることになります。声門から発せられる調和的で豊かな音声エネルギーが声道と喉頭を通過する際、咽頭、口腔、鼻腔、および発音器官(舌、歯、唇、顎、軟口蓋など)の動きにより、音声が持つ調和音の振幅が変化し、これらが音のフィルターとして機能するのです。

うつ病および精神運動遅滞は、一部のうつ病の患者個人における、発声機能障害や調和フォルマントの振幅の減退に加え、その他の身体的異常とも関連があります。これにより、精神運動遅滞が原因にて喉頭をうまくコントロールできなくなり、患者の話し声の中に「息もれ」が感じられることもあります。このような状態は、健康な個人の話し方とは対照的なものです。声の強さが、うつ病の重症度を評価する上で、強い指標であることを示しています。うつ病の患者は、声の強さが弱い状態にて話すことも多く、単調な声で話しているように見えることがあります。

多くの研究者が、うつ病に罹患する人々が言語をどのように使用するかについて研究しており、(a) 患者の話している様子を録音をして聞くことと、(b) 患者が実際に書いたテキストを分析することの、2つの方法を通じて行われています。

うつ病に罹患する人々は、言語スキルに何らかの問題を抱えていることが多く、不適切または不明瞭な言葉を使用したり、話す内容を未完了のままにしたり、同じ言葉や表現を何度も繰り返したりすることがあります。

うつ病を特定するためには、音韻に関する要素が異常である可能性があることを見つけることが重要であり、これらの要素は言語情報 (例えば、単語やフレーズの持つ意味など) とも相互に作用することで、個人の感情状態を表現します。

うつ病に罹患する個人に対する、これまでの主観的評価においては、患者の言語を話すパターンや関連する動作に焦点が当てられることも多く、つまり、うつ病に罹患する人々が「感情的にどのように振る舞うのか」という先入観に基づいていたのです。

図2は、誘発された感情によるトレーニングデータの収集システムを示しています。

少なくとも1つの実施形態において、クライアントデバイス (112, 114, 116, 118) は、クライアントデバイスに対応するユーザーに1つ以上の刺激を提供するように構成された刺激出力モジュール (202) と通信可能な状態にて接続されています。

少なくとも1つの実施形態において、刺激出力モジュール (202) は、入力回答におる形式にてユーザーの回答を誘発するために、ユーザーに出力刺激を提供するように構成されています。出力刺激には、音声刺激、映像刺激、音声や映像の組み合わせた刺激、テキスト刺激、マルチメディア刺激、生理的刺激やそれらを組み合わせたもの、および類似する刺激が含まれる場合があります。.刺激には、刺激ベクトルに回答する、テキスト回答ベクトル、音声回答ベクトル、ビデオ回答ベクトル、マルチメディア回答ベクトル、生理的回答ベクトルのいずれかを、またはそれらの組み合わせを誘発するように調整された刺激ベクトルが含まれる場合があります。1つ以上の刺激が、第1のベクトルエンジン (232) を通じて解析することにより、構成ベクトルを特定し、本刺激ベクトルと相関する格付けされた基本状態を決定します。

一部の実施形態において、刺激出力モジュール (202) は、特定の基準 (例えば、DSM-V診断) に基づいた特定の精神疾患を持つ対象者 (ユーザー) および精神疾患のない健康な対象者 (ユーザー) に、音声ベースによるタスクを送信するために使用されます。これは、ネットワークサーバー (100) に通じて、またはユーザーや対象者に対応するクライアントデバイス (112, 114, 116, 118) を通じて実行されます。好ましい実施形態において、これらの刺激は、対象者において、特定の感情反応 (以下のものが含まれますが、これらのものに限定されません。) を誘発するようにベクトルで構成されています。
- 幸福感による感情反応
- 悲しみによる感情反応
- 中立的な感情反応

一部の実施形態において、刺激出力モジュール (202) は、特定のユーザーや対象者の動作を誘発する刺激を含み、例えば、ユーザーに対して、ある程度の数の単語や母音の発声を強制に繰り返させるような、命令的な質問などが挙げられます。

本開示の実施形態には、ユーザーの言語による発声に関する音響的、言語的、および感情的特徴を把握するためのタスクを構築するように構成されたタスク構築モジュールが含まれている場合があります。タスク構築モジュールからのデータが、刺激出力モジュール (202) に提供されます。本発明は、発声ベースによるバイオマーカーを扱うことから、このような発声課題を伴うタスクに活用されることが好ましいでしょう。
少なくとも1つの実施形態において、タスク構築モジュールには、構築されたタスクを難易度順にランク付けするための第1ランク付けモジュールが含まれており、これにより、各構築されたタスクに対して価値を割り当てます。好ましい実施形態において、ユーザーの感情的嗜好や精神状態に関連する感情調節戦略の活用をより適切に把握すべく、患者の回答を記録する際に、それぞれ異なる感情価(ランク付けされたレベル:ポジティブ、ネガティブ、中立的)に応じて、ユーザー (話者) を積極的に刺激することが必要です。
少なくとも1つの実施形態において、タスク構築モジュールには、質問の複雑さとランク付けされた質問の感情的期待を評価するために構成された第2ランク付けモジュールが含まれており、データ収集プールを作成します。
マルチクラスによる分類において、うつ病のレベルは順序関係が存在しており、これにより、タスク構築モジュールからの異なるうつ病レベルに対する発声課題においては、質問ごとおよびうつ病レベルごとの損失を最適化できるように、学習可能な「程度」が設定されています。

図3は、感情ベースによる回答を誘発するための、いくつかの音声タスクを提示する、感情誘発タスクセット (質問セット) に関するサンプルを示しています。以下では、少なくとも1つの実施形態において、各音声タスクに関する感情を誘発するパターンを示しています。良好な状態に設計されたタスクは、異なる感情を適切にカバーするだけでなく、対象言語における音素水準においても良好なカバレッジを発揮します。
【表2】

少なくとも1つの実施形態において、クライアントデバイス (112, 114, 116, 118) には、少なくとも1つの回答受信モジュール (204) と通信可能な状態に接続されており、本モジュールは、刺激出力モジュール (202) からの1つ以上の刺激を、対応するクライアントデバイスのユーザーに提示し、1つ以上の形式にて回答される入力内容を受信できるように構成されています。

回答受信モジュール (204) に関する少なくとも1つの実施形態においては、出力刺激に対するユーザーの入力回答を把握するために構成された、受信モジュール (204a) が提供されています。入力回答には、音声入力、ビデオ入力、音声とビデオの組み合わせた入力、マルチメディア入力、その他類似する入力方式によるものが含まれる場合もあります。入力回答には、刺激出力モジュール (202) に関する刺激ベクトルに対する回答として誘発された音声回答ベクトルやビデオ回答ベクトルに関連する、回答ベクトルが含まれる場合もあります

本開示の実施形態には、 データ事前処理モジュールが含まれる場合もあります。タスク構築モジュールに関する一部の実施形態において、質問構築には、数の数え上げ、母音の発音、有声・無声成分を含む単語の発声、音素や感情的複雑さを含む段落の読み上げ、感情的変化や認知的な文章生成などの自由度の高い質問から構成される簡単な認知タスクが含まれる場合があり、その回答内容は、回答受信モジュール (204) を通じて収集される場合があります。

受信モジュール (204a) に関する実施形態には、回答の構築および評価、回答の記録、回答ベクトルの処理が含まれる場合もあり、境界条件が満たされるまで処理を実行することで、トレーニング用の適格なデータポイントとして使用できるようにします。回答ベクトルには、特定のデータ収集タスク用のフラッシュカードも含まれる場合もあり、ユーザーの録音に関するメタデータの収集も、タスクの完了や資格に関する詳細情報も含めて実行されます。

回答受信モジュール (204) に関する実施形態には、分析、計測、および少なくとも以下のものを含む、第1の測定データセットとして出力するように構成された第1測定モジュールが含まれる場合もあります。
- 回答ベクトルに関して測定されたコンテンツの理解度。
- 回答ベクトルに関して測定された回答内容の正確性。
- 回答ベクトルに関して測定された音響信号に関する品質性。

回答受信モジュール (204) に関する実施形態には、分析、計測、および少なくとも以下のものを含む、第2の測定データセットとして出力するように構成された第2測定モジュールが含まれる場合もあります。
- 回答ベクトルから測定された無音部分。
- 回答ベクトルから測定された信号対雑音比。
- 回答ベクトルから測定された発音に関する明瞭性。
- 回答ベクトルから測定された活動性指数。
前述の第2の測定データに対して事前に設定された、しきい値に基づいています。
好ましい実施形態において、回答ベクトルのセグメントにて信号対雑音比が15以上で測定されたものは、本発明のシステムおよびその使用法により、適格な音声サンプルとして使用されます。

受信モジュール (204a)に関する少なくとも1つの実施形態において、少なくとも1つの音響受信モジュール (204a.1) が提供されており、本モジュールは、1つ以上の出力刺激に対する回答について、ユーザーの音響入力回答を回答音響信号の形式にて把握するように構成されています。回答音響信号は、回答音響ベクトルを含み、これらは、第2のベクトルエンジン (234) によって、刺激出力モジュール (202) の刺激ベクトルと相関することになります。この第2のベクトルエンジンは、構成回答音響ベクトルを特定するとともに、前述の刺激出力モジュール (202) の刺激ベクトルに関連してユーザーの第1の状態を特定します。

受信モジュール (204a) に関する少なくとも1つの実施形態において、少なくとも1つのテキスト受信モジュール (204a.2) が提供されており、本モジュールは、音響受信モジュール (204a.1) と通信可能な状態に接続されており、ユーザーの音響入力回答を音響受信モジュール (204a.1) から取得し、文字起こしエンジンを通じてテキストへ文字起こしすることで、回答テキスト信号を提供するために設定されています。回答テキスト信号は、回答テキストベクトルを含み、これらは、第3のベクトルエンジン (236) によって、刺激出力モジュール (202) の刺激ベクトルと相関することになります。この第2のベクトルエンジンは、構成回答テキストベクトルを特定するとともに、前述の刺激出力モジュール (202) の刺激ベクトルに関連してユーザーの第2の状態を特定します。

回答受信モジュール (204) に関する少なくとも1つの実施形態において、1つ以上の生理学的センサーを通じて、刺激出力モジュール (202) の出力刺激に対するユーザーの1つ以上の生理学的回答信号を感知するように構成された、生理学的回答受信モジュール (204b) が提供されています。生理学的回答信号には、刺激出力モジュール (202) の出力刺激に対する回答としての生理学的信号に相関する、生理学的ベクトルが含まれる場合もあります。これらのベクトルは、刺激出力モジュール (202) の刺激ベクトルに関連してユーザーの第3の状態を決定するように構成された、第4のベクトルエンジン (238) を通じて解析されます。

回答受信モジュール (204) に関する少なくとも1つの実施形態において、1つ以上の神経学的センサーを通じて、刺激出力モジュール (202) の出力刺激に対するユーザーの1つ以上の神経学的回答信号を感知するように構成された、神経学的回答受信モジュール が提供されています。神経学的回答信号には、刺激出力モジュール (202) の出力刺激に対する回答としての神経学的信号に相関する、神経学的ベクトルが含まれる場合もあります。これらのベクトルは、刺激出力モジュール (202) の刺激ベクトルに関連してユーザーの第4の状態を決定するように構成された、第5のベクトルエンジンを通じて解析されます。

ベクトルエンジンに関する実施形態では、発声によるバイオマーカーを識別するエンジンを形成します。
通常において、発声によるバイオマーカー識別エンジンでは、3段階でのアプローチを使用します。
- 音声データ収集プロトコルを構築するための音声領域に関する知識を駆使し、うつ病に関連した発声によるバイオマーカーの存在感と安定性を高めること。
- うつ病患者と非うつ病患者の間に生じる、微妙な音響の違いを把握できる最適な特徴セットを特定すること (これらの特徴は、優れた検出能力を発揮する関係で、ノイズに対して強固である必要があることから、自然環境におけるうつ病の検出に有効活用できます)。
- 音声システムにおける、発声によるバイオマーカーに現れる状況は、「はい」や「いいえ」による2つの値だけではないことから、多次元的な分析を求めること(これにより、うつ病に罹患する人に対して、自動検出システムを使用する際に発声によるバイオマーカーが可視性または存在性を保つことができるよう、適切なタスクやそのタスクを実行する時間について、事前に決定することが必要となります)。

本検出に必要となる時間、またはタスクベースによる検出しきい値 (TBDT) は、性別や、うつ病の重症度、年齢によって異なる場合があります。したがって、本発明のシステムおよびその使用法が症状に対する安定した検出範囲を持つことができるように、音声タスクを効率的な順序で配置することで検出しきい値および検出信頼性指標スコア (DCMS) を特定できる手順を実施する必要があります。

本開示の実施形態には、 プロトコル構築エンジンが含まれる場合もあります。
機械学習を活用した自動音声処理は、デジタルヘルスケア分野にて使用頻度がいっそう高まっており、非侵襲的で遠隔操作にも対応できる医療スクリーニングツールとして、大きな可能性を持っています。しかし、音声処理に使用されるプロトコルをより理解するとともに、特定の基準を持つ新しいプロトコルを作成するために役立つ測定を実行する必要があるのです。

図4は、有用な音声基準を形成する音声構成要素間における、既知の相互作用を示しています。

医療従事者は、患者のさまざまな身体的障害に対するスクリーニングや、診断、およびモニタリングのために言語評価を活用しています。本評価中にて、臨床医は、患者の言語による発声の生成状況を観察しますが、これには、発音、呼吸、発声、声質だけでなく、文法、語用、記憶、表現力などの患者自身の言語能力も含まれます。異常を伴う言語による発声や言語的症状は、さまざまな身体的障害や疾病に関する早期的兆候である場合がよくあります。

回答受信モジュール (204) に関する少なくとも1つの実施形態には、ユーザーが事前定義されたタスクやプロンプトに基づいて文章を読むことを可能にする、文章読み上げモジュールが構成されています。音声読み上げプロトコルを活用する利点として、使いやすさはもちろん、再現実行性、明確な参照ポイントをスムーズに提供できること、また、使用される音に関する範囲が限定されていることや、音に関するバリエーションがコントロールされていることが挙げられます。さらに、これらは、デジタルスマートデバイス・アプリケーションに統合することも、比較的簡単に進められるのです。患者の健康状態を分析するための音声読み上げプロトコルを選択する際は、話者の背景や、焦点を当てるべき特定の疾病、作業に必要な時間やサンプル数などの要素を十分に考慮することが非常に重要となります。

文章読み上げモジュールに関する少なくとも1つの実施形態において、感情に基づく、固定された読み上げ文章のサンプルが提供されています。

図5は、固定された読み上げ文章に関する1つのサンプルを示しています。
図6は、ユーザーによる文章の読み上げに基づく、音調を含まない音素マップを示しています。
図7は、固定された読み上げ文章に関する別のサンプルを示しています。
図8は、ユーザによる文章の読み上げに基づく、音素対出現回数に関するグラフを示しています。

本開示の実施形態には、構築された各タスクに対して特徴構築機能を持つ特徴モジュールが含まれており、これらの特徴は、学習可能なヒューリスティック型評価タスクの観点から定義された特徴を定義されています。

特徴構築機能に関する少なくとも1つの実施形態において、Geneva 最小音響パラメータセット (GeMAPS) を活用しています。Geneva 最小音響パラメータセットは、音声分析に活用される、62 のパラメータのセットです。3フレームの長さの対称移動平均フィルタを活用することで、時間の経過に伴って平滑化し、本平滑化は、ピッチ、ジッター、およびシマーにおける有声領域内のみにて実行されます。算術平均と変動係数が、18 のすべての LLD (低水準記述) において関数として適用されることで、36 のパラメータが生成されます。さらに、音量とピッチに 8 つの関数が適用され、すべての無声セグメントにおいて、アルファ比、ハマーバーグ指数、およびのスペクトル勾配 (0~500Hzと500~1500Hz) の算術平均が含まれます。音量ピークの発生率や、連続有声音および無声音領域における平均長および標準偏差、また、1秒あたりの連続有声音領域の数といった時間的特徴も含まれています。有声音領域や無声音領域に最小長が課されておらず、F0 (基本周波数) 輪郭のビタビベースによる平滑化を実行し、エラーによって単一の有声音フレームが欠落することを防止します。

eGeMAPS (Geneva 最小音響パラメータセット) は、発声、音声、音楽の分析に使用される特徴セットであり、openSMILE (言語および感情認識向けミュンヘン工科大学開発オープンソース・マルチモーダル・インターフェース)で使用され、eGeMAPSは、より規模の大きい Geneva 最小音響パラメータセット (GeMAPS) の部分的なセットであり、特に感情認識のタスク向けにに設計されています。これには、音声信号に関するスペクトル、ピッチ、時間的特性を分析するための低水準記述子 (LLDs) のセットが含まれています。特徴には、以下のものが含まれます。
・ メル周波数ケプストラル係数(MFCCs)とその1次および2次導関数
・ ピッチおよびピッチ変動性
・ エネルギーおよびエネルギーエントロピー
・ スペクトルの重心、広がり、および平坦性
・ スペクトル傾斜
・ スペクトルロールオフ
・ スペクトル変動性
・ ゼロ交差率
・ シマー、ジッター、ハーモニック・トゥ・ノイズ (高調波対雑音)比
・ (ピッチに基づく) 発声確率
・ 音量ピーク率、連続的な有声音領域および無声音領域における平均長さと標準偏差などに関する時間的特徴
合計で、87 の特徴が含まれています。

eGeMAPS は、さまざまな状況に対して強固な分析性能を発揮できる最小限の特徴セットとして設計されています。
録音条件や話者の特性に対して強固に性能を発揮し、複数の感情認識タスクにおいてもその効果が示されています。

振幅関連のパラメータ
・ ピッチ (27.5 Hz (半音0) から開始し、対数的な基本周波 (F0) を半音階の周波数スケールにて測定します)
・ ジッター (個々の連続する F0 期間の長さに関する偏差)
・ フォルマント1、2、3の周波数 (第1、第2、第3のフォルマントに関する中心周波数)
・ フォルマント1 (第1フォルマントに関する帯域幅)
・ エネルギー/振幅関連のパラメータ
・ シマー (連続するF0期間におけるピーク振幅の差)
・ 音量 (聴覚スペクトルから知覚される信号強度に関する推定値)
・ ハーモニック・トゥ・ノイズ (HNR-)比 (高調波成分を含むエネルギーとノイズのような成分を含むエネルギーとの関係比率)
・ スペクトル (バランス) パラメータ
・ アルファ比 (50~1000 Hz および 1~5 kHzの合計エネルギーに関する比率)
・ ハマーバーグ指数 (0~2 kHz領域における最も強いエネルギーピークと2~5 kHz領域における最も強いピークに関する比率)
・ スペクトル傾斜 (0~500 Hz および 500~1500 Hz という指定された 2 つの帯域内における対数パワースペクトルに関する線形回帰の傾き)
・ フォルマント1、2、3の相対エネルギー (第1、第2、第3フォルマントの中心周波数におけるスペクトル高調波ピークに関するエネルギーと、基本周波数(F0)におけるスペクトルピークに関するエネルギーとの比率)
・ 高調波差 H1‐H2 (基本周波数(F0)の第1高調波(H1)に関するエネルギーと、第2高調波(H2)に関するエネルギーとの比率)
・ 高調波差 H1‐A3 (基本周波数(F0)の第1高調波(H1)に関するエネルギーと、第3フォルマントの範囲内における最も高い高調波(A3)に関するエネルギーとの比率)

特徴構築機能に関する少なくとも1つの実施形態において、高次スペクトル解析 (HOSA) 関数が使用されています。高次スペクトル解析 (HOSA) 関数は、2つ以上から構成される成分周波数の関数であり、これは単一の周波数の関数であるパワースペクトラムとは対照的なものです。これらのスペクトル解析関数は、フーリエ成分間の位相結合を識別するために使用することができ、特に、システム内における非線形性を検出して特徴評価を進めるのに非常に役立ちます。これを実現するために、高次スペクトル解析における振幅は、成分周波数でのパワーによって正規化されることになります。正規化されたスペクトル解析関数は、n次のコヒーレンス指数とも呼ばれ、n次のキュムラントスペクトラムとパワースペクトラムを組み合わせた関数でもあります。

バイスペクトラムは、信号内の周波数成分間における関係を分析するために三次キュムラントを使用する方法であり、非線形信号の調査に特に役立ちます。バイスペクトラムは、周波数成分間の位相関係に関する情報を提供することから、スペクトル領域では示されない情報が含まれており、パワースペクトラムよりも情報量が多いことが大きな特徴です。高次統計は、位相成分間における関係を取り込むことができることから、非線形信号を研究するのに非常に効果的な方法となります。バイスペクトラムでは、スペクトル領域では示されない情報を示すことから、この目的において最適な方法の1つです。

図9は、ユーザーのさまざまな精神状態に対する HOSA (高次スペクトル解析) 関数の表現に関する内容を示しています。

本開示の実施形態には、ランク付けされたタスク、ランク付けされた質問群から選択された少なくとも1つを考慮した変数/ヒューリスティック型評価モデルを備えた特徴抽出機能を含む、特徴モジュールが含まれる場合があります。好ましい実施形態において、質問ごとまたはタスクごとの程度は異なり、学習可能な性質を備えています。好ましい実施形態において、特徴抽出機能は中間水準における融合を使用し、より高い水準における特徴埋め込みを融合します。

本段落においては、特徴抽出機能の実施形態について説明しています。タスク (例えば、音響的な質問) をトレーニングする際、刺激 (例えば、質問) ごとに学習可能な程度を備えた専用の特徴抽出機能が割り当てられる場合があります。
好ましい実施形態において、言語タスク/刺激(質問) には、刺激 (例えば、質問) ごとに学習可能な程度を備えた専用の言語特徴抽出機能が割り当てられる場合があります。
好ましい実施形態において、感情タスク/刺激(質問) には、刺激 (例えば、質問) ごとに学習可能な程度を備えた専用の感情特徴抽出機能が割り当てられる場合があります。
好ましい実施形態において、セレクターは、信号対雑音比、回答 (発声) の明瞭性など、事前に設定されたしきい値に基づき、回答ベクトルのサンプルをランダムに選択するように構成されています。

本開示の実施形態には、トレーニング用のデータバッチがバランスよく整えられるまでは、回答ベクトルをランダムにアップサンプリングまたはダウンサンプリングするように構成されたデータローダーが含まれる場合があります。データローダーを構築する際、トレーニング用のデータバッチがバランスよく整えられるまでは、適切な形でアップサンプリングまたはダウンサンプリングをランダムに実行します。実施形態には、データの順序性により、分類問題においてハードラベルの代わりにソフトラベルを使用するようにシステムおよび方法が構成されることが含まれる場合もあります。

一元的な感情特徴表現を活用しようとする試みにも関わらず、既存の技術では、特徴が区別されにくく、音声認識タスクにおける感情間の動的な相互作用を効果的に把握できる能力も不足していることから、認識を実現するのに不十分であることが証明されています。したがって、本開示の実施形態には、前述のさまざまな出力刺激やユーザーの状態を融合するように構成された特徴融合モジュールを備える特徴モジュールが含まれる場合もあります。通常、特徴融合モジュールは、回答受信モジュール (204) と連携して機能します。
好ましい実施形態において、特徴融合モジュールは、高水準の特徴抽出機能を備えた音声モダリティと、少なくともオートエンコーダベースによる特徴融合を活用することで、複数のタイプの回答ベクトルから精神衛生に関する状態を分類するように構成されています。好ましい実施形態において、音声モダリティは、回答ベクトルにおける時間周波数領域の関係から高水準の特徴を抽出するために、特定の質問による特徴抽出機能を使用します。ここでの出力は、抽出された高水準の音声特徴となります。
好ましい実施形態において、特徴融合モジュールは、高水準の特徴抽出機能を備えたテキストモダリティと、少なくともオートエンコーダベースによる特徴融合を活用することで、複数のタイプの回答ベクトルから感情を分類するように構成されています。好ましい実施形態において、テキストモダリティは、双方向長短期記憶ネットワークと注意メカニズムを使用することで、モーダル内ダイナミクスをシミュレートします。ここでの出力は、抽出された高水準のテキスト特徴となります。

音声モダリティ、特徴融合モジュールに関する好ましい実施形態において、システムおよびその使用法では、生の音声入力が使用される huBert、Wav2vec、Whisper などによる事前トレーニング済みモデルからの音響特徴埋め込みの特徴を活用することで、事前トレーニング済みモデルからの高水準の埋め込み、つまり高次元のベクトル埋め込みが抽出されます。同様に、本発明におけるシステムおよびその使用法では、(GeMAPS や emobase egemap から) 音響特徴埋め込みを抽出し、スペクトル領域にて比較を行います。また、本システムおよびその使用法によれば、ログメルスペクトログラムや MFCC (メル周波数ケプストラム係数) だけでなく、高次スペクトル特徴 (HOSA) も抽出され、さらに心理運動遅滞および神経筋活動特徴も声道の調整特性と反復定量分析特性を活用することで抽出されます。バイグラム数およびバイグラム持続時間は、発音の有効性を示す発声ランドマークを活用して計算されます。すべての特徴は、オートエンコーダを用いて融合し、特徴に関する非線形性は、潜在特徴空間において特徴融合する際に保持されます。

以前の研究によれば、語彙情報を活用することで、感情価の推定パフォーマンスを向上させることが示されています。語彙情報は、事前トレーニング済みの音響モデルから得られ、学習された表現により、発声からの感情価の推定パフォーマンスを向上させることができます。本発明のシステムおよびその使用法では、事前トレーニング済みモデルの表現の活用についても探求するとともに、神経筋協調特徴のような特定のタスクに特化した特徴抽出機能によって心理運動遅滞を評価しながら、発声信号からのうつ病バイオマーカーの推定性能を向上させます。本発明のシステムおよびその使用法では、うつ病バイオマーカーの推定性能を向上させるため、表現に関する融合についても探求します。人間の発声によるコミュニケーションは、言葉とそれが持つ意味の形でメッセージを伝える言語層と、声が持つ表現力や感情的なトーンなどの言葉がどのように話されたかを伝えるパラ言語層という、大まかに2つの層から構成されています。

事前トレーニング済みモデルが自己教師あり学習アーキテクチャを備え、それによって公開される大規模な発声データセットの存在を踏まえると、これらの事前トレーニング済みモデルによって生成される表現には、感情価の推定をよりスムーズに実行するのに役立つ語彙情報が含まれている可能性があると推測できます。

本発明に関する一部の実施形態において、システムおよびその使用法が、サブワードに関するさまざなレベルから音声埋め込みを抽出することができるように、マルチモーダル粒度によるフレームワークを探求します。図において、関連するモデルから抽出された埋め込みが、通常はフレームレベルの埋め込みであることが示されているとともに、フレームレベルの情報を豊富に取得するのにも効果的であることが示されています。しかし、これは、うつ病バイオマーカーを識別するのに役立つセグメントレベルでの情報を把握する能力に欠けているのです。これにより、本発明のシステムおよび使用法では、フレームレベルの埋め込みだけでなく、音韻に密接に関連する単語、音素、および音節水準の埋め込みを含むセグメントレベルの埋め込みを導入します。音韻には、言語による発声のリズム(ケイデンス)に関する情報が含まれていることから、発話における特徴(例えば、うつ病の状態など)を伝えることができます。その結果、セグメントレベルの埋め込みは、マルチモーダルによるうつ病バイオマーカー認識において、非常に役立つ可能性があるのです。

強制アラインメント方式を使用することで、音素の時間的境界を取得することができ、それをグループ化して音節の境界を取得することができます。強制アラインメント情報が提供された後、それらの言語単位に対応した関連する音声セグメントを抽出することができます。

本開示の実施形態には、 発声ランドマーク抽出機能が含まれる場合もあります。
発声ランドマークとは、言語による発声の発音に関連するイベントマーカーになります。これらは、子音の閉鎖や解放、鼻音の閉鎖や解放、滑音の最小値、母音の最大値などの時間における音響イベントの位置のみを頼りに、声帯の振動などの発音イベントに関する情報を提供してくれます。フレームベースによる処理フレームワークとは異なり、ランドマーク方式では、フレームに依拠することなく、発話における明瞭度に関する急激な変化を示すタイムスタンプ境界を検出することができます。本アプローチであれば、フレームベースによる処理の代替手段を提供するとともに、言語による発声における音響的に測定可能な変化に対して焦点を当てることで、その欠点を回避することもできるでしょう。VTH (声道調整) は、6 つのランドマークを採用しており、それぞれに開始状態と終了状態があります。これらは、「g (喉頭)」、「p (周期性)」、「s (鳴り音)」、「f (摩擦音)」、「v (有声摩擦音)」、および「b (破裂音)」というランドマークであり、異なる突発的な発声イベントが起こる時間点を特定するために使用されます。そして、これらは、複数の周波数範囲および複数の時間スケールにわたる、発声に関するエネルギーの強さの急激な変化 (つまり、上昇または下降) の重要なエビデンスを観察することによって検出されます。ランドマークにおいて、「s」と「v」は有声音に関連し、「f」と「b」は無声音に関連するものとなります。

本開示の実施形態には、 声道調整エンジンが含まれる場合もあります。
VTC 特徴には、うつ病に関連する精神運動活動を把握する能力があることが示されており、うつ病の重症度予測に関する2つの A VEC チャレンジにて最も成功を収めています。これは、うつ病患者の声道パラメータが、健康な話者と比較すると「調整性」 (相関性) が低いという観察に基づくものです。
【表3】

図10は、10秒間の音声ファイルから抽出された、第1および第2デルタMFCCs (メル周波数ケプストラル係数) 間における自己相関および相互相関を示しており、精神運動遅滞を反映する音響ファイルから遅延相関を抽出するためのフレームワークを示しています。

図11は、オートエンコーダに関する概略ブロック図を示しています。

本開示の実施形態には、オートエンコーダを含む場合があり、本オートエンコーダは、回答受信モジュール (204) と連動して動作する特徴融合モジュールの音声モダリティと、(回答受信モジュール (204) と連携して動作する特徴融合モジュールの) テキストモダリティとの間における関係について、刺激出力モジュール (202) と調整することで定義します。本オートエンコーダは、前述の処理、つまり音声モダリティおよびテキストモダリティの処理が完了した後、抽出された高水準のテキスト特徴および抽出された高水準の音声特徴を並行してオートエンコーダに供給することで、感情分類のための共有表現機能データセットを出力するように構成されています。本システムおよびその使用法についてのユニークな点は、共有表現特徴データセットの再構築におけるオートエンコーダの精度を測定し、再構築エラーを最小限に抑えるだけでなく、感情認識モジュール (300) におけるうつ病検出のパフォーマンスも評価できることにあります。

この点は、オートエンコーダを使用して、入力データから高水準の特徴を学習することにのみに焦点を当てている従来のシステムやその使用法とは大きく異なるものです。オートエンコーダは、非線形的な方法により、低水準の共有表現を把握することに優れています。この大きな強みは、現在の発明のシステムや使用法に利用されていますが、固定的な閉じられたタスク (例えば、段落の読み上げ、数え上げ、または音素発音のタスク) では、最適な特定の質問による特徴抽出機能を用いて評価される一方で、自由度の高いタスク (質問) では、損失を最適化しながら、音声およびテキストの両方のモダリティにて評価されます。

オートエンコーダは、音声データの特徴融合に使用できる、ニューラルネットワークのタイプの1つです。オートエンコーダは、複数のモダリティ (例えば、音声表現やテキスト表現) からのデータを単一の共同表現に結合することにより、マルチモーダル特徴融合に使用できます。これは、オートエンコーダをトレーニングして入力データを低次元空間にエンコードした後で、元の空間にデコードすることによって実行することができます。ここでエンコードされる表現は、ボトルネック、または入力データから最も重要な情報を把握したコンパクトな特徴表現となります。

音声データのマルチモーダル特徴融合に使用されるオートエンコーダ・アーキテクチャに関する詳しい概要
1. 音声データやその他のモダリティに関するデータを収集するとともに、前処理を実行します。
2. エンコーダおよびデコーダによるオートエンコーダ・アーキテクチャを構築します。
3. エンコーダは、音声やその他のモダリティからの入力データを取得し、それを低次元の表現 (ボトルネックまたは潜在的な表現) に圧縮します。
4. デコーダは、ボトルネック表現を取得し、元の入力データを再構築します。
5. 両方のモダリティからの入力データをエンコーダに入力内容として提供し、元の入力データをデコーダのターゲット出力として用いることにより、オートエンコーダをトレーニングします。
6. トレーニング後、ボトルネック表現は、両方のモダリティの融合された特徴表現として使用されます。
7. この融合された特徴表現は、分類やクラスタリングなどの、より高度な分析のために使用することができます。

中間的な融合戦略では、事前の知識を活用することで、各モダリティのマージナルな表現を学習し、モダリティ内の相関関係を発見して、その内容によって共同表現を学習するか、直接的に予測を実行します。

中間的な融合戦略は、マージナルな表現を同様の規模に強制することで、モダリティ間における次元的不均衡を緩和することができますが、不均衡が非常に大きい場合に、規模の大きいモダリティの次元を過度に削減してしまうと、重要な情報の大幅な損失を招く可能性があります。しかし、低次元モダリティの入力特徴が事前の知識に基づいて選択されている場合には、不均衡が必ずしもパフォーマンスの低下につながるわけではありません。

現在の発明のデータセット内にある各発声タスクは、非常に特定の感情的派生語に寄与しています。例えば、段落1の言葉は、中立的な感情と組み合わされた、主にポジティブな感情を持つ言葉にて構成されており、これによって、健康な個人が発話する際には、ポジティブな意図を持つように導かれます。つまり、段落内の言葉が、異なる感情 (ポジティブ、ネガティブ、中立的) と組み合わされて発話されることで、音響情報に関連する感情情報を把握できることとなり、これは健康な人と患者との間にある音素や感情情報の差異を検出する重要な指標となります。

異なる質問を同じモデルで使用するために、発明者たちは各質問に、0-Nのベクトルである質問埋め込みを割り当てます。この特定の質問による特徴抽出機能は、どの単語、音素、および音節水準の埋め込みがデータから抽出される必要があるかを事前に把握しており、中間水準の特徴融合のために強制的に整列されます。

事前の知識は、言語学者や音声学の専門家から得ることができる、特定のタスクやモデル評価プロセスから検証されたタスクの順序に関するものです。このプロセスは、生の音声信号に対して SHAP 値を活用して統合勾配を開発することで実行されます。

図12Aは、非限定的な例示的実施形態において、少なくとも1つのタイプの対応するタスク (質問) についてのグラフを示しており、元のラベルは「健康」であり、グラフはモデル予測と正の相関関係にある音素やセグメントを示しています。エリアは、音声ファイルの中で高い活性化の特徴を持つ言語による発声を強調表示しています。
図12Bは、非限定的な例示的実施形態において、少なくとも1つのタイプのタスク (質問) についてのグラフを示しており、元のラベルは「うつ病」であり、グラフはモデル予測と正の相関関係にある音素やセグメントを示しています。エリアは、第2のユーザー (開始時間 0秒) に対して、高い活性化の特徴を持つ言語による発声を強調表示しています。
図12Cは、非限定的な例示的実施形態において、少なくとも1つのタイプのタスク (質問) についてのグラフを示しており、元のラベルは「健康」であり、グラフはモデル予測と正の相関関係にある音素やセグメントを示しています。エリアは、第3のユーザー (開始時間 0秒) に対して、高い活性化の特徴を持つ言語による発声を強調表示しています。
図12Dは、非限定的な例示的実施形態において、少なくとも1つのタイプのタスク (質問) についてのグラフを示しており、元のラベルは「うつ病」であり、グラフはモデル予測と正の相関関係にある音素やセグメントを示しています。エリアは、第4のユーザー (開始時間 1秒) に対して、高い活性化の特徴を持つ言語による発声を強調表示しています。
図12Eは、非限定的な例示的実施形態において、少なくとも1つのタイプのタスク (質問) についてのグラフを示しており、元のラベルは「健康」であり、グラフはモデル予測と正の相関関係にある音素やセグメントを示しています。エリアは、第5のユーザー (開始時間 0秒) に対して、高い活性化の特徴を持つ言語による発声を強調表示しています。
図12Fは、非限定的な例示的実施形態において、少なくとも1つのタイプのタスク (質問) についてのグラフを示しており、元のラベルは「うつ病」であり、グラフはモデル予測と正の相関関係にある音素やセグメントを示しています。エリアは、第6のユーザー (開始時間 0秒) に対して、高い活性化の特徴を持つ言語による発声を強調表示しています。
図12Gは、非限定的な例示的実施形態において、少なくとも1つのタイプのタスク (質問) についてのグラフを示しており、元のラベルは「健康」であり、グラフはモデル予測と正の相関関係にある音素やセグメントを示しています。エリアは、第7のユーザー (開始時間 10秒) に対して、高い活性化の特徴を持つ言語による発声を強調表示しています。
図12Hは、非限定的な例示的実施形態において、少なくとも1つのタイプのタスク (質問) についてのグラフを示しており、元のラベルは「うつ病」であり、グラフはモデル予測と正の相関関係にある音素やセグメントを示しています。エリアは、第8のユーザー (開始時間 0秒) に対して、高い活性化の特徴を持つ言語による発声を強調表示しています。

オートエンコーダベースによるマルチモーダル・マルチ質問入力融合アーキテクチャの数式は、以下のように表現することができます。
X1、X2、X3、...、Xn を、n個のモダリティ (音声、テキストなど) とし、Q1、Q2、Q3、...、Qm を、m個の質問とします。各質問には、質問タイプに基づき、エンコードされた行列の学習可能な程度が乗算されます。

エンコーダ関数Eは、n個のモダリティと m個の質問を、低次元表現Z にマッピングします。
Z = E(X1, X2, X3, ..., Xn, Q1, Q2, Q3, ..., Qm)

デコーダ関数Dは、
低次元表現Z を元の入力空間にマッピングします。
X'1, X'2, X'3, ..., X'n = D(Z)

オートエンコーダは、通常、平均二乗誤差 (MSE) やクロスエントロピーなどの損失関数を活用することで、元の入力内容とデコーダ出力との間における再構築エラーを最小限に抑えるようにトレーニングされます。
L = 1/nm Σ (X'i - Xi)^2 or L = - 1/nm Σ Xi * log(X'i)

低次元表現Zは、n個のモダリティと m個の質問の融合された特徴表現であり、分類やクラスタリングなどのさらなる分析に使用することができ、
また、エンコーダの程度は、うつ病の分類という下流タスクのための特徴抽出機能として使用されます。

オートエンコーダベースによる特徴融合は、以下の方法にて得られます。まず、音声入力およびそれぞれのテキスト入力における隠された表現は、それぞれ HuBERT および BERT モデルや精神運動遅延特徴を使用して得られます。データセットには、多数の質問に対して、類似する回答が含まれているため、質問 ID を表す程度も全体的なモデルに入力されます。質問IDの程度は、テキストに隠された特徴に対して、要素ごとに乗算されます。結果として得られるテキストおよび音声の埋め込みは、強制アライメントによって連結され、このように連結された特徴は、ボトルネック層から融合された表現を得る目的にて、オートエンコーダモデルをトレーニングするために使用されます。(ボトルネック層までの) 学習済みのオートエンコーダの程度が、1つのモデルに読み込まれ、ボトルネック層に分類機能ヘッドを接続して、分類モデルをトレーニングします。

一部の実施形態において、被験者 (ユーザー) は、クライアントデバイス (112, 114, 116, 118) を通じて、刺激出力モジュール (202) からのデータに回答において、回答受信モジュール (204) にてアクセスし、自分の回答を記録します。

少なくとも1つの実施形態において、さまざまなベクトルエンジン (232, 234, 236, 238) は、ネットワークサーバー (100) の一部として構成され、さらに、感情認識モジュール (300) および自動発声認識モジュール (400) に通信可能可能な状態にて接続されています。

好ましい実施形態において、クライアントデバイス (112, 114, 116, 118) での回答は、16kHz のサンプリングレートでサンプリングされた後、ネットワークサーバー (100) に送信が返され、そこから感情認識モジュール (300) に送信されます。本感情認識モジュール (300) は、1つ以上の感情ベクトルを通じて、複数の感情クラスを生成し、それを1つ以上の刺激と交互に組み合わせて、それぞれの信頼度スコアとともに出力します。感情が、事前に設定された信頼度スコアにて、目標とする誘発感情と一致しない場合は、ユーザーは再度回答するよう求められます。一部の実施形態において、第1に事前定義された刺激と第1に定義された感情ベクトルが、刺激出力モジュール (202) を通じてユーザーに提示され、回答や関連する回答ベクトルが回答受信モジュール (204) を通じて記録されます。一部の実施形態において、第2に事前定義された刺激と第1に事前定義された感情ベクトルが、刺激出力モジュール (202) を通じてユーザーに提示され、回答や関連する回答ベクトルが回答受信モジュール (204) を通じて記録されます。これにより、特定の事前定義された刺激は、1つ以上の事前定義された感情ベクトルにて構成され、刺激出力モジュール (202) を通じて、刺激と感情ベクトルのさまざまな組み合わせがユーザーに提示され、回答や関連する回答ベクトルが回答受信モジュール (204) を通じて記録されます。

好ましい実施形態において、クライアントデバイス (112, 114, 116, 118) での回答は、16kHz のサンプリングレートでサンプリングされた後、ネットワークサーバー (100) に送信が返され、そこから自動発声認識モジュール (400) に送信されます。回答データも、自動発声認識技術により文字起こしされます。

少なくとも1つの実施形態において、回答データ、関連する文字起こし内容、そして認識された感情は、サーバーのトレーニング用ストレージやトレーニング用データベース(122) に保存されます。

少なくとも1つの実施形態において、反復および優先順位付けモジュールは、受信した回答に対して適用される事前定義されたルールに基づき、刺激を優先順位付けするように構成されています。例えば、異なる感情刺激に中立的な刺激を挟んで区別したり、悲しみの前に幸せを提示するなどが挙げられます。そのような場合、保存されたデータには、刺激に関する質問の順序を反映するべきです。

少なくとも1つの実施形態において、ネットワーク接続サーバー (100) は、発声記録およびテキスト回答に基づき、精神衛生問題を分類するためにトレーニングされるように構成された人工知能 (AI) モジュールである、マルチモーダル精神衛生分類機能 (500) (前述のオートエンコーダ) と通信可能な状態にて接続されています。

人工知能 (「AI」) モジュールは、刺激および回答について構造化されたデータセットや非構造化されたデータセットにてトレーニングされる場合があります。トレーニングは、教師あり学習、教師なし学習、またはその両方の組み合わせにて実行される場合があります。機械学習 (ML) および AI アルゴリズムは、さまざまなモジュールから学習することを目的に活用される場合があります。AI モジュールは、刺激に対する回答、刺激の順序、回答の遅延などを特定するために、ベクトルエンジンにクエリを実行することで、ユーザーの精神衛生状態に関するルール (信頼度スコアによって定義される) を学習することができます。ディープ・ラーニングモデル、ニューラル・ネットワーク、ディープ・ビリーフネットワーク、決定木、遺伝的アルゴリズム、その他の ML および AI モデルは、単独または組み合わせによって使用され、ソリューショングリッドから学習することができます。
人工知能 (「AI」) モジュールは、CNN (畳み込みニューラルネットワーク) とLSTM (長短期記憶) の連続的な組み合わせにて構成される場合があります。

原波形に関する高水準表現と短期的な時間変動、および長期的な時間変動を捉えることにより、特定の精神衛生状態 (うつ病) に苦しむユーザー (対象者) 特有の声のバイオマーカーと言語モデルとの関係を正確に構築するために使用されます。モデルは、運動皮質が影響を受けることによって現れるうつ病に関連する時間的手がかりをエンコードしますが、この際に、深い特徴と浅い特徴を比較して考慮します。

データ収集について述べた部分で触れたように、データは異なる順番で提示される質問や刺激に基づいて収集されました。前述のトレーニングプロセスは、誘発された感情からのパフォーマンス向上が先導的な質問によって影響を受けていないことを保証するために、この特殊なデータセットに対しても再度実行されました。

現在のデータ規模を踏まえると、はっきりとした結果や傾向は見られませんでした。本発明のシステムやその使用法では、さまざまな順序や組み合わせにより、データがいっそう収集されていくことから、いつか新たな発見が得られるかもしれません。それが実現した際には、これらのさまざまな「実験」による結果を比較することで、最適な刺激の順序を効率的に選び出すことができるようになります。

図13はフローチャートを示しています。

ステップ1: ユーザーに刺激を提示することで、音響的な回答を引き出します。
ステップ2: さまざまな刺激に関わる、感情に関連したベクトルを保存します。
ステップ3: ユーザーの音響回答を記録します。
ステップ4: ユーザーの記録された音響回答に関するテキスト版を文字起こしして記録します。
ステップ4a:必要に応じて、ユーザーの生理学的回答を記録します。
ステップ5: ユーザーの音響回答からベクトルを抽出して分析を進め、感情認識 (マルチクラスの感情を生み出す感情検出モデルを通じて得られます。) を感情認識情報の観点から分類します。
ステップ6: 感情認識情報の観点から感情認識を実行するために、ユーザーのテキスト回答からベクトルを抽出して分析を進めます。
ステップ6a:必要に応じて、ユーザーの生理学的回答からベクトルを抽出して分析を進め、感情認識 (マルチクラスの感情を生み出す感情検出モデルを通じて得られます。) を感情認識情報の観点から実行します。
ステップ7: テキスト回答からの感情認識情報とトレーニングデータセットからの感情信号ベクトルについて、さまざまな刺激に関連する感情に関するベクトルとの相関関係にて比較し、第1の空間ベクトル距離と第1の程度付けされたベクトル差を取得します。
ステップ7a.1:必要に応じて、まず特定の刺激に関するトレーニングデータセットの分析を進め、その刺激に対する患者の回答から、事前設定されたパーセンタイルを活用して最も関連性の高い感情とその感情に対する信頼度スコアのしきい値を抽出します。
ステップ7a.2:与えられた刺激に関連して、ユーザーの回答から得られる感情とその感情に対する信頼度スコアのしきい値をデータベースに記録します。
ステップ7a.3:実行時に、各入力に対して、感情クラスや信頼度スコアを取得し、STEP 7a.2 で記録されたデータと比較します。
ステップ8: 音声回答からの感情認識情報とトレーニングデータセットからの感情信号ベクトルについて、さまざまな刺激に関連する感情に関するベクトルとの相関関係にて比較し、第2の空間ベクトル距離と第2の程度付けされたベクトル差を取得します。
ステップ8a:必要に応じて、生理学的回答からの感情認識情報とトレーニングデータセットからの感情信号ベクトルについて、さまざまな刺激に関連する感情に関するベクトルとの相関関係にて比較し、第3の空間ベクトル距離と第3の程度付けされたベクトル差を取得します。
ステップ8b:必要に応じて、ステップ7 とステップ8 の代替手段として、異なるモダリティ (音響、テキスト、物理的な回答) からの感情認識情報を使用して感情出力を取得した後、それを感情信号ベクトルと比較します。
ステップ9: 第1の空間ベクトル距離、第1の程度付けベクトル差、第2の空間ベクトル距離、第2の程度付けベクトル差をインテリジェントに統合し、第1の信頼度スコアを取得します。
ステップ10: 必要に応じて、第1の空間ベクトル距離、第1の程度付けベクトル差、第2の空間ベクトル距離、第2の程度付けベクトル差、第3の空間ベクトル距離、第3の程度付けベクトル差をインテリジェントに統合し、第2の信頼度スコアを取得します。
ステップ11: 刺激を反復提示 (ステップ1) し、認識された感情に基づき、第1の信頼度スコアや 第2の信頼度スコアに関して、さらなる音響回答から文字起こしされたテキスト回答を取得します。

図14は、感情刺激を伴う音声ベースによる精神衛生評価において、高水準におけるフローチャートを示しています。

限定されない例示的な実施形態において、発明されたシステムのパフォーマンスに対する誘発された感情 (例えば、マルチメディア出力刺激を通じて提示される刺激) の影響を捉えるために、与えられた特定のデータセットを活用して、誘発された感情ごとにモデルがトレーニングされています。ここでは、さまざまなモデルのパフォーマンスを比較するために比較 (n倍の交差検証または専用の検証セットのいずれかを使用して実行できます) が進められ、最も優れたパフォーマンスを示した上位 3 つの質問 (刺激) が選択されています。また、代替な手法としては、すべてのデータを組み合わせて 1 つのモデルをトレーニングした後、1 つの刺激に対する回答のみで構成される検証セットに対してモデルを実行することが挙げられます。次に、単一の測定値 (例えば、AUROC など) を使用して、各刺激のモデルに関するパフォーマンスを比較するとともに、上位 3 つの刺激を選択します。

ユーザーは、それぞれのクライアントデバイスを使用することで、自分の好きな環境において、刺激に対して1つずつ回答します。本発明のシステムおよびその使用法では、受信した各回答に対して、いくつかの前処理および検証 (例えば、発声の活性化、緩い長さのチェックなど) を実行した後、感情認識モデル (200) を通じて感情認識プロセスへと進みます。認識された感情とその信頼度スコアによって誘発された感情と一致する場合、本発明のシステムおよびその使用法では、次の段階の質問へと進みます。感情が一致しない場合、本発明のシステムおよびその使用法では、再度同じ刺激を提示することで、ユーザーに適切な回答を促すプロセスを実行します。本プロセスは、継続して実行されます。ユーザーが同じ刺激に対して回答を試みたものの、一定の回数基準を超え、感情認識が依然として失敗してしまう場合、同じ誘発感情の下において類似した代替的な刺激を活用して提示します。また、このように回答試行回数が特定のしきい値を超える場合、本発明のシステムおよびその使用法では、収集されたデータの信頼性が低いことをユーザーに警告しながら評価を進めることができます。

収集された回答と対応する刺激の記録が、マルチモーダル精神衛生分類機能 (500) に送信されると、その分類機能によって現在のユーザーの精神衛生状態やそれに関連するリスク指数を評価されます。好ましい実施形態において、悲しみ誘発感情に対する自由度の高い分類結果が優先され、最終結果の計算において高い程度付けがなされると、評価レポートが作成されるとともに、リアルタイムの音声またはテキスト (クライアントデバイスを通じて)、または非リアルタイム (例えば、メールやメッセージなど) にて、ユーザーおよびプロバイダーに送信が返されます。

誘発されたすべての感情 (刺激に対する回答) に対する結果は、評価結果の記憶用ストレージや評価結果のデータベース (124) に記録されます。

以下の表1は、上位の誘発感情の質問に対する、モデルのパフォーマンスに関する測定基準 (10 回の平均値) を示しています。本発明のシステムおよびその使用法では、誘発された感情と感情認識を活用することで、他のマルチモーダル技術よりも優れており、手作業で設計された特徴を持つモデルと比較すると、そのパフォーマンスは 10% 以上も向上することになります。
【表1】
本発明の技術的利点は、ユーザーからの発声入力を処理する際に、感情の誘発やその感情認識を組み合わせて活用することで、従来よりもはるかに優れた感度や特異性を発揮でき、声に基づく良質な精神衛生評価およびモニタリングシステムを提供することにあります。

本発明の技術的進歩は、発声ベースによる精神衛生評価システムおよびその使用法に最適なマルチモーダルアーキテクチャを提供できることにあり、それには感情を刺激する要素が含まれているだけでなく、音響特性とともに言語による発声や言語特性が組み合わされています。

本詳細な例示的説明において、特定の具体的な例が開示されていますが、これらは発明の精神および以下の請求の範囲を逸脱するものではなく、本分野の技術者にとってさまざまな修正が可能となるのは明らかです。さらに、前述の記述は、本発明を純粋に例示するものとして解釈されるべきであり、制限するものとして解釈されるべきではないことが明確に理解されるべきです。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12A
図12B
図12C
図12D
図12E
図12F
図12G
図12H
図13
図14
【国際調査報告】