(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-02
(45)【発行日】2024-02-13
(54)【発明の名称】情報処理装置、情報処理方法、情報処理システム、及び情報処理プログラム
(51)【国際特許分類】
A61B 10/00 20060101AFI20240205BHJP
G06N 20/00 20190101ALI20240205BHJP
G10L 21/14 20130101ALI20240205BHJP
G10L 25/30 20130101ALI20240205BHJP
G10L 25/66 20130101ALI20240205BHJP
G16H 50/20 20180101ALI20240205BHJP
G16H 50/50 20180101ALI20240205BHJP
【FI】
A61B10/00 H
G06N20/00 130
G10L21/14
G10L25/30
G10L25/66
G16H50/20
G16H50/50
(21)【出願番号】P 2021037791
(22)【出願日】2021-03-09
(62)【分割の表示】P 2020541455の分割
【原出願日】2020-06-11
【審査請求日】2023-01-11
(73)【特許権者】
【識別番号】322006559
【氏名又は名称】PST株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】大宮 康宏
(72)【発明者】
【氏名】鈴木 将
【審査官】磯野 光司
(56)【参考文献】
【文献】国際公開第2020/013296(WO,A1)
【文献】国際公開第2018/173108(WO,A1)
【文献】特表2019-508273(JP,A)
【文献】米国特許出願公開第2020/0143526(US,A1)
【文献】米国特許第09739783(US,B1)
【文献】HE, Lang et al.,Automated depression analysis using convolutional neural networks from speech,Journal of Biomedical Informatics,2018年,Vol.83,pp.103-111,ISSN:1532-0464, DOI:10.1016/j.jbi.2018.05.007
(58)【調査した分野】(Int.Cl.,DB名)
A61B 5/00-5/398
A61B 10/00
G10L 13/00-99/00
G16H 10/00-80/00
JSTPlus/JMEDPlus/JST7580(JDreamIII)
(57)【特許請求の範囲】
【請求項1】
ユーザが発した音声の時系列データである音声データを取得する取得部と、
前記取得部により取得した前記音声データを周波数解析することにより、前記音声データのスペクトログラムを表すスペクトログラム画像を生成する生成部と、
前記取得部により取得した前記音声データから所定の音響パラメータである
第1特徴量を抽出し、前記生成部により生成された前記スペクトログラム画像
を学習済み
ニューラルネットワークモデルへ入力し、前記学習済みニューラルネットワークモデルの最終出力値の合成に使われる中間変数を第2特徴量として抽出する抽出部と、
前記抽出部により抽出された
前記第1特徴量及び前記第2特徴量と、
前記第1特徴量及び前記第2特徴量から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め設定された算出モデルとに基づいて、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表すスコアを算出するスコア算出部と、
前記スコア算出部により算出された前記スコアに応じて、前記ユーザが何れかの疾患又は症状を有しているか否かを推定する推定部と、
を含み、
前記学習済み
ニューラルネットワークモデルは、学習用のスペクトログラム画像と該学習用のスペクトログラム画像に対応する前記音声データを発したユーザが有している疾患又は症状を表す正解ラベルとが対応付けられた教師データにより予め学習された学習済み
ニューラルネットワークモデルである、
情報処理装置。
【請求項2】
マイクを備えるユーザ端末と、請求項
1に記載の情報処理装置とを含む情報処理システムであって、
前記ユーザ端末は、前記マイクにより取得された前記音声データを前記情報処理装置へ送信し、
前記情報処理装置の前記取得部は、前記ユーザ端末から送信された前記音声データを取得し、
前記情報処理装置の通信部は、前記推定部により推定された推定結果をユーザ端末へ送信し、
前記ユーザ端末は、前記情報処理装置から送信された前記推定結果を受信する、
情報処理システム。
【請求項3】
ユーザが発した音声の時系列データである音声データを取得し、
取得した前記音声データを周波数解析することにより、前記音声データのスペクトログラムを表すスペクトログラム画像を生成し、
取得した前記音声データから所定の音響パラメータである
第1特徴量を抽出し、生成された前記スペクトログラム画像
を学習済み
ニューラルネットワークモデルへ入力し、前記学習済みニューラルネットワークモデルの最終出力値の合成に使われる中間変数を第2特徴量として抽出し、
抽出された
前記第1特徴量及び前記第2特徴量と、
前記第1特徴量及び前記第2特徴量から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め設定された算出モデルとに基づいて、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表すスコアを算出し、
算出された前記スコアに応じて、前記ユーザが何れかの疾患又は症状を有しているか否かを推定
する、
処理をコンピュータが実行する情報処理方法であって、
前記学習済み
ニューラルネットワークモデルは、学習用のスペクトログラム画像と該学習用のスペクトログラム画像に対応する前記音声データを発したユーザが有している疾患又は症状を表す正解ラベルとが対応付けられた教師データにより予め学習された学習済み
ニューラルネットワークモデルである、
情報処理方法。
【請求項4】
ユーザが発した音声の時系列データである音声データを取得し、
取得した前記音声データを周波数解析することにより、前記音声データのスペクトログラムを表すスペクトログラム画像を生成し、
取得した前記音声データから所定の音響パラメータである
第1特徴量を抽出し、生成された前記スペクトログラム画像
を学習済み
ニューラルネットワークモデルへ入力し、前記学習済みニューラルネットワークモデルの最終出力値の合成に使われる中間変数を第2特徴量として抽出し、
抽出された
前記第1特徴量及び前記第2特徴量と、
前記第1特徴量及び前記第2特徴量から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め設定された算出モデルとに基づいて、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表すスコアを算出し、
算出された前記スコアに応じて、前記ユーザが何れかの疾患又は症状を有しているか否かを推定
する、
処理をコンピュータに実行させるための情報処理プログラムであって、
前記学習済み
ニューラルネットワークモデルは、学習用のスペクトログラム画像と該学習用のスペクトログラム画像に対応する前記音声データを発したユーザが有している疾患又は症状を表す正解ラベルとが対応付けられた教師データにより予め学習された学習済み
ニューラルネットワークモデルである、
情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
開示の技術は、情報処理装置、情報処理方法、情報処理システム、及び情報処理プログラムに関する。
【背景技術】
【0002】
国際公開第2020/013296号公報には、精神系疾患又は神経系疾患を推定する装置が開示されている。この装置は、ユーザの音声データから各種の音響パラメータを算出し、それらの音響パラメータを用いて、ユーザが精神系疾患又は神経系疾患であるか否かを推定する。
【発明の概要】
【発明が解決しようとする課題】
【0003】
上記国際公開第2020/013296号公報に開示されている装置は、音声データから算出される音響パラメータを用いて疾患を推定するものの、その精度に関しては改善の余地がある。
【0004】
開示の技術は、上記の事情を鑑みてなされたものであり、ユーザが発した音声の時系列データから抽出されるパラメータを用いて精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を推定する場合と比べ、ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有しているか否かを精度良く推定することができる、情報処理装置、情報処理方法、情報処理システム、及び情報処理プログラムを提供する。
【課題を解決するための手段】
【0005】
上記の目的を達成するために本開示の第1態様は、ユーザが発した音声の時系列データである音声データを取得する取得部と、前記取得部により取得した前記音声データから、所定の音響パラメータである特徴量を抽出する抽出部と、前記取得部により取得した前記音声データを周波数解析することにより、前記音声データのスペクトログラムを表すスペクトログラム画像を生成する生成部と、前記抽出部により抽出された前記特徴量と、前記特徴量から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め設定された算出モデルとに基づいて、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す第1のスコアを算出する第1スコア算出部と、前記生成部により生成された前記スペクトログラム画像を、前記スペクトログラム画像から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め学習された学習済みモデルへ入力して、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す第2のスコアを算出する第2スコア算出部と、前記第1のスコアと前記第2のスコアとを合成することにより、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す合成スコアを算出する合成スコア算出部と、前記合成スコア算出部により算出された前記合成スコアに応じて、前記ユーザが何れかの疾患又は症状を有しているか否かを推定する推定部と、を含む情報処理装置である。
【0006】
本開示の第2態様は、ユーザが発した音声の時系列データである音声データを取得する取得部と、前記取得部により取得した前記音声データを周波数解析することにより、前記音声データのスペクトログラムを表すスペクトログラム画像を生成する生成部と、前記取得部により取得した前記音声データから所定の音響パラメータである特徴量を抽出し、前記生成部により生成された前記スペクトログラム画像から学習済みモデルを用いることにより特徴量を抽出する抽出部と、前記抽出部により抽出された前記特徴量と、前記特徴量から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め設定された算出モデルとに基づいて、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表すスコアを算出するスコア算出部と、前記スコア算出部により算出された前記スコアに応じて、前記ユーザが何れかの疾患又は症状を有しているか否かを推定する推定部と、を含み、前記学習済みモデルは、学習用のスペクトログラム画像と該学習用のスペクトログラム画像に対応する前記音声データを発したユーザが有している疾患又は症状を表す正解ラベルとが対応付けられた教師データにより予め学習された学習済みモデルである、情報処理装置である。
【0007】
本開示の第3態様は、ユーザが発した音声の時系列データである音声データを取得する取得部と、前記取得部により取得した前記音声データから、所定の音響パラメータである特徴量を抽出する抽出部と、前記取得部により取得した前記音声データに対応する画像を生成する生成部と、前記抽出部により抽出された前記特徴量を、前記特徴量から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め学習された第1の学習済みモデルへ入力して、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す第1のスコアを算出する第1スコア算出部と、前記生成部により生成された前記画像を、前記画像から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め学習された第2の学習済みモデルへ入力して、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す第2のスコアを算出する第2スコア算出部と、前記第1のスコアと前記第2のスコアとを合成することにより、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す合成スコアを算出する合成スコア算出部と、前記合成スコア算出部により算出された前記合成スコアに応じて、前記ユーザが何れかの疾患又は症状を有しているか否かを推定する推定部と、を含む情報処理装置である。
【0008】
本開示の第4態様は、ユーザが発した音声の時系列データである音声データを取得し、前記音声データから、所定の音響パラメータである特徴量を抽出し、前記音声データを周波数解析することにより、前記音声データのスペクトログラムを表すスペクトログラム画像を生成し、前記特徴量と、前記特徴量から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め設定された算出モデルとに基づいて、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す第1のスコアを算出し、前記スペクトログラム画像を、前記スペクトログラム画像から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め学習された学習済みモデルへ入力して、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す第2のスコアを算出し、前記第1のスコアと前記第2のスコアとを合成することにより、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す合成スコアを算出し、前記合成スコアに応じて、前記ユーザが何れかの疾患又は症状を有しているか否かを推定する、処理をコンピュータが実行する情報処理方法である。
【0009】
本開示の第5態様は、ユーザが発した音声の時系列データである音声データを取得し、前記音声データから、所定の音響パラメータである特徴量を抽出し、前記音声データを周波数解析することにより、前記音声データのスペクトログラムを表すスペクトログラム画像を生成し、前記特徴量と、前記特徴量から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め設定された算出モデルとに基づいて、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す第1のスコアを算出し、前記スペクトログラム画像を、前記スペクトログラム画像から精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状の度合いを表すスコアを算出するための予め学習された学習済みモデルへ入力して、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す第2のスコアを算出し、前記第1のスコアと前記第2のスコアとを合成することにより、前記ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有している度合いを表す合成スコアを算出し、前記合成スコアに応じて、前記ユーザが何れかの疾患又は症状を有しているか否かを推定する、処理をコンピュータに実行させるための情報処理プログラムである。
【発明の効果】
【0010】
開示の技術によれば、ユーザが発した音声の時系列データから抽出されるパラメータを用いて精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を推定する場合と比べ、ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状を有しているか否かを精度良く推定することができる、という効果が得られる。
【図面の簡単な説明】
【0011】
【
図1】第1実施形態の情報処理システムの概略構成の一例を示す図である。
【
図2】第1実施形態の概要を説明するための図である。
【
図3】第1実施形態の情報処理システムの利用形態の一例を模式的に示す図である。
【
図4】音声データとスペクトログラム画像とを説明するための図である。
【
図7】情報処理装置を構成するコンピュータの一例を示す図である。
【
図8】第1実施形態の情報処理装置が実行する処理の一例を示す図である。
【
図9】第2実施形態の概要を説明するための図である。
【
図11】第3実施形態の情報処理システムの概略構成の一例を示す図である。
【
図12】第3実施形態の情報処理システムの利用形態の一例を模式的に示す図である。
【
図13】第3実施形態の情報処理システムの利用形態の一例を模式的に示す図である。
【
図14】第3実施形態のユーザ端末及び情報処理装置が実行する処理の一例を示す図である。
【
図15】第4実施形態の情報処理システムの概略構成の一例を示す図である。
【
図16】学習済みモデルから得られる特徴量を説明するための図である。
【発明を実施するための形態】
【0012】
以下、図面を参照して開示の技術の実施形態を詳細に説明する。
【0013】
<第1実施形態の情報処理システム>
【0014】
図1に、第1実施形態に係る情報処理システム10を示す。
図1に示されるように、第1実施形態の情報処理システム10は、マイク12と、情報処理装置14と、表示装置16とを備えている。
【0015】
情報処理システム10は、マイク12により集音されたユーザの音声に基づいて、ユーザが精神系疾患若しくは神経系疾患、又は、精神障害症状若しくは認知機能障害症状(以下、単に「精神系疾患、神経系疾患又はそれらの症状」とも称する。)を有しているか否かを推定する。
【0016】
図2に、第1実施形態の情報処理システム10の概要を説明するための図を示す。第1実施形態の情報処理システム10の情報処理装置14は、ユーザが発した音声の時系列データである音声データから音響パラメータを抽出する。また、情報処理装置14は、ユーザの音声データを周波数解析することにより、スペクトログラム画像を生成する。
【0017】
次に、情報処理装置14は、
図2に示されるように、音響パラメータを、音響パラメータから精神系疾患、神経系疾患又はそれらの症状を有している度合いを表す第1のスコアを算出するための算出モデルへ入力する。そして、情報処理装置14は、
図2に示されるように、第1のスコアを得る。
【0018】
次に、情報処理装置14は、スペクトログラム画像を、スペクトログラム画像から精神系疾患、神経系疾患又はそれらの症状を有している度合いを表す第2のスコアを算出するための学習済みモデルへ入力する。そして、情報処理装置14は、
図2に示されるように、第2のスコアを得る。学習済みモデルは、例えば、機械学習により学習されたニューラルネットワーク等により実現される。
【0019】
次に、情報処理装置14は、第1のスコアと第2のスコアとを合成することにより、ユーザが精神系疾患、神経系疾患又はそれらの症状を有している度合いを表す合成スコアを算出する。そして、情報処理装置14は、合成スコアに応じて、ユーザが何れかの疾患又は症状を有しているか否かを推定する。
【0020】
このように、第1実施形態の情報処理システム10は、時系列データである音声データから抽出される音響パラメータのみならず、音声データから得られる画像も用いてユーザが何れかの疾患又は症状を有しているか否かを推定する。これにより、音響パラメータのみを用いた場合に比べて、ユーザが何れかの疾患又は症状を有しているか否かを精度良く推定することができる。
【0021】
第1実施形態の情報処理システム10は、例えば、
図3に示されるような状況下においての利用が想定される。
【0022】
図3の例では、医師等の医療従事者Hが、情報処理システム10の一例であるタブレット型端末を保持している。医療従事者Hは、タブレット型端末が備えるマイク(図示省略)を用いて、被験者であるユーザUの音声データ「XXXX」を集音する。そして、タブレット端末は、ユーザUの音声データ「XXXX」に基づいて、ユーザUが何れかの疾患又は症状を有しているか否かを推定し、推定結果を表示部(図示省略)へ出力する。医療従事者Hは、タブレット端末の表示部(図示省略)に表示された推定結果を参考にして、ユーザUが何れかの疾患又は症状を有しているか否かを診断する。
【0023】
以下、具体的に説明する。
【0024】
マイク12は、疾患又は症状推定対象のユーザが発した音声の時系列データである音声データを集音する。
【0025】
情報処理装置14は、マイク12により集音された音声データに基づいて、ユーザが精神系疾患、神経系疾患又はそれらの症状を有しているか否かを推定する。
【0026】
図1に示されるように、情報処理装置14は、機能的には、取得部20と、抽出部22と、生成部24と、算出モデル記憶部26と、学習済みモデル記憶部28と、第1スコア算出部30と、第2スコア算出部32と、合成スコア算出部34と、推定部36とを備えている。情報処理装置14は、後述するようなコンピュータにより実現される。
【0027】
取得部20は、マイク12により集音されたユーザの音声データを取得する。
【0028】
抽出部22は、取得部20により取得された音声データから、所定の音響パラメータである特徴量を抽出する。例えば、抽出部22は、国際公開第2020/013296号公報に開示されている以下の音響パラメータを特徴量として抽出する。
【0029】
【0030】
生成部24は、取得部20により取得された音声データを周波数解析することにより、音声データのスペクトログラムを表すスペクトログラム画像を生成する。
【0031】
図4に、スペクトログラム画像を説明するための図を示す。
図4に示されるように、音声データDは時系列データである。生成部24は、音声データDを周波数解析することにより、
図4に示されるようなスペクトログラム画像Imを生成する。なお、スペクトログラム画像Imの横軸は時間軸であり、スペクトログラム画像Imの縦軸は周波数軸である。また、スペクトログラム画像Imの画素値は、各周波数成分の強度に相当する。なお、第1実施形態では、スペクトログラム画像はグレースケール画像である。
【0032】
算出モデル記憶部26には、音響パラメータである特徴量から精神系疾患、神経系疾患又はそれらの症状の度合いを表すスコアを算出するための算出モデルが格納されている。例えば、算出モデルは、以下の算出式によって表される。
【0033】
F(a)=xa1×fa1+xa2×fa2+,・・・,xan×fan
(1)
【0034】
上記式(1)は、ユーザがある精神系疾患又は症状Aを有している度合いを表す第1のスコアF(a)を算出するための算出式である。fa1,・・・,fanは、上記の各音響パラメータの項目1)から11)の中から選択された何れか1つ以上の特徴量である。また、xa1,・・・,xanは疾患又は症状に固有の係数であり、予め設定されている。
【0035】
また、ユーザがある神経系疾患又は症状Bを有している度合いを表す第1のスコアF(b)は、上記式(1)と同様の形式で表され、例えば、以下の式(2)により表される。fb1,・・・,fbmは、上記の各音響パラメータの項目1)から11)の中から選択された何れか1つ以上の特徴量である。xb1,・・・,xbmは疾患又は症状に固有の係数であり、予め設定されている。
【0036】
F(b)=xb1×fb1+xb2×fb2+,・・・,xbm×fbm
(2)
【0037】
また、ユーザが精神系疾患、神経系疾患又はそれらの症状の何れも有していない度合いを表す第1のスコアF(h)は、記式(1)と同様の形式で表され、例えば、以下の式(3)により表される。fh1,・・・,fhiは、上記の各音響パラメータの項目1)から11)の中から選択された何れか1つ以上の特徴量である。xh1,・・・,xhiは疾患又は症状に固有の係数であり、予め設定されている。
【0038】
F(h)=xh1×fh1+xh2×fh2+,・・・,xhi×fhi
(3)
【0039】
なお、2つ以上の疾患又は症状に共通項が存在しており、疾患又は症状A及び疾患又は症状Bの少なくとも一方を有している度合いを表す第1のスコアF(ab)を、以下の式(4)により算出してもよい。fab1,・・・,fabjは、上記の各音響パラメータの項目1)から11)の中から選択された何れか1つ以上の特徴量である。xab1,・・・,xhabjは固有の係数であり、予め設定されている。
【0040】
F(ab)=xab1×fab1+xab2×fab2+,・・・,xabj×fabj
(4)
【0041】
また、疾患又は症状A及び疾患又は症状Bの少なくとも一方を有している度合いを表す第1のスコアF(ab)を利用して、以下の式(5)(6)により、ユーザが疾患又は症状Aを有している度合いを表す第1のスコアF(a)、及びユーザが疾患又は症状Bを有している度合いを表す第1のスコアF(b)、をそれぞれ算出してもよい。
【0042】
F(a)=F(ab)+xa1×fa1+xa2×fa2+,・・・,xan×fan
(5)
F(b)=F(ab)+xb1×fb1+xb2×fb2+,・・・,xbm×fbm
(6)
【0043】
学習済みモデル記憶部28には、スペクトログラム画像から精神系疾患、神経系疾患又はそれらの症状の度合いを表すスコアを算出するための予め機械学習された学習済みモデルが格納されている。
【0044】
図5に、学習済みモデルを説明するための図を示す。
図5に示されるように、スペクトログラム画像の各箇所の画素値が学習済みモデルへ入力されると、学習済みモデルから精神系疾患、神経系疾患又はそれらの症状の度合いを表す第2のスコアが出力される。
【0045】
図5に示される例では、ユーザが疾患又は症状Aを有している度合いを表す第2のスコアG(a):0.6と、ユーザが疾患又は症状Bを有している度合いを表す第2のスコアG(b):0.1と、ユーザが何れの疾患又は症状も有していない度合いを表す第2のスコアG(h):0.1とが、学習済みモデルから出力されている。
【0046】
学習済みモデルは、予め設定された教師データにより予め機械学習されている。学習済みモデルは、機械学習により学習可能なモデルであれば、どのようなモデルであってもよい。
図6は、教師データを説明するための図である。
図6に示されるように、例えば、教師データは、学習用のスペクトログラム画像と当該学習用のスペクトログラム画像に対応する音声データを発したユーザが有している疾患又は症状を表す正解ラベルとが対応付けられたデータである。
【0047】
第1スコア算出部30は、抽出部22により抽出された特徴量と、算出モデル記憶部26に格納された算出式とに基づいて、ユーザが精神系疾患、神経系疾患又はそれらの症状を有している度合いを表す第1のスコアを算出する。
【0048】
具体的には、第1スコア算出部30は、算出モデル記憶部26に格納された算出式を読み出し、その算出式の特徴量部分に抽出部22により抽出された特徴量の値を入力し、第1のスコアを算出する。
【0049】
例えば、第1スコア算出部30は、特徴量の値を算出式へ入力することにより、ユーザがある精神系疾患又は症状Aを有している度合いを表す第1のスコアF(a)、ユーザがある神経系疾患又は症状Bを有している度合いを表す第1のスコアF(b)、及びユーザが何れの疾患又は症状も有していない度合いを表す第1のスコアF(h)を算出する。なお、第1のスコアF(a)は、ユーザが精神系疾患又はその症状を有している度合いを表す第1の精神系疾患スコアの一例である。また、第1のスコアF(b)は、ユーザが神経系疾患又はその症状を有している度合いを表す第1の神経系疾患スコアの一例である。また、第1のスコアF(h)は、ユーザが精神系疾患、神経系疾患又はそれらの症状の何れも有していない度合いを表す第1の健常系スコアの一例である。
【0050】
第2スコア算出部32は、生成部24により生成されたスペクトログラム画像を、学習済みモデル記憶部28に格納されている学習済みモデルへ入力して、ユーザが精神系疾患、神経系疾患又はそれらの症状を有している度合いを表す第2のスコアを算出する。
【0051】
例えば、第2スコア算出部32は、スペクトログラム画像の各画素値を学習済みモデルへ入力することにより、ユーザがある精神系疾患又は症状Aを有している度合いを表す第2のスコアG(a)、ユーザがある神経系疾患又は症状Bを有している度合いを表す第2のスコアG(b)、及びユーザが何れの疾患又は症状も有していない度合いを表す第2のスコアG(h)を算出する。なお、第2のスコアG(a)は、ユーザが精神系疾患又はその症状を有している度合いを表す第2の精神系疾患スコアの一例である。また、第2のスコアG(b)は、ユーザが神経系疾患又はその症状を有している度合いを表す第2の神経系疾患スコアの一例である。第2のスコアG(h)は、ユーザが精神系疾患、神経系疾患又はそれらの症状の何れも有していない度合いを表す第2の健常系スコアの一例である。
【0052】
なお、第2スコア算出部32は、音声データの長さに応じてスペクトログラム画像のサイズを調整する。
【0053】
例えば、疾患又は症状か否かを推定するための予め設定された複数のフレーズをユーザに発話させる場合には、その音声データの時間軸方向の長さはフレーズ毎に異なるものとなる。例えば、フレーズ「食欲があります」とフレーズ「本日は晴天なり」とでは、その長さが異なり、それぞれのフレーズの音声データから生成されたスペクトログラム画像も異なるサイズとなる。
【0054】
そこで、第2スコア算出部32は、スペクトログラム画像を学習済みモデルへ入力する際に、スペクトログラム画像のサイズを調整する。
【0055】
具体的には、学習済みモデルの入力層のサイズよりも入力対象のスペクトログラム画像のサイズが大きい場合には、第2スコア算出部32は、当該スペクトログラム画像内にランダムな切り取り位置を設定し、その切り取り位置に応じて画像を切り出す。そして、第2スコア算出部32は、切り出したスペクトログラム画像を学習済みモデルへ入力して、第2のスコアを算出する。
【0056】
一方、学習済みモデルの入力層のサイズよりも入力対象のスペクトログラム画像のサイズが小さい場合には、第2スコア算出部32は、当該スペクトログラム画像の両サイドにランダムな幅で黒枠を挿入する。そして、第2スコア算出部32は、黒枠が挿入されたスペクトログラム画像を学習済みモデルへ入力して、第2のスコアを算出する。
【0057】
なお、モデルを学習させる際にも、このような手法によりスペクトログラム画像のサイズを調整する。なお、学習の際にスペクトログラム画像の両サイドにランダムな幅で黒枠を挿入してしまうと、学習が上手くいかない場合もあるため、全ての学習用のスペクトログラム画像の平均画像を生成し、その平均画像を対象のスペクトログラム画像の両サイドに挿入する。なお、この場合、画像の両サイドへの平均画像の挿入幅及び入力サイズよりも大きい画像の切り出し位置は、学習更新によるモデルの中間層の重みパラメータが微小に変更される毎に、ランダムにその幅及び位置を変更する。これにより、学習済みモデルの性能を向上させることが可能となる。
【0058】
合成スコア算出部34は、第1スコア算出部30により算出された第1のスコアと第2スコア算出部32により算出された第2のスコアとを合成することにより、ユーザが精神系疾患、神経系疾患又はそれらの症状を有している度合いを表す合成スコアを算出する。例えば、合成スコア算出部34は、第1のスコアと第2のスコアとの和を、合成スコアとして算出する。
【0059】
例えば、合成スコア算出部34は、第1のスコアF(a)と第2のスコアG(a)とを足し合わせることにより、ユーザがある精神系疾患又は症状Aを有している度合いを表す合成スコアS(a)を算出する。また、合成スコア算出部34は、第1のスコアF(b)と第2のスコアG(b)とを足し合わせることにより、ユーザがある神経系疾患又は症状Bを有している度合いを表す合成スコアS(b)を算出する。また、合成スコア算出部34は、第1のスコアF(h)と第2のスコアG(h)とを足し合わせることにより、ユーザが何れの疾患又は症状も有していない度合いを表す合成スコアS(h)を算出する。
【0060】
推定部36は、合成スコア算出部34により算出された合成スコアに応じて、ユーザが何れかの疾患又は症状を有しているか否かを推定する。例えば、推定部36は、ユーザは合成スコアが最も高い疾患又は症状を有していると推定する。または、例えば、推定部36は、ユーザは合成スコアが所定の閾値以上である疾患又は症状を有していると推定する。例えば、推定部36は、合成スコアが所定の閾値以上である疾患又は症状が精神系疾患又は症状Aと神経系疾患又は症状Bであった場合には、ユーザは精神系疾患又は症状A及び神経系疾患又は症状Bの両方を有していると推定する。また、例えば、推定部36は、合成スコアS(h)が最も高い場合には、ユーザは疾患又は症状を有していないと推定する。
【0061】
推定部36は、ユーザの疾患又は症状の有無に関する推定結果を出力する。なお、推定部36は、各疾患又は症状の合成スコアそのものを推定結果として出力してもよい。
【0062】
表示装置16は、推定部36から出力された推定結果を表示する。
【0063】
情報処理装置14を操作する医療従事者又はユーザは、表示装置16から出力された推定結果を確認し、ユーザがどのような疾患又は症状を有している可能性があるのかを確認する。
【0064】
情報処理装置14は、例えば、
図7に示すコンピュータ50で実現することができる。コンピュータ50はCPU51、一時記憶領域としてのメモリ52、及び不揮発性の記憶部53を備える。また、コンピュータ50は、外部装置及び出力装置等が接続される入出力interface(I/F)54、及び記録媒体に対するデータの読み込み及び書き込みを制御するread/write(R/W)部55を備える。また、コンピュータ50は、インターネット等のネットワークに接続されるネットワークI/F56を備える。CPU51、メモリ52、記憶部53、入出力I/F54、R/W部55、及びネットワークI/F56は、バス57を介して互いに接続される。
【0065】
記憶部53は、Hard Disk Drive(HDD)、Solid State Drive(SSD)、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部53には、コンピュータ50を機能させるためのプログラムが記憶されている。CPU51は、プログラムを記憶部53から読み出してメモリ52に展開し、プログラムが有するプロセスを順次実行する。
【0066】
[第1実施形態の情報処理システムの動作]
【0067】
次に、第1実施形態の情報処理システム10の具体的な動作について説明する。情報処理システム10の情報処理装置14は、
図8に示される各処理を実行する。
【0068】
まず、ステップS100において、マイク12により集音されたユーザの音声データを取得する。
【0069】
次に、ステップS102において、抽出部22は、上記ステップS100で取得された音声データから、国際公開第2020/013296号公報に開示されているような所定の音響パラメータを特徴量として抽出する。
【0070】
ステップS104において、生成部24は、上記ステップS100で取得された音声データを周波数解析することにより、音声データのスペクトログラムを表すスペクトログラム画像を生成する。
【0071】
ステップS106において、第1スコア算出部30は、上記ステップS102抽出された特徴量と、算出モデル記憶部26に格納された算出式とに基づいて、ユーザが精神系疾患、神経系疾患又はそれらの症状を有している度合いを表す第1のスコアを算出する。
【0072】
ステップS108において、第2スコア算出部32は、上記ステップS104で生成されたスペクトログラム画像を、学習済みモデル記憶部28に格納されている学習済みモデルへ入力して、ユーザが精神系疾患、神経系疾患又はそれらの症状を有している度合いを表す第2のスコアを算出する。
【0073】
ステップS110において、合成スコア算出部34は、上記ステップS106で算出された第1のスコアと、上記ステップS108で算出された第2のスコアとを合成することにより、ユーザが精神系疾患、神経系疾患又はそれらの症状を有している度合いを表す合成スコアを算出する。
【0074】
ステップS112において、推定部36は、上記ステップS110で算出された合成スコアに応じて、ユーザが何れかの疾患又は症状を有しているか否かを推定する。
【0075】
ステップS114において、推定部36は、上記ステップS112で得られた推定結果を出力する。
【0076】
表示装置16は、推定部36から出力された推定結果を表示する。情報処理装置14を操作する医療従事者又はユーザは、表示装置16から出力された推定結果を確認し、ユーザがどのような疾患又は症状を有している可能性があるのかを確認する。
【0077】
以上説明したように、第1実施形態の情報処理システム10は、ユーザが発した音声の時系列データである音声データを取得し、当該音声データから、所定の音響パラメータである特徴量を抽出する。そして、情報処理システム10は、取得した音声データを周波数解析することにより、音声データのスペクトログラムを表すスペクトログラム画像を生成する。情報処理システム10は、特徴量と、当該特徴量から精神系疾患、神経系疾患又はそれらの症状の度合いを表すスコアを算出するための予め設定された算出モデルとに基づいて、ユーザが精神系疾患、神経系疾患又はそれらの症状を有している度合いを表す第1のスコアを算出する。情報処理システム10は、スペクトログラム画像を、当該スペクトログラム画像から精神系疾患、神経系疾患又はそれらの症状の度合いを表すスコアを算出するための予め学習された学習済みモデルへ入力して、ユーザが精神系疾患、神経系疾患又はそれらの症状を有している度合いを表す第2のスコアを算出する。情報処理システム10は、第1のスコアと第2のスコアとを合成することにより、ユーザが精神系疾患、神経系疾患又はそれらの症状を有している度合いを表す合成スコアを算出する。そして、情報処理システム10は、合成スコアに応じて、ユーザが何れかの疾患又は症状を有しているか否かを推定する。これにより、ユーザが発した音声の時系列データから抽出されるパラメータを用いて精神系疾患、神経系疾患又はそれらの症状を推定する場合と比べ、ユーザが精神系疾患、神経系疾患又はそれらの症状を有しているか否かを精度良く推定することができる。より詳細には、従来の音響パラメータに加え音声データから得られるスペクトログラム画像を用いて疾患又は症状を推定することにより、ユーザの疾患又は症状を精度良く推定することができる。
【0078】
また、スペクトログラム画像からユーザの疾患又は症状のスコアを算出する際には、学習済みモデルを用いることにより、スペクトログラム画像から第2のスコアを簡易に算出することができる。また、学習済みモデルへスペクトログラム画像を入力する際には、スペクトログラム画像のサイズを調整することにより、異なる長さのフレーズにも対応することができる。
【0079】
<第2実施形態の情報処理システム>
【0080】
次に、第2実施形態について説明する。なお、第2実施形態情報処理システムの構成は、第1実施形態と同様の構成となるため、同一符号を付して説明を省略する。
【0081】
第2実施形態の情報処理システムは、音響パラメータである特徴量から第1のスコアを算出する際にも、ニューラルネットワーク等の学習済みモデルを用いる点が第1実施形態と異なる。
【0082】
図9に、第2実施形態の情報処理システム10の概要を説明するための図を示す。第2実施形態の情報処理システム10は、第1実施形態の算出モデルとして、ニューラルネットワーク等の第1の学習済みモデルを用いる。
【0083】
具体的には、第2実施形態の情報処理システム10の情報処理装置14は、
図9に示されるように、音響パラメータである特徴量を、当該特徴量から精神系疾患、神経系疾患又はそれらの症状を有している度合いを表す第1のスコアを算出するための算出モデルである第1の学習済みモデルへ入力する。そして、第2実施形態の情報処理システム10の情報処理装置14は、第1の学習済みモデルから出力されたスコアを第1のスコアとする。
【0084】
なお、第1実施形態の学習済みモデルは、
図9に示される第2の学習済みモデルに相当する。このため、スペクトログラム画像が第2の学習済みモデルへ入力されると、その第2の学習済みモデルから第2のスコアが出力される。
【0085】
以下、具体的に説明する。
【0086】
第2実施形態の第1の学習済みモデルは、既知のニューラルネットワーク等により実現される。第1の学習済みモデルは、予め設定された教師データにより予め機械学習されている。
図10は、第1の学習済みモデルを学習させる際に用いる教師データを説明するための図である。
図10に示されるように、例えば、教師データは、学習用の特徴量群と、その特徴量群が得られた音声データを発したユーザが有している疾患又は症状を表す正解ラベルとが対応付けられたデータである。
【0087】
第2実施形態の情報処理システムの他の構成及び作用については、第1実施形態と同様であるため、説明を省略する。
【0088】
以上説明したように、第2実施形態の情報処理システムは、音響パラメータである特徴量から精神系疾患、神経系疾患又はそれらの症状の度合いを表すスコアを算出するための予め学習された第1の学習済みモデルを用いる。具体的には、第2実施形態の情報処理システムは、ユーザの音声データから抽出された特徴量を、第1の学習済みモデルへ入力して、第1のスコアを算出する。そして、第2実施形態の情報処理システムは、スペクトログラム画像を、第2の学習済みモデルへ入力して、第2のスコアを算出する。第2実施形態の情報処理システムは、第1のスコアと第2のスコアとを合成することにより、ユーザが精神系疾患、神経系疾患又はそれらの症状を有している度合いを表す合成スコアを算出する。そして、第2実施形態の情報処理システムは、合成スコアに応じて、ユーザが何れかの疾患又は症状を有しているか否かを推定する。これにより、ユーザが発した音声の時系列データから抽出されるパラメータを用いて精神系疾患、神経系疾患又はそれらの症状を推定する場合と比べ、ユーザが精神系疾患、神経系疾患又はそれらの症状を有しているか否かを精度良く推定することができる。
【0089】
<第3実施形態の情報処理システム>
【0090】
次に、第3実施形態について説明する。なお、第3実施形態の情報処理システムの構成のうちの、第1実施形態又は第2実施形態と同様の構成となる部分については、同一符号を付して説明を省略する。
【0091】
図11に、第3実施形態に係る情報処理システム310を示す。
図11に示されるように、第3実施形態の情報処理システム310は、ユーザ端末18と、情報処理装置314とを備えている。
【0092】
情報処理システム310の情報処理装置314は、ユーザ端末18に備えられたマイク12により集音されたユーザの音声に基づいて、ユーザが精神系疾患、神経系疾患又はそれらの症状を有しているか否かを推定する。
【0093】
第3実施形態の情報処理システム310は、例えば、
図12及び
図13に示されるような状況下においての利用が想定される。
【0094】
図12の例では、医師等の医療従事者Hが情報処理装置314を操作しており、被験者であるユーザUはユーザ端末18を操作している。ユーザUは、自らが操作するユーザ端末18のマイク12により自らの音声データ「XXXX」を集音する。そして、ユーザ端末18は、インターネット等のネットワーク19を介して音声データを情報処理装置314へ送信する。
【0095】
情報処理装置314は、ユーザ端末18から送信されたユーザUの音声データ「XXX」を受信する。そして、情報処理装置314は、受信した音声データに基づいて、ユーザUが何れかの疾患又は症状を有しているか否かを推定し、推定結果を情報処理装置314の表示部315へ出力する。医療従事者Hは、情報処理装置314の表示部315に表示された推定結果を参考にして、ユーザUが何れかの疾患又は症状を有しているか否かを診断する。
【0096】
一方、
図13の例では、被験者であるユーザUは、自らが操作するユーザ端末18のマイク12により自らの音声データ「XXXX」を集音する。そして、ユーザ端末18は、インターネット等のネットワーク19を介して音声データを情報処理装置314へ送信する。情報処理装置314は、ユーザ端末18から送信されたユーザUの音声データ「XXX」を受信する。そして、情報処理装置314は、受信した音声データに基づいて、ユーザUが何れかの疾患又は症状を有しているか否かを推定し、推定結果をユーザ端末18へ送信する。ユーザ端末18は、情報処理装置14から送信された推定結果を受信し、その推定結果を表示部(図示省略)へ表示する。ユーザは、推定結果を確認し、自らがどのような疾患又は症状を有している可能性が高いのかを確認する。
【0097】
[第3実施形態の情報処理システムの動作]
【0098】
第3実施形態の情報処理システム310の具体的な動作について説明する。情報処理システム310のユーザ端末18及び情報処理装置314は、
図14に示される各処理を実行する。
【0099】
ステップS200において、ユーザ端末18の端末通信部313は、マイク12により集音されたユーザの音声データを取得する。
【0100】
ステップS202において、ユーザ端末18の端末通信部313は、上記ステップS200で取得した音声データを、ネットワーク19を介して、情報処理装置314へ送信する。
【0101】
ステップS203において、情報処理装置314の通信部38は、ユーザ端末18から送信された音声データを受信する。
【0102】
図14のステップS100~ステップS114の各処理は、第1実施形態の情報処理システム10と同様に実行される。
【0103】
なお、ステップS114で出力された推定結果は、ユーザ端末18へ送信されてもよいし、情報処理装置14が備える表示装置(図示省略)に表示されてもよい。
【0104】
第3実施形態の情報処理システムの他の構成及び作用については、第1又は第2実施形態と同様であるため、説明を省略する。
【0105】
以上説明したように、第3実施形態の情報処理システムは、クラウド上に設置された情報処理装置14を用いてユーザが精神系疾患、神経系疾患又はそれらの症状を有しているか否かを推定することができる。
【0106】
<第4実施形態の情報処理システム>
【0107】
次に、第4実施形態について説明する。なお、第4実施形態の情報処理システムの構成のうち第1~第3実施形態と同様の構成となる部分については、同一符号を付して説明を省略する。
【0108】
図15に、第4実施形態に係る情報処理システム410を示す。
図15に示されるように、第3実施形態の情報処理システム410の情報処理装置414は、機能的には、取得部20と、生成部24と、抽出部42と、スコア算出部44と、推定部46とを備えている。
【0109】
第4実施形態の抽出部42は、第1~第3実施形態と同様に、音声データから所定の音響パラメータを特徴量として抽出する。更に、第4実施形態の抽出部42は、生成部24により生成されたスペクトログラム画像からも特徴量を抽出する。
【0110】
具体的には、抽出部42は、学習済みモデル記憶部28に格納されている学習済みモデルを用いて、生成部24により生成されたスペクトログラム画像から特徴量を抽出する。
【0111】
図16に、学習済みモデルを用いての特徴量の抽出を説明するための図を示す。
図16に示されるように、学習済みモデルは、入力層、中間層、及び出力層を含んで構成されている。出力前層の値(中間層から出力される値)は、特徴量としても利用することが可能である。
【0112】
そこで、第4実施形態の抽出部42は、スペクトログラム画像の各画素値を学習済みモデルへ入力し、学習済みモデルの中間層から出力される値を特徴量として抽出する。
【0113】
スコア算出部44は、抽出部42により抽出された特徴量と、算出モデル記憶部26に格納されている算出モデルとに基づいて、ユーザが精神系疾患、神経系疾患又はそれらの症状を有している度合いを表すスコアを算出する。
【0114】
第4実施形態の算出モデルの一例である算出式としては、例えば、以下の式(7)等を用いることができる。なお、以下の式により算出されるスコアF(a)は、ユーザが疾患又は症状Aを有している度合いを表す。なお、xan,yamは固定されている係数であり、予め設定されている。これらの係数は、xan,yamは、例えば、機械学習又は回帰分析等により求められる。fは音声データから抽出された音響パラメータを表す第1の特徴量であり、gはスペクトログラム画像から学習済みモデルを用いて抽出された第2の特徴量である。
【0115】
F(a)=xa1×f(1)+,・・・,xan×f(n)+ya1×g(1)+,・・・,yam×g(m)
(7)
【0116】
推定部46は、スコア算出部44により算出されたスコアに応じて、ユーザが何れかの疾患又は症状を有しているか否かを推定する。
【0117】
第4実施形態の情報処理システムの他の構成及び作用については、第1~第2実施形態と同様であるため、説明を省略する。
【0118】
第4実施形態の情報処理システム410は、音声データから所定の音響パラメータである特徴量を抽出し、スペクトログラム画像から学習済みモデルを用いることにより特徴量を抽出する。そして、情報処理システム410は、特徴量と、当該特徴量から精神系疾患、神経系疾患又はそれらの症状の度合いを表すスコアを算出するための予め設定された算出モデルとに基づいて、ユーザが精神系疾患、神経系疾患又はそれらの症状を有している度合いを表すスコアを算出する。そして、情報処理システム410は、スコアに応じて、ユーザが何れかの疾患又は症状を有しているか否かを推定する。なお、学習済みモデルは、学習用のスペクトログラム画像と該学習用のスペクトログラム画像に対応する音声データを発したユーザが有している疾患又は症状を表す正解ラベルとが対応付けられた教師データにより予め学習された学習済みモデルである。これにより、ユーザが発した音声の時系列データから抽出されるパラメータを用いて精神系疾患、神経系疾患又はそれらの症状を推定する場合と比べ、ユーザが精神系疾患、神経系疾患又はそれらの症状を有しているか否かを精度良く推定することができる。
【0119】
また、スペクトログラム画像から特徴量を抽出する際に用いる学習済みモデルは、学習用のスペクトログラム画像と疾患又は症状に関する正解ラベルとが対応付けられた教師データに基づき学習されているため、ユーザの疾患又は症状を精度良く推定するための特徴量を抽出することができる。
【実施例1】
【0120】
次に、実施例1を説明する。実施例1では、被験者が24個のフレーズを発話し、その発話により得られる音声データを収集する。そして、それらの音声データに基づいて各手法を用いて被験者の疾患又は症状の推定を行う。
【0121】
なお、第1のスコアを算出する際の学習済みモデルとしては、その一例として、以下の参考文献に開示されている、既知のニューラルネットワークであるResNetを用いる。
【0122】
参考文献:K. He, X. Zhang, S. Ren, and J. Sun. "Deep residual learning for image recognition.", In Proc. of CVPR, 2016.
【0123】
また、第2のスコアを算出する際の算出モデルとしては、上記式(1)~(6)に示される線形式を用いる。
【0124】
図17に実験結果を示す。
図17の実験結果は、24個のフレーズ(Ph.01~Ph.024)を複数の被験者に発話してもらい、その音声データに基づき被験者の疾患又は症状を推定した場合の実験結果である。
【0125】
なお、以下において示される「CI」は認知機能障害群に相当し、神経系疾患又は認知機能障害症状を表す。認知機能障害群には、例えば、アルツハイマー型認知症、レビー小体型認知症、軽度認知機能障害、前頭側頭型認知症、脳血管性認知症、若年性認知症、アルコール性認知症、大脳皮質基底核症候群、嗜銀顆粒性認知症、水頭症、及びその他の認知機能障害の症状を呈する疾患、又は認知症障害症状が含まれる。また、「MDs」は精神疾患群に相当し、精神系疾患又は精神障害症状を表す。精神疾患群には、大うつ病性障害、双極性障害、非定型うつ病、気分循環症、気分変調症、統合失調症、及びその他の精神疾患、又は精神障害症状が含まれる。「CTRL」は、精神系疾患、神経系疾患又はそれらの症状の何れも有していないことを表す。
【0126】
図17の実験結果は、被験者が「CI」であるか否かを推定した結果である。なお、「others」は、被験者が「CI」以外であることを指す。
【0127】
「第1のスコアによる推定」の行は、上記実施形態において、音響パラメータを特徴量として所定の算出式から算出される第1のスコアのみを用いて疾患又は症状を推定した場合のフレーズ別の正解率である。また、「第2のスコアによる推定」の行は、上記実施形態において、学習済みのResNetから算出される第2のスコアのみを用いて疾患又は症状を推定した場合のフレーズ別の正解率である。
【0128】
図17に示されるように、第1のスコアのみを用いた場合よりも第2のスコアを用いた場合の方が、正解率が高いフレーズが多い。また、第1のスコアと第2のスコアとを足し合わせることにより合成された合成スコアを用いた場合には、更に高い正解率となっているフレーズが存在することがわかる。
【0129】
以下の表に、合成スコアと各閾値とを用いて被験者が「CI」であるか否かを推定する場合の偽陽性率と陽性率とを示す。また、
図18に、以下の表の数値を用いて作成したROC曲線を示す。
【0130】
【0131】
図18を参照すると、学習済みのResNetを用いて第2のスコアを算出しその第2のスコアを用いて疾患又は症状を推定する場合に比べて、合成スコアを用いて疾患又は症状を推定する方が、推定精度が良いことがわかる。
【実施例2】
【0132】
次に、実施例2を説明する。実施例1では被験者が「CI」であるか否かを推定したが、実施例2では被験者が「CI」、「MDs」、及び「CTRL」の何れに該当するかを推定する。
【0133】
図19は、学習済みのResNetにより第2のスコアを算出し、その第2のスコアのみを用いて疾患又は症状を推定した場合の結果である。
図20は、第1実施形態と同様に、第1のスコアと第2のスコアを足し合わせた合成スコアを算出し、その合成スコアを用いて疾患又は症状を推定した場合の結果である。
【0134】
図21は、第2実施形態と同様に、第1のスコアと既知のニューラルネットワークを用いて算出した第2のスコアを足し合わせた合成スコアを算出し、その合成スコアを用いて疾患又は症状を推定した場合の結果である。なお、
図21の結果は、第2のスコアを算出する際に、隠れ層が1層であるニューラルネットワークを用いた場合の結果である。
【0135】
図22は、第2実施形態と同様に、第1のスコアと既知のニューラルネットワークを用いて算出した第2のスコアを足し合わせた合成スコアを算出し、その合成スコアを用いて疾患又は症状を推定した場合の結果である。なお、
図22の結果は、第2のスコアを算出する際に、隠れ層が2層であるニューラルネットワークを用いた場合の結果である。
【0136】
図19~
図22を参照すると、第2のスコアのみを用いて疾患又は症状を推定するよりも、合成スコアを用いて疾患又は症状を推定する方が、推定精度が良いことがわかる。更に、第1のスコアを算出する際には、ニューラルネットワークを用いた方が、推定精度が良いことがわかる。
【0137】
以上のような結果から、第1~第4実施形態の情報処理システムによれば、音声の時系列データから抽出されるパラメータを用いて精神系疾患、神経系疾患又はそれらの症状を推定する場合と比べ、ユーザが精神系疾患、神経系疾患又はそれらの症状を有しているか否かを精度良く推定することができることがわかる。
【0138】
なお、本開示の技術は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【0139】
例えば、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
【0140】
なお、上記実施形態でCPUがソフトウェア(プログラム)を読み込んで実行した処理を、CPU以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、FPGA(Field-Programmable Gate Array)等の製造後に回路構成を変更可能なPLD(Programmable Logic Device)、及びASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。または、プロセッサとしては、GPGPU(General-purpose graphics processing unit)を用いてもよい。また、各処理を、これらの各種のプロセッサのうちの1つで実行してもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGA、及びCPUとFPGAとの組み合わせ等)で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。
【0141】
また、上記各実施形態では、プログラムがストレージに予め記憶(インストール)されている態様を説明したが、これに限定されない。プログラムは、CD-ROM(Compact Disk Read Only Memory)、DVD-ROM(Digital Versatile Disk Read Only Memory)、及びUSB(Universal Serial Bus)メモリ等の非一時的(non-transitory)記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。
【0142】
また、本実施形態の各処理を、汎用演算処理装置及び記憶装置等を備えたコンピュータ又はサーバ等により構成して、各処理がプログラムによって実行されるものとしてもよい。このプログラムは記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。もちろん、その他いかなる構成要素についても、単一のコンピュータやサーバによって実現しなければならないものではなく、ネットワークによって接続された複数のコンピュータに分散して実現してもよい。
【0143】
また、上記実施形態では、第1のスコアと第2のスコアとの和を合成スコアとする場合を例に説明したが、これに限定されるものではない。例えば、第1のスコアと第2のスコアとの重み付け和を合成スコアとするようにしてもよい。
【0144】
また、上記実施形態では、算出モデルは上記のような線形式又はニューラルネットワークで表される場合を例に説明したが、これに限定されるものではない。算出モデルはその他のモデルであってよく、例えば、ロジスティック回帰の様な非線形結合を用いてもよい。また、学習済みモデルは、ResNetではなく他のモデルであってもよい。
【0145】
また、上記実施形態の第1のスコアは、ユーザが精神系疾患又は症状を有している度合いを表す第1の精神系疾患又は症状スコア、ユーザが神経系疾患又は症状を有している度合いを表す第1の神経系疾患又は症状スコア、及びユーザが精神系疾患又は症状及び神経系疾患又は症状の何れも有していない度合いを表す第1の健常系スコアの何れか1つを含むようにしてもよい。この場合、第2のスコアは、ユーザが精神系疾患又は症状を有している度合いを表す第2の精神系疾患又は症状スコア、ユーザが神経系疾患又は症状を有している度合いを表す第2の神経系疾患又は症状スコア、及びユーザが精神系疾患又は症状及び神経系疾患又は症状の何れも有していない度合いを表す第2の健常系スコアの何れか1つを含む。そして、合成スコアが算出する際には、第1の精神系疾患又は症状スコアと第2の精神系疾患又は症状スコアとを合成し、第2の精神系疾患又は症状スコアと第1の神経系疾患又は症状スコアとを合成し、第1の健常系スコアと第2の健常系スコアとを合成することにより、合成スコアを算出する。
【0146】
また、上記各実施形態では、音声データに対応する画像としてスペクトログラム画像を生成する場合を例に説明したが、これに限定されるものではない。音声データに対応する画像であれば、どのような画像であってもよい。例えば、上記
図4に示されるような音声データDの波形そのものを画像化し、その画像を学習済みモデルへ入力して第2のスコアを算出するようにしてもよい。この場合には、例えば、情報処理システムは、音声データから抽出された特徴量を、特徴量から精神系疾患、神経系疾患又はそれらの症状の度合いを表すスコアを算出するための予め学習された第1の学習済みモデルへ入力して、ユーザが精神系疾患、神経系疾患又はそれらの症状を有している度合いを表す第1のスコアを算出する。そして、情報処理システムは、音声データから生成された画像を、当該画像から精神系疾患、神経系疾患又はそれらの症状の度合いを表すスコアを算出するための予め学習された第2の学習済みモデルへ入力して、ユーザが精神系疾患、神経系疾患又はそれらの症状を有している度合いを表す第2のスコアを算出する。
【0147】
本明細書に記載された全ての文献、特許出願、および技術規格は、個々の文献、特許出願、および技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。