(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023178197
(43)【公開日】2023-12-14
(54)【発明の名称】情報処理装置、情報処理方法、情報処理システム、及び情報処理プログラム
(51)【国際特許分類】
A61B 10/00 20060101AFI20231207BHJP
G10L 25/66 20130101ALI20231207BHJP
【FI】
A61B10/00 K
G10L25/66
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2023035091
(22)【出願日】2023-03-07
(62)【分割の表示】P 2022545955の分割
【原出願日】2022-06-03
(71)【出願人】
【識別番号】322006559
【氏名又は名称】PST株式会社
(71)【出願人】
【識別番号】505155528
【氏名又は名称】公立大学法人横浜市立大学
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】大宮 康宏
(72)【発明者】
【氏名】高野 毅
(72)【発明者】
【氏名】遠藤 弘司
(72)【発明者】
【氏名】岡田 興造
(72)【発明者】
【氏名】小林 雄祐
(57)【要約】 (修正有)
【課題】ユーザが発した音声の時系列データである音声データからユーザの心臓の状態を推定することができる、情報処理装置、情報処理方法、情報処理システム、及び情報処理プログラムを提供する。
【解決手段】情報処理装置14は、ユーザが発した音声の時系列データである音声データを取得する。情報処理装置14は、音声データに基づいて、ユーザの心臓の状態を表す状態情報を計算し、計算された状態情報を出力する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
ユーザが発した音声の時系列データである音声データを取得する取得部と、
前記取得部により取得された前記音声データに基づいて、前記ユーザの心臓の状態を表す状態情報を計算する計算部と、
前記計算部により計算された前記状態情報を出力する出力部と、
を含む情報処理装置。
【請求項2】
前記状態情報は、ユーザの心不全の度合い、ユーザの心負荷の状態、ユーザの肺うっ血の状態、及びユーザの体液貯留の状態の少なくとも1つである、
請求項1に記載の情報処理装置。
【請求項3】
前記計算部は、前記音声データから、HNR(Harmonics-to-noise ratio)、発声持続時間、複数発話における発話の間の割合、発話と次の発話の長さ、発声の間の長さ、及び話速の少なくとも1つを表す特徴量を生成し、
生成した前記特徴量に基づいて、前記ユーザの前記状態情報を計算する、
請求項1又は請求項2に記載の情報処理装置。
【請求項4】
マイクを備えるユーザ端末と、請求項1~請求項3の何れか1項に記載の情報処理装置とを含む情報処理システムであって、
前記ユーザ端末は、前記マイクにより取得された前記音声データを前記情報処理装置へ送信し、
前記情報処理装置の前記取得部は、前記ユーザ端末から送信された前記音声データを取得し、
前記情報処理装置の通信部は、前記計算部により計算された前記状態情報をユーザ端末へ送信し、
前記ユーザ端末は、前記情報処理装置から送信された前記状態情報を受信する、
情報処理システム。
【請求項5】
ユーザが発した音声の時系列データである音声データを取得し、
取得された前記音声データに基づいて、前記ユーザの心臓の状態を表す状態情報を計算し、
計算された前記状態情報を出力する、
処理をコンピュータに実行させる情報処理方法。
【請求項6】
ユーザが発した音声の時系列データである音声データを取得し、
取得された前記音声データに基づいて、前記ユーザの心臓の状態を表す状態情報を計算し、
計算された前記状態情報を出力する、
処理をコンピュータに実行させるための情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
開示の技術は、情報処理装置、情報処理方法、情報処理システム、及び情報処理プログラムに関する。
【背景技術】
【0002】
国際公開第2020/013296号公報には、精神系疾患又は神経系疾患を推定する装置が開示されている。この装置は、ユーザの音声データから各種の音響パラメータを計算し、それらの音響パラメータを用いて、ユーザが精神系疾患又は神経系疾患であるか否かを推定する。
【発明の概要】
【発明が解決しようとする課題】
【0003】
上記国際公開第2020/013296号公報に開示されている装置は、音声データから計算される音響パラメータを用いて精神系疾患又は神経系疾患を推定する装置である。
【0004】
ところで、ユーザから発せられた音声には様々な情報が含まれており、音声から精神系疾患又は神経系疾患を推定するのみならず、ユーザが抱える他の疾患も推定することができる可能性もある。
【0005】
開示の技術は、上記の事情を鑑みてなされたものであり、ユーザが発した音声の時系列データである音声データからユーザの心臓の状態を推定することができる、情報処理装置、情報処理方法、情報処理システム、及び情報処理プログラムを提供する。
【課題を解決するための手段】
【0006】
上記の目的を達成するために本開示の第1態様は、ユーザが発した音声の時系列データである音声データを取得する取得部と、前記取得部により取得された前記音声データに基づいて、前記ユーザの心臓の状態を表す状態情報を計算する計算部と、前記計算部により計算された前記状態情報を出力する出力部と、を含む情報処理装置である。
【0007】
本開示の第2態様は、ユーザが発した音声の時系列データである音声データを取得し、取得された前記音声データに基づいて、前記ユーザの心臓の状態を表す状態情報を計算し、計算された前記状態情報を出力する、処理をコンピュータに実行させる情報処理方法である。
【0008】
本開示の第3態様は、ユーザが発した音声の時系列データである音声データを取得し、取得された前記音声データに基づいて、前記ユーザの心臓の状態を表す状態情報を計算し、計算された前記状態情報を出力する、処理をコンピュータに実行させるための情報処理プログラムである。
【発明の効果】
【0009】
開示の技術によれば、ユーザが発した音声の時系列データである音声データからユーザの心臓の状態を推定することができる、という効果が得られる。
【図面の簡単な説明】
【0010】
【
図1】第1実施形態の情報処理システムの概略構成の一例を示す図である。
【
図2】本実施形態において用いられる音声特徴量を説明するための図である。
【
図3】本実施形態において用いられる音声特徴量を説明するための図である(
図2のP1部分の拡大図)。
【
図4】第1実施形態の情報処理システムの利用形態の一例を模式的に示す図である。
【
図5】情報処理装置を構成するコンピュータの一例を示す図である。
【
図6】第1実施形態の情報処理装置が実行する処理の一例を示す図である。
【
図7】第2実施形態の情報処理システムの概略構成の一例を示す図である。
【
図8】第2実施形態の情報処理システムの利用形態の一例を模式的に示す図である。
【
図9】第2実施形態の情報処理システムの利用形態の一例を模式的に示す図である。
【
図10】実施例において説明する音声特徴量を説明するための図である。
【発明を実施するための形態】
【0011】
以下、図面を参照して開示の技術の実施形態を詳細に説明する。
【0012】
<第1実施形態の情報処理システム>
【0013】
図1に、第1実施形態に係る情報処理システム10を示す。
図1に示されるように、第1実施形態の情報処理システム10は、マイク12と、情報処理装置14と、表示装置16とを備えている。
【0014】
情報処理システム10は、マイク12により集音されたユーザの音声に基づいて、ユーザの心臓の状態を推定することが可能である。なお、本実施形態では、情報処理システム10が、ユーザの心臓の状態として、ユーザの心不全の度合いを計算し、その度合いに基づいてユーザが心不全であるか否かを推定する場合を例に説明する。ユーザの心臓の状態に関しては、ユーザの心不全の度合いに限定されるものではなく、ユーザの心負荷の状態、ユーザの肺うっ血の状態、又はユーザの体液貯留の状態等であってもよい。ユーザの心不全の度合いは、ユーザの心臓の状態を表す状態情報の一例である。
【0015】
第1実施形態の情報処理システム10の情報処理装置14は、ユーザが発した音声の時系列データである音声データの包絡線を生成し、当該包絡線に対してフーリエ変換を実行する。そして、情報処理装置14は、フーリエ変換結果のうちの解析対象の周波数区間内における、ある周波数区間(以下、単に第1周波数区間とも称する)と第1周波数区間に隣接する周波数区間(以下、単に第2周波数区間とも称する)との組み合わせの各々について、第1周波数区間におけるパワースペクトルと第2周波数区間におけるパワースペクトルとの差分を計算する。そして、情報処理装置14は、解析対象の周波数区間内において上記の差分を積算した積算結果を計算し、その積算結果を一つの音声特徴量として設定する。なお、本実施形態では、この音声特徴量をVMI(Voice Modulation Index)とも称する。そして、情報処理装置14は、VMIに基づいて、ユーザの心不全の度合いを計算する。以下、具体的に説明する。
【0016】
図1に示されるように、情報処理装置14は、機能的には、取得部20と、音声データ記憶部22と、参照データ記憶部24と、計算部26と、推定部28と、出力部29とを備えている。情報処理装置14は、後述するようなコンピュータにより実現される。
【0017】
取得部20は、ユーザが発した音声の時系列データである音声データを取得する。ユーザが心不全であるか否かを推定する対象者である。そして、取得部20は、音声データを音声データ記憶部22へ格納する。
【0018】
音声データ記憶部22には、取得部20により取得された音声データが格納される。
【0019】
参照データ記憶部24には、心不全であるか否かが既知である参照用ユーザの音声データ(以下、単に参照データと称する)が格納されている。なお、参照データは、心不全であると診断された者が発した音声データ、及び心不全ではないと診断された者が発した音声データである。なお、参照データ記憶部24には、これらのデータを元にした派生データが格納されていてもよい。例えば、参照データ記憶部24には、参照データから抽出された音声特徴量が格納されていてもよい。
【0020】
なお、参照データ記憶部24には、音声データから抽出される1つ以上の音声特徴量を用いて、ユーザの心不全の度合いを計算するための計算モデルが格納されている。この計算モデルは、例えば、統計モデル又は機械学習モデルである。例えば、統計モデルとして回帰モデルが利用される場合には、その回帰モデルの計算式と回帰モデルの係数の値とが計算モデルとして参照データ記憶部24に格納される。また、例えば、機械学習モデルが利用される場合には、その機械学習モデルの構造式と機械学習モデルの学習済みパラメータ取得との組み合わせである学習済みモデルが、計算モデルとして参照データ記憶部24に格納される。統計モデル又は機械学習モデルは、予め収集された訓練データに基づいて、その係数又はパラメータが予め取得される。これらの計算モデルは、ユーザの心不全の度合いを計算する際に用いられる。
【0021】
なお、統計モデル又は機械学習モデル等を利用せずに、ユーザから得られた音声データ又は音声データから抽出された音声特徴量と、参照データ又は参照データから抽出される音声特徴量との間の類似度を用いて、ユーザの心不全の度合いを計算するようにしてもよい。なお、本実施形態では、ユーザの心不全の度合いを計算するための計算モデルと音声特徴量とを用いて、ユーザの心不全の度合いを計算する場合を例に説明する。
【0022】
計算部26は、音声データ記憶部22に記憶されている音声データを読み出す。そして、計算部26は、音声データに対して各種の処理を実行し、得られた結果に基づいてユーザの心不全の度合いを推定する。本実施形態で利用する音声特徴量の一つであるVMIの生成方法について、以下、具体的に説明する。
図2に、VMIを説明するための図を示す。
【0023】
図2(A)は音声データの一例を示す図である。計算部26は、既知の手法を用いて、
図2(A)に示されるような音声データから
図2(B)に示されるような包絡線を生成する。なお、
図2(A)(B)の縦軸は音声データの振幅(又は音圧)を表す。
【0024】
次に、計算部26は、
図2(B)に示されるような包絡線に対してフーリエ変換を実行することにより、
図2(C)に示されるような包絡線のフーリエ変換結果を取得する。なお、
図2(C)の縦軸はパワースペクトルを表す。
【0025】
次に、計算部26は、
図2(C)に示されるようなフーリエ変換結果のうちの解析対象の周波数区間P内における、第1周波数値と第1周波数値に隣接する第2周波数値との組み合わせの各々について、第1周波数値におけるパワースペクトルと、第2周波数値におけるパワースペクトルとの差分を計算する。なお、解析対象の周波数区間Pとしては、例えばその一例として、最低周波数は25[Hz]、最大周波数は75[Hz]が設定される。
【0026】
図3に、
図2のP1部分の拡大図を示す。具体的には、計算部26は、
図3に示されているような解析対象の周波数区間P内の周波数区間P1において、第1周波数値と第1周波数値に隣接する第2周波数値とを設定する。そして、計算部26は、
図3に示されるように、第1周波数値におけるパワースペクトルaと、第2周波数値におけるパワースペクトルbとの間の差分を計算する。
同様に、計算部26は、
図3に示されるように、パワースペクトルbとパワースペクトルcとの間の差分を計算する。また、計算部26は、
図3に示されるように、パワースペクトルcとパワースペクトルdとの間の差分を計算する。
【0027】
そして、計算部26は、解析対象の周波数区間P内において計算された上記の差分の総和を積算した積算結果を計算し、積算結果を一つの音声特徴量であるVMIとして設定する。
【0028】
ここで、本実施形態において提案されるVMIについて説明する。ユーザの心臓の状態が悪く、例えば、心不全の状態となっている場合には、肺に水が溜まりそれが声に現れるものと考えられる。このような状態では、例えば、ユーザの喉に痰が発生しやすくなり、ユーザの声はガラガラ感が強くなる傾向がある。
【0029】
この点、ユーザの声に含まれるガラガラ感は、25~75Hzの周波数領域に相当するものと考えられる。また、音声データのスペクトル変化が激しい(いわゆる、波形がギザギザしている)ほど、実際の声はガラガラ感が強くなる傾向がある。
【0030】
本実施形態において提案されるVMIは、音声データのある周波数のパワースペクトルと、そのパワースペクトルに隣接するパワースペクトルとの間の差分を計算し、その差分を積算するものである。このため、VMIは、ユーザの声のガラガラ感を検知するような特徴量であるといえ、ユーザの心臓の状態を精度良く検知することが可能な音声特徴量であるといえる。
【0031】
また、計算部26は、音声データから他の複数の音声特徴量を抽出する。例えば、計算部26は、音声データからHNR(Harmonics-to-noise ratio)及び長母音の発声持続時間を音声特徴量として抽出する。HNR(Harmonics-to-noise ratio)は、例えば、以下の参考文献1に開示されている特徴量である。
【0032】
参考文献1:"Harmonic to Noise Ratio Measurement - Selection of Window and Length", Procedia Computer Science, Volume 138, 2018, Pages 280-285
【0033】
さらに、計算部26は、国際公開第2020/013296号公報に開示されているような各種の音声特徴量を音声データから抽出する。または、計算部26は、音声データからスペクトログラムを取得し、そこから特徴量を抽出してもよい。
【0034】
そして、計算部26は、上述したような複数の音声特徴量に基づいて、ユーザが心不全である度合いを表すスコアを計算する。なお、ユーザの心不全の度合いを表す本実施形態のスコアは、ユーザが心不全である可能性の高さを示すことができる。具体的には、計算部26は、参照データ記憶部24に格納されている参照データを読み出す。次に、計算部26は、参照データから上述した音声特徴量と同様の複数の音声特徴量を抽出する。そして、計算部26は、ユーザの音声データから抽出された複数の音声特徴量と、参照データから抽出された複数の音声特徴量とに基づいてユーザの心不全の度合いを表すスコアを計算する。なお、スコアに関しては、例えば、スコアの値が大きいほどユーザは心不全である可能性が高く、スコアの値が小さいほど心不全である可能性が低い、というように予め設定することができる。または、スコアに関しては、例えば、スコアの値が大きいほどユーザは心不全である可能性が低く、スコアの値が小さいほど心不全である可能性が高い、というように予め設定することもできる。
【0035】
例えば、計算部26は、心不全と診断された者から取得された参照データから抽出された複数の音声特徴量を用いた心不全の程度の計算モデルを用いて、スコアの計算対象のユーザの音声データから、ユーザの心不全の度合いを表すスコアの計算をする。
【0036】
推定部28は、計算部26により計算されたスコアに基づいて、ユーザが心不全であるか否かを推定する。例えば、推定部28は、スコアが所定の閾値以上である場合には、ユーザは心不全であると推定し、スコアが所定の閾値未満である場合には、ユーザは心不全ではないと推定する。
【0037】
出力部29は、推定部28により推定された推定結果を出力する。なお、出力部29は、心不全の度合いを表すスコアそのものを推定結果として出力してもよい。
【0038】
表示装置16は、推定部28から出力された推定結果を表示する。
【0039】
情報処理装置14を操作する医療従事者又はユーザは、表示装置16から出力された推定結果を確認し、ユーザが心不全である可能性を確認する。
【0040】
本実施形態の情報処理システム10は、例えば、
図4に示されるような状況下においての利用が想定される。
【0041】
図4の例では、医師等の医療従事者Hが、情報処理システム10の一例であるタブレット型端末を保持している。医療従事者Hは、タブレット型端末が備えるマイク(図示省略)を用いて、被験者であるユーザUの音声データを集音する。そして、タブレット端末は、ユーザUの音声データに基づいて、ユーザUが心不全であるか否かを推定し、推定結果を表示部(図示省略)へ出力する。医療従事者Hは、タブレット端末の表示部(図示省略)に表示された推定結果を参考にして、医療従事者HがユーザUの心不全の度合いを判断する。
【0042】
情報処理装置14は、例えば、
図5に示すコンピュータ50で実現することができる。コンピュータ50はCPU51、一時記憶領域としてのメモリ52、及び不揮発性の記憶部53を備える。また、コンピュータ50は、外部装置及び出力装置等が接続される入出力interface(I/F)54、及び記録媒体に対するデータの読み込み及び書き込みを制御するread/write(R/W)部55を備える。また、コンピュータ50は、インターネット等のネットワークに接続されるネットワークI/F56を備える。CPU51、メモリ52、記憶部53、入出力I/F54、R/W部55、及びネットワークI/F56は、バス57を介して互いに接続される。
【0043】
記憶部53は、Hard Disk Drive(HDD)、Solid State Drive(SSD)、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部53には、コンピュータ50を機能させるためのプログラムが記憶されている。CPU51は、プログラムを記憶部53から読み出してメモリ52に展開し、プログラムが有するプロセスを順次実行する。
【0044】
[第1実施形態の情報処理システムの動作]
【0045】
次に、第1実施形態の情報処理システム10の具体的な動作について説明する。情報処理システム10の情報処理装置14は、
図6に示される各処理を実行する。
【0046】
まず、ステップS100において、取得部20は、マイク12により集音されたユーザの音声データを取得する。そして、取得部20は、音声データを音声データ記憶部22へ格納する。
【0047】
次に、ステップS102において、計算部26は、ステップS100で音声データ記憶部に格納された音声データを読み出し、その音声データから
図2(B)に示されるような包絡線を生成する。
【0048】
ステップS104において、計算部26は、ステップS102で生成された包絡線に対してフーリエ変換を実行することにより、
図2(C)に示されるような包絡線のフーリエ変換結果を取得する。
【0049】
ステップS106において、計算部26は、ステップS104で取得されたフーリエ変換結果に対して
図2(C)に示されるような解析対象の周波数区間Pを設定する。
【0050】
ステップS108において、計算部26は、ステップS106で設定されたフーリエ変換結果のうちの解析対象の周波数区間P内における、第1周波数値と第1周波数値に隣接する第2周波数値との組み合わせの各々について、第1周波数値におけるパワースペクトルと、第2周波数値におけるパワースペクトルとの差分を計算する。
【0051】
ステップS110において、計算部26は、ステップS108で計算された差分の総和を積算した積算結果を計算し、積算結果を一つの音声特徴量として設定する。
【0052】
ステップS112において、計算部26は、ステップS100で取得された音声データから他の複数の音声特徴量を抽出する。
【0053】
ステップS114において、計算部26は、参照データ記憶部24から参照データを読み出し、ステップS110で計算された音声特徴量とステップS112で抽出された複数の音声特徴量を、その参照データから抽出してもよい。
【0054】
ステップS116において、計算部26は、ステップS110及びステップ112で取得された音声データの複数の音声特徴量と、ステップS114で抽出された参照データの複数の音声特徴量と、参照データ記憶部24に格納されている計算モデルとに基づいて、ステップS110で取得された音声データを発したユーザの心不全の度合いを表すスコアを計算する。具体的には、計算部26は、複数の音声特徴量を計算モデルへ入力する。そして、計算部26は、計算モデルから出力される値を、ユーザの心不全の度合いを表すスコアとする。
【0055】
ステップS118において、推定部28は、上記ステップS116で計算されたスコアに基づいて、ユーザが心不全であるか否かを推定する。例えば、推定部28は、スコアが所定の閾値以上である場合には、ユーザが心不全であると推定し、スコアが所定の閾値未満である場合には、ユーザは心不全ではないと推定する。そして、ステップS118において、推定部28は、推定結果を出力する。
【0056】
そして、出力部29は、推定部28による推定結果を出力する。表示装置16は、出力部29から出力された推定結果を表示する。情報処理装置14を操作する医療従事者又はユーザは、表示装置16から出力された推定結果を確認し、医療従事者又はユーザが心不全の度合いを確認する。
【0057】
以上説明したように、第1実施形態の情報処理システム10の情報処理装置14は、ユーザが発した音声の時系列データである音声データに基づいて、ユーザの心不全の度合いを計算し、計算された度合いを出力する。これにより、ユーザが発した音声の時系列データである音声データから医療従事者又はユーザが心不全の度合いを推定することができる。なお、
図4の医療従事者Hは、スマート家電、スマートスピーカー、又はアバター等に置き換えてもよい。
【0058】
なお、情報処理装置14は、音声データの包絡線を生成し、包絡線に対してフーリエ変換を実行することにより、包絡線のフーリエ変換結果を取得する。情報処理装置14は、フーリエ変換結果のうちの解析対象の周波数区間内における、第1周波数値と第1周波数値に隣接する第2周波数値との組み合わせの各々について、第1周波数値におけるパワースペクトルと、第2周波数値におけるパワースペクトルとの差分を計算し、解析対象の周波数区間内において当該差分を積算した積算結果を計算する。そして、情報処理装置14は、積算結果を音声特徴量として設定し、その音声特徴量に基づいて、ユーザの心不全の度合いを計算する。なお、ユーザの心不全の度合いを計算する際の音声特徴量には、HNR(Harmonics-to-noise ratio)、発声持続時間、複数発話が発せられた際に要した時間に対する発話と発話との間の空白時間の割合、発話と発話との間の空白時間の長さ、発声がされている時間の長さ、及び話速の少なくとも1つが含まれていてもよい。これにより、ユーザの心不全の度合いを精度良く推定することができる。
【0059】
<第2実施形態の情報処理システム>
【0060】
次に、第2実施形態について説明する。なお、第2実施形態の情報処理システムの構成のうちの、第1実施形態と同様の構成となる部分については、同一符号を付して説明を省略する。
【0061】
図7に、第2実施形態の情報処理システム310を示す。
図7に示されるように、情報処理システム310は、ユーザ端末18と、情報処理装置314とを備えている。情報処理装置314は、通信部30を更に備えている。
【0062】
情報処理システム310の情報処理装置314は、ユーザ端末18に備えられたマイク12により集音されたユーザの音声に基づいて、ユーザの心不全の度合いを推定する。
【0063】
第2実施形態の情報処理システム310は、例えば、
図8及び
図9に示されるような状況下においての利用が想定される。
【0064】
図8の例では、医師等の医療従事者Hが情報処理装置314を操作しており、被験者であるユーザUはユーザ端末18を操作している。ユーザUは、自らが操作するユーザ端末18のマイク12により自らの音声データを集音する。そして、ユーザ端末18は、インターネット等のネットワーク19を介して音声データを情報処理装置314へ送信する。
【0065】
情報処理装置314は、ユーザ端末18から送信されたユーザUの音声データを受信する。そして、情報処理装置314は、受信した音声データに基づいて、ユーザUの心不全の度合いを推定し、推定結果を情報処理装置314の表示部315へ出力する。医療従事者Hは、情報処理装置314の表示部315に表示された推定結果を参考にして、ユーザUが心不全の度合いを判断する。
【0066】
一方、
図9の例では、被験者であるユーザUは、自らが操作するユーザ端末18のマイク12により自らの音声データを集音する。そして、ユーザ端末18は、インターネット等のネットワーク19を介して音声データを情報処理装置314へ送信する。情報処理装置314は、ユーザ端末18から送信されたユーザUの音声データを受信する。そして、情報処理装置314は、受信した音声データに基づいて、ユーザUの心不全の度合いを推定し、推定結果をユーザ端末18へ送信する。ユーザ端末18は、情報処理装置314から送信された推定結果を受信し、その推定結果を表示部(図示省略)へ表示する。ユーザは、推定結果を確認し、自らの心不全の度合いを確認する。
【0067】
なお、情報処理装置314は、上記
図6と同様の情報処理ルーチンを実行する。
【0068】
以上説明したように、第2実施形態の情報処理システムは、クラウド上に設置された情報処理装置314を用いてユーザの心不全の度合いを推定することができる。
【0069】
第2実施形態の情報処理システムを利用することにより、病院外でもユーザの心不全を推定することが可能となる。なお、病院外において心不全を推定することが可能となることは多くの利点があり、その社会的な意義は大きい。例えば、一度心不全と診断された患者は、病院を退院した後も病院外で心不全が増悪又は再発し、再入院を繰り返す可能性が高い。このような場合、患者の心不全悪化の兆候をなるべく早期に発見し早めの措置を取ることが可能であれば、心不全悪化による再入院を予防することが期待でき、心不全が悪化したとしても患者は早く回復する可能性が高い。さらに、このような技術は災害時又は感染症の流行時など病院への受診が困難な場合にも心不全という重大な疾患の早期発見及び疾患管理にも応用できる可能性がある。なお、心不全を発見するためには、患者の血圧や脈拍、その他の採血、及びレントゲン検査結果等を含めた状態をモニタリングする必要がある。このため、病院外においては患者のそれらの状態を逐次モニタリングすることは困難である。
【0070】
これに対し、本実施形態の情報処理システムによれば、ユーザの音声データに基づいて、ユーザの心不全の度合いを計算することが可能となるため、例えば、ユーザは自宅においても自ら心不全の度合いを確認することができる。さらに、本実施形態の情報処理システムを利用することにより、循環器を専門とする医師以外の医師、他の医療関係者、又は介護関係者であっても、ユーザの心不全を判定することができる。これにより、患者の心不全の度合いの変化を早期に発見することができる。
【実施例0071】
次に、実施例1を説明する。実施例1では、本実施形態において導入された音声特徴量であるVMI(Voice Modulation Index)、HNR(Harmonics-to-noise ratio)、発声持続時間、複数発話が発せられた際に要した時間に対する発話と発話との間の空白時間の割合、発話と発話との間の空白時間の長さ、発声がされている時間の長さ、及び話速についての有用性に関する実験結果を示す。本実施例1では、各表中に示されるようなフレーズを被験者に発してもらい、その音声データから得られる音声特徴量と被験者の各心不全指標との間の相関係数及び心不全症状があるか否かの判別精度を計算した。
【0072】
なお、本実施例における表2以降における各指標は、表1に示されているような指標である。
【0073】
【0074】
以下の表2には、従来から知られている音声特徴量であるZCR(Zero-crossing rate)及びVMIと、心不全の度合いを判定する際に用いられる各種指標との間の相関係数を算出した結果が示されている。
【0075】
<代表的フレーズ及び長母音「あー」の解析>
【表2】
【0076】
上記表2において、ZCRとVMIとを比較すると、実施形態で利用した音声特徴量であるVMIとNYHAとの間の相関係数の方が、従来知られている音声特徴量であるZCRよりも大きい傾向となっていることがわかる。
【0077】
このことから、実施形態で利用した音声特徴量であるVMIは心不全の度合いを推定するのに有用な音声特徴量であることが分かる。
【0078】
次に、表3に、HNR(Harmonics-to-noise ratio)を含む各種の音声特徴量と心不全の程度を判定する際に用いられる各種指標との間の相関係数を算出した結果を示す。
【0079】
【0080】
また、
図10に、上記表3の「Shimmer」「Jitter」を説明するための図を示す。なお、「Shimmer」「Jitter」は、国際公開第2020/013296号公報に開示されている音声特徴量でもある。以下の数1における添え字iは、周期的に繰り返される信号の1つの波を識別するためのインデックスである。Nは、周期的に繰り返される信号の総数を表す。以下の式におけるTは周期を表し、Aは振幅を表す。
【0081】
【0082】
また、HNR(Harmonics-to-noise ratio)は、雑音成分と調波成分とのエネルギー比を表す。上記表3に示されているように、音声特徴量「HNR」と各指標との間の相関係数の方が、従来知られている音声特徴量「Shimmer」「Jitter」及びZCRと各指標との相関係数よりも大きい傾向となっていることがわかる。このことから、実施形態で利用した音声特徴量である「HNR」は心不全を推定するのに有用な音声特徴量であることが分かる。
【0083】
次に、表4に、長母音の発声持続時間、複数発話が発せられた際に要した時間に対する発話と発話との間の空白時間の割合(以下の表では「間の割合」と表記)、発話と発話との間の空白時間の長さ(以下の表では「間の長さ」と表記)、発声がされている時間の長さ(以下の表では「発話の長さ」と表記)、及び話速の音声特徴量と心不全の度合いを判定する際に用いられる各種指標との間の相関係数を算出した結果を示す。
【0084】
【0085】
上記表4に示されているように、長母音の発声持続時間、複数発話が発せられた際に要した時間に対する発話と発話との間の空白時間の割合、発話と発話との間の空白時間の長さ、発声がされている時間の長さ、及び話速と各指標との間の相関係数の方が、従来知られている音声特徴量であるZCRと各指標との相関係数よりも大きい傾向となっていることがわかる。このことから、実施形態で利用した音声特徴量である長母音の発声持続時間、複数発話が発せられた際に要した時間に対する発話と発話との間の空白時間の割合、発話と発話との間の空白時間の長さ、発声がされている時間の長さ、及び話速は心不全の度合いを推定するのに有用な音声特徴量であることが分かる。
次に、実施例2を説明する。実施例2では、本実施形態で導入されている各種音声特徴量を用いて機械学習モデルを学習させ、学習済みモデルを生成し、学習用データが収集された被験者とは異なる被験者の音声データに対して、次の2群の判定を行った。
上記実施形態では、ユーザの心臓の状態として、ユーザが心不全である度合いを推定する場合を例に説明したが、これに限定されるものではない。例えば、ユーザの心臓の状態としては、ユーザの心負荷の状態、ユーザの肺うっ血の状態、又はユーザの体液貯留の状態等であってもよい。これらの状態を推定する場合には、各々に対するスコアが設定される。例えば、ユーザの心負荷の状態に係るスコアは、ユーザの心負荷の程度を示すことができる。ユーザの肺うっ血又は体液貯留の状態に係るスコアは、そのユーザの肺うっ血又は体液貯留の程度を示すことができる。
例えば、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
なお、上記実施形態でCPUがソフトウェア(プログラム)を読み込んで実行した処理を、CPU以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、FPGA(Field-Programmable Gate Array)等の製造後に回路構成を変更可能なPLD(Programmable Logic Device)、及びASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。または、プロセッサとしては、GPGPU(General-purpose graphics processing unit)を用いてもよい。また、各処理を、これらの各種のプロセッサのうちの1つで実行してもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGA、及びCPUとFPGAとの組み合わせ等)で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。
また、上記各実施形態では、プログラムがストレージに予め記憶(インストール)されている態様を説明したが、これに限定されない。プログラムは、CD-ROM(Compact Disk Read Only Memory)、DVD-ROM(Digital Versatile Disk Read Only Memory)、及びUSB(Universal Serial Bus)メモリ等の非一時的(non-transitory)記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。
また、本実施形態の各処理を、汎用演算処理装置及び記憶装置等を備えたコンピュータ又はサーバ等により構成して、各処理がプログラムによって実行されるものとしてもよい。このプログラムは記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。もちろん、その他いかなる構成要素についても、単一のコンピュータやサーバによって実現しなければならないものではなく、ネットワークによって接続された複数のコンピュータに分散して実現してもよい。
本明細書に記載された全ての文献、特許出願、および技術規格は、個々の文献、特許出願、および技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。