(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024136289
(43)【公開日】2024-10-04
(54)【発明の名称】情報処理装置、情報処理方法、情報処理システム、及び情報処理プログラム
(51)【国際特許分類】
A61B 5/08 20060101AFI20240927BHJP
G10L 25/30 20130101ALI20240927BHJP
G10L 25/66 20130101ALI20240927BHJP
G16H 50/20 20180101ALI20240927BHJP
【FI】
A61B5/08
G10L25/30
G10L25/66
G16H50/20
【審査請求】未請求
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2023047368
(22)【出願日】2023-03-23
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 令和4年3月24日 https://medical-pst.com/news/products/2431 にて公開 令和4年3月24日 https://prtimes.jp/main/html/rd/p/000000012.000040125.html にて公開 令和4年3月24日 https://www.pref.kanagawa.jp/docs/bs5/prs/r7975882.html にて公開 令和4年3月24日 https://www.shi.kuhs.ac.jp/news/details_01374.html にて公開 令和4年3月24日 https://www.nikkei.com/article/DGXZQOCC245OP0U2A320C2000000/ にて公開 令和4年3月25日 https://bio.nikkeibp.co.jp/atcl/release/22/03/25/12899/ にて公開 令和4年3月24日 https://www.jiji.com/jc/article?k=000000012.000040125&g=prt にて公開 令和4年3月28日 https://medical.jiji.com/news/51633 にて公開
(71)【出願人】
【識別番号】322006559
【氏名又は名称】PST株式会社
(71)【出願人】
【識別番号】522017623
【氏名又は名称】公立大学法人神奈川県立保健福祉大学
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】大宮 康宏
(72)【発明者】
【氏名】水口 大輔
(72)【発明者】
【氏名】徳野 慎一
【テーマコード(参考)】
4C038
5L099
【Fターム(参考)】
4C038SV05
4C038SX07
5L099AA04
(57)【要約】
【課題】ユーザが発した音声データに対して動的時間伸縮法を適用することにより、ユーザが呼吸器疾患又は呼吸器症状を有しているか否かを精度良く推定する。
【解決手段】情報処理装置は、ユーザが発した音声データを取得する。情報処理装置は、音声データに対して、動的時間伸縮法(Dynamic Time Warping)を適用することにより、動的時間伸縮法に関する第1特徴量を抽出し、音声データから第1特徴量とは異なる第2特徴量を抽出する。情報処理装置は、第1特徴量と前記第2特徴量とを含む複数の特徴量に基づいて、ユーザの呼吸器症状に関する情報を推定する。情報処理装置は、呼吸器症状に関する情報を出力する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
ユーザが発した音声データを取得する取得部と、
前記取得部により取得された前記音声データに対して、動的時間伸縮法(Dynamic Time Warping)を適用することにより、前記動的時間伸縮法に関する第1特徴量を抽出し、前記音声データから前記第1特徴量とは異なる第2特徴量を抽出する抽出部と、
前記抽出部により得られた、前記第1特徴量と前記第2特徴量とを含む複数の特徴量に基づいて、前記ユーザの呼吸器症状に関する情報を推定する推定部と、
前記推定部により推定された前記呼吸器症状に関する情報を出力する出力部と、
を含む情報処理装置。
【請求項2】
前記推定部は、予め機械学習又は深層学習された学習済みモデル又は予め生成された統計モデルに対して、前記第1特徴量と前記第2特徴量とを含む複数の特徴量を入力し、前記学習済みモデル又は前記統計モデルから出力されるデータを、前記ユーザの呼吸器症状に関する情報として推定する、
請求項1に記載の情報処理装置。
【請求項3】
前記呼吸器症状に関する情報は、
前記ユーザが呼吸器疾患に罹患しているか否か、前記呼吸器疾患又は呼吸器症状の度合い、前記呼吸器疾患による前記ユーザの状態、及び前記呼吸器疾患による経皮的動脈血酸素飽和度の少なくとも1つを表す情報である、
請求項1又は請求項2に記載の情報処理装置。
【請求項4】
前記呼吸器症状に関する情報は、前記呼吸器症状の度合いであり、
前記呼吸器症状は、息切れ、痰、咳嗽、鼻閉、倦怠感、経皮的動脈血酸素飽和度、気管又は気管支の炎症、気管又は気管支の攣縮、及び咽頭又は喉頭の炎症の少なくとも1つである、
請求項1又は請求項2に記載の情報処理装置。
【請求項5】
前記抽出部は、前記音声データと、前記呼吸器症状に関する情報が既知である参照用ユーザの音声データとに対して前記動的時間伸縮法を適用することにより、前記音声データと前記参照用ユーザの前記音声データとの間の距離を、前記第1特徴量として生成し、
前記推定部は、前記第1特徴量と前記第2特徴量とを含む複数の特徴量に基づいて、前記呼吸器症状に関する情報を推定する、
請求項1又は請求項2に記載の情報処理装置。
【請求項6】
前記抽出部は、前記音声データ内の第1の時間区間におけるデータを表す第1音声データと、前記音声データ内の第2の時間区間におけるデータを表す第2音声データとに対して前記動的時間伸縮法を適用することにより、前記第1音声データと前記第2音声データとの間の距離を、前記第1特徴量として生成し、
前記推定部は、前記第1特徴量と前記第2特徴量とを含む複数の特徴量に基づいて、前記呼吸器症状に関する情報を推定する、
請求項1又は請求項2に記載の情報処理装置。
【請求項7】
前記取得部により取得された前記音声データのうちの、前記音声データの開始点から第1時間以後のデータであって、かつ前記音声データの終了点よりも第2時間以前のデータを表す前処理済み音声データを生成する前処理部を更に含み、
前記抽出部は、前記前処理済み音声データから前記第1特徴量を抽出する、
請求項1又は請求項2に記載の情報処理装置。
【請求項8】
前記音声データの開始点から第1時間以後のデータであって、かつ前記音声データの終了点よりも第2時間以前のデータに対して所定のサンプリング処理を実行することにより得られるデータを、前処理済み音声データとして生成する前処理部を更に含み、
前記抽出部は、前記前処理済み音声データから前記第1特徴量を抽出する、
請求項1又は請求項2に記載の情報処理装置。
【請求項9】
前記音声データの開始点から第1時間以後のデータであって、かつ前記音声データの終了点よりも第2時間以前のデータに対し、時間軸方向において伸縮させる処理を実行することにより、前処理済み音声データを生成する前処理部を更に含み、
前記抽出部は、前記前処理済み音声データから前記第1特徴量を抽出する、
請求項1又は請求項2に記載の情報処理装置。
【請求項10】
前記音声データの開始点から第1時間以後のデータであって、かつ前記音声データの終了点よりも第2時間以前のデータに対し、振幅方向において伸縮させる処理を実行することにより、前処理済み音声データを生成する前処理部を更に含み、
前記抽出部は、前記前処理済み音声データから前記第1特徴量を抽出する、
請求項1又は請求項2に記載の情報処理装置。
【請求項11】
前記音声データの開始点から第1時間以後のデータであって、かつ前記音声データの終了点よりも第2時間以前のデータに対し、前記データを時間軸方向へシフトさせることにより、前処理済み音声データを生成する前処理部を更に含み、
前記抽出部は、前記前処理済み音声データから前記第1特徴量を抽出する、
請求項1又は請求項2に記載の情報処理装置。
【請求項12】
マイクを備えるユーザ端末と、請求項1又は請求項2に記載の情報処理装置とを含む情報処理システムであって、
前記ユーザ端末は、前記マイクにより取得された前記音声データを前記情報処理装置へ送信し、
前記情報処理装置の前記取得部は、前記ユーザ端末から送信された前記音声データを取得し、
前記情報処理装置の通信部は、前記推定部により推定された推定結果をユーザ端末へ送信し、
前記ユーザ端末は、前記情報処理装置から送信された前記推定結果を受信する、
情報処理システム。
【請求項13】
ユーザが発した音声データを取得し、
前記音声データに対して、動的時間伸縮法(Dynamic Time Warping)を適用することにより、前記動的時間伸縮法に関するスコアを計算し、前記スコアを第1特徴量として抽出し、前記音声データから前記第1特徴量とは異なる第2特徴量を抽出し、
前記第1特徴量と前記第2特徴量とを含む複数の特徴量に基づいて、前記ユーザの呼吸器症状に関する情報を推定する、
処理をコンピュータが実行する情報処理方法。
【請求項14】
ユーザが発した音声データを取得し、
前記音声データに対して、動的時間伸縮法(Dynamic Time Warping)を適用することにより、前記動的時間伸縮法に関するスコアを計算し、前記スコアを第1特徴量として抽出し、前記音声データから前記第1特徴量とは異なる第2特徴量を抽出し、
前記第1特徴量と前記第2特徴量とを含む複数の特徴量に基づいて、前記ユーザの呼吸器症状に関する情報を推定する、
処理をコンピュータに実行させるための情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
開示の技術は、情報処理装置、情報処理方法、情報処理システム、及び情報処理プログラムに関する。
【背景技術】
【0002】
特許文献1には、精度良く音声障害の原因を容易に推定することができる技術が開示されている。特許文献1に開示されている技術は、対象者の音声に関する情報を含む音声データおよび対象者に対して行われた問診の結果に関する情報を含む問診データが入力され、入力された音声データおよび問診データ、並びに機械学習によって生成された推定モデルに基づき、音声障害の原因を推定する。
【0003】
特許文献2には、患者の呼吸器系の疾患の存在を予測するための方法が開示されている。特許文献2に開示されている技術は、少なくとも1つの電子プロセッサを動作させて、疾患に関連付けられた、患者の1または複数の音を、音の対応する1または複数の画像表現に変換し、1または複数の画像表現を、疾患の存在を予測するために訓練された少なくとも1つのパターン分類器に適用し、プロセッサを動作させて、パターン分類器の少なくとも1つの出力に基づいて、患者の疾患の存在を予測する。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2020-201810号公報
【特許文献2】特表2023-507344号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
上記特許文献1,2に開示されている装置は、音声データから疾患を推定するものの、その精度に関しては改善の余地がある。
【0006】
開示の技術は、上記の事情を鑑みてなされたものであり、ユーザが発した音声データに対して動的時間伸縮法を適用することにより、ユーザが呼吸器疾患又は呼吸器症状を有しているか否かを精度良く推定することができる、情報処理装置、情報処理方法、情報処理システム、及び情報処理プログラムを提供する。
【課題を解決するための手段】
【0007】
上記の目的を達成するために本開示の第1態様は、ユーザが発した音声データを取得する取得部と、前記取得部により取得された前記音声データに対して、動的時間伸縮法(Dynamic Time Warping)を適用することにより、前記動的時間伸縮法に関する第1特徴量を抽出し、前記音声データから前記第1特徴量とは異なる第2特徴量を抽出する抽出部と、前記抽出部により得られた、前記第1特徴量と前記第2特徴量とを含む複数の特徴量に基づいて、前記ユーザの呼吸器症状に関する情報を推定する推定部と、前記推定部により推定された前記呼吸器症状に関する情報を出力する出力部と、を含む情報処理装置である。
【0008】
本開示の第2態様は、ユーザが発した音声データを取得し、前記音声データに対して、動的時間伸縮法(Dynamic Time Warping)を適用することにより、前記動的時間伸縮法に関するスコアを計算し、前記スコアを第1特徴量として抽出し、前記音声データから前記第1特徴量とは異なる第2特徴量を抽出し、前記第1特徴量と前記第2特徴量とを含む複数の特徴量に基づいて、前記ユーザの呼吸器症状に関する情報を推定する、処理をコンピュータが実行する情報処理方法である。
【0009】
本開示の第3態様は、ユーザが発した音声データを取得し、前記音声データに対して、動的時間伸縮法(Dynamic Time Warping)を適用することにより、前記動的時間伸縮法に関するスコアを計算し、前記スコアを第1特徴量として抽出し、前記音声データから前記第1特徴量とは異なる第2特徴量を抽出し、前記第1特徴量と前記第2特徴量とを含む複数の特徴量に基づいて、前記ユーザの呼吸器症状に関する情報を推定する、処理をコンピュータに実行させるための情報処理プログラムである。
【発明の効果】
【0010】
開示の技術によれば、ユーザが発した音声データに対して動的時間伸縮法を適用することにより、ユーザが呼吸器疾患又は呼吸器症状を有しているか否かを精度良く推定することができる、という効果が得られる。
【図面の簡単な説明】
【0011】
【
図1】第1実施形態の情報処理システムの概略構成の一例を示す図である。
【
図2】第1実施形態の概要を説明するための図である。
【
図3】所定周期分の音声データを模式的に示す図である。
【
図4】音声データに対するシフト処理を説明するための図である。
【
図5】音声データに対するサンプリング処理を説明するための図である。
【
図6】第1実施形態の情報処理システムの利用形態の一例を模式的に示す図である。
【
図7】情報処理装置を構成するコンピュータの一例を示す図である。
【
図8】第1実施形態の情報処理装置が実行する処理の一例を示す図である。
【
図9】第2実施形態の概要を説明するための図である。
【
図10】第2実施形態の情報処理システムの利用形態の一例を模式的に示す図である。
【
図11】第2実施形態の情報処理システムの利用形態の一例を模式的に示す図である。
【
図12】呼吸器症状を有しているユーザの音声データの特徴を説明するための図である。
【発明を実施するための形態】
【0012】
以下、図面を参照して開示の技術の実施形態を詳細に説明する。
【0013】
<第1実施形態の情報処理システム>
【0014】
図1に、第1実施形態に係る情報処理システム10を示す。
図1に示されるように、第1実施形態の情報処理システム10は、マイク12と、情報処理装置14と、表示装置16とを備えている。
【0015】
情報処理システム10は、マイク12により集音されたユーザの音声に基づいて、ユーザが所定の呼吸器疾患又は所定の呼吸器症状(以下、単に「疾患等」と称する。)を有しているか否かを推定する。
【0016】
第1実施形態の情報処理システム10の情報処理装置14は、ユーザが発した音声の時系列データである音声データに対して所定の前処理を施し、前処理済みのデータを生成する。そして、情報処理装置14は、前処理済みのデータに対して動的時間伸縮法(Dynamic Time Warping)を適用した結果に基づいて、ユーザが疾患等を有しているか否かを判定する。
【0017】
動的時間伸縮法では、ある時系列データと別の時系列データとの間の距離が計算される。本実施形態では、動的時間伸縮法によって得られる特徴量を用いて、ユーザが疾患等を有しているか否かを推定する。
【0018】
以下、具体的に説明する。
【0019】
図1に示されるように、情報処理装置14は、機能的には、取得部20と、音声データ記憶部22と、参照データ記憶部24と、前処理部26と、抽出部28と、推定部30と、出力部32とを備えている。情報処理装置14は、後述するようなコンピュータにより実現される。
【0020】
取得部20は、ユーザが発した音声の時系列データである音声データを取得する。そして、取得部20は、音声データを音声データ記憶部22へ格納する。
【0021】
音声データ記憶部22には、取得部20により取得された音声データが格納される。
【0022】
参照データ記憶部24には、疾患等を有しているか否かが既知である参照用ユーザの音声データが格納されている。
【0023】
前処理部26は、音声データ記憶部22に記憶されている音声データを読み出す。そして、前処理部26は、音声データに対して所定の前処理を施し、前処理済み音声データを生成する。前処理済み音声データの生成方法について、以下、具体的に説明する。
図2に、前処理済み音声データを説明するための図を示す。
【0024】
(音声データの中心部分の抽出)
【0025】
ユーザが発した音声データに基づいて当該ユーザが疾患等を有しているか否かを推定する際には、ユーザの発声が安定している音声データを用いる方が好ましい。
【0026】
この点、音声データが表す時系列データのうちの初期の箇所は、ユーザが音声を発し始めた時刻のデータであるため、その箇所のデータを疾患等の推定に利用するのは好ましくない場合が多い。例えば、ユーザが声を発していない状態からいきなり声を発する場合、ユーザの発声が安定しないことにより、声がかすれてしまったり、声量が小さくなってしまうといった事態が予想される。このようなデータを疾患等の推定に利用したとしても、精度の良い結果は得られないことが予想される。
【0027】
さらに、音声データが表す時系列データのうちの終点に近い箇所も、疾患等の推定に利用するのは好ましくない場合が多い。例えば、ユーザが長い発音の声を発した場合にユーザが息切れをしてしまい声が続かなかったり、語尾があいまいな発音となってしまうといった事態が予想される。
【0028】
そこで、本実施形態の情報処理装置14の前処理部26は、時系列データである音声データから中心部分のデータを抽出する。
【0029】
具体的には、前処理部26は、
図2に示されるように、音声データD1のうちの、音声データD1の開始点から第1時間T1以後のデータであって、かつ音声データD1の終了点よりも第2時間T2以前のデータを表すデータD2を生成する。データD2は、音声データD1のうちの時間区間T3に相当するデータである。これにより、ユーザの発声が安定している中心部分のデータが生成される。
【0030】
(所定周期分のデータの抽出)
さらに、前処理部26は、抽出された中心部分のデータから所定周期分のデータを抽出する。
図3に、所定周期分のデータを説明するための図を示す。
図3に示されるように、音声データDfは時系列データであり、所定信号の繰り返しが存在する。例えば、
図3に示される例では、時間区間T毎に、同様の信号波形が繰り返されている。
【0031】
後述するように、ユーザが疾患等を有しているか否かを推定する際には、疾患等を推定する対象のユーザが発した音声データと、疾患等を有しているか否かが既知である参照用ユーザの音声データとが比較される場合がある。そのため、疾患等を推定する対象のユーザが発した音声データから切り出される所定周期分のデータと、参照用ユーザの音声データにおける所定周期分のデータとは揃えられている方が好ましい。このため、例えば、前処理部26は、抽出された中心部分のデータから、参照用ユーザの音声データの周期と同一の所定周期分のデータを抽出する。この所定周期は、例えば、予め設定される。または、例えば、データの種類に応じて、所定周期を変化させるようにしてもよい。
【0032】
(時間軸方向へのシフトによるデータの抽出)
次に、前処理部26は、前記抽出された所定周期分のデータを時間軸方向へシフトさせる。
図4に、時間軸方向へのデータのシフトを説明するための図を示す。
図4に示されるように、音声データDsには周期Tsで信号の繰り返しが存在しており、参照用ユーザの音声データD
Refには周期T
Refで信号の繰り返しが存在している場合を考える。この場合、
図4に示されるように、音声データDsの切り出しの開始部分P1と、参照用ユーザの音声データD
Refの開始部分P2とが揃っていない場合には、仮に音声データDsと参照用ユーザの音声データD
Refと類似していたとしても、動的時間伸縮法により計算される、音声データDと音声データD
Refと間の距離を表す値が大きくなってしまう場合もあり得る。
【0033】
そこで、前処理部26は、抽出された所定周期分のデータを時間軸方向へシフトさせる。例えば、前処理部26は、
図4に示される所定周期分のデータを、矢印Sが表す時間軸方向へ所定時間分シフトさせる。なお、例えば、この所定時間のシフト量は、予め設定される。または、例えば、データの種類に応じて、シフト量を変化させるようにしてもよい。
【0034】
(所定サンプリングレートのサンプリングによるデータの抽出)
次に、前処理部26は、時間軸方向へのシフト処理がされたデータからサンプリングすることにより得られるサンプリングデータを抽出する。上述したように、本実施形態では、ユーザが疾患等を有しているか否かを推定する際には、疾患等を推定する対象のユーザが発した音声データと、疾患等を有しているか否かが既知である参照用ユーザの音声データとが比較される場合がある。そのため、疾患等を推定する対象のユーザが発した音声データに対するサンプリングレートと、参照用ユーザの音声データに対するサンプリングレートとは揃えられている方が好ましい。
【0035】
例えば、
図5に示されるように、音声データDをサンプリングすることにより得られるサンプリングデータD
A,D
Bを考える。この場合、サンプリングレートAによって生成されたサンプリングデータD
Aと、サンプリングレートBによって生成されたサンプリングデータD
Bとの間の距離を、動的時間伸縮法を用いて計算した場合には、その元となる音声データDが同一であるにもかかわらず、所定の距離を表す値が算出される。
【0036】
このため、例えば、前処理部26は、参照用ユーザの音声データのサンプリングレートと同一のサンプリングレートによって抽出されたサンプリングデータを生成する。このサンプリングレートは、予め設定される。または、例えば、データの種類に応じて、サンプリングレートを変化させるようにしてもよい。例えば、所定周期分のデータから1周期のデータ当たり200点のサンプリング点が抽出される。
【0037】
(時間軸方向へのデータの伸縮)
次に、前処理部26は、音声データからサンプリングすることにより得られるサンプリングデータに対して、時間軸方向への伸縮処理を実行する。上述したように、本実施形態では、ユーザが疾患等を有しているか否かを推定する際には、疾患等を推定する対象のユーザが発した音声データと、疾患等を有しているか否かが既知である参照用ユーザの音声データとが比較される場合がある。
【0038】
そのため、疾患等を推定する対象のユーザが発した音声データの時間軸方向の間隔と、参照用ユーザの音声データの時間軸方向の間隔とは揃えられている方が好ましい。このため、例えば、前処理部26は、
図2に示されるデータD3に対して時間軸方向への所定の伸縮処理を実行する。所定の伸縮処理の方法は、予め設定される。または、例えば、データの種類に応じて、伸縮処理の方法を変化させるようにしてもよい。
【0039】
(振幅方向へのデータの伸縮)
次に、前処理部26は、時間軸方向への伸縮処理が実行されたデータに対して、振幅方向への伸縮処理を実行する。上述したように、本実施形態では、ユーザが疾患等を有しているか否かを推定する際には、疾患等を推定する対象のユーザが発した音声データと、疾患等を有しているか否かが既知である参照用ユーザの音声データとが比較される場合がある。
【0040】
そのため、疾患等を推定する対象のユーザが発した音声データの振幅と、参照用ユーザの音声データの振幅とは揃えられている方が好ましい。このため、例えば、前処理部26は、
図2に示されるデータD4に対して振幅方向への所定の伸縮処理を実行する。所定の伸縮処理の方法は、予め設定される。または、例えば、データの種類に応じて、伸縮処理の方法を変化させるようにしてもよい。
【0041】
前処理部26は、上述したような複数の前処理を音声データに対して実行することにより、前処理済み音声データを生成する。
【0042】
抽出部28は、前処理部26によって生成された前処理済み音声データに対して動的時間伸縮法(Dynamic Time Warping)を適用することにより、動的時間伸縮法に関する第1特徴量を抽出する。前処理済み音声データに対して動的時間伸縮法を適用することにより、ある時系列データの各点と別の時系列データの各点との間の距離を表す距離行列が計算される。抽出部28は、例えば、距離行列の各要素の平均値、最大値、最小値、標準偏差、及び中央値を利用して第1特徴量を生成する。
【0043】
具体的には、抽出部28は、参照データ記憶部24に格納されている参照用ユーザの音声データを読み出す。そして、抽出部28は、
図2に示されるように、前処理済み音声データD5と、参照用ユーザの音声データD
Refとに対して動的時間伸縮法を適用することにより、前処理済み音声データD5と参照用ユーザの音声データD
Refとの間の距離を表す距離行列を計算する。そして、抽出部28は、例えば、距離行列の各要素の平均値、最大値、最小値、標準偏差、及び中央値を、第1特徴量として生成する。なお、参照用ユーザの音声データに対しても、上述したような前処理が施されていてもよい。
【0044】
なお、抽出部28は、前処理済み音声データのみを用いて距離行列を計算してもよい。例えば、前処理済み音声データ内の第1の時間区間におけるデータを表す第1音声データと、前処理済み音声データ内の第2の時間区間におけるデータを表す第2音声データとに対して動的時間伸縮法を適用することにより、第1音声データと第2音声データとの間の距離を表す距離行列を計算するようにしてもよい。
【0045】
より詳細には、例えば、抽出部28は、
図2に示されるように、前処理済み音声データD5内の第1の時間区間におけるデータを表す第1音声データD5-1と、前処理済み音声データD5内の第2の時間区間におけるデータを表す第2音声データD5-1とに対して動的時間伸縮法を適用することにより、第1音声データD5-1と第2音声データD5-2との間の距離を表す距離行列を計算する。
【0046】
次に、抽出部28は、
図2に示されるように、前処理済み音声データD5内の第2の時間区間におけるデータを表す第2音声データD5-2と、前処理済み音声データD5内の第3の時間区間におけるデータを表す第3音声データD5-3とに対して動的時間伸縮法を適用することにより、第2音声データD5-2と第3音声データD5-3との間の距離を表す距離行列を計算する。
【0047】
さらに、抽出部28は、第1音声データD5-1と第3音声データD5-3とに対して動的時間伸縮法を適用することにより、第1音声データD5-1と第3音声データD5-3との間の距離を表す距離行列を計算する。このようにして、抽出部28は、所定時間区間内の音声データD5-1~D5-9のペアの各々に対して距離行列を計算する。
【0048】
そして、抽出部28は、前処理済み音声データD5のみから得られた複数の距離行列の各要素の平均値、最大値、最小値、標準偏差、及び中央値を利用して第1特徴量を生成する。
【0049】
上述したように、抽出部28は、前処理済み音声データD5のみから得られる距離行列から第1特徴量を生成してもよいし、前処理済み音声データD5と参照用ユーザの音声データDRefとの間の距離を表す距離行列から第1特徴量を生成するようにしてもよい。また、抽出部28は、それらの双方から第1特徴量を生成するようにしてもよい。
【0050】
次に、抽出部28は、音声データから、第1特徴量とは異なる第2特徴量を抽出する。例えば、抽出部28は、既知のopenSMILE(open-source Speech and Music Interpretation by Large-space Extraction)(インターネットURL<https://audeering.github.io/opensmile/>,2023年2月28日検索)、Praat(インターネットURL<https://www.fon.hum.uva.nl/praat/>,2023年2月28日検索)、pyAudioAnalysis(インターネットURL< https://github.com/tyiannak/pyAudioAnalysis >,2023年2月28日検索)、Pyworld(インターネットURL<https://pypi.org/project/pyworld/>,2023年3月15日検索)、librosa(インターネットURL<https://librosa.org/doc/latest/index.html>,2023年3月15日検索)、及びphonet(インターネットURL<https://phonet.readthedocs.io/en/latest/>,2023年3月15日検索)等において利用可能な特徴量を第2特徴量として音声データから抽出する。なお、第2特徴量の一例としては、基本周波数、スペクトル包絡、非周期性指標、又は音素特徴量等であり、例えば、特開2021-194527に開示されている特徴量等である。
【0051】
推定部30は、抽出部28により抽出された第1特徴量及び第2特徴量を含む複数の特徴量に基づいて、ユーザの呼吸器症状に関する情報を推定する。例えば、呼吸器症状に関する情報は、ユーザが呼吸器疾患に罹患しているか否か、呼吸器疾患又は呼吸器症状の度合い、呼吸器疾患によるユーザの状態、及び呼吸器疾患による経皮的動脈血酸素飽和度の少なくとも1つを表す情報である。なお、呼吸器症状に関する情報が、呼吸器症状の度合いを表す場合、当該症状は、息切れ、痰、咳嗽、鼻閉、倦怠感、経皮的動脈血酸素飽和度、気管又は気管支の炎症、気管又は気管支の攣縮、及び咽頭又は喉頭の炎症の少なくとも1つである。
【0052】
なお、例えば、推定部30は、第1特徴量及び第2特徴量を含む複数の特徴量を、既知の機械学習モデル(例えば、ニューラルネットワーク又は決定木モデル等)、深層学習モデル又は統計モデル(例えば、ロジスティック回帰等)へ入力することにより、ユーザの呼吸器症状に関する情報を推定する。この場合、既知の機械学習モデル、深層学習モデル又は統計モデルからは、複数の特徴量に応じた所定のスコアが出力される。このスコアが、ユーザの呼吸器症状に関する情報に相当する。なお、機械学習モデル、深層学習モデル又は統計モデルは、学習用データ等に基づいて予め生成されているものである。
【0053】
学習済みモデル又は統計モデルから出力されるデータは、例えば、ユーザが呼吸器疾患に罹患しているか否か(例えば、ユーザがコロナウィルスに感染している可能性を表す数値0~1)、呼吸器疾患又は呼吸器症状の度合い(例えば、重症度を表す数値0~1)、呼吸器疾患によるユーザの状態(例えば、重篤度を表す数値0~1)、及び呼吸器疾患による経皮的動脈血酸素飽和度を表す数値の少なくとも1つである。
【0054】
呼吸器症状に関する情報としての呼吸器症状の度合いが学習済みモデル又は統計モデルから出力される場合、当該症状としては、例えば、息切れ、痰、咳嗽、鼻閉、倦怠感、経皮的動脈血酸素飽和度、気管又は気管支の炎症、気管又は気管支の攣縮、及び咽頭又は喉頭の炎症の少なくとも1つである。
【0055】
例えば、推定部30は、予め機械学習又は深層学習された学習済みモデル又は予め生成された統計モデルに対して、第1特徴量と第2特徴量とを含む複数の特徴量を入力し、学習済みモデル又は統計モデルから出力されるデータを、ユーザが疾患等を有している度合いを表すスコアとみなす。推定部30は、当該スコアに基づいて、例えば、ユーザが疾患等を有しているか否かを推定する。例えば、推定部30は、スコアが所定の閾値以上である場合には、ユーザが疾患等を有していると推定し、スコアが所定の閾値未満である場合には、ユーザが疾患等を有していないと推定する。
【0056】
出力部32は、推定部30により推定された推定結果を出力する。なお、出力部32は、スコアそのものを推定結果として出力してもよい。
【0057】
表示装置16は、推定部30から出力された推定結果を表示する。
【0058】
情報処理装置14を操作する医療従事者又はユーザは、表示装置16から出力された推定結果を確認し、ユーザがどのような呼吸器疾患又は呼吸器症状を有している可能性があるのかを確認する。
【0059】
本実施形態の情報処理システム10は、例えば、
図6に示されるような状況下においての利用が想定される。
【0060】
図6の例では、医師等の医療従事者Hが、情報処理システム10の一例であるタブレット型端末を保持している。医療従事者Hは、タブレット型端末が備えるマイク(図示省略)を用いて、被験者であるユーザUの音声データを集音する。そして、タブレット端末は、ユーザUの音声データに基づいて、ユーザUが何れかの疾患又は症状を有しているか否かを推定し、推定結果を表示部(図示省略)へ出力する。医療従事者Hは、タブレット端末の表示部(図示省略)に表示された推定結果を参考にして、ユーザUが何れかの疾患又は症状を有しているか否かを判定する。
【0061】
情報処理装置14は、例えば、
図7に示すコンピュータ50で実現することができる。コンピュータ50はCPU51、一時記憶領域としてのメモリ52、及び不揮発性の記憶部53を備える。また、コンピュータ50は、外部装置及び出力装置等が接続される入出力interface(I/F)54、及び記録媒体に対するデータの読み込み及び書き込みを制御するread/write(R/W)部55を備える。また、コンピュータ50は、インターネット等のネットワークに接続されるネットワークI/F56を備える。CPU51、メモリ52、記憶部53、入出力I/F54、R/W部55、及びネットワークI/F56は、バス57を介して互いに接続される。
【0062】
記憶部53は、Hard Disk Drive(HDD)、Solid State Drive(SSD)、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部53には、コンピュータ50を機能させるためのプログラムが記憶されている。CPU51は、プログラムを記憶部53から読み出してメモリ52に展開し、プログラムが有するプロセスを順次実行する。
【0063】
[第1実施形態の情報処理システムの動作]
【0064】
次に、第1実施形態の情報処理システム10の具体的な動作について説明する。情報処理システム10の情報処理装置14は、
図8に示される各処理を実行する。
【0065】
まず、ステップS100において、取得部20は、マイク12により集音されたユーザの音声データを取得する。そして、取得部20は、音声データを音声データ記憶部22へ格納する。
【0066】
次に、ステップS102において、前処理部26は、音声データ記憶部22に記憶されている音声データを読み出す。そして、前処理部26は、音声データから所定時間区間内のデータである中心部分の音声データを抽出する。
【0067】
ステップS104において、前処理部26は、上記ステップS102で取得された中心部分の音声データから、所定周期分のデータを抽出する。
【0068】
ステップS105において、前処理部26は、上記ステップS104で取得された所定周期分の音声データに対してシフト処理を実行する。
【0069】
ステップS106において、前処理部26は、上記ステップS105で得られたシフト処理済みの所定周期分のデータに対して、所定のサンプリング処理を実行することによりサンプリングデータを生成する。
【0070】
ステップS108において、前処理部26は、上記ステップS106で生成されたサンプリングデータに対して振幅方向の伸縮処理を実行する。
【0071】
ステップS110において、前処理部26は、上記ステップS108で得られた、振幅方向への伸縮処理済みのサンプリングデータに対して、時間軸方向の伸縮処理を実行する。
【0072】
ステップS102~ステップS110の各処理が実行されることにより、音声データに対して前処理が実行された前処理済み音声データが生成される。
【0073】
ステップS112において、抽出部28は、前処理済み音声データと、参照データ記憶部24に格納された参照用ユーザの音声データとに対して動的時間伸縮法を適用することにより、前処理済み音声データと参照用ユーザの音声データとの間の距離を表す距離行列を生成する。
【0074】
なお、参照用ユーザとしては、所定の疾患等を有している参照用ユーザ及び所定の疾患を有していない参照用ユーザが設定される。
【0075】
このため、例えば、抽出部28は、前処理済み音声データと、参照データ記憶部24に格納されている、疾患等を有している参照用ユーザの音声データとの間の距離行列を生成する。または、例えば、推定部30は、前処理済み音声データと、参照データ記憶部24に格納されている、疾患等を有していない参照用ユーザの音声データとの間の距離行列を生成する。
【0076】
ステップS114において、抽出部28は、ステップS112で生成された動的時間伸縮法の距離行列に基づいて、動的時間伸縮法に関する第1特徴量を生成する。例えば、抽出部28は、距離行列の各要素の平均値、最大値、最小値、標準偏差、及び中央値の少なくとも1つを利用して第1特徴量を生成する。
【0077】
ステップS116において、抽出部28は、ステップS100で取得された音声データから、上述したような既知の特徴量を抽出することにより、第2特徴量を生成する。
【0078】
ステップS118において、推定部30は、ステップS114で得られた第1特徴量とステップS116で得られた第2特徴量とを含む複数の特徴量を、予め機械学習又は深層学習された学習済みモデル又は予め生成された統計モデルへ入力して、学習済みモデル又は統計モデルから出力されるデータを、ユーザの呼吸器症状に関するスコアとして推定する。なお、スコアは、例えば、ユーザが疾患等を有している度合いが高いほど大きな値をとる。または、スコアは、例えば、ユーザが疾患等を有している度合いが高いほど小さな値をとるようにしてもよい。
【0079】
そして、ステップS118において、推定部30は、得られたスコアに基づいて、ユーザが疾患等を有しているか否かを推定する。例えば、推定部30は、スコアが所定の閾値以上である場合には、ユーザが疾患等を有していると推定し、スコアが所定の閾値未満である場合には、ユーザが疾患等を有していないと推定する。
【0080】
また、推定部30は、疾患Aを有している参照用ユーザの音声データ、疾患Bを有している参照用ユーザの音声データ、及び疾患Cを有している参照用ユーザの音声データの各々についての処理結果データに基づいて、ユーザがどの疾患等を有しているのかを推定するようにしてもよい。
【0081】
ステップS120において、出力部32は、上記ステップS116で推定された推定結果を出力する。
【0082】
表示装置16は、出力部32から出力された推定結果を表示する。情報処理装置14を操作する医療従事者又はユーザは、表示装置16から出力された推定結果を確認し、ユーザがどのような呼吸器疾患又は呼吸器症状を有している可能性があるのかを確認する。
【0083】
以上説明したように、第1実施形態の情報処理システム10は、ユーザが発した音声データを取得する。情報処理システム10は、音声データに対して、動的時間伸縮法(Dynamic Time Warping)を適用することにより、動的時間伸縮法に関する第1特徴量を抽出し、音声データから第1特徴量とは異なる第2特徴量を抽出する。情報処理システム10は、第1特徴量と前記第2特徴量とを含む複数の特徴量に基づいて、ユーザの呼吸器症状に関する情報を推定する。これにより、ユーザが発した音声の時系列データである音声データに対して動的時間伸縮法を適用することにより、ユーザが呼吸器疾患又は呼吸器症状を有しているか否かを精度良く推定することができる。
【0084】
なお、前処理済み音声データは、取得された音声データのうちの、音声データの開始点から第1時間以後のデータであって、かつ音声データの終了点よりも第2時間以前のデータを表す中心部分のデータである。音声データのうちの中心部分を前処理済み音声データとして利用することにより、ユーザが発した音声のうち安定した中心部分を利用して、ユーザが所定の疾患又は所定の症状を有しているか否かを精度良く推定することができる。
【0085】
また、前処理済み音声データは、所定周期分のデータでもある。また、前処理済み音声データは、データを時間軸方向へシフトさせることにより得られるデータでもある。また、前処理済み音声データは、所定のサンプリング処理を実行することにより得られるデータでもある。また、前処理済み音声データは、時間軸方向において伸縮させる処理が実行されることにより得られるデータでもある。また、前処理済み音声データは、振幅方向において伸縮させる処理が実行されることにより得られるデータでもある。これらの前処理を音声データに対して実行することにより、音声データを疾患等の推定に適した形式することが可能となり、ユーザが疾患等を有しているか否かを精度良く推定することができる。
【0086】
<第2実施形態の情報処理システム>
【0087】
次に、第2実施形態について説明する。なお、第2実施形態の情報処理システムの構成のうちの、第1実施形態と同様の構成となる部分については、同一符号を付して説明を省略する。
【0088】
図9に、第2実施形態の情報処理システム310を示す。
図9に示されるように、情報処理システム310は、ユーザ端末18と、情報処理装置314とを備えている。情報処理装置314は、通信部36を更に備えている。
【0089】
情報処理システム310の情報処理装置314は、ユーザ端末18に備えられたマイク12により集音されたユーザの音声に基づいて、ユーザが疾患等を有しているか否かを推定する。
【0090】
第2実施形態の情報処理システム310は、例えば、
図10及び
図11に示されるような状況下においての利用が想定される。
【0091】
図10の例では、医師等の医療従事者Hが情報処理装置314を操作しており、被験者であるユーザUはユーザ端末18を操作している。ユーザUは、自らが操作するユーザ端末18のマイク12により自らの音声データ「XXXX」を集音する。そして、ユーザ端末18は、インターネット等のネットワーク19を介して音声データを情報処理装置314へ送信する。
【0092】
情報処理装置314は、ユーザ端末18から送信されたユーザUの音声データ「XXX」を受信する。そして、情報処理装置314は、受信した音声データに基づいて、ユーザUが何れかの疾患又は症状を有しているか否かを推定し、推定結果を情報処理装置314の表示部315へ出力する。医療従事者Hは、情報処理装置314の表示部315に表示された推定結果を参考にして、ユーザUが何れかの疾患又は症状を有しているか否かを判定する。
【0093】
一方、
図11の例では、被験者であるユーザUは、自らが操作するユーザ端末18のマイク12により自らの音声データを集音する。そして、ユーザ端末18は、インターネット等のネットワーク19を介して音声データを情報処理装置314へ送信する。情報処理装置314は、ユーザ端末18から送信されたユーザUの音声データを受信する。そして、情報処理装置314は、受信した音声データに基づいて、ユーザUが何れかの疾患又は症状を有しているか否かを推定し、推定結果をユーザ端末18へ送信する。ユーザ端末18は、情報処理装置14から送信された推定結果を受信し、その推定結果を表示部(図示省略)へ表示する。ユーザは、推定結果を確認し、自らがどのような疾患又は症状を有している可能性が高いのかを確認する。
【0094】
なお、情報処理装置314は、上記
図8と同様の情報処理ルーチンを実行する。
【0095】
以上説明したように、第2実施形態の情報処理システムは、クラウド上に設置された情報処理装置214を用いてユーザが精神系疾患、神経系疾患又はそれらの症状を有しているか否かを推定することができる。
【0096】
図12に、呼吸器症状を有するユーザの音声データの一例を示す。
図12には、「正常」、「息切れ」、「淡」、「鼻閉」、及び「咽頭・喉頭の炎症」の際のユーザの音声データの一例が示されている。
【0097】
(0)基準[正常]音声
図12に示されているように、ユーザが呼吸器系の症状を有しておらず正常である場合には、その音声データは倍音成分を多く有しており、バランスの良い周波数成分となっていることがわかる。
【0098】
(1)息切れ(頻呼吸、呼気流速低下、など)
図12に示されているように、ユーザが息切れしている場合には、その声はかすれ(例えば、高周波)、弱々しい声、及び不安定な声となり、音声データは弱く、ぎざぎざ波形となる傾向にある。
【0099】
(2)痰
図12に示されているように、ユーザの喉に痰が絡んでいる場合、おそらく喉内において音声の乱反射が発生し、声の周波数成分は不規則になっていることがわかる。また、咳で声帯に炎症反応が生じると、かすれ(高周波)声になる。このため、音声データは、不規則な倍音成分を含み、ややぎざぎざ波形となる。
【0100】
(2.5)咳嗽
図12に示されているように、咳嗽の場合、その音声においては、突発的な音圧の変化(上昇→減少)がある傾向にある。
【0101】
(3)鼻閉
図12に示されているように、鼻閉の場合、鼻腔で湿度調整が出来ず口腔内が乾燥し、その音声は鼻腔から音が抜けないこもった声になる。また、音声データは、鼻子音でフォルマント(F1-F4)が低域側へシフトする。このため、音声データは、なめらか波形となる。
【0102】
(4)咽頭・喉頭の炎症
図12に示されているように、咽頭・喉頭の炎症の場合、声のかすれ(高周波)、のどの炎症により狭窄(不安定)、及び声が出にくいといった状態になる。このため、音声データは、高周波成分が付加され、ぎざぎざ波形となる。
【0103】
(5)体調不良・元気のなさ
ユーザの元気がない場合には、声の大きさが小さくなる傾向にある。
【0104】
本実施形態において提案されたように、動的時間伸縮法に関する特徴量を用いた場合には、上述した各症状の特徴を捉えた特徴量を抽出することが可能となるため、精度良く呼吸器疾患又は呼吸器症状を推定することが可能となる。後述する実施例において、動的時間伸縮法に関する特徴量の有用性を説明する。
【実施例0105】
次に、実施例1を説明する。実施例1では、本実施形態において説明した動的時間伸縮法の効果に関する実験結果を示す。
【0106】
[1.解析項目]
実施例1では、収集した音声から以下の項目を予測するモデルを生成し、その精度を検証した。
【0107】
(A)呼吸器疾患(あり/なし)の判定
(B)呼吸器症状(あり/なし)の判定
(B-1)息苦しさ
(B-2)咳・痰
(B-3)SpO2(経皮的動脈血酸素飽和度)
【0108】
[2.解析方法]
解析フレーズとして、対象ユーザが発した持続母音「あー」を音声データとして収集する。そして、従来特徴量(上述の実施形態における第2特徴量)として、上述したような特徴量を使用する。また、新規特徴量(上述の実施形態における第1特徴量)として、DTW及びDTW/RMS(音圧で正規化したもの)を追加する。なお、DTWとは、動的時間伸縮法の略称である。また、過学習回避のため、VIF(分散拡大係数)による選別を行う。また、VIFを基準として所定個の従来特徴量を選別し、2つの新規特徴量と合わせて利用する。既知の機械学習モデルの一例であるLightGBMを用いて決定木を学習させ、5分割交差検証により精度を確認する。
【0109】
[3.データ]
呼吸器疾患(あり/なし)に関しては、以下の数のデータを利用する。なお、データ数に関しては、当初は、呼吸器疾患なしのデータ数が863であり、呼吸器疾患ありのデータ数が48であった。呼吸器疾患なしのデータ数と呼吸器疾患ありのデータ数との間の不均衡を調整するために、呼吸器疾患ありに関しては疑似データを生成することによりデータ数を同数とした。
【0110】
【0111】
一方、呼吸器症状(あり/なし)に関しては、以下の数のデータを利用する。なお、データ数に関しては、当初は、息苦しさなしのデータ数が801であり、息苦しさありのデータ数が110であった。息苦しさなしのデータ数と息苦しさありのデータ数との間の不均衡を調整するために、息苦しさありに関しては疑似データを生成することによりデータ数を同数とした。また、当初は、咳・痰なしのデータ数が348であり、咳・痰ありのデータ数が563であった。データ数の不均衡を調整するために、咳・痰ありに関しては疑似データを生成することによりデータ数を同数とした。また、SpO2に関しては、SpO2>95を「なし」と判定し、SpO2≦95を「あり」と判定するものとした。当初は、SpO2なしのデータ数が825であり、SpO2ありのデータ数が21であった。データ数の不均衡を調整するために、SpO2ありに関しては疑似データを生成することによりデータ数を同数とした。
【0112】
【0113】
なお、疑似データの生成に関しては、既知のSMOTE : Synthetic Minority Over-sampling Techniqueを利用した。
【0114】
図13~
図15に、実施例1の結果を示す。なお、LightGBMを用いて決定木を学習させた際の、息苦しさ判定における新規特徴量(上述の実施形態における第1特徴量)の重要度ランクは、2位となった。また、咳・痰判定における新規特徴量(上述の実施形態における第1特徴量)の重要度ランクは、4位となった。
【0115】
図13~
図15に示されている結果からも、本実施形態の手法によれば、ユーザが呼吸器疾患又は呼吸器症状を有しているか否かを精度良く推定することができる、といえる。また、鼻水・鼻詰及びのどの痛み等に関しても、同様に精度良く推定されることが推認される。
次に、実施例2を説明する。実施例2では、実施例1と同様に、本実施形態において説明した動的時間伸縮法の効果に関する実験結果を示す。実施例2では、Covid中等症1の判別を行う。
なお、上記表における追加特徴量は、上記実施形態の第1特徴量の一例である。DTW/RMSは、ある一人のユーザから得られたDTWを音圧で正規化することにより得られる特徴量である。
例えば、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
なお、上記実施形態でCPUがソフトウェア(プログラム)を読み込んで実行した処理を、CPU以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、FPGA(Field-Programmable Gate Array)等の製造後に回路構成を変更可能なPLD(Programmable Logic Device)、及びASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。または、プロセッサとしては、GPGPU(General-purpose graphics processing unit)を用いてもよい。また、各処理を、これらの各種のプロセッサのうちの1つで実行してもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGA、及びCPUとFPGAとの組み合わせ等)で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。
また、上記各実施形態では、プログラムがストレージに予め記憶(インストール)されている態様を説明したが、これに限定されない。プログラムは、CD-ROM(Compact Disk Read Only Memory)、DVD-ROM(Digital Versatile Disk Read Only Memory)、及びUSB(Universal Serial Bus)メモリ等の非一時的(non-transitory)記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。
また、本実施形態の各処理を、汎用演算処理装置及び記憶装置等を備えたコンピュータ又はサーバ等により構成して、各処理がプログラムによって実行されるものとしてもよい。このプログラムは記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。もちろん、その他いかなる構成要素についても、単一のコンピュータやサーバによって実現しなければならないものではなく、ネットワークによって接続された複数のコンピュータに分散して実現してもよい。
また、上記各実施形態では、前処理済み音声データを生成する際には、複数の前処理の全てを実行する場合を例に説明したが、これに限定されるものではない。上述したような前処理は利用しなくてもよい。また、上述したような前処理のうちの少なくとも1つ以上を用いて、前処理済み音声データを生成するようにしてもよい。
本明細書に記載された全ての文献、特許出願、および技術規格は、個々の文献、特許出願、および技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。