特開2024-136289 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＰＳＴ株式会社の特許一覧 ▶ 公立大学法人神奈川県立保健福祉大学の特許一覧

特開2024-136289情報処理装置、情報処理方法、情報処理システム、及び情報処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024136289

(43)【公開日】2024-10-04

(54)【発明の名称】情報処理装置、情報処理方法、情報処理システム、及び情報処理プログラム

(51)【国際特許分類】

A61B 5/08 20060101AFI20240927BHJP

G10L 25/30 20130101ALI20240927BHJP

G10L 25/66 20130101ALI20240927BHJP

G16H 50/20 20180101ALI20240927BHJP

【ＦＩ】

A61B5/08

G10L25/30

G10L25/66

G16H50/20

【審査請求】未請求

【請求項の数】14

【出願形態】ＯＬ

(21)【出願番号】P 2023047368

(22)【出願日】2023-03-23

【新規性喪失の例外の表示】特許法第３０条第２項適用申請有り令和４年３月２４日ｈｔｔｐｓ：／／ｍｅｄｉｃａｌ－ｐｓｔ．ｃｏｍ／ｎｅｗｓ／ｐｒｏｄｕｃｔｓ／２４３１にて公開令和４年３月２４日ｈｔｔｐｓ：／／ｐｒｔｉｍｅｓ．ｊｐ／ｍａｉｎ／ｈｔｍｌ／ｒｄ／ｐ／０００００００１２．００００４０１２５．ｈｔｍｌにて公開令和４年３月２４日ｈｔｔｐｓ：／／ｗｗｗ．ｐｒｅｆ．ｋａｎａｇａｗａ．ｊｐ／ｄｏｃｓ／ｂｓ５／ｐｒｓ／ｒ７９７５８８２．ｈｔｍｌにて公開令和４年３月２４日ｈｔｔｐｓ：／／ｗｗｗ．ｓｈｉ．ｋｕｈｓ．ａｃ．ｊｐ／ｎｅｗｓ／ｄｅｔａｉｌｓ＿０１３７４．ｈｔｍｌにて公開令和４年３月２４日ｈｔｔｐｓ：／／ｗｗｗ．ｎｉｋｋｅｉ．ｃｏｍ／ａｒｔｉｃｌｅ／ＤＧＸＺＱＯＣＣ２４５ＯＰ０Ｕ２Ａ３２０Ｃ２００００００／にて公開令和４年３月２５日ｈｔｔｐｓ：／／ｂｉｏ．ｎｉｋｋｅｉｂｐ．ｃｏ．ｊｐ／ａｔｃｌ／ｒｅｌｅａｓｅ／２２／０３／２５／１２８９９／にて公開令和４年３月２４日ｈｔｔｐｓ：／／ｗｗｗ．ｊｉｊｉ．ｃｏｍ／ｊｃ／ａｒｔｉｃｌｅ？ｋ＝０００００００１２．００００４０１２５＆ｇ＝ｐｒｔにて公開令和４年３月２８日ｈｔｔｐｓ：／／ｍｅｄｉｃａｌ．ｊｉｊｉ．ｃｏｍ／ｎｅｗｓ／５１６３３にて公開

(71)【出願人】

【識別番号】322006559

【氏名又は名称】ＰＳＴ株式会社

(71)【出願人】

【識別番号】522017623

【氏名又は名称】公立大学法人神奈川県立保健福祉大学

(74)【代理人】

【識別番号】110001519

【氏名又は名称】弁理士法人太陽国際特許事務所

(72)【発明者】

【氏名】大宮康宏

(72)【発明者】

【氏名】水口大輔

(72)【発明者】

【氏名】徳野慎一

【テーマコード（参考）】

4C038

5L099

【Ｆターム（参考）】

4C038SV05

4C038SX07

5L099AA04

(57)【要約】

【課題】ユーザが発した音声データに対して動的時間伸縮法を適用することにより、ユーザが呼吸器疾患又は呼吸器症状を有しているか否かを精度良く推定する。
【解決手段】情報処理装置は、ユーザが発した音声データを取得する。情報処理装置は、音声データに対して、動的時間伸縮法（Dynamic Time Warping）を適用することにより、動的時間伸縮法に関する第１特徴量を抽出し、音声データから第１特徴量とは異なる第２特徴量を抽出する。情報処理装置は、第１特徴量と前記第２特徴量とを含む複数の特徴量に基づいて、ユーザの呼吸器症状に関する情報を推定する。情報処理装置は、呼吸器症状に関する情報を出力する。
【選択図】図１

【特許請求の範囲】

【請求項1】

ユーザが発した音声データを取得する取得部と、
前記取得部により取得された前記音声データに対して、動的時間伸縮法（Dynamic Time Warping）を適用することにより、前記動的時間伸縮法に関する第１特徴量を抽出し、前記音声データから前記第１特徴量とは異なる第２特徴量を抽出する抽出部と、
前記抽出部により得られた、前記第１特徴量と前記第２特徴量とを含む複数の特徴量に基づいて、前記ユーザの呼吸器症状に関する情報を推定する推定部と、
前記推定部により推定された前記呼吸器症状に関する情報を出力する出力部と、
を含む情報処理装置。

【請求項2】

前記推定部は、予め機械学習又は深層学習された学習済みモデル又は予め生成された統計モデルに対して、前記第１特徴量と前記第２特徴量とを含む複数の特徴量を入力し、前記学習済みモデル又は前記統計モデルから出力されるデータを、前記ユーザの呼吸器症状に関する情報として推定する、
請求項１に記載の情報処理装置。

【請求項3】

前記呼吸器症状に関する情報は、
前記ユーザが呼吸器疾患に罹患しているか否か、前記呼吸器疾患又は呼吸器症状の度合い、前記呼吸器疾患による前記ユーザの状態、及び前記呼吸器疾患による経皮的動脈血酸素飽和度の少なくとも１つを表す情報である、
請求項１又は請求項２に記載の情報処理装置。

【請求項4】

前記呼吸器症状に関する情報は、前記呼吸器症状の度合いであり、
前記呼吸器症状は、息切れ、痰、咳嗽、鼻閉、倦怠感、経皮的動脈血酸素飽和度、気管又は気管支の炎症、気管又は気管支の攣縮、及び咽頭又は喉頭の炎症の少なくとも１つである、
請求項１又は請求項２に記載の情報処理装置。

【請求項5】

前記抽出部は、前記音声データと、前記呼吸器症状に関する情報が既知である参照用ユーザの音声データとに対して前記動的時間伸縮法を適用することにより、前記音声データと前記参照用ユーザの前記音声データとの間の距離を、前記第１特徴量として生成し、
前記推定部は、前記第１特徴量と前記第２特徴量とを含む複数の特徴量に基づいて、前記呼吸器症状に関する情報を推定する、
請求項１又は請求項２に記載の情報処理装置。

【請求項6】

前記抽出部は、前記音声データ内の第１の時間区間におけるデータを表す第１音声データと、前記音声データ内の第２の時間区間におけるデータを表す第２音声データとに対して前記動的時間伸縮法を適用することにより、前記第１音声データと前記第２音声データとの間の距離を、前記第１特徴量として生成し、
前記推定部は、前記第１特徴量と前記第２特徴量とを含む複数の特徴量に基づいて、前記呼吸器症状に関する情報を推定する、
請求項１又は請求項２に記載の情報処理装置。

【請求項7】

前記取得部により取得された前記音声データのうちの、前記音声データの開始点から第１時間以後のデータであって、かつ前記音声データの終了点よりも第２時間以前のデータを表す前処理済み音声データを生成する前処理部を更に含み、
前記抽出部は、前記前処理済み音声データから前記第１特徴量を抽出する、
請求項１又は請求項２に記載の情報処理装置。

【請求項8】

前記音声データの開始点から第１時間以後のデータであって、かつ前記音声データの終了点よりも第２時間以前のデータに対して所定のサンプリング処理を実行することにより得られるデータを、前処理済み音声データとして生成する前処理部を更に含み、
前記抽出部は、前記前処理済み音声データから前記第１特徴量を抽出する、
請求項１又は請求項２に記載の情報処理装置。

【請求項9】

前記音声データの開始点から第１時間以後のデータであって、かつ前記音声データの終了点よりも第２時間以前のデータに対し、時間軸方向において伸縮させる処理を実行することにより、前処理済み音声データを生成する前処理部を更に含み、
前記抽出部は、前記前処理済み音声データから前記第１特徴量を抽出する、
請求項１又は請求項２に記載の情報処理装置。

【請求項10】

前記音声データの開始点から第１時間以後のデータであって、かつ前記音声データの終了点よりも第２時間以前のデータに対し、振幅方向において伸縮させる処理を実行することにより、前処理済み音声データを生成する前処理部を更に含み、
前記抽出部は、前記前処理済み音声データから前記第１特徴量を抽出する、
請求項１又は請求項２に記載の情報処理装置。

【請求項11】

前記音声データの開始点から第１時間以後のデータであって、かつ前記音声データの終了点よりも第２時間以前のデータに対し、前記データを時間軸方向へシフトさせることにより、前処理済み音声データを生成する前処理部を更に含み、
前記抽出部は、前記前処理済み音声データから前記第１特徴量を抽出する、
請求項１又は請求項２に記載の情報処理装置。

【請求項12】

マイクを備えるユーザ端末と、請求項１又は請求項２に記載の情報処理装置とを含む情報処理システムであって、
前記ユーザ端末は、前記マイクにより取得された前記音声データを前記情報処理装置へ送信し、
前記情報処理装置の前記取得部は、前記ユーザ端末から送信された前記音声データを取得し、
前記情報処理装置の通信部は、前記推定部により推定された推定結果をユーザ端末へ送信し、
前記ユーザ端末は、前記情報処理装置から送信された前記推定結果を受信する、
情報処理システム。

【請求項13】

ユーザが発した音声データを取得し、
前記音声データに対して、動的時間伸縮法（Dynamic Time Warping）を適用することにより、前記動的時間伸縮法に関するスコアを計算し、前記スコアを第１特徴量として抽出し、前記音声データから前記第１特徴量とは異なる第２特徴量を抽出し、
前記第１特徴量と前記第２特徴量とを含む複数の特徴量に基づいて、前記ユーザの呼吸器症状に関する情報を推定する、
処理をコンピュータが実行する情報処理方法。

【請求項14】

【発明の詳細な説明】

【技術分野】

【0001】

開示の技術は、情報処理装置、情報処理方法、情報処理システム、及び情報処理プログラムに関する。

【背景技術】

【0002】

特許文献１には、精度良く音声障害の原因を容易に推定することができる技術が開示されている。特許文献１に開示されている技術は、対象者の音声に関する情報を含む音声データおよび対象者に対して行われた問診の結果に関する情報を含む問診データが入力され、入力された音声データおよび問診データ、並びに機械学習によって生成された推定モデルに基づき、音声障害の原因を推定する。

【0003】

特許文献２には、患者の呼吸器系の疾患の存在を予測するための方法が開示されている。特許文献２に開示されている技術は、少なくとも１つの電子プロセッサを動作させて、疾患に関連付けられた、患者の１または複数の音を、音の対応する１または複数の画像表現に変換し、１または複数の画像表現を、疾患の存在を予測するために訓練された少なくとも１つのパターン分類器に適用し、プロセッサを動作させて、パターン分類器の少なくとも１つの出力に基づいて、患者の疾患の存在を予測する。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開2020-201810号公報

【特許文献2】特表2023-507344号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

上記特許文献１，２に開示されている装置は、音声データから疾患を推定するものの、その精度に関しては改善の余地がある。

【0006】

開示の技術は、上記の事情を鑑みてなされたものであり、ユーザが発した音声データに対して動的時間伸縮法を適用することにより、ユーザが呼吸器疾患又は呼吸器症状を有しているか否かを精度良く推定することができる、情報処理装置、情報処理方法、情報処理システム、及び情報処理プログラムを提供する。

【課題を解決するための手段】

【0007】

上記の目的を達成するために本開示の第１態様は、ユーザが発した音声データを取得する取得部と、前記取得部により取得された前記音声データに対して、動的時間伸縮法（Dynamic Time Warping）を適用することにより、前記動的時間伸縮法に関する第１特徴量を抽出し、前記音声データから前記第１特徴量とは異なる第２特徴量を抽出する抽出部と、前記抽出部により得られた、前記第１特徴量と前記第２特徴量とを含む複数の特徴量に基づいて、前記ユーザの呼吸器症状に関する情報を推定する推定部と、前記推定部により推定された前記呼吸器症状に関する情報を出力する出力部と、を含む情報処理装置である。

【0008】

本開示の第２態様は、ユーザが発した音声データを取得し、前記音声データに対して、動的時間伸縮法（Dynamic Time Warping）を適用することにより、前記動的時間伸縮法に関するスコアを計算し、前記スコアを第１特徴量として抽出し、前記音声データから前記第１特徴量とは異なる第２特徴量を抽出し、前記第１特徴量と前記第２特徴量とを含む複数の特徴量に基づいて、前記ユーザの呼吸器症状に関する情報を推定する、処理をコンピュータが実行する情報処理方法である。

【0009】

本開示の第３態様は、ユーザが発した音声データを取得し、前記音声データに対して、動的時間伸縮法（Dynamic Time Warping）を適用することにより、前記動的時間伸縮法に関するスコアを計算し、前記スコアを第１特徴量として抽出し、前記音声データから前記第１特徴量とは異なる第２特徴量を抽出し、前記第１特徴量と前記第２特徴量とを含む複数の特徴量に基づいて、前記ユーザの呼吸器症状に関する情報を推定する、処理をコンピュータに実行させるための情報処理プログラムである。

【発明の効果】

【0010】

開示の技術によれば、ユーザが発した音声データに対して動的時間伸縮法を適用することにより、ユーザが呼吸器疾患又は呼吸器症状を有しているか否かを精度良く推定することができる、という効果が得られる。

【図面の簡単な説明】

【0011】

【図1】第１実施形態の情報処理システムの概略構成の一例を示す図である。

【図2】第１実施形態の概要を説明するための図である。

【図3】所定周期分の音声データを模式的に示す図である。

【図4】音声データに対するシフト処理を説明するための図である。

【図5】音声データに対するサンプリング処理を説明するための図である。

【図6】第１実施形態の情報処理システムの利用形態の一例を模式的に示す図である。

【図7】情報処理装置を構成するコンピュータの一例を示す図である。

【図8】第１実施形態の情報処理装置が実行する処理の一例を示す図である。

【図9】第２実施形態の概要を説明するための図である。

【図10】第２実施形態の情報処理システムの利用形態の一例を模式的に示す図である。

【図11】第２実施形態の情報処理システムの利用形態の一例を模式的に示す図である。

【図12】呼吸器症状を有しているユーザの音声データの特徴を説明するための図である。

【図13】実施例である実験結果の図である。

【図14】実施例である実験結果の図である。

【図15】実施例である実験結果の図である。

【図16】実施例である実験結果の図である。

【図17】実施例である実験結果の図である。

【発明を実施するための形態】

【0012】

以下、図面を参照して開示の技術の実施形態を詳細に説明する。

【0013】

＜第１実施形態の情報処理システム＞

【0014】

図１に、第１実施形態に係る情報処理システム１０を示す。図１に示されるように、第１実施形態の情報処理システム１０は、マイク１２と、情報処理装置１４と、表示装置１６とを備えている。

【0015】

情報処理システム１０は、マイク１２により集音されたユーザの音声に基づいて、ユーザが所定の呼吸器疾患又は所定の呼吸器症状（以下、単に「疾患等」と称する。）を有しているか否かを推定する。

【0016】

第１実施形態の情報処理システム１０の情報処理装置１４は、ユーザが発した音声の時系列データである音声データに対して所定の前処理を施し、前処理済みのデータを生成する。そして、情報処理装置１４は、前処理済みのデータに対して動的時間伸縮法（Dynamic Time Warping）を適用した結果に基づいて、ユーザが疾患等を有しているか否かを判定する。

【0017】

動的時間伸縮法では、ある時系列データと別の時系列データとの間の距離が計算される。本実施形態では、動的時間伸縮法によって得られる特徴量を用いて、ユーザが疾患等を有しているか否かを推定する。

【0018】

以下、具体的に説明する。

【0019】

図１に示されるように、情報処理装置１４は、機能的には、取得部２０と、音声データ記憶部２２と、参照データ記憶部２４と、前処理部２６と、抽出部２８と、推定部３０と、出力部３２とを備えている。情報処理装置１４は、後述するようなコンピュータにより実現される。

【0020】

取得部２０は、ユーザが発した音声の時系列データである音声データを取得する。そして、取得部２０は、音声データを音声データ記憶部２２へ格納する。

【0021】

音声データ記憶部２２には、取得部２０により取得された音声データが格納される。

【0022】

参照データ記憶部２４には、疾患等を有しているか否かが既知である参照用ユーザの音声データが格納されている。

【0023】

前処理部２６は、音声データ記憶部２２に記憶されている音声データを読み出す。そして、前処理部２６は、音声データに対して所定の前処理を施し、前処理済み音声データを生成する。前処理済み音声データの生成方法について、以下、具体的に説明する。図２に、前処理済み音声データを説明するための図を示す。

【0024】

（音声データの中心部分の抽出）

【0025】

ユーザが発した音声データに基づいて当該ユーザが疾患等を有しているか否かを推定する際には、ユーザの発声が安定している音声データを用いる方が好ましい。

【0026】

この点、音声データが表す時系列データのうちの初期の箇所は、ユーザが音声を発し始めた時刻のデータであるため、その箇所のデータを疾患等の推定に利用するのは好ましくない場合が多い。例えば、ユーザが声を発していない状態からいきなり声を発する場合、ユーザの発声が安定しないことにより、声がかすれてしまったり、声量が小さくなってしまうといった事態が予想される。このようなデータを疾患等の推定に利用したとしても、精度の良い結果は得られないことが予想される。

【0027】

さらに、音声データが表す時系列データのうちの終点に近い箇所も、疾患等の推定に利用するのは好ましくない場合が多い。例えば、ユーザが長い発音の声を発した場合にユーザが息切れをしてしまい声が続かなかったり、語尾があいまいな発音となってしまうといった事態が予想される。

【0028】

そこで、本実施形態の情報処理装置１４の前処理部２６は、時系列データである音声データから中心部分のデータを抽出する。

【0029】

具体的には、前処理部２６は、図２に示されるように、音声データＤ１のうちの、音声データＤ１の開始点から第１時間Ｔ１以後のデータであって、かつ音声データＤ１の終了点よりも第２時間Ｔ２以前のデータを表すデータＤ２を生成する。データＤ２は、音声データＤ１のうちの時間区間Ｔ３に相当するデータである。これにより、ユーザの発声が安定している中心部分のデータが生成される。

【0030】

（所定周期分のデータの抽出）
さらに、前処理部２６は、抽出された中心部分のデータから所定周期分のデータを抽出する。図３に、所定周期分のデータを説明するための図を示す。図３に示されるように、音声データＤｆは時系列データであり、所定信号の繰り返しが存在する。例えば、図３に示される例では、時間区間Ｔ毎に、同様の信号波形が繰り返されている。

【0031】

後述するように、ユーザが疾患等を有しているか否かを推定する際には、疾患等を推定する対象のユーザが発した音声データと、疾患等を有しているか否かが既知である参照用ユーザの音声データとが比較される場合がある。そのため、疾患等を推定する対象のユーザが発した音声データから切り出される所定周期分のデータと、参照用ユーザの音声データにおける所定周期分のデータとは揃えられている方が好ましい。このため、例えば、前処理部２６は、抽出された中心部分のデータから、参照用ユーザの音声データの周期と同一の所定周期分のデータを抽出する。この所定周期は、例えば、予め設定される。または、例えば、データの種類に応じて、所定周期を変化させるようにしてもよい。

【0032】

（時間軸方向へのシフトによるデータの抽出）
次に、前処理部２６は、前記抽出された所定周期分のデータを時間軸方向へシフトさせる。図４に、時間軸方向へのデータのシフトを説明するための図を示す。図４に示されるように、音声データＤｓには周期Ｔｓで信号の繰り返しが存在しており、参照用ユーザの音声データＤ_Ｒｅｆには周期Ｔ_Ｒｅｆで信号の繰り返しが存在している場合を考える。この場合、図４に示されるように、音声データＤｓの切り出しの開始部分Ｐ１と、参照用ユーザの音声データＤ_Ｒｅｆの開始部分Ｐ２とが揃っていない場合には、仮に音声データＤｓと参照用ユーザの音声データＤ_Ｒｅｆと類似していたとしても、動的時間伸縮法により計算される、音声データＤと音声データＤ_Ｒｅｆと間の距離を表す値が大きくなってしまう場合もあり得る。

【0033】

そこで、前処理部２６は、抽出された所定周期分のデータを時間軸方向へシフトさせる。例えば、前処理部２６は、図４に示される所定周期分のデータを、矢印Ｓが表す時間軸方向へ所定時間分シフトさせる。なお、例えば、この所定時間のシフト量は、予め設定される。または、例えば、データの種類に応じて、シフト量を変化させるようにしてもよい。

【0034】

（所定サンプリングレートのサンプリングによるデータの抽出）
次に、前処理部２６は、時間軸方向へのシフト処理がされたデータからサンプリングすることにより得られるサンプリングデータを抽出する。上述したように、本実施形態では、ユーザが疾患等を有しているか否かを推定する際には、疾患等を推定する対象のユーザが発した音声データと、疾患等を有しているか否かが既知である参照用ユーザの音声データとが比較される場合がある。そのため、疾患等を推定する対象のユーザが発した音声データに対するサンプリングレートと、参照用ユーザの音声データに対するサンプリングレートとは揃えられている方が好ましい。

【0035】

例えば、図５に示されるように、音声データＤをサンプリングすることにより得られるサンプリングデータＤ_Ａ，Ｄ_Ｂを考える。この場合、サンプリングレートＡによって生成されたサンプリングデータＤ_Ａと、サンプリングレートＢによって生成されたサンプリングデータＤ_Ｂとの間の距離を、動的時間伸縮法を用いて計算した場合には、その元となる音声データＤが同一であるにもかかわらず、所定の距離を表す値が算出される。

【0036】

このため、例えば、前処理部２６は、参照用ユーザの音声データのサンプリングレートと同一のサンプリングレートによって抽出されたサンプリングデータを生成する。このサンプリングレートは、予め設定される。または、例えば、データの種類に応じて、サンプリングレートを変化させるようにしてもよい。例えば、所定周期分のデータから１周期のデータ当たり２００点のサンプリング点が抽出される。

【0037】

（時間軸方向へのデータの伸縮）
次に、前処理部２６は、音声データからサンプリングすることにより得られるサンプリングデータに対して、時間軸方向への伸縮処理を実行する。上述したように、本実施形態では、ユーザが疾患等を有しているか否かを推定する際には、疾患等を推定する対象のユーザが発した音声データと、疾患等を有しているか否かが既知である参照用ユーザの音声データとが比較される場合がある。

【0038】

そのため、疾患等を推定する対象のユーザが発した音声データの時間軸方向の間隔と、参照用ユーザの音声データの時間軸方向の間隔とは揃えられている方が好ましい。このため、例えば、前処理部２６は、図２に示されるデータＤ３に対して時間軸方向への所定の伸縮処理を実行する。所定の伸縮処理の方法は、予め設定される。または、例えば、データの種類に応じて、伸縮処理の方法を変化させるようにしてもよい。

【0039】

（振幅方向へのデータの伸縮）
次に、前処理部２６は、時間軸方向への伸縮処理が実行されたデータに対して、振幅方向への伸縮処理を実行する。上述したように、本実施形態では、ユーザが疾患等を有しているか否かを推定する際には、疾患等を推定する対象のユーザが発した音声データと、疾患等を有しているか否かが既知である参照用ユーザの音声データとが比較される場合がある。

【0040】

そのため、疾患等を推定する対象のユーザが発した音声データの振幅と、参照用ユーザの音声データの振幅とは揃えられている方が好ましい。このため、例えば、前処理部２６は、図２に示されるデータＤ４に対して振幅方向への所定の伸縮処理を実行する。所定の伸縮処理の方法は、予め設定される。または、例えば、データの種類に応じて、伸縮処理の方法を変化させるようにしてもよい。

【0041】

前処理部２６は、上述したような複数の前処理を音声データに対して実行することにより、前処理済み音声データを生成する。

【0042】

抽出部２８は、前処理部２６によって生成された前処理済み音声データに対して動的時間伸縮法（Dynamic Time Warping）を適用することにより、動的時間伸縮法に関する第１特徴量を抽出する。前処理済み音声データに対して動的時間伸縮法を適用することにより、ある時系列データの各点と別の時系列データの各点との間の距離を表す距離行列が計算される。抽出部２８は、例えば、距離行列の各要素の平均値、最大値、最小値、標準偏差、及び中央値を利用して第１特徴量を生成する。

【0043】

具体的には、抽出部２８は、参照データ記憶部２４に格納されている参照用ユーザの音声データを読み出す。そして、抽出部２８は、図２に示されるように、前処理済み音声データＤ５と、参照用ユーザの音声データＤ_Ｒｅｆとに対して動的時間伸縮法を適用することにより、前処理済み音声データＤ５と参照用ユーザの音声データＤ_Ｒｅｆとの間の距離を表す距離行列を計算する。そして、抽出部２８は、例えば、距離行列の各要素の平均値、最大値、最小値、標準偏差、及び中央値を、第１特徴量として生成する。なお、参照用ユーザの音声データに対しても、上述したような前処理が施されていてもよい。

【0044】

なお、抽出部２８は、前処理済み音声データのみを用いて距離行列を計算してもよい。例えば、前処理済み音声データ内の第１の時間区間におけるデータを表す第１音声データと、前処理済み音声データ内の第２の時間区間におけるデータを表す第２音声データとに対して動的時間伸縮法を適用することにより、第１音声データと第２音声データとの間の距離を表す距離行列を計算するようにしてもよい。

【0045】

より詳細には、例えば、抽出部２８は、図２に示されるように、前処理済み音声データＤ５内の第１の時間区間におけるデータを表す第１音声データＤ５－１と、前処理済み音声データＤ５内の第２の時間区間におけるデータを表す第２音声データＤ５－１とに対して動的時間伸縮法を適用することにより、第１音声データＤ５－１と第２音声データＤ５－２との間の距離を表す距離行列を計算する。

【0046】

次に、抽出部２８は、図２に示されるように、前処理済み音声データＤ５内の第２の時間区間におけるデータを表す第２音声データＤ５－２と、前処理済み音声データＤ５内の第３の時間区間におけるデータを表す第３音声データＤ５－３とに対して動的時間伸縮法を適用することにより、第２音声データＤ５－２と第３音声データＤ５－３との間の距離を表す距離行列を計算する。

【0047】

さらに、抽出部２８は、第１音声データＤ５－１と第３音声データＤ５－３とに対して動的時間伸縮法を適用することにより、第１音声データＤ５－１と第３音声データＤ５－３との間の距離を表す距離行列を計算する。このようにして、抽出部２８は、所定時間区間内の音声データＤ５－１～Ｄ５－９のペアの各々に対して距離行列を計算する。

【0048】

そして、抽出部２８は、前処理済み音声データＤ５のみから得られた複数の距離行列の各要素の平均値、最大値、最小値、標準偏差、及び中央値を利用して第１特徴量を生成する。

【0049】

上述したように、抽出部２８は、前処理済み音声データＤ５のみから得られる距離行列から第１特徴量を生成してもよいし、前処理済み音声データＤ５と参照用ユーザの音声データＤ_Ｒｅｆとの間の距離を表す距離行列から第１特徴量を生成するようにしてもよい。また、抽出部２８は、それらの双方から第１特徴量を生成するようにしてもよい。

【0050】

次に、抽出部２８は、音声データから、第１特徴量とは異なる第２特徴量を抽出する。例えば、抽出部２８は、既知のopenSMILE（open-source Speech and Music Interpretation by Large-space Extraction）（インターネットURL<https://audeering.github.io/opensmile/>，2023年2月28日検索）、Praat（インターネットURL<https://www.fon.hum.uva.nl/praat/>，2023年2月28日検索）、pyAudioAnalysis（インターネットURL< https://github.com/tyiannak/pyAudioAnalysis >，2023年2月28日検索）、Pyworld（インターネットURL<https://pypi.org/project/pyworld/>，2023年3月15日検索）、librosa（インターネットURL<https://librosa.org/doc/latest/index.html>，2023年3月15日検索）、及びphonet（インターネットURL<https://phonet.readthedocs.io/en/latest/>，2023年3月15日検索）等において利用可能な特徴量を第２特徴量として音声データから抽出する。なお、第２特徴量の一例としては、基本周波数、スペクトル包絡、非周期性指標、又は音素特徴量等であり、例えば、特開2021-194527に開示されている特徴量等である。

【0051】

推定部３０は、抽出部２８により抽出された第１特徴量及び第２特徴量を含む複数の特徴量に基づいて、ユーザの呼吸器症状に関する情報を推定する。例えば、呼吸器症状に関する情報は、ユーザが呼吸器疾患に罹患しているか否か、呼吸器疾患又は呼吸器症状の度合い、呼吸器疾患によるユーザの状態、及び呼吸器疾患による経皮的動脈血酸素飽和度の少なくとも１つを表す情報である。なお、呼吸器症状に関する情報が、呼吸器症状の度合いを表す場合、当該症状は、息切れ、痰、咳嗽、鼻閉、倦怠感、経皮的動脈血酸素飽和度、気管又は気管支の炎症、気管又は気管支の攣縮、及び咽頭又は喉頭の炎症の少なくとも１つである。

【0052】

なお、例えば、推定部３０は、第１特徴量及び第２特徴量を含む複数の特徴量を、既知の機械学習モデル（例えば、ニューラルネットワーク又は決定木モデル等）、深層学習モデル又は統計モデル（例えば、ロジスティック回帰等）へ入力することにより、ユーザの呼吸器症状に関する情報を推定する。この場合、既知の機械学習モデル、深層学習モデル又は統計モデルからは、複数の特徴量に応じた所定のスコアが出力される。このスコアが、ユーザの呼吸器症状に関する情報に相当する。なお、機械学習モデル、深層学習モデル又は統計モデルは、学習用データ等に基づいて予め生成されているものである。

【0053】

学習済みモデル又は統計モデルから出力されるデータは、例えば、ユーザが呼吸器疾患に罹患しているか否か（例えば、ユーザがコロナウィルスに感染している可能性を表す数値０～１）、呼吸器疾患又は呼吸器症状の度合い（例えば、重症度を表す数値０～１）、呼吸器疾患によるユーザの状態（例えば、重篤度を表す数値０～１）、及び呼吸器疾患による経皮的動脈血酸素飽和度を表す数値の少なくとも１つである。

【0054】

呼吸器症状に関する情報としての呼吸器症状の度合いが学習済みモデル又は統計モデルから出力される場合、当該症状としては、例えば、息切れ、痰、咳嗽、鼻閉、倦怠感、経皮的動脈血酸素飽和度、気管又は気管支の炎症、気管又は気管支の攣縮、及び咽頭又は喉頭の炎症の少なくとも１つである。

【0055】

例えば、推定部３０は、予め機械学習又は深層学習された学習済みモデル又は予め生成された統計モデルに対して、第１特徴量と第２特徴量とを含む複数の特徴量を入力し、学習済みモデル又は統計モデルから出力されるデータを、ユーザが疾患等を有している度合いを表すスコアとみなす。推定部３０は、当該スコアに基づいて、例えば、ユーザが疾患等を有しているか否かを推定する。例えば、推定部３０は、スコアが所定の閾値以上である場合には、ユーザが疾患等を有していると推定し、スコアが所定の閾値未満である場合には、ユーザが疾患等を有していないと推定する。

【0056】

出力部３２は、推定部３０により推定された推定結果を出力する。なお、出力部３２は、スコアそのものを推定結果として出力してもよい。

【0057】

表示装置１６は、推定部３０から出力された推定結果を表示する。

【0058】

情報処理装置１４を操作する医療従事者又はユーザは、表示装置１６から出力された推定結果を確認し、ユーザがどのような呼吸器疾患又は呼吸器症状を有している可能性があるのかを確認する。

【0059】

本実施形態の情報処理システム１０は、例えば、図６に示されるような状況下においての利用が想定される。

【0060】

図６の例では、医師等の医療従事者Ｈが、情報処理システム１０の一例であるタブレット型端末を保持している。医療従事者Ｈは、タブレット型端末が備えるマイク（図示省略）を用いて、被験者であるユーザＵの音声データを集音する。そして、タブレット端末は、ユーザＵの音声データに基づいて、ユーザＵが何れかの疾患又は症状を有しているか否かを推定し、推定結果を表示部（図示省略）へ出力する。医療従事者Ｈは、タブレット端末の表示部（図示省略）に表示された推定結果を参考にして、ユーザＵが何れかの疾患又は症状を有しているか否かを判定する。

【0061】

情報処理装置１４は、例えば、図７に示すコンピュータ５０で実現することができる。コンピュータ５０はＣＰＵ５１、一時記憶領域としてのメモリ５２、及び不揮発性の記憶部５３を備える。また、コンピュータ５０は、外部装置及び出力装置等が接続される入出力interface（Ｉ／Ｆ）５４、及び記録媒体に対するデータの読み込み及び書き込みを制御するread/write（Ｒ／Ｗ）部５５を備える。また、コンピュータ５０は、インターネット等のネットワークに接続されるネットワークＩ／Ｆ５６を備える。ＣＰＵ５１、メモリ５２、記憶部５３、入出力Ｉ／Ｆ５４、Ｒ／Ｗ部５５、及びネットワークＩ／Ｆ５６は、バス５７を介して互いに接続される。

【0062】

記憶部５３は、Hard Disk Drive（ＨＤＤ）、Solid State Drive（ＳＳＤ）、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部５３には、コンピュータ５０を機能させるためのプログラムが記憶されている。ＣＰＵ５１は、プログラムを記憶部５３から読み出してメモリ５２に展開し、プログラムが有するプロセスを順次実行する。

【0063】

［第１実施形態の情報処理システムの動作］

【0064】

次に、第１実施形態の情報処理システム１０の具体的な動作について説明する。情報処理システム１０の情報処理装置１４は、図８に示される各処理を実行する。

【0065】

まず、ステップＳ１００において、取得部２０は、マイク１２により集音されたユーザの音声データを取得する。そして、取得部２０は、音声データを音声データ記憶部２２へ格納する。

【0066】

次に、ステップＳ１０２において、前処理部２６は、音声データ記憶部２２に記憶されている音声データを読み出す。そして、前処理部２６は、音声データから所定時間区間内のデータである中心部分の音声データを抽出する。

【0067】

ステップＳ１０４において、前処理部２６は、上記ステップＳ１０２で取得された中心部分の音声データから、所定周期分のデータを抽出する。

【0068】

ステップＳ１０５において、前処理部２６は、上記ステップＳ１０４で取得された所定周期分の音声データに対してシフト処理を実行する。

【0069】

ステップＳ１０６において、前処理部２６は、上記ステップＳ１０５で得られたシフト処理済みの所定周期分のデータに対して、所定のサンプリング処理を実行することによりサンプリングデータを生成する。

【0070】

ステップＳ１０８において、前処理部２６は、上記ステップＳ１０６で生成されたサンプリングデータに対して振幅方向の伸縮処理を実行する。

【0071】

ステップＳ１１０において、前処理部２６は、上記ステップＳ１０８で得られた、振幅方向への伸縮処理済みのサンプリングデータに対して、時間軸方向の伸縮処理を実行する。

【0072】

ステップＳ１０２～ステップＳ１１０の各処理が実行されることにより、音声データに対して前処理が実行された前処理済み音声データが生成される。

【0073】

ステップＳ１１２において、抽出部２８は、前処理済み音声データと、参照データ記憶部２４に格納された参照用ユーザの音声データとに対して動的時間伸縮法を適用することにより、前処理済み音声データと参照用ユーザの音声データとの間の距離を表す距離行列を生成する。

【0074】

なお、参照用ユーザとしては、所定の疾患等を有している参照用ユーザ及び所定の疾患を有していない参照用ユーザが設定される。

【0075】

このため、例えば、抽出部２８は、前処理済み音声データと、参照データ記憶部２４に格納されている、疾患等を有している参照用ユーザの音声データとの間の距離行列を生成する。または、例えば、推定部３０は、前処理済み音声データと、参照データ記憶部２４に格納されている、疾患等を有していない参照用ユーザの音声データとの間の距離行列を生成する。

【0076】

ステップＳ１１４において、抽出部２８は、ステップＳ１１２で生成された動的時間伸縮法の距離行列に基づいて、動的時間伸縮法に関する第１特徴量を生成する。例えば、抽出部２８は、距離行列の各要素の平均値、最大値、最小値、標準偏差、及び中央値の少なくとも１つを利用して第１特徴量を生成する。

【0077】

ステップＳ１１６において、抽出部２８は、ステップＳ１００で取得された音声データから、上述したような既知の特徴量を抽出することにより、第２特徴量を生成する。

【0078】

ステップＳ１１８において、推定部３０は、ステップＳ１１４で得られた第１特徴量とステップＳ１１６で得られた第２特徴量とを含む複数の特徴量を、予め機械学習又は深層学習された学習済みモデル又は予め生成された統計モデルへ入力して、学習済みモデル又は統計モデルから出力されるデータを、ユーザの呼吸器症状に関するスコアとして推定する。なお、スコアは、例えば、ユーザが疾患等を有している度合いが高いほど大きな値をとる。または、スコアは、例えば、ユーザが疾患等を有している度合いが高いほど小さな値をとるようにしてもよい。

【0079】

そして、ステップＳ１１８において、推定部３０は、得られたスコアに基づいて、ユーザが疾患等を有しているか否かを推定する。例えば、推定部３０は、スコアが所定の閾値以上である場合には、ユーザが疾患等を有していると推定し、スコアが所定の閾値未満である場合には、ユーザが疾患等を有していないと推定する。

【0080】

また、推定部３０は、疾患Ａを有している参照用ユーザの音声データ、疾患Ｂを有している参照用ユーザの音声データ、及び疾患Ｃを有している参照用ユーザの音声データの各々についての処理結果データに基づいて、ユーザがどの疾患等を有しているのかを推定するようにしてもよい。

【0081】

ステップＳ１２０において、出力部３２は、上記ステップＳ１１６で推定された推定結果を出力する。

【0082】

表示装置１６は、出力部３２から出力された推定結果を表示する。情報処理装置１４を操作する医療従事者又はユーザは、表示装置１６から出力された推定結果を確認し、ユーザがどのような呼吸器疾患又は呼吸器症状を有している可能性があるのかを確認する。

【0083】

以上説明したように、第１実施形態の情報処理システム１０は、ユーザが発した音声データを取得する。情報処理システム１０は、音声データに対して、動的時間伸縮法（Dynamic Time Warping）を適用することにより、動的時間伸縮法に関する第１特徴量を抽出し、音声データから第１特徴量とは異なる第２特徴量を抽出する。情報処理システム１０は、第１特徴量と前記第２特徴量とを含む複数の特徴量に基づいて、ユーザの呼吸器症状に関する情報を推定する。これにより、ユーザが発した音声の時系列データである音声データに対して動的時間伸縮法を適用することにより、ユーザが呼吸器疾患又は呼吸器症状を有しているか否かを精度良く推定することができる。

【0084】

なお、前処理済み音声データは、取得された音声データのうちの、音声データの開始点から第１時間以後のデータであって、かつ音声データの終了点よりも第２時間以前のデータを表す中心部分のデータである。音声データのうちの中心部分を前処理済み音声データとして利用することにより、ユーザが発した音声のうち安定した中心部分を利用して、ユーザが所定の疾患又は所定の症状を有しているか否かを精度良く推定することができる。

【0085】

また、前処理済み音声データは、所定周期分のデータでもある。また、前処理済み音声データは、データを時間軸方向へシフトさせることにより得られるデータでもある。また、前処理済み音声データは、所定のサンプリング処理を実行することにより得られるデータでもある。また、前処理済み音声データは、時間軸方向において伸縮させる処理が実行されることにより得られるデータでもある。また、前処理済み音声データは、振幅方向において伸縮させる処理が実行されることにより得られるデータでもある。これらの前処理を音声データに対して実行することにより、音声データを疾患等の推定に適した形式することが可能となり、ユーザが疾患等を有しているか否かを精度良く推定することができる。

【0086】

＜第２実施形態の情報処理システム＞

【0087】

次に、第２実施形態について説明する。なお、第２実施形態の情報処理システムの構成のうちの、第１実施形態と同様の構成となる部分については、同一符号を付して説明を省略する。

【0088】

図９に、第２実施形態の情報処理システム３１０を示す。図９に示されるように、情報処理システム３１０は、ユーザ端末１８と、情報処理装置３１４とを備えている。情報処理装置３１４は、通信部３６を更に備えている。

【0089】

情報処理システム３１０の情報処理装置３１４は、ユーザ端末１８に備えられたマイク１２により集音されたユーザの音声に基づいて、ユーザが疾患等を有しているか否かを推定する。

【0090】

第２実施形態の情報処理システム３１０は、例えば、図１０及び図１１に示されるような状況下においての利用が想定される。

【0091】

図１０の例では、医師等の医療従事者Ｈが情報処理装置３１４を操作しており、被験者であるユーザＵはユーザ端末１８を操作している。ユーザＵは、自らが操作するユーザ端末１８のマイク１２により自らの音声データ「ＸＸＸＸ」を集音する。そして、ユーザ端末１８は、インターネット等のネットワーク１９を介して音声データを情報処理装置３１４へ送信する。

【0092】

情報処理装置３１４は、ユーザ端末１８から送信されたユーザＵの音声データ「ＸＸＸ」を受信する。そして、情報処理装置３１４は、受信した音声データに基づいて、ユーザＵが何れかの疾患又は症状を有しているか否かを推定し、推定結果を情報処理装置３１４の表示部３１５へ出力する。医療従事者Ｈは、情報処理装置３１４の表示部３１５に表示された推定結果を参考にして、ユーザＵが何れかの疾患又は症状を有しているか否かを判定する。

【0093】

一方、図１１の例では、被験者であるユーザＵは、自らが操作するユーザ端末１８のマイク１２により自らの音声データを集音する。そして、ユーザ端末１８は、インターネット等のネットワーク１９を介して音声データを情報処理装置３１４へ送信する。情報処理装置３１４は、ユーザ端末１８から送信されたユーザＵの音声データを受信する。そして、情報処理装置３１４は、受信した音声データに基づいて、ユーザＵが何れかの疾患又は症状を有しているか否かを推定し、推定結果をユーザ端末１８へ送信する。ユーザ端末１８は、情報処理装置１４から送信された推定結果を受信し、その推定結果を表示部（図示省略）へ表示する。ユーザは、推定結果を確認し、自らがどのような疾患又は症状を有している可能性が高いのかを確認する。

【0094】

なお、情報処理装置３１４は、上記図８と同様の情報処理ルーチンを実行する。

【0095】

以上説明したように、第２実施形態の情報処理システムは、クラウド上に設置された情報処理装置２１４を用いてユーザが精神系疾患、神経系疾患又はそれらの症状を有しているか否かを推定することができる。

【0096】

図１２に、呼吸器症状を有するユーザの音声データの一例を示す。図１２には、「正常」、「息切れ」、「淡」、「鼻閉」、及び「咽頭・喉頭の炎症」の際のユーザの音声データの一例が示されている。

【0097】

（０）基準[正常]音声
図１２に示されているように、ユーザが呼吸器系の症状を有しておらず正常である場合には、その音声データは倍音成分を多く有しており、バランスの良い周波数成分となっていることがわかる。

【0098】

（１）息切れ（頻呼吸、呼気流速低下、など）
図１２に示されているように、ユーザが息切れしている場合には、その声はかすれ（例えば、高周波）、弱々しい声、及び不安定な声となり、音声データは弱く、ぎざぎざ波形となる傾向にある。

【0099】

（２）痰
図１２に示されているように、ユーザの喉に痰が絡んでいる場合、おそらく喉内において音声の乱反射が発生し、声の周波数成分は不規則になっていることがわかる。また、咳で声帯に炎症反応が生じると、かすれ（高周波）声になる。このため、音声データは、不規則な倍音成分を含み、ややぎざぎざ波形となる。

【0100】

（２．５）咳嗽
図１２に示されているように、咳嗽の場合、その音声においては、突発的な音圧の変化（上昇→減少）がある傾向にある。

【0101】

（３）鼻閉
図１２に示されているように、鼻閉の場合、鼻腔で湿度調整が出来ず口腔内が乾燥し、その音声は鼻腔から音が抜けないこもった声になる。また、音声データは、鼻子音でフォルマント（Ｆ１－Ｆ４）が低域側へシフトする。このため、音声データは、なめらか波形となる。

【0102】

（４）咽頭・喉頭の炎症
図１２に示されているように、咽頭・喉頭の炎症の場合、声のかすれ（高周波）、のどの炎症により狭窄（不安定）、及び声が出にくいといった状態になる。このため、音声データは、高周波成分が付加され、ぎざぎざ波形となる。

【0103】

（５）体調不良・元気のなさ
ユーザの元気がない場合には、声の大きさが小さくなる傾向にある。

【0104】

本実施形態において提案されたように、動的時間伸縮法に関する特徴量を用いた場合には、上述した各症状の特徴を捉えた特徴量を抽出することが可能となるため、精度良く呼吸器疾患又は呼吸器症状を推定することが可能となる。後述する実施例において、動的時間伸縮法に関する特徴量の有用性を説明する。

【実施例0105】

次に、実施例１を説明する。実施例１では、本実施形態において説明した動的時間伸縮法の効果に関する実験結果を示す。

【0106】

［１．解析項目］
実施例１では、収集した音声から以下の項目を予測するモデルを生成し、その精度を検証した。

【0107】

（Ａ）呼吸器疾患（あり／なし）の判定
（Ｂ）呼吸器症状（あり／なし）の判定
（Ｂ－１）息苦しさ
（Ｂ－２）咳・痰
（Ｂ－３）ＳｐＯ２（経皮的動脈血酸素飽和度）

【0108】

［２．解析方法］
解析フレーズとして、対象ユーザが発した持続母音「あー」を音声データとして収集する。そして、従来特徴量（上述の実施形態における第２特徴量）として、上述したような特徴量を使用する。また、新規特徴量（上述の実施形態における第１特徴量）として、ＤＴＷ及びＤＴＷ／ＲＭＳ（音圧で正規化したもの）を追加する。なお、ＤＴＷとは、動的時間伸縮法の略称である。また、過学習回避のため、ＶＩＦ（分散拡大係数）による選別を行う。また、ＶＩＦを基準として所定個の従来特徴量を選別し、２つの新規特徴量と合わせて利用する。既知の機械学習モデルの一例であるＬｉｇｈｔＧＢＭを用いて決定木を学習させ、５分割交差検証により精度を確認する。

【0109】

［３．データ］
呼吸器疾患（あり／なし）に関しては、以下の数のデータを利用する。なお、データ数に関しては、当初は、呼吸器疾患なしのデータ数が863であり、呼吸器疾患ありのデータ数が48であった。呼吸器疾患なしのデータ数と呼吸器疾患ありのデータ数との間の不均衡を調整するために、呼吸器疾患ありに関しては疑似データを生成することによりデータ数を同数とした。

【0110】

【表1】

【0111】

一方、呼吸器症状（あり／なし）に関しては、以下の数のデータを利用する。なお、データ数に関しては、当初は、息苦しさなしのデータ数が801であり、息苦しさありのデータ数が110であった。息苦しさなしのデータ数と息苦しさありのデータ数との間の不均衡を調整するために、息苦しさありに関しては疑似データを生成することによりデータ数を同数とした。また、当初は、咳・痰なしのデータ数が348であり、咳・痰ありのデータ数が563であった。データ数の不均衡を調整するために、咳・痰ありに関しては疑似データを生成することによりデータ数を同数とした。また、ＳｐＯ２に関しては、ＳｐＯ２＞９５を「なし」と判定し、ＳｐＯ２≦９５を「あり」と判定するものとした。当初は、ＳｐＯ２なしのデータ数が825であり、ＳｐＯ２ありのデータ数が21であった。データ数の不均衡を調整するために、ＳｐＯ２ありに関しては疑似データを生成することによりデータ数を同数とした。

【0112】

【表2】

【0113】

なお、疑似データの生成に関しては、既知のSMOTE : Synthetic Minority Over-sampling Techniqueを利用した。

【0114】

図１３～図１５に、実施例１の結果を示す。なお、ＬｉｇｈｔＧＢＭを用いて決定木を学習させた際の、息苦しさ判定における新規特徴量（上述の実施形態における第１特徴量）の重要度ランクは、２位となった。また、咳・痰判定における新規特徴量（上述の実施形態における第１特徴量）の重要度ランクは、４位となった。

【0115】

図１３～図１５に示されている結果からも、本実施形態の手法によれば、ユーザが呼吸器疾患又は呼吸器症状を有しているか否かを精度良く推定することができる、といえる。また、鼻水・鼻詰及びのどの痛み等に関しても、同様に精度良く推定されることが推認される。

【実施例0116】

次に、実施例２を説明する。実施例２では、実施例１と同様に、本実施形態において説明した動的時間伸縮法の効果に関する実験結果を示す。実施例２では、Covid中等症1の判別を行う。

【0117】

以下に、２つの実験の条件を示す。

【0118】

［従来特徴量によるCovid-19解析］

【表3】

【0119】

［従来特徴量と新規特徴量（DTW/RMS）とによるCovid-19解析］

【表4】

【0120】

なお、上記表における追加特徴量は、上記実施形態の第１特徴量の一例である。DTW/RMSは、ある一人のユーザから得られたDTWを音圧で正規化することにより得られる特徴量である。

【0121】

図１６～図１７に、実施例２の結果を示す。なお、図１６～図１７のグラフのx軸は特異度(1-specificity)であり、y軸は感度(sensitivity)である。

【0122】

図１６～図１７に示されている結果からも、本実施形態の手法によれば、ユーザが呼吸器疾患又は呼吸器症状を有しているか否かを精度良く推定することができる、といえる。

【0123】

なお、本開示の技術は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

【0124】

例えば、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

【0125】

なお、上記実施形態でＣＰＵがソフトウェア（プログラム）を読み込んで実行した処理を、ＣＰＵ以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等の製造後に回路構成を変更可能なＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、及びＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。または、プロセッサとしては、ＧＰＧＰＵ（Ｇｅｎｅｒａｌ－ｐｕｒｐｏｓｅｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）を用いてもよい。また、各処理を、これらの各種のプロセッサのうちの１つで実行してもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡ、及びＣＰＵとＦＰＧＡとの組み合わせ等）で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。

【0126】

また、上記各実施形態では、プログラムがストレージに予め記憶（インストール）されている態様を説明したが、これに限定されない。プログラムは、ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＤＶＤ－ＲＯＭ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、及びＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリ等の非一時的（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ）記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。

【0127】

また、本実施形態の各処理を、汎用演算処理装置及び記憶装置等を備えたコンピュータ又はサーバ等により構成して、各処理がプログラムによって実行されるものとしてもよい。このプログラムは記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。もちろん、その他いかなる構成要素についても、単一のコンピュータやサーバによって実現しなければならないものではなく、ネットワークによって接続された複数のコンピュータに分散して実現してもよい。

【0128】

また、上記各実施形態では、前処理済み音声データを生成する際には、複数の前処理の全てを実行する場合を例に説明したが、これに限定されるものではない。上述したような前処理は利用しなくてもよい。また、上述したような前処理のうちの少なくとも１つ以上を用いて、前処理済み音声データを生成するようにしてもよい。

【0129】

本明細書に記載された全ての文献、特許出願、および技術規格は、個々の文献、特許出願、および技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。

【0130】

（付記）
以下、本開示の態様について付記する。

【0131】

（付記１）
ユーザが発した音声データを取得する取得部と、
前記取得部により取得された前記音声データに対して、動的時間伸縮法（Dynamic Time Warping）を適用することにより、前記動的時間伸縮法に関する第１特徴量を抽出し、前記音声データから前記第１特徴量とは異なる第２特徴量を抽出する抽出部と、
前記抽出部により得られた、前記第１特徴量と前記第２特徴量とを含む複数の特徴量に基づいて、前記ユーザの呼吸器症状に関する情報を推定する推定部と、
前記推定部により推定された前記呼吸器症状に関する情報を出力する出力部と、
を含む情報処理装置。

【0132】

（付記２）
前記推定部は、予め機械学習又は深層学習された学習済みモデル又は予め生成された統計モデルに対して、前記第１特徴量と前記第２特徴量とを含む複数の特徴量を入力し、前記学習済みモデル又は前記統計モデルから出力されるデータを、前記ユーザの呼吸器症状に関する情報として推定する、
付記１に記載の情報処理装置。

【0133】

（付記３）
前記呼吸器症状に関する情報は、
前記ユーザが呼吸器疾患に罹患しているか否か、前記呼吸器疾患又は呼吸器症状の度合い、前記呼吸器疾患による前記ユーザの状態、及び前記呼吸器疾患による経皮的動脈血酸素飽和度の少なくとも１つを表す情報である、
付記１又は付記２に記載の情報処理装置。

【0134】

（付記４）
前記呼吸器症状に関する情報は、前記呼吸器症状の度合いであり、
前記呼吸器症状は、息切れ、痰、咳嗽、鼻閉、倦怠感、経皮的動脈血酸素飽和度、気管又は気管支の炎症、気管又は気管支の攣縮、及び咽頭又は喉頭の炎症の少なくとも１つである、
付記１～付記３の何れか１項に記載の情報処理装置。

【0135】

（付記５）
前記抽出部は、前記音声データと、前記呼吸器症状に関する情報が既知である参照用ユーザの音声データとに対して前記動的時間伸縮法を適用することにより、前記音声データと前記参照用ユーザの前記音声データとの間の距離を、前記第１特徴量として生成し、
前記推定部は、前記第１特徴量と前記第２特徴量とを含む複数の特徴量に基づいて、前記呼吸器症状に関する情報を推定する、
付記１～付記４の何れか１項に記載の情報処理装置。

【0136】

（付記６）
前記抽出部は、前記音声データ内の第１の時間区間におけるデータを表す第１音声データと、前記音声データ内の第２の時間区間におけるデータを表す第２音声データとに対して前記動的時間伸縮法を適用することにより、前記第１音声データと前記第２音声データとの間の距離を、前記第１特徴量として生成し、
前記推定部は、前記第１特徴量と前記第２特徴量とを含む複数の特徴量に基づいて、前記呼吸器症状に関する情報を推定する、
付記１～付記４の何れか１項に記載の情報処理装置。

【0137】

（付記７）
前記取得部により取得された前記音声データのうちの、前記音声データの開始点から第１時間以後のデータであって、かつ前記音声データの終了点よりも第２時間以前のデータを表す前処理済み音声データを生成する前処理部を更に含み、
前記抽出部は、前記前処理済み音声データから前記第１特徴量を抽出する、
付記１～付記６の何れか１項に記載の情報処理装置。

【0138】

（付記８）
前記音声データの開始点から第１時間以後のデータであって、かつ前記音声データの終了点よりも第２時間以前のデータに対して所定のサンプリング処理を実行することにより得られるデータを、前処理済み音声データとして生成する前処理部を更に含み、
前記抽出部は、前記前処理済み音声データから前記第１特徴量を抽出する、
付記１～付記７の何れか１項に記載の情報処理装置。

【0139】

（付記９）
前記音声データの開始点から第１時間以後のデータであって、かつ前記音声データの終了点よりも第２時間以前のデータに対し、時間軸方向において伸縮させる処理を実行することにより、前処理済み音声データを生成する前処理部を更に含み、
前記抽出部は、前記前処理済み音声データから前記第１特徴量を抽出する、
付記１～付記８の何れか１項に記載の情報処理装置。

【0140】

（付記１０）
前記音声データの開始点から第１時間以後のデータであって、かつ前記音声データの終了点よりも第２時間以前のデータに対し、振幅方向において伸縮させる処理を実行することにより、前処理済み音声データを生成する前処理部を更に含み、
前記抽出部は、前記前処理済み音声データから前記第１特徴量を抽出する、
付記１～付記９の何れか１項に記載の情報処理装置。

【0141】

（付記１１）
前記音声データの開始点から第１時間以後のデータであって、かつ前記音声データの終了点よりも第２時間以前のデータに対し、前記データを時間軸方向へシフトさせることにより、前処理済み音声データを生成する前処理部を更に含み、
前記抽出部は、前記前処理済み音声データから前記第１特徴量を抽出する、
付記１～付記１０の何れか１項に記載の情報処理装置。

【0142】

（付記１２）
マイクを備えるユーザ端末と、付記１～付記１１の何れか１項に記載の情報処理装置とを含む情報処理システムであって、
前記ユーザ端末は、前記マイクにより取得された前記音声データを前記情報処理装置へ送信し、
前記情報処理装置の前記取得部は、前記ユーザ端末から送信された前記音声データを取得し、
前記情報処理装置の通信部は、前記推定部により推定された推定結果をユーザ端末へ送信し、
前記ユーザ端末は、前記情報処理装置から送信された前記推定結果を受信する、
情報処理システム。

【0143】

（付記１３）
ユーザが発した音声データを取得し、
前記音声データに対して、動的時間伸縮法（Dynamic Time Warping）を適用することにより、前記動的時間伸縮法に関するスコアを計算し、前記スコアを第１特徴量として抽出し、前記音声データから前記第１特徴量とは異なる第２特徴量を抽出し、
前記第１特徴量と前記第２特徴量とを含む複数の特徴量に基づいて、前記ユーザの呼吸器症状に関する情報を推定する、
処理をコンピュータが実行する情報処理方法。

【0144】

（付記１４）
ユーザが発した音声データを取得し、
前記音声データに対して、動的時間伸縮法（Dynamic Time Warping）を適用することにより、前記動的時間伸縮法に関するスコアを計算し、前記スコアを第１特徴量として抽出し、前記音声データから前記第１特徴量とは異なる第２特徴量を抽出し、
前記第１特徴量と前記第２特徴量とを含む複数の特徴量に基づいて、前記ユーザの呼吸器症状に関する情報を推定する、
処理をコンピュータに実行させるための情報処理プログラム。

IP Force 特許公報掲載プロジェクト 2022.1.31 β版