(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025007501
(43)【公開日】2025-01-17
(54)【発明の名称】情報処理装置、情報処理方法、情報処理システム、及び情報処理プログラム
(51)【国際特許分類】
A61B 5/08 20060101AFI20250109BHJP
【FI】
A61B5/08
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2023108935
(22)【出願日】2023-06-30
(71)【出願人】
【識別番号】322006559
【氏名又は名称】PST株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】大宮 康宏
(72)【発明者】
【氏名】山本 洸
【テーマコード(参考)】
4C038
【Fターム(参考)】
4C038SS09
4C038ST04
4C038SV01
4C038SV05
4C038SX05
(57)【要約】
【課題】ユーザが所定の器具などを装着することなく、ユーザの音声データから睡眠時の呼吸状態を推定する。
【解決手段】情報処理装置14は、ユーザが発した音声データから音響特徴量を抽出する。情報処理装置14は、音響特徴量に基づいて、ユーザの睡眠時の呼吸状態に関する情報を推定する。情報処理装置14は、呼吸状態に関する情報を出力する。なお、音声データは、「あ・い・う・え・お」の少なくとも一部を発声する発声タスク、「が・ぎ・ぐ・げ・ご」の少なくとも一部を発声する発声タスク、「ら・り・る・れ・ろ」の少なくとも一部を発声する発声タスク、「ぱ・ぴ・ぷ・ぺ・ぽ」の少なくとも一部を発声する発声タスク、及び長母音を発声する発声タスクの少なくとも1つの発声タスクを、睡眠時とは異なる時にユーザが実行することにより得られた音声データである。
【選択図】
図1
【特許請求の範囲】
【請求項1】
ユーザが発した音声データを取得する取得部と、
前記取得部により取得された前記音声データから音響特徴量を抽出する抽出部と、
前記抽出部により得られた音響特徴量に基づいて、前記ユーザの睡眠時の呼吸状態に関する情報を推定する推定部と、
前記推定部により推定された前記呼吸状態に関する情報を出力する出力部と、
を含み、
前記音声データは、「あ・い・う・え・お」の少なくとも一部を発声する発声タスク、「が・ぎ・ぐ・げ・ご」又は「か・き・く・け・こ」の少なくとも一部を発声する発声タスク、「ら・り・る・れ・ろ」又は「た・ち・つ・て・と・だ・ぢ・づ・で・ど・な・に・ぬ・ね・の」の少なくとも一部を発声する発声タスク、「ぱ・ぴ・ぷ・ぺ・ぽ」又は「ば・び・ぶ・べ・ぼ・ま・み・む・め・も」の少なくとも一部を発声する発声タスク、及び長母音を発声する発声タスクの少なくとも1つの発声タスクを、睡眠時とは異なる時に前記ユーザが実行することにより得られた音声データである、
情報処理装置。
【請求項2】
前記取得部は、前記ユーザが座位である状況下において発声した前記音声データ及び前記ユーザが仰臥位である状況下において発声した前記音声データの少なくとも一方を取得し、
前記推定部は、前記音声データに基づいて、前記睡眠時の呼吸状態に関する情報を推定する、
請求項1に記載の情報処理装置。
【請求項3】
前記推定部は、前記ユーザが座位である状況下において発声した前記音声データと前記ユーザが仰臥位である状況下において発声した前記音声データとの間の変化を解析し、前記変化の解析結果に基づいて、前記睡眠時の呼吸状態に関する情報を推定する、
請求項1又は請求項2に記載の情報処理装置。
【請求項4】
前記推定部は、予め機械学習又は深層学習された学習済みモデル又は予め生成された統計モデルに対して、前記音響特徴量を入力し、前記学習済みモデル又は前記統計モデルから出力されるデータを、前記睡眠時の呼吸状態に関する情報として推定する、
請求項1又は請求項2に記載の情報処理装置。
【請求項5】
前記「あ・い・う・え・お」の少なくとも一部を発声する発声タスクは、気道全体を評価するための発声タスクであり、
前記「が・ぎ・ぐ・げ・ご」又は「か・き・く・け・こ」の少なくとも一部を発声する発声タスクは、奥舌から上咽頭部分を評価するための発声タスクであり、
前記「ら・り・る・れ・ろ」又は「た・ち・つ・て・と・だ・ぢ・づ・で・ど・な・に・ぬ・ね・の」の少なくとも一部を発声する発声タスクは、舌尖から硬口蓋を含めた口腔を評価するための発声タスクであり、
前記「ぱ・ぴ・ぷ・ぺ・ぽ」又は「ば・び・ぶ・べ・ぼ・ま・み・む・め・も」の少なくとも一部を発声する発声タスクは、口唇を評価するための発声タスクである、
請求項1又は請求項2に記載の情報処理装置。
【請求項6】
マイクを備えるユーザ端末と、請求項1又は請求項2に記載の情報処理装置とを含む情報処理システムであって、
前記ユーザ端末は、前記マイクにより取得された前記音声データを前記情報処理装置へ送信し、
前記情報処理装置の前記取得部は、前記ユーザ端末から送信された前記音声データを取得し、
前記情報処理装置の通信部は、前記推定部により推定された推定結果をユーザ端末へ送信し、
前記ユーザ端末は、前記情報処理装置から送信された前記推定結果を受信する、
情報処理システム。
【請求項7】
ユーザが発した音声データを取得し、
取得された前記音声データから音響特徴量を抽出し、
前記音響特徴量に基づいて、前記ユーザの睡眠時の呼吸状態に関する情報を推定し、
推定された前記呼吸状態に関する情報を出力し、
前記音声データは、「あ・い・う・え・お」の少なくとも一部を発声する発声タスク、「が・ぎ・ぐ・げ・ご」又は「か・き・く・け・こ」の少なくとも一部を発声する発声タスク、「ら・り・る・れ・ろ」又は「た・ち・つ・て・と・だ・ぢ・づ・で・ど・な・に・ぬ・ね・の」の少なくとも一部を発声する発声タスク、「ぱ・ぴ・ぷ・ぺ・ぽ」又は「ば・び・ぶ・べ・ぼ・ま・み・む・め・も」の少なくとも一部を発声する発声タスク、及び長母音を発声する発声タスクの少なくとも1つの発声タスクを、睡眠時とは異なる時に前記ユーザが実行することにより得られた音声データである、
処理をコンピュータが実行する情報処理方法。
【請求項8】
ユーザが発した音声データを取得し、
取得された前記音声データから音響特徴量を抽出し、
前記音響特徴量に基づいて、前記ユーザの睡眠時の呼吸状態に関する情報を推定し、
推定された前記呼吸状態に関する情報を出力し、
前記音声データは、「あ・い・う・え・お」の少なくとも一部を発声する発声タスク、「が・ぎ・ぐ・げ・ご」又は「か・き・く・け・こ」の少なくとも一部を発声する発声タスク、「ら・り・る・れ・ろ」又は「た・ち・つ・て・と・だ・ぢ・づ・で・ど・な・に・ぬ・ね・の」の少なくとも一部を発声する発声タスク、「ぱ・ぴ・ぷ・ぺ・ぽ」又は「ば・び・ぶ・べ・ぼ・ま・み・む・め・も」の少なくとも一部を発声する発声タスク、及び長母音を発声する発声タスクの少なくとも1つの発声タスクを、睡眠時とは異なる時に前記ユーザが実行することにより得られた音声データである、
処理をコンピュータに実行させるための情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
開示の技術は、情報処理装置、情報処理方法、情報処理システム、及び情報処理プログラムに関する。
【背景技術】
【0002】
特許文献1には、音声特性を用いて上気道を特徴づけるシステムが開示されている。特許文献1に開示されている技術は、患者の顎位置を制限する手段を含む機械的なカプラと、発声を記録する手段と、上記記録された発声から上記上気道の少なくとも1つの生体構造パラメータを決定し、上記記録された発声を閾値と比較する処理手段とを有する。なお、特許文献1に開示されているシステムは、閉塞性睡眠時無呼吸を評価する診断ツールとして使用される。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記特許文献1では、患者が機械的なカプラを装着した際の音声データに基づいて、患者の睡眠時無呼吸の状態を推定する技術である。しかし、音声データを集音する際には、患者が機械的なカプラを装着せずに集音可能な方が好ましい。
【0005】
開示の技術は、上記の事情を鑑みてなされたものであり、ユーザが所定の器具などを装着することなく、ユーザが所定の発声タスクを実行することにより得られる音声データから、ユーザの睡眠時の呼吸状態を推定することができる、情報処理装置、情報処理方法、情報処理システム、及び情報処理プログラムを提供する。
【課題を解決するための手段】
【0006】
上記の目的を達成するために本開示の第1態様は、ユーザが発した音声データを取得する取得部と、前記取得部により取得された前記音声データから音響特徴量を抽出する抽出部と、前記抽出部により得られた音響特徴量に基づいて、前記ユーザの睡眠時の呼吸状態に関する情報を推定する推定部と、前記推定部により推定された前記呼吸状態に関する情報を出力する出力部と、を含み、前記音声データは、「あ・い・う・え・お」の少なくとも一部を発声する発声タスク、「が・ぎ・ぐ・げ・ご」又は「か・き・く・け・こ」の少なくとも一部を発声する発声タスク、「ら・り・る・れ・ろ」又は「た・ち・つ・て・と・だ・ぢ・づ・で・ど・な・に・ぬ・ね・の」の少なくとも一部を発声する発声タスク、「ぱ・ぴ・ぷ・ぺ・ぽ」又は「ば・び・ぶ・べ・ぼ・ま・み・む・め・も」の少なくとも一部を発声する発声タスク、及び長母音を発声する発声タスクの少なくとも1つの発声タスクを、睡眠時とは異なる時に前記ユーザが実行することにより得られた音声データである、情報処理装置である。
【0007】
本開示の第2態様は、ユーザが発した音声データを取得し、取得された前記音声データから音響特徴量を抽出し、前記音響特徴量に基づいて、前記ユーザの睡眠時の呼吸状態に関する情報を推定し、推定された前記呼吸状態に関する情報を出力し、前記音声データは、「あ・い・う・え・お」の少なくとも一部を発声する発声タスク、「が・ぎ・ぐ・げ・ご」又は「か・き・く・け・こ」の少なくとも一部を発声する発声タスク、「ら・り・る・れ・ろ」又は「た・ち・つ・て・と・だ・ぢ・づ・で・ど・な・に・ぬ・ね・の」の少なくとも一部を発声する発声タスク、「ぱ・ぴ・ぷ・ぺ・ぽ」又は「ば・び・ぶ・べ・ぼ・ま・み・む・め・も」の少なくとも一部を発声する発声タスク、及び長母音を発声する発声タスクの少なくとも1つの発声タスクを、睡眠時とは異なる時に前記ユーザが実行することにより得られた音声データである、処理をコンピュータが実行する情報処理方法である。
【0008】
本開示の第3態様は、ユーザが発した音声データを取得し、取得された前記音声データから音響特徴量を抽出し、前記音響特徴量に基づいて、前記ユーザの睡眠時の呼吸状態に関する情報を推定し、推定された前記呼吸状態に関する情報を出力し、前記音声データは、「あ・い・う・え・お」の少なくとも一部を発声する発声タスク、「が・ぎ・ぐ・げ・ご」又は「か・き・く・け・こ」の少なくとも一部を発声する発声タスク、「ら・り・る・れ・ろ」又は「た・ち・つ・て・と・だ・ぢ・づ・で・ど・な・に・ぬ・ね・の」の少なくとも一部を発声する発声タスク、「ぱ・ぴ・ぷ・ぺ・ぽ」又は「ば・び・ぶ・べ・ぼ・ま・み・む・め・も」の少なくとも一部を発声する発声タスク、及び長母音を発声する発声タスクの少なくとも1つの発声タスクを、睡眠時とは異なる時に前記ユーザが実行することにより得られた音声データである、処理をコンピュータに実行させるための情報処理プログラムである。
【発明の効果】
【0009】
開示の技術によれば、ユーザが所定の器具などを装着することなく、ユーザが所定の発声タスクを実行することにより得られる音声データから、ユーザの睡眠時の呼吸状態を推定することができる、という効果が得られる。
【図面の簡単な説明】
【0010】
【
図1】第1実施形態の情報処理システムの概略構成の一例を示す図である。
【
図3】第1実施形態の情報処理システムの利用形態の一例を模式的に示す図である。
【
図4】情報処理装置を構成するコンピュータの一例を示す図である。
【
図5】第1実施形態の情報処理装置が実行する処理の一例を示す図である。
【
図6】人間が座位の体位をとった場合の上気道と人間が仰臥位の体位をとった場合の上気道とを表す図である。
【
図7】第3実施形態の情報処理システムの概略構成の一例を示す図である。
【
図8】第3実施形態の情報処理システムの利用形態の一例を模式的に示す図である。
【
図9】第3実施形態の情報処理システムの利用形態の一例を模式的に示す図である。
【発明を実施するための形態】
【0011】
以下、図面を参照して開示の技術の実施形態を詳細に説明する。
【0012】
<第1実施形態の情報処理システム>
【0013】
図1に、第1実施形態に係る情報処理システム10を示す。
図1に示されるように、第1実施形態の情報処理システム10は、マイク12と、情報処理装置14と、表示装置16とを備えている。
【0014】
情報処理システム10は、マイク12により集音されたユーザが発した音声の時系列データである音声データから音響特徴量を抽出し、その音響特徴量に基づいて、ユーザの睡眠時の呼吸状態を推定する。
【0015】
具体的には、情報処理システム10の情報処理装置14は、睡眠時とは異なる時の、ユーザの音声データを集音する。そして、情報処理装置14は、その音声データに基づいて、ユーザの睡眠時の呼吸状態を推定する。
【0016】
本実施形態では、以下の各種の発声タスクが、睡眠時の呼吸状態を推定するのに有用であると考え、ユーザが座位である状況下において発声した、各種の発声タスクにより得られた音声データを用いる。
【0017】
(1)気道全体を評価するための発声タスク
本実施形態では、ユーザが「あ・い・う・え・お」というフレーズの少なくとも一部を発声した際の音声データを用いて、ユーザの睡眠時の呼吸状態を推定する。
【0018】
図2は、人間の上気道の構造を表す図である。ユーザが「あ・い・う・え・お」というフレーズの少なくとも一部を発声する際には、口唇、歯列や舌などを用いる子音を伴わずに母音のみを発声するため、
図2に示されている気道全体の形態特性を評価することが可能となる。このため、本実施形態では、主に気道全体の形態特性を評価するための発声タスクとして、「あ・い・う・え・お」というフレーズの少なくとも一部を発声するタスクを設定する。
【0019】
(2)奥舌から上咽頭を評価するための発声タスク
本実施形態では、ユーザが「が・ぎ・ぐ・げ・ご」というフレーズの少なくとも一部を発声した際の音声データを用いて、ユーザの睡眠時の呼吸状態を推定する。ユーザが「が・ぎ・ぐ・げ・ご」というフレーズの少なくとも一部を発声する際には、奥舌から上咽頭を活用する必要がある。このため、これらのフレーズの少なくとも一部を発声した際の音声データには、
図2に示されている奥舌から上咽頭Aの機能および形態特性を反映していると考えられる。このため、本実施形態では、睡眠中の気道確保に直結する奥舌から上咽頭を主に評価するための発声タスクとして、「が・ぎ・ぐ・げ・ご」というフレーズの少なくとも一部を発声するタスクを設定する。なお、「か・き・く・け・こ」というフレーズの少なくとも一部の音声データにも、奥舌から上咽頭の機能および形態特性が反映されていると考えられる。このため、奥舌から上咽頭を評価するための発声タスクは、「が・ぎ・ぐ・げ・ご」に代えて「か・き・く・け・こ」でも良い。
【0020】
(3)口腔から舌尖を評価するための発声タスク
本実施形態では、ユーザが「ら・り・る・れ・ろ」というフレーズの少なくとも一部を発声した際の音声データを用いて、ユーザの睡眠時の呼吸状態を推定する。ユーザが「ら・り・る・れ・ろ」というフレーズの少なくとも一部を発声する際には、舌尖と硬口蓋をうまく活用する必要があり、
図2に示されている舌尖および硬口蓋を含む口腔Bの機能および形態特性を反映していると考えられる。このため、本実施形態では、口腔から舌尖を主に評価するための発声タスクとして、「ら・り・る・れ・ろ」というフレーズの少なくとも一部を発声するタスクを設定する。なお、「た・ち・つ・て・と・だ・ぢ・づ・で・ど・な・に・ぬ・ね・の」というフレーズの少なくとも一部の音声データにも、舌尖及び硬口蓋を含む口腔Bの機能および形態特性が反映されていると考えられる。このため、口腔を評価するための発声タスクは、「ら・り・る・れ・ろ」に代えて「た・ち・つ・て・と・だ・ぢ・づ・で・ど・な・に・ぬ・ね・の」でも良い。
【0021】
(4)口唇を評価するための発声タスク
本実施形態では、ユーザが「ぱ・ぴ・ぷ・ぺ・ぽ」というフレーズの少なくとも一部を発声した際の音声データを用いて、ユーザの睡眠時の呼吸状態を推定する。ユーザが「ぱ・ぴ・ぷ・ぺ・ぽ」というフレーズの少なくとも一部を発声する際には、口唇をうまく動かす必要があり、
図2に示されている口唇Cをうまく使う必要がある。このため、本実施形態では、口唇を主に評価するための発声タスクとして、「ぱ・ぴ・ぷ・ぺ・ぽ」というフレーズの少なくとも一部を発声するタスクを設定する。なお、「ば・び・ぶ・べ・ぼ・ま・み・む・め・も」というフレーズの少なくとも一部の音声データにも、の機能および形態特性が反映されていると考えられる。このため、口唇を評価するための発声タスクは、「ぱ・ぴ・ぷ・ぺ・ぽ」に代えて「ば・び・ぶ・べ・ぼ・ま・み・む・め・も」でも良い。
【0022】
(5)長母音を発声する発声タスク
ユーザが長母音である「あー」「いー」「うー」「えー」「おー」を発声する際には、上述した気道全体を評価するための発声タスク「あ・い・う・え・お」と同様に、気道の一部または全部をうまく活用する必要がある。このため、長母音を発声する発声タスクも、有用であると考えられるため、長母音を発声するタスクを設定する。
【0023】
以下、具体的に説明する。
【0024】
図1に示されるように、情報処理装置14は、機能的には、取得部20と、音声データ記憶部22と、抽出部24と、推定部26と、出力部28とを備えている。情報処理装置14は、後述するようなコンピュータにより実現される。
【0025】
取得部20は、ユーザが発した音声の時系列データである音声データを取得する。そして、取得部20は、音声データを音声データ記憶部22へ格納する。
【0026】
本実施形態の音声データは、気道全体を評価する「あ・い・う・え・お」の少なくとも一部を発声する発声タスク、奥舌から上咽頭部分を主に評価する「が・ぎ・ぐ・げ・ご」又は「か・き・く・け・こ」の少なくとも一部を発声する発声タスク、舌尖から硬口蓋を含めた口腔を主に評価する「ら・り・る・れ・ろ」又は「た・ち・つ・て・と・だ・ぢ・づ・で・ど・な・に・ぬ・ね・の」の少なくとも一部を発声する発声タスク、口唇を主に評価する「ぱ・ぴ・ぷ・ぺ・ぽ」又は「ば・び・ぶ・べ・ぼ・ま・み・む・め・も」の少なくとも一部を発声する発声タスク、及び長母音を発声する発声タスクの少なくとも1つの発声タスクを、睡眠時とは異なる時にユーザが実行することにより得られた音声データである。
【0027】
音声データ記憶部22には、取得部20により取得された音声データが格納される。
【0028】
抽出部24は、音声データから音響特徴量を抽出する。例えば、抽出部24は、既知のopenSMILE(open-source Speech and Music Interpretation by Large-space Extraction)(インターネットURL<https://audeering.github.io/opensmile/>,2023年2月28日検索)、Praat(インターネットURL<https://www.fon.hum.uva.nl/praat/>,2023年2月28日検索)、pyAudioAnalysis(インターネットURL< https://github.com/tyiannak/pyAudioAnalysis >,2023年2月28日検索)、Pyworld(インターネットURL<https://pypi.org/project/pyworld/>,2023年3月15日検索)、librosa(インターネットURL<https://librosa.org/doc/latest/index.html>,2023年3月15日検索)、及びphonet(インターネットURL<https://phonet.readthedocs.io/en/latest/>,2023年3月15日検索)等において利用可能な音響特徴量を音声データから抽出してもよい。なお、音響特徴量の一例としては、基本周波数、スペクトル包絡、非周期性指標、又は音素特徴量等であり、例えば、特開2021-194527に開示されている特徴量等である。
【0029】
推定部26は、抽出部24により抽出され複数の音響特徴量に基づいて、ユーザの睡眠時の呼吸状態に関する情報を推定する。例えば、睡眠時の呼吸状態に関する情報は、睡眠時無呼吸症候群のリスク、度合い、又は重症度を表す情報である。
【0030】
なお、例えば、推定部26は、複数の音響特徴量を、既知の機械学習モデル(例えば、ニューラルネットワーク又は決定木モデル等)、深層学習モデル又は統計モデル(例えば、ロジスティック回帰等)へ入力することにより、ユーザの睡眠時の呼吸状態に関する情報を推定する。この場合、既知の機械学習モデル、深層学習モデル又は統計モデルからは、複数の音響特徴量に応じた所定のスコアが出力される。このスコアが、ユーザの睡眠時の呼吸状態に関する情報に相当する。なお、機械学習モデル、深層学習モデル又は統計モデルは、学習用データ等に基づいて予め生成されているものである。
【0031】
学習済みモデル又は統計モデルから出力されるデータは、例えば、ユーザの睡眠時の呼吸状態を表す数値データである。例えば、学習済みモデル又は統計モデルから出力されるデータは、睡眠時無呼吸症候群のリスク、度合い、又は重症度を表す数値の少なくとも1つである。
【0032】
例えば、推定部26は、予め機械学習又は深層学習された学習済みモデル又は予め生成された統計モデルに対して複数の音響特徴量を入力し、学習済みモデル又は統計モデルから出力されるデータを、ユーザが睡眠時無呼吸症候群を有している度合いを表すスコアとみなす。
【0033】
なお、推定部26は、睡眠時の呼吸状態が既知である参照用ユーザの音声データを参照することにより、対象となるユーザの睡眠時の呼吸状態に関する情報を推定するようにしてもよい。
【0034】
出力部28は、推定部26により推定された推定結果を出力する。
【0035】
表示装置16は、推定部26から出力された推定結果を表示する。
【0036】
情報処理装置14を操作する医療従事者又はユーザは、表示装置16から出力された推定結果を確認し、ユーザの睡眠時の呼吸状態を確認する。
【0037】
本実施形態の情報処理システム10は、例えば、
図3に示されるような状況下においての利用が想定される。
【0038】
図3の例では、医師等の医療従事者Hが、情報処理システム10の一例であるタブレット型端末を保持している。医療従事者Hは、タブレット型端末が備えるマイク(図示省略)を用いて、被験者であるユーザUの音声データを集音する。そして、タブレット端末は、ユーザUの音声データに基づいて、ユーザUが何れかの疾患又は症状を有しているか否かを推定し、推定結果を表示部(図示省略)へ出力する。医療従事者Hは、タブレット端末の表示部(図示省略)に表示された推定結果を参考にして、ユーザUの睡眠時の呼吸状態を判定する。
【0039】
情報処理装置14は、例えば、
図4に示すコンピュータ50で実現することができる。コンピュータ50はCPU51、一時記憶領域としてのメモリ52、及び不揮発性の記憶部53を備える。また、コンピュータ50は、外部装置及び出力装置等が接続される入出力interface(I/F)54、及び記録媒体に対するデータの読み込み及び書き込みを制御するread/write(R/W)部55を備える。また、コンピュータ50は、インターネット等のネットワークに接続されるネットワークI/F56を備える。CPU51、メモリ52、記憶部53、入出力I/F54、R/W部55、及びネットワークI/F56は、バス57を介して互いに接続される。
【0040】
記憶部53は、Hard Disk Drive(HDD)、Solid State Drive(SSD)、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部53には、コンピュータ50を機能させるためのプログラムが記憶されている。CPU51は、プログラムを記憶部53から読み出してメモリ52に展開し、プログラムが有するプロセスを順次実行する。
【0041】
[第1実施形態の情報処理システムの動作]
【0042】
次に、第1実施形態の情報処理システム10の具体的な動作について説明する。情報処理システム10の情報処理装置14は、
図5に示される各処理を実行する。
【0043】
まず、ステップS100において、取得部20は、マイク12により集音されたユーザの音声データを取得する。そして、取得部20は、音声データを音声データ記憶部22へ格納する。
【0044】
次に、ステップS102において、抽出部24は、音声データ記憶部22に格納されている音声データから複数の音響特徴量を抽出する。
【0045】
ステップS104において、推定部26は、ステップS102で得られた複数の音響特を、予め機械学習又は深層学習された学習済みモデル又は予め生成された統計モデルへ入力して、学習済みモデル又は統計モデルから出力されるデータを、ユーザの睡眠時の呼吸状態に関するスコアとして推定する。なお、スコアは、例えば、睡眠時の呼吸状態が無呼吸状態である可能性が高いほど大きな値をとる。または、スコアは、例えば、睡眠時の呼吸状態が無呼吸である可能性が高いほど小さな値をとるようにしてもよい。
【0046】
そして、ステップS106において、出力部28は、上記ステップS104で推定されたスコアを推定結果として出力する。
【0047】
表示装置16は、出力部28から出力された推定結果を表示する。情報処理装置14を操作する医療従事者又はユーザは、表示装置16から出力された推定結果を確認し、ユーザの睡眠時の呼吸状態はどのような状態であると推定されるのかを確認する。
【0048】
以上説明したように、第1実施形態の情報処理システム10は、ユーザが発した音声データから音響特徴量を抽出し、当該音響特徴量に基づいて、ユーザの睡眠時の呼吸状態に関する情報を推定する。ここでの音声データは、気道全体を評価する「あ・い・う・え・お」の少なくとも一部を発声する発声タスク、舌根を含む咽頭部分を評価する「が・ぎ・ぐ・げ・ご」の少なくとも一部を発声する発声タスク、舌部を含めた口腔を評価する「ら・り・る・れ・ろ」の少なくとも一部を発声する発声タスク、口唇を評価する「ぱ・ぴ・ぷ・ぺ・ぽ」の少なくとも一部を発声する発声タスク、及び長母音を発声する発声タスクの少なくとも1つの発声タスクを、睡眠時とは異なる時にユーザが実行することにより得られた音声データである。これにより、ユーザが所定の器具などを装着することなく、ユーザが所定の発声タスクを実行することにより得られる音声データから、ユーザの睡眠時の呼吸状態を推定することができる。
【0049】
<第2実施形態の情報処理システム>
次に、第2実施形態について説明する。なお、第2実施形態の情報処理システムの構成は、第1実施形態と同様であるため、同一符号を付して説明を省略する。
【0050】
第2実施形態の情報処理システムは、ユーザが座位である状況下において発声した音声データ及びユーザが仰臥位である状況下において発声した音声データを用いて、ユーザの睡眠時の呼吸状態に関する情報を推定する。
【0051】
図6は、人間が座位の体位をとった場合の上気道と人間が仰臥位の体位をとった場合の上気道とを表す図である。
【0052】
一般的に、上気道の断面積が小さい場合には、閉塞性の睡眠時無呼吸が発生しやすくなる。また、声帯より上の気道形状によって音の共鳴特性が変化するため声質が変化する。
【0053】
図6に示されている座位の上気道と仰臥位の上気道とを比較すると、上気道の断面積Dが小さくなり、かつ気道形状Eも変化していることがわかる。
【0054】
そこで、本実施形態では、ユーザが座位である状況下において発声した音声データ及びユーザが仰臥位である状況下において発声した音声データを用いて、ユーザの睡眠時の呼吸状態に関する情報を推定する。
【0055】
具体的には、第2実施形態の情報処理装置14は、ユーザが座位である状況下において発話した音声データと、ユーザが仰臥位である状況下において発声した音声データとの間の変化を解析し、当該変化の解析結果に基づいて、睡眠時の呼吸状態に関する情報を推定する。
【0056】
より詳細には、第2実施形態の情報処理装置14の推定部26は、ユーザが座位である状況下において発声した音声データと、ユーザが仰臥位である状況下において発声した音声データとの間の変化の一例として、それら2つの音声データの差分、比率、又は変化率等を計算する。
【0057】
そして、第2実施形態の情報処理装置14の推定部26は、2つの音声データの変化に基づいて、第1実施形態と同様に、ユーザの睡眠時の呼吸状態に関する情報を推定する。
【0058】
なお、第2実施形態に係る情報処理システム10の他の構成及び作用については、第1実施形態と同様であるため、説明を省略する。
【0059】
以上説明したように、第2実施形態の情報処理システム10は、ユーザが座位である状況下において発声した音声データと、ユーザが仰臥位である状況下において発声した音声データとの間の変化を解析し、当該変化の解析結果に基づいて、睡眠時の呼吸状態に関する情報を推定する。これにより、ユーザが所定の器具などを装着することなく、ユーザが所定の発声タスクを実行することにより得られる音声データから、ユーザの睡眠時の呼吸状態を推定することができる。
【0060】
<第2実施形態の変形例>
なお、第2実施形態では、ユーザが座位である状況下において発声した音声データと、ユーザが仰臥位である状況下において発声した音声データとの間の変化を用いて、睡眠時の呼吸状態に関する情報を推定する場合を例に説明したが、これに限定されるものではない。例えば、第2実施形態の変形例としては、ユーザが仰臥位である状況下において発声した音声データを用いて、ユーザの睡眠時の呼吸状態に関する情報を推定するようにしてもよい。この場合、第2実施形態の情報処理装置14は、ユーザが仰臥位である状況下において発声した音声データを解析し、解析結果に基づいて、睡眠時の呼吸状態に関する情報を推定する。ユーザが仰臥位である状況下において発声した音声データを解析することにより、狭窄した気道状態の評価することが可能となり、ユーザの睡眠時の呼吸状態を精度良く推定することができる。
【0061】
<第3実施形態の情報処理システム>
【0062】
次に、第3実施形態について説明する。なお、第3実施形態の情報処理システムの構成のうちの、第1実施形態又は第2実施形態と同様の構成となる部分については、同一符号を付して説明を省略する。
【0063】
図7に、第3実施形態の情報処理システム310を示す。
図7に示されるように、情報処理システム310は、ユーザ端末18と、情報処理装置314とを備えている。情報処理装置314は、通信部36を更に備えている。
【0064】
情報処理システム310の情報処理装置314は、ユーザ端末18に備えられたマイク12により集音されたユーザの音声に基づいて、ユーザの睡眠時の呼吸状態を推定する。
【0065】
第3実施形態の情報処理システム310は、例えば、
図8及び
図9に示されるような状況下においての利用が想定される。
【0066】
図8の例では、医師等の医療従事者Hが情報処理装置314を操作しており、被験者であるユーザUはユーザ端末18を操作している。ユーザUは、自らが操作するユーザ端末18のマイク12により自らの音声データ「XXXX」を集音する。そして、ユーザ端末18は、インターネット等のネットワーク19を介して音声データを情報処理装置314へ送信する。
【0067】
情報処理装置314は、ユーザ端末18から送信されたユーザUの音声データ「XXX」を受信する。そして、情報処理装置314は、受信した音声データに基づいて、ユーザUの睡眠時の呼吸状態を推定し、推定結果を情報処理装置314の表示部315へ出力する。医療従事者Hは、情報処理装置314の表示部315に表示された推定結果を参考にして、ユーザUの睡眠時の呼吸状態がどのような状態であるのかを確認する。
【0068】
一方、
図9の例では、被験者であるユーザUは、自らが操作するユーザ端末18のマイク12により自らの音声データを集音する。そして、ユーザ端末18は、インターネット等のネットワーク19を介して音声データを情報処理装置314へ送信する。情報処理装置314は、ユーザ端末18から送信されたユーザUの音声データを受信する。そして、情報処理装置314は、受信した音声データに基づいて、ユーザUの睡眠時の呼吸状態を推定し、推定結果をユーザ端末18へ送信する。ユーザ端末18は、情報処理装置14から送信された推定結果を受信し、その推定結果を表示部(図示省略)へ表示する。ユーザは、推定結果を確認し、自らの睡眠時の呼吸状態がどのような状態である可能性が高いのかを確認する。
【0069】
なお、情報処理装置314は、上記
図5と同様の情報処理ルーチンを実行する。
【0070】
以上説明したように、第3実施形態の情報処理システムは、クラウド上に設置された情報処理装置314を用いて、ユーザの睡眠時の呼吸状態を推定することができる。
【実施例0071】
次に、実施例1を説明する。実施例1では、第1実施形態において説明した手法の効果に関する実験結果を示す。
【0072】
実施例1では、収集した音声データから、無呼吸低呼吸指数(AHI:Apnea- Hypopnea Index)を予測するモデルを生成し、その精度を検証した。なお、本実施例のモデルは、AHI<20であるかAHI≧20であるかを推定するモデルである。
【0073】
実施例1では、「あ・い・う・え・お」「が・ぎ・ぐ・げ・ご」「ら・り・る・れ・ろ」「ぱ・ぴ・ぷ・ぺ・ぽ」を被験者が発声した際の音声データを利用する。また、所定個の従来特徴量を既知の手法を用いて選別する。また、既知の機械学習モデルの一例であるLightGBMを用いて決定木を学習させ、10分割交差検証により精度を確認する。
【0074】
図10は、被験者が座位である状況下において「あ・い・う・え・お」を発声した際の音声データを用いて、AHI<20であるかAHI≧20であるかを推定した際の結果を表す図である。
図10に示されているように、正解率は89.9%であり、AUC(Area Under the Curve)は0.959である。
【0075】
図11は、被験者が座位である状況下において「が・ぎ・ぐ・げ・ご」を発声した際の音声データを用いて、AHI<20であるかAHI≧20であるかを推定した際の結果を表す図である。
図11に示されているように、正解率は86.0%であり、AUC(Area Under the Curve)は0.940である。
【0076】
図12は、被験者が座位である状況下において「ら・り・る・れ・ろ」を発声した際の音声データを用いて、AHI<20であるかAHI≧20であるかを推定した際の結果を表す図である。
図12に示されているように、正解率は85.5%であり、AUC(Area Under the Curve)は0.923である。
【0077】
図13は、被験者が座位である状況下において「ぱ・ぴ・ぷ・ぺ・ぽ」を発声した際の音声データを用いて、AHI<20であるかAHI≧20であるかを推定した際の結果を表す図である。
図13に示されているように、正解率は86.0%であり、AUC(Area Under the Curve)は0.944である。
【0078】
図14は、被験者が座位である状況下において上記の全フレーズを発声した際の音声データの組み合わせを用いて、AHI<20であるかAHI≧20であるかを推定した際の結果を表す図である。
図14に示されているように、正解率は98.3%であり、AUC(Area Under the Curve)は0.997である。
【0079】
図10~
図14に示されている結果からも、第1実施形態の手法によれば、ユーザの睡眠時の呼吸状態を精度良く推定することができる、といえる。
実施例2では、被験者が仰臥位である状況下において発声した音声データから得られる音響特徴量を推定に用いる。なお、実施例2では、実施例1と同様に、無呼吸低呼吸指数(AHI:Apnea- Hypopnea Index)を予測するモデルを生成し、その精度を検証した。なお、本実施例のモデルは、AHI<20であるかAHI≧20であるかを推定するモデルである。
実施例2では、「が・ぎ・ぐ・げ・ご」を被験者が発声した際の音声データを利用する。また、実施例2では、実施例1と同様に、所定個の従来特徴量を既知の手法を用いて選別する。また、既知の機械学習モデルの一例であるLightGBMを用いて決定木を学習させ、10分割交差検証により精度を確認する。