IP Force 特許公報掲載プロジェクト 2022.1.31 β版

ホーム > 特許ランキング > ＰＳＴ株式会社

知財求人 - 知財ポータルサイト「IP Force」

▶ ＰＳＴ株式会社の特許一覧

特開2025-7501情報処理装置、情報処理方法、情報処理システム、及び情報処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2025007501

(43)【公開日】2025-01-17

(54)【発明の名称】情報処理装置、情報処理方法、情報処理システム、及び情報処理プログラム

(51)【国際特許分類】

A61B 5/08 20060101AFI20250109BHJP

【ＦＩ】

A61B5/08

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2023108935

(22)【出願日】2023-06-30

(71)【出願人】

【識別番号】322006559

【氏名又は名称】ＰＳＴ株式会社

(74)【代理人】

【識別番号】110001519

【氏名又は名称】弁理士法人太陽国際特許事務所

(72)【発明者】

【氏名】大宮康宏

(72)【発明者】

【氏名】山本洸

【テーマコード（参考）】

4C038

【Ｆターム（参考）】

4C038SS09

4C038ST04

4C038SV01

4C038SV05

4C038SX05

(57)【要約】

【課題】ユーザが所定の器具などを装着することなく、ユーザの音声データから睡眠時の呼吸状態を推定する。
【解決手段】情報処理装置１４は、ユーザが発した音声データから音響特徴量を抽出する。情報処理装置１４は、音響特徴量に基づいて、ユーザの睡眠時の呼吸状態に関する情報を推定する。情報処理装置１４は、呼吸状態に関する情報を出力する。なお、音声データは、「あ・い・う・え・お」の少なくとも一部を発声する発声タスク、「が・ぎ・ぐ・げ・ご」の少なくとも一部を発声する発声タスク、「ら・り・る・れ・ろ」の少なくとも一部を発声する発声タスク、「ぱ・ぴ・ぷ・ぺ・ぽ」の少なくとも一部を発声する発声タスク、及び長母音を発声する発声タスクの少なくとも１つの発声タスクを、睡眠時とは異なる時にユーザが実行することにより得られた音声データである。
【選択図】図１

【特許請求の範囲】

【請求項1】

ユーザが発した音声データを取得する取得部と、
前記取得部により取得された前記音声データから音響特徴量を抽出する抽出部と、
前記抽出部により得られた音響特徴量に基づいて、前記ユーザの睡眠時の呼吸状態に関する情報を推定する推定部と、
前記推定部により推定された前記呼吸状態に関する情報を出力する出力部と、
を含み、
前記音声データは、「あ・い・う・え・お」の少なくとも一部を発声する発声タスク、「が・ぎ・ぐ・げ・ご」又は「か・き・く・け・こ」の少なくとも一部を発声する発声タスク、「ら・り・る・れ・ろ」又は「た・ち・つ・て・と・だ・ぢ・づ・で・ど・な・に・ぬ・ね・の」の少なくとも一部を発声する発声タスク、「ぱ・ぴ・ぷ・ぺ・ぽ」又は「ば・び・ぶ・べ・ぼ・ま・み・む・め・も」の少なくとも一部を発声する発声タスク、及び長母音を発声する発声タスクの少なくとも１つの発声タスクを、睡眠時とは異なる時に前記ユーザが実行することにより得られた音声データである、
情報処理装置。

【請求項2】

前記取得部は、前記ユーザが座位である状況下において発声した前記音声データ及び前記ユーザが仰臥位である状況下において発声した前記音声データの少なくとも一方を取得し、
前記推定部は、前記音声データに基づいて、前記睡眠時の呼吸状態に関する情報を推定する、
請求項１に記載の情報処理装置。

【請求項3】

前記推定部は、前記ユーザが座位である状況下において発声した前記音声データと前記ユーザが仰臥位である状況下において発声した前記音声データとの間の変化を解析し、前記変化の解析結果に基づいて、前記睡眠時の呼吸状態に関する情報を推定する、
請求項１又は請求項２に記載の情報処理装置。

【請求項4】

前記推定部は、予め機械学習又は深層学習された学習済みモデル又は予め生成された統計モデルに対して、前記音響特徴量を入力し、前記学習済みモデル又は前記統計モデルから出力されるデータを、前記睡眠時の呼吸状態に関する情報として推定する、
請求項１又は請求項２に記載の情報処理装置。

【請求項5】

前記「あ・い・う・え・お」の少なくとも一部を発声する発声タスクは、気道全体を評価するための発声タスクであり、
前記「が・ぎ・ぐ・げ・ご」又は「か・き・く・け・こ」の少なくとも一部を発声する発声タスクは、奥舌から上咽頭部分を評価するための発声タスクであり、
前記「ら・り・る・れ・ろ」又は「た・ち・つ・て・と・だ・ぢ・づ・で・ど・な・に・ぬ・ね・の」の少なくとも一部を発声する発声タスクは、舌尖から硬口蓋を含めた口腔を評価するための発声タスクであり、
前記「ぱ・ぴ・ぷ・ぺ・ぽ」又は「ば・び・ぶ・べ・ぼ・ま・み・む・め・も」の少なくとも一部を発声する発声タスクは、口唇を評価するための発声タスクである、
請求項１又は請求項２に記載の情報処理装置。

【請求項6】

マイクを備えるユーザ端末と、請求項１又は請求項２に記載の情報処理装置とを含む情報処理システムであって、
前記ユーザ端末は、前記マイクにより取得された前記音声データを前記情報処理装置へ送信し、
前記情報処理装置の前記取得部は、前記ユーザ端末から送信された前記音声データを取得し、
前記情報処理装置の通信部は、前記推定部により推定された推定結果をユーザ端末へ送信し、
前記ユーザ端末は、前記情報処理装置から送信された前記推定結果を受信する、
情報処理システム。

【請求項7】

ユーザが発した音声データを取得し、
取得された前記音声データから音響特徴量を抽出し、
前記音響特徴量に基づいて、前記ユーザの睡眠時の呼吸状態に関する情報を推定し、
推定された前記呼吸状態に関する情報を出力し、
前記音声データは、「あ・い・う・え・お」の少なくとも一部を発声する発声タスク、「が・ぎ・ぐ・げ・ご」又は「か・き・く・け・こ」の少なくとも一部を発声する発声タスク、「ら・り・る・れ・ろ」又は「た・ち・つ・て・と・だ・ぢ・づ・で・ど・な・に・ぬ・ね・の」の少なくとも一部を発声する発声タスク、「ぱ・ぴ・ぷ・ぺ・ぽ」又は「ば・び・ぶ・べ・ぼ・ま・み・む・め・も」の少なくとも一部を発声する発声タスク、及び長母音を発声する発声タスクの少なくとも１つの発声タスクを、睡眠時とは異なる時に前記ユーザが実行することにより得られた音声データである、
処理をコンピュータが実行する情報処理方法。

【請求項8】

【発明の詳細な説明】

【技術分野】

【0001】

開示の技術は、情報処理装置、情報処理方法、情報処理システム、及び情報処理プログラムに関する。

【背景技術】

【0002】

特許文献１には、音声特性を用いて上気道を特徴づけるシステムが開示されている。特許文献１に開示されている技術は、患者の顎位置を制限する手段を含む機械的なカプラと、発声を記録する手段と、上記記録された発声から上記上気道の少なくとも１つの生体構造パラメータを決定し、上記記録された発声を閾値と比較する処理手段とを有する。なお、特許文献１に開示されているシステムは、閉塞性睡眠時無呼吸を評価する診断ツールとして使用される。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特表2014-532448号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

上記特許文献１では、患者が機械的なカプラを装着した際の音声データに基づいて、患者の睡眠時無呼吸の状態を推定する技術である。しかし、音声データを集音する際には、患者が機械的なカプラを装着せずに集音可能な方が好ましい。

【0005】

開示の技術は、上記の事情を鑑みてなされたものであり、ユーザが所定の器具などを装着することなく、ユーザが所定の発声タスクを実行することにより得られる音声データから、ユーザの睡眠時の呼吸状態を推定することができる、情報処理装置、情報処理方法、情報処理システム、及び情報処理プログラムを提供する。

【課題を解決するための手段】

【0006】

上記の目的を達成するために本開示の第１態様は、ユーザが発した音声データを取得する取得部と、前記取得部により取得された前記音声データから音響特徴量を抽出する抽出部と、前記抽出部により得られた音響特徴量に基づいて、前記ユーザの睡眠時の呼吸状態に関する情報を推定する推定部と、前記推定部により推定された前記呼吸状態に関する情報を出力する出力部と、を含み、前記音声データは、「あ・い・う・え・お」の少なくとも一部を発声する発声タスク、「が・ぎ・ぐ・げ・ご」又は「か・き・く・け・こ」の少なくとも一部を発声する発声タスク、「ら・り・る・れ・ろ」又は「た・ち・つ・て・と・だ・ぢ・づ・で・ど・な・に・ぬ・ね・の」の少なくとも一部を発声する発声タスク、「ぱ・ぴ・ぷ・ぺ・ぽ」又は「ば・び・ぶ・べ・ぼ・ま・み・む・め・も」の少なくとも一部を発声する発声タスク、及び長母音を発声する発声タスクの少なくとも１つの発声タスクを、睡眠時とは異なる時に前記ユーザが実行することにより得られた音声データである、情報処理装置である。

【0007】

本開示の第２態様は、ユーザが発した音声データを取得し、取得された前記音声データから音響特徴量を抽出し、前記音響特徴量に基づいて、前記ユーザの睡眠時の呼吸状態に関する情報を推定し、推定された前記呼吸状態に関する情報を出力し、前記音声データは、「あ・い・う・え・お」の少なくとも一部を発声する発声タスク、「が・ぎ・ぐ・げ・ご」又は「か・き・く・け・こ」の少なくとも一部を発声する発声タスク、「ら・り・る・れ・ろ」又は「た・ち・つ・て・と・だ・ぢ・づ・で・ど・な・に・ぬ・ね・の」の少なくとも一部を発声する発声タスク、「ぱ・ぴ・ぷ・ぺ・ぽ」又は「ば・び・ぶ・べ・ぼ・ま・み・む・め・も」の少なくとも一部を発声する発声タスク、及び長母音を発声する発声タスクの少なくとも１つの発声タスクを、睡眠時とは異なる時に前記ユーザが実行することにより得られた音声データである、処理をコンピュータが実行する情報処理方法である。

【0008】

本開示の第３態様は、ユーザが発した音声データを取得し、取得された前記音声データから音響特徴量を抽出し、前記音響特徴量に基づいて、前記ユーザの睡眠時の呼吸状態に関する情報を推定し、推定された前記呼吸状態に関する情報を出力し、前記音声データは、「あ・い・う・え・お」の少なくとも一部を発声する発声タスク、「が・ぎ・ぐ・げ・ご」又は「か・き・く・け・こ」の少なくとも一部を発声する発声タスク、「ら・り・る・れ・ろ」又は「た・ち・つ・て・と・だ・ぢ・づ・で・ど・な・に・ぬ・ね・の」の少なくとも一部を発声する発声タスク、「ぱ・ぴ・ぷ・ぺ・ぽ」又は「ば・び・ぶ・べ・ぼ・ま・み・む・め・も」の少なくとも一部を発声する発声タスク、及び長母音を発声する発声タスクの少なくとも１つの発声タスクを、睡眠時とは異なる時に前記ユーザが実行することにより得られた音声データである、処理をコンピュータに実行させるための情報処理プログラムである。

【発明の効果】

【0009】

開示の技術によれば、ユーザが所定の器具などを装着することなく、ユーザが所定の発声タスクを実行することにより得られる音声データから、ユーザの睡眠時の呼吸状態を推定することができる、という効果が得られる。

【図面の簡単な説明】

【0010】

【図1】第１実施形態の情報処理システムの概略構成の一例を示す図である。

【図2】人間の上気道の構造を表す図である。

【図3】第１実施形態の情報処理システムの利用形態の一例を模式的に示す図である。

【図4】情報処理装置を構成するコンピュータの一例を示す図である。

【図5】第１実施形態の情報処理装置が実行する処理の一例を示す図である。

【図6】人間が座位の体位をとった場合の上気道と人間が仰臥位の体位をとった場合の上気道とを表す図である。

【図7】第３実施形態の情報処理システムの概略構成の一例を示す図である。

【図8】第３実施形態の情報処理システムの利用形態の一例を模式的に示す図である。

【図9】第３実施形態の情報処理システムの利用形態の一例を模式的に示す図である。

【図10】実施例である実験結果の図である。

【図11】実施例である実験結果の図である。

【図12】実施例である実験結果の図である。

【図13】実施例である実験結果の図である。

【図14】実施例である実験結果の図である。

【図15】実施例である実験結果の図である。

【図16】実施例である実験結果の図である。

【図17】実施例である実験結果の図である。

【図18】実施例である実験結果の図である。

【発明を実施するための形態】

【0011】

以下、図面を参照して開示の技術の実施形態を詳細に説明する。

【0012】

＜第１実施形態の情報処理システム＞

【0013】

図１に、第１実施形態に係る情報処理システム１０を示す。図１に示されるように、第１実施形態の情報処理システム１０は、マイク１２と、情報処理装置１４と、表示装置１６とを備えている。

【0014】

情報処理システム１０は、マイク１２により集音されたユーザが発した音声の時系列データである音声データから音響特徴量を抽出し、その音響特徴量に基づいて、ユーザの睡眠時の呼吸状態を推定する。

【0015】

具体的には、情報処理システム１０の情報処理装置１４は、睡眠時とは異なる時の、ユーザの音声データを集音する。そして、情報処理装置１４は、その音声データに基づいて、ユーザの睡眠時の呼吸状態を推定する。

【0016】

本実施形態では、以下の各種の発声タスクが、睡眠時の呼吸状態を推定するのに有用であると考え、ユーザが座位である状況下において発声した、各種の発声タスクにより得られた音声データを用いる。

【0017】

（１）気道全体を評価するための発声タスク
本実施形態では、ユーザが「あ・い・う・え・お」というフレーズの少なくとも一部を発声した際の音声データを用いて、ユーザの睡眠時の呼吸状態を推定する。

【0018】

図２は、人間の上気道の構造を表す図である。ユーザが「あ・い・う・え・お」というフレーズの少なくとも一部を発声する際には、口唇、歯列や舌などを用いる子音を伴わずに母音のみを発声するため、図２に示されている気道全体の形態特性を評価することが可能となる。このため、本実施形態では、主に気道全体の形態特性を評価するための発声タスクとして、「あ・い・う・え・お」というフレーズの少なくとも一部を発声するタスクを設定する。

【0019】

（２）奥舌から上咽頭を評価するための発声タスク
本実施形態では、ユーザが「が・ぎ・ぐ・げ・ご」というフレーズの少なくとも一部を発声した際の音声データを用いて、ユーザの睡眠時の呼吸状態を推定する。ユーザが「が・ぎ・ぐ・げ・ご」というフレーズの少なくとも一部を発声する際には、奥舌から上咽頭を活用する必要がある。このため、これらのフレーズの少なくとも一部を発声した際の音声データには、図２に示されている奥舌から上咽頭Ａの機能および形態特性を反映していると考えられる。このため、本実施形態では、睡眠中の気道確保に直結する奥舌から上咽頭を主に評価するための発声タスクとして、「が・ぎ・ぐ・げ・ご」というフレーズの少なくとも一部を発声するタスクを設定する。なお、「か・き・く・け・こ」というフレーズの少なくとも一部の音声データにも、奥舌から上咽頭の機能および形態特性が反映されていると考えられる。このため、奥舌から上咽頭を評価するための発声タスクは、「が・ぎ・ぐ・げ・ご」に代えて「か・き・く・け・こ」でも良い。

【0020】

（３）口腔から舌尖を評価するための発声タスク
本実施形態では、ユーザが「ら・り・る・れ・ろ」というフレーズの少なくとも一部を発声した際の音声データを用いて、ユーザの睡眠時の呼吸状態を推定する。ユーザが「ら・り・る・れ・ろ」というフレーズの少なくとも一部を発声する際には、舌尖と硬口蓋をうまく活用する必要があり、図２に示されている舌尖および硬口蓋を含む口腔Ｂの機能および形態特性を反映していると考えられる。このため、本実施形態では、口腔から舌尖を主に評価するための発声タスクとして、「ら・り・る・れ・ろ」というフレーズの少なくとも一部を発声するタスクを設定する。なお、「た・ち・つ・て・と・だ・ぢ・づ・で・ど・な・に・ぬ・ね・の」というフレーズの少なくとも一部の音声データにも、舌尖及び硬口蓋を含む口腔Ｂの機能および形態特性が反映されていると考えられる。このため、口腔を評価するための発声タスクは、「ら・り・る・れ・ろ」に代えて「た・ち・つ・て・と・だ・ぢ・づ・で・ど・な・に・ぬ・ね・の」でも良い。

【0021】

（４）口唇を評価するための発声タスク
本実施形態では、ユーザが「ぱ・ぴ・ぷ・ぺ・ぽ」というフレーズの少なくとも一部を発声した際の音声データを用いて、ユーザの睡眠時の呼吸状態を推定する。ユーザが「ぱ・ぴ・ぷ・ぺ・ぽ」というフレーズの少なくとも一部を発声する際には、口唇をうまく動かす必要があり、図２に示されている口唇Ｃをうまく使う必要がある。このため、本実施形態では、口唇を主に評価するための発声タスクとして、「ぱ・ぴ・ぷ・ぺ・ぽ」というフレーズの少なくとも一部を発声するタスクを設定する。なお、「ば・び・ぶ・べ・ぼ・ま・み・む・め・も」というフレーズの少なくとも一部の音声データにも、の機能および形態特性が反映されていると考えられる。このため、口唇を評価するための発声タスクは、「ぱ・ぴ・ぷ・ぺ・ぽ」に代えて「ば・び・ぶ・べ・ぼ・ま・み・む・め・も」でも良い。

【0022】

（５）長母音を発声する発声タスク
ユーザが長母音である「あー」「いー」「うー」「えー」「おー」を発声する際には、上述した気道全体を評価するための発声タスク「あ・い・う・え・お」と同様に、気道の一部または全部をうまく活用する必要がある。このため、長母音を発声する発声タスクも、有用であると考えられるため、長母音を発声するタスクを設定する。

【0023】

以下、具体的に説明する。

【0024】

図１に示されるように、情報処理装置１４は、機能的には、取得部２０と、音声データ記憶部２２と、抽出部２４と、推定部２６と、出力部２８とを備えている。情報処理装置１４は、後述するようなコンピュータにより実現される。

【0025】

取得部２０は、ユーザが発した音声の時系列データである音声データを取得する。そして、取得部２０は、音声データを音声データ記憶部２２へ格納する。

【0026】

本実施形態の音声データは、気道全体を評価する「あ・い・う・え・お」の少なくとも一部を発声する発声タスク、奥舌から上咽頭部分を主に評価する「が・ぎ・ぐ・げ・ご」又は「か・き・く・け・こ」の少なくとも一部を発声する発声タスク、舌尖から硬口蓋を含めた口腔を主に評価する「ら・り・る・れ・ろ」又は「た・ち・つ・て・と・だ・ぢ・づ・で・ど・な・に・ぬ・ね・の」の少なくとも一部を発声する発声タスク、口唇を主に評価する「ぱ・ぴ・ぷ・ぺ・ぽ」又は「ば・び・ぶ・べ・ぼ・ま・み・む・め・も」の少なくとも一部を発声する発声タスク、及び長母音を発声する発声タスクの少なくとも１つの発声タスクを、睡眠時とは異なる時にユーザが実行することにより得られた音声データである。

【0027】

音声データ記憶部２２には、取得部２０により取得された音声データが格納される。

【0028】

抽出部２４は、音声データから音響特徴量を抽出する。例えば、抽出部２４は、既知のopenSMILE（open-source Speech and Music Interpretation by Large-space Extraction）（インターネットURL<https://audeering.github.io/opensmile/>，2023年2月28日検索）、Praat（インターネットURL<https://www.fon.hum.uva.nl/praat/>，2023年2月28日検索）、pyAudioAnalysis（インターネットURL< https://github.com/tyiannak/pyAudioAnalysis >，2023年2月28日検索）、Pyworld（インターネットURL<https://pypi.org/project/pyworld/>，2023年3月15日検索）、librosa（インターネットURL<https://librosa.org/doc/latest/index.html>，2023年3月15日検索）、及びphonet（インターネットURL<https://phonet.readthedocs.io/en/latest/>，2023年3月15日検索）等において利用可能な音響特徴量を音声データから抽出してもよい。なお、音響特徴量の一例としては、基本周波数、スペクトル包絡、非周期性指標、又は音素特徴量等であり、例えば、特開2021-194527に開示されている特徴量等である。

【0029】

推定部２６は、抽出部２４により抽出され複数の音響特徴量に基づいて、ユーザの睡眠時の呼吸状態に関する情報を推定する。例えば、睡眠時の呼吸状態に関する情報は、睡眠時無呼吸症候群のリスク、度合い、又は重症度を表す情報である。

【0030】

なお、例えば、推定部２６は、複数の音響特徴量を、既知の機械学習モデル（例えば、ニューラルネットワーク又は決定木モデル等）、深層学習モデル又は統計モデル（例えば、ロジスティック回帰等）へ入力することにより、ユーザの睡眠時の呼吸状態に関する情報を推定する。この場合、既知の機械学習モデル、深層学習モデル又は統計モデルからは、複数の音響特徴量に応じた所定のスコアが出力される。このスコアが、ユーザの睡眠時の呼吸状態に関する情報に相当する。なお、機械学習モデル、深層学習モデル又は統計モデルは、学習用データ等に基づいて予め生成されているものである。

【0031】

学習済みモデル又は統計モデルから出力されるデータは、例えば、ユーザの睡眠時の呼吸状態を表す数値データである。例えば、学習済みモデル又は統計モデルから出力されるデータは、睡眠時無呼吸症候群のリスク、度合い、又は重症度を表す数値の少なくとも１つである。

【0032】

例えば、推定部２６は、予め機械学習又は深層学習された学習済みモデル又は予め生成された統計モデルに対して複数の音響特徴量を入力し、学習済みモデル又は統計モデルから出力されるデータを、ユーザが睡眠時無呼吸症候群を有している度合いを表すスコアとみなす。

【0033】

なお、推定部２６は、睡眠時の呼吸状態が既知である参照用ユーザの音声データを参照することにより、対象となるユーザの睡眠時の呼吸状態に関する情報を推定するようにしてもよい。

【0034】

出力部２８は、推定部２６により推定された推定結果を出力する。

【0035】

表示装置１６は、推定部２６から出力された推定結果を表示する。

【0036】

情報処理装置１４を操作する医療従事者又はユーザは、表示装置１６から出力された推定結果を確認し、ユーザの睡眠時の呼吸状態を確認する。

【0037】

本実施形態の情報処理システム１０は、例えば、図３に示されるような状況下においての利用が想定される。

【0038】

図３の例では、医師等の医療従事者Ｈが、情報処理システム１０の一例であるタブレット型端末を保持している。医療従事者Ｈは、タブレット型端末が備えるマイク（図示省略）を用いて、被験者であるユーザＵの音声データを集音する。そして、タブレット端末は、ユーザＵの音声データに基づいて、ユーザＵが何れかの疾患又は症状を有しているか否かを推定し、推定結果を表示部（図示省略）へ出力する。医療従事者Ｈは、タブレット端末の表示部（図示省略）に表示された推定結果を参考にして、ユーザＵの睡眠時の呼吸状態を判定する。

【0039】

情報処理装置１４は、例えば、図４に示すコンピュータ５０で実現することができる。コンピュータ５０はＣＰＵ５１、一時記憶領域としてのメモリ５２、及び不揮発性の記憶部５３を備える。また、コンピュータ５０は、外部装置及び出力装置等が接続される入出力interface（Ｉ／Ｆ）５４、及び記録媒体に対するデータの読み込み及び書き込みを制御するread/write（Ｒ／Ｗ）部５５を備える。また、コンピュータ５０は、インターネット等のネットワークに接続されるネットワークＩ／Ｆ５６を備える。ＣＰＵ５１、メモリ５２、記憶部５３、入出力Ｉ／Ｆ５４、Ｒ／Ｗ部５５、及びネットワークＩ／Ｆ５６は、バス５７を介して互いに接続される。

【0040】

記憶部５３は、Hard Disk Drive（ＨＤＤ）、Solid State Drive（ＳＳＤ）、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部５３には、コンピュータ５０を機能させるためのプログラムが記憶されている。ＣＰＵ５１は、プログラムを記憶部５３から読み出してメモリ５２に展開し、プログラムが有するプロセスを順次実行する。

【0041】

［第１実施形態の情報処理システムの動作］

【0042】

次に、第１実施形態の情報処理システム１０の具体的な動作について説明する。情報処理システム１０の情報処理装置１４は、図５に示される各処理を実行する。

【0043】

まず、ステップＳ１００において、取得部２０は、マイク１２により集音されたユーザの音声データを取得する。そして、取得部２０は、音声データを音声データ記憶部２２へ格納する。

【0044】

次に、ステップＳ１０２において、抽出部２４は、音声データ記憶部２２に格納されている音声データから複数の音響特徴量を抽出する。

【0045】

ステップＳ１０４において、推定部２６は、ステップＳ１０２で得られた複数の音響特を、予め機械学習又は深層学習された学習済みモデル又は予め生成された統計モデルへ入力して、学習済みモデル又は統計モデルから出力されるデータを、ユーザの睡眠時の呼吸状態に関するスコアとして推定する。なお、スコアは、例えば、睡眠時の呼吸状態が無呼吸状態である可能性が高いほど大きな値をとる。または、スコアは、例えば、睡眠時の呼吸状態が無呼吸である可能性が高いほど小さな値をとるようにしてもよい。

【0046】

そして、ステップＳ１０６において、出力部２８は、上記ステップＳ１０４で推定されたスコアを推定結果として出力する。

【0047】

表示装置１６は、出力部２８から出力された推定結果を表示する。情報処理装置１４を操作する医療従事者又はユーザは、表示装置１６から出力された推定結果を確認し、ユーザの睡眠時の呼吸状態はどのような状態であると推定されるのかを確認する。

【0048】

以上説明したように、第１実施形態の情報処理システム１０は、ユーザが発した音声データから音響特徴量を抽出し、当該音響特徴量に基づいて、ユーザの睡眠時の呼吸状態に関する情報を推定する。ここでの音声データは、気道全体を評価する「あ・い・う・え・お」の少なくとも一部を発声する発声タスク、舌根を含む咽頭部分を評価する「が・ぎ・ぐ・げ・ご」の少なくとも一部を発声する発声タスク、舌部を含めた口腔を評価する「ら・り・る・れ・ろ」の少なくとも一部を発声する発声タスク、口唇を評価する「ぱ・ぴ・ぷ・ぺ・ぽ」の少なくとも一部を発声する発声タスク、及び長母音を発声する発声タスクの少なくとも１つの発声タスクを、睡眠時とは異なる時にユーザが実行することにより得られた音声データである。これにより、ユーザが所定の器具などを装着することなく、ユーザが所定の発声タスクを実行することにより得られる音声データから、ユーザの睡眠時の呼吸状態を推定することができる。

【0049】

＜第２実施形態の情報処理システム＞
次に、第２実施形態について説明する。なお、第２実施形態の情報処理システムの構成は、第１実施形態と同様であるため、同一符号を付して説明を省略する。

【0050】

第２実施形態の情報処理システムは、ユーザが座位である状況下において発声した音声データ及びユーザが仰臥位である状況下において発声した音声データを用いて、ユーザの睡眠時の呼吸状態に関する情報を推定する。

【0051】

図６は、人間が座位の体位をとった場合の上気道と人間が仰臥位の体位をとった場合の上気道とを表す図である。

【0052】

一般的に、上気道の断面積が小さい場合には、閉塞性の睡眠時無呼吸が発生しやすくなる。また、声帯より上の気道形状によって音の共鳴特性が変化するため声質が変化する。

【0053】

図６に示されている座位の上気道と仰臥位の上気道とを比較すると、上気道の断面積Ｄが小さくなり、かつ気道形状Ｅも変化していることがわかる。

【0054】

そこで、本実施形態では、ユーザが座位である状況下において発声した音声データ及びユーザが仰臥位である状況下において発声した音声データを用いて、ユーザの睡眠時の呼吸状態に関する情報を推定する。

【0055】

具体的には、第２実施形態の情報処理装置１４は、ユーザが座位である状況下において発話した音声データと、ユーザが仰臥位である状況下において発声した音声データとの間の変化を解析し、当該変化の解析結果に基づいて、睡眠時の呼吸状態に関する情報を推定する。

【0056】

より詳細には、第２実施形態の情報処理装置１４の推定部２６は、ユーザが座位である状況下において発声した音声データと、ユーザが仰臥位である状況下において発声した音声データとの間の変化の一例として、それら２つの音声データの差分、比率、又は変化率等を計算する。

【0057】

そして、第２実施形態の情報処理装置１４の推定部２６は、２つの音声データの変化に基づいて、第１実施形態と同様に、ユーザの睡眠時の呼吸状態に関する情報を推定する。

【0058】

なお、第２実施形態に係る情報処理システム１０の他の構成及び作用については、第１実施形態と同様であるため、説明を省略する。

【0059】

以上説明したように、第２実施形態の情報処理システム１０は、ユーザが座位である状況下において発声した音声データと、ユーザが仰臥位である状況下において発声した音声データとの間の変化を解析し、当該変化の解析結果に基づいて、睡眠時の呼吸状態に関する情報を推定する。これにより、ユーザが所定の器具などを装着することなく、ユーザが所定の発声タスクを実行することにより得られる音声データから、ユーザの睡眠時の呼吸状態を推定することができる。

【0060】

＜第２実施形態の変形例＞
なお、第２実施形態では、ユーザが座位である状況下において発声した音声データと、ユーザが仰臥位である状況下において発声した音声データとの間の変化を用いて、睡眠時の呼吸状態に関する情報を推定する場合を例に説明したが、これに限定されるものではない。例えば、第２実施形態の変形例としては、ユーザが仰臥位である状況下において発声した音声データを用いて、ユーザの睡眠時の呼吸状態に関する情報を推定するようにしてもよい。この場合、第２実施形態の情報処理装置１４は、ユーザが仰臥位である状況下において発声した音声データを解析し、解析結果に基づいて、睡眠時の呼吸状態に関する情報を推定する。ユーザが仰臥位である状況下において発声した音声データを解析することにより、狭窄した気道状態の評価することが可能となり、ユーザの睡眠時の呼吸状態を精度良く推定することができる。

【0061】

＜第３実施形態の情報処理システム＞

【0062】

次に、第３実施形態について説明する。なお、第３実施形態の情報処理システムの構成のうちの、第１実施形態又は第２実施形態と同様の構成となる部分については、同一符号を付して説明を省略する。

【0063】

図７に、第３実施形態の情報処理システム３１０を示す。図７に示されるように、情報処理システム３１０は、ユーザ端末１８と、情報処理装置３１４とを備えている。情報処理装置３１４は、通信部３６を更に備えている。

【0064】

情報処理システム３１０の情報処理装置３１４は、ユーザ端末１８に備えられたマイク１２により集音されたユーザの音声に基づいて、ユーザの睡眠時の呼吸状態を推定する。

【0065】

第３実施形態の情報処理システム３１０は、例えば、図８及び図９に示されるような状況下においての利用が想定される。

【0066】

図８の例では、医師等の医療従事者Ｈが情報処理装置３１４を操作しており、被験者であるユーザＵはユーザ端末１８を操作している。ユーザＵは、自らが操作するユーザ端末１８のマイク１２により自らの音声データ「ＸＸＸＸ」を集音する。そして、ユーザ端末１８は、インターネット等のネットワーク１９を介して音声データを情報処理装置３１４へ送信する。

【0067】

情報処理装置３１４は、ユーザ端末１８から送信されたユーザＵの音声データ「ＸＸＸ」を受信する。そして、情報処理装置３１４は、受信した音声データに基づいて、ユーザＵの睡眠時の呼吸状態を推定し、推定結果を情報処理装置３１４の表示部３１５へ出力する。医療従事者Ｈは、情報処理装置３１４の表示部３１５に表示された推定結果を参考にして、ユーザＵの睡眠時の呼吸状態がどのような状態であるのかを確認する。

【0068】

一方、図９の例では、被験者であるユーザＵは、自らが操作するユーザ端末１８のマイク１２により自らの音声データを集音する。そして、ユーザ端末１８は、インターネット等のネットワーク１９を介して音声データを情報処理装置３１４へ送信する。情報処理装置３１４は、ユーザ端末１８から送信されたユーザＵの音声データを受信する。そして、情報処理装置３１４は、受信した音声データに基づいて、ユーザＵの睡眠時の呼吸状態を推定し、推定結果をユーザ端末１８へ送信する。ユーザ端末１８は、情報処理装置１４から送信された推定結果を受信し、その推定結果を表示部（図示省略）へ表示する。ユーザは、推定結果を確認し、自らの睡眠時の呼吸状態がどのような状態である可能性が高いのかを確認する。

【0069】

なお、情報処理装置３１４は、上記図５と同様の情報処理ルーチンを実行する。

【0070】

以上説明したように、第３実施形態の情報処理システムは、クラウド上に設置された情報処理装置３１４を用いて、ユーザの睡眠時の呼吸状態を推定することができる。

【実施例0071】

次に、実施例１を説明する。実施例１では、第１実施形態において説明した手法の効果に関する実験結果を示す。

【0072】

実施例１では、収集した音声データから、無呼吸低呼吸指数（AHI:Apnea- Hypopnea Index）を予測するモデルを生成し、その精度を検証した。なお、本実施例のモデルは、AHI<20であるかAHI≧20であるかを推定するモデルである。

【0073】

実施例１では、「あ・い・う・え・お」「が・ぎ・ぐ・げ・ご」「ら・り・る・れ・ろ」「ぱ・ぴ・ぷ・ぺ・ぽ」を被験者が発声した際の音声データを利用する。また、所定個の従来特徴量を既知の手法を用いて選別する。また、既知の機械学習モデルの一例であるＬｉｇｈｔＧＢＭを用いて決定木を学習させ、１０分割交差検証により精度を確認する。

【0074】

図１０は、被験者が座位である状況下において「あ・い・う・え・お」を発声した際の音声データを用いて、AHI<20であるかAHI≧20であるかを推定した際の結果を表す図である。図１０に示されているように、正解率は89.9％であり、AUC（Area Under the Curve）は0.959である。

【0075】

図１１は、被験者が座位である状況下において「が・ぎ・ぐ・げ・ご」を発声した際の音声データを用いて、AHI<20であるかAHI≧20であるかを推定した際の結果を表す図である。図１１に示されているように、正解率は86.0％であり、AUC（Area Under the Curve）は0.940である。

【0076】

図１２は、被験者が座位である状況下において「ら・り・る・れ・ろ」を発声した際の音声データを用いて、AHI<20であるかAHI≧20であるかを推定した際の結果を表す図である。図１２に示されているように、正解率は85.5％であり、AUC（Area Under the Curve）は0.923である。

【0077】

図１３は、被験者が座位である状況下において「ぱ・ぴ・ぷ・ぺ・ぽ」を発声した際の音声データを用いて、AHI<20であるかAHI≧20であるかを推定した際の結果を表す図である。図１３に示されているように、正解率は86.0％であり、AUC（Area Under the Curve）は0.944である。

【0078】

図１４は、被験者が座位である状況下において上記の全フレーズを発声した際の音声データの組み合わせを用いて、AHI<20であるかAHI≧20であるかを推定した際の結果を表す図である。図１４に示されているように、正解率は98.3％であり、AUC（Area Under the Curve）は0.997である。

【0079】

図１０～図１４に示されている結果からも、第１実施形態の手法によれば、ユーザの睡眠時の呼吸状態を精度良く推定することができる、といえる。

【実施例0080】

次に、実施例２を説明する。実施例２では、第２実施形態の変形例において説明した手法の効果に関する実験結果を示す。

【0081】

実施例２では、被験者が仰臥位である状況下において発声した音声データから得られる音響特徴量を推定に用いる。なお、実施例２では、実施例１と同様に、無呼吸低呼吸指数（AHI:Apnea- Hypopnea Index）を予測するモデルを生成し、その精度を検証した。なお、本実施例のモデルは、AHI<20であるかAHI≧20であるかを推定するモデルである。

【0082】

実施例２では、「が・ぎ・ぐ・げ・ご」を被験者が発声した際の音声データを利用する。また、実施例２では、実施例１と同様に、所定個の従来特徴量を既知の手法を用いて選別する。また、既知の機械学習モデルの一例であるＬｉｇｈｔＧＢＭを用いて決定木を学習させ、１０分割交差検証により精度を確認する。

【0083】

図１５に、実施例２の結果を示す。図１５に示されている結果からも、第２実施形態の変形例の手法によれば、被験者が仰臥位である状況下において発声した音声データからのみから、ユーザの睡眠時の呼吸状態を精度良く推定することができる、といえる。

【実施例0084】

次に、実施例３を説明する。実施例３では、第２実施形態において説明した手法の効果に関する実験結果を示す。

【0085】

実施例３では、被験者が座位である状況下において発声した音声データから得られる音響特徴量と、被験者が仰臥位である状況下において発声した音声データから得られる音響特徴量の差分を計算し、その差分を推定に用いる。なお、実施例３では、実施例１及び実施例２と同様に、無呼吸低呼吸指数（AHI:Apnea- Hypopnea Index）を予測するモデルを生成し、その精度を検証した。なお、本実施例のモデルは、AHI<20であるかAHI≧20であるかを推定するモデルである。

【0086】

実施例３では、「あ・い・う・え・お」「が・ぎ・ぐ・げ・ご」「ぱ・ぴ・ぷ・ぺ・ぽ」「ら・り・る・れ・ろ」を被験者が発声した際の音声データを利用する。また、実施例３では、実施例１及び実施例２と同様に、所定個の従来特徴量を既知の手法を用いて選別する。また、既知の機械学習モデルの一例であるＬｉｇｈｔＧＢＭを用いて決定木を学習させ、１０分割交差検証により精度を確認する。

【0087】

図１６～図１８に、実施例３の結果を示す。図１６～図１８に示されている結果からも、第２実施形態の手法によれば、ユーザの睡眠時の呼吸状態を精度良く推定することができる、といえる。

【0088】

なお、上記各実施例で開示されていないフレーズ（例えば、「た・ち・つ・て・と・だ・ぢ・づ・で・ど・な・に・ぬ・ね・の」又は「ば・び・ぶ・べ・ぼ・ま・み・む・め・も」等）を発声する発声タスクも、ユーザの睡眠時の呼吸状態を精度良く推定することができると考えられる。

【0089】

また、長母音である「あー」「いー」「うー」「えー」「おー」を発声する発声タスクも、ユーザの睡眠時の呼吸状態を精度良く推定することができると考えられる。

【0090】

なお、本開示の技術は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

【0091】

例えば、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

【0092】

なお、上記実施形態でＣＰＵがソフトウェア（プログラム）を読み込んで実行した処理を、ＣＰＵ以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等の製造後に回路構成を変更可能なＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、及びＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。または、プロセッサとしては、ＧＰＧＰＵ（Ｇｅｎｅｒａｌ－ｐｕｒｐｏｓｅｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）を用いてもよい。また、各処理を、これらの各種のプロセッサのうちの１つで実行してもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡ、及びＣＰＵとＦＰＧＡとの組み合わせ等）で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。

【0093】

また、上記各実施形態では、プログラムがストレージに予め記憶（インストール）されている態様を説明したが、これに限定されない。プログラムは、ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＤＶＤ－ＲＯＭ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、及びＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリ等の非一時的（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ）記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。

【0094】

また、本実施形態の各処理を、汎用演算処理装置及び記憶装置等を備えたコンピュータ又はサーバ等により構成して、各処理がプログラムによって実行されるものとしてもよい。このプログラムは記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。もちろん、その他いかなる構成要素についても、単一のコンピュータやサーバによって実現しなければならないものではなく、ネットワークによって接続された複数のコンピュータに分散して実現してもよい。

【0095】

本明細書に記載された全ての文献、特許出願、および技術規格は、個々の文献、特許出願、および技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。

【0096】

（付記）
以下、本開示の態様について付記する。

【0097】

（付記１）
ユーザが発した音声データを取得する取得部と、
前記取得部により取得された前記音声データから音響特徴量を抽出する抽出部と、
前記抽出部により得られた音響特徴量に基づいて、前記ユーザの睡眠時の呼吸状態に関する情報を推定する推定部と、
前記推定部により推定された前記呼吸状態に関する情報を出力する出力部と、
を含み、
前記音声データは、「あ・い・う・え・お」の少なくとも一部を発声する発声タスク、「が・ぎ・ぐ・げ・ご」又は「か・き・く・け・こ」の少なくとも一部を発声する発声タスク、「ら・り・る・れ・ろ」又は「た・ち・つ・て・と・だ・ぢ・づ・で・ど・な・に・ぬ・ね・の」の少なくとも一部を発声する発声タスク、「ぱ・ぴ・ぷ・ぺ・ぽ」又は「ば・び・ぶ・べ・ぼ・ま・み・む・め・も」の少なくとも一部を発声する発声タスク、及び長母音を発声する発声タスクの少なくとも１つの発声タスクを、睡眠時とは異なる時に前記ユーザが実行することにより得られた音声データである、
情報処理装置。

【0098】

（付記２）
前記取得部は、前記ユーザが座位である状況下において発声した前記音声データ及び前記ユーザが仰臥位である状況下において発声した前記音声データの少なくとも一方を取得し、
前記推定部は、前記音声データに基づいて、前記睡眠時の呼吸状態に関する情報を推定する、
付記１に記載の情報処理装置。

【0099】

（付記３）
前記推定部は、前記ユーザが座位である状況下において発声した前記音声データと前記ユーザが仰臥位である状況下において発声した前記音声データとの間の変化を解析し、前記変化の解析結果に基づいて、前記睡眠時の呼吸状態に関する情報を推定する、
付記１又は付記２に記載の情報処理装置。

【0100】

（付記４）
前記推定部は、予め機械学習又は深層学習された学習済みモデル又は予め生成された統計モデルに対して、前記音響特徴量を入力し、前記学習済みモデル又は前記統計モデルから出力されるデータを、前記睡眠時の呼吸状態に関する情報として推定する、
付記１～付記３の何れか１項に記載の情報処理装置。

【0101】

（付記５）
前記「あ・い・う・え・お」の少なくとも一部を発声する発声タスクは、気道全体を評価するための発声タスクであり、
前記「が・ぎ・ぐ・げ・ご」又は「か・き・く・け・こ」の少なくとも一部を発声する発声タスクは、奥舌から上咽頭部分を評価するための発声タスクであり、
前記「ら・り・る・れ・ろ」又は「た・ち・つ・て・と・だ・ぢ・づ・で・ど・な・に・ぬ・ね・の」の少なくとも一部を発声する発声タスクは、舌尖から硬口蓋を含めた口腔を評価するための発声タスクであり、
前記「ぱ・ぴ・ぷ・ぺ・ぽ」又は「ば・び・ぶ・べ・ぼ・ま・み・む・め・も」の少なくとも一部を発声する発声タスクは、口唇を評価するための発声タスクである、
付記１又は付記２に記載の情報処理装置。

【0102】

（付記６）
マイクを備えるユーザ端末と、付記１～付記５の何れか１項に記載の情報処理装置とを含む情報処理システムであって、
前記ユーザ端末は、前記マイクにより取得された前記音声データを前記情報処理装置へ送信し、
前記情報処理装置の前記取得部は、前記ユーザ端末から送信された前記音声データを取得し、
前記情報処理装置の通信部は、前記推定部により推定された推定結果をユーザ端末へ送信し、
前記ユーザ端末は、前記情報処理装置から送信された前記推定結果を受信する、
情報処理システム。

【0103】

（付記７）
ユーザが発した音声データを取得し、
取得された前記音声データから音響特徴量を抽出し、
前記音響特徴量に基づいて、前記ユーザの睡眠時の呼吸状態に関する情報を推定し、
推定された前記呼吸状態に関する情報を出力し、
前記音声データは、「あ・い・う・え・お」の少なくとも一部を発声する発声タスク、「が・ぎ・ぐ・げ・ご」又は「か・き・く・け・こ」の少なくとも一部を発声する発声タスク、「ら・り・る・れ・ろ」又は「た・ち・つ・て・と・だ・ぢ・づ・で・ど・な・に・ぬ・ね・の」の少なくとも一部を発声する発声タスク、「ぱ・ぴ・ぷ・ぺ・ぽ」又は「ば・び・ぶ・べ・ぼ・ま・み・む・め・も」の少なくとも一部を発声する発声タスク、及び長母音を発声する発声タスクの少なくとも１つの発声タスクを、睡眠時とは異なる時に前記ユーザが実行することにより得られた音声データである、
処理をコンピュータが実行する情報処理方法。

【0104】

（付記８）
ユーザが発した音声データを取得し、
取得された前記音声データから音響特徴量を抽出し、
前記音響特徴量に基づいて、前記ユーザの睡眠時の呼吸状態に関する情報を推定し、
推定された前記呼吸状態に関する情報を出力し、
前記音声データは、「あ・い・う・え・お」の少なくとも一部を発声する発声タスク、「が・ぎ・ぐ・げ・ご」又は「か・き・く・け・こ」の少なくとも一部を発声する発声タスク、「ら・り・る・れ・ろ」又は「た・ち・つ・て・と・だ・ぢ・づ・で・ど・な・に・ぬ・ね・の」の少なくとも一部を発声する発声タスク、「ぱ・ぴ・ぷ・ぺ・ぽ」又は「ば・び・ぶ・べ・ぼ・ま・み・む・め・も」の少なくとも一部を発声する発声タスク、及び長母音を発声する発声タスクの少なくとも１つの発声タスクを、睡眠時とは異なる時に前記ユーザが実行することにより得られた音声データである、
処理をコンピュータに実行させるための情報処理プログラム。