IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人大阪大学の特許一覧

<>
  • 特開-情報処理装置および推定方法 図1
  • 特開-情報処理装置および推定方法 図2
  • 特開-情報処理装置および推定方法 図3
  • 特開-情報処理装置および推定方法 図4
  • 特開-情報処理装置および推定方法 図5
  • 特開-情報処理装置および推定方法 図6
  • 特開-情報処理装置および推定方法 図7
  • 特開-情報処理装置および推定方法 図8
  • 特開-情報処理装置および推定方法 図9
  • 特開-情報処理装置および推定方法 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024171848
(43)【公開日】2024-12-12
(54)【発明の名称】情報処理装置および推定方法
(51)【国際特許分類】
   G10L 25/66 20130101AFI20241205BHJP
   G06N 20/00 20190101ALI20241205BHJP
   G10L 25/93 20130101ALI20241205BHJP
   G10L 25/90 20130101ALI20241205BHJP
   G10L 25/24 20130101ALI20241205BHJP
   G10L 25/21 20130101ALI20241205BHJP
   A61B 5/08 20060101ALI20241205BHJP
   A61B 5/00 20060101ALI20241205BHJP
   G10L 25/30 20130101ALN20241205BHJP
【FI】
G10L25/66
G06N20/00
G10L25/93
G10L25/90
G10L25/24
G10L25/21
A61B5/08
A61B5/00 101R
G10L25/30
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2023089102
(22)【出願日】2023-05-30
(71)【出願人】
【識別番号】504176911
【氏名又は名称】国立大学法人大阪大学
(74)【代理人】
【識別番号】110000338
【氏名又は名称】弁理士法人 HARAKENZO WORLD PATENT & TRADEMARK
(72)【発明者】
【氏名】野▲崎▼ 一徳
(72)【発明者】
【氏名】藤井 菜美
(72)【発明者】
【氏名】野原 幹司
(72)【発明者】
【氏名】阪井 丘芳
【テーマコード(参考)】
4C038
4C117
【Fターム(参考)】
4C038SV05
4C038SX07
4C117XA01
4C117XB06
4C117XE28
4C117XE29
4C117XE30
4C117XJ12
4C117XJ31
(57)【要約】
【課題】咳嗽が湿性咳嗽であるか乾性咳嗽であるかを高精度に推定する。
【解決手段】情報処理装置(1)は、対象者の咳嗽に伴う咳嗽音の対象音声波形から得た少なくとも1つのパラメータを含む入力データを学習済モデル(39)に入力して前記対象者の前記咳嗽が湿性咳嗽であるか乾性咳嗽であるかを示す推定結果を出力する。学習済モデル(39)は、標本者の咳嗽に伴う咳嗽音の音声波形から得た前記少なくとも1つのパラメータと、前記標本者の咳嗽が湿性咳嗽であるか乾性咳嗽であるかを医療従事者が判定した判定結果とを含む教師データ(38)を用いた機械学習により生成される。
【選択図】図2
【特許請求の範囲】
【請求項1】
対象者の咳嗽に伴う咳嗽音の対象音声波形から得た少なくとも1つのパラメータを含む入力データを、標本者の咳嗽に伴う咳嗽音の音声波形から得た前記少なくとも1つのパラメータと、前記標本者の咳嗽が湿性咳嗽であるか乾性咳嗽であるかを医療従事者が判定した判定結果とを含む教師データを用いた機械学習により生成された学習済モデルに、入力して前記対象者の前記咳嗽が湿性咳嗽であるか乾性咳嗽であるかを示す推定結果を出力する推定部を備え、
前記パラメータは、咳嗽音の音声波形から得られる、(1)非周期的な音声成分に関する第1パラメータ、(2)声帯の振動による音声成分の有無に関する第2パラメータ、(3)声帯の振動による音声成分の周波数に関する第3パラメータ、または、(4)メル周波数ケプストラム係数を示す第4パラメータである、情報処理装置。
【請求項2】
前記対象音声波形から前記パラメータを生成する生成部を備え、
前記生成部は、前記対象音声波形から得られる、前記第1パラメータ、前記第2パラメータ、前記第3パラメータおよび前記第4パラメータのうちの少なくとも2つのパラメータを含めて、前記入力データを生成する、請求項1に記載の情報処理装置。
【請求項3】
前記生成部は、
前記入力データに含まれる前記少なくとも2つのパラメータをそれぞれ画像化する第1処理部と、
前記第1処理部が画像化した画像を所定の方向に連結することにより連結画像を生成する第2処理部と、を備え、
前記推定部は、前記連結画像を前記入力データとして前記学習済モデルに入力する、請求項2に記載の情報処理装置。
【請求項4】
前記推定部は、前記学習済モデルが前記推定結果を出力するために着目した着目領域を前記連結画像上に表した参考画像をさらに出力する、請求項3に記載の情報処理装置。
【請求項5】
前記第1パラメータは、咳嗽音の音声波形に含まれる非周期的な音声成分のパワーと前記音声波形の音声成分のパワーとの比を帯域毎に示す、請求項1に記載の情報処理装置。
【請求項6】
前記第3パラメータは、咳嗽音における声帯の振動による音声成分の基本周波数を示す、請求項1に記載の情報処理装置。
【請求項7】
前記第4パラメータは、咳嗽音の音声波形をフーリエ変換して得られる第1スペクトルをメル周波数尺度に伸縮した第2スペクトルをフーリエ変換して得られるパラメータである、請求項1に記載の情報処理装置。
【請求項8】
対象者の咳嗽に伴う咳嗽音の対象音声波形から得た少なくとも1つのパラメータを含む入力データを、標本者の咳嗽に伴う咳嗽音の音声波形から得た前記少なくとも1つのパラメータと、前記標本者の咳嗽が湿性咳嗽であるか乾性咳嗽であるかを医療従事者が判定した判定結果とを含む教師データを用いた機械学習により生成された学習済モデルに、入力して前記対象者の前記咳嗽が湿性咳嗽であるか乾性咳嗽であるかを示す推定結果を出力する推定ステップを含み、
前記パラメータは、咳嗽音の音声波形から得られる、(1)非周期的な音声成分に関する第1パラメータ、(2)声帯の振動による音声成分の有無に関する第2パラメータ、(3)声帯の振動による音声成分の周波数に関する第3パラメータ、または、(4)メル周波数ケプストラム係数を示す第4パラメータである、推定方法。
【請求項9】
前記対象音声波形から前記パラメータを生成する生成ステップを含み、
前記生成ステップにおいて、前記対象音声波形から得られる、前記第1パラメータ、前記第2パラメータ、前記第3パラメータおよび前記第4パラメータのうちの少なくとも2つのパラメータを含めて、前記入力データを生成する、請求項8に記載の推定方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、咳嗽が湿性咳嗽であるか乾性咳嗽であるかを推定する情報処理装置などに関する。
【背景技術】
【0002】
咳嗽が湿性咳嗽であるか乾性咳嗽であるかは、呼吸器疾患の診断において需要な事項である。例えば、咳嗽が湿性咳嗽であるか乾性咳嗽であるかを判定することにより、呼吸器疾患のスクリーニング、誤嚥性肺炎の発症の予測などを適切に行うことができる。
【0003】
しかしながら、咳嗽が湿性咳嗽であるか乾性咳嗽であるかの判定は、従来、医療従事者の主観で行われている。そのため、咳嗽が湿性咳嗽であるか乾性咳嗽であるかの判定は、医療従事者の経験の多寡、専門性に左右されてしまう。また、外来診察の場合には、家族に咳嗽について問診で伺うケースも多いが、家族による咳嗽の判断の信頼性は高くはない。
【0004】
上記課題を解決するための技術として、咳嗽が湿性咳嗽であるか乾性咳嗽であるかを高精度に分類(推定)するための技術が知られている。例えば、非特許文献1には、ロジスティック回帰モデルを用いた機械学習により小児の咳嗽が湿性咳嗽であるか乾性であるかを分類する技術が開示されている。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】Swarnkar V et al., Biomed Eng. 2013 May;41(5):1016-28. doi: 10.1007/s10439-013-0741-6. Epub 2013 Jan 25.
【発明の概要】
【発明が解決しようとする課題】
【0006】
咳嗽が湿性咳嗽であるか乾性咳嗽であるかをより高精度に推定できる技術が望まれている。
【0007】
本発明の一態様は、咳嗽が湿性咳嗽であるか乾性咳嗽であるかを高精度に推定できる情報処理装置および推定方法を実現することを目的とする。
【課題を解決するための手段】
【0008】
上記の課題を解決するために、本発明の一態様に係る情報処理は、対象者の咳嗽に伴う咳嗽音の対象音声波形から得た少なくとも1つのパラメータを含む入力データを、標本者の咳嗽に伴う咳嗽音の音声波形から得た前記少なくとも1つのパラメータと、前記標本者の咳嗽が湿性咳嗽であるか乾性咳嗽であるかを医療従事者が判定した判定結果とを含む教師データを用いた機械学習により生成された学習済モデルに、入力して前記対象者の前記咳嗽が湿性咳嗽であるか乾性咳嗽であるかを示す推定結果を出力する推定部を備え、前記パラメータは、咳嗽音の音声波形から得られる、(1)非周期的な音声成分に関する第1パラメータ、(2)声帯の振動による音声成分の有無に関する第2パラメータ、(3)声帯の振動による音声成分の周波数に関する第3パラメータ、または、(4)メル周波数ケプストラム係数を示す第4パラメータである。
【0009】
上記の課題を解決するために、本発明の一態様に係る推定方法は、対象者の咳嗽に伴う咳嗽音の対象音声波形から得た少なくとも1つのパラメータを含む入力データを、標本者の咳嗽に伴う咳嗽音の音声波形から得た前記少なくとも1つのパラメータと、前記標本者の咳嗽が湿性咳嗽であるか乾性咳嗽であるかを医療従事者が判定した判定結果とを含む教師データを用いた機械学習により生成された学習済モデルに、入力して前記対象者の前記咳嗽が湿性咳嗽であるか乾性咳嗽であるかを示す推定結果を出力する推定ステップを含み、前記パラメータは、咳嗽音の音声波形から得られる、(1)非周期的な音声成分に関する第1パラメータ、(2)声帯の振動による音声成分の有無に関する第2パラメータ、(3)声帯の振動による音声成分の周波数に関する第3パラメータ、または、(4)メル周波数ケプストラム係数を示す第4パラメータである。
【0010】
本発明の各態様に係る情報処理装置は、コンピュータによって実現してもよく、この場合には、コンピュータを前記情報処理装置が備える各部(ソフトウェア要素)として動作させることにより前記情報処理装置をコンピュータにて実現させる情報処理装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
【発明の効果】
【0011】
本発明の一態様によれば、咳嗽が湿性咳嗽であるか乾性咳嗽であるかを高精度に推定できる。
【図面の簡単な説明】
【0012】
図1】本発明の実施形態1に係る情報処理システムの構成例を示す図である。
図2】本発明の実施形態1に係る情報処理装置の要部構成を示すブロック図である。
図3】第1パラメータ画像の一例を示す図である。
図4】第2パラメータ画像の一例を示す図である。
図5】第3パラメータ画像の一例を示す図である。
図6】第4パラメータ画像の一例を示す図である。
図7】連結画像の一例を示す図である。
図8】上記情報処理装置が行う処理の流れの一例を示すフローチャートである。
図9】本発明の実施形態1に係る入力データ生成部が行う処理の流れの一例を示すフローチャートである。
図10】本実施例において作成した推定モデルの性能評価を示すグラフである。
【発明を実施するための形態】
【0013】
〔実施形態1〕
以下、本発明の一実施形態について、詳細に説明する。以下に、本実施形態における情報処理装置1、および、情報処理装置1が適用される情報処理システム100の構成について詳細に説明する。
【0014】
(情報処理システム100の構成)
まず、本開示の一態様に係る情報処理システム100の構成について、図1を用いて説明する。図1は、情報処理システム100の構成例を示す図である。本開示の一態様に係る情報処理システム100は、情報処理装置1を備えている。情報処理装置1は、対象者の咳嗽に伴う咳嗽音の音声波形から生成したパラメータを学習済モデルに入力して対象者の咳嗽が湿性咳嗽であるか乾性咳嗽であるかを示す推定結果を出力する。以降では、「対象者の咳嗽に伴う咳嗽音」を「対象者の咳嗽音」とも称する。
【0015】
情報処理装置1は、図1に示す例のように、通信ネットワーク9を介して複数の医療施設8の各々に配設されたLANと通信可能に接続されていてもよい。各医療施設8内のLANには、1以上の端末装置3の他、電子カルテ管理装置2が通信可能に接続されていてもよい。
【0016】
電子カルテ管理装置2は、対象者の電子カルテを管理する。電子カルテ管理装置2は、対象者の電子カルテ情報に、対象者の咳嗽音を録音した録音データを対応付けて管理している。以降では、咳嗽音を録音した録音データを咳嗽音データとも称する。
【0017】
端末装置3は、情報処理システム100における出力部として機能し、情報処理装置1から受信した情報を提示してもよい。端末装置3は、例えば、パーソナルコンピュータ、タブレット端末、スマートフォン等であってよい。端末装置3は、他装置とのデータ送受信を行う通信部、キーボードおよびマイク等の入力部、情報処理装置1から送信される情報を表示可能な表示部、スピーカ等の出力部等を有している。
【0018】
情報処理装置1は、いずれかの医療施設8から対象者の咳嗽が湿性咳嗽であるか乾性咳嗽であるかを推定するよう要求を受けると、当該医療施設8の電子カルテ管理装置2から咳嗽音データ32を取得し、当該咳嗽音データ32に基づいて対象者の咳嗽が湿性咳嗽であるか乾性咳嗽であるかを推定する。情報処理装置1は、推定結果を当該医療施設8の端末装置3に出力してもよい。本開示の一態様の情報処理システムでは、情報処理装置1、電子カルテ管理装置2および端末装置3が1つの医療施設8に設けられてもよい。
【0019】
(情報処理装置1の構成)
図2は、情報処理装置1の要部構成を示すブロック図である。情報処理装置1は、コンピュータであってもよい。情報処理装置1は、図2に示すように、制御部10と、記憶部30と、情報処理装置1に対する入力を受け付ける入力部50と、各種の情報を出力するための出力部60とを備えている。入力部50は、例えば、キーボード、マウス、マイクなどである。出力部60は、例えば、表示装置、プリンタなどである。
【0020】
記憶部30は、制御部10が使用する各種データが記憶されている。また、記憶部30には、情報処理装置1の各種制御を行うためのプログラムである制御プログラム31が記憶されている。
【0021】
制御部10は、情報処理装置1の各部を統括的に制御する。制御部10は、咳嗽音データ取得部11と、入力データ生成部20(生成部)と、モデル生成部12と、推定部13とを備えている。
【0022】
咳嗽音データ取得部11は、対象者の咳嗽に伴う咳嗽音のデータを取得する。本実施形態では、咳嗽音データ取得部11は、通信ネットワーク9を介して医療施設8の電子カルテ管理装置2から咳嗽音データ32を取得する。咳嗽音データ取得部11は、取得した対象者の咳嗽音データ32を記憶部30に記憶させる。
【0023】
入力データ生成部20は、後述する学習済モデル39に入力する入力データを生成する。入力データ生成部20は、第1パラメータ生成部21と、第2パラメータ生成部22と、第3パラメータ生成部23と、第4パラメータ生成部24と、パラメータ画像生成部25(第1処理部)と、連結画像生成部26(第2処理部)とを備えている。
【0024】
第1パラメータ生成部21は、対象者の咳嗽音の音声波形から第1パラメータ33を生成する。以降では、対象者の咳嗽音の音声波形を対象音声波形とも称する。第1パラメータ33は、咳嗽音の音声波形から得られる、非周期的な音声成分に関するパラメータである。第1パラメータ33は、例えば、咳嗽音の音声波形に含まれる非周期的な音声成分のパワーと、音声波形の音声成分のパワーとの比を帯域毎に示す帯域非周期性指標であってよい。帯域非周期性指標は、従来公知の方法により生成することができる。第1パラメータ生成部21は、記憶部30から読み出した対象者の咳嗽音データ32から第1パラメータ33を生成する。第1パラメータ生成部21は、生成した第1パラメータ33を記憶部30に記憶させる。
【0025】
第2パラメータ生成部22は、対象音声波形から第2パラメータ34を生成する。第2パラメータ34は、声帯の振動による音声成分の有無を示すパラメータである。第2パラメータ生成部22は、記憶部30から読み出した対象者の咳嗽音データ32から第2パラメータ34を生成する。第2パラメータ生成部22は、生成した第2パラメータ34を記憶部30に記憶させる。第2パラメータ生成部22は、声帯の振動による音声成分の有無を示す値に対して適切な窓関数をかけることにより、1次動的特徴量および/または2次動的特徴量を算出し、導出した1次動的特徴量および/または2次動的特徴量を含めて第2パラメータ34を生成してもよい。
【0026】
第3パラメータ生成部23は、対象音声波形から第3パラメータ35を生成する。第3パラメータ35は、声帯の振動による音声成分の周波数に関するパラメータである。第3パラメータ35は、例えば、咳嗽音における声帯の振動による音声成分の基本周波数を示すパラメータであってよく、より詳細には、咳嗽音における声帯の振動による音声成分の、時間軸に対する基本周波数の対数値であってもよい。第3パラメータ生成部23は、記憶部30から読み出した対象者の咳嗽音データ32から第3パラメータ35を生成する。第3パラメータ生成部23は、生成した第3パラメータ35を記憶部30に記憶させる。第3パラメータ生成部23は、声帯の振動による音声成分の周波数に対して適切な窓関数をかけることにより、1次動的特徴量および/または2次動的特徴量を算出し、導出した1次動的特徴量および/または2次動的特徴量を含めて第3パラメータ35を生成してもよい。
【0027】
第4パラメータ生成部24は、対象音声波形から第4パラメータ36を生成する。第4パラメータ36は、メル周波数ケプストラム係数を示すパラメータである。第4パラメータ36は、例えば、咳嗽音の音声波形をフーリエ変換して得られる第1スペクトルをメル周波数尺度に伸縮した第2スペクトルをフーリエ変換して得られるパラメータであってもよい。当該パラメータは、従来公知の方法により生成することができる。第4パラメータ生成部24は、記憶部30から読み出した対象者の咳嗽音データ32から第4パラメータ36を生成する。第4パラメータ生成部24は、生成した第4パラメータ36を記憶部30に記憶させる。
【0028】
パラメータ画像生成部25は、第1パラメータ生成部21、第2パラメータ生成部22、第3パラメータ生成部23、および、第4パラメータ生成部24がそれぞれ生成した、第1パラメータ33、第2パラメータ34、第3パラメータ35、および、第4パラメータ36を、それぞれ画像化する。具体的には、パラメータ画像生成部25は、横軸を時間とし、縦軸を各パラメータとする画像(以下では、パラメータ画像と称する)を、各パラメータのそれぞれについて生成する。以下では、パラメータ画像生成部25が生成した、第1パラメータ33、第2パラメータ34、第3パラメータ35、および、第4パラメータ36のそれぞれについてのパラメータ画像を、第1パラメータ画像、第2パラメータ画像、第3パラメータ画像、および、第4パラメータ画像とそれぞれ称して説明する。
【0029】
図3図6に、第1パラメータ画像、第2パラメータ画像、第3パラメータ画像、および、第4パラメータ画像の一例をそれぞれ示す。図3は、第1パラメータが上記帯域非周期性指標である場合における第1パラメータ画像の一例を示す図である。図4は、第2パラメータ画像の一例を示す図である。図5は、第3パラメータが咳嗽音における声帯の振動による音声成分の、時間軸に対する基本周波数の対数値である場合における第3パラメータ画像の一例を示す図である。図4は、第4パラメータが咳嗽音の音声波形をフーリエ変換して得られる第1スペクトルをメル周波数尺度に伸縮した第2スペクトルをフーリエ変換して得られるパラメータである場合における第4パラメータ画像の一例を示す図である。
【0030】
連結画像生成部26は、パラメータ画像生成部25が生成した、第1パラメータ画像、第2パラメータ画像、第3パラメータ画像、および、第4パラメータ画像を、所定の方向に連結することにより連結画像37を生成する。連結画像生成部26が生成した連結画像37は、後述する推定部13が学習済モデル39に入力する入力データとして用いられる。本実施形態における連結画像生成部26は、横軸を時間とする共通軸として、上記所定の方向としての縦方向(縦軸方向)に各パラメータ画像を連結することにより連結画像37を生成する。換言すれば、連結画像生成部26は、時間軸が一致した状態に各パラメータ画像を連結することにより連結画像37を生成する。ただし、第1パラメータ画像、第2パラメータ画像、第3パラメータ画像、および、第4パラメータ画像を連結する方向は上記の方向に限られるものではなく、例えば、横軸方向(横方向)に連結してもよい。第1パラメータ画像、第2パラメータ画像、第3パラメータ画像、および、第4パラメータ画像を連結する順序は特に制限されるものではない。連結画像生成部26は、生成した連結画像37を記憶部30に記憶させる。
【0031】
図7は、連結画像37の一例を示す図である。図7に示す連結画像37は、図7における下から上に向かう方向に、第3パラメータ画像、第2パラメータ画像、第1パラメータ画像、第4パラメータ画像の順にパラメータ画像を連結させた画像である。図7に示すように、連結画像37は、連結画像37が正方形になるように上下方向に伸縮させた画像であってよい。図7に示す連結画像37では、第4パラメータ画像が占める割合が大きくなっている。これは、第4パラメータとしてのメル周波数ケプストラム係数のメルケプストラム次元数が60次元であり、第1パラメータの5次元、第2パラメータおよび第3パラメータの2次元よりも大きいためである。なお、図7に示した連結画像37に示す第1パラメータ、第2パラメータ、第3パラメータおよび第4パラメータの各次元は一例にすぎない。第1パラメータ、第2パラメータ、第3パラメータおよび第4パラメータの各次元は任意の次元で示され得る。
【0032】
モデル生成部12は、後述する推定部13が推定する際に用いる学習済モデル39を生成する。本実施形態では、推定を行う際に用いるモデルとして、ニューラルネットワーク、より詳細には畳み込みニューラルネットワークを用いた例について説明する。ただし、本発明において推定を行う際に用いるモデルは、他のモデルであってもよい。モデル生成部12は、未学習のニューラルネットワークに対して学習処理(深層学習処理)を実行することにより、学習済モデル39を生成する。モデル生成部12は、生成した学習済モデル39を記憶部30に記憶させる。学習処理に用いられる教師データ38は、下記の説明変数および目的変数を含んでいる。教師データ38は、予め記憶部30に記憶されていてもよい。
【0033】
上記説明変数は、標本者の咳嗽に伴う音声波形(以下では、標本音声波形とも称する)から得たパラメータであって、連結画像生成部26が生成する連結画像と同様の連結画像である。すなわち、説明変数は、入力データ生成部20が連結画像37を生成するために用いたパラメータと同じパラメータを用いて生成された連結画像である。上記標本者は、特に限定されるものではない。標本者には、対象者が含まれていてもよい。教師データ38に含まれる連結画像は、入力データ生成部20が連結画像37を生成する処理と同様の処理を標本音声波形に対して行うことにより生成することができる。上記説明変数は、複数の標本音声波形のそれぞれについてそれぞれ生成した連結画像を含む。教師データは、同一の標本者から得られた複数の標本音声波形に基づいてそれぞれ生成された複数の連結画像を含んでもよい。
【0034】
上記目的変数は、標本者の咳嗽が湿性咳嗽であるか乾性咳嗽であるかについて判定した判定結果を含む。当該判定結果は、呼吸器内科の診療の経験が豊富な医療従事者(例えば、20年以上の診療経験がある医療従事者)によって判定されたものである。
【0035】
推定部13は、連結画像生成部26が生成した連結画像37を、モデル生成部12が生成した学習済モデル39に入力して、対象者の咳嗽が湿性咳嗽であるか乾性咳嗽であるかを示す推定結果を出力する。推定部13は、出力部60を介して推定結果を出力してもよい。あるいは、推定部13は、推定の要求をした医療施設8の端末装置3に通信ネットワーク9を介して推定結果を出力してもよい。
【0036】
推定部13は、学習済モデルが推定結果を出力するために着目した着目領域を連結画像37上に表した参考画像をさらに出力してもよい。例えば、推定部13は、Grad-CAM(Gradient-weighted Class Activation Mapping)法を用いて生成された着目領域を示す画像を、連結画像上に重畳させることにより生成した参考画像を出力してもよい。Grad-CAM法は、畳み込みニューラルネットワークの最後の畳み込み層により抽出された特徴量に着目して、学習済モデルが画像のどの部分を見て判定しているのかを可視化する技術である。推定部13が、推定結果とともに参考画像を出力することにより、学習済モデル39が推定するのに、連結画像のどの部分に基づいて推定を行ったのかをユーザが認識することができる。
【0037】
(情報処理装置1が行う処理)
以下、情報処理装置1が行う処理の流れについて、図8および図9を用いて説明する。図8は、情報処理装置1が行う処理の流れの一例を示すフローチャートである。
【0038】
図8に示すように、情報処理装置1が行う処理(推定方法)では、まず、咳嗽音データ取得部11が、対象者の咳嗽音データを取得する(ステップS1)。
【0039】
次に、入力データ生成部20が学習済モデル39に入力する入力データを生成する(ステップS2、生成ステップ)。ステップS2の具体的な処理について図9を用いて説明する。図9は、入力データ生成部20が行う処理の流れの一例を示すフローチャートである。
【0040】
図9に示すように、入力データ生成部20が行う処理では、まず、第1パラメータ生成部21、第2パラメータ生成部22、第3パラメータ生成部23、および、第4パラメータ生成部24が、対象者の咳嗽音の音声波形から、第1パラメータ33、第2パラメータ34、第3パラメータ35、および、第4パラメータ36をそれぞれ生成する(ステップS21)。
【0041】
次に、パラメータ画像生成部25が、ステップS21において生成した、第1パラメータ33、第2パラメータ34、第3パラメータ35、および、第4パラメータ36をそれぞれ画像化し、第1パラメータ画像、第2パラメータ画像、第3パラメータ画像、および、第4パラメータ画像を生成する(ステップS22)。
【0042】
次に、連結画像生成部26が、ステップS22で生成した、第1パラメータ画像、第2パラメータ画像、第3パラメータ画像、および、第4パラメータ画像を時間軸が一致した状態に連結することにより連結画像37を生成する(ステップS23)。
【0043】
次に、図8に戻り、推定部13が、連結画像生成部26が生成した連結画像37を、予めモデル生成部12が生成した学習済モデル39に入力して、対象者の咳嗽が湿性咳嗽であるか乾性咳嗽であるかを示す推定結果を出力する(ステップS3、推定ステップ)。学習済モデル39の生成は、ステップS23よりも前であればどのタイミングで生成されてもよい。例えば、学習済モデル39は、ステップS1よりも前に生成されていてもよいし、ステップS22とステップS23との間において生成されてもよい。
【0044】
以上のように、本実施形態における情報処理装置1は、4つのパラメータ(第1パラメータ33、第2パラメータ34、第3パラメータ35、および、第4パラメータ36)を含む入力データを学習済モデル39に入力することにより、対象者の咳嗽が湿性咳嗽であるか乾性咳嗽であるかを示す推定結果を出力する。本発明者らは、このように推定することにより、高精度に推定できることを見出した。
【0045】
なお、本発明の情報処理装置1は、入力データとして上記の4つのパラメータを用いる構成に限られるものではない。本発明の情報処理装置1は、入力データとして上記の4つのパラメータのうち少なくとも1つのパラメータを含む入力データを学習済モデル39に入力して対象者の咳嗽が湿性咳嗽であるか乾性咳嗽であるかを示す推定結果を出力してもよい。この場合、学習済モデル39は、標本者の咳嗽音の音声波形から得た上記少なくとも1つのパラメータと、標本者の咳嗽が湿性咳嗽であるか乾性咳嗽であるかを医療従事者が判定した判定結果とを含む教師データを用いた機械学習により生成することができる。
【0046】
本発明の一態様の情報処理装置1では、入力データとして上記4つのパラメータのうち少なくとも2つのパラメータを含む入力データを学習済モデル39に入力してもよい。これにより、推定精度を向上させることができる。この場合、本実施形態において説明したように、上記少なくとも2つのパラメータを画像化した画像を所定の方向に連結した連結画像37を入力データとして学習済モデル39に入力してもよい。これにより、推定精度をさらに向上させることができる。
【0047】
本発明の一態様の情報処理装置1では、情報処理装置1によって推定した推定結果が誤った判定であることが判明した場合、当該情報を情報処理装置1にフィードバックしてもよい。この場合、モデル生成部12は、誤って推定した咳嗽の音声波形および当該咳嗽が湿性咳嗽であるか乾性咳嗽であるかを示す情報を教師データに含めて再度学習済モデル39を生成してもよい。これにより、学習済モデル39の推定精度を向上させることができる。
【0048】
<変形例>
本発明の一態様では、情報処理装置1は、医療従事者以外のユーザによって使用されてもよい。例えば、情報処理装置1の制御部10が有する機能を、スマートフォン、タブレットなどの端末装置にインストールさせ、当該端末装置をユーザが家庭、高齢者施設などにおいて使用してもよい。一例として、上記端末装置を用いて小児の家族が当該小児の咳嗽に伴う咳嗽音を録音し、録音した咳嗽音のデータを用いて上記端末装置により咳嗽が湿性咳嗽であるか乾性咳嗽であるかを推定してもよい。この場合、ユーザが推定結果をかかりつけ医に伝えることにより、かかりつけ医の診断の精度を向上させることができる。
【0049】
〔ソフトウェアによる実現例〕
情報処理装置1(以下、「装置」と呼ぶ)の機能は、当該装置としてコンピュータを機能させるためのプログラムであって、当該装置の各制御ブロック(特に制御部10に含まれる各部)としてコンピュータを機能させるためのプログラムにより実現することができる。
【0050】
この場合、上記装置は、上記プログラムを実行するためのハードウェアとして、少なくとも1つの制御装置(例えばプロセッサ)と少なくとも1つの記憶装置(例えばメモリ)を有するコンピュータを備えている。この制御装置と記憶装置により上記プログラムを実行することにより、上記各実施形態で説明した各機能が実現される。
【0051】
上記プログラムは、一時的ではなく、コンピュータ読み取り可能な、1または複数の記録媒体に記録されていてもよい。この記録媒体は、上記装置が備えていてもよいし、備えていなくてもよい。後者の場合、上記プログラムは、有線または無線の任意の伝送媒体を介して上記装置に供給されてもよい。
【0052】
また、上記各制御ブロックの機能の一部または全部は、論理回路により実現することも可能である。例えば、上記各制御ブロックとして機能する論理回路が形成された集積回路も本発明の範疇に含まれる。この他にも、例えば量子コンピュータにより上記各制御ブロックの機能を実現することも可能である。
【0053】
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
【0054】
〔まとめ〕
本開示の態様1に係る情報処理装置は、対象者の咳嗽に伴う咳嗽音の対象音声波形から得た少なくとも1つのパラメータを含む入力データを、標本者の咳嗽に伴う咳嗽音の音声波形から得た前記少なくとも1つのパラメータと、前記標本者の咳嗽が湿性咳嗽であるか乾性咳嗽であるかを医療従事者が判定した判定結果とを含む教師データを用いた機械学習により生成された学習済モデルに、入力して前記対象者の前記咳嗽が湿性咳嗽であるか乾性咳嗽であるかを示す推定結果を出力する推定部を備え、前記パラメータは、咳嗽音の音声波形から得られる、(1)非周期的な音声成分に関する第1パラメータ、(2)声帯の振動による音声成分の有無に関する第2パラメータ、(3)声帯の振動による音声成分の周波数に関する第3パラメータ、または、(4)メル周波数ケプストラム係数を示す第4パラメータである。
【0055】
本開示の態様2に係る情報処理装置は、上記態様1において、前記対象音声波形から前記パラメータを生成する生成部を備え、前記生成部は、前記対象音声波形から得られる、前記第1パラメータ、前記第2パラメータ、前記第3パラメータおよび前記第4パラメータのうちの少なくとも2つのパラメータを含めて、前記入力データを生成する構成であってもよい。
【0056】
本開示の態様3に係る情報処理装置は、上記態様2において、前記生成部は、前記入力データに含まれる前記少なくとも2つのパラメータをそれぞれ画像化する第1処理部と、前記第1処理部が画像化した画像を所定の方向に連結することにより連結画像を生成する第2処理部と、を備え、前記推定部は、前記連結画像を前記入力データとして前記学習済モデルに入力する構成であってもよい。
【0057】
本開示の態様4に係る情報処理装置は、上記態様3において、前記推定部は、前記学習済モデルが前記推定結果を出力するために着目した着目領域を前記連結画像上に表した参考画像をさらに出力する構成であってもよい。
【0058】
本開示の態様5に係る情報処理装置は、上記態様1から4のいずれかにおいて、前記第1パラメータは、咳嗽音の音声波形に含まれる非周期的な音声成分のパワーと前記音声波形の音声成分のパワーとの比を帯域毎に示す構成であってもよい。
【0059】
本開示の態様6に係る情報処理装置は、上記態様1から5のいずれかにおいて、前記第3パラメータは、咳嗽音における声帯の振動による音声成分の基本周波数を示す構成であってもよい。
【0060】
本開示の態様7に係る情報処理装置は、上記態様1から6のいずれかにおいて、前記第4パラメータは、咳嗽音の音声波形をフーリエ変換して得られる第1スペクトルをメル周波数尺度に伸縮した第2スペクトルをフーリエ変換して得られるパラメータである構成であってもよい。
【0061】
本開示の態様8に係る推定方法は、対象者の咳嗽に伴う咳嗽音の対象音声波形から得た少なくとも1つのパラメータを含む入力データを、標本者の咳嗽に伴う咳嗽音の音声波形から得た前記少なくとも1つのパラメータと、前記標本者の咳嗽が湿性咳嗽であるか乾性咳嗽であるかを医療従事者が判定した判定結果とを含む教師データを用いた機械学習により生成された学習済モデルに、入力して前記対象者の前記咳嗽が湿性咳嗽であるか乾性咳嗽であるかを示す推定結果を出力する推定ステップを含み、前記パラメータは、咳嗽音の音声波形から得られる、(1)非周期的な音声成分に関する第1パラメータ、(2)声帯の振動による音声成分の有無に関する第2パラメータ、(3)声帯の振動による音声成分の周波数に関する第3パラメータ、または、(4)メル周波数ケプストラム係数を示す第4パラメータである。
【0062】
本開示の態様9に係る推定方法は、上記態様8において、前記対象音声波形から前記パラメータを生成する生成ステップを含み、前記生成ステップにおいて、前記対象音声波形から得られる、前記第1パラメータ、前記第2パラメータ、前記第3パラメータおよび前記第4パラメータのうちの少なくとも2つのパラメータを含めて、前記入力データを生成する構成であってもよい。
【実施例0063】
本発明の一実施例について以下に説明する。本実施例では、74名の被験者の咳嗽を対象として、本発明の推定方法による推定結果の精度について検証した。対象となる被験者の男女比は、男:女=26:48、年齢は84.9±8.3歳であった。クエン酸異による誘発咳嗽を、携帯型レコーダー(APH-1n 96kHz 24bit)を用いて、被験者の口元から50cm程度の距離で録音した。録音した咳嗽音を1つずつに区切り,各被験者あたり1~10個の咳嗽音をピックアップした。合計392音の咳嗽音を、20年以上の経験のある呼吸器内科医師の聴覚判定によって湿性咳嗽と乾性咳嗽とに分類した。その結果、湿性咳嗽が59音、乾性咳嗽が333音であった。
【0064】
<解析方法>
392音の各咳嗽音について、各咳嗽音の音声波形から、以下の第1~第4のパラメータを生成した。
第1パラメータ:咳嗽音の音声波形に含まれる非周期的な音声成分のパワーと、音声波形の音声成分のパワーとの比を帯域毎に示す帯域非周期性指標
第2パラメータ:声帯の振動による音声成分の有無を示すパラメータ
第3パラメータ:咳嗽音における声帯の振動による音声成分の、時間軸に対する基本周波数の対数値
第4パラメータ:咳嗽音の音声波形をフーリエ変換して得られる第1スペクトルをメル周波数尺度に伸縮した第2スペクトルをフーリエ変換して得られるパラメータ。
【0065】
得られた第1パラメータ~第4のパラメータに対して実施形態1において説明した方法によりそれぞれ画像化処理を行うことにより、第1パラメータ画像~第4パラメータ画像を作製した。
【0066】
本実施例では、説明変数に含めるパラメータ画像の種類および個数、ならびに、連結画像における連結する順序のうち少なくとも1つが異なる18通りの推定モデルを生成し、それぞれの推定モデルの推定精度を検証した。本実施例では、畳み込みニューラルネットワークであるVGG16を使用して推定モデルを作成した。推定モデルは、Epochsを50、N_splitsを5として作成した。本実施例では、59音の湿性咳嗽のうち47音をtrainデータ、6音をtestデータ、6音をvalidationデータとし、333音の湿性咳嗽のうち267音をtrainデータ、33音をtestデータ、33音をvalidationデータとして検証を行った。推定モデルは、下記の説明変数および目的変数を含む教師データを用いて作成した。説明変数は、第1パラメータ画像~第4パラメータ画像のうち1~4個のパラメータ画像を、横軸を時間とする共通軸として縦軸方向に連結することにより生成した連結画像とした。目的変数は、呼吸器内科医師の聴覚判定による分類結果とした。なお、説明変数として1個のパラメータ画像を用いる場合には、連結画像を作製せず、当該パラメータ画像を説明変数として用いた。
【0067】
推定モデルの性能評価は、f-1(f値)、accuracy(精度)、precision(適合率)、およびrecall(再現率)を用いて行った。図10は、本実施例において作成した推定モデルの性能評価を示すグラフである。図10には、18通りの推定モデルについての推定結果を示している。例えば、パターン1は、下から上に向かう方向に、第4パラメータ画像、第3パラメータ画像、第2パラメータ画像、第1パラメータ画像の順にパラメータ画像を連結させた連結画像を説明変数として推定モデルを作製したパターンである。図10に示すように、いずれの推定モデルを用いた場合においても推定精度が高く、本発明の推定方法の有効性が確認された。
【符号の説明】
【0068】
1 情報処理装置
12 モデル生成部
13 推定部
20 入力データ生成部(生成部)
25 パラメータ画像生成部(第1処理部)
26 連結画像生成部(第2処理部)
39 学習済モデル
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10