(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023018658
(43)【公開日】2023-02-08
(54)【発明の名称】機械学習による音声手法に基づく困難気道の評価方法及び装置
(51)【国際特許分類】
A61B 10/00 20060101AFI20230201BHJP
G10L 25/66 20130101ALI20230201BHJP
G10L 25/09 20130101ALI20230201BHJP
G10L 25/30 20130101ALI20230201BHJP
A61B 5/08 20060101ALI20230201BHJP
【FI】
A61B10/00 L
G10L25/66
G10L25/09
G10L25/30
A61B5/08
【審査請求】有
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2022110158
(22)【出願日】2022-07-08
(31)【優先権主張番号】202110848963.7
(32)【優先日】2021-07-27
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514082712
【氏名又は名称】上海交通大学医学院付属第九人民医院
(74)【代理人】
【識別番号】100135194
【弁理士】
【氏名又は名称】田中 智雄
(72)【発明者】
【氏名】姜虹
(72)【発明者】
【氏名】夏明
(72)【発明者】
【氏名】周靭
(72)【発明者】
【氏名】曹爽
(72)【発明者】
【氏名】徐天意
(72)【発明者】
【氏名】王傑
(72)【発明者】
【氏名】金晨▲ユ▼
(72)【発明者】
【氏名】裴▲ベイ▼
【テーマコード(参考)】
4C038
【Fターム(参考)】
4C038ST09
4C038SV05
4C038SX07
(57)【要約】 (修正有)
【課題】機械学習による音声手法に基づく困難気道の評価方法及び装置を提供する。
【解決手段】方法は、患者の音声データを取得するステップS101と、前記音声データについて特徴を抽出し、音響学特徴、声紋特徴及び音声識別特徴を得るステップS102と、機械学習による音声手法に基づく困難気道評価分類器を構築し、訓練された困難気道評価分類器を介して抽出した前記音響学特徴、声紋特徴及び音声識別特徴について分析して困難気道の重症度をスコアリングし、困難気道の評価結果を得るステップS103と、を含む。本発明は臨床麻酔において困難気道に対し、精確に事前に警報を発することができる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
機械学習による音声手法に基づく困難気道の評価方法において、
(1)患者の音声データを取得するステップと、
(2)前記音声データについて特徴を抽出し、発音のピッチ周期を得、前記発音のピッチ周期に基づいて濁音特徴と清音特徴を取得し、前記濁音特徴は、共振ピークであり、前記清音特徴は、短期エネルギーと短期平均ゼロ交差率であるステップと、
(3)機械学習による音声手法に基づく困難気道分類器を構築し、訓練された困難気道評価分類器を介して受け取った濁音特徴と清音特徴を分析して困難気道の重症度をスコアリングし、困難気道の評価結果を得るステップと、を含むことを特徴とする機械学習による音声手法に基づく困難気道の評価方法。
【請求項2】
前記ステップ(1)で取得した音声データは、気道の解剖学的構造及び機能を反映できる音声データであることを特徴とする請求項1に記載の機械学習による音声手法に基づく困難気道の評価方法。
【請求項3】
前記ステップ(1)での音声データは、6つの母音/a/、/e/、/i/、/o/、/u/及び/ue(uウムラウト)/を含むことを特徴とする請求項1に記載の機械学習による音声手法に基づく困難気道の評価方法。
【請求項4】
前記ステップ(2)で濁音特徴を取得する時、具体的には、元の音声データ信号をプレエンファシスするステップと、プレエンファシスされた信号を窓掛けし、フーリエ変換を行うステップと、フーリエ変換後の信号をケプストラムでケプストラム信号を得るステップと、ケプストラム信号を窓掛けして包絡線を求め、前記包絡線の極大値によって共振ピークを得るステップと、を含むことを特徴とする請求項1に記載の機械学習による音声手法に基づく困難気道の評価方法。
【請求項5】
前記ステップ(2)で、
【数1A】
によって短期エネルギーを得、
【数2A】
によって短期平均ゼロ交差率を得、式中、mは第何フレームであり、x(m)は音声データ信号の振幅を表し、w(n-m)は窓関数を表し、nはフレーム数であり、sgn[ ]は符号関数であり、ω(m)は比例係数であることを特徴とする請求項1に記載の機械学習による音声手法に基づく困難気道の評価方法。
【請求項6】
前記ステップ(3)で音声手法に基づく困難気道評価分類器は、全結合ニューラルネットワークであり、前記全結合ニューラルネットワークは、1つの入力層、3つの隠れ層及び1つの出力層を含み、前記全結合ニューラルネットワークの初期学習率は1であり、減衰率は0.0001であり、ReLU活性化関数を用い、最適化関数はSGDであることを特徴とする請求項1に記載の機械学習による音声手法に基づく困難気道の評価方法。
【請求項7】
機械学習による音声手法に基づく困難気道の評価装置において、患者の音声データを取得するための取得モジュールと、前記音声データを特徴抽出し、発音のピッチ周期を得て、前記発音のピッチ周期に基づいて濁音特徴と清音特徴を取得するための特徴抽出モジュールと、機械学習による音声手法に基づく困難気道評価分類器を構築し、訓練された困難気道評価分類器を介して受け取った濁音特徴と清音特徴を分析して困難気道の重症度をスコアリングし、困難気道の評価結果を得るための評価モジュールと、を備えることを特徴とする機械学習による音声手法に基づく困難気道の評価装置。
【請求項8】
前記特徴抽出モジュールは、元の音声データ信号をプレエンファシスし、プレエンファシスされた信号を窓掛けして、フーリエ変換を行い、フーリエ変換後の信号をケプストラムでケプストラム信号を得、ケプストラム信号を窓掛けして包絡線を求め、前記包絡線の極大値によって共振ピークを得るための濁音特徴抽出ユニットと、
【数1A】
によって短期エネルギーを得、
【数2A】
によって短期平均ゼロ交差率を得、式中、mは第何フレームであり、x(m)は音声データ信号の振幅を表し、w(n-m)は窓関数を表し、nはフレーム数であり、sgn[ ]は符号関数であり、ω(m)は比例係数であるための清音特徴抽出ユニットと、を備えることを特徴とする請求項7に記載の機械学習による音声手法に基づく困難気道の評価装置。
【請求項9】
前記評価モジュールで構築された困難気道評価分類器は、全結合ニューラルネットワークであり、前記全結合ニューラルネットワークは、1つの入力層、3つの隠れ層及び1つの出力層を備え、前記全結合ニューラルネットワークの初期学習率は1であり、減衰率は0.0001であり、ReLU活性化関数を用い、最適化関数はSGDであることを特徴とする請求項7に記載の機械学習による音声手法に基づく困難気道の評価装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明はコンピューター支援技術分野に関し、特に機械学習による音声手法に基づく困難気道の評価方法及び装置に関する。
【背景技術】
【0002】
気管挿管は麻酔医師が全身麻酔状態での患者に対して気道管理を行う重要な手段であり、気道の流れが順調であるように保持し、通気し酸素を供給し、呼吸を支持し、酸素化を維持する等の面で重要な役割を果たしている。しかしながら、気管挿管技術及び装置は多くの進歩と改善があったものの、困難気道による手術期間を取り巻く合併症と身障の発生率が立派に改善されておらず、特に、予知していない困難気道についてである。現在、困難気道を評価する方法は、一般にMallampatti格付け、LEMONスコア、Wilsonスコア及び補助CT、MRI、US等を含み、プロセスが複雑で陽性の評価値が高くない。いずれも一定の限界性がある。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本発明が解決しようとする技術課題は機械学習による音声手法に基づく困難気道の評価方法及び装置を提供し、臨床麻酔において困難気道に対し、精確に事前に警報を発することができる。
本発明ではその技術課題を解決するために、採用した技術手段は、機械学習による音声手法に基づく困難気道の評価方法を提供し、
(1)患者の音声データを取得するステップと、
(2)前記音声データについて特徴を抽出し、発音のピッチ周期を得、前記発音のピッチ周期に基づいて濁音特徴と清音特徴を取得するステップと、
(3)機械学習による音声手法に基づく困難気道評価分類器を構築し、訓練された困難気道評価分類器を介して受け取った濁音特徴と清音特徴を分析して困難気道の重症度をスコアリングし、困難気道の評価結果を得るステップと、を含む。
前記ステップ(1)で取得した音声データは、気道の解剖学的構造及び機能を反映できる音声データである。
前記ステップ(1)での音声データは、6つの母音/a/、/e/、/i/、/o/、/u/及び/ue(uウムラウト)/を含む。
前記ステップ(2)での濁音特徴は、共振ピークであり、清音特徴は、短期エネルギーと短期平均ゼロ交差率である。
前記ステップ(2)で濁音特徴を取得する時、具体的には、元の音声データ信号をプレエンファシスするステップと、プレエンファシスされた信号を窓掛けし、フーリエ変換を行うステップと、フーリエ変換後の信号をケプストラムでケプストラム信号を得るステップと、ケプストラム信号を窓掛けして包絡線を求め、前記包絡線の極大値によって共振ピークを得るステップと、を含む。
前記ステップ(2)で、
【数1】
によって短期エネルギーを得、
【数2】
によって短期平均ゼロ交差率を得る。式中、mは第何フレームであり、x(m)は音声データ信号の振幅を表し、w(n-m)は窓関数を表し、nはフレーム数であり、sgn[ ]は符号関数であり、ω(m)は比例係数である。
前記ステップ(3)で機械学習による音声手法に基づく困難気道分類器は、全結合ニューラルネットワークであり、前記全結合ニューラルネットワークは、1つの入力層、3つの隠れ層及び1つの出力層を含み、前記全結合ニューラルネットワークの初期学習率は1であり、減衰率は0.0001であり、ReLU活性化関数を用い、最適化関数はSGDである。
本発明ではその技術課題を解決するために、採用した技術手段は、機械学習による音声手法に基づく困難気道の評価装置をさらに提供し、患者の音声データを取得するための取得モジュールと、前記音声データを特徴抽出し、発音のピッチ周期を得て、前記発音のピッチ周期に基づいて濁音特徴と清音特徴を取得するための特徴抽出モジュールと、音声手法に基づく困難気道評価分類器を構築し、訓練された困難気道評価分類器を介して受け取った濁音特徴と清音特徴を分析して困難気道の重症度をスコアリングし、困難気道の評価結果を得るための評価モジュールと、を備える。
前記特徴抽出モジュールは、元の音声データ信号をプレエンファシスし、プレエンファシスされた信号を窓掛けして、フーリエ変換を行い、フーリエ変換後の信号をケプストラムでケプストラム信号を得、ケプストラム信号を窓掛けして包絡線を求め、前記包絡線の極大値によって共振ピークを得るための濁音特徴抽出ユニットと、
【数3】
によって短期エネルギーを得、
【数4】
によって短期平均ゼロ交差率を得る。式中、mは第何フレームであり、x(m)は音声データ信号の振幅を表し、w(n-m)は窓関数を表し、nはフレーム数であり、sgn[ ]は符号関数であり、ω(m)は比例係数であるための清音特徴抽出ユニットと、を備える。
前記評価モジュールで構築された困難気道評価分類器は、全結合ニューラルネットワークであり、前記全結合ニューラルネットワークは、1つの入力層、3つの隠れ層及び1つの出力層を備え、前記全結合ニューラルネットワークの初期学習率は1であり、減衰率は0.0001であり、ReLU活性化関数を用い、最適化関数はSGDである。
【発明の効果】
【0004】
上記の技術手段を用いたため、本発明と従来技術とを比べて、以下の優れた点と積極的な効果を有する。本発明は機械学習による音声手法に基づいて音声特徴情報を抽出することにより、手動による測定を避け、自動化の優れた点を有する。深層学習アルゴリズムにより構築した分類器は困難気道の重症度をスコアリングし、過剰適合の現象を避けることによって、臨床麻酔において精確に事前に警報を発することができる。
【図面の簡単な説明】
【0005】
【
図1】
図1は本発明実施形態のフローチャートである。
【発明を実施するための形態】
【0006】
以下、具体的な実施例を合わせて、本発明についてさらに説明する。なお、これらの実施例は本発明を説明するのみに用いられ、本発明の範囲を限定するためのものではない。またなお、本発明に述べられた内容を読んだ後、当業者は本発明について種々の変更又は改正を行うことができ、これらの等価形態も同様に本願に添付される特許請求の範囲に限定される範囲に入る。
本発明の実施形態は機械学習による音声手法に基づく困難気道の評価方法に関し、
図1に示すように、患者の音声データを取得するステップS101と、前記音声データについて特徴を抽出し、発音のピッチ周期を得、前記発音のピッチ周期に基づいて濁音特徴と清音特徴を取得するステップS102と、機械学習による音声手法に基づく困難気道評価分類器を構築し、訓練された困難気道評価分類器を介して受け取った濁音特徴と清音特徴を分析して困難気道の重症度をスコアリングし、困難気道の評価結果を得るステップS103と、を含む。
その中で、音声データを取得するステップは、具体的には、患者を固定の静かな診察室に手配し、落ち着いて座らせ、ソニーICD-PX470レコーダーLinear PCMフォーマットを用いて音声データを収集する。収めた音声データは気道の解剖学的構造及び機能を反映できる音声データであり、6つの母音/a/、/e/、/i/、/o/、/u/及び/ue(uウムラウト)/を含む。得られた音声ファイルはWAVフォーマットで出力され、得られた音声ファイルデータは機密的データベースに記憶される。収めた内容は6個の母音と10個の文であり、母音は全て第一声で読み、読み方を適当に長引かせ、母音毎の間に1秒以上のポーズをおく。文間に2秒以上の間隔をとり、文内に間隔が1秒未満である。
音声データの整理:
データの命名を行い、同一のテストを受ける者の録音ファイルを同一のフォルダに保存して選別番号でフォルダを命名し、患者のその他の情報、例えば年齢、性別、身長、体重、困難気道の評価量表及びCL格付け等の情報をデータベースに保存し、通し番号が録音フォルダの名称に対応する。
データのクリーニング:
情報が不完全なサンプル(録音情報が欠如、挿管情報が欠如等)を取り除き、音声識別タスクのデータセットに整理する。
音声特徴の抽出:
本実施形態では、音声特徴の抽出は前記音声データに対して特徴抽出を行うものであり、発音のピッチ周期を得て、前記発音のピッチ周期に基づいて濁音特徴と清音特徴を取得する。
声門は声帯に緊張弛緩式振動を生じさせ、準周期励振インパルス列が生じる。この声帯振動の周波数は基音周波数と呼ばれ、相応の周期が即ちピッチ周期である。本実施形態は先ず発音のピッチ周期を抽出する必要があり、それから、ピッチ周期に基づいて濁音素片と清音素片を区分する。本実施形態中の音声データは専門の装置により収めた発音であるため、したがって、信号のノイズが小さく、比較的純粋であり、純粋な信号についてケプストラム法を用いてピッチ周期を求めることができ、具体的な抽出方法は次の通りである。
【数5】
式中、s[n]は元の音声データ信号であり、幅f[n]と位相θ[n]からなり、nはフレーム数、ωは周波数、S(ω)は音声データの周波数領域信号、c[n]は周波数スペクトルであり、周波数スペクトルに対してピーク値を検出することによりピッチ周期を得ることができる。
ピッチ周期を得た後、ピッチ周期内の音声は濁音であり、これに反して、清音である。人の口腔とチャンネルの各種の組み合せ形状が発音の共振ピークも異なることを引き起こし、舌の位置と唇の形状の複合影響を受けて、発音器官は振動によって複数の共振周波数が生じ、したがって、1つの音には3~5個の共振ピークがあることになり、各自の意味合いとしては、1つ目の共振ピークが舌位置の高さを表し、2つ目の共振ピークが舌位置の前後を表し、3つ目の共振ピークが唇開口の形状を表し、4つ目の共振ピークが舌を表すと共に、唇を表す。本実施形態が採用する共振ピーク抽出方法はケプストラム法であり、具体的な方法は次の通りである。
信号はプレエンファシスされ、s’[n]=s[n]-α×s[n-1]、信号に高周波数を向上させ、声門の信号に還元することができ、s[n]は元の音声データ信号、αは自己定義のパラメータであり、一般に0.1を取り、s[n-1]は前のフレーム信号である。
プレエンファシス後の信号を窓掛けして、FFT処理を行い、
【数6】
式中、窓はハミング窓であり、Nは総フレーム数を表す。
X(K)につき、ケプストラム:
【数7】
を抽出する。
ケプストラム信号を窓掛けし、
【数8】
包絡線:
【数9】
を求めて取り、H(k)の極大値を求めることで、相応の共振ピークを取得することができる。
ピッチ周期内に属さない音声は清音であり、清音の発生原理は気流が声門を通過する時、気道があまりにも狭くて気流速度が増加することによって乱流が生じ、最後に清音が生じる。したがって、清音は気道の広さを反映することができ、清音の特徴は短期エネルギーEn及び短期平均ゼロ交差率Znで表される。上記特徴の具体的な計算方式は次の通りである。
【数10】
式中、mは第何フレームであり、x(m)は音声データ信号の振幅を表す。
【数11】
w(n-m)は窓関数、sgn[ ]は符号関数、ω(m)は比例係数を表す。
トレーニングセットとテストセットデータの分解及び検証の公正性:
訓練時、予め80%:10%:10%で話者によって訓練、検証とテストセットに分ける。その中で、トレーニングセットがニューラルネットワークパラメータの更新として用いられ、アルゴリズムの検証セットにおける表現がニューラルネットワーク学習率を調整する参考として用いられる。テストセットは最終モデルの表現評価に用いられる。
本実施形態では、機械学習による音声手法に基づく困難気道評価分類器は全結合ニューラルネットワークであり、前記全結合ニューラルネットワークが計5層で、1つの入力層、3つの隠れ層及び1つの出力層を含む。前記全結合ニューラルネットワークの初期学習率は1であり、減衰率は0.0001であり、ReLU活性化関数を用い、最適化関数はSGDである。該全結合ニューラルネットワークの入力は4つの共振ピーク、短期エネルギーEn及び短期平均ゼロ交差率Znという6つの特徴であり、伝播を経てone-hot出力を得、C-L挿管困難に対応するランクで、計4つのランクであり、その中で、C-LがI-II級であることは困難でない気道を表し、C-LがIII-IV級であることは困難気道を表す。訓練されたモデルが困難気道評価に対しての感度は0.81に達することができる。
このことから、本発明は機械学習による音声手法に基づいて音声特徴情報を抽出することにより、手動による測定を避け、自動化の優れた点を有することと、深層学習アルゴリズムにより構築した分類器は困難気道の重症度をスコアリングし、過剰適合の現象を避けることによって、臨床麻酔において精確に事前に警報を発することができることを発見し易いことが分かる。
本発明の実施形態は機械学習による音声手法に基づく困難気道の評価装置にさらに関し、
図2に示すように、患者の音声データを取得するための取得モジュール201と、前記音声データを特徴抽出し、発音のピッチ周期を得て、前記発音のピッチ周期に基づいて濁音特徴と清音特徴を取得するための特徴抽出モジュール202と、機械学習による音声手法に基づく困難気道評価分類器を構築し、訓練された困難気道評価分類器を介して受け取った濁音特徴と清音特徴を分析して困難気道の重症度をスコアリングし、困難気道の評価結果を得るための評価モジュール203と、を備える。
前記取得モジュールで取得された音声データは気道の解剖学的構造及び機能を反映できる音声データである。
前記取得モジュールで取得された音声データは6つの母音/a/、/e/、/i/、/o/、/u/及び/ue(uウムラウト)/を含む。
前記特徴抽出モジュールは、元の音声データ信号をプレエンファシスし、プレエンファシスされた信号を窓掛けして、フーリエ変換を行い、フーリエ変換後の信号をケプストラムでケプストラム信号を得、ケプストラム信号を窓掛けして包絡線を求め、前記包絡線の極大値によって共振ピークを得るための濁音特徴抽出ユニットと、
【数12】
によって短期エネルギーを得、
【数13】
によって短期平均ゼロ交差率を得る。式中、mは第何フレームであり、x(m)は音声データ信号の振幅を表し、w(n-m)は窓関数を表し、nはフレーム数であり、sgn[ ]は符号関数であり、ω(m)は比例係数であるための清音特徴抽出ユニットと、を備える。
前記評価モジュールで構築された困難気道評価分類器は、全結合ニューラルネットワークであり、前記全結合ニューラルネットワークは、1つの入力層、3つの隠れ層及び1つの出力層を備え、前記全結合ニューラルネットワークの初期学習率は1であり、減衰率は0.0001であり、ReLU活性化関数を用い、最適化関数はSGDである。
本発明は機械学習による音声手法に基づいて音声特徴情報を抽出することにより、手動による測定を避け、自動化の優れた点を有することと、深層学習アルゴリズムにより構築した分類器は困難気道の重症度をスコアリングし、過剰適合の現象を避けることによって、臨床麻酔において精確に事前に警報を発することができることを発見し易い。