IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人静岡大学の特許一覧

特許7570687評価装置、評価方法、及び評価プログラム
<>
  • 特許-評価装置、評価方法、及び評価プログラム 図1
  • 特許-評価装置、評価方法、及び評価プログラム 図2
  • 特許-評価装置、評価方法、及び評価プログラム 図3
  • 特許-評価装置、評価方法、及び評価プログラム 図4
  • 特許-評価装置、評価方法、及び評価プログラム 図5
  • 特許-評価装置、評価方法、及び評価プログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-11
(45)【発行日】2024-10-22
(54)【発明の名称】評価装置、評価方法、及び評価プログラム
(51)【国際特許分類】
   A61B 5/11 20060101AFI20241015BHJP
   A61B 7/04 20060101ALI20241015BHJP
   A61B 10/00 20060101ALI20241015BHJP
   G10L 25/66 20130101ALI20241015BHJP
   H04R 1/46 20060101ALI20241015BHJP
   H04R 3/00 20060101ALI20241015BHJP
   G10L 25/30 20130101ALN20241015BHJP
【FI】
A61B5/11 300
A61B5/11 320
A61B7/04 B
A61B10/00 V
G10L25/66
H04R1/46
H04R3/00 320
G10L25/30
【請求項の数】 10
(21)【出願番号】P 2021024865
(22)【出願日】2021-02-19
(65)【公開番号】P2022126977
(43)【公開日】2022-08-31
【審査請求日】2024-01-19
【新規性喪失の例外の表示】特許法第30条第2項適用 (1)発行日 2020年2月20日 (2)刊行物名:情報処理学会第82回全国大会講演論文集、「CTCとAttentionの併用による咀嚼と嚥下の自動検出」 該当ページ:2-205~2-206 発行元:一般社団法人情報処理学会
【新規性喪失の例外の表示】特許法第30条第2項適用 (1)開催日 2020年3月5日~7日(発表日:2020年3月6日) (2)集会名:情報処理学会創立60周年記念 第82回全国大会(オンライン開催)
【新規性喪失の例外の表示】特許法第30条第2項適用 (1)発行日 2020年3月10日 (2)刊行物名:2020 IEEE 2nd Global Conference on Life Sciences and Technologies(LifeTech 2020)、”Automatic Detection of the Chewing Side Using Two-channel Recordings under the Ear” 該当ページ:p.82-83 発行元:IEEE
【新規性喪失の例外の表示】特許法第30条第2項適用 (1)開催日 2020年3月10日~12日(発表日:2020年3月10日) (2)集会名:2020 IEEE 2nd Global Conference on Life Sciences and Technologies(LifeTech2020) 開催場所:メルパルク京都(京都府京都市下京区東洞院通七条下ル東塩小路町676番13)
(73)【特許権者】
【識別番号】304023318
【氏名又は名称】国立大学法人静岡大学
(74)【代理人】
【識別番号】100088155
【弁理士】
【氏名又は名称】長谷川 芳樹
(74)【代理人】
【識別番号】100124800
【弁理士】
【氏名又は名称】諏澤 勇司
(72)【発明者】
【氏名】西村 雅史
(72)【発明者】
【氏名】中村 亮裕
【審査官】磯野 光司
(56)【参考文献】
【文献】国際公開第2014/010165(WO,A1)
【文献】特開2018-000871(JP,A)
【文献】Akihiro NAKAMURA et al.,Automatic Detection of Chewing and Swallowing Using Hybrid CTC/Attention,2020 IEEE 9th Global Conference on Consumer Electronics (GCCE),2020年,Vol.16,pp.810-812,DOI: 10.1109/GCCE50665.2020.9292024
【文献】Muhammad Mehedi BILLAH et al.,Estimation of Number of Chewing Strokes and Swallowing Events by Using LSTM-CTC and Throat Microphone,2019 IEEE 8th Global Conference on Consumer Electronics (GCCE),2019年,pp.920-921,DOI: 10.1109/GCCE46687.2019.9015226
(58)【調査した分野】(Int.Cl.,DB名)
A61B 5/00-5/398
A61B 7/04
A61B 10/00
G10L 25/30
G10L 25/66
H04R 1/46
H04R 3/00
JSTPlus/JMEDPlus/JST7580(JDreamIII)
(57)【特許請求の範囲】
【請求項1】
ユーザに対して首の右側及び左側に装着された一対の皮膚接触型マイクによって取得された音声信号を基に、前記ユーザによる食物の粉砕状態を評価する評価装置であって、
前記一対の皮膚接触型マイクからの一対の音声信号を基に時系列の特徴量を抽出する抽出部と、
前記特徴量が入力されて、右寄りの咀嚼及び左寄りの咀嚼を少なくとも含む咀嚼発生のイベント毎の尤度と、イベントの発生がないブランク部の尤度とを、時系列に出力する学習モデルによって構成される識別器と、
前記識別器から出力された、前記右寄りの咀嚼のイベント及び前記左寄りの咀嚼のイベントの前記尤度と、前記ブランク部の前記尤度とを比較した計算結果を基に、前記ユーザによる食物粉砕の完了を判定する判定部と、
を備える評価装置。
【請求項2】
前記学習モデルは、
時系列の前記特徴量が入力されて前記イベントごと及び前記ブランク部の前記尤度を時系列に出力する第1のモデルと、
前記第1のモデルの出力に接続されて、前記第1のモデルから出力された連続する同一のイベントの重複の除去と、前記第1のモデルから出力された前記ブランク部の除去とを行う第2のモデルとを含む、
請求項1に記載の評価装置。
【請求項3】
前記抽出部は、前記一対の音声信号の合成信号を対象にスペクトル分析を行うことにより前記特徴量を抽出する、
請求項1又は2に記載の評価装置。
【請求項4】
前記抽出部は、前記一対の音声信号の相互相関値を計算することにより前記特徴量をさらに抽出する、
請求項3に記載の評価装置。
【請求項5】
前記判定部は、前記右寄りの咀嚼のイベント及び前記左寄りの咀嚼のイベントの対数尤度の最大値から、前記ブランク部の対数尤度を引いた値を基に、前記ユーザによる食物粉砕の完了を判定する、
請求項1~4のいずれか1項に記載の評価装置。
【請求項6】
前記判定部は、前記第1のモデルの出力した前記イベントごとの尤度を基に、前記食物粉砕の完了を判定する、
請求項2に記載の評価装置。
【請求項7】
前記判定部は、前記識別器から出力された、前記右寄りの咀嚼のイベント、前記左寄りの咀嚼のイベント、及び前記ブランク部の前記尤度を所定期間で平均化した値を用いて前記計算結果を取得する、
請求項1~6のいずれか1項に記載の評価装置。
【請求項8】
前記学習モデルは、
前記第1のモデルの出力に接続されて、前記第1のモデルから出力された時系列の前記イベントごとの尤度を基に、前記咀嚼発生のイベントの尤度を当該イベントの発生毎に出力する第3のモデルをさらに含み、前記第2のモデルの出力と前記第3のモデルの出力とを加味した前記イベント毎の尤度を出力する、
請求項2に記載の評価装置。
【請求項9】
ユーザに対して首の右側及び左側に装着された一対の皮膚接触型マイクによって取得された音声信号を基に、前記ユーザによる食物の粉砕状態を評価するコンピュータによる評価方法であって、
前記一対の皮膚接触型マイクからの一対の音声信号を基に時系列の特徴量を抽出する抽出ステップと、
前記特徴量を学習モデルに入力し、右寄りの咀嚼及び左寄りの咀嚼を少なくとも含む咀嚼発生のイベント毎の尤度と、イベントの発生がないブランク部の尤度とを、学習モデルから時系列に出力する出力ステップと、
前記出力ステップにおいて出力された、前記右寄りの咀嚼のイベント及び前記左寄りの咀嚼のイベントの前記尤度と、前記ブランク部の前記尤度とを比較した計算結果を基に、前記ユーザによる食物粉砕の完了を判定する判定ステップと、
を備える評価方法。
【請求項10】
ユーザに対して首の右側及び左側に装着された一対の皮膚接触型マイクによって取得された音声信号を基に、前記ユーザによる食物の粉砕状態を評価するための評価プログラムであって、
コンピュータを、
前記一対の皮膚接触型マイクからの一対の音声信号を基に時系列の特徴量を抽出する抽出部、
前記特徴量が入力されて、右寄りの咀嚼及び左寄りの咀嚼を少なくとも含む咀嚼発生のイベント毎の尤度と、イベントの発生がないブランク部の尤度とを、時系列に出力する学習モデルによって構成される識別器、及び
前記識別器から出力された、前記右寄りの咀嚼のイベント及び前記左寄りの咀嚼のイベントの前記尤度と、前記ブランク部の前記尤度とを比較した計算結果を基に、前記ユーザによる食物粉砕の完了を判定する判定部、として機能させる、
評価プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザにおける咽喉マイクの装着位置を評価する評価装置、評価方法、及び評価プログラムに関する。
【背景技術】
【0002】
「食べること」は人の健康維持においてとても重要な行動であり、特に、高齢者にとっては咀嚼から嚥下に至る一連の動作の維持が健康の維持に大切であることが知られている。このような背景において、従来からユーザの咀嚼の状態を自動的に検出する装置が用いられている。例えば、メガネ型装着部に取り付けられたセンサユニットを用いて、咀嚼動作に伴う耳周辺部の動きおよび耳周辺部に伝わる咀嚼動作音を計測することにより、利用者の咀嚼動作を判定するシステムが知られている(下記特許文献1参照。)。また、ユーザに取り付けられたマイクにより、あごの関節の動きにより発生する音等を検出し、検出結果を基に咀嚼回数を表示する装置も知られている(下記特許文献2参照。)。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2016-93255号公報
【文献】特開平11-123185号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
上述したような従来の咀嚼状態の検出技術においては、嚥下に至るまでの間に咀嚼によって食物の粉砕が十分に行われた状態を検出することは困難であった。すなわち、ユーザによるその都度の咀嚼の回数を検出することはできるが、食物が十分に噛み砕かれて粉砕された状態およびその粉砕完了のタイミングを検出することはできない傾向にあった。
【0005】
そこで、本発明は、かかる課題に鑑みてなされたものであり、嚥下に至る前での食物の粉砕状態を適切に評価することが可能な評価装置、評価方法、及び評価プログラムを提供することを課題とする。
【課題を解決するための手段】
【0006】
本発明の一側面は、ユーザに対して首の右側及び左側に装着された一対の皮膚接触型マイクによって取得された音声信号を基に、ユーザによる食物の粉砕状態を評価する評価装置であって、一対の皮膚接触型マイクからの一対の音声信号を基に時系列の特徴量を抽出する抽出部と、特徴量が入力されて、右寄りの咀嚼及び左寄りの咀嚼を少なくとも含む咀嚼発生のイベント毎の尤度と、イベントの発生がないブランク部の尤度とを、時系列に出力する学習モデルによって構成される識別器と、識別器から出力された、右寄りの咀嚼のイベント及び左寄りの咀嚼のイベントの尤度と、ブランク部の尤度とを比較した計算結果を基に、ユーザによる食物粉砕の完了を判定する判定部と、を備える。
【0007】
あるいは、本発明の他の側面は、ユーザに対して首の右側及び左側に装着された一対の皮膚接触型マイクによって取得された音声信号を基に、ユーザによる食物の粉砕状態を評価するコンピュータによる評価方法であって、一対の皮膚接触型マイクからの一対の音声信号を基に時系列の特徴量を抽出する抽出ステップと、特徴量を学習モデルに入力し、右寄りの咀嚼及び左寄りの咀嚼を少なくとも含む咀嚼発生のイベント毎の尤度と、イベントの発生がないブランク部の尤度とを、学習モデルから時系列に出力する出力ステップと、出力ステップにおいて出力された、右寄りの咀嚼のイベント及び左寄りの咀嚼のイベントの尤度と、ブランク部の尤度とを比較した計算結果を基に、ユーザによる食物粉砕の完了を判定する判定ステップと、を備える。
【0008】
あるいは、本発明の他の側面は、ユーザに対して首の右側及び左側に装着された一対の皮膚接触型マイクによって取得された音声信号を基に、ユーザによる食物の粉砕状態を評価するための評価プログラムであって、コンピュータを、一対の皮膚接触型マイクからの一対の音声信号を基に時系列の特徴量を抽出する抽出部、特徴量が入力されて、右寄りの咀嚼及び左寄りの咀嚼を少なくとも含む咀嚼発生のイベント毎の尤度と、イベントの発生がないブランク部の尤度とを、時系列に出力する学習モデルによって構成される識別器、及び識別器から出力された、右寄りの咀嚼のイベント及び左寄りの咀嚼のイベントの尤度と、ブランク部の尤度とを比較した計算結果を基に、ユーザによる食物粉砕の完了を判定する判定部、として機能させる。
【0009】
上記いずれかの側面によれば、ユーザの首の右側及び左側に装着された一対の皮膚接触型マイクからの音声信号を基に時系列の特徴量が抽出され、抽出された特徴量が学習モデルに入力されることにより、咀嚼発生のイベント毎の尤度と、ブランク部の尤度とが時系列に出力され、右寄りの咀嚼のイベント及び左寄りの咀嚼のイベントの尤度と、ブランク部の尤度とを比較することにより、ユーザによる食物粉砕の完了が判定される。このようにすることにより、ユーザにより嚥下に至るまでの間で、食物等が十分に咀嚼されて粉砕が完了したタイミングを適切に評価することができる。
【0010】
上記一側面においては、学習モデルは、時系列の特徴量が入力されてイベントごと及びブランク部の尤度を時系列に出力する第1のモデルと、第1のモデルの出力に接続されて、第1のモデルから出力された連続する同一のイベントの重複の除去と、第1のモデルから出力されたブランク部の除去とを行う第2のモデルとを含む、ことが好適である。かかる構成の学習モデルには、イベント毎の尤度を時系列に出力する第1のモデルと、第1のモデルからの出力を基にイベントの尤度を当該イベントの発生毎に出力する第2のモデルを含んでいる。このような学習モデルを用いることで、教師データを用いた学習モデルのトレーニングを、ユーザの咀嚼時の音声信号にイベントの発生毎のそのイベントを示すラベルを順番に付しただけのデータ(弱ラベル)を用いて行うことができる。そのため、学習モデルの構築を効率的に実行することができ、結果として、ユーザによる食物粉砕の完了の判定精度を向上させることができる。
【0011】
また、抽出部は、一対の音声信号の合成信号を対象にスペクトル分析を行うことにより特徴量を抽出する、ことが好適である。このような特徴量を用いることにより、一対の皮膚接触型マイクによって取得された音声信号の合成信号のスペクトル分析結果を基にイベントの尤度を推定することができ、ユーザによる食物粉砕の完了の判定精度をより高めることができる。
【0012】
また、抽出部は、一対の音声信号の相互相関値を計算することにより特徴量をさらに抽出する、ことが好適である。このような特徴量を用いることにより、一対の皮膚接触型マイクによって取得された音声信号の相互相関を基にイベントの尤度を推定することができ、ユーザによる食物粉砕の完了の判定精度をより高めることができる。
【0013】
また、判定部は、右寄りの咀嚼のイベント及び左寄りの咀嚼のイベントの対数尤度の最大値から、ブランク部の対数尤度を引いた値を基に、ユーザによる食物粉砕の完了を判定する、ことも好適である。この場合、学習モデルの出力を基に、右寄りの咀嚼のイベント及び左寄りの咀嚼のイベントの対数尤度の最大値から、ブランク部の対数尤度を引いた値を用いることにより、ユーザによる食物粉砕の完了が判定される。このようにすることにより、ユーザにより嚥下に至るまでの間で、食物等が十分に噛み砕かれて粉砕された状態およびその粉砕完了のタイミングをより適切に評価することができる。
【0014】
さらに、判定部は、第1のモデルの出力したイベントごとの尤度を基に、食物粉砕の完了を判定する、ことも好適である。この場合、第1のモデルから時系列に出力されたイベントごとの尤度を用いることにより、食物粉砕が完了したタイミングをより適切に評価することができる。
【0015】
また、判定部は、識別器から出力された、右寄りの咀嚼のイベント、左寄りの咀嚼のイベント、及びブランク部の尤度を所定期間で平均化した値を用いて計算結果を取得する、ことも好適である。このように平均化した値を用いて判定することにより、食物粉砕が完了したタイミングを安定して評価することができる。
【0016】
またさらに、学習モデルは、第1のモデルの出力に接続されて、第1のモデルから出力された時系列のイベントごとの尤度を基に、咀嚼発生のイベントの尤度を当該イベントの発生毎に出力する第3のモデルをさらに含み、第2のモデルの出力と第3のモデルの出力とを加味したイベント毎の尤度を出力する、ことも好適である。かかる学習モデルを用いることにより、咀嚼に関するイベント毎の尤度を、当該イベントの発生毎に高精度に出力できる。その結果、このような学習モデルのトレーニングを行って学習モデルを構築することにより、ユーザによる食物粉砕の完了の判定精度をさらに向上させることができる。
【発明の効果】
【0017】
本発明の一側面によれば、嚥下に至る前での食物の粉砕状態を適切に評価することができる。
【図面の簡単な説明】
【0018】
図1】実施形態にかかる評価装置1の概略構成を示すブロック図である。
図2図1の評価制御1のハードウェア構成を示す図である。
図3図1の識別器12が用いる学習モデルの機能構成を示すブロック図である。
図4図1の評価装置1における事前学習処理における動作手順を示すフローチャートである。
図5図1の評価装置1におけるイベント評価処理における動作手順を示すフローチャートである。
図6】実施形態の評価プログラムの構成を示すブロック図である。
【発明を実施するための形態】
【0019】
以下、添付図面を参照して、本発明の実施形態について詳細に説明する。なお、説明において、同一要素又は同一機能を有する要素には、同一符号を用いることとし、重複する説明は省略する。
【0020】
図1は、実施形態の評価装置1の概略構成を示すブロック図である。図1に示されるように、評価装置1は、ユーザの咽喉部における咽喉マイク(皮膚接触型マイク)M1によって取得された音声信号を基にユーザによる食物等の咀嚼の状態を評価するための装置である。評価装置1は、咽喉マイクM1に備えられる一対のマイクM1R,M1Lからアナログ信号である音声信号を、ケーブルを介して受信可能に構成され、一対のマイクM1R,M1Lから受信した音声信号を用いて評価処理を実行し、評価処理の結果を出力および記憶する機能を有する。ただし、評価装置1は、ブルートゥース(登録商標)、無線LAN等の無線信号を用いて、咽喉マイクM1から音声信号を受信可能に構成されていてもよい。咽喉マイクM1は、ユーザの首の咽喉付近の皮膚に接触させて装着され、ユーザによる食物摂取時の咀嚼、嚥下等の動作に応じた皮膚の振動を検出して動作に対応した音声信号を生成する皮膚接触型の検出機器である。咽喉マイクM1を構成する一対のマイクM1R,M1Lとしては、ピエゾ素子を内蔵したもの、あるいは、コンデンサマイクを内蔵したもの等が用いられる。これらの一対のマイクM1R,M1Lは、それぞれ、咽喉マイクM1がユーザに装着された際に、ユーザの首の咽喉付近の右側及び左側の皮膚の振動を検出する。
【0021】
ここで、評価装置1は、機能的な構成要素として、特徴量抽出部11、識別器12、判定部13、及び、トレーニング部14を含んで構成されている。
【0022】
図2は、評価装置1のハードウェア構成を示すブロック図である。図2に示すように、評価装置1は、スマートフォン、タブレット端末、コンピュータ端末等に代表される演算装置50によって実現される。演算装置50は、物理的には、プロセッサであるCPU(Central Processing Unit)101、記録媒体であるRAM(Random Access Memory)102及びROM(Read Only Memory)103、通信モジュール104、及び入出力デバイス等を含んだコンピュータ等であり、各々は内部で電気的に接続されている。入出力デバイス105は、キーボード、マウス、ディスプレイ装置、タッチパネルディスプレイ装置、スピーカ等である。上述した評価装置1の各機能部は、CPU101及びRAM102等のハードウェア上に実施形態の評価プログラムを読み込ませることにより、CPU101の制御のもとで、通信モジュール104、及び入出力デバイス105等を動作させるとともに、ROMからのデータの読み出し、RAM102におけるデータの読み出し及び書き込みを行うことで実現される。
【0023】
以下、図1に戻って、評価装置1の各機能部の機能について詳細に説明する。
【0024】
特徴量抽出部11は、咽喉マイクM1を構成するマイクM1R,M1Lのそれぞれから同時に音声信号を受信し、それぞれの音声信号をA/D変換する。以下では、マイクM1Rから受信した音声信号を右側音声信号、マイクM1Lから受信した音声信号を左側音声信号とも呼ぶものとする。そして、特徴量抽出部11は、右側音声信号及び左側音声信号を対象に、ウィンドウ幅80msecの時間ウィンドウ(フレーム)を40msecでシフトさせながら設定し、時間ウィンドウ毎の特徴量を時系列に抽出する。詳細には、特徴量抽出部11は、右側音声信号と左側音声信号を合成した上で、その結果得られた合成信号のスペクトルの特徴を表現するスペクトル特徴量を、スペクトル分析を実行することにより抽出する。同時に、特徴量抽出部11は、右側音声信号と左側音声信号との相互相関値を特徴量として抽出する。
【0025】
このスペクトル特徴量は、スペクトルの特徴を表現するものであれば特定のものには限定されないが、例えば、スペクトルをフーリエ変換して得られるケプストラム、メルケプストラム等の音声スペクトルの概形を表すケプストラムが挙げられる。例えば、本実施形態では、13次元のMFCC(Mel Frequency Cepstral Coefficient)が算出され、それらの時間変化量(前後3フレームのケプストラムの各次元における変化量)である13次元のΔ値と、13次元のΔ値の変化量である13次元のΔΔ値と、がさらに付加された合計39次元のスペクトル特徴量が抽出される。また、本実施形態では、相互相関値として、右側音声信号と左側音声信号との間がサンプリング点を7種類でシフトされた後に(16KHzのサンプリング周波数、80msecの時間ウィンドウの場合、サンプリング点が1280点の2つの信号を-3点~+3点で互いにシフトさせる。)、それらの互いの相互相関値が計算される結果、7次元の相互相関値が抽出される。
【0026】
識別器12は、特徴量抽出部11から時系列に入力される時間ウィンドウ毎の多次元の特徴量を順次処理して、咀嚼及び嚥下に関するイベント毎の尤度を時系列に出力する。すなわち、識別器12は、時間ウィンドウ毎の特徴量として、スペクトル特徴量及び相互相関値が入力され、それらを処理することにより、咀嚼発生の複数のイベント毎の尤度、嚥下発生のイベントの尤度、及びイベントの発生がないことを示すブランク部の尤度を少なくとも出力する。咀嚼発生の複数のイベントとしては、ユーザの顎の右寄りでの咀嚼のイベントを示す「右寄りの咀嚼」、ユーザの顎の左寄りでの咀嚼のイベントを示す「左寄りの咀嚼」、及び、ユーザの顎の前寄りでの咀嚼のイベントを示す「前寄りの咀嚼」が少なくとも含まれる。
【0027】
上記機能を実現するために、識別器12は、深層ニューラルネットワークによる学習モデルを用いる。図3には、識別器12が用いる学習モデル20の機能構成を示している。学習モデル20は、3つのモデルが相互に入出力が接続されて組み合わされたハイブリッドモデルであり、LSTM(Long Short-term Memory)モデル(第1のモデル)21と、CTC(Connectionist Temporal Classification)モデル(第2のモデル)22と、アテンション(Attention)モデル23(第3のモデル)とを含んでいる。
【0028】
LSTMモデル21は、深層ニューラルネットワークであるRNN(Recurrent Neural Network)の一種であり、連続する時間ウィンドウの時系列の特徴量の入力を受けて、上述した複数のイベント毎の尤度を時系列に生成して出力することができる。例えば、LSTMモデル21は、イベント「右寄りの咀嚼」の尤度LRight、イベント「左寄りの咀嚼」の尤度LLeft、イベント「前寄りの咀嚼」の尤度LFront、嚥下発生のイベントの尤度LSwallow、及び、それらのイベントの発生のないことを示すブランク部のイベントの尤度LBlankを時系列に生成して出力する。このようなLSTMモデル21の機能により、音声信号の時間ウィンドウのタイミング毎に、各イベントの起こりうる確率を評価することができる。
【0029】
CTCモデル22は、LSTMモデル21の後段に接続され、“A. Graveset al., “Connectionist temporal classification: Labelling unsegmentedsequence data with recurrent neural networks,” Proc. ICML, pp.369-376(2006)”に記載された既知のニューラルネットワークのアルゴリズムを有する学習モデルである。このCTCモデル22は、LSTMモデル21から時系列に複数のイベント毎の尤度が入力され、咀嚼発生のイベントあるいは嚥下発生のイベントの時間的な重複の除去と、ブランク部のイベントの除去とを行って、咀嚼発生のイベントあるいは嚥下発生のイベントの尤度を、それらのイベントの発生タイミング毎に出力する学習モデルである。具体的には、CTCモデル22は、ある時間ウィンドウのタイミングにおいてブランク部のイベントの尤度LBlankが最大である場合には、その組み合わせを除去し、連続した時間ウィンドウのタイミングにおいて同じイベントの尤度が最大である場合には、後続のタイミングにおける組み合わせを除去しする。
【0030】
アテンションモデル23は、CTCモデル22と並列になるようにLSTMモデル21の後段に接続され、“Neural Machine Translation by Jointly Learning to Align andTranslate (Bahdanau et al, 2015)”に記載された既知のニューラルネットワークのアルゴリズムを有するデコーダモデルである。このアテンションモデル23は、LSTMモデル21と組み合わされてエンコーダ・デコーダモデルを構成する。詳細には、アテンションモデル23は、連続した時間ウィンドウの各イベントの尤度の出力を受けた場合には、イベント間の関係性や全体のコンテキストを考慮して出力を決定することにより、イベントの発生タイミング毎に各イベント毎の尤度を出力する。
【0031】
上記構成の識別器12は、最終出力として、CTCモデル22の出力とアテンションモデル23の出力とを加味した出力を生成する。すなわち、識別器12は、イベントの発生タイミング毎に、2つのモデルから出力された各イベントの尤度(対数尤度)を重み付け加算した尤度を生成し出力する。
【0032】
判定部13は、識別器12のLSTMモデル21の出力を基に、ユーザによる食物粉砕の完了を判定する処理を実行する。すなわち、判定部13は、LSTMモデル21から出力された、イベント「右寄りの咀嚼」の尤度LRight、及びイベント「左寄りの咀嚼」の尤度LLeftと、ブランク部のイベントの尤度LBlankとを比較した計算結果を基に、食物粉砕の完了を判定する。その際、判定部13は、連続した時間ウィンドウのそれぞれの尤度LRight,LLeft,LBlankを対数値LLRight,LLLeft,LLBlankに変換するとともに、それらの値を所定時間分(例えば、1秒間分)平均化した値を用い、下記式を計算することによって粉砕完了度C(t)を計算する。判定部13は、粉砕完了度C(t)を、逐次一定時間毎(例えば40msec毎)に計算する。下記式における関数max(x、y)は、値xと値yのうちの最大値を表す。
C(t) = max(LLLeft(t), LLRight(t))- LLBlank(t)
そして、判定部13は、上記式により、対数尤度LLRight,LLLeftのうちの最大値から、対数尤度LLBlankを引いた値を計算した粉砕完了度C(t)が、所定値(例えば、ゼロ)を下回ったタイミングを、食物粉砕完了のタイミングとして判定し、そのタイミングの判定結果を入出力デバイス105等に出力する。また、判定部13は、粉砕完了のタイミングの他、学習モデル20の最終出力を基にその他のイベントの発生タイミングを併せて検出し、それらの検出結果を出力してもよい。例えば、ユーザが咀嚼を止めた場合に粉砕完了と誤認識されることを防止するために、判定部13は、咀嚼に関するイベントが検出され、かつ、粉砕完了度C(t)が所定値を下回ったタイミングを食物粉砕完了のタイミングとして判定してその判定結果を出力することができる。このとき、判定部13は、イベントの発生タイミングを視覚的に認識可能にディスプレイ等に出力してもよいし、その発生タイミングをユーザの聴覚によって認識可能なようにスピーカ等を用いて音声出力してもよい。
【0033】
トレーニング部14は、識別器12の使用する学習モデルをトレーニングにより構築する機能を有する。すなわち、トレーニング部14は、特徴量抽出部11によって咽喉マイクM1から受信された音声信号から抽出された時系列の特徴量に、ユーザから入出力デバイス105等を介して受け付けたイベントを特定するデータを時系列のラベルとして付加し、ラベルが付加された時系列の特徴量をデータセット(訓練データ)として用いて学習モデルのトレーニングを実行する。このトレーニングは、例えば、誤差逆伝搬法を用いて、学習モデルを構成するニューラルネットワークの各層の各パラメータを更新することにより実行される。このとき、データセットに付加される時系列のラベルは、ユーザによって認識されたイベントを順番に特定するものであり、例えば、「左寄りの咀嚼」、「左寄りの咀嚼」、「右寄りの咀嚼」、…、「嚥下」、のようにイベントを特定するデータを、発生した順番に含む。また、トレーニングは、ハイブリッドモデルである学習モデル20の最終出力を対象に実行される。
【0034】
次に、上述した評価装置1の事前学習処理における動作およびイベント評価処理における動作を説明するとともに、実施形態に係る評価方法の流れについて詳述する。図4は、評価装置1における事前学習処理における動作手順を示すフローチャートであり、図5は、評価装置1におけるイベント評価処理における動作手順を示すフローチャートである。
【0035】
最初に、イベント評価処理を実行する前の任意のタイミングでユーザによって咽喉マイクM1が装着された状態で事前学習処理が開始される。この事前学習処理は、イベント評価処理を実行する度にイベント評価処理の対象のユーザによって毎回実行される必要はなく、評価装置1の提供者等の対象のユーザ以外のユーザが咽喉マイクM1を装着した上で実行されてもよい。事前学習処理が開始されると、ユーザによる食物の摂取時に評価装置1によって咽喉マイクM1から音声信号が受信され、特徴量抽出部11によって、それらの音声信号がA/D変換されるとともに、ユーザから評価装置1にイベントを特定するデータが順番に入力される(ステップS01)。次に、特徴量抽出部11によって、咽喉マイクM1から得られた音声信号から時系列の特徴量が抽出される(ステップS02)。その後、トレーニング部14によって、時系列の特徴量に時系列のイベントを特定する時系列のラベルが付加されたデータセットが生成され、データセットを用いて識別器12の使用する学習モデル20のトレーニングが実行される(ステップS03)。そして、トレーニング部14により、トレーニングによりパラメータが更新された学習モデル20が内部メモリに記憶される(ステップS04)。
【0036】
図4に移って、イベント評価処理の流れについて説明する。このイベント評価処理は、ユーザによって咽喉マイクM1が装着されて食物の摂取が開始された後に、評価装置1に対する指示入力に応じてその都度開始される。
【0037】
最初に、ユーザによる食物の摂取時に評価装置1によって咽喉マイクM1から音声信号が受信され、特徴量抽出部11によって、右側音声信号及び左側音声信号がA/D変換される(ステップS101)。次に、特徴量抽出部11によって、連続する時間ウィンドウにおいてA/D変換された右側音声信号及び左側音声信号を基に、時系列の特徴量が抽出される(ステップS102)。その後、識別器12によって学習モデル20の入力に対して時系列の特徴量が順次入力される(ステップS103)。
【0038】
その結果、識別器12によって、LSTMモデル21の出力として、イベント毎の尤度が、時間ウィンドウ毎に出力される(ステップS104)。さらに、判定部13によって、イベント「右寄りの咀嚼」の対数尤度LLRightと、イベント「左寄りの咀嚼」の対数尤度LLLeftと、ブランク部のイベントの対数尤度LLBlankとが計算され、それぞれの対数尤度を所定時間分(例えば、1秒間分)平均化した値が計算される(ステップS105)。ここでの対数尤度の平均化は、平均化の期間を所定数(例えば、1つ)の時間ウィンドウ分ずらしながら連続して行われる。そして、判定部13によって、平均化された対数尤度LLLeft及び対数尤度LLBlankと、対数尤度LLBlankとを比較した粉砕完了度C(t)が計算される(ステップS106)。この粉砕完了度C(t)は、平均化の期間毎に(例えば、40msecずつずらされた期間毎に)繰り返し計算される。
【0039】
次に、判定部13によって、計算された時系列の粉砕完了度C(t)と所定の閾値とが比較される(ステップS107)。比較の結果、粉砕完了度C(t)が閾値を下回ったと判断された場合には(ステップS107;Yes)、判定部13により、食物粉砕完了のタイミングがその粉砕完了度C(t)の計算対象の時間のタイミングとして検出され、そのタイミングが入出力デバイス105等に出力される(ステップS108)。さらに、判定部13により、時系列の特徴量が入力された学習モデル20の最終出力を基に、各イベントの発生タイミングが検出され、それらの発生タイミングの検出結果が入出力デバイス105等に出力される(ステップS109)。このとき、ユーザが咀嚼を止めた場合に粉砕完了と誤認識されることを防止するために、咀嚼に関するイベントが検出され、かつ、粉砕完了度C(t)が所定値を下回ったタイミングが、食物粉砕完了のタイミングとして検出されて、その検出の結果が出力されてもよい。
【0040】
次に、図6を参照して、コンピュータを上記評価装置1として機能させるための評価プログラムを説明する。
【0041】
評価プログラムP1は、メインモジュールP10、特徴量抽出モジュールP11、識別モジュールP12、判定モジュールP13、及び、トレーニングモジュールP14を備えている。
【0042】
メインモジュールP10は、評価装置1の動作を統括的に制御する部分である。特徴量抽出モジュールP11、識別モジュールP12、判定モジュールP13、及び、トレーニングモジュールP14を実行することにより実現される機能は、それぞれ、特徴量抽出部11、識別器12、判定部13、及びトレーニング部14の機能と同様である。
【0043】
評価プログラムP1は、例えば、CD-ROM、DVDもしくはROM等のコンピュータ読み取り可能な記録媒体または半導体メモリによって提供される。また、評価プログラムP1は、搬送波に重畳されたコンピュータデータ信号としてネットワークを介して提供されてもよい。
【0044】
上述した評価装置1によれば、ユーザの首の右側及び左側に装着された一対のマイクM1R,M1Lを含む咽喉マイクM1からの音声信号を基に時系列の特徴量が抽出され、抽出された特徴量が学習モデル20に入力されることにより、咀嚼発生のイベント毎の尤度と、ブランク部のイベントの尤度とが時系列に出力され、右寄りの咀嚼のイベント及び左寄りの咀嚼のイベントの尤度と、ブランク部の尤度とを比較することにより、ユーザによる食物粉砕の完了が判定される。このようにすることにより、ユーザにより嚥下に至るまでの間で、食物等が十分に咀嚼されて粉砕が完了したタイミングを適切に評価することができる。このとき、イベントの尤度を推定する学習モデル20は、イベント毎の尤度を時系列に出力するLSTMモデル21と、LSTMモデル21からの出力を基に咀嚼発生のイベントの尤度を当該イベントの発生毎に出力するCTCモデル22を含んでいる。このような学習モデル20を用いることで、教師データを用いた学習モデル20のトレーニングを、ユーザの咀嚼時の音声信号にイベントの発生毎のそのイベントを示すラベルを順番に付しただけのデータ(弱ラベル)を用いて行うことができる。そのため、学習モデル20の構築を効率的に実行することができ、結果として、ユーザによる食物粉砕の完了の判定精度を向上させることができる。
【0045】
従来、摂食嚥下の診療に関わる医師あるいは歯科衛生士は、咀嚼の質を判断する手段を持ち合わせておらず、その代わりに、咀嚼の能力として、間接的に、粉砕する力、噛み合わせ状態、舌圧などを測定したり、咀嚼の回数を測定したりしていた。ユーザにとって摂食時には十分な回数の咀嚼を行って適切な食塊を形成するのが重要であることは知られていたが、食物の種類あるいは口腔機能によって咀嚼の適切な回数は変化し、咀嚼の回数の明確な基準は存在しない。本実施形態の評価装置1を用いれば、食材によらず十分な咀嚼が行われて適切な食塊が形成されたタイミングを知ることができ、これと嚥下の発生タイミングとを評価することで十分な咀嚼が行われた上で嚥下に至ったか否かを判断することができる。特に本実施形態では、咀嚼の有無だけでなく咀嚼位置を考慮した識別結果を利用して食物粉砕完了を判定している。このような判定により、食物粉砕完了の判定の精度が向上する。
【0046】
一方で、学習モデルを用いた粉砕完了の判定の際には、ユーザに咀嚼が完了したタイミングを申告させ、その申告結果と音声信号とを用いて学習モデルを構築することも考えられるが、ユーザの負担が増加するうえにユーザ毎の主観に依存する判定となってしまうことから、多様な食材に対して安定した検出を行うには多くの学習データが必要になると予想される。これに対して、本実施形態では、咀嚼位置が曖昧となるタイミングを客観的に推定することにより、食材あるいはユーザによらない頑健な推定方法を提供することができる。
【0047】
また、本実施形態においては、音声信号の合成信号を対象にスペクトル分析を行うことにより抽出した特徴量を用いている。これにより、ユーザによる食物粉砕の完了の判定精度をより高めることができる。また、上記特徴量には、右側音声信号と左側音声信号との相互相関値も含まれている。このような特徴量を用いることにより、ユーザによる食物粉砕の完了の判定精度をより高めることができる。
【0048】
また、本実施形態の判定部13は、右寄りの咀嚼のイベント及び左寄りの咀嚼のイベントの対数尤度の最大値から、ブランク部のイベントの対数尤度を引いた値を基に、ユーザによる食物粉砕の完了を判定している。この場合、ユーザにより嚥下に至るまでの間で、食物等が十分に噛み砕かれて粉砕された状態およびその食物粉砕が完了したタイミングをより適切に評価することができる。つまり、咀嚼が十分に完了したタイミングでは、ユーザにとって咀嚼位置が曖昧になり咀嚼位置の明確な識別ができないと考えられ、左右の咀嚼のどちらの尤度も十分大きな値を示さず、結果としてブランク部の尤度よりも小さくなるものと考えられる。判定部13により、このようなタイミングを基に正確に食物粉砕完了のタイミングを判定することができる。
【0049】
また、本実施形態の判定部13は、LSTMモデル21の出力したイベントごとの尤度を基に、食物粉砕の完了を判定している。このような構成により、LSTMモデル21から時系列に出力されたイベントごとの尤度を用いることにより、食物粉砕が完了したタイミングをより適切に評価することができる。
【0050】
また、本実施形態の判定部13は、LSTMモデル21の出力した尤度を所定期間で平均化した値を用いて、ユーザによる食物粉砕の完了を判定している。このように平均化した値を用いて判定することにより、食物粉砕が完了したタイミングを安定して評価することができる。
【0051】
また、本実施形態の識別器12が用いる学習モデル20は、LSTMモデル21の出力に接続されて、LSTMモデル21から出力された時系列のイベントごとの尤度を基に、咀嚼発生のイベントの尤度を当該イベントの発生毎に出力するアテンションモデル23をさらに含み、CTCモデル22の出力とアテンションモデル23の出力とを加味したイベント毎の尤度を出力している。かかる学習モデル20を用いることにより、咀嚼に関するイベント毎の尤度を、当該イベントの発生毎に高精度に出力できる。また、このような学習モデル20のトレーニングを行う際には、ユーザから入力された時系列のイベントを特定するラベルを、音声信号に付加したデータを、訓練データとして用いることができる。これにより、トレーニング時のユーザの負担を軽減できるとともに、学習モデル20を利用したユーザによる食物粉砕の完了の判定精度をさらに向上させることができる。
【0052】
以上、本発明の種々の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、各請求項に記載した要旨を変更しない範囲で変形し、又は他のものに適用したものであってもよい。
【0053】
例えば、学習モデル20は、LSTMモデル21とCTCモデル22とからのみ構成されていてもよい。この場合、トレーニング部14は、CTCモデル22の出力のみを用いて学習モデル20をトレーニングすることができる。
【符号の説明】
【0054】
1…評価装置、11…特徴量抽出部、12…識別器、13…判定部、20…学習モデル、21…LSTMモデル、22…CTCモデル、23…アテンションモデル、M1…咽喉マイク、P1…評価プログラム、P11…特徴量抽出モジュール、P12…識別モジュール、P13…判定モジュール、P14…トレーニングモジュール。
図1
図2
図3
図4
図5
図6