(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-07-11
(45)【発行日】2023-07-20
(54)【発明の名称】咳検出装置、咳検出装置の作動方法及びプログラム
(51)【国際特許分類】
A61B 5/08 20060101AFI20230712BHJP
A61B 5/11 20060101ALI20230712BHJP
A61B 10/00 20060101ALI20230712BHJP
G10L 25/66 20130101ALI20230712BHJP
G10L 25/51 20130101ALI20230712BHJP
G06T 7/00 20170101ALI20230712BHJP
G06T 7/20 20170101ALI20230712BHJP
【FI】
A61B5/08
A61B5/11 120
A61B10/00 L
G10L25/66
G10L25/51 400
G06T7/00 P
G06T7/00 350B
G06T7/20 300Z
(21)【出願番号】P 2019117220
(22)【出願日】2019-06-25
【審査請求日】2022-01-20
(73)【特許権者】
【識別番号】514136668
【氏名又は名称】パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
【氏名又は名称原語表記】Panasonic Intellectual Property Corporation of America
(74)【代理人】
【識別番号】100109210
【氏名又は名称】新居 広守
(74)【代理人】
【識別番号】100137235
【氏名又は名称】寺谷 英作
(74)【代理人】
【識別番号】100131417
【氏名又は名称】道坂 伸一
(72)【発明者】
【氏名】大毛 勝統
【審査官】▲高▼ 芳徳
(56)【参考文献】
【文献】米国特許出願公開第2009/0312660(US,A1)
【文献】特開2018-117708(JP,A)
【文献】特開2012-062163(JP,A)
【文献】特開2005-199078(JP,A)
【文献】特開2012-173862(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
A61B 5/06 - 5/22
A61B 10/00
G10L 25/00 - 25/93
G06T 7/00 - 7/90
(57)【特許請求の範囲】
【請求項1】
マイクアレイが入力を受けた音に応じて出力する音響データの音響特徴量を抽出する音響特徴量抽出部と、
前記音響特徴量に基づいて前記音に対する識別を実行して、前記音が咳音か否かを判定する第一識別器と、
前記第一識別器により前記音が咳音であると判定された結果を受けて、前記音響データから前記音の到来方向を推定する方向推定部と、
前記音が発生した場面を撮影した画像を示す第一画像データから、推定された前記到来方向に対応する第二画像データを選択する画像選択部と、
前記第二画像データに基づいて前記画像に対する識別を実行して、前記画像に咳動作が写っているか否かを判定する第二識別器と、
前記第二識別器の判定結果に基づく出力をする出力部とを備える
咳検出装置。
【請求項2】
前記方向推定部は、前記第一識別器が咳の音であると判定した前記音の到来方向を推定する、
請求項1に記載の咳検出装置。
【請求項3】
前記第二識別器は、前記第一画像データの前記第二画像データ以外の部分にさらに基づいて前記画像に対する識別を実行して咳動作が写っているか否かを判定し、前記識別において、第二画像データを前記第二画像データ以外の部分より優位に扱って咳動作が写っているか否か判定する、
請求項1
又は2に記載の咳検出装置。
【請求項4】
前記第一識別器は機械学習によって得られる第一推論モデルであり、前記出力部は、前記第一識別器の判定結果と前記第二識別器の判定結果とが咳の発生の有無に関して異なる場合、前記第一推論モデルの再学習用のデータを出力する、
請求項1から
3のいずれか一項に記載の咳検出装置。
【請求項5】
前記出力部は、さらに前記第二識別器がした判定の尤度が前記第一識別器がした判定の尤度よりも高い場合に前記第一推論モデルの再学習用のデータを出力する、
請求項
4に記載の咳検出装置。
【請求項6】
前記画像は、複数の画像センサによって撮影される複数の画像であり、前記複数の画像センサは、前記場面における少なくとも一部が異なる領域を撮影してそれぞれが取得した画像データを前記第一画像データとして出力し、
前記画像選択部は、前記複数の画像センサから、推定された前記到来方向に対応する画像センサを選択し、選択した前記画像センサから出力される前記第一画像データを前記到来方向に対応する前記第二画像データとして第二識別器に入力させる、
請求項1から
5のいずれか一項に記載の咳検出装置。
【請求項7】
前記マイクアレイは複数のマイクアレイを含み、
前記方向推定部は、前記複数のマイクアレイが出力した複数の音響データのそれぞれから推定した前記到来方向を用いて前記音の発生位置を推定し、
前記画像選択部が選択する前記第二画像データは、推定された前記発生位置に対応する、
請求項1から
6のいずれか一項に記載の咳検出装置。
【請求項8】
咳検出装置の作動方法であって、
音響特徴量抽出部が、マイクアレイが入力を受けた音に応じて出力する音響データの音響特徴量を抽出するステップ、
第一識別器が、前記音響特徴量に基づいて前記音に対する識別を実行して、前記音は咳音か否かを判定するステップ、
方向推定部が、前記第一識別器により前記音が咳音であると判定された結果を受けて、前記音響データから前記音の到来方向を推定するステップ、
画像選択部が、前記音が発生した場面を撮影した画像を示す第一画像データから、推定された前記到来方向に対応する第二画像データを選択するステップ、
第二識別器が、前記第二画像データに基づいて前記画像に対する識別を実行して、前記画像に咳動作が写っているか否かを判定するステップ、
出力部が、前記画像に咳動作が写っているか否かの判定結果を出力するステップ
を行う咳検出装置の作動方法。
【請求項9】
プロセッサ及びメモリを備える情報処理装置において前記メモリに記憶され、前記プロセッサによって実行されることで前記情報処理装置に、
マイクアレイが入力を受けた音に応じて出力する音響データの音響特徴量を抽出し、
前記音響特徴量に基づいて前記音に対する識別を実行して、前記音は咳音か否かを判定させ、
前記音が咳音であると判定された結果を受けて、前記音響データから前記音の到来方向を推定させ、
前記音が発生した場面を撮影した画像を示す第一画像データから、推定された前記到来方向に対応する第二画像データを選択させ、
前記第二画像データに基づいて前記画像に対する識別を実行して、前記画像に咳動作が写っているか否かを判定させ、
前記画像に咳動作が写っているか否かの判定結果に基づいて咳の発生の有無を判定させる
プログラム。
【請求項10】
マイクアレイが入力を受けた音に応じて出力する音響データから前記音の到来方向を推定する方向推定部と、
前記音が発生した場面を撮影した画像を示す第一画像データから、推定された前記到来方向に対応する第二画像データを選択する画像選択部と、
前記第二画像データに基づいて前記画像に対する識別を実行して、前記画像に咳動作が写っているか否かを判定する第二識別器と、
前記第二識別器により前記画像に咳動作が写っていると判定された結果を受けて、前記音響データの音響特徴量を抽出する音響特徴量抽出部と、
前記音響特徴量に基づいて前記音に対する識別を実行して、前記音が咳音か否かを判定する第一識別器と、
前記第一識別器の判定結果に基づく出力をする出力部とを備える
咳検出装置。
【請求項11】
前記第一識別器は、前記第二識別器が咳動作が写っていると判定した前記画像に時間的に対応する前記音響データの音響特徴量から前記音が咳の音か否かを判定する、
請求項10に記載の咳検出装置。
【請求項12】
前記第二識別器は機械学習によって得られる第二推論モデルであり、前記出力部は、前記第一識別器の判定結果と前記第二識別器の判定結果とが咳の発生の有無に関して異なる場合、前記第二推論モデルの再学習用のデータを出力する、
請求項10又は11に記載の咳検出装置。
【請求項13】
前記出力部は、さらに前記第一識別器がした判定の尤度が前記第二識別器がした判定の尤度よりも高い場合に前記第二推論モデルの再学習用のデータを出力する、
請求項12に記載の咳検出装置。
【請求項14】
咳検出装置の作動方法であって、
方向推定部が、マイクアレイが入力を受けた音に応じて出力する音響データから前記音の到来方向を推定するステップ、
画像選択部が、前記音が発生した場面を撮影した画像を示す第一画像データから、推定された前記到来方向に対応する第二画像データを選択するステップ、
第二識別器が、前記第二画像データに基づいて前記画像に対する識別を実行して、前記画像に咳動作が写っているか否かを判定するステップ、
音響特徴量抽出部が、前記第二識別器により前記画像に咳動作が写っていると判定された結果を受けて、前記音響データの音響特徴量を抽出するステップ、
第一識別器が、前記音響特徴量に基づいて前記音に対する識別を実行して、前記音が咳音か否かを判定するステップ、
出力部が、前記第一識別器の判定結果に基づく出力をするステップ
を行う咳検出装置の作動方法。
【請求項15】
プロセッサ及びメモリを備える情報処理装置において前記メモリに記憶され、前記プロセッサによって実行されることで前記情報処理装置に、
マイクアレイが入力を受けた音に応じて出力する音響データから前記音の到来方向を推定させ、
前記音が発生した場面を撮影した画像を示す第一画像データから、推定された前記到来方向に対応する第二画像データを選択させ、
前記第二画像データに基づいて前記画像に対する識別を実行して、前記画像に咳動作が写っているか否かを判定させ、
前記画像に咳動作が写っているか否かの判定により前記画像に咳動作が写っていると判定された結果を受けて、前記音響データの音響特徴量を抽出させ、
前記音響特徴量に基づいて前記音に対する識別を実行して、前記音が咳音か否かを判定させ、
前記音が咳音か否かの判定結果に基づく出力をさせる
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、咳の発生の有無について判定する咳の検出技術に関する。
【背景技術】
【0002】
身体に装着しないセンサを用いて咳を検出する装置が提案されている(例えば特許文献1参照)。この装置は、人が座る座席に対応して設けられた動き検出部及び音検出部から送信される動きの情報及び音声の情報に基づいて咳の検出を行う。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら上記の装置による咳の検出では、無声音成分が多いという咳音の性質上、物どうしの衝突音又は摩擦音といった、装置の使用場所で発生するノイズも咳音と誤検知されることがある。
【0005】
本開示は、より高い精度での咳検出が可能な咳検出装置、咳検出装置の作動方法、及び咳検出のためのプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本開示の一態様に係る咳検出装置は、マイクアレイが入力を受けた音に応じて出力する音響データの音響特徴量を抽出する音響特徴量抽出部と、前記音響特徴量に基づいて前記音に対する識別を実行して、前記音が咳音か否かを判定する第一識別器と、前記第一識別器により前記音が咳音であると判定された結果を受けて、前記音響データから前記音の到来方向を推定する方向推定部と、前記音が発生した場面を撮影した画像を示す第一画像データから、推定された前記到来方向に対応する第二画像データを選択する画像選択部と、前記第二画像データに基づいて前記画像に対する識別を実行して、前記画像に咳動作が写っているか否かを判定する第二識別器と、前記第二識別器の判定結果に基づく出力をする出力部とを備える。
【0007】
また、本開示の一態様に係る咳検出装置の作動方法は、音響特徴量抽出部が、マイクアレイが入力を受けた音に応じて出力する音響データの音響特徴量を抽出するステップ、第一識別器が、前記音響特徴量に基づいて前記音に対する識別を実行して、前記音は咳音か否かを判定するステップ、方向推定部が、前記第一識別器により前記音が咳音であると判定された結果を受けて、前記音響データから前記音の到来方向を推定するステップ、画像選択部が、前記音が発生した場面を撮影した画像を示す第一画像データから、推定された前記到来方向に対応する第二画像データを選択するステップ、第二識別器が、前記第二画像データに基づいて前記画像に対する識別を実行して、前記画像に咳動作が写っているか否かを判定するステップ、出力部が、前記画像に咳動作が写っているか否かの判定結果を出力するステップを行う。
【0008】
また、本開示の一態様に係るプログラムは、プロセッサ及びメモリを備える情報処理装置において前記メモリに記憶され、前記プロセッサによって実行されることで前記情報処理装置に、マイクアレイが入力を受けた音に応じて出力する音響データの音響特徴量を抽出し、前記音響特徴量に基づいて前記音に対する識別を実行して、前記音は咳音か否かを判定させ、前記音が咳音であると判定された結果を受けて、前記音響データから前記音の到来方向を推定させ、前記音が発生した場面を撮影した画像を示す第一画像データから、推定された前記到来方向に対応する第二画像データを選択させ、前記第二画像データに基づいて前記画像に対する識別を実行して、前記画像に咳動作が写っているか否かを判定させ、前記画像に咳動作が写っているか否かの判定結果に基づいて咳の発生の有無を判定させる。
【発明の効果】
【0009】
それぞれ本開示の一態様に係る咳検出装置、咳検出装置の作動方法、及びプログラムは、より高い精度での咳検出を可能にする。
【図面の簡単な説明】
【0010】
【
図1】
図1は、実施の形態に係る咳検出装置の構成例を示すブロック図である。
【
図2】
図2は、上記の咳検出装置と用いられるマイクアレイ及び画像センサの位置関係の例を示す平面図である。
【
図3】
図3は、上記の咳検出装置に画像センサから入力される画像データが示す画像の概要を示す模式図である。
【
図4A】
図4Aは、上記の咳検出装置において実行される画像データからの選択について説明するための模式図である。
【
図4B】
図4Bは、上記の咳検出装置において実行される画像データからの選択について説明するための模式図である。
【
図4C】
図4Cは、上記の咳検出装置において実行される画像データからの選択について説明するための模式図である。
【
図5】
図5は、実施の形態の変形例に係る咳検出装置の構成例を示すブロック図である。
【
図6】
図6は、実施の形態の変形例に係る咳検出装置の構成例を示すブロック図である。
【
図7】
図7は、実施の形態の変形例に係る咳検出装置の構成例を示すブロック図である。
【
図8】
図8は、実施の形態の変形例に係る咳検出装置を説明するための模式図である。
【
図9】
図9は、実施の形態に係る咳検出装置が実行する処理の手順例のフロー図である。
【発明を実施するための形態】
【0011】
(本開示の基礎となった知見)
咳音を検出する従来の手法としては、マイクロフォン(以下、マイクと表記)で取得された音響データから音響特徴量を抽出し、識別器でこの音響特徴量に基づいて咳音であるか否かの判定が行われている。音響特徴量としては、例えばメル周波数ケプストラム係数(MFCC:Mel-Frequency Cepstrum Coefficients)が用いられる。識別器では、例えばこの音響特徴量とGMM(Gaussian Mixture Model)の音響モデルとの類似度に基づく識別、又はこの音響特徴量を入力として用いるDNN(Deep Neural Network)の推論モデルによる識別が実行される。
【0012】
しかしながら、咳音は無声音であるため、周期的なスペクトル構造を持たない。。したがって、上述のようにモデル化した咳音データを用いての識別では、装置の周辺で発生するノイズも誤って咳音であると識別されやすいという問題がある。
【0013】
このような問題に対する解決手法の一例として、音響データ以外のセンサデータを用いるマルチモーダルな咳検出手法が挙げられる。音響データ以外のセンサデータとは、例えば赤外線センサ等の感知領域の人の動きを示し得るデータである。そして咳らしい音の発生と、人の所定の動きの発生とが同期した場合に、咳が発生したと判定する。
【0014】
しかしながら、この手法では、例えば感知領域において、咳らしい音の発生とは無関係に発生した人の動きが判定に用いられる可能性がある。つまり音センサ及び赤外線センサの感知領域内で、咳らしい音と、咳とは無関係の動きとが同時に発生した場合に誤検出が発生し得る。
【0015】
本発明者は、鋭意検討を重ねてこのような誤検出の発生の可能性を抑えることが可能な下記の咳検出装置、咳検出方法、及び咳検出のためのプログラムに想到した。
【0016】
本開示の一態様に係る咳検出装置は、マイクアレイが入力を受けた音に応じて出力する音響データの音響特徴量を抽出する音響特徴量抽出部と、前記音響特徴量に基づいて前記音に対する識別を実行して、前記音が咳音か否かを判定する第一識別器と、前記音響データから前記音の到来方向を推定する方向推定部と、前記音が発生した場面を撮影した画像を示す第一画像データから、推定された前記到来方向に対応する第二画像データを選択する画像選択部と、前記第二画像データに基づいて前記画像に対する識別を実行して、前記画像に咳動作が写っているか否かを判定する第二識別器と、前記第一識別器の判定結果及び前記第二識別器の判定結果の少なくとも一方に基づく出力をする出力部とを備える。
【0017】
これにより、音響特徴量から識別された音、及びこの音の推定された到来方向、並びに画像データのうち、この到来方向に対応する範囲の画像データに基づいて咳の発生の有無が判定される。したがって、例えば咳らしい音と同時に発生した咳らしい動作が、この音の到来方向にない位置で発生した場合に、画像に人が咳をする動作が写っていると判定される可能性が抑えられる。
【0018】
なお、前記方向推定部は、前記第一識別器が咳の音であると判定した前記音の到来方向を推定してもよい。また、前記第一識別器は、前記第二識別器が咳動作が写っていると判定した前記画像に時間的に対応する前記音響データの音響特徴量から前記音が咳の音か否かを判定してもよい。
【0019】
このように、音が咳音であるか否か識別と、音の到来方向に対応する画像に咳動作が写っているか否かの識別とは、いずれが先に実行されてもよい。
【0020】
また、前記第二識別器は、前記第一画像データの前記第二画像データ以外の部分にさらに基づいて前記画像に対する識別を実行して咳動作が写っているか否かを判定し、前記識別において、第二画像データを前記第二画像データ以外の部分より優位に扱って咳動作が写っているか否か判定してもよい。
【0021】
したがって、画像センサによって撮影される範囲のうち、音の到来方向に対応する領域で咳動作に類似した動作が発生した場合に、咳の発生ありと判定される可能性が抑えられる。
【0022】
また、前記第一識別器は機械学習によって得られる第一推論モデルであり、前記出力部は、前記第一識別器の判定結果と前記第二識別器の判定結果とが咳の発生の有無に関して異なる場合、前記第一推論モデルの再学習用のデータを出力してもよい。または、前記出力部は、さらに前記第二識別器がした判定の尤度が前記第一識別器がした判定の尤度よりも高い場合に前記第一推論モデルの再学習用のデータを出力してもよい。
【0023】
これにより、音響特徴量に基づく音識別の正確さの向上が図られる。
【0024】
また、前記第二識別器は機械学習によって得られる第二推論モデルであり、前記出力部は、前記第一識別器の判定結果と前記第二識別器の判定結果とが咳の発生の有無に関して異なる場合、前記第二推論モデルの再学習用のデータを出力してもよい。または、前記出力部は、さらに前記第一識別器がした判定の尤度が前記第二識別器がした判定の尤度よりも高い場合に前記第二推論モデルの再学習用のデータを出力してもよい。
【0025】
これにより、画像識別の正確さの向上が図られる。
【0026】
また、前記画像は、複数の画像センサによって撮影される複数の画像であり、前記複数の画像センサは、前記場面における少なくとも一部が異なる領域を撮影してそれぞれが取得した画像データを前記第一画像データとして出力し、前記画像選択部は、前記複数の画像センサから、推定された前記到来方向に対応する画像センサを選択し、選択した前記画像センサから出力される前記第一画像データを前記到来方向に対応する前記第二画像データとして第二識別器に入力させてもよい。
【0027】
このように、画像データは複数の画像センサから出力されるデータからなるものであってもよく、その一部の画像センサが出力する画像データに基づいて咳動作の識別を行ってもよい。
【0028】
また、前記マイクアレイは複数のマイクアレイを含み、前記方向推定部は、前記複数のマイクアレイが出力した複数の音響データのそれぞれから推定した前記到来方向を用いて前記音の発生位置を推定し、前記画像選択部が選択する前記第二画像データは、推定された前記発生位置に対応してもよい。
【0029】
このように、音の発生位置を推定することで、制菌効果のある機器を動作させる等の咳への対応を、より高い局所性で効率のよく実行することができる。
【0030】
また、本開示の一態様に係る咳検出方法は、マイクアレイが入力を受けた音に応じて出力する音響データの音響特徴量を抽出し、前記音響特徴量に基づいて前記音に対する識別を実行して、前記音は咳音か否かを判定し、前記音響データから前記音の到来方向を推定し、前記音が発生した場面を撮影した画像を示す第一画像データから、推定された前記到来方向に対応する第二画像データを選択し、前記第二画像データに基づいて前記画像に対する識別を実行して、前記画像に咳動作が写っているか否かを判定し、前記音は咳の音か否かの判定結果と前記画像に咳動作が写っているか否かの判定結果との少なくとも一方に基づいて咳の発生の有無を判定する。
【0031】
また、本開示の一態様に係るプログラムは、プロセッサ及びメモリを備える情報処理装置において前記メモリに記憶され、前記プロセッサによって実行されることで前記情報処理装置に、マイクアレイが入力を受けた音に応じて出力する音響データの音響特徴量を抽出し、前記音響特徴量に基づいて前記音に対する識別を実行して、前記音は咳音か否かを判定させ、前記音響データから前記音の到来方向を推定させ、前記音が発生した場面を撮影した画像を示す第一画像データから、推定された前記到来方向に対応する第二画像データを選択させ、前記第二画像データに基づいて前記画像に対する識別を実行して、前記画像に咳動作が写っているか否かを判定させ、前記音は咳の音か否かの判定結果と前記画像に咳動作が写っているか否かの判定結果との少なくとも一方に基づいて咳の発生の有無を判定させる。
【0032】
このような方法又はプログラムによっても、音響特徴量に基づいて識別された音、及びこの音の推定された到来方向、並びに画像データのうち、この到来方向に対応する範囲の画像データに基づいて咳の発生の有無が判定される。したがって、例えば咳らしい音と同時に発生した咳らしい動作が、この音の到来方向にない位置で発生した場合に、画像に咳動作が写っていると判定される可能性が抑えられる。
【0033】
なお、本開示において、検出の対象を咳と表現しているが、本開示における咳検出装置、咳検出方法及びプログラムは、くしゃみの検出にも用いることができる。咳とくしゃみとは、発生メカニズムに違いはあるが、いずれも気道系の異物を体外へ排除しようと空気を強制的に排出する運動である。そしていずれも通常の呼吸と比べて、速く大きな動作と大きな音を伴い、その音は発話時に比べて非周期的な周波数成分を高い割合で含み得る。咳又はくしゃみによって体外に排出された空気には、気道系にあった異物、及びおもに飛沫状の唾液等の分泌物が含まれる。本開示における咳検出装置等で咳及びくしゃみの発生を精度よく行われた検出の結果は、例えば体調の観察、又は空気質の維持管理(例えば空気清浄機による空気の浄化又は換気装置による換気)に利用することができる。このような点に鑑み、本開示における咳検出装置等による検出の対象として記載される咳の語は、くしゃみも指し得るものとして用いられる。また、咳音の語はくしゃみの音も指し得るものとして、咳動作の語はくしゃみによる動作も指し得るものとして用いられる。そして検出過程及び検出結果において咳とくしゃみとは区別されてもよいが、この区別は必須ではない。
【0034】
なお、本開示の包括的又は具体的な態様は、システム、集積回路、又はCD-ROM等のコンピュータ読み取り可能な記録媒体で実現されてもよく、装置、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
【0035】
以下、本開示の一態様に係る情報処理装置、プログラム及び情報処理方法の具体例について、図面を参照しながら説明する。ここで示す実施の形態は、いずれも本開示の一具体例を示すものである。従って、以下の実施の形態で示される数値、形状、構成要素、構成要素の配置及び接続形態、並びに、ステップ(工程)及びステップの順序等は、一例であって本開示を限定するものではない。以下の実施の形態における構成要素のうち、本開示の一形態に係る実現形態を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。本開示の実現形態は、現行の独立請求項に限定されるものではなく、他の独立請求項によっても表現され得る。また、各図は本開示に係る概念を説明するための模式図であり、各図に表されるものの形状、個数、配置、縮尺及び大小関係等は必ずしも厳密なものではない。
【0036】
(実施の形態)
[1.咳検出装置の構成]
実施の形態に係る咳検出装置10は、人が出入り又は利用する室内の空間にいる人による咳の発生の有無を判定する(咳の検出)。また、咳検出装置10は、この判定の結果に応じたデータ等を出力する。
【0037】
図1は、咳検出装置10の構成例を示すブロック図である。上記のように機能する咳検出装置10は、音響特徴量抽出部11、画像データ選択部12、第一識別器13、第二識別器14、方向推定部15及び出力部16を備える。咳検出装置10は、例えばプロセッサ及びメモリを含む情報処理装置を用いて実現され、これらの構成要素は、メモリに記憶される1個又は複数個のプログラムをプロセッサが実行することで実現される機能的な構成要素である。
【0038】
咳検出装置10には、マイクロフォンアレイ(本開示ではマイクアレイと表記)20及びカメラ30が接続される。咳検出装置10において、マイクアレイ20が入力を受けた音に応じて出力する音響データの入力を受けるのが、音響特徴量抽出部11及び方向推定部15である。音響特徴量抽出部11は、入力を受けた音響データの音響特徴量を抽出する。この音響特徴量とは、例えばMFCCである。方向推定部15は、マイクアレイ20が入力を受けた音の到来方向を推定する。音の到来方向は、マイクアレイ20が備える複数のマイク素子へのこの音の入力の時間差に基づいて推定される。カメラ30が出力する画像データは、画像データ選択部12に入力される。なお、カメラ30が備える、この画像データを生成する撮像素子は、例えば感知した可視光又は赤外光を画像データとして出力する画像センサである。
【0039】
第一識別器13は、音響特徴量抽出部11が抽出した音響特徴量に基づいて、マイクアレイ20が入力を受けた音に対する識別を実行して、当該音は咳音か否かを判定する。この識別は、例えば大量の咳音を記録した音響データから抽出された音の特徴データに基づいてあらかじめ用意した、咳音の統計的な音響モデルを用いて行われる。この場合、第一識別器13は、音響特徴量抽出部11が抽出した音響特徴量の、この音響モデルとの類似度が所定の閾値を超える場合に、マイクアレイ20が入力を受けた音は咳音であるとの判定結果を出力する。また別の例として、第一識別器13は、機械学習によって得られる推論モデルである。この推論モデルは、例えば、咳音の音響特徴量及び咳音でない音の音響特徴量のそれぞれに正解ラベルを加えたものを学習データとして用いる訓練によって得られる。このような推論モデルである第一識別器13は、音響特徴量抽出部11が抽出した音響特徴量が入力されると、マイクアレイ20が入力を受けた音に対する識別を実行して、当該音が咳音であるか否かの判定結果を出力する。第一識別器13の識別結果は、方向推定部15に入力される。
【0040】
方向推定部15は、マイクアレイ20が入力を受けた音は咳音であるとの判定結果の入力を受けた場合に、上述の音、つまり咳音の到来方向の推定処理を実行する。方向推定部15の推定した到来方向の情報は、画像データ選択部12に入力される。
【0041】
画像データ選択部12には上述のとおり、カメラ30が出力する画像データと、咳音の推定された到来方向とが入力される。画像データ選択部12は、入力を受けた画像データ(第一画像データ)から、方向推定部15が推定した到来方向に対応する部分である画像データ(第二画像データ)を選択する。この選択の詳細については後述する。画像データ選択部12は、本実施の形態における画像選択部の例である。
【0042】
第二識別器14は、カメラ30で撮影された画像を、第二画像データに基づいて識別し、当該画像に咳動作が写っているか否かを判定する。この識別は、例えば大量の咳動作を記録した画像データから抽出された咳動作が写っている画像の特徴データに基づいてあらかじめ用意した、咳動作の統計的な画像モデルを用いて行われる。この場合、第二識別器14は、第二画像データの特徴量を抽出し、この特徴量と画像モデルとの類似度が所定の閾値を超える場合に、第二画像データが示す画像には咳動作が写っているとの判定結果を出力する。また別の例として、第二識別器14は、機械学習によって得られる推論モデルを含む。この推論モデルは、例えば、咳動作が写っている画像の特徴量及び咳動作でない動作が写っている画像の特徴量のそれぞれに正解ラベルを加えたものを学習データとして用いる訓練によって得られる。このような推論モデルを含む第二識別器14は、第二画像データが入力されると、第二画像データが示す画像に対する識別を実行して、当該画像に咳動作が写っているか否かの判定結果を出力する。
【0043】
出力部16は、第二識別器14の判定結果に基づく出力をする。出力部16による第二識別器14の判定結果に基づく出力とは、例えば表示装置又はスピーカを介して咳検出装置10のユーザに対して、咳の検出の有無を提示するための文字、画像又は音を示すデータであってもよい(
図1における「結果提示データ」)。また例えば、記憶装置に保持される判定結果のログに記録されるデータであってもよい(
図1における「結果記録データ」)。また例えば、空気清浄機又は換気扇等の他の機器に所定の動作を実行させる命令であってもよい(
図1における「制御コマンド」)。なお、上述の表示装置、スピーカ、記憶装置、空気清浄機等に例示される咳検出装置10の出力の受け手は、咳検出装置10とは別体であって共にひとつのシステムを構成してもよい。または、咳検出装置10を含んで、又は咳検出装置10に含まれて一体であってもよい。
【0044】
[2.咳音の到来方向及び第二画像データの選択]
次に、咳検出装置10で実行される、咳音の到来方向及び第二画像データの選択について説明する。
【0045】
咳検出装置10では上述のように、マイクアレイ20から入力を受けた音響データは、方向推定部15によって音の到来方向の推定に用いられる。また、カメラ30から入力を受けた第一画像データから、画像データ選択部12によって、方向推定部15が推定した音の到来方向に対応する部分である第二画像データが選択される。
【0046】
第一画像データから選択される音の到来方向に対応する部分とは、例えば、第一画像データが示す画像において、当該音の発生源が写っている領域を示す部分、又は当該領域と重なり、かつ画像全体よりも小さい領域を示す部分である。音の到来方向と第一画像データにおける第二画像データの範囲との対応関係は、例えばマイクアレイ20及びカメラ30の配置に応じて定まる。この対応関係について、例を用いて以下に説明する。
【0047】
図2は、咳検出装置10を用いて咳検出が行われる部屋等の空間におけるマイクアレイ20とカメラ30との位置関係の例を示す平面図である。図中の角度は、この例においてマイクアレイ20から入力された音響データを用いて方向推定部15が推定する音の到来方向を表す。さらにこの例では、マイクアレイ20の真正面から来る音の到来方向は90°と表され、真正面よりも右寄りの到来方向は0°以上90°未満の角度、真正面よりも左寄りの到来方向は90°より大きく180°以下の角度で表される。マイクアレイ20及びカメラ30は、マイクアレイ20の真正面の方向とカメラ30の光軸(
図2中、点線)とが平面視で一致するように配置されている。このような位置関係にあるマイクアレイ20及びカメラ30は、咳検出が行われる部屋の、例えば壁に設置される。そしてマイクアレイ20は、この部屋の中で発生した音を拾い、カメラ30は、この部屋の中の全体又は咳検出の対象である所定の部分を撮影範囲に収めて撮影する。
【0048】
図3は、この例においてカメラ30から咳検出装置10に入力される第一画像データが示す画像の概要を示す模式図である。なお、
図3はマイクアレイ20で拾われる音の到来方向とカメラ30で撮影される画像の領域との対応を説明するために単純化されたものであり、カメラ30で実際に撮影される画像に表れる遠近感、歪曲収差等の、この対応の概念の理解に必須でない表現は省略されている。以下で参照する
図4Aから
図4Cについても同様である。
図3に示される画像は、咳検出装置10を用いて咳検出が行われる空間では、複数の人が異なる位置にいることを表す。なお、
図3において破線の格子は、カメラ30で撮影された画像を複数の画素ブロックに区切って便宜的に示すものである。
【0049】
このように複数の人がいる空間の画像を撮影するカメラ30とマイクアレイ20とが
図2に示される位置関係にあると想定する。そして、例えばマイクアレイ20から咳検出装置10に入力された音響データから音響特徴量抽出部11が抽出した音響特徴量に基づいて、マイクアレイ20が入力を受けた音は咳音であると第一識別器13が判定し、かつ方向推定部15が推定した咳音の到来方向が、30°である例を想定する。この到来方向の入力を受けた画像データ選択部12は、到来方向30°に対応する部分を第一画像データから選択する。
図4Aは、画像データ選択部12によって第一画像データから選択される部分を説明するための模式図である。
【0050】
図4Aに示す画像は、カメラ30が
図3と同じ空間を撮影したものである。この画像において、到来方向30°に対応するのは、画像の右寄りに位置する網掛けのない領域である。画像データ選択部12は、第一画像データから、この領域を示す部分を第二画像データとして選択する。同様に、方向推定部15が推定した咳音の到来方向が例えば90°であれば、画像データ選択部12は、第一画像データから、
図4Bに示す画像の中央付近に位置する網掛けのない領域を示す部分を第二画像データとして選択する。方向推定部15が推定した咳音の到来方向が例えば150°であれば、画像データ選択部12は、第一画像データから、
図4Cに示す画像の左寄りに位置する網掛けのない領域を示す部分を第二画像データとして選択する。
【0051】
なお、画像データ選択部12による第一画像データからの第二画像データの選択とは、第二識別器14が実行する識別による判定が、第二画像データを第一画像データのその他の部分よりも優位に扱って実行されるようにするものであればよい。
【0052】
第二識別器14が実行する識別によるこのような判定の具体例として、第二画像データのみに基づいて実行されてもよい。このために画像データ選択部12では、第一画像データが示す画像に、第二画像データが示す画像を残すようにクロッピング又はマスキングが施されてもよい。また例えば、第一画像データにおける第二画像データの範囲を特定する処理、例えば第一画像データが示す画像における第二画像データが示す画像の範囲を座標等を用いて特定してもよい。この例の場合、第二識別器14は、画像データ選択部12から座標などの第二画像データの範囲を示す情報を取得し、この範囲に限定して識別による判定を実行する。第二画像データが示す画像の範囲を特定する情報の別の例として、音の到来方向と対応する第二画像データの範囲を指す識別子であってもよい。この識別子はあらかじめ定められ、画像データ選択部12は、方向推定部15から入力された咳音の到来方向に対応する第二画像データの範囲を指す識別子を選択して第二識別器14に通知する。具体例としては、0°以上60°未満の咳音の到来方向に対して、第一画像データのうち
図4Aに示す網掛けのない領域を示す範囲が第二画像データの範囲であり、この範囲を指す識別子が「A1」とあらかじめ定められている場合を想定する。また、60°以上の到来方向については、別の範囲を指す識別子が定められている。この場合に、方向推定部15から、推定した咳音の到来方向として例えば30°が通知された画像データ選択部12は、識別子「A1」を選択して第二識別器14に通知する。そして第二識別器14は、第一画像データから識別子「A1」が示す範囲を第二画像データとして識別による判定を実行する。
【0053】
第二画像データを第一画像データのその他の部分よりも優位に扱う識別による判定の別の具体例として、第一画像データのうちの第二画像データとして選択されなかった部分にも基づくものの、第二画像データの重要度をそれ以外の部分よりも高くして実行されてもよい。第二画像データとして選択されなかった部分とは、
図4Aから
図4Cの例を用いてより視覚的にいえば、網掛けのある領域である。つまり画像データ選択部12は、第一画像データから、含む画素データの重み付けをより重くする部分を第二画像データとして選択する。なお、重み付けは、識別による判定における第二画像データの画素データの重要度が第一画像データ全体で最も高くなるよう設定されればよい。また、第一画像全体で三段階以上の重みが設定されてもよく、例えば、第二画像データが示す部分からより遠い画素の重要度はより低くなるように設定されてもよい。このような重み付けの処理は、画像データ選択部12で実行されてもよいし、画像データ選択部12は第二画像データの選択まで実行し、選択された第二画像データへの重み付けの処理は第二識別器14で実行されてもよい。
【0054】
なお、
図4Aから
図4Cの例では、音の到来方向に応じて選択される第二画像データが示す画像は、第一画像データが示す画像全体を等分したひとつであるが、これに限定されない。音の到来方向に応じて選択される第二画像データが示す部分の第一画像データが示す画像に占める大きさ、又は形状は異なってもよい。例えば音の到来方向が、その取り得る範囲(
図2の例では0°以上180°以下)の中央(90°)付近の場合と当該範囲の端(0°又は180°)により近い場合とで、第二画像データが示す部分の大きさが異なっていてもよい。また例えば、音の到来方向に応じて、その方向に居る人の像の形状(見え方)の傾向に合わせて第二画像データが示す部分の形状が異なっていてもよい。例えば、カメラ30が天井又は天井付近にある場合、カメラ30の真下に居る人とカメラ30から離れた位置に居る人とでは、見え方の傾向が異なり得る。また、ある到来方向に応じて選択される第二画像データが示す部分と、他の到来方向に応じて選択される第二画像データが示す部分との間に重複があってもよい。
【0055】
[3.効果]
上記のような構成を有する咳検出装置10では、カメラ30によって撮影された画像の中で、咳音である可能性が高い音が発生した方向が写っている部分に対し、それ以外の部分よりも強く着目して咳動作の検出が実行される。これにより、咳検出が実行される空間内の複数の人、家具、備品又は電気製品等を被写体に含む画像全体に対して行われるよりも、より正確な咳動作の検出が可能である。
【0056】
(実施の形態の変形例)
本開示の一又は複数の態様に係る咳検出装置は、上記実施の形態の説明に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が想到する各種の変形を上記の実施の形態に施したものであっても上述の効果を奏し得るものであれば、本開示の態様に含まれる。下記にそのような変形の例を挙げる。
【0057】
[変形例1]
上記実施の形態の一変形例における咳検出装置は、音の識別に先んじて画像の識別を実行する点が上記実施の形態における咳検出装置10と異なる。
図5は、このような咳検出装置10Aの構成例を示すブロック図である。
図5において咳検出装置10と共通の構成要素は、共通の参照符号で示し、以下では本変形例の上記実施の形態との差異を中心に説明する。
【0058】
咳検出装置10Aは、咳検出装置10と構成要素間のデータ(情報)の流れが異なる。実施の形態に係る咳検出装置10では、マイクアレイ20から出力された音響データに対して音響特徴量の抽出及び音の識別と、音の到来方向の推定とが実行されてから、画像の識別による咳動作の判定が実行される。咳検出装置10Aでは、マイクアレイ20から出力された音響データに対して、一旦は方向推定部15による音の到来方向の推定のみが実行され、音の識別は画像の識別による咳動作の判定後に実行される点が咳検出装置10と異なる。
【0059】
図5に示すように、方向推定部15によって推定された音の到来方向の情報は、画像データ選択部12に入力される。画像データ選択部12は、この音の到来方向の情報を用いて、カメラ30から入力される第一画像データにおいてこの到来方向に対応する部分である第二画像データを選択する。第二識別器14は、第二画像データに基づく識別を実行して当該画像に咳動作が写っているか否かを判定する。なお、第二識別器14が実行するこの識別による判定は、上記実施の形態の場合と同じく第二画像データのみに基づいてもよいし、第二画像データ以外の部分にも基づくものの、第二画像データを優位に扱って実行されてもよい。第二識別器14での判定結果は、音響特徴量抽出部11に入力される。
【0060】
音響特徴量抽出部11は、画像に咳動作が写っているとの判定結果の入力を受けた場合に、音響データの音響特徴量を抽出する。なお、この音響特徴量の抽出は、第二識別器14によって咳動作が写っていると判定された画像に時間的に対応する音響データに対して実行される。そして第一識別器13が、音響特徴量抽出部11が抽出した音響特徴量に基づいて、マイクアレイ20が入力を受けた音に対する識別を実行して、当該音は咳音か否かを判定する。
【0061】
出力部16は、第一識別器13の判定結果に基づく出力をする。出力部16による第一識別器13の判定結果に基づく出力とは、上記実施の形態の場合と同じく、例えば結果提示データ、結果記録データ、又は制御コマンドである。
【0062】
このような構成を有する咳検出装置10Aにおいても、カメラ30によって撮影された画像の中で、咳音である可能性が高い音が発生した方向が写っている部分に対し、それ以外の部分よりも強く着目して咳動作の検出が実行される。これにより、咳検出が実行される空間内に様々な被写体に含み得る画像全体に対して行われるよりも、より正確な咳動作の検出が可能である。
【0063】
[変形例2]
上記実施の形態においては、第一識別器13及び第二識別器14のそれぞれについて、機械学習によって得られる推論モデルであってもよいと述べた。本変形例における咳検出装置は、これらの推論モデルの再学習のためのデータを生成してもよく、また、さらにこのデータを用いて再学習を実行してもよい。
図6は、このような咳検出装置10Bの構成例を示すブロック図である。
図6において咳検出装置10と共通の構成要素は、共通の参照符号で示し、以下では本変形例の上記実施の形態との差異を中心に説明する。
【0064】
咳検出装置10Bは、咳検出装置10の構成に加えて学習用データ蓄積部17を備える。学習用データ蓄積部17は、第一識別器13の再学習に用いられる再学習用データが保存される場所である。学習用データ蓄積部17は、例えば咳検出装置10Bを実現する情報処理装置が備える記憶装置、又は外部にあって当該情報処理装置と通信可能に接続される記憶装置上に設けられる。
【0065】
再学習用データは、本変形例に係る咳検出装置10Bから出力されるもののひとつである。出力部16は、第一識別器13の判定結果及び第二識別器14の判定結果を取得し、これらに基づいて生成した再学習用データを出力する。学習用データ蓄積部17に保存された再学習用データは、その後の第一識別器13の再学習に用いられる。
【0066】
例えば、出力部16は、第一識別器13からの判定結果と第二識別器14からの判定結果とが、咳の発生の有無に関して異なる場合に再学習用データを生成して出力してもよい。具体的には、第一識別器13からは音が咳音であるという判定結果を取得し、且つ、第二識別器14からは画像に咳動作は写らないという判定結果を取得した出力部16は、音響特徴量のデータと、咳音であるという正解ラベルとを組み合わせて再学習用データとして出力してもよい。
【0067】
または出力部16は、第一識別器13及び第二識別器14から、それぞれが実行した判定の尤度をさらに取得し、第一識別器13がした判定の尤度よりも第二識別器14がした判定の尤度が高い場合に、上記のような再学習用データを生成して出力してもよい。つまり、第二識別器14が識別した画像に写っている動作が咳ではないという判定の尤度が、第一識別器13が識別した音が咳音であるという判定の尤度を上回る場合に、第一識別器13の再学習用データを用意されて第一識別器13による識別の正確さの向上が図られる。
【0068】
なお、本変形例に係る技術は、変形例1にも適用可能である。変形例1に適用した場合、例えば第二識別器14から画像に咳動作が写っているという判定結果を取得し、且つ、第一識別器13から音が咳音ではないという判定結果を取得した出力部16が、画像データと、咳動作でないという正解ラベルとを組み合わせて再学習用データとして出力してもよい。また、さらに第一識別器13が識別した音が咳音ではないという判定の尤度が、第二識別器14が識別した画像に咳音が写っているという判定の尤度を上回る場合に、第二識別器14の再学習用データが用意されて第二識別器14による識別の正確さの向上が図られる。
【0069】
また、本変形例では、再学習用データを生成する目的で、
図6に示す構成例の場合に、第一識別器13で音が咳音ではないと判定された場合にも、方向推定部15による到来方向の推定と第二識別器14による画像の識別による判定とが実行されてもよい。そして、出力部16は、第一識別器13からの判定結果と第二識別器14からの判定結果とが、上記の組み合わせに限らず咳の発生の有無に関して異なる場合に再学習用データを生成して出力してもよい。変形例1に本変形例に係る技術を適用した場合についても同様であり、第二識別器14で画像に咳動作は写らないと判定された場合にも、音響特徴量抽出部11による音響データの特徴量の抽出と第一識別器13による音の識別による判定とが実行されてもよい。
【0070】
このような構成を有する咳検出装置10Bにおいては、咳検出装置10及び咳検出装置10Aが奏する効果に加えて、使用開始後にも咳検出の正確さの向上が図られるという効果が得られる。
【0071】
[変形例3]
上記実施の形態及び各変形例では、画像データ選択部12に入力される画像データは、1台のカメラ30が備える画像センサが撮影した画像を示すものである。しかしながら、本変形例のように、複数台のカメラ(以下、まとめてカメラ群ともいう)の画像センサによって撮影される画像を示す画像データが第一画像データとして咳検出装置に入力されてもよい。
図7は、複数台のカメラからなるカメラ群30Aが接続される咳検出装置10Cの構成例を示すブロック図である。
図7において咳検出装置10と共通の構成要素は、共通の参照符号で示し、以下では本変形例の上記実施の形態との差異を中心に説明する。
【0072】
咳検出装置10Cは、咳検出装置10の構成における画像データ選択部12に代えて、画像センサ選択部18を備える。
【0073】
カメラ群30Aは、カメラ31、32及び33によって構成される。カメラ31、32及び33のそれぞれが備える画像センサからは、撮影した画像を示す画像データが第一画像データとして出力される。カメラ31、32及び33のそれぞれの画像センサが撮影する画像は、マイクアレイ20が入力を受ける音の場所の、少なくとも一部が異なる領域を撮影して取得される。例えば
図3の模式図で示される画像がカメラ群30A全体で撮影されたものであるとして、
図4Aの模式図で示される画像の網掛けのない部分に表される領域は、カメラ31が撮影して取得した画像に表れるものである。また、
図4Bの模式図で示される画像の網掛けのない部分に表される領域は、カメラ32が撮影して取得した画像に表れ、
図4Cの模式図で示される画像の網掛けのない部分に表される領域は、カメラ33が撮影して取得した画像に表れるものである。
【0074】
画像センサ選択部18には、方向推定部15が推定した咳音の到来方向が入力される。画像センサ選択部18は、方向推定部15が推定した到来方向に対応するカメラ(の画像センサ)を選択する。選択された画像センサから出力された第一画像データは、推定された到来方向に対応し、識別処理の対象の画像を示す第二画像データとして第二識別器14に入力される。このような画像センサ選択部18は、本変形例における画像選択部の例である。
【0075】
その他の構成要素の機能は、上記実施の形態における咳検出装置10の構成要素の機能と共通である。例えば、本変形例において、第二識別機は第二画像データのみに基づいて画像の識別による判定を実行してもよいし、又は第二画像データとしては選択されなかった第一画像データの入力をさらに受けながら、第二画像データを優位に扱って画像の識別による判定を実行する。また、本変形例に係る技術は、上記実施の形態又は各変形例と組み合わせて用いられてもよい。例えば、咳検出装置は、画像データ選択部と画像センサ選択部とを両方備えてもよい。この場合、画像センサ選択部によって選択された画像センサから出力された画像データは画像データ選択部に入力され、画像データ選択部では、当該画像データから、推定された音の到来方向により近い部分が選択される。そして第二識別器では、画像データ選択部が選択した部分をそれ以外の部分より優位に扱って咳動作が写っているか否か判定する。
【0076】
[変形例4]
上記実施の形態及び各変形例では、咳検出装置に入力される音響データはひとつのマイクアレイから出力されたものである、しかしながら、本変形例のように、複数のマイクアレイを用いて、各マイクアレイから出力される音響データを用いることで、音の到来方向ではなく、当該音の発生した位置が推定されてもよい。
図8は、本変形例に係る咳検出装置を説明するための模式図である。
【0077】
図8に示されるように、本変形例に係る咳検出装置10Dには、咳検出が行われる部屋に設置されるマイクアレイ20a及び20b、並びにカメラ30a及び30bが接続されている。この部屋の中で、マイクアレイ20aとカメラ30aとは、
図2に示されるマイクアレイ20とカメラ30との位置関係と同じ位置関係にある。また、マイクアレイ20bとカメラ30bとは、
図2に示されるマイクアレイ20とカメラ30との位置関係と同じ位置関係にある。また、マイクアレイ20aと20bとの位置関係は既知であり、利用可能な情報として咳検出装置10Dに入力される。また、カメラ30aと30bとは、変形例3で説明したカメラ群を構成する。なお、本変形例に係る技術に用いられるカメラは1台であってもよい。
【0078】
本変形例に係る咳検出装置の構成は、上記実施の形態及び各変形例に係る咳検出装置のいずれの構成と共通であってもよい。ただし、本変形例では上述のとおり複数台のカメラが用いられているため、咳検出装置10Dの構成は、変形例3に係る咳検出装置10Cの構成(
図7参照)と共通であると想定して説明する。
【0079】
本変形例では、マイクアレイ20a及び20bから入力された音響データに対する音響特徴量抽出部11及び第一識別器13による処理によって、マイクアレイ20a及び20bが入力を受けた音は咳音か否かが判定される。
【0080】
また、方向推定部15は、音は咳音であるとの判定結果の入力を第一識別器13から受けると、マイクアレイ20aから入力を受ける音響データからは、マイクアレイ20aを基準とする咳音の到来方向を、マイクアレイ20bから入力を受ける音響データからは、マイクアレイ20bを基準とする咳音の到来方向を推定する。そして方向推定部15は、推定したこれらの到来方向と、マイクアレイ20aと20bとの位置関係の情報に基づいて、咳音と推定された音の発生位置をさらに推定する。
図8に示す例では、方向推定部15は、マイクアレイ20aを基準とする咳音の到来方向を90°、マイクアレイ20bを基準とする咳音の到来方向を150°と推定している(
図8の点線参照)。さらに、方向推定部15は、マイクアレイ20aと20bとの位置関係の情報を用いて当該咳音の発生位置を推定する。
図8に示す例では、この情報としてマイクアレイ20aと20bとの距離dが用いられ三角測量の手法を用いて咳音の発生位置(
図8の星印参照)が推定されている。
【0081】
咳検出装置10Dではさらに、推定された咳音の発生位置に対応する画像センサが画像センサ選択部18によって選択される。
図8に示す例では、カメラ30aの画像センサが選択され、当該画像センサが出力する画像データが第二画像データとして第二識別器14に入力される。第二画像データが示す画像には咳動作が写っていると第二識別器14が判定すると、出力部16がこの判定結果に応じた出力を行う。
図8に示す例では、咳検出装置10Dはさらに空気清浄機50a及び50bに通信可能に接続されている。この場合、出力部16は空気清浄機50a及び50bのうち、咳音の発生位置により近い空気清浄機50aに、運転開始の制御コマンド、又は空間の制菌効果のあるモードへの切換等の制御コマンドを送信してもよい。これにより、咳によって病原となり得る菌又はウイルスが空間中に飛散しても、その咳の発生源により近い位置で空気清浄機を動作させることで、菌等をより高い速効性で抑制することができる。このように咳音の発生位置に応じた制御の対象となる機器の例としては、空気清浄機の他に、エアコンディショナー、エアカーテン、エアサーキュレータ、換気扇、次亜塩素酸等を用いる空間除菌装置、殺菌灯が挙げられる。機器の機能又は配置によっては、咳音の発生位置により近いものではなく、発生位置に応じた所定の位置にある機器が制御の対象であってもよい。
【0082】
なお、上記実施の形態及び変形例1から3においても推定された咳音の到来方向に応じて空気清浄機等の機器の制御をすることでも同様の効果は得られる。ただし、本変形例のように咳音の発生位置に応じて制御することで、より高い局所性で効率のよい菌抑制等の効果が期待できる。
【0083】
上記の様な各種の機器と本開示における咳検出装置とを組み合わせての利用は、例えば病院、高齢者施設、保育所、幼稚園、託児所、学校等での、飛沫感染し得る病気の集団感染の抑制効果を高める。また、一般家庭において利用されて、このような病気の家庭内感染の予防につながる。
【0084】
(その他の補足事項)
上記実施の形態及び各変形例の説明へのその他の補足事項を以下に挙げる。
【0085】
(1)
図3又は
図9に示したマイクアレイ及びカメラとの位置関係は例であり、これらに限定されない。マイクアレイとカメラとの位置関係にかかわらず、マイクアレイから出力される音響データから推定される音の到来方向と、カメラから出力される画像データのうち、当該音の発生源のある位置を含む部分とが対応付けられていればよい。また、上記の例ではマイクアレイ及びカメラの設置場所としては咳検出が行われる部屋の壁を例示したがこれに限定されない。例えば、部屋の壁付近の床、又は天井の任意の位置に設置されてもよい。また、部屋の中にある家具又は電気機器上に設置されたり、これらに組み込まれたりしてもよい。マイクアレイの設置場所によっては、音響データから推定される音の到来方向は
図3又は
図9の例よりも広い範囲に渡り得る。また、上記の例では説明を簡便にするために音の到来方向を平面上の角度で表現されたがこの表現方式に限定されない。例えばマイクアレイが部屋の中央で天井に設置されている場合、音の到来方向は、マイクアレイの真下から全方向における当該部屋の隅までの範囲を表現し得る任意の表現方式、例えば座標を用いて表現されてもよい。
【0086】
なお、上記実施の形態又は各変形例に係る咳検出装置の設置場所は、
図9のような咳検出の対象となる人が出入りする空間内に限定されず、咳検出装置がマイクアレイ及びカメラ、又はさらに出力部からの出力先と通信可能に接続されていればよい。
【0087】
(2)上記実施の形態又は変形例2から4に係る咳検出装置において、第一識別器から方向推定部に入力されるのは、判定結果に変えて、音が咳音であると判定した場合における方向推定の実行指示でもよい。同様に変形例1では、第二識別器から、画像に咳動作が写っていると判定した場合において、音響特徴量抽出部への音響特徴抽出の実行指示が入力されてもよい。
【0088】
(3)上記実施の形態及び各変形例において示される第二識別器はひとつであるがこれに限定されない。推定された咳音の到来方向によって異なる第二識別器が使われてもよい。上述のように、カメラと咳をした人の位置関係によっては、カメラが撮影する画像に写っている人の形状(見え方)の違いが比較的大きい場合がある。人の特定の見え方に特化させた識別のためのモデルによる第二識別器を用いることで、咳動作の識別の精度の向上が図られる。
【0089】
(4)出力部は、再学習用データを除いて、上記実施の形態又は変形例2から4に係る咳検出装置においては、第二識別器が出力した判定結果、変形例1では、第一識別器が出力した判定結果に基づくデータ等を出力するが、これに限定されない。上記実施の形態及び各変形例において、ある音が発生した場合に、第一識別器が出力した判定の尤度及び第二識別器が出力した判定の尤度を各判定結果と共に取得し、例えば、より高い尤度の判定結果に基づくデータを出力してもよい。また、結果表示データ又は結果記録データとしては、その両方の判定結果をそのまま出力してもよい。
【0090】
(5)上述の咳検出装置を実現する情報処理装置が備える構成要素の一部又は全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)で構成されてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM(Read-Only Memory)、RAM(Random Access Memory)などを含んで構成されるコンピュータシステムである。ROMには、コンピュータプログラムが記憶されている。マイクロプロセッサがこのコンピュータプログラムに従って動作することにより、システムLSIはその機能を達成する。
【0091】
なお、ここでは、システムLSIとしたが、集積度の違いにより、IC、LSI、スーパーLSI、ウルトラLSIと呼称されることもある。また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)、あるいはLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブルプロセッサを利用してもよい。
【0092】
さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてあり得る。
【0093】
(6)また、上記実施の形態及び各変形例に係る咳検出装置の構成要素は、例えば、それぞれがプロセッサ及びメモリを備え、互いに通信可能な複数台のコンピュータが協調して動作し、上述の各情報処理装置と同様の機能を提供する情報処理システムの構成要素として実現されてもよい。この場合、これらの構成要素は、例えば、各コンピュータが備えるプロセッサの一部又は全部が、これらのコンピュータが備えるメモリの一部又は全部に記憶される1個又は複数個のプログラムを実行することで実現される。
【0094】
(7)本開示の一態様は、上記実施の形態及び各変形例に係る咳検出装置には限定されず、咳検出装置が備える特徴的な構成要素によって実行される咳検出の一連の処理手順からなる咳検出方法であってもよい。例えば
図9は、実施の形態に係る咳検出装置10が実行する咳検出方法を示すフロー図である。本開示の一態様である咳検出方法の一例をこのフロー図に沿って以下に説明する。
【0095】
咳検出装置10では、まず、音響データの入力を受けた音響特徴量抽出部11が、音響特徴量を抽出する(S90)。
【0096】
次に第一識別器13が、この音響特徴量に基づいて、マイクアレイ20が入力を受けた音が咳音か否かを判定する(S91)。この音が咳音でない場合(S92でNo)、咳検出方法の手順は最初に戻って次に入力される音響データに対してステップS91から再開される。この音が咳音である場合(S92でYes)、方向推定部15が同じ音響データからこの音の到来方向を推定する(S93)。
【0097】
次に画像データ選択部12が、この音が発生した場面を撮影したカメラ30による画像を示す第一画像データから、推定されたこの到来方向に対応する第二画像データを選択する(S94)。
【0098】
次に第二識別器14が、第二画像データに基づいて、当該画像に咳動作が写っているか否か判定する(S95)。
【0099】
最後に出力部16が、第二識別器14による判定結果に応じたデータ(情報)又は成語コマンド(指示)を出力する(S96)。
【0100】
なお、変形例1の場合は、上記のステップS93からS95の実行後にステップS90からS92が実行される。また、変形例2の場合には、出力部16によるステップS96の中で、第一識別器13による判定結果と第二識別器14による判定結果との照合、又はさらに尤度の比較が行われてから、判定結果に応じたデータとして再学習データが生成および出力される。また、変形例3の場合には、ステップS94の内容は、画像センサ選択部18による画像センサの選択となる。
【0101】
また、本開示の一態様は、このような咳検出方法に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムであってもよい。また、本開示の一態様は、そのようなコンピュータプログラムが記録された、コンピュータ読み取り可能な非一時的な記録媒体であってもよい。
【産業上の利用可能性】
【0102】
本開示に係る技術は、画像データ及び音響データを用いた咳検出に利用可能であり、例えば、空気清浄機などの空気質又は空気衛生の維持又は改善のための技術と組み合わせて利用可能である。
【符号の説明】
【0103】
10、10A、10B、10C、10D 咳検出装置
11 音響特徴量抽出部
12 画像データ選択部
13 第一識別器
14 第二識別器
15 方向推定部
16 出力部
17 学習用データ蓄積部
18 画像センサ選択部
20、20a、20b マイクアレイ
30、30a、30b、31、32、33 カメラ
30A カメラ群
50a、50b 空気清浄機