(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-08-17
(54)【発明の名称】自動赤ちゃん泣き声判定のためにデータを提供するコンピュータ実装方法
(51)【国際特許分類】
G10L 17/26 20130101AFI20230809BHJP
G10L 15/16 20060101ALI20230809BHJP
G10L 25/72 20130101ALI20230809BHJP
G10L 25/30 20130101ALI20230809BHJP
【FI】
G10L17/26
G10L15/16
G10L25/72 Z
G10L25/30
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023502740
(86)(22)【出願日】2021-07-13
(85)【翻訳文提出日】2023-03-07
(86)【国際出願番号】 EP2021025257
(87)【国際公開番号】W WO2022012777
(87)【国際公開日】2022-01-20
(32)【優先日】2020-07-13
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】523013455
【氏名又は名称】ザウンドリーム エージー
(74)【代理人】
【識別番号】100114775
【氏名又は名称】高岡 亮一
(74)【代理人】
【識別番号】100121511
【氏名又は名称】小田 直
(74)【代理人】
【識別番号】100202751
【氏名又は名称】岩堀 明代
(74)【代理人】
【識別番号】100208580
【氏名又は名称】三好 玲奈
(74)【代理人】
【識別番号】100191086
【氏名又は名称】高橋 香元
(72)【発明者】
【氏名】イングライト,パオロ,フランチェスコ
(72)【発明者】
【氏名】プラダス,アナ,ラグーナ
(57)【要約】
自動赤ちゃん泣き声判定のためにデータを提供するコンピュータ実装方法が提案され、音響的に赤ちゃんを監視して、対応する音声データのストリームを提供すること、音声データのストリーム内で泣き声を検出すること、泣き声の検出に応答して音声データから泣き声関連データを選択すること、パーソナライズ泣き声判定のためにパーソナル赤ちゃんデータを決定すること、パーソナル赤ちゃんデータに従った判定のための判定段階を準備すること、および泣き声関連データを、パーソナル赤ちゃんデータに従って準備された泣き声判定段階に供給することを行うステップを含む。さらに、自動赤ちゃん泣き声判定構成が提案される。
【選択図】
図1a
【特許請求の範囲】
【請求項1】
自動化されたパーソナライズ赤ちゃん泣き声判定のためにデータを提供するコンピュータ実装方法であって、
パーソナライズ泣き声判定のためにパーソナル赤ちゃんデータを決定し、それに対応する情報を準備することと、
背景雑音のある環境内で赤ちゃんを音響的に監視して、対応する音声データサンプルのストリームを提供することと、
前記音響的監視の音声データサンプルのストリーム内で、少なくとも前記音声の時間的および/またはスペクトルパターンを考慮して、
好ましくは、閾値を上回っている音声レベルが観察されているかどうかを検討する先行検出ステップを備えたマルチステップ/多段階泣き声識別で、
赤ちゃんの泣き声を検出することと、
さらなる判定のために、検出された泣き声関連部分を選択することと、
検出された、前記選択された泣き声関連部分を、
前記パーソナル赤ちゃんデータに対応する前記情報と一緒に、
さらなる判定のために、判定段階に提供することであって、
前記選択された部分は、前記パーソナル赤ちゃんデータに対応する前記情報に従ってパーソナライズされた方法で判定され、そのため、前記泣き声関連部分の判定が実行でき、前記判定は、
前記選択された泣き声関連部分の、泣き声の理由の異なるクラスに対応することが分かっているパターンとの、各泣き声関連部分が前記異なるクラスのそれぞれに属する複数の確率をもたらす方法での比較による、連続的な評価と、
かかる複数の確率のシーケンスを泣き声関連部分の前記連続的な評価によって確立することと、
確率の前記シーケンスを、前記評価および、前記パーソナル赤ちゃんデータに対応する前記情報に従ってパーソナライズされているさらなる判定段階の少なくとも1つを用いて、分析することと、を含むことと
を行うステップを含む、コンピュータ実装方法。
【請求項2】
自動化されたパーソナライズ赤ちゃん泣き声判定のためにデータを提供し、前記データをパーソナライズされた方法で判定するコンピュータ実装方法であって、
パーソナライズ泣き声判定のためにパーソナル赤ちゃんデータを決定し、それに対応する情報を準備することと、
背景雑音のある環境内で赤ちゃんを音響的に監視して、対応する音声データサンプルのストリームを提供することと、
前記音響的監視の音声データサンプルのストリーム内で、少なくとも前記音声の時間的および/またはスペクトルパターンを考慮して、
好ましくは、閾値を上回っている音声レベルが観察されているかどうかを検討する先行検出ステップを備えたマルチステップ/多段階泣き声識別で、
赤ちゃんの泣き声を検出することと、
さらなる判定のために、検出された泣き声関連部分を選択することと、
検出された、前記選択された泣き声関連部分を、
前記パーソナル赤ちゃんデータに対応する前記情報と一緒に、
さらなる判定のために、判定段階に提供することであって、
前記選択された部分は、前記パーソナル赤ちゃんデータに対応する前記情報に従ってパーソナライズされた方法で判定され、
前記泣き声関連部分の前記判定は、
前記選択された泣き声関連部分の、泣き声の理由の異なるクラスに対応することが分かっているパターンとの、各泣き声関連部分が前記異なるクラスのそれぞれに属する複数の確率をもたらす方法での比較による、連続的な評価と、
かかる複数の確率のシーケンスを泣き声関連部分の前記連続的な評価によって確立することと、
確率の前記シーケンスを、前記評価および、前記パーソナル赤ちゃんデータに対応する前記情報に従ってパーソナライズされているさらなる判定段階の少なくとも1つを用いて、分析することと、を含むことと、
を行うステップを含む、コンピュータ実装方法。
【請求項3】
音声データ窓のシーケンスが確立されて、スペクトログラム様表現が各窓に対して確立され、各窓において、泣き声パターンが前記窓で識別されて、前記泣き声パターンに関連したデータがさらなる判定のために、好ましくは、時間において重なり合っている窓を使用して、選択される、請求項1または2に記載の方法。
【請求項4】
泣き声パターンの前記検索が、前記泣き声パターンを前記音声データのスペクトログラム様表現内で識別するための畳み込みニューラルネットワークを使用して達成される、請求項3に記載の方法。
【請求項5】
泣き声パターン検出および分離のための前記畳み込みニューラルネットワークは、パーソナライズされていない、請求項4に記載の方法。
【請求項6】
音声データを、少なくとも一時的に、時間的および/またはスペクトルパターンが、閾値を上回っている前記音声レベルの前に少なくとも部分的に取得された音声データに基づく泣き声関連部分の前記検索のために確立できるような方法で、格納することを含む、請求項5に記載の方法。
【請求項7】
「赤ちゃんは疲れている」、「赤ちゃんはお腹が空いている」、「赤ちゃんはあやす必要がある」、「赤ちゃんはげっぷをする必要がある」、「赤ちゃんは痛みがある」の少なくとも1つ、好ましくは少なくとも2つ、および特に好ましくは全ての状態の判定が達成できるように、クラスを使用する、前述の請求項に記載のコンピュータ実装方法。
【請求項8】
音声関連データを、年齢、性別、身長、体重、民族性、一人っ子/双子/三つ子、現在の医学的状態、既知の医学的前提条件、特に既知の現在の病気および/もしくは熱、親および/もしくは介護者の言語のうちの少なくとも複数に関連した赤ちゃんデータ情報と一緒にアップロードすること、ならびに/または、
1つ以上の以前の判定の正確さに関連した赤ちゃんデータ情報をアップロードすること
を含む、前述の請求項に記載のコンピュータ実装方法。
【請求項9】
前記音響的監視の音声データサンプルのストリーム内で赤ちゃんの泣き声を、前記音声の時間的および/またはスペクトルパターンを考慮して検出することが、閾値を上回っている音声レベルが観察されているかどうかを検討する先行検出ステップを備えたマルチステップ/多段階泣き声識別の一部として達成され、好ましくは、閾値を上回っている音声レベルが観察されているかどうかを検討する前記ステップが、
閾値を上回っている現在の音声レベル、
平均背景雑音を所与の限度だけ上回っている現在の音声レベル、
閾値を上回っている1つ以上の周波数帯域における現在の音声レベル、
対応する平均背景雑音を所与の限度だけ上回っている1つ以上の周波数帯域における現在の音声レベル、
前記音声の時間的パターン、
突然の大きな非泣き声雑音の時間的および/もしくはスペクトルパターンパターンから逸脱する音声レベルの時間的パターンおよび/もしくはスペクトルパターン、
特に、前記赤ちゃんのビデオ監視データから導出された、非音響的ヒント、
動き検出器および/もしくは呼吸検出器
の少なくとも1つに基づいており、
かつ/またはかかる比較はローカルに達成され、具体的には、前記泣き声パターンを前記音声データのスペクトログラム様表現内で、畳み込みニューラルネットワークを使用して識別するステップが、前記赤ちゃんからリモートのデータ処理構成上で、具体的には、クラウドサーバー内で達成される、
前述の請求項に記載のコンピュータ実装方法。
【請求項10】
音響的に監視されて赤ちゃんからの音声が閾値を上回っているかどうかをローカルに検出することと、
閾値を上回っている前記音声の検出に応答して、データを、集中型自動泣き声パターン検出で使用されるサーバー構成にアップロードすることと
を行うステップを含む、請求項9に記載のコンピュータ実装方法。
【請求項11】
継続して音響的に赤ちゃんを監視するためのマイクロホンと、
監視している音声ストリームをデジタルデータのストリームに変換するためのデジタル変換段階と、
パーソナル赤ちゃんデータ情報を格納するためのメモリ段階と、
データを集中型サーバー構成に送信するための通信段階と
を備え、
デジタルデータの前記ストリーム内で泣き声の発現を識別するための泣き声識別段階が提供されて、
前記通信段階は、
赤ちゃんの泣き声のパーソナライズ判定に関連したデータを前記集中型サーバー構成から受信するように適合される、
前述の請求項のいずれかに従った方法を判定するための自動赤ちゃん泣き声判定構成。
【請求項12】
1つ以上の以前の判定の前記正確さに関連したフィードバック情報を取得するためのフィードバック構成をさらに含み、前記通信段階は、フィードバック情報を集中型サーバー構成に送信するように適合される、前述の請求項に記載の自動赤ちゃん泣き声判定構成。
【請求項13】
ローカル判定段階をさらに含み、前記ローカル判定段階は、赤ちゃんの泣き声を、赤ちゃんの泣き声のパーソナライズ判定に関連した前記集中型サーバー構成から受信したデータを考慮して判定するように適合される、前述の請求項に記載の自動赤ちゃん泣き声判定構成。
【請求項14】
タイマーと、
評価段階であって、
パーソナル赤ちゃんデータ情報の現在の年齢および/または、
前記赤ちゃんの泣き声の前記判定前に、前記集中型サーバー構成から受信されて、赤ちゃんの泣き声のパーソナライズ判定に関連した、データの年齢または有効性を評価する、評価段階と
を備え、
前記赤ちゃん泣き声判定構成は、前記評価に応じて赤ちゃんの泣き声判定を出力するように適合される、
請求項12~請求項14の1項に記載の自動赤ちゃん泣き声判定構成。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は赤ちゃんの泣き声に関する。
【背景技術】
【0002】
新生児は文字通り、例えば、空腹である、呼息に苦しんでいる、疲れている、おむつを交換して欲しい、何らかの形の痛みがある等、多かれ少なかれ深刻な原因のために不快感を経験するときはいつでも、助けを求めて泣く。親は、赤ちゃんが泣いていることに気付く必要があるだけでなく、自分の赤ちゃんが泣いている現在の理由を、自分の経験、多くの場合、赤ちゃんからの限られた信号の理解、および、最後に、自分の直感に基づいて見つける必要もある。
【0003】
これは、2つの単純な理由で親にストレスを生じさせ得る。一方で、赤ちゃんが泣くときはいつでも直ぐに聞いてあげる必要があり、他方では、親は理由を特定する必要があり、それは初めての新生児を持つ親にとって特に問題であるが、もっと経験のある親は、しばしば、赤ちゃんの泣き方が世話が必要なものを示していることを理解する。
【0004】
音声を親の近くの受信機に送信するために音声送信機をゆりかごの近くに置くことが提案されており-これは第1の問題を解決するが、赤ちゃんが泣いている理由を特定する第2の問題は、単純な送信機/受信機の組合せでは残っている。この点から見て、赤ちゃんが泣いている理由を自動化された方法で特定するためにいくつかの提案が行われている。例えば、スマートフォンを、送信機および受信機の両方として使用し、赤ちゃん泣き声判定アプリをスマートフォンの1つにインストールして赤ちゃんが泣いている理由を特定するのを支援する。このように、適切なハードウェアが提供されている場合でさえ、赤ちゃんが泣く理由を特定するために適切なアプリが必要であるので、赤ちゃんが泣いている理由を特定する問題は残っている。
【0005】
科学文献では、かかる特定方法に関して複数の提案が既に行われている。
【0006】
Charles C.Onuによる「Harnessing Infant Cry for swift,cost-effective Diagnosis of Perinatal Asphyxia in low-resource settings」という論文では、発展途上国における幼児死亡率の上位3つの原因の1つである、周産期仮死は、既知の窒息している幼児と正常幼児の泣き声におけるパターンをモデル化するパターン認識システムによって認識され得ることが提案されている。泣き声がサンプリングされて、各泣き声サンプルはいくつかの信号処理段階を通過し、その最後において、MEL周波数ケプストラムの係数を表す特徴ベクトルが抽出されることが提案される。認識プロセスはその結果、音声サンプリング、特徴抽出、平均正規化、相互検証および試験を用いた訓練のステップを含む。使用される特徴ベクトルは、全てが同じ長さおよびサンプリングレートを有することを確実にする。
【0007】
「31st Conference on Neural Information Processing Systems(NIPS 2017),Long Beach,CA,USA」に掲載されているCharles Udeogu、Eyenimi Ndiomu、Urbain Kengni、Doina Precup、Guilherme M.Sant‘anna、Edward Ali-korおよびPeace Oparによる「Ubenwa:Cry-based Diagnosis of Birth Asphyxia」という論文では、執筆者は、泣き声入力サンプルがセグメント化され、前処理されて、特徴が抽出されて、マルチセグメント分類が決定され、次いで、泣いている理由に関して判断されることを提案する。
【0008】
Charles C. Onu、Jonathan Lebenso、William L.HamiltonおよびDoina Precupによる「Neural Transfer Learning for Cry-based Diagnosis of Perinatal Asphyxia」という論文では、窒息によって影響された新生児の泣き声パターンにおける著しい変化が存在すると述べられている。執筆者は、成人の発話から学習されたモデルパラメータは、幼児の発話に関してモデルを訓練するために(ランダムよりは)より良い初期設定として機能し得ると仮定する。執筆者は、泣き声と呼吸の生理学的連動性が長い間、認識されていること、および泣き声は呼吸筋の機能を前提とすることも記述し、加えて、泣き声生成および呼吸は、脳の同じ領域によって両方とも調整されると述べられている。執筆者は、モデルを提案して、遊んでいる子供、吠えている犬およびサイレンの音声などの、異なる雑音状況内でモデルのロバスト性を評価する。執筆者は、各モデルの、変動する音声データの長さに対する各モデルの応答も評価して、現実世界の診断システムは、利用可能なできるだけ多くのデータと連携することが必要であることを述べる。
【0009】
Biocybernetics and Biomedical Engineering 38(2018)634~645に掲載された、J.Saraswathy、M.Hariharan、Wan Khairunizama、J.Sarojini、N.Thiyagar、Y.Sazali、およびShafriza Nishaによる「Time-frequency analysis in infant cry classification using quadratic time frequency distributions」という論文では、執筆者は、幼児の泣き声に関する研究は、器質的障害、食事管理、睡眠管理、妊産婦の健康および感覚運動統合状態などの幼児の状態を区別するための自動化ツールをもたらし得ることを示唆する。執筆者は、ピッチ情報、雑音コンセントレーション(noise concentration)、スペクトルエネルギー特徴、調和解析ベース属性、線形予測ケプストラム係数およびMEL-周波数ケプストラム係数などのパラメータに言及する。執筆者は、幼児の泣き声信号の表現は、時間周波数ベースの技術、すなわち、ウェーブレットパケット変換、短時間フーリエ変換(STFT)および経験的モード分解(EMD)を使用し得ると述べる。執筆者は、ジョイントt-f分析では、信号の時間および周波数領域表現は、t-fスペクトルエネルギー量に結合でき、多成分信号の特性に関する明瞭な調査に繋がるとも述べる。t-fスペクトルエネルギー量は、泣き声信号の異なるパターンを特性化できる顕著な特徴を導出するために使用できることが示唆されて、特に、異なる泣き声発話(cry utterance)を効率的に区別するための、多成分信号を使用した分類および検出においてt-f分析ベースの方法の重要性を強調する。
【0010】
Interspeech 2018、2-6 September 2018、Hyderabadに掲載された、M. A. Tugtekin TuranおよびEngin Erzinによる「Monitoring Infant‘s Emotional Cry in Domestic Environments using the Capsule Network Architec-ture」という論文では、執筆者は、赤ちゃんの泣き声を表す音声信号の短いセグメントからのスペクトログラム表現を、特定の深層学習トポロジーへの入力として採用することを提案する。正確な性能を達成するために、執筆者は、信号に関して言語音および他の低周波数雑音を除去するために高域FIRフィルタを適用する。執筆者は、赤ちゃんの泣き声音声は、完全に連続的な特性を有しておらず、それに応じて、音声活動検出アルゴリズムが適用される前に、異なるサイズまたは期間のインパルス様シーケンスがセグメント化されると主張する。
【0011】
Carlos Alberto Reyes-Garci'a、Sandra E.Barajas、Esteban Tlelo-CuautleおよびOrion Fausto Reyes-Galavizによる「A Hybrid System for Automatic Infant Cry Recognition II」という論文では、執筆者は、遺伝的アルゴリズムを使用することを提案し、自動幼児泣き声認識は、自動音声認識プロセスと非常に似ていることも示唆する。
【0012】
Department of Biomedical Engineering Faculty of Engineering University of Malaya、May 2013、Rodney Petrus Balandong Rによる「Acoustic Analysis of Baby Cry」という評論では、泣き声サンプルを取得するためにいくつかのアプローチが存在することが述べられている。
【0013】
Health and Technology https://doi.org/10.1007/s12553-018-0243-5、Saraswathy Jeyaraman Hariharan Muthusamy、Wan Khairunizam、Sarojini Jeyaraman、Thiyagar NadarajawおよびSazali Yaacob5 & Shafriza Nishaによる「A review: Survey on automatic Infant Cry Analysis and Classification」において、執筆者は、自動幼児泣き声分類プロセスは、自動音声認識に似たパターン認識問題であると述べる。執筆者は、無音の間隔は通常、あまり情報を伝達しないが計算コストを増大させるので、除去またはセグメント化は、幼児泣き声分類分析における既知の前処理技術であることを報告する。執筆者は、おむつの交換中、食事前、なだめ中、小児科評価中、および、例えば、大静脈血栓症、髄膜炎、腹膜炎、呼吸停止、舌小帯、IUGR-小頭症、ファロー四徴症、高ビリルビン血症、腹壁破裂、IUGR-呼吸停止、ウシタンパク質アレルギー、心臓複合(cardio complex)などの病的状態での、自発的な泣き声などの異なる泣き声タイプにも言及する。
【0014】
Journal of theoretical and applied Information Technology、I-ESS 1817-31 95に掲載された、M.D.Renantiらによる「Infant Cries Identification by using Codebook as Feature Matching, and MFCC as Feature Extraction」という論文によれば、無音が、音声信号の始まりと終わりの音声データストリームからだけ切り取られる場合、それは不都合である。
【0015】
Journal of the Audio Engineering Society、Vol.63、No.5、May 2015、Stavros Ntalampirasによる「Audio Pattern Recognition of Baby Crying Sound Events」では、5つの異なる状態、すなわち(a)空腹である、(b)心地良くない(変化が必要)、(c)げっぷをする必要がある、(d)痛みがある、および(e)眠る必要がある、を区別するための方法論が提案される。関与する音声信号の周期的性質は負荷(burden)であると述べられている。執筆者は、知覚的線形予測パラメータ、Mel-周波数ケプストラム係数、知覚的ウェーブレットパケット、ティーガエネルギー演算子(TEO)ベースの特徴、時間変調特徴などの、音響パラメータのいくつかのグループを検討する。泣き声を区別するためのサポートベクターマシン、多層知覚などの複数の方法が議論されている。
【0016】
Rodica Ileana Tuduce、Mircea Sorin Rus、Horia CucuおよびCorneliu Burileanuによる「Automated Baby Cry Classification on a Hospital-acquired Baby Cry Database」という論文では、異なる種類の赤ちゃんの泣き声を区別できる赤ちゃん泣き声認識システムは、親が自分の特定の赤ちゃんのニーズを区別し、同時に親がかかる区別を自力で行うのを学習するのを支援することが提案される。執筆者は、複数の分類器を検査するが、ほとんどの分類器は、実際の録音された赤ちゃんの泣き声に関して、注意深く選択されたサンプルから抽出された泣き声におけるよりも、低い性能しか発揮されないことに気付く。
【0017】
2012 IEEE 27-th Convention of Electrical and Electronics Engineers in Israel、Rami CohenおよびYizhar Lavnerによる「Infant cry analysis and detection」という論文では、3つの主な段階、すなわち、音声活動検出器段階、分類段階、および負誤差(negative error)を低減するために分類段階を検証するための後処理段階、を含むアルゴリズムが提案される。このアルゴリズムは、異なる時間スケールにおける3つの識別レベル:すなわち、フレームレベル、各フレーム(数十ミリ秒)は、そのスペクトル特徴に基づき、「泣き声」または「泣き声なし」のいずれかとして分類される;数百ミリ秒のセクション;および最終決定が、それらが含む「泣き声」セクションの数に従って得られる数秒のセグメント、に基づくと述べられている。複数の時間スケール分析および識別レベルは、低い誤判定率を維持しながら、非常に高い検出率をもつ分類器を提供することを目的としていると言われる。執筆者は、幼児の泣き声録音ならびに、自動車エンジン、クラクションおよび発話などの他の自然音を用いた性能評価は、雑音の存在下で高検出率およびロバスト性の両方を実証すると考える。
【0018】
Shubham Asthana、Naman VarmaおよびVinay Kumar Mittalによる「An Investigation into Classification of Infant Cries using Modified Signal Processing Methods」という論文では、赤ちゃんの泣き声は、発声、収縮性沈黙、咳、息詰まりおよび中断の組合せであることが示唆される。
【0019】
方法および装置も特許文献で提案されている。
【0020】
CN103530979Aから、病院用の遠隔赤ちゃん泣き声アラーム装置が分かり、赤ちゃん泣き声検出モジュール、アラーム計画モジュール、アラーム受信モジュールおよびアラームモジュールを備え、一部の部品はワイヤーで接続さるが、他の部品は無線で接続される。
【0021】
CN104347066Aから、「Infant crying sound recognition method and system based on deep neural network」が分かる。録音された泣き声を考慮して病的状態と非病的状態を区別することが提案される。
【0022】
CN106653001Aから、幼児泣き声認知方法およびシステムが分かる。主な問題は、1つの泣いている理由だけが与えられることであると述べられている。幼児が泣いている理由を認識するための方法が提案され、この文脈では、複数の以下の特徴が抽出および分析できると述べられている:平均的な泣き継続時間、泣き継続時間分散、平均的な泣き声エネルギー、泣き声エネルギー分散、ピッチ周波数、ピッチ周波数の平均、ピッチ周波数の最大値、ピッチ周波数の最小値、ピッチ周波数のダイナミックレンジ、周波数のピッチ平均変化率、第1のフォルマント周波数、第1のフォルマント周波数の平均変化率、第1のフォルマント周波数の平均値、第1のフォルマント周波数の最大値、第1のフォルマント周波数の最小値、第1の共振ピーク周波数ダイナミックレンジ、第2のフォルマント周波数、第2のフォルマント周波数平均変化率、第2のフォルマント周波数平均、第2のフォルマント周波数最大値、第2のフォルマント周波数最小値、第2の共振ピーク周波数ダイナミックレンジ、Mel周波数ケプストラムパラメータ、および逆Mel周波数ケプストラムパラメータ。前処理ステップに関して、背景雑音を抑制するために雑音低減が泣き声信号に関して実行されること、および特にうるさい雑音のあるデータ断片を除去するために自動検出アルゴリズムが使用され、それにより、後続の特徴に抽出される泣き声信号の信号対雑音比を改善することが提案される。CN106653001Aに従って抽出される特徴およびそれらが抽出される方法も本発明の文脈で使用され得ることが理解されるであろう。それに応じて、引用された文献は参照により本明細書に完全に組み込まれる。
【0023】
CN106653059Aから、幼児の泣き声の自動認識方法およびそのシステムが分かる。赤ちゃんが泣いている理由を特定するために、泣いている時の赤ちゃんの年齢および泣き時間は泣き声に対する病理学的理由の確率を判断するのに役立ち得ることが示唆される。泣き時間間隔に関して、最後の授乳時間の明示的な言及が行われる。赤ちゃんの泣き声音声を録音しながら、赤ちゃんの顔を捕捉しているビデオの画像分析を実行することは、有益であり得ることも述べられる。非実験室条件下での素人録音では、判断の精度が低下して、泣きに対して不正確な理由を与えるか、または経験の浅い親の判断を誤らせることに留意されたい。既知の方法をスマートフォン上のアプリとして実装することが明確に言及されている。
【0024】
CN107591162Aから、パターン一致ベースの泣き声認識方法およびインテリジェントケアシステムが分かる。若い親はますます多くの時間を自宅外で過ごすこと、しかしベビーシッターを雇うのは費用がかかり、従って、泣いている赤ちゃんはちょうど良い時に対処されない可能性があることが述べられる。スマートフォンを所与として、この問題を解決するために乳児養護機能が提案される。
【0025】
GB2234840Aから、赤ちゃんが泣いていることを検出すると自動的に音を発生させる、自動赤ちゃん泣き声検出が分かる。その音は、赤ちゃんがなだめられて眠ることを確実にするまで十分な時間、継続する。その後、泣き声検出器は、苦痛の本物の泣き声が親によって無視されないことを確実にするために十分な長い時間、ミュートにされる。
【0026】
US 2008/000 3550A1は、幼児の音声を再生可能な音声形式で格納することにより、親になったばかりの人に特定の泣き声の意味を教示することを提案する。格納媒体はDVDであり得る。
【0027】
KR 2008 003 5549Aから、赤ちゃんの泣き声を携帯電話に通知するためのシステムが分かり、泣き声が検出されると、母親の携帯電話に自動的に電話される。
【0028】
KR 2010 000 466Aから、子供の泣き声を通して、幼児期小児肺炎および小児肺炎を早期に診断可能な小児診断装置が分かる。
【0029】
KR 2011 0113359Aから、赤ちゃんの泣き声を周波数および連続パターンを使用して検出するための方法および装置が分かる。
【0030】
赤ちゃんの泣き声と関連付けられたデジタル音声オーディオ信号を分析するための方法およびシステムは、US 2013/031 7815A1からもわかる。デジタル音声信号を事前に訓練された人工ニューラルネットワークで処理することによって決定される時間周波数特性を入力することにより赤ちゃんの特殊なニーズを判断することが提案される。
【0031】
US 2014/004 4269A1から、インテリジェント周囲音監視システムが分かる。本システムは、周囲音環境を監視し、それを事前に設定された音と、例えば、周波数シグネチャ、振幅、および持続時間に関して、比較して、例えば、アラーム、クラクション、有向の声のコミュニケーション、泣いている赤ちゃん、呼び鈴、電話などの、重要であるか、または重大な背景音を検出することが提案される。本システムは、ヘッドホンを用いて周囲音を遮断して音楽を聴いている人にとって役に立つことが述べられる。
【0032】
US 2019/180772A1では、音声捕捉装置は音声データを長期間または短期間にわたって格納できること、および音声捕捉装置は、音声を無線で送信し得ることが提案される。スマートフォンなどのモバイル端末が、泣き声を記録して表示するために使用できること、および好ましくない環境(騒がしい環境など)では、自動判定の精度はある程度低下することも示唆される。泣いている複数の理由を端末画面に表示することにより、本システムは、より良好に耐障害性であると述べられる。分類器はディープニューラルネットワークを使用して実装できることが述べられる。セグメント化を実行し、各セグメントに対する情報源を識別することも提案される。さらに、本文献は、泣きの週齢と典型的な時間との間の関係を検討する。また、音声ストリームのセグメント化プロセスは、機械学習アルゴリズムを伴い、音声データのデータセットを自動的に解析して、例えば、判定すべき赤ちゃんを他の子供、環境雑音または無音から区別するラベル付き時間セグメントにすることが提案される。しかし、任意のかかるパーソナル化は、泣き声識別に対してだけ提案される。さらに、発声、泣き声および一定の信号/成長の睡眠音モデルが複数の年齢グループ、例えば、各々2月間隔の年齢の赤ちゃんを含むグループ、に対して作成できることが述べられる。
【0033】
スマートフォン装置用の音声イベントを検出するための方法およびシステムが、US 2016/036 4963A1から分かる。電子装置が音声データを取得する場合、音声データは、各々が周波数帯域のそれぞれの周波数と関連づけられて、一連の時間窓を含む、複数の音声成分に分割されることが提案される。電子装置は次いで、これらの音声成分から特徴ベクトルを抽出し、抽出された特徴ベクトルを分類するように提案される。このように、スマートフォン装置は異なる音声イベントを区別することが可能であろう。
【0034】
US 2017/017 8667A1から、音響特徴の時間特性を使用したロバストな泣き声検出のための技術が分かる。音声データをフレームに分割し、次いで各フレームに対して音響特徴ベクトルを決定し、フレームに対応して経時的に変化する各音響特徴に基づきパラメータを決定するように提案される。次いで、音声が事前に定義された音声と一致するかどうかがパラメータに基づいて判断される。赤ちゃんモニターの使用および赤ちゃん泣き声の識別に言及されている。データセットから少数のパラメータを生成することは、ニューラルネットワークなどの機械学習技術の使用の重要な態様であり得るので、所望の音声を識別するために有用であることが述べられる。既知の音声識別装置が、コンピュータ、スマートフォン、ラップトップ、カメラ装置家庭用電化製品またはその他内に具現化され得ることが述べられる。
【0035】
CN 107657963Aから、幼児が泣いている理由を特定し、良好な泣き声認識のための比較を提供するために、異なる幼児に従い、異なる泣き声サンプルおよび対応する泣き理由を収集するのに適した、泣き声識別および泣き声認識方法が分かる。一般に、赤ちゃんの泣き声は、純粋な背景雑音よりも、高い音量および高いエネルギーを有することが述べられる。少なくとも1つの泣き声サンプルを格納するための泣き声データベースが提供できること、および追加の泣き声サンプルは、泣き声の原因を識別する装置の使用中に原因が識別された後にデータベース内に格納できることが記述される。泣き声の原因が音声サンプルデータベースに基づいて判断できない場合、追加の泣き声情報をデータベースに格納することも提案される。
【0036】
CN 107886953Aから、顔の表情および発話認識に基づく幼児泣き声翻訳システムが分かる。サンプル泣き声データベース内のサンプル特徴データを学習メモリおよびフィードバック自己チェック機能を通して継続して訓練して最適化するために泣き声マイクロプロセッサが使用されることが提案される。閾値よりも大きい強度を考慮して、音声セグメントが赤ちゃんの泣き声に対応するかどうかを判断することが提案される。
【0037】
CN 109243493Aから、改善された長期および短期記憶ネットワークに基づく泣いている赤ちゃんの感情認識法が分かる。この文脈では、長期および短期記憶ネットワークは、訓練される必要がある。
【0038】
CN 110085216Aから、赤ちゃん泣き声検出方法および装置が分かる。本文献は、赤ちゃんの泣き声と他の音に対して低い分離精度を有する、サポートベクトル機械学習アルゴリズムを含む、赤ちゃんの信号泣き声検出のための検出技術において欠点が存在すること、および音声の検出は十分に正確ではないことを述べる。知覚的線形予測係数の特徴抽出を実行して、それを訓練するサンプル内で発話データに対応する発話特徴を取得することが提案される。少なくとも2つの音声タイプが提供されて、赤ちゃんの泣き声の音響モデルは、各フレームが特定の音声タイプに対応する事後確率を考慮に入れるように提案される。
【0039】
CN 1564 2458Aから、いくつかの格納されたサンプルとの比較に依存する、赤ちゃん泣き声検出方法が分かる。
【0040】
以上のように、赤ちゃんが泣く理由を特定する複数の方法が存在し、同様に、複数の異なる状態が区別できる。従って、上で引用した文献は、泣き声を識別する方法に関して、特に機械学習方法に関して、さらに、泣き声を分析することによって特定できる赤ちゃんが泣く異なる理由に関して、全体として本明細書に包含される。
【0041】
しかし、過去において赤ちゃんが泣いている理由を赤ちゃん自身の泣き声から特定するために多くの調査が行われていたが、また、複数の異なる状態が区別できることが提案されているが、実用的な装置によって得られる結果は依然として改善される必要がある。これに関して、ある条件は泣き声特性に関して大きな影響を及ぼすことが知られており、そのため異なる赤ちゃんは類似の状況下で異なって泣くことに留意されるべきである。
【0042】
これに関して、Dror Ledermanによる「Automatic Classification of Infant‘s Cry」という修士論文では、新生児の生理機能は、自分の泣き声の音声シグネチャに関連し、満期新生児対早期新生児の定常の泣き声(stationary cry)に対するヒストグラムが比較される。他の比較は、とりわけ、子宮内でコカインに曝露された幼児対曝露されていない幼児の泣き声、および代謝障害または染色体異常などの障害のある幼児の泣き声を含む。執筆者は、泣き声信号に取り組んでいる場合、自動セグメント化の精度は、不正確なセグメント化が重要な情報の損失となり得る発話/単語セグメント化ほど重大ではないと述べる。執筆者はまた、年齢は泣き声信号の分析において重大なパラメータであると分かっていること、および基本周波数およびフォルマントを含む泣き特徴は、幼児が成長する場合、特に最初の数か月の間、著しく変化することが分かっているとも述べる。
【0043】
KR20030077489Aでは、幼児は急速に成長すること、および人種、性別等の泣き声特性は、幼児の異なるグループに分類できることが強調される。量産された機械は、泣いている幼児の個々の特性を分析できないことが述べられる。泣いている赤ちゃんから音声データを取得するためにローカルインターネット端末を使用すること、およびその音声データの分析のためにインターネットサーバーを利用することが提案される。データは、幼児の泣き声研究において将来の使用のために格納できることが言及される。また、即時状態分析サービスを提供するためのサービス方法および即時状態分析サービスを提供するためのサービス方法が提案され、幼児母集団の詳細はデータベース内に格納され得る。しかし、赤ちゃんが泣く理由に関する判断は大規模なデータベースに基づき得るが、サーバーへの接続が提供される必要があること、およびその結果、接続なしでは、泣き声の特性化は可能でないことは不都合である。
【0044】
KR 2005 0023812Aから、無線インターネット接続を使用して幼児の泣き声を分析するためのシステムが分かる。無線インターネットサービスシステムを管理するサーバー管理システムを提供することが提案され、それはその結果として、無線インターネット端末に対して無線インターネット端末幼児音声アプリケーションを提供する。パーソナライズ音声データベースが構成され得ること、およびユーザーが最新の研究に従って泣き声の正確な分析を常に受信できるように、幼児音声装置アプリケーションに対して必要な情報が変更できることが述べられている。しかし、データベースが最も良く拡大できる方法には言及されず、幼児音声装置アプリケーションの変更が特に効率的に達成できる方法も述べられていない。
【0045】
KR 2012 0107382Aから、幼児の泣き声を分析するための別の装置が分かる。赤ちゃんの泣き声音声周波数分布情報が予め定められた期間に最小回数認識されている場合、泣き声周波数分布情報が、装置が配置されている位置において特定の赤ちゃんの泣き声音声を調整して、それに対して最適化するように、統計的に処理できることが述べられる。本装置の大人使用は、赤ちゃんが泣いている理由を口で述べることができること、およびこの発話が認識され、そのため、赤ちゃんが泣いている間、または後のある期間内に、ユーザーの発話が認識されていることが確認される場合、発話内容は、泣いている赤ちゃんに関連したサービス機能と関連付けられるように処理できることが提案される。かかる発話は「38.5°」または「おむつは濡れていない」であり得る。
【0046】
CN 109658953Aから、赤ちゃん泣き声認識方法および装置が分かる。音声特徴ベクトルおよび収集された音声データセグメントがそれに対して送信できる、クラウドサーバーが提供され得ることが述べられている。装置がサーバーに接続されている場合、クラウドサーバーは、識別モデルの最新バージョンを装置に送信し得、装置は比較して、識別モデルが最新バージョンでない場合、それ自身の識別モデルをクラウドサーバーに送信し得る。さらに、クラウドサーバーに対するネットワーク接続が利用できない場合、音声特徴ベクトルは、ローカルに格納されたニューラルネットワークモデルによって識別できる。
【発明の概要】
【発明が解決しようとする課題】
【0047】
それに応じて、過去において、赤ちゃんが泣いている理由を自動的に識別することが提案されている。しかし、たとえ、パーソナル化が赤ちゃんが泣いている理由の識別に役立ち得ることが過去に提案されていても、自動化された方法によって提案される判定は多くの場合、十分に信頼できるとは考えられない。この点から見て、自動泣き声判定技術の改善を可能にすることは有用であろう。
【0048】
本発明の目的は、産業用途に対して新規性を提供することである。
【0049】
この目的は、独立クレームで主張される主題によって達成される。好ましい実施形態のいくつかは、従属クレームで説明される。
【課題を解決するための手段】
【0050】
第1の概念によれば、自動赤ちゃん泣き声判定のためにデータを提供するコンピュータ実装方法が提案され、赤ちゃんを音響的に監視して対応する音声データのストリームを提供すること、音声データのストリーム内で泣き声を自動的に検出すること、泣き声の検出に応答して音声データから泣き声データを自動的に選択すること、泣き声判定を可能にする選択された泣き声データからパラメータを決定すること、パーソナライズされた泣き声判定のためにパーソナル赤ちゃんデータを確立すること、パーソナル赤ちゃんデータに従った判定のための判定段階を準備すること、およびパーソナル赤ちゃんデータに従って準備された泣き声判定段階にパラメータを供給することを行うステップを含む。
【0051】
本発明の発明人は、赤ちゃん泣き声のパーソナル判定のために、判定で使用される高品質の泣き声データが必要とされることを理解している。自動赤ちゃん泣き声判定のために提供されたデータが不十分な品質の場合、パーソナル化の効果は、そうでなければ可能なまで存分に達成できず、判定の品質は、例えば、正しい判定の割合から推定されるとおり、向上できないか、または非パーソナライズ判定を大幅に上回って向上できない。それに対して、データの品質が十分に高い場合、パーソナル化は典型的には、信頼性が高まるだけではない。また、パーソナル化は通常、かなり後の段階においてのみ影響を受ける必要があり、特に、判定のパーソナル化にも関わらず、全ての赤ちゃんに対してパラメータの同じセットを使用することが多くの場合、可能である。これは判定を簡略化する。
【0052】
それにも関わらず、一旦、正しい音声入力データが選択されていると、たとえ、全ての赤ちゃんに対して同じパラメータ決定段階を使用して、非常に良好な結果を得ることができても、確立されたパーソナル赤ちゃんデータに応じて、パラメータの異なるセットを決定することも可能であろう。
【0053】
パーソナル赤ちゃんデータは、様々な異なる方法で確立できるが、判定の前に、パーソナル赤ちゃんデータを親または他の介護者からパーソナル化された方法で要求することは、最も好ましい方法であり、実装するのが最も容易であることは明らかであろう。対応する入力を親または他の介護者から要求することは、方法を実行するため、および入力の一部を後に更新するために使用される装置の初期設定中にだけ必要であることも理解されよう。パーソナル赤ちゃんデータの親および/または介護者からの入力を要求することによる確立は最も信頼できて簡単な方法であると考えられているが、データの少なくとも一部を泣き声分析によって識別することも可能である;例えば、同じ赤ちゃんからの単一の泣き声または複数の泣き声が評価され、その結果、赤ちゃんの最も可能性が高い年齢、体重、身長または性別などの、パーソナル化を導出できる。
【0054】
高品質の泣き声データは、赤ちゃんを音響的に監視して、音声データのストリームから関連する泣き声データを自動的に選択することによって確実にされる。選択されたデータは、音声データストリームから分離できる、すなわち、それらは、泣き声部分もしくは潜在的に泣き声部分として抽出できるか、またはマークを付けることができ;例えば、赤ちゃんが環境内の長時間にわたる大きな雑音のために泣き始めたので、音声データが泣き声に属するか否かが完全には明らかではない場合、対応するデータは「潜在的に泣き声部分」としてマークを付けられ得る。かかるマーク付けは、音声データが泣き声に属する、より高い信頼度が与えられるマーク付けとは異なり得る。
【0055】
これに関して、赤ちゃんの監視は通常、好ましくは、音声が、長期間にわたって、赤ちゃんの近辺から録音されるように、継続的に行われることが理解されよう。これは、例えば、親が、赤ちゃんが泣いていることに気付いた時点で、音声データの収集をトリガーするだけの状況に比べて、様々な優位性を有する。長期間にわたって赤ちゃんを監視することは、泣いている期間および泣いていない期間の両方を含む音声データを利用できる。これはその結果、典型的な背景挙動の考慮を簡略化する。音響的な背景特性は、音声のレベルに関して、雑音のスペクトル分布に関して、ならびに、例えば、犬の鳴き声、車のクラクション、ドアの閉まる音、上の子の泣き声等に起因した、著しい背景雑音の長さおよび発生に関して、変動することが理解されるべきである。かかる背景挙動を明確に理解することは、音声ストリームからデータを泣き声データとして選択する際に役立ち、従って、パーソナライズ判定のために提供されるデータの品質を改善するのに役立つ。
【0056】
例えば、空調システムが特定の周波数帯域で雑音を生じる場合、赤ちゃん泣き声判定のいくつかの実施態様では、かかる周波数帯域は、赤ちゃん泣き声を記述するパラメータを決定する際に無視すべきである。赤ちゃんを継続して監視することにより、赤ちゃんが泣いていない期間中に得られた音声データを見ることによって、特定の周波数帯域の雑音が存在することに気付くことが可能になる。それに応じて、特定の周波数帯域の雑音の除去に依存する赤ちゃん泣き声判定のそれぞれの実施態様では、対応する周波数帯域は無視されるべきであり、対応する情報が選択された音声データに追加できることが分かる。これは、単純に雑音の影響を受けた周波数を除去することよりも好ましく、なぜなら、残りの周波数帯域は一般に赤ちゃんの泣き声に関連していることが分かっているが、それらは特定に事例に対して考慮されないためである。また、これは、特定の音声データストリームが(コンピュータ集約的な)帯域フィルタリングを受ける必要があることを意味せず、対応する情報をパラメータ決定段階に送り込むだけで十分であり、そのため、例えば、それぞれの帯域におけるスペクトル強度を表す値を割り当てるのではなく、かかる値は「利用不可」(N/A)と提示され得る。ある周波数帯域が無視される場合、例えば、異なるフィルタパラメータを使用する、泣き声検出のための異なるアルゴリズムが必要になり得ることが理解されよう。泣き声データは、赤ちゃんが泣き始めた後のある期間、フレームを選択することにより、代替としてかつ/または追加として、選択できることも理解されるであろう。しかし、特に雑音を受けやすい特定の周波数帯域を除去しないことが好ましい実施形態もある。データ量が強く削減されない実施形態では、例えば、フォルマント関連パラメータ、ピッチ周波数関連パラメータ、第1の性能の最大値など(特に、以下にリストされるパラメータを比較)などの、特定のパラメータではなく、赤ちゃんの泣き声に関連したもっと完全な情報が畳み込みニューラルネットワークなどに送り込まれるので、雑音の悪影響はあまり顕著ではないことが理解される。同時に、判定の品質が向上することが理解されている。ここで、より完全な情報を畳み込みニューラルネットワークなどで処理することは、より大きな計算量を必要とするが、この追加の計算量は、任意のフィルタリングステップを省略することにより、および/または同じ処理が、存在する特定の雑音特性とは無関係に達成されるのを可能にすることにより、少なくとも部分的に補償されることが理解されよう。従って、全般的な観点から、赤ちゃんの泣き声の分析において、判定段階に送り込まれる複雑なデータを削減するために著しい計算量を費やすのではなく、もっと完全な情報を人工知能ベースの判定段階に送り込むことがより有用であることが本発明人によって理解されている。しかし、できることは、実際に判定されるかかるより完全な情報が赤ちゃんの泣き声を判定するのに適していることを確実にすることであり、それは、泣き声において典型的に見られるパターンが音声データ内で識別されて、それから分離された場合、容易に想定できる。それに応じて、好ましい実施形態では、音声評価のために正しい音声入力を選択することは、データストリーム内での音声に関連するパターンの識別、および好ましくは、かかる音声関連データを非音声関連データから分離することを含む。
【0057】
通常、赤ちゃんは、長時間にわたって泣くが、例えば、赤ちゃんは呼吸する必要があるので、大きな泣き声が録音されない短い期間もある。これらの短期間に関連した情報は、完全には廃棄する必要はない。特に、さらなる判定のためにパラメータが決定される場合、これらの短期間は好ましくは、それらも有用な情報を含み得るので、音声データストリームから取り除かれない。ある事例では、赤ちゃんが泣き始めた後に、非常に大きな音が録音されていない、かかる時間の長さは、赤ちゃんが泣いている理由の判定において重要な手掛かりを与え得ることが理解されるべきある。従って、このようなパーソナル化評価場合、音声データの長さの指標を少なくとも含むことは有用であり得る。他の場合、音声データ内に泣き声関連パターンが生じる時間、または時間タグを少なくとも決定することは有用であり得る。
【0058】
しかし、泣き声パラメータが決定される場合、このように、たとえ赤ちゃんが、泣き声の繰り返される発現(onset)中に特に騒がしくなくても、泣き声の繰り返される発現から手掛かりを得ることができるので、泣き声パラメータが、より長くて、途切れない期間から決定されることはなおさらに好ましい。
【0059】
より長くて途切れない泣き期間が考慮される場合、泣き声は、長時間にわたる泣き声前の雑音および/または泣き声後の雑音を切り取ることによって分離され得る。また、十分な世話を受けていない赤ちゃんは、非常に長い期間、泣くことができることも理解されよう。従って、赤ちゃんが泣く理由は好ましくは、たとえ泣き声が依然として続いていても、判定されることが理解される。かかる場合、親または介護者が直ぐに対応しない場合には判定が繰り返され得、かかる長時間にわたる泣き中に得られた判定が変動する場合、異なる判定の中で最良仮定の判定が行われ得る。赤ちゃんが泣く理由は、例えば、以前に痛みを感じていた赤ちゃんは徐々に疲れてくるために、長時間の間に徐々に変わるので、判定は長期間の間に変わり得ることが理解される。
【0060】
それに応じて、自動赤ちゃん泣き声判定のためのデータを提供または入手する場合、泣き声データの選択または抽出または識別は、分析すべき時間および/または分析すべき(または分析すべきでない)周波数帯域もしくは周波数の識別に関連する。周波数帯域の省略に関して、ナイキストエイリアシングを回避するための帯域通過フィルタリングは周波数の「省略」とは考えられないと明示的に言及されるべきである。むしろ、周波数の省略に言及される必要がある場合、省略される周波数はサンプリング周波数よりも低いこと、および典型的には、省略はデジタルデータに影響を及ぼすことが理解される。その結果、周波数は、最も低い処理可能な周波数を上回り、かつ最も高い処理可能な周波数を下回る、ある周波数帯域を無視することによって省略できる。しかし、特定のフィルタリングは、特に、泣き声パターンをスペクトログラム様表現に基づいて検出し、それに応じて、音声処理を最小限に抑えることができる実施形態に関して、不可欠ではないが、音声レベルを、例えば、正規化された最大音声レベルが各窓に対して同じになるような方法で、正規化することが好ましい可能性があることに留意されたい。一旦、泣き声パターンが識別されて窓内に分離されると、窓内で生じていて、音声レベルを正規化するための参照として使用される最大音声レベルは、泣き声パターンの一部を構成しない可能性が存在することに留意されたい。これは、例えば、ドアが非常に大きな音をたててバタンと閉められて、赤ちゃんを泣かせる場合であろう。従って、後続の泣き声翻訳のための正規化音声レベルを有する泣き声パターンを使用すること、または別の期間、泣き声判定を使用することが好ましい場合、泣き声パターンを再正規化することが可能である。また、泣き声翻訳のある実施態様、特に、翻訳のために畳み込みまたはニューラルネットワークを使用する実施態様では、標準化された長さの泣き声パターンを有することが好ましいと言及される。従って、例えば、対応する無音の期間で音声データを延長することにより、または、例えば、完全に黒くすることによって、無音を表す領域をスペクトログラムに追加することにより、無音を表すデータを追加することが可能である。泣き声パターン翻訳において正規化および標準化された長さの両方を使用することは、スペクトログラム様表現が入力として供給される畳み込みまたはニューラルネットワークに基づくような、機械学習モデルを使用する場合、特に好ましいことに留意されたい。説明およびクレームにわたって幾度も、セグメント化された窓および/または泣き声パターンである、音声データのスペクトログラム様表現に対して言及されるが、音声データの線形スペクトログラム様表現を使用する必要はなく、むしろ、音声データの非線形スペクトログラム様表現、特に、メルスペクトログラム様表現および/またはロックスペクトログラム(lock spectrogram)様表現が使用され得ることにも留意されたい。音声データのこれらの非線形スペクトログラム様表現は、泣き声パターン翻訳のため、ならびに泣き声パターン識別および分離のための両方で使用できる。
【0061】
前述のとおり、パーソナル化が、泣き声の検出、泣き声データの選択または泣き声データの選択からのパラメータの決定の、先行するステップに続く方法で、パーソナライズ判定を実装する必要はない。パーソナル化の計算量および/または構成努力は最小限に抑えられているので、これはその結果、好都合であり、また、パーソナライズ判定が、例えば、性別、年齢、身長、体重医学的前提条件等の特定のパーソナルデータを持つ赤ちゃんにとって、ピアグループが依然として小さすぎるために、可能ではない場合、不十分な特定のデータによって損なわれない、少なくとも非パーソナライズ判定が、達成できる。「類似の」ピアグループも選択され得ること、および/またはピアグループの数は、データベースが十分に成長するまで、小さい可能性があることに留意されたい。パーソナル化に関して、かかるパーソナル化は、全ての個々の赤ちゃんに対して別個で異なるパラメータを使用するプライベート化(privatization)として実装できるか、または非常に類似した泣き声パターンをもつ赤ちゃんのピアグループまたはクラスタを決定するクラスタ化として実装できる。プライベート化は、1人だけの特定の赤ちゃんから取得された赤ちゃんの泣き声に関して特別に訓練してモデル化することにより可能であるが、プライベート化は、例えば、まず、より一般的なモデルを、例えば、非常に類似した泣き声パターンおよび/または非常に類似したパーソナルデータ(体重、年齢、身長、および性別など)をもつ赤ちゃんのピアグループまたはクラスタからの泣き声に基づいて、判断することによって、フィルタパラメータを、それらが特定の赤ちゃんにより良く適するように、わずかに適合させることによっても達成できることが理解されよう。これは、転移学習として知られており、赤ちゃん泣き声判定のためにデータを提供する本出願で提案される特定の方法は、転移学習によってパーソナル化された赤ちゃんの泣き声判定において特に有用であることが理解されるべきである。
【0062】
前述したことはCharles C.Onu、Jonathan Lebenso、William L.HamiltonおよびDoina Precupによる「Neural Transfer Learning for Cry-based Diagnosis of Perinatal Asphyxia」という論文において、成人の発話から学習されたモデルパラメータは、幼児の発話に関してモデルを訓練するための(ランダムよりは)より良い初期設定として機能し得ると提案されており、本出願人は、もっと一般的な赤ちゃん泣き声判定モデルから転移学習によって赤ちゃん泣き声判定をパーソナル化しようとする試み、具体的には、転移学習が基づいている初期モデルがデータベースエントリのクラスタ化によって得られる方法ではなく、具体的には、判定された赤ちゃんが泣く理由ごとに、例えば、6、8、10、15、20を上回るデータベースエントリの異なるクラスタを区別する細かいクラスタ化ではない、試みを知らない。
【0063】
本発明の方法は、クラスタ化が、過去に知られているものよりも細かい区別、例えば、体重間隔が500g、400g、300g、200gまたは100g以下;身長間隔が5cm、4cm、3cm、2cmまたは1cm以下;年齢間隔が8週、6週、4週、2週の赤ちゃんのグループ化、を使用できるように、異なる赤ちゃんからの泣き声でのデータベースの生成に役立つことも理解されよう。言うまでもなく、間の任意の間隔も選択され得る。体重、身長または年齢に対して示された最大値よりもさらに大きい間隔は、むしろ原因するパーソナライズとなり得、従って、本発明によって取得可能な高品質の泣き声データを最大限に利用できず、他方、体重および身長に対して示された下限は、典型的にプライベートに自宅で観察される測定の不正確さを反映し、そのためより細かい人のパーソナライズは非常に有用というわけではないことが理解される。クラスタ化がそれぞれのパーソナル赤ちゃんデータに完全にまたは部分的に基づく場合、徹底的な0.1℃目盛りもしくは0.2℃目盛りもしくは0.3℃目盛りでの赤ちゃんの現在の体温などの追加のパラメータまたは既知の医学的状態も考慮に入れることができる。
【0064】
音声データは、例えば、4kHz、8kHzまたは10kHz、16kHzのサンプリング周波数でサンプリングされ、サンプリング周波数は通常、赤ちゃんの泣き声の周波数成分、赤ちゃんの監視において使用されるマイクロホンの周波数応答を考慮して、ならびに/または利用可能な計算能力および/もしくは音声データの、自動赤ちゃん泣き声判定で使用されるクラウドおよび/もしくはサーバーへのアップロードのために利用可能な帯域幅を考慮して決定される。帯域幅は、例えば、音声データをクラウドにアップロードするために利用可能な帯域幅に更新され得る。しかし、関連のある泣き声情報を8kHzを上回る周波数範囲内で見つけることができるが、これらの周波数を録音することは、使用されるマイクロホンの点から、およびそれらの指向性の点の両方から、しばしば困難であり、マイクロホンが高周波数において十分に感知可能な場合でさえ、使用されるマイクロホン感度の極性パターンは不都合であるために、これは高周波数にとってさらに重要になる。従って、本発明を制限することなく、多数のユーザーにとって、8~10kHzまでのサンプリング周波数は、より高い周波数で得られた結果から区別できない結果をもたらす。マイクロホンからの音声信号は、増幅した、低域通過および/または帯域通過フィルタなどで予め調整されて、デジタル化される。音声データをさらに処理するため、および/または音声データをサーバー、クラウド等に伝達するために、いくつかのサンプル、特に、64のサンプル、128のサンプルまたは256のサンプルなどの、固定数のサンプルを含むフレームを定義することが好ましい。固定数のフレームを使用する必要がないか、または固定フレームを全く使用する必要がないとはいえ、フレーム使用は計算の複雑性を低減するので、以下で、しばしばフレームに対して言及される。
【0065】
泣き声データから決定されたパラメータに関して、以下のパラメータの1つ以上が決定できる:
現在の泣き声イベント中の平均泣き声エネルギー、特定の数の連続および/もしくはフレームにわたる、具体的には2、4、8、16もしくは32フレーム内の、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間にわたる、泣き声エネルギーのスライド平均;1イベント中の中断の間の泣き声持続時間分散;
具体的には2、4、8、16もしくは32フレーム2、4、8、16もしくは32フレームにわたる、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間にわたる、泣き声エネルギー分散;
現在のピッチ周波数;具体的には2、4、8、16もしくは32フレーム2、4、8、16もしくは32フレームにわたって、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間にわたって、平均されたピッチ周波数;泣き声イベント中および/もしくは泣き声データの2、4、8、16もしくは32フレーム2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中のピッチ周波数の最大値;
泣き声イベント中泣き声イベント中および/もしくは泣き声データの2、4、8、16もしくは32フレーム2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中のスライド最大ピッチ周波数の変化;
泣き声イベント中および/もしくは泣き声データの2、4、8、16もしくは32フレーム2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中のピッチ周波数の最小値;泣き声イベント中泣き声イベント中および/もしくは泣き声データの2、4、8、16もしくは32フレーム2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中のスライド最小ピッチ周波数の変化;
泣き声イベント中および/もしくは泣き声データの2、4、8、16もしくは32フレーム2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中のピッチ周波数のダイナミックレンジ;泣き声イベント中および/もしくは泣き声データの2、4、8、16もしくは32フレーム2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中の周波数のピッチ平均変化率;
泣き声イベントまたは泣き声データの2、4、8、16もしくは32フレーム2、4、8、16もしくは32フレームにおける、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中の第1のフォルマント周波数(本発明の文脈では、フォルマントという用語は、人間の声道の結果として生じるスペクトル形成に関連し得、また、フォルマントについて言う場合にはスペクトル中のピーク、つまり極大に、および/または共振によって増大される部分的な調波に、言及され得ることに留意);
泣き声データの2、4、8、16もしくは32フレーム2、4、8、16もしくは32フレームにわたって、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中に平均された第1のフォルマント周波数の平均変化率;
泣き声データの2、4、8、16もしくは32フレーム2、4、8、16もしくは32フレームにわたる、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中の平均の第1のフォルマント周波数スライドのスライド平均変化率;
泣き声データの2、4、8、16もしくは32フレームにわたって、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中に平均する、第1のフォルマント周波数の平均値;
泣き声データの2、4、8、16もしくは32フレームにおける、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間における第1のフォルマント周波数の最大値;泣き声データの2、4、8、16もしくは32フレームにおける、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中の、第1のフォルマント周波数の最小値;
泣き声イベント中および/もしくは泣き声データの2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中の第1の共振ピーク周波数ダイナミックレンジ;
泣き声イベント中および/もしくは泣き声データの2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中の第2のフォルマント周波数;
泣き声イベント中および/もしくは泣き声データの2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中の第2のフォルマント周波数平均変化率;
泣き声イベント中および/もしくは泣き声データの2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中の第2のフォルマント周波数平均;
泣き声イベント中および/もしくは泣き声データの2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中の第2のフォルマント周波数最大値;
泣き声イベント中および/もしくは泣き声データの2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中の第2のフォルマント周波数最小値;
泣き声イベント中および/もしくは泣き声データの2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中の第2の共振;
泣き声イベント中および/もしくは泣き声データの2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中のピーク周波数ダイナミックレンジ;
Mel周波数ケプストラムパラメータ(ケプストラムは次の一連の数学演算の結果であることに注意:a-信号の時間領域から周波数領域への変換、b-スペクトル振幅のログ、c-ケフレンシ(quefrency)領域への変換、ここで最後の独立変数、ケフレンシは実際は時間スケールを有する)、パラメータは、泣き声イベント全体に対して、および/もしくは泣き声データの2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中に決定される;
ならびに/または
反転Mel周波数ケプストラムパラメータ。
【0066】
上でリストされたパラメータまたはパラメータの一部は、事前に計算されたパラメータをニューラルネットワークに送り込むために各泣き声に対して決定できるが、これは必要とは限らないことが理解されるべきである。特に、全ての関連情報を含む録音された泣き声音声の表現を機械学習モデルに供給することが可能であり、その場合、機械自体が、どのパラメータが実際に関連があるかを「評価する」。かかる表現の一例は、音声のmelスペクトログラムであろう。
【0067】
1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間に対して上で言及される場合、7秒または28秒などの、明示的に言及されたそれぞれの時間までの任意の他の一定期間に言及することもできることに留意されたい。これは、以下で言及される他のパラメータに対しても当てはまる。しかし、それぞれの時間および/またはフレーム数は、5秒までの短期間は、泣き声を翻訳するために良く適した泣き声データにおいて典型的なパラメータを判断するために、適しているので、好都合であることが理解されよう。情報の一部が周囲雑音内に埋まっている場合、15秒までの中位の長さが有用であり、他方、赤ちゃんが痛がっていて、同時に空腹で、眠いなどの、いくつかのかかる理由が併存する場合、赤ちゃんが泣いている主要な理由を特定するために、30秒までのもっと長い期間が有用である。
【0068】
前述したパラメータの全てが判定に必要なわけではなく、パーソナライズ判定においてさえ、必要ではないことが理解されるであろう。それに対して、非常に良い結果をもたらす判定は、上で言及されたパラメータの2~3だけに依存することが可能である。パラメータの一部は幾分、冗長情報、例えば、泣き声イベント全体の間の音声レベルの平均、2、4、8、16、32もしくは64フレームにわたる音声レベルのスライド平均など、に関連するので、これは、特にそうである。畳み込みニューラルネットワークなどの技術がパーソナル判定で使用される場合、同じ年齢、民族性、性別、体重、赤ちゃんの身長などに起因して類似の泣き声パターンを持つ赤ちゃんの異なるグループに対して、異なるリストされたパラメータが最適であろう。それにもかかわらず、その時でさえ、決定する必要があるパラメータの全体数がある程度少なくなり得、それでもパラメータの有用なセットがパーソナル判定に対して提供できるように、様々に異なる赤ちゃんに対して典型的に共通なパラメータのセットが見つかる。いくつかの周波数帯域が雑音のために使用できない場合、パラメータに対して同じことが当てはまる。これは、特に、パーソナライズのための1つ以上の関連記述子が体重、赤ちゃんの身長または年齢を参照する場合、パーソナライズに関連付けられた計算および構成努力を最小限に保つのに役立ち、ある範囲の体重、ある範囲の赤ちゃんの身長および/またはある範囲の年齢に最も適したパラメータのセットの使用は、パーソナライズ判定段階の更新の期限が来ているか、もしくは期限を過ぎている場合、または、例えば、泣き声データのパーソナライズ判定に対して通常アドレス指定されるクラウドサーバーが現在のところ利用できないために、非パーソナライズ判定が実行される必要がある場合に、依然として非常に良好な判定結果を得るのに役立ち得る。
【0069】
前述では、スライドパラメータの使用が言及されていることが強調されるべきである。スライドパラメータの使用などの技術または相互相関技術は、そんなふうに、十分に詳細な泣き声の正確な発現の決定の影響が低減できるので、特に好ましい。
【0070】
しかし、前述のとおり、後続の判定のために音声データから低次元パラメータを決定することは絶対に必要というわけではない(限られた数のパラメータを使用することによるなど、低次元パラメータに言及されることに注意、次元性は、例えば、16ビットおよび48キロヘルツで録音された、例えば、500msのチャンクの音声データが判定される状況と比較して、明らかに低減される)。低次元パラメータの計算ではない別の可能性は、通常、赤ちゃんの泣き声と関連付けることができるパターンを前もって識別し、これらを分離し、次いで分離されたパラメータを後続の判定段階に供給することである。特に実装するのが簡単な可能性は、所与の長さのチャンクに対してスペクトログラムを生成し、次いで通常赤ちゃんの泣き声と関連付けられるパターンをそれらのスペクトログラム内で探すことである。利点は、スペクトログラムを生成することは簡単で、低計算量で行うことができることであり、通常赤ちゃんの泣き声と関連付けられるパターンをそれらのスペクトログラム内で探すことはその結果、一般的な画像分析技術によって容易に達成できる。従って、必要なステップを実装することは特に容易である。この文脈では、少なくとも0.25秒の長さを有する泣き声パターンを識別して分離することが好ましく、好ましくは、識別されて分離される最小泣き声パターンはさらに長く、具体的には、少なくとも0.3秒または0.4秒、実用的な実施態様では、0.4秒の最小長さを持つ泣き声パターンは、監視された音声データのスペクトログラム様表現を使用して典型的な現場設置で観察される任意の背景雑音にかかわらず、特に、少なくとも0.4秒の持続時間をもつ泣き声パターンを、監視された音声データの5秒窓の音声レベル正規化されたメルスペクトラム様(Melspectrum-like)表現内で検索するための対象物定位法を実装することにより、確実に識別できる。同時に、パターンの長さも制限でき、例えば、2秒よりも長い長さをもつ識別されて分離された泣き声パターンを切り取るか、または完全に除外し、2秒よりも長い泣き声パターンを受け入れることが可能である。しかし、各泣き声は、大抵、2秒よりも短い複数の異なる泣き声パターンにセグメント化される。その後続の翻訳のために標準化された長さの泣き声パターンを使用することは、識別されて分離された泣き声パターンの大部分は、後続の翻訳のために、例えば、一方の側上のブラックショルダー(black shoulder)によって引き伸ばされる必要があることを暗示し、これは泣き声判定の精度を損ない得ることが理解できる。従って、4秒以下、好ましくは3秒以下、および特に2秒以下、の長さの泣き声パターンの使用は、非常に好ましい。より短い泣き声パターンを使用することは、特に、連続した音声ストリームではなく、短い泣き声パターンまたはその表現だけがクラウドにアップロードされる場合、プライバシーの懸念からも役立つ。
【0071】
「無音」または対応するスペクトログラムパターンの期間を追加することにより、翻訳のために泣き声パターンの長さを正規化する場合でさえ、元の長さが依然として、赤ちゃん泣き声の判定で使用される畳み込みニューラルネットワークまたは機械学習モデルに供給される。例えば、まず、赤ちゃんが泣く特定の理由を表すための各泣き声パターンに対する確率を計算し、次いで収集された確率から赤ちゃんが泣く全般的な理由を判定する実施形態では、検討される各パターンの長さも含めることは有用であろう。
【0072】
好ましい実施形態では、赤ちゃんが継続して音響的に監視されて、泣き声前の音声データが、後続の音声データが泣き声に関連していないことが分かるまで、少なくとも一時的に格納されることが提案される。これに関して、これは、低次元パラメータが後続の赤ちゃん泣き声判定のために音声データから決定される状況、および赤ちゃん泣き声と関連付けることができるパターンの単純な検索およびこれらのパターンの分離が実行される状況の両方に適用できることが留意されるべきである。例えば、赤ちゃんの泣き声音声データ内で検索される典型的なパターンは、例えば、2秒以下の長さを有する場合、5秒期間に対応するフレーム数が一緒にグループ化されて、その中の発見パターンが、例えば、スペクトログラムを決定することにより、特に単純になるような方法で処理できる。明らかに、これは、5秒を超えて取得されたデータはまず、かかる後続の分析のために格納される必要があることを意味する。また、泣き声パターンは、決して、5秒などの所与の期間内にだけ始まって終わると予期されるべきでないので、使用された刻み幅(stride)は、期間の間で重なり合いが存在するように、低くすべきであることに留意されたい。刻み幅は好ましくは、検索される各パターンが、一連の窓の少なくとも1つ内に完全に存在するようにすべきである。短い刻み幅では、これは保証するのが容易である。これは、いくつかのパターンが2つの後続の期間内で識別される状況となり得るが、2度現れるパターンを廃棄するのが容易であり、より詳細には、期間の重なり合いに起因して2度見つかったかかる泣き声パターンを廃棄するためにタイムスタンプ技術が容易に使用できることが理解されよう。音声データのスペクトログラム様表現に基づく、特に、音声データのメールスペクトログラム(male spectrogram)様表現に基づく、対象物定位アルゴリズムによって泣き声パターン検出および/または泣き声パターン分離を実装する場合、スペクトログラム様表現を取得する前に、基礎となる音声データがその中にセグメント化される窓内にパターンが完全には含まれていない状況が生じ得ることに留意されたい。識別されたパターンは窓の境界にまで及ぶので、これは気付くのが容易である。恐らく、たとえ1つの同じ泣き声パターンが、一連の重なり合う窓の各々内に幾分異なった方法で分離され得ても、1つの窓内で完結しない泣き声パターンが、その泣き声パターンが、その後完結する別の窓内で再度、見つかる。従って、翻訳の後続のステップでは、不完全な泣き声パターン、典型的には低精度だけが得られるので、窓の境界にまで及ぶ任意のパターンを無視することは好ましい。不完全な泣き声パターンが後続の窓内で識別できない場合でさえ、典型的な状況では、不完全なパターンの省略がいかなる重要な不利益もないように、複数の泣き声パターンが識別されて観察されるので、これはほとんど泣き声翻訳にいかなる悪影響も及ぼさない。
【0073】
泣き声前のデータを格納することは、泣き声検出が、泣き声判定精度を低下することなく泣き声判定から上手く分離できるので、全体的な計算量を大幅に削減する。これに関して、泣き声の識別は簡略化でき、かつ/またはマルチステッププロセスで行われ得ることに留意すべきである。典型的には、赤ちゃんの泣き声は、任意の背景雑音よりも著しく大きい。好ましくは、音声レベルにおけるかかる上昇は、泣き声検出の第1のステップとして使用される。泣き声検出がクラウドで実行される場合でさえ、かかる第1のステップをローカルで実装することは、クラウドに転送されるデータ量を極めて大幅に減少して、泣き声判定で消費される全体的なエネルギーを削減するので、好ましくあり得る。泣き声検出の第1のステップをローカルに実装することは、音声レベルが非常に容易に実装されることを考慮して、例えば、単純な比較器を使用することが理解されるであろう。従って、特別に強力なローカルプロセッサまたはマイクロコントローラを有する必要はない。
【0074】
それに応じて、第1の重要な基準は、サンプルまたはフレームの絶対音声レベルである。絶対音声レベルを使用するのではなく、所与のかなり短期間にわたる音声レベルの上昇も使用でき、そのため許容される周囲雑音への適応が自動的に達成される。背景/泣き声の区別は人工知能/ニューラルネットワークフィルタリング技術に依存し得ること、および、このような場合、実際の泣き声判定で使用されるものとは異なるフィルタが使用でき、好ましくは使用されることが理解されるべきである。
【0075】
前述のとおり、音声レベルの対応するテストは、現在の音声データの2進値である、現在の音声レベルの、事前に定められたか、または学習された閾値に対する、比較を必要とするだけなので、これは極めて低計算量で行うことができる。しかし、犬の鳴き声、ドアの閉まる音などの背景雑音も著しく高い音声レベルとなり得る。従って、一旦、現在の音声レベルを閾値と比較することによって、または音量における急上昇を検出することによって、著しく高い音声レベルが検出されていると、依然として、突然の高い音声レベルが突然の大きな背景雑音と、または赤ちゃんの泣き声と関連しているか否かが分かるはずである。このため、泣き声前の音声データを録音することは、閾値を上回っている場合に、それらのデータの直前に録音された音声を評価するのを可能にするので、有用である。かかる泣き声前の音声データを後続の評価のために格納することは、赤ちゃんが泣いている十分に高い確率と共に、組合せでのみ示す、いくつかの条件を継続的にチェックするよりも著しく少ないエネルギーしか要求しない。泣き声前の音声データは、特別に長期間、格納する必要はなく、そのため少量のメモリで通常十分であることが理解されよう。この少量のメモリで、新しいデータは、最も古いデータの上に循環的に書き込むことができる。赤ちゃんが泣いていることを示す手掛かりは、非音響データから、例えば、動きを示しているか、または赤ちゃんの表情が典型的に泣いている赤ちゃんに対するものであることを示している、赤ちゃんのビデオ監視からも導出され得ることも理解されよう。
【0076】
閾値を設定する1つの好ましい可能性は、データストリーム(サンプルまたはフレームなど)の連続した断片に対する雑音レベルを、例えば、フレームの平均値を決定することにより、継続的に測定することである。これは、アナログ実装を使用してさえ可能であることに留意されたい。また、各断片中、平均を使用する代わりに、また、音声レベルは各断片内で変動する可能性が高いことを考慮して、これらの変動する音声レベルの最小値が背景レベルとして決定できる。この背景レベルは、単独で、または断片あたり複数の背景レベルから考慮でき、スライド平均背景レベルなどの、新しい、全体的な背景レベルが決定され得る。赤ちゃんが泣いていると見なすために上回る必要がある閾値が次いで、それぞれの背景レベル(複数可)を考慮して、例えば、過去の背景レベルよりも少なくともxdB高いサンプルだけを考慮して、Xを、例えば、6または12または18として、決定できる。しかし、背景レベルが特別に高い場合、赤ちゃんがさらに大声で泣いていると見なすことは合理的ではなく、そのため、赤ちゃんは背景雑音のために特別に大声で泣くと予期すべきではないので、上回る必要がある閾値(または例では「x」)は、全体的な音声レベルの関数であり得ることが理解される。従って、周辺環境がより大きな背景雑音を有する場合、Xは通常、小さくなる。この文脈では、赤ちゃんの泣き声の実際の音声レベルはマイクロホンから赤ちゃんまでの距離、および赤ちゃん自身の両方によって決まることが理解されるが、通常、録音マイクロホンは赤ちゃんまで1~2mの範囲の距離に配置することが可能であり、また、幾分かの変動にかかわらず、赤ちゃんの泣き声の全体的な音声レベルは、具体的には、従来の方法で安価なデジタルアナログ変換器でさえ達成可能な音声レベルの解像度を所与として、特定の有用な範囲内に存在すると見なすことができる。背景雑音が極めて大きい場合、音声データストリーム内で赤ちゃんの泣き声を継続的に検索することが堅実であり得る。音声レベルが第1の手掛かりとして使用できない場合、周波数成分/スペクトログラムおよび同様のもの等の他のパラメータが判定されるべきであるため、これは合理的である。前述の赤ちゃん泣き声識別の第1の段階は好ましいが、例えば、固定閾値を使用した、および最初に決定されたか、または赤ちゃんが泣く特定の理由などと正に関連している音声イベント中に音声レベルを考慮して定期的に決定される閾値を使用した、他の可能性が存在し得ることに留意されたい。
【0077】
好ましい実施形態では、赤ちゃんの泣き声、具体的には、連続した音響的監視ストリーム内の赤ちゃんの泣き声の発現は、閾値を上回っている現在の音声レベル、平均背景雑音を所与の限度(margin)だけ上回っている現在の音声レベル、閾値を上回っている1つ以上の周波数帯域における現在の音声レベル、対応する平均背景雑音を所与の限度だけ上回っている1つ以上の周波数帯域におけるか、もしくは1つ以上の周波数における現在の音声レベル、音声の時間的パターン、時間的領域からだけでなく周波数領域からの音響特徴も含むモデル、の少なくとも1つ、および好ましくは少なくとも2つ、特に少なくとも3つに基づいて検出されることも提案される。言い換えれば、音声ストリームの時間的および/またはスペクトルパターンが確立でき、それぞれのパターン(複数可)を考慮して判断できる。音声データは、パターンに関連した判断が従来型の画像分析技術を使用して行うことができるような方法で、処理できることに留意されたい。泣き声が平均背景雑音と比較して検出される場合、背景雑音は、例えば、前の5秒、10秒、20秒、30秒または1分にわたって平均できる。
【0078】
赤ちゃんが泣いていると考えるために共通して満足される必要のある複数の条件が確立できることが理解されよう。例えば、音声エネルギーのスペクトル分布が赤ちゃんの泣き声の音声エネルギーの典型的なスペクトル分布に対応する場合、かつそれが十分に長い場合にだけ、大きな雑音は泣き声と考えられ得る。計算量は異なる条件に対して異なるので、少なくとも継続的に実行している計算量を必要とする識別ステップならびに、継続的に実行している識別ステップが、もっと詳細な分析を必要とする音声パターンが見つかったことを示す場合に限り実行される残りの、および/または追加の識別ステップをもつ、マルチステップ/多段階泣き声識別を有することは合理的である。このように、エネルギー消費が比較的低くできることが理解され、それは、方法が、電池式の装置上で完全に、または少なくとも初期部分に関して実行される場合、特に好都合である。また、任意の泣き声識別ステップは、適用時に低速であると考えられる、DSP、FPGA、マイクロコントローラ、マイクロプロセッサなどの、処理装置上でさえ、十分高速に実行できることが理解される。それに応じて、マルチステップ泣き声識別アプローチにもかかわらず、待ち時間は無視できるほどであろう。言い換えれば、これは、泣き声判定において顕著な、または著しい遅延は生じない。いずれにせよ、成人間のビデオまたは電話通信などにおいて確立される直接通信がないので、典型的な遅延は非常に小さく、容易に許容可能であろう。
【0079】
これを考慮して、好ましい実施形態では、少ない計算量を必要とする識別ステップまたは複数の識別ステップが継続的に実行されて、残りの、および/または追加の識別ステップは、継続的に実行している識別ステップ(複数可)が、もっと詳細な分析を必要とする音声パターンが見つかったことを示す場合に限り実行される場合、赤ちゃんの泣き声、具体的には、連続した音響的監視ストリーム内の赤ちゃんの泣き声の発現は、閾値を上回っている現在の音声レベル、平均背景雑音を所与の限度だけ上回っている現在の音声レベル、閾値を上回っている1つ以上の周波数帯域における現在の音声レベル、対応する平均背景雑音を所与の限度だけ上回っている1つ以上の周波数帯域における現在の音声レベル、音声の時間的パターン、音声の時間的および/またはスペクトルパターンの少なくとも1つに基づいて検出されて、好ましくは、マルチステップ/多段階泣き声識別により音声データストリーム内に赤ちゃんの泣き声が存在するか否かを決定することが提案される。
【0080】
赤ちゃんの泣き声または赤ちゃんの泣き声のより正確な発現または赤ちゃんの泣き声とされる音声が検出されている場合、いくつかの可能性が存在することが理解される。まず、赤ちゃんが今も泣いているか否かを判断するために、泣き声の検出に続く、いくつかのフレームまたは指定の期間の各々を評価することが可能であり、これは、例えば、現在の音声レベルとは無関係に行われ得、このように、呼吸音も赤ちゃんが泣いている理由に対して重要な手掛かりを与え得るので、赤ちゃんが呼吸をする必要がある期間からのデータも分析される(泣き声パターンの検索が実行される期間または窓内のサンプル数は、例えば、クラウドサーバーに容易に転送できるファイルを取得するために、フレーム内で一緒にグループ化されるサンプル数とは異なり得、例えば、ファイルの移動に関して、ある数のサンプルが、単純な誤り訂正を可能にする方法で一緒にグループ化されるべきであるが、この数は典型的には少なく、窓を形成するために一緒にグループ化されるサンプル数であることに留意されたい)。
【0081】
少数のパラメータが判定のためおよび/または音声ストリーム内で泣き声を検出するために、音声データから抽出される実施形態では、泣き声イベントまたは泣き声イベントといわれるものが検出された後に取得されて分析される必要のあるフレームの最小数まで数えるカウンタが使用され得る。また、音声ストリーム内の期間が分析されて、見つかっているパターンか否かを決定する場合、かかる期間は典型的には、いくつかのフレームから成り、従って、カウンタも提供されるべきである。
【0082】
赤ちゃんが(まだ)泣いているか否かを監視することは好ましく、そのためさらなる着信音声データにおいて、赤ちゃんが泣いている理由のパーソナライズ判定に適したパラメータの計算と並行して、ならびに/または赤ちゃんの泣き声と典型的に関連付けられるパターンの識別および分離と並行して、大きな雑音も検索されるべきであることに留意されたい。泣き声が続いているかどうかの検出に関して、録音されたフレームの平均音声レベルが、以前のフレームの音声レベルよりも著しく大きいこと、しかし音声レベルは所与の最小値を下回らないこと、を要求することは必要でない可能性があることに注意する。ヒステリシス様挙動は従って、一旦、泣き声とされる音声がさらに分析されると、実装できる。
【0083】
これが行われる場合、赤ちゃんがまだ泣いていることが確認されるときはいつでもカウンタがリセットできる。このアプローチは、親および/または介護者が、泣き止む前に、赤ちゃんの泣き声に対応しない場合に、泣き声の終了フェーズが完全に録音されることを確実にする。これは、静かになっている赤ちゃんがその後放っておかれるべきか否かを確認するために役立ち得る。しかし、フレーム内でサンプルの録音中に赤ちゃんが泣いていたことが確認されているフレームだけを考慮することも可能であろう。これを達成するために特に有用な方法は、典型的に赤ちゃんの泣き声に対応するパターンを音声ストリーム内で検索することである。かかる検索は例えば、音声抜粋または期間の2次元表現を取得することによって、例えば、音声期間(5秒の音声期間など)の周波数成分を経時的に示すスペクトログラムを決定することによって、達成できる。赤ちゃんの泣き声に典型的に対応するこのパターンを音声ストリーム内で検索することはその結果、人工知能モデルを、赤ちゃんの泣き声に関連することが分かっているパターンを用いて、モデルの出力が、赤ちゃんの泣き声に最も良く対応するスペクトログラムの部分であるような方法で訓練することによって達成できる。例えば、赤ちゃんの泣き声に対して50%、60%、70%、75%、80%、90%または95%を超えて関連する尤度を有する音声ストリームの一部が選択できる。また、音声ストリームのスペクトログラムの実際の部分(またはソノグラフ、声紋、もしくはボイスグラム)またはスペクトログラム様2次元表現を分離する必要はなく、むしろ、泣き声パターンの開始時間を指定すること-および、異なる長さを有する泣き声パターンが判定で考慮される場合、泣き声パターンの時間を識別することも、十分である。識別されたパターンの類似の判定が次いで、判定段階で達成される場合、パターン翻訳のために使用される分解能とは異なる、パターン識別および分離のための解像度を使用することが望まれ得るので、これは特に有用である。具体的には、周波数分解能および時間分解能の両方とも、パターン翻訳に対して低い可能性がある。音声ストリームのかなりの割合が、赤ちゃんの泣き声に関連していないとして廃棄される場合、計算量の削減という結果になり得る。それに対して、音声ストリームのかなりの割合が翻訳のために選択される場合、計算的な観点から、後にパターン翻訳に対して使用されるのと同じ時間的および/または周波数分解能を使用して、泣き声パターンを検索することはより有用であり得る。しかし、泣き声に関連したパターンの検索が達成される窓または期間は、かなりの重なり合いを有するべきであり、それはその結果として、泣き声関連パターンが、特に短い泣き声関連パターンに関して、先行する期間の終わりおよび後続の期間の始まりの両方で見つかり得ることを意味することに留意されたい。泣き声パターンの検索を、パターン翻訳に対して使用されるものとは異なる時間的および/または周波数分解能で達成することが好都合であるか否かを決定する場合、これは考慮に入れるべきである。
【0084】
いずれにせよ、タイムスタンプを使用することは好ましく、そのため、例えば、赤ちゃんが喘いでいるか、または息を吸っているための、泣き声の任意の中断の長さが確認でき、そのため、それは、泣き声パターンの翻訳または判定を改善するために使用できる。
【0085】
一般的な背景、特に、平均的な音声レベルが観察される背景をサンプリングおよび/または分析することは好都合であり得、従って、ドアの閉まる音または犬の鳴き声などの、短い、パルス様の大きな音が、背景の分析に悪影響を及ぼさないことが理解される。背景分析は、泣き声判定のために最も有用なパラメータを確立するために役立ち得、第1の泣き声検出段階に対する閾値を確立するのにも役立ち得る。極めて静かな環境において、赤ちゃんが泣く理由を評価するために最適であり得るあるパラメータは、背景雑音に起因して、または監視マイクロホンが赤ちゃんからあまりに遠く離れて配置される必要があるので、実際の環境では適切に測定できないことも理解されるべきである。かかる場合、そうでなければ取得可能な関連情報は、雑音の下に埋もれ得、赤ちゃんが泣く理由を判定するための他のパラメータが選択されるべきである。
【0086】
これから、音響的背景に関連した情報は、最適なパラメータの確立において、および/または泣き声識別のため、特に、パーソナライズ判定のために、非常に役立ち得ることが分かり、非常に高品質なデータが提供されるはずである。マイクロホンの配置および/またはマイクロホンの特性に起因した変動を考慮して、本方法の実施態様のための様々な異なる装置、例えば、異なるスマートフォン、が使用できる場合、パラメータの選択は、パラメータの「安定性」を考慮に入れるべきであることが理解される。
【0087】
これは、赤ちゃんと監視マイクロホンとの間の距離に伴って変動する泣き声の全体的な音声レベルなどのパラメータに対して容易に理解され得るが、しかし、赤ちゃんがゆりかごに入れられているか否か、室内のカーテンが閉められているか、従って、例えば、より高い周波数がより高い吸収を受けるかどうか、マイクロホン感度の極性パターンはどのように見えるか、例えば、カーディオイド、ハイパーカーディオイド、スーパーカーディオイド、サブカーディオイドまたは単極、およびそれが赤ちゃんに対してどのように向けられているか等、他の要因も影響を及ぼす。これは、音声ストリームから導出された2~3の低次元パラメータにだけ影響を及ぼし得るのではなく、スペクトログラムまたはスペクトログラム様変換を使用した、音声ストリーム内の泣き声パターンの識別および分離にも悪影響を及ぼし得ることが理解されるべきである。従って、AIモデルを訓練する場合、1つだけでないセットアップ/マイクロホンを用いて得られたデータに依存するが、様々に異なる装置で取得された音声サンプルを含む訓練セットを使用することは非常に好ましい。特に、訓練セットを確立するために、同じ音声を複数の装置で同時に録音することが可能である。これら複数の装置は、全く同一の赤ちゃんの泣き声に関連した音声パターンが、それらそれぞれの5秒期間内に異なる開始時間を有するように、完全には同期化されないので、これも役立つ。さらに、録音された音声は、たとえ全く同じ音声を録音するために、全く同じ位置に配置されても、装置によって異なり得ることが理解されよう。これらの変動に対して多数の理由があり、例えば、マイクロホンの感度、マイクロホンの応答、デジタル化の前にアナログ信号の調整のために使用された増幅器の応答等に関する変動。以前に録音された、好ましくは、高品質マイクロホン配置を使用して以前に録音された、いくつかの赤ちゃんの泣き声の再生を録音する複数の装置を使用して訓練セットを合成することさえ可能であることが理解されるべきである。
【0088】
特に、ニューラルネットワークフィルタが、少数のパラメータにだけ基づいて泣き声のパーソナライズ判定に対して確立される必要がある場合、音響的背景の挙動も考慮することは有用であり得る。従って、典型的な背景パターン、特にニューラルネットワークフィルタ/ニューラルネットワークフィルタパラメータの評価および決定も考慮に入れられるように、何らかの非泣き声背景音声パターンをサーバーにアップロードすることは好都合であり得る。ここで、一般に、本出願のニューラルネットワークフィルタまたはニューラルネットワークパラメータに言及されるが、分類、分類モデルおよび同様のものにも言及することができ、これは、かかる技術を説明するために使用される表現で実装された技術および方法における差であるとは考えられないことが理解される。
【0089】
泣き声判定を可能にするパラメータが決定される泣き声データが、泣き声イベントの発現からの音声データ、特に、泣き声の最初の2秒からの、好ましくは泣き声の最初の1秒からの、特に好ましくは、泣き声の最初の500msからの、音声データを含む場合、特に好ましい。これは、赤ちゃんが泣いているという判断が自動化された方法で行われる場合、容易に可能であり、泣くこと自体が不快感を増大させるので、例えば、赤ちゃんは、あまりにも長い間対応を待ち続ける必要があるという事実に起因して更なるストレスを感じているので、および/または泣くこと自体が、長期間にわたって続く場合、赤ちゃんを疲れ果てさせるので、泣き声イベントの発現を考慮に入れることは、判定において有用であり得る。また、フォルマントの第1の周波数における変化などのパラメータの変化が上で示されたように考慮される場合、最初の変化は特に貴重な情報を含み得る。泣き声パターンが、畳み込みもしくはニューラルネットワークまたは他の人工知能方法を使用して、音声ストリーム期間から分離される場合、これはしばしば、第1の音声レベル判定に続き、非常に単純な回路、例えば、アナログまたはデジタル比較器を使用して行われることに留意されたい。かかる場合、大きな雑音の実際の発現を評価することも好ましく、従って、音声データは、好ましくは、比較器で検出可能な大きな雑音が、正しいパラメータの検索が実行される窓、例えば、4、5、6、7、8、9または10秒窓、の終わりに近くなるように、格納されるべきである。
【0090】
いくつかの場合、赤ちゃんの泣き声を判定する方法を、例えば、赤ちゃんの成長および発達を考慮して、赤ちゃんの泣き声を判定するために使用されるニューラルネットワークフィルタにおけるフィルタ係数を頻繁に変更することにより、頻繁に変更することは好都合であることに留意されたい。これは、例えば、生後かなりの早期には、新生児の音声特性は急速に変化するので、好都合であり得、また、高熱などの急激に変化する医学的状態は、データが判定されるべき方法に強い影響を及ぼし得、そのため、有用なパーソナル化のために、ニューラルネットワークフィルタのフィルタ係数も頻繁に変更すべきである。パーソナル化の正確な実装に応じて、パーソナライズ判定ステップのローカルな実行を実装することは、異なるフィルタ係数に対してかなり大きなメモリを必要とし得るので、および/または現在適切なフィルタ係数が識別されてダウンロードされる必要があるため、これは実現可能ではない可能性があり、従って、判定は時々、好ましくは、集中型サーバー上および/またはクラウド内で実行される。
【0091】
それに応じて、好ましい実施形態では、ローカルで音響的に監視された赤ちゃんから得られた音声内での泣き声検出ステップの全部または一部、例えば、少なくとも1つを実装すること、およびデータを、集中型自動赤ちゃん泣き声判定において使用される(クラウド)サーバー構成にアップロードすること、特に、赤ちゃんの泣き声を判定するためのデータをクラウド内にアップロードすることも提案される。閾値比較器などの泣き声検出の単純な第1のステップでさえ、アップロードする必要のあるデータストリームを削減するのに役立って、エネルギーおよび帯域幅を節約する。かかる泣き声検出の第1の単純なローカルステップは従って、赤ちゃんの泣き声の実際の判定またはその主要な部分がクラウドサーバー内で実行される場合でさえ好ましいことに留意されたい。音声を分散型リモートクラウドサーバーにアップロードする必要がないことも述べられ、例えば、赤ちゃんの近くに配置された装置が極めて制限された計算能力を有していて、赤ちゃんが泣いていることを親に通知するために使用される装置が、今日では判定を達成するための少なくとも計算能力を有するスマートフォンである事例が存在し得る。かかる場合、音声をリモートセットクラウドサーバーにアップロードするのではなく、赤ちゃんの近くに配置された装置からの音声も更なる判定のためにスマートフォンにアップロードされ得、従って、親が持ち得るプライバシーに対する懸念を軽減する。
【0092】
しかし、そうでなければ音声データを泣き声識別段階に継続的にアップロードするために必要な帯域幅を節約するために、泣き声イベントが現在録音されているか否かの少なくともある程度の可能性をローカルに決定することは明らかに好ましいが、改善された結果は既に、赤ちゃんの特性の少なくとも一部、具体的には、性別、年齢、体重および身長などのパーソナル化に最も適したもの、を考慮に入れることによって取得できることが述べられており、それは、完全なパーソナル化がなくても、現在の体温、現在の医学的状態、赤ちゃんが食事を与えられてからの時間などの他のパーソナルデータを考慮に入れる。年齢、体重および身長は、ゆっくりとだけ変化するので、パーソナライズ判定は、特に、音声データのアップロードが損なわれる状況に対して、ローカルにも実装できる。かかる状況でさえ、パーソナライズされた赤ちゃんの泣き声判定のためのニューラルネットワークフィルタが頻繁に更新され得るように、赤ちゃんの音声を録音する装置と(クラウド)サーバーとの間の接続を確立することは非常に好ましいことが理解される。また、接続期間中、ローカルに収集されたデータは、サーバーにアップロードでき、録音された音声データを考慮して赤ちゃんが泣く理由を判定するための新しいフィルタまたは実行可能な命令がダウンロードできる。
【0093】
赤ちゃんの泣き声のパーソナライズ判定を改善するために、赤ちゃんの泣き声の音響的監視に関連したデータ、および/もしくは泣き声判定を可能にする選択された泣き声データに関連したパラメータをクラウドならびに/または集中型サーバーにアップロードすることは好ましいことが理解される。少なくとも帯域幅が不十分な場合に、ローカルに利用可能な計算能力が泣き声識別を達成するために十分な場合、いかなるデータもアップロードしないことが好ましくあり得るが、音声サンプルのデータベースは、好ましくは、以前の判定を確認するか、または同意しないフィードバックからのタグを備えた、多数のパターンをアップロードする場合に増大するので、また、モデルは、タグ付けされたサンプルの拡大されたデータベースを使用して再訓練できるので、泣き声パターンに関連したできる限り多くのサンプルをアップロードすることは非常に好ましい。
【0094】
従って、パーソナライズ判定を改善するために、泣き声および/または泣き声から導出されたパラメータの少なくとも一部は、それぞれのパーソナル赤ちゃんデータと一緒にサーバー上に格納でき、サーバー上に格納された情報を考慮してパーソナライズ判定を可能にする。例えば、新しいフィルタに対するサブスクリプションが特定の装置に対して取得されている場合、ならびに親または介護者が赤ちゃんの年齢および更なる詳細を最初に示している場合、装置のIDを送信するだけで十分であり得ることが理解される。しかし、赤ちゃんの体重および身長などの他のパラメータも頻繁に更新すべきなので、親および/または介護者は対応する情報を定期的に入力するように要求されることが好ましい。かかる情報を入力することは、とりわけ、適切なアプリを実行しているスマートフォンなどの別個の装置を使用して、および/またはユーザーが対応する情報を、ローカルもしくは集中型発話認識のいずれかを使用して、発話を通して装置に入力するのを可能にすることによって、行うことができると理解される。
【0095】
前述から分かるように、好ましい実施形態では、集中型サーバーから、ローカルのパーソナライズ赤ちゃん泣き声判定を可能にする情報をダウンロードするステップを含むことが提案される。赤ちゃんは成長して年を取るので、しばらくすると、パーソナライズフィルタは最も好都合な結果をもう与えないと仮定する。従って、ローカルのパーソナライズ赤ちゃん泣き声判定の使用を特定の期間に制限することが可能で有用である。一旦、かかる期間が経過すると、パーソナライズはもはや信頼できず、かつ/または標準的な、非パーソナル化フィルタが使用でき、かつ/または赤ちゃんが泣く理由を示す代わりにフィルタの更新を要求するメッセージがユーザーに発行できるという警告が発行できる。親または介護者がフィルタの定期的な更新を申し込んでいて、かかるフィルタが、例えば、集中型サーバーへの接続が損なわれ、かつ/またはブロックされているため、長期にわたって更新されていない特定の事例では、パーソナライズフィルタの使用が全面的に停止される少し前、および/または判定が非パーソナライズされた方法だけで達成される前に、警告が生成できる。また、パーソナライズ判定はクラウドサーバー内で達成できることも明らかである。
【0096】
前述のとおり、好ましい実施形態では、赤ちゃんの泣き声判定のために音響的背景を決定するため、および/または追加のパラメータを決定するために、泣き声の発現前に取得された音声データが(も)使用されることが提案される。赤ちゃんの泣き声判定のための追加のパラメータの決定に関して、例えば、大きな音響的背景との同時発生のために、泣き声の正確な発現が十分に高い確率で決定できない状況が生じ得る。しかし、パターン識別のためにスペクトログラムおよび同様のものに依存することにより、泣き声関連の音声データは、単に、音声ストリームから導出された少数パラメータだけに依存するよりも、大幅にもっと確実に分離できることに留意されたい。従って、泣いている時間または泣き声パターンのスペクトログラムに基づく識別および分離は、音響的妨害に対して著しくよりロバストで、これはより良い泣き声翻訳結果の取得に極めて大いに役立つことが理解されよう。
【0097】
泣き声の正確な発現はそれでもなお、十分に高い確率で決定することは不可能であり得、追加の(できれば先行する)フレームの評価は、判定する際に役立ち得ることが理解される。これは好ましくは、スライドパラメータを評価することによって、および/または相互相関技術によって、または期間、例えば、閾値を上回る大きな雑音に先行する音声ストリーム内での泣き声パターンの識別および分離のために使用される1、2または3の標準化された期間、を分析することによって行うことができる。また、赤ちゃんの泣き声が大きな雑音に続いて検出される場合、赤ちゃんはあやされる必要がある可能性が高く、それに応じて、かかるイベントは、たとえそれらが、音声データから取り去るか、または除去する必要がある背景パターンと見なされなくても、判定において有用であり得る。
【0098】
泣き声の発現が、泣き声の発現前に取得された音声データの評価を必要とすることなく検出されていると考えられる最小確率に関して、多段階泣き声検出の典型的な事例では、かかる尤度または確率が決定でき、泣き声は、かかる確率が、例えば、70%、80%、90%、95%または99%よりも高い場合に検出されていると想定され、確率が十分に高いと考える正確な閾値は、とりわけ、背景雑音のパターンおよび/または多段階泣き声検出の品質に依存することがまず理解されるべきである。
【0099】
本出願人によって既に達成されている現在の標準を所与として、泣き声がフレーム内で初めて検出されている、従って、泣き声の発現が検出されている確率は、優に99%を超える。しかし、97%、95%、90%または80%などのもっと低い閾値が設定できる。泣き声の発現が正確に決定されている非常に高い確率が達成されている場合でさえ、先行するフレームを、泣き声の発現(の可能性が高い)後に録音されたフレームと一緒に、赤ちゃんの泣き声判定段階に送り込むことが依然として可能であることに留意されたい。これは、特に、相互相関などの技術が判定で使用される場合に役立ち得る。泣き声判定に供給されるべき泣き声の想定された発現に先行するフレーム数でさえ、確率を考慮して判断でき、例えば、先行するフレームの数を式(100-確率(%単位))×A、0.5または1または1.5またはその間の任意の数、によって決定し、明らかに、先行するフレーム数は、次の大きな整数に四捨五入される、これらの式から取得される。
【0100】
評価のためにデータを提供する前述の方法は特に、音声または音響研究室の外部の、現場環境において有用であることが理解される。現場では、泣き声判定の精度の向上を可能にするデータの適切なパラメータが特に重要である。例えば、典型的な研究室セットアップでは、音声は、クリーンで低雑音背景を有して、泣き声は明瞭に録音できる。それに対して、典型的な現場環境では、背景雑音は著しく高く、泣き声の音量は大きく変わり、録音は、例えば、決して最適ではないマイクロホンの位置決めに起因して高周波数成分に関して「明瞭」ではない。これらの差は典型的には、現場での精度を、研究室環境におけるよりも著しく低くする。しかし、相互相関技術および/またはスライド平均を使用することにより、泣き声の発現を識別する、および/または現場で泣き声自体を識別する精度は、著しい雑音の存在にもかかわらず、研究室環境で得られる精度に対して完全に匹敵するようになる。さらに、翻訳の最終精度に関して、音声期間のスペクトログラム様変換に関連する画像処理のようなAI方法で泣き声パターンを識別および分離することにより、著しく良好な結果を得ることができることに留意されたい。
【0101】
それでもなお、研究室内、現場内の両方で取得可能で決定される絶対精度は、依然として、例えば、使用されるサンプル、実際の判定の、例えば、ニューラルネットワークフィルタによって表されるような、品質、録音の長さまたは「精度」の測定の定義および数学的決定によって決まり得ることが理解される。それ故に、異なる方法によって決定される精度は容易に比較できない。典型的には、精度は、方法が研究室内で90%よりも高い精度をもたらすように、定義される。
【0102】
それにもかかわらず、同じ方法を使用して、現場での全体的な精度は、適切なデータ、例えば、スライド平均および/もしくは相互相関、または音声期間のスペクトログラム様表現内でのパターンの検索、を検討するのを可能にするデータが判定段階に提供される場合、研究室内での⇒90%から現場での80%未満に落ないで済む。スペクトログラム様表現は、標準的なスペクトラムであり得るか、または周波数の解像度が音声スペクトラムに関して異なるという点で異なり得るか、かつ/または異なる周波数に対して異なるダイナミックレンジを有し得ることに留意されたい。
【0103】
前述から、好ましくは、パラメータは泣き声判定段階に、ニューラルネットワーク、畳み込みニューラルネットワークおよび/または他の既知の人工知能技術を使用して、泣き声の判定を可能にする方法で、送り込まれることが既に理解されよう。典型的には、かかる技術は複数の所謂「層」に依存すること、および少なくとも1つのかかる層がパーソナル化される場合パーソナライズが達成できることが分かるが、しかし、2つ以上の層をパーソナル化することによって泣き声判定をパーソナル化することが可能であり、それは、赤ちゃんに関連するパーソナルデータに応じて、例えば、1つ以上の畳み込み層に対して異なるフィルタパラメータを選択することによる。複数の層がパーソナル化される場合、各層を、例えば、性別、年齢および体重に応じて異なるフィルタパラメータを選択することにより、完全にパーソナル化することが可能であり、それに対して、第1のパーソナル化層では性別だけに応じて異なるフィルタパラメータを選択し、第2のパーソナル化層では体重だけに応じて異なるフィルタパラメータを選択し、第3のパーソナル化層では年齢だけに応じて異なるフィルタパラメータを選択することも可能であろう(第1第2および第3のパーソナル化層は必ずしもそのシーケンス内でデータを処理しない)。複数の層がパーソナル化される場合、例えば、第1の層を、例えば、1つ、2つ、3つまたはそれ以上のパーソナルパラメータを用いてパーソナル化して、第2の層も、第1の層のパーソナル化のために使用されたパーソナルパラメータと一部、重なり合うこともあれば、重なり合うことがない、2つ、3つ、4つまたはそれ以上のパーソナルパラメータを用いてパーソナル化して、それらを完全に、または部分的にパーソナル化することも可能であり得ることは当業者には明らかであろう。
【0104】
コンピュータ実装された多段階泣き声判定方法は、例えば、元の音声データをセグメント化する窓の重なり合うシーケンスの(mel)スペクトログラム様表現に基づき、少なくとも0.4秒および好ましくは3秒未満の長さの泣き声パターンを検索する対象物定位法に基づく、泣き声検出および泣き声パターン分離のための1つ以上の段階を有し、さらに、好ましくは、泣き声パターンの2次元表現、例えば、泣き声パターン検出および分離のために使用される表現とは異なる時間的および/もしくは周波数分解能を有していて、かつ/または各音声パターン内の最大音声レベルを特定の値に設定することによりおよび/もしくは短い泣き声パターンを所望の長さまで補完して、分離されて考慮された各泣き声パターンが複数の異なるクラス(または赤ちゃんが泣く理由)の1つに属する確率を決定することにより、正規化されている、表現にも基づく、分離された泣き声パターンの分類のための1つ以上の段階、ならびに、泣き声パターンのシーケンスを考慮して判断される可能性のシーケンスを判定する別の「コレクタ」段階をさらに有して、例えば、第1の段階が赤ちゃんに近接して実行され、第2の段階がクラウド内で実行されて、第3の段階が親または介護者のスマートフォン上で実行されるような方法で、各段階を他から分離して実装することが可能であり、かかる場合、1つの段階、好ましくは、最終のコレクタ段階および/または各泣き声パターンに対して可能性を割り当てる段階、のパーソナル化は、赤ちゃんの泣き声の全体的なパーソナライズ判定を得るために十分であり得ることが容易に分かる。しかし、異なる段階を分離する必要はなく、コンピュータ実装された多段階泣き声判定方法を、異なる段階ならびに、長さおよび音声レベルの再正規化などのインタフェースステップが、ユーザーは異なる段階に気付かないが、判定全体を一つだけのプロセスとして見るような方法で実行される方法で実装することは十分に可能であろう。これは、段階を、例えば、音声ストリーム全体をクラウド内にアップロードして、泣き声の判定だけをクラウドから受信することにより、全く同一の場所での実行のために連結することによって達成され得る。それにもかかわらず、これは、依然として多段階泣き声判定と考えられ得る。泣き声パターン検出および分離、泣き声パターンのシーケンスの泣き声パターン確率判定ならびに確率の判定から取得された確率のパーソナライズされた自動化集合的判定を提供することは、特に、泣き声パターン検出および分離に対して対象物定位を使用する場合、発明的であると考えられることが明示的に述べられる。
【0105】
好ましい実施形態では、録音された音声のパラメータおよび/またはデータストリームは、赤ちゃんデータ情報と一緒にアップロードされることも理解されよう。音声録音全体のアップロードは、既存の赤ちゃん泣き声データベースが強化される状況では好ましいが、そうでなければ、より少ないデータが送信される必要があるので、抽出されたパラメータだけをアップロードすることが好ましい可能性があり、特にデータ送信帯域幅が低い場合、より高速な応答を可能にすることが理解される。この文脈では、データの人工知能評価において、重要なステップの1つは次元性の削減であることが理解されるべきである。例えば、音声データのチャンクが、128の連続した16ビットサンプルの64のフレームを含むと考えられる場合、最初の空間は(64*128*16=)131072次元である。これを扱うために、上でリストされたようなパラメータ、例えば、平均音声レベル、第1のフォルマント周波数の変化などが、決定され得る(代替として、スペクトログラム源スペクトログラム様表現が使用され得る)。ここで、前述から分かるように、赤ちゃんの泣き声を2次元のスペクトログラム様表現ではなく、いくつかのパラメータに基づいて判定することが望まれる場合、赤ちゃんの泣き声を記述して判定する際に使用できる多数の異なるパラメータが存在し、この多数の異なるパラメータは典型的には、最も適切なパラメータだけを選択することによってさらに削減される。
【0106】
赤ちゃんの泣き声のパーソナライズ判定では、他の赤ちゃんからの音声データ内でも見つかるパターンが識別されて、これらのパターンを最も良く記述するパラメータのセットが検索される。スペクトログラム様表現に基づく技術が使用される場合、泣き声パターンのスペクトログラム様表現におけるかかる識別は、判定すべき泣き声のスペクトログラム様表現を、既知の泣き声に関連する泣き声パターンと比較する画像様分析に基づくことができる。既知の泣き声パターンは、類似の年齢、性別、体重、医学的状態などの赤ちゃんからの泣き声だけがグループ化されるように、大規模なデータベースから選択され得、かかる場合、パターンの比較に使用されるフィルタは、たとえ赤ちゃんが同じ理由で泣いても、各類似の(ピア)グループの泣き声は、異なるピアグループに属している赤ちゃんの泣き声とは幾分異なるので、別個のパーソナライズを有する。しかし、データベースが、大規模な様々に異なるピアグループを確立するために十分に大きくない場合、第1のステップで、全ての赤ちゃんに対して全く同じフィルタパラメータを使用する1つ以上の層によって録音された元の音声ストリーム内で識別および分離された泣き声パターンを判定することも可能であろう。泣き声は、複数の泣き声パターンを含むので、この第1のステップで、赤ちゃんが泣く複数の考えられる理由が、各泣き声パターンに割り当てられている理由または理由の尤度と共に、結果として生じる。次いで、赤ちゃんが泣く複数のかかる考えられる理由または尤度がさらなるステップで、このステップを次いでパーソナライズして、判定できる。データをこのように処理することにより、パーソナライズのためのパーソナライズされたフィルタ係数の数は、泣き声に対する理由の合理的な尤度を各単一の泣き声パターンに割り当てる第1のステップをパーソナル化する場合よりも、著しく低いことに留意すべきである。
【0107】
赤ちゃんの異なる(「ピア」)グループがパーソナル化のために確立される場合、パラメータの異なるセットが赤ちゃんの各異なるグループに対して最適であり得る状況が生じ得ることに留意されたい。パラメータを決定するための計算量を削減し、従って、パーソナル判定のために十分なパラメータの小さいセットを選択することは望ましい。しかし、限られた数のパラメータだけ、またはさらに悪いことに、削減されたセットのパラメータだけが、完全な音声ストリームの代わりに、または泣き声パラメータに関連した音声ストリームの少なくとも一部もしくはそのスペクトログラム様表現の代わりに、サーバーに送信される場合、新しいパターンの識別が損なわれ得る。それに応じて、少なくとも追加のデータから新しいパターンを識別するために、完全な音声データ-または、それから抽出されたパラメータだけではなく-完全に抽出された/分離された泣き声データを送信することは好ましい。
【0108】
好ましい実施形態では、本発明のコンピュータ実装された方法は、パラメータおよび/または録音された音声のデータストリームおよび/またはその一部および/または識別されて分離された泣き声パターンなどのかかる断片に関連した情報を、赤ちゃんデータ情報、特に、年齢、性別、身長、体重、民族性、一人っ子/双子/三つ子、現在の医学的状態、既知の医学的前提条件、特に既知の現在の病気および/または熱、親および/または介護者の言語のうちの少なくとも1つ、好ましくは少なくとも2つ、3つまたは4つに関連した赤ちゃんデータ情報をアップロードすることを含む。
【0109】
誕生日、一人っ子/双子/三つ子などの情報は、データがローカル装置からサーバーまたはクラウドに送信される度に送信される必要はないことが理解されよう。しかし、赤ちゃんデータ情報の一部が必要なので、少なくとも、ローカル装置を識別するのを可能にして、対応する必要な赤ちゃんデータと関連付け可能な情報、例えば、ローカルに使用される装置のID、は送信され得、かかる場合、実際の赤ちゃんデータは、パーソナライズ判定の前に単独で送信され、ローカルに使用される装置のIDなどの送信された情報に従ってクラウド内またはサーバー上に格納されて取得され得る。この文脈では、親がアプリ、ウェブサイトフォームもしくは同様のものを使用して赤ちゃんまたは装置を登録する場合、それぞれの赤ちゃんデータを入力することで十分であることが理解される。
【0110】
さらに、1つ以上の以前の判定の正確さに関連した(フィードバック)情報がサーバーにアップロードされる場合、それは好ましい。これは、機械学習モデルで使用されるフィルタ(または分類)を再較正し、かつ/または以前のエラーを除去するのに役立ち得る。再度、以前の判定の正確さに関連した情報は、現在の泣き声イベントの判定が必要ない場合にアップロードできる。1つ以上の以前の判定の正確さに関連した情報を、泣き声イベントID、装置id+時間タグまたは同様のものなどの、泣き声イベントに依存するデータと一緒に、送信することは好ましく、また、これは、特に、判定が良くなかったと判断された場合、例えば、実際の自動化判定、親もしくは介護者による判定のフィードバックならびに、対応する赤ちゃん泣き声パラメータおよび/または音声の生データなどの追加の情報の組合せであり得、生データの代わりに、以前に判定された泣き声イベント、好ましくは、それに対するデータが既に送信されていて、クラウドサーバーなどの集中型サーバー上に格納されたままである以前に判定された泣き声イベント、のタイムスタンプも送信され得る。音声データを考慮して決定された音声データもしくはパラメータを再送信するか、またはIDもしくは時間タグだけを再送信することが好ましいかは、とりわけ、サーバー上の格納スペースに依存する。判定が全体として正しかった頻度を示すか、または「赤ちゃんはあやして欲しい」もしくは「赤ちゃんはげっぷをする必要がある」などの特定の判定が正しいか、もしくは誤っていたかの頻度を示す単なる統計データも送信され得る。判定に関する統計情報の使用は、異なる判定アルゴリズム/フィルタまたは判定結果を異なるフィルタおよび/またはアルゴリズムを使用して、同じピアグループ内の赤ちゃんに関連するにもかかわらず、異なるユーザーに提供し、次いで、異なる判定を統計的な方法で評価するのを可能にする。これは、ユーザーのグループが十分に大きい場合、特に有用である。
【0111】
異なるチャネルおよび/または異なる時間は、異なる種類のデータを送信するために使用できることが理解できる。
【0112】
パーソナライズ判定のために提供されるデータは好ましくは、判定が、「赤ちゃんは疲れている」、「赤ちゃんはお腹が空いている」、「赤ちゃんは心地良くなくて世話が必要である」、「赤ちゃんはげっぷをする必要がある」、「赤ちゃんは痛みがある」の少なくとも1つの状態を区別するのを可能にする。パラメータが送信される場合、かかるパラメータは好ましくは、異なる状態の少なくとも2つ、特に少なくとも3つ、および特別に全部が区別されて識別できるように、選択されて提供される。一旦、十分に大きなデータベースが利用可能になると、「赤ちゃんは逆流がある」、「赤ちゃんは鼓腸がある」、「赤ちゃんは中耳に炎症がある」などのある医学的状態、または、「赤ちゃんは暑すぎる」、「赤ちゃんは寒すぎる」、「赤ちゃんは飽きている」などの不快感に対するもっと詳細な理由も識別できることが推定できる。この文脈では、本発明で提案されるパーソナライズ判定のためにデータを提供する方法も、赤ちゃん泣き声の既存のデータベースを拡大するのに非常に役立ち、従って、赤ちゃん泣き声判定の改善に役立つことが理解されるべきである。従って、本発明を適切に実装することにより、泣き声のデータベースが拡大されて判定の高度に洗練されたパーソナル化を短期間で可能にできる。
【0113】
前述の方法は多岐にわたる装置および/またはシステムを使用して実装できるが、継続して音響的に赤ちゃんを監視するためのマイクロホン、監視している音声ストリームをデジタルデータのストリームに変換するためのデジタル変換段階、パーソナル赤ちゃんデータ情報を格納するためのメモリ段階、データを集中型サーバー構成に送信するための通信段階ならびに、判定の結果を音響的に示すための拡声器構成、ディスプレイおよび/またはディスプレイに対するインタフェースなどの、判定の結果を示すための指示手段を含む、自動赤ちゃん泣き声判定構成に対して保護が特に求められ、デジタルデータ内で泣き声の発現を識別するために泣き声識別段階が提供されて、通信段階は、パーソナル赤ちゃんデータ情報を考慮して判定のために泣き声に関連したデータを集中型サーバー構成に送信するため、および赤ちゃんの泣き声のパーソナライズ判定に関連したデータを集中型サーバー構成から受信するために適合される。泣き声判定構成は、判定の結果を音響的または視覚的に示すためのディスプレイ拡声器構成が、マイクロホンを含む装置から分離された装置内に配置される。
【0114】
1つ以上の段階、特に、デジタルデータのストリーム内で泣き声の発現を識別するための泣き声識別段階が、ハードおよびソフトウェアの組合せによって実装できることが理解されよう。また、集中型サーバー構成から、自動的に識別された泣き声のローカル判定のためのパーソナライズフィルタが受信できるか、または音声データを考慮して取得されたパラメータの一部もしくは全部が判定のために集中型サーバーもしくはクラウドに送信される場合、判定の結果が受信できる。
【0115】
好ましい実施形態では、自動赤ちゃん泣き声判定構成は、1つ以上の以前の判定の正確さに関連したフィードバック情報を得るためのフィードバック構成を含み、通信(またはI/O)段階がフィードバック情報を集中型サーバー構成に送信するために適合されることが提案される。好ましい実施形態では、フィードバック構成は、赤ちゃんを音響的に監視するために使用される装置に統合される。
【0116】
さらに、好ましい実施形態では、自動赤ちゃん泣き声判定構成は、赤ちゃん泣き声のパーソナライズ判定に関連した集中型サーバー構成から受信したデータを考慮して赤ちゃんの泣き声を判定するように適合されたローカル判定段階を含む。ローカル判定は、音声データが集中型サーバー構成に送信できない場合に判定を可能にする補助判定段階であり得るか、または親および/もしくは介護者に示される全ての判定が生成される主要な、もしくは唯一の判定段階であり得る。
【0117】
赤ちゃん泣き声データのパーソナライズ判定は、赤ちゃんが成長するにつれて著しく変化する、赤ちゃんの年齢、身長および体重などの、要因に依存し、これは、パーソナル化は古くなり得るという事実をもたらすことが前述されてきた。パーソナライズ判定が古くなったフィルタを使用して試行されることを防ぐために、対応するチェックが行われるべきである。それに応じて、自動赤ちゃん泣き声判定構成がタイマーならびに、パーソナル赤ちゃん泣き声判定情報の現在の年齢および/または、赤ちゃん泣き声の判定前に、集中型サーバーもしくはクラウド構成から受信されて、赤ちゃん泣き声のパーソナライズ判定に関連した、年齢または(フィルタ/アルゴリズム)データの有効性を評価する評価段階を含む場合、赤ちゃん泣き声判定を出力するように適合されている赤ちゃん泣き声判定構成はその評価に依存することが好ましい。
【0118】
本発明はここで、図面を参照して、例として説明される。
【図面の簡単な説明】
【0119】
【
図1a】赤ちゃん泣き声の判定における一連のステップを、本発明の一実施形態を実装するこれらのステップの一部と共に示す。
【
図2】赤ちゃんの現在のニーズを示すために使用できる複数のシンボルを示す。
【
図3】異なるニーズを示す赤ちゃんの泣き声を表すいくつかの音声録音から抽出された3Dスペクトログラムを示しており-時間はX軸に沿って増大し、周波数はY軸に沿って増大して、強度はZ軸に沿って増大する。単位は任意であるが、全ての部分に対して同じである。
【
図4a】異なる泣き声に対して複数の周波数に対する強度の変動を経時的に視覚化するために、スペクトログラムの比較を示しており、さらに詳細には、
図4aは、異なる空腹の赤ちゃんからの泣き声に関連し、
図4bは、同じ空腹の赤ちゃんからの異なる泣き声に関連し、
図4cは、痛みのある異なる赤ちゃんからの泣き声に関連し、
図4dは、痛みのある同じ赤ちゃんからの異なる泣き声に関連し、
図4eは、げっぷをする必要がある異なる赤ちゃんからの泣き声に関連し、
図4fは、げっぷをする必要がある同じ赤ちゃんからの異なる泣き声に関連する。
【
図4b】異なる泣き声に対して複数の周波数に対する強度の変動を経時的に視覚化するために、スペクトログラムの比較を示しており、さらに詳細には、
図4aは、異なる空腹の赤ちゃんからの泣き声に関連し、
図4bは、同じ空腹の赤ちゃんからの異なる泣き声に関連し、
図4cは、痛みのある異なる赤ちゃんからの泣き声に関連し、
図4dは、痛みのある同じ赤ちゃんからの異なる泣き声に関連し、
図4eは、げっぷをする必要がある異なる赤ちゃんからの泣き声に関連し、
図4fは、げっぷをする必要がある同じ赤ちゃんからの異なる泣き声に関連する。
【
図4c】異なる泣き声に対して複数の周波数に対する強度の変動を経時的に視覚化するために、スペクトログラムの比較を示しており、さらに詳細には、
図4aは、異なる空腹の赤ちゃんからの泣き声に関連し、
図4bは、同じ空腹の赤ちゃんからの異なる泣き声に関連し、
図4cは、痛みのある異なる赤ちゃんからの泣き声に関連し、
図4dは、痛みのある同じ赤ちゃんからの異なる泣き声に関連し、
図4eは、げっぷをする必要がある異なる赤ちゃんからの泣き声に関連し、
図4fは、げっぷをする必要がある同じ赤ちゃんからの異なる泣き声に関連する。
【
図4d】異なる泣き声に対して複数の周波数に対する強度の変動を経時的に視覚化するために、スペクトログラムの比較を示しており、さらに詳細には、
図4aは、異なる空腹の赤ちゃんからの泣き声に関連し、
図4bは、同じ空腹の赤ちゃんからの異なる泣き声に関連し、
図4cは、痛みのある異なる赤ちゃんからの泣き声に関連し、
図4dは、痛みのある同じ赤ちゃんからの異なる泣き声に関連し、
図4eは、げっぷをする必要がある異なる赤ちゃんからの泣き声に関連し、
図4fは、げっぷをする必要がある同じ赤ちゃんからの異なる泣き声に関連する。
【
図4e】異なる泣き声に対して複数の周波数に対する強度の変動を経時的に視覚化するために、スペクトログラムの比較を示しており、さらに詳細には、
図4aは、異なる空腹の赤ちゃんからの泣き声に関連し、
図4bは、同じ空腹の赤ちゃんからの異なる泣き声に関連し、
図4cは、痛みのある異なる赤ちゃんからの泣き声に関連し、
図4dは、痛みのある同じ赤ちゃんからの異なる泣き声に関連し、
図4eは、げっぷをする必要がある異なる赤ちゃんからの泣き声に関連し、
図4fは、げっぷをする必要がある同じ赤ちゃんからの異なる泣き声に関連する。
【
図4f】異なる泣き声に対して複数の周波数に対する強度の変動を経時的に視覚化するために、スペクトログラムの比較を示しており、さらに詳細には、
図4aは、異なる空腹の赤ちゃんからの泣き声に関連し、
図4bは、同じ空腹の赤ちゃんからの異なる泣き声に関連し、
図4cは、痛みのある異なる赤ちゃんからの泣き声に関連し、
図4dは、痛みのある同じ赤ちゃんからの異なる泣き声に関連し、
図4eは、げっぷをする必要がある異なる赤ちゃんからの泣き声に関連し、
図4fは、げっぷをする必要がある同じ赤ちゃんからの異なる泣き声に関連する。
【
図5a】異なる泣き声のクラスタ形成を示しており、
図5aは、泣き声のクラスタ全体を示し、
図5bは、クラスタ全体内の空腹の泣き声を示し、
図5cは、クラスタ全体内の「眠い泣き声を示し、
図5dは、クラスタ全体内の「げっぷをする必要がある」泣き声を示し、
図5eは、クラスタ全体内の不快な泣き声を示し、
図5fは、クラスタ全体内の痛みの泣き声を示す。(2dグラフ内でのクラスタの分離は、追加の区別パラメータを考える場合、完全ではないが、図示されている2dグラフでさえ、クラスタが出現し始めていることが理解される)。
【
図5b】異なる泣き声のクラスタ形成を示しており、
図5aは、泣き声のクラスタ全体を示し、
図5bは、クラスタ全体内の空腹の泣き声を示し、
図5cは、クラスタ全体内の「眠い泣き声を示し、
図5dは、クラスタ全体内の「げっぷをする必要がある」泣き声を示し、
図5eは、クラスタ全体内の不快な泣き声を示し、
図5fは、クラスタ全体内の痛みの泣き声を示す。(2dグラフ内でのクラスタの分離は、追加の区別パラメータを考える場合、完全ではないが、図示されている2dグラフでさえ、クラスタが出現し始めていることが理解される)。
【
図5c】異なる泣き声のクラスタ形成を示しており、
図5aは、泣き声のクラスタ全体を示し、
図5bは、クラスタ全体内の空腹の泣き声を示し、
図5cは、クラスタ全体内の「眠い泣き声を示し、
図5dは、クラスタ全体内の「げっぷをする必要がある」泣き声を示し、
図5eは、クラスタ全体内の不快な泣き声を示し、
図5fは、クラスタ全体内の痛みの泣き声を示す。(2dグラフ内でのクラスタの分離は、追加の区別パラメータを考える場合、完全ではないが、図示されている2dグラフでさえ、クラスタが出現し始めていることが理解される)。
【
図5d】異なる泣き声のクラスタ形成を示しており、
図5aは、泣き声のクラスタ全体を示し、
図5bは、クラスタ全体内の空腹の泣き声を示し、
図5cは、クラスタ全体内の「眠い泣き声を示し、
図5dは、クラスタ全体内の「げっぷをする必要がある」泣き声を示し、
図5eは、クラスタ全体内の不快な泣き声を示し、
図5fは、クラスタ全体内の痛みの泣き声を示す。(2dグラフ内でのクラスタの分離は、追加の区別パラメータを考える場合、完全ではないが、図示されている2dグラフでさえ、クラスタが出現し始めていることが理解される)。
【
図5e】異なる泣き声のクラスタ形成を示しており、
図5aは、泣き声のクラスタ全体を示し、
図5bは、クラスタ全体内の空腹の泣き声を示し、
図5cは、クラスタ全体内の「眠い泣き声を示し、
図5dは、クラスタ全体内の「げっぷをする必要がある」泣き声を示し、
図5eは、クラスタ全体内の不快な泣き声を示し、
図5fは、クラスタ全体内の痛みの泣き声を示す。(2dグラフ内でのクラスタの分離は、追加の区別パラメータを考える場合、完全ではないが、図示されている2dグラフでさえ、クラスタが出現し始めていることが理解される)。
【
図5f】異なる泣き声のクラスタ形成を示しており、
図5aは、泣き声のクラスタ全体を示し、
図5bは、クラスタ全体内の空腹の泣き声を示し、
図5cは、クラスタ全体内の「眠い泣き声を示し、
図5dは、クラスタ全体内の「げっぷをする必要がある」泣き声を示し、
図5eは、クラスタ全体内の不快な泣き声を示し、
図5fは、クラスタ全体内の痛みの泣き声を示す。(2dグラフ内でのクラスタの分離は、追加の区別パラメータを考える場合、完全ではないが、図示されている2dグラフでさえ、クラスタが出現し始めていることが理解される)。
【
図6】T-SNE次元性低減melスペクトログラムの3d表現を2つの異なる斜視図から示す。
【
図7】K-Meansクラスタリングを、白い十字として描かれている5つの異なるラベルの各クラスタに対する重心、および異なるセルへの分割と共に示す。
【発明を実施するための形態】
【0120】
図1は、自動赤ちゃん泣き声判定のためにデータを提供するコンピュータ実装方法が実行される赤ちゃん泣き声判定で有用なステップを例示しており、自動赤ちゃん泣き声判定のためにデータを提供するコンピュータ実装方法は、赤ちゃんを音響的に監視して、対応する音声データのストリームを提供すること、音声データのストリーム内で泣き声または泣き声の一部を検出すること、泣き声またはその一部の検出に応答して音声データからデータを選択すること、パーソナライズ泣き声判定のためのパーソナル赤ちゃんデータを決定すること、パーソナル赤ちゃんデータに従った判定のための判定段階を準備すること、泣き声判定のために選択されたデータを処理すること、および処理された情報を、パーソナル赤ちゃんデータに従ったパーソナライズ判定のために準備された泣き声判定段階に供給することを行うステップを含む。
【0121】
これに関して、
図1は、赤ちゃんの泣き声判定のために、まず、適切な音声処理または前処理装置が起動されて、監視すべき赤ちゃんの十分近くに配置されてスイッチをオンにすることを提案する。
【0122】
好ましい実施形態では、音声処理が赤ちゃんの近くで達成され、次いで、集中型サーバーへの接続が利用可能な限り、前処理された音声データがパーソナル赤ちゃんデータ情報と共に、集中型サーバーにアップロードされ、それは、クラウドサーバーであり得る。かかる好ましい実施形態では、音声前処理装置は、自動赤ちゃん泣き声判定構成(図示せず)の一部であり、自動赤ちゃん泣き声判定構成は、赤ちゃんを継続して音響的に監視するためのマイクロホン、監視している音声ストリームをデジタルデータのストリームに変換するためのデジタル変換段階、パーソナル赤ちゃんデータ情報を格納するためのメモリ段階、データを集中型サーバー構成に送信するための通信段階、を含み、デジタルデータのストリーム内で泣き声の発現を識別するための泣き識別段階が提供されて、通信段階は、赤ちゃん泣き声のパーソナライズ判定に関連したデータを集中型サーバー構成から受信するように適合される。
【0123】
基本的に、典型的なスマートフォンは、電池、マイクロホンおよび適切なマイクロホン信号変換回路、処理装置ならびに無線I/O接続を含むので、典型的なスマートフォンは前処理装置として使用され得ることが理解される。前処理装置がスマートフォンを使用して実装される場合、機能および処理段階を実装するために適切なアプリがインストールでき、そのため全ての必要な前処理(および、適用可能な場合、前処理と判定の両方)がスマートフォン上で実行できるが、全ての親および/または介護者が余分にスマートフォンを持っているわけではなく、一部の用途、例えば、病院の用途および小児科ステーションは、かなり多数の前処理装置を必要とするので、必要なハードウェアをスタンドアロンのパッケージまたは赤ちゃんが呼吸しているかどうかを監視する赤ちゃん監視またはセンサー構成のためのビデオカメラなどの他の赤ちゃん監視装置に統合することが好ましい。赤ちゃんの近くで非スマートフォン装置を使用することが可能であり、それから音声データが、ブルートゥースおよび/またはWi-Fiなどの近距離通信によって、親または介護者のスマートフォンに転送され、そこで追加の(前)処理が達成されて、そのため前処理された音声関連データが集中型サーバーにアップロードできることに留意されたい。かかる構成では、特に大きい雑音が赤ちゃんの近くで検出されている場合、音声データはスマートフォン装置にだけ転送される必要があり、それにもかかわらず、多くの親は自分の赤ちゃんからの継続的な音声のストリームを受信することを望み、その場合、赤ちゃんからの継続的な音声ストリームを親または介護者のスマートフォン、ラップトップ、タブレットなどに送信して、泣き声に関連するか、または幾分かの非ゼロの確率で泣き声と関連すると想定できる音声ストリームの部分の検出を含む、赤ちゃんの泣き声判定のために必要な音声ストリームの任意の処理をそこで達成することは明らかに可能である。
【0124】
好ましい統合スタンドアロン装置(図示せず)がここで説明される。スタンドアロン装置は、電源、マイクロホン、処理装置、メモリ、無線I/O接続および入力/出力手段ならびに、好ましくは、タイマーを含む。かかる装置は、スイッチオンと実際の動作の間に著しい遅延が生じないように、特に高速でブートするような方法で構築できることが理解される。
【0125】
電源は電池、例えば、充電式電池にできるか、または電源コンセントに差し込まれる電源であり得る。
【0126】
マイクロホンは、150Hz~3000Hzの範囲で感知可能な任意のマイクロホンにでき、より幅広い範囲が好ましく、例えば、下限として100または80Hzさえから、3500まで、好ましくは、上限として4000Hzまで及ぶことが理解される。最新のマイクロホンはこの範囲の周波数を容易に録音することが理解されるが、それにもかかわらず、スペクトル感度における差異は、ある周波数が抑えられるか、または過度に強調される場合、スペクトル感度におけるかかる差異は、赤ちゃんの泣き声判定に悪影響を及ぼし得ることも理解されるであろう。スマートフォンのスタンドアロン装置としての使用が許可される場合、様々に異なる製造業者からの異なるスマートフォンは、幅広く変動するスペクトル感度を有し得るので、これは特に問題であるが、その問題はあまり顕著ではなく、その場合、同一のマイクロホンモデルが使用できるので、1つまたは2~3のモデルのスタンドアロン装置を使用するとより良い結果が予期される。録音された任意の音声が所与の装置の実際の(スペクトル)感度に対して補正できるように、マイクロホンを較正して装置上に較正データをインストールすることさえ可能である。それにもかかわらず、スペクトル感度における変動は、例えば、多かれ少なかれ吸収材料が赤ちゃんの周りに置かれていて、特に高周波数の、より高いか、またはより低い吸収となるので、環境内の変動によっても引き起こされ得ることに気付くべきである。その結果、マイクロホンの全体的な感度は、約0.25m~1.5mの距離に配置されるようなものにすべきであり、非常に大きな赤ちゃんの泣き声は、最大デジタル信号強度に近いが、超えていない、デジタル信号をもたらすはずである。好ましい実施形態では、装置の感度は、手動で、または自動的に、のいずれかで設定される。マイクロホンの極性パターンは、装置の配向が全体的な感度および/またはスペクトル感度に著しく影響を与えないようなものであり、従って、単極パターンが好ましい。マイクロホン信号は増幅され、好ましくは、帯域通過フィルタ処理されて、デジタル信号音声信号に変換される。アナログ/デジタル変換のサンプル周波数は、ナイキスト理論に従ってエイリアシング問題を回避するために十分に高いことが理解される。それに応じて、マイクロホンが上限として4000Hzまで感知可能な場合、8kHzのサンプル周波数が最低限として考えられる。また、8kHzのサンプリング周波数が使用される場合、適切なアナログ(帯域通過または低域通過)フィルタを使用してアナログ信号を4kHzで切り取ることが有用である。典型的な実施態様では、アナログ/デジタル変換は、少なくとも12ビットの出力信号、および好ましくは14ビットの出力信号を生成する。通常、必然的に何らかの背景雑音があるので、より高いダイナミック分解能は典型的には、判定を改善しない。
【0127】
I/O接続は、情報を近くの親または介護者に送信するため、およびデータを集中型サーバー構成に送信するための通信段階の一部を形成する。一方では、親または介護者と、他方では、集中型サーバーと通信するために、異なる接続が選択でき、例えば、ブルートゥース、ブルートゥースLE、ジグビーなどの近距離無線プロトコルが、情報を介護者に送信するために使用でき、一方、インターネットアクセスポイントとのG4 G5 GSM UMTSまたはWiFi通信などのワイドエリア無線プロトコルが、集中型サーバーと通信するために使用できる。この文脈では、制限された量の情報だけが、赤ちゃんに近い装置から親または介護者に送信される必要があることが理解される。例えば、装置が正しく動作していることを示しているか、または「バッテリー不足」などの別の状態を示している定期的な装置-心拍-信号が送信され得、さらに、赤ちゃんが泣いている場合、泣き指標が、泣き声の実際の判定とは無関係に送信され得、泣き声判定は、一旦、利用可能になると、示されるはずである。平均的な熟練者は、これは極めてわずかなビットを送信することによって行うことができること、およびそれに応じて、帯域幅およびエネルギー消費の両方がかなり低い可能性があることが理解できるであろう。それにもかかわらず、好ましい実施形態では、親は、任意の音声の送信が好ましいか否かを決定する可能性を有し得る。いくつかの場合、親は赤ちゃんの永続的な音響的監視を行いたいであろう。
【0128】
しかし、操作の1つのモードは、親または介護者に赤ちゃんが泣いていることだけを通知し、それにより介護者は、実際の判定が次いで示される装置に移動し得るので、実際の判定を親または介護者に送信する必要さえないことが理解されるべきである。それに対して、データを集中型サーバーに送信する場合、パーソナライズ赤ちゃん情報と一緒に現在判定すべき泣き声からの典型的な泣き声データおよび/または複数の泣き声から収集されたデータが送信されるべきである。赤ちゃんをなだめるのはしばしば困難であるので、たとえ赤ちゃんが泣いている理由が分かったとしても、かかる泣き声データは、数分などの、長期間にわたって収集され得、著しく大量のデータが送信される結果となることが予期できる。従って、サーバーへのブロードバンド接続を有することが有用である。大量のデータを、赤ちゃんから離れた部屋にいる介護者親に送信することは絶対に必要というわけではなく、従ってブロードバンド接続が使用されることを要求しないが、ブルートゥースLE、ジグビーなどのローエナジープロトコルを使用する必要はないことが理解される。むしろ、親または介護者との通信のためにWi-Fiなどの(ブロードバンド)I/Oも使用することが可能である。
【0129】
好ましいスタンドアロン装置の入力出力手段は、一方では、赤ちゃんの年齢、体重、身長、現状および/または現在もしくは持続的な医学的状態などのパーソナル化赤ちゃんデータ情報を装置に入力する働きをする。入力手段は、データが入力されて格納されるためにスタンドアロン装置に送信される場合にスマートフォン、ラップトップ、タブレット、PCまたは同様のものと接続して使用される場合に前述のI/O接続を使用して実装できる。しかし、パーソナル化赤ちゃんデータ情報を入力するためのさらにもっと好ましい方法は、マイクロホンおよび追加の発話認識を使用することであり得、パーソナル化赤ちゃんデータ情報を入力するためのこの方法が選択される場合、パーソナル化赤ちゃんデータ情報入力モードの入力がボタンを押すことによって要求され得るように、ボタンまたは同様のものが提供され得る。装置自体上に実装された発話認識段階を有する必要はないが、親または介護者の発話データはそこでの発話処理のためにクラウドにアップロードでき、パーソナル化情報および/またはパーソナル化情報が、発話からよりも容易に決定できる情報、例えば、テキストファイルを送り返すことに留意されたい。パーソナル化情報に関連する発話認識は、ウェブ内で既に利用可能なサービスを使用して実装できることが理解される。
【0130】
統合されたスピーカーを使用して特定の入力情報を求めることによってユーザーを誘導すること、および好ましくは、機械で合成した音声を用いてスピーカーを通して理解されるとおりに入力を確認することさえ可能であり得る。これは、マイクロホンを使用して、パーソナル化情報の更新が親または介護者により楽に素早く行うことができるので、赤ちゃんの体重または高熱に関連する情報などの定期的に更新すべきパーソナル化赤ちゃんデータにとって特に有用である。パーソナライズ赤ちゃん情報赤ちゃんデータ情報が異なる装置およびUSBなどの無線または有線接続を使用して入力すべきことが望まれる場合-それは、いずれにせよ電力を供給するために使用され得-好ましくは、提供される唯一の入力手段はそれにもかかわらず、判定を確認または拒絶するための確認/拒絶ボタンであり得、従って、判定の品質に関するフィードバックを提供する。また、スタンドアロン装置および小児科ステーションの使用などの、ある事例では、医学的状態がパーソナル化情報として入力できる場合、それは好ましいであろう。小児科ステーションでは、異常な医学的状態をもつ赤ちゃんからの泣き声はより豊富で、データベースが急速に成長するのを可能にするので、これは好都合である。
【0131】
フィードバックを提供する必要性に関して、ありとあらゆる泣き声においてありとあらゆる装置に対するフィードバックを可能にする必要はないが、フィードバックを提供することは、利用可能なサンプルのデータベースを拡大するのに役立ち、従って判定を改善するのに役立つので、それを行うことは依然として非常に好ましく、さらに、適切なフィードバックが提供される場合、多数の「タグ付けされた」サンプルが利用可能であることが理解される。ニューラルネットワークフィルタなどの技術が、判定のため、および/または多かれ少なかれ雑音が多い背景において泣き声を検出するために使用されることが理解され、サンプルは、適切なフィルタを決定するためにモデルを訓練する必要がある。ここで、フィードバックが提供される場合、親または介護者による自動判定が正しいか否かのフィードバックでタグ付けされた利用可能なサンプルのデータベースは、そうでない場合よりも著しく大規模になり得、特に、一旦、十分な数の装置が配備されると、急速に成長し得る。さらに、異なる年齢、異なる性別、異なる身長、異なる体重などをもつ複数の赤ちゃんからのサンプルを備えた十分に大きいデータベースは、より高度にパーソナル化される判定を提供するのを可能にする。また、より大規模なデータベースは、新しさを識別するのに有用であり得、それに応じて、親または介護者にフィードバックを求め、そのフィードバックを、好ましくは、フィードバックをパーソナライズ情報および、泣き声が関連する音声データと結合するのを可能にする方法で、集中型サーバーに提供することは大いに望ましい。しかし、ある事例では、音声データが以前に判定されて、フィードバックが受信されるまでサーバー上に格納されたままの場合、音声データ全体を送信または再送信する必要はない。
【0132】
パーソナライズ判定に関して、赤ちゃんの泣き声の現在の理解は、4~6か月などのある年齢までの新生児について、異なる国、民族性または「人種」からの赤ちゃんの間で大きな差はないことである。むしろ、本出願人の現在の理解によれば、泣き声における差は、小さい赤ちゃんと大きい赤ちゃん、新生児と年長の幼児との間の生理学的差異、重大な影響のある赤ちゃんの医学的状態にも起因する。異なる泣き声の間でこれまで以上に明確に区別すること、および/または赤ちゃんが泣く多数の理由の間で区別することは可能であり得ることが理解される。ある医学的状態が赤ちゃんの泣き方を変え得ることが従来技術の前述の説明から理解され、そのため、音声データの分析から、重要な医学的ヒントが得られ得る。さらに、データベースに対して新しいサンプルを提供することは、自動泣き声判定のためにデータを提供するためにも行われ、サンプルデータベースを拡大するためにサンプルが準備される方法に応じて、本発明に従ったコンピュータ実装方法を構成し得ることも理解されよう。
【0133】
好ましいスタンドアロン装置のメモリは、スタンドアロンボックスのマイクロコントローラ、CPU、DSPおよび/またはFPGAなどの、処理装置に対する実行可能な命令を格納するために使用され、次いで、パーソナル化情報がスタンドアロン装置内に格納され、サーバーにアップロードするための装置ID、音声データ/フィードバックデータ、ならびにローカル泣き声識別のため、およびパーソナライズローカル泣き声判定のためのフィルタデータが格納されるべきである。加えて、メモリは、ごく最近の音声データのバッファリングを可能にし、そのため、一旦、泣き声が音声データ内で検出されると、泣き声の直前の音声データ、例えば、20秒~0.5秒の間の先行する期間も利用可能であり、音声ストリーム内で泣き声パターンを検索するために5秒窓が使用される場合には、好ましくは少なくとも5秒の期間、特に少なくとも10秒および特別に少なくとも15秒。泣き声の直前のデータの長さは、コストおよび適切なバッファメモリの可用性を考慮して、ならびに予期される雑音レベルを考慮して、決定できる。環境が特別に雑音が多いことが予期されるか、または許容される場合、例えば、特に雑音が多いか、または特に静かな周波数帯域を識別するために、背景/周囲雑音のサンプルも格納することは有用である。ROM、例えば、EEPROMメモリ、RAMメモリ、フラッシュメモリなどの、異なるタイプのメモリが示された特定の異なる目的のために使用され得ることが理解される。さらに、必要なメモリのサイズは、意図される用途、および音声データサンプルの集中型サーバーへの2つの送信間で許容される期間を考慮して、ならびに少なくとも暫くの間、ローカルに格納すべきデータの種類を考慮して、容易に推定できることが理解される。これは、ちょうど、フィードバックデータ、泣き声データから導出されたパラメータ、前回のアップロード以後に識別された全ての泣き声の元の(生の)音声データ、異なるレベルでの背景雑音のサンプル、例えば、特に大きな非泣き声背景雑音、またはしばしば観察される周波数成分を有する非泣き声背景雑音であり得、後者は背景挙動のローカルの統計的分析を暗示することに留意されたい。
【0134】
提供されるメモリのサイズは、考慮される赤ちゃんの泣き声の長さにも依存する。上で示されたとおり、判定は、泣き声を背景雑音から区別するために判定前に訓練されるAI/CNNフィルタを使用して、ローカルに、および/または集中的に達成され得る。かかるフィルタリングは、言うまでもなく、判定すべき泣き声全体が判定段階で利用可能にされるという条件で、赤ちゃんの泣き声の典型的な長さを所与として、非常に正確であり得る。頻繁に、言うまでもなく、判定は、赤ちゃんが泣き止む前に必要とされる。それに応じて、典型的に評価される赤ちゃんの泣き声の断片は、後のアップロードのため、および/またはバッファリングデータのために、泣き声を格納するために必要なメモリのサイズを判断する際に考慮されるべきである。実用的な実装において極めて高い正しい検出率をもたらしている好ましい実施形態では、5秒未満、具体的には1.5~4.5秒の間、特に約2、3または4秒、の長さの泣き声パターンが、泣き声の判定のために音声ストリームから分離されることに留意されたい。親または介護者が赤ちゃんをなだめ続けない限り、赤ちゃんが長期間にわたって泣く可能性がある、いくつかのかかる分離された泣き声パターンが好ましくは分析されるので、上で示された長さの少なくとも10、好ましくは少なくとも20、および特に少なくとも30の分離された泣きパターンを格納することが好ましい。例えば、CD品質に対応するサンプリングレートを用いてさえ、0.5MB~8MBだけが通常、非常に有用なメモリを実装するために必要とされるはずであることに留意されたい。
【0135】
前述のとおり、スタンドアロンボックスは、何らかの種類のデータ処理可能性、例えば、マイクロコントローラ、CPU、DSPおよび/またはFPGAならびにこれらの装置それぞれに対する命令および/または構成を格納するためのメモリを有する。これらの命令は好ましくは、とりわけ、少なくとも泣き声検出をローカルで達成するための命令を含む。これは、泣き声に関連するデータを選択するのを可能にし、従って、集中型サーバーに送信される必要のあるデータの量を、全体的な判定が集中型サーバー上だけで達成される場合に比べて、大幅に削減する。特に大きな雑音を検出するために音声強度だけに基づく第1の段階の判定さえ、各赤ちゃんは、赤ちゃんが泣いていない長期間を有するので、送信されるデータの非常に著しい削減を既にもたらすことに留意されたい。
【0136】
ローカル判定に必要な処理能力は、容易に推定できる。これに関して、処理装置は好ましくは、ローカル泣き声検出を達成できるべきあるが、集中型サーバー上で可能な程度までの完全なパーソナライズは、例えば、更新の頻度に関して、メモリおよび処理制約を所与として、ローカル装置上では必要でも可能でもない可能性があることに注意すべきである。しかし、何らかのパーソナライズがローカルに可能であることが理解される。
【0137】
従って、好ましい処理装置は典型的には、自動赤ちゃん泣き声判定構成がローカル判定段階を含むように配置され、ローカル判定段階は、集中型サーバー構成から受信されて、赤ちゃん泣き声のパーソナライズ判定に関連するフィルタまたは判定命令データを考慮して、赤ちゃんの泣き声を判定するように適合されている。
【0138】
それに応じて、ローカル判定はありとあらゆる泣き声に対して効果的である必要はなく、集中型サーバーが、アクセスできないか、または特に低データ送信速度のみでアクセス可能であることが分かっている場合に限定され得ることが理解される。かかる状態は、説明のとおりスタンドアロンボックスのI/O段階によって容易に判断できる。
【0139】
ローカル判定段階は、パーソナル化のない補助判定段階として機能し得るが、典型的には、サーバー上で可能なよりも低い程度までではあるが、パーソナライズもされ、パーソナル化の程度は、例えば、フィルタの可用性および/またはローカルに利用可能な処理能力によって決まる。しかし、典型的な用途では、かなり低い解像度音声データだけが分析されて処理される必要があると仮定すると、典型的にローカルに利用可能な処理能力は十分であり、処理装置上での過度の負担なしで、フーリエフィルタリング、相互相関および同様のものなどの処理ステップさえ可能にする。
【0140】
そのため、データをサーバーにアップロードするために十分なブロードバンド接続が利用できない場合、好ましい実施形態では、適切な判定段階が装置上で実装されるという条件で、泣き声のローカル判定が達成され得る。音声データをローカルに分析することにより、親は永続的なインターネットアクセスを有する必要がなく、それは、旅行中、または親が、Wi-Fi放射が自分の赤ちゃんに害を及ぼし得ることに非合理的に懸念を示している場合、好都合であり得る。いずれにせよ、好ましい実施形態では、一旦、泣き声が検出されている場合にだけ、無線送信を作動させることが可能であり好ましい。これは電池消費を減らして、赤ちゃんに近い電磁放射源を恐れる親の懸念に対処する。
【0141】
スタンドアロンボックスはタイマーも含む。タイマーは従来型の時計であり得るが、パーソナライズ判定が依然として有効であるか否かを判断するため、または赤ちゃんの高熱に関連した以前のパーソナル化が、高熱イベントから経過した時間を考慮して、依然として有効と考えられるべきかを判断するために、典型的には少なくとも数日、カウントされる必要があることが理解される。また、最後のパーソナル化からの時間が測定でき、例えば、健康な赤ちゃんは、通常の状態で、最後のパーソナル化データ入力から10%以上、体重が増加しているはずなので、データが典型的に古い場合、警告が発行され得る。
【0142】
それに応じて、ローカルのスタンドアロンボックスは、タイマーならびに、赤ちゃん泣き声の判定の前に、パーソナル赤ちゃんデータ情報の現在の年齢および/または年齢および/または集中型サーバー構成から受信されたデータの有効性および/または赤ちゃん泣き声のパーソナライズ判定の関連を評価する評価段階を含み得、赤ちゃんの泣き声判定構成は、その評価に応じて赤ちゃんの泣き声判定を出力するように適合される。
【0143】
タイマーは、パーソナル化データを外挿するためにも有用である。例えば、装置は最初の使用時に初期化されて、最初の使用時の初期化からの時間が各音声サンプルに対して決定できる。泣き声は、親が全ての情報を入力する時間があるまで、非パーソナル化の方法で判定され得るので、初期化時に、赤ちゃんの年齢が入力されることは、絶対に必要ではないが、これは特に好ましい。その結果、特定の音声サンプルの録音時における赤ちゃんの年齢が決定できて、データベースに入力できる。赤ちゃんの年齢は、この情報に基づいて後に容易に計算できる。しかし、身長などのさらなる情報は、外挿できる。例えば、当初の身長が赤ちゃんの年齢および性別と一緒に入力される場合、この時、赤ちゃんが、平均身長であったか、または同じ年齢、同じ性別のピアグループの赤ちゃんの特定の所与の百分位数を上回っていたか、もしくは下回っていたかが判断できる。
【0144】
フィルタの更新は、ユーザーが、例えば、サブスクリプションによって、支払う必要があるサービスとして提供できる。一旦、サブスクリプションが切れると、ユーザーは装置を、最終フィル、汎用フィルタと、またはいかなる泣き声検出機能も有していない単なる赤ちゃん電話としてのいずれかで使用し得る。サブスクリプションは特定の時までに限定されるので、一旦、装置が販売されると、典型的には、赤ちゃんが相当に成長した後はそうであるが、サブスクリプション期間が典型的には終わって、新しいサブスクリプションが支払われる必要がある。また、許容または可能にされ得る理由は、例えば、対応するリセットコードを送信することによってである。
【0145】
装置は、赤ちゃんの泣き声判定の結果を出力するための出力手段も含む。出力手段は、
図2に示されるような画面またはLEDで照らされたシンボルであり得、それは、LEDが提供されているもの以外に追加の異なる理由が示されない場合に特に有用である。出力手段は、追加または代替として、即時の判定が、リモート位置で、例えば、親または介護者が、赤ちゃんから離れた異なる部屋にいる場合に、スマートフォンの画面上に提供できるように、ユーザーのスマートフォンと通信するためのスピーカーおよび/またはI/Oであり得るか、またはそれを含む。
【0146】
以前に説明された装置を使用すると、泣き声は以下の方法で判定でき、この目的のために、データは、以下の方法を使用する自動パーソナライズ赤ちゃん泣き声判定のために提供され得、それは、理解できるように、コンピュータ実装方法であろう。
【0147】
まず、スイッチをオンにして赤ちゃんのゆりかごの近くに置かれている、ローカルの装置を起動する。一旦、装置がブートすると、集中型サーバーが十分な帯域幅で到達できるかどうかのチェックが行われる。集中型サーバーにアップロードする必要のある任意のデータ、例えば、ローカル判定と一緒に以前に採取された泣き声データ、および/または以前の判定に対するフィードバック、が集中型サーバーにアップロードされる。次いで、親の近くのリモートステーションとの、例えば、スマートフォンに対する通信が、I/O通信インタフェースを介して適切なデータを送信することによって、確立される。パーソナライズ判定に対する現在のサブスクリプションが依然として有効であるか、または更新されるべきかのチェックが行われる。現在のサブスクリプションがもう有効でなければ、警告情報がリモートステーションに送信される。現在のサブスクリプションが依然として有効な場合、音声サンプリングが始まり、ローカル装置が現在「あなたの赤ちゃんに耳を傾けている」ことを示すメッセージがリモートステーションに送信される。
【0148】
音声サンプリングが次いで、マイクロホンがアクティブモードに設定されるように達成されて、マイクロホンからの電気信号の適切な増幅が、大きな音声イベント中に、黒信号(black)をオーバーロードせずに、信号が装置の電気雑音レベルを優に上回るように設定される。さらに、電気入力信号が4kHzでカットオフされてフィルタ処理される。フィルタ処理されて増幅された電気アナログ信号は次いで、8kHzのサンプリングレートおよび14ビットのダイナミック分解能でデジタル信号に変換される。
【0149】
デジタル信号は、自動多段階泣き声検出を受ける。ここで説明される実施形態では、泣き声を検出するために、まず、デジタル音声ストリーム内のサンプルが各々128サンプルのフレームにグループ化され、フレームは従って16msの長さを有する。フレームは、説明された実施形態では1024フレームを格納するフレームリングバッファに書き込まれて、現在の最も古いフレームが以前に格納されていたメモリ位置に最も新しいフレームを循環的に格納する。しかし、各々128サンプルのフレームを使用するのではなく、フレーム内のサンプル数は異なり得ることに留意すべきである。128未満のサンプルを有するフレームの使用は、無関係なデータのもっと精密なスライスまたは切除を可能にするが、もっと多くのサンプルをもつフレームは、低出力CPUによってより扱いやすい。8kHzのサンプリングレートで取得された128サンプルの1024フレームは、1024*128サンプル*(1/8000)秒=16.38秒に対応することに留意されたい。その結果、泣きパターンがその中で検索される5秒窓の場合、大きな雑音に先行する3つの窓内で泣き声パターンまたは泣き声の発現を検索することが可能である。
【0150】
次いで、泣き声判定の初期ステップとして、全てのフレームに対して、現在の平均フレーム音声レベルの推定値を提供するために128サンプルのデジタル値の2乗平均平方根が決定される。現在の平均フレーム音声レベルの推定値も格納される。現在の平均フレーム音声レベルから、泣き声が検出されていたかもしれない第1の基準を満足するために新しいフレームの音声レベルが上回る必要のある閾値が決定される。閾値は適応できる方法で決定でき、現在の平均フレーム音声レベルにかかわらず、一定である必要はないことに留意されたい。
【0151】
平均フレーム音声レベルが、先行するフレームの平均フレーム音声レベルを閾値に対応する量だけ上回っていないことが検出される場合、泣き声は検出されず、次のフレームが分析されることが決定される。
【0152】
第1の泣き声検出段階は、異なる方法で、例えば、先行する平均フレーム音声レベルの平均または、例えば、4、8もしくは16の先行するフレームなどの、先行するいくつかのフレーム内の平均フレーム音声レベルの最小値の使用で、実装できることが理解される。ここで、最小値は、環境が少なくともどのくらい雑音が多いかの良い推定値であるので、最小値が選択されるべきである。それに応じて、泣き声検出第1段階は、ここで説明される好ましい実施形態における適応閾値を下回る音声を除去する。
【0153】
新しいフレームの平均フレーム音声レベルが先行するフレームの平均フレーム音声レベルを少なくとも閾値に対応する量だけ上回っていることが検出される場合、泣き声が検出されていたかもしれない第1の基準が満足されて、フレームバッファ内の1024フレームが別のメモリ位置に保存される。一実施形態では、泣き声とされる音声関連データは、追加の泣き声検出段階により、第1の基準の満足にもかかわらず、音声が存在しないことが決定されるまで、またはそうでなければ、データが泣き声に関連するとして選択できるまで、保護されたままである。これは、実際には泣き声の発現に関連する音声データを既に含んでいるが、一見では無関係のように見える音声データを後に考慮するのを可能にする。別の実施形態では、泣き声とされる音声に関連した情報は、パターン識別および分離ステップを受ける。これに関して、例えば、5秒長の窓と3秒のストライドの、重なり合う窓が定義できる。泣き声パターン分析を非ローカルに達成する、例えば、中央クラウドサーバー上にある、ことが可能であり、この場合、他のメモリ位置はクラウドサーバー上であろう。他の場合、特にローカルに提供された処理能力が十分に高い場合に、処理が十分に高速であるとすると、泣き声とされるパターンが以前に格納された1023フレーム内で直接検出できることを所与として、別のメモリ位置に格納されているフレームを格納することさえなく、泣き声パターンをローカルに検索することが可能であろう。その結果、分離された泣き声パターンだけがクラウドサーバーまたは更なるローカル処理段階に転送される必要があるだろう。泣き声パターン識別分離は、検出すべき複数の長さの泣き声パターンを有する窓をまず定義することにより、定義された窓のスペクトログラム様表現を定義することにより、および人工知能技術、特に畳み込みニューラルネットワークを使用して、スペクトログラム様表現内で泣き声パターンを検索することにより、影響され得ることが理解される。泣き声パターンのかかる検索に関して、赤ちゃんパターンは多岐にわたる赤ちゃんに対して非常に類似した特徴を有するので、パーソナライズされた方法で訓練されたモデルを使用することは絶対に必要というわけではないことが理解されよう。これは、泣き声パターンをパーソナライズされた方法で検索することは絶対に必要というわけではないので、泣き声パターンのローカル検索において有用である。前述では、検索される泣き声パターンは好ましくは、最小長を有することが既に述べられており、0.25秒または0.3秒または好ましくは0.4秒のかかる最小長は、泣き声検出および泣き声分離のパーソナル化が実装されていない場合でさえ、考慮されるより長いパターンに対して、泣き声パターンと泣いていない期間との間の区別は著しくより確実であるという点において好都合である。言い換えれば、より長い泣き声パターンを検索することにより、泣き声検出のパーソナル化は、特に、既知の対象物定位アルゴリズが本質的に、音声データのスペクトログラム様表現内での泣き声パターン検出に対して使用される場合、不必要になる。
【0154】
しかし、泣き声検出の第2の段階を泣き声パターン検出および分離として実装することは絶対に必要というわけではなく-それに応じて、もっと厳密な分析が、泣き声パターンの検索以外の手段によって達成でき、音声強度の急上昇が、先行するフレームの平均フレーム音声レベルを少なくとも閾値に対応する量だけ上回っている新しいフレームの平均フレーム音声レベルによって判断されるように、実際に、赤ちゃんの泣き声に起因するか否かどうかを判断する。泣き声パターン識別および分離のない、かかるより厳密な分析に関して、赤ちゃんは長期間にわたって泣くことが理解されるはずであり、そのため持続的な高い音声強度に関連する音声データだけがとにかく考慮されるべきである。従って、ある強度を上回る後続のフレームは、例えば、上で定義されたような2乗平均平方根平均フレーム強度は現在の最小雑音を適応閾値レベルだけ上回るので、さらなる分析のために、泣き声検出フレームバッファにコピーされる。他方、泣き声パターン検出および分離が、音声データのスペクトログラム様表現を考慮して、対象物定位法を使用して実装される場合、かかる泣き声検出および分離を、音声レベルが所与の閾値を上回っている場合に限り、開始することは絶対に必要というわけではない。泣き声パターン検出および分離方法をスペクトログラム様表現での対象物定位に基づいて継続的に実行することが可能である。従って、特に大きな音声レベルに対する先行チェックが実装されるか否かの判断は、例えば、電池からのローカル装置を操作している場合には、エネルギー消費を考慮して、または泣き声パターン検出および分離をクラウド内で実装している場合には、音声データをクラウドサーバーなどの中央装置にアップロードするために利用可能なデータ帯域幅を考慮して、行うことができる。
【0155】
更なる分析のために泣き声検出フレームバッファにコピーする必要のある後続フレーム数が一定の期間内に少なすぎると分かる場合、赤ちゃんは泣いていないと確実に想定でき、バッファ内に格納されているデータは削除できる。そうでなければ、追加のテストが実行される。その結果、ここで、所与の期間内にバッファに入力されるフレームをカウントすることにより、さらなる泣き声検出段階が実装される。これは、雑音を泣き声とされる音声として拒絶する好ましい方法であるが、いくつかの実施態様では、かかる追加の拒絶は使用されない。
【0156】
十分に高い平均音声レベルを持つフレームだけがバッファにコピーされるので、1つ以上の中間フレームが低い平均音声レベルをもつかもしれず、従って泣き声検出フレームバッファにコピーされないので、バッファは完全なシーケンスのフレームを表していないことが強調される。このアプローチは、背景雑音のない音声が分析のために利用可能であり、その結果、推定される背景環境雑音レベルを考慮して省略される必要のあるフレームがない、典型的な研究室セットアップとは異なることが理解されるはずである。泣き声パターンが、泣き声検出自体の一部として識別されて分離される実施形態では、明らかに、最初に録音された音声ストリームの部分も除外されることに留意されたい。
【0157】
しかし、いくつかの実施形態および実施態様では、潜在的な泣き声の発現後、フレームは除外されない。フレームを除外しない実施態様では、相互相関/スライド平均技術が容易に使用できる。低音声レベルを有するフレームを削除する利点は、取り扱われて分析されるデータの全体量が少ないことであり、フレームを除外しない利点の1つは、特にスライド/相互相関技術が使用される場合に、より高い的確さ/正確さが獲得できることである。この文脈では、一旦、泣き声が音声データ内に存在することが確証されると、泣き声に対する理由を判定するために完全なシーケンスを分析することは通常、有用であり、そのため、第1の泣き声検出段階基準を満足する最初のフレームに続く全てのフレームを含む完全なシーケンスはとにかく格納されるべきであることが理解される。明らかに、元々録音された音声ストリーム内に定義された窓から泣き声パターンを識別して分離する場合、全てのフレームを含む完全なシーケンスも判定され、泣き声パターンを、泣き声検出の一部として識別して分離することは、泣き声の判定において特に良い結果をもたらすことが述べられる。
【0158】
完全なシーケンスに対して別個のバッファを提供することは、全ての泣き声前のデータを含む循環バッファが十分に大きい場合、必要なく、その場合、完全なシーケンスは単に、循環フレームリングバッファ内に格納され得ることも理解されよう。
【0159】
所与の-および、適用できる場合、適応-閾値を上回っているフレーム数が短いイベントを識別して拒絶するために使用されない場合、例えば、連続したフレーム数が、例えば、低い音声レベルに起因して、関連がないとして識別されるので、バッファは依然として閉じられ得ることも強調されるべきである。その場合、明らかに、バッファは、完全には満たされないであろう。
【0160】
特に音が大きいフレームが赤ちゃんの泣き声の一部を構成するかを確証するために、以前に識別されている赤ちゃんの泣き声で訓練されたニューラルネットワークフィルタが次いで使用される。このニューラルネットワークフィルタは、泣き声の判定(または「翻訳」)で使用されるニューラルネットワークフィルタとは異なり得ることに留意されたい。前述のとおり、ニューラルネットワークフィルタを使用する1つの方法は、複数のフレームのスペクトログラム様表現を定義し、次いで、この表現内で泣き声パターンを検索することである。その結果、泣き声検出ニューラルネットワークフィルタに関して、ある状況下で、音声エネルギーおよびスペクトログラムのある周波数範囲は、赤ちゃんの間で、および環境間の両方で異なる重要な手掛かりを与え得ることが理解されるが、赤ちゃんが泣いている理由は重要でなく、泣き声検出の精度を向上させるためにパーソナル化も絶対に必要というわけではない。それでもやはり、畳み込みニューラルネットワークなどの人工知能技術が使用される場合泣き声検出および/または泣き声判定のパーソナル化がかなり計算集約的であることを所与として、依然として望ましい結果を得るために、必要なパーソナル化を最小限に制限することは好都合であると考えられる。
【0161】
例えば、ある環境では、赤ちゃんが特に大声で泣く周波数帯域は、より強い背景雑音も経験し得、それらを泣き声検出にとってあまり適さないものにする。残念ながら、背景雑音パターンは、例えば、赤ちゃんが監視されている位置が頻繁に変わるために、赤ちゃんのパーソナライズ泣き声判定よりもさらに速く変わり得、背景雑音は、窓が気象条件などに応じて開けられたり、閉じられたりするために変化する。それに応じて、最も好ましい実施形態では、泣き声検出自体はパーソナル化されない。それにもかかわらず、実用的な実施態様では、現場の99%を超える精度を有する泣き声検出は、音声レベル判定に続く段階として適切に訓練されたニューラルネットワークフィルタを使用して容易に達成できる。抽出された泣き声音声を含む音声窓のスペクトログラム様表現の1つの利点は、雑音に対するロバスト性であり、言い換えれば、雑音にかかわらず、泣き声パターンは、かかる技術を使用して窓の表現内で極めて確実に識別されることも述べられている。
【0162】
しかし、いくつかの場合、スペクトログラム様表現内で見つかった泣き声パターンを分離しないことが好ましくあり得、かかる場合、ニューラルネットワークフィルタを使用した泣き声検出に関して、元の完全な音声データ、例えば、バッファ内の各フレームは、適切なニューラルネットワークフィルタまたはパラメータに直接入力できる。上で、泣き声データから抽出できる複数のパラメータが開示されている。類似のパラメータが泣き声検出に対して決定でき、例えば、泣き声とされるバッファ内のフレームの平均の泣き声とされる音声、連続した特定の数および/もしくはフレーム、特に、バッファ内の2、4、8、16または32フレームにわたる、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間にわたる、泣き声とされる音声エネルギーのスライド平均;バッファ内のフレームの泣き声とされる音声持続時間分散;特に、2、4、8、16または32フレーム2、4、8、16または32フレームにわたる、および/または1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間にわたる、泣き声とされる音声のエネルギー分散;
現在のピッチ周波数;2、4、8、16もしくは32フレーム2、4、8、16もしくは32フレームにわたって、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間にわたって平均されたピッチ周波数;泣き声とされる音声イベント中および/もしくはバッファ内の泣き声とされる音声データの2、4、8、16または32フレーム2、4、8、16または32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中のピッチ周波数の最大値;
泣き声とされる音声イベント中泣き声とされる音声イベント中および/もしくは泣き声とされる音声データの2、4、8、16もしくは32フレーム2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中のスライド最大ピッチ周波数の変化;
バッファリングされたフレームに従った泣き声とされる音声イベント中および/もしくは泣き声とされる音声データの2、4、8、16もしくは32フレーム2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中のピッチ周波数の最小値;泣き声とされる音声イベント中泣き声とされる音声イベント中および/もしくは泣き声とされる音声データの2、4、8、16もしくは32フレーム2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中のスライド最小ピッチ周波数の変化;
泣き声とされる音声イベント中および/もしくは泣き声とされる音声データの2、4、8、16もしくは32フレーム2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中のピッチ周波数のダイナミックレンジ;泣き声とされる音声イベント中および/もしくは泣き声とされる音声データの2、4、8、16もしくは32フレーム2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中の周波数のピッチ平均変化率;
また、フレームは泣き声データを表すと仮定すれば、次のようなフォルマント関連パラメータが決定され得る:例えば、泣き声とされる音声イベントまたは泣き声とされる音声データの2、4、8、16もしくは32フレーム2、4、8、16もしくは32フレームにおける、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中の第1のフォルマント周波数;
泣き声とされる音声データの2、4、8、16もしくは32フレーム2、4、8、16もしくは32フレームにわたって、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中に平均された第1のフォルマント周波数の平均変化率;
泣き声とされる音声データの2、4、8、16もしくは32フレーム2、4、8、16もしくは32フレームにわたる、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中の平均の第1のフォルマント周波数スライドのスライド平均変化率;
泣き声とされる音声データの2、4、8、16もしくは32フレームにわたって、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中に平均する、第1のフォルマント周波数の平均値;
泣き声とされる音声データの2、4、8、16もしくは32フレームにおける、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間における第1のフォルマント周波数の最大値;泣き声とされる音声データの2、4、8、16もしくは32フレームにおける、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中の、第1のフォルマント周波数の最小値;
泣き声とされる音声イベント中および/もしくは泣き声とされる音声データの2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中の第1の共振ピーク周波数ダイナミックレンジ;
泣き声とされる音声イベント中および/もしくは泣き声とされる音声データの2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中の第2のフォルマント周波数;
泣き声とされる音声イベント中および/もしくは泣き声とされる音声データの2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中の第2のフォルマント周波数平均変化率;
泣き声とされる音声イベント中および/もしくは泣き声とされる音声データの2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中の第2のフォルマント周波数平均;
泣き声とされる音声イベント中および/もしくは泣き声とされる音声データの2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中の第2のフォルマント周波数最大値;
泣き声とされる音声イベント中および/もしくは泣き声とされる音声データの2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中の第2のフォルマント周波数最小値;
泣き声とされる音声イベント中および/もしくは泣き声とされる音声データの2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中の第2の共振;
泣き声とされる音声イベント中および/もしくは泣き声とされる音声データの2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中のピーク周波数ダイナミックレンジ;また、再度、赤ちゃんが実際に泣いていると仮定すれば、Mel周波数ケプストラムパラメータを決定することが可能であり、そのパラメータは、泣き声とされる音声イベント全体に対して、および/もしくは泣き声とされる音声データの2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中に決定される;
ならびに/または反転Mel周波数ケプストラムパラメータなど。
【0163】
泣き声検出のためにかかるパラメータを使用することは可能であるが、背景に関して前述された大きな分散を所与として、頻繁に、精度は、もっと精密で計算的にもっと集約的なパラメータの使用によって改善されないことが容易に理解されるであろう。それに応じて、赤ちゃんが現在泣いているか否かの判断は、依然として高度に正確な泣き声検出を提供しながら、計算量が低いままであるように選択されたパラメータに基づき得る。これは、その結果として、たとえ多段階泣き声検出が、ニューラルネットワークフィルタ技術を使用して少なくとも1つの段階で使用されても、泣き声検出をローカルに達成するのを可能にする。
【0164】
それに応じて、前述から、泣き声検出段階の1ステップとして、バッファ内の内容がさらに分析されることが分かる。通常、複数のnフレームがバッファ内に格納されて、バッファ内のフレームが赤ちゃんの泣き声に関連するか否かを示す出力信号が生成され、代替として、まず、泣き声パターンを識別および分離し、次いで、これらの泣き声パターンを、赤ちゃんが泣く理由のさらなる判定のために格納して、かつ/またはそれらを集中型サーバーに送信し、かつ/またはそれらを直ちに処理することが可能である。
【0165】
泣き声パターン識別分離ではなく、パラメータの評価に依存する最も典型的な実施態様では、バッファ内のフレームが赤ちゃんの泣き声に関連するか否かの判断が行われて、音声データが泣き声に、および/または判断の信頼性の程度に関連する確率を示す。かかる判断は、バッファ内のフレームごとに行われ得るが、取り扱いは、判断がバッファ単位で行われる場合、極めて容易である。これに関して、例えば、第1のバッファが完全に満たされているので、および/または以前のバッファが、閾値を上回っている2つのフレーム間の時間的な距離が大きくなりすぎて以来、閉じられているので、複数のバッファが順々に分析され得る。一旦、いくつかのバッファが分析されると、最終的な出力が判断でき、最終的な出力は従って、各単一のフレームに対する各単一バー(bar)に対して計算された結果の関数である。これは、それぞれのバッファが同じ体重の泣き声と関連する確率を平均することによって行われ得るか、またはそれぞれのバッファが、各確率の信頼性を考慮に入れるような方法で、泣き声に関連する確率によってよって行われ得る。好ましい実施形態では、泣き声検出中に分析されるバッファの数は、2または3に設定される。好ましい実施態様では、泣き声が検出されていると判断するために、少なくとも1つのバッファ内の音声データの確率が75%を超えるべきであることが要求され、N=3バッファに対する確率の(線形)平均が50%より大きいことも要求される。全ての基準が満足される場合、その音声データは赤ちゃんの泣き声に属すると判断される。しかし、基準が満足されない場合、長期間、当初の第1の閾値基準を考慮して、泣き声の候補と考える必要のあるフレームが検出されなくなるまで、対応する分析が後続のバッファに対して繰り返される。言い換えれば、泣き声検出分析の最後の段階の出力がバッファ(n、n+1、n+2)に対して負であれば、いくつかのフレームが特に大きな音声を示す限り、分析がバッファ(n+1、n+2、n+3)に対して繰り返される。
【0166】
最終段階で泣き声が検出されない場合、1つ以上の泣き声検出フレームバッファ内の背景音声データが、泣き声検出ニューラルネットワークフィルタを訓練するため、および/または典型的もしくは非常に重要な背景パターンを識別するために、サーバーにアップロードすべきと決定されない限り、泣き声検出フレームバッファ内のデータは消去されることが理解される。
【0167】
非泣き声音声データをサーバーにアップロードするかかる決定はランダムであり得るか、またはバッファリングされた非泣き声音声データは、平均確率が泣き声を指すと判断された確率に非常に近いため、もしくは平均確率が極めて低いために、アップロードのためにマークを付けられる。この文脈では、非音声データを定期的にサーバーにアップロードする目的は、背景挙動パターン内で新しいものを識別して、ニューラルネットワーク泣き声検出フィルタを改善することであることが理解される。たとえ非泣き声データがアップロードされる予定でも、データ保護規制が順守されることが理解される。具体的には、ローカル装置を所有している人が特定の非泣き声パターンをアップロードすることに同意した後にだけアップロードを許可することが可能であろう。また、発話検出は、発話に関する音声データのアップロードを防ぐように達成でき、また、特定の装置への言及なしで、非泣き声音声をアップロードすることが可能であろう。
【0168】
上で、最終段階で泣き声が検出されない場合、泣き声検出フレームバッファ内のデータは消去されることが述べられている。類似のアプローチで、所与の期間内の泣き声パターンの数が極めて少ない場合、すなわち、赤ちゃんが、5または6秒などの極めて短期間の間だけ泣いている場合、たとえ、泣き声に関連している尤度が非常に高いと明白に識別されていても、泣き声パターンを廃棄することが可能であろう。これは、とりわけ、最終判定が、多数の泣き声パターン、例えば、5~10の泣き声パターンに依存する場合であろう。
【0169】
そうでなければ、それは泣き声が検出されていると決定される場合であり、まず、親または介護者は対応するメッセージをリモートステーションに送信することによって通知される。親または介護者はローカルステーションに達するまでに時間が必要であり、赤ちゃんが泣く理由の判定は多くの場合、その時間中に行うことができるので、これは有用である。それに加えて、または赤ちゃんが泣いているというメッセージとして、好ましくは循環バッファ内に格納された発現前の音声データを含む、泣き声の音声データは、音声再生のためにリモートステーションに送信できる。泣き声前の音声を送信することは、リモートステーションで再生される音声が、介護者が赤ちゃんの近くにいる間に聞くようなものにより似ているので、親の注意を引くのに役立ち得ることが理解されるべきである。さらに、それは、赤ちゃんが泣き始めた時に赤ちゃんの周囲を音響的に評価するのに役立ち得、それはその結果として、部屋に入ってきた兄弟姉妹またはペットなどの外的影響によって泣き声が引き起こされた場合に有用であろう。しかし、いくつかの実施形態は、親および介護者はいずれにせよ、たとえ別の部屋にいても、赤ちゃんの声が聞こえる範囲内にとどまっているため、親および介護者に通知しないように要求されることが理解される。
【0170】
次いで、メッセージをリモートステーションに送信後、泣き声が集中型サーバーによって判定できるか、または判定はローカルに行う必要があるかが判断される。この目的のために、泣き声の音声データストリームの全ての関連フレームおよび/またはファイルの準備までの全ての泣き声パターンを含むデータ送信ファイルが準備される。ローカルの泣き声パターン識別および分離に依存しない実施形態では、このファイルは、最初のフレームが閾値を超えた後に所与の閾値を超えたフレームを含む可能性がある(および従って単なる泣き声検出に対してバッファリングされたよりも多くのフレームを含む)だけでなく、最初のフレームが閾値を超えて以来、録音されたフレームの完全なシーケンスも含む。さらに、そのファイルは、最初の極めて高い音声レベルの検出後にロックされている循環的泣き声前のフレームバッファからのフレームを含む。ローカル泣き声パターン識別および分離が達成されている実施形態では、分離された泣き声パターンだけが送信され、閾値比較などの第1の泣き声識別段階だけは達成されているが、泣き声パターン識別分離は中央装置上で達成されている、実施形態では、中央装置にアップロードされるファイルは好ましくは、リングバッファの内容全体を含む。次いで、体重、性別、年齢、医学的状態などの、パーソナライズ赤ちゃんデータが、ファイルに追加される。これは、例えば、以前に割り当てられたIDの包含により、コード化された方法で行うことができる。この場合、集中型サーバー上の中央データベース内に格納された対応する情報が、装置に割り当てられた特定のIDに対応して取得され得る。多くのユーザーによって秘密と考えられるデータはあまり頻繁に送信される必要がないので、これは好ましく、そのため秘密性の問題が回避される。好ましい実施形態では、装置はサーバーと交渉して、トークンシステムを使用してデータをアップロードする許可を得る。データをアップロードする許可を得るためのサーバーとの交渉は、サーバー上に着信する不必要なデータからの負荷を削減する。さらに、特定のユーザーからの着信データをその特定のユーザーに固有に割り当てられた所定の位置に格納することが可能であり、従って機密性が向上する。サーバーに送信される全体的なデータ転送速度が関係ない場合、第1のローカルの単純な判定を、比較器の使用などによって達成することさえ必要ないことが理解される。
【0171】
データファイルの正確な内容および/またはデータファイルの正確な構造は変わり得ることが理解される。また、泣き声前のデータ-または、たとえ赤ちゃんがもう特に騒がしくなくても音声表現内で識別され得る泣き声パターン-を省略することは、あまり好ましくはないが-可能であり、帯域幅が特に問題である場合、フレームのシーケンス内にボイド(void)が残されて、例えば、泣き声の発現前に決定された最小限の背景レベルに非常に近いフレームを除外し得る。しかし、典型的にかかる方法で得られる結果はそれほど正確ではないので、明らかに、これは著しくあまり好ましくない。具体的には、相互相関技術を使用する可能性が損なわれ得る。継続している泣き声に関して、判定が開始できるように、第1の数のフレームがサーバーに送信された後、継続中の泣き声の判定を改善するために、追加のデータが収集されてサーバーに送信され得ることも強調されるべきである。
【0172】
泣き声翻訳-または泣き声判定の好ましい方法は、ここでは説明されず、赤ちゃんの泣き声を判定する複数の方法が存在することが理解される。本出願が提案する判定のためにデータを提供する方法は、赤ちゃんの泣き声を判定するためのかかる異なる方法の全てまたは少なくとも多種多様にとって有用であることも理解される。それにもかかわらず、泣き声判定の典型的な実施態様を説明することにより、判定のためにデータを提供する方法がどのように最も良く実装されるかがより明らかになる。
【0173】
泣き声翻訳を理解するために、赤ちゃんの泣き声は、赤ちゃんの現在の特定のニーズに対して明確に異なった特徴を示すことが理解されるべきである。これは、例えば、
図3a~eに示されている3Dスペクトログラムで見ることができ、全く同一の赤ちゃんが異なるニーズを持っていた間に録音された泣き声のスペクトログラム間の差を明瞭に示している。
図3で明瞭に見られるものは、3Dスペクトログラムは明らかに異なるということである。スペクトログラムは、複数の異なる周波数(それぞれx軸およびy軸)に対する経時的なエネルギー成分(z-軸)の3次元プロットを示すことに留意されたい。基本的に、異なる泣き声に対する同じ情報が、
図4aおよび4bに与えられている。
【0174】
示されているパターンは、それぞれの理由に対する典型であり、そのため、泣き声における著しい差は原理上、ある泣き声を別の泣き声から区別すること、または
図4a~
図4fで比較される、音声を考慮して赤ちゃんが泣く理由を判定することを可能にする。しかし、パターンは、全く同一の赤ちゃんからの異なる泣き声に対してだけでなく、同じ理由で泣いている異なる赤ちゃんに対しても異なって見え、差は、とりわけ、赤ちゃんの年齢、体重、身長などによって決まることが理解される。それにもかかわらず、異なる種類の泣き声間の著しい差が依然として、特に、
図4a~
図4fで比較される、特定のパラメータを泣き声から分離し、かつ/または機械学習アルゴリズを使用する場合に、識別される。
【0175】
次いで、頻繁に、赤ちゃんの泣き声に対して単一の理由がないことが理解されるべきであり、例えば、赤ちゃんは、疲れていて、げっぷをする必要があり得る;赤ちゃんは、空腹で、あやしてもらう必要があり得るなど。これは、泣き声および、それに応じて、それぞれの泣き声パターンに反映し、その結果、任意の所与の泣き声パターンは、赤ちゃんが泣いている場合複数のパターンを同時に判定し得、適切な判定は好ましくは、それを考慮に入れる。
【0176】
異なる泣き声パターン間の差を自動的に識別する第1の方法に関して、各泣き声を十分なパラメータを使用して記述すること、または泣き声から得られた特定のパラメータをモデルに供給することは有用であり得る。十分なパラメータを使用すると、各クラウドが異なる理由に対する泣き声を含む、泣き声のグループ(または「クラウド」)を定義することが可能である。これは、
図5a~5eおよび
図6に示されている。
図5に示されているパターンは、自己組織化マップと呼ばれる教師なし深層学習技術によって増強された泣き声の生データセットからであることに留意されたい。
図6では、各泣き声は、多次元パラメータ空間内のドットによって表される。異なるタイプのドットは、赤ちゃんが泣く異なる理由を表しており、
図6は、異なるタイプのドット、および従って、赤ちゃんが泣く異なる理由をグループ化することが可能であることを明瞭に示す。実際の泣き声判定が、元の音声データストリーム内で識別および分離された泣き声パターンに基づく場合でさえ、新しいものに関する学習および/またはピアグループのグループ化は、特定のパラメータに基づく自己組織化マップに依存し得る。その結果、一旦、かかるピアグループが確立されると、各ピアグループに対して以前に得られた泣き声パターンが、各ピアグループに対してパーソナライズされたそれぞれのモデルを訓練するために使用され得る。パーソナル化を改善する別の方法では、各泣き声パターンに対して、この泣き声パターンが、複数の異なる理由のクラスの各々に関連する確率を決定することが可能であり、泣き声パターンのシーケンスから、赤ちゃんが泣く理由の全体的な判定が次いで、異なるクラスの各々に対する確率のシーケンスを考慮して提供され得る。非常に良好な結果を伴うパーソナル化の単純化は、確率のこのシーケンスの判定だけをパーソナル化することである。このようにして、計算集約的なパーソナル化が、依然として優れたパーソナライズ結果をもたらしながら、最小限まで削減できる。これがパーソナル化を単純化するのは、各泣き声パターンに対する確率の割当てが非パーソナライズされた方法で達成され得るためであることが理解される。
【0177】
泣き声翻訳または「泣き声判定」の目的は、赤ちゃんの泣き声に属すると識別されている音声データを、複数の異なるクラスの1つに分類することである。
図3では、5つの異なる赤ちゃんが泣く理由、すなわち、「空腹、不快、げっぷをする必要がある、痛いおよび眠たい」に対する泣き声が示されている。これら5つの異なる理由を、各赤ちゃんの泣き声が分類されるクラスとして使用することが可能である。しかし、これらのクラスは、若い親にとっては非常に有用で、区別するのが容易であるが、泣き声判定の確率を限定すると解釈されるべきではない。むしろ、例えば、「不快」および「痛い」を組み合わせて、もっと少ないクラスが実装され得るか、または、例えば、「咳」、「しゃっくり」、「くしゃみ」に関連する呼吸パターンを記述するクラスなど、もっと多くのクラスが使用できる。また、泣き声に全く関連していなかった追加のクラス、例えば、「無音」または「未定義」、を使用することが可能であり、意図的に泣き声に関連していないかかる追加のクラスの使用は、良好な泣き声検出段階を用いてさえ、誤って泣き声と識別された音声データが泣き声判定段階に転送され得るので、潜在的な誤判定を除去するのに役立つ。1つ以上の非泣き声クラスをフィルタに提供することは、誤判定の数を減らすのに役立つ。
【0178】
これは多くの場合、データマイニングおよびデータ分析で見られる状況であること、ならびにその結果、適切な訓練データが提供できて、十分なパラメータが見つかる場合、異なる泣き声を区別するために、人工知能技術および特に、CNN(畳み込みニューラルネットワーク)技術などの、ニューラルネットワーク技術が適用可能であることが理解されるであろう。
【0179】
それに応じて、何らかのデータが、ローカルまたは集中型の泣き声判定段階のいずれかに提供される必要がある。いずれの場合も、類似の技術、例えば、人工知能/ニューラルネットワークフィルタリング技術が使用できる。また、いずれの場合も、音声データをパーソナライズされた方法で判定することが可能であるが、パーソナル化の程度および/または割くことができる計算量は、それぞれローカルおよび集中型の場合に対して異なり得ることが理解されよう。具体的には、集中型の場合、しばしば、利用可能な処理能力は、ローカル装置でのローカル判定の場合におけるよりも、大きく、いくつかの場合、著しく大きい可能性がある。従って、上でリストされたような計算パラメータは少なくとも幾分かの計算量を必要とするので、判定においてニューラルネットワークフィルタへの入力として使用されるパラメータの数はさらに多いであろう。
【0180】
その結果、サーバー構成に対する集中型能力で使用されるニューラルネットワークフィルタは、もっと低い処理能力を有するローカルステーション上にローカルに実装できるフィルタよりも複雑であり得る。ローカル判定のためのフィルタ係数は、最も典型的な事例では、集中型サーバー上で決定されて、集中型サーバーからローカル装置に転送されることも理解される(集中型サーバーに関して、このサーバーは、自分のローカル装置からサーバーに転送された音声データを有する多数のユーザーによって使用できるので、これは、「サーバー」が「クラウドサーバー」の場合のように、空間的に分散される可能性を除外しないことに注意)。典型的には、パーソナライズフィルタは、より頻繁にサーバー上で決定されて、次いでローカル装置にダウンロードされるため、また、いくつかの場合、部分的なパーソナライズだけがローカル装置上で可能なので、集中型サーバーが使用される場合、フィルタの更新/パーソナル化はより良くできる。例えば、赤ちゃんが発熱しているか、または特定の範囲内の熱がある場合、泣き声は変わり得る。発熱は頻繁かつ自然に起こり得るので、パーソナライズフィルタ係数が更新されるたびに、フィルタ係数の対応するセットがローカル装置上にローカルに格納される必要がある。発熱などの類似の状況を考慮に入れる必要があるので、多種多様な異なるフィルタ係数を格納するために必要なメモリサイズは非常に大規模であり得、また、サーバー上で区別され得る各異なる状況に対するフィルタ係数を更新するためにサーバーからローカル装置に転送する必要があり得るデータの量は多くの場合、あまりにも大きいであろう。それ故、ローカル判定はしばしば、技術的な困難さを考慮して、集中型判定よりも不正確になる運命にある。
【0181】
それにもかかわらず、ローカルの音声判定に対してさえ、音声データは判定段階に提供される必要があり、音声データがローカルに判定されるか否かに応じて-判定は、特定の赤ちゃんに対する特定のフィルタがダウンロードされているか、またはプッシュサービスによって取得されていることを所与として、ローカルに行われる場合にパーソナライズされると考えることができ、アップロードに関して、IDに関連する赤ちゃんに関連したパーソナライズデータがサーバー上に以前に格納されている場合、音声データはIDと結び付けることができ、また、完全なパーソナル情報が送信でき、パーソナル情報の頻繁な送信またはサーバー上に格納されたパーソナル情報に関連するIDの送信が使用できるかの決定は、データ保護規制を考慮して、可能な限り最良の方法でプライバシーを保護したいという願望を考慮に入れて行い得ることが理解される。
【0182】
音声判定段階において音声データが判定される正確な方法に影響を及ぼし得る利用可能な計算能力などの難題にかかわらず、本事例では、例えば、音声データを集中型サーバーにアップロードした後、十分な計算能力が利用可能である場合に何ができるかを説明することは十分であると考えられる。これから、ローカル判定がどのように影響され得るかも容易に推定できる。例えば、相互相関技術が計算集約的過ぎる場合、判定を、入力信号をサンプル単位でシフトする場合に最良の対応を計算することによって決定するのではなく、入力信号をフレーム単位でシフトする場合、または入力信号を2フレームにわたってシフトし、従って計算負荷を2の係数で削減する場合に得られる結果だけを考慮することが可能であろう。
【0183】
一実施形態に関して、以後、最初に集中型サーバーに転送されたフレーム数が相互相関ステップを実装して実行するのに十分であること、および一旦、最初に多数に分割して転送された泣き声データが判定されると、親がローカル装置に達して最初に行われた任意の判定を確認できることも想定される。任意の判定の確認は、即時である必要はなく、他方、多くの場合、親は、赤ちゃんが一回だけ、親が取った処置に応答して泣き止むと、判定を確認するか、または拒絶するかを確信することに留意されたい。また、判定が直ちに正しいと考えられる場合でさえ、親は、判定を評価する前に赤ちゃんの世話をすべきである。従って、判定は原則として、例えば、適切なアプリを実行するスマートフォンを使用して、後にも行われる。それにもかかわらず、一実施形態では、親は、直ちに判定またはフィードバックを装置に入力する可能性があり得、この実施形態では、親がまだ判定を判断していない場合、追加のデータがアップロードでき、泣き声判定は、あたかももっと大きなファイルが最初に送信されていたかのように、達成できる。データが、大きなファイルではなく、繰り返して送信される場合に対する唯一の差は、データの第1の部分を使用して、第1の判定が行われて送信され得ることである。その結果、もっと多くのデータが受信される場合、判定は正しいか、または確認され得、最初の判定がもっと多くのデータの分析によって変わらない場合、ユーザーは、追加のデータが判定されることさえ知らない可能性があり、具体的には、判定が正しい確率が示されていない限りでなければ、もっと多くのデータを提供することにより、判定が正しい確率が高まり得ることが予期できる。判定が経時的に変わる場合、ユーザーが最初の判定を誤作動(glitch)であると言及するかもしれないと考えないように、ユーザーに、判定は変わっていることを明確にアドバイスすることが可能である。データを泣き声判定段階に転送することは、ユーザーが泣き声判定を確認するまで、かつ/または赤ちゃんが泣き止むまで継続し得ることが理解される。それにもかかわらず、前述を考慮して、本出願では、集中型サーバーに転送された第1のファイルだけを考慮して、判定が達成される場合を説明することは十分であろう。
【0184】
前述から、長いシーケンスのフレームを分析することは可能かつ有用の両方であることが理解される。上で、例えば、1024フレームを含む第1に言及されている。複数のかかるバッファは、1つの単一ファイルにパックでき、それは次いで、赤ちゃんが泣く理由を決定するために分析される。赤ちゃんが泣いていることをできるだけ早く検出することは、対応する情報が親または介護者に可能な限り早く伝達されるべきなので、有用であるが、判定は、いずれにせよ、親または介護者が必要とする反応時間を考慮して、ある程度もっと時間がかかり得ることが理解されるべきである。従って、泣き声判定のために多数のフレームを使用することは通常、重大な問題を構成しない。それに応じて、泣き声検出が3以下のバッファに基づいて機能することが好まれる場合、泣き声判定は、著しく早期に多数のバッファ、例えば、5、6、7、8、または16バッファなど(各バッファは、例えば、1024フレームを保持する)、に関して達成され得る。それにもかかわらず、第1の判定が、泣き声検出後、15秒未満、好ましくは10秒以下以内にユーザーに対して利用可能にされることが好ましい。そうでない場合、ユーザーは、ローカル装置は反応しないと考え得る。
【0185】
前述から、泣き声検出のために多数のバッファを使用することが好ましいこと、およびローカル装置は好ましくは、少なくとも16バッファを格納するために十分なメモリを有するべきであり、好ましくは、検出された(detective)泣き声が中央サーバー上で分析できない場合にはもっと多くが後の負荷のためにローカル装置上に格納される必要があることも理解される。
【0186】
一旦、十分なデータが泣き声判定段階での判定のために収集されて、集中型サーバーにアップロードされると、前処理が開始できる。前処理中、パーソナル化情報に対応するフィルタパラメータのセットが、例えば、フィルタパラメータセットデータベースを参照して、決定されて、ニューラルネットワークフィルタがフィルタパラメータのこのセットに従って構成される。
【0187】
次いで、音声データ自体がパーソナライズされたニューラルネットワークフィルタに、例えば、フレーム単位で、供給されるか、または音声データを記述するパラメータが決定されて、その決定された音声データを記述するパラメータがパーソナライズされたニューラルネットワークフィルタに入力される。
【0188】
前述のとおり、音声データを記述し得るパラメータは、ニューラルネットワークフィルタに入力でき、以下を含み得る:現在の泣き声イベント中の平均泣き声エネルギー、特定の数の連続および/もしくはフレームにわたる、具体的には2、4、8、16もしくは32フレーム内の、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間にわたる、泣き声エネルギーのスライド平均;1イベント中の中断の間の泣き声持続時間分散;具体的には2、4、8、16もしくは32フレーム2、4、8、16もしくは32フレームにわたる、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間にわたる、泣き声エネルギー分散;現在のピッチ周波数;具体的には2、4、8、16もしくは32フレーム2、4、8、16もしくは32フレームにわたって、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間にわたって、平均されたピッチ周波数;泣き声イベント中および/もしくは泣き声データの2、4、8、16もしくは32フレーム2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中のピッチ周波数の最大値;泣き声イベント中泣き声イベント中および/もしくは泣き声データの2、4、8、16もしくは32フレーム2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中のスライド最大ピッチ周波数の変化;泣き声イベント中および/もしくは泣き声データの2、4、8、16もしくは32フレーム2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中のピッチ周波数の最小値;泣き声イベント中泣き声イベント中および/もしくは泣き声データの2、4、8、16もしくは32フレーム2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中のスライド最小ピッチ周波数の変化;泣き声イベント中および/もしくは泣き声データの2、4、8、16もしくは32フレーム2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中のピッチ周波数のダイナミックレンジ;泣き声イベント中および/もしくは泣き声データの2、4、8、16もしくは32フレーム2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中の周波数のピッチ平均変化率;泣き声イベントまたは泣き声データの2、4、8、16もしくは32フレーム2、4、8、16もしくは32フレームにおける、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中の第1のフォルマント周波数;泣き声データの2、4、8、16もしくは32フレーム2、4、8、16もしくは32フレームにわたって、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中に平均された第1のフォルマント周波数の平均変化率;泣き声データの2、4、8、16もしくは32フレーム2、4、8、16もしくは32フレームにわたる、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中の平均の第1のフォルマント周波数スライドのスライド平均変化率;泣き声データの2、4、8、16もしくは32フレームにわたって、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中に平均する、第1のフォルマント周波数の平均値;泣き声データの2、4、8、16もしくは32フレームにおける、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間における第1のフォルマント周波数の最大値;泣き声データの2、4、8、16もしくは32フレームにおける、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中の、第1のフォルマント周波数の最小値;泣き声イベント中および/もしくは泣き声データの2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中の第1の共振ピーク周波数ダイナミックレンジ;泣き声イベント中および/もしくは泣き声データの2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中の第2のフォルマント周波数;泣き声イベント中および/もしくは泣き声データの2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中の第2のフォルマント周波数平均変化率;泣き声イベント中および/もしくは泣き声データの2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中の第2のフォルマント周波数平均;泣き声イベント中および/もしくは泣き声データの2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中の第2のフォルマント周波数最大値;泣き声イベント中および/もしくは泣き声データの2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中の第2のフォルマント周波数最小値;泣き声イベント中および/もしくは泣き声データの2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中の第2の共振;泣き声イベント中および/もしくは泣き声データの2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中のピーク周波数ダイナミックレンジ;Mel周波数ケプストラムパラメータ、パラメータは、泣き声イベント全体に対して、および/もしくは泣き声データの2、4、8、16もしくは32フレーム中、および/もしくは1秒、2秒、5秒、10秒、15秒、30秒などの特定の期間中に決定される;ならびに/または反転Mel周波数ケプストラムパラメータ。
【0189】
前述のとおり、パラメータのリスト内の参照が特定に時間に対して行われている場合、明示的に言及されたそれぞれの時間までの任意の他の一定期間にも言及することができる。また、読者は、ある長さが好都合である理由が上で示されていることに気付かされる。
【0190】
音声データによって表されるパターンが、異なる理由に対して典型的であって、ニューラルネットワークフィルタによって表されるパターンと比較されて、泣き声の異なる潜在的な発現を考慮することによる、相互相関的に分析される場合に優位性が獲得され得ることも上で繰り返し強調されており;泣き声の異なる潜在的な発現を考慮することは、スライド平均または他のスライドパラメータが、フレーム毎もしくはサンプル毎に決定されて、非常に対応するパラメータのシーケンスが、それぞれ、ニューラルネットワークフィルタへの入力として使用される場合、容易に行うことができる。しかし、かかる技術は計算的にさらに集約的であることが理解されよう。
【0191】
別の実施形態では、泣き声パターンが泣き声検出段階で分離されている場合および/または泣き声パターンが生じる時間が決定されている場合、かかる時間に関連するフレームに対して特定のパラメータを計算するのではなく、泣き声パターンが観察される期間中に録音された音声のスペクトログラム様表現が準備でき、泣き声識別および分離に対して同じ時間的および周波数分解能を使用することが可能な場合、以前に分離された泣き声パターンが使用できるので、追加のスペクトログラム様表現を準備する必要がないことが述べられる。スペクトログラム様表現は次いで、畳み込みニューラルネットワークに送り込まれる各泣き声パターンが、予め定義されたクラスのいずれかに属する尤度を出力する畳み込みニューラルネットワークに供給できる。特に正確であるが、計算的にさらに集約的な実施形態では、それぞれの畳み込みニューラルネットワークフィルタパラメータは、パーソナライズされる、すなわち、定義された各ピアグループに対するフィルタパラメータの異なるセットが使用される。他の実施態様では、全てのピアグループに対してフィルタパラメータの同じサイドを使用すること、分離された各泣き声パターンが、赤ちゃんが泣く異なる理由の各々に属する確率を判断すること、および次いで、各泣き声パターンから取得された結合された理由をパーソナライズされた方法で評価することが可能であろう。1つだけの、または2~3の最終層(複数可)をパーソナライズすることにより、モデルを訓練するための計算量、および判定で使用されて、格納する必要のあるパラメータの数の両方が削減できることが理解されるべきである。
【0192】
分かりやすくするために、ニューラルネットワークフィルタが泣き声検出の最終段階で使用できるが、またニューラルネットワークフィルタ実施態様は泣き声判定のためにも使用できるが、それぞれ、泣き声検出および泣き声判定のためのそれぞれのニューラルネットワークフィルタへの全体的な入力であるように、泣き声検出の最終段階で使用されるニューラルネットワークフィルタは、泣き声判定で使用されるフィルタとは異なることが強調される。泣き声翻訳のために使用されるフィルタはより複雑である可能性が高く、例えば、畳み込みニューラルネットワークにおけるもっと多くの層および/もしくはもっと多くの入力を使用し、例えば、より高い分解能を使用し、ならびに/またはパーソナルパラメータおよび/もしくはもっと多くの層に対する追加の入力を有する。
【0193】
一旦、泣き声が検出されると、泣き声を判定することが絶対に必要というわけですらないことが理解されるべきである。親が、電子装置からの助けがなくても、赤ちゃんが泣く理由が理解されていることに確信を持っている場合、赤ちゃんが泣いていることを親に通知することは時々、十分である。従って、かかる場合、泣き声を翻訳する必要はなく、従って、例えば、エネルギーを節約する。それに応じて、いくつかの実施形態では、親が明示的に支援を必要とする場合に限り、自動泣き声判定をトリガーすることさえ可能である。さらに別の構成では、泣き声翻訳を全く許可しないこと、および赤ちゃん監視モニターの反応を改善するために泣き声検出だけを使用することが可能であろう。かかる構成では、送信は、泣き声の検出に応答してのみ反映され得、かつ/または音声は、例えば、泣き声の検出に応答してデジタル信号の利得を変更することにより、受信機において特別に大きな音声となるような方法で送信され得る。
【0194】
泣き声判定段階において、ニューラルネットワークフィルタに入力された音声データが、「空腹である」「眠い」「げっぷをする必要がある」などのいくつかの予め定義されたクラスの1つに属する確率が決定され、それに応じて、いくつかの確率が取得されて、n組の確率をもたらし、n組の成分は、それぞれのクラスに関連した理由のために赤ちゃんが泣いていた確率を表す。フレームからフレームへ、またはバッファからバッファへ進むと、その都度取得されたn組の成分は異なる。従って、n組のシーケンスから、全体的な判定を計算する必要がある。
【0195】
全体的な判定を決定するための様々な確率が存在する。例えば、N組の各成分の平均が計算され得、最大の平均値を有する成分、従って全体として最も高い確率が判定として選択される。この平均は、線形平均、2乗平均平方根平均または同様のものであり得る。好ましい単純な実施形態では、線形平均が計算される。また、相互相関技術は非常に良好な一致に対して非常に高い確率をもたらし得るということを考慮に入れて、全ておよび組にわたる各成分に対する最大値が比較され得、サンプリングおよび雑音に起因して、相互相関技術で達成可能なパターン照合は完全ではないので、例えば、2、3、4または5の連続したn組の各成分を平均するスライド平均の最大値を考慮することはさらに好ましくあり得る。所与の成分に対する最大値が、考慮される全てのフレームに対する特定の閾値を上回っていない場合、いくつかの成分を考慮から完全に除外することが可能であり、このように、納得のいく一致を決してもたらさない成分は、誤った判定を引き起こさない。
【0196】
別の可能性は、M個の連続したフレームに対して取得されたM個の連続したN組からN×M行列を構築し、次いで、最終判定のためにM行列にわたるこのMをさらなるニューラルネットワークフィルタに供給すること(または、畳み込みニューラルネットワークの対応する層を実装することにより類似の技術を使用すること)であろう。ニューラルネットワークフィルタに対して言及したが、特にニューラルネットワークフィルタ実装の、特にフィルタ層の数およびサイズに関して、多種多様なデータ処理技術が企図できるので、かかるフィルタの詳細は、本明細書では説明されないことが理解されるべきである。一般に、ローカル装置上では、少ない層および/またはあまり複雑でない層が典型的に実装されることは言うまでもなく、理解されよう。
【0197】
特に好ましい実施形態では、泣き声検出は、閾値を上回っている録音された音声レベルだけを検出する(任意選択の)非常に単純な(任意選択で:第1の段階)を含み、泣き声検出の(第2の)段階は、音声ストリームを完全にカバーする相互に重なり合う時間窓(または任意選択で、過度な音声レベルの直前および直後の両方の時間)内で泣き声(とされる音声)パターンを識別および分離することを含み、泣き声パターンは、赤ちゃんの泣き声に対応することが分かっているパターンを、時間窓のスペクトログラム様表現内で検索することによって識別され、識別されて分離された泣き声パターンにパターン分類を受けさせて、赤ちゃんが泣く理由に対する確率を泣きパターンを考慮して、特に分離された泣き声パターンのスペクトログラム様表現を考慮して、確立し、その後、分離された泣き声パターンのシーケンスに対して取得された確率を考慮して赤ちゃんが泣く特定の理由を判定し、パターン分類および/または赤ちゃんが泣く特定の理由の確率を考慮した識別の少なくとも1つは、パーソナル赤ちゃんデータに従ってパーソナライズされた判定によって実行され、特に、赤ちゃんが泣く特定の理由を、各泣き声パターンに対して取得された確率を考慮して判定するステップをパーソナライズする。
【0198】
所与の入力の出力を考慮して、判定を選択するニューラルネットワークフィルタおよび/またはアルゴリズをどのように実装するかの最終決定が何であれ、判定の信頼性は、分析のために利用可能なデータの質に強く依存することが理解されよう。相互相関および/またはスライドパラメータなどの技術は、より正確な分析および特に判定のパーソナライズにおいて特に有用であること、ならびにかかる技術に適したデータを提供することは、改善された判定を可能にするために極めて重要であることが理解される。これに関して、第1の泣き声検出段階は、現在の音声レベルを、背景音声レベルに先行する平均と単純に比較して、比較可能な不法(tort)閾値を上回っている大きな雑音の直前に録音された音声データおよびその後に取得された音声データをスペクトログラム様表現に基づく泣き声パターン識別および分離を受けさせる、実施形態の実用的な実施態様は、泣き声の判定において特に良好な結果をもたらして、例えば、音声録音装置の音源に対する正確な配置にもかかわらず、それが使用する特定の音声録音装置およびマイクロホンならびに/または赤ちゃんの泣き声を録音する際に存在する任意の典型的背景雑音にかかわらず、特にロバストであることが分かっていることが述べられる。
【0199】
一旦、判定が取得されると、対応する出力が生成される必要がある。この目的のために、判定の結果は出力段階(または「出力マネージャー」)に送り込まれて、対応する出力信号を生成し、それは可聴信号、視覚信号、例えば、モニターまたは点滅LED上に表示されるパターンにできる。
【0200】
出力を示すことは、ユーザーの経験を改善するように適合された特定の出力段階によって達成され得ることが理解される。例えば、1つまたは2つのバッファからの音声データだけに関連する最初の判定が出力段階に転送される場合、出力マネージャーは最初の判定の出力を抑制し得るか、または、泣き声の発現についてユーザーに通知してからの時間があまり経過していなければ、最初の判定の出力を抑制し得る。最初の判定を直ちに示さないことは、判定が経時的に変わることによってユーザーを混乱させるのを回避するのに役立つ。また、ユーザーが好みを設定している、例えば、ユーザーは、それぞれの確率と一緒に、2つの最もありそうな理由を示して欲しいことを示している場合、出力マネージャーは、かかる出力を要求に応じて準備し得る。
【0201】
判定段階が、泣き声検出が誤判定に起因してトリガーした可能性があることを示す場合、対応する情報もユーザーに示され得、かつ/または赤ちゃんを動かす対応する要求が解除され得る。また、最初に第1の判定が、特に十分に高い確率で、多数のフレームおよび/または泣き声パターンに基づいて行われている場合、例えば、赤ちゃんが泣く理由が実際に変わっているために、第1とは異なる第2の判定も正当化され得る状況が生じ得る。しかし、この場合もやはり、ユーザーの混乱を回避するために、2または3分などの一定の期間、判定が変わるのを防ぐことは好ましくあり得る。
【0202】
一定期間の後、一旦、赤ちゃんが泣き止むと、例えば、泣き声が止んでから30秒、1分、2分、3分、4分または5分後に、対応するLEDの点滅の表示または可聴信号の生成が終了し得、「赤ちゃんの泣き声を聴く」または「音声ストリームを追跡する」などの標準メッセージが代わりに生成され得る。赤ちゃんが泣いていた理由をユーザーに示すことは、しばしば、赤ちゃんが特に疲れ切っている場合、以前の不快感に対する理由は依然として有効なままであるが、赤ちゃんは眠り込んでいるために、いくつかの場合には有用であろう。以前の判定をしばらくの間表示することは、従って、親または介護者にとって役立ち得る。
【0203】
しかし、典型的な状況では、赤ちゃんがまだ泣いている間に親または介護者が赤ちゃんの世話をすることが予期される。そこで、彼らは典型的には、例えば、空腹の赤ちゃんに食事を与えることによって、赤ちゃんがげっぷをするのを手伝うことによって、または赤ちゃんが眠りに落ちるまであやすことによって、赤ちゃんをなだめようとする。表示された判定および、判定を考慮して赤ちゃんをなだめようとする彼らの試みの成功または失敗に応じて、フィードバックがローカル装置に入力できる。フィードバックが集中型サーバーに、好ましくは、フィードバックが以前に判定された音声データに関連できるような方法で、送信される場合、これは特に有用である。かかるフィードバックは、泣き声データベースを改善するのに役立ち、特に、データベースを改善するためにタグ付けされたサンプルをユーザーに提供するのに役立つことが理解される。集中型サーバーに、フィードバック、フィードバックを特定の音声データおよび以前に導出された任意の判定と関連付ける情報、ならびにパーソナライズ情報をアップロードすることにより、アップロードはデータベースを拡大するのに役立つので、集中型サーバーのオペレータに対して、ならびに、複数のタグ付けされた音声泣き声を有すること、および好ましくは、パーソナライズ情報も、例えば、類似の泣き声パターンを有する他の赤ちゃんのピアグループを識別することによって、パーソナライズを改善するのに役立つので、親に対しての両方で、利益が得られることが理解されるはずである。これは、たとえ性別、年齢、身長、体重などの他のパラメータが同一であっても、赤ちゃんのグループを区別するのに役立つ。その結果、パーソナル化が改善される。また、実際の泣き声を考慮に入れる、かかるパーソナル化は、身長もしくは体重などの親によって入力されたパラメータが古くなっているか、または不正確に入力されている場合に有用である。
【0204】
また、一旦、他の赤ちゃんのピアグループが識別されていると、かかるピアグループに対して取得された情報が、ピアグループのそれと類似した泣き声パターンを有することが分かっている特定の赤ちゃんに対して使用され得ることが理解される。例えば、所与の赤ちゃんの全ての泣き声が、特定の希少疾病を有する他の赤ちゃんのピアグループのそれに酷似していることが分かる場合、対応する警告が親に対して発行され得る。親および他の介護者がフィードバックを提供する場合、彼らに報酬を与えるための方法が実装され得ることが理解され、例えば、サブスクリプションモデルが実装されている場合、返金が行われ得るか、または現在のサブスクリプションが追加の支払いなしで延長され得る。従って、好ましい実施形態では、フィードバックを集中型サーバーにアップロードするためのインセンティブ生成手段および/またはインセンティブステップが提供される。集中型サーバーへの接続が遮断される場合、接続が確立されてデータが転送されるまで、関連データがローカル装置内に格納されることが理解できる。
【0205】
フィードバックは、翻訳の正確さに関連する必要があるだけでなく、フィードバックは、泣き声検出の正確さに対する関連を与えられ得ることが理解されるはずである。フィードバックを実装するための複数の方法、例えば、判定を確認または拒絶するために、ローカル装置にリモートのステーションとして使用されるスマートフォン上のアプリの使用、ローカル装置上のボタンの押下またはローカル装置のマイクロホンに向かって話すこと、が存在することも理解されるはずである。
【0206】
データベースのサイズに応じて、ニューラルネットワークフィルタおよび従って判定は、最初は、より多くのサンプルが収集されて、より多くの事例が区別できる後の判定ほど、明確ではない可能性があり、その結果、汎用泣き声検出フィルタが使用され得る。しかし、データベースが成長するにつれて、フィルタはますます明確になる。
【0207】
従って、一旦、十分なサンプルが、例えば、小さくて、体重の軽い赤ちゃんとは異なって聞こえる、特に重いか、または大きい赤ちゃんから収集されると、さらなく区別ができることが予測される。フィルタの更新は自動化でき、例えば、週に1回、フィルタを、特定の年齢/ピアグループに対する平均の汎用フィルタに適合させる。また、現在の知識によれば、非常に若い新生児の泣き声において著しい違いは見られないが、幼児が成長すると、例えば、彼に付随する出生国または母国語に応じて、定期的に、泣き声がさらに区別されることが予測される。その結果、泣き声検出フィルタを適切に適合させると、装置をより長く使用すること、および/または年長児に対してより正確な結果を得ることが可能であり、それは、特定の疾病に関連したものなど、親が分からない非標準的な泣き声が分析される場合に特に役立つ。
【0208】
この文脈では、赤ちゃんは成長するとき、他の赤ちゃんと同じように成長する可能性があり、同じ年齢/同じ性別/同じ身長の赤ちゃんのそのピアグループ内の似た赤ちゃんは従って、その発音器官の類似の発達を経験すると仮定できる。この仮定は、相反する情報が親によって入力されない限り、および/または親のフィードバックによってタグ付けされた泣き声が同じピアグループ内の赤ちゃんの対応する泣き声と異ならない限り有効と考えられ得、そのため多くの場合、それぞれのピアグループに対してフィルタが決定できる。しかし、ピアグループの判定も、フィルタが更新され、かつ/または特定の期間が経過する度に、もたらされ得る。
【0209】
集中型サーバーにアップロードされるデータは、データベースに入力され得、ユーザーフィードバックによってタグ付けされたデータベース内の音声サンプルは、泣き声翻訳で使用されるニューラルネットワークフィルタを再訓練するために、および、背景雑音もデータベースに送信される限り、泣き声検出で使用されるニューラルネットワークフィルタを再訓練するために、繰り返して使用される。ニューラルネットワークフィルタの訓練、新しさなどを考慮したデータベースの再訓練に関して、かかる技術は当技術分野で周知であると考えられる。これは、例えば、親が、プライバシー上の理由から、データを送信したくないために、特定の子供に対して限られた量のデータしかアップロードされていない場合でさえ、適応フィルタを提供することを可能にする。
【0210】
上で、本方法は適用可能であり、装置は小児科ステーションで使用可能であることが言及されている。小児科ステーションでは、ローカル装置は2人以上の赤ちゃんから音声を拾い上げ得る。同じことが、例えば、双子の監視に当てはまる。ローカル装置が2人以上の赤ちゃんから音声を拾い上げ得る危険性が存在するセットアップでは、複数の可能性が存在する。まず、各マイクロホンを赤ちゃんの1人に非常に近接して配置して、ローカル装置に複数のマイクロホンを接続することが可能であろう。次いで、これらのマイクロホンの各々から受信された音声強度を考慮して、どの赤ちゃんが泣いているかの決定が行われ得る。むしろ1つの単一ローカル装置にワイヤーケーブルで接続された複数のマイクロホンを使用する複数のローカル装置が使用される場合、装置は、各ローカル装置で録音された音声強度に関する情報を交換し得、決定は、交換された情報に基づき得る。これは、一卵性双生児に対してさえ役に立つことが理解される。別の可能性は、任意の泣き声を検出して、各パーソナル化が監視されている赤ちゃんの1人に対応する、複数の異なるパーソナル化を用いて判定することであろう。パーソナル化の各々に関して、泣き声の判定が正しい尤度が決定でき、最も高い尤度をもつ判定が発行できる。別の可能性は、全ての考えられる判定を示して、介護者にどの赤ちゃんが泣いているか、それに応じて、どの判定が関連するかを決めさせることである。これは小児科ステーションにとって好ましい実施態様であろう。その結果、装置は、複数の赤ちゃんに対して同時に容易に使用できる。
【0211】
その結果、上で提案しているものはとりわけ、用途を制限することなく、自動赤ちゃん泣き声判定のためにデータを提供するコンピュータ実装方法であり、音響的に赤ちゃんを監視して、対応する音声データのストリームを提供すること、音声データのストリーム内で泣き声を検出すること、泣き声の検出に応答して音声データから泣き声関連データを選択すること、選択された泣き声データから泣き声判定を可能にするパラメータを決定すること、パーソナライズ泣き声判定のためにパーソナル赤ちゃんデータを決定すること、パーソナル赤ちゃんデータに従った判定のための判定段階を準備すること、およびパラメータを、パーソナル赤ちゃんデータに従って準備された泣き声判定段階に供給することを行うステップを含む。特定の実施形態では、パラメータは、泣き声パターンが識別されている時間および/または分離された泣き声パターンに対応する音声データのスペクトログラム様での表現であり得ることに留意されたい。
【0212】
さらに、提案した方法に関して、赤ちゃんは継続して音響的に監視でき、泣き声前の音声データが少なくとも一時的に、例えば、その中で泣き声パターンが著しく高い確率で識別されていないために、後続の音声データが泣き声に関連していないと分かるまで、格納されることが開示されている。方法では、提案のとおり、連続した音響的監視ストリーム内で、赤ちゃんの泣き声、特に赤ちゃんの泣き声の発現が、閾値を上回っている現在の音声レベル、平均背景雑音を所与の限度だけ上回っている現在の音声レベル、閾値を上回っている1つ以上の周波数帯域における現在の音声レベル、対応する平均背景雑音を所与の限度だけ上回っている1つ以上の周波数帯域における現在の音声レベル、音声の時間的パターン、突然の大きな非泣き声雑音の時間的および/またはスペクトルパターンパターンから逸脱する音声レベルの時間的パターンおよび/またはスペクトルパターン、特に、赤ちゃんのビデオ監視データから導出された、非音響的ヒント、動き検出器および/または呼吸検出器の少なくとも1つに基づいて検出されることも開示されている。
【0213】
泣き声判定を可能にするパラメータがそれから決定される選択された泣き声データは、泣き声イベントの発現からの音声データ、特に、泣き声の最初の2秒からの、好ましくは泣き声の最初の秒からの、特に好ましくは泣き声の最初の500msからの音声データを含み得ることも注記される。これは、泣き声パターンを、もし存在すれば、音声レベルの上昇に先行する時間を含む窓から分離する方法で、検査することによって行うことができる。また、追加として、音響的に監視されている赤ちゃんから得られた音声内で泣き声をローカルに検出すること、および集中型自動赤ちゃん泣き声判定で使用されるサーバー構成にデータをアップロードすること、特に、赤ちゃんの泣き声をクラウド内で判定するために選択されたデータをアップロードすることを行うステップを含み得る、コンピュータ実装方法が開示されている。
【0214】
次いで、方法は、泣いている赤ちゃんの音響的な監視に関連したデータおよび/もしくは泣き声判定を可能にする選択された泣き声に関連するパラメータをクラウドにアップロードするステップを含み得、ならびに/または泣き声および/もしくは泣き声から導出されたパラメータの少なくとも一部をパーソナル赤ちゃんデータと一緒にサーバー上に格納して、サーバー上に格納された情報を考慮して判定を確立するステップを含むことも開示されている。
【0215】
開示されて提案される方法は、集中型サーバーから、ローカルのパーソナライズ赤ちゃん泣き声判定を可能にする、特に、ローカルのパーソナライズ赤ちゃん泣き声判定を限られた期間可能にする情報をダウンロードするステップも含み得ることが理解されるべきである。開示されて提案されるような好ましいコンピュータ実装方法では、泣き声の発現前に取得された監視音声データが、特に、正確な発現が十分に高い確率で決定できない場合、音響的背景を決定するため、および/または赤ちゃんの泣き声判定のために追加のパラメータを決定するために使用されることが注記される。
【0216】
次いで、特に、泣き声判定段階に供給されるパラメータが、転移学習によって取得され、かつ/または1人の赤ちゃんだけの泣き声に関してモデルを訓練することによって取得される場合、パラメータが、泣き声判定段階に、ニューラルネットワークおよび/または人工知能技術を使用して、泣き声の判定を可能にする方法で供給されることも提案されている。
【0217】
さらに、方法は、パラメータおよび/もしくは録音された音声のデータストリームを赤ちゃんデータ情報、特に、年齢、性別、身長、体重、民族性、一人っ子/双子/三つ子、現在の医学的状態、既知の医学的前提条件、特に既知の現在の病気および/もしくは熱、親および/もしくは介護者の言語のうちの少なくとも1つに関連する赤ちゃんデータ情報、と一緒にアップロードすること、ならびに/または1つ以上の以前の判定の正確さに関連した赤ちゃんデータ情報をアップロードすることも含み得ることが開示されている。
【0218】
選択された泣き声データから決定されたパラメータは、「赤ちゃんは疲れている」、「赤ちゃんはお腹が空いている」、「赤ちゃんはあやす必要がある」、「赤ちゃんはげっぷをする必要がある」、「赤ちゃんは痛みがある」の少なくとも1つの状態の判定が可能にされるように選択されることが開示されていることが述べられている。
【0219】
自動赤ちゃん泣き声判定構成も開示されており、一実施形態では、継続して音響的に赤ちゃんを監視するためのマイクロホン、監視している音声ストリームをデジタルデータのストリームに変換するためのデジタル変換段階、パーソナル赤ちゃんデータ情報を格納するためのメモリ段階、データを集中型サーバー構成に送信するための通信段階を含み、デジタルデータのストリーム内で泣き声の発現を識別するための泣き声識別段階が提供されて、通信段階は、赤ちゃんの泣き声のパーソナライズ判定に関連したデータを集中型サーバー構成から受信するように適合されることに留意されたい。
【0220】
さらに、自動赤ちゃん泣き声判定構成は、1つ以上の以前の判定の正確さに関連したフィードバック情報を得るためのフィードバック構成をさらに含み得、通信段階がフィードバック情報を集中型サーバー構成に送信するために適合されることも開示されている。自動赤ちゃん泣き声判定構成は、ローカル判定段階を含み得、ローカル判定段階は、赤ちゃんの泣き声を、赤ちゃんの泣き声のパーソナライズ判定に関連した集中型サーバー構成から受信したデータを考慮して判定するように適合されることが提案される。自動赤ちゃん泣き声判定構成は、タイマーならびに、パーソナル赤ちゃんデータ情報の現在の年齢および/または、赤ちゃん泣き声の判定前に、集中型サーバーから受信されて、赤ちゃんの泣き声のパーソナライズ判定に関連した、データの年齢または有効性を評価する評価段階を含むことが可能であり、赤ちゃん泣き声判定構成は、その評価に応じて赤ちゃんの泣き声判定を出力するように構成されることに留意されたい。
【0221】
出願のとおりにクレームの従属を考慮して、ある特徴が結合可能であると明示的に開示されているが、本開示を初めに出願されたとおりにクレームで開示されている組合せだけに制限することは意図されない。例えば、添付のクレーム2に従った方法の一実施形態は好ましくあり得、泣き声パターン検出および分離のための畳み込みニューラルネットワークがパーソナライズされておらず、泣き声パターンの検索が泣き声パターンを識別するために畳み込みニューラルネットワークを使用して達成されるが、音声データのスペクトログラム様表現に基づいていない。また、例えば、クレーム5に記載されるようなコンピュータ実装方法を使用すること、識別および分離された泣き声パターン表現などの任意の音声関連データを、年齢、性別、身長、体重、民族性、一人っ子/双子/三つ子、現在の医学的状態、既知の医学的前提条件、特に既知の現在の病気および/もしくは熱、親および/もしくは介護者の言語のうちの少なくとも複数に関連する赤ちゃんデータ情報、と一緒にアップロードすること、ならびに/または、たとえ泣き声パターン検出および分離のための機械学習モデルがパーソナライズされていても、1つ以上の以前の判定の正確さに関連した赤ちゃんデータ情報をアップロードすることが可能であろう。
【国際調査報告】