IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 学校法人立命館の特許一覧

特開2024-76437叫び声検知システム、音声分類方法、及び、音声分類モデルの生成方法
<>
  • 特開-叫び声検知システム、音声分類方法、及び、音声分類モデルの生成方法 図1
  • 特開-叫び声検知システム、音声分類方法、及び、音声分類モデルの生成方法 図2
  • 特開-叫び声検知システム、音声分類方法、及び、音声分類モデルの生成方法 図3
  • 特開-叫び声検知システム、音声分類方法、及び、音声分類モデルの生成方法 図4
  • 特開-叫び声検知システム、音声分類方法、及び、音声分類モデルの生成方法 図5
  • 特開-叫び声検知システム、音声分類方法、及び、音声分類モデルの生成方法 図6
  • 特開-叫び声検知システム、音声分類方法、及び、音声分類モデルの生成方法 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024076437
(43)【公開日】2024-06-06
(54)【発明の名称】叫び声検知システム、音声分類方法、及び、音声分類モデルの生成方法
(51)【国際特許分類】
   G10L 15/10 20060101AFI20240530BHJP
【FI】
G10L15/10 500Z
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022187934
(22)【出願日】2022-11-25
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 公開の事実1:2022年2月23日発行の「2022年春季研究発表会講演論文集」(日本音響学会)に掲載 公開の事実2:2022年3月11日開催の「2022年春季研究発表会」(日本音響学会)にて発表 公開の事実3:2022年8月31日発行の「2022年秋季研究発表会講演論文集」(日本音響学会)に掲載 公開の事実4:2022年9月16日開催の「2022年秋季研究発表会」(日本音響学会)にて発表
(71)【出願人】
【識別番号】593006630
【氏名又は名称】学校法人立命館
(74)【代理人】
【識別番号】100111567
【弁理士】
【氏名又は名称】坂本 寛
(72)【発明者】
【氏名】福森 隆寛
(57)【要約】
【課題】第1状況での第1叫び声を、第1状況とは異なる第2状況での第2叫び声とは区別して検知可能な、叫び声検知システムを提供する。
【解決手段】叫び声検知システム1は、入力音声の特徴量を取得する特徴取得器111と、特徴量に基づいて、入力音声を分類する音声分類モデル116と、を備え、音声分類モデルは、第1状況での第1叫び声を、第1状況とは異なる第2状況での第2叫び声とは区別して分類するよう構成されている。
【選択図】図1
【特許請求の範囲】
【請求項1】
入力音声の特徴量を取得する特徴取得器と、
前記特徴量に基づいて、前記入力音声を分類する音声分類モデルと、
を備え、
前記音声分類モデルは、第1状況での第1叫び声を、前記第1状況とは異なる第2状況での第2叫び声とは区別して分類するよう構成されている
叫び声検知システム。
【請求項2】
前記第1状況は、叫び声が発せられたときの危険度が前記第2状況とは異なる状況である
請求項1に記載の叫び声検知システム。
【請求項3】
前記第1状況は、叫び声が発せられたときの危険度が前記第2状況よりも高い状況である
請求項1に記載の叫び声検知システム。
【請求項4】
前記特徴取得器は、少なくとも、前記入力音声の音声特徴量を取得するよう構成され、
前記音声分類モデルは、少なくとも前記音声特徴量に基づいて、前記第1叫び声を前記第2叫び声とは区別して分類するよう構成されている
請求項1に記載の叫び声検知システム。
【請求項5】
前記特徴取得器は、前記入力音声を音声認識して得られる言語の言語特徴量を更に取得するよう構成され、
前記音声分類モデルは、前記音声特徴量及び前記言語特徴量に基づいて、前記第1叫び声を前記第2叫び声とは区別して分類するよう構成されている
請求項4に記載の叫び声検知システム。
【請求項6】
前記音声分類モデルは、前記第1叫び声と、前記第2叫び声と、平静音声と、を区別して分類するよう構成されている
請求項1に記載の叫び声検知システム。
【請求項7】
前記音声分類モデルは、第1状況での第1叫び声を、前記第1状況とは異なる第2状況での第2叫び声とは区別して分類するための機械学習が行われた学習モデルである
請求項1に記載の叫び声検知システム。
【請求項8】
前記学習モデルは、前記第1状況での叫び声である第1学習用音声及び前記第2状況での叫び声である第2学習用音声を含む複数の学習用音声それぞれの特徴量と、前記複数の学習用音声それぞれの分類と、を学習データとして機械学習されている
請求項7に記載の叫び声検知システム。
【請求項9】
入力音声の特徴量を求め、
前記特徴量に基づいて前記入力音声を分類する音声分類モデルに、前記特徴量を与えて、前記入力音声の分類結果を得る、
ことを備え、
前記音声分類モデルは、第1状況での第1叫び声を、前記第1状況とは異なる第2状況での第2叫び声とは区別して分類するよう構成されている
コンピュータに実装された音声分類方法。
【請求項10】
第1状況での叫び声である第1学習用音声及び前記第1状況とは異なる第2状況での叫び声である第2学習用音声を含む複数の学習用音声それぞれの特徴量と、前記複数の学習用音声それぞれの分類と、を学習データとして機械学習することによって、前記第1状況での叫び声を、前記第2状況での叫び声とは区別して分類するための音声分類モデルを得る、ことを備える
音声分類モデルの生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、叫び声検知システム、音声分類方法、及び、音声分類モデルの生成方法に関する。
【背景技術】
【0002】
特開2011-53557号公報(以下、特許文献1)に開示されているように、従来の検出装置は、受け付けた音声信号が悲鳴であるか否かを検出するものであった。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2011-53557号公報
【発明の概要】
【0004】
人の叫び声には、驚いた状況での叫び声、歓声、助けを求める叫び声、など、状況によって異なる場合がある。しかしながら、特許文献1のような従来の検出装置では、状況の異なる叫び声も一律に「悲鳴」として検出されてしまう。本開示は、第1状況での第1叫び声を、第1状況とは異なる第2状況での第2叫び声とは区別して検知可能な、叫び声検知システム、音声分類方法、及び、音声分類モデルの生成方法を提供することを目的の1つとする。
【0005】
ある実施の形態に従うと、叫び声検知システムは、入力音声の特徴量を取得する特徴取得器と、特徴量に基づいて、入力音声を分類する音声分類モデルと、を備え、音声分類モデルは、第1状況での第1叫び声を、第1状況とは異なる第2状況での第2叫び声とは区別して分類するよう構成されている。
【0006】
ある実施の形態に従うと、音声分類方法は、入力音声の特徴量を求め、特徴量に基づいて入力音声を分類する音声分類モデルに、特徴量を与えて、入力音声の分類結果を得る、ことを備え、音声分類モデルは、第1状況での第1叫び声を、第1状況とは異なる第2状況での第2叫び声とは区別して分類するよう構成されている。
【0007】
ある実施の形態に従うと、音声分類モデルの生成方法は、第1状況での叫び声である第1学習用音声及び第1状況とは異なる第2状況での叫び声である第2学習用音声を含む複数の学習用音声それぞれの特徴量と、複数の学習用音声それぞれの分類と、を学習データとして機械学習することによって、第1状況での叫び声を、第2状況での叫び声とは区別して分類するための音声分類モデルを得る、ことを備える。
【0008】
更なる詳細は、後述の実施形態として説明される。
【図面の簡単な説明】
【0009】
図1図1は、実施の形態に係る叫び声検知システム(以下、システムと略する)の概略図である。
図2図2は、システムの有する、音声分類モデルの生成方法の一例を表した図である。
図3図3は、システムでの叫び声検知方法の流れの一例を表したフローチャートである。
図4図4は、音声分類モデルの生成に用いた、データベースの生成方法の流れの一例を表したフローチャートである。
図5図5は、図4のステップS303の一例を表した図である。
図6図6は、図4のステップS307の一例を表した図である。
図7図7は、図4のステップS309の一例を説明するための図である。
【発明を実施するための形態】
【0010】
<1.叫び声検知システム、音声分類方法、及び、音声分類モデルの生成方法の概要>
【0011】
(1)実施の形態に係る叫び声検知システムは、入力音声の特徴量を取得する特徴取得器と、特徴量に基づいて、入力音声を分類する音声分類モデルと、を備え、音声分類モデルは、第1状況での第1叫び声を、第1状況とは異なる第2状況での第2叫び声とは区別して分類するよう構成されている。
【0012】
第1状況での第1叫び声を、第1状況とは異なる第2状況での第2叫び声とは区別して分類するよう構成されている音声分類モデルを備えることで、入力音声が、第1叫び声と第2叫び声とを区別して分類されるようになる。そのため、本叫び声検知システムを用いることによって、第1状況での第1叫び声を、第1状況とは異なる第2状況での第2叫び声とは区別して検知することが可能になる。
【0013】
(2)好ましくは、第1状況は、叫び声が発せられたときの危険度が第2状況とは異なる状況である。これにより、危険度が異なる叫び声を区別して検知することが可能になる。
【0014】
(3)好ましくは、第1状況は、叫び声が発せられたときの危険度が第2状況よりも高い状況である。これにより、発せられたときの危険度が高い方の叫び声を、低い方の叫び声とは区別して検知することが可能になる。
【0015】
(4)好ましくは、特徴取得器は、少なくとも、入力音声の音声特徴量を取得するよう構成され、音声分類モデルは、少なくとも音声特徴量に基づいて、第1叫び声を第2叫び声とは区別して分類するよう構成されている。これにより、入力音声の音声特徴量を用いて、第1状況での第1叫び声を、第1状況とは異なる第2状況での第2叫び声とは区別して検知することが可能になる。
【0016】
(5)好ましくは、特徴取得器は、入力音声を音声認識して得られる言語の言語特徴量を更に取得するよう構成され、音声分類モデルは、音声特徴量及び言語特徴量に基づいて、第1叫び声を第2叫び声とは区別して分類するよう構成されている。これにより、入力音声の音声特徴量と言語特徴量との両方を用いて、第1状況での第1叫び声を、第1状況とは異なる第2状況での第2叫び声とは区別して検知することが可能になる。そのため、検知精度を向上させることができる。
【0017】
(6)好ましくは、音声分類モデルは、第1叫び声と、第2叫び声と、平静音声と、を区別して分類するよう構成されている。これにより、第1叫び声と、第2叫び声と、平静音声と、を区別して検知することが可能になる。
【0018】
(7)好ましくは、音声分類モデルは、第1状況での第1叫び声を、第1状況とは異なる第2状況での第2叫び声とは区別して分類するための機械学習が行われた学習モデルである。これにより、音声分類モデルは、第1状況での第1叫び声を、第1状況とは異なる第2状況での第2叫び声とは区別して分類することができる。
【0019】
(8)好ましくは、学習モデルは、第1状況での叫び声である第1学習用音声及び第2状況での叫び声である第2学習用音声を含む複数の学習用音声それぞれの特徴量と、複数の学習用音声それぞれの分類と、を学習データとして機械学習されている。これにより、音声分類モデルは、第1状況での第1叫び声を、第1状況とは異なる第2状況での第2叫び声とは区別して分類することができる。
【0020】
(9)実施の形態に係る音声分類方法はコンピュータに実装された音声分類方法であって、入力音声の特徴量を求め、特徴量に基づいて入力音声を分類する音声分類モデルに、特徴量を与えて、入力音声の分類結果を得る、ことを備え、音声分類モデルは、第1状況での第1叫び声を、第1状況とは異なる第2状況での第2叫び声とは区別して分類するよう構成されている。この方法によって、第1状況での第1叫び声を、第1状況とは異なる第2状況での第2叫び声とは区別して検知することが可能になる。
【0021】
(10)実施の形態に係る音声分類モデルの生成方法は、第1状況での叫び声である第1学習用音声及び第1状況とは異なる第2状況での叫び声である第2学習用音声を含む複数の学習用音声それぞれの特徴量と、複数の学習用音声それぞれの分類と、を学習データとして機械学習することによって、第1状況での叫び声を、第2状況での叫び声とは区別して分類するための音声分類モデルを得る、ことを備える。この生成方法によって、第1状況での叫び声を、第2状況での叫び声とは区別して分類するための音声分類モデルが得られる。その音声分類モデルを用いることにより、第1状況での第1叫び声を、第1状況とは異なる第2状況での第2叫び声とは区別して検知することが可能になる。
【0022】
<2.叫び声検知システム、音声分類方法、及び、音声分類モデルの生成方法の例>
【0023】
図1は、本実施の形態に係る叫び声検知システム(以下、システムと略する)1の概略図である。システム1は、一例として、プロセッサ11とメモリ12とを有するコンピュータで構成されている。コンピュータは、例えば、スマートフォンやマイクなどに搭載されているものであってもよい。システム1は、複数のコンピュータが協働して実現されるものであってもよい。
【0024】
プロセッサ11は、例えば、CPU(Central Processing Unit)である。メモリ12は、フラッシュメモリ、EEPROM(Electrically Erasable and Programmable Read Only Memory)、ROM(Read Only Memory)、RAM(Random Access Memory)などを含む。または、メモリ12は、一次記憶装置であってもよいし、二次記憶装置であってもよい。
【0025】
メモリ12は、プロセッサ11で実行されるコンピュータプログラム(以下、プログラム)121を記憶している。プロセッサ11は、プログラム121を実行することによって、叫び声を検知する処理を実行する。
【0026】
システム1は、音声の入力機に接続されて、入力音声を得る。音声の入力機は、一例としてマイク3である。マイク3による入力音声は、音声データとしてプロセッサ11に入力される。プロセッサ11は、音声データを用いてプログラム121に従う処理を実行することで、叫び声を検知する。
【0027】
システム1は、出力装置に接続されて、検知結果を出力する。出力装置は、例えば、ディスプレイなどの表示装置であってもよいし、スピーカなどの音声出力装置であってもよい。
【0028】
プロセッサ11は、プログラム121を実行することによって特徴取得器111として機能する。特徴取得器111は、マイク3からの音声データに対して処理を行い、入力音声の特徴量を取得する。
【0029】
特徴取得器111は、入力音声の音声特徴量を取得するよう構成されている。すなわち、特徴取得器111として機能するプロセッサ11は、音声データに対して音声特徴量取得処理112を実行する。音声特徴量取得処理112によって得られる音声特徴量は一般的な音声特徴量であってよく、例えば、スペクトログラム、ケプストログラム、及び、これらの組み合わせ、などであってよい。
【0030】
特徴取得器111は、入力音声を音声認識して得られる言語の言語特徴量を取得するよう構成されている。すなわち、特徴取得器111として機能するプロセッサ11は、音声データに対して言語特徴量取得処理113を実行する。
【0031】
言語特徴量取得処理113は、音声認識処理114を含む。すなわち、プロセッサ11は言語特徴量取得処理113を実行する際に、音声認識処理114を実行する。音声認識処理114は、入力音声の音声データをテキスト情報に変換し、単語データを得ることを含む。従って、プロセッサ11は、入力音声からテキストで表された単語データを得る。
【0032】
言語特徴量取得処理113は、数値変換処理115を含む。すなわち、プロセッサ11は言語特徴量取得処理113を実行する際に、数値変換処理115を実行する。数値変換処理115は、音声認識処理114によって得られた単語データを数値に変換することを含む。プロセッサ11は、数値変換処理115によって得られた数値を、入力音声の言語特徴値として取得する。
【0033】
数値変換処理115は、単語埋め込みを行って、入力音声の有する文や単語、文字など自然言語の構成要素に対して、何らかの空間におけるベクトルを与えることを指す。数値変換処理115は、一般的な単語埋め込みの手法であってよく、例えば、BERT(Bidirectional Encoder Representations from Transformers)などであってよい。
【0034】
プロセッサ11は、特徴量に基づいて入力音声を分類する音声分類モデル116を有する。音声分類モデル116は、第1状況での第1叫び声を、第1状況とは異なる第2状況での第2叫び声とは区別して分類するよう構成されているモデルである。好ましくは、音声分類モデル116は、第1叫び声と、第2叫び声と、平静音声と、を区別して分類するよう構成されている。
【0035】
第1状況は、叫び声が発せられたときの危険度が第2状況とは異なる状況である。一例として、第1状況は、叫び声が発せられたときの危険度が第2状況よりも高い状況である。この場合、第1状況は危険度が高い状況を指し、第1叫び声は危険度が高い状況で発せられた叫び声である。第1叫び声は、例えば、悲鳴や助けを求める叫び声などである。第2状況は危険度が低い状況を指し、第2叫び声は危険度が低い状況で発せられた叫び声である。第2叫び声は、例えば、驚いた声や歓声などである。音声分類モデル116は、危険度が高い状況(第1状況)で発せられた叫び声(第1叫び声)と、危険度が低い状況(第2状況)で発せられた叫び声(第2叫び声)とを分類する。さらに、好ましくは、音声分類モデル116は、第1叫び声と、第2叫び声と、平静音声と、を分類する。
【0036】
音声分類モデル116は、少なくとも音声特徴量に基づいて、第1叫び声を第2叫び声とは区別して分類するよう構成されている。好ましくは、音声分類モデル116は、音声特徴量及び言語特徴量に基づいて、第1叫び声を第2叫び声とは区別して分類するよう構成されている。一例として、音声分類モデル116は、第1状況での第1叫び声を、第1状況とは異なる第2状況での第2叫び声とは区別して分類するための機械学習が行われた学習モデルである。
【0037】
図2は、音声分類モデル116の生成方法の一例を表した図である。音声分類モデル116の生成方法は、適したデータを学習データTとして音声分類モデル116に与えて機械学習すること(ステップS103)、を有する。学習データTは、複数の学習用音声それぞれについての、特徴量を示す入力データINと、その音声データの分類を示す出力データOUとの対で構成されている。複数の学習用音声は、第1状況での叫び声である第1学習用音声AU1、及び、第2状況での叫び声である第2学習用音声AU2、を含む。好ましくは、複数の学習用音声は、さらに、平静音声である第3学習用音声AU3を含む。
【0038】
特徴量を示す入力データINは、学習用音声の少なくとも音声特徴量を含む。これにより、音声分類モデル116は、入力音声から得られた音声特徴量を入力することで、入力音声の分類を出力するよう構成される。
【0039】
好ましくは、特徴量を示す入力データINは、学習用音声の音声特徴量と言語特徴量とを含む。これにより、音声分類モデル116は、入力音声から得られた音声特徴量と言語特徴量とを入力することで、入力音声の分類を出力するよう構成される。そのため、高精度の分類が出力されるようになる。
【0040】
一例として、第1学習用音声AU1についての学習データTは、第1学習用音声AU1から得られた音声特徴量である第1音声特徴量IN11、及び、言語特徴量である第1言語特徴量IN21からなる入力データINと、第1叫び声、つまり、危険度が高い状況(第1状況)で発せられた叫び声であることを示す分類である出力データOU1と、の対で構成される。第2学習用音声AU2についての学習データTは、第2学習用音声AU2から得られた音声特徴量である第2音声特徴量IN12、及び、言語特徴量である第2言語特徴量IN22からなる入力データINと、第2叫び声、つまり、危険度が低い状況(第2状況)で発せられた叫び声であることを示す分類である出力データOU2と、の対で構成される。第3学習用音声AU3についての学習データTは、第3学習用音声AU3から得られた音声特徴量である第3音声特徴量IN13、及び、言語特徴量である第3言語特徴量IN23からなる入力データINと、第3叫び声、つまり、平静音声であることを示す分類である出力データOU3と、の対で構成される。
【0041】
図2に示された生成方法によって生成されることによって、音声分類モデル116は、第1叫び声を、第2叫び声とは区別して分類するための音声分類モデルとして構成されるようになる。
【0042】
プロセッサ11は、プログラム121を実行することによって音声検知器117として機能する。音声検知器117は、入力音声を分類し、特定の音声であること、又は、特定の音声でないことを検知することを含む。入力音声を分類することは、入力音声について特徴取得器111によって得られた音声特徴量及び言語特徴量を音声分類モデル116に入力し、音声分類モデル116から出力される入力音声の分類を得ることを含む。
【0043】
検知することは、音声分類モデル116から得られた分類が、検知対象の分類であるか否かを判定すること、を含む。例えば、第1叫び声が検知対象として規定されていた場合、音声検知器117として機能するプロセッサ11は、音声分類モデル116から得られた分類が第1叫び声であったときに入力音声が第1叫び声であることを検知する。これにより、入力音声が悲鳴や助けを求める叫び声など危険度が高い状況で発生された音声であることが検知される。また、他の例として、第2叫び声が検知対象として規定されていた場合、音声検知器117として機能するプロセッサ11は、音声分類モデル116から得られた分類が第2叫び声であったときに入力音声が第2叫び声であることを検知する。これにより、入力音声が驚いた声や歓声など危険度が低い状況で発生された音声であることが検知される。
【0044】
好ましくは、音声検知器117として機能するプロセッサ11は、検知結果を出力装置5に出力させる。一例として、第1叫び声が検知対象として規定され、入力音声が第1叫び声であることを検知した場合に、その旨を出力装置5から出力させる。これにより、システム1のユーザは、入力音声が検知対象の音声であるか否かを知ることができる。
【0045】
図3は、システム1での叫び声検知方法の流れの一例を表したフローチャートである。システム1のプロセッサ11は、マイク3などの音声入力装置から入力音声の音声データの入力を受け付けると(ステップS201)、音声特徴量と言語特徴量とのそれぞれを取得する。すなわち、プロセッサ11は、音声データからスペクトログラム、ケプストログラムなどの特徴量を抽出することで(ステップS203)、音声特徴量を取得する(ステップS205)。また、プロセッサ11は、音声データに対して音声認識処理を実行してテキスト情報に変換して単語データを得(ステップS207)、単語埋め込みを行って数値化することによって言語特徴量を取得する(ステップS209)。
【0046】
プロセッサ11は、ステップS205で得られた音声特徴量と、ステップS209で得られた言語特徴量とを音声分類モデル116に入力して(ステップS211)、音声分類モデル116から分類の出力を得る(ステップS213)。音声分類モデル116は、入力された音声特徴量と言語特徴量とから、第1状況での第1叫び声を、第1状況とは異なる第2状況での第2叫び声とは区別して分類する。以上のステップS203~S213が、本システム1での音声分類方法である。
【0047】
プロセッサ11は、ステップS213で得られた分類が検出対象として規定された特定の音声である場合(ステップS215でYES)、入力音声が検知対象の音声であったことの検知結果を出力装置5にて報知させる(ステップS217)。そうでない場合、プロセッサ11は、報知を行わなくてもよいし、入力音声が検知対象の音声でなかったことの検知結果を出力装置5にて報知させてもよい。
【0048】
システム1は、一連の動作を、音声が入力される度に行ってもよい。その場合、例えばシステム1がスマートフォンや監視カメラなどに搭載されているときには、第1叫び声を検知対象とすると、危険度の高い叫び声をそうでない叫び声から区別して検知することができる。これにより、監視システムや警報システムなどに好適に用いることができる。
【0049】
他の例として、システム1は、予め録音された音声に対して一連の動作を行ってもよい。その場合、例えば、第2叫び声を検知対象とすると、会議やイベントなどにおける盛り上がりの声を、そうでない叫び声や平静音声から区別して検知することができる。これにより、分析システムなどに好適に用いることができる。
【0050】
なお、図2の音声分類モデル116の生成方法において、好ましくは、学習データTは、データベース100に記憶されている音声データが用いられる(ステップS101)。データベース100は、複数の音声データを、その分類とともに記憶している。複数の音声データは、第1状況での叫び声、第2状況での叫び声、及び、平静音声を含み、それぞれ、第1状況での叫び声、第2状況での叫び声、及び、平静音声を示す分類が対応付けられている。
【0051】
図4は、データベース100の生成方法の流れの一例を表したフローチャートである。初めに、データベース100に登録する音声のセリフを決定する(ステップS301)。好ましくは、ステップS301で、台詞に、母音を含める。
【0052】
次に、台詞ごとに、台詞に応じた危険度を付与する(ステップS303)。台詞の危険度は、その台詞が生じ得る場面の危険度を指す。
【0053】
図5は、ステップS303の一例を表した図である。ステップS303では、ステップS301で決定された複数の台詞101に対して、予め規定された危険度を台詞に対して付与する。一例として、ステップS303では、「母音」である第1の危険度L1、「危険度が高い/低いのどちらにも該当する」第2の危険度L2、「危険度が低い」第3の危険度L3、及び、「危険度が高い」第4の危険度L4の4種類の危険度を台詞に対して付与する。図5の例では、台詞ナンバー1~50それぞれの台詞のうち、台詞ナンバー1~5について第1の危険度L1、台詞ナンバー6~10について第2の危険度L2、台詞ナンバー11~30について第3の危険度L3、及び、台詞ナンバー31~50について第4の危険度L4が付与されている。
【0054】
好ましくは、ステップS303では、複数人それぞれの主観で各台詞に危険度を付与し、その最大数などの統計値に基づいて台詞ごとの危険度を決定する。一例として、台詞数は50程度が想定される。
【0055】
次に、台詞ごとに、同一条件下において、様々な状況を想定して発声し、それを録音するなどして音声データを生成する(ステップS305)。好ましくは、年齢や性別の異なる複数の発話者によって同一の台詞を異なる状況(例えば、平静音声と叫び声と)で発声し、録音する。これにより、様々な状況下で発声された音声データがデータベース100に記憶されるようになる。一例として、ステップS305では各台詞を50人が平静音声と叫び声との2種類で発話して合計5000の音声データを得、その内の叫び声2500の音声データを用いる。
【0056】
次に、各音声データを視聴することで、各音声データに叫び強度を付与する(ステップS307)。叫び強度は、音声から受ける叫び声の強度を指し、音量が大きかったり音程が高かったりするほど発声の勢いが強く、叫び強度が強い。
【0057】
ステップS307では、一例として、全く叫び声ではない叫び強度から非常に強い叫び強度まで7段階で叫び強度を付与する。好ましくは、複数の評価者がそれぞれ音声を視聴し、主観で各音声に叫び強度を付与し、その最大数などの統計値に基づいて音声ごとの叫び強度を決定する。一例として、音声ごとに10評価者程度による評価値の平均値によって叫び強度を決定することが想定される。
【0058】
図6は、ステップS307の一例を表した図である。図6は、縦軸が台詞ナンバーを表し、横軸が叫び強度を表しており、図中の点が、各音声データを示している。図6の例では、台詞ナンバー1~50の台詞ごとの50の音声データそれぞれについて、10評価者程度による評価値の平均値による叫び声の強度が付与されている。
【0059】
ステップS303で台詞に付与された危険度と、ステップS307で音声に付与された叫び強度とを用いて、音声データそれぞれの分類を決定する(ステップS309)。図7は、ステップS309の一例を説明するための図である。図7は、台詞に付与された危険度を第1のパラメータとして横軸で表し、叫び強度を第2のパラメータとして縦軸で表している。図7の点は、各音声データを第1のパラメータと第2のパラメータとで表した位置を示している。
【0060】
図7のエリアA1は、台詞に付与された危険度が高く、かつ、叫び強度が大きい。従って、エリアA1に存在する音声データは、危険度の高い台詞が叫び強度の大きい音声で発声されたものである。エリアA2は、台詞に付与された危険度が低く、かつ、叫び強度が大きい。従って、エリアA2に存在する音声データは、危険度の低い台詞が叫び強度の大きい音声で発声されたものである。エリアA3は、台詞に付与された危険度が低く、かつ、叫び強度が小さい。従って、エリアA3に存在する音声データは、危険度の低い台詞が叫び強度の小さい音声で発声されたものである。エリアA4は、台詞に付与された危険度が高く、かつ、叫び強度が小さい。従って、エリアA4に存在する音声データは、危険度の高い台詞が叫び強度の小さい音声で発声されたものである。
【0061】
各音声データの存在するエリアより、音声データそれぞれの分類が決定される。すなわち、エリアA1の音声データは、危険度が高い状況で発せられた叫び声、つまり、第1状況での第1叫び声であり、エリアA2の音声データは、危険度が低い状況で発せられた叫び声、つまり、第2叫び声であり、エリアA3及びエリアA4の音声データは、平静音声である、と分類を決定することができる。
【0062】
上記のように学習されることによって、音声分類モデル116は、第1叫び声を第2叫び声とは区別して分類することが可能になる。システム1では、第1叫び声を第2叫び声とは区別して分類するよう構成されている音声分類モデル116を用いて音声データを分類することによって、第1叫び声と第2叫び声とを区別して検知することが可能になる。そのため、例えば、驚いた状況での叫び声、歓声などを悲鳴のような第1叫び声として一律に検知されることを防止できる。また、悲鳴のような第1叫び声ではなく驚いた状況での叫び声、歓声などの第2叫び声を検知することもできる。
【0063】
その際に、上記のようにして生成されたデータベース100を用いることで、音声分類モデル116を精度よく学習させることができる。
【0064】
<3.付記>
本発明は、上記実施形態に限定されるものではなく、様々な変形が可能である。
【符号の説明】
【0065】
1 :システム
3 :マイク
5 :出力装置
11 :プロセッサ
12 :メモリ
100 :データベース
101 :台詞
111 :特徴取得器
112 :音声特徴量取得処理
113 :言語特徴量取得処理
114 :音声認識処理
115 :数値変換処理
116 :音声分類モデル
117 :音声検知器
121 :プログラム
A1 :エリア
A2 :エリア
A3 :エリア
A4 :エリア
AU1 :第1学習用音声
AU2 :第2学習用音声
AU3 :第3学習用音声
IN :入力データ
IN11 :第1音声特徴量
IN12 :第2音声特徴量
IN13 :第3音声特徴量
IN21 :第1言語特徴量
IN22 :第2言語特徴量
IN23 :第3言語特徴量
L1 :第1の危険度
L2 :第2の危険度
L3 :第3の危険度
L4 :第4の危険度
OU :出力データ
OU1 :出力データ
OU2 :出力データ
OU3 :出力データ
T :学習データ
図1
図2
図3
図4
図5
図6
図7