(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-28
(45)【発行日】2024-03-07
(54)【発明の名称】異常音検知装置及びそのプログラム
(51)【国際特許分類】
G10L 25/51 20130101AFI20240229BHJP
G10L 25/18 20130101ALI20240229BHJP
G10L 25/21 20130101ALI20240229BHJP
G10L 25/27 20130101ALI20240229BHJP
H04H 20/12 20080101ALI20240229BHJP
【FI】
G10L25/51
G10L25/18
G10L25/21
G10L25/27
H04H20/12
(21)【出願番号】P 2020070171
(22)【出願日】2020-04-09
【審査請求日】2023-03-08
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】110001807
【氏名又は名称】弁理士法人磯野国際特許商標事務所
(72)【発明者】
【氏名】古屋 琴子
(72)【発明者】
【氏名】松田 隆弘
【審査官】菊池 智紀
(56)【参考文献】
【文献】米国特許出願公開第2012/0185418(US,A1)
【文献】特開2018-141854(JP,A)
【文献】特開2011-147127(JP,A)
【文献】実開平05-043634(JP,U)
【文献】特開2008-079164(JP,A)
【文献】特開2020-036265(JP,A)
【文献】NARONGLERDRIT, Prasitthichai et al.,"Monitoring of Indoors Human Activities using Mobile Phone Audio Recordings",Proc. of the IEEE 13th International Colloquium on Signal Processing & its Applications,2017年03月10日,pp.23-28
【文献】伊藤彰則,"環境音から異常を検知する統計的手法",日本音響学会誌,2019年09月01日,Vol.75, No.9,pp.538-543
(58)【調査した分野】(Int.Cl.,DB名)
G10L 25/00-25/93
H04H 20/12
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
音声信号に含まれる異常音を検知する異常音検知装置であって、
前記音声信号から、周波数知覚特性に関する音響特徴量と音階情報に関する音響特徴量とを算出する音響特徴量算出手段と、
前記音声信号のレベルが適正であるか否かを検知する音声信号レベル検知手段と、
前記音声信号に単一周波数信号が含まれるか否かを検知する単一周波数信号検知手段と、
前記周波数知覚特性に関する音響特徴量及び前記音階情報に関する音響特徴量を予め学習した学習モデルを用いて、前記音声信号に音声歪みが含まれる確率を示す予測値を算出する予測値算出手段と、
前記予測値算出手段が算出した予測値に基づいて、前記音声信号に前記音声歪みが含まれるか否かを検知する音声歪み検知手段と、
前記音声信号レベル検知手段、前記単一周波数信号検知手段及び前記音声歪み検知手段の検知結果に基づいて、前記音声信号に前記異常音が含まれるか否かを検知する異常音検知手段と、
を備えることを特徴とする異常音検知装置。
【請求項2】
前記音響特徴量算出手段は、
前記周波数知覚特性に関する音響特徴量として、前記音声信号からメル周波数スペクトル及びメル周波数ケプストラム係数を算出し、
前記音階情報に関する音響特徴量として、前記音声信号からクロマグラムを算出し、
前記音声信号のレベルの二乗平均平方根と、前記音声信号のスペクトル重心とをさらに算出し、
前記音声信号レベル検知手段は、
前記音声信号のレベルの二乗平均平方根が予め設定された適正レベルの範囲内であるか否かを検知し、
前記単一周波数信号検知手段は、
前記音声信号のスペクトル重心が予め設定された第1閾値を超え、かつ、前記音声信号のスペクトル重心の分散が予め設定された第2閾値未満の場合、前記音声信号に前記単一周波数信号が含まれると検知し、
前記予測値算出手段は、
前記メル周波数スペクトル、前記メル周波数ケプストラム係数及び前記クロマグラムを予め学習した前記学習モデルを用いることを特徴とする請求項1に記載の異常音検知装置。
【請求項3】
前記異常音検知手段は、前記音声信号のレベルが不適正な場合、前記音声信号に前記単一周波数信号が含まれる場合、又は、前記音声信号に前記音声歪みが含まれる場合の何れかにおいて、前記音声信号に前記異常音が含まれると検知することを特徴とする請求項1又は請求項2に記載の異常音検知装置。
【請求項4】
前記音響特徴量算出手段は、2系統の前記音声信号が入力され、入力された各系統の前記音声信号から、前記周波数知覚特性に関する音響特徴量と前記音階情報に関する音響特徴量とを算出し、
前記音声信号レベル検知手段は、各系統の前記音声信号のレベルが適正であるか否かを検知し、
前記単一周波数信号検知手段は、各系統の前記音声信号に前記単一周波数信号が含まれるか否かを検知し、
前記予測値算出手段は、前記学習モデルを用いて、各系統の前記音声信号から前記予測値を算出し、
前記音声歪み検知手段は、各系統の前記音声信号に前記音声歪みが含まれるか否かを検知し、
前記異常音検知手段は、各系統の前記音声信号に前記異常音が含まれるか否かを検知し、
前記異常音検知手段の検知結果に基づいて、2系統の前記音声信号の切り替え制御を行う切替制御手段、をさらに備えることを特徴とする請求項1から請求項3の何れか一項に記載の異常音検知装置。
【請求項5】
コンピュータを、請求項1から請求項4の何れか一項に記載の異常音検知装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声信号に含まれる異常音を検知する異常音検知装置及びそのプログラムに関する。
【背景技術】
【0002】
従来より、ラジオ放送等の音声放送における異常音を検知する音声自動モニタが知られている(例えば、特許文献1)。この従来手法は、入力された2つの音声信号レベルを比較することで、放送装置の故障を検知するものである。そして、従来手法では、2つの音声信号レベルが不一致の場合、警報を出力すると共に、本番系から予備系への切換えを行う。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1に記載の手法では、音声放送としてふさわしくない単一周波数信号(テスト信号)や信号対雑音比が低い音声信号が混入した場合でも、その音声信号のレベル自体に問題が無いため、異常を検知することができない。
【0005】
なお、単一周波数信号とは、放送装置を保守点検するためのテスト信号のことであり、例えば、周波数が1kHzで一定の信号である。この単一周波数信号を放送装置に入力する際、自動で切り替わらないようにする「保守ボタン」を押すことになっている。ここで、「保守ボタン」を押し忘れた場合、音声自動モニタがレベルの高い単一周波数信号を正常な音声信号と誤判定し、この単一周波数信号に切り替えて放送する事故につながってしまう。
【0006】
そこで、本発明は、音声信号に含まれる様々な異常音を検知できる異常音検知装置及びそのプログラムを提供することを課題とする。
【課題を解決するための手段】
【0007】
前記課題を解決するため、本発明に係る異常音検知装置は、音声信号に含まれる異常音を検知する異常音検知装置であって、音響特徴量算出手段と、音声信号レベル検知手段と、単一周波数信号検知手段と、予測値算出手段と、音声歪み検知手段と、異常音検知手段と、を備える構成とした。
【0008】
かかる構成によれば、音響特徴量算出手段は、音声信号から、周波数知覚特性に関する音響特徴量と音階情報に関する音響特徴量とを算出する。
また、音声信号レベル検知手段は、音声信号のレベルが適正であるか否かを検知する。
そして、単一周波数信号検知手段は、音声信号に単一周波数信号が含まれるか否かを検知する。
さらに、予測値算出手段は、周波数知覚特性に関する音響特徴量及び音階情報に関する音響特徴量を予め学習した学習モデルを用いて、音声信号に音声歪みが含まれる確率を示す予測値を算出する。
【0009】
また、音声歪み検知手段は、予測値算出手段が算出した予測値に基づいて、音声信号に音声歪みが含まれるか否かを検知する。
そして、異常音検知手段は、音声信号レベル検知手段、単一周波数信号検知手段及び音声歪み検知手段の検知結果に基づいて、音声信号に異常音が含まれるか否かを検知する。
このように、異常音検知装置は、音声信号のレベルだけでなく、単一周波数信号や音声歪みに起因する異常音も検知することができる。
【0010】
なお、本発明は、コンピュータを、前記した異常音検知装置として機能させるためのプログラムで実現することもできる。
【発明の効果】
【0011】
本発明によれば、音声信号に含まれる様々な異常音を検知することができる。
【図面の簡単な説明】
【0012】
【
図1】実施形態に係る自動音声モニタの構成を示すブロック図である。
【
図2】(a)は一般的な音声信号のスペクトル重心を示すグラフであり、(b)は単一周波数信号のスペクトル重心を示すグラフである。
【
図3】実施形態において、学習データを説明する説明図である。
【
図4】実施形態における音声歪みの検知を説明する説明図であり、(a)は学習モデルに入力する音響特徴量を示し、(b)は学習モデルから取得した予測値を示し、(c)は音声歪みの検知結果を示す。
【
図5】実施形態に係る自動音声モニタの動作を示すフローチャートである。
【
図6】実施例において、予測値算出手段及び音声歪み検知手段の評価結果を説明する説明図である。
【発明を実施するための形態】
【0013】
以下、本発明の実施形態について図面を参照して説明する。但し、以下に説明する実施形態は、本発明の技術思想を具体化するためのものであって、特定的な記載がない限り、本発明を以下のものに限定しない。
【0014】
図1に示すように、自動音声モニタ(異常音検知装置)1は、ラジオ放送において、本番系及び予備系からなる2系統の音声信号が入力され、入力された各系統の音声信号に含まれる異常音を検知するものである。そして、自動音声モニタ1は、本番系の音声信号に異常音が含まれており、かつ、予備系の音声信号に異常音が含まれない場合、本番系の音声信号から予備系の音声信号への切り替えを制御盤2に指令する。
【0015】
なお、本番系の音声信号とは、実際にラジオ放送されている音声信号のことである。また、予備系の音声信号とは、本番系の音声信号に何らかの異常が発生したときに切り替えて放送するための音声信号のことである。ここで、自動音声モニタ1には、2系統の音声信号が監視用音声信号(2系統分)として入力される。また、制御盤2には、2系統の音声信号が放送用音声信号(2系統分)として入力される。
【0016】
制御盤2は、自動音声モニタ1からの切替指令に従って、2系統の音声信号を切り替え出力するものである。つまり、制御盤2は、自動音声モニタ1から切り替えが指令された場合、本番系の音声信号を予備系の音声信号に切り替える。
【0017】
[自動音声モニタの構成]
以下、自動音声モニタ1の構成について詳細に説明する。
図1に示すように、自動音声モニタ1は、音響特徴量算出手段10と、音声信号レベル検知手段20と、単一周波数信号検知手段30と、予測値算出手段40と、音声歪み検知手段50と、異常音検知手段60と、切替制御手段70とを備える。
【0018】
音響特徴量算出手段10は、入力された音声信号から、周波数知覚特性に関する音響特徴量と音階情報に関する音響特徴量とを算出するものである。ここで、音響特徴量算出手段10は、周波数知覚特性に関する音響特徴量として、音声信号からメル周波数スペクトル(mel spectrogram)、及び、メル周波数ケプストラム係数(mel frequency cepstrum coefficients)を算出する。また、音響特徴量算出手段10は、音階情報に関する音響特徴量として、音声信号からクロマグラム(chromagram)を算出する。さらに、音響特徴量算出手段10は、音声信号レベルの二乗平均平方根(root mean square)と、音声信号のスペクトル重心(spectral centroid)とを算出する。このとき、音響特徴量算出手段10は、所定の設定時間(例えば、データサンプル数512以上)における音声信号レベルの二乗平均平方根を算出することとする。
【0019】
なお、音響特徴量算出手段10は、2系統の音声信号のそれぞれから、音響特徴量(メル周波数スペクトル、メル周波数ケプストラム係数、クロマグラム、二乗平均平方根、スペクトル重心)を算出する。そして、音響特徴量算出手段10は、各系統の音声信号レベルの二乗平均平方根を音声信号レベル検知手段20に出力する。また、音響特徴量算出手段10は、各系統の音声信号のスペクトル重心を単一周波数信号検知手段30に出力する。また、音響特徴量算出手段10は、各系統の音声信号のメル周波数スペクトル、メル周波数ケプストラム係数及びクロマグラムを予測値算出手段40に出力する。
【0020】
音声信号レベル検知手段20は、音声信号レベルが適正であるか否かを検知するものである。具体的には、音声信号レベル検知手段20は、以下の式(1)に示すように、音響特徴量算出手段10から入力された音声信号レベルの二乗平均平方根LVRMSが、予め設定された適正レベルの範囲内であるか否かを検知する。この式(1)では、LVMINが適正レベルの最低値を表し、LVMAXが適正レベルの最大値を表す。この最低値LVMIN及び最大値LVMAXは、任意の値で予め設定しておく(例えば、最低値LVMIN=-55dBm、最大値LVMAX=-24dBm)。
LVMIN≦LVRMS≦LVMAX …式(1)
【0021】
ここで、音声信号レベル検知手段20は、式(1)を満たす場合、音声信号レベルが適正であることを示す正常“0”を音声信号レベルの検知結果として異常音検知手段60に出力する。一方、音声信号レベル検知手段20は、前記した式(1)を満たさない場合、音声信号レベルが不適正であることを示す異常“1”を音声信号レベルの検知結果として異常音検知手段60に出力する。
【0022】
なお、音声信号レベル検知手段20は、前記した手法を用いて、2系統の音声信号のそれぞれが適正レベルの範囲内であるか否かを検知する。そして、音声信号レベル検知手段20は、音声信号の系統毎に音声信号レベルの検知結果を異常音検知手段60に出力する。
【0023】
単一周波数信号検知手段30は、音声信号に単一周波数信号が含まれるか否かを検知するものである。
図2(a)に示すように、通常の音声信号では、そのスペクトル重心が一定とならない。その一方、
図2(b)に示すように、単一周波数信号では、その周波数及びレベルが一定のため、スペクトル重心も一定となる。そこで、単一周波数信号検知手段30は、音響特徴量算出手段10から入力された音声信号のスペクトル重心に基づいて、単一周波数信号が含まれるか否かを検知することとした。
【0024】
具体的には、単一周波数信号検知手段30は、以下の式(2)に示すように、音声信号のスペクトル重心Centroidが第1閾値TH1を超え、かつ、音声信号のスペクトル重心の分散σ2が第2閾値未満TH2の場合、音声信号に単一周波数信号が含まれると検知する。この第1閾値TH1及び第2閾値TH2は、任意の値で予め設定しておく(例えば、第1閾値TH1=1、第2閾値TH2=0.02)。
Centroid>TH1 and σ2<TH2 …式(2)
【0025】
ここで、単一周波数信号検知手段30は、式(2)を満たさない場合、音声信号に単一周波数信号が含まれないことを示す正常“0”を単一周波数信号の検知結果として異常音検知手段60に出力する。一方、単一周波数信号検知手段30は、式(2)を満たす場合、音声信号に単一周波数信号が含まれることを示す異常“1”を単一周波数信号の検知結果として異常音検知手段60に出力する。
【0026】
なお、単一周波数信号検知手段30は、前記した手法を用いて、2系統の音声信号のそれぞれに単一周波数信号が含まれるか否かを検知する。そして、単一周波数信号検知手段30は、音声信号の系統毎に単一周波数信号の検知結果を異常音検知手段60に出力する。
【0027】
予測値算出手段40は、周波数知覚特性に関する音響特徴量及び音階情報に関する音響特徴量を予め学習した学習モデルを用いて、音声信号に音声歪みが含まれる確率を示す予測値を算出するものである。
音声歪み検知手段50は、予測値算出手段40から入力された予測値に基づいて、音声信号に音声歪みが含まれるか否かを検知するものである。
【0028】
<学習モデルの生成手法>
図3を参照し、予測値算出手段40による学習モデルの生成手法について説明する。
学習モデルは、音響特徴量として、メル周波数スペクトル、メル周波数ケプストラム係数及びクロマグラムを機械学習することで生成したものである。例えば、同一の音源素材から、音声歪みが含まれない正常音声信号と、人為的に発生させた音声歪みが含まれる異常音声信号とを生成する。そして、
図3に示すように、正常音声信号及び異常音声信号のそれぞれから、各時刻のメル周波数スペクトル(mel)、メル周波数ケプストラム係数(mfcc)、クロマグラム(chr)を算出し、これら多次元の音響特徴量を学習データとする。
【0029】
また、
図3の学習データには、主観評価実験により求めた設定値が含まれている。この設定値は、人間に正常な音声又は異常な音声として認識されたことを示す。つまり、設定値は、音声歪みが含まれない正常音声信号“0”、音声歪みが含まれる異常音声信号“1”を示す。
【0030】
なお、
図3では、図面を見やすくするために、音響特徴量を3次元データとして図示したが、実際には、より多次元の音響特徴量であることが多い。例えば、学習データには、128次元のメル周波数スペクトル、128次元のメル周波数ケプストラム係数、12次元のクロマグラムからなる268次元の音響特徴量が含まれている(不図示)。
【0031】
また、機械学習の手法は任意であり、例えば、DataRobotのような機械学習プラットフォームを利用できる(参考文献1)。このDataRobotには、100種類以上のアルゴリズムがビルトインされており、複数の学習モデルを同時並行で学習可能であり、効率的に最適な学習モデルを生成できる。
参考文献1:DataRobot、[online]、[令和2年3月24日検索]、インターネット〈URL:https://www.datarobot.com/jp/platform/〉
【0032】
<音声歪みの検知手法>
図4を参照し、予測値算出手段40及び音声歪み検知手段50による音声歪みの検知手法について説明する。
図4(a)に示すように、予測値算出手段40は、音声信号のメル周波数スペクトル、メル周波数ケプストラム係数及びクロマグラムからなる多次元の音響特徴量が入力される。すると、予測値算出手段40は、
図4(b)に示すように、各時刻の音響特徴量を学習済みの学習モデルに入力することで、学習モデルから各時刻の予測値を取得する。そして、予測値算出手段40は、予め設定された時間窓だけずらしながら、各時刻の予測値を平均化する。
【0033】
続いて、音声歪み検知手段50は、予め設定した第3閾値(例えば、“0.5”)を基準として、予測値算出手段40で平均化された予測値の閾値判定を行う。
図4(c)に示すように、音声歪み検知手段50は、平均化された予測値が第3閾値未満の場合、音声信号に音声歪みが含まれないことを示す正常“0”を音声歪みの検知結果として異常音検知手段60に出力する。一方、音声歪み検知手段50は、平均化された予測値が第3閾値以上の場合、音声信号に音声歪みが含まれることを示す異常“0”を音声歪みの検知結果として異常音検知手段60に出力する。
【0034】
なお、予測値算出手段40は、前記した手法を用いて、2系統の音声信号のそれぞれから予測値を算出し、音声信号の系統毎に予測値を音声歪み検知手段50に出力する。
また、音声歪み検知手段50は、前記した手法を用いて、2系統の音声信号のそれぞれに音声歪みが含まれるか否かを検知する。そして、音声歪み検知手段50は、音声信号の系統毎に音声歪みの検知結果を異常音検知手段60に出力する。
【0035】
図1に戻り、自動音声モニタ1の構成について説明を続ける。
異常音検知手段60は、音声信号レベル検知手段20、単一周波数信号検知手段30及び音声歪み検知手段50から入力された検知結果に基づいて、音声信号に異常音が含まれるか否かを検知するものである。
【0036】
<異常音検知手法:第1例>
以下、異常音検知手段60による異常音検知手法の第1例について説明する。
具体的には、異常音検知手段60は、音声信号レベルが不適正な場合、音声信号に単一周波数信号が含まれる場合、又は、音声信号に音声歪みが含まれる場合の何れにおいて、音声信号に異常音が含まれると検知する。つまり、異常音検知手段60は、音声信号レベル検知手段20、単一周波数信号検知手段30及び音声歪み検知手段50から入力された検知結果の何れか一つでも異常“1”の場合、音声信号に異常音が含まれると検知する。
【0037】
一方、異常音検知手段60は、音声信号レベルが適正レベルであり、かつ、音声信号に単一周波数信号が含まれず、かつ、音声信号に音声歪みが含まれない場合、音声信号に異常音が含まれないと検知する。つまり、異常音検知手段60は、音声信号レベル検知手段20、単一周波数信号検知手段30、又は、音声歪み検知手段50から入力された検知結果の全てが正常“0”の場合、音声信号に異常音が含まれないと検知する。
【0038】
<異常音検知手法:第2例>
また、異常音検知手段60は、第2例の手法で異常音を検知してもよい。
具体的には、異常音検知手段60は、音声信号レベル検知手段20、単一周波数信号検知手段30及び音声歪み検知手段50から入力された検知結果の多数決により、音声信号に異常音が含まれるか否かを検知する。つまり、異常音検知手段60は、正常“0”と異常“1”との検知結果数とを比較し、正常“0”が異常“1”の検知結果数を超える場合、音声信号に異常音が含まれないと検知する。一方、異常音検知手段60は、異常“1”が正常“0”の検知結果数を超える場合、音声信号に異常音が含まれると検知する。
【0039】
なお、異常音検知手段60は、前記した第1例や第2例の手法を用いて、2系統の音声信号のそれぞれに異常音が含まれるか否かを検知する。そして、異常音検知手段60は、各系統の音声信号に異常音が含まれるか否かを示す検知結果を切替制御手段70に出力する。
【0040】
切替制御手段70は、異常音検知手段60から入力された検知結果に基づいて、本番系及び予備系の2系統の音声信号の切り替え制御を行うものである。例えば、切替制御手段70は、本番系の音声信号に異常音が含まれおり、かつ、予備系の音声信号に異常音が含まれていない場合、本番系の音声信号から予備系の音声信号への切替指令を制御盤2に出力する。
【0041】
[自動音声モニタの動作]
図5を参照し、自動音声モニタ1の動作について説明する。なお、
図5では、学習モデルが既に生成されていることとする。
図5に示すように、ステップS1において、音響特徴量算出手段10は、音声信号の音響特徴量(メル周波数スペクトル、メル周波数ケプストラム係数、クロマグラム、二乗平均平方根、スペクトル重心)を算出する。
【0042】
ステップS2において、音声信号レベル検知手段20は、ステップS1で算出した音声信号レベルの二乗平均平方根に基づいて、音声信号レベルが適正であるか否かを検知する。
ステップS3において、単一周波数信号検知手段30は、ステップS1で算出したスペクトル重心に基づいて、音声信号に単一周波数信号が含まれるか否かを検知する。
【0043】
ステップS4において、予測値算出手段40は、ステップS1で算出したメル周波数スペクトル、メル周波数ケプストラム係数及びクロマグラムを学習モデルに入力することで、予測値を算出する。
ステップS5において、音声歪み検知手段50は、ステップS4で算出した予測値に基づいて、音声信号に音声歪みが含まれるか否かを検知する。
【0044】
ステップS6において、異常音検知手段60は、ステップS2、ステップS3及びステップS5の検知結果に基づいて、音声信号に異常音が含まれるか否かを検知する。
ここで、音声信号に異常音が含まれる場合(ステップS6でYes)、自動音声モニタ1は、ステップS7の処理に進む。
一方、音声信号に異常音が含まれない場合(ステップS6でNo)、自動音声モニタ1は、ステップS8の処理に進む。
【0045】
ステップS7において、切替制御手段70は、ステップS6の検知結果に基づいて、本番系及び予備系の2系統の音声信号の切り替え制御を行う。
【0046】
ステップS8において、自動音声モニタ1は、処理を終了するか否かを判定する。例えば、音声信号が終了した場合、自動音声モニタ1は、処理を終了すると判定する。
ここで、処理を終了しない場合(ステップS8でNo)、自動音声モニタ1は、ステップS1の処理に戻る。
【0047】
[作用・効果]
自動音声モニタ1は、ラジオ放送の際、音声信号に含まれる様々な異常音を検知し、異常音が含まれない系統の音声信号に切り替えることができる。すなわち、自動音声モニタ1は、2系統の音声信号のそれぞれに対し、レベルの検知、単一周波数信号の検知、音声歪みの検知を行い、正常な系統の音声信号に切り替えることができる。
【0048】
以上、本発明の実施形態を詳述してきたが、本発明は前記した実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
前記した実施形態では、音声信号が2系統であることとして説明したが、これに限定されない。例えば、自動音声モニタは、1系統の音声信号に含まれる異常音を検知してもよい。
【0049】
前記した実施形態では、ラジオ放送の音声信号であることとして説明したが、これに限定されない。例えば、自動音声モニタは、テレビ放送やストリーミング配信の音声信号に含まれる異常音も検知できる。
【0050】
前記した実施形態では、自動音声モニタは、音声信号の切り替え制御を行うこととして説明したがこれに限定されない。例えば、自動音声モニタは、音声信号に異常音が含まれることを検知した場合、任意の手法で警報を出力してもよい。
【0051】
前記した実施形態では、音響特徴量算出手段が、音声信号の音響特徴量として、メル周波数スペクトル、メル周波数ケプストラム係数、クロマグラム、二乗平均平方根及びスペクトル重心を算出することとして説明したが、これに限定されない。
【0052】
前記した実施形態では、予測値算出手段が、機械学習として、DataRobotなどの機械学習プラットフォームを用いることとして説明したが、これに限定されない。
【0053】
前記した各実施形態では、自動音声モニタを独立したハードウェアとして説明したが、本発明は、これに限定されない。例えば、本発明は、コンピュータが備えるCPU、メモリ、ハードディスク等のハードウェア資源を、前記した自動音声モニタとして動作させるプログラムで実現することもできる。これらのプログラムは、通信回線を介して配布してもよく、CD-ROMやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。
【実施例】
【0054】
以下、実施例として、
図1の予測値算出手段40及び音声歪み検知手段50の評価結果について説明する。
予測値算出手段40の学習モデルに検証データを入力し、その検知結果を評価した。この検証データには、学習に使用していない評価用テストデータを使用した。また、検証データには、約1分48秒の音声データから抽出した、正常音データ数5420個、異常音(歪み音)データ数3780個、計9290個を用いた。そして、学習モデルから出力される予測値と設定値との比較を行った。
【0055】
図6には評価結果を示した。
図6の横軸は、評価用テストデータを主観評価したときの設定値を示す。また、
図6の縦軸は、音声歪み検知手段50が算出した予測値(予測結果)を示す。この設定値に対する予測値をプロットし、それぞれのポイントにおけるデータ密度を算出した。そして、データ密度の高いポイントを濃い色、低いポイントを薄い色で示した。
【0056】
図6に示すように、設定値“0”に対して予測値が約0.0ポイント、設定値“1”に対して予測値が約1.0ポイントにデータが集中しており、学習モデルの精度が高いことを確認できた。さらに、音声歪み検知手段50の誤検知が入力データ9290個の中でわずか1個であり、音声歪み検知手段50の検知精度が高いことも確認できた。
【符号の説明】
【0057】
1 自動音声モニタ(異常音検知装置)
10 音響特徴量算出手段
20 音声信号レベル検知手段
30 単一周波数信号検知手段
40 予測値算出手段
50 音声歪み検知手段
60 異常音検知手段
70 切替制御手段