(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024046853
(43)【公開日】2024-04-05
(54)【発明の名称】音声解析装置、検査装置、音声解析方法および音声解析プログラム
(51)【国際特許分類】
G01H 3/00 20060101AFI20240329BHJP
【FI】
G01H3/00 A
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022152181
(22)【出願日】2022-09-26
(71)【出願人】
【識別番号】000232302
【氏名又は名称】ニデック株式会社
(74)【代理人】
【識別番号】100109380
【弁理士】
【氏名又は名称】小西 恵
(74)【代理人】
【識別番号】100109036
【弁理士】
【氏名又は名称】永岡 重幸
(72)【発明者】
【氏名】豊嶋 直穂子
【テーマコード(参考)】
2G064
【Fターム(参考)】
2G064AA12
2G064AB01
2G064AB02
2G064AB15
2G064AB22
2G064CC41
2G064CC46
2G064DD08
2G064DD15
(57)【要約】 (修正有)
【課題】事前学習なしで作動音を暗騒音から分離すること。
【解決手段】音声解析装置は、作動音と暗騒音とを含み、作動音の存在割合が不連続に変化する変化点を有する混合音を取得する取得部と、混合音の周波数スペクトログラムを、作動音および暗騒音それぞれの周波数スペクトルと、作動音および暗騒音それぞれの音量変化とに分解する分解部と、作動音の周波数スペクトルおよび音量変化に基づいた、混合音における作動音の成分を保存する保存部と、を備える。
【選択図】
図4
【特許請求の範囲】
【請求項1】
作動音と暗騒音とを含み、当該作動音の存在割合が不連続に変化する変化点を有する混合音を取得する取得部と、
前記混合音の周波数スペクトログラムを、前記作動音および前記暗騒音それぞれの周波数スペクトルと、前記作動音および前記暗騒音それぞれの音量変化とに分解する分解部と、
前記作動音の前記周波数スペクトルおよび前記音量変化に基づいた、前記混合音における当該作動音の成分を保存する保存部と、
を備える音声解析装置。
【請求項2】
前記作動音は、等速駆動されるモータを備えた機器の作動音である請求項1に記載の音声解析装置。
【請求項3】
前記分解部は、非負値行列因子分解により、前記周波数スペクトルを表した基底行列と、前記音量変化を表した活性化行列とを算出する請求項1に記載の音声解析装置。
【請求項4】
前記変化点は、前記作動音がオンオフ変化する点であり、
前記分解部は、収束演算によって前記周波数スペクトルおよび前記音量変化を算出し、前記作動音の音量変化の初期値として、当該作動音がオフの時間領域の少なくとも一部について音量ゼロを設定する請求項1に記載の音声解析装置。
【請求項5】
前記分解部は、前記時間領域の一部について前記作動音の音量変化の初期値として音量ゼロを設定し、当該時間領域の他の一部における当該作動音の音量変化の演算値がゼロに収束するか否かで前記収束演算の収束判定を行う請求項4に記載の音声解析装置。
【請求項6】
請求項1から5のいずれか1項に記載の音声解析装置と、
前記作動音の成分に基づいて良否結果を出力する良否出力部と、
を備える検査装置。
【請求項7】
作動音と暗騒音とを含み、当該作動音の存在割合が不連続に変化する変化点を有する混合音を取得するステップと、
前記混合音の周波数スペクトログラムを、前記作動音および前記暗騒音それぞれの周波数スペクトルと、前記作動音および前記暗騒音それぞれの音量変化とに分解するステップと、
前記作動音の前記周波数スペクトルおよび前記音量変化に基づいた、前記混合音における当該作動音の成分を保存するステップと、
を有する音声解析方法。
【請求項8】
情報処理装置を、請求項1から5のいずれか1項に記載の音声解析装置の各要素として動作させる音声解析プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声解析装置、検査装置、音声解析方法および音声解析プログラムに関する。
【背景技術】
【0002】
従来、複数音声を分離する音声解析技術として非負値行列因子分解(NMF:Nonnegative Matrix Factorization)が知られる。
例えば特許文献1は、複数の音源からなる混合音をNMFにより音源ごとに分離する技術を開示する。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
例えばモータなどにおける作動音を工場内などで検査する場合、工場内には大きな暗騒音が存在するので、作動音を暗騒音から分離することが求められる。しかし、作動音と暗騒音はいずれも時間変化が少ない定常的な音であるためNMFでは分離が難しい。このため、混合前の音源を事前学習させる技術が考えられるが、暗騒音も作動音も測定状況など応じて様々に変化すると考えられるため、事前学習を用いない技術が求められる。
【0005】
そこで、本発明は、事前学習なしで作動音を暗騒音から分離することを目的とする。
【課題を解決するための手段】
【0006】
本発明に係る音声解析装置の一態様は、作動音と暗騒音とを含み、当該作動音の存在割合が不連続に変化する変化点を有する混合音を取得する取得部と、上記混合音の周波数スペクトログラムを、上記作動音および上記暗騒音それぞれの周波数スペクトルと、上記作動音および上記暗騒音それぞれの音量変化とに分解する分解部と、上記作動音の上記周波数スペクトルおよび上記音量変化に基づいた、上記混合音における当該作動音の成分を保存する保存部と、を備える。
【0007】
また、本発明に係る検査装置の一態様は、上記音声解析装置と、上記作動音の成分に基づいて良否結果を出力する良否出力部と、を備える。
また、本発明に係る音声解析方法の一態様は、作動音と暗騒音とを含み、当該作動音の存在割合が不連続に変化する変化点を有する混合音を取得するステップと、上記混合音の周波数スペクトログラムを、上記作動音および上記暗騒音それぞれの周波数スペクトルと、上記作動音および上記暗騒音それぞれの音量変化とに分解するステップと、上記作動音の上記周波数スペクトルおよび上記音量変化に基づいた、上記混合音における当該作動音の成分を保存するステップと、を有する。
【0008】
また、本発明に係る音声解析プログラムの一態様は、情報処理装置を上記音声解析装置の各要素として動作させる。
【発明の効果】
【0009】
本発明によれば、事前学習なしで作動音を暗騒音から分離することができる。
【図面の簡単な説明】
【0010】
【
図1】
図1は、検査装置の一実施形態による自動検査用の防音設備を示す概念図である。
【
図2】
図2は、検査装置の一実施形態を示すブロック構成図である。
【
図3】
図3は、演算部で実行されるNMFの概念を示す図である。
【
図4】
図4は、検査装置における処理動作を示すフローチャートである。
【
図5】
図5は、アクティベーション行列における初期値の設定を示す図である。
【
図6】
図6は、モータの作動音の合成概念を示す図である。
【発明を実施するための形態】
【0011】
以下、添付の図面を参照しながら、本開示の音声解析装置、検査装置、音声解析方法および音声解析プログラムの実施形態を詳細に説明する。但し、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするため、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。また、先に説明した図に記載の要素については、後の図の説明において適宜に参照する場合がある。
【0012】
図1は、検査装置の一実施形態による自動検査用の防音設備を示す概念図である。
防音設備1は、防音箱2とマイクロフォン3とを備える。防音箱2の内部にマイクロフォン3が設置される。また、防音箱2の内部には検査されるモータ4が収容されて、マイクロフォン3によってモータ4の作動音(駆動中の音)が集音される。本実施形態では、特に、等速駆動されるモータ4の作動音が検査対象となる。
【0013】
防音箱2の外壁は例えば鉄板の遮音材であり、外部から防音箱2の内部に伝わる雑音が遮音される。また、防音箱2の内壁には吸音材5が設けられ、モータ4の駆動音の反射が防止される。防音箱2は、例えばモータ4の製造工場内に設置され、製造されたモータ4の検査に用いられる。モータ4の製造ラインは約80dBの音を発し、マイクロフォン3によって集音されるモータ4の作動音に対して雑音となる。つまり、マイクロフォン3は、モータ4の作動音と雑音との混合音を集音する。
【0014】
防音箱2は外部の音を約30dB軽減させることができるので、防音箱2の内部では製造ラインの音が約50dBに低減される。これに対してモータ4の作動音は約40dBであり、従来の自動検査では雑音が大きすぎて検査の実施が困難である。特に、暗騒音と称される、時間的に変化の少ない連続的な雑音は、等速駆動されるモータ4の作動音との区別が難しい。
【0015】
本実施形態の検査装置は、マイクロフォン3で集音された混合音からモータ4の作動音を抽出して検査に用いるため、大きな暗騒音が存在する場所でも自動検査が可能である。なお、本実施形態の検査装置は、モータ4の作動音を抽出する音声解析装置の一実施形態にも相当する。
【0016】
図2は、検査装置の一実施形態を示すブロック構成図である。
検査装置100は、データ取得部101と、プロセッサ102と、表示部103と、記憶部104と、操作部105とを備える。
データ取得部101は、例えば入力インタフェースであり、マイクロフォン3によって集音された混合音の音声データを取得する。集音に際してモータ4は、オフ状態とオン状態とを含んだ駆動状態で駆動され、オン状態のモータ4は等速駆動される。
【0017】
データ取得部101は、記憶媒体に記憶済みの音声データを取得してもよい。また、オフ状態とオン状態とを含んだ駆動状態の音声データとしては、モータ4が実際にオンオフされた駆動状態で集音された音の音声データであってもよいし、モータ4のオン状態で集音された混合音と暗騒音のみとが繋ぎ合わされて仮想的にオンオフ駆動の音が再現された音声データであってもよい。
【0018】
つまり、データ取得部101は、作動音と暗騒音とを含み、当該作動音の存在割合が不連続に変化する変化点を有する混合音を取得する。
プロセッサ102は、プログラムを実行することで各種の機能を果たす。プロセッサ102は、例えばコンピュータを検査装置100が備える各要素として機能させる検査プログラムを実行する。当該検査プログラムは、コンピュータを音声解析装置の各要素として機能させる音声解析プログラムの一実施形態に相当する。プロセッサ102は機能構成として、設定部106と、演算部107と、合成部108と、を備える。
【0019】
設定部106は、演算部107による演算処理の初期条件などを設定する。
演算部107は、音声データに対し、周波数解析や非負値行列因子分解(NMF:Nonnegative Matrix Factorization)などの演算処理を実行する。また、演算部107は、音声データから抽出されるモータ4の作動音に基づいた自動検査の演算処理も行い、モータ4の作動音の成分に基づいて良否結果を出力する。つまり、演算部107は、本発明にいう分解部および良否出力部の各一例としての機能を担う。
【0020】
合成部108は、演算部107による演算処理で得られた行列因子に基づいてモータ4の作動音を合成する。
表示部103は、例えばディスプレイであり、設定部106による設定状況や演算部107による検査結果などを表示する。
【0021】
記憶部104は、プロセッサ102で実行される検査プログラムや、プロセッサ102の合成部108で合成されたモータ4の作動音を記憶する。つまり、記憶部104は、本発明にいう保存部の一例としての機能を担う。
操作部105は、例えばタッチパネルやキーボードやマウスであり、設定部106による初期設定に関する指示操作や、プロセッサ102によるプログラム実行の指示操作などを受け付ける。なお、操作部105がタッチパネルである場合、操作部105は表示部103に組み込まれてもよい。また、検査装置100は、スピーカー等の音声出力部を備えてもよいし、ランプ等の発光部を備えてもよい。
【0022】
図3は、演算部107で実行されるNMFの概念を示す図である。
モータ4の作動音を含んだ音声データは、演算部107による周波数解析によって周波数スペクトログラムに変換される。NMFでは、音声データの周波数スペクトログラムがM行×N列の行列Xとして用いられる。但し、周波数スペクトログラムの原点が図の左下に位置するように、列番号は下から上に増加する。演算部107は、周波数スペクトログラムの行列Xを、NMFにより、M行×B列の基底行列TとB行×N列のアクティベーション行列(活性化行列)Vとに分解する。
【0023】
基底行列Tは基底数Bの基底ベクトルを表し、各基底ベクトルは、基底音の周波数スペクトルに相当する。アクティベーション行列Vは、各基底ベクトルが表す基底音の音量変化(即ち各時点における音量の集合)を表す。NMFは、基底行列Tとアクティベーション行列Vにおけるすべての成分の値が負でなくなるように収束演算を繰り返す演算処理である。
【0024】
周波数スペクトログラムを表した行列Xは、M行が周波数に相当し、N列が時間に相当する。音声データは、例えば、停止状態のモータ4が駆動開始して一定回転数で駆動する作動音成分201を含み、列番号nnの時点でモータ4が駆動開始する。また、音声データは、時間的にほぼ一定の雑音の成分(暗騒音成分)202も含む。
【0025】
基底行列Tが表す基底数Bの基底ベクトルのうち、第0列から第bm列までの基底ベクトル211がモータ4の作動音成分201の周波数スペクトルに相当し、第bm+1列から第B列までの基底ベクトル212が暗騒音成分202の周波数スペクトルに相当する。
従って、アクティベーション行列Vの第0行から第bm行までの部分行列221が作動音成分201の音量変化を表し、第bm+1行から第B行までの部分行列222が暗騒音成分202の音量変化を表す。
【0026】
つまり、演算部107は、混合音の周波数スペクトログラムを、作動音および暗騒音それぞれの周波数スペクトルと、作動音および暗騒音それぞれの音量変化とに分解する。より具体的には、演算部107は、NMFにより、周波数スペクトルを表した基底行列Tと、音量変化を表したアクティベーション行列Vとを算出する。NMFの技術が用いられることで作動音と暗騒音との分離が容易に実現される。
【0027】
作動音成分201も暗騒音成分202も時間的に一定で連続する場合、混合音からNMFで作動音成分201を抽出することは困難である。即ち、収束演算を繰り返しても、基底行列Tの基底ベクトルは、作動音成分201と暗騒音成分202とに収束しない。
これに対し、本実施形態では列番号nnの時点で作動音の存在割合が不連続に変化する。即ち列番号nnの時点が混合音における変化点となっている。この結果、作動音成分201が変化点以外で定常音であってもNMFで作動音成分201と暗騒音成分202との分離が可能となる。また、この場合のNMFでは、作動音成分201や暗騒音成分202について事前学習が不要となる。
【0028】
図4は、検査装置100における処理動作を示すフローチャートである。
図4に示す処理動作が開始されると、ステップS101で、データ取得部101によって音声データが取得される。音声データはモータ4の作動音を含んだ音を表しているため、ステップS101でデータ取得部101は、実質的に作動音を取得する。音声データはモータ4の作動音として、オフ状態とオン状態とを有する駆動状態の作動音を含む。つまり、ステップS101では、モータ4のオンオフ作動音が取得されることになる。データ取得部101によって取得された音声データは演算部107で周波数解析されて周波数スペクトログラムに変換される。
【0029】
次にステップS102で設定部106が、NMFにおける初期条件として、基底数Bを設定するとともに、アクティベーション行列Vが表す時間領域のうちモータ4がオフ状態であるオフ領域の一部に初期値「0」を設定する。
【0030】
図5は、アクティベーション行列Vにおける初期値の設定を示す図である。
アクティベーション行列Vの第0行から第bm行までの部分行列221は、上述したように作動音成分201の音量変化に相当し、その部分行列221のうち第0列から第nn列までの部分行列Vnがオフ領域に相当する。
【0031】
設定部106は、部分行列Vnを時間方向の第0列から第nn列までの途中で部分行列Vn0と部分行列Vn1とに2分割する。即ち、初期領域率a(0<a<1)により、部分行列Vn0は第0列から第a・nn列までと表され、部分行列Vn1は、第a・nn+1列から第nn列までと表される。
【0032】
そして、設定部106は、第0列から第a・nn列までの部分行列Vn0に対して初期値「0」を設定する。
本実施形態では、第nn列に相当する変化点は作動音がオンオフ変化する点である。また、演算部107は、収束演算によって周波数スペクトルおよび音量変化を算出する。そして設定部106は、作動音の音量変化の初期値として、当該作動音がオフの時間領域(即ちオフ領域)の少なくとも一部について音量ゼロ(即ち値「0」)を設定する。
【0033】
図4のステップS102における初期値設定が終わると、ステップS103でNMFの収束演算が実行され、ステップS104では、演算における収束の指標として、オフ領域に相当する部分行列Vnで各成分の値が「0」に収束したか否かが判定される。
ここで、値「0」に収束するとは、成分が値「0」に向かって十分に近づくことを意味し、値「0」に到達することを要しない。NMFの収束演算では、行列の成分は値「0」には到達しないので、値「0」に収束したことの判定は、行列の成分が、十分に小さい値「略0」に到達したことの判定で可能である。
また、オフ領域に相当する部分行列Vnの要素のうち、初期値が値「0」に設定された部分行列Vn0については、NMFの収束演算が繰り返されても値「0」が維持される。このため、ステップS104では、オフ領域に相当する部分行列Vnのうち、第a・nn+1列から第nn列までの部分行列Vn1について、各成分の値が「0」に収束したか否か(即ち「略0」に到達したか否か)が判定される。つまり、オフ領域の部分行列Vnのうち初期値が値「0」に設定された部分行列Vn0を除く他の部分行列Vn1における作動音の音量変化の演算値が値「0」に収束するか否かで収束演算の収束判定が行われる。この判定により、収束演算の収束判定が容易に実行可能である。
【0034】
また、初期値が値「0」に設定された部分行列Vn0の時間領域については収束演算が進んでも値「0」が維持されるため、当該時間領域におけるNMFの収束演算は、実質的に暗騒音の自動学習に相当し、結果として暗騒音の周波数スペクトルが精度よく得られる。
ステップS103およびステップS104が繰り返されて、十分な収束が得られたと判定される(ステップS104;収束済)と、ステップS105で、モータ4の作動音成分201が合成部108によって合成されて記憶部104に記憶される。
【0035】
図6は、モータ4の作動音の合成概念を示す図である。
合成部108では、NMFで得られる基底行列Tとアクティベーション行列Vに基づいて、モータ4の作動音成分(即ちモータ音)201が暗騒音成分202と分離されて合成される。即ち、基底行列Tにおける第0列から第bm列までの基底ベクトル211と、アクティベーション行列Vにおける第0行から第bm行までの部分行列221との積によって作動音成分201が合成される。
【0036】
つまり、記憶部104には、作動音の周波数スペクトルおよび音量変化に基づいた、混合音における当該作動音の成分が保存される。
なお、暗騒音成分202は、基底行列Tにおける第bm+1列から第B列までの基底ベクトル212と、アクティベーション行列Vにおける第bm+1行から第B行までの部分行列222との積である。
【0037】
合成部108で合成された作動音成分201が
図4のステップS105で合成されて記憶されると、ステップS106では、作動音成分201に基づいてモータ4の検査が演算部107で実行される。演算部107によるモータ4の検査としては、例えば、作動音成分201の音圧レベルが規定内に収まっているか否かの検査や、作動音成分201に所定の異常音成分が含まれているか否かの検査などが想定される。検査の結果は、表示部103に表示され、
図4に示す処理動作が終了する。
【0038】
作動音成分201がモータ4の作動音そのものである場合に限らず、等速駆動されるモータ4を備えた機器の作動音である場合にも、モータ由来の作動音が暗騒音と分離されるので当該機器の異常確認などが容易となる。
モータ4の作動音成分201が暗騒音成分202と分離されて合成されるため、暗騒音成分202の音量が大きい場合であっても、作動音成分201に基づいた検査が精度よく実施される。
【0039】
なお、上記では、音声解析装置、音声解析方法および音声解析プログラムにおける適用の一例として、モータの検査装置が挙げられるが、本開示の音声解析装置、音声解析方法および音声解析プログラムの適用は上記に限定されず、モータで駆動される装置の検査、モータ以外で駆動される装置の検査、検査以外での作動音の抽出や増幅など広範囲に適用可能である。
【0040】
また、上記では、オン状態とオフ状態とを有した駆動状態での作動音が例示されるが、本開示の音声解析装置、検査装置、音声解析方法および音声解析プログラムに適用可能な作動音としては、例えば、弱状態と強状態とを有した駆動状態での作動音であってもよい。
【0041】
なお、本技術は以下のような構成をとることが可能である。
(1)
作動音と暗騒音とを含み、当該作動音の存在割合が不連続に変化する変化点を有する混合音を取得する取得部と、
前記混合音の周波数スペクトログラムを、前記作動音および前記暗騒音それぞれの周波数スペクトルと、前記作動音および前記暗騒音それぞれの音量変化とに分解する分解部と、
前記作動音の前記周波数スペクトルおよび前記音量変化に基づいた、前記混合音における当該作動音の成分を保存する保存部と、
を備える音声解析装置。
【0042】
(2)
前記作動音は、等速駆動されるモータを備えた機器の作動音である(1)に記載の音声解析装置。
(3)
前記分解部は、非負値行列因子分解により、前記周波数スペクトルを表した基底行列と、前記音量変化を表した活性化行列とを算出する(1)~(2)に記載の音声解析装置。
【0043】
(4)
前記変化点は、前記作動音がオンオフ変化する点であり、
前記分解部は、収束演算によって前記周波数スペクトルおよび前記音量変化を算出し、前記作動音の音量変化の初期値として、当該作動音がオフの時間領域の少なくとも一部について音量ゼロを設定する(1)~(3)のいずれかに記載の音声解析装置。
【0044】
(5)
前記分解部は、前記時間領域の一部について前記作動音の音量変化の初期値として音量ゼロを設定し、当該時間領域の他の一部における当該作動音の音量変化の演算値がゼロに収束するか否かで前記収束演算の収束判定を行う(4)に記載の音声解析装置。
【0045】
(6)
(1)~(5)のいずれかに記載の音声解析装置と、
前記作動音の成分に基づいて良否結果を出力する良否出力部と、
を備える検査装置。
【0046】
(7)
作動音と暗騒音とを含み、当該作動音の存在割合が不連続に変化する変化点を有する混合音を取得するステップと、
前記混合音の周波数スペクトログラムを、前記作動音および前記暗騒音それぞれの周波数スペクトルと、前記作動音および前記暗騒音それぞれの音量変化とに分解するステップと、
前記作動音の前記周波数スペクトルおよび前記音量変化に基づいた、前記混合音における当該作動音の成分を保存するステップと、
を有する音声解析方法。
【0047】
(8)
情報処理装置を、(1)~(5)のいずれかに記載の音声解析装置の各要素として動作させる音声解析プログラム。
【符号の説明】
【0048】
1 :防音設備
2 :防音箱
3 :マイクロフォン
4 :モータ
5 :吸音材
100 :検査装置
101 :データ取得部
102 :プロセッサ
103 :表示部
104 :記憶部
105 :操作部
106 :設定部
107 :演算部
108 :合成部