IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ リオン株式会社の特許一覧

特許6994874アノテーション装置および騒音測定システム
<>
  • 特許-アノテーション装置および騒音測定システム 図1
  • 特許-アノテーション装置および騒音測定システム 図2
  • 特許-アノテーション装置および騒音測定システム 図3
  • 特許-アノテーション装置および騒音測定システム 図4
  • 特許-アノテーション装置および騒音測定システム 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2021-12-16
(45)【発行日】2022-01-14
(54)【発明の名称】アノテーション装置および騒音測定システム
(51)【国際特許分類】
   G06N 20/00 20190101AFI20220106BHJP
   G10L 25/51 20130101ALI20220106BHJP
   G10L 25/18 20130101ALI20220106BHJP
   G10L 25/48 20130101ALI20220106BHJP
   G10L 25/30 20130101ALI20220106BHJP
【FI】
G06N20/00 130
G10L25/51
G10L25/18
G10L25/48 100
G10L25/30
【請求項の数】 5
(21)【出願番号】P 2017166535
(22)【出願日】2017-08-31
(65)【公開番号】P2019046018
(43)【公開日】2019-03-22
【審査請求日】2020-07-31
【新規性喪失の例外の表示】特許法第30条第2項適用 一般社団法人 日本音響学会,2017年日本音響学会春季研究発表会講演論文集,第795頁~第798頁,平成29年3月1日 2017年日本音響学会春季研究発表会,平成29年3月15日
(73)【特許権者】
【識別番号】000115636
【氏名又は名称】リオン株式会社
(74)【代理人】
【識別番号】100114971
【弁理士】
【氏名又は名称】青木 修
(72)【発明者】
【氏名】大島 俊也
(72)【発明者】
【氏名】内藤 大介
(72)【発明者】
【氏名】砂子 学人
(72)【発明者】
【氏名】中島 康貴
【審査官】多胡 滋
(56)【参考文献】
【文献】特開2001-033304(JP,A)
【文献】特開2016-197406(JP,A)
【文献】小林将大,外2名,人間の感覚を考慮した騒音マップ作成のための騒々しさ推定方式,[online],一般社団法人情報処理学会,2016年07月06日,pp.141-148,インターネット<URL:https://ipsj.ixsq.nii.ac.jp/ej/index.php?active_action=repository_view_main_item_detail&page_id=13&block_id=8&item_id=177123&item_no=1>
(58)【調査した分野】(Int.Cl.,DB名)
G06N 20/00
G10L 25/51
G10L 25/18
G10L 25/48
G10L 25/30
(57)【特許請求の範囲】
【請求項1】
対象音の音響信号の周波数スペクトルデータを含む入力データから、前記対象音の分類を示す出力データを出力する識別器を機械学習するための教師データを生成するアノテーション装置において、
環境音を集音する集音装置と、
前記環境音の聴取時のユーザーによる音源種別を示すリアルタイムのユーザー操作を検出する入力装置と、
前記集音装置により得られた前記対象音の音響信号から前記入力データを生成する音響処理部と、
前記入力装置により検出された前記ユーザー操作に対応する分類を特定し、前記入力データに対して、特定した前記分類を示す出力データをラベルとして関連付け、前記入力データと、前記入力データに関連付けられた出力データとの対を教師データとするラベル付け部と、
を備え
前記ラベル付け部は、リアルタイムで、前記音響処理部により生成される前記入力データを受け付け、前記入力装置により検出された前記ユーザー操作が検出された期間の前記入力データに、特定した前記分類を前記ラベルとして関連付けること、
を特徴とするアノテーション装置。
【請求項2】
前記入力装置は、所定の複数の分類に対する複数のキーを備え、
前記ラベル付け部は、前記ユーザーにより操作された1または複数のキーを特定し、特定した1または複数のキーに対応する1または複数の分類を特定し、特定した前記1または複数の分類を示す出力データをラベルとして前記入力データに関連付けること、
を特徴とする請求項1記載のアノテーション装置。
【請求項3】
対象音の音響信号の周波数スペクトルデータを含む入力データから、前記対象音の分類を示す出力データを出力する識別器を機械学習するための教師データを生成するアノテーション装置において、
環境音を集音する集音装置と、
前記環境音の聴取時のユーザーによる音源種別を示すリアルタイムのユーザー操作を検出する入力装置と、
前記集音装置により得られた前記対象音の音響信号から前記入力データを生成する音響処理部と、
前記入力装置により検出された前記ユーザー操作に対応する分類を特定し、前記入力データに対して、特定した前記分類を示す出力データをラベルとして関連付け、前記入力データと、前記入力データに関連付けられた出力データとの対を教師データとするラベル付け部と、
前記音響処理部により生成された前記入力データから、所定の複数の分類のそれぞれの事後確率を示す出力データを出力する識別器と、
前記識別器により出力された前記出力データにより示される、前記分類ごとに、前記事後確率を時系列に沿って、事後確率波形として表示装置に表示させるとともに、前記事後確率波形において前記事後確率が所定の閾値を超えている区間に沿って、候補区間を前記表示装置に表示させる表示処理部とを備え、
前記入力装置は、前記候補区間に対するユーザー操作を検出し、
前記ラベル付け部は、前記ユーザーにより操作された1または複数の候補区間を確定し、確定した1または複数の候補区間に対応する1または複数の分類を特定し、特定した前記1または複数の分類を示す出力データをラベルとして前記入力データに関連付けること、
を特徴とするアノテーション装置。
【請求項4】
前記ラベル付け部により生成された前記教師データに基づいて前記識別器の機械学習を行う学習処理部をさらに備えることを特徴とする請求項2または請求項3記載のアノテーション装置。
【請求項5】
請求項1または請求項3記載のアノテーション装置を備え、
前記アノテーション装置により生成された教師データで識別器の機械学習を行い、機械学習された前記識別器で、対象音の音響信号の周波数スペクトルデータを含む入力データから、前記対象音の音源種別を示す出力データを生成すること、
を特徴とする騒音測定システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、アノテーション装置および騒音測定システムに関するものである。
【背景技術】
【0002】
大量のデータを扱う環境音の騒音測定では、対象となる音源とそれ以外の音源とを選別する労力を軽減するために、自動的な音源識別が要求される。ある音源種別識別装置は、ニューラルネットワークを有する判定手段を備え、入力音響のパワースペクトル分布をサブバンド化して得られるデータをニューラルネットワークの入力とし、そのニューラルネットワークの出力として音源種別信号を生成する(例えば特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2001-33304号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ニューラルネットワークなどの識別器で音源種別を精度よく識別するためには、機械学習において大量の教師データ(音響データと、音源種別との対)が必要となる。そのような入力データに、その入力データに対応する正しい音源種別(ラベル)を付す作業をアノテーションという。
【0005】
環境音から音源種別を識別する識別器のための教師データを準備するためには、通常、環境音についての長時間の録音データを再生し、再生音を聴取して、人が、各時点の再生音の音源種別を特定して、その音源種別をラベル付けする。その際、再生音だけでは現場の状況がわかりにくく、1回の聴取では音源種別を特定できない場合には、再生音を繰り返して聴取して音源種別を特定する。そのため、環境音から音源種別を識別する識別器の機械学習用の教師データの準備には、膨大な時間と労力を要する。
【0006】
特に、複数の音源からの音響が重なっている再生音の場合、聴覚情報のみでは、それらの音源の種別を正確に特定できないこともある。さらに、屋外の伝搬では、周囲の建物での音響の反射や回折などによって音響特性が変化することがあり、聴覚のみによるアノテーションでは、ラベル付けが正確に行われない可能性がある。
【0007】
本発明は、上記の問題に鑑みてなされたものであり、学習データ数を確保しつつ、音源種別などの対象音の種別を識別する識別器用の教師データを生成するアノテーションのための時間と労力を軽減するアノテーション装置および騒音測定システムを得ることを目的とする。
【課題を解決するための手段】
【0008】
本発明に係るアノテーション装置は、対象音の音響信号の周波数スペクトルデータを含む入力データから、その対象音の分類を示す出力データを出力する識別器を機械学習するための教師データを生成するアノテーション装置であり、環境音を集音する集音装置と、その集音現場で対象となる環境音の聴取時のユーザーによる音源種別を示すリアルタイムのユーザー操作を検出する入力装置と、集音装置により得られた環境音の音響信号から対象音の入力データを生成する音響処理部と、入力装置により検出されたユーザー操作に対応する分類を特定し、入力データに対して、特定した分類を示す出力データをラベルとして関連付け、入力データと、入力データに関連付けられた出力データとの対を教師データとするラベル付け部とを備える。さらに、本発明に係るアノテーション装置は、以下の(A)または(B)の構成を備える。(A)ラベル付け部は、リアルタイムで、音響処理部により生成される入力データを受け付け、入力装置により検出されたユーザー操作が検出された期間の入力データに、特定した分類をラベルとして関連付ける。(B)音響処理部により生成された入力データから、所定の複数の分類のそれぞれの事後確率を示す出力データを出力する識別器と、識別器により出力された出力データにより示される、分類ごとに、事後確率を時系列に沿って、事後確率波形として表示装置に表示させるとともに、事後確率波形において事後確率が所定の閾値を超えている区間に沿って、候補区間を表示装置に表示させる表示処理部とをさらに備え、入力装置は、候補区間に対するユーザー操作を検出し、ラベル付け部は、ユーザーにより操作された1または複数の候補区間を確定し、確定した1または複数の候補区間に対応する1または複数の分類を特定し、特定した1または複数の分類を示す出力データをラベルとして入力データに関連付ける。

【0009】
本発明に係る騒音測定システムは、上述のアノテーション装置を備え、そのアノテーション装置により生成された教師データで識別器の機械学習を行い、機械学習された識別器で、対象音の音響信号の周波数スペクトルデータを含む入力データから、対象音の音源種別を示す出力データを生成する。
【発明の効果】
【0010】
本発明によれば、集音現場で聴取時に集音された環境音の音源種別を記録できるので、音源種別などの対象音の分類を識別する識別器用の教師データを生成するアノテーションのための時間と労力を軽減するアノテーション装置および騒音測定システムが得られる。
【図面の簡単な説明】
【0011】
図1図1は、本発明の実施の形態1に係るアノテーション装置の構成を示すブロック図である。
図2図2は、第1アノテーションモードの表示画面の一例を示す図である。
図3図3は、第2アノテーションモードの表示画面の一例を示す図である。
図4図4は、図3の表示画面の一部を拡大した図である。
図5図5は、実施の形態1に係るアノテーション装置により生成された教師データで機械学習された識別器による音源種別の識別結果の一例を示す図である。
【発明を実施するための形態】
【0012】
以下、図に基づいて本発明の実施の形態を説明する。
【0013】
実施の形態1.
【0014】
図1は、本発明の実施の形態1に係るアノテーション装置の構成を示すブロック図である。図1に示すアノテーション装置は、対象音の音響信号の周波数スペクトルデータを含む入力データから、対象音の分類を示す出力データを出力する識別器を機械学習するための教師データを生成する。実施の形態1では、対象音の分類は、音源種別である。
【0015】
図1に示すアノテーション装置は、集音装置1、表示装置2、入力装置3、通信装置4、記憶装置5、および演算処理装置6を備える。
【0016】
集音装置1は、環境音を集音するマイクロホンなどである。
【0017】
表示装置2は、各種情報をユーザーに対して表示する液晶ディスプレイなどである。
【0018】
入力装置3は、上述の環境音を集音現場で聴取したユーザーによる聴取時の音源種別を示すリアルタイムのユーザー操作を検出する。なお、入力装置3は、ハードキーを備えるキーボード、キーパッドなどでもよいし、表示装置2に表示されるキー画像とともにソフトキーを構成するタッチパネルなどでもよい。なお、集音現場ごとに、対象となる音源は異なるので、集音現場ごとの予めソフトキーに対応する音源種別を設定しておく。
【0019】
また、通信装置4は、教師データなどを外部装置へ送信する。通信装置4としては、ネットワークインターフェイスや周辺機器インターフェイスが使用される。
【0020】
記憶装置5は、教師データなどを格納する不揮発性の記憶装置5である。記憶装置5としては、ハードディスクドライブ、フラッシュメモリなどが使用される。
【0021】
演算処理装置6は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)などを備えるコンピュータであって、ROMや記憶装置5などに記憶されているプログラムをRAMにロードし、CPUで実行することで、各種処理部として動作する。
【0022】
ここでは、演算処理装置6は、音響処理部11、ラベル付け部12、データ出力部13、表示処理部14、識別器15、および学習処理部16を備える。
【0023】
音響処理部11は、集音装置1により得られた対象音の音響信号から、教師データのうちの入力データを生成する。音響処理部11は、音響信号の周波数スペクトルデータを算出し、入力データに含める。例えば、周波数スペクトルデータとしては、周波数分析機能を備える騒音計などにより得られる所定バンド幅(例えば1/3オクターブ)ごとの短時間Leq(短時間平均音圧レベル)が使用される。
【0024】
ラベル付け部12は、入力装置3により検出されたリアルタイムのユーザー操作に対応する分類を特定し、入力データに対して、特定した分類を示す出力データをラベルとして関連付け、入力データと、ラベル付け部12により入力データに関連付けられた出力データとの対を教師データとする。
【0025】
データ出力部13は、ラベル付け部12において生成された教師データを、通信装置4を使用して外部へ送信したり、記憶装置5に記憶したりする。
【0026】
表示処理部14は、各種情報やソフトキーのキー画像などを表示装置2に表示させる。
【0027】
実施の形態1に係るアノテーション装置は、動作モードとして、第1アノテーションモードと第2アノテーションモードとを備え、ユーザーによりいずれかの動作モードを、入力装置3を使用して選択可能となっている。
【0028】
第1アノテーションモードでは、入力装置3における、所定の複数の分類に対する複数のキーが使用される。このキーは、ハードキーでもよいし、ソフトキーでもよい。また、第1アノテーションモードでは、ラベル付け部12は、ユーザーにより操作された1または複数のキーを特定し、特定した1または複数のキーに対応する1または複数の分類を特定し、特定した1または複数の分類を示す出力データをラベルとして入力データに関連付ける。第1アノテーションモードでは、キーが押下されている期間において、継続して、そのキーに対応する分類が特定され続ける。
【0029】
図2は、第1アノテーションモードの表示画面の一例を示す図である。
【0030】
図2に示すように、第1アノテーションモードでは、現在時刻から所定時間(例えば3分)だけ過去の時点までの各種時系列データが表示装置2に表示され、所定時間間隔(例えば1秒)で更新される。例えば図2に示すように、騒音レベルの時系列データ51、周波数スペクトルの時系列データ52、および所定の音源種別のラベル付け結果の時系列データ53が表示される。また、所定の音源種別に対応するソフトキーを含むソフトキー配列54が表示されている。時系列データ53では、各音源種別に対応する表示領域において、その音源種別に対応するキーが押下されていた期間について、特定の色が付される。
【0031】
また、第1アノテーションモードでは、ラベル付け部12は、ソフトキー配列54における1または複数のソフトキーの押下を検出し、検出したソフトキーに対応する音源種別をラベルとして、そのソフトキーが押下されている期間の入力データに関連付ける。そして、表示処理部14は、所定の時間間隔で繰り返し、騒音レベルの時系列データ51および周波数スペクトルの時系列データ52を音響処理部11から取得するとともに、所定の音源種別のラベル付け結果の時系列データ53をラベル付け部12から取得し、それらを図2に示すように表示装置2に表示する。
【0032】
一方、第2アノテーションモードでは、識別器15が、音響処理部11により生成された入力データから、所定の複数の分類のそれぞれの事後確率(0から1までの値)を示す出力データを出力し、表示処理部14が、識別器15により出力された出力データにより示される、分類(ここでは、音源種別)ごとに、事後確率を時系列に沿って、事後確率波形として表示装置2に表示させるとともに、その事後確率波形において事後確率が所定の閾値(例えば、0.25)を超えている区間に沿って、候補区間を表示装置2に表示させる。
【0033】
図3は、第2アノテーションモードの表示画面の一例を示す図である。図4は、図3の表示画面の一部を拡大した図である。
【0034】
図3に示すように、第2アノテーションモードでは、現在時刻から所定時間(例えば3分)だけ過去の時点までの各種時系列データが表示装置2に表示され、所定時間間隔(例えば1秒)で更新される。例えば図3に示すように、騒音レベルの時系列データ61、周波数スペクトルの時系列データ62、および各音源種別の事後確率波形63が表示される。さらに、図4に示すように、各音源種別の事後確率波形63の表示領域63a~63gに隣接して、各音源種別に対応する、候補区間の表示領域64a~64gが確保されており、事後確率波形において事後確率が所定の閾値を超えている区間に対応して、候補区間が表示される。図4では、音源種別「自動車」については、候補区間65が表示され、音源種別「救急車」については、候補区間66が表示され、音源種別「電車」については、候補区間67が表示され、音源種別「小鳥」については、候補区間68が表示され、音源種別「カラス」については、候補区間69が表示されている。
【0035】
そして、第2アノテーションモードでは、入力装置3は、候補区間65,66,67,68,69に対するユーザー操作を例えばタッチパネルで検出し、ラベル付け部12は、ユーザーにより操作された1または複数の候補区間を特定し、特定した1または複数の候補区間に対応する1または複数の分類を特定し、特定した1または複数の分類(図3および図4では音源種別)を示す出力データをラベルとして入力データに関連付ける。
【0036】
このとき、特定された候補区間の始点時刻と終点時刻との間の時間における入力データに対して、その候補区間に対応する分類(ここでは音源種別)がラベルとして関連付けられる。
【0037】
なお、この識別器15は、当該アノテーションモード装置が生成する教師データが機械学習に使用される識別器と同一の構成(ディープニューラルネットワークの場合、隠れ層の数、および各層のノード数が同一である構成)を有している。例えば、識別器15には、ディープニューラルネットワークが使用される。例えば、そのディープニューラルネットワークは、2つの隠れ層を備え、その入力層には、周波数に対応する33個のノードが設けられ、その初段の隠れ層には、20個のノードが設けられ、その次段の隠れ層には、10個のノードが設けられ、その出力層には、音源種別に対応する55個のノードが設けられる。
【0038】
学習処理部16は、ラベル付け部12により生成された教師データに基づいて識別器15の機械学習を行う。
【0039】
次に、実施の形態1に係るアノテーション装置の動作について説明する。
【0040】
まず、入力装置に対するユーザー操作に従って、各処理部が、動作モードを、第1アノテーションモードおよび第2アノテーションモードのいずれかにセットする。ユーザーは、このアノテーション装置の設置場所で、対象音を聴取し、特定した対象音の分類に応じた操作をアノテーション装置に対して行う。
【0041】
第1アノテーションモードでは、ラベル付け部12は、リアルタイムで、音響処理部11により生成される入力データ(教師データのうちの入力データ)を受け付けており、さらに、入力装置3におけるキー押下を検出すると、そのキーに対応する分類(ここでは音源種別)を特定し、そのキー押下が継続した期間(つまり、キー押下の開始時刻と終了時刻)を特定し、その期間の入力データに、特定した分類をラベルとして関連付ける。
【0042】
このようにして、入力データと出力データ(つまり、特定した分類)との対が、1つの教師データセットとされる。
【0043】
また、図2に示すように、表示装置2には、第1アノテーションモードで、ユーザーにより入力された分類が時系列データ53として表示される。
【0044】
他方、第2アノテーションモードでは、識別器15が、リアルタイムで、入力データに対する各分類の事後確率を算出しており、表示処理部14は、図3および図4に示すように、各分類の事後確率波形63を表示装置2に表示させるとともに、各時点での事後確率が所定の閾値を超えたか否かを判定し、事後確率が所定の閾値を超えた期間に対応する候補区間65~69を、事後確率波形63に合わせて表示させる。
【0045】
ラベル付け部12は、リアルタイムで、音響処理部11により生成される入力データ(教師データのうちの入力データ)を受け付けており、さらに、入力装置3により候補区間の押下が検出されると、その候補区間に対応する分類(ここでは音源種別)を確定し、その候補区間の始点から終点までの期間を特定し、その期間の入力データに、特定した分類をラベルとして関連付ける。このように、第2アノテーションモードは、第1アノテーションモードに比べ、継続時間の短い対象音であってもユーザーによる作業が容易となる。
【0046】
このようにして、入力データと出力データ(つまり、特定した分類)との対が、1つの教師データセットとされる。
【0047】
以上のように、上記実施の形態1によれば、音響処理部11は、集音装置1により得られた対象音の音響信号から入力データ(教師データのうちの入力データ)を生成する。そして、ラベル付け部12は、入力装置3により検出されたユーザー操作に対応する分類を特定し、入力データに対して、特定した分類を示す出力データをラベルとして関連付け、入力データと、ラベル付け部12により入力データに関連付けられた出力データとの対を教師データとする。
【0048】
これにより、ユーザーは、教師データの作成のために、対象音源を確認しつつ対象音を聴きながら、キーや候補区間を押下するだけでよく、音源種別を識別する識別器用の教師データを生成するアノテーションのための時間と労力が軽減される。
【0049】
図5は、実施の形態1に係るアノテーション装置により生成された教師データで機械学習された識別器による音源種別の識別結果の一例を示す図である。図5に示すように、騒音レベルのそれぞれのピーク付近において、音源種別の事後確率が高くなっており、音源種別が識別されている。
【0050】
実施の形態2.
【0051】
本発明の実施の形態2に係る騒音測定システムは、実施の形態1に係るアノテーション装置を備え、そのアノテーション装置により上述のように生成された教師データで識別器の機械学習を行い、機械学習された識別器で、対象音の音響信号の周波数スペクトルデータを含む入力データから、その対象音の音源種別を示す出力データを生成する。
【0052】
これにより、騒音の音源などを特定することができる。
【0053】
なお、上述の実施の形態に対する様々な変更および修正については、当業者には明らかである。そのような変更および修正は、その主題の趣旨および範囲から離れることなく、かつ、意図された利点を弱めることなく行われてもよい。つまり、そのような変更および修正が請求の範囲に含まれることを意図している。
【0054】
例えば、上記実施の形態1において、上述の入力データには、集音装置1から見た音源の方向などの音源情報を含めるようにしてもよい。
【0055】
また、上記実施の形態2に係る騒音検出システムと同様の構成で、上述の対象音を、特定の装置から発せされる音とし、上述対象音の分類を、異音原因種別とすることで、実施の形態1に係るアノテーション装置を異音検出システムに適用するようにしてもよい。
【0056】
また、上述の実施の形態1,2において、ネットワークを介して、教師データをアノテーション装置または騒音測定システムからサーバーへ送信し、サーバーで上述の識別器の機械学習を行い、機械学習により得られた識別器のパラメータをサーバーからアノテーション装置または騒音測定システムへ送信し、そのパラメータを、アノテーション装置または騒音測定システム内の識別器に適用するようにしてもよい。
【産業上の利用可能性】
【0057】
本発明は、例えば、対象音の特徴を分類するための識別器のための教師データの自動生成に適用可能である。
【符号の説明】
【0058】
1 集音装置
2 表示装置
3 入力装置
11 音響処理部
12 ラベル付け部
14 表示処理部
15 識別器
16 学習処理部

図1
図2
図3
図4
図5