(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023082651
(43)【公開日】2023-06-14
(54)【発明の名称】畳み込みニューラルネットワークに基づく海洋哺乳類鳴音のリアルタイム識別方法
(51)【国際特許分類】
G01H 3/00 20060101AFI20230607BHJP
G06T 7/00 20170101ALI20230607BHJP
G01S 15/89 20060101ALI20230607BHJP
G01S 7/53 20060101ALI20230607BHJP
【FI】
G01H3/00 Z
G06T7/00 350C
G01S15/89 B
G01S7/53
【審査請求】有
【請求項の数】2
【出願形態】OL
(21)【出願番号】P 2022113523
(22)【出願日】2022-07-14
(11)【特許番号】
(45)【特許公報発行日】2022-11-30
(31)【優先権主張番号】202111456006.6
(32)【優先日】2021-12-02
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】518200329
【氏名又は名称】自然資源部第一海洋研究所
【住所又は居所原語表記】NO.6 Xianxialing Road,Laoshan district,Qingdao,Shandong 266061,China
(74)【代理人】
【識別番号】110001139
【氏名又は名称】SK弁理士法人
(74)【代理人】
【識別番号】100130328
【弁理士】
【氏名又は名称】奥野 彰彦
(74)【代理人】
【識別番号】100130672
【弁理士】
【氏名又は名称】伊藤 寛之
(72)【発明者】
【氏名】呂連港
(72)【発明者】
【氏名】段徳▲シィン▼
(72)【発明者】
【氏名】姜瑩
(72)【発明者】
【氏名】劉宗偉
(72)【発明者】
【氏名】楊春梅
【テーマコード(参考)】
2G064
5J083
5L096
【Fターム(参考)】
2G064AB13
2G064AB29
2G064CC41
2G064CC46
2G064CC52
5J083AA05
5J083AB12
5J083AD02
5J083AE03
5J083AF15
5J083BE41
5L096DA02
5L096HA09
5L096HA11
5L096KA04
(57)【要約】 (修正有)
【課題】畳み込みニューラルネットワークに基づく海洋哺乳類鳴音のリアルタイム識別方法を提供する。
【解決手段】まず、1つの信号セグメントを標準化処理した後、高速フーリエ変換によって信号の時間周波数カラー画像を生成し、次に、時間周波数画像内の動物音響信号を注釈する。最後に、データを畳み込みニューラルネットワークに入力して訓練し、識別モデルを得る。本発明では、畳み込みニューラルネットワークによって構築される識別モデルを用いて水中音響データ中の海洋哺乳類音響信号をワンステップで識別する。本発明の方法は、高いリコール率及び精度を持ちながら、速い処理速度を有し、リアルタイム識別に対応できる。
【選択図】なし
【特許請求の範囲】
【請求項1】
畳み込みニューラルネットワークに基づく海洋哺乳類鳴音のリアルタイム識別方法であって、
1つの水中音響信号セグメントを標準化処理して、等長さのNセグメントに分割し、高速フーリエ変換によって時間周波数処理を行い、データセグメント毎の時間周波数図を取得し、3チャンネル(RGB)カラー時間周波数画像として記憶する、信号処理のステップ1)と、
3チャンネルカラー時間周波数画像のそれぞれをチェックして、現れた海洋哺乳類鳴音信号の輪郭を矩形ボックスで囲み、種のカテゴリを注釈し、プログラムによって矩形ボックスの中心座標、幅及び高さを自動的に取得して、この注釈情報を注釈ファイルに書き込む、信号注釈のステップ2)と、
識別モデルには、3チャンネルカラー時間周波数画像マトリックスを入力、識別マトリックスを出力とする畳み込みニューラルネットワークを使用する、識別モデルを設計するステップ3)と、
3チャンネルカラー時間周波数画像と注釈ファイルとを畳み込みニューラルネットワークに入力して訓練を行い、損失関数によってネットワークの出力及び注釈信号の損失を算出し、訓練中にこの損失を絶えずに最適化させて、所定の回数に達すると訓練を終了し、識別モデルを得るステップであって、
畳み込みニューラルネットワークの出力及び実際の注釈信号の損失は以下の関数:
5)検出対象データにステップ1)と同様な処理をしてカラー時間周波数画像を得て、次に、検出対象データの時間周波数画像をステップ4)で訓練されたモデルに入力し、モデルによって計算を行って出力マトリックスを出力し、出力マトリックスの情報について変換及びスクリーニングを行い、中心座標、長さ、幅、信頼度及びカテゴリラベルを含む複数組の識別結果を得るステップであって、中心座標、長さ、及び幅で構成される矩形ボックスはモデルによって検出された信号を表し、信頼度及びカテゴリラベルは種の分類を表すステップとを含む、方法。
【請求項2】
前記ステップ3)における識別モデルに使用される畳み込みニューラルネットワークは24個の畳み込み層、2個のプーリング層及び2個の完全接続層を有する、ことを特徴とする請求項1に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は信号処理の分野に属し、畳み込みニューラルネットワークに基づく海洋哺乳類鳴音のリアルタイム識別方法に関する。
【背景技術】
【0002】
海洋哺乳類の通信交流用鳴音は周波数変調信号であり、信号周波数は時間変化に伴い形式が多様であり、主に個体や集団間の相互連絡、感情表現、情報伝達などに用いられる。動物の通信交流用鳴音を利用した音響モニタリングは海洋動物の個体群分布、出現状況を調査する最も重要な手段である。そのため、海洋哺乳類の鳴音の検出と分類アルゴリズムの開発が必要となっている。現在、大部分のアルゴリズムはエッジ検出、連通領域識別や局部最大値などの方式で時間周波数図中の曲線を検出して動物の音響信号を追跡し、一部のアルゴリズムは特徴を抽出し、ランダムフォレストに類似する分類アルゴリズムを用いて信号を分類する。これらのアルゴリズムの欠点は、特徴抽出が困難であり、計算には時間がかかるため、リアルタイムモニタリングシステムに利用できないことである。
【発明の概要】
【発明が解決しようとする課題】
【0003】
従来方法に存在する問題を解決するために、本発明は、畳み込みニューラルネットワークに基づく海洋哺乳類鳴音のリアルタイム識別方法を提供する。該方法は、海洋哺乳類の鳴音の検出と分類をワンステップで行うことで、動物鳴音のワンステップ識別を可能とし、高精度でありながら、リアルタイム性を有する。
【課題を解決するための手段】
【0004】
本発明は以下の技術案によって達成される。
【0005】
畳み込みニューラルネットワークに基づく海洋哺乳類鳴音のリアルタイム識別方法であって、
1つの水中音響信号セグメントを標準化処理して、等長さのNセグメントに分割し、高速フーリエ変換によって時間周波数処理を行い、データセグメント毎の時間周波数図を取得し、3チャンネル(RGB)カラー時間周波数画像として記憶する、信号処理のステップ1)と、
3チャンネルカラー時間周波数画像のそれぞれをチェックして、現れた海洋哺乳類鳴音信号の輪郭を矩形ボックスで囲み、種のカテゴリを注釈し、プログラムによって矩形ボックスの中心座標、幅及び高さを自動的に取得して、この注釈情報を注釈ファイルに書き込む、信号注釈のステップ2)と、
識別モデルには、3チャンネルカラー時間周波数画像マトリックスを入力、識別マトリックスを出力とした畳み込みニューラルネットワークを使用する、識別モデルを設計するステップ3)と、
3チャンネルカラー時間周波数画像と注釈ファイルとを畳み込みニューラルネットワークに入力して訓練を行い、損失関数によってネットワークの出力及び注釈信号の損失を算出し、訓練中にこの損失を絶えずに最適化させて、所定の回数に達すると訓練を終了し、識別モデルを得るステップであって、
畳み込みニューラルネットワークの出力及び実際の注釈信号の損失は、以下の関数:
まず、検出対象データにステップ1)と同様な処理をしてカラー時間周波数画像を得て、次に、検出対象データの時間周波数画像をステップ4)で訓練されたモデルに入力し、モデルによって計算を行って出力マトリックスを出力し、出力マトリックスの情報について変換及びスクリーニングを行い、中心座標、長さ、幅、信頼度及びカテゴリラベルを含む複数組の識別結果を得るステップであって、中心座標、長さ、及び幅で構成される矩形ボックスはモデルによって検出された信号を表し、信頼度及びカテゴリラベルは種の分類を表す、ステップ5)とを含む。
【0006】
さらに、前記標準化処理ステップは、まず、信号のDC成分を除去し、すなわち、St=S-mean(s)、ここでmean()は平均値を取る操作を表し、信号の電力を正規化し、すなわち、St=St/Std(St)、ここで、Std()は標準差を取る操作を表す。
【0007】
さらに、前記ステップ3)における識別モデルに使用される畳み込みニューラルネットワークは24個の畳み込み層、2個のプーリング層及び2層の完全接続層を有する。
【発明の効果】
【0008】
従来技術に比べて、本発明の有益な効果は以下のとおりである。
本方法では、畳み込みニューラルネットワークによって、時間周波数画像内の哺乳動物の音響信号がさらにワンステップで識別されることで、高い精度及びリコール率を維持しながら、データ処理速度を速め、識別全体はリアルタイムで行われる。
【図面の簡単な説明】
【0009】
【
図5】本発明の識別モデルの構築ステップの概略図である。
【発明を実施するための形態】
【0010】
以下、特定の実施形態を参照して本発明の技術案についてさらに説明するが、本発明の特許範囲は実施例によって何ら制限されるものではない。
【0011】
実施例1
本発明は、畳み込みニューラルネットワークに基づく哺乳動物鳴音識別方法を提案している。該方法は、検出対象時間周波数画像を複数の検出ユニットに分割し、各ユニット内に1組の検出枠の座標、該ユニットに信号が含まれる信頼度及び信号の属する種のカテゴリを出力する。モデルは全ての検出ユニットの予測結果をフィルタリングしてスクリーニングをし、最終的な検出・分類結果得る。時間周波数画像毎の全ての検出ユニットを同時に処理し、かつ各検出ユニット内の検出と分類を同時に行うことで、処理速度を速め、モデルがデータをリアルタイムで識別処理することを可能とする。
【0012】
まず、
図5に示す流れに従って識別モデルを作成し、次に、作成したモデルを用いてデータを処理する。具体的なステップは以下のとおりである。
【0013】
第1ステップ、一部の水中音響データSに標準化操作を実行して標準化データ信号を得る。標準化操作ステップでは、まず、信号のDC成分を除去し、すなわち、S
t=S-mean(s)、ここで、mean()は平均値を採る操作を表し、信号の電力を正規化し、すなわち、S
t=S
t/Std(S
t)、ここで、Std()は標準差を取る操作を表す。次に、信号をセグメント化し、S
d=S
t/Nによって信号をNセグメントに分割し、1セグメントの長さを約1.2s(
図1)とする。次に、信号S
dに時間周波数処理を行って、信号のカラー時間周波数図(
図2)を得る。
【0014】
第2ステップ、信号注釈。生成したカラー時間周波数図をそれぞれチェックし、見つけられた哺乳動物鳴音信号を矩形ボックスで囲み、プログラムによって矩形ボックスの中心座標、幅及び高さを自動的に取得しながら、信号を属する種に分ける。以上の注釈情報を注釈ファイルに書き込む。
【0015】
第3ステップ、識別モデルを設計する。識別モデルに使用される畳み込みニューラルネットワークは合計24層であり、24個の畳み込み層、2個のプーリング層及び2個の完全接続層である。1層目の入力はサイズ(456、456、3)のカラー時間周波数画像であり、畳み込みニューラルネットワークの出力は(7、7、8)の3次元出力マトリックスである。畳み込みニューラルネットワークの出力及び実際の注釈信号の損失は以下の関数:
【0016】
第4ステップ、識別モデルを訓練する。時間周波数画像と注釈ファイルとを畳み込みニューラルネットワークに入力し、定義された損失関数によって損失を算出して最適化させる。所定の回数に達すると訓練を終了し、識別モデルを得る。モデルは、使用される際には、3チャンネルカラー時間周波数画像を1枚入力し、種カテゴリラベル及び信頼度が付いた複数の検出枠を検出識別結果として出力する。
【0017】
実際に使用する際には、まず、検出対象データに第1ステップと同様なステップ処理をして時間周波数画像を得る。次に、検出対象データの時間周波数画像を訓練済みのモデルに入力し、モデルによって計算を行って出力マトリックスを出力し、出力マトリックスの情報について変換及びスクリーニングを行い、中心座標、長さ、幅、信頼度及びカテゴリラベルを含む複数組の識別結果を得る。中心座標、長さ、及び幅で構成される矩形ボックスはモデルによって検出された信号を表し、信頼度及びカテゴリラベルは種の分類を表す。このように、モデルは動物音響信号の検出と分類との2つのタスクをワンステップで完了する(
図3)。
【0018】
本発明の方法の性能をさらに確かめるために、ミナミハンドウイルカのホイッスルボイス信号、ジュゴンのチャープ音信号及びシナウスイロイルカのホイッスルボイス信号を含む水中音響データを用いて、識別モデルを構築して実験を行う(
図4)。実験結果から明らかなように、モデルは、3種類の動物の鳴音信号に対する平均リコール率が84.82%に達し、平均精度が91.28%である。Intel(R) Core(TM) i7-8565U CPUのラップトップをテストプラットフォームとして、モデルは、時間周波数画像に対応する1秒当たりのデータを識別するには0.7063秒がかかり、このため、リアルタイム識別の要件を満たす。