特開2022-190308 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社オリエンタルコンサルタンツの特許一覧 ▶ 石川県公立大学法人の特許一覧

特開2022-190308音源位置推定方法、学習モデル生成方法、音源位置推定装置、及び音源位置推定システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022190308

(43)【公開日】2022-12-26

(54)【発明の名称】音源位置推定方法、学習モデル生成方法、音源位置推定装置、及び音源位置推定システム

(51)【国際特許分類】

G01S 5/22 20060101AFI20221219BHJP

【ＦＩ】

G01S5/22

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2021098573

(22)【出願日】2021-06-14

(71)【出願人】

【識別番号】390034463

【氏名又は名称】株式会社オリエンタルコンサルタンツ

(71)【出願人】

【識別番号】511169999

【氏名又は名称】石川県公立大学法人

(74)【代理人】

【識別番号】100112874

【弁理士】

【氏名又は名称】渡邊薫

(72)【発明者】

【氏名】岩見聡

(72)【発明者】

【氏名】上野裕介

【テーマコード（参考）】

5J083

【Ｆターム（参考）】

5J083AA05

5J083AB14

5J083AC29

5J083AD02

5J083AF01

5J083BC10

5J083BE11

5J083BE43

5J083CA10

5J083CA13

(57)【要約】

【課題】猛禽類の営巣地を特定するために、猛禽類の鳴き声の音源位置を推定する。
【解決手段】コンピュータを利用して、猛禽類の鳴き声の音源位置を推定する方法であって、複数の音声取得位置のそれぞれにおいて取得された音声データに含まれる前記鳴き声の音圧レベルに基づいて、前記音声取得位置と前記音源位置との距離に対応した前記音圧レベルの減衰量を用いて前記音源位置を推定する推定段階（Ｓ２）を少なくとも含む、音源位置推定方法を提供する。
【選択図】図３

【特許請求の範囲】

【請求項1】

コンピュータを利用して、猛禽類の鳴き声の音源位置を推定する方法であって、
複数の音声取得位置のそれぞれにおいて取得された音声データに含まれる前記鳴き声の音圧レベルに基づいて、前記音声取得位置と前記音源位置との距離に対応した前記音圧レベルの減衰量を用いて前記音源位置を推定する推定段階を少なくとも含む、音源位置推定方法。

【請求項2】

前記音声取得位置の数が少なくとも４つであり、
前記推定段階が、４つの前記音声データのそれぞれに含まれる前記音圧レベルの前記減衰量を算出するための三元連立方程式を解くことにより前記音源位置を推定する、
請求項１に記載の音源位置推定方法。

【請求項3】

前記推定段階の前に、分析段階をさらに含んでおり、
前記分析段階が、前記音声データに含まれている前記鳴き声の種別を判定する、
請求項１又は２に記載の音源位置推定方法。

【請求項4】

前記分析段階において、前記鳴き声に関する情報が含まれる画像データと、前記鳴き声の種別情報と、が含まれる教師データを用いて学習した学習モデルが、前記画像データを得て、前記種別を判定する、
請求項３に記載の音源位置推定方法。

【請求項5】

猛禽類の鳴き声に関する情報が含まれる画像データと、該猛禽類の鳴き声の種別情報と、が含まれる教師データを取得する取得段階と、
前記教師データを用いて、前記画像データを入力とし、前記種別情報を出力とする学習モデルを生成する生成段階と、を少なくとも含む、
学習モデル生成方法。

【請求項6】

複数の音声取得位置のそれぞれにおいて取得された音声データに含まれる猛禽類の鳴き声の音圧レベルに基づいて、前記音声取得位置と音源位置との距離に対応した前記音圧レベルの減衰量を用いて前記音源位置を推定する推定部を少なくとも含んでいる、音源位置推定装置。

【請求項7】

情報通信ネットワークを介して実現されており、猛禽類の鳴き声の音源位置を推定する音源位置推定システムであって、
複数の音声取得位置のそれぞれにおいて音声データを取得する音声取得装置と、
音源位置推定装置と、を少なくとも備えており、
前記音源位置推定装置が、前記音声取得装置が取得した音声データに含まれる前記鳴き声の音圧レベルに基づいて、前記音声取得位置と前記音源位置との距離に対応した前記音圧レベルの減衰量を用いて前記音源位置を推定する、音源位置推定システム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音源位置推定方法、学習モデル生成方法、音源位置推定装置、及び音源位置推定システムに関する。

【背景技術】

【0002】

自然は豊かな人間生活のために不可欠な構成要素である。そのため、人間と自然の共存を目指した自然環境の保全が求められている。

【0003】

自然環境において、ワシタカ類やフクロウ類などの猛禽類は、食物連鎖の頂点に位置し、生態系の健全度を示す存在である。猛禽類の保護は、その猛禽類が生息する生態系の保護につながる。そのため、公共事業等を対象に実施される環境アセスメント等において、猛禽類は調査対象種として選定されている。

【0004】

猛禽類調査では、繁殖期を中心にして調査が計画され、実施されている。これは、事業計画地およびその周辺での繁殖期における営巣の有無や繁殖の成否が、事業による影響を予測、評価し、保全対策を検討、実施する上で重要との認識に基づいている。特に、猛禽類の営巣地の営巣木を特定することは、工事中の保全対策を検討する上で必須となる。

【0005】

加えて、環境アセスメント等において事業の影響を事前に予測、評価する上では、営巣中心域を特定することも重要である。営巣中心域は、「営巣地の営巣木を中心に交尾や求愛行動（例えば、発声や求愛給餌など）が行われ、また、抱卵、育雛を経て幼鳥が巣立つまで過ごす区域」と定義される。営巣中心域は、猛禽類の繁殖にとって最も重要なエリアである。営巣中心域の改変や繁殖期における人の立ち入り、工事の実施は、繁殖に及ぼす影響が大きいため、慎重に取り扱われるべきとされている。特に、例えばオオタカの場合、営巣中心域は、幼鳥の行動範囲から推定されるため、営巣地における幼鳥の行動を把握することも必須になる。

【0006】

例えば、特許文献１では、工事周辺の猛禽類の営巣を直接監視し、猛禽類の挙動を監視して、異常挙動を検出し、工事の影響によるものか、工事以外の影響によるものかを自動判定し、工事管理者に通知して、営巣放棄や繁殖失敗などの危機回避の対策を講じる猛禽類異常挙動自動解析システムが開示されている。

【先行技術文献】

【特許文献】

【0007】

【特許文献1】特開２００８－１５８７４５号公報

【発明の概要】

【発明が解決しようとする課題】

【0008】

猛禽類調査では、営巣地を特定するため、猛禽類の飛翔等を望遠鏡で目視観察し、繁殖に係る行動から営巣の可能性のある地域を絞り込み、当該地域の林内を踏査して営巣木を直接確認することが行われている。あるいは、営巣中心域を特定するため、オオタカなどの幼鳥の行動を追跡することも行われている。

【0009】

しかし、視界を遮るものが多い林内の調査では、著しく視認性が低下する。また、夜行性のフクロウ類の場合には、目視観察すること自体が困難である。加えて、そもそも猛禽類は、絶滅危惧種等に指定されている種が多く、生息個体数が少ない。そのため、限られた時間内での調査では遭遇確率が低く、発見漏れのリスクも高い。猛禽類調査では、これらの問題点をふまえ、調査精度を確保し、効果的に調査することが求められる。

【0010】

また、道路やダム等の大規模な公共事業では事業期間も長期に渡る。猛禽類の調査では、２営巣期を含む１．５年の調査が行われるが、事業の計画、実施、供用の各段階での調査が必要で、膨大なコストや時間を要する。公共事業をとりまく財政面での環境が厳しくなる中で、猛禽類調査もコストの面で効率的に調査することが求められている。

【0011】

本発明は、猛禽類調査において、効率的、効果的に営巣の有無や繁殖の成否の判断、営巣地の特定等を行うため、猛禽類の鳴き声の音源位置を推定する装置、システム、及び方法を提供することを主目的とする。

【課題を解決するための手段】

【0012】

本発明は、コンピュータを利用して、猛禽類の鳴き声の音源位置を推定する方法であって、複数の音声取得位置のそれぞれにおいて取得された音声データに含まれる前記鳴き声の音圧レベルに基づいて、前記音声取得位置と前記音源位置との距離に対応した前記音圧レベルの減衰量を用いて前記音源位置を推定する推定段階を少なくとも含む、音源位置推定方法を提供する。
前記音声取得位置の数が少なくとも４つであり、前記推定段階が、４つの前記音声データのそれぞれに含まれる前記音圧レベルの前記減衰量を算出するための三元連立方程式を解くことにより前記音源位置を推定してもよい。
前記推定段階の前に、分析段階をさらに含んでおり、前記分析段階が、前記音声データに含まれている前記鳴き声の種別を判定してもよい。
前記分析段階において、前記鳴き声に関する情報が含まれる画像データと、前記鳴き声の種別情報と、が含まれる教師データを用いて学習した学習モデルが、前記画像データを得て、前記種別を判定してもよい。
また、本発明は、猛禽類の鳴き声に関する情報が含まれる画像データと、該猛禽類の鳴き声の種別情報と、が含まれる教師データを取得する取得段階と、前記教師データを用いて、前記画像データを入力とし、前記種別情報を出力とする学習モデルを生成する生成段階と、を少なくとも含む、学習モデル生成方法を提供する。
また、本発明は、複数の音声取得位置のそれぞれにおいて取得された音声データに含まれる猛禽類の鳴き声の音圧レベルに基づいて、前記音声取得位置と音源位置との距離に対応した前記音圧レベルの減衰量を用いて前記音源位置を推定する推定部を少なくとも含んでいる、音源位置推定装置を提供する。
また、本発明は、情報通信ネットワークを介して実現されており、猛禽類の鳴き声の音源位置を推定する音源位置推定システムであって、複数の音声取得位置のそれぞれにおいて音声データを取得する音声取得装置と、音源位置推定装置と、を少なくとも備えており、前記音源位置推定装置が、前記音声取得装置が取得した音声データに含まれる前記鳴き声の音圧レベルに基づいて、前記音声取得位置と前記音源位置との距離に対応した前記音圧レベルの減衰量を用いて前記音源位置を推定する、音源位置推定システムを提供する。

【発明の効果】

【0013】

本発明によれば、猛禽類の鳴き声の音源位置を推定する方法、装置、及びシステムを提供することができる。

【図面の簡単な説明】

【0014】

【図1】本発明の一実施形態に係る音源位置推定方法において用いる音声取得装置の配置についての説明図である。

【図2】本発明の一実施形態に係る音源位置推定方法のフローチャートである。

【図3】本発明の一実施形態に係る音源位置及び音声取得位置の平面座標及び音圧等を示す説明図である。

【図4】本発明の一実施形態に係る音源位置推定方法のフローチャートである。

【図5】本発明の一実施形態に係る分析段階のフローチャートである。

【図6】本発明の一実施形態に係る音源位置推定方法が用いるスペクトログラムの一例である。

【図7】オオタカの鳴き声の種別を示す説明図である。

【図8】本発明の一実施形態に係る学習モデルを示す図である。

【図9】本発明の一実施形態に係る学習モデル生成方法のフローチャートである。

【図10】本発明が利用するコンピュータの一実施形態のハードウェア構成図である。

【図11】本発明の一実施形態に係る音源位置推定装置を示す構成図である。

【図12】本発明の一実施形態に係る音源位置推定システムを示す構成図である。

【図13】本発明が利用する音声取得装置の一実施形態のハードウェア構成図である。

【図14】本発明の一実施形態に係る学習済みモデルの検証結果を示す図である。

【図15】本発明の一実施形態に係る音源位置推定方法による推定結果を説明するための図である。

【図16】本発明の一実施形態に係る音源位置推定方法による推定結果を説明するための図である。

【図17】本発明の一実施形態に係る音源位置推定方法による推定結果を示す図である。

【図18】本発明の一実施形態に係る音源位置推定方法による推定結果を示す図である。

【図19】本発明の一実施形態に係る音源位置推定方法による推定結果を示す図である。

【発明を実施するための形態】

【0015】

以下、本技術を実施するための好適な形態について説明する。以下に説明する実施形態は、本技術の代表的な実施形態の一例を示したものであり、これにより本技術の範囲が狭く解釈されることはない。なお、特に断りがない限り、図面において、「上」とは図中の上方向又は上側を意味し、「下」とは、図中の下方向又は下側を意味し、「左」とは図中の左方向又は左側を意味し、「右」とは図中の右方向又は右側を意味する。また、図面については、同一又は同等の要素又は部材には同一の符号を付し、重複する説明は省略する。

【0016】

本発明の説明は以下の順序で行う。
１．本発明に係る第１の実施形態（音源位置推定方法）
（１）概要
（２）推定段階
（３）分析段階
（４）学習モデル生成方法
（５）ハードウェア構成
２．本発明に係る第２の実施形態（音源位置推定装置）
３．本発明に係る第３の実施形態（音源位置推定システム）
４．実施例
（１）鳴き声の種別の判定
（２）鳴き声による位置の推定

【0017】

＜１．本発明に係る第１の実施形態（音源位置推定方法）＞

【0018】

＜（１）概要＞
本発明に係る音源位置推定方法は、コンピュータを利用して、例えば猛禽類などの鳴き声の音源位置を推定する方法である。猛禽類の種類は特に限定されないが、例えばオオタカが選定されてもよい。オオタカは、環境省レッドリストにおいて準絶滅危惧種に指定されている。オオタカは生態系の上位種であり、環境影響評価などに活用されている「猛禽類保護の進め方」（環境省、平成２４年）においても保全対象とされている種である。

【0019】

あるいは、猛禽類の種類として例えばフクロウが選定されてもよい。フクロウは夜行性であるため、人間による調査作業も夜間に行う必要がある。しかし、夜間の調査作業は困難を極めるためである。

【0020】

本発明に係る音源位置推定方法では、猛禽類の鳴き声が含まれる音声データを取得する。このことについて図１を参照しつつ説明する。図１は、本発明の一実施形態に係る音源位置推定方法において用いる音声取得装置の配置についての説明図である。

【0021】

図１に示されるとおり、猛禽類の営巣地が存在することが推測される位置の周辺に、複数の音声取得装置がランダム又は規則的に配置される。数字は、音声取得装置が配置されている位置を示す。星印は、猛禽類の営巣地が存在することが推測される位置を示す。なお、配置する音声取得装置の数は特に限定されない。

【0022】

この音声取得装置には、例えばＩＣレコーダーやＰＣＭレコーダー等が用いられてもよい。あるいは、この音声取得装置には、高感度のマイクロフォンが用いられてよい。これにより、音声取得装置の数が削減できる。

【0023】

複数の音声取得装置のそれぞれは、猛禽類の鳴き声が含まれる音声データを取得する。この音声データの形式は、例えばサンプリング周波数が４４．１ｋＨｚ、量子化ビット数が１６ビット、チャンネル数が２チャンネルでありうる。

【0024】

＜（２）推定段階＞
本発明に係る音源位置推定方法について図２を参照しつつ説明する。図２は、本発明の一実施形態に係る音源位置推定方法のフローチャートである。図２に示されるとおり、本発明に係る音源位置推定方法は、推定段階（Ｓ２）を少なくとも含む。

【0025】

推定段階（Ｓ２）は、複数の音声取得位置のそれぞれにおいて同一時刻に取得された音声データに含まれる前記鳴き声の音圧レベルに基づいて、前記音声取得位置と前記音源位置との距離に対応した前記音圧レベルの減衰量を用いて前記音源位置を推定する。

【0026】

音声データに含まれる音圧レベルＰは、例えば下記の式（１）で求められる。ｐはサンプリング周波数毎の音圧である。Ｔは音声の長さである。ｍはサンプリングデータ数である。

【0027】

【数1】

【0028】

音源位置の音圧レベルＰ_０は、例えば下記の式（２）で求められる。Ｐ_ｉは音声データを取得する位置である音声取得位置ｉにおける音圧レベルである。ｒ_ｉは音源位置から音声取得位置ｉまでの距離である。

【0029】

【数2】

【0030】

音源位置の音圧ｐ_０と、音源位置の平面座標（ｘ_０、ｙ_０）と、音声取得位置ｉの音圧ｐ_ｉと、音声取得位置ｉの平面座標（ｘ_ｉ、ｙ_ｉ）を用いて、上記の式（２）は下記の式（３）のように変形される。

【0031】

【数3】

【0032】

この平面座標について図３を参照しつつ説明する。図３は、本発明の一実施形態に係る音源位置及び音声取得位置の平面座標及び音圧等を示す説明図である。図３に示されるとおり、図の中央に音源位置０が配置されており、音源位置の周囲に４つの音声取得位置（１～４）が配置されている。

【0033】

音源位置０の平面座標は（ｘ_０、ｙ_０）である。音源位置０の音圧レベルはＰ_０である。
音源位置０から右上にある音声取得位置１の平面座標は（ｘ_１、ｙ_１）である。音声取得位置１の音圧レベルはＰ_１である。音声取得位置１の音圧はｐ_１である。なお、音源位置０から音声取得位置１までの距離はｒ_１である。
同様に、音源位置０から左上にある音声取得位置２の平面座標は（ｘ_２、ｙ_２）である。音声取得位置２の音圧レベルはＰ_２である。音声取得位置２の音圧はｐ_２である。なお、音源位置０から音声取得位置２までの距離はｒ_２である。
同様に、音源位置０から左下にある音声取得位置３の平面座標は（ｘ_３、ｙ_３）である。音声取得位置３の音圧レベルはＰ_３である。音声取得位置３の音圧はｐ_３である。なお、音源位置０から音声取得位置３までの距離はｒ_３である。
同様に、音源位置０から右下にある音声取得位置４の平面座標は（ｘ_４、ｙ_４）である。音声取得位置４の音圧レベルはＰ_４である。音声取得位置４の音圧はｐ_４である。なお、音源位置０から音声取得位置４までの距離はｒ_４である。

【0034】

これらの変数を用いて、上記の式（３）から下記の式（４）、式（５）、及び式（６）に示す三元連立方程式に変形する。

【0035】

【数4】

【0036】

【数5】

【0037】

【数6】

【0038】

上記の式（４）、式（５）、及び式（６）からなる三元連立方程式を解くことにより、音源位置０の平面座標（ｘ_０、ｙ_０）を求めることができる。

【0039】

なお、３つの音声取得位置のそれぞれにおいて取得された音声データから音源位置の平面座標を推定することも理論上は可能である。しかし、誤差を低減し、高精度に推定するためには、少なくとも４つの音声取得位置のそれぞれにおいて音声データを取得することが好ましい。

【0040】

＜（３）分析段階＞
ところで、猛禽類の営巣地を特定するためには、まず、音声データを分析して猛禽類（例えばオオタカ等）の鳴き声を抽出することが好ましい。さらには、営巣地における鳴き声の種別と、営巣地ではない場所における鳴き声の種別は異なるため、鳴き声の種別を判定することが好ましい。

【0041】

そこで、本発明に係る音源位置推定方法は、推定段階（Ｓ２）の前に、音声データを分析する分析段階をさらに含むことができる。このことについて図４を参照しつつ説明する。図４は、本発明の一実施形態に係る音源位置推定方法のフローチャートである。図４に示されるとおり、本発明に係る音源位置推定方法は、推定段階（Ｓ２）の前に、分析段階（Ｓ１）をさらに含んでいる。

【0042】

分析段階（Ｓ１）の具体的な処理について図５を参照しつつ説明する。図５は、本発明の一実施形態に係る分析段階の一例のフローチャートである。

【0043】

図５に示されるとおり、分析段階（Ｓ１）は、まず、音声データに対して高速フーリエ変換による周波数分析（ＦＦＴ分析）を行う（Ｓ１０１）。この周波数分析により、スペクトログラムが作成される。

【0044】

ここで、スペクトログラムについて図６を参照しつつ説明する。図６は、本発明の一実施形態に係る音源位置推定方法が用いるスペクトログラムの一例である。図６に示されるとおり、スペクトログラムは、時間、周波数、及び強度の三次元で音声波形の情報を表示した画像データである。このスペクトログラムにおいて、横軸が時間を示し、縦軸が周波数を示し、色が音圧を示している。なお、図６Ａ、図６Ｂ、及び図６Ｃのそれぞれの説明については後述する。

【0045】

図５の説明に戻る。次に、分析段階（Ｓ１）は、このスペクトログラムに対してノイズを除去する（Ｓ１０２）。具体的には、例えば、猛禽類（例えばオオタカ等）の鳴き声の主音域が１．０～６．５ｋＨｚであるとき、この主音域以外の周波数帯のパワー値をゼロとすることにより、ノイズが除去される。

【0046】

次に、分析段階（Ｓ１）は、このスペクトログラムの特徴量を得る。具体的には、例えばスペクトログラムを走査しながら、下記の式（７）に示される畳み込み積分を行う（Ｓ１０３）。下記の式（７）において、Ｑ_ｉ，ｊは、出力されるスペクトログラム（特徴マップ）のｉ、ｊ成分である。Ｉ_ｉ，ｊは、入力されるスペクトログラムのｉ、ｊ成分である。Ｋ_ｍ，ｎは、カーネル（フィルタ）のｍ、ｎ成分である。

【0047】

【数7】

【0048】

この畳み込み積分には、例えば４パターンのカーネルが用いられる。具体的には、水平線を検出するカーネルＶ１（－１、－１、－１、２、２、２、－１、－１、－１）、左対角線を検出するカーネルＶ２（２、－１、－１、－１、２、－１、－１、－１、２）、右対角線を検出するカーネルＶ３（－１、－１、２、－１、２、－１、２、－１、－１）、及び垂直線を検出するカーネルＶ４（－１、２、－１、－１、２、－１、－１、２、－１）が用いられる。なお、これらに加えて、平滑化するカーネルＶ５が用いられてもよい。

【0049】

この畳み込み積分により、分析段階（Ｓ１）は、スペクトログラムの特徴量を得ることができる。

【0050】

次に、分析段階（Ｓ１）は、プーリング処理によって、スペクトログラムである画像データのサイズを縮小する（Ｓ１０４）。

【0051】

次に、分析段階（Ｓ１）は、スペクトログラムに含まれている鳴き声の種別を判定する（Ｓ１０５）。鳴き声の種別について図７を参照しつつ説明する。図７は、オオタカの鳴き声の種別を示す説明図である。図７に示されるとおり、例えば種別「警戒」の音声のパターンは「ケッケッケッ」である。この種別「警戒」は、主に成長のオスが発する傾向にある。

【0052】

種別についてさらに図６に示されるスペクトログラムを再び参照しながら説明する。図６Ａは、種別が「成鳥（警戒）」であるスペクトログラムの一例である。図６Ｂは、種別が「成鳥（餌乞）」であるスペクトログラムの一例である。図６Ｃは、種別が「幼鳥」であるスペクトログラムの一例である。

【0053】

図５の説明に戻る。分析段階（Ｓ１）は、機械学習済みの学習モデルを用いて、スペクトログラムに含まれている鳴き声の種別を判定する（Ｓ１０５）。学習モデルとして、例えば決定木モデルを用いることができる。この学習モデルは、スペクトログラムである画像データ及び鳴き声の種別情報が含まれる教師データを用いて学習している。

【0054】

学習モデルについて図８を参照しつつ説明する。図８は、本発明の一実施形態に係る学習モデルを示す図である。図８に示されるとおり、本実施例では学習モデルの一例である決定木モデルを用いる。
最上層に配置されるルートノードには、「Ｖ１１１０７＞＝９２」という条件式が示されている。この条件式において、最初の２文字はカーネルの種別（Ｖ１～Ｖ５）を示す。その次の４文字は音声フレームの座標を示す。最後の２文字は輝度（０～２５５）を示す。つまり、「Ｖ１１１０７＞＝９２」という条件式が示す意味は、「水平線を検出するカーネルＶ１が用いられるとき、横方向のｘ座標が１１、縦方向のｙ座標が０７である位置の輝度が９２以上である」という意味である。この条件式を満たすときは左下のノードに進み、この条件式を満たさないときは右下のノードに進む。条件式に含まれるパラメータは、機械学習によって変更されうる。

【0055】

このようにして、コンピュータは、スペクトログラムである画像データを得て、学習モデルを用いて鳴き声の種別を判定することができる。なお、本実施例では学習モデルとして決定木モデルが用いられているが、これに限られない。例えば、学習モデルとしてニューラルネットワークが用いられてもよい。

【0056】

＜（４）学習モデル生成方法＞
本発明において用いられる学習モデルの生成方法について図９を参照しつつ説明する。図９は、本発明の一実施形態に係る学習モデル生成方法のフローチャートである。

【0057】

図９に示されるとおり、本発明に係る学習モデル生成方法は、取得段階（Ｓ３）と、生成段階（Ｓ４）と、を少なくとも含む。

【0058】

まず、取得段階（Ｓ３）は、学習モデルが学習するための教師データを取得する。教師データには、猛禽類の鳴き声に関する情報が含まれる画像データ（スペクトログラム）と、猛禽類の鳴き声の種別情報と、が含まれている。この画像データは、上述した畳み込み積分及びプーリング処理が行われていることが好ましい。

【0059】

次に、生成段階（Ｓ４）は、前記教師データを用いて、前記画像データを入力とし、前記種別情報を出力とする学習モデルを生成する。なお、学習モデルは、例えば決定木モデルでもよいし、ニューラルネットワークでもよい。

【0060】

生成段階（Ｓ４）が生成した学習モデルの検証方法について説明する。学習モデルの検証は、検証用データ（教師データ以外のデータ）により、判別した種別毎の適合率を算出することにより行うことができる。学習モデルが例えばＡと判別したデータ数をｎとし、そのうち、実際もＡであったデータ数をｎ^＊とするとき、学習モデルがＡと判別した時の適合率（正答率）ｑは、例えば下記の式（８）で求められる。

【0061】

【数8】

【0062】

＜（５）ハードウェア構成＞
本発明が利用するコンピュータのハードウェア構成について図１０を参照しつつ説明する。図１０は、本発明が利用するコンピュータ５０の一実施形態のハードウェア構成図である。

【0063】

図１０に示されるとおり、コンピュータ５０は、構成要素として、ＣＰＵ１０１、ストレージ１０２、ＲＡＭ（Random Access Memory）１０３、及びディスプレイ１０４を備えうる。それぞれの構成要素は、例えばデータの伝送路としてのバスで接続されている。

【0064】

ＣＰＵ１０１は、例えばマイクロコンピュータにより実現され、コンピュータ５０のそれぞれの構成要素を制御する。ＣＰＵ１０１は、例えば推定段階（Ｓ２）等を行うことができる。この推定段階（Ｓ２）等は、例えばプログラムにより実現されうる。このプログラムをＣＰＵ１０１が読み込むことによって機能しうる。

【0065】

ストレージ１０２は、ＣＰＵ１０１が使用するプログラムや演算パラメータ等の制御用データ等を記憶する。ストレージ１０２は、例えばＨＤＤ（Hard Disk Drive）又はＳＳＤ（Solid State Drive）等を利用することにより実現されうる。ストレージ１０２は、例えば音声データや画像データ等を保有する。

【0066】

ＲＡＭ１０３は、例えば、ＣＰＵ１０１により実行されるプログラム等を一時的に記憶する。

【0067】

ディスプレイ１０４は、情報を表示する。ディスプレイ１０４は、例えば音源位置を表示しうる。ディスプレイ１０４は、例えばＬＣＤ（Liquid Crystal Display）またはＯＬＥＤ（Organic Light-Emitting Diode）等により実現されうる。

【0068】

図示を省略するが、コンピュータ５０は、通信インタフェースを備えていてもよい。この通信インタフェースは、例えばＷｉ－Ｆｉ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＬＴＥ（Long Term Evolution）等の通信技術を利用して、情報通信ネットワークを介して通信する機能を有する。例えば、ＣＰＵ１０１は、この通信インタフェースを介して得られた音声データに基づいて、音源位置を推定しうる。

【0069】

コンピュータ５０は、例えばサーバであってもよいし、スマートフォン端末、タブレット端末、携帯電話端末、ＰＤＡ（Personal Digital Assistant）、ＰＣ（Personal Computer）、携帯用音楽プレーヤー、携帯用ゲーム機、またはウェアラブル端末（ＨＭＤ：Head Mounted Display、メガネ型ＨＭＤ、時計型端末、バンド型端末等）であってもよい。

【0070】

推定段階（Ｓ２）等を実現するプログラムは、コンピュータ５０のほかのコンピュータ装置又はコンピュータシステムに格納されてもよい。この場合、コンピュータ５０は、このプログラムが有する機能を提供するクラウドサービスを利用することができる。このクラウドサービスとして、例えばＳａａＳ（Software as a Service）、ＩａａＳ（Infrastructure as a Service）、ＰａａＳ（Platform as a Service）等が挙げられる。

【0071】

さらにこのプログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、Compact Disc Read Only Memory（CD-ROM）、CD-R、CD-R/W、半導体メモリ（例えば、マスクROM、Programmable ROM（PROM）、Erasable PROM（EPROM）、フラッシュROM、Random Access Memory（RAM））を含む。また、上記プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、上記プログラムをコンピュータに供給できる。

【0072】

これ以外にも、本技術の主旨を逸脱しない限り、上記実施の形態で挙げた構成を取捨選択したり、他の構成に適宜変更したりできる。

【0073】

＜２．本発明に係る第２の実施形態（音源位置推定装置）＞
本発明の一実施形態に係る音源位置推定装置について図１１を参照しつつ説明する。図１１は、本発明の一実施形態に係る音源位置推定装置を示す構成図である。図１１に示されるとおり、本発明の一実施形態に係る音源位置推定装置２０は、推定部２１を少なくとも含んでいる。

【0074】

推定部２１は、複数の音声取得位置のそれぞれにおいて取得された音声データに含まれる猛禽類の鳴き声の音圧レベルに基づいて、前記音声取得位置と音源位置との距離に対応した前記音圧レベルの減衰量を用いて前記音源位置を推定する。

【0075】

推定部２１は、第１の実施形態において説明した推定段階（Ｓ２）を行うことができる。そのため、再度の詳細な説明は省略する。

【0076】

音源位置推定装置２０のハードウェアは、第１の実施形態において説明したコンピュータ５０のハードウェアと同じでもよい。そのため、再度の詳細な説明は省略する。

【0077】

＜３．本発明に係る第３の実施形態（音源位置推定システム）＞
本発明の一実施形態に係る音源位置推定システムは、情報通信ネットワークを介して実現されており、猛禽類の鳴き声の音源位置を推定することができる音源位置推定システムである。

【0078】

本発明の一実施形態に係る音源位置推定システムについて図１２を参照しつつ説明する。図１２は、本発明の一実施形態に係る音源位置推定システムを示す構成図である。図１２に示されるとおり、本発明の一実施形態に係る音源位置推定システム１００は、複数の音声取得位置のそれぞれにおいて音声データを取得する音声取得装置１０と、音源位置推定装置２０と、を少なくとも備えている。

【0079】

複数の音声取得装置１０と、音源位置推定装置２０とが、情報通信ネットワーク３０を介して接続されている。なお、音源位置推定装置２０に接続されていない音声取得装置１０があってもよい。さらには、全ての音声取得装置１０が音源位置推定２０に接続されていなくてもよい。

【0080】

音源位置推定装置２０は、音声取得装置１０が取得した音声データに含まれる前記鳴き声の音圧レベルに基づいて、前記音声取得位置と前記音源位置との距離に対応した前記音圧レベルの減衰量を用いて前記音源位置を推定する。

【0081】

音源位置推定装置２０は、第１の実施形態において説明した推定段階（Ｓ２）を行うことができる。そのため、再度の詳細な説明は省略する。

【0082】

複数の音声取得装置１０のそれぞれは、音源位置推定装置２０が有する一部又は全部の機能を有することができる。例えば、複数の音声取得装置１０のそれぞれは、推定部２１を有することができる。

【0083】

同様に、音源位置推定装置２０は、複数の音声取得装置１０のそれぞれが有する一部又は全部の機能を有することができる。例えば、音源位置推定装置２０は、音声取得機能を有することができる。

【0084】

ここで、音声取得装置１０のハードウェア構成について図１３を参照しつつ説明する。図１３は、本発明が利用する音声取得装置１０の一実施形態のハードウェア構成図である。

【0085】

図１３に示されるとおり、音声取得装置１０は、構成要素として、音声取得部１００１、記憶部１００２、制御部１００３を備えうる。それぞれの構成要素は、例えばデータの伝送路としてのバスで接続されている。

【0086】

音声取得部１００１は、音声を取得する。音声取得部１００１は、例えばマイクロフォン等により実現されうる。

【0087】

記憶部１００２は、音声取得部１００１が取得した音声を音声データとして記憶する。記憶部１００２は、例えばＨＤＤ（Hard Disk Drive）又はＳＳＤ（Solid State Drive）等を利用することにより実現されうる。

【0088】

制御部１００３は、音声取得装置１０のそれぞれの構成要素を制御する。制御部１００３は、例えばマイクロコンピュータにより実現されうる。

【0089】

図示を省略するが、音声取得装置１０は、現在位置取得部を備えていてもよい。この位置情報取得部は、外部からの取得信号に基づいて音声取得装置１０の現在位置を検知する機能を有する。具体的には、位置情報取得部は、例えばＧＰＳ（Global Positioning System）測位部により実現され、ＧＰＳ衛星からの電波を受信して、位置情報取得部が存在している位置を検知する。あるいは、位置情報取得部は、ＧＰＳの他、例えばＷｉ－Ｆｉ（登録商標）、携帯電話・ＰＨＳ・スマートフォン等との送受信、または近距離通信等により位置を検知するものであってもよい。

【0090】

図示を省略するが、音声取得装置１０は、通信インタフェースを備えていてもよい。音声取得装置１０が取得した音声データや位置情報等が、この通信インタフェースを介して、音源位置推定装置２０に送信されうる。

【0091】

【0092】

なお、本明細書中に記載した効果はあくまで例示であって限定されるものではなく、また他の効果があってもよい。

【0093】

＜４．実施例＞
＜（１）鳴き声の種別の判定＞
図１に示されるとおり、オオタカの営巣地が存在することが推測される位置の周辺の１６地点に、ＩＣレコーダー（ＳＯＮＹ製、ＩＣＤ－ＵＸ５６０Ｆ）を配置した。それぞれのＩＣレコーダーの録音形式は、サンプリング周波数が４４．１ｋＨｚ、量子化ビット数が１６、チャンネル数が２のリニアＰＣＭとした。

【0094】

録音された複数の音声データのうち、図１における地点１０に配置されたＩＣレコーダーが録音した音声データにおいて、特定の時間帯（平成３０年７月９日ＡＭ６～８時）において、オオタカの鳴き声が特に明瞭かつ高頻度で確認された。そのため、この時間帯の音声データから、図７に示されるような音声フレームを抽出した。さらに、例えば種別「成鳥（警戒）」のように鳴き声が連続している場合には、複数の音声フレームから成る音声セグメントも抽出した。

【0095】

音声フレームに基づいて、音声データから抽出したデータ数は、種別「成鳥（警戒）」が１１９件、種別「成鳥（餌乞）」が１７９件、種別「幼鳥」が４２６件であり、合計７２４件であった。

【0096】

あわせて、この時間帯の音声データに基づいて周波数分析（ＦＦＴ分析）を行い、図６に示されるスペクトログラムを作成した。作成したスペクトログラムの特徴を得るため、上記の式（７）に示される畳み込み積分を行った。畳み込み積分に用いるカーネルは、水平線を検出するカーネルＶ１（－１、－１、－１、２、２、２、－１、－１、－１）、左対角線を検出するカーネルＶ２（２、－１、－１、－１、２、－１、－１、－１、２）、及び平滑化するカーネルＶ５の５つのパターンを用いた。

【0097】

次に、プーリング処理によって、スペクトログラムである画像データのサイズを１１×３３ピクセルに縮小した。

【0098】

次に、スペクトログラムに含まれている鳴き声の種別を判定した。判定には、機械学習モデルの一例である決定木モデルを用いた。決定木モデルの目的変数として、オオタカの巣内育雛期に確認される鳴き声の３つの種別「成鳥（警戒）」「成鳥（餌乞）及び「幼鳥」を用いた。決定木モデルの説明変数として、畳み込み積分及びプーリング処理を行った後の画像データにおけるピクセル毎の値を用いた。

【0099】

音声データから抽出したデータ７２４件のうち半数の３６２件を学習用データとして用い、残りの半数の３６２件を検証用データとして用いた。学習用データを教師データとして、決定木モデルに学習させた。

【0100】

学習済みモデルである決定木モデルによる判定結果の適合率（正解率）ｑを、上記の式（８）で求めた結果について図１４を参照しつつ説明する。図１４は、本発明の一実施形態に係る学習済みモデルの検証結果を示す図である。図１４Ａは、学習用データを用いた検証結果である。図１４Ｂは、検証用データを用いた検証結果である。

【0101】

図１４Ａ及び図１４Ｂのそれぞれにおいて、横方向に並んでいる項目は、決定木モデルが判定した鳴き声の種別である。縦方向に並んでいる項目は、正しい（実際の）鳴き声の種別である。

【0102】

図１４Ａに示されるとおり、例えば種別「成鳥（警戒）」については、決定木モデルが「成鳥（警戒）」と判定したデータ数５１件のうち４６件は正しい種別であった。このとき、判定の適合率（正統率）は、上記の式（８）で求めると、約９０．２％となった。同様に、種別「成鳥（餌乞）」については適合率が８７．５％となり、種別「幼鳥」については適合率が約８３．４％となった。学習用データは学習に用いられた教師データであるため、適合率は高くなった。

【0103】

検証用データを用いた検証結果である図１４Ｂを参照すると、種別「成鳥（警戒）」については適合率が約６７．９％となり、種別「成鳥（餌乞）」については適合率が約５３．０％となり、種別「幼鳥」については適合率が約７７．４％となった。

【0104】

本実施例では、種別「成鳥（警戒）」及び「幼鳥」についての適合率が特に高くなった。

【0105】

＜（２）鳴き声による位置の推定＞
１６地点における全ての時間帯の音声データについて、高速フーリエ変換（ＦＦＴ）による高速フーリエ変換（ＦＦＴ）による周波数分析を行った。次に、ノイズを除去するため、オオタカの鳴き声の主音域である１．０～６．５ｋＨｚ以外の周波数帯のパワー値をゼロとした。

【0106】

次に、オオタカの鳴き声を抽出するために、作成されたスペクトログラムを走査しながら、畳み込み積分及びプーリング処理を行った後のピクセル毎の値を説明変数として決定木モデルに入力した。なお、種別「成鳥（警戒）」はセグメント毎に抽出したため、連続するセグメントをまとめて音声フレームとして集約した。

【0107】

次に、逆高速フーリエ変換（逆ＦＦＴ）を行って音声データに復元して、上記の式（１）を用いてオオタカの鳴き声の音圧レベルを算出した。

【0108】

最後に、上記の式（２）～（６）を用いて、音源位置を推定した。推定結果について図１５及び図１６を参照しつつ説明する。図１５及び図１６は、本発明の一実施形態に係る音源位置推定方法による推定結果を説明するための図である。図１５は、コンピュータが推定した結果であり、図１６は、人間が現地調査をした結果である。なお、図１６において楕円形で示されている位置は、オオタカの鳴き声が確認された位置である。

【0109】

図１５に示されるとおり、鳴き声の種別毎に、推定された音源位置がプロットされている。また、営巣地の推定位置が星印でプロットされている。図１６と比較すると、営巣地の位置が概ね一致している。

【0110】

なお、本発明によれば、巣外育雛期における幼鳥の行動範囲を時刻別に追跡することも可能である．このことについて図１７、図１８及び図１９を参照しつつ説明する。図１７、図１８及び図１９は、本発明の一実施形態に係る音源位置推定方法による推定結果を示す図である。図１７は、平成３０年７月９日のＡＭ６時～６時３０分、図１８は、同日のＡＭ６時３０分～７時、図１９は、同日のＡＭ７時～７時３０分における音源位置の推定結果である。図１７、図１８及び図１９に示されるとおり、推定された幼鳥の音源位置が経時的に移動していることがわかる。これにより、猛禽類の行動範囲の追跡が可能となる。

【0111】

なお、本発明は、以下のような構成をとることもできる。
［１］
コンピュータを利用して、猛禽類の鳴き声の音源位置を推定する方法であって、
複数の音声取得位置のそれぞれにおいて取得された音声データに含まれる前記鳴き声の音圧レベルに基づいて、前記音声取得位置と前記音源位置との距離に対応した前記音圧レベルの減衰量を用いて前記音源位置を推定する推定段階を少なくとも含む、音源位置推定方法。
［２］
前記音声取得位置の数が少なくとも４つであり、
前記推定段階が、４つの前記音声データのそれぞれに含まれる前記音圧レベルの前記減衰量を算出するための三元連立方程式を解くことにより前記音源位置を推定する、
［１］に記載の音源位置推定方法。
［３］
前記推定段階の前に、分析段階をさらに含んでおり、
前記分析段階が、前記音声データに含まれている前記鳴き声の種別を判定する、
［１］又は［２］に記載の音源位置推定方法。
［４］
前記分析段階において、前記鳴き声に関する情報が含まれる画像データと、前記鳴き声の種別情報と、が含まれる教師データを用いて学習した学習モデルが、前記画像データを得て、前記種別を判定する、
［３］に記載の音源位置推定方法。
［５］
猛禽類の鳴き声に関する情報が含まれる画像データと、該猛禽類の鳴き声の種別情報と、が含まれる教師データを取得する取得段階と、
前記教師データを用いて、前記画像データを入力とし、前記種別情報を出力とする学習モデルを生成する生成段階と、を少なくとも含む、
学習モデル生成方法。
［６］
複数の音声取得位置のそれぞれにおいて取得された音声データに含まれる猛禽類の鳴き声の音圧レベルに基づいて、前記音声取得位置と音源位置との距離に対応した前記音圧レベルの減衰量を用いて前記音源位置を推定する推定部を少なくとも含んでいる、音源位置推定装置。
［７］
情報通信ネットワークを介して実現されており、猛禽類の鳴き声の音源位置を推定する音源位置推定システムであって、
複数の音声取得位置のそれぞれにおいて音声データを取得する音声取得装置と、
音源位置推定装置と、を少なくとも備えており、
前記音源位置推定装置が、前記音声取得装置が取得した音声データに含まれる前記鳴き声の音圧レベルに基づいて、前記音声取得位置と前記音源位置との距離に対応した前記音圧レベルの減衰量を用いて前記音源位置を推定する、音源位置推定システム。

【符号の説明】

【0112】

Ｓ１分析段階
Ｓ２推定段階
Ｓ３取得段階
Ｓ４生成段階
１０音声取得装置
２０音源位置推定装置
３０情報通信ネットワーク
１００音源位置推定システム

【図1】