(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022190308
(43)【公開日】2022-12-26
(54)【発明の名称】音源位置推定方法、学習モデル生成方法、音源位置推定装置、及び音源位置推定システム
(51)【国際特許分類】
G01S 5/22 20060101AFI20221219BHJP
【FI】
G01S5/22
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2021098573
(22)【出願日】2021-06-14
(71)【出願人】
【識別番号】390034463
【氏名又は名称】株式会社オリエンタルコンサルタンツ
(71)【出願人】
【識別番号】511169999
【氏名又は名称】石川県公立大学法人
(74)【代理人】
【識別番号】100112874
【弁理士】
【氏名又は名称】渡邊 薫
(72)【発明者】
【氏名】岩見 聡
(72)【発明者】
【氏名】上野 裕介
【テーマコード(参考)】
5J083
【Fターム(参考)】
5J083AA05
5J083AB14
5J083AC29
5J083AD02
5J083AF01
5J083BC10
5J083BE11
5J083BE43
5J083CA10
5J083CA13
(57)【要約】
【課題】猛禽類の営巣地を特定するために、猛禽類の鳴き声の音源位置を推定する。
【解決手段】コンピュータを利用して、猛禽類の鳴き声の音源位置を推定する方法であって、複数の音声取得位置のそれぞれにおいて取得された音声データに含まれる前記鳴き声の音圧レベルに基づいて、前記音声取得位置と前記音源位置との距離に対応した前記音圧レベルの減衰量を用いて前記音源位置を推定する推定段階(S2)を少なくとも含む、音源位置推定方法を提供する。
【選択図】
図3
【特許請求の範囲】
【請求項1】
コンピュータを利用して、猛禽類の鳴き声の音源位置を推定する方法であって、
複数の音声取得位置のそれぞれにおいて取得された音声データに含まれる前記鳴き声の音圧レベルに基づいて、前記音声取得位置と前記音源位置との距離に対応した前記音圧レベルの減衰量を用いて前記音源位置を推定する推定段階を少なくとも含む、音源位置推定方法。
【請求項2】
前記音声取得位置の数が少なくとも4つであり、
前記推定段階が、4つの前記音声データのそれぞれに含まれる前記音圧レベルの前記減衰量を算出するための三元連立方程式を解くことにより前記音源位置を推定する、
請求項1に記載の音源位置推定方法。
【請求項3】
前記推定段階の前に、分析段階をさらに含んでおり、
前記分析段階が、前記音声データに含まれている前記鳴き声の種別を判定する、
請求項1又は2に記載の音源位置推定方法。
【請求項4】
前記分析段階において、前記鳴き声に関する情報が含まれる画像データと、前記鳴き声の種別情報と、が含まれる教師データを用いて学習した学習モデルが、前記画像データを得て、前記種別を判定する、
請求項3に記載の音源位置推定方法。
【請求項5】
猛禽類の鳴き声に関する情報が含まれる画像データと、該猛禽類の鳴き声の種別情報と、が含まれる教師データを取得する取得段階と、
前記教師データを用いて、前記画像データを入力とし、前記種別情報を出力とする学習モデルを生成する生成段階と、を少なくとも含む、
学習モデル生成方法。
【請求項6】
複数の音声取得位置のそれぞれにおいて取得された音声データに含まれる猛禽類の鳴き声の音圧レベルに基づいて、前記音声取得位置と音源位置との距離に対応した前記音圧レベルの減衰量を用いて前記音源位置を推定する推定部を少なくとも含んでいる、音源位置推定装置。
【請求項7】
情報通信ネットワークを介して実現されており、猛禽類の鳴き声の音源位置を推定する音源位置推定システムであって、
複数の音声取得位置のそれぞれにおいて音声データを取得する音声取得装置と、
音源位置推定装置と、を少なくとも備えており、
前記音源位置推定装置が、前記音声取得装置が取得した音声データに含まれる前記鳴き声の音圧レベルに基づいて、前記音声取得位置と前記音源位置との距離に対応した前記音圧レベルの減衰量を用いて前記音源位置を推定する、音源位置推定システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音源位置推定方法、学習モデル生成方法、音源位置推定装置、及び音源位置推定システムに関する。
【背景技術】
【0002】
自然は豊かな人間生活のために不可欠な構成要素である。そのため、人間と自然の共存を目指した自然環境の保全が求められている。
【0003】
自然環境において、ワシタカ類やフクロウ類などの猛禽類は、食物連鎖の頂点に位置し、生態系の健全度を示す存在である。猛禽類の保護は、その猛禽類が生息する生態系の保護につながる。そのため、公共事業等を対象に実施される環境アセスメント等において、猛禽類は調査対象種として選定されている。
【0004】
猛禽類調査では、繁殖期を中心にして調査が計画され、実施されている。これは、事業計画地およびその周辺での繁殖期における営巣の有無や繁殖の成否が、事業による影響を予測、評価し、保全対策を検討、実施する上で重要との認識に基づいている。特に、猛禽類の営巣地の営巣木を特定することは、工事中の保全対策を検討する上で必須となる。
【0005】
加えて、環境アセスメント等において事業の影響を事前に予測、評価する上では、営巣中心域を特定することも重要である。営巣中心域は、「営巣地の営巣木を中心に交尾や求愛行動(例えば、発声や求愛給餌など)が行われ、また、抱卵、育雛を経て幼鳥が巣立つまで過ごす区域」と定義される。営巣中心域は、猛禽類の繁殖にとって最も重要なエリアである。営巣中心域の改変や繁殖期における人の立ち入り、工事の実施は、繁殖に及ぼす影響が大きいため、慎重に取り扱われるべきとされている。特に、例えばオオタカの場合、営巣中心域は、幼鳥の行動範囲から推定されるため、営巣地における幼鳥の行動を把握することも必須になる。
【0006】
例えば、特許文献1では、工事周辺の猛禽類の営巣を直接監視し、猛禽類の挙動を監視して、異常挙動を検出し、工事の影響によるものか、工事以外の影響によるものかを自動判定し、工事管理者に通知して、営巣放棄や繁殖失敗などの危機回避の対策を講じる猛禽類異常挙動自動解析システムが開示されている。
【先行技術文献】
【特許文献】
【0007】
【発明の概要】
【発明が解決しようとする課題】
【0008】
猛禽類調査では、営巣地を特定するため、猛禽類の飛翔等を望遠鏡で目視観察し、繁殖に係る行動から営巣の可能性のある地域を絞り込み、当該地域の林内を踏査して営巣木を直接確認することが行われている。あるいは、営巣中心域を特定するため、オオタカなどの幼鳥の行動を追跡することも行われている。
【0009】
しかし、視界を遮るものが多い林内の調査では、著しく視認性が低下する。また、夜行性のフクロウ類の場合には、目視観察すること自体が困難である。加えて、そもそも猛禽類は、絶滅危惧種等に指定されている種が多く、生息個体数が少ない。そのため、限られた時間内での調査では遭遇確率が低く、発見漏れのリスクも高い。猛禽類調査では、これらの問題点をふまえ、調査精度を確保し、効果的に調査することが求められる。
【0010】
また、道路やダム等の大規模な公共事業では事業期間も長期に渡る。猛禽類の調査では、2営巣期を含む1.5年の調査が行われるが、事業の計画、実施、供用の各段階での調査が必要で、膨大なコストや時間を要する。公共事業をとりまく財政面での環境が厳しくなる中で、猛禽類調査もコストの面で効率的に調査することが求められている。
【0011】
本発明は、猛禽類調査において、効率的、効果的に営巣の有無や繁殖の成否の判断、営巣地の特定等を行うため、猛禽類の鳴き声の音源位置を推定する装置、システム、及び方法を提供することを主目的とする。
【課題を解決するための手段】
【0012】
本発明は、コンピュータを利用して、猛禽類の鳴き声の音源位置を推定する方法であって、複数の音声取得位置のそれぞれにおいて取得された音声データに含まれる前記鳴き声の音圧レベルに基づいて、前記音声取得位置と前記音源位置との距離に対応した前記音圧レベルの減衰量を用いて前記音源位置を推定する推定段階を少なくとも含む、音源位置推定方法を提供する。
前記音声取得位置の数が少なくとも4つであり、前記推定段階が、4つの前記音声データのそれぞれに含まれる前記音圧レベルの前記減衰量を算出するための三元連立方程式を解くことにより前記音源位置を推定してもよい。
前記推定段階の前に、分析段階をさらに含んでおり、前記分析段階が、前記音声データに含まれている前記鳴き声の種別を判定してもよい。
前記分析段階において、前記鳴き声に関する情報が含まれる画像データと、前記鳴き声の種別情報と、が含まれる教師データを用いて学習した学習モデルが、前記画像データを得て、前記種別を判定してもよい。
また、本発明は、猛禽類の鳴き声に関する情報が含まれる画像データと、該猛禽類の鳴き声の種別情報と、が含まれる教師データを取得する取得段階と、前記教師データを用いて、前記画像データを入力とし、前記種別情報を出力とする学習モデルを生成する生成段階と、を少なくとも含む、学習モデル生成方法を提供する。
また、本発明は、複数の音声取得位置のそれぞれにおいて取得された音声データに含まれる猛禽類の鳴き声の音圧レベルに基づいて、前記音声取得位置と音源位置との距離に対応した前記音圧レベルの減衰量を用いて前記音源位置を推定する推定部を少なくとも含んでいる、音源位置推定装置を提供する。
また、本発明は、情報通信ネットワークを介して実現されており、猛禽類の鳴き声の音源位置を推定する音源位置推定システムであって、複数の音声取得位置のそれぞれにおいて音声データを取得する音声取得装置と、音源位置推定装置と、を少なくとも備えており、前記音源位置推定装置が、前記音声取得装置が取得した音声データに含まれる前記鳴き声の音圧レベルに基づいて、前記音声取得位置と前記音源位置との距離に対応した前記音圧レベルの減衰量を用いて前記音源位置を推定する、音源位置推定システムを提供する。
【発明の効果】
【0013】
本発明によれば、猛禽類の鳴き声の音源位置を推定する方法、装置、及びシステムを提供することができる。
【図面の簡単な説明】
【0014】
【
図1】本発明の一実施形態に係る音源位置推定方法において用いる音声取得装置の配置についての説明図である。
【
図2】本発明の一実施形態に係る音源位置推定方法のフローチャートである。
【
図3】本発明の一実施形態に係る音源位置及び音声取得位置の平面座標及び音圧等を示す説明図である。
【
図4】本発明の一実施形態に係る音源位置推定方法のフローチャートである。
【
図5】本発明の一実施形態に係る分析段階のフローチャートである。
【
図6】本発明の一実施形態に係る音源位置推定方法が用いるスペクトログラムの一例である。
【
図7】オオタカの鳴き声の種別を示す説明図である。
【
図8】本発明の一実施形態に係る学習モデルを示す図である。
【
図9】本発明の一実施形態に係る学習モデル生成方法のフローチャートである。
【
図10】本発明が利用するコンピュータの一実施形態のハードウェア構成図である。
【
図11】本発明の一実施形態に係る音源位置推定装置を示す構成図である。
【
図12】本発明の一実施形態に係る音源位置推定システムを示す構成図である。
【
図13】本発明が利用する音声取得装置の一実施形態のハードウェア構成図である。
【
図14】本発明の一実施形態に係る学習済みモデルの検証結果を示す図である。
【
図15】本発明の一実施形態に係る音源位置推定方法による推定結果を説明するための図である。
【
図16】本発明の一実施形態に係る音源位置推定方法による推定結果を説明するための図である。
【
図17】本発明の一実施形態に係る音源位置推定方法による推定結果を示す図である。
【
図18】本発明の一実施形態に係る音源位置推定方法による推定結果を示す図である。
【
図19】本発明の一実施形態に係る音源位置推定方法による推定結果を示す図である。
【発明を実施するための形態】
【0015】
以下、本技術を実施するための好適な形態について説明する。以下に説明する実施形態は、本技術の代表的な実施形態の一例を示したものであり、これにより本技術の範囲が狭く解釈されることはない。なお、特に断りがない限り、図面において、「上」とは図中の上方向又は上側を意味し、「下」とは、図中の下方向又は下側を意味し、「左」とは図中の左方向又は左側を意味し、「右」とは図中の右方向又は右側を意味する。また、図面については、同一又は同等の要素又は部材には同一の符号を付し、重複する説明は省略する。
【0016】
本発明の説明は以下の順序で行う。
1.本発明に係る第1の実施形態(音源位置推定方法)
(1)概要
(2)推定段階
(3)分析段階
(4)学習モデル生成方法
(5)ハードウェア構成
2.本発明に係る第2の実施形態(音源位置推定装置)
3.本発明に係る第3の実施形態(音源位置推定システム)
4.実施例
(1)鳴き声の種別の判定
(2)鳴き声による位置の推定
【0017】
<1.本発明に係る第1の実施形態(音源位置推定方法)>
【0018】
<(1)概要>
本発明に係る音源位置推定方法は、コンピュータを利用して、例えば猛禽類などの鳴き声の音源位置を推定する方法である。猛禽類の種類は特に限定されないが、例えばオオタカが選定されてもよい。オオタカは、環境省レッドリストにおいて準絶滅危惧種に指定されている。オオタカは生態系の上位種であり、環境影響評価などに活用されている「猛禽類保護の進め方」(環境省、平成24年)においても保全対象とされている種である。
【0019】
あるいは、猛禽類の種類として例えばフクロウが選定されてもよい。フクロウは夜行性であるため、人間による調査作業も夜間に行う必要がある。しかし、夜間の調査作業は困難を極めるためである。
【0020】
本発明に係る音源位置推定方法では、猛禽類の鳴き声が含まれる音声データを取得する。このことについて
図1を参照しつつ説明する。
図1は、本発明の一実施形態に係る音源位置推定方法において用いる音声取得装置の配置についての説明図である。
【0021】
図1に示されるとおり、猛禽類の営巣地が存在することが推測される位置の周辺に、複数の音声取得装置がランダム又は規則的に配置される。数字は、音声取得装置が配置されている位置を示す。星印は、猛禽類の営巣地が存在することが推測される位置を示す。なお、配置する音声取得装置の数は特に限定されない。
【0022】
この音声取得装置には、例えばICレコーダーやPCMレコーダー等が用いられてもよい。あるいは、この音声取得装置には、高感度のマイクロフォンが用いられてよい。これにより、音声取得装置の数が削減できる。
【0023】
複数の音声取得装置のそれぞれは、猛禽類の鳴き声が含まれる音声データを取得する。この音声データの形式は、例えばサンプリング周波数が44.1kHz、量子化ビット数が16ビット、チャンネル数が2チャンネルでありうる。
【0024】
<(2)推定段階>
本発明に係る音源位置推定方法について
図2を参照しつつ説明する。
図2は、本発明の一実施形態に係る音源位置推定方法のフローチャートである。
図2に示されるとおり、本発明に係る音源位置推定方法は、推定段階(S2)を少なくとも含む。
【0025】
推定段階(S2)は、複数の音声取得位置のそれぞれにおいて同一時刻に取得された音声データに含まれる前記鳴き声の音圧レベルに基づいて、前記音声取得位置と前記音源位置との距離に対応した前記音圧レベルの減衰量を用いて前記音源位置を推定する。
【0026】
音声データに含まれる音圧レベルPは、例えば下記の式(1)で求められる。pはサンプリング周波数毎の音圧である。Tは音声の長さである。mはサンプリングデータ数である。
【0027】
【0028】
音源位置の音圧レベルP0は、例えば下記の式(2)で求められる。Piは音声データを取得する位置である音声取得位置iにおける音圧レベルである。riは音源位置から音声取得位置iまでの距離である。
【0029】
【0030】
音源位置の音圧p0と、音源位置の平面座標(x0、y0)と、音声取得位置iの音圧piと、音声取得位置iの平面座標(xi、yi)を用いて、上記の式(2)は下記の式(3)のように変形される。
【0031】
【0032】
この平面座標について
図3を参照しつつ説明する。
図3は、本発明の一実施形態に係る音源位置及び音声取得位置の平面座標及び音圧等を示す説明図である。
図3に示されるとおり、図の中央に音源位置0が配置されており、音源位置の周囲に4つの音声取得位置(1~4)が配置されている。
【0033】
音源位置0の平面座標は(x0、y0)である。音源位置0の音圧レベルはP0である。
音源位置0から右上にある音声取得位置1の平面座標は(x1、y1)である。音声取得位置1の音圧レベルはP1である。音声取得位置1の音圧はp1である。なお、音源位置0から音声取得位置1までの距離はr1である。
同様に、音源位置0から左上にある音声取得位置2の平面座標は(x2、y2)である。音声取得位置2の音圧レベルはP2である。音声取得位置2の音圧はp2である。なお、音源位置0から音声取得位置2までの距離はr2である。
同様に、音源位置0から左下にある音声取得位置3の平面座標は(x3、y3)である。音声取得位置3の音圧レベルはP3である。音声取得位置3の音圧はp3である。なお、音源位置0から音声取得位置3までの距離はr3である。
同様に、音源位置0から右下にある音声取得位置4の平面座標は(x4、y4)である。音声取得位置4の音圧レベルはP4である。音声取得位置4の音圧はp4である。なお、音源位置0から音声取得位置4までの距離はr4である。
【0034】
これらの変数を用いて、上記の式(3)から下記の式(4)、式(5)、及び式(6)に示す三元連立方程式に変形する。
【0035】
【0036】
【0037】
【0038】
上記の式(4)、式(5)、及び式(6)からなる三元連立方程式を解くことにより、音源位置0の平面座標(x0、y0)を求めることができる。
【0039】
なお、3つの音声取得位置のそれぞれにおいて取得された音声データから音源位置の平面座標を推定することも理論上は可能である。しかし、誤差を低減し、高精度に推定するためには、少なくとも4つの音声取得位置のそれぞれにおいて音声データを取得することが好ましい。
【0040】
<(3)分析段階>
ところで、猛禽類の営巣地を特定するためには、まず、音声データを分析して猛禽類(例えばオオタカ等)の鳴き声を抽出することが好ましい。さらには、営巣地における鳴き声の種別と、営巣地ではない場所における鳴き声の種別は異なるため、鳴き声の種別を判定することが好ましい。
【0041】
そこで、本発明に係る音源位置推定方法は、推定段階(S2)の前に、音声データを分析する分析段階をさらに含むことができる。このことについて
図4を参照しつつ説明する。
図4は、本発明の一実施形態に係る音源位置推定方法のフローチャートである。
図4に示されるとおり、本発明に係る音源位置推定方法は、推定段階(S2)の前に、分析段階(S1)をさらに含んでいる。
【0042】
分析段階(S1)の具体的な処理について
図5を参照しつつ説明する。
図5は、本発明の一実施形態に係る分析段階の一例のフローチャートである。
【0043】
図5に示されるとおり、分析段階(S1)は、まず、音声データに対して高速フーリエ変換による周波数分析(FFT分析)を行う(S101)。この周波数分析により、スペクトログラムが作成される。
【0044】
ここで、スペクトログラムについて
図6を参照しつつ説明する。
図6は、本発明の一実施形態に係る音源位置推定方法が用いるスペクトログラムの一例である。
図6に示されるとおり、スペクトログラムは、時間、周波数、及び強度の三次元で音声波形の情報を表示した画像データである。このスペクトログラムにおいて、横軸が時間を示し、縦軸が周波数を示し、色が音圧を示している。なお、
図6A、
図6B、及び
図6Cのそれぞれの説明については後述する。
【0045】
図5の説明に戻る。次に、分析段階(S1)は、このスペクトログラムに対してノイズを除去する(S102)。具体的には、例えば、猛禽類(例えばオオタカ等)の鳴き声の主音域が1.0~6.5kHzであるとき、この主音域以外の周波数帯のパワー値をゼロとすることにより、ノイズが除去される。
【0046】
次に、分析段階(S1)は、このスペクトログラムの特徴量を得る。具体的には、例えばスペクトログラムを走査しながら、下記の式(7)に示される畳み込み積分を行う(S103)。下記の式(7)において、Qi,jは、出力されるスペクトログラム(特徴マップ)のi、j成分である。Ii,jは、入力されるスペクトログラムのi、j成分である。Km,nは、カーネル(フィルタ)のm、n成分である。
【0047】
【0048】
この畳み込み積分には、例えば4パターンのカーネルが用いられる。具体的には、水平線を検出するカーネルV1(-1、-1、-1、2、2、2、-1、-1、-1)、左対角線を検出するカーネルV2(2、-1、-1、-1、2、-1、-1、-1、2)、右対角線を検出するカーネルV3(-1、-1、2、-1、2、-1、2、-1、-1)、及び垂直線を検出するカーネルV4(-1、2、-1、-1、2、-1、-1、2、-1)が用いられる。なお、これらに加えて、平滑化するカーネルV5が用いられてもよい。
【0049】
この畳み込み積分により、分析段階(S1)は、スペクトログラムの特徴量を得ることができる。
【0050】
次に、分析段階(S1)は、プーリング処理によって、スペクトログラムである画像データのサイズを縮小する(S104)。
【0051】
次に、分析段階(S1)は、スペクトログラムに含まれている鳴き声の種別を判定する(S105)。鳴き声の種別について
図7を参照しつつ説明する。
図7は、オオタカの鳴き声の種別を示す説明図である。
図7に示されるとおり、例えば種別「警戒」の音声のパターンは「ケッケッケッ」である。この種別「警戒」は、主に成長のオスが発する傾向にある。
【0052】
種別についてさらに
図6に示されるスペクトログラムを再び参照しながら説明する。
図6Aは、種別が「成鳥(警戒)」であるスペクトログラムの一例である。
図6Bは、種別が「成鳥(餌乞)」であるスペクトログラムの一例である。
図6Cは、種別が「幼鳥」であるスペクトログラムの一例である。
【0053】
図5の説明に戻る。分析段階(S1)は、機械学習済みの学習モデルを用いて、スペクトログラムに含まれている鳴き声の種別を判定する(S105)。学習モデルとして、例えば決定木モデルを用いることができる。この学習モデルは、スペクトログラムである画像データ及び鳴き声の種別情報が含まれる教師データを用いて学習している。
【0054】
学習モデルについて
図8を参照しつつ説明する。
図8は、本発明の一実施形態に係る学習モデルを示す図である。
図8に示されるとおり、本実施例では学習モデルの一例である決定木モデルを用いる。
最上層に配置されるルートノードには、「V11107>=92」という条件式が示されている。この条件式において、最初の2文字はカーネルの種別(V1~V5)を示す。その次の4文字は音声フレームの座標を示す。最後の2文字は輝度(0~255)を示す。つまり、「V11107>=92」という条件式が示す意味は、「水平線を検出するカーネルV1が用いられるとき、横方向のx座標が11、縦方向のy座標が07である位置の輝度が92以上である」という意味である。この条件式を満たすときは左下のノードに進み、この条件式を満たさないときは右下のノードに進む。条件式に含まれるパラメータは、機械学習によって変更されうる。
【0055】
このようにして、コンピュータは、スペクトログラムである画像データを得て、学習モデルを用いて鳴き声の種別を判定することができる。なお、本実施例では学習モデルとして決定木モデルが用いられているが、これに限られない。例えば、学習モデルとしてニューラルネットワークが用いられてもよい。
【0056】
<(4)学習モデル生成方法>
本発明において用いられる学習モデルの生成方法について
図9を参照しつつ説明する。
図9は、本発明の一実施形態に係る学習モデル生成方法のフローチャートである。
【0057】
図9に示されるとおり、本発明に係る学習モデル生成方法は、取得段階(S3)と、生成段階(S4)と、を少なくとも含む。
【0058】
まず、取得段階(S3)は、学習モデルが学習するための教師データを取得する。教師データには、猛禽類の鳴き声に関する情報が含まれる画像データ(スペクトログラム)と、猛禽類の鳴き声の種別情報と、が含まれている。この画像データは、上述した畳み込み積分及びプーリング処理が行われていることが好ましい。
【0059】
次に、生成段階(S4)は、前記教師データを用いて、前記画像データを入力とし、前記種別情報を出力とする学習モデルを生成する。なお、学習モデルは、例えば決定木モデルでもよいし、ニューラルネットワークでもよい。
【0060】
生成段階(S4)が生成した学習モデルの検証方法について説明する。学習モデルの検証は、検証用データ(教師データ以外のデータ)により、判別した種別毎の適合率を算出することにより行うことができる。学習モデルが例えばAと判別したデータ数をnとし、そのうち、実際もAであったデータ数をn*とするとき、学習モデルがAと判別した時の適合率(正答率)qは、例えば下記の式(8)で求められる。
【0061】
【0062】
<(5)ハードウェア構成>
本発明が利用するコンピュータのハードウェア構成について
図10を参照しつつ説明する。
図10は、本発明が利用するコンピュータ50の一実施形態のハードウェア構成図である。
【0063】
図10に示されるとおり、コンピュータ50は、構成要素として、CPU101、ストレージ102、RAM(Random Access Memory)103、及びディスプレイ104を備えうる。それぞれの構成要素は、例えばデータの伝送路としてのバスで接続されている。
【0064】
CPU101は、例えばマイクロコンピュータにより実現され、コンピュータ50のそれぞれの構成要素を制御する。CPU101は、例えば推定段階(S2)等を行うことができる。この推定段階(S2)等は、例えばプログラムにより実現されうる。このプログラムをCPU101が読み込むことによって機能しうる。
【0065】
ストレージ102は、CPU101が使用するプログラムや演算パラメータ等の制御用データ等を記憶する。ストレージ102は、例えばHDD(Hard Disk Drive)又はSSD(Solid State Drive)等を利用することにより実現されうる。ストレージ102は、例えば音声データや画像データ等を保有する。
【0066】
RAM103は、例えば、CPU101により実行されるプログラム等を一時的に記憶する。
【0067】
ディスプレイ104は、情報を表示する。ディスプレイ104は、例えば音源位置を表示しうる。ディスプレイ104は、例えばLCD(Liquid Crystal Display)またはOLED(Organic Light-Emitting Diode)等により実現されうる。
【0068】
図示を省略するが、コンピュータ50は、通信インタフェースを備えていてもよい。この通信インタフェースは、例えばWi-Fi、Bluetooth(登録商標)、LTE(Long Term Evolution)等の通信技術を利用して、情報通信ネットワークを介して通信する機能を有する。例えば、CPU101は、この通信インタフェースを介して得られた音声データに基づいて、音源位置を推定しうる。
【0069】
コンピュータ50は、例えばサーバであってもよいし、スマートフォン端末、タブレット端末、携帯電話端末、PDA(Personal Digital Assistant)、PC(Personal Computer)、携帯用音楽プレーヤー、携帯用ゲーム機、またはウェアラブル端末(HMD:Head Mounted Display、メガネ型HMD、時計型端末、バンド型端末等)であってもよい。
【0070】
推定段階(S2)等を実現するプログラムは、コンピュータ50のほかのコンピュータ装置又はコンピュータシステムに格納されてもよい。この場合、コンピュータ50は、このプログラムが有する機能を提供するクラウドサービスを利用することができる。このクラウドサービスとして、例えばSaaS(Software as a Service)、IaaS(Infrastructure as a Service)、PaaS(Platform as a Service)等が挙げられる。
【0071】
さらにこのプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、Compact Disc Read Only Memory(CD-ROM)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、Programmable ROM(PROM)、Erasable PROM(EPROM)、フラッシュROM、Random Access Memory(RAM))を含む。また、上記プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、上記プログラムをコンピュータに供給できる。
【0072】
これ以外にも、本技術の主旨を逸脱しない限り、上記実施の形態で挙げた構成を取捨選択したり、他の構成に適宜変更したりできる。
【0073】
<2.本発明に係る第2の実施形態(音源位置推定装置)>
本発明の一実施形態に係る音源位置推定装置について
図11を参照しつつ説明する。
図11は、本発明の一実施形態に係る音源位置推定装置を示す構成図である。
図11に示されるとおり、本発明の一実施形態に係る音源位置推定装置20は、推定部21を少なくとも含んでいる。
【0074】
推定部21は、複数の音声取得位置のそれぞれにおいて取得された音声データに含まれる猛禽類の鳴き声の音圧レベルに基づいて、前記音声取得位置と音源位置との距離に対応した前記音圧レベルの減衰量を用いて前記音源位置を推定する。
【0075】
推定部21は、第1の実施形態において説明した推定段階(S2)を行うことができる。そのため、再度の詳細な説明は省略する。
【0076】
音源位置推定装置20のハードウェアは、第1の実施形態において説明したコンピュータ50のハードウェアと同じでもよい。そのため、再度の詳細な説明は省略する。
【0077】
<3.本発明に係る第3の実施形態(音源位置推定システム)>
本発明の一実施形態に係る音源位置推定システムは、情報通信ネットワークを介して実現されており、猛禽類の鳴き声の音源位置を推定することができる音源位置推定システムである。
【0078】
本発明の一実施形態に係る音源位置推定システムについて
図12を参照しつつ説明する。
図12は、本発明の一実施形態に係る音源位置推定システムを示す構成図である。
図12に示されるとおり、本発明の一実施形態に係る音源位置推定システム100は、複数の音声取得位置のそれぞれにおいて音声データを取得する音声取得装置10と、音源位置推定装置20と、を少なくとも備えている。
【0079】
複数の音声取得装置10と、音源位置推定装置20とが、情報通信ネットワーク30を介して接続されている。なお、音源位置推定装置20に接続されていない音声取得装置10があってもよい。さらには、全ての音声取得装置10が音源位置推定20に接続されていなくてもよい。
【0080】
音源位置推定装置20は、音声取得装置10が取得した音声データに含まれる前記鳴き声の音圧レベルに基づいて、前記音声取得位置と前記音源位置との距離に対応した前記音圧レベルの減衰量を用いて前記音源位置を推定する。
【0081】
音源位置推定装置20は、第1の実施形態において説明した推定段階(S2)を行うことができる。そのため、再度の詳細な説明は省略する。
【0082】
複数の音声取得装置10のそれぞれは、音源位置推定装置20が有する一部又は全部の機能を有することができる。例えば、複数の音声取得装置10のそれぞれは、推定部21を有することができる。
【0083】
同様に、音源位置推定装置20は、複数の音声取得装置10のそれぞれが有する一部又は全部の機能を有することができる。例えば、音源位置推定装置20は、音声取得機能を有することができる。
【0084】
ここで、音声取得装置10のハードウェア構成について
図13を参照しつつ説明する。
図13は、本発明が利用する音声取得装置10の一実施形態のハードウェア構成図である。
【0085】
図13に示されるとおり、音声取得装置10は、構成要素として、音声取得部1001、記憶部1002、制御部1003を備えうる。それぞれの構成要素は、例えばデータの伝送路としてのバスで接続されている。
【0086】
音声取得部1001は、音声を取得する。音声取得部1001は、例えばマイクロフォン等により実現されうる。
【0087】
記憶部1002は、音声取得部1001が取得した音声を音声データとして記憶する。記憶部1002は、例えばHDD(Hard Disk Drive)又はSSD(Solid State Drive)等を利用することにより実現されうる。
【0088】
制御部1003は、音声取得装置10のそれぞれの構成要素を制御する。制御部1003は、例えばマイクロコンピュータにより実現されうる。
【0089】
図示を省略するが、音声取得装置10は、現在位置取得部を備えていてもよい。この位置情報取得部は、外部からの取得信号に基づいて音声取得装置10の現在位置を検知する機能を有する。具体的には、位置情報取得部は、例えばGPS(Global Positioning System)測位部により実現され、GPS衛星からの電波を受信して、位置情報取得部が存在している位置を検知する。あるいは、位置情報取得部は、GPSの他、例えばWi-Fi(登録商標)、携帯電話・PHS・スマートフォン等との送受信、または近距離通信等により位置を検知するものであってもよい。
【0090】
図示を省略するが、音声取得装置10は、通信インタフェースを備えていてもよい。音声取得装置10が取得した音声データや位置情報等が、この通信インタフェースを介して、音源位置推定装置20に送信されうる。
【0091】
音源位置推定装置20のハードウェアは、第1の実施形態において説明したコンピュータ50のハードウェアと同じでもよい。そのため、再度の詳細な説明は省略する。
【0092】
なお、本明細書中に記載した効果はあくまで例示であって限定されるものではなく、また他の効果があってもよい。
【0093】
<4.実施例>
<(1)鳴き声の種別の判定>
図1に示されるとおり、オオタカの営巣地が存在することが推測される位置の周辺の16地点に、ICレコーダー(SONY製、ICD-UX560F)を配置した。それぞれのICレコーダーの録音形式は、サンプリング周波数が44.1kHz、量子化ビット数が16、チャンネル数が2のリニアPCMとした。
【0094】
録音された複数の音声データのうち、
図1における地点10に配置されたICレコーダーが録音した音声データにおいて、特定の時間帯(平成30年7月9日AM6~8時)において、オオタカの鳴き声が特に明瞭かつ高頻度で確認された。そのため、この時間帯の音声データから、
図7に示されるような音声フレームを抽出した。さらに、例えば種別「成鳥(警戒)」のように鳴き声が連続している場合には、複数の音声フレームから成る音声セグメントも抽出した。
【0095】
音声フレームに基づいて、音声データから抽出したデータ数は、種別「成鳥(警戒)」が119件、種別「成鳥(餌乞)」が179件、種別「幼鳥」が426件であり、合計724件であった。
【0096】
あわせて、この時間帯の音声データに基づいて周波数分析(FFT分析)を行い、
図6に示されるスペクトログラムを作成した。作成したスペクトログラムの特徴を得るため、上記の式(7)に示される畳み込み積分を行った。畳み込み積分に用いるカーネルは、水平線を検出するカーネルV1(-1、-1、-1、2、2、2、-1、-1、-1)、左対角線を検出するカーネルV2(2、-1、-1、-1、2、-1、-1、-1、2)、及び平滑化するカーネルV5の5つのパターンを用いた。
【0097】
次に、プーリング処理によって、スペクトログラムである画像データのサイズを11×33ピクセルに縮小した。
【0098】
次に、スペクトログラムに含まれている鳴き声の種別を判定した。判定には、機械学習モデルの一例である決定木モデルを用いた。決定木モデルの目的変数として、オオタカの巣内育雛期に確認される鳴き声の3つの種別「成鳥(警戒)」「成鳥(餌乞)及び「幼鳥」を用いた。決定木モデルの説明変数として、畳み込み積分及びプーリング処理を行った後の画像データにおけるピクセル毎の値を用いた。
【0099】
音声データから抽出したデータ724件のうち半数の362件を学習用データとして用い、残りの半数の362件を検証用データとして用いた。学習用データを教師データとして、決定木モデルに学習させた。
【0100】
学習済みモデルである決定木モデルによる判定結果の適合率(正解率)qを、上記の式(8)で求めた結果について
図14を参照しつつ説明する。
図14は、本発明の一実施形態に係る学習済みモデルの検証結果を示す図である。
図14Aは、学習用データを用いた検証結果である。
図14Bは、検証用データを用いた検証結果である。
【0101】
図14A及び
図14Bのそれぞれにおいて、横方向に並んでいる項目は、決定木モデルが判定した鳴き声の種別である。縦方向に並んでいる項目は、正しい(実際の)鳴き声の種別である。
【0102】
図14Aに示されるとおり、例えば種別「成鳥(警戒)」については、決定木モデルが「成鳥(警戒)」と判定したデータ数51件のうち46件は正しい種別であった。このとき、判定の適合率(正統率)は、上記の式(8)で求めると、約90.2%となった。同様に、種別「成鳥(餌乞)」については適合率が87.5%となり、種別「幼鳥」については適合率が約83.4%となった。学習用データは学習に用いられた教師データであるため、適合率は高くなった。
【0103】
検証用データを用いた検証結果である
図14Bを参照すると、種別「成鳥(警戒)」については適合率が約67.9%となり、種別「成鳥(餌乞)」については適合率が約53.0%となり、種別「幼鳥」については適合率が約77.4%となった。
【0104】
本実施例では、種別「成鳥(警戒)」及び「幼鳥」についての適合率が特に高くなった。
【0105】
<(2)鳴き声による位置の推定>
16地点における全ての時間帯の音声データについて、高速フーリエ変換(FFT)による高速フーリエ変換(FFT)による周波数分析を行った。次に、ノイズを除去するため、オオタカの鳴き声の主音域である1.0~6.5kHz以外の周波数帯のパワー値をゼロとした。
【0106】
次に、オオタカの鳴き声を抽出するために、作成されたスペクトログラムを走査しながら、畳み込み積分及びプーリング処理を行った後のピクセル毎の値を説明変数として決定木モデルに入力した。なお、種別「成鳥(警戒)」はセグメント毎に抽出したため、連続するセグメントをまとめて音声フレームとして集約した。
【0107】
次に、逆高速フーリエ変換(逆FFT)を行って音声データに復元して、上記の式(1)を用いてオオタカの鳴き声の音圧レベルを算出した。
【0108】
最後に、上記の式(2)~(6)を用いて、音源位置を推定した。推定結果について
図15及び
図16を参照しつつ説明する。
図15及び
図16は、本発明の一実施形態に係る音源位置推定方法による推定結果を説明するための図である。
図15は、コンピュータが推定した結果であり、
図16は、人間が現地調査をした結果である。なお、
図16において楕円形で示されている位置は、オオタカの鳴き声が確認された位置である。
【0109】
図15に示されるとおり、鳴き声の種別毎に、推定された音源位置がプロットされている。また、営巣地の推定位置が星印でプロットされている。
図16と比較すると、営巣地の位置が概ね一致している。
【0110】
なお、本発明によれば、巣外育雛期における幼鳥の行動範囲を時刻別に追跡することも可能である.このことについて
図17、
図18及び
図19を参照しつつ説明する。
図17、
図18及び
図19は、本発明の一実施形態に係る音源位置推定方法による推定結果を示す図である。
図17は、平成30年7月9日のAM6時~6時30分、
図18は、同日のAM6時30分~7時、
図19は、同日のAM7時~7時30分における音源位置の推定結果である。
図17、
図18及び
図19に示されるとおり、推定された幼鳥の音源位置が経時的に移動していることがわかる。これにより、猛禽類の行動範囲の追跡が可能となる。
【0111】
なお、本発明は、以下のような構成をとることもできる。
[1]
コンピュータを利用して、猛禽類の鳴き声の音源位置を推定する方法であって、
複数の音声取得位置のそれぞれにおいて取得された音声データに含まれる前記鳴き声の音圧レベルに基づいて、前記音声取得位置と前記音源位置との距離に対応した前記音圧レベルの減衰量を用いて前記音源位置を推定する推定段階を少なくとも含む、音源位置推定方法。
[2]
前記音声取得位置の数が少なくとも4つであり、
前記推定段階が、4つの前記音声データのそれぞれに含まれる前記音圧レベルの前記減衰量を算出するための三元連立方程式を解くことにより前記音源位置を推定する、
[1]に記載の音源位置推定方法。
[3]
前記推定段階の前に、分析段階をさらに含んでおり、
前記分析段階が、前記音声データに含まれている前記鳴き声の種別を判定する、
[1]又は[2]に記載の音源位置推定方法。
[4]
前記分析段階において、前記鳴き声に関する情報が含まれる画像データと、前記鳴き声の種別情報と、が含まれる教師データを用いて学習した学習モデルが、前記画像データを得て、前記種別を判定する、
[3]に記載の音源位置推定方法。
[5]
猛禽類の鳴き声に関する情報が含まれる画像データと、該猛禽類の鳴き声の種別情報と、が含まれる教師データを取得する取得段階と、
前記教師データを用いて、前記画像データを入力とし、前記種別情報を出力とする学習モデルを生成する生成段階と、を少なくとも含む、
学習モデル生成方法。
[6]
複数の音声取得位置のそれぞれにおいて取得された音声データに含まれる猛禽類の鳴き声の音圧レベルに基づいて、前記音声取得位置と音源位置との距離に対応した前記音圧レベルの減衰量を用いて前記音源位置を推定する推定部を少なくとも含んでいる、音源位置推定装置。
[7]
情報通信ネットワークを介して実現されており、猛禽類の鳴き声の音源位置を推定する音源位置推定システムであって、
複数の音声取得位置のそれぞれにおいて音声データを取得する音声取得装置と、
音源位置推定装置と、を少なくとも備えており、
前記音源位置推定装置が、前記音声取得装置が取得した音声データに含まれる前記鳴き声の音圧レベルに基づいて、前記音声取得位置と前記音源位置との距離に対応した前記音圧レベルの減衰量を用いて前記音源位置を推定する、音源位置推定システム。
【符号の説明】
【0112】
S1 分析段階
S2 推定段階
S3 取得段階
S4 生成段階
10 音声取得装置
20 音源位置推定装置
30 情報通信ネットワーク
100 音源位置推定システム