(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-01-17
(45)【発行日】2022-01-26
(54)【発明の名称】音源定位装置及び音源定位方法
(51)【国際特許分類】
G01S 5/22 20060101AFI20220119BHJP
G10L 15/16 20060101ALI20220119BHJP
G10L 25/51 20130101ALI20220119BHJP
G10L 25/30 20130101ALI20220119BHJP
H04R 3/00 20060101ALI20220119BHJP
H04R 1/40 20060101ALI20220119BHJP
【FI】
G01S5/22
G10L15/16
G10L25/51 400
G10L25/30
H04R3/00 320
H04R1/40 320
(21)【出願番号】P 2019131048
(22)【出願日】2019-07-16
【審査請求日】2021-03-03
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100166006
【氏名又は名称】泉 通博
(74)【代理人】
【識別番号】100124084
【氏名又は名称】黒岩 久人
(74)【代理人】
【識別番号】100153280
【氏名又は名称】寺川 賢祐
(72)【発明者】
【氏名】石川 彰夫
(72)【発明者】
【氏名】服部 元
【審査官】九鬼 一慶
(56)【参考文献】
【文献】特開平04-318900(JP,A)
【文献】特開2011-227199(JP,A)
【文献】特開2007-047088(JP,A)
【文献】特開2016-080750(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G01S 1/72- 1/82
G01S 3/80- 3/86
G01S 5/18- 5/30
G01S 7/52- 7/64
G01S 15/00-15/96
G10L 15/16
G10L 25/51
G10L 25/30
H04R 3/00
H04R 1/40
(57)【特許請求の範囲】
【請求項1】
第1受音装置が受音した第1音声と、前記第1受音装置とは異なる位置に設置された第2受音装置が受音した第2音声とを取得する取得部と、
前記第1音声及び前記第2音声のそれぞれに、入力された音声の内容を示すテキスト情報を出力可能な機械学習モデルに含まれる複数の処理層を伝搬させる伝搬制御部と、
前記複数の処理層から選択した後段処理層、及び前記後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化しているユニットを含む、前記第1音声に基づいて前記後段処理層及び前記前段処理層から出力された一以上の第1出力と前記第2音声に基づいて前記後段処理層及び前記前段処理層から出力された一以上の第2出力とを抽出する抽出部と、
前記一以上の第1出力に基づいて一以上の第1音響特徴量を検出し、かつ前記一以上の第2出力に基づいて一以上の第2音響特徴量を検出する特徴量検出部と、
前記一以上の第1音響特徴量と前記一以上の第2音響特徴量とに基づいて、前記第1音声及び前記第2音声それぞれに含まれる音の発生源である音源の位置を推定する音源定位部と、
前記音源定位部が推定した前記音源の位置を示す情報を出力する出力部と、
を有する音源定位装置。
【請求項2】
前記音源定位部は、前記第1受音装置が前記第1音響特徴量に対応する音声を受音した時刻と、前記第2受音装置が前記第2音響特徴量に対応する音声を受音した時刻との関係、並びに前記第1受音装置の位置と、前記第2受音装置の位置との関係に基づいて、前記音源の位置を推定する、
請求項1に記載の音源定位装置。
【請求項3】
前記抽出部は、
前記第1音声が前記複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段第1出力、及び前記第2音声が前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段第2出力から、共通に活性化している一以上の後段第1出力及び一以上の後段第2出力を抽出する後段抽出部と、
前記一以上の後段第1出力及び前記一以上の後段第2出力を活性化させる要因となった前記前段処理層から出力された複数の前段第1出力、及び前記前段処理層から出力された複数の前段第2出力のうち、共通に活性化している一以上の前段第1出力及び一以上の前段第2出力を抽出する前段抽出部と、
を有する、
請求項1又は2に記載の音源定位装置。
【請求項4】
前記前段抽出部は、前記複数の前段第1出力及び前記複数の前段第2出力のうち、活性化している大きさに基づいて、前記一以上の前段第1出力及び前記一以上の前段第2出力を抽出する、
請求項3に記載の音源定位装置。
【請求項5】
前記機械学習モデルは、再帰型ニューラルネットワークを含み、
前記後段処理層は、出力層、再帰層、全結合層、プーリング層及び畳み込み層のうちのいずれかの層である、
請求項3又は4に記載の音源定位装置。
【請求項6】
前記前段処理層は、再帰層、全結合層、プーリング層、畳み込み層及び入力層のうちのいずれかの層である、
請求項3から5のいずれか一項に記載の音源定位装置。
【請求項7】
前記抽出部は、前記複数の処理層のうち、最後尾の処理層である最後尾層を後段処理層として選択した場合において、前記最後尾層において共通に活性化している前記一以上の第1出力及び前記一以上の第2出力がない場合、前記最後尾層より前の処理層において共通に活性化している前記一以上の第1出力及び前記一以上の第2出力を抽出する、
請求項1から6のいずれか一項に記載の音源定位装置。
【請求項8】
前記特徴量検出部が特定した前記一以上の第1音響特徴量及び前記一以上の第2音響特徴量から、相互の対応関係に基づいて一部の第1音響特徴量及び一部の第2音響特徴量を選択する選択部をさらに有し、
前記音源定位部は、前記一部の第1音響特徴量と前記一部の第2音響特徴量とに基づいて、前記音源の位置を推定する、
請求項1から7のいずれか一項に記載の音源定位装置。
【請求項9】
前記複数の処理層のうち、前記後段処理層として用いる処理層を選択する指示を受け付ける指示受付部をさらに有し、
前記抽出部は、前記指示受付部が受け付けた前記指示が示す前記処理層を、前記後段処理層として使用する、
請求項1から8のいずれか一項に記載の音源定位装置。
【請求項10】
前記抽出部は、前記複数の処理層のうち一つの層を前記後段処理層として選択して前記一以上の第1出力及び前記一以上の第2出力を抽出した後に、前記前段処理層として選択した処理層を前記後段処理層として選択して、別の前記一以上の第1出力及び前記一以上の第2出力を抽出する、
請求項1から9のいずれか一項に記載の音源定位装置。
【請求項11】
第1受音装置が受音した第1音声を取得するステップと、
前記第1受音装置とは異なる位置に設置された第2受音装置が受音した第2音声を取得するステップと、
前記第1音声及び前記第2音声のそれぞれに、入力された音声の内容を示すテキスト情報を出力可能な機械学習モデルに含まれる複数の処理層を伝搬させるステップと、
前記複数の処理層から選択した後段処理層、及び前記後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化しているユニットを含む、前記第1音声に基づいて前記後段処理層及び前記前段処理層から出力された一以上の第1出力と前記第2音声に基づいて前記後段処理層及び前記前段処理層から出力された一以上の第2出力とを抽出するステップと、
前記一以上の第1出力に基づいて一以上の第1音響特徴量を検出し、かつ前記一以上の第2出力に基づいて一以上の第2音響特徴量を検出するステップと、
前記一以上の第1音響特徴量と前記一以上の第2音響特徴量とに基づいて、前記第1音声及び前記第2音声それぞれに含まれる音の発生源である音源の位置を推定するステップと、
推定した前記音源の位置を示す情報を出力するステップと、
を有する音源定位方法。
【請求項12】
前記抽出するステップは、
前記第1音声が前記複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段第1出力、及び前記第2音声が前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段第2出力から、共通に活性化している一以上の後段第1出力及び一以上の後段第2出力を抽出する後段抽出ステップと、
前記一以上の後段第1出力及び前記一以上の後段第2出力を活性化させる要因となった前記前段処理層から出力された複数の前段第1出力、及び前記前段処理層から出力された複数の前段第2出力のうち、共通に活性化している一以上の前段第1出力及び一以上の前段第2出力を抽出する前段抽出ステップと、
を有する、請求項11に記載の音源定位方法。
【請求項13】
前記前段抽出ステップを実行した後に、前記一以上の前段第1出力及び前記一以上の前段第2出力を、前記複数の後段第1出力及び前記複数の後段第2出力として、前記後段抽出ステップを実行する、
請求項12に記載の音源定位方法。
【請求項14】
前記複数の処理層のそれぞれに対して、前記後段抽出ステップ及び前記前段抽出ステップを実行する、
請求項12又は13に記載の音源定位方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音源の位置を推定する音源定位装置及び音源定位方法に関する。
【背景技術】
【0002】
従来、複数の受音装置が受音した音声に基づいて、3次元空間における音源の位置を推定する装置が知られている。非特許文献には、音声特徴量を入力することに離散的な音源の位置を出力するように学習された深層ニューラルネットワーク(以下、「DNN」という。)を含む機械学習モデルを用いて、音源の位置を推定する技術が開示されている。
【先行技術文献】
【非特許文献】
【0003】
【文献】Ryu Takeda, and Kazunori Komatani, “Discriminative Multiple Sound Source Localization based on Deep Neural Networks using Independent Location Model”, Proceedings of IEEE Workshop on Spoken Language Technology (SLT), pp.603-609, Dec. 16, 2016.
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記技術においては、音源の位置が既知である学習データを用いて機械学習モデルに学習させる必要があった。そのため、例えば、機械学習モデルが学習していない位置に音源が存在する場合に、音源定位の精度が低下する可能性があった。また、一般的に、音源定位の処理においては、複数の音声の波形を比較するため、音声に雑音が含まれると、波形に重畳された雑音の影響により音源定位の精度が低下する可能性があった。
【0005】
そこで、本発明はこれらの点に鑑みてなされたものであり、音源定位の精度を向上させることができる音源定位装置及び音源定位方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の第1の態様に係る音源定位装置は、第1受音装置が受音した第1音声と、前記第1受音装置とは異なる位置に設置された第2受音装置が受音した第2音声とを取得する取得部と、前記第1音声及び前記第2音声のそれぞれに、入力された音声の内容を示すテキスト情報を出力可能な機械学習モデルに含まれる複数の処理層を伝搬させる伝搬制御部と、前記複数の処理層から選択した後段処理層、及び前記後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化しているユニットを含む、前記第1音声に基づいて前記後段処理層及び前記前段処理層から出力された一以上の第1出力と前記第2音声に基づいて前記後段処理層及び前記前段処理層から出力された一以上の第2出力とを抽出する抽出部と、前記一以上の第1出力に基づいて一以上の第1音響特徴量を検出し、かつ前記一以上の第2出力に基づいて一以上の第2音響特徴量を検出する特徴量検出部と、前記一以上の第1音響特徴量と前記一以上の第2音響特徴量とに基づいて、前記第1音声及び前記第2音声それぞれに含まれる音の発生源である音源の位置を推定する音源定位部と、前記音源定位部が推定した前記音源の位置を示す情報を出力する出力部と、を有する。
【0007】
前記音源定位部は、前記第1受音装置が前記第1音響特徴量に対応する音声を受音した時刻と、前記第2受音装置が前記第2音響特徴量に対応する音声を受音した時刻との関係、並びに前記第1受音装置の位置と、前記第2受音装置の位置との関係に基づいて、前記音源の位置を推定してもよい。
【0008】
前記抽出部は、前記第1音声が前記複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段第1出力、及び前記第2音声が前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段第2出力から、共通に活性化している一以上の後段第1出力及び一以上の後段第2出力を抽出する後段抽出部と、前記一以上の後段第1出力及び前記一以上の後段第2出力を活性化させる要因となった前記前段処理層から出力された複数の前段第1出力、及び前記前段処理層から出力された複数の前段第2出力のうち、共通に活性化している一以上の前段第1出力及び一以上の前段第2出力を抽出する前段抽出部と、を有してもよい。
【0009】
前記前段抽出部は、前記複数の前段第1出力及び前記複数の前段第2出力のうち、活性化している大きさに基づいて、前記一以上の前段第1出力及び前記一以上の前段第2出力を抽出してもよい。
【0010】
前記機械学習モデルは、再帰型ニューラルネットワークを含んでもよいし、前記後段処理層は、出力層、再帰層、全結合層、プーリング層及び畳み込み層のうちのいずれかの層であってもよい。
前記前段処理層は、再帰層、全結合層、プーリング層、畳み込み層及び入力層のうちのいずれかの層であってもよい。
【0011】
前記抽出部は、前記複数の処理層のうち、最後尾の処理層である最後尾層を後段処理層として選択した場合において、前記最後尾層において共通に活性化している前記一以上の第1出力及び前記一以上の第2出力がない場合、前記最後尾層より前の処理層において共通に活性化している前記一以上の第1出力及び前記一以上の第2出力を抽出してもよい。
【0012】
前記音源定位装置は、前記特徴量検出部が特定した前記一以上の第1音響特徴量及び前記一以上の第2音響特徴量から、相互の対応関係に基づいて一部の第1音響特徴量及び一部の第2音響特徴量を選択する選択部をさらに有してもよいし、前記音源定位部は、前記一部の第1音響特徴量と前記一部の第2音響特徴量とに基づいて、前記音源の位置を推定してもよい。
【0013】
前記音源定位装置は、前記複数の処理層のうち、前記後段処理層として用いる処理層を選択する指示を受け付ける指示受付部をさらに有してもよいし、前記抽出部は、前記指示受付部が受け付けた前記指示が示す前記処理層を、前記後段処理層として使用してもよい。
【0014】
前記抽出部は、前記複数の処理層のうち一つの層を前記後段処理層として選択して前記一以上の第1出力及び前記一以上の第2出力を抽出した後に、前記前段処理層として選択した処理層を前記後段処理層として選択して、別の前記一以上の第1出力及び前記一以上の第2出力を抽出してもよい。
【0015】
本発明の第2の態様に係る音源定位方法は、第1受音装置が受音した第1音声を取得するステップと、前記第1受音装置とは異なる位置に設置された第2受音装置が受音した第2音声を取得するステップと、前記第1音声及び前記第2音声のそれぞれに、入力された音声の内容を示すテキスト情報を出力可能な機械学習モデルに含まれる複数の処理層を伝搬させるステップと、前記複数の処理層から選択した後段処理層、及び前記後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化しているユニットを含む、前記第1音声に基づいて前記後段処理層及び前記前段処理層から出力された一以上の第1出力と前記第2音声に基づいて前記後段処理層及び前記前段処理層から出力された一以上の第2出力とを抽出するステップと、前記一以上の第1出力に基づいて一以上の第1音響特徴量を検出し、かつ前記一以上の第2出力に基づいて一以上の第2音響特徴量を検出するステップと、前記一以上の第1音響特徴量と前記一以上の第2音響特徴量とに基づいて、前記第1音声及び前記第2音声それぞれに含まれる音の発生源である音源の位置を推定するステップと、推定した前記音源の位置を示す情報を出力するステップと、を有する。
【0016】
前記抽出するステップは、前記第1音声が前記複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段第1出力、及び前記第2音声が前段処理層及び後段処理層の順に伝搬したことにより前記後段処理層から出力された複数の後段第2出力から、共通に活性化している一以上の後段第1出力及び一以上の後段第2出力を抽出する後段抽出ステップと、前記一以上の後段第1出力及び前記一以上の後段第2出力を活性化させる要因となった前記前段処理層から出力された複数の前段第1出力、及び前記前段処理層から出力された複数の前段第2出力のうち、共通に活性化している一以上の前段第1出力及び一以上の前段第2出力を抽出する前段抽出ステップと、を有してもよい。
【0017】
前記前段抽出ステップを実行した後に、前記一以上の前段第1出力及び前記一以上の前段第2出力を、前記複数の後段第1出力及び前記複数の後段第2出力として、前記後段抽出ステップを実行してもよい。
前記複数の処理層のそれぞれに対して、前記後段抽出ステップ及び前記前段抽出ステップを実行してもよい。
【発明の効果】
【0018】
本発明によれば、音源定位の精度を向上させることができるという効果を奏する。
【図面の簡単な説明】
【0019】
【
図1】音源定位システムの概要を説明するための図である。
【
図2】機械学習モデルの構成の一例を示す図である。
【
図4】抽出部が行う抽出処理について説明するための図である。
【
図5】抽出部が行う抽出処理について説明するための図である。
【
図6】抽出部が行う抽出処理について説明するための図である。
【
図7】抽出部が行う抽出処理について説明するための図である。
【
図8】音源定位装置が行う処理の流れを示すフローチャートである。
【
図9】抽出部が行う処理の流れを示すフローチャートである。
【発明を実施するための形態】
【0020】
[音源定位システムSの概要]
図1は、音源定位システムSの概要を説明するための図である。音源定位システムSは、音源定位、すなわち、3次元空間における音源の位置を推定するシステムである。音源定位システムSは、複数の受音装置1と、音源定位装置2とを有する。
【0021】
受音装置1は、例えばマイクロホンである。受音装置1は、受音した音を電気信号に変換する装置である。
図1に示す例において、音源定位システムSは、複数の受音装置1として、第1受音装置1aと、第1受音装置1aとは異なる位置に設置された第2受音装置1bとを有する。
【0022】
音源定位装置2は、例えばPC(Personal Computer)である。音源定位装置2は、それぞれ異なる位置に設置された複数の受音装置1それぞれが受音した複数の音声に基づいて、複数の音声の発生源である音源の位置を推定することにより、音源定位処理を実行する装置である。音源定位装置2は、予め記憶された複数の受音装置1それぞれが受音した複数の音声に基づいて音源定位処理を実行してもよいし、電気的に接続された複数の受音装置1それぞれがリアルタイムで受音した複数の音声に基づいて音源定位処理を実行してもよい。音源定位装置2には、複数の受音装置1に関する情報(例えば位置及び向き等)が予め設定されている。
【0023】
ところで、近年、スマートフォン、スマートスピーカ及び生活家電等の様々な機器にAI(Artificial Intelligence)が搭載され、各AIにおいて人が発話した内容を認識する様々な音声認識用の機械学習モデルが用いられている。AIを搭載した機器が普及しつつあり、これに伴い音声認識を含むAI技術の精度が向上し、音声認識において雑音に対する耐性が高まっている。そこで、本願の発明者は、音声認識用の機械学習モデルを音源定位の技術に転用することを見出した。
【0024】
具体的には、音源定位装置2は、音声認識用の機械学習モデルMを用いて、音源定位処理を実行する。機械学習モデルMは、入力された音声の内容を示すテキスト情報を出力するように学習されたモデルである。テキスト情報が示す音声の内容は、例えば、人が発話した内容である。
【0025】
図2は、機械学習モデルMの構成の一例を示す図である。機械学習モデルMは、再帰型ニューラルネットワーク(以下、「RNN(Recurrent Neural Network)」という。)を含む。機械学習モデルMに含まれるRNNは、長期短期記憶(以下、「LSTM(Long Short Term Memory)」という。)又はゲート付き再帰型ユニット(以下、「GRU(Gated Recurrent Unit)」という。)のブロックを含んでもよい。機械学習モデルMは、畳み込みニューラルネットワーク(以下、「CNN(Convolutional Neural Network)」という。)をさらに含んでもよい。また、機械学習モデルMは、隠れマルコフモデル(以下、「HMM(Hidden Markov Model)」という。)及び混合ガウスモデル(以下、「GMM(Gaussian Mixture Model)」という。)をさらに含んでもよい。
【0026】
図2に示す例として、機械学習モデルMは、第1畳み込み層(以下、「入力層M1」という。)、第1プーリング層M2、第2畳み込み層M3、第2プーリング層M4、第3畳み込み層M5、第4畳み込み層M6、第1全結合層M7、第2全結合層M8、第1再帰層M9、第2再帰層M10及びCTC(Connectionist Temporal Classification)損失(コネクショニスト時系列分類法の損失。以下、「出力層M11」という。)を有する。
【0027】
機械学習モデルMは、情報を削除したり追加したりする機能を有するゲート層をさらに有してもよい。機械学習モデルMは、例えば、RNNにおいてLSTMのブロックを含む場合、忘却ゲート層、入力ゲート層及び出力ゲート層を有してもよい。また、機械学習モデルMは、例えば、RNNにおいてGRUのブロックを含む場合、更新ゲート層及び再設定ゲート層を有してもよい。本明細書においては、隣接する2つの処理層のうち、入力された音声が伝搬する際の上流側の処理層を前段処理層と称し、下流側の処理層を後段処理層と称する。
【0028】
後段処理層となり得る処理層は、出力層M11、再帰層(第2再帰層M10、第1再帰層M9)、結合層(第2全結合層M8、第1全結合層M7)、畳み込み層(第4畳み込み層M6、第3畳み込み層M5、第2畳み込み層M3)及びプーリング層(第2プーリング層M4、第1プーリング層M2)のうちのいずれかの層である。また、前段処理層となり得る処理層は、再帰層(第2再帰層M10、第1再帰層M9)、結合層(第2全結合層M8、第1全結合層M7)、畳み込み層(第4畳み込み層M6、第3畳み込み層M5、第2畳み込み層M3)、プーリング層(第2プーリング層M4、第1プーリング層M2)及び入力層M1のうちのいずれかの層である。なお、機械学習モデルMがゲート層を有する場合、前段処理層となり得る処理層は、ゲート層であってもよい。音源定位装置2は、取得した第1音声及び第2音声それぞれを機械学習モデルMに入力し、入力層から出力層までの各処理層を順伝搬させる、すなわち、推論させることにより、第1音声に対応するテキスト情報と第2音声に対するテキスト情報とを出力させる。
【0029】
図1に示す例において、まず、音源定位装置2は、第1受音装置1aが受音した第1音声と、第2受音装置1bが受音した第2音声とを取得する(
図1の(1))。第1音声及び第2音声には、音源定位の対象となる音源から発せらせた対象音(例えば人の声)と、対象の音源以外の音源から発せられた雑音とが含まれている。音源定位装置2は、取得した第1音声及び第2音声それぞれを機械学習モデルMに入力し、当該機械学習モデルMに含まれる複数の処理層を伝搬させる(
図1の(2))。
【0030】
音源定位装置2は、機械学習モデルMが出力したテキスト情報によって示される音声の内容を認識するに至った各処理層における計算結果、すなわち、深層学習による抽象度の高い特徴量を用いて、第1音声及び第2音声に共通する音響特徴量を検出する(
図1の(3))。ここで、音源定位装置2は、共通する音響特徴量の検出を、伝搬させた順序とは逆の順序で行う。このようにすることで、音源定位装置2は、抽象度が高い特徴量に基づく音響特徴量を検出することができる。
【0031】
音源定位装置2は、例えば、共通する音響特徴量を検出することにより、第1音声に含まれている対象音に由来する音響特徴量と、第2音声に含まれている対象音に由来する音響特徴量とにそれぞれ対応関係があることを検出する。対応関係は、第1音声の音響特徴量が示す第1音声に含まれる対象音と、第2音声の音響特徴量が示す第2音声に含まれる対象音とが一致又は近似した関係である。
【0032】
音源定位装置2は、検出した第1音声に対応する音響特徴量と、検出した第2音声に対応する音響特徴量とに基づいて、第1音声及び第2音声それぞれに含まれる音(対象音)の発生源である音源の位置を推定する(
図1の(4))。そして、音源定位装置2は、推定した音源の位置を示す情報を出力する(
図1の(5))。
【0033】
このようにすることで、音源定位システムSは、第1音声及び第2音声それぞれに含まれている対象音に由来する音響特徴量を用いることにより、第1音声及び第2音声に含まれる雑音に影響されずに対象音の発生源である音源の位置を推定することができる。その結果、音源定位システムSは、音源定位の精度を向上させることができる。
【0034】
なお、上記において、第1音声及び第2音声それぞれに含まれる対象音が人の声であるとして説明したが、これに限らず、機械学習モデルMがテキスト情報に出力する内容に対応する音であればよい。例えば、機械学習モデルMが出力する内容が五線譜の音符である場合、対象音は、楽器の音であってもよい。
以下、音源定位装置2の詳細について説明する。
【0035】
[音源定位装置2の構成]
図3は、音源定位装置2の構成を示す図である。音源定位装置2は、操作部21、記憶部22、及び制御部23を有する。
【0036】
操作部21は、ユーザの操作を受け付ける入力デバイスである。記憶部22は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)及びハードディスク等の記憶媒体である。記憶部22は、制御部23が実行する各種のプログラムを記憶する。
【0037】
制御部23は、例えばCPU(Central Processing Unit)である。制御部23は、記憶部22に記憶されているプログラムを実行することにより、音源定位装置2に係る機能を制御する。制御部23は、プログラムを実行することにより、取得部231、伝搬制御部232、抽出部233、指示受付部236、特徴量検出部237、選択部238、音源定位部239及び出力部240として機能する。
【0038】
取得部231は、第1受音装置1aが受音した第1音声と、第2受音装置1bが受音した第2音声とを取得する。例えば、記憶部22には、第1音声と第2音声とが記憶されており、音源定位装置2においてユーザが第1音声及び第2音声に対する音源定位処理を実行する操作をしたことを契機として、取得部231は、記憶部22に記憶されている第1音声と第2音声とを取得する。取得部231は、取得した第1音声及び第2音声を伝搬制御部232に入力する。
【0039】
取得部231は、機械学習モデルMに入力可能な形式に変換した第1音声及び第2音声を伝搬制御部232に入力してもよい。この場合、取得部231は、音声を所定の形式に変換する変換部として機能してもよい。例えば、機械学習モデルMに入力可能な形式が画像形式である場合、取得部231は、第1音声を画像に変換した第1画像と、第2音声を画像に変換した第2画像とを、第1音声及び第2音声として伝搬制御部232に入力してもよい。取得部231は、例えば、取得した音声を、音声のスペクトルをフーリエ変換した結果であるケプストラムを表示した画像に変換してもよい。
【0040】
伝搬制御部232は、第1音声及び第2音声のそれぞれに、入力された音声の内容を示すテキスト情報を出力可能な機械学習モデルMに含まれる複数の処理層を伝搬させることにより、伝搬処理を実行する。
図2に示す例において、伝搬制御部232は、第1音声及び第2音声のそれぞれに、機械学習モデルMに含まれる入力層M1から出力層M11までの各処理層を、順に伝搬させる。
【0041】
抽出部233は、複数の処理層から選択した後段処理層、及び後段処理層の直前の処理層である前段処理層の両方の処理層において共通に活性化しているユニットを含む、第1音声に基づいて後段処理層及び前段処理層から出力された一以上の第1出力と第2音声に基づいて後段処理層及び前段処理層から出力された一以上の第2出力とを抽出することにより、抽出処理を実行する。具体的には、抽出部233は、第1音声に含まれる第1フレームに基づいて後段処理層及び前段処理層から出力された一以上の第1出力と第2音声に含まれる第2フレームであって、第1フレームと対応関係にある第2フレームに基づいて後段処理層及び前段処理層から出力された一以上の第2出力とを抽出する。
【0042】
対応関係にある第1フレーム及び第2フレームは、機械学習モデルMに第1音声を入力することによって機械学習モデルMが出力した第1テキスト情報と、機械学習モデルMに第2音声を入力することによって機械学習モデルMが出力した第2テキスト情報とにおいて共通する箇所(例えば文字)を機械学習モデルMが認識するに至ったフレームである。例えば、音声の内容として「おはよう」が第1テキスト情報及び第2テキスト情報に含まれている場合、対応関係にある第1フレーム及び第2フレームは、各文字(例えば1文字目の「お」)を機械学習モデルMが認識するに至った第1音声及び第2音声それぞれに含まれるフレームである。
【0043】
抽出部233が行う抽出処理の詳細については後述するが、抽出部233は、後段処理層で共通に活性化している第1出力の一部である後段第1出力及び第2出力の一部である後段第2出力を抽出する後段抽出部234と、前段処理層で共通に活性化している第1出力の一部である前段第1出力及び第2出力の一部である前段第2出力を抽出する前段抽出部235とを有する。
【0044】
抽出部233が抽出する第1出力及び第2出力は、処理層に含まれる複数のユニットのうち、活性化しているユニットを示す情報である。「活性化」の定義は、例えば、ユニットの出力値又はユニットの出力値と当該ユニットの結合の重みとの積が、所定の閾値を超えた場合でもよいし、出力の大きい順に所定の個数又は所定の割合に含まれた場合であってもよい。また、全結合層以外の処理層(例えば畳み込み層)においては、例えば、チャンネルごとに出力の大きい順に所定の個数又は所定の割合に含まれた場合であってもよい。チャンネルは、フィルタ毎に畳み込み演算した出力である。「共通に活性化」の定義は、第1出力及び第2出力の両方において活性化している場合であってもよいし、第1出力と第2出力との積が、所定の閾値を超えた場合でもよいし、大きい順に所定の個数又は所定の割合に含まれた場合であってもよい。
【0045】
抽出部233は、複数の処理層のうち、最後尾の処理層である最後尾層を後段処理層として選択することが好ましい。しかし、最後尾層において共通に活性化している第1出力及び第2出力がない場合がある。そこで、抽出部233は、複数の処理層のうち、最後尾層を後段処理層として選択した場合において、最後尾層において共通に活性化している一以上の第1出力及び一以上の第2出力がない場合、最後尾層より前の処理層において共通に活性化している一以上の第1出力及び一以上の第2出力を抽出してもよい。
【0046】
例えば、抽出部233が、最後尾層である出力層M11を後段処理層として選択した場合において、出力層M11において共通に活性化している一以上の第1出力及び一以上の第2出力がないとする。この場合において、抽出部233は、出力層M11より前の各処理層に対して、共通に活性化している一以上の第1出力及び一以上の第2出力を繰り返し探索する。抽出部233は、例えば、出力層M11の直前の処理層である第2再帰層M10において共通に活性化している一以上の第1出力及び一以上の第2出力があった場合、第2再帰層M10を後段処理層として選択する。そして、抽出部233は、後段処理層として選択した第2再帰層M10において共通に活性化している一以上の第1出力及び一以上の第2出力を抽出する。
【0047】
また、抽出部233は、例えば、機械学習モデルMがDNN-HMMハイブリッドシステム又はDNN-GMM-HMMタンデムシステム等である場合、出力層のユニットはHMMの状態に対応しているため、第1音声を入力したことにより最尤推定された複数の状態と、第2音声を入力したことにより最尤推定された複数の状態とにおいて共通する状態を第1出力及び第2出力として抽出してもよい。このようにDNNの部分にのみ処理を適用することで、抽出部233は、機械学習モデルMがDNN-HMMハイブリッドシステム又はDNN-GMM-HMMタンデムシステム等の場合であっても、それぞれに音響特徴量を対応付けることができる。
【0048】
抽出部233は、ユーザによって指定された処理層を後段処理層として選択してもよい。具体的には、まず、指示受付部236は、操作部21を介して、複数の処理層のうち、後段処理層として用いる処理層を選択する指示を受け付ける。そして、抽出部233は、指示受付部236が受け付けた指示が示す処理層を、後段処理層として使用する。抽出部233は、
図2に示す例において、ユーザが第2再帰層M10を選択した場合に、指示受付部236が受け付けた指示が示す第2再帰層M10を、後段処理層として使用する。抽出部233は、抽出した第1出力と第2出力とを特徴量検出部237に入力する。
【0049】
特徴量検出部237は、一以上の第1出力に基づいて一以上の第1音響特徴量を検出し、かつ一以上の第2出力に基づいて一以上の第2音響特徴量を検出する。具体的には、特徴量検出部237は、まず、一以上の第1出力及び一以上の第2出力に基づいて、対応関係にある音響特徴量を探索する。そして、特徴量検出部237は、探索した結果に基づいて、対応関係にある一以上の第1出力に基づく一以上の第1音響特徴量と、一以上の第2出力に基づく一以上の第2音響特徴量とを検出する。
【0050】
特徴量検出部237は、例えば、一以上の第1出力及び一以上の第2出力のうち、第1音声に含まれる対象音に由来する一以上の第1出力に基づく一以上の第1音響特徴量と、第2音声に含まれる対象音に由来する一以上の第2出力に基づく第2音響特徴量であって、一以上の第1音響特徴量それぞれと対応関係にある一以上の第2音響特徴量とを検出する。このように、特徴量検出部237は、対応関係にある一以上の第1音響特徴量と一以上の第2音響特徴量を検出することにより、第1受音装置が第1音響特徴量に対応する音声を受音した時刻と、第2受音装置が第2音響特徴量に対応する音声を受音した時刻とを特定することができる。また、特徴量検出部237は、対象音に由来する音響特徴量を検出することにより、第1音声及び第2音声に含まれている雑音によって音源定位の精度が低下することを抑止することができる。特徴量検出部237は、検出した第1音響特徴量及び第2音響特徴量を選択部238に入力する。
【0051】
選択部238は、特徴量検出部237が検出した一以上の第1音響特徴量及び一以上の第2音響特徴量から、相互の対応関係に基づいて一部の第1音響特徴量及び一部の第2音響特徴量を選択する。具体的には、選択部238は、誤検出した対応関係を除去し、除去した後の対応関係に基づく一以上の第1音響特徴量及び一以上の第2音響特徴量を選択する。対応関係の誤検出は、例えば、第1音響特徴量及び第2音響特徴量の対応関係に矛盾が生じている状態である。対応関係の誤検出は、例えば、音源の位置を推定するために算出される音源との距離、すなわち、音源の奥行きを示す値が負数になって正常な範囲に入らない場合、又は3つ以上の音声に基づいて音源位置を推定する場合において、音声の組み合わせによって同じ音源の奥行きを示す値が著しく異なる場合等である。
【0052】
また、対応関係の誤検出は、音響特徴量の時系列に矛盾が生じている状態であってもよい。例えば、一以上の第1音響特徴量のうちの1つである第1音響特徴量A1が、一以上の第2音響特徴量のうちの1つである第2音響特徴量B1と対応し、一以上の第1音響特徴量のうちの1つの第1音響特徴量であって、時系列的に第1音響特徴量A1より後である第1音響特徴量A2が、一以上の第1音響特徴量のうちの1つである第2音響特徴量B2と対応しているとする。この場合において、対応関係の誤検出は、第2音響特徴量B1が第2音響特徴量B2よりも時系列的に前である場合、又は第2音響特徴量B1が第2音響特徴量B2よりも時系列的に後であっても第2音響特徴量B1、B2間における時間の間隔が第1音響特徴量A1、A2間における時間の間隔と著しく異なる場合等である。選択部238は、例えば、RANSAC(Random Sampling Consensus)法又は最小2乗メディアン(LMedS:Least Median of Square)法に基づいて絞り込みを行うことにより、誤検出した対応関係を除去する。
【0053】
音源定位部239は、一以上の第1音響特徴量と一以上の第2音響特徴量とに基づいて、第1音声及び第2音声それぞれに含まれる音の発生源である音源の位置を推定する。第1音声及び第2音声それぞれに含まれる音は、機械学習モデルMがテキスト情報に出力した音声の内容に対応する音であり、第1音声及び第2音声の両方に含まれる音である。
【0054】
具体的には、まず、音源定位部239は、一以上の第1音響特徴量と一以上の第2音響特徴量とに基づいて、第1音声及び第2音声の発生源である音源の奥行きを推定する。そして、音源定位部239は、推定した音源の奥行きに基づいて、3次元空間における音源の位置を推定する。
【0055】
音源定位部239は、第1受音装置が第1音響特徴量に対応する音声を受音した時刻と、第2受音装置が第2音響特徴量に対応する音声を受音した時刻との関係、並びに第1受音装置の位置と、第2受音装置の位置との関係に基づいて、第1音声及び第2音声それぞれに含まれる音の発生源である音源の位置を推定してもよい。音源定位部239は、例えば、第1受音装置が第1音響特徴量に対応する音声を受音した時刻と、第2受音装置が第2音響特徴量に対応する音声を受音した時刻との差と、第1受音装置及び第2受音装置の相対位置とに基づいて算出される双曲面に基づいて、音源の位置を推定してもよい。
【0056】
また、音源定位部239は、複数の受音装置として、3つの受音装置が存在する場合、3つの受音装置それぞれが音響特徴量に対応する音声を受音した時刻の差と、3つの受音装置の相対位置とに基づいて算出される2つの双曲面の交線(双曲線)に基づいて、音源の位置を推定してもよい。また、音源定位部239は、複数の受音装置として、4つの受音装置が存在する場合、4つの受音装置それぞれが音響特徴量に対応する音声を受音した時刻の差と、4つの受音装置の相対位置とに基づいて算出される3つの双曲面の交点に基づいて、音源の位置を推定してもよい。
【0057】
音源定位部239は、選択部238が誤検出を除去した後の対応関係に基づく一部の第1音響特徴量と一部の第2音響特徴量とに基づいて、音源の位置を推定してもよい。なお、音源定位部239は、公知の技術を用いて、音源の位置を推定してもよい。
【0058】
出力部240は、音源定位部239が推定した音源の位置を示す情報を出力する。
【0059】
[抽出処理]
続いて、抽出部233が行う抽出処理について説明する。上述のとおり、抽出部233は、後段抽出部234及び前段抽出部235を有する。後段抽出部234は、第1音声が複数の処理層の一部である前段処理層及び後段処理層の順に伝搬したことにより後段処理層から出力された複数の後段第1出力、及び第2音声が前段処理層及び後段処理層の順に伝搬したことにより後段処理層から出力された複数の後段第2出力から、共通に活性化している一以上の後段第1出力及び一以上の後段第2出力を抽出する。具体的には、後段抽出部234は、第1音声に含まれる第1フレームに基づいて後段処理層から出力された複数の後段第1出力、及び第2音声において第1フレームと対応関係にある第2フレームに基づいて後段処理層から出力された複数の後段第2出力から、共通に活性化している一以上の後段第1出力及び一以上の後段第2出力を抽出する。
【0060】
前段抽出部235は、一以上の後段第1出力及び一以上の後段第2出力を活性化させる要因となった前段処理層から出力された複数の前段第1出力、及び前段処理層から出力された複数の前段第2出力のうち、共通に活性化している一以上の前段第1出力及び一以上の前段第2出力を抽出する。
【0061】
図4から
図7は、抽出部233が行う抽出処理について説明するための図である。
図4から
図6は、前段処理層から後段処理層に伝搬させた状態を示している。
図4から
図7において、実線で示すユニットを結合する結合線は、結合するユニットが活性化していたことを示し、破線で示す結合線は、結合するユニットが活性化していなかったことを示す。また、結合線を示す線の太さは、結合するユニットの活性化の大きさを示す。
【0062】
図4に示す例において、処理層M20は後段処理層であり、処理層M19は前段処理層である。
図4(a)は抽出前の状態であり、
図4(b)は抽出後の状態である。第1音声において、処理層M20は、ユニットU1、U2が活性化しており、処理層M19は、ユニットU1、U2が活性化している。第2音声において、処理層M20は、ユニットU2が活性化しており、処理層M19は、ユニットU2が活性化している。
【0063】
この場合において、後段抽出部234は、第1音声に含まれる第1フレームに基づいて後段処理層である処理層M20から出力された後段第1出力であるユニットU1、U2、及び第2音声において第1フレームと対応関係にある第2フレームに基づいて処理層M20から出力された後段第2出力であるユニットU2を比較する。そして、後段抽出部234は、共通に活性化している後段第1出力のユニットU2及び後段第2出力のユニットU2を抽出する。
【0064】
続いて、前段抽出部235は、後段第1出力のユニットU2を活性化させる要因となった前段処理層である処理層M19から出力された前段第1出力であるユニットU1、U2、及び後段第2出力のユニットU2を活性化させる要因となった処理層M19から出力された前段第2出力であるユニットU2を比較する。そして、前段抽出部235は、共通に活性化している前段第1出力のユニットU2、及び前段第2出力のユニットU2を抽出する。
【0065】
前段抽出部235は、複数の前段第1出力及び複数の前段第2出力のうち、活性化している大きさに基づいて、一以上の前段第1出力及び一以上の前段第2出力を抽出してもよい。前段抽出部235は、例えば、複数の前段第1出力及び複数の前段第2出力のうち、最も大きく活性化している一以上の前段第1出力及び一以上の前段第2出力を抽出してもよい。
【0066】
抽出部233は、処理層M20から処理層M19までの出力を抽出すると、次の処理層に対する出力を抽出する。具体的には、抽出部233は、処理層ごとに、共通に活性化している第1出力及び第2出力を抽出する処理を、伝搬制御部232が伝搬させた順序とは逆の順序で繰り返し行う。より具体的には、抽出部233は、複数の処理層のうち一つの層を後段処理層として選択して一以上の第1出力及び一以上の第2出力を抽出した後に、前段処理層として選択した処理層を後段処理層として選択して、別の一以上の第1出力及び一以上の第2出力を抽出する。このようにすることで、抽出部233は、第1音声及び第2音声に対する比較の精度を高めることができる。
【0067】
抽出部233は、第1音声に含まれる複数の第1フレームそれぞれに基づいて後段処理層及び前段処理層から出力された一以上の第1出力と、第2音声に含まれる第2フレームにおいて第1フレームと対応関係にある第2フレームに基づいて後段処理層及び前段処理層から出力された一以上の第2出力とを抽出してもよい。
【0068】
図5は、第1音声における第1フレームn及び第1フレームn-1が、前段処理層から後段処理層に伝搬した状態を示している。
図6は、第2音声における第2フレームm及び第2フレームm-1が、前段処理層から後段処理層に伝搬した状態を示している。第1フレームn及び第2フレームmは、対応関係にある第1フレーム及び第2フレームであり、第1フレームn-1及び第2フレームm-1は、対応関係にある第1フレーム及び第2フレームそれぞれの1つ前のフレームである。
図5及び
図6の場合において、第1フレームn及び第2フレームmの処理層M18は後段処理層であり、第1フレームn-1及び第2フレームm-1の処理層M18と第1フレームn及び第2フレームmの処理層M17とは前段処理層である。
図5(a)及び
図6(a)は抽出前の状態であり、
図5(b)及び
図6(b)は抽出後の状態である。
【0069】
図5に示す例において、第1音声における第1フレームnの処理層M18は、ユニットU11、U12が活性化している。
図6に示す例において、第2音声における第2フレームmの処理層M18は、ユニットU12が活性化している。
【0070】
この場合において、後段抽出部234は、第1音声の第1フレームnにおける後段処理層である処理層M18から出力された後段第1出力であるユニットU11、U12、及び第2音声において第1フレームnと対応関係にある第2フレームmにおける処理層M18から出力された後段第2出力であるユニットU12を比較する。そして、後段抽出部234は、共通に活性化している後段第1出力のユニットU12及び後段第2出力のユニットU12を抽出する。
【0071】
続いて、前段抽出部235は、第1フレームnにおける後段第1出力のユニットU12を活性化させる要因となった前段処理層である第1フレームn-1の処理層M18から出力された前段第1出力であるユニットU11、U12、及び第2フレームmにおける後段第2出力のユニットU12を活性化させる要因となった前段処理層である第2フレームm-1の処理層M18から出力された前段第2出力であるユニットU12を比較する。そして、後段抽出部234は、共通に活性化している前段第1出力のユニットU12及び前段第2出力のユニットU12を抽出する。
【0072】
また、前段抽出部235は、第1フレームnにおける後段第1出力のユニットU12を活性化させる要因となった前段処理層である第1フレームnの処理層M17から出力された前段第1出力であるユニットU11、U12、及び第2フレームmにおける後段第2出力のユニットU12を活性化させる要因となった前段処理層である第2フレームmの処理層M17から出力された前段第2出力であるユニットU12を比較する。そして、前段抽出部235は、共通に活性化している前段第1出力のユニットU12、及び前段第2出力のユニットU12を抽出する。
【0073】
前段抽出部235は、後段抽出部234が一以上の後段第1出力及び一以上の後段第2出力を抽出した後段処理層にゲート層が含まれている場合、当該ゲート層において共通に活性化している前段第1出力及び前段第2出力を抽出してもよい。
【0074】
図7に示す例において、ユニットU22は、後段抽出部234が抽出した第1出力及び第2出力であり、ゲートG2は、出力ゲート層であり、セルC2は、メモリセルである。
図7(a)は抽出前の状態であり、
図7(b)は抽出後の状態である。第1音声においては、ゲートG2及びセルC2が活性化している。第2音声においては、セルC2が活性化している。
【0075】
この場合において、前段抽出部235は、後段第1出力のユニットU22を活性化させる要因となったゲートG2、セルC2、及び後段第2出力のユニットU22を活性化させる要因となったセルC2を比較する。そして、前段抽出部235は、共通に活性化している前段第1出力のセルC2、及び前段第2出力のセルC2を抽出する。
【0076】
抽出部233は、上述の抽出処理を入力層まで繰り返し行うことが好ましい。しかし、抽出部233は、抽出処理を最初の処理層まで行わずに、途中の処理層(例えば、プーリング層又は畳み込み層等)で終了してもよい。このように、抽出部233は、伝搬制御部232が伝搬させた順序とは逆の順序で抽出処理を行うことにより、抽象度が高い特徴量を抽出することができる。
【0077】
[音源定位装置2の処理]
続いて、音源定位装置2が行う処理の流れを説明する。
図8は、音源定位装置2が行う処理の流れを示すフローチャートである。本フローチャートは、例えば、記憶部22に記憶されている第1音声と第2音声とを取得したことを契機として開始する(S1)。取得部231は、取得した第1音声と第2音声とを、伝搬制御部232に入力する。
【0078】
伝搬制御部232は、取得部231から入力された第1音声及び第2音声のそれぞれに、機械学習モデルMに含まれる入力層M1から出力層M11までの複数の処理層を、入力層M1から順に伝搬させる(S2)。抽出部233は、後段処理層及び前段処理層の両方の処理層において共通に活性化している一以上の第1出力及び一以上の第2出力を抽出する処理を行う(S3)。
【0079】
図9は、抽出部233が行う処理の流れを示すフローチャートである。抽出部233は、指示受付部236が、操作部21を介して、複数の処理層のうち、後段処理層として用いる処理層を選択する指示を受け付けたか否かを判定する(S31)。
【0080】
抽出部233は、指示受付部236が指示を受け付けたと判定した場合(S31においてYESの場合)、指示受付部236が受け付けた指示が示す処理層を、後段処理層として使用する(S32)。抽出部233は、例えば、指示受付部236が第2再帰層M10を示す指示を受け付けたと判定した場合、指示受付部236が受け付けた指示が示す第2再帰層M10を、後段処理層として選択する。一方、抽出部233は、指示受付部236が指示を受け付けていないと判定した場合(S31においてNOの場合)、最後尾層(例えば、出力層M11)で共通に活性化している一以上の第1出力及び一以上の第2出力があるか否かを判定する(S33)。
【0081】
抽出部233は、第2再帰層M10で共通に活性化している一以上の第1出力及び一以上の第2出力があると判定した場合(S33においてYESの場合)、最後尾層である出力層M11を、後段処理層として使用する(S34)。一方、抽出部233は、第2再帰層M10で共通に活性化している一以上の第1出力及び一以上の第2出力がないと判定した場合(S33においてNOの場合)、第2再帰層M10より前の各処理層に対して、共通に活性化している一以上の第1出力及び一以上の第2出力を繰り返し探索する。そして、抽出部233は、共通に活性化している一以上の第1出力及び一以上の第2出力がある処理層(例えば、第1再帰層M9)を、後段処理層として使用する(S35)。抽出部233は、選択した後段処理層、及び前段処理層の両方の処理層において共通に活性化している、第1音声に基づいて後段処理層及び前段処理層から出力された一以上の第1出力と第2音声に基づいて後段処理層及び前段処理層から出力された一以上の第2出力とを抽出する。
【0082】
具体的には、まず、後段抽出部234は、選択した後段処理層から出力された複数の後段第1出力、及び選択した後段処理層から出力された複数の後段第2出力から、共通に活性化している一以上の後段第1出力及び一以上の後段第2出力を抽出する(S36)。そして、前段抽出部235は、後段抽出部234が抽出した一以上の後段第1出力及び一以上の後段第2出力を活性化させる要因となった前段処理層から出力された複数の前段第1出力、及び前段処理層から出力された複数の前段第2出力のうち、共通に活性化している一以上の前段第1出力及び一以上の前段第2出力を抽出する(S37)。
【0083】
続いて、抽出部233は、前段処理層より前に別の処理層があるか否かを判定する(S38)。抽出部233は、前段処理層(例えば、第1再帰層M9)より前に別の処理層(例えば、第2全結合層M8)があると判定した場合(S38においてYESの場合)、第1再帰層M9を後段処理層として使用し(S39)、処理をS46に戻す。一方、抽出部233は、前段処理層(例えば、入力層M1)より前に別の処理層がないと判定した場合(S38においてNOの場合)、抽出した一以上の第1出力及び一以上の第2出力を特徴量検出部237に入力し、抽出処理を終了する。
【0084】
図8に戻り、特徴量検出部237は、一以上の第1出力及び一以上の第2出力に基づいて、対応関係にある音響特徴量を探索し、探索した結果に基づいて、対応関係にある一以上の第1出力に基づく一以上の第1音響特徴量と、一以上の第2出力に基づく一以上の第2音響特徴量とを検出する(S4)。続いて、選択部238は、特徴量検出部237が検出した第1音響特徴量及び第2音響特徴量に誤検出した対応関係があるか否かを判定する(S5)。選択部238は、例えば、RANSAC法に基づいて絞り込みを行う。
【0085】
選択部238は、第1音響特徴量及び第2音響特徴量に誤検出した対応関係があると判定した場合(S5においてYESの場合)、誤検出した対応関係にある第1音響特徴量及び第2音響特徴量を除去し(S6)、除去した後の対応関係に基づく一部の第1音響特徴量及び一部の第2音響特徴量を選択する。
【0086】
音源定位部239は、選択部238が、第1音響特徴量及び第2音響特徴量に誤検出した対応関係がないと判定した場合(S5においてNOの場合)、又は誤検出した対応関係にある第1音響特徴量及び第2音響特徴量を除去した後に、一以上の第1音響特徴量と一以上の第2音響特徴量とに基づいて、第1音声及び第2音声それぞれに含まれる音の発生源である音源の位置を推定する(S7)。そして、出力部240は、音源定位部239が推定した音源の位置を示す情報を出力する(S8)。
【0087】
[本実施の形態における効果]
以上説明したとおり、音源定位システムSは、取得した第1音声及び第2音声のそれぞれに、機械学習モデルMに含まれる複数の処理層を伝搬させる。音源定位システムSは、伝搬させた順とは逆の順序で後段処理層及び前段処理層の両方の処理層において共通に活性化している一以上の第1出力及び一以上の第2出力を、処理層ごとに抽出し、対応関係にある一以上の第1音響特徴量及び一以上の第2音響特徴量をそれぞれ検出する。そして、音源定位システムSは、検出した一以上の第1音響特徴量及び一以上の第2音響特徴量に基づいて、第1音声及び第2音声それぞれに含まれる音の発生源である音源の位置を推定し、推定した音源の位置を示す情報を出力する。
【0088】
このようにすることで、音源定位システムSは、第1音声及び第2音声それぞれに含まれている対象音に由来する音響特徴量を用いることにより、第1音声及び第2音声に含まれる雑音に影響されずに対象音の発生源である音源の位置を推定することができる。その結果、音源定位システムSは、音源定位の精度を向上させることができる。
【0089】
音源定位システムSは、例えば、複数の受音装置1で受音した多聴点音声を用いて、特定の音源の方向を示す情報を取得することにより、当該特定の音源から発せられた音声と他の音声とを聞き分けることができる。また、音源定位装置2は、例えば、聞き取りたい音源とは異なる方向の音声を抑圧することにより、雑音を除去することができる。
【0090】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。
【符号の説明】
【0091】
1 受音装置
2 音源定位装置
21 操作部
22 記憶部
23 制御部
231 取得部
232 伝搬制御部
233 抽出部
234 後段抽出部
235 前段抽出部
236 指示受付部
237 特徴量検出部
238 選択部
239 音源定位部
240 出力部