IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 沖電気工業株式会社の特許一覧

特開2023-124320収音装置、収音プログラム及び収音方法
<>
  • 特開-収音装置、収音プログラム及び収音方法 図1
  • 特開-収音装置、収音プログラム及び収音方法 図2
  • 特開-収音装置、収音プログラム及び収音方法 図3
  • 特開-収音装置、収音プログラム及び収音方法 図4
  • 特開-収音装置、収音プログラム及び収音方法 図5
  • 特開-収音装置、収音プログラム及び収音方法 図6
  • 特開-収音装置、収音プログラム及び収音方法 図7
  • 特開-収音装置、収音プログラム及び収音方法 図8
  • 特開-収音装置、収音プログラム及び収音方法 図9
  • 特開-収音装置、収音プログラム及び収音方法 図10
  • 特開-収音装置、収音プログラム及び収音方法 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023124320
(43)【公開日】2023-09-06
(54)【発明の名称】収音装置、収音プログラム及び収音方法
(51)【国際特許分類】
   G10L 21/0272 20130101AFI20230830BHJP
   H04R 3/00 20060101ALI20230830BHJP
   G10L 25/51 20130101ALI20230830BHJP
【FI】
G10L21/0272 100A
H04R3/00 320
G10L25/51 400
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022028016
(22)【出願日】2022-02-25
(71)【出願人】
【識別番号】000000295
【氏名又は名称】沖電気工業株式会社
(74)【代理人】
【識別番号】100180275
【弁理士】
【氏名又は名称】吉田 倫太郎
(74)【代理人】
【識別番号】100161861
【弁理士】
【氏名又は名称】若林 裕介
(72)【発明者】
【氏名】石黒 高詩
【テーマコード(参考)】
5D220
【Fターム(参考)】
5D220BA06
5D220BC05
(57)【要約】
【課題】 任意の収音範囲内の音だけを精度良く収音する。
【解決手段】 本発明は、収音装置に関する。そして、本発明の収音装置は、複数のマイクロホンアレイを備えるマイクアレイ部からの入力信号の周波数成分ごとに、マイクロホンアレイから音源位置への方向である音源方向を取得し、取得した音源方向に基づいて音源位置を取得する音源位置取得処理を行う音源位置取得手段と、音源位置取得手段による音源位置取得処理結果に基づいて、入力信号から収音範囲内を音源とする周波数成分により構成される抽出音を抽出する収音処理手段とを有することを特徴とする。
【選択図】 図1
【特許請求の範囲】
【請求項1】
複数のマイクロホンアレイを備えるマイクアレイ部からの入力信号の周波数成分ごとに、前記マイクロホンアレイから音源位置への方向である音源方向を取得し、取得した音源方向に基づいて音源位置を取得する音源位置取得処理を行う音源位置取得手段と、
前記音源位置取得手段による音源位置取得処理結果に基づいて、前記入力信号から収音範囲内を音源とする周波数成分により構成される抽出音を抽出する収音処理手段と
を有することを特徴とする収音装置。
【請求項2】
前記収音処理手段は、複数の前記収音範囲のそれぞれについて前記抽出音を抽出することを特徴とする請求項1に記載の収音装置。
【請求項3】
前記マイクアレイ部は3以上の前記マイクロホンアレイを備え、
前記音源位置取得手段は、前記収音範囲ごとに対応する2つの前記マイクロホンアレイの組からの前記入力信号に基づいて周波数成分ごとの音源位置を取得する音源位置取得処理を行い、
前記収音処理手段は、前記収音範囲ごとに対応する前記音源位置取得処理の結果を用いて、前記入力信号から収音範囲内を音源とする周波数成分により構成される抽出音を抽出する
ことを特徴とする請求項2に記載の収音装置。
【請求項4】
前記収音処理手段に設定する前記収音範囲を変更する収音範囲変更手段をさらに備えることを特徴とする請求項1~3のいずれかに記載の収音装置。
【請求項5】
前記収音範囲変更手段は、前記収音処理手段が抽出した前記抽出音を構成する周波数成分の音源位置に基づいて、前記収音処理手段に設定する前記収音範囲を決定することを特徴とする請求項4に記載の収音装置。
【請求項6】
前記収音範囲は三次元空間内に設定されており、
前記音源位置取得手段は、前記入力信号の周波数成分ごとに、音源方向として前記マイクロホンアレイから前記三次元空間内の音源位置への方位角と仰俯角を取得し、取得した方位角及び仰俯角に基づいて前記三次元空間内の音源位置を取得する
ことを特徴とする請求項1~5のいずれかに記載の収音装置。
【請求項7】
コンピュータを、
複数のマイクロホンアレイを備えるマイクアレイ部からの入力信号の周波数成分ごとに、前記マイクロホンアレイから音源位置への方向である音源方向を取得し、取得した音源方向に基づいて音源位置を取得する音源位置取得処理を行う音源位置取得手段と、
前記音源位置取得手段による音源位置取得処理結果に基づいて、前記入力信号から収音範囲内を音源とする周波数成分により構成される抽出音を抽出する収音処理手段と
して機能させることを特徴とする収音プログラム。
【請求項8】
収音装置が行う収音方法において、
前記収音装置は、音源位置取得手段と収音処理手段とを備え、
前記音源位置取得手段は、複数のマイクロホンアレイを備えるマイクアレイ部からの入力信号の周波数成分ごとに、前記マイクロホンアレイから音源位置への方向である音源方向を取得し、取得した音源方向に基づいて音源位置を取得する音源位置取得処理を行い、
前記収音処理手段は、前記音源位置取得手段による音源位置取得処理結果に基づいて、前記入力信号から収音範囲内を音源とする周波数成分により構成される抽出音を抽出する
ことを特徴とする収音方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、収音装置、収音プログラム及び収音方法に関し、例えば、収音範囲となる収音エリア又は収音空間を音源とする音を収音する処理に適用し得る。
【背景技術】
【0002】
従来、エリア収音処理に関する技術としては、例えば、特許文献1、2の記載技術が存在する。
【0003】
特許文献1には、複数のマイクアレイを設置した空間において、予め各マイクアレイの収音範囲を決めておき、2つのマイクアレイの組合せにより、収音エリアを指定する方法が記載されている。
【0004】
また、特許文献2には、複数のマイクロホンアレイで各々特定された音の到来方向の組と、光学センサ(LRF:Laser Range Finder)の検知結果を用いて、発話中の人の位置を推定し、その推定した位置の音を収音することについて記載されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2016-25469号公報
【特許文献2】特開2016-50872号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
特許文献1に記載された方法で収音エリアの音を収音する場合、目的音源が収音エリアの境界付近に存在している場合などに、収音した音に音途切れが生じる可能性がある。また、特許文献1に記載された方法で収音エリアの音を収音する場合、収音エリア内に目的音源だけでなく妨害音も有った場合には、妨害音の除去が困難である。ここで、妨害音と言っているのは、例えば、近くにいる収音したくない人の声や、キーボードの打鍵音などである。
【0007】
特許文献2に記載された方法で収音エリアの音を収音する場合、人間の位置情報の検出のために、別途センサが必要となるため、コストが高くなることや、設置環境が制限されること等の問題がある。また、特許文献2に記載された方法で収音エリアの音を収音する場合、複数のマイクアレイおよび光学センサの配置位置の情報が必要で、各デバイス情報の連携も必要となるため、処理が煩雑で構築コストの増大につながる。さらに、特許文献2に記載された方法で収音エリアの音を収音する場合、監視対象の空間内に存在する人が多いと、処理負荷が増大し、処理性能確保に課題が生じる。さらにまた、特許文献2に記載された方法で収音エリアの音を収音する場合、目的音以外の妨害音(収音対象としない人の話し声)やノイズが大きい環境では、音源定位などの精度確保が困難になり所望の目的音収音の実現が困難となる。
【0008】
以上のような問題に鑑みて、任意の収音範囲内の音だけを精度良く収音する収音装置、収音プログラム及び収音方法が望まれている。
【課題を解決するための手段】
【0009】
第1の本発明は、複数のマイクロホンアレイを備えるマイクアレイ部からの入力信号の周波数成分ごとに、前記マイクロホンアレイから音源位置への方向である音源方向を取得し、取得した音源方向に基づいて音源位置を取得する音源位置取得処理を行う音源位置取得手段と、前記音源位置取得手段による音源位置取得処理結果に基づいて、前記入力信号から収音範囲内を音源とする周波数成分により構成される抽出音を抽出する収音処理手段とを有することを特徴とする。
【0010】
第2の本発明の収音プログラムは、コンピュータを、複数のマイクロホンアレイを備えるマイクアレイ部からの入力信号の周波数成分ごとに、前記マイクロホンアレイから音源位置への方向である音源方向を取得し、取得した音源方向に基づいて音源位置を取得する音源位置取得処理を行う音源位置取得手段と、前記音源位置取得手段による音源位置取得処理結果に基づいて、前記入力信号から収音範囲内を音源とする周波数成分により構成される抽出音を抽出する収音処理手段として機能させることを特徴とする。
【0011】
第3の本発明は、収音装置が行う収音方法において、前記収音装置は、音源位置取得手段と収音処理手段とを備え、前記音源位置取得手段は、複数のマイクロホンアレイを備えるマイクアレイ部からの入力信号の周波数成分ごとに、前記マイクロホンアレイから音源位置への方向である音源方向を取得し、取得した音源方向に基づいて音源位置を取得する音源位置取得処理を行い、前記収音処理手段は、前記音源位置取得手段による音源位置取得処理結果に基づいて、前記入力信号から収音範囲内を音源とする周波数成分により構成される抽出音を抽出することを特徴とする。
【発明の効果】
【0012】
本発明によれば、任意の収音範囲内の音だけを精度良く収音する収音装置、収音プログラム及び収音方法を提供することができる。
【図面の簡単な説明】
【0013】
図1】第1の実施形態に係る収音装置の機能的構成について示した図である。
図2】第1の実施形態に係るマイクロホンアレイの配置構成(収音エリアとの位置関係)について示した図である。
図3】第1の実施形態に係る音源位置取得処理部が行う音源位置取得処理方法について示した図である。
図4】第1の実施形態に係る収音装置をPC端末ユーザの発話音声に適用する例について示した図(その1)である。
図5】第1の実施形態に係る収音装置をPC端末ユーザの発話音声に適用する例について示した図(その2)である。
図6】第2の実施形態に係る収音装置(収音処理部)が、収音エリアを移動(変更)させる処理の例について示した図である。
図7】第3の実施形態に係るマイクロホンアレイの配置構成(収音エリアとの位置関係)について示した図である。
図8】第4の実施形態に係る収音装置の機能的構成について示した図である。
図9】第4の実施形態に係るマイクロホンアレイの配置構成(収音エリアとの位置関係)について示した図である。
図10】第5の実施形態に係る収音装置の機能的構成について示した図である。
図11】第5の実施形態に係るマイクロホンアレイの配置構成(収音空間との位置関係)について示した図である。
【発明を実施するための形態】
【0014】
(A)第1の実施形態
以下、本発明による収音装置、収音プログラム及び収音方法の第1の実施形態を図面を参照して説明する。
【0015】
(A-1)第1の実施形態の構成
図1は、第1の実施形態に係る収音装置10の機能的構成を示すブロック図である。なお、図1において、括弧内の符号は、後述する第2及び第3の実施形態で用いられる符号である。
【0016】
図1に示す収音装置10は、2以上のマイクロホンアレイMAを備えるマイクアレイ部20から供給される音響信号に基づいて収音対象となる収音エリア(収音範囲)を音源とする音(以下、「収音エリア音」又は「収音範囲音」とも呼ぶ)を収音するエリア収音処理を行う。
【0017】
この実施形態の例において、マイクアレイ部20は、2つのマイクロホンアレイMA(MA1、MA2)を有している。
【0018】
マイクロホンアレイMA1、MA2は、収音エリアが存在する領域(空間)の任意の場所に配置される。各マイクロホンアレイは2つ以上のマイクロホンMから構成され、各マイクロホンMにより音響信号を収音する。この実施形態では、各マイクロホンアレイに、音響信号を収音する2つのマイクロホンM1、M2が配置されるものとして説明する。すなわち、この実施形態において、各マイクロホンアレイは、2chマイクロホンアレイを構成しているものとする。
【0019】
図2は、第1の実施形態におけるマイクロホンアレイMA1、MA2の配置構成(収音エリアとの位置関係)について示した図である。
【0020】
図2では、マイクロホンアレイMA1、MA2の位置をそれぞれPMA1、PMA2という符号で図示している。また、図2では、収音装置10の収音エリアAC101を点線で囲って図示している。
【0021】
図2に示すように、この実施形態では、各マイクロホンアレイMA及び収音エリアAC101が存在する空間内の各位置を、マイクロホンアレイMA1の位置PMA1を原点とした二次元平面の座標系(X-Y座標系)として説明する。なお、空間内の各位置を表現する形式について上記の例に限定されず種々の位置情報の表現形式を用いるようにしてもよいことは当然である。図2では、マイクロホンアレイMA1の位置PMA1を原点(X=0、Y=0)とし、X軸上の位置PMA2にマイクロホンアレイMA2も配置されている。また、マイクロホンアレイMA1、MA2の各マイクロホンMは全てX軸上に配置されているものとする。
【0022】
この実施形態では、各マイクロホンアレイMAの位置は、マイクロホンM1とマイクロホンM2の位置(中心位置)の間の中間位置であるものとする。収音エリアAC101の形状は限定されないものであるが、この実施形態では、収音エリアAC101は図2に示すような矩形の領域であるものとして説明する。また、ここでは、説明を簡易とするため、マイクロホンアレイMA1、MA2の全てのマイクロホンMは収音エリアAC101(矩形)の一辺と並行となる方向に一列に並べられているものとする。言い換えると、この実施形態では、マイクロホンアレイMA1、MA2において、2つのマイクロホンM1、M2の間の線分の垂直二等分線の方向に収音エリアAC101が配置されている。
【0023】
次に、図1図2を用いて収音装置10の内部構成について説明する。
【0024】
図1に示す通り、収音装置10は、データ入力部11、収音処理部12、出力部13、音源位置取得処理部14、及び位置情報保持部15を有している。
【0025】
収音装置10は、全てハードウェア(例えば、専用チップ等)により構成するようにしてもよいし一部又は全部についてソフトウェア(プログラム)として構成するようにしてもよい。収音装置10は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム(実施形態の収音プログラムを含む)をインストールすることにより構成するようにしてもよい。
【0026】
データ入力部11は、マイクアレイ部20(この実施形態ではマイクロホンアレイMA1、MA2)で捕捉した音響信号をアナログ信号からデジタル信号に変換する。データ入力部11は、さらに、例えば高速フーリエ変換を用いてデジタル信号を、時間領域から周波数領域へ変換して、収音処理部12及び音源位置取得処理部14に供給する。以下では、データ入力部11から、収音処理部12及び音源位置取得処理部14に供給される信号を「入力信号」と呼ぶものとする。
【0027】
位置情報保持部15は、各マイクロホンアレイMA(各マイクロホンMの位置を特定可能な情報)と収音エリアAC101の位置情報を保持する機能を担っている。位置情報保持部15には、形式は限定されないものであるが、少なくとも、各マイクロホンアレイMAと収音エリアAC101との相対的な位置関係を把握可能な情報が保持されている。この実施形態の例では、位置情報保持部15には、各マイクロホンアレイMAを構成する各マイクロホンMの位置(各マイクロホンMの位置を特定可能な情報を含む)及び収音エリアAC101の輪郭(外形)を示す座標(例えば、収音エリアAC101の各頂点の座標)の情報を記録するようにしてもよい。例えば、マイクロホンアレイMA1、MA2のそれぞれにおいて、マイクロホンM1、M2は、X軸上に並べて配置されており、マイクロホンM1、M2間の距離が既知であるとすれば、位置情報保持部15には、各マイクロホンアレイMA1、MA2の位置PMA1、PMA2の位置の座標が保持されていれば、各マイクロホンMの位置の座標も明らかとなる。
【0028】
音源位置取得処理部14は、位置情報保持部15が保持している各マイクロホンアレイMA1、MA2の位置情報と、各マイクロホンアレイMAからの入力信号に基づいて、収音された音の音源の位置を取得(推定)する「音源位置取得処理」を行い、音源位置取得処理の結果を収音処理部12に供給する。音源位置取得処理部14は、入力信号について周波数成分ごとに音源位置取得処理を行い、その処理結果(以下、「音源位置取得処理結果」とも呼ぶ)を収音処理部12に供給する。音源位置取得処理部14による音源位置取得処理の詳細については後述する。
【0029】
収音処理部12は、各マイクロホンアレイMAの入力信号から、収音エリアAC101内(収音範囲内)を音源とする収音エリア音(収音範囲音)を抽出した信号(以下、「収音エリア音抽出信号」又は「収音範囲音抽出信号」とも呼ぶ)を取得し、出力部13に供給する。
【0030】
収音処理部12は、入力信号(いずれかのマイクロホンアレイMAのいずれかのマイクロホンMの入力信号)の周波数成分ごとに音源の位置(音源位置取得処理結果)を確認して、音源の位置が収音エリアAC101内となる周波数成分を、収音エリア音の成分とみなして抽出する。そして、収音処理部12は、抽出した各周波数成分で構成される信号を収音エリア音抽出信号として取得して出力(出力部13に供給)する。上記の通り、収音処理部12が、収音エリア音抽出信号の抽出に用いる入力信号としては、いずれかのマイクロホンアレイMAのいずれかのマイクロホンMの入力信号を用いることができる。
【0031】
ところで、一般的に、音声信号は「時間-周波数領域」において存在が「まばら」な「スパース性」と呼ばれる性質をもっている(以下の参考文献2参照)。信号がスパースであるとは、信号がほとんどの時間周波数において0であることを指す。信号のスパース性を仮定することで、複数の信号が同時に存在していても、各時間周波数ポイントで見れば互いに重なりあって観測される頻度は非常に低いことを仮定できる。したがって、収音エリアAC101の存在する空間において、複数の音声(音源)が同時に存在しても、ある時刻のある周波数においては一つの音声のみが存在する場合が多いことになる。したがって、収音処理部12においても、上記のような音声信号のスパース性を考慮すると、入力信号の任意の区間(例えば高速フーリエ変換の1フレーム区間の入力信号)を周波数領域で観測した場合、当該区間を構成する各周波数成分は全て1つの音源(1つの音声)の音だけで構成されているとみなすことができる。そのため、収音処理部12では、入力信号の各区間において、音源の位置が収音エリアAC101内となる周波数成分を抽出することで、近似的に収音エリアAC101内を音源とする音だけを抽出することができる。
【0032】
[参考文献2] 「2群(画像・音・言語)-6編(音響信号処理)-2章 音源分離」、電子情報通信学会(知識の森)、INTERNET、[2022年2月9日検索]、<http://www.ieice-hbkb.org/files/02/02gun_06hen_02.pdf>
出力部13は、供給された収音エリア音抽出信号を所定の方式/形式で出力する。出力部13が出力する信号(以下、「出力信号」とも呼ぶものとする)の形式は限定されないものであり、種々の形式を適用することができる。例えば、出力部13は、出力信号を所定の形式のデジタル音響信号(例えば、PCM形式の信号)や所定のコーデックにより符号化して出力(出力する方式については限定されない)するようにしてもよい。また、出力部13は、出力信号を、アナログ音響信号として出力(例えば、図示しないスピーカに出力)するようにしてもよい。さらに、出力部13は、出力信号を周波数領域の形式で出力するようにしてもよいし時間領域の形式で出力するようにしてもよい。
【0033】
次に、音源位置取得処理部14の処理の詳細について説明する。
【0034】
図3は、音源位置取得処理部14が行う音源位置取得処理方法の例について示した図である。
【0035】
図3では、入力信号を構成する任意の周波数成分の音源位置をPSとしている。図3では、音源位置PSのX軸座標をxsとしY軸座標をysとしている。また、図3では、PMA1とPSとの間の距離をd1、PMA2とPSとの間の距離をd2、PMA1とPMA2との間の距離(マイクロホンアレイMA1、MA2間の距離)をWとしている。また、図3では、∠PMA2PMA1PS=α(マイクロホンアレイMA1から音源位置PSへの方位角)、∠PMA1PMA2PS=β(マイクロホンアレイMA2から音源位置PSへの方位角)としている。
【0036】
各マイクロホンアレイMAでは、1つの音源から各マイクロホンMへの距離は異なるため、当該音源からの音波が各マイクロホンMに到達する時間は異なる。更に、各マイクロホンアレイMAにおいて、音源から各マイクロホンMまでの到達時間差は、音源の位置の関数となっている。音源位置取得処理部14では、この原理を利用して音源の位置を推定する音源定位処理を行うことで、入力信号の各周波数成分について音源の位置を特定する。
【0037】
具体的には、音源位置取得処理部14は、入力信号の各周波数成分について、音源位置PSの方位角(α,β)を推定し、その方位角の組み合わせから、音源位置PSを取得(推定)する。入力信号の各周波数成分について、マイクロホンアレイMA1、MA2から音源位置PSの方位角(α,β)を推定する具体的処理については限定されないものであるが、例えば、以下の参考文献1の記載技術を適用することができる。この場合、例えば、マイクロホンアレイMA1、MA2におけるマイクロホンM1、M2間の周波数毎の位相差より方位角α,βが求まる。さらに、(1)~(3)式を解くことにより、音源位置PSの座標(xs,ys)を取得することができる。
【0038】
(1)~(3)式を解くと、xs、ysは、それぞれ(8)、(9)式のように表すことができる。(4)~(7)式は、(1)~(3)式から(8)、(9)式を導出する過程を示している。(4)式は、「(1)式×cosβ」により導出される。(5)式は、「(3)式×sinβ」により導出される。(6)式は「(4)式+(5)式」により導出される。(7)式は(6)式より導出される。
【0039】
[参考文献1] 「2群(画像・音・言語)- 6編(音響信号処理)-3章 音源定位」、電子情報通信学会(知識の森)、[2022年2月9日検索]、[Online]INTERNET、<URL:http://www.ieice-hbkb.org/files/02/02gun_06hen_03.pdf>
ys=d1sinα=d2sinβ …(1)
xs=d1cosα …(2)
d1cosα+d2cosβ=W …(3)
d1sinαcosβ-d2sinβcosβ=0 …(4)
d1sinβcosα+d2sinβcosβ=Wsinβ …(5)
d1sinαcosβ+d1sinβcosα=Wsinβ …(6)
d1=Wsinβ/(sinαcosβ+sinβcosα)=Wsinβ/sin(α+β) …(7)
xs=d1cosα=Wcosαsinβ/sin(α+β) …(8)
ys=d1sinα=Wsinαsinβ/sin(α+β) …(9)
以上のように、位置情報保持部15では、(8)、(9)式を用いることで、α、β、Wに基づいて、xs、ysを取得することができる。
【0040】
音源位置取得処理部14では、以上のような例の計算処理により、音源位置PSの座標(xs,ys)を取得することができる。なお、位置情報保持部15において、xs、ysを取得する計算処理については上記に限定されず、方位角α、βに基づく種々の計算処理を適用することができる。
【0041】
そして、収音処理部12は、音源位置が収音エリアAC101の範囲内の周波数成分であれば収音し、音源位置が収音エリアAC101の範囲外の周波数成分であれば収音しない処理を行うことになる。
【0042】
収音装置10の具体的な用途としては、例えば、PC端末におけるユーザ(話者)の発話音声を収音する処理や、種々の取引装置(例えば、銀行のATM(自動取引装置)、自動券売機、自動販売機等の取引を行う装置)において当該取引装置の前に位置する顧客(話者)の発話音声を収音する処理等に適用することができる。
【0043】
図4図5は、収音装置をPC端末ユーザの発話音声に適用する例について示した図である。
【0044】
図4図5では、ユーザUの前側にPC端末TE(ディスプレイを含む)が配置されており、ユーザUとPC端末TEとの間にはキーボードKBが配置されている。そして、図4図5では、PC端末TEの周辺にマイクアレイMA1、MA2が配置されている。つまり、図4図5では、マイクアレイMA1、MA2とユーザUの間に妨害音源であるキーボードKB(打鍵音の音源)が配置された状態となっている。
【0045】
また、図4図5のように上側から見た場合キーボードKBとユーザUの口元UMが近接した位置に存在するため、従来のエリア収音処理では明確にキーボードKBの打鍵音とユーザUの発話音声を分離することは容易ではないが、この実施形態の収音装置10(収音処理部12)では、図4図5に示すように、キーボードKBの領域を除外しつつユーザUの口元UMを中心とした収音エリアAC101を設定して、容易にキーボードKBの打鍵音を除外することが可能となる。これにより、例えば、この実施形態の収音装置10(収音処理部12)では、図4に示すようにユーザUの背中側の領域を収音エリアAC101から除外し、ユーザUの前側(口元UMの側)だけを収音エリアAC101に設定することや、図5に示すように、ユーザUの口元UM周辺(頭部周辺)の領域(例えば、30cm×30cm程度の領域)のみを収音エリアAC101として設定することも可能となる。
【0046】
(A-2)第1の実施形態の動作
次に、以上のような構成を有する第1の実施形態における収音装置10の動作(実施形態に係る収音方法)を説明する。
【0047】
データ入力部11は、各マイクロホンアレイMA1、MA2で収音した音響信号をアナログ信号からデジタル信号に変換し、さらに周波数領域に変換して収音処理部12及び音源位置取得処理部14に供給する。
【0048】
音源位置取得処理部14は、位置情報保持部15が保持している位置情報と、各マイクロホンアレイMAからの入力信号に基づいて、周波数成分ごとの音源位置PSの位置情報(例えば、xs、ysの座標)を取得し、収音処理部12に供給する。例えば、音源位置取得処理部14は、位置情報保持部15が保持している位置情報と、各マイクロホンアレイMA1、MA2の各マイクロホンM1、M2の入力信号に基づいて音源位置PSの方位角(α,β)を取得することができる。そして、音源位置取得処理部14は、位置情報保持部15が保持している位置情報に基づいて、Wを取得することができる。これにより、音源位置取得処理部14は、α、β、及びWを保持できるので、上記の(8)、(9)式に基づいて音源位置PSの座標(xs、ys)を取得することができる。
【0049】
収音処理部12は、音源位置取得処理部14から取得した周波数成分ごとの音源位置の情報に基づいて、収音エリアAC101内を音源位置とする周波数成分を抽出して収音エリア音抽出信号として取得し、出力部13に供給する。
【0050】
出力部13は、供給された収音エリア音抽出信号を所定の方式/形式で出力信号として出力する。
【0051】
(A-3)第1の実施形態の効果
この実施形態によれば、以下のような効果を奏することができる。
【0052】
第1の実施形態の収音装置10では、収音エリアAC101を任意の範囲/形状に設定することができるので、妨害音源が存在し得るエリアを除外する設定が容易になり、所望の目的音源のみの音を収音することができる。例えば、第1の実施形態の収音装置10では、図4図5に示すように、目的音源であるユーザUの口元UMと、妨害音源となるキーボードKBが近接するような場合でも、キーボードKBを音源とする音を除外し目的音(ユーザUの発話音声)だけを収音することができる。また、例えば、従来のエリア収音処理では、収音エリアの範囲についてはある程度設定可能であるが、その形状については細かい調整が容易ではなかった。これに対して、第1の実施形態の収音装置10では、任意の形状の収音エリアを設定することが容易である。例えば、第1の実施形態の収音装置10では、収音エリアの形状に直角以下の角度の頂点(鋭角の頂点)が含まれるような場合でも容易に設定することが可能である。
【0053】
(B)第2の実施形態
以下、本発明による収音装置、収音プログラム及び収音方法の第2の実施形態を図面を参照して説明する。
【0054】
(B-1)第2の実施形態の構成及び動作
第2の実施形態の収音装置10Aの機能的構成についても上述の図1を用いて示すことができる。
【0055】
以下では、第2の実施形態の収音装置10Aについて第1の実施形態との差異を説明する。
【0056】
収音装置10Aでは、収音処理部12が収音処理部12Aに置き換わっている点で第1の実施形態と異なっている。
【0057】
第1の実施形態の収音装置10(収音処理部12)では、収音エリアは固定であったが、第2の実施形態の収音装置10A(収音処理部12A)では、エリア収音処理を行いながら、動的に収音エリアを変更(移動)することができる点で第1の実施形態と異なっている。収音処理部12Aにおいて、収音エリアを変更する基準や変更後の収音エリアの位置や範囲の設定については限定されないものである。例えば、収音処理部12Aは、直近に収音した結果に基づいて、収音エリア内における音源(話者)の位置を特定し、当該音源の位置に応じて収音エリアを変更(移動)させるようにしてもよい。例えば、収音処理部12Aは、直近に収音した結果に基づいて取得した音源の位置が中心となるように収音エリアを変更(移動)させるようにしてもよい。収音処理部12Aが音源の位置を推定する方法は限定されないものである。例えば、収音処理部12Aは、直近に取得した収音エリア音抽出信号のうち最もパワーの大きい周波数成分の音源位置を、収音エリア音抽出信号の音源の位置(例えば、話者の位置)とみなして取得するようにしてもよい。
【0058】
また、収音処理部12Aは、変更後の収音エリアの位置情報を位置情報保持部15に登録するものとする。
【0059】
図6は、この実施形態の収音装置10A(収音処理部12A)が、収音エリアを移動(変更)させる処理の例について示した図である。
【0060】
図6では、当初の収音エリアAC201を破線で示し、変更後の収音エリアAC202を一点鎖線で示している。図6では、収音エリアAC201、AC202は、いずれも半径r1とする円形の領域となっている。収音エリアAC201は、位置PC1を中心とする半径r1の円形の領域となっている。
【0061】
ここで、収音処理部12Aが、エリア収音処理により収音エリア音抽出信号を抽出し、当該収音エリア音抽出信号の音源(例えば、話者の位置)として収音エリアAC201の境界付近にある位置PS1を取得したものとする。そうすると、収音処理部12Aは、この位置PS1を中心とする位置に収音エリアを移動(変更)させる処理(位置情報保持部15に設定する収音エリアの位置情報の変更登録)を行う。その結果、位置情報保持部15に設定される収音エリアは、収音エリアAC202に変更されることになる。この場合、位置情報保持部15には、収音エリアの中心位置の座標と半径r1だけを登録するようにしてもよい。
【0062】
また、収音処理部12Aが、収音エリアを移動(変更)する処理を行うタイミングは限定されないものであり、定期又は不定期の間隔で行うようにしてもよい。例えば、収音処理部12Aは、10秒~60秒程度の間隔で、収音エリアを移動(変更)する処理を行うようにしてもよい。
【0063】
(B-2)第2の実施形態の効果
第2の実施形態では、第1の実施形態の効果に加えて以下のような効果を奏することができる。
【0064】
第2の実施形態の収音装置10Aでは、収音エリアAC201内の音源の移動に追随して、収音エリアAC201を移動させる。例えば、第1の実施形態の収音装置10では、収音エリアAC201の端部の領域に目的音源となる話者が位置していた場合、当該話者が少し移動しただけで収音エリアAC201の外に出てしまい、収音した音に途切れが生じてしまう可能性がある。これに対して、第2の実施形態の収音装置10Aでは、収音エリアAC201内の音源の移動(例えば、図4図5のような状態の場合におけるユーザUの頭部の移動)に追随して、動的に収音エリアAC201を移動させるので、上記のような場合でも、目的音の音途切れ等を抑制することができる。
【0065】
(C)第3の実施形態
以下、本発明による収音装置、収音プログラム及び収音方法の第3の実施形態を図面を参照して説明する。
【0066】
(C-1)第3の実施形態の構成及び動作
第3の実施形態の収音装置10Bの機能的構成についても上述の図1を用いて示すことができる。以下では、第3の実施形態の収音装置10Bについて第1及び第2の実施形態との差異を説明する。
【0067】
収音装置10Bでは、収音処理部12が収音処理部12Bに置き換わっている点で第1の実施形態と異なっている。
【0068】
上記の各実施形態の収音装置10、10A(収音処理部12、12A)では、同時に収音する収音エリアの数は1つであったが、第3の実施形態の収音装置10B(音源位置取得処理部14B)では、同時に複数の収音エリアを設定してエリア収音処理を行うものとする。このとき、位置情報保持部15には、複数の収音エリアの位置情報が保持されている必要がある。
【0069】
図7は、この実施形態の収音装置10B(収音処理部12B)で設定される複数の収音エリアの例について示している。
【0070】
図7では、第1の収音エリアAC301と、第2の収音エリアAC302を破線で示している。なお、収音処理部12Bで設定される収音エリアは3つ以上であってもよい。また、収音処理部12Bでは、収音エリア同士で一部重なる領域が有ってもよい。言い換えると、収音処理部12Bでは、同じ位置に複数の収音エリアが設定される場合があってもよい。
【0071】
収音処理部12Bは、それぞれの収音エリアを音源とする周波数成分を分類し、収音エリアごとに収音エリア音抽出信号を生成する。例えば、図7の例でいえば、収音処理部12Bは、収音エリアAC301内を音源とする周波数成分を集めて第1の収音エリア音抽出信号を生成し、収音エリアAC302内を音源とする周波数成分を集めて第2の収音エリア音抽出信号を生成するようにしてもよい。この場合、収音処理部12Bは、第1の収音エリア音抽出信号と第2の収音エリア音抽出信号を別チャネルの信号として収音(分離して収音)して出力するようにしてもよいし、2つの収音エリア音抽出信号を混合(例えば、加算)して1つの収音エリア音抽出信号として出力するようにしてもよい。収音エリアAC301、AC302で重複する領域があった場合は、当該重複する領域を音源とする周波数成分については、2つの収音エリア音抽出信号の両方に含むようにしてもよいし、いずれか一方の収音エリア音抽出信号に含むようにしてもよい。
【0072】
出力部13は、収音処理部12Bから供給される収音エリア音抽出信号が複数の場合は、それぞれの信号について出力する処理を行う。
【0073】
(C-2)第3の実施形態の効果
第3の実施形態によれば、第1及び第2の実施形態の効果に加えて以下のような効果を奏することができる。
【0074】
第3の実施形態の収音装置10Bでは、複数の収音エリアを設定している。これにより、第3の実施形態の収音装置10Bでは、例えば、話者(音源)ごとに収音エリアを設定して、話者ごとの音声を分離して収音する等、より柔軟なエリア収音処理が可能となる。この場合、収音装置10Bでは、例えば、話者ごとの音声を分離して収音することで、自動的に議事録(例えば、音声認識処理によりテキスト化された議事録)に発話者を紐づけて記録すること等も可能となる。
【0075】
(D)第4の実施形態
以下、本発明による収音装置、収音プログラム及び収音方法の第4の実施形態を図面を参照して説明する。
【0076】
(D-1)第4の実施形態の構成及び動作
図8は、第4の実施形態に係る収音装置10Cの機能的構成を示すブロック図である。図8では、上述の図1と同一部分又は対応部分について、同一符号又は対応符号を付している。
【0077】
以下では、第4の実施形態について第1~第3の実施形態との差異を説明する。
【0078】
第4の実施形態では、マイクアレイ部20がマイクアレイ部20Cに置き換わっている。マイクアレイ部20Cでは、4つのマイクロホンアレイMA(MA1~MA4)を有している点で第1の実施形態と異なっている。
【0079】
また、第4の実施形態の収音装置10Cでは、収音処理部12と音源位置取得処理部14が、収音処理部12Cと音源位置取得処理部14Cに置き換わっている点で第1の実施形態と異なっている。
【0080】
第1~第3の実施形態の収音装置10、10A、10Bでは、1組のマイクロホンアレイ(2つのマイクロホンアレイMA)を用いて、1又は複数の収音エリアの音をエリア収音処理する構成となっていたが、第4の実施形態では、複数組(3つ以上のマイクロホンアレイMAの組合せ)を用いて、複数の収音エリアの音をエリア収音処理する構成となっている。
【0081】
図9は、この実施形態の収音装置10C(収音処理部12C)で設定される複数の収音エリアの例について示している。
【0082】
図9に示すように、収音装置10Cは、4つのマイクロホンアレイMA(MA1~MA4)を用いて、4つの収音エリアAC401~AC404の音をそれぞれエリア収音処理する。なお、この実施形態においても、第3の実施形態と同様に収音エリア同士で重複する領域があってもよい。
【0083】
例えば、この実施形態の音源位置取得処理部14Cと収音処理部12Cでは、収音エリアごとにエリア収音に最適な2つマイクロホンアレイMAの組合せを設定しておくようにしてもよい。
【0084】
例えば、音源位置取得処理部14Cと収音処理部12Cにおいて、収音エリアAC401、AC402のエリア収音処理(音源位置推定の処理も含む)についてはマイクロホンアレイMA1、MA2の入力信号を用いると設定されており、収音エリアAC403のエリア収音処理(音源位置推定の処理も含む)についてはマイクロホンアレイMA1、MA4の入力信号を用いると設定されており、収音エリアAC404のエリア収音処理(音源位置推定の処理も含む)についてはマイクロホンアレイMA2、MA3の入力信号を用いると設定されているものとする。上記のように、この実施形態では、それぞれの収音エリアのエリア収音処理には最も距離の近い2つのマイクロホンアレイMAが設定されている。
【0085】
この場合、音源位置取得処理部14Cは、マイクロホンアレイMA1、MA2の入力信号について周波数成分ごとに音源位置取得の処理を行い、取得した周波数成分ごとの音源位置に基づいて、入力信号(例えば、マイクロホンアレイMA1、MA2のいずれかのマイクロホンMの入力信号)から、収音エリアAC401、AC402の範囲内を音源とする周波数成分を抽出して、収音エリアAC401を音源とする第1の収音エリア音抽出信号と、収音エリアAC402を音源とする第2の収音エリア音抽出信号を取得する。また、この場合、音源位置取得処理部14Cは、マイクロホンアレイMA1、MA4の入力信号に基づいて周波数成分ごとに音源位置取得の処理を行い、取得した周波数成分ごとの音源位置に基づいて、入力信号(例えば、マイクロホンアレイMA1、MA4のいずれかのマイクロホンMの入力信号)から、収音エリアAC403の範囲内を音源とする周波数成分を抽出して第3の収音エリア音抽出信号として取得する。さらに、この場合、音源位置取得処理部14Cは、マイクロホンアレイMA2、MA3の入力信号に基づいて周波数成分ごとに音源位置取得の処理を行い、取得した周波数成分ごとの音源位置に基づいて、入力信号(例えば、マイクロホンアレイMA2、MA3のいずれかのマイクロホンMの入力信号)から、収音エリアAC404の範囲内を音源とする周波数成分を抽出して第4の収音エリア音抽出信号として取得する。
【0086】
以上のように、収音処理部12Cは、4つの収音エリアAC401~AC404のそれぞれについて、収音エリア音抽出信号を生成して出力する。この場合、収音処理部12Cは、第3の実施形態と同様に、4つの収音エリア音抽出信号を別チャネルの信号として収音(分離して収音)して出力するようにしてもよいし、4つの収音エリア音抽出信号を混合(例えば、加算)して1つの収音エリア音抽出信号として出力部13に供給するようにしてもよい。
【0087】
出力部13は、収音処理部12Cから供給される収音エリア音抽出信号についてそれぞれ出力する処理を行う。
【0088】
なお、図9の構成において、マイクロホンアレイMAは4つではなく3つでエリア収音を行うようにしてもよい。
【0089】
(D-2)第4の実施形態の効果
第4の実施形態によれば、第3の実施形態の効果に加えて以下のような効果を奏することができる。
【0090】
第4の実施形態の収音装置10Cでは、複数組(3つ以上のマイクロホンアレイMAの組合せ)を用いて、複数の収音エリアの音をエリア収音処理する構成となっている。これにより、第4の実施形態の収音装置10では、第3の実施形態と比較して、より柔軟で広範囲のエリア収音処理等が可能になる。
【0091】
(E)第5の実施形態
以下、本発明による収音装置、収音プログラム及び収音方法の第5の実施形態を図面を参照して説明する。
【0092】
(E-1)第5の実施形態の構成及び動作
図10は、第5の実施形態に係る収音装置10Dの機能的構成を示すブロック図である。図10では、上述の図1と同一部分又は対応部分について、同一符号又は対応符号を付している。
【0093】
以下では、第5の実施形態について第1~第4の実施形態との差異を説明する。
【0094】
第5の実施形態では、マイクアレイ部20がマイクアレイ部20Dに置き換わっている。マイクアレイ部20Dでは、3つのマイクロホンアレイMA(MA1~MA3)を有している点で第1の実施形態と異なっている。マイクアレイ部20DにおけるマイクロホンアレイMAの数は3つ以上であればよい。したがって、マイクアレイ部20DにおけるマイクロホンアレイMAの数は4つ以上としてもよい。
【0095】
また、第5の実施形態の収音装置10Dでは、収音処理部12と音源位置取得処理部14が、収音処理部12Dと音源位置取得処理部14Dに置き換わっている点で第1の実施形態と異なっている。
【0096】
第1~第4の実施形態の収音装置10、10A、10B、10Cでは、二次元平面上に設定された収音エリアの音を収音するモデルであったが、この実施形態の第5の実施形態の収音装置10D(収音処理部12D、位置情報保持部15D)では、三次元空間内に設定された収音空間を音源とする音を収音するモデルとなっている。言い換えると、第1~第4の実施形態の収音装置10、10A、10B、10Cでは、収音範囲として二次元平面上の収音エリアを適用していたが、第5の実施形態の収音装置10Dでは収音範囲として三次元空間内に設定された収音空間を適用する。なお、本明細書では、二次元平面上の収音エリアと三次元空間内に設定された収音空間を総称して「収音範囲」と呼ぶものとする。
【0097】
図11は、この実施形態の収音装置10D(収音処理部12D、音源位置取得処理部14D)で設定される収音空間の例について示している。
【0098】
図11では、位置P0を原点とし、X軸(X座標)、Y軸(Y座標)、Z軸(Z座標)により表される座標系の3D空間内に、直方体形状の収音空間SC501が設定されたモデルについて図示している。図11に示す座標系では、図11の方から見て左右方向をX軸、奥行き・手前方向をY軸、上下方向(垂直方向)をZ軸として図示している。図11では、マイクロホンアレイMA1~MA3の位置を、それぞれPMA1、PMA2、PMA3と図示している。
【0099】
したがって、この実施形態の位置情報保持部15Dには、各マイクロホンアレイMAや収音空間SC501の位置情報として三次元の座標系(X,Y,Zで表現された座標系)を示す情報が保持されている必要がある。収音空間SC501の位置情報としては、例えば、収音空間SC501を構成する直方体の各頂点の座標を適用するようにしてもよい。
【0100】
図11では、マイクロホンアレイMA1、MA2を収音空間SC501の上方向(+Z方向)に配置し、マイクロホンアレイMA3を収音空間SC501の横方向(-Y方向)に配置している。例えば、収音空間SC501が屋内(部屋内)であれば、天井にマイクロホンアレイMA1、MA2を設置し、壁面にマイクロホンアレイMA3を設置するようにしてもよい。
【0101】
第1~第4の実施形態では、収音エリアは二次元平面上に存在するモデルで処理していたため、マイクロホンアレイMAから音源の位置への方向(以下、「音源方向」と呼ぶ)Ψは、1つの角度のパラメータ(θ)のみで定位することができたが、この実施形態では、三次元空間のモデルを採用しているので、音源方向Ψについては2つの角度のパラメータ(θ、φ)で定位する必要がある。以下では、「θ」を水平面(X-Y平面)上の方位角とし、φを水平面(X-Y平面)を基準とする仰俯角(偏角)とする。
【0102】
図11では、マイクロホンアレイMA1の位置PMA1から音源位置PSへの方向を音源方向Ψ1と表し、Ψ1は方位角θ1と仰俯角φ1で構成されている。また、図11では、マイクロホンアレイMA2の位置PMA2から音源位置PSへの方向を音源方向Ψ2と表し、Ψ2は方位角θ2と仰俯角φ2で構成されている。つまり、この実施形態では、位置情報保持部15Dは、位置PMA1、PMA2と音源方向Ψ1、Ψ2から、三次元空間内の音源位置PSを取得することができる。
【0103】
この実施形態では、音源位置取得処理部14Dは、マイクロホンアレイMA1~MA3の入力信号に基づいて、入力信号を構成する周波数成分ごとの音源位置PS(三次元空間内の座標(xs、ys、zs))を取得るものとする。音源位置取得処理部14Dが三次元空間内の音源位置PSを取得(推定)する具体的な処理方法については限定されないものであるが、例えば、特許文献2や、以下の参考文献3、4の記載技術を適用することができる。
【0104】
[参考文献3]特開2014-98568号公報
[参考文献4] 長峰 諒英,大畑 琢磨,上村 知史,小島 諒介,杉山 治,中村圭佑,中臺 一博、「屋外音環境理解における音源検出の性能評価と可視化(人口知能学会論文)」、社団法人 人工知能学会、SIG-Challenge-B402、[2022年2月9日検索]、[Online]INTERNET、<URL:http://www.osaka-kyoiku.ac.jp/~challeng/SIG-Challenge-B402/B402-03.pdf>
収音処理部12Dは、音源位置取得処理部14Dから供給される周波数成分ごとの音源位置の情報に基づいて、収音空間SC501内を音源とする周波数成分のみを抽出した信号(以下、「収音空間音抽出信号」と呼ぶ)を抽出し、出力部13に供給する。
【0105】
(E-2)第5の実施形態の効果
第5の実施形態では、第1の実施形態と比較して以下のような効果を奏することができる。
【0106】
第5の実施形態の収音装置10Dでは、三次元空間内に設定された収音空間を音源とする音を収音することができる。これにより、第5の実施形態の収音装置10Dでは、目的音源の垂直方向の位置(高さ;例えば、図4図5のような構成の場合におけるユーザUの頭部の高さ)も考慮して、より精度の高い収音範囲を設定することができる。
【0107】
(F)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
【0108】
(F-1)この実施形態では、収音装置10自体にマイクアレイ部20を含まない構成として説明したが、収音装置10自体にマイクアレイ部20を含む構成としてもよい。
【0109】
(F-2)第2の実施形態の収音装置10Aにおいて、図4図5のように、PC端末TEを使用するユーザUの発話音声をエリア収音する際に、対象となるユーザUの発話音声の特徴量(例えば、声紋等)を予め登録しておき、当該特徴量に該当する音声の音源位置(例えば、当該特徴量に該当する周波数成分のうち最もパワーの大きい周波数成分の音源位置)に追随して収音エリアAC201の位置を移動(変更)させるようにしてもよい。
【符号の説明】
【0110】
10、10A、10B、10C、10D、…収音装置、11…データ入力部、12、12A、12B、12C、12D…収音処理部、13…出力部、14、14C、14D…音源位置取得処理部、15、15D…位置情報保持部、20、20C、20D…マイクアレイ部、MA、MA1~MA4…マイクロホンアレイ、M、M1、M2…マイクロホン。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11