IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

<>
  • 特開-収音設定方法及び収音装置 図1
  • 特開-収音設定方法及び収音装置 図2
  • 特開-収音設定方法及び収音装置 図3
  • 特開-収音設定方法及び収音装置 図4
  • 特開-収音設定方法及び収音装置 図5
  • 特開-収音設定方法及び収音装置 図6
  • 特開-収音設定方法及び収音装置 図7
  • 特開-収音設定方法及び収音装置 図8
  • 特開-収音設定方法及び収音装置 図9
  • 特開-収音設定方法及び収音装置 図10
  • 特開-収音設定方法及び収音装置 図11
  • 特開-収音設定方法及び収音装置 図12
  • 特開-収音設定方法及び収音装置 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024130672
(43)【公開日】2024-09-30
(54)【発明の名称】収音設定方法及び収音装置
(51)【国際特許分類】
   H04R 3/00 20060101AFI20240920BHJP
   G06T 7/00 20170101ALI20240920BHJP
   G10L 25/51 20130101ALN20240920BHJP
【FI】
H04R3/00 320
G06T7/00 660A
G10L25/51 400
【審査請求】未請求
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2023040527
(22)【出願日】2023-03-15
(71)【出願人】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110000970
【氏名又は名称】弁理士法人 楓国際特許事務所
(72)【発明者】
【氏名】鵜飼 訓史
【テーマコード(参考)】
5D220
5L096
【Fターム(参考)】
5D220BA06
5D220BB01
5D220BC05
5L096CA02
5L096FA67
5L096FA69
5L096GA51
(57)【要約】
【課題】遠い位置の音声及び近い位置の雑音を収音しない収音設定方法を提供する
【解決手段】マイクの指向性を設定する収音設定方法は、マイクを設置した面に対して鉛直上向き方向からの離角を設定し、設定された離角以下の範囲に、マイクの指向性を向けることを特徴とする。
【選択図】 図3
【特許請求の範囲】
【請求項1】
マイクの指向性を設定する収音設定方法であって、
ある離角閾値を設定し、
マイクを設置した面の法線方向とマイクを設置した位置から音源への方向がなす離角が、
設定された前記離角閾値以下となる音源位置の範囲に、前記マイクの前記指向性を向けることを特徴とする、
収音設定方法。
【請求項2】
前記マイクから収音信号を入力し、
前記収音信号に基づいて音声の到来方向を推定し、
前記離角閾値は、前記鉛直上向き方向に対する前記到来方向に対応する、
請求項1に記載の収音設定方法。
【請求項3】
前記マイクの周囲の画像を取得し、
前記画像に顔検出処理を行い、
前記顔検出処理によって話者が検出された場合、前記話者の位置情報を推定し、
前記離角閾値は、前記位置情報に基づいて算出される、
請求項1に記載の収音設定方法。
【請求項4】
前記位置情報は、前記話者の方位角が含まれており、
前記方位角に対応する方向に前記マイクの前記指向性を向ける
請求項3に記載の収音設定方法。
【請求項5】
前記マイクからの距離を受け付け、
前記離角閾値は、受け付けた前記距離に基づいて算出される、
請求項1に記載の収音設定方法。
【請求項6】
前記離角閾値を決めた後、前記離角閾値に応じて前記マイクのゲインを設定する、
請求項1~5のいずれかに記載の収音設定方法。
【請求項7】
前記離角閾値は、離角上限値と離角下限値を含み、
前記離角が前記離角上限値以下、かつ、前記離角下限値以上となる音源位置の範囲に、前記マイクの前記指向性を向ける、
請求項1~5のいずれかに記載の収音設定方法。
【請求項8】
マイクの指向性を設定する収音装置であって、
ある離角閾値を設定する設定部と、
マイクを設置した面の法線方向とマイクを設置した点から音源への方向がなす離角が、設定された前記離角閾値以下となる音源位置の範囲に、前記マイクの前記指向性を向ける音声処理部と、
を備える、収音装置。
【請求項9】
前記マイクから収音信号を入力する音声入力部、
を更に備え、
前記音声処理部は、前記収音信号に基づいて音声の到来方向を推定し、
前記離角閾値は、前記鉛直上向き方向に対する前記到来方向に対応する、
請求項8に記載の収音装置。
【請求項10】
前記マイクの周囲の画像を取得する画像入力部と、
前記画像に顔検出処理を行う画像処理部と、
を更に備え、
前記顔検出処理によって話者が検出された場合、前記画像処理部は、前記話者の位置情報を推定し、
前記離角閾値は、前記位置情報に基づいて算出される、
請求項8に記載の収音装置。
【請求項11】
前記位置情報は、前記話者の方位角が含まれており、
前記音声処理部は、前記方位角に対応する方向に前記マイクの前記指向性を向ける
請求項10に記載の収音装置。
【請求項12】
前記マイクからの距離を受け付ける情報受付部、
を更に備え、
前記離角閾値は、受け付けた前記距離に基づいて算出される、
請求項8に記載の収音装置。
【請求項13】
前記離角閾値を決めた後、前記音声処理部は、更に前記離角閾値に応じて前記マイクのゲインを設定する、
請求項8~12のいずれかに記載の収音装置。
【請求項14】
前記離角閾値は、離角上限値と離角下限値を含み、
前記音声処理部は、マイクを設置した面の法線方向とマイクを設置した点から音源への方向がなす離角が、前記離角上限値以下、かつ、前記離角下限値以上となる音源位置の範囲に、前記マイクの前記指向性を向ける、
請求項8~12のいずれかに記載の収音装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の一実施形態は、収音設定方法及び収音装置に関する。
【背景技術】
【0002】
特許文献1には、音信号からエコー及びノイズ成分を除去する方法及び装置が記載されている。具体的に、特許文献1に記載の装置は、まず、音信号から音声成分とノイズ成分とを分けてビームフォーミング処理を施し、それぞれのエコーを除去する。その後、特許文献1に記載の装置は、エコーが除去された音声成分及びノイズ成分に基づいて、ノイズ成分を除去する出力信号を生成する。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】米国特許第7359504号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1に記載の装置は、エコー及びノイズ成分を除去することにより、収音対象である話者の音声を高いSN比で取得することができる。しかし、話者がオープンスペースや開放的な空間にいる場合、収音対象でない遠い位置の人が話すと、その人の音声は、ノイズとして排除されずにそのまま収められる虞がある。
【0005】
本発明の一実施形態は、遠い位置の音声及び近い位置の雑音を収音しない収音設定方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の一実施形態に係るマイクの指向性を設定する収音設定方法は、ある離角閾値を設定し、マイクを設置した面の法線方向とマイクを設置した点から音源への方向がなす離角が、設定された離角閾値以下となる音源位置の範囲に、マイクの指向性を向ける。
【発明の効果】
【0007】
本発明の一実施形態によれば、遠い位置の音声及び近い位置の雑音を収音することを防止できる。
【図面の簡単な説明】
【0008】
図1図1は、収音装置の構成を示すブロック図である。
図2図2は、収音装置の運用環境の一例を示す図である。
図3図3は、収音設定方法の動作を示すフローチャートである。
図4図4は、第1実施形態に係る処理部の機能的構成を示すブロック図である。
図5図5は、収音範囲を示す上視図である。
図6図6は、第2実施形態に係る処理部の機能的構成を示すブロック図である。
図7図7は、入力した位置情報に基づいて離角閾値を算出する例を示す図である。
図8図8は、第3実施形態に係る処理部の機能的構成を示すブロック図である。
図9図9は、話者の方位角ごとに指向性を向ける場合の収音範囲を示す上視図である。
図10図10は、話者の方位角ごとに指向性を調整する例を示す図である。
図11図11は、上方の雑音を排除するための離角下限値を算出する例を示す図である。
図12図12は、ゲイン関数を示す図である。
図13図13は、収音範囲の指定を示す図である。
【発明を実施するための形態】
【0009】
(第1実施形態)
図1は、収音装置100の構成を示すブロック図である。図2は、収音装置100の運用環境の一例を示す図である。収音装置100は、例えば、スピーカー及びマイクを備えた音響機器であり、机Tの上に設置されている。会議に参加する話者A、Bは、机Tを囲んでいる。そして、話者A、Bは、収音装置100を介して、遠隔地にいる会議参加者と会話することができる。ただし、収音装置100は、スピーカー及びマイクを備えた音響機器に限らず、独立のマイク及び独立のマイクに接続されているコンピュータであってもよい。
【0010】
収音装置100は、少なくともマイク110、処理部120、カメラ130、メモリ140、スピーカー150、ユーザインタフェース(I/F)160、表示部170、及び通信部180を備えている。この実施形態では、マイク110は、指向性を変えられ、複数のマイクユニットで構成されるマイクアレイ(図示せず)である。複数のマイクユニットは、例えば、平面視して収音装置100の外側で円状に並んでいる。ただし、複数のマイクの配置は、平面視して円状に限らない。例えば、マイクユニットが配置された面(例えば、机Tの上面)と平行な各方向から見て二つ以上のマイクユニットが重ならない配置であればよい。
【0011】
処理部120は、例えば、中央処理器(Central Processing Unit, CPU)であり、メモリ140から動作用のプログラムを読み出すことにより、収音装置100の動作を統括的に制御する。メモリ140は、例えば、フラッシュメモリ等の記憶媒体である。なお、プログラムは、必ずメモリ140に記憶されている必要はない。例えば、プログラムは、サーバ等の外部装置の記憶媒体に記憶されていてもよい。この場合、処理部120は、通信部180を通して該サーバから都度プログラムを読み出して実行すればよい。
【0012】
カメラ130は、例えば、収音装置100を中心に周囲の画像を取得する。例えば、取得された画像には、話者A、Bの顔が含まれている。処理部120は、通信部180を介してマイク110及びカメラ130で取得した音声及び画像を遠隔地の音声装置に送信し、遠隔地にいる会議参加者に話者A、Bの言動を把握させることができる。更に、処理部120は、通信部180を介して受信した遠隔地の会議参加者の音声及び画像を、スピーカー150及び表示部170で再生することにより、話者A、Bに遠隔地にいる会議参加者の言動を把握させることができる。表示部170は、例えば、収音装置100と一体化される液晶ディスプレイ又はLEDディスプレイである。ただし、表示部170は、収音装置100に接続されている独立の液晶ディスプレイ又はLEDディスプレイであってもよい。
【0013】
ユーザインタフェース160は、例えば、タッチパネル、又はキーボード等である。話者A、Bは、ユーザインタフェース160を介して収音装置100をコントロールすることができる。一例として、話者A、Bは、ユーザインタフェース160を介して再生される音声の音量を調整することができる。
【0014】
会議用音響機器は、密閉された室内環境で運用される場合、室内には会議参加者しかいないので、会議参加者以外の人の音声を収音してしまうことがない。しかし、図2に示したようなオープンスペースである場合、会議参加者以外の人、例えば、会議用音響機器と一定距離以上離れた話者C1、C2が存在する場合がある。そして、話者C1、C2が存在する場合、会議用音響機器は、それら話者C1、C2の音声を収音してしまう虞がある。
【0015】
話者C1、C2のような非参加者の音声を収音してしまう課題を解決するため、本実施形態に係る収音装置100は、一定距離以上離れた非参加者の音声を排除できる収音設定方法を実行する。
【0016】
図3は、収音設定方法の動作を示すフローチャートである。図4は、処理部120の機能的構成を示すブロック図である。図5は、収音範囲を示す上視図である。処理部120は、メモリ140から読み出したプログラムにより、図4に示した機能的構成を実現し、図3に示した収音設定方法を実行する。
【0017】
処理部120は、機能的に、音声入力部1202、音声処理部1204、音声出力部1206、及び設定部1208を備えている。設定部1208は、鉛直上向き方向Vからの離角閾値θを設定する(ステップS11)。なお、ここで言う鉛直上向き方向Vとは重力の反対方向に限らず、机Tの上面の法線方向であってもよい。離角閾値θを設定した後、音声処理部1204は、設定された離角閾値θ以下の範囲に、マイク110の指向性を向ける(ステップS12)。これにより、マイク110の収音範囲は、例えば、図2および図5に示したような上向き円錐となる。また、収音装置100を平面視すれば、収音範囲は、図5に示したような円形となる。
【0018】
この実施形態では、設定部1208は、S11において、マイク110に収音された話者の音声の到来方向に基づいて鉛直上向き方向Vからの離角閾値θを設定する。具体的に、会議を始める前に又は会議を始める時に、収音装置100は、まず会議に参加する話者、例えば、図2に示した話者Aの音声を収音する。マイク110が話者Aの音声を収音した後、音声入力部1202は、マイク110から収音信号を入力する。音声処理部1204は、入力された収音信号を分析して音声の到来方向を推定する。収音信号の分析方法は、相互相関法、遅延和(Delay-and-Sum)法、MUSIC(Multiple Signal Classification)法等が挙げられる。そして、上述した分析方法で推定した音声の到来方向は、例えば、空間ベクトルで表される。設定部1208は、音声の到来方向を推定した後、音声の到来方向と鉛直上向き方向Vとを比較して離角を求め、それを離角閾値θに設定する。具体的に、設定部1208は、得られた空間ベクトルと鉛直上向き直線とのなす角を計算して離角閾値θとする。離角閾値θは、厳密な離角に限らず、所定値、例えば、80°、70°、60°、又は50°の中の最も真の離角に近い値に設定してもよい。また、マージンを設けるために、計算された離角よりも少し大きな離角を離角閾値θに設定してもよい。
【0019】
なお、図2に示したように会議に参加する話者が複数である場合、全ての話者A、Bの音声の到来方向及び距離を推定し、各話者A、Bに対応する鉛直上向き方向Vからの離角を算出してもよい。その場合、設定部1208は、会議に参加する全ての話者A、Bの音声を漏れないように、鉛直上向き方向Vからの離角が最も大きい話者に基づいて離角閾値θを設定してもよい。
【0020】
離角閾値θが設定された後、音声処理部1204は、離角閾値θに基づいてマイク110の指向性を調整する。具体的に、マイク110の指向性を調整するため、音声処理部1204は、ビームフォーミングを行う。ビームフォーミングは、概括的にまとめると、マイク110の複数マイクユニットで取得した収音信号をそれぞれ遅延して加算することで、特定の方向や範囲に向けて指向性を有する収音ビームを形成する処理である。音声処理部1204は、離角閾値θに規定された範囲に指向させた収音ビームを形成することで、離角が離角閾値θ以下となる範囲にマイク110の指向性を向けることができる。ビームフォーミングによって形成する指向性は、離角閾値θに規定された範囲に利得を持つ固定の指向性を形成する方法でなくても、離角閾値θに規定された範囲内から到来した音にのみ反応して動的にその到来方位に向けて離角閾値θに規定された範囲よりも狭い指向性を形成する方式によって、離角閾値θに規定された範囲に利得を持つ指向性を形成する方法であってもよい。
【0021】
なお、音声処理部1204が行うビームフォーミングは、例として、それぞれの会議参加者の方向に向けた遅延和型収音ビーム出力を加算する処理、それぞれの会議参加者の方向に利得が一定の拘束を付けて全体パワーを最小化する最小分散(Minimum Variance)処理、会議参加者の方向に向けた遅延和型収音ビーム出力の加算と会議参加者の方向に死角を形成するブロッキング行列(Block Matrix, BM)の出力とを利用するサイドローブキャンセラ(Generalized Sidelobe Canceller, GSC)処理、帯域ごとに分割された遅延和型収音ビーム出力とマイク装置の出力とのパワーを比較し、分割された遅延和型収音ビーム出力の方が一定以上小さい時のみその分割された遅延和型収音ビーム出力を減衰し、分割された遅延和型収音ビーム出力を再統合するバイナリマスク処理、独立成分分析(ICA)等の音源分離方法で収音信号から音源を分離し、分離された各音源信号の到来方向を逆射影法(Projection Back)で判定し、会議参加者の方向から来た音源信号のみをミックスする処理等が挙げられる。
【0022】
音声処理部1204が離角閾値θ以下の範囲にマイク110の指向性を向けた結果、収音装置100に遠い話者C1、C2は、図2に示したように収音範囲から排除される。また、収音装置100に近い机Tの上面で発生した雑音、例えば、メモを取る音等も収音されない。その結果、収音装置100は、会議に参加する話者A、B以外の音声を高い感度で収音することがない。従って、音声出力部1206に出力された収音信号は、会議に参加する話者A、Bの音声だけを高感度で取得できる。
【0023】
なお、参考例として、会議用音響機器を話者の上方、例えば、天井に設置した場合、会議用音響機器は、話者A、Bの音声を収音するために、収音ビームを天井から下向き方向に向けて形成しなければならない。その場合、参考例の会議用音響機器は、たとえ鉛直下向き方向からの離角閾値以下の範囲にマイクの指向性を向けても、机Tの上面で発生した音も取得するため、机上で発生した雑音(例えば机をたたく音、キーボードのタイピングの音等)を収音してしまう。これに対して、本実施形態の収音装置100は、鉛直上向き方向Vからの所定の離角閾値以下の範囲にマイクの指向性を向けるため、この様な机上の雑音を収音することがない。
【0024】
(第2実施形態)
上記の第1実施形態では、鉛直上向き方向Vからの離角閾値θは、会議参加者である話者A、Bの音声の到来方向に基づき設定される。しかし、離角θ閾値の設定方法は、これに限らない。本第2実施形態では、設定部1208は、会議参加者が入力した位置情報に基づいて離角閾値を設定する。
【0025】
図6は、第2実施形態に係る処理部120の機能的構成を示すブロック図である。図4と共通する構成は同一の符号を付し、説明を省略する。この実施形態では、処理部120は、更に情報受付部1210を備えている。情報受付部1210は、ユーザインタフェース160又は通信部180から会議参加者が入力した位置情報を受け付ける。会議参加者が入力した位置情報は、例えば、収音装置100に対する話者Aの水平距離D(収音装置100と話者Aとの水平距離)である。上記位置情報を受け付けた後、設定部1208は、受け付けた位置情報に基づいて離角閾値θを算出する。図7は、入力した位置情報に基づいて離角閾値θを算出する例を示す図である。具体的に、設定部1208は、会議参加者から位置情報を受け付けた後、例えば、逆三角関数を利用することで、収音装置100に対する話者Aの距離D及び高さHから離角閾値θを算出する。なお、収音装置100に対する話者Aの高さHは、予め組み込まれた定数値であり、その定数値は、例えば、座った人の平均的な口の高さと机の平均的な高さとの差である。例えば、その定数値は、0.4メートル又は0.5メートルである。
【0026】
会議参加者が入力する位置情報は、水平距離Dに限らない。例えば、会議参加者は、水平距離Dのかわりに収音装置100に対する話者Aの距離(収音装置100と話者Aとの空間距離)を入力してもよい。入力する情報が変わっても、設定部1208は、逆三角関数を利用することで離角閾値θを算出することができる。また、収音装置100に対する話者Aの高さHは、座った人の平均的な下顎の高さと机の平均的な高さとの差であってもよい。
【0027】
更に、会議に参加する話者が立っているという可能性もある。その場合、設定部1208は、定数値の三倍を利用して、その話者に対応する離角閾値θを算出してもよい。具体的に例えば、設定部1208は、会議参加者から、話者Aが立っているという情報を更に受け付けた場合、受け付けた水平距離Dと高さH(定数値)の三倍に基づいて離角閾値θを計算する。
【0028】
このように、収音装置100は、音声の到来方向及び話者との距離を推定するための誤差を含みやすい計算をしなくても一定距離以上離れた非参加者の音声を排除できる。
【0029】
(第3実施形態)
図8は、第3実施形態に係る処理部の機能的構成を示すブロック図である。図6と共通する構成は同一の符号を付し、説明を省略する。この実施形態では、処理部120は、更に画像入力部1212及び画像処理部1214を備えている。画像入力部1212は、カメラ130からマイク110の周囲の画像を取得する。画像を取得した後、画像処理部1214は、顔検出処理等を行うことにより、取得した画像から会議に参加する話者A、Bを検出する。顔検出処理は、例えば、ニューラルネットワーク等を用いた所定のモデルに、会議に参加する話者A、Bの顔とカメラの画像との関係を訓練した訓練済モデルを用いて、話者A、Bを検出する処理である。そして、画像処理部1214は、モデルを訓練するため、予め会議に参加する話者A、Bの顔を登録する必要がある。
【0030】
本実施形態において、モデルを訓練させるためのアルゴリズムは限定されず、CNN(Convolutional Neural Network)やRNN(Recurrent Neural Network)等の任意の機械訓練アルゴリズムを用いることができる。機械訓練アルゴリズムは、教師あり訓練、教師なし訓練、半教師訓練、強化訓練、逆強化訓練、能動訓練、あるいは転移訓練等であってもよい。また、モデルは、HMM(Hidden Markov Model:隠れマルコフモデル)やSVM(Support Vector Machine)等の機械訓練モデルで訓練されてもよい。
【0031】
話者A、Bを検出した場合、画像処理部1214は、更に話者A、Bの位置情報を推定する。具体的に、画像処理部1214は、画像における位置と収音装置100に対する方位角との関係を示したテーブル、関数、又はモデルを利用することで、画像における話者A、Bの位置から収音装置100に対する話者A、Bの方位角を推定する。
【0032】
上記話者A、Bの位置情報を推定した後、設定部1208は、情報受付部1210で受け付けた位置情報及び画像処理部1214で推定した位置情報に基づいて離角閾値θ及び収音ビームが平面方向において向く方位角φを算出する。一例として、情報受付部1210で収音装置100に対する話者Aの距離(収音装置100と話者Aとの水平距離や空間距離)を受け付け、画像処理部1214で収音装置100に対する話者Aの方位角を推定した場合、設定部1208は、収音装置100に対する話者Aの距離に基づいて、話者Aに対応する空間ベクトルを取得して離角閾値θを計算する。また、設定部1208は、話者Aの方位角に基づいて、収音ビームが平面方向において向く方位角φを決める。例えば、設定部1208は、収音装置100のある基準方位(例えば真北)に対する話者Aの方位角を方位角φとする。そして、設定部1208が離角閾値θ及び方位角φを決めた後、音声処理部1204は、離角閾値θ及び方位角φに基づいて話者Aにマイク110の指向性を向ける。図9は、話者の方位角ごとに指向性を向ける場合の収音範囲を示す上視図である。音声処理部1204は、図9に示したように方位角φに合わせて収音ビームを形成することで、平面方向におけるマイク110の指向性を調整する。これにより、話者Aにマイク110の指向性を向けることができる。なお、平面方向における収音ビームの範囲について、設定部1208は、例えば、方位角φを中心に約40度以内の範囲を、平面方向における収音ビームの範囲として設定する。このように、設定部1208は、平面方向における収音ビームの範囲を限定できる。
【0033】
なお、会議に参加する話者が複数である場合、全ての話者A、Bの位置情報に基づいて、各話者A、Bに対応する鉛直上向き方向Vからの離角閾値および方位角を算出してもよい。その場合、設定部1208は、会議に参加する全ての話者A、Bの音声を漏れないように、鉛直上向き方向Vからの離角が最も大きい話者に基づいて離角閾値θを設定する。そして、音声処理部1204は、各話者A、Bの方位角に対応する方向にマイク110の指向性を向ける。
【0034】
また、画像処理部1214が推定した話者A、Bの位置情報は、収音装置100に対する話者A、Bの方位角に限らない。例えば、画像処理部1214は、画像における話者の大きさと距離との関係を示したテーブル、関数、又はモデルを利用することで、画像に含まれる話者A、Bの大きさから話者A、Bと収音装置100との距離を推定してもよい。更に、画像処理部1214は、画像における話者の高さと収音装置に対する高さとの関係を示したテーブル、関数、又はモデルを利用することで、画像における話者A、Bの口の高さから収音装置100に対する話者A、Bの口の高さを推定してもよい。そして、離角閾値θの設定では、画像処理部1214が推定した話者A、Bの距離及び話者A、Bの口の高さを利用してもよい。
【0035】
このように、カメラ130で取得した画像に基づいて、方位角φをさらに算出することができる。従って、収音装置100は、方位角φに基づいて、より高精度に話者A、Bの音声を収音することができる。
【0036】
(第4実施形態)
第4実施形態では、会議に参加する話者A、Bごとに離角閾値を設定してもよい。図10は、話者の方位角ごとに指向性を調整する例を示す図である。具体的に、話者の姿勢が違う場合、各話者A、Bを収音するための離角閾値が異なる可能性がある。例えば、図10に示したように、話者Bの位置情報に基づいて算出された離角θ’は、話者Aの位置情報に基づいて算出された離角θより小さい。そこで、話者Bの方位角に対応する方向に向けるマイク110の指向性を、離角θの代わりに離角θ’の範囲以下に限定することで、収音装置100は、より高精度に話者Bの音声を収音することができる。
【0037】
(第5実施形態)
収音装置100を利用して会議を行うときに、収音装置100の上方で雑音が発生する可能性もある。一例として、天井に設置したエアーコンディショナーの運転音は、雑音であり、マイク110に収音されてしまうと、会議に参加する話者に不快感を与える。
【0038】
図11は、上方の雑音を排除するための離角閾値を算出する例を示す図である。具体的に、収音装置100の上方には雑音の音源Eが存在する場合、設定部1208は、更に、雑音の到来方向、画像認識から得られた雑音の音源Eの位置情報、又は会議に参加する話者が入力した雑音の情報に基づいて、雑音の音源Eに対応する鉛直上向き方向Vからの離角閾値を設定する。本実施形態では、雑音の音源Eに対応する離角閾値は、離角下限値θminとされる。また、会議に参照する話者A、Bに対応する離角は、離角上限値θmaxとされる。音声処理部1204は、離角上限値θmax以下、かつ、離角下限値θmin以上の範囲(即ち、図11に示した離角θの範囲)に、マイク110の指向性を向ける。なお、離角下限値θminは、雑音の音源Eに対応する離角ではなく、例えば第2実施形態における定数値の三倍を利用して算出する離角下限値であってもよい。
【0039】
これにより、収音装置100上方の雑音を排除することができる。
【0040】
(第6実施形態)
音声処理部1204は、設定された離角閾値θに基づいてマイク110の指向性を調整することに加え、その離角閾値θに応じてマイク110のゲインを設定する。具体的に、ビームフォーミングを行った後、音声処理部1204は、ビームフォーミング処理後の収音信号のレベルを予め決めたゲイン関数で補償する。図12は、ゲイン関数を示す図である。この実施形態では、ゲイン関数は、離角閾値θに応じて決められる。具体的に、ゲイン関数は、図12に示したゲイン関数1のような、鉛直上向き方向Vからの角度に対して単調に減少する関数であってもよいし、図12に示したゲイン関数2のような、離角閾値θでゲインがステップ状に下がる関数であってもよい。
【0041】
これにより、収音装置100は、収音範囲以内の話者A、Bの音声を高い精度で取得することができる。
【0042】
(第7実施形態)
図13は、収音範囲の指定を示す図である。この実施形態では、会議を参加する話者は、収音範囲を指定することができる。具体的に、表示部170は、図13に示したように、収音装置100及び収音装置100の運用環境の平面図を表示する。収音装置100の運用環境は、例えば、収音装置100が設置された机Tと、机Tを囲む会議参加者(即ち、話者A、B)とが含まれている。また、表示された画面は、更に格子状に分割されている。
【0043】
会議を参加する話者は、ユーザインタフェース160を介して格子を選択することで、収音範囲を指定することができる。選択された格子は、表示部170によって他の格子と異なる色で着色され、指定された収音範囲を表す。一例として、話者Aがいる格子が選択された場合、話者Aがいる格子だけが他の色で塗られている。また、設定部1208は、選択された格子にいる話者Aに基づいて離角閾値θを設定し、音声処理部1204は、設定された離角閾値θ以下の範囲、かつ、選択された格子の方位角に対応する方向にマイク110の指向性を向ける。なお、複数の格子を選択した場合、設定部1208は、格子ごとに離角閾値θを設定してもよい。
【0044】
上述の実施形態は、別々に説明したが、それらの実施形態を併用することができる。例えば、第1及び第2実施形態は、それぞれ音声の到来方向及び話者が入力した情報に基づいて離角閾値θを設定するが、音声の到来方向及び話者が入力した情報の全部に基づいて離角閾値θを設定してもよい。また、第5実施形態は、上方の雑音を排除する技術であり、第6実施形態は、離角閾値θに基づいたゲイン補償技術であり、それらは、離角閾値θを設定する技術である第1~4実施形態のいずれかと併用することができる。更に、第7実施形態は、マイク110の指向性が向く方位角を受け付ける技術であり、入力した情報に基づいて離角閾値θを設定する技術である第2~4実施形態のいずれかと併用することができる。
【0045】
上述の実施形態の説明は、全ての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲には、特許請求の範囲と均等の意味及び範囲内での全ての変更が含まれることが意図される。
【符号の説明】
【0046】
100:収音装置
110:マイク
120:処理部
130:カメラ
140:メモリ
150:スピーカー
160:ユーザインタフェース
170:表示部
180:通信部
1202:音声入力部
1204:音声処理部
1206:音声出力部
1208:設定部
1210:情報受付部
1212:画像入力部
1214:画像処理部
A、B、C1、C2:話者
E:雑音の音源
:水平距離
:高さ
T:机
V:鉛直上向き方向
θ、θ’:離角閾値
θmax:離角上限値
θmin:離角下限値
φ:方位角
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13