IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ズームの特許一覧

特開2023-131911ソフトウェア及びマイクロホンデバイス
<>
  • 特開-ソフトウェア及びマイクロホンデバイス 図1
  • 特開-ソフトウェア及びマイクロホンデバイス 図2
  • 特開-ソフトウェア及びマイクロホンデバイス 図3
  • 特開-ソフトウェア及びマイクロホンデバイス 図4
  • 特開-ソフトウェア及びマイクロホンデバイス 図5
  • 特開-ソフトウェア及びマイクロホンデバイス 図6
  • 特開-ソフトウェア及びマイクロホンデバイス 図7
  • 特開-ソフトウェア及びマイクロホンデバイス 図8
  • 特開-ソフトウェア及びマイクロホンデバイス 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023131911
(43)【公開日】2023-09-22
(54)【発明の名称】ソフトウェア及びマイクロホンデバイス
(51)【国際特許分類】
   H04S 7/00 20060101AFI20230914BHJP
   H04R 3/00 20060101ALI20230914BHJP
【FI】
H04S7/00 300
H04R3/00 320
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2022036923
(22)【出願日】2022-03-10
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り (1)令和3年8月11日 ウェブサイト https://zoomcorp.com/ja/jp/ https://zoomcorp.com/ja/jp/handheld-recorders/ https://zoomcorp.com/ja/jp/handheld-recorders/handheld-recorders/h3-vr-360-audio-recorder/ https://zoomcorp.com/ja/jp/news/ https://zoomcorp.com/ja/jp/news/?page=2 https://zoomcorp.com/ja/jp/news/h3vrupdate/ https://zoomcorp.com/ja/jp/handheld-recorders/handheld-recorders/h3-vr-360-audio-recorder/h3-vr-support/ https://zoomcorp.com/documents/2176/J_H3-VRv3.0.pdfにて公開
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り (2)令和3年8月11日 ウェブサイト https://zoomcorp.com/ja/jp/ https://zoomcorp.com/ja/?selector=true https://zoomcorp.com/en/us/?selected=true https://zoomcorp.com/en/us/handheld-recorders/ https://zoomcorp.com/en/us/handheld-recorders/handheld-recorders/h3-vr-360-audio-recorder/ https://zoomcorp.com/en/us/news/ https://zoomcorp.com/en/us/news/?page=2 https://zoomcorp.com/en/us/news/h3vrupdate/ https://zoomcorp.com/en/jp/handy-recorders/handheld-recorders/h3-vr-360-audio-recorder/h3-vr-support/ https://zoomcorp.com/documents/2180/E_H3-VRv3.0.pdfにて公開
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り (3)令和3年8月11日 ウェブサイト https://zoomcorp.com/ja/jp/ https://zoomcorp.com/ja/?selector=true https://zoomcorp.com/en/gb/?selected=true https://zoomcorp.com/en/gb/handheld-recorders/ https://zoomcorp.com/en/gb/handheld-recorders/handheld-recorders/h3-vr-360-audio-recorder/ https://zoomcorp.com/en/gb/handheld-recorders/handheld-recorders/h3-vr-360-audio-recorder/h3-vr-support/ https://zoomcorp.com/media/documents/E_H3-VRv3.0.pdfにて公開
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り (4)令和3年8月11日 ウェブサイト https://zoomcorp.com/ja/jp/ https://zoomcorp.com/ja/?selector=true https://zoomcorp.com/en/ca/?selected=true https://zoomcorp.com/en/ca/handheld-recorders/ https://zoomcorp.com/en/ca/handheld-recorders/handheld-recorders/h3-vr-360-audio-recorder/ https://zoomcorp.com/en/ca/handheld-recorders/handheld-recorders/h3-vr-360-audio-recorder/h3-vr-support/ https://zoomcorp.com/media/documents/E_H3-VRv3.0.pdfにて公開
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り (5)令和3年8月11日 ウェブサイト https://zoomcorp.com/ja/jp/ https://zoomcorp.com/ja/?selector=true https://zoomcorp.com/en/de/?selected=true https://zoomcorp.com/en/de/handheld-recorders/ https://zoomcorp.com/en/de/handheld-recorders/handheld-recorders/h3-vr-360-audio-recorder/ https://zoomcorp.com/en/de/handheld-recorders/handheld-recorders/h3-vr-360-audio-recorder/h3-vr-support/ https://zoomcorp.com/media/documents/E_H3-VRv3.0.pdfにて公開
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り (6)令和3年8月11日 ウェブサイト https://zoomcorp.com/ja/jp/ https://zoomcorp.com/ja/?selector=true https://zoomcorp.com/en/jp/?selected=true https://zoomcorp.com/en/jp/handy-recorders/ https://zoomcorp.com/en/jp/handy-recorders/handheld-recorders/h3-vr-360-audio-recorder/ https://zoomcorp.com/en/jp/news/ https://zoomcorp.com/en/jp/news/?page=2 https://zoomcorp.com/en/jp/news/h3vrupdate/ https://zoomcorp.com/en/jp/handy-recorders/handheld-recorders/h3-vr-360-audio-recorder/h3-vr-support/ https://zoomcorp.com/media/documents/E_H3-VRv3.0.pdfにて公開
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り (7)令和3年8月11日 ウェブサイト https://zoomcorp.com/ja/jp/ https://zoomcorp.com/ja/?selector=true https://zoomcorp.com/fr/ca/?selected=true https://zoomcorp.com/fr/ca/enregistreurs-portatifs/ https://zoomcorp.com/fr/ca/enregistreurs-portatifs/handheld-recorders/h3-vr-360-audio-recorder/ https://zoomcorp.com/fr/ca/enregistreurs-portatifs/handheld-recorders/h3-vr-360-audio-recorder/h3-vr-support/ https://zoomcorp.com/media/documents/E_H3-VRv3.0.pdfにて公開
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り (8)令和3年8月11日 ウェブサイト https://zoomcorp.com/ja/jp/ https://zoomcorp.com/ja/?selector=true https://zoomcorp.com/fr/fr/?selected=true https://zoomcorp.com/fr/fr/enregistreurs-portatifs/ https://zoomcorp.com/fr/fr/enregistreurs-portatifs/handheld-recorders/h3-vr-360-audio-recorder/ https://zoomcorp.com/fr/fr/enregistreurs-portatifs/handheld-recorders/h3-vr-360-audio-recorder/h3-vr-support/ https://zoomcorp.com/media/documents/E_H3-VRv3.0.pdfにて公開
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り (9)令和3年8月11日 ウェブサイト https://zoomcorp.com/ja/jp/ https://zoomcorp.com/ja/?selector=true https://zoomcorp.com/es/us/?selected=true https://zoomcorp.com/es/us/grabadoras-de-mano/ https://zoomcorp.com/es/us/grabadoras-de-mano/handheld-recorders/h3-vr-360-audio-recorder/ https://zoomcorp.com/es/us/grabadoras-de-mano/handheld-recorders/h3-vr-360-audio-recorder/h3-vr-support/ https://zoomcorp.com/media/documents/E_H3-VRv3.0.pdfにて公開
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り (10)令和3年8月11日 ウェブサイト https://zoomcorp.com/ja/jp/ https://zoomcorp.com/ja/?selector=true https://zoomcorp.com/es/es/?selected=true https://zoomcorp.com/es/es/grabadoras-de-mano/ https://zoomcorp.com/es/es/grabadoras-de-mano/handheld-recorders/h3-vr-360-audio-recorder/ https://zoomcorp.com/es/es/noticias/ https://zoomcorp.com/es/es/noticias/h3vrupdate/ https://zoomcorp.com/es/es/grabadoras-de-mano/handheld-recorders/h3-vr-360-audio-recorder/h3-vr-support/ https://zoomcorp.com/media/documents/E_H3-VRv3.0.pdfにて公開
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り (11)令和3年8月11日 ウェブサイト https://zoomcorp.com/ja/jp/ https://zoomcorp.com/ja/?selector=true https://zoomcorp.com/de/de/?selected=true https://zoomcorp.com/de/de/handy-recorder/ https://zoomcorp.com/de/de/handy-recorder/handheld-recorders/h3-vr-360-audio-recorder/ https://zoomcorp.com/de/de/handy-recorder/handheld-recorders/h3-vr-360-audio-recorder/h3-vr-support/ https://zoomcorp.com/media/documents/E_H3-VRv3.0.pdfにて公開
(71)【出願人】
【識別番号】302022382
【氏名又は名称】株式会社ズーム
(74)【代理人】
【識別番号】110001508
【氏名又は名称】弁理士法人 津国
(72)【発明者】
【氏名】三井 友和
(72)【発明者】
【氏名】新海 裕大
【テーマコード(参考)】
5D162
5D220
【Fターム(参考)】
5D162AA10
5D162BA14
5D162DA16
5D220BA06
5D220BC05
5D220DD03
(57)【要約】
【課題】マイクが設置された空間内において、特定の方向から発せられた音声を選択的に出力することができるソフトウェアを提供する。
【解決手段】本発明のソフトウェアは、アンビソニックに用いることが可能なAフォーマット信号をBフォーマット信号に変換し、Bフォーマット信号に基づいて、複数の方向のうちから特定の方向を判別するとともに、前記特定の方向に対応する音声信号を生成して出力させるための処理をプロセッサに実行させる。
【選択図】図6
【特許請求の範囲】
【請求項1】
アンビソニックに用いることが可能なAフォーマット信号をBフォーマット信号に変換し、前記Bフォーマット信号に基づいて、複数の方向のうちから特定の方向を判別するとともに、前記特定の方向に対応する音声信号を生成して出力させるための処理をプロセッサに実行させるソフトウェア。
【請求項2】
デジタル信号に変換された前記Aフォーマット信号を、前記Bフォーマット信号に変換する第1処理と、
前記Bフォーマット信号に基づいて、複数の方向に対応する複数の信号を生成する第2処理と、
前記複数の信号のうち、最も大きい前記信号に対応する前記特定の方向を判別する第3処理と、
前記Bフォーマット信号に基づいて、前記特定の方向に対応する音声信号を生成して出力させる第4処理と、
を前記プロセッサに実行させる請求項1に記載のソフトウェア。
【請求項3】
前記第2処理において、前記複数の方向に対応する前記複数の信号のそれぞれのエンベロープを算出する処理と、
前記第3処理において、前記エンベロープに基づいて、最も大きい前記信号に対応する前記特定の方向を判別する処理と、を前記プロセッサに実行させる請求項1に記載のソフトウェア。
【請求項4】
前記第1処理において、前記Aフォーマット信号から変換された前記Bフォーマット信号を記憶させる処理と、
前記第4処理において、記憶された前記Bフォーマット信号に基づいて、前記特定の方向に対応する音声信号を生成する処理と、を前記プロセッサに実行させる請求項2又は3に記載のソフトウェア。
【請求項5】
請求項1~4のいずれか1項に記載されたソフトウェアがインストールされたマイクロホンデバイスであって、
前記マイクロホンの本体と、
互いに異なる収音方向を向いて前記本体に設けられ、前記Aフォーマット信号の成分となる音声信号を出力する4つ以上のマイク素子と、
前記4つ以上のマイク素子から出力された前記音声信号を増幅する増幅器と、
前記増幅器により増幅された前記音声信号をデジタル信号に変換するA/D変換器と、
前記A/D変換器によりデジタル信号に変換された前記音声信号を、前記ソフトウェアに従って処理するプロセッサと、
を備えるマイクロホンデバイス。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、アンビソニックのBフォーマット信号に基づいて、特定の方向に対応する音声信号を生成して出力させるための処理をプロセッサに実行させるソフトウェア、及びこのソフトウェアがインストールされたマイクロホンデバイスに関する。
【背景技術】
【0002】
従来から遠隔地にいる者どうしがコミュニケーションをするための手段として、電話会議システムやウェブ会議システムが知られている。電話会議システムは、マイク及びスピーカを備えた専用の端末機を使用し、電話回線を通じて、音声によってコミュニケーションをする構成となっている。一方、ウェブ会議システムは、例えば、マイク、スピーカ及びカメラを備えた汎用のパーソナルコンピュータを使用し、インターネット回線を通じて、音声及び画像によってコミュニケーションをする構成となっている(以下、電話会議システム及びウェブ会議システムを「会議システム」という)。
【0003】
2019年11月末に発生した新型コロナウイルス感染症(COVID-19)の流行によって、人々の自由な移動が制限されるようになった。この結果、国内外において、上述したような会議システムが日常的に利用されるようになった。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2019-140517号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
1.他の参加者が発生した音声
従来の会議システムを用いた遠隔地どうしの会議において、一方の遠隔地では、複数の参加者が1つの部屋に集まりマイクの周囲にいると仮定する。従来の会議システムは、マイクの周囲にいる複数の参加者のうち、話者が発した音声と、他の参加者が発した音声とを区別する機能がなかった。このため、話者が音声を発している最中に、他の参加者が音声を発した場合、従来の会議システムは、話者が発した音声と、他の参加者が発した音声との両方をマイクで収音して出力する。他方の遠隔地にいる会議の相手方にとって、他の参加者が発した音声は、話者が発した音声を聴き取ることの妨げになる。
【0006】
2.部屋の反響音
話者が発した音声は、会議に使用される部屋の反響音によっても妨げられる。会議に使用される部屋の壁、天井及び床は、話者が発した音声を反射させることによって反響音を生じさせる。一方、会議システムでは、複数の参加者の音声を収音するために、無指向性のマイクが使用されることが多い。無指向性のマイクは、全ての方向に対して同じ感度を有する。このため、部屋の反響音は、全方位から無指向性のマイクに収音される。他方の遠隔地にいる会議の相手方とって、部屋の反響音は、話者が発した音声をこだまさせるため、話者が発した音声を聴き取ることの妨げになる。
【0007】
3.部屋の内外で生じた様々なノイズ
話者が発した音声は、部屋の内外で生じた様々なノイズによっても妨げられる。例えば、会議に使用される部屋の中では、会議の参加者が、紙をめくる音、メモを取る音、咳払いの音などのノイズを生じさせる場合がある。また、部屋の中に設置された電気機器が、動作音や電子音などのノイズを生じさせる場合もある。さらに、部屋の外では、人、自動車、雨又は風などの騒音が生じる場合もある。このような部屋の内外で生じた様々なノイズは、全方位から無指向性のマイクに収音される。他方の遠隔地にいる会議の相手方とって、様々なノイズは、話者が発した音声を聴き取ることの妨げになる。
【0008】
4.低周波数帯域のノイズ
話者が発した音声は、低周波帯域(約100Hz以下)のノイズによっても妨げられる。例えば、会議に使用される部屋の中に設置された空調機は、低周波数帯域の風切り音を生じさせる。また、話者がマイクに息を吹きかけることによって、低周波帯域のポップノイズが生じることもある。このような低周波数帯域のノイズは、話者が発した音声とともにマイクに収音される。他方の遠隔地にいる会議の相手方にとって、低周波数帯域のノイズは、話者が発した音声を聴き取ることの妨げになる。
【0009】
5.本発明の目的
本発明は、上記の問題点に鑑みてなされたものであり、マイクが設置された空間内において、特定の方向から発せられた音声を選択的に出力することができるソフトウェア、及びこのソフトウェアがインストールされたマイクロホンデバイスを提供することを目的とする。
【課題を解決するための手段】
【0010】
(A)上記の目的を達成するために、本発明のソフトウェアは、アンビソニックに用いることが可能なAフォーマット信号をBフォーマット信号に変換し、前記Bフォーマット信号に基づいて、複数の方向のうちから特定の方向を判別するとともに、前記特定の方向に対応する音声信号を生成して出力させるための処理をプロセッサに実行させる。
【0011】
(B)好ましくは、上記(A)のソフトウェアは、デジタル信号に変換された前記Aフォーマット信号を、前記Bフォーマット信号に変換する第1処理と、前記Bフォーマット信号に基づいて、複数の方向に対応する複数の信号を生成する第2処理と、前記複数の信号のうち、最も大きい前記信号に対応する前記特定の方向を判別する第3処理と、前記Bフォーマット信号に基づいて、前記特定の方向に対応する音声信号を生成して出力させる第4処理と、を前記プロセッサに実行させる。
【0012】
(C)好ましくは、上記(A)のソフトウェアは、前記第2処理において、前記複数の方向に対応する前記複数の信号のそれぞれのエンベロープを算出する処理と、前記第3処理において、前記エンベロープに基づいて、最も大きい前記信号に対応する前記特定の方向を判別する処理と、を前記プロセッサに実行させる。
【0013】
(D)好ましくは、上記(B)又は(C)のソフトウェアは、前記第1処理において、前記Aフォーマット信号から変換された前記Bフォーマット信号を記憶させる処理と、前記第4処理において、記憶された前記Bフォーマット信号に基づいて、前記特定の方向に対応する音声信号を生成する処理と、を前記プロセッサに実行させる。
【0014】
(E)上記の目的を達成するために、本発明のマイクロホンデバイスは、上記(A)~(D)のいずれか1つソフトウェアがインストールされたマイクロホンデバイスであって、前記マイクロホンの本体と、互いに異なる収音方向を向いて前記本体に設けられ、前記Aフォーマット信号の成分となる音声信号を出力する少なくとも4つ以上のマイク素子と、前記4つ以上のマイク素子から出力された前記音声信号を増幅する増幅器と、前記増幅器により増幅された前記音声信号をデジタル信号に変換するA/D変換器と、前記A/D変換器によりデジタル信号に変換された前記音声信号を、前記ソフトウェアに従って処理するプロセッサと、を備える。
【0015】
なお、本発明のソフトウェア及びマイクロホンデバイスに関して、「音声」の用語は、人間の声に限定されるものではなく、あらゆる音源から発せられた音を含む。
【発明の効果】
【0016】
本発明のソフトウェアによれば、マイクが設置された空間内において、特定の方向から発せられた音声を選択的に出力することができる。すなわち、本発明のソフトウェアに従って処理を実行するプロセッサは、マイクが設置された空間内において、最も大きい音声が発せられた特定の方向を判別し、特定の方向に対応する音声信号を生成して出力させる。特定の方向以外の方向に対応する音声信号は出力されない。このような本発明のソフトウェアによる処理は、最も大きい音声が発せられた方向にマイクを向ける人の行為を、デジタル信号処理によって再現するものといえる。本発明のソフトウェアがインストールされたマイクロホンデバイスも、上記と同様の効果を奏する。
【図面の簡単な説明】
【0017】
図1図1Aはアンビソニックに用いられるマイクロホンを示す斜視図である。図1Bは前記マイクロホンを構成する第1~第4マイク素子の向きを示す概念図である。
図2図2はBフォーマット信号W、X、Y、Zの指向特性を示す概念図である。
図3図3AはBフォーマット信号W、Xを合成した場合の指向特性を示す概念図である。図3BはBフォーマット信号W、X、Yを合成した場合の指向特性を示す概念図である。
図4図4A図4Dは、いずれも本発明の実施形態に係るマイクロホンデバイスを示す図面である。図4Aは正面図、図4Bは背面図、図4Cは左側面図、図4Dは右側面である。
図5図5Aは前記マイクロホンデバイスの平面図、図5Bは前記マイクロホンデバイスの底面図である。
図6図6は前記マイクロホンデバイスの構成を示すブロック図である。
図7図7は前記マイクロホンデバイスを構成するプロセッサの一部の処理を示すブロック図である。
図8図8A図8Cは、前記マイクロホンデバイスの基本的な処理を示すものである。図8Aは水平方向360°の音声を収音する処理を示す概念図、図8Bは45°間隔でサンプリングする処理を示す概念図、図8Cは、90°に対応する音声信号を生成して出力する処理を示す概念図である。
図9図9は前記プロセッサの主要な処理を示すフローチャートである。
【発明を実施するための形態】
【0018】
以下、本発明のソフトウェア及びマイクロホンデバイスの実施形態について、図面を参照しつつ説明する。
【0019】
1.アンビソニック
本発明のソフトウェア及びマイクロホンデバイスは、アンビソニックの技術を利用するものである。まず、アンビソニックの原理について、図1図3を参照しつつ説明する。
【0020】
アンビソニックとは、全周360°で空間の音全体を録音し、これを再現する技術である。アンビソニックは、前後方向、左右方向、上下方向の音を含む空間音響(Spatial Audio)を提供することが可能である。近年のVR(virtual reality)技術の普及により、アンビソニックは、360°映像の音声に用いられる。
【0021】
図1Aは、アンビソニックに用いられるマイクロホン10を示す。マイクロホン10は、第1~第4マイク素子11~14を備える。第1~第4マイク素子11~14は、図中の1点鎖線で示される立方体の4つの頂点を向いて設けられている。図1Bは、第1~第4マイク素子11~14の向きを示す。第1マイク素子11は、マイクロホン10の前方左上(FLU)を向く。第2マイク素子12は、マイクロホン10の前方右下(FRD)を向く。第3マイク素子13は、マイクロホン10の後方左下(BLD)を向く。第4マイク素子14は、マイクロホン10の後方右上(BRU)を向く。
【0022】
第1~第4マイク素子11~14は、FLU、FRD、BLD、BRUの4方向の音を収集する。FLU、FRD、BLD、BRUの4方向の音の信号は、「Aフォーマット信号」と呼ばれる。Aフォーマット信号は、そのままでは使用することができず、図2に示されるような指向特性を有する「Bフォーマット信号」に変換される。Bフォーマット信号は、全方向の音の信号W、前後方向の音の信号X、左右方向の音の信号Y、上下方向の音の信号Zからなる。
【0023】
Aフォーマット信号は、下記式(1)~(4)によって、Bフォーマット信号W、X、Y、Zに変換される。
【0024】
W=FLU+FRD+BLD+BRU・・・(1)
X=FLU+FRD-BLD-BRU・・・(2)
Y=FLU-FRD+BLD-BRU・・・(3)
Z=FLU-FRD-BLD+BRU・・・(4)
【0025】
但し、W:全方向の音の信号、X:前後方向の音の信号、Y:左右方向の音の信号、Z:上下方向の音の信号、FLU:前方左上の音の信号、FRD:前方右下の音の信号、BLD:後方左下の音の信号、BRU:後方右上の音の信号
【0026】
Bフォーマット信号W、X、Y、Zを合成することによって、前後、左右、上下の全方位の音の信号が得られる。例えば、図3Aは、W、Xを合成した場合の指向特性を示す。図3Bは、W、X、Yを合成した場合の指向特性を示す。図3Bに示されるように、W、X、Yを合成すると、「前方左45°」の指向特性を有する音の信号が生成される。そして、Bフォーマット信号W、X、Y、Zを位置情報に基づいて合成することによって、前後、左右、上下の全方位のうちの任意の指向特性を有する音の信号を生成することができる。したがって、録音されたBフォーマット信号W、X、Y、Zのデータに基づいて、再生される音の定位を自由に変更することが可能となる。このようなアンビソニックを360°映像の音声に用いれば、ユーザーの頭部の向きに応じて、再生される音の定位を変更することができる。
【0027】
2.マイクロホンデバイス
次に、本実施形態のソフトウェアがインストールされたマイクロホンデバイスについて、図4図7を参照しつつ説明する。
【0028】
本実施形態のマイクロホンデバイス1の外観は、図4A図4D図5A及び図5Bの6面図に示される。マイクロホンデバイス1は、正面(図4A)、背面(図4B)、左側面(図4C)、右側面(図4D)、平面(図5A)、底面(図5B)が定められる。
【0029】
マイクロホンデバイス1は、マイクロホン10と本体20とを含む。マイクロホン10は、図1Aと同一であり、第1~第4マイク素子11~14を備えた構成となっている。第1~第4マイク素子11~14のそれぞれは、マイクロホンデバイス1の前後、左右及び上下を基準にして、図1Bに示すFLU、FRD、BRU、BLDを向くように、本体20の上部に固定されている。第1~第4マイク素子11~14は、金属製のプロテクター15によって衝突から保護される。
【0030】
図4Aに示されるように、本体20の正面には、REC LED201A及びREMOTE端子215が設けられている。REC LED201Aは、マイクロホンデバイス1が録音中のときに点灯し、録音が一時停止されたときに低速で点滅する。さらに、REC LED201Aは、入力された信号レベルが閾値を超えたときに高速で点滅する。
【0031】
一方、REMOTE端子215には、図示しない無線アダプター、例えば、Bluetooth(登録商標)アダプターが電気的に接続される。マイクロホンデバイス1は、無線アダプターを介して、図示しないスマートフォン、タブレットPC、ノートPC及びデスクトップPC等と無線通信が可能となる。ユーザーは、スマートフォン等を用いて、マイクロホンデバイス1を遠隔操作することができる。さらに、マイクロホンデバイス1は、無線アダプターを介して、例えば、図示しないヘッドホンに音声信号を出力することが可能である。
【0032】
図4Bに示されるように、本体20の背面には、REC LED201B、ディスプレイ202、RECキー203、STOP/HOMEキー204、REW/選択キー205、PLAY/PAUSE/ENTERキー206、FF/選択キー207、MENUキー208、電源/HOLDスイッチ209が設けられている。
【0033】
REC LED201Bは、図4Aに示されるREC LED201Aと同一の機能を有する。ユーザーは、マイクロホンデバイス1を操作しながら、REC LED201Bによって録音の状態を確認することができる。
【0034】
ディスプレイ202は、マイクロホンデバイス1に関する各種情報を表示する。ディスプレイ202は、例えば、マイクロホンデバイス1が録音中のときに、録音時間、A又はBフォーマット信号の信号レベル、本体10の水平度及び垂直度に関する情報を表示する。また例えば、ディスプレイ202は、マイクロホンデバイス1が再生中のときに、再生時間、本体10の水平度、垂直度及び回転に関する情報を表示する。
【0035】
RECキー203は、録音を開始させるために操作される。STOP/HOMEキー204は、録音又は再生を停止させるため、及びディスプレイ202にホーム画面を表示させるために操作される。REW/選択キー205は、ファイルの再生位置を早戻しするため、及びディスプレイ202に表示される項目を選択するために操作される。
【0036】
PLAY/PAUSE/ENTERキー206は、再生を開始させるため、録音又は再生を一時停止させるため、及び選択された項目を決定するために操作される。FF/選択キー207は、ファイルの再生位置を早送りするため、及びディスプレイ202に表示される項目を選択するために操作される。MENUキー208は、ディスプレイ202にMENU画面を表示させるために操作される。電源/HOLDスイッチ209は、マイクロホンデバイス1の電源をON/OFFするため、及びキー操作を無効にするために操作される。
【0037】
図4Cに示されるように、本体20の左側面には、MIC GAINダイヤル211、USB端子212、LINE OUT端子213が設けられている。MIC GAINダイヤル211は、第1~第4マイク素子11~14から入力される音の増幅率を調整するために操作される。MIC GAINダイヤル211が操作されると、図6に示されるマイクゲイン(増幅器)21の増幅率が変化する。
【0038】
USB端子212は、マイクロホンデバイス1を他の機器と電気的に接続するために用いられる。例えば、マイクロホンデバイス1は、USB端子212を介して、図示しないパーソナルコンピュータに電気的に接続され、例えば、会議システムのマイクとして使用される。また、USB端子212には、マイクロホンデバイス1にAC電源を供給するための図示しないACアダプターが接続される。LINE OUT端子213は、他の機器に音声信号を出力するために用いられる。
【0039】
図4Dに示されるように、本体20の右側面には、VOLUMEキー210及びPHONE OUT端子216が設けられている。VOLUMEキー210は、マイクロホンデバイス1から出力される音の音量を調整するために操作される。PHONE OUT端子216は、例えば、図示しないヘッドホンを有線接続するために用いられる。
【0040】
図5Bに示されるように、本体20の底面には、裏蓋217が着脱自在に取り付けられている。裏蓋217は、本体20内に収納された図示しないSDカード及び電池を交換するときに着脱される。さらに、裏蓋217の中心には、ねじ孔214が設けられている。マイクロホンデバイス1は、ねじ孔214を介して、図示しない三脚に取り付けることができる。
【0041】
図6は、マイクロホンデバイス1の内部の構成を示す。図6に示されるように、マイクロホンデバイス1は、第1~第4マイク素子11~14、マイクゲイン21、A/D変換器22及びプロセッサ24を備える。
【0042】
第1~第4マイク素子11~14のそれぞれは、異なる4方向から音声を収音し、第1信号を出力する。第1~第4マイク素子11~14から出力される4つの信号を纏めて、4チャンネルのAフォーマット信号と呼ぶ。第1~第4マイク素子11~14から出力される4チャンネルのAフォーマット信号は、図6中のFLU、FRD、BRU、BLDによって示される。
【0043】
第1~第4マイク素子11~14から出力される4チャンネルのAフォーマット信号は、マイクゲイン21に入力される。マイクゲイン21は、図4Cに示されるMIC GAINダイヤル211によって設定された増幅率で、4チャンネルのAフォーマット信号を増幅する。
【0044】
マイクゲイン21によって増幅された4チャンネルのAフォーマット信号は、A/D変換器22に入力される。A/D変換器22は、アナログ信号であるAフォーマット信号をデジタル信号に変換する。デジタル信号に変換された4チャンネルのAフォーマット信号は、プロセッサ24に入力される。
【0045】
3.ソフトウェアによるプロセッサの処理
プロセッサ24は、本実施形態のソフトウェアに従った処理を実行する。本実施形態のソフトウェアによるプロセッサ24の処理を要約すると、まず、プロセッサ24は、Aフォーマット信号をBフォーマット信号に変換する。次に、プロセッサ24は、Bフォーマット信号に基づいて、複数の方向のうちから特定の方向を判別する。その後、プロセッサ24は、特定の方向に対応する音声信号を生成して出力させる。
【0046】
ここで、本実施形態では、マイクロホンデバイス1を会議システムのマイクとして使用することを例示する。この場合、プロセッサ24は、マイクロホンデバイス1の周囲にいる複数の参加者のうちから話者のいる方向を判別し、話者のいる方向に対応する音声信号を生成して出力させる。また、プロセッサ24は、話者が代わるたびに、新たな話者のいる方向を判別し、新たな話者のいる方向に対応する音声信号を生成して出力させる。以下、図6及び図7に示されるプロセッサ24の処理について説明する。
【0047】
3.1 ローカット処理
プロセッサ24は、ローカット処理240を実行する。すなわち、プロセッサ24は、デジタル信号に変換されたAフォーマット信号から、あらかじめ設定された周波数以下の成分を除去する。ユーザーは、図4Bに示されるMENUキー208を押すことにより、ローカット処理240の対象となる周波数(カットオフ周波数)を設定することができる。カットオフ周波数は、例えば、10~240Hzの範囲内で設定することができる。プロセッサ24は、ユーザーによって設定されたカットオフ周波数以下の成分をAフォーマット信号から除去する。このようなローカット処理240によって、ファンの風切り音及び話者のポップノイズが、Aフォーマット信号から除去される。
【0048】
3.2 A/Bフォーマット変換処理
プロセッサ24は、A/Bフォーマット変換処理241を実行する。すなわち、プロセッサ24は、上記式(1)~(4)に基づいて、デジタル信号に変換されたAフォーマット信号を4チャンネルのBフォーマット信号に変換する。4チャンネルのBフォーマット信号は、図6中のW、X、Y、Zによって示される。Bフォーマット信号の要素である4つの信号W、X、Y、Zを合成することによって、前後、左右、上下の全方位の音声信号を生成することが可能となる。
【0049】
ここで、図8Aに示されるように、マイクロホンデバイス1を会議システムのマイクとして使用する場合、参加者が発した音声は、水平方向360°から第1~第4マイク素子11~14に収音される。このため、プロセッサ24は、Bフォーマット信号のうちの信号W、X、Yを合成することによって、水平方向360°のうちの特定の方向に対応する音声信号を生成する。一方、マイクロホンデバイス1を会議システムのマイクとして使用する場合、上下方向から発せられた音は、ノイズとみなして無視しても問題がない。このため、プロセッサ24は、Bフォーマット信号のうちの信号Zを、音声信号の生成に使用しない。
【0050】
3.3 記憶/読出処理
プロセッサ24は、Bフォーマット信号の記憶/読出処理242を実行する。すなわち、プロセッサ24は、A/Bフォーマット変換処理241によって生成された4チャンネルのBフォーマット信号W、X、Y、Zを図示しない記憶媒体、例えば、RAMに記憶する。また、プロセッサ24は、水平方向360°のうちの特定の方向に対応する音声信号を生成するために、RAMに記憶されたBフォーマット信号のうちの信号W、X、Yを読み出す。
【0051】
3.4 0-315サンプリング処理
プロセッサ24は、0-315サンプリング処理243を実行する。「0-315」は、0°、45°、90°、135°、180°、225°、270°及び315°を意味する。図8Bに示されるように、本実施形態では、水平方向360°から第1~第4マイク素子11~14に収音された音声を、45°間隔でサンプリング処理する。
【0052】
図6に示される0-315サンプリング処理243は、図7に示される0-315信号生成処理243Aと、0-315エンベロープ演算処理243Bとを含む。
【0053】
0-315信号生成処理243Aにおいて、プロセッサ24は、Bフォーマット信号のうちの信号W、X、Yを合成することによって、0°、45°、90°、135°、180°、225°、270°及び315°のそれぞれに対応する複数の信号を生成する。
【0054】
次に、0-315エンベロープ演算処理243Bにおいて、プロセッサ24は、複数の信号のそれぞれのエンベロープであるEnv0、Env45、Env90、Env135、Env180、Env225、Env270及びEnv315を算出する。
【0055】
3.5 0-315総和/平均値演算処理
図6に示されるように、プロセッサ24は、0-315総和/平均値演算処理244を実行する。すなわち、プロセッサ24は、Env0、Env45、Env90、Env135、Env180、Env225、Env270及びEnv315のそれぞれの総和(Sum)を算出した後、それぞれの平均値(Ave)を算出する。
【0056】
3.6 角度判別処理
プロセッサ24は、角度判別処理245を実行する。すなわち、プロセッサ24は、Env0、Env45、Env90、Env135、Env180、Env225、Env270及びEnv315のそれぞれの平均値(Ave)を比較する。次に、プロセッサ24は、比較の結果に基づいて、エンベロープの平均値(Ave)が最も大きい信号に対応する特定の角度0°、45°、90°、135°、180°、225°、270°及び315°のいずれか1つを判別する。
【0057】
プロセッサ24による特定の角度の判別は、所定の時間間隔で実行される。例えば、プロセッサ24は、フレームレート30FPSの1フレームに相当する33ms間隔で、特定の角度を判別する処理を繰り返し実行する。この例示では、プロセッサ24は、33msの間におけるエンベロープの平均値(Ave)に基づいて、特定の角度を判別する。
【0058】
3.7 音声信号生成処理
プロセッサ24は、音声信号生成処理246を実行する。すなわち、プロセッサ24は、上述した角度判別処理245によって判別した特定の角度に対応する音声信号を生成する。特定の角度に対応する音声信号は、RAMに記憶されたBフォーマット信号のうちの信号W、X、Yを合成することによって生成される。
【0059】
図8Cに示されるように、プロセッサ24は、特定の角度に対応する音声信号のみを生成し、その他の角度に対応する音声信号は生成しない。つまり、プロセッサ24は、マイクロホンデバイス1の周囲にいる複数の参加者のうち、最も大きい声で発言する話者のいる方向の音声信号を出力させ、他の参加者のいる方向の音声信号を出力させない。そして、プロセッサ24は、声の大きさに基づいて、話者が代わるたびに、新たな話者のいる方向を判別し、新たな話者のいる方向の音声信号を生成して出力させる。
【0060】
例えば、プロセッサ24は、角度判別処理245において、33ms間隔で特定の角度を判別する。この場合、プロセッサ24は、音声信号生成処理246において、33ms遅延させたBフォーマット信号W、X、Yに基づいて、特定の角度に対応する音声信号を生成する。すなわち、特定の角度に対応する音声信号は、33ms前にRAMに記憶されたBフォーマット信号W、X、Yに基づいて生成される。これにより、新たな話者の発言は、最初から欠落することなく、会議の相手方の会議システムに送信される。なお、マイクロホンデバイス1からは、33ms遅延させた音声信号が出力される。しかし、33msの遅延は、会議の相手方に違和感を生じさせない。
【0061】
3.8 クロスフェード処理
プロセッサ24は、クロスフェード処理247を実行する。クロスフェード処理247は、第1の話者から第2の話者へ代わる場合に実行される。
【0062】
例えば、第1の話者が特定の角度a(例えば、a=0°)から発言していると仮定する。プロセッサ24は、エンベロープの平均値(Ave)が最も大きい信号に対応する特定の角度aを判別する。そして、プロセッサ24は、特定の角度aに対応する音声信号を生成して、マイクロホンデバイス1から出力させる。
【0063】
その後、第2の話者が特定の角度b(例えば、b=90°)から発言をした場合、プロセッサ24は、エンベロープの平均値(Ave)が最も大きい信号に対応する特定の角度bを判別する。そして、プロセッサ24は、特定の角度aに対応する音声信号を生成して、マイクロホンデバイス1から出力させる。このとき、プロセッサ24は、クロスフェード処理247を実行する。
【0064】
クロスフェード処理247において、プロセッサ24は、特定の角度aに対応する音声信号の出力レベルを徐々に小さくする。これにより、特定の角度aに対応する音声信号の出力はフェードアウトされる。これと同時に、プロセッサ24は、特定の角度bに対応する音声信号の出力レベルを徐々に大きくする。これにより、特定の角度bに対応する音声信号の出力はフェードインされる。
【0065】
このようなクロスフェード処理247によって、2つの音声信号の出力が切り替わるときに生じるノイズの音を軽減することができる。すなわち、2つの音声信号の出力が切り替わるときに、信号波形の連続性が断たれることによってノイズが生じる。このノイズは、話者が代わる度に音を生じさせ、会議の相手方に不快感を与える。クロスフェード処理247によって、話者が代わるときに生じるノイズの音を軽減することができ、第1の話者の音声から第2の話者の音声へ違和感なく切り替えることが可能となる。
【0066】
3.9 プロセッサの処理の流れ
次に、プロセッサ24の処理の流れについて、図9を参照しつつ説明する。プロセッサ24は、図9に示されるステップS1~S11を経て、特定の角度bに対応する音声信号を生成して出力する。以下の説明するステップS1~S11は、例えば、33ms間隔で繰り返し実行される。
【0067】
ステップS1において、プロセッサ24は、前回の図9の処理で記憶されたEnv0、Env45、Env90、Env135、Env180、Env225、Env270及びEnv315のそれぞれの総和(Sum)及び平均値(Ave)をクリアする。
【0068】
なお、Env0は、水平方向0°でサンプリングされた信号のエンベロープである。Env45は、水平方向45°でサンプリングされた信号のエンベロープである。Env90は、水平方向90°でサンプリングされた信号のエンベロープである。Env135は、水平方向135°でサンプリングされた信号のエンベロープである。Env180は、水平方向180°でサンプリングされた信号のエンベロープである。Env225は、水平方向225°でサンプリングされた信号のエンベロープである。Env270は、水平方向270°でサンプリングされた信号のエンベロープである。Env315は、水平方向315°でサンプリングされた信号のエンベロープである。
【0069】
ステップS2に進み、プロセッサ24は、まず、Env0の総和(Sum)及び平均値(Ave)を算出する。例えば、プロセッサ24は、33msの間におけるEnv0の総和(Sum)及び平均値(Ave)を算出する。
【0070】
ステップS3に進み、プロセッサ24は、Env0の平均値(Ave)が、あらかじめ定められた閾値以上であるか否かを判別する。Env0の平均値(Ave)が閾値未満である場合(NO)、プロセッサ24は、ステップS5に進む。以降、Env0に対応する水平方向0°についての信号処理は実行されない。つまり、エンベロープの平均値(Ave)が閾値未満である場合、このエンベロープに対応する角度については、音声信号が生成されない。
【0071】
一方、ステップS3において、Env0の平均値(Ave)が閾値以上である場合(YES)、プロセッサ24は、ステップS4に進み、Env0に対応する角度「0°」を判別する。その後、プロセッサは、ステップS5に進む。
【0072】
ステップS5において、プロセッサ24は、Env0、Env45、Env90、Env135、Env180、Env225、Env270及びEnv315の全ての角度について、ステップS2~S4の処理が完了したか否かを判別する。全ての角度について、ステップS2~S4の処理が完了していない場合(NO)、プロセッサ24は、全ての角度について、ステップS2~S4の処理を繰り返す。
【0073】
一方、ステップS5において、全ての角度について、ステップS2~S4の処理が完了した場合(YES)、プロセッサ24は、ステップS6に進む。ステップS6において、プロセッサ24は、ステップS3で判別した閾値以上のエンベロープの平均値(Ave)のうち、最も大きいエンベロープの平均値(Ave)を判別する。
【0074】
ステップS7に進み、プロセッサ24は、最も大きいエンベロープの平均値(Ave)に対応する特定の角度b(例えば、b=90°)を判別する。ステップS8に進み、プロセッサ24は、特定の角度bに対応する音声信号を生成する。特定の角度bに対応する音声信号は、RAMに記憶されたBフォーマット信号のうちの信号W、X、Yを合成することによって生成される。
【0075】
ステップS9に進み、プロセッサ24は、現在、特定の角度「b」に対応する音声信号が出力されているか否かを判別する。現在出力されている音声信号は、前回の図9の処理によって生成されたものである。現在、特定の角度「b」に対応する音声信号が出力されていると判別した場合(YES)、プロセッサ24は、ステップS11に進み、ステップS8において生成した特定の角度bに対応する音声信号を出力する。
【0076】
一方、ステップS9において、現在、特定の角度「b」に対応する音声信号が出力されていないと判別した場合(NO)、プロセッサ24は、ステップS10に進み、クロスフェード処理を実行する。
【0077】
例えば、前回の図9の処理によって、現在、特定の角度a(例えば、a=0°)に対応する音声信号が出力されていると仮定する。プロセッサ24は、特定の角度aに対応する音声信号の出力レベルを徐々に小さくする。これにより、特定の角度aに対応する音声信号の出力はフェードアウトされる。これと同時に、プロセッサ24は、特定の角度bに対応する音声信号の出力レベルを徐々に大きくする。これにより、特定の角度bに対応する音声信号の出力はフェードインされる(ステップS11)。ステップS10のクロスフェード処理によって、最も大きい音声が発せられる方向が代わるときに、2つの音声の重複を軽減することが可能となる。
【0078】
その後、プロセッサ24は、ステップS11の処理を実行し、図9に示される処理を終了する。引き続き、プロセッサ24は、ステップS1に戻り、ステップS1~S11の処理を繰り返し実行する。
【0079】
4.作用効果
上述した本実施形態のソフトウェアがインストールされたマイクロホンデバイス1によれば、第1~第4マイク素子11~14が設置された空間内において、特定の方向から発せられた音声を選択的に出力することができる。すなわち、本実施形態のソフトウェアに従って処理を実行するプロセッサ24は、第1~第4マイク素子11~14が設置された空間内において、最も大きい音声が発せられた特定の方向を判別し、特定の方向に対応する音声信号を生成して出力させる。特定の方向以外の方向に対応する音声信号は出力されない。このような本実施形態のソフトウェアによる処理は、最も大きい音声が発せられた方向にマイクを向ける人の行為を、デジタル信号処理によって再現するものといえる。
【0080】
また、プロセッサ24は、特定の方向から発せられた音声信号のみを生成して出力するので、部屋の全方位からマイクロホン10に収音される反響音、及び部屋の内外で生じた様々なノイズが大幅に低減される。
【0081】
さらに、プロセッサ24は、ローカット処理240によって、カットオフ周波数以下の成分をAフォーマット信号から除去する。これにより、プロセッサ24によって生成される音声信号は、空調機の風切り音及び話者のポップノイズなどの低周波数帯域のノイズが低減される。
【0082】
5.その他
本発明のソフトウェア及びマイクロホンデバイスは、上述した実施形態に限定されるものではない。例えば、上述した実施形態では、4チャンネルのBフォーマット信号を生成する1次アンビソニックを採用するが、これに限定されるものではない。本発明のソフトウェア及びマイクロホンデバイスには、2次以上の高次アンビソニックを適用することが可能である。
【0083】
また、上述した実施形態では、ソフトウェア及びマイクロホンデバイスの用途として、会議システムのマイクを例示したが、これに限定されるものではない。例えば、本発明のソフトウェア及びマイクロホンデバイスの用途は、監視カメラと同時に使用されるマイクであってもよい。この場合、マイクロホンデバイスで判別した特定の方向に、監視カメラを向けることが可能である。
【0084】
さらに、本発明のソフトウェア及びマイクロホンデバイスは、Bフォーマット信号のうちの信号W、X、Yに基づいて、水平方向360°の音声を信号処理する構成に限定されるものではない。本発明のソフトウェア及びマイクロホンデバイスは、Bフォーマット信号W、X、Y、Zの全てに基づいて、前後、左右、上下の全方位の音声を信号処理することが可能である。
【0085】
これに加えて、上述した実施形態では、水平方向360°の音声を45°間隔で信号処理することとしたが、これに限定されるものではない。本発明のソフトウェア及びマイクロホンデバイスは、水平方向360°の音声を45°以外の間隔で信号処理することが可能である。
【符号の説明】
【0086】
1 マイクロホンデバイス
10 マイクロホン
11 第1マイク素子
12 第2マイク素子
13 第3マイク素子
14 第4マイク素子
15 プロテクター
20 本体
201A、201B REC LED
202 ディスプレイ(画像表示装置)
203 RECキー
204 STOP/HOMEキー
205 REW/選択キー
206 PLAY/PAUSE/ENTERキー
207 FF/選択キー
208 MENUキー
209 電源/HOLDスイッチ
210 VOLUMEキー
211 MIC GAINダイヤル
212 USB端子
213 LINE OUT端子
214 ねじ孔
215 REMOTE端子
216 PHONE OUT端子
217 裏蓋
21 マイクゲイン
22 A/D変換器
24 プロセッサ
240 ローカット処理
241 A/Bフォーマット変換処理
242 記憶/読出処理
243 0-315サンプリング処理
243A 0-315信号生成処理
243B 0-315エンベロープ演算処理
244 0-315総和/平均値算出処理
245 角度判別処理
246 音声信号生成処理
247 クロスフェード処理
図1
図2
図3
図4
図5
図6
図7
図8
図9