(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2022-03-18
(45)【発行日】2022-03-29
(54)【発明の名称】音発生装置
(51)【国際特許分類】
G10K 11/175 20060101AFI20220322BHJP
【FI】
G10K11/175
(21)【出願番号】P 2022012960
(22)【出願日】2022-01-31
【審査請求日】2022-01-31
【早期審査対象出願】
(73)【特許権者】
【識別番号】520154438
【氏名又は名称】末次 功憲
(74)【代理人】
【識別番号】100162341
【氏名又は名称】瀬崎 幸典
(72)【発明者】
【氏名】末次 功憲
【審査官】西村 純
(56)【参考文献】
【文献】特表2010-514235(JP,A)
【文献】国際公開第2018/198792(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10K 11/175-11/178
(57)【特許請求の範囲】
【請求項1】
空間における音源の音を集音する集音手段と、
前記音源の画像を撮像する撮像手段と、
前記撮像手段によって撮像された前記画像から前記音源の属性を推定する推定手段と、
前記集音手段で集音された音に含まれるターゲット音の音響特性を求め、前記音響特性及び前記推定手段によって推定された前記音源の属性に応じて複数のマスキング音を生成する音生成手段と、
前記推定手段で推定された前記音源の属性を表示する表示手段と、
前記音生成手段で生成される複数のマスキング音の選択を受け付ける音選択手段と、
選択された前記マスキング音を出力する音出力手段と、を備えた、
ことを特徴とする音発生装置。
【請求項2】
前記音生成手段は、前記集音手段で集音された前記音源の音響特性を分析して前記音源の音響特性が近似するマスキング音を生成する、
ことを特徴とする請求項1に記載の音発生装置。
【請求項3】
前記音生成手段は、前記推定手段で推定された前記音源の属性に応じて前記音源の音響特性が近似するマスキング音を生成する、
ことを特徴とする請求項1に記載の音発生装置。
【請求項4】
前記音生成手段は、前記音源の属性に対して前記音響特性が近似する複数のマスキング音を生成する、
ことを特徴とする請求項3に記載の音発生装置。
【請求項5】
前記音選択手段は、前記推定手段で推定された前記音源の属性を表示して、前記マスキング音の選択を受け付ける、
ことを特徴とする請求項1に記載の音発生装置。
【請求項6】
前記表示手段は、仮想現実、拡張現実又はホログラムを含む混合現実により前記音源を表示する、
ことを特徴とする請求項5に記載の音発生装置。
【請求項7】
前記集音手段は、無指向性のマイクロフォンである、
ことを特徴とする請求項1ないし6のいずれか1項に記載の音発生装置。
【請求項8】
空間における前記音源の音は、前記音発生装置を利用する利用者の会話の音声である、
ことを特徴とする請求項1又は2に記載の音発生装置。
【請求項9】
前記音出力手段は、前記集音手段が前記音源の音を集音している間、前記マスキング音を出力する、
ことを特徴とする請求項8に記載の音発生装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音発生装置に関する。
【背景技術】
【0002】
マスカー音によるターゲット音のマスキングを解析する装置であって、音響信号のスペクトルの各ピークに対応する線スペクトル列の自己相関数列を、ターゲット音を示す第1音響信号と、ターゲット音およびマスカー音の混合音を示す第2音響信号との各々について時間軸上のフレーム毎に算定する自己相関算定手段と、第1音響信号および第2音響信号の各々について、周波数軸上の任意の2個の帯域の間で、自己相関数列における当該各帯域の自己相関値の時系列の相互相関係数値を算定し、各相互相関係数値を要素とする帯域間相関行列を生成する相関行列生成手段とを具備するマスキング解析装置が知られている(特許文献1)。
【0003】
空間に配置された複数のマイクロホンアレイから入力される入力信号に基づいて、空間内の分割された各エリアのエリア音を収音可能な収音手段と、空間内を撮像するカメラにより撮像される撮像領域の情報を保持する撮像領域保持手段と、空間内で、撮像領域に対応する中央エリアを含む領域を、収音対象エリアとして設定する収音対象エリア設定手段と、収音対象エリア内のエリア音を混合した音響信号を生成する統合手段と、統合手段が生成した音響信号に基づく音響信号を、音を出力する出力部に供給する出力手段とを有する収音再生装置も知られている(特許文献2)。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2013-3269号公報
【文献】特開2017-184154号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、空間における特定の音源に対して音源に合ったマスキング音を選択しやすくするとともに、最適なマスキング音を利用可能にする。
【課題を解決するための手段】
【0006】
前記課題を解決するために、請求項1に記載の音発生装置は、
空間における音源の音を集音する集音手段と、
前記音源の画像を撮像する撮像手段と、
前記撮像手段によって撮像された前記画像から前記音源の属性を推定する推定手段と、
前記集音手段で集音された音に含まれるターゲット音の音響特性を求め、前記音響特性及び前記推定手段によって推定された前記音源の属性に応じて複数のマスキング音を生成する音生成手段と、
前記推定手段で推定された前記音源の属性を表示する表示手段と、
前記音生成手段で生成される複数のマスキング音の選択を受け付ける音選択手段と、
選択された前記マスキング音を出力する音出力手段と、を備えた、
ことを特徴とする。
【0007】
請求項2に記載の発明は、請求項1に記載の音発生装置において、
前記音生成手段は、前記集音手段で集音された前記音源の音響特性を分析して前記音源の音響特性が近似するマスキング音を生成する、
ことを特徴とする。
【0008】
請求項3に記載の発明は、請求項1に記載の音発生装置において、
前記音生成手段は、前記推定手段で推定された前記音源の属性に応じて前記音源の音響特性が近似するマスキング音を生成する、
ことを特徴とする。
【0009】
請求項4に記載の発明は、請求項3に記載の音発生装置において、
前記音生成手段は、前記音源の属性に対して前記音響特性が近似する複数のマスキング音を生成する、
ことを特徴とする。
【0010】
請求項5に記載の発明は、請求項1に記載の音発生装置において、
前記音選択手段は、前記推定手段で推定された前記音源の属性を表示して、前記マスキング音の選択を受け付ける、
ことを特徴とする。
【0011】
請求項6に記載の発明は、請求項5に記載の音発生装置において、
前記表示手段は、仮想現実、拡張現実又はホログラムを含む混合現実により前記音源を表示する、
ことを特徴とする。
【0012】
請求項7に記載の発明は、請求項1ないし6のいずれか1項に記載の音発生装置において、
前記集音手段は、無指向性のマイクロフォンである、
ことを特徴とする。
【0013】
請求項8に記載の発明は、請求項1又は2に記載の音発生装置において、
空間における前記音源の音は、前記音発生装置を使用する使用者の会話の音声である、
ことを特徴とする。
【0014】
請求項9に記載の発明は、請求項8に記載の音発生装置において、
前記音出力手段は、前記集音手段が前記音源の音を集音している間、前記マスキング音を出力する、
ことを特徴とする。
【発明の効果】
【0015】
請求項1に記載の発明によれば、空間における特定の音源に対して音源に合ったマスキング音を選択しやすくするとともに、最適なマスキング音を利用可能にすることができる。
【0016】
請求項2に記載の発明によれば、音源にあったマスキング音を生成することができる。
【0017】
請求項3に記載の発明によれば、音源を画像で捉えて音源にあったマスキング音を生成することができる。
【0018】
請求項4に記載の発明によれば、マスキング音の選択の幅が広くなる。
【0019】
請求項5に記載の発明によれば、画像を表示することで、最適なマスキング音を容易に選択することができる。
【0020】
請求項6に記載の発明によれば、音源を適切に認識できる。
【0021】
請求項7に記載の発明によれば、音が反射する空間内の音を集音することができる。
【0022】
請求項8に記載の発明によれば、会話の内容を第三者に聞き取られにくくすることができる。
【0023】
請求項9に記載の発明によれば、使用者が会話しているときだけ会話の内容が第三者に聞き取られにくくすることができる。
【図面の簡単な説明】
【0024】
【
図1】本実施形態に係る音発生装置のブロック構成を示すブロック図である。
【
図2】カメラで撮像した音源の属性を解析する流れを説明する図である。
【
図3】本実施形態に係る音発生装置におけるマスキング音出力の流れを示すフローチャートである。
【
図4】操作表示部に表示される音源の属性の表示例を示す図である。
【
図5】マスキング音の選択画面の一例を示すである。
【
図6】変形例に係る音発生装置を使用する状況の一例を示す図である。
【
図7】変形例に係る音発生装置におけるマスキング音出力の流れを示すフローチャートである。
【発明を実施するための形態】
【0025】
次に図面を参照しながら、以下に実施形態及び具体例を挙げ、本発明を更に詳細に説明するが、本発明はこれらの実施形態及び具体例に限定されるものではない。
また、以下の図面を使用した説明において、図面は模式的なものであり、理解の容易のために説明に必要な要素以外の図示は適宜省略されている。
【0026】
(1)音発生装置の構成
図1は本実施形態に係る音発生装置1のブロック構成を示すブロック図、
図2はカメラ20で撮像した音源の属性を解析する流れを説明する図である。
以下、図面を参照しながら本実施形態に係る音発生装置1について説明する。
【0027】
音発生装置1は、
図1に示すように、空間における音源の音を集音する集音手段の一例としてのマイクロフォン10と、音源の画像を撮像する撮像手段の一例としてのカメラ20と、カメラ20によって撮像された画像から音源の属性を
推定する
推定手段の一例としての画像解析部30と、マイクロフォン10で集音された音に含まれるターゲット音の音響特性を求め、音響特性及び画像解析部30によって
推定された音源の属性に応じて複数のマスキング音を生成する音生成手段の一例としてのマスキング音生成部40と、画像解析部30で特定された音源の属性を表示する表示手段の一例としての表示部50Aと、マスキング音生成部40で生成される複数のマスキング音の選択を受け付ける音選択手段の一例としてのマスキング音選択部50Bと、マスキング音選択部50Bを介して選択されたマスキング音を出力する音出力手段の一例としての音出力部60と、を備えて構成されている。
本実施形態においては、音発生装置1は、スマートフォン、タブレット、携帯電話機といった携帯端末として実装される。
【0028】
マイクロフォン10は、音源の音(可聴周波数の音波)を音声信号に変換する変換器であり、マイクロフォン10で集音した音がマスキング音生成部40に送られる。ここで、音源としては、音を発する機器類、人の声、動物の鳴き声、道路工事等の外部の音等が挙げられる。
なお、マイクロフォン10の形式としては、音源の音を集音できるものであれば、ダイナミックマイク、コンデンサマイク等、特に限定されるものではない。また、マイクロフォン10の指向性も特に要求されるものではないが、空間内で反射する音を適切に集音できることから無指向性であることが好ましい。
【0029】
カメラ20は、例えば、CCD(Charge Coupled Device)イメージセンサやCMOS(Complementary metal-oxide-semiconductor)イメージセンサを有するデジタルカメラであり、イメージセンサに入射する光を光電変換し、光電変換によって生成した電荷を基に画像情報を取得する。
また、カメラ20で撮像した画像を表示部50Aまで伝送する方式や画像信号の形式(画像の符号化方式)等は限定されないものであり種々の構成を適用することができる。
【0030】
画像解析部30は、カメラ20から送信された撮像画像のデータを解析することにより、音源の属性の推定処理を実行する。解析方法としては、公知の方法を用いることができるが、一例として、被写体の特徴を抽出して画像解析を行う。
画像解析部30は、解析対象の画像Xの特徴量を抽出する特徴抽出モジュール301と、特徴抽出モジュール301が抽出した特徴量を用いて、撮像した画像内の被写体である音源が属する属性の推定を行う解析モジュール302とを有する。
【0031】
具体的には、画像解析部30では、
図2に示すように、特徴抽出モジュール301が被写体Xの外観的特徴量を抽出する(S1)。続いて、特徴抽出モジュール301が抽出した外観的特徴量を用いて、画像内のオブジェクトが属する属性を推定(S2)し、解析結果Yを出力する。外観的特徴量としては、例えば被写体Xが人間であれば、姿勢、服装、表情、髪型、または、所持品等が挙げられる。
被写体として撮像された音源の属性は、人間であれば人間の性別、年代を含む。また、音源の属性は、人間のみに限らず、人間以外の動物の種別、音を発する機器、車両、ロボット等の物体であってもよく、また、工事現場の工事であってもよい。
図2の例では、入力された画像Xの属性を「30代の男性」であると推定する。
【0032】
マスキング音生成部40は、マイクロフォン10で集音された音源の音(以下、ターゲット音と記す)に基づいてマスキング音に対応する音声信号(以下、マスキング音信号と記す)を生成する。
マスキング音信号の生成は、例えば、ターゲット音の音響特性の一つである周波数特性を分析して、周波数特性が近似するマスキング音信号を生成する。これにより、ターゲット音に対して不適合となりにくいマスキング音が簡便に選択可能となる。
【0033】
マスキング音信号の生成は、例えば、ターゲット音のスペクトル包絡を取得し、このスペクトル包絡を例えば振幅平均を軸として上下反転し、反転したスペクトル包絡にターゲット音の位相スペクトルを加え、逆フーリエ変換することでマスキング音信号を生成してもよい。このようにして生成したマスキング音信号を音出力部60を介してマスキング音として出力することで、ある程度小さな強度であってもターゲット音が聞き取りにくくなり、高いマスキング効果を得ることができる。
【0034】
また、マスキング音生成部40は、画像解析部30で推定される音源の属性に応じて、音源の音を聞こえにくく(マスク)するマスキング音信号を生成する。
例えば、画像解析部30で推定される音源の属性が「30代の男性」である場合、「30代の男性」の声の周波数と近い周波数のマスキング音信号を生成する。また、音源の属性が「犬の鳴き声」、特に「大型犬の鳴き声」である場合、一般的な犬の鳴き声の周波数帯域よりもやや低い周波数のマスキング音信号を生成する。あるいは、音源の属性が「近くの道路工事の騒音」である場合、道路工事による騒音をマスクしやすいマスキング音信号を生成する。
【0035】
このようなマスキング音信号は、音源の属性に応じて、周波数が近いマスキング音信号を複数生成して、使用者のマスキング音の選択の幅を広げるようにしてもよい。
尚、このようなマスキング音信号の生成に際しては、音源の属性に対応した音声信号を計算するためのパラメータを外部から取得してもよい。
【0036】
表示部50A(
図4 参照)及びマスキング音選択部50B(
図5 参照)は、情報を表示する表示装置としての機能と、使用者の各種操作入力を行う入力装置としての機能とを有する操作表示部50として一体化されており、拡張現実(AR)、仮想現実(VR)、混合現実(MR)による表示を行うものであってもよい。
操作表示部50は、カメラ20で撮像された画像、マスキング音生成部40で生成される音源の音に基づいて生成されるマスキング音及び音源の属性に応じて生成される複数のマスキング音の選択を受け付けるためのアイコン等を表示するディスプレイ501と、ユーザの指等によるタッチ操作を検知するタッチパネル502が重畳して設けられている。音発生装置1の使用者は、操作表示部50を介して、カメラ20で撮像した音源の画像を確認するとともに、マスキング音生成部40で生成されるマスキング音の選択を行うことができる。
【0037】
音出力部60は、音発生装置1に組み込まれたスピーカ601であり使用者が選択したマスキング音を出力する。また、音出力部60は、使用者が利用可能なイヤホンやヘッドホンを駆動してもよい。
【0038】
(2)音発生装置の動作
図3は音発生装置1におけるマスキング音出力の流れを示すフローチャート、
図4は操作表示部50に表示される音源の属性の表示例を示す図、
図5はマスキング音の選択画面の一例を示すである。
以下、図面を参照しながら本実施形態に係る音発生装置1の動作について説明する。
【0039】
音発生装置1は、ステップS101で操作表示部50を介してログインを受け付ける(S101)と、ステップS102でマイクロフォン10で音源からのターゲット音を集音しながら、カメラ20が起動して、音源を撮像する(S102)。例えば、カメラ20で撮像した画像データには、
図4に示すように、音源の属性を含む画像P1、P2、P3、P4等が写っている。
【0040】
ステップS102で音源を撮像すると、ステップS103で、画像解析部30は、カメラ20から送信された撮像画像のデータを解析することにより、音源の属性の推定処理を実行する(S103)。解析される音源の属性は、一時的に画像解析部30に保持される。
【0041】
ステップS102で音源からのターゲット音を集音すると、ステップS104で、マスキング音生成部40は、マイクロフォン10で集音されたターゲット音に基づいてマスキング音信号を生成する(S104)。
【0042】
続いて、画像解析部30で音源の属性を推定すると(S103)、ステップS105で、マスキング音生成部40は、画像解析部30で推定された音源の属性に基づいてマスキング音信号を生成する(S105)。音源の属性に基づいて生成するマスキング音信号は、周波数が近いマスキング音信号が複数生成される。
これにより、使用者は、マイクロフォン10で集音されるターゲット音に基づいて生成されたマスキング音と、カメラ20で撮像された画像データに基づいて生成されるマスキング音からマスキング音を選択することが可能となる。
【0043】
ステップS104及びステップS105でマスキング音信号が生成されると、ステップS106で、操作表示部50にマスキング音を選択するための画像が表示される(S106)。画像は、例えば、
図5に示すように、音源の画像Pと使用者が選択するマスキング音を示すアイコンS1、S2、S3等が表示される。ここで、画像Pは、音源をより適切に表示できる拡張現実(AR)、仮想現実(VR)又はホログラムを含む混合現実(MR)によって表示してもよい。
【0044】
続いて、ステップS107で、操作表示部50は、使用者によるマスキング音の選択のための入力を受け付ける(S107)。操作表示部50を介して、使用者によるマスキング音の選択のための入力を受け付ける(S107;Yes)と、ステップS108で、音出力部60は選択されたマスキング音をスピーカ601を駆動して放音する(S108)。
ステップS107で選択のための入力が確認されない場合(S107;No)、ステップS105に戻って、再度、マスキング音生成部40は、画像解析部30で推定された音源の属性に基づいてマスキング音信号を生成する(S105)。
このようにして、音発生装置1の使用者は、空間における特定の音源に対して音源に合った最適なマスキング音の利用が可能になる。
【0045】
「変形例」
図6は変形例に係る音発生装置1を使用する状況の一例を示す図、
図7は変形例に係る音発生装置1におけるマスキング音出力の流れを示すフローチャートである。
変形例に係る音発生装置1は、
図6に示すように、音発生装置1の使用者Aの会話相手Bに向けられると、使用者の会話の声をマイクロフォン10(
図1 参照)で集音するとともに、使用者を含む使用者の周囲をカメラ20(
図1 参照)で撮像する。そして、使用者の会話内容を外部で把握しにくくするマスキング音を選択可能とし、選択されたマスキング音をスピーカ601(
図1 参照)から放音するように構成されている。
【0046】
音発生装置1は、ステップS201で操作表示部50を介してログインを受け付ける(S201)と、ステップS202で、マイクロフォン10で音発生装置1の使用者の会話の声を集音しながら、カメラ20が起動して、使用者の周囲を撮像する(S202)。例えば、撮像した画像データには、使用者と使用者の会話相手が写っている。
【0047】
ステップS202で使用者の周囲を撮像すると、ステップS203で、画像解析部30は、撮像画像のデータを解析することにより、使用者の会話相手の属性を推定処理する(S203)。解析される会話相手の属性は、一時的に画像解析部30に保持される。
【0048】
ステップS202で使用者の声を集音すると、ステップS204で、マスキング音生成部40は、マイクロフォン10で集音された使用者の会話の音声に基づいてマスキング音信号を生成する(S204)。
【0049】
続いて、画像解析部30で使用者の会話相手の属性を推定すると(S203)、ステップS205で、マスキング音生成部40は、画像解析部30で推定された会話相手の属性に基づいてマスキング音信号を生成する(S205)。会話相手の属性は、性別及び年齢層である。そして、マスキング音生成部40で生成されるマスキング音信号は、会話相手の性別及び年齢層に代表される音声信号に近い周波数のマスキング音信号である。
これにより、使用者は、マイクロフォン10で集音される使用者の会話の音声に基づいて生成されたマスキング音と、カメラ20で撮像された画像データに基づいて生成されるマスキング音からマスキング音を選択することが可能となる。
【0050】
ステップS204及びステップS205でマスキング音信号が生成されると、ステップS206で、操作表示部50にマスキング音を選択するための画像が表示され(S206)、ステップS207で、操作表示部50は、使用者によるマスキング音の選択のための入力を受け付ける(S207)。
【0051】
操作表示部50を介して、使用者によるマスキング音の選択のための入力を受け付ける(S207;Yes)と、ステップS208で、音出力部60は選択されたマスキング音をスピーカ601を駆動して放音する(S208)。そして、音出力部60は、ステップS209で、マイクロフォン10で使用者の会話の声が集音されているか判断し(S209)、集音されていない場合(S209:No)、スピーカ601からの放音を停止する(S210)。すなわち、音発生装置1は、使用者が会話しているときだけ、反応してマスキング音を放音する。
ステップS207で選択のための入力が確認されない場合(S207;No)、ステップS205に戻って、再度、マスキング音生成部40は、画像解析部30で推定された会話相手の属性に基づいてマスキング音信号を生成する(S205)。
【0052】
このように、音発生装置1の使用者が2名以上で会話をしながら、音発生装置1を使用することで、使用者の会話内容を外部で把握しにくくするマスキング音を選択可能とし、選択されたマスキング音をスピーカ601から放音することで会話の内容が他者に聞き取られにくくなっている。
【符号の説明】
【0053】
1・・・音発生装置
10・・・マイクロフォン
20・・・カメラ
30・・・画像解析部
301・・・特徴抽出モジュール、302・・・解析モジュール
40・・・マスキング音生成部
50・・・操作表示部
50A・・・表示部、50B・・・マスキング音選択部
60・・・音出力部
601・・・スピーカ
【要約】
【課題】空間における特定の音源に対して音源に合ったマスキング音を選択しやすくするとともに、最適なマスキング音を利用可能にする。
【解決手段】空間における音源の音を集音する集音手段と、音源の画像を撮像する撮像手段と、撮像手段によって撮像された画像から音源の属性を推定する推定手段と、集音手段で集音された音に含まれるターゲット音の音響特性を求め、音響特性及び推定手段によって推定された音源の属性に応じて複数のマスキング音を生成する音生成手段と、推定手段で推定された音源の属性を表示する表示手段と、音生成手段で生成される複数のマスキング音の選択を受け付ける音選択手段と、選択されたマスキング音を出力する音出力手段と、を備えた。
【選択図】
図1