IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

特許7403392複数のマイクによって収音した環境音信号を再生装置へ送信する収音装置、システム、プログラム及び方法
<>
  • 特許-複数のマイクによって収音した環境音信号を再生装置へ送信する収音装置、システム、プログラム及び方法 図1
  • 特許-複数のマイクによって収音した環境音信号を再生装置へ送信する収音装置、システム、プログラム及び方法 図2
  • 特許-複数のマイクによって収音した環境音信号を再生装置へ送信する収音装置、システム、プログラム及び方法 図3
  • 特許-複数のマイクによって収音した環境音信号を再生装置へ送信する収音装置、システム、プログラム及び方法 図4
  • 特許-複数のマイクによって収音した環境音信号を再生装置へ送信する収音装置、システム、プログラム及び方法 図5
  • 特許-複数のマイクによって収音した環境音信号を再生装置へ送信する収音装置、システム、プログラム及び方法 図6
  • 特許-複数のマイクによって収音した環境音信号を再生装置へ送信する収音装置、システム、プログラム及び方法 図7
  • 特許-複数のマイクによって収音した環境音信号を再生装置へ送信する収音装置、システム、プログラム及び方法 図8
  • 特許-複数のマイクによって収音した環境音信号を再生装置へ送信する収音装置、システム、プログラム及び方法 図9
  • 特許-複数のマイクによって収音した環境音信号を再生装置へ送信する収音装置、システム、プログラム及び方法 図10
  • 特許-複数のマイクによって収音した環境音信号を再生装置へ送信する収音装置、システム、プログラム及び方法 図11
  • 特許-複数のマイクによって収音した環境音信号を再生装置へ送信する収音装置、システム、プログラム及び方法 図12
  • 特許-複数のマイクによって収音した環境音信号を再生装置へ送信する収音装置、システム、プログラム及び方法 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-14
(45)【発行日】2023-12-22
(54)【発明の名称】複数のマイクによって収音した環境音信号を再生装置へ送信する収音装置、システム、プログラム及び方法
(51)【国際特許分類】
   G10L 19/008 20130101AFI20231215BHJP
   G10L 15/10 20060101ALI20231215BHJP
   G10L 25/51 20130101ALI20231215BHJP
   G10L 21/028 20130101ALI20231215BHJP
   H04R 3/00 20060101ALI20231215BHJP
【FI】
G10L19/008 200
G10L15/10 500Z
G10L25/51 400
G10L21/028 B
H04R3/00 320
【請求項の数】 10
(21)【出願番号】P 2020101320
(22)【出願日】2020-06-11
(65)【公開番号】P2021196433
(43)【公開日】2021-12-27
【審査請求日】2022-05-26
【前置審査】
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100135068
【弁理士】
【氏名又は名称】早原 茂樹
(72)【発明者】
【氏名】内藤 正樹
(72)【発明者】
【氏名】堀内 俊治
【審査官】大野 弘
(56)【参考文献】
【文献】国際公開第2017/098772(WO,A1)
【文献】特開平11-177628(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/008
G10L 15/10
G10L 25/51
G10L 21/028
H04R 3/00
(57)【特許請求の範囲】
【請求項1】
複数のマイクによって収音した環境音信号を、複数のスピーカによって再生する再生装置へ送信する収音装置において、
音響タグ及び到来方向を紐付けた環境センサに接続されており、
音響タグ毎に、音響信号を蓄積する第1の音響データベースと、
環境音信号から、環境音信号に内在する1つ以上の音響信号を検出すると共に、音響信号毎の到来方向を推定する音源分離手段と、
第1の音響データベースを用いて、音響信号の音響タグを推定する音響タグ推定手段と、
音響タグ推定手段によって推定された音響タグ及び音源分離手段によって推定された到来方向と、環境センサから所定信号を受信した際における当該環境センサに紐付けられた音響タグ及び到来方向とを、再生装置へ送信する音響タグ送信手段と
を有し、再生装置について当該到来方向から当該音響タグに紐付く音響信号を再生させることを特徴とする収音装置。
【請求項2】
音源分離手段は、複数のマイクを用いたブラインド音源分離方式又はビームフォーミングによって、音響信号の到来方向を推定する
ことを特徴とする請求項1に記載の収音装置。
【請求項3】
カメラに接続されており、
音響タグが紐付けられた画像オブジェクトを蓄積する画像データベースと、
画像データベースを用いて、カメラによって撮影された映像に内在する1つ以上の画像オブジェクトを検出し、当該画像オブジェクトの音響タグを特定する画像オブジェクト検出エンジンと
を更に有し、
音響タグ送信手段は、画像オブジェクト検出エンジンによって特定された音響タグに紐付く音響信号における到来方向を送信する
ことを特徴とする請求項1又は2に記載の収音装置。
【請求項4】
請求項1からのいずれか1項に記載の収音装置と、複数のスピーカを搭載した再生装置とがネットワークを介して接続されたシステムにおいて、
再生装置は、
音響タグ毎に、音響信号を蓄積する第2の音響データベースと、
収音装置から、音響タグ及び到来方向を受信する音響タグ受信手段と、
第2の音響データベースを用いて、音響タグに紐付く音響信号が、当該音響タグの到来方向から聞こえるように合成した環境音を、複数のスピーカから出力する環境音再生手段と
を有することを特徴とするシステム。
【請求項5】
収音装置における音響タグ送信手段は、音響タグ及び到来方向と共に、音響信号を更に送信し、
再生装置における環境音再生手段は、音響タグに紐付く音響信号に代えて、収音装置から受信した音響信号を再生する
ことを特徴とする請求項に記載のシステム。
【請求項6】
再生装置の第2の音響データベースに蓄積された音響タグ及び音響信号は、収音装置の第1の音響データベースに蓄積された音響タグ及び音響信号の一部又は全部であり、
再生装置の第2の音響データベースに蓄積された音響タグと、収音装置の第1の音響データベースに蓄積された音響タグとが同一であっても、異なる音響信号に基づく音響信号である
ことを特徴とする請求項に記載のシステム。
【請求項7】
複数のマイクによって収音した環境音信号を、複数のスピーカによって再生する再生装置へ送信する収音装置に搭載されたコンピュータを機能させるプログラムにおいて、
当該収音装置は、音響タグ及び到来方向を紐付けた環境センサに接続されており、
音響タグ毎に、音響信号を蓄積する第1の音響データベースと、
環境音信号から、環境音信号に内在する1つ以上の音響信号を検出すると共に、音響信号毎の到来方向を推定する音源分離手段と、
第1の音響データベースを用いて、音響信号の音響タグを推定する音響タグ推定手段と、
音響タグ推定手段によって推定された音響タグ及び音源分離手段によって推定された到来方向と、環境センサから所定信号を受信した際における当該環境センサに紐付けられた音響タグ及び到来方向とを、再生装置へ送信する音響タグ送信手段と
してコンピュータを機能させ、再生装置について当該到来方向から当該音響タグに紐付く音響信号を再生させることを特徴とする収音装置のプログラム。
【請求項8】
請求項1からのいずれか1項に記載の収音装置から音響タグ及び到来方向を受信し、複数のスピーカを搭載した再生装置に搭載されたコンピュータを機能させるプログラムにおいて、
音響タグ毎に、音響信号を蓄積する第2の音響データベースと、
収音装置から、音響タグ及び到来方向を受信する音響タグ受信手段と、
第2の音響データベースを用いて、音響タグに紐付く音響信号が、当該音響タグの到来方向から聞こえるように合成した環境音を、複数のスピーカから出力する環境音再生手段と
してコンピュータを機能させることを特徴とする再生装置のプログラム。
【請求項9】
複数のマイクによって収音した環境音信号を、複数のスピーカによって再生する再生装置へ送信する収音装置の収音方法において、
収音装置は、
音響タグ及び到来方向を紐付けた環境センサに接続されており、
音響タグ毎に、音響信号を蓄積する第1の音響データベースを有し、
環境音信号から、環境音信号に内在する1つ以上の音響信号を検出すると共に、音響信号毎のび到来方向を推定する第1のステップと、
第1の音響データベースを用いて、音響信号の音響タグを推定する第2のステップと、
第2のステップによって推定された音響タグ及び第1のステップによって推定された到来方向と、環境センサから所定信号を受信した際における当該環境センサに紐付けられた音響タグ及び到来方向とを、再生装置へ送信する第3のステップと
を実行し、再生装置について当該到来方向から当該音響タグに紐付く音響信号を再生させることを特徴とする収音方法。
【請求項10】
請求項1からのいずれか1項に記載の収音装置から音響タグ及び到来方向を受信し、複数のスピーカを搭載した再生装置の再生方法において、
再生装置は、
音響タグ毎に、音響信号を蓄積する第2の音響データベースを有し、
収音装置から、音響タグ及び到来方向を受信する第1のステップと、
第2の音響データベースを用いて、音響タグに紐付く音響信号が、当該音響タグの到来方向から聞こえるように合成した環境音を、複数のスピーカから出力する第2のステップと
を実行することを特徴とする再生方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、環境音に内在する音響信号の収音及び再生の技術に関する。特に、ネットワークを介したテレプレゼンス(テレビ会議)システムに適する。
【背景技術】
【0002】
仕事や業務に限らず、離れて暮らす親と子など、メンバ同士が異なる拠点間で離れて活動や生活をする場合が多い。この場合、スマートフォンやパソコンなどの電話や通信の機能によって、相手の状況を認識し合おうとする。このとき、自発的にコミュニケーションをとる必要があり、遠隔で活動するメンバが疎外感を抱くなどの問題が指摘されている(例えば非特許文献1参照)。
【0003】
これに対し、複数の拠点間で、映像及び音声を常時流し続けるテレプレゼンスシステムが利用されるようになってきている(例えば非特許文献2、3参照)。これは、テレビ会議システムと同じであるが、通話又は会議中にのみ接続するものではなく、常時接続されている。このシステムによれば、遠隔の異なる拠点に滞在するメンバ(親子、家族、社員)同士であっても、相手周辺の環境音や画像を常時送信することによって、互いの状況を共有しながら、あたかも同じ居所にいるような環境を提供することができる。テレプレゼンスシステムは、国内及び海外における拠点間のみではなく、会社と在宅又はシェアオフィスとの間でも、ネットワークを介して手軽に接続することができる。
例えば代表的なテレビ電話のSkype(登録商標)によれば、遠隔拠点のメンバの動向を共有するために、「在籍/離席」の状態を、相手側の端末のディスプレイに表示することができる。
【0004】
尚、他の従来技術として、映像を拡大表示する際に、複数のマイクで収音した音響信号の音場の方向、広さを調整し、ユーザが指定した映像の範囲に合った音場を再現する技術もある(例えば特許文献1参照)。この技術によれば、複数のマイクで収音した音響信号の音場の方向、広さを調整し再生することができる。
また、作業中にディスプレイを見ていなくても、遠隔拠点のメンバの状況を知るために、その相手方の状況を合成音で伝える技術もある(例えば非特許文献4参照)。
更に、遠隔拠点間で互いに多様な環境音を認識し合う環境音認識装置の技術もある(例えば特許文献2参照)。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2019―068210号公報
【文献】特許第6085538号公報
【非特許文献】
【0006】
【文献】総務省編、「テレワークの動向と生産性に関する調査研究報告書,総務省情報通信国際戦略局(2010)」、[online]、[令和2年3月10日検索]、インターネット<URL:https://www.soumu.go.jp/johotsusintokei/linkdata/h22_06_houkoku.pdf>
【文献】Telepresence: Integrating shared task and person spaces, W Buxton - Proceedings of graphics interface, 1992、[online]、[令和2年3月10日検索]、インターネット<URL:https://www.billbuxton.com/TelepShrdSpce.pdf>
【文献】日本人間工学会大会講演集 406-407, 2009:テレワーク向け常時接続型音声会議システム
【文献】HRI 2018: Fribo: A Social Networking Robot for Increasing Social Connectedness through Sharing Daily Home Activities from Living Noise Data.、[online]、[令和2年3月10日検索]、インターネット<URL:https://yonsei.pure.elsevier.com/en/publications/fribo-a-social-networking-robot-for-increasing-social-connectedne>
【文献】電子情報通信学会「知識の森」、2群(画像・音・言語)-6編(音響信号処理)-2章(音源分離)、[online]、[令和2年4月20日検索]、インターネット<URL:http://www.ieice-hbkb.org/files/02/02gun_06hen_02.pdf>
【文献】小野一穂、「マルチチャネルオーディオ」、[online]、[令和2年3月10日検索]、インターネット<URL:https://www.jstage.jst.go.jp/article/itej/68/8/68_604/_pdf/-char/ja>
【発明の概要】
【発明が解決しようとする課題】
【0007】
既存のテレプレゼンスシステムによれば、第1の拠点の収音装置によって収音された音響信号を、第2の拠点の再生装置で再生することができる。このとき、第1の拠点の環境音を単に録音し、第2の拠点ではその環境音をそのまま再生するだけである。
【0008】
これに対し、本願の発明者らは、第2の拠点では、当該第1の拠点の音源位置に応じて第1の拠点の環境音を再生した方が、第2の拠点のユーザは、第1の拠点のユーザの存在を雰囲気的に感じることができる、と考えた。例えば、第1の拠点で水道の蛇口音が収音された場合、第2の拠点でも同じ音源位置から、第1の拠点の水道の蛇口音が到来するように再生することができないか、と考えた。
【0009】
そこで、本発明は、複数のマイクによって収音した環境音信号を、再生装置によって所定の到来方向から聞こえるべく再生できるように送信する収音装置、システム、プログラム及び方法を提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明によれば、複数のマイクによって収音した環境音信号を、複数のスピーカによって再生する再生装置へ送信する収音装置において、
音響タグ及び到来方向を紐付けた環境センサに接続されており、
音響タグ毎に、音響信号を蓄積する第1の音響データベースと、
環境音信号から、環境音信号に内在する1つ以上の音響信号を検出すると共に、音響信号毎の到来方向を推定する音源分離手段と、
第1の音響データベースを用いて、音響信号の音響タグを推定する音響タグ推定手段と、
音響タグ推定手段によって推定された音響タグ及び音源分離手段によって推定された到来方向と、環境センサから所定信号を受信した際における当該環境センサに紐付けられた音響タグ及び到来方向とを、再生装置へ送信する音響タグ送信手段と
を有し、再生装置について当該到来方向から当該音響タグに紐付く音響信号を再生させることを特徴とする。
【0011】
本発明の収音装置における他の実施形態によれば、
音源分離手段は、複数のマイクを用いたブライン音源分離方式又はビームフォーミングによって、音響信号の到来方向を推定することも好ましい。
【0013】
本発明の収音装置における他の実施形態によれば、
カメラに接続されており、
音響タグが紐付けられた画像オブジェクトを蓄積する画像データベースと、
画像データベースを用いて、カメラによって撮影された映像に内在する1つ以上の画像オブジェクトを検出し、当該画像オブジェクトの音響タグを特定する画像オブジェクト検出エンジンと
を更に有し、
音響タグ送信手段は、画像オブジェクト検出エンジンによって特定された音響タグに紐付く音響信号における到来方向を送信する
ことも好ましい。
【0014】
本発明によれば、前述した収音装置と、複数のスピーカを搭載した再生装置とがネットワークを介して接続されたシステムにおいて、
再生装置は、
音響タグ毎に、音響信号を蓄積する第2の音響データベースと、
収音装置から、音響タグ及び到来方向を受信する音響タグ受信手段と、
第2の音響データベースを用いて、音響タグに紐付く音響信号が、当該音響タグの到来方向から聞こえるように合成した環境音を、複数のスピーカから出力する環境音再生手段と
を有することを特徴とする。
【0015】
本発明のシステムにおける他の実施形態によれば、
収音装置における音響タグ送信手段は、音響タグ及び到来方向と共に、音響信号を更に送信し、
再生装置における環境音再生手段は、音響タグに紐付く音響信号に代えて、収音装置から受信した音響信号を再生することも好ましい。
【0016】
本発明のシステムにおける他の実施形態によれば、
再生装置の第2の音響データベースに蓄積された音響タグ及び音響信号は、収音装置の第1の音響データベースに蓄積された音響タグ及び音響信号の一部又は全部であり、
再生装置の第2の音響データベースに蓄積された音響タグと、収音装置の第1の音響データベースに蓄積された音響タグとが同一であっても、異なる音響信号に基づく音響信号であることも好ましい。
【0017】
本発明によれば、複数のマイクによって収音した環境音信号を、複数のスピーカによって再生する再生装置へ送信する収音装置に搭載されたコンピュータを機能させるプログラムにおいて、
当該収音装置は、音響タグ及び到来方向を紐付けた環境センサに接続されており、
音響タグ毎に、音響信号を蓄積する第1の音響データベースと、
環境音信号から、環境音信号に内在する1つ以上の音響信号を検出すると共に、音響信号毎の到来方向を推定する音源分離手段と、
第1の音響データベースを用いて、音響信号の音響タグを推定する音響タグ推定手段と、
音響タグ推定手段によって推定された音響タグ及び音源分離手段によって推定された到来方向と、環境センサから所定信号を受信した際における当該環境センサに紐付けられた音響タグ及び到来方向とを、再生装置へ送信する音響タグ送信手段と
してコンピュータを機能させ、再生装置について当該到来方向から当該音響タグに紐付く音響信号を再生させることを特徴とする。
【0018】
本発明によれば、前述した収音装置から音響タグ及び到来方向を受信し、複数のスピーカを搭載した再生装置に搭載されたコンピュータを機能させるプログラムにおいて、
音響タグ毎に、音響信号を蓄積する第2の音響データベースと、
収音装置から、音響タグ及び到来方向を受信する音響タグ受信手段と、
第2の音響データベースを用いて、音響タグに紐付く音響信号が、当該音響タグの到来方向から聞こえるように合成した環境音を、複数のスピーカから出力する環境音再生手段と
してコンピュータを機能させることを特徴とする。
【0019】
本発明によれば、複数のマイクによって収音した環境音信号を、複数のスピーカによって再生する再生装置へ送信する収音装置の収音方法において、
収音装置は、
音響タグ及び到来方向を紐付けた環境センサに接続されており、
音響タグ毎に、音響信号を蓄積する第1の音響データベースを有し、
環境音信号から、環境音信号に内在する1つ以上の音響信号を検出すると共に、音響信号毎のび到来方向を推定する第1のステップと、
第1の音響データベースを用いて、音響信号の音響タグを推定する第2のステップと、
第2のステップによって推定された音響タグ及び第1のステップによって推定された到来方向と、環境センサから所定信号を受信した際における当該環境センサに紐付けられた音響タグ及び到来方向とを、再生装置へ送信する第3のステップと
を実行し、再生装置について当該到来方向から当該音響タグに紐付く音響信号を再生させることを特徴とする。
【0020】
本発明によれば、前述した収音装置から音響タグ及び到来方向を受信し、複数のスピーカを搭載した再生装置の再生方法において、
再生装置は、
音響タグ毎に、音響信号を蓄積する第2の音響データベースを有し、
収音装置から、音響タグ及び到来方向を受信する第1のステップと、
第2の音響データベースを用いて、音響タグに紐付く音響信号が、当該音響タグの到来方向から聞こえるように合成した環境音を、複数のスピーカから出力する第2のステップと
を実行することを特徴とする。
【発明の効果】
【0021】
本発明の収音装置、システム、プログラム及び方法によれば、複数のマイクによって収音した環境音信号を、再生装置によって所定の到来方向から聞こえるべく再生できるように送信することができる。
本発明によれば、具体的には、収音側における各音源の音響信号を、再生側における各音源の位置に応じてその音響信号を再生することができる。収音装置と再生装置とが異なる拠点に配置された場合であっても、遠隔に滞在するメンバ同士で、互いの環境音を共有することができる。
【図面の簡単な説明】
【0022】
図1】収音装置が配置された拠点Aの環境音を表す外観図である。
図2】本発明における収音装置の機能構成図である。
図3】収音装置における音源分離部及び音響タグ推定部の説明図である。
図4】ブラインド音源分離方式を用いた到来方向の検出を表す説明図である。
図5】ビームフォーミング方式を用いた到来方向の検出を表す説明図である。
図6】本発明における再生装置の機能構成図である。
図7】収音装置から再生装置へ送信されるデータを表す説明図である。
図8】パターン1における再生装置の環境音再生部の説明図である。
図9】パターン1によって再生された音響信号を表す外観図である。
図10】パターン2における環境音再生部の説明図である。
図11】パターン2によって再生された音響信号を表す外観図である。
図12】環境センサに対応する音響タグを送信する収音装置の説明図である。
図13】カメラの映像から推定した音響タグを送信する収音装置の説明図である。
【発明を実施するための形態】
【0023】
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
【0024】
<収音装置1>
図1は、収音装置が配置された拠点Aの環境音を表す外観図である。
【0025】
本発明によれば、少なくとも、第1の拠点内に配置された収音装置1から構成される。
収音装置1は、第1の拠点内で、ユーザに聞こえる環境音から複数の音響信号の到来方向を検出し、その音響タグ及び到来方向を、再生装置へ送信する(パターン1)。また、収音した音響信号そのものを、再生装置へ送信するものであってもよい(パターン2)。
【0026】
図1によれば、ユーザa1、a2の周辺環境の外観が表されており、水道や窓、洗濯機が配置されている。このとき、ユーザa1、a2には、以下のような音響信号が混在した環境音として聞こえている。
水道の蛇口音 「ジャー」
窓の開閉音 「バタッ」
洗濯機の駆動音「グルングルン」
収音装置1は、環境音を収音するための複数のマイクを搭載すると共に、ネットワークを介して遠隔の再生装置2と通信する。
【0027】
図2は、本発明における収音装置の機能構成図である。
【0028】
図2によれば、収音装置1は、複数のマイク101と、第1の音響データベース11と、音源分離部12と、音響タグ推定部13と、音響タグ送信部14と、映像送信部15とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。また、これら機能構成部の処理の流れは、収音送信方法としても理解できる。
【0029】
[マイク101]
マイク101は、環境音を収音する複数のマイクロフォンからなる。例えばマイクロフォンアレイのようなものであってもよい。マイクロフォンアレイは、複数のマイクによって収音された環境音を信号処理することによって、音の空間的な情報を取得することができる。
【0030】
[第1の音響データベース11]
第1の音響データベース11は、音響タグ毎に音響信号を蓄積する。
音響タグ<->音響信号
「音響タグ」は、音響信号を特定するための識別子である。
「音響信号」は、音響信号そのものに限らず、時系列の周波数スペクトルのような音響的特徴量の標準パターンのようなものであってもよい。
【0031】
[音源分離部12]
音源分離部12は、環境音に内在する1つ以上の音響信号を検出すると共に、音響信号毎の到来方向を推定する。
【0032】
図3は、収音装置における音源分離部及び音響タグ推定部の説明図である。
図3によれば、音源分離部12には、マイク101によって収音された環境音が入力される。この環境音には、例えば以下のような様々な音響信号が内在している。
「バタッ」
「グ ル ン グ ル ン」
「ジ ャ ー」
音源分離部12は、音源毎に分離して検出した音響信号と、その到来方向とを出力する。
【0033】
音源分離部12には、音響信号の到来方向を推定するために、ブラインド音源分離方式又はビームフォーミング方式を採用することができる。これら方式によれば、環境音に混在する音響信号を検出し、各音響信号の到来方向も検出することができる。
【0034】
(ブラインド音源分離方式)
図4は、ブラインド音源分離方式を用いた到来方向の検出を表す説明図である。
ブラインド音源分離方式とは、例えば独立成分分析に基づく場合(非特許文献5参照)、複数音源が未知であっても統計的に互いに独立であるとする仮定の下、分離信号が互いに独立となるようなフィルタを構成する。音響信号は、(マイクの数-1)個まで検出可能となる。尚、ブラインド音源分離方式は、音源の種類や空間的位置の知識、目的音の区間の切り出し、合成条件などの情報を原理的に必要とせず、音源信号の調波構造の仮定も用いない。
【0035】
(ビームフォーミング方式)
図5は、ビームフォーミング方式を用いた到来方向の検出を表す説明図である。
ビームフォーミング方式は、各マイクが目的方向の音源の音響信号を検出する方式をいう(例えば非特許文献5参照)。音源から各マイクロフォンへの音波伝搬がそれぞれ異なることに基づいて、遅延及びフィルタによって位相や振幅を制御する。これによって、目的方向以外の音響信号の感度を低下させて、目的方向の音響信号の感度(S/N比)を確保する。
具体的には、マイクロフォンアレイからの角度を複数に分割し(図5によれば8分割)、角度範囲毎に、目的方向として音響信号を収音する。
【0036】
[音響タグ推定部13]
音響タグ推定部13は、第1の音響データベース11を用いて、音響信号の音響タグを推定する。
【0037】
音響タグ推定部13は、メル周波数ケプストラム係数(MFCC)を特徴量とし抽出し、深層学習に基づくニューラルネットワークを用いて音響信号を識別する(例えば非特許文献3、4参照)。これは、制約付きボルツマンマシン(RBM)に基づく自己符号化器によって事前学習された隠れ層を積み重ねて、多層の階層ネットワークを構築し、最終層の出力を使った識別ネットワークを追加して、全体として教師あり学習によって音響タグを検出している。
音響タグ推定部13は、学習段階として、第1の音響データベース11に蓄積された音響タグ及び音響信号を対応付けた教師データによって学習する。推定段階として、音源分離部12からの音響信号を入力し、当該音響信号に対応する音響タグを出力する。
【0038】
図3によれば、音響タグ推定部13は、例えば以下のように音響タグを推定している。
音響タグ101(水道の蛇口音)
音響タグ167(洗濯機の駆動音)
音響タグ143(窓の開閉音)
【0039】
[音響タグ送信部14]
音響タグ送信部14は、音響タグ及び到来方向を、再生装置2へ送信する(パターン1)。
また、他の実施形態として、収音装置1で収音した音響信号をそのまま、再生装置2で再生する場合、音響タグ送信部14は、「音響信号」自体も再生装置2へ送信する(パターン2)。
【0040】
[映像送信部15]
映像送信部15は、カメラによって撮影した映像を、再生装置2へ送信する。テレプレゼンスシステムとして、拠点Aの映像を、拠点Bへ送信するものである。
【0041】
<再生装置2>
再生装置2は、第2の拠点内に配置され、収音装置から音響タグ及び到来方向を受信する。そして、第1の拠点の収音装置から受信した複数の音響信号を、第2の拠点内の環境音として合成して再生する。このとき、各音響信号が、所定の到来方向から聞こえるように再生することができる。これには、マルチチャネル音響の技術が用いることができる(例えば非特許文献6参照)。
【0042】
図6は、本発明における再生装置の機能構成図である。
図6によれば、再生装置2は、スピーカ201と、ディスプレイ202と、第2の音響データベース21と、音響タグ受信部22と、環境音再生部23と、映像再生部24とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。また、これら機能構成部の処理の流れは、環境音再生方法としても理解できる。
【0043】
[第2の音響データベース21]
第2の音響データベース21は、音響タグ毎に、音響信号を蓄積する。基本的に、収音装置1の第1の音響データベース11は、再生装置2の第2の音響データベースと同じ機能のものである。音響タグに紐付く音響信号は、できる限り、原音に近い音響信号であることが好ましい。
【0044】
ここで、再生装置2の第2の音響データベース21に蓄積された音響タグ及び音響信号は、収音装置1の第1の音響データベース11に蓄積された音響タグ及び音響信号の一部又は全部であってもよい。
例えば、収音装置1の第1の音響データベース11に蓄積された音響タグ及び音響信号が、再生装置2の第2の音響データベース21に蓄積されていない場合、その音響信号は再生されないだけである。
一方で、収音装置1の第1の音響データベース11に蓄積された音響タグ及び音響信号が、再生装置2の第2の音響データベース21にも蓄積されている場合、再生装置2における第2の音響データベース21の音響信号によって合成された環境音が再生される。即ち、再生装置2の第2の音響データベース21に蓄積された音響タグと、収音装置1の第1の音響データベース11に蓄積された音響タグとが、異なる音響信号である場合、第2の音響データベース21の音響信号によって変換された環境音が再生されることとなる。
【0045】
[音響タグ受信部22]
音響タグ受信部22は、収音装置1から、音響タグ及び到来方向(及び音響信号)を受信する。受信した音響タグ及び到来方向(及び音響信号)は、環境音再生部23へ出力される。
【0046】
[環境音再生部23]
環境音再生部23は、受信した音響タグに紐付く音響信号を、受信した到来方向から聞こえるように合成し、環境音を再生する。環境音は、複数のスピーカ201へ出力される。
スピーカ201は、複数のスピーカからなり、ユーザに対して、収音装置1が配置された拠点Aにおける音源位置の到来方向から聞こえるように環境音を再生する。
【0047】
[映像再生部24]
映像再生部は、収音装置1から映像を受信し、その映像をディスプレイ202へ出力する。
ディスプレイ202は、その映像を再生し、ユーザに対して視認させる。
【0048】
図7は、収音装置から再生装置へ送信されるデータを表す説明図である。
【0049】
図7によれば、例えば以下の2つのパターンの実施例がある。
[パターン1]
収音装置1の音響タグ送信部14は、「音響タグ」「到来方向」を、再生装置2の音響タグ受信部25へ送信する。
(収音装置)
音響タグ101(水道の蛇口音) :到来方向1 ->
音響タグ167(洗濯機の駆動音):到来方向3 ->
音響タグ143(窓の開閉音) :到来方向8 ->
[パターン2]
収音装置1の音響タグ送信部14は、「音響タグ」「到来方向」「音響信号」を、再生装置2の音響タグ受信部25へ送信する。
(収音装置)
音響タグ101(水道の蛇口音) :到来方向1:音響信号「ジャー」 ->
音響タグ167(洗濯機の駆動音):到来方向3:音響信号「グルングルン」 ->
音響タグ143(窓の開閉音) :到来方向8:音響信号「バタッ」 ->
【0050】
図8は、パターン1における再生装置の環境音再生部の説明図である。
【0051】
図8によれば、環境音再生部23は、環境音に内在する音響信号について、音響タグ受信部22から音響タグ及び到来方向を入力する。
音響タグ101(水道の蛇口音) :到来方向1
音響タグ167(洗濯機の駆動音):到来方向3
音響タグ143(窓の開閉音) :到来方向8
また、第2の音響データベース21によれば、音響タグ毎に、以下のような音響信号が対応付けられている。
音響タグ101(水道の蛇口音) :音響信号「シャー」
音響タグ167(洗濯機の駆動音):音響信号「クルンクルン」
音響タグ143(窓の開閉音) :音響信号「キーッ」
環境音再生部23は、第2の音響データベース21に登録された音響信号「シャー」「クルンクルン」「キーッ」を、拠点Aにおける各到来方向の音源から聞こえるように合成し、環境音を再生する。
音響信号「シャー」 :到来方向1
音響信号「クルンクルン」 :到来方向3
音響信号「キーッ」 :到来方向8
【0052】
図9は、パターン1によって再生された音響信号を表す外観図である。
【0053】
図9によれば、再生装置2が配置された拠点Bにおけるユーザbには、拠点Aの音源となる水道や窓、洗濯機の配置位置から、各音響信号が聞こえるようになる。
例えば拠点Bの環境音として、拠点Aの窓の方向から音響信号「キーッ」が再生されている。これは、拠点Aの環境音として、窓の開閉音「バタッ」を検出した際に、拠点Aの窓と同じ方向から到来するように再生対象の音響信号「キーッ」が再生されている。できる限り、原音に近い音を再生することが好ましい。
このように、第2の音響データベース21に登録された音響信号を、収音装置1で収音された音響信号の到来方向に応じた位置の音源から聞こえるような環境音として、再生することができる。
【0054】
図10は、パターン2における環境音再生部の説明図である。
【0055】
図10によれば、環境音再生部23は、環境音に内在する音響信号について、音響タグ受信部22から、音響タグ及び到来方向と音響信号とを入力する。
音響タグ101(水道の蛇口音) :到来方向1:音響信号「ジャー」
音響タグ167(洗濯機の駆動音):到来方向3:音響信号「グルングルン」
音響タグ143(窓の開閉音) :到来方向8:音響信号「バタッ」
環境音再生部23は、受信した音響信号「ジャー」「グルングルン」「バタッ」を、拠点Aにおける各到来方向の音源から聞こえるように合成し、環境音を再生する。
音響信号「ジャー」 :到来方向1
音響信号「グルングルン」 :到来方向3
音響信号「バタッ」 :到来方向8
【0056】
図11は、パターン2によって再生された音響信号を表す外観図である。
【0057】
図11によれば、再生装置2が配置された拠点Bにおけるユーザbには、拠点Aの音源となる水道や窓、洗濯機の配置位置から、各音響信号が聞こえるようになる。
また、図11によれば、拠点Bには、ディスプレイ202が配置されており、収音装置1によって撮影された拠点Aの映像が再生されている。このとき、映像に「窓」が映り込んでいる。例えば拠点Bの環境音として、拠点Aの窓の方向から音響信号「バタッ」が再生されている。これは、拠点Aの映像における窓と同じ方向から到来するように再生対象の音響信号「バタッ」が再生されている。
このように、拠点Aの収音装置1によって収音された音響信号を、拠点Bではその到来方向に応じた位置の音源から聞こえるような環境音として、再生することができる。
【0058】
図12は、環境センサに対応する音響タグを送信する収音装置の説明図である。
【0059】
図12によれば、収音装置1は、環境センサ17に接続されており、ON/OFF信号を受信する。環境センサとしては、例えば窓開閉センサのようなものであってもよい。環境センサは、いずれか1つの音響タグに紐付いている。環境センサのON/OFF信号は、音響タグ送信部14へ入力される。音響タグ送信部14は、環境センサ17から所定信号を受信した際に、その環境音信号に対応する音響タグ及び到来方向を再生装置2へ送信する。これによって、例えば窓開閉音のみを再生装置2へ送信することができる。
【0060】
図13は、カメラの映像から推定した音響タグを送信する収音装置の説明図である。
【0061】
図13によれば、収音装置1は、カメラ102によって撮影された画像を入力する。
また、図13によれば、収音装置1は、画像データベース180及び画像オブジェクト検出エンジン181を更に有する。
画像データベース180は、音響タグが紐付けられた画像オブジェクトを蓄積する。
画像オブジェクト検出エンジン181は、画像データベース180を用いて、カメラ102によって撮影された映像に内在する1つ以上の画像オブジェクトを検出し、当該画像オブジェクトの音響タグを特定する。特定された音響タグは、音響タグ送信部14へ出力される。
【0062】
具体的には、画像オブジェクト検出エンジン181は、入力された画像又は映像から、物体(画像オブジェクト)を枠(バウンディングボックス)で囲み、その物体の種別(カテゴリ)を識別する。これは、例えばSSD(Single Shot Multibox Detector)のようなものであってもよい。SSDは、画像をグリッドで分割し、各グリッドに対して固定された複数のバウンディングボックスの当てはまり具合から、その位置のバウンディングボックスを検知する。そのバウンディングボックスには、1つの画像オブジェクトが収まる。
また、画像オブジェクト検出エンジン181としては、例えばRGB認識に基づくCNN(Convolutional Neural Network)のようなニューラルネットワークであって、YOLO(You Only Look Once)(登録商標)のようなものであってもよい。
【0063】
以上、詳細に説明したように、本発明の収音装置、システム、プログラム及び方法によれば、複数のマイクによって収音した環境音信号を、再生装置によって所定の到来方向から聞こえるべく再生できるように送信することができる。
本発明によれば、具体的には、収音側における各音源の音響信号を、再生側でも、収音側での音源位置に応じてその音響信号を再生することができる。収音装置と再生装置とが異なる拠点に配置された場合であっても、遠隔に滞在するメンバ同士で、互いの環境音を共有することができる。
【0064】
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【0065】
1 収音装置
101 マイク
102 カメラ
11 第1の音響データベース
12 音源分離部
13 音響タグ推定部
14 音響タグ送信部
15 映像送信部
17 環境センサ
180 画像データベース
181 画像オブジェクト検出エンジン
2 再生装置
201 スピーカ
202 ディスプレイ
21 第2の音響データベース
22 音響タグ受信部
23 環境音再生部
24 映像再生部

図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13