IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

特許7316974特定の音響信号を抑圧した環境音を送信する収音装置、システム、プログラム及び方法
<>
  • 特許-特定の音響信号を抑圧した環境音を送信する収音装置、システム、プログラム及び方法 図1
  • 特許-特定の音響信号を抑圧した環境音を送信する収音装置、システム、プログラム及び方法 図2
  • 特許-特定の音響信号を抑圧した環境音を送信する収音装置、システム、プログラム及び方法 図3
  • 特許-特定の音響信号を抑圧した環境音を送信する収音装置、システム、プログラム及び方法 図4
  • 特許-特定の音響信号を抑圧した環境音を送信する収音装置、システム、プログラム及び方法 図5
  • 特許-特定の音響信号を抑圧した環境音を送信する収音装置、システム、プログラム及び方法 図6
  • 特許-特定の音響信号を抑圧した環境音を送信する収音装置、システム、プログラム及び方法 図7
  • 特許-特定の音響信号を抑圧した環境音を送信する収音装置、システム、プログラム及び方法 図8
  • 特許-特定の音響信号を抑圧した環境音を送信する収音装置、システム、プログラム及び方法 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-07-20
(45)【発行日】2023-07-28
(54)【発明の名称】特定の音響信号を抑圧した環境音を送信する収音装置、システム、プログラム及び方法
(51)【国際特許分類】
   G10L 21/0208 20130101AFI20230721BHJP
   H04R 3/00 20060101ALI20230721BHJP
   G10L 25/72 20130101ALI20230721BHJP
【FI】
G10L21/0208 100Z
H04R3/00 320
H04R3/00 310
G10L25/72 Z
【請求項の数】 14
(21)【出願番号】P 2020065561
(22)【出願日】2020-04-01
(65)【公開番号】P2021162742
(43)【公開日】2021-10-11
【審査請求日】2022-05-26
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100135068
【弁理士】
【氏名又は名称】早原 茂樹
(72)【発明者】
【氏名】内藤 正樹
(72)【発明者】
【氏名】堀内 俊治
【審査官】大野 弘
(56)【参考文献】
【文献】国際公開第2017/098772(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/0208
H04R 3/00
G10L 25/72
(57)【特許請求の範囲】
【請求項1】
マイクロフォンによって収音した環境音信号を、スピーカによって再生する再生装置へ送信する収音装置において、
音響タグが紐付けられた音響オブジェクトを蓄積する第1の音響データベースと、
除去すべき音響タグを登録する除去音響タグテーブルと、
第1の音響データベースを用いて、環境音信号に内在する1つ以上の音響オブジェクトを検出し、当該音響オブジェクトの音響タグを特定する音響オブジェクト検出エンジンと、
特定された各音響タグが、除去音響タグテーブルに登録されたものである場合、環境音信号から、当該音響タグに紐付く音響オブジェクトの音響信号部分を抑圧する音響オブジェクト抑圧手段と、
音響オブジェクトを除去した環境音信号を、再生装置へ送信する環境音送信手段と、
除去した音響オブジェクトに紐付く音響タグを、再生装置へ送信する音響タグ送信手段と
を有することを特徴とする収音装置。
【請求項2】
環境センサに接続されており、
環境センサは、音響タグに紐付いており、
音響オブジェクト抑圧手段は、環境センサから所定信号を受信した際に、環境音信号から、当該環境センサの音響タグに紐付く音響オブジェクトの音響信号部分を除去する
ことを特徴とする請求項1に記載の収音装置。
【請求項3】
カメラに接続されており、
音響タグが紐付けられた画像オブジェクトを蓄積する画像データベースと、
画像データベースを用いて、カメラによって撮影された映像に内在する1つ以上の画像オブジェクトを検出し、当該画像オブジェクトの音響タグを特定する画像オブジェクト検出エンジンと
を更に有し、
音響オブジェクト抑圧手段は、環境音信号から、画像オブジェクト検出エンジンによって特定された音響タグに紐付く音響オブジェクトの音響信号部分を除去する
ことを特徴とする請求項1又は2に記載の収音装置。
【請求項4】
請求項1から3のいずれか1項に記載の収音装置と、当該収音装置から受信した環境音信号を再生する再生装置とを有するシステムにおいて、
再生装置は、
音響タグが紐付けられた音響オブジェクトを蓄積する第2の音響データベースと、
第2の音響データベースを用いて、音響タグに紐付く音響オブジェクトを、環境音信号に混合する音響オブジェクト混合手段と、
を有し、音響オブジェクトを混合した環境音信号をスピーカによって再生することを特徴とするシステム。
【請求項5】
再生装置の第2の音響データベースに蓄積された音響タグ及び音響オブジェクトは、収音装置の第1の音響データベースに蓄積された音響タグ及び音響オブジェクトの一部又は全部であり、
再生装置の第2の音響データベースに蓄積された音響タグと、収音装置の第1の音響データベースに蓄積された音響タグとが同一であっても、異なる音響信号に基づく音響オブジェクトである
ことを特徴とする請求項4に記載のシステム。
【請求項6】
複数の収音装置と、1つの再生装置とがネットワークを介して接続されており、
収音装置毎に異なる拠点に配置され、再生装置は、異なる拠点の環境音信号を同時に再生する
ことを特徴とする請求項4又は5に記載のシステム。
【請求項7】
再生装置は、複数の収音装置それぞれから受信した環境音信号を、収音装置毎に異なる到来方向から当該環境音信号が再生されるように複数のスピーカから出力する音響信号を制御する
ことを特徴とする請求項6に記載のシステム。
【請求項8】
収音装置は、カメラによって撮影された映像を再生装置へ送信し、
再生装置は、収音装置毎に受信した映像それぞれを区分してディスプレイによって再生し、
再生装置は、収音装置毎の映像が映るディスプレイの位置から、当該収音装置の環境音が到来するように当該環境音信号が再生される
ことを特徴とする請求項7に記載のシステム。
【請求項9】
マイクロフォンによって収音した環境音信号を、スピーカから再生する再生装置へ送信する収音装置において、
音響タグが紐付けられた音響オブジェクトを蓄積する第1の音響データベースと、
除去すべき音響タグを登録する除去音響タグテーブルと、
第1の音響データベースと同一の音響タグであっても、異なる音響オブジェクトを蓄積する第2の音響データベースと、
第1の音響データベースを用いて、環境音信号に内在する1つ以上の音響オブジェクトを検出し、当該音響オブジェクトの音響タグを特定する音響オブジェクト検出エンジンと、
特定された各音響タグが、除去音響タグテーブルに登録されたものである場合、環境音信号から、当該音響タグに紐付く音響オブジェクトの音響信号部分を抑圧する音響オブジェクト抑圧手段と、
第2の音響データベースを用いて、音響タグに紐付く音響オブジェクトを、環境音信号に混合する音響オブジェクト混合手段と
音響オブジェクトを混合した環境音信号を、再生装置へ送信する環境音送信手段と、
を有することを特徴とする収音装置。
【請求項10】
マイクロフォンによって収音した環境音信号を、スピーカによって再生する再生装置へ送信する収音装置に搭載されたコンピュータを機能させるプログラムにおいて、
音響タグが紐付けられた音響オブジェクトを蓄積する第1の音響データベースと、
除去すべき音響タグを登録する除去音響タグテーブルと、
第1の音響データベースを用いて、環境音信号に内在する1つ以上の音響オブジェクトを検出し、当該音響オブジェクトの音響タグを特定する音響オブジェクト検出エンジンと、
特定された各音響タグが、除去音響タグテーブルに登録されたものである場合、環境音信号から、当該音響タグに紐付く音響オブジェクトの音響信号部分を抑圧する音響オブジェクト抑圧手段と、
音響オブジェクトを除去した環境音信号を、再生装置へ送信する環境音送信手段と、
除去した音響オブジェクトに紐付く音響タグを、再生装置へ送信する音響タグ送信手段と
してコンピュータを機能させることを特徴とするプログラム。
【請求項11】
マイクロフォンによって収音した環境音信号を、スピーカから再生する再生装置へ送信する収音装置に搭載されたコンピュータを機能させるプログラムにおいて、
音響タグが紐付けられた音響オブジェクトを蓄積する第1の音響データベースと、
除去すべき音響タグを登録する除去音響タグテーブルと、
第1の音響データベースと同一の音響タグであっても、異なる音響オブジェクトを蓄積する第2の音響データベースと、
第1の音響データベースを用いて、環境音信号に内在する1つ以上の音響オブジェクトを検出し、当該音響オブジェクトの音響タグを特定する音響オブジェクト検出エンジンと、
特定された各音響タグが、除去音響タグテーブルに登録されたものである場合、環境音信号から、当該音響タグに紐付く音響オブジェクトの音響信号部分を抑圧する音響オブジェクト抑圧手段と、
第2の音響データベースを用いて、音響タグに紐付く音響オブジェクトを、環境音信号に混合する音響オブジェクト混合手段と
音響オブジェクトを混合した環境音信号を、再生装置へ送信する環境音送信手段と、
してコンピュータを機能させることを特徴とするプログラム。
【請求項12】
マイクロフォンによって収音した環境音信号を、スピーカによって再生する再生装置へ送信する収音装置の収音再生方法において、
収音装置は、
音響タグが紐付けられた音響オブジェクトを蓄積する第1の音響データベースと、
除去すべき音響タグを登録する除去音響タグテーブルと
を有し、
第1の音響データベースを用いて、環境音信号に内在する1つ以上の音響オブジェクトを検出し、当該音響オブジェクトの音響タグを特定する第1のステップと、
特定された各音響タグが、除去音響タグテーブルに登録されたものである場合、環境音信号から、当該音響タグに紐付く音響オブジェクトの音響信号部分を除去する第2のステップと、
音響オブジェクトを除去した環境音信号を、再生装置へ送信すると共に、除去した音響オブジェクトに紐付く音響タグを、再生装置へ送信する第3のステップと
を実行することを特徴とする収音再生方法。
【請求項13】
再生装置は、
音響タグが紐付けられた音響オブジェクトを蓄積する第2の音響データベースを有し、
第2の音響データベースを用いて、音響タグに紐付く音響オブジェクトを、環境音信号に混合する第4のステップと、
音響オブジェクトを混合した環境音信号をスピーカによって再生する第5のステップと
を実行することを特徴とする請求項1に記載の収音再生方法。
【請求項14】
マイクロフォンによって収音した環境音信号を、スピーカから再生する再生装置へ送信する収音装置の収音再生方法において、
収音装置は、
音響タグが紐付けられた音響オブジェクトを蓄積する第1の音響データベースと、
除去すべき音響タグを登録する除去音響タグテーブルと、
第1の音響データベースと同一の音響タグであっても、異なる音響オブジェクトを蓄積する第2の音響データベースと
を有し、
第1の音響データベースを用いて、環境音信号に内在する1つ以上の音響オブジェクトを検出し、当該音響オブジェクトの音響タグを特定する第1のステップと、
特定された各音響タグが、除去音響タグテーブルに登録されたものである場合、環境音信号から、当該音響タグに紐付く音響オブジェクトの音響信号部分を除去する第2のステップと、
第2の音響データベースを用いて、音響タグに紐付く音響オブジェクトを、環境音信号に混合する第3のステップと、
音響オブジェクトを混合した環境音信号を、再生装置へ送信する第4のステップと
を実行することを特徴とする収音再生方法。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ネットワークを介したテレプレゼンスシステムの技術に関する。
【背景技術】
【0002】
テレビ会議システムの場合、自発的にネットワークを接続しない限り、相手方の状況を共有することはできない。そのために、会社の社員同士であっても、例えば在宅やシェアオフィスに滞在している社員は、孤立した職場環境に置かれ、疎外感を抱く場合もある(例えば非特許文献1参照)。
【0003】
近年、同じ会社内であっても、複数の拠点間で、映像及び音声を常時流し続けるテレプレゼンスシステムが利用されるようになってきている。これは、テレビ会議システムであるが、会議中にのみ接続するものではなく、就業時間中に常時接続されている。このシステムによれば、遠隔の異なる拠点に滞在する社員同士であっても、互いの状況を共有しながら、あたかも同じ居所で仕事をしているような環境を提供することができる。テレプレゼンスシステムは、国内及び海外における会社の拠点間のみではなく、会社と在宅又はシェアオフィスとの間でも、ネットワークを介して手軽に接続することができる。
また、会社に限らず、遠隔に居住する親子の家族間でも利用することができる。
【0004】
従来、例えば代表的なテレビ電話のSkype(登録商標)によれば、遠隔拠点のメンバの動向を共有するために、「在籍/離席」の状態を、相手側の端末のディスプレイに表示することができる。
また、作業中にディスプレイを見ていなくても、遠隔拠点のメンバの状況を知るために、その相手方の状況を合成音で伝える技術もある(例えば非特許文献4参照)。
更に、テレプレゼンスシステムを介して、相手方周辺の環境音や画像を常時送信することよって、互いの状況を共有する技術もある(例えば非特許文献2、3参照)。
更に、遠隔拠点間で互いに多様な環境音を認識し合う環境音認識装置の技術もある(例えば特許文献1参照)。
【先行技術文献】
【特許文献】
【0005】
【文献】特許第6085538号公報
【非特許文献】
【0006】
【文献】総務省編、「テレワークの動向と生産性に関する調査研究報告書,総務省情報通信国際戦略局(2010)」、[online]、[令和2年3月10日検索]、インターネット<URL:https://www.soumu.go.jp/johotsusintokei/linkdata/h22_06_houkoku.pdf>
【文献】Telepresence: Integrating shared task and person spaces, W Buxton - Proceedings of graphics interface, 1992、[online]、[令和2年3月10日検索]、インターネット<URL:https://www.billbuxton.com/TelepShrdSpce.pdf>
【文献】日本人間工学会大会講演集 406-407, 2009:テレワーク向け常時接続型音声会議システム
【文献】HRI 2018: Fribo: A Social Networking Robot for Increasing Social Connectedness through Sharing Daily Home Activities from Living Noise Data.、[online]、[令和2年3月10日検索]、インターネット<URL:https://yonsei.pure.elsevier.com/en/publications/fribo-a-social-networking-robot-for-increasing-social-connectedne>
【文献】小野一穂、「マルチチャネルオーディオ」、[online]、[令和2年3月10日検索]、インターネット<URL:https://www.jstage.jst.go.jp/article/itej/68/8/68_604/_pdf/-char/ja>
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、既存のテレプレゼンスシステムやテレビ会議システムによれば、拠点毎に発生する全ての音声が相手方へ伝わる。そのために、相手方にとっては、耳障りな雑音も伝わり、喧しく感じる場合がある。また、プライバシの問題となる音声が伝わる場合もある。
【0008】
そこで、本発明は、拠点内で発生する音声の中で、相手方へ伝える必要が無い特定の音響信号を抑圧した環境音を送信する収音装置、システム、プログラム及び方法を提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明によれば、マイクロフォンによって収音した環境音信号を、スピーカによって再生する再生装置へ送信する収音装置において、
音響タグが紐付けられた音響オブジェクトを蓄積する第1の音響データベースと、
除去すべき音響タグを登録する除去音響タグテーブルと、
第1の音響データベースを用いて、環境音信号に内在する1つ以上の音響オブジェクトを検出し、当該音響オブジェクトの音響タグを特定する音響オブジェクト検出エンジンと、
特定された各音響タグが、除去音響タグテーブルに登録されたものである場合、環境音信号から、当該音響タグに紐付く音響オブジェクトの音響信号部分を抑圧する音響オブジェクト抑圧手段と、
音響オブジェクトを除去した環境音信号を、再生装置へ送信する環境音送信手段と、
除去した音響オブジェクトに紐付く音響タグを、再生装置へ送信する音響タグ送信手段と
を有することを特徴とする。
【0010】
本発明の収音装置における他の実施形態によれば、
環境センサに接続されており、
環境センサは、音響タグに紐付いており、
音響オブジェクト抑圧手段は、環境センサから所定信号を受信した際に、環境音信号から、当該環境センサの音響タグに紐付く音響オブジェクトの音響信号部分を除去する
ことも好ましい。
【0011】
本発明の収音装置における他の実施形態によれば、
カメラに接続されており、
音響タグが紐付けられた画像オブジェクトを蓄積する画像データベースと、
画像データベースを用いて、カメラによって撮影された映像に内在する1つ以上の画像オブジェクトを検出し、当該画像オブジェクトの音響タグを特定する画像オブジェクト検出エンジンと
を更に有し、
音響オブジェクト抑圧手段は、環境音信号から、画像オブジェクト検出エンジンによって特定された音響タグに紐付く音響オブジェクトの音響信号部分を除去する
ことも好ましい。
【0012】
本発明によれば、前述した収音装置と、当該収音装置から受信した環境音信号を再生する再生装置とを有するシステムにおいて、
再生装置は、
音響タグが紐付けられた音響オブジェクトを蓄積する第2の音響データベースと、
第2の音響データベースを用いて、音響タグに紐付く音響オブジェクトを、環境音信号に混合する音響オブジェクト混合手段と、
を有し、音響オブジェクトを混合した環境音信号をスピーカによって再生することを特徴とする。
【0013】
本発明のシステムにおける他の実施形態によれば、
再生装置の第2の音響データベースに蓄積された音響タグ及び音響オブジェクトは、収音装置の第1の音響データベースに蓄積された音響タグ及び音響オブジェクトの一部又は全部であり、
再生装置の第2の音響データベースに蓄積された音響タグと、収音装置の第1の音響データベースに蓄積された音響タグとが同一であっても、異なる音響信号に基づく音響オブジェクトである
ことも好ましい。
【0014】
本発明のシステムにおける他の実施形態によれば、
複数の収音装置と、1つの再生装置とがネットワークを介して接続されており、
収音装置毎に異なる拠点に配置され、再生装置は、異なる拠点の環境音信号を同時に再生する
ことも好ましい。
【0015】
本発明のシステムにおける他の実施形態によれば、
再生装置は、複数の収音装置それぞれから受信した環境音信号を、収音装置毎に異なる到来方向から当該環境音信号が再生されるように複数のスピーカから出力する音響信号を制御する
ことも好ましい。
【0016】
本発明のシステムにおける他の実施形態によれば、
収音装置は、カメラによって撮影された映像を再生装置へ送信し、
再生装置は、収音装置毎に受信した映像それぞれを区分してディスプレイによって再生し、
再生装置は、収音装置毎の映像が映るディスプレイの位置から、当該収音装置の環境音が到来するように当該環境音信号が再生される
ことも好ましい。
【0017】
本発明によれば、マイクロフォンによって収音した環境音信号を、スピーカから再生する再生装置へ送信する収音装置において、
音響タグが紐付けられた音響オブジェクトを蓄積する第1の音響データベースと、
除去すべき音響タグを登録する除去音響タグテーブルと、
第1の音響データベースと同一の音響タグであっても、異なる音響オブジェクトを蓄積する第2の音響データベースと、
第1の音響データベースを用いて、環境音信号に内在する1つ以上の音響オブジェクトを検出し、当該音響オブジェクトの音響タグを特定する音響オブジェクト検出エンジンと、
特定された各音響タグが、除去音響タグテーブルに登録されたものである場合、環境音信号から、当該音響タグに紐付く音響オブジェクトの音響信号部分を抑圧する音響オブジェクト抑圧手段と、
第2の音響データベースを用いて、音響タグに紐付く音響オブジェクトを、環境音信号に混合する音響オブジェクト混合手段と
音響オブジェクトを混合した環境音信号を、再生装置へ送信する環境音送信手段と、
を有することを特徴とする。
【0018】
本発明によれば、マイクロフォンによって収音した環境音信号を、スピーカによって再生する再生装置へ送信する収音装置に搭載されたコンピュータを機能させるプログラムにおいて、
音響タグが紐付けられた音響オブジェクトを蓄積する第1の音響データベースと、
除去すべき音響タグを登録する除去音響タグテーブルと、
第1の音響データベースを用いて、環境音信号に内在する1つ以上の音響オブジェクトを検出し、当該音響オブジェクトの音響タグを特定する音響オブジェクト検出エンジンと、
特定された各音響タグが、除去音響タグテーブルに登録されたものである場合、環境音信号から、当該音響タグに紐付く音響オブジェクトの音響信号部分を抑圧する音響オブジェクト抑圧手段と、
音響オブジェクトを除去した環境音信号を、再生装置へ送信する環境音送信手段と、
除去した音響オブジェクトに紐付く音響タグを、再生装置へ送信する音響タグ送信手段と
してコンピュータを機能させることを特徴とする。
【0019】
本発明によれば、マイクロフォンによって収音した環境音信号を、スピーカから再生する再生装置へ送信する収音装置に搭載されたコンピュータを機能させるプログラムにおいて、
音響タグが紐付けられた音響オブジェクトを蓄積する第1の音響データベースと、
除去すべき音響タグを登録する除去音響タグテーブルと、
第1の音響データベースと同一の音響タグであっても、異なる音響オブジェクトを蓄積する第2の音響データベースと、
第1の音響データベースを用いて、環境音信号に内在する1つ以上の音響オブジェクトを検出し、当該音響オブジェクトの音響タグを特定する音響オブジェクト検出エンジンと、
特定された各音響タグが、除去音響タグテーブルに登録されたものである場合、環境音信号から、当該音響タグに紐付く音響オブジェクトの音響信号部分を抑圧する音響オブジェクト抑圧手段と、
第2の音響データベースを用いて、音響タグに紐付く音響オブジェクトを、環境音信号に混合する音響オブジェクト混合手段と
音響オブジェクトを混合した環境音信号を、再生装置へ送信する環境音送信手段と、
してコンピュータを機能させることを特徴とする。
【0020】
本発明によれば、マイクロフォンによって収音した環境音信号を、スピーカによって再生する再生装置へ送信する収音装置の収音再生方法において、
収音装置は、
音響タグが紐付けられた音響オブジェクトを蓄積する第1の音響データベースと、
除去すべき音響タグを登録する除去音響タグテーブルと
を有し、
第1の音響データベースを用いて、環境音信号に内在する1つ以上の音響オブジェクトを検出し、当該音響オブジェクトの音響タグを特定する第1のステップと、
特定された各音響タグが、除去音響タグテーブルに登録されたものである場合、環境音信号から、当該音響タグに紐付く音響オブジェクトの音響信号部分を除去する第2のステップと、
音響オブジェクトを除去した環境音信号を、再生装置へ送信すると共に、除去した音響オブジェクトに紐付く音響タグを、再生装置へ送信する第3のステップと
を実行することを特徴とする。
【0021】
本発明の収音再生方法における他の実施形態によれば、
再生装置は、
音響タグが紐付けられた音響オブジェクトを蓄積する第2の音響データベースを有し、
第2の音響データベースを用いて、音響タグに紐付く音響オブジェクトを、環境音信号に混合する第4のステップと、
音響オブジェクトを混合した環境音信号をスピーカによって再生する第5のステップと
を実行することも好ましい。
【0022】
本発明によれば、マイクロフォンによって収音した環境音信号を、スピーカから再生する再生装置へ送信する収音装置の収音再生方法において、
収音装置は、
音響タグが紐付けられた音響オブジェクトを蓄積する第1の音響データベースと、
除去すべき音響タグを登録する除去音響タグテーブルと、
第1の音響データベースと同一の音響タグであっても、異なる音響オブジェクトを蓄積する第2の音響データベースと
を有し、
第1の音響データベースを用いて、環境音信号に内在する1つ以上の音響オブジェクトを検出し、当該音響オブジェクトの音響タグを特定する第1のステップと、
特定された各音響タグが、除去音響タグテーブルに登録されたものである場合、環境音信号から、当該音響タグに紐付く音響オブジェクトの音響信号部分を除去する第2のステップと、
第2の音響データベースを用いて、音響タグに紐付く音響オブジェクトを、環境音信号に混合する第3のステップと、
音響オブジェクトを混合した環境音信号を、再生装置へ送信する第4のステップと
を実行することを特徴とする。
【発明の効果】
【0023】
本発明の収音装置、システム、プログラム及び方法によれば、拠点内で発生する音声の中で、相手方へ伝える必要が無い特定の音響信号を抑圧した環境音を送信することができる。耳障りな雑音を抑圧すると共に、プライバシの問題の音声を除去する一方で、相手方にはどのような環境音が除去されたのかを伝えることができる。これによって、遠隔の異なる拠点に滞在するメンバ同士であっても、快適な環境音の中で、互いの状況を共有することができる。
【図面の簡単な説明】
【0024】
図1】本発明における収音装置及び再生装置の機能構成図である。
図2】音響オブジェクトを検出する説明図である。
図3】音響オブジェクトを抑圧する説明図である。
図4】環境音送信部及び音響タグ送信部の説明図である。
図5】音響オブジェクトを混合する説明図である。
図6】環境センサに接続された収音装置の機能構成図である。
図7】カメラによって撮影された画像から音響オブジェクトを抑圧する収音装置の機能構成図である。
図8】音響オブジェクト抑圧部及び音響オブジェクト混合部を有する収音装置の機能構成図である。
図9】複数の収音装置から環境音を受信する再生装置の機能構成図である。
【発明を実施するための形態】
【0025】
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
【0026】
図1は、本発明における収音装置及び再生装置の機能構成図である。
【0027】
本発明のシステムは、ネットワークを介して収音装置1と再生装置2とが接続されている。
図1によれば、収音装置1は、マイクロフォン101によって収音した環境音信号から特定の音響信号を抑圧し、その環境音信号を再生装置2へ送信する。また、カメラ102によって撮影した映像も、再生装置2へ同時に送信する。
再生装置2は、収音装置1から受信した環境音を、スピーカ201から再生する。また、再生装置2は、受信した環境音の中で、どのような音響信号が抑圧されたのか、を認識することができ、その抑圧された音響信号をユーザに明示することもできる。更に、受信した環境音に、抑圧された音響信号と異なる他の音響信号を混合し、新たな環境音でスピーカ201から再生することもできる。
【0028】
<収音装置1>
図1によれば、収音装置1は、第1の音響データベース11と、除去音響タグテーブル12と、音響オブジェクト検出エンジン13と、音響オブジェクト抑圧部14と、環境音送信部15と、環境タグ送信部16と、映像送信部17とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。また、これら機能構成部の処理の流れは、収音送信方法としても理解できる。
【0029】
図2は、音響オブジェクトを検出する説明図である。
【0030】
[第1の音響データベース11]
第1の音響データベース11は、音響タグが紐付けられた音響オブジェクト(音オブジェクト)を蓄積したものである。
音響タグ<->音響オブジェクト
「音響タグ」は、音響オブジェクトを特定するための識別子である。
「音響オブジェクト」は、音響信号そのものに限らず、時系列の周波数スペクトルのような音響的特徴量の標準パターンのようなものであってもよい。音響信号については、例えばITU-R 勧告BS.2051「番組制作における高度音響システム」のような規格に準拠した音響信号を用いてもよい。
【0031】
[除去音響タグテーブル12]
除去音響タグテーブル12は、除去すべき音響タグを登録したものである。
例えば、プリンタやドア開閉音のような雑音を除去したい場合、それら音響オブジェクトに紐付けられた音響タグが登録される。また、例えば、人の声のプライバシを除去したい場合、それらの音響オブジェクトに紐付けられた音響タグが登録される。
【0032】
[音響オブジェクト検出エンジン13]
音響オブジェクト検出エンジン13は、第1の音響データベース11を用いて、環境音信号に内在する1つ以上の音響オブジェクトを検出し、当該音響オブジェクトの音響タグを特定する。特定された音響タグは、音響オブジェクト抑圧部14へ出力される。
【0033】
音響オブジェクト検出エンジン13は、メル周波数ケプストラム係数(MFCC)を特徴量とし抽出し、深層学習に基づくニューラルネットワークを用いて音響オブジェクトを識別する(例えば非特許文献3、4参照)。これは、制約付きボルツマンマシン(RBM)に基づく自己符号化器によって事前学習された隠れ層を積み重ねて、多層の階層ネットワークを構築し、最終層の出力を使った識別ネットワークを追加して、全体として教師あり学習によって音響タグを検出している。
【0034】
図2によれば、マイクロフォン101によって収音された環境音信号が、音響オブジェクト検出エンジン13に入力されている。この環境音信号には、例えば以下のような様々な音響が混在している。
「ブ ー ン ッ ガ シ ャ ッ キ ー」
「山本さん、おはよう」
「ギ ー 」
「伊藤さんに昨日会ったよ~」
「ピ ン ポ ン」
「カ タ カ タ カ タ」
そして、音響オブジェクト検出エンジン13は、例えば以下のように音響オブジェクト及び音響タグを検出する。
音響タグ101(チャイム音)
音響タグ167(プリンタ音)
音響タグ239(キーボードの打鍵音)
音響タグ143(人名「山本さん」)
音響タグ52 (人名「伊藤さん」)
【0035】
[音響オブジェクト抑圧部14]
音響オブジェクト抑圧部14は、特定された各音響タグが、除去音響タグテーブル12に登録されたものである場合、環境音信号から、当該音響タグに紐付く音響オブジェクトを抑圧する。
【0036】
図3は、音響オブジェクトを抑圧する説明図である。
図3によれば、除去音響タグテーブル12には、例えば以下の音響タグが登録されているとする。
音響タグ101(チャイム音)
音響タグ167(プリンタ音)
音響タグ52 (人名「伊藤さん」)
この場合、音響オブジェクト抑圧部14は、環境音信号から、これら音響タグに紐付く音響オブジェクトを、周波数的に抑圧する。
【0037】
尚、他の実施形態として、音響タグに基づく音響オブジェクトを単に抑圧するのみでなく、音響タグに基づく音響オブジェクトの音響レベルが所定閾値以上となった場合にのみ、その音響オブジェクトを抑圧するものであってもよい。
例えば、前述した実施形態によれば、人名「山本さん」「伊藤さん」それぞれに付与された音響タグに基づく音響オブジェクトを抑圧するように説明したが、人声の周波数に基づく音響オブジェクトを抑圧するものであってもよい。
【0038】
図4は、環境音送信部及び音響タグ送信部の説明図である。
【0039】
[環境音送信部15]
環境音送信部15は、特定の音響オブジェクトを抑圧した環境音信号を、再生装置2へ送信する。これによって、再生装置2は、特定の雑音やプライバシ音声が除去された環境音を再生することができる。
【0040】
図4によれば、例えば以下のような環境音が送信される。
「山本さん、おはよう」
「ギ ー 」
「・・・に昨日会ったよ~」
「カ タ カ タ カ タ」
このように、例えばプリンタの雑音のような「ブーンッガシャッキー」「ピンポン」や、プライベートの音声のような「伊藤さん」が抑圧される。
【0041】
[環境タグ送信部16]
環境タグ送信部16は、抑圧された音響オブジェクトに紐付く音響タグを、再生装置2へ送信する。これによって、再生装置2は、受信した環境音信号について、その音響タグに紐付く音響オブジェクトが抑圧されていることを認識する。
【0042】
図4によれば、例えば以下のような音響タグが送信される。
音響タグ101(チャイム音)
音響タグ167(プリンタ音)
音響タグ52 (人名「伊藤さん」)
尚、音響タグに基づく音響オブジェクトが挿入されていた時刻も、環境音に同期して送信する。環境音を再生する際に、音響オブジェクトの挿入時刻を特定するためである。
【0043】
[映像送信部17]
映像送信部17は、カメラ102によって撮影された映像を、再生装置2へ送信する。相手方の拠点と映像も共有して認識することが好ましい。
【0044】
<再生装置2>
図1によれば、再生装置2は、第2の音響データベース21と、音響オブジェクト混合部22と、映像再生部23とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。また、これら機能構成部の処理の流れは、受信再生方法としても理解できる。
【0045】
[第2の音響データベース21]
第2の音響データベース21は、音響タグが紐付けられた音響オブジェクトを蓄積する。
【0046】
第2の音響データベース21に蓄積された音響タグ及び音響オブジェクトは、収音装置1の第1の音響データベース11に蓄積された音響タグ及び音響オブジェクトの一部又は全部であってもよい。
例えば、第1の音響データベース11に蓄積された音響タグ及び音響オブジェクトが、第2の音響データベース21に蓄積されていない場合、その音響オブジェクトは抑圧されたままの環境音が再生される。
一方で、第1の音響データベース11に蓄積された音響タグ及び音響オブジェクトが、第2の音響データベース21にも蓄積されている場合、第2の音響データベース21の音響オブジェクトによって混合された環境音が再生される。即ち、第2の音響データベース21に蓄積された音響タグと、収音装置1の第1の音響データベース11に蓄積された音響タグとが、異なる音響信号に基づく音響オブジェクトである場合、第2の音響データベース21の音響オブジェクトによって変換された環境音が再生される。
【0047】
[音響オブジェクト混合部22]
音響オブジェクト混合部22は、第2の音響データベース21を用いて、音響タグに紐付く音響オブジェクトを、環境音信号に混合する。混合した環境音信号は、スピーカ201へ出力される。
【0048】
図5は、音響オブジェクトを混合する説明図である。
【0049】
図5によれば、音響オブジェクト混合部22は、収音装置1から、環境音信号と、抑圧された音響タグとを受信する。そして、第2の音響データベース21を用いて、受信した音響タグをキーとして、音響オブジェクトを検索する。図5によれば、以下のように検索される。
音響タグ101<->「リーン」
音響タグ52 <->「ピポパ」
音響タグ101は、第1の音響データベース11では「ピンポン」であったものが、第2の音響データベース21では擬似音声「リーン」となっている。
音響タグ52は、第1の音響データベース11では「伊藤さん」であったものが、第2の音響データベース21では擬似音声「ピポパ」となっている。
ここで、音響タグ167は、第2の音響データベース21では検索されない。これは、第1の音響データベースにおける「ブーンッガシャッキー」は抑圧されたままとなることを意味する。特に耳障りな雑音については、環境音から消音(除去)するのみでよい。
【0050】
図5によれば、例えば以下のような音響オブジェクトを混合した環境音が再生される。
「山本さん、おはよう」
「ギ ー 」
「ピポパに昨日会ったよ~」
「リ ー ン」
「カ タ カ タ カ タ」
【0051】
[映像再生部23]
映像再生部23は、収音装置1から受信した映像を、ディスプレイ202へ出力する。相手方の拠点と映像も共有して認識することが好ましい。
【0052】
図6は、環境センサに接続された収音装置の機能構成図である。
【0053】
図6によれば、収音装置1は、環境センサ18に接続されており、ON/OFF信号を受信する。環境センサとしては、例えばドア開閉センサのようなものであってもよい。環境センサは、いずれか1つの音響タグに紐付いている。環境センサのON/OFF信号は、音響オブジェクト抑圧部14へ入力される。
【0054】
音響オブジェクト抑圧部14は、環境センサ18から所定信号を受信した際に、環境音信号から、当該環境センサの音響タグに紐付く音響オブジェクトの音響信号部分を抑圧する。これによって、例えばドア開閉音のような雑音を、環境音から抑圧することができる。
【0055】
図7は、カメラによって撮影された画像から音響オブジェクトを抑圧する収音装置の機能構成図である。
【0056】
図7によれば、収音装置1は、カメラによって撮影された画像を入力する。
また、図7によれば、収音装置1は、画像データベース190及び画像オブジェクト検出エンジン191を更に有する。
【0057】
[画像データベース190]
画像データベース190は、音響タグが紐付けられた画像オブジェクトを蓄積する。
【0058】
[画像オブジェクト検出エンジン191]
画像オブジェクト検出エンジン191は、画像データベース190を用いて、カメラによって撮影された映像に内在する1つ以上の画像オブジェクトを検出し、当該画像オブジェクトの音響タグを特定する。特定された音響タグは、音響オブジェクト抑圧部14へ出力される。
【0059】
具体的には、画像オブジェクト検出エンジン191は、入力された画像又は映像から、物体(画像オブジェクト)を枠(バウンディングボックス)で囲み、その物体の種別(カテゴリ)を識別する。これは、例えばSSD(Single Shot Multibox Detector)のようなものであってもよい。SSDは、画像をグリッドで分割し、各グリッドに対して固定された複数のバウンディングボックスの当てはまり具合から、その位置のバウンディングボックスを検知する。そのバウンディングボックスには、1つの画像オブジェクトが収まる。
また、画像オブジェクト検出エンジン191としては、例えばRGB認識に基づくCNN(Convolutional Neural Network)のようなニューラルネットワークであって、YOLO(You Only Look Once)(登録商標)のようなものであってもよい。
【0060】
音響オブジェクト抑圧部14は、画像オブジェクト検出エンジン191から音響タグを受信した際に、環境音信号から、当該環境センサの音響タグに紐付く音響オブジェクトの音響信号部分を抑圧する。これによって、例えばドアの開閉が映像に映り込んだ際に、その開閉音のような雑音を、環境音から抑圧することができる。
【0061】
図8は、音響オブジェクト抑圧部及び音響オブジェクト混合部を有する収音装置の機能構成図である。
【0062】
図8によれば、図1における収音装置1及び再生装置2を組み合わせたものである。この場合、収音装置1は、音響オブジェクト抑圧部14によって特定の音響オブジェクトが抑圧された環境音に、音響オブジェクト混合部22によって他の特定の音響オブジェクトが混合される。図1の場合に再生装置2によって混合される環境音が、図8の場合に収音装置1から送信される。
【0063】
図9は、複数の収音装置から環境音を受信する再生装置の機能構成図である。
【0064】
図9によれば、複数の収音装置1と、1つの再生装置2とがネットワークを介して接続されている。各収音装置1は異なる拠点に配置され、再生装置2は、異なる拠点の環境音信号を同時に再生する。
再生装置2は、ディスプレイを配置し、収音装置1毎に受信した映像それぞれを区分して表示するものであってもよい。そして、再生装置2は、複数の収音装置それぞれから受信した環境音を、収音装置毎に異なる到来方向から当該環境音信号が再生されるように複数のスピーカから出力する音響信号を制御するべく、環境音合成部24を備える。再生装置2から環境音を聴音しているユーザは、収音装置毎の映像が映るディスプレイの表示位置から、当該収音装置の環境音が到来するように当該環境音信号が聞こえる。
これには、マルチチャネル音響の技術が用いられる(例えば非特許文献5参照)。この技術によれば、配置された各ディスプレイの位置を基準に、方向の異なる複数のチャネルを設置し、各チャネルが音の到来方向と1対1に対応するようにする。これによって、スピーカのない位置にディスプレイが配置されても、ユーザは、その方向から音が到来しているように聞こえる。
【0065】
以上、詳細に説明したように、本発明の収音装置、システム、プログラム及び方法によれば、拠点内で発生する音声の中で、相手方へ伝える必要が無い特定の音響信号を抑圧した環境音を送信することができる。耳障りな雑音を抑圧すると共に、プライバシの問題の音声を除去する一方で、相手方にはどのような環境音が除去されたのかを伝えることができる。これによって、遠隔の異なる拠点に滞在するメンバ同士であっても、快適な環境音の中で、互いの状況を共有することができる。
【0066】
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【0067】
1 収音装置
101 マイクロフォン
102 カメラ
11 第1の音響データベース
12 除去音響タグテーブル
13 音響オブジェクト検出エンジン
14 音響オブジェクト抑圧部
15 環境音送信部
16 環境タグ送信部
17 映像送信部
18 環境センサ
190 画像データベース
191 画像オブジェクト検出エンジン
2 再生装置
201 スピーカ
202 ディスプレイ
21 第2の音響データベース
22 音響オブジェクト混合部
23 映像再生部
24 環境音合成部

図1
図2
図3
図4
図5
図6
図7
図8
図9