特許7316974 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＫＤＤＩ株式会社の特許一覧

特許7316974特定の音響信号を抑圧した環境音を送信する収音装置、システム、プログラム及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-07-20

(45)【発行日】2023-07-28

(54)【発明の名称】特定の音響信号を抑圧した環境音を送信する収音装置、システム、プログラム及び方法

(51)【国際特許分類】

G10L 21/0208 20130101AFI20230721BHJP

H04R 3/00 20060101ALI20230721BHJP

G10L 25/72 20130101ALI20230721BHJP

【ＦＩ】

G10L21/0208 100Z

H04R3/00 320

H04R3/00 310

G10L25/72 Z

【請求項の数】 14

(21)【出願番号】P 2020065561

(22)【出願日】2020-04-01

(65)【公開番号】P2021162742

(43)【公開日】2021-10-11

【審査請求日】2022-05-26

(73)【特許権者】

【識別番号】000208891

【氏名又は名称】ＫＤＤＩ株式会社

(74)【代理人】

【識別番号】100135068

【弁理士】

【氏名又は名称】早原茂樹

(72)【発明者】

【氏名】内藤正樹

(72)【発明者】

【氏名】堀内俊治

【審査官】大野弘

(56)【参考文献】

【文献】国際公開第２０１７／０９８７７２（ＷＯ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ２１／０２０８

Ｈ０４Ｒ３／００

Ｇ１０Ｌ２５／７２

(57)【特許請求の範囲】

【請求項1】

マイクロフォンによって収音した環境音信号を、スピーカによって再生する再生装置へ送信する収音装置において、
音響タグが紐付けられた音響オブジェクトを蓄積する第１の音響データベースと、
除去すべき音響タグを登録する除去音響タグテーブルと、
第１の音響データベースを用いて、環境音信号に内在する１つ以上の音響オブジェクトを検出し、当該音響オブジェクトの音響タグを特定する音響オブジェクト検出エンジンと、
特定された各音響タグが、除去音響タグテーブルに登録されたものである場合、環境音信号から、当該音響タグに紐付く音響オブジェクトの音響信号部分を抑圧する音響オブジェクト抑圧手段と、
音響オブジェクトを除去した環境音信号を、再生装置へ送信する環境音送信手段と、
除去した音響オブジェクトに紐付く音響タグを、再生装置へ送信する音響タグ送信手段と
を有することを特徴とする収音装置。

【請求項2】

環境センサに接続されており、
環境センサは、音響タグに紐付いており、
音響オブジェクト抑圧手段は、環境センサから所定信号を受信した際に、環境音信号から、当該環境センサの音響タグに紐付く音響オブジェクトの音響信号部分を除去する
ことを特徴とする請求項１に記載の収音装置。

【請求項3】

カメラに接続されており、
音響タグが紐付けられた画像オブジェクトを蓄積する画像データベースと、
画像データベースを用いて、カメラによって撮影された映像に内在する１つ以上の画像オブジェクトを検出し、当該画像オブジェクトの音響タグを特定する画像オブジェクト検出エンジンと
を更に有し、
音響オブジェクト抑圧手段は、環境音信号から、画像オブジェクト検出エンジンによって特定された音響タグに紐付く音響オブジェクトの音響信号部分を除去する
ことを特徴とする請求項１又は２に記載の収音装置。

【請求項4】

請求項１から３のいずれか１項に記載の収音装置と、当該収音装置から受信した環境音信号を再生する再生装置とを有するシステムにおいて、
再生装置は、
音響タグが紐付けられた音響オブジェクトを蓄積する第２の音響データベースと、
第２の音響データベースを用いて、音響タグに紐付く音響オブジェクトを、環境音信号に混合する音響オブジェクト混合手段と、
を有し、音響オブジェクトを混合した環境音信号をスピーカによって再生することを特徴とするシステム。

【請求項5】

再生装置の第２の音響データベースに蓄積された音響タグ及び音響オブジェクトは、収音装置の第１の音響データベースに蓄積された音響タグ及び音響オブジェクトの一部又は全部であり、
再生装置の第２の音響データベースに蓄積された音響タグと、収音装置の第１の音響データベースに蓄積された音響タグとが同一であっても、異なる音響信号に基づく音響オブジェクトである
ことを特徴とする請求項４に記載のシステム。

【請求項6】

複数の収音装置と、１つの再生装置とがネットワークを介して接続されており、
収音装置毎に異なる拠点に配置され、再生装置は、異なる拠点の環境音信号を同時に再生する
ことを特徴とする請求項４又は５に記載のシステム。

【請求項7】

再生装置は、複数の収音装置それぞれから受信した環境音信号を、収音装置毎に異なる到来方向から当該環境音信号が再生されるように複数のスピーカから出力する音響信号を制御する
ことを特徴とする請求項６に記載のシステム。

【請求項8】

収音装置は、カメラによって撮影された映像を再生装置へ送信し、
再生装置は、収音装置毎に受信した映像それぞれを区分してディスプレイによって再生し、
再生装置は、収音装置毎の映像が映るディスプレイの位置から、当該収音装置の環境音が到来するように当該環境音信号が再生される
ことを特徴とする請求項７に記載のシステム。

【請求項9】

マイクロフォンによって収音した環境音信号を、スピーカから再生する再生装置へ送信する収音装置において、
音響タグが紐付けられた音響オブジェクトを蓄積する第１の音響データベースと、
除去すべき音響タグを登録する除去音響タグテーブルと、
第１の音響データベースと同一の音響タグであっても、異なる音響オブジェクトを蓄積する第２の音響データベースと、
第１の音響データベースを用いて、環境音信号に内在する１つ以上の音響オブジェクトを検出し、当該音響オブジェクトの音響タグを特定する音響オブジェクト検出エンジンと、
特定された各音響タグが、除去音響タグテーブルに登録されたものである場合、環境音信号から、当該音響タグに紐付く音響オブジェクトの音響信号部分を抑圧する音響オブジェクト抑圧手段と、
第２の音響データベースを用いて、音響タグに紐付く音響オブジェクトを、環境音信号に混合する音響オブジェクト混合手段と
音響オブジェクトを混合した環境音信号を、再生装置へ送信する環境音送信手段と、
を有することを特徴とする収音装置。

【請求項10】

マイクロフォンによって収音した環境音信号を、スピーカによって再生する再生装置へ送信する収音装置に搭載されたコンピュータを機能させるプログラムにおいて、
音響タグが紐付けられた音響オブジェクトを蓄積する第１の音響データベースと、
除去すべき音響タグを登録する除去音響タグテーブルと、
第１の音響データベースを用いて、環境音信号に内在する１つ以上の音響オブジェクトを検出し、当該音響オブジェクトの音響タグを特定する音響オブジェクト検出エンジンと、
特定された各音響タグが、除去音響タグテーブルに登録されたものである場合、環境音信号から、当該音響タグに紐付く音響オブジェクトの音響信号部分を抑圧する音響オブジェクト抑圧手段と、
音響オブジェクトを除去した環境音信号を、再生装置へ送信する環境音送信手段と、
除去した音響オブジェクトに紐付く音響タグを、再生装置へ送信する音響タグ送信手段と
してコンピュータを機能させることを特徴とするプログラム。

【請求項11】

マイクロフォンによって収音した環境音信号を、スピーカから再生する再生装置へ送信する収音装置に搭載されたコンピュータを機能させるプログラムにおいて、
音響タグが紐付けられた音響オブジェクトを蓄積する第１の音響データベースと、
除去すべき音響タグを登録する除去音響タグテーブルと、
第１の音響データベースと同一の音響タグであっても、異なる音響オブジェクトを蓄積する第２の音響データベースと、
第１の音響データベースを用いて、環境音信号に内在する１つ以上の音響オブジェクトを検出し、当該音響オブジェクトの音響タグを特定する音響オブジェクト検出エンジンと、
特定された各音響タグが、除去音響タグテーブルに登録されたものである場合、環境音信号から、当該音響タグに紐付く音響オブジェクトの音響信号部分を抑圧する音響オブジェクト抑圧手段と、
第２の音響データベースを用いて、音響タグに紐付く音響オブジェクトを、環境音信号に混合する音響オブジェクト混合手段と
音響オブジェクトを混合した環境音信号を、再生装置へ送信する環境音送信手段と、
してコンピュータを機能させることを特徴とするプログラム。

【請求項12】

マイクロフォンによって収音した環境音信号を、スピーカによって再生する再生装置へ送信する収音装置の収音再生方法において、
収音装置は、
音響タグが紐付けられた音響オブジェクトを蓄積する第１の音響データベースと、
除去すべき音響タグを登録する除去音響タグテーブルと
を有し、
第１の音響データベースを用いて、環境音信号に内在する１つ以上の音響オブジェクトを検出し、当該音響オブジェクトの音響タグを特定する第１のステップと、
特定された各音響タグが、除去音響タグテーブルに登録されたものである場合、環境音信号から、当該音響タグに紐付く音響オブジェクトの音響信号部分を除去する第２のステップと、
音響オブジェクトを除去した環境音信号を、再生装置へ送信すると共に、除去した音響オブジェクトに紐付く音響タグを、再生装置へ送信する第３のステップと
を実行することを特徴とする収音再生方法。

【請求項13】

再生装置は、
音響タグが紐付けられた音響オブジェクトを蓄積する第２の音響データベースを有し、
第２の音響データベースを用いて、音響タグに紐付く音響オブジェクトを、環境音信号に混合する第４のステップと、
音響オブジェクトを混合した環境音信号をスピーカによって再生する第５のステップと
を実行することを特徴とする請求項１２に記載の収音再生方法。

【請求項14】

マイクロフォンによって収音した環境音信号を、スピーカから再生する再生装置へ送信する収音装置の収音再生方法において、
収音装置は、
音響タグが紐付けられた音響オブジェクトを蓄積する第１の音響データベースと、
除去すべき音響タグを登録する除去音響タグテーブルと、
第１の音響データベースと同一の音響タグであっても、異なる音響オブジェクトを蓄積する第２の音響データベースと
を有し、
第１の音響データベースを用いて、環境音信号に内在する１つ以上の音響オブジェクトを検出し、当該音響オブジェクトの音響タグを特定する第１のステップと、
特定された各音響タグが、除去音響タグテーブルに登録されたものである場合、環境音信号から、当該音響タグに紐付く音響オブジェクトの音響信号部分を除去する第２のステップと、
第２の音響データベースを用いて、音響タグに紐付く音響オブジェクトを、環境音信号に混合する第３のステップと、
音響オブジェクトを混合した環境音信号を、再生装置へ送信する第４のステップと
を実行することを特徴とする収音再生方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ネットワークを介したテレプレゼンスシステムの技術に関する。

【背景技術】

【0002】

テレビ会議システムの場合、自発的にネットワークを接続しない限り、相手方の状況を共有することはできない。そのために、会社の社員同士であっても、例えば在宅やシェアオフィスに滞在している社員は、孤立した職場環境に置かれ、疎外感を抱く場合もある（例えば非特許文献１参照）。

【0003】

近年、同じ会社内であっても、複数の拠点間で、映像及び音声を常時流し続けるテレプレゼンスシステムが利用されるようになってきている。これは、テレビ会議システムであるが、会議中にのみ接続するものではなく、就業時間中に常時接続されている。このシステムによれば、遠隔の異なる拠点に滞在する社員同士であっても、互いの状況を共有しながら、あたかも同じ居所で仕事をしているような環境を提供することができる。テレプレゼンスシステムは、国内及び海外における会社の拠点間のみではなく、会社と在宅又はシェアオフィスとの間でも、ネットワークを介して手軽に接続することができる。
また、会社に限らず、遠隔に居住する親子の家族間でも利用することができる。

【0004】

従来、例えば代表的なテレビ電話のSkype（登録商標）によれば、遠隔拠点のメンバの動向を共有するために、「在籍／離席」の状態を、相手側の端末のディスプレイに表示することができる。
また、作業中にディスプレイを見ていなくても、遠隔拠点のメンバの状況を知るために、その相手方の状況を合成音で伝える技術もある（例えば非特許文献４参照）。
更に、テレプレゼンスシステムを介して、相手方周辺の環境音や画像を常時送信することよって、互いの状況を共有する技術もある（例えば非特許文献２、３参照）。
更に、遠隔拠点間で互いに多様な環境音を認識し合う環境音認識装置の技術もある（例えば特許文献１参照）。

【先行技術文献】

【特許文献】

【0005】

【文献】特許第６０８５５３８号公報

【非特許文献】

【0006】

【文献】総務省編、「テレワークの動向と生産性に関する調査研究報告書，総務省情報通信国際戦略局(2010)」、[online]、［令和２年３月１０日検索］、インターネット＜URL:https://www.soumu.go.jp/johotsusintokei/linkdata/h22_06_houkoku.pdf＞

【文献】Telepresence: Integrating shared task and person spaces, W Buxton - Proceedings of graphics interface, 1992、[online]、［令和２年３月１０日検索］、インターネット＜URL:https://www.billbuxton.com/TelepShrdSpce.pdf＞

【文献】日本人間工学会大会講演集 406-407, 2009：テレワーク向け常時接続型音声会議システム

【文献】HRI 2018: Fribo: A Social Networking Robot for Increasing Social Connectedness through Sharing Daily Home Activities from Living Noise Data.、[online]、［令和２年３月１０日検索］、インターネット＜URL:https://yonsei.pure.elsevier.com/en/publications/fribo-a-social-networking-robot-for-increasing-social-connectedne＞

【文献】小野一穂、「マルチチャネルオーディオ」、[online]、［令和２年３月１０日検索］、インターネット＜URL:https://www.jstage.jst.go.jp/article/itej/68/8/68_604/_pdf/-char/ja＞

【発明の概要】

【発明が解決しようとする課題】

【0007】

しかしながら、既存のテレプレゼンスシステムやテレビ会議システムによれば、拠点毎に発生する全ての音声が相手方へ伝わる。そのために、相手方にとっては、耳障りな雑音も伝わり、喧しく感じる場合がある。また、プライバシの問題となる音声が伝わる場合もある。

【0008】

そこで、本発明は、拠点内で発生する音声の中で、相手方へ伝える必要が無い特定の音響信号を抑圧した環境音を送信する収音装置、システム、プログラム及び方法を提供することを目的とする。

【課題を解決するための手段】

【0009】

本発明によれば、マイクロフォンによって収音した環境音信号を、スピーカによって再生する再生装置へ送信する収音装置において、
音響タグが紐付けられた音響オブジェクトを蓄積する第１の音響データベースと、
除去すべき音響タグを登録する除去音響タグテーブルと、
第１の音響データベースを用いて、環境音信号に内在する１つ以上の音響オブジェクトを検出し、当該音響オブジェクトの音響タグを特定する音響オブジェクト検出エンジンと、
特定された各音響タグが、除去音響タグテーブルに登録されたものである場合、環境音信号から、当該音響タグに紐付く音響オブジェクトの音響信号部分を抑圧する音響オブジェクト抑圧手段と、
音響オブジェクトを除去した環境音信号を、再生装置へ送信する環境音送信手段と、
除去した音響オブジェクトに紐付く音響タグを、再生装置へ送信する音響タグ送信手段と
を有することを特徴とする。

【0010】

本発明の収音装置における他の実施形態によれば、
環境センサに接続されており、
環境センサは、音響タグに紐付いており、
音響オブジェクト抑圧手段は、環境センサから所定信号を受信した際に、環境音信号から、当該環境センサの音響タグに紐付く音響オブジェクトの音響信号部分を除去する
ことも好ましい。

【0011】

本発明の収音装置における他の実施形態によれば、
カメラに接続されており、
音響タグが紐付けられた画像オブジェクトを蓄積する画像データベースと、
画像データベースを用いて、カメラによって撮影された映像に内在する１つ以上の画像オブジェクトを検出し、当該画像オブジェクトの音響タグを特定する画像オブジェクト検出エンジンと
を更に有し、
音響オブジェクト抑圧手段は、環境音信号から、画像オブジェクト検出エンジンによって特定された音響タグに紐付く音響オブジェクトの音響信号部分を除去する
ことも好ましい。

【0012】

本発明によれば、前述した収音装置と、当該収音装置から受信した環境音信号を再生する再生装置とを有するシステムにおいて、
再生装置は、
音響タグが紐付けられた音響オブジェクトを蓄積する第２の音響データベースと、
第２の音響データベースを用いて、音響タグに紐付く音響オブジェクトを、環境音信号に混合する音響オブジェクト混合手段と、
を有し、音響オブジェクトを混合した環境音信号をスピーカによって再生することを特徴とする。

【0013】

本発明のシステムにおける他の実施形態によれば、
再生装置の第２の音響データベースに蓄積された音響タグ及び音響オブジェクトは、収音装置の第１の音響データベースに蓄積された音響タグ及び音響オブジェクトの一部又は全部であり、
再生装置の第２の音響データベースに蓄積された音響タグと、収音装置の第１の音響データベースに蓄積された音響タグとが同一であっても、異なる音響信号に基づく音響オブジェクトである
ことも好ましい。

【0014】

本発明のシステムにおける他の実施形態によれば、
複数の収音装置と、１つの再生装置とがネットワークを介して接続されており、
収音装置毎に異なる拠点に配置され、再生装置は、異なる拠点の環境音信号を同時に再生する
ことも好ましい。

【0015】

本発明のシステムにおける他の実施形態によれば、
再生装置は、複数の収音装置それぞれから受信した環境音信号を、収音装置毎に異なる到来方向から当該環境音信号が再生されるように複数のスピーカから出力する音響信号を制御する
ことも好ましい。

【0016】

本発明のシステムにおける他の実施形態によれば、
収音装置は、カメラによって撮影された映像を再生装置へ送信し、
再生装置は、収音装置毎に受信した映像それぞれを区分してディスプレイによって再生し、
再生装置は、収音装置毎の映像が映るディスプレイの位置から、当該収音装置の環境音が到来するように当該環境音信号が再生される
ことも好ましい。

【0017】

本発明によれば、マイクロフォンによって収音した環境音信号を、スピーカから再生する再生装置へ送信する収音装置において、
音響タグが紐付けられた音響オブジェクトを蓄積する第１の音響データベースと、
除去すべき音響タグを登録する除去音響タグテーブルと、
第１の音響データベースと同一の音響タグであっても、異なる音響オブジェクトを蓄積する第２の音響データベースと、
第１の音響データベースを用いて、環境音信号に内在する１つ以上の音響オブジェクトを検出し、当該音響オブジェクトの音響タグを特定する音響オブジェクト検出エンジンと、
特定された各音響タグが、除去音響タグテーブルに登録されたものである場合、環境音信号から、当該音響タグに紐付く音響オブジェクトの音響信号部分を抑圧する音響オブジェクト抑圧手段と、
第２の音響データベースを用いて、音響タグに紐付く音響オブジェクトを、環境音信号に混合する音響オブジェクト混合手段と
音響オブジェクトを混合した環境音信号を、再生装置へ送信する環境音送信手段と、
を有することを特徴とする。

【0018】

本発明によれば、マイクロフォンによって収音した環境音信号を、スピーカによって再生する再生装置へ送信する収音装置に搭載されたコンピュータを機能させるプログラムにおいて、
音響タグが紐付けられた音響オブジェクトを蓄積する第１の音響データベースと、
除去すべき音響タグを登録する除去音響タグテーブルと、
第１の音響データベースを用いて、環境音信号に内在する１つ以上の音響オブジェクトを検出し、当該音響オブジェクトの音響タグを特定する音響オブジェクト検出エンジンと、
特定された各音響タグが、除去音響タグテーブルに登録されたものである場合、環境音信号から、当該音響タグに紐付く音響オブジェクトの音響信号部分を抑圧する音響オブジェクト抑圧手段と、
音響オブジェクトを除去した環境音信号を、再生装置へ送信する環境音送信手段と、
除去した音響オブジェクトに紐付く音響タグを、再生装置へ送信する音響タグ送信手段と
してコンピュータを機能させることを特徴とする。

【0019】

本発明によれば、マイクロフォンによって収音した環境音信号を、スピーカから再生する再生装置へ送信する収音装置に搭載されたコンピュータを機能させるプログラムにおいて、
音響タグが紐付けられた音響オブジェクトを蓄積する第１の音響データベースと、
除去すべき音響タグを登録する除去音響タグテーブルと、
第１の音響データベースと同一の音響タグであっても、異なる音響オブジェクトを蓄積する第２の音響データベースと、
第１の音響データベースを用いて、環境音信号に内在する１つ以上の音響オブジェクトを検出し、当該音響オブジェクトの音響タグを特定する音響オブジェクト検出エンジンと、
特定された各音響タグが、除去音響タグテーブルに登録されたものである場合、環境音信号から、当該音響タグに紐付く音響オブジェクトの音響信号部分を抑圧する音響オブジェクト抑圧手段と、
第２の音響データベースを用いて、音響タグに紐付く音響オブジェクトを、環境音信号に混合する音響オブジェクト混合手段と
音響オブジェクトを混合した環境音信号を、再生装置へ送信する環境音送信手段と、
してコンピュータを機能させることを特徴とする。

【0020】

本発明によれば、マイクロフォンによって収音した環境音信号を、スピーカによって再生する再生装置へ送信する収音装置の収音再生方法において、
収音装置は、
音響タグが紐付けられた音響オブジェクトを蓄積する第１の音響データベースと、
除去すべき音響タグを登録する除去音響タグテーブルと
を有し、
第１の音響データベースを用いて、環境音信号に内在する１つ以上の音響オブジェクトを検出し、当該音響オブジェクトの音響タグを特定する第１のステップと、
特定された各音響タグが、除去音響タグテーブルに登録されたものである場合、環境音信号から、当該音響タグに紐付く音響オブジェクトの音響信号部分を除去する第２のステップと、
音響オブジェクトを除去した環境音信号を、再生装置へ送信すると共に、除去した音響オブジェクトに紐付く音響タグを、再生装置へ送信する第３のステップと
を実行することを特徴とする。

【0021】

本発明の収音再生方法における他の実施形態によれば、
再生装置は、
音響タグが紐付けられた音響オブジェクトを蓄積する第２の音響データベースを有し、
第２の音響データベースを用いて、音響タグに紐付く音響オブジェクトを、環境音信号に混合する第４のステップと、
音響オブジェクトを混合した環境音信号をスピーカによって再生する第５のステップと
を実行することも好ましい。

【0022】

本発明によれば、マイクロフォンによって収音した環境音信号を、スピーカから再生する再生装置へ送信する収音装置の収音再生方法において、
収音装置は、
音響タグが紐付けられた音響オブジェクトを蓄積する第１の音響データベースと、
除去すべき音響タグを登録する除去音響タグテーブルと、
第１の音響データベースと同一の音響タグであっても、異なる音響オブジェクトを蓄積する第２の音響データベースと
を有し、
第１の音響データベースを用いて、環境音信号に内在する１つ以上の音響オブジェクトを検出し、当該音響オブジェクトの音響タグを特定する第１のステップと、
特定された各音響タグが、除去音響タグテーブルに登録されたものである場合、環境音信号から、当該音響タグに紐付く音響オブジェクトの音響信号部分を除去する第２のステップと、
第２の音響データベースを用いて、音響タグに紐付く音響オブジェクトを、環境音信号に混合する第３のステップと、
音響オブジェクトを混合した環境音信号を、再生装置へ送信する第４のステップと
を実行することを特徴とする。

【発明の効果】

【0023】

本発明の収音装置、システム、プログラム及び方法によれば、拠点内で発生する音声の中で、相手方へ伝える必要が無い特定の音響信号を抑圧した環境音を送信することができる。耳障りな雑音を抑圧すると共に、プライバシの問題の音声を除去する一方で、相手方にはどのような環境音が除去されたのかを伝えることができる。これによって、遠隔の異なる拠点に滞在するメンバ同士であっても、快適な環境音の中で、互いの状況を共有することができる。

【図面の簡単な説明】

【0024】

【図1】本発明における収音装置及び再生装置の機能構成図である。

【図2】音響オブジェクトを検出する説明図である。

【図3】音響オブジェクトを抑圧する説明図である。

【図4】環境音送信部及び音響タグ送信部の説明図である。

【図5】音響オブジェクトを混合する説明図である。

【図6】環境センサに接続された収音装置の機能構成図である。

【図7】カメラによって撮影された画像から音響オブジェクトを抑圧する収音装置の機能構成図である。

【図8】音響オブジェクト抑圧部及び音響オブジェクト混合部を有する収音装置の機能構成図である。

【図9】複数の収音装置から環境音を受信する再生装置の機能構成図である。

【発明を実施するための形態】

【0025】

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

【0026】

図１は、本発明における収音装置及び再生装置の機能構成図である。

【0027】

本発明のシステムは、ネットワークを介して収音装置１と再生装置２とが接続されている。
図１によれば、収音装置１は、マイクロフォン１０１によって収音した環境音信号から特定の音響信号を抑圧し、その環境音信号を再生装置２へ送信する。また、カメラ１０２によって撮影した映像も、再生装置２へ同時に送信する。
再生装置２は、収音装置１から受信した環境音を、スピーカ２０１から再生する。また、再生装置２は、受信した環境音の中で、どのような音響信号が抑圧されたのか、を認識することができ、その抑圧された音響信号をユーザに明示することもできる。更に、受信した環境音に、抑圧された音響信号と異なる他の音響信号を混合し、新たな環境音でスピーカ２０１から再生することもできる。

【0028】

＜収音装置１＞
図１によれば、収音装置１は、第１の音響データベース１１と、除去音響タグテーブル１２と、音響オブジェクト検出エンジン１３と、音響オブジェクト抑圧部１４と、環境音送信部１５と、環境タグ送信部１６と、映像送信部１７とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。また、これら機能構成部の処理の流れは、収音送信方法としても理解できる。

【0029】

図２は、音響オブジェクトを検出する説明図である。

【0030】

［第１の音響データベース１１］
第１の音響データベース１１は、音響タグが紐付けられた音響オブジェクト（音オブジェクト）を蓄積したものである。
音響タグ<->音響オブジェクト
「音響タグ」は、音響オブジェクトを特定するための識別子である。
「音響オブジェクト」は、音響信号そのものに限らず、時系列の周波数スペクトルのような音響的特徴量の標準パターンのようなものであってもよい。音響信号については、例えばITU-R 勧告BS.2051「番組制作における高度音響システム」のような規格に準拠した音響信号を用いてもよい。

【0031】

［除去音響タグテーブル１２］
除去音響タグテーブル１２は、除去すべき音響タグを登録したものである。
例えば、プリンタやドア開閉音のような雑音を除去したい場合、それら音響オブジェクトに紐付けられた音響タグが登録される。また、例えば、人の声のプライバシを除去したい場合、それらの音響オブジェクトに紐付けられた音響タグが登録される。

【0032】

［音響オブジェクト検出エンジン１３］
音響オブジェクト検出エンジン１３は、第１の音響データベース１１を用いて、環境音信号に内在する１つ以上の音響オブジェクトを検出し、当該音響オブジェクトの音響タグを特定する。特定された音響タグは、音響オブジェクト抑圧部１４へ出力される。

【0033】

音響オブジェクト検出エンジン１３は、メル周波数ケプストラム係数（ＭＦＣＣ）を特徴量とし抽出し、深層学習に基づくニューラルネットワークを用いて音響オブジェクトを識別する（例えば非特許文献３、４参照）。これは、制約付きボルツマンマシン（ＲＢＭ）に基づく自己符号化器によって事前学習された隠れ層を積み重ねて、多層の階層ネットワークを構築し、最終層の出力を使った識別ネットワークを追加して、全体として教師あり学習によって音響タグを検出している。

【0034】

図２によれば、マイクロフォン１０１によって収音された環境音信号が、音響オブジェクト検出エンジン１３に入力されている。この環境音信号には、例えば以下のような様々な音響が混在している。
「ブーンッガシャッキー」
「山本さん、おはよう」
「ギー」
「伊藤さんに昨日会ったよ～」
「ピンポン」
「カタカタカタ」
そして、音響オブジェクト検出エンジン１３は、例えば以下のように音響オブジェクト及び音響タグを検出する。
音響タグ101（チャイム音）
音響タグ167（プリンタ音）
音響タグ239（キーボードの打鍵音）
音響タグ143（人名「山本さん」）
音響タグ52 （人名「伊藤さん」）

【0035】

［音響オブジェクト抑圧部１４］
音響オブジェクト抑圧部１４は、特定された各音響タグが、除去音響タグテーブル１２に登録されたものである場合、環境音信号から、当該音響タグに紐付く音響オブジェクトを抑圧する。

【0036】

図３は、音響オブジェクトを抑圧する説明図である。
図３によれば、除去音響タグテーブル１２には、例えば以下の音響タグが登録されているとする。
音響タグ101（チャイム音）
音響タグ167（プリンタ音）
音響タグ52 （人名「伊藤さん」）
この場合、音響オブジェクト抑圧部１４は、環境音信号から、これら音響タグに紐付く音響オブジェクトを、周波数的に抑圧する。

【0037】

尚、他の実施形態として、音響タグに基づく音響オブジェクトを単に抑圧するのみでなく、音響タグに基づく音響オブジェクトの音響レベルが所定閾値以上となった場合にのみ、その音響オブジェクトを抑圧するものであってもよい。
例えば、前述した実施形態によれば、人名「山本さん」「伊藤さん」それぞれに付与された音響タグに基づく音響オブジェクトを抑圧するように説明したが、人声の周波数に基づく音響オブジェクトを抑圧するものであってもよい。

【0038】

図４は、環境音送信部及び音響タグ送信部の説明図である。

【0039】

［環境音送信部１５］
環境音送信部１５は、特定の音響オブジェクトを抑圧した環境音信号を、再生装置２へ送信する。これによって、再生装置２は、特定の雑音やプライバシ音声が除去された環境音を再生することができる。

【0040】

図４によれば、例えば以下のような環境音が送信される。
「山本さん、おはよう」
「ギー」
「・・・に昨日会ったよ～」
「カタカタカタ」
このように、例えばプリンタの雑音のような「ブーンッガシャッキー」「ピンポン」や、プライベートの音声のような「伊藤さん」が抑圧される。

【0041】

［環境タグ送信部１６］
環境タグ送信部１６は、抑圧された音響オブジェクトに紐付く音響タグを、再生装置２へ送信する。これによって、再生装置２は、受信した環境音信号について、その音響タグに紐付く音響オブジェクトが抑圧されていることを認識する。

【0042】

図４によれば、例えば以下のような音響タグが送信される。
音響タグ101（チャイム音）
音響タグ167（プリンタ音）
音響タグ52 （人名「伊藤さん」）
尚、音響タグに基づく音響オブジェクトが挿入されていた時刻も、環境音に同期して送信する。環境音を再生する際に、音響オブジェクトの挿入時刻を特定するためである。

【0043】

［映像送信部１７］
映像送信部１７は、カメラ１０２によって撮影された映像を、再生装置２へ送信する。相手方の拠点と映像も共有して認識することが好ましい。

【0044】

＜再生装置２＞
図１によれば、再生装置２は、第２の音響データベース２１と、音響オブジェクト混合部２２と、映像再生部２３とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。また、これら機能構成部の処理の流れは、受信再生方法としても理解できる。

【0045】

［第２の音響データベース２１］
第２の音響データベース２１は、音響タグが紐付けられた音響オブジェクトを蓄積する。

【0046】

第２の音響データベース２１に蓄積された音響タグ及び音響オブジェクトは、収音装置１の第１の音響データベース１１に蓄積された音響タグ及び音響オブジェクトの一部又は全部であってもよい。
例えば、第１の音響データベース１１に蓄積された音響タグ及び音響オブジェクトが、第２の音響データベース２１に蓄積されていない場合、その音響オブジェクトは抑圧されたままの環境音が再生される。
一方で、第１の音響データベース１１に蓄積された音響タグ及び音響オブジェクトが、第２の音響データベース２１にも蓄積されている場合、第２の音響データベース２１の音響オブジェクトによって混合された環境音が再生される。即ち、第２の音響データベース２１に蓄積された音響タグと、収音装置１の第１の音響データベース１１に蓄積された音響タグとが、異なる音響信号に基づく音響オブジェクトである場合、第２の音響データベース２１の音響オブジェクトによって変換された環境音が再生される。

【0047】

［音響オブジェクト混合部２２］
音響オブジェクト混合部２２は、第２の音響データベース２１を用いて、音響タグに紐付く音響オブジェクトを、環境音信号に混合する。混合した環境音信号は、スピーカ２０１へ出力される。

【0048】

図５は、音響オブジェクトを混合する説明図である。

【0049】

図５によれば、音響オブジェクト混合部２２は、収音装置１から、環境音信号と、抑圧された音響タグとを受信する。そして、第２の音響データベース２１を用いて、受信した音響タグをキーとして、音響オブジェクトを検索する。図５によれば、以下のように検索される。
音響タグ101<->「リーン」
音響タグ52 <->「ピポパ」
音響タグ101は、第１の音響データベース１１では「ピンポン」であったものが、第２の音響データベース２１では擬似音声「リーン」となっている。
音響タグ52は、第１の音響データベース１１では「伊藤さん」であったものが、第２の音響データベース２１では擬似音声「ピポパ」となっている。
ここで、音響タグ167は、第２の音響データベース２１では検索されない。これは、第１の音響データベースにおける「ブーンッガシャッキー」は抑圧されたままとなることを意味する。特に耳障りな雑音については、環境音から消音（除去）するのみでよい。

【0050】

図５によれば、例えば以下のような音響オブジェクトを混合した環境音が再生される。
「山本さん、おはよう」
「ギー」
「ピポパに昨日会ったよ～」
「リーン」
「カタカタカタ」

【0051】

［映像再生部２３］
映像再生部２３は、収音装置１から受信した映像を、ディスプレイ２０２へ出力する。相手方の拠点と映像も共有して認識することが好ましい。

【0052】

図６は、環境センサに接続された収音装置の機能構成図である。

【0053】

図６によれば、収音装置１は、環境センサ１８に接続されており、ON/OFF信号を受信する。環境センサとしては、例えばドア開閉センサのようなものであってもよい。環境センサは、いずれか１つの音響タグに紐付いている。環境センサのON/OFF信号は、音響オブジェクト抑圧部１４へ入力される。

【0054】

音響オブジェクト抑圧部１４は、環境センサ１８から所定信号を受信した際に、環境音信号から、当該環境センサの音響タグに紐付く音響オブジェクトの音響信号部分を抑圧する。これによって、例えばドア開閉音のような雑音を、環境音から抑圧することができる。

【0055】

図７は、カメラによって撮影された画像から音響オブジェクトを抑圧する収音装置の機能構成図である。

【0056】

図７によれば、収音装置１は、カメラによって撮影された画像を入力する。
また、図７によれば、収音装置１は、画像データベース１９０及び画像オブジェクト検出エンジン１９１を更に有する。

【0057】

［画像データベース１９０］
画像データベース１９０は、音響タグが紐付けられた画像オブジェクトを蓄積する。

【0058】

［画像オブジェクト検出エンジン１９１］
画像オブジェクト検出エンジン１９１は、画像データベース１９０を用いて、カメラによって撮影された映像に内在する１つ以上の画像オブジェクトを検出し、当該画像オブジェクトの音響タグを特定する。特定された音響タグは、音響オブジェクト抑圧部１４へ出力される。

【0059】

具体的には、画像オブジェクト検出エンジン１９１は、入力された画像又は映像から、物体（画像オブジェクト）を枠（バウンディングボックス）で囲み、その物体の種別（カテゴリ）を識別する。これは、例えばＳＳＤ(Single Shot Multibox Detector)のようなものであってもよい。ＳＳＤは、画像をグリッドで分割し、各グリッドに対して固定された複数のバウンディングボックスの当てはまり具合から、その位置のバウンディングボックスを検知する。そのバウンディングボックスには、１つの画像オブジェクトが収まる。
また、画像オブジェクト検出エンジン１９１としては、例えばＲＧＢ認識に基づくＣＮＮ(Convolutional Neural Network)のようなニューラルネットワークであって、ＹＯＬＯ(You Only Look Once)（登録商標）のようなものであってもよい。

【0060】

音響オブジェクト抑圧部１４は、画像オブジェクト検出エンジン１９１から音響タグを受信した際に、環境音信号から、当該環境センサの音響タグに紐付く音響オブジェクトの音響信号部分を抑圧する。これによって、例えばドアの開閉が映像に映り込んだ際に、その開閉音のような雑音を、環境音から抑圧することができる。

【0061】

図８は、音響オブジェクト抑圧部及び音響オブジェクト混合部を有する収音装置の機能構成図である。

【0062】

図８によれば、図１における収音装置１及び再生装置２を組み合わせたものである。この場合、収音装置１は、音響オブジェクト抑圧部１４によって特定の音響オブジェクトが抑圧された環境音に、音響オブジェクト混合部２２によって他の特定の音響オブジェクトが混合される。図１の場合に再生装置２によって混合される環境音が、図８の場合に収音装置１から送信される。

【0063】

図９は、複数の収音装置から環境音を受信する再生装置の機能構成図である。

【0064】

図９によれば、複数の収音装置１と、１つの再生装置２とがネットワークを介して接続されている。各収音装置１は異なる拠点に配置され、再生装置２は、異なる拠点の環境音信号を同時に再生する。
再生装置２は、ディスプレイを配置し、収音装置１毎に受信した映像それぞれを区分して表示するものであってもよい。そして、再生装置２は、複数の収音装置それぞれから受信した環境音を、収音装置毎に異なる到来方向から当該環境音信号が再生されるように複数のスピーカから出力する音響信号を制御するべく、環境音合成部２４を備える。再生装置２から環境音を聴音しているユーザは、収音装置毎の映像が映るディスプレイの表示位置から、当該収音装置の環境音が到来するように当該環境音信号が聞こえる。
これには、マルチチャネル音響の技術が用いられる（例えば非特許文献５参照）。この技術によれば、配置された各ディスプレイの位置を基準に、方向の異なる複数のチャネルを設置し、各チャネルが音の到来方向と１対１に対応するようにする。これによって、スピーカのない位置にディスプレイが配置されても、ユーザは、その方向から音が到来しているように聞こえる。

【0065】

以上、詳細に説明したように、本発明の収音装置、システム、プログラム及び方法によれば、拠点内で発生する音声の中で、相手方へ伝える必要が無い特定の音響信号を抑圧した環境音を送信することができる。耳障りな雑音を抑圧すると共に、プライバシの問題の音声を除去する一方で、相手方にはどのような環境音が除去されたのかを伝えることができる。これによって、遠隔の異なる拠点に滞在するメンバ同士であっても、快適な環境音の中で、互いの状況を共有することができる。

【0066】

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

【符号の説明】

【0067】

１収音装置
１０１マイクロフォン
１０２カメラ
１１第１の音響データベース
１２除去音響タグテーブル
１３音響オブジェクト検出エンジン
１４音響オブジェクト抑圧部
１５環境音送信部
１６環境タグ送信部
１７映像送信部
１８環境センサ
１９０画像データベース
１９１画像オブジェクト検出エンジン
２再生装置
２０１スピーカ
２０２ディスプレイ
２１第２の音響データベース
２２音響オブジェクト混合部
２３映像再生部
２４環境音合成部

【図1】