(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023027486
(43)【公開日】2023-03-02
(54)【発明の名称】通信装置、通信システム、通信方法、及びプログラム
(51)【国際特許分類】
H04B 3/20 20060101AFI20230222BHJP
H04M 1/58 20060101ALI20230222BHJP
H04M 1/00 20060101ALI20230222BHJP
【FI】
H04B3/20
H04M1/58 Z
H04M1/00 H
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2021132597
(22)【出願日】2021-08-17
(71)【出願人】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】浪江 健史
【テーマコード(参考)】
5K046
5K127
【Fターム(参考)】
5K046AA01
5K046AA05
5K046HH01
5K046HH55
5K046HH61
5K046HH79
5K127AA03
5K127BA17
5K127BB16
5K127JA02
5K127JA04
5K127MA02
5K127MA03
5K127MA06
5K127MA31
5K127MA35
(57)【要約】
【課題】他の通信装置と音声を含むコンテンツデータを送受信する通信装置において、エコー音声を除去する際に、マイクが取得したユーザの音声に与える影響、及び影響の時間的変化を低減する。
【解決手段】通信装置は、他の通信装置と音声を含むコンテンツデータを送受信する通信装置であって、音声を取得する音声取得部と、前記音声を音声周波数と音量で表す第1の音声データを生成する第1の生成部と、前記第1の音声データの周波数を所定の周波数シフトした第2の音声データを生成する第2の生成部と、前記所定の周波数に基づいて、前記第2の音声データの音量を周波数に対して櫛歯状に削減、又は削除した第3の音声データを生成する第3の生成部と、を有する。
【選択図】
図3
【特許請求の範囲】
【請求項1】
他の通信装置と音声を含むコンテンツデータを送受信する通信装置であって、
音声を取得する音声取得部と、
前記音声を音声周波数と音量で表す第1の音声データを生成する第1の生成部と、
前記第1の音声データの周波数を所定の周波数シフトした第2の音声データを生成する第2の生成部と、
前記所定の周波数に基づいて、前記第2の音声データの音量を周波数に対して櫛歯状に削減、又は削除した第3の音声データを生成する第3の生成部と、
を有する、通信装置。
【請求項2】
前記第3の生成部は、前記第2の音声データを前記所定の周波数ごとの複数の周波数帯域に分割して周波数順に並べたときに、奇数番目となる周波数帯域、又は偶数番目となる周波数帯域の音量を下げる、又は無音にする請求項1に記載の通信装置。
【請求項3】
前記第3の生成部が生成した前記第3の音声データを通信用のデータに変換した第1のコンテンツデータを前記他の通信装置へ送信する送信部と、
前記他の通信装置が生成した前記第3の音声データを前記通信用のデータに変換した第2のコンテンツデータを前記他の通信装置から受信する受信部と、
前記第2のコンテンツデータに基づいて音声を出力する音声出力部と、
を有する、請求項1又は2に記載の通信装置。
【請求項4】
前記第2の生成部が生成した前記第2の音声データを通信用のデータに変換した第1のコンテンツデータを前記他の通信装置へ送信する送信部と、
前記他の通信装置が生成した前記第2の音声データを前記通信用のデータに変換した第2のコンテンツデータを前記他の通信装置から受信する受信部と、
前記第2のコンテンツデータに含まれる音声を音声周波数と音量で表す第4の音声データを生成する第4の生成部と、
前記第3の生成部が、前記第4の音声データを用いて生成した前記第3の音声データに基づいて音声を出力する音声出力部と、
を有する、請求項1又は2に記載の通信装置。
【請求項5】
前記通信装置は、画像と音声とを含むコンテンツデータを1つ以上の他の通信装置と送受信する会議装置である、請求項1乃至4のいずれか一項に記載の通信装置。
【請求項6】
複数の通信装置が音声を含むコンテンツデータを送受信する通信システムであって、
音声を音声周波数と音量で表す第1の音声データを生成する第1の生成部と、
前記第1の音声データの周波数を所定の周波数シフトした第2の音声データを生成する第2の生成部と、
前記所定の周波数に基づいて、前記第2の音声データの音量を周波数に対して櫛歯状に削減、又は削除した第3の音声データを生成する第3の生成部と、
を有する、通信システム。
【請求項7】
前記複数の通信装置は、通信サーバを介して前記コンテンツデータを送受信し、
前記通信サーバは、前記第1の生成部、前記第2の生成部、及び前記第3の生成部のうち、少なくとも1つを有する、
請求項6に記載の通信システム。
【請求項8】
前記通信システムは、前記複数の通信装置が画像と音声とを含むコンテンツデータを相互に送受信する会議システムである、請求項6又は7に記載の通信システム。
【請求項9】
他の通信装置と音声を含むコンテンツデータを送受信する通信装置が、
音声を音声周波数と音量で表す第1の音声データを生成する処理と、
前記第1の音声データの周波数を所定の周波数シフトした第2の音声データを生成する処理と、
前記所定の周波数に基づいて、前記第2の音声データの音量を周波数に対して櫛歯状に削減、又は削除した第3の音声データを生成する処理と、
を実行する、通信方法。
【請求項10】
請求項9に記載の通信方法を通信装置に実行させる、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、通信装置、通信システム、通信方法、及びプログラムに関する。
【背景技術】
【0002】
複数の通信装置が、音声を含むコンテンツを送受信する通信システムにおいて、音声エコーをキャンセルするエコーキャンセラが知られている。
【0003】
例えば、スピーカ側とマイク側のクロックのずれを検出し、そのずれに基づいて、スピーカ側の周波数信号、又はマイク側の周波数信号の周波数をシフトすることにより、効果的にエコーを抑圧するエコーキャンセラが知られている(例えば、特許文献1参照)。
【発明の概要】
【発明が解決しようとする課題】
【0004】
例えば、特許文献1に示されるような従来のエコーキャンセラは、マイクが取得した入力音声から、スピーカが出力したエコー音声を除去する際に、マイクが取得したユーザの音声に影響を与え、また、その影響が時間的に変化するという問題がある。
【0005】
本発明の一実施形態は、上記の問題点に鑑みてなされたものであって、他の通信装置と音声を含むコンテンツデータを送受信する通信装置において、エコー音声を除去する際に、マイクが取得したユーザの音声に与える影響、及び影響の時間的変化を低減する。
【課題を解決するための手段】
【0006】
上記の課題を解決するため、本発明の一実施形態に係る通信装置は、他の通信装置と音声を含むコンテンツデータを送受信する通信装置であって、音声を取得する音声取得部と、前記音声を音声周波数と音量で表す第1の音声データを生成する第1の生成部と、前記第1の音声データの周波数を所定の周波数シフトした第2の音声データを生成する第2の生成部と、前記所定の周波数に基づいて、前記第2の音声データの音量を周波数に対して櫛歯状に削減、又は削除した第3の音声データを生成する第3の生成部と、を有する。
【発明の効果】
【0007】
本発明の一実施形態によれば、他の通信装置と音声を含むコンテンツデータを送受信する通信装置において、エコー音声を除去する際に、マイクが取得したユーザの音声に与える影響、及び影響の時間的変化を低減することができる。
【図面の簡単な説明】
【0008】
【
図1】第1の実施形態に係る通信システムのシステム構成の例を示す図である。
【
図2】第1の実施形態に係る通信装置のハードウェア構成の例を示す図である。
【
図3】第1の実施形態に係る通信装置の機能構成の例を示す図である。
【
図4】第1の実施形態に係る第1の音声データについて説明するための図である。
【
図5】第1の実施形態に係る第2の音声データについて説明するための図である。
【
図6】第1の実施形態に係る第3の音声データについて説明するための図(1)である。
【
図7】第1の実施形態に係る第3の音声データについて説明するための図(2)である。
【
図8】第1の実施形態に係る第3の音声データについて説明するための図(3)である。
【
図9】第1の実施形態に係る通信装置の処理の例を示すフローチャートである。
【
図10】第2の実施形態に係る通信装置の機能構成の例を示す図である。
【
図11】第2の実施形態に係る通信装置の処理の例を示すフローチャートである。
【
図12】第3の実施形態に係る通信システムのシステム構成の例を示す図である。
【
図13】第3の実施形態に係るコンピュータのハードウェア構成の例を示す図である。
【
図14】第3の実施形態に係る通信サーバの機能構成の例を示す図である。
【
図15】第3の実施形態に係る通信システムの処理の例を示すシーケンス図である。
【発明を実施するための形態】
【0009】
以下、本発明の実施形態について、図面を参照しながら詳細に説明する。
【0010】
[第1の実施形態]
<システム構成>
図1は、第1の実施形態に係る通信システムのシステム構成の例を示す図である。通信システム1は、通信装置100aが、通信回線10を介して、他の通信装置100bと音声を含むコンテンツデータを送受信するシステムである。コンテンツデータには、音声に加えて、例えば、動画像、静止画像、又はテキスト等のデータが含まれていても良いが、ここでは、説明を容易にするため、コンテンツデータが音声データであるものとして、以下の説明を行う。
【0011】
なお、通信装置100aと、他の通信装置100bは、同じ通信装置であるものとする。また、以下の説明において、通信装置100a、100bのうち、任意の通信装置を示す場合、「通信装置100」を用いる。
【0012】
図1において、通信装置100aは、通信装置100aが備えるマイク101aで取得した音声(例えば、通信装置100aを利用するユーザの音声等)を音声データに変換し、通信回線10を介して、他の通信装置100bへ送信する。
【0013】
他の通信装置100bは、通信回線10を介して、通信装置100aから受信した音声データに基づいて、他の通信装置100bが備えるスピーカ102bから音声Aを出力する。また、他の通信装置100bは、通信装置100aと同様に、他の通信装置100bが備えるマイク101bで取得した音声Bを音声データに変換し、通信回線10を介して、通信装置100aへ送信する。
【0014】
このとき、マイク101bが取得した入力音声には、他の通信装置100bを利用するユーザの音声Bに加えて、スピーカ102bが出力した音声Aを、マイク101bが取得した音声103が含まれる。この音声103を、そのまま通信装置100aへ送ってしまうと、通信装置100aが出力する音声Bに、音声Aが遅延した音声103が加わる音声エコーが発生する。この音声エコーは、ユーザに不快感を与えるだけではなく、ハウリングの原因となる場合がある。
【0015】
そのため、例えば、特許文献1に示すような従来の技術では、音声Bだけを通信装置100aに送信できるように、マイク101bが取得した入力音声から、音声103を除去するエコーキャンセラを搭載している。しかし、従来のエコーキャンセラは、マイク101bが取得した入力音声から、スピーカ102bが出力した音声103を除去する際に、マイク101bが取得したユーザの音声Bに影響を与え、また、その影響が時間的に変化するという問題がある。そのため、従来のエコーキャンセラでは、通信装置100aが出力する音声Bが、不自然な音になるとともに、その不自然さが時間と共に変化し、ユーザに不快感を与えていた。
【0016】
そこで、本実施形態に係る通信装置100は、エコー音声を除去するとともに、エコー音声を除去する際に、マイクが取得したユーザの音声に与える影響、及び影響の時間的変化を低減する機能を有している。
【0017】
<ハードウェア構成>
図2は、第1の実施形態に係る通信装置のハードウェア構成の例を示す図である。通信装置100は、一例として、
図2に示すように、ADC(Analog to Digital Converter)201、信号処理ユニット202、コーデック203、通信回路204、及びDAC(Digital to Analog Converter)205、マイク101、及びスピーカ102等を備える。
【0018】
ADC201は、マイク101から出力される音声信号(アナログ信号)をデジタル信号に変換する回路、又はデバイスである。なお、ADC201は、信号処理ユニット202に含まれていても良い。
【0019】
信号処理ユニット202は、デジタル音声信号を処理する回路、デバイス、又はコンピュータである。一例として、信号処理ユニット202は、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、又はFPGA(Field Programmable Gate Array)等によって実現される。別の一例として、信号処理ユニット202は、上記のDSP、ASIC、又はFPGA等に代えて(又は加えて)、CPU(Central Processing Unit)、メモリ、及びストレージデバイス等で構成されるコンピュータと、コンピュータが実行するプログラム等によって実現されるものであっても良い。
【0020】
コーデック203は、信号処理ユニット202が処理した音声データを符号化して通信用のデータに変換するエンコーダ211、及び通信用のデータを復号して音声データに変換するデコーダ212を含むデバイス、又はコンピュータが実行するプログラム等である。なお、コーデックは、信号処理ユニット202に含まれていても良い。
【0021】
通信回路204は、通信回線10を介して、他の通信装置100と通信するための回路、デバイス、又はモジュール等である。本実施形態では、通信回路204は、無線通信を行うものであっても良いし、有線通信を行うものであっても良い。また、通信回路204が、他の通信装置100と通信する通信方式は、任意の通信方式であって良い。
【0022】
なお、
図2に示した、通信装置100のハードウェア構成は一例であり、通信装置100は、全体を制御するコンピュータ、カメラ、表示デバイス、入力デバイス等をさらに有していても良い。
【0023】
<機能構成>
図3は、第1の実施形態に係る通信装置の機能構成の例を示す図である。本実施形態に係る通信装置100は、例えば、音声取得部301、第1の生成部302、第2の生成部303、第3の生成部304、送信部305、受信部306、及び音声出力部307等の機能構成を有している。上記の各機能構成は、例えば、ハードウェア、コンピュータが実行するプログラム、又はハードウェアとコンピュータが実行するプログラムとの組み合わせによって実現される。
【0024】
音声取得部301は、例えば、
図2のマイク101、及びADC201等によって実現され、通信装置100の周辺の音声(例えば、ユーザの音声等)を取得する。例えば、音声取得部301は、マイク101が出力するアナログの音声信号を、ADC201でデジタルの音声信号に変換する。
【0025】
第1の生成部302は、音声取得部301が取得した音声を音声周波数と音量で表す、例えば、
図4に示すような第1の音声データ401を生成する。
図4の横軸は周波数、縦軸は音量(又は音圧レベル、振幅等)を示しており、第1の音声データ401は、各周波数における音声の音量を示している。
【0026】
第2の生成部303は、第1の生成部302が生成した第1の音声データ401を、所定の周波数シフトした、例えば、
図5に示すような第2の音声データ501を生成する。
図5の例では、
図4に示した第1の音声データ401を、所定の周波数fだけ、周波数を高くシフトした第2の音声データ501を示している。なお、第2の生成部303は、第1の音声データ401を、所定の周波数fだけ、周波数を低くシフトして第2の音声データ501を作成しても良い。
【0027】
第3の生成部304は、上述した所定の周波数fに基づいて、第2の音声データ501の音量を櫛歯状に削減、又は削除した、例えば、
図6に示すような第3の音声データ601を生成する。この第3の音声データ601は、例えば、
図7に示すように、第2の音声データ501を、所定の周波数fごとの複数の周波数帯域701に分割して、例えば、1、2、3、・・・と周波数順に並べたときに、偶数番目(2、4、6、・・・)となる周波数帯域の音量を無音としたものである。なお、これに限られず、第3の音声データ601は、奇数番目(1、3、5、・・・)の周波数帯域の音量を無音としたものであっても良い。さらに、第3の音声データ601は、偶数番目の周波数帯域、又は奇数番目の周波数帯域の音量を、無音に限られず、十分に音量が低い所定の音量以下に下げるものであっても良い。
【0028】
このような第3の音声データ601は、例えば、
図2の信号処理ユニット202で、所定の周波数帯域(例えば、偶数番目の周波数帯域)の音量の値を下げる(例えば、0に書き換える)こと等により生成することができる。
【0029】
この第3の音声データ601に基づいて、例えば、
図1において、他の通信装置100bのスピーカ102bから出力する音声Aには、上述した偶数番目の周波数帯域の音が含まれない。
【0030】
また、スピーカ102bが出力した音声Aを、マイク101bが取得した音声103は、他の通信装置100bが備える第2の生成部303によって、所定の周波数fだけ、周波数を高くシフトした第2の音声データに変換される。この第2の音声データは、例えば、
図8(A)に示すように、第3の音声データ601に含まれる奇数番目の周波数帯域の音量データを、偶数番目の周波数帯域にシフトした第2の音声データ801となる。
【0031】
この第2の音声データ801は、奇数番目の周波数帯域の音量が0(無音)であるため、他の通信装置100bが備える第3の生成部304によって、偶数番目の周波数帯域の音量を0に下げることにより、
図8(B)に示すように、無音データとなる。このように、通信装置100は、第3の音声データ601を生成して、他の通信装置100に送信することにより、音声エコーを削減することができる。
【0032】
なお、
図4から8に示した各音声データは、あくまで説明用のイメージであり、実際の音声データを示すものではない。例えば、
図7で説明した所定の周波数fは、音声データを削減可能であり、かつ違和感がないように、例えば、数Hz~数十Hz程度の範囲で、実験などにより、最適な値を決定することが望ましい。
【0033】
また、第3の生成部304が、例えば、
図7において、偶数番目の周波数帯域の音量を削減する際に、削減する周波数幅は、周波数f、又は周波数fにマージンを加えた周波数幅とする。このマージンの値は、例えば、クロック信号の誤差により、偶数番目の周波数帯域と奇数番目の周波数帯域との境界において、エコー音声がを十分に削減できずに違和感が残らないように、例えば、実験、又は計算等により、最適な値を決定することが望ましい。
【0034】
ここで、
図3に戻り、通信装置100の機能構成の説明を続ける。送信部305は、第3の生成部304が生成した第3の音声データ601を通信用のデータに変換し、変換した通信用のデータ(以下、第1のコンテンツデータと呼ぶ)を、他の通信装置100へ送信する。例えば、送信部305は、
図2のエンコーダ211を用いて、第3の音声データ601を符号化し、符号化した第1のコンテンツデータを通信回路204で他の通信装置100に送信する。
【0035】
受信部306は、他の通信装置100が生成した第3の音声データを通信用のデータに変換した通信用のデータ(以下、第2のコンテンツデータと呼ぶ)を、他の通信装置100から受信する。例えば、受信部306は、
図2の通信回路204が受信した第2のコンテンツデータを、デコーダ212で復号し、音声出力部307に出力する。
【0036】
音声出力部307は、受信部306が受信した第2のコンテンツに基づいて、音声を出力する。例えば、音声出力部307は、第2のコンテンツに含まれる、例えば、
図6の第3の音声データ601のように、所定の周波数帯域の音量を下げた、櫛歯状の音声を出力する。
【0037】
<処理の流れ>
続いて、第1の実施形態に係る通信方法の処理の流れについて説明する。
【0038】
図9は、第1の実施形態に係る通信装置の処理の例を示すフローチャートである。
【0039】
(送信処理)
図9(A)は、通信装置100が他の通信装置にコンテンツデータを送信する送信処理の一例を示している。なお、
図9(A)に示す処理の開始時点において、通信装置100は、他の通信装置100と通信を確立し、互いにコンテンツデータを送受信可能な状態であるものとする。
【0040】
ステップS901において、音声取得部301は、マイク101を用いて、通信装置100の周辺の音声を取得する。
【0041】
ステップS902において、第1の生成部302は、音声取得部301が取得した音声を音声周波数と音量で表す、例えば、
図4で説明した、第1の音声データ401を生成する。
【0042】
ステップS903において、第2の生成部303は、第1の生成部302が生成した第1の音声データ401の周波数を所定の周波数fシフトした、例えば、
図5で説明した、第2の音声データ501を生成する。
【0043】
ステップS904において、第3の生成部304は、第2の生成部303が生成した第2の音声データ501の所定の周波数帯域の音量を下げた、例えば、
図6、7で説明した、第3の音声データ601を生成する。
【0044】
ステップS905において、送信部305は、第3の生成部304が生成した第3の音声データ601を、通信用のデータに変換したコンテンツデータ(第1のコンテンツデータ)を、通信中の他の通信装置100へ送信する。
【0045】
(受信処理)
図9(B)は、通信装置100が他の通信装置からコンテンツデータを受信する受信処理の一例を示している。なお、
図9(B)に示す処理の開始時点において、通信装置100は、他の通信装置100と通信を確立し、互いにコンテンツデータを送受信可能な状態であるものとする。
【0046】
ステップS911において、受信部306は、通信中の他の通信装置100からコンテンツデータ(第2コンテンツデータ)を受信する。
【0047】
ステップS912において、音声出力部307は、受信部306が受信したコンテンツデータに含まれる音声データを再生して音声を出力する。
【0048】
例えば、
図1に示す通信装置100a、100bは、それぞれ、
図8(A)に示す送信処理、及び
図8(B)に示す受信処理を繰り返し実行することにより、音声を送受信する。これにより、
図8(A)、(B)で説明したように、受信した音声に含まれるエコー音声が削減される。また、本実施形態では、受信した音声の周波数が所定の周波数fだけシフトするが、所定の周波数fは、前述したように数Hz~数十Hz程度であり、時間と共に変化することがないので、ユーザに与える不快感を低減することができる。
【0049】
以上、第1の実施形態によれば、他の通信装置100と音声を含むコンテンツデータを送受信する通信装置において、エコー音声を除去する際に、マイクが取得したユーザの音声に与える影響、及び影響の時間的変化を低減することができる。
【0050】
[第2の実施形態]
図3に示した、第1の実施形態に係る通信装置100の機能構成は一例であり、様々な変形、または応用が可能である。例えば、第1の実施形態に係る通信装置100は、第3の音声データ601を含むコンテンツデータを送受信していたが、通信装置100は、第2の音声データ501を含むコンテンツデータを送受信するものであっても良い。
【0051】
<機能構成>
図10は、第2の実施形態に係る通信装置の機能構成の例を示す図である。第2の実施形態に係る通信装置100は、
図3で説明した第1の実施形態と同様に、音声取得部301、第1の生成部302、第2の生成部303、第3の生成部304、送信部305、受信部306、及び音声出力部307等を有している。また、第2の実施形態に係る通信装置100は、上記の各機能構成に加えて、第4の生成部1001、データ変換部1002等を有している。
【0052】
第2の実施形態では、送信部305は、第2の生成部303が生成した第2の音声データ501を通信用のデータに変換したコンテンツデータ(第1のコンテンツデータ)を、通信中の他の通信装置100へ送信する。また、受信部306は、通信中の他の通信装置100が送信する、第2の音声データ501を含むコンテンツデータ(第2のコンテンツデータ)を受信する。
【0053】
第4の生成部1001は、例えば、
図2の信号処理ユニット202等によって実現され、受信部306が受信したコンテンツデータに含まれる音声を、周波数と音量で表す第4の音声データに変換する。例えば、第4の生成部1001は、受信部306が受信したコンテンツデータに含まれる音声(第2の音声データ501)を、第1の生成部302と同様にして、周波数と音量で表す第4の音声データに変換する。
【0054】
また、本実施形態に係る第3の生成部304は、所定の周波数fに基づいて、第4の音声データの所定の周波数帯域の音量を下げた、例えば、
図6に示すような第3の音声データ601を生成する。なお、第3の生成部304が、第3の音声データを作成する作成方法は、第1の実施形態と同様で良い。
【0055】
データ変換部1002は、例えば、
図2の信号処理ユニット202等によって実現され、第3の生成部304が生成した第3の音声データ601を、音声出力部307が再生可能な音声データに変換する。なお、音声出力部307が、第3の音声データを再生可能である場合、通信装置100は、データ変換部1002を有していなくても良い。
【0056】
<処理の流れ>
続いて、第2の実施形態に係る通信方法の処理の流れについて説明する。
図11は、第2の実施形態に係る通信装置の処理の例を示すフローチャートである。
【0057】
(送信処理)
図11(A)は、通信装置100が他の通信装置にコンテンツデータを送信する送信処理の一例を示している。なお、
図11(A)に示す処理の開始時点において、通信装置100は、他の通信装置100と通信を確立し、互いにコンテンツデータを送受信可能な状態であるものとする。また、ここでは、第1の実施形態と同様の処理に対する詳細な説明は省略する。
【0058】
ステップS1101において、音声取得部301は、マイク101を用いて、通信装置100の周辺の音声を取得する。
【0059】
ステップS1102において、第1の生成部302は、音声取得部301が取得した音声を音声周波数と音量で表す第1の音声データ401を生成する。
【0060】
ステップS1103において、第2の生成部303は、第1の生成部302が生成した第1の音声データ401の周波数を所定の周波数fシフトした第2の音声データ501を生成する。
【0061】
ステップS1104において、送信部305は、第2の生成部303が生成した第2の音声データ501を、通信用のデータに変換したコンテンツデータ(第1のコンテンツデータ)を、通信中の他の通信装置100へ送信する。
【0062】
(受信処理)
図11(B)は、通信装置100が他の通信装置からコンテンツデータを受信する受信処理の一例を示している。なお、
図11(B)に示す処理の開始時点において、通信装置100は、他の通信装置100と通信を確立し、互いにコンテンツデータを送受信可能な状態であるものとする。また、ここでは、第1の実施形態と同様の処理に対する詳細な説明は省略する。
【0063】
ステップS1111において、受信部306は、通信中の他の通信装置100からコンテンツデータ(第2コンテンツデータ)を受信する。
【0064】
ステップS1112において、第4の生成部1001は、受信部306が受信したコンテンツデータに含まれる音声を周波数と音量で表す第4の音声データを生成する。
【0065】
ステップS1113において、第3の生成部304は、第4の生成部1001が生成した第4の音声データの所定の周波数帯域の音量を下げた、例えば、
図6に示すような第3の音声データ601を生成する。
【0066】
ステップS1114において、音声出力部307は、第3の生成部304が生成した第3の音声データ601に基づいて音声を出力する。例えば、音声出力部307は、必要に応じて、データ変換部1002を用いて、第3の音声データ601を再生可能な音声データに変換し、変換した音声データを再生することにより音声を出力する。
【0067】
上記の処理により、第2の実施形態に係る音声出力部307は、第1の実施形態に係る音声出力部307と同様の音声出力信号をスピーカ102に出力する。従って、第2の実施形態においても、他の通信装置100と音声を含むコンテンツデータを送受信する通信装置において、エコー音声を除去する際に、マイクが取得したユーザの音声に与える影響、及び影響の時間的変化を低減することができる。
【0068】
[第3の実施形態]
第3の実施形態では、本実施形態に係る通信システム1の応用例について説明する。
図12は、第3の実施形態に係る通信システムのシステム構成の例を示す図である。本実施形態に係る通信システム1、例えば、複数の通信装置100c、100d、100e、・・・が、通信ネットワーク1201を介して通信サーバ1200に接続して、テレビ会議、又はウェブ会議等を行う会議システムであっても良い。また、本実施形態に係る通信装置100は、例えば、テレビ会議装置、IWB(Interactive White Board:相互通信が可能な電子式の黒板機能を有する白板)、又はノートPC(Personal Computer)等の様々な会議端末であっても良い。
【0069】
この場合、例えば、
図14に示すように、通信サーバ1200が、第1の生成部302、第2の生成部303、及び第3の生成部304等を有していても良い。これにより、通信装置100c、100d、100e、・・・として、既存の会議端末を利用することができるようになる。
【0070】
<ハードウェア構成>
通信サーバ1200は、例えば、
図13に示すような、コンピュータ1300のハードウェア構成を有している。或いは、通信サーバ1200は、複数のコンピュータ1300によって構成される。
【0071】
図13は、第3の実施形態に係るコンピュータのハードウェア構成の例を示す図である。コンピュータ1300は、例えば、CPU1301、ROM(Read Only Memory)1302、RAM(Random Access Memory)1303、HD(Hard Disk)1304、HDD(Hard Disk Drive)コントローラ1305、ディスプレイ1306、外部機器接続I/F(Interface)1307、ネットワークI/F1308、キーボード1309、ポインティングデバイス1310、DVD-RW(Digital Versatile Disk ReWritable)ドライブ1312、メディアI/F1314、及び、バスライン1315等を備えている。
【0072】
これらのうち、CPU1301は、コンピュータ1300の全体の動作を制御する演算装置である。ROM1302は、CPU1301の起動に用いられるプログラム等を記憶する不揮発性のメモリである。RAM1303は、CPU1301のワークエリア等として使用される揮発性のメモリである。HD1304は、OS(Operating System)やアプリケーション等のプログラムや、各種のデータ等を記憶する大容量の記憶装置である。HDDコントローラ1305は、CPU1301の制御にしたがってHD1304に対する各種データの読み出し又は書き込みを制御する。
【0073】
ディスプレイ1306は、カーソル、メニュー、ウィンドウ、文字、又は画像などの各種情報を表示する表示デバイスである。外部機器接続I/F1307は、各種の外部機器を接続するためのインタフェースである。ネットワークI/F1308は、通信ネットワークを利用してデータ通信をするための通信インタフェースである。キーボード1309は、文字、数値、各種指示などの入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス1310は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。
【0074】
DVD-RWドライブ1312は、DVD-RW1311に対するデータの読み出し又は書き込み(記憶)を制御する。なお、DVD-RW1311は記憶媒体の一例であり、他の記憶媒体であっても良い。メディアI/F1314は、フラッシュメモリ等のメディア1313に対するデータの読み出し又は書き込み(記憶)を制御する。バスライン1315は、
図13に示されているCPU1301等の各構成要素を電気的に接続するためのアドレスバス、データバス、及び各種の制御信号等を含む。
【0075】
なお、通信サーバ1200は、コンピュータ1300のハードウェア構成に加えて、音声信号処理を実行する信号処理装置、又は信号処理ユニット202等を、さらに有していても良い。
【0076】
<機能構成>
図14は、第3の実施形態に係る通信サーバの機能構成の例を示す図である。通信サーバ1200は、例えば、CPU1301が所定のプログラムを実行することにより、通信部1401、通信管理部1402、及び中継部1403等を実現している。
【0077】
通信部1401は、通信サーバ1200が備えるネットワークI/F1308を用いて、通信サーバ1200を通信ネットワーク1201に接続し、通信装置100c、100d、100e等と通信する通信処理を実行する。
【0078】
通信管理部1402は、通信装置100c、100d、100eによる接続要求を受付し、同じ会議への接続を要求する通信装置100c、100d、100eを同じ会議(セッション)への参加を許可する通信管理処理を実行する。
【0079】
中継部1403は、同じ会議に参加する通信装置100c、100d、100eの間で送受信するコンテンツデータを中継する中継処理を実行する。例えば、中継部1403は、通信装置100cが送信したコンテンツデータを受信し、受信したコンテンツデータを、同じ会議に参加する他の通信装置100d、100eへ転送する。同様にして、中継部1403は、通信装置100dから受信したコンテンツデータを通信装置100c、100eに転送し、通信装置eから受信したデータを通信装置100c、100dに転送する。
【0080】
また、本実施形態に係る中継部1403は、例えば、第1の生成部302、第2の生成部303、第3の生成部304、及びデータ生成部1404等を有している。なお、第1の生成部302、第2の生成部303、及び第3の生成部304の基本的な処理内容は、第1の実施形態に係る第1の生成部302、第2の生成部303、及び第3の生成部304と同様なので、ここでは詳細な説明は省略する。
【0081】
第1の生成部302は、会議に参加する一の通信装置100(例えば、通信装置100c)から受信したコンテンツデータに含まれる音声を、音声を音声周波数と音量で表す、例えば、
図4に示すような第1の音声データ401に変換する。
【0082】
第2の生成部303は、第1の生成部302が生成した第1の音声データ401を、所定の周波数シフトした、例えば、
図5に示すような第2の音声データ501を生成する。
【0083】
第3の生成部304は、所定の周波数fに基づいて、第2の生成部303が生成した第2の音声データ501の所定の周波数帯域の音量を下げた、例えば、
図6に示すような第3の音声データ601を生成する。
【0084】
データ生成部1404は、第3の生成部304が生成した第3の音声データ601を含む、通信用のコンテンツデータを生成する。このコンテンツデータには、例えば、一の通信装置100から受信したコンテンツに含まれる画像データ、及び第3の音声データ601等が含まれる。
【0085】
中継部1403は、データ生成部1404が生成したコンテンツデータを、一の通信装置100と同じ会議に参加する他の通信装置100(例えば、通信装置100d、100e)に転送する。
【0086】
なお、本実施形態では、通信装置100c、100d、100eは、既存の会議装置を利用することを想定しているため、通信装置100のハードウェア構成、及び機能構成の説明は省略する。
【0087】
<処理の流れ>
図15は、第3の実施形態に係る通信システムの処理の例を示すシーケンス図である。この図は、
図12に示した通信システム1において、通信サーバ1200が、通信装置100cから受信したコンテンツデータを、同じ会議に参加している他の通信装置100d、100eに転送する処理の一例を示している。なお、
図15に示す処理の開始時点において、通信装置100c、100d、100eは、通信ネットワーク1201を介して通信サーバ1200に接続し、同じ会議に参加しているものとする。
【0088】
ステップS1501において、通信サーバ1200の通信部1401は、通信装置100cからコンテンツデータを受信する。
【0089】
ステップS1502において、通信サーバ1200の第1の生成部302は、通信装置100cから受信したコンテンツデータに含まれる音声を、音声を音声周波数と音量で表す第1の音声データ401に変換する。
【0090】
ステップS1503において、通信サーバ1200の第2の生成部303は、第1の生成部302が生成した第1の音声データ401を、所定の周波数シフトした第2の音声データ501を生成する。
【0091】
ステップS1504において、通信サーバ1200の第3の生成部304は、所定の周波数fに基づいて、第2の生成部303が生成した第2の音声データ501の所定の周波数帯域の音量を下げた、例えば、
図6に示すような第3の音声データ601を生成する。
【0092】
ステップS1505において、通信サーバ1200のデータ生成部1404は、第3の生成部304が生成した第3の音声データ601を含む、通信用のコンテンツデータを生成する。
【0093】
ステップS1506、S1507において、通信サーバ1200の中継部1403は、データ生成部1404が生成したコンテンツデータを、通信装置100cと同じ会議に参加している他の通信装置100d、100eに送信する。
【0094】
ステップS1508、S1509において、通信装置100d、100eは、受信したコンテンツデータを再生することにより、例えば、
図6に示すように、所定の周波数帯域の音量を下げた音声を出力する。
【0095】
図15の処理により、第3の実施形態に係る通信システム1によれば、既存の会議端末を利用して、エコー音声を除去する際に、マイクが取得したユーザの音声に与える影響、及び影響の時間的変化を低減することができる。
【0096】
なお、本実施形態では、通信装置100c、100d、100eがエコーキャンセラを有している場合、エコーキャンセラ機能をオフに設定することが望ましい。
【0097】
[その他の実施形態]
例えば、
図12に示すようなシステム構成の通信システム1において、通信端末100c、100d、100eは、
図3、10に示すような機能構成を含む会議端末であっても良い。この場合、通信端末100c、100d、100eを用いて、既存の通信サーバ1200を利用して会議システムを構築し、第3の実施形態と同様の効果を得ることができる。
【0098】
以上、本発明の各実施形態によれば、他の通信装置100と音声を含むコンテンツデータを送受信する通信装置100において、エコー音声を除去する際に、マイクが取得したユーザの音声に与える影響、及び影響の時間的変化を低減することができる。
【0099】
<補足>
上記で説明した各実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC、DSP、FPGA、又は従来の回路モジュール等のデバイスを含むものとする。
【0100】
また、上記の各実施形態に記載された装置群は、本明細書に開示された実施形態を実施するための複数のコンピューティング環境のうちの1つを示すものに過ぎない。ある実施形態では、通信サーバ1200は、サーバクラスタといった複数のコンピューティングデバイスを含む。複数のコンピューティングデバイスは、ネットワークや共有メモリなどを含む任意のタイプの通信リンクを介して互いに通信するように構成されており、本明細書に開示された処理を実施する。
【0101】
さらに、通信サーバ1200は、開示された処理ステップ、例えば、
図15を様々な組み合わせで共有するように構成できる。例えば、通信サーバ1200が備える第1の生成部302、第2の生成部303、及び第3の生成部304のうち、少なくとの1つは、通信装置100が備えていても良い。また、通信サーバ1200が備える各機能構成は、1つのサーバ装置にまとめられていても良いし、複数の装置に分散して設けられていても良い。
【符号の説明】
【0102】
1 通信システム(会議システム)
100、100a、100b 通信装置
100c~100e 通信装置(会議装置)
301 音声取得部
302 第1の生成部302
303 第2の生成部303
304 第3の生成部304
305 送信部
306 受信部
307 音声出力部
401 第1の音声データ
501 第2の音声データ
601 第3の音声データ
701 周波数帯域
1001 第4の生成部
1200 通信サーバ
f 所定の周波数
【先行技術文献】
【特許文献】
【0103】