(58)【調査した分野】(Int.Cl.,DB名)
前記パケットデータ生成部は、所定期間内における互いに異なる複数の時点に入力された音声について生成された複数の音声レベル情報を、前記拡張ヘッダに格納したパケットデータを生成する
ことを特徴とする請求項3に記載の通信装置。
【発明を実施するための形態】
【0018】
以下、本発明の実施形態について図面を参照しつつ説明する。尚、各図面において、実質的に同一又は等価な構成要素又は部分には同一の参照符号を付している。
【0019】
[第1の実施形態]
図1は、本発明の第1の実施形態に係る通信システム1の構成の一例を示すブロック図である。通信システム1は、ネットワーク30を介して通信可能に接続された通信装置10及び20を含んで構成されている。通信装置10及び20は、ネットワーク30を介して音声データを相互に送受信することが可能である。従って、通信システム1は、互いに離れた場所に所在する会議参加者の発する音声を相互に送受信する会議システムとして利用することが可能である。
【0020】
なお、以下の説明では、説明の煩雑さを回避する観点から、通信装置10が、通信装置10側のユーザから発せられた音声について生成した音声データを、ネットワーク30を介して通信装置20に送信する機能を備え、通信装置20が、通信装置10から送信された音声データを受信し、受信した音声データを処理する機能を備える場合を例示している。しかしながら、通信装置10は、通信装置20が備える機能も備え、通信装置20は、通信装置10が備える機能も備えている。すなわち、通信装置10及び20は、それぞれ相互に音声データを送受信する機能を備えている。
【0021】
通信装置10は、音声データ生成部11、分配部12、音声レベル検出部13、音声エンコーダ14、音声パケットデータ生成部15及び送信部16を含んで構成されている。通信システム1は、音声データ生成部11に接続されたマイク17を有する。
【0022】
マイク17は、通信装置10側のユーザの音声を入力し、入力される音声の大きさ(音圧レベル)に応じた振幅を有するアナログ音声信号を生成する。マイク17は、生成したアナログ音声信号を音声データ生成部11に供給する。なお、マイク17は、通信装置10の構成要素の一部として通信装置10に含まれていてもよい。
【0023】
音声データ生成部11は、マイク17から供給されるアナログ音声信号をデジタル化する処理を行い、デジタル形式の音声データを生成する。音声データ生成部11は、生成した音声データを分配部12に供給する。
【0024】
分配部12は、音声データ生成部11から供給される音声データを、音声エンコーダ14及び音声レベル検出部13に分配する。すなわち、音声エンコーダ14及び音声レベル検出部13には、互いに同じ内容の音声データが供給される。
【0025】
音声エンコーダ14は、分配部12から供給される音声データを符号化することにより圧縮する。符号化方式の一例として、G.711、G.729、及びAACなどが挙げられる。音声エンコーダ14は、所定の時間間隔(例えば20msec間隔)で、音声データを符号化する。ここで、分配部12から供給される音声データのサンプリング周波数が、音声エンコーダ14で音声データを処理する際に用いられる取り扱うサンプリング周波数と異なる場合、音声エンコーダ14は、符号化処理前の音声データに対して、所定のサンプリング周波数でサンプリングする前処理を実施してもよい。音声エンコーダ14は、符号化した音声データ(以下、符号化音声データという)を音声パケットデータ生成部15に供給する。
【0026】
音声レベル検出部13は、分配部12から供給される音声データにおける音声のレベルを検出して、検出した音声のレベルを示す音声レベル情報を生成する。音声レベル検出部13は、所定の時間間隔(例えば5msec間隔)で、音声レベルを検出する。なお、音声レベルを検出する時間間隔を可変としてもよい。音声レベル検出部13は、例えば、検出した音声レベルの、所定期間内における最大値を、音声レベル情報として生成する。なお、音声レベル検出部13は、検出した音声レベルの、所定期間内における平均値を、音声レベル情報として生成してもよい。音声レベル検出部13は、生成した音声レベル情報を音声パケットデータ生成部15に供給する。
【0027】
音声パケットデータ生成部15は、音声エンコーダ14から供給される符号化音声データに、音声レベル検出部13から供給される音声レベル情報を付加したRTP(Real-time Transport Protocol)形式の音声パケットデータを生成する。より具体的には、音声パケットデータ生成部15は、ある期間T1に入力された音声について生成された符号化音声データに、当該期間T1よりも後の期間T2に入力された音声について生成された音声レベル情報を付加した音声パケットデータを生成する。
【0028】
音声エンコーダ14による符号化処理には、所定の処理時間を要する。一方、音声レベル検出部による音声レベル情報の生成に要する処理時間は、符号化処理に要する処理時間よりも短い。従って、期間T1に入力された音声についての符号化音声データの生成時点と、期間T2に入力された音声についての音声レベル情報の生成時点との間の時間差は、小さい。音声パケットデータ生成部15は、生成した音声パケットデータを送信部16に供給する。
【0029】
図2は、音声パケットデータ生成部15によって生成される音声パケットデータ40の構造を示す図である。音声パケットデータ40は、IETF(Internet Engineering Task Force)におけるRFC1889の仕様に準拠するRTPヘッダ41及びRTP拡張ヘッダ42及びペイロード43を含んで構成されている。
【0030】
RTPヘッダ41は、バージョン番号、パディング、拡張ビット、寄与送信元識別子の数、マーカビット、ペイロードタイプ、シーケンス番号、タイムスタンプ、同期送信元識別子及び寄与送信元識別子を有している。RTP拡張ヘッダ42は、プロファイル番号421、拡張ヘッダ長422及び拡張ヘッダ423を有している。本実施形態において、拡張ヘッダ423は、音声レベル情報を格納する領域として利用される。ペイロード43は、符号化音声データが格納される領域である。ペイロード43には、例えば、単位時間幅20msecの長さの音声に対応する符号化音声データが格納される。
【0031】
以下に、RTP拡張ヘッダ42について詳述する。プロファイル番号421は、予め定義された、音声レベル情報に関わる16ビットのビット列で構成される。拡張ヘッダ長422は、拡張ヘッダ423に格納されるデータ長を示す16ビットのビット列で構成される。
【0032】
ここで、
図3A、
図3B、
図3Cは、それぞれ、拡張ヘッダ423に格納される音声レベル情報と、拡張ヘッダ長との関係を示す図である。ここでは、1つの音声レベル情報のデータ長は16ビットであるものとし、拡張ヘッダ長422には、32ビットを1単位とするデータ長を示す数値が格納される。
【0033】
図3Aには、ペイロード43に単位時間幅20msecの長さの音声に対応する符号化音声データが格納され、且つ音声レベル検出部13における音声レベルの検出間隔が5msecである場合のRTP拡張ヘッダ42の構成が例示されている。この場合、音声レベル検出部13は、20msecの期間内に音声レベルを4回検出し、4つの音声レベル情報[1]〜[4]を生成する。拡張ヘッダ423には、20msecの期間内に生成された音声レベル情報[1]〜[4]が格納される。従って、この場合、拡張ヘッダ長は2となる。
【0034】
図3Bには、ペイロード43に単位時間幅20msecの長さの音声に対応する符号化音声データが格納され、且つ音声レベル検出部13における音声レベルの検出間隔が10msecである場合のRTP拡張ヘッダ42の構成が例示されている。この場合、音声レベル検出部13は、20msecの期間内に音声レベルを2回検出し、2つの音声レベル情報[1]、[2]を生成する。拡張ヘッダ423には、20msecの期間内に生成された音声レベル情報[1]、[2]が格納される。従って、この場合、拡張ヘッダ長は1となる。
【0035】
図3Cには、ペイロード43に単位時間幅20msecの長さの音声に対応する符号化音声データが格納され、且つ音声レベル検出部13における音声レベルの検出間隔が20msecである場合のRTP拡張ヘッダ42の構成が例示されている。この場合、音声レベル検出部13は、20msecの期間内に音声レベルを1回検出し、1つの音声レベル情報[1]を生成する。拡張ヘッダ423には、20msecの期間内に生成された音声レベル情報[1]および16個の「0」からなるゼロパディングが格納される。従って、この場合、拡張ヘッダ長は1となる。
【0036】
送信部16は、音声パケットデータ生成部15において生成された音声パケットデータを、ネットワーク30を介して相手側の通信装置20に向けて送信する。
【0037】
図1に示すように、通信装置20は、受信部21、表示処理部22、再生処理部25を含んで構成されている。再生処理部25は、音声デコーダ23及び音声信号生成部24を有している。通信システム1は、音声信号生成部24に接続されたスピーカ26及び表示処理部22に接続された表示部27を有する。
【0038】
受信部21は、通信装置10から送信された音声パケットデータを受信する。受信部21は、受信した音声パケットデータに含まれる符号化音声データを音声デコーダ23に供給する。また、受信部21は、受信した音声パケットデータに含まれる音声レベル情報を表示処理部22に供給する。
【0039】
音声デコーダ23は、受信部21から供給される符号化音声データを復号する。すなわち、音声デコーダ23は、圧縮された音声データを伸長する処理を行う。音声デコーダ23は、復号した音声データを音声信号生成部24に供給する。
【0040】
音声信号生成部24は、音声デコーダ23から供給される復号されたデジタル形式の音声データを、アナログ形式に変換したアナログ音声信号を生成する。音声信号生成部24は、生成したアナログ音声信号をスピーカ26に出力する。音声デコーダ23及び音声信号生成部24によって再生処理部25が構成され、再生処理部25において符号化音声データに対する再生処理が行われ、再生処理の結果がスピーカ26に出力される。
【0041】
スピーカ26は、音声信号生成部24から供給されるアナログ音声信号に応じた音声を出力する。すなわち、通信装置10側のマイク17に入力されたユーザの音声がスピーカ26から出力される。なお、スピーカ26は、通信装置20の構成要素の一部として通信装置20に含まれていてもよい。
【0042】
表示処理部22は、受信部21から供給される音声レベル情報によって示される音声レベルを表示するための表示処理を行い、その処理結果を表示部27に出力する。表示部27は、表示処理部22から出力される表示処理の結果に基づいて音声レベルを表示する。
【0043】
表示処理部22は、再生処理部25による再生処理の結果の出力に先行して、表示処理の結果を出力する。すなわち、ネットワーク30を介して通信装置20に供給される音声パケットデータに含まれる符号化音声データに応じた音声がスピーカ26から出力されるタイミングよりも前に、当該音声パケットデータに含まれる音声レベル情報に応じた音声レベルが表示部27において表示される。音声デコーダ23による復号処理および音声信号生成部24による信号変換処理を含む再生処理には、所定の処理時間を要する。一方、表示処理部22による表示処理に要する処理時間は、再生処理に要する処理時間よりも短い。従って、表示処理部22における表示処理結果の出力を、再生処理部25における再生処理結果の出力に対して先行させることが可能である。
【0044】
図4は、表示部27において表示される音声レベルの表示態様の一例を示す図である。
図4に示すように、音声レベルを、例えば、レベルバーによって表示してもよい。
図4には、音声レベルを4段階で表示する場合が例示されている。
【0045】
表示部27は、例えば、通信装置20に接続された液晶ディスプレイ等の表示装置によって構成されていてもよい。また、表示部27は、通信装置20を収容する筐体の表面に設けられたインジケータによって構成されていてもよい。また、表示部27は、通信装置20の構成要素の一部として通信装置20に含まれていてもよい。
【0046】
通信装置10は、例えば、
図5に示すコンピュータ100によって構成することができる。コンピュータ100は、バス110を介して相互に接続されたCPU(Central Processing Unit)101、主記憶装置102、補助記憶装置103、ハードウェアインターフェース104及び通信インターフェース105を含んで構成されている。マイク17は、ハードウェアインターフェース104に接続され、ネットワーク30は、通信インターフェース105に接続される。
【0047】
補助記憶装置103は、Hard Disk Drive(HDD)、solid state drive(SSD)、フラッシュメモリ等の不揮発性の記憶装置によって構成されている。補助記憶装置103には、コンピュータ100を通信装置10として機能させるためのデータ送信プログラム120が記憶されている。データ送信プログラム120は、音声データ生成処理121、音声データ分配処理122、音声データ符号化処理123、音声レベル情報生成処理124、パケットデータ生成処理125及びパケットデータ送信処理126を含んで構成されている。
【0048】
CPU101は、データ送信プログラム120を補助記憶装置103から読み出して主記憶装置102に展開し、データ送信プログラム120が有する各処理を順次実行する。CPU101は、音声データ生成処理121を実行することで、音声データ生成部11として動作する。また、CPU101は、音声データ分配処理122を実行することで、分配部12として動作する。また、CPU101は、音声データ符号化処理123を実行することで、音声エンコーダ14として動作する。また、CPU101は、音声レベル情報生成処理124を実行することで、音声レベル検出部13として動作する。また、CPU101は、パケットデータ生成処理125を実行することで、音声パケットデータ生成部15として動作する。また、CPU101は、パケットデータ送信処理126を実行することで、送信部16として機能する。データ送信プログラム120を実行したコンピュータ100が、通信装置10として機能する。なお、データ送信プログラム120により実現される機能は、例えば、ASIC(Application Specific Integrated Circuit)等の半導体集積回路によって実現することも可能である。
【0049】
一方、通信装置20は、例えば、
図6に示すコンピュータ200によって構成することができる。コンピュータ200は、コンピュータ100の構成と同様であり、バス210を介して相互に接続されたCPU201、主記憶装置202、補助記憶装置203、ハードウェアインターフェース204及び通信インターフェース205を含んで構成されている。スピーカ26及び表示部27は、ハードウェアインターフェース204に接続され、ネットワーク30は、通信インターフェース205に接続される。
【0050】
補助記憶装置203には、コンピュータ200を通信装置20として機能させるためのデータ受信プログラム220が記憶されている。データ受信プログラム220は、パケットデータ受信処理221、音声レベル表示処理222、音声データ復号処理223及び音声信号生成処理224を含んで構成されている。
【0051】
CPU201は、データ受信プログラム220を補助記憶装置203から読み出して主記憶装置202に展開し、データ受信プログラム220が有する各処理を順次実行する。CPU201は、パケットデータ受信処理221を実行することで、受信部21として動作する。また、CPU201は、音声レベル表示処理222を実行することで、表示処理部22として動作する。また、CPU201は、音声データ復号処理223を実行することで、音声デコーダ23として動作する。また、CPU201は、音声信号生成処理224を実行することで、音声信号生成部24として動作する。データ受信プログラム220を実行したコンピュータ200が、通信装置20として機能する。なお、データ受信プログラム220により実現される機能は、ASIC等の半導体集積回路によって実現することも可能である。
【0052】
以下に、通信装置10の動作について説明する。
図7は、通信装置10において実施される処理の流れを示すフローチャートである。ステップS11において、音声データ生成部11が、マイク17から供給されるアナログ音声信号をデジタル化する処理を行い、デジタル形式の音声データを生成する。
【0053】
ステップS12において、分配部12が、音声データ生成部11から供給された音声データを音声エンコーダ14及び音声レベル検出部13に分配する。
【0054】
ステップS13において、音声レベル検出部13は、分配部12から供給された音声データによって示される音声レベルを検出して、検出した音声レベルを示す音声レベル情報を生成する。ここで、音声レベル検出部13は、所定の時間間隔(例えば5msec間隔)で、音声レベルを検出するものとする。
【0055】
ステップS14において、音声エンコーダ14は、分配部12から供給された音声データを符号化することにより圧縮し、符号化音声データを生成する。ステップS13における音声レベル情報生成処理と、ステップS14における音声データ符号化処理は、並行して実施される。ここで、音声エンコーダ14は、所定の時間間隔(例えば20msec間隔)で、音声データを符号化する。
【0056】
ここで、
図8Aは、期間T1〜T4にマイク17に入力された音声と、通信装置10において生成される符号化音声データ及び音声レベル情報との関係を示す図である。音声エンコーダ14は、時刻t1からt2までの期間T1に、マイク17に入力された音声[1]について符号化音声データ[1]を生成し、時刻t2からt3までの期間T2にマイク17に入力された音声[2]について符号化音声データ[2]を生成し、時刻t3からt4までの期間T3にマイク17に入力された音声[3]について符号化音声データ[3]を生成し、時刻t4からt5までの期間T4にマイク17に入力された音声[4]について符号化音声データ[4]を生成する。
なお、期間T1〜T4は、20msecからなる期間であり、期間T2は、期間T1より後の期間であり、期間T3は、期間T2より後の期間であり、期間T4は、期間T3より後の期間である。
【0057】
音声レベル検出部13は、マイク17に入力された音声[1]〜[4]について、それぞれ、音声レベル情報[1]〜[4]を生成する。
【0058】
ステップS15において、音声パケットデータ生成部15は、音声エンコーダ14によって生成された符号化音声データに、音声レベル検出部13によって生成された音声レベル情報を付加したRTP形式の音声パケットデータを生成する。
【0059】
図8Bは、音声パケットデータ生成部15において生成される音声パケットデータの構成の一例を示す図である。音声パケットデータ生成部15は、期間T1にマイク17に入力された音声[1]について生成された符号化音声データ[1]をペイロード43に格納し、期間T1よりも後の期間T2にマイク17に入力された音声[2]について生成された音声レベル情報[2]を拡張ヘッダ42に格納し、さらにRTPヘッダ41を付加した音声パケットデータ40[1]を生成する。
【0060】
続いて、音声パケットデータ生成部15は、期間T2にマイク17に入力された音声[2]について生成された符号化音声データ[2]をペイロード43に格納し、期間T2よりも後の期間T3にマイク17に入力された音声[3]について生成された音声レベル情報[3]を拡張ヘッダ42に格納し、さらにRTPヘッダ41を付加した音声パケットデータ40[2]を生成する。
【0061】
続いて、音声パケットデータ生成部15は、期間T3にマイク17に入力された音声[3]について生成された符号化音声データ[3]をペイロード43に格納し、期間T3よりも後の期間T4にマイク17に入力された音声[4]について生成された音声レベル情報[4]を拡張ヘッダ42に格納し、さらにRTPヘッダ41を付加した音声パケットデータ40[3]を生成する。
【0062】
ステップS16において、送信部16は、音声パケットデータ生成部15において生成された音声パケットデータを、ネットワーク30を介して相手側の通信装置20に向けて送信する。
【0063】
このように、通信装置10によれば、同一の音声について生成された音声レベル情報及び符号化音声データのうち、音声レベル情報を符号化音声データに対して先行させて送信することが可能である。
【0064】
以下に、通信装置20の動作について説明する。
図9は、通信装置20において実施される処理の流れを示すフローチャートである。
【0065】
ステップS21において、受信部21は、通信装置10から送信された音声パケットデータを受信する。受信部21は、受信した音声パケットデータに含まれる符号化音声データを音声デコーダ23に供給する。また、受信部21は、受信した音声パケットデータに含まれる音声レベル情報を表示処理部22に供給する。
【0066】
ステップS22において、表示処理部22は、受信部21から供給された音声レベル情報によって示される音声レベルを表示部27において表示するための表示処理を行い、その処理結果を表示部27に出力する。表示部27は、表示処理部22から供給された表示処理結果に基づいて音声レベルを表示する。
【0067】
ステップS23において、音声デコーダ23は、受信部21から供給された符号化音声データを復号する。
【0068】
ステップS24において、音声信号生成部24は、復号されたデジタル形式の音声データを、アナログ形式に変換したアナログ音声信号を生成する。音声信号生成部24は、生成したアナログ音声信号をスピーカ26に出力する。スピーカ26は、音声信号生成部24から供給されるアナログ音声信号に応じた音声を出力する。ステップS23における復号処理及びステップS24における音声信号生成処理を含む再生処理と、ステップS22における表示処理は、並行して実施される。
一般的に、ネットワークを経由した音声データの再生では、データ到達タイミングがネットワーク遅延時間の変動があるため、再生データを少し蓄積し、安定した再生を行うように作られている。この再生時のバッファリングの時間差に対して、表示処理部22が先行して音声レベルを通知する役割を果たす。
ここで、ステップS23における音声デコーダ23の処理遅延時間と、ステップS24における音声信号生成部24の処理遅延時間からなる、再生処理部25の処理遅延時間は、例えば、20msecとする。以下の本発明の説明は、再生処理部25の処理遅延時間を20msecとして、記載される。
【0069】
図10は、表示部27において表示される音声レベルの表示タイミングと、スピーカ26から出力される音声の出力タイミングとの関係の一例を示す図である。ここでは、通信装置20が、
図8Bに示す構成の音声パケットデータ40[1]、40[2]及び40[3]を受信するものとする。
【0070】
期間T1に入力された音声に対応する符号化音声データ[1]及び期間T2に入力された音声に対応する音声レベル情報[2]を含む音声パケットデータ40[1]が、受信部21によって受信されると、表示処理部22は、音声レベル情報[2]についての表示処理結果を、再生処理部25(音声デコーダ23及び音声信号生成部24)による符号化音声データ[1]についての再生処理結果の出力に先行して出力する。
【0071】
また、期間T2に入力された音声に対応する符号化音声データ[2]及び期間T3に入力された音声に対応する音声レベル情報[3]を含む音声パケットデータ40[2]が、受信部21によって受信されると、表示処理部22は、音声レベル情報[3]についての表示処理結果を、再生処理部25(音声デコーダ23及び音声信号生成部24)による符号化音声データ[2]についての再生処理結果の出力に先行して出力する。
さらに、期間T3に入力された音声に対応する符号化音声データ[3]及び期間T4に入力された音声に対応する音声レベル情報[4]を含む音声パケットデータ40[3]が、受信部21によって受信されると、表示処理部22は、音声レベル情報[4]についての表示処理結果を、再生処理部25(音声デコーダ23及び音声信号生成部24)による符号化音声データ[3]についての再生処理結果の出力に先行して出力する。
ここで、再生処理部25の処理遅延時間は、上述のように、例えば20msecとする。
【0072】
その結果、表示部27において表示される音声レベルの表示タイミングと、スピーカ26から出力される音声の出力タイミングとの関係は、
図10に示されるように、符号化音声データ[1]において20msecの遅延が発生するので、スピーカ26において符号化音声データ[1]に基づく音声出力がなされるタイミングで、表示部27において音声レベル情報[3]に基づく音声レベル表示がなされる。
また、表示部27において表示される音声レベルの表示タイミングと、スピーカ26から出力される音声の出力タイミングとの関係は、
図10に示されるように、符号化音声データ[2]において20msecの遅延が発生するので、スピーカ26において符号化音声データ[2]に基づく音声出力がなされるタイミングで、表示部27において音声レベル情報[4]に基づく音声レベル表示がなされる。
【0073】
このように、通信装置20によれば、音声レベル情報に基づく音声レベル表示を、符号化音声データに基づく音声出力に先行させることできる。
【0074】
以上の説明から明らかなように、本実施形態に係る通信システム1によれば、通信装置10において、同一の音声について生成された音声レベル情報及び符号化音声データのうち、音声レベル情報を符号化音声データに対して先行させて送信することが可能である。また、通信装置20において、音声レベル情報に基づく音声レベル表示を、符号化音声データに基づく音声出力に先行させることできる。これにより、送信側(通信装置10側)のユーザが発した音声が、受信側(通信装置20側)のスピーカ26から出力される前に、当該ユーザが発した音声の音声レベルが表示部27に表示される。これにより、受信側において、送信側から音声が発せられたことを、当該音声がスピーカ26から出力される前に把握することができる。従って、お互いが、同時に話し始めて、会話が混信するといった問題や、相手の会話に割り込むタイミングが掴みづらいといった問題を解消することができる。
【0075】
なお、上記した実施形態では、通信システム1を構成する通信装置10及び20が、音声通信機能を備える場合について例示したが、通信装置10及び20は、音声通信機能のみならず映像通信機能を備えていてもよい。この場合、通信システム1をテレビ会議システムとして利用することができる。なお、映像通信機能については、公知技術を利用することが可能であり、その詳細については説明を省略する。
【0076】
また、本実施形態に係る通信装置10及び20は、それぞれ、パーソナルコンピュータ、スマートフォン、携帯電話端末などによって実現することが可能である。パーソナルコンピュータは、デスクトップ型、ノート型及びタブレット型を含むいずれのタイプであってもよい。通信装置20を、パーソナルコンピュータで実現する場合、パーソナルコンピュータのディスプレイを表示部27として用いることが可能である。
【0077】
[第2の実施形態]
図11は、本発明の第2の実施形態に係る通信システム1Aの構成の一例を示すブロック図である。通信システム1Aは、音声通信機能に加え、映像通信機能を有する。通信システム1Aは、ネットワーク30を介して通信可能に接続された通信装置10A及び20Aを含んで構成されている。通信装置10A及び20Aは、ネットワーク30を介して音声データおよび映像データを相互に送受信することが可能である。従って、通信システム1Aは、互いに離れた場所に所在する会議参加者の発する音声を映像と共に相互に送受信するテレビ会議システムとして利用することが可能である。
【0078】
通信装置10Aは、通信装置20Aが備える機能も備えており、同様に、通信装置20Aは、通信装置10Aが備える機能も備えている。すなわち、通信装置10A及び20Aは、それぞれ、音声データ及び映像データを相互に送受信する機能を備えており、互いに同じ構成を有している。
【0079】
通信装置10Aは、上記した第1の実施形態に係る通信装置10における音声データ生成部11、分配部12、音声レベル検出部13、音声エンコーダ14、音声パケットデータ生成部15及び送信部16と、マイク17とを有し、更に映像データ生成部51、映像エンコーダ52、映像パケットデータ生成部53及び遅延部55を有する。通信システム1Aは、更に映像データ生成部51に接続されたビデオカメラ18を有する。
【0080】
ビデオカメラ18は、通信装置10A側のユーザの映像を撮影し、アナログ映像信号を生成する。
【0081】
映像データ生成部51は、ビデオカメラ18から供給されるアナログ映像信号をデジタル化する処理を行い、デジタル形式の映像データを生成する。映像データ生成部51は、生成した映像データを映像エンコーダ52に供給する。なお、映像データ生成部51の機能を、ビデオカメラ18が備えていてもよい。この場合、通信装置10Aから映像データ生成部51の機能を削減することができる。
【0082】
映像エンコーダ52は、映像データ生成部51から供給される映像データを符号化することにより圧縮する。符号化方式の一例として、MPEG−4、H.264などが挙げられる。映像エンコーダ52は、符号化した映像データ(以下、符号化映像データという)を映像パケットデータ生成部53に供給する。
【0083】
映像パケットデータ生成部53は、映像エンコーダ52から供給される符号化映像データをパケット化する処理を行い、映像パケットデータを生成する。映像パケットデータ生成部53は、生成した映像パケットデータを送信部16に供給する。
【0084】
遅延部55は、音声エンコーダ14と、音声パケットデータ生成部15との間に設けられている。遅延部55は、音声エンコーダ14から供給される符号化音声データの、音声パケットデータ生成部15への供給を遅延させる。本実施形態に係る通信装置10Aにおいては、映像エンコーダ52による映像データの符号化処理に要する時間は、音声エンコーダ14による音声データの符号化処理に要する時間と比較して長いものとする。遅延部55によって符号化音声データの、音声パケットデータ生成部15への供給を遅延させることにより、符号化音声データと符号化映像データとの遅延差を小さくするリップシンク機能を実現することができる。
【0085】
送信部16は、音声パケットデータ生成部15から供給される音声パケットデータ及び映像パケットデータ生成部53から供給される映像パケットデータを、ネットワーク30を介して相手側の通信装置20Aに向けて送信する。
【0086】
通信装置20Aは、上記した第1の実施形態に係る通信装置20における受信部21、表示処理部22、再生処理部25(音声デコーダ23及び音声信号生成部24)と、スピーカ26、表示部27とを有し、更に映像デコーダ63及び映像信号生成部64を有する。通信システム1Aは、更に表示処理部22及び映像信号生成部64に接続されたモニタ28を有する。
【0087】
映像デコーダ63は、受信部21から供給される符号化映像データを復号する。すなわち、映像デコーダ63は、圧縮された映像データを伸長する処理を行う。映像デコーダ63は、復号した映像データを映像信号生成部64に供給する。
【0088】
映像信号生成部64は、映像デコーダ63から供給される復号されたデジタル形式の映像データを、アナログ形式に変換したアナログ映像信号を生成する。映像信号生成部64は、生成したアナログ映像信号をモニタ28に出力する。なお、映像信号生成部64の機能を、モニタ28が備えていてもよい。この場合、通信装置20Aから映像信号生成部64の機能を削減することができる。
【0089】
本実施形態に係る通信システム1Aによれば、上記した第1の実施形態に係る通信システム1と同様、送信側(通信装置10A側)のユーザが発した音声が、受信側(通信装置20A側)のスピーカ26から出力される前に、当該ユーザが発した音声の音声レベルがモニタ28に表示される。これにより、受信側において、送信側から音声が発せられたことを、当該音声がスピーカ26から出力される前に把握することができる。従って、お互いが、同時に話し始めて、会話が混信するといった問題や、相手の会話に割り込むタイミングが掴みづらいといった問題を解消することができる。
【0090】
また、本実施形態に係る通信システム1Aによれば、音声通信機能に加え、映像通信機能を有する。これにより、通信装置10A側及び20B側のユーザ同士が、お互いの表情を見ながら会話を行うことができる。また、本実施形態に係る通信システム1Aによれば、遅延部55によりリップシンク機能が実現される。人は元来、会話している人の表情を見ながら、会話のキャッチボールのタイミングを認識する。そのため、相手側の音声の音声レベルをモニタ28に表示させたとしても、相手側の表情からタイミングをとろうとする。従って、本実施形態に係る通信システム1Aにおいて、音声レベル表示とリップシンク機能とを併用することで、通信システム1Aのユーザ間においてよりスムーズな会話を行うことが可能となる。