(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022108957
(43)【公開日】2022-07-27
(54)【発明の名称】データ処理装置、データ処理システム、音声処理方法
(51)【国際特許分類】
H04M 3/56 20060101AFI20220720BHJP
H04N 7/15 20060101ALI20220720BHJP
H04N 21/442 20110101ALI20220720BHJP
【FI】
H04M3/56 C
H04N7/15
H04N21/442
【審査請求】未請求
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2021004208
(22)【出願日】2021-01-14
(71)【出願人】
【識別番号】000000295
【氏名又は名称】沖電気工業株式会社
(74)【代理人】
【識別番号】100140958
【弁理士】
【氏名又は名称】伊藤 学
(74)【代理人】
【識別番号】100137888
【弁理士】
【氏名又は名称】大山 夏子
(74)【代理人】
【識別番号】100190942
【弁理士】
【氏名又は名称】風間 竜司
(72)【発明者】
【氏名】鳥越 真
【テーマコード(参考)】
5C164
5K201
【Fターム(参考)】
5C164FA10
5C164PA41
5C164UB41P
5C164VA06S
5C164VA09P
5C164VA11S
5C164VA17P
5C164YA21
5K201BB09
5K201CA02
5K201CA06
5K201CA10
5K201DB07
5K201EA05
5K201FA02
(57)【要約】
【課題】利用者間での会話による確認無しにデータの到達状況を確認することを可能とする。
【解決手段】他のデータ処理装置から第1の符号化データを受信する受信部と、前記受信部により受信された第1の符号化データを復号する復号部と、前記復号部により得られたデータを符号化して第2の符号化データを生成する符号化部と、前記第1の符号化データが前記他の通信装置から特定の動作モードで送信されたデータであると判断される場合に、前記第2の符号化データの前記他の通信装置への送信を制御する制御部と、を備える、データ処理装置。
【選択図】
図2
【特許請求の範囲】
【請求項1】
他のデータ処理装置から第1の符号化データを受信する受信部と、
前記受信部により受信された第1の符号化データを復号する復号部と、
前記復号部により得られたデータを符号化して第2の符号化データを生成する符号化部と、
前記第1の符号化データが前記他の通信装置から特定の動作モードで送信されたデータであると判断される場合に、前記第2の符号化データの前記他の通信装置への送信を制御する制御部と、
を備える、データ処理装置。
【請求項2】
前記データ処理装置は、前記復号部により得られた前記データに基づいて音声または映像を出力する出力部をさらに備え、
前記出力部は、前記制御部により第1の符号化データが前記他のデータ処理装置から前記特定の動作モードで送信されたデータであると判断された場合、前記復号部により得られた前記データに基づいて音声および映像を出力しない、請求項1に記載のデータ処理装置。
【請求項3】
前記符号化部は、前記第1の符号化データの生成に用いられた第1の処理方式よりも品質の劣化が小さい第2の処理方式を用いて前記第2の符号化データを生成する、請求項1または2に記載のデータ処理装置。
【請求項4】
前記制御部は、前記第1の符号化データの通信に用いられた第1の通信方式よりも信頼性が高い第2の通信方式で前記第2の符号化データの送信を制御する、請求項1~3のいずれか一項に記載のデータ処理装置。
【請求項5】
前記制御部は、前記第1の符号化データに所定のフラグが付加されていることに基づき、前記第1の符号化データが前記他のデータ処理装置から特定の動作モードで送信されたデータであると判断する、請求項1~4のいずれか一項に記載のデータ処理装置。
【請求項6】
第1のデータ処理装置および第2のデータ処理装置を有するデータ処理システムであって、
前記第1のデータ処理装置は、
データを符号化して得られた第1の符号化データを前記第2のデータ処理装置に送信し、
前記第2のデータ処理装置は、
前記第1のデータ処理装置から第1の符号化データを受信する受信部と、
前記受信部により受信された第1の符号化データを復号する復号部と、
前記復号部により得られたデータを符号化して第2の符号化データを生成する符号化部と、
前記第1の符号化データが前記第1のデータ処理装置から特定の動作モードで送信されたデータであると判断される場合に、前記第2の符号化データの前記第1のデータ処理装置への送信を制御する制御部と、
を備える、データ処理システム。
【請求項7】
他のデータ処理装置から第1の符号化データを受信することと、
前記第1の符号化データを復号することと、
前記第1の符号化データの復号により得られたデータを符号化して第2の符号化データを生成することと、
前記第1の符号化データが前記他のデータ処理装置から特定の動作モードで送信されたデータであると判断される場合に、前記第2の符号化データの前記他のデータ処理装置への送信を制御することと、
を含む、音声処理方法。
【請求項8】
入力されたデータを符号化して符号化データを生成する符号化部と、
前記符号化データを他のデータ処理装置に送信する送信部と、
前記他のデータ処理装置から第1の符号化データまたは第2の符号化データを受信する受信部と、
第1の動作モードにおいては前記第1の符号化データに基づく音声または映像の出力を制御し、第2の動作モードにおいては前記第2の符号化データに基づく音声または映像の出力を制御する制御部と、
を備える、データ処理装置。
【請求項9】
前記第1の符号化データは第1の通信方式を用いて送信されたデータであり、前記第2の符号化データは、前記第1の通信方式よりも信頼性が高い第2の通信方式で送信されたデータであり、
前記受信部は、
前記第1の通信方式に対応し、前記第1の符号化データを受信する第1受信部、および
前記第2の通信方式に対応し、前記第2の符号化データを受信する第2受信部、
を有する、請求項8に記載のデータ処理装置。
【請求項10】
前記第1の符号化データは第1の処理方式を用いて生成されたデータであり、前記第2の符号化データは前記第1の処理方式よりも品質の劣化が小さい第2の処理方式を用いて生成されたデータであり、
前記データ処理装置は、
前記第1の処理方式に対応し、前記第1の符号化データを復号する第1復号部、および、
前記第2の処理方式に対応し、前記第2の符号化データを復号する第2復号部、
を有する、請求項8または9に記載のデータ処理装置。
【請求項11】
前記データ処理装置は、入力されたデータを保持する第1バッファをさらに備え、
前記制御部は、前記第1バッファに保持されたデータを前記符号化部に供給する、請求項8~10のいずれか一項に記載のデータ処理装置。
【請求項12】
前記データ処理装置は、複数の他のデータ処理装置から受信された複数の前記第2の符号化データを復号して得られた複数のデータを保持する第2バッファをさらに備え、
前記制御部は、前記第2バッファに保持された複数のデータの出力を順次に制御する、請求項8~11のいずれか一項に記載のデータ処理装置。
【請求項13】
前記送信部は、前記第2の動作モードにおいては、所定のフラグと共に前記符号化データを送信する、請求項8~12のいずれか一項に記載のデータ処理装置。
【請求項14】
入力されたデータを符号化して符号化データを生成することと、
前記符号化データを他のデータ処理装置に送信することと、
前記他のデータ処理装置から第1の符号化データまたは第2の符号化データを受信することと、
第1の動作モードにおいては前記第1の符号化データに基づく音声または映像の出力を制御し、第2の動作モードにおいては前記第2の符号化データに基づく音声または映像の出力を制御することと、
を含む、音声処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ処理装置、データ処理システム、音声処理方法に関する。
【背景技術】
【0002】
近年、パンデミック対策として各企業においてテレワークの導入が加速している。テレワークにおいては、オフィスと在宅のテレワーカー、または在宅のテレワーカー同士がインターネット経由で結ばれ、ネットワーク対応のTV会議システムまたはPC上のビデオ通話ソフトを用いて、リモート会議、研修および遠隔コミュニケーションなどが行われる。
【0003】
上記のTV会議システムおよびビデオ通話ソフトでは、使用される装置の種別や構成によっては会議参加時に映像や音声に不具合が生じる場合がある。このため、利用者が会議に参加する前にTV会議システムの動作確認を行える仕組みが知られている。例えば、特許文献1には、会議で使用する通常モードと、事前確認用のセルフチェックモードを備え、遠隔会議時に相手側に伝えられる音声品質を確認できる技術が開示されている。当該技術では、セルフチェックモードにおいて、利用者の発話音声が圧縮された後、当該利用者の端末内で圧縮された発話音声がループバックされ、さらに伸張された後に発話音声が再生される。これにより、利用者は、音声の圧縮と伸張による劣化具合を確認し得る。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、利用者の音声データが会議に参加する他の利用者の端末に向けて送信されても、ネットワークまたは他の利用者の端末の問題などにより、利用者の音声が他の利用者の端末から出力されないことがある。このため、会議開催の都度、参加する利用者間で「音声届いていますか?」といった会話による確認が行われることが多い。これは利用者が増える度に繰り返され、会議の途中参加の場合は逆に会議を中断するわけにもいかず、確認ができないままの場合がある。なお、特許文献1に記載の技術は、利用者の発話音声を利用者の端末内でループバックする技術であるので、特許文献1に記載の技術では利用者の音声データが会議に参加する他の利用者の端末に届くか否かを確認することは困難である。
【0006】
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、利用者間での会話による確認無しにデータの到達状況を確認することが可能な、新規かつ改良されたデータ処理装置、データ処理システム、音声処理方法を提供することにある。
【課題を解決するための手段】
【0007】
上記課題を解決するために、本発明のある観点によれば、他のデータ処理装置から第1の符号化データを受信する受信部と、前記受信部により受信された第1の符号化データを復号する復号部と、前記復号部により得られたデータを符号化して第2の符号化データを生成する符号化部と、前記第1の符号化データが前記他の通信装置から特定の動作モードで送信されたデータであると判断される場合に、前記第2の符号化データの前記他の通信装置への送信を制御する制御部と、を備える、データ処理装置が提供される。
【0008】
前記データ処理装置は、前記復号部により得られた前記データに基づいて音声または映像を出力する出力部をさらに備え、前記出力部は、前記制御部により第1の符号化データが前記他のデータ処理装置から前記特定の動作モードで送信されたデータであると判断された場合、前記復号部により得られた前記データに基づいて音声および映像を出力しなくてもよい。
【0009】
前記符号化部は、前記第1の符号化データの生成に用いられた第1の処理方式よりも品質の劣化が小さい第2の処理方式を用いて前記第2の符号化データを生成してもよい。
【0010】
前記制御部は、前記第1の符号化データの通信に用いられた第1の通信方式よりも信頼性が高い第2の通信方式で前記第2の符号化データの送信を制御してもよい。
【0011】
前記制御部は、前記第1の符号化データに所定のフラグが付加されていることに基づき、前記第1の符号化データが前記他のデータ処理装置から特定の動作モードで送信されたデータであると判断してもよい。
【0012】
また、上記課題を解決するために、本発明の別の観点によれば、第1のデータ処理装置および第2のデータ処理装置を有するデータ処理システムであって、前記第1のデータ処理装置は、データを符号化して得られた第1の符号化データを前記第2のデータ処理装置に送信し、前記第2のデータ処理装置は、前記第1のデータ処理装置から第1の符号化データを受信する受信部と、前記受信部により受信された第1の符号化データを復号する復号部と、前記復号部により得られたデータを符号化して第2の符号化データを生成する符号化部と、前記第1の符号化データが前記第1のデータ処理装置から特定の動作モードで送信されたデータであると判断される場合に、前記第2の符号化データの前記第1のデータ処理装置への送信を制御する制御部と、を備える、データ処理システムが提供される。
【0013】
また、上記課題を解決するために、本発明の別の観点によれば、他のデータ処理装置から第1の符号化データを受信することと、前記第1の符号化データを復号することと、前記第1の符号化データの復号により得られたデータを符号化して第2の符号化データを生成することと、前記第1の符号化データが前記他のデータ処理装置から特定の動作モードで送信されたデータであると判断される場合に、前記第2の符号化データの前記他のデータ処理装置への送信を制御することと、を含む、音声処理方法が提供される。
【0014】
また、上記課題を解決するために、本発明の別の観点によれば、入力されたデータを符号化して符号化データを生成する符号化部と、前記符号化データを他のデータ処理装置に送信する送信部と、前記他のデータ処理装置から第1の符号化データまたは第2の符号化データを受信する受信部と、第1の動作モードにおいては前記第1の符号化データに基づく音声または映像の出力を制御し、第2の動作モードにおいては前記第2の符号化データに基づく音声または映像の出力を制御する制御部と、を備える、データ処理装置が提供される。
【0015】
前記第1の符号化データは第1の通信方式を用いて送信されたデータであり、前記第2の符号化データは、前記第1の通信方式よりも信頼性が高い第2の通信方式で送信されたデータであり、前記受信部は、前記第1の通信方式に対応し、前記第1の符号化データを受信する第1受信部、および前記第2の通信方式に対応し、前記第2の符号化データを受信する第2受信部、を有してもよい。
【0016】
前記第1の符号化データは第1の処理方式を用いて生成されたデータであり、前記第2の符号化データは前記第1の処理方式よりも品質の劣化が小さい第2の処理方式を用いて生成されたデータであり、前記データ処理装置は、前記第1の処理方式に対応し、前記第1の符号化データを復号する第1復号部、および、前記第2の処理方式に対応し、前記第2の符号化データを復号する第2復号部、を有してもよい。
【0017】
前記データ処理装置は、入力されたデータを保持する第1バッファをさらに備え、前記制御部は、前記第1バッファに保持されたデータを前記符号化部に供給してもよい。
【0018】
前記データ処理装置は、複数の他のデータ処理装置から受信された複数の前記第2の符号化データを復号して得られた複数のデータを保持する第2バッファをさらに備え、前記制御部は、前記第2バッファに保持された複数のデータの出力を順次に制御してもよい。
【0019】
前記送信部は、前記第2の動作モードにおいては、所定のフラグと共に前記符号化データを送信してもよい。
【0020】
また、上記課題を解決するために、本発明の別の観点によれば、入力されたデータを符号化して符号化データを生成することと、前記符号化データを他のデータ処理装置に送信することと、前記他のデータ処理装置から第1の符号化データまたは第2の符号化データを受信することと、第1の動作モードにおいては前記第1の符号化データに基づく音声または映像の出力を制御し、第2の動作モードにおいては前記第2の符号化データに基づく音声または映像の出力を制御することと、を含む、音声処理方法が提供される。
【発明の効果】
【0021】
以上説明した本発明によれば、利用者間での会話による確認無しにデータの到達状況を確認することが可能である。
【図面の簡単な説明】
【0022】
【
図1】本発明の一実施形態によるデータ処理システムの構成を示す説明図である。
【
図2】本発明の一実施形態による音声処理装置20の構成を示す説明図である。
【
図3】本発明の一実施形態によるデータ処理システムにおける接続シーケンスを示す説明図である。
【
図4】音声処理装置20Aが試験モードに移行した場合の処理シーケンスを示す説明図である。
【
図5】音声処理装置20Aおよび音声処理装置20Bの通常モードにおける音声データの流れを示す説明図である。
【
図6】音声処理装置20が試験モードで動作し、音声処理装置20Bが通常モードで動作している場合の音声データの流れを示す説明図である。
【
図7】音声処理装置20のハードウェア構成を示したブロック図である。
【発明を実施するための形態】
【0023】
以下に添付図面を参照しながら、本発明の実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
【0024】
また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。例えば、実質的に同一の機能構成または論理的意義を有する複数の構成を、必要に応じて音声処理装置20A、20Bおよび20Cのように区別する。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、複数の構成要素の各々に同一符号のみを付する。例えば、音声処理装置20A、20Bおよび20Cを特に区別する必要が無い場合には、各音声処理装置を単に音声処理装置20と称する。
【0025】
<1.データ処理システムの概要>
本発明の一実施形態は、遠隔する拠点から複数の利用者が参加する音声会議を実現するデータ処理システムに関する。まず、
図1を参照し、本発明の一実施形態によるデータ処理システムの概要を説明する。
【0026】
図1は、本発明の一実施形態によるデータ処理システムの構成を示す説明図である。
図1に示したように、本発明の一実施形態によるデータ処理システムは、音声処理装置20A~20Fおよび会議サーバ30を有する。
【0027】
これら音声処理装置20A~20Fおよび会議サーバ30はネットワーク12を介して接続されている。ネットワーク12は、ネットワーク12に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク12は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク12は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。
【0028】
図1に示した例では、音声処理装置20A、音声処理装置20Bおよび音声処理装置20Cが同じ音声会議に参加するグループG1に属し、音声処理装置20Dおよび音声処理装置20Eが他の音声会議に参加するグループG2に属し、音声処理装置20Fはいずれの音声会議にも参加していない。
【0029】
また、
図1に示した例では、利用者UAが音声処理装置20Aを利用し、利用者UBが音声処理装置20Bを利用し、利用者UCが音声処理装置20Cを利用し、利用者UDが音声処理装置20Dを利用し、利用者UEが音声処理装置20Eを利用し、利用者UFが音声処理装置20Fを利用している。ただし、データ処理システムを構成する音声処理装置20の数、およびデータ処理システムを利用する利用者Uの数は、より少なくてもよいし、より多くてもよい。
【0030】
(会議サーバ)
会議サーバ30は、各音声処理装置20の会議への参加と退出を管理する。例えば、会議サーバ30は、WebRTC(Web Real-Time Communication)のような会議用のプロトコルを用いて各音声処理装置20の会議への参加と退出を管理する。映像データおよび音声データの通信は、会議サーバ30を介さずに、上記グループG1内およびグループG2内などのグループ内で行われる。なお、音声処理装置20同士がPeer2Peerで接続する場合には、会議サーバ30は設けられなくてもよい。
【0031】
(音声処理装置)
音声処理装置20は、データ処理装置の一例であり、音声処理装置20の利用者が発した音声を示す音声データを他の音声処理装置20に送信する。また、音声処理装置20は、他の音声処理装置20の利用者が発した音声を示す音声データを他の音声処理装置20から受信し、当該音声データに基づいて他の音声処理装置20の利用者が発した音声を出力する。
【0032】
例えば、
図1に示した例では、利用者UAが発した音声を示す音声データを音声処理装置20Aが音声処理装置20Bおよび音声処理装置20Cに送信し、音声処理装置20Bおよび音声処理装置20Cが当該音声データに基づいて利用者UAが発した音声を出力する。また、利用者UBが発した音声を示す音声データを音声処理装置20Bが音声処理装置20Aに送信し、音声処理装置20Aが当該音声データに基づいて利用者UBが発した音声を出力する。また、利用者UCが発した音声を示す音声データを音声処理装置20Cが音声処理装置20Aに送信し、音声処理装置20Aが当該音声データに基づいて利用者UCが発した音声を出力する。かかる構成により、利用者UA、利用者UBおよび利用者UCが音声会議を行うことが可能である。
【0033】
なお、音声処理装置20は、音声データに加えて、映像データを他の音声処理装置20と送受信してもよい。また、
図1においては音声処理装置20の一例としてノート型のPC(Personal Computer)を示しているが、音声処理装置20は、デスクトップ型のPC、スマートフォン、携帯電話またはPHS(Personal Handyphone System)などの他の情報処理装置であってもよい。
【0034】
(背景)
このようなデータ処理システムにおいては、利用者の音声データが会議に参加する他の利用者の音声処理装置に向けて送信されても、ネットワークまたは他の利用者の音声処理装置の問題などにより、利用者の音声が他の利用者の音声処理装置から出力されないことがある。このため、会議開催の都度、参加する利用者間で「音声届いていますか?」といった会話による確認が行われることが多い。これは利用者が増える度に繰り返され、会議の途中参加の場合は逆に会議を中断するわけにもいかず、確認ができないままの場合がある。
【0035】
また、場合によっては受信側の音声処理装置の出力の問題でありながら送信側の音声処理装置の問題であるかのように指摘され、トラブル解決に時間を割かれることがある。逆に、送信側の音声処理装置の障害でありながら、利用者が受信側の音声処理装置の障害であるかのように勘違いすることもある。さらに、遠隔会議はネットワーク環境に大きく左右されるので、パケットの遅延やロスの影響で音声データの品質が低下することがあるが、会議途中で動作確認を行うことが困難であった。
【0036】
なお、会議サーバ側で映像データと音声データをループバックして音声処理装置の動作確認を行えるように会議サーバを構成することも考えられる。しかし、
図1に示したように会議中は各音声処理装置の映像データと音声データが会議サーバを介さずに送受信されるシステムにおいては、音声処理装置から他の音声処理装置への音声データの到達状況を会議途中に確認することは困難である。
【0037】
本件発明者は、上記事情を一着眼点にして本発明の一実施形態を創作するに至った。本発明の一実施形態によれば、利用者間での会話による確認無しに音声データの到達状況を確認することが可能となる。結果、音声会議を円滑に進めることが可能となる。以下、このような本発明の一実施形態の構成および動作を順次詳細に説明する。
【0038】
<2.音声処理装置の概要>
図2は、本発明の一実施形態による音声処理装置20の構成を示す説明図である。
図2に示したように、本発明の一実施形態による音声処理装置20は、音声入力部220、第1符号化部224、第1通信部228、第1復号部232、音声出力部236、操作部238、制御部240、第1バッファ244、回送部248、第2符号化部252、第2通信部256、第2復号部260および第2バッファ264を備える。
【0039】
(音声入力部220)
音声入力部220は、音声処理装置20の利用者が発した音声が入力される構成である。音声入力部220は、音声処理装置20の利用者が発した音声を電気的な音声データに変換し、音声データを第1符号化部224および第1バッファ244に供給する。音声入力部220は、マイクデバイスで構成されてもよいし、会議に使用されるカメラデバイスに搭載されるマイクであってもよい。
【0040】
(第1符号化部224)
第1符号化部224は、音声入力部220から供給された音声データを第1の処理方式を用いて符号化して符号化音声データを生成する。第1の処理方式は、非可逆の圧縮方式であってもよい。本明細書においては、第1符号化部224により生成された符号化音声データを第1の符号化音声データと称する場合もある。
【0041】
(第1通信部228)
第1通信部228は、第1符号化部224により生成された符号化音声データを他の音声処理装置20に送信する送信部(第1送信部)、および他の音声処理装置20から第1の処理方式で生成された符号化音声データを受信する受信部(第1受信部)として機能する。第1通信部228は、第1の通信方式として、例えばUDPのような会議用のプロトコルを用いて通信する。第1通信部228は、他のプロトコルとしてTCPを用いてもよいが、パケット遅延が大きくなった場合には遅延解消のためにパケットを破棄することが想定される。
【0042】
(第1復号部232)
第1復号部232は、第1通信部228により他の音声処理装置20から受信された符号化音声データを第1の処理方式を用いて復号する。
【0043】
(音声出力部236)
音声出力部236は、第1復号部232により得られた音声データに基づき、他の音声処理装置20の利用者が発した音声を出力する。音声出力部236は、スピーカデバイス、マイクデバイスと一体のヘッドセット、またはマイクスピーカなどであってもよい。また、音声出力部236は、後述の第2バッファ264から供給される音声も出力する。
【0044】
音声処理装置20の動作モードには、第1の動作モードの一例である通常モード、および第2の動作モード(特定の動作モード)の一例である試験モードがある。通常モードでは、上述した音声入力部220、第1符号化部224、第1通信部228、第1復号部232および音声出力部236が動作することにより、音声処理装置20の利用者間で音声会議を行うことが可能である。試験モードでは、後述する第2通信部256、第2復号部260および第2バッファ264などの動作により、音声処理装置20の利用者の音声データが他の音声処理装置20に到達したか否か、到達した場合にはどのような品質で到達したかを確認することが可能である。
【0045】
(操作部238)
操作部238は、音声処理装置20の利用者が音声処理装置20に情報または指示などを入力するために操作する構成である。例えば、音声処理装置20の利用者は、音声処理装置20の動作モードを通常モードと試験モードとの間で切り替えるための指示を操作部238に入力する。
【0046】
(制御部240)
制御部240は、音声処理装置20の動作全般を制御する。例えば、制御部240は、操作部238に対する利用者の指示に従い、音声処理装置20の動作モードを通常モードと試験モードとの間で切り替える。試験モードにおいては、制御部240は、例えば以下に示す制御を行う。
【0047】
制御部240は、音声入力部220から第1符号化部224への音声データの供給を停止させる。代わりに、制御部240は、第1バッファ244に保持されている音声データを第1符号化部224に供給する。第1符号化部224は、第1バッファ244から供給された音声データを符号化して符号化音声データを生成する。利用者の指示に従い、第1バッファ244を使用せず音声入力部220から第1符号化部224から供給された音声データを符号化して符号化音声データを生成してもよい。
【0048】
制御部240は、符号化音声データの送信と共に試験モードに関する情報を第1通信部228に送信させる。試験モードに関する情報は、所定のフラグ、および他の音声処理装置20からのデータ待ち受け用のアドレスおよびポートを示す情報を含む。第1通信部228がWebRTCを用いて通信を行う場合、第1通信部228は、例えばデータチャンネルを用いて当該試験モードに関する情報を送信してもよい。
【0049】
制御部240は、第1通信部228による符号化音声データの受信、第1通信部228から第1復号部232への符号化音声データの供給、第1復号部232による符号化音声データの復号、または第1復号部232から音声出力部236への音声データの供給、のうちの少なくともいずれかを停止させる。
【0050】
第2復号部260および第2バッファ264を動作状態として、第2通信部256により他の音声処理装置20から受信された符号化音声データ(第2の処理方式により生成された第2の符号化音声データ)を第2復号部260に復号させ、復号により得られた音声データを第2バッファ264に保持させ、第2バッファ264に保持された1または2以上の音声データを音声出力部236に順次出力させる。
【0051】
また、通常モードにおいては、制御部240は、例えば以下に示す制御を行う。
【0052】
制御部240は、第2復号部260および第2バッファ264を非動作状態とする。
【0053】
制御部240は、第1通信部228により他の音声処理装置20から符号化音声データと共に試験モードを示す情報が受信された場合、符号化音声データが他の音声処理装置20から試験モードで送信されたデータであると判断する。
【0054】
符号化音声データが他の音声処理装置20から試験モードで送信されたデータである場合、制御部240は、第1復号部232により当該符号化音声データから得られた音声データを音声出力部236に供給しない。代わりに、制御部240は、回送部248に第2符号化部252に回送させる。結果、第2符号化部252が当該音声データを第2の処理方式で符号化して符号化音声データを生成し、第2通信部256が当該符号化音声データを他の音声処理装置20に第2の通信方式を用いて送信する。
【0055】
(第1バッファ244)
第1バッファ244は、音声入力部220から供給される音声データの一部を試験用の音声データとして一時的に保持する。試験モードにおいて、利用者からの操作部238への操作に基づいて第1バッファ244から第1符号化部224に音声データが供給される。
【0056】
(回送部248)
回送部248は、第1通信部228により他の音声処理装置20から符号化音声データと共に試験モードを示す情報が受信された場合、当該符号化音声データを復号して得られた音声データを第1復号部232から第2符号化部252に受け渡す。
【0057】
(第2符号化部252)
第2符号化部252は、回送部248から受け取った音声データを第2の処理方式を用いて符号化して符号化音声データを生成する。第2の処理方式は、第1の処理方式よりも音声品質の劣化が小さい処理方式である。第2の処理方式は、音声データが劣化しない可逆性の符号化方式であってもよい。本明細書においては、第2符号化部252により生成された符号化音声データを第2の符号化音声データと称する場合もある。
【0058】
(第2通信部256)
第2通信部256は、第2符号化部252により生成された符号化音声データを、試験モードを示す情報と共に符号化音声データを送信した他の音声処理装置20に送信する送信部(第2送信部)、および他の音声処理装置20から第2の処理方式で生成された符号化音声データを受信する受信部(第2受信部)として機能する。第2通信部256は、第1の通信方式よりも信頼性が高い第2の通信方式を用いて通信を行ってもよい。そのような第2の通信方式としては、例えば、パケット遅延が起きても音声データの保全を最優先とするTCPが挙げられる。なお、第2通信部256と第1通信部228とは同一のネットワークデバイスにおいて実現される機能であってもよい。
【0059】
(第2復号部260)
第2復号部260は、第2通信部256により他の音声処理装置20から受信された符号化音声データを第2の処理方式を用いて復号する。
【0060】
(第2バッファ264)
第2バッファ264は、第2復号部260により得られた音声データを一時的に保持する。第2バッファ264は、音声処理装置20と通信する他の音声処理装置20が複数台あり、複数の音声処理装置20から第2通信部256により符号化音声データが受信された場合に、複数の符号化音声データを復号して得られた複数の音声データを保持する。第2バッファ264により保持された複数の音声データは、制御部240による制御に従って音声出力部236から順次に音声として出力される。なお、音声処理装置20と通信する他の音声処理装置20が1台である場合には第2バッファ264は音声データを保持せず、音声出力部236が当該音声データに基づいて音声を出力してもよい。
【0061】
<3.動作>
以上、本発明の一実施形態による音声処理装置20の構成を説明した。続いて、本発明の一実施形態によるデータ処理システムの動作を説明する。
【0062】
(接続シーケンス)
まず、
図3を参照して、本発明の一実施形態によるデータ処理システムにおける接続シーケンスを説明する。
【0063】
図3は、本発明の一実施形態によるデータ処理システムにおける接続シーケンスを示す説明図である。
図3に示したように、まず、利用者UAが音声処理装置20Aの操作部238に対して会議への接続操作を行う(S1)。会議への接続は、会議サーバ30が事前に用意した会議室を指定する方法でもよいし、新たに会議室を作成する方法でもよい。音声処理装置20Aは、利用者UAからの操作に従い、会議サーバ30へ接続要求を送信する(S2)。
【0064】
同様に、まず、利用者UBが音声処理装置20Bの操作部238に対して会議への接続操作を行うと(S3)、音声処理装置20Bが会議サーバ30へ接続要求を送信する(S4)。音声処理装置20Aおよび音声処理装置20Bが同一の会議室を指定した場合、会議サーバ30が音声処理装置20Aおよび音声処理装置20Bに互いにPeer2Peerで通信を行うように接続指示を出し(S5,S6)、音声処理装置20Aおよび音声処理装置20Bが接続を確立する(S7,S8)。
【0065】
接続の確立後、利用者UAが音声処理装置20Aに向かって発話すると(S9)、音声処理装置20Aの第1符号化部224が符号化音声データを生成し、符号化音声データを音声処理装置20Bに送信する(S10)。そして、音声処理装置20Bの第1復号部232が符号化音声データを復号し、復号により得られた音声データに基づいて音声処理装置20Bの音声出力部236が利用者UAの音声を出力する(S11)。
【0066】
同様に、利用者UBが音声処理装置20Bに向かって発話すると(S12)、音声処理装置20Bの第1符号化部224が符号化音声データを生成し、符号化音声データを音声処理装置20Aに送信する(S13)。そして、音声処理装置20Aの第1復号部232が符号化音声データを復号し、復号により得られた音声データに基づいて音声処理装置20Aの音声出力部236が利用者UBの音声を出力する(S14)。この間、符号化音声データは会議サーバ30を経由しない。会議室に参加する音声処理装置20が増えても同様のシーケンスにより各音声処理装置20を接続することが可能である。
【0067】
(試験モードでのシーケンス)
続いて、音声処理装置20Aおよび音声処理装置20Bの接続が確立された後に、音声処理装置20Aが試験モードに移行した場合の処理シーケンスを説明する。
【0068】
図4は、音声処理装置20Aが試験モードに移行した場合の処理シーケンスを示す説明図である。利用者UAが音声処理装置20Aに対して音声試験の開始操作を行うと(S21)、音声処理装置20Aが試験モードへ移行する(S22)。試験モードでは、後述の符号化音声データの送信において、相手装置に試験用の音声データであることを示すフラグが設定される。
【0069】
その後、利用者UAは、試験モードにおいて発話を行うか、第1バッファ244に保持している音声データを使うかの指示を出す(S23)。利用者UAが試験用の発話を行うと(S24)、音声処理装置20Aの第1バッファ244が一定時間の音声データを保持し(S25:第1バッファリング)、当該保持された音声データを第1符号化部224が第1の処理方式を用いて符号化して符号化音声データを生成する(S27:第1符号化)。
【0070】
一方、第1バッファ244に保持している音声データを使う場合、第1バッファ244に保持されている音声データがあれば、制御部240は当該音声データを第1符号化部224に供給し(S26)、第1符号化部224は当該音声データを第1の処理方式を用いて符号化して符号化音声データを生成する(S27:第1符号化)。
【0071】
いずれにしても、符号化音声データは、所定のフラグを含む試験モードに関する情報を伴って音声処理装置20Aの第1通信部228から音声処理装置20Bに送信される(S28)。試験モードに関する情報は、所定のフラグに加えて、音声処理装置20Bからのデータ待ち受け用のアドレスとポート等を示す情報を含む。
【0072】
音声処理装置20Bの第1通信部228が符号化音声データを受信すると、音声処理装置20Bの第1復号部232が当該符号化音声データを第1の処理方式を用いて復号する(S29:第1復号)。ここで、音声処理装置20Bの制御部240が所定のフラグの設定に基づいて当該符号化音声データが試験モードで送信されたデータであると判断すると、音声処理装置20Bの回送部248が復号により得られた音声データを第2符号化部252に回送し、第2符号化部252が当該音声データを第2の処理方式を用いて符号化する(S30:第2符号化)。そして、音声処理装置20Bの第2通信部256が符号化により生成された符号化音声データを音声処理装置20Aに送信する(S31)。
【0073】
音声処理装置20Aの第2通信部256が符号化音声データを受信すると、音声処理装置20Aの第2復号部260が符号化音声データを第2の処理方式を用いて復号し(S32:第2復号)、第2バッファ264が復号により得られた音声データを一時的に保持する(S33:第2バッファリング)。
【0074】
その後、音声出力部236が、第2バッファ264に保持されている音声データに基づいて音声を出力する(S34)。音声処理装置20Aの相手先の装置が複数存在する場合、音声出力部236は、第2バッファ264に保持されている複数の音声データを任意の順番で再生する。そして、制御部240が試験モード終了の処理を行い、所定のフラグの設定を外す(S35)。
【0075】
(音声データの流れ)
ここで、
図5および
図6を参照して、通常モードにおける音声データの流れ、および試験モードにおける音声データの流れを整理する。
【0076】
図5は、音声処理装置20Aおよび音声処理装置20Bの通常モードにおける音声データの流れを示す説明図である。
図5において、実線は音声処理装置20Aの利用者UAの音声データの流れを示し、二点鎖線は音声処理装置20Bの利用者UBの音声データの流れを示している。
【0077】
図5において実線で示したように、通常モードにおいては、利用者UAの音声データは、音声処理装置20Aの音声入力部220、第1符号化部224(第1バッファ244を介してもよい)、第1通信部228、そして、音声処理装置20Bの第1通信部228、第1復号部232、音声出力部236、という流れで処理される。同様に、
図5において二点鎖線で示したように、利用者UBの音声データは、音声処理装置20Bの音声入力部220、第1符号化部224(第1バッファ244を介してもよい)、第1通信部228、そして、音声処理装置20Aの第1通信部228、第1復号部232、音声出力部236、という流れで処理される。
【0078】
図6は、音声処理装置20が試験モードで動作し、音声処理装置20Bが通常モードで動作している場合の音声データの流れを示す説明図である。
図6において、実線は音声処理装置20Aの利用者UAの音声データの流れを示し、二点鎖線は音声処理装置20Bの利用者UBの音声データの流れを示している。
【0079】
図6において実線で示したように、試験モードにおいては、利用者UAの音声データは、音声処理装置20Aの音声入力部220、第1符号化部224(第1バッファ244を介してもよい)、第1通信部228、そして、音声処理装置20Bの第1通信部228、第1復号部232、回送部248、第2符号化部252、第2通信部256という流れで処理され、第2の処理方式で生成された符号化音声データが音声処理装置20Aに送信される。その後、符号化音声データが音声処理装置20Aの第2通信部256、第2復号部260、第2バッファ264、音声出力部236という流れで処理され、音声処理装置20Aの音声出力部236から利用者UAの音声が出力される。なお、音声処理装置20Bにおいて、第1復号部232から音声出力部236へは音声データが供給されないので、音声処理装置20Bの音声出力部236からは利用者UAの音声データは出力されない。
【0080】
一方、
図6において二点鎖線で示したように、音声処理装置20Aが試験モードで動作している場合には、利用者UBの音声データは、音声処理装置20Bの音声入力部220、第1符号化部224(第1バッファ244を介してもよい)、第1通信部228、そして、音声処理装置20Aの第1通信部228、第1復号部232という流れで処理される。第1復号部232により得られた音声データは音声出力部236に供給されないので、音声処理装置20Aの音声出力部236からは利用者UBの音声データは出力されない。
【0081】
<4.作用効果>
以上説明した本発明の一実施形態によれば、多様な作用効果が発揮される。例えば、本発明の一実施形態による音声処理装置20は、試験モードにおいて、利用者の音声データを他の音声処理装置20から折り返して受信し、当該音声データに基づいて利用者の音声を出力する。従って、利用者の音声データが他の音声処理装置20に到達する環境であるか否かの確認を、利用者間で「音声届いていますか?」といった会話による確認無しに行うことが可能である。結果、このような会話により会議の進行が妨げられないので、会議を円滑に進行することが可能となる。
【0082】
また、本発明の一実施形態による音声処理装置20は、ネットワーク対応のTV会議システムやPC上のビデオ通話ソフトにおいて、通常の会議や会話の際の符号化方式(第1の処理方式)および速度重視の送受信のプロトコル(第1の通信方式)に加えて、可逆式の符号化方式(第2の処理方式)と確実性重視の送受信プロトコル(第2の通信方式)に対応している。そして、他の音声処理装置20からの音声データの折り返しには、第2の処理方式および第2の通信方式が用いられる。従って、音声処理装置20の利用者は、音声処理装置20から出力される自身の音声に基づき、他の音声処理装置20で出力されるだろう音声の品質を確認することが可能である。また、音声処理装置20から出力された自身の音声の品質に問題がなければ、音声処理装置20と他の音声処理装置20の内部処理および双方のネットワークには問題がないことが分かるので、トラブル原因の追究の時間ロスを軽減することができる。
【0083】
また、本発明の一実施形態による音声処理装置20は、試験モードにおいて、他の音声処理装置20から受信された通常の音声データに基づく音声の出力を行わない。従って、音声処理装置20の利用者は、他の音声処理装置20から折り返して受信された自身の音声を明確に聞くことで、当該音声の品質をより正確に把握することが可能である。また、他の音声処理装置20においては、試験モードで動作する音声処理装置20から送信された音声データに基づく音声の出力を行わないので、試験用の音声により会議が妨げられることを防止できる。
【0084】
また、本発明の一実施形態による音声処理装置20は第2バッファ264を備えるので、音声処理装置20が複数の他の音声処理装置20と会議を行う場合でも、他の音声処理装置20の各々から折り返して受信された自身の音声を順番に聞くことが可能である。
【0085】
<5.変形例>
以上、本発明の一実施形態を説明した。以下では、上述した実施形態の幾つかの変形例を説明する。なお、以下に説明する各変形例は、単独で上述した実施形態に適用されてもよいし、組み合わせで上述した実施形態に適用されてもよい。また、各変形例は、上述した実施形態の構成に代えて適用されてもよいし、上述した実施形態の構成に対して追加的に適用されてもよい。
【0086】
上記では第2の処理方式として、通常の会議や会話の際の符号化方式(第1の処理方式)と異なる方式を説明した。しかし、第2の処理方式の種類は第1の処理方式の種類と同じであり、第2の処理方式に適用されるパラメータが第1の処理方式に適用されるパラメータと異なってもよい。また、第2の処理方式は完全可逆の方式でなく、ニアロスレスであってもよい。
【0087】
また、音声処理装置20が通常の会議や会話の際の符号化方式(第1の処理方式)および速度重視の送受信のプロトコル(第1の通信方式)に加えて、可逆式の符号化方式(第2の処理方式)と確実性重視の送受信プロトコル(第2の通信方式)に対応している例を説明したが、音声処理装置20は、第2の処理方式または第2の通信方式の一方または双方に対応していなくてもよい。すなわち、他の音声処理装置20において第1の処理方式で生成された符号化音声データが第1の通信方式で折り返されてもよい。この場合、他の音声処理装置20に届く音声データよりも品質が劣化した音声データが音声処理装置20に折り返されることになるが、音声処理装置20の利用者の音声データが他の音声処理装置20に届いているか否かの確認は可能である。
【0088】
また、上記では音声データを折り返すための機能が音声処理装置20に実装される例を説明したが、当該機能は会議サーバ30にも実装されてもよい。この場合、音声処理装置20は、会議サーバ30および他の音声処理装置20の双方から音声データの折り返しを受け、双方の音声データを比較することで、トラブルの原因究明を行い得る。例えば、会議サーバ30からは正常な音声データが折り返されたが、他の音声処理装置20からは音声データが折り返されない(または、折り返されても品質に問題がある)場合には、音声処理装置20および音声処理装置20側のネットワーク回線には問題が無く、他の音声処理装置20側に何かしらの問題があることが分かる。
【0089】
また、上記では、データの一例として音声データを説明し、符号化データの一例として符号化音声データを説明したが、映像データおよび符号化映像データにも本発明の一実施形態を適用可能である。すなわち、音声処理装置20は、映像データの折り返しのための機能を有してもよい。この場合、
図2を参照して説明した音声入力部220に加えてまたは代えてカメラのような映像入力部が用いられ、音声出力部236に加えてまたは代えてディスプレイのような映像表示部が用いられる。かかる構成によっても、音声処理装置20の利用者の映像が他の音声処理装置20に届くか否か、届く場合にはどのような品質で届くかを確認することが可能である。
【0090】
<6.ハードウェア構成>
以上、本発明の一実施形態を説明した。上述した音声データの符号化および復号などの情報処理は、ソフトウェアと、以下に説明する音声処理装置20のハードウェアとの協働により実現される。
【0091】
図7は、音声処理装置20のハードウェア構成を示したブロック図である。音声処理装置20は、CPU(Central Processing Unit)201と、ROM(Read Only Memory)202と、RAM(Random Access Memory)203と、ホストバス204と、を備える。また、音声処理装置20は、ブリッジ205と、外部バス206と、インターフェース207と、入力装置208と、表示装置209と、音声出力装置210と、ストレージ装置(HDD)211と、ドライブ212と、ネットワークインターフェース215とを備える。
【0092】
CPU201は、演算処理装置および制御装置として機能し、各種プログラムに従って音声処理装置20内の動作全般を制御する。また、CPU201は、マイクロプロセッサであってもよい。ROM202は、CPU201が使用するプログラムや演算パラメータ等を記憶する。RAM203は、CPU201の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはCPUバスなどから構成されるホストバス204により相互に接続されている。これらCPU201、ROM202およびRAM203とソフトウェアとの協働により、上述した第1符号化部224、第1復号部232、制御部240、回送部248、第2符号化部252および第2通信部256などの機能が実現され得る。
【0093】
ホストバス204は、ブリッジ205を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス206に接続されている。なお、必ずしもホストバス204、ブリッジ205および外部バス206を分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。
【0094】
入力装置208は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、センサー、スイッチおよびレバーなどユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、CPU201に出力する入力制御回路などから構成されている。音声処理装置20のユーザは、該入力装置208を操作することにより、音声処理装置20に対して各種のデータを入力したり処理動作を指示したりすることができる。
【0095】
表示装置209は、例えば、液晶ディスプレイ(LCD)装置、プロジェクター装置、OLED(Organic Light Emitting Diode)装置およびランプなどの表示装置を含む。また、音声出力装置210は、スピーカおよびヘッドホンなどの音声出力装置を含む。
【0096】
ストレージ装置211は、本実施形態にかかる音声処理装置20の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置211は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。ストレージ装置211は、例えば、HDD(Hard Disk Drive)またはSSD(Solid Strage Drive)、あるいは同等の機能を有するメモリ等で構成される。このストレージ装置211は、ストレージを駆動し、CPU201が実行するプログラムや各種データを格納する。
【0097】
ドライブ212は、記憶媒体用リーダライタであり、音声処理装置20に内蔵、あるいは外付けされる。ドライブ212は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体24に記録されている情報を読み出して、RAM203またはストレージ装置211に出力する。また、ドライブ212は、リムーバブル記憶媒体24に情報を書き込むこともできる。
【0098】
ネットワークインターフェース215は、例えば、ネットワーク12に接続するための通信デバイス等で構成された通信インターフェースである。また、ネットワークインターフェース215は、無線LAN(Local Area Network)対応通信装置であっても、有線による通信を行うワイヤー通信装置であってもよい。
【0099】
なお、上述した音声処理装置20のハードウェア構成は会議サーバ30にも適用可能である。
【0100】
<7.補足>
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
【0101】
例えば、本明細書の音声処理装置20の処理における各ステップは、必ずしもシーケンス図またはフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、音声処理装置20の処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。
【0102】
また、音声処理装置20に内蔵されるCPU、ROMおよびRAMなどのハードウェアに、上述した音声処理装置20の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。
【符号の説明】
【0103】
20 音声処理装置
220 音声入力部
224 第1符号化部
228 第1通信部
232 第1復号部
236 音声出力部
238 操作部
240 制御部
244 第1バッファ
248 回送部
252 第2符号化部
256 第2通信部
260 第2復号部
264 第2バッファ
30 会議サーバ