(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-06-27
(45)【発行日】2022-07-05
(54)【発明の名称】通信端末及び会議システム
(51)【国際特許分類】
H04N 7/15 20060101AFI20220628BHJP
H04M 3/56 20060101ALI20220628BHJP
【FI】
H04N7/15 150
H04M3/56 Z
(21)【出願番号】P 2018064176
(22)【出願日】2018-03-29
【審査請求日】2021-01-18
(73)【特許権者】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】100134832
【氏名又は名称】瀧野 文雄
(72)【発明者】
【氏名】袴谷 未来
【審査官】鈴木 順三
(56)【参考文献】
【文献】特開2009-171119(JP,A)
【文献】特開2004-173180(JP,A)
【文献】特開2011-199327(JP,A)
【文献】特開2007-060460(JP,A)
【文献】特開2016-029468(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 7/10 - 7/56
H04N 21/00 - 21/858
H04M 3/38 - 3/58
(57)【特許請求の範囲】
【請求項1】
複数の通信端末間の少なくとも音声を中継する会議サーバと、前記音声を用いて議事録を作成する議事録サーバと接続可能な通信端末において、
自拠点に配置された他の通信端末との連結を検出する検出部と、
前記検出部によって前記連結が検出されていない場合、接続先を前記会議サーバに設定し、前記検出部によって前記連結が検出された場合、接続先を前記議事録サーバに設定する接続先設定部と、
マイクと、
スピーカと、
前記マイクに入力された自拠点の参加者の発話である第1の音声と、
前記スピーカまたは前記
自拠点に配置された他の通信端末が備えるスピーカから出力されて前記マイクに入力された他拠点の参加者の発話である第2の音声と、に対して、前記接続先が前記議事録サーバに設定されている場合、議事録作成用の音響処理を実行し、前記接続先が前記会議サーバに設定されている場合、会議用の音響処理を実行する音響処理部と、
前記音響処理部によって前記議事録作成用の音響処理もしくは前記会議用の音響処理が実行された後の前記第1の音声と前記第2の音声とを前記接続先が前記議事録サーバに設定されている場合、前記議事録サーバに送信し、前記接続先が前記会議サーバに設定されている場合、前記会議サーバに送信する送信部と、を備えることを特徴とする通信端末。
【請求項2】
前記会議用の音響処理は、前記マイクに入力された音声から前記第2の音声を除去するエコーキャンセラを含み、
前記議事録作成用の音響処理は、前記エコーキャンセラを含まないことを特徴とする請求項1に記載の通信端末。
【請求項3】
前記会議用の音響処理及び前記議事録作成用の音響処理は、周辺ノイズを除去する
ノイズサプレッサーを含み、
前記議事録作成用のノイズサプレッサー
は、前記会議用のノイズサプレッサー
よりも除去効果が
弱く設定されていることを特徴とする請求項1又は2に記載の通信端末。
【請求項4】
前記会議サーバと、
前記議事録サーバと、
前記議事録サーバに接続する請求項1に記載の通信端末と、
前記会議サーバに接続する前記通信端末と同じ拠点に配置された他の通信端末と、
前記会議サーバを介して前記他の通信端末と音声を送受信する他拠点に配置された通信端末と、を備えたことを特徴とする会議システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、通信端末及び会議システムに関する。
【背景技術】
【0002】
近年、インターネット等の通信ネットワークを介して遠隔地間で会議を行う会議システムが普及している。
【0003】
この会議システムでは、互いに遠隔地にある複数の会議室に通信端末を設置する。通信端末は各々、会議の当事者などの会議室の画像および発言などの音声を撮影および収集する。そして、通信端末は各々、撮影および収集した画像および音声をデジタルデータに変換して、他の会議室に設定された他の通信端末に送信する。また、通信端末は、他の通信端末から画像や音声を受信すると、ディスプレイに画像表示およびスピーカに音声出力する。これにより、実際の会議に近い状態で遠隔地間の会議を行う技術が既に知られている。
【0004】
また、通信端末が、収集した音声を音声認識エンジンに送信し、音声認識エンジンが、当事者などの発言内容を自動でテキスト化し、議事録を自動生成する技術が既に知られている。
【0005】
上記技術の一例として特許文献1の会議システムが挙げられる。特許文献1の会議システムでは、複数の会議端末(通信端末)各々が、自身が設置されている会議室(自拠点)の音声を録画サーバ(音声認識エンジン)に送信し、録画サーバが各会議端末から受信した音声を時系列に合成して議事録を作成している。
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、音声認識エンジン(機械)が認識しやすいノイズ除去処理などの音響処理と、遠隔会議の対向拠点の人が聴き取りやすい(自然な)音響処理と、は異なる。このため、通信端末では、議事録作成用と、会議用と、で2種類の異なる音響処理を行う必要があるため、音声処理チップが2つ必要になってしまいコストアップとなってしまうという問題があった。
【0007】
本発明は、以上の背景に鑑みてなされたものであり、各通信端末が音響処理部を一つしか備えない場合であっても、議事録の作成と、参加者に聞き取りやすい音声出力と、を両立できるようにする通信端末及び会議システムを提供することを目的としている。
【課題を解決するための手段】
【0008】
上述した課題を解決するためになされた請求項1記載の発明は、複数の通信端末間の少なくとも音声を中継する会議サーバと、前記音声を用いて議事録を作成する議事録サーバと接続可能な通信端末において、他の通信端末との連結を検出する検出部と、前記検出部によって前記連結が検出されていない場合、接続先を前記会議サーバに設定し、前記検出部によって前記連結が検出された場合、接続先を前記議事録サーバに設定する接続先設定部と、マイクと、前記マイクに入力された自拠点の参加者の発話である第1の音声と、前記他の通信端末が備えるスピーカから出力されて前記マイクに入力された他拠点の参加者の発話である第2の音声と、に対して、前記接続先が前記議事録サーバに設定されている場合、議事録作成用の音響処理を実行し、前記接続先が前記会議サーバに設定されている場合、会議用の音響処理を実行する音響処理部と、前記音響処理部によって前記議事録作成用の音響処理もしくは前記会議用の音響処理が実行された後の前記第1の音声と前記第2の音声とを前記接続先が前記議事録サーバに設定されている場合、前記議事録サーバに送信し、前記接続先が前記会議サーバに設定されている場合、前記会議サーバに送信する送信部と、を備えることを特徴とする。
【発明の効果】
【0009】
以上説明したように請求項1記載の発明によれば、各拠点の通信端末が音響処理部を一つしか備えない場合であっても、議事録の作成と、参加者に聞き取りやすい音声出力と、を両立できる。
【図面の簡単な説明】
【0010】
【
図1】本発明の通信端末としての会議端末を組み込んだ会議システムの一実施形態を示す図である。
【
図2】
図1に示す会議端末の機能ブロック図である。
【
図4】
図1に示す会議端末の処理手順を示すフローチャートである。
【
図5】
図1に示す会議端末の処理手順を示すフローチャートである。
【発明を実施するための形態】
【0011】
以下、本発明の一実施形態を、図面に基づいて説明する。
【0012】
まず、会議システムの構成について
図1を参照して説明する。同図に示すように会議システム1は、会議予約サーバ11と、会議サーバ12と、議事録サーバ13と、これらサーバ11~13とインターネットNを経由して通信する複数の会議端末141~14n、15と、を備えている。
【0013】
会議予約サーバ11は、会議端末141~14n、15と通信を行い、会議端末141~14n、15から事前に会議情報(会議開催日時、会議参加者、役割、使用する会議端末等)が入力される。各会議端末141~14n、15は、起動時に会議予約サーバ11に問い合わせを行い、該当する会議を見つけた場合、事前に設定した情報に基づいて会議の制御を行う。
【0014】
会議サーバ12は、複数の会議端末141~14n間の音声、映像などを中継するサーバである。また、会議サーバ12は、各会議端末141~14nが会議サーバ12と接続しているか否かの状態モニタ、会議開始時に会議サーバ12の呼び出し制御なども行う。
【0015】
議事録サーバ13は、音声認識エンジンなどから構成され、会議端末15から受信した音声を例えばテキスト化して議事録を作成する。
【0016】
複数の会議端末141~14nは各々、各拠点の会議室に配置して、会議サーバ12と通信接続することにより、各会議室の映像や音声などを共有することができる。
図1に示す例では、会議端末141~14nを各拠点に配置して、会議サーバ12に接続させ、会議端末15を複数の会議端末141~14nの1つである会議端末141に連結させて議事録サーバ13に接続させている。
【0017】
次に、会議端末141~14n、15の構成について
図2及び
図3を参照して説明する。
【0018】
本実施形態の会議端末141~14n、15は各々、所謂インタラクティブ・ホワイトボードから構成されている。
図2などに示すように会議端末141~14n、15は、カメラ21と、タッチパネルディスプレイ22と、マイク23と、スピーカ24と、CPU25と、記憶装置26と、メモリ27と、送信部としてのLANI/F部28と、操作部29と、検出部としての連結部30と、を備えている。
【0019】
カメラ21は、周囲の映像を動画として取得し、CPU25に送信する機能を有する。カメラ21は、
図3に示すように、会議端末141~14n、15の特定の位置に固定して設置されている。このように会議端末141~14n、15にカメラ21を設けることによって、カメラ21によって撮影した各拠点の会議参加者の映像を複数の会議端末141~14n、15で共有することができる。なお、
図3に示す例では、カメラ21は1つしか設けられていないが、2つ以上設けて、発話者位置に応じて使用するカメラ21を切り替えられるようにしてもよい。
【0020】
タッチパネルディスプレイ22は、CPU25から受信した映像を画面に表示する機能有する。タッチパネルディスプレイ22は、ユーザが指もしくはペンで触れた位置を画面に表示したり、触れた位置の座標をCPU25に送信する機能を有する。このように会議端末141~14n、15にタッチパネルディスプレイ22を設けることにより、ユーザがペンもしくは指で筆記したデータを複数の会議端末141~14n、15で共有することができる。なお、タッチパネルディスプレイ22としては、例えばディスプレイ一体型の静電容量方式タッチパネルが挙げられる。また、ディスプレイとしては、LCDや電子ペーパーディスプレイが挙げられる。
【0021】
マイク23は、会議参加者の音声を取得し、CPU25に送信する機能を有する。マイク23は、会議端末141~14n、15の特定の位置に固定して設置されている。本実施形態では、マイク23は、複数並べて配置されている。これにより、会議端末141~14n、15は、複数のマイク23からの音声から発話者の方向を検出し、その方向以外からのノイズを除去する処理を行うことができる。このように会議端末141~14n、15にマイク23を設けることにより、マイク23によって得た各拠点の会議参加者の音声を複数の会議端末141~14nで、15共有することができる。なお、
図3に示す例では、マイク23は複数設けられているが、1つだけ設けるようにしてもよい。
【0022】
CPU25は、会議端末141~14n、15全体の制御を司る。CPU25は、CODEC25Aと、DSP25Bと、を有している。CODEC25Aは、カメラ21、タッチパネルディスプレイ22、マイク23、から取得した映像、描画、音声をエンコードして、後述するLANI/F部28に出力する。また、CODEC25Aは、LANI/F部28から受信した映像、描画、音声をデコードして、タッチパネルディスプレイ22やスピーカ24に出力する。このCODEC25Aの一例として、VP8やVP9、H.264/AVC、H.264/SVC、H.265がある。
【0023】
音響処理部としてのDSP25Bは、カメラ21から取得した映像の映像処理や、マイク23から取得した音声の音響処理を実行する。
【0024】
スピーカ24は、CPU25から受信した音声を出力する機能を有する。
【0025】
記憶装置26は、CPU25が行う機器制御、ビデオ会議制御等のプログラムの記憶を行う。例としてDDRメモリのような揮発性のメモリが挙げられる。
【0026】
LANI/F部28は、インターネットN等を経由して会議サーバ12と接続し、画像・音声の送受信を行う。LANI/F部28は、10Base-T、100Base-Tに対応しEthernetに接続する有線LAN、802.11a/b/g/n/acに対応した無線LANが例として挙げられる。
【0027】
操作部29は、キーボードやボタン等を有し、ユーザが会議端末141~14n、15の機器制御を行うことができる。
【0028】
連結部30は、コネクタなどから構成され、他の会議端末141~14n、15と接続(連結)することができる。連結部30は、他の会議端末141~14n、15の連結を検出し、検出結果をCPU25に出力する。
【0029】
上記構成の会議端末141~14n、15は、カメラ21、マイク23から取得した画像・音声を会議サーバ12に送信する。会議サーバ12は、受信した画像・音声を他の会議端末141~14n、15に対して送信する。
【0030】
例えば会議端末141、142、143で会議を行った場合、会議端末141が送信したデータは会議サーバ12を介して他の会議端末142、143に送信され、参加していない会議端末144~14n、15には送信されない。同様に会議端末142、143のデータは会議サーバ12を介して参加している会議端末141~143にはデータが送信され、会議に参加していない会議端末144~14n、15にはデータが送信されない。
【0031】
上記のような制御を行うことで、複数の会議端末(多拠点)間で会議を行うことができる。
【0032】
次に、上述した構成の会議システムの動作について
図4及び
図5のフローチャートを参照して以下説明する。まず、会議端末141~14nのCPU25(以下、単に会議端末141~14nと略記する)は、電源がオンすると
図4に示す処理を実行する。まず、会議端末141~14nは、DSP25Bが実行する音響処理やマイク23、スピーカ24の初期化設定を行う(ステップS1)。
【0033】
その後、会議端末141~14nは、連結部30が連結を検出したか否かを判定する(ステップS2)。会議端末141~14nは、連結部30が連結を検出したと判定すると(ステップS2でY)、自身を端末1(メイン)として設定した後(ステップS3)、ステップS4に進む。一方、会議端末141~14nは、連結部30が連結を検出していないと判定すると(ステップS2でN)、直ちにステップS4に進む。
【0034】
ステップS4において会議端末141~14nは、スピーカ24を通常の音量で出力するように設定する。また、ステップS4において会議端末141~14nは、スピーカ24から出力されてマイク23に入力された他拠点の参加者の発話である第2の音声を除去するエコーキャンセラをオンする。また、ステップS4において会議端末141~14nは、マイク23に入力された音声から周辺ノイズを除去するノイズサプレッサーを会議用に設定する。
【0035】
その後、ユーザが操作部29を操作して会議を開始すると(ステップS5でY)、会議端末141~14nは会議サーバ12に接続する(ステップS6)。これにより、会議端末141~14nは、マイク23により入力された音声にステップS4で設定された音声処理を施した後、会議サーバ12に送信する。また、会議端末141~14nは、会議サーバ12を介して他の会議端末141~14nで取得した画像、音声を受信し、タッチパネルディスプレイ22やスピーカ24に出力する。
【0036】
ステップS4ではエコーキャンセラをオンにしている。このため、ステップS6において会議端末141~14nは、マイク23に入力された音声にエコーキャンセラを実行する。結果、会議端末141~14nは、スピーカ24から出力されてマイク23に入力された他拠点の参加者の発話である第2の音声を除去し、自拠点の参加者からマイク23に直接入力された発話である第1の音声のみが会議サーバ12に送信される。
【0037】
ステップS4ではノイズサプレッサーも会議用に強めに設定されている。このため、ステップS6において会議端末141~14nは、スピーカ24から出力されてマイク23に入力された他拠点の参加者の発話をノイズとして除去するため、一層、第2の音声の除去効果を高めることができる。そして、他の会議端末141~14nは、エコーキャンセラや高い効果のノイズサプレッサが実行された音声を受信してスピーカ24から出力するため、他拠点の参加者の発話が聴き取りやすくなる。
【0038】
その後、会議が終了すると(ステップS7でY)、会議端末141~14nは、連結部30が連結解除を検出したか否かを判定する(ステップS8)。
【0039】
連結部30が連結解除を検出したと判定すると(ステップS8でY)、会議端末141~14nは、ステップS1に戻る。一方、連結部30が連結解除を検出していないと判定すると(ステップS8でN)、会議端末141~14nは、ステップS4に戻る。
【0040】
一方、会議端末15のCPU25(以下、単に会議端末と略記する)は、電源がオンすると
図5に示す処理を実行する。まず、会議端末15は、DSP25Bが実行する音響処理やマイク23、スピーカ24の初期化設定を行う(ステップS10)。
【0041】
その後、会議端末15は、連結部30が連結を検出したか否かを判定する(ステップS11)。会議端末15は、連結部30が連結を検出したと判定すると(ステップS11でY)、自身を端末2(サブ)として設定した後(ステップS12)、ステップS13に進む。
【0042】
ステップS13において会議端末15は、スピーカ24から音声が出力されないようにミュートに設定する。ステップS13において会議端末15は、上記エコーキャンセラをオフする。また、ステップS13において会議端末15は、マイク23に入力された音声から周辺ノイズを除去するノイズサプレッサーを議事録作成用に設定する。
【0043】
その後、ユーザが操作部29を操作して会議を開始すると(ステップS14でY)、会議端末15は、接続設定部として機能し、議事録サーバ13に接続する(ステップS15)。これにより、会議端末15は、マイク23により入力された音声にステップS13で設定された音声処理を施した後、議事録サーバ13に送信する。
【0044】
ステップ13ではエコーキャンセラをオフしている。このため、ステップS15において会議端末15は、マイク23に入力された音声にエコーキャンセラを実行しない。結果、会議端末15は、連結された会議端末141のスピーカ24から出力されてマイク23に入力された他拠点の参加者の発話である第2の音声が除去されず、自拠点の参加者からマイク23に直接入力された発話である第1の音声と第2の音声とが議事録サーバ13に送信される。
【0045】
ステップS13ではノイズサプレッサーも議事録作成用に弱めに設定されている。このため、ステップS15において会議端末15は、スピーカ24から出力されてマイク23に入力された他拠点の参加者の発話がノイズとして除去されることがない。これにより、一つの会議端末15から、複数の会議端末141~14nにより取得した音声が議事録サーバ13に出力される。
【0046】
その後、会議が終了すると(ステップS16でY)、会議端末15は、連結部30が連結解除を検出したか否かを判定する(ステップS17)。
【0047】
連結部30が連結解除を検出したと判定すると(ステップS17でY)、会議端末15は、ステップS1に戻る。一方、連結部30が連結解除を検出していないと判定すると(ステップS17でN)、会議端末15は、ステップS13に戻り、音響処理の設定を保持する。
【0048】
これに対して、会議端末15は、連結部30が連結を検出していないと判定すると(ステップS11でN)、ステップS18に進む。ステップS18では、会議端末15は、
図4に示すステップS4と同様に、スピーカ24を通常音量にし、エコーキャンセラをオンし、ノイズサプレッサーを会議用に設定する。
【0049】
その後、会議が開始すると(ステップS19でY)、会議端末15は会議サーバ12に接続する(ステップS20)。これにより、会議端末15は、他の会議端末141~14nと連結していないときは、他の会議端末141~14nと同様に画像やマイク23により入力された自拠点の発話者の第1の音声のみを会議サーバ12に送信する。
【0050】
その後、会議が終了すると(ステップS21でY)、会議端末15は、連結部30が連結解除を検出したか否かを判定する(ステップS22)。
【0051】
連結部30が連結解除を検出したと判定すると(ステップS22でY)、会議端末15は、ステップS1に戻る。一方、連結部30が連結解除を検出していないと判定すると(ステップS22でN)、会議端末15はステップS18に戻り音響処理の設定を保持する。
【0052】
上述した実施形態によれば、会議端末15は、マイク23に入力された自拠点の参加者の発話である第1の音声と、連結された他の会議端末141が備えたスピーカ24から出力されてマイク23に入力された他拠点の参加者の発話である第2の音声と、に対して議事録作成用の音響処理を実行する。そして、会議端末15は、議事録作成用の音響処理が実行された後の第1の音声と第2の音声とを議事録サーバ13に送信する。これにより、各拠点に配置された会議端末141~14nは、その拠点にいる発話者の音声を議事録サーバ13に送信する必要がなく、議事録作成用の音響処理を実行する必要がない。よって、各拠点の会議端末141~14nの一つに当該会議端末15を連結するだけで、各拠点の会議端末141~14nがDSP25Bを一つしか備えない場合であっても、議事録の作成と、参加者に聞き取りやすい音声出力と、を両立できる。
【0053】
また、上述した実施形態によれば、会議端末15は、連結が検出されていない場合、接続先を会議サーバ12に設定し、連結が検出された場合、接続先を議事録サーバ13に設定している。また、会議端末15は、送信先が議事録サーバ13に設定されている場合、議事録作成用の音響処理を実行し、送信先が会議サーバ12に設定されている場合、会議用の音響処理を実行する。これにより、会議端末15は、他の会議端末141~14nと連結していないときは、他の会議端末141~14nと同様に画像やマイク23により入力された自拠点の発話者の第1の音声のみを会議サーバ12に送信する。
【0054】
また、上述した実施形態によれば、会議用の音響処理は、マイク23に入力された音声から第2の音声を除去するエコーキャンセラを含み、議事録作成用の音響処理は、エコーキャンセラを含まない。これにより、より精度よく、議事録の作成と、参加者に聞き取りやすい音声出力と、を両立できる。
【0055】
また、上述した実施形態によれば、会議用の音響処理及び議事録作成用の音響処理は、周辺ノイズを除去するノイズサプレッサーを含み、議事録作成用のノイズサプレッサーと、会議用のノイズサプレッサーと、は除去効果が異なるように設定されている。これにより、より精度よく、議事録の作成と、参加者に聞き取りやすい音声出力と、を両立できる。
【0056】
なお、上述した実施形態によれば、会議端末15は、議事録作成用の音響処理と会議用の音響処理との間で切り替えることできるようにしていたが、これに限ったものではない。会議端末15としては、議事録作成用の音響処理のみが行えるようなものであってもよい。
【0057】
また、上述した実施形態によれば、会議端末141~14nは、会議用の音響処理のみ行っていたが、これに限ったものではない。会議端末141~14nは、会議端末15と同様に、議事録作成用の音響処理と会議用の音響処理との間で切り替えることできるようにして、これら会議端末141~14nがどれでも議事録サーバ13と接続する端末にできるようにしてもよい。
【0058】
なお、本発明は上記実施形態に限定されるものではない。即ち、本発明の骨子を逸脱しない範囲で種々変形して実施することができる。
【符号の説明】
【0059】
12 会議サーバ
13 議事録サーバ
15 会議端末(通信端末)
23 マイク
24 スピーカ
25 CPU(接続設定部)
25B DSP(音響処理部)
28 送信部
30 連結部(検出部)
141 会議端末(同じ拠点に配置された他の通信端末)
142~14n 会議端末(他拠点に配置された通信端末)
【先行技術文献】
【特許文献】
【0060】