特許6064209 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 東日本電信電話株式会社の特許一覧

特許6064209通話システム及び通話中継方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6064209

(24)【登録日】2017年1月6日

(45)【発行日】2017年1月25日

(54)【発明の名称】通話システム及び通話中継方法

(51)【国際特許分類】

H04M 3/00 20060101AFI20170116BHJP

【ＦＩ】

H04M3/00 B

【請求項の数】3

【全頁数】11

(21)【出願番号】特願2013-18631(P2013-18631)

(22)【出願日】2013年2月1日

(65)【公開番号】特開2014-150442(P2014-150442A)

(43)【公開日】2014年8月21日

【審査請求日】2015年7月23日

(73)【特許権者】

【識別番号】399040405

【氏名又は名称】東日本電信電話株式会社

(74)【代理人】

【識別番号】100064908

【弁理士】

【氏名又は名称】志賀正武

(74)【代理人】

【識別番号】100108453

【弁理士】

【氏名又は名称】村山靖彦

(72)【発明者】

【氏名】菊地渉

(72)【発明者】

【氏名】高松美砂子

(72)【発明者】

【氏名】小林八起

(72)【発明者】

【氏名】渡邉純

【審査官】望月章俊

(56)【参考文献】

【文献】特開２００６−１３５４５６（ＪＰ，Ａ）

【文献】特開２００２−７４０４１（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１０／００３９４９８（ＵＳ，Ａ１）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｈ０４Ｍ３／００

(57)【特許請求の範囲】

【請求項1】

第一通話端末から送信された音声及び映像を受信する第一通話中継部と、
前記第一通話中継部によって受信された音声をテキストデータに変換し、当該テキストデータを表すテキスト映像を生成する第一音声認識部と、
第二通話端末から送信された音声及び映像を受信する第二通話中継部と、
前記第二通話中継部によって受信された音声をテキストデータに変換し、当該テキストデータを表すテキスト映像を生成する第二音声認識部と、
前記第一通話中継部によって受信された映像と、前記第二通話中継部によって受信された映像と、前記第一音声認識部によって生成されたテキスト映像である第一テキスト映像と、前記第二音声認識部によって生成されたテキスト映像である第二テキスト映像と、を合成することによって合成映像を生成する合成部と、
を備え、
前記第一通話中継部は、前記合成映像を前記第一通話端末に送信し、
前記第二通話中継部は、前記合成映像を前記第二通話端末に送信し、
前記合成部は、前記第一テキスト映像と前記第二テキスト映像とを、一つの画面上の異なる領域にそれぞれ表示するように合成する、通話システム。

【請求項2】

前記第一音声認識部によって生成されたテキスト映像の入力を受け付ける第一入力部と、
前記第一通話中継部によって受信された音声及び映像の入力を受け付ける第二入力部と、
前記第二通話中継部によって受信された音声及び映像の入力を受け付ける第三入力部と、
前記第二音声認識部によって生成されたテキスト映像の入力を受け付ける第四入力部と、
をさらに備え、
前記合成部は、前記第一乃至第四入力部に入力された各映像を、予め定められた画面の領域に配置することによって前記合成映像を生成する、請求項１に記載の通話システム。

【請求項3】

第一通話端末から送信された音声及び映像を受信する第一通話受信ステップと、
前記第一通話受信ステップによって受信された音声をテキストデータに変換し、当該テキストデータを表すテキスト映像を生成する第一音声認識ステップと、
第二通話端末から送信された音声及び映像を受信する第二通話受信ステップと、
前記第二通話受信ステップによって受信された音声をテキストデータに変換し、当該テキストデータを表すテキスト映像を生成する第二音声認識ステップと、
前記第一通話受信ステップによって受信された映像と、前記第二通話受信ステップによって受信された映像と、前記第一音声認識ステップによって生成されたテキスト映像である第一テキスト映像と、前記第二音声認識ステップによって生成されたテキスト映像である第二テキスト映像と、を合成することによって合成映像を生成する合成ステップと、
前記合成映像を前記第一通話端末に送信する第一送信ステップと、
前記合成映像を前記第二通話端末に送信する第二送信ステップと、
を有し、前記合成ステップにおいて、前記第一テキスト映像と前記第二テキスト映像とを、一つの画面上の異なる領域にそれぞれ表示するように合成する通話中継方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、通話を行うための通話装置の技術に関する。

【背景技術】

【0002】

近年、ＩＣＴ（Information and Communication Technology）サービスが発達している。その具体例として、例えばユーザの感情や印象を相手に分かりやすく伝えることのできるテレビ電話端末が提案されている（特許文献１参照）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２００９−１１２０２７号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、ＩＣＴサービスの普及は一部に留まっている。例えば、高齢者にはＩＣＴサービスが十分に普及しているとは言い難い。
高齢者は、加齢により身体に様々なハンディキャップを抱えている。このことが原因となって、ＩＣＴサービスの利用が阻害されている。例えば、聴覚の衰えによって、通話相手の発話内容が聞き取りにくいという問題がある。

【0005】

上記事情に鑑み、本発明は、通話相手の発話内容をより容易に理解することを可能とする技術の提供を目的としている。

【課題を解決するための手段】

【0006】

本発明の一態様は、第一通話端末から送信された音声及び映像を受信する第一通話中継部と、前記第一通話中継部によって受信された音声をテキストデータに変換し、当該テキストデータを表すテキスト映像を生成する第一音声認識部と、第二通話端末から送信された音声及び映像を受信する第二通話中継部と、前記第二通話中継部によって受信された音声をテキストデータに変換し、当該テキストデータを表すテキスト映像を生成する第二音声認識部と、前記第一通話中継部によって受信された映像と、前記第二通話中継部によって受信された映像と、前記第一音声認識部によって生成されたテキスト映像と、前記第二音声認識部によって生成されたテキスト映像と、を合成することによって合成映像を生成する合成部と、を備え、前記第一通話中継部は、前記合成映像を前記第一通話端末に送信し、前記第二通話中継部は、前記合成映像を前記第二通話端末に送信する、通話システムである。

【0007】

本発明の一態様は、上記の通話システムであって、前記第一音声認識部によって生成されたテキスト映像の入力を受け付ける第一入力部と、前記第一通話中継部によって受信された音声及び映像の入力を受け付ける第二入力部と、前記第二通話中継部によって受信された音声及び映像の入力を受け付ける第三入力部と、前記第二音声認識部によって生成されたテキスト映像の入力を受け付ける第四入力部と、をさらに備え、前記合成部は、前記第一乃至第四入力部に入力された各映像を、予め定められた画面の領域に配置することによって前記合成映像を生成する。

【0008】

本発明の一態様は、第一通話端末から送信された音声及び映像を受信する第一通話受信ステップと、前記第一通話受信ステップによって受信された音声をテキストデータに変換し、当該テキストデータを表すテキスト映像を生成する第一音声認識ステップと、第二通話端末から送信された音声及び映像を受信する第二通話受信ステップと、前記第二通話受信ステップによって受信された音声をテキストデータに変換し、当該テキストデータを表すテキスト映像を生成する第二音声認識部と、前記第一通話受信ステップによって受信された映像と、前記第二通話受信ステップによって受信された映像と、前記第一音声認識ステップによって生成されたテキスト映像と、前記第二音声認識ステップによって生成されたテキスト映像と、を合成することによって合成映像を生成する合成ステップと、前記合成映像を前記第一通話端末に送信する第一送信ステップと、前記合成映像を前記第二通話端末に送信する第二送信ステップと、を有する通話中継方法である。

【発明の効果】

【0009】

本発明により、通話相手の発話内容をより容易に理解することが可能となる。

【図面の簡単な説明】

【0010】

【図1】通話システム１００のシステム構成図である。

【図2】合成部６０の処理の概略を示す概略図である。

【図3】合成映像の具体例を示す概略図である。

【図4】通話システム１００における通話セッション確立時の処理の流れの具体例を示すシーケンス図である。

【図5】通話システム１００における通話の処理の流れの具体例を示すシーケンス図である。

【図6】通話システム１００の第一の変形例（通話システム１００ａ）のシステム構成図である。

【図7】通話システム１００の第二の変形例（通話システム１００ｂ）のシステム構成図である。

【図8】通話システム１００ｂにおいて生成される合成映像の具体例を示す概略図である。

【発明を実施するための形態】

【0011】

以下、本発明の一実施形態である通話システムについて説明する。
図１は、通話システム１００のシステム構成図である。通話システム１００は、２台の通話端末１０（１０−１、１０−２）、中継装置９０を備える。通話端末１０と中継装置９０とはネットワーク１１（１１−１、１１−２）を介して双方向通信可能に接続されている。

【0012】

通話端末１０は、通話を行うユーザによって操作される。通話端末１０は、音声入力部、撮像部、音声出力部、表示部を備える。
音声入力部は、マイクや受話器等の音声入力装置であり、通話端末１０のユーザ（話者）の発話音声を入力する。音声入力部は、音声入力装置を通話端末１０に接続するためのインタフェースであっても良い。この場合、音声入力部は、音声入力装置によって生成された音声信号を通話端末１０に入力する。

【0013】

撮像部は、カメラ等の撮像装置であり、通話端末１０のユーザ（話者）の顔を撮影する。撮像部は、撮像装置を通話端末１０に接続するためのインタフェースであっても良い。この場合、撮像部は、撮像装置によって生成された映像信号を通話端末１０に入力する。

【0014】

音声出力部は、スピーカー等の音声出力装置であり、通話端末１０のユーザの対話者の発話音声を出力する。音声出力部は、音声出力装置を通話端末１０に接続するためのインタフェースであっても良い。この場合、音声出力部は、発話音声を表す電気信号を生成し、音声出力装置に対して出力する。

【0015】

表示部は、ＣＲＴ（Cathode Ray Tube）ディスプレイ、液晶ディスプレイ、有機ＥＬ（Electro Luminescence）ディスプレイ等の画像表示装置である。表示部は、中継装置９０によって生成された映像データを表示する。表示部は、画像表示装置を通話端末１０に接続するためのインタフェースであっても良い。この場合、表示部は、中継装置９０によって生成された映像データを表示するための映像信号を生成し、自身に接続されている画像表示装置に映像信号を出力する。

【0016】

通話端末１０は、ネットワーク１１を介して所定のプロトコルで通信を行う事によって、中継装置９０との間で通話を可能にする。例えば、通話端末１０は、ＳＩＰ（Session Initiation Protocol）に基づいて動作することによって、中継装置９０との間で通話セッションを確立する。通話端末１０−１及び通話端末１０−２は、それぞれが中継装置９０との間で通話セッションを確立することによって、互いに通話が可能になる。すなわち、通話端末１０−１及び通話端末１０−２がそれぞれ中継装置９０と通話セッションを確立している場合、通話端末１０−１の音声入力部によって入力された音声と撮像部によって撮影された映像とは、通話端末１０−２において出力される。同様に、通話端末１０−２の音声入力部によって入力された音声と撮像部によって撮影された映像とは、通話端末１０−１において出力される。そのため、通話端末１０−１のユーザと通話端末１０−２のユーザとは、それぞれ映像を見ながら通話を行う事が可能である。

【0017】

中継装置９０は、バスで接続されたＣＰＵ（Central Processing Unit）やメモリや補助記憶装置などを備え、中継プログラムを実行する。中継装置９０は、中継プログラムを実行することによって、複数の通話中継部２０（２０−１、２０−２）、複数のスプリッタ３０（３０−１、３０−２）、複数の音声認識部４０（４０−１、４０−２）、合成装置７０を備える装置として機能する。なお、中継装置９０の各機能の全て又は一部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されても良い。中継プログラムは、コンピュータ読み取り可能な記録媒体に記録されても良い。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。

【0018】

通話中継部２０（２０−１、２０−２）は、ネットワーク１１を介して所定のプロトコルで通信を行う事によって、通話端末１０との間で通話を可能にする。例えば、通話中継部２０は、ＳＩＰに基づいて動作することによって、通話端末１０との間で通話セッションを確立する。

【0019】

通話中継部２０−１は、ネットワーク１１−１を介して通話端末１０−１との間で通話セッションを確立する。通話中継部２０−１は、通話端末１０−１から受信した音声をスプリッタ３０−１に出力する。通話中継部２０−１は、通話端末１０−１から受信した映像を第二入力部５２に出力する。通話中継部２０−２は、ネットワーク１１−２を介して通話端末１０−２との間で通話セッションを確立する。通話中継部２０−２は、通話端末１０−２から受信した音声をスプリッタ３０−２に出力する。通話中継部２０−２は、通話端末１０−２から受信した映像を第三入力部５３に出力する。また、通話中継部２０−１は、合成部６０によって出力された合成映像及び音声を、ネットワーク１１−１を介して通話端末１０−１へ送信する。通話中継部２０−２は、合成部６０によって出力された合成映像及び音声を、ネットワーク１１−２を介して通話端末１０−２へ送信する。

【0020】

スプリッタ３０（３０−１、３０−２）は、通話中継部２０によって出力された音声を複数の出力先に分配する。スプリッタ３０−１は、通話中継部２０−１によって出力された音声を、音声認識部４０−１及び第二入力部５２に分配する。スプリッタ３０−２は、通話中継部２０−２によって出力された音声を、音声認識部４０−２及び第三入力部５３に分配する。

【0021】

音声認識部４０（４０−１、４０−２）は、入力された音声の内容をテキストデータに変換する。そして、音声認識部４０は、テキストデータを表す文字を表示した映像（テキスト映像）を生成する。音声認識部４０−１は、スプリッタ３０−１から分配された音声に基づいてテキスト映像を生成し、第一入力部５１に出力する。音声認識部４０−２は、スプリッタ３０−２から分配された音声に基づいてテキスト映像を生成し、第四入力部５４に出力する。

【0022】

合成装置７０は、第一入力部５１、第二入力部５２、第三入力部５３、第四入力部５４及び合成部６０を備える。第一入力部５１は、音声認識部４０−１から出力されたテキスト映像を合成部６０に入力する。第二入力部５２は、スプリッタ３０−１から分配された音声と、通話中継部２０−１から出力された映像とを合成部６０に入力する。第三入力部５３は、スプリッタ３０−２から分配された音声と、通話中継部２０−２から出力された映像とを合成部６０に入力する。第四入力部５４は、音声認識部４０−２から出力されたテキスト映像を合成部６０に入力する。

【0023】

合成部６０は、第一入力部５１乃至第四入力部５４によって入力された各映像を合成することによって、合成映像を生成する。合成部６０は、合成映像を通話中継部２０−１及び通話中継部２０−２の双方に出力する。また、合成部６０は、第二入力部５２によって入力された音声を通話中継部２０−２に出力し、第三入力部５３によって入力された音声を通話中継部２０−１に出力する。

【0024】

図２は、合成部６０の処理の概略を示す概略図である。合成部６０は、一つの映像面を複数の領域に分割し、各領域に映像やテキスト映像を配置することによって合成映像を生成する。図２に示される具体例では、一つの映像面が四つの領域に分割されている。

【0025】

合成部６０は、左下に位置する第一領域８１には、一方の通話端末１０（例えば通話端末１０−１）側の音声に関するテキスト映像を配置する。すなわち、合成部６０は、第一入力部５１によって入力されたテキスト映像を第一領域８１に配置する。合成部６０は、左上に位置する第二領域８２には、一方の通話端末１０（例えば通話端末１０−１）側の映像を配置する。すなわち、合成部６０は、第二入力部５２によって入力された映像を第二領域８２に配置する。

【0026】

合成部６０は、右上に位置する第三領域８３には、他方の通話端末１０（例えば通話端末１０−２）側の映像を配置する。すなわち、合成部６０は、第三入力部５３によって入力された映像を第三領域８３に配置する。合成部６０は、右下に位置する第四領域８４には、他方の通話端末１０（例えば通話端末１０−２）側の音声に関するテキスト映像を配置する。すなわち、合成部６０は、第四入力部５４によって入力されたテキスト映像を第四領域８４に配置する。

【0027】

図３は、合成映像の具体例を示す概略図である。第一領域８１乃至第四領域８４の各領域にそれぞれ映像が配置されることによって、図３に示されるような合成映像が生成される。図３に示されるように、第二領域８２に通話端末１０−１のユーザの顔が表示され、第一領域８１に通話端末１０−１のユーザの発話内容がテキストとして表示される。また、第三領域８３に通話端末１０−２のユーザの顔が表示され、第四領域８４に通話端末１０−２のユーザの発話内容がテキストとして表示される。

【0028】

図４は、通話システム１００における通話セッション確立時の処理の流れの具体例を示すシーケンス図である。図４は、Ａ氏が操作する通話端末１０と、Ｂ氏が操作する通話端末１０との間で通話セッションが確立するまでの処理の流れを示す。

【0029】

まず、Ａ氏が通話端末１０を操作してＢ氏への発呼の指示を入力する（ステップＳ１０１）。Ｂ氏への発呼の指示を受けた通話端末１０は、呼接続装置に対して発呼要求を送信する（ステップＳ１０２）。発呼要求には、通話セッションを確立する複数の通話端末１０を示す識別情報が含まれる。ステップＳ１０２で送信される発呼要求には、Ａ氏の通話端末１０の識別情報と、Ｂ氏の通話端末１０の識別情報と、が含まれる。

【0030】

呼接続装置は、発呼要求を受信すると、発呼要求に含まれる識別情報が表す各通話端末１０に対して発呼する（ステップＳ１０３、Ｓ１０４）。さらに、呼接続装置は、発呼先となった各通話端末１０に対応付けられている通話中継部２０にも発呼する。すなわち、呼接続装置は、Ａ氏側の通話中継部２０と、Ｂ氏側の通話中継部２０とに発呼する（ステップＳ１０５、Ｓ１０６）。

【0031】

呼接続装置から発呼を受けたＡ氏通話端末及びＢ氏通話端末は、着信音を出力し、ユーザに対して着呼していることを報知する。ユーザが通話端末１０を操作することによってオフフックになると、通話端末１０は呼接続装置に対して応答する（ステップＳ１０７、Ｓ１０８）。

【0032】

呼接続装置から発呼を受けたＡ氏側通話中継部２０及びＢ氏側通話中継部２０は、着信に応じて自動的にオフフック状態に遷移し、呼接続装置に対して応答する（ステップＳ１０９、Ｓ１１０）。

【0033】

Ａ氏の通話端末１０とＡ氏側の通話中継部２０との間で、上記のようなＶ字発信処理が行われることによって、通話セッションが確立される（ステップＳ１１１）。また、Ｂ氏の通話端末１０とＢ氏側の通話中継部２０との間で、上記のようなＶ字発信処理が行われることによって、通話セッションが確立される（ステップＳ１１２）。Ａ氏側通話中継部２０とＢ氏側通話中継部２０とは、合成部６０を介して接続されている。そのため、Ａ氏通話端末１０とＢ氏通話端末１０とは、通話が可能な状態となる。

【0034】

図５は、通話システム１００における通話の処理の流れの具体例を示すシーケンス図である。図５は、Ａ氏が操作する通話端末１０と、Ｂ氏が操作する通話端末１０との間で行われる通話の処理の流れを示す。

【0035】

Ａ氏通話端末１０は、入力されたＡ氏の音声及び映像をＡ氏側通話中継部２０に送信する（ステップＳ２０１）。Ａ氏側通話中継部２０は、受信した音声を、スプリッタ３０を介してＡ氏側音声認識部４０に出力する（ステップＳ２０２）。また、Ａ氏側通話中継部２０は、受信した音声及び映像を、合成装置７０に出力する（ステップＳ２０３）。Ａ氏側音声認識部４０は、Ａ氏側通話中継部２０から出力された音声について音声認識処理を実行し、テキスト映像を生成する（ステップＳ２０４）。Ａ氏側音声認識部４０は、生成したテキスト映像を合成装置７０に出力する（ステップＳ２０５）。

【0036】

Ｂ氏通話端末１０は、入力されたＢ氏の音声及び映像をＢ氏側通話中継部２０に送信する（ステップＳ２０６）。Ｂ氏側通話中継部２０は、受信した音声を、スプリッタ３０を介してＢ氏側音声認識部４０に出力する（ステップＳ２０７）。また、Ｂ氏側通話中継部２０は、受信した音声及び映像を、合成装置７０に出力する（ステップＳ２０８）。Ｂ氏側音声認識部４０は、Ｂ氏側通話中継部２０から出力された音声について音声認識処理を実行し、テキスト映像を生成する（ステップＳ２０９）。Ｂ氏側音声認識部４０は、生成したテキスト映像を合成装置７０に出力する（ステップＳ２１０）。

【0037】

合成装置７０は、Ａ氏側通話中継部２０から出力された音声及び映像と、Ｂ氏側通話中継部２０から出力された音声及び映像と、Ａ氏側音声認識部４０から出力されたテキスト映像と、Ｂ氏側音声認識部４０から出力されたテキスト映像と、を合成することによって合成映像を生成する（ステップＳ２１１）。

【0038】

合成装置７０は、合成映像と、Ｂ氏側通話中継部２０から出力された音声と、をＡ氏側通話中継部２０に出力する（ステップＳ２１２）。Ａ氏側通話中継部２０は、合成装置７０によって出力された合成映像及び音声を、Ａ氏通話端末１０へ送信する（ステップＳ２１３）。Ａ氏通話端末１０は、受信した合成映像を表示し、音声を出力する（ステップＳ２１４）。

【0039】

合成装置７０は、合成映像と、Ａ氏側通話中継部２０から出力された音声と、をＢ氏側通話中継部２０に出力する（ステップＳ２１５）。Ｂ氏側通話中継部２０は、合成装置７０によって出力された合成映像及び音声を、Ｂ氏通話端末１０へ送信する（ステップＳ２１６）。Ｂ氏通話端末１０は、受信した合成映像を表示し、音声を出力する（ステップＳ２１７）。

【0040】

このように構成された通話システム１００では、通話端末１０を用いて通話を行う際に、相手の発話内容がテキストの映像として通話端末１０の画面に表示される。そのため、たとえ聴覚が衰えているユーザであっても、通話相手の発話内容をより容易に理解することが可能となる。

【0041】

また、高齢者は、口腔部や喉の衰えによって発話を思うようにできないという問題もある。このような問題に対し、上述した通話システム１００では、自身の発話内容が通話相手にテキストの映像として表示される。そのため、たとえ発話を思うようにはっきりとできないユーザであっても、音声認識部４０の性能に応じて、通話相手に発話内容をより正確に伝えることが可能となる。

【0042】

＜変形例＞
図６は、通話システム１００の第一の変形例（通話システム１００ａ）のシステム構成図である。通話システム１００ａは、変換部４１（４１−１、４１−２）を備える点で、通話システム１００と異なる。

【0043】

通話システム１００ａにおける音声認識部４０は、テキスト映像を生成せず、音声認識の結果であるテキストデータを変換部４１に出力する。変換部４１は、音声認識部４０によって出力されたテキストデータの文章を、通話端末１０のユーザによって指定された他の言語の文章に変換（翻訳）する。変換部４１は、変換後のテキストデータを表す文字を表示した映像（テキスト映像）を生成する。そして、変換部４１は、生成したテキスト映像を合成装置７０に出力する。例えば、変換部４１−１はＸ言語をＹ言語に変換し、変換部４１−２はＹ言語をＸ言語に変換する。
このように構成されることによって、他言語のユーザと会話をスムーズに行う事が可能となる。

【0044】

図７は、通話システム１００の第二の変形例（通話システム１００ｂ）のシステム構成図である。通話システム１００ｂは、音声認識部４０が生成するテキスト映像の表示態様が、通話システム１００におけるテキスト映像の表示態様と異なる。

【0045】

図８は、通話システム１００ｂにおいて生成される合成映像の具体例を示す概略図である。図８に示されるように、第一領域８１に表示されるテキスト映像と、第四領域８４に表示されるテキスト映像とでは、文字の高さ方向の位置が異なる。時間軸において先に発話された内容を表すテキスト映像では、より高い位置に文字が配置され、時間軸において後に発話された内容を表すテキスト映像では、より低い位置に文字が配置される。

【0046】

通話端末１０−１と通話端末１０−２とで、どちらが先に発話されたかという判定は、音声認識部４０−１及び音声認識部４０−２によって行われても良い。すなわち、音声認識部４０（４０−１及び４０−２）は、音声認識を行う度に、他の音声認識部４０に対して音声認識を行ったことを表す信号（フラグ信号）を送信する。音声認識部４０は、フラグ信号を受信した後、フラグ信号を送信するまでの間、予め定められた高い位置の領域にテキストを配置したテキスト映像を生成する。一方、音声認識部４０は、フラグ信号を送信した後、フラグ信号を受信するまでの間、予め定められた低い位置の領域にテキストを配置したテキスト映像を生成する。
このように構成されることによって、通話を行っている各ユーザは、表示されている発話内容についてどちらが直近で話しかけたのかを容易に判断することが可能となる。

【0047】

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

【符号の説明】

【0048】

１００…通話システム，１０…通話端末，１１…ネットワーク，２０…通話中継部，３０…スプリッタ，４０…音声認識部，５１…第一入力部，５２…第二入力部，５３…第三入力部，５４…第四入力部，６０…合成部，７０…合成装置

【図1】