特許第6064209号(P6064209)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 東日本電信電話株式会社の特許一覧

<>
  • 特許6064209-通話システム及び通話中継方法 図000002
  • 特許6064209-通話システム及び通話中継方法 図000003
  • 特許6064209-通話システム及び通話中継方法 図000004
  • 特許6064209-通話システム及び通話中継方法 図000005
  • 特許6064209-通話システム及び通話中継方法 図000006
  • 特許6064209-通話システム及び通話中継方法 図000007
  • 特許6064209-通話システム及び通話中継方法 図000008
  • 特許6064209-通話システム及び通話中継方法 図000009
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6064209
(24)【登録日】2017年1月6日
(45)【発行日】2017年1月25日
(54)【発明の名称】通話システム及び通話中継方法
(51)【国際特許分類】
   H04M 3/00 20060101AFI20170116BHJP
【FI】
   H04M3/00 B
【請求項の数】3
【全頁数】11
(21)【出願番号】特願2013-18631(P2013-18631)
(22)【出願日】2013年2月1日
(65)【公開番号】特開2014-150442(P2014-150442A)
(43)【公開日】2014年8月21日
【審査請求日】2015年7月23日
(73)【特許権者】
【識別番号】399040405
【氏名又は名称】東日本電信電話株式会社
(74)【代理人】
【識別番号】100064908
【弁理士】
【氏名又は名称】志賀 正武
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(72)【発明者】
【氏名】菊地 渉
(72)【発明者】
【氏名】高松 美砂子
(72)【発明者】
【氏名】小林 八起
(72)【発明者】
【氏名】渡邉 純
【審査官】 望月 章俊
(56)【参考文献】
【文献】 特開2006−135456(JP,A)
【文献】 特開2002−74041(JP,A)
【文献】 米国特許出願公開第2010/0039498(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04M3/00
(57)【特許請求の範囲】
【請求項1】
第一通話端末から送信された音声及び映像を受信する第一通話中継部と、
前記第一通話中継部によって受信された音声をテキストデータに変換し、当該テキストデータを表すテキスト映像を生成する第一音声認識部と、
第二通話端末から送信された音声及び映像を受信する第二通話中継部と、
前記第二通話中継部によって受信された音声をテキストデータに変換し、当該テキストデータを表すテキスト映像を生成する第二音声認識部と、
前記第一通話中継部によって受信された映像と、前記第二通話中継部によって受信された映像と、前記第一音声認識部によって生成されたテキスト映像である第一テキスト映像と、前記第二音声認識部によって生成されたテキスト映像である第二テキスト映像と、を合成することによって合成映像を生成する合成部と、
を備え、
前記第一通話中継部は、前記合成映像を前記第一通話端末に送信し、
前記第二通話中継部は、前記合成映像を前記第二通話端末に送信し、
前記合成部は、前記第一テキスト映像と前記第二テキスト映像とを、一つの画面上の異なる領域にそれぞれ表示するように合成する、通話システム。
【請求項2】
前記第一音声認識部によって生成されたテキスト映像の入力を受け付ける第一入力部と、
前記第一通話中継部によって受信された音声及び映像の入力を受け付ける第二入力部と、
前記第二通話中継部によって受信された音声及び映像の入力を受け付ける第三入力部と、
前記第二音声認識部によって生成されたテキスト映像の入力を受け付ける第四入力部と、
をさらに備え、
前記合成部は、前記第一乃至第四入力部に入力された各映像を、予め定められた画面の領域に配置することによって前記合成映像を生成する、請求項1に記載の通話システム。
【請求項3】
第一通話端末から送信された音声及び映像を受信する第一通話受信ステップと、
前記第一通話受信ステップによって受信された音声をテキストデータに変換し、当該テキストデータを表すテキスト映像を生成する第一音声認識ステップと、
第二通話端末から送信された音声及び映像を受信する第二通話受信ステップと、
前記第二通話受信ステップによって受信された音声をテキストデータに変換し、当該テキストデータを表すテキスト映像を生成する第二音声認識ステップと、
前記第一通話受信ステップによって受信された映像と、前記第二通話受信ステップによって受信された映像と、前記第一音声認識ステップによって生成されたテキスト映像である第一テキスト映像と、前記第二音声認識ステップによって生成されたテキスト映像である第二テキスト映像と、を合成することによって合成映像を生成する合成ステップと、
前記合成映像を前記第一通話端末に送信する第一送信ステップと、
前記合成映像を前記第二通話端末に送信する第二送信ステップと、
を有し、前記合成ステップにおいて、前記第一テキスト映像と前記第二テキスト映像とを、一つの画面上の異なる領域にそれぞれ表示するように合成する通話中継方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、通話を行うための通話装置の技術に関する。
【背景技術】
【0002】
近年、ICT(Information and Communication Technology)サービスが発達している。その具体例として、例えばユーザの感情や印象を相手に分かりやすく伝えることのできるテレビ電話端末が提案されている(特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2009−112027号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、ICTサービスの普及は一部に留まっている。例えば、高齢者にはICTサービスが十分に普及しているとは言い難い。
高齢者は、加齢により身体に様々なハンディキャップを抱えている。このことが原因となって、ICTサービスの利用が阻害されている。例えば、聴覚の衰えによって、通話相手の発話内容が聞き取りにくいという問題がある。
【0005】
上記事情に鑑み、本発明は、通話相手の発話内容をより容易に理解することを可能とする技術の提供を目的としている。
【課題を解決するための手段】
【0006】
本発明の一態様は、第一通話端末から送信された音声及び映像を受信する第一通話中継部と、前記第一通話中継部によって受信された音声をテキストデータに変換し、当該テキストデータを表すテキスト映像を生成する第一音声認識部と、第二通話端末から送信された音声及び映像を受信する第二通話中継部と、前記第二通話中継部によって受信された音声をテキストデータに変換し、当該テキストデータを表すテキスト映像を生成する第二音声認識部と、前記第一通話中継部によって受信された映像と、前記第二通話中継部によって受信された映像と、前記第一音声認識部によって生成されたテキスト映像と、前記第二音声認識部によって生成されたテキスト映像と、を合成することによって合成映像を生成する合成部と、を備え、前記第一通話中継部は、前記合成映像を前記第一通話端末に送信し、前記第二通話中継部は、前記合成映像を前記第二通話端末に送信する、通話システムである。
【0007】
本発明の一態様は、上記の通話システムであって、前記第一音声認識部によって生成されたテキスト映像の入力を受け付ける第一入力部と、前記第一通話中継部によって受信された音声及び映像の入力を受け付ける第二入力部と、前記第二通話中継部によって受信された音声及び映像の入力を受け付ける第三入力部と、前記第二音声認識部によって生成されたテキスト映像の入力を受け付ける第四入力部と、をさらに備え、前記合成部は、前記第一乃至第四入力部に入力された各映像を、予め定められた画面の領域に配置することによって前記合成映像を生成する。
【0008】
本発明の一態様は、第一通話端末から送信された音声及び映像を受信する第一通話受信ステップと、前記第一通話受信ステップによって受信された音声をテキストデータに変換し、当該テキストデータを表すテキスト映像を生成する第一音声認識ステップと、第二通話端末から送信された音声及び映像を受信する第二通話受信ステップと、前記第二通話受信ステップによって受信された音声をテキストデータに変換し、当該テキストデータを表すテキスト映像を生成する第二音声認識部と、前記第一通話受信ステップによって受信された映像と、前記第二通話受信ステップによって受信された映像と、前記第一音声認識ステップによって生成されたテキスト映像と、前記第二音声認識ステップによって生成されたテキスト映像と、を合成することによって合成映像を生成する合成ステップと、前記合成映像を前記第一通話端末に送信する第一送信ステップと、前記合成映像を前記第二通話端末に送信する第二送信ステップと、を有する通話中継方法である。
【発明の効果】
【0009】
本発明により、通話相手の発話内容をより容易に理解することが可能となる。
【図面の簡単な説明】
【0010】
図1】通話システム100のシステム構成図である。
図2】合成部60の処理の概略を示す概略図である。
図3】合成映像の具体例を示す概略図である。
図4】通話システム100における通話セッション確立時の処理の流れの具体例を示すシーケンス図である。
図5】通話システム100における通話の処理の流れの具体例を示すシーケンス図である。
図6】通話システム100の第一の変形例(通話システム100a)のシステム構成図である。
図7】通話システム100の第二の変形例(通話システム100b)のシステム構成図である。
図8】通話システム100bにおいて生成される合成映像の具体例を示す概略図である。
【発明を実施するための形態】
【0011】
以下、本発明の一実施形態である通話システムについて説明する。
図1は、通話システム100のシステム構成図である。通話システム100は、2台の通話端末10(10−1、10−2)、中継装置90を備える。通話端末10と中継装置90とはネットワーク11(11−1、11−2)を介して双方向通信可能に接続されている。
【0012】
通話端末10は、通話を行うユーザによって操作される。通話端末10は、音声入力部、撮像部、音声出力部、表示部を備える。
音声入力部は、マイクや受話器等の音声入力装置であり、通話端末10のユーザ(話者)の発話音声を入力する。音声入力部は、音声入力装置を通話端末10に接続するためのインタフェースであっても良い。この場合、音声入力部は、音声入力装置によって生成された音声信号を通話端末10に入力する。
【0013】
撮像部は、カメラ等の撮像装置であり、通話端末10のユーザ(話者)の顔を撮影する。撮像部は、撮像装置を通話端末10に接続するためのインタフェースであっても良い。この場合、撮像部は、撮像装置によって生成された映像信号を通話端末10に入力する。
【0014】
音声出力部は、スピーカー等の音声出力装置であり、通話端末10のユーザの対話者の発話音声を出力する。音声出力部は、音声出力装置を通話端末10に接続するためのインタフェースであっても良い。この場合、音声出力部は、発話音声を表す電気信号を生成し、音声出力装置に対して出力する。
【0015】
表示部は、CRT(Cathode Ray Tube)ディスプレイ、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ等の画像表示装置である。表示部は、中継装置90によって生成された映像データを表示する。表示部は、画像表示装置を通話端末10に接続するためのインタフェースであっても良い。この場合、表示部は、中継装置90によって生成された映像データを表示するための映像信号を生成し、自身に接続されている画像表示装置に映像信号を出力する。
【0016】
通話端末10は、ネットワーク11を介して所定のプロトコルで通信を行う事によって、中継装置90との間で通話を可能にする。例えば、通話端末10は、SIP(Session Initiation Protocol)に基づいて動作することによって、中継装置90との間で通話セッションを確立する。通話端末10−1及び通話端末10−2は、それぞれが中継装置90との間で通話セッションを確立することによって、互いに通話が可能になる。すなわち、通話端末10−1及び通話端末10−2がそれぞれ中継装置90と通話セッションを確立している場合、通話端末10−1の音声入力部によって入力された音声と撮像部によって撮影された映像とは、通話端末10−2において出力される。同様に、通話端末10−2の音声入力部によって入力された音声と撮像部によって撮影された映像とは、通話端末10−1において出力される。そのため、通話端末10−1のユーザと通話端末10−2のユーザとは、それぞれ映像を見ながら通話を行う事が可能である。
【0017】
中継装置90は、バスで接続されたCPU(Central Processing Unit)やメモリや補助記憶装置などを備え、中継プログラムを実行する。中継装置90は、中継プログラムを実行することによって、複数の通話中継部20(20−1、20−2)、複数のスプリッタ30(30−1、30−2)、複数の音声認識部40(40−1、40−2)、合成装置70を備える装置として機能する。なお、中継装置90の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されても良い。中継プログラムは、コンピュータ読み取り可能な記録媒体に記録されても良い。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。
【0018】
通話中継部20(20−1、20−2)は、ネットワーク11を介して所定のプロトコルで通信を行う事によって、通話端末10との間で通話を可能にする。例えば、通話中継部20は、SIPに基づいて動作することによって、通話端末10との間で通話セッションを確立する。
【0019】
通話中継部20−1は、ネットワーク11−1を介して通話端末10−1との間で通話セッションを確立する。通話中継部20−1は、通話端末10−1から受信した音声をスプリッタ30−1に出力する。通話中継部20−1は、通話端末10−1から受信した映像を第二入力部52に出力する。通話中継部20−2は、ネットワーク11−2を介して通話端末10−2との間で通話セッションを確立する。通話中継部20−2は、通話端末10−2から受信した音声をスプリッタ30−2に出力する。通話中継部20−2は、通話端末10−2から受信した映像を第三入力部53に出力する。また、通話中継部20−1は、合成部60によって出力された合成映像及び音声を、ネットワーク11−1を介して通話端末10−1へ送信する。通話中継部20−2は、合成部60によって出力された合成映像及び音声を、ネットワーク11−2を介して通話端末10−2へ送信する。
【0020】
スプリッタ30(30−1、30−2)は、通話中継部20によって出力された音声を複数の出力先に分配する。スプリッタ30−1は、通話中継部20−1によって出力された音声を、音声認識部40−1及び第二入力部52に分配する。スプリッタ30−2は、通話中継部20−2によって出力された音声を、音声認識部40−2及び第三入力部53に分配する。
【0021】
音声認識部40(40−1、40−2)は、入力された音声の内容をテキストデータに変換する。そして、音声認識部40は、テキストデータを表す文字を表示した映像(テキスト映像)を生成する。音声認識部40−1は、スプリッタ30−1から分配された音声に基づいてテキスト映像を生成し、第一入力部51に出力する。音声認識部40−2は、スプリッタ30−2から分配された音声に基づいてテキスト映像を生成し、第四入力部54に出力する。
【0022】
合成装置70は、第一入力部51、第二入力部52、第三入力部53、第四入力部54及び合成部60を備える。第一入力部51は、音声認識部40−1から出力されたテキスト映像を合成部60に入力する。第二入力部52は、スプリッタ30−1から分配された音声と、通話中継部20−1から出力された映像とを合成部60に入力する。第三入力部53は、スプリッタ30−2から分配された音声と、通話中継部20−2から出力された映像とを合成部60に入力する。第四入力部54は、音声認識部40−2から出力されたテキスト映像を合成部60に入力する。
【0023】
合成部60は、第一入力部51乃至第四入力部54によって入力された各映像を合成することによって、合成映像を生成する。合成部60は、合成映像を通話中継部20−1及び通話中継部20−2の双方に出力する。また、合成部60は、第二入力部52によって入力された音声を通話中継部20−2に出力し、第三入力部53によって入力された音声を通話中継部20−1に出力する。
【0024】
図2は、合成部60の処理の概略を示す概略図である。合成部60は、一つの映像面を複数の領域に分割し、各領域に映像やテキスト映像を配置することによって合成映像を生成する。図2に示される具体例では、一つの映像面が四つの領域に分割されている。
【0025】
合成部60は、左下に位置する第一領域81には、一方の通話端末10(例えば通話端末10−1)側の音声に関するテキスト映像を配置する。すなわち、合成部60は、第一入力部51によって入力されたテキスト映像を第一領域81に配置する。合成部60は、左上に位置する第二領域82には、一方の通話端末10(例えば通話端末10−1)側の映像を配置する。すなわち、合成部60は、第二入力部52によって入力された映像を第二領域82に配置する。
【0026】
合成部60は、右上に位置する第三領域83には、他方の通話端末10(例えば通話端末10−2)側の映像を配置する。すなわち、合成部60は、第三入力部53によって入力された映像を第三領域83に配置する。合成部60は、右下に位置する第四領域84には、他方の通話端末10(例えば通話端末10−2)側の音声に関するテキスト映像を配置する。すなわち、合成部60は、第四入力部54によって入力されたテキスト映像を第四領域84に配置する。
【0027】
図3は、合成映像の具体例を示す概略図である。第一領域81乃至第四領域84の各領域にそれぞれ映像が配置されることによって、図3に示されるような合成映像が生成される。図3に示されるように、第二領域82に通話端末10−1のユーザの顔が表示され、第一領域81に通話端末10−1のユーザの発話内容がテキストとして表示される。また、第三領域83に通話端末10−2のユーザの顔が表示され、第四領域84に通話端末10−2のユーザの発話内容がテキストとして表示される。
【0028】
図4は、通話システム100における通話セッション確立時の処理の流れの具体例を示すシーケンス図である。図4は、A氏が操作する通話端末10と、B氏が操作する通話端末10との間で通話セッションが確立するまでの処理の流れを示す。
【0029】
まず、A氏が通話端末10を操作してB氏への発呼の指示を入力する(ステップS101)。B氏への発呼の指示を受けた通話端末10は、呼接続装置に対して発呼要求を送信する(ステップS102)。発呼要求には、通話セッションを確立する複数の通話端末10を示す識別情報が含まれる。ステップS102で送信される発呼要求には、A氏の通話端末10の識別情報と、B氏の通話端末10の識別情報と、が含まれる。
【0030】
呼接続装置は、発呼要求を受信すると、発呼要求に含まれる識別情報が表す各通話端末10に対して発呼する(ステップS103、S104)。さらに、呼接続装置は、発呼先となった各通話端末10に対応付けられている通話中継部20にも発呼する。すなわち、呼接続装置は、A氏側の通話中継部20と、B氏側の通話中継部20とに発呼する(ステップS105、S106)。
【0031】
呼接続装置から発呼を受けたA氏通話端末及びB氏通話端末は、着信音を出力し、ユーザに対して着呼していることを報知する。ユーザが通話端末10を操作することによってオフフックになると、通話端末10は呼接続装置に対して応答する(ステップS107、S108)。
【0032】
呼接続装置から発呼を受けたA氏側通話中継部20及びB氏側通話中継部20は、着信に応じて自動的にオフフック状態に遷移し、呼接続装置に対して応答する(ステップS109、S110)。
【0033】
A氏の通話端末10とA氏側の通話中継部20との間で、上記のようなV字発信処理が行われることによって、通話セッションが確立される(ステップS111)。また、B氏の通話端末10とB氏側の通話中継部20との間で、上記のようなV字発信処理が行われることによって、通話セッションが確立される(ステップS112)。A氏側通話中継部20とB氏側通話中継部20とは、合成部60を介して接続されている。そのため、A氏通話端末10とB氏通話端末10とは、通話が可能な状態となる。
【0034】
図5は、通話システム100における通話の処理の流れの具体例を示すシーケンス図である。図5は、A氏が操作する通話端末10と、B氏が操作する通話端末10との間で行われる通話の処理の流れを示す。
【0035】
A氏通話端末10は、入力されたA氏の音声及び映像をA氏側通話中継部20に送信する(ステップS201)。A氏側通話中継部20は、受信した音声を、スプリッタ30を介してA氏側音声認識部40に出力する(ステップS202)。また、A氏側通話中継部20は、受信した音声及び映像を、合成装置70に出力する(ステップS203)。A氏側音声認識部40は、A氏側通話中継部20から出力された音声について音声認識処理を実行し、テキスト映像を生成する(ステップS204)。A氏側音声認識部40は、生成したテキスト映像を合成装置70に出力する(ステップS205)。
【0036】
B氏通話端末10は、入力されたB氏の音声及び映像をB氏側通話中継部20に送信する(ステップS206)。B氏側通話中継部20は、受信した音声を、スプリッタ30を介してB氏側音声認識部40に出力する(ステップS207)。また、B氏側通話中継部20は、受信した音声及び映像を、合成装置70に出力する(ステップS208)。B氏側音声認識部40は、B氏側通話中継部20から出力された音声について音声認識処理を実行し、テキスト映像を生成する(ステップS209)。B氏側音声認識部40は、生成したテキスト映像を合成装置70に出力する(ステップS210)。
【0037】
合成装置70は、A氏側通話中継部20から出力された音声及び映像と、B氏側通話中継部20から出力された音声及び映像と、A氏側音声認識部40から出力されたテキスト映像と、B氏側音声認識部40から出力されたテキスト映像と、を合成することによって合成映像を生成する(ステップS211)。
【0038】
合成装置70は、合成映像と、B氏側通話中継部20から出力された音声と、をA氏側通話中継部20に出力する(ステップS212)。A氏側通話中継部20は、合成装置70によって出力された合成映像及び音声を、A氏通話端末10へ送信する(ステップS213)。A氏通話端末10は、受信した合成映像を表示し、音声を出力する(ステップS214)。
【0039】
合成装置70は、合成映像と、A氏側通話中継部20から出力された音声と、をB氏側通話中継部20に出力する(ステップS215)。B氏側通話中継部20は、合成装置70によって出力された合成映像及び音声を、B氏通話端末10へ送信する(ステップS216)。B氏通話端末10は、受信した合成映像を表示し、音声を出力する(ステップS217)。
【0040】
このように構成された通話システム100では、通話端末10を用いて通話を行う際に、相手の発話内容がテキストの映像として通話端末10の画面に表示される。そのため、たとえ聴覚が衰えているユーザであっても、通話相手の発話内容をより容易に理解することが可能となる。
【0041】
また、高齢者は、口腔部や喉の衰えによって発話を思うようにできないという問題もある。このような問題に対し、上述した通話システム100では、自身の発話内容が通話相手にテキストの映像として表示される。そのため、たとえ発話を思うようにはっきりとできないユーザであっても、音声認識部40の性能に応じて、通話相手に発話内容をより正確に伝えることが可能となる。
【0042】
<変形例>
図6は、通話システム100の第一の変形例(通話システム100a)のシステム構成図である。通話システム100aは、変換部41(41−1、41−2)を備える点で、通話システム100と異なる。
【0043】
通話システム100aにおける音声認識部40は、テキスト映像を生成せず、音声認識の結果であるテキストデータを変換部41に出力する。変換部41は、音声認識部40によって出力されたテキストデータの文章を、通話端末10のユーザによって指定された他の言語の文章に変換(翻訳)する。変換部41は、変換後のテキストデータを表す文字を表示した映像(テキスト映像)を生成する。そして、変換部41は、生成したテキスト映像を合成装置70に出力する。例えば、変換部41−1はX言語をY言語に変換し、変換部41−2はY言語をX言語に変換する。
このように構成されることによって、他言語のユーザと会話をスムーズに行う事が可能となる。
【0044】
図7は、通話システム100の第二の変形例(通話システム100b)のシステム構成図である。通話システム100bは、音声認識部40が生成するテキスト映像の表示態様が、通話システム100におけるテキスト映像の表示態様と異なる。
【0045】
図8は、通話システム100bにおいて生成される合成映像の具体例を示す概略図である。図8に示されるように、第一領域81に表示されるテキスト映像と、第四領域84に表示されるテキスト映像とでは、文字の高さ方向の位置が異なる。時間軸において先に発話された内容を表すテキスト映像では、より高い位置に文字が配置され、時間軸において後に発話された内容を表すテキスト映像では、より低い位置に文字が配置される。
【0046】
通話端末10−1と通話端末10−2とで、どちらが先に発話されたかという判定は、音声認識部40−1及び音声認識部40−2によって行われても良い。すなわち、音声認識部40(40−1及び40−2)は、音声認識を行う度に、他の音声認識部40に対して音声認識を行ったことを表す信号(フラグ信号)を送信する。音声認識部40は、フラグ信号を受信した後、フラグ信号を送信するまでの間、予め定められた高い位置の領域にテキストを配置したテキスト映像を生成する。一方、音声認識部40は、フラグ信号を送信した後、フラグ信号を受信するまでの間、予め定められた低い位置の領域にテキストを配置したテキスト映像を生成する。
このように構成されることによって、通話を行っている各ユーザは、表示されている発話内容についてどちらが直近で話しかけたのかを容易に判断することが可能となる。
【0047】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0048】
100…通話システム, 10…通話端末, 11…ネットワーク, 20…通話中継部, 30…スプリッタ, 40…音声認識部, 51…第一入力部, 52…第二入力部, 53…第三入力部, 54…第四入力部, 60…合成部, 70…合成装置
図1
図2
図3
図4
図5
図6
図7
図8