特許第6293449号(P6293449)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ みずほ情報総研株式会社の特許一覧

特許6293449コミュニケーション支援システム、コミュニケーション支援方法及びコミュニケーション支援プログラム
<>
  • 特許6293449-コミュニケーション支援システム、コミュニケーション支援方法及びコミュニケーション支援プログラム 図000002
  • 特許6293449-コミュニケーション支援システム、コミュニケーション支援方法及びコミュニケーション支援プログラム 図000003
  • 特許6293449-コミュニケーション支援システム、コミュニケーション支援方法及びコミュニケーション支援プログラム 図000004
  • 特許6293449-コミュニケーション支援システム、コミュニケーション支援方法及びコミュニケーション支援プログラム 図000005
  • 特許6293449-コミュニケーション支援システム、コミュニケーション支援方法及びコミュニケーション支援プログラム 図000006
  • 特許6293449-コミュニケーション支援システム、コミュニケーション支援方法及びコミュニケーション支援プログラム 図000007
  • 特許6293449-コミュニケーション支援システム、コミュニケーション支援方法及びコミュニケーション支援プログラム 図000008
  • 特許6293449-コミュニケーション支援システム、コミュニケーション支援方法及びコミュニケーション支援プログラム 図000009
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6293449
(24)【登録日】2018年2月23日
(45)【発行日】2018年3月14日
(54)【発明の名称】コミュニケーション支援システム、コミュニケーション支援方法及びコミュニケーション支援プログラム
(51)【国際特許分類】
   H04M 3/42 20060101AFI20180305BHJP
   G10L 15/00 20130101ALI20180305BHJP
   G06T 7/20 20170101ALI20180305BHJP
【FI】
   H04M3/42 A
   G10L15/00 200A
   G10L15/00 200C
   G06T7/20 300A
【請求項の数】6
【全頁数】15
(21)【出願番号】特願2013-212625(P2013-212625)
(22)【出願日】2013年10月10日
(65)【公開番号】特開2015-76774(P2015-76774A)
(43)【公開日】2015年4月20日
【審査請求日】2016年10月5日
(73)【特許権者】
【識別番号】592131906
【氏名又は名称】みずほ情報総研株式会社
(74)【代理人】
【識別番号】100105957
【弁理士】
【氏名又は名称】恩田 誠
(74)【代理人】
【識別番号】100068755
【弁理士】
【氏名又は名称】恩田 博宣
(72)【発明者】
【氏名】下元 正義
(72)【発明者】
【氏名】田中 智之
(72)【発明者】
【氏名】大村 和弘
(72)【発明者】
【氏名】長岡 優季
(72)【発明者】
【氏名】鈴木 広一
(72)【発明者】
【氏名】眞崎 浩一
【審査官】 寺谷 大亮
(56)【参考文献】
【文献】 特開2004−248022(JP,A)
【文献】 国際公開第97/008895(WO,A1)
【文献】 特開2007−256836(JP,A)
【文献】 特開2010−054685(JP,A)
【文献】 米国特許出願公開第2011/0022386(US,A1)
【文献】 米国特許出願公開第2009/0012788(US,A1)
【文献】 山本 博史,対話者の前発話を利用した統計的言語モデル,電子情報通信学会論文誌 (J84−D−II) 第12号,日本,社団法人電子情報通信学会,2001年12月 1日
(58)【調査した分野】(Int.Cl.,DB名)
H04M 3/42
G06T 7/20
G10L 15/00
(57)【特許請求の範囲】
【請求項1】
第1の入力情報を取得する第1取得部と、
第2の入力情報を取得する第2取得部と、
前記第1、第2の入力情報をテキスト変換した認識結果を生成する制御部と、
前記認識結果を出力する出力部とを備えたコミュニケーション支援システムであって、
前記制御部は、
前記第1取得部において取得した第1の入力情報に基づいてテキスト変換を行なう第1の認識処理部と、
前記第2取得部において取得した第2の入力情報に基づいてテキスト変換を行なう第2の認識処理部と、
前記第1、第2の認識処理部のうち、認識率が高い認識処理部における認識結果に含まれる単語候補の重み付けを行ない、前記重み付けに基づいて、他方の認識処理部のテキスト変換を調整する認識調整部とを備えること特徴とするコミュニケーション支援システム。
【請求項2】
前記認識処理部毎に、認識結果の修正に応じて認識率を算出し、
前記認識率に基づいて、認識率が高い認識処理部を特定することを特徴とする請求項に記載のコミュニケーション支援システム。
【請求項3】
前記第1、第2の入力情報の少なくとも一方の入力情報とともに顔画像を取得し、前記入力情報に対応した認識結果に対応付けて、前記顔画像を前記出力部に出力することを特徴とする請求項1又は2に記載のコミュニケーション支援システム。
【請求項4】
前記顔画像が出力された領域に重畳しないように、前記認識結果を出力することを特徴とする請求項に記載のコミュニケーション支援システム。
【請求項5】
第1の入力情報を取得する第1取得部と、
第2の入力情報を取得する第2取得部と、
前記第1、第2の入力情報をテキスト変換した認識結果を生成する制御部と、
前記認識結果を出力する出力部とを備えたコミュニケーション支援システムを用いて、
コミュニケーション支援を行なう方法であって、
前記制御部は、
前記第1取得部において取得した第1の入力情報に基づいてテキスト変換を行なう第1の認識処理と、
前記第2取得部において取得した第2の入力情報に基づいてテキスト変換を行なう第2の認識処理と、
前記第1、第2の認識処理のうち、認識率が高い認識処理における認識結果に含まれる単語候補の重み付けを行ない、前記重み付けに基づいて、他方の認識処理のテキスト変換を調整する認識調整処理とを実行すること特徴とするコミュニケーション支援方法。
【請求項6】
第1の入力情報を取得する第1取得部と、
第2の入力情報を取得する第2取得部と、
前記第1、第2の入力情報をテキスト変換した認識結果を生成する制御部と、
前記認識結果を出力する出力部とを備えたコミュニケーション支援システムを用いて、コミュニケーション支援を行なうプログラムであって、
前記制御部を、
前記第1取得部において取得した第1の入力情報に基づいてテキスト変換を行なう第1の認識処理部、
前記第2取得部において取得した第2の入力情報に基づいてテキスト変換を行なう第2の認識処理部、
前記第1、第2の認識処理部のうち、認識率が高い認識処理部における認識結果に含まれる単語候補の重み付けを行ない、前記重み付けに基づいて、他方の認識処理部のテキスト変換を調整する認識調整部として機能させることを特徴とするコミュニケーション支援プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータ端末を利用して行なわれるコミュニケーションを支援するためのコミュニケーション支援システム、コミュニケーション支援方法及びコミュニケーション支援プログラムに関する。
【背景技術】
【0002】
コンピュータ端末を利用して、効率的に資料説明を行なうための説明支援システムが検討されている(例えば、特許文献1参照)。この文献に記載された技術においては、2つのタブレット端末の画面同期処理を実行する。
【0003】
また、視覚/聴覚障害者との間でコミュニケーションを行なうための技術が検討されている(例えば、特許文献2参照)。この文献に記載された技術においては、送信者は、自己の携帯電話機を使用して手話等の映像、キーボード操作等の文字又はマイクからの音声を入力する。そして、映像情報及び音声情報、映像情報を「手話→文字」変換、音声情報を「音声→文字」変換した文字情報、文字情報を「文字→音声」変換した音声情報を、受信者の携帯電話機に送信する。受信者は、映像情報、文字情報又は音声情報を選択してコミュニケーションを行なう。
【0004】
更に、聴覚障害者と健聴者との円滑なコミュニケーションを支援し、バリアフリーな社会を実現する手話をリアルタイムでテキスト化し、何も持たず、何も触れずに、体の動きや声でコンピュータと対話する技術も検討されている(例えば、非特許文献1参照)。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2013−25608号公報(第1頁、図1
【特許文献2】特開2004−248022号公報(第1頁、図1
【非特許文献】
【0006】
【非特許文献1】みずほ情報総研、千葉大学、みずほ情報総研と千葉大学、「手話認識システム」の共同開発に着手″、[online]、平成25年9月4日、みずほ情報総研ホームページ、[平成25年9月9日検索]、インターネット<http://www.mizuho-ir.co.jp/company/release/2013/shuwa0904.html>
【発明の概要】
【発明が解決しようとする課題】
【0007】
上述のように、バリアフリーな環境を実現するために手話認識技術が検討されている。しかしながら、所定の入力を認識してテキストに変換する場合、認識処理方式や環境により、的確な認識が難しいことがある。例えば、認識処理により、特定の手話動作や音声等に対して、複数のテキスト候補(異義語)が特定される場合、会話の目的に応じた円滑なコミュニケーションを行なうことができない可能性がある。また、認識されたテキストのみを見ていたのでは、相手の状態を把握することができず、的確な意思疎通ができないことがある。
【0008】
本発明は、上記問題点を解決するためになされたものであり、コンピュータ端末を利用して、効率的なコミュニケーションを支援するためのコミュニケーション支援システム、コミュニケーション支援方法及びコミュニケーション支援プログラムを提供することにある。
【課題を解決するための手段】
【0009】
(1)上記課題を解決するコミュニケーション支援システムは、第1の入力情報を取得する第1取得部と、第2の入力情報を取得する第2取得部と、前記第1、第2の入力情報をテキスト変換した認識結果を生成する制御部と、前記認識結果を出力する出力部とを備える。そして、前記制御部は、前記第1取得部において取得した第1の入力情報に基づいてテキスト変換を行なう第1の認識処理部と、前記第2取得部において取得した第2の入力情報に基づいてテキスト変換を行なう第2の認識処理部と、前記第1、第2の認識処理部のうち、認識率が高い認識処理部における認識結果に含まれる単語候補の重み付けを行ない、前記重み付けに基づいて、他方の認識処理部のテキスト変換を調整する認識調整部とを備える。この構成によれば、異なる認識方法を利用したコミュニケーションを実現することができる。更に、一方の認識結果を利用して、他方の認識処理を支援することができる。
【0010】
(2)上記コミュニケーション支援システムは、前記第1、第2の認識処理部のうち、認識率が高い認識処理部における認識結果に含まれる単語候補の重み付けを行ない、前記重み付けに基づいて、他方の認識処理部のテキスト変換を調整するコミュニケーション
においては共通した話題をテーマにしているので、認識率(正しく認識した率)が高い認識結果に基づいて単語候補の重み付けを行ない、認識率が低い認識処理を支援することができる。
【0011】
(3)上記コミュニケーション支援システムは、前記認識処理部毎に、認識結果の修正に応じて認識率を算出し、前記認識率に基づいて、認識率が高い認識処理部を特定することが好ましい。これにより、修正状況に応じて認識率が高い認識処理部を特定し、認識率の低い認識処理を支援することができる。従って、状況に応じて、第1、第2の認識処理部における相対的な認識率の高低が変わる場合にも、状況に応じた認識処理の支援を行なうことができる。
【0012】
(4)上記コミュニケーション支援システムは、前記第1、第2の入力情報の少なくとも一方の入力情報とともに顔画像を取得し、前記入力情報に対応した認識結果に対応付けて、前記顔画像を前記出力部に出力することが好ましい。これにより、相手の表情を確認しながら、コミュニケーションを行なうことができる。
【0013】
(5)上記コミュニケーション支援システムは、前記顔画像が出力された領域に重畳しないように、前記認識結果を出力することが好ましい。出力部において、認識結果とともに表情を確認しながら、コミュニケーションを行なうことができる。
【発明の効果】
【0014】
本発明によれば、コンピュータ端末を利用して、効率的なコミュニケーションを支援することができる。
【図面の簡単な説明】
【0015】
図1】本発明の実施形態のコミュニケーション支援システムの説明図。
図2】本実施形態の処理手順の説明図であって、(a)は手話対応処理、(b)は音声対応処理の説明図。
図3】本実施形態の処理手順の説明図であって、(a)は認識調整処理、(b)は手話認識処理の説明図。
図4】本実施形態のユーザ端末における表示画面の説明図。
図5】他実施形態の処理手順の説明図であって、(a)は手話対応処理、(b)は音声対応処理、(c)は認識調整処理の説明図。
図6】他実施形態の処理手順の説明図。
図7】他実施形態の処理手順の説明図。
図8】他実施形態の処理手順の説明図。
【発明を実施するための形態】
【0016】
<第1の実施形態>
以下、本発明を具体化したコミュニケーション支援システムの一実施形態を図1図4に従って説明する。本実施形態では、来店顧客が、金融機関の窓口カウンタにおいて、手続等の依頼を行ない、窓口担当者が対応を行なう場合を説明する。ここでは、来店顧客は手話により、窓口担当者は発話によりコミュニケーションを行なう場合を想定する。そして、第1の入力情報(手話動作)、第2の入力情報(音声)における2つの認識技術(手話認識、音声認識)を組み合わせて、コミュニケーションを支援する。具体的には、音声認識の方が手話認識よりも、認識率(正しく認識した率)が高い場合を想定し、音声認識結果を用いて手話認識を支援する。
【0017】
図1に示すように、本実施形態では、金融機関の窓口カウンタに設置されたユーザ端末10,15(出力部)を用いる。更に、ユーザ端末10,15は、ネットワークを介して支援サーバ20に接続される。
【0018】
ユーザ端末10は、来店顧客の依頼対応を行なう窓口担当者が用いるコンピュータ端末(タブレット端末)であり、ユーザ端末15は、来店顧客が用いるコンピュータ端末(タブレット端末)である。ユーザ端末10及びユーザ端末15は、無線LAN通信等を用いることにより、支援サーバ20との間で通信を行なう。なお、通信方式は無線通信に限定されるものではなく、有線通信を用いることも可能である。
【0019】
ユーザ端末10,15は、制御部、タッチパネルディスプレイを備える。
タッチパネルディスプレイは入出力手段として機能し、ディスプレイ上に情報を出力するとともに、ディスプレイ表面へのタッチを検知した場合、タッチ位置(座標)を特定して各種操作処理(ポインティング処理、キー入力処理等)を行なう。例えば、筆談を行なう場合には、タッチパネルディスプレイ上に手書き入力を行なう。
【0020】
支援サーバ20は、ユーザ端末10,15を用いてのコミュニケーションを支援するためのコンピュータシステムである。この支援サーバ20は、制御部21、手話認識辞書22、音声認識辞書23、関連語記憶部24を備えている。更に、支援サーバ20には、カメラ31、マイク32が接続されている。
【0021】
手話認識辞書22(第1認識辞書)には、手話において用いられる動作パターン(特徴量)に対して、単語に関するデータが記録される。
音声認識辞書23(第2認識辞書)には、発声において用いられる音声パターン(特徴量)に対して、単語に関するデータが記録される。
関連語記憶部24には、相互に関連する複数の単語を関連付けてグループとして登録されている。ここで、同じグループに属する単語は、相互に関連語として扱われる。
【0022】
第1取得部としてのカメラ31は、撮影手段として機能する。ここでは、カメラ31は、撮影した顧客の顔や動作(深度情報を含めたモーション)をモーションデータとして生成する。この動作には、上腕部の動きや口元の動き等の手話の動作が含まれており、手話内容を特定するための情報が含まれる。
第2取得部としてのマイク32は、集音手段として機能する。ここでは、マイク32は、窓口担当者の音声を集音する。
【0023】
制御部21は、制御手段(CPU、RAM、ROM等)を備え、後述する処理(手話認識段階、音声認識段階、認識調整段階、端末制御段階、筆談支援段階等の各処理等)を行なう。そのためのコミュニケーション支援プログラムを実行することにより、制御部21は、図1に示すように、手話認識部211、音声認識部212、認識調整部213、端末制御部214、筆談支援部215として機能する。
【0024】
第1の認識処理部としての手話認識部211は、カメラ31により撮影された顧客の動作において、口元、腕や手等の身体画像パターンにより手話の動作を特定する。そして、手話認識部211は、この動きの特徴量を算出し、手話認識辞書22を用いて、手話のテキスト変換処理を実行する。
【0025】
第2の認識処理部としての音声認識部212は、マイク32により集音された窓口担当者の音声の特徴量を算出する。そして、音声認識部212は、この特徴量により、音声認識辞書23を用いて、音声のテキスト変換処理を実行する。
【0026】
認識調整部213は、手話認識によって生成されたテキストと、音声認識によって生成されたテキストとを用いて、認識方法を調整する処理を実行する。この認識調整部213は、重み付けメモリを備える。この重み付けメモリには、音声認識された単語の関連語を、頻度(重み付け)に関連付けて記憶する。なお、この重み付けメモリは、来店顧客の一つの手続依頼の窓口対応を終了した場合に、リセットされる。
【0027】
端末制御部214は、ユーザ端末10,15のタッチパネルディスプレイにおける表示や入力を制御する処理を実行する。本実施形態では、手話認識又は音声認識により生成されたテキストや筆談における文字画像をタッチパネルディスプレイに表示したり、タッチパネルディスプレイからタッチ入力された情報を取得したりする。
筆談支援部215は、ユーザ端末10,15から取得したタッチ入力の軌跡に基づいて、描画された文字画像を生成する処理を実行する。
【0028】
次に、このコミュニケーション支援システムにおける動作を、図2図4を用いて説明する。以下、手話対応処理、音声対応処理、認識調整処理、手話認識処理、出力処理の順番に説明する。
【0029】
(手話対応処理)
まず、図2(a)を用いて、来店顧客についての手話対応処理を説明する。
ここでは、支援サーバ20の制御部21は、撮影処理を実行する(ステップS1−1)。具体的には、制御部21の手話認識部211は、カメラ31を用いて、来店顧客の動作を撮影してモーションデータを生成し、このモーションデータをカメラ31から取得する。
【0030】
次に、支援サーバ20の制御部21は、筆談入力があったかどうかについての判定処理を実行する(ステップS1−2)。具体的には、制御部21の手話認識部211は、ユーザ端末15のタッチパネルディスプレイにおいて、タッチ入力が行なわれたかどうかを判定する。そして、タッチパネルディスプレイにおけるタッチ入力により、連続的な軌跡が描かれた場合、筆談入力と判定する。
【0031】
筆談入力と判定した場合(ステップS1−2において「YES」の場合)、支援サーバ20の制御部21は、軌跡特定処理を実行する(ステップS1−3)。具体的には、制御部21の手話認識部211は、筆談支援部215に処理を引き継ぐ。この場合、筆談支援部215は、ユーザ端末15から、タッチパネルディスプレイにおいてタッチ入力された軌跡を取得する。
この軌跡は、後述するように、ユーザ端末10,15のタッチパネルディスプレイに出力される(ステップS1−7)。
【0032】
一方、タッチパネルディスプレイにおけるタッチ入力がなく、筆談入力でないと判定した場合(ステップS1−2において「NO」の場合)、支援サーバ20の制御部21は、手話認識処理を実行する(ステップS1−4)。具体的には、制御部21の手話認識部211は、カメラ31から取得したモーションデータに含まれる動作パターンに基づいて、手話認識辞書22を用いて単語候補を特定する。この処理については、図3(b)を用いて後述する。
【0033】
次に、支援サーバ20の制御部21は、単語候補の出力処理を実行する(ステップS1−5)。具体的には、制御部21の手話認識部211は、手話認識辞書22を用いて特定した単語候補を、ユーザ端末15のタッチパネルディスプレイに出力する。
【0034】
次に、支援サーバ20の制御部21は、単語候補の選択処理を実行する(ステップS1−6)。具体的には、顧客は、ユーザ端末15のタッチパネルディスプレイに表示された単語候補を確認する。手話認識された単語に間違いがある場合には、この単語をタッチパネルディスプレイにおいて選択する。この場合、制御部21の手話認識部211は、ユーザ端末15のタッチパネルディスプレイに、動作パターンに類似する他の単語候補のリストを出力する。そして、ユーザ端末15のタッチパネルディスプレイにおいて、正しい単語を選択することにより、手話認識単語が確定される。手話認識された単語に間違いがない場合には、そのまま放置することにより、手話認識単語が確定される。
【0035】
次に、支援サーバ20の制御部21は、出力処理を実行する(ステップS1−7)。具体的には、制御部21の端末制御部214は、音声認識結果を、ユーザ端末10,15のタッチパネルディスプレイに出力する。タッチパネルディスプレイに出力される内容の詳細は、図4を用いて後述する。
【0036】
(音声対応処理)
次に、図2(b)を用いて、窓口担当者についての音声対応処理を説明する。この処理は、図2(a)に示した手話対応処理と並行して行われる。
ここでは、支援サーバ20の制御部21は、音声取得処理を実行する(ステップS2−1)。具体的には、制御部21の音声認識部212は、マイク32を用いて、窓口担当者の音声を取得する。
【0037】
次に、支援サーバ20の制御部21は、音声認識処理を実行する(ステップS2−2)。具体的には、制御部21の音声認識部212は、マイク32により集音された音声の特徴量を算出する。そして、音声認識部212は、この特徴量に関連付けられた単語を音声認識辞書23から取得する。ここでは、音声に最も近い特徴量の音声パターンを特定して、この音声パターンに関連付けられた単語を単語候補として特定する。
【0038】
次に、支援サーバ20の制御部21は、単語候補の出力処理を実行する(ステップS2−3)。具体的には、制御部21の音声認識部212は、音声認識辞書23を用いて特定した単語候補を、ユーザ端末10のタッチパネルディスプレイに出力する。
【0039】
次に、支援サーバ20の制御部21は、単語候補の選択処理を実行する(ステップS2−4)。具体的には、窓口担当者は、ユーザ端末10のタッチパネルディスプレイに表示された単語候補を確認する。音声認識された単語に間違いがある場合には、この単語をタッチパネルディスプレイにおいて選択する。この場合、制御部21の音声認識部212は、ユーザ端末10のタッチパネルディスプレイに、音声パターンに類似する他の単語候補のリストを出力する。そして、ユーザ端末10のタッチパネルディスプレイにおいて、正しい単語を選択することにより、音声認識単語が確定される。音声認識された単語に間違いがない場合には、そのまま放置することにより、音声認識単語が確定される。
【0040】
次に、支援サーバ20の制御部21は、認識調整処理を実行する(ステップS2−5)。この処理については、図3(a)を用いて後述する。
次に、支援サーバ20の制御部21は、出力処理を実行する(ステップS2−6)。具体的には、制御部21の端末制御部214は、音声認識結果を、ユーザ端末10,15のタッチパネルディスプレイに出力する。タッチパネルディスプレイに出力される内容の詳細は、図4を用いて後述する。
【0041】
(認識調整処理)
次に、図3(a)を用いて、認識調整処理(ステップS2−5)を説明する。
ここでは、支援サーバ20の制御部21は、関連語の特定処理を実行する(ステップS3−1)。具体的には、制御部21の認識調整部213は、音声認識部212から、音声認識処理によって特定された単語を取得する。そして、認識調整部213は、関連語記憶部24から、音声認識された単語の関連語を取得する。
【0042】
次に、支援サーバ20の制御部21は、重み付け処理を実行する(ステップS3−2)。具体的には、制御部21の認識調整部213は、関連語記憶部24から取得した関連語が、重み付けメモリに記録されているかどうかを確認する。取得した関連語が重み付けメモリに記録されていない場合には、関連語とともに頻度「1」を記録する。一方、取得した関連語が、既に重み付けメモリに記録されている場合には、この関連語に関連付けられた頻度「1」を加算する。
【0043】
(手話認識処理)
次に、図3(b)を用いて、手話認識処理(ステップS1−4)を説明する。
ここでは、支援サーバ20の制御部21は、口元や前腕部の動き特定処理を実行する(ステップS4−1)。具体的には、制御部21の手話認識部211は、カメラ31から取得したモーションデータにおいて、身体画像パターンを用いて、口元領域や上腕部領域を特定する。そして、手話認識部211は、モーションデータにおいて、特定した口元や上腕部の動き(手話の動作)を特定する。
【0044】
次に、支援サーバ20の制御部21は、特徴量の抽出処理を実行する(ステップS4−2)。具体的には、制御部21の手話認識部211は、口元や上腕部の動き(手話の動作)に基づいて、動きの方向や大きさに関する特徴量を算出する。
【0045】
次に、支援サーバ20の制御部21は、辞書比較処理を実行する(ステップS4−3)。具体的には、制御部21の手話認識部211は、算出した動きの特徴量と、手話認識辞書22に記録された動きパターンとを比較し、一致度を算出する。ここで、一致度が基準値以上の動作パターンに対応するすべての単語を単語候補として特定する。
【0046】
次に、支援サーバ20の制御部21は、意味推定処理を実行する(ステップS4−4)。具体的には、制御部21の手話認識部211は、認識調整部213の重み付けメモリに記録されている関連語とのマッチングを行なう。そして、手話認識部211は、重み付けメモリに関連語として記録されている単語の頻度と、動作パターンとの一致度とが高い単語候補を特定する。
【0047】
(出力処理)
次に、図4を用いて、出力処理(ステップS1−7,S2−6)を説明する。ここでは、窓口担当者が用いるユーザ端末10のタッチパネルディスプレイに出力される表示画面を説明する。
【0048】
具体的には、支援サーバ20の制御部21は、カメラ31から取得したモーションデータにおいて顧客の顔画像を特定する。そして、制御部21の端末制御部214は、ユーザ端末10のタッチパネルディスプレイに、顔画像500を出力する。この場合、顧客の表情がわかるように大きく表示する。
【0049】
また、制御部21の端末制御部214は、手話認識部211における手話認識結果510,511を、時間経過の順番で表示する。具体的には、図4においては、最新の手話認識結果511はタッチパネルディスプレイの左下に表示され、古い手話認識結果510は上方に移動させる。
【0050】
更に、制御部21の端末制御部214は、音声認識部212における音声認識結果520,521を、時間経過の順番で表示する。具体的には、図4においては、最新の音声認識結果521はタッチパネルディスプレイの左下に表示され、古い音声認識結果520は上方に移動させる。この場合、端末制御部214は、タッチパネルディスプレイにおいて顔画像が出力された領域に重畳しないように、認識結果を出力する。
なお、来店顧客が用いるユーザ端末15のタッチパネルディスプレイには、手話認識結果510,511、音声認識結果520,521のみが出力される。
【0051】
以上、本実施形態によれば、以下に示す効果を得ることができる。
(1)上記実施形態では、支援サーバ20の制御部21は、撮影処理(ステップS1−1)、手話認識処理(ステップS1−4)、出力処理(ステップS1−7)を実行する。更に、支援サーバ20の制御部21は、音声取得処理(ステップS2−1)、音声認識処理(ステップS2−2)、出力処理(ステップS2−6)を実行する。これにより、音声を聞き取れない場合や手話ができない場合にも、テキストを通じてコミュニケーションを行なうことができる。従って、コミュニケーションの相手とコミュニケーション方法が異なる場合にも、円滑にコミュニケーションを実現することができる。
【0052】
(2)上記実施形態では、支援サーバ20の制御部21は、認識調整処理を実行する(ステップS2−5)。ここでは、支援サーバ20の制御部21は、関連語の特定処理(ステップS3−1)、重み付け処理(ステップS3−2)を実行する。これにより、音声認識率が手話認識率よりも高い場合に、音声認識結果を用いて、手話認識処理を支援することができる。
【0053】
(3)上記実施形態では、筆談入力と判定した場合(ステップS1−2において「YES」の場合)、支援サーバ20の制御部21は、軌跡特定処理を実行する(ステップS1−3)。これにより、手話認識処理が困難な場合に、筆談に切り換えてコミュニケーションを図ることができる。
【0054】
(4)上記実施形態では、支援サーバ20の制御部21は、カメラ31から取得したモーションデータにおいて顧客の顔画像を特定する。そして、制御部21の端末制御部214は、ユーザ端末10のタッチパネルディスプレイに、顔画像500を出力する。これにより、来店顧客の表情を確認しながら、コミュニケーションを図ることができる。
【0055】
<第2の実施形態>
次に、図5を用いて、第2の実施形態を説明する。第1の実施形態においては、音声認識率の方が手話認識率よりも高い場合を想定して、音声認識処理の認識結果を用いて手話認識処理を支援した。第2の実施形態では、各認識処理の認識率に応じて、支援に用いる認識処理(優先認識方式)を決定する構成であり、同様の部分については詳細な説明を省略する。
ここでは、会話の最初の段階(優先認識方式が決まっていない段階)では、手話認識処理と音声認識処理とを別個独立に行なう。そして、会話の進捗状況に応じて、優先認識方式を決定する。
【0056】
(手話対応処理)
まず、図5(a)を用いて、手話対応処理を説明する。
ここでは、支援サーバ20の制御部21は、ステップS1−1と同様に、撮影処理を実行する(ステップS5−1)。
【0057】
次に、支援サーバ20の制御部21は、ステップS1−2と同様に、筆談入力かどうかについての判定処理を実行する(ステップS5−2)。
筆談入力と判定した場合(ステップS5−2において「YES」の場合)、支援サーバ20の制御部21は、ステップS1−3と同様に、軌跡特定処理を実行する(ステップS5−3)。
【0058】
一方、タッチパネルディスプレイにおけるタッチ入力がなく、筆談入力でないと判定した場合(ステップS5−2において「NO」の場合)、支援サーバ20の制御部21は、手話認識処理を実行する(ステップS5−4)。ここで、優先認識方式が決まっていない場合や、手話認識が優先認識方式となっている場合には、制御部21の手話認識部211は、手話認識辞書22に記録された動作パターンの特徴量が近いものから順番に単語候補として特定する。一方、音声認識が優先認識方式となっている場合には、制御部21の手話認識部211は、ステップS1−4と同様に、重み付けメモリに関連語として記録されている単語の頻度と、動作パターンとの一致度とが高い単語候補を特定する。
【0059】
次に、支援サーバ20の制御部21は、ステップS1−5〜S1−7と同様に、単語候補の出力処理(ステップS5−5)、単語候補の選択処理(ステップS5−6)、出力処理(ステップS5−7)を実行する。
【0060】
(音声対応処理)
次に、図5(b)を用いて、音声対応処理を説明する。
ここでは、支援サーバ20の制御部21は、ステップS2−1と同様に、音声取得処理を実行する(ステップS6−1)。
【0061】
次に、支援サーバ20の制御部21は、音声認識処理を実行する(ステップS6−2)。ここで、優先認識方式が決まっていない場合や、音声認識が優先認識方式となっている場合には、制御部21の音声認識部212は、音声認識辞書23に記録された音声パターンの特徴量が近いものから順番に単語候補として特定する。一方、手話認識が優先認識方式となっている場合には、制御部21の音声認識部212は、認識調整部213の重み付けメモリに記録されている関連語とのマッチングを行なう。そして、音声認識部212は、重み付けメモリに関連語として記録されている単語の頻度と、動作パターンとの一致度とが高い単語候補を特定する。
【0062】
次に、支援サーバ20の制御部21は、ステップS2−3,S2−4,S2−6と同様に、単語候補の出力処理(ステップS6−3)、単語候補の選択処理(ステップS6−4)、出力処理(ステップS6−5)を実行する。
【0063】
(認識調整処理)
次に、図5(c)を用いて、認識調整処理を説明する。ここでは、ステップS5−6,S6−4で用いられる優先認識方式を決定する。この処理は、会話の進捗状況が基準時点を経過した場合に実行される。例えば、この基準時点としては、両認識方式において所定の単語数を変換した時点や、所定時間が経過した時点等を用いることができる。
ここでは、支援サーバ20の制御部21は、認識率の比較処理を実行する(ステップS7−1)。具体的には、制御部21の認識調整部213は、手話認識と音声認識における認識率を比較する。本実施形態では、認識調整部213は、基準時点までの認識処理において、最初に出力した単語候補が修正されなかった割合を認識率として用いる。
【0064】
次に、支援サーバ20の制御部21は、認識率に基づいて優先認識方式の決定処理を実行する(ステップS7−2)。具体的には、制御部21の認識調整部213は、認識率が高い認識方式を優先認識方式として特定する。そして、認識調整部213は、手話認識部211及び音声認識部212に対して、いずれの認識方式を優先するかを通知する。この通知に応じて、上述したように、手話認識処理(ステップS5−4)、音声認識処理(ステップS6−2)を実行する。
【0065】
以上、本実施形態によれば、以下に示す効果を得ることができる。
(5)上記実施形態では、支援サーバ20の制御部21は、認識率の比較処理(ステップS7−1)、認識率に基づいて優先認識方式の決定処理(ステップS7−2)を実行する。コミュニケーション環境によっては、認識率の相対的な高さが逆転する場合がある。例えば、周囲が騒がしい場合には、音声によるコミュニケーションが困難である。この場合にも、修正状況に応じて認識率を評価して、認識率が高い方の認識結果を利用して、他方の認識処理を支援することができる。
【0066】
なお、上記各実施形態は、以下の態様に変更してもよい。
・上記各実施形態では、金融機関の窓口におけるコミュニケーション支援に用いた。本願発明の対象はこれに限定されるものではなく、複数種類の認識処理を用い、協働して認識率を改善する仕組みに適応することができる。
【0067】
・上記第2の実施形態では、認識率に基づいて優先認識方式を決定する。これに代えて、両方の認識方式で認識された単語の関連語を用いて重み付けを行なうようにしてもよい。この場合、支援サーバ20の制御部21は、認識調整処理を実行する。
【0068】
図6を用いて、この認識調整処理を説明する。
ここでは、支援サーバ20の制御部21は、マッチング処理を実行する(ステップS8−1)。具体的には、制御部21の認識調整部213は、手話認識処理において選択された単語の関連語と、音声認識処理において選択された単語の関連語とを、関連語記憶部24から抽出する。そして、認識調整部213は、それぞれの認識方式において抽出した関連語のマッチングを行なう。
【0069】
次に、支援サーバ20の制御部21は、マッチングに基づいて重み付け処理を実行する(ステップS8−2)。具体的には、制御部21の認識調整部213は、マッチング結果において共通する関連語を、重み付けメモリにおいて、高い重み付け(高い頻度)に関連付けて記録する。
これにより、複数の認識方式を活用して、的確な認識処理を行ない、円滑なコミュニケーションを実現することができる。
【0070】
・上記各実施形態では、ユーザ端末10に、利用者の顔画像と手話認識結果及び音声認識結果を出力する。ユーザ端末10,15は、タブレット端末に限定されるものではなく、デスクトップ端末やノート端末を利用することも可能である。また、表示手段として、傾斜させたハーフミラーに認識結果を出力するプロンプタを用いることも可能である。また、ヘッドマウントディスプレイを利用することも可能である。
【0071】
・上記各実施形態では、手話認識結果及び音声認識結果を、ユーザ端末10,15に出力する。ここで、認識結果に基づいて、表示形態を変更するようにしてもよい。例えば、音声対応処理において、音声認識結果に対応して、選択肢を出力するコミュニケーション支援処理を行なうようにしてもよい。
【0072】
図7を用いて、このコミュニケーション支援処理を説明する。
まず、支援サーバ20の制御部21は、図2(b)に示す音声対応処理を実行する(ステップS9−1)。
【0073】
次に、支援サーバ20の制御部21は、音声認識結果が疑問文かどうかについての判定処理を実行する(ステップS9−2)。具体的には、制御部21の端末制御部214は、音声認識結果が疑問形かどうかを判定する。例えば、文末に「ですか」、「でしょうか」等の質問を表す文字列(終助詞)を検出した場合には、疑問文と判定する。
【0074】
疑問文でないと判定した場合(ステップS9−2において「NO」の場合)、支援サーバ20の制御部21は、通常出力処理を実行する(ステップS9−3)。ここでは、音声認識結果を、そのまま出力する。
【0075】
一方、疑問文と判定した場合(ステップS9−2において「YES」の場合)、支援サーバ20の制御部21は、選択肢の出力処理を実行する(ステップS9−4)。具体的には、制御部21の端末制御部214は、音声認識結果とともに「はい」、「いいえ」等の選択肢を、来店顧客のユーザ端末15のタッチパネルディスプレイに出力する。
【0076】
次に、支援サーバ20の制御部21は、選択肢の選択結果の出力処理を実行する(ステップS9−5)。具体的には、制御部21の端末制御部214が、来店顧客のユーザ端末15のタッチパネルディスプレイにおいて、選択肢の選択を検知した場合には、選択結果を、ユーザ端末10,15に出力する。
これにより、選択肢を利用して、効率的なコミュニケーションを実現することができる。
【0077】
・上記各実施形態では、手話認識結果、音声認識結果をユーザ端末10,15に出力する。これに加えて、認識結果に応じて、関連するサービスメニューを、ユーザ端末15に出力するコミュニケーション支援処理を行なうようにしてもよい。この場合には、支援サーバ20に、更に、サービスメニュー記憶部を設ける。このサービスメニュー記憶部には、サービスメニュー項目に対して、手話認識又は音声認識される可能性がある関連単語に関するデータを記憶しておく。
【0078】
図8を用いて、このコミュニケーション支援処理を説明する。
まず、支援サーバ20の制御部21は、認識単語に応じて関連メニューの抽出処理を実行する(ステップS10−1)。具体的には、制御部21の認識調整部213は、サービスメニュー記憶部から、手話認識又は音声認識された単語が関連単語として登録されているサービスメニュー項目を抽出する。
【0079】
次に、支援サーバ20の制御部21は、関連メニューの重み付け処理を実行する(ステップS10−2)。具体的には、制御部21の認識調整部213は、サービスメニュー記憶部に記録されている各サービスメニュー項目について、手話認識又は音声認識された関連単語の数をカウントする。そして、認識調整部213は、認識数が多い関連単語のサービスメニュー項目に対して重み付けを行なう。
【0080】
次に、支援サーバ20の制御部21は、重み付けに応じて表示変更処理を実行する(ステップS10−3)。具体的には、制御部21の認識調整部213は、重み付けが大きいサービスメニュー項目を、ユーザ端末15のタッチパネルディスプレイにおいて優先的に表示する。例えば、選択しやすい形態で表示する。
これにより、サービスメニュー項目を利用して、効率的なコミュニケーションを実現することができる。
【0081】
・上記各実施形態では、支援サーバ20の制御部21の筆談支援部215は、ユーザ端末10,15から取得したタッチ入力の軌跡に基づいて、描画された文字画像を生成する処理を実行する。これに代えて、筆談支援部215が、ユーザ端末10,15から取得したタッチ入力の軌跡に基づいて、筆談をテキストに変換するOCR処理を実行するようにしてもよい。この場合には、支援サーバ20に、軌跡パターンに応じた単語に関するデータが記録したOCR辞書を設ける。これにより、手書き文字についてもテキストにより確認することができる。
更に、OCR認識結果により、手話認識や音声認識を支援するようにしてもよい。この場合には、OCR認識結果に基づいて、手話認識処理や音声認識処理において用いる関連語の特定処理を行なう。
【0082】
・上記各実施形態では、支援サーバ20の制御部21は、単語候補の出力処理(ステップS1−5、S5−5)、単語候補の選択処理(ステップS1−6、S5−6)を実行する。ここでは、手話認識部211は、単語候補を、ユーザ端末15のタッチパネルディスプレイに出力し、顧客は、ユーザ端末15のタッチパネルディスプレイに表示された単語候補を確認する。手話認識された単語に間違いがある場合には、この単語をタッチパネルディスプレイにおいて選択する。これに加えて、手話認識部211は、単語候補を、ユーザ端末10のタッチパネルディスプレイにも出力し、窓口担当者が単語候補を確認できるようにしてもよい。そして、支援サーバ20の制御部21は、ユーザ端末10における選択により、単語候補の選択処理を実行する(ステップS1−6、S5−6)。これにより、窓口担当者の判断に基づいて、手話認識を進めることができるため、来店顧客の作業負担を軽減することができる。
【0083】
・上記各実施形態では、出力処理において、来店顧客の顔画像500をユーザ端末10のタッチパネルディスプレイに出力する。これに加えて、他のカメラで撮影した窓口担当者の顔画像をユーザ端末15のタッチパネルディスプレイに出力するようにしてもよい。
【符号の説明】
【0084】
10,15…ユーザ端末、20…支援サーバ、21…制御部、211…手話認識部、212…音声認識部、213…認識調整部、214…端末制御部、215…筆談支援部、22…手話認識辞書、23…音声認識辞書、24…関連語記憶部、31…カメラ、32…マイク。
図1
図2
図3
図4
図5
図6
図7
図8