特許6293449 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ みずほ情報総研株式会社の特許一覧

特許6293449コミュニケーション支援システム、コミュニケーション支援方法及びコミュニケーション支援プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6293449

(24)【登録日】2018年2月23日

(45)【発行日】2018年3月14日

(54)【発明の名称】コミュニケーション支援システム、コミュニケーション支援方法及びコミュニケーション支援プログラム

(51)【国際特許分類】

H04M 3/42 20060101AFI20180305BHJP

G10L 15/00 20130101ALI20180305BHJP

G06T 7/20 20170101ALI20180305BHJP

【ＦＩ】

H04M3/42 A

G10L15/00 200A

G10L15/00 200C

G06T7/20 300A

【請求項の数】6

【全頁数】15

(21)【出願番号】特願2013-212625(P2013-212625)

(22)【出願日】2013年10月10日

(65)【公開番号】特開2015-76774(P2015-76774A)

(43)【公開日】2015年4月20日

【審査請求日】2016年10月5日

(73)【特許権者】

【識別番号】592131906

【氏名又は名称】みずほ情報総研株式会社

(74)【代理人】

【識別番号】100105957

【弁理士】

【氏名又は名称】恩田誠

(74)【代理人】

【識別番号】100068755

【弁理士】

【氏名又は名称】恩田博宣

(72)【発明者】

【氏名】下元正義

(72)【発明者】

【氏名】田中智之

(72)【発明者】

【氏名】大村和弘

(72)【発明者】

【氏名】長岡優季

(72)【発明者】

【氏名】鈴木広一

(72)【発明者】

【氏名】眞崎浩一

【審査官】寺谷大亮

(56)【参考文献】

【文献】特開２００４−２４８０２２（ＪＰ，Ａ）

【文献】国際公開第９７／００８８９５（ＷＯ，Ａ１）

【文献】特開２００７−２５６８３６（ＪＰ，Ａ）

【文献】特開２０１０−０５４６８５（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１１／００２２３８６（ＵＳ，Ａ１）

【文献】米国特許出願公開第２００９／００１２７８８（ＵＳ，Ａ１）

【文献】山本博史，対話者の前発話を利用した統計的言語モデル，電子情報通信学会論文誌（Ｊ８４−Ｄ−ＩＩ）第１２号，日本，社団法人電子情報通信学会，２００１年１２月１日

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｈ０４Ｍ３／４２

Ｇ０６Ｔ７／２０

Ｇ１０Ｌ１５／００

(57)【特許請求の範囲】

【請求項1】

第１の入力情報を取得する第１取得部と、
第２の入力情報を取得する第２取得部と、
前記第１、第２の入力情報をテキスト変換した認識結果を生成する制御部と、
前記認識結果を出力する出力部とを備えたコミュニケーション支援システムであって、
前記制御部は、
前記第１取得部において取得した第１の入力情報に基づいてテキスト変換を行なう第１の認識処理部と、
前記第２取得部において取得した第２の入力情報に基づいてテキスト変換を行なう第２の認識処理部と、
前記第１、第２の認識処理部のうち、認識率が高い認識処理部における認識結果に含まれる単語候補の重み付けを行ない、前記重み付けに基づいて、他方の認識処理部のテキスト変換を調整する認識調整部とを備えることを特徴とするコミュニケーション支援システム。

【請求項2】

前記認識処理部毎に、認識結果の修正に応じて認識率を算出し、
前記認識率に基づいて、認識率が高い認識処理部を特定することを特徴とする請求項１に記載のコミュニケーション支援システム。

【請求項3】

前記第１、第２の入力情報の少なくとも一方の入力情報とともに顔画像を取得し、前記入力情報に対応した認識結果に対応付けて、前記顔画像を前記出力部に出力することを特徴とする請求項１又は２に記載のコミュニケーション支援システム。

【請求項4】

前記顔画像が出力された領域に重畳しないように、前記認識結果を出力することを特徴とする請求項３に記載のコミュニケーション支援システム。

【請求項5】

第１の入力情報を取得する第１取得部と、
第２の入力情報を取得する第２取得部と、
前記第１、第２の入力情報をテキスト変換した認識結果を生成する制御部と、
前記認識結果を出力する出力部とを備えたコミュニケーション支援システムを用いて、
コミュニケーション支援を行なう方法であって、
前記制御部は、
前記第１取得部において取得した第１の入力情報に基づいてテキスト変換を行なう第１の認識処理と、
前記第２取得部において取得した第２の入力情報に基づいてテキスト変換を行なう第２の認識処理と、
前記第１、第２の認識処理のうち、認識率が高い認識処理における認識結果に含まれる単語候補の重み付けを行ない、前記重み付けに基づいて、他方の認識処理のテキスト変換を調整する認識調整処理とを実行することを特徴とするコミュニケーション支援方法。

【請求項6】

第１の入力情報を取得する第１取得部と、
第２の入力情報を取得する第２取得部と、
前記第１、第２の入力情報をテキスト変換した認識結果を生成する制御部と、
前記認識結果を出力する出力部とを備えたコミュニケーション支援システムを用いて、コミュニケーション支援を行なうプログラムであって、
前記制御部を、
前記第１取得部において取得した第１の入力情報に基づいてテキスト変換を行なう第１の認識処理部、
前記第２取得部において取得した第２の入力情報に基づいてテキスト変換を行なう第２の認識処理部、
前記第１、第２の認識処理部のうち、認識率が高い認識処理部における認識結果に含まれる単語候補の重み付けを行ない、前記重み付けに基づいて、他方の認識処理部のテキスト変換を調整する認識調整部として機能させることを特徴とするコミュニケーション支援プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、コンピュータ端末を利用して行なわれるコミュニケーションを支援するためのコミュニケーション支援システム、コミュニケーション支援方法及びコミュニケーション支援プログラムに関する。

【背景技術】

【0002】

コンピュータ端末を利用して、効率的に資料説明を行なうための説明支援システムが検討されている（例えば、特許文献１参照）。この文献に記載された技術においては、２つのタブレット端末の画面同期処理を実行する。

【0003】

また、視覚／聴覚障害者との間でコミュニケーションを行なうための技術が検討されている（例えば、特許文献２参照）。この文献に記載された技術においては、送信者は、自己の携帯電話機を使用して手話等の映像、キーボード操作等の文字又はマイクからの音声を入力する。そして、映像情報及び音声情報、映像情報を「手話→文字」変換、音声情報を「音声→文字」変換した文字情報、文字情報を「文字→音声」変換した音声情報を、受信者の携帯電話機に送信する。受信者は、映像情報、文字情報又は音声情報を選択してコミュニケーションを行なう。

【0004】

更に、聴覚障害者と健聴者との円滑なコミュニケーションを支援し、バリアフリーな社会を実現する手話をリアルタイムでテキスト化し、何も持たず、何も触れずに、体の動きや声でコンピュータと対話する技術も検討されている（例えば、非特許文献１参照）。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開２０１３−２５６０８号公報（第１頁、図１）

【特許文献2】特開２００４−２４８０２２号公報（第１頁、図１）

【非特許文献】

【0006】

【非特許文献1】みずほ情報総研、千葉大学、みずほ情報総研と千葉大学、「手話認識システム」の共同開発に着手″、［online］、平成２５年９月４日、みずほ情報総研ホームページ、［平成２５年９月９日検索］、インターネット＜http://www.mizuho-ir.co.jp/company/release/2013/shuwa0904.html＞

【発明の概要】

【発明が解決しようとする課題】

【0007】

上述のように、バリアフリーな環境を実現するために手話認識技術が検討されている。しかしながら、所定の入力を認識してテキストに変換する場合、認識処理方式や環境により、的確な認識が難しいことがある。例えば、認識処理により、特定の手話動作や音声等に対して、複数のテキスト候補（異義語）が特定される場合、会話の目的に応じた円滑なコミュニケーションを行なうことができない可能性がある。また、認識されたテキストのみを見ていたのでは、相手の状態を把握することができず、的確な意思疎通ができないことがある。

【0008】

本発明は、上記問題点を解決するためになされたものであり、コンピュータ端末を利用して、効率的なコミュニケーションを支援するためのコミュニケーション支援システム、コミュニケーション支援方法及びコミュニケーション支援プログラムを提供することにある。

【課題を解決するための手段】

【0009】

（１）上記課題を解決するコミュニケーション支援システムは、第１の入力情報を取得する第１取得部と、第２の入力情報を取得する第２取得部と、前記第１、第２の入力情報をテキスト変換した認識結果を生成する制御部と、前記認識結果を出力する出力部とを備える。そして、前記制御部は、前記第１取得部において取得した第１の入力情報に基づいてテキスト変換を行なう第１の認識処理部と、前記第２取得部において取得した第２の入力情報に基づいてテキスト変換を行なう第２の認識処理部と、前記第１、第２の認識処理部のうち、認識率が高い認識処理部における認識結果に含まれる単語候補の重み付けを行ない、前記重み付けに基づいて、他方の認識処理部のテキスト変換を調整する認識調整部とを備える。この構成によれば、異なる認識方法を利用したコミュニケーションを実現することができる。更に、一方の認識結果を利用して、他方の認識処理を支援することができる。

【0010】

（２）上記コミュニケーション支援システムは、前記第１、第２の認識処理部のうち、認識率が高い認識処理部における認識結果に含まれる単語候補の重み付けを行ない、前記重み付けに基づいて、他方の認識処理部のテキスト変換を調整する。コミュニケーション
においては共通した話題をテーマにしているので、認識率（正しく認識した率）が高い認識結果に基づいて単語候補の重み付けを行ない、認識率が低い認識処理を支援することができる。

【0011】

（３）上記コミュニケーション支援システムは、前記認識処理部毎に、認識結果の修正に応じて認識率を算出し、前記認識率に基づいて、認識率が高い認識処理部を特定することが好ましい。これにより、修正状況に応じて認識率が高い認識処理部を特定し、認識率の低い認識処理を支援することができる。従って、状況に応じて、第１、第２の認識処理部における相対的な認識率の高低が変わる場合にも、状況に応じた認識処理の支援を行なうことができる。

【0012】

（４）上記コミュニケーション支援システムは、前記第１、第２の入力情報の少なくとも一方の入力情報とともに顔画像を取得し、前記入力情報に対応した認識結果に対応付けて、前記顔画像を前記出力部に出力することが好ましい。これにより、相手の表情を確認しながら、コミュニケーションを行なうことができる。

【0013】

（５）上記コミュニケーション支援システムは、前記顔画像が出力された領域に重畳しないように、前記認識結果を出力することが好ましい。出力部において、認識結果とともに表情を確認しながら、コミュニケーションを行なうことができる。

【発明の効果】

【0014】

本発明によれば、コンピュータ端末を利用して、効率的なコミュニケーションを支援することができる。

【図面の簡単な説明】

【0015】

【図1】本発明の実施形態のコミュニケーション支援システムの説明図。

【図2】本実施形態の処理手順の説明図であって、（ａ）は手話対応処理、（ｂ）は音声対応処理の説明図。

【図3】本実施形態の処理手順の説明図であって、（ａ）は認識調整処理、（ｂ）は手話認識処理の説明図。

【図4】本実施形態のユーザ端末における表示画面の説明図。

【図5】他実施形態の処理手順の説明図であって、（ａ）は手話対応処理、（ｂ）は音声対応処理、（ｃ）は認識調整処理の説明図。

【図6】他実施形態の処理手順の説明図。

【図7】他実施形態の処理手順の説明図。

【図8】他実施形態の処理手順の説明図。

【発明を実施するための形態】

【0016】

＜第１の実施形態＞
以下、本発明を具体化したコミュニケーション支援システムの一実施形態を図１〜図４に従って説明する。本実施形態では、来店顧客が、金融機関の窓口カウンタにおいて、手続等の依頼を行ない、窓口担当者が対応を行なう場合を説明する。ここでは、来店顧客は手話により、窓口担当者は発話によりコミュニケーションを行なう場合を想定する。そして、第１の入力情報（手話動作）、第２の入力情報（音声）における２つの認識技術（手話認識、音声認識）を組み合わせて、コミュニケーションを支援する。具体的には、音声認識の方が手話認識よりも、認識率（正しく認識した率）が高い場合を想定し、音声認識結果を用いて手話認識を支援する。

【0017】

図１に示すように、本実施形態では、金融機関の窓口カウンタに設置されたユーザ端末１０，１５（出力部）を用いる。更に、ユーザ端末１０，１５は、ネットワークを介して支援サーバ２０に接続される。

【0018】

ユーザ端末１０は、来店顧客の依頼対応を行なう窓口担当者が用いるコンピュータ端末（タブレット端末）であり、ユーザ端末１５は、来店顧客が用いるコンピュータ端末（タブレット端末）である。ユーザ端末１０及びユーザ端末１５は、無線ＬＡＮ通信等を用いることにより、支援サーバ２０との間で通信を行なう。なお、通信方式は無線通信に限定されるものではなく、有線通信を用いることも可能である。

【0019】

ユーザ端末１０，１５は、制御部、タッチパネルディスプレイを備える。
タッチパネルディスプレイは入出力手段として機能し、ディスプレイ上に情報を出力するとともに、ディスプレイ表面へのタッチを検知した場合、タッチ位置（座標）を特定して各種操作処理（ポインティング処理、キー入力処理等）を行なう。例えば、筆談を行なう場合には、タッチパネルディスプレイ上に手書き入力を行なう。

【0020】

支援サーバ２０は、ユーザ端末１０，１５を用いてのコミュニケーションを支援するためのコンピュータシステムである。この支援サーバ２０は、制御部２１、手話認識辞書２２、音声認識辞書２３、関連語記憶部２４を備えている。更に、支援サーバ２０には、カメラ３１、マイク３２が接続されている。

【0021】

手話認識辞書２２（第１認識辞書）には、手話において用いられる動作パターン（特徴量）に対して、単語に関するデータが記録される。
音声認識辞書２３（第２認識辞書）には、発声において用いられる音声パターン（特徴量）に対して、単語に関するデータが記録される。
関連語記憶部２４には、相互に関連する複数の単語を関連付けてグループとして登録されている。ここで、同じグループに属する単語は、相互に関連語として扱われる。

【0022】

第１取得部としてのカメラ３１は、撮影手段として機能する。ここでは、カメラ３１は、撮影した顧客の顔や動作（深度情報を含めたモーション）をモーションデータとして生成する。この動作には、上腕部の動きや口元の動き等の手話の動作が含まれており、手話内容を特定するための情報が含まれる。
第２取得部としてのマイク３２は、集音手段として機能する。ここでは、マイク３２は、窓口担当者の音声を集音する。

【0023】

制御部２１は、制御手段（ＣＰＵ、ＲＡＭ、ＲＯＭ等）を備え、後述する処理（手話認識段階、音声認識段階、認識調整段階、端末制御段階、筆談支援段階等の各処理等）を行なう。そのためのコミュニケーション支援プログラムを実行することにより、制御部２１は、図１に示すように、手話認識部２１１、音声認識部２１２、認識調整部２１３、端末制御部２１４、筆談支援部２１５として機能する。

【0024】

第１の認識処理部としての手話認識部２１１は、カメラ３１により撮影された顧客の動作において、口元、腕や手等の身体画像パターンにより手話の動作を特定する。そして、手話認識部２１１は、この動きの特徴量を算出し、手話認識辞書２２を用いて、手話のテキスト変換処理を実行する。

【0025】

第２の認識処理部としての音声認識部２１２は、マイク３２により集音された窓口担当者の音声の特徴量を算出する。そして、音声認識部２１２は、この特徴量により、音声認識辞書２３を用いて、音声のテキスト変換処理を実行する。

【0026】

認識調整部２１３は、手話認識によって生成されたテキストと、音声認識によって生成されたテキストとを用いて、認識方法を調整する処理を実行する。この認識調整部２１３は、重み付けメモリを備える。この重み付けメモリには、音声認識された単語の関連語を、頻度（重み付け）に関連付けて記憶する。なお、この重み付けメモリは、来店顧客の一つの手続依頼の窓口対応を終了した場合に、リセットされる。

【0027】

端末制御部２１４は、ユーザ端末１０，１５のタッチパネルディスプレイにおける表示や入力を制御する処理を実行する。本実施形態では、手話認識又は音声認識により生成されたテキストや筆談における文字画像をタッチパネルディスプレイに表示したり、タッチパネルディスプレイからタッチ入力された情報を取得したりする。
筆談支援部２１５は、ユーザ端末１０，１５から取得したタッチ入力の軌跡に基づいて、描画された文字画像を生成する処理を実行する。

【0028】

次に、このコミュニケーション支援システムにおける動作を、図２〜図４を用いて説明する。以下、手話対応処理、音声対応処理、認識調整処理、手話認識処理、出力処理の順番に説明する。

【0029】

（手話対応処理）
まず、図２（ａ）を用いて、来店顧客についての手話対応処理を説明する。
ここでは、支援サーバ２０の制御部２１は、撮影処理を実行する（ステップＳ１−１）。具体的には、制御部２１の手話認識部２１１は、カメラ３１を用いて、来店顧客の動作を撮影してモーションデータを生成し、このモーションデータをカメラ３１から取得する。

【0030】

次に、支援サーバ２０の制御部２１は、筆談入力があったかどうかについての判定処理を実行する（ステップＳ１−２）。具体的には、制御部２１の手話認識部２１１は、ユーザ端末１５のタッチパネルディスプレイにおいて、タッチ入力が行なわれたかどうかを判定する。そして、タッチパネルディスプレイにおけるタッチ入力により、連続的な軌跡が描かれた場合、筆談入力と判定する。

【0031】

筆談入力と判定した場合（ステップＳ１−２において「ＹＥＳ」の場合）、支援サーバ２０の制御部２１は、軌跡特定処理を実行する（ステップＳ１−３）。具体的には、制御部２１の手話認識部２１１は、筆談支援部２１５に処理を引き継ぐ。この場合、筆談支援部２１５は、ユーザ端末１５から、タッチパネルディスプレイにおいてタッチ入力された軌跡を取得する。
この軌跡は、後述するように、ユーザ端末１０，１５のタッチパネルディスプレイに出力される（ステップＳ１−７）。

【0032】

一方、タッチパネルディスプレイにおけるタッチ入力がなく、筆談入力でないと判定した場合（ステップＳ１−２において「ＮＯ」の場合）、支援サーバ２０の制御部２１は、手話認識処理を実行する（ステップＳ１−４）。具体的には、制御部２１の手話認識部２１１は、カメラ３１から取得したモーションデータに含まれる動作パターンに基づいて、手話認識辞書２２を用いて単語候補を特定する。この処理については、図３（ｂ）を用いて後述する。

【0033】

次に、支援サーバ２０の制御部２１は、単語候補の出力処理を実行する（ステップＳ１−５）。具体的には、制御部２１の手話認識部２１１は、手話認識辞書２２を用いて特定した単語候補を、ユーザ端末１５のタッチパネルディスプレイに出力する。

【0034】

次に、支援サーバ２０の制御部２１は、単語候補の選択処理を実行する（ステップＳ１−６）。具体的には、顧客は、ユーザ端末１５のタッチパネルディスプレイに表示された単語候補を確認する。手話認識された単語に間違いがある場合には、この単語をタッチパネルディスプレイにおいて選択する。この場合、制御部２１の手話認識部２１１は、ユーザ端末１５のタッチパネルディスプレイに、動作パターンに類似する他の単語候補のリストを出力する。そして、ユーザ端末１５のタッチパネルディスプレイにおいて、正しい単語を選択することにより、手話認識単語が確定される。手話認識された単語に間違いがない場合には、そのまま放置することにより、手話認識単語が確定される。

【0035】

次に、支援サーバ２０の制御部２１は、出力処理を実行する（ステップＳ１−７）。具体的には、制御部２１の端末制御部２１４は、音声認識結果を、ユーザ端末１０，１５のタッチパネルディスプレイに出力する。タッチパネルディスプレイに出力される内容の詳細は、図４を用いて後述する。

【0036】

（音声対応処理）
次に、図２（ｂ）を用いて、窓口担当者についての音声対応処理を説明する。この処理は、図２（ａ）に示した手話対応処理と並行して行われる。
ここでは、支援サーバ２０の制御部２１は、音声取得処理を実行する（ステップＳ２−１）。具体的には、制御部２１の音声認識部２１２は、マイク３２を用いて、窓口担当者の音声を取得する。

【0037】

次に、支援サーバ２０の制御部２１は、音声認識処理を実行する（ステップＳ２−２）。具体的には、制御部２１の音声認識部２１２は、マイク３２により集音された音声の特徴量を算出する。そして、音声認識部２１２は、この特徴量に関連付けられた単語を音声認識辞書２３から取得する。ここでは、音声に最も近い特徴量の音声パターンを特定して、この音声パターンに関連付けられた単語を単語候補として特定する。

【0038】

次に、支援サーバ２０の制御部２１は、単語候補の出力処理を実行する（ステップＳ２−３）。具体的には、制御部２１の音声認識部２１２は、音声認識辞書２３を用いて特定した単語候補を、ユーザ端末１０のタッチパネルディスプレイに出力する。

【0039】

次に、支援サーバ２０の制御部２１は、単語候補の選択処理を実行する（ステップＳ２−４）。具体的には、窓口担当者は、ユーザ端末１０のタッチパネルディスプレイに表示された単語候補を確認する。音声認識された単語に間違いがある場合には、この単語をタッチパネルディスプレイにおいて選択する。この場合、制御部２１の音声認識部２１２は、ユーザ端末１０のタッチパネルディスプレイに、音声パターンに類似する他の単語候補のリストを出力する。そして、ユーザ端末１０のタッチパネルディスプレイにおいて、正しい単語を選択することにより、音声認識単語が確定される。音声認識された単語に間違いがない場合には、そのまま放置することにより、音声認識単語が確定される。

【0040】

次に、支援サーバ２０の制御部２１は、認識調整処理を実行する（ステップＳ２−５）。この処理については、図３（ａ）を用いて後述する。
次に、支援サーバ２０の制御部２１は、出力処理を実行する（ステップＳ２−６）。具体的には、制御部２１の端末制御部２１４は、音声認識結果を、ユーザ端末１０，１５のタッチパネルディスプレイに出力する。タッチパネルディスプレイに出力される内容の詳細は、図４を用いて後述する。

【0041】

（認識調整処理）
次に、図３（ａ）を用いて、認識調整処理（ステップＳ２−５）を説明する。
ここでは、支援サーバ２０の制御部２１は、関連語の特定処理を実行する（ステップＳ３−１）。具体的には、制御部２１の認識調整部２１３は、音声認識部２１２から、音声認識処理によって特定された単語を取得する。そして、認識調整部２１３は、関連語記憶部２４から、音声認識された単語の関連語を取得する。

【0042】

次に、支援サーバ２０の制御部２１は、重み付け処理を実行する（ステップＳ３−２）。具体的には、制御部２１の認識調整部２１３は、関連語記憶部２４から取得した関連語が、重み付けメモリに記録されているかどうかを確認する。取得した関連語が重み付けメモリに記録されていない場合には、関連語とともに頻度「１」を記録する。一方、取得した関連語が、既に重み付けメモリに記録されている場合には、この関連語に関連付けられた頻度「１」を加算する。

【0043】

（手話認識処理）
次に、図３（ｂ）を用いて、手話認識処理（ステップＳ１−４）を説明する。
ここでは、支援サーバ２０の制御部２１は、口元や前腕部の動き特定処理を実行する（ステップＳ４−１）。具体的には、制御部２１の手話認識部２１１は、カメラ３１から取得したモーションデータにおいて、身体画像パターンを用いて、口元領域や上腕部領域を特定する。そして、手話認識部２１１は、モーションデータにおいて、特定した口元や上腕部の動き（手話の動作）を特定する。

【0044】

次に、支援サーバ２０の制御部２１は、特徴量の抽出処理を実行する（ステップＳ４−２）。具体的には、制御部２１の手話認識部２１１は、口元や上腕部の動き（手話の動作）に基づいて、動きの方向や大きさに関する特徴量を算出する。

【0045】

次に、支援サーバ２０の制御部２１は、辞書比較処理を実行する（ステップＳ４−３）。具体的には、制御部２１の手話認識部２１１は、算出した動きの特徴量と、手話認識辞書２２に記録された動きパターンとを比較し、一致度を算出する。ここで、一致度が基準値以上の動作パターンに対応するすべての単語を単語候補として特定する。

【0046】

次に、支援サーバ２０の制御部２１は、意味推定処理を実行する（ステップＳ４−４）。具体的には、制御部２１の手話認識部２１１は、認識調整部２１３の重み付けメモリに記録されている関連語とのマッチングを行なう。そして、手話認識部２１１は、重み付けメモリに関連語として記録されている単語の頻度と、動作パターンとの一致度とが高い単語候補を特定する。

【0047】

（出力処理）
次に、図４を用いて、出力処理（ステップＳ１−７，Ｓ２−６）を説明する。ここでは、窓口担当者が用いるユーザ端末１０のタッチパネルディスプレイに出力される表示画面を説明する。

【0048】

具体的には、支援サーバ２０の制御部２１は、カメラ３１から取得したモーションデータにおいて顧客の顔画像を特定する。そして、制御部２１の端末制御部２１４は、ユーザ端末１０のタッチパネルディスプレイに、顔画像５００を出力する。この場合、顧客の表情がわかるように大きく表示する。

【0049】

また、制御部２１の端末制御部２１４は、手話認識部２１１における手話認識結果５１０，５１１を、時間経過の順番で表示する。具体的には、図４においては、最新の手話認識結果５１１はタッチパネルディスプレイの左下に表示され、古い手話認識結果５１０は上方に移動させる。

【0050】

更に、制御部２１の端末制御部２１４は、音声認識部２１２における音声認識結果５２０，５２１を、時間経過の順番で表示する。具体的には、図４においては、最新の音声認識結果５２１はタッチパネルディスプレイの左下に表示され、古い音声認識結果５２０は上方に移動させる。この場合、端末制御部２１４は、タッチパネルディスプレイにおいて顔画像が出力された領域に重畳しないように、認識結果を出力する。
なお、来店顧客が用いるユーザ端末１５のタッチパネルディスプレイには、手話認識結果５１０，５１１、音声認識結果５２０，５２１のみが出力される。

【0051】

以上、本実施形態によれば、以下に示す効果を得ることができる。
（１）上記実施形態では、支援サーバ２０の制御部２１は、撮影処理（ステップＳ１−１）、手話認識処理（ステップＳ１−４）、出力処理（ステップＳ１−７）を実行する。更に、支援サーバ２０の制御部２１は、音声取得処理（ステップＳ２−１）、音声認識処理（ステップＳ２−２）、出力処理（ステップＳ２−６）を実行する。これにより、音声を聞き取れない場合や手話ができない場合にも、テキストを通じてコミュニケーションを行なうことができる。従って、コミュニケーションの相手とコミュニケーション方法が異なる場合にも、円滑にコミュニケーションを実現することができる。

【0052】

（２）上記実施形態では、支援サーバ２０の制御部２１は、認識調整処理を実行する（ステップＳ２−５）。ここでは、支援サーバ２０の制御部２１は、関連語の特定処理（ステップＳ３−１）、重み付け処理（ステップＳ３−２）を実行する。これにより、音声認識率が手話認識率よりも高い場合に、音声認識結果を用いて、手話認識処理を支援することができる。

【0053】

（３）上記実施形態では、筆談入力と判定した場合（ステップＳ１−２において「ＹＥＳ」の場合）、支援サーバ２０の制御部２１は、軌跡特定処理を実行する（ステップＳ１−３）。これにより、手話認識処理が困難な場合に、筆談に切り換えてコミュニケーションを図ることができる。

【0054】

（４）上記実施形態では、支援サーバ２０の制御部２１は、カメラ３１から取得したモーションデータにおいて顧客の顔画像を特定する。そして、制御部２１の端末制御部２１４は、ユーザ端末１０のタッチパネルディスプレイに、顔画像５００を出力する。これにより、来店顧客の表情を確認しながら、コミュニケーションを図ることができる。

【0055】

＜第２の実施形態＞
次に、図５を用いて、第２の実施形態を説明する。第１の実施形態においては、音声認識率の方が手話認識率よりも高い場合を想定して、音声認識処理の認識結果を用いて手話認識処理を支援した。第２の実施形態では、各認識処理の認識率に応じて、支援に用いる認識処理（優先認識方式）を決定する構成であり、同様の部分については詳細な説明を省略する。
ここでは、会話の最初の段階（優先認識方式が決まっていない段階）では、手話認識処理と音声認識処理とを別個独立に行なう。そして、会話の進捗状況に応じて、優先認識方式を決定する。

【0056】

（手話対応処理）
まず、図５（ａ）を用いて、手話対応処理を説明する。
ここでは、支援サーバ２０の制御部２１は、ステップＳ１−１と同様に、撮影処理を実行する（ステップＳ５−１）。

【0057】

次に、支援サーバ２０の制御部２１は、ステップＳ１−２と同様に、筆談入力かどうかについての判定処理を実行する（ステップＳ５−２）。
筆談入力と判定した場合（ステップＳ５−２において「ＹＥＳ」の場合）、支援サーバ２０の制御部２１は、ステップＳ１−３と同様に、軌跡特定処理を実行する（ステップＳ５−３）。

【0058】

一方、タッチパネルディスプレイにおけるタッチ入力がなく、筆談入力でないと判定した場合（ステップＳ５−２において「ＮＯ」の場合）、支援サーバ２０の制御部２１は、手話認識処理を実行する（ステップＳ５−４）。ここで、優先認識方式が決まっていない場合や、手話認識が優先認識方式となっている場合には、制御部２１の手話認識部２１１は、手話認識辞書２２に記録された動作パターンの特徴量が近いものから順番に単語候補として特定する。一方、音声認識が優先認識方式となっている場合には、制御部２１の手話認識部２１１は、ステップＳ１−４と同様に、重み付けメモリに関連語として記録されている単語の頻度と、動作パターンとの一致度とが高い単語候補を特定する。

【0059】

次に、支援サーバ２０の制御部２１は、ステップＳ１−５〜Ｓ１−７と同様に、単語候補の出力処理（ステップＳ５−５）、単語候補の選択処理（ステップＳ５−６）、出力処理（ステップＳ５−７）を実行する。

【0060】

（音声対応処理）
次に、図５（ｂ）を用いて、音声対応処理を説明する。
ここでは、支援サーバ２０の制御部２１は、ステップＳ２−１と同様に、音声取得処理を実行する（ステップＳ６−１）。

【0061】

次に、支援サーバ２０の制御部２１は、音声認識処理を実行する（ステップＳ６−２）。ここで、優先認識方式が決まっていない場合や、音声認識が優先認識方式となっている場合には、制御部２１の音声認識部２１２は、音声認識辞書２３に記録された音声パターンの特徴量が近いものから順番に単語候補として特定する。一方、手話認識が優先認識方式となっている場合には、制御部２１の音声認識部２１２は、認識調整部２１３の重み付けメモリに記録されている関連語とのマッチングを行なう。そして、音声認識部２１２は、重み付けメモリに関連語として記録されている単語の頻度と、動作パターンとの一致度とが高い単語候補を特定する。

【0062】

次に、支援サーバ２０の制御部２１は、ステップＳ２−３，Ｓ２−４，Ｓ２−６と同様に、単語候補の出力処理（ステップＳ６−３）、単語候補の選択処理（ステップＳ６−４）、出力処理（ステップＳ６−５）を実行する。

【0063】

（認識調整処理）
次に、図５（ｃ）を用いて、認識調整処理を説明する。ここでは、ステップＳ５−６，Ｓ６−４で用いられる優先認識方式を決定する。この処理は、会話の進捗状況が基準時点を経過した場合に実行される。例えば、この基準時点としては、両認識方式において所定の単語数を変換した時点や、所定時間が経過した時点等を用いることができる。
ここでは、支援サーバ２０の制御部２１は、認識率の比較処理を実行する（ステップＳ７−１）。具体的には、制御部２１の認識調整部２１３は、手話認識と音声認識における認識率を比較する。本実施形態では、認識調整部２１３は、基準時点までの認識処理において、最初に出力した単語候補が修正されなかった割合を認識率として用いる。

【0064】

次に、支援サーバ２０の制御部２１は、認識率に基づいて優先認識方式の決定処理を実行する（ステップＳ７−２）。具体的には、制御部２１の認識調整部２１３は、認識率が高い認識方式を優先認識方式として特定する。そして、認識調整部２１３は、手話認識部２１１及び音声認識部２１２に対して、いずれの認識方式を優先するかを通知する。この通知に応じて、上述したように、手話認識処理（ステップＳ５−４）、音声認識処理（ステップＳ６−２）を実行する。

【0065】

以上、本実施形態によれば、以下に示す効果を得ることができる。
（５）上記実施形態では、支援サーバ２０の制御部２１は、認識率の比較処理（ステップＳ７−１）、認識率に基づいて優先認識方式の決定処理（ステップＳ７−２）を実行する。コミュニケーション環境によっては、認識率の相対的な高さが逆転する場合がある。例えば、周囲が騒がしい場合には、音声によるコミュニケーションが困難である。この場合にも、修正状況に応じて認識率を評価して、認識率が高い方の認識結果を利用して、他方の認識処理を支援することができる。

【0066】

なお、上記各実施形態は、以下の態様に変更してもよい。
・上記各実施形態では、金融機関の窓口におけるコミュニケーション支援に用いた。本願発明の対象はこれに限定されるものではなく、複数種類の認識処理を用い、協働して認識率を改善する仕組みに適応することができる。

【0067】

・上記第２の実施形態では、認識率に基づいて優先認識方式を決定する。これに代えて、両方の認識方式で認識された単語の関連語を用いて重み付けを行なうようにしてもよい。この場合、支援サーバ２０の制御部２１は、認識調整処理を実行する。

【0068】

図６を用いて、この認識調整処理を説明する。
ここでは、支援サーバ２０の制御部２１は、マッチング処理を実行する（ステップＳ８−１）。具体的には、制御部２１の認識調整部２１３は、手話認識処理において選択された単語の関連語と、音声認識処理において選択された単語の関連語とを、関連語記憶部２４から抽出する。そして、認識調整部２１３は、それぞれの認識方式において抽出した関連語のマッチングを行なう。

【0069】

次に、支援サーバ２０の制御部２１は、マッチングに基づいて重み付け処理を実行する（ステップＳ８−２）。具体的には、制御部２１の認識調整部２１３は、マッチング結果において共通する関連語を、重み付けメモリにおいて、高い重み付け（高い頻度）に関連付けて記録する。
これにより、複数の認識方式を活用して、的確な認識処理を行ない、円滑なコミュニケーションを実現することができる。

【0070】

・上記各実施形態では、ユーザ端末１０に、利用者の顔画像と手話認識結果及び音声認識結果を出力する。ユーザ端末１０，１５は、タブレット端末に限定されるものではなく、デスクトップ端末やノート端末を利用することも可能である。また、表示手段として、傾斜させたハーフミラーに認識結果を出力するプロンプタを用いることも可能である。また、ヘッドマウントディスプレイを利用することも可能である。

【0071】

・上記各実施形態では、手話認識結果及び音声認識結果を、ユーザ端末１０，１５に出力する。ここで、認識結果に基づいて、表示形態を変更するようにしてもよい。例えば、音声対応処理において、音声認識結果に対応して、選択肢を出力するコミュニケーション支援処理を行なうようにしてもよい。

【0072】

図７を用いて、このコミュニケーション支援処理を説明する。
まず、支援サーバ２０の制御部２１は、図２（ｂ）に示す音声対応処理を実行する（ステップＳ９−１）。

【0073】

次に、支援サーバ２０の制御部２１は、音声認識結果が疑問文かどうかについての判定処理を実行する（ステップＳ９−２）。具体的には、制御部２１の端末制御部２１４は、音声認識結果が疑問形かどうかを判定する。例えば、文末に「ですか」、「でしょうか」等の質問を表す文字列（終助詞）を検出した場合には、疑問文と判定する。

【0074】

疑問文でないと判定した場合（ステップＳ９−２において「ＮＯ」の場合）、支援サーバ２０の制御部２１は、通常出力処理を実行する（ステップＳ９−３）。ここでは、音声認識結果を、そのまま出力する。

【0075】

一方、疑問文と判定した場合（ステップＳ９−２において「ＹＥＳ」の場合）、支援サーバ２０の制御部２１は、選択肢の出力処理を実行する（ステップＳ９−４）。具体的には、制御部２１の端末制御部２１４は、音声認識結果とともに「はい」、「いいえ」等の選択肢を、来店顧客のユーザ端末１５のタッチパネルディスプレイに出力する。

【0076】

次に、支援サーバ２０の制御部２１は、選択肢の選択結果の出力処理を実行する（ステップＳ９−５）。具体的には、制御部２１の端末制御部２１４が、来店顧客のユーザ端末１５のタッチパネルディスプレイにおいて、選択肢の選択を検知した場合には、選択結果を、ユーザ端末１０，１５に出力する。
これにより、選択肢を利用して、効率的なコミュニケーションを実現することができる。

【0077】

・上記各実施形態では、手話認識結果、音声認識結果をユーザ端末１０，１５に出力する。これに加えて、認識結果に応じて、関連するサービスメニューを、ユーザ端末１５に出力するコミュニケーション支援処理を行なうようにしてもよい。この場合には、支援サーバ２０に、更に、サービスメニュー記憶部を設ける。このサービスメニュー記憶部には、サービスメニュー項目に対して、手話認識又は音声認識される可能性がある関連単語に関するデータを記憶しておく。

【0078】

図８を用いて、このコミュニケーション支援処理を説明する。
まず、支援サーバ２０の制御部２１は、認識単語に応じて関連メニューの抽出処理を実行する（ステップＳ１０−１）。具体的には、制御部２１の認識調整部２１３は、サービスメニュー記憶部から、手話認識又は音声認識された単語が関連単語として登録されているサービスメニュー項目を抽出する。

【0079】

次に、支援サーバ２０の制御部２１は、関連メニューの重み付け処理を実行する（ステップＳ１０−２）。具体的には、制御部２１の認識調整部２１３は、サービスメニュー記憶部に記録されている各サービスメニュー項目について、手話認識又は音声認識された関連単語の数をカウントする。そして、認識調整部２１３は、認識数が多い関連単語のサービスメニュー項目に対して重み付けを行なう。

【0080】

次に、支援サーバ２０の制御部２１は、重み付けに応じて表示変更処理を実行する（ステップＳ１０−３）。具体的には、制御部２１の認識調整部２１３は、重み付けが大きいサービスメニュー項目を、ユーザ端末１５のタッチパネルディスプレイにおいて優先的に表示する。例えば、選択しやすい形態で表示する。
これにより、サービスメニュー項目を利用して、効率的なコミュニケーションを実現することができる。

【0081】

・上記各実施形態では、支援サーバ２０の制御部２１の筆談支援部２１５は、ユーザ端末１０，１５から取得したタッチ入力の軌跡に基づいて、描画された文字画像を生成する処理を実行する。これに代えて、筆談支援部２１５が、ユーザ端末１０，１５から取得したタッチ入力の軌跡に基づいて、筆談をテキストに変換するＯＣＲ処理を実行するようにしてもよい。この場合には、支援サーバ２０に、軌跡パターンに応じた単語に関するデータが記録したＯＣＲ辞書を設ける。これにより、手書き文字についてもテキストにより確認することができる。
更に、ＯＣＲ認識結果により、手話認識や音声認識を支援するようにしてもよい。この場合には、ＯＣＲ認識結果に基づいて、手話認識処理や音声認識処理において用いる関連語の特定処理を行なう。

【0082】

・上記各実施形態では、支援サーバ２０の制御部２１は、単語候補の出力処理（ステップＳ１−５、Ｓ５−５）、単語候補の選択処理（ステップＳ１−６、Ｓ５−６）を実行する。ここでは、手話認識部２１１は、単語候補を、ユーザ端末１５のタッチパネルディスプレイに出力し、顧客は、ユーザ端末１５のタッチパネルディスプレイに表示された単語候補を確認する。手話認識された単語に間違いがある場合には、この単語をタッチパネルディスプレイにおいて選択する。これに加えて、手話認識部２１１は、単語候補を、ユーザ端末１０のタッチパネルディスプレイにも出力し、窓口担当者が単語候補を確認できるようにしてもよい。そして、支援サーバ２０の制御部２１は、ユーザ端末１０における選択により、単語候補の選択処理を実行する（ステップＳ１−６、Ｓ５−６）。これにより、窓口担当者の判断に基づいて、手話認識を進めることができるため、来店顧客の作業負担を軽減することができる。

【0083】

・上記各実施形態では、出力処理において、来店顧客の顔画像５００をユーザ端末１０のタッチパネルディスプレイに出力する。これに加えて、他のカメラで撮影した窓口担当者の顔画像をユーザ端末１５のタッチパネルディスプレイに出力するようにしてもよい。

【符号の説明】

【0084】

１０，１５…ユーザ端末、２０…支援サーバ、２１…制御部、２１１…手話認識部、２１２…音声認識部、２１３…認識調整部、２１４…端末制御部、２１５…筆談支援部、２２…手話認識辞書、２３…音声認識辞書、２４…関連語記憶部、３１…カメラ、３２…マイク。

【図1】