(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022114892
(43)【公開日】2022-08-08
(54)【発明の名称】手話通訳装置、手話通訳方法、プログラム
(51)【国際特許分類】
G09B 21/00 20060101AFI20220801BHJP
G06F 3/01 20060101ALI20220801BHJP
G06F 3/0484 20220101ALI20220801BHJP
G06F 3/16 20060101ALI20220801BHJP
【FI】
G09B21/00 F
G06F3/01 570
G06F3/0484
G06F3/16 650
G06F3/16 690
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2021011360
(22)【出願日】2021-01-27
(71)【出願人】
【識別番号】302069930
【氏名又は名称】NECエンベデッドプロダクツ株式会社
(74)【代理人】
【識別番号】100106909
【弁理士】
【氏名又は名称】棚井 澄雄
(74)【代理人】
【識別番号】100134544
【弁理士】
【氏名又は名称】森 隆一郎
(74)【代理人】
【識別番号】100149548
【弁理士】
【氏名又は名称】松沼 泰史
(74)【代理人】
【識別番号】100162868
【弁理士】
【氏名又は名称】伊藤 英輔
(72)【発明者】
【氏名】鐙 英輔
【テーマコード(参考)】
5E555
【Fターム(参考)】
5E555AA06
5E555AA11
5E555AA25
5E555AA46
5E555AA48
5E555AA64
5E555BA01
5E555BA04
5E555BB01
5E555BB04
5E555BC01
5E555BE08
5E555CA12
5E555CA41
5E555CA42
5E555CA47
5E555CB12
5E555CB20
5E555CB23
5E555CB33
5E555CB64
5E555CB66
5E555CC01
5E555CC02
5E555DA05
5E555DA13
5E555DA21
5E555DB06
5E555DB18
5E555DB20
5E555DB41
5E555DB53
5E555DC02
5E555DC13
5E555DC25
5E555DC31
5E555DC33
5E555DC35
5E555DC54
5E555EA19
5E555EA23
5E555FA00
(57)【要約】
【課題】手話者と、その手話者の手話により会話することを対応する対応者との間で、さらにスムーズに効率よく会話できる手話通訳装置を提供する。
【解決手段】距離センサの計測したセンシング情報から検出した距離が手話認識処理を行う距離範囲である時に距離センサの計測した手話者の手の距離と形状とを少なくとも含むセンシング情報に基づいて解析された手話情報を取得し、その手話情報を出力する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
距離センサの計測したセンシング情報から検出した距離が手話認識処理を行う距離範囲である時に前記距離センサの計測した手話者の手の距離と形状とを少なくとも含むセンシング情報に基づいて解析された手話情報を取得する手話情報取得手段と、
前記手話情報を出力する手話情報出力手段と、
を備える手話通訳装置。
【請求項2】
前記センシング情報を解析して前記手話情報を生成する第一解析手段と、
を備える請求項1に記載の手話通訳装置。
【請求項3】
前記センシング情報から検出した距離が手話認識処理を行う距離範囲である時に当該距離と前記手話者の手の形状の変化に基づく手の動きとの少なくとも一方に基づいて解析された表現情報を取得する表現情報取得手段と、
前記手話情報出力手段は、前記表現情報に基づいて前記手話情報の出力態様を変化させて出力する
請求項1または請求項2に記載の手話通訳装置。
【請求項4】
前記センシング情報を解析して前記表現情報を生成する第二解析手段と、
を備える請求項3に記載の手話通訳装置。
【請求項5】
前記センシング情報から検出した距離が手話認識処理を行う距離範囲よりも近い距離を示す時に当該距離と前記手話者の手の形状の変化に基づく手の動きとの少なくとも一方に基づいて解析された操作情報を取得する操作情報取得手段と、
前記操作情報に基づいて前記手話情報の出力制御を行う出力制御手段と、
を備える請求項1から請求項4の何れか一項に記載の手話通訳装置。
【請求項6】
前記センシング情報を解析して前記操作情報を生成する第三解析手段と、
を備える請求項5に記載の手話通訳装置。
【請求項7】
前記操作情報に基づいて操作制御を行う操作制御手段と、
を備える請求項5または請求項6に記載の手話通訳装置。
【請求項8】
前記センシング情報から検出した距離が前記手話認識処理を行う距離範囲である場合に前記手の形状の輪郭を縁取る認識ガイド線の情報を取得し、前記手話者の手の形状に前記認識ガイド線を合わせて表示する画像を出力する画像出力手段と、
を備える請求項1から請求項7の何れか一項に記載の手話通訳装置。
【請求項9】
距離センサの計測したセンシング情報から検出した距離が手話認識処理を行う距離範囲である時に前記距離センサの計測した手話者の手の距離と形状とを少なくとも含むセンシング情報に基づいて解析された手話情報を取得し、
前記手話情報を出力する
手話通訳方法。
【請求項10】
手話通訳装置のコンピュータを、
距離センサの計測したセンシング情報から検出した距離が手話認識処理を行う距離範囲である時に前記距離センサの計測した手話者の手の距離と形状とを少なくとも含むセンシング情報に基づいて解析された手話情報を取得する手話情報取得手段、
前記手話情報を出力する手話情報出力手段、
として機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、手話通訳装置、手話通訳方法、プログラムに関する。
【背景技術】
【0002】
話者と聴者とが向き合って話す場合に、効率よくスムーズに会話することを支援する会話支援装置の技術が特許文献1に開示されている。
【0003】
特許文献1の技術では、手話の画像を解析処理してその手話画像に対応する手話情報を抽出し、手話情報に対応する音響パターンをスピーカから出力する技術が開示されている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
上述のような技術において、手話者と、その手話者の手話により会話することを対応する対応者との間で、さらにスムーズに効率よく会話できるための技術が求められている。
【0006】
そこでこの発明は、上述の課題を解決する手話通訳装置、手話通訳方法、プログラムを提供することを目的としている。
【課題を解決するための手段】
【0007】
本発明の第1の態様によれば、手話通訳装置は、距離センサの計測したセンシング情報から検出した距離が手話認識処理を行う距離範囲である時に前記距離センサの計測した手話者の手の距離と形状とを少なくとも含むセンシング情報に基づいて解析された手話情報を取得する手話情報取得手段と、前記手話情報を出力する手話情報出力手段と、を備える。
【0008】
本発明の第2の態様によれば、手話通訳方法は、距離センサの計測したセンシング情報から検出した距離が手話認識処理を行う距離範囲である時に前記距離センサの計測した手話者の手の距離と形状とを少なくとも含むセンシング情報に基づいて解析された手話情報を取得し、前記手話情報を出力する。
【0009】
本発明の第3の態様によれば、プログラムは、手話通訳装置のコンピュータを、距離センサの計測したセンシング情報から検出した距離が手話認識処理を行う距離範囲である時に前記距離センサの計測した手話者の手の距離と形状とを少なくとも含むセンシング情報に基づいて解析された手話情報を取得する手話情報取得手段、前記手話情報を出力する手話情報出力手段、として機能させる。
【発明の効果】
【0010】
本発明によれば、手話者と、その手話者の手話により会話することを対応する対応者との間で、さらにスムーズに効率よく会話できる手話通訳装置、手話通訳方法、プログラムを提供することができる。
【図面の簡単な説明】
【0011】
【
図1】本開示による手話通訳装置の第一の図である。
【
図2】本開示による手話通訳装置の第二の図である。
【
図3】本開示による手話通訳装置の使用例を示す図である。
【
図4】本開示による手話通訳装置の機能ブロック図である。
【
図5】本開示による手話者側面の表示情報の一例を示す図である。
【
図6】本開示による対応者側面の表示情報の一例を示す図である。
【
図7】本開示による第一制御部の機能ブロック図である。
【
図8】本開示による手話通訳装置の処理フローを示す図である。
【
図9】本開示による手話通訳システムの概略構成図である。
【
図10】本開示による手話通訳装置の最小構成を示す図である。
【
図11】本開示による最小構成の手話通訳装置による処理フローを示す図である。
【発明を実施するための形態】
【0012】
以下、本発明の一実施形態による手話通訳装置を図面を参照して説明する。
図1は、同実施形態による手話通訳装置を示す第一の図である。
手話通訳装置1は、平行な上面と下面が薄型となる箱形状を成しており、上面の面積よりも下面の面積が広い。手話通訳装置1はその下面を接地させて立たせることができる。手話通訳装置1の上面と下面とをつなぐ2つの主面の矩形形状の角を繋ぐ上面と下面を構成する各短辺は、上面の短辺が下面の短辺よりも短い。これにより2つの主面から出る法線が水平よりも上方に向けて角度を成すよう各主面が構成されている。従って、手話通訳装置1の各主面の法線は前に立つユーザ(手話者、対応者)の顔方向に向くように構成されている。各主面を、手話者側面12と対応者側面13と呼ぶこととする。
【0013】
図1は手話通訳装置の第一の図である。
図1には手話通訳装置1は手話者側面が見える斜視図を表示している。手話者側面12には第一タッチパネルディスプレイ21、TOF(Time Of Flight)カメラ22が少なくとも備わる。TOFカメラ22には発光部23、受光部24が設けられる。第一タッチパネルディスプレイ21は、少なくとも、TOFカメラ22の撮影画像や、手話者や対応者などのユーザの入力情報を表示する。
【0014】
図2は手話通訳装置の第二の図である。
図2には手話通訳装置の対応者側面が見える斜視図を表示している。対応者側面13には第二タッチパネルディスプレイ31が少なくとも備わる。本実施形態において対応者側面13には、さらに、マイク32と、スピーカ33が備わる。第二タッチパネルディスプレイ31は、少なくとも、手話者や対応者などのユーザの入力情報を表示する。マイク32は、対応者の音声を入力する。スピーカ33は、手話者の入力情報を音声変換して出力する。
【0015】
図3は手話通訳装置の使用例を示す図である。
手話通訳装置1は、手話者P1と対応者P2の会話等による互いのコミュニケーションに利用される。手話者P1は手話者側面12に対面し、対応者P2は対応者側面13に対面して、手話者P1と対応者P2は手話通訳装置1を利用する。より具体的には、手話者P1が手話により会話を行う時、手話通訳装置1は、手話者側面12のTOFカメラ22の撮影したTOF画像を用いて手話者P1の会話を解析して、入力情報の一態様である当該解析の結果の会話の文章を各ディスプレイ21、31に表示する。また手話通訳装置1は、対応者側面13の第二タッチパネルディスプレイ31を介して入力した入力情報の一態様である文章情報を各ディスプレイ21、31に表示する。
【0016】
図4は手話通訳装置の機能ブロック図である。
図4で示すように、第一タッチパネルディスプレイ21、TOFカメラ22(発光部23、受光部24)、第二タッチパネルディスプレイ31、マイク32、スピーカ33の他、第一制御部25、TOFカメラ制御部26、第一ROM27、第一RAM28、第一通信部29、第二制御部34、信号入力部35、アンプ36、第二ROM37、第二RAM38、第二通信部39などを備える。
【0017】
第一制御部25は、手話者側面12において入出力する情報を制御する。TOFカメラ制御部26は、TOFカメラ22を制御する。第二制御部34は、対応者側面13において入出力する情報を制御する。信号入力部35は、マイク32から入力した音声信号を処理する。アンプ36は、スピーカ33から出力する信号を増幅する。第一ROM27、第二ROM37、第一RAM28、第二RAM38は、各種情報を記憶する。第一通信部29、第二通信部39は、他の装置と通信接続する。
【0018】
TOFカメラ22がセンシングして生成したTOF画像には、画素毎の被写体までの距離情報が含まれる。これにより、手話通訳装置1は、距離情報を用いて、TOFカメラ22から近い対象物を手や指、手や指よりも遠い部分を、頭や胴体、さらに遠い部分を背景というように分離することができる。これにより手話通訳装置1は、手話認識に無関係な情報を排除した手だけの特徴情報を得られるとともに、手を前後に動かすといった三次元で変化する動作の認識が容易になる。さらに、TOFカメラ22は測距用に赤外線を照射するため、暗い場所や肌色の服でも問題なく特徴情報を得ることが出来る。手話通訳装置1は、これらの手段により高精度の手話認識を実現する。
【0019】
さらに、手話通訳装置1は、距離の情報をもとにTOFカメラ22のすぐ近くに手をかざす動きを手話の動作と区別、認識して、これをカーソル移動やボタン押下による動作の決定やキャンセルの操作に割り当てることで、ユーザに非接触で装置の操作を行う環境を提供することが出来る。また、手話通訳装置1は、手話者の手と自装置との遠近をTOF画像から検出し、これを感情や感情の強弱の表現手段として利用する。具体的には手話通訳装置1は、自装置に近づいて手話が行われていることを検知すると、少なくとも対応者側に表示する文字を大きくすることで、手話者の強い感情、強調を表現することができる。
【0020】
対応者は、手話通訳装置1の対応者側面13に立ち、手話者側面12の前に立つ手話者に対して発話する際には、マイクに向かって話しかけて文字の音声入力を行うか、第二タッチパネルディスプレイ31に指をタッチして操作し、文字入力を行う。手話通訳装置1は、手話者が手話により入力した文字や文章を用いて合成音声を生成し、スピーカから出力してもよいし、その文字や文章を、第一タッチパネルディスプレイ21および第二タッチパネルディスプレイ31に表示してよいし、それら合成音声や文字や文書の表示の両方の出力を行ってもよい。手話通訳装置1が、手話者側面12と対応者側面13を有することにより、手話者と対応者とが対面して会話するように双方向のコミュニケーションを連続的に行う環境を提供することが出来る。
【0021】
図5は手話者側面の表示情報の一例を示す図である。
第一制御部25は、待機モードにおける待機モード画面(A)と、会話モードにおける会話モード画面(B)を切り替えて第一タッチパネルディスプレイ21に表示する。第一制御部25は、TOFカメラ22からTOF画像を入力したか否かを判定する。第一制御部25は、TOFカメラ22からTOF画像を入力した場合には、会話モードに移行したと判定し、第一タッチパネルディスプレイ21に表示する表示情報を待機モード画面(A)から会話モード画面(B)に切り替える。第一制御部25は、TOFカメラ22からTOF画像を入力し、TOF画像から検出した距離が手話認識処理を行う距離範囲であると判定した時に待機モード画面(A)から会話モード画面(B)に切り替えるようにしてよい。第一制御部25は、TOFカメラ22からTOF画像を入力し、そのTOF画像の解析結果から手を検出できない場合や、所定の距離範囲の物体を検出できない場合などには、待機モードに移行したと判定し、第一タッチパネルディスプレイ21に表示する表示情報を、会話モード画面(B)から待機モード画面(A)に切り替える。TOF画像は、距離センサであるTOFカメラ22の計測したセンシング情報の一態様である。
【0022】
図5で示すように、手話通訳装置1が待機モードにおいて表示する待機モード画面(A)には、開始ボタンの表示領域51、TOF画像の表示領域52、利用案内の表示領域53やなどが含まれる。また
図5で示すように、手話通訳装置1が会話モードにおいて表示する会話モード画面(B)には、送信ボタンの表示領域54、キャンセルボタンの表示領域55、TOF画像の表示領域56、会話スレッドの表示領域57、手話変換文章の表示領域58などが含まれる。
【0023】
第一制御部25は、待機モードと会話モードを判定するにあたり以下のように処理してもよい。例えば、第一制御部25は、待機モードである場合において、TOFカメラ22から順次入力した複数のTOF画像を解析して、継続して3秒程度の間、当該TOF画像の一部の領域が示す距離が15cm未満などの閾値距離未満であった場合には、手などの物体が手話認識処理を行う距離範囲であるとして、会話モードへ移行すると判定してよい。これにより、手話者は、TOFカメラ22の前に手をかざすだけで、手話通訳装置1の状態を待機モードから会話モードへ切り替えることができる。また第一制御部25は、TOFカメラ22から順次入力した複数のTOF画像を解析して、継続して3秒程度以上の時間、当該TOF画像の一部の領域が示す距離が50cm以上など、所定距離以上の状態が所定時間以上継続した場合には、待機モードへ移行すると判定してよい。
【0024】
第一制御部25は、入力したTOF画像を解析して15cmなどの所定の距離範囲内に所定範囲以上の大きさの物体(手)があることを検知して、その領域が第一タッチパネルディスプレイ21の左右の一端から他端方向へ移動したことを認識したとする(第一の認識結果)。待機モードや会話モードにおいてこの第一の認識結果を算出した場合、第一制御部25は、手話者が対応者に会話を行いたいことの通知を行うための動作をしたと判定して、第二制御部34にチャイム音を鳴動させるように指示してよい。第二制御部34はチャイム音の鳴動の指示を取得すると、スピーカ33から予め記憶するデータに基づいてチャイム音を発する制御を行うようにしてよい。この場合、第一制御部25は、手話者が対応者に会話を行いたいことの通知を行うための動作をしたと判定して、第二制御部34にチャイム音を鳴動させるように指示してよい。
【0025】
または第一制御部25は、単語や文字が手話変換文章の表示領域58に入力されている状態において第一の認識結果を算出した場合には、その単語や文字を送信すると判定し、対応者側面13に表示されるように送信処理を行ってもよい。または第一制御部25は、手話として認識した結果を手話変換文章の表示領域58に表示している状態において第一の認識結果を算出した場合には、その手話として認識した結果の手話者による確定と判定し、手話変換文章の表示領域58に表示している会話スレッドの表示領域57に表示してもよい。または第一制御部25は、会話モードにおいて第一の認識結果を算出した場合、カーソル移動操作が行われたと認識してもよい。第一制御部25は、会話モードにおいて第一の認識結果を算出した場合、手の領域の移動方向に応じて、画面に表示したカーソルの移動を制御してよい。または第一制御部25は、会話モードにおいて第一の認識結果を算出した場合、手の領域の移動方向に応じて左右の何れかの方向に画面スクロール操作が行われたと認識し、表示した画面のスクロールの制御をしてよい。
【0026】
第一制御部25は、入力したTOF画像を解析して15cmなどの所定の距離範囲内に所定範囲以上の大きさの物体(手)があることを検知して、その領域が第一タッチパネルディスプレイ21の上下の何れか一端から他端方向へ移動したことを認識したとする(第二の認識結果)。第一制御部25は、会話モードにおいて第二の認識結果を算出した場合、手の領域の移動方向に応じて、画面に表示したカーソルの移動を制御してよい。または第一制御部25は、会話モードにおいて第二の認識結果を算出した場合、手の領域の移動方向に応じて上下の何れかの方向に画面スクロール操作が行われたと認識し、表示した画面のスクロールの制御をしてよい。
【0027】
会話モードにおいて第一制御部25は、入力したTOF画像を解析して15cmなどの所定の距離範囲内に所定範囲以上の大きさの物体(手)があることを検知して、その検知時間が所定時間(例えば1.5秒以上、3秒未満の時間)等である場合、手話者による決定意志の入力と認識(第三の認識結果)したとする。この第二の認識結果を算出した場合、第一制御部25は、例えば選択されているボタンの押下が決定されたと判定してよい。または第二の認識結果を算出した場合、第一制御部25は、会話スレッドの表示領域57に表示している単語や文字の入力情報の確定と送信が決定されたと判定してよい。
【0028】
第一制御部25は、入力したTOF画像を解析して15cmなどの所定の距離範囲内に所定範囲以上の大きさの物体(手)があることを検知して、その領域が第一タッチパネルディスプレイ21の左右方向に交互に2往復以上移動したことを認識したとする(第四の認識結果)。例えば手話者が第一タッチパネルディスプレイ21上に手を翳して左右に2回手を振った場合、第一制御部25は第四の認識結果を算出する。この場合、第一制御部25はキャンセル処理を行うようにしてよい。キャンセル処理とは、既に手話変換文章の表示領域58に入力した単語や文字などの入力の削除、押下したボタンの解除などであってよい。
【0029】
第一制御部25は、入力したTOF画像を解析して15cmなどの所定の距離範囲内に所定範囲以上の大きさの物体(手)の領域が2つあることを検知して、その2つの領域が第一タッチパネルディスプレイ21の左右方向にそれぞれ所定の時間間隔(0.1秒間隔など)ごとに徐々に離れて移動したことを認識したとする(第五の認識結果)。例えば手話者が第一タッチパネルディスプレイ21上に両手を広げて翳して右手を右方向に、左手を左方向に間隔を徐々に明ける動作をした場合、第一制御部25は第五の認識結果を算出する。この場合、第一制御部25は画面拡大処理を行うようにしてよい。画面拡大処理とは、第一タッチパネルディスプレイ21に表示している情報の拡大処理である。
【0030】
第一制御部25は、入力したTOF画像を解析して15cmなどの所定の距離範囲内に所定範囲以上の大きさの物体(手)の領域が2つあることを検知して、その2つの領域が第一タッチパネルディスプレイ21の中央方向にそれぞれ所定の時間間隔(0.1秒間隔など)ごとに徐々に狭まって移動したことを認識したとする(第六の認識結果)。例えば手話者が第一タッチパネルディスプレイ21上に両手を広げて翳して左右の両手を中心方向に移動させる動作をした場合、第一制御部25は第六の認識結果を算出する。この場合、第一制御部25は画面縮小処理を行うようにしてよい。画面縮小処理とは、第一タッチパネルディスプレイ21に表示している情報の縮小処理である。
【0031】
第一制御部25は、会話モードである場合において、TOFカメラ22から順次入力した複数のTOF画像を解析して、継続して3秒程度の間、当該TOF画像の一部の領域が示す距離が15cm未満などの閾値距離未満であった場合には、会話モードの終了を検知して待機モードへ移行すると判定してよい。第一制御部25は、待機モードへの移行を検知すると、待機モードの画面表示の処理を行う。
【0032】
第一制御部25は、開始ボタンの押下を検知した場合に、待機モードから会話モードへ移行すると判定してもよい。なお、第一制御部25は、15cm未満などの所定距離未満の物体の範囲に基づいて、指を検出し、その指を検出した位置に応じたポインタを第一タッチパネルディスプレイ21に表示してもよい。そして指の距離が10cm未満に近づいたことを検出した場合に、開始ボタンや、送信ボタン、キャンセルボタンなどの押下を検出してよい。第一制御部25は、そのボタンの押下の検出に基づいて、各主動作の制御を行ってよい。このような処理によれば、第一タッチパネルディスプレイ21に触れずにボタンの押下の操作を行うことができるため、第一タッチパネルディスプレイ21に触れるユーザの数が減り、衛生面の環境を改善することができる。第一制御部25は、第一タッチパネルディスプレイ21における押圧の検知によって各種ボタンの押下を検知してもよい。同様に、第二制御部34も同様に第二タッチパネルディスプレイ31に表示されている各種ボタンのアイコンの押下の検出に基づいて動作制御を行ってよい。
【0033】
第一制御部25は、会話モードにおいて、TOF画像を解析して手話者が行った手話の解析に基づく手話情報や表現情報の検知と、手かざし動作による操作情報の検知を行い、それら手話情報、表現情報、操作情報に基づく文書入力処理を行う。より具体的には、第一制御部25は、TOF画像から検出した距離が手話認識処理を行う距離範囲である時に、手話者の手の距離と形状とを少なくとも含むTOF画像に基づいて手話情報を解析する。また第一制御部25は、TOF画像から検出した距離が手話認識処理を行う距離範囲である時に当該距離と手話者の手の形状の変化に基づく手の動きとの少なくとも一方に基づいて表現情報を解析する。また第一制御部25は、TOF画像から検出した距離が手話認識処理を行う距離範囲よりも近い距離を示す時に当該距離と手話者の手の形状の変化に基づく手の動きとの少なくとも一方に基づいて操作情報を解析する。
【0034】
第一制御部25は、手話情報の解析結果に基づいて手話に対応する文字や単語を検出して文章を構成し、第一タッチパネルディスプレイ21の会話スレッドの表示領域57や会話スレッドの表示領域61に出力する制御を行う。第一制御部25は、表現情報に基づいて、手話情報の解析結果に基づく文字や単語の大きさを変更する。例えば第一制御部25は、手の距離が近い場合にはその近さに応じたフォントの大きさの数値を含む表現情報を生成し、そのフォントの大きさの数値に対応する文字や単語を表示する制御を行う。
【0035】
第一制御部25は、TOF画像に基づいて各画素に対応する位置の距離を検出し、当該距離に応じたオレンジや赤の濃淡の色情報を各画素に付与した解析画像を第一タッチパネルディスプレイ21の表示領域56に表示する。また第一制御部25は、TOF画像から手の距離情報や物体の形状に基づいて手の領域を解析し、その手の形状の輪郭を縁取る認識ガイド線59を生成する。第一制御部25は、手話者の手の形状の縁に認識ガイド線59を合わせて表示する解析画像を第一タッチパネルディスプレイ21の表示領域56に表示する。これにより、手話者は、カメラに対して自身や手の位置が適切な場所にいることを把握することが出来るとともに、撮影範囲から自身や手の領域が外れた場所にいれば、第一タッチパネルディスプレイ21の表示領域56を見た手話者が、自らとカメラとの位置関係を修正するよう促す効果が得られる。
【0036】
図6は対応者側面の表示情報の一例を示す図である。
対応者側面13における第二タッチパネルディスプレイ31にも会話スレッドの表示領域61が設けられる。
【0037】
会話スレッドの表示領域57や、会話スレッドの表示領域61には、対応者が入力した単語や文字で構成される文章情報と、手話者の手話を映したTOF画像を解析して得られた手話情報や表現情報が表示される。一例として、会話スレッドの表示領域の中央より左右一方のいずれか一方側に、対応者の文書情報が、他方側に手話者の手話情報や表現情報が表示される。
【0038】
第一制御部25による手話情報の解析についてより詳細に説明する。一例として、第一ROM27などの記憶部は、各手話が示す単語や文字などに応じた手の特徴情報を予め記憶する。第一制御部25はTOF画像から距離情報や物体の解析結果に基づいて手の画像を切り出す。第一制御部25は、手の画像に基づいて手話に関する手の特徴情報を算出する。第一制御部25は、算出した手の特徴情報と、予め記憶する各手話が示す単語や文字の特徴情報とを比較して、一致または類似する担当や文字の特徴情報を記憶部の記憶する特徴情報の中から特定する。第一制御部25は特定した特徴情報に対応する手話の単語や文字を、手話情報の解析結果として出力する。第一制御部25は、TOF画像から算出した手話に関する手の特徴情報を、機械学習によって生成した手話情報判定モデルに入力し、その結果出力した、手話の単語や文字を出力するようにしてもよい。
【0039】
図7は第一制御部の機能ブロック図である。
第一制御部25は、第一解析部71、第二解析部72、第三解析部73、出力部74を少なくとも備える。第一解析部71は、TOF画像を解析して手話情報を生成する。手話情報は、例えば文字や単語などを示す。手話情報は、手話に対応する画像やアイコンなどであってもよい。第二解析部72は、TOF画像を解析して表現情報を生成する。表現情報は、例えば文字のフォントや大きさの数値などを示す。第三解析部73は、TOF画像を解析して操作情報を生成する。操作情報は、例えば操作種別に対応するコマンドを示す。
【0040】
図8は手話通訳装置の処理フローを示す図である。
次に手話通訳装置1の処理フローについて説明する。
第一制御部25はTOFカメラ22から取得したTOF画像に基づいて、待機モードか会話モードかを判定する(ステップS101)。第一制御部25は、待機モードであると判定した場合、待機モード画面(A)を第一タッチパネルディスプレイ21に出力する(ステップS102)。第一制御部25は、会話モードであると判定した場合、会話モード画面(B)を第一タッチパネルディスプレイ21に出力する(ステップS103)。第一制御部25は、また会話モードであると判定した場合、第二タッチパネルディスプレイ31を起動するよう第二制御部34に指示する(ステップS104)。第二制御部34は第二タッチパネルディスプレイ31を起動する。
【0041】
第一制御部25は、待機モードである場合には、待機モード画面(A)のTOF画像の表示領域52にTOF画像を表示する。当該TOF画像に写る物体は、その物体が示す範囲の画素の距離情報に基づいて赤やオレンジの濃淡の画素値が異なる。
【0042】
第一制御部25は、会話モードである場合には、TOF画像を解析する(ステップS105)。そして第一制御部25は、第一解析部71、第二解析部72、第三解析部73にTOF画像に基づく処理を指示する。
【0043】
第一解析部71は、TOF画像に含まれる物体の形状や距離に基づいて、手の形状や範囲を解析して、手話情報を生成する(ステップS106)。第一解析部71は手話情報に対応する文字や単語を特定する。第一解析部71は、手の形状の輪郭を縁取る認識ガイド線59を生成する(ステップS107)。認識ガイド線59には、認識ガイド線59の各位置の画像内座標などの情報を含んでよい。第一解析部71は文字や単語、認識ガイド線59を出力部74へ出力する。第一解析部71は、手の範囲の情報を第二解析部72と第三解析部73に出力する。
【0044】
第二解析部72は、TOF画像に含まれる手の範囲の各画素が示す距離情報を取得する。第二解析部72は、それら距離情報に基づいて、TOFカメラ22から手までの距離を算出する。例えば第二解析部72は、TOFカメラ22から手までの距離を、手の範囲の各画素が示す距離情報の平均値により算出する。第二解析部72は、距離の情報に基づいて、感情の数値(度合)を特定する(ステップS108)。例えば手までの距離が15cm~50cmまでの範囲を5cm刻みで七段階に分類する。例えば5cm以上10cm未満を第一段階、10cm以上15cm未満を第二段階・・として第七段階まで5cm刻みで分類する。なお第一段階が最も感情の度合が低く、第七段階が感情の度合が最も大きいとし、第一段階から第七段階まで徐々に感情の度合が大きくなる。第二解析部72は、特定した感情の度合の情報を出力部74へ出力する。
【0045】
第三解析部73は、TOF画像に含まれる物体までの距離情報が15cm以下の連続する領域が所定面積以上である場合には、ユーザである手話者がボタン押下の装置操作をしていると検出する(ステップS109)。第三解析部73は手話者のボタン押下の装置操作を検出すると、TOF画像中における15cm以下の距離情報が示す指などの位置に基づいて、対応するボタンを特定する。第三解析部73は、TOF画像において検出した指の位置を示す距離情報の数値が単位時間当たりに所定値以上低くなったかを判定する。例えば第三解析部73は、指と判定した範囲の距離情報の数値が単位時間当たりに5cm以上低くなったかを判定する。第三解析部73は、指と判定した範囲の距離情報の数値が単位時間当たりに5cm以上低くなった場合には、当該指の位置に対応するボタンの押下を検出する。例えば第三解析部73は、開始ボタンの押下、送信ボタンの押下、キャンセルボタンの押下、などを検出する。
【0046】
操作制御部75は、第三解析部73がボタンの押下を検出している場合には、当該検出したボタンに対応する制御を行う。操作制御部75は、開始ボタンの押下を検出した場合には、会話モードに移行する制御を行う。操作制御部75は、送信ボタンの押下を検出した場合には、第一解析部71が解析して出力された単語や文字の情報の会話スレッドの表示領域57、表示領域61への出力を出力部74に指示する。その他、上述の処理と並行して第三解析部73は、上述の第一の認識結果~第六の認識結果の何れかの認識結果を算出すると、当該認識結果に応じた処理を行う。
【0047】
出力部74は、第一解析部71から取得した場合、取得した単語や文字を第一タッチパネルディスプレイ21の手話変換文章の表示領域58に出力する(ステップS110)。そして操作制御部75は、送信ボタンの押下を検出したかを判定する(ステップS111)。操作制御部75は、送信ボタンの押下を検出した場合、出力部74に送信指示を行い、出力部74は、手話変換文章の表示領域58に出力している単語や文字を、会話スレッドの表示領域57に出力する(ステップS112)。この時、出力部74は、第二解析部72から感情の度合の情報を取得している場合には、その度合の情報に応じた大きさで単語や文字を表示する制御を行う。
【0048】
また出力部74は、第二制御部34へ出力する。出力部74は、第二解析部72から感情の度合の情報を取得している場合には、その情報を第二制御部34へ出力する。第二制御部34は、会話スレッドの表示領域61に取得した単語や文字を表示する(ステップS112)。第二制御部34は感情の度合の情報を取得した場合には、その度合の情報に応じた大きさで単語や文字を表示する制御を行う。
【0049】
これにより、手話者は手話者側面12に表示された自身の入力した単語や文字を確認することができ、対応者は対応者側面13に表示された手話者の入力した担当や文字を確認することができる。また対応者は文字や単語の大きさによって、手話者の感情の度合を把握することができる。
【0050】
なお感情の度合の情報は色で表現されてもよい。例えば手話通訳装置1は、感情の度合が強い場合には濃い黒、感情の度合が低い場合には薄い黒などにより表示するように制御してもよい。また手話通訳装置1は、感情の度合が所定の値以上の場合、文章の最後に感嘆符「!」を表示するよう制御してもよい。
【0051】
第二制御部34は、マイク32または第二タッチパネルディスプレイ31から入力した情報を、第二タッチパネルディスプレイ31の入力情報表示領域に表示する。そして、対応者の送信操作によって、対応者の入力情報を、会話スレッドの表示領域61に表示する。また第二制御部34は、対応者の入力情報を第一制御部25へ出力する。第一制御部25の出力部74は、対応者の入力情報(単語や文字など)を会話スレッドの表示領域57に出力する。これにより、対応者や手話者は、対応者の入力した情報を確認することができる。
【0052】
図9は手話通訳システムの概略構成図である。
手話通訳装置1は手話通訳システム100に含まれて、当該システムのサーバ装置10と通信接続してよい。そして手話通訳システム100において、サーバ装置10が、上述の手話通訳装置1の何れか一つまたは複数の処理を行って、その結果を手話通訳装置1に返信して手話通訳装置1が表示してもよい。例えば、手話通訳システム100は、上述の第一解析部71~第三解析部73の処理を備えるとする。この場合、第一制御部25がTOF画像をサーバ装置10へ送信する。サーバ装置10の第一解析部71、第二解析部72、第三解析部73は上述の処理と同様の処理を行って、その解析結果を手話通訳装置1へ送信する。手話通訳装置1はサーバ装置10から受信した解析結果を用いて、上述の処理と同様に、情報を表示または音声等により出力するようにしてよい。この場合、サーバ装置10も手話通訳装置の一態様と見做すことができる。
【0053】
上述の手話通訳装置1は、キーボードと接続されており、対応者はキーボードにより文字の入力を行うようにしてよい。
上述の手話通訳装置1は、手話者から入力した情報と、対応者から入力した情報をそれぞれ同じCPU、ROM、RAM、通信部などの構成を共用して上述と同様に処理してもよい。
また手話通訳装置1の対応者側面13にも、手話者側面12と同様にTOFカメラを設け、手話通訳装置1は、対応者の入力を、TOF画像から解析するようにしてもよい。
【0054】
また手話通訳装置1は、対応者側面13に備わる第二タッチパネルディスプレイ31、マイク32、スピーカ33、対応者側面13を備えなくてもよい。この場合、手話通訳装置1は、対応者の携帯するスマートフォンなどの携帯端末と通信接続し、携帯端末に設けられたタッチパネルディスプレイ、マイク、スピーカが、第二タッチパネルディスプレイ31、マイク32、スピーカ33の各機能の役割を果たすようにしてもよい。対応者側面13に備わる第二タッチパネルディスプレイ31、マイク32、スピーカ33、対応者側面13を備える場合でも、手話通訳装置1は、対応者の携帯端末と通信接続できてよい。この場合も対応者の携帯端末に設けられたタッチパネルディスプレイ、マイク、スピーカが、第二タッチパネルディスプレイ31、マイク32、スピーカ33の各機能の役割を果たすようにしてよい。また手話通訳装置1は複数の対応者がそれぞれ携帯する各携帯端末と通信接続し、各携帯端末からの入力情報を、手話者側面12の第一タッチパネルディスプレイ21に表示し、また手話者の手のTOF画像から解析した結果に基づいて、各携帯端末に情報を送信してもよい。上述の処理では第一解析部71が手話に基づいて文字や単語を解析することを示したが、第一解析部71は、手話の解析結果に対応する絵文字を出力するようにしてもよい。
【0055】
上述の手話通訳装置1の構成および処理によれば、手話者が対応者と対面しながら円滑な双方向コミュニケーションを実現することができる。
また上述の手話通訳装置1によれば、手話者や対応者が身体に器具を取り付ける必要がなく、手話者の動きや服装も制限されない。
また上述の手話通訳装置によればTOF画像により手話を解析するので、暗い場所でも、手話の認識が可能となる。
また上述の手話通訳装置によれば手話者は、装置に触れることなくスムーズに文章入力を行うことができる。
また上述の手話通訳装置によれば手話の解析処理において、画像取得にTOFカメラ22を用いることで、手の部分だけの画像を容易に切り出すことが出来る。そしてその画像から距離情報を得ることで、手を前後に動かしたり、両手を組み合わせる動作などの検出が容易になる。これにより、手話の誤認識を減らすとともに、CPUの処理負荷を減らして処理速度を図り、コストダウン、低消費電力化を実現することができる。
【0056】
図10は手話通訳装置の最小構成を示す図である。
図11は最小構成の手話通訳装置による処理フローを示す図である。
手話通訳装置1は、少なくとも手話情報取得手段91と、手話情報出力手段92とを備える。
手話情報取得手段91は、距離センサ(TOFカメラ22)の計測したセンシング情報から検出した距離が手話認識処理を行う距離範囲である時に距離センサの計測した手話者の手の距離と形状とを少なくとも含むセンシング情報に基づいて解析された手話情報を取得する(ステップS901)。
手話情報出力手段92は、手話情報を出力する(ステップS902)。
【0057】
上述の各測定は内部に、コンピュータシステムを有している。そして、上述した各処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD-ROM、DVD-ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
【0058】
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【0059】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限らない。
【0060】
(付記1)
距離センサの計測したセンシング情報から検出した距離が手話認識処理を行う距離範囲である時に前記距離センサの計測した手話者の手の距離と形状とを少なくとも含むセンシング情報に基づいて解析された手話情報を取得する手話情報取得手段と、
前記手話情報を出力する手話情報出力手段と、
を備える手話通訳装置。
【0061】
(付記2)
前記センシング情報を解析して前記手話情報を生成する第一解析手段と、
を備える付記1に記載の手話通訳装置。
【0062】
(付記3)
前記センシング情報から検出した距離が手話認識処理を行う距離範囲である時に当該距離と前記手話者の手の形状の変化に基づく手の動きとの少なくとも一方に基づいて解析された表現情報を取得する表現情報取得手段と、
前記手話情報出力手段は、前記表現情報に基づいて前記手話情報の出力態様を変化させて出力する
付記1または付記2に記載の手話通訳装置。
【0063】
(付記4)
前記センシング情報を解析して前記表現情報を生成する第二解析手段と、
を備える付記3に記載の手話通訳装置。
【0064】
(付記5)
前記センシング情報から検出した距離が手話認識処理を行う距離範囲よりも近い距離を示す時に当該距離と前記手話者の手の形状の変化に基づく手の動きとの少なくとも一方に基づいて解析された操作情報を取得する操作情報取得手段と、
前記操作情報に基づいて前記手話情報の出力制御を行う出力制御手段と、
を備える付記1から付記4の何れか一つに記載の手話通訳装置。
【0065】
(付記6)
前記センシング情報を解析して前記操作情報を生成する第三解析手段と、
を備える付記5に記載の手話通訳装置。
【0066】
(付記7)
前記操作情報に基づいて操作制御を行う操作制御手段と、
を備える付記5または付記6に記載の手話通訳装置。
【0067】
(付記8)
前記センシング情報から検出した距離が前記手話認識処理を行う距離範囲である場合に前記手の形状の輪郭を縁取る認識ガイド線の情報を取得し、前記手話者の手の形状に前記認識ガイド線を合わせて表示する画像を出力する画像出力手段と、
を備える付記1から付記7の何れか一つに記載の手話通訳装置。
【0068】
(付記9)
手話者側の第一インタフェース面と、対応者側の第二インタフェース面とを、筐体の表裏にそれぞれ備え、
前記第一インタフェース面に少なくとも前記距離センサと第一表示装置とを備え、
前記第二インタフェース面に少なくとも第二表示装置を備え、
前記手話情報出力手段は、前記手話情報を前記第一表示装置と前記第二表示装置とに出力する
付記8に記載の手話通訳装置。
【0069】
(付記10)
前記第一表示装置は、前記手話情報を表示する第一表示領域と、前記センシング情報に基づいて生成した画像とを表示する第二表示領域とを有し、
前記画像出力手段は、前記手話者の手の形状に前記認識ガイド線を合わせて表示する画像を前記第二表示領域に出力する
付記9に記載の手話通訳装置。
【0070】
(付記11)
前記第二表示装置は、前記手話情報を表示する第三表示領域を少なくとも備える付記9に記載の手話通訳装置。
【0071】
(付記12)
前記第二インタフェース面の前記第二表示装置は、前記第三表示領域に前記手話情報と入力された文字情報とを表示する機能と、文字入力を受け付ける機能とを備える
付記11に記載の手話通訳装置。
【0072】
(付記13)
前記第二インタフェース面にさらに前記手話者に対応する対応者の音声を取得するマイクを備える
付記9または付記12に記載の手話通訳装置。
【0073】
(付記14)
前記手話情報出力手段は、前記手話情報を前記第一表示装置に表示した後に、当該手話情報の送信操作を操作情報に基づいて検知した時に、前記手話情報を前記第二表示装置に表示する
付記9に記載の手話通訳装置。
【0074】
(付記15)
距離センサの計測したセンシング情報から検出した距離が手話認識処理を行う距離範囲である時に前記距離センサの計測した手話者の手の距離と形状とを少なくとも含むセンシング情報に基づいて解析された手話情報を取得し、
前記手話情報を出力する
手話通訳方法。
【0075】
(付記16)
手話通訳装置のコンピュータを、
距離センサの計測したセンシング情報から検出した距離が手話認識処理を行う距離範囲である時に前記距離センサの計測した手話者の手の距離と形状とを少なくとも含むセンシング情報に基づいて解析された手話情報を取得する手話情報取得手段、
前記手話情報を出力する手話情報出力手段、
として機能させるプログラム。
【符号の説明】
【0076】
1・・・手話通訳装置
12・・・手話者側面
13・・・対応者側面
21・・・第一タッチパネルディスプレイ
22・・・TOFカメラ
23・・・発光部
24・・・受光部
25・・・第一制御部
31・・・第二タッチパネルディスプレイ
32・・・マイク
33・・・スピーカ
34・・・第二制御部