【文献】
竹内 勝,グラフ探索アルゴリズムに基づく手話認識方式 Sign Language Recognition using Graph-Search Algorithms,情報処理学会研究報告,日本,社団法人情報処理学会,1996年 3月15日,第96巻, No. 27,pp. 89-94
(58)【調査した分野】(Int.Cl.,DB名)
前記文中の前記すべての区間において、前記局所スコアが最大となる単語候補を正解単語として決定することにより、前記文の正解を決定する請求項1に記載の単語決定システム。
前記区間のうち最終区間の前記単語候補の前記局所スコアを決定し、ついで順次前方の前記区間の前記単語候補の前記局所スコアを決定し、前記区間のうち最初の区間における前記単語候補の前記局所スコアは、当該単語候補の前記単語認識スコアを前記局所スコアとして、前記正解単語を決定する請求項1又は請求項2に記載の単語決定システム。
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記のような手話認識システムにおいては、認識対象となる語彙数が増加すると、認識性能及び処理速度ともに低下する。例えば、手話認識システムにおいては、認識対象単語数が100から1000個に増加すると、認識対象となる「手の動き」、「手の位置」、「手の形」の種類はそれぞれ約2倍に増える。そして、これらの「手の動き」、「手の位置」、「手の形」を組み合わせて表現される「単語」の数は約10倍に増加する。このような認識対象単語数の増加等を理由として、単語決定システムにおける認識性能及び処理速度が著しく低下するおそれが従来から指摘されている。
【0005】
本発明の目的は、前述した従来技術の課題を解決しようとするものであり、手振り翻訳システム等における認識対象である文に含まれる単語を決定する単語決定システムであって、認識性能を向上させることのできる単語決定システムを提供することにある。また、さらに処理速度も向上させることのできる単語決定システムを提供することにある。
【課題を解決するための手段】
【0006】
上記目的を達成するための本発明の手段は、以下のものである。
(1)手振り翻訳システ
ムにおける認識対象である文に含まれる単語を決定する単語決定システムであって、前記文を単語毎の区間に分割し、前記区間ごとに認識される複数の単語候補を決定する単語候補決定部と、前記各単語候補についての認識の信頼性である単語認識スコアを算出する単語認識決定部と、前記各単語候補について、当該単語候補が属する前記区間に隣り合う隣接区間に属する単語候補とのつながり易さである単語接続スコアを算出する単語接続決定部と、前記単語認識スコアと前記単語接続スコアとからなる局所スコア を算出する局所スコア算出部とを備え、同一の前記区間内の各単語候補のうち前記局所スコアが最大となる単語候補を正解単語として決定されることを特徴とするものである。
【0007】
(2)前記文中の前記すべての区間において、前記局所スコアが最大となる単語候補を正解単語として決定することにより、前記文の正解を決定することを特徴とする(1)に記載の単語決定システム。
【0008】
(3)前記区間のうち最終区間の前記単語候補の前記局所スコアを決定し、ついで順次前方の前記区間の前記単語候補の前記局所スコアを決定し、前記区間のうち最初の区間における前記単語候補の前記局所スコアは、当
該単語候補の前記単語認識スコアを前記局所スコアとして、前記正解単語を決定する(1)又は(2)に記載の単語決定システム。
【0009】
(4)前記単語接続スコアは以下の式により決定される(1)から(3)のいずれかに記載の単語決定システム。
【0010】
【数1】
・P(w
i| w
i-1):隣接する2つの単語候補w
i-1、w
1の接続スコア(単語間の繋がりやすさを表す確率)
・C(wi):単語候補wiが文中に出現する回数
・V:文中に含まれる単語の種類数
・δ:出現しなかった単語の確率が0にならないように調整(スムージング)するためのスムージングパラメータ。δ>0
【0011】
(5)前記文の全区間の局所スコアは、以下の式により決定される(2)から(4)のいずれかに記載の単語決定システム。
【0012】
【数2】
・p(w
isi,)
1-ω:単語認識スコア
・q(w
isi,W
i-1si-1,)
ω:経路s={s
0,s
1,…,s
N}にある単語w
isiからW
i-1si-1,の単語接続スコア
・ω:文脈モデルをどの程度考慮するかという重みパラメータ
【0013】
(6)前記局所スコアの重みパラメータωが、0.25〜0.75である(5)に記載の単語決定システム。
【0014】
(7)前記単語決定システムは、手振り翻訳システムにおける認識単語の決定に用いられる(1)から(6)のいずれかに記載の単語決定システム。
(8)前記単語認識スコアは、手の動き、手の位置及び手の形に基づくパターン認識に基づいて算出される(7)に記載の単語決定システム。
【発明の効果】
【0015】
本発明の単語決定システムは、手振り翻訳システ
ムにおける認識対象である文に含まれる単語を決定する単語決定システムであって、前記文を単語毎の区間に分割し、前記区間ごとに認識される複数の単語候補を決定する単語候補決定部と、前記各単語候補についての認識の信頼性である単語認識スコアを算出する単語認識判定部と、前記各単語候補について、当該単語候補が属する前記区間に隣り合う隣接区間に属する単語候補とのつながり易さである単語接続スコアを算出する単語接続判定部と、前記単語認識スコアと前記単語接続スコアとからなる局所スコア を算出する局所スコア算出部とを備え、同一の前記区間内の各単語候補のうち前記局所スコアが最大となる単語候補を正解単語として決定することとしている。よって、単語認識の信頼度だけではなく、単語間のつながりやすさも考慮して正解となる単語を決定することができる。したがって、単語決定システムの単語決定の認識性能を向上させることができる。また、前記文中の前記すべての区間において、前記局所スコアが最大となる単語候補を正解単語として決定することにより、前記文の正解を決定するものとすることにより、区間ごとに正解単語を決定して文全体の正解を決定することができるので、各区間の単語候補の全ての組合せであるすべての単語候補を組み合わせたすべての「経路」の探索をする必要が無い。よって、文全体の正解を決定する際の処理速度を向上させることもできる。
【発明を実施するための形態】
【0017】
以下、本発明の実施の形態の単語決定システムについて、図面を参照して説明する。本例の単語決定システムは、
図1に全体構成を示した手振り翻訳システム1aにおける認識対象となる文中の単語を決定するものである。また、
図2に単語決定システム1(以下「本システム1」)の機能ブロック図を示す。また、
図3に、上体カメラ部で伝達者OPの上体を撮像した画像の例を示す。また、
図4に、手カメラ部31,32で伝達者OPの手PHR,PHLを撮像した画像の例、及び、この手の画像に、認識した左右各手指の指先、手指関節、掌の位置を示すハンドフレームを重ね合わせた図を示す。
本システム1では、手振り翻訳システム1a、具体的には手話翻訳システムにおける単語決定システムを例示する。
なお、以下の説明における上下、左右、前後は、伝達者OPから見た表現で記載する。
【0018】
本実施形態に係る本システム1は、処理装置2、これに接続された手カメラユニット3、上体カメラユニット4、ディスプレイ部52、及び発音部62を備えている(
図1参照)。
【0019】
このうち、上体カメラユニット4は、上体カメラ部41及び上体照明LED42を含み、処理装置2に有線で、具体的にはUSB(Universal Serial Bus)ケーブルで接続しており、本例では、処理装置2から給電を受けることができる。上体カメラ部41は、
図1に示すように、伝達者OPの前方に配置され、
図3に示すように、伝達者OPの頭PH、右肩PSR、左肩PSL、右胸PCR、左胸PCL、右腕PAR、左腕PAL、右手PHR、及び左手PHLを含む、伝達者OPの上体PUをビデオ撮影する上体カメラ部41であり、処理装置2の手位置関係取得部22に向けて、上体撮影データDPを送信する。なお、本例では、上体照明LED42を備えており、環境が暗い場合など、伝達者OPのビデオ撮影に適さない場合に、伝達者OPを照明する補助光を発する白色LEDとされている。
【0020】
一方、手カメラユニット3は、上体カメラユニット4とは離間して配置されており、2つの手カメラ部31,32及び3つの手照明LED33,34,35を含み、処理装置2に有線で、具体的にはUSBケーブルにより接続して、処理装置2から給電を受ける。このうち、一対の手カメラ部31,32は、いずれも広角対物レンズを含む赤外線カメラであり、
図1に示すように、手カメラユニット3において、互いに離間して配置されている。手カメラ部31,32それぞれが撮影した手(右手PHR及び左手PHL)の画像に視差を生じさせて、手の位置を立体的に把握するためである。手カメラ部31,32は、撮影した手撮影データDH1,DH2を、処理装置2の「データ取得部」の一例である手データ取得部21に向けて送信する。
【0021】
また、本例では、手照明LED33,34,35を備えており、伝達者OPの手を照明する補助光を発する赤外線LEDとされている。手照明LED33は、手カメラ部31と手カメラ部32の間に、手照明LED34は手カメラ部31の外側に、手照明LED35は手カメラ部32の外側に配置されている。
【0022】
手カメラユニット3は、伝達者OPの右手PHR及び左手PHLを撮影し易い位置に配置する。例えば、
図1に示すように、下方から、伝達者OPの右手PHR及び左手PHLを撮影するように配置する。
【0023】
処理装置2は、図示しないCPU,ROM,RAM等を有する公知のコンピュータであり、手データ取得部21、手位置関係取得部22、手振り識別部23、単語候補決定部24、単語認識決定部25、単語接続決定部26、局所スコア算出部27、画像データ化部51、音声データ化部61として機能する。
【0024】
このうち、手データ取得部21では、まず、2つの手カメラ部31,32から送信された手撮影データDH1,DH2を用いて、
図4に示すように、伝達者OPの右手PHRを認識し,さらには、右手PHRの親指RF1,人差し指RF2,中指RF3,薬指RF4,小指RF5における、指先RF10,RF20,RF30,RF40,RF50、第1関節RF11,RF21,RF31,RF41,RF51、第2関節RF12,RF22,RF32,RF42,RF52、第3関節RF23,RF33,RF43,RF53、右手掌RH0の位置を認識する。また、同様に、伝達者OPの左手PHLの親指LF1,人差し指LF2,中指LF3,薬指LF4,小指LF5における、指先LF10,LF20,LF30,LF40,LF50、第1関節LF11,LF21,LF31,LF41,LF51、第2関節LF12,LF22,LF32,LF42,LF52、第3関節LF23,LF33,LF43,LF53、左手掌LH0の位置を認識する。
なお本例では、更に2つの手撮影データDH1,DH2で認識した各部位RH0,LH0,…の視差を用いて、右親指RF1の指先RF10など、右手PHR及び左手PHLの各部位の三次元空間における位置を算出する。具体的には、手カメラ部31が撮影する、手カメラ部31の対物レンズを頂点とする錐状の空間と、手カメラ部32の対物レンズを頂点とする錐状の空間とが交差した三次元空間における位置である。
また、右手PHR及び左手PHLの各部位の三次元空間における位置の変化により、手指の動き及び手の移動を認識することもできる。
【0025】
一方、手位置関係取得部22では、上体撮影データDPを用いて、伝達者OPの頭PH、右肩PSR、左肩PSL、右胸PCR、及び左胸PCLと、右手PHRとの位置関係である右手位置関係を取得する。また、伝達者OPの頭PH、右肩PSR、左肩PSL、右胸PCR、及び左胸PCLと、左手PHLとの位置関係である左手位置関係も取得する。具体的には、「伝達者の右手が、右胸と左胸の間(胸の前、両肩の下)に位置している」、「伝達者の左手が、右胸と左胸の間よりも下に位置している」(
図3の手の姿態参照)などの位置関係を取得する。
なお、右手位置関係及び左手位置関係を取得するのに当たり、上述のように、上体カメラユニット4からの上体撮影データDPのみを用いても良いが、
図2において破線で示すように、手データ取得部21で取得した、右手PHR及び左手PHLの各部の位置データをも用いて、右手位置関係及び左手位置関係を取得しても良い。また、上体撮影データDPのほか、手撮影データDH1,DH2を用いて右手位置関係及び左手位置関係を取得しても良い。
【0026】
その後、手振り識別部23において、伝達者が右手PHR及び左手PHLを用いて示す手振りの意味を識別する。
この際、右手PHR及び左手PHLについての各部の位置データ、右手位置関係及び左手位置関係、並びに、これらの変化(例えば、「伝達者の右手が、右胸の前から右肩の上まで移動」)を用いて、手振りの意味を識別する。手カメラ部31,32からの手撮影データDH1,DH2を用いて取得した右手PHR及び左手PHLの各部の位置データを用いるほか、上体カメラ部41からの上体撮影データDPを用いて取得した右手位置関係及び左手位置関係を用いて識別する。
【0027】
そして、後述するように、連続する手振りの意味からなる「文」は、単語ごとの「区間」に分割され、この区間ごとに複数の「単語候補」が決定される。この複数の単語候補には、信頼性を基準にして決定される評価値である「単語認識スコア」がそれぞれ付与される。そして、後述するように「単語接続スコア」も考慮された上で最終的に「正解単語」が決定される。
【0028】
その後、決定された正解単語に基づいて、伝達者OPの手振りが示す意味を、被伝達者に知覚可能に出力する。具体的には、画像データ化部51において、伝達者OPの手振りが示す意味を、画像データDGとし、この画像データDGをディスプレイ部52に表示させる。かくして、被伝達者に対して、伝達者OPの手振りの意味を確実に伝えることができる。なお、
図2において破線で囲むように、画像データ化部51とディスプレイ部52とが、伝達者OPの手振りが示す意味を、被伝達者に画像によって知覚可能に出力する第1出力部50に相当している。
【0029】
そのほか本例においては、本システム1では、識別した伝達者OPの手振りが示す意味を、音声でも出力するように構成されている。具体的には、音声データ化部61において、伝達者OPの手振りが示す意味を、音声合成により音声データDSとし、アンプ及びスピーカからなる発音部62から発音させる。かくして、伝達者OPの手振りの意味を、多人数に同時に伝えやすい。なお、
図2において破線で囲むように、音声データ化部61と発音部62とが、伝達者OPの手振りが示す意味を、被伝達者に音声によって知覚可能に出力する第2出力部60に相当している。
【0030】
次いで本システム1の単語決定の処理について説明する。本システム1の単語決定の処理では、文を単語毎の区間(セグメント)に分割し、区間ごとに認識される複数の単語候補を決定する単語候補決定部と、各単語候補についての認識の信頼性である単語認識スコアを算出する単語認識判定部と、各単語候補について、当該単語候補が属する区間に隣り合う隣接区間に属する単語候補とのつながり易さである単語接続スコアを算出する単語接続判定部と、単語認識スコアと単語接続スコアとからなる局所スコアを算出する局所スコア算出部とを備え、同一の区間内の各単語候補のうち局所スコアが最大となる単語候補を正解単語として決定するものである。以下、より具体的に説明する。
【0031】
最初に、文章中の複数の単語の認識を行う。まず、認識対象となる文について、単語単位の「区間」に分割処理をする。次いで、分割された各区間に対して単語認識処理によって複数の単語候補が得られる。後述するように、複数の単語候補にはそれぞれ、信頼性に基づく評価値(単語認識スコア)が付与される。単語の分割処理においては、文章をN個のセグメントに分け、各セグメントについてM個の単語候補が得られる。この場合には、合計でM
N種類の単語の列が単語候補となり、これらが、「正解単語」を組み合わせた正解の文(経路)の候補となる。
【0032】
ここで、個々の単語認識の処理(信頼性による単語認識スコアの付与)が必ずしも確かではない可能性があるため、単語認識スコアにおいて最上位以外の多数の候補に正解が含まれる可能性がある。よって例えば、
図5に示すように、文としては、単語単位において所定の手順で算出された単語認識スコアが第1位候補とされる全ての単語からなる経路(Aの経路(単語列))は不正解であり、一方、「1番目の区間」では評価値が第2位であった単語を選んだ場合の別の経路(Bの経路(単語列))が、文としては正解になる場合もあり得る。このため認識精度の向上のためには、M
N種類の単語の列からなる、すべての経路の中から適切な経路(正解となる単語列)を選択することが望ましく、このような選択をすることにより、より正確な文章の認識が達成できる。
【0033】
しかしながら、前述のようにM
N種類の単語の列からなる、すべての経路の中から適切な経路(正解となる単語列)を選択するように探索すると、探索時間を相当に要し認識処理及び処理速度が著しく低下する。特に、認識対象単語が増加すると探索すべき経路が飛躍的に増加するため、一層、低下するおそれのあることが問題となる。
【0034】
そこで「動的計画法」に基づいて、以下のように効率的に最適解を計算して経路を決定する。まず、経路の適切さを表す尺度を定義するが、この尺度は、後述する単語認識スコアと単語接続スコアに基づく経路スコアによるものとする。最初に、各区間で認識された単語候補に対して、センサから得られた身体動作の特徴(手の動きや位置、手の形などの情報)を基にパターン認識処理によって算出された評価値(単語認識スコア)の情報を付与する。本例の単語認識スコアでは、単語wの単語認識スコアpは下記の式で表される(ωについては後述する)。
【0035】
【数3】
本例では、この単語認識スコアは、前述のパターン認識によって各単語候補に対して0〜1の実数値で決定される。なお、単語認識スコアの決定手法は、これに限らず、他の評価要素・評価要素について決定しても良く、またその際の各要素の重みづけを適宜変更することも可能である。
【0036】
次に、対象となる区間の単語候補と、この区間と隣接する区間の単語候補との「単語の接続のしやすさ」である「単語接続スコア」を算出する。隣接する2つの単語w
i-1、w
1の単語接続スコア(単語間の繋がりやすさを表す確率P(w
i| w
i-1))は、下記の式で表される。
【0037】
【数1】
・P(w
i| w
i-1):隣接する2つの単語候補w
i-1、w
1の接続スコア(単語間の繋がりやすさを表す確率)
・C(wi):単語候補wiが文中に出現する回数
・V:文中に含まれる単語の種類数
・δ:出現しなかった単語の確率が0にならないように調整(スムージング)するためのスムージングパラメータ。δ>0
【0038】
スムージングパラメータは、出現しなかった単語の確率が0にならないように調整(スムージング)するためものである。本例ではδ=1として設定しているが、これに限らず、0では無い値、例えば0.5、2又は3等としても良い。このようにして算出した「単語接続スコア」と前述の「単語認識スコア」を利用することにより、特定の単語候補の局所スコアを決定する。特定の単語候補の局所スコアは、以下の式で表される。
【0039】
【数4】
このようにして算出された局所スコアが最大となる単語候補を正解単語とする。このように、連続する単語候補の「つながり易さ」である「単語接続コスト」を考慮することにより、認識パターンに基づいて算出される単語認識スコアによってのみ正解単語を決定するよりも、より正確に、特定の区間における複数の単語候補のうちの最も正解に近い単語を決定することができる。
【0040】
前述した例では、認識対象の文中の特定の単語(区間)について正解単語を決定する例について説明したが、本発明はこれに限られない。例えば、文全体を構成する単語候補について正解単語を決定する場合にも適用することができる。このような場合には、特定の区間における単語候補について、すべての区間において組み合わせた、「経路」についてのスコアを算出する。この場合に「経路」について算出するスコアである「経路スコア」について説明する。
【0041】
前述の通り、認識された単語候補の組合せである単語の列には複数通りの「経路」が考えられる。それぞれの経路について、前述した単語認識スコアと単語接続スコアの直積を、ある特定の経路の「経路スコア」として定義する。従って言い換えると、本単語決定システム1では、多数の候補経路から経路スコアが最大となる経路を探索することにより、より正確な単語認識を行うことを実現することができる。ある経路s∈S(S :考えられる全ての経路集合)が与えられたときの経路スコアP(w
s)は、下記の式で表される。
【0042】
【数2】
・p(w
isi,)
1-ω:単語認識スコア
・q(w
isi,W
i-1si-1,)
ω:経路s={s
0,s
1,…,s
N}にある単語w
isiからW
i-1si-1,の単語接続スコア
・ω:文脈モデルをどの程度考慮するかという重みパラメータ
【0043】
スコアの計算の際には、単語認識スコアに対して単語接続スコアをどの程度考慮するかという調整パラメータωを使用する。この重みパラメータωは、認識対象に応じて実験的に定める必要がある。本例では、正解が明らかになっている評価用データ(つまり、手話文の認識対象データとその正解の単語列)に対して、ωを0、0.1、0.2、…1.0のように一定間隔で変更しながら認識処理を行い、正解に近くなる最適な重みをグリッドサーチによって探索して決定する。そして本例では、この重みパラメータωを0.5としている。
【0044】
以上のようにして、文中の特定の単語だけではなく、文全体、すなわち「経路」のコストである「経路コスト」を算出する。そして、認識対象の文全体の認識精度を向上させることができる。
【0045】
ついで、このような経路コストを用いて認識対象の文の正解を効率的に探索する手法について説明する。すなわち、M
Nの多数の経路のうち前述した経路スコアが最大となる経路を効率的に探索する手法について説明する。この手法では、
図6に示すように、まず経路の途中における局所的なスコアを算出する。この局所的なスコア「局所スコア」は、以下のように定められる。各区間では、すべての単語候補について、隣接する区間の各単語候補の単語認識スコアと、当該隣接する区間の各単語候補から到達したときの,当該隣接する各単語語候補からの経路スコアの積を加算することで「局所スコア」を定める。そして、N×M個の全途中地点での局所スコアを算出する。なお、最初の区間はその前からの経路が計算できないため、その時点での単語認識スコアを局所スコアとして定める(初期値)。
【0046】
そして、
図7に示すように、上記の手順でN×M個の全ての単語候補で局所スコアを計算する。全ての単語候補について局所スコアを計算した後に、最後の区間(セグメント)において、同一区間(セグメント)内での局所スコアが最大となる単語候補を一つ選択する。そして、順次、一つ前の区間(セグメント)について同じ操作を繰り返す(バックトレース)。このようにして、各区間での最適(経路スコアが最大)な単語候補を選択し、これらの各区間において選択された候補の列が、最適な経路スコアを持つ単語の列であるものとして決定される。このようにして、M
N種類の単語の列(経路)の全てを探索する必要なく、N×M個の単語候補の局所コストを算出するだけで最適な経路を探索することができるので、認識精度の向上だけではなく、処理速度の著しい向上も図ることができる。
【0047】
本発明は前述の実施の形態に限られるものではなく、本発明の趣旨の範囲内で適宜変更することが可能である。例えば、文中の中間の区間の単語候補から、後方又は前方への局所コストを算出することも可能である。
【0048】
また、前述した例では、本単語決定システムは、手振り翻訳システムにおいて用いるものとしているが、他の種類のシステムにおける単語決定システムに用いることも可能である。例えば、音声による文章中の単語決定システムに利用することとしても良い。この場合には、単語認識スコアは、音声認識における評価によって決定される点で前述の例と異なる。また、メロディについての決定システムや、広く、記号列の順序関係に何らかの制約が含まれる時系列パターンの決定システムなどに用いても良い。
また、前述した例では、単語接続スコアについて前述した式2により決定したが、これに限らず、認識される単語と単語の間において想定される身体動作移行の「しやすさ」や身体動作移行の「変化の自然さ」を考慮した算出手法で決定するなど、他の手法により決定することも可能である。
また、前述した例では、単語接続スコアの重みづけのパラメータωを0.5としているが、0〜1.0の範囲内で他の重みづけの数値としても良い。より好ましくは、重みパラメータωは0.25〜0.75とすることが良い。この重みづけの値は、認識対象となる文章に用いられることの多い単語の種類、用いられる単語認識システムの精度、認識対象となる文章に用いられることの多い単語間の単語接続スコアの重要性などにより適宜変更することが望ましい。また、この重みパラメータωは、より文脈どおりに認識してほしい(=例外はあまり認めない、決まったパターンしか出てこない)と考えたシステムであれば大きい値とし、逆にあまり文脈に縛られない(崩れた文法でも認識できるようにする)ようにするには小さい値とするなどと適宜変更して良い。
また、前述の例では、単語認識スコアは、手の動き、手の位置及び手の形に基づくパターン認識に基づいて算出されるものとしているが、これに限らず他の要素を考慮して算出することとしても良い。