特許第5897725号(P5897725)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 楽天株式会社の特許一覧

特許5897725ユーザインタフェース装置、ユーザインタフェース方法、プログラム及びコンピュータ可読情報記憶媒体
<>
  • 特許5897725-ユーザインタフェース装置、ユーザインタフェース方法、プログラム及びコンピュータ可読情報記憶媒体 図000002
  • 特許5897725-ユーザインタフェース装置、ユーザインタフェース方法、プログラム及びコンピュータ可読情報記憶媒体 図000003
  • 特許5897725-ユーザインタフェース装置、ユーザインタフェース方法、プログラム及びコンピュータ可読情報記憶媒体 図000004
  • 特許5897725-ユーザインタフェース装置、ユーザインタフェース方法、プログラム及びコンピュータ可読情報記憶媒体 図000005
  • 特許5897725-ユーザインタフェース装置、ユーザインタフェース方法、プログラム及びコンピュータ可読情報記憶媒体 図000006
  • 特許5897725-ユーザインタフェース装置、ユーザインタフェース方法、プログラム及びコンピュータ可読情報記憶媒体 図000007
  • 特許5897725-ユーザインタフェース装置、ユーザインタフェース方法、プログラム及びコンピュータ可読情報記憶媒体 図000008
  • 特許5897725-ユーザインタフェース装置、ユーザインタフェース方法、プログラム及びコンピュータ可読情報記憶媒体 図000009
  • 特許5897725-ユーザインタフェース装置、ユーザインタフェース方法、プログラム及びコンピュータ可読情報記憶媒体 図000010
  • 特許5897725-ユーザインタフェース装置、ユーザインタフェース方法、プログラム及びコンピュータ可読情報記憶媒体 図000011
  • 特許5897725-ユーザインタフェース装置、ユーザインタフェース方法、プログラム及びコンピュータ可読情報記憶媒体 図000012
  • 特許5897725-ユーザインタフェース装置、ユーザインタフェース方法、プログラム及びコンピュータ可読情報記憶媒体 図000013
  • 特許5897725-ユーザインタフェース装置、ユーザインタフェース方法、プログラム及びコンピュータ可読情報記憶媒体 図000014
  • 特許5897725-ユーザインタフェース装置、ユーザインタフェース方法、プログラム及びコンピュータ可読情報記憶媒体 図000015
  • 特許5897725-ユーザインタフェース装置、ユーザインタフェース方法、プログラム及びコンピュータ可読情報記憶媒体 図000016
  • 特許5897725-ユーザインタフェース装置、ユーザインタフェース方法、プログラム及びコンピュータ可読情報記憶媒体 図000017
  • 特許5897725-ユーザインタフェース装置、ユーザインタフェース方法、プログラム及びコンピュータ可読情報記憶媒体 図000018
  • 特許5897725-ユーザインタフェース装置、ユーザインタフェース方法、プログラム及びコンピュータ可読情報記憶媒体 図000019
  • 特許5897725-ユーザインタフェース装置、ユーザインタフェース方法、プログラム及びコンピュータ可読情報記憶媒体 図000020
  • 特許5897725-ユーザインタフェース装置、ユーザインタフェース方法、プログラム及びコンピュータ可読情報記憶媒体 図000021
  • 特許5897725-ユーザインタフェース装置、ユーザインタフェース方法、プログラム及びコンピュータ可読情報記憶媒体 図000022
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5897725
(24)【登録日】2016年3月11日
(45)【発行日】2016年3月30日
(54)【発明の名称】ユーザインタフェース装置、ユーザインタフェース方法、プログラム及びコンピュータ可読情報記憶媒体
(51)【国際特許分類】
   G06F 3/01 20060101AFI20160317BHJP
   G06F 3/023 20060101ALI20160317BHJP
【FI】
   G06F3/01 570
   G06F3/023 340Z
【請求項の数】15
【全頁数】22
(21)【出願番号】特願2014-539803(P2014-539803)
(86)(22)【出願日】2013年10月3日
(86)【国際出願番号】JP2013076901
(87)【国際公開番号】WO2014054716
(87)【国際公開日】20140410
【審査請求日】2015年5月14日
(31)【優先権主張番号】61/709,199
(32)【優先日】2012年10月3日
(33)【優先権主張国】US
【早期審査対象出願】
(73)【特許権者】
【識別番号】399037405
【氏名又は名称】楽天株式会社
(74)【代理人】
【識別番号】110000154
【氏名又は名称】特許業務法人はるか国際特許事務所
(72)【発明者】
【氏名】益子 宗
(72)【発明者】
【氏名】萩原 正人
【審査官】 岩橋 龍太郎
(56)【参考文献】
【文献】 特開2011−258130(JP,A)
【文献】 国際公開第2011/024282(WO,A1)
【文献】 米国特許出願公開第2011/0041100(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 3/01− 3/048
G06F 3/14− 3/153
H03M 11/04−11/24
(57)【特許請求の範囲】
【請求項1】
複数文字のそれぞれを空中に書くジェスチャをした場合における所定の筆記位置の推移を示すテンプレートデータを記憶するテンプレートデータ記憶手段と、
ユーザが空中に文字を順に書くジェスチャをする場合に、前記所定の筆記位置を順次取得する位置取得手段と、
前記位置取得手段により前記所定の筆記位置が取得されるごとに、新しく取得されたものから順に所定数の前記所定の筆記位置からなる評価対象データと、前記各文字に係るテンプレートデータと、の類似度を示す類似度評価情報を順次出力する類似度評価情報出力手段と、
順次出力される前記各文字に係る前記類似度評価情報に基づいて文字判定期間を決定する期間決定手段と、
1つの文字についてのみ所定基準を満たす類似度評価情報が前記文字判定期間内に複数回連続して出力される場合に、該1つの文字を前記ユーザのジェスチャに係る文字列に含まれると判断する文字列決定手段と、
を含むことを特徴とするユーザインタフェース装置。
【請求項2】
複数文字のそれぞれを空中に書くジェスチャをした場合における所定の筆記位置の推移を示すテンプレートデータを記憶するテンプレートデータ記憶手段と、
ユーザが空中に文字を順に書くジェスチャをする場合に、前記所定の筆記位置を順次取得する位置取得手段と、
前記位置取得手段により前記所定の筆記位置が取得されるごとに、新しく取得されたものから順に所定数の前記所定の筆記位置からなる評価対象データと、前記各文字に係るテンプレートデータと、の類似度を示す類似度評価情報を順次出力する類似度評価情報出力手段と、
順次出力される前記各文字に係る前記類似度評価情報に基づいて文字判定期間を決定する期間決定手段と、
前記文字列判定期間内において、所定基準を満たす類似度評価情報が連続して出力される期間が重複する複数の文字があると判断される場合に、前記ユーザのジェスチャに係る文字列に、それら複数の文字のうちいずれかが択一的に含まれると判断する文字列決定手段と、
を含むことを特徴とするユーザインタフェース装置。
【請求項3】
請求項2に記載のユーザインタフェース装置において、
前記文字列決定手段は、互いに関連する関連文字を記憶し、前記文字列判定期間内において、前記所定基準を満たす類似度評価情報が連続して出力される期間が重複する複数の文字があると判断される場合に、それら複数の文字が前記関連文字であれば、予め定められたそのうち1つを前記ユーザのジェスチャに係る文字列に含まれると判断する、
ことを特徴とするユーザインタフェース装置。
【請求項4】
複数文字のそれぞれを空中に書くジェスチャをした場合における所定の筆記位置の推移を示すテンプレートデータを記憶するテンプレートデータ記憶手段と、
ユーザが空中に文字を順に書くジェスチャをする場合に、前記所定の筆記位置を順次取得する位置取得手段と、
前記位置取得手段により前記所定の筆記位置が取得されるごとに、新しく取得されたものから順に所定数の前記所定の筆記位置からなる評価対象データと、前記各文字に係るテンプレートデータと、の類似度を示す類似度評価情報を順次出力する類似度評価情報出力手段と、
順次出力される前記各文字に係る前記類似度評価情報に基づいて、前記ユーザのジェスチャに係る文字列を決定する文字列決定手段と、を含み、
前記位置取得手段は、前記所定の筆記位置の3次元座標を順次取得し、そのうち少なくとも3つにより定まる平面に対する投影位置を示す2次元座標を順次取得する、
ことを特徴とするユーザインタフェース装置。
【請求項5】
複数文字のそれぞれを空中に書くジェスチャをした場合における所定の筆記位置の推移を示すテンプレートデータを記憶するテンプレートデータ記憶手段と、
ユーザが空中に文字を順に書くジェスチャをする場合に、前記所定の筆記位置を順次取得する位置取得手段と、
前記位置取得手段により前記所定の筆記位置が取得されるごとに、新しく取得されたものから順に所定数の前記所定の筆記位置からなる評価対象データと、前記各文字に係るテンプレートデータと、の類似度を示す類似度評価情報を順次出力する類似度評価情報出力手段と、
順次出力される前記各文字に係る前記類似度評価情報に基づいて、何らかの文字が検出され、どの文字も検出されなくなるまでの期間である、文字判定期間を決定する期間決定手段と、
所定基準を満たす前記類似度評価情報が前記文字判定期間内に出力される複数の文字のうち、それらの文字の検出パターンに応じて、1以上を前記ユーザのジェスチャに係る文字列に含まれる文字として決定する文字列決定手段と、
を含むことを特徴とするユーザインタフェース装置。
【請求項6】
請求項1乃至5のいずれかに記載のユーザインタフェース装置において、
前記文字列決定手段は、
順次出力される類似度評価情報に基づいて選択される文字を連結してなる一次文字列を複数決定する手段と、
前記複数の一次文字列のそれぞれに基づいて、前記ユーザのジェスチャに係る文字列の候補を1以上決定する手段と、
前記各候補の評価値である候補評価値を、該候補に対応する前記一次文字列に含まれる文字に係る類似度評価値に基づいて算出する手段と、
算出される候補評価値に基づいて、前記ユーザのジェスチャに係る1以上の文字列を出力する手段と、
を含むことを特徴とするユーザインタフェース装置。
【請求項7】
ユーザが空中に文字を順に書くジェスチャをする場合に、所定の筆記位置を順次取得する位置取得ステップと、
前記位置取得ステップで前記所定の筆記位置が取得されるごとに、複数文字のそれぞれを空中に書くジェスチャをした場合における前記所定の筆記位置の推移を示すテンプレートデータを記憶するテンプレートデータ記憶手段を参照して、新しく取得されたものから順に所定数の前記所定の筆記位置からなる評価対象データと、前記各文字に係るテンプレートデータと、の類似度を示す類似度評価情報を順次出力する類似度評価情報出力ステップと、
順次出力される前記各文字に係る前記類似度評価情報に基づいて文字判定期間を決定する期間決定ステップと、
1つの文字についてのみ所定基準を満たす類似度評価情報が前記文字判定期間内に複数回連続して出力される場合に、該1つの文字を前記ユーザのジェスチャに係る文字列に含まれると判断する文字列決定ステップと、
を含むことを特徴とするユーザインタフェース方法。
【請求項8】
ユーザが空中に文字を順に書くジェスチャをする場合に、所定の筆記位置を順次取得する位置取得ステップと、
前記位置取得ステップで前記所定の筆記位置が取得されるごとに、複数文字のそれぞれを空中に書くジェスチャをした場合における前記所定の筆記位置の推移を示すテンプレートデータを記憶するテンプレートデータ記憶手段を参照して、新しく取得されたものから順に所定数の前記所定の筆記位置からなる評価対象データと、前記各文字に係るテンプレートデータと、の類似度を示す類似度評価情報を順次出力する類似度評価情報出力ステップと、
順次出力される前記各文字に係る前記類似度評価情報に基づいて文字判定期間を決定する期間決定ステップと、
前記文字列判定期間内において、所定基準を満たす類似度評価情報が連続して出力される期間が重複する複数の文字があると判断される場合に、前記ユーザのジェスチャに係る文字列に、それら複数の文字のうちいずれかが択一的に含まれると判断する文字列決定ステップと、
を含むことを特徴とするユーザインタフェース方法。
【請求項9】
ユーザが空中に文字を順に書くジェスチャをする場合に、所定の筆記位置を順次取得する位置取得ステップと、
前記位置取得ステップで前記所定の筆記位置が取得されるごとに、複数文字のそれぞれを空中に書くジェスチャをした場合における前記所定の筆記位置の推移を示すテンプレートデータを記憶するテンプレートデータ記憶手段を参照して、新しく取得されたものから順に所定数の前記所定の筆記位置からなる評価対象データと、前記各文字に係るテンプレートデータと、の類似度を示す類似度評価情報を順次出力する類似度評価情報出力ステップと、
順次出力される前記各文字に係る前記類似度評価情報に基づいて、前記ユーザのジェスチャに係る文字列を決定する文字列決定ステップと、を含み、
前記位置取得ステップは、前記所定の筆記位置の3次元座標を順次取得し、そのうち少なくとも3つにより定まる平面に対する投影位置を示す2次元座標を順次取得する、
ことを特徴とするユーザインタフェース方法。
【請求項10】
ユーザが空中に文字を順に書くジェスチャをする場合に、所定の筆記位置を順次取得する位置取得ステップと、
前記位置取得ステップで前記所定の筆記位置が取得されるごとに、複数文字のそれぞれを空中に書くジェスチャをした場合における前記所定の筆記位置の推移を示すテンプレートデータを記憶するテンプレートデータ記憶手段を参照して、新しく取得されたものから順に所定数の前記所定の筆記位置からなる評価対象データと、前記各文字に係るテンプレートデータと、の類似度を示す類似度評価情報を順次出力する類似度評価情報出力ステップと、
順次出力される前記各文字に係る前記類似度評価情報に基づいて、何らかの文字が検出され、どの文字も検出されなくなるまでの期間である、文字判定期間を決定する期間決定ステップと、
所定基準を満たす前記類似度評価情報が前記文字判定期間内に出力される複数の文字のうち、それらの文字の検出パターンに応じて、1以上を前記ユーザのジェスチャに係る文字列に含まれる文字として決定する文字列決定ステップと、
を含むことを特徴とするユーザインタフェース方法。
【請求項11】
複数文字のそれぞれを空中に書くジェスチャをした場合における所定の筆記位置の推移を示すテンプレートデータを記憶するテンプレートデータ記憶手段、
ユーザが空中に文字を順に書くジェスチャをする場合に、前記所定の筆記位置を順次取得する位置取得手段、
前記位置取得手段により前記所定の筆記位置が取得されるごとに、新しく取得されたものから順に所定数の前記所定の筆記位置からなる評価対象データと、前記各文字に係るテンプレートデータと、の類似度を示す類似度評価情報を順次出力する類似度評価情報出力手段、
順次出力される前記各文字に係る前記類似度評価情報に基づいて文字判定期間を決定する期間決定手段、及び
1つの文字についてのみ所定基準を満たす類似度評価情報が前記文字判定期間内に複数回連続して出力される場合に、該1つの文字を前記ユーザのジェスチャに係る文字列に含まれると判断する文字列決定手段
としてコンピュータを機能させるためのプログラム。
【請求項12】
複数文字のそれぞれを空中に書くジェスチャをした場合における所定の筆記位置の推移を示すテンプレートデータを記憶するテンプレートデータ記憶手段、
ユーザが空中に文字を順に書くジェスチャをする場合に、前記所定の筆記位置を順次取得する位置取得手段、
前記位置取得手段により前記所定の筆記位置が取得されるごとに、新しく取得されたものから順に所定数の前記所定の筆記位置からなる評価対象データと、前記各文字に係るテンプレートデータと、の類似度を示す類似度評価情報を順次出力する類似度評価情報出力手段、
順次出力される前記各文字に係る前記類似度評価情報に基づいて文字判定期間を決定する期間決定手段、及び
前記文字列判定期間内において、所定基準を満たす類似度評価情報が連続して出力される期間が重複する複数の文字があると判断される場合に、前記ユーザのジェスチャに係る文字列に、それら複数の文字のうちいずれかが択一的に含まれると判断する文字列決定手段
としてコンピュータを機能させるためのプログラム。
【請求項13】
複数文字のそれぞれを空中に書くジェスチャをした場合における所定の筆記位置の推移を示すテンプレートデータを記憶するテンプレートデータ記憶手段、
ユーザが空中に文字を順に書くジェスチャをする場合に、前記所定の筆記位置を順次取得する位置取得手段、
前記位置取得手段により前記所定の筆記位置が取得されるごとに、新しく取得されたものから順に所定数の前記所定の筆記位置からなる評価対象データと、前記各文字に係るテンプレートデータと、の類似度を示す類似度評価情報を順次出力する類似度評価情報出力手段、
順次出力される前記各文字に係る前記類似度評価情報に基づいて、前記ユーザのジェスチャに係る文字列を決定する文字列決定手段
としてコンピュータを機能させるためのプログラムであって、
前記位置取得手段は、前記所定の筆記位置の3次元座標を順次取得し、そのうち少なくとも3つにより定まる平面に対する投影位置を示す2次元座標を順次取得する、プログラム。
【請求項14】
複数文字のそれぞれを空中に書くジェスチャをした場合における所定の筆記位置の推移を示すテンプレートデータを記憶するテンプレートデータ記憶手段、
ユーザが空中に文字を順に書くジェスチャをする場合に、前記所定の筆記位置を順次取得する位置取得手段、
前記位置取得手段により前記所定の筆記位置が取得されるごとに、新しく取得されたものから順に所定数の前記所定の筆記位置からなる評価対象データと、前記各文字に係るテンプレートデータと、の類似度を示す類似度評価情報を順次出力する類似度評価情報出力手段、
順次出力される前記各文字に係る前記類似度評価情報に基づいて、何らかの文字が検出され、どの文字も検出されなくなるまでの期間である、文字判定期間を決定する期間決定手段、及び
所定基準を満たす前記類似度評価情報が前記文字判定期間内に出力される複数の文字のうち、それらの文字の検出パターンに応じて、1以上を前記ユーザのジェスチャに係る文字列に含まれる文字として決定する文字列決定手段
としてコンピュータを機能させるためのプログラム。
【請求項15】
請求項11乃至14のいずれかに記載のプログラムを格納したコンピュータ可読情報記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明はユーザインタフェース装置、ユーザインタフェース方法、プログラム及びコンピュータ可読情報記憶媒体に関し、特に、空中に手書きジェスチャを行うことで文字入力するユーザインタフェース技術に関する。
【背景技術】
【0002】
空中に手書きジェスチャを行うことで文字入力するシステムが検討されている(下記非特許文献1参照)。このシステムでは、ユーザがウェアラブルカメラを頭部に装着し、眼前にて指で空中に1つの文字を書く動作を行うと、手の動きが解析され、解析結果から文字が特定される。またこのシステムでは、文字を書き始めるタイミング及び書き終わったタイミングにおいて、システムに対して明示的な操作を行って、文字認識の対象を明確化する必要がある。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】園田智也,村岡洋一,「空中での手書き文字入力システム」,電子情報通信学会論文誌,一般社団法人電子情報通信学会,2003年7月1日,D-II J86-D-II(7),p. 1015-1025
【発明の概要】
【発明が解決しようとする課題】
【0004】
上述のように従来技術では、1文字入力する毎に入力開始及び入力終了をシステムに対して知らせる必要がある。このため、入力操作が煩雑であり、複数の文字からなる語や文を入力するのに適さないという問題がある。
【0005】
本発明は上記課題に鑑みてなされたものであって、その目的は、空中に手書きジェスチャを行うことにより複数の文字を簡単に入力することができるユーザインタフェース装置、ユーザインタフェース方法、プログラム及びコンピュータ可読情報記憶媒体を提供することにある。
【課題を解決するための手段】
【0006】
上記課題を解決するために、本発明に係るユーザインタフェース装置は、複数文字のそれぞれを空中に書くジェスチャをした場合における所定の筆記位置の推移を示すテンプレートデータを記憶するテンプレートデータ記憶手段と、ユーザが空中に文字を順に書くジェスチャをする場合に、前記所定の筆記位置を順次取得する位置取得手段と、前記位置取得手段により前記所定の筆記位置が取得されるごとに、新しく取得されたものから順に所定数の前記所定の筆記位置からなる評価対象データと、前記各文字に係るテンプレートデータと、の類似度を示す類似度評価情報を順次出力する類似度評価情報出力手段と、順次出力される前記各文字に係る前記類似度評価情報に基づいて、前記ユーザのジェスチャに係る文字列を決定する文字列決定手段と、を含む。
【0007】
また、本発明の一態様では、順次出力される前記各文字に係る前記類似度評価情報に基づいて文字判定期間を決定する期間決定手段を含んでよい。また、前記文字列決定手段は、所定基準を満たす前記類似度評価情報が前記文字判定期間内に出力される文字のうち、1以上を前記ユーザのジェスチャに係る文字列に含まれる文字として決定してよい。
【0008】
この場合、前記文字列決定手段は、1つの文字についてのみ前記所定基準を満たす類似度評価情報が前記文字判定期間内に複数回連続して出力される場合に、該1つの文字を前記ユーザのジェスチャに係る文字列に含まれると判断してよい。
【0009】
また、前記文字列決定手段は、前記文字列判定期間内において、前記所定値基準を満たす類似度評価情報が連続して出力される期間が重複する複数の文字があると判断される場合に、前記ユーザのジェスチャに係る文字列に、それら複数の文字のうちいずれかが択一的に含まれると判断してよい。
【0010】
また、前記文字列決定手段は、互いに関連する関連文字を記憶してよい。そして、前記文字列判定期間内において、前記所定基準を満たす類似度評価情報が連続して出力される期間が重複する複数の文字があると判断される場合に、それら複数の文字が前記関連文字であれば、予め定められたそのうち1つを前記ユーザのジェスチャに係る文字列に含まれると判断してよい。
【0011】
また、前記位置取得手段は、前記所定の筆記位置の3次元座標を順次取得し、そのうち少なくとも3つにより定まる平面に対する投影位置を示す2次元座標を順次取得してよい。
【0012】
また、前記文字列決定手段は、順次出力される類似度評価情報に基づいて選択される文字を連結してなる一次文字列を複数決定する手段と、前記複数の一次文字列のそれぞれに基づいて、前記ユーザのジェスチャに係る文字列の候補を1以上決定する手段と、前記各候補の評価値である候補評価値を、該候補に対応する前記一次文字列に含まれる文字に係る類似度評価値に基づいて算出する手段と、算出される候補評価値に基づいて、前記ユーザのジェスチャに係る1以上の文字列を出力する手段と、を含んでよい。
【0013】
また、本発明に係るユーザインタフェース方法は、ユーザが空中に文字を順に書くジェスチャをする場合に、所定の筆記位置を順次取得する位置取得ステップと、前記位置取得ステップで前記所定の筆記位置が取得されるごとに、複数文字のそれぞれを空中に書くジェスチャをした場合における前記所定の筆記位置の推移を示すテンプレートデータを記憶するテンプレートデータ記憶手段を参照して、新しく取得されたものから順に所定数の前記所定の筆記位置からなる評価対象データと、前記各文字に係るテンプレートデータと、の類似度を示す類似度評価情報を順次出力する類似度評価情報出力ステップと、順次出力される前記各文字に係る前記類似度評価情報に基づいて、前記ユーザのジェスチャに係る文字列を決定する文字列決定ステップと、を含む。
【0014】
また、本発明に係るプログラムは、複数文字のそれぞれを空中に書くジェスチャをした場合における所定の筆記位置の推移を示すテンプレートデータを記憶するテンプレートデータ記憶手段、ユーザが空中に文字を順に書くジェスチャをする場合に、前記所定の筆記位置を順次取得する位置取得手段、前記位置取得手段により前記所定の筆記位置が取得されるごとに、新しく取得されたものから順に所定数の前記所定の筆記位置からなる評価対象データと、前記各文字に係るテンプレートデータと、の類似度を示す類似度評価情報を順次出力する類似度評価情報出力手段、及び順次出力される前記各文字に係る前記類似度評価情報に基づいて、前記ユーザのジェスチャに係る文字列を決定する文字列決定手段としてコンピュータを機能させるためのプログラムである。このプログラムはコンピュータ可読情報記憶媒体に格納されてよい。
【図面の簡単な説明】
【0015】
図1】本発明の実施形態に係るユーザインタフェース装置の外観斜視図である。
図2】画面に表示されるユーザインタフェース画像の一例を示す図である。
図3】本発明の実施形態に係るユーザインタフェース装置の機能ブロック図である。
図4】文字認識処理を示すフロー図である。
図5】手の軌跡を示す3次元座標列の計測を説明する図である。
図6】3次元座標列の投影を示す図である。
図7】投影面に投影された手の軌跡を示す図である。
図8】投影面の変形例を示す図である。
図9】文字のテンプレートの一例を示す図である。
図10】DPマッチングに用いるコストテーブルの一例を模式的に示す図である。
図11】DPマッチングを説明する図である。
図12】入力データと各文字のテンプレートとの類似度評価値の推移を示す図である。
図13】候補文字の判定基準を説明する図である。
図14】文字認識部から出力される候補文字データを示す図である。
図15】基本辞書を示す図である。
図16】文字変換テーブルを示す図である。
図17】変換済み辞書を示す図である。
図18】変換処理を示すフロー図である。
図19】変換語候補のグラフ構造を示す図である。
図20】ユーザインタフェース処理を示すフロー図である。
図21】腕の長さを入力するためのユーザインタフェース画面の一例を示す図である。
【発明を実施するための形態】
【0016】
以下、本発明の実施形態について図面に基づき詳細に説明する。
【0017】
図1は、本発明の実施形態に係るユーザインタフェース装置の外観斜視図である。同図に示されるように、ユーザインタフェース装置10は、テレビ受像機やパーソナルコンピュータ用モニタなどの表示装置12と、空間計測装置14と、本体16と、を含んでいる。本体16はパーソナルコンピュータやコンピュータゲームシステムなどのコンピュータであり、表示装置12及び空間計測装置14が接続されている。
【0018】
空間計測装置14は、正面をリアルタイムに撮像し、2次元画像を取得する動画カメラとしての機能と、動画カメラにより映し出される2次元画像(フレーム画像)の各位置までの距離の情報(距離画像)を取得する距離センサ(デプスセンサ)としての機能と、を有している。距離センサは、例えば正面側に特定の2次元パターンの赤外光を照射し、それを赤外線カメラで撮影し、映し出される2次元パターンと元の2次元パターンとの相違から、正面を映し出した画像の各位置までの距離を計算するものであってよい。或いは、距離センサからレーザ光を出射し、レーザ光が正面の物体により反射され、再び距離センサまで戻ってくるまでの時間を計測して、その時間から距離をしてもよい。この場合、レーザ光を走査すれば、広範囲について距離情報を得ることができる。他にも、種々の方式の距離センサが知られており、これらを適宜採用することができる。空間計測装置14は、上記2つの機能により、正面を映し出した動画像と、動画像を構成するフレーム画像に表れた各位置の3次元座標の情報(距離画像)と、を取得できる。
【0019】
空間計測装置14は、表示装置12の上に、表示装置12の表示面が向く方向に向けて配置されている。ユーザUが表示装置12の前に立つか、又は座って、空中で文字を書く動作(ジェスチャ)をすれば、その様子を示す動画像及び距離画像が本体16に入力される。本体16では、これら動画像及び距離画像から、後述のようにユーザUの利き手(ここでは右手とする)の位置の3次元座標列を認識するようになっており、その手の位置の軌跡18に基づいて、ユーザが書いた文字が認識される。
【0020】
図2は、表示装置12の画面に映し出されるユーザインタフェース画像の一例を示している。同図に示されるように、画面には空間計測装置14で撮影された動画像を左右反転させた動画像(鏡像)が背景として全面に表示されている。ここでは動画像にユーザUが映し出されている。
【0021】
ユーザUの利き手側の肩、すなわち右肩(基準部位)が映し出された位置22を中心とした仮想的な円26(不可視)の周上には、変換文字列の候補を示す選択候補画像(選択要素)20が略等間隔に配置されており、ユーザUはそれらのうち1つに右手の表示位置を重ねることにより、当該1つの選択候補画像20が示す変換文字列を選択することができる。選択された変換文字列は、例えば他のプログラムに渡され、検索キーワードなどとして用いられたり、メールなどのコミュニケーションツールの送信メッセージに用いられたりする。なお、選択要素としては、上記のような変換文字列の候補を示すものに限らず、他の文字列を示す画像やテキストデータそのものであってもよい。或いは、電子商取引サイトで取り扱う商品などの写真画像であってもよい。円26の外側には、さらに入力済みの文字を削除するためのバックスペースボタンの画像など、特定機能を発動するためのボタン画像28が配置されている。ユーザUは、ボタン画像28に右手を重ねることにより、特定機能を発動させることができる。ここで、円26の径は、ユーザUの腕が画面に表示されたときの長さを基準に、例えばその8割と決定されてよい。或いは、平均的な人の腕が画面に表示されたときの長さを基準として、例えばその8割と決定されてもよい。
【0022】
また、円26の内側には、ユーザUが利き手で文字を書く動作をする領域(空書領域)が設定されている。この空書領域は円形領域であってよい。また、該円形領域は円26と同心であってよく、また、円26より小径であってよい。ユーザUは、自分の右手が映し出された位置24が空書領域内に収まるようにして、右手で任意の文字を書く。右手の位置24の所定時間ごとに本体16で認識されており、新しく認識されたものから順に所定数の位置は、画面に丸印等の識別画像により表示される(図中黒丸)。なお、空所領域から右手の位置24が出た場合には、認識された位置24に基づく文字の認識処理を停止してよい。こうすれば、ユーザUが選択候補画像20に右手を重ねる動きを、文字を書く動きと認識せずに済み、処理効率を向上させることができる。
【0023】
同図に示されるユーザインタフェースによれば、左右反転したユーザUの画像を表示しつつ、利き手の位置24の軌跡が丸印等の画像群により示されるので、ユーザUは自分が空書領域にどのような文字を書いているかを、画面内容から容易に理解できる。また、ユーザUは腕を伸ばさないと、自分の利き手の位置24を選択項目画像20やボタン画像28に重ねられないので、文字を書いている途中に誤って選択項目画像20やボタン画像28を選択してしまうことが無くなる。
【0024】
なお、本体16では、空間計測装置14により取得された動画像及び距離画像に基づき、動画像に表れた人の主要部位の3次元位置座標を計算する。動画像及び距離画像から人の主要部位(左右の肩及び手の位置を含む。)の3次元位置座標を計算するには、例えば動画像に表れた人の主要部位を認識し、その3次元座標を動画像及び距離画像から取得する。また、動画像に表れない部位については、時間的に前後する動画像及び距離画像から補間したり、同部位に連結された部位の3次元位置座標から推定したりできる。この計算結果は、例えばマイクロソフトコーポレーションのキネクト(商標)を用いることで、容易に利用できる。そして、認識された位置を、空間計測装置14の正面に仮想的に配置される投影面に投影することにより、利き手側の肩の位置22及び利き手の位置24を取得する。
【0025】
なお、ここではユーザUの右手を、文字を書くジェスチャを書く際の筆記部位や、選択項目画像20を選択するための選択部位とし、その位置24を筆記位置や選択位置としたが、ユーザUの利き手が左の場合には、左手を筆記部位や選択部位とし、左手の位置を筆記位置や選択位置としてよい。また、手以外にも、指などの他の体の部位を筆記部位や選択部位としてよい。また、以上の説明では利き手の位置を選択位置とし、利き手側の肩を基準部位としたが、選択位置よりも体幹側であって、選択位置を動かすための関節が存在する部位を、選択位置の種類に応じて基準部位として適宜選択してよい。例えば、指先の位置を選択位置とし、手首を基準部位としてよい。また、手が表示される位置の認識は、以上の方法に限らない。例えば、特定色の手袋をユーザUが装着し、該特定色の位置を筆記位置や選択位置として動画像から認識してよい。また、手で直接文字を書いたり選択項目画像20を選択しなくても、何らかの物体(筆記具に似せた棒状の物体など)で文字を書いたり選択項目画像20を選択するようにしてよい。この場合、当該物体の先端位置が筆記位置や選択位置となる。例えば、特定色及び/又は特定形状の物体を手に持ってユーザUが文字を書く場合には、色又は形状を頼りに当該物体の先端の表示位置を筆記位置や選択位置として認識してよい。こうした場合、空間計測装置14は必ずしも必要無く、動画カメラで代用できる。
【0026】
図3は、ユーザインタフェース装置10の機能ブロック図である。同図に示されるように、ユーザインタフェース装置10は、モーション取得部30、文字認識部32、変換部34、ユーザインタフェース部36、アプリケーション部38、文字テンプレート記憶部40、コストテーブル記憶部42、基本辞書記憶部44、変換済み辞書記憶部46及び文字変換テーブル記憶部48を含んでいる。これらの要素は、本体16に本発明の実施形態に係るプログラムが実行されることにより実現される。このプログラムは、CD−ROMやDVD−ROMなどのコンピュータ可読情報記憶媒体に格納され、そこから本体16にインストールされてもよいし、インターネットなどの情報通信ネットワークを介して本体16にダウンロードされ、インストールされてもよい。
【0027】
モーション取得部30は、空間計測装置14からユーザUの動画像及び距離画像を取得する。また、それら画像に基づいて、ユーザUの利き手側の肩及び利き手の3次元座標を計算する。
【0028】
文字認識部32は、ユーザの利き手の3次元座標に基づき、ユーザUが書く文字を順次認識する。変換部34は、文字認識部32により順次認識される文字を順次文字列(単語や文)に変換する。ユーザインタフェース部36は、図2に示されるユーザインタフェース画像を表示装置12の画面に表示する。このため、変換部34により変換された文字列を取得し、それを選択候補画像20として表示する。また、モーション取得部30により取得される動画像を背景として表示するとともに、ユーザUの利き手の位置を表示する。さらに、利き手の位置が選択候補画像20の位置から所定距離内にある場合には、同選択候補画像20に対応する変換文字列が選択されたことをアプリケーション部38に通知する。
【0029】
アプリケーション部38は、ユーザインタフェース部36から通知される変換文字列に基づき、所定の情報処理を実行する。この情報処理は、どのような処理であってもよいが、例えば通知される変換文字列を検索キーとしてデータベースから情報を検索する処理や、通知される変換文字列に基づいて送信メッセージを生成する処理であってよい。
【0030】
文字テンプレート記憶部40及びコストテーブル記憶部42は、後述する文字テンプレート(図9参照)及びコストテーブル(図10参照)をそれぞれ記憶する。これらは、文字認識部32における文字認識処理に用いられる。また、基本辞書記憶部44、変換済み辞書記憶部46及び文字変換テーブル記憶部48は、後述する基本辞書(図15参照)、変換済み辞書(図17参照)及び文字変換テーブル(図16参照)をそれぞれ記憶する。これらは、変換部34における変換処理に用いられる。
【0031】
ここで、文字認識部34による文字認識処理を詳細に説明する。図4は、文字認識部34よる文字認識処理を示すフロー図であり、同図に示される処理は所定時間ごとに実行される。同図に示されるように、まず文字認識部34はモーション取得部30により取得される最新の利き手の3次元位置座標を取得する(S101)。次に、S101で取得した3次元位置座標を所定の投影面に投影する(S102)。具体的には、図5に示されるように、ユーザUの利き手の3次元位置の軌跡18が存在する空間領域と、空間計測装置14の位置と、の間に投影面50が設定される。投影面50は、空間計測装置14の正面方向と垂直に予め設けられ、左右方向にX軸が設定され、上下方向にY軸が設定される。そして、図6に示されるように、S101で取得されたユーザUの利き手の3次元位置52は、投影面50に垂直投影される。図7は、投影面50に投影された、ユーザUの利き手の位置の軌跡18の一例を示しており、同図にはユーザUが空所領域に「R」の文字を書いた場合の投影面50が示されている。
【0032】
なお、ここでは図5に示されるように、空間計測装置14の前方に、該空間計測方向14の正面方向と垂直となるよう投影面50が設定されるようにしたが、ユーザUが空間計測装置14に正しく向かって字を書くとは限らない。例えば、ユーザUが横を向いて字を書くと、投影面50に投影された利き手の位置の軌跡18は、左右に縮小されてしまい、どの文字をユーザUが書いたかを判別するのが困難となる。
【0033】
そこで、図8に示されるように、ユーザUの利き手の軌跡18を構成する3次元位置52のうち、3以上を選択し、それらの3次元位置52から決まる平面を投影面50aとしてもよい。この場合、投影面50aは空間計測装置14の正面方向と垂直に設定されるとは限らない。投影面50aは、選択された3次元位置52の全ての座標を含む平面であってもよいし、選択された3次元位置52の平均などの統計的位置を含む平面であってよい。或いは、それら平面に平行な平面であってよい。また、選択される3次元位置52は、軌跡18からランダムに選択されてもよいし、取得された時間が所定時間間隔となるように選択されてもよい。或いは、選択される3次元位置52の間の距離ができるだけ大きくなるように、互いの距離に従って選択されてもよい。さらに、軌跡18における特徴点を通過する平面を投影面50aとしてもよい。特徴点は、軌跡18の各部の曲率に基づいて判断してよい。或いは、ハフ変換を用いて、軌跡における特徴点を通過する平面を投影面50aとして算出してもよい。このようにすれば、ユーザUがどのような方向を向いて字を書いても、正しく文字を認識することができる。
【0034】
図4に戻り、文字認識部34は、次に各時刻における投影後の位置座標から、直前に取得された投影後の位置座標を減算し、ユーザUが文字を書く位置の移動方向を示すベクトルデータを得る。さらに、このベクトルデータを9種類の方向のうちいずれかに分類することにより、方向分類データを得る(S103)。すなわち、ベクトルデータの大きさが所定値未満であれば、移動していない旨を示すベクトルデータであると分類し、同分類を示す方向分類データを割り当てる。この分類を添付図面では点(・)で示す。また、ベクトルデータの大きさが所定値以上であれば、ベクトルデータの向きにより8方向のいずれかを示すベクトルデータであると分類する。すなわち、ベクトルデータの方向が、上方向(Y方向)を基準として−23度以上+22度未満であれば、上方向を示すベクトルデータであると分類し、同分類を示す方向分類データを割り当てる。この分類を添付図面では上方向の矢印で示す。+22度以上+67度未満であれば、右斜め上方向を示すベクトルデータであると分類し、同分類を示す方向分類データを割り当てる。この分類を添付図面では右斜め上方向の矢印で示す。+67度以上+112度未満であれば、右方向を示すベクトルデータであると分類し、同分類を示す方向分類データを割り当てる。この分類を添付図面では右方向の矢印で示す。+112度以上+157度未満であれば、右斜め下方向を示すベクトルデータであると分類し、同分類を示す方向分類データを割り当てる。この分類を添付図面では右斜め下方向の矢印で示す。+157度以上+202度未満であれば、下方向を示すベクトルデータであると分類し、同分類を示す方向分類データを割り当てる。この分類を添付図面では下方向の矢印で示す。+202度以上+247度未満であれば、左斜め下方向を示すベクトルデータであると分類し、同分類を示す方向分類データを割り当てる。この分類を添付図面では左斜め下方向の矢印で示す。+247度以上+292度未満であれば、左方向を示すベクトルデータであると分類し、同分類を示す方向分類データを割り当てる。この分類を添付図面では左方向の矢印で示す。+292度以上+337度未満であれば、左斜め上方向を示すベクトルデータであると分類し、同分類を示す方向分類データを割り当てる。この分類を添付図面では左斜め上方向の矢印で示す。
【0035】
次に、最新の方向分類データを一端とする、所定数の時間的に連続する方向分類データからなる入力データ(評価対象データ)と、各文字のテンプレートと、の類似度評価値(類似度評価情報)を計算する。なお、文字認識処理の開始時には、所定数の時間的に連続する方向分類データが存在しないが、その場合にはS104以降の処理は実行せず、処理を終了する。
【0036】
類似度評価値の計算のため、文字テンプレート記憶部40には、図9に模式的に示されるテンプレートのデータが全ての文字(ここでは、アルファベット23文字、0から9までの数字、長音を示すハイフン(「−」)の合計34種の文字)について記憶されている。テンプレートは、各文字を空中に書く動作をした場合の利き手の位置の推移を示しており、図9に示されるように、上述した方向分類データを時間順に並べたものとなっている。各文字のテンプレートは、標準的な体格を有する者が空中で該文字を書く動作を行い、それに対してS101乃至S103の処理を所定時間ごとに繰り返して適用することにより容易に得ることができる。なお、テンプレートは各文字について複数用意されてもよい。
【0037】
また、コストテーブル記憶部42には、図10に模式的に示されるコストテーブルのデータが記憶されているコストテーブルは、方向分類データ間のコスト(かい離度)を示しており、ここでは、同じ方向分類データ間のコストは0であり、隣り合う方向を示す方向分類データ間のコストは1であり、90度以上135度以下のずれで異なる方向を示す方向分類データ間のコストは2であり、反対方向を示す方向分類データ間のコストは3である。また、移動していない旨の方向分類データ(・)と他の種類の方向分類データとの間のコストは、いずれも1である。類似度評価値の計算のため、文字認識部12はこれらのデータにアクセスすることができるようになっている。
【0038】
DPマッチングでは、概念的には、図11に示されるように、入力データを構成する方向分類データを横軸に時刻順に並べられるとともに、任意の1文字のテンプレートデータを構成する方向分類データも同様に縦軸に時刻順に並べられたマトリックスが用意される。そして、入力データを構成する方向分類データと、テンプレートデータを構成する方向分類データとのすべての組み合わせに対し、コストテーブルからコストを読み出し、図11に示されるマトリックスにおける、対応するマトリックス要素にそれぞれ格納する。その後、入力データを構成する方向分類データのうち最も遅い(新しい)時刻に取得された方向分類データと、テンプレートデータを構成する方向分類データのうち最も遅い時刻に取得された方向分類データの組に対応するマトリックス要素(図中右下)を注目要素とし、そこに格納されたコスト(ここでは0)を取得する。次に、同マトリックス要素の上、左斜め上、左のいずれかにあるマトリックス要素に注目要素を推移させ、そこに格納されたコストを取得するとともに、既に取得されたコストに加算する。こうして、注目要素を、最上行のマトリックス要素、すなわち、テンプレートを構成する方向分類データのうち時間的に最も早い(古い)時刻に取得された方向分類データに対応するマトリックス要素まで移動させ、コストの総和を得る。このとき、複数の注目要素の経路のうち、コストの総和を最小化するよう経路を選択する。そして、同経路のコストの総和(つまりコストの総和の最小値)を、入力データと当該文字のテンプレートの類似度評価値とする。なお、ここでは類似度評価値の値が小さいほど類似していることとなる。文字認識部12では、図4のS101において、入力データと各文字のテンプレートとの類似度評価値を上述のようにして計算する。上述のDPマッチングによれば、テンプレートを生成した際の文字を書くスピードと、ユーザUが文字を書くスピードと、にずれがある場合にも、適切に文字認識することができる。
【0039】
文字認識部12では、次に所定値以下の類似度評価値のテンプレートが存在するか否かを判断する(S105)。そして、そのようなテンプレートが存在すれば、同テンプレートに対応する文字及び類似度評価値を本体のメモリに用意されたバッファに格納してから(S106)。処理を終了する。なお、所定値以下の類似度評価値のテンプレートが複数存在する場合には、それらに対応する全ての文字及び類似度評価値をバッファに格納する。以下では、所定値以下の類似度評価値のテンプレートに対応する文字を、「検出された文字」と記すことにする。S105において、所定値以下の類似度評価値のテンプレートが存在しないと判断されれば、変換部34を起動し、該変換部34が、バッファに既に格納されている文字及び類似度評価値に基づき、候補文字のデータを出力する(S107)。
【0040】
図12は、入力データと各文字のテンプレートとの類似度評価値の推移の一例を示す図である。同図において横軸は時間を示しており、縦軸は類似度評価値を示している。上述のように、文字認識部12は、所定時間ごとに入力データと各文字のテンプレートとの類似度評価値を計算しており、ユーザUが文字を書き終わるタイミングにて、類似度評価値が所定値以下となるテンプレートが発生することになる。ここでは、ユーザUがR、K、Tの文字を順に空中に書いた場合を示しており、これらの文字に対応する類似度評価値が順に、所定値以下となり、再び所定値を超えている。すなわち、R、K、Tの文字が順に検出されている。
【0041】
図13は、S107における候補文字の出力方法を説明する図である。同図には、何らかの文字が検出され、どの文字も検出されなくなるまでの間、検出された文字を左から右に順に示している。本実施形態では、何らかの文字が検出され、どの文字も検出されなくなるまでの期間を、文字判定期間としている。
【0042】
同図(a)に示されるように、文字判定期間において、1つの文字(ここでは「A」)だけが連続して検出される場合、S107において、文字認識部12は当該文字及びその類似度評価値を、候補文字のデータとして出力する。候補データは、例えば({文字:類似度評価値})のような所定の形式をとってよい(同図(a)の場合、({A:1.5})のようになる。)。また、類似度評価値は、バッファに格納される同文字に対する類似度評価値のうち、最小のものであってもよいし、平均値などの統計値であってもよい。また、文字認識部12は、同図(a)の場合、2以上の所定回数(例えば3回)以上にわたり連続して1つの文字が検出される場合にだけ、その文字及びその類似度評価値を候補文字のデータと出力し、所定回数未満しか連続して検出されない場合には、候補文字のデータを出力しないようにしてよい。こうすれば、誤認識を防止できる。
【0043】
また、同図(b)に示されるように、文字判定期間において、1つの文字(ここでは「F」)が連続して検出され、その途中から、別の文字(ここでは「E」)が検出される場合、後に検出された文字についてのみ、文字及びその類似度評価値を候補文字データとして出力してよい。この場合は、後に検出された文字の一部に先に検出された文字が含まれる場合と推定されるからである。同図(b)では、「E」を書く途中で「F」が検出された例を示している。なお、後に検出された文字の一部に先に検出された文字が含まれる場合は、「E」と「F」など特定の文字対に限られる。そこで、こうした先に検出される文字(先文字)とその直後に検出される文字(後文字)の対を関連文字として予め記憶しておいてよい。そして、文字判定期間において、予め記憶された先文字が連続して検出され、その途中から、対応する後文字が検出される場合に、後文字及びその類似度評価値を候補文字データとして出力してよい。
【0044】
また、同図(c)に示されるように、文字判定期間において、1つの文字(ここでは「1」)が連続して検出され、その途中から、別の文字(ここでは「H」)が検出され、さらにその途中から、さらに別の文字(ここでは「2」)が検出される場合、2番目の文字(ここでは「H」)を書いたのか、1番目の文字(ここでは「1」)と3番目の文字(ここでは「2」)を連続して書いたのか、不明である。そこで、同図(c)の場合には、上記2つの可能性を両方とも候補文字データとして出力する。例えば、({文字2:類似度評価値2}|{文字1:類似度評価値1}{文字3:類似度評価値3})のような形式であってよい(同図(c)の場合、({H:2.0}|{1:1.3}{2:1.0})のようになる。)。
【0045】
このように、文字認識部12では、何らかの文字が検出され、どの文字も検出されなくなるまでの間を文字判定期間とし、該文字判定期間における文字の検出パターンに応じて候補文字データを生成している。このようにすることで、より尤もらしい候補文字データを生成することができるようになる。
【0046】
図14は、文字認識部12から順に出力される候補文字データを模式的に示している。同図は、図13(a)の状況が生じてAの文字についての候補文字データが出力され、次に図13(b)の状況が生じてEの文字について候補文字データが出力され、最後に図13(c)の状況が生じてH、1及び2の文字について候補文字データが出力された例を示している。この場合、文字認識部12からは、例えば({A:1.5})({E:1.3})({H:2.0}|{1:1.3}{2:1.0})のように、候補文字データが順に出力される。
【0047】
変換部34では、以上のようにして候補文字データが出力される度に、既に出力された候補文字データに基づいて、ユーザUのジェスチャに係る文字列を生成する。変換部34における変換処理のために、上述のように基本辞書記憶部44、変換済み辞書記憶部46及び文字変換テーブル記憶部48は、基本辞書、変換済み辞書、文字変換テーブルをそれぞれ記憶している。基本辞書は、図15に示されるように、多数の単語のそれぞれに関連づけて、読み仮名及び品詞を記憶している。また、文字変換テーブルは、図16にその一部が示されるように、全ての仮名文字について、そのアルファベット表記を関連づけて記憶している。ここで、か行〜わ行の文字については、少なくとも2つのアルファベット表記が関連づけられている。すなわち、ヘボン式の表記、つまり子音とそれに続く母音から構成される表記と、母音を省略して子音のみから構成される表記と、の2つの表記が少なくとも関連づけられている。また、仮名文字の「し」のように、ヘボン式では「Shi」と表記されるものの、他の方式(訓令式)で「Si」とも表記される場合、それぞれについて母音を省略し、「Sh」や「S」も、仮名文字「し」に関連づけられている。また、変換済み辞書は、基本辞書に収録される各単語に関連づけて、その単語のアルファベット表記を記憶している。これは、変換済み辞書は、変換部34が文字変換テーブルを参照しながら基本辞書を変換することにより生成されるものである。具体的には、ある単語についての読み仮名を基本辞書から読み出し、読み仮名を構成する各仮名文字を、文字変換テーブルに従ってアルファベット表記に変換する。上述のように、多くの仮名文字には複数のアルファベット表記が関連づけられており、変換済み辞書では、1つの単語に対して、その読み仮名を構成する仮名文字のアルファベット表記のすべての組み合わせが関連づけられている。つまり、1つの単語について、変換済み辞書では、Πn(i)個のアルファベット表記が関連づけて記憶されている。ここでn(i)は、文字変換テーブルにおいて、単語の読み仮名を構成するi番目の仮名文字に関連付けられたアルファベット表記の数である。また、Πは、iが1〜N(N:読み仮名の文字数)までの積を示している。
【0048】
図18は、変換部34による変換処理を示すフロー図である。この処理は、文字認識部32から文字候補データが出力される度に実行される。まず、既に文字認識部32から出力された文字候補データから生成されるアルファベット文字列のうち1つを選択する(S201)。例えば、図14に示される文字候補データからは、「AEH」と「AE12」の2つのアルファベット文字列が生成されるが、そのうち1つが選択される。つまり、変換部34は、文字候補データにより示されるアルファベット文字を順に連結することによりアルファベット文字列を生成する。また、1つの文字候補データにより複数のアルファベット文字又は文字列が書かれた可能性が示されている場合には、それらを選択的に用いて、他の文字候補データにより示されるアルファベット文字又は文字列と連結することにより、複数のアルファベット文字列(一次文字列)を生成し、そのうち1つを選択する。
【0049】
次に、S201で選択されたアルファベット文字列の第1のスコアを算出する(S202)。例えば、アルファベット文字列を構成する各文字に対応する類似度評価値を文字候補データから抽出し、それらの逆数を乗算することにより第1のスコアを算出する。さらに、S201で選択されたアルファベット文字列に対応する単語又は単語列を判断し、それらのグラフ、つまり連結状態を示すデータを生成する(図19参照)。
【0050】
具体的には、S201で選択されたアルファベット文字列の全体又は任意の長さの先頭部分に一致するアルファベット文字列を変換済み辞書から検索し、該アルファベット文字列に関連づけられた単語(変換辞書の見出し語)を取得する。S201で選択されたアルファベット文字列の先頭部分に一致するアルファベット文字列が変換済み辞書に記憶されている場合には、残りの部分の全体又は任意の長さの先頭部分に一致するアルファベット文字列を変換済み辞書から検索し、該アルファベット文字列に関連づけられた単語を取得する。こうして、S201で選択されたアルファベット文字列に対応する単語又は単語列(ユーザUのジェスチャに係る文字列の候補)を取得する。
【0051】
次に変換部34では、S201で選択されたアルファベット文字列に対応する全ての単語又は単語列について第2のスコアを算出する(S204)。例えば、各単語又は単語列について、それら単語や単語列の出現頻度、日本語としての尤もらしさ、各単語の品詞の並び順などに基づいて、第2のスコアを算出することができる。さらに、S201で選択されたアルファベット文字列に対応する全ての単語又は単語列について、総合スコア(候補評価値)を算出する。総合スコアは、例えば第1のスコアと第2のスコアとを乗算したり、又は加算したりすることにより算出することができる。その後、S201で生成される全てのアルファベット文字列についてS201〜S204の処理を繰り返す(S205)。そして、総合スコアの大きいな順から所定個数の単語又は単語列を出力する(S206)。
【0052】
ユーザインタフェース部36は、上述したように、変換部34により出力される単語又は単語列、モーション取得部30により取得される動画像に基づき、図2に示されるユーザインタフェース画像を表示装置12の画面に表示する。また、モーション取得部30により取得されるユーザUの利き手の位置を表示する。
【0053】
図20は、ユーザインタフェース部36によるユーザインタフェース処理を示すフロー図である。同図に示される処理は、所定時間ごとに実行されるものであり、まずモーション取得部30から出力される動画像を構成する最新のフレーム画像をメモリに背景として描画する(S301)。次に、モーション取得部30から取得される、フレーム画像におけるユーザUの利き手側の肩の位置座標を取得する(S302)。さらに、フレーム画像におけるユーザUの利き手の位置座標を取得する(S303)。そして、S302で取得される利き手側の肩の位置座標を中心とした円26の周上に、選択項目画像20を配置する位置を決定する(S304)。選択項目画像20の位置は、例えば上記円26の周上に等間隔に設定してよい。さらに、S303で取得される利き手の位置と、S304で決定された各位置と、の距離を計算し、S303で決定された各位置を、計算された距離に従ってソートする(S305)。そして、総合スコアが高いほど利き手の位置に近い位置に配置されるよう、変換部34から出力される単語又は単語列をS303で決定された位置に配置する(S306)。さらに、特定機能を発動するためのボタン画像28を円26の外側に配置する(S307)。また、S303で取得されるユーザUの利き手の位置に丸印などの識別画像を配置する(S308)。以上のようにして、図2に示されるユーザインタフェース画像を生成し、これを表示装置12の画面に表示する。
【0054】
なお、上述のように円26の径は、ユーザUの腕が画面に表示されたときの長さを基準に決定してもよいし、平均的な人の腕が画面に表示されたときの長さを基準として決定してもよい。ユーザUの腕が画面に表示されたときの長さを基準とする場合には、図21に示されるように利き手を伸ばすようユーザUに要求するメッセージを画面に表示して、利き手の位置24と利き手側の肩の位置22との距離を取得すればよい。
【0055】
以上説明したユーザインタフェース装置10では、筆記位置である利き手の位置が取得されるごとに、新しく取得されたものから順に所定数の利き手の位置からなる入力データを生成し、該入力データと各文字に係るテンプレートとの類似度評価値を算出している。そして、筆記位置である利き手の位置が取得されるごとに、類似度評価値に基づいてユーザUのジェスチャに係る文字列を決定している。このため、各文字を書き始めるタイミングや書き終わったタイミングで明示的な操作をしなくても、複数の文字を順に認識させることができ、極めて使い勝手の良いユーザインタフェースを実現できる。
【0056】
また、変換済み辞書には、各見出し語に関連付けて、子音のみを含むアルファベット文字列が記憶されているので、ユーザUは少数の文字を入力するだけで、意図した文字列を得ることができる。また、各見出し語に関連づけて、子音のみを含むアルファベット文字列のみならず、子音と母音を含むアルファベット文字列が記憶されているので、ユーザUが誤って子音と母音とを含むアルファベット文字列を入力したとしても、ユーザUが意図した文字列を得ることができる。
【0057】
また、ユーザUの利き手側の肩の位置を基準として、選択要素である選択項目画像20を画面に表示するようにしているので、ユーザUは容易に各選択項目画像20を選択することができる。
【0058】
なお、本発明は上記実施形態に限定されず、種々の変形実施が可能である。
【0059】
例えば、以上の説明では、ユーザUの肩の位置を中心とした円周上に選択項目画像20を配置したが、楕円弧上に選択項目画像20を配置してもよい。また、ユーザUの肩の位置を基準として該位置から離間して配置された種々の曲線や直線上に選択項目画像20を配置してよい。また、利き手側の肩の位置を基準とする代わりに、利き手側の肘の位置を基準としてもよい。筆記位置や選択位置である手、指、筆記具の位置よりも体幹側に位置する、肩や肘などの関節の位置を基準として、そこから離間した位置に選択項目画像20を配置すれば、ユーザUは容易に同選択項目画像20を選択できるようになる。
【0060】
また、以上の説明では基本辞書及び文字変換テーブルから変換済み辞書を生成するようにしたが、生成された変換済み辞書のみをユーザインタフェース装置10に記憶しておいてもよい。また、基本辞書の見出し語及び読み仮名をユーザが任意に追加する場合には、追加された見出し語に対応するアルファベット文字列を、文字変換テーブルに基づいて生成し、それらを変換済み辞書に登録するようにしてもよい。また、変換済み辞書の見出し語は、基本辞書の見出し語に限らず、任意の文字列であってよい。
【0061】
また、子音のみを用いて文字列の入力を正しく行い、子音と母音とを用いた入力は利用しないユーザも存在する。逆に、子音と母音を用いた入力だけを行い、子音のみを用いた入力を利用しないユーザも存在する。そこで、ユーザUのジェスチャにより入力される文字に基づいて、変換済み辞書の見出し語に対応するアルファベット文字列のうち、子音と母音の両方を含むアルファベット文字列、又は子音のみを含むアルファベット文字列のいずれかを除去するようにしてよい。この場合、変換済み辞書から、それらアルファベット文字列を直接消去してよい。或いは、子音と母音の両方を含むアルファベット文字列、又は子音のみを含むアルファベット文字列の一方のみを含むよう、変換済み辞書を基本辞書及び文字変換テーブルから再度生成してもよい。
【0062】
また、以上の説明では、アルファベット、数字及びハイフンをユーザのジェスチャにより入力し、日本語の文字列に変換する例について説明したが、本発明は種々の文字、種々の言語に適用できる。例えば、日本語その他の言語のあらゆる文字からテンプレートを用意する文字を選んでよい。こうすれば、テンプレートが用意された様々な文字を、ユーザUのジェスチャから判断できるようになる。
【0063】
また、変換済み辞書の見出し語は、日本語以外の、子音と母音の区別がある言語であってよい。例えば、見出し語を英単語のフルスペルとし、それに対応する子音のみを含むアルファベット文字列、及び子音及び少なくとも1つ母音を含むアルファベット文字列を、該見出し語に関連づけて変換済み辞書に記憶しておけば、子音のみからなるアルファベット文字列、或いは子音及び少なくとも1つの母音を含むアルファベット文字列をジェスチャで順に入力することで、任意の英単語をシステムに入力することができる。例えば、「Japan」の見出し語に、「Jpn」「Japn」「Jpan」「Japan」を関連づけて変換済み辞書に記憶しておけば、ユーザUが想定に反して、「Japn」などの母音を含むアルファベット文字列を入力したとしても、正しく「Japan」と変換されることになる。なお、見出し語を英単語とする場合、「image」のように語頭に母音が配置された単語については、子音のみからなるアルファベット文字列「mg」に代えて、語頭だけは母音をそのまま含み、それ以外の母音が省略されたアルファベット文字列「img」を変換済み辞書に記憶するようにしてよい。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21