(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-24
(45)【発行日】2023-12-04
(54)【発明の名称】クライアント装置、サーバ、プログラム、及び、情報処理方法
(51)【国際特許分類】
A61F 9/08 20060101AFI20231127BHJP
G06T 7/20 20170101ALI20231127BHJP
G06F 3/16 20060101ALI20231127BHJP
G06F 3/01 20060101ALI20231127BHJP
【FI】
A61F9/08 305
G06T7/20 300A
G06F3/16 620
G06F3/01 570
(21)【出願番号】P 2019552691
(86)(22)【出願日】2018-10-22
(86)【国際出願番号】 JP2018039170
(87)【国際公開番号】W WO2019093105
(87)【国際公開日】2019-05-16
【審査請求日】2021-08-25
(31)【優先権主張番号】P 2017214461
(32)【優先日】2017-11-07
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000001959
【氏名又は名称】株式会社 資生堂
(74)【代理人】
【識別番号】230116816
【氏名又は名称】成川 弘樹
(74)【代理人】
【識別番号】100146123
【氏名又は名称】木本 大介
(74)【代理人】
【識別番号】100174850
【氏名又は名称】大崎 絵美
(72)【発明者】
【氏名】小助川 雅人
(72)【発明者】
【氏名】高橋 和
(72)【発明者】
【氏名】望月 重太郎
(72)【発明者】
【氏名】公文 悠人
【審査官】細川 翔多
(56)【参考文献】
【文献】国際公開第2016/199248(WO,A1)
【文献】米国特許出願公開第2014/0253701(US,A1)
【文献】特開2010-267220(JP,A)
【文献】特開2000-293661(JP,A)
【文献】特開2016-194612(JP,A)
【文献】特開平11-284895(JP,A)
【文献】特開2011-209787(JP,A)
【文献】特開2016-119092(JP,A)
【文献】米国特許出願公開第2016/180594(US,A1)
【文献】特表2010-537302(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
A61F 9/08
G06T 7/20
G06F 3/01
G06F 3/16
(57)【特許請求の範囲】
【請求項1】
画像
に含まれるオブジェクトに関する音声出力データを生成するように構成されたサーバと接続されるクライアント装置であって、
前記オブジェクトを含む画像の画像データを取得する手段を備え、
ユーザの指に装着された少なくとも1つの装着物の画像が前記画像データに含まれているか否かを判定する手段を備え、
前記装着物の画像が前記画像データに含まれている場合、前記画像データを前記サーバに送信する手段を備え、
前記画像
に含まれるオブジェクトに関する音声出力データを前記サーバから受信する手段を備える、
クライアント装置。
【請求項2】
前記取得する手段は、前記クライアント装置に接続されたカメラ、又は、前記クライアント装置に配置されたカメラから、前記画像データを取得する、請求項1に記載のクライアント装置。
【請求項3】
前記送信する手段は、前記装着物を認識したときに、前記画像データを送信する、
請求項1又は請求項2に記載のクライアント装置。
【請求項4】
前記送信する手段は、前記装着物に形成されたパターンを認識したときに、前記画像データを送信する、請求項3に記載のクライアント装置。
【請求項5】
前記装着物に形成されたパターンを認識したときに、前記認識されたパターンの組合せに応じた処理を実行する手段を備える、請求項1~請求項4の何れかに記載のクライアント装置。
【請求項6】
前記実行する手段は、前記認識されたパターン、及び、前記装着物の動きの組合せに応じた処理を実行する、請求項5に記載のクライアント装置。
【請求項7】
前記取得する手段は、前記ユーザの各指に装着された複数の装着物の画像データを取得する、
請求項1~請求項6の何れかに記載のクライアント装置。
【請求項8】
前記取得する手段は、前記ユーザの右手及び左手に装着された装着物の画像データを取得する、
請求項7に記載のクライアント装置。
【請求項9】
前記取得する手段は、前記ユーザの右手の各指及び左手の各指に装着された装着物の画像データを取得する、
請求項8に記載のクライアント装置。
【請求項10】
前記複数の装着物は、互いに異なるパターンが形成されており、
前記取得する手段は、前記パターンを含む画像データを取得する、
請求項7~請求項9の何れかに記載のクライアント装置。
【請求項11】
前記取得する手段は、特定の指に装着された装着物の画像データを取得する、
請求項7~請求項10の何れかに記載のクライアント装置。
【請求項12】
前記ユーザは、視覚障害者である、
請求項1~請求項11の何れかに記載のクライアント装置。
【請求項13】
画像データを取得する手段と、ユーザの指に装着された少なくとも1つの装着物の画像が前記画像データに含まれているか否かを判定する手段と、前記装着物の画像が前記画像データに含まれている場合、前記画像データを前記サーバに送信する手段と、画像データに対する解析結果を前記サーバから受信する手段と、を備えるクライアント装置と接続されるサーバであって、
前記クライアント装置から前記画像データを取得する手段を備え、
前記取得された画像データに対応する画像に含まれるオブジェクトの名称を推定する手段を備え、
前記推定されたオブジェクトの名称を含む音声を出力するための音声出力データを生成する手段を備え、
前記生成された音声出力データを前記クライアント装置に送信する手段を備える、
サーバ。
【請求項14】
前記画像における前記装着物の位置及び前記オブジェクトの位置を特定する手段を備え、
前記推定する手段は、前記装着物に最も近いオブジェクトの名称を推定する、
請求項13に記載のサーバ。
【請求項15】
コンピュータを、請求項1~請求項14の何れかに記載の各手段として機能させるためのプログラム。
【請求項16】
コンピュータを用いて、画像に含まれるオブジェクトに関する音声出力データを生成する情報処理方法であって、
ユーザの指に装着された
複数のネイルキャップと、少なくとも1つのオブジェクトと、を含む画像の画像データを取得するステップを備え、
前記画像データをサーバに送信するステップを備え、
前記画像に含まれるオブジェクトに関する音声を出力するための音声出力データを前記サーバから受信するステップを備え、
前記音声出力データに基づく音声を出力するステップ
を備え、
前記複数のネイルキャップに形成されたパターンを認識したときに、前記認識されたパターンの組合せに応じた処理を実行する手段を備える、
情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、クライアント装置、サーバ、及び、プログラムに関する。
【背景技術】
【0002】
一般に、視覚障害者の行動を補助する方法として、音声案内が知られている。
例えば、特開2004-016578号公報には、目的地に設置された送信機と、視覚障害者が携帯した受信機との間の距離を測定することにより、現在地から目的物までの距離を音声で知らせる技術が開示されている。
【発明の概要】
【発明が解決しようとする課題】
【0003】
しかし、特開2004-016578号公報では、送信機が設置されていない場所では、視覚障害者は音声案内を受けることができない。そのため、視覚障害者が音声案内を受けられる範囲が限られる。その結果、視覚障害者が安心して行動できる範囲が狭まってしまう。
【0004】
本発明の目的は、視覚障害者が音声案内を受けられる範囲の制約を解消することである。
【課題を解決するための手段】
【0005】
本発明の一態様は、
画像に含まれるオブジェクトに関する音声出力データを生成可能なサーバと接続されるクライアント装置であって、
ユーザの指に装着された少なくとも1つの装着物と、少なくとも1つのオブジェクトと、を含む画像の画像データを取得する手段を備え、
前記画像データを前記サーバに送信する手段を備え、
前記画像に含まれるオブジェクトに関する音声を出力するための音声出力データを前記サーバから受信する手段を備え、
前記音声出力データに基づく音声を出力する手段を備える、
クライアント装置である。
【発明の効果】
【0006】
本発明によれば、視覚障害者が音声案内を受けられる範囲の制約を解消することができる。
【図面の簡単な説明】
【0007】
【
図1】本実施形態の情報処理システムの概略図である。
【
図2】
図1の情報処理システムの構成を示すブロック図である。
【
図3】
図1のカメラユニット50の構成を示す図である。
【
図4】
図1のネイルキャップの構成を示す図である。
【
図6】本実施形態の情報処理のシーケンス図である。
【
図10】変形例のジェスチャデータベースのデータ構造を示す図である。
【
図12】変形例のジェスチャの一例を示す図である。
【発明を実施するための形態】
【0008】
以下、本発明の一実施形態について、図面に基づいて詳細に説明する。なお、実施形態を説明するための図面において、同一の構成要素には原則として同一の符号を付し、その繰り返しの説明は省略する。
【0009】
(1)情報処理システムの構成
情報処理システムの構成について説明する。
図1は、本実施形態の情報処理システムの概略図である。
図2は、
図1の情報処理システムの構成を示すブロック図である。
【0010】
図1に示すように、情報処理システム1は、クライアント装置10と、サーバ30と、カメラユニット50と、を備える。
クライアント装置10及びサーバ30は、ネットワーク(例えば、インターネット又はイントラネット)NWを介して接続される。
クライアント装置10及びカメラユニット50は、無線通信を介して接続される。
【0011】
クライアント装置10は、サーバ30にリクエストを送信する情報処理装置の一例である。クライアント装置10は、例えば、スマートフォン、タブレット端末、又は、パーソナルコンピュータである。
【0012】
サーバ30は、クライアント装置10から送信されたリクエストに応じたレスポンスをクライアント装置10に提供する情報処理装置の一例である。サーバ30は、例えば、ウェブサーバである。
【0013】
カメラユニット50は、画像を撮像し、且つ、撮像した画像の画像データを生成するように構成される。
【0014】
ユーザ(例えば、視覚障害者)は、自身の指にネイルキャップNC(「装着物」の一例)を装着し、且つ、クライアント装置10を携帯することにより、サーバ30にアクセスする。
【0015】
(1-1)クライアント装置の構成
クライアント装置10の構成について説明する。
【0016】
図2に示すように、クライアント装置10は、記憶装置11と、プロセッサ12と、入出力インタフェース13と、通信インタフェース14と、を備える。
【0017】
記憶装置11は、プログラム及びデータを記憶するように構成される。記憶装置11は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、及び、ストレージ(例えば、フラッシュメモリ又はハードディスク)の組合せである。
【0018】
プログラムは、例えば、以下のプログラムを含む。
・OS(Operating System)のプログラム
・情報処理を実行するアプリケーション(例えば、ウェブブラウザ)のプログラム
【0019】
データは、例えば、以下のデータを含む。
・情報処理において参照されるデータベース
・情報処理を実行することによって得られるデータ(つまり、情報処理の実行結果)
【0020】
プロセッサ12は、記憶装置11に記憶されたプログラムを起動することによって、クライアント装置10の機能を実現するように構成される。プロセッサ12は、コンピュータの一例である。
【0021】
入出力インタフェース13は、クライアント装置10に接続される入力デバイスからユーザの指示を取得し、かつ、クライアント装置10に接続される出力デバイスに情報を出力するように構成される。
入力デバイスは、例えば、キーボード、ポインティングデバイス、タッチパネル、マイク、又は、それらの組合せである。
出力デバイスは、例えば、ディスプレイ、スピーカ、又は、それらの組合せである。
【0022】
通信インタフェース14は、クライアント装置10とサーバ30との間の通信を制御するように構成される。
【0023】
(1-2)サーバの構成
サーバ30の構成について説明する。
【0024】
図2に示すように、サーバ30は、記憶装置31と、プロセッサ32と、入出力インタフェース33と、通信インタフェース34とを備える。
【0025】
記憶装置31は、プログラム及びデータを記憶するように構成される。記憶装置31は、例えば、ROM、RAM、及び、ストレージ(例えば、フラッシュメモリ又はハードディスク)の組合せである。
【0026】
プログラムは、例えば、以下のプログラムを含む。
・OSのプログラム
・情報処理を実行するアプリケーションのプログラム
・画像オブジェクトの特徴量と言語(例えば、オブジェクト名)との関係に関する学習用データセット
【0027】
データは、例えば、以下のデータを含む。
・情報処理において参照されるデータベース
・情報処理の実行結果
【0028】
プロセッサ32は、記憶装置31に記憶されたプログラムを起動することによって、サーバ30の機能を実現するように構成される。プロセッサ32は、コンピュータの一例である。
【0029】
入出力インタフェース33は、サーバ30に接続される入力デバイスからユーザの指示を取得し、かつ、サーバ30に接続される出力デバイスに情報を出力するように構成される。
入力デバイスは、例えば、キーボード、ポインティングデバイス、タッチパネル、又は、それらの組合せである。
出力デバイスは、例えば、ディスプレイである。
【0030】
通信インタフェース34は、サーバ30とクライアント装置10との間の通信を制御するように構成される。
【0031】
(1-3)カメラユニットの構成
カメラユニット50の構成について説明する。
図3は、
図1のカメラユニット50の構成を示す図である。
【0032】
図3Aは、カメラユニット50の正面図である。
図3Bは、カメラユニット50の上面図である。
図3Cは、カメラユニット50の側面図である。
【0033】
図3に示すように、カメラユニット50は、レンズ50aと、スピーカ50bと、クリップ50cと、イメージセンサ50dと、カメラコントローラ50eと、を備える、
【0034】
図3A~
図3Cに示すように、レンズ50aは、カメラユニット50の前面(Z-側の面)に配置される。
【0035】
図3B~
図3Cに示すように、スピーカ50bは、カメラユニット50の上面(Y+側)に配置される。
【0036】
クリップ50cは、カメラユニット50の背面(Z+側の面)に配置される。つまり、クリップ50cは、レンズ50aと反対側の面に配置される。
ユーザは、クリップ50cを自身の衣服に引っ掛けることにより、レンズ50aが自身の正面(つまり、視線の方向)を向くように、カメラユニット50を装着することができる。
【0037】
図3A及び
図3Cに示すように、イメージセンサ50dは、カメラユニット50の内部に配置される。レンズ50aを通過した光は、イメージセンサ50d上で結像する。イメージセンサ50dは、結像した光を電気信号に変換することにより、レンズ50aを通過した光に基づく画像データを生成するように構成される。
【0038】
カメラコントローラ50eは、カメラユニット50の内部に配置されている。カメラコントローラ50eは、カメラユニット50の全体を制御するプロセッサである。
【0039】
(1-4)ネイルキャップの構成
ネイルキャップNCの構成について説明する。
図4は、
図1のネイルキャップの構成を示す図である。
【0040】
図4Aに示すように、ネイルキャップNCは、5個の右手用ネイルキャップNCR、及び、5個の左手用ネイルキャップ(つまり、10個のネイルキャップ)NCLを含む。10個のネイルキャップNCL及びNCRには、互いに、異なるパターン(例えば、テキスト「L1」~「L5」及び「R1」~「R5」)が形成されている。ネイルキャップNCに形成されたパターンによって、各ネイルキャップNCが区別される。
【0041】
図4Bに示すように、各ネイルキャップNCは、ユーザの指に装着可能である。
【0042】
(2)本実施形態の概要
本実施形態の概要について説明する。
図5は、本実施形態の概要の説明図である。
【0043】
図5に示すように、ユーザ(例えば、視覚障害者)の爪に装着されたネイルキャップNCが撮像範囲に入ると、クライアント装置10は、ネイルキャップNCの周辺のオブジェクトOBJ1(リンゴ)及びオブジェクトOBJ2(バナナ)を含む画像IMGの画像データを取得する。
クライアント装置10は、取得した画像データをサーバ30に送信する。
【0044】
サーバ30は、クライアント装置10から送信された画像データに対して画像解析を実行することにより、画像IMGにおけるネイルキャップNCの位置と、オブジェクトOBJ1~OBJ2の位置と、をする。
サーバ30は、特定した位置に基づいて、オブジェクトOBJ1~OBJ2のうち、ネイルキャップNCに最も近いオブジェクトOBJ1を特定する。
サーバ30は、記憶装置31に記憶された学習用データセットを参照して、特定したオブジェクトOBJ1の特徴量に基づくオブジェクト名(つまり、リンゴ)を推定する。
サーバ30は、推定したオブジェクト名の音声を出力するための音声出力データを生成する。
サーバ30は、生成した音声出力データをクライアント装置10に送信する。
【0045】
クライアント装置10は、サーバ30から送信された音声出力データに基づいて、音声「リンゴ」を出力する。
【0046】
ユーザは、クライアント装置10によって出力された音声により、自身の指に対して最も近くにあるオブジェクトOBJ1のオブジェクト名「リンゴ」を知ることができる。
【0047】
このように、ユーザ(例えば、視覚障害者)は、ネイルキャップNCが装着された指を使って、音声案内を受けることができる。つまり、視覚障害者が音声案内を受けられる範囲の制約を解消することができる。
【0048】
(3)情報処理
本実施形態の情報処理について説明する。
図6は、本実施形態の情報処理のシーケンス図である。
図7は、
図6のS500の説明図である。
図8は、
図6のS100の説明図である。
図9は、
図6のS502の説明図である。
【0049】
カメラユニット50は、撮像(S500)を実行する。
具体的には、イメージセンサ50dは、レンズ50aを通過した光の結像を電気信号に変換することにより、レンズ50aを通過した光に対応する画像データを生成する(
図7A)。
カメラコントローラ50eは、イメージセンサ50dによって生成された画像データをクライアント装置10に送信する。
【0050】
ステップS500の後、クライアント装置10は、画像解析リクエスト(S100)を実行する。
具体的には、プロセッサ12は、ステップS500で送信された画像データに対応する画像IMGがネイルキャップNCに形成されたパターンを含むか否かを判定する。一例として、
図8に示すように、ユーザが、レンズ50aの画角の範囲内で右手の親指を立てるジェスチャを行うと、ステップS500で送信された画像データは、右手の親指に装着されたネイルキャップNCのパターン(例えば、テキスト「R1」)の画像を含む。この場合、プロセッサ12は、ネイルキャップNCに形成されたパターンを含むと判定する。
プロセッサ12は、ネイルキャップNCに形成されたパターンを含むと判定した場合、画像解析リクエストデータをサーバ30に送信する。
画像解析リクエストデータは、ネイルキャップNCに形成されたパターンを含む画像IMGの画像データを含む。
【0051】
ステップS100の後、サーバ30は、画像解析(S300)を実行する。
具体的には、プロセッサ32は、画像解析リクエストデータに含まれる画像データに対して、特徴量解析を適用することにより、画像IMGに含まれる以下のオブジェクト(ネイルキャップNCの画素、及び、オブジェクトOBJ1~OBJ2の画素)の座標を特定する。
プロセッサ32は、特定した座標に基づいて、画像IMGに含まれるオブジェクトOBJ1~OBJ2のうち、ネイルキャップNCに最も近いオブジェクトOBJ1を特定する。
【0052】
ステップS300の後、サーバ30は、オブジェクトの推定(S301)を実行する。
具体的には、プロセッサ32は、記憶装置31に記憶された学習用データセットを参照して、ステップS300で特定したオブジェクトOBJ1の画素の特徴量に対応するオブジェクト名を推定する。
【0053】
ステップS302の後、サーバ30は、テキストデータの生成(S302)を実行する。
具体的には、プロセッサ32は、ステップS301で推定されたオブジェクト名と、所定の語句(例えば、主語及び述語)と、によって構成される文章(例えば、「これはリンゴです。」)のテキストデータを生成する。
【0054】
ステップS302の後、サーバ30は、画像解析レスポンス(S303)を実行する。
具体的には、プロセッサ32は、画像解析レスポンスデータをクライアント装置10に送信する。
画像解析レスポンスデータは、ステップS302で生成されたテキストデータを含む。
【0055】
ステップS303の後、クライアント装置10は、音声データの生成(S101)を実行する。
具体的には、プロセッサ12は、画像解析レスポンスデータに含まれるテキストデータを、当該テキストデータに対応する音声データに変換する。
プロセッサ12は、変換した音声データをカメラユニット50に送信する。
【0056】
ステップS101の後、カメラユニット50は、音声出力(S502)を実行する。
具体的には、カメラコントローラ50eは、ステップS101で送信された音声データに対応する音声を再生する。
図9に示すように、スピーカ50bは、再生された音声(例えば、「これはリンゴです。」)を出力する。
【0057】
本実施形態によれば、ステップS500で撮像された画像において、ネイルキャップNCの最も近くにあるオブジェクトOBJ1の名称が読み上げられる。ユーザ(例えば、視覚障害者)は、スピーカ50bから出力された音声を介して、ネイルキャップNCに最も近いオブジェクトOBJ1を認知することができる。
【0058】
特に、親指の爪は最も大きく、且つ、親指を立てる行為はポジティブな印象を与えるので、親指用のネイルキャップNCに形成されたパターン(例えば、テキスト「R1」)を認識した場合にステップS100を実行することが好ましい。
【0059】
(4)変形例
変形例について説明する。変形例は、ユーザのジェスチャに応じた情報処理を実行する例である。
【0060】
(4-1)データベース
変形例のデータベースについて説明する。
図10は、変形例のジェスチャデータベースのデータ構造を示す図である。
【0061】
図10に示すように、変形例のジェスチャ情報データベースは、「パターン」フィールドと、「ジェスチャ」フィールドと、「アクション」フィールドと、を含む。各フィールドは、互いに関連付けられている。
【0062】
「パターン」フィールドには、ネイルキャップNCに形成されたパターンを識別する情報が格される。
【0063】
「ジェスチャ」フィールドには、単位時間あたりのネイルキャップNCの位置の変位に関する情報(例えば、動きベクトル)が格納される。動きベクトルが0の場合、ネイルキャップNCが静止していることを意味する。動きベクトルが0ではない場合、ネイルキャップNCの動きの方向及び速度を意味する。
【0064】
「アクション」フィールドには、プロセッサ12が実行する情報処理の内容に関する情報が格納される。情報処理は、例えば、以下を含む。
・ステップS500でカメラユニット50から送信された画像のサーバ30への送信
・ステップS500でカメラユニット50から送信された画像のサーバ30への送信、且つ、当該画像が添付されたメールの送信
・ステップS500でカメラユニット50から送信された画像が添付されたメールの送信
・ステップS500でカメラユニット50から送信された画像の記憶装置11への記憶(つまり、画像の保存)
・所定のアプリケーションの起動
【0065】
(4-2)情報処理
変形例の情報処理について説明する。
図11は、変形例の情報処理のシーケンス図である。
図12は、変形例のジェスチャの一例を示す図である。
【0066】
図11に示すように、ステップS500(
図6)の後、クライアント装置10は、ジェスチャの特定(S110)を実行する。
具体的には、プロセッサ12は、ステップS500で送信された画像データに対応する画像IMGに含まれるネイルキャップNCに形成されたパターンの動きベクトルを特定する。
【0067】
一例として、
図12Aに示すように、ユーザが、レンズ50aの画角の範囲内で右手の人差し指及び中指を立てて静止させるジェスチャを行うと、ステップS500で送信された画像データは、右手の人差し指及び中指のネイルキャップNCに形成されたパターン(例えば、テキスト「R2」及び「R3」)の画像を含み、且つ、動きベクトルは0である。この場合、プロセッサ12は、「右手の人差し指及び中指に装着されたネイルキャップNCのパターンが静止している」と判定する。
図12Bに示すように、ユーザが、レンズ50aの画角の範囲内で右手の人差し指、中指、及び、薬指を立てて静止させるジェスチャを行うと、ステップS500で送信された画像データは、右手の人差し指、中指、及び、薬指のネイルキャップNCに形成されたパターン(例えば、テキスト「R2」~「R4」)の画像を含み、且つ、動きベクトルは0である。この場合、プロセッサ12は、「右手の人差し指、中指、及び、薬指に装着されたネイルキャップNCのパターンが静止している」と判定する。
図12Cに示すように、ユーザが、レンズ50aの画角の範囲内で右手の人差し指及び中指を立てて上から下に移動させるジェスチャを行うと、ステップS500で送信された画像データは、右手の人差し指及び中指のネイルキャップNCに形成されたパターン(例えば、テキスト「R2」及び「R3」)の画像と、当該画像が上から下に移動することを示す動きベクトルと、を含む。この場合、プロセッサ12は、「右手の人差し指及び中指に装着されたネイルキャップNCのパターンが上から下に動いている」と判定する。
図12Dに示すように、ユーザが、レンズ50aの画角の範囲内で右手の人差し指、中指、及び、薬指を立てて下から上に移動させるジェスチャを行うと、ステップS500で送信された画像データは、右手の人差し指、中指、及び、薬指のネイルキャップNCに形成されたパターン(例えば、テキスト「R2」~「R4」)の画像と、当該画像が下から上に移動することを示す動きベクトルと、を含む。この場合、プロセッサ12は、「右手の人差し指、中指、及び、薬指に装着されたネイルキャップNCのパターンが下から上に動いている」と判定する。
【0068】
ステップS110の後、クライアント装置10は、アクションの実行(S111)を実行する。
具体的には、プロセッサ12は、ジェスチャ情報データベース(
図10)を参照して、ステップS110で特定した動きベクトルに関連付けられた「アクション」フィールドの情報を特定する。
プロセッサ12は、特定した「アクション」フィールドの情報に対応する処理を実行する。
【0069】
一例として、ステップS110で
図12Aのジェスチャが特定された場合、画像の送信、及び、メールの送信が実行される(
図10)。
ステップS110で
図12Bのジェスチャが特定された場合、メールの送信が実行される(
図10)。
このように、クライアント装置10は、S100で認識されたパターンの組合せに応じた処理を実行する。
【0070】
別の例として、ステップS110で
図12Cのジェスチャが特定された場合、画像の保存が実行される(
図10)。
ステップS110で
図12Dのジェスチャが特定された場合、所定のアプリケーションの起動が実行される(
図10)。
このように、クライアント装置10は、S100で認識されたパターン、及び、ネイルキャップNCの動きの組合せに応じた処理を実行する。
【0071】
変形例によれば、クライアント装置10は、ネイルキャップNCが装着された指によるジェスチャに応じたアクションを実行する。これにより、ユーザは、ネイルキャップNCを装着した指だけで、クライアント装置10にユーザ指示を与えることができる。特に、ユーザが視覚障害者である場合、ユーザは、ディスプレイを見なくても、指の動きだけでクライアント装置10に対して様々なユーザ指示を与えることができるので、特に有用である。
【0072】
(5)本実施形態の小括
本実施形態について小括する。
【0073】
本実施形態の第1態様は、
画像に含まれるオブジェクトに関する音声出力データを生成可能なサーバ30と接続されるクライアント装置10であって、
ユーザ(例えば、視覚障害者)の指に装着された少なくとも1つの装着物(例えば、ネイルキャップNC)と、少なくとも1つのオブジェクトと、を含む画像IMGの画像データを取得する手段(例えば、ステップS100の処理を実行するプロセッサ12)を備え、
画像データをサーバ30に送信する手段(例えば、ステップS100の処理を実行するプロセッサ12)を備え、
画像IMGに含まれるオブジェクトに関する音声を出力するための音声出力データ(例えば、テキストデータ)をサーバ30から受信する手段(例えば、ステップS101の処理を実行するプロセッサ12)を備え、
音声出力データに基づく音声を出力する手段(例えば、ステップS101の処理を実行するプロセッサ12)を備える、
クライアント装置10である。
【0074】
第1態様によれば、クライアント装置10は、ユーザ(例えば、視覚障害者)の指に装着された装着物(例えば、ネイルキャップNC)及びオブジェクトOBJを含む画像の画像データをサーバ30に送信し、且つ、オブジェクトOBJに関する音声を出力する。これにより、視覚障害者が音声案内を受けられる範囲の制約を解消することができる。
【0075】
特に、指に装着されたネイルキャップNCを含む画像データを取得するので、ユーザの目線により近い画像の音声案内を提供することができる。
【0076】
本実施形態の第2態様は、
出力される音声は、オブジェクトの名称を含む、
クライアント装置10である。
【0077】
第2態様によれば、ユーザは、出力された音声を介して、ネイルキャップNCの近傍にあるオブジェクトの名称を知ることができる。
【0078】
本実施形態の第3態様は、
画像解析を実行可能なサーバ30と接続されるクライアント装置10であって、
画像データを取得する手段(例えば、ステップS100の処理を実行するプロセッサ12)を備え、
ユーザの指に装着された少なくとも1つの装着物(例えば、ネイルキャップNC)の画像が画像データに含まれているか否かを判定する手段(例えば、ステップS100の処理を実行するプロセッサ12)を備え、
装着物の画像が画像データに含まれている場合、画像データをサーバ30に送信する手段(例えば、ステップS100の処理を実行するプロセッサ12)を備え、
画像データに対する解析結果をサーバ30から受信する手段(例えば、ステップS101の処理を実行するプロセッサ12)を備える、
クライアント装置10である。
【0079】
第3態様によれば、クライアント装置10は、ユーザ(例えば、視覚障害者)の指に装着された装着物(例えば、ネイルキャップNC)を含む画像を認識した場合、当該画像の画像データをサーバ30に送信する。これにより、ユーザは、画像データをサーバ30に送信するためのユーザ指示を容易に与えることができる。
【0080】
本実施形態の第4態様は、
取得する手段は、クライアント装置10に接続されたカメラ(例えば、カメラユニット50)、又は、クライアント装置10に配置されたカメラから、画像データを取得する、クライアント装置10である。
【0081】
本実施形態の第5態様は、
取得する手段は、装着物を認識したときに、画像データを取得する、
クライアント装置10である。
【0082】
第5態様によれば、ユーザは、ネイルキャップNCを装着した指をレンズ50aの画角の範囲内にかざすだけで、画像データを生成させるためのユーザ指示を与えることができる。
【0083】
本実施形態の第6態様は、
取得する手段は、装着物に形成されたパターンを認識したときに、画像データを取得する、
クライアント装置10である。
【0084】
本実施形態の第7態様は、
認識されたパターンの組合せに応じた処理を実行する手段(例えば、ステップS110~S111を実行するプロセッサ12)を備える、
クライアント装置10である。
【0085】
第7態様によれば、ユーザは、レンズ50aに写り込む指の組合せによって、クライアント装置10に対するユーザ指示を与えることができる。
【0086】
本実施形態の第8態様は、
実行する手段は、前記認識されたパターン、及び、前記装着物の動きの組合せに応じた処理を実行する、
クライアント装置10である。
【0087】
第8態様によれば、ユーザは、レンズ50aに写り込む指の組合せ、及び、指の動きによって、クライアント装置10に対するユーザ指示を与えることができる。
【0088】
本実施形態の第9態様は、
クライアント装置10と接続されるサーバ30であって、
クライアント装置10から画像データを取得する手段(例えば、ステップS300の処理を実行するプロセッサ32)を備え、
取得された画像データに対応する画像に含まれるオブジェクトの名称を推定する手段(例えば、ステップS301の処理を実行するプロセッサ32)を備え、
推定されたオブジェクトの名称を含む音声を出力するための音声出力データを生成する手段(例えば、ステップS302の処理を実行するプロセッサ32)を備え、
生成された音声出力データをクライアント装置10に送信する手段(例えば、ステップS303の処理を実行するプロセッサ32)を備える、
サーバ30である。
【0089】
(6)その他の変形例
【0090】
記憶装置11は、ネットワークNWを介して、クライアント装置10と接続されてもよい。記憶装置31は、ネットワークNWを介して、サーバ30と接続されてもよい。
【0091】
上記の情報処理の各ステップは、クライアント装置10及びサーバ30の何れでも実行可能である。
【0092】
カメラユニット50は、クライアント装置10に内蔵されても良い。
【0093】
各ネイルキャップNCに形成されるパターンは、文字に限られない。当該パターンは、以下を含む。特に、美観性の高いパターンをネイルキャップNCに形成することにより、ネイルキャップNCを装着させ、且つ、本実施形態の音声案内を利用することの動機付けをユーザに与えることができる。
・図形
・幾何学模様
・凹凸
・カラーバリエーション
【0094】
以上、本発明の実施形態について詳細に説明したが、本発明の範囲は上記の実施形態に限定されない。また、上記の実施形態は、本発明の主旨を逸脱しない範囲において、種々の改良や変更が可能である。また、上記の実施形態及び変形例は、組合せ可能である。
【符号の説明】
【0095】
1 :情報処理システム
10 :クライアント装置
11 :記憶装置
12 :プロセッサ
13 :入出力インタフェース
14 :通信インタフェース
30 :サーバ
31 :記憶装置
32 :プロセッサ
33 :入出力インタフェース
34 :通信インタフェース
50 :カメラユニット
50a :レンズ
50b :スピーカ
50c :クリップ
50d :イメージセンサ
50e :カメラコントローラ