IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 学校法人成蹊学園の特許一覧

特許7417015ジェスチャ形状学習装置、ジェスチャ形状推定装置、それらの方法、およびプログラム
<>
  • 特許-ジェスチャ形状学習装置、ジェスチャ形状推定装置、それらの方法、およびプログラム 図1
  • 特許-ジェスチャ形状学習装置、ジェスチャ形状推定装置、それらの方法、およびプログラム 図2
  • 特許-ジェスチャ形状学習装置、ジェスチャ形状推定装置、それらの方法、およびプログラム 図3
  • 特許-ジェスチャ形状学習装置、ジェスチャ形状推定装置、それらの方法、およびプログラム 図4
  • 特許-ジェスチャ形状学習装置、ジェスチャ形状推定装置、それらの方法、およびプログラム 図5
  • 特許-ジェスチャ形状学習装置、ジェスチャ形状推定装置、それらの方法、およびプログラム 図6
  • 特許-ジェスチャ形状学習装置、ジェスチャ形状推定装置、それらの方法、およびプログラム 図7
  • 特許-ジェスチャ形状学習装置、ジェスチャ形状推定装置、それらの方法、およびプログラム 図8
  • 特許-ジェスチャ形状学習装置、ジェスチャ形状推定装置、それらの方法、およびプログラム 図9
  • 特許-ジェスチャ形状学習装置、ジェスチャ形状推定装置、それらの方法、およびプログラム 図10
  • 特許-ジェスチャ形状学習装置、ジェスチャ形状推定装置、それらの方法、およびプログラム 図11
  • 特許-ジェスチャ形状学習装置、ジェスチャ形状推定装置、それらの方法、およびプログラム 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-10
(45)【発行日】2024-01-18
(54)【発明の名称】ジェスチャ形状学習装置、ジェスチャ形状推定装置、それらの方法、およびプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240111BHJP
【FI】
G06T7/00 350C
【請求項の数】 11
(21)【出願番号】P 2020086507
(22)【出願日】2020-05-18
(65)【公開番号】P2021182179
(43)【公開日】2021-11-25
【審査請求日】2022-09-14
【新規性喪失の例外の表示】特許法第30条第2項適用 (1)▲1▼ウェブサイト掲載日 2019年10月14日 ▲2▼ウェブサイトのアドレス ICMI2019 Conference Program ウェブサイト https://icmi.acm.org/2019/index.php?id=program (2)▲1▼ウェブサイト掲載日 2019年10月14日 ▲2▼ウェブサイトのアドレス ICMI2019 ウェブサイト https://dl.acm.org/citation.cfm?id=3353736 (3)▲1▼開催日 2019年10月14日~2019年10月18日(公知日:2019年10月15日) ▲2▼集会名、開催場所 ICMI 2019 Conference GRAND DUSHULAKE(中国 蘇州 工■■区■月街299号)
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(73)【特許権者】
【識別番号】397038037
【氏名又は名称】学校法人成蹊学園
(74)【代理人】
【識別番号】100121706
【弁理士】
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【弁理士】
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【弁理士】
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】石井 亮
(72)【発明者】
【氏名】東中 竜一郎
(72)【発明者】
【氏名】青野 裕司
(72)【発明者】
【氏名】二瓶 芙巳雄
(72)【発明者】
【氏名】中野 有紀子
【審査官】小池 正彦
(56)【参考文献】
【文献】門野友城外2名,画像データに基づく図像的ジェスチャの自動生成,2016年度 人工知能学会全国大会(第30回)論文集 2D4-2,日本,一般社団法人人工知能学会,2016年06月06日
【文献】寺川晃司外6名,テーブルトップインタフェースを用いたバルーンアートのシミュレーション,ヒューマンインタフェース学会 研究報告集 2010,Vol.12 No.8,日本,ヒューマンインターフェース学会,2010年10月14日,p37-42
【文献】浦正広 外4名,バルーンアートの構造解析と難易度評価手法の提案,芸術科学会論文誌,第8巻第4号,日本,一般社団法人 芸術科学会,2009年12月15日,p143-150,https://www.art-science.org/journal/v8n4/v8n4pp143/artsci-v8n4pp143.pdf
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
ある単語に対応する複数の画像と、その単語に対応するジェスチャ形状とが関連付けられたデータベースを用いて、前記画像に対応する前記ジェスチャ形状を教師データとして付与し、生成された学習データを記憶する学習データ記憶部と、
画像から抽出した各画素の色情報からなる特徴量を入力とし、その画像に対応するジェスチャ形状を推定するジェスチャ形状決定モデルを、前記学習データを用いて学習するジェスチャ形状学習部と、
を含むジェスチャ形状学習装置。
【請求項2】
ある単語に対応する複数の画像と、その単語に対応するジェスチャ形状とが関連付けられたデータベースを用いて、前記画像に対応する前記ジェスチャ形状を教師データとして付与し、生成された学習データを記憶する学習データ記憶部と、
画像から抽出した各画素の色情報からなる特徴量を入力とし、その画像に対応するジェスチャ形状の基本形状を推定する基本形状決定モデルを、前記学習データを用いて学習する基本形状学習部と、
画像から抽出した各画素の色情報からなる特徴量を入力とし、その画像に対応するジェスチャ形状の縦横比を推定する縦横比決定モデルを、前記学習データを用いて学習する縦横比学習部と、
を含むジェスチャ形状学習装置。
【請求項3】
請求項1に記載のジェスチャ形状学習装置により学習したジェスチャ形状決定モデルを記憶するモデル記憶部と、
入力画像から抽出した各画素の色情報からなる特徴量を前記ジェスチャ形状決定モデルへ入力して、その入力画像に対応するジェスチャ形状を推定するジェスチャ形状推定部と、
を含むジェスチャ形状推定装置。
【請求項4】
請求項2に記載のジェスチャ形状学習装置により学習した基本形状決定モデルおよび縦横比決定モデルを記憶するモデル記憶部と、
入力画像から抽出した各画素の色情報からなる特徴量を前記基本形状決定モデルへ入力して、その入力画像に対応するジェスチャ形状の基本形状を推定する基本形状推定部と、
入力画像から抽出した各画素の色情報からなる特徴量を前記縦横比決定モデルへ入力して、その入力画像に対応するジェスチャ形状の縦横比を推定する縦横比推定部と、
前記基本形状および前記縦横比から前記入力画像に対応するジェスチャ形状を決定するジェスチャ形状決定部と、
を含むジェスチャ形状推定装置。
【請求項5】
請求項3または4に記載のジェスチャ推定装置であって、
発話テキストからジェスチャを行う文節を表すモーションラベルを生成するモーションラベル生成部と、
前記モーションラベルが生成された前記文節近傍の単語に対応する画像を前記入力画像として取得する入力画像生成部と、
をさらに含むジェスチャ形状推定装置。
【請求項6】
学習データ記憶部に、ある単語に対応する複数の画像と、その単語に対応するジェスチャ形状とが関連付けられたデータベースを用いて、前記画像に対応する前記ジェスチャ形状を教師データとして付与し、生成された学習データが記憶されており、
ジェスチャ形状学習部が、画像から抽出した各画素の色情報からなる特徴量を入力とし、その画像に対応するジェスチャ形状を推定するジェスチャ形状決定モデルを、前記学習データを用いて学習する、
ジェスチャ形状学習方法。
【請求項7】
学習データ記憶部に、ある単語に対応する複数の画像と、その単語に対応するジェスチャ形状とが関連付けられたデータベースを用いて、前記画像に対応する前記ジェスチャ形状を教師データとして付与し、生成された学習データが記憶されており、
基本形状学習部が、画像から抽出した各画素の色情報からなる特徴量を入力とし、その画像に対応するジェスチャ形状の基本形状を推定する基本形状決定モデルを、前記学習データを用いて学習し、
縦横比学習部が、画像から抽出した各画素の色情報からなる特徴量を入力とし、その画像に対応するジェスチャ形状の縦横比を推定する縦横比決定モデルを、前記学習データを用いて学習する、
ジェスチャ形状学習方法。
【請求項8】
モデル記憶部に、請求項6に記載のジェスチャ形状学習方法により学習したジェスチャ形状決定モデルが記憶されており、
ジェスチャ形状推定部が、入力画像から抽出した各画素の色情報からなる特徴量を前記ジェスチャ形状決定モデルへ入力して、その入力画像に対応するジェスチャ形状を推定する、
ジェスチャ形状推定方法。
【請求項9】
モデル記憶部に、請求項7に記載のジェスチャ形状学習装置により学習した基本形状決定モデルおよび縦横比決定モデルが記憶されており、
基本形状推定部が、入力画像から抽出した各画素の色情報からなる特徴量を前記基本形状決定モデルへ入力して、その入力画像に対応するジェスチャ形状の基本形状を推定し、
縦横比推定部が、入力画像から抽出した各画素の色情報からなる特徴量を前記縦横比決定モデルへ入力して、その入力画像に対応するジェスチャ形状の縦横比を推定し、
ジェスチャ形状決定部が、前記基本形状および前記縦横比から前記入力画像に対応するジェスチャ形状を決定する、
ジェスチャ形状推定方法。
【請求項10】
請求項1または2に記載のジェスチャ形状学習装置としてコンピュータを機能させるためのプログラム。
【請求項11】
請求項3から5のいずれかに記載のジェスチャ形状推定装置としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、単語に対して適切な形状の図像的ジェスチャを付与する技術に関する。
【背景技術】
【0002】
発話において、具体物のイメージを表現するハンドジェスチャ(以下、「ジェスチャ」とも呼ぶ)を図像的ジェスチャという。非特許文献1には、単語を基に検索されたウェブ上の画像を収集し、その単語に対する3種類の形状をその画像のSIFT特徴量から推定する推定器を決定木学習手法によって構築する技術が記載されている。
【先行技術文献】
【非特許文献】
【0003】
【文献】Yuki Kadono, Yutaka Takase, and Yukiko I. Nakano, "Generating iconic gestures based on graphic data analysis and clustering," ACM/IEEE International Conference on Human-Robot Interaction, pp. 447-448, 2016.
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、非特許文献1に記載の従来技術では、推定精度が高くないという課題があった。
【0005】
この発明の目的は、単語に対して適切な形状の図像的ジェスチャを高精度に推定することである。
【課題を解決するための手段】
【0006】
上記の課題を解決するために、この発明の第一の態様のジェスチャ形状学習装置は、ある単語に対応する複数の画像と、その単語に対応するジェスチャ形状とが関連付けられた学習データを記憶する学習データ記憶部と、画像から抽出した各画素の色情報からなる特徴量を入力とし、その画像に対応するジェスチャ形状を推定するジェスチャ形状決定モデルを、学習データを用いて学習するジェスチャ形状学習部と、を含む。
【0007】
この発明の第二の態様のジェスチャ形状学習装置は、ある単語に対応する複数の画像と、その単語に対応するジェスチャ形状とが関連付けられた学習データを記憶する学習データ記憶部と、画像から抽出した各画素の色情報からなる特徴量を入力とし、その画像に対応するジェスチャ形状の基本形状を推定する基本形状決定モデルを、学習データを用いて学習する基本形状学習部と、画像から抽出した各画素の色情報からなる特徴量を入力とし、その画像に対応するジェスチャ形状の縦横比を推定する縦横比決定モデルを、学習データを用いて学習する縦横比学習部と、を含む。
【0008】
この発明の第三の態様のジェスチャ形状推定装置は、第一の態様のジェスチャ形状学習装置により学習したジェスチャ形状決定モデルを記憶するモデル記憶部と、入力画像から抽出した各画素の色情報からなる特徴量をジェスチャ形状決定モデルへ入力して、その入力画像に対応するジェスチャ形状を推定するジェスチャ形状推定部と、を含む。
【0009】
この発明の第四の態様のジェスチャ形状推定装置は、第二の態様のジェスチャ形状学習装置により学習した基本形状決定モデルおよび縦横比決定モデルを記憶するモデル記憶部と、入力画像から抽出した各画素の色情報からなる特徴量を基本形状決定モデルへ入力して、その入力画像に対応するジェスチャ形状の基本形状を推定する基本形状推定部と、入力画像から抽出した各画素の色情報からなる特徴量を縦横比決定モデルへ入力して、その入力画像に対応するジェスチャ形状の縦横比を推定する縦横比推定部と、基本形状および縦横比から入力画像に対応するジェスチャ形状を決定するジェスチャ形状決定部と、を含む。
【発明の効果】
【0010】
この発明によれば、単語に対して適切な形状の図像的ジェスチャを高精度に推定することができる。特に、ジェスチャ形状の基本形状とその基本形状における縦横比とを二段階で推定することで、より高精度にジェスチャ形状を推定することが可能となる。
【図面の簡単な説明】
【0011】
図1図1は、ジェスチャ形状学習装置の機能構成を例示する図である。
図2図2は、ジェスチャ形状学習方法の処理手順を例示する図である。
図3図3は、ジェスチャ形状決定モデルの構成を説明するための図である。
図4図4は、ジェスチャ形状推定装置の機能構成を例示する図である。
図5図5は、ジェスチャ形状推定方法の処理手順を例示する図である。
図6図6は、ジェスチャ形状学習装置の機能構成を例示する図である。
図7図7は、ジェスチャ形状学習方法の処理手順を例示する図である。
図8図8は、ジェスチャ形状推定装置の機能構成を例示する図である。
図9図9は、ジェスチャ形状推定方法の処理手順を例示する図である。
図10図10は、ジェスチャ形状推定装置の機能構成を例示する図である。
図11図11は、ジェスチャ形状推定方法の処理手順を例示する図である。
図12図12は、コンピュータの機能構成を例示する図である。
【発明を実施するための形態】
【0012】
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【0013】
この発明では、ジェスチャ形状を推定するための入力情報(特徴量)として、画像の各画素のRGB情報を利用する。入力情報からジェスチャ形状を推定する推定器として、深層学習技術を利用する。また、推定器を構築する際に、特徴量からジェスチャ形状を一段階で推定する形態と、ジェスチャ形状の基本形状とその基本形状における縦横比とを二段階で推定する形態とを説明する。一段階の推定であっても従来技術より高精度にジェスチャ形状を推定することが可能であるが、二段階の推定であればより高精度にジェスチャ形状を推定することが可能となる。
【0014】
[第一実施形態]
第一実施形態は、画像の特徴量からジェスチャ形状を一段階で推定するジェスチャ形状決定モデルを学習するジェスチャ形状学習装置1と、ジェスチャ形状学習装置1により学習されたジェスチャ形状決定モデルを用いて入力画像からジェスチャ形状を推定するジェスチャ形状推定装置2とからなる。
【0015】
<ジェスチャ形状学習装置1>
第一実施形態のジェスチャ形状学習装置1は、図1に例示するように、単語辞書記憶部110、物体画像記憶部120、画像サイズ変換部11、学習データ生成部12、学習データ記憶部130、ジェスチャ形状学習部13、およびモデル記憶部140を備える。このジェスチャ形状学習装置1が、図2に例示する各ステップの処理を行うことにより第一実施形態のジェスチャ形状学習方法が実現される。
【0016】
ジェスチャ形状学習装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。ジェスチャ形状学習装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。ジェスチャ形状学習装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。ジェスチャ形状学習装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。ジェスチャ形状学習装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
【0017】
図2を参照して、第一実施形態のジェスチャ形状学習装置1が実行するジェスチャ形状学習方法の処理手続きを説明する。
【0018】
ステップS110において、ジェスチャ形状学習装置1は、単語辞書データベースを構築し、その単語辞書データベースを単語辞書記憶部110へ記憶する。単語辞書データベースは、予め定めた複数の単語に、その単語に対応するジェスチャ形状の情報を関連付けたものである。複数の単語は、例えば、辞書等から抽出した1000個程度の物体の名称を表す単語(以下、「物体名称単語」とも呼ぶ)である。ジェスチャ形状は、例えば、「円」「横長楕円」「縦長楕円」「正方形」「横長四角」「縦長四角」「正三角形」「横長三角」「縦長三角」「波形」「線形」「横長ひし形」「縦長ひし形」「不明」の14種類から選択する。以下では、14種類のジェスチャ形状のうち、選択される数が少ないものを統合して、「円」「横長楕円」「縦長楕円」「正方形」「横長四角」「縦長四角」「線形」の7種類を用いるものとする。ただし、ジェスチャ形状の選択肢は上記に限定されず、利用環境に応じて任意に設定すればよい。各単語とジェスチャ形状との関連付けは、複数のアノテーターが人手で行うものとする。
【0019】
ステップS120において、ジェスチャ形状学習装置1は、物体画像データベースを構築し、その物体画像データベースを物体画像記憶部120へ記憶する。物体画像データベースは、単語辞書データベースに含まれる各単語に、その単語に対応する複数の画像を関連付けたものである。複数の画像は、例えば、各単語を検索語としてインターネットで画像検索し、検索結果から適当な画像を10枚程度ダウンロードして収集すればよい。
【0020】
ステップS11において、画像サイズ変換部11は、物体画像データベースに含まれる各画像を、それらを使用する機械学習手法に応じて適切な画像サイズに変換する。例えば、224×224ピクセルのRGB画像等に変換すればよい。
【0021】
ステップS12において、学習データ生成部12は、画像サイズ変換部11により変換された画像に対して、その画像に対応するジェスチャ形状を教師データとして付与し、学習データを生成する。画像に対応するジェスチャ形状は、物体画像データベース中でその画像に関連付けられた単語を取得し、単語辞書データベース中でその単語に関連付けられたジェスチャ形状を取得すればよい。学習データ生成部12は、生成した学習データを学習データ記憶部130へ記憶する。
【0022】
ステップS13において、ジェスチャ形状学習部13は、学習データ記憶部130へ記憶された学習データを用いて、画像から抽出した特徴量を入力とし、その画像に対応するジェスチャ形状を推定するジェスチャ形状決定モデルを学習する。ジェスチャ形状決定モデルは、ニューラルネットワークを利用して構築される。図3にジェスチャ形状決定モデルの具体的な構成例を示す。ジェスチャ形状決定モデルの入力(図3のInput 1, Input 2, …, Input n)は、単語に対するn枚(例えば10枚)の各画像に対応する。まず、入力の各画像(224×224ピクセルのRGB 3チャネルの画像)に対して、深層学習を用いた学習済みのVGG-16モデルを適用し、4096次元の特徴量を得る(図3のVGG-16)。次に、n枚の画像から得られたn個の4096次元の特徴量から4096次元の平均ベクトルを算出する(図3のAverage)。このようにしてn枚の画像から得られた4096次元の平均ベクトルを入力とし、各画像に対応するジェスチャ形状を出力するジェスチャ形状決定モデルを構築する。なおこのとき、必ずしもInput1~nと対となる各VGG-16は必要ではなく、図3のAverageにおいて、n個のinputの特徴量抽出結果(VGG-16)を加算し平均をとる構成であってもよい。また、VGG-16の利用は一例であって、画像を入力として特徴量を抽出するような他の一般的なモデルを利用してもよい。同様に取得される次元数もモデルに合わせて任意のものでよい。学習手法として、全結合の2層からなるニューラルネットワークの出力をSoftmax関数に適用することにより、7種類のジェスチャ形状を表すラベルの尤度を計算する。1層目のニューラルネットワーク(図3のFC1)は、全結合のニューラルネットワークである。FC1は、活性化関数として例えばRelu関数を用い、出力として128次元のベクトルを得る。2層目のニューラルネットワーク(図3のFC2)は、FC1の出力ベクトルを入力として、Softmax関数により7種類のジェスチャ形状に対応する各ラベルの尤度を計算する。このニューラルネットワークを用いた機械学習の結果として、ジェスチャ形状決定モデルを得る。ジェスチャ形状学習部13は、学習済みのジェスチャ形状決定モデルをモデル記憶部140へ記憶する。
【0023】
<ジェスチャ形状推定装置2>
第一実施形態のジェスチャ形状推定装置2は、図4に例示するように、モデル記憶部140、画像サイズ変換部21、およびジェスチャ形状推定部22を備える。このジェスチャ形状推定装置2が、図5に例示する各ステップの処理を行うことにより第一実施形態のジェスチャ形状推定方法が実現される。
【0024】
ジェスチャ形状推定装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。ジェスチャ形状推定装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。ジェスチャ形状推定装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。ジェスチャ形状推定装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。ジェスチャ形状推定装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
【0025】
図5を参照して、第一実施形態のジェスチャ形状推定装置2が実行するジェスチャ形状推定方法の処理手続きを説明する。
【0026】
モデル記憶部140には、ジェスチャ形状学習装置1により学習されたジェスチャ形状決定モデルが記憶されている。
【0027】
ジェスチャ形状推定装置2には、推定対象とする物体名称単語に対応するn枚の画像が入力される。これらの画像は、例えば、物体画像データベースを構築する際と同様に、インターネット上からダウンロードして収集したものでもよいし、その他の手法により収集したものでもよい。
【0028】
ステップS21において、画像サイズ変換部21は、各入力画像を、モデル適用に適した画像サイズに変換する。すなわち、画像サイズ変換部21は、ジェスチャ形状学習装置1の画像サイズ変換部11と同様にして、入力画像のサイズを変換する。
【0029】
ステップS22において、ジェスチャ形状推定部22は、画像サイズ変換部21により変換されたn枚の入力画像を、モデル記憶部140に記憶されているジェスチャ形状決定モデルに入力し、入力画像に対応するジェスチャ形状を推定する。具体的には、まず、各入力画像に対して、学習済みのVGG-16を適用し、4096次元の特徴量を得る。次に、各入力画像から得られた4096次元の特徴量から4096次元の平均ベクトルを算出する。この4096次元の平均ベクトルを学習済みのニューラルネットワークに入力し、7種類のジェスチャ形状を表すラベルの尤度を出力結果として得る。そして、出力結果の尤度が最大となるジェスチャ形状を、推定対象とした物体名称単語に対応するジェスチャ形状として出力する。
【0030】
[第二実施形態]
第二実施形態は、画像の特徴量からジェスチャ形状を二段階で推定するジェスチャ形状決定モデルを学習するジェスチャ形状学習装置3と、ジェスチャ形状学習装置3により学習されたジェスチャ形状決定モデルを用いて入力画像からジェスチャ形状を推定するジェスチャ形状推定装置4とからなる。二段階の推定では、まずジェスチャ形状の基本形状を推定し、次にその基本形状における縦横比を推定する。最終的に推定したいジェスチャ形状が、第一実施形態で例示したように「円」「横長楕円」「縦長楕円」「正方形」「横長四角」「縦長四角」「線形」の7種類であるとすれば、基本形状を「円」「四角」「線形」の3種類とし、縦横比を「横長」「縦長」「均等」の3種類とすればよい。最終的に出力されるジェスチャ形状は、基本形状と縦横比の組み合わせにより決定する。例えば、基本形状の推定結果が「円」であり、縦横比の推定結果が「横長」であれば、出力されるジェスチャ形状は「横長楕円」となる。以下、第一実施形態との相違点を中心に説明する。
【0031】
<ジェスチャ形状学習装置3>
第二実施形態のジェスチャ形状学習装置3は、図6に例示するように、ジェスチャ形状学習部13が基本形状学習部131および縦横比学習部132を備える点が、第一実施形態のジェスチャ形状学習装置1と異なる。このジェスチャ形状学習装置3が、図7に例示する各ステップの処理を行うことにより第二実施形態のジェスチャ形状学習方法が実現される。
【0032】
ステップS131において、基本形状学習部131は、学習データ記憶部130へ記憶された学習データを用いて、画像から抽出した特徴量を入力とし、その画像に対応するジェスチャ形状の基本形状を推定する基本形状決定モデルを学習する。基本形状決定モデルの構造は、図3に示した第一実施形態のジェスチャ形状決定モデルと同様である。第一実施形態では、学習データのジェスチャ形状を「円」「横長楕円」「縦長楕円」「正方形」「横長四角」「縦長四角」「線形」の7種類としたが、これらのジェスチャ形状のうち「円」「横長楕円」「縦長楕円」を「円」に、「正方形」「横長四角」「縦長四角」を「四角」に変換して学習を行う。基本形状学習部131は、学習済みの基本形状決定モデルをモデル記憶部140へ記憶する。
【0033】
ステップS132において、縦横比学習部132は、学習データ記憶部130へ記憶された学習データを用いて、画像から抽出した特徴量を入力とし、その画像に対応するジェスチャ形状の縦横比を推定する縦横比決定モデルを学習する。縦横比決定モデルの構造は、図3に示した第一実施形態のジェスチャ形状決定モデルと同様である。第一実施形態では、学習データのジェスチャ形状を「円」「横長楕円」「縦長楕円」「正方形」「横長四角」「縦長四角」「線形」の7種類としたが、これらのジェスチャ形状のうち「円」「正方形」を「均等」に、「横長楕円」「横長四角」を「横長」に、「縦長楕円」「縦長四角」を「縦長」に変換して学習を行う。縦横比学習部132は、学習済みの縦横比決定モデルをモデル記憶部140へ記憶する。
【0034】
<ジェスチャ形状推定装置4>
第二実施形態のジェスチャ形状推定装置4は、図8に例示するように、ジェスチャ形状推定部22が基本形状推定部221、縦横比推定部222、およびジェスチャ形状決定部223を備える点が、第一実施形態のジェスチャ形状推定装置2と異なる。このジェスチャ形状推定装置4が、図9に例示する各ステップの処理を行うことにより第二実施形態のジェスチャ形状推定方法が実現される。
【0035】
ステップS221において、基本形状推定部221は、画像サイズ変換部21により変換されたn枚の入力画像を、モデル記憶部140に記憶されている基本形状決定モデルに入力し、入力画像に対応するジェスチャ形状の基本形状を推定する。基本形状推定部221は、基本形状決定モデルの出力結果の尤度が最大となる基本形状を、ジェスチャ形状の基本形状としてジェスチャ形状決定部223へ出力する。
【0036】
なお、基本形状推定部221が推定したジェスチャ形状の基本形状が、例えば「線形」のように縦横比の別が存在しない形状である場合、以降の処理は実行せず、その基本形状を推定対象とした物体名称単語に対応するジェスチャ形状として出力する。
【0037】
ステップS222において、縦横比推定部222は、画像サイズ変換部21により変換されたn枚の入力画像を、モデル記憶部140に記憶されている縦横比決定モデルに入力し、入力画像に対応するジェスチャ形状の縦横比を推定する。縦横比推定部222は、縦横比決定モデルの出力結果の尤度が最大となる縦横比を、ジェスチャ形状の縦横比としてジェスチャ形状決定部223へ出力する。
【0038】
ステップS223において、ジェスチャ形状決定部223は、ジェスチャ形状決定部223が出力する基本形状と、縦横比推定部222が出力する縦横比とからジェスチャ形状を決定し、推定対象とした物体名称単語に対応するジェスチャ形状として出力する。
【0039】
[第三実施形態]
第三実施形態では、第一実施形態もしくは第二実施形態のジェスチャ形状推定技術を、モーションラベル生成技術と組み合わせる。モーションラベル生成技術とは、発話を文字起こしした発話テキストから、発話内容に合わせた全身のモーションのラベルを生成する技術である(例えば、参考文献1、2参照)。
【0040】
〔参考文献1〕国際公開第2019/160104号
〔参考文献2〕Ryo Ishii, Taichi Katayama, Ryuichiro Higashinaka, and Junji Tomita, "Generating Body Motions using Spoken Language in Dialogue," Proceedings of the 18th International Conference on Intelligent Virtual Agents (IVA '18), pp. 87-92, 2018.
【0041】
モーションラベル生成技術では、発話テキストを入力として、発話テキストの文節ごとにどのようなハンドジェスチャを行うかを表す情報を生成する。例えば参考文献1、2に記載された技術では、文節ごとに図像的ジェスチャを行うか否かのラベルを出力する。第三実施形態では、このラベルが出力された際に、そのラベルが出力された文節および前後の文節に含まれる単語を用いて、第一実施形態もしくは第二実施形態のジェスチャ形状推定を実施することで、どのような形状のジェスチャを生成するかをより詳細に推定する。以下、第一実施形態および第二実施形態との相違点を中心に説明する。
【0042】
<ジェスチャ形状推定装置5>
第三実施形態のジェスチャ形状推定装置5は、図10に例示するように、第一実施形態と同様に、モデル記憶部140、画像サイズ変換部21、およびジェスチャ形状推定部22を備え、さらに、モーションラベル生成部31および入力画像生成部32を備える。このジェスチャ形状推定装置5が、図11に例示する各ステップの処理を行うことにより第三実施形態のジェスチャ形状推定方法が実現される。
【0043】
ステップS31において、モーションラベル生成部31は、入力された発話テキストから、文節ごとにジェスチャを行うか否かを表すモーションラベルを生成する。モーションラベル生成部31は、ジェスチャを行うことを表すモーションラベルが生成されたら、入力画像生成部32へその旨を通知する。
【0044】
ステップS32において、入力画像生成部32は、ジェスチャを行う旨を表すモーションラベルが生成された文節およびその前後の文節に含まれる単語について、その単語に対応するn枚の画像を収集する。画像の収集は、例えば、ジェスチャ形状学習装置で用いた物体画像データベースからその単語に対応する画像を取得してもよいし、物体画像データベースを生成する際に行ったようにその単語を検索語としてインターネットで画像検索してダウンロードしてもよい。入力画像生成部32は、収集したn枚の画像を、入力画像として画像サイズ変換部21へ入力する。
【0045】
ステップS21において、画像サイズ変換部21は、第一実施形態と同様に、各入力画像をモデル適用に適した画像サイズに変換し、ジェスチャ形状推定部22へ入力する。
【0046】
ステップS22において、ジェスチャ形状推定部22は、第一実施形態と同様に、n枚の入力画像からジェスチャ形状を推定する。
【0047】
第三実施形態では、第一実施形態のジェスチャ形状推定装置2をモーションラベル生成技術と組み合わせる構成を説明したが、第二実施形態のジェスチャ形状推定装置4と組み合わせるように構成してもよい。この場合、ジェスチャ形状推定装置5は、ジェスチャ形状推定部22が基本形状推定部221、縦横比推定部222、およびジェスチャ形状決定部223を備えるように構成すればよい。
【0048】
従来のモーションラベル生成技術では図像的ジェスチャの具体的な形状までを推定することはできなかった。第三実施形態のジェスチャ形状推定技術を用いればより詳細なジェスチャ形状を推定することが可能となる。
【0049】
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
【0050】
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図12に示すコンピュータの記憶部1020に読み込ませ、制御部1010、入力部1030、出力部1040などに動作させることにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
【0051】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
【0052】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0053】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0054】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12