IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ハイパーダイン株式会社の特許一覧

特開2022-30683情報処理装置、情報処理方法及びプログラム
<>
  • 特開-情報処理装置、情報処理方法及びプログラム 図1
  • 特開-情報処理装置、情報処理方法及びプログラム 図2
  • 特開-情報処理装置、情報処理方法及びプログラム 図3
  • 特開-情報処理装置、情報処理方法及びプログラム 図4
  • 特開-情報処理装置、情報処理方法及びプログラム 図5
  • 特開-情報処理装置、情報処理方法及びプログラム 図6
  • 特開-情報処理装置、情報処理方法及びプログラム 図7
  • 特開-情報処理装置、情報処理方法及びプログラム 図8
  • 特開-情報処理装置、情報処理方法及びプログラム 図9
  • 特開-情報処理装置、情報処理方法及びプログラム 図10
  • 特開-情報処理装置、情報処理方法及びプログラム 図11
  • 特開-情報処理装置、情報処理方法及びプログラム 図12
  • 特開-情報処理装置、情報処理方法及びプログラム 図13
  • 特開-情報処理装置、情報処理方法及びプログラム 図14
  • 特開-情報処理装置、情報処理方法及びプログラム 図15
  • 特開-情報処理装置、情報処理方法及びプログラム 図16
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022030683
(43)【公開日】2022-02-18
(54)【発明の名称】情報処理装置、情報処理方法及びプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20220210BHJP
【FI】
G06T7/00
G06T7/00 660Z
【審査請求】有
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2020134847
(22)【出願日】2020-08-07
(11)【特許番号】
(45)【特許公報発行日】2021-07-21
(71)【出願人】
【識別番号】520299625
【氏名又は名称】ハイパーダイン株式会社
(74)【代理人】
【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【弁理士】
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【弁理士】
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【弁理士】
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】宮島 靖
(72)【発明者】
【氏名】山下 真吾
(72)【発明者】
【氏名】五十嵐 一浩
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096CA01
5L096FA67
5L096FA69
5L096FA79
5L096HA13
5L096JA28
(57)【要約】
【課題】画像に含まれる複数の画像オブジェクトについて、多様な関係をより詳細に推定することを可能とする情報処理装置、情報処理方法及びプログラムを提供する。
【解決手段】
複数の対象オブジェクトのそれぞれに含まれる特徴点の空間的関係と複数の対象オブジェクトの間の意味情報とを関連付けた関係情報を記憶する記憶部210と、画像に含まれる複数の画像オブジェクトのそれぞれから抽出される特徴点の空間的関係と関係情報とに基づいて、複数の画像オブジェクトの間の意味関係を推定する意味推定部238と、
を備える、情報処理装置20。
【選択図】図3
【特許請求の範囲】
【請求項1】
複数の対象オブジェクトのそれぞれに含まれる特徴点の空間的関係と前記複数の対象オブジェクトの間の意味情報とを関連付けた関係情報を記憶する記憶部と、
画像に含まれる複数の画像オブジェクトのそれぞれから抽出される特徴点の空間的関係と前記関係情報とに基づいて、前記複数の画像オブジェクトの間の意味関係を推定する意味推定部と、
を備える、情報処理装置。
【請求項2】
前記意味推定部は、前記画像オブジェクトに付帯する付帯情報に基づいて、前記複数の画像オブジェクトの間の意味関係を推定する、
請求項1に記載の情報処理装置。
【請求項3】
前記複数の画像オブジェクトは、人の画像オブジェクトを含み、
前記付帯情報は、前記人の年齢、性別、体格、筋力、運動能力、装備品又は携行品の少なくともいずれかに関する情報を含む、
請求項2に記載の情報処理装置。
【請求項4】
前記複数の画像オブジェクトは、人の画像オブジェクトを含み、
前記付帯情報は、前記人の画像オブジェクトの特徴点に基づき推定される前記人の位置、体格、姿勢及び向きの少なくともいずれかに関する情報を含む、
請求項2又は3に記載の情報処理装置。
【請求項5】
前記複数の画像オブジェクトは、物体の画像オブジェクトを含み、
前記付帯情報は、前記物体の重さ、材質、重量分布及び重心の少なくともいずれかに関する情報を含む、
請求項2から4のいずれか一項に記載の情報処理装置。
【請求項6】
前記複数の画像オブジェクトは、物体の画像オブジェクトを含み、
前記付帯情報は、前記物体の画像オブジェクトの特徴点に基づき推定される前記物体の位置、大きさ、形状及び向きの少なくともいずれかに関する情報を含む、
請求項2から5のいずれか一項に記載の情報処理装置。
【請求項7】
前記複数の画像オブジェクトは、人の画像オブジェクト及び物体の画像オブジェクトを含み、
前記複数の画像オブジェクトの間の意味関係は、前記人による前記物体への動作、前記動作の目的又は前記物体が前記人に与える影響のうちの少なくともいずれかを含む、
請求項1から6のいずれか一項に記載の情報処理装置。
【請求項8】
前記複数のオブジェクトのそれぞれに含まれる特徴点は、第1ラベル情報が付与されている特徴点と、前記第1ラベル情報と特定の関係にある第2ラベル情報が付与された特徴点とを含み、
前記意味推定部は、第1画像オブジェクトから抽出される第1ラベル情報が付与された特徴点と、前記第2ラベル情報が付与された第2画像オブジェクトの特徴点との空間的関係と前記関係情報とに基づいて、前記第1画像オブジェクトと前記第2画像オブジェクトの間の意味関係を推定する、
請求項1から7のいずれか一項に記載の情報処理装置。
【請求項9】
前記複数の画像オブジェクトは、人の画像オブジェクト及び物体の画像オブジェクトを含み、
前記意味推定部により推定された前記人の画像オブジェクト及び前記物体の画像オブジェクトの間の意味関係が特定の意味条件を満たし、前記人の画像オブジェクトの特徴点に基づき推定される前記人の状態が特定の状態条件を満たす場合には、前記状態に応じた情報を生成する情報生成部を、さらに備える、
請求項1から8のいずれか一項に記載の情報処理装置。
【請求項10】
前記状態条件は、前記人の画像オブジェクトの特徴点に基づき推定される前記人の姿勢に関する条件を含み、
前記情報生成部は、前記人の姿勢に応じた情報を生成する、
請求項9に記載の情報処理装置。
【請求項11】
前記状態条件は、前記人の画像オブジェクトの特徴点及び前記物体の画像オブジェクトに関する重さに関わる付帯情報に基づき推定される前記人にかかる負荷に関する条件を含み、
前記情報生成部は、前記負荷に応じた情報を生成する、
請求項10に記載の情報処理装置。
【請求項12】
前記画像は、複数の画像オブジェクトを含み、
前記意味推定部は、前記複数の画像オブジェクトのそれぞれについて意味関係を推定し、
特定の条件に合致する意味関係に対応する画像オブジェクトの特徴点に関する、前記特定の条件に応じた情報を生成する特徴点情報生成部を、さらに備える、
請求項1から11のいずれか一項に記載の情報処理装置。
【請求項13】
メモリ及びプロセッサを備える情報処理装置による情報処理方法であって、
前記メモリが、複数の対象オブジェクトのそれぞれに含まれる特徴点の空間的関係と前記複数の対象オブジェクトの間の意味情報とを関連付けた関係情報を記憶することと、
前記プロセッサが、画像に含まれる複数の画像オブジェクトのそれぞれから抽出される特徴点の空間的関係と前記関係情報とに基づいて、前記複数の画像オブジェクトの間の意味関係を推定することと、
を含む、情報処理方法。
【請求項14】
コンピュータに、
複数の対象オブジェクトのそれぞれに含まれる特徴点の空間的関係と前記複数の対象オブジェクトの間の意味情報とを関連付けた関係情報を記憶することと、
画像に含まれる複数の画像オブジェクトのそれぞれから抽出される特徴点の空間的関係と前記関係情報とに基づいて、前記複数の画像オブジェクトの間の意味関係を推定することと、
を実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法及びプログラムに関する。
【背景技術】
【0002】
従来、画像に含まれる複数の画像オブジェクト(例えば、人又は物体の画像オブジェクト)の関係を推定する技術がある。
【0003】
例えば、特許文献1には、画像と、その画像に含まれる複数の物体間の関係とを対応付けた学習データに基づいて学習済みモデルを生成し、その学習済みモデルを用いて画像に含まれる物体間の関係を認識する技術が記載されている。
【0004】
また、特許文献2には、画像に含まれる人の領域及び物体の領域を検出し、人の姿勢とその人の周囲に存在する物体との位置関係に応じて、人の行動を判別する技術が記載されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2019-101907号公報
【特許文献2】特開2018-206321号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1に記載の技術では、様々な物体間の関係を学習済みモデルに推定させるためには、それぞれの物体間の関係をモデルに学習させる必要がある。このため、特許文献1に記載の技術では、複数の物体について、学習していない未知の関係を推定できない。
【0007】
また、特許文献2に記載の技術では、人の領域に基づき行動が判別されるため、人の行動を詳細に判別することができない。このため、画像に含まれる人と物体の関係をより詳細に推定できる技術が求められていると考えられる。
【0008】
そこで、本発明は、画像に含まれる複数の画像オブジェクトについて、多様な関係をより詳細に推定することを可能とする情報処理装置、情報処理方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明の一態様に係る情報処理装置は、複数の対象オブジェクトのそれぞれに含まれる特徴点の空間的関係と複数の対象オブジェクトの間の意味情報とを関連付けた関係情報を記憶する記憶部と、画像に含まれる複数の画像オブジェクトのそれぞれから抽出される特徴点の空間的関係と関係情報とに基づいて、複数の画像オブジェクトの間の意味関係を推定する意味推定部と、を備える。
【0010】
この態様によれば、予め指定された関係情報に基づいて、意味関係が推定される。ユーザは、所望に応じた様々な関係情報を設定できるため、複数の画像オブジェクトについて、より多様な関係の推定が可能となる。また、複数の画像オブジェクトの間の関係の推定には、画像オブジェクトの特徴点が用いられるため、より詳細な関係の推定が可能となる。
【0011】
上記態様において、意味推定部は、画像オブジェクトに付帯する付帯情報に基づいて、複数の画像オブジェクトの間の意味関係を推定してもよい。
【0012】
この態様によれば、関係情報に加えて、意味関係の推定に画像オブジェクトに応じた情報が用いられるため、より詳細あるいは正確に意味関係を推定することが可能となる。
【0013】
上記態様において、複数の画像オブジェクトは、人の画像オブジェクトを含み、付帯情報は、人の年齢、性別、体格、筋力、運動能力、装備品又は携行品の少なくともいずれかに関する情報を含んでもよい。
【0014】
この態様によれば、人の画像オブジェクトに応じた付帯情報が用いられるため、より詳細あるいは正確に意味関係を推定することが可能となる。
【0015】
上記態様において、複数の画像オブジェクトは、人の画像オブジェクトを含み、付帯情報は、人の画像オブジェクトの特徴点に基づき推定される人の位置、体格、姿勢及び向きの少なくともいずれかに関する情報を含んでもよい。
【0016】
この態様によれば、実際の人の画像オブジェクトに応じた付帯情報が用いられるため、より詳細あるいは正確に意味関係を推定することが可能となる。
【0017】
上記態様において、複数の画像オブジェクトは、物体の画像オブジェクトを含み、付帯情報は、物体の重さ、材質、重量分布及び重心の少なくともいずれかに関する情報を含んでもよい。
【0018】
この態様によれば、物体の画像オブジェクトに応じた付帯情報が用いられるため、より詳細あるいは正確に意味関係を推定することが可能となる。
【0019】
上記態様において、複数の画像オブジェクトは、物体の画像オブジェクトを含み、付帯情報は、物体の画像オブジェクトの特徴点に基づき推定される物体の位置、大きさ、形状及び向きの少なくともいずれかに関する情報を含んでもよい。
【0020】
この態様によれば、実際の物体の画像オブジェクトに応じた付帯情報が用いられるため、より詳細あるいは正確に意味関係を推定することが可能となる。
【0021】
上記態様において、複数の画像オブジェクトは、人の画像オブジェクト及び物体の画像オブジェクトを含み、複数の画像オブジェクトの間の意味関係は、人による物体への動作、動作の目的又は物体が人に与える影響のうちの少なくともいずれかを含んでもよい。
【0022】
この態様によれば、より適切な意味関係を推定することが可能となる。
【0023】
上記態様において、複数のオブジェクトのそれぞれに含まれる特徴点は、第1ラベル情報が付与されている特徴点と、第1ラベル情報と特定の関係にある第2ラベル情報が付与された特徴点とを含み、意味推定部は、第1画像オブジェクトから抽出される第1ラベル情報が付与された特徴点と、第2ラベル情報が付与された第2画像オブジェクトの特徴点との空間的関係と関係情報とに基づいて、第1画像オブジェクトと第2画像オブジェクトの間の意味関係を推定してもよい。
【0024】
この態様によれば、特定の関係にある特徴点に基づいて意味関係が推定されるため、より正確に意味関係を推定することが可能となる。
【0025】
上記態様において、複数の画像オブジェクトは、人の画像オブジェクト及び物体の画像オブジェクトを含み、意味推定部により推定された人の画像オブジェクト及び物体の画像オブジェクトの間の意味関係が特定の意味条件を満たし、人の画像オブジェクトの特徴点に基づき推定される人の状態が特定の状態条件を満たす場合には、状態に応じた情報を生成する情報生成部を、さらに備えてもよい。
【0026】
この態様によれば、特定の条件を満たす画像オブジェクトに係る情報が生成されるため、ユーザが所望する情報が生成され易くなる。
【0027】
上記態様において、状態条件は、人の画像オブジェクトの特徴点に基づき推定される人の姿勢に関する条件を含み、情報生成部は、人の姿勢に応じた情報を生成してもよい。
【0028】
この態様によれば、ユーザは、画像に含まれる人の姿勢に関して、姿勢に応じた適切な情報を取得することが可能となる。
【0029】
上記態様において、状態条件は、人の画像オブジェクトの特徴点及び物体の画像オブジェクトに関する重さに関わる付帯情報に基づき推定される人にかかる負荷に関する条件を含み、情報生成部は、負荷に応じた情報を生成してもよい。
【0030】
この態様によれば、人にかかる負荷が所定の条件を満たす場合には、ユーザは、その負荷に関する適切な情報を取得することが可能となる。
【0031】
上記態様において、画像は、複数の画像オブジェクトを含み、意味推定部は、複数の画像オブジェクトのそれぞれについて意味関係を推定し、特定の条件に合致する意味関係に対応する画像オブジェクトの特徴点に関する、特定の条件に応じた情報を生成する特徴点情報生成部を、さらに備えてもよい。
【0032】
この態様によれば、画像に多くの画像オブジェクトが含まれる場合であっても、特定の条件を満たす画像オブジェクトに着目した情報を取得できる。
【0033】
本発明の他の態様に係る情報処理方法は、メモリ及びプロセッサを備える情報処理装置による情報処理方法であって、メモリが、複数の対象オブジェクトのそれぞれに含まれる特徴点の空間的関係と複数の対象オブジェクトの間の意味情報とを関連付けた関係情報を記憶することと、プロセッサが、画像に含まれる複数の画像オブジェクトのそれぞれから抽出される特徴点の空間的関係と関係情報とに基づいて、複数の画像オブジェクトの間の意味関係を推定することと、を含む。
【0034】
この態様によれば、予め指定された関係情報に基づいて、意味関係が推定される。ユーザは、所望に応じた様々な関係情報を設定できるため、複数の画像オブジェクトについて、より多様な関係の推定が可能となる。また、複数の画像オブジェクトの間の関係の推定には、画像オブジェクトの特徴点が用いられるため、より詳細な関係の推定が可能となる。
【0035】
本発明の他の態様に係るプログラムは、コンピュータに、複数の対象オブジェクトのそれぞれに含まれる特徴点の空間的関係と複数の対象オブジェクトの間の意味情報とを関連付けた関係情報を記憶することと、画像に含まれる複数の画像オブジェクトのそれぞれから抽出される特徴点の空間的関係と関係情報とに基づいて、複数の画像オブジェクトの間の意味関係を推定することと、を実行させるためのプログラムである。
【0036】
この態様によれば、予め指定された関係情報に基づいて、意味関係が推定される。ユーザは、所望に応じた様々な関係情報を設定できるため、複数の画像オブジェクトについて、より多様な関係の推定が可能となる。また、複数の画像オブジェクトの間の関係の推定には、画像オブジェクトの特徴点が用いられるため、より詳細な関係の推定が可能となる。
【発明の効果】
【0037】
本発明によれば、画像に含まれる複数の画像オブジェクトについて、多様な関係をより詳細に推定することを可能とする情報処理装置、情報処理方法及びプログラムを提供することができる。
【図面の簡単な説明】
【0038】
図1】第1実施形態に係る情報処理システムの構成概略図である。
図2】同実施形態に係る記憶部に記憶された関係情報リストの一例を示す図である。
図3】同実施形態に係る処理部の構成の一例を示す機能ブロック図である。
図4】同実施形態に係る撮像部が撮像する画像及び認識部の認識結果を示す図である。
図5】同実施形態に係る認識部が画像に基づき認識した画像オブジェクト及び抽出した特徴点に関する情報をリスト化した画像オブジェクトリストを示す図である。
図6図5に示した2番の画像オブジェクトの付帯情報を表す付帯情報リストを示す図である。
図7】意味推定部が意味関係を推定した結果をリストにした意味関係リストを示す図である。
図8】本実施形態に係る情報処理装置が、画像に含まれる複数の画像オブジェクトの間の意味関係を推定する処理の流れを示すシーケンス図である。
図9図8の意味推定処理の詳細を示すフローチャートである。
図10】第1実施形態に係る情報処理システムが意味推定ユニットによる意味推定に応じた情報を生成し、生成した情報を表示するまでの処理を示すフローチャートである。
図11】第2実施形態に係る情報処理装置が備える処理部の機能ブロック図である。
図12】同実施形態に係る意味推定ユニットの認識部が、第2実施形態に係る画像に含まれる画像オブジェクトを認識した結果を示す画像オブジェクトリストを示す図である。
図13図12に示した2番の画像オブジェクトの付帯情報を表す付帯情報リストを示す図である。
図14】第2実施形態に係る意味関係リストを示す図である。
図15】同実施形態に係る情報処理システムによる処理の流れを示すフローチャートである。
図16】本開示の一実施形態に係る入出力装置及び情報処理装置のハードウェア構成の一例を示す図である。
【発明を実施するための形態】
【0039】
添付図面を参照して、本発明の好適な実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。
【0040】
[第1実施形態]
図1を参照して、第1実施形態に係る情報処理システム1について説明する。本実施形態に係る情報処理システム1は、主として、入出力装置10及び情報処理装置20を備える。入出力装置10及び情報処理装置20は、通信ネットワーク15を介して、互いに通信可能に接続されている。本実施形態では、情報処理装置20は、クラウド上のサーバとして機能するものとする。
【0041】
通信ネットワーク15は、各種の態様を取り得る。通信ネットワーク15は、例えば、専用回線を通して相互に接続するデータ伝送ネットワーク(WAN)又はローカル・エリア・ネットワーク(LAN)等であってよい。本実施形態では、通信ネットワーク15は、公共ネットワークの代表のインターネットであるものとして説明する。
【0042】
入出力装置10は、情報の入力及び出力等を行ったり、情報処理装置20と各種の情報の送受信を行ったりできる。入出力装置10が有する機能は、撮像部100、入力部102、出力部104、通信部106、制御部108及び記憶部110が協働することにより実現される。
【0043】
撮像部100は、RGBカメラ、赤外線カメラ、ToF(Time of Flight)カメラ又はレーザーレンジファインダ等の各種の撮像装置を含む。撮像部100は、静止画像または動画像などの画像を撮像する。撮像部100が撮像する画像は、2次元又は3次元の画像であって良いが、本実施形態では、撮像される画像は2次元の画像であるものとする。
【0044】
また、本実施形態では、撮像部100は、ゴルフ場の画像を撮像する。例えば、撮像部100は、1人又は複数のゴルフプレイヤ等を含む画像を撮像する。撮像部100は、撮像した画像を記憶部110に記憶させてもよいし、撮像した画像を制御部108に伝送してもよい。
【0045】
入力部102は、ユーザの操作に応じて各種の入力情報を生成し、生成した入力情報を制御部108に伝送する。
【0046】
出力部104は、各種の情報を出力できる。具体的には、出力部104は、各種の情報を表示できる表示部及び各種の音声を出力できる音声出力部を備える。例えば、出力部104の表示部は、撮像部100により撮像された画像及び情報処理装置20による演算結果等を表示できる。あるいは、出力部104の音声出力部は、情報処理装置20による演算結果等に応じて、音声を出力できる。
【0047】
通信部106は、各種の情報を他の装置と送受信できる。例えば、通信部106は、通信ネットワーク15を介して、情報処理装置20と各種の情報を送受信できる。例えば、通信部106は、撮像部100により撮像された画像を情報処理装置20に送信できる。あるいは、通信部106は、情報処理装置20から各種の情報処理の結果(例えば、意味関係の推定結果及び推定結果に基づき生成された情報等)を受信できる。通信部106は、受信した情報を制御部108に伝送する。
【0048】
制御部108は、入出力装置10が備える各種の機能を制御する。具体的には、制御部108は、出力部104の出力及び通信部106の送受信等を制御する。例えば、制御部108は、出力部104による画面の表示及び音声の出力等を制御できる。また、制御部108は、記憶部110に記憶されている各種の情報を用いて、各種の機能を制御できる。
【0049】
記憶部110は、各種の情報を記憶する。例えば、記憶部110は、撮像部100が撮像した画像及び情報処理装置20の処理結果等を記憶する。記憶部110が記憶している各種の情報は、必要に応じて制御部108により用いられる。
【0050】
情報処理装置20は、各種の情報処理を実行する。本実施形態では、情報処理装置20は、入出力装置10から画像を受信し、その画像に含まれる複数の画像オブジェクトの間の意味関係を推定し、推定結果に応じた情報を入出力装置10に送信できる。情報処理装置20が有する機能は、通信部200、記憶部210及び処理部220が協働することにより実現される。
【0051】
通信部200は、各種の情報を他の装置と送受信できる。例えば、通信部200は、通信ネットワーク15を介して、入出力装置10から画像を受信できる。あるいは、通信部200は、通信ネットワーク15を介して、情報処理装置20による情報処理の結果を入出力装置10に送信できる。
【0052】
記憶部210は、各種の情報を記憶する。例えば、記憶部210は、処理部220による情報処理に用いられる情報(画像等)及び処理部220による情報処理の結果等を記憶する。記憶部210が記憶している各種の情報は、必要に応じて処理部220により参照される。
【0053】
また、記憶部210は、各種の対象オブジェクトに付帯する付帯情報を記憶してよい。対象オブジェクトは、画像に含まれ得るオブジェクトであり、例えば人あるいは各種の物体等を示すオブジェクトである。付帯情報は、処理部220により参照され、各種の情報処理に用いられてよい。
【0054】
付帯情報は、例えば、対象オブジェクトが特定の人のオブジェクトである場合には、特定の人の年齢、性別、体格、筋力、運動能力、装備品又は携行品等に関する情報を含んでよい。また、対象オブジェクトが物体のオブジェクトである場合には、物体の重さ、材質、重量分布及び重心等に関する情報を含んでよい。このように、付帯情報は、画像のみに基づいて正確に推定できない情報を含み得る。
【0055】
また、記憶部210は、画像に含まれる画像オブジェクトから特徴点を抽出するための情報を記憶してよい。ここで、特徴点は、画像オブジェクトに含まれる特徴的な部分を示す情報である。例えば、記憶部210は、画像に含まれる画像オブジェクトの特徴点に関する情報がアノテーションされた画像を学習データとして、所定の機械学習アルゴリズムに基づき構築された学習済みモデルを記憶してよい。特徴点に関する情報は、例えば、その特徴点を含む画像オブジェクトの種類(例えば、人あるいは物体等)又はラベル情報(人の手、肩又は足等)を含んでよい。
【0056】
また、記憶部210は、各種の学習済みモデルを記憶してよい。例えば、学習済みモデルは、抽出された特徴点に基づいて、人の姿勢を推定するように学習された学習済みモデルであってもよい。
【0057】
また、記憶部210は、複数の対象オブジェクトのそれぞれに含まれる特徴点の空間的関係と複数の対象オブジェクトの間の意味情報とを関連付けた関係情報を記憶する。空間的関係は、例えば、位置関係、距離関係、方向関係及び密度関係等を含んでよい。ここで、密度関係は、画像における特徴点の密度を規定する情報であり、例えば、所定の範囲にいくつの特徴点が存在するかを規定する情報であってよい。
【0058】
また、複数の対象オブジェクトの間の意味情報は、複数の対象オブジェクトの間の意味を定義した情報である。例えば、複数の対象オブジェクトの間の意味情報は、人による物体への動作(例えば、物体の使用方法等)、動作の目的又は物体が人に与える影響のうちの少なくともいずれかを含んでよい。例えば、意味情報は、特定の画像オブジェクトが他の画像オブジェクトに何を行っているのかを示す情報(動作の目的)であり得る。
【0059】
ここで、対象オブジェクトの数が3つである場合を例に説明する。3つの対象オブジェクトのそれぞれを第1オブジェクト、第2オブジェクト及び第3オブジェクトと称する。また、第1オブジェクトは少なくとも1つの第1特徴点を含み、第2オブジェクトは少なくとも1つの第2特徴点を含み、第3オブジェクトは少なくとも1つの第3特徴点を含むものとする。この場合、関係情報は、これらの特徴点(すなわち、第1特徴点、第2特徴点及び第3特徴点)の空間的関係と、3つの対象オブジェクト(すなわち、第1オブジェクト、第2オブジェクト及び第3オブジェクト)の間の意味情報を関連付けた情報を含む。なお、ここでは、対象オブジェクトの数が3つである例について説明したが、対象オブジェクトの数は2つであってもよいし、4つ以上であってもよい。以下の説明では、主に、対象オブジェクトの数が2つである例を説明する。
【0060】
図2を参照して、複数の対象オブジェクトの空間的関係及び意味情報の具体例と、それらの情報の関係について説明する。図2は、本実施形態に係る記憶部210に記憶された関係情報リスト212の一例を示す図である。図2に示す関係情報リスト212には、No1~No4の4つの関係定義が含まれている。それぞれの関係定義は、対象オブジェクトの種類、対象オブジェクトの特徴点のラベル、複数の画像オブジェクトの空間的関係及び複数の画像オブジェクトの間の意味情報を含んでいる。また、それぞれの関係定義は、空間的関係と意味情報とを関連付ける関係情報である。以下では、No1~No4の関係定義を、第1~第4関係定義と称する。
【0061】
これらの関係定義は、後述するように、画像に含まれる複数の画像オブジェクトの間の意味関係を推定するために用いられる。複数の画像オブジェクトの間の意味関係は、複数の画像オブジェクトの間の関係を意味づける情報である。本実施形態では、画像に含まれる複数の画像オブジェクトの空間的関係が、関係定義に含まれる空間的関係を満たす場合には、その関係定義に含まれる意味情報に基づき意味関係が推定される。意味関係の推定の詳細については、図3を参照して後述する。ここでは、関係情報リスト212の内容について説明する。
【0062】
例えば、第1関係定義は、人の対象オブジェクトとゴルフクラブの対象オブジェクトとの関係定義である。具体的には、第1関係定義は、人の右手及び左手の特徴点とゴルフクラブのグリップの特徴点との空間的関係と、人の対象オブジェクト及びゴルフクラブの対象オブジェクトの間の意味情報とを関連付けている。
【0063】
本実施形態に係る関係定義では、あるラベル情報が付与された特徴点と、そのラベル情報と特定の関係にある他のラベル情報が付与された特徴点の空間的関係が規定されている。第1関係定義の空間的関係では、ゴルフクラブのグリップの特徴点と、グリップに関係する人の右手及び左手の特徴点について規定されている。具体的には、第1関係定義の空間的関係は、第1関係定義に関わる全ての特徴点(すなわち、人の右手及び左手の特徴点と、ゴルフクラブのグリップの特徴点)が互いに近接していることを規定している。ここで、3つの特徴点が近接していることは、3つの特徴点の間の距離が所定値(例えば10cm)以内であることであってよい。すなわち、第1関係定義の空間的関係は、第1関係定義に関わる3つ全ての特徴点の距離が、10cm以内となっていることであってよい。なお、所定値は10cm以内に限定されるものではなく、任意の距離を設定してよい。
【0064】
また、第1関係定義の意味情報は、「人がゴルフクラブを持っている」という情報である。したがって、第1関係定義は、右手、左手及びグリップのいずれの特徴点も近接していることは、人がゴルフクラブを持っていることを意味することを定義している。
【0065】
また、関係定義には、複数の空間的関係が含まれてよい。例えば、第2関係定義には、(a)人の右手、左手及びゴルフクラブのグリップのそれぞれの特徴点が互いに近接していることと、(b)ゴルフクラブのヘッドの特徴点が人の頭の特徴点よりも上にあることとの2つの空間的関係が含まれている。これらの2つの空間的関係を、画像に含まれる複数の画像オブジェクトの空間的関係が満たす場合には、第2関係定義に含まれる意味情報「人がゴルフクラブを振りかぶっている」に基づいて、意味関係が推定される。
【0066】
また、第3関係定義は、人の対象オブジェクトと部品の対象オブジェクトとの関係定義であり、2つの空間的関係を含んでいる。第1~第3関係定義は、人の対象オブジェクトと物体の対象オブジェクトとの関係定義であるが、これに限定されるものではなく、関係定義は、例えば、物体の対象オブジェクトと物体の対象オブジェクトとの関係定義であってもよいし、人の対象オブジェクトと人の対象オブジェクトとの関係定義であってもよい。
【0067】
第4関係定義は、物体の対象オブジェクトと物体の対象オブジェクトとの関係定義である。具体的には、第4関係定義は、自動車の対象オブジェクトと自転車の対象オブジェクトとの関係定義である。具体的には、第4関係定義では、自動車の屋根の特徴点と、自転車の前輪及び後輪の特徴点との空間的関係と、自動車及び自転車の間の意味情報とが関連付けられている。
【0068】
第4関係定義の空間的関係は、自転車の前輪及び後輪の特徴点が、自動車の屋根の特徴点に近接していることである。また、第4関係定義の意味情報は、「自転車が自動車の屋根に搭載されている」ことである。
【0069】
なお、関係情報リスト212に含まれ得る意味情報は、図2に示す例に限定されるものではない。各種の意味情報が、空間的関係に関連付けられて定義され得る。例えば、意味情報は、「人がゴルフクラブでボールを打ち抜いた」等の情報であってよい。
【0070】
その他、対象オブジェクトの種類が人及びゴルフクラブである場合には、意味情報は、「人がアプローチしようとしている」という情報であってよい。この意味情報に関連付けられる空間的関係は、例えば、人の左右の手の特徴点とゴルフクラブのグリップ及びシャフト上部の特徴点とが近接しており、ゴルフクラブが垂直方向に伸びている(より具体的には、ゴルフクラブのシャフトの伸びる方向が、人が立っている方向と平行になっている。)ことであってよい。
【0071】
あるいは、意味情報は、「人がテイクバックしている」という情報であってよい。この意味情報に関連付けられる空間的関係は、人の左右の手の特徴点とゴルフクラブのグリップ及びシャフト上端の特徴点とが近接しており、ゴルフクラブのヘッドの特徴点が下方を起点に弧を描きつつ上方に移動していることであってよい。さらに、意味情報が「人がダウンスイングしている」という情報である場合には、その意味情報には、人の左右の手の特徴点とゴルフクラブの上端の特徴点とが近接しており、ゴルフクラブのヘッドの特徴点が弧を描きつつ下方に移動していることを示す空間的関係が関連付けられてよい。
【0072】
図1に戻って、情報処理装置20の処理部220について説明する。処理部220は、各種の情報処理を実行する。処理部220は、記憶部210に記憶されている各種の情報(例えば、画像、付帯情報、関係情報リスト及び各種の学習済みモデル等)を用いて、各種の情報処理を実行できる。また、処理部220は、実行した情報処理の結果(例えば、意味関係の推定結果等)を通信部200に伝送できる。
【0073】
図3は、本実施形態に係る処理部220の構成の一例を示す機能ブロック図である。処理部220は、図3に示すように、意味推定ユニット230及び生成ユニット240を備える。
【0074】
意味推定ユニット230は、画像に含まれる画像オブジェクトを認識したり、画像に含まれる複数の画像オブジェクトの意味推定を行ったりできる。意味推定ユニット230が実行する処理は、画像取得部232、認識部234、付帯情報推定部236、姿勢推定部237及び意味推定部238が協働することにより実現される。
【0075】
画像取得部232は、各種の画像を取得し、取得した画像を認識部234に伝送できる。画像取得部232は、例えば、撮像部100が撮像した画像を取得してもよいし、情報処理装置20の記憶部210に記憶されている画像を取得してもよい。また、撮像部100が動画像を撮像したり、記憶部210に動画像が記憶されていたりする場合には、画像取得部232は、動画像に含まれる特定のタイミングの静止画像を取得してよい。本実施形態では、画像取得部232は、撮像部100が撮像した静止画像を取得する。
【0076】
また、本実施形態では、画像取得部232が取得する画像には、2人以上の人の画像オブジェクトが含まれており、ゴルフクラブを持っている人の画像オブジェクトが含まれているものとする。
【0077】
認識部234は、画像に基づいて、各種の情報を抽出あるいは認識し、抽出あるいは認識した結果を付帯情報推定部236、姿勢推定部237及び意味推定部238に伝送できる。例えば、認識部234は、画像に含まれる特徴点を抽出できる。具体的には、認識部234は、記憶部210に記憶されている、所定の機械学習アルゴリズムに基づき構築された学習済みモデルを用いて、画像から特徴点を抽出できる。
【0078】
また、認識部234は、抽出した特徴点に各種の情報を付与できる。例えば、認識部234は、番号、位置情報及びラベル情報等を付与できる。位置情報は、画像における特徴点の位置を特定する情報であり、本実施形態では、二次元の座標で表現される。なお、画像が三次元画像である場合には、位置情報は例えば三次元の座標で表現されてよい。また、ラベル情報は、画像オブジェクトに含まれる他の特徴点と区別する情報である。例えば、画像オブジェクトが人の画像オブジェクトである場合には、ラベル情報は、人の頭、腕、肩、腰及び足等を示す情報であってよい。
【0079】
本実施形態では、認識部234は、画像から複数の特徴点を抽出し、抽出した特徴点にラベル情報を付与できる。また、認識部234は、抽出した特徴点の集合に基づいて、画像オブジェクトを認識できる。さらに、認識部234は、認識した画像オブジェクトの種類(例えば、人あるいはゴルフクラブ等)を特定できる。例えば、認識部234は、複数の特徴点(人の手、頭、肩及び足等)の集合に基づいて、それらの特徴点を含む画像オブジェクトが人の画像オブジェクトであることを認識できる。
【0080】
なお、認識部234が特徴点及び画像オブジェクトを認識する方法は、特徴点を抽出した後に、抽出した特徴点の集合に基づいて画像オブジェクトを認識する上記方法(ボトムアップ方式)に限定されるものではない。例えば、認識部234が特徴点及び画像オブジェクトを認識する方法は、画像に含まれる画像オブジェクトを認識した後に、認識した画像オブジェクトに含まれる特徴点を抽出する方法(トップダウン方式)であってもよい。
【0081】
図4を参照して、本実施形態に係る認識部234の認識結果について説明する。図4は、本実施形態に係る撮像部100が撮像する画像120及び認識部234の認識結果を示す図である。画像120は、人の画像オブジェクト(以下、「人オブジェクト130」とも称する。)と、ゴルフクラブの画像オブジェクト(以下、「クラブオブジェクト160」とも称する。)と、ゴルフボールの画像オブジェクト(以下、「ボールオブジェクト166」とも称する。)を含む。なお、画像120には、複数の人の画像オブジェクトが含まれているが、図4では省略されているものとする。
【0082】
認識部234は、人オブジェクト130、クラブオブジェクト160及びボールオブジェクト166のそれぞれについて特徴点を抽出し、抽出した特徴点のそれぞれにラベル情報を付与できる。図4には、それぞれの画像オブジェクトから抽出された特徴点が丸印で示されている。具体的には、人オブジェクト130について、顔の特徴点132、右肩の特徴点134、右肘の特徴点136、右手の特徴点138、左肩の特徴点140、左肘の特徴点142、左手の特徴点144、右腰の特徴点146、右足(の先)の特徴点148、左腰の特徴点150及び左足(の先)の特徴点152が抽出されている。また、クラブオブジェクト160について、グリップの特徴点162及びヘッドの特徴点164が抽出されている。さらに、ボールオブジェクト166について、中心の特徴点168が抽出されている。
【0083】
また、特定の条件を満たす特徴点同士は直線により接続されている。具体的には、ラベル情報が所定の条件を満たす特徴点同士が直線により接続されている。例えば、人オブジェクト130の右足の特徴点148及び右腰の特徴点146は、直線により接続されている。
【0084】
認識部234は、画像オブジェクトから抽出した特徴点に基づいて、画像オブジェクトの種類を特定できる。例えば、認識部234は、複数の特徴点の空間的関係に基づいて画像オブジェクトの種類を出力するように学習された学習済みモデルを用いて、画像オブジェクトの種類を特定してよい。例えば、認識部234は、人オブジェクト130から抽出された特徴点に基づいて、人オブジェクト130の種類が人であることを特定できる。また、認識部234は、クラブオブジェクト160から抽出された特徴点に基づいて、クラブオブジェクト160の種類がゴルフクラブであることを特定できる。
【0085】
図5は、本実施形態に係る認識部234が画像120に基づき認識した画像オブジェクト及び抽出した特徴点に関する情報(以下、「画像オブジェクト情報」と称する。)をリスト化した画像オブジェクトリスト170を示す図である。画像オブジェクトリスト170には、番号がそれぞれ付与された画像オブジェクト情報が含まれている。例えば、画像オブジェクトリスト170には、2つの人の画像オブジェクト情報及び1つのゴルフクラブの画像オブジェクト情報が含まれている。なお、2つの人の画像オブジェクトのそれぞれは、互いに異なる人の画像オブジェクトであるものとする。
【0086】
1番の画像オブジェクトは、図4に示す人オブジェクト130に対応し、2番の画像オブジェクトは、図4に示すクラブオブジェクト160に対応しているものとする。また、3番の画像オブジェクトは、図4に示す画像120において省略されているものとする。また、図5に示す特徴点は、図4に示す画像120において省略されている特徴点(例えば、ゴルフクラブのシャフトの特徴点)を含むものとする。
【0087】
図3に戻って、処理部220が備える付帯情報推定部236について説明する。付帯情報推定部236は、画像オブジェクトに付帯する付帯情報を推定できる。例えば、付帯情報推定部236は、記憶部210に記憶されている情報を参照して、画像オブジェクトに対応する対象オブジェクトの付帯情報を、画像オブジェクトの付帯情報として推定できる。例えば、記憶部210には、ゴルフクラブの対象オブジェクトの付帯情報が記憶されているとする。この場合、付帯情報推定部236は、その付帯情報をクラブオブジェクト160の付帯情報として推定できる。
【0088】
また、付帯情報推定部236は、画像オブジェクトから抽出される特徴点に基づいて、画像オブジェクトの付帯情報を推定できる。例えば、付帯情報推定部236は、人の画像オブジェクトから抽出される複数の特徴点の位置関係等に基づき、人の位置、体格及び向き等を推定できる。あるいは、付帯情報推定部236は、物体の画像オブジェクトから抽出される複数の特徴点の位置関係等に基づき、物体の位置、大きさ、形状及び向き等を推定できる。
【0089】
図6は、図5に示した2番の画像オブジェクトの付帯情報を表す付帯情報リスト181を示す図である。付帯情報リスト181には、付帯情報として、ゴルフクラブの重さ(300g)、長さ(1.2m)及び重心位置(ヘッドからシャフト方向に30cm)が含まれている。なお、付帯情報リスト181には、付帯情報推定部236により推定された付帯情報が含まれてよく、例えば、ゴルフクラブの長さは推定された付帯情報であってよい。一方、ゴルフクラブの重さ及び重心位置は、記憶部210に予め記憶されている付帯情報であってよい。付帯情報リスト181は、必要に応じて意味推定部238により参照される。
【0090】
図3に戻って、処理部220が備える姿勢推定部237について説明する。姿勢推定部237は、人の画像オブジェクトから抽出される複数の特徴点に基づき、人の姿勢を推定し、推定した結果を意味推定部238に伝送できる。例えば、姿勢推定部237は、各種の機械学習アルゴリズムに基づき構築された学習済みモデルを用いて、人の姿勢を推定してよい。
【0091】
あるいは、姿勢推定部237は、人の画像オブジェクトから抽出される複数の特徴点の空間的関係(例えば、位置関係等)に基づいて、人の姿勢を推定してよい。例えば、姿勢推定部237は、各種の関節の特徴点の位置関係に基づいて、人の姿勢を推定してよい。例えば、姿勢推定部237は、座っている姿勢、立っている姿勢又は足を開いている姿勢等の各種の姿勢を推定できる。姿勢推定部237は、推定した結果を意味推定部238に伝送する。
【0092】
意味推定部238は、画像に含まれる複数の画像オブジェクトのそれぞれから抽出される特徴点の空間的関係と、関係情報とに基づいて、複数の画像オブジェクトの間の意味関係を推定する。本実施形態では、意味推定部238は、図2を参照して説明した関係定義に含まれる関係情報を用いて、複数の画像オブジェクトの間の意味関係を推定する。ここでは、画像に含まれる人の画像オブジェクトと、その人が持っているゴルフクラブの画像オブジェクトに着目して、意味推定部238による意味推定を説明する。
【0093】
まず、意味推定部238は、認識部234により認識された人オブジェクト130の特徴点と、クラブオブジェクト160の特徴点との空間的関係を特定する。ここでは、これらの画像オブジェクトの特徴点の空間的関係が、図2に示した第1関係定義の空間的関係を満たしているものとする。すなわち、人の両手(右手及び左手)の特徴点とゴルフクラブのグリップの特徴点とが近接しているものとする。
【0094】
本実施形態では、意味推定部238は、ある画像オブジェクトから抽出されるラベル情報が付与された特徴点と、その特徴点と特定の関係にあるラベル情報が付与された画像オブジェクトの特徴点との空間的関係に基づいて、それらの画像オブジェクトの間の意味関係を推定する。ここでは、ゴルフクラブのグリップと人の両手とが、特定の関係にあるものとする。このため、意味推定部238は、これらのラベル情報が付与された特徴点に基づいて、人オブジェクト130及びクラブオブジェクト160の間の意味関係を推定できる。具体的には、意味推定部238は、第1関係定義に基づいて、「人がゴルフクラブを持っている」と推定できる。
【0095】
なお、人がゴルフクラブを持っている場合に、人の手がゴルフクラブのグリップを覆っており、画像からゴルフクラブのグリップの特徴点が抽出されない場合が考えられる。この場合には、意味推定部238は、グリップの特徴点を用いずに、「人がゴルフクラブを持っている」ことを推定してもよい。例えば、人の肘(右肘又は左肘)の特徴点から人の手(右手又は左手)の特徴点に向かう延長線を基準とした、所定の範囲内にゴルフクラブのヘッドの特徴点が存在し、ヘッドの特徴点から人(例えば、人の手等)に向かってゴルフクラブのシャフトが伸びているとする。この場合には、意味推定部238は、ゴルフクラブのグリップの特徴点が抽出されなくても、「人がゴルフクラブを持っている」という動作を推定できる。
【0096】
あるいは、意味推定部238は、人オブジェクト130、クラブオブジェクト160の特徴点に加えて、ゴルフボールの画像オブジェクトの特徴点を用いて、意味関係を推定してもよい。例えば、意味推定部238は、「人がゴルフクラブでゴルフボールを打とうとしている」という意味関係を推定してよい。このように、本実施形態に係る意味推定部238は、物体を用いた人の動作の目的を推定できる。
【0097】
また、意味推定部238は、画像オブジェクトに付帯する付帯情報に基づいて、複数の画像オブジェクトの間の意味関係を推定できる。意味推定部238が意味推定に用いる付帯情報は、記憶部210に予め記憶されている付帯情報であってもよいし、付帯情報推定部236により推定された付帯情報であってもよい。
【0098】
例えば、ゴルフクラブの画像オブジェクトには、重さ300g及び大きさ1.2m等の付帯情報が付与されているとする。意味推定部238は、その付帯情報を関係定義に含まれる意味情報に基づいて、意味情報を推定できる。例えば、意味推定部238は、意味情報を意味関係として推定してもよいし、意味情報に各種の情報(例えば付帯情報)を付加した情報を意味関係として推定してよい。例えば、意味推定部238は、「人が重さ300gであり長さ1.2mのゴルフクラブを持っている」こと等を推定できる。これにより、意味推定部238は、より詳細な意味関係を推定できる。意味推定部238が推定した意味関係は、生成ユニット240に伝送される。
【0099】
図7は、意味推定部238が意味関係を推定した結果をリストにした意味関係リスト174を示す図である。意味関係リスト174では、意味関係が画像オブジェクト番号を用いて表現されている。なお、図7に示す画像オブジェクト番号は、図5に示した画像オブジェクトの番号に対応しているものとする。すなわち、[1]は人を意味しており、[2]はゴルフクラブを意味している。
【0100】
例えば、1番の意味関係は、[1]が重さ300g、長さ1.2mの[2]を持っていることを示している。また、2番の意味関係は、[1]が重さ300g、長さ1.2mの[2]を振りかぶっている動作を示している。このように、意味関係に含まれる画像オブジェクトの種類の組み合わせ(人とゴルフクラブ)が同一であっても、画像オブジェクトの特徴点の空間的関係が複数の関係定義の空間的関係を満たす場合には、複数の意味関係が推定され得る。
【0101】
図3に戻って、処理部220の生成ユニット240の機能について説明する。本実施形態に係る生成ユニット240は、ゴルフプレイヤ(以下、単に「プレイヤ」と称する。)のスイングを診断するためのアプリケーションを意図して構成されている。具体的には、生成ユニット240は、意味推定ユニット230による処理の結果に基づいて、プレイヤの状態に応じた各種の情報を生成する。生成ユニット240が有する機能は、検索部242、指標生成部244及び特徴点情報生成部246が協働することにより実現される。生成ユニット240が備える各機能部は、必要に応じて、意味推定ユニット230の各機能部から各種の情報(例えば、推定された意味関係等)を取得したり、記憶部210から各種の情報(例えば、関係情報リスト等)を取得したりできる。
【0102】
検索部242は、意味推定部238により推定された意味関係から、特定の条件に合致する意味関係を検索し、検索結果(例えば、特定の条件に合致する意味関係等)を指標生成部244に伝送できる。本実施形態では、特定の条件は、意味関係に「人がゴルフクラブを持っている」という情報が含まれることであるものとする。検索部242は、図7に示した意味関係リスト174を参照して、「人がゴルフクラブを持っている」という情報を含む意味関係(すなわち、1番の意味関係)を検索する。したがって、検索部242は、画像120に複数の人の画像オブジェクトが含まれる場合には、ゴルフクラブを持っている人に関する意味情報のみを検索できる。
【0103】
指標生成部244は、特定の条件に合致する意味関係に対応する画像オブジェクトの特徴点に関する、特定の条件に応じた情報を生成できる。本実施形態では、指標生成部244は、特徴点あるいは意味関係に基づきプレイヤの状況(フェーズ)を特定し、プレイヤの状況に応じたスイングを診断するための指標となる情報を生成できる。
【0104】
プレイヤのスイングを診断するにあたって、状況によって診断すべきポイントが異なる。例えば、プレイヤがゴルフクラブを振りかぶっている状況では、プレイヤの肘及び膝の位置が重要なポイントとなる。また、プレイヤがゴルフクラブを構えている状況(すなわち、アドレス時)では、右打ちにおいては右肩が左肩より下がっているとよく、プレイヤの右肩と左肩との位置関係が重要となる。このため、指標生成部244は、プレイヤの状況に応じた指標を生成することで、より適切な情報をプレイヤ等のユーザに提供できる。
【0105】
ここでは、人オブジェクト130及びクラブオブジェクト160の間には、「人がゴルフクラブを振りかぶっている」という動作の意味関係が推定されているものとする。この場合、プレイヤの肘及び膝の位置が重要なポイントとなる。指標生成部244は、例えば、プレイヤについて認識部234が認識した結果(例えば、肘あるいは膝の特徴点等の情報)に基づいて、適切な肘及び膝の位置を算出して生成できる。指標生成部244は、生成した情報を特徴点情報生成部246に伝送する。
【0106】
特徴点情報生成部246は、特定の条件に合致する意味関係に対応する画像オブジェクトの特徴点に関する、特定の条件に応じた情報を生成できる。本実施形態では、特徴点情報生成部246は、推定された意味関係に基づき特定されたフェーズに応じて、対応する人の画像オブジェクトの特徴点に関する情報を生成する。
【0107】
例えば、特徴点情報生成部246は、指標生成部244により生成された情報(例えば指標)に基づいて、プレイヤの状況(フェーズ)に応じたポイントに関する情報を生成できる。具体的には、特徴点情報生成部246は、ポイントとなる肘の特徴点、膝の特徴点及び肩の特徴点等の特徴点に関して、例えば理想的な位置を示す補助線を表示するための座標を計算して生成できる。さらに、特徴点情報生成部246は、生成した座標に基づいて、表示部に補助線を重畳させるための重畳情報を生成できる。
【0108】
あるいは、特徴点情報生成部246は、プレイヤのポイントとなる関節又はその関節の特徴点が目立つ表示態様(例えば、赤いマーク)で表示部に表示させるための重畳情報を、特徴点情報として生成できる。
【0109】
特徴点情報生成部246は、生成した情報を通信部200に伝送する。通信部200に伝送された情報は、通信ネットワーク15を介して入出力装置10に送信され、入出力装置10に伝送される。特徴点情報生成部246により生成された情報に基づいて、出力部104の表示部は各種の画面を表示する。
【0110】
以上、本実施形態に係る情報処理システム1の機能について説明した。次に、図8を参照して、本実施形態に係る情報処理装置20が、画像に含まれる複数の画像オブジェクトの間の意味関係を推定する処理について説明する。以下、図8に示すシーケンス図に沿って、本実施形態に係る情報処理システム1の処理について説明する。
【0111】
まず、入出力装置10の撮像部100は、画像を撮像する(ステップS101)。次いで、通信部106は、撮像部100により撮像された画像を情報処理装置20に送信する(ステップS103)。次いで、情報処理装置20の通信部200は、ステップS103において送信された画像を受信する(ステップS105)。
【0112】
次いで、処理部220の画像取得部232は、ステップS105において受信された画像を取得する(ステップS107)。次いで、認識部234は、画像から複数の特徴点を抽出する(ステップS109)。このとき、認識部234は、抽出した特徴点にラベル情報を付与してよい。
【0113】
次いで、認識部234は、ステップS109において抽出された特徴点の集合に基づいて、画像オブジェクトを認識する(ステップS111)。具体的には、認識部234は、複数の集合に基づいて、それぞれの集合に応じた画像オブジェクトを認識する。このとき、認識部234は、認識した画像オブジェクトの種類を特定してよい。次いで、認識部234は、ステップS111における認識結果に基づいて、画像オブジェクトリストを生成する(ステップS113)。
【0114】
次いで、付帯情報推定部236は、認識部234により認識された画像オブジェクトの付帯情報を推定する(ステップS115)。また、姿勢推定部237は、認識部234により認識された人の画像オブジェクトの特徴点に基づいて、人の姿勢を推定する(ステップS117)。なお、認識部234が人の画像オブジェクトを認識していない場合には、姿勢推定部237は、人の姿勢を推定しなくてよい。
【0115】
次いで、意味推定部238は、意味推定処理を行う(ステップS119)。意味推定処理の詳細は、図9を参照して後述する。意味推定部238が意味推定処理を行うと、図8に示す処理は終了する。
【0116】
図9は、図8の意味推定処理の詳細を示すフローチャートである。まず、意味推定部238は、関係情報リストから、対象オブジェクトの種類の全てが画像オブジェクトリストに含まれている関係定義を抽出し、抽出した関係定義をリストにした関係定義リストを生成する(ステップS201)。例えば、人の画像オブジェクト及びゴルフクラブの画像オブジェクトについて認識された結果が画像オブジェクトリストに含まれているとする。この場合には、意味推定部238は、関係情報リストから、対象オブジェクトの種類の組み合わせに、人及びゴルフクラブの両方を含む組み合わせの関係定義を抽出して、関係定義リストを生成する。例えば、意味推定部238は、図2に示した関係情報リスト212から、対象オブジェクトの組み合わせに人及びゴルフクラブを含む第1関係定義及び第2関係定義を抽出して、関係定義リストを生成する。
【0117】
次いで、意味推定部238は、未処理の関係定義が関係定義リストにあるか否かを判定する(ステップS203)。ここで、未処理の関係定義は、後述するステップS207及びS209の処理が行われていない関係定義である。未処理の関係定義が関係定義リストにあると判定された場合(ステップS203:YES)、ステップS205に進む。一方、未処理の関係定義が関係定義リストにないと判定された場合(ステップS203:NO)、ステップS221に進む。以下、ステップS203においてYESと判定された場合の処理を説明した後に、ステップS203においてNOと判定された場合の処理を説明する。
【0118】
ステップS203においてYESと判定されると、意味推定部238は、未処理の関係定義を関係定義リストから取得する(ステップS205)。次いで、意味推定部238は、ステップS205において取得した関係定義に含まれる全ての種類の画像オブジェクトの情報を、画像オブジェクトリストから抽出する(ステップS207)。例えば、意味推定部238は、取得した関係定義に人及びゴルフクラブの画像オブジェクトが含まれる場合には、画像オブジェクトリストから人の画像オブジェクト及びゴルフクラブの画像オブジェクトの情報を、画像オブジェクトリストから抽出する。
【0119】
次いで、意味推定部238は、ステップS205において取得した関係定義に合致する全ての画像オブジェクトの種類の組み合わせリストを生成する(ステップS209)。例えば、関係定義に人及びゴルフクラブの組み合わせが規定されている場合には、意味推定部238は、ステップS207において抽出された画像オブジェクトの情報に基づいて、人の画像オブジェクト及びゴルフクラブの画像オブジェクトの組み合わせリストを生成する。
【0120】
例えば、ステップS207において、2つの人の画像オブジェクト(以下、図9に示すフローチャートの説明では、「第1人オブジェクト」と「第2人オブジェクト」と称する。)の情報と、1つのゴルフクラブの画像オブジェクトの情報が抽出されているとする。この場合、意味推定部238は、第1人オブジェクト及びゴルフクラブの組み合わせと、第2人オブジェクト及びゴルフクラブの組み合わせとで構成された、2つの組み合わせを含む組み合わせリストを生成できる。
【0121】
次いで、意味推定部238は、未処理の組み合わせが組み合わせリストにあるか否かを判定する(ステップS211)。ここで、未処理の組み合わせは、後述するステップS215の処理が行われていない組み合わせである。未処理の組み合わせが組み合わせリストにあると判定された場合(ステップS211:YES)、ステップS213に進む。一方、未処理の組み合わせが組み合わせリストにないと判定された場合(ステップS211:NO)、ステップS203に戻る。ステップS211においてYESと判定されると、意味推定部238は、未処理の組み合わせを組み合わせリストから取得する(ステップS213)。
【0122】
次いで、意味推定部238は、ステップS213において取得した未処理の組み合わせに含まれる画像オブジェクトの特徴点の空間的関係が、関係定義の空間的関係を満たすか否かを判定する(ステップS215)。未処理の組み合わせに含まれる画像オブジェクトの特徴点の空間的関係が、関係定義の空間的関係を満たすと判定された場合(ステップS215:YES)、ステップS217に進む。一方、未処理の組み合わせに含まれる画像オブジェクトの特徴点の空間的関係が、関係定義の空間的関係を満たさないと判定された場合(ステップS215:NO)、ステップS211に戻る。
【0123】
意味推定部238は、ステップS215においてYESと判定すると、関係定義に含まれる関係情報及び複数の画像オブジェクトの特徴点の空間的関係に基づいて、複数の画像オブジェクトの間の意味関係を推定する(ステップS217)。このとき、意味推定部238は、さらに付帯情報を用いて意味関係を推定してもよい。次いで、意味推定部238は、ステップS217において推定した意味関係を意味関係リストに登録する(ステップS219)。意味推定部238が意味関係を意味関係リストに登録すると、ステップS211に戻る。
【0124】
このようにして、意味推定部238は、ステップS201において生成した関係定義リストに含まれる全ての関係定義について、画像に含まれる複数の画像オブジェクトの空間的関係が合致するか否かを判定する。さらに、意味推定部238は、合致した空間的関係に対応する複数の画像オブジェクトについて推定した意味関係を意味関係リストに登録する。意味推定部238が関係定義リストに含まれる全ての関係定義について、複数の画像オブジェクトの空間的関係が合致するか否かを判定したうえで、推定した意味関係を意味関係リストに登録すると、ステップS203においてNOと判定され、ステップS221に進む。
【0125】
意味推定部238は、意味関係リストを他の機能部に伝送する(ステップS221)。例えば、意味推定部238は、生成ユニット240に意味関係リストを出力する。意味推定部238が意味関係リストを他の機能部に出力すると、意味推定処理は終了する。
【0126】
図10を参照して、第1実施形態に係る情報処理システム1が意味推定ユニット230による意味推定に応じた情報を生成し、生成した情報を表示するまでの処理を説明する。図10に示す処理が開始される時点では、図8及び図9を参照して説明した、複数の画像オブジェクトの意味関係の推定及び人の姿勢の推定等の各種の処理が実行されているものとする。
【0127】
まず、情報処理装置20の生成ユニット240が備える検索部242は、意味推定ユニット230から推定された意味関係等の情報を取得する(ステップS301)。このとき、検索部242は、推定された意味関係を意味関係リストとして取得してよい。また、検索部242は、意味関係に加えて、推定された人の姿勢等の各種の情報を取得してよい。
【0128】
次いで、検索部242は、「人がゴルフクラブを持っている」ことを示す意味関係があるか否かを判定する(ステップS303)。本実施形態では、検索部242は、ステップS301において取得した意味関係リストに基づいて、「人がゴルフクラブを持っている」ことを示す意味関係を検索する。「人がゴルフクラブを持っている」ことを示す意味関係がないと判定されると(ステップS303:NO)、図10に示す処理は終了する。一方、「人がゴルフクラブを持っている」ことを示す意味関係があると判定されると(ステップS303:YES)、ステップS305に進む。
【0129】
次いで、指標生成部244は、ステップS303において検索された意味関係に基づいて、ゴルフのショットのフェーズを特定する(ステップS305)。具体的には、指標生成部244は、検索された意味関係に含まれる複数の画像オブジェクトの認識結果に基づいて、ゴルフのショットのフェーズを特定する。例えば、指標生成部244は、人の画像オブジェクトに含まれる複数の特徴点の位置関係(例えば、肩の特徴点と腰の特徴点の位置関係)に基づいて、ゴルフのショットのフェーズを特定してよい。特定されるフェーズは、例えば、アドレス、テイクバック又は他のフェーズであってよい。
【0130】
次いで、指標生成部244は、ステップS305において特定されたフェーズに応じた特徴点の情報を、画像オブジェクトリストより取得する(ステップS307)。具体的には、指標生成部244は、画像オブジェクトリストから、特定されたフェーズに応じた特徴点の情報(座標等により表された位置情報又はラベル情報等)を取得できる。
【0131】
例えば、指標生成部244は、特定されたフェーズがアドレスである場合には、人の画像オブジェクトに含まれる、肘の特徴点及び膝の特徴点等のアドレスの際に重要となる特徴点の情報を取得してよい。また、指標生成部244は、特定されたフェーズがテイクバックである場合には、人の画像オブジェクトに含まれる、両肩の特徴点及び腕の特徴点等のテイクバックの際に重要となる特徴点の情報を取得してよい。さらに、特定されたフェーズが他のフェーズである場合には、指標生成部244は、特定されたフェーズの際に重要となる特徴点の情報を取得してよい。
【0132】
次いで、指標生成部244は、ステップS309において取得した特徴点の情報に基づいて、特定されたフェーズに応じた指標を生成する(ステップS309)。具体的には、指標生成部244は、フェーズに応じた重要なポイントの理想的な位置を算出してよい。
【0133】
例えば、図4に示した画像120では、ゴルフクラブのヘッドの特徴点164が、人の頭の特徴点132よりも高い位置で保持されている。このため、「人がゴルフクラブを振りかぶっている」という動作の意味関係が推定されており、フェーズはバックスイングに特定されているものとする。このフェーズでは、人の肘及び膝の位置が重要となる。このため、指標生成部244は、肘の特徴点及び膝の特徴点に基づき、理想的な肘及び膝の位置を指標として算出してよい。
【0134】
また、フェーズがアドレスである場合には、右打ちにおいては右肩が左肩より下がっていることが好ましく、右肩及び左肩の位置が重要となる。このため、指標生成部244は、理想的な右肩及び左肩の位置を、指標として生成し得る。
【0135】
次いで、特徴点情報生成部246は、特徴点情報及び重畳情報を生成する(ステップS311)。次いで、情報処理装置20の通信部200は、ステップS311において生成された重畳情報を入出力装置10に送信する(ステップS313)。次いで、入出力装置10の通信部106は、ステップS313において送信された重畳情報を受信する(ステップS315)。受信された重畳情報は、制御部108に伝送される。
【0136】
次いで、制御部108は、ステップS315において受信された重畳情報に基づいて、重畳情報を出力部104に画面を表示させる(ステップS317)。これにより、出力部104の表示部により、例えば、撮像部100が撮像した画像の上に重畳情報が重ねられた画面が表示される。例えば、人の画像オブジェクトの上に、特定の関節を赤く示す画面が表示部に表示される。これにより、ユーザは、ゴルフのスイングにおける重要なポイントあるいは適切なフォーム等を認識できる。
【0137】
本実施形態に係る情報処理装置20は、画像に含まれる複数の画像オブジェクトのそれぞれから抽出される特徴点の空間的関係と関係情報とに基づいて、複数の画像オブジェクトの間の意味関係を推定する。関係情報は、ユーザが所望の関係に設定することができる情報である。このため、ユーザが適宜関係情報を設定することにより、複数の画像オブジェクトについて、より多様な意味関係を推定することが可能となる。また、画像オブジェクトの特徴点に基づき意味関係が推定されるため、詳細かつ精度よく意味関係を推定することが可能となる。
【0138】
特に、ゴルフ場におけるゴルフスイング(あるいは工場における作業)等、特定の場面が想定される場合には、人と物体との間の意味関係の推定には、既知の前提条件が存在し得る。既知の前提条件は、例えば、人がボールの前でゴルフクラブを下方向に向けて持っている場合には、人がこれからゴルフクラブでボールを打つところである、という条件であり得る。あるいは、前提条件は、工場で特定の組み立てが行われている場合には、物体の重さあるいは人が物体を持つべき位置が分かっており、人が動く範囲も決まっていること等である。本実施形態に係る情報処理システム1では、このような前提条件を例えば関係情報として使用できるため、より堅牢で実用的な意味関係の推定が可能となる。
【0139】
また、本実施形態では、画像に複数の人の画像オブジェクトが含まれている。このような画像に基づいて、プレイヤのフォームの分析あるいは採点等を行うアプリケーションでは、従来、画像内に一人のプレイヤが含まれるか、プレイヤが特定の場所に立った状態であることを前提として分析等が行われていた。しかしながら、実際のゴルフ場では、ゴルフのプレー中の画像等には、キャディー、他のプレイヤ及び観客等が存在するため、スイングするプレイヤを自動的に特定することが難しい。このため、プレイヤのフォーム等を記録あるいは診断できる場所が制限されていた。
【0140】
本実施形態に係る情報処理装置20は、推定された意味関係を用いることにより、画像内に複数の人と複数の物体とが存在する場合には、着目すべき意味関係(例えば、人が物体に対して特定の動作を行っていることを示す意味関係)に関わる人及び物体を特定することが可能となる。したがって、本実施形態に係る情報処理装置20は、画像の中に多数の人の画像オブジェクトが含まれる場合に、自動的にゴルフクラブを持っている人を特定し、例えばスイングの記録あるいは解析に必要な情報を、場所の制限を受けることなく生成できる。
【0141】
また、本実施形態に係る情報処理装置20は、空間的関係及び意味関係を用いることにより、人又は物体が他の物体等の背後に隠れている場合であっても、人及び物体の空間的関係が矛盾しないように、他の物体等の背後に人又は物体等が存在することを推定できる。このため、本実施形態に係る情報処理装置20は、オクルージョンに対して堅牢である。すなわち、情報処理装置20は、画像オブジェクトが他の画像オブジェクトの裏側に隠れている場合にも、裏側に隠れている画像オブジェクトを適切に認識できる。
【0142】
また、本実施形態では、画像オブジェクトの付帯情報に基づいて意味関係が推定される。このため、より適切な意味関係を推定することが可能となる。
【0143】
また、複数の画像オブジェクトの間の意味関係は、人による物体への動作、動作の目的又は物体が人に与える影響のうちの少なくともいずれかを含む。人による物体への動作は、例えば、人が物体を持つこと又は人が物体を投げること等であってよい。また、動作の目的は、例えば、人が物体を移動させること等であってよい。さらに、物体が人に与える影響は、例えば、物体が人に負荷を与えること又はその負荷の大きさ等であってよい。
【0144】
[第2実施形態]
第2実施形態では、主に第1実施形態と異なる点について説明し、第1実施形態と実質的に同一の内容を適宜省略して説明する。なお、第2実施形態では、第1実施形態で説明した各種の構成が適用され得る。
【0145】
第1実施形態では、画像にはゴルフクラブの画像オブジェクトと、そのゴルフクラブを振りかぶっている人の画像オブジェクトが含まれているものとして説明した。これに対し、第2実施形態に係る画像は、特定の製品が製造される工場において撮像された画像であり、物体(製品の部品)の画像オブジェクトと、その部品を持ち運んでいる人(作業者)の画像オブジェクトが含まれているものとして説明する。
【0146】
図11は、第2実施形態に係る情報処理装置が備える処理部260の機能ブロック図である。第2実施形態では、情報処理装置は、図1及び図3に示した処理部220に代えて、図11に示す処理部260を備える。すなわち、第2実施形態に係る処理部260は、意味推定ユニット230及び生成ユニット270を備える。なお、第2実施形態に係る意味推定ユニット230が有する機能は、図3を参照して説明した意味推定ユニット230が有する機能と実質的に同一である。このため、意味推定ユニット230の機能の詳細な説明を省略する。ここでは、意味推定ユニット230が本実施形態において認識又は推定する結果の一例について説明する。
【0147】
図12は、意味推定ユニット230の認識部234が、第2実施形態に係る画像に含まれる画像オブジェクトを認識した結果を示す画像オブジェクトリスト180を示す図である。第2実施形態では、認識部234は、画像に含まれる人(作業者)の画像オブジェクト及び部品の画像オブジェクトを認識する。また、認識部234は、それぞれの画像オブジェクトから複数の特徴点を抽出し、抽出したそれぞれの特徴点の位置を座標により特定している。
【0148】
また、認識部234は、抽出した特徴点のそれぞれにラベル情報を付与できる。例えば、人の画像オブジェクトの特徴点には、頭、右手、左手及び右肘等のラベル情報を付与している。また、認識部234は、部品の画像オブジェクトの特徴点には、取っ手及び蓋等のラベル情報を付与している。なお、認識部234が特徴点に付与するラベル情報の種類は、これらの情報に限定されるものではない。
【0149】
図13は、図12に示した2番の画像オブジェクトの付帯情報を表す付帯情報リスト182を示す図である。画像オブジェクトの付帯情報は、画像オブジェクトの種類、画像オブジェクトが示す物体の重さ、大きさ及び重心を含む。これらの付帯情報は、予め記憶部210に記憶されていてもよいし、画像オブジェクトに含まれる特徴点に基づいて推定されてもよい。例えば、大きさ(70mm×40mm×5mm)の情報は、画像オブジェクトの複数の特徴点に基づいて推定され得る。
【0150】
図14は、本実施形態に係る意味関係リスト184を示す図である。意味関係リスト184には、「[1]が重さ18kg、大きさ70mm×40mm×5mmの[2]を持っている」という意味関係が登録されている。ここで、[X]は、図12に示したオブジェクト認識リストの画像オブジェクトの番号を示している。したがって、[1]は人を意味しており、[2]は部品を意味している。
【0151】
なお、推定される意味関係には、他の付帯情報が含まれてもよく、例えば、部品の材質(例えば、金属)等の情報が含まれてよい。また、意味関係の推定には、姿勢推定部237による姿勢の推定結果が用いられてよい。例えば、「作業者が足を開いて重い部品を持っている」あるいは「作業者が中腰で重い物体を持っている」等の状況に関する意味関係の推定が行われてもよい。
【0152】
生成ユニット270は、意味推定ユニット230の推定結果に応じて、各種の情報を生成する。生成ユニット270が備える機能は、負荷推定部272、姿勢クラス判定部273、危険レベル判定部274、情報生成部276及び時間計測部278が協働することにより実現される。
【0153】
負荷推定部272は、画像に人の画像オブジェクトが含まれる場合には、その人にかかる負荷を推定できる。具体的には、負荷推定部272は、推定された意味関係に関わる画像オブジェクトの情報、付帯情報及び姿勢情報に基づいて、人にかかる負荷を推定できる。
【0154】
例えば、負荷推定部272は、物体の画像オブジェクトの情報及び付帯情報に基づいて、物体の重さ及び重心を取得できる。負荷推定部272は、取得した物体の重さ及び重心と、人の画像オブジェクトのオブジェクト情報及び付帯情報等に基づいて、人にかかる負荷を推定できる。ここで、負荷推定部272は、各種の公知の技術を用いて、負荷を推定してよい。
【0155】
姿勢クラス判定部273は、画像に人の画像オブジェクトが含まれる場合に、その人の姿勢のクラスを判定できる。本実施形態では、姿勢クラス判定部273は、人の画像オブジェクトから抽出される複数の特徴点に基づいて、姿勢のクラスを判定できる。例えば、姿勢クラス判定部273は、例えば、腰の曲がる角度に応じて、姿勢のクラスを判定してよい。より具体的には、姿勢クラス判定部273は、腰の曲がる角度が大きいほど、危険なクラスであることを判定してよい。
【0156】
危険レベル判定部274は、人の画像オブジェクトから抽出される特徴点に基づいて、人の姿勢の危険レベルを判定できる。本実施形態では、危険レベル判定部274は、姿勢に関する情報に基づいて、危険レベルを判定できる。例えば、危険レベル判定部274は、姿勢クラス判定部273により判定された姿勢クラスに基づいて、危険レベルを判定してよい。例えば、危険レベル判定部274は、姿勢クラスがより危険なクラスに属する場合には、危険レベル判定部274は、危険レベルが高いことを判定してよい。
【0157】
また、危険レベル判定部274は、人が持っている物体(部品等)に関する情報(例えば、重量等)、あるいはその物体により人に生じる負荷等に基づいて危険レベルを判定してもよい。本実施形態では、危険レベルは、AC(Action Category)レベルと呼ばれるカテゴリを用いて、1~5の5段階で表現されるものとする。また、危険レベルの値が高いほど、危険度が高いものとする。なお、危険レベル判定部274は、各種の公知の人間工学的な警告の基準を用いて、危険レベルを判定してよい。
【0158】
情報生成部276は、意味推定ユニット230又は生成ユニット270により推定又は判定された結果に応じて、各種の情報を生成できる。情報生成部276が生成した情報は、通信部200に伝送され、通信ネットワーク15を介して、入出力装置10に送信される。
【0159】
情報生成部276は、例えば、意味推定部238により推定された人の画像オブジェクト及び物体の画像オブジェクトの間の意味関係が特定の意味条件を満たし、人の画像オブジェクトの特徴点に基づき推定される人の状態が特定の状態条件を満たす場合には、その状態に応じた情報を生成してよい。
【0160】
本実施形態では、特定の意味条件は、推定された意味関係が、「人が物体を持っていること」を含む条件であるものとする。上述のように、本実施形態では、推定される意味関係は、「作業者が部品を持っていること」を含むため、特定の意味条件を満たす。
【0161】
また、特定の状態条件は、人の画像オブジェクトから抽出される特徴点に基づき推定される人の姿勢に関する条件であってよい。例えば、特定の状態条件は、人の画像オブジェクトの特徴点に基づき推定される人の姿勢に関する条件であってよい。例えば、特定の状態条件は、姿勢クラス判定部273により判定された姿勢クラスが、特定のクラスに属することであってよい。このとき、情報生成部276は、人の姿勢に応じた情報を生成できる。具体的には、情報生成部276は、姿勢クラスが危険なクラスに属する場合には、ユーザに警告を示すための情報(例えば、警告画像あるいは警告の音声)を生成できる。
【0162】
また、特定の状態条件は、人の画像オブジェクトの特徴点及び物体の画像オブジェクトに関する重さに関わる付帯情報に基づき推定される人にかかる負荷に関する条件であってよい。例えば、特定の状態条件は、負荷推定部272により推定された負荷の大きさに関する条件であってよい。このとき、情報生成部276は、負荷に応じた情報を生成できる。例えば、情報生成部276は、負荷の大きさが所定値を超える場合には、ユーザに警告を示すための情報を生成できる。
【0163】
本実施形態では、特定の状態条件は、危険レベル判定部274により判定された危険レベルが所定のレベルであるものとして説明する。この場合、情報生成部276は、判定された危険レベルが所定の危険レベルを超える場合に、危険レベルに応じた情報を生成する。より具体的には、情報生成部276は、姿勢が危険であることを示す表示画面の情報、あるいは音声で警告するための情報等を生成できる。情報生成部276により生成された情報に基づいて、入出力装置10において警告の表示あるいは警告の音声出力等が行われる。
【0164】
また、特定の状態条件は、人にかかる負荷に応じた条件であってよい。例えば、特定の状態条件は、人にかかる負荷が所定値を超えることであってよい。あるいは、特定の状態条件は、人にかかる負荷の積算値が所定値を超えることであってよい。
【0165】
情報生成部276は、負荷に関する特定の条件が満たされた場合には、負荷がかかっていることを警告する画面情報又は音声により警告するための情報等を生成してよい。あるいは、情報生成部276は、負荷がかかっている部分を赤く表示するための重畳情報、人が持っている物体の付帯情報(例えば重量)を画面に重畳させるための重畳情報を生成してよい。表示部では、撮像部100により撮像された画像の上に、情報生成部276により生成された重畳情報が重畳される。
【0166】
時間計測部278は、時間を計測できる。具体的には、時間計測部278は、積算タイマをリセットあるいは積算タイマに時間を加算することにより、時間を計測できる。例えば、時間計測部278は、所定の危険レベルが継続した時間を計測できる。
【0167】
図15は、第2実施形態に係る情報処理システムによる処理の流れを示すフローチャートである。以下、図15に示すフローチャートに沿って、第2実施形態に係るコンピュータシステムによる処理を説明する。なお、図15に示す処理が実行されている間には、撮像部100により画像の撮像が行われ、意味推定ユニット230によりその画像に含まれる画像オブジェクトの認識及び意味関係の推定が実行され続けているものとする。
【0168】
まず、時間計測部278は、積算タイマを0にリセットする(ステップS401)。
【0169】
次いで、負荷推定部272、姿勢クラス判定部273及び危険レベル判定部274は、意味推定ユニット230から、意味関係及び特徴点等の情報を取得する(ステップS403)。ここでは、負荷推定部272、姿勢クラス判定部273及び危険レベル判定部274は、「人が物体を持っている」という意味情報を含む意味関係及びその意味関係に関連する画像オブジェクトの認識結果あるいは付帯情報等を取得する。
【0170】
次いで、負荷推定部272は、ステップS403において取得した情報に基づいて、負荷を推定する(ステップS405)。具体的には、負荷推定部272は、姿勢推定部237により推定された姿勢及び人が持っている物体の付帯情報(例えば、重さ等)に応じて、人にかかる負荷を推定してよい。次いで、姿勢クラス判定部273は、人の画像オブジェクトから抽出される複数の特徴点に基づいて、姿勢のクラスを判定する(ステップS407)。
【0171】
次いで、危険レベル判定部274は、危険レベルを判定する(ステップS409)。このとき、危険レベル判定部274は、ステップS405において算出された負荷及びステップS407において判定された姿勢クラスに基づいて危険レベルを判定してよい。
【0172】
次いで、危険レベル判定部274は、判定した危険レベルが4以上であるか否かを判定する(ステップS411)。危険レベルが4未満であると判定されると(ステップS411:NO)、ステップS419に進む。一方、危険レベルが4以上であると判定されると(ステップS411:YES)、ステップS413に進む。以下では、ステップS411においてYESと判定された場合の処理を説明した後に、ステップS411においてNOと判定された場合の処理を説明する。
【0173】
ステップS411においてYESと判定されると、情報生成部276は、緊急警告情報を生成する(ステップS413)。緊急警告情報は、一定時間、出力部に緊急警告画面を表示させたり、緊急警告を音声で出力させたりするための情報である。生成された緊急警告情報は、通信部200に伝送され、通信ネットワーク15を介して入出力装置10に送信される。
【0174】
次いで、入出力装置10の出力部104は、緊急警告を出力する(ステップS415)。具体的には、出力部104は、ステップS413において生成された緊急警告情報に基づいて、緊急警告を表示したり、音声により緊急警告を出力したりしてよい。これにより、作業者は、緊急警告に気づき、例えば姿勢を直すことができる。
【0175】
緊急警告が出力されると、情報処理装置20の処理部260は、処理を終了するか否かを判定する(ステップS417)。具体的には、処理部260は、意味推定ユニット230及び生成ユニット270による各種の処理を終了するか否かを判定する。例えば、撮像部100による撮像が終了している場合には、処理部260は、処理を終了することを判定してよい。処理を終了することが判定された場合(ステップS417:YES)、図15に示す処理は終了する。一方、処理を終了しないことが判定された場合(ステップS417:NO)、ステップS403に戻る。
【0176】
ステップS411においてNOと判定されると、危険レベル判定部274は、危険レベルが3以上であるか否かを判定する(ステップS419)。危険レベルが3未満であると判定されると(ステップS419:NO)、ステップS401に戻る。一方、危険レベルが3以上であると判定されると(ステップS419:YES)、ステップS421に進む。
【0177】
次いで、時間計測部278は、危険レベルが3の状態の時間を積算タイムに加算する(ステップS421)。例えば、時間計測部278は、危険レベルが3であると前回判定されてから、危険レベルが3であると今回判定されるまでの時間を積算タイムに加算してよい。
【0178】
次いで、時間計測部278は、積算タイマに基づいて、危険レベルが3の状態が所定時間以上続いたか否かを判定する(ステップS423)。危険レベルが3の状態が所定時間以上続いていないと判定されると(ステップS423:NO)、ステップS417に進む。一方、危険レベルが3の状態が所定時間以上続いたと判定されると(ステップS423:YES)、ステップS425に進む。
【0179】
ステップS423においてYESと判定されると、情報生成部276は、警告情報を生成する(ステップS425)。警告情報は、出力部に警告を表示させるための情報又は警告を音声として出力させるための情報であって良い。生成された警告情報は、通信ネットワーク15を介して、入出力装置10に送信される。
【0180】
次いで、入出力装置10の出力部104は、ステップS425において生成された警告情報に基づいて、警告を出力する(ステップS427)。具体的には、出力部104は、警告を表示したり、音声として警告を出力したりする。これにより、ユーザは、姿勢を正したりすることができる。
【0181】
本実施形態によれば、意味推定部238により推定された人の画像オブジェクト及び物体の画像オブジェクトの間の意味関係が特定の意味条件を満たし、人の画像オブジェクトの特徴点に基づき推定される人の状態が特定の状態条件を満たす場合には、状態に応じた情報が生成される。このため、特定の条件を満たす意味関係に関わる人の状態を生成することが可能になる。これにより、例えば、人の状態を適切にユーザに通知することが可能となる。
【0182】
従来の技術では、人手によって姿勢の判定結果を装置に入力したり、人の身体に特殊な装置をつけさせたりすることにより、人の姿勢が判定される。本実施形態に係る情報処理システム1では、人の姿勢を判定するための処理の主要部分が自動化される。さらに、情報処理システム1は、撮像部100が撮像した画像を用いて姿勢を判定できるため、人に非接触で姿勢を判定できる。
【0183】
図16は、本開示の一実施形態に係る入出力装置10及び情報処理装置20のハードウェア構成の一例を示す図である。入出力装置10及び情報処理装置20は、演算部に相当するCPU(Central Processing Unit)又はGPU(Graphics Processing Unit)を有するプロセッサ10aと、記憶部110、210に相当するRAM(Random Access Memory)10bと、記憶部110、210に相当するROM(Read only Memory)10cと、通信部10dと、入力部10eと、出力部10fと、を有する。これらの各構成は、バスを介して相互にデータ送受信可能に接続される。なお、本例では入出力装置10及び情報処理装置20が一台のコンピュータで構成される場合について説明するが、入出力装置10及び情報処理装置20は、複数のコンピュータが組み合わされて実現されてもよい。また、図16で示す構成は一例であり、入出力装置10及び情報処理装置20はこれら以外の構成を有してもよいし、これらの構成のうち一部を有さなくてもよい。ここで、演算部は、制御部108及び処理部220を含む。
【0184】
CPU10aは、RAM10b又はROM10cに記憶されたプログラムの実行に関する制御やデータの演算、加工を行う制御部である。CPU10aは、画像に含まれる画像オブジェクトを認識して、複数の間の画像オブジェクトの意味関係を推定するプログラム(推定プログラム)を実行する演算部である。CPU10aは、入力部10eや通信部10dから種々のデータを受け取り、データの演算結果を出力部10fに表示したり、RAM10bに格納したりする。
【0185】
RAM10bは、記憶部のうちデータの書き換えが可能なものであり、例えば半導体記憶素子で構成されてよい。RAM10bは、CPU10aが実行するプログラム、画像及び推定結果といったデータを記憶してよい。なお、これらは例示であって、RAM10bには、これら以外のデータが記憶されていてもよいし、これらの一部が記憶されていなくてもよい。
【0186】
ROM10cは、記憶部のうちデータの読み出しが可能なものであり、例えば半導体記憶素子で構成されてよい。ROM10cは、例えば推定プログラムや、書き換えが行われないデータを記憶してよい。
【0187】
通信部10dは、入出力装置10及び情報処理装置20を他の機器に接続するインターフェースである。通信部10dは、インターネット等の通信ネットワークに接続されてよい。
【0188】
入力部10eは、ユーザからデータの入力を受け付けるものであり、例えば、各種のボタン、マウス、キーボード及びタッチパネルを含んでよい。
【0189】
出力部10fは、表示部あるいは音声出力部として機能するものである。出力部10fは、例えば、LCD(Liquid Crystal Display)等の各種の表示装置を備え、各種の情報を表示してよい。出力部10fは、例えば、画像及び重畳情報等を表示してよい。また、出力部10fは、例えば、スピーカ等の各種の音声出力装置を備え、各種の情報を音声として出力してよい。出力部10fは、例えば、警告を音声として出力してよい。
【0190】
推定プログラムは、RAM10bやROM10c等のコンピュータによって読み取り可能な記憶媒体に記憶されて提供されてもよいし、通信部10dにより接続される通信ネットワークを介して提供されてもよい。入出力装置10及び情報処理装置20では、CPU10aが推定プログラムを実行することにより、図1等を用いて説明した様々な動作が実現される。なお、これらの物理的な構成は例示であって、入出力装置10及び情報処理装置20は、必ずしも独立した構成でなくてもよい。例えば、入出力装置10及び情報処理装置20は、CPU10aとRAM10bやROM10cが一体化したLSI(Large-Scale Integration)を備えていてもよい。
【0191】
以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素及びその配置、材料、条件、形状、サイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。
【0192】
図8図10及び図15を参照して説明した各ステップの処理は、本明細書で説明する順序に沿って時系列に実行されてもよいし、矛盾が生じない限り、各ステップの処理が上述した順序と異なる順序で実行されるようにしてもよい。また、各ステップの処理は本明細書で説明したように直列で実施されてもよいし、複数のステップの処理が並列に実行されてもよい。
【0193】
上記実施形態では、情報処理装置20の意味推定ユニット230が意味推定を行い、意味推定の結果を後段の機能部(例えば、生成ユニット240及び270等)に伝送するものとして説明した。これに限らず、意味推定ユニット230の後段の機能部が意味推定部を備えてもよい。あるいは、意味推定ユニット230が部分的に意味関係を推定し、後段の機能部がアプリケーションに固有の意味関係を追加で推定してもよい。
【0194】
上記実施形態では、情報処理装置20は、1つの画像に基づいて意味関係の推定等の処理を実行するものとして説明した。これに限らず、情報処理装置20は、複数の画像との関係を用いて、各種の処理を実行してよい。例えば、意味推定部238は、時系列で並べられた複数の画像のそれぞれに含まれる特定の画像オブジェクトの位置関係に基づいて、意味関係を推定してもよい。
【0195】
例えば、人が右手を上げて、その手にボールを持っているオブジェクト画像を含む画像があるとする。この画像のみでは、人がボールを投げるところなのか、ボールをキャッチするのかを判別することは難しい。しかしながら、過去の画像と現在の画像との関係を見ることにより、ボールが近づいてきているのか、遠ざかっているのかを識別できる。したがって、過去の画像と現在の画像との関係を見ることにより、人がボールを投げるところなのか、ボールをキャッチするところなのかを判別することが可能となる。
【0196】
また、画像に物体を手で持っている作業者の画像オブジェクトが含まれているとする。この場合には、意味推定部238は、複数の時系列で並べられた複数の画像に含まれる、特定の画像オブジェクトの特徴点(例えば、人の手の特徴点、あるいは物体の特定部分の特徴点)の位置関係に基づいて、意味関係を推定できる。例えば、意味推定部238は、作業者が物体を持ち上げているのか、又は作業者が物体を下ろしているのかを示す意味関係を推定できる。
【0197】
上記実施形態では、情報処理装置20は、クラウド上のサーバとして機能するものとして説明したが、これに限定されるものではない。例えば、情報処理装置20は、入出力装置10と一体となって構成されてもよい。
【符号の説明】
【0198】
1…情報処理システム、10…入出力装置、100…撮像部、104…出力部、108…制御部、110…記憶部、120…画像、130…人オブジェクト、132,134,136,138,140,142,144,146,148,150,152,162,164,168…特徴点、160…クラブオブジェクト、166…ボールオブジェクト、170,180…画像オブジェクトリスト、174,184…意味関係リスト、182…付帯情報リスト、20…情報処理装置、210…記憶部、212…関係情報リスト、232…画像取得部、234…認識部、236…付帯情報推定部、237…姿勢推定部、238…意味推定部、244…指標生成部、246…特徴点情報生成部、272…負荷推定部、273…姿勢クラス判定部、274…危険レベル判定部、276…情報生成部、278…時間計測部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
【手続補正書】
【提出日】2021-03-22
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
複数の対象オブジェクトのそれぞれに含まれる特徴点の空間的関係と前記複数の対象オブジェクトの間の意味情報とを関連付けた関係情報を記憶する記憶部と、
画像に含まれる複数の画像オブジェクトのそれぞれから特徴点を抽出する認識部であって、前記複数の画像オブジェクトは人の画像オブジェクト及び物体の画像オブジェクトを含む、認識部と、
前記複数の画像オブジェクトに含まれる特徴点の空間的関係と前記関係情報とに基づいて、前記複数の画像オブジェクトの間の意味関係を推定する意味推定部と、
を備える、情報処理装置。
【請求項2】
前記意味推定部は、前記画像オブジェクトに付帯する付帯情報に基づいて、前記複数の画像オブジェクトの間の意味関係を推定する、
請求項1に記載の情報処理装置。
【請求項3】
前記付帯情報は、前記人の年齢、性別、体格、筋力、運動能力、装備品又は携行品の少なくともいずれかに関する情報を含む、
請求項2に記載の情報処理装置。
【請求項4】
前記付帯情報は、前記人の画像オブジェクトの特徴点に基づき推定される前記人の位置、体格、姿勢及び向きの少なくともいずれかに関する情報を含む、
請求項2または3に記載の情報処理装置。
【請求項5】
前記付帯情報は、前記物体の重さ、材質、重量分布及び重心の少なくともいずれかに関する情報を含む、
請求項2から4のいずれか一項に記載の情報処理装置。
【請求項6】
前記付帯情報は、前記物体の画像オブジェクトの特徴点に基づき推定される前記物体の位置、大きさ、形状及び向きの少なくともいずれかに関する情報を含む、
請求項2から5のいずれか一項に記載の情報処理装置。
【請求項7】
前記複数の画像オブジェクトの間の意味関係は、前記人による前記物体への動作、前記動作の目的又は前記物体が前記人に与える影響のうちの少なくともいずれかを含む、
請求項1から6のいずれか一項に記載の情報処理装置。
【請求項8】
前記複数の画像オブジェクトのそれぞれに含まれる特徴点は、第1ラベル情報が付与されている特徴点と、前記第1ラベル情報と特定の関係にある第2ラベル情報が付与された特徴点とを含み、
前記意味推定部は、第1画像オブジェクトから抽出される第1ラベル情報が付与された特徴点と、前記第2ラベル情報が付与された第2画像オブジェクトの特徴点との空間的関係と前記関係情報とに基づいて、前記第1画像オブジェクトと前記第2画像オブジェクトの間の意味関係を推定する、
請求項1から7のいずれか一項に記載の情報処理装置。
【請求項9】
前記意味推定部により推定された前記人の画像オブジェクト及び前記物体の画像オブジェクトの間の意味関係が特定の意味条件を満たし、前記人の画像オブジェクトの特徴点に基づき推定される前記人の状態が特定の状態条件を満たす場合には、前記状態に応じた情報を生成する情報生成部を、さらに備える、
請求項1から8のいずれか一項に記載の情報処理装置。
【請求項10】
前記状態条件は、前記人の画像オブジェクトの特徴点に基づき推定される前記人の姿勢に関する条件を含み、
前記情報生成部は、前記人の姿勢に応じた情報を生成する、
請求項9に記載の情報処理装置。
【請求項11】
前記状態条件は、前記人の画像オブジェクトの特徴点及び前記物体の画像オブジェクトに関する重さに関わる付帯情報に基づき推定される前記人にかかる負荷に関する条件を含み、
前記情報生成部は、前記負荷に応じた情報を生成する、
請求項10に記載の情報処理装置。
【請求項12】
前記意味推定部は、前記複数の画像オブジェクトのそれぞれについて意味関係を推定し、
特定の条件に合致する意味関係に対応する画像オブジェクトの特徴点に関する、前記特定の条件に応じた情報を生成する特徴点情報生成部を、さらに備える、
請求項1から11のいずれか一項に記載の情報処理装置。
【請求項13】
メモリ及びプロセッサを備える情報処理装置による情報処理方法であって、
前記メモリが、複数の対象オブジェクトのそれぞれに含まれる特徴点の空間的関係と前記複数の対象オブジェクトの間の意味情報とを関連付けた関係情報を記憶することと、
前記プロセッサが、画像に含まれる複数の画像オブジェクトのそれぞれから特徴点を抽出することであって、前記複数の画像オブジェクトは人の画像オブジェクト及び物体の画像オブジェクトを含み、
前記複数の画像オブジェクトに含まれる特徴点の空間的関係と前記関係情報とに基づいて、前記複数の画像オブジェクトの間の意味関係を推定することと、
を含む、情報処理方法。
【請求項14】
コンピュータに、
複数の対象オブジェクトのそれぞれに含まれる特徴点の空間的関係と前記複数の対象オブジェクトの間の意味情報とを関連付けた関係情報を記憶することと、
画像に含まれる複数の画像オブジェクトのそれぞれから特徴点を抽出することであって、前記複数の画像オブジェクトは人の画像オブジェクト及び物体の画像オブジェクトを含み、
前記複数の画像オブジェクトに含まれる特徴点の空間的関係と前記関係情報とに基づいて、前記複数の画像オブジェクトの間の意味関係を推定することと、
を実行させるためのプログラム。