IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 台州学院の特許一覧

特許7523729人間と機械の協働による組み立てシーン下での人体行動識別方法
<>
  • 特許-人間と機械の協働による組み立てシーン下での人体行動識別方法 図1
  • 特許-人間と機械の協働による組み立てシーン下での人体行動識別方法 図2
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-19
(45)【発行日】2024-07-29
(54)【発明の名称】人間と機械の協働による組み立てシーン下での人体行動識別方法
(51)【国際特許分類】
   G06T 7/00 20170101AFI20240722BHJP
   G06T 7/20 20170101ALI20240722BHJP
   G06T 7/70 20170101ALI20240722BHJP
   G06V 40/20 20220101ALI20240722BHJP
【FI】
G06T7/00 660Z
G06T7/20 300Z
G06T7/70 A
G06V40/20
【請求項の数】 7
(21)【出願番号】P 2022193633
(22)【出願日】2022-12-02
(65)【公開番号】P2023108595
(43)【公開日】2023-08-04
【審査請求日】2022-12-03
(31)【優先権主張番号】202210085400.1
(32)【優先日】2022-01-25
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】522046210
【氏名又は名称】台州学院
(74)【代理人】
【識別番号】100088063
【弁理士】
【氏名又は名称】坪内 康治
(72)【発明者】
【氏名】陳鵬展
(72)【発明者】
【氏名】李芳
【審査官】佐田 宏史
(56)【参考文献】
【文献】特表2020-525953(JP,A)
【文献】特表2022-501732(JP,A)
【文献】国際公開第2012/077286(WO,A1)
【文献】国際公開第2020/152851(WO,A1)
【文献】米国特許出願公開第2020/0237266(US,A1)
【文献】中国特許出願公開第111652076(CN,A)
【文献】中国特許出願公開第111783515(CN,A)
【文献】中国特許出願公開第112164091(CN,A)
【文献】中国特許出願公開第109308438(CN,A)
【文献】中国特許出願公開第110533011(CN,A)
【文献】Hajar Hiyadi et al.,"Adaptive dynamic time warping for recognition of natural gestures",2016 Sixth International Conference on Image Processing Theory, Tools and Applications (IPTA),米国,IEEE,2016年12月12日,pp.1-6
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00,7/00-7/90
G06V 10/00-10/98,40/20
G06N 3/08,20/00
(57)【特許請求の範囲】
【請求項1】
ニューラルネットワークを含む計算手段による以下の処理ステップで実行される人間と機械の協働による組み立てシーン下での人体行動識別方法であって、
2つの体感装置を配置し、2つの体感装置間の夾角がθであり、体感装置から人体行動下関節点座標流を取得し記憶する処理を行なうステップ1と、
完全な骨格関節を有する関節点座標流をスクリーニングし、動作イベント分割アルゴリズムに基づいて動作の開始位置及び終止位置を決めて関節点情報を得る処理を行なうステップ2と、
夾角θに応じて関節点情報の再サンプリング角度変化を行って関節点座標を得る処理を行なうステップ3と、
尾椎(spine base)(関節0)の座標を局所座標の原点としてその他の関節点の座標を正規化し、さらに平滑化して1つの動作を構成する骨格配列を得る処理を行なうステップ4と、
上肢隣接関節点ベクトルを簡略化して上肢のベクトル方向を得て、左上肢及び右上肢のベクトル方向と垂直方向との夾角をそれぞれ算出し、夾角によってシーンを左手側シーン又は右手側シーンに分割する処理を行なうテップ5と、
左手側シーン及び右手側シーン下での人体行動識別のトレーニング処理を行なうステップ6と、
左手側シーンと右手側シーンの人体行動識別出力を融合して人間と機械が協働するシーン下での行動識別を実現する処理を行なうステップ7と、を含むことを特徴とする、人間と機械の協働による組み立てシーン下での人体行動識別方法。
【請求項2】
ステップ1における体感装置がKinectセンサーであることを特徴とする、請求項1に記載の人間と機械の協働による組み立てシーン下での人体行動識別方法。
【請求項3】
ステップ2では、具体的には、閾値のエネルギー関数分割アルゴリズムに基づいて動作の開始位置及び終止位置を検出し、検出したところ、信号を出力する動作の開始前及び終了後に、出力された信号が通常相対的に安定し、動作の開始信号が瞬時に強く変化して動作分割根拠とすることを特徴とする、請求項1に記載の人間と機械の協働による組み立てシーン下での人体行動識別方法。
【請求項4】
ステップ3では、具体的には、再サンプリング角度変化前のfthフレームのith番目の関節座標が
であり、角度変化後の関節点座標が
であり、その座標変換関係式は以下のとおりであり、即ち、
ここで、θは2つのKinectの間の夾角に基づいて確定され、f∈N,i∈[1,17]であることを特徴とする、請求項1に記載の人間と機械の協働による組み立てシーン下での人体行動識別方法。
【請求項5】
ステップ4では、具体的には、尾椎(spine base)(関節0)の座標を局所座標の原点とし、以下のように、各フレームの各関節点の座標から尾椎(spine base)の座標を差し引き、
ここで、
は正規化した後のfth番目のフレームのith番目の関節の座標であり、ここで、i∈[1,17]であり、
はfth番目のフレームにおける尾椎(spine base)の3次元座標であり、処理した後、骨格配列
を得て、ここで、Cinは入力チャネル数であり、Tは配列における骨格数であり、Vは各骨格の関節数であることを特徴とする、請求項1に記載の人間と機械の協働による組み立てシーン下での人体行動識別方法。
【請求項6】
ステップ5では、具体的には、右肘(Elbow Right)を点Bとして定義し、右手首(Wrist Right)を点Cとして定義し、左肘(Elbow Left)を点Eとして定義し、左手首(Wrist Left)を点Fとして定義する。右肩部(Shoulder Right)を点Aとして定義し、左肩部(Shoulder Left)を点Dとして定義し、この場合、上肢のベクトルを
として簡略化し、上肢
のベクトル方向と垂直方向との夾角β1、β2を算出する。β1、β2が一定の範囲より大きいことを判断根拠とし、左手側シーン又は右手側シーンに分割することを特徴とする、請求項1に記載の人間と機械の協働による組み立てシーン下での人体行動識別方法。
【請求項7】
β1、β2が一定の範囲より大きいことを判断根拠とし、左手側シーン又は右手側シーンに分割することは、具体的には、人体骨格データ配列
を入力し、以下の予測関数を構築し、
初期設定の全0重みWを用いて初回の予測値A1を得て、確率が60以上である場合、y=1を出力し、つまり、左手側となり、逆にy=0を出力し、右手側となることを特徴とする、請求項6に記載の人間と機械の協働による組み立てシーン下での人体行動識別方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は人体行動識別の技術分野に関し、具体的には人間と機械の協働による組み立てシーン下での人体行動識別方法である。
【背景技術】
【0002】
人体行動識別方法は、シーンが簡単であり、種類が単一の人間と機械の協働による組立環境に応用され、人間と機械の協働によって椅子を組み立てることを例として説明すると、人は組み立ての主導者であり、ロボットは協力者として人に椅子の部品(例えば、椅子の足)及び組立工具(例えば、六角棒レンチ)を渡し、人間と機械が少ない数ステップで協働するだけで組み立て上の課題を完了することができる。
【0003】
しかし、行動識別精度及び識別速度が高くなく、識別エラーが発生しやすく、組み立ての効率が高くない。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明は、少なくともある程度で関連技術中の技術的課題の1つを解決することを目的とし、人間と機械の協働による組み立てシーン下での人体行動識別方法であって、
【課題を解決するための手段】
【0005】
2つの体感装置を配置し、2つの体感装置間の夾角がθであり、体感装置から人体行動下骨格関節の関節点座標流を取得するステップ1と、
完全な骨格関節を有する関節点座標流をスクリーニングし、動作イベント分割アルゴリズムに基づいて動作の開始位置及び終止位置を決めて関節点情報を得るステップ2と、
夾角θに応じて関節点情報の再サンプリング角度変化を行って関節点座標を得るステップ3と、
尾椎(spine base)(関節0)の座標を局所座標の原点としてその他の関節点の座標を正規化し、さらに平滑化して1つの動作を構成する骨格配列を得るステップ4と、
上肢隣接関節点ベクトルを簡略化して上肢のベクトル方向を得て、左上肢及び右上肢のベクトル方向と垂直方向との夾角をそれぞれ算出し、夾角によってシーンを左手側シーン又は右手側シーンに分割するステップ5と、
左手側シーン及び右手側シーン下での人体行動識別をそれぞれトレーニングするステップ6と、
左手側シーンと右手側シーンの人体行動出力を融合して人間と機械が協働するシーン下での行動識別を実現するステップ7と、を含むことを特徴とする人間と機械の協働による組み立てシーン下での人体行動識別方法を提供する。
【0006】
本発明の一例によれば、前記人間と機械の協働による組み立てシーン下での人体行動識別方法は、ステップ1における体感装置がKinect(キネクト)センサーであることを特徴とする。
【0007】
本発明の一例によれば、前記人間と機械の協働による組み立てシーン下での人体行動識別方法は、ステップ2では、具体的には、閾値のエネルギー関数分割アルゴリズムに基づいて動作の開始位置及び終止位置を検出し、検出したところ、信号を出力する動作の開始前及び終了後に、出力された信号が通常相対的に安定し、動作の開始信号が瞬時に強く変化することを特徴とする。
【0008】
本発明の一例によれば、前記人間と機械の協働による組み立てシーン下での人体行動識別方法は、ステップ3では、具体的には、再サンプリング角度変化前のfthフレームのith番目の関節座標が
であり、角度変化後の関節点座標が
であり、その座標変換関係式は以下のとおりであり、即ち、
ここで、θは2つのKinectの間の夾角に基づいて確定され、f∈N,i∈[1,17]であることを特徴とする。
【0009】
本発明の一例によれば、前記人間と機械の協働による組み立てシーン下での人体行動識別方法は、ステップ4では、具体的には、尾椎(spine base)(関節0)の座標を局所座標の原点とし、以下のように、各フレームの各関節点の座標から尾椎(spine base)の座標を差し引き、
ここで、
は正規化した後のfth番目のフレームのith番目の関節の座標であり、ここで、i∈[1,17]であり、
はfth番目のフレームにおける尾椎(spine base)の3次元座標であり、処理した後、骨格配列
を得て、ここで、Cinは入力チャネル数であり、Tは配列における骨格数であり、Vは各骨格の関節数であることを特徴とする。
【0010】
本発明の一例によれば、前記人間と機械の協働による組み立てシーン下での人体行動識別方法は、ステップ5では、具体的には、右肘(Elbow Right)を点Bとして定義し、右手首(Wrist Right)を点Cとして定義し、左肘(Elbow Left)を点Eとして定義し、左手首(WristLeft)を点Fとして定義する。右肩部(Shoulder Right)を点Aとして定義し、左肩部(Shoulder Left)を点Dとして定義し、この場合、上肢のベクトルを
として簡略化し、上肢
のベクトル方向と垂直方向との夾角β1,β2を算出する。β1,β2が一定の範囲より大きいことを判断根拠とし、左手側シーン又は右手側シーンに分割することを特徴とする。
【0011】
本発明の一例によれば、前記人間と機械の協働による組み立てシーン下での人体行動識別方法はβ1,β2、が一定の範囲より大きいことを判断根拠とし、左手側シーン又は右手側シーンに分割することは、具体的には、人体骨格データ配列
を入力し、以下の予測関数を構築し、
初期設定の全0重みWを用いて初回の予測値A1を得て、確率が60%以上である場合、y=1を出力し、つまり、左手側となり、逆にy=0を出力し、右手側となることを特徴とする。
【0012】
以下に、本発明の付加の面及び利点の一部を説明するが、この一部が以下の記述から明らかになるか、又は本発明の実践によって了解できるようになる。
【発明の効果】
【0013】
左上肢及び右上肢のベクトル方向と垂直方向との夾角は、シーンを左手側シーン又は右手側シーンに分割し、続いて各単独のシーン下で、簡略化された軽量のコンボリューショナルニューラルネットワークが人体行動を識別する正確度及び損失率が一定の要求を満たすようにトレーニングする。最後に、2つのシーンの出力を融合して人間と機械が協働するシーン下での最終的な行動識別を実現する。従来の簡単なシーン下での人体行動識別方法に対して、本方法は行動識別精度及び速度がより高く、高度深度学習に基づく大部分の方法に対して、推理時間がより少なく、計算効率が高まる。
【図面の簡単な説明】
【0014】
図1】本発明に係る人間と機械の協働による組み立てシーン下での人体行動識別方法のフロー概略図である。
図2】本発明に係る人間と機械の協働による組み立てシーン下での人体行動識別方法の骨格関節概略図である。
【発明を実施するための形態】
【0015】
以下に、本発明の実施例を詳しく説明するが、前記実施例の例示は図面に示されており、そのうち、始終同一又は類似の符号によって同一又は類似の素子又は同一又は類似の機能を有する素子を示す。以下に、図面を参照しながら説明する実施例は例示的なものであり、本発明を解釈することを意図するが、本発明に対する制限と理解することはできない。
【0016】
以下に図面を参照しながら本発明の実施例に係る人間と機械の協働による組み立てシーン下での人体行動識別方法を詳しく説明する。
【0017】
実施例1:
図1に示すように、人間と機械の協働による組み立てシーン下での人体行動識別方法であって、それは、
2つの体感装置を配置し、2つの体感装置間の夾角がθであり、体感装置から人体行動下骨格関節の関節点座標ストリームを取得するステップ1と、
完全な骨格関節を有する関節点座標ストリームをスクリーニングし、動作イベント分割アルゴリズムに基づいて動作の開始位置及び終止位置を決めて関節点情報を得るステップ2と、
夾角θに応じて関節点情報の再サンプリング角度変化を行って関節点座標を得るステップ3と、
尾椎(spine base)(関節0)の座標を局所座標の原点としてその他の関節点の座標を正規化し、さらに平滑化して1つの動作を構成する骨格配列を得るステップ4と、
上肢隣接関節点ベクトルを簡略化して上肢のベクトル方向を得て、左上肢及び右上肢のベクトル方向と垂直方向との夾角をそれぞれ算出し、夾角によってシーンを左手側シーン又は右手側シーンに分割するステップ5と、
左手側シーン及び右手側シーン下での人体行動識別をそれぞれトレーニングするステップ6と、
左手側シーンと右手側シーンの人体行動出力を融合して人間と機械が協働するシーン下での行動識別を実現するステップ7と、を含む。
【0018】
左上肢及び右上肢のベクトル方向と垂直方向との夾角は、シーンを左手側シーン又は右手側シーンに分割し、続いて各単独のシーン下で、簡略化された軽量のコンボリューショナルニューラルネットワークが人体行動を識別する正確度及び損失率が一定の要求を満たすようにトレーニングする。最後に2つのシーンの出力を融合して人間と機械が協働するシーン下での最終的な行動識別を実現する。従来の簡単なシーン下での人体行動識別方法に対して、本方法は行動識別精度及び速度がより高く、深度学習に基づく大部分の方法に対して推理時間がより少なく、計算効率が高まる。
【0019】
ステップ1において、体感装置はKinectセンサーであってもよく、シーン内で2つの範囲内に調整可能な三脚に固定して配置されてもよく、高さを人と同じようにし、操作者の前にある2つのセンサーが水平方向と一定の夾角をなす。Kinectセンサーはフレームレート30HZで人体の25個の骨格関節座標ストリームを記録する。
【0020】
図2に示すように、25個の骨格関節座標は具体的には0.尾椎(Spine base);1.脊柱中央部(Spine mid);2.頸部(Neck);3.頭部(Head);4.左肩部(Shoulder Left);5.左肘(Elbow Left);6.左手首(Wrist Left);7.左手(Hand Left);8.右肩部(Shoulder Right);9.右肘(Elbow Right);10.右手首(Wrist Right);11.右手(Hand Right);12.左尻(Hip Left);13.左膝(Knee Left);14.左足首(Ankle Left);15.左足(Foot Left);16.右尻(Hip Right);17.右膝(Knee Right);18.右足首(Ankle Right);19.右足(Foot Right);20.頸椎(Spine Shoulder);21.左指先(Handtip Left);22.左親指(Thumb Left);23.右指先(Handtip Right);24.右親指(Thumb Right)である。
【0021】
ステップ2では、具体的には、閾値のエネルギー関数分割アルゴリズムに基づいて動作の開始位置及び終止位置を検出し、検出した内で、信号を出力する動作の開始前及び終了後に、出力された信号が通常相対的に安定し、動作の開始信号が瞬時に強く変化する。
【0022】
ステップ3では、具体的には、再サンプリング角度変化前のfthフレームのith番目の関節座標が
であり、角度変化後の関節点座標が
であり、その座標変換関係式は以下のとおりであり、即ち、
ここで、θは2つのKinectの間の夾角に基づいて確定され、f∈N,i∈[1,17]である。
【0023】
ステップ4では、具体的には、尾椎(spine base)(関節0)の座標を局所座標の原点とし、以下のように、各フレームの各関節点の座標からspine baseの座標を差し引き、
ここで、
は正規化した後のfth番目のフレームのith番目の関節の座標であり、ここで、i∈[1,17]であり、
はfth番目のフレームにおけるspine baseの3次元座標であり、正規化した後に、尾椎(spine base)の3次元座標が全て0になり、計算の時、この関節を削除し、関節点の総個数が16となり、最後に、ガウスフィルタによって各次元の生データを平滑化する。これはプログラム言語Pythonで実現する。処理した後の骨格配列
は1つの動作の人体行動を構成して入力とし、ここで、Cinは入力チャネル数であり、Tは配列における骨格数であり、Vは各骨格の関節数である。続いて、骨格配列を1つの時空間画像にモデリングし、骨格配列が1次元の時間配列構造である。
【0024】
ステップ5では、具体的には、右肘(Elbow Right)を点Bとして定義し、右手首(Wrist Right)を点Cとして定義し、左肘(Elbow Left)を点Eとして定義し、左手首(Wrist Left)を点Fとして定義する。右肩部(Shoulder Right)を点Aとして定義し、左肩部(Shoulder Left)を点Dとして定義し、この場合、上肢のベクトルを
として簡略化し、上肢
のベクトル方向と垂直方向(即ち、人体胴体即ち腰回りの中心、脊柱、頚椎、頸部、頭の直線方向)との夾角β1、β2を算出する。β1、β2が一定の範囲より大きいことを判断根拠とし、左手側シーン又は右手側シーンに分割する。
【0025】
ロジスティック回帰(Logistic Regression)の基本的な原理を用いて、1つの適切な予測関数(h関数)を見つけ、h関数は入力データの判断結果を予測するために用いられ、例えば、値が15°を取る場合、β1≧15°のシーンを左手側シーンとし、逆に、β2≧15°のシーンを右手側シーンとする。
【0026】
骨格配列を入力とし、シーン分類の答えを出力とし、分類ロジスティック回帰(Logistic Regression)モデルは以下のように確立される。
【0027】
1.人体骨格データ配列F_iを入力し、以下の予測関数を構築し、初期設定の全0重みW(論理(logistic)初期設定には全てが0である制限がなく、隠れ層付きのニューラルネットワークの場合、このような制限がある)を用いて初回の予測値A1を得て、確率が60%以上である場合、y=1を出力し、つまり、左手側となり、逆にy=0を出力し、右手側となる。
【0028】
2.損失関数Jを構築し、トレーニングセットにおける対応するタグβとロジスティック回帰のコスト関数計算を行い、そのcost関数とJ関数は以下のとおりである。

【0029】
3.勾配降下法で次の計算を反復し、更新したW及びθ値を得て、損失関数が0に近接するまでコスト関数計算を再度行い、この時、トレーニングがこれまででよいことを意味する。
【0030】
4.トレーニングした後の重みW及びθ値を得て、テストセットで性能を検出する。
【0031】
ステップ5で得られたシーン分類結果を既知の条件とし、左手側のシーンである場合、左肩部、左腕、左手首、左手、左親指、左手指先、腰回りの中心、脊柱、頸椎、頸部、頭の関節座標の骨格時空配列を入力とし、軽量のコンボリューショナルニューラルネットワークに流入させ、ニューラルネットワークは畳込み層、活性化関数層、セル化層、局所応答正規化層、標準化層及び最後の全接続層(ノード数が300である)からなる。活性化関数はReLU(ランプ関数)であり、畳込み核数は32であり、選択損失関数はcategorical_crossentropy(多クラス交差エントロピー誤関数)であり、最適化関数はAdamであり、判断指標はaccuracyとlossである。モデルパラメータを連続的に調整し、識別正確率が95%以上に達し、且つ損失率が5%以下に低下する時、モデルパラメータの調整を停止する。逆に、ステップ5で得られた結果は右手側シーンである場合、その操作が左手側と同様であり、それに対応する右手側関節座標の骨格時空配列を入力する。両側のモデルをそれぞれ独立してトレーニングし、それにそれぞれトレーニング指標を達成させる。
【0032】
最終的にSoftmax(ソフトマックス)層によって2つのシーンの出力を融合して人間と機械が協働するシーン下での最後の行動識別を実現する。まず、左手側シーンと右手側シーンに分割することができ、より高い行動識別精度及び速度を有し、深度学習に基づく大部分の方法に対して推理時間がより少なく、計算効率が高まり、最後に2つのシーンの出力を再度融合して人間と機械が協働するシーン下での最終的な行動識別を実現する。識別精度及び速度はより高い。
【0033】
以下に、本発明の付加の面及び利点の一部を説明するが、この一部は以下の記述から明らかになるか、又は本発明の実践によって了解できるようになる。
【0034】
左上肢及び右上肢のベクトル方向と垂直方向との夾角、夾角によってシーンを左手側シーン又は右手側シーンに分割する、続いて各単独のシーン下で、簡略化された軽量コンボリューショナルニューラルネットワークが人体行動を識別する正確度及び損失率が一定の要求を満たすようにトレーニングする。最後に2つのシーンの出力を融合して人間と機械が協働するシーン下での最終的な行動識別を実現する。従来の簡単なシーン下での人体行動識別方法に対して、本方法は行動識別精度及び速度がより高く、深度学習に基づく大部分の方法に対して推理時間がより少なく、計算効率が高まる。
【0035】
本明細書の説明において、「1つの実施例」、「いくつかの実施例」、「例示」、「具体例」、又は「いくつかの例示」等の用語の記述は、当該実施例又は例示に記載の具体的な特徴、構造、材料又は特徴の結合が本発明の少なくとも1つの実施例又は例示に含まれることを意味する。本明細書において、上記用語の概略的な表現は必ずしも同一の実施例又は例示を対象としない。また、記述する具体的な特徴、構造、材料又は特徴はいずれか1つ又は複数の実施例又は例示に適切な形態で組み合わせてもよい。また、相互に矛盾しない場合、当業者であれば、本明細書に記載の異なる実施例又は例示、及び異なる実施例又は例示の特徴を結合する及び組み合わせることができる。
【0036】
以上は本発明の実施例を示して記述したが、上記実施例は例示的なものであり、本発明に対する制限であると理解できず、当業者であれば、本発明の範囲内に上記実施例に対して変化、修正、置換及び変形を行うことができる。
【0037】
当業者にとっては、上記説明を読み取ると、様々な変化及び修正が間違いなく自明となる。このため、添付する特許請求の範囲は本発明の真の意図及び範囲内の全ての変化及び修正を含むとみなすべきである。特許請求の範囲内のいかなる及び全ての等価の範囲と内容も、本発明の意図及び範囲内にあると認められるべきである。
図1
図2