特許第6836985号(P6836985)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

特許6836985撮影映像から人の行動を表すコンテキストを推定するプログラム、装置及び方法
<>
  • 特許6836985-撮影映像から人の行動を表すコンテキストを推定するプログラム、装置及び方法 図000002
  • 特許6836985-撮影映像から人の行動を表すコンテキストを推定するプログラム、装置及び方法 図000003
  • 特許6836985-撮影映像から人の行動を表すコンテキストを推定するプログラム、装置及び方法 図000004
  • 特許6836985-撮影映像から人の行動を表すコンテキストを推定するプログラム、装置及び方法 図000005
  • 特許6836985-撮影映像から人の行動を表すコンテキストを推定するプログラム、装置及び方法 図000006
  • 特許6836985-撮影映像から人の行動を表すコンテキストを推定するプログラム、装置及び方法 図000007
  • 特許6836985-撮影映像から人の行動を表すコンテキストを推定するプログラム、装置及び方法 図000008
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6836985
(24)【登録日】2021年2月10日
(45)【発行日】2021年3月3日
(54)【発明の名称】撮影映像から人の行動を表すコンテキストを推定するプログラム、装置及び方法
(51)【国際特許分類】
   G06T 7/20 20170101AFI20210222BHJP
【FI】
   G06T7/20 300Z
【請求項の数】16
【全頁数】19
(21)【出願番号】特願2017-227483(P2017-227483)
(22)【出願日】2017年11月28日
(65)【公開番号】特開2019-96252(P2019-96252A)
(43)【公開日】2019年6月20日
【審査請求日】2019年11月24日
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100135068
【弁理士】
【氏名又は名称】早原 茂樹
(72)【発明者】
【氏名】田坂 和之
(72)【発明者】
【氏名】柳原 広昌
【審査官】 真木 健彦
(56)【参考文献】
【文献】 特開2014−048938(JP,A)
【文献】 特開2015−043141(JP,A)
【文献】 国際公開第2017/150211(WO,A1)
【文献】 特開2011−215968(JP,A)
【文献】 特開2013−210875(JP,A)
【文献】 特開2005−242566(JP,A)
【文献】 特開2008−140266(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/20
(57)【特許請求の範囲】
【請求項1】
撮影映像からコンテキストを推定するようにコンピュータを機能させるコンテキスト推定プログラムであって、
前記撮影映像からンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第1のコンテキスト認識エンジンと、
第1のコンテキスト認識エンジンによって認識された複数のコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する第1の認識判定手段と、
第1の認識判定手段によって真と判定された際に、前記撮影映像からンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第2のコンテキスト認識エンジンと、
第1の認識判定手段によって真と判定された際に少なくとも2のコンテキスト認識エンジンによって認識されたコンテキストを出力する推定コンテキスト出力手段と
して機能させ、
第1のコンテキスト認識エンジン及び第2のコンテキスト認識エンジンによって認識される複数のコンテキストの候補は同じものである
ようにコンピュータを機能させることを特徴とするコンテキスト推定プログラム。
【請求項2】
第1の認識判定手段は、第1のコンテキスト認識エンジンによって認識された上位2つのコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する
ようにコンピュータを機能させることを特徴とする請求項1に記載のコンテキスト推定プログラム。
【請求項3】
第1のコンテキスト認識エンジン及び第2のコンテキスト認識エンジンは、異なった認識処理を行うと共に、
第1のコンテキスト認識エンジンの認識処理の演算量は、第2のコンテキスト認識エンジンの認識処理の演算量より少なく、
第1のコンテキスト認識エンジンの認識処理の認識精度は、第2のコンテキスト認識エンジンの認識処理の認識精度より低くなる
ようにコンピュータを機能させることを特徴とする請求項1又は2に記載のコンテキスト推定プログラム。
【請求項4】
第1のコンテキスト認識エンジンは、前記撮影映像から、RGB画像に基づく物体認識によってコンテキストを推定し、
第2のコンテキスト認識エンジンは、前記撮影映像から、オプティカルフローに基づく動体認識によってコンテキストを推定する
ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載のコンテキスト推定プログラム。
【請求項5】
第1のコンテキスト認識エンジンは、前記撮影映像から、オプティカルフローに基づく動体認識によってコンテキストを推定し、
第2のコンテキスト認識エンジンは、前記撮影映像から、スケルトン情報に基づく人物の関節領域認識によってコンテキストを推定する
ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載のコンテキスト推定プログラム。
【請求項6】
第1のコンテキスト認識エンジンは、前記撮影映像から、RGB画像に基づく物体認識によってコンテキストを推定し、
第2のコンテキスト認識エンジンは、前記撮影映像から、スケルトン情報に基づく人物の関節領域認識によってコンテキストを推定する
ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載のコンテキスト推定プログラム。
【請求項7】
前記推定コンテキスト出力手段は、コンテキスト毎に、複数のコンテキスト認識エンジンによって認識された複数のスコアにおける加算値又は平均値に基づいて、最も高いスコアとなるコンテキストを出力する
ようにコンピュータを機能させることを特徴とする請求項1からのいずれか1項に記載のコンテキスト推定プログラム。
【請求項8】
前記撮影映像は、所定単位時間に区分されており、
所定単位時間毎に、当該所定単位時間の初期段階で第1のコンテキスト認識エンジン及び第1の認識判定手段を実行し、第1の認識判定手段の判定に基づいて、その後に第2のコンテキスト認識エンジンを実行するか否かを決定する
ようにコンピュータを機能させることを特徴とする請求項1からのいずれか1項に記載のコンテキスト推定プログラム。
【請求項9】
第2のコンテキスト認識エンジンは、処理時間又は処理時間割合(単位時間当たりの当該処理時間の割合)を計測し、
第1の認識判定手段は、前記処理時間が所定閾値以上、又は、前記処理時間割合が所定閾値以上となる場合に、第1のコンテキスト認識エンジンのコンテキストを前記推定コンテキスト出力手段へ出力すると共に、第2のコンテキスト認識エンジンを実行する
ようにコンピュータを更に機能させることを特徴とする請求項1からのいずれか1項に記載のコンテキスト推定プログラム。
【請求項10】
第1の認識判定手段によって偽と判定された際に、第2のコンテキスト認識エンジンを実行し、
第1の認識判定手段によって真と判定された際に、前記撮影映像からコンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第3のコンテキスト認識エンジンとして更に機能させ、
前記推定コンテキスト出力手段は、第1の認識判定手段によって真と判定された際に、第2のコンテキスト認識エンジンのコンテキストの出力に代えて、少なくとも第3のコンテキスト認識エンジンのコンテキストを出力す
ようにコンピュータを機能させることを特徴とする請求項1からのいずれか1項に記載のコンテキスト推定プログラム。
【請求項11】
第2のコンテキスト認識エンジンによって認識された複数のコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する第2の認識判定手段と、
第2の認識判定手段によって真と判定された際に、前記撮影映像からコンテキストを認識する第3のコンテキスト認識エンジンと
として更に機能させ、
前記推定コンテキスト出力手段は、第2の認識判定手段によって真と判定された際に、第2のコンテキスト認識エンジンのコンテキストの出力に代えて、少なくとも第3のコンテキスト認識エンジンのコンテキストを出力する
ようにコンピュータを機能させることを特徴とする請求項1からのいずれか1項に記載のコンテキスト推定プログラム。
【請求項12】
第1のコンテキスト認識エンジンは、前記撮影映像から、RGB画像に基づく物体認識によってコンテキストを推定し、
第2のコンテキスト認識エンジンは、前記撮影映像から、オプティカルフローに基づく動体認識によってコンテキストを推定し、
第3のコンテキスト認識エンジンは、前記撮影映像から、スケルトン情報に基づく人物の関節領域認識によってコンテキストを推定する
ようにコンピュータを機能させることを特徴とする請求項10又は11に記載のコンテキスト推定プログラム。
【請求項13】
前記推定コンテキスト出力手段は、コンテキスト毎に、複数のコンテキスト認識エンジンによって認識された複数のスコアにおける加算値又は平均値に基づいて、最も高いスコアとなるコンテキストを出力する
ようにコンピュータを機能させることを特徴とする請求項10から12のいずれか1項に記載のコンテキスト推定プログラム。
【請求項14】
第2のコンテキスト認識エンジン及び/又は第3のコンテキスト認識エンジンは、処理時間又は処理時間割合(単位時間当たりの当該処理時間の割合)を計測し、
第1の認識判定手段は、前記処理時間が所定閾値以上、又は、前記処理時間割合が所定閾値以上となる場合に、第1のコンテキスト認識エンジンのコンテキストを前記推定コンテキスト出力手段へ出力すると共に、第2のコンテキスト認識エンジン及び/又は第3のコンテキスト認識エンジンを実行する
ようにコンピュータを更に機能させることを特徴とする請求項10から13のいずれか1項に記載のコンテキスト推定プログラム。
【請求項15】
撮影映像からコンテキストを推定するコンテキスト推定装置であって、
前記撮影映像からコンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第1のコンテキスト認識エンジンと、
第1のコンテキスト認識エンジンによって認識された複数のコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する第1の認識判定手段と、
第1の認識判定手段によって真と判定された際に、前記撮影映像からコンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第2のコンテキスト認識エンジンと、
第1の認識判定手段によって真と判定された際に、少なくとも2のコンテキスト認識エンジンによって認識されたコンテキストを出力する推定コンテキスト出力手段と
を有し、
第1のコンテキスト認識エンジン及び第2のコンテキスト認識エンジンによって認識される複数のコンテキストの候補は同じものである
ことを特徴とするコンテキスト推定装置。
【請求項16】
撮影映像からコンテキストを推定する装置のコンテキスト推定方法であって、
前記装置は、
前記撮影映像からコンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第1のステップと、
第1のステップによって認識された複数のコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する第2のステップと、
第2のステップによって真と判定された際に、前記撮影映像からコンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第3のステップと、
第2のステップによって真と判定された際に、少なくとも第3のステップによって認識されたコンテキストを出力する第4のステップと
を実行し、
第1のステップ及び第3のステップによって認識される複数のコンテキストの候補は同じものである
ことを特徴とする装置のコンテキスト推定方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、深層学習の学習モデルを用いて、撮影映像から、人の行動を表すコンテキストを推定する技術に関する。
【背景技術】
【0002】
図1は、行動推定装置を有するシステム構成図である。
【0003】
図1のシステムによれば、行動推定装置1は、インターネットに接続されたサーバとして機能する。行動推定装置1は、予め学習映像によって学習モデルを構築した行動推定エンジンを有する。学習映像は、人の行動が映り込む撮影映像と、その行動対象とが予め対応付けられたものである。
【0004】
端末2はそれぞれ、カメラを搭載しており、人の行動を撮影した撮影映像を、行動推定装置1へ送信する。端末2は、各ユーザによって所持されるスマートフォンや携帯端末であって、携帯電話網又は無線LANのようなアクセスネットワークに接続する。
勿論、端末2は、スマートフォン等に限られず、例えば宅内に設置されたWebカメラであってもよい。また、Webカメラによって撮影された映像データがSDカードに記録され、その記録された映像データが行動推定装置1へ入力されるものであってもよい。
【0005】
実運用としては、例えばモニターテストに参加したユーザに、自らのスマートフォンのカメラで、自らの行動を撮影してもらう。そのスマートフォンは、その映像を、行動推定装置1へ送信する。行動推定装置1は、その映像から人の行動を推定し、その推定結果を様々なアプリケーションで利用する。
【0006】
行動推定装置1における行動推定エンジンとしては、様々な方式のものを実装することができる。
【0007】
従来、撮影映像から動体の移動を認識するために、RGB画像に加えて、移動の特徴量(オプティカルフロー)を用いた技術がある(例えば非特許文献1参照)。例えばTwo-stream ConvNetsによれば、空間方向のCNN(Spatial stream ConvNet)と時系列方向のCNN(Temporal stream ConvNet)とを用いて、画像中の物体や背景のアピアランスの特徴と、オプティカルフローの水平方向成分と垂直成分の系列における動きの特徴との両方を抽出する。
また、人の行動をするために、人の関節とその連携部分のスケルトン情報を抽出する技術もある(例えば非特許文献2参照)。
【0008】
一方で、認識処理を高速化するために、対象画像から候補領域を切り出して対象物を判定する技術もある(例えば特許文献1参照)。この技術によれば、複数の画像サイズの対象画像の中から、学習モデルの生成の際に統一されたサイズに最も近くなる画像サイズの対象画像を選択する。
また、人が特定の行動タイプをとる可能性を予測する予測器モデルを生成する技術もある(例えば特許文献2参照)。この技術によれば、行動タイプの成功したインスタンスと失敗したインスタンスとを含むデータを収集する。これらデータから、異なるタイプの複数の予測器が生成され、その性能に基づいて予測器が選択される。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特開2017−146840号公報
【特許文献2】特表2016−510441号公報
【非特許文献】
【0010】
【非特許文献1】Karen Simonyan and Andrew Zisserman, “Two-Stream Convolutional Networks for Action Recognition in Videos,” in NIPS 2014、[online]、[平成29年11月13日検索]、インターネット<URL:https://arxiv.org/abs/1406.2199.pdf>
【非特許文献2】Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields.、[online]、[平成29年11月13日検索]、インターネット<https://arxiv.org/pdf/1611.08050.pdf>
【非特許文献3】「スコアの統合」、[online]、[平成29年11月13日検索]、インターネット<https://image.slidesharecdn.com/170121stairlabslideshare-170119103908/95/-54-638.jpg?cb=1484822888>
【非特許文献4】OpenPose、[online]、[平成29年10月19日検索]、インターネット<URL:https://github.com/CMU-Perceptual-Computing-Lab/openpose>
【非特許文献5】「動画や写真からボーンが検出できる OpenPose を試してみた」、[online]、[平成29年10月19日検索]、インターネット<URL:http://hackist.jp/?p=8285>
【非特許文献6】「OpenPoseがどんどんバージョンアップして3d pose estimationも試せるようになっている」、[online]、[平成29年10月19日検索]、インターネット<URL: http://izm-11.hatenablog.com/entry/2017/08/01/140945>
【発明の概要】
【発明が解決しようとする課題】
【0011】
前述した従来技術によれば、人の行動が映り込む撮影映像の内容に応じて、高速に且つ高精度に認識する学習モデルを予め決定しておく必要がある。具体的には、「飲む」「食べる」「走る」のようなコンテキスト(人の行動)は、物体認識、動体認識、人物の関節領域認識のいずれであっても認識することができる。
【0012】
しかしながら、物体認識の場合、計算リソース(処理計算量)は比較的少なくても、物体の存在のみからコンテキストを認識するために、認識精度は低くならざるを得ない。一方で、動体認識や関節領域認識の場合、コンテキストの認識精度は高いが、計算リソースが大きくならざるを得ない。コンテキスト認識結果は、撮影映像に対してリアルタイムに出力する必要があるために、計算リソースの大きさが問題となる。
【0013】
そこで、本発明は、撮影映像の内容に基づいて、人の行動を表すコンテキストを、できる限り高速且つ高精度に推定するプログラム、装置及び方法を提供することを目的とする。
【課題を解決するための手段】
【0014】
本発明によれば、撮影映像からコンテキストを推定するようにコンピュータを機能させるコンテキスト推定プログラムであって、
撮影映像からンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第1のコンテキスト認識エンジンと、
第1のコンテキスト認識エンジンによって認識された複数のコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する第1の認識判定手段と、
第1の認識判定手段によって真と判定された際に、撮影映像からンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第2のコンテキスト認識エンジンと、
第1の認識判定手段によって真と判定された際に少なくとも2のコンテキスト認識エンジンによって認識されたコンテキストを出力する推定コンテキスト出力手段と
して機能させ、
第1のコンテキスト認識エンジン及び第2のコンテキスト認識エンジンによって認識される複数のコンテキストの候補は同じものである
ようにコンピュータを機能させることを特徴とする。
【0015】
本発明のコンテキスト推定プログラムにおける他の実施形態によれば、
第1の認識判定手段は、第1のコンテキスト認識エンジンによって認識された上位2つのコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する
ようにコンピュータを機能させることも好ましい。
本発明のコンテキスト推定プログラムにおける他の実施形態によれば、
第1のコンテキスト認識エンジン及び第2のコンテキスト認識エンジンは、異なった認識処理を行うと共に、
第1のコンテキスト認識エンジンの認識処理の演算量は、第2のコンテキスト認識エンジンの認識処理の演算量より少なく、
第1のコンテキスト認識エンジンの認識処理の認識精度は、第2のコンテキスト認識エンジンの認識処理の認識精度より低くなる
ようにコンピュータを機能させることも好ましい。
【0016】
本発明のコンテキスト推定プログラムにおける他の実施形態によれば、
第1のコンテキスト認識エンジンは、撮影映像から、RGB画像に基づく物体認識によってコンテキストを推定し、
第2のコンテキスト認識エンジンは、撮影映像から、オプティカルフローに基づく動体認識によってコンテキストを推定する
ようにコンピュータを機能させることも好ましい。
【0017】
本発明のコンテキスト推定プログラムにおける他の実施形態によれば、
第1のコンテキスト認識エンジンは、撮影映像から、オプティカルフローに基づく動体認識によってコンテキストを推定し、
第2のコンテキスト認識エンジンは、撮影映像から、スケルトン情報に基づく人物の関節領域認識によってコンテキストを推定する
ようにコンピュータを機能させることも好ましい。
【0018】
本発明のコンテキスト推定プログラムにおける他の実施形態によれば、
第1のコンテキスト認識エンジンは、撮影映像から、RGB画像に基づく物体認識によってコンテキストを推定し、
第2のコンテキスト認識エンジンは、撮影映像から、スケルトン情報に基づく人物の関節領域認識によってコンテキストを推定する
ようにコンピュータを機能させることも好ましい。
【0019】
本発明のコンテキスト推定プログラムにおける他の実施形態によれば、
推定コンテキスト出力手段は、コンテキスト毎に、複数のコンテキスト認識エンジンによって認識された複数のスコアにおける加算値又は平均値に基づいて、最も高いスコアとなるコンテキストを出力する
ようにコンピュータを機能させることも好ましい。
【0020】
本発明のコンテキスト推定プログラムにおける他の実施形態によれば、
撮影映像は、所定単位時間に区分されており、
所定単位時間毎に、当該所定単位時間の初期段階で第1のコンテキスト認識エンジン及び第1の認識判定手段を実行し、第1の認識判定手段の判定に基づいて、その後に第2のコンテキスト認識エンジンを実行するか否かを決定する
ようにコンピュータを機能させることも好ましい。
【0021】
本発明のコンテキスト推定プログラムにおける他の実施形態によれば、
第2のコンテキスト認識エンジンは、処理時間又は処理時間割合(単位時間当たりの当該処理時間の割合)を計測し、
第1の認識判定手段は、処理時間が所定閾値以上、又は、処理時間割合が所定閾値以上となる場合に、第1のコンテキスト認識エンジンのコンテキストを推定コンテキスト出力手段へ出力すると共に、第2のコンテキスト認識エンジンを実行する
してコンピュータを更に機能させることも好ましい。
【0022】
本発明のコンテキスト推定プログラムにおける他の実施形態によれば、
第1の認識判定手段によって偽と判定された際に、第2のコンテキスト認識エンジンを実行し、
第1の認識判定手段によって真と判定された際に、撮影映像からコンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第3のコンテキスト認識エンジンとして更に機能させ、
推定コンテキスト出力手段は、第1の認識判定手段によって真と判定された際に、第2のコンテキスト認識エンジンのコンテキストの出力に代えて、少なくとも第3のコンテキスト認識エンジンのコンテキストを出力す
ようにコンピュータを機能させることも好ましい。
【0023】
本発明のコンテキスト推定プログラムにおける他の実施形態によれば、
第2のコンテキスト認識エンジンによって認識された複数のコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する第2の認識判定手段と、
第2の認識判定手段によって真と判定された際に、撮影映像からコンテキストを認識する第3のコンテキスト認識エンジンと
して更に機能させ、
推定コンテキスト出力手段は、第2の認識判定手段によって真と判定された際に、第2のコンテキスト認識エンジンのコンテキストの出力に代えて、少なくとも第3のコンテキスト認識エンジンのコンテキストを出力する
ようにコンピュータを機能させることも好ましい。
【0024】
本発明のコンテキスト推定プログラムにおける他の実施形態によれば、
第1のコンテキスト認識エンジンは、撮影映像から、RGB画像に基づく物体認識によってコンテキストを推定し、
第2のコンテキスト認識エンジンは、撮影映像から、オプティカルフローに基づく動体認識によってコンテキストを推定し、
第3のコンテキスト認識エンジンは、撮影映像から、スケルトン情報に基づく人物の関節領域認識によってコンテキストを推定する
ようにコンピュータを機能させることも好ましい。
【0025】
本発明のコンテキスト推定プログラムにおける他の実施形態によれば、
推定コンテキスト出力手段は、コンテキスト毎に、複数のコンテキスト認識エンジンによって認識された複数のスコアにおける加算値又は平均値に基づいて、最も高いスコアとなるコンテキストを出力する
ようにコンピュータを機能させることも好ましい。
【0026】
本発明のコンテキスト推定プログラムにおける他の実施形態によれば、
第2のコンテキスト認識エンジン及び/又は第3のコンテキスト認識エンジンは、処理時間又は処理時間割合(単位時間当たりの当該処理時間の割合)を計測し、
第1の認識判定手段は、処理時間が所定閾値以上、又は、処理時間割合が所定閾値以上となる場合に、第1のコンテキスト認識エンジンのコンテキストを推定コンテキスト出力手段へ出力すると共に、第2のコンテキスト認識エンジン及び/又は第3のコンテキスト認識エンジンを実行する
ようにコンピュータを更に機能させることも好ましい。
【0027】
本発明によれば、撮影映像からコンテキストを推定するコンテキスト推定装置であって、
撮影映像からコンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第1のコンテキスト認識エンジンと、
第1のコンテキスト認識エンジンによって認識された複数のコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する第1の認識判定手段と、
第1の認識判定手段によって真と判定された際に、撮影映像からコンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第2のコンテキスト認識エンジンと、
第1の認識判定手段によって真と判定された際に、少なくとも2のコンテキスト認識エンジンによって認識されたコンテキストを出力する推定コンテキスト出力手段と
を有し、
第1のコンテキスト認識エンジン及び第2のコンテキスト認識エンジンによって認識される複数のコンテキストの候補は同じものである
ことを特徴とする。
【0028】
本発明によれば、撮影映像からコンテキストを推定する装置のコンテキスト推定方法であって、
装置は、
撮影映像からコンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第1のステップと、
第1のステップによって認識された複数のコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する第2のステップと、
第2のステップによって真と判定された際に、撮影映像からコンテキストを認識し、当該コンテキストとスコアとを対応付けて出力する第3のステップと、
第2のステップによって真と判定された際に、少なくとも第3のステップによって認識されたコンテキストを出力する第4のステップと
を実行し、
第1のステップ及び第3のステップによって認識される複数のコンテキストの候補は同じものである
ことを特徴とする。
【発明の効果】
【0029】
本発明のプログラム、装置及び方法によれば、撮影映像の内容に基づいて、人の行動を表すコンテキストを、できる限り高速且つ高精度に推定することができる。具体的には、学習モデルとしてのコンテキスト認識エンジンを、撮影映像の内容に基づいて自動的に選択することができる。
【図面の簡単な説明】
【0030】
図1】行動推定装置を有するシステム構成図である。
図2】2つのコンテキスト認識エンジンを有する行動推定装置の機能構成図である。
図3図2におけるコンテキストの推定を表すフロー図である。
図4】撮影映像に対する推定タイミングを表す説明図である。
図5】2つのコンテキスト認識エンジンの組み合わせを表すフローチャートである。
図6】3つのコンテキスト認識エンジンを有する行動推定装置の機能構成図である。
図7】3つのコンテキスト認識エンジンの組み合わせを表すフローチャートである。
【発明を実施するための形態】
【0031】
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
【0032】
図2は、2つのコンテキスト認識エンジンを有する行動推定装置の機能構成図である。
図3は、図2におけるコンテキストの推定を表すフロー図である。
【0033】
行動推定装置1は、人の行動が映り込む撮影映像を入力し、コンテキストを推定する。図2によれば、行動推定装置1は、主な構成として、第1のコンテキスト認識エンジン11と、第1の認識判定部12と、第2のコンテキスト認識エンジン13と、推定コンテキスト出力部14とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、装置の行動推定方法としても理解できる。
【0034】
行動推定装置1は、異なる種類の複数のコンテキスト認識エンジンを有し、撮影映像を区分した所定期間毎に、高速で且つ高精度のコンテキスト認識エンジンを自動的に選択するように機能する。
【0035】
[第1のコンテキスト認識エンジン11]
第1のコンテキスト認識エンジン11は、撮影映像から、第1のコンテキストを認識し、第1のコンテキストと第1のスコア(コンテキスト認識精度)とを対応付けて出力する。第1のコンテキスト認識エンジン11は、例えば「飲む」「食べる」「走る」のような人の行動を表すコンテキストを予め学習しているとする。
具体的には、撮影映像から以下のように第1のコンテキストを認識したとする。
[第1のコンテキスト]:[第1のスコア]
飲む : 0.3
食べる : 0.2
走る : 0.1
認識結果となる第1のコンテキスト及び第1のスコアは、第1の認識判定部12へ出力される。
【0036】
[第1の認識判定部12]
第1の認識判定部12は、最初にオプション的に、第1のコンテキスト認識エンジン11で認識された最上位の第1のコンテキストについて、そのスコアが所定閾値(例えば90%)以上のように極めて高い場合、第2のコンテキスト認識エンジン13を実行することなく、その第1のコンテキストのみを推定コンテキスト出力部14へ出力するものであってもよい。
【0037】
本発明によれば、第1の認識判定部12は、第1のコンテキスト認識エンジン11によって認識された複数のコンテキストにおける第1のスコアの差が所定閾値以下であるか否かを判定する。
具体的には、第1の認識判定部12は、第1のコンテキスト認識エンジン11によって認識された上位2つのコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する。
スコアの差が大きいほど、1位のスコアのコンテキストにほぼ断定することができる。その場合、第1のコンテキスト認識エンジン11のみで推定した第1のコンテキストを出力することが好ましい。
一方で、スコアの差が小さいほど、上位2つのコンテキストが紛らわしいと判断される。その場合、別の種類のコンテキスト認識エンジンを更に実行し、そのコンテキストも用いて判断することが好ましい。
尚、所定閾値は、オペレータによって設定可能なものである。認識したいコンテキストが動きに基づくものである場合、所定閾値(スコアの差)を大きく設定することが好ましい。
【0038】
前述した第1のコンテキストの例によれば、上位2つの認識結果とのスコアの差は、0.1である。ここで、所定閾値=0.2とした場合、上位2つのコンテキストにおけるスコアの差が所定閾値以下となり、「真」と判定される。
[第1のコンテキスト]:[第1のスコア]
(上位1位)飲む : 0.3
(上位2位)食べる : 0.2(※スコア差0.1=0.3−0.2)
第1の認識判定部12は、真と判定した場合、撮影映像を、第2のコンテキスト認識エンジン13へ出力する。一方で、偽と判定した場合、第1のコンテキストを、推定コンテキスト出力部14へ出力する。
【0039】
[第2のコンテキスト認識エンジン13]
第2のコンテキスト認識エンジン13は、第1の認識判定部12によって真と判定された際に、撮影映像から、第2のコンテキストを認識し、第2のコンテキストと第2のスコアとを対応付けて出力する。第2のコンテキスト認識エンジン13も、例えば「飲む」「食べる」「走る」のような人の行動を表すコンテキストを予め学習しているとする。
具体的には、撮影映像から以下のように第2のコンテキストを認識したとする。
[第2のコンテキスト]:[第2のスコア]
飲む : 0.5
食べる : 0.2
走る : 0.0
認識結果となる第2のコンテキスト及び第2のスコアは、推定コンテキスト出力部14へ出力される。
【0040】
[推定コンテキスト出力部14]
推定コンテキスト出力部14は、第1の認識判定部12によって真と判定された場合、第2のコンテキストを出力する。一方で、第1の認識判定部12によって偽と判定された場合、第1のコンテキストを出力する。
【0041】
また、他の実施形態として、推定コンテキスト出力部14は、複数の第1のコンテキストそれぞれの第1のスコアと、複数の第2のコンテキストそれぞれの第2のスコアとの加算値又は平均値に基づいて、最も高いスコア(スコアの統合値)となるコンテキストを出力することも好ましい。
具体的には、以下のように推定コンテキストを出力する。
[コンテキスト]:[スコア(平均)]
飲む :(0.3+0.5)/2=0.40
食べる :(0.2+0.2)/2=0.20
走る :(0.1+0.0)/2=0.05
この場合、最終的に、コンテキスト「飲む」が、アプリケーションへ出力される。
尚、スコアの統合については、単純平均のみならず、加重平均であってよいし、サポートベクタマシンを用いたものであってもよい(例えば非特許文献3参照)。
【0042】
尚、推定コンテキスト出力部14は、第1のコンテキストのスコア、第2のコンテキストのスコア、又は、第1及び第2のコンテキストのスコアの統合値(加算値又は平均値)が、所定閾値以下である場合、コンテキストの認識不可を出力する。
【0043】
図4は、撮影映像に対する推定タイミングを表す説明図である。
【0044】
撮影映像は、所定単位時間に区分されている。ここで、所定単位時間の中で、1行動当たりの認識に要する初期段階で、その後に使用すべきコンテキスト認識エンジンを自動的に選択する。即ち、所定単位時間毎に、第2のコンテキスト認識エンジン13を実行するか否かが決定されていく。
【0045】
当該所定単位時間の初期段階で、第1のコンテキスト認識エンジン11及び第1の認識判定部12を実行し、第1の認識判定部12の判定に基づいて、その後に第2のコンテキスト認識エンジン13を実行するか否かを決定する。第1の認識判定部12によって「真」と判定された場合、その後の所定時間内では、第1のコンテキスト認識エンジン11及び第2のコンテキスト認識エンジン13の両方が実行される。両方が実行される場合、推定コンテキスト出力部14は、両方のスコアを統合(加算値又は平均値)してコンテキストを決定する。
一方で、当該所定単位時間の初期段階で、第1の認識判定部12によって「偽」と判定された場合、その後の所定時間内では、第1のコンテキスト認識エンジン11のみが実行される。
【0046】
図2によれば、オプション的な構成として、第2のコンテキスト認識エンジン13は、処理時間又は処理時間割合を計測する。
【0047】
このとき、第1の認識判定部12は、処理時間が所定閾値以上、又は、処理時間割合(単位時間当たりの第2のコンテキスト認識エンジンの処理時間の割合)が所定閾値以上となる場合に、第1のコンテキストを推定コンテキスト出力部14へ出力すると共に、第2のコンテキスト認識エンジンを実行する。第2のコンテキスト認識エンジン13における処理時間又は処理時間割合が長いということは、第1のコンテキストのみでは足りず、第2のコンテキストも必要としていることを意味する。この場合、第1の認識判定部12は、第1のコンテキスト及び第2のコンテキストの両方を、推定コンテキスト出力部14へ出力するように制御する。
【0048】
図2によれば、例えば以下のような3つの種別のコンテキスト認識エンジンを備えており、これらを組み合わせて利用する。
RGB認識に基づく物体認識エンジン
オプティカルフローに基づく動体認識エンジン
スケルトン情報に基づく人物の関節領域認識エンジン
これらコンテキスト認識エンジンは、撮影映像から人の行動を推定するために、大量の学習映像から学習モデルを予め生成したものである。
【0049】
RGB認識に基づく物体認識エンジンは、具体的にはCNN(Convolutional Neural Network)のようなニューラルネットワークを用いて、撮影映像に映り込むオブジェクト(対象物)を推定する。
オプティカルフローに基づく動体認識エンジンは、フレーム間で同一の特徴点が動いている箇所を抽出し、撮影映像の中の物体の動きを「ベクトル」で表すものである。
スケルトン情報に基づく人物の関節領域認識エンジンは、具体的にはOpenPose(登録商標)のようなスケルトンモデルを用いて、人の関節の特徴点を抽出するものである(例えば非特許文献7〜9参照)。OpenPoseとは、画像から複数の人間の体/手/顔のキーポイントをリアルタイムに検出可能なソフトウェアであって、GitHubによって公開されている。撮影映像に映る人の身体全体であれば、例えば15点のキーポイントを検出できる。
【0050】
各コンテキスト認識エンジンは、以下のように特性が異なる。
[演算量][認識精度]
RGB認識に基づく物体認識エンジン : 小 低
オプティカルフローに基づく動体認識エンジン : 中 中
スケルトン情報に基づく人物の関節領域認識エンジン: 大 高
【0051】
尚、物体認識、動体認識、関節領域認識では、一般に、人の行動を表すコンテキスト自体が異なる。本発明によれば、認識されるコンテキストを共通化している。
例えば物体認識によって「ペットボトル」「人物」を認識した上で、そのペットボトルと人物の口との位置から、コンテキスト「飲む」を認識する。
また、動体認識によってペットボトルが人物の口へ向かう動きから、コンテキスト「飲む」を認識する。
更に、関節領域認識によって人物の腕の角度とペットボトルとの位置から、コンテキスト「飲む」を認識する。
このように、同じコンテキストを認識する場合であっても、認識エンジンの種類によっては判断要素が異なっている。この場合でも、物体認識よりも、動体認識及び関節領域認識の方が、それら認識精度は高い。また、動体認識よりも、関節領域認識の方が、それら認識精度は高い。
【0052】
図5は、2つのコンテキスト認識エンジンの組み合わせを表すフローチャートである。
[1]RGB認識+オプティカルフロー認識
[2]オプティカルフロー認識+スケルトン情報認識
[3]RGB認識+スケルトン情報認識
【0053】
[1]RGB認識+オプティカルフロー認識(図5(a))
(S11)第1のコンテキスト認識エンジン11は、撮影映像から、RGB画像に基づく物体認識によって、対象物としての第1のコンテキストを推定する。
(S12)ここで、上位2つのコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する。
(S13)S12の判定が真である場合、第2のコンテキスト認識エンジン13が、撮影映像から、オプティカルフローに基づく動体認識によって、動体対象としての第2のコンテキストを推定する。
(S14)そして、S11及びS13の2つのコンテキストを統合した推定コンテキスト(スコアの加算値又は平均値が最も高いコンテキスト)が出力される。
【0054】
[2]オプティカルフロー認識+スケルトン情報認識(図5(b))
(S11)第1のコンテキスト認識エンジン11は、撮影映像から、オプティカルフローに基づく動体認識によって、動体対象としての第1のコンテキストを推定する。
(S12)ここで、上位2つのコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する。
(S13)S12の判定が真である場合、第2のコンテキスト認識エンジン13が、撮影映像から、スケルトン情報に基づく人物の関節領域認識によって、人物の関節領域としての第2のコンテキストを推定する。
(S14)そして、S11及びS13の2つのコンテキストを統合)した推定コンテキスト(スコアの加算値又は平均値が最も高いコンテキスト)が出力される。
【0055】
[3]RGB認識+スケルトン情報認識(図5(c))
(S11)第1のコンテキスト認識エンジン11は、撮影映像から、RGB画像に基づく物体認識によって、対象物としての第1のコンテキストを推定する。
(S12)ここで、上位2つのコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する。
(S13)S12の判定が真である場合、第2のコンテキスト認識エンジン13が、撮影映像から、スケルトン情報に基づく人物の関節領域認識によって、人物の関節領域としての第2のコンテキストを推定する。
(S14)そして、S11及びS13の2つのコンテキストを統合した推定コンテキスト(スコアの加算値又は平均値が最も高いコンテキスト)が出力される。
【0056】
図6は、3つのコンテキスト認識エンジンを有する本発明の行動推定装置の機能構成図である。
【0057】
図6(a)によれば、第1の認識判定部12が、真(上位2つのスコアの差が所定閾値以下)と判定した場合、撮影映像を、第3のコンテキスト認識エンジン16へ出力する。一方で、偽と判定した場合、撮影映像を、第2のコンテキスト認識エンジン13へ出力する。この場合、第1のコンテキスト認識エンジン11は、第2のコンテキスト認識エンジン13と第3のコンテキスト認識エンジン16との切り替えのみのために用いられる。
【0058】
スコアの差が小さいほど、上位2つのコンテキストが紛らわしいと判断される。その場合、認識処理が比較的低速でも、認識精度が比較的高い第3のコンテキスト認識エンジン16を使用する。
一方で、スコアの差が大きいほど、1位のスコアのコンテキストにほぼ断定することができる。その場合、認識精度が比較的低くても、認識処理が比較的高速な第2のコンテキスト認識エンジン13を使用する。
【0059】
図6(b)によれば、第1の認識判定部12が、真(上位2つのスコアの差が所定閾値以下)と判定した場合、撮影映像を、第2のコンテキスト認識エンジン13へ出力する。一方で、偽と判定した場合、第1のコンテキスト認識エンジン11によって認識された第1のコンテキストを、推定コンテキスト出力部14へ出力する。これについては、前述した図2と同様である。
そして、第2のコンテキスト認識エンジン13は、認識した第2のコンテキストを、更に第2の認識判定部15へ出力する。
【0060】
第2の認識判定部15は、第2のコンテキスト認識エンジン13によって認識された複数のコンテキストにおける第2のスコアの差が所定閾値以下であるか否かを判定する。
具体的には、第2の認識判定部15は、第2のコンテキスト認識エンジン13によって認識された上位2つのコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する。
スコアの差が大きいほど、1位のスコアのコンテキストにほぼ断定することができる。その場合、第2のコンテキスト認識エンジン13のみで推定した第2のコンテキストを出力することが好ましい。
一方で、スコアの差が小さいほど、上位2つのコンテキストが紛らわしいと判断される。その場合、更に第3のコンテキスト認識エンジン16へ撮影映像を出力し、その第3のコンテキストも用いて判断することが好ましい。
【0061】
推定コンテキスト出力部14は、第2の認識判定部15によって真と判定された場合、第3のコンテキストを出力し、偽と判定された場合、第2のコンテキストを出力する。尚、図2と同様に、第1の認識判定部12によって偽と判定された場合、第1のコンテキストを出力する。
【0062】
また、他の実施形態として、推定コンテキスト出力部14は、複数の第1のコンテキストそれぞれの第1のスコアと、複数の第2のコンテキストそれぞれの第2のスコアと、複数の第3のコンテキストそれぞれの第3のスコアの加算値又は平均値に基づいて、最も高いスコア(スコアの統合値)となるコンテキストを出力することも好ましい。
【0063】
更に、他の実施形態として、前述した図2と同様に、第2のコンテキスト認識エンジン13及び/又は第3のコンテキスト認識エンジン16は、処理時間又は処理時間割合(単位時間当たりの当該処理時間の割合)を計測するものであってもよい。
その場合、第2の認識判定部15は、処理時間が所定閾値以上、又は、処理時間割合が所定閾値以上となる場合に、第1のコンテキストを推定コンテキスト出力部14へ出力すると共に、第2のコンテキスト認識エンジン13及び/又は第3のコンテキスト認識エンジン16を実行する。前述と同様に、第2のコンテキスト認識エンジン13及び/又は第3のコンテキスト認識エンジン16における処理時間又は処理時間割合が長いということは、第1のコンテキストのみでは足りず、第2のコンテキスト及び/又は第3のコンテキストも必要としていることを意味する。この場合、第2の認識判定部15は、第2のコンテキスト及び/又は第3のコンテキストの両方を、推定コンテキスト出力部14へ出力するように制御する。
【0064】
図7は、3つのコンテキスト認識エンジンの組み合わせを表すフローチャートである。
[4]RGB認識+オプティカルフロー認識orスケルトン情報認識
[5]RGB認識+オプティカルフロー認識+スケルトン情報認識
【0065】
[4]RGB認識+オプティカルフロー認識orスケルトン情報認識(図6(a)、図7(a))
(S11)第1のコンテキスト認識エンジン11は、撮影映像から、RGB画像に基づく物体認識によって、対象物としての第1のコンテキストを推定する。
(S12)ここで、上位2つのコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する。
(S131)S12の判定が偽である場合、第2のコンテキスト認識エンジン13が、撮影映像から、オプティカルフローに基づく動体認識によって、動体対象としての第2のコンテキストを推定する。
(S132))S12の判定が真である場合、第3のコンテキスト認識エンジン16が、スケルトン情報に基づく人物の関節領域認識によって、人物の関節領域としての第3のコンテキストを推定する。
(S14)そして、S11、S131及びS132の2つのコンテキストを統合した推定コンテキスト(スコアの加算値又は平均値が最も高いコンテキスト)が出力される。
【0066】
[5]RGB認識+オプティカルフロー認識+スケルトン情報認識(図6(b)、図7(b))
(S11)第1のコンテキスト認識エンジン11は、撮影映像から、RGB画像に基づく物体認識によって、対象物としての第1のコンテキストを推定する。
(S12)ここで、上位2つのコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する。
(S131)S12の判定が真である場合、第2のコンテキスト認識エンジン13が、撮影映像から、オプティカルフローに基づく動体認識によって、動体対象としての第2のコンテキストを推定する。
(S132)ここで、上位2つのコンテキストにおけるスコアの差が所定閾値以下であるか否かを判定する。
(S133)S132の判定が真である場合、第3のコンテキスト認識エンジン16が、スケルトン情報に基づく人物の関節領域認識によって、人物の関節領域としての第3のコンテキストを推定する。
(S14)そして、S11、S131及びS133の2つのコンテキストを統合した推定コンテキスト(スコアの加算値又は平均値が最も高いコンテキスト)が出力される。
【0067】
本発明によれば、撮影映像に映り込む人の行動の変化が大きいほど、RGB認識のみならず、動体認識や人物の関節領域認識が実行される。
【0068】
以上、詳細に説明したように、本発明のプログラム、装置及び方法によれば、撮影映像の内容に基づいて、人の行動を表すコンテキストを、できる限り高速且つ高精度に推定することができる。具体的には、学習モデルとしてのコンテキスト認識エンジンを、撮影映像の内容に基づいて自動的に選択することができる。
【0069】
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【0070】
1 行動推定装置
11 第1のコンテキスト認識エンジン
12 第1の認識判定部
13 第2のコンテキスト認識エンジン
14 推定コンテキスト出力部
15 第2の認識判定部
16 第3のコンテキスト認識エンジン
2 端末

図1
図2
図3
図4
図5
図6
図7